JPH043253A - キーワード関連度表作成方法 - Google Patents

キーワード関連度表作成方法

Info

Publication number
JPH043253A
JPH043253A JP2104741A JP10474190A JPH043253A JP H043253 A JPH043253 A JP H043253A JP 2104741 A JP2104741 A JP 2104741A JP 10474190 A JP10474190 A JP 10474190A JP H043253 A JPH043253 A JP H043253A
Authority
JP
Japan
Prior art keywords
keyword
document
association degree
search
keyword association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2104741A
Other languages
English (en)
Inventor
Mitsuhisa Kaneya
光久 金矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2104741A priority Critical patent/JPH043253A/ja
Publication of JPH043253A publication Critical patent/JPH043253A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、利用者が指定した検索条件によって文書デー
タベースより文書を検索する際に、検索結果を適切さに
基づいて出力することにより適量・適質検索の可能な文
書検索装置用のキーワード関連度表作成方法に関する。
従来の技術 従来、文書検索装置においては種々の検索方式があるが
、その一つとして各キーワード間の関連情報を記述した
キーワード関連度表(キーワードコネクション表)を利
用したものがある。これは、例えば本出願人により特願
昭63−8291号「文書検索装置」等により提案され
、さらに、本出願人報告の[ファジィ文書検索システム
(1)〜実験システムと評価〜J (情報処理学会第3
9回全国大会、89 論文集)(文献1)や、「ファジ
ィ文書検索システム(2)〜キーワードコネクションマ
トリックスの学習方式〜」 (情報処理学会第39回全
国大会、89 論文集)(文献2)でも言及されている
。これらは、何れもキーワード関連度表を用いて文書確
度(利用者の検索要求に近いものほど大きな値を持つ評
価値)を計算し、この結果に基づいて文書を検索するよ
うにしたものである。これらの検索方式による場合、文
書確度計算の源となるキーワード関連度表の精度(適切
さ)が検索結果に大きく影響を与える。キーワード関連
度表の精度を向上させる方法としては、例えば上記文献
2により、検索結果に対する利用者の判断を用いである
種の学習によってキーワード関連度を変化させる方法(
動的キーワード関連度)等が提案されている。
発明が解決しようとする課題 ところが、この方法では利用者が何度も検索及び学習を
行なった後でなければ、精度の高いキーワード関連度表
を得ることができない。特に、初期値として精度の悪い
値(適切でない値)が与えられているキーワード関連度
表を適切な値に収束させるには、一般に、非常に多数回
の学習を必要とするので、キーワード関連度表の初期値
の精度は検索装置の性能に大きく影響する。
ちなみに、キーワード関連度表の初期値の与え方として
は、上記文献1に示される方法がある。
これは、キーワード数をKとするとき、キーワード関連
度をKXKの行列W(キーワード・コネクション・マト
リックス)として計算するもので、キーワード1とキー
ワードJとの関連度の初期値Wijは(1)式により与
えられる。
ただし、Ni、Njは各々のキーワードLJの出現頻度
、Nljはキーワードltjの共出現頻度である。
一般に、キーワードの出現頻度を用いたWIJの計算式
は、Ni、Nj、Nijの関数f、で表すことができる
。即ち、 Wij = f、 (Ni、 Nj、 N1j)  ・
・・・・・・・・・・・・・・・・・・・・・・・・・
・(2)また、文書数nの場合の出現頻度Nは、となる
。ここに、fl(i、  k)はキーワードlと文書に
との関係を表す関数で、キーワードiが文書kに付けら
れている場合にはf、(i、k)=1、キーワード1が
文書kに付けられていない場合にはf、(i、k)=O
となる。
このように従来の方法においては、各キーワードと各文
書との関係には、あるキーワードがある文書に「付けら
れている」又は「付けられていない」の2通りしかない
ものである(関数f1 が2値のため)。このため、例
えば文書内容を非常に的確に表現しているキーワードを
検索条件とじて入力した場合と、文書の内容を直接的に
は表現していないようなキーワードを入力した場合とで
も、もし、両方ともキーワードとしてその文書に付けら
れているならば検索結果は差がないものとなってしまう
。また、あるキーワードを検索条件として入力した場合
、そのキーワードが非常に重要である文書と、大して重
要ではないが散散えずそのキーワードが付けられている
ような文書との場合であっても、その文書確度が同一と
なってしまう。
このような不都合の生ずる最大の原因は、文書とキーワ
ードとの関係が前述したように「付けられている」又は
[付けられていないJの2値でしか表現されていないた
め、適量・適量なる検索結果が得られないものである。
課題を解決するための手段 キーワード等の検索条件を入ツノとし、キーワード間の
関係の強さを示すキーワード関連度等の情報を記述した
キーワード関連度表を用いた所定の計算式から入力され
た前記検索条件に対する各文書の評価値を文書確度とし
て求め、その文書と求められた文書確度とを検索結果と
する検索を行なう文書検索装置において、各キーワード
の各文書に対する多値表現の重要度を用いてキーワード
関連度を計算し、キーワード関連度表を作成するように
した。
作用 多値で表されたキーワードの文書に対する重要度という
概念を取り込んでキーワード関連度を計算し、キーワー
ド関連度表を作成するので、文書に対するキーワードの
重要さが反映されたものとなり、このようなキーワード
関連度表を用いて文書検索を行なうことにより、より適
量・適量なる検索結果が得られる効率的な検索が可能と
なるものである。
実施例 本発明の一実施例を図面に基づいて説明する。
図面に示すキーワード関連度表作成装置1は、前述した
本出願人既提案の文書検索装置中のキーワード関連度表
処理部を構成するもので、キーワード抽出部(図示せず
)からデータを受取り、キーワード関連度表を計算し作
成する処理部分を担うものである。
本実施例のキーワード関連度表作成装置1は、文書番号
k、キーワード番号jとともに、キーワード評価値f、
(i、k)が入力される入力部2と、入力されたデータ
を蓄えるデータ記憶部3と、これらのデータを基にして
キーワード関連度表の多値を計算するキーワード関連度
計算部4と、計算結果をキーワード関連度表(図示せず
)に出力する出力部5と、制御信号に基づきこれらを制
御する制御部6とよりなる。
このような構成において、本実施例によるキーワード関
連度表作成方法を説明する。まず、入ツノデータについ
て考えると、本実施例ではキーワード評価値fl(i、
 k)が付加されている点が従来のものと大きく異なる
。このキーワード評価値は各キーワードiの各文書kに
対する重要度を多値により表したもので(0<f、(i
、k)≦1なる実数)、文書番号k、キーワード番号l
を入力する際に併せて入力する。
しかして、本実施例では、入力フェーズ、計算・出力フ
ェーズの2つの動作状態を遷移することにより、キーワ
ード関連度表を作成する。動作状態の遷移は、外部から
制御部6に与えられる制御信号の指示による。
入力フェーズでは、各文書番号k、その文書に付けられ
ているキーワード番号i及び各キーワードの文書に対す
るキーワード評価値f、(i、k)が入力される。入力
されたデータは、−旦、データ記憶部3に蓄えられる。
全てのデータ入力の終了が制御部6に指示されると、計
算・出力フェーズに遷移する。計算・出力フェーズでは
データ記憶部3に蓄えられたデータを読出し、キーワー
ド関連度計算部4で計算を行なった後、出力部5を通し
て目的とするキーワード関連度表が出力される。
ここに、本実施例では、入力データの一つに多値の値を
とるキーワード評価値を用いるため、キーワード関連度
計算部4での計算式も従来のものとは異なる。この点に
ついて説明する。ここでは、説明を簡単にするため、f
、、 f、を0以上、1以下の実数値をとる関数とする
。また、関数ハについては、あるキーワードiがある文
書kに対して重要であるほど、高い評価値を与えるもの
とする。
ここで、例えば従来の計算式に、キーワード評価値f、
(i、k)を用いた場合の出現頻度Mは、となる。従っ
て、一般式(2)は Wij = f、 (Mi、 Mj、 Mij)  ・
・・・・・・・・・・・・・・・・・・・・・・・・・
・(7)と書き直すことができる。よって、従来の(1
)式についても、(8)式のように書き直すことができ
る。
ただし、Mi、Mjは各々のキーワードi+Jの出現頻
度、MiJはキーワードl+Jの共出現頻度である。
ここで、関数f、を用いた従来方式と、キーワード評価
値関数f、を用いた本実施例方式との、キーワード番号
lに対する値の違いを検討する。
まず、従来方式によると、前述したように、キーワード
番号lが入力された場合にはf、(1,k)=1.0、
キーワード番号iが入力されなかった場合にはf、(i
、k)=O,Oとなる。一方、本実施例方式によると、
キーワード番号iが入力されなかった場合にはf、(i
、k)=O,Oとなるのは同じであるが(これは、その
キーワード番号iを入力する際に評価値Oを入力したと
意味的に全く等価である)、キーワード番号iが入力さ
れた場合には、L(il k)は、必ずしも1.0では
なく、入力されたキーワード評価値となる。従って、本
実施例でもキーワード評価値の値を常に最大値1.0と
して入力すれば、f、はflと等価となり、キーワード
関連度の計算結果も等しいものとなる。しかし、文書の
重要度等に応じたキーワード評価値を入力した場合には
、それに応じたキーワード関連度の計算結果が得られる
キーワード評価値は、利用者が文書にキーワードを付け
る際に利用者の主観に基づいて入力させてもよく、或い
は、評価値計算装置を用意して入力側に接続するように
してもよい。簡単な評価値計算装置としては、文書中に
おけるキーワードの出現頻度を利用したものが考えられ
る。また、キーワード自動抽出装置を使用(又は、人手
と併用)する場合には、キーワード自動抽出装置内の抽
出判断に使われている内部変数をキーワード評価値とし
て入力することも有効と考えられる。
このように、本実施例によれば、多値で表されるキーワ
ードの文書に対する重要度という概念を取り込んでキー
ワード関連度表を作成するので、次のような効果が得ら
れる。
まず、利用者の感覚に、より近づいた曖昧検索が可能と
なる。即ち、2値によらず、多値で表されたキーワード
評価値を用いて作成されたキーワード関連度表を使用し
て曖昧検索を行なうことにより、より適量・適量な検索
結果を出力させることが可能となる。例えば、あるキー
ワードを検索条件として入力した場合、そのキーワード
を重要とする文書のほうが、そのキーワードをそれほど
重要としていない文書よりも、大きな文書確度の値を持
って出力させることができる。また、複数のキーワード
によるOR検索のように、検索条件を満たす文書が多数
存在し、従来方式では文書確度が同一になってしまう場
合にも、本実施例では、文書に対するキーワードの重要
度により文書確度が異なりランク付けを行なうこともで
き、より効率的な文書検索が可能となる。
また、キーワード付は作業の軽減及びキーワード精度の
向上を図ることができる。一般に、利用者が文書にキー
ワードを付ける際に、ある語をキーワードとして登録す
るか否か非常に迷うことが頻繁に起こる。これは、大し
て重要でないキーワードを文書に付けた場合、検索して
ほしくないような文書まで多数検索してしまうといった
こと(ノイズの増加)が起こり、文書の絞り込みが難し
くなる一方、キーワードを付けておかないと検索漏れを
起こす可能性があるからである。このような場合であっ
ても、本実施例によれば、散散えず低い値のキーワード
評価値でキーワード登録を行なっておくことにより、利
用者は深く悩まずに済む。また、ある種の文書解析を応
用した装置によりキーワードの自動抽出及び自動登録を
行なう場合に、従来方式によると抽出装置(特に、ある
語をキーワードとして「付ける」か「付けないJかの判
断部分)に非常に高い精度が要求されるが、抽出装置内
で判断に使用している情報をキーワード評価値として外
部に出力し、本実施例方式を適用することによ番ハ 「
付ける」か「付けない」かの境目付近にあるキーワード
を「曖昧」な形のままでキーワード関連度表に反映させ
ることができる。
発明の効果 本発明は、上述したように多値で表されたキーワードの
文書に対する重要度という概念を取り込んでキーワード
関連度を計算し、キーワード関連度表を作成するように
したので、文書に対するキーワードの重要さを反映した
キーワード関連度表を作成でき、このようなキーワード
関連度表を用いて文書検索を行なうことにより、より適
量・適量なる検索結果が得られる効率的な検索を可能と
することができる。
【図面の簡単な説明】
図面は本発明の一実施例を示すブロック図である。

Claims (1)

    【特許請求の範囲】
  1.  キーワード等の検索条件を入力とし、キーワード間の
    関係の強さを示すキーワード関連度等の情報を記述した
    キーワード関連度表を用いた所定の計算式から入力され
    た前記検索条件に対する各文書の評価値を文書確度とし
    て求め、その文書と求められた文書確度とを検索結果と
    する検索を行なう文書検索装置において、各キーワード
    の各文書に対する多値表現の重要度を用いてキーワード
    関連度を計算し、キーワード関連度表を作成するように
    したことを特徴とするキーワード関連度表作成方法。
JP2104741A 1990-04-20 1990-04-20 キーワード関連度表作成方法 Pending JPH043253A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2104741A JPH043253A (ja) 1990-04-20 1990-04-20 キーワード関連度表作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2104741A JPH043253A (ja) 1990-04-20 1990-04-20 キーワード関連度表作成方法

Publications (1)

Publication Number Publication Date
JPH043253A true JPH043253A (ja) 1992-01-08

Family

ID=14388925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2104741A Pending JPH043253A (ja) 1990-04-20 1990-04-20 キーワード関連度表作成方法

Country Status (1)

Country Link
JP (1) JPH043253A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117351A (ja) * 2006-11-08 2008-05-22 Nomura Research Institute Ltd 検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117351A (ja) * 2006-11-08 2008-05-22 Nomura Research Institute Ltd 検索システム

Similar Documents

Publication Publication Date Title
Avigad et al. Local stability of ergodic averages
Sutcliffe et al. Towards a cognitive theory of information retrieval
Chow et al. Additive control of stochastic linear systems with finite horizon
US5412807A (en) System and method for text searching using an n-ary search tree
Abadi et al. A per model of polymorphism and recursive types
KR102055899B1 (ko) 맥락을 이용하여 문서를 검색하는 시스템 및 방법
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
Luo et al. Increasing the accuracy and coverage of SQL progress indicators
US20050114317A1 (en) Ordering of web search results
Mousavi et al. Text-mining, structured queries, and knowledge management on web document corpora
JPH09282331A (ja) 文書類似判定装置および文書類似判定方法
JPH043253A (ja) キーワード関連度表作成方法
CN110929501B (zh) 文本分析方法和装置
Nakanishi et al. Semantic waveform measurement method of kansei transition for time-series media contents
JPH06251076A (ja) データ・ベース検索装置および方法
Grether et al. Studying Interaction Patterns for Knowledge Graph Exploration.
JPH03294964A (ja) 文書検索方法
Fällman Analysing a modified ranking algorithm for exploratory search
Savinov Application of multi-dimensional fuzzy analysis to decision making
Kóczy et al. Fuzzy tolerance relations and relational maps applied to information retrieval
Michalski et al. A measure of description quality for data mining and its implementation in the AQ18 learning system
JP2715981B2 (ja) 検索結果評価装置
JPH04135278A (ja) 文書検索装置
CN106156141B (zh) 构建语义查询词模板的方法及装置
CN117390076A (zh) 一种信息处理方法和装置