JP3385913B2 - 関連語提示装置及び関連語提示用プログラムを記録した媒体 - Google Patents

関連語提示装置及び関連語提示用プログラムを記録した媒体

Info

Publication number
JP3385913B2
JP3385913B2 JP13730097A JP13730097A JP3385913B2 JP 3385913 B2 JP3385913 B2 JP 3385913B2 JP 13730097 A JP13730097 A JP 13730097A JP 13730097 A JP13730097 A JP 13730097A JP 3385913 B2 JP3385913 B2 JP 3385913B2
Authority
JP
Japan
Prior art keywords
value
related word
word
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP13730097A
Other languages
English (en)
Other versions
JPH10334105A (ja
Inventor
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP13730097A priority Critical patent/JP3385913B2/ja
Publication of JPH10334105A publication Critical patent/JPH10334105A/ja
Application granted granted Critical
Publication of JP3385913B2 publication Critical patent/JP3385913B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は関連語提示装置及び
関連語提示用プログラムを記録した媒体に関し、特に検
索条件に関連する単語を提示する関連語提示装置及び検
索条件に関連する単語の提示をコンピュータに行わせる
ための関連語提示用プログラムを記録した媒体に関す
る。
【0002】
【従来の技術】検索システムでは、一般にキーワードに
よる検索方法が用いられている。検索条件として任意の
キーワード(検索語)を検索システムに入力すると、文
書内容に検索語を含む全ての文書が検索結果として得ら
れる。ところが、このような検索システムで多量の文献
情報を検索対象とする場合、必然的に検索結果も多量に
なり、その適合性を判断するために多大の労力を費やす
ことになる。この労力には、個人差はあるせよ、無益点
と呼ばれる物理的/心理的限界がある。検索結果がその
限界を超えてしまう場合は、適合性の判断に要する労力
を軽減しようとして、検索結果を絞り込む行動をとりが
ちである。これは、適合する検索結果を得ることより
も、検索結果の量が無益点を下回ることの方を重視しが
ちであることを示している。そのため、検索対象を絞り
込むための論理積演算子を過度に使用することになり、
結果として、本来なら検索できた有用な文献の検索漏れ
を生じさせることになる。大規模全文データベースの検
索では、この傾向は特に顕著である。
【0003】そこで、「特開平2−297290号公
報」において提案されているように、関連語辞書を用い
ることにより検索語の関連語をユーザに提示する方法が
用いられている。ユーザは、検索式に含まれている検索
語の関連語の中から適切な語を選択して論理積演算子で
結合し、検索結果を絞り込むことによって、前述のよう
な盲目的な絞り込みを避けることができる。
【0004】例えば、ユーザが入力した検索語が「軸
受」の場合、関連語辞書から「軸受」の関連語として
「玉軸受」「マイクロボール軸受」「液体軸受」「気体
潤滑軸受」「磁気軸受」などを取得し、ユーザに提示す
る。ここで、ユーザが「磁気軸受」について知りたい場
合、「磁気軸受」を新たな検索語とする(あるいは「軸
受」に対して「磁気」を論理積演算子で結合する)こと
によって、検索結果の絞り込みを適切に行うことができ
る。
【0005】すなわち、検索語の関連語として提示され
た語の中から検索意図に沿った語を選択し、論理積演算
子で結合することによって、的確な検索結果の絞り込み
を行うことが可能となる。
【0006】
【発明が解決しようとする課題】しかし、通常のキーワ
ード検索では検索語と完全一致する文書のみを検索結果
とするため、検索結果が必要以上に絞り込まれてしまう
場合が多いにもかかわらず、検索結果が必要以上に絞り
込まれていないかどうかを、ユーザが簡単に知ることが
できないという問題点があった。
【0007】絞り込みが過度なものでない(重要な検索
結果が漏れしまっていない)ことをユーザが確認するた
めには、絞り込み前の検索結果と絞り込み後の検索結果
との両者の内容を比較対比しなければならない。このよ
うな確認作業は、検索結果が大量であることから考えて
実際には不可能である。そのため、上記の従来技術で
は、絞り込みによってどのような検索結果が得られたの
か(絞り込みによって検索結果がどのように変化したの
か)については何も知ることができない。したがって、
絞り込みによって得られた検索結果が検索意図に沿わな
い(検索漏れが極めて多い)場合でも、その検索結果を
最終結果として採用してしまうことになる。
【0008】本発明はこのような点に鑑みてなされたも
のであり、検索条件を変更したことによって検索結果が
受ける影響を容易に確認できる関連語提示装置を提供す
ることを目的とする。
【0009】また、本発明の他の目的は、検索条件を変
更したことによって検索結果が受ける影響を容易に確認
できるようにコンピュータを機能させるための関連語提
示用プログラムを記録した媒体を提供することである。
【0010】
【課題を解決するための手段】本発明では上記課題を解
決するために、検索条件に関連する単語を提示する関連
語提示装置において、複数の文書を格納する文書格納手
段と、入力された複数の検索条件を受け取る検索条件受
取手段と、前記検索条件受取手段が受け取った各検索条
件に適合する文書集合を前記文書格納手段から取得する
文書検索手段と、前記文書検索手段が取得した文書集合
中に存在する各単語を関連語候補とし、前記文書検索手
段が取得した文書の数である第1の値と、前記文書検索
手段が取得した文書集合の中で各関連語候補を含んでい
る文書の数である関連語候補ごとの第2の値と、前記文
書格納手段に格納されている文書の中で各関連語候補を
含んでいる文書の数である関連語候補ごとの第3の値と
を取得し、第1の値と第3の値との積あるいは和である
第4の値を関連語候補ごとに計算し、第2の値と第4の
値との比率に基づいて、前記検索条件受取手段が受け取
った検索条件と各関連語候補との間の関連度を、検索条
件ごとに計算する関連度計算手段と、前記検索条件受取
手段が受け取った各検索条件に応じて前記関連度計算手
段により算出された各関連語候補の関連度を比較し、各
関連語候補の関連度の値の変化に基づいて関連語を決定
する関連語計算手段と、前記関連語計算手段が決定した
関連語を表示装置に表示する関連語表示手段と、を有す
ることを特徴とする関連語提示装置が提供される。
【0011】この関連語提示装置によれば、入力された
複数の検索条件が検索条件受取手段によって受け取ら
れ、文書検索手段により、各検索条件に適合する文書集
合が文書格納手段から取得される。次に、関連度計算手
段によって、検索条件受取手段が受け取った検索条件と
各関連語候補との間の関連度が、検索条件ごとに計算さ
れる。すると、関連語計算手段により、検索条件受取手
段が受け取った各検索条件に応じて関連度計算手段によ
り算出された各関連語候補の関連度が比較され、各単語
の関連度の値の変化に基づいて関連語が決定される。決
定された関連語は、関連語表示手段によって表示装置に
表示される。これにより、複数の検索条件のそれぞれか
ら得られる検索結果の相違点を、その検索結果から抽出
された単語の関連度の変化によって容易に確認すること
ができる。
【0012】また、検索条件に関連する単語の提示をコ
ンピュータに行わせるための関連語提示用プログラムを
記録した媒体において、複数の文書を格納する文書格納
手段、入力された複数の検索条件を受け取る検索条件受
取手段、前記検索条件受取手段が受け取った各検索条件
に適合する文書集合を前記文書格納手段から取得する文
書検索手段、前記文書検索手段が取得した文書集合中に
存在する各単語を関連語候補とし、前記文書検索手段が
取得した文書の数である第1の値と、前記文書検索手段
が取得した文書集合の中で各関連語候補を含んでいる文
書の数である関連語候補ごとの第2の値と、前記文書格
納手段に格納されている文書の中で各関連語候補を含ん
でいる文書の数である関連語候補ごとの第3の値とを取
得し、第1の値と第3の値との積あるいは和である第4
の値を関連語候補ごとに計算し、第2の値と第4の値と
の比率に基づいて、前記検索条件受取手段が受け取った
検索条件と各関連語候補との間の関連度を、検索条件ご
とに計算する関連度計算手段、前記検索条件受取手段が
受け取った各検索条件に応じて前記関連度計算手段によ
り算出された各関連語候補の関連度を比較し、各関連語
候補の関連度の値の変化に基づいて関連語を決定する関
連語計算手段、前記関連語計算手段が決定した関連語を
表示装置に表示する関連語表示手段、としてコンピュー
タを機能させるための関連語提示用プログラムを記録し
た媒体が提供される。
【0013】この媒体に記録された関連語提示用プログ
ラムをコンピュータで実行させれば、複数の文書を格納
する文書格納手段と、入力された複数の検索条件を受け
取る検索条件受取手段と、前記検索条件受取手段が受け
取った各検索条件に適合する文書集合を前記文書格納手
段から取得する文書検索手段と、前記文書検索手段が取
得した文書の数である第1の値と、前記文書検索手段が
取得した文書集合中に存在する単語のそれぞれを含んで
いる文書の数である単語ごとの第2の値と、前記文書格
納手段に格納されている文書の中で、各単語を含んでい
る文書の数である単語ごとの第3の値とを取得し、第1
の値と第3の値との積あるいは和である第4の値を単語
ごとに計算し、第2の値と第4の値との比率に基づい
て、前記検索条件受取手段が受け取った検索条件と各単
語との間の関連度を、検索条件ごとに計算する関連度計
算手段と、前記検索条件受取手段が受け取った各検索条
件に応じて前記関連度計算手段により算出された各単語
の関連度を比較し、各単語の関連度の値の変化に基づい
て関連語を決定する関連語計算手段と、前記関連語計算
手段が決定した関連語を表示装置に表示する関連語表示
手段と、がコンピュータによって実現される。
【0014】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の原理構成図であ
る。文書格納手段1は、複数の文書を格納している。検
索条件受取手段2は、ユーザがキーボード等の入力装置
を用いて入力した複数の検索条件「Sd」「Sl」を受
け取る。文書検索手段3は、検索条件受取手段2が受け
取った各検索条件に適合する文書集合「Xd」「Xl」
を、文書格納手段1から取得する。
【0015】関連度計算手段4は、まず、文書検索手段
3が取得した文書集合中に存在する各単語を関連語候補
とする。そして、文書検索手段3が取得した文書の数で
ある第1の値と、文書検索手段3が取得した文書集合中
に存在する各関連語候補を含んでいる文書の数である関
連語候補ごとの第2の値と、文書格納手段に格納されて
いる文書の中で、各関連語候補を含んでいる文書の数で
ある関連語候補ごとの第3の値とを取得し、第1の値と
第3の値との積あるいは和である第4の値を関連語候補
ごとに計算し、第2の値と第4の値との比率に基づい
て、検索条件受取手段2が受け取った検索条件と各関連
語候補との間の関連度を、検索条件ごとに計算する。例
えば、後述する拡張相互情報量「MI0 (Sd,Wd
n)」「MI 0 (Sl,Wln)」(「Wdn」は「X
d」に含まれる関連語候補の識別子であり、「Wln」
は「Xl」に含まれる関連語候補の識別子である)を計
算し、その値を関連度とする。拡張相互情報量は、値が
大きいほど、検索条件と関連語候補との間の関連度が高
いことを示す。
【0016】関連語計算手段5は、検索条件受取手段2
が受け取った各検索条件「Sd」「Sl」に応じて関連
度計算手段4により算出された各関連語候補の関連度を
比較し、各関連語候補の関連度の値の変化に基づいて関
連語を決定する。例えば、関連度増加語の閾値「Tu」
と、関連度減少語の閾値「Ti」を予め設定しておく。
そして、「Wdn」と「Wln」とに含まれる全ての関
連語候補に関し、一方の検索条件「Sl」との間の関連
度から、他方の検索条件「Sd」との間の関連度を減算
する。減算の結果が閾値「Tu」より大きければ関連度
増加語とし、閾値「Ti」より小さければ関連度減少語
とする。これらの、関連度増加語と関連度減少語とが関
連語となる。
【0017】関連語表示手段6は、関連語計算手段5が
決定した関連語を表示装置に表示する。このような関連
語提示装置によれば、ユーザが、検索過程における絞り
込み前と絞り込み後のそれぞれの検索条件を入力すれ
ば、それらの検索条件に対する各語の関連度が計算さ
れ、関連度の変化に応じて適当な関連語(例えば、関連
度の変化の大きい単語)がユーザに提示される。これに
より、検索結果として得られる文書集合を精読すること
なしに、検索式を変更したことによって検索結果集合の
特徴がどのように変化したかを知ることが可能となる。
具体的には、検索意図に合致する語の関連度が大きく減
少した場合(あるいは、検索意図に沿わない語の関連度
が大きく増加した場合)に、検索式の変更が適切でなか
った(よって、適切な検索結果が得られるよう検索式を
再修正すべきである)ことを知ることができ、ユーザの
検索意図に沿わない誤った絞り込みを避けることが可能
となる。さらに、表示された関連語を参照することによ
り、絞り込みを行うための検索式の再修正を効率的に行
うことができる。
【0018】なお、上記の各原理構成の構成要素の機能
は、各処理機能の命令が記述されたプログラムをコンピ
ュータで実行することにより実現できる。その場合、プ
ログラムは、コンピュータで読み取り可能な記録媒体に
格納しておく。記録媒体としては、半導体記憶装置や、
磁気記録装置、あるいは光ディスク等を用いることがで
きる。
【0019】ところで、本発明の関連語計算手段では、
本来単語間の類似度として用いる統計量である相互情報
量、Dice−coefficientおよびt−sc
oreを拡張することによって、検索式と単語の間の類
似度を計算し、その類似度を関連度とすることができ
る。相互情報量、Dice−coefficientお
よびt−scoreを単語間の類似度計算に用いた例と
して、「春野,山崎:辞書と統計を用いた対訳アライメ
ント,情報処理学会自然言語処理研究会研究報告,96
−NL−112,pp.23−30(1996)」、
「大森,堤,中西:統計情報を用いた対訳単語辞書の作
成,言語処理学会第2回年次大会発表論文集,pp.4
9−52(1996)」等を挙げることができる。
【0020】以下に、相互情報量などを本願発明に適用
するための拡張方法について説明する。単語word1
とword2の間の相互情報量(MI)は、
【0021】
【数1】
【0022】と定義される。ただし、全検索対象文書数
をM、word1とword2を共に含む文書数をa、
word1のみを含む文書数をb、word2のみを含
む文書数をcとした場合、
【0023】
【数2】
【0024】
【数3】
【0025】
【数4】
【0026】である。これに対して本発明では、検索式
Sと単語wordの間の相互情報量(MI0 )を、
【0027】
【数5】
【0028】と定義する。ただし、全検索対象文書数を
M、wordを含みかつ検索式Sから得られる文書の数
をa0 、検索式Sから得られる文書のうちwordを含
まない文書の数をb0 、wordを含む文書のうち検索
式Sから得られる文書を除いた文書の数をc0 とした場
合、
【0029】
【数6】
【0030】
【数7】
【0031】
【数8】
【0032】である。ここで、「a0 +b0 」が図1の
説明における「第1の値」に相当し、「a0 」が「第2
の値」に相当し、「a0 +c0 」が「第3の値」に相当
する。したがって、式(5)は、
【0033】
【数9】
【0034】とすることにより、全検索対象文書数M、
「第1の値」、「第2の値」及び「第3の値」を変数と
する計算式となる。相互情報量と同様に単語間の類似度
を求める統計量として、Dice−coefficie
ntおよびt−scoreを挙げることができる。Di
ce−coefficient(DC)およびt−sc
ore(TS)は、
【0035】
【数10】
【0036】
【数11】
【0037】と定義される。これらについても、相互情
報量と同様に、検索式と単語の間の類似度計算するため
に以下のような拡張を施すことが可能である。
【0038】
【数12】
【0039】
【数13】
【0040】MI0 (S,word),DC0 (S,wor
d),TS0 (S,word)のいずれも、その値が大きい
ほど検索式Sと単語wordの間に高い類似性があるこ
とを意味する。以後、MI0 (S,word)を「拡張相互
情報量」、DC0 (S,word)を「拡張DC」、TS0
(S,word)を「拡張TS」と呼ぶこととする。なお、
相互情報量と同様に、拡張DCと拡張TSとをそれぞ
れ、
【0041】
【数14】
【0042】
【数15】
【0043】と表すことができる。式(14)から分か
るように、拡張DCを求める際には、全検索対象文書数
Mは不要である。次に、本発明の関連文書検索装置の実
施の形態を具体的に説明する。
【0044】図2は、本発明の実施の形態の構成を示す
ブロック図である。文書格納手段11は、電子化された
検索対象文書の内容を形態素解析手段12によって付加
される文書識別子と対にして格納する記憶装置である。
【0045】形態素解析手段12は、文書格納手段11
に格納されている各文書に文書識別子を付加した上で、
各文書に形態素解析処理を施して自立語(キーワードと
なるべき語)を抽出し、対応する文書識別子と対にして
格納する。
【0046】索引構造生成手段13は、形態素解析手段
12での形態素解析処理結果を基に、索引構造として、
単語−単語識別子リスト14a、単語識別子−文書識別
子リスト14b、文書識別子−単語識別子リスト14c
を作成する。
【0047】索引構造格納手段14は、索引構造生成手
段13によって作成された単語−単語識別子リスト14
a、単語識別子−文書識別子リスト14b、文書識別子
−単語識別子リスト14cを格納する記憶装置である。
【0048】単語−単語識別子リスト14aは、単語文
字列とその単語を特定するための単語識別子の対応関係
を記述したリストである。単語識別子−文書識別子リス
ト14bは、各単語識別子について、その単語識別子で
示される単語文字列を含む文書の文書識別子の集合を記
述したリストである。
【0049】文書識別子−単語識別子リスト14cは、
各文書識別子について、その文書識別子で示される文書
に含まれる単語の単語識別子の集合を記述したリストで
ある。
【0050】検索条件受取手段21は、単語を論理和演
算子あるいは論理積演算子で接続することによって構成
される検索条件(検索式)の入力を、キーボードなどの
入力装置から複数回受け付けるユーザインタフェースで
ある。
【0051】文書検索手段22は、検索条件受取手段2
1に入力された検索条件に適合する全ての文書の文書識
別子を、単語−単語識別子リスト14a及び単語識別子
−文書識別子リスト14bを参照して取得し、取得した
文書識別子集合を保存する。また、関連度計算手段25
に対しては、保存した文書識別子集合中の識別子数を渡
すと共に、関連度計算手段25から与えられる単語識別
子に対応する単語を含む文書の総数を渡す。
【0052】文書内単語検索手段23は、文書検索手段
22から得られる検索条件に適合する文書集合の各文書
に含まれる単語の識別子集合を、文書識別子−単語識別
子リスト14cを参照して取得し、それらを連接して1
つの単語識別子集合とする。
【0053】単語出現数計算手段24は、文書内単語検
索手段23から得られた単語識別子集合中での各単語識
別子の出現数を計算し、単語識別子と出現数との対をリ
ストとして作成する。
【0054】関連度計算手段25は、単語出現数計算手
段24によって計算された各単語識別子の出現頻度と、
文書検索手段22から得られた検索条件に適合する文書
識別子の総数と、文書検索手段22から得られる単語識
別子に対応する単語を含む文書数の3つの値を基に、検
索条件受取手段21に入力された検索条件と各単語識別
子に対応する単語との間の拡張相互情報量を計算する。
【0055】関連度記憶手段26は、関連度計算手段2
5によって計算された各単語とその拡張相互情報量と
を、対応する検索条件と共に格納する。検索条件指定手
段27は、関連度記憶手段26に記憶されている検索条
件(検索条件受取手段21に入力された検索条件)を表
示し、その中から、検索条件受取手段21に最後に入力
された検索条件との比較対象とすべき検索条件を指定す
ることが可能なユーザインターフェースである。
【0056】関連語計算手段28は、検索条件受取手段
21に最後に入力された検索条件に対応する各語の拡張
相互情報量と、検索条件受取手段21によって指定され
た検索条件に対応する各語の拡張相互情報量とを比較
し、両者の値の差の絶対値を求める。そして、両者の相
互情報量の絶対値の差が、予め設定された閾値を超える
語を関連語として取得する。
【0057】関連語表示手段29は、関連語計算手段2
8で計算された各関連語を出力するユーザインタフェー
スである。検索結果表示手段30は、文書検索手段22
から得られる、検索条件受取手段21に入力された検索
条件に適合する文書集合を、文書格納手段11を参照し
て出力するユーザインタフェースである。
【0058】なお、上記の各構成要素の有している機能
は、コンピュータが所定のプログラムモジュールを実行
することによって実現される機能である。そして、これ
らを実現するためのコンピュータプログラムは、半導体
メモリや磁気記録媒体などの記録媒体に記録されてい
る。ただし、文書格納手段11と索引構造格納手段14
とは、実際のHDD(ハードディスク装置)などの記憶
装置を、所定のプログラムで制御することにより実現さ
れる。
【0059】また、図2の関連語提示装置の各構成要素
は、図1の構成要素に対して次のような関係にある。文
書格納手段11及び索引構造格納手段14が文書格納手
段1に対応する。検索条件受取手段21が検索条件受取
手段2に対応する。文書検索手段22が文書検索手段3
に対応する。文書内単語検索手段23、単語出現数計算
手段24及び関連度計算手段25が関連度計算手段4に
対応する。関連度記憶手段26及び関連語計算手段28
が関連語計算手段5に対応する。関連語表示手段29が
関連語表示手段6に対応する。
【0060】ここで、本実施の形態では、関連文書検索
を行う前に予め索引構造の生成処理を実行しておく必要
がある。そこで、まず索引構造の生成処理について説明
する。
【0061】索引構造の生成処理の前提として、形態素
解析結果リストが生成されていなければならない。図3
は、形態素解析手段12に格納される形態素解析結果リ
スト12aの例を示す図である。形態素解析手段12
は、文書格納手段11に格納されている各検索対象文書
に識別子を割当てた上で、それぞれの文書に形態素解析
処理を施して自立語を抽出し、対応する文書識別子と対
にして格納する。ただし、同一文書中から同一の自立語
が複数回抽出された場合は、2回目以降の抽出結果を無
視し、一つの文書識別子に対応する自立語が重複するこ
とはないものとする。
【0062】この形態素解析結果リスト12aを基に、
索引構造生成手段13が各種索引構造を生成する。図4
〜図6に索引構造生成手段13により作成され、索引構
造格納手段14に格納される索引構造の例を示す。なお
図4〜図6中のデータは、図3のデータに基づいて作成
された例となっている。
【0063】図4は、単語−単語識別子リストの例を示
す図である。単語−単語識別子リスト14aには、抽出
された単語と、その単語に割り当てられた識別子とが組
となって格納されている。
【0064】図5は、単語識別子−文書識別子リストの
例を示す図である。単語識別子−文書識別子リスト14
bには、単語識別子と、その単語識別子が割り当てられ
ている単語を含む文書の識別子(文書識別子)が組とな
って格納されている。
【0065】図6は、文書識別子−単語識別子リストの
例を示す図である。文書識別子−単語識別子リスト14
cには、文書識別子と、その文書識別子が割り当てられ
ている文書に含まれる単語の単語識別子とが組となって
格納されている。
【0066】索引構造生成手段13による索引構造の生
成アルゴリズムは以下の通りである。図7は、索引構造
の生成アルゴリズムを示すフローチャートである。 [S1]単語−単語識別子リスト14aの生成処理 形態素解析手段12に格納されている形態素解析結果リ
スト中の全単語を、重複なく、かつ、単語文字列の持つ
値の順にソートしたリストを作成する。各単語に対し
て、リストの先頭から順に1で始まる自然数を単語識別
子として割当てる。 [S2]文書識別子−単語識別子リスト14cの生成処
理 形態素解析手段12に格納されている形態素解析結果リ
スト中の各単語をステップS1で割当てた単語識別子で
置き換え、各文書識別子ごとに対応する単語識別子を小
さい値順にソートする。 [S3]単語識別子−文書識別子リスト14bの生成処
理 単語識別子を1から順に並べ、各単語識別子に対応する
単語が含まれる文書の文書識別子を、ステップS2で作
成した文書識別子−単語識別子リスト14cを参照して
抽出し、単語識別子と対にして格納する。
【0067】以上のアルゴリズムにより、索引構造が生
成される。索引構造の生成処理が行われた後、検索条件
受取手段21対する検索式の入力が可能となる。そし
て、利用者がキーボードなどの入力装置を用いて所望の
検索式を入力し、検索開始の指令を行うと、関連語の提
示処理が開始される。
【0068】図8は、検索条件受取手段21に入力され
た検索式から関連度を求めるためのアルゴリズムを示す
フローチャートである。以下、図8の各ステップについ
て説明する。なお、以下の説明において、単語−単語識
別子リスト14aをL1、単語識別子−文書識別子リス
ト14bをL2、文書識別子−単語識別子リスト14c
をL3と記述する。 [S11]検索条件受取手段21が、単語を論理積演算
子あるいは論理和演算子で結合した検索式を受け取る。
この検索式をSと呼ぶことにする。 [S12]文書検索手段22が、Sに適合する文書の文
書識別子を、L1およびL2を参照して取得する。得ら
れた文書識別子集合をXと呼び、集合Xの要素数をNと
する。 [S13]ステップS12においてN=0であればステ
ップS14へ進み、そうでなければステップS15へ進
む。 [S14]文書検索手段22は、Sの関連文書がないも
のとして、処理を終了する。 [S15]文書内単語検索手段23が、Xに属する各文
書識別子に対応する全ての単語識別子を、L3を参照し
て取得する。取得した単語識別子の集合をYとする。 [S16]単語出現数計算手段24が、Yに属する単語
識別子の重複を取り除き、各単語識別子の重複回数を記
録する。重複の取り除かれた単語識別子集合を新たにY
とし、Yの要素Wn(n=1,2,・・・,P)の重複
回数をR(Wn)とする。ただし、PはYの要素数とす
る。 [S17]文書検索手段22が、Yに属する全単語識別
子Wn(n=1,2,・・・,P)に関して、Wnに対
応する文書識別子の総数をL2から取得する。Yの要素
Wnに対応する文書識別子数をF(Wn)とする。 [S18]関連度計算手段25が、Yに属する全単語識
別子Wn(n=1,2,・・・,P)について、全検索
対象文書数をMとして、
【0069】
【数16】
【0070】
【数17】 prob(Wn)=F(Wn)/M・・・・(17) を計算し、これらの値をWnと組にしてリストとする。
また、
【0071】
【数18】prob(S)=N/M・・・・(18) を計算する。 [S19]関連度計算手段25が、Yに属する各単語識
別子Wn(n=1,2,・・・,P)について、式
(5)に従って、拡張相互情報量MI0 (S,Wn)を
計算し、得られた値を関連度として関連度記憶手段26
に格納して終了する。ただし、MI0 (S,Wn)が負
の値になる語は、関連度記憶手段26には格納しないも
のとする。
【0072】以上のステップにより、入力された検索式
に対応して、その検索式によって得られる文書に含まれ
る各語の関連度を得ることが可能となる。つまり、関連
度記憶手段26には、各検索式ごとに「検索式」「検索
式によって得られる文書集合中に出現する語のリスト」
「各語に対応する関連度(拡張相互情報量)のリスト」
の3つの組が格納されることになる。
【0073】関連度記憶手段26に複数の検索式に対応
する情報が格納された状態で、ユーザは、検索条件指定
手段27を用いて、検索結果の比較対照とすべき検索式
を指定する。そして、関連語計算手段28によって関連
語計算を行う。関連語計算手段28によって実行される
関連語計算アルゴリズムは、以下の通りである。
【0074】図9は、関連語計算アルゴリズムを示すフ
ローチャートである。このフローチャートに示す処理
は、全て関連語計算手段28によって実行される。な
お、ここでの関連語とは、検索条件指定手段27によっ
て指定された検索式と検索条件受取手段21に最後に入
力された検索式の両検索式から得られる検索結果の差異
を特徴的に示す語のことである。 [S21]検索条件指定手段27によって指定された検
索式(Sd)に対応する各語(Wd1, Wd2, …,W
dn)とその関連度(MI0 (Sd,Wd1),MI0
(Sd,Wd2), …,MI0 (Sd,Wdn))およ
び、検索条件受取手段21に最後に入力された検索式
(Sl)に対応する各語(Wl1, Wl2,…,Wl
m)とその関連度(MI0 (Sl,Wl1), MI
0 (Sl,Wl2), …,MI0 (Sl,Wlm))を
関連度記憶手段26から取得する。 [S22]検索式Sdに対応する各語(Wdi(1≦i
≦n))について関連度差
【0075】
【数19】 を求め、得られた値が予め設定した閾値Tuよりも大き
い場合Wdiを関連度差と共に関連度増加語リストに加
え、得られた値が閾値Tl(<Tu)よりも小さい場合
Wdiを関連度差と共に関連度減少語リストに加える。
ここで、Wdiが(Wl1, Wl2,・・・,Wl
m)に存在しない場合は、MI0 (Sl,Wdi)=0
とする。 [S23]検索式Slに対応する各語(Wlj(1≦j
≦m))について関連度差
【0076】
【数20】 を求め、得られた値が予め設定した閾値Tuよりも大き
い場合Wljを関連度差と共に関連度増加語リストに加
え、得られた値が閾値Tlよりも小さい場合Wljを関
連度差と共に関連度減少語リストに加える。ここで、W
ljが(Wd1,Wd2,・・・,Wdn)に存在しな
い場合は、MI0 (Sd,Wlj)=0とする。ただ
し、Wljが既にリスト中に存在する場合は再度リスト
に加えることはしない。 [S24]関連度増加語リスト中の各語を関連度差の大
きい順にソートし、関連度減少語リスト中の各語を関連
度差の小さい順にソートする。
【0077】以上のようにして、関連語計算が行われ、
関連度差の大きい順にソートされた関連度増加語リスト
と、関連度差の小さい順にソートされた関連度減少語リ
ストとが生成される。そして、生成された各リストが、
関連語表示手段29によって表示装置の画面に表示され
る。
【0078】図10、図11、図12および図13に本
実施例のユーザインタフェースを示す。図10は、関連
語検索画面を示す図である。この関連語検索画面40
は、4つのサブウィンドウ41〜44に別れている。
【0079】サブウィンドウ41は、検索式入力用のウ
ィンドウであり、テキスト入力フィールド41aと、検
索ボタン41bとが設けられている。ユーザは、キーボ
ードなどの入力装置を用いて、テキスト入力フィールド
41aに検索式を入力し、検索ボタン41bを押下する
ことにより、検索指令を入力できる。
【0080】サブウィンドウ42は、検索式履歴表示用
のウィンドウである。このサブウィンドウ42には、テ
キスト入力フィールド41aに過去に入力された検索式
が、入力された順番に表示されている。ユーザが、この
サブウィンドウ42に表示されている検索式の中の1つ
を指定することにより、最後に入力された検索式と比較
すべき検索式が選択される。
【0081】サブウィンドウ43は、関連語表示用のウ
ィンドウである。このサブウィンドウ43には、関連度
減少語表示フィールド43aと、関連度増加語表示フィ
ールド43bとがある。関連度減少語表示フィールド4
3aには、ステップS24によって得られた関連度減少
語リストが表示される。関連度増加語表示フィールド4
3bには、ステップS24によって得られた関連度増加
語リストが表示される。
【0082】サブウィンドウ44は、検索結果表示用の
ウィンドウである。このサブウィンドウ44には、テキ
スト入力フィールド41aに入力された検索式に適合す
る文書情報が表示される。
【0083】なお、図10中のテキスト入力フィールド
41aは検索条件受取手段21により提供されるユーザ
インタフェースであり、サブウィンドウ42は検索条件
指定手段27により提供されるユーザインタフェースで
あり、サブウィンドウ43は関連語表示手段29により
提供されるユーザインタフェースであり、サブウィンド
ウ44は検索結果表示手段30により提供されるユーザ
インタフェースである。
【0084】ここで、例えば、ユーザの検索意図が「地
震時に有効な耐震建造物について知りたい。」である場
合を考える。この場合、ユーザは、サブウィンドウ42
の中から検索式「地震or震災or震動」を指定する。
そして、この検索式に対して、「耐震」を論理積演算子
で結合して、新たな検索式とする。
【0085】図11は、「(地震or震災or震動)a
nd耐震」を検索式として入力した場合の表示画面を示
す図である。ここでは、サブウィンドウ42中の選択さ
れている検索式「地震or震災or震動」は、強調表示
されている。ここで、検索ボタン41bを押下すること
により、ステップS11〜S19(図8に示す)および
ステップS21〜S24(図9に示す)の処理が実行さ
れ、得られた関連語がサブウィンドウ43に表示され
る。
【0086】図12は、「(地震or震災or震動)a
nd耐震」を検索式として入力した場合の関連語の表示
結果を示す図である。図のように、サブウィンドウ43
の関連度減少語表示フィールド43aと関連度増加語表
示フィールド43bとのそれぞれに、関連度減少語リス
トの内容と、関連度増加語リストの内容とが表示されて
いる。
【0087】このようにして表示された関連語を参照す
ることにより、ユーザは、検索式「地震or震災or震
動」を「(地震or震災or震動)and耐震」に変更
した結果生じる以下のような2つの問題点を発見するこ
とができる。 (1)「免震」「制震」といった「耐震」と類似する語
についての情報が漏れてしまっている。 (2)「家具」「本棚」「箪笥」等の建造物でないもの
についての耐震方法についての検索結果が多く含まれて
しまっている。
【0088】ユーザは、上記の問題点を改善するため
に、例えば「(地震or震災or震動)and(耐震o
r免震or制震)and(not(家具or本棚or箪
笥))」といった新たな検索式に変更する。
【0089】図13は、「(地震or震災or震動)a
nd(耐震or免震or制震)and(not(家具o
r本棚or箪笥))」を検索式として入力した場合の関
連語の表示結果を示す図である。なお、サブウィンドウ
42中では、検索式「地震or震災or震動」が選択さ
れたままである。このような検索式を入力することによ
り、「(地震or震災or震動)and耐震」を検索式
として入力した場合と比較すると、関連度減少語から
「免震」「制震」がなくなり、関連度増加語リストから
「家具」「本棚」「箪笥」がなくなっている。
【0090】このようにして、関連度の減少語と増加語
の内容を知ることにより、検索意図に沿った検索式を迅
速に作成することが可能となる。なお、上記の実施の形
態は、2つの検索条件それぞれに対して各語の関連度を
求めた上で、関連度差を基に検索結果集合の変化の特徴
を示す関連語を決定するものであるが、2つの検索条件
から得られる文書集合の差を求め、一方の文書集合にの
み含まれる単語の関連度を求めることによって、関連語
を決定することもできる。文書集合の差を求めた後に関
連度を計算しても、上記の実施の形態と同様の効果が得
られる。
【0091】このような実施の形態を以下に説明する。
なお、この実施の形態の図2に示した実施の形態と同様
の構成のシステムで実現できるため、図2の各構成要素
の符号を用いて説明する。ただし、検索条件指定手段2
7により指定された検索条件は、関連度記憶手段26で
はなく、文書検索手段22に渡される。
【0092】図14は、文書集合の差に基づいて関連語
を決定するための手順を示すフローチャートである。 [S31]検索条件受取手段21が、単語を論理積演算
子あるいは論理和演算子で結合した検索式を受け取る。 [S32]文書検索手段22が、検索条件指定手段27
で指定されている検索条件に適合する文書の文書識別子
を、L1(単語−単語識別子リスト)およびL2(単語
識別子−文書識別子リスト)を参照して取得する。得ら
れた文書識別子集合をAとする。文書検索手段22は、
さらに検索条件受取手段21が受け取った検索条件に適
合する文書の文書識別子を、L1およびL2を参照して
取得する。得られた文書識別子集合をBとする。 [S33]文書集合「Aand(notB)」に対応す
る文書識別子集合を図8のステップS12におけるXと
して、文書検索手段22、文書内単語検索手段23、単
語出現数計算手段24及び関連度計算手段25が、ステ
ップS12〜ステップS19(図8に示す)と同じ処理
を実行する。これにより、文書集合「Aand(not
B)」に含まれる各語の関連度が計算され、関連度記憶
手段26に格納される。 [S34]関連語計算手段28が、ステップS33によ
って得られた関連度が予め設定された閾値Tよりも大き
い語を関連度減少語リストに加え、関連度の大きい順に
ソートする。 [S35]文書集合「Band(notA)」に対応す
る文書識別子集合を図8のステップS12におけるXと
して、文書検索手段22、文書内単語検索手段23、単
語出現数計算手段24及び関連度計算手段25が、ステ
ップS12〜ステップS19(図8に示す)と同じ処理
を実行する。これにより、文書集合「Band(not
A)」に含まれる各語の関連度が計算され、関連度記憶
手段26に格納される。 [S36]関連語計算手段28が、ステップS35によ
って得られた関連度が予め設定された閾値Tよりも大き
い語を関連度増加語リストに加え、関連度の大きい順に
ソートする。 [S37]関連語表示手段29が、関連語計算手段28
によってソートされた関連度減少語リストと関連度増加
語リストとの内容を、表示装置の画面に表示する。
【0093】このようにして、関連度増加語と関連度減
少語とをユーザに提示することができる。この実施の形
態では、検索式を変更したことにより検索結果から漏れ
てしまった単語や、新たに登場した単語の中から関連語
が提示される。
【0094】
【発明の効果】以上説明したように本発明の関連語提示
装置では、複数の検索条件に対する各関連語候補の関連
度を計算し、関連度の変化に基づいて関連語を決定し
て、その関連語をユーザに提示するようにしたため、検
索結果として得られる文書集合を精読することなしに、
検索条件を変更したことによって検索結果集合の特徴が
どのように変化したかを知ることが可能となる。
【0095】また、本発明の関連語提示用プログラムを
記録した媒体によれば、記録された関連語提示用プログ
ラムをコンピュータで実行することにより、そのコンピ
ュータは、複数の検索条件に対する各関連語候補の関連
度を計算し、関連度の変化に基づいて関連語を決定し
て、その関連語をユーザに提示できるようになる。した
がって、この媒体に記録された関連語提示用プログラム
を用いれば、検索条件を変更したことによって検索結果
集合の特徴がどのように変化したかを容易に知ることが
できるような関連語の提示を、コンピュータに行わせる
ことが可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の実施の形態の構成を示すブロック図で
ある。
【図3】形態素解析手段に格納される形態素解析結果リ
ストの例を示す図である。
【図4】単語−単語識別子リストの例を示す図である。
【図5】単語識別子−文書識別子リストの例を示す図で
ある。
【図6】文書識別子−単語識別子リストの例を示す図で
ある。
【図7】索引構造の生成アルゴリズムを示すフローチャ
ートである。
【図8】検索式受取手段に入力された検索式から関連度
を求めるためのアルゴリズムを示すフローチャートであ
る。
【図9】関連語計算アルゴリズムを示すフローチャート
である。
【図10】関連語検索画面を示す図である。
【図11】「(地震or震災or震動)and耐震」を
検索式として入力した場合の表示画面を示す図である。
【図12】「(地震or震災or震動)and耐震」を
検索式として入力した場合の関連語の表示結果を示す図
である。
【図13】「(地震or震災or震動)and(耐震o
r免震or制震)and(not(家具or本棚or箪
笥))」を検索式として入力した場合の関連語の表示結
果を示す図である。
【図14】文書集合の差に基づいて関連語を決定するた
めの手順を示すフローチャートである。
【符号の説明】
1 文書格納手段 2 検索条件受取手段 3 文書検索手段 4 関連度計算手段 5 関連語計算手段 6 関連語表示手段
フロントページの続き (56)参考文献 特開 平5−81327(JP,A) 春野雅彦、他1名,辞書と統計を用い た対訳アライメント,情報処理学会自然 言語処理研究会研究報告,1996年 3月 14日,96−NL−112,p.23−30 北村美穂子、他1名,対訳コーパスを 利用した対訳表現の自動抽出,情報処理 学会論文誌,1997年 4月15日,第38 巻,第4号,p.727−735 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 検索条件に関連する単語を提示する関連
    語提示装置において、 複数の文書を格納する文書格納手段と、 入力された複数の検索条件を受け取る検索条件受取手段
    と、 前記検索条件受取手段が受け取った各検索条件に適合す
    る文書集合を前記文書格納手段から取得する文書検索手
    段と、 前記文書検索手段が取得した文書集合中に存在する各単
    語を関連語候補とし、前記文書検索手段が取得した文書
    の数である第1の値と、前記文書検索手段が取得した文
    書集合の中で各関連語候補を含んでいる文書の数である
    関連語候補ごとの第2の値と、前記文書格納手段に格納
    されている文書の中で各関連語候補を含んでいる文書の
    数である関連語候補ごとの第3の値とを取得し、第1の
    値と第3の値との積あるいは和である第4の値を関連語
    候補ごとに計算し、第2の値と第4の値との比率に基づ
    いて、前記検索条件受取手段が受け取った検索条件と各
    関連語候補との間の関連度を、検索条件ごとに計算する
    関連度計算手段と、 前記検索条件受取手段が受け取った各検索条件に応じて
    前記関連度計算手段により算出された各関連語候補の関
    連度を比較し、各関連語候補の関連度の値の変化に基づ
    いて関連語を決定する関連語計算手段と、 前記関連語計算手段が決定した関連語を表示装置に表示
    する関連語表示手段と、を有することを特徴とする関連
    語提示装置。
  2. 【請求項2】 前記関連度計算手段は、前記文書格納手
    段に格納されている全ての文書の数をMとし、第1の値
    をα、関連語候補ごとの第2の値をβ、関連語候補ごと
    の第3の値をγとした場合に、以下の計算式、 拡張相互情報量=log2 {(Mβ)/(αγ)} で求められる拡張相互情報量の値を、前記検索条件受取
    手段が受け取った検索条件と各関連語候補との間の関連
    度とすることを特徴とする請求項1記載の関連語提示装
    置。
  3. 【請求項3】 前記関連度計算手段は、前記文書格納手
    段に格納されている全ての文書の数をMとし、第1の値
    をα、関連語候補ごとの第2の値をβ、関連語候補ごと
    の第3の値をγとした場合に、 拡張TS(t-score) =M{( Mβ−αγ)/(αγ)} で求められる拡張TSの値を、前記検索条件受取手段が
    受け取った検索条件と各関連語候補との間の関連度とす
    ることを特徴とする請求項1記載の関連語提示装置。
  4. 【請求項4】 前記関連度計算手段は、第1の値をα、
    関連語候補ごとの第2の値をβ、関連語候補ごとの第3
    の値をγとした場合に、以下の計算式、 拡張DC(Dice-coefficent) =2β/( α+γ) で求められる拡張DCの値を、前記検索条件受取手段が
    受け取った検索条件と各関連語候補との間の関連度とす
    ることを特徴とする請求項1記載の関連語提示装置。
  5. 【請求項5】 前記関連語計算手段は、文書検索の絞り
    込み前と絞り込み後との2つの検索条件に基づいて関連
    語を決定する場合、絞り込み前の検索条件との間の関連
    度よりも、絞り込み後の検索条件との間の関連度の方が
    大きい値である単語を関連度増加語とし、絞り込み前の
    検索条件との間の関連度よりも、絞り込み後の検索条件
    との間の関連度の方が小さい値である関連語候補を関連
    度減少語とし、関連度増加語と関連度減少語とを関連語
    とすることを特徴とする請求項1記載の関連語提示装
    置。
  6. 【請求項6】 検索条件に関連する単語を提示する関連
    語提示装置において、 複数の文書を格納する文書格納手段と、 文書検索の絞り込み前と絞り込み後との検索条件の対を
    受け取る検索条件受取手段と、 前記検索条件受取手段が受け取った検索条件の一方の検
    索条件を満たし、他方の検索条件を満たさない文書集合
    を、前記文書格納手段から取得する文書検索手段と、 前記文書検索手段が取得した文書集合中に存在する各単
    語を関連語候補とし、前記文書検索手段が取得した文書
    の数である第1の値と、前記文書検索手段が取得した文
    書集合の中に存在する各関連語候補を含んでいる文書の
    数である関連語候補ごとの第2の値と、前記文書格納手
    段に格納されている文書の中で、各関連語候補を含んで
    いる文書の数である関連語候補ごとの第3の値とを取得
    し、第1の値と第3の値との積あるいは和である第4の
    値を関連語候補ごとに計算し、第2の値と第4の値との
    比率に基づいて、前記検索条件受取手段が受け取った検
    索条件の対と各関連語候補との間の関連度を計算する関
    連度計算手段と、 前記関連度計算手段から得られた関連度が一定の値以上
    となる関連語候補を関連語とする関連語計算手段と、 前記関連語計算手段が決定した関連語を表示装置に表示
    する関連語表示手段と、 を有することを特徴とする関連語提示装置。
  7. 【請求項7】 前記関連語計算手段は、絞り込み前の検
    索条件を満たし、絞り込み後の検索条件を満たさない文
    書集合に基づいて得られた関連度が、予め定められた値
    以上となる関連語候補を関連度減少語とし、絞り込み前
    の検索条件を満たさず、絞り込み後の検索条件を満たす
    文書集合に基づいて得られた関連度が、予め定められた
    値以上となる関連語候補を関連度増加語とし、関連度増
    加語と関連度減少語とを関連語とすることを特徴とする
    請求項6記載の関連語提示装置。
  8. 【請求項8】 前記関連度計算手段は、前記文書格納手
    段に格納されている全ての文書の数をMとし、第1の値
    をα、関連語候補ごとの第2の値をβ、関連語候補ごと
    の第3の値をγとした場合に、以下の計算式、 拡張相互情報量=log2 {(Mβ)/(αγ)} で求められる拡張相互情報量の値を、前記検索条件受取
    手段が受け取った検索条件と各関連語候補との間の関連
    度とすることを特徴とする請求項6記載の関連語提示装
    置。
  9. 【請求項9】 前記関連度計算手段は、前記文書格納手
    段に格納されている全ての文書の数をMとし、第1の値
    をα、関連語候補ごとの第2の値をβ、関連語候補ごと
    の第3の値をγとした場合に、 拡張TS(t-score) =M{( Mβ−αγ)/(αγ)} で求められる拡張TSの値を、前記検索条件受取手段が
    受け取った検索条件と各関連語候補との間の関連度とす
    ることを特徴とする請求項6記載の関連語提示装置。
  10. 【請求項10】 前記関連度計算手段は、第1の値を
    α、関連語候補ごとの第2の値をβ、関連語候補ごとの
    第3の値をγとした場合に、以下の計算式、 拡張DC(Dice-coefficent) =2β/( α+γ) で求められる拡張DCの値を、前記検索条件受取手段が
    受け取った検索条件と各関連語候補との間の関連度とす
    ることを特徴とする請求項6記載の関連語提示装置。
  11. 【請求項11】 検索条件に関連する単語の提示をコン
    ピュータに行わせるための関連語提示用プログラムを記
    録した媒体において、 複数の文書を格納する文書格納手段、 入力された複数の検索条件を受け取る検索条件受取手
    段、 前記検索条件受取手段が受け取った各検索条件に適合す
    る文書集合を前記文書格納手段から取得する文書検索手
    段、 前記文書検索手段が取得した文書集合中に存在する各単
    語を関連語候補とし、前記文書検索手段が取得した文書
    の数である第1の値と、前記文書検索手段が取得した文
    書集合の中で各関連語候補を含んでいる文書の数である
    関連語候補ごとの第2の値と、前記文書格納手段に格納
    されている文書の中で各関連語候補を含んでいる文書の
    数である関連語候補ごとの第3の値とを取得し、第1の
    値と第3の値との積あるいは和である第4の値を関連語
    候補ごとに計算し、第2の値と第4の値との比率に基づ
    いて、前記検索条件受取手段が受け取った検索条件と各
    関連語候補との間の関連度を、検索条件ごとに計算する
    関連度計算手段、 前記検索条件受取手段が受け取った各検索条件に応じて
    前記関連度計算手段により算出された各関連語候補の関
    連度を比較し、各関連語候補の関連度の値の変化に基づ
    いて関連語を決定する関連語計算手段、 前記関連語計算手段が決定した関連語を表示装置に表示
    する関連語表示手段、 としてコンピュータを機能させるための関連語提示用プ
    ログラムを記録した媒体。
  12. 【請求項12】 検索条件に関連する単語の提示をコン
    ピュータに行わせるための関連語提示用プログラムを記
    録した媒体において、 複数の文書を格納する文書格納手段、 文書検索の絞り込み前と絞り込み後との検索条件の対を
    受け取る検索条件受取手段、 前記検索条件受取手段が受け取った検索条件の一方の検
    索条件を満たし、他方の検索条件を満たさない文書集合
    を、前記文書格納手段から取得する文書検索手段、 前記文書検索手段が取得した文書集合中に存在する各単
    語を関連語候補とし、 前記文書検索手段が取得した文書の数である第1の値
    と、前記文書検索手段が取得した文書集合の中に存在す
    る各関連語候補を含んでいる文書の数である関連語候補
    ごとの第2の値と、前記文書格納手段に格納されている
    文書の中で、各関連語候補を含んでいる文書の数である
    関連語候補ごとの第3の値とを取得し、第1の値と第3
    の値との積あるいは和である第4の値を関連語候補ごと
    に計算し、第2の値と第4の値との比率に基づいて、前
    記検索条件受取手段が受け取った検索条件の対と各関連
    語候補との間の関連度を計算する関連度計算手段、 前記関連度計算手段から得られた関連度が一定の値以上
    となる関連語候補を関連語とする関連語計算手段、 前記関連語計算手段が決定した関連語を表示装置に表示
    する関連語表示手段、 としてコンピュータを機能させるための関連語提示用プ
    ログラムを記録した媒体。
JP13730097A 1997-05-27 1997-05-27 関連語提示装置及び関連語提示用プログラムを記録した媒体 Expired - Fee Related JP3385913B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13730097A JP3385913B2 (ja) 1997-05-27 1997-05-27 関連語提示装置及び関連語提示用プログラムを記録した媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13730097A JP3385913B2 (ja) 1997-05-27 1997-05-27 関連語提示装置及び関連語提示用プログラムを記録した媒体

Publications (2)

Publication Number Publication Date
JPH10334105A JPH10334105A (ja) 1998-12-18
JP3385913B2 true JP3385913B2 (ja) 2003-03-10

Family

ID=15195471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13730097A Expired - Fee Related JP3385913B2 (ja) 1997-05-27 1997-05-27 関連語提示装置及び関連語提示用プログラムを記録した媒体

Country Status (1)

Country Link
JP (1) JP3385913B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231569A (ja) * 1999-02-09 2000-08-22 Just Syst Corp インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3918374B2 (ja) 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
US7158966B2 (en) * 2004-03-09 2007-01-02 Microsoft Corporation User intent discovery
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
JP2010003015A (ja) * 2008-06-18 2010-01-07 Hitachi Software Eng Co Ltd 文書検索システム
JP5338835B2 (ja) * 2011-03-24 2013-11-13 カシオ計算機株式会社 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
北村美穂子、他1名,対訳コーパスを利用した対訳表現の自動抽出,情報処理学会論文誌,1997年 4月15日,第38巻,第4号,p.727−735
春野雅彦、他1名,辞書と統計を用いた対訳アライメント,情報処理学会自然言語処理研究会研究報告,1996年 3月14日,96−NL−112,p.23−30

Also Published As

Publication number Publication date
JPH10334105A (ja) 1998-12-18

Similar Documents

Publication Publication Date Title
US7831910B2 (en) Computer aided authoring, electronic document browsing, retrieving, and subscribing and publishing
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US6205443B1 (en) Overlapping subdocuments in a vector space search process
KR101120760B1 (ko) 구조화 문서 검색
US6523030B1 (en) Sort system for merging database entries
US6112204A (en) Method and apparatus using run length encoding to evaluate a database
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
JPH0418673A (ja) テキスト情報抽出方法および装置
US20120053927A1 (en) Identifying topically-related phrases in a browsing sequence
JP2008542951A (ja) 関連性ネットワーク
JP3427674B2 (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP3023943B2 (ja) 文書検索装置
US20180032620A1 (en) Search query modification using personalized profile
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP3385913B2 (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH0773197A (ja) 異表記語辞書作成支援装置
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
US6473755B2 (en) Overlapping subdocuments in a vector space search process
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JPH07192010A (ja) 文書処理装置
JP4933869B2 (ja) 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
JP3162907B2 (ja) 文書データ検索装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000200279A (ja) 情報検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100110

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110110

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120110

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees