JP2894301B2 - 文脈情報を用いた文書検索方法および装置 - Google Patents

文脈情報を用いた文書検索方法および装置

Info

Publication number
JP2894301B2
JP2894301B2 JP8320828A JP32082896A JP2894301B2 JP 2894301 B2 JP2894301 B2 JP 2894301B2 JP 8320828 A JP8320828 A JP 8320828A JP 32082896 A JP32082896 A JP 32082896A JP 2894301 B2 JP2894301 B2 JP 2894301B2
Authority
JP
Japan
Prior art keywords
keyword
input
document
word
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8320828A
Other languages
English (en)
Other versions
JPH10149370A (ja
Inventor
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP8320828A priority Critical patent/JP2894301B2/ja
Publication of JPH10149370A publication Critical patent/JPH10149370A/ja
Application granted granted Critical
Publication of JP2894301B2 publication Critical patent/JP2894301B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索方法及び
装置に関し、特に単語共起情報を用いて入力キーワード
を拡張して文書を検索する方法および装置に関する。
【0002】
【従来の技術】従来、この種の文書検索方法は、文書検
索装置などで、入力された文書やキーワードから検索文
字列を設定し、その検索文字列を含む文書を検索するた
めに用いられている。
【0003】従来の文書検索方法の一例として、例えば
特開平3−172966号公報には、フルテキストのデ
ータベースの中から類似文書を効率よく、かつ高精度に
検索ができる類似文書検索装置の構成が提案されてい
る。
【0004】この従来の類似文書検索装置は、文書を直
接入力し、コード情報とする構文書入力部と、入力され
た文字列を分かち書きし形態素情報を付与するととも
に、形態素情報を基にして文書(文節間)の係り受け構
造を判定する係り受け解析部と、この係り受け解析結果
から文構造を決定し、この文構造から索引を抽出すると
ともに索引の重要度を付与する索引抽出部と、入力文
書、係り受け解析結果、索引抽出結果を蓄積する文書蓄
積部と、前記索引抽出部の索引をシソーラス辞書で展開
するシソーラス展開部と、入力文書と蓄積されている文
書との類似度を索引の類似度と係り受け関係の類似度か
ら判定する類似文書検索部と、検索した類似文書を出力
する類似文書出力部と、を備えて構成されている。
【0005】シソーラス展開部では、多義判定テーブル
が用意されており、表記上は同じでも意味が異なる単語
の区別を、文書の分野によって判定する。すなわち、多
義テーブルは、単語の表記、読み、利用分野の情報から
なり、シソーラス展開する場合、入力された文書の分野
に最も意味的に正しい同義語、類義語を出力する。例え
ば、「CD」といった場合、銀行関係の分野では「キャ
ッシュ・ディスペンサー」、音楽関係の分野では「コン
パクト・ディスク」という具合に、その分野に対応する
同義語、類義語を出力する。
【0006】
【発明が解決しようとする課題】しかしながら、上記し
た従来の文書検索装置においては、多義判定テーブルに
よるシソーラス展開では、展開された関連語彙の優先度
を判定することができないので、必ずしも適当な関連語
彙を選択できず、検索精度が向上しない、という問題点
を有している。
【0007】その理由は、多義判定テーブルでは、文書
の分野情報を特定して同じ分野の語彙を選択するもので
あるが、文書に分野情報が記述されていない場合には、
どの語彙を関連語彙とするか、判定することができな
い、ためである。
【0008】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、関連性のある単
語をキーワードとして追加する場合に、より意味的に関
連性の強い単語を選択してキーワードとして加えて検索
することにより、検索精度を向上する文書検索方法及び
装置を提供することにある。
【0009】
【課題を解決するための手段】前記目的を達成するた
め、本発明の第1の文書検索方法(請求項1)は、入力
されたキーワードから検索キーワードを拡張する場合
に、類語辞書、関連語辞書、シソーラス辞書などを用い
て関連単語を展開し、単語の共起関係と文脈情報と頻度
を保持した単語共起データベースを用いて、入力キーワ
ードと同じ文脈情報をもつ共起頻度の高い関連単語を関
連キーワードとして選択し、検索キーワードに追加して
文書検索を行なうことを特徴とする。
【0010】本発明の第2の文書検索方法(請求項2)
は、前記第1の文書検索方法において、検索キーワード
を拡張する場合、出現頻度が予め定められた所定の値よ
りも少ない特徴的な入力キーワードについてのみ関連単
語の展開を行ない、検索キーワードに追加して検索する
ことを特徴とする。
【0011】本発明の第3の文書検索方法(請求項3)
は、入力されたキーワードから検索キーワードを拡張す
る場合に、類語辞書、関連語辞書、シソーラス辞書など
を用いて関連単語を展開し、単語の共起関係と文脈情報
と頻度を保持した単語共起データベースを用いて、入力
キーワードと同じ文脈情報をもつ共起頻度の高い関連単
語を関連キーワードとして選択し、さらに関連キーワー
ドから再帰的に関連単語の展開と関連キーワード選択を
行ない検索キーワードに追加して文書検索を行なうこと
を特徴とする。
【0012】本発明の第4の文書検索方法(請求項4)
は、前記第3の文書検索方法において、検索キーワード
を拡張する場合、出現頻度が予め定められた所定の値よ
りも少ない特徴的な関連キーワードについてのみ再帰的
な関連単語の展開と関連キーワードの選択を行ない、検
索キーワードに追加して検索することを特徴とする。
【0013】本発明の第1の文書検索装置(請求項5)
は、キーワードを入力するキーワード入力部と、このキ
ーワード入力部より入力された入力キーワードから類語
辞書、関連語辞書、シソーラス辞書などを用いて同義・
類義語など関連単語を展開するキーワード展開部と、展
開された関連単語から、単語の共起関係と文脈情報と頻
度を保持した単語共起データベースを参照して、入力キ
ーワードと同じ文脈情報をもつ共起頻度の高い関連単語
を関連キーワードとして選択する関連キーワード選択部
と、前記入力キーワードおよび前記関連キーワードを検
索キーワードとして文書データベースから文書の検索を
行なう文書検索部とを有することを特徴とする。
【0014】本発明の第2の文書検索装置(請求項6)
は、前記第1の文書検索装置のキーワード展開部を選択
的キーワード展開部によって置き換え、出現頻度が少な
い特徴的な入力キーワードについてのみ関連単語の展開
を行なう検索キーワードに追加して検索することを特徴
とする。
【0015】本発明の第3の文書検索装置(請求項7)
は、キーワードを入力するキーワード入力部と、このキ
ーワード入力部より入力された入力キーワードと関連キ
ーワードから類語辞書、関連語辞書、シソーラス辞書な
どを用いて同義・類義語および関連単語を展開するキー
ワード展開部と、展開された関連単語から、単語の共起
関係と文脈情報と頻度を保持した単語共起データベース
を参照して、入力キーワードと同じ文脈情報をもつ共起
頻度の高い関連単語を関連キーワードとして選択しキー
ワード展開部に出力する再帰的関連キーワード選択部
と、前記入力キーワードおよび前記関連キーワードを検
索キーワードとして文書データベースから文書の検索を
行なう文書検索部とを有することを特徴とする。
【0016】本発明の第4の文書検索装置(請求項8)
は、前記第3の文書検索装置のキーワード展開部におい
て、出現頻度が予め定められた所定の値よりも少ない特
徴的な関連キーワードについてのみ再帰的な関連単語の
展開を行ない、検索キーワードに追加して検索すること
を特徴とする。
【0017】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
【0018】図1は、本発明の第1の実施の形態に係る
文書検索装置の構成を示すブロック図である。図1を参
照すると、本発明の第1の実施の形態に係る文書検索装
置は、キーワード入力部1と、コンテクスト情報付き単
語出現頻度データベース3と、関連語データベース2、
キーワード展開部4と、関連キーワード選択部5と、文
書データベース6と、文書検索部7と、を含んで構成さ
れている。
【0019】キーワード入力部1は、キーボード等によ
って単数または複数のキーワードを検索文字列として入
力する。
【0020】コンテクスト情報付き単語出現頻度データ
ベース3は、文書データベース6もしくはその他の文書
データベースに出現する単語が、他のどのような単語と
どの程度の頻度で出現したかを単語の左右両側のコンテ
クスト情報とともに記述したデータベースである(単語
の共起関係と文脈情報と頻度を保持した単語共起データ
ベース)。
【0021】コンテクスト情報の一例は、ある単語の左
右に存在する単語が、助詞の場合にはその文字列、助詞
以外の場合にはその品詞からなり、「単語(左コンテク
スト、右コンテクスト)、頻度」のような形式で表現さ
れ、出現頻度は、大中小の3段階で記録する(図3参
照)。この「大」、「中」、「小」の類別は頻度の数値
データであってもよいことは勿論である。
【0022】図3は、コンテクスト情報付き単語出現頻
度データベース3のうち人員削減の内容を例示したもの
である。例えば、「人員削減(名の、によって)、大」
(図3の2行目)は、単語「人員削減」が、左コンテク
スト「名の」、及び右コンテクスト「によって」と共に
出現する(すなわち「…名の人員削減によって…」)頻
度が「大」であることを示し、また「人員削減(の、名
詞)、中」(図3の5行目)は、「の人員削減(名
詞)」(例えば「…の人員削減計画…」)の出現頻度が
「中」であることを示している。
【0023】関連語データベース2は、シソーラス辞書
や、類義語辞書、関連語辞書である。
【0024】キーワード展開部4は、キーワード入力部
1から与えられた単数または複数の入力キーワードから
関連語データベース2を用いて、関連単語を関連キーワ
ード候補として、関連キーワード選択部5に出力する。
【0025】関連キーワード選択部5は、コンテクスト
情報付き単語出現頻度データベース3を用いて、関連キ
ーワード候補の中から、入力キーワードと同じコンテク
スト情報をもつ高頻度の単語を関連キーワードとして選
択する。
【0026】図2は、本発明の実施の形態における、関
連キーワード選択部5の処理フローを説明するためのフ
ローチャートである。
【0027】図2を参照すると、関連キーワード選択部
5は、関連キーワード候補を出力するステップAlと、
この関連キーワード候補が入力キーワードと同じコンテ
クストで出現するかを判定するステップA2(「文脈共
起関係判定ステップ」という)と、出現頻度が高い場合
には、該候補を関連キーワードとして選択する関連キー
ワード選択ステップA3と、関連キーワード候補が他に
もあるか否かを判定するステップA4と、からなる。
【0028】文書データベース6は、電子化された文書
を格納しているデータベースである。
【0029】文書検索部7は、キーワード入力部1に入
力されたキーワードと関連キーワード選択部5で選択さ
れた関連キーワードとを用いて、文書データベース6よ
り文書を検索し出力する。
【0030】次に、このように構成された第1の実施の
形態に係る文書検索装置の動作について、図1、図2、
図3および図4を参照して説明する。図4は、関連語デ
ータベース2の内容を例示したものと、それぞれの関連
語について、コンテクスト情報付き単語出現頻度データ
ベース3から出現頻度の大きい文脈情報を抽出した内容
を例示したものである。
【0031】キーワード入力部1から入力キーワードが
入力されると、キーワード展開部4に供給される。
【0032】キーワード展開部4は、関連語データベー
スから入力キーワードの関連単語を抽出する。
【0033】関連キーワード選択部5は、キーワード展
開されたすべての関連キーワード候補を順に処理対象と
して出力する(図2のステップAl)。
【0034】次に、関連キーワード選択部5は、コンテ
クスト情報付き単語出現頻度データベース3を用いて、
関連キーワード候補が、入力キーワードと同じコンテク
スト情報をもつ単語かどうかを調べる(図2のステップ
A2)。ステップA2の判定の結果、出現頻度が高い場
合、関連キーワードとして選択する(図2のステップA
3)。続いて、関連キーワード展開部4は、他にも関連
キーワード候補があるかどうかを判定し(図2のステッ
プA4)、残されていれば、ステップA1に制御を戻
し、関連キーワード候補がなくなるまで、上記ステップ
Al〜A4を繰り返す。
【0035】例えば図4を参照すると、キーワード展開
部4は、「人員削減」の関連キーワード候補として、
「大手航空会社」、「経営」、「合理化」、「人員整
理」、「社員」、「希望退職」、「退職金」、「リスト
ラ」を出力する。
【0036】図3を参照すると、関連キーワード選択部
5は、コンテクスト情報付き単語出現頻度データベース
3から、「人員削減」の高頻度文脈として、「人員削減
(名の、を)」、「人員削減(名の、によって)」、及
び「人員削減(名の、に対する)」を抽出する。
【0037】これらの頻度が大きいのは、例えば、「…
名の人員削減を…」、「…名の人員削減に対する…」、
「…名の人員削減によって…」、という表現が一般によ
く使われることを示している。
【0038】関連キーワード選択部5は、キーワード展
開部4で出力された候補(上記した「大手航空会社」、
「経営」、「合理化」、「人員整理」、等)に対して、
コンテクスト情報付き単語出現頻度データベース3から
頻度の大きい文脈を出力する。
【0039】続いて、関連キーワード選択部5は、関連
キーワード候補の中から「人員削減」と同じ文脈の頻度
が大きい、「人員整理」、「希望退職」、「リストラ」
を関連キーワードとして選択する。
【0040】文書検索部7は、キーワード入力部1から
入力された入力キーワードと、関連キーワード選択部5
で選択された関連キーワードと、を用いて、文書データ
ベース6より、文書を検索して、出力する。
【0041】このように、本発明の第1の実施の形態に
おいては、入カキーワードから関連語データベース2を
用いて関連単語を展開し、関連単語からコンテクスト情
報付き単語出現頻度データベース3を用いて、入力キー
ワードと同じ文脈で出現する関連単語を選択して、文書
の検索に用いることができる。
【0042】また、本発明の第1の実施の形態において
は、関連単語が複数存在する場合でも、文脈情報と共起
関係を用いることによって、関連性の低い単語を排除す
ることができる。このため、文書に分野情報が記述され
ていない場合でも、文書の検索精度を格段に向上する。
【0043】図5は、本発明の第2の実施の形態に係る
文書検索装置の構成を示すブロック図である。
【0044】図5を参照すると、本発明の第2の実施の
形態に係る文書検索装置においては、図1に示した前記
第1の実施の形態に係る文書検索装置のキーワード展開
部4が、選択的キーワード展開部4′で置き換えられて
いる点が相違しており、その他の構成は同様とされてい
る。
【0045】図6は、本発明の第2の実施の形態におけ
る選択的キーワード展開部4′の処理フローを説明する
ためのフローチャートである。図6を参照すると、選択
的キーワード展開部4′は、入力キーワードを出力する
ステップB1と、入力キーワードの出現頻度は少ないか
否かを判定するステップB2(「展開判定ステップ」と
いう)、関連単語を展開し関連キーワード選択部5へ出
力するステップB3(「キーワード展開ステップ」とい
う)と、入力キーワードが他にも有るか否かを判定する
ステップB4からなる。
【0046】すなわち、選択的キーワード展開部4′に
おいて、ステップB1で入力キーワードを出力し、ステ
ップB2において出現頻度が、設定された閾値を越えな
い場合、ステップB3にて、関連単語を展開し、関連キ
ーワード選択部5に出力する処理を行う。そして、入力
キーワードが残っている場合には、同様にステップB1
から行なう。
【0047】このように、本発明の第2の実施の形態に
おいては、選択的キーワード展開部4′によって、出現
頻度が高い極めて一般的な単語に関するキーワード展開
を抑制することができ、キーワードが増え過ぎることに
よる検索精度の低下を、抑制することができる。
【0048】図7は、本発明の第3の実施の形態に係る
文書検索装置の構成を示すブロック図である。
【0049】図7を参照すると、本発明の第3の実施の
形態に係る文書検索装置においては、図1に示した前記
第1の実施の形態に係る文書検索装置の関連キーワード
選択部5が再帰的関連キーワード選択部5′で置き換え
られている点と、再帰的関連キーワード選択部5′の出
力がキーワード展開部4にも出力される点が相違してお
り、その他の構成は同様とされている。
【0050】再帰的関連キーワード選択部5′は、コン
テクスト情報付き単語出現頻度データベース3を用い
て、関連キーワード候補の中から、入力キーワードと同
じコンテクスト情報をもつ高頻度の単語を関連キーワー
ドとして選択するとともに、キーワード展開部4へ関連
キーワードを出力する。
【0051】キーワード展開部4に送られた関連キーワ
ードは、入力キーワードと同じように、関連語データベ
ース2によって関連単語が抽出され、再帰的関連キーワ
ード選択部5′によって、関連キーワードの関連キーワ
ードが選択される。
【0052】この処理は予め与えられた数のキーワード
が得られるまで、繰り返される。
【0053】例えば、図4を参照すると、キーワード展
開部4は、「人員削減」の関連キーワード候補として、
「大手航空会社」、「経営」、「合理化」、「人員整
理」、「社員」、「希望退職」、「退職金」、「リスト
ラ」を出力する。
【0054】図3を参照すると、再帰的関連キーワード
選択部5′は、コンテクスト情報付き単語出現頻度デー
タベース3から、「人員削減」の高頻度文脈として、
「人員削減(名の、を)」、「人員削減(名の、によっ
て)」、及び「人員削減(名の、に対する)」を抽出す
る。
【0055】再帰的関連キーワード選択部5′は、キー
ワード展開部4で出力された候補(上記した「大手航空
会社」、「経営」、「合理化」、「人員整理」、等)に
対して、コンテクスト情報付き単語出現頻度データベー
ス3から頻度の大きい文脈を出力する。
【0056】続いて、再帰的関連キーワード選択部5′
は、関連キーワード候補の中から「人員削減」と同じ文
脈の頻度が大きい、「リストラ」、「人員整理」、「希
望退職」を関連キーワードとして選択するとともに、キ
ーワード展開部4に出力する。
【0057】図9は、関連語データベース2の内容を例
示したものと、それぞれの関連語についてコンテクスト
情報付き単語出現頻度データベース3から出現頻度の大
きい文脈情報を抽出した内容を例示したものである。
【0058】図9を参照すると、キーワード展開部4
は、「リストラ」の関連キーワード候補として、「レイ
オフ」、「統廃合」、「再構築」を出力する。
【0059】図3を参照すると、再帰的関連キーワード
選択部5′は、コンテクスト情報付き単語出現頻度デー
タベース3から、「レイオフ」の高頻度文脈として、
「レイオフ(名の、によって)」を抽出する。
【0060】再び図9を参照すると、再帰的関連キーワ
ード選択部5′は、キーワード展開部4で出力された候
補に対して、コンテクスト情報付き単語出現頻度データ
ベース3から頻度の大きい文脈を出力する。
【0061】続いて、再帰的関連キーワード選択部5′
は、関連キーワード候補の中から、「リストラ」と同じ
文脈の頻度が大きい、「レイオフ」を関連キーワードと
して選択する。
【0062】このように、本発明の第3の実施の形態に
おいては、再帰的関連キーワード選択部5′によって、
入力キーワードが極めて少ない場合にも、検索キーワー
ドを十分に得ることができ、キーワードが少な過ぎるこ
とによる検索精度の低下を抑制することができる。
【0063】なお、本発明の第3の実施の形態の変形例
として、再帰的関連キーワード選択部5′は、関連キー
ワードの数が発散することを防ぐために、設定された出
現頻度の閾値を越えない単語のみを処理の対象とする、
ようにしてもよい。
【0064】図8は、本発明の第3の実施の形態及びそ
の変形例における再帰的関連キーワード選択部5′の処
理フローを説明するためのフローチャートである。図8
を参照すると、再帰的関連キーワード選択部5′は、関
連キーワードを出力するステップClと、該関連キーワ
ードの出現頻度が少ないか否かを判定するステップC2
(「展開判定ステップ」という)と、関連単語を展開し
再帰的関連キーワード選択部5′へ出力するステップC
3(「キーワード展開出力ステップ」という)と、関連
キーワードが他にもあるか否かを判定するステップC4
と、からなる。
【0065】ステップClにおいて、関連キーワードを
出力し、ステップC2において出現頻度が設定された閾
値を越えない場合、関連単語を展開し再帰的関連キーワ
ード選択部5′に出力する処理を行う(ステップC
3)。そして、関連キーワードが残っている場合、同様
にステップClから行なう。
【0066】このように、本発明の第3の実施の形態及
びその変形例では、入力キーワードが極めて少ない場合
にも検索キーワードを十分に得ることができ、また関連
キーワードから出現頻度が高い極めて一般的な単語に関
するキーワード展開を抑制することができ、キーワード
が少な過ぎること、及び、キーワードが増え過ぎること
による検索精度の低下を抑制することができる。
【0067】
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
【0068】本発明の第1の効果は、入力キーワードと
関連性の強いキーワードが選択されるために、検索精度
を向上することができる、ということである。この結
果、本発明は、文書の検索精度を向上する。
【0069】その理由は、本発明においては、入力キー
ワードと同じ文脈情報をもつ出現頻度の高い単語が関連
キーワードとして選択され、検索キーワードに加えられ
て検索するためである。
【0070】また、本発明の第2の効果として、選択的
キーワード展開部によって、出現頻度が高い極めて一般
的な単語に関するキーワード展開を抑制することがで
き、キーワードが増え過ぎることによる検索精度の低下
を、抑制することができる、ということである。
【0071】さらに、本発明の第3の効果として、再帰
的関連キーワード選択部によって、入力キーワードが極
めて少ない場合にも、検索キーワードを十分に得ること
ができ、キーワードが少な過ぎることによる検索精度の
低下を抑制することができる、ということである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る文書検索装置
の構成を示すブロック図である。
【図2】本発明の第1の実施の形態における関連キーワ
ード選択の処理を示すフローチャートである。
【図3】本発明の第1の実施の形態におけるコンテクス
ト情報付き単語出現頻度データベースの内容の具体例を
例示する図である。
【図4】本発明の第1の実施の形態を説明するための図
であり、関連語データベースの内容を例示したものと、
それぞれの関連語についてコンテクスト情報付き単語出
現頻度データベースから出現頻度の大きい文脈情報を抽
出した内容を例示したものである。
【図5】本発明の第2の実施の形態に係る文書検索装置
の構成を示すブロック図である。
【図6】本発明の第2の実施の形態における選択的キー
ワード展開部の処理を示すフローチャートである。
【図7】本発明の第3の実施の形態に係る文書検索装置
の構成を示すブロック図である。
【図8】本発明の第3の実施の形態及び変形例における
再帰的関連キーワード選択部の処理を示すフローチャー
トである。
【図9】本発明の第3の実施の形態を説明するための図
であり、関連語データベースの内容を例示したものと、
それぞれの関連語についてコンテクスト情報付き単語出
現頻度データベースから出現頻度の大きい文脈情報を抽
出した内容を例示したものである。
【符号の説明】
1 キーワード入力部 2 関連語データベース 3 コンテクスト情報付き単語出現頻度データベース 4 キーワード展開部 4′ 選択的キーワード展開部 5 関連キーワード選択部 5′ 再帰的関連キーワード選択部 6 文書データベース 7 文書検索部
フロントページの続き (56)参考文献 特開 平8−161353(JP,A) 特開 平7−56948(JP,A) 特開 平6−282587(JP,A) 特開 平3−172966(JP,A) 特開 昭63−292268(JP,A) 渡辺日出雄,「文書内容を反映したキ ーワードの重要度付け」,情報処理学会 第52回(平成8年前期)全国大会講演論 文集pp4−193〜4−194 佐藤研治ほか,「単語共起によるクエ リー展開を用いた大規模テキスト検 索」,情報処理学会第52回(平成8年前 期)全国大会講演論文集pp4−199〜 4−200 赤峰享ほか,「シソーラスによるクエ リー展開を用いた大規模テキスト検 索」,情報処理学会第52回(平成8年前 期)全国大会講演論文集pp4−201〜 4−202 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】入力されたキーワードから検索キーワード
    を拡張する場合に、類語辞書、関連語辞書、シソーラス
    辞書などを用いて関連単語を展開し、 単語の共起関係と文脈情報と頻度を保持した単語共起デ
    ータベースを用いて、前記入力されたキーワードと同じ
    文脈情報をもつ共起頻度の高い関連単語を関連キーワー
    ドとして選択し、検索キーワードに追加して、文書を検
    索する、ことを特徴とする文書検索方法。
  2. 【請求項2】前記検索キーワードを拡張する場合、出現
    頻度が予め定められた所定の値よりも少ない特徴的な入
    力キーワードについてのみ、関連単語の展開を行ない、
    検索キーワードに追加して、文書を検索する、ことを特
    徴とする請求項1記載の文書検索方法。
  3. 【請求項3】入力されたキーワードから検索キーワード
    を拡張する場合に、 類語辞書、関連語辞書、シソーラス辞書などを用いて関
    連単語を展開し、 単語の共起関係と文脈情報と頻度を保持した単語共起デ
    ータベースを用いて、前記入力されたキーワードと同じ
    文脈情報をもつ共起頻度の高い関連単語を関連キーワー
    ドとして選択し、 さらに、前記関連キーワードから再帰的に関連単語の展
    開と、関連キーワード選択を行ない、 検索キーワードに追加して、文書を検索する、ことを特
    徴とする文書検索方法。
  4. 【請求項4】前記検索キーワードを拡張する場合、出現
    頻度が予め定められた所定の値よりも少ない特徴的な関
    連キーワードについてのみ、再帰的な関連単語の展開と
    関連キーワードの選択を行ない、検索キーワードに追加
    して、文書を検索することを特徴とする請求項3記載の
    文書検索方法。
  5. 【請求項5】キーワードを入力するキーワード入力部
    と、 前記キーワード入力部より入力された入力キーワードか
    ら、類語辞書、関連語辞書、シソーラス辞書などを用い
    て同義・類義語など関連単語を展開するキーワード展開
    部と、 展開された関連単語から、単語の共起関係と文脈情報と
    頻度を保持した単語共起データベースを参照して、前記
    入力キーワードと同じ文脈情報をもつ共起頻度の高い関
    連単語を関連キーワードとして選択する関連キーワード
    選択部と、 前記入力キーワードおよび前記関連キーワードを検索キ
    ーワードとして、文書データベースから文書の検索を行
    なう文書検索部と、 を備えたことを特徴とする文書検索装置。
  6. 【請求項6】キーワードを入力するキーワード入力部
    と、 前記キーワード入力部より入力された入力キーワードか
    ら、類語辞書、関連語辞書、シソーラス辞書などを用い
    て同義・類義語など関連単語を展開する際、出現頻度が
    少ない特徴的な入力キーワードの場合のみ関連単語の展
    開を行なう選択的キーワード展開部と、 展開された関連単語から、単語の共起関係と文脈情報と
    頻度を保持した単語共起データベースを参照して、入力
    キーワードと同じ文脈情報をもつ共起頻度の高い関連単
    語を関連キーワードとして選択する関連キーワード選択
    部と、 前記入力キーワードおよび前記関連キーワードを検索キ
    ーワードとして、文書データベースから文書の検索を行
    なう文書検索部と、 を備えたことを特徴とする文書検索装置。
  7. 【請求項7】キーワードを入力するキーワード入力部
    と、 前記キーワード入力部より入力された入力キーワードと
    関連キーワードから類語辞書、関連語辞書、シソーラス
    辞書などを用いて同義・類義語および関連単語を展開す
    るキーワード展開部と、 展開された関連単語から、単語の共起関係と文脈情報と
    頻度を保持した単語共起データベースを参照して、前記
    入力キーワードと同じ文脈情報をもつ共起頻度の高い関
    連単語を関連キーワードとして選択し、前記キーワード
    展開部に出力する再帰的関連キーワード選択部と、 前記入力キーワードおよび前記関連キーワードを検索キ
    ーワードとして文書データベースから文書の検索を行な
    う文書検索部と、 を備えたことを特徴とする文書検索装置。
  8. 【請求項8】前記関連キーワードが、出現頻度が予め定
    められた所定の値よりも少ない特徴的な関連キーワード
    である場合のみ、キーワード展開を行なう、ことを特徴
    とする請求項7記載の文書検索装置。
  9. 【請求項9】前記選択的キーワード展開部が、前記入力
    キーワードの出現頻度を予め定められた閾値と比較し、
    出現頻度が前記閾値を越えない入力キーワードについて
    のみ、関連単語を展開して、前記関連キーワード選択部
    に出力する、ことを特徴とする請求項5記載の文書検索
    装置。
JP8320828A 1996-11-15 1996-11-15 文脈情報を用いた文書検索方法および装置 Expired - Fee Related JP2894301B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8320828A JP2894301B2 (ja) 1996-11-15 1996-11-15 文脈情報を用いた文書検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8320828A JP2894301B2 (ja) 1996-11-15 1996-11-15 文脈情報を用いた文書検索方法および装置

Publications (2)

Publication Number Publication Date
JPH10149370A JPH10149370A (ja) 1998-06-02
JP2894301B2 true JP2894301B2 (ja) 1999-05-24

Family

ID=18125694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8320828A Expired - Fee Related JP2894301B2 (ja) 1996-11-15 1996-11-15 文脈情報を用いた文書検索方法および装置

Country Status (1)

Country Link
JP (1) JP2894301B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6256633B1 (en) * 1998-06-25 2001-07-03 U.S. Philips Corporation Context-based and user-profile driven information retrieval
JP2001337980A (ja) 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
JP4825544B2 (ja) * 2005-04-01 2011-11-30 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP2008282322A (ja) * 2007-05-14 2008-11-20 Sony Ericsson Mobilecommunications Japan Inc 情報処理装置及び情報処理方法
JP5178109B2 (ja) * 2007-09-25 2013-04-10 株式会社東芝 検索装置、方法及びプログラム
JP5688754B2 (ja) * 2010-10-04 2015-03-25 独立行政法人情報通信研究機構 情報検索装置及びコンピュータプログラム
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
佐藤研治ほか,「単語共起によるクエリー展開を用いた大規模テキスト検索」,情報処理学会第52回(平成8年前期)全国大会講演論文集pp4−199〜4−200
渡辺日出雄,「文書内容を反映したキーワードの重要度付け」,情報処理学会第52回(平成8年前期)全国大会講演論文集pp4−193〜4−194
赤峰享ほか,「シソーラスによるクエリー展開を用いた大規模テキスト検索」,情報処理学会第52回(平成8年前期)全国大会講演論文集pp4−201〜4−202

Also Published As

Publication number Publication date
JPH10149370A (ja) 1998-06-02

Similar Documents

Publication Publication Date Title
Drouin Term extraction using non-technical corpora as a point of leverage
Ohsawa et al. KeyGraph: Automatic indexing by co-occurrence graph based on building construction metaphor
Kowalski et al. Information storage and retrieval systems: theory and implementation
US8346795B2 (en) System and method for guiding entity-based searching
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
US20040122846A1 (en) Fact verification system
US6112204A (en) Method and apparatus using run length encoding to evaluate a database
JPWO2003012679A1 (ja) データ処理方法、データ処理システムおよびプログラム
CA2536262A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
JP2001084255A (ja) 文書検索装置および方法
JP3198932B2 (ja) 文書検索装置
Zhang et al. A trainable method for extracting Chinese entity names and their relations
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
Wu et al. Text categorization using automatically acquired domain ontology
JP2850952B2 (ja) 文書検索方法および装置
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JP3856388B2 (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
CN112711695A (zh) 基于内容的搜索建议生成方法及装置
JPH0228769A (ja) キーワード自動生成装置
Silvester Computer supported indexing: A history and evaluation of NASA's MAI system
US20040039562A1 (en) Para-linguistic expansion
Solanki et al. SummaGen: Next-Generation Seq-to-Seq Model for Summarizing Unstructured Text
JP2001344256A (ja) 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体
Saetia et al. Enhancing Thai Keyphrase Extraction Using Syntactic Relations: An Adoption of Universal Dependencies Framework
JP2001034630A (ja) 文書ベース検索システム、およびその方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080305

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110305

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110305

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120305

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120305

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees