JPH06348757A

JPH06348757A - 文書検索装置および方法

Info

Publication number: JPH06348757A
Application number: JP5135590A
Authority: JP
Inventors: Sachiko Koyama; 幸子小山; Tadahiro Kiyama; 忠博木山; Hiroshi Tsuji; 洋辻; Satoshi Asakawa; 悟志浅川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-06-07
Filing date: 1993-06-07
Publication date: 1994-12-22

Abstract

(57)【要約】【目的】本体ファイルから圧縮ファイルを作成して等
価的に全文検索を高速に行う文書検索装置および方法に
よる文書検索に関し、検索者が指定したキーワードの本
体ファイルにおける頻度情報を高速検索に利用すること
を可能にする。【構成】単語分割部（１）、出現頻度検出部（２）、
頻度ヘッダ作成部（３）を設けデータベース登録時に文
書の頻度情報を得て、データ管理データファイル
（ｅ）、頻度情報付き圧縮データファイル（ｇ）をデー
タベースに登録し、文書情報取得部（１１）を設けるこ
とによって達成される。【効果】データベースの中でも利用者の指定した頻度
に適合した圧縮ファイルをもつ部分のみを検索対象とす
るので高速に全文検索可能で、かつ検索結果として得ら
れた文書のキーワード以外の単語の文書間の総頻度や出
現文書数を得ることができ、検索ノイズを低減すること
ができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は利用者から指定されたキ
ーワードを含む文書を文書データベースから抽出する文
書検索方法および装置に関する。

【０００２】

【従来の技術】計算機の処理速度向上に伴って、文書検
索方式はインデックス検索から自由語による全文検索シ
ステムが利用されるようになってきた。代表的なシステ
ムとして、特開Ｈ０３−０５８３１１フルテキストサー
チ方式および装置（中研受付番号３１９００１４８
４）、第４５回情報処理学会全国大会講演論文集（３）
３−２３９−２４４に記載されている階層型プリサーチ
方式によるフルテキストサーチシステム（日立、Ｂｉｂ
ｌｉｏｔｈｅｃａ／ＴＳ）や電気情報通信学会技術研究
報告ＤＥ９０−３４に記載されているフルテキストデー
タベースシステム（松下、検蔵君）がある。

【０００３】前述の階層型プリサーチ方式では、１文書
が文書中に出現する各文字についてその存在を１ビット
の情報で現した文字成分表、テキストファイルから繰り
返し現れる単語の重複を排除して作成された圧縮デー
タ、および文書の本体データの３つのファイルから構成
される。キーワードが与えられるとまず文字成分表が検
索され、キーワードとして指定された文字を含まない文
書は検索の対象から除外される。

【０００４】次に圧縮テキストで単語レベルの検索が行
われ、さらに絞り込みが行われ、必要が生じた場合のみ
本体データであるテキスト内の検索が行われる。例え
ば、文字列のみの指定であれば圧縮テキストを参照する
のみで、本文データを参照せずに検索は終了するが、２
つのキーワードの間の文字数の指定がある場合（近傍検
索）は、圧縮テキストの検索で２つのキーワードを含む
文書を絞りこんでから、本文の検索を行い２つのキーワ
ードの文字間隔をチェックする。

【０００５】特開Ｈ０３−０５８３１１フルテキストサ
ーチ方式および装置では登録文書の本文文字列をひらか
な、漢字等の文字種ごとに分割し、分割した各部文文字
列間で相互に、文字列の包含関係を調べ、他の文字列を
排除した部分文字列の集合を圧縮データとする。

【０００６】

【発明が解決しようとする課題】従来の階層プリサーチ
方式では（１）指定されたキーワードを多数含む文書も１個しか
含まない文書も同等に扱われる。（２）指定されたキーワードに単語の一部が一致する場
合に利用者が意図しない単語を含む文書もヒットする。
例えば、”コメ”をキーワードとして指定した場合、”
コメント”を含む文書も検索結果に含まれる。（３）ヒット件数が膨大な数になった場合、利用者は検
索結果を絞り込むことを所望するが、検索結果集合につ
いては件数以外の情報が得られない。（２）については前述の検蔵君では検索結果として得ら
れたテキストを後処理として解析しているが、検索時間
の著しい増加を招くという問題がある。

【０００７】本発明の目的は、データベースに文書を登
録する際に、単語辞書を用いた単語分割を行い、単語頻
度を算出し、それを圧縮テキストに反映することによっ
て（１）文書に含まれるキーワードの個数を検索条件に
含めることを許容し、（２）検索時の応答時間を劣化す
ることなく検索ノイズを減らす、さらに、上記手段に加
えて文書情報取得手段を加えることによって、（３）検
索結果を絞り込むための手がかりを利用者に与える、シ
ステムを提供することにある。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に、本発明の文書検索装置は、単語分割手段によって本
文データの単語分割（形態素解析）を行ったのち、頻度
検出手段によって単語の繰り返しを除き単語が頻度順に
並んだ圧縮テキストを作成する。

【０００９】次に、ヘッダ作成手段によって、圧縮テキ
ストと共に各頻度の単語が圧縮テキストのどこにあるか
示した頻度ヘッダを作成し、登録手段によって、本文デ
ータ、圧縮データ、頻度ヘッダをデータベースに登録す
る。さらに、本発明の文書検索装置はヒット文書を構成
する情報を取得するための文書情報取得手段を具備し、
得られた検索結果集合に含まれる単語の頻度情報を出現
頻度検出手段によって求めて、利用者に提示する。

【００１０】

【作用】本発明による文書検索装置は、まず、登録対象
文書に対して単語分割を行った後、文書中の単語の出現
頻度を算出し、単語を出現頻度順にソートした状態の単
語出現頻度テーブルを作成する。次に、各頻度以上の単
語が単語出現頻度テーブルのどこに位置するのが示す頻
度ヘッダを作成する（例えば、頻度１０以上の単語は圧
縮テキストの６番目までといった情報を持つインデック
スファイル）。各文書ごとに、頻度ヘッダと単語出現頻
度テーブルの見出し語を頻度情報付き圧縮テキストとし
て、テキストデータを全文テキストファイルとして文書
データベースに登録する。

【００１１】上記方法で作成された文書データベースを
検索する場合は、キーワードの出現頻度の指定があれば
（例えば、”コメ”を５回以上含む文書を探せ）、圧縮
テキストの頻度ファイルを参照して、該当する頻度の位
置を圧縮ファイルの参照終了位置として取得し、次に検
索実行部が圧縮テキスト読み込み終了位置まで圧縮テキ
スト参照し、キーワードが含まれるかどうか判断する。

【００１２】以上により頻度条件が指定された場合に従
来方式よりも高速に検索可能である。特に、指定された
キーワードの頻度が高い場合は圧縮テキストの参照量が
減少するために高速な検索が可能になるので、利用者は
要求に応じた検索をきめ細かに行うことができる。検索
結果に対しても表示の際に指定されたキーワードを反映
したソートを行うことも高速にできる。

【００１３】さらに、本発明による文書検索装置は”検
索結果集合１に含まれる単語を出現文書数の昇順で３０
個みせて”といったような利用者の要求を受け付ける。
このとき、利用者の要求に応じて、ヒット文書に対応す
る圧縮ファイルから各見出し語、頻度及び、データベー
ス内で文書に付与された番号が１レコードとして文書番
号付き出現頻度テーブルに書き出される。次に、ヒット
した全文書から得られた文書番号付き出現頻度テーブル
を対象に、各単語の文書間での総出現頻度と出現文書数
が求め、利用者の指示に従って表示する。

【００１４】以上により、利用者はヒット文書の本文を
個別に参照することなく、ヒット文書全体の概要を把握
することが可能で、絞り込み検索を行う場合の適切な手
掛かりを得ることができる。

【００１５】

【実施例】以下、本発明の第１実施例を図１から図２４
を用いてより詳細に説明する。図１は本発明の第１実施
例の概要を示した図である。頻度情報付き圧縮データ作
成部は単語分割部１、出現頻度検出部２、ヘッダ作成部
３から構成される。まず、単語分割部１が入力された文
書データａを単語分割し、単語分割結果を単語分割テー
ブルｂに登録する。出現頻度検出部２は単語分割テーブ
ルｂを参照し、単語の出現頻度を算出して、単語を出現
頻度順に単語を並べ変えて、単語出現頻度テーブルｃに
登録する。ヘッダ作成部３は単語出現頻度テーブルｃを
参照して、頻度の累積度数分布表を作成して、頻度分布
テーブルｄに登録する。登録部は文書データａ、単語出
現頻度テーブルｃ、頻度分布テーブルｄを参照して、文
書データを全文テキストファイルｆに、頻度分布テーブ
ルｄと単語出現頻度テーブルｃを頻度情報付き圧縮デー
タｇに登録する。さらに、管理データファイルｅに各文
書番号、全文テキスト先頭アドレス、単語出現頻度テー
ブルｅの先頭アドレス、頻度分布表の先頭アドレスを登
録する。

【００１６】検索コマンド作成部５は利用者の入力する
検索指示文字列ｈを取得し、検索コマンドに変換して、
検索コマンドテーブルｉに登録する。検索実行部６は検
索コマンドテーブルｉを参照して、管理データファイル
ｅ、全文テキストデータファイルｆ、頻度情報付き圧縮
データファイルｇからなる文書データベースを検索す
る。検索結果は検索結果テーブルｊに登録される。結果
整理部７は検索結果テーブルｊをキーワードの出現頻度
をキーにをソートし、ソートされた検索結果テーブルｋ
に登録する。

【００１７】図から明らかなように、単語分割部１、出
現頻度検出部２、頻度ヘッダ作成部３、登録部４、検索
コマンド作成部５、検索実行部６、検索結果整理部７は
処理を示し、文書データａ、単語分割テーブルｂ、単語
出現頻度テーブルｃ、頻度分布テーブルｄ、文書データ
ベース（管理ファイルｅ、全文テキストファイルｆ、頻
度情報付き圧縮ファイルｇ）、検索結果テーブルｊ、ソ
ートされた検索結果テーブルｋはファイルである（テー
ブルとも呼ぶ）。このように本実施例によれば、各機能
ブロックがプログラム論理によって構成されている。そ
のため、各機能ブロック単位にＬＳＩ化が可能であり、
文書処理装置として高速化を図ることができる。

【００１８】図２は図１における文書検索装置の全体的
なハードウェア構成図を示すブロック図である。入出力
装置８はデータの入力および各種情報の表示を行う。プ
ロセッサ９は、プログラムに基づき、図１における処理
を実行する。記憶装置１０は図１における各種データや
プログラムを格納する。記憶装置１０はプロセッサ９の
各実行処理用のメモリであるワーキングエリアａ、ｂ、
ｃ、ｄ、ｈ、ｉ、ｊ、、ｋ、単語分割部格納エリア１０
０、出現頻度検出部格納エリア２００、ヘッダ作成部格
納エリア３００、登録部格納エリア４００、文書データ
ベース格納エリアｅ、ｆ、ｇ、検索コマンド作成エリア
５００、検索実行部格納エリア６００、検索結果整理部
格納エリア７００の記憶部を持っている。記憶装置１０
に格納される各プログラムはプロセッサにおいて実行さ
れる。その実行に際し、必要に応じて入出力装置８が用
いられる。

【００１９】図３は図１における単語分割部１の処理手
順を表すＰＡＤ図（Problem Analysis Diagram）で、文
書データａを取得し、単語分割テーブルｂに格納するま
での処理を示したものである。以下、この処理をＰＡＤ
図に従って説明する。文書データａを参照し、先頭文書
データから末尾文書データまで以下の処理を行う（ステ
ップ１０１）。まず、１文書分のデータを取得し（ステ
ップ１０２）、文書データを単語分割して（ステップ１
０３）、見出し文字列、相対的な文書番号を単語分割テ
ーブルに格納し（ステップ１０４）、次に処理の対象を
次の文書データに移動する（ステップ１０５）。以上の
ステップにより図４に示す文書データａを図５に示す単
語分割テーブルｂに格納する。

【００２０】図４は文書データａの例である。図５は単
語分割テーブルｂの例であり、文書番号ｂ１、見出し語
ｂ２の項目から構成されている。図６は出現頻度検出部
２の処理手順を示すＰＡＤ図である。単語分割テーブル
ｂからデータを取得し、単語出現頻度テーブルｃにデー
タを格納するまでの処理を示したものである。単語分割
テーブルｂの文書データの先頭文書のデータから末尾文
書のデータまで（ステップ２０１）以下の処理を行う。
まず、単語分割テーブルの先頭見出しから末尾見出しま
で（ステップ２０２）、１レコード分のデータを読み込
む（ステップ２０３）。次にステップ２０４に進み、単
語分割ファイルを対象に見出しが同じレコードの検索を
行い、頻度を算出する。ステップ２０５で、各見出し語
の出現頻度に従って降順にソート行い、ステップ２０６
でソートされた単語出現頻度レコードが単語出現頻度テ
ーブルｃに格納される。ステップ２０７で処理対象を次
のレコードに移す。

【００２１】図７は出現頻度検出部２によって作成され
た出現頻度テーブルｃの例で、見出し文字列ｃ１、頻度
ｃ２、文書番号ｃ３の項目から構成される。図８は頻度
ヘッダ作成部３の処理手順を示すＰＡＤ図で、単語出現
頻度テーブルｃからデータを取得し、頻度分布テーブル
ｄにデータを格納するまでの処理を示したものである。
以下の処理を文書データの先頭文書から末尾文書まで行
う（ステップ３０１）。ステップ３０２で頻度の累積度
数を取得するために用いる変数ｃｏｕｎｔの初期化を行
う。次に、各文書の単語頻度テーブルの最初のレコード
から最後のレコードまで（ステップ３０３）、同じ頻度
のレコードが続く間（ステップ３０４）、レコードを読
み込み（ステップ３０５）、変数ｃｏｕｎｔに１を加え
（ステップ３０６）、処理対象を次のレコードに移動す
る（ステップ３０７）。ステップ３０４でレコードの頻
度が変わっていたら（単語出現頻度を降順にデータが並
べられているので、頻度が減少したら）、ステップ３０
８で頻度と変数ｃｏｕｎｔの値を頻度分布テーブルに書
き込む。変数ｃｏｕｎｔの値は頻度の累積度数の値を示
す。次にステップ３０９で処理対象を次のレコードに移
動する。ステップ３１０で処理対象を次文書に移動す
る。

【００２２】図９はヘッダ作成部によって作成された頻
度分布テーブルｄの例で頻度見出しｄ１、累積度数ｄ
２、文書番号ｄ３の項目からなっている。この例は図７
の例について作成した頻度分布テーブルで文書１には出
現頻度が７の単語が１個、出現頻度が６の単語が０、出
現頻度が５の単語が１個、頻度が４の単語が２つあるこ
とを示している。

【００２３】図１０は登録部４の処理手順を示したＰＡ
Ｄ図で文書データａ、単語出現頻度テーブルｃ、頻度分
布テーブルｄを取得して文書データベースの各ファイル
ｅ、ｆ、ｇに格納するまでの処理を示したものである。
以下、順に説明する。ステップ４０１で登録用データを
取得する。登録用データの先頭データから末尾データま
で以下の処理を行う（ステップ４０２）。まず、ステッ
プ４０３で文書番号を取得し、次に、ステップ４０４で
データの種類を判定し、文書データａであれば全文テキ
ストデータファイルに文書データを格納し（ステップ４
０５）、単語出現頻度テーブルｃであれば圧縮データフ
ァイルｇに見出し文字列ｃ１、および、頻度ｃ２を格納
し（ステップ４０６）、頻度分布テーブルｄであれば圧
縮データファイルの頻度情報として頻度ヘッダファイル
ｇへ頻度ｄ１と累積度数ｄ２を登録する（ステップ４０
７）。ステップ４０８で格納したファイルの先頭アドレ
スを管理データファイルｅの文書番号の一致したレコー
ド欄に書き込む。ステップ４０９で処理対象を次文書へ
移す。

【００２４】図１１は登録部４によって登録された管理
データファイルの例で、１レコードは文書番号ｅ１、圧
縮先頭アドレスｅ２、頻度ヘッダ先頭アドレスｅ３、全
文テキストデータ先頭アドレスｅ４の項目から構成され
ている。データベースに登録されている文書数分のレコ
ードがある。

【００２５】図１２は登録部４によって登録された頻度
情報付き圧縮データｇの例を示す図で、各文書ごとに、
文書番号ｇ１、頻度ヘッダｇ２、圧縮テキストｇ３から
構成されている。データベースに登録されている文書数
分のレコードがある。図１３は入出力装置８を介して表
示された入力用画面に利用者が入力した検索文字列の例
を示す。

【００２６】図１４は入出力装置８を介して表示された
入力用画面に利用者が入力した検索文字列の例を示す。
本例では利用者が頻度情報の指定を行っている。キーワ
ード”ネットワーク”と”コンピュータ”をそれぞれ２
個以上含む文書を検索しろという意味である。

【００２７】図１５は入出力装置８を介して表示された
入力用画面に利用者が入力した検索文字列の例を示す。
本例では利用者は語を単位として近傍検索をしている。

【００２８】図１６は検索コマンド作成部５の処理手順
を示すＰＡＤ図で、検索指示文字列ｈを入力として、検
索コマンドテーブルｉに検索コマンドを格納するまでの
処理を行う。ステップ５０１で入力モードがコマンドモ
ードであるか、自然語モードであるか判定し、コマンド
モードの場合はステップ５０２で文法のチェックを行
い、エラーがあった場合にはステップ５０３で終了処理
を行う。ステップ５０１で入力モードが自然語と判定さ
れた場合はステップ５０４で意味解析を行い、ステップ
５０５でコマンド生成を行う。

【００２９】次にステップでコマンドタイプ５０６の判
定を行い、検索に関するコマンドであれば検索コマンド
テーブル（ステップ５０７）に、文書情報取得に関する
コマンドであれば文書情報取得テーブルに格納する（ス
テップ５０８）。図１３から図１５に示される検索指示
文字列から作成されたコマンドはいずれも検索に関する
コマンドである。

【００３０】図１７に検索コマンドテーブルの例を示
す。３つのコマンドはそれぞれ図１３、図１４、図１５
の検索指示入力に対応している。図１８は検索実行部６
における処理を示すＰＡＤ図である。検索実行部６では
検索コマンドテーブルｉに格納された検索コマンドに従
って、文書データベースｅ、ｆ、ｇを検索し、その結果
を検索結テーブルｊに格納するまでの処理を行う。以
下、処理を順に説明する。まず、ステップ６０１で検索
コマンドテーブルから検索コマンドを取得し、ステップ
６０２でヒット件数を初期化し、ステップ６０３でヒッ
ト文書番号格納配列を初期化する。次に、ステップ６０
４でヒット文書をカウントする変数の初期化を行い、ス
テップ６０５ではヒット候補の文書番号を格納する配列
を初期化する。文書データベースの最初の文書から最後
の文書まで以下の処理を行う（ステップ６０６）。ま
ず、検索コマンドに含まれる利用者から指定された最初
のキーワードから最後のキーワードまで（ステップ６０
７）頻度情報付き圧縮データファイルを検索する（ステ
ップ６０８）。ステップ６０９でヒット候補の件数が０
より大きい場合はステップ６１０に進み、指定されたキ
ーワード数が１の場合はステップ６１１でヒット文書確
定処理６１１を行う。ステップで指定されたキーワード
数が２つ以上ある場合は、ステップ６１２で複数キーワ
ード処理（キーワード間の論理演算）に進み、ステップ
６１３でヒット候補カウント変数の値が０より大きけれ
ばステップ６１１でヒット文書確定処理を行う。

【００３１】図１９は頻度情報付き圧縮データ検索処理
６０８の手順を示すＰＡＤ図である。頻度情報付き圧縮
データ検索処理では利用者に指定されたキーワードの有
無を頻度情報付き圧縮データを対象に検索し、キーワー
ドをデータ内に含む文書をヒット文書の候補としてその
文書番号をヒット候補文書番号配列に格納し、ヒット候
補カウント変数を用いて、ヒット候補となった文書数を
求める。このとき利用者により頻度の指定があれば、圧
縮ファイルの頻度に対応した部分のみを検索する。ま
ず、ステップ６０８０１で１文書分の圧縮データを取得
する。ステップ６０８０２で頻度の指定があった場合に
はステップ６０８０３に進み、頻度ヘッダを読み込み、
ステップ６０８０４で圧縮データの参照開始位置を読み
込み、ステップ６０８０５で参照終了位置を取得する。
例えば、キーワードの指定個数が３個より大きくて、８
個より小さい場合に図１２に示され文書番号１の文書で
は圧縮ファイルの検索開始位置１個目で、検索終了位置
は４個目となり、文書番号２の文書では圧縮ファイルの
検索開始位置は３個目で、検索終了位置は１０個目とな
る。頻度の指定がない場合はステップ６０８０６で圧縮
データの最初の見出し語が圧縮データの参照開始位置
に、ステップ６０８０７で最後の見出し語が最終参照位
置に設定される。次に、圧縮ファイルの参照開始指定
位置から、参照終了指定位置まで（ステップ６０８０
８）、ステップ６０８０９で圧縮ファイルの見出し語を
１語読みだして、ステップ６０８１０で検索キーワード
と見出し語の比較を行い、両者が完全一致すれば、ステ
ップ６０８１１に進む。ステップ６０８１１でヒット候
補カウント変数を１増やし、ステップ６０８１２で文書
番号をヒット候補配列のヒット候補カウント変数の値が
示す行の１列目に格納し、ステップ６０８１３で、頻度
ヘッダを参照してキーワードの頻度を求め、この値をヒ
ット候補配列のヒット候補カウント変数の値が示す行の
２列目に格納する。例えば、キーワードが”ユーザ”で
あった場合、図１２に示される圧縮ファイルがあった場
合、ヒット候補配列の１行１列目には文書番号１を示す
１が格納され、１行２列目には頻度を示す３が格納さ
れ、ヒット候補配列の２行１列目には文書番号を示す２
が２行２列目には頻度を示す５が格納される。ステップ
６０８１４でステップ６０９８に進み、圧縮テキストの
参照を中断する。ステップ６０８１０で検索キーワード
と圧縮ファイルの見出し語が一致しなかった場合には、
ステップ６０８１８に進み、処理対象を圧縮ファイルの
次の見出しに移す。

【００３２】次にステップ６０８１６でヒット候補件数
が１件以上あるか否か判定し、ヒット候補が０件の場合
はステップ６０８１７に進み検索を終了する。最後にス
テップ６０８１８で処理の対象を次のキーワードに移
す。

【００３３】以上のような凝縮ファイルの検索方式では
キーワードと見出しの完全一致を持ってヒット候補とす
るので図１３に示すように利用者が”コメ”をキーワー
ドとして指定した場合に”コメント”を含む文書をヒッ
トすることがない。また、圧縮ファイルが頻度に従っ
て、格納されており、頻度分布テーブルも用意されてい
るために高速に頻度を条件とした検索を行うことができ
る。

【００３４】図２０はヒット文書確定処理６１１の手順
を示すＰＡＤ図である。ヒット文書確定処理６１１はヒ
ット候補文書をヒット文書に確定する処理で、検索結果
を検索結果テーブルに書き出す。ステップ６１１１でヒ
ット候補番号配列の値をヒット文書番号配列として、ス
テップ６１１２でヒット候補カウント変数の値をヒット
件数とする。ステップ６１１３でヒット文書番号、全文
テキストの先頭アドレス、頻度、本文データ中のキーワ
ードを最初に出現する位置からあらかじめ決められたバ
イト数分、を１レコードとして検索結果テーブルに格納
する。

【００３５】図２１は複数キーワード処理６１３の手順
を示すＰＡＤである。複数キーワード処理６１３では利
用者が複数のキーワードを指定しており、各キーワード
に対して得られたヒット候補文書間で論理演算処理が必
要な場合の処理である。ステップ６１３０１でヒット候
補用配列間の第１列にある文書番号を用いて検索者が指
定する論理演算を実行する。ステップ６１３０２で論理
演算結果に基づいて、ヒット候補件数を書換え、ステッ
プ６１３０３で論理演算結果に基づいてヒット候補配列
を書き書換える。ステップ６１３０４で近傍条件の有無
を判定し、ない場合はヒット文書確定処理６１１に進
む。図１５に示されるような近傍条件の指定があれば、
ヒット候補配列の第１行から最終行まで（ステップ６１
３０５）以下の処理を行う。まず、ステップ６１３０５
でヒット候補配列の第１列に格納されている文書番号を
参照する。ステップ６１３０７で文書番号の全文テキス
トデータ取得する。ステップ６１３０８で単語分割部で
単語分割を行う。ステップ６１３０９で単語分割処理結
果が格納されている単語分割テーブルｂを参照してキー
ワードの位置関係が指定されたものに一致するか否か判
断し、一致しない場合はステップ６１３１０で文書番号
をヒット候補配列から外す。最後にステップ６１３１１
で処理対象を次の配列行に移す。

【００３６】図２２は検索結果テーブルの一例を示す図
で、文書番号ｊ１、先頭アドレスｊ２、頻度ｊ３、テキ
スト部分ｊ４の項目から構成される。

【００３７】図２３は検索結果整理部７の処理手順を示
すＰＡＤ図で、検索結果整理部７では検索結果テーブル
ｊを読み込んで、頻度情報に基づくソートを行い、ソー
トされた検索結果テーブルｊに格納する。まず、検索結
果テーブルの先頭のレコードから最終レコードまで（ス
テップ７０１）、ステップ７０２でレコードを取得し、
ステップ７０３でソートキーを取得する。入力が検索結
果テーブルの場合は頻度をソートキーとする。ステップ
７０４でキーに従ってソートを実施し、ステップ７０５
で結果をソートされた検索結果テーブルｊとして格納す
る。

【００３８】図２４は検索結果整理部７によって図２２
に示す入力がソートされた結果を入出力装置８に出力し
た例を示す。以下図２５から図３７を用いて本発明の第
２実施例を詳細に説明する。図１から図３５まで同じ参
照番号は同じものを指す。図２５に本発明の第２実施例
を示す。第２実施例では第１実施例で作成した圧縮デー
タファイルから検索結果として得られた文書に含まれる
単語の頻度情報を利用者の指定に従って提示することを
実現している。

【００３９】以下図２５から図３７を用いて本発明の第
２実施例を詳細に説明する。図１から図３５まで同じ参
照番号は同じものを指す。図２５に本発明の第２実施例
を示す。第２実施例では第１実施例で作成した圧縮デー
タファイルから検索結果として得られた文書に含まれる
単語の頻度情報を利用者の指定に従って提示することを
実現している。

【００４０】図２５は第２実施例の概略を示す機能図で
ある。コマンド作成部５は利用者からの文書情報取得指
示入力ｐをインタフェース制御部２０を介して参照し
て、文書情報取得コマンド作成テーブルｑを格納する。
文書情報取得部１１は文書情報取得コマンドテーブルｑ
と検索結果テーブルｊを参照して文書データベースの各
ファイルから情報を取得する。利用者がキーワードが出
現する文を情報取得の対象に指定している場合は、全文
テキストファイルｆから全文テキストを取得して、キー
ワードが出現している文書を切りだして、その結果をテ
キストデータテーブルｒに格納する。利用者がヒットし
文書全体を情報取得の対象に指定している場合は圧縮デ
ータファイルｇを単語出現頻度テーブルの形式に変換し
て単語出現頻度テーブルｃに格納する。テキストデータ
テーブルｒに格納されたデータは単語分割部１で単語分
割され、その結果は単語分割テーブルｂに格納される。
出現頻度検出部２は単語分割テーブルｂを参照して、文
書内での各文の中に出現する単語の頻度を求め文書数付
出現頻度テーブルｓに格納する。文書数検出部１２は単
語出現頻度テーブルｃを参照して、各単語の文書間の総
頻度と出現文書数を求める。文書出力制御部１３は文書
情報取得コマンドテーブルｑを参照して、文書数付出現
頻度テーブルｓから利用者の指定する情報を抽出し、文
書情報テーブルｔに格納し、その結果はインタフェース
制御部２０を介して提示される。提示された文書情報テ
ーブルのレコードをマウスやタッチパネルなどの入力装
置によって選択すると、絞り込み指示ｕとしてインタフ
ェース制御部２０を介してコマンド作成部に送られ、コ
マンド作成部は文書情報テーブルｔを参照してコマンド
を作成して、検索コマンドテーブルｇに格納する。絞り
込み指示の場合は絞り込みフラグを立てる。検索実行部
６は検索コマンドテーブルｇを参照して検索を行う。絞
り込みフラグが立っている場合は検索結果テーブルｊを
参照してヒットしている文書を対象に検索を行う。

【００４１】図２６は図２５における文書検索装置の全
体的なハードウェア構成図を示すブロック図である。入
出力装置８はデータの入力および各種情報の表示を行
う。プロセッサ９は、プログラムに基づき、図２４にお
ける処理を実行する。記憶装置１０は図２４における各
種データやプログラムを格納する。さらに、記憶装置１
０はプロセッサ９の各実行処理用のメモリであるワーキ
ングエリアｂ、ｃ、ｈ、ｊ、ｐ、ｑ、ｒ。ｓ、ｔ、単語
分割部格納エリア１００、出現頻度検出部格納エリア２
００、文書データベース格納エリアｅ、ｆ、ｇ、検索コ
マンド作成エリア５００、検索実行部格納エリア６０
０、文書情報取得部格納エリア１１００、文書数検出部
格納エリア１２００、文書情報出力制御部格納エリア１
３００、インタフェース制御部格納エリアの記憶部を持
っている。記憶装置１００に格納される各プログラムは
プロセッサにおいて実行される。その実行に際し、必要
に応じて入出力装置８が用いられる。

【００４２】図２７は文書情報取得指示入力例ｐであ
る。図２８は文書情報取得指示入力例ｐである。図２９
は図２７、図２８に示された文書情報取得指示入力例ｐ
がコマンド作情報取得ｋｏｎａｍｍ成部５に入力され、
文書情報取得コマンドテーブルｑに出力された例であ
る。

【００４３】図３０は文書情報取得部１１における処理
の概要を示すＰＡＤ図である。文書情報取得１１は図２
５における文書テーブルｑを参照して、検索結果テーブ
ルｊおよび文書データベースの各ファイルｅ、ｆ、ｇか
ら情報を取得して、単語頻度テーブルｃに単語の頻度デ
ータを格納するまでの処理を行う。

【００４４】まず、検索結果の先頭文書から末尾文書ま
で（ステップ１１０１）、検索結果テーブルｃから文書
番号取得を行う（ステップ１１０２）。次に、ステップ
１１０３で文書情報取得コマンドテーブルｑに指定され
ている対象が頻度であるか、テキストであるか判断し
て、頻度であればステップ１１０４に進み、頻度の指定
が絶対値であるか、検索に用いられたキーワードである
か判断する。頻度の指定がキーワードである場合は頻度
情報付き圧縮データｅを参照して検索に用いられたキー
ワードの各文書における頻度を参照する（ステップ１１
０５）。ステップ１１０６で圧縮データ読み込み終了位
置を管理データファイルｅから取得する。次に圧縮デー
タの最初から読み込み終了位置まで（ステップ１１０
７）で、単語の読み込み（ステップ１１０８）、単語頻
度の取得（ステップ１１０９）を行い、１１１０で文書
番号、見出し語、頻度を１レコードとして出現頻度テー
ブルに書き込む。ステップ１１０３で情報取得対象がテ
キストであったならば、ステップ１１１１で全文テキス
トファイルからテキストを読み込み、テキストに出現す
る最初のキーワードから最後のキーワードまで（ステッ
プ１１１２）、ステップ１１１３でキーワードを含む文
（句点から句点）を取得して、ステップ１１１４で文書
番号と文をテキストデータテーブルｒに格納する。この
テキストデータは単語分割部１によって単語分割され、
単語分割テーブルｂに格納され、次に出現頻度検出部２
によって出現頻度算出され、その結果が単語出現頻度テ
ーブルｃに格納される。

【００４５】図３１はテキストデータテーブルｒの一例
で、文書番号ｒ１とテキストｒ２から構成される。図３
２は文書数検出部１２における処理の概要を示すＰＡＤ
図である。文書数検出部１２では単語出現頻度テーブル
ｃを参照して、見出し語の総出現頻度および出現文書数
を求め、その結果を文書数付き出現頻度テーブルｓに格
納する。単語頻度テーブルｃの最初のレコードから最後
のレコードまで（ステップ１２０１）、ステップ１２０
２で同じ見出し語を持つレコードを検索し、ステップ１
２０３で同じ見出し語を持つ文書数をカウントし、ステ
ップ１２０４で見出しの文書間での総頻度数をカウント
し、ステップ１２０５で見出し、総頻度、文書数を１レ
コードとして文書数付出現頻度テーブルに格納する。ス
テップ１２０６で検索されたレコードを以後の処理対象
から外し、ステップ１２０７で処理対象を次のレコード
に移動する。

【００４６】図３３は文書数付き出現頻度テーブルの一
例で、見出し語ｓ１、総頻度ｓ２、文書数ｓ３の３項目
からなる。図３４は文書出力制御部１３における処理の
概要を示すＰＡＤ図で、文書数付き出現頻度テーブルｓ
を参照して、その結果を文書情報取得コマンドテーブル
ｑに従って文書情報テーブルｔに格納する。ステップ１
３０１で文書数付き出現頻度テーブルを読み込み、ステ
ップ１３０２で文書情報取得コマンドテーブルからソー
トキーを取得して、ステップ１３０３でソートを行う。
文書情報取得指示ｐで文書数順に単語を表示するように
指示があれば文書数順にソートし、総頻度順に表示する
ように指示があれば総頻度をキーとしてソートを行う。
ステップ１３０４で文書情報取得コマンドテーブルから
表示する単語数を求め、ステップ１３０５でステップ１
３０４で求めた個数の見出し語と、総頻度、文書数を文
書情報格納テーブルｔに格納する。

【００４７】図３５は文書情報テーブルｔの内容を入力
装置８に表示した例である。この例では利用者がタッチ
パネルやマウスなどの指示装置を介して表示されたキー
ワードを絞り込みに用いるキーワードとして指定でき
る。利用者が指定したキーワードはインタフェース制御
部２０に絞り込み指示として送られる。

【００４８】図３６は第２実施例のコマンド作成部の処
理の概要を示すＰＡＤ図で、検索指示文字列ｈあるいは
絞り込み指示ｕをインタフェース制御部２０を介して参
照して、コマンドを作成し、そのコマンドを検索コマン
ドテーブル６に格納するまでの処理を示す。ステップ５
１０からステップ５１１が図１６に示す第１実施例の検
索コマンド作成部の処理とは異なっている。他の同じス
テップは同一の処理を表す。すなわち、ステップ５１０
で入力モードの判断を行い、コマンドであればステップ
５０２に進み、文法チェックを行う。自然語であればス
テップ５０４に進み、意味解析を行い。ステップ５１０
で入力モードが絞り込み指示であれば、ステップ５１１
で絞り込みフラグを立て（この処理が第１実施例にはな
い）、ステップ５０５でコマンドを作成する。ステップ
５０６以下では図１６に示す第１実施例と同様の処理を
行う。

【００４９】図３７は検索実行部の処理の概要を示すＰ
ＡＤ図で図１８に示す第１実施例の検索実行部の処理の
変形例である。ステップ６２０からステップ６２２で示
す絞り込み処理が第１実施例とは異なる処理で、ステッ
プが同一の処理は同じ処理を示す。

【００５０】まず、ステップ６０１で検索コマンドテー
ブルｇを参照して検索コマンドを取得し、ステップ６０
２からステップ６０５で第１実施例と同様に変数の初期
化を行う。ステップ６２０で絞り込みフラグのｏｎ／ｏ
ｆｆを判断し、ｏｆｆの場合は文書データベースの最初
の文書から最後の文書までを対象にステップ６０７から
ステップ６１３の処理を行う。ステップ６２０で絞り込
みフラグがｏｎの場合は検索結果テーブルｊからヒット
文書を参照してその最初から最後までを対象にステップ
６１３からステップ６２０までの処理を行う、ステップ
６２２で絞り込みフラグをｏｆｆに設定する。

【００５１】

【発明の効果】本発明による文書検索装置によれば、利
用者が検索に指定したキーワードの文書内の出現頻度情
報を高速に反映でき、検索者が指定するキーワードの出
現頻度が高いほど検索時間を短縮することができる。さ
らに、検索結果集合に含まれる単語の出現総頻度情報
や、出現文書数情報を高速に算出するので、利用者は検
索結果の絞り込みを行うためのキーワード情報を得て、
容易に絞り込み検索を行うことができるという効果があ
る。

【図面の簡単な説明】

【図１】本発明を施した文書検索装置の第一実施例を示
す機能ブロック図。

【図２】図１における文書検索装置のハードウェアの実
施例を示すハードウェア構成を示すブロック図。

【図３】図１における単語分割プログラムのＰＡＤ図。

【図４】図１における文書データの例。

【図５】図１における単語分割テーブルの例。

【図６】図１における出現頻度検出プログラムのＰＡＤ
図。

【図７】図１における単語出現頻度テーブルの例。

【図８】図１における頻度ヘッダ作成プログラムのＰＡ
Ｄ図。

【図９】図１における頻度分テーブルの例。

【図１０】図１における登録プログラムのＰＡＤ図。

【図１１】図１における管理データファイルの例。

【図１２】図１における頻度情報付き圧縮データファイ
ルの例。

【図１３】図２の入出力装置を介して入力された図１に
おける検索指示文字列の例。

【図１４】図２の入出力装置を介して入力された図１に
おける検索指示文字列の例。

【図１５】図２の入出力装置を介して入力された図１に
おける検索指示文字列の例。

【図１６】図１における検索コマンド作成プログラムの
ＰＡＤ図。

【図１７】図１における検索コマンドテーブルの例。

【図１８】図１における検索実行プログラムのＰＡＤ
図。

【図１９】図１８における圧縮データ検索プログラムの
ＰＡＤ図。

【図２０】図１８におけるヒット文書確定プログラムの
ＰＡＤ図。

【図２１】図１８における複数キーワードプログラムの
ＰＡＤ図。

【図２２】図１における検索結果テーブルの例。

【図２３】図１における検索結果整理プログラムのＰＡ
Ｄ図。

【図２４】図１におけるソートされた検索結果を入出力
装置に出力した例。

【図２５】本発明を施した文書検索装置の第二実施例を
示す機能ブロック図。

【図２６】図２５における文書検索装置のハードウェア
の実施例を示すハードウェア構成を示すブロック図。

【図２７】図２における入出力装置を介して入力された
図２５における文書情報出力指示入力例。

【図２８】図２にける入出力装置を介して入力された図
２５における文書情報出力指示入力例。

【図２９】図２５における文書情報取得コマンドテーブ
ルの例。

【図３０】図２５における文書情報取得プログラムのＰ
ＡＤ図。

【図３１】図２５におけるテキストデータの例。

【図３２】図２５における文書数検出プログラムのＰＡ
Ｄ図。

【図３３】図２５における文書数付き出現頻度テーブル
の例。

【図３４】図２５における文書情報出力制御プログラム
のＰＡＤ図。

【図３５】図２５における文書情報テーブルを入出力装
置に表示した例。

【図３６】図２５における検索コマンド作成プログラム
のＰＡＤ図。

【図３７】図２５における検索実行プログラムのＰＡＤ
図。

【符号の説明】

１…単語分割部、２…出現頻度検出部、３…頻度ヘッダ
作成部、４…登録部、５…コマンド作成部、６…検索実
行部、７…検索結果整理部、１１…文書情報取得部、１
２…文書数検出部、１３…文書情報出力制御部、２０…
インタフェース制御部、ａ…文書データ、ｂ…単語分割
テーブル、ｃ…単語出現頻度テーブル、ｄ…頻度分布テ
ーブル、ｅ…管理データファイル、ｆ…全文テキストフ
ァイル、ｇ…頻度情報付き圧縮データファイル、ｐ…文
書情報取得指示、ｑ…文書情報取得コマンドテーブル、
ｓ…文書情報付出現頻度テーブル、ｔ…文書情報テーブ
ル、ｕ…絞り込み指示。

───────────────────────────────────────────────────── フロントページの続き (72)発明者浅川悟志神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】大量の文書を検索目的で蓄積しておく装置
に関するもので、各文書データを単語毎に分割する手段と、分割された単語の出現頻度を算出する手段と該頻度情報を降順に並び変え単語の累積度数分布情報を
算出する手段と、該累積度数分布情報を文書データベースに蓄積する手段
と、蓄積された累積度数分布情報を参照して検索実行する手
段を具備することを特徴とする文書検索装置。
【請求項２】請求項１記載の文書検索装置において検索条件に合致した全文書データに含まれる単語の総出
現頻度および単語別の総出現文書数を文書情報として取
得する手段と、出現頻度および出現文書数に関する利用者の指示を取得
する文書情報取得指示手段と、前記文書情報を参照して利用者の指示と合致した単語を
選択する文書情報出力制御部とを備えることを特徴とす
る文書検索装置。
【請求項３】請求項２記載の文書情報取得手段が文書デ
ータ中のキーワードを含む文あるいはキーワードを含む
段落に限定して情報を取得することを特徴とする文書検
索装置。
【請求項４】請求項１記載の検索実行手段が検索対象と
なる全文テキストファイルの内容を単語分割部に送り、単語分割結果である単語分割テーブルの内容を参照する
ことを特徴とする文書検索装置。
【請求項５】計算機を用いた文書検索方法は、各文書データを単語毎に分割し、分割された単語の出現頻度を算出し、該頻度情報を降順に並び変え単語の累積度数分布情報を
算出し、該累積度数分布情報を文書データベースに蓄積し、蓄積された累積度数分布情報を参照して検索実行するこ
とを特徴とする文書検索方法。