JPH06348757A - 文書検索装置および方法 - Google Patents

文書検索装置および方法

Info

Publication number
JPH06348757A
JPH06348757A JP5135590A JP13559093A JPH06348757A JP H06348757 A JPH06348757 A JP H06348757A JP 5135590 A JP5135590 A JP 5135590A JP 13559093 A JP13559093 A JP 13559093A JP H06348757 A JPH06348757 A JP H06348757A
Authority
JP
Japan
Prior art keywords
document
frequency
search
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5135590A
Other languages
English (en)
Inventor
Sachiko Koyama
幸子 小山
Tadahiro Kiyama
忠博 木山
Hiroshi Tsuji
洋 辻
Satoshi Asakawa
悟志 浅川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5135590A priority Critical patent/JPH06348757A/ja
Publication of JPH06348757A publication Critical patent/JPH06348757A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本体ファイルから圧縮ファイルを作成して等
価的に全文検索を高速に行う文書検索装置および方法に
よる文書検索に関し、検索者が指定したキーワードの本
体ファイルにおける頻度情報を高速検索に利用すること
を可能にする。 【構成】 単語分割部(1)、出現頻度検出部(2)、
頻度ヘッダ作成部(3)を設けデータベース登録時に文
書の頻度情報を得て、データ管理データファイル
(e)、頻度情報付き圧縮データファイル(g)をデー
タベースに登録し、文書情報取得部(11)を設けるこ
とによって達成される。 【効果】 データベースの中でも利用者の指定した頻度
に適合した圧縮ファイルをもつ部分のみを検索対象とす
るので高速に全文検索可能で、かつ検索結果として得ら
れた文書のキーワード以外の単語の文書間の総頻度や出
現文書数を得ることができ、検索ノイズを低減すること
ができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は利用者から指定されたキ
ーワードを含む文書を文書データベースから抽出する文
書検索方法および装置に関する。
【0002】
【従来の技術】計算機の処理速度向上に伴って、文書検
索方式はインデックス検索から自由語による全文検索シ
ステムが利用されるようになってきた。代表的なシステ
ムとして、特開H03−058311フルテキストサー
チ方式および装置(中研受付番号31900148
4)、第45回情報処理学会全国大会講演論文集(3)
3−239−244に記載されている階層型プリサーチ
方式によるフルテキストサーチシステム(日立、Bib
liotheca/TS)や電気情報通信学会技術研究
報告DE90−34に記載されているフルテキストデー
タベースシステム(松下、検蔵君)がある。
【0003】前述の階層型プリサーチ方式では、1文書
が文書中に出現する各文字についてその存在を1ビット
の情報で現した文字成分表、テキストファイルから繰り
返し現れる単語の重複を排除して作成された圧縮デー
タ、および文書の本体データの3つのファイルから構成
される。キーワードが与えられるとまず文字成分表が検
索され、キーワードとして指定された文字を含まない文
書は検索の対象から除外される。
【0004】次に圧縮テキストで単語レベルの検索が行
われ、さらに絞り込みが行われ、必要が生じた場合のみ
本体データであるテキスト内の検索が行われる。例え
ば、文字列のみの指定であれば圧縮テキストを参照する
のみで、本文データを参照せずに検索は終了するが、2
つのキーワードの間の文字数の指定がある場合(近傍検
索)は、圧縮テキストの検索で2つのキーワードを含む
文書を絞りこんでから、本文の検索を行い2つのキーワ
ードの文字間隔をチェックする。
【0005】特開H03−058311フルテキストサ
ーチ方式および装置では登録文書の本文文字列をひらか
な、漢字等の文字種ごとに分割し、分割した各部文文字
列間で相互に、文字列の包含関係を調べ、他の文字列を
排除した部分文字列の集合を圧縮データとする。
【0006】
【発明が解決しようとする課題】従来の階層プリサーチ
方式では (1)指定されたキーワードを多数含む文書も1個しか
含まない文書も同等に扱われる。 (2)指定されたキーワードに単語の一部が一致する場
合に利用者が意図しない単語を含む文書もヒットする。
例えば、”コメ”をキーワードとして指定した場合、”
コメント”を含む文書も検索結果に含まれる。 (3)ヒット件数が膨大な数になった場合、利用者は検
索結果を絞り込むことを所望するが、検索結果集合につ
いては件数以外の情報が得られない。 (2)については前述の検蔵君では検索結果として得ら
れたテキストを後処理として解析しているが、検索時間
の著しい増加を招くという問題がある。
【0007】本発明の目的は、データベースに文書を登
録する際に、単語辞書を用いた単語分割を行い、単語頻
度を算出し、それを圧縮テキストに反映することによっ
て(1)文書に含まれるキーワードの個数を検索条件に
含めることを許容し、(2)検索時の応答時間を劣化す
ることなく検索ノイズを減らす、さらに、上記手段に加
えて文書情報取得手段を加えることによって、(3)検
索結果を絞り込むための手がかりを利用者に与える、シ
ステムを提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、本発明の文書検索装置は、単語分割手段によって本
文データの単語分割(形態素解析)を行ったのち、頻度
検出手段によって単語の繰り返しを除き単語が頻度順に
並んだ圧縮テキストを作成する。
【0009】次に、ヘッダ作成手段によって、圧縮テキ
ストと共に各頻度の単語が圧縮テキストのどこにあるか
示した頻度ヘッダを作成し、登録手段によって、本文デ
ータ、圧縮データ、頻度ヘッダをデータベースに登録す
る。さらに、本発明の文書検索装置はヒット文書を構成
する情報を取得するための文書情報取得手段を具備し、
得られた検索結果集合に含まれる単語の頻度情報を出現
頻度検出手段によって求めて、利用者に提示する。
【0010】
【作用】本発明による文書検索装置は、まず、登録対象
文書に対して単語分割を行った後、文書中の単語の出現
頻度を算出し、単語を出現頻度順にソートした状態の単
語出現頻度テーブルを作成する。次に、各頻度以上の単
語が単語出現頻度テーブルのどこに位置するのが示す頻
度ヘッダを作成する(例えば、頻度10以上の単語は圧
縮テキストの6番目までといった情報を持つインデック
スファイル)。各文書ごとに、頻度ヘッダと単語出現頻
度テーブルの見出し語を頻度情報付き圧縮テキストとし
て、テキストデータを全文テキストファイルとして文書
データベースに登録する。
【0011】上記方法で作成された文書データベースを
検索する場合は、キーワードの出現頻度の指定があれば
(例えば、”コメ”を5回以上含む文書を探せ)、圧縮
テキストの頻度ファイルを参照して、該当する頻度の位
置を圧縮ファイルの参照終了位置として取得し、次に検
索実行部が圧縮テキスト読み込み終了位置まで圧縮テキ
スト参照し、キーワードが含まれるかどうか判断する。
【0012】以上により頻度条件が指定された場合に従
来方式よりも高速に検索可能である。特に、指定された
キーワードの頻度が高い場合は圧縮テキストの参照量が
減少するために高速な検索が可能になるので、利用者は
要求に応じた検索をきめ細かに行うことができる。検索
結果に対しても表示の際に指定されたキーワードを反映
したソートを行うことも高速にできる。
【0013】さらに、本発明による文書検索装置は”検
索結果集合1に含まれる単語を出現文書数の昇順で30
個みせて”といったような利用者の要求を受け付ける。
このとき、利用者の要求に応じて、ヒット文書に対応す
る圧縮ファイルから各見出し語、頻度及び、データベー
ス内で文書に付与された番号が1レコードとして文書番
号付き出現頻度テーブルに書き出される。次に、ヒット
した全文書から得られた文書番号付き出現頻度テーブル
を対象に、各単語の文書間での総出現頻度と出現文書数
が求め、利用者の指示に従って表示する。
【0014】以上により、利用者はヒット文書の本文を
個別に参照することなく、ヒット文書全体の概要を把握
することが可能で、絞り込み検索を行う場合の適切な手
掛かりを得ることができる。
【0015】
【実施例】以下、本発明の第1実施例を図1から図24
を用いてより詳細に説明する。図1は本発明の第1実施
例の概要を示した図である。頻度情報付き圧縮データ作
成部は単語分割部1、出現頻度検出部2、ヘッダ作成部
3から構成される。まず、単語分割部1が入力された文
書データaを単語分割し、単語分割結果を単語分割テー
ブルbに登録する。出現頻度検出部2は単語分割テーブ
ルbを参照し、単語の出現頻度を算出して、単語を出現
頻度順に単語を並べ変えて、単語出現頻度テーブルcに
登録する。ヘッダ作成部3は単語出現頻度テーブルcを
参照して、頻度の累積度数分布表を作成して、頻度分布
テーブルdに登録する。登録部は文書データa、単語出
現頻度テーブルc、頻度分布テーブルdを参照して、文
書データを全文テキストファイルfに、頻度分布テーブ
ルdと単語出現頻度テーブルcを頻度情報付き圧縮デー
タgに登録する。さらに、管理データファイルeに各文
書番号、全文テキスト先頭アドレス、単語出現頻度テー
ブルeの先頭アドレス、頻度分布表の先頭アドレスを登
録する。
【0016】検索コマンド作成部5は利用者の入力する
検索指示文字列hを取得し、検索コマンドに変換して、
検索コマンドテーブルiに登録する。検索実行部6は検
索コマンドテーブルiを参照して、管理データファイル
e、全文テキストデータファイルf、頻度情報付き圧縮
データファイルgからなる文書データベースを検索す
る。検索結果は検索結果テーブルjに登録される。結果
整理部7は検索結果テーブルjをキーワードの出現頻度
をキーにをソートし、ソートされた検索結果テーブルk
に登録する。
【0017】図から明らかなように、単語分割部1、出
現頻度検出部2、頻度ヘッダ作成部3、登録部4、検索
コマンド作成部5、検索実行部6、検索結果整理部7は
処理を示し、文書データa、単語分割テーブルb、単語
出現頻度テーブルc、頻度分布テーブルd、文書データ
ベース(管理ファイルe、全文テキストファイルf、頻
度情報付き圧縮ファイルg)、検索結果テーブルj、ソ
ートされた検索結果テーブルkはファイルである(テー
ブルとも呼ぶ)。このように本実施例によれば、各機能
ブロックがプログラム論理によって構成されている。そ
のため、各機能ブロック単位にLSI化が可能であり、
文書処理装置として高速化を図ることができる。
【0018】図2は図1における文書検索装置の全体的
なハードウェア構成図を示すブロック図である。入出力
装置8はデータの入力および各種情報の表示を行う。プ
ロセッサ9は、プログラムに基づき、図1における処理
を実行する。記憶装置10は図1における各種データや
プログラムを格納する。記憶装置10はプロセッサ9の
各実行処理用のメモリであるワーキングエリアa、b、
c、d、h、i、j、、k、単語分割部格納エリア10
0、出現頻度検出部格納エリア200、ヘッダ作成部格
納エリア300、登録部格納エリア400、文書データ
ベース格納エリアe、f、g、検索コマンド作成エリア
500、検索実行部格納エリア600、検索結果整理部
格納エリア700の記憶部を持っている。記憶装置10
に格納される各プログラムはプロセッサにおいて実行さ
れる。その実行に際し、必要に応じて入出力装置8が用
いられる。
【0019】図3は図1における単語分割部1の処理手
順を表すPAD図(Problem Analysis Diagram)で、文
書データaを取得し、単語分割テーブルbに格納するま
での処理を示したものである。以下、この処理をPAD
図に従って説明する。文書データaを参照し、先頭文書
データから末尾文書データまで以下の処理を行う(ステ
ップ101)。まず、1文書分のデータを取得し(ステ
ップ102)、文書データを単語分割して(ステップ1
03)、見出し文字列、相対的な文書番号を単語分割テ
ーブルに格納し(ステップ104)、次に処理の対象を
次の文書データに移動する(ステップ105)。以上の
ステップにより図4に示す文書データaを図5に示す単
語分割テーブルbに格納する。
【0020】図4は文書データaの例である。図5は単
語分割テーブルbの例であり、文書番号b1、見出し語
b2の項目から構成されている。図6は出現頻度検出部
2の処理手順を示すPAD図である。単語分割テーブル
bからデータを取得し、単語出現頻度テーブルcにデー
タを格納するまでの処理を示したものである。単語分割
テーブルbの文書データの先頭文書のデータから末尾文
書のデータまで(ステップ201)以下の処理を行う。
まず、単語分割テーブルの先頭見出しから末尾見出しま
で(ステップ202)、1レコード分のデータを読み込
む(ステップ203)。次にステップ204に進み、単
語分割ファイルを対象に見出しが同じレコードの検索を
行い、頻度を算出する。ステップ205で、各見出し語
の出現頻度に従って降順にソート行い、ステップ206
でソートされた単語出現頻度レコードが単語出現頻度テ
ーブルcに格納される。ステップ207で処理対象を次
のレコードに移す。
【0021】図7は出現頻度検出部2によって作成され
た出現頻度テーブルcの例で、見出し文字列c1、頻度
c2、文書番号c3の項目から構成される。図8は頻度
ヘッダ作成部3の処理手順を示すPAD図で、単語出現
頻度テーブルcからデータを取得し、頻度分布テーブル
dにデータを格納するまでの処理を示したものである。
以下の処理を文書データの先頭文書から末尾文書まで行
う(ステップ301)。ステップ302で頻度の累積度
数を取得するために用いる変数countの初期化を行
う。次に、各文書の単語頻度テーブルの最初のレコード
から最後のレコードまで(ステップ303)、同じ頻度
のレコードが続く間(ステップ304)、レコードを読
み込み(ステップ305)、変数countに1を加え
(ステップ306)、処理対象を次のレコードに移動す
る(ステップ307)。ステップ304でレコードの頻
度が変わっていたら(単語出現頻度を降順にデータが並
べられているので、頻度が減少したら)、ステップ30
8で頻度と変数countの値を頻度分布テーブルに書
き込む。変数countの値は頻度の累積度数の値を示
す。次にステップ309で処理対象を次のレコードに移
動する。ステップ310で処理対象を次文書に移動す
る。
【0022】図9はヘッダ作成部によって作成された頻
度分布テーブルdの例で頻度見出しd1、累積度数d
2、文書番号d3の項目からなっている。この例は図7
の例について作成した頻度分布テーブルで文書1には出
現頻度が7の単語が1個、出現頻度が6の単語が0、出
現頻度が5の単語が1個、頻度が4の単語が2つあるこ
とを示している。
【0023】図10は登録部4の処理手順を示したPA
D図で文書データa、単語出現頻度テーブルc、頻度分
布テーブルdを取得して文書データベースの各ファイル
e、f、gに格納するまでの処理を示したものである。
以下、順に説明する。ステップ401で登録用データを
取得する。登録用データの先頭データから末尾データま
で以下の処理を行う(ステップ402)。まず、ステッ
プ403で文書番号を取得し、次に、ステップ404で
データの種類を判定し、文書データaであれば全文テキ
ストデータファイルに文書データを格納し(ステップ4
05)、単語出現頻度テーブルcであれば圧縮データフ
ァイルgに見出し文字列c1、および、頻度c2を格納
し(ステップ406)、頻度分布テーブルdであれば圧
縮データファイルの頻度情報として頻度ヘッダファイル
gへ頻度d1と累積度数d2を登録する(ステップ40
7)。ステップ408で格納したファイルの先頭アドレ
スを管理データファイルeの文書番号の一致したレコー
ド欄に書き込む。ステップ409で処理対象を次文書へ
移す。
【0024】図11は登録部4によって登録された管理
データファイルの例で、1レコードは文書番号e1、圧
縮先頭アドレスe2、頻度ヘッダ先頭アドレスe3、全
文テキストデータ先頭アドレスe4の項目から構成され
ている。データベースに登録されている文書数分のレコ
ードがある。
【0025】図12は登録部4によって登録された頻度
情報付き圧縮データgの例を示す図で、各文書ごとに、
文書番号g1、頻度ヘッダg2、圧縮テキストg3から
構成されている。データベースに登録されている文書数
分のレコードがある。図13は入出力装置8を介して表
示された入力用画面に利用者が入力した検索文字列の例
を示す。
【0026】図14は入出力装置8を介して表示された
入力用画面に利用者が入力した検索文字列の例を示す。
本例では利用者が頻度情報の指定を行っている。キーワ
ード”ネットワーク”と”コンピュータ”をそれぞれ2
個以上含む文書を検索しろという意味である。
【0027】図15は入出力装置8を介して表示された
入力用画面に利用者が入力した検索文字列の例を示す。
本例では利用者は語を単位として近傍検索をしている。
【0028】図16は検索コマンド作成部5の処理手順
を示すPAD図で、検索指示文字列hを入力として、検
索コマンドテーブルiに検索コマンドを格納するまでの
処理を行う。ステップ501で入力モードがコマンドモ
ードであるか、自然語モードであるか判定し、コマンド
モードの場合はステップ502で文法のチェックを行
い、エラーがあった場合にはステップ503で終了処理
を行う。ステップ501で入力モードが自然語と判定さ
れた場合はステップ504で意味解析を行い、ステップ
505でコマンド生成を行う。
【0029】次にステップでコマンドタイプ506の判
定を行い、検索に関するコマンドであれば検索コマンド
テーブル(ステップ507)に、文書情報取得に関する
コマンドであれば文書情報取得テーブルに格納する(ス
テップ508)。図13から図15に示される検索指示
文字列から作成されたコマンドはいずれも検索に関する
コマンドである。
【0030】図17に検索コマンドテーブルの例を示
す。3つのコマンドはそれぞれ図13、図14、図15
の検索指示入力に対応している。図18は検索実行部6
における処理を示すPAD図である。検索実行部6では
検索コマンドテーブルiに格納された検索コマンドに従
って、文書データベースe、f、gを検索し、その結果
を検索結テーブルjに格納するまでの処理を行う。以
下、処理を順に説明する。まず、ステップ601で検索
コマンドテーブルから検索コマンドを取得し、ステップ
602でヒット件数を初期化し、ステップ603でヒッ
ト文書番号格納配列を初期化する。次に、ステップ60
4でヒット文書をカウントする変数の初期化を行い、ス
テップ605ではヒット候補の文書番号を格納する配列
を初期化する。文書データベースの最初の文書から最後
の文書まで以下の処理を行う(ステップ606)。ま
ず、検索コマンドに含まれる利用者から指定された最初
のキーワードから最後のキーワードまで(ステップ60
7)頻度情報付き圧縮データファイルを検索する(ステ
ップ608)。ステップ609でヒット候補の件数が0
より大きい場合はステップ610に進み、指定されたキ
ーワード数が1の場合はステップ611でヒット文書確
定処理611を行う。ステップで指定されたキーワード
数が2つ以上ある場合は、ステップ612で複数キーワ
ード処理(キーワード間の論理演算)に進み、ステップ
613でヒット候補カウント変数の値が0より大きけれ
ばステップ611でヒット文書確定処理を行う。
【0031】図19は頻度情報付き圧縮データ検索処理
608の手順を示すPAD図である。頻度情報付き圧縮
データ検索処理では利用者に指定されたキーワードの有
無を頻度情報付き圧縮データを対象に検索し、キーワー
ドをデータ内に含む文書をヒット文書の候補としてその
文書番号をヒット候補文書番号配列に格納し、ヒット候
補カウント変数を用いて、ヒット候補となった文書数を
求める。このとき利用者により頻度の指定があれば、圧
縮ファイルの頻度に対応した部分のみを検索する。ま
ず、ステップ60801で1文書分の圧縮データを取得
する。ステップ60802で頻度の指定があった場合に
はステップ60803に進み、頻度ヘッダを読み込み、
ステップ60804で圧縮データの参照開始位置を読み
込み、ステップ60805で参照終了位置を取得する。
例えば、キーワードの指定個数が3個より大きくて、8
個より小さい場合に図12に示され文書番号1の文書で
は圧縮ファイルの検索開始位置1個目で、検索終了位置
は4個目となり、文書番号2の文書では圧縮ファイルの
検索開始位置は3個目で、検索終了位置は10個目とな
る。頻度の指定がない場合はステップ60806で圧縮
データの最初の見出し語が圧縮データの参照開始位置
に、ステップ60807で最後の見出し語が最終参照位
置に設定される。 次に、圧縮ファイルの参照開始指定
位置から、参照終了指定位置まで(ステップ6080
8)、ステップ60809で圧縮ファイルの見出し語を
1語読みだして、ステップ60810で検索キーワード
と見出し語の比較を行い、両者が完全一致すれば、ステ
ップ60811に進む。ステップ60811でヒット候
補カウント変数を1増やし、ステップ60812で文書
番号をヒット候補配列のヒット候補カウント変数の値が
示す行の1列目に格納し、ステップ60813で、頻度
ヘッダを参照してキーワードの頻度を求め、この値をヒ
ット候補配列のヒット候補カウント変数の値が示す行の
2列目に格納する。例えば、キーワードが”ユーザ”で
あった場合、図12に示される圧縮ファイルがあった場
合、ヒット候補配列の1行1列目には文書番号1を示す
1が格納され、1行2列目には頻度を示す3が格納さ
れ、ヒット候補配列の2行1列目には文書番号を示す2
が2行2列目には頻度を示す5が格納される。ステップ
60814でステップ6098に進み、圧縮テキストの
参照を中断する。ステップ60810で検索キーワード
と圧縮ファイルの見出し語が一致しなかった場合には、
ステップ60818に進み、処理対象を圧縮ファイルの
次の見出しに移す。
【0032】次にステップ60816でヒット候補件数
が1件以上あるか否か判定し、ヒット候補が0件の場合
はステップ60817に進み検索を終了する。最後にス
テップ60818で処理の対象を次のキーワードに移
す。
【0033】以上のような凝縮ファイルの検索方式では
キーワードと見出しの完全一致を持ってヒット候補とす
るので図13に示すように利用者が”コメ”をキーワー
ドとして指定した場合に”コメント”を含む文書をヒッ
トすることがない。また、圧縮ファイルが頻度に従っ
て、格納されており、頻度分布テーブルも用意されてい
るために高速に頻度を条件とした検索を行うことができ
る。
【0034】図20はヒット文書確定処理611の手順
を示すPAD図である。ヒット文書確定処理611はヒ
ット候補文書をヒット文書に確定する処理で、検索結果
を検索結果テーブルに書き出す。ステップ6111でヒ
ット候補番号配列の値をヒット文書番号配列として、ス
テップ6112でヒット候補カウント変数の値をヒット
件数とする。ステップ6113でヒット文書番号、全文
テキストの先頭アドレス、頻度、本文データ中のキーワ
ードを最初に出現する位置からあらかじめ決められたバ
イト数分、を1レコードとして検索結果テーブルに格納
する。
【0035】図21は複数キーワード処理613の手順
を示すPADである。複数キーワード処理613では利
用者が複数のキーワードを指定しており、各キーワード
に対して得られたヒット候補文書間で論理演算処理が必
要な場合の処理である。ステップ61301でヒット候
補用配列間の第1列にある文書番号を用いて検索者が指
定する論理演算を実行する。ステップ61302で論理
演算結果に基づいて、ヒット候補件数を書換え、ステッ
プ61303で論理演算結果に基づいてヒット候補配列
を書き書換える。ステップ61304で近傍条件の有無
を判定し、ない場合はヒット文書確定処理611に進
む。図15に示されるような近傍条件の指定があれば、
ヒット候補配列の第1行から最終行まで(ステップ61
305)以下の処理を行う。まず、ステップ61305
でヒット候補配列の第1列に格納されている文書番号を
参照する。ステップ61307で文書番号の全文テキス
トデータ取得する。ステップ61308で単語分割部で
単語分割を行う。ステップ61309で単語分割処理結
果が格納されている単語分割テーブルbを参照してキー
ワードの位置関係が指定されたものに一致するか否か判
断し、一致しない場合はステップ61310で文書番号
をヒット候補配列から外す。最後にステップ61311
で処理対象を次の配列行に移す。
【0036】図22は検索結果テーブルの一例を示す図
で、文書番号j1、先頭アドレスj2、頻度j3、テキ
スト部分j4の項目から構成される。
【0037】図23は検索結果整理部7の処理手順を示
すPAD図で、検索結果整理部7では検索結果テーブル
jを読み込んで、頻度情報に基づくソートを行い、ソー
トされた検索結果テーブルjに格納する。まず、検索結
果テーブルの先頭のレコードから最終レコードまで(ス
テップ701)、ステップ702でレコードを取得し、
ステップ703でソートキーを取得する。入力が検索結
果テーブルの場合は頻度をソートキーとする。ステップ
704でキーに従ってソートを実施し、ステップ705
で結果をソートされた検索結果テーブルjとして格納す
る。
【0038】図24は検索結果整理部7によって図22
に示す入力がソートされた結果を入出力装置8に出力し
た例を示す。以下図25から図37を用いて本発明の第
2実施例を詳細に説明する。図1から図35まで同じ参
照番号は同じものを指す。図25に本発明の第2実施例
を示す。第2実施例では第1実施例で作成した圧縮デー
タファイルから検索結果として得られた文書に含まれる
単語の頻度情報を利用者の指定に従って提示することを
実現している。
【0039】以下図25から図37を用いて本発明の第
2実施例を詳細に説明する。図1から図35まで同じ参
照番号は同じものを指す。図25に本発明の第2実施例
を示す。第2実施例では第1実施例で作成した圧縮デー
タファイルから検索結果として得られた文書に含まれる
単語の頻度情報を利用者の指定に従って提示することを
実現している。
【0040】図25は第2実施例の概略を示す機能図で
ある。コマンド作成部5は利用者からの文書情報取得指
示入力pをインタフェース制御部20を介して参照し
て、文書情報取得コマンド作成テーブルqを格納する。
文書情報取得部11は文書情報取得コマンドテーブルq
と検索結果テーブルjを参照して文書データベースの各
ファイルから情報を取得する。利用者がキーワードが出
現する文を情報取得の対象に指定している場合は、全文
テキストファイルfから全文テキストを取得して、キー
ワードが出現している文書を切りだして、その結果をテ
キストデータテーブルrに格納する。利用者がヒットし
文書全体を情報取得の対象に指定している場合は圧縮デ
ータファイルgを単語出現頻度テーブルの形式に変換し
て単語出現頻度テーブルcに格納する。テキストデータ
テーブルrに格納されたデータは単語分割部1で単語分
割され、その結果は単語分割テーブルbに格納される。
出現頻度検出部2は単語分割テーブルbを参照して、文
書内での各文の中に出現する単語の頻度を求め文書数付
出現頻度テーブルsに格納する。文書数検出部12は単
語出現頻度テーブルcを参照して、各単語の文書間の総
頻度と出現文書数を求める。文書出力制御部13は文書
情報取得コマンドテーブルqを参照して、文書数付出現
頻度テーブルsから利用者の指定する情報を抽出し、文
書情報テーブルtに格納し、その結果はインタフェース
制御部20を介して提示される。提示された文書情報テ
ーブルのレコードをマウスやタッチパネルなどの入力装
置によって選択すると、絞り込み指示uとしてインタフ
ェース制御部20を介してコマンド作成部に送られ、コ
マンド作成部は文書情報テーブルtを参照してコマンド
を作成して、検索コマンドテーブルgに格納する。絞り
込み指示の場合は絞り込みフラグを立てる。検索実行部
6は検索コマンドテーブルgを参照して検索を行う。絞
り込みフラグが立っている場合は検索結果テーブルjを
参照してヒットしている文書を対象に検索を行う。
【0041】図26は図25における文書検索装置の全
体的なハードウェア構成図を示すブロック図である。入
出力装置8はデータの入力および各種情報の表示を行
う。プロセッサ9は、プログラムに基づき、図24にお
ける処理を実行する。記憶装置10は図24における各
種データやプログラムを格納する。さらに、記憶装置1
0はプロセッサ9の各実行処理用のメモリであるワーキ
ングエリアb、c、h、j、p、q、r。s、t、単語
分割部格納エリア100、出現頻度検出部格納エリア2
00、文書データベース格納エリアe、f、g、検索コ
マンド作成エリア500、検索実行部格納エリア60
0、文書情報取得部格納エリア1100、文書数検出部
格納エリア1200、文書情報出力制御部格納エリア1
300、インタフェース制御部格納エリアの記憶部を持
っている。記憶装置100に格納される各プログラムは
プロセッサにおいて実行される。その実行に際し、必要
に応じて入出力装置8が用いられる。
【0042】図27は文書情報取得指示入力例pであ
る。図28は文書情報取得指示入力例pである。図29
は図27、図28に示された文書情報取得指示入力例p
がコマンド作情報取得konamm成部5に入力され、
文書情報取得コマンドテーブルqに出力された例であ
る。
【0043】図30は文書情報取得部11における処理
の概要を示すPAD図である。文書情報取得11は図2
5における文書テーブルqを参照して、検索結果テーブ
ルjおよび文書データベースの各ファイルe、f、gか
ら情報を取得して、単語頻度テーブルcに単語の頻度デ
ータを格納するまでの処理を行う。
【0044】まず、検索結果の先頭文書から末尾文書ま
で(ステップ1101)、検索結果テーブルcから文書
番号取得を行う(ステップ1102)。次に、ステップ
1103で文書情報取得コマンドテーブルqに指定され
ている対象が頻度であるか、テキストであるか判断し
て、頻度であればステップ1104に進み、頻度の指定
が絶対値であるか、検索に用いられたキーワードである
か判断する。頻度の指定がキーワードである場合は頻度
情報付き圧縮データeを参照して検索に用いられたキー
ワードの各文書における頻度を参照する(ステップ11
05)。ステップ1106で圧縮データ読み込み終了位
置を管理データファイルeから取得する。次に圧縮デー
タの最初から読み込み終了位置まで(ステップ110
7)で、単語の読み込み(ステップ1108)、単語頻
度の取得(ステップ1109)を行い、1110で文書
番号、見出し語、頻度を1レコードとして出現頻度テー
ブルに書き込む。ステップ1103で情報取得対象がテ
キストであったならば、ステップ1111で全文テキス
トファイルからテキストを読み込み、テキストに出現す
る最初のキーワードから最後のキーワードまで(ステッ
プ1112)、ステップ1113でキーワードを含む文
(句点から句点)を取得して、ステップ1114で文書
番号と文をテキストデータテーブルrに格納する。この
テキストデータは単語分割部1によって単語分割され、
単語分割テーブルbに格納され、次に出現頻度検出部2
によって出現頻度算出され、その結果が単語出現頻度テ
ーブルcに格納される。
【0045】図31はテキストデータテーブルrの一例
で、文書番号r1とテキストr2から構成される。図3
2は文書数検出部12における処理の概要を示すPAD
図である。文書数検出部12では単語出現頻度テーブル
cを参照して、見出し語の総出現頻度および出現文書数
を求め、その結果を文書数付き出現頻度テーブルsに格
納する。単語頻度テーブルcの最初のレコードから最後
のレコードまで(ステップ1201)、ステップ120
2で同じ見出し語を持つレコードを検索し、ステップ1
203で同じ見出し語を持つ文書数をカウントし、ステ
ップ1204で見出しの文書間での総頻度数をカウント
し、ステップ1205で見出し、総頻度、文書数を1レ
コードとして文書数付出現頻度テーブルに格納する。ス
テップ1206で検索されたレコードを以後の処理対象
から外し、ステップ1207で処理対象を次のレコード
に移動する。
【0046】図33は文書数付き出現頻度テーブルの一
例で、見出し語s1、総頻度s2、文書数s3の3項目
からなる。図34は文書出力制御部13における処理の
概要を示すPAD図で、文書数付き出現頻度テーブルs
を参照して、その結果を文書情報取得コマンドテーブル
qに従って文書情報テーブルtに格納する。ステップ1
301で文書数付き出現頻度テーブルを読み込み、ステ
ップ1302で文書情報取得コマンドテーブルからソー
トキーを取得して、ステップ1303でソートを行う。
文書情報取得指示pで文書数順に単語を表示するように
指示があれば文書数順にソートし、総頻度順に表示する
ように指示があれば総頻度をキーとしてソートを行う。
ステップ1304で文書情報取得コマンドテーブルから
表示する単語数を求め、ステップ1305でステップ1
304で求めた個数の見出し語と、総頻度、文書数を文
書情報格納テーブルtに格納する。
【0047】図35は文書情報テーブルtの内容を入力
装置8に表示した例である。この例では利用者がタッチ
パネルやマウスなどの指示装置を介して表示されたキー
ワードを絞り込みに用いるキーワードとして指定でき
る。利用者が指定したキーワードはインタフェース制御
部20に絞り込み指示として送られる。
【0048】図36は第2実施例のコマンド作成部の処
理の概要を示すPAD図で、検索指示文字列hあるいは
絞り込み指示uをインタフェース制御部20を介して参
照して、コマンドを作成し、そのコマンドを検索コマン
ドテーブル6に格納するまでの処理を示す。ステップ5
10からステップ511が図16に示す第1実施例の検
索コマンド作成部の処理とは異なっている。他の同じス
テップは同一の処理を表す。すなわち、ステップ510
で入力モードの判断を行い、コマンドであればステップ
502に進み、文法チェックを行う。自然語であればス
テップ504に進み、意味解析を行い。ステップ510
で入力モードが絞り込み指示であれば、ステップ511
で絞り込みフラグを立て(この処理が第1実施例にはな
い)、ステップ505でコマンドを作成する。ステップ
506以下では図16に示す第1実施例と同様の処理を
行う。
【0049】図37は検索実行部の処理の概要を示すP
AD図で図18に示す第1実施例の検索実行部の処理の
変形例である。ステップ620からステップ622で示
す絞り込み処理が第1実施例とは異なる処理で、ステッ
プが同一の処理は同じ処理を示す。
【0050】まず、ステップ601で検索コマンドテー
ブルgを参照して検索コマンドを取得し、ステップ60
2からステップ605で第1実施例と同様に変数の初期
化を行う。ステップ620で絞り込みフラグのon/o
ffを判断し、offの場合は文書データベースの最初
の文書から最後の文書までを対象にステップ607から
ステップ613の処理を行う。ステップ620で絞り込
みフラグがonの場合は検索結果テーブルjからヒット
文書を参照してその最初から最後までを対象にステップ
613からステップ620までの処理を行う、ステップ
622で絞り込みフラグをoffに設定する。
【0051】
【発明の効果】本発明による文書検索装置によれば、利
用者が検索に指定したキーワードの文書内の出現頻度情
報を高速に反映でき、検索者が指定するキーワードの出
現頻度が高いほど検索時間を短縮することができる。さ
らに、検索結果集合に含まれる単語の出現総頻度情報
や、出現文書数情報を高速に算出するので、利用者は検
索結果の絞り込みを行うためのキーワード情報を得て、
容易に絞り込み検索を行うことができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明を施した文書検索装置の第一実施例を示
す機能ブロック図。
【図2】図1における文書検索装置のハードウェアの実
施例を示すハードウェア構成を示すブロック図。
【図3】図1における単語分割プログラムのPAD図。
【図4】図1における文書データの例。
【図5】図1における単語分割テーブルの例。
【図6】図1における出現頻度検出プログラムのPAD
図。
【図7】図1における単語出現頻度テーブルの例。
【図8】図1における頻度ヘッダ作成プログラムのPA
D図。
【図9】図1における頻度分テーブルの例。
【図10】図1における登録プログラムのPAD図。
【図11】図1における管理データファイルの例。
【図12】図1における頻度情報付き圧縮データファイ
ルの例。
【図13】図2の入出力装置を介して入力された図1に
おける検索指示文字列の例。
【図14】図2の入出力装置を介して入力された図1に
おける検索指示文字列の例。
【図15】図2の入出力装置を介して入力された図1に
おける検索指示文字列の例。
【図16】図1における検索コマンド作成プログラムの
PAD図。
【図17】図1における検索コマンドテーブルの例。
【図18】図1における検索実行プログラムのPAD
図。
【図19】図18における圧縮データ検索プログラムの
PAD図。
【図20】図18におけるヒット文書確定プログラムの
PAD図。
【図21】図18における複数キーワードプログラムの
PAD図。
【図22】図1における検索結果テーブルの例。
【図23】図1における検索結果整理プログラムのPA
D図。
【図24】図1におけるソートされた検索結果を入出力
装置に出力した例。
【図25】本発明を施した文書検索装置の第二実施例を
示す機能ブロック図。
【図26】図25における文書検索装置のハードウェア
の実施例を示すハードウェア構成を示すブロック図。
【図27】図2における入出力装置を介して入力された
図25における文書情報出力指示入力例。
【図28】図2にける入出力装置を介して入力された図
25における文書情報出力指示入力例。
【図29】図25における文書情報取得コマンドテーブ
ルの例。
【図30】図25における文書情報取得プログラムのP
AD図。
【図31】図25におけるテキストデータの例。
【図32】図25における文書数検出プログラムのPA
D図。
【図33】図25における文書数付き出現頻度テーブル
の例。
【図34】図25における文書情報出力制御プログラム
のPAD図。
【図35】図25における文書情報テーブルを入出力装
置に表示した例。
【図36】図25における検索コマンド作成プログラム
のPAD図。
【図37】図25における検索実行プログラムのPAD
図。
【符号の説明】
1…単語分割部、2…出現頻度検出部、3…頻度ヘッダ
作成部、4…登録部、5…コマンド作成部、6…検索実
行部、7…検索結果整理部、11…文書情報取得部、1
2…文書数検出部、13…文書情報出力制御部、20…
インタフェース制御部、a…文書データ、b…単語分割
テーブル、c…単語出現頻度テーブル、d…頻度分布テ
ーブル、e…管理データファイル、f…全文テキストフ
ァイル、g…頻度情報付き圧縮データファイル、p…文
書情報取得指示、q…文書情報取得コマンドテーブル、
s…文書情報付出現頻度テーブル、t…文書情報テーブ
ル、u…絞り込み指示。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅川 悟志 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】大量の文書を検索目的で蓄積しておく装置
    に関するもので、 各文書データを単語毎に分割する手段と、 分割された単語の出現頻度を算出する手段と 該頻度情報を降順に並び変え単語の累積度数分布情報を
    算出する手段と、 該累積度数分布情報を文書データベースに蓄積する手段
    と、 蓄積された累積度数分布情報を参照して検索実行する手
    段を具備することを特徴とする文書検索装置。
  2. 【請求項2】請求項1記載の文書検索装置において 検索条件に合致した全文書データに含まれる単語の総出
    現頻度および単語別の総出現文書数を文書情報として取
    得する手段と、 出現頻度および出現文書数に関する利用者の指示を取得
    する文書情報取得指示手段と、 前記文書情報を参照して利用者の指示と合致した単語を
    選択する文書情報出力制御部とを備えることを特徴とす
    る文書検索装置。
  3. 【請求項3】請求項2記載の文書情報取得手段が文書デ
    ータ中のキーワードを含む文あるいはキーワードを含む
    段落に限定して情報を取得することを特徴とする文書検
    索装置。
  4. 【請求項4】請求項1記載の検索実行手段が検索対象と
    なる全文テキストファイルの内容を単語分割部に送り、 単語分割結果である単語分割テーブルの内容を参照する
    ことを特徴とする文書検索装置。
  5. 【請求項5】計算機を用いた文書検索方法は、 各文書データを単語毎に分割し、 分割された単語の出現頻度を算出し、 該頻度情報を降順に並び変え単語の累積度数分布情報を
    算出し、 該累積度数分布情報を文書データベースに蓄積し、 蓄積された累積度数分布情報を参照して検索実行するこ
    とを特徴とする文書検索方法。
JP5135590A 1993-06-07 1993-06-07 文書検索装置および方法 Pending JPH06348757A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5135590A JPH06348757A (ja) 1993-06-07 1993-06-07 文書検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5135590A JPH06348757A (ja) 1993-06-07 1993-06-07 文書検索装置および方法

Publications (1)

Publication Number Publication Date
JPH06348757A true JPH06348757A (ja) 1994-12-22

Family

ID=15155388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5135590A Pending JPH06348757A (ja) 1993-06-07 1993-06-07 文書検索装置および方法

Country Status (1)

Country Link
JP (1) JPH06348757A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160724A (ja) * 1993-11-29 1995-06-23 Ricoh Co Ltd 文書検索装置
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
EP2838037A2 (en) 2013-07-29 2015-02-18 Fujitsu Limited Information processing system, information processing method, and information processing program
JP2016134100A (ja) * 2015-01-21 2016-07-25 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
EP3070615A1 (en) 2015-03-16 2016-09-21 Fujitsu Limited Information processing apparatus, and data management method
US9471548B2 (en) 2012-08-10 2016-10-18 International Business Machines Corporation Text processing method, system and computer program
JP2020021501A (ja) * 2019-10-04 2020-02-06 株式会社インタラクティブソリューションズ スライド検索装置、スライド検索システム、スライド検索方法及びスライド検索プログラム
CN111488601A (zh) * 2020-04-15 2020-08-04 北京明朝万达科技股份有限公司 一种防泄密处理的方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160724A (ja) * 1993-11-29 1995-06-23 Ricoh Co Ltd 文書検索装置
JPH08255155A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 全文登録語検索装置および方法
US9652526B2 (en) 2012-08-10 2017-05-16 International Business Machines Corporation Text processing method, system and computer program
US10353932B2 (en) 2012-08-10 2019-07-16 International Business Machines Corporation Text processing method, system and computer program
US9471548B2 (en) 2012-08-10 2016-10-18 International Business Machines Corporation Text processing method, system and computer program
EP2838037A2 (en) 2013-07-29 2015-02-18 Fujitsu Limited Information processing system, information processing method, and information processing program
US10614035B2 (en) 2013-07-29 2020-04-07 Fujitsu Limited Information processing system, information processing method, and computer product
JP2016134100A (ja) * 2015-01-21 2016-07-25 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
JP2016170750A (ja) * 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法
US10380240B2 (en) 2015-03-16 2019-08-13 Fujitsu Limited Apparatus and method for data compression extension
EP3070615A1 (en) 2015-03-16 2016-09-21 Fujitsu Limited Information processing apparatus, and data management method
JP2020021501A (ja) * 2019-10-04 2020-02-06 株式会社インタラクティブソリューションズ スライド検索装置、スライド検索システム、スライド検索方法及びスライド検索プログラム
CN111488601A (zh) * 2020-04-15 2020-08-04 北京明朝万达科技股份有限公司 一种防泄密处理的方法和装置
CN111488601B (zh) * 2020-04-15 2023-04-14 北京明朝万达科技股份有限公司 一种防泄密处理的方法和装置

Similar Documents

Publication Publication Date Title
US6523030B1 (en) Sort system for merging database entries
US6055528A (en) Method for cross-linguistic document retrieval
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
US6665661B1 (en) System and method for use in text analysis of documents and records
US7516125B2 (en) Processor for fast contextual searching
US20090193005A1 (en) Processor for Fast Contextual Matching
JPH09223161A (ja) コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置
JPH02271468A (ja) データ処理方法
JP2669601B2 (ja) 情報検索方法及びシステム
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JP3220865B2 (ja) フルテキストサーチ方法
JPH06348757A (ja) 文書検索装置および方法
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH0944523A (ja) 関連語提示装置
US20050071333A1 (en) Method for determining synthetic term senses using reference text
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
Baeza-Yates An extended model for full-text databases
JP3859044B2 (ja) インデクス作成方法および検索方法
JP3376996B2 (ja) フルテキストサーチ方法
JPH08137895A (ja) 類似文書検索システム
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JP2003223465A (ja) 特許文献検索方法