JP3489237B2

JP3489237B2 - 文書検索方法

Info

Publication number: JP3489237B2
Application number: JP00240695A
Authority: JP
Inventors: 勝己多田; 敦畠山; 奈津子水谷; 川口　　久光; 寛次加藤; 悟志浅川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-01-11
Filing date: 1995-01-11
Publication date: 2004-01-19
Anticipated expiration: 2019-01-19
Also published as: JPH08190572A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、大規模な文書データベ
ースの全文を対象として指定した文字列の存在する文書
を高速に検索する文書検索方法（フルテキストサーチの
方法）に係るものである。特に、データベース、文書管
理システム、文書ファイリングシステムおよびＤＴＰ
（ＤｅｓｋＴｏｐＰｕｂｌｉｓｈｉｎｇ）システム
などに適用されるものである。

【０００２】

【従来の技術】従来、インデクス情報を必要としない文
書検索方法には、以下のものがある。登録時に文書を文
字コード化したテキストデータとして計算機に直接登録
しテキストデータベースとして蓄積し、検索時にテキス
トデータベース内の全てのテキストの内容を読んで、指
定された検索文字列（以下、検索タームと呼ぶ）を含む
文書を探し出すフルテキストサーチがそれである（Ｌ．
Ａ．Ｈｏｌｌａｒ， “ＴｅｘｔＲｅｔｒｉｅｖａｌ
Ｃｏｍｐｕｔｅｒｓ"，ＣＯＭＰＵＴＥＲ，Ｍａｒｃ
ｈ，１９７９）。このフルテキストサーチは、テキスト
データベースを構成する全文書のテキストをファイルと
してまとめたテキストファイル全体を先頭から１文字ず
つ走査して、指定された検索タームが存在するか否かを
調べることにより、指定された検索タームを含む文書を
探し出すことを特徴としている。

【０００３】このようにすることにより、シソーラス等
の辞書を用いるインデキシングが不要となるため文書中
に現われるどんな言葉でも検索タームに指定して検索す
ることが可能となる。

【０００４】しかし、このフルテキストサーチはテキス
トファイル全体を先頭から全て走査するためにサーチ処
理に時間が掛かり、大規模なデータベースに適用できな
いという問題があった。

【０００５】この処理時間の問題を解決するために、特
願平２−１９３０１５号（特開平３−１７４６５２号公
報参照）を提案した。これは、専用のハードウェアを使
用することによってテキストデータの読出しと検索ター
ムのサーチ処理の高速化を図るとともに、テキストをサ
ーチする前にテキストを予め情報圧縮しておいた補助フ
ァイルをサーチし、テキスト本体をサーチする文書件数
を絞り込む（階層プリサーチ）ことによって等価的に高
速なフルテキストサーチを実現する情報検索装置であ
る。

【０００６】以下、この従来例の特徴である階層プリサ
ーチについて説明する。

【０００７】階層プリサーチとは、テキストをサーチす
る前に予め情報圧縮しておいた二つの補助ファイル、す
なわち「文字成分表」と「凝縮テキスト」を階層的にサ
ーチして検索タームに関連のない文書を検索対象からふ
るい落とし、テキストをサーチする文書件数を減らすこ
とによって、等価的に検索速度を加速する。すなわち、
まず文字成分表のサーチで文字単位の絞込みを行い、次
にこの文字成分表サーチで絞り込まれた文書に対し凝縮
テキストのサーチで単語単位の絞込みを行う方式であ
る。

【０００８】この文字成分表サーチでは、登録テキスト
の１文字単位の情報しか文字成分表に記録しないため、
検索タームに用いられる文字をすべて含む文書を検索候
補とする。例えば、“イラン"が検索タームに指定され
た場合、“イ"、“ラ"および“ン"の３文字がテキスト
中のどこかに存在する文書、例えば“ライオン"や“オ
ンライン"などの文字列を含む文書も文字成分表サーチ
でヒットしてしまう。

【０００９】すなわち、実際には検索ターム“イラン"
を含まないにもかかわらず、含んでいるとみなされる文
書（以下、ノイズという）がサーチ結果として多数出力
される場合がある。このような場合は凝縮テキストサー
チの対象となる文書件数を絞り込むことができないた
め、凝縮テキストサーチに時間が掛かり、十分な検索レ
スポンスが得られないことになる。

【００１０】この問題を解決する方法として特願平３−
１７４０６４号（特開平５−１７４０６４号公報参照）
で、文字成分を複数の文字の組み合わせとすることによ
って、単一文字より高い絞込み率を得る連接文字成分表
方法を提案した。

【００１１】すなわち、この連接文字成分表方法では登
録時にテキストデータ内に所定の文字数(２文字以上)の
文字列が存在するか、否かという情報を連接文字成分表
に記録しておく。そして、検索する際には凝縮テキスト
をサーチする前に検索タームを上記所定の文字数の文字
列に分割し、そのすべての文字列が含まれる文書をこの
連接文字成分表を参照して抽出する。こうすることによ
り、入力された検索タームに関連しない文書を部分文字
列レベルで高精度にふるい落すことができ、凝縮テキス
トをサーチする文書を十分絞り込むことが可能となる。

【００１２】例えば、図２に示すようにテキストデータ
(文書１、文書２、・・・、文書Ｎ)を検索する際、単一文
字成分表の場合は“イラン"という検索タームでは矢印
で示した“イ"、“ラ"および“ン"に対応するビット列
が検索対象となるが、“ライオン"や“オンライン"など
を含む文書、すなわち文書１も文書２も“イ"、“ラ”
および“ン”が含まれるため、“イラン"という文字列
がないにもかかわらず文字成分表で検索されてしまい、
ノイズとなってしまう。

【００１３】これに対し、連接文字成分表の場合は、
“イラ"と“ラン"の両方が含まれる文書としては文書Ｎ
だけに特定され、単一文字成分表の場合のようなノイズ
が混入しない。

【００１４】このように連接文字成分表を用いることに
より、文書１と文書２のように検索タームを構成する文
字がバラバラに含まれているような文書を検索対象から
削除できるため、単一文字成分表よりも余分な凝縮テキ
ストサーチを省くことが可能となる。その結果、十分に
絞り込まれた文書に対する凝縮テキストのサーチで済む
ことになるため、等価的に高速なフルテキストサーチが
実現できることになり、大規模なテキストデータベース
でも実用的な検索レスポンスでフルテキストサーチを実
行することが可能となる。

【００１５】この連接文字成分では、例えば２文字の連
接文字成分表の場合、全文字種の二乗の文字の組み合わ
せすべてについて、その文字成分を記録する必要があ
る。本公知例では、テキスト内の連接文字成分の出現頻
度を考慮して複数の連接文字成分の有無を一つのエント
リに重畳させて記録する(ハッシングと呼ぶ)ことによ
り、文字成分表の容量を削減し、かつ絞込み率の低下も
抑えるように工夫をしている。

【００１６】

【発明が解決しようとする課題】以上説明した連接文字
成分表方法における文字成分表サーチには以下に示す二
つの問題がある。

【００１７】まず第一の問題は、この文字成分表サーチ
を英文などのように文字の種類が少なく文字の並びで意
味を表わす表音文字に適用した場合には、文字の組合せ
による検索ノイズが多く発生することである。例えば、
“ain"のような三文字の互いに隣り合う文字列(以後、
逐次連接文字と呼ぶ)は、“mountain",“paint",“Spai
n"などの単語に全て含まれてしまう。その結果、文字成
分表の絞込み率が上がらないため凝縮テキストサーチの
対象となる文書件数が削減できず、十分な検索レスポン
スが得られないことになる。これは、英語などの表音文
字では複数の子音と母音の組み合わせによって意味が表
わされるため、同じ連接文字を含む単語が多く存在し、
互いに隣り合う文字列(以後、逐次連接文字と呼ぶ)では
単語に特有の並びになり得ないためである。

【００１８】第二の問題は、ハッシングを行なうため文
字成分表の検索結果にノイズが含まれることである。す
なわち、文字成分表の１個のエントリに複数の連接文字
成分を割り付けるため、ある連接文字を指定して該当す
るエントリを読み出した場合、そのビット情報から全く
別の連接文字成分を含む文書が得られる可能性がある。
そのため、大量の文書を登録する大規模な文書検索シス
テムで、検索語に関係しない文書のふるい落とし、すな
わち絞込みが適確に行なわれず検索低能のの低下につな
がる恐れがある。この問題に対してハッシングを行わず
に、すべての連接文字について、それぞれ１個のエント
リを対応させることも考えられる。しかし、これは文字
成分表の容量が膨大なものとなるため実用的ではない。

【００１９】具体的に説明すると、日本語で使用する文
字コードは約8,000種類あるため２文字の組合せとして
連接文字の種類は6,400万種類(8,000種類×8,000種類)
となる。登録する文書数を100万件とした場合、この6,4
00万種類のそれぞれの連接文字に100万bitの文書識別情
報を対応させなけらばならないため、文字成分表として
は8TByte(6,400万種類×100万bit)もの容量が必要とな
る。この文字成分表の大きさに対し文書本体の容量は、
１件分の容量を20kBとしても、100万件で20GByte(20kB/
件×100万件)であるため、圧倒的に文字成分表の容量の
ほうが大きくなってしまう。

【００２０】以上説明した問題に対し、本発明の解決し
ようとする第一の課題は表音文字である英字などにより
構成される単語が検索タームに指定された時でも、検索
ノイズの少ない文字成分表サーチを実現することであ
る。

【００２１】さらに、本発明の解決しようとする第二の
課題はハッシングによる検索ノイズが生じない文字成分
表を大規模な文書データベースにおいても実用的な容量
で実現することである。

【００２２】

【課題を解決するための手段】本発明において第一の課
題は、以下の構成を採用することにより解決できる。

【００２３】予め蓄積された各文書から予め定められた
形式で部分文字列を抽出し、各文書において部分文字列
が存在するか否かを示す連接文字成分表を作成し、各文
書から所望の文書を検索するために入力された検索ター
ムから予め定められた形式で検索用部分文字列を抽出
し、抽出された検索用部分文字列に対応する前記連接文
字成分表を参照して検索タームを構成する各検索用部分
文字列と一致する部分文字列が存在する文書を求めて、
検索タームに関連のない文書を検索対象からふるい落と
す文書検索方法において、文書から予め定められたｍ文
字（ｍは１以上の整数）おきに、予め定められたｎ文字
（ｎは２以上の整数）の文字列を部分文字列として抽出
し、検索タームから予め定められたｍ文字（ｍは１以上
の整数）おきに、予め定められたｎ文字（ｎは２以上の
整数）の文字列を検索用部分文字列として抽出すること
を特徴とする文書検索方法である。

【００２４】さらに第二の課題については、以下の構成
とすることにより解決できる。

【００２５】前述の連接文字成分表は、所定のしきい値
より出現頻度が高い連接文字の出現する文書番号に対応
するビット位置に１を記すことにより文字列の出現情報
を登録するビットリストと、所定のしきい値より出現頻
度が低い連接文字成分用に、前記所定の出現頻度より出
現頻度が低い連接文字の出現する文書番号をバイナリデ
ータのリストとして格納した文書番号リストを有し、予
め文書中に現われる連接文字成分の種類および各連接文
字成分の出現する文書数を算出し、算出された結果か
ら、テキストデータ中に現われる各連接文字の出現文書
数が所定のしきい値より大きいか否かを判定し、判定さ
れた結果、文書中に現われる各連接文字の出現文書数が
所定のしきい値より大きいと判定された場合には、ビッ
トリストに対し該当する連接文字の出現した文書番号に
相当するビット位置に‘１’を記すことにより連接文字
成分の出現情報を登録し、判定された結果、文書中に現
われる各連接文字の出現文書数が所定のしきい値より小
さいと判定された場合には、文書番号リストに対し該当
する連接文字の出現した文書番号をバイナリデータのリ
ストとして書き込むことにより、各連接文字成分の出現
情報を出現情報を登録し、検索タームから抽出された連
接文字に対し、抽出された連接文字に対応するビットリ
ストまたは文書番号リストを読み出し、文書番号リスト
の場合にはこれをビットリストに変換することにより連
接文字成分表を取得することを特徴とする文書検索方法
である。

【００２６】

【作用】まず、第一の文書検索方法における作用につい
て説明する。

【００２７】本文書検索方法では、連接文字成分表の作
成登録処理におけるスキップ連接文字成分抽出ステップ
で、テキストデータからｍ文字おきにｎ個の文字列をス
キップ連接文字として切り出し、この出現情報を連接文
字成分表に登録する。そして、連接文字成分表のサーチ
処理においても同様に検索タームからｍ文字おきにｎ個
の文字列を切り出して連接文字成分表をサーチすること
により、英語などのように同じ部分文字列を含む単語が
多数存在する言語でも単語固有の文字成分を採ることが
できるため、連接文字成分表サーチにおける絞り込み率
を向上させることが可能となる。

【００２８】例えば、検索タームに“mountain"という
文字列が指定された時には、従来例の互いに隣り合う文
字列間で連接文字成分表を参照する方法では、図３に示
すように“mou"，“oun"，“unt"，“nta"，“tai"およ
び“ain"が連接文字成分として抽出される。しかし、例
えば“ａｉｎ"については“painting"，“Spain"などの
単語にも含まれるためこれらの単語を含む文書が検索ノ
イズとしてヒットする可能性がある。これに対し、例え
ば１文字おきに文字列をとることにより、“mut"，“on
a"，“uti"および“nan"というように、その単語固有の
文字成分をとることができる。このため、同じ部分文字
列を含む単語が存在することによる検索ノイズを従来例
に比べ大幅に削減することができる。

【００２９】次に、本発明第二の文書検索方法の作用を
説明する。

【００３０】本文書検索方法では、文書登録時に予め文
字出現頻度算出ステップで、テキストデータ中に現われ
た連接文字成分の種類および各連接文字成分の現われる
文書の件数を算出する。

【００３１】さらに、連接文字成分表作成登録時には文
字出現頻度判定ステップで、文字出現頻度算出ステップ
における算出結果から、テキストデータ中に現われる各
連接文字の出現文書数が所定のしきい値より大きいか否
かを判定する。

【００３２】そして、文字出現頻度が所定のしきい値よ
り大きい場合には、ビットリスト登録ステップで該当す
る連接文字の出現した文書番号に相当するビットリスト
中のビット位置に‘１'を記すことにより連接文字成分
の出現情報を登録する。

【００３３】また、文字出現頻度が所定のしきい値より
小さい場合には、文書番号リスト登録ステップで該当す
る連接文字の出現した文書番号をバイナリデータのリス
トとして文書番号リストに対し書き込むことにより、各
連接文字成分の出現情報を出現情報を登録する。

【００３４】そして、検索時には連接文字成分表取得ス
テップで、検索タームから切り出された連接文字に対応
するビットリストまたは文書番号リストを読み出し、文
書番号リストの場合にはこれをビットリストに変換する
ことにより連接文字成分表を取得するこのように、本発
明第二の文書検索方法では出現頻度の高い連接文字につ
いては対応する連接文字成分表をビットリストで、出現
頻度の低い連接文字については文書番号リストで構成す
ることにより連接文字成分表のファイル容量を大幅に削
減することができる。具体的に説明すると、ビットリス
トの形式で連接文字成分表を構成するには、常にデータ
ベースに登録した全件分のビット数が必要になるが、文
書番号リストの形式で連接文字成分表を構成する場合に
は、文書番号を表わすビット数×登録文書数で済むこと
になる。例えば、データベースの全登録件数が100万件
で、一個の文書識別子情報を表わすのに32ビットを割り
当てるものとし、連接文字“構造"を含む文書がその内1
0件であった場合には、ビット列ならば、100万bit=125K
Bの格納領域が必要となる。これに対して、文書番号リ
ストの形式ならば、32bit×10件＝320bit＝40Bの格納領
域で済むことになる。

【００３５】また、連接文字“構成"を含む文書が100万
件中の90万件であった場合には、ビット列ならば、100
万bit=125KBの格納領域に済む。これに対し、IDリスト
形式の場合、32bit×90万件=4B×90万件=3.6MBの領域が
必要となる。

【００３６】したがって、この100万件を、文書識別子3
2ビットで格納する場合には、100万bit÷32bit=31,250
件を境として、これよりも登録件数が多い場合はビット
リスト形式で、少ない場合は文書番号形式で連接文字成
分表を構成することにより連接文字成分表のファイル容
量を最小化することができる。

【００３７】また、本発明の第二の文書検索方法による
連接文字成分表検索結果にはハッシングによるノイズが
含まれないため、これらの検索結果集合間の論理積演算
(AND)して得られる文字成分表サーチ結果も、従来のハ
ッシングを行う文字成分表のサーチ結果に対しノイズが
大幅に削減されたものであり、絞り込み精度の向上を実
現することが可能となる。

【００３８】

【実施例】以下、本発明の第一の実施例について図１を
用いて説明する。

【００３９】本実施例では、英文におけるｍ文字おきに
ｎ文字の文字列を抽出するスキップ連接文字成分表とし
てｍ＝１、ｎ＝３の場合を例にして説明する。

【００４０】本発明を適用した文書検索システムは、デ
ィスプレイ１００、キーボード１０１、中央演算装置Ｃ
ＰＵ１０２、磁気ディスク１１０、フロッピディスクド
ライブ（ＦＤＤ）１０６、主メモり２００から構成され
る。また、これらはバス１０８で接続されている。磁気
ディスク１１０にはテキスト１０３、凝縮テキスト１０
４、連接文字成分表１０５および後述する各種プログラ
ム１１１やテーブル１１２が格納される。１０７は登録
する文書を格納したフロッピディスクである。

【００４１】主メモリ２００には、システム制御プログ
ラム２０１、文書登録制御プログラム２０２、テキスト
登録プログラム２０３、凝縮テキスト作成登録プログラ
ム２０４、連接文字成分表作成登録プログラム２０５、
検索制御プログラム２０９、検索条件式解析プログラム
２１０、連接文字成分表サーチプログラム２１１、凝縮
テキストサーチプログラム２１４、テキストサーチプロ
グラム２１５およびハッシュテーブル２１６が磁気ディ
スク１１０から読み出されて格納されるとともにワーク
エリア２１７が確保される。

【００４２】連接文字成分表作成登録プログラム２０５
はスキップ連接文字抽出プログラム２０６、連接文字成
分表登録プログラム２０７およびハッシュテーブル作成
プログラム２０８から構成され、連接文字成分表サーチ
プログラム２１１はスキップ連接抽出プログラム２１２
とビットアンドプログラム２１３から構成される。これ
らのプログラムはユーザのキーボード１０１からの指示
に応じてシステム制御プログラム２０１の制御の下で実
行される。

【００４３】以下、本発明の対象となる連接文字成分表
サーチを含む階層プリサーチにおける登録処理と検索処
理について具体的に説明する。

【００４４】文書の登録の際は図４に示すように、キー
ボード１０１から入力されたコマンドを受け、システム
制御プログラム２０１は文書登録制御プログラム２０２
を起動する。この文書登録制御プログラム２０２は、最
初にステップ１０００でテキスト登録プログラム２０３
を起動して、フロッピディスクドライブ１０６に挿入さ
れたフロッピディスク１０７から登録文書のテキストデ
ータをワークエリア２１７に読み込み、これをテキスト
１０３として磁気ディスク１１０へ格納する。登録文書
はフロッピディスクを用いて入力するだけでなく、通信
回線（図１には示していない）等を用いて他の装置から
入力するような構成をとってもかまわない。

【００４５】次に、文書登録制御プログラム２０２はス
テップ１００１で凝縮テキスト作成登録プログラム２０
４を起動して、テキストデータをスペースや記号などを
区切りとして単語レベルで部分文字列へ分割し、分割し
た部分文字列間で相互に文字列の包含関係を調べ、他の
部分文字列に含まれる文字列を排除し、残った部分文字
列の集合を凝縮テキスト１０４として磁気ディスク１１
０へ格納し、本プログラムの終了を待って、登録処理を
完了する。

【００４６】最後に、文書登録制御プログラム２０２は
ステップ１００２で連接文字成分表作成登録プログラム
２０５を起動する。

【００４７】以下、連接文字成分表作成登録プログラム
２０５の処理について図５を用いて説明する。

【００４８】まず、連接文字成分表作成登録プログラム
２０５はステップ１０１０でスキップ連接文字抽出プロ
グラム２０６を起動し、磁気ディスク１１０に格納され
たテキスト１０３からテキストデータをワークエリア２
１７に読み込む。そして、このテキストデータから１文
字おきに３文字の文字列をすべて抽出する。

【００４９】次に、ステップ１０１１で連接文字成分表
登録プログラム２０７を起動し、スキップ連接文字抽出
プログラム２０６によってテキストデータから抽出され
た文字列を、ワークエリア２１７内の連接文字成分表１
０５にハッシュテーブル２１６に従って登録し、これを
磁気ディスク１１０へ格納する。

【００５０】連接文字成分表１０５を新規に登録すると
きには、連接文字成分表登録プログラム２０７でハッシ
ュテーブル作成プログラム２０８を起動し、連接文字成
分表１０５の該当エントリを参照するために用いるハッ
シュテーブル２１６を作成するとともに、連接文字成分
表１０５の全エントリを初期化（‘０’クリア）してお
く。

【００５１】ハッシュテーブル作成プログラム２０８に
より作成されるハッシュテーブル２１６は、連接文字成
分により連接文字成分表１０５のエントリを参照する際
に用いられるが、このハッシュテーブル２１６について
は単純なハッシュ関数でも、あるいは上述した特願平３
−３４２６９５号に示した文書データベース中の連接文
字成分の頻度を利用したハッシュ方式を用いてもよい。

【００５２】以上が、連接文字成分表作成登録プログラ
ムの処理内容である。

【００５３】検索の際には、検索条件式がキーボード１
０１から入力されると、システム制御プログラム２０１
により検索制御プログラム２０９が起動される。そし
て、本制御プログラムの下で検索条件式解析プログラム
２１０、連接文字成分表サーチプログラム２１１、凝縮
テキストサーチプログラム２１４およびテキストサーチ
プログラム２１５が順次起動される。

【００５４】以下、図６を用いて、連接文字成分表サー
チプログラム２１１、凝縮テキストサーチプログラム２
１４およびテキストサーチプログラム２１５による階層
検索処理の詳細について説明する。

【００５５】まず、検索制御プログラム２０９はステッ
プ１０２０で連接文字成分表サーチプログラム２１１を
起動する。本プログラムの実行により、まずスキップ連
接文字抽出プログラム２１２を起動し、入力された検索
条件式中の検索タームから１文字おきに３文字の文字列
を抽出し、ハッシュテーブル２１６を用いて、抽出され
たすべての文字列に対応する連接文字成分表のエントリ
に格納されているビットリストをワークエリア２１７に
読み込む。次に、ビットアンドプログラム２１３を起動
し、ワークエリア２１７に読み込まれたすべてのビット
リスト間で各ビット毎に論理積(AND)を取る。この論理
積演算の結果‘１'となったビットに対応する文書番号
を連接文字成分表サーチの結果として検索制御プログラ
ム２０９に出力し、この連接文字成分表サーチの結果件
数が０件であれば、ここで０件という検索結果を本プロ
グラム２０９がディスプレイに表示する。

【００５６】もし、連接文字成分表サーチの結果件数が
０件でなければ、検索制御プログラム２０９はステップ
１０２１で凝縮テキストサーチプログラム２１４を実行
する。ここでは、上述の連接文字成分表サーチプログラ
ム２１１によって出力された文書番号に対応する凝縮テ
キスト１０４をワークエリア２１７に読み込む。

【００５７】そして、読み込まれた凝縮テキスト１０４
を凝縮テキストサーチプログラム２１４で探索し、検索
タームが含まれる凝縮テキストの文書番号を検索制御プ
ログラム２０９に出力する。

【００５８】この凝縮テキストサーチの結果件数が０件
であれば、ここで０件という結果件数をシステム制御プ
ログラム２０１に出力して検索処理を終了する。

【００５９】また、与えられた検索条件式の中に単一の
検索タームか、あるいは複数の検索ターム間の論理的な
関係(AND条件やOR条件)が指定されているだけで、テキ
スト中での位置関係までは指定されていない場合には、
ここで検索を終了し凝縮テキストサーチプログラム２１
４によって出力された文書番号を検索結果としてシステ
ム制御プログラム２０１に出力する。

【００６０】それ以外の場合、すなわち与えられた検索
条件式の中に複数の検索ターム間のテキスト中での位置
関係が指定されている場合には、ステップ１０２２でテ
キストサーチプログラム２１５を起動し、テキストサー
チを行う。

【００６１】単一の検索タームが指定されたり、あるい
は単にＡＮＤ条件やＯＲ条件が指定されただけの場合に
凝縮テキストサーチで検索を終了できるのは、凝縮テキ
スト１０４にはその作成アルゴリズムからも分かるよう
に、テキスト１０３中に存在する単語が漏れなく抽出さ
れており、凝縮テキスト１０４を検索するだけで指定さ
れた単語がテキストデータ中に現われたか否かが判定で
きるためである。

【００６２】例えば、「“ｉｎｆｏｒｍａｔｉｏｎ"
〈ＡＮＤ〉“ｓｙｓｔｅｍｓ”」のように記述される
「“ｉｎｆｏｒｍａｔｉｏｎ”と“ｓｙｓｔｅｍｓ”の
両方が現れる文書を探せ」という意味を持つＡＮＤ条件
や、「“ｉｎｆｏｒｍａｔｉｏｎ”〈ＯＲ〉“ｓｙｓｔ
ｅｍｓ”」のように記述される「“ｉｎｆｏｒｍａｔｉ
ｏｎ”か“ｓｙｓｔｅｍｓ”のどちらかが現れる文書を
探せ」という意味を持つＯＲ条件などは、複数の検索タ
ーム間の論理的な関係が指定されているだけで、テキス
ト中での位置関係までは指定されていない。そのため、
“ｉｎｆｏｒｍａｔｉｏｎ”と“ｓｙｓｔｅｍｓ”の存
在分かればよいだけなので凝縮テキストサーチだけで検
索条件の成否を判定することができる。

【００６３】これに対し、「“ｉｎｆｏｒｍａｔｉｏ
ｎ”〈Ｓ〉“ｓｙｓｔｅｍｓ”」のように記述される
「“ｉｎｆｏｒｍａｔｉｏｎ”と“ｓｙｓｔｅｍｓ”が
同一の文（センテンス）に共起（同時に出現）する文書
を探せ」という意味を持つ文脈条件や、「“ｉｎｆｏｒ
ｍａｔｉｏｎ”〈２Ｗ〉“ｓｙｓｔｅｍｓ”」のように
記述される「“ｉｎｆｏｒｍａｔｉｏｎ”と“ｓｙｓｔ
ｅｍｓ”が２語以内に近接して現れる文書を探せ」とい
う意味を持つ近傍条件、あるいは「“ｉｎｆｏｒｍａｔ
ｉｏｎ”〈Ａ〉“ｓｙｓｔｅｍｓ”」のように記述され
る「“ｉｎｆｏｒｍａｔｉｏｎ”と“ｓｙｓｔｅｍｓ”
が隣接して現れる文書を探せ」という意味を持つ隣接条
件などは、複数の検索ターム間のテキスト中での位置関
係が指定されているため、単語の出現位置情報を持たな
い凝縮テキストサーチだけでは成否の判定ができず、テ
キストサーチまで行わなければならない。

【００６４】凝縮テキストサーチの結果件数が０件でな
く、かつ上述した文脈条件、近傍条件あるいは隣接条件
が指定されている場合には、テキストサーチプログラム
２１５が起動され、凝縮テキストサーチプログラム２１
４で出力された文書番号に対応するテキストデータをテ
キスト１０３からワークエリア２１７に読み込む。そし
て、テキストサーチプログラム２１５はこのテキストデ
ータを探索し、与えられた検索タームを含み、かつ検索
ターム間の位置関係に関する指定条件を満たすものを抽
出し、この抽出テキストデータに対応する文書番号を検
索結果として検索制御プログラム２０９に出力する。

【００６５】以上が本発明のフルテキストサーチ方法を
適用した第一の実施例のフルテキストサーチシステムの
概略である。

【００６６】本実施例における連接文字成分表の登録手
順は図７に示す通りである。以下、この登録手順を詳細
に説明する。

【００６７】まず、連接文字成分表の登録処理の詳細に
ついて説明する。ここでは、前述したように連接文字成
分表作成登録プログラム２０５により、スキップ連接文
字抽出プログラム２０６が起動される。

【００６８】本プログラムの実行により、磁気ディスク
１１０に格納されたテキスト１０３から文書毎にテキス
トデータがワークエリア２１７に読み込まれ、このテキ
ストデータから１文字おきに３文字の文字列が抽出され
る。

【００６９】次に、連接文字成分表登録プログラム２０
７が起動される。ここでは、スキップ連接文字抽出プロ
グラム２０５によってテキストデータから抽出された上
記連接文字成分に対してハッシュテーブル２１６を用い
て対応するエントリを算出し、該当するビット位置に
‘１'を設定し、連接文字成分の存在を記す。

【００７０】このスキップ連接文字抽出プログラム２０
６の処理では、例えば図７に示すように“Ｍｕｌｔｉｍ
ｅｄｉａ"というテキストデータに対しては、１文字お
きに３文字の連接文字として“Ｍｌｉ”，“ｕｔｍ”，
“ｌｉｅ”，“ｔｍｄ”，“ｉｅｉ”および“ｍｄａ”
が抽出される。

【００７１】次に、抽出文字列に対して、ハッシュテー
ブル２１６を介して参照した連接文字成分表１０５の該
当エントリの対応ビット位置に‘１’を設定する。図８
の例では、文書１中に“Ｍｌｉ”があるのでハッシュテ
ーブル２１６を用いて参照した該当エントリの文書１に
対応するビット位置に‘１’を設定する。“ｓｓｅ”の
場合も同様に該当エントリに‘１’を設定する。以下、
同様にしてテキストデータ中に存在する連接成分のすべ
てについて、連接文字成分表１０５の該当エントリに
‘１’を設定する。最終的には、同図に示すように全て
の登録文書について‘１’と‘０’の列(ビットリスト)
ができあがる。例えば、“ｎｓｓ”の「１０１・・・
０」の列が１つのビットリストである。

【００７２】このようにして、連接文字成分表作成登録
プログラム２０５により文書の登録時に連接文字成分表
１０５が作成され、階層プリサーチの準備ができあが
る。

【００７３】次に、連接文字成分表の検索手順につい
て、図９を用いて詳細に説明する。

【００７４】まず、検索制御プログラム２０９はステッ
プ１０３０でスキップ連接文字抽出プログラム２１２を
起動する。ここでは、検索条件式中の検索タームから１
文字おきに３文字の文字列を抽出する。ただし、本実施
例では３文字の１文字おきの連接文字成分表を用いてい
るため、５文字未満の検索タームの場合は連接文字が得
られないことになる。この場合、本実施例では、連接文
字成分表サーチの結果を全件ヒットとし、すべての文書
に対して凝縮テキストサーチを行うことにする。すなわ
ち、この文書の番号を出力して、連接文字成分表サーチ
プログラム２１１が終了する。

【００７５】５文字以上の検索タームが与えられた場合
には、ステップ１０３１でスキップ連接文字抽出プログ
ラム２１２によって抽出された文字列に対応するビット
リストを、ビットアンドプログラム２１３が連接文字成
分表１０５からハッシュテーブル２１６を介してワーク
エリア２１７に読み込み、ステップ１０３２で読み込ん
だビットリスト間でビット毎に論理積演算を行う。そし
てステップ１０３３で、この論理積演算の結果が‘１’
となったビットに対応する文書番号を算出し、これを連
接文字成分表サーチ結果として出力する。

【００７６】例えば、図１０に示すように“Ｍｕｌｔｉ
ｍｅｄｉａ”という文字列が検索タームとして与えられ
た場合、“Ｍｌｉ”，“ｕｔｍ”，“ｌｉｅ”，“ｔｍ
ｄ”，“ｉｅｉ”および“ｍｄａ”に対応する連接文字
成分表１０５のビットリストがハッシュテーブル２１６
を介して読み出され、これらすべてのビットリストのビ
ットがすべて‘１’である文書が連接文字成分表サーチ
の検索結果として得られる。

【００７７】すなわち、読み出したすべてのビットリス
トの間でビット毎に論理積演算を施し、ビットアンド演
算結果９００を得る。このビットアンド演算結果のビッ
トリスト中で、‘１’となっているビット位置に対応す
る文書番号が連接文字成分表サーチの検索結果としての
ヒット文書を表わすことになる。

【００７８】これにより、“Ｍｌｉ”，“ｕｔｍ”，
“ｌｉｅ”，“ｔｍｄ”，“ｉｅｉ”および“ｍｄａ”
のすべてを含む文書が抽出されることになる。本図の例
では、文書１と文書Ｎがヒット文書ということになる。

【００７９】このように、本実施例における連接文字成
分表作成登録処理では、文書の登録時に、テキストデー
タから１文字おきに３文字の文字列を取り出し、この連
接文字の存在情報を予め連接文字成分表に登録しておく
ことにより、単語固有の連接文字成分を取ることができ
るため、検索時の連接文字成分表サーチにおける絞り込
み率を向上させることが可能となる。その結果、階層プ
リサーチにおける凝縮テキストの探索量が削減されるこ
とになるため、等価的に全体の検索速度を向上できるこ
とになる。したがって、より大量のフルテキストサーチ
を実時間で行うことが可能となる。

【００８０】なお、本実施例では単語を意識することな
く“_"(スペース)や“."(ピリオド)、“,"(カンマ)など
を含んだ全ての文字列を対象として文字成分表を作成し
ている。このため、“Multimedia information system
s"などのスペースを含んだ文字列が検索タームに指定さ
れた場合にも、単語間にまたがった連接文字成分を利用
した絞り込みを行うことが可能となっている。

【００８１】また、本実施例では連接文字成分表を１文
字おきに３文字の文字列、すなわち、ｍ＝１、ｎ＝３で
作成する場合について説明したが、何文字おきに文字列
を抽出しても、また文字列長が２文字および４文字以上
の場合についても同様な処理が可能である。これは、上
記の説明から明らかであろう。

【００８２】さらに、本実施例では５文字未満の検索タ
ームの場合、連接文字成分表サーチの結果を全件ヒット
として出力するようにしているが、別途１文字おきに２
文字の連接文字成分表を作成し、この連接文字成分表を
用いて５文字未満の検索タームの連接文字成分表サーチ
を行うようにすることもできる。

【００８３】このように、本実施例による連接文字成分
表サーチでは、従来例に比べ検索ノイズを大幅に削減す
ることができるため、連接文字成分表サーチの検索結果
は凝縮テキストおよびテキストをサーチすることにより
得られる検索結果と大きな差が生じない。このため、連
接文字成分表サーチの検索結果をシステムの検索結果と
してそのままシステム制御プログラム２０１に出力する
ことも可能である。

【００８４】次に、本発明の第二の実施例について説明
する。

【００８５】本発明の第一の実施例では、単語を意識す
ることなく、“_"(スペース)や“."(ピリオド)、“,"
(カンマ)などを含んだ全文字列を対象として文字成分表
を作成している。しかし、この方法では単語間にまたが
ったスキップ連接文字を文字成分表に登録することにな
るため、単語を指定した検索の場合には以下の２種類の
ノイズが発生する。

【００８６】まず、単語間にまたがったスキップ連接文
字成分が他の連接文字と同じエントリにハッシングされ
ることによりノイズが発生する。例えば、“angle"が検
索タームに指定されたときにはスキップ連接文字として
“age"が抽出されることになるが、“Multimedia infor
mation systems"における“_"(スペース)をまたがった
スキップ連接文字である“aif"が“age"と同じエントリ
にハッシングされた場合には“Multimedia information
systems"を含む文書がノイズとしてヒットしてしまう
ことになる。

【００８７】さらに、検索タームから抽出したスキップ
連接文字成分が単語間にまたがって現われる文書を抽出
することによりノイズが発生する。すなわち、テキスト
中に“・・・ a green cup ・・・"という文字列が含まれる文
書が登録された場合には、“_"(スペース)をまたがった
スキップ連接文字である“age"が連接文字成分表に登録
される。これに対し、検索タームに“angle"が指定され
たときには検索タームからスキップ連接文字として“ag
e"が抽出されることになり、前述した文書が検索ノイズ
としてヒットしてしまうことになる。

【００８８】これらの問題に対し、本発明第二の実施例
では連接文字成分の抽出時にテキストから単語を切り出
し、切り出された単語からスキップ連接文字成分を抽出
して連接文字成分表を作成することによって、二つの単
語にかかる連接文字成分を抽出しないようにして、前記
の検索ノイズを削減する。

【００８９】本実施例は図１に示した第一の実施例と基
本的に同様の構成をとるが、その中の連接文字成分表作
成登録プログラム２０５が図１１に示すような構成とな
る。

【００９０】すなわち、本実施例における連接文字成分
表作成登録プログラム２０５は、単語切り出しプログラ
ム３００、スキップ連接文字抽出プログラム２０６、連
接文字成分表登録プログラム２０７およびハッシュテー
ブル作成プログラム２０８で構成される。

【００９１】本実施例における連接文字成分表作成登録
プログラム２０５は、図１２に示すように、まずステッ
プ１１００で単語切り出しプログラム３００を起動し、
磁気ディスク１１０に格納されたテキスト１０３からテ
キストデータをワークエリア２１７に読み込む。そし
て、このテキストデータからスペースを区切りとして単
語を切り出す。

【００９２】次に、ステップ１１０１でスキップ連接文
字抽出プログラム２０６を起動し、単語切り出しプログ
ラム３００によって切り出されたすべての単語から１文
字おきに３文字の文字列をすべて抽出する。

【００９３】最後に、ステップ１１０２で連接文字成分
表登録プログラム２０７を起動し、スキップ連接文字抽
出プログラム２０６によって単語から抽出された連接文
字を、ワークエリア２１７内の連接文字成分表１０５に
ハッシュテーブル２１６に従って登録し、これを磁気デ
ィスク１１０へ格納する。

【００９４】このスキップ連接文字の抽出および連接文
字成分表の登録について、例えば“Ｍｕｌｔｉｍｅｄｉ
ａｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓｍｕｓ
ｔ・・・”というテキストが登録された場合を例に説明
する。

【００９５】単語切り出しプログラム３００によって文
書１は図１３に示すように、“Ｍｕｌｔｉｍｅｄｉ
ａ”，“ｉｎｆｏｒｍａｔｉｏｎ”，“ｓｙｓｔｅｍ
ｓ”，“ｍｕｓｔ”，・・・に分割される。

【００９６】次に、スキップ連接文字抽出プログラム２
０６によって、切り出された単語からスキップ連接文字
成分として“Ｍｌｉ”，“ｕｔｍ”，“ｌｉｅ”，“ｔ
ｍｄ”，“ｉｅｉ”，“ｍｄａ”，“ｉｆｒ”，“ｎｏ
ｍ”，“ｆｒａ”，“ｏｍｔ”，・・・が抽出される。

【００９７】さらに、連接文字成分表登録プログラム２
０７では、スキップ連接文字抽出プログラム２０６によ
って切り出された“Ｍｌｉ”に対して、ハッシュテーブ
ル２１６を用いて参照した該当エントリの文書１に対応
するビット位置に‘１’を設定する。“ｕｔｍ”も同様
に‘１’を設定する。以下、同様にしてテキストデータ
中の単語に存在する連接文字成分のすべてについて、連
接文字成分表１０５の該当エントリに‘１’を設定す
る。最終的には、同図に示すように各登録文書について
‘１’と‘０’の列（ビットリスト）ができあがる。

【００９８】検索時には、本発明の第一の実施例と同様
に連接文字成分表サーチプログラム２１１においてスキ
ップ連接文字抽出プログラム２１２が起動され、入力さ
れた検索条件式中の検索タームから１文字おきに３文字
の文字列をすべて抽出する。

【００９９】次に、ビットアンドプログラム２１３を起
動し、スキップ連接文字抽出プログラム２１２によって
抽出されたすべての文字列に対応する連接文字成分表１
０５のエントリに格納されているビットリストを、ハッ
シュテーブル２１６を介してワークエリア２１７に読み
込み、読み込まれたすべてのビットリスト間で各ビット
毎に論理積演算を行う。この論理積演算の結果‘１’と
なったビットに対応する文書番号を連接文字成分表サー
チの結果として出力する。

【０１００】このように、本実施例における連接文字成
分表の作成登録処理では、テキストデータから単語を切
り出してから、その単語中の文字列から１文字おきに３
文字の文字列を抽出し、この連接文字の存在情報を予め
連接文字成分表に登録する。この単語分割により、二つ
の単語にまたがった連接文字成分を削除できるため、ハ
ッシングによるノイズおよび単語間にまたがったスキッ
プ連接文字によるノイズを減らすことができる。例え
ば、テキスト中に“・・・ a green cup ・・・"という文字列
が含まれる文書が登録された場合にも、“_"(スペース)
をまたがったスキップ連接文字である“age"が連接文字
成分表に登録さないため、スキップ連接文字として“ag
e"を持つ“angle"が検索タームに指定された場合にもノ
イズとして検索されることはない。その結果、検索時の
連接文字成分表サーチにおける絞り込み率を向上させる
ことができ、階層プリサーチにおける凝縮テキストの探
索量が削減できることになるため、等価的に全体の検索
速度を向上させることが可能となる。したがって、より
大量のフルテキストサーチを実時間で行うことが可能と
なる。

【０１０１】本実施例では、予め定められたｍ文字(ｍ
は１以上の整数)おきの連接文字(スキップ連接文字)を
対象としてテキストを単語に分割してから文字成分表を
作成する方法について説明した。しかし、従来の互いに
隣り合う連接文字(逐次連接文字)に対しても同様に、テ
キストを単語に分割してから連接文字成分表を作成する
ことにより、“_"(スペース)などを含む連接文字が他の
連接文字と同じエントリにハッシングされることによっ
て生じるノイズが削減できることは明らかであろう。

【０１０２】次に、本発明の第三の実施例について説明
する。

【０１０３】本発明第二の実施例では、予めテキストデ
ータを単語に分割し、各単語毎にスキップ連接文字を抽
出することにより、単語間にまたがったスキップ連接文
字が他の連接文字と同じエントリにハッシングされるこ
とによって生じるノイズ、および単語間にまたがったス
キップ連接文字成分によって生じるノイズを削減するこ
とができた。しかし、この方法では検索タームに指定し
た単語を部分文字列として含む別の単語が現われる文書
をノイズとして検索してしまうという問題がある。すな
わち、テキスト中に“jangle"という単語を含む文書が
登録された時には、スキップ連接文字として“jnl"と
“age"が抽出され連接文字成分表に登録されることにな
る。それに対し、検索タームに“angle"が指定された時
には、検索タームからスキップ連接文字として“age"が
抽出されるため、検索タームである“angle"を部分文字
列として含む別の単語である“jangle"等の現われる文
書がノイズとしてヒットしてしまう。

【０１０４】この問題に対し本発明の第三の実施例で
は、第二の実施例における文書検索方法において連接文
字成分表の登録時および検索時に単語の前後に特殊文字
等の所定の符号（以下特殊文字で説明する）を付加す
る。つまり、特殊文字（例えば、ここでは‘＾’とす
る）を付加し、それを含めて連接文字成分を抽出する特
殊文字付加型の連接文字成分表を作成する。これによ
り、特殊文字で単語の区切りを判別できるようにし、検
索タームを部分文字列として含む別の単語が現われる文
書を排除して、ノイズを削減する。

【０１０５】本実施例は図１に示した第一の実施例と基
本的に同様の構成をとるが、その中の連接文字成分表作
成登録プログラム２０５と連接文字成分表サーチプログ
ラム２１１の部分が、それぞれ図１４と図１５に示すよ
うな構成となる。

【０１０６】すなわち、連接文字成分表作成登録プログ
ラム２０５は単語切出しプログラム３００、特殊文字付
加プログラム３０１、スキップ連接文字抽出プログラム
２０６、連接文字成分表登録プログラム２０７およびハ
ッシュテーブル作成プログラム２０８で構成され、連接
文字成分表サーチプログラム２１１は特殊文字付加プロ
グラム３０２、スキップ連接文字抽出プログラム２１２
およびビットアンドプログラム２１３で構成される。

【０１０７】連接文字成分表作成登録プログラム２０５
は、図１６に示すように、まずステップ１２００で単語
切出しプログラム３００を起動し、磁気ディスク１１０
に格納されたテキスト１０３からテキストデータがワー
クエリア２１７に読み込む。そして、このテキストデー
タからスペースを区切りとして単語を切り出す。

【０１０８】次に、ステップ１２０１で特殊文字付加プ
ログラム３０１を起動し、単語切出しプログラム３００
によって切り出された単語の前後に特殊文字‘＾’を付
加する。

【０１０９】その後、ステップ１２０２でスキップ連接
文字抽出プログラム２０６を起動し、特殊文字付加プロ
グラム３００によって特殊文字を付加されたすべての単
語から１文字おきに３文字の文字列をすべて抽出する。

【０１１０】最後に、ステップ１２０３で連接文字成分
表登録プログラム２０７を起動し、スキップ連接文字抽
出プログラム２０６によって単語から抽出された連接文
字を、ワークエリア２１７内の連接文字成分表１０５に
ハッシュテーブル２１６に従って登録し、これを磁気デ
ィスク１１０へ格納する。

【０１１１】検索時には、連接文字成分表サーチプログ
ラム２１１は、図１７に示すように、まずステップ１２
１０で特殊文字付加プログラム３０２を起動し、検索条
件式中の検索タームの前後に特殊文字‘＾’を付加す
る。

【０１１２】次に、ステップ１２１１でスキップ連接文
字抽出プログラム２１２を起動し、特殊文字付加プログ
ラム３０２によって特殊文字‘＾’が付加された検索タ
ームから３文字の一続きの文字列すべてを抽出する。

【０１１３】その後、ステップ１２１２でビットアンド
プログラム２１３を起動し、スキップ連接文字抽出プロ
グラム２１２によって抽出されたすべての文字列に対応
する連接文字成分表１０５のエントリに格納されている
ビットリストを、ハッシュテーブル２１６を介してワー
クエリア２１７に読み込み、ステップ１２１３で読み込
まれたすべてのビットリスト間で各ビット毎に論理積演
算を行う。

【０１１４】この論理積演算の結果、‘１’となったビ
ットに対応する文書番号を連接文字成分表サーチの結果
として出力する。

【０１１５】以下、上述した連接文字成分表作成登録プ
ログラム２０５の処理内容を詳細に説明する。

【０１１６】連接文字成分表作成登録プログラム２０５
では、まずテキスト１０３からスペースを区切りとして
単語が切り出され、各単語の前後に特殊文字‘＾’が付
加される。その後、特殊文字‘＾’が付加された単語か
ら１文字おきに３文字の文字列が抽出される。

【０１１７】このスキップ連接文字の抽出処理につい
て、例えば、“Ｍｕｌｔｉｍｅｄｉａｉｎｆｏｒｍａｔ
ｉｏｎｓｙｓｔｅｍｓｍｕｓｔ・・・”というテキ
ストが登録された場合を例に説明する。

【０１１８】単語切出しプログラム３００によって図１
８に示すように文書１は、“Ｍｕｌｔｉｍｅｄｉａ”，
“ｉｎｆｏｒｍａｔｉｏｎ”，“ｓｙｓｔｅｍｓ”，
“ｍｕｓｔ”，・・・に分割される。

【０１１９】次に、特殊文字付加プログラム３０１によ
って、切り出された各単語の前後に特殊文字‘＾’が付
加され、“＾Ｍｕｌｔｉｍｅｄｉａ＾”，“＾ｉｎｆｏ
ｒｍａｔｉｏｎ＾”，“＾ｓｙｓｔｅｍｓ＾”，“＾ｍ
ｕｓｔ＾”，・・・となる。

【０１２０】次に、スキップ連接文字抽出プログラム２
０６によって、特殊文字‘＾’を前後に付加した単語か
ら、“＾ｕｔ”，“Ｍｌｉ”，“ｕｔｍ”，“ｌｉ
ｅ”，“ｔｍｄ”，“ｉｅｉ”，“ｍｄａ”，“ｅｉ
＾”，“＾ｎｏ”，“ｉｆｒ”，“ｎｏｍ”，“ｆｒ
ａ”，“ｏｍｔ”，・・・が抽出される。

【０１２１】最後に、連接文字成分表登録プログラム２
０７を起動する。ここでは、ハッシュテーブル２１６を
介して、スキップ連接文字抽出プログラム２０６によっ
て、特殊文字‘＾’を付加した単語から抽出された連接
文字成分に対応するエントリに‘１’を設定し、連接文
字成分の存在を記す。

【０１２２】図１８の文書１の例では、“＾ｕｔ”があ
るのでハッシュテーブル２１６を用いて参照した該当エ
ントリの文書１に対応するビット位置に‘１’を設定す
る。“Ｍｌｉ”も同様に‘１’を設定する。

【０１２３】以下、同様にして特殊文字‘＾’を前後に
付加した単語中の連接文字成分のすべてについて、連接
文字成分表１０５の該当エントリに‘１’を設定する。
最終的には、同図に示すようにテキスト１０３中の各文
書について‘１’と‘０’の列（ビットリスト）ができ
あがる。

【０１２４】次に、連接文字成分表サーチプログラム２
１１の処理内容を詳細に説明する。連接文字成分表サー
チプログラム２１１では、まず検索条件式中の検索ター
ムの前後に特殊文字‘＾’を付加し、その検索タームか
ら３文字の一続きの文字列を抽出する。

【０１２５】その後、抽出された各文字列に対応するビ
ットリスト間でビット毎に論理積演算を行い、‘１’と
なったビットに対応する文書番号を連接文字成分表サー
チ結果として出力する。

【０１２６】例えば、図１９に示すように“Ｍｕｌｔｉ
ｍｅｄｉａ”という検索タームは特殊文字を付加するこ
とにより、“＾Ｍｕｌｔｉｍｅｄｉａ＾”となる。この
検索タームから１文字おきに３文字の文字列を抽出する
ことにより“＾ｕｔ”，“Ｍｌｉ”，“ｕｔｍ”，“ｌ
ｉｅ”，“ｔｍｄ”，“ｉｅｉ”，“ｍｄａ”および
“ｅｉ＾”が連接文字成分として得られる。そして、こ
れらに対応する連接文字成分表１０５のビットリストを
ハッシュテーブル２１６を介して読み出し、これらすべ
てのビットリストのビットがすべて‘１’である文書が
連接文字成分表サーチの検索結果として得られる。

【０１２７】すなわち、読み出したすべてのビットリス
トの間でビット毎に論理積演算を施し、ビットアンド演
算結果９００を得る。このビットアンド演算結果のビッ
トリスト中で、‘１’となっているビット位置に対応す
る文書番号が連接文字成分表サーチの検索結果としての
ヒット文書を表わすことになる。

【０１２８】これにより、“＾ｕｔ”，“Ｍｌｉ”，
“ｕｔｍ”，“ｌｉｅ”，“ｔｍｄ”，“ｉｅｉ”，
“ｍｄａ”および“ｅｉ＾”のすべてを含む文書が検索
結果として抽出されることになる。図１９の例では、文
書１がヒット文書ということになる。

【０１２９】すなわち、テキスト中に“jangle"という
単語を含む文書が登録された時には、単語の前後に特殊
文字を付加した“∧jangle∧"からスキップ連接文字と
して“∧ag"，“jnl",“age"と“nl∧"が抽出され連接
文字成分表に登録されることになる。また、検索ターム
に“angle"が指定された時には、単語の前後に特殊文字
を付加した“∧angle∧"からスキップ連接文字として
“∧nl",“age",“nl∧"が抽出されることになるが、
“∧jangle∧"を含む文書中には“∧nl"に対応するスキ
ップ連接文字が含まれないため検索の対象から外され
る。すなわち、“jangle"を含む文書がノイズとして検
索されることがなくなる。

【０１３０】このように、本実施例における連接文字成
分表の作成登録処理では、文書の登録時に、テキストか
ら単語を切り出し、切り出された単語の前後に特殊文字
を付加してから、その中の文字列から１文字おきに３文
字の文字列を取り出し、この連接文字の存在情報を予め
連接文字成分表に登録するとともに、連接文字成分表の
検索時に、検索タームの前後に特殊文字を付加してから
検索を行うことにより、特殊文字で単語の前後を判別で
きる。そのため、検索タームを部分文字列としてその文
字列内部に含む無関係な単語が中間一致によってヒット
することを避けることができ、ノイズを減らすことがで
きる。その結果、検索時の連接文字成分表サーチにおけ
る絞り込み率を向上させることができ、階層プリサーチ
における凝縮テキストの探索量が削減できることになる
ため、等価的に全体の検索速度を向上させることが可能
となる。したがって、より大量のフルテキストサーチを
実時間で行うことが可能となる。

【０１３１】本実施例では、連接文字成分表を１文字お
きに３文字の文字列、すなわち、ｎ＝３で作成する場合
について説明したが、文字列長が２文字および４文字以
上の場合についても同様な処理が可能であることは、上
記の説明から明らかであろう。

【０１３２】また、本実施例では、予め定められたｍ文
字おきの連接文字(スキップ連接文字)を対象としてテキ
ストから単語を切り出し、切り出された単語の前後に特
殊文字を付加してから連接文字成分表を作成する方法に
ついて説明した。しかし、従来の互いに隣り合う連接文
字(逐次連接文字)に対しても同様に、テキストから単語
を切り出し、切り出された単語の前後に特殊文字を付加
してから連接文字成分表を作成することにより、検索タ
ームに指定した単語を部分文字列として含む別の単語が
現われる文書をノイズとして検索の対象から外すことが
可能になることも明らかであろう。

【０１３３】次に、本発明の第四の実施例について説明
する。

【０１３４】本発明第一の実施例では、英文に対しｍ文
字おきにｎ文字の文字列を抽出し、これを連接文字成分
表に登録する方法について説明した。しかし、この方法
では文字数の少ない検索タームが指定されたときに抽出
できる連接文字成分の数が少ないため検索ノイズが多く
発生するという問題がある。すなわち、テキスト中に
“argue"という単語を含む文書が登録された時には、ス
キップ連接文字として“age"が抽出され連接文字成分表
に登録されることになる。それに対し、検索タームに
“angle"が指定された時にはスキップ連接文字として
“age"が抽出されることになり、“argue"を含む文書が
ノイズとして検索されることになる。さらに、従来例の
ように互いに隣り合う連接文字(逐次連接文字)から連接
文字成分表を作成する方法では、“angry"と“single"
を同時に含む文書の現われる文書等がノイズとしてヒッ
トしてしまう。

【０１３５】この問題に対し本発明の第四の実施例で
は、第一の実施例における文書検索方法において連接文
字成分の抽出時に、従来例の互いに連続するｉ(ｉは２
以上の整数)文字の連接文字を逐次連接文字として抽出
するとともに、ｍ文字おきにｎ文字の文字列をスキップ
連接文字として抽出し、逐次連接文字成分とスキップ連
接文字成分の両方の連接文字成分表を用いて検索対象と
する文書を絞り込むことによってノイズを削減する。

【０１３６】本実施例は図１に示す第一の実施例と基本
的に同様の構成をとるが、その中の連接文字成分表作成
登録プログラム２０５と連接文字成分表サーチプログラ
ム２１０の部分が、それぞれ図２０と図２１に示す構成
となる。

【０１３７】すなわち、連接文字成分表作成登録プログ
ラム２０５は逐次連接文字抽出プログラム４００、スキ
ップ連接文字抽出プログラム２０６、連接文字成分表登
録プログラム２０７およびハッシュテーブル作成プログ
ラム２０８で構成され、連接文字成分表サーチプログラ
ム２１１は逐次連接文字抽出プログラム４０１、スキッ
プ連接文字抽出プログラム２１２およびビットアンドプ
ログラム２１３で構成される。

【０１３８】連接文字成分表作成登録プログラム２０５
は、図２２に示すように、まずステップ１３００で逐次
連接文字抽出プログラム４００を起動し、磁気ディスク
１１０に格納されたテキスト１０３からテキストデータ
をワークエリア２１７に読み込む。そして、連続する３
文字の文字列を全て抽出する。

【０１３９】次に、ステップ１３０１でスキップ連接文
字抽出プログラム２０６を起動し、ワークエリア２１７
に取り込まれたテキストデータから１文字おきに３文字
の文字列を全て抽出する。

【０１４０】最後に、ステップ１３０２で連接文字成分
表登録プログラム２０７を起動し、逐次連接文字抽出プ
ログラム４００およびスキップ連接文字抽出プログラム
２０６によって抽出された連接文字を、ワークエリア２
１７内の連接文字成分表１０５にハッシュテーブル２１
６に従って登録し、これを磁気ディスク１１０へ格納す
る。

【０１４１】検索時には、連接文字成分表サーチプログ
ラム２１１が、図２３に示すように、ステップ１３１０
で逐次連接文字抽出プログラム４０１を起動し、検索タ
ームから連続する３文字の文字列すべてを抽出する。

【０１４２】次に、ステップ１３１１でスキップ連接文
字抽出プログラム２１２を起動し、検索タームから１文
字おきに３文字の文字列すべてを抽出する。

【０１４３】その後、ステップ１３１２でビットアンド
プログラム２１３を起動し、逐次連接文字抽出プログラ
ム４０１およびスキップ連接文字抽出プログラム２１２
によって抽出されたすべての文字列に対応する連接文字
成分表１０５のエントリに格納されているビットリスト
を、ハッシュテーブル２１７を介してワークエリア２１
６に読み込み、読み込まれたすべてのビットリスト間で
各ビット毎に論理積演算を行う。

【０１４４】この論理積演算の結果‘１’となったビッ
トに対応する文書番号を連接文字成分表サーチの結果と
して出力する。

【０１４５】以下、上述した連接文字成分表作成登録プ
ログラム２０５の処理内容を詳細に説明する。

【０１４６】連接文字成分表作成登録プログラム２０５
では、まずテキストデータから３文字の連続する文字列
および１文字おきに３文字の連接文字が抽出される。

【０１４７】この文字列の抽出については、例えば、
“Ｍｕｌｔｉｍｅｄｉａｉｎｆｏｒｍａｔｉｏｎｓ
ｙｓｔｅｍｓｍｕｓｔ・・・”というテキストが登録さ
れた場合を例に説明する。

【０１４８】まず、逐次連接文字抽出ステップ４００に
よって図２４に示す文書１から、“Ｍｕｌ”,“ｕｌ
ｔ”，“ｌｔｉ”，“ｔｉｍ”，“ｉｍｅ”，“ｍｅ
ｄ”，“ｅｄｉ”，“ｄｉａ”，“ｉａ_”，“ａ_
ｉ”，・・・が抽出される。さらに、スキップ連接文字
抽出プログラム２０６によって、“Ｍｌｉ”，“ｕｔ
ｍ”，“ｌｉｅ”，“ｔｍｄ”，“ｉｅｉ”，“ｍｄ
ａ”，“ｅｉ_”，“ｄａｉ”，“ｉ_ｎ”，“ａｉ
ｆ”，・・・が抽出される。

【０１４９】最後に、連接文字成分表登録プログラム２
０７が起動される。ここでは、連接文字用ハッシュテー
ブル２１６−ａおよびスキップ連接用ハッシュテーブル
２１６−ｂを介して、それぞれ逐次連接文字抽出プログ
ラム４００およびスキップ連接文字抽出プログラム２０
６によって抽出された連接文字成分に対応するエントリ
に‘１’を設定し、連接文字成分の存在を記す。

【０１５０】次に、検索時の処理について詳細に説明す
る。

【０１５１】例えば、図２５に示すように“Ｍｕｌｔｉ
ｍｅｄｉａ”という検索タームから、逐次連接文字抽出
ステップ４０１によって、“Ｍｕｌ”，“ｕｌｔ”，
“ｌｔｉ”，“ｔｉｍ”，“ｉｍｅ”，“ｍｅｄ”，
“ｅｄｉ”および“ｄｉａ”が逐次連接文字成分として
抽出される。さらにスキップ連接文字抽出ステップ２１
２によって、“Ｍｌｉ”，“ｕｔｍ”，“ｌｉｅ”，
“ｔｍｄ”，“ｉｅｉ”および“ｍｄａ”がスキップ連
接文字成分として抽出される。次に、ビットアンドプロ
グラム２１３により、連接文字成分表１０５のビットリ
ストが逐次連接文字成分については逐次連接用ハッシュ
テーブル２１５−ａを介して、スキップ連接文字成分に
ついてはスキップ連接用ハッシュテーブル２１６−ｂを
介して読み出される。そして、これらすべてのビットリ
ストのビットがすべて‘１’である文書を連接文字成分
表サーチの検索結果として得る。

【０１５２】すなわち、読み出したすべてのビットリス
トの間でビット毎に論理積演算を施し、論理積演算結果
９００を得る。このビットアンド演算結果のビットリス
ト中で、‘１’となっているビット位置に対応する文書
番号が連接文字成分表サーチの検索結果としてのヒット
文書を表わすことになる。これにより、図２５の例で
は、文書１がヒット文書ということになる。

【０１５３】このように、本実施例における連接文字成
分表の作成登録処理では、文書の登録時に、テキストか
ら連続する３文字の文字列(逐次連接文字)および１文字
おきに３文字の文字列(スキップ連接文字)を取り出し、
この連接文字の存在情報を予め連接文字成分表に登録す
る。検索時には、逐次連接文字およびスキップ連接文字
の両方の連接文字成分を全て含む文書を検索することに
より、連接文字成分表サーチのノイズを削減することが
できる。例えば、検索タームとして“angle"が指定され
た時には逐次連接文字として“ang"，“ngl"および“gl
e"，スキップ連接文字として“age"を含む文書をサーチ
する。これに対し、テキスト中に“argue"という単語を
含む文書が登録された時には、スキップ連接文字として
は“age"が抽出されるが、逐次連接文字として“ang"，
“ngl"および“gle"が抽出されないため、ノイズとして
削除される。また、“angry"と“single"を同時に含む
文書が登録された場合には、逐次連接文字として“an
g"，“ngl"および“gle"が連接文字成分表に登録される
ことになるが、スキップ連接文字として“age"が抽出さ
れないため、やはりノイズとして削除することができ
る。

【０１５４】その結果、連接文字成分表サーチにおける
絞り込み率を向上させることができ、階層プリサーチに
おける凝縮テキストの探索量が削減できることになるた
め、等価的に全体の検索速度が向上することになる。し
たがって、より大量のフルテキストサーチが実時間で可
能となる。

【０１５５】本実施例では、逐次連接文字の連接文字成
分表を連続する３文字の文字列で作成する場合について
説明したが、文字列長が２文字および４文字以上の場合
についても同様な処理が可能であることは、上記の説明
から明らかであろう。また、スキップ連接文字の連接文
字成分表を１文字おきに３文字の文字列で作成する場合
について説明したが、何文字おきに文字列を抽出して
も、また文字列長が２文字および４文字以上の場合につ
いても同様な処理が可能であることは明らかであろう。

【０１５６】また、本実施例では単語を意識することな
く“_"(スペース)や“."(ピリオド)、“,"(コンマ)など
を含んだ全文字列を対象として文字成分表を作成した
が、第二の実施例に示したようにテキストを単語に分割
してから文字成分表を作成する方式、および第三の実施
例に示したようにテキストを単語に分割した後、単語の
前後に特殊文字を付加してから文字成分表を作成する方
法をとっても同様な効果が得られることは明らかであろ
う。

【０１５７】次に、本発明の第五の実施例として第四の
実施例における文書検索方法を日本語テキストに適用し
た場合について説明する。

【０１５８】日本語は１文字１文字がそれぞれ意味を持
つ表意文字であるため、表音文字である英語などに比
べ、従来例で示されている互いに隣り合う文字列(逐次
連接文字)による文字成分表で、かなり検索ノイズを削
減することができる。しかし、単語の組合せで構成され
る文字列が検索タームに指定された場合には、日本語に
おいてもノイズが多く発生する。例えば、“動画像"と
いう文字列が検索タームに指定された時には逐次連接文
字成分表サーチでは“動画"と“画像"をともに含む文書
が検索されてしまう。その結果、“動画像"を含まない
にもかかわらず“動画"と“画像"が別々の単語として同
時に現われる文書等がノイズとしてヒットしてしまう。

【０１５９】この問題に対し、本発明の第五の実施例で
は日本語文書に対しｉ文字(ｉは２以上の整数)の連続し
た文字列(逐次連接文字)に対し連接文字成分表を作成す
るともに、ｍ文字(ｍは１以上の整数)おきにｎ文字(ｎ
は２以上の整数)の文字列(スキップ連接文字)に対し連
接文字成分表を作成することにより、単語の組合せで構
成される文字列が検索タームに指定された場合にも検索
ノイズの少ない連接文字成分表サーチを実現する。

【０１６０】本実施例における文書検索方法の構成は第
四の実施例と同じである。また、本実施例では日本文に
おけるｉ文字の連続した文字列においてｉ＝２、ｍ文字
おきにｎ文字の文字列においてｍ＝１およびｎ＝２とし
た場合について以下に例を挙げて説明する。

【０１６１】まず、連接文字成分表作成登録プログラム
２０５によって、まずテキスト１０３から２文字の連続
した文字列および１文字おきに２文字の連接文字が抽出
される。

【０１６２】この文字列の抽出については、例えば、
“自動画質調整機能を備えた画像処理装置・・・”とい
うテキストが入力された場合を例に説明する。

【０１６３】逐次連接文字抽出ステップ４００によって
図２６に示す文書１から、“自動”、“動画”、“画
質”、“質調”、“調整”、“整機”、“機能”、“能
を”、・・・、“た画”、“画像”、“像処”、“処
理”、・・・が抽出される。さらに、スキップ連接文字
抽出プログラム２０６によって、“自画”、“動質”、
“画調”、“質整”、“調機”、“整能”、“機を”、
“能備”、・・・、“た像”、“画処”、“像理”、
“処装”、・・・が抽出される。

【０１６４】最後に、連接文字成分表登録プログラム２
０７が起動される。ここでは、連接文字用ハッシュテー
ブル２１６−ａおよびスキップ連接用ハッシュテーブル
２１６−ｂを介して、それぞれ逐次連接文字抽出プログ
ラム４００およびスキップ連接文字抽出プログラム２０
６によって抽出された連接文字成分に対応するエントリ
に‘１’を設定し、連接文字成分の存在を記す。

【０１６５】次に、検索時の処理について詳細に説明す
る。

【０１６６】例えば、図２７に示すように“動画像”と
いう検索タームから、逐次連接文字抽出ステップ４０１
によって、“動画”および“画像”が逐次連接文字成分
として抽出される。さらにスキップ連接文字抽出ステッ
プ２１２によって、“動像”がスキップ連接文字成分と
して抽出される。次に、ビットアンドプログラム２１３
により、連接文字成分表１０５のビットリストが逐次連
接文字成分については逐次連接用ハッシュテーブル２１
５−ａを介して、スキップ連接文字成分についてはスキ
ップ連接用ハッシュテーブル２１６−ｂを介して読み出
される。そして、これらすべてのビットリストのビット
がすべて‘１’である文書を連接文字成分表サーチの検
索結果として得る。

【０１６７】すなわち、読み出したすべてのビットリス
トの間でビット毎に論理積演算を施し、論理積演算結果
９００を得る。このビットアンド演算結果のビットリス
ト中で、‘１’となっているビット位置に対応する文書
番号が連接文字成分表サーチの検索結果としてのヒット
文書を表わすことになる。これにより、図２７の例で
は、文書Ｎがヒット文書ということになる。

【０１６８】このように、本実施例における連接文字成
分表の作成登録処理では、文書の登録時に、日本語テキ
ストデータから連続する２文字の文字列(逐次連接文字)
および１文字おきに２文字の文字列(スキップ連接文字)
を取り出し、この連接文字の存在情報を予め連接文字成
分表に登録する。検索時には、逐次連接文字およびスキ
ップ連接文字の両方の連接文字成分を全て含む文書を検
索することにより、単語の組合せで構成される文字列が
検索タームが指定された場合にも、連接文字成分表サー
チの検索ノイズを削減することができる。例えば、検索
タームとして“動画像"が指定された時には逐次連接文
字として“動画"および“画像"、スキップ連接文字とし
て“動像"を含む文書をサーチする。これに対し、テキ
スト中に“自動画質調整機能を備えた画像処理装置・・
・”という文字列を含む文書が登録された時には、逐次
連接文字として“動画"および“画像"がが連接文字成分
表に登録されることになるが、スキップ連接文字として
“動像"が抽出されないため、ノイズとして削除するこ
とができる。

【０１６９】その結果、連接文字成分表サーチにおける
絞り込み率を向上させることができ、階層プリサーチに
おける凝縮テキストの探索量が削減できることになるた
め、等価的に全体の検索速度が向上することになる。し
たがって、より大量のフルテキストサーチが実時間で可
能となる。

【０１７０】なお、本実施例では文字種を意識すること
なく漢字、平仮名、カタカナ、アルファベット、数字お
よび記号などの混在した全ての文字列を対象として文字
成分表を作成している。このため、“半導体レーザ"な
どの文字種の混在した検索タームに指定された場合で
も、文字種間にまたがった連接文字成分を利用した絞り
込みが行える。

【０１７１】また、本実施例では逐次連接文字の連接文
字成分表を連続する２文字の文字列で作成する場合につ
いて説明したが、文字列長が３文字以上の場合について
も同様な処理が可能であることは、上記の説明から明ら
かであろう。また、スキップ連接文字の連接文字成分表
を１文字おきに２文字の文字列で作成する場合について
説明したが、何文字おきに文字列を抽出しても、また文
字列長が３文字以上の場合についても同様な処理が可能
であることは明らかであろう。

【０１７２】本実施例では、逐次連接文字の連接文字成
分表を連続する２文字の文字列で作成する場合について
説明したが、文字列長が３文字以上の場合についても同
様な処理が可能であることは、上記の説明から明らかで
あろう。また、スキップ連接文字の連接文字成分表を１
文字おきに２文字の文字列で作成する場合について説明
したが、何文字おきに文字列を抽出しても、また文字列
長が３文字以上の場合についても同様な処理が可能であ
ることは明らかであろう。

【０１７３】また、本実施例では単語を意識することな
く“_"(スペース)や“."(ピリオド)、“,"(コンマ)など
を含んだ全文字列を対象として文字成分表を作成した
が、第二の実施例に示したようにテキストを単語に分割
してから文字成分表を作成する方法、および第三の実施
例に示したようにテキストを単語に分割した後、単語の
前後に特殊文字を付加してから文字成分表を作成する方
法についても同様の処理が可能であることは明らかであ
ろう。

【０１７４】次に、本発明の第六の実施例について説明
する。

【０１７５】本発明の第五の実施例では、日本語文書に
対し文字種を意識することなく漢字、平仮名、カタカ
ナ、英字、数字および記号などの混在した全文字列を対
象として文字成分表を作成した。しかし、この方法では
文字種間にまたがった連接文字を文字成分表に登録する
ことになるため以下に示す種類のノイズが発生する。

【０１７６】まず、文字種間にまたがった逐次連接文字
成分および文字スキップ連接文字成分が他の連接文字と
同じエントリにハッシングされることによるノイズが発
生する。すなわち、“動画像"が検索タームに指定され
たときには逐次連接文字として“動画"と“画像"が、ス
キップ連接文字として“動像"が抽出される。これに対
し、テキストデータ中に“自動画質調整機能を備えた画
像処理装置"という文字列を含む文書が登録され、スキ
ップ連接文字“能備"に対するエントリがスキップ連接
文字“動像"と同じエントリにハッシングされた場合に
は、平仮名の“を"をまたがったスキップ連接文字であ
る“能備"を含む本文書が抽出されることになり、“自
＜動＞＜画＞質調整機＜能＞を＜備＞えた＜画＞＜像＞
処理装置”を含む文書がノイズとしてヒットしてしまう
ことになる。

【０１７７】さらに、検索タームから抽出したスキップ
連接文字成分が異なる文字種間にまたがって現われる文
書を抽出することによりノイズとして検索されてしま
う。すなわち、テキストデータ中に“動画”と“画像"
を含み、かつ“・・・感＜動＞の＜像＞を写し出す・・・"と
いう文字列を含む文書が登録された場合には、逐次連接
文字として“動画"と“画像"、またスキップ連接文字と
して平仮名である“の"をまたがった“動像"が連接文字
成分表に登録される。これに対し、検索タームに“動画
像"が指定されたときには検索タームから逐次連接文字
として“動画"と“画像"が、そしてスキップ連接文字と
して“動像"が抽出されることになり、前述した文書が
ノイズとしてヒットしてしまうことになる。

【０１７８】これらの問題に対し、本発明第六の実施例
では連接文字成分の抽出時にテキストデータを文字種毎
に分割し、分割された文字列から逐次連接文字成分およ
びスキップ連接文字成分を抽出して連接文字成分表を作
成することにより、異なる文字種間にまたがった連接文
字成分を抽出しないようにして、前記のノイズを削減す
る方法を取る。

【０１７９】本実施例は第四および第五の実施例と基本
的に同様の構成をとるが、図２０に示した連接文字成分
表作成登録プログラム２０５が図２８に示した構成に、
また図２１に示した連接文字成分表サーチプログラム２
１１が図２９に示す構成となる。

【０１８０】すなわち、本実施例における連接文字成分
表作成登録プログラム２０５は、文字種分割プログラム
５００、逐次連接文字抽出プログラム４００、スキップ
連接文字抽出プログラム２０６、連接文字成分表登録プ
ログラム２０７およびハッシュテーブル作成プログラム
２０８で構成され、連接文字成分表サーチプログラム２
１１は文字種分割プログラム５０１、逐次連接文字抽出
プログラム４０１、スキップ連接文字抽出プログラム２
１２およびビットアンドプログラム２１３で構成され
る。

【０１８１】本実施例における連接文字成分表作成登録
プログラム２０５は、図３０に示すように、まずステッ
プ１４００で文字種分割プログラム５００を起動し、磁
気ディスク１１０に格納されたテキスト１０３からテキ
ストデータをワークエリア２１７に読み込み、テキスト
データを文字種毎に分割する。

【０１８２】次に、ステップ１４０１で逐次連接文字抽
出プログラム４００を起動し、文字種分割プログラム５
００によって文字種毎に分割されたテキストデータから
連続する２文字の文字列を抽出する。

【０１８３】その後、ステップ１４０２でスキップ連接
文字抽出プログラム２０６を起動し、文字種分割プログ
ラム５００によって文字種毎に分割されたテキストデー
タから１文字おきに２文字の文字列を抽出する。

【０１８４】最後に、ステップ１４０３で連接文字成分
表登録プログラム２０７を起動し、逐次連接文字抽出プ
ログラム４００およびスキップ連接文字抽出プログラム
２０６によって抽出された連接文字を、ワークエリア２
１７内の連接文字成分表１０５にハッシュテーブル２１
６に従って登録し、これを磁気ディスク１１０へ格納す
る。

【０１８５】検索時には、まず連接文字成分表サーチプ
ログラム２１１は図３１に示すようにステップ１４１０
で文字種分割プログラム５０１を起動し、検索条件式中
の検索タームを文字種毎に分割する。

【０１８６】次に、ステップ１４１１で逐次連接文字抽
出プログラム４０１を起動し、文字種分割プログラム５
０１によって文字種毎に分割された検索タームから連続
する２文字の文字列すべてを抽出する。

【０１８７】その後、ステップ１４１２でスキップ連接
文字抽出プログラム２１２を起動し、文字種分割プログ
ラム５０１によって文字種毎に分割された検索タームか
ら１文字おきに２文字の文字列すべてを抽出する。

【０１８８】さらに、連接文字成分表サーチプログラム
２１１はステップ１４１３でビットアンドプログラム２
１３を起動し、逐次連接文字抽出プログラム４０１およ
びスキップ連接文字抽出プログラム２１２によって抽出
されたすべての文字列に対応する連接文字成分表１０５
のエントリに格納されているビットリストを、ハッシュ
テーブル２１７を介してワークエリア２１６に読み込
み、ステップ１４１４で読み込まれたすべてのビットリ
スト間で各ビット毎に論理積演算を行う。

【０１８９】この論理積演算の結果、‘１’となったビ
ットに対応する文書番号を連接文字成分表サーチの結果
として出力する。

【０１９０】以下、上述した連接文字成分表作成登録プ
ログラム２０５の処理内容を詳細に説明する。

【０１９１】連接文字成分表作成登録プログラム２０５
では、まずテキストデータを文字種毎に分割し、分割さ
れたテキストデータから連続する２文字の文字列および
１文字おきに２文字の文字列を抽出する。

【０１９２】この連接文字の抽出処理について、例え
ば、“自動画質調整機能を備えた画像処理装置”という
テキストが登録された場合を例に説明する。

【０１９３】文字種分割プログラム５００によって、文
書１は図３２に示すように、“自動画質調整機能”、
“を”、“備”、“えた”、“画像処理装置”・・・に
分割される。

【０１９４】次に、逐次連接文字抽出プログラム４００
によって、文字種毎に分割されたテキストデータから逐
次連接文字成分として“自動”、“動画”、“画質”、
“質調”、“調整”、“整機”、“機能”、“えた”、
“画像”、“像処”、“処理”、“理装”、“装置”、
・・・が抽出される。

【０１９５】さらに、スキップ連接文字抽出プログラム
２０６によって、文字種毎に分割されたテキストデータ
からスキップ連接文字成分として“自画”、“動質”、
“画調”、“質整”、“調機”、“整能”、“画処”、
“像理”、“処装”、“理置”、・・・が抽出される。

【０１９６】最後に、連接文字成分表登録プログラム２
０７が起動される。ここでは、連接文字用ハッシュテー
ブル２１６−ａおよびスキップ連接用ハッシュテーブル
２１６−ｂを介して、それぞれ逐次連接文字抽出プログ
ラム４００およびスキップ連接文字抽出プログラム２０
６によって抽出された連接文字成分に対応するエントリ
に‘１’を設定し、連接文字成分の存在を記す。

【０１９７】次に、検索時の処理について詳細に説明す
る。

【０１９８】まず、文字種分割プログラム５０１によっ
て検索タームを文字種毎に分割する。図３３に示す例で
は、検索タームは“動画像”であり、全て漢字で構成さ
れているため文字種分割により“動画像”がそのまま切
り出される次に、文字種分割された検索タームから逐次
連接文字抽出プログラム２０６によって、“動画”およ
び“画像”が逐次連接文字成分として抽出される。さら
にスキップ連接文字抽出２１２によって、“動像”がス
キップ連接文字成分として抽出される。次に、ビットア
ンドプログラム２１３により、連接文字成分表１０５の
ビットリストが逐次連接文字成分については逐次連接用
ハッシュテーブル２１５−ａを介して、スキップ連接文
字成分についてはスキップ連接用ハッシュテーブル２１
６−ｂを介して読み出される。そして、これらすべての
ビットリストのビットがすべて‘１’である文書を連接
文字成分表サーチの検索結果として得る。これにより、
図３３の例では、文書Ｎがヒット文書として得られる。

【０１９９】このように、本実施例における連接文字成
分表の作成登録処理では、文書の登録時に、日本語テキ
ストデータを文字種毎に分割する。そして、文字種毎に
分割されたテキストデータから連続する２文字の文字列
(逐次連接文字)および１文字おきに２文字の文字列(ス
キップ連接文字)を取り出し、この連接文字の存在情報
を予め連接文字成分表に登録する。検索時にも、文字種
毎に分割された検索タームに対し逐次連接文字成分およ
びスキップ連接文字成分を抽出することによって、文字
種間にまたがった連接文字およびスキップ連接文字が文
字成分表に登録されて生じるノイズを削減することがで
きる。

【０２００】例えば、テキストデータ中に“動画"と
“画像"を含み、かつ“・・・感動の像を写し出す・・・"とい
う文字列を含む文書が登録された場合には、逐次連接文
字として“動画"と“画像"が抽出されるが、文字種毎に
文字列を分割してから連接文字成分を抽出することによ
り、文字種間にまたがって現われるスキップ連接文字
“動像"を排除することができる。このため、検索ター
ムとして“動画像"が指定されたときには逐次連接文字
である“動画"と“画像"は抽出されるが、スキップ連接
文字である“動像"は抽出されない。したがって、前記
の文書をノイズとして削除することができる。

【０２０１】その結果、連接文字成分表サーチにおける
絞り込み率を向上させることができ、階層プリサーチに
おける凝縮テキストの探索量が削減できることになるた
め、等価的に全体の検索速度が向上することになる。し
たがって、より大量のフルテキストサーチが実時間で可
能となる。

【０２０２】なお、本実施例では漢字、平仮名、カタカ
ナ、アルファベット、数字および記号などを単位にテキ
ストデータおよび検索タームを文字種分割する方法につ
いて説明した。しかし、ある特定の文字種間では文字種
分割を行わず、連続した文字列として逐次連接文字成分
およびスキップ連接文字成分を抽出することにより、文
字種の混在した文字列が検索タームに指定された場合に
も、文字種間にまたがった連接文字成分を利用して高精
度に絞り込みを行うことが可能である。例えば、漢字と
カタカナの間で文字種分割を行わないことにより、“半
導体レーザ"や“磁気ディスク"などの文字列についても
高精度に絞り込みを行うことができる。さらに、漢字と
平仮名の間で文字種分割を行わないことにより、“日の
出"や“読み込み"などの文字列についても高精度に絞り
込みを行うことができる。

【０２０３】また、本実施例では単純にテキストデータ
および検索タームを単純に文字種毎に分割する方法につ
いて説明したが、辞書や日本語処理を用いた単語切り出
し方法によってテキストデータおよび検索タームを分割
した後、逐次連接文字およびスキップ連接文字成分を抽
出する場合についても、同様の効果が得られることは上
記の説明から明らかであろう。

【０２０４】本実施例では逐次連接文字とスキップ連接
文字の両方の連接文字成分表を用いることにより検索対
象となる文書を絞り込む方法について説明した。しか
し、従来の互いに隣り合う連接文字(逐次連接文字)だけ
を用いる方法についても同様に、テキストデータおよび
検索タームを文字種単位に分割してから逐次連接文字成
分表を作成することにより、文字種間にまたがった連接
文字が他の連接文字と同じエントリにハッシングされる
ことによって生じるノイズを削減できることは明らかで
ある。

【０２０５】次に、本発明の第七の実施例について説明
する。

【０２０６】本発明の第六の実施例では、日本語文書に
対しテキストデータおよび検索タームを文字種毎に分割
してから逐次連接文字およびスキップ連接文字を抽出す
ることにより連接文字成分表サーチのノイズを削減する
方法について説明した。しかし、この方法では検索ター
ムに指定した文字列を部分文字列して含む別の単語が現
われる文書をノイズとして検索してしまうという問題が
ある。すなわち、検索タームとして“動画像"という文
字列が指定された場合には、逐次連接文字として“動
画"と“画像"が、スキップ連接文字として“動像"が抽
出される。これに対し、テキストデータ中に“高速な自
動画像処理装置・・・"という文字列を含む文書が登録され
た場合には、やはりテキストデータから逐次連接文字と
して“動画"と“画像"が、スキップ連接文字として“動
像"が抽出される。このため、検索タームである“動画
像"を部分文字列として含む別の単語である“自動画像
処理装置"の現われる文書がノイズとしてヒットしてし
まうことになる。

【０２０７】この問題に対し本発明の第七の実施例で
は、第六の実施例における文書検索方法において文字種
毎に分割されたテキストデータおよび検索タームの前後
に特殊文字（例えば、ここでは‘＾’とする）を付加
し、それを含めて連接文字成分を抽出する特殊文字付加
型の連接文字成分表を作成する。これにより、特殊文字
で文字種の区切りを判別できるようにし、検索タームを
部分文字列として含む別の単語が現われる文書を排除し
て、ノイズを削減する。

【０２０８】本実施例は第六の実施例と基本的に同様の
構成をとるが、図２８に示した連接文字成分表作成登録
プログラム２０５が図３４に示した構成に、また図２９
に示した連接文字成分表サーチプログラム２１１が図３
５に示す構成となる。

【０２０９】すなわち、本実施例における連接文字成分
表作成登録プログラム２０５は、文字種分割プログラム
５００、特殊文字付加プログラム３０１、逐次連接文字
抽出プログラム４００、スキップ連接文字抽出プログラ
ム２０６、連接文字成分表登録プログラム２０７および
ハッシュテーブル作成プログラム２０８で構成され、連
接文字成分表サーチプログラム２１１は文字種分割プロ
グラム５０１、特殊文字付加プログラム３０２、逐次連
接文字抽出プログラム４０１、スキップ連接文字抽出プ
ログラム２１２およびビットアンドプログラム２１３で
構成される。

【０２１０】本実施例における連接文字成分表作成登録
プログラム２０５は、図３６に示すように、まずステッ
プ１５００で文字種分割プログラム５００を起動し、磁
気ディスク１１０に格納されたテキスト１０３からテキ
ストデータをワークエリア２１７に読み込み、テキスト
データを文字種毎に分割する。

【０２１１】次に、ステップ１５０１で特殊文字付加プ
ログラム３０１を起動し、文字種分割プログラム５００
によって文字種毎に分割されたテキストデータの前後に
前後に特殊文字‘＾’を付加する。

【０２１２】さらに、ステップ１５０２で逐次連接文字
抽出プログラム４００を起動し、特殊文字付加プログラ
ム３０１によって特殊文字の付加されたテキストデータ
から連続する２文字の文字列を抽出する。

【０２１３】その後、連接文字成分表作成登録プログラ
ム２０５はステップ１５０３でスキップ連接文字抽出プ
ログラム２０６を起動し、特殊文字付加プログラム３０
１によって特殊文字の付加されたテキストデータから１
文字おきに２文字の文字列をすべて抽出する。

【０２１４】最後に、ステップ１５０４で連接文字成分
表登録プログラム２０７を起動し、逐次連接文字抽出プ
ログラム４００およびスキップ連接文字抽出プログラム
２０６によって抽出された連接文字を、ワークエリア２
１７内の連接文字成分表１０５にハッシュテーブル２１
６に従って登録し、これを磁気ディスク１１０へ格納す
る。

【０２１５】検索時には、まず連接文字成分表サーチプ
ログラム２１１は図３７に示すようにステップ１５１０
で文字種分割プログラム５０１を起動し、検索条件式中
の検索タームを文字種毎に分割する。

【０２１６】次に、ステップ１５１１で特殊文字付加プ
ログラム３０２を起動し、文字種分割プログラム５０１
によって文字種毎に分割された検索タームの前後に前後
に特殊文字‘＾’を付加する。

【０２１７】その後、ステップ１５１２で逐次連接文字
抽出プログラム４０１を起動し、特殊文字付加プログラ
ム３０２によって特殊文字の付加された検索タームから
連続する３文字の文字列すべてを抽出する。

【０２１８】また、ステップ１５１３でスキップ連接文
字抽出プログラム２１２を起動し、特殊文字付加プログ
ラム３０２によって特殊文字の付加された検索タームか
ら１文字おきに３文字の文字列すべてを抽出する。

【０２１９】さらに、ステップ１５１４でビットアンド
プログラム２１３を起動し、逐次連接文字抽出プログラ
ム４０１およびスキップ連接文字抽出プログラム２１２
によって抽出されたすべての文字列に対応する連接文字
成分表１０５のエントリに格納されているビットリスト
を、ハッシュテーブル２１７を介してワークエリア２１
６に読み込み、読み込まれたすべてのビットリスト間で
各ビット毎に論理積演算を行う。

【０２２０】この論理積演算の結果、‘１’となったビ
ットに対応する文書番号を連接文字成分表サーチの結果
として出力する。

【０２２１】以下、上述した連接文字成分表作成登録プ
ログラム２０５の処理内容を詳細に説明する。

【０２２２】連接文字成分表作成登録プログラム２０５
では、まずテキストデータを文字種毎に分割し、分割さ
れたテキストデータから連続する３文字の文字列および
１文字おきに３文字の文字列をが抽出する。

【０２２３】この連接文字の抽出処理について、例え
ば、“高速な自動画像処理装置”というテキストが登録
された場合を例に説明する。

【０２２４】文字種分割プログラム５００によって図３
８に示すように文書１は、“高速”、“な”、“自動画
像処理装置”・・・に分割される。

【０２２５】次に特殊文字付加プログラム３０１によっ
て、分割されたテキストデータの前後に特殊文字‘＾’
が付加され、“＾高速＾”、“＾な＾”、“＾自動画像
処理装置＾”、・・・となる。

【０２２６】次に、逐次連接文字抽出プログラム４００
によって、特殊文字の付加されたテキストデータから逐
次連接文字成分として、“＾高”、“高速”、“速
＾”、“＾な”、“な＾”、“＾自”、“自動”、“動
画”、“画像”、“像処”、“処理”、“理装”、“装
置”、・・・が抽出される。

【０２２７】さらに、スキップ連接文字抽出プログラム
２０６によって、特殊文字の付加されたテキストデータ
からスキップ連接文字成分として、“＾速”、“高
＾”、“＾動”、“自画”、“動像”、“画処”、“像
理”、“処装”、“理置”、“装＾”、・・・が抽出さ
れる。

【０２２８】最後に、連接文字成分表登録プログラム２
０７を起動する。ここでは、連接文字用ハッシュテーブ
ル２１６−ａおよびスキップ連接用ハッシュテーブル２
１６−ｂを介して、それぞれ逐次連接文字抽出プログラ
ム４００およびスキップ連接文字抽出プログラム２０６
によって抽出された連接文字成分に対応するエントリに
‘１’を設定し、連接文字成分の存在を記す。

【０２２９】次に、検索時の処理について詳細に説明す
る。

【０２３０】まず、文字種分割プログラム５０１によっ
て検索タームを文字種毎に分割する。図３９に示す例で
は、検索タームは“動画像”であり、全て漢字で構成さ
れているため文字種分割により“動画像”がそのまま切
り出される次に特殊文字付加プログラム３０２によっ
て、検索ターム“動画像”の前後に“＾”が付加され、
“＾動画像＾”となる。

【０２３１】次に、特殊文字の付加された検索タームか
ら逐次連接文字抽出プログラム２０６によって“＾
動”、“動画”、“画像”および“像＾”が逐次連接文
字成分として抽出される。さらにスキップ連接文字抽出
２１２によって、“＾画”、“動像”および“画＾”が
スキップ連接文字成分として抽出される。次に、ビット
アンドプログラム２１３により、連接文字成分表１０５
のビットリストが逐次連接文字成分については逐次連接
用ハッシュテーブル２１５−ａを介して、スキップ連接
文字成分についてはスキップ連接用ハッシュテーブル２
１６−ｂを介して読み出される。そして、これらすべて
のビットリストのビットがすべて‘１’である文書を連
接文字成分表サーチの検索結果として得る。これによ
り、同図の例では、文書Ｎがヒット文書として得られ
る。

【０２３２】すなわち、検索タームとして“動画像”が
指定された時には、検索タームの前後に特殊文字を付加
した“＾動画像＾”から逐次連接文字として“＾動”、
“動画”、“画像”および“像＾が、スキップ連接文字
として“＾画”、“動像”および“画＾”が抽出され
る。それに対し、“自動画像処理”を含む文書中からは
“＾動”と“像＾”に対応する逐次連接文字成分、およ
び“＾画”と“画＾”に対応するスキップ連接文字成分
が抽出されない。このため、検索タームである“動画
像”を部分文字列として含む別の単語の“自動画像処
理”が現われる文書をノイズとして検索の対象から外す
ことができる。

【０２３３】このように、本実施例における連接文字成
分表の作成登録処理では、文書の登録時に、文字種毎に
分割された日本語テキストデータの前後に特殊文字を付
加する。そして、特殊文字の付加されたテキストデータ
から連続する２文字の文字列(逐次連接文字)および１文
字おきに２文字の文字列(スキップ連接文字)を取り出
し、この連接文字の存在情報を予め連接文字成分表に登
録する。検索時にも、文字種単位に分割した検索ターム
の前後に特殊文字を付加した後、逐次連接文字およびス
キップ連接文字を抽出することにより、指定した検索タ
ームを部分文字列として含む別の単語が中間一致によっ
てヒットすることを避けることができ、ノイズを削減す
ることができる。すなわち、テキスト中に“自動画像処
理"という単語が登録された時には、逐次連接文字とし
て“＾自"、“自動"、“動画"、“画像"、“像処"、
“処理"および“理＾"が、スキップ連接文字として“＾
動"、“自画"、“動像"、“画処"、“像理"および“処
＾"が抽出される。これに対し、検索タームとして“動
画像"が指定されたときには、逐次連接文字として“＾
動"、動画"、“画像"および“像＾"が、スキップ連接文
字として、“＾画"、“動像"および“画＾"が抽出され
ることになるが、テキスト中に“自動画像処理"という
単語を含む文書からは逐次連接文字として“＾動"およ
び“像＾"がスキップ連接文字として“＾画"および“画
＾"が抽出されないため、前記文書をノイズとして削除
することができる。

【０２３４】その結果、連接文字成分表サーチにおける
絞り込み率を向上させることができる。そのため、階層
プリサーチにおける凝縮テキストの探索量が削減でき、
等価的に全体の検索速度が向上することになる。したが
って、より大量のフルテキストサーチが実時間で可能と
なる。

【０２３５】なお、本実施例では逐次連接文字とスキッ
プ連接文字の両方の連接文字成分表を用いることにより
検索対象となる文書を絞り込む方法について説明した。
しかし、従来の互いに隣り合う連接文字(逐次連接文字)
だけを用いる方法についても同様に、文字種単位に分割
したテキストデータおよび検索タームの前後に特殊文字
を付加したし、逐次連接文字およびスキップ連接文字を
抽出することにより、指定した検索タームを部分文字列
として含む別の単語が中間一致によってヒットすること
によって生じるノイズを削減できることは明らかであろ
う。

【０２３６】次に、本発明の第八の実施例について説明
する。

【０２３７】本発明第五の実施例では、連接文字成分表
の１個のエントリに複数の連接文字成分を割り付ける、
すなわちハッシングすることにより実用的な容量で連接
文字成分表を実現する方法について説明した。しかしこ
の方法では、ある連接文字を指定して該当する文字成分
表のエントリを読み出した場合、そのビット情報から全
く別の連接文字成分を含む文書が得られる可能性があ
る。そのため、大量の文書を登録する大規模な文書検索
システムで、検索語に関係しない文書のふるい落とし、
すなわち絞込みが適確に行なわれず検索低能の低下につ
ながるおそれがある。

【０２３８】この問題に対し本発明第八の実施例では、
連接文字成分表を作成する際に、出現頻度の高い連接文
字成分に対しては各連接文字の出現した文書番号に対応
するビット位置に‘１'を記したビットリストで、各連
接文字の出現した文書番号を格納する。さらに、出現頻
度の低い連接文字成分に対しては、各連接文字の出現し
た文書番号をバイナリデータのリストとして格納するこ
とにより、ハッシングによる検索ノイズの生じない連接
文字成分表を実用的な容量で実現する方法を取る。

【０２３９】本実施例は図１に示した第一の実施例と基
本的に同様の構成をとるが、その中の連接文字成分表１
０５、連接文字成分表作成登録プログラム２０５および
連接文字成分表サーチプログラム２１１の部分が、それ
ぞれ図４０、図４１および図４２に示す構成となる。

【０２４０】すなわち、本実施例における連接文字成分
表１０５は図４０に示すようにビットリスト１０５−ａ
および文書番号リスト１０５−ｂで構成される。また、
連接文字成分表作成登録プログラム２０５は、図４１に
示すように逐次連接文字抽出プログラム４００、スキッ
プ連接文字抽出プログラム２０６、連接文字成分表登録
プログラム２０７および文字出現頻度算出プログラム６
００で構成され、連接文字成分表作成登録プログラム２
０５における連接文字成分表登録プログラム２０７は、
文書出現頻度判定プログラム６０１、ビットリスト登録
プログラム６０２および文書番号リスト登録プログラム
６０３で構成される。さらに、連接文字成分表サーチプ
ログラム２１１は図４２に示すように逐次連接文字抽出
プログラム４０１、スキップ連接文字抽出プログラム２
１２、連接文字成分表取得プログラム６０４およびビッ
トアンドプログラム２１３で構成される。

【０２４１】以下、本実施例における連接文字成分表の
登録処理、およびサーチ処理の概要について説明する。

【０２４２】本実施例では、まず登録処理の前処理とし
て連接文字成分表作成登録プログラム２０５は文字出現
頻度算出プログラム６００を起動し、テキスト１０３か
らテキストデータをワークエリア２１７に読み出す。そ
して、テキストデータ中に現われた連続する２文字の文
字列(逐次連接文字)および１文字おきに２文字の文字列
(スキップ連接文字)に対し、各文字列の出現した文書件
数(出現文書数)を算出する。

【０２４３】次に、連接文字成分表作成登録プログラム
２０５は図４３に示すようにステップ１６００で逐次連
接文字抽出プログラム４００を起動する。そして、各文
書毎にテキストデータ中に現われる連続する２文字の文
字列を逐次連接文字として抽出する。

【０２４４】また、連接文字成分表作成プログラム２０
５はステップ１６０１でスキップ連接文字抽出プログラ
ム２０６を起動し、各文書毎に１文字おきに２文字の文
字列をスキップ連接文字として抽出する。

【０２４５】さらに、連接文字成分表作成登録プログラ
ム２０５はステップ１６０２で連接文字成分表登録プロ
グラム２０７を起動し、逐次連接文字抽出プログラム４
００およびスキップ連接文字抽出プログラム２０６によ
って抽出された各連接文字の出現情報を連接文字成分表
に登録する。

【０２４６】次に、連接文字成分表登録プログラム２０
７の処理の概要を図４４に示す。

【０２４７】連接文字成分表登録プログラム２０７は、
始めにステップ１６１０で文字出現頻度判定プログラム
６０１を起動し、逐次連接文字抽出プログラム４００お
よびスキップ連接文字抽出プログラム２０６によって抽
出された各連接文字の出現頻度が所定のしきい値より大
きいか否かを判定する。そして、大きい場合にはステッ
プ１６１１でビットリスト登録プログラム６０２を起動
し、各連接文字の出現した文書番号に該当するビット位
置に‘１’を記すことによって出現方法を記録する。ま
た、小さい場合にはステップ１６１２で文書番号リスト
登録プログラム６０３を起動し、各連接文字の出現した
文書番号をバイナリデータとして文書番号リストに登録
することにより出現情報を記録する。

【０２４８】以上が登録処理の概要である。

【０２４９】サーチ時には、連接文字成分表サーチプロ
グラム２１１は図４５に示すようにステップ１６２０で
逐次連接文字抽出プログラム４０１を起動し、検索ター
ムから連続する２文字の文字列を逐次連接文字として抽
出する。

【０２５０】さらに、連接文字成分表サーチプログラム
２１１はステップ１６２１でスキップ連接文字抽出プロ
グラム２１２を起動し、１文字おきに２文字の文字列を
スキップ連接文字として抽出する。

【０２５１】次に、連接文字成分表サーチプログラム２
１１はステップ１６２２で連接文字成分表取得プログラ
ム６０３を起動する。連接文字成分表取得プログラム６
０３では、図４６に示すようにステップ１６３０で各連
接文字に対応する文字成分表がビットリストで格納され
ているか、文書番号リストで格納されているかを判定す
る。そして、文書番号リストで格納されている場合には
ステップ１６３１を起動し、該当するビット列をそのま
ま連接文字成分表として取得する。また、文書番号リス
トで格納されている場合にはステップ１６３２を起動
し、文書番号リスト中の各文書番号に該当するビット位
置に‘１’を設定することによりビットリストに変換
し、該当する連接文字の文字成分表を取得する。

【０２５２】最後に、連接文字成分表サーチプログラム
２１１はステップ１６２３でビットアンドプログラム２
１３を起動し、連接文字成分表取得プログラム６０４に
よって取得されたビットリストの間で各ビット毎に論理
積演算を行う。この論理積演算の結果‘１’となったビ
ットに対応する文書番号を連接文字成分表サーチの結果
として検索制御プログラム２０９に出力する。

【０２５３】以上が、本発明による連接文字成分表の登
録およびサーチ処理の概略である。

【０２５４】さらに、実施例における連接文字成分表の
登録方法およびサーチ方法の詳細について、以下に例を
挙げて説明する。なお、本実施例では、全登録文書の件
数を100万件とし文書番号を32ビットのバイナリデータ
として文書番号リストに格納した場合について説明す
る。

【０２５５】まず、サーチ処理から先に説明する。

【０２５６】本実施例では、検索タームから抽出された
連接文字成分に対する連接文字成分表を取得するための
管理テーブルとして、文字テーブルとファイルポインタ
テーブルを用いる。図４７は文字テーブルとファイルポ
インタテーブルを用いた検索処理の概要を示す図であ
る。

【０２５７】前述したように、連接文字成分表サーチ時
には連接文字成分表サーチプログラム２１１は、まず始
めに逐次連接文字抽出プログラム４０１を起動し、検索
ターム中から連続する２文字の文字列を逐次連接文字と
して抽出する。例えば、“動画像"という文字列が検索
タームに指定された場合には、“動画"および“画像"を
逐次連接文字として抽出する。

【０２５８】そして、スキップ連接文字抽出プログラム
２１２を起動し、検索ターム中から１文字おきに２文字
の文字列をスキップ連接文字として抽出する。例えば、
“動画像"という文字列が検索タームに指定された場合
には、“動像"をスキップ連接文字として抽出する。

【０２５９】なお、これからの説明では簡略化のため、
主に逐次連接文字成分表の登録方法および検索について
説明する。また、スキップ連接においても同様の処理で
検索が実現できる。

【０２６０】次に、連接文字成分表取得プログラム６０
４では文字テーブルに対し検索タームから抽出された連
接文字の先頭１文字目の文字コードに対応するレコード
を参照することによりファイルポインタテーブルへのポ
インタ情報を得る。例えば、逐次連接文字“動画"につ
いては、先頭１文字目の文字コードであるに“動"の文
字コードに対応する文字テーブルのレコードを参照して
ファイルポインタテーブルへのポインタ情報560を得
る。

【０２６１】次に、文字テーブルを参照した結果得られ
たポインタ情報を元にファイルポインタテーブルを参照
し、該当連接文字に対する連接文字成分表が格納されて
いるファイルの識別子(以後ファイルIDと呼ぶ)およびフ
ァイル内での位置情報(ファイル先頭からの格納位置
で、以後オフセットとも呼ぶ)を得る。すなわち、図４
９の例では文字テーブルを参照した結果得られた560を
基に、ファイルポインタテーブルの先頭から560バイト
目以降の各レコードを参照して、第二文字目が“画"の
レコードを探索する。以上の処理により、ファイルIDと
して１、オフセットとして1,034を“動画"に対する連接
文字成分表を参照するための情報としてを得ることがで
きる。なお、ファイルポインタテーブルでは、各先頭文
字に対応するレコードの１番目には第二文字目が０のレ
コードを格納しておき、先頭文字一文字に対応する単一
文字成分表をアクセスするためのファイルIDとオフセッ
トを格納する。すなわち、本図の例では、ファイルポイ
ンタテーブルの580バイト目には“動"の一文字に対応す
る文字成分表のファイルIDとオフセットを格納する。こ
うすることにより、例えば二文字目に“画"を照合する
ことなく、次に第二文字目として０のレコードを検出し
た場合には、連接文字“動画"がテキストデータ中に現
われなかったものと判断することができる。

【０２６２】次に、ファイルポインタテーブルを参照し
た結果得られたファイルIDおよびオフセットから、該当
する連接文字成分に対応する連接文字成分表を取得す
る。本実施例においては、ビットリスト用のファイルID
および文書番号用のファイルIDを予め規定しておく。こ
うすることにより、ファイルIDの値によって各連接文字
に対応する連接文字成分表がビットリストで構成されて
いるか、または文書番号リストで構成されているかを判
定することができる。すなわち、図４７に示す例ではフ
ァイルIDが１に対応するファイルはビットリストで、２
に対応するファイルは文書番号リストで構成されてい
る。そして、指定された連接文字に対応するファイルID
が１の場合には、ファイル１内の該当するオフセット位
置から文書登録件数に相当する分のビットリストを読み
出す。また、ファイルIDが２の場合には、まずファイル
２内の該当するオフセット位置から該当する、連接文字
が現われた文書数(出現文書数)を読み込む。次に、出現
文書数に相当する文書番号を読み込むことにより該当す
る連接文字の現われた文書番号のリストを読み込む。そ
して、得られた文書番号リストをビットリストの形に変
換することにより該当する連接文字に対応する連接文字
成分表を得る。

【０２６３】図４７の例では、連接文字“動画"に対応
する連接文字成分表へのアクセス情報として、ファイル
IDとして１、オフセットとして875,000が得られるた
め、ファイル１内の875kバイト目から100万件分に相当
する125kバイト(＝1,000,000bit)のビット列“01110101
01...."を読み込む。このビット列は、先頭ビットから
文書番号に対応して、‘１’が連接文字“動画"を含む
文書を示すことになる。また、連接文字“画像"につい
ては、ファイルIDとして２、オフセットとして1,084が
得られため、ファイル２の先頭から1,084バイト目を参
照することによって、連接文字“画像"を含む文書数と
して34を読み込む。そして、文書番号リストから34件分
に相当する文書番号を読み込むことにより、“画像"の
現われた文書番号が783,1038,・・・であることがわかる。
この結果から、ビットリスト中の783,1038,・・・番目の文
書IDに該当する位置に‘１’を設定することによりビッ
ト列に変換する。

【０２６４】最後に、ビットアンドプログラム２１３で
は、これらすべてのビット列の論理積を取り、その結果
が‘１’である文書を連接文字成分表サーチの検索結果
として得る。

【０２６５】以上が、本実施例における連接文字成分表
サーチ処理に関する説明である。

【０２６６】このような、連接文字成分表サーチを実現
する連接文字成分表の登録処理および文字テーブル、フ
ァイルポインタテーブルの作成方法について説明する。
なお、本実施例では全登録文書の件数を100万件とし、
文書番号リストに文書番号を32ビットのバイナリデータ
として格納しているため、文字出現頻度しきい値として
31,250件(100万ビット÷32ビット/件)を用いる。

【０２６７】始めに、各連接文字成分の出現文書数の算
出方法について説明する。ここでは、図４８に示す文字
出現頻度テーブルを使用して各連接文字成分の出現文書
数を算出する。まず、文字出現頻度テーブルは初期状態
として全てのデータに０を登録しておく。次に、テキス
ト１０３から各文書毎にテキストデータをワークエリア
２１７に読み出し、テキストデータから連続する２文字
の文字列を抽出する。そして、文字出現頻度テーブルに
対し、抽出された連接文字の文字コードに該当するデー
タに１を加算することにより各連接文字成分の出現した
文書の件数(出現文書数)を算出する。“自動画質調整機
能を備えた画像処理装置・・・”というテキストデータに
対しては、連続する２文字の連接列として“自動”、
“動画”、“画質”、・・・が抽出され、文字出現頻度
テーブルの各文字コードに対応するデータに１を加算
し、全ての登録文書中に各連接文字成分の出現した文書
数を算出する。

【０２６８】次に、先ほど作成した文字出現頻度テーブ
ルの値が０でない連接文字を抽出することにより、テキ
ストデータ中に現われた連接文字を抽出する。

【０２６９】すなわち、図５０に示した例では、“動
動”に対する文字出現頻度テーブルの値は０であるた
め、テキストデータ中に現われた連接文字として抽出し
ない。

【０２７０】また、“動画”については文字出現頻度テ
ーブルの値は０でないためテキストデータ中に現われた
連接文字として抽出する。そして、出現書数がしきい値
である31,250より大きいため、ビットリストに登録文書
件数に相当する125kバイト(＝1000,000ビット)の領域を
アロケートする。さらに、ファイルポインタテーブルに
第二文字目として“画”を、ファイルIDとしてビットリ
ストを表わす“１”を、オフセットとしてビットリスト
内にアロケートした領域の先頭オフセットに相当する87
5,000を書き込む。また、第二文字目として“０”を書
き込んだ場合には、該当するファイルポインタテーブル
内のオフセット値を、文字テーブルの連接文字成分の先
頭文字に対応するデータに書き込む。

【０２７１】次に、“画像”についても文字出現頻度テ
ーブルの値は０でないためテキストデータ中に現われた
連接文字として抽出する。そして、出現書数がしきい値
である31,250より小さいため、文書番号リストに出現文
書数である“56”を書込み、出現文書数に相当する136
バイト(4バイト/件×34件)の領域をアロケートする。さ
らに、ファイルポインタテーブルに第二文字目として
“像”を、ファイルIDとして文書番号リストを表わす
“２”を、オフセットとして文書番号リスト内にアロケ
ートした領域の先頭オフセットに相当する1,084を書き
込む。

【０２７２】以上示したように、本実施例では各連接文
字に対し予めビットリストおよび文書番号リストの格納
領域をアロケートすることにより連接文字成分表を登録
するための準備をしておく。

【０２７３】次に、文書番号783のテキストデータとし
て“動画像”という文字列が現われた場合を例に、連接
文字成分表の登録処理について説明する。

【０２７４】まず、テキスト１０３からテキストデータ
を１件ずつワークエリア２１７に読み込み、テキストデ
ータ中に現われた連続する２文字の文字列を抽出するこ
とにより、逐次連接文字として“動画”と“画像”を抽
出する。次に、連接文字成分表サーチ時と同様に文字テ
ーブルおよびファイルポインタテーブルを参照すること
にことにより、各連接文字を格納しているファイルIDお
よびオフセットを得る。例えば、逐次連接文字“動画”
についてはファイルIDとして“１”を、オフセットとし
て875,000を得る。そして、ファイルIDとして“１”に
相当するビットリストの先頭875kバイト目から100万件
分のビット列、すなわち125kバイトのビット列を読み込
み、この内783番目の文書番号に対応するビット位置に
‘１’を設定することにより“動画”という文字列が文
書番号783に出現したことを記す。また、“画像”につ
いても同様に、文字テーブルおよびファイルポインタテ
ーブルを参照することによりファイルIDとして“２”
を、オフセットとして1,084を得る。そして、ファイルI
Dとして“２”に相当する文書番号リストの1,084バイト
目を参照することにより“画像”の出現文書数が34であ
るという情報を得る。そして、文書番号リストの続く34
件分に相当する文書番号を読み込み、その内から“０”
が初めて現われたエントリに対しバイナリデータとして
783を書き込むことにより“画像”という文字列が文書
番号783に現われたことを記す。

【０２７５】以上が、本実施例における連接文字成分表
の登録処理の詳細である。

【０２７６】このように、本実施例による連接文字成分
表では出現頻度の高い連接文字に対しては出現情報をビ
ットリストで、出現頻度の低い連接文字に対しては出現
情報を文書番号リストで格納する。こうすることによ
り、ハッシングによるノイズの生じない連接文字成分表
を実用的な容量で実現することができる。

【０２７７】なお、本実施例では登録処理の前処理とし
て、登録文書全文に対応するテキストデータを参照して
各連接文字成分の出現頻度を算出することにより、ビッ
トリストおよび文書番号リストの領域をアロケートする
方法を用いた。しかし、予め統計情報を用いて、出現頻
度の高いと判断される連接文字にはビットリストを、出
現頻度の低いと判断される連接文字には予想される出現
文書数に応じた容量をアロケートすることにより、出現
頻度算出プログラムの実行が不要になる。

【０２７８】さらに、本実施例では、本発明第五の実施
例における文書検索方法に対して、出現頻度の高い連接
文字に対しては出現情報をビットリストで、出現頻度の
低い連接文字に対しては出現情報を文書番号リストで格
納する方式について説明した。しかし、これまでに説明
してきた全ての実施例に対しても適用できることは明ら
かであろう。

【０２７９】最後に、本実施例では、100万件の文書に
対して一回の登録処理で連接文字成分表の登録処理を行
う方法について説明したが、例えば１万件毎のテキスト
データと対象としてビットリストおよび文書番号リスト
を作成し、これを後でマージすることにより100万件分
の連接文字成分表を作成する方法であっても構わない。
この時には連接文字成分表を作成するために必要となる
テーブルが小さい容量で済む。このため、少量のメモリ
容量しか搭載されていないコンピュータにおいても、テ
ーブルをメモリ上に格納して文書の登録が行えるため、
登録時間が短縮できるという特長がある。

【０２８０】

【発明の効果】本発明によれば、階層プリサーチにおい
てハッシングによるノイズが生じない連接文字成分表を
実用的な容量で実現することができる。さらに、英語等
の表音文字で構成される文字列、および単語の組合せで
構成される文字列が検索タームとして指定された場合で
も、連接文字成分表の絞り込み率をさらに向上させるこ
とができ、無用の凝縮テキストサーチを大幅に省くこと
ができるため、大規模な文書データベースに対しても実
用的な応答時間でフルテキストサーチを行うことが可能
となる。

【図面の簡単な説明】

【図１】本発明の第一の実施例の構成を示す図である。

【図２】従来例の説明図である。

【図３】第一の文書検索方法における作用を示す図であ
る。

【図４】本発明第一の実施例における文書の登録手順を
示すＰＡＤ図である。

【図５】本発明第一の実施例における連接文字成分表作
成登録プログラムの処理手順を示すＰＡＤ図である。

【図６】階層検索の制御手順を示すＰＡＤ図である。

【図７】本発明第一の実施例における連接文字成分の抽
出方法を示す図である。

【図８】本発明第一の実施例における連接文字成分表の
作成方法を示す図である。

【図９】本発明第一の実施例における連接文字成分表の
検索方法を示すＰＡＤ図である。

【図１０】本発明第一の実施例における連接文字成分表
の検索方法を示す図である。

【図１１】本発明第二の実施例における連接文字成分表
作成登録プログラムの構成を示す図である。

【図１２】本発明第二の実施例における連接文字成分表
作成登録プログラムの処理手順を示すＰＡＤ図である。

【図１３】本発明第二の実施例における連接文字成分表
の作成方法を示す図である。

【図１４】本発明第三の実施例における連接文字成分表
作成登録プログラムの構成を示す図である。

【図１５】本発明第三の実施例における連接文字成分表
サーチプログラムの構成を示す図である。

【図１６】本発明第三の実施例における連接文字成分表
作成登録プログラムの処理手順を示すＰＡＤ図である。

【図１７】本発明第三の実施例における連接文字成分表
サーチプログラムの処理手順を示すＰＡＤ図である。

【図１８】本発明第三の実施例における連接文字成分表
の作成方法を示す図である。

【図１９】本発明第三の実施例における連接文字成分表
のサーチ方法を示す図である。

【図２０】本発明第四の実施例における連接文字成分表
作成登録プログラムの構成を示す図である。

【図２１】本発明第四の実施例における連接文字成分表
サーチプログラムの構成を示す図である。

【図２２】本発明第四の実施例における連接文字成分表
作成登録プログラムの処理手順を示すＰＡＤ図である。

【図２３】本発明第四の実施例における連接文字成分表
サーチプログラムの処理手順を示すＰＡＤ図である。

【図２４】本発明第四の実施例における連接文字成分表
の作成方法を示す図である。

【図２５】本発明第四の実施例における連接文字成分表
のサーチ方法を示す図である。

【図２６】本発明第五の実施例における連接文字成分表
の作成方法を示す図である。

【図２７】本発明第五の実施例における連接文字成分表
のサーチ方法を示す図である。

【図２８】本発明第六の実施例における連接文字成分表
作成登録プログラムの構成を示す図である。

【図２９】本発明第六の実施例における連接文字成分表
サーチプログラムの構成を示す図である。

【図３０】本発明第六の実施例における連接文字成分表
作成登録プログラムの処理手順を示すＰＡＤ図である。

【図３１】本発明第六の実施例における連接文字成分表
サーチプログラムの処理手順を示すＰＡＤ図である。

【図３２】本発明第六の実施例における連接文字成分表
の作成方法を示す図である。

【図３３】本発明第六の実施例における連接文字成分表
のサーチ方法を示す図である。

【図３４】本発明第七の実施例における連接文字成分表
作成登録プログラムの構成を示す図である。

【図３５】本発明第七の実施例における連接文字成分表
サーチプログラムの構成を示す図である。

【図３６】本発明第七の実施例における連接文字成分表
作成登録プログラムの処理手順を示すＰＡＤ図である。

【図３７】本発明第七の実施例における連接文字成分表
サーチプログラムの処理手順を示すＰＡＤ図である。

【図３８】本発明第七の実施例における連接文字成分表
の作成方法を示す図である。

【図３９】本発明第七の実施例における連接文字成分表
のサーチ方法を示す図である。

【図４０】本発明第八の実施例における連接文字成分表
の構成を示す図である。

【図４１】本発明第八の実施例における連接文字成分表
作成登録プログラムの構成を示す図である。

【図４２】本発明第八の実施例における連接文字成分表
サーチプログラムの構成を示す図である。

【図４３】本発明第八の実施例における連接文字成分表
作成登録プログラムの処理手順を示すＰＡＤ図である。

【図４４】本発明第八の実施例における連接文字成分表
登録プログラムの処理手順を示すＰＡＤ図である。

【図４５】本発明第八の実施例における連接文字成分表
サーチプログラムの処理手順を示すＰＡＤ図である。

【図４６】本発明第八の実施例における連接文字成分表
取得プログラムの処理手順を示すＰＡＤ図である。

【図４７】本発明第八の実施例における連接文字成分表
のサーチ方法を示す図である。

【図４８】本発明第八の実施例における連接文字成分表
の作成方法を示す図である。

【符号の説明】

１００…ディスプレイ１０１…キーボード１０２
…ＣＰＵ１０３…テキスト１０４…凝縮テキスト１０５
…連接文字成分表１０６…フロッピディスクドライブ（ＦＤＤ）１０７
…フロッピディスク１０８…バス１１０…磁気ディスク２００
…主メモり

───────────────────────────────────────────────────── フロントページの続き (72)発明者水谷奈津子神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者川口久光神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者加藤寛次神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者浅川悟志神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウエア開発本部内 (56)参考文献特開平７−319920（ＪＰ，Ａ) 特開平５−174064（ＪＰ，Ａ) 特開平５−81321（ＪＰ，Ａ) 特開平４−274557（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】予め蓄積された各文書から予め定められた
形式で部分文字列を抽出し、前記各文書において前記部分文字列が存在するか否かを
示す連接文字成分表を作成し、前記各文書から所望の文書を検索するために入力された
検索タームから予め定められた形式で検索用部分文字列
を抽出し、抽出された前記検索用部分文字列に対応する前記連接文
字成分表を参照して検索タームを構成する各検索用部分
文字列と一致する部分文字列が存在する文書を求めて、
前記検索タームに関連のない文書を検索対象からふるい
落とす文書検索方法において、前記文書から予め定められたｍ文字（ｍは１以上の整
数）おきに、予め定められたｎ文字（ｎは２以上の整
数）の文字列を前記部分文字列として抽出し、前記検索タームから予め定められたｍ文字（ｍは１以上
の整数）おきに、予め定められたｎ文字（ｎは２以上の
整数）の文字列を前記検索用部分文字列として抽出し、前記連接文字成分表は、所定のしきい値より出現頻度が
高い連接文字の出現する文書番号に対応するビット位置
に１を記すことにより文字列の出現情報を登録するビッ
トリストと、所定のしきい値より出現頻度が低い連接文
字成分用に、前記所定の出現頻度より出現頻度が低い連
接文字の出現する文書番号をバイナリデータのリストと
して格納した文書番号リストを有し、予め前記文書中に現われる連接文字成分の種類および各
連接文字成分の出現する文書数を算出し、前記算出された文書数が所定のしきい値より大きい場合
には、前記ビットリストに対し該当する連接文字の出現
した文書番号に相当するビット位置に'１'を記すことに
より連接文字成分の出現情報を登録し、前記算出された文書数が所定のしきい値より小さい場合
には、該当する連接文字の出現した文書番号をバイナリ
データのリストとして前記文書番号リストに書き込むこ
とにより、各連接文字成分の出現情報を格納し、前記検索タームから抽出された連接文字に対し、抽出さ
れた連接文字に対応するビットリストまたは文書番号リ
ストを読み出し、文書番号リストの場合にはこれをビッ
トリストに変換することにより連接文字成分表を取得す
ることを特徴とする文書検索方法。
【請求項２】請求項１記載の文書検索方法において、前記文書から部分文字列を抽出する際は、前記文書から
単語を切り出し、切り出された単語から予め定められたｍ文字（ｍは１以
上の整数）おきに、予め定められたｎ文字（ｎは２以上
の整数）の文字列を前記部分文字列として抽出すること
を特徴とする文書検索方法。
【請求項３】請求項２記載の文書検索方法において、切り出された単語から予め定められたｎ文字（ｎは２以
上の整数）の一続きの文字列を前記部分文字列として抽
出し、前記検索タームから予め定められたｎ文字（ｎは２以上
の整数）の一続きの文字列を前記検索用部分文字列とし
て抽出することを特徴とする文書検索方法。
【請求項４】請求項２記載の文書検索方法において、切り出された単語の前後に所定の符号を付加し、前記所
定の符号を付加された単語から予め定められたｍ文字
（ｍは１以上の整数）おきに、予め定められたｎ文字
（ｎは２以上の整数）の文字列を抽出し、前記検索タームの前後に所定の符号を付加し、所定の符号が付加された検索タームから予め定められた
ｍ文字（ｍは１以上の整数）おきに、予め定められたｎ
文字（ｎは２以上の整数）の文字列を検索用文字列とし
て抽出することを特徴とする文書検索方法。
【請求項５】請求項１記載の文書検索方法において、前記文書からから予め定められたｉ文字（ｉは２以上の
整数）の一続きの文字列を前記部分文字列として抽出す
るとともに、前記文書から予め定められたｍ文字（ｍは
１以上の整数）おきに、予め定められたｎ文字（ｎは２
以上の整数）の文字列を前記部分文字列として抽出し、前記検索タームから予め定められたｉ文字（ｉは２以上
の整数）の一続きの文字列を前記検索用部分文字列とし
て抽出するとともに、前記検索タームから予め定められ
たｍ文字（ｍは１以上の整数）おきに、予め定められた
ｎ文字（ｎは２以上の整数）の文字列を前記検索用文字
列として抽出することを特徴とする文書検索方法。
【請求項６】予め蓄積された各文書から予め定められた
形式で部分文字列を抽出し、前記各文書において前記部
分文字列が存在するか否かを示す連接文字成分表を作成
する手段と、前記各文書から所望の文書を検索するため
に入力された検索タームから予め定められた形式で検索
用部分文字列を抽出する手段とを備え、前記抽出された
前記検索用部分文字列に対応する前記連接文字成分表を
参照して検索タームを構成する各検索用部分文字列と一
致する部分文字列が存在する文書を求める文書検索装置
において、前記連接文字成分表は、所定のしきい値より出現頻度が
高い連接文字の出現する文書番号に対応するビット位置
に１を記すことにより文字列の出現情報を登録するビッ
トリストと、所定のしきい値より出現頻度が低い連接文
字成分用に、前記所定の出現頻度より出現頻度が低い連
接文字の出現する文書番号をバイナリデータのリストと
して格納した文書番号リストとを有し、前記文書検索装置は、前記文書から予め定められたｍ文字（ｍは１以上の整
数）おきに、予め定められたｎ文字（ｎは２以上の整
数）の文字列を前記部分文字列として抽出する手段と、前記検索タームから予め定められたｍ文字（ｍは１以上
の整数）おきに、予め定められたｎ文字（ｎは２以上の
整数）の文字列を前記検索用部分文字列として抽出する
手段と、予め前記文書中に現われる連接文字成分の種類および各
連接文字成分の出現する文書数を算出する手段と、前記算出された文書数が所定のしきい値より大きい場合
には、前記ビットリストに対し該当する連接文字の出現
した文書番号に相当するビット位置に'１'を記すことに
より連接文字成分の出現情報を登録する手段と、前記算出された文書数が所定のしきい値より小さい場合
には、該当する連接文字の出現した文書番号をバイナリ
データのリストとして前記文書番号リストに書き込むこ
とにより、各連接文字成分の出現情報を登録する手段
と、前記検索タームから抽出された連接文字に対し、抽出さ
れた連接文字に対応するビットリストまたは文書番号リ
ストを読み出し、文書番号リストの場合にはこれをビッ
トリストに変換することにより連接文字成分表を取得す
る手段とを備えることを特徴とする文書検索装置。