JP3514874B2

JP3514874B2 - フリーテキスト検索システム

Info

Publication number: JP3514874B2
Application number: JP13929995A
Authority: JP
Inventors: 益樹 ▲高▼梨; 好隆樋口
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-06-06
Filing date: 1995-06-06
Publication date: 2004-03-31
Anticipated expiration: 2019-03-31
Also published as: JPH08329112A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、多階層のインデックス
を有する検索システムにおいて、高速なフリーテキスト
検索を実現する技術に関する。

【０００２】

【従来の技術】一般に、文献や文書等を検索するシステ
ムでは、インデックスを利用したシステムが利用されて
いる。インデックスを利用した検索システムでは、文書
名や文書中に含まれる単語をインデックスとして、この
単語を含む文書や文献のポインタや文書内の出現位置を
インデックス値として格納したてインデックス値を登録
したテーブルを備えるようにしている。そして、文書検
索をする際にユーザがキーワードを入力すると、キーワ
ードが複数の単語から構成されている場合には、キーワ
ードを個々の単語に分割する。例えば、「特急あさひ」
の場合には、「特急」と「あさひ」とに分割する。そし
て、個々の単語をキーワードとしてインデックスを検索
し、「特急」を含む文書のポインタとその文書中の出現
位置とを読み出す。さらに、「あさひ」についてもこの
単語を含む文書のポインタとその文書中の出現位置とを
読み出す。

【０００３】ここで、システムは、「特急」のポインタ
値と「あさひ」のポインタ値との論理積演算を行い、
「特急あさひ」のポインタ値を獲得し、文書を格納する
データベース等を検索し、ポインタ値が示す文書を読み
出す。

【０００４】しかし、フリーテキスト検索では、インデ
ックスに登録されている単語を必ずしもキーワードとす
るわけではない。つまり、「急あさ」をキーワードとし
ても文書検索が行えなければならない。このため、フリ
ーテキスト検索システムでは、多階層のインデックスを
利用するようになっている。ここで、二階層のインデッ
クスを例に挙げると、単語をインデックスとしてインデ
ックス値を登録した一次インデックスと、一次インデッ
クスに登録されている単語を構成する各文字をインデッ
クスとしてインデックス値を登録する二次インデックス
とを備える。

【０００５】一次インデックスのインデックス値として
は、例えば、単語を含む文書の登録位置を示すポインタ
値、文書中における単語の出現位置等である。二次イン
デックスのインデックス値としては、例えば、文字を含
む単語の一次インデックスにおける登録位置を示すポイ
ンタ値等である。

【０００６】ここで、「特急あさひ」の「急あさ」をキ
ーワードとして文書検索を行う場合には、システムは、
「急あさ」を個々の単語「急」・「あ」・「さ」に分割
する。そして、システムは、二次インデックスを検索
し、「急」のインデックス値、「あ」のインデックス
値、及び「さ」のインデックス値を各々読み出し、バッ
ファ上に書き込む。次に、システムは、バッファ上に書
き込まれたインデックス値をソートして（論理積演算を
行い）、全ての文字に共通のインデックス値を求める。
さらに、システムは、一次インデックスを検索し、求め
たインデックス値（一次インデックスのポインタ値）に
対応するインデックス（単語）を読み出す。そして、読
み出したインデックス（単語）のうち検索文字列を含む
インデックスを判別し、ヒット集合を生成してバッファ
上に書き込む。システムは、各単語のヒット集合を検索
して、総ての単語（「急＋あ＋さ」）を含む文書を獲得
する。

【０００７】そして、システムは、文書内において、各
単語のオフセット位置を検出し、単語を構成する各文字
の隣接文字をチェックする。システムは、隣接文字のチ
ェックにより、各単語の文字列が検索対象の文字列と同
一の順番であるか否かを判別する。さらに、システム
は、文字列同一の単語のインデックス値を集めて結果集
合を生成する。

【０００８】ところで、フリーテキスト検索システムに
おける検索時間は、文書量や検索文字列の出現頻度に依
存するが、特にインデックス値の読み出し処理、ソート
処理、及び隣接文字のチェック処理に多くの時間を費や
すため、検索時間の短縮が困難であった。

【０００９】

【発明が解決しようとする課題】そこで、本発明は、前
記問題点い鑑みてなされたものであり、検索時間の短縮
を図り、高速なフリーテキスト検索を実現することを課
題とする。

【００１０】

【課題を解決するための手段】本発明は、前記課題を解
決するために以下のような構成とした。これを図１の原
理図に沿って説明する。

【００１１】本発明のシステムは、一次インデックス１
と二次インデックス２とを備えている。一次インデック
ス１には、各文書に含まれる単語毎に、各単語を含む文
書の文書名と文書中の出現位置情報とを格納している。

【００１２】二次インデックス２には、一次インデック
ス１に格納されている単語を構成する個々の文字毎に、
各文字を含む単語の一次インデックス１中の格納位置と
前記文字を含む全単語の出現回数の総和とを登録してい
る。

【００１３】そして、本システムは、文字列分解手段
３、単語分解手段４、検索文字決定手段５、文字情報読
出手段６、第１論理演算手段７、単語情報読出手段８、
第２論理演算手段９、及び連続性チェック手段１０を備
えている。

【００１４】文字列分解手段３は、検索対象文字列を、
個々の単語に分割する。単語分解手段４は、文字列分解
手段３が分割した単語毎に、各単語を個々の文字に分割
する。

【００１５】検索文字決定手段５は、単語毎に、単語を
構成する文字のうち検索対象とする文字を決定する。つ
まり、本誌ステムでは、単語を構成する全ての文字を必
ずしも検索対象とせず、これらの文字の一部を検索対象
とする。決定基準は、二次インデックス２に登録した出
現回数が少ない文字から順に所定数の文字を検索対象と
する。この所定数は、予め単語を構成する文字数別に設
定しておくようにしてもよい。

【００１６】文字情報読出手段６は、二次インデックス
２を検索し、検索文字決定手段５が決定した文字の一次
インデックス１の格納位置情報を読み出す。第１論理演
算手段７は、各単語毎に、文字情報読出手段６が読み出
した格納位置情報群の論理演算を行い、全ての検索文字
に共通の格納位置情報を求める。

【００１７】単語情報読出手段８は、一次インデックス
１を検索し、第１論理演算手段７から出力された格納位
置に格納されている単語の文書名を読み出す。第２論理
演算手段９は、文字列を構成する全ての単語について文
書名を読み出し終わると、これらの文書名について論理
演算を行い、全ての単語に共通の文書名を求める。

【００１８】連続性チェック手段１０は、第２論理演算
手段９から出力される文書名毎に、検索文字列を構成す
る単語が連続しているか否かを判別し、全ての単語が連
続している文書名を特定する。

【００１９】ここで、二次インデックス２は、一次イン
デックス１の格納位置情報を、各文字を含む単語の構成
文字数別に格納することが好ましい。また、連続性チェ
ック手段１０は、検索文字列が複数の単語から構成され
ている場合に、文字列を構成する第１番目の単語の出現
位置情報に、第１番目の単語の文字数を加算して第１オ
フセット情報を生成し、第３番目以降の単語には、その
単語の出現位置情報から、第２番目の単語から直前の単
語までの文字数の総和を減算して第２オフセット情報を
生成し、前記第１オフセット情報と第２オフセット情報
とが第２番目の単語の出現位置情報に一致する文書名を
特定する。

【００２０】さらに、一次インデックス１及び二次イン
デックス２は、文章名情報及び出現位置情報を圧縮状態
で格納するようにしてもよい。この圧縮方法としては、
例えば、差分圧縮等がある。

【００２１】また、文字情報読出手段６及び単語情報読
出手段８は、二次インデックス２及び一次インデックス
１から読み出した情報をビット列情報へ変換するように
してもよい。この場合、第１論理演算手段７及び第２論
理演算手段９は、ビット列情報を用いて論理演算を行う
ものとする。

【００２２】さらに、一次インデックスのみを有するシ
ステムの場合には、一次インデックスに、各文書に含ま
れる単語毎に、各単語を含む文書の文書名、文書中の出
現位置情報、及び各単語の総出現回数を格納するように
する。この場合、システムは、文字列分解手段、検索単
語決定手段、単語情報読出手段、論理演算手段、第１オ
フセット情報生成手段、第２オフセット情報生成手段、
及び比較手段を備えるようにする。

【００２３】文字列分解手段は、検索対象の文字列を単
語に分割するものである。検索単語決定手段は、文字列
分解手段が分解した各単語について一次インデックスを
検索し、出現回数が少ない単語を所定数選出する。

【００２４】単語情報読出手段は、検索単語決定手段が
決定した単語について一次インデックスを検索し、前記
単語が出現する文書名及び出現位置情報を読み出す。論
理演算手段は、文書名及び出現位置情報について論理演
算を行い、全ての単語に共通の文書名を出力する。

【００２５】第１オフセット情報生成手段は、検索文字
列を構成する第１番目の単語の出現位置情報に、第１番
目の単語の文字数を加算して第１オフセット情報を生成
する。

【００２６】第２オフセット情報生成手段は、検索文字
列を構成する第３番目以降の単語の出現位置情報から、
第２番目の単語から直前の単語までの文字数の総和を減
算して第２オフセット情報を生成する。

【００２７】比較手段は、論理演算手段から出力された
各文書毎に、第１オフセット情報と第２オフセット情報
と前記検索文字列を構成する第２番目の単語の出現位置
情報とを比較し、総ての位置情報が一致する文字列を含
む文書名を特定する。

【００２８】

【作用】本発明のフリーテキスト検索システムによれ
ば、まず、一次インデックス１と二次インデックス２と
のデータを圧縮して格納することにより、記憶領域を縮
小することができる。

【００２９】そして、ユーザが検索対象文字列を入力す
ると、文字列分解手段３は、検索対象文字列を、個々の
単語に分割し、分割した単語群を単語分解手段４へ転送
する。

【００３０】単語分解手段４は、各単語毎に、単語を個
々の文字に分割し、文字群を検索文字決定手段５へ通知
する。検索文字決定手段５は、各単語毎に、検索文字を
決定する。すなわち、各文字について二次インデックス
２の出現回数を参照し、出現回数が少ない文字を少なく
とも一つ選び、この文字を検索文字として決定する。例
えば、単語が３文字で構成されている場合には、３文字
全てを検索対象とせず、出現回数の少ない文字を検索対
象の文字として決定する。

【００３１】文字情報読出手段６は、検索文字決定手段
５が決定した文字について二次インデックス２を検索
し、一次インデックス１の格納位置情報を読み出す。こ
のとき、文字情報読出手段６は、検索文字を含む単語の
構成文字数を判別し、この構成文字数に対応する格納位
置情報のみを読み出す。そして、文字情報読出手段６
は、文字列を構成する全ての単語について、格納位置情
報を読み出すと、これらの情報を第１論理演算手段７へ
通知する。

【００３２】第１論理演算手段７は、各単語毎に、文字
情報読出手段６が読み出した格納位置情報群の論理演算
を行い、全ての検索文字に共通の格納位置情報を求め
る。単語情報読出手段８は、一次インデックス１を検索
し、第１論理演算手段７から出力された格納位置に格納
されている単語の文書名を読み出す。

【００３３】第２論理演算手段９は、文字列を構成する
全ての単語について文書名を読み出し終わると、これら
の文書名について論理演算を行い、全ての単語に共通の
文書名を求める。

【００３４】連続性チェック手段１０は、第２論理演算
手段９から出力される文書名毎に、検索文字列を構成す
る単語が連続しているか否かを判別し、全ての単語が連
続している文書名を特定する。

【００３５】このように、本発明では、単語検索を行う
際に、単語を構成する統べての文字について検索を行わ
ず、検索処理を高速に行えるようにしている。これによ
る検索対象のヒット率の精度低下を防止するために、本
発明では、二次インデックス２のデータを単語の構成文
字数別に格納し、検索文字が含まれる単語の構成文字数
に対応するデータのみを読みだされるようにしている。

【００３６】

【実施例】本発明の実施例について図面に沿って説明す
る。（システム構成）図２は、フリーテキスト検索システム
の構成を示している。

【００３７】本実施例のフリーテキスト検索システム
は、文献検索を例に挙げて説明する。同図に示すよう
に、システムは、複数の文書を格納するデータベース、
ＣＰＵ、主記憶装置（ＭＭ）１５をバスで接続して構成
されている。さらに、バスには、キーボード１１とディ
スプレイ装置１２とがＩ／Ｏ１１ａ・１２ａを介して接
続されている。

【００３８】キーボード１１は、検索対象の文字列をユ
ーザが入力するためのものである。ディスプレイ装置１
２は、検索結果を画面表示するものである。主記憶装置
（ＭＭ）１５は、本システムの動作手順を示すソフトウ
ェアを記憶している。さらに、主記憶装置（ＭＭ）に
は、複数のバッファ領域が設定されている。

【００３９】ＣＰＵは、主記憶装置（ＭＭ）のソフトウ
ェアを実行して本発明のフリーテキスト検索システムの
機能を実現する。ここで、図３にデータベース１３の構
成について述べる。

【００４０】データベース１３は、複数の文書を格納す
る文書格納部１３ａ、一次インデックス１３ｂ、及び二
次インデックス１３ｃを備えている。文書格納領域は、
個々の文書の文書名を特定するレコードＩＤ毎に、文書
名と文書の内容を格納している。

【００４１】一次インデックス１３ｂは、各文書に含ま
れている単語毎に、各単語を含む文書のレコードＩＤと
各文書内の出現位置を示すポインタとが格納されてい
る。二次インデックス１３ｃは、単語を構成する文字毎
に、文字を含む単語の出現回数の総和と、単語の一次イ
ンデックス内の格納位置を示すポインタとが格納されて
いる。ここで、一次インデックス内のポインタは、文字
を含む単語の構成文字数別に格納されている。具体的に
は、文字「に」を含む単語のポインタは、文字数が１文
字の単語（「に」）のポインタ（Ｐ１、Ｐ２、Ｐ３、・
・・）、文字数が２文字の単語（「にわ」、「にら」、
「かに」等）のポインタ（Ｐ４、Ｐ５、Ｐ６、・・・）
のように、文字数が少ない単語から順にポインタを格納
している。

【００４２】さらに、一次インデックス１３ｂのレコー
ドＩＤと出現位置情報（図中オフセット値）は、圧縮し
て格納されている。この圧縮例を図４に示す。図中、圧
縮ＩＤ１は、”０”とレコードＩＤ１との差分（１００
−０＝１００）であり、圧縮ＩＤ２は、レコードＩＤ１
とレコードＩＤ２との差分（１２０−１００＝２０）で
ある。また、オフセット値の圧縮は、レコードＩＤ間毎
の差分により行う。具体的には、圧縮０１は”０”とオ
フセット値１（２００）との差分（｜２００−０｜＝２
００）であり、圧縮０２はオフセット値１とオフセット
値２との差分（｜２５０−２００｜＝５０）であり、圧
縮０３はオフセット値２（２５０）とオフセット値３
（４２０）との差分（｜４２０−２５０｜＝１７０）で
ある。そして、圧縮１１はオフセット値４（１８０）と
オフセット値５（２００）との差分（｜２００−１８０
｜＝２０）である。

【００４３】尚、図示はしないが、二次インデックス１
３ｃのポインタ値も上記と同様の差分圧縮により圧縮す
るようにする。これにより、一次インデックス１３ｂ及
び二次インデックス１３ｃの容量を小さくすることが出
来る。尚、各インデックスからデータを取り出す際に
は、圧縮の手順と逆の手順で伸長処理を行う。

【００４４】次に、図５にＣＰＵ１４が主記憶装置（Ｍ
Ｍ）１５のソフトウェアを実行することにより実現され
る機能別構成について説明する。同図に示すように、本
システムは、文字列分解部３、単語分解部４、検索文字
決定部５、文字情報読出部６、第１論理演算部７、単語
読出部８、第２論理演算部９、及び連続性チェック部１
０を備えている。

【００４５】文字列分解部３は、キーボード１１から入
力された検索文字列を個々の単語に分解する。単語分解
部４は、単語を個々の文字に分解する。

【００４６】検索文字決定部５は、単語を構成する各文
字毎に、二次インデックス１３ｃの出現回数を参照し、
出現回数の少ない文字から少なくとも一つの文字を検索
対象の文字として決定する。この決定方法は、低頻度語
優先評価法である。

【００４７】文字情報読出部６は、検索文字決定部５が
決定した文字について二次インデックス１３ｃを参照
し、一次インデックス１３ｂのポインタ値を読み出す。
このとき、文字情報読出部６は、各文字を含む単語の構
成文字数に対応するポインタ値のみを読み出す。

【００４８】第１論理演算部７は、各単語毎に、単語を
構成する文字について二次インデックス１３ｃから読み
出したポインタ値群の論理積を計算し、全ての文字に共
通のポインタ値を出力する。

【００４９】単語読出部８は、文字列を構成する単語毎
に、一次インデックス１３ｂを検索し、第１論理演算部
７が出力したポインタ値が示す単語のインデックス値
（レコードＩＤ、出現位置情報）を読み出す。さらに、
単語読出部８は、読み出した単語の一致条件を解析す
る。この一致条件は、以下の通りである。、文字列を構成する単語のうち先頭の単語について
は、この単語の前にある語句を付加した単語も条件一致
とする（後方一致条件）。

【００５０】、文字列を構成する単語のうち中間の単
語については、この単語と完全に一致する単語を条件一
致とする（完全一致条件）。、文字列を構成する単語のうち末尾の単語について
は、この単語の後ろにある語句を付加した単語も条件一
致とする（前方一致）。上記の条件については、例えば、「検索」ならば「検
索」単体で構成される単語だけでなく、「文字検索」や
「人名検索」等の単語も条件一致とする。また、の条
件については、例えば、「ソート」ならばこの単語単体
で構成される単語のみを条件一致する。さらに、上記
の条件については、例えば、「処理」ならば「処理」単
体で構成される単語だけでなく、「処理時間」や「処理
装置」等の単語も条件一致とする。

【００５１】第２論理演算部９は、単語読出部８が読み
出した単語のレコードＩＤについて論理演算を行うもの
である。本実施例では、第２論理演算部９は、上記の
条件に一致した単語群のレコードＩＤについて論理和演
算を行うと共に、上記の条件に一致した単語群のレコ
ードＩＤについても論理和演算を行う。そして、第２論
理演算部９は、論理和演算により得られたレコードＩＤ
集合と、上記の条件に一致した単語群のレコードＩＤ
集合との論理積演算を行う。この結果、検索文字列を構
成する単語を総て含む文字列のレコードＩＤ集合を得る
ことが出来る。

【００５２】そして、連続性チェック部１０は、第２論
理演算部９から出力されるレコードＩＤ集合に含まれる
文字列と検索文字列とが一致するか否かを判別する。こ
のとき、レコードＩＤ集合に含まれる文字列において、
検索対象の単語群が連続して配列されていればよいこと
になる。つまり、検索文字列が「検索におけるソート処
理」ならば、単語「検索」と「における」と「ソート」
と「処理」とが連続していればよいことになる。具体的
には、文字列「人名検索におけるソート処理時間」につ
いては、「検索」と「における」と「ソート」と「処
理」とが連続しているから、検索条件に合致することに
なる。一方、「検索におけるポインタ値のソート処理」
については、「における」と「ソート」とが連続してい
ないので検索条件に合致しないことになる。

【００５３】この連続性のチェック方法を以下に示す。、先頭単語については、オフセット値に先頭単語の文
字数を加算し修正オフセット値を求める。、第２番目の単語については、何も処理しない。、第３番目の単語については、オフセット値から第２
番目の単語の文字数を減算し、修正オフセット値を求め
る。、第ｎ番目（ｎ；自然数）の単語については、第２番
目の単語から第（ｎ−１）番目の単語までの文字数の総
和を求め、第ｎ番目の単語のオフセット値から文字数の
総和を減算した修正オフセット値を求める。、〜で求めた修正オフセット値が総て同一であ
り、且つ第２番目の単語のオフセット値と一致する単語
群を判別する。これにより、検索文字列と同一の文字列を有する文字列
を判別することができる。

【００５４】以下、本実施例におけるシステムの作用・
効果について述べる。（本実施例の作用・効果）本誌ステムの動作について図
７に沿って説明する。

【００５５】ユーザがキーボード１４に検索文字列を入
力すると、検索文字列分解部３は、この検索文字列を個
々の単語に分解し、これらの単語群を単語分解部４へ通
知する。

【００５６】単語分解部４は、各単語を個々の文字に分
解する。そして、単語分解部４は、分解した文字群を検
索文字決定部５へ通知する。検索文字決定部５は、二次
インデックス１３ｃを検索し、各単語毎に個々の文字の
出現回数を読み出す。そして、検索文字決定部５は、各
単語を構成する文字のうち、出現回数が少ない文字を所
定数決定する。そして、検索文字決定部５は、単語別に
決定した検索文字を文字情報読出部６へ通知する。例え
ば、単語「における」について検索文字を決定する場合
には、検索文字決定部５は、「に」、「お」、「け」、
「る」の各々の出現回数を読み出し、これらの出現回数
を比較する。そして、図３に示すように出現回数が少な
い２文字「お」と「け」とを検索文字として決定する。

【００５７】文字情報読出部６は、各単語の文字数を判
別する。そして、文字情報読出部６は、二次インデック
ス１３ｃを参照し、検索文字のポインタ情報のうち単語
の文字数に対応するポインタ情報のみを読み出す。全て
の単語について検索文字のポインタ情報を読み出し終わ
ると、文字情報読み出し部６は、ポインタ情報を単語別
に第１論理演算部７へ通知する。例えば、図３おいて、
文字情報読出部６は、「お」について、４文字の領域に
格納されているポインタ情報を読み出す。さらに、文字
情報読出部６は、「け」についても、４文字の領域に格
納されているポインタ情報を読み出す。

【００５８】第１論理演算部７は、各単語毎に、検索文
字のポインタ情報の論理積演算を行う。詳細には、単語
「における」の検索文字が「お」と「け」である場合
に、第１論理演算部７は、「お」に関するポインタ情報
群と「け」に関するポインタ情報群との論理積演算を行
い、「お」と「け」とに共通のポインタ情報を得る。こ
の処理を全ての単語について終了すると、第１論理演算
部７は、単語別にポインタ情報を単語情報読出部８へ通
知する。

【００５９】単語情報読出部８は、一次インデックス１
３ｂを検索し、第１論理演算部７から入力したポインタ
に格納されているレコードＩＤ及び出現位置情報（オフ
セット値）を読み出す。ここで、単語情報読出部８は、
各単語が文字列の先頭の単語であるか、中間の単語であ
るか、あるいは末尾の単語であるかを判別し、先頭の単
語については後方一致条件に合致する全ての単語につい
てレコードＩＤ及びオフセット値を読み出し、これらの
データ群の論理和演算を行う。さらに、単語情報読出部
８は、中間の単語については、完全一致条件に合致する
単語についてのみレコードＩＤ及びオフセット値を読み
出す。また、単語情報読出部８は、末尾の単語について
は、前方一致条件に合致する全ての単語についてレコー
ドＩＤ及びオフセット値を読み出し、これらのデータ群
の論理和演算を行う。

【００６０】また、本実施例では、単語情報読出部８
は、読み出したレコードＩＤを、図６に示す様なビット
列に変換して主記憶装置（ＭＭ）１５のバッファへ書き
込む。第２論理演算部９は、バッファへアクセスし、ビ
ット列で書き込まれたレコードＩＤ群について論理積演
算を行い、文字列を構成する全ての単語に共通のレコー
ドＩＤを求める。

【００６１】連続性チェック部１０は、第２論理演算部
９から出力されるレコードＩＤについて、単語の連続性
をチェックし、単語の配列が検索文字列と同一の文字列
を含むレコードＩＤを特定する。そして、連続性チェッ
ク部１０は、レコードＩＤについてデータベース１３の
文書格納部１３ａを検索し、レコードＩＤに対応する文
書名を求め、この文書名と出現位置情報とをディスプレ
イ装置１２から画面表示させる。

【００６２】以上のように、本実施例によれば、一次イ
ンデックス１３ｂ、二次インデックス１３ｃの記憶領域
を縮小することが出来る。さらに、単語を構成する全て
の文字を検索対象とする必要がなくなり、処理の高速化
を図ることが出来る。

【００６３】また、ヒットデータをビット列で表すこと
により、バッファの容量を縮小摺ることが出来ると共
に、同時に複数の演算処理を行えるようになり、演算処
理の高速化を図ることが出来る。

【００６４】尚、本実施例では、一次インデックスと二
次インデックスとの二つのインデックスを有するシステ
ムを例に挙げて説明したが、一次インデックスのみを有
するシステムに本発明を適用するようにしてもよい。こ
の場合には、一次インデックスに、各単語の総出現回数
を格納して、検索対象の単語を決定するようにする。

【００６５】

【発明の効果】本発明によれば、インデックスの記憶容
量を縮小化摺ることが出来ると共に、検索効率の向上を
図ることが出来る。さらに、中間処理におけるデータを
ビット列で表すことにより、演算処理の高速化も図るこ
とが可能となる。また、検索単語の連続性をチェックす
る際に、各単語の出現位置情報を用いた論理演算を行う
ことにより、連続性のチェックを高速化することができ
る。

【図面の簡単な説明】

【図１】本発明の原理図

【図２】本実施例におけるフリーテキスト検索システム
の構成図

【図３】データベースの格納内容を示す図

【図４】インデックス情報の圧縮例を示す図

【図５】本実施例におけるシステムの機能別構成ブロッ
ク図

【図６】レコードＩＤ値のビット列変換例を示す図

【図７】システムの動作過程を示すシーケンス図

【符号の説明】

１・・一次インデックス２・・二次インデックス３・・文字列分解手段（文字列分解部）４・・単語分解手段（単語分解部）５・・検索文字決定手段（検索文字決定部）６・・文字情報読出手段（文字情報読出部）７・・第１論理演算手段（第１論理演算部）８・・単語情報読出手段（単語情報読出部）９・・第２論理演算手段（第２論理演算部）１０・・連続性チェック手段（連続性チェック部）１１・・キーボード１１ａ・・Ｉ／Ｏ１２・・ディスプレイ装置１２ａ・・Ｉ／Ｏ１３・・データベース（ＤＢ）１３ａ・・文書格納部１３ｂ・・一次インデックス１３ｃ・・二次インデックス１４・・ＣＰＵ（中央演算処理装置）１５・・主記憶装置（ＭＭ）

フロントページの続き (56)参考文献福島俊一外，テキストデータベース検索，ＮＥＣ技報，1994年９月16日, Ｖｏｌ．47，Ｎｏ．８，ｐ．42−47 急増する全文検索システムの動向を探る，日経インテリジェントシステム, 1993年２月22日，Ｎｏ．172，ｐ．16 −21 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】各文書に含まれる単語毎に、各単語を含
む文書の文書名と文書中の出現位置情報とを格納する一
次インデックスと、単語を構成する文字毎に、各文字を含む単語の一次イン
デックス中の格納位置と前記文字を含む全単語の出現回
数の総和とを登録する二次インデックスと、検索対象の文字列を単語に分割する文字列分解手段と、前記各単語を文字に分割する単語分割手段と、前記各文字について前記二次インデックスを検索し、出
現回数が少ない文字を所定数選出する検索文字決定手段
と、前記検索文字決定手段が決定した文字について二次イン
デックスを検索し、一次インデックスの格納位置情報を
読み出す文字情報読出手段と、前記格納位置情報について論理演算を行い、全ての文字
に共通の格納位置情報を出力する第１論理演算手段と、前記一次インデックスを検索し、前記第１論理演算手段
から出力された格納位置に格納されている文書名を読み
出す単語情報読出手段と、前記文書名及び出現位置情報について論理演算を行い、
全ての単語に共通の文書名を出力する第２論理演算手段
と、前記第２論理演算手段から出力される文書名毎に、前記
検索文字列を構成する単語が連続しているか否かを判別
し、前記単語群が連続している文書名を特定する連続性
チェック手段と、を備えるフリーテキスト検索システム。
【請求項２】前記二次インデックスは、各文字を含む
単語の一次インデックスにおける格納位置情報を、単語
の文字数別に格納する請求項１記載のフリーテキスト検
索システム。
【請求項３】前記連続性チェック手段は、検索文字列
が複数の単語から構成されている場合に、文字列を構成する第１番目の単語の出現位置情報に、第
１番目の単語の文字数を加算して第１オフセット情報を
生成し、第３番目以降の単語には、その単語の出現位置情報か
ら、第２番目の単語から直前の単語までの文字数の総和
を減算して第２オフセット情報を生成し、前記第１オフセット情報と第２オフセット情報と第２番
目の単語の出現位置情報とが一致する文字列を検出する
請求項１記載のフリーテキスト検索システム。
【請求項４】前記一次インデックス及び二次インデッ
クスは、文章名情報及び出現位置情報を圧縮状態で格納
する請求項１記載のフリーテキスト検索システム。
【請求項５】前記文字情報読出手段及び単語情報読出
手段は、前記二次インデックス及び一次インデックスか
ら読み出した情報をビット列情報へ変換し、前記第１論理演算手段及び第２論理演算手段は、ビット
列情報を用いて論理演算を行う請求項１記載のフリーテ
キスト検索システム。
【請求項６】各文書に含まれる単語毎に、各単語を含
む文書の文書名、文書中の出現位置情報、及び各単語の
総出現回数を格納する一次インデックスと、検索対象の文字列を単語に分割する文字列分解手段と、前記各単語について前記一次インデックスを検索し、出
現回数が少ない単語を所定数選出する検索単語決定手段
と、前記検索単語決定手段が決定した単語について一次イン
デックスを検索し、前記単語が出現する文書名及び出現
位置情報を読み出す単語情報読出手段と、前記文書名及び出現位置情報について論理演算を行い、
全ての単語に共通の文書名を出力する論理演算手段と、前記検索文字列を構成する第１番目の単語の出現位置情
報に、第１番目の単語の文字数を加算して第１オフセッ
ト情報を生成する第１オフセット情報生成手段と、前記検索文字列を構成する第３番目以降の単語の出現位
置情報から、第２番目の単語から直前の単語までの文字
数の総和を減算して第２オフセット情報を生成する第２
オフセット情報生成手段と、前記第１オフセット情報と第２オフセット情報と前記検
索文字列を構成する第２番目の単語の出現位置情報とが
一致する文字列を検出する比較手段と、を備えるフリーテキスト検索システム。