JP2758826B2

JP2758826B2 - 文書検索装置

Info

Publication number: JP2758826B2
Application number: JP6032441A
Authority: JP
Inventors: 一繁浅田; 秀明中山; 俊男伊藤; 研策山本; 弘志竹川; 克己金崎; 篤志飯沢; 一隆古瀬; 進兼宗
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1994-03-02
Filing date: 1994-03-02
Publication date: 1998-05-28
Anticipated expiration: 2013-05-28
Also published as: US5680612A; JPH07244671A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書検索装置に関し、
より詳細には、シグネチャーファイルを利用し、指定さ
れた文字列を含む文書（英文、日本文を含む）を検索す
る文書検索装置に関する。

【０００２】

【従来の技術】シグネチャーは、ある文字列から一定の
方法で摘出される２進数によるビットパターンである。
該ビットパターンにおいて１がセットされるビットの位
置は、文字列を構成する文字や単語を数値化し、その値
を０からビット位置の最大値までの値にハッシングする
ことで得られる。例えば、文字列として「コピー」があ
った場合に、「コ」、「ピ」、「ー」を文字コードを用
いて「５」、「７」、「１２」と数値化できたとすれ
ば、その数値はビット位置を示し、ビットが「５」と
「７」と「１２」番目の位置に「１」が立つので［００
００１０１００００１］のようになる。この０，１のパ
ターンをビットマップ（ビットパターン）と呼び、この
ビットマップによって構成されるものがシグネチャーで
ある。

【０００３】シグネチャーの摘出方法は、「Access Met
hods of Text」（Christos Faloutsos, Computing Surv
eys, Vol.17, No.1, March 1985, pp.49〜74）に記載さ
れている。この文献によれば、文書データを構成する単
語ごとにワードシグネチャーと呼ばれるシグネチャーを
作り、それらをスーパーインポーズしたものを文書デー
タのシグネチャーとする方法がある。ここで、スーパー
インポーズとは、複数のシグネチャーにおいて同じ位置
のビットの値の論理和をとり、各論理和の値の列を新た
なシグネチャーとして摘出する操作である。

【０００４】また、単語を構成する部分文字列の検索も
できるようにするために、文書データを重複部分を持せ
ながら一定の文字数の文字列に分割し、ワードシグネチ
ャーと同様にして各文字列のシグネチャーをスーパーイ
ンポーズする方法がある。また、より長い文書データを
文やパラグラフなどの論理的なブロックに分割し、各ブ
ロックから摘出される複数のシグネチャーを１つの文書
に対応させる方法がある。ここで、ブロックから摘出さ
れたシグネチャーは、ブロックシグネチャーと呼ばれて
いる。

【０００５】検索文字列を含む文書を検索するためにシ
グネチャーを利用する場合、異なる文字列から同じビッ
トパターンのシグネチャーが摘出する可能性があるの
で、検索結果として検索文字列が含まれない文書が検出
されることがある。この文書は、フォルスドロップと呼
ばれる。一方、検索文字列が含まれる文書はアクチュア
ルドロップと呼ばれる。

【０００６】文書検索装置において、シグネチャーは文
書ごとに摘出され、各シグネチャーはシグネチャーファ
イルと呼ばれるファイルに一括して格納される。シグネ
チャーファイルは、シグネチャーの格納方法によって２
つに大別される。１つは、単にシグネチャーを順に並べ
て格納する方法である。この方法によるファイル構成
は、シーケンシャル構成と呼ばれる。もう１つは、シグ
ネチャーの各ビットをビット位置ごとに別々のビットマ
ップに格納する方法である。この方法によるファイル構
成は、ビットスライス構成と呼ばれる。ビットスライス
構成によるシグネチャーファイルは、「Ｐａｒｔｉａｌ
−ＮａｔｃｈＲｅｔｒｉｅｖａｌｖｉａｔｈｅ
ＭｅｔｈｏｄｏｆＳｕｐｅｒｉｍｐｏｓｅｄＣｏ
ｄｅｓ」（ＣｈａｒｌｅｓＳ．Ｒｏｂｅｒｔｓ，Ｐｒ
ｏｃｅｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ．Ｖｏ
ｌ．６７，Ｎｏ．１２，Ｄｅｃｅｍｂｅｒ，１９７９，
ｐｐ．１６２４〜１６４２）に記載されている。

【０００７】シーケンシャル構成のシグネチャーのビッ
トマップを圧縮する方法は、「Description and Perfor
mance Analysis of Signature File Methods for Offic
e Filing」（Christos Faloutsos, ACM Transaction Of
fice Information Systems,Vol.5, No.3, July 1987, p
p.237〜257）に記載されているように、ランレングスコ
ーディングなどを利用する方法がある。

【０００８】

【発明が解決しようとする課題】

（１）複数のブロックシグネチャーを１つの文書に対応
させる従来方法は、単語のような検索文字列がブロック
を跨がることを避けるために、文やパラグラフをブロッ
クとしてブロックシグネチャーを摘出する。しかしなが
ら、この従来方法では、文書を登録する際、文やパラグ
ラフの区切りを検出する処理が必要になり、特に日本語
による文書では、文やパラグラフの検出がより困難であ
るので、文書の登録が効率よく行えないという欠点があ
る。

【０００９】また、（２）文書に含まれる単語や部分文
字列からワードシグネチャーを摘出し、それをスーパー
インポーズしたものを文書のシグネチャーとする従来方
法は、文書に含まれる単語や部分文字列の出現頻度によ
って、文書のシグネチャーで１がセットされるビットの
位置に偏りがあり、シグネチャーファイルをビットスラ
イス構成にしたとき、１がセットされているビット数が
ビットマップごとにばらつきが生じ、文書を検索する
際、検索文字列のシグネチャーと登録された文書のシグ
ネチャーのビット単位の比較をする処理において、１が
セットされているビットをより多く含むビットマップを
より先に参照すると、効率が悪くなるという欠点があ
る。

【００１０】また、（３）シグネチャーのビットマップ
をビットスライス構成にする従来方法は、文書を登録す
る際、文書のシグネチャーの各ビットの値とは無関係に
文書のシグネチャー全体のビット数分のビットスライス
されたビットマップを変更しなければならないので、シ
グネチャーのビット数をより多くしたときに、文書を効
率よく登録できないという欠点がある。

【００１１】また、（４）大量の文書を保持する場合
や、フォルスドロップの含有率を低減するために、シグ
ネチャーのビット数をより多くしなければならない場
合、シグネチャーファイルは非常に大きな領域を必要と
する。この課題を解決するためには、シグネチャーファ
イルを圧縮する方法がある。ただし、従来方法は、ビッ
トマップがシーケンシャル構成であるシグネチャーファ
イルを適用対象としている。

【００１２】さらに、（５）シグネチャーのビットマッ
プをビットスライス構成にする従来方法では、検索時に
フォルスドロップの除去や文書データの出力の際、文書
データが格納されているレコードの識別子を得るため
に、シグネチャーが格納されているビットマップの位置
をレコード識別子に変換する処理において、マッピング
テーブルを参照する操作が必要となり、文書を効率よく
検索できないという欠点がある。

【００１３】本発明は、このような実情に鑑みてなされ
たもので、（１）日本語による文書のように、文やパラ
グラフの区切りの検出が困難な文書でも、容易に文書デ
ータからブロックシグネチャーを抽出でき、より長い文
書を扱う場合でも、シグネチャーファイルによる検索結
果におけるフォルスドロップの含有率を抑えて、フォル
スドロップを除去する手間を軽減すること、（２）検索
時にビットに１がセットされているビットがより少ない
ビットスライスされたビットマップを参照対象とするシ
グネチャーを検索文字列から抽出し、なおかつ、参照対
象のビットスライスされたビットマップを１がセットさ
れているビットの数が少ない順に参照することにより、
シグネチャーにおいて１がセットされるビットに偏りが
ある場合でも、検索効率を低下させずに検索を行うこと
ができること、（３）文書データを登録する操作におい
て、格納すべきブロックシグネチャーで１がセットされ
ているビットに対応するビットスライスされたビットマ
ップに対してのみ１をセットすることで、ブロックシグ
ネチャーの格納する操作が完了するように、シグネチャ
ーファイルを構成することにより、文書データの登録の
手間を軽減すること、（４）シグネチャーファイルにお
いて、シグネチャーのビットマップを分割してページに
格納し、選択的に圧縮しているので、シグネチャーファ
イルに必要なファイル領域を最低限に抑え、なおかつ、
ブロックシグネチャーの格納時に必要な伸長操作が省略
することにより、文書データの登録の手間を軽減するこ
と、（５）ブロックシグネチャーの格納位置から直接計
算によってレコード識別子が求められるので、マップテ
ーブルを保持するためのファイル領域とマップテーブル
を参照する手間を省略することができるようにした文書
検索装置を提供することを目的としている。

【００１４】

【課題を解決するための手段】本発明は、上記の課題を
解決するために、（１）登録する文書データを入力する
とともに検索文字列を受け付ける入力部と、該入力部に
より入力された文書データ又は検索文字列を所定の文字
コードに変換する文字列入力処理部と、該文字列入力処
理部により変換された文字コードを入力する文書登録処
理部と、前記文字列入力処理部により変換された文字コ
ードを入力する文書検索処理部と、該文書登録処理部か
らの文書データを格納し、また、レコード識別子に対応
するレコードを参照して、前記文書検索処理部から文書
データを求められるレコードファイルと、該レコードフ
ァイルに格納された文書データからシグネチャーの格納
位置を計算する格納位置計算処理部と、前記文書データ
を一定の文字数のブロックに分割し、各ブロックからブ
ロックシグネチャーを摘出し、また、検索文字列から部
分文字列を抽出し、該部分文字列からシグネチャーを摘
出するシグネチャー摘出処理部と、該シグネチャー摘出
処理部から摘出されたブロックシグネチャーを所定の格
納位置に格納し、また、前記検索文字列が含まれると判
断されるブロックから摘出されたブロックシグネチャー
を所定の格納位置に格納するシグネチャーファイルと、
該シグネチャーファイルに格納されたブロックシグネチ
ャーの格納位置からレコード識別子の値を求めるレコー
ド識別子計算処理部と、前記文書検索処理部で求められ
た文書データに検索文字列が含まれているかどうかを判
断し、所定の文字コードに変換する文書出力処理部と、
該文書出力処理部からの文書データを出力する出力部と
から成り、文書データを一定の文字数の文字列に分割
し、各文字列をブロックとみなし、ブロックどうしに重
複部分を持たせ、該重複部分の文字数以下の部分文字列
を検索文字列から抽出し、該部分文字列から摘出したシ
グネチャーによって検索を行うこと、更には、（２）前
記（１）において、前記文書データを登録する際、ビッ
トスライスごとに１がセットされるビット数を集計して
おき、前記文書データを検索する際、１がセットされて
いるビットの数がより少ないビットマップを参照対象と
するように検索文字列のシグネチャーを摘出し、さら
に、参照対象のビットマップの参照順序を１がセットさ
れているビットの数がより少ない順とすること、更に
は、（３）前記（２）において、前記ビットマップを一
定のビット数に分割し、分割されたビットマップに全体
のビットマップにおける位置を表すための番号を与え、
文書データの検索に際しては、文書データのシグネチャ
ーで０がセットされているビットに対応するビットマッ
プの変更を省略し、文書のシグネチャーを格納する処理
を行うこと、更には、（４）前記（２）又は（３）にお
いて、前記ビットスライス構成のシグネチャーファイル
を適用対象とし、ビットスライスされたビットマップを
一定のビット数ごとに分割し、分割されたビットマップ
ごとにランレングスコーディングによって圧縮し、各分
割されたビットマップを一定の大きさのページに圧縮デ
ータを格納し、圧縮データが圧縮前のビットマップより
も大きくなるビットマップについては、圧縮しないよう
にし、また、一連の分割されたビットマップのうち、登
録文書のシグネチャーの格納位置となる末尾のビットマ
ップについては常に圧縮しないようにすること、更に
は、（５）前記（１）において、前記文書データの登録
に際しては、文書データのシグネチャーの格納位置をレ
コード識別子の値から計算された値によって決定し、文
書データの検索に際しては、レコード識別子の値を文書
データのシグネチャーの格納位置から逆算することを特
徴としたものである。

【００１５】

【作用】

（１）大量の文書データを保持し、入力された検索文字
列を含む文書を検索および出力するシグネチャーファイ
ルを利用した文書検索装置の１つの文書に複数のシグネ
チャーを対応づけることにより、シグネチャーを構成す
る各ビットに値として１が重複してセットされる確率を
低減し、抽出されたシグネチャーどうしの選択性を高
め、検索文字列を含まない文書、いわゆるフォルスドロ
ップの検索結果における含有率を抑える方法において、
文書を分割する単位を文やパラグラフとする代わりに、
文書を重複部分を持たせながら一定の文字数の文字列と
することにより、日本語のように文やパラグラフの抽出
が困難な場合でも容易にシグネチャーを摘出することを
可能とし、その結果、より長い文書の登録および検索を
効率よくできるようにする。（２）登録文書のシグネチ
ャーの各ビットの値をビット位置ごとに別々のビットマ
ップに格納する、いわゆるビットスライス構成のシグネ
チャーファイルにおいて、文書の登録時に登録文書のシ
グネチャーを格納する際、ビットマップごとに値が１で
あるビットの総数を集計および記録し、文書の検索時
に、値が１であるビット数がより少ないビットマップを
参照対象とするように検索文字列のシグネチャーを摘出
し、なおかつ、ビットマップを値が１であるビット数が
より少ないものから順に参照することにより、検索文字
列のシグネチャーと登録文書のシグネチャーを比較する
ために参照すべきビットの数を少なくし、その結果、文
書の検索を効率よくできるようにする。（３）ビットス
ライス構成のシグネチャーファイルにおいて、ビットマ
ップを一定のビット数に分割し、分割されたビットマッ
プをそれぞれ一定の大きさのページに格納し、ビットス
ライスごとの一連のビットマップにおける位置を表す番
号を分割されたビットマップに与え、その番号をページ
に保持することにより、文書の登録時に更新すべきビッ
トマップを最小限に抑え、その結果、文書の登録を効率
よくできるようにする。（４）ビットスライス構成のシ
グネチャーファイルにおいて、ページに格納されている
ビットマップを圧縮の単位とし、各ビットマップのう
ち、圧縮後のデータサイズが圧縮前よりも大きくなるビ
ットマップは圧縮しないことにより、シグネチャーファ
イル全体としての圧縮効率を高め、さらに、ビットスラ
イスごとの一連のビットマップで末尾の位置にあるビッ
トマップは常に圧縮しないことにより、登録文書から摘
出したシグネチャーを格納するときに、ビットマップを
伸長する手間を省略できるようにし、その結果、シグネ
チャーファイルを小さくし、なおかつ文書の登録を効率
よくできるようにする。（５）シグネチャーファイルに
おいて、登録文書のシグネチャーを格納するビットマッ
プ上の位置を、文書データを格納するレコードを一意に
識別することができる値（レコード識別子）から計算可
能な位置にすることにより、文書の検索時に検索文字列
を含むと判断された文書のシグネチャーの格納位置か
ら、文書データが格納されたレコードのレコード識別子
を逆算によって求めることを可能とし、その結果、文書
の検索を効率よくできるようにする。

【００１６】

【実施例】以下、図面を参照して、本発明の一実施例を
詳述する。図１は、本発明による文書検索装置の一実施
例を説明するための構成図で、図中、１は入力部、２は
処理部、３は文字列入力処理部、４はレコード識別子計
算処理部、５は文書検索処理部、６は文書出力処理部、
７は格納位置計算処理部、８は文書登録処理部、９はシ
グネチャー摘出処理部、１０は出力部、１１はデータ
部、１２はシグネチャーファイル、１３はレコードファ
イルである。

【００１７】対象とする検索文字列および登録文書の文
書データの文字コードは、ＡＳＣＩＩ（American Stand
ard Code for Information Interchange）のように、各
文字のバイト数が一律１バイトの文字コードでも、ＥＵ
Ｃ（Extended Unix Code）のように１バイト，２バイ
ト，３バイトの文字が混在する文字コードでもよい。な
お、文字列入力処理部で用いられる内部処理用の文字コ
ードは、変換される文字コード（例えば、ＥＵＣ）と同
じである必要はない。また、本発明においては、ＥＵＣ
を用いた場合について以下に説明する。入力部１から入
力された検索文字列および登録文書の文書データは、処
理部２の文字列入力処理部３で入力用の文字コードから
ＥＵＣに変換される。また、検索時にアクチュアルドロ
ップである文書データは、文書出力処理部６でＥＵＣか
ら出力用の文字コードへ変換される。したがって、検索
文字列および登録文書の文書データは、処理部２内では
常にＥＵＣの文字列として処理され、データ部１１のレ
コードファイルに文書データは、常にＥＵＣの文字列と
して格納される。

【００１８】すなわち、本発明の文書検索装置は、文書
を登録および検索する機能を有し、入力部と処理部とデ
ータ部と出力部との４つの部分から構成される。また、
前記処理部は、文字列入力処理部とシグネチャー摘出処
理部と文書検索処理部とレコード識別子計算処理部と文
書出力処理部と文書登録処理部と格納位置計算処理部と
から構成される。

【００１９】また、前記データ部は、シグネチャーファ
イルとレコードファイルとから構成される。文書の登録
に際しては、入力部で登録する文書データの入力を受け
つけ、入力された文書データは文字列入力処理部で所定
の文字コードに変換されたのち、文書登録処理部に渡さ
れる。該文書登録処理部は、第一に、データ部のレコー
ドファイルに文書データを格納する。第二に、格納位置
計算処理部を利用して、文書データを格納したレコード
の識別子からシグネチャーの格納位置を計算する。第三
に、文書データを一定の文字数のブロックに分割し、シ
グネチャー摘出処理部を利用して各ブロックからブロッ
クシグネチャーを摘出する。ただし、隣接するブロック
どうしは、一定の文字数の重複部分を有する。第四に、
ブロックシグネチャーをデータ部のシグネチャーファイ
ルにおける所定の格納位置に格納する。

【００２０】また、文書の検索に際しては、入力部で検
索文字列を受けつけ、入力された検索文字列は文字列入
力処理部で所定の文字コードに変換されたのち、文書検
索処理部に渡される。該文書検索処理部は、第一に、検
索文字列から制限された文字数以内の部分文字列を抽出
し、シグネチャー摘出処理部を利用して、部分文字列か
らシグネチャーを摘出し、該シグネチャーを検索文字列
のシグネチャーとする。ここで、制限され文字数とは、
登録された文書データを構成するブロックどうしの重複
部分の文字数である。第二に、検索用のシグネチャーで
１がセットされているビットを調べ、データ部のシグネ
チャーファイルにおいて、先に調べたビットの対応する
ビットスライスされたビットマップを参照し、検索文字
列が含まれると判断されるブロックから摘出されたブロ
ックシグネチャーの格納位置を求める。

【００２１】第三に、レコード識別子計算処理部を利用
して、ブロックシグネチャーの格納位置からレコード識
別子の値を求める。第四に、データ部のレコードファイ
ルにおいて、レコード識別子に対応するレコードを参照
して文書データを求める。第五に、求めた文書データを
文書出力処理部に渡す。該文書出力処理部は、渡された
文書データに本当に検索文字列が含まれるかどうかを調
べ、フォルスドロップを除去し、アクチュアルドロップ
を所定の文字コードに変換したのち、文書データを出力
部に渡す。該出力部は渡された文書データを出力する。

【００２２】図２は、文書を登録するフローチャートを
示す図である。以下、各ステップに従って順に説明す
る。まず、入力部１から文書データが入力され（step
1）、文書データは処理部２の文字列入力処理部３で入
力時の文字コードからＥＵＣに変換されたのち（step
2）、文書登録処理部８に渡される。該文書登録処理部
８では、文書データをデータ部１１のレコードファイル
１３に格納し（step3）、文書データを格納したレコー
ドの識別子から格納位置計算処理部７を利用して、文書
データのシグネチャーファイル１２における格納位置を
求める（step4）。さらに、文書データを一定の文字数
の重複部分を持たせながら、一定の文字数のブロックに
分割し（step5）、各文字列からシグネチャー摘出処理
部９を利用して（step6）、抽出されたブロックシグネ
チャーをシグネチャーファイル１２における所定の格納
位置に格納する（step7）。

【００２３】図３は、文書を検索するフローチャートを
示す図である。以下、各ステップに従って順に説明す
る。まず、入力部１から検索文字列が入力され（step1
1）、検索文字列は処理部２の文字列入力処理部３で入
力時の文字コードからＥＵＣに変換されたのち（step1
2）、文書検索処理部５に渡される。該文書検索処理部
５では、検索文字列から一定の文字数以内の部分文字列
を抽出し、その部分文字列からシグネチャー摘出処理部
９を利用してシグネチャーを摘出し（step13）、そのシ
グネチャーとデータ部１１のシグネチャーファイル１３
を利用して、検索文字列を含む文書データのブロックシ
グネチャーの格納位置を求める（step14）。さらに、レ
コード識別子計算処理部４を利用して格納位置からレコ
ード識別子を計算し（step15）、そのレコード識別子に
対応するレコードに格納されている文書データをレコー
ドファイル１２から得て（step16）、文書出力処理部６
によってフォルスドロップである文書データを除去し
（step17）、アクチュアルドロップである文書データを
出力部１０に渡し、該出力部１０は文書データを出力す
る（step18）。

【００２４】図４は、シグネチャー摘出処理部におい
て、文字列からシグネチャーを摘出するフローチャート
を示す図である。シグネチャー摘出処理部９は、ＥＵＣ
の文字コードによる文字列を入力とし、その文字列から
摘出されるシグネチャーを出力とする。また、図５は、
入力された文字列が「プリンタ」である場合の処理の様
子を示す図である。以下、各ステップに従って順に説明
する。

【００２５】まず、所定のビット数のシグネチャーを用
意し、各ビットに０をセットする（step21）。次に、入
力された文字列に含まれる隣接する２文字からなる部分
文字列を抽出する（step22）。次に、各部分文字列を構
成する２文字の文字コードから３２ビットの数値を生成
する（step23）。次に、各３２ビットの数値をシードと
し、乱数を発生させる（step24）。次に、各乱数を所定
のシグネチャーのビット数で割り、その剰余を求める
（step25）。最後に、先に用意したシグネチャーに対し
て、各剰余に対応する位置のビットに１をそれぞれセッ
トする（step26）。

【００２６】文書登録処理部８では、登録文書の文書デ
ータからブロックシグネチャーを以下の処理手順で摘出
する。（１）まず、文書データを一定の文字数の重複部分を持
つ部分文字列を抽出する。この抽出される部分文字列は
一定の文字数である。ただし、文書データの末尾の文字
を含む部分文字列の文字数は、他の部分文字列の文字数
以下となる。（２）次に、シグネチャー摘出処理部を利用して、前記
（１）で抽出した部分文字列のそれぞれについてブロッ
クシグネチャーを摘出する。図６は、文書データからブ
ロックシグネチャーを摘出する様子を示す図である。

【００２７】図７は、文書検索処理部において、検索文
字列からシグネチャーを摘出するフローチャートを示す
図である。以下、各ステップに従って順に説明する。ま
ず、検索文字列に含まれる一定の文字数の部分文字列を
抽出する（step31）。次に、シグネチャー摘出処理部を
利用して、各部分文字列をシグネチャーを摘出する（st
ep32）。次に、各シグネチャーの検索効率を計算し、最
も検索効率のよいシグネチャーを求める（step33）。最
後に、求めたシグネチャーを検索文字列のシグネチャー
とする（step34）。

【００２８】図７において、最も検索効率のよい部分文
字列のシグネチャーは、以下の４つの規則によって決定
される。（１）あるシグネチャーで１がセットされているビット
に対応するビットスライスされたビットマップにおい
て、１がセットされているビットの総数をＤｉとする。
ｉは１以上ｍ以下の整数で、ｍはそのシグネチャーで１
がセットされているビットの数である。（２）あるシグネチャーにおいて、ｉ＜ｊのとき、Ｄｉ
＜Ｄｊとする。（３）あるｉにおいて、他のシグネチャーと比較してＤ
ｉがより小さいシグネチャーは、より検索効率がよいと
する。（４）ｉ＜ｊのとき、Ｄｉがより小さいシグネチャー
は、Ｄｊがより小さいシグネチャーよりも検索効率がよ
いとする。

【００２９】図８は、検索文字列が含まれると判断され
る文書のブロックシグネチャーの格納位置を求めるフロ
ーチャートを示す図である。文書検索処理部５では、摘
出した検索文字列のシグネチャーと、シグネチャーファ
イルに格納されている登録文書のブロックシグネチャー
を比較することによって、検索文字列が含まれると判断
される文書データから抽出されたブロックの格納位置を
求める。以下、各ステップに従って順に説明する。

【００３０】まず、処理はＳＴＡＲＴから開始し、ＦＯ
ＵＮＤまたはＮＯＴＦＯＵＮＤに帰着する。ｈは、シ
グネチャーファイルにおけるブロックシグネチャーの格
納位置を表し、ｈＯは、ｈの初期値を表す。ｉは、検索
文字列のシグネチャーで１がセットされているビットに
対応するビットスライスされたビットマップに与えられ
た番号を表し、１以上ｍ以下の値をとる。ｍは、検索文
字列のシグネチャーで１がセットされているビットの総
数を表す。ただし、検索文字列のシグネチャーで１がセ
ットされているビットに対応するビットスライスされた
ビットマップにおいて、１がセットされているビットの
総数をＤｉとするとき、ｉ＜ｊならばＤｉ＜Ｄｊである
とする。ｂｉｔはｉで指定されるビットスライスされた
ビットマップにおけるｈで指定される格納位置のビット
の値を返す関数である。ｎｅｘｔはｉが１であるビット
スライスされたビットマップにおけるｈ以降で１がセッ
トされている最初のビットの位置を返す関数である。た
だし、ｎｅｘｔはｈ以降に１がセットされているビット
がない場合は、負の値を返す。

【００３１】まず、ｈ＝ｈ０、ｉ＝１（ｓｔｅｐ４
１）、ｈ＝ｎｅｘｔ（ｈ）とする（ｓｔｅｐ４２）。次
に、ｈ＜０かどうかを判断し（ｓｔｅｐ４３）、Ｙｅｓ
であれば、ＮＯＴＦＯＵＮＤとし、Ｎｏであれば、次
にｂｉｔ（ｉ，ｈ）＝１かどうかを判断する（ｓｔｅｐ
４４）。Ｙｅｓであれば、ｉ＝ｉ＋１とし（ｓｔｅｐ４
５）、次にｉ＜＝ｍかどうかを判断し（ｓｔｅｐ４
６）、Ｙｅｓであれば、前記ｓｔｅｐ４４戻り、Ｎｏで
あれば、ＦＯＵＮＤに帰着る。

【００３２】このように、図８に示した手順において、
FOUNDに帰着したとき、ｈの値は検索文字列が含まれる
と判断される文書データのブロックシグネチャーの格納
位置となる。また、NOT FOUNDに帰着したときは、検索
文字列が含まれる文書データは存在しないと判断する。
検索文字列が含まれると判断される文書データのブロッ
クシグネチャーの格納位置をすべて求める場合は、ｈ０
を１として処理を開始し、FOUNDに帰着したらｈ０＝ｈ
＋１として処理を再実行し、これをNOT FOUNDに帰着す
るまで続ける。

【００３３】レコードファイルは、一定の大きさのペー
ジに分割されており、レコード識別子は、レコードが格
納されているページのオフセットとレコードのページ内
でのオフセットの和によって定義される。図９は、レコ
ードファイルの構成を示す図である。ページオフセット
およびレコードオフセットは、ともにバイト単位の値を
とる。

【００３４】シグネチャーファイルは、ファイルヘッダ
ーが１つとシグネチャーのビットマップを格納するため
の複数の一定の大きさのページから構成される。本発明
では、ビットマップを格納するこのページをビットマッ
プページと呼ぶ。シグネチャーのビットマップをビット
スライスし、さらに一定のビット数に分割したものを圧
縮し、ビットマップページに格納するビットマップペー
ジ上のビットマップは、圧縮されない場合は１つだけ格
納されるが、圧縮された場合には、可能な限り複数格納
される。ビットマップページは、ビットスライスごとに
リストになっており、各リストの先頭のビットマップペ
ージのオフセットはファイルヘッダーに格納される。ま
た、ビットマップで１がセットされているビットの合計
が、ビットスライスごとにファイルヘッダーに記録され
る。

【００３５】図１０は、シグネチャーファイルの構成図
である。分割されたビットマップは最大７つで、左から
１番めのビットマップページのリスト上のように、７つ
のビットマップがすべて存在する場合と、左から２番め
のビットマップページのリストのように、ある番号のビ
ットマップが存在しない場合がある。存在しないビット
マップは、検索時に保持するビットがすべて０であるビ
ットマップであると解釈される。また、各ページリスト
の最終ページに格納されているビットマップは、常に圧
縮されていない。これは、ブロックシグネチャーを登録
する操作において、ビットマップを伸長する手間を省略
することを目的とする。

【００３６】シグネチャーファイルにおいて、文書デー
タから摘出したブロックシグネチャーの格納とビットマ
ップの圧縮は、以下の処理手順で行う。（１）ブロックシグネチャーで１のセットされているビ
ットを求め、そのビットに対応するビットマップページ
のリストを先頭のビットマップページのオフセットをフ
ァイルヘッダーから求める。（２）前記ビットマップページのリストを辿り、ブロッ
クシグネチャーの格納位置のビットを保持しているビッ
トマップページを探す。（３）前記（２）で対象とするビットマップページが見
つかれば、格納位置のビットに１をセットし、処理は終
了する。

【００３７】（４）前記（２）で対象とするビットマッ
プページが見つからなければ、ページリストの最終ビッ
トマップページがその圧縮データは可能なかぎり最終ビ
ットマップページの前のビットマップページに格納す
る。圧縮データが前のビットマップページに格納できた
場合、最終ビットマップページの再利用が可能なので、
最終ビットマップページに今回の格納位置のビットを含
むビットマップを格納する。圧縮データが前のビットマ
ップページに格納できない場合は、新規にビットマップ
ページを用意し、ページリストの末尾にそのビットマッ
プページをつなぎ、そのビットマップページに今回の格
納位置のビットを含むビットマップを格納する。

【００３８】格納位置計算処理部７は、ブロックシグネ
チャーのブロック番号と文書データが格納されたレコー
ドの識別子を入力とし、シグネチャーファイルにおける
ブロックシグネチャーの格納位置を出力とする。ブロッ
クシグネチャー１２のブロック番号とは、ブロックシグ
ネチャーの摘出元となる文字列が文書データの何ブロッ
ク目の文字列かを表し、ブロックシグネチャーの格納位
置とは、ビットスライスされたビットマップ中の１をセ
ットすべきビットの位置である。また、レコード識別子
計算処理部４は、ブロックシグネチャーの格納位置を入
力とし、レコード識別子を出力とする。

【００３９】ブロック番号をｂ、レコード識別子をｒ、
１ページあたりの最大レコード数をＮ、レコードが格納
されるページの大きさのバイト数をＰ、１文書データあ
たりの最大ブロック数をＢ、ブロックシグネチャーの格
納位置をｈとし、＋，＊，／，％をそれぞれ和，積，
商，剰余を求める演算子とするとき、格納位置計算処理
部７では、ブロックシグネチャーの格納位置ｈを以下の
式で求める。ｈ＝（(ｒ／Ｐ)＊Ｎ＋(ｒ％Ｐ)）＊Ｂ＋ｂまた、レコード識別子計算処理部４では、レコード識別
子ｒを以下の式で求める。ｒ＝（ｈ／Ｂ）／Ｎ＊Ｐ＋（ｈ／Ｂ）％Ｎこれらの計算式を利用することにより、マッピングテー
ブルを必要とせずに、ブロックシグネチャーの格納位置
からレコード識別子を求めることができる。

【００４０】

【発明の効果】以上の説明から明らかなように、本発明
によると、以下の効果がある。（１）請求項１に対応する効果：日本語による文書のよ
うに、文やパラグラフの区切りの検出が困難な文書で
も、容易に文書データからブロックシグネチャーを抽出
でき、より長い文書を扱う場合でも、シグネチャーファ
イルによる検索結果におけるフォルスドロップの含有率
を抑えて、フォルスドロップを除去する手間を軽減でき
る。（２）請求項２に対応する効果：検索時にビットに１が
セットされているビットがより少ないビットスライスさ
れたビットマップを参照対象とするシグネチャーを検索
文字列から抽出し、なおかつ、参照対象のビットスライ
スされたビットマップを１がセットされているビットの
数が少ない順に参照することにより、シグネチャーにお
いて１がセットされるビットに偏りがある場合でも、検
索効率を低下させずに検索を行うことができる。（３）請求項３に対応する効果：文書データを登録する
操作において、格納すべきブロックシグネチャーで１が
セットされているビットに対応するビットスライスされ
たビットマップに対してのみ１をセットすることで、ブ
ロックシグネチャーの格納する操作が完了するように、
シグネチャーファイルを構成することにより、文書デー
タの登録の手間を軽減できる。（４）請求項４に対応する効果：シグネチャーファイル
において、シグネチャーのビットマップを分割してペー
ジに格納し、選択的に圧縮しているので、シグネチャー
ファイルに必要なファイル領域を最低限に抑え、なおか
つ、ブロックシグネチャーの格納時に必要な伸長操作が
省略することにより、文書データの登録の手間を軽減で
きる。（５）請求項５に対応する効果：ブロックシグネチャー
の格納位置から直接計算によってレコード識別子が求め
られるので、マップテーブルを保持するためのファイル
領域とマップテーブルを参照する手間を省略することが
できる。

【図面の簡単な説明】

【図１】本発明による文書検索装置の一実施例を説明
するための構成図である。

【図２】本発明の文書を登録するフローチャートを示
す図である。

【図３】本発明の文書を検索するフローチャートを示
す図である。

【図４】本発明の文字列からシグネチャーを摘出する
フローチャートを示す図である。

【図５】本発明の文字列からシグネチャーを摘出する
様子を示す図である。

【図６】本発明の文書データからブロックシグネチャ
ーを摘出する様子を示す図である。

【図７】本発明の検索文字列からシグネチャーを摘出
するフローチャートを示す図である。

【図８】本発明の検索文字列が含まれると判断される
文書のブロックシグネチャーの格納位置を求めるフロー
チャートを示す図である。

【図９】本発明のレコードファイルを示す図である。

【図１０】本発明のシグネチャーファイルを示す図で
ある。

【符号の説明】

１…入力部、２…処理部、３…文字列入力処理部、４…
レコード識別子計算処理部、５…文書検索処理部、６…
文書出力処理部、７…格納位置計算処理部、８…文書登
録処理部、９…シグネチャー摘出処理部、１０…出力
部、１１…データ部、１２…シグネチャーファイル、１
３…レコードファイル。

フロントページの続き (72)発明者山本研策東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者竹川弘志東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者金崎克己東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者飯沢篤志東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者古瀬一隆東京都大田区中馬込１丁目３番６号株式会社リコー内 (72)発明者兼宗進東京都大田区中馬込１丁目３番６号株式会社リコー内 (56)参考文献特開平５−135102（ＪＰ，Ａ) 特開平３−125263（ＪＰ，Ａ) 特開平４−274557（ＪＰ，Ａ) 特開昭62−159222（ＪＰ，Ａ) Ａ．Ｍｏｆｆａｔ＆Ｊ．Ｚｏｂｅｌ，”ＰａｒａｍｅｔｅｒｉｚｅｄＣｏｍｐｒｅｓｓｉｏｎｆｏｒｓｐａｒｓｅＢｉｔｍａｐｓ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｉｆｔｅｅｎｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ 1992，Ｐ274− 285 Ｃ．Ｆａｌｏｕｔｓｏｓ，”ＤｅｓｃｒｉｐｔｉｏｎａｎｄＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓｏｆＳｉｇｎａｔｕｒｅＦｉｌｅＭｅｔｈｏｄｓｆｏｒＯｆｆｉｃｅＦｉｌｉｎｇ”，ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＯｆｆｉｃｅＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，Ｖｏｌ．５，Ｎｏ．３，Ｊｕｌｙ 1987, ｐ237−257 Ｃ．Ｆａｌｏｕｔｓｏｓ，”ＳｉｇｎａｔｕｒｅＦｉｌｅｓ：Ｄｅｓｉｇｎａｎｄｐｅｒｆｏｒｍａｎｃｄｃｏｍｐａｒｉｓｏｎｏｆｓｏｍｅｓｉｇｎａｔｕｒｅｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｓ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＭ−ＳＩＧＭＯＤ 1985 ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆｄａｔａ，ＡｕｓｔｉｎＴｅｘａｓ，1985，ｐ63−82 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30 G06F 17/21 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】登録する文書データを入力するとともに
検索文字列を受け付ける入力部と、該入力部により入力
された文書データ又は検索文字列を所定の文字コードに
変換する文字列入力処理部と、該文字列入力処理部によ
り変換された文字コードを入力する文書登録処理部と、
前記文字列入力処理部により変換された文字コードを入
力する文書検索処理部と、該文書登録処理部からの文書
データを格納し、また、レコード識別子に対応するレコ
ードを参照して、前記文書検索処理部から文書データを
求められるレコードファイルと、該レコードファイルに
格納された文書データからシグネチャーの格納位置を計
算する格納位置計算処理部と、前記文書データを一定の
文字数のブロックに分割し、各ブロックからブロックシ
グネチャーを摘出し、また、検索文字列から部分文字列
を抽出し、該部分文字列からシグネチャーを摘出するシ
グネチャー摘出処理部と、該シグネチャー摘出処理部か
ら摘出されたブロックシグネチャーを所定の格納位置に
格納し、また、前記検索文字列が含まれると判断される
ブロックから摘出されたブロックシグネチャーを所定の
格納位置に格納するシグネチャーファイルと、該シグネ
チャーファイルに格納されたブロックシグネチャーの格
納位置からレコード識別子の値を求めるレコード識別子
計算処理部と、前記文書検索処理部で求められた文書デ
ータに検索文字列が含まれているかどうかを判断し、所
定の文字コードに変換する文書出力処理部と、該文書出
力処理部からの文書データを出力する出力部とから成
り、文書データを一定の文字数の文字列に分割し、各文
字列をブロックとみなし、ブロックどうしに重複部分を
持たせ、該重複部分の文字数以下の部分文字列を検索文
字列から抽出し、該部分文字列から摘出したシグネチャ
ーによって検索を行うことを特徴とする文書検索装置。
【請求項２】前記文書データを登録する際、ビットス
ライスごとに１がセットされるビット数を集計してお
き、前記文書データを検索する際、１がセットされてい
るビットの数がより少ないビットマップを参照対象とす
るように検索文字列のシグネチャーを摘出し、さらに、
参照対象のビットマップの参照順序を１がセットされて
いるビットの数がより少ない順とすることを特徴とする
請求項１記載の文書検索装置。
【請求項３】前記ビットマップを一定のビット数に分
割し、分割されたビットマップに全体のビットマップに
おける位置を表すための番号を与え、文書データの検索
に際しては、文書データのシグネチャーで０がセットさ
れているビットに対応するビットマップの変更を省略
し、文書のシグネチャーを格納する処理を行うことを特
徴とする請求項２記載の文書検索装置。
【請求項４】前記ビットスライス構成のシグネチャー
ファイルを適用対象とし、ビットスライスされたビット
マップを一定のビット数ごとに分割し、分割されたビッ
トマップごとにランレングスコーディングによって圧縮
し、各分割されたビットマップを一定の大きさのページ
に圧縮データを格納し、圧縮データが圧縮前のビットマ
ップよりも大きくなるビットマップについては、圧縮し
ないようにし、また、一連の分割されたビットマップの
うち、登録文書のシグネチャーの格納位置となる末尾の
ビットマップについては常に圧縮しないようにすること
を特徴とする請求項２又は３記載の文書検索装置。
【請求項５】前記文書データの登録に際しては、文書
データのシグネチャーの格納位置をレコード識別子の値
から計算された値によって決定し、文書データの検索に
際しては、レコード識別子の値を文書データのシグネチ
ャーの格納位置から逆算することを特徴とする請求項１
記載の文書検索装置。