JPH11120203A

JPH11120203A - データベースを合併する方法およびデータベースからドキュメントを検索する装置

Info

Publication number: JPH11120203A
Application number: JP10125509A
Authority: JP
Inventors: L Horowitz Michael; エル．ホロビッツマイケル
Original assignee: KURARITEC CORP
Current assignee: KURARITEC CORP
Priority date: 1997-07-25
Filing date: 1998-05-08
Publication date: 1999-04-30
Also published as: US6138114A; US5995962A; US6523030B1

Abstract

(57)【要約】【課題】コンピュータシステムを動作させて、反転さ
れたデータベースを作成する際に利用されるディスク記
憶装置へのアクセス動作の頻度を最小限にする方法を提
供すること。【解決手段】本方法は、データベースを幾つかのより
小さい下位データベースに分割する。下位データベース
のドキュメントは下位ドキュメントに分解される。しか
る後各下位データベースに対する公表リストが作成され
る。そのリストでは、下位データベースに対する全ての
語は、それらの語が生じた下位データベースの各下位ド
キュメントに一致するようになっている。しかる後その
結果生じた下位データベースに対する公表リストが合併
される。その合併処理では、下位データベースの公表リ
ストが分類され、そして共通している語が合併される。
共通語を合併した後に共通でない語が合併される。公表
リストを分類した後に共通語を合併し、その後に非共通
語を合併する処理を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データベースシス
テムの分野に関する。特に本発明は、データベースを生
成するためにファイルを効率よく合併するためのシステ
ムに関する。

【０００２】

【従来の技術】データベース内のドキュメントの量は急
速に増大している。全ての必要な情報の９０％以上の情
報が、アクセス可能なデータベース内に存在するドキュ
メントの中から入手できると見積もられている。データ
ベース内の情報が有効に利用されるためには、ユーザは
特定の検索照会に関係のある特定のドキュメントの所在
を見つけることができなければならない。

【０００３】既存の情報検索システムでは、関連のある
ドキュメントを返すために非効率的な技術を用いてい
る。一般に既存の技術は、ユーザの検索照会に結びつく
関連ドキュメントを非常によく逃してしまう。例えば多
くのシステムは、ブール論理に基づく検索照会実行技術
を採用しており、その技術では、キーワードが論理演算
子的またはそれに類似した演算子によって一緒に組み合
わされる。そのようなブールシステムは、単にドキュメ
ントのリストを返すだけであり、各ドキュメントはキー
ワードの組合わせの一つを含んでいるに過ぎない。

【０００４】ブール検索の結果は、返されたドキュメン
トが検索照会にどの程度類似しているかを表す量的な尺
度ではない。類似性の量的な尺度は、データベースから
ドキュメントを検索する際に極めて有用である。その理
由は、ドキュメントが量的な尺度によって評価され得る
からである。ブール式検索の欠点に対して、ベクトル空
間式の検索システムが開発されている。

【０００５】ベクトル空間式検索システムでは、特定の
検索照会に関する点数がデータベース内の各ドキュメン
トに対して計算される。一般に検索照会「Ｑ」およびド
キュメント「Ｄ」は、Ｔ個の語からなる直交空間に亘っ
て検索照会とドキュメントとの共通の特徴および共通で
ない特徴を計算することによって比較され得る。そのよ
うな比較においては、例えば類似性の点数は以下の式よ
り計算され得る。ここでＱi は検索参照における語であ
り、Ｄj はドキュメントにおける語を表している。

【０００６】

【数１】

【０００７】上述したように計算されてなるドキュメン
トと検索照会との類似性の量的な点数は有用である。そ
の理由は、同一の検索照会に対して種々のドキュメント
の得点をお互いに比較することができるからである。し
かしながら点数を計算する式の検討から明らかなよう
に、この計算式はドキュメント当たりの語数の変化によ
って著しく影響される。データベース内のドキュメント
の長さは通常広範囲（例えば１頁未満から数百ページま
で）に亘っており、長さで標準化して点数をつける必要
がある。点数付けを標準化する一つの方法は、個々のド
キュメントをおおよそ同じ長さの下位ドキュメントに分
割することである。それから下位ドキュメントに基づい
て点数付けを計算する。この方法では、単なる語数の相
違は、類似性の分析を著しく歪曲しない。

【０００８】ドキュメントから下位ドキュメントを作成
するには種々の方法がある。単純な方法は、各下位ドキ
ュメントの語数を丁度同じにすることである。別の方法
は、各下位ドキュメント内の文の数を同じにすることで
ある。これら何れの技術も、ドキュメントの長さが異な
ることに起因する問題を解決する助けとなる。しかしな
がらこれらの技術は何れも、下位ドキュメントを作成す
る際にそのドキュメントのテキストの内容を無視してい
る。比較可能な長さの下位ドキュメントを作るとともに
下位ドキュメントの内容も考慮した下位ドキュメントを
作成する技術は、ドキュメント内の段落に対応して下位
ドキュメントを作ることである。

【０００９】大きなデータベースの下位ドキュメントに
対して類似性の点数を計算することは、コンピュータが
極めて多くの下位ドキュメントを処理しなければならな
いことになる。特に何らかの評価処理または検索照会の
検索処理よりも先に、検索されるべき大きなデータベー
スは反転される。データベースを反転することは、デー
タベース内の全ての語とそれらの語を含む下位ドキュメ
ントの特定からなるリストを生成することを含む。ディ
スク記憶装置内のデータベースによって専有されるメモ
リ空間は、コンピュータのメインメモリのメモリ空間よ
りも極めて大きいため、この反転データベースを生成す
ることは困難である。

【００１０】それゆえコンピュータは、メインメモリ内
のデータベースを直接処理する。その理由は、データベ
ース全体をメインメモリに書き込むことはできないから
である。結果としてコンピュータは、ディスク記憶装置
内のデータベースに繰り返しアクセスしてデータベース
を反転しなければならない。ディスク記憶装置内のデー
タにアクセスするのに必要な時間はメインメモリ内のデ
ータにアクセスするのに要する時間よりも長いため、反
転データベースを生成する際の重要な要因は、コンピュ
ータがディスク記憶装置にアクセスしなければならない
頻度を最少化するということである。

【００１１】反転データベースを生成している間にディ
スク記憶装置にアクセスする頻度を最少化する技術は、
大きな反転データベースを幾つかの小さな下位データベ
ースからなるように組み立てることである。コンピュー
タはより小さい下位データベースをより効率よく生成す
ることができるので、これは好ましい技術である。

【００１２】

【発明が解決しようとする課題】しかしながらより小さ
い下位データベースを一緒に合併し直して大きな反転デ
ータベースを生成する更に幾つかの方法がある。下位デ
ータベースはお互いの関係について無作為に作られてい
るので、反転された下位データベースを一緒に合併する
ことは問題である。これらの下位データベースを直接合
併しようとすると、頻繁にディスク記憶装置にアクセス
する必要がある。

【００１３】その理由は、第１の反転下位データベース
内の各語に対して、第２の反転下位ドキュメント内の対
応する語がディスク記憶装置内になければならないこと
と、その対応する語はディスク記憶装置内で任意に配置
されているからである。直接下位データベースを合併す
る処理を行う際にディスク記憶装置に非常に多くの回数
アクセスすると、下位データベースを合併する時の処理
速度が著しく低下する。より効率的な方法で下位データ
ベースを合併するために、分類を行う技術は任意の順番
で反転されてなる下位データベースを系統立てる必要が
ある。分類技術は、ディスク記憶装置に多数回アクセス
しなくても下位データベースが合併され得るようになっ
ていなければならない。

【００１４】本発明の目的は、データベース内のドキュ
メントを分析することにある。

【００１５】本発明の他の目的は、下位ドキュメントを
採点するために反転されたデータベースを効率よく作成
することである。

【００１６】また本発明の他の目的は、一連のより小さ
い下位データベースから反転されたデータベースを作る
ことによって、反転されたデータベースを効率よく作成
することである。

【００１７】さらに本発明の他の目的は、一連の下位デ
ータベースを反転されたデータベースに合併することに
よって、反転されたデータベースを効率よく作成するこ
とである。

【００１８】さらにまた本発明の他の目的は、一連の下
位データベースを反転されたデータベースに合併してい
る間にディスク記憶装置にアクセスする頻度を最小限に
することによって、反転されたデータベースを効率よく
作成することである。

【００１９】また本発明の他の目的は、一連の下位デー
タベースを反転されたデータベースに合併している間に
ディスク記憶装置にアクセスする頻度を最小限にするた
めに下位データベースの下位ドキュメントを効率よく分
類することによって、反転されたデータベースを効率よ
く作成することである。

【００２０】

【課題を解決するための手段】本発明は、コンピュータ
システムを動作させて、反転されたデータベースを作成
する際に利用されるディスク記憶装置へのアクセス動作
の頻度を最小限にする方法である。本方法は、データベ
ースを幾つかのより小さい下位データベースに分割す
る。下位データベースのドキュメントは下位ドキュメン
トに分解される。しかる後各下位データベースに対する
公表リストが作成される。そのリストでは、下位データ
ベースに対する全ての語は、それらの語が生じた下位デ
ータベースの各下位ドキュメントに一致するようになっ
ている。

【００２１】しかる後その結果生じた下位データベース
に対する公表リストが合併される。その合併処理では、
下位データベースの公表リストが分類され、そして共通
している語が合併される。共通語を合併した後に共通で
ない語が合併される。公表リストを分類した後に共通語
を合併し、その後に非共通語を合併する処理によって、
一連の反転されてなる下位データベースから反転された
データベースを生成するために必要となるディスク記憶
装置へのアクセス回数が最少化される。

【００２２】

【発明の実施の形態】以下、この発明に係るデータベー
スを合併する方法およびデータベースからドキュメント
を検索する装置の実施の形態を図面を参照して詳細に説
明する。

【００２３】図１は、データベースから情報を検索する
ために使用されるコンピュータシステムのブロック図で
ある。コンピュータ２０は、中央処理装置（ＣＰＵ）３
０およびメインメモリ４０を備えている。コンピュータ
２０は入／出力（以下、Ｉ／Ｏとする）装置１０および
ディスク記憶装置５０に接続されている。Ｉ／Ｏ装置１
０は、表示装置５、キーボード７およびマウス９を備え
ている。

【００２４】一般にコンピュータ２０は、Ｉ／Ｏ装置１
０およびディスク記憶装置５０と相互に作用し合う。デ
ィスク記憶装置５０は、コンピュータシステムを動作さ
せるプログラムを記憶しているとともに、データベース
を記憶している。そのデータベースは、一連のドキュメ
ントまたはレコードを含んでいる。ディスク記憶装置５
０は、メインメモリ４０の容量よりも極めて大きい容量
を有している。またコンピュータは、メインメモリ４０
から情報を検索するよりもディスク記憶装置から情報を
検索する方がより多くの時間を要する。

【００２５】コンピュータ２０は、ディスク記憶装置か
ら読み出される種々のプログラムを実行する。これらの
プログラムは、ディスク記憶装置５０内に記憶されたデ
ータベースを２つの方法で処理する。第１にはそのプロ
グラムは、種々ある中で、コンピュータ２０にディスク
記憶装置５０内に記憶されたデータベースを反転させる
一連の命令を含んでいる。

【００２６】その反転処理は、データベースの何らかの
検索照会がなされてデータベースを編成しようとする前
に行われるので、特定の情報に対して効率よくデータベ
ースが検索され得る。第２にはそのプログラムは、コン
ピュータ２０にデータベースを検索させてデータベース
内に格納されたドキュメントまたはその一部からなるテ
キストを抽出させる。この検索手順は、通常検索の基礎
となる検索照会を生成するためにデータベースユーザと
やり取りすることを含む。

【００２７】本発明によればコンピュータ２０は、デー
タベースを反転することによってデータベース編成す
る。データベースは、一連の連続した番号のドキュメン
トまたはレコードからなる。データベースを反転するた
めに、一連のドキュメントは最初に一連の下位データベ
ースに補助的に分割される。これは、データベース全体
が大きすぎてコンピュータ２０のメインメモリ内で処理
することができないからである。

【００２８】データベース内の全てのドキュメントが特
定の下位データベースに割り当てられるまで、例えばド
キュメント１−１０００は下位データベースＡを構成
し、ドキュメント１００１−２０００は下位データベー
スＢを構成するなどのようにされる。データベースが下
位データベースに分割されると、それら下位データベー
スは反転される。反転されてなる各下位データベース
は、その下位データベースの全ての語のリストであり、
その語が含まれている下位ドキュメントの対応する識別
子になっている。このリストは、公表リストと呼ばれ
る。

【００２９】図２は、下位データベースを反転する処理
を示すフローチャートである。ステップ１３２では、そ
の下位データベースからドキュメントが選択される。ス
テップ１３４では、そのドキュメントは下位ドキュメン
トに分割される。この処理において、例えば各下位ドキ
ュメントは通常そのドキュメントの段落に相当する。長
い段落は複数の下位ドキュメントに分かれていてもよい
し、幾つかの短い段落が一つの下位ドキュメントに含ま
れていてもよい。全ての下位ドキュメントがおおよそ同
じ長さになっている。

【００３０】さらに下位ドキュメントは、下位データベ
ース内のドキュメントと関係付けられるように連続した
番号が付される。そしてステップ１３６およびステップ
１３８では、それぞれ下位ドキュメントが選択され、解
析される。本例では解析処理は、文の一続きの語に言語
構造が割り当てられ、そして下位ドキュメントの意味の
ある語または名詞句をリストに載せることによって達成
される。この解析処理は、当該技術分野における種々の
公知技術、例えば語彙目録や形態構造の解析手段や自然
言語文法構造を使用することによって実施され得る。

【００３１】下位ドキュメントが解析されると、ステッ
プ１４０で語（名詞句を含む）と、その語を含む下位ド
キュメントの対応する識別子とを含む公表リストが作成
される。その公表リスト内の各語には、その下位データ
ベース内での出現順位を示す識別番号が付与される。そ
れから各ドキュメントに対する下位ドキュメントがステ
ップ１３４−１４０に従って処理され、語および下位ド
キュメントの識別子のリストは最新の情報含むように更
新される。

【００３２】最後に下位データベースの全てのドキュメ
ントがステップ１３２−１４０に従って処理される。こ
のデータベースを反転処理した結果生じるものは、下位
データベース内の位置をキーとする語のリストであり、
そのリストは、下位データベースの全ての語およびそれ
らの語を含む対応する下位ドキュメントを特定する。

【００３３】下位データベースが反転された後、それら
反転されてなる下位データベースは一緒に、単一のデー
タベースに合併し直される必要がある。すなわち個々の
公表リストが合併されなければならないため、両方の下
位データベース（例えばＡおよびＢ）に出現する語は、
結合された語のリストに一つ記載されるように結合され
る。またこの合併処理は、一方の下位データベース
（Ａ）にあって他方の下位データベース（Ｂ）にはない
語、またその逆の場合の語を明らかにしなければならな
い。

【００３４】本発明の一実施の形態による合併処理が図
３に示されている。ステップ２８２では、目的の下位デ
ータベース（以下、目的下位データベースとする）（例
えばＡ）と、その目的下位データベースに合併される合
併下位データベース（例えばＢ）との間で共通の語を特
定する。それからステップ２８４では、合併下位データ
ベース内の共通の語の語識別子（その下位データベース
内での語の順序を示す数字の語識別子）を目的下位デー
タベースの語識別子に再び割り当てるか変更する。共通
語の公表リストは、ディスク記憶装置内の即時ヒープフ
ァイル内に格納される。

【００３５】共通の語識別子が変更されると、ステップ
２８４では合併下位データベースの共通語がそれらの語
識別子によって分類される。その分類処理は、種々の従
前通りの分類処理であってもよい。本例で用いられる分
類処理は、外部ヒープ分類処理（an external heap sor
t process ）である。外部分類は、より一般的な内部分
類（internal sort ）とは異なる。その理由は、外部分
類がコンピュータの内部メモリよりもむしろディスク記
憶装置から分類用のデータを得るからである。ヒープ分
類処理の一般的な形態が図４に示されている。図４の処
理は、語識別子の値をキーとしている。

【００３６】またこの処理はｌ＝（Ｎ／２）＋１および
ｒ＝Ｎを設定することによって初期化される。ここでＮ
は即時ヒープ内の共通語の数である。図４に示す処理
は、ｒ＝１となるまで行われる。この分類処理の結果、
合併下位データベース（Ｂ）の共通語はディスク記憶装
置内で目的下位データベース（Ａ）の語順序で分類され
る。即時ヒープ（その中では、キーが無作為に並べられ
ている）上で外部ヒープ処理を利用することによってコ
ンピュータシステムに与える実際の影響は、その分類の
実行が内部メモリのおおよそ２倍の大きさになり得ると
いうことである。このことは、ディスク記憶装置へのア
クセス動作の必要回数を最少にすることによって分類処
理のパフォーマンスを著しく高める。

【００３７】図３のステップ２８４では、合併下位デー
タベースと目的下位データベースとの間で共通語が処理
され、ステップ２８６では非共通語が処理される。ステ
ップ２８６では、目的下位データベースの非共通語は、
自分の語識別子を保持する。合併下位データベースの非
共通語は、目的下位データベースの最も高い語識別子か
ら続くように再び語識別子を割り当てられる。それから
非共通語に対する公表リストが遅延ヒープ内に格納され
る。遅延ヒープは分類された順番でできている。その理
由は、目的下位データベースの非共通語の語識別子（そ
のヒープのキーである）は数を表す順位であり、合併下
位データベースの非共通語の識別子は目的下位データベ
ースの順位に基づいて連続して割り当てられるからであ
る。

【００３８】ステップ２８４およびステップ２８６にお
いて合併下位データベース（Ｂ）内の語が変更されて分
類された後、ステップ２８８で合併下位データベース
（すなわちＢ）の共通語が目的下位データベース（すな
わちＡ）に合併される。共通語が目的下位データベース
における出現順序に近い順位に変更されたので、ディス
ク記憶装置へのアクセス動作の回数は最少になる。これ
は、データがディスク記憶装置から検索される際に、ペ
ージまたはブロックで検索されるからである。

【００３９】例えば、識別子８１５の「ａｃｃｏｕｎ
ｔ」という語が目的下位データベース（Ａ）内に出てく
ると、合併下位データベース（Ｂ）の語識別番号８１５
を求めて、ディスク記憶装置がアクセスされる。ディス
ク記憶装置は、メインメモリに合併下位データベース
（Ｂ）の語識別番号のブロック（例えば１−２０００）
を返す。結果としてつぎの語識別子である８１６が合併
下位データベース（Ｂ）に対して要求されると、語識別
子８１６の語は直接メインメモリから読み出され得る。
そのページのデータが既にメインメモリ内に存在するの
で、ディスク記憶装置にアクセスする必要はない。

【００４０】共通語が合併された後、合併下位データベ
ース（Ｂ）から得られる残りの非共通語のグループはス
テップ２９０において合併される。語が順番に（語識別
子に従って）記憶されるので、このステップに対するデ
ィスク記憶装置へのアクセス動作の回数もまた最少とな
る。加えて非共通語に関連したドキュメントの数は共通
語に関連した下位ドキュメントの数よりも概して少ない
ので、より少ない収録語を合併処理の終わり近くで目的
下位データベースに合併することは、ディスク記憶装置
内に存在するホールを有効利用する可能性がより高い。
結果としてこの処理はスペース効率がよい。

【００４１】最初の２つの下位データベース（すなわち
ＡおよびＢ）が合併されると、つぎの合併下位データベ
ース（例えばＣ）が選択され、最初の２つの下位データ
ベース（ＡおよびＢ）からできたばかりの新しい目的下
位データベースに合併される。新しい合併データベース
（Ｃ）は、新しく形成された目的データベース内の語に
よって順位を付け直された共通語を有している。そして
新しい合併下位データベースＣの共通語が新しい目的下
位データベースに合併され、その後非共通語が合併され
る。そしてこの処理は、全ての下位データベースが目的
データベースに合併されるまで繰り返される。この処理
の結果、ディスク記憶装置内に単一の合併されてなる反
転データベースが得られる。その反転データベースは、
そのデータベースの全ての語およびそれらの語を含む下
位ドキュメントの全ての対応する識別子を列挙してい
る。

【００４２】反転データベースが作成されると、コンピ
ュータ２０は、ドキュメントの検索を行うためにそのデ
ータベースに対して処理を行うことができる。その検索
処理は、例えばデータベース内の下位ドキュメントと対
比して検索照会を採点し、検索し、下位ドキュメントの
点数に基づいてドキュメントを表示するような多くのタ
イプの従前通りの技術を含んでいてもよい。

【００４３】以上、特定の具体例を説明しながら本発明
を特に詳細に説明するとともに図示したが、上述した説
明または図においては本発明の趣旨または範囲から逸脱
することなく形態または記述について変更がなされても
よいことは、当該技術分野の当業者によって理解される
であろう。

【００４４】

【発明の効果】以上、説明したとおり、この発明に係る
データベースを合併する方法およびデータベースからド
キュメントを検索する装置によれば、データベース内の
ドキュメントを分析することができるという効果を奏す
る。また下位ドキュメントを採点するために反転された
データベースを効率よく作成することができるという効
果を奏する。また、一連のより小さい下位データベース
から反転されたデータベースを作ることによって、反転
されたデータベースを効率よく作成することができると
いう効果を奏する。さらに、一連の下位データベースを
反転されたデータベースに合併することによって、反転
されたデータベースを効率よく作成することができると
いう効果を奏する。

【００４５】さらにまた、一連の下位データベースを反
転されたデータベースに合併している間にディスク記憶
装置にアクセスする頻度を最小限にすることによって、
反転されたデータベースを効率よく作成することができ
るという効果を奏する。また、一連の下位データベース
を反転されたデータベースに合併している間にディスク
記憶装置にアクセスする頻度を最小限にするために下位
データベースの下位ドキュメントを効率よく分類するこ
とによって、反転されたデータベースを効率よく作成す
ることができるという効果を奏する。

【図面の簡単な説明】

【図１】本発明に従ってデータベースからレコードを検
索するのに使用されるコンピュータシステムの概略図で
ある。

【図２】本発明の一実施の形態に従って下位データベー
スを反転する処理を示すフローチャートである。

【図３】本発明の一実施の形態に従って下位データベー
スを合併する処理を示すフローチャートである。

【図４】ヒープ分類処理を示すフローチャートである。

【符号の説明】

１０入／出力装置５表示装置７キーボード９マウス２０コンピュータ３０中央処理装置４０メインメモリ５０ディスク記憶装置

Claims

【特許請求の範囲】

【請求項１】第１の反転されてなる下位データベース
および第２の反転されてなる下位データベース内に存在
する共通語を特定するステップと、前記第２の反転されてなる下位データベースに関して前
記共通語の下位ドキュメント識別子を前記第１の反転さ
れてなる下位データベースの中に配置するステップと、前記共通語の前記配置の後に、前記第２の反転されてな
る下位データベースに関して非共通語の下位ドキュメン
ト識別子を前記第１の反転されてなる下位データベース
の中に配置するステップと、を含むことを特徴とするデータベースを合併する方法。
【請求項２】前記第２の反転されてなるデータベース
からの前記下位ドキュメント識別子を、前記第１の反転
されてなるデータベースの前記下位ドキュメント識別子
の順番に対応する順番で分類するステップを更に含むこ
とを特徴とする請求項１に記載のデータベースを合併す
る方法。
【請求項３】前記共通語は、前記第１の反転されてな
る下位データベースにおける配置よりも先にヒープ分類
処理の中で分類されることを特徴とする請求項２に記載
のデータベースを合併する方法。
【請求項４】前記反転されてなる下位データベースの
前記合併は、第１の反転されてなる下位データベースに
合併されるべき第２の反転されてなる下位データベース
からの語を選択するステップと、前記第２の反転されてなる下位データベースにおける前
記選択された各語に対して第２の反転されてなる下位デ
ータベースの指標を特定するステップと、前記第２の下位データベース内の前記語が前記第１の下
位データベース内に存在する時に、前記第２の反転され
てなる下位データベースの指標を第１の反転されてなる
下位データベースの指標に変更するステップと、前記第２の反転されてなる下位データベースを前記指標
によって分類するステップと、前記第２の反転されて
なる下位データベースからの収録語を前記指標によって
前記第１の反転されてなる下位データベースに配置する
ステップと、を含むことを特徴とする請求項１に記載のデータベース
を合併する方法。
【請求項５】ヒープ分類処理は、前記第２の反転され
てなる下位データベースを分類することを特徴とする請
求項４に記載のデータベースを合併する方法。
【請求項６】ディスク記憶装置に連結されたコンピュ
ータを具備し、前記ディスク記憶装置はデータベースを
記憶しており、前記コンピュータは、前記データベースを前記ディスク
記憶装置に記憶される複数の下位データベースに分割
し、前記下位データベースは前記データベースからの複
数のドキュメントで構成されており、前記コンピュータは、前記下位データベースの各ドキュ
メントを、各下位ドキュメントが識別子を有してなる下
位ドキュメントに分割するとともに、前記下位ドキュメ
ントの各語を、前記語が前記下位ドキュメント識別子に
より現れる各下位ドキュメントと関係付けることによっ
て前記各下位データベースを反転し、前記コンピュータは、第１の反転されてなる下位データ
ベースおよび第２の反転されてなる下位データベース内
に存在する共通語を特定することによって前記反転され
てなる下位データベースを合併し、前記コンピュータは、前記第２の反転されてなる下位デ
ータベースに関して前記共通語の下位ドキュメント識別
子を前記第１の反転されてなる下位データベースに配置
することによって前記反転されてなるデータベースを合
併し、前記コンピュータは、前記共通語の前記配置の後に、前
記第２の反転されてなる下位データベースに関して非共
通語の下位ドキュメント識別子を前記第１の反転されて
なる下位データベースに配置することによって前記反転
されてなるデータベースを合併することを特徴とするデ
ータベースからドキュメントを検索する装置。
【請求項７】前記コンピュータは、前記第２の反転さ
れてなるデータベースからの前記下位ドキュメント識別
子を、前記第１の反転されてなるデータベースの前記下
位ドキュメント識別子の順番に対応する順番で分類する
ことを特徴とする請求項６に記載のデータベースからド
キュメントを検索する装置。
【請求項８】前記共通語は、前記第１の反転されてな
る下位データベースにおける配置よりも先にヒープ分類
処理の中で分類されることを特徴とする請求項７に記載
のデータベースからドキュメントを検索する装置。
【請求項９】前記コンピュータは、第１の反転されて
なる下位データベースに合併されるべき第２の反転され
てなる下位データベースからの語を選択することによっ
て前記反転されてなる下位データベースを合併し、前記コンピュータは、前記第２の反転されてなる下位デ
ータベースにおける前記選択された各語に対して第２の
反転されてなる下位データベースの指標を特定すること
によって前記反転されてなるデータベースを合併し、前記コンピュータは、前記第２の下位データベース内の
前記語が前記第１の下位データベース内に存在する時
に、前記第２の反転されてなる下位データベースの指標
を第１の反転されてなる下位データベースの指標に変更
することによって前記反転されてなる下位データベース
を合併し、前記コンピュータは、前記第２の反転されてなる下位デ
ータベースを前記指標によって分類することによって前
記反転されてなる下位データベースを合併し、前記コンピュータは、前記第２の反転されてなる下位デ
ータベースからの収録語を前記指標によって前記第１の
反転されてなる下位データベースに配置することによっ
て前記反転されてなる下位データベースを合併すること
を特徴とする請求項７に記載のデータベースからドキュ
メントを検索する装置。
【請求項１０】ヒープ分類処理は、前記第２の反転さ
れてなる下位データベースを分類することを特徴とする
請求項９に記載のデータベースからドキュメントを検索
する装置。