JPH11120203A - データベースを合併する方法およびデータベースからドキュメントを検索する装置 - Google Patents

データベースを合併する方法およびデータベースからドキュメントを検索する装置

Info

Publication number
JPH11120203A
JPH11120203A JP10125509A JP12550998A JPH11120203A JP H11120203 A JPH11120203 A JP H11120203A JP 10125509 A JP10125509 A JP 10125509A JP 12550998 A JP12550998 A JP 12550998A JP H11120203 A JPH11120203 A JP H11120203A
Authority
JP
Japan
Prior art keywords
database
inverted
sub
level
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10125509A
Other languages
English (en)
Inventor
L Horowitz Michael
エル.ホロビッツ マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KURARITEC CORP
Original Assignee
KURARITEC CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KURARITEC CORP filed Critical KURARITEC CORP
Publication of JPH11120203A publication Critical patent/JPH11120203A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/36Combined merging and sorting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/22Indexing scheme relating to groups G06F7/22 - G06F7/36
    • G06F2207/224External sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 コンピュータシステムを動作させて、反転さ
れたデータベースを作成する際に利用されるディスク記
憶装置へのアクセス動作の頻度を最小限にする方法を提
供すること。 【解決手段】 本方法は、データベースを幾つかのより
小さい下位データベースに分割する。下位データベース
のドキュメントは下位ドキュメントに分解される。しか
る後各下位データベースに対する公表リストが作成され
る。そのリストでは、下位データベースに対する全ての
語は、それらの語が生じた下位データベースの各下位ド
キュメントに一致するようになっている。しかる後その
結果生じた下位データベースに対する公表リストが合併
される。その合併処理では、下位データベースの公表リ
ストが分類され、そして共通している語が合併される。
共通語を合併した後に共通でない語が合併される。公表
リストを分類した後に共通語を合併し、その後に非共通
語を合併する処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベースシス
テムの分野に関する。特に本発明は、データベースを生
成するためにファイルを効率よく合併するためのシステ
ムに関する。
【0002】
【従来の技術】データベース内のドキュメントの量は急
速に増大している。全ての必要な情報の90%以上の情
報が、アクセス可能なデータベース内に存在するドキュ
メントの中から入手できると見積もられている。データ
ベース内の情報が有効に利用されるためには、ユーザは
特定の検索照会に関係のある特定のドキュメントの所在
を見つけることができなければならない。
【0003】既存の情報検索システムでは、関連のある
ドキュメントを返すために非効率的な技術を用いてい
る。一般に既存の技術は、ユーザの検索照会に結びつく
関連ドキュメントを非常によく逃してしまう。例えば多
くのシステムは、ブール論理に基づく検索照会実行技術
を採用しており、その技術では、キーワードが論理演算
子的またはそれに類似した演算子によって一緒に組み合
わされる。そのようなブールシステムは、単にドキュメ
ントのリストを返すだけであり、各ドキュメントはキー
ワードの組合わせの一つを含んでいるに過ぎない。
【0004】ブール検索の結果は、返されたドキュメン
トが検索照会にどの程度類似しているかを表す量的な尺
度ではない。類似性の量的な尺度は、データベースから
ドキュメントを検索する際に極めて有用である。その理
由は、ドキュメントが量的な尺度によって評価され得る
からである。ブール式検索の欠点に対して、ベクトル空
間式の検索システムが開発されている。
【0005】ベクトル空間式検索システムでは、特定の
検索照会に関する点数がデータベース内の各ドキュメン
トに対して計算される。一般に検索照会「Q」およびド
キュメント「D」は、T個の語からなる直交空間に亘っ
て検索照会とドキュメントとの共通の特徴および共通で
ない特徴を計算することによって比較され得る。そのよ
うな比較においては、例えば類似性の点数は以下の式よ
り計算され得る。ここでQi は検索参照における語であ
り、Dj はドキュメントにおける語を表している。
【0006】
【数1】
【0007】上述したように計算されてなるドキュメン
トと検索照会との類似性の量的な点数は有用である。そ
の理由は、同一の検索照会に対して種々のドキュメント
の得点をお互いに比較することができるからである。し
かしながら点数を計算する式の検討から明らかなよう
に、この計算式はドキュメント当たりの語数の変化によ
って著しく影響される。データベース内のドキュメント
の長さは通常広範囲(例えば1頁未満から数百ページま
で)に亘っており、長さで標準化して点数をつける必要
がある。点数付けを標準化する一つの方法は、個々のド
キュメントをおおよそ同じ長さの下位ドキュメントに分
割することである。それから下位ドキュメントに基づい
て点数付けを計算する。この方法では、単なる語数の相
違は、類似性の分析を著しく歪曲しない。
【0008】ドキュメントから下位ドキュメントを作成
するには種々の方法がある。単純な方法は、各下位ドキ
ュメントの語数を丁度同じにすることである。別の方法
は、各下位ドキュメント内の文の数を同じにすることで
ある。これら何れの技術も、ドキュメントの長さが異な
ることに起因する問題を解決する助けとなる。しかしな
がらこれらの技術は何れも、下位ドキュメントを作成す
る際にそのドキュメントのテキストの内容を無視してい
る。比較可能な長さの下位ドキュメントを作るとともに
下位ドキュメントの内容も考慮した下位ドキュメントを
作成する技術は、ドキュメント内の段落に対応して下位
ドキュメントを作ることである。
【0009】大きなデータベースの下位ドキュメントに
対して類似性の点数を計算することは、コンピュータが
極めて多くの下位ドキュメントを処理しなければならな
いことになる。特に何らかの評価処理または検索照会の
検索処理よりも先に、検索されるべき大きなデータベー
スは反転される。データベースを反転することは、デー
タベース内の全ての語とそれらの語を含む下位ドキュメ
ントの特定からなるリストを生成することを含む。ディ
スク記憶装置内のデータベースによって専有されるメモ
リ空間は、コンピュータのメインメモリのメモリ空間よ
りも極めて大きいため、この反転データベースを生成す
ることは困難である。
【0010】それゆえコンピュータは、メインメモリ内
のデータベースを直接処理する。その理由は、データベ
ース全体をメインメモリに書き込むことはできないから
である。結果としてコンピュータは、ディスク記憶装置
内のデータベースに繰り返しアクセスしてデータベース
を反転しなければならない。ディスク記憶装置内のデー
タにアクセスするのに必要な時間はメインメモリ内のデ
ータにアクセスするのに要する時間よりも長いため、反
転データベースを生成する際の重要な要因は、コンピュ
ータがディスク記憶装置にアクセスしなければならない
頻度を最少化するということである。
【0011】反転データベースを生成している間にディ
スク記憶装置にアクセスする頻度を最少化する技術は、
大きな反転データベースを幾つかの小さな下位データベ
ースからなるように組み立てることである。コンピュー
タはより小さい下位データベースをより効率よく生成す
ることができるので、これは好ましい技術である。
【0012】
【発明が解決しようとする課題】しかしながらより小さ
い下位データベースを一緒に合併し直して大きな反転デ
ータベースを生成する更に幾つかの方法がある。下位デ
ータベースはお互いの関係について無作為に作られてい
るので、反転された下位データベースを一緒に合併する
ことは問題である。これらの下位データベースを直接合
併しようとすると、頻繁にディスク記憶装置にアクセス
する必要がある。
【0013】その理由は、第1の反転下位データベース
内の各語に対して、第2の反転下位ドキュメント内の対
応する語がディスク記憶装置内になければならないこと
と、その対応する語はディスク記憶装置内で任意に配置
されているからである。直接下位データベースを合併す
る処理を行う際にディスク記憶装置に非常に多くの回数
アクセスすると、下位データベースを合併する時の処理
速度が著しく低下する。より効率的な方法で下位データ
ベースを合併するために、分類を行う技術は任意の順番
で反転されてなる下位データベースを系統立てる必要が
ある。分類技術は、ディスク記憶装置に多数回アクセス
しなくても下位データベースが合併され得るようになっ
ていなければならない。
【0014】本発明の目的は、データベース内のドキュ
メントを分析することにある。
【0015】本発明の他の目的は、下位ドキュメントを
採点するために反転されたデータベースを効率よく作成
することである。
【0016】また本発明の他の目的は、一連のより小さ
い下位データベースから反転されたデータベースを作る
ことによって、反転されたデータベースを効率よく作成
することである。
【0017】さらに本発明の他の目的は、一連の下位デ
ータベースを反転されたデータベースに合併することに
よって、反転されたデータベースを効率よく作成するこ
とである。
【0018】さらにまた本発明の他の目的は、一連の下
位データベースを反転されたデータベースに合併してい
る間にディスク記憶装置にアクセスする頻度を最小限に
することによって、反転されたデータベースを効率よく
作成することである。
【0019】また本発明の他の目的は、一連の下位デー
タベースを反転されたデータベースに合併している間に
ディスク記憶装置にアクセスする頻度を最小限にするた
めに下位データベースの下位ドキュメントを効率よく分
類することによって、反転されたデータベースを効率よ
く作成することである。
【0020】
【課題を解決するための手段】本発明は、コンピュータ
システムを動作させて、反転されたデータベースを作成
する際に利用されるディスク記憶装置へのアクセス動作
の頻度を最小限にする方法である。本方法は、データベ
ースを幾つかのより小さい下位データベースに分割す
る。下位データベースのドキュメントは下位ドキュメン
トに分解される。しかる後各下位データベースに対する
公表リストが作成される。そのリストでは、下位データ
ベースに対する全ての語は、それらの語が生じた下位デ
ータベースの各下位ドキュメントに一致するようになっ
ている。
【0021】しかる後その結果生じた下位データベース
に対する公表リストが合併される。その合併処理では、
下位データベースの公表リストが分類され、そして共通
している語が合併される。共通語を合併した後に共通で
ない語が合併される。公表リストを分類した後に共通語
を合併し、その後に非共通語を合併する処理によって、
一連の反転されてなる下位データベースから反転された
データベースを生成するために必要となるディスク記憶
装置へのアクセス回数が最少化される。
【0022】
【発明の実施の形態】以下、この発明に係るデータベー
スを合併する方法およびデータベースからドキュメント
を検索する装置の実施の形態を図面を参照して詳細に説
明する。
【0023】図1は、データベースから情報を検索する
ために使用されるコンピュータシステムのブロック図で
ある。コンピュータ20は、中央処理装置(CPU)3
0およびメインメモリ40を備えている。コンピュータ
20は入/出力(以下、I/Oとする)装置10および
ディスク記憶装置50に接続されている。I/O装置1
0は、表示装置5、キーボード7およびマウス9を備え
ている。
【0024】一般にコンピュータ20は、I/O装置1
0およびディスク記憶装置50と相互に作用し合う。デ
ィスク記憶装置50は、コンピュータシステムを動作さ
せるプログラムを記憶しているとともに、データベース
を記憶している。そのデータベースは、一連のドキュメ
ントまたはレコードを含んでいる。ディスク記憶装置5
0は、メインメモリ40の容量よりも極めて大きい容量
を有している。またコンピュータは、メインメモリ40
から情報を検索するよりもディスク記憶装置から情報を
検索する方がより多くの時間を要する。
【0025】コンピュータ20は、ディスク記憶装置か
ら読み出される種々のプログラムを実行する。これらの
プログラムは、ディスク記憶装置50内に記憶されたデ
ータベースを2つの方法で処理する。第1にはそのプロ
グラムは、種々ある中で、コンピュータ20にディスク
記憶装置50内に記憶されたデータベースを反転させる
一連の命令を含んでいる。
【0026】その反転処理は、データベースの何らかの
検索照会がなされてデータベースを編成しようとする前
に行われるので、特定の情報に対して効率よくデータベ
ースが検索され得る。第2にはそのプログラムは、コン
ピュータ20にデータベースを検索させてデータベース
内に格納されたドキュメントまたはその一部からなるテ
キストを抽出させる。この検索手順は、通常検索の基礎
となる検索照会を生成するためにデータベースユーザと
やり取りすることを含む。
【0027】本発明によればコンピュータ20は、デー
タベースを反転することによってデータベース編成す
る。データベースは、一連の連続した番号のドキュメン
トまたはレコードからなる。データベースを反転するた
めに、一連のドキュメントは最初に一連の下位データベ
ースに補助的に分割される。これは、データベース全体
が大きすぎてコンピュータ20のメインメモリ内で処理
することができないからである。
【0028】データベース内の全てのドキュメントが特
定の下位データベースに割り当てられるまで、例えばド
キュメント1−1000は下位データベースAを構成
し、ドキュメント1001−2000は下位データベー
スBを構成するなどのようにされる。データベースが下
位データベースに分割されると、それら下位データベー
スは反転される。反転されてなる各下位データベース
は、その下位データベースの全ての語のリストであり、
その語が含まれている下位ドキュメントの対応する識別
子になっている。このリストは、公表リストと呼ばれ
る。
【0029】図2は、下位データベースを反転する処理
を示すフローチャートである。ステップ132では、そ
の下位データベースからドキュメントが選択される。ス
テップ134では、そのドキュメントは下位ドキュメン
トに分割される。この処理において、例えば各下位ドキ
ュメントは通常そのドキュメントの段落に相当する。長
い段落は複数の下位ドキュメントに分かれていてもよい
し、幾つかの短い段落が一つの下位ドキュメントに含ま
れていてもよい。全ての下位ドキュメントがおおよそ同
じ長さになっている。
【0030】さらに下位ドキュメントは、下位データベ
ース内のドキュメントと関係付けられるように連続した
番号が付される。そしてステップ136およびステップ
138では、それぞれ下位ドキュメントが選択され、解
析される。本例では解析処理は、文の一続きの語に言語
構造が割り当てられ、そして下位ドキュメントの意味の
ある語または名詞句をリストに載せることによって達成
される。この解析処理は、当該技術分野における種々の
公知技術、例えば語彙目録や形態構造の解析手段や自然
言語文法構造を使用することによって実施され得る。
【0031】下位ドキュメントが解析されると、ステッ
プ140で語(名詞句を含む)と、その語を含む下位ド
キュメントの対応する識別子とを含む公表リストが作成
される。その公表リスト内の各語には、その下位データ
ベース内での出現順位を示す識別番号が付与される。そ
れから各ドキュメントに対する下位ドキュメントがステ
ップ134−140に従って処理され、語および下位ド
キュメントの識別子のリストは最新の情報含むように更
新される。
【0032】最後に下位データベースの全てのドキュメ
ントがステップ132−140に従って処理される。こ
のデータベースを反転処理した結果生じるものは、下位
データベース内の位置をキーとする語のリストであり、
そのリストは、下位データベースの全ての語およびそれ
らの語を含む対応する下位ドキュメントを特定する。
【0033】下位データベースが反転された後、それら
反転されてなる下位データベースは一緒に、単一のデー
タベースに合併し直される必要がある。すなわち個々の
公表リストが合併されなければならないため、両方の下
位データベース(例えばAおよびB)に出現する語は、
結合された語のリストに一つ記載されるように結合され
る。またこの合併処理は、一方の下位データベース
(A)にあって他方の下位データベース(B)にはない
語、またその逆の場合の語を明らかにしなければならな
い。
【0034】本発明の一実施の形態による合併処理が図
3に示されている。ステップ282では、目的の下位デ
ータベース(以下、目的下位データベースとする)(例
えばA)と、その目的下位データベースに合併される合
併下位データベース(例えばB)との間で共通の語を特
定する。それからステップ284では、合併下位データ
ベース内の共通の語の語識別子(その下位データベース
内での語の順序を示す数字の語識別子)を目的下位デー
タベースの語識別子に再び割り当てるか変更する。共通
語の公表リストは、ディスク記憶装置内の即時ヒープフ
ァイル内に格納される。
【0035】共通の語識別子が変更されると、ステップ
284では合併下位データベースの共通語がそれらの語
識別子によって分類される。その分類処理は、種々の従
前通りの分類処理であってもよい。本例で用いられる分
類処理は、外部ヒープ分類処理(an external heap sor
t process )である。外部分類は、より一般的な内部分
類(internal sort )とは異なる。その理由は、外部分
類がコンピュータの内部メモリよりもむしろディスク記
憶装置から分類用のデータを得るからである。ヒープ分
類処理の一般的な形態が図4に示されている。図4の処
理は、語識別子の値をキーとしている。
【0036】またこの処理はl=(N/2)+1および
r=Nを設定することによって初期化される。ここでN
は即時ヒープ内の共通語の数である。図4に示す処理
は、r=1となるまで行われる。この分類処理の結果、
合併下位データベース(B)の共通語はディスク記憶装
置内で目的下位データベース(A)の語順序で分類され
る。即時ヒープ(その中では、キーが無作為に並べられ
ている)上で外部ヒープ処理を利用することによってコ
ンピュータシステムに与える実際の影響は、その分類の
実行が内部メモリのおおよそ2倍の大きさになり得ると
いうことである。このことは、ディスク記憶装置へのア
クセス動作の必要回数を最少にすることによって分類処
理のパフォーマンスを著しく高める。
【0037】図3のステップ284では、合併下位デー
タベースと目的下位データベースとの間で共通語が処理
され、ステップ286では非共通語が処理される。ステ
ップ286では、目的下位データベースの非共通語は、
自分の語識別子を保持する。合併下位データベースの非
共通語は、目的下位データベースの最も高い語識別子か
ら続くように再び語識別子を割り当てられる。それから
非共通語に対する公表リストが遅延ヒープ内に格納され
る。遅延ヒープは分類された順番でできている。その理
由は、目的下位データベースの非共通語の語識別子(そ
のヒープのキーである)は数を表す順位であり、合併下
位データベースの非共通語の識別子は目的下位データベ
ースの順位に基づいて連続して割り当てられるからであ
る。
【0038】ステップ284およびステップ286にお
いて合併下位データベース(B)内の語が変更されて分
類された後、ステップ288で合併下位データベース
(すなわちB)の共通語が目的下位データベース(すな
わちA)に合併される。共通語が目的下位データベース
における出現順序に近い順位に変更されたので、ディス
ク記憶装置へのアクセス動作の回数は最少になる。これ
は、データがディスク記憶装置から検索される際に、ペ
ージまたはブロックで検索されるからである。
【0039】例えば、識別子815の「accoun
t」という語が目的下位データベース(A)内に出てく
ると、合併下位データベース(B)の語識別番号815
を求めて、ディスク記憶装置がアクセスされる。ディス
ク記憶装置は、メインメモリに合併下位データベース
(B)の語識別番号のブロック(例えば1−2000)
を返す。結果としてつぎの語識別子である816が合併
下位データベース(B)に対して要求されると、語識別
子816の語は直接メインメモリから読み出され得る。
そのページのデータが既にメインメモリ内に存在するの
で、ディスク記憶装置にアクセスする必要はない。
【0040】共通語が合併された後、合併下位データベ
ース(B)から得られる残りの非共通語のグループはス
テップ290において合併される。語が順番に(語識別
子に従って)記憶されるので、このステップに対するデ
ィスク記憶装置へのアクセス動作の回数もまた最少とな
る。加えて非共通語に関連したドキュメントの数は共通
語に関連した下位ドキュメントの数よりも概して少ない
ので、より少ない収録語を合併処理の終わり近くで目的
下位データベースに合併することは、ディスク記憶装置
内に存在するホールを有効利用する可能性がより高い。
結果としてこの処理はスペース効率がよい。
【0041】最初の2つの下位データベース(すなわち
AおよびB)が合併されると、つぎの合併下位データベ
ース(例えばC)が選択され、最初の2つの下位データ
ベース(AおよびB)からできたばかりの新しい目的下
位データベースに合併される。新しい合併データベース
(C)は、新しく形成された目的データベース内の語に
よって順位を付け直された共通語を有している。そして
新しい合併下位データベースCの共通語が新しい目的下
位データベースに合併され、その後非共通語が合併され
る。そしてこの処理は、全ての下位データベースが目的
データベースに合併されるまで繰り返される。この処理
の結果、ディスク記憶装置内に単一の合併されてなる反
転データベースが得られる。その反転データベースは、
そのデータベースの全ての語およびそれらの語を含む下
位ドキュメントの全ての対応する識別子を列挙してい
る。
【0042】反転データベースが作成されると、コンピ
ュータ20は、ドキュメントの検索を行うためにそのデ
ータベースに対して処理を行うことができる。その検索
処理は、例えばデータベース内の下位ドキュメントと対
比して検索照会を採点し、検索し、下位ドキュメントの
点数に基づいてドキュメントを表示するような多くのタ
イプの従前通りの技術を含んでいてもよい。
【0043】以上、特定の具体例を説明しながら本発明
を特に詳細に説明するとともに図示したが、上述した説
明または図においては本発明の趣旨または範囲から逸脱
することなく形態または記述について変更がなされても
よいことは、当該技術分野の当業者によって理解される
であろう。
【0044】
【発明の効果】以上、説明したとおり、この発明に係る
データベースを合併する方法およびデータベースからド
キュメントを検索する装置によれば、データベース内の
ドキュメントを分析することができるという効果を奏す
る。また下位ドキュメントを採点するために反転された
データベースを効率よく作成することができるという効
果を奏する。また、一連のより小さい下位データベース
から反転されたデータベースを作ることによって、反転
されたデータベースを効率よく作成することができると
いう効果を奏する。さらに、一連の下位データベースを
反転されたデータベースに合併することによって、反転
されたデータベースを効率よく作成することができると
いう効果を奏する。
【0045】さらにまた、一連の下位データベースを反
転されたデータベースに合併している間にディスク記憶
装置にアクセスする頻度を最小限にすることによって、
反転されたデータベースを効率よく作成することができ
るという効果を奏する。また、一連の下位データベース
を反転されたデータベースに合併している間にディスク
記憶装置にアクセスする頻度を最小限にするために下位
データベースの下位ドキュメントを効率よく分類するこ
とによって、反転されたデータベースを効率よく作成す
ることができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明に従ってデータベースからレコードを検
索するのに使用されるコンピュータシステムの概略図で
ある。
【図2】本発明の一実施の形態に従って下位データベー
スを反転する処理を示すフローチャートである。
【図3】本発明の一実施の形態に従って下位データベー
スを合併する処理を示すフローチャートである。
【図4】ヒープ分類処理を示すフローチャートである。
【符号の説明】
10 入/出力装置 5 表示装置 7 キーボード 9 マウス 20 コンピュータ 30 中央処理装置 40 メインメモリ 50 ディスク記憶装置

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 第1の反転されてなる下位データベース
    および第2の反転されてなる下位データベース内に存在
    する共通語を特定するステップと、 前記第2の反転されてなる下位データベースに関して前
    記共通語の下位ドキュメント識別子を前記第1の反転さ
    れてなる下位データベースの中に配置するステップと、 前記共通語の前記配置の後に、前記第2の反転されてな
    る下位データベースに関して非共通語の下位ドキュメン
    ト識別子を前記第1の反転されてなる下位データベース
    の中に配置するステップと、 を含むことを特徴とするデータベースを合併する方法。
  2. 【請求項2】 前記第2の反転されてなるデータベース
    からの前記下位ドキュメント識別子を、前記第1の反転
    されてなるデータベースの前記下位ドキュメント識別子
    の順番に対応する順番で分類するステップを更に含むこ
    とを特徴とする請求項1に記載のデータベースを合併す
    る方法。
  3. 【請求項3】 前記共通語は、前記第1の反転されてな
    る下位データベースにおける配置よりも先にヒープ分類
    処理の中で分類されることを特徴とする請求項2に記載
    のデータベースを合併する方法。
  4. 【請求項4】 前記反転されてなる下位データベースの
    前記合併は、第1の反転されてなる下位データベースに
    合併されるべき第2の反転されてなる下位データベース
    からの語を選択するステップと、 前記第2の反転されてなる下位データベースにおける前
    記選択された各語に対して第2の反転されてなる下位デ
    ータベースの指標を特定するステップと、 前記第2の下位データベース内の前記語が前記第1の下
    位データベース内に存在する時に、前記第2の反転され
    てなる下位データベースの指標を第1の反転されてなる
    下位データベースの指標に変更するステップと、 前記第2の反転されてなる下位データベースを前記指標
    によって分類するステップと、 前記第2の反転されて
    なる下位データベースからの収録語を前記指標によって
    前記第1の反転されてなる下位データベースに配置する
    ステップと、 を含むことを特徴とする請求項1に記載のデータベース
    を合併する方法。
  5. 【請求項5】 ヒープ分類処理は、前記第2の反転され
    てなる下位データベースを分類することを特徴とする請
    求項4に記載のデータベースを合併する方法。
  6. 【請求項6】 ディスク記憶装置に連結されたコンピュ
    ータを具備し、前記ディスク記憶装置はデータベースを
    記憶しており、 前記コンピュータは、前記データベースを前記ディスク
    記憶装置に記憶される複数の下位データベースに分割
    し、前記下位データベースは前記データベースからの複
    数のドキュメントで構成されており、 前記コンピュータは、前記下位データベースの各ドキュ
    メントを、各下位ドキュメントが識別子を有してなる下
    位ドキュメントに分割するとともに、前記下位ドキュメ
    ントの各語を、前記語が前記下位ドキュメント識別子に
    より現れる各下位ドキュメントと関係付けることによっ
    て前記各下位データベースを反転し、 前記コンピュータは、第1の反転されてなる下位データ
    ベースおよび第2の反転されてなる下位データベース内
    に存在する共通語を特定することによって前記反転され
    てなる下位データベースを合併し、 前記コンピュータは、前記第2の反転されてなる下位デ
    ータベースに関して前記共通語の下位ドキュメント識別
    子を前記第1の反転されてなる下位データベースに配置
    することによって前記反転されてなるデータベースを合
    併し、 前記コンピュータは、前記共通語の前記配置の後に、前
    記第2の反転されてなる下位データベースに関して非共
    通語の下位ドキュメント識別子を前記第1の反転されて
    なる下位データベースに配置することによって前記反転
    されてなるデータベースを合併することを特徴とするデ
    ータベースからドキュメントを検索する装置。
  7. 【請求項7】 前記コンピュータは、前記第2の反転さ
    れてなるデータベースからの前記下位ドキュメント識別
    子を、前記第1の反転されてなるデータベースの前記下
    位ドキュメント識別子の順番に対応する順番で分類する
    ことを特徴とする請求項6に記載のデータベースからド
    キュメントを検索する装置。
  8. 【請求項8】 前記共通語は、前記第1の反転されてな
    る下位データベースにおける配置よりも先にヒープ分類
    処理の中で分類されることを特徴とする請求項7に記載
    のデータベースからドキュメントを検索する装置。
  9. 【請求項9】 前記コンピュータは、第1の反転されて
    なる下位データベースに合併されるべき第2の反転され
    てなる下位データベースからの語を選択することによっ
    て前記反転されてなる下位データベースを合併し、 前記コンピュータは、前記第2の反転されてなる下位デ
    ータベースにおける前記選択された各語に対して第2の
    反転されてなる下位データベースの指標を特定すること
    によって前記反転されてなるデータベースを合併し、 前記コンピュータは、前記第2の下位データベース内の
    前記語が前記第1の下位データベース内に存在する時
    に、前記第2の反転されてなる下位データベースの指標
    を第1の反転されてなる下位データベースの指標に変更
    することによって前記反転されてなる下位データベース
    を合併し、 前記コンピュータは、前記第2の反転されてなる下位デ
    ータベースを前記指標によって分類することによって前
    記反転されてなる下位データベースを合併し、 前記コンピュータは、前記第2の反転されてなる下位デ
    ータベースからの収録語を前記指標によって前記第1の
    反転されてなる下位データベースに配置することによっ
    て前記反転されてなる下位データベースを合併すること
    を特徴とする請求項7に記載のデータベースからドキュ
    メントを検索する装置。
  10. 【請求項10】 ヒープ分類処理は、前記第2の反転さ
    れてなる下位データベースを分類することを特徴とする
    請求項9に記載のデータベースからドキュメントを検索
    する装置。
JP10125509A 1997-07-25 1998-05-08 データベースを合併する方法およびデータベースからドキュメントを検索する装置 Pending JPH11120203A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/900,637 US5995962A (en) 1997-07-25 1997-07-25 Sort system for merging database entries
US08/900637 1997-07-25

Publications (1)

Publication Number Publication Date
JPH11120203A true JPH11120203A (ja) 1999-04-30

Family

ID=25412845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10125509A Pending JPH11120203A (ja) 1997-07-25 1998-05-08 データベースを合併する方法およびデータベースからドキュメントを検索する装置

Country Status (2)

Country Link
US (3) US5995962A (ja)
JP (1) JPH11120203A (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278990B1 (en) * 1997-07-25 2001-08-21 Claritech Corporation Sort system for text retrieval
US5995962A (en) * 1997-07-25 1999-11-30 Claritech Corporation Sort system for merging database entries
US7277933B2 (en) * 2000-08-28 2007-10-02 Fujitsu Limited System for operating a plurality of apparatuses based on accumulated operating times thereof to equalize the respective operating times of the apparatuses
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US6691109B2 (en) * 2001-03-22 2004-02-10 Turbo Worx, Inc. Method and apparatus for high-performance sequence comparison
US7614036B2 (en) * 2001-03-22 2009-11-03 Robert D Bjornson Method and system for dataflow creation and execution
US7634756B2 (en) 2001-03-22 2009-12-15 Robert Dean Bjornson Method and apparatus for dataflow creation and execution
JP4161212B2 (ja) * 2001-09-21 2008-10-08 野路 福三 企業経営に使われる表データ生成コンピュータシステム
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7669241B2 (en) * 2004-09-30 2010-02-23 Alcatel-Lucent Usa Inc. Streaming algorithms for robust, real-time detection of DDoS attacks
US7565349B2 (en) * 2005-11-10 2009-07-21 International Business Machines Corporation Method for computing frequency distribution for many fields in one pass in parallel
US20080072134A1 (en) * 2006-09-19 2008-03-20 Sreeram Viswanath Balakrishnan Annotating token sequences within documents
JP4398971B2 (ja) * 2006-12-07 2010-01-13 シャープ株式会社 画像処理装置
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US11226947B1 (en) 2007-10-10 2022-01-18 United Services Automobile Association (Usaa) Systems and methods for storing time-series data
US9195700B1 (en) 2007-10-10 2015-11-24 United Services Automobile Association (Usaa) Systems and methods for storing time-series data
US20090150482A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Method of cloning a server installation to a network client
US20090150174A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Healthcare management system having improved printing of display screen information
US8566818B2 (en) 2007-12-07 2013-10-22 Roche Diagnostics Operations, Inc. Method and system for configuring a consolidated software application
US8819040B2 (en) 2007-12-07 2014-08-26 Roche Diagnostics Operations, Inc. Method and system for querying a database
US7996245B2 (en) * 2007-12-07 2011-08-09 Roche Diagnostics Operations, Inc. Patient-centric healthcare information maintenance
US8365065B2 (en) * 2007-12-07 2013-01-29 Roche Diagnostics Operations, Inc. Method and system for creating user-defined outputs
US20090150865A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Method and system for activating features and functions of a consolidated software application
US20090150780A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Help utility functionality and architecture
US20090150181A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Method and system for personal medical data database merging
US8112390B2 (en) 2007-12-07 2012-02-07 Roche Diagnostics Operations, Inc. Method and system for merging extensible data into a database using globally unique identifiers
US9003538B2 (en) 2007-12-07 2015-04-07 Roche Diagnostics Operations, Inc. Method and system for associating database content for security enhancement
US20090150439A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Common extensible data exchange format
US20090150771A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. System and method for reporting medical information
US20090192813A1 (en) * 2008-01-29 2009-07-30 Roche Diagnostics Operations, Inc. Information transfer through optical character recognition
US8171031B2 (en) 2008-06-27 2012-05-01 Microsoft Corporation Index optimization for ranking using a linear model
US8161036B2 (en) * 2008-06-27 2012-04-17 Microsoft Corporation Index optimization for ranking using a linear model
US10831503B2 (en) 2018-11-06 2020-11-10 International Business Machines Corporation Saving and restoring machine state between multiple executions of an instruction
US10831478B2 (en) 2018-11-06 2020-11-10 International Business Machines Corporation Sort and merge instruction for a general-purpose processor
US10831502B2 (en) 2018-11-06 2020-11-10 International Business Machines Corporation Migration of partially completed instructions

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0214313B1 (en) * 1984-08-22 1993-03-10 Hitachi, Ltd. Method and apparatus for data merging/sorting
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5600831A (en) * 1994-02-28 1997-02-04 Lucent Technologies Inc. Apparatus and methods for retrieving information by modifying query plan based on description of information sources
US5497486A (en) * 1994-03-15 1996-03-05 Salvatore J. Stolfo Method of merging large databases in parallel
US5668897A (en) * 1994-03-15 1997-09-16 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression merge/purge techniques for document image databases
CA2124094C (en) * 1994-05-20 1999-07-20 K. Bernhard Schiefer Method and apparatus for optimizing data retrieval using index scanning
US5600829A (en) * 1994-09-02 1997-02-04 Wisconsin Alumni Research Foundation Computer database matching a user query to queries indicating the contents of individual database tables
US5611076A (en) * 1994-09-21 1997-03-11 Micro Data Base Systems, Inc. Multi-model database management system engine for databases having complex data models
US5577241A (en) * 1994-12-07 1996-11-19 Excite, Inc. Information retrieval system and method with implementation extensible query architecture
US5535325A (en) * 1994-12-19 1996-07-09 International Business Machines Corporation Method and apparatus for automatically generating database definitions of indirect facts from entity-relationship diagrams
US5758149A (en) * 1995-03-17 1998-05-26 Unisys Corporation System for optimally processing a transaction and a query to the same database concurrently
US5995962A (en) * 1997-07-25 1999-11-30 Claritech Corporation Sort system for merging database entries

Also Published As

Publication number Publication date
US6138114A (en) 2000-10-24
US5995962A (en) 1999-11-30
US6523030B1 (en) 2003-02-18

Similar Documents

Publication Publication Date Title
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
US7516125B2 (en) Processor for fast contextual searching
US8135717B2 (en) Processor for fast contextual matching
US5907840A (en) Overlapping subdocuments in a vector space search process
US5926811A (en) Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US6931408B2 (en) Method of storing, maintaining and distributing computer intelligible electronic data
US5926808A (en) Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US5519857A (en) Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
CN113407785B (zh) 一种基于分布式储存***的数据处理方法和***
US6505198B2 (en) Sort system for text retrieval
CN111400323A (zh) 数据检索方法、***、设备及存储介质
JPH0944523A (ja) 関連語提示装置
US6473755B2 (en) Overlapping subdocuments in a vector space search process
JPH06348757A (ja) 文書検索装置および方法
JPS63198124A (ja) 文例検索装置
JPH01149127A (ja) 情報検索装置
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH03137772A (ja) データベース利用システム
JP3508842B2 (ja) データベース検索システムおよびデータベース検索プログラムを記録した記録媒体
Samanek Partial-match retrieval using multi-level superimposed codes: Jaroslav (Joe) Samanek
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080527

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081021