JP2002520712A

JP2002520712A - データ検索システムと方法およびサーチ・エンジンにおけるその使用

Info

Publication number: JP2002520712A
Application number: JP2000559494A
Authority: JP
Inventors: リスビク、クヌト、マグネ
Original assignee: ファーストサーチアンドトランスファーエイエスエイ
Priority date: 1998-07-10
Filing date: 1999-07-09
Publication date: 2002-07-09
Anticipated expiration: 2019-07-09
Also published as: DK1095326T3; WO2000003315A2; CA2337079C; CN1317114A; US6377945B1; ES2173752T3; KR20010071841A; HUP0201630A2; AU2004203480A1; HK1040784A1; BR9912015A; PL345714A1; ATE212736T1; CA2337079A1; BR9912015B1; WO2000003315A3; DE69900854D1; IL140606A0; KR100414236B1; EP1095326B1

Abstract

(57)【要約】テキストと、テキストＴ内のワードおよび／または記号またはそのシーケンスとシーケンスＰ内のワードおよび／または記号の間の照合の近似的な次数の編集ディスタンス・メトリックを含む複合メトリックＭと、語または記号のシーケンスＳを前記シーケンスＰへ変換する編集オペレーションの重み付けコスト機能と、前記テキストＴと質問Ｑそれぞれの接尾語ツリー表現内のワードとワード・シーケンスの間の一致の次数を決定するサーチ・アルゴリズムを記憶するためのデータ構造を含んでいる情報検索用サーチ・システム。前記アルゴリズムは質問Ｑによりデータ構造をサーチして、前記質問へ特定された照合を有する情報を検索する。情報検索のためのサーチ・システムにおける方法が、ワード・シーケンス情報としてのテキストＴ内のワードの接尾語を記憶するワード・スペースト疎接尾語ツリーと、ワード・シーケンスＳと同Ｐのワードサイズ依存編集ディスタンス・メトリックであって編集オペレーションのために重み付きコスト関数を含むものを生成し、ワード・シーケンスＳ_Rまたは検索された情報Ｒと、質問Ｑのワード・シーケンスＰ_Qとの間で、全ての照合についての編集ディスタンスを計算することにより、照合を決定する。近似サーチ・エンジンにおける使用。

Description

【発明の詳細な説明】

【０００１】本発明は情報検索のためのサーチ・システムに関し、特に、テキストＴの形式
で記憶された情報であって、質問Ｑと検索される情報Ｒの間の照合の所定次数ま
たは変動次数により前記情報検索を実現し、前記サーチ・システムはテキスト（
Ｔ）を記憶するためのデータ構造、質問Ｑと検索される情報Ｒの間の一致の次数
を測定するメトリックＭ、サーチ特にキーワードに基づく全文サーチを実行する
サーチ・アルゴリズムを含んでいて、情報検索のためのサーチ・システムにおけ
る方法で、とりわけ情報がテキストＴの形式で記憶され、テキストＴがワードお
よびワードのシーケンスに分割され、ワードは記号のシーケンスであり、各ワー
ドは１つまたはそれ以上の接尾語で構成され、接尾語はワード構成シーケンス内
の記号のサブセットである前記方法と、前記サーチ・システムの使用に関する。

【０００２】人知の種々な分野の巨大な量の情報がコンピュータ・メモリ・システムに収集
され記憶されている。コンピュータ・メモリ・システムがますます公衆利用デー
タ通信ネットワークにリンクされるにつれて、公共的および個人的な使用のため
の情報のサーチと検索のシステムと方法が一層の努力で開発されてきた。しかし
ながら、現在のデータ・サーチ方法は、記憶された情報を効率的に検索して使用
する可能性を種々の制限がひどく減少させる。

【０００３】情報は種々のデータ・タイプの形式で記憶され得るし、情報のサーチと検索の
文脈において、動的データと静的データの間を識別することは有用である。動的
データはしばしばに継続的に変化するデータであるので、有効データのセットが
常に変化するのに対して、静的データは非常に稀にしか、または全然変化しない
。例えば株価のような経済データ、または気象データは急激な変化を受けやすい
ので動的である。他方、書物とドキュメントのアーカイバル・ストレージは通常
永久的な静的データである。データの揮発性の概念は、いかに長くデータが有効
であるかに関係する。データの揮発性は、その情報がどのように長くサーチし検
索されるかに関係がある。大量のデータは、サーチを容易にするために構造を必
要とするが、そうした構造を構築する時間コストは、そのデータが有効である時
間よりも高くてはならない。構造を構築するコストはデータ量によって決まり、
従って、情報をサーチするためのデータ構造の構築は、データ量と揮発性の両方
を考慮に入れなければならない。収集された情報はデータベースに記憶されるが
、これらは構造化されているかもしれないし、構造化されていないかもしれない
。その上、データベースはいくつかのタイプのドキュメントを含み得て、それに
は、映像、ビデオ、音響、フォーマット付きまたは注釈付きのテキストが含まれ
る。特に構造化データベースは、データのサーチと検索を容易にするために、通
常、索引を備えている。ワールド・ワイド・ウェブ（ＷＷＷ）の成長は、複合ハ
イパーリンク・ドキュメントの収集の確実な成長を提供する。これらの大多数は
構造化データベース内に収集されず、サーチを容易にするインデックスは何も利
用できない。しかしながら、ワールド・ワイド・ウェブ内にドキュメントをサー
チする必要は明白であり、その結果、多数のいわゆるサーチ・エンジンが開発さ
れて、ワールド・ワイド・ウェブ内の情報が少なくとも部分的に利用できるよう
になった。

【０００４】サーチ・エンジンは、情報をサーチし検索する１つまたはそれ以上のツールで
あると一般に理解されている。サーチ・システムはまた、固有のサーチ・システ
ムに加えて、例えば多数のユニフォーム・リソース・ロケーター（ＵＲＬ）から
のテキストを含んでいる。そうしたサーチ・エンジンの例には、ＡｌｔａＶｉ
ｓｔａ、ＩｎｋｔｏｍｙｔｅｃｈｎｏｌｏｇｙによるＨｏｔＢｏｔ、Ｉｎｆｏ
ｓｅｅｋ、Ｅｘｃｉｔｅ、Ｙａｈｏｏがある。これらの全ては、ワールド・ワイ
ド・ウェブ内での情報のサーチと検索を遂行する機能を提供する。しかしながら
、それらの速度と性能は、ワールド・ワイド・ウェブ上で利用可能な情報の巨大
な量に決して整合せず、従って、これらのサーチ・エンジンのサーチと検索の性
能が、大いに望ましいものとして残る。

【０００５】テキスト・ドキュメントの大きなコレクションをサーチすることは、いくつか
の質問型を実行することにより通常行ない得る。最も一般的な質問型は、照合と
この変形である。質問される情報内に現存するはずであるキーワードまたはキー
ワードのセットを指定することにより、サーチ・システムはこの要件を満たすす
べてのドキュメントを検索する。基本的なサーチ方法は、いわゆる単一キーワー
ド照合に基づいている。キーワードｐがサーチされて、このワードを含む全ての
ドキュメントが検索される。キーワード接頭語ｐをサーチすることも可能であり
、またドキュメント内のいずれかのキーワード内でこの接頭語が存在する全ての
ドキュメントがが検索される。キーワードによって検索する代わりに、しばしば
サーチはいわゆるイグザクト・フレーズ・マッチングに基づくこともあり、この
場合はサーチは特定のシーケンス内のいくつかの単一キーワードを使用する。当
業者に公知のように、キーワード・フレーズの厳密な照合は、多くのシステムに
おいてブール演算子によって、例えば情報のフィルタリングを可能にするＡＮＤ
、ＯＲ、ＮＯＴのような演算子に基づいて実行され得る。例えばＡＮＤフレーズ
を使用すれば、このＡＮＤ演算子によりリンクされる２つのキーワードを含む全
てのドキュメントが結果として返される。またＮＥＡＲオペレータも、キーワー
ド照合により返すドキュメント自体およびそのドキュメント・テキスト内で互い
に「近く」位置するものを返すために使用される。多くの構造化データベースに
おいて、データベース内に含まれるドキュメントは、例えばドキュメント内の情
報のある部分またはタイプを記すフィールドを備えていて、注釈されている。こ
れにより、ドキュメントの部分のみの照合のためのサーチが可能になり、質問さ
れる情報のタイプが予め知られているときに有用である。

【０００６】テキスト・ドキュメント内でサーチするときにデータは構造化されていて、た
ぶん英語、ノルウェイ語などのようなある自然言語で存在するであろう。ある一
定の文脈によりドキュメントをサーチするときに、質問に近似的に照合するキー
ワードまたはフレーズを照合させるために、近接メトリックを適用することがで
きる。キーワードおよびフレーズ内のエラーを許容することは、近接のための普
通の方法であり、シソーラスを使用することはもう一つの普通の方法である。近
接サーチは、検索される情報と質問の間に、部分的な照合があることのみを必要
とする。国際公表出願ＷＯ９６／００９４５、名称「可変長データ・シーケンス
照合方法と装置」（デリンガ他）、インターナショナル・ビジネス・マシン社に
譲渡は、入力からのサーチ・アーギュメント（入力キー）の少なくとも部分的な
照合、好ましくは最長の部分的照合または全ての部分的な照合を記憶し検索する
ためのトリー類似の構造（ｔｒｉｅ−ｌｉｋｅｓｔｒｕｃｔｕｒｅ）を開示す
る。

【０００７】本発明の主要な目的は、大量のデータにおいて迅速で能率的な情報のサーチと
検索のためのサーチシステムと方法を供給することである。特に、分散した大量
のデータ記憶を有する情報システム、例えばインターネットのサーチのためのサ
ーチ・エンジンをインプリメントするのに適したサーチ・システムを供給するこ
とが、本発明の１つの目的である。理解すべきは、本発明によるサーチ・システ
ムは英数字記号の形式により記憶された情報をサーチし検索するのに決して限定
されず、ディジタル化された画像およびグラフィック記号の形式で記憶された情
報をサーチし検索するためにも同様に適用でき、同様に本書に使用されるワード
・テキストも、これらが部分的または全体的に記号のセットとして表現されると
きは、画像として解釈され得ることである。また理解すべきは、本発明によるサ
ーチ・システムが、商用コンピュータ・システム上で適当な高水準言語で書かれ
たソフトウェアとしてインプリメントできるが、前記の種類の情報のサーチと検
索のために専用プロセッサ装置の形式でインプリメントすることもできることで
ある。

【０００８】上記の諸目的と諸利点は本発明によるサーチ・システムにより実現されるが、
その特徴は、前記データ構造は、テキストＴにおけるワードの接尾語とワード・
シーケンスと記号シーケンスを記憶する接尾語ツリーＳＴ（Ｔ）の形式における
ツリー構造を含んでいることと、テキストＴにおけるワードまたは記号と質問Ｑ
の間の照合の近似的な次数についての編集ディスタンス・メトリック、およびテ
キストＴにおけるワードまたは記号のシーケンスＳと質問シーケンスＰの間の照
合の近似的な次数についての編集ディスタンス・メトリックの組合せを前記メト
リックＭが含んでいて、後者の編集ディスタンス・メトリックがワードと記号の
１つのシーケンスＳを他のワードと記号のシーケンスＰへ変換する編集オペレー
ションのための加重コスト関数を含むことと、テキストＴと質問Ｑの各々の接尾
語ツリー表現内のワードの間の照合の次数を決定する第１アルゴリズムおよび／
またはテキストＴと質問Ｑの各々の接尾語ツリー表現内のワードのシーケンスの
間の照合の次数を決定する第２アルゴリズムを前記サーチ・アルゴリズムが含ん
でいて、前記第１および／または第２のアルゴリズムは、ワード、ワードのシー
ケンス、または記号のシーケンスまたはこれらの組合せの形式の質問Ｑで、デー
タ構造をサーチして、これにより前者と後者の間の照合の規定された次数による
質問Ｑに基づいて情報Ｒが検索されるようになっていることである。

【０００９】本発明によるサーチシステムの有利な実施例において、前記接尾語ツリーＳＴ
（Ｔ）は、テキストＴ内に接尾語の１つのサブセットのみを含んでいるワード・
スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）である。

【００１０】上記の諸目的と諸利点はまた、本発明によるサーチ・システムにより実現され
るが、その特徴は、テキストＴ内のワード・セパレータ記号で開始する全ての接
尾語を表現するテキストＴのワード・スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）
を生成し、ワード・スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）内のテキストＴ内
のワードのシーケンス情報を記憶し、前記シーケンスＳを前記シーケンスＰへ変
換する編集オペレーションのためのコストの最小額としてワード・シーケンスＳ
と同Ｐのために編集ディスタンス・メトリックＤ（Ｓ，Ｐ）を生成し、コストの
合計は各編集オペレーションのコスト関数の合計であり、シーケンスＳをシーケ
ンスＰへ変換するためのコストの最小額としてワード・シーケンスＳと同Ｐのた
めにワード・サイズ依存編集ディスタンス・メトリックＤ_WS（Ｓ，Ｐ）を生成し
、コストの合計はこの編集オペレーションの含まれるワード・サイズのためのパ
ラメータにより重みをつけられた各編集オペレーションのコスト関数の合計であ
り、全ての照合について編集ディスタンスＤ（Ｓ_R，Ｐ_Q）をそれぞれ計算するこ
とにより、検索された情報Ｒと質問Ｑのワード・シーケンスＳ_Rと同Ｐ_Qの間の照
合を決定することである。

【００１１】本発明による有利な方法は追加的に含むものとして、シーケンスＳとシーケン
スＰの間の近接のパラメータにより、シーケンスＳを他のシーケンスＰへ変更す
る編集オペレーションに重みを付けて、これにより、問題の編集オペレーション
のコストを決定するときにシーケンスＳとシーケンスＰの類似性を考慮に入れる
ことを含む。

【００１２】本発明による方法において、好ましくは、質問ワード・シーケンスＰ_Q内の制
限されたワードの数についての編集ディスタンスＤ（Ｓ_R，Ｐ_Q）を計算すること
により、照合の数を制限する。

【００１３】上述の諸目的と諸利点はまた、近似サーチ・エンジン内で本発明によるサーチ
・システムを使用することにより実現することができる。

【００１４】本発明によるサーチ・システムは本質的に３つの部分、すなわち、データ構造
、近似的な照合のためのメトリック、サーチ・アルゴリズムからなる。全文検索
がターゲットであるときは、本質的に本発明によるサーチ・システムである場合
と同様に、検索可能であるべきデータ・セット全体が、高い質問性能をサポート
するデータ構造内に記憶される。

【００１５】本発明の基礎にある基本的な概念を、最初にやや詳しく議論する。テキストＴ
の形式で記憶された情報はワードとワードのシーケンスへ分割される。ワードは
、ワード境界項により分離された全テキストのサブストリングである。境界項の
セットはＢＴ_wordと記される。ワード境界項の共通セットはセットであり得て、ここで＼ｔはタブ・キャラクタを記し、＼ｎは改行キャラクタを記
し、＼0はドキュメント終了指示子を記す。本発明の下記の説明に関して、スト
リングとシーケンスに関するいくつかの定義が有用である。

【００１６】（定義１：ストリング）ストリングはＡＳＣＩＩキャラクタのような、アルファベットから取られた記
号のシーケンスである。次にストリングの長さは、そのストリングに含まれてい
る記号またはキャラクタのインスタンスの数であり、｜ｘ｜と記される。もしｘ
が長さｍを有するならば、このストリングはまたｘ₁ｘ_2...ｘ_i...ｘ_mと記され、
ここでｘ_iはストリング内のｉ番目の記号を表現する。

【００１７】ｘのサブストリングは、ｘ内の記号の連続グループにより与えられるストリン
グである。こうして、ストリングの始めまたは終りから１つまたはそれ以上のキ
ャラクタを削除することにより、サブストリングが得られる。

【００１８】（定義２：サブストリング、接尾語、接頭語）ｘのサブストリングは、あるについてのストリングである。ストリングはストリングｘの接尾語であり、また、ストリングはストリングｘの接頭語である。

【００１９】ワード・シーケンスの観念も使用される。

【００２０】（定義３：ワード・シーケンス）ワード・シーケンスは独立した連続番号である。ワード・シーケンスＳ=ｓ_1,
ｓ_2,...,ｓ_nは、ｓ₁、ｓ₂からｓ_nまでのｎ個の単一ワード（またはストリング）
からなる。

【００２１】ワード・シーケンスはシーケンス境界項により区切られる。セット・シーケン
ス境界項はＢＴ_seqと記される。シーケンス境界項の一般的なセットは、セット
｛’０＼’｝であり得て、ここで０＼はドキュメント終了マーカを指示する。

【００２２】近似ワード照合のコンセプトは下記の通りに記述される。

【００２３】ストリングＳ=ｓ_1,ｓ_2,...,ｓ_nと質問項ｑ=ｑ₁ｑ_2...ｑ_mが与えられる。その
ときタスクは、もとの質問項ｑから離れた最大ｋ個のエラーであるｓ内のｑの全
ての出現を発見することである。近接メトリックが、ｑと潜在的な照合ｓ_i．．
．ｓ_jの間のエラーをどのように計算するかを決定する。

【００２４】近接ワードマッチングのための一般的なメトリックは、Ｌｅｖｅｎｓｔｅｉｎ
ディスタンスすなわち編集ディスタンスである（Ｖ．Ｉ．Ｌｅｖｅｎｓｔｅｉｎ
、「訂正、削除、挿入、反転ができるバイナリ・コード」、（ロシアの）Ｄｏｋ
ｌａｄｙＡｋａｄｅｍｉｉｎａｕｋＳＳＳＲ、第１６３巻、第４号、８４
５−８頁、（１９６５年）；またサイバネティクスと制御理論、第１０巻、第８
号、７０７−１０頁、（１９６６年））。このメトリックは、１つのストリング
を他へ変換するのに必要な編集オペレーションの最小数として定義される。編集
オペレーションはいずれかの書換え規則で与えられ、例えば、・（ａ→ε），削除・（ε→ａ），挿入・（ａ→ｂ），変更

【００２５】ｐとｍをそれぞれサイズｉとｊの２つのワードであるとする。そのとき、Ｄ（
ｉ，ｊ）はｐのｉ番目の接頭語とｍのｊ番目の接頭語の間の編集ディスタンスを
記す。そのとき編集ディスタンスは下記のように再帰的に定義される。

【００２６】ワード・シーケンス内のワードのレベル上で近似的な照合を定義することも可
能であり、これは下記のように定義される。

【００２７】各ワードがキャラクタのストリングであるｎ個のワードｗ₁，ｗ₂．．．ｗ_nか
らなるテキストＴを与えられる。シーケンス・パターンＰは、ｍ個のワードｐ₁
，ｐ₂，．．．，ｐ_mからなる。１≦ｉ≦ｊ≦ｎであるようなｉ，ｊについてシー
ケンスｗ_i，ｗ_i+1．．．，ｗ_jから最大でｋ個のエラーまでｐ₁，ｐ₂，．．．，
ｐ_mが異なるならば、シーケンス・パターンＰはＴにおいて近似的な出現を有す
ると言われる。ここでも、近接メトリックが２つのシーケンスの間のエラーの数
を計算する仕方を決定する。

【００２８】サーチ・システム内の検索すべきテキストに、データのサーチを容易にするよ
うな仕方で、索引をつけなければならない。したがって、データ構造は本発明に
よるサーチ・システムのカーネル・データ構造であって、いわゆる接尾語ツリー
、特に疎接尾語ツリーに基づく。これら２つの構造を下記に定義する。接尾語ツ
リーＳ（Ｔ）はテキストＴ内のあり得る全ての接尾語のツリー表現である。接尾
語ツリーＳ（Ｔ）内の全ての単項ノードはその子と連結されて１つのコンパクト
・バリアント（ｃｏｍｐａｃｔｖａｒｉａｎｔ）を生成する。

【００２９】図１はテキストＴ＝“構造”（“ｓｔｒｕｃｔｕｒｅ”）のための接尾語ツリ
ーを示す。

【００３０】更に一層特殊には、本発明は疎接尾語ツリーに基づいている。これらはにより、「疎接尾語ツリー」、第２回国際計算組み合わせ論年次大会（ＣＯＣＯ
ＯＮ’９６）集録、Ｓｐｒｉｎｇｅｒ出版社、２１９頁−２３０頁に紹介されて
いて、これもまた、Ｄ．Ｒ．Ｍｏｒｒｉｓｏｎ「ＰＡＴＲＩＣＩＡ−英数字コー
ド化情報を検索するための実用アルゴリズム」、ジャーナル・オブ・ジ・ＡＣＭ
、１５、５１４−５３４頁（１９６８年）に基づいている。疎接尾語ツリーは下
記のように定義される。

【００３１】（定義４：疎接尾語ツリー）テキストＴの疎接尾語ツリーＳＳＴ（Ｔ）は接尾語ツリーであって、テキスト
の接尾語ツリーＳＴ（Ｔ）内に存在する接尾語のサブセットを１つだけ含むもの
である。

【００３２】本発明によるサーチ・システムを使用して全てのワードをサーチするときに、
ワード境界のみで開始して接尾語を記憶することにより、非均一的に間隔を取っ
た疎接尾語ツリーが有利に生成され得る。ワード・スペースト（ｗｏｒｄ−ｓｐ
ａｃｅｄ）疎接尾語ツリーのコンセプトは下記のように定義される。

【００３３】（定義５：ワード・スペースト疎接尾語ツリー）テキストＴの疎接尾語ツリーＳＳＴ_ws（Ｔ）は、テキスト内のワード・セパレ
ータ・キャラクタで開始する接尾語のみを含む疎接尾語ツリーＳＳＴ（Ｔ）であ
る。

【００３４】図２は、ワード・スペースト疎接尾語ツリーの２つの例を示す。読みやすくす
るために、接尾語の一部分を省略してある。Ｔ＝“ｔｏｂｅｔｈｅｂｅｓ
ｔ”のためのワード・スペースト疎接尾語ツリーは図２の左側の構造であり、ま
たＴ＝“ｔｏｍａｋｅｔｈｅｏｎｌｙｍａｊｏｒｍｏｄｉｆｉｃａｔ
ｉｏｎ”のためのワード・スペースト疎接尾語ツリーは図２の右側の構造である
。

【００３５】本発明のサーチ・システムにおいて、テキストは、ワード・スペースト疎接尾
語ツリー内に独立して記憶される複数のワードに自然に分割される。サーチング
のためのアトミック・サーチ項がワード自体であるので、有利なことに各接尾語
がワードの末尾で終結する。これは、この疎接尾語ツリーをいわゆるパトリシア
・トリー（ＰＡＴＲＩＣＩＡｔｒｉｅ）（Ｍｏｒｒｉｓｏｎ、前掲書中に）へ
縮小する。この文献中に定義されるトリーはルート付きのツリーであって、その
性質は、ルート以外の各ノードがアルファベットの記号を含み、また同一のツリ
ーからの２つの子が同一記号を有することがない。注意すべきは、ワード・トリ
ーがワード“検索”から出ていることであり、したがって、トリーがデータの検
索に適したツリー構造であることである。パトリシア・トリーは、葉ノード内に
記憶される接尾語がキーワード区切り文字に限定されるキーワード・スペースト
疎接尾語ツリー（ＫＷＳツリー）として定義される。キーワード｛“ａｖｏｉｄ
”，“ａｂｕｓｅ”，“ｂｅ”，“ｂｅｃｏｍｅ”，“ｂｒｅａｓｅ”，“ｓａ
ｙ”｝のセットが図３に示されている。本発明のサーチ・システムに使用される
構造は、このサーチ・システムがワードのシーケンス情報を明示的に記憶するの
で、パトリシア・トリーと異なる。接尾語の長さを減少させるためには、葉ノー
ドの表現を変更する必要がある。オリジナル・テキストへのポインタは接尾語自
体により置きかえられる。図２に示したのと同じ２つのストリングについて、こ
の種の接尾語長さ縮小を図４に示す。言い換えれば図４はワード境界で切り取ら
れた接尾語を有するワード・スペースト疎接尾語ツリーを示す。Ｔ＝“ｔｏｂ
ｅｔｈｅｂｅｓｔ”のためのワード・スペースト疎接尾語ツリーは図の左側
に示され、またＴ＝“ｔｏｍａｋｅｔｈｅｏｎｌｙｍａｊｏｒｍｏｄ
ｉｆｉｃａｔｉｏｎ”のためのワード・スペースト疎接尾語ツリーは図の右側に
示されている。葉ノードは、その葉ノードにより表現されるワードが生起する全
ての位置のリストを含む。

【００３６】オリジナル・テキストに見出される情報の明示的なシーケンスを使用する代わ
りに、本発明は、ワード・スペースト疎接尾語ツリー内に、シーケンス情報を明
示的に記憶する。これは、オリジナル・テキスト内の連続する語を表現する葉ノ
ードの間にポインタを使用することにより実行される。少なくとも特定の葉ノー
ドにより表現されるワードの全ての生起が利用できるように、次の連続する葉へ
ポインタが付加されなければならない。

【００３７】葉ノードはそれが表現するワードの接尾語のみを含むので、生起リスト内にシ
ーケンス・ポインターズを横断するときに各連続ワードの接尾語だけが現れる。
これは、接尾語だけでなく葉ノード内のワード全体を記憶することにより処理さ
れ、こうして本発明のデータ構造もまた、この点でパトリシアと異なる。明示的
に記憶されたワード・シーケンス情報のデータ構造は、次の連続ワードとその生
起へのポインタを有する生起リストと共に、図５に示されている。

【００３８】本発明によるサーチ・システムは、生起リストを組織するためにパトリシア・
トリーを使用する（Ｍｏｒｒｉｓｏｎ、前掲書中に）。パトリシア・トリーは、
サーチ・システムが、時間Ｏ（｜ｐ₂｜）で、ストリングｐ₂を照合する全ての連
続ワードのリストにアクセスできるようにし、ここで｜ｐ₂｜はもちろんｐ₂の長
さである。生起リストを組織するためにパトリシア・トリーを使用することによ
り、テキストからワードを記憶してシーケンス情報を維持するための完全に定義
されたツリー構造が得られる。組織された生起リストのためのパトリシア・トリ
ーと特別な未ソート生起リストの両方を有する典型的な葉ノードが、図６に示さ
れている。本発明のサーチ・システムに使用されるような生起リストのためのメ
モリ要件の例として、約７４２５３８のドキュメントがあるデータベースは、合
計３３３８５６７４４語と５３８２４４のディスティンクト・ワードの辞
典を有する。このデータベースの全体のサイズは２０５４．５２ＭＢである。そ
の平均ワード長は、こうして６．４５バイトである。疎接尾語ツリーは各内部ノ
ードに８バイトを使用し、３２ビットのポインタを使用する。各ワードについて
、平均３個の内部ノードが使用されているとみなされる。そのとき葉ノードは生
起リストへのポインタのためのワード全体プラス３２ビットを記憶するために、
６．４５バイトを必要とする。３４．４５バイト／ワードの全体が全サイズの１
８．１０８ＭＢを与える。その上、生起リストは入力ごとの４バイトと、フル・
バージョンを使用する場合の１２バイトを有する。したがって、生起リストの全
体のメモリ要件は１２７３ＭＢから３８２０ＭＢまで変化する。疎接尾語ツリー
を使用するデータ構造は、オリジナル・テキストの６０％から２００％の間のサ
イズを有する。これは逆ファイルの要件に比較し得るが、しかし本発明によるサ
ーチ・システムに使用される疎接尾語ツリーは、遥かに迅速なサーチを供給して
、近似照合を可能にし、シーケンス照合を遂行しやすくする。

【００３９】近似サーチにおいては、あり得る照合にエラー測度を与えるためにメトリック
が使用される。本発明によるサーチ・システムはいくつかのメトリックを採用し
、特にメトリックの独自な組合せを採用する。これらのメトリックはメトリック
の組合せとともに、以下に議論される。

【００４０】キャラクタと同様にワードに直観的に適用される削除、挿入、変更のオペレー
ションを、上に定義した編集ディスタンス・メトリックが可能にする。フレーズ
の照合における一般的なエラーは、ワードの脱落、追加、変更である。従って、
近似ワードシーケンス照合問題に適用するために、以前に定義した編集ディスタ
ンス・メトリックを適合させて拡張すべきである。シーケンスの編集オペレーシ
ョンは下記に定義される。

【００４１】（定義６：シーケンスの編集オペレーション）ワードの１つのシーケンスＳをワードの他のシーケンスＰに変換するために、
シーケンス内のワードに許される編集オペレーションを、下記の書換え規則によ
り書きこむことができる。・（ａ→ε），シーケンスからのワードａの削除・（ε→ａ），シーケンスへのワードａの挿入・（ａ→ｂ），ワードａからワードｂへの変更・（ａｂ→ｂａ），隣接するワードａとワードｂの置換え

【００４２】アトムとしてのキャラクタの代わりに、本発明によるサーチ・システムは、ワ
ードへ編集オペレーションを適用し、そのときワードはオペレーショナル・アト
ムとみなされる。

【００４３】コスト関数は下記のように定義される定数である。ここでは下記のように定義される。

【００４４】上記の編集オペレーションを使用することにより、今やシーケンスの編集ディ
スタンスを定義できる。

【００４５】（定義７：シーケンスの編集ディスタンス）シーケンスのための編集ディスタンス・メトリックは、シーケンスＳ＝ｓ_1,ｓ _2,..., ｓ_nおよびシーケンスＰ＝ｐ_1,ｐ_2,...,ｐ_mの間のディスタンスD_seq（Ｓ，
Ｐ）を、シーケンスＳをシーケンスＰへ変換する編集オペレーションのシーケン
スのためのコストｃ（ｘ→ｙ）の最小額として定義する。

【００４６】本発明によるサーチ・システムはシーケンスのための編集ディスタンス・メト
リックを強化して、その上で作動されるワードのサイズによる編集オペレーショ
ンのコストの重みを付ける。

【００４７】（定義８：シーケンスのためのワード・サイズ依存編集ディスタンス）シーケンスのためのワード・サイズ依存編集ディスタンスは、１つのシーケン
スを他へ変換するのに必要な編集オペレーションのためのコストの最小額として
定義される。これらのコスト関数はそのオペランドのワード・サイズによって決
まる。

【００４８】本発明によるサーチ・アルゴリズムにおいて、コスト関数の定義は下記の方程
式により与えられる。ここでｌは比較される２つのシーケンスの中の１つのワードの平均長さを記す。
各編集オペレーションのコストは、シーケンスの全体長さの変化に比例するサイ
ズにより、またはカレントのワード長さと考察するシーケンス内の平均ワード長
さとの比率により、重み付けられる。

【００４９】さてこのディスタンス・メトリックは、ワード長さとワード・シーケンスの意
味文脈へのそのワードの重要性との間のある関係の仮定を反映する。その上、本
発明によるサーチ・システムは、変更編集オペレーション（ａ→ｂ）が使用され
るとき、キャラクタ・レベルの近接が採用される。あるワードａを他のワードｂ
で置換えることは、これら２つのワードの間の類似性に関係する。従って変更編
集オペレーションの新しいコスト関数は下記のように与えられる。Ｄ（ａ，ｂ）が、語の正規編集ディスタンス測定関数であるとき、０は完全な類
似性を意味し、1は類似性が全くないことを示す。

【００５０】本発明によるサーチ・システムは、式（４）、（５）、（６）により与えられ
るコスト関数を有するシーケンスの編集ディスタンス・メトリックと、式（１）
により与えられるワードの編集ディスタンス・メトリックを組合せる。これは、
照合されたワードがお互いからｋ個のエラーよりも離れているときにのみ、シー
ケンス編集オペレーションが使用されることを意味する。

【００５１】本発明によるサーチ・システムに使用されるアルゴリズムは、これらの説明さ
れた構造の効率的なサーチを遂行する。上記のメトリックにより照合が発見され
る。

【００５２】ワード・スペースト疎接尾語ツリー内の近似ワード照合が、編集ディスタンス
マトリクスの計算と接尾語ツリーの横断の組合せにより実行される。このための
アルゴリズムを擬似コードで書いたものが表Ｉに与えられる。

【００５３】このアルゴリズムは、Ｈ．Ｓｈａｎｇ＆Ｔ．Ｈ．Ｍｅｒｒｅｔｔａｌ、「
近似ストリング・マッチングの試み」、知識・データ工学についてのＩＥＥＥト
ランザクション、第５巻、第４号、５４０頁−５４７頁（１９９６年）により提
案されたトリー照合アルゴリズムから適合されたものである。このアルゴリズム
の走行時間の予想される最悪の場合は、Ｓｈａｎｇ＆Ｍｅｒｒｅｔｔａｌに
よれば、Ｏ（ｋ｜Σ｜^k）である（前掲書に）。

【００５４】近似ワード・シーケンス照合は、全ての可能な照合についてワード・シーケン
ス編集ディスタンスを計算することを必要とする。しかしながら、可能な照合の
数は、可能なワード上にのみ編集ディスタンスの計算を開始することにより制限
できる。シーケンスから１つのワードを削除するコストが可能な開始ワードの数
を決定する。１つの質問シーケンスＰ_Q内のｉ個のファースト・ワードを削除す
るコストの蓄積が与えられたエラー・スレッショルドの上にあがれば、質問のｉ
番目のワードにより開始する候補シーケンスは、恐らく照合ではあり得ない。従
ってｉ個のワードの質問シーケンスＰ_Qについて、最大ｉ個の開始ワードが試み
られる。ツリーのシーケンス構造内にバックポインタが１つもないので、全ての
可能な照合が得られることは保証されない。バックポインタを追加することが、
この問題を解決する。本発明によるサーチ・システムに使用されるような近似ワ
ード・シーケンス照合のためのアルゴリズムは、下記の表IIに擬似コードで与え
られる。このアルゴリズムは、ｐ_1,ｐ_2...により逐次的にファースト・キーワー
ドを照合して、全ての可能な開始位置をテストすることを試みる。

【００５５】表IIのＡｐｐｒｏｘＳｅｑｕｅｎｃｅＭａｔｃｈアルゴリズムにおいて、Ａｐ
ｐｒｏｘＭａｔｃｈＲｅｓｔ関数は、下記の表IIIのアルゴリズムにより定義さ
れる。この関数は、初期エラー値を使用して、残りのシーケンスを照合する。

【００５６】表IIと表IIIのアルゴリズムは、表Ｉのアルゴリズムと同一の擬似コードで書
かれている。

【００５７】シーケンス内のファースト・ワードに一致する葉ノードを発見するために使用
されるＦｉｎｄＥｘａｃｔ関数は、ツリーの単一の横断を遂行し、その走行時間
はＯ｜ｐ₁｜であり、ここでｐ₁は質問シーケンスＰ_Q内のファースト・ワードを
記する。編集ディスタンスの計算は、直接の動的プログラミングを使用して｜Ｐ
｜²時間内に実行できるし、またはこの計算アルゴリズムの改良バージョンを使
用してＯ（ｋ）時間（ここでｋはエラー・スレッショルドを記す）内に実行でき
るが、Ｅ．Ｕｋｋｏｎｅｎ、「ストリング内の近似パターンの発見」、ジャーナ
ル・オブ・アルゴリズム、第６巻、１３２頁−１３７頁（１９８５年）を参照さ
れたい。

【００５８】 Σｎ_occ（ｐ_i）が、ワード・シーケンス内の各ワードｐ_iの生起の数の総合計
を記すならば、そのとき最悪の場合、走行時間は、Ｏ（ｋΣｎ_occ（ｐ_i））であ
る。

【００５９】最後に、本発明によるサーチ・システムに基づくサーチ・エンジンのインプリ
メンテーションを簡単に議論する。特に、本発明によるサーチ・システムに基づ
くサーチ・エンジンは、近似サーチ・エンジン（ＡＳＥ）としてインプリメント
され、大きなドキュメント・コレクションに索引をつけて、これらのドキュメン
ト・コレクションの厳密サーチと近似サーチのためのアルゴリズムを供給するこ
とを意図している。ＡＳＥは大きなテキストまたはドキュメントのコレクション
を記憶するデータ構造を供給する。理解すべきは、データ構造が画像、ビデオ、
音響、のような付加的な情報を含むドキュメントから生成されるかも知れず、ま
たテキストはフォーマットまたは注釈されているかもしれないことである。デー
タ構造は上に議論したワード・スペースト疎接尾語ツリーと同一であり、もちろ
ん、ワードはサーチ・システムのキーワードであると理解すべきであり、従って
このワード・スペースト疎接尾語ツリーを代わりにキーワード・スペースト疎接
尾語ツリー（ＫＷＳツリー）と名付けることができる。ＡＳＥは、ＫＷＳツリー
内のドキュメントに索引をつけるアルゴリズムを含む。もちろんこれらのアルゴ
リズムは本発明によるサーチ・システムの一部分を形成しないが、しかしそれら
は当業者によく知られていて文献にも記載されているので、たとえばＤ．Ｒ．Ｍｏｒｒｉｓｏｎ（前掲書）を参照されたい。

【００６０】本発明によりＡＳＥの中で使用されるサーチ・システムは、ＫＷＳツリー内の
パターンの正確な照合と近似照合の両方のためのアルゴリズムを採用する。上記
の表Ｉと表IIに与えられるアルゴリズムは、メトリックのようなノン・ユニフォ
ーム編集ディスタンスを有する近似ワードとワードのシーケンスについて使用さ
れる。ＫＷＳツリー内の長さｍを有するキーワードｐの正確な一致を発見するこ
とは、当分野で知られており、ツリー構造の単一の横断として容易にインプリメ
ントされる。擬似コードで書かれた正確なキーワード照合のために適当なアルゴ
リズムを表IVに示す。本発明によるサーチ・システムは正確なシーケンス照合の
ためのアルゴリズムをもサポートできる。正確なキーワード・シーケンス照合の
アルゴリズムは当分野で知られており、下記の表Ｖに擬似コードで示されるよう
に容易にインプリメントされる。ここに与えられるアルゴリズムは第１キーワー
ドがあれば、その厳密な照合を発見する。次にそれは、第１キーワードの全ての
生起について、第２キーワードが質問の第２キーワードに照合するかどうかをチ
ェックする。もし照合すれば、表ＶのＭａｔｃｈＲｅｓｔ手順が使用されて、２
つの第１キーワードの生起が全シーケンスにおいて照合するかどうかを決定する
。ＫＷＳツリー内の近似キーワード照合のために、サーチシステムは上記の表Ｉ
のアルゴリズムをインプリメントする。適当なキーワード・シーケンス照合のた
めに、サーチ・システムは上記の表IIのアルゴリズムをインプリメントして、ｐ _1, ｐ₂．．．により逐次的にファースト・キーワードを照合して、全ての可能な
開始位置をテストして、表IIIに示すＡｐｐｒｏｘＭａｔｃｈＲｅｓｔ機能を適
用して、ある特定の位置で開始するシーケンスを照合して、初期エラー値を処理
する。

【００６１】最後にＡＳＥは、ドキュメント・コレクションの索引付けと質問の制御をユー
ザに与える１つの単純なフロント・エンドを必要とする。このフロント・エンド
はまた、ドキュメント・コレクションの統計を備えて、ＷＷＷ経由などのリモー
ト・アクセスと、ローカル・サーバ・ユーザ・インターフェイスの両方を供給す
ることができる。

【００６２】本発明によるサーチ・システムを有するＡＳＥは、新しい索引付けとサーチの
アルゴリズムを容易に追加できるようにする仕方であるので一般的である。また
、各ドキュメントまたはキーワードについて特別な情報を記憶しているので、容
易な仕方でインプリメントできる。特に、フロント・エンドはデータ・構造とサ
ーチ・アルゴリズムから独立しているので、これらにおける内部変更が前者の設
計に何の影響もしない。

【００６３】本発明によるサーチ・システムを使用することにより、ＡＳＥがデータ・構造
内で可能な限り少ないメモリのオーバーヘッドを有するように設計できる。また
、サーチができるだけ速くなるように設計できる。しかしながら、これら２つの
要素の間には、通常トレード・オフが存在する。

【００６４】要約すると、本発明によるサーチ・システムを有するＡＳＥは、４つの大きな
モジュールを有する。

【００６５】１．ＫＷＳツリー構造内のドキュメントを索引付けするためのドキュメント
・インデクシング・モジュールＤＩＭ。このモジュールはまた、いくつかのドキ
ュメントのタイプをサポートするための全ての拡張を含む。

【００６６】２．キーワード・スペースト疎接尾語ツリー（ＫＷＳツリー）に基づくデー
タ・記憶装置モジュール。

【００６７】３．ＫＷＳツリーをサーチするためのサーチ・アルゴリズム・モジュールＳ
ＡＭであって、ワードおよびワード・シーケンスをそれぞれ正確整合および／ま
たは近似整合するアルゴリズムを含んでいるもの。

【００６８】４．ローカル・サーバ・ユーザ・インターフェイスとリモート質問のための
ネットワーク・インターフェイスの両方を含んでいる、ユーザ・インターフェイ
ス・フロント・エンド・モジュール。

【００６９】ＡＳＥの４つのモジュールは共に作用して、完全なサーチ・エンジンの機能性
を供給する。異なったモジュールの間のデータの流れを図７に示す。あるドキュ
メントのコレクションの索引付けが、インデクシング・アルゴリズムを含んでい
るドキュメント・インデクシング・モジュールＤＩＭ内で実行される。もちろん
このモジュールは本発明によるサーチ・システムの１つではなく、使用できるイ
ンデクシング・アルゴリズムは当分野でよく知られている。ドキュメント内に見
出されるテキストが、記憶のためにデータ記憶装置モジュールＤＳＭへ渡される
。もちろん、データ記憶装置モジュールは、本発明によるサーチ・システムの一
部分であり、ＫＷＳツリー構造に基づいて示されているとおりである。サーチ・
アルゴリズム・モジュールＳＡＭは、データ記憶装置モジュール内に配置された
サーチ用のアルゴリズムを含む。このモジュールは本発明によるサーチ・システ
ムをインプリメントして、ツリーとノード情報についてデータ構造に質問してサ
ーチ処理ができるようにし、同時に状態変数を維持する。フロント・エンド・モ
ジュールがたとえばワーク・ステーション上またはパーソナル・コンピュータ上
などにインプリメントされて、上述の機能性を供給する。

【００７０】既に導入部で述べたように、本発明によるサーチ・システムは、ワークステー
ションを含む商用のコンピュータ・システム上で、適当な高水準言語で書かれた
ソフトウェアとしてインプリメントできることを理解すべきである。それはまた
前述のように専用プロセッサの形式でもインプリメントでき、それは、多数の質
問ワード・シーケンスを有する近似照合のために、大きなワード・シーケンスを
並列に処理できる多数の並列プロセッサを有利に含み得る。プロセッサの固定オ
ペレーショナル・パラメータは、それから低レベル・コードに入力され、一方Ｋ
ＷＳツリー構造からのキーワード・シーケンス入力が、巨大な量のデータへの質
問の極度に迅速な処理を可能にするので、本発明によるサーチ・システムは、従
ってワールド・ワイド・ウェブなどにおけるサーチの遂行に高度に適しており、
ＫＷＳツリー構造内でさえ現在ワールド・ワイド・ウェブ上に提供されている全
てのドキュメントを索引付けることができ、将来のワールド・ワイド・ウェブに
予想されるデータ量の増加をも処理できる。

【図面の簡単な説明】

本発明によるサーチ・システムと方法を、添付図面を参照しながら、前記に詳
細に説明してきた。

【図１】接尾語ツリーの一例を示す。

【図２】本発明に使用されるワード・スペースト疎接尾語ツリーの例である。

【図３】先行技術として知られるいわゆるパトリシア・トリーの例である。

【図４】本発明に使用されるワード・スペースト疎接尾語ツリーの更なる例である。

【図５】本発明に使用される明示的に記憶されたワード・シーケンス情報である。

【図６】本発明に使用される葉ノード構造である。

【図７】本発明によるサーチ・システムを有するサーチ・エンジンの構造を図式的に示
す。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年６月２３日（２０００．６．２３）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正内容】

【発明の名称】データ検索システムと方法およびサーチ・エンジンにおけるそ
の使用

【特許請求の範囲】

【発明の詳細な説明】

【０００１】本発明は情報検索、特にテキストＴの形で記憶された情報のためのサーチシス
テムであって、テキストＴがワードおよび／または記号とそれらのシーケンスを
含んでいて、前記情報検索はテキストＴがワードおよび／または記号とそれらの
シーケンスを含んでいる質問ＱとテキストＴがワードおよび／または記号とそれ
らのシーケンスを含んでいる検索される情報Ｒの間の照合の所定または変動の次
数で実現し、少なくともテキストＴの一部分を記憶するためのデータ構造と、前
記質問Ｑと検索される情報Ｒの間の照合の次数を測定するメトリックＭと、サー
チ、特にキーワードｋｗに基づいて全文サーチを実行するサーチ・アルゴリズム
をインプリメントする前記サーチ・システムと；特にテキストの形式で記憶され
た情報の情報検索のシステムにおける方法であって、テキストＴがワードおよび
記号とそれらのシーケンスを含んでいて、ワードおよび記号とそれらのシーケン
スを含んでいる質問ＱとテキストＴからのワードおよび記号とそれらのシーケン
スを含んでいる検索された情報Ｒの間の所与または変動の次数により前記情報検
索が実現し、検索された情報ＲはテキストＴからのワードおよび記号とそれらの
シーケンスを含んでいて、前記サーチ・システムは少なくともテキストＴの一部
分を記憶するためのデータ構造と、質問Ｑと検索された情報Ｒの間の総合の次数
を測定するメトリックＭを含んでいて、特にキーワードｋｗに基づく全文サーチ
であるサーチを実行するサーとアルゴリズムを前記サーチシステムがインプリメ
ントし、前記テキスト内の前記情報はワードとワード・シーケンスへ分割され、
前記ワードはワード境界項により分離された全テキストのサブストリングであっ
て記号のシーケンスを形成し、各ワードは記号のシーケンスとして構成される前
記方法に関する。

【０００２】本発明はまた、前記サーチ・システムの使用に関する。

【０００３】人知の種々な分野の巨大な量の情報がコンピュータ・メモリ・システムに収集
され記憶されている。コンピュータ・メモリ・システムがますます公衆利用デー
タ通信ネットワークにリンクされるにつれて、公共的および個人的な使用のため
の情報のサーチと検索のシステムと方法が一層の努力で開発されてきた。しかし
ながら、現在のデータ・サーチ方法は、記憶された情報を効率的に検索して使用
する可能性を種々の制限がひどく減少させる。

【０００４】情報は種々のデータ・タイプの形式で記憶され得るし、情報のサーチと検索の
文脈において、動的データと静的データの間を識別することは有用である。動的
データはしばしば継続的に変化するデータであるので、有効データのセットが常
に変化するのに対して、静的データは非常に稀にしか、または全然変化しない。
例えば株価のような経済データ、または気象データは急激な変化を受けやすいの
で動的である。他方、書物とドキュメントのアーカイバル・ストレージは通常永
久的な静的データである。データの揮発性の概念は、いかに長くデータが有効で
あるかに関係する。データの揮発性は、その情報がどのように長くサーチし検索
されるかに関係がある。大量のデータは、サーチを容易にするために構造を必要
とするが、そうした構造を構築する時間コストは、そのデータが有効である時間
よりも高くてはならない。構造を構築するコストはデータ量によって決まり、従
って、情報をサーチするためのデータ構造の構築は、データ量と揮発性の両方を
考慮に入れなければならない。収集された情報はデータベースに記憶されるが、
これらは構造化されているかもしれないし、構造化されていないかもしれない。
その上、データベースはいくつかのタイプのドキュメントを含み得て、それには
、映像、ビデオ、音響、フォーマット付きまたは注釈付きのテキストが含まれる
。特に構造化データベースは、データのサーチと検索を容易にするために、通常
、索引を備えている。ワールド・ワイド・ウェブ（ＷＷＷ）の成長は、複合ハイ
パーリンク・ドキュメントの収集の確実な成長を提供する。これらの大多数は構
造化データベース内に収集されず、サーチを容易にするインデックスは何も利用
できない。しかしながら、ワールド・ワイド・ウェブ内にドキュメントをサーチ
する必要は明白であり、その結果、多数のいわゆるサーチ・エンジンが開発され
て、ワールド・ワイド・ウェブ内の情報が少なくとも部分的に利用できるように
なった。

【０００５】サーチ・エンジンは、情報をサーチし検索する１つまたはそれ以上のツールで
あると一般に理解されている。サーチ・システムはまた、固有のサーチ・システ
ムに加えて、例えば多数のユニフォーム・リソース・ロケーター（ＵＲＬ）から
のテキストを含んでいる。そうしたサーチ・エンジンの例には、ＡｌｔａＶｉ
ｓｔａ、ＩｎｋｔｏｍｙｔｅｃｈｎｏｌｏｇｙによるＨｏｔＢｏｔ、Ｉｎｆｏ
ｓｅｅｋ、Ｅｘｃｉｔｅ、Ｙａｈｏｏがある。これらの全ては、ワールド・ワイ
ド・ウェブ内での情報のサーチと検索を遂行する機能を提供する。しかしながら
、それらの速度と性能は、ワールド・ワイド・ウェブ上で利用可能な情報の巨大
な量に決して整合せず、従って、これらのサーチ・エンジンのサーチと検索の性
能が、大いに望ましいものとして残る。

【０００６】テキスト・ドキュメントの大きなコレクションをサーチすることは、いくつか
の質問型を実行することにより通常行ない得る。最も一般的な質問型は、照合と
この変形である。質問される情報内に現存するはずであるキーワードまたはキー
ワードのセットを指定することにより、サーチ・システムはこの要件を満たすす
べてのドキュメントを検索する。基本的なサーチ方法は、いわゆる単一キーワー
ド照合に基づいている。キーワードｐがサーチされて、このワードを含む全ての
ドキュメントが検索される。キーワード接頭語ｐ_jをサーチすることも可能であ
り、またドキュメント内のいずれかのキーワード内でこの接頭語が存在する全て
のドキュメントが検索される。キーワードによって検索する代わりに、しばしば
サーチはいわゆるイグザクト・フレーズ・マッチングに基づくこともあり、この
場合はサーチは特定のシーケンス内のいくつかの単一キーワードを使用する。当
業者に公知のように、キーワード・フレーズの厳密な照合は、多くのシステムに
おいてブール演算子によって、例えば情報のフィルタリングを可能にするＡＮＤ
、ＯＲ、ＮＯＴのような演算子に基づいて実行され得る。例えばＡＮＤフレーズ
を使用すれば、このＡＮＤ演算子によりリンクされる２つのキーワードを含む全
てのドキュメントが結果として返される。またＮＥＡＲオペレータも、キーワー
ド照合により返すドキュメント自体およびそのドキュメント・テキスト内で互い
に「近く」位置するものを返すために使用される。多くの構造化データベースに
おいて、データベース内に含まれるドキュメントは、例えばドキュメント内の情
報のある部分またはタイプを記すフィールドを備えていて、注釈されている。こ
れにより、ドキュメントの部分のみの照合のためのサーチが可能になり、質問さ
れる情報のタイプが予め知られているときに有用である。

【０００７】テキスト・ドキュメント内でサーチするときにデータは構造化されていて、た
ぶん英語、ノルウェイ語などのようなある自然言語で存在するであろう。ある一
定の文脈によりドキュメントをサーチするときに、質問に近似的に照合するキー
ワードまたはフレーズを照合させるために、近接メトリックを適用することがで
きる。キーワードおよびフレーズ内のエラーを許容することは、近接のための普
通の方法であり、シソーラスを使用することはもう一つの普通の方法である。近
接サーチは、検索される情報と質問の間に、部分的な照合があることのみを必要
とする。国際公表特許出願ＷＯ９６／００９４５、名称「可変長データ・シーケ
ンス照合方法と装置」（デリンガ他）、インターナショナル・ビジネス・マシン
社に譲渡は、入力からのサーチ・アーギュメント（入力キー）の少なくとも部分
的な照合、好ましくは最長の部分的照合または全ての部分的な照合を記憶し検索
するためのトリー類似の構造（ｔｒｉｅ−ｌｉｋｅｓｔｒｕｃｔｕｒｅ）を開
示する。

【０００８】一般的な先行技術を更に明らかにするために、国際公表特許出願ＷＯ９２／１
５９５４（キンバル他、米国のレッド・ブリック・システム社に譲渡、）および
米国特許第５６２７７４８号（ベイカー他、米国のルーセント・テクノロジ
ー社へ譲渡）に言及することができ、これらは両方とも正方行列内のサーチ／照
合のための接尾語ツリーの形式のデータ構造を開示する。これら２つの公表特許
はいずれも、リンクされたリストを照合中に使用すること以外には、正規の接尾
語表現を超えるものを何も開示せず、近似照合のためにサーチ中にサーチ空間を
制限する解決法を教示または示唆しない。しかしながら、接尾語ツリーに基づく
データ構造をサーチに適用するときには、そうした解決法が最も望ましく、特に
、ワールド・ワイド・ウェブに見出し得るような極度に大きなドキュメント・コ
レクションにおける近似照合において、最も望ましい。

【０００９】こうして本発明の主要な目的は、大量のデータにおいて迅速で能率的な情報の
サーチと検索のためのサーチシステムと方法を供給することである。特に、分散
した大量のデータ記憶を有する情報システム、例えばインターネットのサーチの
ためのサーチ・エンジンをインプリメントするのに適したサーチ・システムを供
給することが、本発明の１つの目的である。理解すべきは、本発明によるサーチ
・システムは英数字記号の形式により記憶された情報をサーチし検索するのに決
して限定されず、ディジタル化された画像およびグラフィック記号の形式で記憶
された情報をサーチし検索するためにも同様に適用でき、同様に本書に使用され
るワード・テキストも、これらが部分的または全体的に記号のセットとして表現
されるときは、画像として解釈され得ることである。また理解すべきは、本発明
によるサーチ・システムが、商用コンピュータ・システム上で適当な高水準言語
で書かれたソフトウェアとしてインプリメントできるが、前記の種類の情報のサ
ーチと検索のために専用プロセッサ装置の形式でインプリメントすることもでき
ることである。

【００１０】上記の諸目的と諸利点は本発明によるサーチ・システムにより実現されるが、
その特徴は、前記データ構造は、テキストＴにおけるワードおよび／または記号
とそれらシーケンスの接尾語を記憶する非均一スペースト疎接尾語ツリーＳＴ（
Ｔ）の形式におけるツリー構造を含んでいることと、テキストＴにおけるワード
および／または記号と質問Ｑの間の照合の近似的な次数についての編集ディスタ
ンス・メトリック、およびテキストＴにおけるワードおよび／または記号のシー
ケンスＳと質問Ｑにおけるワードおよび／または記号の質問シーケンスＰの間の
照合の近似的な次数についての編集ディスタンス・メトリックの組合せを前記メ
トリックＭが含んでいて、後者の編集ディスタンス・メトリックが前記テキスト
Ｔ内のワードおよび／または記号の１つのシーケンスＳを前記質問Ｑ内のワード
および／または記号のシーケンスＰへ変換する編集オペレーションのための加重
コスト関数を含み、前記加重は、変換におけるシーケンスの長さの変化に比例す
るかまたは照合すべきシーケンスにおけるワードおよび／または記号のサイズに
よって異なる１つの値によって実現することと、テキストＴと質問Ｑの各々の接
尾語ツリー表現内のワードおよび／または記号の間の照合の次数を決定する第１
アルゴリズムおよびテキストＴと質問Ｑの各々の接尾語ツリー表現内のワードお
よび／または記号のシーケンスの間の照合の次数を決定する第２アルゴリズムを
インプリメントされた前記サーチ・アルゴリズムを含んでいて、前記第１および
／または第２のアルゴリズムは、ワード、ワードのシーケンス、または記号のシ
ーケンスまたはこれらの組合せの形式の質問Ｑで、データ構造をサーチして、こ
れにより前者と後者の間の照合の規定された次数による質問Ｑに基づいて情報Ｒ
が検索されるようになっていることと、前記サーチ・アルゴリズムはまたオプシ
ョンとして、テキストＴおよび質問Ｑの各々の接尾語ツリー表現におけるワード
および／または記号の間の正確な照合を決定する第３アルゴリズムと、テキスト
Ｔおよび質問Ｑの各々の接尾語ツリー表現におけるワードおよび／または記号の
シーケンスの間の正確な照合を決定する第４アルゴリズムを含んでいて、前記第
３アルゴリズムおよび／または前記第４アルゴリズムはワードか記号かワードの
シーケンスか記号のシーケンスかこれらの組合せかの形式における質問Ｑにより
データ構造をサーチして、これにより情報Ｒが質問Ｑに基づいて、前者と後者の
正確な照合により検索されることである。

【００１１】本発明によるサーチシステムの有利な実施例において、前記接尾語ツリーＳＴ
（Ｔ）は、テキストＴ内に接尾語の１つのサブセットのみを含んでいるワード・
スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）である。

【００１２】それからワード・スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）は、好ましくはキ
ーワード・スペースト疎接尾語ツリーＳＳＴ_kWS（Ｔ）である。

【００１３】本発明の更なる有利な実施例において、キーワード・スペースト疎接尾語ツリ
ーＳＳＴ_kWS（Ｔ）においてキーワード照合の次数を検出する第１アルゴリズム
は従属請求項４により開示されたようにインプリメントされ、キーワード・スペ
ースト疎接尾語ツリーＳＳＴ_kWS（Ｔ）においてキーワード照合の次数を検出す
る第２アルゴリズムは従属請求項５により開示されたようにインプリメントされ
、これにより第２アルゴリズムのサブルーチンが従属請求項６に開示されたよう
にインプリメントされるのが好ましく、キーワード・スペースト疎接尾語ツリー
ＳＳＴ_kWS（Ｔ）においてキーワード照合の次数を検出する第３アルゴリズムは
従属請求項７により開示されたようにインプリメントされ、最後にキーワード・
スペースト疎接尾語ツリーＳＳＴ_kWS（Ｔ）においてキーワード照合の次数を検
出する第４アルゴリズムは従属請求項８により開示されたようにインプリメント
される。

【００１４】上記の諸目的と諸利点はまた、本発明による方法で実現されるが、その特徴は
、テキストＴ内のワード・セパレータ記号で開始する全ての接尾語を表現するテ
キストＴのワード・スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）として前記データ
構造を生成し、テキストＴ内のワードのシーケンス情報をワード・スペースト疎
接尾語ツリーＳＳＴ_WS（Ｔ）内に記憶し、テキストＴ内のワードの編集ディスタ
ンス・メトリックＤ（ｓ，ｑ）と、質問Ｑ内の質問ワードｑと、テキストＴ内の
ワードのシーケンスＳのワード・サイズ依存編集ディスタンス・メトリックＤ_WS （Ｓ，Ｐ）と、質問Ｑ内のワードｑのシーケンスＰを含んでいる組合せ編集ディ
スタンス・メトリックＭを生成し、前記編集ディスタンス・メトリックＤ_WS（Ｓ
，Ｐ）はシーケンスＳをシーケンスＰへ変換する編集オペレーションのコストの
最小額であり、このコストの最小額は、シーケンスＳの全長の変化に比例するパ
ラメータまたはカレントのワード長とシーケンスＳ；Ｐ内の平均ワード長の比率
により重み付けられる各編集オペレーションのコスト関数の最小額であり、検出
される情報Ｒのワードｓと質問Ｑの間の編集ディスタンスＤ（ｓ，ｑ）を計算す
ることによりワードｓ，ｑの間の照合の次数を決定し、または前記ワードｓ，ｑ
が互いからｋ個のエラーを超える場合は、全ての照合について編集ディスタンス
Ｄ_WS（Ｓ_R，Ｐ_Q）を計算することにより、検出される情報Ｒと質問Ｑのそれぞれ
のワードシーケンスＳ_R，Ｐ_Qの間の一致の次数を決定することである。

【００１５】本発明による有利な方法は追加的に、ワードｓおよびｑのキャラクタの間の近
接のパラメータにより、ワードｓをワードｑへ変更する編集オペレーションに重
みを付けて、これにより、編集オペレーションのコストを決定するときに問題の
ワードｓとｑの類似性を考慮に入れることを含む。

【００１６】本発明による方法の有利な実施例において、好ましくは、質問ワード・シーケ
ンスＰ_Q内の制限されたワードの数についての編集ディスタンスＤ_ws（Ｓ_R，Ｐ_Q
）を計算することにより、編集ディスタンスを計算して、これにより照合の数を
制限する。

【００１７】本発明による方法の他の有利な実施例において、ワードｓとワードｑの間の編
集ディスタンスＤ（ｓ，ｑ）は再帰的に定義され、動的プログラミング手順によ
り前記編集ディスタンスＤ（ｓ，ｑ）が計算され、また、シーケンスＳとシーケ
ンスＰの間の編集ディスタンスＤ_ws（Ｓ，Ｐ）が対応して再帰的に定義され、動
的プログラミング手順により前記編集ディスタンスＤ_ws（Ｓ，Ｐ）が計算される
。

【００１８】本発明によれば、上述の諸目的と諸利点はまた、近似サーチ・エンジン内で本
発明によるサーチ・システムを使用することにより実現することができる。

【００１９】本発明によるサーチ・システムは本質的に３つの部分、すなわち、データ構造
、近似的な照合のためのメトリック、サーチ・アルゴリズムからなる。全文検索
がターゲットであるときは、本質的に本発明によるサーチ・システムである場合
と同様に、検索可能であるべきデータ・セット全体が、高い質問性能をサポート
するデータ構造内に記憶される。

【００２０】本発明の基礎にある基本的な概念を、最初にやや詳しく議論する。テキストＴ
の形式で記憶された情報はワードｓとワードのシーケンスＳへ分割される。ワー
ドは、ワード境界項により分離された全テキストのサブストリングである。境界
項のセットはＢＴ_wordと記される。ワード境界項の共通セットはセットであり得て、ここで＼ｔはタブ・キャラクタを記し、＼ｎは改行キャラクタを記
し、＼０はドキュメント終了指示子を記す。本発明の下記の説明に関して、スト
リングとシーケンスに関するいくつかの定義が有用である。

【００２１】（定義１：ストリング）ストリングはＡＳＣＩＩキャラクタのような、アルファベットから取られた記
号のシーケンスである。次にストリングの長さは、そのストリングに含まれてい
る記号またはキャラクタのインスタンスの数であり、｜ｘ｜と記される。もしｘ
が長さｍを有するならば、このストリングはまたｘ₁ｘ_2...ｘ_i...ｘ_mと記され、
ここでｘ_iはストリング内のｉ番目の記号を表現する。

【００２２】ｘのサブストリングは、ｘ内の記号の連続グループにより与えられるストリン
グである。こうして、ストリングの始めまたは終りから１つまたはそれ以上のキ
ャラクタを削除することにより、サブストリングが得られる。

【００２３】（定義２：サブストリング、接尾語、接頭語）ｘのサブストリングは、あるについてのストリングである。ストリングはストリングｘの接尾語であり、また、ストリングはストリングｘの接頭語である。

【００２４】ワード・シーケンスの観念も使用される。

【００２５】（定義３：ワード・シーケンス）ワード・シーケンスは独立した連続番号である。ワード・シーケンスＳ=ｓ_1,
ｓ_2,...,ｓ_nは、ｓ₁、ｓ₂からｓ_nまでのｎ個の単一ワード（またはストリング）
からなる。

【００２６】ワード・シーケンスはシーケンス境界項により区切られる。セット・シーケン
ス境界項はＢＴ_seqと記される。シーケンス境界項の一般的なセットは、セット
｛’０＼’｝であり得て、ここで０＼はドキュメント終了マーカを指示する。

【００２７】近似ワード照合のコンセプトは下記の通りに記述される。

【００２８】ストリングＳ=ｓ_1,ｓ_2,...,ｓ_nと質問項ｑ=ｑ₁ｑ_2...ｑ_mが与えられる。その
ときタスクは、もとの質問項ｑから離れた最大ｋ個のエラーであるｓ内のｑの全
ての出現を発見することである。近接メトリックが、ｑと潜在的な照合ｓ_i．．
．ｓ_jの間のエラーをどのように計算するかを決定する。

【００２９】近接ワードマッチングのための一般的なメトリックは、Ｌｅｖｅｎｓｔｅｉｎ
ディスタンスすなわち編集ディスタンスである（Ｖ．Ｉ．Ｌｅｖｅｎｓｔｅｉｎ
、「訂正、削除、挿入、反転ができるバイナリ・コード」、（ロシアの）Ｄｏｋ
ｌａｄｙＡｋａｄｅｍｉｉｎａｕｋＳＳＳＲ、第１６３巻、第４号、８４
５−８頁、（１９６５年）；またサイバネティクスと制御理論、第１０巻、第８
号、７０７−１０頁、（１９６６年））。このメトリックは、１つのストリング
を他へ変換するのに必要な編集オペレーションの最小数として定義される。編集
オペレーションはいずれかの書換え規則で与えられ、例えば、・（ａ→ε），削除・（ε→ａ），挿入・（ａ→ｂ），変更

【００３０】ｐとｍをそれぞれサイズｉとｊの２つのワードであるとする。そのとき、Ｄ（
ｉ，ｊ）はｐのｉ番目の接頭語とｍのｊ番目の接頭語の間の編集ディスタンスを
記す。そのとき編集ディスタンスは下記のように再帰的に定義される。

【００３１】ワード・シーケンス内のワードのレベル上で近似的な照合を定義することも可
能であり、これは下記のように定義される。

【００３２】各ワードがキャラクタのストリングであるｎ個のワードｗ₁，ｗ₂．．．ｗ_nか
らなるテキストＴを与えられる。シーケンス・パターンＰは、ｍ個のワードｐ₁
，ｐ₂，．．．，ｐ_mからなる。１≦ｉ≦ｊ≦ｎであるようなｉ，ｊについてシー
ケンスｗ_i，ｗ_i+1．．．，ｗ_jから最大でｋ個のエラーまでｐ₁，ｐ₂，．．．，
ｐ_mが異なるならば、シーケンス・パターンＰはＴにおいて近似的な出現を有す
ると言われる。ここでも、近接メトリックが２つのシーケンスの間のエラーの数
を計算する仕方を決定する。

【００３３】サーチ・システム内の検索すべきテキストに、データのサーチを容易にするよ
うな仕方で、索引をつけなければならない。したがって、データ構造は本発明に
よるサーチ・システムのカーネル・データ構造であって、いわゆる接尾語ツリー
、特に疎接尾語ツリーに基づく。これら２つの構造を下記に定義する。接尾語ツ
リーＳ（Ｔ）はテキストＴ内のあり得る全ての接尾語のツリー表現である。接尾
語ツリーＳ（Ｔ）内の全ての単項ノードはその子と連結されて１つのコンパクト
・バリアント（ｃｏｍｐａｃｔｖａｒｉａｎｔ）を生成する。

【００３４】図１はテキストＴ＝“構造”（“ｓｔｒｕｃｔｕｒｅ”）のための接尾語ツリ
ーを示す。

【００３５】更に一層特殊には、本発明は疎接尾語ツリーに基づいている。これらはにより、「疎接尾語ツリー」、第２回国際計算組み合わせ論年次大会（ＣＯＣＯ
ＯＮ’９６）集録、Ｓｐｒｉｎｇｅｒ出版社、２１９頁−２３０頁に紹介されて
いて、これもまた、Ｄ．Ｒ．Ｍｏｒｒｉｓｏｎ「ＰＡＴＲＩＣＩＡ−英数字コー
ド化情報を検索するための実用アルゴリズム」、ジャーナル・オブ・ジ・ＡＣＭ
、１５、５１４−５３４頁（１９６８年）に基づいている。疎接尾語ツリーは下
記のように定義される。

【００３６】（定義４：疎接尾語ツリー）テキストＴの疎接尾語ツリーＳＳＴ（Ｔ）は接尾語ツリーであって、テキスト
の接尾語ツリーＳＴ（Ｔ）内に存在する接尾語のサブセットを１つだけ含むもの
である。

【００３７】本発明によるサーチ・システムを使用して全てのワードをサーチするときに、
ワード境界のみで開始して接尾語を記憶することにより、非均一的に間隔を取っ
た疎接尾語ツリーが有利に生成され得る。ワード・スペースト（ｗｏｒｄ−ｓｐ
ａｃｅｄ）疎接尾語ツリーのコンセプトは下記のように定義される。

【００３８】（定義５：ワード・スペースト疎接尾語ツリー）テキストＴの疎接尾語ツリーＳＳＴ_ws（Ｔ）は、テキスト内のワード・セパレ
ータ・キャラクタで開始する接尾語のみを含む疎接尾語ツリーＳＳＴ（Ｔ）であ
る。

【００３９】図２は、ワード・スペースト疎接尾語ツリーの２つの例を示す。読みやすくす
るために、接尾語の一部分を省略してある。Ｔ＝“ｔｏｂｅｔｈｅｂｅｓ
ｔ”のためのワード・スペースト疎接尾語ツリーは図２の左側の構造であり、ま
たＴ＝“ｔｏｍａｋｅｔｈｅｏｎｌｙｍａｊｏｒｍｏｄｉｆｉｃａｔ
ｉｏｎ”のためのワード・スペースト疎接尾語ツリーは図２の右側の構造である
。

【００４０】本発明のサーチ・システムにおいて、テキストは、ワード・スペースト疎接尾
語ツリー内に独立して記憶される複数のワードに自然に分割される。サーチング
のためのアトミック・サーチ項がワード自体であるので、有利なことに各接尾語
がワードの末尾で終結する。これは、この疎接尾語ツリーをいわゆるパトリシア
・トリー（ＰＡＴＲＩＣＩＡｔｒｉｅ）（Ｍｏｒｒｉｓｏｎ、前掲書中に）へ
縮小する。この文献中に定義されるトリーはルート付きのツリーであって、その
性質は、ルート以外の各ノードがアルファベットの記号を含み、また同一のツリ
ーからの２つの子が同一記号を有することがない。注意すべきは、ワード・トリ
ーがワード“検索”から出ていることであり、したがって、トリーがデータの検
索に適したツリー構造であることである。パトリシア・トリーは、葉ノード内に
記憶される接尾語がキーワード区切り文字に限定されるキーワード・スペースト
疎接尾語ツリー（ＫＷＳツリー）として定義される。キーワード｛“ａｖｏｉｄ
”，“ａｂｕｓｅ”，“ｂｅ”，“ｂｅｃｏｍｅ”，“ｂｒｅａｓｅ”，“ｓａ
ｙ”｝のセットが図３に示されている。本発明のサーチ・システムに使用される
構造は、このサーチ・システムがワードのシーケンス情報を明示的に記憶するの
で、パトリシア・トリーと異なる。接尾語の長さを減少させるためには、葉ノー
ドの表現を変更する必要がある。オリジナル・テキストへのポインタは接尾語自
体により置きかえられる。図２に示したのと同じ２つのストリングについて、こ
の種の接尾語長さ縮小を図４に示す。言い換えれば図４はワード境界で切り取ら
れた接尾語を有するワード・スペースト疎接尾語ツリーを示す。Ｔ＝“ｔｏｂ
ｅｔｈｅｂｅｓｔ”のためのワード・スペースト疎接尾語ツリーは図の左側
に示され、またＴ＝“ｔｏｍａｋｅｔｈｅｏｎｌｙｍａｊｏｒｍｏｄ
ｉｆｉｃａｔｉｏｎ”のためのワード・スペースト疎接尾語ツリーは図の右側に
示されている。葉ノードは、その葉ノードにより表現されるワードが生起する全
ての位置のリストを含む。

【００４１】オリジナル・テキストに見出される情報の明示的なシーケンスを使用する代わ
りに、本発明は、ワード・スペースト疎接尾語ツリー内に、シーケンス情報を明
示的に記憶する。これは、オリジナル・テキスト内の連続する語を表現する葉ノ
ードの間にポインタを使用することにより実行される。少なくとも特定の葉ノー
ドにより表現されるワードの全ての生起が利用できるように、次の連続する葉へ
ポインタが付加されなければならない。

【００４２】葉ノードはそれが表現するワードの接尾語のみを含むので、生起リスト内にシ
ーケンス・ポインターズを横断するときに各連続ワードの接尾語だけが現れる。
これは、接尾語だけでなく葉ノード内のワード全体を記憶することにより処理さ
れ、こうして本発明のデータ構造もまた、この点でパトリシアと異なる。明示的
に記憶されたワード・シーケンス情報のデータ構造は、次の連続ワードとその生
起へのポインタを有する生起リストと共に、図５に示されている。

【００４３】本発明によるサーチ・システムは、生起リストを組織するためにパトリシア・
トリーを使用する（Ｍｏｒｒｉｓｏｎ、前掲書中に）。パトリシア・トリーは、
サーチ・システムが、時間Ｏ（｜ｐ₂｜）で、ストリングｐ₂を照合する全ての連
続ワードのリストにアクセスできるようにし、ここで｜ｐ₂｜はもちろんｐ₂の長
さである。生起リストを組織するためにパトリシア・トリーを使用することによ
り、テキストからワードを記憶してシーケンス情報を維持するための完全に定義
されたツリー構造が得られる。組織された生起リストのためのパトリシア・トリ
ーと特別な未ソート生起リストの両方を有する典型的な葉ノードが、図６に示さ
れている。本発明のサーチ・システムに使用されるような生起リストのためのメ
モリ要件の例として、約７４２５３８のドキュメントがあるデータベースは、合
計３３３８５６７４４語と５３８２４４のディスティンクト・ワードの辞
典を有する。このデータベースの全体のサイズは２０５４．５２ＭＢである。そ
の平均ワード長は、こうして６．４５バイトである。疎接尾語ツリーは各内部ノ
ードに８バイトを使用し、３２ビットのポインタを使用する。各ワードについて
、平均３個の内部ノードが使用されているとみなされる。そのとき葉ノードは生
起リストへのポインタのためのワード全体プラス３２ビットを記憶するために、
６．４５バイトを必要とする。３４．４５バイト／ワードの全体が全サイズの１
８．１０８ＭＢを与える。その上、生起リストは入力ごとの４バイトと、フル・
バージョンを使用する場合の１２バイトを有する。したがって、生起リストの全
体のメモリ要件は１２７３ＭＢから３８２０ＭＢまで変化する。疎接尾語ツリー
を使用するデータ構造は、オリジナル・テキストの６０％から２００％の間のサ
イズを有する。これは逆ファイルの要件に比較し得るが、しかし本発明によるサ
ーチ・システムに使用される疎接尾語ツリーは、遥かに迅速なサーチを供給して
、近似照合を可能にし、シーケンス照合を遂行しやすくする。

【００４４】近似サーチにおいては、あり得る照合にエラー測度を与えるためにメトリック
が使用される。本発明によるサーチ・システムはいくつかのメトリックを採用し
、特にメトリックの独自な組合せを採用する。これらのメトリックはメトリック
の組合せとともに、以下に議論される。

【００４５】キャラクタと同様にワードに直観的に適用される削除、挿入、変更のオペレー
ションを、上に定義した編集ディスタンス・メトリックが可能にする。フレーズ
の照合における一般的なエラーは、ワードの脱落、追加、変更である。従って、
近似ワードシーケンス照合問題に適用するために、以前に定義した編集ディスタ
ンス・メトリックを適合させて拡張すべきである。シーケンスの編集オペレーシ
ョンは下記に定義される。

【００４６】（定義６：シーケンスの編集オペレーション）ワードの１つのシーケンスＳをワードの他のシーケンスＰに変換するために、
シーケンス内のワードに許される編集オペレーションを、下記の書換え規則によ
り書きこむことができる。・（ａ→ε），シーケンスからのワードａの削除・（ε→ａ），シーケンスへのワードａの挿入・（ａ→ｂ），ワードａからワードｂへの変更・（ａｂ→ｂａ），隣接するワードａとワードｂの置換え

【００４７】アトムとしてのキャラクタの代わりに、本発明によるサーチ・システムは、ワ
ードへ編集オペレーションを適用し、そのときワードはオペレーショナル・アト
ムとみなされる。

【００４８】コスト関数は下記のように定義される定数である。ここでは下記のように定義される。

【００４９】上記の編集オペレーションを使用することにより、今やシーケンスの編集ディ
スタンスを定義できる。

【００５０】（定義７：シーケンスの編集ディスタンス）シーケンスのための編集ディスタンス・メトリックは、シーケンスＳ＝ｓ_1,ｓ _2,..., ｓ_nおよびシーケンスＰ＝ｐ_1,ｐ_2,...,ｐ_mの間のディスタンスD_seq（Ｓ，
Ｐ）を、シーケンスＳをシーケンスＰへ変換する編集オペレーションのシーケン
スのためのコストｃ（ｘ→ｙ）の最小額として定義する。

【００５１】本発明によるサーチ・システムはシーケンスのための編集ディスタンス・メト
リックを強化して、その上で作動されるワードのサイズによる編集オペレーショ
ンのコストの重みを付ける。

【００５２】（定義８：シーケンスのためのワード・サイズ依存編集ディスタンス）シーケンスのためのワード・サイズ依存編集ディスタンスは、１つのシーケン
スを他へ変換するのに必要な編集オペレーションのためのコストの最小額として
定義される。これらのコスト関数はそのオペランドのワード・サイズによって決
まる。

【００５３】本発明によるサーチ・アルゴリズムにおいて、コスト関数の定義は下記の方程
式により与えられる。ここでｌは比較される２つのシーケンスの中の１つのワードの平均長さを記す。
各編集オペレーションのコストは、シーケンスの全体長さの変化に比例するサイ
ズにより、またはカレントのワード長さと考察するシーケンス内の平均ワード長
さとの比率により、重み付けられる。

【００５４】さてこのディスタンス・メトリックは、ワード長さとワード・シーケンスの意
味文脈へのそのワードの重要性との間のある関係の仮定を反映する。その上、本
発明によるサーチ・システムは、変更編集オペレーション（ａ→ｂ）が使用され
るとき、キャラクタ・レベルの近接が採用される。あるワードａを他のワードｂ
で置換えることは、これら２つのワードの間の類似性に関係する。従って変更編
集オペレーションの新しいコスト関数は下記のように与えられる。Ｄ（ａ，ｂ）が、語の正規編集ディスタンス測定関数であるとき、０は完全な類
似性を意味し、1は類似性が全くないことを示す。

【００５５】本発明によるサーチ・システムは、式（４）、（５）、（６）により与えられ
るコスト関数を有するシーケンスの編集ディスタンス・メトリックと、式（１）
により与えられるワードの編集ディスタンス・メトリックを組合せる。これは、
照合されたワードがお互いからｋ個のエラーよりも離れているときにのみ、シー
ケンス編集オペレーションが使用されることを意味する。

【００５６】本発明によるサーチ・システムに使用されるアルゴリズムは、これらの説明さ
れた構造の効率的なサーチを遂行する。上記のメトリックにより照合が発見され
る。

【００５７】ワード・スペースト疎接尾語ツリー内の近似ワード照合が、編集ディスタンス
マトリクスの計算と接尾語ツリーの横断の組合せにより実行される。このための
アルゴリズムを擬似コードで書いたものが表Ｉに与えられる。

【００５８】このアルゴリズムは、Ｈ．Ｓｈａｎｇ＆Ｔ．Ｈ．Ｍｅｒｒｅｔｔａｌ、「
近似ストリング・マッチングの試み」、知識・データ工学についてのＩＥＥＥト
ランザクション、第５巻、第４号、５４０頁−５４７頁（１９９６年）により提
案されたトリー照合アルゴリズムから適合されたものである。このアルゴリズム
の走行時間の予想される最悪の場合は、Ｓｈａｎｇ＆Ｍｅｒｒｅｔｔａｌに
よれば、Ｏ（ｋ｜Σ｜^k）である（前掲書に）。

【００５９】近似ワード・シーケンス照合は、全ての可能な照合についてワード・シーケン
ス編集ディスタンスを計算することを必要とする。しかしながら、可能な照合の
数は、可能なワード上にのみ編集ディスタンスの計算を開始することにより制限
できる。シーケンスから１つのワードを削除するコストが可能な開始ワードの数
を決定する。１つの質問シーケンスＰ_Q内のｉ個のファースト・ワードを削除す
るコストの蓄積が与えられたエラー・スレッショルドの上にあがれば、質問のｉ
番目のワードにより開始する候補シーケンスは、恐らく照合ではあり得ない。従
ってｉ個のワードの質問シーケンスＰ_Qについて、最大ｉ個の開始ワードが試み
られる。ツリーのシーケンス構造内にバックポインタが１つもないので、全ての
可能な照合が得られることは保証されない。バックポインタを追加することが、
この問題を解決する。本発明によるサーチ・システムに使用されるような近似ワ
ード・シーケンス照合のためのアルゴリズムは、下記の表IIに擬似コードで与え
られる。このアルゴリズムは、ｐ_1,ｐ_2...により逐次的にファースト・キーワー
ドを照合して、全ての可能な開始位置をテストすることを試みる。

【００６０】表IIのＡｐｐｒｏｘＳｅｑｕｅｎｃｅＭａｔｃｈアルゴリズムにおいて、Ａｐ
ｐｒｏｘＭａｔｃｈＲｅｓｔ関数は、下記の表IIIのアルゴリズムにより定義さ
れる。この関数は、初期エラー値を使用して、残りのシーケンスを照合する。

【００６１】表IIと表IIIのアルゴリズムは、表Ｉのアルゴリズムと同一の擬似コードで書
かれている。

【００６２】シーケンス内のファースト・ワードに一致する葉ノードを発見するために使用
されるＦｉｎｄＥｘａｃｔ関数は、ツリーの単一の横断を遂行し、その走行時間
はＯ｜ｐ₁｜であり、ここでｐ₁は質問シーケンスＰ_Q内のファースト・ワードを
記する。編集ディスタンスの計算は、直接の動的プログラミングを使用して｜Ｐ
｜²時間内に実行できるし、またはこの計算アルゴリズムの改良バージョンを使
用してＯ（ｋ）時間（ここでｋはエラー・スレッショルドを記す）内に実行でき
るが、Ｅ．Ｕｋｋｏｎｅｎ、「ストリング内の近似パターンの発見」、ジャーナ
ル・オブ・アルゴリズム、第６巻、１３２頁−１３７頁（１９８５年）を参照さ
れたい。

【００６３】 Σｎ_occ（ｐ_i）が、ワード・シーケンス内の各ワードｐ_iの生起の数の総合計
を記すならば、そのとき最悪の場合、走行時間は、Ｏ（ｋΣｎ_occ（ｐ_i））であ
る。

【００６４】最後に、本発明によるサーチ・システムに基づくサーチ・エンジンのインプリ
メンテーションを簡単に議論する。特に、本発明によるサーチ・システムに基づ
くサーチ・エンジンは、近似サーチ・エンジン（ＡＳＥ）としてインプリメント
され、大きなドキュメント・コレクションに索引をつけて、これらのドキュメン
ト・コレクションの厳密サーチと近似サーチのためのアルゴリズムを供給するこ
とを意図している。ＡＳＥは大きなテキストまたはドキュメントのコレクション
を記憶するデータ構造を供給する。理解すべきは、データ構造が画像、ビデオ、
音響、のような付加的な情報を含むドキュメントから生成されるかも知れず、ま
たテキストはフォーマットまたは注釈されているかもしれないことである。デー
タ構造は上に議論したワード・スペースト疎接尾語ツリーと同一であり、もちろ
ん、ワードはサーチ・システムのキーワードであると理解すべきであり、従って
このワード・スペースト疎接尾語ツリーを代わりにキーワード・スペースト疎接
尾語ツリー（ＫＷＳツリー）と名付けることができる。ＡＳＥは、ＫＷＳツリー
内のドキュメントに索引をつけるアルゴリズムを含む。もちろんこれらのアルゴ
リズムは本発明によるサーチ・システムの一部分を形成しないが、しかしそれら
は当業者によく知られていて文献にも記載されているので、たとえばＤ．Ｒ．Ｍｏｒｒｉｓｏｎ（前掲書）を参照されたい。

【００６５】本発明によりＡＳＥの中で使用されるサーチ・システムは、ＫＷＳツリー内の
パターンの正確な照合と近似照合の両方のためのアルゴリズムを採用する。上記
の表Ｉと表IIに与えられるアルゴリズムは、メトリックのようなノン・ユニフォ
ーム編集ディスタンスを有する近似ワードとワードのシーケンスについて使用さ
れる。ＫＷＳツリー内の長さｍを有するキーワードｐの正確な一致を発見するこ
とは、当分野で知られており、ツリー構造の単一の横断として容易にインプリメ
ントされる。擬似コードで書かれた正確なキーワード照合のために適当なアルゴ
リズムを表IVに示す。本発明によるサーチ・システムは正確なシーケンス照合の
ためのアルゴリズムをもサポートできる。正確なキーワード・シーケンス照合の
アルゴリズムは当分野で知られており、下記の表Ｖに擬似コードで示されるよう
に容易にインプリメントされる。ここに与えられるアルゴリズムは第１キーワー
ドがあれば、その厳密な照合を発見する。次にそれは、第１キーワードの全ての
生起について、第２キーワードが質問の第２キーワードに照合するかどうかをチ
ェックする。もし照合すれば、表ＶのＭａｔｃｈＲｅｓｔ手順が使用されて、２
つの第１キーワードの生起が全シーケンスにおいて照合するかどうかを決定する
。ＫＷＳツリー内の近似キーワード照合のために、サーチシステムは上記の表Ｉ
のアルゴリズムをインプリメントする。適当なキーワード・シーケンス照合のた
めに、サーチ・システムは上記の表IIのアルゴリズムをインプリメントして、ｐ _1, ｐ₂．．．により逐次的にファースト・キーワードを照合して、全ての可能な
開始位置をテストして、表IIIに示すＡｐｐｒｏｘＭａｔｃｈＲｅｓｔ機能を適
用して、ある特定の位置で開始するシーケンスを照合して、初期エラー値を処理
する。

【００６６】最後にＡＳＥは、ドキュメント・コレクションの索引付けと質問の制御をユー
ザに与える１つの単純なフロント・エンドを必要とする。このフロント・エンド
はまた、ドキュメント・コレクションの統計を備えて、ＷＷＷ経由などのリモー
ト・アクセスと、ローカル・サーバ・ユーザ・インターフェイスの両方を供給す
ることができる。

【００６７】本発明によるサーチ・システムを有するＡＳＥは、新しい索引付けとサーチの
アルゴリズムを容易に追加できるようにする仕方であるので一般的である。また
、各ドキュメントまたはキーワードについて特別な情報を記憶しているので、容
易な仕方でインプリメントできる。特に、フロント・エンドはデータ・構造とサ
ーチ・アルゴリズムから独立しているので、これらにおける内部変更が前者の設
計に何の影響もしない。

【００６８】本発明によるサーチ・システムを使用することにより、ＡＳＥがデータ・構造
内で可能な限り少ないメモリのオーバーヘッドを有するように設計できる。また
、サーチができるだけ速くなるように設計できる。しかしながら、これら２つの
要素の間には、通常トレード・オフが存在する。

【００６９】要約すると、本発明によるサーチ・システムを有するＡＳＥは、４つの大きな
モジュールを有する。

【００７０】１．ＫＷＳツリー構造内のドキュメントを索引付けするためのドキュメント
・インデクシング・モジュールＤＩＭ。このモジュールはまた、いくつかのドキ
ュメントのタイプをサポートするための全ての拡張を含む。

【００７１】２．キーワード・スペースト疎接尾語ツリー（ＫＷＳツリー）に基づくデー
タ・記憶装置モジュール。

【００７２】３．ＫＷＳツリーをサーチするためのサーチ・アルゴリズム・モジュールＳ
ＡＭであって、ワードおよびワード・シーケンスをそれぞれ正確整合および／ま
たは近似整合するアルゴリズムを含んでいるもの。

【００７３】４．ローカル・サーバ・ユーザ・インターフェイスとリモート質問のための
ネットワーク・インターフェイスの両方を含んでいる、ユーザ・インターフェイ
ス・フロント・エンド・モジュール。

【００７４】ＡＳＥの４つのモジュールは共に作用して、完全なサーチ・エンジンの機能性
を供給する。異なったモジュールの間のデータの流れを図７に示す。あるドキュ
メントのコレクションの索引付けが、インデクシング・アルゴリズムを含んでい
るドキュメント・インデクシング・モジュールＤＩＭ内で実行される。もちろん
このモジュールは本発明によるサーチ・システムの１つではなく、使用できるイ
ンデクシング・アルゴリズムは当分野でよく知られている。ドキュメント内に見
出されるテキストが、記憶のためにデータ記憶装置モジュールＤＳＭへ渡される
。もちろん、データ記憶装置モジュールは、本発明によるサーチ・システムの一
部分であり、ＫＷＳツリー構造に基づいて示されているとおりである。サーチ・
アルゴリズム・モジュールＳＡＭは、データ記憶装置モジュール内に配置された
サーチ用のアルゴリズムを含む。このモジュールは本発明によるサーチ・システ
ムをインプリメントして、ツリーとノード情報についてデータ構造に質問してサ
ーチ処理ができるようにし、同時に状態変数を維持する。フロント・エンド・モ
ジュールがたとえばワーク・ステーション上またはパーソナル・コンピュータ上
などにインプリメントされて、上述の機能性を供給する。

【００７５】既に導入部で述べたように、本発明によるサーチ・システムは、ワークステー
ションを含む商用のコンピュータ・システム上で、適当な高水準言語で書かれた
ソフトウェアとしてインプリメントできることを理解すべきである。それはまた
前述のように専用プロセッサの形式でもインプリメントでき、それは、多数の質
問ワード・シーケンスを有する近似照合のために、大きなワード・シーケンスを
並列に処理できる多数の並列プロセッサを有利に含み得る。プロセッサの固定オ
ペレーショナル・パラメータは、それから低レベル・コードに入力され、一方Ｋ
ＷＳツリー構造からのキーワード・シーケンス入力が、巨大な量のデータへの質
問の極度に迅速な処理を可能にするので、本発明によるサーチ・システムは、従
ってワールド・ワイド・ウェブなどにおけるサーチの遂行に高度に適しており、
ＫＷＳツリー構造内でさえ現在ワールド・ワイド・ウェブ上に提供されている全
てのドキュメントを索引付けることができ、将来のワールド・ワイド・ウェブに
予想されるデータ量の増加をも処理できる。

【図面の簡単な説明】本発明によるサーチ・システムと方法を、添付図面を参照しながら、前記に詳
細に説明してきた。

【図１】接尾語ツリーの一例を示す。

【図６】本発明に使用される葉ノード構造である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ【要約の続き】Ｐ_Qとの間で、全ての照合についての編集ディスタンスを計算することにより、照合を決定する。近似サーチ・エンジンにおける使用。

Claims

【特許請求の範囲】

【請求項１】情報検索、特にテキストＴの形で記憶された情報のためのサ
ーチシステムであって、前記情報検索は質問Ｑと検索される情報Ｒの間の照合の
所定または変動の次数で実現し、テキストＴを記憶するためのデータ構造と、質
問Ｑと検索される情報Ｒの間の照合の次数を測定するメトリックＭと、サーチ、
特にキーワードに基づいて全文サーチを実行するサーチ・アルゴリズムを含んで
いる前記サーチ・システムであって、前記データ構造は、テキストＴにおけるワードの接尾語とワード・シーケンス
と記号シーケンスを記憶する接尾語ツリーＳＴ（Ｔ）の形式におけるツリー構造
を含んでいることと、テキストＴにおけるワードまたは記号と質問Ｑの間の照合
の近似的な次数についての編集ディスタンス・メトリック、およびテキストＴに
おけるワードまたは記号のシーケンスＳと質問シーケンスＰの間の照合の近似的
な次数についての編集ディスタンス・メトリックの組合せを前記メトリックＭが
含んでいて、後者の編集ディスタンス・メトリックがワードと記号の１つのシー
ケンスＳを他のワードと記号のシーケンスＰへ変換する編集オペレーションのた
めの加重コスト関数を含むことと、テキストＴと質問Ｑの各々の接尾語ツリー表
現内のワードの間の照合の次数を決定する第１アルゴリズムおよび／またはテキ
ストＴと質問Ｑの各々の接尾語ツリー表現内のワードのシーケンスの間の照合の
次数を決定する第２アルゴリズムを前記サーチ・アルゴリズムが含んでいて、前
記第１および／または第２のアルゴリズムは、ワード、ワードのシーケンス、ま
たは記号のシーケンスまたはこれらの組合せの形式の質問Ｑで、データ構造をサ
ーチして、これにより前者と後者の間の照合の規定された次数による質問Ｑに基
づいて情報Ｒが検索されるようになっていることを特徴とする前記サーチシステ
ム。
【請求項２】前記接尾語ツリーＳＴ（Ｔ）が、テキストＴ内に接尾語の１
つのサブセットのみを含んでいるワード・スペースト疎接尾語ツリーＳＳＴ_WS（
Ｔ）であることを特徴とする請求項１記載のサーチ・システム。
【請求項３】情報検索のためのサーチ・システムにおける方法であって、
特に、テキストＴの形式で情報が記憶され、テキストＴがワードとワードのシー
ケンスへ分割され、ワードは記号のシーケンスである、各ワードは１つまたはそ
れ以上の接尾語として構成され、これらの接尾語はシーケンスを構成する語にお
ける記号のサブセットであって、テキストＴ内のワード・セパレータ記号で開始する全ての接尾語を表現するテ
キストＴのワード・スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）を生成し、ワード
・スペースト疎接尾語ツリーＳＳＴ_WS（Ｔ）内のテキストＴ内のワードのシーケ
ンス情報を記憶し、前記シーケンスＳを前記シーケンスＰへ変換する編集オペレ
ーションのためのコストの最小額としてワード・シーケンスＳと同Ｐのために編
集ディスタンス・メトリックＤ（Ｓ，Ｐ）を生成し、コストの合計は各編集オペ
レーションのコスト関数の合計であり、シーケンスＳをシーケンスＰへ変換する
ためのコストの最小額としてワード・シーケンスＳと同Ｐのためにワード・サイ
ズ依存編集ディスタンス・メトリックＤ_WS（Ｓ，Ｐ）を生成し、コストの合計は
この編集オペレーションの含まれるワード・サイズのためのパラメータにより重
みをつけられた各編集オペレーションのコスト関数の合計であり、全ての照合に
ついて編集ディスタンスＤ（Ｓ_R，Ｐ_Q）をそれぞれ計算することにより、検索さ
れた情報Ｒと質問Ｑのワード・シーケンスＳ_Rと同Ｐ_Qの間の照合を決定すること
を特徴とする前記方法。
【請求項４】シーケンスＳとシーケンスＰの間の近接のついてのパラメー
タによりシーケンスＳを他のシーケンスＰへ変更する編集オペレーションを追加
的に重み付けることにより、問題の編集オペレーションのコストを決定するとき
にシーケンスＳとシーケンスＰの類似性を考慮に入れることを特徴とする請求項
３記載の方法。
【請求項５】質問ワード・シーケンスＰ_Q内の制限されたワードの数につ
いての編集ディスタンスＤ（Ｓ_R，Ｐ_Q）を計算することにより、照合の数を制限
することを特徴とする請求項３記載の方法。
【請求項６】近似サーチ・エンジンにおける請求項１または請求項２記載
のサーチ・システムの使用。