JP2002520712A - データ検索システムと方法およびサーチ・エンジンにおけるその使用 - Google Patents
データ検索システムと方法およびサーチ・エンジンにおけるその使用Info
- Publication number
- JP2002520712A JP2002520712A JP2000559494A JP2000559494A JP2002520712A JP 2002520712 A JP2002520712 A JP 2002520712A JP 2000559494 A JP2000559494 A JP 2000559494A JP 2000559494 A JP2000559494 A JP 2000559494A JP 2002520712 A JP2002520712 A JP 2002520712A
- Authority
- JP
- Japan
- Prior art keywords
- word
- sequence
- text
- words
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 80
- 238000010845 search algorithm Methods 0.000 claims abstract description 18
- 230000001419 dependent effect Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 28
- 239000002131 composite material Substances 0.000 abstract 1
- 241000712062 Patricia Species 0.000 description 10
- 238000013500 data storage Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Radar Systems Or Details Thereof (AREA)
- Liquid Crystal Substances (AREA)
- Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
Abstract
Description
で記憶された情報であって、質問Qと検索される情報Rの間の照合の所定次数ま
たは変動次数により前記情報検索を実現し、前記サーチ・システムはテキスト(
T)を記憶するためのデータ構造、質問Qと検索される情報Rの間の一致の次数
を測定するメトリックM、サーチ特にキーワードに基づく全文サーチを実行する
サーチ・アルゴリズムを含んでいて、情報検索のためのサーチ・システムにおけ
る方法で、とりわけ情報がテキストTの形式で記憶され、テキストTがワードお
よびワードのシーケンスに分割され、ワードは記号のシーケンスであり、各ワー
ドは1つまたはそれ以上の接尾語で構成され、接尾語はワード構成シーケンス内
の記号のサブセットである前記方法と、前記サーチ・システムの使用に関する。
され記憶されている。コンピュータ・メモリ・システムがますます公衆利用デー
タ通信ネットワークにリンクされるにつれて、公共的および個人的な使用のため
の情報のサーチと検索のシステムと方法が一層の努力で開発されてきた。しかし
ながら、現在のデータ・サーチ方法は、記憶された情報を効率的に検索して使用
する可能性を種々の制限がひどく減少させる。
文脈において、動的データと静的データの間を識別することは有用である。動的
データはしばしばに継続的に変化するデータであるので、有効データのセットが
常に変化するのに対して、静的データは非常に稀にしか、または全然変化しない
。例えば株価のような経済データ、または気象データは急激な変化を受けやすい
ので動的である。他方、書物とドキュメントのアーカイバル・ストレージは通常
永久的な静的データである。データの揮発性の概念は、いかに長くデータが有効
であるかに関係する。データの揮発性は、その情報がどのように長くサーチし検
索されるかに関係がある。大量のデータは、サーチを容易にするために構造を必
要とするが、そうした構造を構築する時間コストは、そのデータが有効である時
間よりも高くてはならない。構造を構築するコストはデータ量によって決まり、
従って、情報をサーチするためのデータ構造の構築は、データ量と揮発性の両方
を考慮に入れなければならない。収集された情報はデータベースに記憶されるが
、これらは構造化されているかもしれないし、構造化されていないかもしれない
。その上、データベースはいくつかのタイプのドキュメントを含み得て、それに
は、映像、ビデオ、音響、フォーマット付きまたは注釈付きのテキストが含まれ
る。特に構造化データベースは、データのサーチと検索を容易にするために、通
常、索引を備えている。ワールド・ワイド・ウェブ(WWW)の成長は、複合ハ
イパーリンク・ドキュメントの収集の確実な成長を提供する。これらの大多数は
構造化データベース内に収集されず、サーチを容易にするインデックスは何も利
用できない。しかしながら、ワールド・ワイド・ウェブ内にドキュメントをサー
チする必要は明白であり、その結果、多数のいわゆるサーチ・エンジンが開発さ
れて、ワールド・ワイド・ウェブ内の情報が少なくとも部分的に利用できるよう
になった。
あると一般に理解されている。サーチ・システムはまた、固有のサーチ・システ
ムに加えて、例えば多数のユニフォーム・リソース・ロケーター(URL)から
のテキストを含んでいる。そうしたサーチ・エンジンの例には、Alta Vi
sta、Inktomy technologyによるHotBot、Info
seek、Excite、Yahooがある。これらの全ては、ワールド・ワイ
ド・ウェブ内での情報のサーチと検索を遂行する機能を提供する。しかしながら
、それらの速度と性能は、ワールド・ワイド・ウェブ上で利用可能な情報の巨大
な量に決して整合せず、従って、これらのサーチ・エンジンのサーチと検索の性
能が、大いに望ましいものとして残る。
の質問型を実行することにより通常行ない得る。最も一般的な質問型は、照合と
この変形である。質問される情報内に現存するはずであるキーワードまたはキー
ワードのセットを指定することにより、サーチ・システムはこの要件を満たすす
べてのドキュメントを検索する。基本的なサーチ方法は、いわゆる単一キーワー
ド照合に基づいている。キーワードpがサーチされて、このワードを含む全ての
ドキュメントが検索される。キーワード接頭語pをサーチすることも可能であり
、またドキュメント内のいずれかのキーワード内でこの接頭語が存在する全ての
ドキュメントがが検索される。キーワードによって検索する代わりに、しばしば
サーチはいわゆるイグザクト・フレーズ・マッチングに基づくこともあり、この
場合はサーチは特定のシーケンス内のいくつかの単一キーワードを使用する。当
業者に公知のように、キーワード・フレーズの厳密な照合は、多くのシステムに
おいてブール演算子によって、例えば情報のフィルタリングを可能にするAND
、OR、NOTのような演算子に基づいて実行され得る。例えばANDフレーズ
を使用すれば、このAND演算子によりリンクされる2つのキーワードを含む全
てのドキュメントが結果として返される。またNEARオペレータも、キーワー
ド照合により返すドキュメント自体およびそのドキュメント・テキスト内で互い
に「近く」位置するものを返すために使用される。多くの構造化データベースに
おいて、データベース内に含まれるドキュメントは、例えばドキュメント内の情
報のある部分またはタイプを記すフィールドを備えていて、注釈されている。こ
れにより、ドキュメントの部分のみの照合のためのサーチが可能になり、質問さ
れる情報のタイプが予め知られているときに有用である。
ぶん英語、ノルウェイ語などのようなある自然言語で存在するであろう。ある一
定の文脈によりドキュメントをサーチするときに、質問に近似的に照合するキー
ワードまたはフレーズを照合させるために、近接メトリックを適用することがで
きる。キーワードおよびフレーズ内のエラーを許容することは、近接のための普
通の方法であり、シソーラスを使用することはもう一つの普通の方法である。近
接サーチは、検索される情報と質問の間に、部分的な照合があることのみを必要
とする。国際公表出願WO96/00945、名称「可変長データ・シーケンス
照合方法と装置」(デリンガ他)、インターナショナル・ビジネス・マシン社に
譲渡は、入力からのサーチ・アーギュメント(入力キー)の少なくとも部分的な
照合、好ましくは最長の部分的照合または全ての部分的な照合を記憶し検索する
ためのトリー類似の構造(trie−like structure)を開示す
る。
検索のためのサーチシステムと方法を供給することである。特に、分散した大量
のデータ記憶を有する情報システム、例えばインターネットのサーチのためのサ
ーチ・エンジンをインプリメントするのに適したサーチ・システムを供給するこ
とが、本発明の1つの目的である。理解すべきは、本発明によるサーチ・システ
ムは英数字記号の形式により記憶された情報をサーチし検索するのに決して限定
されず、ディジタル化された画像およびグラフィック記号の形式で記憶された情
報をサーチし検索するためにも同様に適用でき、同様に本書に使用されるワード
・テキストも、これらが部分的または全体的に記号のセットとして表現されると
きは、画像として解釈され得ることである。また理解すべきは、本発明によるサ
ーチ・システムが、商用コンピュータ・システム上で適当な高水準言語で書かれ
たソフトウェアとしてインプリメントできるが、前記の種類の情報のサーチと検
索のために専用プロセッサ装置の形式でインプリメントすることもできることで
ある。
その特徴は、前記データ構造は、テキストTにおけるワードの接尾語とワード・
シーケンスと記号シーケンスを記憶する接尾語ツリーST(T)の形式における
ツリー構造を含んでいることと、テキストTにおけるワードまたは記号と質問Q
の間の照合の近似的な次数についての編集ディスタンス・メトリック、およびテ
キストTにおけるワードまたは記号のシーケンスSと質問シーケンスPの間の照
合の近似的な次数についての編集ディスタンス・メトリックの組合せを前記メト
リックMが含んでいて、後者の編集ディスタンス・メトリックがワードと記号の
1つのシーケンスSを他のワードと記号のシーケンスPへ変換する編集オペレー
ションのための加重コスト関数を含むことと、テキストTと質問Qの各々の接尾
語ツリー表現内のワードの間の照合の次数を決定する第1アルゴリズムおよび/
またはテキストTと質問Qの各々の接尾語ツリー表現内のワードのシーケンスの
間の照合の次数を決定する第2アルゴリズムを前記サーチ・アルゴリズムが含ん
でいて、前記第1および/または第2のアルゴリズムは、ワード、ワードのシー
ケンス、または記号のシーケンスまたはこれらの組合せの形式の質問Qで、デー
タ構造をサーチして、これにより前者と後者の間の照合の規定された次数による
質問Qに基づいて情報Rが検索されるようになっていることである。
(T)は、テキストT内に接尾語の1つのサブセットのみを含んでいるワード・
スペースト疎接尾語ツリーSSTWS(T)である。
るが、その特徴は、テキストT内のワード・セパレータ記号で開始する全ての接
尾語を表現するテキストTのワード・スペースト疎接尾語ツリーSSTWS(T)
を生成し、ワード・スペースト疎接尾語ツリーSSTWS(T)内のテキストT内
のワードのシーケンス情報を記憶し、前記シーケンスSを前記シーケンスPへ変
換する編集オペレーションのためのコストの最小額としてワード・シーケンスS
と同Pのために編集ディスタンス・メトリックD(S,P)を生成し、コストの
合計は各編集オペレーションのコスト関数の合計であり、シーケンスSをシーケ
ンスPへ変換するためのコストの最小額としてワード・シーケンスSと同Pのた
めにワード・サイズ依存編集ディスタンス・メトリックDWS(S,P)を生成し
、コストの合計はこの編集オペレーションの含まれるワード・サイズのためのパ
ラメータにより重みをつけられた各編集オペレーションのコスト関数の合計であ
り、全ての照合について編集ディスタンスD(SR,PQ)をそれぞれ計算するこ
とにより、検索された情報Rと質問Qのワード・シーケンスSRと同PQの間の照
合を決定することである。
スPの間の近接のパラメータにより、シーケンスSを他のシーケンスPへ変更す
る編集オペレーションに重みを付けて、これにより、問題の編集オペレーション
のコストを決定するときにシーケンスSとシーケンスPの類似性を考慮に入れる
ことを含む。
限されたワードの数についての編集ディスタンスD(SR,PQ)を計算すること
により、照合の数を制限する。
・システムを使用することにより実現することができる。
、近似的な照合のためのメトリック、サーチ・アルゴリズムからなる。全文検索
がターゲットであるときは、本質的に本発明によるサーチ・システムである場合
と同様に、検索可能であるべきデータ・セット全体が、高い質問性能をサポート
するデータ構造内に記憶される。
の形式で記憶された情報はワードとワードのシーケンスへ分割される。ワードは
、ワード境界項により分離された全テキストのサブストリングである。境界項の
セットはBTwordと記される。ワード境界項の共通セットはセット であり得て、ここで\tはタブ・キャラクタを記し、\nは改行キャラクタを記
し、\0はドキュメント終了指示子を記す。本発明の下記の説明に関して、スト
リングとシーケンスに関するいくつかの定義が有用である。
号のシーケンスである。次にストリングの長さは、そのストリングに含まれてい
る記号またはキャラクタのインスタンスの数であり、|x|と記される。もしx
が長さmを有するならば、このストリングはまたx1x2...xi...xmと記され、
ここでxiはストリング内のi番目の記号を表現する。
グである。こうして、ストリングの始めまたは終りから1つまたはそれ以上のキ
ャラクタを削除することにより、サブストリングが得られる。
s2,...,snは、s1、s2からsnまでのn個の単一ワード(またはストリング)
からなる。
ス境界項はBTseqと記される。シーケンス境界項の一般的なセットは、セット
{’0\’}であり得て、ここで0\はドキュメント終了マーカを指示する。
ときタスクは、もとの質問項qから離れた最大k個のエラーであるs内のqの全
ての出現を発見することである。近接メトリックが、qと潜在的な照合si..
.sjの間のエラーをどのように計算するかを決定する。
ディスタンスすなわち編集ディスタンスである(V.I.Levenstein
、「訂正、削除、挿入、反転ができるバイナリ・コード」、(ロシアの)Dok
lady Akademii nauk SSSR、第163巻、第4号、84
5−8頁、(1965年);またサイバネティクスと制御理論、第10巻、第8
号、707−10頁、(1966年))。このメトリックは、1つのストリング
を他へ変換するのに必要な編集オペレーションの最小数として定義される。編集
オペレーションはいずれかの書換え規則で与えられ、例えば、 ・(a→ε),削除 ・(ε→a),挿入 ・(a→b),変更
i,j)はpのi番目の接頭語とmのj番目の接頭語の間の編集ディスタンスを
記す。そのとき編集ディスタンスは下記のように再帰的に定義される。
能であり、これは下記のように定義される。
らなるテキストTを与えられる。シーケンス・パターンPは、m個のワードp1
,p2,...,pmからなる。1≦i≦j≦nであるようなi,jについてシー
ケンスwi,wi+1...,wjから最大でk個のエラーまでp1,p2,...,
pmが異なるならば、シーケンス・パターンPはTにおいて近似的な出現を有す
ると言われる。ここでも、近接メトリックが2つのシーケンスの間のエラーの数
を計算する仕方を決定する。
うな仕方で、索引をつけなければならない。したがって、データ構造は本発明に
よるサーチ・システムのカーネル・データ構造であって、いわゆる接尾語ツリー
、特に疎接尾語ツリーに基づく。これら2つの構造を下記に定義する。接尾語ツ
リーS(T)はテキストT内のあり得る全ての接尾語のツリー表現である。接尾
語ツリーS(T)内の全ての単項ノードはその子と連結されて1つのコンパクト
・バリアント(compact variant)を生成する。
ーを示す。
ON’96)集録、Springer出版社、219頁−230頁に紹介されて
いて、これもまた、D.R.Morrison「PATRICIA−英数字コー
ド化情報を検索するための実用アルゴリズム」、ジャーナル・オブ・ジ・ACM
、15、514−534頁(1968年)に基づいている。疎接尾語ツリーは下
記のように定義される。
の接尾語ツリーST(T)内に存在する接尾語のサブセットを1つだけ含むもの
である。
ワード境界のみで開始して接尾語を記憶することにより、非均一的に間隔を取っ
た疎接尾語ツリーが有利に生成され得る。ワード・スペースト(word−sp
aced)疎接尾語ツリーのコンセプトは下記のように定義される。
ータ・キャラクタで開始する接尾語のみを含む疎接尾語ツリーSST(T)であ
る。
るために、接尾語の一部分を省略してある。T=“to be the bes
t”のためのワード・スペースト疎接尾語ツリーは図2の左側の構造であり、ま
たT=“to make the only major modificat
ion”のためのワード・スペースト疎接尾語ツリーは図2の右側の構造である
。
語ツリー内に独立して記憶される複数のワードに自然に分割される。サーチング
のためのアトミック・サーチ項がワード自体であるので、有利なことに各接尾語
がワードの末尾で終結する。これは、この疎接尾語ツリーをいわゆるパトリシア
・トリー(PATRICIA trie)(Morrison、前掲書中に)へ
縮小する。この文献中に定義されるトリーはルート付きのツリーであって、その
性質は、ルート以外の各ノードがアルファベットの記号を含み、また同一のツリ
ーからの2つの子が同一記号を有することがない。注意すべきは、ワード・トリ
ーがワード“検索”から出ていることであり、したがって、トリーがデータの検
索に適したツリー構造であることである。パトリシア・トリーは、葉ノード内に
記憶される接尾語がキーワード区切り文字に限定されるキーワード・スペースト
疎接尾語ツリー(KWSツリー)として定義される。キーワード{“avoid
”,“abuse”,“be”,“become”,“brease”,“sa
y”}のセットが図3に示されている。本発明のサーチ・システムに使用される
構造は、このサーチ・システムがワードのシーケンス情報を明示的に記憶するの
で、パトリシア・トリーと異なる。接尾語の長さを減少させるためには、葉ノー
ドの表現を変更する必要がある。オリジナル・テキストへのポインタは接尾語自
体により置きかえられる。図2に示したのと同じ2つのストリングについて、こ
の種の接尾語長さ縮小を図4に示す。言い換えれば図4はワード境界で切り取ら
れた接尾語を有するワード・スペースト疎接尾語ツリーを示す。T=“to b
e the best”のためのワード・スペースト疎接尾語ツリーは図の左側
に示され、またT=“to make the only major mod
ification”のためのワード・スペースト疎接尾語ツリーは図の右側に
示されている。葉ノードは、その葉ノードにより表現されるワードが生起する全
ての位置のリストを含む。
りに、本発明は、ワード・スペースト疎接尾語ツリー内に、シーケンス情報を明
示的に記憶する。これは、オリジナル・テキスト内の連続する語を表現する葉ノ
ードの間にポインタを使用することにより実行される。少なくとも特定の葉ノー
ドにより表現されるワードの全ての生起が利用できるように、次の連続する葉へ
ポインタが付加されなければならない。
ーケンス・ポインターズを横断するときに各連続ワードの接尾語だけが現れる。
これは、接尾語だけでなく葉ノード内のワード全体を記憶することにより処理さ
れ、こうして本発明のデータ構造もまた、この点でパトリシアと異なる。明示的
に記憶されたワード・シーケンス情報のデータ構造は、次の連続ワードとその生
起へのポインタを有する生起リストと共に、図5に示されている。
トリーを使用する(Morrison、前掲書中に)。パトリシア・トリーは、
サーチ・システムが、時間O(|p2|)で、ストリングp2を照合する全ての連
続ワードのリストにアクセスできるようにし、ここで|p2|はもちろんp2の長
さである。生起リストを組織するためにパトリシア・トリーを使用することによ
り、テキストからワードを記憶してシーケンス情報を維持するための完全に定義
されたツリー構造が得られる。組織された生起リストのためのパトリシア・トリ
ーと特別な未ソート生起リストの両方を有する典型的な葉ノードが、図6に示さ
れている。本発明のサーチ・システムに使用されるような生起リストのためのメ
モリ要件の例として、約742538のドキュメントがあるデータベースは、合
計333 856 744語と538 244のディスティンクト・ワードの辞
典を有する。このデータベースの全体のサイズは2054.52MBである。そ
の平均ワード長は、こうして6.45バイトである。疎接尾語ツリーは各内部ノ
ードに8バイトを使用し、32ビットのポインタを使用する。各ワードについて
、平均3個の内部ノードが使用されているとみなされる。そのとき葉ノードは生
起リストへのポインタのためのワード全体プラス32ビットを記憶するために、
6.45バイトを必要とする。34.45バイト/ワードの全体が全サイズの1
8.108MBを与える。その上、生起リストは入力ごとの4バイトと、フル・
バージョンを使用する場合の12バイトを有する。したがって、生起リストの全
体のメモリ要件は1273MBから3820MBまで変化する。疎接尾語ツリー
を使用するデータ構造は、オリジナル・テキストの60%から200%の間のサ
イズを有する。これは逆ファイルの要件に比較し得るが、しかし本発明によるサ
ーチ・システムに使用される疎接尾語ツリーは、遥かに迅速なサーチを供給して
、近似照合を可能にし、シーケンス照合を遂行しやすくする。
が使用される。本発明によるサーチ・システムはいくつかのメトリックを採用し
、特にメトリックの独自な組合せを採用する。これらのメトリックはメトリック
の組合せとともに、以下に議論される。
ションを、上に定義した編集ディスタンス・メトリックが可能にする。フレーズ
の照合における一般的なエラーは、ワードの脱落、追加、変更である。従って、
近似ワードシーケンス照合問題に適用するために、以前に定義した編集ディスタ
ンス・メトリックを適合させて拡張すべきである。シーケンスの編集オペレーシ
ョンは下記に定義される。
シーケンス内のワードに許される編集オペレーションを、下記の書換え規則によ
り書きこむことができる。 ・(a→ε),シーケンスからのワードaの削除 ・(ε→a),シーケンスへのワードaの挿入 ・(a→b),ワードaからワードbへの変更 ・(ab→ba),隣接するワードaとワードbの置換え
ードへ編集オペレーションを適用し、そのときワードはオペレーショナル・アト
ムとみなされる。
スタンスを定義できる。
P)を、シーケンスSをシーケンスPへ変換する編集オペレーションのシーケン
スのためのコストc(x→y)の最小額として定義する。
リックを強化して、その上で作動されるワードのサイズによる編集オペレーショ
ンのコストの重みを付ける。
スを他へ変換するのに必要な編集オペレーションのためのコストの最小額として
定義される。これらのコスト関数はそのオペランドのワード・サイズによって決
まる。
式により与えられる。 ここでlは比較される2つのシーケンスの中の1つのワードの平均長さを記す。
各編集オペレーションのコストは、シーケンスの全体長さの変化に比例するサイ
ズにより、またはカレントのワード長さと考察するシーケンス内の平均ワード長
さとの比率により、重み付けられる。
味文脈へのそのワードの重要性との間のある関係の仮定を反映する。その上、本
発明によるサーチ・システムは、変更編集オペレーション(a→b)が使用され
るとき、キャラクタ・レベルの近接が採用される。あるワードaを他のワードb
で置換えることは、これら2つのワードの間の類似性に関係する。従って変更編
集オペレーションの新しいコスト関数は下記のように与えられる。 D(a,b)が、語の正規編集ディスタンス測定関数であるとき、0は完全な類
似性を意味し、1は類似性が全くないことを示す。
るコスト関数を有するシーケンスの編集ディスタンス・メトリックと、式(1)
により与えられるワードの編集ディスタンス・メトリックを組合せる。これは、
照合されたワードがお互いからk個のエラーよりも離れているときにのみ、シー
ケンス編集オペレーションが使用されることを意味する。
れた構造の効率的なサーチを遂行する。上記のメトリックにより照合が発見され
る。
マトリクスの計算と接尾語ツリーの横断の組合せにより実行される。このための
アルゴリズムを擬似コードで書いたものが表Iに与えられる。
近似ストリング・マッチングの試み」、知識・データ工学についてのIEEEト
ランザクション、第5巻、第4号、540頁−547頁(1996年)により提
案されたトリー照合アルゴリズムから適合されたものである。このアルゴリズム
の走行時間の予想される最悪の場合は、Shang & Merrettalに
よれば、O(k|Σ|k)である(前掲書に)。
ス編集ディスタンスを計算することを必要とする。しかしながら、可能な照合の
数は、可能なワード上にのみ編集ディスタンスの計算を開始することにより制限
できる。シーケンスから1つのワードを削除するコストが可能な開始ワードの数
を決定する。1つの質問シーケンスPQ内のi個のファースト・ワードを削除す
るコストの蓄積が与えられたエラー・スレッショルドの上にあがれば、質問のi
番目のワードにより開始する候補シーケンスは、恐らく照合ではあり得ない。従
ってi個のワードの質問シーケンスPQについて、最大i個の開始ワードが試み
られる。ツリーのシーケンス構造内にバックポインタが1つもないので、全ての
可能な照合が得られることは保証されない。バックポインタを追加することが、
この問題を解決する。本発明によるサーチ・システムに使用されるような近似ワ
ード・シーケンス照合のためのアルゴリズムは、下記の表IIに擬似コードで与え
られる。このアルゴリズムは、p1,p2...により逐次的にファースト・キーワー
ドを照合して、全ての可能な開始位置をテストすることを試みる。
proxMatchRest関数は、下記の表IIIのアルゴリズムにより定義さ
れる。この関数は、初期エラー値を使用して、残りのシーケンスを照合する。
かれている。
されるFindExact関数は、ツリーの単一の横断を遂行し、その走行時間
はO|p1|であり、ここでp1は質問シーケンスPQ内のファースト・ワードを
記する。編集ディスタンスの計算は、直接の動的プログラミングを使用して|P
|2時間内に実行できるし、またはこの計算アルゴリズムの改良バージョンを使
用してO(k)時間(ここでkはエラー・スレッショルドを記す)内に実行でき
るが、E.Ukkonen、「ストリング内の近似パターンの発見」、ジャーナ
ル・オブ・アルゴリズム、第6巻、132頁−137頁(1985年)を参照さ
れたい。
を記すならば、そのとき最悪の場合、走行時間は、O(kΣnocc(pi))であ
る。
メンテーションを簡単に議論する。特に、本発明によるサーチ・システムに基づ
くサーチ・エンジンは、近似サーチ・エンジン(ASE)としてインプリメント
され、大きなドキュメント・コレクションに索引をつけて、これらのドキュメン
ト・コレクションの厳密サーチと近似サーチのためのアルゴリズムを供給するこ
とを意図している。ASEは大きなテキストまたはドキュメントのコレクション
を記憶するデータ構造を供給する。理解すべきは、データ構造が画像、ビデオ、
音響、のような付加的な情報を含むドキュメントから生成されるかも知れず、ま
たテキストはフォーマットまたは注釈されているかもしれないことである。デー
タ構造は上に議論したワード・スペースト疎接尾語ツリーと同一であり、もちろ
ん、ワードはサーチ・システムのキーワードであると理解すべきであり、従って
このワード・スペースト疎接尾語ツリーを代わりにキーワード・スペースト疎接
尾語ツリー(KWSツリー)と名付けることができる。ASEは、KWSツリー
内のドキュメントに索引をつけるアルゴリズムを含む。もちろんこれらのアルゴ
リズムは本発明によるサーチ・システムの一部分を形成しないが、しかしそれら
は当業者によく知られていて文献にも記載されているので、たとえば D.R.Morrison(前掲書)を参照されたい。
パターンの正確な照合と近似照合の両方のためのアルゴリズムを採用する。上記
の表Iと表IIに与えられるアルゴリズムは、メトリックのようなノン・ユニフォ
ーム編集ディスタンスを有する近似ワードとワードのシーケンスについて使用さ
れる。KWSツリー内の長さmを有するキーワードpの正確な一致を発見するこ
とは、当分野で知られており、ツリー構造の単一の横断として容易にインプリメ
ントされる。擬似コードで書かれた正確なキーワード照合のために適当なアルゴ
リズムを表IVに示す。本発明によるサーチ・システムは正確なシーケンス照合の
ためのアルゴリズムをもサポートできる。正確なキーワード・シーケンス照合の
アルゴリズムは当分野で知られており、下記の表Vに擬似コードで示されるよう
に容易にインプリメントされる。ここに与えられるアルゴリズムは第1キーワー
ドがあれば、その厳密な照合を発見する。次にそれは、第1キーワードの全ての
生起について、第2キーワードが質問の第2キーワードに照合するかどうかをチ
ェックする。もし照合すれば、表VのMatchRest手順が使用されて、2
つの第1キーワードの生起が全シーケンスにおいて照合するかどうかを決定する
。KWSツリー内の近似キーワード照合のために、サーチシステムは上記の表I
のアルゴリズムをインプリメントする。適当なキーワード・シーケンス照合のた
めに、サーチ・システムは上記の表IIのアルゴリズムをインプリメントして、p 1, p2...により逐次的にファースト・キーワードを照合して、全ての可能な
開始位置をテストして、表IIIに示すApproxMatchRest機能を適
用して、ある特定の位置で開始するシーケンスを照合して、初期エラー値を処理
する。
ザに与える1つの単純なフロント・エンドを必要とする。このフロント・エンド
はまた、ドキュメント・コレクションの統計を備えて、WWW経由などのリモー
ト・アクセスと、ローカル・サーバ・ユーザ・インターフェイスの両方を供給す
ることができる。
アルゴリズムを容易に追加できるようにする仕方であるので一般的である。また
、各ドキュメントまたはキーワードについて特別な情報を記憶しているので、容
易な仕方でインプリメントできる。特に、フロント・エンドはデータ・構造とサ
ーチ・アルゴリズムから独立しているので、これらにおける内部変更が前者の設
計に何の影響もしない。
内で可能な限り少ないメモリのオーバーヘッドを有するように設計できる。また
、サーチができるだけ速くなるように設計できる。しかしながら、これら2つの
要素の間には、通常トレード・オフが存在する。
モジュールを有する。
・インデクシング・モジュールDIM。このモジュールはまた、いくつかのドキ
ュメントのタイプをサポートするための全ての拡張を含む。
タ・記憶装置モジュール。
AMであって、ワードおよびワード・シーケンスをそれぞれ正確整合および/ま
たは近似整合するアルゴリズムを含んでいるもの。
ネットワーク・インターフェイスの両方を含んでいる、ユーザ・インターフェイ
ス・フロント・エンド・モジュール。
を供給する。異なったモジュールの間のデータの流れを図7に示す。あるドキュ
メントのコレクションの索引付けが、インデクシング・アルゴリズムを含んでい
るドキュメント・インデクシング・モジュールDIM内で実行される。もちろん
このモジュールは本発明によるサーチ・システムの1つではなく、使用できるイ
ンデクシング・アルゴリズムは当分野でよく知られている。ドキュメント内に見
出されるテキストが、記憶のためにデータ記憶装置モジュールDSMへ渡される
。もちろん、データ記憶装置モジュールは、本発明によるサーチ・システムの一
部分であり、KWSツリー構造に基づいて示されているとおりである。サーチ・
アルゴリズム・モジュールSAMは、データ記憶装置モジュール内に配置された
サーチ用のアルゴリズムを含む。このモジュールは本発明によるサーチ・システ
ムをインプリメントして、ツリーとノード情報についてデータ構造に質問してサ
ーチ処理ができるようにし、同時に状態変数を維持する。フロント・エンド・モ
ジュールがたとえばワーク・ステーション上またはパーソナル・コンピュータ上
などにインプリメントされて、上述の機能性を供給する。
ションを含む商用のコンピュータ・システム上で、適当な高水準言語で書かれた
ソフトウェアとしてインプリメントできることを理解すべきである。それはまた
前述のように専用プロセッサの形式でもインプリメントでき、それは、多数の質
問ワード・シーケンスを有する近似照合のために、大きなワード・シーケンスを
並列に処理できる多数の並列プロセッサを有利に含み得る。プロセッサの固定オ
ペレーショナル・パラメータは、それから低レベル・コードに入力され、一方K
WSツリー構造からのキーワード・シーケンス入力が、巨大な量のデータへの質
問の極度に迅速な処理を可能にするので、本発明によるサーチ・システムは、従
ってワールド・ワイド・ウェブなどにおけるサーチの遂行に高度に適しており、
KWSツリー構造内でさえ現在ワールド・ワイド・ウェブ上に提供されている全
てのドキュメントを索引付けることができ、将来のワールド・ワイド・ウェブに
予想されるデータ量の増加をも処理できる。
細に説明してきた。
す。
の使用
テムであって、テキストTがワードおよび/または記号とそれらのシーケンスを
含んでいて、前記情報検索はテキストTがワードおよび/または記号とそれらの
シーケンスを含んでいる質問QとテキストTがワードおよび/または記号とそれ
らのシーケンスを含んでいる検索される情報Rの間の照合の所定または変動の次
数で実現し、少なくともテキストTの一部分を記憶するためのデータ構造と、前
記質問Qと検索される情報Rの間の照合の次数を測定するメトリックMと、サー
チ、特にキーワードkwに基づいて全文サーチを実行するサーチ・アルゴリズム
をインプリメントする前記サーチ・システムと;特にテキストの形式で記憶され
た情報の情報検索のシステムにおける方法であって、テキストTがワードおよび
記号とそれらのシーケンスを含んでいて、ワードおよび記号とそれらのシーケン
スを含んでいる質問QとテキストTからのワードおよび記号とそれらのシーケン
スを含んでいる検索された情報Rの間の所与または変動の次数により前記情報検
索が実現し、検索された情報RはテキストTからのワードおよび記号とそれらの
シーケンスを含んでいて、前記サーチ・システムは少なくともテキストTの一部
分を記憶するためのデータ構造と、質問Qと検索された情報Rの間の総合の次数
を測定するメトリックMを含んでいて、特にキーワードkwに基づく全文サーチ
であるサーチを実行するサーとアルゴリズムを前記サーチシステムがインプリメ
ントし、前記テキスト内の前記情報はワードとワード・シーケンスへ分割され、
前記ワードはワード境界項により分離された全テキストのサブストリングであっ
て記号のシーケンスを形成し、各ワードは記号のシーケンスとして構成される前
記方法に関する。
され記憶されている。コンピュータ・メモリ・システムがますます公衆利用デー
タ通信ネットワークにリンクされるにつれて、公共的および個人的な使用のため
の情報のサーチと検索のシステムと方法が一層の努力で開発されてきた。しかし
ながら、現在のデータ・サーチ方法は、記憶された情報を効率的に検索して使用
する可能性を種々の制限がひどく減少させる。
文脈において、動的データと静的データの間を識別することは有用である。動的
データはしばしば継続的に変化するデータであるので、有効データのセットが常
に変化するのに対して、静的データは非常に稀にしか、または全然変化しない。
例えば株価のような経済データ、または気象データは急激な変化を受けやすいの
で動的である。他方、書物とドキュメントのアーカイバル・ストレージは通常永
久的な静的データである。データの揮発性の概念は、いかに長くデータが有効で
あるかに関係する。データの揮発性は、その情報がどのように長くサーチし検索
されるかに関係がある。大量のデータは、サーチを容易にするために構造を必要
とするが、そうした構造を構築する時間コストは、そのデータが有効である時間
よりも高くてはならない。構造を構築するコストはデータ量によって決まり、従
って、情報をサーチするためのデータ構造の構築は、データ量と揮発性の両方を
考慮に入れなければならない。収集された情報はデータベースに記憶されるが、
これらは構造化されているかもしれないし、構造化されていないかもしれない。
その上、データベースはいくつかのタイプのドキュメントを含み得て、それには
、映像、ビデオ、音響、フォーマット付きまたは注釈付きのテキストが含まれる
。特に構造化データベースは、データのサーチと検索を容易にするために、通常
、索引を備えている。ワールド・ワイド・ウェブ(WWW)の成長は、複合ハイ
パーリンク・ドキュメントの収集の確実な成長を提供する。これらの大多数は構
造化データベース内に収集されず、サーチを容易にするインデックスは何も利用
できない。しかしながら、ワールド・ワイド・ウェブ内にドキュメントをサーチ
する必要は明白であり、その結果、多数のいわゆるサーチ・エンジンが開発され
て、ワールド・ワイド・ウェブ内の情報が少なくとも部分的に利用できるように
なった。
あると一般に理解されている。サーチ・システムはまた、固有のサーチ・システ
ムに加えて、例えば多数のユニフォーム・リソース・ロケーター(URL)から
のテキストを含んでいる。そうしたサーチ・エンジンの例には、Alta Vi
sta、Inktomy technologyによるHotBot、Info
seek、Excite、Yahooがある。これらの全ては、ワールド・ワイ
ド・ウェブ内での情報のサーチと検索を遂行する機能を提供する。しかしながら
、それらの速度と性能は、ワールド・ワイド・ウェブ上で利用可能な情報の巨大
な量に決して整合せず、従って、これらのサーチ・エンジンのサーチと検索の性
能が、大いに望ましいものとして残る。
の質問型を実行することにより通常行ない得る。最も一般的な質問型は、照合と
この変形である。質問される情報内に現存するはずであるキーワードまたはキー
ワードのセットを指定することにより、サーチ・システムはこの要件を満たすす
べてのドキュメントを検索する。基本的なサーチ方法は、いわゆる単一キーワー
ド照合に基づいている。キーワードpがサーチされて、このワードを含む全ての
ドキュメントが検索される。キーワード接頭語pjをサーチすることも可能であ
り、またドキュメント内のいずれかのキーワード内でこの接頭語が存在する全て
のドキュメントが検索される。キーワードによって検索する代わりに、しばしば
サーチはいわゆるイグザクト・フレーズ・マッチングに基づくこともあり、この
場合はサーチは特定のシーケンス内のいくつかの単一キーワードを使用する。当
業者に公知のように、キーワード・フレーズの厳密な照合は、多くのシステムに
おいてブール演算子によって、例えば情報のフィルタリングを可能にするAND
、OR、NOTのような演算子に基づいて実行され得る。例えばANDフレーズ
を使用すれば、このAND演算子によりリンクされる2つのキーワードを含む全
てのドキュメントが結果として返される。またNEARオペレータも、キーワー
ド照合により返すドキュメント自体およびそのドキュメント・テキスト内で互い
に「近く」位置するものを返すために使用される。多くの構造化データベースに
おいて、データベース内に含まれるドキュメントは、例えばドキュメント内の情
報のある部分またはタイプを記すフィールドを備えていて、注釈されている。こ
れにより、ドキュメントの部分のみの照合のためのサーチが可能になり、質問さ
れる情報のタイプが予め知られているときに有用である。
ぶん英語、ノルウェイ語などのようなある自然言語で存在するであろう。ある一
定の文脈によりドキュメントをサーチするときに、質問に近似的に照合するキー
ワードまたはフレーズを照合させるために、近接メトリックを適用することがで
きる。キーワードおよびフレーズ内のエラーを許容することは、近接のための普
通の方法であり、シソーラスを使用することはもう一つの普通の方法である。近
接サーチは、検索される情報と質問の間に、部分的な照合があることのみを必要
とする。国際公表特許出願WO96/00945、名称「可変長データ・シーケ
ンス照合方法と装置」(デリンガ他)、インターナショナル・ビジネス・マシン
社に譲渡は、入力からのサーチ・アーギュメント(入力キー)の少なくとも部分
的な照合、好ましくは最長の部分的照合または全ての部分的な照合を記憶し検索
するためのトリー類似の構造(trie−like structure)を開
示する。
5954(キンバル他、米国のレッド・ブリック・システム社に譲渡、)および
米国特許第5 627 748号(ベイカー他、米国のルーセント・テクノロジ
ー社へ譲渡)に言及することができ、これらは両方とも正方行列内のサーチ/照
合のための接尾語ツリーの形式のデータ構造を開示する。これら2つの公表特許
はいずれも、リンクされたリストを照合中に使用すること以外には、正規の接尾
語表現を超えるものを何も開示せず、近似照合のためにサーチ中にサーチ空間を
制限する解決法を教示または示唆しない。しかしながら、接尾語ツリーに基づく
データ構造をサーチに適用するときには、そうした解決法が最も望ましく、特に
、ワールド・ワイド・ウェブに見出し得るような極度に大きなドキュメント・コ
レクションにおける近似照合において、最も望ましい。
サーチと検索のためのサーチシステムと方法を供給することである。特に、分散
した大量のデータ記憶を有する情報システム、例えばインターネットのサーチの
ためのサーチ・エンジンをインプリメントするのに適したサーチ・システムを供
給することが、本発明の1つの目的である。理解すべきは、本発明によるサーチ
・システムは英数字記号の形式により記憶された情報をサーチし検索するのに決
して限定されず、ディジタル化された画像およびグラフィック記号の形式で記憶
された情報をサーチし検索するためにも同様に適用でき、同様に本書に使用され
るワード・テキストも、これらが部分的または全体的に記号のセットとして表現
されるときは、画像として解釈され得ることである。また理解すべきは、本発明
によるサーチ・システムが、商用コンピュータ・システム上で適当な高水準言語
で書かれたソフトウェアとしてインプリメントできるが、前記の種類の情報のサ
ーチと検索のために専用プロセッサ装置の形式でインプリメントすることもでき
ることである。
その特徴は、前記データ構造は、テキストTにおけるワードおよび/または記号
とそれらシーケンスの接尾語を記憶する非均一スペースト疎接尾語ツリーST(
T)の形式におけるツリー構造を含んでいることと、テキストTにおけるワード
および/または記号と質問Qの間の照合の近似的な次数についての編集ディスタ
ンス・メトリック、およびテキストTにおけるワードおよび/または記号のシー
ケンスSと質問Qにおけるワードおよび/または記号の質問シーケンスPの間の
照合の近似的な次数についての編集ディスタンス・メトリックの組合せを前記メ
トリックMが含んでいて、後者の編集ディスタンス・メトリックが前記テキスト
T内のワードおよび/または記号の1つのシーケンスSを前記質問Q内のワード
および/または記号のシーケンスPへ変換する編集オペレーションのための加重
コスト関数を含み、前記加重は、変換におけるシーケンスの長さの変化に比例す
るかまたは照合すべきシーケンスにおけるワードおよび/または記号のサイズに
よって異なる1つの値によって実現することと、テキストTと質問Qの各々の接
尾語ツリー表現内のワードおよび/または記号の間の照合の次数を決定する第1
アルゴリズムおよびテキストTと質問Qの各々の接尾語ツリー表現内のワードお
よび/または記号のシーケンスの間の照合の次数を決定する第2アルゴリズムを
インプリメントされた前記サーチ・アルゴリズムを含んでいて、前記第1および
/または第2のアルゴリズムは、ワード、ワードのシーケンス、または記号のシ
ーケンスまたはこれらの組合せの形式の質問Qで、データ構造をサーチして、こ
れにより前者と後者の間の照合の規定された次数による質問Qに基づいて情報R
が検索されるようになっていることと、前記サーチ・アルゴリズムはまたオプシ
ョンとして、テキストTおよび質問Qの各々の接尾語ツリー表現におけるワード
および/または記号の間の正確な照合を決定する第3アルゴリズムと、テキスト
Tおよび質問Qの各々の接尾語ツリー表現におけるワードおよび/または記号の
シーケンスの間の正確な照合を決定する第4アルゴリズムを含んでいて、前記第
3アルゴリズムおよび/または前記第4アルゴリズムはワードか記号かワードの
シーケンスか記号のシーケンスかこれらの組合せかの形式における質問Qにより
データ構造をサーチして、これにより情報Rが質問Qに基づいて、前者と後者の
正確な照合により検索されることである。
(T)は、テキストT内に接尾語の1つのサブセットのみを含んでいるワード・
スペースト疎接尾語ツリーSSTWS(T)である。
ーワード・スペースト疎接尾語ツリーSSTkWS(T)である。
ーSSTkWS(T)においてキーワード照合の次数を検出する第1アルゴリズム
は従属請求項4により開示されたようにインプリメントされ、キーワード・スペ
ースト疎接尾語ツリーSSTkWS(T)においてキーワード照合の次数を検出す
る第2アルゴリズムは従属請求項5により開示されたようにインプリメントされ
、これにより第2アルゴリズムのサブルーチンが従属請求項6に開示されたよう
にインプリメントされるのが好ましく、キーワード・スペースト疎接尾語ツリー
SSTkWS(T)においてキーワード照合の次数を検出する第3アルゴリズムは
従属請求項7により開示されたようにインプリメントされ、最後にキーワード・
スペースト疎接尾語ツリーSSTkWS(T)においてキーワード照合の次数を検
出する第4アルゴリズムは従属請求項8により開示されたようにインプリメント
される。
、テキストT内のワード・セパレータ記号で開始する全ての接尾語を表現するテ
キストTのワード・スペースト疎接尾語ツリーSSTWS(T)として前記データ
構造を生成し、テキストT内のワードのシーケンス情報をワード・スペースト疎
接尾語ツリーSSTWS(T)内に記憶し、テキストT内のワードの編集ディスタ
ンス・メトリックD(s,q)と、質問Q内の質問ワードqと、テキストT内の
ワードのシーケンスSのワード・サイズ依存編集ディスタンス・メトリックDWS (S,P)と、質問Q内のワードqのシーケンスPを含んでいる組合せ編集ディ
スタンス・メトリックMを生成し、前記編集ディスタンス・メトリックDWS(S
,P)はシーケンスSをシーケンスPへ変換する編集オペレーションのコストの
最小額であり、このコストの最小額は、シーケンスSの全長の変化に比例するパ
ラメータまたはカレントのワード長とシーケンスS;P内の平均ワード長の比率
により重み付けられる各編集オペレーションのコスト関数の最小額であり、検出
される情報Rのワードsと質問Qの間の編集ディスタンスD(s,q)を計算す
ることによりワードs,qの間の照合の次数を決定し、または前記ワードs,q
が互いからk個のエラーを超える場合は、全ての照合について編集ディスタンス
DWS(SR,PQ)を計算することにより、検出される情報Rと質問Qのそれぞれ
のワードシーケンスSR,PQの間の一致の次数を決定することである。
接のパラメータにより、ワードsをワードqへ変更する編集オペレーションに重
みを付けて、これにより、編集オペレーションのコストを決定するときに問題の
ワードsとqの類似性を考慮に入れることを含む。
ンスPQ内の制限されたワードの数についての編集ディスタンスDws(SR,PQ
)を計算することにより、編集ディスタンスを計算して、これにより照合の数を
制限する。
集ディスタンスD(s,q)は再帰的に定義され、動的プログラミング手順によ
り前記編集ディスタンスD(s,q)が計算され、また、シーケンスSとシーケ
ンスPの間の編集ディスタンスDws(S,P)が対応して再帰的に定義され、動
的プログラミング手順により前記編集ディスタンスDws(S,P)が計算される
。
発明によるサーチ・システムを使用することにより実現することができる。
、近似的な照合のためのメトリック、サーチ・アルゴリズムからなる。全文検索
がターゲットであるときは、本質的に本発明によるサーチ・システムである場合
と同様に、検索可能であるべきデータ・セット全体が、高い質問性能をサポート
するデータ構造内に記憶される。
の形式で記憶された情報はワードsとワードのシーケンスSへ分割される。ワー
ドは、ワード境界項により分離された全テキストのサブストリングである。境界
項のセットはBTwordと記される。ワード境界項の共通セットはセット であり得て、ここで\tはタブ・キャラクタを記し、\nは改行キャラクタを記
し、\0はドキュメント終了指示子を記す。本発明の下記の説明に関して、スト
リングとシーケンスに関するいくつかの定義が有用である。
号のシーケンスである。次にストリングの長さは、そのストリングに含まれてい
る記号またはキャラクタのインスタンスの数であり、|x|と記される。もしx
が長さmを有するならば、このストリングはまたx1x2...xi...xmと記され、
ここでxiはストリング内のi番目の記号を表現する。
グである。こうして、ストリングの始めまたは終りから1つまたはそれ以上のキ
ャラクタを削除することにより、サブストリングが得られる。
s2,...,snは、s1、s2からsnまでのn個の単一ワード(またはストリング)
からなる。
ス境界項はBTseqと記される。シーケンス境界項の一般的なセットは、セット
{’0\’}であり得て、ここで0\はドキュメント終了マーカを指示する。
ときタスクは、もとの質問項qから離れた最大k個のエラーであるs内のqの全
ての出現を発見することである。近接メトリックが、qと潜在的な照合si..
.sjの間のエラーをどのように計算するかを決定する。
ディスタンスすなわち編集ディスタンスである(V.I.Levenstein
、「訂正、削除、挿入、反転ができるバイナリ・コード」、(ロシアの)Dok
lady Akademii nauk SSSR、第163巻、第4号、84
5−8頁、(1965年);またサイバネティクスと制御理論、第10巻、第8
号、707−10頁、(1966年))。このメトリックは、1つのストリング
を他へ変換するのに必要な編集オペレーションの最小数として定義される。編集
オペレーションはいずれかの書換え規則で与えられ、例えば、 ・(a→ε),削除 ・(ε→a),挿入 ・(a→b),変更
i,j)はpのi番目の接頭語とmのj番目の接頭語の間の編集ディスタンスを
記す。そのとき編集ディスタンスは下記のように再帰的に定義される。
能であり、これは下記のように定義される。
らなるテキストTを与えられる。シーケンス・パターンPは、m個のワードp1
,p2,...,pmからなる。1≦i≦j≦nであるようなi,jについてシー
ケンスwi,wi+1...,wjから最大でk個のエラーまでp1,p2,...,
pmが異なるならば、シーケンス・パターンPはTにおいて近似的な出現を有す
ると言われる。ここでも、近接メトリックが2つのシーケンスの間のエラーの数
を計算する仕方を決定する。
うな仕方で、索引をつけなければならない。したがって、データ構造は本発明に
よるサーチ・システムのカーネル・データ構造であって、いわゆる接尾語ツリー
、特に疎接尾語ツリーに基づく。これら2つの構造を下記に定義する。接尾語ツ
リーS(T)はテキストT内のあり得る全ての接尾語のツリー表現である。接尾
語ツリーS(T)内の全ての単項ノードはその子と連結されて1つのコンパクト
・バリアント(compact variant)を生成する。
ーを示す。
ON’96)集録、Springer出版社、219頁−230頁に紹介されて
いて、これもまた、D.R.Morrison「PATRICIA−英数字コー
ド化情報を検索するための実用アルゴリズム」、ジャーナル・オブ・ジ・ACM
、15、514−534頁(1968年)に基づいている。疎接尾語ツリーは下
記のように定義される。
の接尾語ツリーST(T)内に存在する接尾語のサブセットを1つだけ含むもの
である。
ワード境界のみで開始して接尾語を記憶することにより、非均一的に間隔を取っ
た疎接尾語ツリーが有利に生成され得る。ワード・スペースト(word−sp
aced)疎接尾語ツリーのコンセプトは下記のように定義される。
ータ・キャラクタで開始する接尾語のみを含む疎接尾語ツリーSST(T)であ
る。
るために、接尾語の一部分を省略してある。T=“to be the bes
t”のためのワード・スペースト疎接尾語ツリーは図2の左側の構造であり、ま
たT=“to make the only major modificat
ion”のためのワード・スペースト疎接尾語ツリーは図2の右側の構造である
。
語ツリー内に独立して記憶される複数のワードに自然に分割される。サーチング
のためのアトミック・サーチ項がワード自体であるので、有利なことに各接尾語
がワードの末尾で終結する。これは、この疎接尾語ツリーをいわゆるパトリシア
・トリー(PATRICIA trie)(Morrison、前掲書中に)へ
縮小する。この文献中に定義されるトリーはルート付きのツリーであって、その
性質は、ルート以外の各ノードがアルファベットの記号を含み、また同一のツリ
ーからの2つの子が同一記号を有することがない。注意すべきは、ワード・トリ
ーがワード“検索”から出ていることであり、したがって、トリーがデータの検
索に適したツリー構造であることである。パトリシア・トリーは、葉ノード内に
記憶される接尾語がキーワード区切り文字に限定されるキーワード・スペースト
疎接尾語ツリー(KWSツリー)として定義される。キーワード{“avoid
”,“abuse”,“be”,“become”,“brease”,“sa
y”}のセットが図3に示されている。本発明のサーチ・システムに使用される
構造は、このサーチ・システムがワードのシーケンス情報を明示的に記憶するの
で、パトリシア・トリーと異なる。接尾語の長さを減少させるためには、葉ノー
ドの表現を変更する必要がある。オリジナル・テキストへのポインタは接尾語自
体により置きかえられる。図2に示したのと同じ2つのストリングについて、こ
の種の接尾語長さ縮小を図4に示す。言い換えれば図4はワード境界で切り取ら
れた接尾語を有するワード・スペースト疎接尾語ツリーを示す。T=“to b
e the best”のためのワード・スペースト疎接尾語ツリーは図の左側
に示され、またT=“to make the only major mod
ification”のためのワード・スペースト疎接尾語ツリーは図の右側に
示されている。葉ノードは、その葉ノードにより表現されるワードが生起する全
ての位置のリストを含む。
りに、本発明は、ワード・スペースト疎接尾語ツリー内に、シーケンス情報を明
示的に記憶する。これは、オリジナル・テキスト内の連続する語を表現する葉ノ
ードの間にポインタを使用することにより実行される。少なくとも特定の葉ノー
ドにより表現されるワードの全ての生起が利用できるように、次の連続する葉へ
ポインタが付加されなければならない。
ーケンス・ポインターズを横断するときに各連続ワードの接尾語だけが現れる。
これは、接尾語だけでなく葉ノード内のワード全体を記憶することにより処理さ
れ、こうして本発明のデータ構造もまた、この点でパトリシアと異なる。明示的
に記憶されたワード・シーケンス情報のデータ構造は、次の連続ワードとその生
起へのポインタを有する生起リストと共に、図5に示されている。
トリーを使用する(Morrison、前掲書中に)。パトリシア・トリーは、
サーチ・システムが、時間O(|p2|)で、ストリングp2を照合する全ての連
続ワードのリストにアクセスできるようにし、ここで|p2|はもちろんp2の長
さである。生起リストを組織するためにパトリシア・トリーを使用することによ
り、テキストからワードを記憶してシーケンス情報を維持するための完全に定義
されたツリー構造が得られる。組織された生起リストのためのパトリシア・トリ
ーと特別な未ソート生起リストの両方を有する典型的な葉ノードが、図6に示さ
れている。本発明のサーチ・システムに使用されるような生起リストのためのメ
モリ要件の例として、約742538のドキュメントがあるデータベースは、合
計333 856 744語と538 244のディスティンクト・ワードの辞
典を有する。このデータベースの全体のサイズは2054.52MBである。そ
の平均ワード長は、こうして6.45バイトである。疎接尾語ツリーは各内部ノ
ードに8バイトを使用し、32ビットのポインタを使用する。各ワードについて
、平均3個の内部ノードが使用されているとみなされる。そのとき葉ノードは生
起リストへのポインタのためのワード全体プラス32ビットを記憶するために、
6.45バイトを必要とする。34.45バイト/ワードの全体が全サイズの1
8.108MBを与える。その上、生起リストは入力ごとの4バイトと、フル・
バージョンを使用する場合の12バイトを有する。したがって、生起リストの全
体のメモリ要件は1273MBから3820MBまで変化する。疎接尾語ツリー
を使用するデータ構造は、オリジナル・テキストの60%から200%の間のサ
イズを有する。これは逆ファイルの要件に比較し得るが、しかし本発明によるサ
ーチ・システムに使用される疎接尾語ツリーは、遥かに迅速なサーチを供給して
、近似照合を可能にし、シーケンス照合を遂行しやすくする。
が使用される。本発明によるサーチ・システムはいくつかのメトリックを採用し
、特にメトリックの独自な組合せを採用する。これらのメトリックはメトリック
の組合せとともに、以下に議論される。
ションを、上に定義した編集ディスタンス・メトリックが可能にする。フレーズ
の照合における一般的なエラーは、ワードの脱落、追加、変更である。従って、
近似ワードシーケンス照合問題に適用するために、以前に定義した編集ディスタ
ンス・メトリックを適合させて拡張すべきである。シーケンスの編集オペレーシ
ョンは下記に定義される。
シーケンス内のワードに許される編集オペレーションを、下記の書換え規則によ
り書きこむことができる。 ・(a→ε),シーケンスからのワードaの削除 ・(ε→a),シーケンスへのワードaの挿入 ・(a→b),ワードaからワードbへの変更 ・(ab→ba),隣接するワードaとワードbの置換え
ードへ編集オペレーションを適用し、そのときワードはオペレーショナル・アト
ムとみなされる。
スタンスを定義できる。
P)を、シーケンスSをシーケンスPへ変換する編集オペレーションのシーケン
スのためのコストc(x→y)の最小額として定義する。
リックを強化して、その上で作動されるワードのサイズによる編集オペレーショ
ンのコストの重みを付ける。
スを他へ変換するのに必要な編集オペレーションのためのコストの最小額として
定義される。これらのコスト関数はそのオペランドのワード・サイズによって決
まる。
式により与えられる。 ここでlは比較される2つのシーケンスの中の1つのワードの平均長さを記す。
各編集オペレーションのコストは、シーケンスの全体長さの変化に比例するサイ
ズにより、またはカレントのワード長さと考察するシーケンス内の平均ワード長
さとの比率により、重み付けられる。
味文脈へのそのワードの重要性との間のある関係の仮定を反映する。その上、本
発明によるサーチ・システムは、変更編集オペレーション(a→b)が使用され
るとき、キャラクタ・レベルの近接が採用される。あるワードaを他のワードb
で置換えることは、これら2つのワードの間の類似性に関係する。従って変更編
集オペレーションの新しいコスト関数は下記のように与えられる。 D(a,b)が、語の正規編集ディスタンス測定関数であるとき、0は完全な類
似性を意味し、1は類似性が全くないことを示す。
るコスト関数を有するシーケンスの編集ディスタンス・メトリックと、式(1)
により与えられるワードの編集ディスタンス・メトリックを組合せる。これは、
照合されたワードがお互いからk個のエラーよりも離れているときにのみ、シー
ケンス編集オペレーションが使用されることを意味する。
れた構造の効率的なサーチを遂行する。上記のメトリックにより照合が発見され
る。
マトリクスの計算と接尾語ツリーの横断の組合せにより実行される。このための
アルゴリズムを擬似コードで書いたものが表Iに与えられる。
近似ストリング・マッチングの試み」、知識・データ工学についてのIEEEト
ランザクション、第5巻、第4号、540頁−547頁(1996年)により提
案されたトリー照合アルゴリズムから適合されたものである。このアルゴリズム
の走行時間の予想される最悪の場合は、Shang & Merrettalに
よれば、O(k|Σ|k)である(前掲書に)。
ス編集ディスタンスを計算することを必要とする。しかしながら、可能な照合の
数は、可能なワード上にのみ編集ディスタンスの計算を開始することにより制限
できる。シーケンスから1つのワードを削除するコストが可能な開始ワードの数
を決定する。1つの質問シーケンスPQ内のi個のファースト・ワードを削除す
るコストの蓄積が与えられたエラー・スレッショルドの上にあがれば、質問のi
番目のワードにより開始する候補シーケンスは、恐らく照合ではあり得ない。従
ってi個のワードの質問シーケンスPQについて、最大i個の開始ワードが試み
られる。ツリーのシーケンス構造内にバックポインタが1つもないので、全ての
可能な照合が得られることは保証されない。バックポインタを追加することが、
この問題を解決する。本発明によるサーチ・システムに使用されるような近似ワ
ード・シーケンス照合のためのアルゴリズムは、下記の表IIに擬似コードで与え
られる。このアルゴリズムは、p1,p2...により逐次的にファースト・キーワー
ドを照合して、全ての可能な開始位置をテストすることを試みる。
proxMatchRest関数は、下記の表IIIのアルゴリズムにより定義さ
れる。この関数は、初期エラー値を使用して、残りのシーケンスを照合する。
かれている。
されるFindExact関数は、ツリーの単一の横断を遂行し、その走行時間
はO|p1|であり、ここでp1は質問シーケンスPQ内のファースト・ワードを
記する。編集ディスタンスの計算は、直接の動的プログラミングを使用して|P
|2時間内に実行できるし、またはこの計算アルゴリズムの改良バージョンを使
用してO(k)時間(ここでkはエラー・スレッショルドを記す)内に実行でき
るが、E.Ukkonen、「ストリング内の近似パターンの発見」、ジャーナ
ル・オブ・アルゴリズム、第6巻、132頁−137頁(1985年)を参照さ
れたい。
を記すならば、そのとき最悪の場合、走行時間は、O(kΣnocc(pi))であ
る。
メンテーションを簡単に議論する。特に、本発明によるサーチ・システムに基づ
くサーチ・エンジンは、近似サーチ・エンジン(ASE)としてインプリメント
され、大きなドキュメント・コレクションに索引をつけて、これらのドキュメン
ト・コレクションの厳密サーチと近似サーチのためのアルゴリズムを供給するこ
とを意図している。ASEは大きなテキストまたはドキュメントのコレクション
を記憶するデータ構造を供給する。理解すべきは、データ構造が画像、ビデオ、
音響、のような付加的な情報を含むドキュメントから生成されるかも知れず、ま
たテキストはフォーマットまたは注釈されているかもしれないことである。デー
タ構造は上に議論したワード・スペースト疎接尾語ツリーと同一であり、もちろ
ん、ワードはサーチ・システムのキーワードであると理解すべきであり、従って
このワード・スペースト疎接尾語ツリーを代わりにキーワード・スペースト疎接
尾語ツリー(KWSツリー)と名付けることができる。ASEは、KWSツリー
内のドキュメントに索引をつけるアルゴリズムを含む。もちろんこれらのアルゴ
リズムは本発明によるサーチ・システムの一部分を形成しないが、しかしそれら
は当業者によく知られていて文献にも記載されているので、たとえば D.R.Morrison(前掲書)を参照されたい。
パターンの正確な照合と近似照合の両方のためのアルゴリズムを採用する。上記
の表Iと表IIに与えられるアルゴリズムは、メトリックのようなノン・ユニフォ
ーム編集ディスタンスを有する近似ワードとワードのシーケンスについて使用さ
れる。KWSツリー内の長さmを有するキーワードpの正確な一致を発見するこ
とは、当分野で知られており、ツリー構造の単一の横断として容易にインプリメ
ントされる。擬似コードで書かれた正確なキーワード照合のために適当なアルゴ
リズムを表IVに示す。本発明によるサーチ・システムは正確なシーケンス照合の
ためのアルゴリズムをもサポートできる。正確なキーワード・シーケンス照合の
アルゴリズムは当分野で知られており、下記の表Vに擬似コードで示されるよう
に容易にインプリメントされる。ここに与えられるアルゴリズムは第1キーワー
ドがあれば、その厳密な照合を発見する。次にそれは、第1キーワードの全ての
生起について、第2キーワードが質問の第2キーワードに照合するかどうかをチ
ェックする。もし照合すれば、表VのMatchRest手順が使用されて、2
つの第1キーワードの生起が全シーケンスにおいて照合するかどうかを決定する
。KWSツリー内の近似キーワード照合のために、サーチシステムは上記の表I
のアルゴリズムをインプリメントする。適当なキーワード・シーケンス照合のた
めに、サーチ・システムは上記の表IIのアルゴリズムをインプリメントして、p 1, p2...により逐次的にファースト・キーワードを照合して、全ての可能な
開始位置をテストして、表IIIに示すApproxMatchRest機能を適
用して、ある特定の位置で開始するシーケンスを照合して、初期エラー値を処理
する。
ザに与える1つの単純なフロント・エンドを必要とする。このフロント・エンド
はまた、ドキュメント・コレクションの統計を備えて、WWW経由などのリモー
ト・アクセスと、ローカル・サーバ・ユーザ・インターフェイスの両方を供給す
ることができる。
アルゴリズムを容易に追加できるようにする仕方であるので一般的である。また
、各ドキュメントまたはキーワードについて特別な情報を記憶しているので、容
易な仕方でインプリメントできる。特に、フロント・エンドはデータ・構造とサ
ーチ・アルゴリズムから独立しているので、これらにおける内部変更が前者の設
計に何の影響もしない。
内で可能な限り少ないメモリのオーバーヘッドを有するように設計できる。また
、サーチができるだけ速くなるように設計できる。しかしながら、これら2つの
要素の間には、通常トレード・オフが存在する。
モジュールを有する。
・インデクシング・モジュールDIM。このモジュールはまた、いくつかのドキ
ュメントのタイプをサポートするための全ての拡張を含む。
タ・記憶装置モジュール。
AMであって、ワードおよびワード・シーケンスをそれぞれ正確整合および/ま
たは近似整合するアルゴリズムを含んでいるもの。
ネットワーク・インターフェイスの両方を含んでいる、ユーザ・インターフェイ
ス・フロント・エンド・モジュール。
を供給する。異なったモジュールの間のデータの流れを図7に示す。あるドキュ
メントのコレクションの索引付けが、インデクシング・アルゴリズムを含んでい
るドキュメント・インデクシング・モジュールDIM内で実行される。もちろん
このモジュールは本発明によるサーチ・システムの1つではなく、使用できるイ
ンデクシング・アルゴリズムは当分野でよく知られている。ドキュメント内に見
出されるテキストが、記憶のためにデータ記憶装置モジュールDSMへ渡される
。もちろん、データ記憶装置モジュールは、本発明によるサーチ・システムの一
部分であり、KWSツリー構造に基づいて示されているとおりである。サーチ・
アルゴリズム・モジュールSAMは、データ記憶装置モジュール内に配置された
サーチ用のアルゴリズムを含む。このモジュールは本発明によるサーチ・システ
ムをインプリメントして、ツリーとノード情報についてデータ構造に質問してサ
ーチ処理ができるようにし、同時に状態変数を維持する。フロント・エンド・モ
ジュールがたとえばワーク・ステーション上またはパーソナル・コンピュータ上
などにインプリメントされて、上述の機能性を供給する。
ションを含む商用のコンピュータ・システム上で、適当な高水準言語で書かれた
ソフトウェアとしてインプリメントできることを理解すべきである。それはまた
前述のように専用プロセッサの形式でもインプリメントでき、それは、多数の質
問ワード・シーケンスを有する近似照合のために、大きなワード・シーケンスを
並列に処理できる多数の並列プロセッサを有利に含み得る。プロセッサの固定オ
ペレーショナル・パラメータは、それから低レベル・コードに入力され、一方K
WSツリー構造からのキーワード・シーケンス入力が、巨大な量のデータへの質
問の極度に迅速な処理を可能にするので、本発明によるサーチ・システムは、従
ってワールド・ワイド・ウェブなどにおけるサーチの遂行に高度に適しており、
KWSツリー構造内でさえ現在ワールド・ワイド・ウェブ上に提供されている全
てのドキュメントを索引付けることができ、将来のワールド・ワイド・ウェブに
予想されるデータ量の増加をも処理できる。
細に説明してきた。
す。
Claims (6)
- 【請求項1】 情報検索、特にテキストTの形で記憶された情報のためのサ
ーチシステムであって、前記情報検索は質問Qと検索される情報Rの間の照合の
所定または変動の次数で実現し、テキストTを記憶するためのデータ構造と、質
問Qと検索される情報Rの間の照合の次数を測定するメトリックMと、サーチ、
特にキーワードに基づいて全文サーチを実行するサーチ・アルゴリズムを含んで
いる前記サーチ・システムであって、 前記データ構造は、テキストTにおけるワードの接尾語とワード・シーケンス
と記号シーケンスを記憶する接尾語ツリーST(T)の形式におけるツリー構造
を含んでいることと、テキストTにおけるワードまたは記号と質問Qの間の照合
の近似的な次数についての編集ディスタンス・メトリック、およびテキストTに
おけるワードまたは記号のシーケンスSと質問シーケンスPの間の照合の近似的
な次数についての編集ディスタンス・メトリックの組合せを前記メトリックMが
含んでいて、後者の編集ディスタンス・メトリックがワードと記号の1つのシー
ケンスSを他のワードと記号のシーケンスPへ変換する編集オペレーションのた
めの加重コスト関数を含むことと、テキストTと質問Qの各々の接尾語ツリー表
現内のワードの間の照合の次数を決定する第1アルゴリズムおよび/またはテキ
ストTと質問Qの各々の接尾語ツリー表現内のワードのシーケンスの間の照合の
次数を決定する第2アルゴリズムを前記サーチ・アルゴリズムが含んでいて、前
記第1および/または第2のアルゴリズムは、ワード、ワードのシーケンス、ま
たは記号のシーケンスまたはこれらの組合せの形式の質問Qで、データ構造をサ
ーチして、これにより前者と後者の間の照合の規定された次数による質問Qに基
づいて情報Rが検索されるようになっていることを特徴とする前記サーチシステ
ム。 - 【請求項2】 前記接尾語ツリーST(T)が、テキストT内に接尾語の1
つのサブセットのみを含んでいるワード・スペースト疎接尾語ツリーSSTWS(
T)であることを特徴とする請求項1記載のサーチ・システム。 - 【請求項3】 情報検索のためのサーチ・システムにおける方法であって、
特に、テキストTの形式で情報が記憶され、テキストTがワードとワードのシー
ケンスへ分割され、ワードは記号のシーケンスである、各ワードは1つまたはそ
れ以上の接尾語として構成され、これらの接尾語はシーケンスを構成する語にお
ける記号のサブセットであって、 テキストT内のワード・セパレータ記号で開始する全ての接尾語を表現するテ
キストTのワード・スペースト疎接尾語ツリーSSTWS(T)を生成し、ワード
・スペースト疎接尾語ツリーSSTWS(T)内のテキストT内のワードのシーケ
ンス情報を記憶し、前記シーケンスSを前記シーケンスPへ変換する編集オペレ
ーションのためのコストの最小額としてワード・シーケンスSと同Pのために編
集ディスタンス・メトリックD(S,P)を生成し、コストの合計は各編集オペ
レーションのコスト関数の合計であり、シーケンスSをシーケンスPへ変換する
ためのコストの最小額としてワード・シーケンスSと同Pのためにワード・サイ
ズ依存編集ディスタンス・メトリックDWS(S,P)を生成し、コストの合計は
この編集オペレーションの含まれるワード・サイズのためのパラメータにより重
みをつけられた各編集オペレーションのコスト関数の合計であり、全ての照合に
ついて編集ディスタンスD(SR,PQ)をそれぞれ計算することにより、検索さ
れた情報Rと質問Qのワード・シーケンスSRと同PQの間の照合を決定すること
を特徴とする前記方法。 - 【請求項4】 シーケンスSとシーケンスPの間の近接のついてのパラメー
タによりシーケンスSを他のシーケンスPへ変更する編集オペレーションを追加
的に重み付けることにより、問題の編集オペレーションのコストを決定するとき
にシーケンスSとシーケンスPの類似性を考慮に入れることを特徴とする請求項
3記載の方法。 - 【請求項5】 質問ワード・シーケンスPQ内の制限されたワードの数につ
いての編集ディスタンスD(SR,PQ)を計算することにより、照合の数を制限
することを特徴とする請求項3記載の方法。 - 【請求項6】 近似サーチ・エンジンにおける請求項1または請求項2記載
のサーチ・システムの使用。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO983175A NO983175L (no) | 1998-07-10 | 1998-07-10 | Soekesystem for gjenfinning av data |
NO19983175 | 1998-07-10 | ||
PCT/NO1999/000233 WO2000003315A2 (en) | 1998-07-10 | 1999-07-09 | A search system and method for retrieval of data, and the use thereof in a search engine |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002520712A true JP2002520712A (ja) | 2002-07-09 |
JP3581652B2 JP3581652B2 (ja) | 2004-10-27 |
Family
ID=19902243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000559494A Expired - Lifetime JP3581652B2 (ja) | 1998-07-10 | 1999-07-09 | データ検索システムと方法およびサーチ・エンジンにおけるその使用 |
Country Status (20)
Country | Link |
---|---|
US (1) | US6377945B1 (ja) |
EP (1) | EP1095326B1 (ja) |
JP (1) | JP3581652B2 (ja) |
KR (1) | KR100414236B1 (ja) |
CN (1) | CN1317114A (ja) |
AT (1) | ATE212736T1 (ja) |
AU (2) | AU772525B2 (ja) |
BR (1) | BR9912015B1 (ja) |
CA (1) | CA2337079C (ja) |
DE (1) | DE69900854T2 (ja) |
DK (1) | DK1095326T3 (ja) |
ES (1) | ES2173752T3 (ja) |
HK (1) | HK1040784A1 (ja) |
HU (1) | HUP0201630A2 (ja) |
IL (1) | IL140606A0 (ja) |
IS (1) | IS5796A (ja) |
NO (1) | NO983175L (ja) |
PL (1) | PL345714A1 (ja) |
PT (1) | PT1095326E (ja) |
WO (1) | WO2000003315A2 (ja) |
Families Citing this family (123)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6564206B1 (en) * | 1998-10-05 | 2003-05-13 | Canon Kabushiki Kaisha | Information search apparatus and method, and storage medium |
US6584465B1 (en) * | 2000-02-25 | 2003-06-24 | Eastman Kodak Company | Method and system for search and retrieval of similar patterns |
US7127450B1 (en) * | 2000-05-02 | 2006-10-24 | International Business Machines Corporation | Intelligent discard in information access system |
US6704728B1 (en) * | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
US6745181B1 (en) * | 2000-05-02 | 2004-06-01 | Iphrase.Com, Inc. | Information access method |
US6711561B1 (en) * | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
US6718325B1 (en) * | 2000-06-14 | 2004-04-06 | Sun Microsystems, Inc. | Approximate string matcher for delimited strings |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US7103838B1 (en) * | 2000-08-18 | 2006-09-05 | Firstrain, Inc. | Method and apparatus for extracting relevant data |
US7080073B1 (en) | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
US6915294B1 (en) * | 2000-08-18 | 2005-07-05 | Firstrain, Inc. | Method and apparatus for searching network resources |
US20020152202A1 (en) * | 2000-08-30 | 2002-10-17 | Perro David J. | Method and system for retrieving information using natural language queries |
GB2368414B (en) * | 2000-10-27 | 2002-09-11 | One Stop To Ltd | Searching procedures |
US7644057B2 (en) * | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US6681219B2 (en) * | 2001-03-29 | 2004-01-20 | Matsushita Electric Industrial Co., Ltd. | Method for keyword proximity searching in a document database |
US6976016B2 (en) * | 2001-04-02 | 2005-12-13 | Vima Technologies, Inc. | Maximizing expected generalization for learning complex query concepts |
US7136846B2 (en) | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
US7054855B2 (en) * | 2001-07-03 | 2006-05-30 | International Business Machines Corporation | Method and system for performing a pattern match search for text strings |
US7209913B2 (en) * | 2001-12-28 | 2007-04-24 | International Business Machines Corporation | Method and system for searching and retrieving documents |
US7343372B2 (en) * | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
US7287026B2 (en) * | 2002-04-05 | 2007-10-23 | Oommen John B | Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing |
US6928445B2 (en) * | 2002-06-25 | 2005-08-09 | International Business Machines Corporation | Cost conversant classification of objects |
FI121583B (fi) * | 2002-07-05 | 2011-01-14 | Syslore Oy | Symbolijonon etsintä |
US6983280B2 (en) * | 2002-09-13 | 2006-01-03 | Overture Services Inc. | Automated processing of appropriateness determination of content for search listings in wide area network searches |
US7970621B2 (en) * | 2002-10-18 | 2011-06-28 | Cerner Innovation, Inc. | Automated order entry system and method |
US8495002B2 (en) * | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
CA2429909A1 (en) * | 2003-05-27 | 2004-11-27 | Cognos Incorporated | Transformation of tabular and cross-tabulated queries based upon e/r schema into multi-dimensional expression queries |
CN1567303A (zh) * | 2003-07-03 | 2005-01-19 | 富士通株式会社 | 结构文档信息块的自动分割方法和装置 |
US7640232B2 (en) | 2003-10-14 | 2009-12-29 | Aol Llc | Search enhancement system with information from a selected source |
US7165119B2 (en) | 2003-10-14 | 2007-01-16 | America Online, Inc. | Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter |
US7657423B1 (en) * | 2003-10-31 | 2010-02-02 | Google Inc. | Automatic completion of fragments of text |
US7418455B2 (en) * | 2003-11-26 | 2008-08-26 | International Business Machines Corporation | System and method for indexing weighted-sequences in large databases |
US7343378B2 (en) * | 2004-03-29 | 2008-03-11 | Microsoft Corporation | Generation of meaningful names in flattened hierarchical structures |
IL161874A (en) * | 2004-05-07 | 2012-09-24 | Yves Villaret | System and method for searching strings of records |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
EP1825395A4 (en) * | 2004-10-25 | 2010-07-07 | Yuanhua Tang | FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE |
US20060101504A1 (en) * | 2004-11-09 | 2006-05-11 | Veveo.Tv, Inc. | Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input |
US7895218B2 (en) | 2004-11-09 | 2011-02-22 | Veveo, Inc. | Method and system for performing searches for television content using reduced text input |
US20070266406A1 (en) * | 2004-11-09 | 2007-11-15 | Murali Aravamudan | Method and system for performing actions using a non-intrusive television with reduced text input |
CN1614607B (zh) * | 2004-11-25 | 2011-08-31 | 中国科学院计算技术研究所 | 垃圾邮件过滤的方法和*** |
CA2509496A1 (en) * | 2005-06-06 | 2006-12-06 | 3618633 Canada Inc. | Search-enhanced trie-based syntactic pattern recognition of sequences |
US9041744B2 (en) | 2005-07-14 | 2015-05-26 | Telecommunication Systems, Inc. | Tiled map display on a wireless device |
US7788266B2 (en) | 2005-08-26 | 2010-08-31 | Veveo, Inc. | Method and system for processing ambiguous, multi-term search queries |
US7779011B2 (en) * | 2005-08-26 | 2010-08-17 | Veveo, Inc. | Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof |
US7644054B2 (en) * | 2005-11-23 | 2010-01-05 | Veveo, Inc. | System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors |
US7882119B2 (en) * | 2005-12-22 | 2011-02-01 | Xerox Corporation | Document alignment systems for legacy document conversions |
US7664343B2 (en) * | 2006-01-23 | 2010-02-16 | Lockheed Martin Corporation | Modified Levenshtein distance algorithm for coding |
WO2007103938A2 (en) | 2006-03-06 | 2007-09-13 | Veveo, Inc. | Methods and systems for selecting and presenting content based on learned user preferences |
US8073860B2 (en) | 2006-03-30 | 2011-12-06 | Veveo, Inc. | Method and system for incrementally selecting and providing relevant search engines in response to a user query |
EP3822819A1 (en) | 2006-04-20 | 2021-05-19 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content |
CN100401300C (zh) * | 2006-04-29 | 2008-07-09 | 上海世纪互联信息***有限公司 | 具有自动分类功能的搜索引擎 |
US20070260595A1 (en) * | 2006-05-02 | 2007-11-08 | Microsoft Corporation | Fuzzy string matching using tree data structure |
US7849078B2 (en) * | 2006-06-07 | 2010-12-07 | Sap Ag | Generating searchable keywords |
US8577328B2 (en) | 2006-08-21 | 2013-11-05 | Telecommunication Systems, Inc. | Associating metro street address guide (MSAG) validated addresses with geographic map data |
CA2989780C (en) * | 2006-09-14 | 2022-08-09 | Veveo, Inc. | Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters |
JP4274221B2 (ja) * | 2006-10-02 | 2009-06-03 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
WO2008045690A2 (en) | 2006-10-06 | 2008-04-17 | Veveo, Inc. | Linear character selection display interface for ambiguous text input |
WO2008063987A2 (en) | 2006-11-13 | 2008-05-29 | Veveo, Inc. | Method of and system for selecting and presenting content based on user identification |
US8131722B2 (en) * | 2006-11-20 | 2012-03-06 | Ebay Inc. | Search clustering |
US20080172380A1 (en) * | 2007-01-17 | 2008-07-17 | Wojciech Czyz | Information retrieval based on information location in the information space. |
US8082240B2 (en) | 2007-02-28 | 2011-12-20 | Classe Qsl, S.L. | System for retrieving information units |
US8549424B2 (en) * | 2007-05-25 | 2013-10-01 | Veveo, Inc. | System and method for text disambiguation and context designation in incremental search |
US20090055436A1 (en) * | 2007-08-20 | 2009-02-26 | Olakunle Olaniyi Ayeni | System and Method for Integrating on Demand/Pull and Push Flow of Goods-and-Services Meta-Data, Including Coupon and Advertising, with Mobile and Wireless Applications |
US20090055242A1 (en) * | 2007-08-24 | 2009-02-26 | Gaurav Rewari | Content identification and classification apparatus, systems, and methods |
US20090098889A1 (en) * | 2007-09-11 | 2009-04-16 | Bob Barcklay | Wireless device location alerts on battery notification events |
US7716228B2 (en) * | 2007-09-25 | 2010-05-11 | Firstrain, Inc. | Content quality apparatus, systems, and methods |
US7904433B2 (en) * | 2007-10-09 | 2011-03-08 | O2Micro International Limited | Apparatus and methods for performing a rule matching |
WO2009061501A1 (en) * | 2007-11-09 | 2009-05-14 | Telecommunication Systems, Inc. | Points-of-interest panning on a displayed map with a persistent search on a wireless phone |
CN101246501B (zh) * | 2008-03-27 | 2010-06-23 | 腾讯科技(深圳)有限公司 | 一种聚合相同主题网络文档的方法及*** |
US20090265340A1 (en) * | 2008-04-07 | 2009-10-22 | Bob Barcklay | Proximity search for point-of-interest names combining inexact string match with an expanding radius search |
US8027990B1 (en) * | 2008-07-09 | 2011-09-27 | Google Inc. | Dynamic query suggestion |
US8027973B2 (en) * | 2008-08-04 | 2011-09-27 | Microsoft Corporation | Searching questions based on topic and focus |
US9424339B2 (en) | 2008-08-15 | 2016-08-23 | Athena A. Smyros | Systems and methods utilizing a search engine |
US7882143B2 (en) * | 2008-08-15 | 2011-02-01 | Athena Ann Smyros | Systems and methods for indexing information for a search engine |
US9092517B2 (en) * | 2008-09-23 | 2015-07-28 | Microsoft Technology Licensing, Llc | Generating synonyms based on query log data |
WO2010042172A1 (en) * | 2008-10-06 | 2010-04-15 | Telecommunication Systems, Inc. | Probabilistic reverse geocoding |
US8594627B2 (en) | 2008-10-06 | 2013-11-26 | Telecommunications Systems, Inc. | Remotely provisioned wirelessly proxy |
DE102008062830B3 (de) * | 2008-12-23 | 2010-07-22 | Cerebrix Gmbh | Vorrichtung und Verfahren zum Speichern, Suchen und Darstellen von Informationen |
US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
US20100287148A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Global Patent Research Limited | Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection |
US20100293179A1 (en) * | 2009-05-14 | 2010-11-18 | Microsoft Corporation | Identifying synonyms of entities using web search |
US8533203B2 (en) * | 2009-06-04 | 2013-09-10 | Microsoft Corporation | Identifying synonyms of entities using a document collection |
US9166714B2 (en) | 2009-09-11 | 2015-10-20 | Veveo, Inc. | Method of and system for presenting enriched video viewing analytics |
US8364679B2 (en) * | 2009-09-17 | 2013-01-29 | Cpa Global Patent Research Limited | Method, system, and apparatus for delivering query results from an electronic document collection |
US20110082839A1 (en) * | 2009-10-02 | 2011-04-07 | Foundationip, Llc | Generating intellectual property intelligence using a patent search engine |
WO2011056086A2 (en) * | 2009-11-05 | 2011-05-12 | Google Inc. | Statistical stemming |
US20110119250A1 (en) * | 2009-11-16 | 2011-05-19 | Cpa Global Patent Research Limited | Forward Progress Search Platform |
US8244754B2 (en) | 2010-02-01 | 2012-08-14 | International Business Machines Corporation | System and method for object searching in virtual worlds |
US20110191332A1 (en) | 2010-02-04 | 2011-08-04 | Veveo, Inc. | Method of and System for Updating Locally Cached Content Descriptor Information |
US8339094B2 (en) * | 2010-03-11 | 2012-12-25 | GM Global Technology Operations LLC | Methods, systems and apparatus for overmodulation of a five-phase machine |
US8805840B1 (en) | 2010-03-23 | 2014-08-12 | Firstrain, Inc. | Classification of documents |
US11367295B1 (en) | 2010-03-23 | 2022-06-21 | Aurea Software, Inc. | Graphical user interface for presentation of events |
US10546311B1 (en) | 2010-03-23 | 2020-01-28 | Aurea Software, Inc. | Identifying competitors of companies |
US10643227B1 (en) | 2010-03-23 | 2020-05-05 | Aurea Software, Inc. | Business lines |
US9600566B2 (en) | 2010-05-14 | 2017-03-21 | Microsoft Technology Licensing, Llc | Identifying entity synonyms |
EP2423830A1 (de) | 2010-08-25 | 2012-02-29 | Omikron Data Quality GmbH | Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine |
US8745061B2 (en) * | 2010-11-09 | 2014-06-03 | Tibco Software Inc. | Suffix array candidate selection and index data structure |
US20130262485A1 (en) * | 2010-12-14 | 2013-10-03 | The Regents Of The University Of California | High Efficiency Prefix Search Algorithm Supporting Interactive, Fuzzy Search on Geographical Structured Data |
US9069767B1 (en) | 2010-12-28 | 2015-06-30 | Amazon Technologies, Inc. | Aligning content items to identify differences |
US9846688B1 (en) | 2010-12-28 | 2017-12-19 | Amazon Technologies, Inc. | Book version mapping |
US8798366B1 (en) * | 2010-12-28 | 2014-08-05 | Amazon Technologies, Inc. | Electronic book pagination |
US9881009B1 (en) | 2011-03-15 | 2018-01-30 | Amazon Technologies, Inc. | Identifying book title sets |
US8782042B1 (en) | 2011-10-14 | 2014-07-15 | Firstrain, Inc. | Method and system for identifying entities |
US8745019B2 (en) | 2012-03-05 | 2014-06-03 | Microsoft Corporation | Robust discovery of entity synonyms using query logs |
US9292505B1 (en) | 2012-06-12 | 2016-03-22 | Firstrain, Inc. | Graphical user interface for recurring searches |
US10032131B2 (en) | 2012-06-20 | 2018-07-24 | Microsoft Technology Licensing, Llc | Data services for enterprises leveraging search system data assets |
US9594831B2 (en) | 2012-06-22 | 2017-03-14 | Microsoft Technology Licensing, Llc | Targeted disambiguation of named entities |
US9229924B2 (en) | 2012-08-24 | 2016-01-05 | Microsoft Technology Licensing, Llc | Word detection and domain dictionary recommendation |
KR101355254B1 (ko) * | 2012-10-22 | 2014-01-28 | 인하대학교 산학협력단 | 접미사 트리의 병렬 생성을 위한 트라이 자료구조 기반 접미사 병렬 분할 방법 |
US9256593B2 (en) | 2012-11-28 | 2016-02-09 | Wal-Mart Stores, Inc. | Identifying product references in user-generated content |
US10592480B1 (en) | 2012-12-30 | 2020-03-17 | Aurea Software, Inc. | Affinity scoring |
US8935272B2 (en) | 2013-03-17 | 2015-01-13 | Alation, Inc. | Curated answers community automatically populated through user query monitoring |
US9589074B2 (en) | 2014-08-20 | 2017-03-07 | Oracle International Corporation | Multidimensional spatial searching for identifying duplicate crash dumps |
CN105446957B (zh) | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
CN108595584B (zh) * | 2018-04-18 | 2022-06-07 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和*** |
US10761965B2 (en) * | 2018-09-28 | 2020-09-01 | Atlassian Pty Ltd. | Detecting method calls based on stack trace data |
CN110517050A (zh) * | 2019-08-12 | 2019-11-29 | 太平洋医疗健康管理有限公司 | 一种医保反欺诈串换编码挖掘***及方法 |
CN111415708B (zh) * | 2020-03-24 | 2023-05-05 | 山东大学 | 双缓冲模型实现大规模数据库聚类方法及*** |
CN111860443A (zh) * | 2020-07-31 | 2020-10-30 | 上海掌学教育科技有限公司 | 语文作业题目文字识别方法、搜索方法、服务器及*** |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU620994B2 (en) * | 1989-07-12 | 1992-02-27 | Digital Equipment Corporation | Compressed prefix matching database searching |
WO1992015954A1 (en) | 1991-03-08 | 1992-09-17 | Red Brick System | Compaction of a querying in relational databases |
US5953006A (en) * | 1992-03-18 | 1999-09-14 | Lucent Technologies Inc. | Methods and apparatus for detecting and displaying similarities in large data sets |
US5511159A (en) * | 1992-03-18 | 1996-04-23 | At&T Corp. | Method of identifying parameterized matches in a string |
US5412807A (en) * | 1992-08-20 | 1995-05-02 | Microsoft Corporation | System and method for text searching using an n-ary search tree |
JPH07210569A (ja) * | 1994-01-19 | 1995-08-11 | Oki Electric Ind Co Ltd | 情報検索方法および情報検索装置 |
DE69422935T2 (de) * | 1994-06-30 | 2000-08-17 | International Business Machines Corp., Armonk | Verfahren und vorrichtung zum vergleichen von datensequenzen variabler länge |
JP2829259B2 (ja) * | 1994-09-14 | 1998-11-25 | 株式会社東芝 | データ処理装置、データ検索装置、データ処理方法及びデータ検索方法 |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
KR980004154A (ko) * | 1996-06-29 | 1998-03-30 | 김광호 | 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법 |
KR100284777B1 (ko) * | 1997-11-19 | 2001-03-15 | 정선종 | 지도 용어 사전을 위한 트라이 사전과 그 등록 및 검색 방법 |
-
1998
- 1998-07-10 NO NO983175A patent/NO983175L/no not_active Application Discontinuation
-
1999
- 1999-07-09 PL PL99345714A patent/PL345714A1/xx unknown
- 1999-07-09 ES ES99933296T patent/ES2173752T3/es not_active Expired - Lifetime
- 1999-07-09 WO PCT/NO1999/000233 patent/WO2000003315A2/en not_active Application Discontinuation
- 1999-07-09 BR BRPI9912015-1A patent/BR9912015B1/pt not_active IP Right Cessation
- 1999-07-09 CN CN99810507A patent/CN1317114A/zh active Pending
- 1999-07-09 US US09/486,726 patent/US6377945B1/en not_active Expired - Lifetime
- 1999-07-09 PT PT99933296T patent/PT1095326E/pt unknown
- 1999-07-09 CA CA002337079A patent/CA2337079C/en not_active Expired - Lifetime
- 1999-07-09 IL IL14060699A patent/IL140606A0/xx unknown
- 1999-07-09 AU AU49370/99A patent/AU772525B2/en not_active Expired
- 1999-07-09 AT AT99933296T patent/ATE212736T1/de not_active IP Right Cessation
- 1999-07-09 DE DE69900854T patent/DE69900854T2/de not_active Expired - Lifetime
- 1999-07-09 HU HU0201630A patent/HUP0201630A2/hu unknown
- 1999-07-09 JP JP2000559494A patent/JP3581652B2/ja not_active Expired - Lifetime
- 1999-07-09 EP EP99933296A patent/EP1095326B1/en not_active Expired - Lifetime
- 1999-07-09 DK DK99933296T patent/DK1095326T3/da active
- 1999-07-09 KR KR10-2001-7000436A patent/KR100414236B1/ko not_active IP Right Cessation
-
2000
- 2000-12-29 IS IS5796A patent/IS5796A/is unknown
-
2002
- 2002-03-19 HK HK02102107.4A patent/HK1040784A1/zh unknown
-
2004
- 2004-07-29 AU AU2004203480A patent/AU2004203480A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
DK1095326T3 (da) | 2002-05-13 |
WO2000003315A2 (en) | 2000-01-20 |
CA2337079C (en) | 2006-07-04 |
CN1317114A (zh) | 2001-10-10 |
US6377945B1 (en) | 2002-04-23 |
ES2173752T3 (es) | 2002-10-16 |
KR20010071841A (ko) | 2001-07-31 |
HUP0201630A2 (en) | 2002-08-28 |
AU2004203480A1 (en) | 2004-08-26 |
HK1040784A1 (zh) | 2002-06-21 |
BR9912015A (pt) | 2001-04-10 |
PL345714A1 (en) | 2002-01-02 |
ATE212736T1 (de) | 2002-02-15 |
CA2337079A1 (en) | 2000-01-20 |
BR9912015B1 (pt) | 2011-12-13 |
WO2000003315A3 (en) | 2000-02-24 |
DE69900854D1 (de) | 2002-03-14 |
IL140606A0 (en) | 2002-02-10 |
KR100414236B1 (ko) | 2004-01-07 |
EP1095326B1 (en) | 2002-01-30 |
JP3581652B2 (ja) | 2004-10-27 |
AU772525B2 (en) | 2004-04-29 |
IS5796A (is) | 2000-12-29 |
PT1095326E (pt) | 2002-07-31 |
EP1095326A1 (en) | 2001-05-02 |
AU4937099A (en) | 2000-02-01 |
NO983175L (no) | 2000-01-11 |
DE69900854T2 (de) | 2002-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3581652B2 (ja) | データ検索システムと方法およびサーチ・エンジンにおけるその使用 | |
Blumer et al. | Complete inverted files for efficient text retrieval and analysis | |
Bollacker et al. | CiteSeer: An autonomous web agent for automatic retrieval and identification of interesting publications | |
Stonebraker et al. | Document processing in a relational database system | |
US8775410B2 (en) | Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface | |
CN102142038B (zh) | 用于记号空间资料库的多级查询处理***与方法 | |
US7010522B1 (en) | Method of performing approximate substring indexing | |
US6792414B2 (en) | Generalized keyword matching for keyword based searching over relational databases | |
US7860853B2 (en) | Document matching engine using asymmetric signature generation | |
Krishnan et al. | Estimating alphanumeric selectivity in the presence of wildcards | |
US7103536B1 (en) | Symbol dictionary compiling method and symbol dictionary retrieving method | |
CN107153647B (zh) | 进行数据压缩的方法、装置、***和计算机程序产品 | |
US8266150B1 (en) | Scalable document signature search engine | |
US20040015909A1 (en) | System and method for regular expression matching using index | |
Croft et al. | Implementing ranking strategies using text signatures | |
Sadakane et al. | Indexing huge genome sequences for solving various problems | |
US7693824B1 (en) | Number-range search system and method | |
CN112100500A (zh) | 范例学习驱动的内容关联网站发掘方法 | |
Aoe | A fast digital search algorithm using a double‐array structure | |
Kanlayanawat et al. | Automatic indexing for Thai text with unknown words using trie structure | |
Gupta | A keyword searching algorithm for search engines | |
JPH09212523A (ja) | 全文検索方法 | |
KR100440906B1 (ko) | 문서 색인 시스템 및 그 방법 | |
CA2524207A1 (en) | A search system and method for retrieval of data, and the use thereof in a search engine | |
Gloor | A Brief Introduction to Information Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040121 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20040121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040723 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3581652 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080730 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080730 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090730 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090730 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100730 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110730 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110730 Year of fee payment: 7 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110730 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120730 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120730 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |