JP3581652B2 - データ検索システムと方法およびサーチ・エンジンにおけるその使用 - Google Patents

データ検索システムと方法およびサーチ・エンジンにおけるその使用 Download PDF

Info

Publication number
JP3581652B2
JP3581652B2 JP2000559494A JP2000559494A JP3581652B2 JP 3581652 B2 JP3581652 B2 JP 3581652B2 JP 2000559494 A JP2000559494 A JP 2000559494A JP 2000559494 A JP2000559494 A JP 2000559494A JP 3581652 B2 JP3581652 B2 JP 3581652B2
Authority
JP
Japan
Prior art keywords
words
text
word
sequence
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000559494A
Other languages
English (en)
Other versions
JP2002520712A (ja
Inventor
リスビク、クヌト、マグネ
Original Assignee
ファースト サーチ アンド トランスファー エイエスエイ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ファースト サーチ アンド トランスファー エイエスエイ filed Critical ファースト サーチ アンド トランスファー エイエスエイ
Publication of JP2002520712A publication Critical patent/JP2002520712A/ja
Application granted granted Critical
Publication of JP3581652B2 publication Critical patent/JP3581652B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
  • Liquid Crystal Substances (AREA)

Description

【0001】
本発明は情報検索、特にテキストTの形で記憶された情報のためのサーチシステムであって、テキストTがワードおよび/または記号とそれらのシーケンスを含んでいて、前記情報検索はワードおよび/または記号とそれらのシーケンスを含んでいる質問QとテキストTからのワードおよび/または記号とそれらのシーケンスを含んでいる検索される情報Rの間の所定または可変一致の度合いもって実施され、少なくともテキストTの一部分を記憶するためのデータ構造と、前記質問Qと検索される情報Rの間の一致の度合いを測定するメトリックMと、サーチ、特にキーワードkwに基づいて全文サーチを実行するサーチ・アルゴリズムをインプリメントする前記サーチ・システムと;特にテキストの形式で記憶された情報の情報検索のシステムにおける方法であって、テキストTがワードおよび記号とそれらのシーケンスを含んでいて、ワードおよび記号とそれらのシーケンスを含んでいる質問QとテキストTからのワードおよび記号とそれらのシーケンスを含んでいる検索された情報Rの間の所定のまたは可変一致の度合いにより前記情報検索が実施され、検索された情報RはテキストTからのワードおよび記号とそれらのシーケンスを含んでいて、前記サーチ・システムは少なくともテキストTの一部分を記憶するためのデータ構造と、質問Qと検索された情報Rの間の一致度合いを測定するメトリック(測定法)Mを含んでいて、特にキーワードkwに基づく全文サーチであるサーチを実行するサーアルゴリズムを前記サーチシステムがインプリメントし、前記テキスト内の前記情報はワードとワード・シーケンスへ分割され、前記ワードはワード境界項により分離された全テキストのサブストリングであって記号のシーケンスを形成し、各ワードは記号のシーケンスとして構成される前記方法に関する。
【0002】
本発明はまた、前記サーチ・システムの使用に関する。
【0003】
人知の種々な分野の巨大な量の情報がコンピュータ・メモリ・システムに収集され記憶されている。コンピュータ・メモリ・システムがますます公衆利用データ通信ネットワークにリンクされるにつれて、公共的および個人的な使用のための情報のサーチと検索のシステムと方法が一層の努力で開発されてきた。しかしながら、現在のデータ・サーチ方法は、記憶された情報を効率的に検索して使用する可能性を大きく減少させる種々の制限がある
【0004】
情報は種々のデータ・タイプの形式で記憶され得るし、情報のサーチと検索の文脈において、動的データと静的データの間を識別することは有用である。動的データはしばしば継続的に変化するデータであ、有効データのセットが常に変化するのに対して、静的データは非常に稀にしか、または全然変化しない。例えば株価のような経済データ、または気象データは急激な変化を受けやすいので動的である。他方、書物とドキュメントのアーカイバル・ストレージは通常永久的な静的データである。データの揮発性の概念は、どれくらいの期間データが有効であるかに関係する。データの揮発性は、その情報がどれくらいの期間サーチされ検索されるかに関係がある。大量のデータは、サーチを容易にするために構造を必要とするが、そうした構造を構築する時間コストは、そのデータが有効である時間よりも高くてはならない。構造を構築するコストはデータ量によって決まり、従って、情報をサーチするためのデータ構造の構築は、データ量と揮発性の両方を考慮に入れなければならない。収集された情報はデータベースに記憶されるが、これらは構造化されているかもしれないし、構造化されていないかもしれない。その上、データベースはいくつかのタイプのドキュメントを含み得て、それには、映像、ビデオ、音響、フォーマット付きまたは注釈付きのテキストが含まれる。特に構造化データベースは、データのサーチと検索を容易にするために、通常、索引を備えている。ワールド・ワイド・ウェブ(WWW)の成長は、複合ハイパーリンク・ドキュメントの収集の確実な成長を提供する。これらの大多数は構造化データベース内に収集されず、サーチを容易にするインデックスは何も利用できない。しかしながら、ワールド・ワイド・ウェブ内にドキュメントをサーチする必要は明白であり、その結果、多数のいわゆるサーチ・エンジンが開発されて、ワールド・ワイド・ウェブ内の情報が少なくとも部分的に利用できるようになった。
【0005】
サーチ・エンジンは、情報をサーチし検索する1つまたはそれ以上のツールであると一般に理解されている。サーチ・システムはまた、固有のサーチ・システムに加えて、例えば多数のユニフォーム・リソース・ロケーター(URL)からのテキストを含んでいる。そうしたサーチ・エンジンの例には、Alta Vista、Inktomy technologyによるHotBot、Infoseek、Excite、Yahooがある。これらの全ては、ワールド・ワイド・ウェブ内での情報のサーチと検索を遂行する機能を提供する。しかしながら、それらの速度と性能は、ワールド・ワイド・ウェブ上で利用可能な情報の巨大な量に決して整合せず、従って、これらのサーチ・エンジンのサーチと検索の性能が、大いに望ましいものとして残る。
【0006】
テキスト・ドキュメントの大きなコレクションをサーチすることは、いくつかの質問型を実行することにより通常行ない得る。最も一般的な質問型は、照合とこの変形である。質問される情報内に現存するはずであるキーワードまたはキーワードのセットを指定することにより、サーチ・システムはこの要件を満たすすべてのドキュメントを検索する。基本的なサーチ方法は、いわゆる単一キーワード照合に基づいている。キーワードpがサーチされて、このワードを含む全てのドキュメントが検索される。キーワード接頭語pjをサーチすることも可能であり、またドキュメント内のいずれかのキーワード内でこの接頭語が存在する全てのドキュメントが検索される。キーワードによって検索する代わりに、しばしばサーチはいわゆる用語の完全一致に基づくこともあり、この場合はサーチは特定のシーケンス内のいくつかの単一キーワードを使用する。当業者に公知のように、キーワード・フレーズの厳密な照合(完全一致)は、多くのシステムにおいてブール演算子によって、例えば情報のフィルタリングを可能にするAND、OR、NOTのような演算子に基づいて実行され得る。例えばANDフレーズを使用すれば、このAND演算子によりリンクされる2つのキーワードを含む全てのドキュメントが結果として返される。またNEARオペレータも、キーワード照合により返すドキュメント自体およびそのドキュメント・テキスト内で互いに「近く」位置するものを返すために使用される。多くの構造化データベースにおいて、データベース内に含まれるドキュメントは、例えばドキュメント内の情報のある部分またはタイプを記すフィールドを備えていて、注釈されている。これにより、ドキュメントの部分のみの照合のためのサーチが可能になり、質問される情報のタイプが予め知られているときに有用である。
【0007】
テキスト・ドキュメント内でサーチするときにデータは構造化されていて、たぶん英語、ノルウェイ語などのようなある自然言語で存在するであろう。ある一定の文脈によりドキュメントをサーチするときに、質問に近似的に照合するキーワードまたはフレーズを照合させるために、近接メトリックを適用することができる。キーワードおよびフレーズ内のエラーを許容することは、近接のための普通の方法であり、シソーラスを使用することはもう一つの普通の方法である。近接サーチは、検索される情報と質問の間に、部分的な照合があることのみを必要とする。国際公表特許出願WO96/00945、名称「可変長データ・シーケンス照合方法と装置」(デリンガ他)、インターナショナル・ビジネス・マシン社に譲渡は、入力からのサーチ・アーギュメント(入力キー)の少なくとも部分的な照合、好ましくは最長の部分的照合または全ての部分的な照合を記憶し検索するためのトライ類似の構造(trie−like structure)を開示する。
【0008】
一般的な先行技術を更に明らかにするために、国際公表特許出願WO92/15954(キンバル他、米国のレッド・ブリック・システム社に譲渡、)および米国特許第5 627 748号(ベイカー他、米国のルーセント・テクノロジー社へ譲渡)に言及することができ、これらは両方とも正方行列内のサーチ/照合のための接尾語ツリーの形式のデータ構造を開示する。これら2つの公表特許はいずれも、リンクされたリストを照合中に使用すること以外には、正規の接尾語表現を超えるものを何も開示せず、近似照合のためにサーチ中にサーチ空間を制限する解決法を教示または示唆しない。しかしながら、接尾語ツリーに基づくデータ構造をサーチに適用するときには、そうした解決法が最も望ましく、特に、ワールド・ワイド・ウェブに見出し得るような極度に大きなドキュメント・コレクションにおける近似照合において、最も望ましい。
【0009】
こうして本発明の主要な目的は、大量のデータにおいて迅速で能率的な情報のサーチと検索のためのサーチシステムと方法を供給することである。特に、分散した大量のデータ記憶を有する情報システム、例えばインターネットのサーチのためのサーチ・エンジンをインプリメントするのに適したサーチ・システムを供給することが、本発明の1つの目的である。理解すべきは、本発明によるサーチ・システムは英数字記号の形式により記憶された情報をサーチし検索するのに決して限定されず、ディジタル化された画像およびグラフィック記号の形式で記憶された情報をサーチし検索するためにも同様に適用でき、同様に本書に使用されるワード・テキストも、これらが部分的または全体的に記号のセットとして表現されるときは、画像として解釈され得ることである。また理解すべきは、本発明によるサーチ・システムが、商用コンピュータ・システム上で適当な高水準言語で書かれたソフトウェアとしてインプリメントできるが、前記の種類の情報のサーチと検索のために専用プロセッサ装置の形式でインプリメントすることもできることである。
【0010】
上記の諸目的と諸利点は本発明によるサーチ・システムにより実現されるが、その特徴は、前記データ構造は、テキストTにおけるワードおよび/または記号とそれらシーケンスの接尾語を記憶する非均一スペースト疎接尾語ツリーST(T)の形式におけるツリー構造を含んでいることと、テキストTにおけるワードおよび/または記号と質問Qの間の照合の近似的な度合いについての編集ディスタンス・メトリック、およびテキストTにおけるワードおよび/または記号のシーケンスSと質問Qにおけるワードおよび/または記号の質問シーケンスPの間の照合の近似的な度合いについての編集ディスタンス・メトリックの組合せを前記メトリックMが含んでいて、後者の編集ディスタンス・メトリックが前記テキストT内のワードおよび/または記号の1つのシーケンスSを前記質問Q内のワードおよび/または記号のシーケンスPへ変換する編集オペレーションのための重み付けコスト関数を含み、前記重みは、変換におけるシーケンスの長さの変化に比例するかまたは照合すべきシーケンスにおけるワードおよび/または記号のサイズによって異なる1つの値によって実現することと、テキストTと質問Qの各々の接尾語ツリー表現内のワードおよび/または記号の間の一致の度合いを決定する第1アルゴリズムおよびテキストTと質問Qの各々の接尾語ツリー表現内のワードおよび/または記号のシーケンスの間の一致の度合いを決定する第2アルゴリズムをインプリメントされた前記サーチ・アルゴリズムを含んでいて、前記第1および/または第2のアルゴリズムは、ワード、ワードのシーケンス、または記号のシーケンスまたはこれらの組合せの形式の質問Qで、データ構造をサーチして、これにより前者と後者の間の規定された一致の度合いによる質問Qに基づいて情報Rが検索されるようになっていることと、前記サーチ・アルゴリズムはまたオプションとして、テキストTおよび質問Qの各々の接尾語ツリー表現におけるワードおよび/または記号の間の完全一致を決定する第3アルゴリズムと、テキストTおよび質問Qの各々の接尾語ツリー表現におけるワードおよび/または記号のシーケンスの間の完全一致を決定する第4アルゴリズムを含んでいて、前記第3アルゴリズムおよび/または前記第4アルゴリズムはワードか記号かワードのシーケンスか記号のシーケンスかこれらの組合せかの形式における質問Qによりデータ構造をサーチして、これにより情報Rが質問Qに基づいて、前者と後者の完全一致により検索されることである。
【0011】
本発明によるサーチシステムの有利な実施例において、前記接尾語ツリーST(T)は、テキストT内に接尾語の1つのサブセットのみを含んでいるワード・スペースト疎接尾語ツリーSSTWS(T)である。
【0012】
それからワード・スペースト疎接尾語ツリーSSTWS(T)は、好ましくはキーワード・スペースト疎接尾語ツリーSSTkWS(T)である。
【0013】
本発明の更なる有利な実施例において、キーワード・スペースト疎接尾語ツリーSSTkWS(T)においてキーワード一致の度合いを検出する第1アルゴリズムは従属請求項4により開示されたようにインプリメントされ、キーワード・スペースト疎接尾語ツリーSSTkWS(T)においてキーワード一致の度合いを検出する第2アルゴリズムは従属請求項5により開示されたようにインプリメントされ、これにより第2アルゴリズムのサブルーチンが従属請求項6に開示されたようにインプリメントされるのが好ましく、キーワード・スペースト疎接尾語ツリーSSTkWS(T)においてキーワード一致の度合いを検出する第3アルゴリズムは従属請求項7により開示されたようにインプリメントされ、最後にキーワード・スペースト疎接尾語ツリーSSTkWS(T)においてキーワード一致の度合いを検出する第4アルゴリズムは従属請求項8により開示されたようにインプリメントされる。
【0014】
上記の諸目的と諸利点はまた、本発明による方法で実現されるが、その特徴は、テキストT内のワード・セパレータ記号で開始する全ての接尾語を表現するテキストTのワード・スペースト疎接尾語ツリーSSTWS(T)として前記データ構造を生成し、テキストT内のワードのシーケンス情報をワード・スペースト疎接尾語ツリーSSTWS(T)内に記憶し、テキストT内のワードの編集ディスタンス・メトリックD(s,q)と、質問Q内の質問ワードqと、テキストT内のワードのシーケンスSのワード・サイズ依存編集ディスタンス・メトリックDWS(S,P)と、質問Q内のワードqのシーケンスPを含んでいる組合せ編集ディスタンス・メトリックMを生成し、前記編集ディスタンス・メトリックDWS(S,P)はシーケンスSをシーケンスPへ変換する編集オペレーションのコストの最小であり、このコストの最小は、シーケンスSの全長の変化に比例するパラメータまたはカレントのワード長とシーケンスS;P内の平均ワード長の比率により重み付けられる各編集オペレーションのコスト関数の最小であり、検出される情報Rのワードsと質問Qの間の編集ディスタンスD(s,q)を計算することによりワードs,qの間の一致の度合いを決定し、または前記ワードs,qが互いからk個のエラーを超える場合は、全ての照合について編集ディスタンスDWS(SR,PQ)を計算することにより、検出される情報Rと質問QのそれぞれのワードシーケンスSR,PQの間の一致の度合いを決定することである。
【0015】
本発明による有利な方法は追加的に、ワードsおよびqのキャラクタの間の近接のパラメータにより、ワードsをワードqへ変更する編集オペレーションに重みを付けて、これにより、編集オペレーションのコストを決定するときに問題のワードsとqの類似性を考慮に入れることを含む。
【0016】
本発明による方法の有利な実施例において、好ましくは、質問ワード・シーケンスPQ内の制限されたワードの数についての編集ディスタンスDws(SR,PQ)を計算することにより、編集ディスタンスを計算して、これにより照合の数を制限する。
【0017】
本発明による方法の他の有利な実施例において、ワードsとワードqの間の編集ディスタンスD(s,q)は再帰的に定義され、動的プログラミング手順により前記編集ディスタンスD(s,q)が計算され、また、シーケンスSとシーケンスPの間の編集ディスタンスDws(S,P)が対応して再帰的に定義され、動的プログラミング手順により前記編集ディスタンスDws(S,P)が計算される。
【0018】
本発明によれば、上述の諸目的と諸利点はまた、近似サーチ・エンジン内で本発明によるサーチ・システムを使用することにより実現することができる。
【0019】
本発明によるサーチ・システムは本質的に3つの部分、すなわち、データ構造、近似的な一致のためのメトリック、サーチ・アルゴリズムからなる。全文検索がターゲットであるときは、本質的に本発明によるサーチ・システムによる場合の様に、検索可能であるべきデータ・セット全体が、高い質問性能をサポートするデータ構造内に記憶される。
【0020】
本発明の基礎にある基本的な概念を最初にやや詳しく議論する。テキストTの形式で記憶された情報はワードsとワードのシーケンスSへ分割される。ワードは、ワード境界項により分離された全テキストのサブストリングである。境界項のセットはBTwordと記される。ワード境界項の共通セットはセット
Figure 0003581652
であり得て、ここで\tはタブ・キャラクタをし、\nは改行キャラクタをし、\0はドキュメント終了指示子をす。本発明の下記の説明に関して、ストリングとシーケンスに関するいくつかの定義が有用である。
【0021】
(定義1:ストリング)
ストリングはASCIIキャラクタのような、アルファベットから取られた記号のシーケンスである。次にストリングの長さは、そのストリングに含まれている記号またはキャラクタのインスタンスの数であり、|x|と記される。もしxが長さmを有するならば、このストリングはまたx12...i...mと記され、ここでxiはストリング内のi番目の記号を表現する。
【0022】
xのサブストリングは、x内の記号の連続グループにより与えられるストリングである。こうして、ストリングの始めまたは終りから1つまたはそれ以上のキャラクタを削除することにより、サブストリングが得られる。
【0023】
(定義2:サブストリング、接尾語、接頭語)
xのサブストリングは、ある
Figure 0003581652
についてのスング
Figure 0003581652
である。ストリング
Figure 0003581652
はストリングxの接尾語であり、また、ストリング
Figure 0003581652
はストリングxの接頭語である。
【0024】
ワード・シーケンスの観念も使用される。
【0025】
(定義3:ワード・シーケンス)
ワード・シーケンスは分離された連続するワードである。ワード・シーケンスs=s1 2 ... nは、s1、s2からsnまでのn個の単一ワード(またはストリング)からなる。
【0026】
ワード・シーケンスはシーケンス境界項により区切られる。セット・シーケンス境界項はBTseqと記される。シーケンス境界項の一般的なセットは、セット{’0\’}であり得て、ここで0\はドキュメント終了マーカを意味する
【0027】
近似ワード照合のコンセプトは下記の通りに記述される。
【0028】
ストリングs=s1 2 ... nと質問項q=q12...mが与えられる。そのときタスクは、もとの質問項qから最大k個のエラーだれ離れたs内のqの全ての出現を発見することである。近似メトリックが、qと潜在的な照合si...sjの間のエラーをどのように計算するかを決定する。
【0029】
近似ワード照合のための一般的なメトリックは、Levensteinディスタンスすなわち編集ディスタンスである(V.I.Levenstein、「訂正、削除、挿入、反転ができるバイナリ・コード」、(ロシアの)Doklady Akademii nauk SSSR、第163巻、第4号、845−8頁、(1965年);またサイバネティクスと制御理論、第10巻、第8号、707−10頁、(1966年))。このメトリックは、1つのストリングを他へ変換するのに必要な編集オペレーションの最小数として定義される。編集オペレーションはいずれかの書換え規則で与えられ、例えば、
・(a→ε),削除
・(ε→a),挿入
・(a→b),変更
【0030】
pとmをそれぞれサイズiとjの2つのワードであるとする。そのとき、D(i,j)はpのi番目の接頭語とmのj番目の接頭語の間の編集ディスタンスを記す。そのとき編集ディスタンスは下記のように再帰的に定義される。
Figure 0003581652
【0031】
ワード・シーケンス内のワードのレベル上で近似的な照合を定義することも可能であり、これは下記のように定義される。
【0032】
各ワードがキャラクタのストリングであるn個のワードw1,w2...wnからなるテキストTを与えられる。シーケンス・パターンPは、m個のワードp1,p2,...,pmからなる。1≦i≦j≦nであるようなi,jについてシーケンスwi,wi+1...,wjから最大でk個のエラーまでp1,p2,...,pmが異なるならば、シーケンス・パターンPはTにおいて近似的な出現を有すると言われる。ここでも、近似メトリックが2つのシーケンスの間のエラーの数を計算する仕方を決定する。
【0033】
サーチ・システム内の検索すべきテキストに、データのサーチを容易にするような仕方で、索引をつけなければならない。したがって、データ構造は本発明によるサーチ・システムのカーネル・データ構造であって、いわゆる接尾語ツリー、特に疎接尾語ツリーに基づく。これら2つの構造を下記に定義する。接尾語ツリーS(T)はテキストT内に存在し得る全ての接尾語のツリー表現である。接尾語ツリーS(T)内の全ての単項ノードはその子と連結されて1つのコンパクト・バリアント(compact variant)を生成する。
【0034】
図1はテキストT=“構造”(“structure”)のための接尾語ツリーを示す。
【0035】
更に一層特殊には、本発明は疎接尾語ツリーに基づいている。これらは
Figure 0003581652
により、「疎接尾語ツリー」、第2回国際計算組み合わせ論年次大会(COCOON’96)集録、Springer出版社、219頁−230頁に紹介されていて、これもまた、D.R.Morrison「PATRICIA−英数字コード化情報を検索するための実用アルゴリズム」、ジャーナル・オブ・ジ・ACM、15、514−534頁(1968年)に基づいている。疎接尾語ツリーは下記のように定義される。
【0036】
(定義4:疎接尾語ツリー)
テキストTの疎接尾語ツリーSST(T)は接尾語ツリーであって、テキストの接尾語ツリーST(T)内に存在する接尾語のサブセットを1つだけ含むものである。
【0037】
本発明によるサーチ・システムを使用して全てのワードをサーチするときに、ワード境界のみで開始して接尾語を記憶することにより、非均一的に間隔を取った疎接尾語ツリーが有利に生成され得る。ワード・スペースト(word−spaced)疎接尾語ツリーのコンセプトは下記のように定義される。
【0038】
(定義5:ワード・スペースト疎接尾語ツリー)
テキストTの疎接尾語ツリーSSTws(T)は、テキスト内のワード・セパレータ・キャラクタで開始する接尾語のみを含む疎接尾語ツリーSST(T)である。
【0039】
図2は、ワード・スペースト疎接尾語ツリーの2つの例を示す。読みやすくするために、接尾語の一部分を省略してある。T=“to be the best”のためのワード・スペースト疎接尾語ツリーは図2の左側の構造であり、またT=“to make the only major modification”のためのワード・スペースト疎接尾語ツリーは図2の右側の構造である。
【0040】
本発明のサーチ・システムにおいて、テキストは、ワード・スペースト疎接尾語ツリー内に独立して記憶される複数のワードに自然に分割される。サーチングのためのアトミック・サーチ項がワード自体であるので、有利なことに各接尾語がワードの末尾で終結する。これは、この疎接尾語ツリーをいわゆるパトリシア・トライ(PATRICIA trie)(Morrison、前掲書中に)へ縮小する。この文献中に定義されるトライはルート付きのツリーであって、その性質は、ルート以外の各ノードがアルファベットの記号を含み、また同一のツリーからの2つの子が同一記号を有することがない。注意すべきは、ワード・トライがワード“検索”から出ていることであり、したがって、トライがデータの検索に適したツリー構造であることである。パトリシア・トライは、葉ノード内に記憶される接尾語がキーワード区切り文字に限定されるキーワード・スペースト疎接尾語ツリー(KWSツリー)として定義される。キーワード{“avoid”,“abuse”,“be”,“become”,“brease”,“say”}のセットが図3に示されている。本発明のサーチ・システムに使用される構造は、このサーチ・システムがワードのシーケンス情報を明示的に記憶するので、パトリシア・トライと異なる。接尾語の長さを減少させるためには、葉ノードの表現を変更する必要がある。オリジナル・テキストへのポインタは接尾語自体により置きかえられる。図2に示したのと同じ2つのストリングについて、この種の接尾語長さ縮小を図4に示す。言い換えれば図4はワード境界で切り取られた接尾語を有するワード・スペースト疎接尾語ツリーを示す。T=“to be the best”のためのワード・スペースト疎接尾語ツリーは図の左側に示され、またT=“to make the only major modification”のためのワード・スペースト疎接尾語ツリーは図の右側に示されている。葉ノードは、その葉ノードにより表現されるワードが生起する全ての位置のリストを含む。
【0041】
オリジナル・テキストに見出される情報の明示的なシーケンスを使用する代わりに、本発明は、ワード・スペースト疎接尾語ツリー内に、シーケンス情報を明示的に記憶する。これは、オリジナル・テキスト内の連続する語を表現する葉ノードの間にポインタを使用することにより実行される。少なくとも特定の葉ノードにより表現されるワードの全ての生起が利用できるように、次の連続する葉へポインタが付加されなければならない。
【0042】
葉ノードはそれが表現するワードの接尾語のみを含むので、生起リスト内にシーケンス・ポインターズを横断するときに各連続ワードの接尾語だけが現れる。これは、接尾語だけでなく葉ノード内のワード全体を記憶することにより処理され、こうして本発明のデータ構造もまた、この点でパトリシアと異なる。明示的に記憶されたワード・シーケンス情報のデータ構造は、次の連続ワードとその生起へのポインタを有する生起リストと共に、図5に示されている。
【0043】
本発明によるサーチ・システムは、生起リストを組織するためにパトリシア・トライを使用する(Morrison、前掲書中に)。パトリシア・トライは、サーチ・システムが、時間O(|p2|)で、ストリングp2を照合する全ての連続ワードのリストにアクセスできるようにし、ここで|p2|はもちろんp2の長さである。生起リストを組織するためにパトリシア・トライを使用することにより、テキストからワードを記憶してシーケンス情報を維持するための完全に定義されたツリー構造が得られる。組織された生起リストのためのパシア・トライと特別な未ソート生起リストの両方を有する典型的な葉ノードが、図6に示されている。本発明のサーチ・システムに使用されるような生起リストのためのメモリ要件の例として、約742538のドキュメントがあるデータベースは、合計333 856 744語と538 244のディスティンクト・ワードの辞典を有する。このデータベースの全体のサイズは2054.52MBである。その平均ワード長は、こうして6.45バイトである。疎接尾語ツリーは各内部ノードに8バイトを使用し、32ビットのポインタを使用する。各ワードについて、平均3個の内部ノードが使用されているとみなされる。そのとき葉ノードは生起リストへのポインタのためのワード全体プラス32ビットを記憶するために、6.45バイトを必要とする。34.45バイト/ワードの全体が全サイズの18.108MBを与える。その上、生起リストは入力ごとの4バイトと、フル・バージョンを使用する場合の12バイトを有する。したがって、生起リストの全体のメモリ要件は1273MBから3820MBまで変化する。疎接尾語ツリーを使用するデータ構造は、オリジナル・テキストの60%から200%の間のサイズを有する。これは逆ファイルの要件に比較し得るが、しかし本発明によるサーチ・システムに使用される疎接尾語ツリーは、遥かに迅速なサーチを供給して、近似照合を可能にし、シーケンス照合を遂行しやすくする。
【0044】
近似サーチにおいては、あり得る照合にエラー測度を与えるためにメトリックが使用される。本発明によるサーチ・システムはいくつかのメトリックを採用し、特にメックの独自な組合せを採用する。これらのメトリックはメトリックの組合せとともに、以下に議論される。
【0045】
キャラクタと同様にワードに直観的に適用される削除、挿入、変更のオペレーションを、上に定義した編集ディスタンス・メトリックが可能にする。フレーズの照合における一般的なエラーは、ワードの脱落、追加、変更である。従って、近似ワードシーケンス照合問題に適用するために、以前に定義した編集ディスタンス・メトリックを適合させて拡張すべきである。シーケンスの編集オペレーションは下記に定義される。
【0046】
(定義6:シーケンスの編集オペレーション)
ワードの1つのシーケンスSをワードの他のシーケンスPに変換するために、シーケンス内のワードに許される編集オペレーションを、下記の書換え規則により書きこむことができる。
・(a→ε),シーケンスからのワードaの削除
・(ε→a),シーケンスへのワードaの挿入
・(a→b),ワードaからワードbへの変更
・(ab→ba),隣接するワードaとワードbの置換え
【0047】
アトムとしてのキャラクタの代わりに、本発明によるサーチ・システムは、ワードへ編集オペレーションを適用し、そのときワードはオペレーショナル・アトムとみなされる。
【0048】
コスト関数
Figure 0003581652
は下記のように定義される定数である。
Figure 0003581652
ここで
Figure 0003581652
は下記のように定義される。
Figure 0003581652
【0049】
上記の編集オペレーションを使用することにより、今やシーケンスの編集ディスタンスを定義できる。
【0050】
(定義7:シーケンスの編集ディスタンス)
シーケンスのための編集ディスタンス・メトリックは、シーケンスS=s1 2 ... nおよびシーケンスP=p1 2 ... mの間のディスタンスDseq(S,P)を、シーケンスSをシーケンスPへ変換する編集オペレーションのシーケンスのためのコストc(x→y)の最小として定義する。
【0051】
本発明によるサーチ・システムでは、シーケンスのための編集ディスタンス・メトリックそこで処理されるワードのサイズによ編集オペレーションのコストの重み付けを増加している。
【0052】
(定義8:シーケンスのためのワード・サイズ依存編集ディスタンス)
シーケンスのためのワード・サイズ依存編集ディスタンスは、1つのシーケンスを他へ変換するのに必要な編集オペレーションのためのコストの最小として定義される。これらのコスト関数はそのオペランドのワード・サイズによって決まる。
【0053】
本発明によるサーチ・アルゴリズムにおいて、コスト関数の定義は下記の方程式により与えられる。
Figure 0003581652
ここでlは比較される2つのシーケンスの中の1つのワードの平均長さを記す。各編集オペレーションのコストは、シーケンスの全体長さの変化に比例するサイズにより、またはカレントのワード長さと考察するシーケンス内の平均ワード長さとの比率により、重み付けられる。
【0054】
さてこのディスタンス・メトリックは、ワード長さとワード・シーケンスの意味文脈へのそのワードの重要性との間のある関係の仮定を反映する。その上、本発明によるサーチ・システムは、変更編集オペレーション(a→b)が使用されるとき、キャラクタ・レベルの近接が採用される。あるワードaを他のワードbで置換えることは、これら2つのワードの間の類似性に関係する。従って変更編集オペレーションの新しいコスト関数は下記のように与えられる。
Figure 0003581652
D(a,b)が、語の正規編集ディスタンス測定関数であるとき、0は完全な類似性を意味し、1は類似性が全くないことを示す。
【0055】
本発明によるサーチ・システムは、式(4)、(5)、(6)により与えられるコスト関数を有するシーケンスの編集ディスタンス・メトリックと、式(1)により与えられるワードの編集ディスタンス・メトリックを組合せる。これは、照合されたワードがお互いからk個のエラーよりも離れているときにのみ、シーケンス編集オペレーションが使用されることを意味する。
【0056】
本発明によるサーチ・システムに使用されるアルゴリズムは、これらの説明された構造の効率的なサーチを遂行する。上記のメトリックにより照合が発見される。
【0057】
ワード・スペースト疎接尾語ツリー内の近似ワード照合が、編集ディスタンスマトリクスの計算と接尾語ツリーの横断の組合せにより実行される。このためのアルゴリズムを擬似コードで書いたものが表Iに与えられる。
【0058】
このアルゴリズムは、H.Shang & T.H.Merrettal、「近似ストリング・マッチングの試み」、知識・データ工学についてのIEEEトランザクション、第5巻、第4号、540頁−547頁(1996年)により提案されたトライ照合アルゴリズムから適合されたものである。このアルゴリズムの実行時間の予想される最悪の場合は、Shang & Merrettalによれば、O(k|Σ|k)である(前掲書に)。
【0059】
近似ワード・シーケンス照合は、全ての可能な照合についてワード・シーケンス編集ディスタンスを計算することを必要とする。しかしながら、可能な照合の数は、可能なワード上にのみ編集ディスタンスの計算を開始することにより制限できる。シーケンスから1つのワードを削除するコストが可能な開始ワードの数を決定する。1つの質問シーケンスPQ内のi個のファースト・ワードを削除するコストの蓄積が与えられたエラー・スレッショルドの上にあがれば、質問のi番目のワードにより開始する候補シーケンスは、恐らく照合ではあり得ない。従ってi個のワードの質問シーケンスPQについて、最大i個の開始ワードが試みられる。ツリーのシーケンス構造内にバックポインタが1つもないので、全ての可能な照合が得られることは保証されない。バックポインタを追加することが、この問題を解決する。本発明によるサーチ・システムに使用されるような近似ワード・シーケンス照合のためのアルゴリズムは、下記の表IIに擬似コードで与えられる。このアルゴリズムは、p1 2...により逐次的にファースト・キーワードを照合して、全ての可能な開始位置をテストすることを試みる。
【0060】
表IIのApproxSequenceMatchアルゴリズムにおいて、ApproxMatchRest関数は、下記の表IIIのアルゴリズムにより定義される。この関数は、初期エラー値を使用して、残りのシーケンスを照合する。
Figure 0003581652
Figure 0003581652
Figure 0003581652
【0061】
表IIと表IIIのアルゴリズムは、表Iのアルゴリズムと同一の擬似コードで書かれている。
【0062】
シーケンス内のファースト・ワードに一致する葉ノードを発見するために使用されるFindExact関数は、ツリーの単一の横断を遂行し、その実行時間はO|p1|であり、ここでp1は質問シーケンスPQ内のファースト・ワードを記する。編集ディスタンスの計算は、直接の動的プログラミングを使用して|P|2時間内に実行できるし、またはこの計算アルゴリズムの改良バージョンを使用してO(k)時間(ここでkはエラー・スレッショルドを記す)内に実行できるが、E.Ukkonen、「ストリング内の近似パターンの発見」、ジャーナル・オブ・アルゴリズム、第6巻、132頁−137頁(1985年)を参照されたい。
【0063】
Σnocc(pi)が、ワード・シーケンス内の各ワードpiの生起の数の総合計を記すならば、そのとき最悪の場合、実行時間は、O(kΣnocc(pi))である。
【0064】
最後に、本発明によるサーチ・システムに基づくサーチ・エンジンのインプリメンテーションを簡単に議論する。特に、本発明によるサーチ・システムに基づくサーチ・エンジンは、近似サーチ・エンジン(ASE)としてインプリメントされ、大きなドキュメント・コレクションに索引をつけて、これらのドキュメント・コレクションの厳密サーチと近似サーチのためのアルゴリズムを供給することを意図している。ASEは大きなテキストまたはドキュメントのコレクションを記憶するデータ構造を供給する。理解すべきは、データ構造が画像、ビデオ、音響、のような付加的な情報を含むドキュメントから生成されるかも知れず、またテキストはフォーマットまたは注釈されているかもしれないことである。データ構造は上に議論したワード・スペースト疎接尾語ツリーと同一であり、もちろん、ワードはサーチ・システムのキーワードであると理解すべきであり、従ってこのワード・スペースト疎接尾語ツリーを代わりにキーワード・スペースト疎接尾語ツリー(KWSツリー)と名付けることができる。ASEは、KWSツリー内のドキュメントに索引をつけるアルゴリズムを含む。もちろんこれらのアルゴリズムは本発明によるサーチ・システムの一部分を形成しないが、しかしそれらは当業者によく知られていて文献にも記載されているので、たとえば
Figure 0003581652
D.R.Morrison(前掲書)を参照されたい。
【0065】
本発明によりASEの中で使用されるサーチ・システムは、KWSツリー内のパターンの完全一致および近似一致の両方のアルゴリズムを採用する。上記の表Iと表IIに示されるアルゴリズムは、メトリック(測定法)として可変( non-uniform 編集ディスタンスでもって照合を取る近似ワードとワードのシーケンスに使用される。KWSツリー内の長さmを有するキーワードpの正確な一致を発見することは、当分野で知られており、ツリー構造の単一の横断として容易にインプリメントされる。擬似コードで書かれた正確なキーワード照合のために適当なアルゴリズムを表IVに示す。本発明によるサーチ・システムは正確なシーケンス照合のためのアルゴリズムをもサポートできる。正確なキーワード・シーケンス照合のアルゴリズムは当分野で知られており、下記の表Vに擬似コードで示されるように容易にインプリメントされる。ここに与えられるアルゴリズムは第1キーワードがあれば、その厳密な照合を発見する。次にそれは、第1キーワードの全ての生起について、第2キーワードが質問の第2キーワードに照合するかどうかをチェックする。もし照合すれば、表VのMatchRest手順が使用されて、2つの第1キーワードの生起が全シーケンスにおいて照合するかどうかを決定する。KWSツリー内の近似キーワード照合のために、サーチシステムは上記の表Iのアルゴリズムをインプリメントする。適当なキーワード・シーケンス照合のために、サーチ・システムは上記の表IIのアルゴリズムをインプリメントして、p1 2...により逐次的にファースト・キーワードを照合して、全ての可能な開始位置をテストして、表IIIに示すApproxMatchRest機能を適用して、ある特定の位置で開始するシーケンスを照合して、初期エラー値を処理する。
【0066】
最後にASEは、ドキュメント・コレクションの索引付けと質問の制御をユーザに与える1つの単純なフロント・エンドを必要とする。このフロント・エンドはまた、ドキュメント・コレクションの統計を備えて、WWW経由などのリモート・アクセスと、ローカル・サーバ・ユーザ・インターフェイスの両方を供給することができる。
【0067】
本発明によるサーチ・システムを有するASEは、新しい索引付けとサーチのアルゴリズムを容易に追加できるようにする仕方であるので一般的である。また、各ドキュメントまたはキーワードについて特別な情報を記憶しているので、容易な仕方でインプリメントできる。特に、フロント・エンドはデータ・構造とサーチ・アルゴリズムから独立しているので、これらにおける内部変更が前者の設計に何の影響もしない。
【0068】
本発明によるサーチ・システムを使用することにより、ASEがデータ・構造内で可能な限り少ないメモリのオーバーヘッドを有するように設計できる。また、サーチができるだけ速くなるように設計できる。しかしながら、これら2つの要素の間には、通常トレード・オフが存在する。
Figure 0003581652
Figure 0003581652
【0069】
要約すると、本発明によるサーチ・システムを有するASEは、4つの大きなモジュールを有する。
【0070】
1. KWSツリー構造内のドキュメントを索引付けするためのドキュメント・インデクシング・モジュールDIM。このモジュールはまた、いくつかのドキュメントのタイプをサポートするための全ての拡張を含む。
【0071】
2. キーワード・スペースト疎接尾語ツリー(KWSツリー)に基づくデータ・記憶装置モジュール。
【0072】
3. KWSツリーをサーチするためのサーチ・アルゴリズム・モジュールSAMであって、ワードおよびワード・シーケンスをそれぞれ正確整合および/または近似整合するアルゴリズムを含んでいるもの。
【0073】
4. ローカル・サーバ・ユーザ・インターフェイスとリモート質問のためのネットワーク・インターフェイスの両方を含んでいる、ユーザ・インターフェイス・フロント・エンド・モジュール。
【0074】
ASEの4つのモジュールは共に作用して、完全なサーチ・エンジンの機能性を供給する。異なったモジュールの間のデータの流れを図7に示す。あるドキュメントのコレクションの索引付けが、インデクシング・アルゴリズムを含んでいるドキュメント・インデクシング・モジュールDIM内で実行される。もちろんこのモジュールは本発明によるサーチ・システムの1つではなく、使用できるインデクシング・アルゴリズムは当分野でよく知られている。ドキュメント内に見出されるテキストが、記憶のためにデータ記憶装置モジュールDSMへ渡される。もちろん、データ記憶装置モジュールは、本発明によるサーチ・システムの一部分であり、KWSツリー構造に基づいて示されているとおりである。サーチ・アルゴリズム・モジュールSAMは、データ記憶装置モジュール内に配置されたサーチ用のアルゴリズムを含む。このモジュールは本発明によるサーチ・システムをインプリメントして、ツリーとノード情報についてデータ構造に質問してサーチ処理ができるようにし、同時に状態変数を維持する。フロント・エンド・モジュールがたとえばワーク・ステーション上またはパーソナル・コンピュータ上などにインプリメントされて、上述の機能性を供給する。
【0075】
既に導入部で述べたように、本発明によるサーチ・システムは、ワークステーションを含む商用のコンピュータ・システム上で、適当な高水準言語で書かれたソフトウェアとしてインプリメントできることを理解すべきである。それはまた前述のように専用プロセッサの形式でもインプリメントでき、それは、多数の質問ワード・シーケンスを有する近似照合のために、大きなワード・シーケンスを並列に処理できる多数の並列プロセッサを有利に含み得る。プロセッサの固定オペレーショナル・パラメータは、それから低レベル・コードに入力され、一方KWSツリー構造からのキーワード・シーケンス入力が、巨大な量のデータへの質問の極度に迅速な処理を可能にするので、本発明によるサーチ・システムは、従ってワールド・ワイド・ウェブなどにおけるサーチの遂行に高度に適しており、KWSツリー構造内でさえ現在ワールド・ワイド・ウェブ上に提供されている全てのドキュメントを索引付けることができ、将来のワールド・ワイド・ウェブに予想されるデータ量の増加をも処理できる。
【図面の簡単な説明】
本発明によるサーチ・システムと方法を、添付図面を参照しながら、前記に詳細に説明してきた。
【図1】接尾語ツリーの一例を示す。
【図2】本発明に使用されるワード・スペースト疎接尾語ツリーの例である。
【図3】先行技術として知られるいわゆるパトリシア・トライの例である。
【図4】本発明に使用されるワード・スペースト疎接尾語ツリーの更なる例である。
【図5】本発明に使用される明示的に記憶されたワード・シーケンス情報である。
【図6】本発明に使用される葉ノード構造である。
【図7】本発明によるサーチ・システムを有するサーチ・エンジンの構造を図式的に示す。

Claims (14)

  1. 情報検索であり、特にテキストTの形で記憶された情報のためのサーチシステムであって、テキストTがワードおよび/または記号とそれらのシーケンスを含み、前記情報検索はワードおよび/または記号とそれらのシーケンスを含む質問QとテキストTから得られるワードおよび/または記号とそれらのシーケンスを含む検索される情報Rとの間の所定のまたは可変の一致の度合いでもって実施され、少なくともテキストTの一部分を記憶するためのデータ構造と、前記質問Qと検索される情報Rとの間の一致の度合いを測定するメトリックMと、サーチ、特にキーワードkwに基づいて全文サーチを実行するサーチ・アルゴリズムを含んでいる前記サーチ・システムにおいて、
    前記データ構造は、テキストTにおけるワードおよび/または記号とそれらシーケンスの接尾語を記憶する非均一スペースト疎接尾語ツリーST(T)の形式におけるツリー構造を含んでいることと、
    テキストTにおけるワードおよび/または記号と質問Qの間の近似的な一致の度合いについての編集ディスタンス・メトリック、およびテキストTにおけるワードおよび/または記号のシーケンスSと質問Qにおけるワードおよび/または記号の質問シーケンスPの間の近似的な一致の度合いについての編集ディスタンス・メトリックの組合せを前記メトリックMが含んでいて、
    後者の編集ディスタンス・メトリックが前記テキストT内のワードおよび/または記号の1つのシーケンスSを前記質問Q内のワードおよび/または記号のシーケンスPへ変換する編集オペレーションのための重み付けコスト関数を含み、前記重みは、変換におけるシーケンスの長さの変化に比例するかまたは照合すべきシーケンスにおけるワードおよび/または記号のサイズによって異なる1つの値によって実現することと、
    テキストTと質問Qの各々の接尾語ツリー表現内のワードおよび/または記号の間の一致の度合いを決定する第1アルゴリズムおよびテキストTと質問Qの各々の接尾語ツリー表現内のワードおよび/または記号のシーケンスの間の一致の度合いを決定する第2アルゴリズムをインプリメントされた前記サーチ・アルゴリズムを含んでいて、
    前記第1および/または第2のアルゴリズムは、ワード、ワードのシーケンス、または記号のシーケンスまたはこれらの組合せの形式の質問Qで、データ構造をサーチして、これにより前者と後者の間の規定された一致の度合いによる質問Qに基づいて情報Rが検索されるようになっていることと、
    前記サーチ・アルゴリズムはまたオプションとして、テキストTおよび質問Qの各々の接尾語ツリー表現におけるワードおよび/または記号の間の完全一致を決定する第3アルゴリズムと、テキストTおよび質問Qの各々の接尾語ツリー表現におけるワードおよび/または記号のシーケンスの間の完全一致を決定する第4アルゴリズムを含んでいて、
    前記第3アルゴリズムおよび/または前記第4アルゴリズムはワードか記号かワードのシーケンスか記号のシーケンスかこれらの組合せかの形式における質問Qによりデータ構造をサーチして、これにより情報Rが質問Qに基づいて、前者と後者の完全一致により検索されることを特徴とする前記サーチシステム。
  2. 前記非均一スペースト疎接尾語ツリーST(T)が、テキストT内に接尾語の1つのサブセットのみを含んでいるワード・スペースト疎接尾語ツリーSSTWS(T)であることを特徴とする請求項1記載のサーチ・システム。
  3. 前記ワード・スペースト疎接尾語ツリーSSTWS(T)がキーワード・スペースト疎接尾語ツリーSSTkWS(T)であることを特徴とする請求項2記載のサーチ・システム。
  4. キーワード・スペースト疎接尾語ツリーSSTkWS(T)内のキーワードの一致の度合いを検出する第1アルゴリズムが下記のように擬似コードでインプリメントされていることを特徴とする請求項3記載のサーチ・システム。
    Figure 0003581652
  5. キーワード・スペースト疎接尾語ツリーSSTkWS(T)内のキーワードの一致の度合いを検出する第2アルゴリズムが下記のように擬似コードでインプリメントされていることを特徴とする請求項3記載のサーチ・システム。
    Figure 0003581652
  6. 前記第2アルゴリズムのApproxMatchRestサブルーチンが下記のように擬似コードでインプリメントされていることを特徴とする請求項5記載のサーチ・システム。
    Figure 0003581652
  7. キーワード・スペースト疎接尾語ツリーSSTkWS(T)内の正確なキーワード照合を決定する第3アルゴリズムが下記のように擬似コードでインプリメントされていることを特徴とする請求項3記載のサーチ・システム。
    Figure 0003581652
  8. キーワード・スペースト疎接尾語ツリーSSTkWS(T)内の正確なキーワード・シーケンスの照合を決定する第4アルゴリズムが下記のように擬似コードでインプリメントされていることを特徴とする請求項3記載のサーチ・システム。
    Figure 0003581652
  9. テキストの形式で記憶された情報の情報検索のシステムにおける方法であって、
    テキストTがワードおよび記号とそれらのシーケンスを含んでいて、ワードおよび記号とそれらのシーケンスを含んでいる質問QとテキストTからのワードおよび記号とそれらのシーケンスを含んでいる検索された情報Rとの間の所定のまたは可変の一致の度合いでもって前記情報検索が実施され、検索された情報RはテキストTからのワードおよび記号とそれらのシーケンスを含んでいて、
    前記サーチ・システムは少なくともテキストTの一部分を記憶するためのデータ構造と、質問Qと検索された情報Rの間の一致の度合いを測定するメトリックMを含んでいて、特にキーワードkwに基づく全文サーチであるサーチを実行するサーチとアルゴリズムを前記サーチシステムがインプリメントし、
    前記テキスト内の前記情報はワードとワード・シーケンスへ分割され、前記ワードはワード境界項により分離された全テキストのサブストリングであって記号のシーケンスを形成し、各ワードは記号のシーケンスとして構成され、
    テキストT内のワード・セパレータ記号で開始する全ての接尾語を表現するテキストTのワード・スペースト疎接尾語ツリーSSTWS(T)として前記データ構造を生成し、テキストT内のワードのシーケンス情報をワード・スペースト疎接尾語ツリーSSTWS(T)内に記憶し、テキストT内のワードの編集ディスタンス・メトリックD(s,q)と、質問Q内の質問ワードqと、テキストT内のワードのシーケンスSのワード・サイズ依存編集ディスタンス・メトリックDWS(S,P)と、質問Q内のワードqのシーケンスPを含んでいる組合せ編集ディスタンス・メトリックMを生成し、
    前記編集ディスタンス・メトリックDWS(S,P)はシーケンスSをシーケンスPへ変換する編集オペレーションのコストの最小和であり、このコストの最小和は、シーケンスSの全長の変化に比例するパラメータまたはカレントのワード長とシーケンスS;P内の平均ワード長の比率により重み付けられる各編集オペレーションのコスト関数の最小和であり、検出される情報Rのワードsと質問Qの間の編集ディスタンスD(s,q)を計算することによりワードs,qの間の一致の度合いを決定し、
    または前記ワードs,qが互いからk個のエラーを超える場合は、全ての照合について編集ディスタンスDWS(SR,PQ)を計算することにより、検出される情報Rと質問QのそれぞれのワードシーケンスSR,PQの間の一致の度合いを決定することを特徴とする前記方法。
  10. ワードsとワードqのキャラクタの間の近接についてのパラメータによりワードsを他のワードqへ変更する編集オペレーションを追加的に重み付けることにより、問題の編集オペレーションのコストを決定するときにワードsとワードqの類似性を考慮に入れることを特徴とする請求項9記載の方法。
  11. 質問ワード・シーケンスPQ内の制限されたワードの数についての編集ディスタンスDws(SR,PQ)を計算することにより、照合の数を制限することを特徴とする請求項9記載の方法。
  12. ワードsとワードqの間の編集ディスタンスD(s,q)を再帰的に定義して、動的プログラミング手順により前記編集ディスタンスD(s,q)を計算することを特徴とする請求項9記載の方法。
  13. シーケンスSとシーケンスPの間の編集ディスタンスDws(S,P)を再帰的に定義して、動的プログラミング手順により前記編集ディスタンスDws(S,P)を計算することを特徴とする請求項9記載の方法。
  14. 請求項1記載のサーチ・システムを使用した近似サーチ・システム
JP2000559494A 1998-07-10 1999-07-09 データ検索システムと方法およびサーチ・エンジンにおけるその使用 Expired - Lifetime JP3581652B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NO19983175 1998-07-10
NO983175A NO983175L (no) 1998-07-10 1998-07-10 Soekesystem for gjenfinning av data
PCT/NO1999/000233 WO2000003315A2 (en) 1998-07-10 1999-07-09 A search system and method for retrieval of data, and the use thereof in a search engine

Publications (2)

Publication Number Publication Date
JP2002520712A JP2002520712A (ja) 2002-07-09
JP3581652B2 true JP3581652B2 (ja) 2004-10-27

Family

ID=19902243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000559494A Expired - Lifetime JP3581652B2 (ja) 1998-07-10 1999-07-09 データ検索システムと方法およびサーチ・エンジンにおけるその使用

Country Status (20)

Country Link
US (1) US6377945B1 (ja)
EP (1) EP1095326B1 (ja)
JP (1) JP3581652B2 (ja)
KR (1) KR100414236B1 (ja)
CN (1) CN1317114A (ja)
AT (1) ATE212736T1 (ja)
AU (2) AU772525B2 (ja)
BR (1) BR9912015B1 (ja)
CA (1) CA2337079C (ja)
DE (1) DE69900854T2 (ja)
DK (1) DK1095326T3 (ja)
ES (1) ES2173752T3 (ja)
HK (1) HK1040784A1 (ja)
HU (1) HUP0201630A2 (ja)
IL (1) IL140606A0 (ja)
IS (1) IS5796A (ja)
NO (1) NO983175L (ja)
PL (1) PL345714A1 (ja)
PT (1) PT1095326E (ja)
WO (1) WO2000003315A2 (ja)

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6564206B1 (en) * 1998-10-05 2003-05-13 Canon Kabushiki Kaisha Information search apparatus and method, and storage medium
US6584465B1 (en) * 2000-02-25 2003-06-24 Eastman Kodak Company Method and system for search and retrieval of similar patterns
US6704728B1 (en) * 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US6745181B1 (en) * 2000-05-02 2004-06-01 Iphrase.Com, Inc. Information access method
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US7127450B1 (en) * 2000-05-02 2006-10-24 International Business Machines Corporation Intelligent discard in information access system
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6718325B1 (en) * 2000-06-14 2004-04-06 Sun Microsystems, Inc. Approximate string matcher for delimited strings
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US7103838B1 (en) 2000-08-18 2006-09-05 Firstrain, Inc. Method and apparatus for extracting relevant data
US6915294B1 (en) * 2000-08-18 2005-07-05 Firstrain, Inc. Method and apparatus for searching network resources
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries
GB2368414B (en) * 2000-10-27 2002-09-11 One Stop To Ltd Searching procedures
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6681219B2 (en) * 2001-03-29 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method for keyword proximity searching in a document database
US6976016B2 (en) * 2001-04-02 2005-12-13 Vima Technologies, Inc. Maximizing expected generalization for learning complex query concepts
US7136846B2 (en) 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
US7054855B2 (en) * 2001-07-03 2006-05-30 International Business Machines Corporation Method and system for performing a pattern match search for text strings
US7209913B2 (en) * 2001-12-28 2007-04-24 International Business Machines Corporation Method and system for searching and retrieving documents
US7343372B2 (en) * 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US7287026B2 (en) * 2002-04-05 2007-10-23 Oommen John B Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing
US6928445B2 (en) * 2002-06-25 2005-08-09 International Business Machines Corporation Cost conversant classification of objects
FI121583B (fi) * 2002-07-05 2011-01-14 Syslore Oy Symbolijonon etsintä
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US7970621B2 (en) * 2002-10-18 2011-06-28 Cerner Innovation, Inc. Automated order entry system and method
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
CA2429909A1 (en) * 2003-05-27 2004-11-27 Cognos Incorporated Transformation of tabular and cross-tabulated queries based upon e/r schema into multi-dimensional expression queries
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
US7640232B2 (en) 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
US7657423B1 (en) * 2003-10-31 2010-02-02 Google Inc. Automatic completion of fragments of text
US7418455B2 (en) * 2003-11-26 2008-08-26 International Business Machines Corporation System and method for indexing weighted-sequences in large databases
US7343378B2 (en) * 2004-03-29 2008-03-11 Microsoft Corporation Generation of meaningful names in flattened hierarchical structures
IL161874A (en) * 2004-05-07 2012-09-24 Yves Villaret System and method for searching strings of records
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US20070266406A1 (en) * 2004-11-09 2007-11-15 Murali Aravamudan Method and system for performing actions using a non-intrusive television with reduced text input
US20060101504A1 (en) * 2004-11-09 2006-05-11 Veveo.Tv, Inc. Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input
US7895218B2 (en) * 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
CN1614607B (zh) * 2004-11-25 2011-08-31 中国科学院计算技术研究所 垃圾邮件过滤的方法和***
CA2509496A1 (en) * 2005-06-06 2006-12-06 3618633 Canada Inc. Search-enhanced trie-based syntactic pattern recognition of sequences
US9041744B2 (en) * 2005-07-14 2015-05-26 Telecommunication Systems, Inc. Tiled map display on a wireless device
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US7882119B2 (en) * 2005-12-22 2011-02-01 Xerox Corporation Document alignment systems for legacy document conversions
US7664343B2 (en) * 2006-01-23 2010-02-16 Lockheed Martin Corporation Modified Levenshtein distance algorithm for coding
US7792815B2 (en) 2006-03-06 2010-09-07 Veveo, Inc. Methods and systems for selecting and presenting content based on context sensitive user preferences
US8073860B2 (en) * 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
US7461061B2 (en) 2006-04-20 2008-12-02 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
CN100401300C (zh) * 2006-04-29 2008-07-09 上海世纪互联信息***有限公司 具有自动分类功能的搜索引擎
US20070260595A1 (en) * 2006-05-02 2007-11-08 Microsoft Corporation Fuzzy string matching using tree data structure
US7849078B2 (en) * 2006-06-07 2010-12-07 Sap Ag Generating searchable keywords
US8577328B2 (en) 2006-08-21 2013-11-05 Telecommunication Systems, Inc. Associating metro street address guide (MSAG) validated addresses with geographic map data
CA2989780C (en) 2006-09-14 2022-08-09 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
JP4274221B2 (ja) * 2006-10-02 2009-06-03 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
WO2008045690A2 (en) 2006-10-06 2008-04-17 Veveo, Inc. Linear character selection display interface for ambiguous text input
US8078884B2 (en) 2006-11-13 2011-12-13 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US20080172380A1 (en) * 2007-01-17 2008-07-17 Wojciech Czyz Information retrieval based on information location in the information space.
WO2008104621A1 (es) 2007-02-28 2008-09-04 Classe Qsl, S.L. Sistema para la recuperación de unidades de información
WO2008148012A1 (en) 2007-05-25 2008-12-04 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
US20090055436A1 (en) * 2007-08-20 2009-02-26 Olakunle Olaniyi Ayeni System and Method for Integrating on Demand/Pull and Push Flow of Goods-and-Services Meta-Data, Including Coupon and Advertising, with Mobile and Wireless Applications
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US20090098889A1 (en) * 2007-09-11 2009-04-16 Bob Barcklay Wireless device location alerts on battery notification events
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US7904433B2 (en) * 2007-10-09 2011-03-08 O2Micro International Limited Apparatus and methods for performing a rule matching
US20090144247A1 (en) * 2007-11-09 2009-06-04 Eric Wistrand Point-of-interest panning on a displayed map with a persistent search on a wireless phone using persistent point-of-interest criterion
CN101246501B (zh) * 2008-03-27 2010-06-23 腾讯科技(深圳)有限公司 一种聚合相同主题网络文档的方法及***
WO2009126231A1 (en) * 2008-04-07 2009-10-15 Telecommunication Systems, Inc Proximity search for point-of-interest names combining inexact string match with an expanding radius search
US8027990B1 (en) * 2008-07-09 2011-09-27 Google Inc. Dynamic query suggestion
US8027973B2 (en) * 2008-08-04 2011-09-27 Microsoft Corporation Searching questions based on topic and focus
US7882143B2 (en) * 2008-08-15 2011-02-01 Athena Ann Smyros Systems and methods for indexing information for a search engine
US9424339B2 (en) * 2008-08-15 2016-08-23 Athena A. Smyros Systems and methods utilizing a search engine
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
EP2338028A4 (en) * 2008-10-06 2012-11-14 Telecomm Systems Inc PROBABILISTIC REVERSE GEOCODING
US8594627B2 (en) 2008-10-06 2013-11-26 Telecommunications Systems, Inc. Remotely provisioned wirelessly proxy
DE102008062830B3 (de) * 2008-12-23 2010-07-22 Cerebrix Gmbh Vorrichtung und Verfahren zum Speichern, Suchen und Darstellen von Informationen
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
WO2011056086A2 (en) * 2009-11-05 2011-05-12 Google Inc. Statistical stemming
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
US8244754B2 (en) * 2010-02-01 2012-08-14 International Business Machines Corporation System and method for object searching in virtual worlds
US9703779B2 (en) 2010-02-04 2017-07-11 Veveo, Inc. Method of and system for enhanced local-device content discovery
US8339094B2 (en) * 2010-03-11 2012-12-25 GM Global Technology Operations LLC Methods, systems and apparatus for overmodulation of a five-phase machine
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US11367295B1 (en) 2010-03-23 2022-06-21 Aurea Software, Inc. Graphical user interface for presentation of events
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
EP2423830A1 (de) 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
US8745061B2 (en) * 2010-11-09 2014-06-03 Tibco Software Inc. Suffix array candidate selection and index data structure
WO2012082859A1 (en) * 2010-12-14 2012-06-21 The Regents Of The University Of California High efficiency prefix search algorithm supporting interactive, fuzzy search on geographical structured data
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US8798366B1 (en) * 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US9881009B1 (en) 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US9292505B1 (en) 2012-06-12 2016-03-22 Firstrain, Inc. Graphical user interface for recurring searches
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
KR101355254B1 (ko) * 2012-10-22 2014-01-28 인하대학교 산학협력단 접미사 트리의 병렬 생성을 위한 트라이 자료구조 기반 접미사 병렬 분할 방법
US9256593B2 (en) 2012-11-28 2016-02-09 Wal-Mart Stores, Inc. Identifying product references in user-generated content
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US8965915B2 (en) 2013-03-17 2015-02-24 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
US9589074B2 (en) 2014-08-20 2017-03-07 Oracle International Corporation Multidimensional spatial searching for identifying duplicate crash dumps
CN105446957B (zh) 2015-12-03 2018-07-20 小米科技有限责任公司 相似性确定方法、装置及终端
CN108595584B (zh) * 2018-04-18 2022-06-07 卓望数码技术(深圳)有限公司 一种基于数字标记的汉字输出方法和***
US10761965B2 (en) * 2018-09-28 2020-09-01 Atlassian Pty Ltd. Detecting method calls based on stack trace data
CN110517050A (zh) * 2019-08-12 2019-11-29 太平洋医疗健康管理有限公司 一种医保反欺诈串换编码挖掘***及方法
CN111415708B (zh) * 2020-03-24 2023-05-05 山东大学 双缓冲模型实现大规模数据库聚类方法及***
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及***

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU620994B2 (en) * 1989-07-12 1992-02-27 Digital Equipment Corporation Compressed prefix matching database searching
WO1992015954A1 (en) * 1991-03-08 1992-09-17 Red Brick System Compaction of a querying in relational databases
US5953006A (en) * 1992-03-18 1999-09-14 Lucent Technologies Inc. Methods and apparatus for detecting and displaying similarities in large data sets
US5511159A (en) * 1992-03-18 1996-04-23 At&T Corp. Method of identifying parameterized matches in a string
US5412807A (en) * 1992-08-20 1995-05-02 Microsoft Corporation System and method for text searching using an n-ary search tree
JPH07210569A (ja) * 1994-01-19 1995-08-11 Oki Electric Ind Co Ltd 情報検索方法および情報検索装置
US5787430A (en) * 1994-06-30 1998-07-28 International Business Machines Corporation Variable length data sequence backtracking a trie structure
JP2829259B2 (ja) * 1994-09-14 1998-11-25 株式会社東芝 データ処理装置、データ検索装置、データ処理方法及びデータ検索方法
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
KR980004154A (ko) * 1996-06-29 1998-03-30 김광호 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법
KR100284777B1 (ko) * 1997-11-19 2001-03-15 정선종 지도 용어 사전을 위한 트라이 사전과 그 등록 및 검색 방법

Also Published As

Publication number Publication date
IS5796A (is) 2000-12-29
HUP0201630A2 (en) 2002-08-28
CA2337079A1 (en) 2000-01-20
CN1317114A (zh) 2001-10-10
PT1095326E (pt) 2002-07-31
EP1095326A1 (en) 2001-05-02
ATE212736T1 (de) 2002-02-15
JP2002520712A (ja) 2002-07-09
WO2000003315A3 (en) 2000-02-24
CA2337079C (en) 2006-07-04
BR9912015B1 (pt) 2011-12-13
AU4937099A (en) 2000-02-01
PL345714A1 (en) 2002-01-02
EP1095326B1 (en) 2002-01-30
BR9912015A (pt) 2001-04-10
DE69900854D1 (de) 2002-03-14
AU2004203480A1 (en) 2004-08-26
ES2173752T3 (es) 2002-10-16
AU772525B2 (en) 2004-04-29
WO2000003315A2 (en) 2000-01-20
DE69900854T2 (de) 2002-08-22
HK1040784A1 (zh) 2002-06-21
NO983175L (no) 2000-01-11
IL140606A0 (en) 2002-02-10
DK1095326T3 (da) 2002-05-13
US6377945B1 (en) 2002-04-23
KR100414236B1 (ko) 2004-01-07
KR20010071841A (ko) 2001-07-31

Similar Documents

Publication Publication Date Title
JP3581652B2 (ja) データ検索システムと方法およびサーチ・エンジンにおけるその使用
Blumer et al. Complete inverted files for efficient text retrieval and analysis
Faloutsos Access methods for text
Stonebraker et al. Document processing in a relational database system
Bollacker et al. CiteSeer: An autonomous web agent for automatic retrieval and identification of interesting publications
Ferragina et al. The string B-tree: A new data structure for string search in external memory and its applications
US7103536B1 (en) Symbol dictionary compiling method and symbol dictionary retrieving method
US7860853B2 (en) Document matching engine using asymmetric signature generation
CN107153647B (zh) 进行数据压缩的方法、装置、***和计算机程序产品
US8266150B1 (en) Scalable document signature search engine
US20080288442A1 (en) Ontology Based Text Indexing
Croft et al. Implementing ranking strategies using text signatures
Navarro Document listing on repetitive collections with guaranteed performance
Sadakane et al. Indexing huge genome sequences for solving various problems
Rao et al. Sequencing XML data and query twigs for fast pattern matching
Baeza-Yates An extended model for full-text databases
Oflazer Error-tolerant retrieval of trees
Malki Comprehensive study and comparison of information retrieval indexing techniques
Aoe A fast digital search algorithm using a double‐array structure
Kanlayanawat et al. Automatic indexing for Thai text with unknown words using trie structure
CN116028698B (zh) 一种高效率信息搜索***
Gupta A keyword searching algorithm for search engines
KR100440906B1 (ko) 문서 색인 시스템 및 그 방법
Tsay et al. A scalable approach for Chinese term extraction
CN112990465A (zh) 佛学知识萃取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040121

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20040121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040723

R150 Certificate of patent or registration of utility model

Ref document number: 3581652

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120730

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120730

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term