JP3755134B2 - コンピュータベースの適合テキスト検索システムおよび方法 - Google Patents

コンピュータベースの適合テキスト検索システムおよび方法 Download PDF

Info

Publication number
JP3755134B2
JP3755134B2 JP2002007154A JP2002007154A JP3755134B2 JP 3755134 B2 JP3755134 B2 JP 3755134B2 JP 2002007154 A JP2002007154 A JP 2002007154A JP 2002007154 A JP2002007154 A JP 2002007154A JP 3755134 B2 JP3755134 B2 JP 3755134B2
Authority
JP
Japan
Prior art keywords
text
graph
word
query
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002007154A
Other languages
English (en)
Other versions
JP2002259429A (ja
Inventor
ジュルゲン・クレンク
ディーター・イェスペル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002259429A publication Critical patent/JP2002259429A/ja
Application granted granted Critical
Publication of JP3755134B2 publication Critical patent/JP3755134B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータベースのテキスト検索のためのシステムおよび方法に関し、より詳細には、データベースから検索照会に関連すると見なされるテキストの検索を可能にするシステムおよび方法に関する。
【0002】
【従来の技術】
現在、発行されている電子文書の数は増大する一方である。その一例として、情報検索が困難になっている。検索エンジンは一般に、ユーザが対処できないほどの多くの結果を示すが、検索エンジンによって関連があると判断されたすべての文書に目を通すことは不可能である。検索結果を簡約化して提示したり、関心のある情報を含む可能性が高い文書のみを提示すれば、きわめて有用である。
【0003】
キーワード・コレクタを使用する方式が知られている。この種の方式は、語の強調や文書内の場所(すなわち、最上部にある語をより重視する)などを考慮に入れる。文書中の語の統計的出現率、語の対や名詞句を使用して統計学的重み(点数)を計算することができる。文書の内容を計算するには、TFIDF(term frequency times inverse document frequency)と呼ばれる単純なキーワード出現頻度指標を使用することができる。この公知の技法は、ある文書中では比較的よく使われるキーワードであるが一般には比較的まれなキーワードは、その文書の内容を示す有効な標識であるという考えに基づいている。この発見的手法は、あまり信頼性は高くないが、計算は迅速である。
【0004】
検索結果の提示を改善することができるように、精度を定義する手法がある。この精度は、検索によって取り出された適合する文書の数を、取り出された文書の総数で割った値と定義される。通常、再現率と呼ばれるもう一つのパラメータも求められる。
【0005】
さらに高度な技法もある。たとえば、ユーザがページを明示的に評価する手法である。システムが、見込みがありそうなリンクを自動的にマークすることができる。
【0006】
他の高度な技法では、ユーザにとって関心のない情報と関心のある可能性が高い情報とを区別することができるように、(たとえばユーザの選好を記録することによって)ユーザを監視する。
【0007】
このようなあらゆる手法にもかかわらず、対象となる情報を含む1つの文書または1組の文書を見つけようとする場合、インターネット内やインターネットの1つのサイト内を見て回るのは厄介である。
【0008】
【発明が解決しようとする課題】
本発明の目的は、ユーザがテキストの集合内で適合する情報をより容易に見つけることができるようにする方式を提供することである。
【0009】
本発明の他の目的は、ユーザがテキストの集合内またはテキストの小区分内で、ユーザが探索する語、センテンス、またはテキストに関連するテキストを、ユーザが探し出すのを支援するシステムを提供することである。
【0010】
【課題を解決するための手段】
本発明によると、データベースに記憶されたテキストが照会をどの程度よく記述しているかを示す特性記述強度を自動的に判断する方法であって、照会語を含む照会を定義するステップと、テキストの語が節点によって表され、語の間の関係がリンクによって表された、節点とリンクとを備えたグラフを作成するステップと、事前定義された規則のセットに従ってグラフを展開するステップと、照会語への1つまたは複数のリンクによって結合された節点を含む、照会語の近隣語を判断するステップと、近隣語に基づいて特性記述強度を計算するステップとを含む方法が提供される。
【0011】
本発明を他の面から見ると、データベースに記憶されたテキストが検索照会をどの程度よく記述しているかを示す特性記述強度を自動的に判断するシステムであって、複数のm個のテキストを格納するデータベースと、複数のm個のテキストから検索照会と一致するk個のテキストを特定するために検索照会を処理する検索エンジンと、テキストの語が節点によって表され、語間の関係がリンクで表された、節点とリンクとを備えるグラフを生成し、事前定義された規則のセットに従ってグラフを展開し、語に1つまたは複数のリンクを介して結合された節点を含む、語の近隣語を判断し、近隣語のトポロジ構造に基づいて特性記述強度を計算することによって、検索照会と一致するk個のテキストの各テキストの特性記述強度を計算する計算エンジンとを含むシステムが提供される。
【0012】
本発明を他の面から見ると、データベース内のテキストが照会をどの程度よく記述しているかを示す特性記述強度を自動的に判断するソフトウェア・モジュールであって、プログラム可能データ処理システムによって実行されると、語を含む照会をユーザが定義することができるようにするステップと、テキストの語が節点によって表され、語の間の関係がリンクによって表された、節点とリンクとを備えたグラフを作成するステップと、事前定義された規則のセットに従ってグラフを展開するステップと、近隣語が語に1つまたは少数のリンクを介して結合された節点を含む、語の近隣語を判断するステップと、近隣語のトポロジ構造に基づいて特性記述強度を計算するステップとを実行するソフトウェア・モジュールが提供される。
【0013】
本発明の方式は、ユーザが対象となる情報を実際に含む文書を検索することができ、したがって「誤った」リンクをたどって無用な文書に到達する可能性が低いシステムを実現するのに有効である。本明細書に記載のシステムは、関連する文書の示唆のみを示すようにする。
【0014】
本発明の一態様によると、情報検索システム、方法、および様々なソフトウェア・モジュールが、各文書の特性記述強度を考慮に入れて文書の特別な評価を行うことによって、文書データベースからの改良された情報検索を実現する。
【0015】
本発明によると、ユーザの意図および必要を把握することができる検索エンジン、検索エージェント、およびウェブ・サービスを実現することができる。
【0016】
本発明は、情報検索一般に使用することができ、特に情報の検索と呼出しに使用することができる。
【0017】
本発明の利点は、文書データベース内でユーザの照会を正確に満足させる文書が取出しのために提供されることである。
【0018】
【発明の実施の形態】
文書の特性記述強度Cは、当該文書がユーザの情報の必要をどの程度満たしているかを示す抽象的な指標である。システムはユーザにとって関係のある文書のみを取り出すのが理想的である。しかし残念ながら、これは主観的概念であって、定量化するのは困難である。本明細書では、特性記述強度Cとは、文書の適合度を示す信頼性の高い指標であり、自動的に再現性をもって求めることができる。
【0019】
テキストとは、ユーザが取り出したい1つの情報である。これは、テキスト・ファイル、wwwページ、ニューズグループの掲示、文書、または本などからのセンテンスであってもよい。テキストは、ユーザのコンピュータ・システム内、またはサーバ・システムに記憶することができる。テキストは、インターネット内の場所など、分散環境でも記憶することができる。
【0020】
ユーザが所望の情報を見つけることができるためには、電子テキストの集まり(たとえば適切なデータベース)が使用可能であることが望ましいであろう。ユーザが質問を出したり、検索照会を定義したりすることができるようにするインタフェースが必要である。このためには標準インタフェースを使用することができる。
【0021】
照会とは、ユーザが求める情報を特徴づける語または語のストリングである。照会は人間が読める照会である必要はないことに留意されたい。
【0022】
本発明の第1の実施態様について、一例を示しながら以下に説明する。詳細を図1に示す。m個のテキスト17の集合を含むデータベース10がある。この例では、ユーザは「agent」という語に関する情報を探索している。そのために、ユーザは、単に語「agent」を含む照会15を作成する。ユーザは、コンピュータ画面上に表示される(たとえばブラウザ内の)検索インタフェースを使用してこの照会を作成する。
【0023】
本発明の好ましい実施形態では、データベース10内で語「agent」を含むすべてのテキスト17を見つけることができる検索エンジン16を使用する。このためには従来の検索エンジンを使用することができる。検索エンジン16は、ユーザのコンピュータ内またはサーバに配置することができる。ボックス14に示すように、語「agent」を含む3つのテキスト11、12、および13(k=3)がある。もっとも適合性の高い1つまたは複数のテキストを見つけるために、追加のステップのシーケンスで各テキストの特性記述強度Cを求める。このために、計算エンジン18を使用する。この計算エンジン18は、ボックス19に示す形式で結果を出力することができる。この出力ボックス19では、3つのテキスト11〜13のそれぞれに特性記述強度C1が与えられている。
【0024】
このステップのシーケンスは、計算エンジン18によって図2のフローチャートに示すように行われる。次のステップのシーケンスは、語「agent」を含むと特定された各テキスト11〜13について行われる。
【0025】
第1のステップ20で、1つのテキスト(たとえばテキスト11)を取り出す。次に(ステップ21)、テキストの語と語の関係、たとえば語「agent」とテキストの他の語との関係を示す仮想ネットワーク(本明細書ではグラフと呼ぶ)を作成する。テキストの語は、ネットワーク要素(節点)によって表され、語と語の関係はリンク(エッジ)によって表される。2つの語が1本のリンクによって連結されている場合、その2語の間には密接な関係があるとみなされる。2語がリンク2本以上離れている場合、密接な関係はない。このようなネットワークを生成するために、パーサを使用することができる。英語スロット文法(ESG)パーサが適している。あるいは、本発明の他の実施形態と共に説明するように、ネットワーク・ジェネレータによって生成される自己編成グラフを使用することもできる。
【0026】
次のステップ22で、このグラフを展開する。グラフは、たとえばその複雑度を簡約することによって展開することができる。これは、特定の語およびリンクを削除するか、特定の語を置き換えるか、またはその両方によって行うことができる。このステップでは、グラフ全体を再編成することもできる。これは、事前定義された規則のセットに従って行う。
【0027】
次に、近傍のトポロジ構造に基づいて特性記述強度(C)を計算する。語「agent」の直接近隣語の数を求める(ステップ23)。直接近隣語とは、語「agent」に1本のリンクで結合されている近隣語である。直接近隣語の数は、語「agent」に1本のリンクで結合された近隣語(第1近隣語)の数を計算することによって求める。直接近隣語の数を数えることで、グラフのトポロジ構造を判断することができる。後述するように、グラフのトポロジ構造を判断する方法はほかにもある。
【0028】
次に、直接近隣語の数に基づいてそれぞれのテキストの特性記述強度C1を計算する(ステップ24)。
【0029】
特性記述強度C1を求めた後、以降の処理に使用することができるようにその結果を出力する(ステップ25)。特性記述強度C1は、たとえば他のアプリケーションが取り出したり、表示画面上に表示することができるように処理したりすることができる。
【0030】
以上のステップ20〜25の全部または一部を、語「agent」を含むと特定されたk個のテキスト11〜13すべてについて繰り返すことができる。これらのステップの繰り返しをループ26によって略示する。
【0031】
テキスト11を表1に示す。
【表1】
Figure 0003755134
【0032】
テキスト11は4つのセンテンスを含む。ステップ21に従い、英語スロット文法パーサを使用して各センテンスごとに木構造のグラフ30を生成する。第1のセンテンス・グラフ30を図3に示す。このグラフ30は、(ボックスで表された)節点と(ボックス間を結ぶリンクで表された)リンクとを含む。この例では、第1のセンテンスは12語を含むため、パーサは12個の節点を持つ木構造グラフ30を生成する。語「agent」は、この第1のセンテンス中に1回のみ出現する。本動詞「offer」がこの木構造グラフ30の根を形成している。
【0033】
図4に、第2のセンテンス・グラフ31を示す。このセンテンスでは語「agent」が2回使われている。本動詞「say」が木構造グラフ31の根を形成している。
【0034】
図5に、第3のセンテンス・グラフ32を示す。語「agent」が1回だけ使われている。本動詞「may」がこの木構造グラフ32の根を形成している。
【0035】
図6に、第4のセンテンス・グラフ33を示す。語「agent」が1回出現している。本動詞「be」がこの木構造グラフ33の根を形成している。
【0036】
次のステップ22で、グラフ30〜33の複雑さを簡約することによってグラフを展開する。これは、事前定義された規則のセットに従って、特定の語およびリンクの除去、特定の語の置き換え、あるいはその両方によって行う。この例では、少なくとも以下の3つの規則を使用する。
1.名詞と動詞のみを残し、
2.助動詞を本動詞に置き換え、
3.動詞がシーケンスから成る場合は動詞群を作成する。
【0037】
上記の3つの規則を図3のグラフ30に適用すると、5つの節点40〜44を含むグラフ30’が生成される。このグラフ30’を図7に示す。ネットワーク30から、「I」、「a」、「of」、「can」、「we」、「all」、「probably」、「on」の各語が除去されている。グラフ30’をさらに展開する準備として、第1のセンテンスの主語を特定する。テキスト11の第1のセンテンスには主語がないため、空の主語ボックス44が生成される。
【0038】
同じ規則1.〜3.のセットを第2のセンテンスに適用すると、図8に示すような単純化されたグラフ31’が得られる。第2のセンテンスにも主語がないため、空の主語ボックス45が生成される。
【0039】
同じ手法を使用して、図9に示すような単純化されたグラフ32’を得る。第3のセンテンスで主語として語「agent」46が特定される。ボックス46に識別子SUBを付与することによってこの主語をマークする。
【0040】
単純化されたグラフ33’を図10に示す。このセンテンスの主語47も語「agent」である。
【0041】
追加の事前定義された規則のセットに従って、グラフ30’〜33’の複雑さをさらに簡約する。この例では、以下の追加の規則を使用する。
4.動詞を除去し、
5.(本動詞の代わりに)主語を根に配置する。
【0042】
上記の規則4.および5.を適用すると、図11ないし図14に示すようなグラフ30”、31”、32”、および33”が得られる。
【0043】
次に、各グラフ30”、31”、32”、および33”について、語「agent」の直接近隣語の数を求める(ステップ23)。直接近隣語の数を図11ないし図14に示す。第1のセンテンスのグラフ30”では、語「agent」42には1個の直接近隣語41しかない(図11参照))。第2のセンテンスのグラフ31”では、2つの語「agent」48および49には、直接近隣語がない(図12参照)。空の主語節点45は近隣語に数えられないことに留意されたい。第3のセンテンスのグラフ32”では、語「agent」46には2つの直接近隣語50および51がある(図13参照)。第4のセンテンスのグラフ33”では、語「agent」47には2つの直接近隣語52および53がある。
【0044】
後で他の実施形態と共に述べるように、任意選択のステップで第2の近隣語を求めることもできる(図16参照)。簡単にするために、図11ないし図14には第2の近隣語の数も示してある。
【0045】
特性記述強度Cの計算を、図15に略図で示す。表60の第1列64に、テキスト11の4つのセンテンスのそれぞれの直接近隣語の数を示す。列内のすべての数の合計を行62に示す。語「agent」の直接近隣語のみを考慮に入れた特性記述強度C1を、行63に示す。この例では、特性記述強度C1は、列64内のすべての結果の平均である。より一般的に示すと、特性記述強度は以下のようにして計算される。
C1=(cs1+cs2+cs3+...+cs(n-1)+csn)/n
上式で、nは所与のテキスト中のセンテンスの数、csiはi番目のセンテンスの直接近隣語の数であり、i=1、2、...nである。この例では、テキスト11の特性記述強度C1は以下のように求められる。
C1=(1+0+2+2)/4=1.25
【0046】
テキストの特性記述強度C1は、他のアルゴリズムを使用して求めることもできることに留意されたい。
【0047】
本発明の好都合な実施態様を、図16のフローチャートで示す。第1の例と同様、ユーザは語「agent」をよく記述しているテキストを探索している。語「agent」を含むと特定されたk個のテキスト11〜13のそれぞれについて以下のステップのシーケンスを行う。
【0048】
第1のステップ70で、1つのテキスト(たとえばテキスト11)を取り出す。次に(ステップ71)、グラフを生成する。このようなグラフを生成するためには、パーサ(たとえばESGパーサ)を使用することができる。
【0049】
次のステップ72で、グラフ30〜33を展開する。これは、事前定義された規則のセットに従って行う。この例でも、規則1.〜5.を使用する。グラフ30〜33をさらに展開するために、ステップ73を行う。このステップでは、(本動詞ではなく)主語を中心に置くことによってグラフの中心を規定する。木構造グラフで、根を中心として定義する。
【0050】
語「agent」に1本のリンクで結合された近隣語(第1の近隣語)の数をカウントすることによって、直接近隣語の数を求める(ステップ74)。
【0051】
任意選択のステップ75で、語「agent」の第2の近隣語も求める。第2の近隣語は、語「agent」に2本のリンクで結合された語である。この語とどの第2の近隣語との間にも常に直接近隣語があることに留意されたい。
【0052】
次に、直接近隣語と第2の近隣語の数に基づいて、それぞれのテキストの特性記述強度C2を計算する(ステップ76)。
【0053】
特性記述強度C2を求めた後、さらに処理するために使用することができるように、その結果を出力する(ステップ77)。次に、語「agent」を含むと特定されたすべてのテキスト11〜13について上記のステップ70〜77の一部または全部を繰り返すことができる。これらのステップの繰り返しをループ78で略示する。
【0054】
特性記述強度C2の計算を図15に略示する。表60の2番目の列61に、テキスト11の4つのセンテンスのそれぞれについて、直接近隣語数に第2の近隣語の数を加えた数を示す。1列のすべての数値の合計を、行62に示す。語「agent」の直接近隣語と第2の近隣語を考慮に入れた特性記述強度C2を行63に示す。この例では、特性記述強度C2は、列61のすべての結果の平均である。より一般的に示すと、特性記述強度は以下のように計算される。
C2=(^cs1+^cs2+^cs3+...+^cs(n-1)+^csn)/n
上式で、nは所与のテキスト中のセンテンスの数、^csiはn番目のセンテンスの直接近隣語に第2の近隣語を加えた数であり、i=1、2、...nである。この例では、テキスト11の特性記述強度C2は以下のように計算される。
C2=(1+5+3+5)/4=3.5
【0055】
テキストの特性記述強度C2は、他のアルゴリズムを使用して求めることもできることに留意されたい。テキスト12を表2に示す。
【表2】
Figure 0003755134
【0056】
第1の実施形態による前述の規則のセットとステップ(図2参照)に従うと、以下のように特性記述強度C1を求めることができる。
C1=(0+0+0+1)/4=1/4=0.25
C2は以下のように求められる。
C2=(0+0+0+2)/4=2/4=0.5
【0057】
テキスト13を表3に示す。
【表3】
Figure 0003755134
【0058】
第1の実施形態による前述の規則のセットとステップ(図2参照)に従うと、特性記述強度C1を以下のように求めることができる。
C1=(2+0+0+0)/4=1/2=0.5
C2は以下のように求められる。
C2=(5+0+0+0)/4=5/4=1.25
【0059】
これら3つのテキスト11、12、および13のすべての結果を比較すると、テキスト11のC1が1.25であるため、最も適合性が高いという結論を導き出すことができる。
【表4】
Figure 0003755134
【0060】
C1の代わりにC2を使用すると、結果はさらに明白になる。テキスト11は、語「agent」を最もよく特性記述しているテキストであることが明らかである。次に適合度が高いのはテキスト13である。したがって、計算エンジン18(図1参照)は、3つのテキスト11、12、および13のすべてが特性記述強度C1に従って順序づけられた出力ボックス19を出力することができる。これと同じ評価をC2の結果を使用して行うことができる。これでユーザは、出力ボックス19内のhttpリンクの1つをクリックすることによって、それぞれのテキストを取り出すことができる。これらのリンクを下線で示す。
【0061】
本発明の他の実施形態では、意味ネットワーク・ジェネレータ(意味プロセッサとも呼ぶ)を使用する。この意味ネットワーク・ジェネレータは、検索照会を処理するときに検索エンジンによって返される各テキストのグラフを生成する。意味ネットワーク・ジェネレータの詳細は、現在本特許出願の譲受人に譲渡されている同時係属特許出願EP962873−A1号に記載されている。この同時係属特許出願は、1999年12月8日に公開された。意味ネットワーク・ジェネレータは、フラクタル階層構造を有するグラフを作成する。このグラフは意味単位とポインタを含む。上記公開EP特許出願によると、ポインタは重みを持つことができ、重みは隣接意味単位間の意味論上の距離を表す。
【0062】
本発明によると、意味ネットワーク・ジェネレータによって生成されるこのようなグラフは、規則のセットを適用することによって展開することができる。たとえば、特定のしきい値を超えるかまたは下回る照会によって与えられた語を基準にした意味論的距離を有するすべてのポインタおよび意味単位を除去することができる。言い換えると、ユーザが照会でリストした語の近隣語のみがグラフ内に残される。他のすべての意味単位およびポインタは、それぞれのテキストの特性記述強度を求める際に考慮されない。前記2つの実施形態に関して前述した規則の一部または全部を同様に使用することができる。また、特性記述強度(C1またはC2あるいはその両方)を求める前に、自己編成グラフを使用して複雑さを少なくすることもできる。このような自己編成グラフについては、1999年2月11日出願の同時係属特許出願PCT/IB99/00231号および1999年2月25日出願のドイツ国特許出願DE19908204.9号に記載されている。
【0063】
図19および図20を参照しながら、他の実施形態について説明する。上記の特許出願EP962873−A1号にに記載されているものと同様の意味ネットワーク・ジェネレータを使用してグラフを生成することができる。再びテキスト11を参照すると、このようなネットワーク・ジェネレータは、テキスト11中の各センテンスに1つずつ、4つの別々のグラフを生成するか(第1の手法)、またはテキスト11全体の1つの共通のグラフを生成する(第2の手法)ように作成される。別々のグラフを生成する場合、それらのグラフを後のステップで組み合わせて1つの共通のグラフにする。これは、各センテンス中の同一の語を特定し、それらの同一の語を介してグラフを結合(マップ)することによって行うことができる。
【0064】
第2の手法の結果を図19に示す。この共通のグラフ100は、意味単位102〜124を含む。このグラフ100は、特定に規則を使用することによって自動的に展開することができる。たとえば、グラフ100の意味単位を関係づけることでこのプロセスを開始することができる。この例では、テキスト11のすべてのセンテンスが同じ人物(作者または話者)によって書かれているため、2つの主語{}SUB1109と{}SUB2110とが同じであるものとみなす。したがって、図20に示すように、2つのボックス109と110を結合して共通のボックス{}SUB125とすることができる。グラフ100の構造は、言語または文法あるいはその両方の規則を使用してさらに展開することができる。グラフ100を展開する際に、システムは、テキスト11の2番目のセンテンスのように、類比による定義が事柄を記述するのにきわめてよく使用されることを考慮に入れることができる。このことを、図20に示すグラフ101で表す。グラフ101で、「processor」111と「spreadsheet」113の2つの類比が、語「agent」102と同じ階層にある。システムはさらに、2回(ボックス122および124)現れる語「human」が同じ人間を指すものとみなす。したがって、図20の左側に示すように、語「human」のこの2つのインスタンス122および124を結合することができる。その結果がボックス126に図示されている。同じ理由で、語「action」(ボックス118および119)も結合することができる。その結果がボックス127に図示されている。
【0065】
本発明によると、節点またはリンクあるいはその両方の除去、節点またはリンクあるいはその両方の追加、節点またはリンクあるいはその両方の置き換え、および節点またはリンクあるいはその両方の融合によってグラフを展開することができる。これは、事前定義された規則のセットに従って行われる。これらは、グラフを結合し、事前定義規則に従って展開する方法の例の一部に過ぎないことに留意されたい。規則は、グラフの近似度を使用してグラフを一致させることができるように定義される。グラフを展開する操作の詳細は、「Meaning Understanding by Means of Local Pervasive Intelligence」という名称の同時係属特許出願CH9−2000−0036号で扱っている。
【0066】
テキストの各センテンスのグラフ(センテンス・グラフ)を展開してからそれらを結合して1つの共通グラフにするか、または各センテンスのグラフ(センテンス・グラフ)を結合して1つの共通グラフにしてからその共通グラフを展開することができる。本発明によると、グラフは同一インスタンス(節点)の融合によって結合することができる。言い換えると、2つの同一節点を結合して単一の節点にする。
【0067】
本発明の改良された実施態様では、照会の拡張を行う。このような照会拡張によって、ユーザによってキー入力された照会から改良された照会を作成することができる。これは、他の文書から用語を追加することによって、または照会中の用語の(シソーラスにあるような)同義語を追加することによって作成することができる。
【0068】
他の実施形態では、木構造グラフではなく網状のグラフを生成するパーサを使用する。意味グラフ・ジェネレータは、網状グラフを生成するこのようなパーサの一例である。
【0069】
本発明の特徴付け方式は、テキストを適合性に従って分類する他の方式と共に使用することもできる。たとえば、文書の特性記述強度Cを、TFIDなどの他の抽象手段と組み合わせることができる。これは、ユーザにさらに有用な手がかりを与える。
【0070】
本発明を実施する方法は様々ある。本発明はクライアント・システム、サーバ・システム、またはクライアントとサーバにわたる分散方式で実現することができる。本発明は、汎用コンピュータまたは特殊目的コンピュータによって、あるいは汎用コンピュータ上または特殊目的コンピュータ上で実施することができる。
【0071】
本明細書の文脈におけるコンピュータ・プログラムとは、情報処理機能を備えた装置に特定の機能を実行させることを意図した命令のセットを表した任意の言語、コード、または表記の表現を意味する。
【0072】
図17に第1の例を示す。この例では、クライアント・システム80は、図1について前述したすべての要素10〜18を含む。ユーザが照会をキー入力するために使用することができるキーボード81がある。結果は、クライアント・システム80によって、表示画面82上に表示することができるように処理される。
【0073】
本発明のクライアント−サーバ実施態様を図18に示す。図に示すように、コンピュータ・システム93とキーボード91と表示装置92とを含むクライアント・コンピュータがある。このクライアント・コンピュータは、ネットワーク94(たとえばインターネット)を介してサーバ90に接続する。このサーバ90は、要素10〜18を含む。照会はサーバによって処理され、サーバによって特性記述強度Cが計算される。この実施形態では、結果はネットワーク94を介してクライアント・コンピュータに送ることができる方式で出力される。同様に、結果は、クライアント・コンピュータがサーバ90から取り出すことができる。結果は、クライアント・コンピュータによって、表示装置92上に表示することができるように処理される。ユーザが表示装置92上のテキストの1つを選択すると、それに対応するフルテキストが、サーバ側にあるデータベース10から取り出される。データベース10は、第3のコンピュータ上にあってもよく、文書17は複数のコンピュータに分散していてもよい。本発明の範囲に入る変形態様をいくつか挙げると、検索エンジンも他のコンピュータ上にあってもよい。
【0074】
テキストの特性記述強度を計算する多くの異なる方法があることに留意されたい。基本概念は、グラフを展開した後に、トポロジ的不変量を計算することである。言い換えると、特性記述強度(C)は、近隣語のトポロジ構造に基づいて計算される。グラフのトポロジ的不変量を求める方法は様々ある。たとえば、距離、グラフの次元、または接続構成要素を求めることができる。また、節点間の距離を定義するためのグラフ上の測定基準を定義することも考えられる。グラフの節点は、それに関連づけられたトポロジ・テーブルも有することができ、トポロジ・テーブルでは近隣語の構造が定義されている。これらの両方を使用して、最も近い近隣語のカウントなど、トポロジ的不変量を求めることもできる。
【0075】
上記の各実施形態に関して前述したように、特性記述強度(C)を判断するために、第1の近隣語(第1の実施形態参照)または第1および第2の近隣語(図16参照)をカウントすることができる。
【0076】
近隣語をカウントする代わりに、または近隣語のカウントに加えて、グラフ101から語「agent」102とその語の周囲のリンクを除去して、図21に示すようにグラフ101を分解することもできる。語「agent」102とその語の周囲のリンクを除去することによって、5つの別々のサブグラフ130、131、132、133、および134を得る。最大のサブグラフの節点の数をカウントすることによって、特性記述強度(C)を判断することができる。この例では、最大のサブグラフはグラフ130である。このグラフには14個の節点がある。この例では、特性記述強度(C)は14になる。
【0077】
最大サブグラフの単なる節点数を使用する代わりに、すべてのサブグラフ130、131、132、133、および134の節点数をサブグラフの数で割った平均を求めることができる。この結果、C=(14+1+2+1+1)/5=3.8となる。
【0078】
他の手法は、語「agent」102を他の節点と結ぶリンクの数を求めることである。この場合も図20の例を使用すると、結果はC=6となる。
【0079】
また、1節点当たりのリンク数を分析することによって特性記述強度(C)を判断することもできる。グラフ内のリンク数が多いほど、そのグラフが語「agent」102を完全に記述している可能性が高い。
【0080】
特性記述強度(C)の実際の定義に応じて、Cの値は0と無限大の間の特定の範囲内で変わることがある。たとえば、Cは下限(たとえば0)と上限(たとえば100)の間で変化するように標準化することができる。
【0081】
わかりやすいように別々の実施形態の文脈で説明した本発明の様々な特徴は、単一の実施形態で組み合わせて備えることもできることがわかる。逆に、わかりやすいように単一の実施形態の文脈で説明した本発明の様々な特徴は、別々に備えたり、どのような個別の組合せでも備えることができる。
【0082】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0083】
(1)データベース(10)に記憶されたテキスト(11)が照会(15)をどの程度よく記述しているかを示す特性記述強度(C)を自動的に判断する方法であって、
a)照会語を含む照会(15)を定義するステップと、
b)前記テキスト(11)の語が節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフ(30)を作成するステップ(71)と、
c)事前定義された規則のセットに従って前記グラフ(30)を展開するステップ(72)と、
d)前記照会語への1つまたは複数のリンクによって結合された節点を含む、前記照会語の近隣語を判断するステップと、
e)前記近隣語に基づいて前記特性記述強度(C)を計算するステップとを含む方法。
(2)特性記述強度(C)が、ステップe)で前記照会語の直接の近隣語の数をカウントすることによって計算され、直接の近隣語が前記照会語に1つのリンクで結合された語である、上記(1)に記載の方法。
(3)前記データベース(10)が複数のテキスト(17)を格納する、上記(1)に記載の方法。
(4)前記データベース(10)内で前記照会語を含むテキスト(11、12、13)を見つけるための検索を行うステップを含む、上記(1)に記載の方法。(5)前記照会語を含む各テキスト(11、12、13)について前記ステップb)ないしe)を繰り返す、上記(4)に記載の方法。
(6)前記語を含む各テキスト(11、12、13)の特性記述強度(C)を示すリスト(82)を表示するステップを含む、上記(5)に記載の方法。
(7)ステップb)でパーサを使用して前記グラフを生成する、上記(1)ないし(6)のいずれか一項に記載の方法。
(8)ステップb)で意味ネットワーク・ジェネレータを使用して前記グラフ(30)を生成する、上記(1)ないし(6)のいずれか一項に記載の方法。
(9)前記テキスト内の各センテンスについて1つのグラフを生成し、ステップb)ないしe)を実行することによって各センテンスについて特性記述強度(C)を計算する、上記(1)ないし(3)のいずれか一項に記載の方法。
(10)前記テキストの前記特性記述強度(C)がそれぞれの前記テキストのすべてのセンテンスの特性記述強度(C)に基づいて計算される、上記(9)に記載の方法。
(11)前記グラフがステップc)で前記テキストから名詞または動詞あるいはその両方ではない語を除去することによって展開される、上記(1)ないし(3)のいずれか一項に記載の方法。
(12)前記グラフがステップc)で助動詞を本動詞に置き換えることによって展開される、上記(1)ないし(3)のいずれか一項に記載の方法。
(13)前記グラフがステップc)で動詞を除外することによって展開される、上記(1)ないし(3)のいずれか一項に記載の方法。
(14)ステップd)を行う前に、前記グラフ内で前記センテンスの主語を特定して中心に置き、前記主語が根にある木状のグラフ構造を生成する、上記(1)ないし(3)のいずれか一項に記載の方法。
(15)第2の近隣語が前記照会語に2つのリンクを介して結合された語である、前記照会語の第2の近隣語の数を求めるステップを含む、上記(2)に記載の方法。
(16)前記テキストの前記特性記述強度(C)が、
それぞれの前記テキストのすべてのセンテンスの特性記述強度(C)を加算し、
次に前記ステップの結果をセンテンスの数で割ることによって計算された平均である、上記(2)または(15)に記載の方法。
(17)データベース(10)に記憶されたテキスト(17)が照会(15)をどの程度よく記述しているかを示す特性記述強度(C)を自動的に判断するシステムであって、
複数のm個のテキスト(17)を格納するデータベース(10)と、
前記複数のm個のテキスト(17)から検索照会(15)と一致するk個のテキスト(11、12、13)を特定するために前記検索照会(15)を処理する検索エンジン(16)と、
前記テキストの語が節点によって表され、語間の関係がリンクで表された、節点とリンクとを備えるグラフを生成し、
事前定義された規則のセットに従って前記グラフを展開し、
前記語に1つまたは複数のリンクを介して結合された節点を含む、前記語の近隣語を判断し、
前記近隣語のトポロジ構造に基づいて前記特性記述強度(C)を計算することによって、前記検索照会(15)と一致する前記k個のテキスト(11、12、13)の各テキストの特性記述強度(C)を計算する計算エンジン(18)とを含むシステム。
(18)前記データベース(11)がネットワーク(94)を介してクライアント・システム(91、92、93)に接続されたサーバ(90)内に格納された、上記(17)に記載のシステム。
(19)前記グラフを生成するパーサを含む、上記(17)に記載のシステム。(20)前記グラフを生成する意味ネットワーク・ジェネレータを含む、上記(17)に記載のシステム。
(21)前記計算エンジンが、前記語に1つのリンクを介して結合された語である前記語の直接の近隣語の数をカウントすることによって前記特性記述強度(C)を計算する、上記(17)に記載のシステム。
(22)上記(17)ないし(21)のいずれか一項に記載のシステムを含む情報検索システム。
(23)上記(17)ないし(21)のいずれか一項に記載のシステムを含むサーバ・コンピュータ・システム。
(24)上記(17)ないし(21)のいずれか一項に記載のシステムを含むクライアント・コンピュータ・システム。
(25)データベース内のテキストが照会をどの程度よく記述しているかを示す特性記述強度(C)を自動的に判断するソフトウェア・モジュールであって、プログラム可能データ処理システムによって実行されると、
a)語を含む照会(15)をユーザが定義することができるようにするステップと、
b)前記テキスト(17)の語が節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフ(30)を作成するステップ(71)と、
c)事前定義された規則のセットに従って前記グラフ(30)を展開するステップ(72)と、
d)近隣語が前記語に1つまたは少数のリンクを介して結合された節点を含む、前記語の近隣語を判断するステップと、
e)前記近隣語のトポロジ構造に基づいて前記特性記述強度(C)を計算するステップと、
f)前記特性記述強度(C)を表示するステップとを実行するソフトウェア・モジュール。
(26)複数のテキスト(17)の中で前記照会と一致するテキスト(11、12、13)を特定する検索エンジン(16)を含む、上記(25)に記載のソフトウェア・モジュール。
【図面の簡単な説明】
【図1】本発明による一実施形態を示す略ブロック図である。
【図2】本発明の一実施形態による略フローチャートである。
【図3】本発明の一実施形態により作成された第1のグラフである。
【図4】本発明の一実施形態により作成された第2のグラフである。
【図5】本発明の一実施形態により作成された第3のグラフである。
【図6】本発明の一実施形態により作成された第4のグラフである。
【図7】グラフを展開した後の本発明の一実施形態による第1のグラフである。
【図8】グラフを展開した後の本発明の一実施形態による第2のグラフである。
【図9】グラフを展開した後の本発明の一実施形態による第3のグラフである。
【図10】グラフを展開した後の本発明の一実施形態による第4のグラフである。
【図11】グラフをさらに展開した後の本発明の一実施形態による第1のグラフである。
【図12】グラフをさらに展開した後の本発明の一実施形態による第2のグラフである。
【図13】グラフをさらに展開した後の本発明の一実施形態による第3のグラフである。
【図14】グラフをさらに展開した後の本発明の一実施形態による第4のグラフである。
【図15】特性記述強度の計算方法を例示するために使用する、本発明の一実施形態による概略表である。
【図16】本発明の他の実施形態による略フローチャートである。
【図17】本発明による他の実施形態を示す略ブロック図である。
【図18】本発明による他の実施形態を示す略ブロック図である。
【図19】本発明の一実施形態による他のグラフである。
【図20】グラフを展開した後の図19のグラフを示す図である。
【図21】グラフから語「agent」を除去した後の図20のグラフである。
【符号の説明】
10 データベース
11 テキスト
15 照会
16 検索エンジン
17 テキスト
18 計算エンジン
80 クライアント・システム
81 キーボード
82 表示画面
90 サーバ
91 キーボード
92 表示装置
93 コンピュータ・システム
94 ネットワーク

Claims (26)

  1. データベース(10)に記憶されたテキスト(11)が照会語を含めて定義された照会(15)をどの程度よく記述しているかを示す適合度指標(C)を、すくなくとも演算手段と記憶手段と入出力手段と表示手段とを備えたコンピュータを用いて判断する適合度指標判断方法であって、
    )前記テキスト(11)中の語が少なくとも名詞、動詞、助動詞を含む品詞別の節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフ(30)を前記演算手段により作成するステップ(71)と、
    )事前定義された規則のセットに従って前記グラフ(30)を前記演算手段により簡約するステップ(72)と、
    c)前記データベースに記憶されたテキストから照会語を含むテキストを前記演算手段により取り出すステップと、
    d)前記照会語への1つまたは複数のリンクによって結合された節点である、前記照会語の近隣語を前記演算手段により判断するステップと、
    e)前記近隣語の数に基づいて前記適合度指標(C)を前記演算手段により計算するステップと
    を含む適合度指標判断方法。
  2. 適合度指標(C)が、ステップe)で前記照会語の直接の近隣語の数をカウントすることによって前記演算手段により計算され、直接の近隣語が前記照会語に1つのリンクで結合された語である、請求項1に記載の方法。
  3. 前記データベース(10)が複数のテキスト(17)を前記記憶手段に格納する、請求項1に記載の方法。
  4. 前記データベース(10)内で前記照会語を含むテキスト(11、12、13)を見つけるための検索を前記演算手段が行うステップを含む、請求項1に記載の方法。
  5. 前記照会語を含む各テキスト(11、12、13)について前記ステップ)ないしe)を繰り返す、請求項4に記載の方法。
  6. 前記照会語を含む各テキスト(11、12、13)の適合度指標(C)を示すリスト(82)を前記表示手段により表示するステップを含む、請求項5に記載の方法。
  7. ステップ)でパーサを使用して前記グラフを前記演算手段により生成する、請求項1ないし6のいずれか一項に記載の方法。
  8. ステップ)で意味ネットワーク・ジェネレータを使用して前記グラフ(30)を前記演算手段により生成する、請求項1ないし6のいずれか一項に記載の方法。
  9. 前記テキスト内の各センテンスについて1つのグラフを前記演算手段により生成し、ステップ)ないしe)を実行することによって各センテンスについて適合度指標(C)を前記演算手段により計算する、請求項1ないし3のいずれか一項に記載の方法。
  10. 前記テキストの前記適合度指標(C)がそれぞれの前記テキストのすべてのセンテンスの適合度指標(C)に基づいて前記演算手段により計算される、請求項9に記載の方法。
  11. 前記グラフがステップ)で前記テキストから名詞または動詞あるいはその両方ではない語を前記演算手段により除去することによって展開される、請求項1ないし3のいずれか一項に記載の方法。
  12. 前記グラフがステップ)で助動詞を本動詞に前記演算手段により置き換えることによって展開される、請求項1ないし3のいずれか一項に記載の方法。
  13. 前記グラフがステップ)で動詞を前記演算手段により除外することによって展開される、請求項1ないし3のいずれか一項に記載の方法。
  14. ステップd)を行う前に、前記グラフ内で前記センテンスの主語を特定して中心に置き、前記主語が根にある木状のグラフ構造を前記演算手段により生成する、請求項に記載の方法。
  15. 第2の近隣語が前記照会語に2つのリンクを介して結合された語である、前記照会語の第2の近隣語の数を前記演算手段により求めるステップを含む、請求項2に記載の方法。
  16. 前記テキストの前記適合度指標(C)が、
    それぞれの前記テキストのすべてのセンテンスの適合度指標(C)を前記演算手段により加算し、
    次に前記ステップの結果をセンテンスの数で前記演算手段により割ることによって計算された平均である、請求項2または15に記載の方法。
  17. データベース(10)に記憶されたテキスト(17)が照会語を含めて定義された照会(15)をどの程度よく記述しているかを示す適合度指標(C)を判断するシステムであって、
    複数のm個のテキスト(17)を格納する前記データベース(10)と、
    前記複数のm個のテキスト(17)から前記照会(15)に適合するk個の照会語を含むテキスト(11、12、13)を特定する処理をおこなう検索エンジン(16)と、
    前記テキストの語が節点によって表され、語間の関係がリンクで表された、節点とリンクとを備えるグラフを生成し、
    事前定義された規則のセットに従って前記グラフを簡約し、
    前記照会語に1つまたは複数のリンクを介して結合された節点である前記照会語の近隣語を判断し、
    前記近隣語のトポロジ構造に基づいて前記適合度指標(C)を計算することによって、前記照会(15)と一致する前記k個のテキスト(11、12、13)の各テキストの適合度指標(C)を計算する計算エンジン(18)と
    を含むシステム。
  18. 前記データベース(10)がネットワーク(94)を介してクライアント・システム(91、92、93)に接続されたサーバ(90)内に格納された、請求項17に記載のシステム。
  19. 前記グラフを生成するパーサを含む、請求項17に記載のシステム。
  20. 前記グラフを生成する意味ネットワーク・ジェネレータを含む、請求項17に記載のシステム。
  21. 前記計算エンジンが、前記語に1つのリンクを介して結合された語である前記語の直接の近隣語の数をカウントすることによって前記適合度指標(C)を計算する、請求項17に記載のシステム。
  22. 請求項17ないし21のいずれか一項に記載のシステムを含む情報検索システム。
  23. 請求項17ないし21のいずれか一項に記載のシステムを含むサーバ・コンピュータ・システム。
  24. 請求項17ないし21のいずれか一項に記載のシステムを含むクライアント・コンピュータ・システム。
  25. すくなくとも演算手段と記憶手段と入出力手段と表示手段とを備えたコンピュータに、データベース内のテキストが照会語を含めて定義された照会をどの程度よく記述しているかを示す適合度指標(C)判断を実行させるためのプログラムであって
    前記コンピュータに、
    )前記テキストの語が少なくとも名詞、動詞、助動詞を含む品詞別の節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフを前記演算手段により作成するステップと
    )事前定義された規則のセットに従って前記グラフを前記演算手段により簡約するステップと
    c)前記データベースに記憶されたテキストから照会語を含むテキストを前記演算手段により取り出すステップと、
    d)照会語に1つまたは複数のリンクを介して結合された節点である前記照会語の近隣語を前記演算手段により判断するステップと、
    e)前記近隣語のトポロジ構造に基づいて前記適合度指標(C)を前記演算手段により計算するステップと、
    f)前記適合度指標(C)を前記表示手段に表示するステップと
    を実行させるためのプログラム。
  26. 複数のテキストの中で前記照会に適合するテキストを前記演算手段により特定する検索エンジンステップを含む、請求項25に記載のプログラム。
JP2002007154A 2001-01-17 2002-01-16 コンピュータベースの適合テキスト検索システムおよび方法 Expired - Fee Related JP3755134B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP01810040 2001-01-17
EP01810040.4 2001-01-17
EP01103933A EP1225517B1 (en) 2001-01-17 2001-02-19 System and methods for computer based searching for relevant texts
EP01103933.6 2001-02-19

Publications (2)

Publication Number Publication Date
JP2002259429A JP2002259429A (ja) 2002-09-13
JP3755134B2 true JP3755134B2 (ja) 2006-03-15

Family

ID=26076482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002007154A Expired - Fee Related JP3755134B2 (ja) 2001-01-17 2002-01-16 コンピュータベースの適合テキスト検索システムおよび方法

Country Status (3)

Country Link
US (1) US20020133483A1 (ja)
EP (1) EP1225517B1 (ja)
JP (1) JP3755134B2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2403636A (en) 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US8126890B2 (en) 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
JP2008538016A (ja) * 2004-11-12 2008-10-02 メイク センス インコーポレイテッド 概念または項目を用いて知識相関を構成することによる知識発見技術
JP4423327B2 (ja) * 2005-02-08 2010-03-03 日本電信電話株式会社 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US8849860B2 (en) 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US9177248B2 (en) 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US7849090B2 (en) 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US8140559B2 (en) 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US8903810B2 (en) 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8429184B2 (en) 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US8442972B2 (en) * 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US20080158585A1 (en) * 2006-12-27 2008-07-03 Seiko Epson Corporation Apparatus, method, program for supporting printing, system, method, and program for printing, and recording medium
US7970721B2 (en) * 2007-06-15 2011-06-28 Microsoft Corporation Learning and reasoning from web projections
US8209214B2 (en) 2007-06-26 2012-06-26 Richrelevance, Inc. System and method for providing targeted content
US20090028164A1 (en) * 2007-07-23 2009-01-29 Semgine, Gmbh Method and apparatus for semantic serializing
US9361365B2 (en) 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
US8676732B2 (en) 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
CN106845645B (zh) 2008-05-01 2020-08-04 启创互联公司 用于产生语义网络和用于媒体合成的方法及***
US8438178B2 (en) 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
JP5538393B2 (ja) 2008-08-29 2014-07-02 プライマル フュージョン インコーポレイテッド 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法。
US10108616B2 (en) 2009-07-17 2018-10-23 International Business Machines Corporation Probabilistic link strength reduction
US9292855B2 (en) 2009-09-08 2016-03-22 Primal Fusion Inc. Synthesizing messaging using context provided by consumers
US9262520B2 (en) 2009-11-10 2016-02-16 Primal Fusion Inc. System, method and computer program for creating and manipulating data structures using an interactive graphical interface
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
US10474647B2 (en) 2010-06-22 2019-11-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US9235806B2 (en) 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US11294977B2 (en) 2011-06-20 2022-04-05 Primal Fusion Inc. Techniques for presenting content to a user based on the user's preferences
US9092516B2 (en) 2011-06-20 2015-07-28 Primal Fusion Inc. Identifying information of interest based on user preferences
US8965882B1 (en) * 2011-07-13 2015-02-24 Google Inc. Click or skip evaluation of synonym rules
US8909627B1 (en) 2011-11-30 2014-12-09 Google Inc. Fake skip evaluation of synonym rules
US8965875B1 (en) 2012-01-03 2015-02-24 Google Inc. Removing substitution rules based on user interactions
US9152698B1 (en) 2012-01-03 2015-10-06 Google Inc. Substitute term identification based on over-represented terms identification
US9141672B1 (en) 2012-01-25 2015-09-22 Google Inc. Click or skip evaluation of query term optionalization rule
US8959103B1 (en) 2012-05-25 2015-02-17 Google Inc. Click or skip evaluation of reordering rules
US9146966B1 (en) 2012-10-04 2015-09-29 Google Inc. Click or skip evaluation of proximity rules
WO2014127500A1 (en) * 2013-02-19 2014-08-28 Google Inc. Natural language processing based search
US20180341871A1 (en) * 2017-05-25 2018-11-29 Accenture Global Solutions Limited Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains
CN112000788B (zh) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
JP3334807B2 (ja) * 1991-07-25 2002-10-15 株式会社日立製作所 ニュ−ラルネットを利用したパタ−ン分類方法および装置
US5487132A (en) * 1992-03-04 1996-01-23 Cheng; Viktor C. H. End user query facility
US5471382A (en) * 1994-01-10 1995-11-28 Informed Access Systems, Inc. Medical network management system and process
US5644686A (en) * 1994-04-29 1997-07-01 International Business Machines Corporation Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5893088A (en) * 1996-04-10 1999-04-06 Altera Corporation System and method for performing database query using a marker table
US5819271A (en) * 1996-06-04 1998-10-06 Multex Systems, Inc. Corporate information communication and delivery system and method including entitlable hypertext links
JP3614618B2 (ja) * 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP3643470B2 (ja) * 1997-09-05 2005-04-27 株式会社日立製作所 文書検索システムおよび文書検索支援方法
US5784539A (en) * 1996-11-26 1998-07-21 Client-Server-Networking Solutions, Inc. Quality driven expert system
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6564263B1 (en) * 1998-12-04 2003-05-13 International Business Machines Corporation Multimedia content description framework
US6556983B1 (en) * 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US20030061202A1 (en) * 2000-06-02 2003-03-27 Coleman Kevin B. Interactive product selector with fuzzy logic engine

Also Published As

Publication number Publication date
EP1225517A3 (en) 2003-06-18
EP1225517A2 (en) 2002-07-24
JP2002259429A (ja) 2002-09-13
US20020133483A1 (en) 2002-09-19
EP1225517B1 (en) 2006-05-17

Similar Documents

Publication Publication Date Title
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US8751484B2 (en) Systems and methods of identifying chunks within multiple documents
US8266155B2 (en) Systems and methods of displaying and re-using document chunks in a document development application
US7657546B2 (en) Knowledge management system, program product and method
US8001140B2 (en) Systems and methods of refining a search query based on user-specified search keywords
US8924374B2 (en) Systems and methods of semantically annotating documents of different structures
US8352485B2 (en) Systems and methods of displaying document chunks in response to a search request
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US20090216790A1 (en) Systems and Methods of Searching a Document for Relevant Chunks in Response to a Search Request
US8359533B2 (en) Systems and methods of performing a text replacement within multiple documents
JP2001511564A (ja) 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
US9129036B2 (en) Systems and methods of identifying chunks within inter-related documents
US8126880B2 (en) Systems and methods of adaptively screening matching chunks within documents
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
US20090216763A1 (en) Systems and Methods of Refining Chunks Identified Within Multiple Documents
AU2009217352B2 (en) Systems and methods of identifying chunks within multiple documents
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
US8001162B2 (en) Systems and methods of pipelining multiple document node streams through a query processor
JP2000105769A (ja) 文書表示方法
JPH09305613A (ja) 文書検索索引方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20041215

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20041220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050921

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20050921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051122

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20051124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees