JP3755134B2

JP3755134B2 - コンピュータベースの適合テキスト検索システムおよび方法

Info

Publication number: JP3755134B2
Application number: JP2002007154A
Authority: JP
Inventors: ジュルゲン・クレンク; ディーター・イェスペル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-01-17
Filing date: 2002-01-16
Publication date: 2006-03-15
Anticipated expiration: 2022-01-16
Also published as: EP1225517A3; EP1225517A2; JP2002259429A; US20020133483A1; EP1225517B1

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータベースのテキスト検索のためのシステムおよび方法に関し、より詳細には、データベースから検索照会に関連すると見なされるテキストの検索を可能にするシステムおよび方法に関する。
【０００２】
【従来の技術】
現在、発行されている電子文書の数は増大する一方である。その一例として、情報検索が困難になっている。検索エンジンは一般に、ユーザが対処できないほどの多くの結果を示すが、検索エンジンによって関連があると判断されたすべての文書に目を通すことは不可能である。検索結果を簡約化して提示したり、関心のある情報を含む可能性が高い文書のみを提示すれば、きわめて有用である。
【０００３】
キーワード・コレクタを使用する方式が知られている。この種の方式は、語の強調や文書内の場所（すなわち、最上部にある語をより重視する）などを考慮に入れる。文書中の語の統計的出現率、語の対や名詞句を使用して統計学的重み（点数）を計算することができる。文書の内容を計算するには、ＴＦＩＤＦ（term frequency times inverse document frequency）と呼ばれる単純なキーワード出現頻度指標を使用することができる。この公知の技法は、ある文書中では比較的よく使われるキーワードであるが一般には比較的まれなキーワードは、その文書の内容を示す有効な標識であるという考えに基づいている。この発見的手法は、あまり信頼性は高くないが、計算は迅速である。
【０００４】
検索結果の提示を改善することができるように、精度を定義する手法がある。この精度は、検索によって取り出された適合する文書の数を、取り出された文書の総数で割った値と定義される。通常、再現率と呼ばれるもう一つのパラメータも求められる。
【０００５】
さらに高度な技法もある。たとえば、ユーザがページを明示的に評価する手法である。システムが、見込みがありそうなリンクを自動的にマークすることができる。
【０００６】
他の高度な技法では、ユーザにとって関心のない情報と関心のある可能性が高い情報とを区別することができるように、（たとえばユーザの選好を記録することによって）ユーザを監視する。
【０００７】
このようなあらゆる手法にもかかわらず、対象となる情報を含む１つの文書または１組の文書を見つけようとする場合、インターネット内やインターネットの１つのサイト内を見て回るのは厄介である。
【０００８】
【発明が解決しようとする課題】
本発明の目的は、ユーザがテキストの集合内で適合する情報をより容易に見つけることができるようにする方式を提供することである。
【０００９】
本発明の他の目的は、ユーザがテキストの集合内またはテキストの小区分内で、ユーザが探索する語、センテンス、またはテキストに関連するテキストを、ユーザが探し出すのを支援するシステムを提供することである。
【００１０】
【課題を解決するための手段】
本発明によると、データベースに記憶されたテキストが照会をどの程度よく記述しているかを示す特性記述強度を自動的に判断する方法であって、照会語を含む照会を定義するステップと、テキストの語が節点によって表され、語の間の関係がリンクによって表された、節点とリンクとを備えたグラフを作成するステップと、事前定義された規則のセットに従ってグラフを展開するステップと、照会語への１つまたは複数のリンクによって結合された節点を含む、照会語の近隣語を判断するステップと、近隣語に基づいて特性記述強度を計算するステップとを含む方法が提供される。
【００１１】
本発明を他の面から見ると、データベースに記憶されたテキストが検索照会をどの程度よく記述しているかを示す特性記述強度を自動的に判断するシステムであって、複数のｍ個のテキストを格納するデータベースと、複数のｍ個のテキストから検索照会と一致するｋ個のテキストを特定するために検索照会を処理する検索エンジンと、テキストの語が節点によって表され、語間の関係がリンクで表された、節点とリンクとを備えるグラフを生成し、事前定義された規則のセットに従ってグラフを展開し、語に１つまたは複数のリンクを介して結合された節点を含む、語の近隣語を判断し、近隣語のトポロジ構造に基づいて特性記述強度を計算することによって、検索照会と一致するｋ個のテキストの各テキストの特性記述強度を計算する計算エンジンとを含むシステムが提供される。
【００１２】
本発明を他の面から見ると、データベース内のテキストが照会をどの程度よく記述しているかを示す特性記述強度を自動的に判断するソフトウェア・モジュールであって、プログラム可能データ処理システムによって実行されると、語を含む照会をユーザが定義することができるようにするステップと、テキストの語が節点によって表され、語の間の関係がリンクによって表された、節点とリンクとを備えたグラフを作成するステップと、事前定義された規則のセットに従ってグラフを展開するステップと、近隣語が語に１つまたは少数のリンクを介して結合された節点を含む、語の近隣語を判断するステップと、近隣語のトポロジ構造に基づいて特性記述強度を計算するステップとを実行するソフトウェア・モジュールが提供される。
【００１３】
本発明の方式は、ユーザが対象となる情報を実際に含む文書を検索することができ、したがって「誤った」リンクをたどって無用な文書に到達する可能性が低いシステムを実現するのに有効である。本明細書に記載のシステムは、関連する文書の示唆のみを示すようにする。
【００１４】
本発明の一態様によると、情報検索システム、方法、および様々なソフトウェア・モジュールが、各文書の特性記述強度を考慮に入れて文書の特別な評価を行うことによって、文書データベースからの改良された情報検索を実現する。
【００１５】
本発明によると、ユーザの意図および必要を把握することができる検索エンジン、検索エージェント、およびウェブ・サービスを実現することができる。
【００１６】
本発明は、情報検索一般に使用することができ、特に情報の検索と呼出しに使用することができる。
【００１７】
本発明の利点は、文書データベース内でユーザの照会を正確に満足させる文書が取出しのために提供されることである。
【００１８】
【発明の実施の形態】
文書の特性記述強度Ｃは、当該文書がユーザの情報の必要をどの程度満たしているかを示す抽象的な指標である。システムはユーザにとって関係のある文書のみを取り出すのが理想的である。しかし残念ながら、これは主観的概念であって、定量化するのは困難である。本明細書では、特性記述強度Ｃとは、文書の適合度を示す信頼性の高い指標であり、自動的に再現性をもって求めることができる。
【００１９】
テキストとは、ユーザが取り出したい１つの情報である。これは、テキスト・ファイル、ｗｗｗページ、ニューズグループの掲示、文書、または本などからのセンテンスであってもよい。テキストは、ユーザのコンピュータ・システム内、またはサーバ・システムに記憶することができる。テキストは、インターネット内の場所など、分散環境でも記憶することができる。
【００２０】
ユーザが所望の情報を見つけることができるためには、電子テキストの集まり（たとえば適切なデータベース）が使用可能であることが望ましいであろう。ユーザが質問を出したり、検索照会を定義したりすることができるようにするインタフェースが必要である。このためには標準インタフェースを使用することができる。
【００２１】
照会とは、ユーザが求める情報を特徴づける語または語のストリングである。照会は人間が読める照会である必要はないことに留意されたい。
【００２２】
本発明の第１の実施態様について、一例を示しながら以下に説明する。詳細を図１に示す。ｍ個のテキスト１７の集合を含むデータベース１０がある。この例では、ユーザは「agent」という語に関する情報を探索している。そのために、ユーザは、単に語「agent」を含む照会１５を作成する。ユーザは、コンピュータ画面上に表示される（たとえばブラウザ内の）検索インタフェースを使用してこの照会を作成する。
【００２３】
本発明の好ましい実施形態では、データベース１０内で語「agent」を含むすべてのテキスト１７を見つけることができる検索エンジン１６を使用する。このためには従来の検索エンジンを使用することができる。検索エンジン１６は、ユーザのコンピュータ内またはサーバに配置することができる。ボックス１４に示すように、語「agent」を含む３つのテキスト１１、１２、および１３（ｋ＝３）がある。もっとも適合性の高い１つまたは複数のテキストを見つけるために、追加のステップのシーケンスで各テキストの特性記述強度Ｃを求める。このために、計算エンジン１８を使用する。この計算エンジン１８は、ボックス１９に示す形式で結果を出力することができる。この出力ボックス１９では、３つのテキスト１１〜１３のそれぞれに特性記述強度Ｃ１が与えられている。
【００２４】
このステップのシーケンスは、計算エンジン１８によって図２のフローチャートに示すように行われる。次のステップのシーケンスは、語「agent」を含むと特定された各テキスト１１〜１３について行われる。
【００２５】
第１のステップ２０で、１つのテキスト（たとえばテキスト１１）を取り出す。次に（ステップ２１）、テキストの語と語の関係、たとえば語「agent」とテキストの他の語との関係を示す仮想ネットワーク（本明細書ではグラフと呼ぶ）を作成する。テキストの語は、ネットワーク要素（節点）によって表され、語と語の関係はリンク（エッジ）によって表される。２つの語が１本のリンクによって連結されている場合、その２語の間には密接な関係があるとみなされる。２語がリンク２本以上離れている場合、密接な関係はない。このようなネットワークを生成するために、パーサを使用することができる。英語スロット文法（ＥＳＧ）パーサが適している。あるいは、本発明の他の実施形態と共に説明するように、ネットワーク・ジェネレータによって生成される自己編成グラフを使用することもできる。
【００２６】
次のステップ２２で、このグラフを展開する。グラフは、たとえばその複雑度を簡約することによって展開することができる。これは、特定の語およびリンクを削除するか、特定の語を置き換えるか、またはその両方によって行うことができる。このステップでは、グラフ全体を再編成することもできる。これは、事前定義された規則のセットに従って行う。
【００２７】
次に、近傍のトポロジ構造に基づいて特性記述強度（Ｃ）を計算する。語「agent」の直接近隣語の数を求める（ステップ２３）。直接近隣語とは、語「agent」に１本のリンクで結合されている近隣語である。直接近隣語の数は、語「agent」に１本のリンクで結合された近隣語（第１近隣語）の数を計算することによって求める。直接近隣語の数を数えることで、グラフのトポロジ構造を判断することができる。後述するように、グラフのトポロジ構造を判断する方法はほかにもある。
【００２８】
次に、直接近隣語の数に基づいてそれぞれのテキストの特性記述強度Ｃ１を計算する（ステップ２４）。
【００２９】
特性記述強度Ｃ１を求めた後、以降の処理に使用することができるようにその結果を出力する（ステップ２５）。特性記述強度Ｃ１は、たとえば他のアプリケーションが取り出したり、表示画面上に表示することができるように処理したりすることができる。
【００３０】
以上のステップ２０〜２５の全部または一部を、語「agent」を含むと特定されたｋ個のテキスト１１〜１３すべてについて繰り返すことができる。これらのステップの繰り返しをループ２６によって略示する。
【００３１】
テキスト１１を表１に示す。
【表１】

【００３２】
テキスト１１は４つのセンテンスを含む。ステップ２１に従い、英語スロット文法パーサを使用して各センテンスごとに木構造のグラフ３０を生成する。第１のセンテンス・グラフ３０を図３に示す。このグラフ３０は、（ボックスで表された）節点と（ボックス間を結ぶリンクで表された）リンクとを含む。この例では、第１のセンテンスは１２語を含むため、パーサは１２個の節点を持つ木構造グラフ３０を生成する。語「agent」は、この第１のセンテンス中に１回のみ出現する。本動詞「offer」がこの木構造グラフ３０の根を形成している。
【００３３】
図４に、第２のセンテンス・グラフ３１を示す。このセンテンスでは語「agent」が２回使われている。本動詞「say」が木構造グラフ３１の根を形成している。
【００３４】
図５に、第３のセンテンス・グラフ３２を示す。語「agent」が１回だけ使われている。本動詞「may」がこの木構造グラフ３２の根を形成している。
【００３５】
図６に、第４のセンテンス・グラフ３３を示す。語「agent」が１回出現している。本動詞「be」がこの木構造グラフ３３の根を形成している。
【００３６】
次のステップ２２で、グラフ３０〜３３の複雑さを簡約することによってグラフを展開する。これは、事前定義された規則のセットに従って、特定の語およびリンクの除去、特定の語の置き換え、あるいはその両方によって行う。この例では、少なくとも以下の３つの規則を使用する。
１．名詞と動詞のみを残し、
２．助動詞を本動詞に置き換え、
３．動詞がシーケンスから成る場合は動詞群を作成する。
【００３７】
上記の３つの規則を図３のグラフ３０に適用すると、５つの節点４０〜４４を含むグラフ３０’が生成される。このグラフ３０’を図７に示す。ネットワーク３０から、「I」、「a」、「of」、「can」、「we」、「all」、「probably」、「on」の各語が除去されている。グラフ３０’をさらに展開する準備として、第１のセンテンスの主語を特定する。テキスト１１の第１のセンテンスには主語がないため、空の主語ボックス４４が生成される。
【００３８】
同じ規則１．〜３．のセットを第２のセンテンスに適用すると、図８に示すような単純化されたグラフ３１’が得られる。第２のセンテンスにも主語がないため、空の主語ボックス４５が生成される。
【００３９】
同じ手法を使用して、図９に示すような単純化されたグラフ３２’を得る。第３のセンテンスで主語として語「agent」４６が特定される。ボックス４６に識別子ＳＵＢを付与することによってこの主語をマークする。
【００４０】
単純化されたグラフ３３’を図１０に示す。このセンテンスの主語４７も語「agent」である。
【００４１】
追加の事前定義された規則のセットに従って、グラフ３０’〜３３’の複雑さをさらに簡約する。この例では、以下の追加の規則を使用する。
４．動詞を除去し、
５．（本動詞の代わりに）主語を根に配置する。
【００４２】
上記の規則４．および５．を適用すると、図１１ないし図１４に示すようなグラフ３０”、３１”、３２”、および３３”が得られる。
【００４３】
次に、各グラフ３０”、３１”、３２”、および３３”について、語「agent」の直接近隣語の数を求める（ステップ２３）。直接近隣語の数を図１１ないし図１４に示す。第１のセンテンスのグラフ３０”では、語「agent」４２には１個の直接近隣語４１しかない（図１１参照））。第２のセンテンスのグラフ３１”では、２つの語「agent」４８および４９には、直接近隣語がない（図１２参照）。空の主語節点４５は近隣語に数えられないことに留意されたい。第３のセンテンスのグラフ３２”では、語「agent」４６には２つの直接近隣語５０および５１がある（図１３参照）。第４のセンテンスのグラフ３３”では、語「agent」４７には２つの直接近隣語５２および５３がある。
【００４４】
後で他の実施形態と共に述べるように、任意選択のステップで第２の近隣語を求めることもできる（図１６参照）。簡単にするために、図１１ないし図１４には第２の近隣語の数も示してある。
【００４５】
特性記述強度Ｃの計算を、図１５に略図で示す。表６０の第１列６４に、テキスト１１の４つのセンテンスのそれぞれの直接近隣語の数を示す。列内のすべての数の合計を行６２に示す。語「agent」の直接近隣語のみを考慮に入れた特性記述強度Ｃ１を、行６３に示す。この例では、特性記述強度Ｃ１は、列６４内のすべての結果の平均である。より一般的に示すと、特性記述強度は以下のようにして計算される。
Ｃ１＝（ｃs1＋ｃs2＋ｃs3＋．．．＋ｃs(n-1)＋ｃsn）／ｎ
上式で、ｎは所与のテキスト中のセンテンスの数、ｃｓｉはｉ番目のセンテンスの直接近隣語の数であり、ｉ＝１、２、．．．ｎである。この例では、テキスト１１の特性記述強度Ｃ１は以下のように求められる。
Ｃ１＝（１＋０＋２＋２）／４＝１．２５
【００４６】
テキストの特性記述強度Ｃ１は、他のアルゴリズムを使用して求めることもできることに留意されたい。
【００４７】
本発明の好都合な実施態様を、図１６のフローチャートで示す。第１の例と同様、ユーザは語「agent」をよく記述しているテキストを探索している。語「agent」を含むと特定されたｋ個のテキスト１１〜１３のそれぞれについて以下のステップのシーケンスを行う。
【００４８】
第１のステップ７０で、１つのテキスト（たとえばテキスト１１）を取り出す。次に（ステップ７１）、グラフを生成する。このようなグラフを生成するためには、パーサ（たとえばＥＳＧパーサ）を使用することができる。
【００４９】
次のステップ７２で、グラフ３０〜３３を展開する。これは、事前定義された規則のセットに従って行う。この例でも、規則１．〜５．を使用する。グラフ３０〜３３をさらに展開するために、ステップ７３を行う。このステップでは、（本動詞ではなく）主語を中心に置くことによってグラフの中心を規定する。木構造グラフで、根を中心として定義する。
【００５０】
語「agent」に１本のリンクで結合された近隣語（第１の近隣語）の数をカウントすることによって、直接近隣語の数を求める（ステップ７４）。
【００５１】
任意選択のステップ７５で、語「agent」の第２の近隣語も求める。第２の近隣語は、語「agent」に２本のリンクで結合された語である。この語とどの第２の近隣語との間にも常に直接近隣語があることに留意されたい。
【００５２】
次に、直接近隣語と第２の近隣語の数に基づいて、それぞれのテキストの特性記述強度Ｃ２を計算する（ステップ７６）。
【００５３】
特性記述強度Ｃ２を求めた後、さらに処理するために使用することができるように、その結果を出力する（ステップ７７）。次に、語「agent」を含むと特定されたすべてのテキスト１１〜１３について上記のステップ７０〜７７の一部または全部を繰り返すことができる。これらのステップの繰り返しをループ７８で略示する。
【００５４】
特性記述強度Ｃ２の計算を図１５に略示する。表６０の２番目の列６１に、テキスト１１の４つのセンテンスのそれぞれについて、直接近隣語数に第２の近隣語の数を加えた数を示す。１列のすべての数値の合計を、行６２に示す。語「agent」の直接近隣語と第２の近隣語を考慮に入れた特性記述強度Ｃ２を行６３に示す。この例では、特性記述強度Ｃ２は、列６１のすべての結果の平均である。より一般的に示すと、特性記述強度は以下のように計算される。
Ｃ２＝（＾ｃs1＋＾ｃs2＋＾ｃs3＋．．．＋＾ｃs(n-1)＋＾ｃsn）／ｎ
上式で、ｎは所与のテキスト中のセンテンスの数、＾ｃsiはｎ番目のセンテンスの直接近隣語に第２の近隣語を加えた数であり、ｉ＝１、２、．．．ｎである。この例では、テキスト１１の特性記述強度Ｃ２は以下のように計算される。
Ｃ２＝（１＋５＋３＋５）／４＝３．５
【００５５】
テキストの特性記述強度Ｃ２は、他のアルゴリズムを使用して求めることもできることに留意されたい。テキスト１２を表２に示す。
【表２】

【００５６】
第１の実施形態による前述の規則のセットとステップ（図２参照）に従うと、以下のように特性記述強度Ｃ１を求めることができる。
Ｃ１＝（０＋０＋０＋１）／４＝１／４＝０．２５
Ｃ２は以下のように求められる。
Ｃ２＝（０＋０＋０＋２）／４＝２／４＝０．５
【００５７】
テキスト１３を表３に示す。
【表３】

【００５８】
第１の実施形態による前述の規則のセットとステップ（図２参照）に従うと、特性記述強度Ｃ１を以下のように求めることができる。
Ｃ１＝（２＋０＋０＋０）／４＝１／２＝０．５
Ｃ２は以下のように求められる。
Ｃ２＝（５＋０＋０＋０）／４＝５／４＝１．２５
【００５９】
これら３つのテキスト１１、１２、および１３のすべての結果を比較すると、テキスト１１のＣ１が１．２５であるため、最も適合性が高いという結論を導き出すことができる。
【表４】

【００６０】
Ｃ１の代わりにＣ２を使用すると、結果はさらに明白になる。テキスト１１は、語「agent」を最もよく特性記述しているテキストであることが明らかである。次に適合度が高いのはテキスト１３である。したがって、計算エンジン１８（図１参照）は、３つのテキスト１１、１２、および１３のすべてが特性記述強度Ｃ１に従って順序づけられた出力ボックス１９を出力することができる。これと同じ評価をＣ２の結果を使用して行うことができる。これでユーザは、出力ボックス１９内のｈｔｔｐリンクの１つをクリックすることによって、それぞれのテキストを取り出すことができる。これらのリンクを下線で示す。
【００６１】
本発明の他の実施形態では、意味ネットワーク・ジェネレータ（意味プロセッサとも呼ぶ）を使用する。この意味ネットワーク・ジェネレータは、検索照会を処理するときに検索エンジンによって返される各テキストのグラフを生成する。意味ネットワーク・ジェネレータの詳細は、現在本特許出願の譲受人に譲渡されている同時係属特許出願ＥＰ９６２８７３−Ａ１号に記載されている。この同時係属特許出願は、１９９９年１２月８日に公開された。意味ネットワーク・ジェネレータは、フラクタル階層構造を有するグラフを作成する。このグラフは意味単位とポインタを含む。上記公開ＥＰ特許出願によると、ポインタは重みを持つことができ、重みは隣接意味単位間の意味論上の距離を表す。
【００６２】
本発明によると、意味ネットワーク・ジェネレータによって生成されるこのようなグラフは、規則のセットを適用することによって展開することができる。たとえば、特定のしきい値を超えるかまたは下回る照会によって与えられた語を基準にした意味論的距離を有するすべてのポインタおよび意味単位を除去することができる。言い換えると、ユーザが照会でリストした語の近隣語のみがグラフ内に残される。他のすべての意味単位およびポインタは、それぞれのテキストの特性記述強度を求める際に考慮されない。前記２つの実施形態に関して前述した規則の一部または全部を同様に使用することができる。また、特性記述強度（Ｃ１またはＣ２あるいはその両方）を求める前に、自己編成グラフを使用して複雑さを少なくすることもできる。このような自己編成グラフについては、１９９９年２月１１日出願の同時係属特許出願ＰＣＴ／ＩＢ９９／００２３１号および１９９９年２月２５日出願のドイツ国特許出願ＤＥ１９９０８２０４．９号に記載されている。
【００６３】
図１９および図２０を参照しながら、他の実施形態について説明する。上記の特許出願ＥＰ９６２８７３−Ａ１号にに記載されているものと同様の意味ネットワーク・ジェネレータを使用してグラフを生成することができる。再びテキスト１１を参照すると、このようなネットワーク・ジェネレータは、テキスト１１中の各センテンスに１つずつ、４つの別々のグラフを生成するか（第１の手法）、またはテキスト１１全体の１つの共通のグラフを生成する（第２の手法）ように作成される。別々のグラフを生成する場合、それらのグラフを後のステップで組み合わせて１つの共通のグラフにする。これは、各センテンス中の同一の語を特定し、それらの同一の語を介してグラフを結合（マップ）することによって行うことができる。
【００６４】
第２の手法の結果を図１９に示す。この共通のグラフ１００は、意味単位１０２〜１２４を含む。このグラフ１００は、特定に規則を使用することによって自動的に展開することができる。たとえば、グラフ１００の意味単位を関係づけることでこのプロセスを開始することができる。この例では、テキスト１１のすべてのセンテンスが同じ人物（作者または話者）によって書かれているため、２つの主語｛｝ＳＵＢ１１０９と｛｝ＳＵＢ２１１０とが同じであるものとみなす。したがって、図２０に示すように、２つのボックス１０９と１１０を結合して共通のボックス｛｝ＳＵＢ１２５とすることができる。グラフ１００の構造は、言語または文法あるいはその両方の規則を使用してさらに展開することができる。グラフ１００を展開する際に、システムは、テキスト１１の２番目のセンテンスのように、類比による定義が事柄を記述するのにきわめてよく使用されることを考慮に入れることができる。このことを、図２０に示すグラフ１０１で表す。グラフ１０１で、「processor」１１１と「spreadsheet」１１３の２つの類比が、語「agent」１０２と同じ階層にある。システムはさらに、２回（ボックス１２２および１２４）現れる語「human」が同じ人間を指すものとみなす。したがって、図２０の左側に示すように、語「human」のこの２つのインスタンス１２２および１２４を結合することができる。その結果がボックス１２６に図示されている。同じ理由で、語「action」（ボックス１１８および１１９）も結合することができる。その結果がボックス１２７に図示されている。
【００６５】
本発明によると、節点またはリンクあるいはその両方の除去、節点またはリンクあるいはその両方の追加、節点またはリンクあるいはその両方の置き換え、および節点またはリンクあるいはその両方の融合によってグラフを展開することができる。これは、事前定義された規則のセットに従って行われる。これらは、グラフを結合し、事前定義規則に従って展開する方法の例の一部に過ぎないことに留意されたい。規則は、グラフの近似度を使用してグラフを一致させることができるように定義される。グラフを展開する操作の詳細は、「Meaning Understanding by Means of Local Pervasive Intelligence」という名称の同時係属特許出願ＣＨ９−２０００−００３６号で扱っている。
【００６６】
テキストの各センテンスのグラフ（センテンス・グラフ）を展開してからそれらを結合して１つの共通グラフにするか、または各センテンスのグラフ（センテンス・グラフ）を結合して１つの共通グラフにしてからその共通グラフを展開することができる。本発明によると、グラフは同一インスタンス（節点）の融合によって結合することができる。言い換えると、２つの同一節点を結合して単一の節点にする。
【００６７】
本発明の改良された実施態様では、照会の拡張を行う。このような照会拡張によって、ユーザによってキー入力された照会から改良された照会を作成することができる。これは、他の文書から用語を追加することによって、または照会中の用語の（シソーラスにあるような）同義語を追加することによって作成することができる。
【００６８】
他の実施形態では、木構造グラフではなく網状のグラフを生成するパーサを使用する。意味グラフ・ジェネレータは、網状グラフを生成するこのようなパーサの一例である。
【００６９】
本発明の特徴付け方式は、テキストを適合性に従って分類する他の方式と共に使用することもできる。たとえば、文書の特性記述強度Ｃを、ＴＦＩＤなどの他の抽象手段と組み合わせることができる。これは、ユーザにさらに有用な手がかりを与える。
【００７０】
本発明を実施する方法は様々ある。本発明はクライアント・システム、サーバ・システム、またはクライアントとサーバにわたる分散方式で実現することができる。本発明は、汎用コンピュータまたは特殊目的コンピュータによって、あるいは汎用コンピュータ上または特殊目的コンピュータ上で実施することができる。
【００７１】
本明細書の文脈におけるコンピュータ・プログラムとは、情報処理機能を備えた装置に特定の機能を実行させることを意図した命令のセットを表した任意の言語、コード、または表記の表現を意味する。
【００７２】
図１７に第１の例を示す。この例では、クライアント・システム８０は、図１について前述したすべての要素１０〜１８を含む。ユーザが照会をキー入力するために使用することができるキーボード８１がある。結果は、クライアント・システム８０によって、表示画面８２上に表示することができるように処理される。
【００７３】
本発明のクライアント−サーバ実施態様を図１８に示す。図に示すように、コンピュータ・システム９３とキーボード９１と表示装置９２とを含むクライアント・コンピュータがある。このクライアント・コンピュータは、ネットワーク９４（たとえばインターネット）を介してサーバ９０に接続する。このサーバ９０は、要素１０〜１８を含む。照会はサーバによって処理され、サーバによって特性記述強度Ｃが計算される。この実施形態では、結果はネットワーク９４を介してクライアント・コンピュータに送ることができる方式で出力される。同様に、結果は、クライアント・コンピュータがサーバ９０から取り出すことができる。結果は、クライアント・コンピュータによって、表示装置９２上に表示することができるように処理される。ユーザが表示装置９２上のテキストの１つを選択すると、それに対応するフルテキストが、サーバ側にあるデータベース１０から取り出される。データベース１０は、第３のコンピュータ上にあってもよく、文書１７は複数のコンピュータに分散していてもよい。本発明の範囲に入る変形態様をいくつか挙げると、検索エンジンも他のコンピュータ上にあってもよい。
【００７４】
テキストの特性記述強度を計算する多くの異なる方法があることに留意されたい。基本概念は、グラフを展開した後に、トポロジ的不変量を計算することである。言い換えると、特性記述強度（Ｃ）は、近隣語のトポロジ構造に基づいて計算される。グラフのトポロジ的不変量を求める方法は様々ある。たとえば、距離、グラフの次元、または接続構成要素を求めることができる。また、節点間の距離を定義するためのグラフ上の測定基準を定義することも考えられる。グラフの節点は、それに関連づけられたトポロジ・テーブルも有することができ、トポロジ・テーブルでは近隣語の構造が定義されている。これらの両方を使用して、最も近い近隣語のカウントなど、トポロジ的不変量を求めることもできる。
【００７５】
上記の各実施形態に関して前述したように、特性記述強度（Ｃ）を判断するために、第１の近隣語（第１の実施形態参照）または第１および第２の近隣語（図１６参照）をカウントすることができる。
【００７６】
近隣語をカウントする代わりに、または近隣語のカウントに加えて、グラフ１０１から語「agent」１０２とその語の周囲のリンクを除去して、図２１に示すようにグラフ１０１を分解することもできる。語「agent」１０２とその語の周囲のリンクを除去することによって、５つの別々のサブグラフ１３０、１３１、１３２、１３３、および１３４を得る。最大のサブグラフの節点の数をカウントすることによって、特性記述強度（Ｃ）を判断することができる。この例では、最大のサブグラフはグラフ１３０である。このグラフには１４個の節点がある。この例では、特性記述強度（Ｃ）は１４になる。
【００７７】
最大サブグラフの単なる節点数を使用する代わりに、すべてのサブグラフ１３０、１３１、１３２、１３３、および１３４の節点数をサブグラフの数で割った平均を求めることができる。この結果、Ｃ＝（１４＋１＋２＋１＋１）／５＝３．８となる。
【００７８】
他の手法は、語「agent」１０２を他の節点と結ぶリンクの数を求めることである。この場合も図２０の例を使用すると、結果はＣ＝６となる。
【００７９】
また、１節点当たりのリンク数を分析することによって特性記述強度（Ｃ）を判断することもできる。グラフ内のリンク数が多いほど、そのグラフが語「agent」１０２を完全に記述している可能性が高い。
【００８０】
特性記述強度（Ｃ）の実際の定義に応じて、Ｃの値は０と無限大の間の特定の範囲内で変わることがある。たとえば、Ｃは下限（たとえば０）と上限（たとえば１００）の間で変化するように標準化することができる。
【００８１】
わかりやすいように別々の実施形態の文脈で説明した本発明の様々な特徴は、単一の実施形態で組み合わせて備えることもできることがわかる。逆に、わかりやすいように単一の実施形態の文脈で説明した本発明の様々な特徴は、別々に備えたり、どのような個別の組合せでも備えることができる。
【００８２】
まとめとして、本発明の構成に関して以下の事項を開示する。
【００８３】
（１）データベース（１０）に記憶されたテキスト（１１）が照会（１５）をどの程度よく記述しているかを示す特性記述強度（Ｃ）を自動的に判断する方法であって、
ａ）照会語を含む照会（１５）を定義するステップと、
ｂ）前記テキスト（１１）の語が節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフ（３０）を作成するステップ（７１）と、
ｃ）事前定義された規則のセットに従って前記グラフ（３０）を展開するステップ（７２）と、
ｄ）前記照会語への１つまたは複数のリンクによって結合された節点を含む、前記照会語の近隣語を判断するステップと、
ｅ）前記近隣語に基づいて前記特性記述強度（Ｃ）を計算するステップとを含む方法。
（２）特性記述強度（Ｃ）が、ステップｅ）で前記照会語の直接の近隣語の数をカウントすることによって計算され、直接の近隣語が前記照会語に１つのリンクで結合された語である、上記（１）に記載の方法。
（３）前記データベース（１０）が複数のテキスト（１７）を格納する、上記（１）に記載の方法。
（４）前記データベース（１０）内で前記照会語を含むテキスト（１１、１２、１３）を見つけるための検索を行うステップを含む、上記（１）に記載の方法。（５）前記照会語を含む各テキスト（１１、１２、１３）について前記ステップｂ）ないしｅ）を繰り返す、上記（４）に記載の方法。
（６）前記語を含む各テキスト（１１、１２、１３）の特性記述強度（Ｃ）を示すリスト（８２）を表示するステップを含む、上記（５）に記載の方法。
（７）ステップｂ）でパーサを使用して前記グラフを生成する、上記（１）ないし（６）のいずれか一項に記載の方法。
（８）ステップｂ）で意味ネットワーク・ジェネレータを使用して前記グラフ（３０）を生成する、上記（１）ないし（６）のいずれか一項に記載の方法。
（９）前記テキスト内の各センテンスについて１つのグラフを生成し、ステップｂ）ないしｅ）を実行することによって各センテンスについて特性記述強度（Ｃ）を計算する、上記（１）ないし（３）のいずれか一項に記載の方法。
（１０）前記テキストの前記特性記述強度（Ｃ）がそれぞれの前記テキストのすべてのセンテンスの特性記述強度（Ｃ）に基づいて計算される、上記（９）に記載の方法。
（１１）前記グラフがステップｃ）で前記テキストから名詞または動詞あるいはその両方ではない語を除去することによって展開される、上記（１）ないし（３）のいずれか一項に記載の方法。
（１２）前記グラフがステップｃ）で助動詞を本動詞に置き換えることによって展開される、上記（１）ないし（３）のいずれか一項に記載の方法。
（１３）前記グラフがステップｃ）で動詞を除外することによって展開される、上記（１）ないし（３）のいずれか一項に記載の方法。
（１４）ステップｄ）を行う前に、前記グラフ内で前記センテンスの主語を特定して中心に置き、前記主語が根にある木状のグラフ構造を生成する、上記（１）ないし（３）のいずれか一項に記載の方法。
（１５）第２の近隣語が前記照会語に２つのリンクを介して結合された語である、前記照会語の第２の近隣語の数を求めるステップを含む、上記（２）に記載の方法。
（１６）前記テキストの前記特性記述強度（Ｃ）が、
それぞれの前記テキストのすべてのセンテンスの特性記述強度（Ｃ）を加算し、
次に前記ステップの結果をセンテンスの数で割ることによって計算された平均である、上記（２）または（１５）に記載の方法。
（１７）データベース（１０）に記憶されたテキスト（１７）が照会（１５）をどの程度よく記述しているかを示す特性記述強度（Ｃ）を自動的に判断するシステムであって、
複数のｍ個のテキスト（１７）を格納するデータベース（１０）と、
前記複数のｍ個のテキスト（１７）から検索照会（１５）と一致するｋ個のテキスト（１１、１２、１３）を特定するために前記検索照会（１５）を処理する検索エンジン（１６）と、
前記テキストの語が節点によって表され、語間の関係がリンクで表された、節点とリンクとを備えるグラフを生成し、
事前定義された規則のセットに従って前記グラフを展開し、
前記語に１つまたは複数のリンクを介して結合された節点を含む、前記語の近隣語を判断し、
前記近隣語のトポロジ構造に基づいて前記特性記述強度（Ｃ）を計算することによって、前記検索照会（１５）と一致する前記ｋ個のテキスト（１１、１２、１３）の各テキストの特性記述強度（Ｃ）を計算する計算エンジン（１８）とを含むシステム。
（１８）前記データベース（１１）がネットワーク（９４）を介してクライアント・システム（９１、９２、９３）に接続されたサーバ（９０）内に格納された、上記（１７）に記載のシステム。
（１９）前記グラフを生成するパーサを含む、上記（１７）に記載のシステム。（２０）前記グラフを生成する意味ネットワーク・ジェネレータを含む、上記（１７）に記載のシステム。
（２１）前記計算エンジンが、前記語に１つのリンクを介して結合された語である前記語の直接の近隣語の数をカウントすることによって前記特性記述強度（Ｃ）を計算する、上記（１７）に記載のシステム。
（２２）上記（１７）ないし（２１）のいずれか一項に記載のシステムを含む情報検索システム。
（２３）上記（１７）ないし（２１）のいずれか一項に記載のシステムを含むサーバ・コンピュータ・システム。
（２４）上記（１７）ないし（２１）のいずれか一項に記載のシステムを含むクライアント・コンピュータ・システム。
（２５）データベース内のテキストが照会をどの程度よく記述しているかを示す特性記述強度（Ｃ）を自動的に判断するソフトウェア・モジュールであって、プログラム可能データ処理システムによって実行されると、
ａ）語を含む照会（１５）をユーザが定義することができるようにするステップと、
ｂ）前記テキスト（１７）の語が節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフ（３０）を作成するステップ（７１）と、
ｃ）事前定義された規則のセットに従って前記グラフ（３０）を展開するステップ（７２）と、
ｄ）近隣語が前記語に１つまたは少数のリンクを介して結合された節点を含む、前記語の近隣語を判断するステップと、
ｅ）前記近隣語のトポロジ構造に基づいて前記特性記述強度（Ｃ）を計算するステップと、
ｆ）前記特性記述強度（Ｃ）を表示するステップとを実行するソフトウェア・モジュール。
（２６）複数のテキスト（１７）の中で前記照会と一致するテキスト（１１、１２、１３）を特定する検索エンジン（１６）を含む、上記（２５）に記載のソフトウェア・モジュール。
【図面の簡単な説明】
【図１】本発明による一実施形態を示す略ブロック図である。
【図２】本発明の一実施形態による略フローチャートである。
【図３】本発明の一実施形態により作成された第１のグラフである。
【図４】本発明の一実施形態により作成された第２のグラフである。
【図５】本発明の一実施形態により作成された第３のグラフである。
【図６】本発明の一実施形態により作成された第４のグラフである。
【図７】グラフを展開した後の本発明の一実施形態による第１のグラフである。
【図８】グラフを展開した後の本発明の一実施形態による第２のグラフである。
【図９】グラフを展開した後の本発明の一実施形態による第３のグラフである。
【図１０】グラフを展開した後の本発明の一実施形態による第４のグラフである。
【図１１】グラフをさらに展開した後の本発明の一実施形態による第１のグラフである。
【図１２】グラフをさらに展開した後の本発明の一実施形態による第２のグラフである。
【図１３】グラフをさらに展開した後の本発明の一実施形態による第３のグラフである。
【図１４】グラフをさらに展開した後の本発明の一実施形態による第４のグラフである。
【図１５】特性記述強度の計算方法を例示するために使用する、本発明の一実施形態による概略表である。
【図１６】本発明の他の実施形態による略フローチャートである。
【図１７】本発明による他の実施形態を示す略ブロック図である。
【図１８】本発明による他の実施形態を示す略ブロック図である。
【図１９】本発明の一実施形態による他のグラフである。
【図２０】グラフを展開した後の図１９のグラフを示す図である。
【図２１】グラフから語「agent」を除去した後の図２０のグラフである。
【符号の説明】
１０データベース
１１テキスト
１５照会
１６検索エンジン
１７テキスト
１８計算エンジン
８０クライアント・システム
８１キーボード
８２表示画面
９０サーバ
９１キーボード
９２表示装置
９３コンピュータ・システム
９４ネットワーク

Claims

データベース（１０）に記憶されたテキスト（１１）が照会語を含めて定義された照会（１５）をどの程度よく記述しているかを示す適合度指標（Ｃ）を、すくなくとも演算手段と記憶手段と入出力手段と表示手段とを備えたコンピュータを用いて判断する適合度指標判断方法であって、
ａ）前記テキスト（１１）中の語が少なくとも名詞、動詞、助動詞を含む品詞別の節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフ（３０）を前記演算手段により作成するステップ（７１）と、
ｂ）事前定義された規則のセットに従って前記グラフ（３０）を前記演算手段により簡約するステップ（７２）と、
ｃ）前記データベースに記憶されたテキストから照会語を含むテキストを前記演算手段により取り出すステップと、
ｄ）前記照会語への１つまたは複数のリンクによって結合された節点である、前記照会語の近隣語を前記演算手段により判断するステップと、
ｅ）前記近隣語の数に基づいて前記適合度指標（Ｃ）を前記演算手段により計算するステップと、
を含む適合度指標判断方法。
適合度指標（Ｃ）が、ステップｅ）で前記照会語の直接の近隣語の数をカウントすることによって前記演算手段により計算され、直接の近隣語が前記照会語に１つのリンクで結合された語である、請求項１に記載の方法。
前記データベース（１０）が複数のテキスト（１７）を前記記憶手段に格納する、請求項１に記載の方法。
前記データベース（１０）内で前記照会語を含むテキスト（１１、１２、１３）を見つけるための検索を前記演算手段が行うステップを含む、請求項１に記載の方法。
前記照会語を含む各テキスト（１１、１２、１３）について前記ステップａ）ないしｅ）を繰り返す、請求項４に記載の方法。
前記照会語を含む各テキスト（１１、１２、１３）の適合度指標（Ｃ）を示すリスト（８２）を前記表示手段により表示するステップを含む、請求項５に記載の方法。
ステップａ）でパーサを使用して前記グラフを前記演算手段により生成する、請求項１ないし６のいずれか一項に記載の方法。
ステップａ）で意味ネットワーク・ジェネレータを使用して前記グラフ（３０）を前記演算手段により生成する、請求項１ないし６のいずれか一項に記載の方法。
前記テキスト内の各センテンスについて１つのグラフを前記演算手段により生成し、ステップａ）ないしｅ）を実行することによって各センテンスについて適合度指標（Ｃ）を前記演算手段により計算する、請求項１ないし３のいずれか一項に記載の方法。
前記テキストの前記適合度指標（Ｃ）がそれぞれの前記テキストのすべてのセンテンスの適合度指標（Ｃ）に基づいて前記演算手段により計算される、請求項９に記載の方法。
前記グラフがステップｂ）で前記テキストから名詞または動詞あるいはその両方ではない語を前記演算手段により除去することによって展開される、請求項１ないし３のいずれか一項に記載の方法。
前記グラフがステップｂ）で助動詞を本動詞に前記演算手段により置き換えることによって展開される、請求項１ないし３のいずれか一項に記載の方法。
前記グラフがステップｂ）で動詞を前記演算手段により除外することによって展開される、請求項１ないし３のいずれか一項に記載の方法。
ステップｄ）を行う前に、前記グラフ内で前記センテンスの主語を特定して中心に置き、前記主語が根にある木状のグラフ構造を前記演算手段により生成する、請求項９に記載の方法。
第２の近隣語が前記照会語に２つのリンクを介して結合された語である、前記照会語の第２の近隣語の数を前記演算手段により求めるステップを含む、請求項２に記載の方法。
前記テキストの前記適合度指標（Ｃ）が、
それぞれの前記テキストのすべてのセンテンスの適合度指標（Ｃ）を前記演算手段により加算し、
次に前記ステップの結果をセンテンスの数で前記演算手段により割ることによって計算された平均である、請求項２または１５に記載の方法。
データベース（１０）に記憶されたテキスト（１７）が照会語を含めて定義された照会（１５）をどの程度よく記述しているかを示す適合度指標（Ｃ）を判断するシステムであって、
複数のｍ個のテキスト（１７）を格納する前記データベース（１０）と、
前記複数のｍ個のテキスト（１７）から前記照会（１５）に適合するｋ個の照会語を含むテキスト（１１、１２、１３）を特定する処理をおこなう検索エンジン（１６）と、
前記テキストの語が節点によって表され、語間の関係がリンクで表された、節点とリンクとを備えるグラフを生成し、
事前定義された規則のセットに従って前記グラフを簡約し、
前記照会語に１つまたは複数のリンクを介して結合された節点である前記照会語の近隣語を判断し、
前記近隣語のトポロジ構造に基づいて前記適合度指標（Ｃ）を計算することによって、前記照会（１５）と一致する前記ｋ個のテキスト（１１、１２、１３）の各テキストの適合度指標（Ｃ）を計算する計算エンジン（１８）と、
を含むシステム。
前記データベース（１０）がネットワーク（９４）を介してクライアント・システム（９１、９２、９３）に接続されたサーバ（９０）内に格納された、請求項１７に記載のシステム。
前記グラフを生成するパーサを含む、請求項１７に記載のシステム。
前記グラフを生成する意味ネットワーク・ジェネレータを含む、請求項１７に記載のシステム。
前記計算エンジンが、前記語に１つのリンクを介して結合された語である前記語の直接の近隣語の数をカウントすることによって前記適合度指標（Ｃ）を計算する、請求項１７に記載のシステム。
請求項１７ないし２１のいずれか一項に記載のシステムを含む情報検索システム。
請求項１７ないし２１のいずれか一項に記載のシステムを含むサーバ・コンピュータ・システム。
請求項１７ないし２１のいずれか一項に記載のシステムを含むクライアント・コンピュータ・システム。
すくなくとも演算手段と記憶手段と入出力手段と表示手段とを備えたコンピュータに、データベース内のテキストが照会語を含めて定義された照会をどの程度よく記述しているかを示す適合度指標（Ｃ）の判断を実行させるためのプログラムであって、
前記コンピュータに、
ａ）前記テキスト中の語が少なくとも名詞、動詞、助動詞を含む品詞別の節点によって表され、前記語の間の関係がリンクによって表された、節点とリンクとを備えたグラフを前記演算手段により作成するステップと、
ｂ）事前定義された規則のセットに従って前記グラフを前記演算手段により簡約するステップと、
ｃ）前記データベースに記憶されたテキストから照会語を含むテキストを前記演算手段により取り出すステップと、
ｄ）前記照会語に１つまたは複数のリンクを介して結合された節点である前記照会語の近隣語を前記演算手段により判断するステップと、
ｅ）前記近隣語のトポロジ構造に基づいて前記適合度指標（Ｃ）を前記演算手段により計算するステップと、
ｆ）前記適合度指標（Ｃ）を前記表示手段に表示するステップと、
を実行させるためのプログラム。
複数のテキストの中で前記照会に適合するテキストを前記演算手段により特定する検索エンジンステップを含む、請求項２５に記載のプログラム。