JP4644420B2

JP4644420B2 - ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置

Info

Publication number: JP4644420B2
Application number: JP2003300513A
Authority: JP
Inventors: チャールス・エイチ・ドワーキス; グレゴリ−・ピー・フィッツパトリック; ツェロング・フー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-09-16
Filing date: 2003-08-25
Publication date: 2011-03-02
Anticipated expiration: 2023-08-25
Also published as: US20040054662A1; US7076484B2; JP2004110808A

Description

本発明は、情報検索及び提示（presentation）の分野に関する。

自動リサーチ・ツールであるスマータ（smarter）は、次世代のサーチ・エンジンを必要とする。ビジネス、学生、研究者、及び一般大衆は、益々、ネットワーク・アクセス可能なリソースから得られる情報、または、典型的には一般的なサーチ・エンジンを介してアクセスされる「オンライン」ソースから得られる情報に依存している。オンライン・ソースを介して得られる極めて大量の情報は、情報収集を行うための有利な点と、関連のデータを決定するために大量の無関係のデータを仕分けしなければならないという不利な点を持ち合わせている。これを折り合わせることは、情報の信頼性に関して問題である。個人によって頻繁に更新され且つ管理されるオンライン・ソースは、古い陳腐化した情報、誤りを招き易い情報、及び（又は）間違った情報を含み得る。従って、入手し得る大量のデータから所望の情報を見分けることは、厄介な、しかも時間が極端にかかる仕事となり得る。

一般的なサーチ・エンジンは、照会（query）を受け入れ、インターネット・サイト、データベース、及び（又は）ウェブ・ページのような潜在的に関連あるオンライン・ソースのリストを返送する。ほとんどの一般的なサーチ・エンジンは、キーワードを使用してブール論理サーチを行うけれども、自然言語の照会を処理できる他のサーチ・エンジンもある。典型的には、使用されるサーチ・エンジンの内部優先順位付けルールに従った結果のリストが注文される。しかし、別の一般的なサーチ・エンジンには、事前定義されたアウトラインに従って結果のリストを注文するものもある。この方法は細かく調整された簡単な照会にとっては十分であるけれども、複雑な分野の一般的な照会のような多くの情報収集タスクにとって、それは非実用的である。そのような場合、潜在的に関連あるサイトの返送されたリストは、収拾不可能なほど大きくなることがある。例えば、「たんぱく質」というタームに関するサーチは、その結果として、数百のウェブ・サイト・マッチ及び数百万のウェブ・ページ・マッチを生じることがあり得る。

そのような多数のリファレンスに直面すると、ユーザは、その返送されたリストから幾つものサイトを見て、それらのサイトをブラウズし、そしてよりしっかりと焦点の合ったサーチを定型化するためにそれらのリファレンスから収集された情報の使用を試みなければならないことが多い。その新しいサーチは、異なるリファレンス・リスト、より多くのサイト・ブラウジング、及び更に焦点の合ったサーチを生み出す。本願において示される一般的なサーチ技法は、無に帰することもあるであろうし、幾つもの不利な点をこうむることもあるであろう。

そのような不利な点の１つは、関連する情報が発見される前に費やされる過度の量の時間である。或る研究者は、前述の作戦を使ってサーチから管理可能なリファレンス・リストを決定することに成功することがあるけれども、この成功は、通常は、過度の量のサーチ時間を費やした後に得られるものである。別の研究者は、サイトをサーチする間に意欲をなくしてしまい、結局、わずかな成果でもってサーチを放棄することになる。もう１つの不利な点は、ユーザが、所与のソースの妥当性及び正確性を保証されるために複数のオンライン・ソースをクロス・リファレンスしなければならないということである。また、それらのリファレンスを見て何らかの二次的リファレンスを調べるとき、どのリファレンスが見られたか、どれが見られなかったか、及びどのリファレンスが有意味な情報を含んでいたかを追跡することが難しいことがある。その結果、ユーザは、ウェブ・ページを何回も見る傾向があり、それは、非効率的なネットワーク帯域幅の使用及び更なる浪費時間に通じるものである。結局、一般的なサーチ・エンジンを介して識別された極めて多数のオンライン・ソースを最小にするためには、照会は、クリティカルな情報が排除されるように細かく調整されなければならないことが多い。

サーチ・エンジンによって生成されるオンライン・ソースのリストを制限しようとする数多くの解決方法が提案されてきた。例えば、１つの技法は、ユーザがユーザ定義のプラグイン・プログラムを通して既存のサーチ・エンジンの行動をカスタマイズすることを可能にするためのものである。別の技法は、高度に構造化され正規化されたデータベースから有望な分類を抽出するためには統計的帰納法の結論に依存する。更に別の技法は、事前定義されたフィルタ及び調整されたニューラル・ネットワークを使用して情報ソースの有効なリストを生じさせようとするものである。しかし、これまでに提案された解決方法は、返送された潜在的サイトのリストを改良することに焦点を合わせている。ユーザは、依然として、所望の情報を得る前に無数の情報ソースを繰り返しブラウズしなければならない。

本発明の課題は、通信ネットワーク内にある情報ソースをサーチし、その情報をリサーチ・モデル及び（又は）リサーチ・レポートとして提示する（present）方法を提供することである。特に、本発明は、所定の及びユーザ定義のコンフィギュレーション・アトリビュートに従って種々のソースをサーチすることを可能にするものもある。その結果は、オリジナル照会のドメインを表すリサーチ・モデルを定型化するために結合され、分析され得る。そのリサーチ・モデルから、更なる再帰的サブ照会の基本を形成するデータ・リレーションシップ（relationships）が決定され得る。それの結果は、リサーチ・モデルに組み込まれ得る。そのリサーチ・モデルから、リサーチ・レポートが生成され得る。本発明は、決定された照会結果からコンテンツを生成し得る自動リサーチ・ツールを提供する。その結果として得られるリサーチ・モデル及びリサーチ・レポートは、ユーザが通信ネットワークを介して種々の情報ソースを手操作で見る必要をなくする実体的な情報を提供できる。

本発明の１つの局面は、ネットワークを介したデータ検索及びプレゼンテーションの方法を含み得る。その方法は、問い合わせ（inquiry）を受け取ったことに応答して、コンフィギュレーション・アトリビュート及びその問い合わせによって指定された１つ以上のサーチ・エンジンを照会するステップを含み得る。例えば、コンフィギュレーション・アトリビュートは、サーチ・エンジンのリスト及びそれらサーチ・エンジンの各々と関連した照会プロトコルを指定し得る。従って、その照会ステップは、問い合わせをサーチ・エンジンの各々と関連したフォーマットに変換するステップを含み得る。その変換ステップは、電子ディクショナリ及び（又は）電子シソーラスによって指定された更なるサーチ・タームを含むように問い合わせを拡張することを含み得る。

その照会からのリファレンスがサーチ・エンジンから受け取られ得る。種々のサーチ・エンジンからの照会がリサーチ・ルールに従って処理され得る。例えば、サーチ・エンジンの各々からのリファレンスがマージされ、重複した結果が排除され得る。リサーチ・ルールによって指定された優先順位付け階層に従って、リファレンスが優先順位付けされ得る。リファレンスのコピーが検索され、その結果からテキストが抽出され得る。例えば、いずれのフォーマッティング及び（又は）タグも検索されたリファレンスから剥奪され、リファレンスの関連テキストのパッセージ（passage）が決定され得る。決定された関連テキストのパッセージ相互間のリレーションシップが分類され得る。また、関連テキストのパッセージがドメイン・タイプ及びドメイン・サブタイプに構文解析され得る。特に、関連テキストのパッセージ内における種々のアソシエーション（association）が識別され得る。例えば、頭字語、構文変形体（syntacticvariant）、同義語、意味変形体（semantic variant）、及びドメイン・アソシエーションのようなのようなアソシエーションが識別され得る。前述のアソシエーションのいずれかを使用して、サーチ・エンジンが再帰的に照会され得る。

リサーチ・モデルは処理された結果から生成され得る。例えば、リサーチ・モデルを表すリレーショナル・グラフが生成され得る。リレーショナル・グラフは、各ノードがコンセプト・タームを指定するという階層的に順序付けられたノードを含み得る。アトリビュートを含み得るノードは、それらノード間のリレーションシップを指定するリンクによって相互接続され得る。

特に、リサーチ・ルールによって指定されたデータ・パターンがリレーショナル・グラフ内で識別され得る。サーチ・エンジンが、識別されたデータ・パターンの発生のために再帰的に照会され得る。このサーチからの結果がリレーショナル・グラフに組み込まれ得る。リサーチ・レポートがリサーチ・モデルから生成され得る。リサーチ・レポートは、リサーチ・モデルの可視的表示及びリサーチ・モデルのドメインを指定する分類法を指定し得る。更に、リサーチ・レポートは、キー・コンセプトに関するテキスト記述の１つ以上のセット及びリサーチ・モデルを生成する場合に使用されるリファレンスに対する引用文（citation）を指定する。

本願において開示される発明は、通信ネットワーク内の情報ソースをサーチし、情報をコヒーレントな態様で提示するための方法を提供する。更に詳しく言えば、ユーザ定義のコンフィギュレーション・アトリビュートに従って、種々のソースがサーチされ得る。サーチ・プロセスの結果が結合及び分析され、オリジナル照会のドメインを表すリサーチ・モデルを定型化し得る。リサーチ・モデルから、更なる再帰的サブ照会の基本を形成し得るデータ・リレーションシップが決定され得る。それの結果がリサーチ・モデルに組み込まれ得る。リサーチ・モデルの種々の局面を要約したリサーチ・レポートが生成され得る。

図１は、本願で開示される発明の構成に従って、自動リサーチ・システム１００の一実施例を示す高レベルのブロック図である。図１に示されるように、システム１００は、１つ以上のデータ・ストア１１５、１２０、１２５、及び１３０、並びに１つ以上のサーチ・エンジン１３５に通信可能にリンクされたリサーチ・エンジン１０５を含み得る。リサーチ・エンジン１０５は、ユーザ、或いは自動又は半自動プロセス及び（又は）コンポーネントから問い合わせ１４０を受け取るように構成され得る。問い合わせは、キーワードを使用するブール・サーチ、自然言語サーチ、又はそれらの結合したものとして指定され得る。問い合わせ１４０が指定される特定の態様は、リサーチ・エンジン１０５がその問い合わせ１４０を解釈し得る限り変更可能である。

リサーチ・エンジン１０５は、データベース、インターネット・サイト、ウェブ・ページ又は他の任意のサーチ可能な且つネットワーク・アクセス可能なドキュメントをサーチするために、受け取った問い合わせ１４０を、指定されたサーチ・エンジン１３５によって利用される種々の異なる任意のフォーマットに変換し得る。リサーチ・エンジン１０５は、その受け取った問い合わせ１４０を処理し、各々が１つの指定されたサーチ・エンジン１３５に対応するフォーマットを有する１つ以上の照会にその問い合わせを変換し得る。変換された各照会１１０は、その変換された照会が意図したサーチ・エンジン１３５に供給され得る。種々のサーチ・エンジン１３５から受け取られたリファレンスは、リサーチ・モデル１４５及び付属のリサーチ・レポート１５０を決定するために処理又は構文解析され得る。

種々のデータ・ストア１１５−１３０は、受け取った問い合わせ及び受け取った照会結果を処理するために使用され得るコンフィギュレーション・アトリビュートを指定する。コンフィギュレーション・アトリビュートは、事前構成されたデータ及びユーザ構成のデータを含み得る。例えば、ディクショナリ・データ・ストア１１５は、種々の標準化された主題ドメインのための事前定義されたタームを含み得る。更に、ユーザは、その問い合わせをする個人又は組織のサーチ又はリサーチの要求に対応した特定のドメインに従って必要とするタームを追加、削除、及び（又は）編集し得る。従って、ディクショナリ・データ・ストア１１５は、関連するターム及び（又は）ドメインを指定する用語及び定義を含み得る。シソーラス・データ・ストア１２０は、種々のサーチ・ターム又はディクショナリ定義のタームに対する同義語、及びサーチされるべき特定のドメインに関してユーザにより決定され得る他の変形体（variant）を含み得る。特に、ディクショナリ・データ・ストア及びシソーラス・データ・ストア１１５及び１２０は指定されたサーチ・エンジン１３５を指定し得る。例えば、ディクショナリ・データ・ストア１１５及びシソーラス・データ・ストア１２０内の種々のエントリが、そのエントリによって指定されたタームに関してサーチするときに使用されるべきサーチ・エンジン１３５を指定又はクロス・リファレンスし得る。指定されたサーチ・エンジンは、そのエントリが関連するドメインにより適したものになり得る。

リサーチ・ルール・データ・ストア１２５は、指定されたサーチ・エンジン１３５から得られたサーチ結果の優先順位付けを詳細に示すリサーチ・ルールを含み得る。例えば、リサーチ・ルール・データ・ストア１２５は、特定のサーチ・エンジンに他のサーチ・エンジンよりも高い優先順位を割り当てることができ、リファレンスにおける１つ以上のサーチ・タームの発生頻度に従って所与のユニバーサル・リソース・ロケータ（ＵＲＬ）の優先順位を指定すること等ができる。例えば、或るサーチ・エンジンは所与のリサーチ・タスク又はドメインにとって望ましいことがあり得るし、一方、別のサーチ・エンジンは別のリサーチ・タスク又はドメインにとって望ましいことがあり得る。サーチ・エンジンは種々の方法で情報を収集し、種々の一次目的のために構成されるので、種々のタスクに対するサーチ・エンジンの適性対象を変更する機能が有益となり得る。更に、リサーチ・ルールは、検索されたテキストを構文解析するためのルール、マークアップ言語タグを排除するためのルール、及びキー・リレーションシップを決定するためのルールを指定することができる。これらのルールは、図２に関連して検討される。

照会プロトコル・データ・ストア１３０は、指定されたサーチ・エンジン１３５をリサーチ・エンジン１０５によってアクセスされるように指定し得る。また、照会プロトコル・データ・ストア１３０は、各指定されたサーチ・エンジン１３５によって使用される特定のプロトコル、構文、及び照会フォーマット（以下では、集合的に「フォーマット」と呼ぶ）を指定することができるのでリサーチ・エンジン１０５は、問い合わせ１４０を、リサーチ・エンジン１０５によって決定された指定のサーチ・エンジン１３５に向けられた１つ以上の他の照会に変換することが可能である。例えば、或るサーチ・エンジン１３５はブール・ロジックとリンクされた個別のキー・タームを指定する照会を必要とすることがあり得るし、一方、データベースをサーチするための別のサーチ・エンジン１３５は、構造化照会言語（ＳＱＬ）、ライトウェート・ディレクトリ・アクセス・プロトコル（ＬＤＡＰ）、又は他のプロプライエタリ・フォーマットを使用して照会を指定することを必要とすることがあり得る。したがって、照会プロトコル・データ・ストア１３０は、受け取った問い合わせ１４０を１つ以上の他の照会フォーマットに変換するためのルールを含み得る。

図２は、図１のシステムを使用してリサーチを行う方法２００を示すフローチャートである。方法２００は、問い合わせを受け取るステップ２０５において開始し得る。前述のように、問い合わせは、自然言語照会、１つ以上のサーチ・タームを指定するブール・ロジック照会、又はそれらの任意の結合であってもよい。ステップ２１０において、リサーチ・エンジンが、受け取った問い合わせを処理する。例えば、その問い合わせは、キーワード、サーチ・ターム、及びブール演算子を識別するために構文解析され得る。照会が自然言語の問い合わせである場合、その言語は、サーチ・タームを適切に識別するために及びその問い合わせの主題又はドメインに関係のないワードを廃棄するために文法的に構文解析され得る。

ステップ２１５において、リサーチ・エンジンは、関連のリサーチ・モデルが存在するかどうかを決定し得る。更に詳しく言えば、ステップ２１０において識別されたサーチ・ターム及び演算子を使用して、既存のサーチ・モデルのドメイン・タイプ及び（又は）サブタイプがサーチ・タームのような何らかの共通情報を含むかどうかを決定するために、サーチ・エンジンは、前に決定されたリサーチ・モデルを調べることができる。この決定は、ディクショナリ・データ・ストア及びシソーラス・データ・ストアに関して行われる。即ち、既存のリサーチ・モデルに対するサーチは、ディクショナリ・データ・ストア及び（又は）シソーラス・データ・ストアによって指定された、同義語のターム又は問い合わせのタームに関連したタームを含むように拡張され得る。したがって、問い合わせは既存のリサーチ・モデルと同じ用語を含まないことがあるけれども、リサーチ・エンジンは、ディクショナリ・データ・ストア及びシソーラス・データ・ストアを使用してリサーチ・モデルの用語と問い合わせの用語とクロス・リファレンスすることによって、関連のリサーチ・モデルを識別することができる。ディクショナリ・データ・ストア及びシソーラス・データ・ストアが所定の情報及びユーザ構成の情報の両方を含み得るので、問い合わせ及びリサーチ・モデルの間に間接的リレーションシップしか存在しなくても、サーチ・エンジンが問い合わせと既存のリサーチ・モデルとの間のリレーションシップを識別できるように、ユーザはタームとドメインとの間のリレーションシップを指定し得る。

１つ以上の既存のリサーチ・モデルが、受け取った問い合わせとのアソシエーションを有するということがわかった場合、この方法はステップ２２０に継続し得る。ステップ２２０では、識別されたリサーチ・モデルが、新たなリサーチ・モデルを生成するための種又は基本として使用され得る。更に詳しく言えば、識別されたリサーチ・モデルからのアトリビュートが、図２に関連して説明されるステップと結合して、ベースライン・モデルとして使用され得る。例えば、インターネット・サイト、サーチ・エンジン、及び（又は）既存のリサーチ・モデルにおいて使用されたウェブ・ページは、関連のリサーチ・モデルがまったく識別されなかった場合よりも高い優先順位を与えられ得る。同様に、ドメイン・タイプ、ドメイン・サブタイプ、及び既存のリサーチ・モデルのテキスト・パッセージの間の前に識別されたリレーションシップがリサーチ・エンジンによって再検査され得るし、更に詳細に説明される再帰的サーチにおいて使用され得る。ステップ２２０の後、この方法はステップ２３０に進み得る。

しかし、その問い合わせに関連した既存のリサーチ・モデルがまったくない場合、この方法はステップ２２５に進み得る。そこで、新たなリサーチ・モデルが初期設定される。ステップ２３０において、リサーチ・エンジンがコンフィギュレーション・アトリビュートを読み取り得る。例えば、リサーチ・エンジンは、ディクショナリ・データ・ストア及びシソーラス・データ・ストアをアクセスして、問い合わせにおいて指定されたものに対して別のサーチ・タームおよびフレーズを識別し得る。したがって、リサーチ・エンジンは、ユーザが過度に大きい或いは複雑な問い合わせを指定することを必要とせずに、同義のターム、関係あるターム、及び（又は）深い関連のタームを包含するように問い合わせの範囲を拡大し得る。ディクショナリ・データ・ストア及びシソーラス・データ・ストアはそのエントリの主題に適する指定されたサーチ・エンジンに対するリファレンスを含み得るので、リサーチ・エンジンは、更に、その拡大された問い合わせに応答してサーチされるそれらのサーチ・ターゲット・エンジンを識別し得る。更に、ターゲット・サーチ・エンジンがリサーチ・ルール・データ・ストアによって指定され得ることは明らかである。

ステップ２３５において、リサーチ・エンジンが、初期の問い合わせに基づいて照会を生成し、送り得る。リサーチ・エンジンは、照会プロトコル・データ・ストアのルールをアクセスして、ターゲット・サーチ・エンジンと関連した照会フォーマットを決定し得る。したがって、リサーチ・エンジンは、受け取った問い合わせを、ターゲット・サーチ・エンジンに向けられるよう１つ以上の照会に変換し得る。このようにして、その結果生じる各照会は、その照会が向けられる特定のサーチ・エンジンによって必要とされるフォーマットを適応させ得る。

ステップ２４０において、種々のターゲット・サーチ・エンジンの結果がリサーチ・エンジンによって受け取られ得る。例えば、ターゲット・サーチ・エンジンの各々から、リサーチ・エンジンは、供給された照会に応答してリファレンスのリストを受け取り得る。ステップ２４５において、その受け取られたリファレンスは、処理され、優先順位付けされ得る。例えば、リサーチ・エンジンは、ＵＲＬの種々のリストを単一のリストにマージし、重複したＵＲＬを排除し、リサーチ・ルールによって指定された優先順位付け階層にしたがって残りのリストを優先順位付けし得る。

ステップ２５０において、処理されたリファレンスのリストによって指定されたリファレンスのコピーが検索され得る。検索されたリファレンスのテキストが、すべてのフォーマット・タグ又は他の組み込まれたドキュメント・オーバヘッドを除去することによって抽出され得る。例えば、テキストのすべての可視的フォーマット化、データのコンテンツ・ラベル付け、又は他のデータ注釈付けが、検索されたリファレンスから除去され得る。その結果生じたテキストは、一連の優先順位付けされた記事としてキューされ得る。したがって、ステップ２５５において、リサーチ・エンジンがその優先順位付けされた記事の実質的分析を開始し得る。更に詳しく言えば、各記事のテキストは、関連あるパッセージを識別するために構文解析され得る。例えば、テキストが、オリジナルの問い合わせターム、前のリサーチ結果又はモデルを介して関連あるものとして識別された他のターム、オリジナル問い合わせタームの同義語、及び問い合わせタームの言語学上の変形体を含むパッセージに関してサーチされ得る。

説明において、問い合わせがターム「たんぱく質」を指定した場合、そのターム「たんぱく質」に明確に言及したパッセージが最も関連あるものとしてタグ付けされ得る。「浸透性のない（osmophobic）」又は「熱力学的な（thermodynamic）」というタームに言及した他のテキスト・パッケージは、ターム「たんぱく質」に関連してそれらのタームを指定する他の関連リサーチ・モデルが存在するために、関連深いものとしてタグ付けされ得る。「有機化合物」が「たんぱく質」の同義語であることをシソーラス・データ・ストアが指定する場合、「有機化合物」に言及したテキスト・メッセージが関連深いものとしてタグ付けされ得る。更に、識別されたタームの所与の範囲内で見つかった「it」又は「they」のような言語学的な変形体が、関連深いものとしてタグ付けされ得る。リサーチ・エンジンは、識別されたタームを囲むテキストを、それがセンテンス、パラグラフ、又はページであろうと、抽出して記憶し得る。抽出されたテキストは、そのテキストの原点を参照する引用文に加えて記憶され得る。非関連のパッセージは廃棄され得る。

ステップ２６０において、リサーチ・エンジンがその抽出された情報を文法的に構文解析し得る。主題のタームは、開発中のリサーチ・モデル内のドメイン・タイプとみなされ得る。修飾された主題のタイプは、リサーチ・モデル内のドメイン・サブタイプとみなされ得る。フィルタ・ルール又は無視し得るワード・リストを通して指定され得る重要でないタームはフィルタされるか、或いはテキストから除去され得る。前の例を続けると、ターム「たんぱく質」は、主題として、したがってドメイン・タイプとして識別され得る。修飾語を含む「細胞内（intracellular）たんぱく質」及び「変質した（denatured）たんぱく質」のようなタームは、ドメイン・サブタイプとして識別され得る。

別の例を挙げると、テキスト・パッセージ「．．．有機オズモライトは環境ストレスの変質を一般に生じるのと引き換えに細胞内たんぱく質を安定化する能力を有する．．．（...organic osmolytes have the ability to stabilize intracellularproteins against commonly denaturing environmental stresses...）」が識別された場合、リサーチ・エンジンはそのテキスト・パッケージを構文解析し、いくつかのリレーションシップを決定し得る。ターム「オズモライト（osmolyte）」、「たんぱく質（protein）」、及び「ストレス（stress）」は、ドメイン・タイプとして識別され得る。ターム「有機オズモリテ（organicosmolyte）」、「細胞内たんぱく質（intracellular）」、及び「環境ストレス(environmental stress)」はドメイン・サブタイプとして識別され得る。

ステップ２６５において、キー・リレーションシップが決定され得る。リサーチ・ルール・データ・ストアにおけるリサーチ・ルールは、抽出されたテキストにおいてリサーチ・エンジンがサーチし得る種々のワード・リレーションシップを指定し得る。例えば、リサーチ・エンジンは抽出されたテキストを構文解析して次のようなリレーションシップを識別し得る：
（ａ）フォーム「ｘがｙである（x is a y）」の変形体に基づいたドメイン・タイプ／サブタイプ・リレーションシップ、
（ｂ）フォーム「ｘがｙを有する（x has a y）」の変形体に基づいた所有リレーションシップ、
（ｃ）フォーム「ｘがｙの原因になる（x causes y）」の変形体に基づいた原因リレーションシップ、
（ｄ）フォーム「ｘがｙに特徴付けられる（x is attributed to y）」の変形体に基づいた属性リレーションシップ、
（ｅ）フォーム「ｘがｙにおいて生じる（x occurs at y）」の変形体に基づいた時間空間リレーションシップ、
（ｆ）ユーザ構成のルールに基づいた付加的カスタム・リレーションシップ。
したがって、例示のテキスト「．．．有機オズモライトは環境ストレスの変質を一般に生じるのと引き換えに細胞内たんぱく質を安定化する能力を有する．．．．」では、リサーチ・エンジンは、「有機オズモライト」の１つのアトリビュートは、環境ストレスの変質を一般に生じるのと引き換えに細胞内たんぱく質を安定する能力であるということを決定し得る。なお、その能力は、「能力（安定化する（stabilize）、細胞内たんぱく質（intracellular protein）、環境ストレスの変質（denaturingenvironmental stress））」として指定され得る。

特に、リサーチ・ルールは、更に、頭字語、構文変形体、同義語、意味変形体、及びドメイン・アソシエーションを含むがそれに限定されないテキスト・パッセージ内に特定のワード及び（又は）テキスト・アソシエーションが存在する場合、行動方針を指定し得る。例えば、リサーチ・ルールは、サーチが、その結果として生じるリサーチ・モデル及びリサーチ・レポートが頭字語に関する情報を含むように、各識別された頭字語に対して開始されるべきであることを指定し得る。頭字語は、文法上のルールを使用してすべて大文字におけるタームを識別することによって、及び（又は）ディクショナリ・データ・ストア及び（又は）シソーラス・データ・ストア内のタームを指定することによって、識別され得る。

関連のテキスト・パッセージ内で識別された上記のワード及び（又は）テキスト・アソシエーションの各々は、新たに決定されたサーチ結果内で再帰的に識別され得るし、更なる情報を累進的に獲得するために種々のサーチ・エンジンに再帰的に提起され得る。もう１つの例を挙げると、Ａ、Ｃ、Ｔ、及びＧが関連のタームであることを、「ＤＮＡ」に対するオリジナル照会が見つけ得る。「Ａ」がアデニン（Adenine）を略書きした構文変形体であること、アデニン及びグアニン（Guanine）が共にプリン（Purine）であること、プリン及びピリミジン（Pyrimidine）が共に窒素ベースのヌクレオチド（nucleotide）であること、ヌクレオチドがカーボン・シュガー（carbonsugar）と接着し得ること等を、リサーチ・ルールによって案内された付加的サーチが表し得る。この例では、システムが更なる事実を累進的に獲得するために、アデニン、プリン、ヌクレオチド、及び炭素に対する照会を再帰的に提示する．

ステップ２７０において、キー・リレーションシップ並びにドメイン・タイプ及びサブタイプを識別すると、問い合わせの結果として見つかった情報を要約するためにリサーチ・モデルが生成され得る。リサーチ・モデルは、ドメイン・タイプを表すノードがそのドメイン・タイプの周りにクラスタしたチャイルド・ノードとリンクされるリレーショナル・グラフとして定型化され得る。チャイルド・ノードはドメイン・サブタイプを表す。それらのノードの各々は、それがドメイン・タイプであろうが或いはドメイン・サブタイプであろうが、１つ以上のアトリビュートを含み得る。まれにしか生じないいずれの偶発的なタームもリサーチ・モデルから取り除かれ得る。従って、その結果生じたドメイン・タイプ及びドメイン・サブタイプのクラスタが、一般的なコンセプト及びより特定的なコンセプトの間の階層を表すことになる。

ステップ２７５において、リサーチ・エンジンは、リサーチ・モデルを分析してリサーチ・モデル内のパターンを識別し得る。リサーチ・ルールは、そのリサーチ・モデルに関連した特定のリレーションシップを指定し得る。例えば、リサーチ・ルールは、或るコンセプト内で同時に発生したアトリビュートがピア・コンセプトに関連し得ること、共通のアトリビュートを共用するコンセプトが潜在的に重要なクラスタを形成し得ること、クラスタを相互に排他的なサブセットに分けるリレーションシップが潜在的に重要であること、別個のクラスタ間の共通部を生成するリレーションシップが潜在的に重要であることを表示し得る。リサーチ・エンジンは、リサーチ・ルールをリサーチ・モデルに適用し、更なるサブ照会を定型化してターゲット・サーチ・エンジンを提供し得る。例えば、サブ照会は、ドメイン・タイプ、ドメイン・サブタイプ、並びにリサーチ・ルール及びリレーショナル・グラフから決定されたアトリビュートのようなサーチ・タームの新たな結合を指定し得る。

例示的なパターン・ルールは、「タイプＸがアトリビュートＹを有する場合、Ｙのアトリビュートを有する他のタイプに関してサーチする」及び「タイプＸがアトリビュートＹを有する場合、Ｙに対する代替値を有するアトリビュートＹを持ったＸに関してサーチする」を含み得る。前の例を継続すると、例示パターン・ルールの実行は、「細胞内たんぱく質を安定化する能力を共用する有機オズモライトのような他のアイテムがあるか」及び「有機オズモライトが細胞内たんぱく質以外の他の素子を安定化できるか」のようなサブ照会を生成し得る。サブ照会の結果は既存のリサーチ・モデル内に組み込まれ得る。

その決定されたリサーチ・モデルは、ステップ２８０においてユーザに提示され得る。ステップ２８５において、リサーチ・モデルを受け入れるために、リジェクトするために、及び（又は）編集するために、１つ以上のユーザ・入力が受け取られ得る。例えば、ユーザは、リサーチ・モデルに素子を加えること、リサーチ・モデルから素子を削除すること、及び（又は）リサーチ・モデルのコンテンツを再配列することができる。一旦、そのモデルがユーザによって受け入れられると、その方法はステップ２８５に継続し、すべての受け取られた編集がリサーチ・モデルに組み込まれ得る。ステップ２９０において、リサーチ・エンジンがリサーチ・レポートを生成し、そのリサーチ・レポートをユーザに提供し得る。リサーチ・レポートは、リサーチ・モデルのリレーショナル・グラフ、リサーチ・モデルのドメインを概略する分類法（taxonomy）、キー・コンセプト、アトリビュート、及びリレーションシップのテキスト記述、並びに派生した結果をオリジナル・ソース・ドキュメントにリンクする引用文を含み得る。その結果生じたリサーチ・モデル及びリサーチ・レポートがその後の使用のために記憶され得る。

図３は、本願で開示された本発明の構成に従って例示的リサーチ・レポート３００を示す概略図である。リサーチ・レポート３００は４つの主要セクションを含み得る。セクション３０５は、リサーチ・レポートのリサーチ・モデル（又は、ドメイン・モデル）部分を示すリレーショナル・グラフである。図示のように、セクション３０５は、ドメイン・サブタイプ・ノードによって囲まれたセントラル・ドメイン・タイプの幾つものクラスタを含む。具体的なドメイン・モデルからの抜粋が図４に示される。

セクション３１０は、リサーチ・レポートの分類法セクションである。分類法セクションは、ドメイン・タイプ及びドメイン・サブタイプの再帰リストである。その場合、サブタイプは、連続したキーワードの任意のパターンであり、キーワードは、頻繁に生じる名詞である。従って、セクション３１０は、ドメイン・タイプの各々によって指定されたタームを含み得る。ドメイン・タイプと関連した各ドメイン・サブタイプによって指定されたタームがそれに続く。ターム「オズモライト」に対する分類法の例は、オズモライトを保護する「有機オズモライト」及び非保護オズモライトである。例示的な分類法セクションが表１に示される。「分類法（Taxonomy）」見だしの下にリストされた各黒丸印の付いた太字体のタームがセントラル・ドメイン・タイプに対応し得る。各セントラル・ドメイン・タイプに続くタームは、ドメイン・サブタイプに対応したノードＡ、Ｂ、Ｃ等（図３）に対応し得る。

セクション３１５は、リサーチ・レポートのキー・リレーションシップ・セクションである。セクション３１５は、キー・リレーションシップ構文解析ステップからの関連すると思われる抽出されたテキストの部分を含み得る。特に、キー・リレーションシップ・ルールによって指定されたすべてのタームが強調表示され得るし、テキスト部分に対する見出しとしても使用され得る。表１には、例示的な略記された「キー・リレーションシップ（Key Relationships）」セクションも示される。そのキー・リレーションシップ・セクションは、セントラル・ドメイン・タイプのすべてでなくても１つ以上に対応する種々の識別されたリファレンスから抽出されたテキストの部分を含み得る。最後に、リサーチ・レポートのセクション３２０は、リサーチ・エンジンによって利用される種々のリファレンスに対する引用文をリストした文献セクションであってもよい。

本発明は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせにおいて実現され得る。本発明は、１つのコンピュータ・システムにおいて集中態様で、又は種々の素子が幾つもの相互接続されたコンピュータ・システムに配置された分散態様で実現され得る。本願で開示された方法を実行するように適応した任意の種類のコンピュータ・システム又は他の装置が適している。ハートウェア及びソフトウェアの典型的な組み合わせは、ロードされそして実行されるとき、本願で開示された方法を遂行するようにコンピュータ・システムを制御するコンピュータ・プログラムを有する汎用コンピュータ・システムであってもよい。

更に、本発明は、本願で開示された方法の実装を可能にするすべてのフィーチャを含み、コンピュータ・システムにロードされたときにこれらの方法を実行することができるコンピュータ・プログラム製品に組み込まれ得る。本願におけるコンピュータ・プログラムは、情報処理能力を持ったシステムに特定の機能を、直接に又は下記の動作、即ち、
（ａ）他の言語、コード、又は表記法への変換；
（ｂ）異なるマテリアル・フォームにおける再生
の１つ又は両方の後に、遂行させることを意図した一連の命令を任意の言語、コード、又は表記法における任意の表現を意味する。本発明の機能を実行するためのコンピュータ・プログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ハード・ディスク装置、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。かかるコンピュータ・プログラムは、記録媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の記録媒体から複製したりすることができる。また、かかるコンピュータ・プログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。

本発明は、本発明の精神又は本質的な属性から逸脱することなく他の形式で具体化され得る。従って、本発明の範囲を表すものとして、本願の特許請求の範囲が参照されるべきである。

まとめとして、本発明の構成に関して以下の事項を開示する。

（１）ネットワークを介してデータを検索及び提示する方法であって、
問い合わせを受けたことに応答して、コンフィギュレーション・アトリビュート及び前記問い合わせによって指定された前記ネットワークにおける少なくとも１つのサーチ・エンジンに照会を行うステップと、
前記少なくとも１つのサーチ・エンジンからリファレンスを受け取るステップと、
リサーチ・ルールに従って前記リファレンスを処理するステップと、
前記処理されたリファレンスからリサーチ・モデルを生成するステップと、
を含む方法。
（２）前記コンフィギュレーション・アトリビュートは前記サーチ・エンジンのリスト及び前記サーチ・エンジンの各々に関連した照会プロトコルを指定し、
前記照会を行うステップは、更に、前記少なくとも１つのサーチ・エンジンの各々に関連したフォーマットに前記問い合わせを変換するステップを含む、上記（１）に記載の方法。
（３）前記変換するステップは、更に、電子ディクショナリ及び電子シソーラスの少なくとも１つによって指定された付加的なサーチ・タームを含むように前記問い合わせを拡張するステップを含む、上記（２）に記載の方法。
（４）前記処理するステップは、更に、
前記サーチ・エンジンの各々からの前記リファレンスをマージするステップと、
重複したリファレンスを排除するステップと、
を含む、上記（１）に記載の方法。
（５）前記処理するステップは、更に、前記リサーチ・ルールによって指定された優先順位付け階層に従って前記リファレンスを優先順位付けするステップを含む、上記（４）に記載の方法。
（６）前記処理するステップは、更に、前記リファレンスのコピーを検索するステップを含む、上記（５）に記載の方法。
（７）前記処理するステップは、更に、
前記リファレンスからテキストを抽出するステップと、
前記抽出されたテキストの関連テキスト・パッセージを決定するステップと、
を含む、上記（６）に記載の方法。
（８）前記処理するステップは、更に、
頭字語、構文変形体、同義語、意味変形体及びドメイン・アソシエーションを含むグループから選択された前記関連テキスト・パッセージ内のアソシエーションを識別するステップと、
前記識別されたアソシエーションを使用して前記サーチ・エンジンを再帰的に照会するステップと、
を含む、上記（７）に記載の方法。
（９）前記処理するステップは、更に、前記関連テキスト・パッセージ相互間のリレーションシップを分類するステップを含む、上記（７）に記載の方法。
（１０）前記処理するステップは、更に、前記関連テキスト・パッセージを構文解析してドメイン・タイプ及びドメイン・サブタイプにするステップを含む、上記（７）に記載の方法。
（１１）前記リサーチ・モデルを生成するステップは、階層的に順序付けられたノードを有するリレーショナル・グラフを生成するステップを含み、
各ノードはコンセプト・タームを指定し、
前記ノードはアトリビュートを有し、前記ノード間のリレーションシップを指定するリンクと相互接続される、上記（１）に記載の方法。
（１２）前記リサーチ・ルールに従って前記リレーショナル・グラフ内のデータ・パターンを識別するステップと、
前記識別されたデータ・パターンの発生のために前記サーチ・エンジンを再帰的に照会するステップと、
前記データ・パターンに対応したサーチ結果を前記リレーショナル・グラフに組み込むステップと、
を更に含む、上記（１１）に記載の方法。
（１３）前記リサーチ・モデルの可視的表示及び前記リサーチ・レポートのドメインを指定する分類法を指定するリサーチ・レポートを生成するステップを更に含む、上記（１１）に記載の方法。
（１４）前記リサーチ・レポートは、更に、キー・コンセプトのテキスト記述及び前記リサーチ・モデルを生成する場合に使用されるリファレンスに対する引用文のセットの少なくとも１つを指定する、上記（１３）に記載の方法。
（１５）マシンによる実行可能な複数のコード・セクションを有し、前記マシンに下記のステップを遂行させるためのコンピュータ・プログラムを記憶したマシン可読記憶装置。
問い合わせを受けたことに応答して、コンフィギュレーション・アトリビュート及び前記問い合わせによって指定された前記ネットワークにおける少なくとも１つのサーチ・エンジンに照会を行うステップと、
前記少なくとも１つのサーチ・エンジンからリファレンスを受け取るステップと、
リサーチ・ルールに従って前記リファレンスを処理するステップと、
前記処理されたリファレンスからリサーチ・モデルを生成するステップ。
（１６）前記コンフィギュレーション・アトリビュートは前記サーチ・エンジンのリスト及び前記サーチ・エンジンの各々に関連した照会プロトコルを指定し、
前記照会を行うステップは、更に、前記少なくとも１つのサーチ・エンジンの各々に関連したフォーマットに前記問い合わせを変換するステップを含む、上記（１５）に記載のマシン可読記憶装置。
（１７）前記変換するステップは、更に、電子ディクショナリ及び電子シソーラスの少なくとも１つによって指定された付加的なサーチ・タームを含むように前記問い合わせを拡張するステップを含む、上記（１６）に記載のマシン可読記憶装置。
（１８）前記処理するステップは、更に、
前記サーチ・エンジンの各々からの前記リファレンスをマージするステップと、
重複したリファレンスを排除するステップと、
を含む、上記（１５）に記載のマシン可読記憶装置。
（１９）前記処理するステップは、更に、前記リサーチ・ルールによって指定された優先順位付け階層に従って前記リファレンスを優先順位付けするステップを含む、上記（１８）に記載のマシン可読記憶装置。
（２０）前記処理するステップは、更に、前記リファレンスのコピーを検索するステップを含む、上記（１９）に記載のマシン可読記憶装置。
（２１）前記処理するステップは、更に、
前記リファレンスからテキストを抽出するステップと、
前記抽出されたテキストの関連テキスト・パッセージを決定するステップと、
を含む、上記（２０）に記載のマシン可読記憶装置。
（２２）前記処理するステップは、更に、
頭字語、構文変形体、同義語、意味変形体及びドメイン・アソシエーションを含むグループから選択された前記関連テキスト・パッセージ内のアソシエーションを識別するステップと、
前記識別されたアソシエーションを使用して前記サーチ・エンジンを再帰的に照会するステップと、
を含む、上記（２１）に記載のマシン可読記憶装置。
（２３）前記処理するステップは、更に、前記関連テキスト・パッセージ相互間のリレーションシップを分類するステップを含む、上記（２１）に記載のマシン可読記憶装置。
（２４）前記処理するステップは、更に、前記関連テキスト・パッセージを構文解析してドメイン・タイプ及びドメイン・サブタイプにするステップを含む、上記（２１）に記載のマシン可読記憶装置。
（２５）前記リサーチ・モデルを生成するステップは、階層的に順序付けられたノードを有するリレーショナル・グラフを生成するステップを含み、
各ノードはコンセプト・タームを指定し、
前記ノードはアトリビュートを有し、前記ノード間のリレーションシップを指定するリンクと相互接続される、上記（１５）に記載のマシン可読記憶装置。
（２６）前記リサーチ・ルールに従って前記リレーショナル・グラフ内のデータ・パターンを識別するステップと、
前記識別されたデータ・パターンの発生のために前記サーチ・エンジンを再帰的に照会するステップと、
前記データ・パターンに対応したサーチ結果を前記リレーショナル・グラフに組み込むステップと、
を更に含む、上記（２５）に記載のマシン可読記憶装置。
（２７）前記リサーチ・モデルの可視的表示及び前記リサーチ・モデルのドメインを指定する分類法を指定するリサーチ・レポートを生成するステップを更に含む、上記（２５）に記載のマシン可読記憶装置。
（２８）前記リサーチ・レポートは、更に、キー・コンセプトのテキスト記述及び前記リサーチ・モデルを生成する場合に使用されるリファレンスに対する引用文のセットの少なくとも１つを指定する、上記（２７）に記載のマシン可読記憶装置。

本発明の構成に従って自動リサーチ・システムの一実施例を示す高レベルのブロック図である。図１のシステムを使用してリサーチを行う方法を示すフローチャートである。本発明の構成に従って例示的なリサーチ・レポートを示す概略図である。図３のセクション３０５におけるドメイン・モデルの具体的な例を示す概略図である。

Claims

コンピュータに下記のステップを遂行させるためのコンピュータ・プログラムを有するコンピュータ・システムであって、前記コンピュータ・プログラムは、
問い合わせを受けたことに応答して、問い合わせ内容ごとに使用されるべきサーチ・エンジンを指定する情報を含む予めデータ・ストアに格納された情報であるコンフィギュレーション・アトリビュート及び前記問い合わせによって指定されたネットワークにおける少なくとも１つのサーチ・エンジンに照会を行うステップと、
前記少なくとも１つのサーチ・エンジンからリファレンスを受け取るステップと、
リサーチ・ルール・データ・ストアから取り出したサーチ結果の優先順位付けを示すルールを含むリサーチ・ルールに従って前記リファレンスを処理するステップ、
を実行させるコンピュータ・プログラムであって、
前記処理するステップは、
前記リサーチ・ルールによって指定された優先順位付け階層に従って前記リファレンスを優先順位付けするステップと、
前記優先順位に従って、前記リファレンスからテキストを抽出するステップと、
前記抽出されたテキストの前記問合せに関連する関連テキスト・パッセージを決定するステップと、
前記関連テキスト・パッセージを構文解析して、主題タームをドメイン・タイプ及び、修飾された主題タームをドメイン・サブタイプにするとともに、前記主題タームの属性を後の再帰的照会に利用し得るように決定するステップと、
を含み、
更に、前記コンピュータ・プログラムは、
前記処理するステップにより処理されたリファレンスから、前記ドメイン・タイプを表すノードがそのドメイン・タイプの周りにクラスタした前記ドメイン・サブタイプを表すチャイルド・ノードとリンクされるリレーショナル・グラフとして定型化されたリサーチ・モデルを生成するステップをも実行させるコンピュータ・プログラムである、
コンピュータ・システム。
前記コンフィギュレーション・アトリビュートは前記サーチ・エンジンのリスト及び前記サーチ・エンジンの各々に関連した照会プロトコルを指定し、
前記照会を行うステップは、更に、前記少なくとも１つのサーチ・エンジンの各々に関連したフォーマットに前記問い合わせを変換するステップを含む、請求項１に記載のコンピュータ・システム。
前記変換するステップは、更に、電子ディクショナリ及び電子シソーラスの少なくとも１つによって指定された付加的なサーチ・タームを含むように前記問い合わせを拡張するステップを含む、請求項２に記載のコンピュータ・システム。
前記処理するステップは、更に、
前記サーチ・エンジンの各々からの前記リファレンスをマージするステップと、
重複したリファレンスを排除するステップと、
を含む、請求項１に記載のコンピュータ・システム。
前記処理するステップは、更に、前記リファレンスのコピーを検索するステップを含む、請求項１に記載のコンピュータ・システム。
前記処理するステップは、更に、
頭字語、構文変形体、同義語、意味変形体及びドメイン・アソシエーションを含むグループから選択された前記関連テキスト・パッセージ内のアソシエーションを識別するステップと、
前記識別されたアソシエーションを使用して前記サーチ・エンジンを再帰的に照会するステップと、
を含む、請求項１に記載のコンピュータ・システム。
前記処理するステップは、更に、前記関連テキスト・パッセージ相互間のリレーションシップを分類するステップを含む、請求項１に記載のコンピュータ・システム。
前記リサーチ・ルールに従って前記リレーショナル・グラフ内のデータ・パターンを識別するステップと、
前記識別されたデータ・パターンの発生のために前記サーチ・エンジンを再帰的に照会するステップと、
前記データ・パターンに対応したサーチ結果を前記リレーショナル・グラフに組み込むステップと、
を更に含む、請求項１に記載のコンピュータ・システム。
前記リサーチ・モデルの可視的表示及び前記リサーチ・モデルのドメインを指定する分類法を指定するリサーチ・レポートを生成するステップを更に含む、請求項１に記載のコンピュータ・システム。
前記リサーチ・レポートは、更に、キー・コンセプトのテキスト記述及び前記リサーチ・モデルを生成する場合に使用されるリファレンスに対する引用文のセットの少なくとも１つを指定する、請求項９に記載のコンピュータ・システム。