JP2002297651A

JP2002297651A - 情報検索方法、情報検索システム、およびプログラム

Info

Publication number: JP2002297651A
Application number: JP2002007403A
Authority: JP
Inventors: Ajikutain Yabujenii; アジクタインヤブジェニー; Robert Lawrence Stephen; ロバートローレンスステファン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-03-30
Filing date: 2002-01-16
Publication date: 2002-10-11
Anticipated expiration: 2022-01-16
Also published as: JP3719415B2; US20020169595A1; US7269545B2

Abstract

(57)【要約】【課題】利用者が提示した質問の最適な問い合わせへ
の変換を自動的に学習することのできる情報検索方法を
提供する。【解決手段】利用者が提示した質問に対する回答を予
め蓄積された情報から検索する情報検索方法において、
上記質問および回答を収集して学習データを作成するこ
とと、上記学習データ中の質問を所定のカテゴリー別に
識別する１組の質問フレーズを生成することと（１
０）、上記１組の質問フレーズのそれぞれのフレーズに
対して、上記学習データ中の回答から変換候補を生成す
ることと（２０）、上記変換候補のそれぞれに対して、
上記学習データ中の回答における出現頻度の度合に応じ
た重みを付けることと、上記変換候補のそれぞれを、上
記重みに基づいて順位付けすることとを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、利用者の質問に対
する回答を大量に蓄えられたデータ（情報）から検索す
る方法およびシステムに関し、特に、検索処理に自然言
語処理を利用する情報検索方法および情報検索システム
に関する。さらには、本発明はそのような情報検索を実
現するプログラムに関する。

【０００２】

【従来の技術】インターネットの普及に伴い、利用者は
インターネットを介して種々の情報（ニュース、論文、
書物、特許など）を取得できるようになった。インター
ネット上に公開されている情報の取得には、通常、Ｗｅ
ｂ上の検索エンジンが利用される。利用者は、所望の情
報を得るために必要な質問を検索エンジンに提出し、検
索エンジンが検索した複数の情報（複数のドキュメン
ト）を閲覧することで、目的の情報を取得する。

【０００３】最近では、検索処理に自然言語処理技術が
導入され、毎日、かなりの数の自然言語質問（たとえ
ば、「What is a hard disk」）がＷｅｂ上の検索エン
ジンに提出されるようになってきており、ますます多く
のＷｅｂ上の検索サービスが自然言語質問を具体的に目
標とするようになってきている。たとえば、あるサービ
スは、プレコンパイルされた情報、メタサーチング、お
よび他の独占的な方法のデータベースを使用している
が、他のサービスはヒューマンエキスパートとの相互作
用を容易にしている。

【０００４】多くのＷｅｂ検索エンジンは、一般に、自
然言語質問をターム（例えば、検索対象となる文書の内
容を特徴付ける単語）の集まりとして取り扱い、このタ
ームの集まりからなる本来の問い合わせと類似している
ドキュメントを検索する。しかし、最良の回答のドキュ
メントは、本来の問い合わせからのわずかなタームしか
含んでおらず、検索エンジンによって低い順位が付けら
れる。この問い合わせは、検索エンジンがそれを質問と
して認識することで、より正確に回答することができ
る。

【０００５】多くの場合、自然言語質問（たとえば、
「How do I tie shoelaces?」）を、そのままの形で検
索エンジンに提出することは不十分である。ほとんどの
検索エンジンは、上記の如く、そのような問い合わせを
タームの集合として取り扱い、本来の問い合わせに類似
している文献を検索する。しかしながら、最良の回答の
ドキュメントは、本来の問い合わせの中に存在する１つ
あるいは２つのタームしか含んでいない。そのため、そ
のような有用なドキュメントは、検索エンジンにより低
い順位が付けられ、最初の結果のページしか見ない典型
的なユーザーは、決してそれを調べることはない。

【０００６】質問「What is a hard disk?」を例に、最
良の回答を得るための問い合わせを以下に簡単に説明す
る。

【０００７】この問い合わせに対する最良の回答のドキ
ュメントは、汎用目的の検索エンジンにより返される可
能性のあるディスク記憶装置製造業者の会社Ｗｅｂサイ
トではなく、むしろハードディスクの定義あるいは説明
のあるハードウェアのチュートリアルあるいは用語解説
ページである。したがって、「ハードディスク：データ
を蓄積するために使用され、対応する読み取り／書き込
みヘッドおよび電子回路を有し、中央の軸の周りを回転
する１つ以上の硬くて曲がらない磁気ディスク・・・」
のような回答を含む応答が望ましい。このハードディス
クの定義は、本来の質問を｛「hard disk」ＮＥＡＲ「u
sed to」｝（ここで、「ＮＥＡＲ」は演算子であり、こ
の場合は、「hard disk」と「used to」のフレーズを共
に含むページの検索で、両フレーズが近い位置にある順
に表示することを意味する。）という問い合わせ（検索
条件）に変換することによって検索することができる。
このように、「used to」というフレーズを要求するこ
とにより、大部分の検索エンジンは、上位に順位付けら
れたドキュメントの１つとしてこの回答を検索すること
ができる。

【０００８】多くのシステムは、ドキュメントから回答
を取り出すことを目標としている。たとえば、あるシス
テムは、情報検索システムが返したドキュメントを処理
して回答を取り出す。質問は、回答に対応する実体のタ
イプを識別する１組の既知の「質問タイプ」の１つに分
類される。ドキュメントは実体を識別するためにタグを
付けられ、与えられた質問の正しいタイプの実体を取り
囲んでいる節が、１組の発見的方法を使用して順位付け
られる。また、他のシステムは、最良の節を返すという
目的で、標準の情報検索システムの結果を再順位付け
し、後処理する。質問の回答のために統計的および言語
的な知識を結合し、検索されたドキュメントを後処理す
るために高度な言語フィルタを使用し、質問に回答する
ために最も有望な節を取り出す、というシステムもあ
る。

【０００９】上述のシステムは、標準のＴＦ−ＩＤＦタ
ーム重み付けスキームの変形を用いて、本来の質問に類
似しているドキュメントあるいは節を検索する一般的な
方法を使用している。ここで、ＴＦ−ＩＤＦとは、検索
語があるドキュメント中にどれだけ多く出現しているか
という出現頻度を示すＴＦ値（Term Frequency）と、そ
の検索語の出現するドキュメント数を示すＩＤＦ値（In
verse Document Frequency）の二つを使用して、検索語
に対するテキストの重要度を計算する手法をいう。ヒュ
ーリスティック（発見的方法）や手作りの規則的な表現
を使用して、最も有望な節が、返されたドキュメントか
ら選択される。この方法は、質問に類似しているドキュ
メントが初めに検索されるので最適なものではない。し
かし、利用者は、実際は回答を含んでいるドキュメント
を探しており、このドキュメントには、本来の質問をす
るために使用されたわずかなタームしか含まれていな
い。これは、Ｗｅｂ検索エンジンでよくあるように、ド
キュメントの検索が高価であるか、あるいは、一定数の
ドキュメントに限定されている場合に特に重要である。

【００１０】また、上位に順位付けされたドキュメント
におけるタームの関連性に基づいて問い合わせを自動的
に拡大する方法もある。その１つに、本来の問い合わせ
に対して上位に順位付けされたドキュメントにおける、
タームを持つ問い合わせにおけるタームの同時出現に基
づいて、問い合わせを自動的に拡大する方法がある。一
般に、自動的な問い合わせ拡大システムは、元の問い合
わせに応じて情報システムにより返された上位に順位付
けされたドキュメントの初期の組を使用して、問い合わ
せ毎の原則で実行時間で問い合わせを拡大する。

【００１１】

【発明が解決しようとする課題】しかしながら、上述の
ように質問「What is a hard disk?」を｛「hard dis
k」ＮＥＡＲ「used to」｝というような最適な問い合わ
せに変換することを自動的に学習して情報検索に適用す
る技術は、これまでに確立されていない。

【００１２】また、各検索エンジンでは、主となる検索
対象の情報（蓄積された情報）が異なるため、同じ問い
合わせであっても異なる情報（ドキュメント）を返す場
合がある。このため、質問を問い合わせへ変換する場合
に、変換された問い合わせが目標となる検索エンジンに
対して最適なものとなるようにする必要がある。しか
し、そのような問い合わせの最適化についても、確立し
た技術はこれまでに提供されていない。

【００１３】さらに、上記のように、各検索エンジンは
同じ問い合わせであっても異なる情報（ドキュメント）
を返す場合があるので、各検索エンジンが返す情報（ド
キュメント）をそのまま利用者に提供すると、最良の回
答を上位に順位付けした形で利用者に提供することがで
きなくなる。このため、各検索エンジンが返す情報（ド
キュメント）を、何等かの形で、最良の回答が上位に順
位付されるようにする必要もあった。

【００１４】本発明の第１の目的は、利用者が提示した
質問の最適な問い合わせへの変換を自動的に学習するこ
とのできる情報検索方法およびシステム、さらにはその
ようなシステムを実現するプログラムを提供することに
ある。

【００１５】本発明の第２の目的は、利用者が提示した
質問の最適な問い合わせへの変換を、各検索エンジン毎
に最適化することのできる、情報検索方法およびシステ
ム、さらにはそのようなシステムを実現するプログラム
を提供することにある。

【００１６】本発明の第３の目的は、各検索エンジンか
ら返された情報（ドキュメント）を、最良の回答が上位
に順位付された形で利用者に提供することのできる、情
報検索方法およびシステム、さらにはそのようなシステ
ムを実現するプログラムを提供することにある。

【００１７】

【課題を解決するための手段】上記の第１の目的を達成
するため、本発明の第１の情報検索方法は、利用者が提
示した質問に対する回答を予め蓄積された情報から検索
する情報検索方法において、前記質問および回答を収集
して学習データを作成することと、前記学習データ中の
質問を所定のカテゴリー別に識別する１組の質問フレー
ズを生成することと、前記１組の質問フレーズのそれぞ
れのフレーズに対して、前記学習データ中の回答から変
換候補を生成することと、前記変換候補のそれぞれに対
して、前記学習データ中の回答における出現頻度の度合
に応じた重みを付けることと、前記変換候補のそれぞれ
を、前記重みに基づいて順位付けすることとを含むこと
を特徴とする。

【００１８】上記の第１の情報検索方法によれば、利用
者が提示した１組の質問およびそれらに対する回答から
学習データが形成され、この学習データ中の質問が、い
くつかの質問型に分類されて、各分類型についてそれぞ
れ質問フレーズが生成される。さらに、生成された質問
フレーズのそれぞれについて、学習データ中の回答から
複数の変換候補が生成される。そして、各質問フレーズ
毎に、各変換候補に対して、学習データ中の回答におけ
る出現頻度の度合に応じた重みが付けられ、該重みに基
づいて順位付けがなされる。

【００１９】上記の質問−質問フレーズ−変換候補−順
位付けの一連の処理により得られた変換規則にしたがっ
て、利用者が提出する質問が最適な問い合わせに変換さ
れる。最適な問い合わせには、順位付けがなされた変換
候補のうちの上位の変換候補が使用される。この変換規
則は、利用者が質問を提出する度にその内容が更新され
る。このようにして、利用者が提示した質問の最適な問
い合わせへの変換が自動的に学習される。

【００２０】上記の第２の目的を達成するため、本発明
の第２の情報検索方法は、利用者が提示した質問に対す
る回答を含むドキュメントを複数の情報検索エンジンか
ら検索する情報検索方法において、前記利用者が提示し
た質問を、予め設定された、異なる複数の質問型のうち
のいずれかに分類することと、前記分類された質問型を
識別する質問フレーズを生成することと、前記利用者に
より提示された１組の質問およびこれら質問の回答を予
め収集して得られた学習データ中の質問／回答対から、
前記質問フレーズに対応する問い合わせのための変換候
補を生成することと、前記複数の検索エンジンのうちの
目標とする検索エンジン上で前記生成された変換候補を
評価することと、前記評価結果に基づいて前記生成され
た変換候補から最終変換候補を得、該最終変換候補から
なる問い合わせを前記利用者が提示した質問に代えて前
記目標とする検索エンジン上に提出することとを含むこ
とを特徴とする。

【００２１】上記の第２の情報検索方法によれば、上述
の第１の情報検索方法で説明した変換規則と同様の変換
規則が用いられ、さらに、変換候補が目標とする検索エ
ンジン上で評価され、該評価結果に基づいて最終変換候
補が得られるようになっている。この最終変換候補を用
いて問い合わせが生成されるので、生成された問い合わ
せは、目標とする検索エンジンに最適なものとなる。

【００２２】上記の第３の目的を達成するため、本発明
の第３の情報検索方法は、利用者が提示した質問に対す
る回答を含むドキュメントを複数の情報検索エンジンか
ら検索する情報検索方法において、前記利用者が提示し
た質問を、予め定められた、異なる質問型のうちのいず
れかに分類することと、所定の変換規則に従って、前記
分類された質問型を識別する質問フレーズに対応する変
換候補の組を取得し、該変換候補の組を用いて前記質問
を問い合わせに書き換えることと、前記問い合わせを前
記複数の検索エンジンに提出することと、前記問い合わ
せに応じて前記複数の検索エンジンが返したドキュメン
トをそれぞれ分析し、前記問い合わせに関するドキュメ
ントの類似性に基づいて各ドキュメントにスコアを付け
ることと、前記ドキュメントのそれぞれを、前記スコア
に基づいて順位付けすることと、前記利用者が提示した
質問に対する回答として、前記順位付けがなされたドキ
ュメントのうちの上位のドキュメントを提供することと
を含むことを特徴とする。

【００２３】上記の第３の情報検索方法によれば、上述
の第１の情報検索方法で説明したような変換規則が用い
られ、この変換規則にしたがって書き換えられた問い合
わせが各検索エンジンに提出される。そして、その提出
した問い合わせに応じて各検索エンジンが返したドキュ
メントが、その問い合わせに関するドキュメントの類似
性に基づいて分析され、該分析結果が良好な上位のドキ
ュメントが、利用者が提示した質問に対する回答として
利用者に提供される。このように、各検索エンジンから
返されたドキュメントについても、問い合わせに関する
ドキュメントの類似性の高いものが回答として利用者に
提供されるので、利用者は、提出した質問に対する最良
の回答を容易に取得することが可能である。

【００２４】上記の第１の目的を達成するため、本発明
の第１の情報検索システムは、利用者が提示した質問に
対する回答を予め蓄積された情報から検索する情報検索
システムにおいて、前記質問および回答を収集して学習
データを作成し、該学習データ中の質問を所定のカテゴ
リー別に識別する１組の質問フレーズを生成する質問フ
レーズ生成手段と、前記１組の質問フレーズのそれぞれ
のフレーズに対して、前記学習データ中の回答から変換
候補を生成し、該生成した変換候補のそれぞれに対し
て、前記学習データ中の回答における出現頻度の度合に
応じた重みを付け、該重みに基づいて順位付けする変換
候補生成手段とを有することを特徴とする。

【００２５】上記の第１の情報検索システムにおいて
も、上述した第１の情報検索方法と同様の作用を奏す
る。

【００２６】上記の第２の目的を達成するため、本発明
の第２の情報検索システムは、利用者が提示した質問に
対する回答を含むドキュメントを複数の情報検索エンジ
ンから検索する情報検索システムにおいて、前記利用者
が提示した質問を、予め設定された、異なる複数の質問
型のうちのいずれかに分類し、該分類した質問型を識別
する質問フレーズを生成する質問フレーズ生成手段と、
前記利用者により提示された１組の質問およびこれら質
問の回答を予め収集して得られた学習データ中の質問／
回答対から、前記質問フレーズ生成手段により生成され
た質問フレーズに対応する変換候補を生成する変換候補
生成手段と、前記複数の検索エンジンのうちの目標とす
る検索エンジン上で前記変換候補生成手段にて生成され
た変換候補を評価し、該評価結果に基づいて前記変換候
補生成手段にて生成された変換候補から最終変換候補を
得る評価手段とを有し、前記最終変換候補からなる問い
合わせが前記利用者が提示した質問に代えて前記目標と
する検索エンジン上に提出されることを特徴とする。

【００２７】上記の第２の情報検索システムにおいて
も、上述した第２の情報検索方法と同様の作用を奏す
る。

【００２８】上記の第３の目的を達成するため、本発明
の第３の情報検索システムは、利用者が提示した質問に
対する回答を含むドキュメントを複数の情報検索エンジ
ンから検索する情報検索システムにおいて、前記利用者
が提示した質問を、予め設定された、異なる質問型のう
ちのいずれかに分類し、該分類された質問型を識別する
質問フレーズを生成する質問フレーズ生成手段と、所定
の変換規則に従って、前記分類された質問型を識別する
質問フレーズに対応する変換候補の組を取得し、該変換
候補の組を用いて前記質問を問い合わせに書き換える再
定式化手段と、を有し、前記再定式化手段は、前記問い
合わせを前記複数の検索エンジンに提出する手段と、前
記問い合わせに応じて前記複数の検索エンジンが返した
ドキュメントをそれぞれ分析し、前記問い合わせに関す
るドキュメントの類似性に基づいて各ドキュメントにス
コアを付ける手段と、前記ドキュメントのそれぞれを、
前記スコアに基づいて順位付けする手段と、前記利用者
が提示した質問に対する回答として、前記順位付けがな
されたドキュメントのうちの上位のドキュメントを提供
する手段とを有することを特徴とする。

【００２９】上記の第３の情報検索システムにおいて
も、上述した第３の情報検索方法と同様の作用を奏す
る。

【００３０】上記の第１の目的を達成するため、本発明
の第１のプログラムは、利用者が提示した質問に対する
回答を予め蓄積された情報から検索する情報検索システ
ムにおいて用いられるプログラムであって、前記質問お
よび回答を収集して学習データを作成する処理と、前記
学習データ中の質問を所定のカテゴリー別に識別する１
組の質問フレーズを生成する処理と、前記１組の質問フ
レーズのそれぞれのフレーズに対して、前記学習データ
中の回答から変換候補を生成する処理と、前記変換候補
のそれぞれに対して、前記学習データ中の回答における
出現頻度の度合に応じた重みを付ける処理と、前記変換
候補のそれぞれを、前記重みに基づいて順位付けする処
理とをコンピュータに実行させることを特徴とする。

【００３１】上記の第１のプログラムにおいても、上述
した第１の情報検索方法と同様の作用を奏する。

【００３２】上記の第２の目的を達成するため、本発明
の第２のプログラムは、利用者が提示した質問に対する
回答を含むドキュメントを複数の情報検索エンジンから
検索する情報検索システムにおいて用いられるプログラ
ムであって、前記利用者が提示した質問を、予め設定さ
れた、異なる複数の質問型のうちのいずれかに分類する
処理と、前記分類された質問型を識別する質問フレーズ
を生成する処理と、前記利用者により提示された１組の
質問およびこれら質問の回答を予め収集して得られた学
習データ中の質問／回答対から、前記質問フレーズに対
応する問い合わせのための変換候補を生成する処理と、
前記複数の検索エンジンのうちの目標とする検索エンジ
ン上で前記生成された変換候補を評価する処理と、前記
評価結果に基づいて前記生成された変換候補から最終変
換候補を得、該最終変換候補からなる問い合わせを前記
利用者が提示した質問に代えて前記目標とする検索エン
ジン上に提出する処理とをコンピュータに実行させるこ
とを特徴とする。

【００３３】上記の第２のプログラムにおいても、上述
した第２の情報検索方法と同様の作用を奏する。

【００３４】上記の第３の目的を達成するため、本発明
の第３のプログラムは、利用者が提示した質問に対する
回答を含むドキュメントを複数の情報検索エンジンから
検索する情報検索システムにおいて用いられるプログラ
ムであって、前記利用者が提示した質問を、予め定めら
れた、異なる質問型のうちのいずれかに分類する処理
と、所定の変換規則に従って、前記分類された質問型を
識別する質問フレーズに対応する変換候補の組を取得
し、該変換候補の組を用いて前記質問を問い合わせに書
き換える処理と、前記問い合わせを前記複数の検索エン
ジンに提出する処理と、前記問い合わせに応じて前記複
数の検索エンジンが返したドキュメントをそれぞれ分析
し、前記問い合わせに関するドキュメントの類似性に基
づいて各ドキュメントにスコアを付ける処理と、前記ド
キュメントのそれぞれを、前記スコアに基づいて順位付
けすることと、前記利用者が提示した質問に対する回答
として、前記順位付けがなされたドキュメントのうちの
上位のドキュメントを提供する処理とをコンピュータに
実行させることを特徴とする。

【００３５】上記の第３のプログラムにおいても、上述
した第３の情報検索方法と同様の作用を奏する。

【００３６】

【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。

【００３７】本発明の情報検索方法は、利用者から与え
られた質問（question）、具体的には自然言語質問を定
式化し直すことを学習することから始まり、この変換を
適用することにより実行時間で問い合わせ（query）を
評価することを特徴とするもので、具体的には、以下に
説明するような、質問を有効な問い合わせに変換する学
習工程と、実行時間で問い合わせ評価する工程とを含
む。

【００３８】（１）質問を有効な問い合わせに変換する
学習この学習では、自然言語質問を、その質問に対する回答
（answer）を含むドキュメントに出現すると予想される
タームあるいはフレーズを含む有効な問い合わせに変換
する。

【００３９】（１．１）質問フレーズの選択学習過程１の第１段階１０において、各カテゴリーにお
ける質問が類似の目標を有する、異なるカテゴリーの質
問を識別する１組のフレーズを生成する。たとえば、質
問「What is a hard disk?」は、ハードディスクの定義
あるいは解説を利用者が探していることを意味する。こ
の質問の目標は、ハードディスクの定義あるいは解説に
関するドキュメントを取得することにあり、それは質問
フレーズ「What is a」から推測できる。

【００４０】この段階の入力は、学習データを構成する
のに必要な質問群である。これらの質問と、それらに対
応する回答（各検索エンジンからの回答）によって学習
データが構成され、この学習データを用いて可能性のあ
る質問フレーズ、すなわち利用者が入力した質問に対し
て良好な回答を得られるような質問フレーズが生成され
る。具体的には、可能性のある質問フレーズは、学習デ
ータの質問群について、長さが「最小Ｑトークン（minQ
tokens）」から「最大Ｑトークン（maxQtokens）」の単
語（word）のすべてのｎ−グラム（フレーズ）の頻度を
計算することにより生成され、すべてのｎ−グラムは質
問の始めに置かれる。ここで、ｎ−グラムとは、データ
中に隣接して表れるｎ個の文字あるいは単語の組の出現
頻度の統計をいう。本実施例では、少なくとも「最小Ｑ
フレーズカウント（minQphraseCount）」回を生じるす
べてのｎ−グラムを使用する。

【００４１】この段階の出力は、質問をそれぞれの質問
型（question type）に速く分類するために使用可能な
ひと組の質問フレーズである。後に説明する学習コレク
ション内の質問から自動的に生成される質問フレーズの
一例を図２に示す。図２の例には、質問フレーズとして
「what is」、「what are」、「where is」などが示さ
れている。

【００４２】この質問フレーズ選択方法は、あまりに具
体的すぎて広く適用することができない多くのフレーズ
を発生することができる。本実施例において、学習は図
３に示す規則的な表現に一致するフレーズに限定され
る。例えば、「what (is ／ are ／ were ／ does ／ d
o ／ did ／ should ／ can) ＼ｓ」のような規則的な
表現によりフレーズが限定される。この規則的な表現
は、ごく一般に使用されている質問に一致しており、本
発明が最も有用なフレーズに資源（リソース）を集中す
ることを可能にする。特徴選択技術、品詞タグ付け、お
よび他の自然言語処理技術が、生成された質問フレーズ
のフィルタリングを微調整するために使用できる。

【００４３】質問のカテゴリーを識別するために別の方
法を使用できるが、本ｎ−グラム法は、多数の利点を有
する。例えば、本ｎ−グラム法は、計算的に比較的に低
価格で実行でき、多数のトレーニングの組の処理を可能
にする。また、本ｎ−グラム法は、分野に依存せず、軽
微な修正のみで多くの言語に対して機能を発揮する。さ
らに、本ｎ−グラム法は、後述するような実行時間で質
問を評価する場合、フレーズ・マッチングを使用する質
問の分類は、問い合わせの総合的処理時間において無視
できるオーバーヘッドで組み込むことが可能である。

【００４４】（１．２）変換候補の生成およびフィルタ
リング学習アルゴリズムの第２段階２０（図１参照）におい
て、質問を再定式化するために有用な候補タームおよび
候補フレーズを生成する。本実施例においては、次の段
階（検索エンジンの有効性のために、変換候補を評価す
る。図１の段階（３）。）の計算に関する必要条件を削
減するために、フィルタリング処理が施される。変換候
補は、先の学習段階１０からの各質問フレーズに対して
生成される。各質問フレーズＱＰ毎に変換候補を生成す
るための手順は、複数の段階、すなわち、初期の変換候
補フレーズを生成することと、最小同時出現度数（mini
mumco-occurrence count）によりこれらのフレーズをフ
ィルタリングすることと、および残りのフレーズに重み
付けを行い更にフィルタリングすることとから成る。各
段階を、以下に詳細に説明する。

【００４５】学習過程のこの段階では、上記学習データ
における＜質問、回答＞対のコレクションを使用する。
このようなコレクションの一例を図４に示す。図４の例
では、質問フレーズ「what is a」に対して、「the ter
m」、「component」、「ans」、「a computer」、「tel
ephone」、「collection of」、「stands for」、「uni
t」という複数の変換候補が設定されている。これらの
変換候補は、学習データにおける回答から生成される。
本学習過程の段階では、テキスト内の各単語に対して句
構造品詞（たとえば、名詞、動詞）を割り当てる品詞タ
ガー（part-of-speech tagger）でタグ付けされたコレ
クションに対して行う。ブリルの品詞タガーは自然言語
処理コミュニティで広く使用されており、容易に利用で
きるので、ブリルの品詞タガーを使用することが望まし
い。

【００４６】質問の接頭辞がＱＰに一致する学習コレク
ション（学習データ）中の各＜質問、回答＞対（通常、
学習コレクション中には、１つの質問フレーズに関して
複数の＜質問、回答＞対が存在する。）に対して、それ
ら回答における単語のすべてから、考えられる可能性の
ある回答フレーズ（変換候補）を生成する。具体的に
は、長さが最小Ａトークンから最大Ａトークンまでの単
語のｎ−グラムが使用され、回答テキストの最初の最大
長（maxLen）バイトにおけるすべての単語境界で行われ
る。図４に示した例は、この段階の後に生成された回答
フレーズ３５の一例である。これらのフレーズ３５は、
電子回路あるいはコンピュータの分野にひどく偏ってい
るが、これは、例示した学習コレクションのドキュメン
トの大部分が術語に関連するトピックスであったためで
ある。これらのフレーズがそのまま変換に使用された場
合、問い合わせの意図するトピックを変えるという問題
が発生することが予想される。本発明が学習しようとす
る変換は、検索されたドキュメントの組の正確度を改善
し、さらに本来の問い合わせのトピックを維持するもの
である。したがって、一般的な質問（たとえば、「What
is a rainbow?」）に対して、直感的に、良い変換では
ないはずの「telephone」のようなフレーズは取り除か
れる。

【００４７】上記の問題は、名詞を含んでいる初期の変
換候補フレーズを取り除くことにより解決される。問い
合わせの大部分において、名詞は内容語、すなわち問い
合わせのトピックを表す単語である。たとえば、問い合
わせ「what is a rainbow」において、単語「rainbow」
は名詞であり、内容語である。同様に、単語「telephon
e」は名詞である。したがって、最初の変換候補フレー
ズは、生成された回答フレーズが名詞を含むかどうかを
調べることによってフィルタリングされ、名詞を含む場
合にはそのフレーズは廃棄される。このフィルタリング
を実現するために本発明では品詞情報を使用する。はじ
めに説明したように、品詞情報はコレクション全体に対
して１回計算される。

【００４８】結果として生ずるｎ−グラムのうち、最も
高い出現頻度の上位Ｋフレーズ（topKphrases）が保持
される。タームの重み付けの情報検索技術が、これらの
変換候補を順位付けるために適用される。初めのターム
の重み（term weight）は、望ましくは、「少ない関連
情報の関連ウエイトについて」（ロバートソンおよびウ
ォーカー、ＳＩＧＩＲ９７、１９９７）に記載されて
いるターム重み付け方式を適用することにより、各変換
候補フレーズｔ_iに割り当てられる。

【００４９】これらのタームの重みは、ＯｋａｐｉＢＭ
２５ドキュメント順位付け方式（document ranking for
mula）で使用されている（「ＴＲＥＣ７におけるＯｋａ
ｐｉ」ロバートソン他、TREC-7 Proceedings、１９９
８）。多くの情報検索システムは、ドキュメントの間の
類似性を計算するために、ベクトル空間モデルを使用す
る。このモデルでは、類似性は、各ドキュメントを表す
ベクトルの間の点の乗積として計算される。各ベクトル
の要素は、ドキュメントの各ターム毎に、タームの重み
およびタームの出現頻度の組み合わせとして計算され
る。ＢＭ２５メトリックは類似の考えを使用する。ＢＭ
２５の本来の定義では、ドキュメントの各タームｔ
_iは、特定の問い合わせトピックに関して、ロバートソ
ン／スパークジョーンズのターム重みｗ_i ⁽¹⁾（「検索タ
ームの関連重み付け」、ロバートソンおよびジョーン
ズ、 Journal of the American Society for Informati
on Science、２７：１２９−１４６Ｆ、１９７６）が割
り当てられ、次式として計算される。

【００５０】

【数３】

【００５１】ここで、ｒはｔ_iを含む関連ドキュメント
の数であり、Ｎはコレクションのドキュメントの数であ
り、Ｒは関連ドキュメントの数であり、ｎはｔ_iを含む
ドキュメントの数である。この重みは、多くの関連ドキ
ュメントとわずかな非関連ドキュメントにおいて出現す
る傾向があるタームに対して高くなるように設計され、
学習データの関連情報の潜在的な疎（sparseness）の原
因となるため平滑化され正規化される。

【００５２】ＢＭ２５の本来の定義では、タームの重み
ｗ_i ⁽¹⁾は、各問い合わせトピックに特有である。本発明
は、２つの修正を組み込むことにより、変換候補を重み
付けするタスクにこのメトリックを適用する。第１に、
問い合わせトピックは質問型として解釈される。この解
釈では、関連ドキュメントは、質問フレーズ（質問型）
に対応する学習コレクションにおける回答の１つであ
る。したがって、タームの重みｗ_i ⁽¹⁾は、特有の質問型
に関する変換候補ｔｒ_iの選択性の推定値である。第２
に、ターム重み付けがフレーズに拡張される。同じ整合
性のある重み付け方式がフレーズに適用され、それらは
単一の単語タームとして同じ方法で扱われる。この重み
は、変換候補ｔｒ_iが関連ドキュメントの数としてＱＰ
に一致する質問の回答において出現する＜質問、回答＞
対の度数を計算し、変換候補ｔｒ_iが非関連として回答
において出現する残りの＜質問、回答＞対の数を考慮
し、また、数式１を適用することによって、各変換候補
ｔｒ_i毎に計算される。

【００５３】次に、ターム選択重み（term selection w
eight）ｗｔｒ_iが、自動問い合わせ拡張のためにターム
を選択するコンテキストにおいて、「問い合わせ拡大の
ためのターム選択について」（ロバートソン、Journal
of Documentation、ｖｏｌ．４６、ｐ．３５９−６４、
１９９０）に記載されているように、各変換候補ｔｒ _i
毎に、次式として計算される。

【００５４】

【数４】ｗｔｒ_i＝ｑｔｆ_i・ｗ_i ⁽¹⁾ （２）ここで、ｑｔｆ_iはＱＰとｔｒ_iとの同時出現頻度であ
り、ｗ_i ⁽¹⁾はＱＰに関して計算されたｔｒ_iの関連性に
もとづくタームの重みである。このターム順位付け法
は、雑音を取り除く目的で、同時出現の統計と関連重み
の両方を利用している。ｗ_i ⁽¹⁾は高い識別力を持つター
ムおよびフレーズに高い重みを割り当てるが、ｑｔｆ_i
は質問型と関連する回答においてフレーズが何度出現す
るかの程度である。この段階の出力の一例を図５に示
す。図５において、たとえば、フレーズ「named afte
r」５１は質問フレーズ「what is a」５２に対する良い
識別器であるが、最終的に高く順位付けされるフレーズ
ほど頻繁には出現しない。識別と出現頻度の間、あるい
は期待精度と再現度の間のこのトレードオフは、特定の
優先度に応じて変更してもよい。

【００５５】最後に、変換候補は、変換フレーズにおけ
る単語の数にしたがってバケットに分類され、最大バケ
ット（maxBucket）変換まで、ｗｔｒ_iの最高値がバケッ
トから保存される。一般に、長いフレーズは検索エンジ
ンによって異なるように処理されることが望まれ、本段
階は、変換候補の組におけるこのような長く、もしかす
ると高い精度の変換を含むように実行されるが、本来、
高出現頻度の短い変換は他の方法で選択することができ
る。図６に、フレーズ６３の一例を、各変換候補バケッ
トからの最も高い選択重み６５と共に示す。図６の例で
は、変換長（Transform Length）「３」〜「１」につい
て、それぞれ変換候補ｔｒ_iおよびｗｔｒ_iが示されてい
る。変換長「３」には、変換候補として「is used t
o」、「according to the」、「to use a」があり、そ
れぞれのターム選択重みは「32.89」、「23.49」、「2
1.43」である。変換長「２」には、変換候補として「is
a」、「of a」、「refers to」があり、それぞれのタ
ーム選択重みは「298.89」、「94.34」、「81.3」であ
る。変換長「１」には、変換候補として「usually」、
「used」、「refers」があり、それぞれのターム選択重
みは「128.23」、「110.39」、「80.1」である。

【００５６】（１．３）検索エンジンを使用する重み付
けおよび再順位付け変換学習の第３段階および最終段階において、各変換候補ｔ
ｒ_iの性能（performance）は、異なる情報検索システム
上で評価される。図７に、単一の質問フレーズおよび検
索エンジンに対して１組の変換候補を順位付けるための
望ましいアルゴリズムを示す。この処理は、関心のある
すべての質問フレーズおよび検索エンジンについて繰り
返される。

【００５７】アルゴリズムの段階（１）７１において、
学習例として使用される１組の＜質問、回答＞対を検索
する。これは、回答の長さの増加の順位でコレクション
内のすべての＜質問、回答＞対を分類し、ＱＰから始ま
る質問を含む最初の＜質問、回答＞対の「numExample
s」までを使用することによって行われる。本実施例は
短い回答を有する質問に対してより正確な評価を得られ
ることを仮定としているので、この分類段階が行われ
る。

【００５８】＜質問、回答＞対の各例および前段階の処
理で生成された変換候補の組に対して、各変換候補ｔｒ
_iが１度に１つずつ質問に適用される（図７の７２）。
質問「Question = [QP C]」を考える。ここで、ＱＰは
質問フレーズであり、Ｃは質問における残りのタームで
ある。候補変換ｔｒ_iを使用すると、ＱＰは除去され、
質問は「Query = (C AND tri)」と書き換えられる。た
とえば、質問フレーズ「what is a」に対して変換候補
「refers to」を考えることができ、＜質問、回答＞対
として＜”what is a lisp machine (lispm)”，”A Li
sp Machine (lispm) is a computer optimized for run
ning Lisp programs, ...”＞を考えることができる。
この変換を質問に適用すると、書き換えられた問い合わ
せとして「Query = "[(lisp machine lispm) AND ("ref
ers to")]"」が得られる。適切な問い合わせ構文が、各
検索エンジンに対して使用される。さらに、変換は、そ
れが各検索エンジンによってフレーズとして処理される
ように符号化される。

【００５９】問い合わせインタフェイスの構文は、各検
索エンジンに対して変化する。たとえば、ＡｌｔａＶｉ
ｓｔａでは、ＡＮＤ演算子の代わりにＮＥＡＲ演算子を
使用することができる。ＡｌｔａＶｉｓｔａに提出され
る実際の問い合わせは、「[(lisp machine lispm) NEAR
("refers to")]」となる。Ｇｏｏｇｌｅは、明示的な
ＯＲ演算子のない状態における、暗示的なＡＮＤ意味を
持つ問い合わせにおいて提示されたすべてのタームを取
り扱う。Ｇｏｏｇｌｅは、ドキュメントの順位付けに問
い合わせタームの近接を組み入れており、ストップワー
ド・リストに出現するいくつかの単語を廃棄する。

【００６０】他の実施例としては、質問を書き換えるた
めの他の可能性、たとえば、整合ページの中の問い合わ
せの一部を要求する、あるいは必要としないこと、およ
び、複数の変換を単一の問い合わせに結合すること、を
組み込むものもある。

【００６１】図７の段階（３）７３において、書き換え
られた問い合わせ「Query」は、検索エンジンＳＥに提
出される。ＳＥにより返された上位の結果の多くても１
０が検索される。返されたドキュメントＤのそれぞれ
は、段階（４ａ）７４ａ、（４ｂ）７４ｂ、および（４
ｃ）７４ｃで解析される。段階（４ａ）７４ａでは、Ｄ
のサブドキュメントが生成される。段階（４ｂ）７４ｂ
では、回答に最も類似しているＤの中のサブドキュメン
トが見出される。段階（４ｃ）７４ｃでは、変換候補ｔ
ｒ_iのスコアと度数が、回答に関するＤの類似性にもと
づいて更新される。以下に段階（４ａ）〜（４ｃ）にお
ける処理をさらに詳細に説明する。

【００６２】段階（４ａ）７４ａにおいて、サブドキュ
メントが、より正確な類似性の度合を計算するためにド
キュメントから生成される。本来の回答Ａと、変換され
た問い合わせを使用して検索されたドキュメントの１つ
であるドキュメントＤを考える。回答が局所化される、
すなわち、キー情報／フレーズの組は互いにごく接近し
て出現する（ただし、長さが「subDocLen」のサブドキ
ュメントの範囲内）と仮定する。回答がサブドキュメン
トの1つの中に完全に存在しない可能性を最小にするた
めに、サブドキュメントは、「subDocLen/2」ワードだ
けオーバーラップする。換言すれば、与えられた問い合
わせＱ、ドキュメントＤ、および「subDocLen = N」が
与えられた場合、Ｄは、それぞれ連続した位置０、Ｎ／
２、Ｎ、３Ｎ／２、．．．ｎ／２、ｎ、３Ｎ／２から始
まるオーバーラップしているサブドキュメントＤ１、Ｄ
２、Ｄ３、Ｄ４、．．．に分割される。

【００６３】段階（４ｂ）において、ドキュメントＤの
スコアは回答について計算される。「docScore(Answer,
D)」は、Ｄの中のサブドキュメントＤ_iのそれぞれの類
似性の最高値として定義される。より正式には、「docS
core(Answer, D) = Max(BM25 _phrase (Answer, Di))」で
ある。ここで、ＢＭ２５_phraseは、数式１のように計算
されたフレーズ重みを組み込むために修正されたＢＭ２
５メトリックの拡張である。

【００６４】本来のＢＭ２５メトリックは、前述のよう
に関連重みｗ_i ⁽¹⁾およびトピック頻度を使用し、次式に
より定義される。

【００６５】

【数５】

【００６６】ここで、ｋ₁＝１．２、ｋ₃＝１０００、Ｋ
＝ｋ₁（（１−ｂ）＋ｂ・ｄｌ／ａｖｄｌ）、ｂ＝０．
５であり、ｄｌはトークン内のドキュメント長であり、
ａｖｄｌはトークン内の平均ドキュメント長であり、ま
た、ｗ_i ⁽¹⁾およびｑｔｆ_iは前述のように関連重みおよ
び問い合わせトピック頻度である。ＴＲＥＣ評価（ｋ２
＝０）で使用されていたメトリックの単純化されたバー
ジョンが、この例では使用された。

【００６７】ＢＭ２５_phraseメトリックにおいて、加算
（数式３）における「ターム」はフレーズを含み、前述
の説明のように学習データ全体に対して学習された重み
を有する。タームあるいはフレーズｔの重みは、次式の
ように計算される。

【００６８】

【数６】

【００６９】偶然に出くわしたタームが学習コレクショ
ンに存在しないかもしれないので、この多段階の割り当
て処理が使用される。非常に多くのサンプル（TREC Web
Track 「ウェブ検索評価の結果と難問」（ホーキング
他、第８回国際ワールド・ワイド・ウェブ会議（ＷＷＷ
８）、１９９９）で使用されたページのコレクションか
ら得られた百万ウェブ・ページ）から導出されたＩＤＦ
（Inverse Document Frequency（逆ドキュメント頻度）
の略。これは、希なタームに対して高く、ありふれたタ
ームに対して低い。）重みが使用された。最後のフォー
ルバック問題は、学習データに存在しないフレーズを処
理するためのものである。直感的に、フォールバックの
場合は、複数の単語フレーズ（multi-word phrases）の
重み出現（weight occurrence）を高くなるように調整
した、ｔ内のすべてのタームが同時に出現する確率に逆
比例するフレーズｔの重みを割り当てる。

【００７０】変換候補を順位付けする総合的な目標は、
多くの関連ドキュメント（本来の回答に類似する）とわ
ずかな非関連ドキュメントを返す傾向がある変換に高い
重みを付けることである。段階（５）７５において、変
換ｔｒ_iの重みＷＴ_iは、本来の学習回答と変換された問
い合わせに応じて返されたドキュメントの間の平均類似
性として計算される。

【００７１】

【数７】

【００７２】ここで、合計は、サンプルの組の中のすべ
ての＜質問、回答＞対にわたって計算される。

【００７３】学習のこの最終段階の結果は、ＱＰに一致
する質問に対する検索エンジンＳＥからの回答を検索す
る有効性に関して自動的に順位付けされた１組の変換で
ある。「QP = "what is a"」に関して高く順位付けされ
た変換の２つのサンプルで、ＡｌｔａＶｉｓｔａ検索エ
ンジン８２について最適化された第１の実例と、Ｇｏｏ
ｇｌｅ検索エンジン８３について最適された第２の実例
を図８に示す。

【００７４】（２）実行時間問い合わせの再定式化ひとたび最良の変換の組が質問フレーズ毎に自動的に学
習されると、それらは変換規則として蓄積される。次
に、本発明は、その変換を適用することにより、実行時
間で問い合わせを評価する。これに関する望ましい処理
を図９に示す。

【００７５】段階（ｌａ）９１ａにおいて、長い（より
明確な）フレーズを優先し、既知の質問フレーズとマッ
チングすることにより質問を再定式化できるかを決定す
る。例えば、「what is the」は、「what is」より優先
される。段階（１ｂ）９１ｂにおいて、対応する変換の
組が検索される。上位の「numTransforms」変換のみ
が、使用される。

【００７６】段階（２）９２において、各変換が元の質
問を書き換えるために使用され、１度に１変換ずつ、新
しい問い合わせが生じる。

【００７７】段階（３）９３において、変換された問い
合わせは検索エンジンに提出され、最初の結果のページ
が検索される。

【００７８】段階（４ａ）９４ａ、（４ｂ）９４ｂ、お
よび（４ｃ）９４ｃにおいて、返されたドキュメントが
解析され、変換された問い合わせに関するドキュメント
の類似性にもとづいてスコアが付けられる。ドキュメン
トにスコアを付ける過程は、セクション（１．３）で説
明したものと同じである。段階（４ｃ）９４ｃにおい
て、もしドキュメントが多くの変換の適用により検索さ
れた場合は、ドキュメントの最終スコアは、個々のドキ
ュメントのスコアのそれぞれの最大値である。

【００７９】段階（５）９５において、返されたドキュ
メントは、それらの最終ドキュメントスコアに関して順
位付けられ、段階（６）９６において、上位に順位付け
られた「topKdocs」ドキュメントが最終結果として返さ
れる。

【００８０】他の実施形態として、ドキュメントから最
良の１節を抽出するために既存の方法を利用すること、
複数の変換が単一の問い合わせに結合できること、与え
られた質問型に対して最も良く能力を発揮する検索エン
ジンに質問を送ることができること、複数の検索エンジ
ンが同時に使用できること、質問からの内容語を含むフ
レーズ変換が学習できることなどを適用してもよい。

【００８１】変換過程は、動的にすることも可能であ
る。たとえば、高い精度を期待できる変換を最初に提出
することができる。受け取った応答にもとづいて、シス
テムが、精度の低い変換を試みる、あるいは元の問い合
わせにフォールバックすることが可能である。

【００８２】（情報検索システム）次に、以上説明した
本発明の情報検索方法が適用される情報検索システムの
構成について説明する。

【００８３】図１０は、本発明の一実施形態である情報
検索システムの概略構成を示すブロック図である。この
情報検索システムは、複数の検索エンジンを介した情報
検索が可能なコンピュータシステムであって、その構成
は大きく分けて、質問変換学習部１００と、再定式化部
２００とからなる。

【００８４】質問変換学習部１００は、上述の「（１）
質問を有効な問い合わせに変換する学習」で説明した各
処理を行う部分であって、その構成は、質問フレーズ生
成部１１１、変換候補生成部１１２、変換候補評価部１
１３からなる。質問フレーズ生成部１１１が、上述の
「（１．１）質問フレーズの選択」で説明した各処理を
実行し、変換候補生成部１１２が上述の「（１．２）変
換候補の生成およびフィルタリング」で説明した各処理
を実行し、変換候補評価部１１３が上述の「（１．３）
検索エンジンを使用する重み付けおよび再順位付け変
換」で説明した各処理を実行する。

【００８５】再定式化部２００は、上述の「（２）実行
時間問い合わせの再定式化」で説明した各処理を実行す
る部分である。再定式化部２００は、具体的には、所定
の変換規則に従って、分類された質問型を識別する質問
フレーズに対応する変換候補の組を取得し、該変換候補
の組を用いて質問を問い合わせに書き換える部分であっ
て、書き換えられた問い合わせを複数の検索エンジンに
提出する処理部と、その問い合わせに応じて複数の検索
エンジンが返したドキュメントをそれぞれ分析し、その
問い合わせに関するドキュメントの類似性に基づいて各
ドキュメントにスコアを付ける処理部と、それらドキュ
メントのそれぞれを、そのスコアに基づいて順位付けす
る処理部と、利用者が提示した質問に対する回答とし
て、その順位付けがなされたドキュメントのうちの上位
のドキュメントを提供する処理部とを含む。

【００８６】（プログラム）上記の情報検索システムに
おける各構成部における処理動作は、不図示の記憶装置
（半導体記憶装置、ＣＤ−ＲＯＭやＤＶＤなどの記録媒
体を含む）に予め記憶されたプログラムをコンピュータ
が読み出して実行することによって行われる。記憶装置
には、上述の「（１．１）質問フレーズの選択」、
「（１．２）変換候補の生成およびフィルタリング」、
「（１．３）検索エンジンを使用する重み付けおよび再
順位付け変換」および「（２）実行時間問い合わせの再
定式化」でそれぞれ説明した各処理に関するプログラム
が記憶されている。

【００８７】以上説明したように、本発明の情報検索方
法およびシステムは、質問に対する回答を情報検索シス
テムから検索する能力を改善する問い合わせ変換を学習
する方法を包含する。また、本方法およびシステムは、
質問を異なる質問型に分類することと、質問／回答対の
学習組から問い合わせ変換候補を生成することと、およ
び目標情報検索エンジン上の変換候補を評価することを
含んでいる。自然言語質問を処理するこの技術は、広範
囲の情報検索システムに適用することができる。

【００８８】上記の説明の一部は特定の商業的に利用で
きる検索エンジンに言及しているが、本発明は、これに
限定されるものではなく、他の検索エンジンおよびこれ
に類似の検索システム（蓄積情報を検索するシステムな
ど）にも同様に適用することができる。したがって、本
方法およびシステムは、多くの実用的なアプリケーショ
ンを有することは、容易に理解される。

【００８９】

【発明の効果】以上説明したように、本発明によれば、
複数の問い合わせ変換を自動的に学習することで、例え
ば、質問「What is a hard disk?」を｛「hard disk」
ＮＥＡＲ「used to」｝というような最適な問い合わせ
に変換することができるので、利用者に対して、常に、
最良の回答を含む情報（ドキュメント）を提供すること
ができる。

【００９０】また、本発明によれば、変換された問い合
わせは、目標とする検索エンジンに対して最適化される
ので、目標とする検索エンジンからは、最良の回答を含
む情報（ドキュメント）が返される。したがって、利用
者に対して、最良の回答を含む情報（ドキュメント）を
安定して提供することができる。

【００９１】さらに、本発明によれば、各検索エンジン
が返す情報（ドキュメント）を、最良の回答が上位に順
位付けされた形で利用者に提供される。したがって、利
用者は、最良の回答を含む情報（ドキュメント）を容易
に見出すことができる。

【図面の簡単な説明】

【図１】本発明の一実施形態の情報検索方法の手順の概
要を示す説明図である。

【図２】評価のために使用される質問型フレーズを示す
図である。

【図３】フィルタリングのために使用される正規表現の
例を示す図である。

【図４】質問／回答対の例を示す図である。

【図５】質問フレーズに対応する各変換候補とそれら変
換候補の頻度度数、ターム重み、およびターム選択重み
の一例を示す図である。

【図６】バケットに分類された変換候補の一例を示す図
である。

【図７】１組の変換候補を順位付けるアルゴリズムの一
例を示す図である。

【図８】質問フレーズ「what is a」についての変換
を、ＡｌｔａＶｉｓｔａおよびＧｏｏｇｌｅに対して自
動的に最適化した一例を示す図である。

【図９】実行時間で質問を評価するためのアルゴリズム
の一例を示す図である。

【図１０】本発明の一実施形態の情報検索システムの概
略構成を示すブロック図である。

【符号の説明】

１学習過程１０、２０段階３５回答フレーズ５１、６３フレーズ５２質問フレーズ６５選択重み８２、８３検索エンジン９１ａ、９１ｂ、９２、９３、９４ａ〜９４ｃ、９５、
９６段階１００質問変換学習部１１１質問フレーズ生成部１１２変換候補生成部１１３変換候補評価部２００再定式化部

フロントページの続き (72)発明者ステファンロバートローレンスアメリカ合衆国、ニュージャージー 08540、プリンストン、インディペンデンスウェイ４エヌ・イー・シー・リサーチ・インスティテューテュ・インク内Ｆターム(参考） 5B075 ND03 NK46 NS10 PP24 PR04

Claims

【特許請求の範囲】

【請求項１】利用者が提示した質問に対する回答を予
め蓄積された情報から検索する情報検索方法において、前記質問および回答を収集して学習データを作成するこ
とと、前記学習データ中の質問を所定のカテゴリー別に識別す
る１組の質問フレーズを生成することと、前記１組の質問フレーズのそれぞれのフレーズに対し
て、前記学習データ中の回答から変換候補を生成するこ
とと、前記変換候補のそれぞれに対して、前記学習データ中の
回答における出現頻度の度合に応じた重みを付けること
と、前記変換候補のそれぞれを、前記重みに基づいて順位付
けすることとを含むことを特徴とする情報検索方法。
【請求項２】重み付けに先だって、変換候補に所定の
フィルタリングを施すことをさらに含む、請求項１に記
載の情報検索方法。
【請求項３】所定のフィルタリングに、自然言語処理
技術を使用する、請求項２に記載の情報検索方法。
【請求項４】自然言語処理技術は、品詞タグ付けであ
る、請求項３に記載の情報検索方法。
【請求項５】品詞タグ付けにブリルの品詞タガーを使
用する、請求項４に記載の情報検索方法。
【請求項６】自然言語処理技術は、特徴選択技術であ
る、請求項３に記載の情報検索方法。
【請求項７】学習データ中の質問を、類似の目標によ
って分類し、該分類した質問毎にカテゴリーの識別が行
われる、請求項１に記載の情報検索方法。
【請求項８】カテゴリーの識別に、学習データ中に隣
接して存在する、質問を示すｎ個の文字または単語の組
の出現頻度の統計であるｎ−グラムを計算するｎ−グラ
ム法を使用する、請求項７に記載の情報検索方法。
【請求項９】質問フレーズは、所定の長さの範囲の単
語のすべてのｎ−グラムを計算することによって生成さ
れ、前記すべてのｎ−グラムを学習データ中の質問の始
めに置く、請求項８に記載の情報検索方法。
【請求項１０】少なくとも長さが最小の質問フレーズ
のカウント回発生するすべてのｎ−グラムが、質問フレ
ーズを生成するために使用される、請求項９に記載の情
報検索方法。
【請求項１１】学習データは、利用者により入力され
た１組の質問から生成される、請求項７に記載の情報検
索方法。
【請求項１２】１組の質問フレーズは、学習データ中
の質問を予め定められた、異なる質問型に分類される、
請求項７に記載の情報検索方法。
【請求項１３】１組の質問フレーズのそれぞれのフレ
ーズに所定のフィルタリングを行う、請求項１に記載の
情報検索方法。
【請求項１４】所定のフィルタリングに自然言語処理
技術を使用する、請求項１３に記載の情報検索方法。
【請求項１５】自然言語処理技術が品詞タグ付けであ
る、請求項１４に記載の情報検索方法。
【請求項１６】品詞タグ付けにブリルの品詞タガーを
使用する、請求項１５に記載の情報検索方法。
【請求項１７】自然言語処理技術が特徴選択技術であ
る、請求項１４に記載の情報検索方法。
【請求項１８】変換候補の生成は、初期の変換候補を
生成することを含む、請求項１に記載の情報検索方法。
【請求項１９】初期の変換候補は、学習データ中の質
問／回答対のコレクションに基づいて生成される、請求
項１８に記載の情報検索方法。
【請求項２０】初期の変換候補に、所定のフィルタリ
ングを施す、請求項１９に記載の情報検索方法。
【請求項２１】所定のフィルタリングは、初期の変換
候補の最少同時出現頻度に基づくフィルタリングであ
る、請求項２０に記載の情報検索方法。
【請求項２２】初期の変換候補に、所定の重み付けを
施す、請求項２０に記載の情報検索方法。
【請求項２３】すべての重み付けされた初期の変換候
補に第２の所定のフィルタリングを施すことをさらに含
む、請求項２２に記載の情報検索方法。
【請求項２４】質問／回答対のコレクションに、品詞
タガーでタグを付ける、請求項１９に記載の情報検索方
法。
【請求項２５】品詞タガーが、ブリルの品詞タガーで
ある、請求項２４に記載の情報検索方法。
【請求項２６】初期の変換候補は名詞を含むフレーズ
を含み、該名詞を含むフレーズを除外することによりフ
ィルタリングを行う、請求項１９に記載の情報検索方
法。
【請求項２７】すべての予想される回答フレーズは、
質問の接頭辞が各質問フレーズに一致する各質問／回答
対の回答の接頭辞におけるすべての単語から生成され
る、請求項１９に記載の情報検索方法。
【請求項２８】学習データ中の回答テキストの最初の
所定バイトにおけるすべての単語境界線から始まる所定
の長さの範囲の単語のｎ−グラムが使用される、請求項
２７に記載の情報検索方法。
【請求項２９】結果として生ずるｎ−グラムから、最
も高い出現頻度のフレーズが保持される、請求項２８に
記載の情報検索方法。
【請求項３０】ターム重み付けの情報検索技術が初期
の変換候補を順位付けするために適用される、請求項１
９に記載の情報検索方法。
【請求項３１】ターム重み付けに、関連情報を使用す
るスパーク・ジョーンズ逆コレクション頻度重み付け方
式が適用される、請求項３０に記載の情報検索方法。
【請求項３２】ターム重み付けが、特有の質問型に関
するロバートソン／スパーク・ジョーンズ・ターム重み
を各変換候補に割り当てることである、請求項３０に記
載の情報検索方法。
【請求項３３】関連するドキュメントの数としての、
質問フレーズに一致する質問への回答において、変換候
補ｔｒ_iが出現する場合は、質問／回答対の出現頻度を
計算し、非関連としての回答において、変換候補ｔｒ_iが出現す
る場合は、残りの質問／回答対の数を考慮し、以下の数式【数１】を適用することによって、ウエイトが各変換候補ｔｒ_i
に対して計算される、請求項３０に記載の情報検索方
法。
【請求項３４】ターム選択重みが、各変換候補に対し
て計算される、請求項３０に記載の情報検索方法。
【請求項３５】質問フレーズを有する変換候補ｔｒ_i
の同時出現頻度数をｑｔｆ_i、質問フレーズに関して計
算された変換候補ｔｒ_iの関連性に基づくターム重みを
ｗ_i ⁽¹⁾とするとき、各変換候補ｔｒ_iに対するターム選
択重みｗｔｒ_iが以下の式【数２】ｗｔｒ_i＝ｑｔｆ_i・ｗ_i ⁽¹⁾ により計算される、請求項３４に記載の情報検索方法。
【請求項３６】初期の変換候補を変換フレーズにおけ
る単語の数にしたがってバケットに分類することをさら
に有し、最大バケット変換まで、ターム選択重みの最高値が各バ
ケットから保持される、請求項３４に記載の情報検索方
法。
【請求項３７】分類に先立って、初期の変換候補に所
定のフィルタリングを施し、所定の重み付けを行う、請
求項３６に記載の情報検索方法。
【請求項３８】変換候補の順位付けは、学習データか
ら１組の質問／回答対を検索することと、これら各質問
／回答対および前記変換候補について、各質問に１回の
変換を適用することとを含む、請求項１に記載の情報検
索方法。
【請求項３９】変換候補の順位付けの前に、回答の長
さを増加することにより質問／回答対を分類することを
さらに含む、請求項３８に記載の情報検索方法。
【請求項４０】変換は、情報検索システムによってフ
レーズとして処理されるように符号化される、請求項３
８に記載の情報検索方法。
【請求項４１】利用者によって提示される質問は、学
習データ中の、前記質問に対応する変換候補が与えられ
る整合ページ中の、前記変換候補により形成される問い
合わせの一部を必要とする、請求項３８に記載の情報検
索方法。
【請求項４２】利用者によって提示される質問は、学
習データ中の、前記質問に対応する変換候補が与えられ
る整合ページ中の、前記変換候補により形成される問い
合わせの一部を必要としない、請求項３８に記載の情報
検索方法。
【請求項４３】複数の変換が結合されて１つの問い合
わせが生成される、請求項３８に記載の情報検索方法。
【請求項４４】利用者が提示した質問に対する回答を
含むドキュメントを複数の情報検索エンジンから検索す
る情報検索方法において、前記利用者が提示した質問を、予め設定された、異なる
複数の質問型のうちのいずれかに分類することと、前記分類された質問型を識別する質問フレーズを生成す
ることと、前記利用者により提示された１組の質問およびこれら質
問の回答を予め収集して得られた学習データ中の質問／
回答対から、前記質問フレーズに対応する問い合わせの
ための変換候補を生成することと、前記複数の検索エンジンのうちの目標とする検索エンジ
ン上で前記生成された変換候補を評価することと、前記評価結果に基づいて前記生成された変換候補から最
終変換候補を得、該最終変換候補からなる問い合わせを
前記利用者が提示した質問に代えて前記目標とする検索
エンジン上に提出することとを含むことを特徴とする情
報検索方法。
【請求項４５】利用者が提示した質問は、類似してい
る目標によって分類される、請求項４４に記載の情報検
索方法。
【請求項４６】質問フレーズは、所定の長さの範囲の
単語のすべてに対して、学習データ中に隣接して存在す
る、質問を示すｎ個の文字または単語の組の出現頻度の
統計であるｎ−グラムを計算することによって生成さ
れ、前記すべてのｎ−グラムを学習データ中の質問の始
めに置く、請求項４４に記載の情報検索方法。
【請求項４７】少なくとも長さが最小の質問フレーズ
のカウント回発生するすべてのｎ−グラムが、質問フレ
ーズを生成するために使用される、請求項４６に記載の
情報検索方法。
【請求項４８】前記生成されたフレーズに所定のフィ
ルタリングを施すことをさらに含む、請求項４４に記載
の情報検索方法。
【請求項４９】所定のフィルタリングに、自然言語処
理技術が使用される、請求項４８に記載の情報検索方
法。
【請求項５０】自然言語処理技術は、品詞タグ付けで
ある、請求項４９に記載の情報検索方法。
【請求項５１】品詞タグ付けに、ブリルの品詞タガー
が使用される、請求項５０に記載の情報検索方法。
【請求項５２】自然言語処理技術が、特徴選択技術で
ある、請求項４９に記載の情報検索方法。
【請求項５３】情報検索エンジン上での評価に先立っ
て、問い合わせ変換候補に対して、所定のフィルタリン
グを施し、所定の重み付けを行って順位付けをすること
をさらに含む請求項４４に記載の情報検索方法。
【請求項５４】所定のフィルタリングに自然言語処理
技術が使用される、請求項５３に記載の情報検索方法。
【請求項５５】問い合わせのための変換候補の生成
は、初期の変換候補を生成することを含み、前記初期の変換候補は、学習データ中における最少同時
出現によりフィルタリングされる、請求項５４に記載の
情報検索方法。
【請求項５６】問い合わせのための変換候補の生成
は、初期変換フレーズ候補を生成することを含む、請求
項５３に記載の情報検索方法。
【請求項５７】初期変換フレーズ候補に所定のフィル
タリングを施す、請求項４４に記載の情報検索方法。
【請求項５８】学習データ中の質問／回答対に、品詞
タガーによりタグ付けを行う、請求項４４に記載の情報
検索方法。
【請求項５９】初期変換フレーズ候補は、名詞を含む
フレーズを含み、該名詞を含むフレーズを除外すること
によりフィルタリングを行う、請求項５７に記載の情報
検索方法。
【請求項６０】利用者が提示した質問に対する回答を
含むドキュメントを複数の情報検索エンジンから検索す
る情報検索方法において、前記利用者が提示した質問を、予め定められた、異なる
質問型のうちのいずれかに分類することと、所定の変換規則に従って、前記分類された質問型を識別
する質問フレーズに対応する変換候補の組を取得し、該
変換候補の組を用いて前記質問を問い合わせに書き換え
ることと、前記問い合わせを前記複数の検索エンジンに提出するこ
とと、前記問い合わせに応じて前記複数の検索エンジンが返し
たドキュメントをそれぞれ分析し、前記問い合わせに関
するドキュメントの類似性に基づいて各ドキュメントに
スコアを付けることと、前記ドキュメントのそれぞれを、前記スコアに基づいて
順位付けすることと、前記利用者が提示した質問に対する回答として、前記順
位付けがなされたドキュメントのうちの上位のドキュメ
ントを提供することとを含むことを特徴とする情報検索
方法。
【請求項６１】利用者が提示した質問に対する回答を
予め蓄積された情報から検索する情報検索システムにお
いて、前記質問および回答を収集して学習データを作成し、該
学習データ中の質問を所定のカテゴリー別に識別する１
組の質問フレーズを生成する質問フレーズ生成手段と、前記１組の質問フレーズのそれぞれのフレーズに対し
て、前記学習データ中の回答から変換候補を生成し、該
生成した変換候補のそれぞれに対して、前記学習データ
中の回答における出現頻度の度合に応じた重みを付け、
該重みに基づいて順位付けする変換候補生成手段とを有
することを特徴とする情報検索システム。
【請求項６２】利用者が提示した質問に対する回答を
含むドキュメントを複数の情報検索エンジンから検索す
る情報検索システムにおいて、前記利用者が提示した質問を、予め設定された、異なる
複数の質問型のうちのいずれかに分類し、該分類した質
問型を識別する質問フレーズを生成する質問フレーズ生
成手段と、前記利用者により提示された１組の質問およびこれら質
問の回答を予め収集して得られた学習データ中の質問／
回答対から、前記質問フレーズ生成手段により生成され
た質問フレーズに対応する変換候補を生成する変換候補
生成手段と、前記複数の検索エンジンのうちの目標とする検索エンジ
ン上で前記変換候補生成手段にて生成された変換候補を
評価し、該評価結果に基づいて前記変換候補生成手段に
て生成された変換候補から最終変換候補を得る評価手段
と、を有し、前記最終変換候補からなる問い合わせが前記利用者が提
示した質問に代えて前記目標とする検索エンジン上に提
出されることを特徴とする情報検索システム。
【請求項６３】利用者が提示した質問に対する回答を
含むドキュメントを複数の情報検索エンジンから検索す
る情報検索システムにおいて、前記利用者が提示した質問を、予め設定された、異なる
質問型のうちのいずれかに分類し、該分類された質問型
を識別する質問フレーズを生成する質問フレーズ生成手
段と、所定の変換規則に従って、前記分類された質問型を識別
する質問フレーズに対応する変換候補の組を取得し、該
変換候補の組を用いて前記質問を問い合わせに書き換え
る再定式化手段と、を有し、前記再定式化手段は、前記問い合わせを前記複数の検索エンジンに提出する手
段と、前記問い合わせに応じて前記複数の検索エンジンが返し
たドキュメントをそれぞれ分析し、前記問い合わせに関
するドキュメントの類似性に基づいて各ドキュメントに
スコアを付ける手段と、前記ドキュメントのそれぞれを、前記スコアに基づいて
順位付けする手段と、前記利用者が提示した質問に対する回答として、前記順
位付けがなされたドキュメントのうちの上位のドキュメ
ントを提供する手段とを有することを特徴とする情報検
索システム。
【請求項６４】利用者が提示した質問に対する回答を
予め蓄積された情報から検索する情報検索システムにお
いて用いられるプログラムであって、前記質問および回答を収集して学習データを作成する処
理と、前記学習データ中の質問を所定のカテゴリー別に識別す
る１組の質問フレーズを生成する処理と、前記１組の質問フレーズのそれぞれのフレーズに対し
て、前記学習データ中の回答から変換候補を生成する処
理と、前記変換候補のそれぞれに対して、前記学習データ中の
回答における出現頻度の度合に応じた重みを付ける処理
と、前記変換候補のそれぞれを、前記重みに基づいて順位付
けする処理とをコンピュータに実行させるプログラム。
【請求項６５】利用者が提示した質問に対する回答を
含むドキュメントを複数の情報検索エンジンから検索す
る情報検索システムにおいて用いられるプログラムであ
って、前記利用者が提示した質問を、予め設定された、異なる
複数の質問型のうちのいずれかに分類する処理と、前記分類された質問型を識別する質問フレーズを生成す
る処理と、前記利用者により提示された１組の質問およびこれら質
問の回答を予め収集して得られた学習データ中の質問／
回答対から、前記質問フレーズに対応する問い合わせの
ための変換候補を生成する処理と、前記複数の検索エンジンのうちの目標とする検索エンジ
ン上で前記生成された変換候補を評価する処理と、前記評価結果に基づいて前記生成された変換候補から最
終変換候補を得、該最終変換候補からなる問い合わせを
前記利用者が提示した質問に代えて前記目標とする検索
エンジン上に提出する処理とをコンピュータに実行させ
るプログラム。
【請求項６６】利用者が提示した質問に対する回答を
含むドキュメントを複数の情報検索エンジンから検索す
る情報検索システムにおいて用いられるプログラムであ
って、前記利用者が提示した質問を、予め定められた、異なる
質問型のうちのいずれかに分類する処理と、所定の変換規則に従って、前記分類された質問型を識別
する質問フレーズに対応する変換候補の組を取得し、該
変換候補の組を用いて前記質問を問い合わせに書き換え
る処理と、前記問い合わせを前記複数の検索エンジンに提出する処
理と、前記問い合わせに応じて前記複数の検索エンジンが返し
たドキュメントをそれぞれ分析し、前記問い合わせに関
するドキュメントの類似性に基づいて各ドキュメントに
スコアを付ける処理と、前記ドキュメントのそれぞれを、前記スコアに基づいて
順位付けすることと、前記利用者が提示した質問に対する回答として、前記順
位付けがなされたドキュメントのうちの上位のドキュメ
ントを提供する処理とをコンピュータに実行させるプロ
グラム。