JP2002297651A - 情報検索方法、情報検索システム、およびプログラム - Google Patents

情報検索方法、情報検索システム、およびプログラム

Info

Publication number
JP2002297651A
JP2002297651A JP2002007403A JP2002007403A JP2002297651A JP 2002297651 A JP2002297651 A JP 2002297651A JP 2002007403 A JP2002007403 A JP 2002007403A JP 2002007403 A JP2002007403 A JP 2002007403A JP 2002297651 A JP2002297651 A JP 2002297651A
Authority
JP
Japan
Prior art keywords
question
phrase
answer
conversion
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002007403A
Other languages
English (en)
Other versions
JP3719415B2 (ja
Inventor
Ajikutain Yabujenii
アジクタイン ヤブジェニー
Robert Lawrence Stephen
ロバート ローレンス ステファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2002297651A publication Critical patent/JP2002297651A/ja
Application granted granted Critical
Publication of JP3719415B2 publication Critical patent/JP3719415B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 利用者が提示した質問の最適な問い合わせへ
の変換を自動的に学習することのできる情報検索方法を
提供する。 【解決手段】 利用者が提示した質問に対する回答を予
め蓄積された情報から検索する情報検索方法において、
上記質問および回答を収集して学習データを作成するこ
とと、上記学習データ中の質問を所定のカテゴリー別に
識別する1組の質問フレーズを生成することと(1
0)、上記1組の質問フレーズのそれぞれのフレーズに
対して、上記学習データ中の回答から変換候補を生成す
ることと(20)、上記変換候補のそれぞれに対して、
上記学習データ中の回答における出現頻度の度合に応じ
た重みを付けることと、上記変換候補のそれぞれを、上
記重みに基づいて順位付けすることとを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、利用者の質問に対
する回答を大量に蓄えられたデータ(情報)から検索す
る方法およびシステムに関し、特に、検索処理に自然言
語処理を利用する情報検索方法および情報検索システム
に関する。さらには、本発明はそのような情報検索を実
現するプログラムに関する。
【0002】
【従来の技術】インターネットの普及に伴い、利用者は
インターネットを介して種々の情報(ニュース、論文、
書物、特許など)を取得できるようになった。インター
ネット上に公開されている情報の取得には、通常、We
b上の検索エンジンが利用される。利用者は、所望の情
報を得るために必要な質問を検索エンジンに提出し、検
索エンジンが検索した複数の情報(複数のドキュメン
ト)を閲覧することで、目的の情報を取得する。
【0003】最近では、検索処理に自然言語処理技術が
導入され、毎日、かなりの数の自然言語質問(たとえ
ば、「What is a hard disk」)がWeb上の検索エン
ジンに提出されるようになってきており、ますます多く
のWeb上の検索サービスが自然言語質問を具体的に目
標とするようになってきている。たとえば、あるサービ
スは、プレコンパイルされた情報、メタサーチング、お
よび他の独占的な方法のデータベースを使用している
が、他のサービスはヒューマンエキスパートとの相互作
用を容易にしている。
【0004】多くのWeb検索エンジンは、一般に、自
然言語質問をターム(例えば、検索対象となる文書の内
容を特徴付ける単語)の集まりとして取り扱い、このタ
ームの集まりからなる本来の問い合わせと類似している
ドキュメントを検索する。しかし、最良の回答のドキュ
メントは、本来の問い合わせからのわずかなタームしか
含んでおらず、検索エンジンによって低い順位が付けら
れる。この問い合わせは、検索エンジンがそれを質問と
して認識することで、より正確に回答することができ
る。
【0005】多くの場合、自然言語質問(たとえば、
「How do I tie shoelaces?」)を、そのままの形で検
索エンジンに提出することは不十分である。ほとんどの
検索エンジンは、上記の如く、そのような問い合わせを
タームの集合として取り扱い、本来の問い合わせに類似
している文献を検索する。しかしながら、最良の回答の
ドキュメントは、本来の問い合わせの中に存在する1つ
あるいは2つのタームしか含んでいない。そのため、そ
のような有用なドキュメントは、検索エンジンにより低
い順位が付けられ、最初の結果のページしか見ない典型
的なユーザーは、決してそれを調べることはない。
【0006】質問「What is a hard disk?」を例に、最
良の回答を得るための問い合わせを以下に簡単に説明す
る。
【0007】この問い合わせに対する最良の回答のドキ
ュメントは、汎用目的の検索エンジンにより返される可
能性のあるディスク記憶装置製造業者の会社Webサイ
トではなく、むしろハードディスクの定義あるいは説明
のあるハードウェアのチュートリアルあるいは用語解説
ページである。したがって、「ハードディスク:データ
を蓄積するために使用され、対応する読み取り/書き込
みヘッドおよび電子回路を有し、中央の軸の周りを回転
する1つ以上の硬くて曲がらない磁気ディスク・・・」
のような回答を含む応答が望ましい。このハードディス
クの定義は、本来の質問を{「hard disk」NEAR「u
sed to」}(ここで、「NEAR」は演算子であり、こ
の場合は、「hard disk」と「used to」のフレーズを共
に含むページの検索で、両フレーズが近い位置にある順
に表示することを意味する。)という問い合わせ(検索
条件)に変換することによって検索することができる。
このように、「used to」というフレーズを要求するこ
とにより、大部分の検索エンジンは、上位に順位付けら
れたドキュメントの1つとしてこの回答を検索すること
ができる。
【0008】多くのシステムは、ドキュメントから回答
を取り出すことを目標としている。たとえば、あるシス
テムは、情報検索システムが返したドキュメントを処理
して回答を取り出す。質問は、回答に対応する実体のタ
イプを識別する1組の既知の「質問タイプ」の1つに分
類される。ドキュメントは実体を識別するためにタグを
付けられ、与えられた質問の正しいタイプの実体を取り
囲んでいる節が、1組の発見的方法を使用して順位付け
られる。また、他のシステムは、最良の節を返すという
目的で、標準の情報検索システムの結果を再順位付け
し、後処理する。質問の回答のために統計的および言語
的な知識を結合し、検索されたドキュメントを後処理す
るために高度な言語フィルタを使用し、質問に回答する
ために最も有望な節を取り出す、というシステムもあ
る。
【0009】上述のシステムは、標準のTF−IDFタ
ーム重み付けスキームの変形を用いて、本来の質問に類
似しているドキュメントあるいは節を検索する一般的な
方法を使用している。ここで、TF−IDFとは、検索
語があるドキュメント中にどれだけ多く出現しているか
という出現頻度を示すTF値(Term Frequency)と、そ
の検索語の出現するドキュメント数を示すIDF値(In
verse Document Frequency)の二つを使用して、検索語
に対するテキストの重要度を計算する手法をいう。ヒュ
ーリスティック(発見的方法)や手作りの規則的な表現
を使用して、最も有望な節が、返されたドキュメントか
ら選択される。この方法は、質問に類似しているドキュ
メントが初めに検索されるので最適なものではない。し
かし、利用者は、実際は回答を含んでいるドキュメント
を探しており、このドキュメントには、本来の質問をす
るために使用されたわずかなタームしか含まれていな
い。これは、Web検索エンジンでよくあるように、ド
キュメントの検索が高価であるか、あるいは、一定数の
ドキュメントに限定されている場合に特に重要である。
【0010】また、上位に順位付けされたドキュメント
におけるタームの関連性に基づいて問い合わせを自動的
に拡大する方法もある。その1つに、本来の問い合わせ
に対して上位に順位付けされたドキュメントにおける、
タームを持つ問い合わせにおけるタームの同時出現に基
づいて、問い合わせを自動的に拡大する方法がある。一
般に、自動的な問い合わせ拡大システムは、元の問い合
わせに応じて情報システムにより返された上位に順位付
けされたドキュメントの初期の組を使用して、問い合わ
せ毎の原則で実行時間で問い合わせを拡大する。
【0011】
【発明が解決しようとする課題】しかしながら、上述の
ように質問「What is a hard disk?」を{「hard dis
k」NEAR「used to」}というような最適な問い合わ
せに変換することを自動的に学習して情報検索に適用す
る技術は、これまでに確立されていない。
【0012】また、各検索エンジンでは、主となる検索
対象の情報(蓄積された情報)が異なるため、同じ問い
合わせであっても異なる情報(ドキュメント)を返す場
合がある。このため、質問を問い合わせへ変換する場合
に、変換された問い合わせが目標となる検索エンジンに
対して最適なものとなるようにする必要がある。しか
し、そのような問い合わせの最適化についても、確立し
た技術はこれまでに提供されていない。
【0013】さらに、上記のように、各検索エンジンは
同じ問い合わせであっても異なる情報(ドキュメント)
を返す場合があるので、各検索エンジンが返す情報(ド
キュメント)をそのまま利用者に提供すると、最良の回
答を上位に順位付けした形で利用者に提供することがで
きなくなる。このため、各検索エンジンが返す情報(ド
キュメント)を、何等かの形で、最良の回答が上位に順
位付されるようにする必要もあった。
【0014】本発明の第1の目的は、利用者が提示した
質問の最適な問い合わせへの変換を自動的に学習するこ
とのできる情報検索方法およびシステム、さらにはその
ようなシステムを実現するプログラムを提供することに
ある。
【0015】本発明の第2の目的は、利用者が提示した
質問の最適な問い合わせへの変換を、各検索エンジン毎
に最適化することのできる、情報検索方法およびシステ
ム、さらにはそのようなシステムを実現するプログラム
を提供することにある。
【0016】本発明の第3の目的は、各検索エンジンか
ら返された情報(ドキュメント)を、最良の回答が上位
に順位付された形で利用者に提供することのできる、情
報検索方法およびシステム、さらにはそのようなシステ
ムを実現するプログラムを提供することにある。
【0017】
【課題を解決するための手段】上記の第1の目的を達成
するため、本発明の第1の情報検索方法は、利用者が提
示した質問に対する回答を予め蓄積された情報から検索
する情報検索方法において、前記質問および回答を収集
して学習データを作成することと、前記学習データ中の
質問を所定のカテゴリー別に識別する1組の質問フレー
ズを生成することと、前記1組の質問フレーズのそれぞ
れのフレーズに対して、前記学習データ中の回答から変
換候補を生成することと、前記変換候補のそれぞれに対
して、前記学習データ中の回答における出現頻度の度合
に応じた重みを付けることと、前記変換候補のそれぞれ
を、前記重みに基づいて順位付けすることとを含むこと
を特徴とする。
【0018】上記の第1の情報検索方法によれば、利用
者が提示した1組の質問およびそれらに対する回答から
学習データが形成され、この学習データ中の質問が、い
くつかの質問型に分類されて、各分類型についてそれぞ
れ質問フレーズが生成される。さらに、生成された質問
フレーズのそれぞれについて、学習データ中の回答から
複数の変換候補が生成される。そして、各質問フレーズ
毎に、各変換候補に対して、学習データ中の回答におけ
る出現頻度の度合に応じた重みが付けられ、該重みに基
づいて順位付けがなされる。
【0019】上記の質問−質問フレーズ−変換候補−順
位付けの一連の処理により得られた変換規則にしたがっ
て、利用者が提出する質問が最適な問い合わせに変換さ
れる。最適な問い合わせには、順位付けがなされた変換
候補のうちの上位の変換候補が使用される。この変換規
則は、利用者が質問を提出する度にその内容が更新され
る。このようにして、利用者が提示した質問の最適な問
い合わせへの変換が自動的に学習される。
【0020】上記の第2の目的を達成するため、本発明
の第2の情報検索方法は、利用者が提示した質問に対す
る回答を含むドキュメントを複数の情報検索エンジンか
ら検索する情報検索方法において、前記利用者が提示し
た質問を、予め設定された、異なる複数の質問型のうち
のいずれかに分類することと、前記分類された質問型を
識別する質問フレーズを生成することと、前記利用者に
より提示された1組の質問およびこれら質問の回答を予
め収集して得られた学習データ中の質問/回答対から、
前記質問フレーズに対応する問い合わせのための変換候
補を生成することと、前記複数の検索エンジンのうちの
目標とする検索エンジン上で前記生成された変換候補を
評価することと、前記評価結果に基づいて前記生成され
た変換候補から最終変換候補を得、該最終変換候補から
なる問い合わせを前記利用者が提示した質問に代えて前
記目標とする検索エンジン上に提出することとを含むこ
とを特徴とする。
【0021】上記の第2の情報検索方法によれば、上述
の第1の情報検索方法で説明した変換規則と同様の変換
規則が用いられ、さらに、変換候補が目標とする検索エ
ンジン上で評価され、該評価結果に基づいて最終変換候
補が得られるようになっている。この最終変換候補を用
いて問い合わせが生成されるので、生成された問い合わ
せは、目標とする検索エンジンに最適なものとなる。
【0022】上記の第3の目的を達成するため、本発明
の第3の情報検索方法は、利用者が提示した質問に対す
る回答を含むドキュメントを複数の情報検索エンジンか
ら検索する情報検索方法において、前記利用者が提示し
た質問を、予め定められた、異なる質問型のうちのいず
れかに分類することと、所定の変換規則に従って、前記
分類された質問型を識別する質問フレーズに対応する変
換候補の組を取得し、該変換候補の組を用いて前記質問
を問い合わせに書き換えることと、前記問い合わせを前
記複数の検索エンジンに提出することと、前記問い合わ
せに応じて前記複数の検索エンジンが返したドキュメン
トをそれぞれ分析し、前記問い合わせに関するドキュメ
ントの類似性に基づいて各ドキュメントにスコアを付け
ることと、前記ドキュメントのそれぞれを、前記スコア
に基づいて順位付けすることと、前記利用者が提示した
質問に対する回答として、前記順位付けがなされたドキ
ュメントのうちの上位のドキュメントを提供することと
を含むことを特徴とする。
【0023】上記の第3の情報検索方法によれば、上述
の第1の情報検索方法で説明したような変換規則が用い
られ、この変換規則にしたがって書き換えられた問い合
わせが各検索エンジンに提出される。そして、その提出
した問い合わせに応じて各検索エンジンが返したドキュ
メントが、その問い合わせに関するドキュメントの類似
性に基づいて分析され、該分析結果が良好な上位のドキ
ュメントが、利用者が提示した質問に対する回答として
利用者に提供される。このように、各検索エンジンから
返されたドキュメントについても、問い合わせに関する
ドキュメントの類似性の高いものが回答として利用者に
提供されるので、利用者は、提出した質問に対する最良
の回答を容易に取得することが可能である。
【0024】上記の第1の目的を達成するため、本発明
の第1の情報検索システムは、利用者が提示した質問に
対する回答を予め蓄積された情報から検索する情報検索
システムにおいて、前記質問および回答を収集して学習
データを作成し、該学習データ中の質問を所定のカテゴ
リー別に識別する1組の質問フレーズを生成する質問フ
レーズ生成手段と、前記1組の質問フレーズのそれぞれ
のフレーズに対して、前記学習データ中の回答から変換
候補を生成し、該生成した変換候補のそれぞれに対し
て、前記学習データ中の回答における出現頻度の度合に
応じた重みを付け、該重みに基づいて順位付けする変換
候補生成手段とを有することを特徴とする。
【0025】上記の第1の情報検索システムにおいて
も、上述した第1の情報検索方法と同様の作用を奏す
る。
【0026】上記の第2の目的を達成するため、本発明
の第2の情報検索システムは、利用者が提示した質問に
対する回答を含むドキュメントを複数の情報検索エンジ
ンから検索する情報検索システムにおいて、前記利用者
が提示した質問を、予め設定された、異なる複数の質問
型のうちのいずれかに分類し、該分類した質問型を識別
する質問フレーズを生成する質問フレーズ生成手段と、
前記利用者により提示された1組の質問およびこれら質
問の回答を予め収集して得られた学習データ中の質問/
回答対から、前記質問フレーズ生成手段により生成され
た質問フレーズに対応する変換候補を生成する変換候補
生成手段と、前記複数の検索エンジンのうちの目標とす
る検索エンジン上で前記変換候補生成手段にて生成され
た変換候補を評価し、該評価結果に基づいて前記変換候
補生成手段にて生成された変換候補から最終変換候補を
得る評価手段とを有し、前記最終変換候補からなる問い
合わせが前記利用者が提示した質問に代えて前記目標と
する検索エンジン上に提出されることを特徴とする。
【0027】上記の第2の情報検索システムにおいて
も、上述した第2の情報検索方法と同様の作用を奏す
る。
【0028】上記の第3の目的を達成するため、本発明
の第3の情報検索システムは、利用者が提示した質問に
対する回答を含むドキュメントを複数の情報検索エンジ
ンから検索する情報検索システムにおいて、前記利用者
が提示した質問を、予め設定された、異なる質問型のう
ちのいずれかに分類し、該分類された質問型を識別する
質問フレーズを生成する質問フレーズ生成手段と、所定
の変換規則に従って、前記分類された質問型を識別する
質問フレーズに対応する変換候補の組を取得し、該変換
候補の組を用いて前記質問を問い合わせに書き換える再
定式化手段と、を有し、前記再定式化手段は、前記問い
合わせを前記複数の検索エンジンに提出する手段と、前
記問い合わせに応じて前記複数の検索エンジンが返した
ドキュメントをそれぞれ分析し、前記問い合わせに関す
るドキュメントの類似性に基づいて各ドキュメントにス
コアを付ける手段と、前記ドキュメントのそれぞれを、
前記スコアに基づいて順位付けする手段と、前記利用者
が提示した質問に対する回答として、前記順位付けがな
されたドキュメントのうちの上位のドキュメントを提供
する手段とを有することを特徴とする。
【0029】上記の第3の情報検索システムにおいて
も、上述した第3の情報検索方法と同様の作用を奏す
る。
【0030】上記の第1の目的を達成するため、本発明
の第1のプログラムは、利用者が提示した質問に対する
回答を予め蓄積された情報から検索する情報検索システ
ムにおいて用いられるプログラムであって、前記質問お
よび回答を収集して学習データを作成する処理と、前記
学習データ中の質問を所定のカテゴリー別に識別する1
組の質問フレーズを生成する処理と、前記1組の質問フ
レーズのそれぞれのフレーズに対して、前記学習データ
中の回答から変換候補を生成する処理と、前記変換候補
のそれぞれに対して、前記学習データ中の回答における
出現頻度の度合に応じた重みを付ける処理と、前記変換
候補のそれぞれを、前記重みに基づいて順位付けする処
理とをコンピュータに実行させることを特徴とする。
【0031】上記の第1のプログラムにおいても、上述
した第1の情報検索方法と同様の作用を奏する。
【0032】上記の第2の目的を達成するため、本発明
の第2のプログラムは、利用者が提示した質問に対する
回答を含むドキュメントを複数の情報検索エンジンから
検索する情報検索システムにおいて用いられるプログラ
ムであって、前記利用者が提示した質問を、予め設定さ
れた、異なる複数の質問型のうちのいずれかに分類する
処理と、前記分類された質問型を識別する質問フレーズ
を生成する処理と、前記利用者により提示された1組の
質問およびこれら質問の回答を予め収集して得られた学
習データ中の質問/回答対から、前記質問フレーズに対
応する問い合わせのための変換候補を生成する処理と、
前記複数の検索エンジンのうちの目標とする検索エンジ
ン上で前記生成された変換候補を評価する処理と、前記
評価結果に基づいて前記生成された変換候補から最終変
換候補を得、該最終変換候補からなる問い合わせを前記
利用者が提示した質問に代えて前記目標とする検索エン
ジン上に提出する処理とをコンピュータに実行させるこ
とを特徴とする。
【0033】上記の第2のプログラムにおいても、上述
した第2の情報検索方法と同様の作用を奏する。
【0034】上記の第3の目的を達成するため、本発明
の第3のプログラムは、利用者が提示した質問に対する
回答を含むドキュメントを複数の情報検索エンジンから
検索する情報検索システムにおいて用いられるプログラ
ムであって、前記利用者が提示した質問を、予め定めら
れた、異なる質問型のうちのいずれかに分類する処理
と、所定の変換規則に従って、前記分類された質問型を
識別する質問フレーズに対応する変換候補の組を取得
し、該変換候補の組を用いて前記質問を問い合わせに書
き換える処理と、前記問い合わせを前記複数の検索エン
ジンに提出する処理と、前記問い合わせに応じて前記複
数の検索エンジンが返したドキュメントをそれぞれ分析
し、前記問い合わせに関するドキュメントの類似性に基
づいて各ドキュメントにスコアを付ける処理と、前記ド
キュメントのそれぞれを、前記スコアに基づいて順位付
けすることと、前記利用者が提示した質問に対する回答
として、前記順位付けがなされたドキュメントのうちの
上位のドキュメントを提供する処理とをコンピュータに
実行させることを特徴とする。
【0035】上記の第3のプログラムにおいても、上述
した第3の情報検索方法と同様の作用を奏する。
【0036】
【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。
【0037】本発明の情報検索方法は、利用者から与え
られた質問(question)、具体的には自然言語質問を定
式化し直すことを学習することから始まり、この変換を
適用することにより実行時間で問い合わせ(query)を
評価することを特徴とするもので、具体的には、以下に
説明するような、質問を有効な問い合わせに変換する学
習工程と、実行時間で問い合わせ評価する工程とを含
む。
【0038】(1)質問を有効な問い合わせに変換する
学習 この学習では、自然言語質問を、その質問に対する回答
(answer)を含むドキュメントに出現すると予想される
タームあるいはフレーズを含む有効な問い合わせに変換
する。
【0039】(1.1)質問フレーズの選択 学習過程1の第1段階10において、各カテゴリーにお
ける質問が類似の目標を有する、異なるカテゴリーの質
問を識別する1組のフレーズを生成する。たとえば、質
問「What is a hard disk?」は、ハードディスクの定義
あるいは解説を利用者が探していることを意味する。こ
の質問の目標は、ハードディスクの定義あるいは解説に
関するドキュメントを取得することにあり、それは質問
フレーズ「What is a」から推測できる。
【0040】この段階の入力は、学習データを構成する
のに必要な質問群である。これらの質問と、それらに対
応する回答(各検索エンジンからの回答)によって学習
データが構成され、この学習データを用いて可能性のあ
る質問フレーズ、すなわち利用者が入力した質問に対し
て良好な回答を得られるような質問フレーズが生成され
る。具体的には、可能性のある質問フレーズは、学習デ
ータの質問群について、長さが「最小Qトークン(minQ
tokens)」から「最大Qトークン(maxQtokens)」の単
語(word)のすべてのn−グラム(フレーズ)の頻度を
計算することにより生成され、すべてのn−グラムは質
問の始めに置かれる。ここで、n−グラムとは、データ
中に隣接して表れるn個の文字あるいは単語の組の出現
頻度の統計をいう。本実施例では、少なくとも「最小Q
フレーズカウント(minQphraseCount)」回を生じるす
べてのn−グラムを使用する。
【0041】この段階の出力は、質問をそれぞれの質問
型(question type)に速く分類するために使用可能な
ひと組の質問フレーズである。後に説明する学習コレク
ション内の質問から自動的に生成される質問フレーズの
一例を図2に示す。図2の例には、質問フレーズとして
「what is」、「what are」、「where is」などが示さ
れている。
【0042】この質問フレーズ選択方法は、あまりに具
体的すぎて広く適用することができない多くのフレーズ
を発生することができる。本実施例において、学習は図
3に示す規則的な表現に一致するフレーズに限定され
る。例えば、「what (is / are / were / does / d
o / did / should / can) \ s」のような規則的な
表現によりフレーズが限定される。この規則的な表現
は、ごく一般に使用されている質問に一致しており、本
発明が最も有用なフレーズに資源(リソース)を集中す
ることを可能にする。特徴選択技術、品詞タグ付け、お
よび他の自然言語処理技術が、生成された質問フレーズ
のフィルタリングを微調整するために使用できる。
【0043】質問のカテゴリーを識別するために別の方
法を使用できるが、本n−グラム法は、多数の利点を有
する。例えば、本n−グラム法は、計算的に比較的に低
価格で実行でき、多数のトレーニングの組の処理を可能
にする。また、本n−グラム法は、分野に依存せず、軽
微な修正のみで多くの言語に対して機能を発揮する。さ
らに、本n−グラム法は、後述するような実行時間で質
問を評価する場合、フレーズ・マッチングを使用する質
問の分類は、問い合わせの総合的処理時間において無視
できるオーバーヘッドで組み込むことが可能である。
【0044】(1.2)変換候補の生成およびフィルタ
リング 学習アルゴリズムの第2段階20(図1参照)におい
て、質問を再定式化するために有用な候補タームおよび
候補フレーズを生成する。本実施例においては、次の段
階(検索エンジンの有効性のために、変換候補を評価す
る。図1の段階(3)。)の計算に関する必要条件を削
減するために、フィルタリング処理が施される。変換候
補は、先の学習段階10からの各質問フレーズに対して
生成される。各質問フレーズQP毎に変換候補を生成す
るための手順は、複数の段階、すなわち、初期の変換候
補フレーズを生成することと、最小同時出現度数(mini
mumco-occurrence count)によりこれらのフレーズをフ
ィルタリングすることと、および残りのフレーズに重み
付けを行い更にフィルタリングすることとから成る。各
段階を、以下に詳細に説明する。
【0045】学習過程のこの段階では、上記学習データ
における<質問、回答>対のコレクションを使用する。
このようなコレクションの一例を図4に示す。図4の例
では、質問フレーズ「what is a」に対して、「the ter
m」、「component」、「ans」、「a computer」、「tel
ephone」、「collection of」、「stands for」、「uni
t」という複数の変換候補が設定されている。これらの
変換候補は、学習データにおける回答から生成される。
本学習過程の段階では、テキスト内の各単語に対して句
構造品詞(たとえば、名詞、動詞)を割り当てる品詞タ
ガー(part-of-speech tagger)でタグ付けされたコレ
クションに対して行う。ブリルの品詞タガーは自然言語
処理コミュニティで広く使用されており、容易に利用で
きるので、ブリルの品詞タガーを使用することが望まし
い。
【0046】質問の接頭辞がQPに一致する学習コレク
ション(学習データ)中の各<質問、回答>対(通常、
学習コレクション中には、1つの質問フレーズに関して
複数の<質問、回答>対が存在する。)に対して、それ
ら回答における単語のすべてから、考えられる可能性の
ある回答フレーズ(変換候補)を生成する。具体的に
は、長さが最小Aトークンから最大Aトークンまでの単
語のn−グラムが使用され、回答テキストの最初の最大
長(maxLen)バイトにおけるすべての単語境界で行われ
る。図4に示した例は、この段階の後に生成された回答
フレーズ35の一例である。これらのフレーズ35は、
電子回路あるいはコンピュータの分野にひどく偏ってい
るが、これは、例示した学習コレクションのドキュメン
トの大部分が術語に関連するトピックスであったためで
ある。これらのフレーズがそのまま変換に使用された場
合、問い合わせの意図するトピックを変えるという問題
が発生することが予想される。本発明が学習しようとす
る変換は、検索されたドキュメントの組の正確度を改善
し、さらに本来の問い合わせのトピックを維持するもの
である。したがって、一般的な質問(たとえば、「What
is a rainbow?」)に対して、直感的に、良い変換では
ないはずの「telephone」のようなフレーズは取り除か
れる。
【0047】上記の問題は、名詞を含んでいる初期の変
換候補フレーズを取り除くことにより解決される。問い
合わせの大部分において、名詞は内容語、すなわち問い
合わせのトピックを表す単語である。たとえば、問い合
わせ「what is a rainbow」において、単語「rainbow」
は名詞であり、内容語である。同様に、単語「telephon
e」は名詞である。したがって、最初の変換候補フレー
ズは、生成された回答フレーズが名詞を含むかどうかを
調べることによってフィルタリングされ、名詞を含む場
合にはそのフレーズは廃棄される。このフィルタリング
を実現するために本発明では品詞情報を使用する。はじ
めに説明したように、品詞情報はコレクション全体に対
して1回計算される。
【0048】結果として生ずるn−グラムのうち、最も
高い出現頻度の上位Kフレーズ(topKphrases)が保持
される。タームの重み付けの情報検索技術が、これらの
変換候補を順位付けるために適用される。初めのターム
の重み(term weight)は、望ましくは、「少ない関連
情報の関連ウエイトについて」(ロバートソンおよびウ
ォーカー、SIGIR 97、1997)に記載されて
いるターム重み付け方式を適用することにより、各変換
候補フレーズtiに割り当てられる。
【0049】これらのタームの重みは、OkapiBM
25ドキュメント順位付け方式(document ranking for
mula)で使用されている(「TREC7におけるOka
pi」ロバートソン他、TREC-7 Proceedings、199
8)。多くの情報検索システムは、ドキュメントの間の
類似性を計算するために、ベクトル空間モデルを使用す
る。このモデルでは、類似性は、各ドキュメントを表す
ベクトルの間の点の乗積として計算される。各ベクトル
の要素は、ドキュメントの各ターム毎に、タームの重み
およびタームの出現頻度の組み合わせとして計算され
る。BM25メトリックは類似の考えを使用する。BM
25の本来の定義では、ドキュメントの各タームt
iは、特定の問い合わせトピックに関して、ロバートソ
ン/スパークジョーンズのターム重みwi (1)(「検索タ
ームの関連重み付け」、ロバートソンおよびジョーン
ズ、 Journal of the American Society for Informati
on Science、27:129−146F、1976)が割
り当てられ、次式として計算される。
【0050】
【数3】
【0051】ここで、rはtiを含む関連ドキュメント
の数であり、Nはコレクションのドキュメントの数であ
り、Rは関連ドキュメントの数であり、nはtiを含む
ドキュメントの数である。この重みは、多くの関連ドキ
ュメントとわずかな非関連ドキュメントにおいて出現す
る傾向があるタームに対して高くなるように設計され、
学習データの関連情報の潜在的な疎(sparseness)の原
因となるため平滑化され正規化される。
【0052】BM25の本来の定義では、タームの重み
i (1)は、各問い合わせトピックに特有である。本発明
は、2つの修正を組み込むことにより、変換候補を重み
付けするタスクにこのメトリックを適用する。第1に、
問い合わせトピックは質問型として解釈される。この解
釈では、関連ドキュメントは、質問フレーズ(質問型)
に対応する学習コレクションにおける回答の1つであ
る。したがって、タームの重みwi (1)は、特有の質問型
に関する変換候補triの選択性の推定値である。第2
に、ターム重み付けがフレーズに拡張される。同じ整合
性のある重み付け方式がフレーズに適用され、それらは
単一の単語タームとして同じ方法で扱われる。この重み
は、変換候補triが関連ドキュメントの数としてQP
に一致する質問の回答において出現する<質問、回答>
対の度数を計算し、変換候補triが非関連として回答
において出現する残りの<質問、回答>対の数を考慮
し、また、数式1を適用することによって、各変換候補
tri毎に計算される。
【0053】次に、ターム選択重み(term selection w
eight)wtriが、自動問い合わせ拡張のためにターム
を選択するコンテキストにおいて、「問い合わせ拡大の
ためのターム選択について」(ロバートソン、Journal
of Documentation、vol.46、p.359−64、
1990)に記載されているように、各変換候補tr i
毎に、次式として計算される。
【0054】
【数4】wtri=qtfi・wi (1) (2) ここで、qtfiはQPとtriとの同時出現頻度であ
り、wi (1)はQPに関して計算されたtriの関連性に
もとづくタームの重みである。このターム順位付け法
は、雑音を取り除く目的で、同時出現の統計と関連重み
の両方を利用している。wi (1)は高い識別力を持つター
ムおよびフレーズに高い重みを割り当てるが、qtfi
は質問型と関連する回答においてフレーズが何度出現す
るかの程度である。この段階の出力の一例を図5に示
す。図5において、たとえば、フレーズ「named afte
r」51は質問フレーズ「what is a」52に対する良い
識別器であるが、最終的に高く順位付けされるフレーズ
ほど頻繁には出現しない。識別と出現頻度の間、あるい
は期待精度と再現度の間のこのトレードオフは、特定の
優先度に応じて変更してもよい。
【0055】最後に、変換候補は、変換フレーズにおけ
る単語の数にしたがってバケットに分類され、最大バケ
ット(maxBucket)変換まで、wtriの最高値がバケッ
トから保存される。一般に、長いフレーズは検索エンジ
ンによって異なるように処理されることが望まれ、本段
階は、変換候補の組におけるこのような長く、もしかす
ると高い精度の変換を含むように実行されるが、本来、
高出現頻度の短い変換は他の方法で選択することができ
る。図6に、フレーズ63の一例を、各変換候補バケッ
トからの最も高い選択重み65と共に示す。図6の例で
は、変換長(Transform Length)「3」〜「1」につい
て、それぞれ変換候補triおよびwtriが示されてい
る。変換長「3」には、変換候補として「is used t
o」、「according to the」、「to use a」があり、そ
れぞれのターム選択重みは「32.89」、「23.49」、「2
1.43」である。変換長「2」には、変換候補として「is
a」、「of a」、「refers to」があり、それぞれのタ
ーム選択重みは「298.89」、「94.34」、「81.3」であ
る。変換長「1」には、変換候補として「usually」、
「used」、「refers」があり、それぞれのターム選択重
みは「128.23」、「110.39」、「80.1」である。
【0056】(1.3)検索エンジンを使用する重み付
けおよび再順位付け変換 学習の第3段階および最終段階において、各変換候補t
iの性能(performance)は、異なる情報検索システム
上で評価される。図7に、単一の質問フレーズおよび検
索エンジンに対して1組の変換候補を順位付けるための
望ましいアルゴリズムを示す。この処理は、関心のある
すべての質問フレーズおよび検索エンジンについて繰り
返される。
【0057】アルゴリズムの段階(1)71において、
学習例として使用される1組の<質問、回答>対を検索
する。これは、回答の長さの増加の順位でコレクション
内のすべての<質問、回答>対を分類し、QPから始ま
る質問を含む最初の<質問、回答>対の「numExample
s」までを使用することによって行われる。本実施例は
短い回答を有する質問に対してより正確な評価を得られ
ることを仮定としているので、この分類段階が行われ
る。
【0058】<質問、回答>対の各例および前段階の処
理で生成された変換候補の組に対して、各変換候補tr
iが1度に1つずつ質問に適用される(図7の72)。
質問「Question = [QP C]」を考える。ここで、QPは
質問フレーズであり、Cは質問における残りのタームで
ある。候補変換triを使用すると、QPは除去され、
質問は「Query = (C AND tri)」と書き換えられる。た
とえば、質問フレーズ「what is a」に対して変換候補
「refers to」を考えることができ、<質問、回答>対
として<”what is a lisp machine (lispm)”,”A Li
sp Machine (lispm) is a computer optimized for run
ning Lisp programs, ...”>を考えることができる。
この変換を質問に適用すると、書き換えられた問い合わ
せとして「Query = "[(lisp machine lispm) AND ("ref
ers to")]"」が得られる。適切な問い合わせ構文が、各
検索エンジンに対して使用される。さらに、変換は、そ
れが各検索エンジンによってフレーズとして処理される
ように符号化される。
【0059】問い合わせインタフェイスの構文は、各検
索エンジンに対して変化する。たとえば、AltaVi
staでは、AND演算子の代わりにNEAR演算子を
使用することができる。AltaVistaに提出され
る実際の問い合わせは、「[(lisp machine lispm) NEAR
("refers to")]」となる。Googleは、明示的な
OR演算子のない状態における、暗示的なAND意味を
持つ問い合わせにおいて提示されたすべてのタームを取
り扱う。Googleは、ドキュメントの順位付けに問
い合わせタームの近接を組み入れており、ストップワー
ド・リストに出現するいくつかの単語を廃棄する。
【0060】他の実施例としては、質問を書き換えるた
めの他の可能性、たとえば、整合ページの中の問い合わ
せの一部を要求する、あるいは必要としないこと、およ
び、複数の変換を単一の問い合わせに結合すること、を
組み込むものもある。
【0061】図7の段階(3)73において、書き換え
られた問い合わせ「Query」は、検索エンジンSEに提
出される。SEにより返された上位の結果の多くても1
0が検索される。返されたドキュメントDのそれぞれ
は、段階(4a)74a、(4b)74b、および(4
c)74cで解析される。段階(4a)74aでは、D
のサブドキュメントが生成される。段階(4b)74b
では、回答に最も類似しているDの中のサブドキュメン
トが見出される。段階(4c)74cでは、変換候補t
iのスコアと度数が、回答に関するDの類似性にもと
づいて更新される。以下に段階(4a)〜(4c)にお
ける処理をさらに詳細に説明する。
【0062】段階(4a)74aにおいて、サブドキュ
メントが、より正確な類似性の度合を計算するためにド
キュメントから生成される。本来の回答Aと、変換され
た問い合わせを使用して検索されたドキュメントの1つ
であるドキュメントDを考える。回答が局所化される、
すなわち、キー情報/フレーズの組は互いにごく接近し
て出現する(ただし、長さが「subDocLen」のサブドキ
ュメントの範囲内)と仮定する。回答がサブドキュメン
トの1つの中に完全に存在しない可能性を最小にするた
めに、サブドキュメントは、「subDocLen/2」ワードだ
けオーバーラップする。換言すれば、与えられた問い合
わせQ、ドキュメントD、および「subDocLen = N」が
与えられた場合、Dは、それぞれ連続した位置0、N/
2、N、3N/2、...n/2、n、3N/2から始
まるオーバーラップしているサブドキュメントD1、D
2、D3、D4、...に分割される。
【0063】段階(4b)において、ドキュメントDの
スコアは回答について計算される。「docScore(Answer,
D)」は、Dの中のサブドキュメントDiのそれぞれの類
似性の最高値として定義される。より正式には、「docS
core(Answer, D) = Max(BM25 phrase (Answer, Di))」で
ある。ここで、BM25phraseは、数式1のように計算
されたフレーズ重みを組み込むために修正されたBM2
5メトリックの拡張である。
【0064】本来のBM25メトリックは、前述のよう
に関連重みwi (1)およびトピック頻度を使用し、次式に
より定義される。
【0065】
【数5】
【0066】ここで、k1=1.2、k3=1000、K
=k1((1−b)+b・dl/avdl)、b=0.
5であり、dlはトークン内のドキュメント長であり、
avdlはトークン内の平均ドキュメント長であり、ま
た、wi (1)およびqtfiは前述のように関連重みおよ
び問い合わせトピック頻度である。TREC評価(k2
=0)で使用されていたメトリックの単純化されたバー
ジョンが、この例では使用された。
【0067】BM25phraseメトリックにおいて、加算
(数式3)における「ターム」はフレーズを含み、前述
の説明のように学習データ全体に対して学習された重み
を有する。タームあるいはフレーズtの重みは、次式の
ように計算される。
【0068】
【数6】
【0069】偶然に出くわしたタームが学習コレクショ
ンに存在しないかもしれないので、この多段階の割り当
て処理が使用される。非常に多くのサンプル(TREC Web
Track 「ウェブ検索評価の結果と難問」(ホーキング
他、第8回国際ワールド・ワイド・ウェブ会議(WWW
8)、1999)で使用されたページのコレクションか
ら得られた百万ウェブ・ページ)から導出されたIDF
(Inverse Document Frequency(逆ドキュメント頻度)
の略。これは、希なタームに対して高く、ありふれたタ
ームに対して低い。)重みが使用された。最後のフォー
ルバック問題は、学習データに存在しないフレーズを処
理するためのものである。直感的に、フォールバックの
場合は、複数の単語フレーズ(multi-word phrases)の
重み出現(weight occurrence)を高くなるように調整
した、t内のすべてのタームが同時に出現する確率に逆
比例するフレーズtの重みを割り当てる。
【0070】変換候補を順位付けする総合的な目標は、
多くの関連ドキュメント(本来の回答に類似する)とわ
ずかな非関連ドキュメントを返す傾向がある変換に高い
重みを付けることである。段階(5)75において、変
換triの重みWTiは、本来の学習回答と変換された問
い合わせに応じて返されたドキュメントの間の平均類似
性として計算される。
【0071】
【数7】
【0072】ここで、合計は、サンプルの組の中のすべ
ての<質問、回答>対にわたって計算される。
【0073】学習のこの最終段階の結果は、QPに一致
する質問に対する検索エンジンSEからの回答を検索す
る有効性に関して自動的に順位付けされた1組の変換で
ある。「QP = "what is a"」に関して高く順位付けされ
た変換の2つのサンプルで、AltaVista検索エ
ンジン82について最適化された第1の実例と、Goo
gle検索エンジン83について最適された第2の実例
を図8に示す。
【0074】(2)実行時間問い合わせの再定式化 ひとたび最良の変換の組が質問フレーズ毎に自動的に学
習されると、それらは変換規則として蓄積される。次
に、本発明は、その変換を適用することにより、実行時
間で問い合わせを評価する。これに関する望ましい処理
を図9に示す。
【0075】段階(la)91aにおいて、長い(より
明確な)フレーズを優先し、既知の質問フレーズとマッ
チングすることにより質問を再定式化できるかを決定す
る。例えば、「what is the」は、「what is」より優先
される。段階(1b)91bにおいて、対応する変換の
組が検索される。上位の「numTransforms」変換のみ
が、使用される。
【0076】段階(2)92において、各変換が元の質
問を書き換えるために使用され、1度に1変換ずつ、新
しい問い合わせが生じる。
【0077】段階(3)93において、変換された問い
合わせは検索エンジンに提出され、最初の結果のページ
が検索される。
【0078】段階(4a)94a、(4b)94b、お
よび(4c)94cにおいて、返されたドキュメントが
解析され、変換された問い合わせに関するドキュメント
の類似性にもとづいてスコアが付けられる。ドキュメン
トにスコアを付ける過程は、セクション(1.3)で説
明したものと同じである。段階(4c)94cにおい
て、もしドキュメントが多くの変換の適用により検索さ
れた場合は、ドキュメントの最終スコアは、個々のドキ
ュメントのスコアのそれぞれの最大値である。
【0079】段階(5)95において、返されたドキュ
メントは、それらの最終ドキュメントスコアに関して順
位付けられ、段階(6)96において、上位に順位付け
られた「topKdocs」ドキュメントが最終結果として返さ
れる。
【0080】他の実施形態として、ドキュメントから最
良の1節を抽出するために既存の方法を利用すること、
複数の変換が単一の問い合わせに結合できること、与え
られた質問型に対して最も良く能力を発揮する検索エン
ジンに質問を送ることができること、複数の検索エンジ
ンが同時に使用できること、質問からの内容語を含むフ
レーズ変換が学習できることなどを適用してもよい。
【0081】変換過程は、動的にすることも可能であ
る。たとえば、高い精度を期待できる変換を最初に提出
することができる。受け取った応答にもとづいて、シス
テムが、精度の低い変換を試みる、あるいは元の問い合
わせにフォールバックすることが可能である。
【0082】(情報検索システム)次に、以上説明した
本発明の情報検索方法が適用される情報検索システムの
構成について説明する。
【0083】図10は、本発明の一実施形態である情報
検索システムの概略構成を示すブロック図である。この
情報検索システムは、複数の検索エンジンを介した情報
検索が可能なコンピュータシステムであって、その構成
は大きく分けて、質問変換学習部100と、再定式化部
200とからなる。
【0084】質問変換学習部100は、上述の「(1)
質問を有効な問い合わせに変換する学習」で説明した各
処理を行う部分であって、その構成は、質問フレーズ生
成部111、変換候補生成部112、変換候補評価部1
13からなる。質問フレーズ生成部111が、上述の
「(1.1)質問フレーズの選択」で説明した各処理を
実行し、変換候補生成部112が上述の「(1.2)変
換候補の生成およびフィルタリング」で説明した各処理
を実行し、変換候補評価部113が上述の「(1.3)
検索エンジンを使用する重み付けおよび再順位付け変
換」で説明した各処理を実行する。
【0085】再定式化部200は、上述の「(2)実行
時間問い合わせの再定式化」で説明した各処理を実行す
る部分である。再定式化部200は、具体的には、所定
の変換規則に従って、分類された質問型を識別する質問
フレーズに対応する変換候補の組を取得し、該変換候補
の組を用いて質問を問い合わせに書き換える部分であっ
て、書き換えられた問い合わせを複数の検索エンジンに
提出する処理部と、その問い合わせに応じて複数の検索
エンジンが返したドキュメントをそれぞれ分析し、その
問い合わせに関するドキュメントの類似性に基づいて各
ドキュメントにスコアを付ける処理部と、それらドキュ
メントのそれぞれを、そのスコアに基づいて順位付けす
る処理部と、利用者が提示した質問に対する回答とし
て、その順位付けがなされたドキュメントのうちの上位
のドキュメントを提供する処理部とを含む。
【0086】(プログラム)上記の情報検索システムに
おける各構成部における処理動作は、不図示の記憶装置
(半導体記憶装置、CD−ROMやDVDなどの記録媒
体を含む)に予め記憶されたプログラムをコンピュータ
が読み出して実行することによって行われる。記憶装置
には、上述の「(1.1)質問フレーズの選択」、
「(1.2)変換候補の生成およびフィルタリング」、
「(1.3)検索エンジンを使用する重み付けおよび再
順位付け変換」および「(2)実行時間問い合わせの再
定式化」でそれぞれ説明した各処理に関するプログラム
が記憶されている。
【0087】以上説明したように、本発明の情報検索方
法およびシステムは、質問に対する回答を情報検索シス
テムから検索する能力を改善する問い合わせ変換を学習
する方法を包含する。また、本方法およびシステムは、
質問を異なる質問型に分類することと、質問/回答対の
学習組から問い合わせ変換候補を生成することと、およ
び目標情報検索エンジン上の変換候補を評価することを
含んでいる。自然言語質問を処理するこの技術は、広範
囲の情報検索システムに適用することができる。
【0088】上記の説明の一部は特定の商業的に利用で
きる検索エンジンに言及しているが、本発明は、これに
限定されるものではなく、他の検索エンジンおよびこれ
に類似の検索システム(蓄積情報を検索するシステムな
ど)にも同様に適用することができる。したがって、本
方法およびシステムは、多くの実用的なアプリケーショ
ンを有することは、容易に理解される。
【0089】
【発明の効果】以上説明したように、本発明によれば、
複数の問い合わせ変換を自動的に学習することで、例え
ば、質問「What is a hard disk?」を{「hard disk」
NEAR「used to」}というような最適な問い合わせ
に変換することができるので、利用者に対して、常に、
最良の回答を含む情報(ドキュメント)を提供すること
ができる。
【0090】また、本発明によれば、変換された問い合
わせは、目標とする検索エンジンに対して最適化される
ので、目標とする検索エンジンからは、最良の回答を含
む情報(ドキュメント)が返される。したがって、利用
者に対して、最良の回答を含む情報(ドキュメント)を
安定して提供することができる。
【0091】さらに、本発明によれば、各検索エンジン
が返す情報(ドキュメント)を、最良の回答が上位に順
位付けされた形で利用者に提供される。したがって、利
用者は、最良の回答を含む情報(ドキュメント)を容易
に見出すことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の情報検索方法の手順の概
要を示す説明図である。
【図2】評価のために使用される質問型フレーズを示す
図である。
【図3】フィルタリングのために使用される正規表現の
例を示す図である。
【図4】質問/回答対の例を示す図である。
【図5】質問フレーズに対応する各変換候補とそれら変
換候補の頻度度数、ターム重み、およびターム選択重み
の一例を示す図である。
【図6】バケットに分類された変換候補の一例を示す図
である。
【図7】1組の変換候補を順位付けるアルゴリズムの一
例を示す図である。
【図8】質問フレーズ「what is a」についての変換
を、AltaVistaおよびGoogleに対して自
動的に最適化した一例を示す図である。
【図9】実行時間で質問を評価するためのアルゴリズム
の一例を示す図である。
【図10】本発明の一実施形態の情報検索システムの概
略構成を示すブロック図である。
【符号の説明】
1 学習過程 10、20 段階 35 回答フレーズ 51、63 フレーズ 52 質問フレーズ 65 選択重み 82、83 検索エンジン 91a、91b、92、93、94a〜94c、95、
96 段階 100 質問変換学習部 111 質問フレーズ生成部 112 変換候補生成部 113 変換候補評価部 200 再定式化部
フロントページの続き (72)発明者 ステファン ロバート ローレンス アメリカ合衆国、 ニュージャージー 08540、 プリンストン、 インディペン デンス ウェイ 4 エヌ・イー・シー・ リサーチ・インスティテューテュ・インク 内 Fターム(参考) 5B075 ND03 NK46 NS10 PP24 PR04

Claims (66)

    【特許請求の範囲】
  1. 【請求項1】 利用者が提示した質問に対する回答を予
    め蓄積された情報から検索する情報検索方法において、 前記質問および回答を収集して学習データを作成するこ
    とと、 前記学習データ中の質問を所定のカテゴリー別に識別す
    る1組の質問フレーズを生成することと、 前記1組の質問フレーズのそれぞれのフレーズに対し
    て、前記学習データ中の回答から変換候補を生成するこ
    とと、 前記変換候補のそれぞれに対して、前記学習データ中の
    回答における出現頻度の度合に応じた重みを付けること
    と、 前記変換候補のそれぞれを、前記重みに基づいて順位付
    けすることとを含むことを特徴とする情報検索方法。
  2. 【請求項2】 重み付けに先だって、変換候補に所定の
    フィルタリングを施すことをさらに含む、請求項1に記
    載の情報検索方法。
  3. 【請求項3】 所定のフィルタリングに、自然言語処理
    技術を使用する、請求項2に記載の情報検索方法。
  4. 【請求項4】 自然言語処理技術は、品詞タグ付けであ
    る、請求項3に記載の情報検索方法。
  5. 【請求項5】 品詞タグ付けにブリルの品詞タガーを使
    用する、請求項4に記載の情報検索方法。
  6. 【請求項6】 自然言語処理技術は、特徴選択技術であ
    る、請求項3に記載の情報検索方法。
  7. 【請求項7】 学習データ中の質問を、類似の目標によ
    って分類し、該分類した質問毎にカテゴリーの識別が行
    われる、請求項1に記載の情報検索方法。
  8. 【請求項8】 カテゴリーの識別に、学習データ中に隣
    接して存在する、質問を示すn個の文字または単語の組
    の出現頻度の統計であるn−グラムを計算するn−グラ
    ム法を使用する、請求項7に記載の情報検索方法。
  9. 【請求項9】 質問フレーズは、所定の長さの範囲の単
    語のすべてのn−グラムを計算することによって生成さ
    れ、前記すべてのn−グラムを学習データ中の質問の始
    めに置く、請求項8に記載の情報検索方法。
  10. 【請求項10】 少なくとも長さが最小の質問フレーズ
    のカウント回発生するすべてのn−グラムが、質問フレ
    ーズを生成するために使用される、請求項9に記載の情
    報検索方法。
  11. 【請求項11】 学習データは、利用者により入力され
    た1組の質問から生成される、請求項7に記載の情報検
    索方法。
  12. 【請求項12】 1組の質問フレーズは、学習データ中
    の質問を予め定められた、異なる質問型に分類される、
    請求項7に記載の情報検索方法。
  13. 【請求項13】 1組の質問フレーズのそれぞれのフレ
    ーズに所定のフィルタリングを行う、請求項1に記載の
    情報検索方法。
  14. 【請求項14】 所定のフィルタリングに自然言語処理
    技術を使用する、請求項13に記載の情報検索方法。
  15. 【請求項15】 自然言語処理技術が品詞タグ付けであ
    る、請求項14に記載の情報検索方法。
  16. 【請求項16】 品詞タグ付けにブリルの品詞タガーを
    使用する、請求項15に記載の情報検索方法。
  17. 【請求項17】 自然言語処理技術が特徴選択技術であ
    る、請求項14に記載の情報検索方法。
  18. 【請求項18】 変換候補の生成は、初期の変換候補を
    生成することを含む、請求項1に記載の情報検索方法。
  19. 【請求項19】 初期の変換候補は、学習データ中の質
    問/回答対のコレクションに基づいて生成される、請求
    項18に記載の情報検索方法。
  20. 【請求項20】 初期の変換候補に、所定のフィルタリ
    ングを施す、請求項19に記載の情報検索方法。
  21. 【請求項21】 所定のフィルタリングは、初期の変換
    候補の最少同時出現頻度に基づくフィルタリングであ
    る、請求項20に記載の情報検索方法。
  22. 【請求項22】 初期の変換候補に、所定の重み付けを
    施す、請求項20に記載の情報検索方法。
  23. 【請求項23】 すべての重み付けされた初期の変換候
    補に第2の所定のフィルタリングを施すことをさらに含
    む、請求項22に記載の情報検索方法。
  24. 【請求項24】 質問/回答対のコレクションに、品詞
    タガーでタグを付ける、請求項19に記載の情報検索方
    法。
  25. 【請求項25】 品詞タガーが、ブリルの品詞タガーで
    ある、請求項24に記載の情報検索方法。
  26. 【請求項26】 初期の変換候補は名詞を含むフレーズ
    を含み、該名詞を含むフレーズを除外することによりフ
    ィルタリングを行う、請求項19に記載の情報検索方
    法。
  27. 【請求項27】 すべての予想される回答フレーズは、
    質問の接頭辞が各質問フレーズに一致する各質問/回答
    対の回答の接頭辞におけるすべての単語から生成され
    る、請求項19に記載の情報検索方法。
  28. 【請求項28】 学習データ中の回答テキストの最初の
    所定バイトにおけるすべての単語境界線から始まる所定
    の長さの範囲の単語のn−グラムが使用される、請求項
    27に記載の情報検索方法。
  29. 【請求項29】 結果として生ずるn−グラムから、最
    も高い出現頻度のフレーズが保持される、請求項28に
    記載の情報検索方法。
  30. 【請求項30】 ターム重み付けの情報検索技術が初期
    の変換候補を順位付けするために適用される、請求項1
    9に記載の情報検索方法。
  31. 【請求項31】 ターム重み付けに、関連情報を使用す
    るスパーク・ジョーンズ逆コレクション頻度重み付け方
    式が適用される、請求項30に記載の情報検索方法。
  32. 【請求項32】 ターム重み付けが、特有の質問型に関
    するロバートソン/スパーク・ジョーンズ・ターム重み
    を各変換候補に割り当てることである、請求項30に記
    載の情報検索方法。
  33. 【請求項33】 関連するドキュメントの数としての、
    質問フレーズに一致する質問への回答において、変換候
    補triが出現する場合は、質問/回答対の出現頻度を
    計算し、 非関連としての回答において、変換候補triが出現す
    る場合は、残りの質問/回答対の数を考慮し、 以下の数式 【数1】 を適用することによって、ウエイトが各変換候補tri
    に対して計算される、請求項30に記載の情報検索方
    法。
  34. 【請求項34】 ターム選択重みが、各変換候補に対し
    て計算される、請求項30に記載の情報検索方法。
  35. 【請求項35】 質問フレーズを有する変換候補tri
    の同時出現頻度数をqtfi、質問フレーズに関して計
    算された変換候補triの関連性に基づくターム重みを
    i (1)とするとき、各変換候補triに対するターム選
    択重みwtriが以下の式 【数2】wtri=qtfi・wi (1) により計算される、請求項34に記載の情報検索方法。
  36. 【請求項36】 初期の変換候補を変換フレーズにおけ
    る単語の数にしたがってバケットに分類することをさら
    に有し、 最大バケット変換まで、ターム選択重みの最高値が各バ
    ケットから保持される、請求項34に記載の情報検索方
    法。
  37. 【請求項37】 分類に先立って、初期の変換候補に所
    定のフィルタリングを施し、所定の重み付けを行う、請
    求項36に記載の情報検索方法。
  38. 【請求項38】 変換候補の順位付けは、学習データか
    ら1組の質問/回答対を検索することと、これら各質問
    /回答対および前記変換候補について、各質問に1回の
    変換を適用することとを含む、請求項1に記載の情報検
    索方法。
  39. 【請求項39】 変換候補の順位付けの前に、回答の長
    さを増加することにより質問/回答対を分類することを
    さらに含む、請求項38に記載の情報検索方法。
  40. 【請求項40】 変換は、情報検索システムによってフ
    レーズとして処理されるように符号化される、請求項3
    8に記載の情報検索方法。
  41. 【請求項41】 利用者によって提示される質問は、学
    習データ中の、前記質問に対応する変換候補が与えられ
    る整合ページ中の、前記変換候補により形成される問い
    合わせの一部を必要とする、請求項38に記載の情報検
    索方法。
  42. 【請求項42】 利用者によって提示される質問は、学
    習データ中の、前記質問に対応する変換候補が与えられ
    る整合ページ中の、前記変換候補により形成される問い
    合わせの一部を必要としない、請求項38に記載の情報
    検索方法。
  43. 【請求項43】 複数の変換が結合されて1つの問い合
    わせが生成される、請求項38に記載の情報検索方法。
  44. 【請求項44】 利用者が提示した質問に対する回答を
    含むドキュメントを複数の情報検索エンジンから検索す
    る情報検索方法において、 前記利用者が提示した質問を、予め設定された、異なる
    複数の質問型のうちのいずれかに分類することと、 前記分類された質問型を識別する質問フレーズを生成す
    ることと、 前記利用者により提示された1組の質問およびこれら質
    問の回答を予め収集して得られた学習データ中の質問/
    回答対から、前記質問フレーズに対応する問い合わせの
    ための変換候補を生成することと、 前記複数の検索エンジンのうちの目標とする検索エンジ
    ン上で前記生成された変換候補を評価することと、 前記評価結果に基づいて前記生成された変換候補から最
    終変換候補を得、該最終変換候補からなる問い合わせを
    前記利用者が提示した質問に代えて前記目標とする検索
    エンジン上に提出することとを含むことを特徴とする情
    報検索方法。
  45. 【請求項45】 利用者が提示した質問は、類似してい
    る目標によって分類される、請求項44に記載の情報検
    索方法。
  46. 【請求項46】 質問フレーズは、所定の長さの範囲の
    単語のすべてに対して、学習データ中に隣接して存在す
    る、質問を示すn個の文字または単語の組の出現頻度の
    統計であるn−グラムを計算することによって生成さ
    れ、前記すべてのn−グラムを学習データ中の質問の始
    めに置く、請求項44に記載の情報検索方法。
  47. 【請求項47】 少なくとも長さが最小の質問フレーズ
    のカウント回発生するすべてのn−グラムが、質問フレ
    ーズを生成するために使用される、請求項46に記載の
    情報検索方法。
  48. 【請求項48】 前記生成されたフレーズに所定のフィ
    ルタリングを施すことをさらに含む、請求項44に記載
    の情報検索方法。
  49. 【請求項49】 所定のフィルタリングに、自然言語処
    理技術が使用される、請求項48に記載の情報検索方
    法。
  50. 【請求項50】 自然言語処理技術は、品詞タグ付けで
    ある、請求項49に記載の情報検索方法。
  51. 【請求項51】 品詞タグ付けに、ブリルの品詞タガー
    が使用される、請求項50に記載の情報検索方法。
  52. 【請求項52】 自然言語処理技術が、特徴選択技術で
    ある、請求項49に記載の情報検索方法。
  53. 【請求項53】 情報検索エンジン上での評価に先立っ
    て、問い合わせ変換候補に対して、所定のフィルタリン
    グを施し、所定の重み付けを行って順位付けをすること
    をさらに含む請求項44に記載の情報検索方法。
  54. 【請求項54】 所定のフィルタリングに自然言語処理
    技術が使用される、請求項53に記載の情報検索方法。
  55. 【請求項55】 問い合わせのための変換候補の生成
    は、初期の変換候補を生成することを含み、 前記初期の変換候補は、学習データ中における最少同時
    出現によりフィルタリングされる、請求項54に記載の
    情報検索方法。
  56. 【請求項56】 問い合わせのための変換候補の生成
    は、初期変換フレーズ候補を生成することを含む、請求
    項53に記載の情報検索方法。
  57. 【請求項57】 初期変換フレーズ候補に所定のフィル
    タリングを施す、請求項44に記載の情報検索方法。
  58. 【請求項58】 学習データ中の質問/回答対に、品詞
    タガーによりタグ付けを行う、請求項44に記載の情報
    検索方法。
  59. 【請求項59】 初期変換フレーズ候補は、名詞を含む
    フレーズを含み、該名詞を含むフレーズを除外すること
    によりフィルタリングを行う、請求項57に記載の情報
    検索方法。
  60. 【請求項60】 利用者が提示した質問に対する回答を
    含むドキュメントを複数の情報検索エンジンから検索す
    る情報検索方法において、 前記利用者が提示した質問を、予め定められた、異なる
    質問型のうちのいずれかに分類することと、 所定の変換規則に従って、前記分類された質問型を識別
    する質問フレーズに対応する変換候補の組を取得し、該
    変換候補の組を用いて前記質問を問い合わせに書き換え
    ることと、 前記問い合わせを前記複数の検索エンジンに提出するこ
    とと、 前記問い合わせに応じて前記複数の検索エンジンが返し
    たドキュメントをそれぞれ分析し、前記問い合わせに関
    するドキュメントの類似性に基づいて各ドキュメントに
    スコアを付けることと、 前記ドキュメントのそれぞれを、前記スコアに基づいて
    順位付けすることと、 前記利用者が提示した質問に対する回答として、前記順
    位付けがなされたドキュメントのうちの上位のドキュメ
    ントを提供することとを含むことを特徴とする情報検索
    方法。
  61. 【請求項61】 利用者が提示した質問に対する回答を
    予め蓄積された情報から検索する情報検索システムにお
    いて、 前記質問および回答を収集して学習データを作成し、該
    学習データ中の質問を所定のカテゴリー別に識別する1
    組の質問フレーズを生成する質問フレーズ生成手段と、 前記1組の質問フレーズのそれぞれのフレーズに対し
    て、前記学習データ中の回答から変換候補を生成し、該
    生成した変換候補のそれぞれに対して、前記学習データ
    中の回答における出現頻度の度合に応じた重みを付け、
    該重みに基づいて順位付けする変換候補生成手段とを有
    することを特徴とする情報検索システム。
  62. 【請求項62】 利用者が提示した質問に対する回答を
    含むドキュメントを複数の情報検索エンジンから検索す
    る情報検索システムにおいて、 前記利用者が提示した質問を、予め設定された、異なる
    複数の質問型のうちのいずれかに分類し、該分類した質
    問型を識別する質問フレーズを生成する質問フレーズ生
    成手段と、 前記利用者により提示された1組の質問およびこれら質
    問の回答を予め収集して得られた学習データ中の質問/
    回答対から、前記質問フレーズ生成手段により生成され
    た質問フレーズに対応する変換候補を生成する変換候補
    生成手段と、 前記複数の検索エンジンのうちの目標とする検索エンジ
    ン上で前記変換候補生成手段にて生成された変換候補を
    評価し、該評価結果に基づいて前記変換候補生成手段に
    て生成された変換候補から最終変換候補を得る評価手段
    と、を有し、 前記最終変換候補からなる問い合わせが前記利用者が提
    示した質問に代えて前記目標とする検索エンジン上に提
    出されることを特徴とする情報検索システム。
  63. 【請求項63】 利用者が提示した質問に対する回答を
    含むドキュメントを複数の情報検索エンジンから検索す
    る情報検索システムにおいて、 前記利用者が提示した質問を、予め設定された、異なる
    質問型のうちのいずれかに分類し、該分類された質問型
    を識別する質問フレーズを生成する質問フレーズ生成手
    段と、 所定の変換規則に従って、前記分類された質問型を識別
    する質問フレーズに対応する変換候補の組を取得し、該
    変換候補の組を用いて前記質問を問い合わせに書き換え
    る再定式化手段と、を有し、 前記再定式化手段は、 前記問い合わせを前記複数の検索エンジンに提出する手
    段と、 前記問い合わせに応じて前記複数の検索エンジンが返し
    たドキュメントをそれぞれ分析し、前記問い合わせに関
    するドキュメントの類似性に基づいて各ドキュメントに
    スコアを付ける手段と、 前記ドキュメントのそれぞれを、前記スコアに基づいて
    順位付けする手段と、 前記利用者が提示した質問に対する回答として、前記順
    位付けがなされたドキュメントのうちの上位のドキュメ
    ントを提供する手段とを有することを特徴とする情報検
    索システム。
  64. 【請求項64】 利用者が提示した質問に対する回答を
    予め蓄積された情報から検索する情報検索システムにお
    いて用いられるプログラムであって、 前記質問および回答を収集して学習データを作成する処
    理と、 前記学習データ中の質問を所定のカテゴリー別に識別す
    る1組の質問フレーズを生成する処理と、 前記1組の質問フレーズのそれぞれのフレーズに対し
    て、前記学習データ中の回答から変換候補を生成する処
    理と、 前記変換候補のそれぞれに対して、前記学習データ中の
    回答における出現頻度の度合に応じた重みを付ける処理
    と、 前記変換候補のそれぞれを、前記重みに基づいて順位付
    けする処理とをコンピュータに実行させるプログラム。
  65. 【請求項65】 利用者が提示した質問に対する回答を
    含むドキュメントを複数の情報検索エンジンから検索す
    る情報検索システムにおいて用いられるプログラムであ
    って、 前記利用者が提示した質問を、予め設定された、異なる
    複数の質問型のうちのいずれかに分類する処理と、 前記分類された質問型を識別する質問フレーズを生成す
    る処理と、 前記利用者により提示された1組の質問およびこれら質
    問の回答を予め収集して得られた学習データ中の質問/
    回答対から、前記質問フレーズに対応する問い合わせの
    ための変換候補を生成する処理と、 前記複数の検索エンジンのうちの目標とする検索エンジ
    ン上で前記生成された変換候補を評価する処理と、 前記評価結果に基づいて前記生成された変換候補から最
    終変換候補を得、該最終変換候補からなる問い合わせを
    前記利用者が提示した質問に代えて前記目標とする検索
    エンジン上に提出する処理とをコンピュータに実行させ
    るプログラム。
  66. 【請求項66】 利用者が提示した質問に対する回答を
    含むドキュメントを複数の情報検索エンジンから検索す
    る情報検索システムにおいて用いられるプログラムであ
    って、 前記利用者が提示した質問を、予め定められた、異なる
    質問型のうちのいずれかに分類する処理と、 所定の変換規則に従って、前記分類された質問型を識別
    する質問フレーズに対応する変換候補の組を取得し、該
    変換候補の組を用いて前記質問を問い合わせに書き換え
    る処理と、 前記問い合わせを前記複数の検索エンジンに提出する処
    理と、 前記問い合わせに応じて前記複数の検索エンジンが返し
    たドキュメントをそれぞれ分析し、前記問い合わせに関
    するドキュメントの類似性に基づいて各ドキュメントに
    スコアを付ける処理と、 前記ドキュメントのそれぞれを、前記スコアに基づいて
    順位付けすることと、 前記利用者が提示した質問に対する回答として、前記順
    位付けがなされたドキュメントのうちの上位のドキュメ
    ントを提供する処理とをコンピュータに実行させるプロ
    グラム。
JP2002007403A 2001-03-30 2002-01-16 情報検索方法、情報検索システム、およびプログラム Expired - Fee Related JP3719415B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/823,052 US7269545B2 (en) 2001-03-30 2001-03-30 Method for retrieving answers from an information retrieval system
US09/823052 2001-03-30

Publications (2)

Publication Number Publication Date
JP2002297651A true JP2002297651A (ja) 2002-10-11
JP3719415B2 JP3719415B2 (ja) 2005-11-24

Family

ID=25237668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002007403A Expired - Fee Related JP3719415B2 (ja) 2001-03-30 2002-01-16 情報検索方法、情報検索システム、およびプログラム

Country Status (2)

Country Link
US (1) US7269545B2 (ja)
JP (1) JP3719415B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014533407A (ja) * 2011-11-15 2014-12-11 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索方法、検索装置及び検索エンジンシステム
US10289674B2 (en) 2014-10-30 2019-05-14 International Business Machines Corporation Generation apparatus, generation method, and program
JP2020035135A (ja) * 2018-08-29 2020-03-05 株式会社日立製作所 質問回答システム、質問回答処理方法、及び質問回答統合システム

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP2004118740A (ja) * 2002-09-27 2004-04-15 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
JP3882048B2 (ja) * 2003-10-17 2007-02-14 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7996419B2 (en) 2004-03-31 2011-08-09 Google Inc. Query rewriting with entity detection
US7840547B1 (en) 2004-03-31 2010-11-23 Google Inc. Methods and systems for efficient query rewriting
US7536382B2 (en) * 2004-03-31 2009-05-19 Google Inc. Query rewriting with entity detection
US20060047637A1 (en) * 2004-09-02 2006-03-02 Microsoft Corporation System and method for managing information by answering a predetermined number of predefined questions
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4650072B2 (ja) * 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7529736B2 (en) * 2005-05-06 2009-05-05 Microsoft Corporation Performant relevance improvements in search query results
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text
US7707204B2 (en) * 2005-12-13 2010-04-27 Microsoft Corporation Factoid-based searching
US8612229B2 (en) * 2005-12-15 2013-12-17 Nuance Communications, Inc. Method and system for conveying an example in a natural language understanding application
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US8983977B2 (en) * 2006-03-01 2015-03-17 Nec Corporation Question answering device, question answering method, and question answering program
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US20080133365A1 (en) * 2006-11-21 2008-06-05 Benjamin Sprecher Targeted Marketing System
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US8528808B2 (en) 2007-05-06 2013-09-10 Varcode Ltd. System and method for quality management utilizing barcode indicators
US8005842B1 (en) 2007-05-18 2011-08-23 Google Inc. Inferring attributes from search queries
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8051073B2 (en) * 2007-06-26 2011-11-01 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US9063975B2 (en) * 2013-03-15 2015-06-23 International Business Machines Corporation Results of question and answer systems
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
KR100930455B1 (ko) * 2007-09-06 2009-12-08 엔에이치엔(주) 쿼리별 검색 컬렉션 생성 방법 및 시스템
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
US8500014B2 (en) 2007-11-14 2013-08-06 Varcode Ltd. System and method for quality management utilizing barcode indicators
JP5203979B2 (ja) * 2008-02-06 2013-06-05 株式会社東芝 自動分析装置
US10482114B2 (en) * 2008-03-27 2019-11-19 Oath Inc. System and method for maintenance of questions and answers through collaborative and community editing
US8219385B2 (en) * 2008-04-08 2012-07-10 Incentive Targeting, Inc. Computer-implemented method and system for conducting a search of electronically stored information
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US8112269B2 (en) * 2008-08-25 2012-02-07 Microsoft Corporation Determining utility of a question
US20100063797A1 (en) * 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
US8019753B2 (en) * 2008-09-11 2011-09-13 Intuit Inc. Method and system for generating a dynamic help document
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
US8631007B1 (en) * 2008-12-09 2014-01-14 Google Inc. Disambiguating keywords and other query terms used to select sponsored content
US8805877B2 (en) * 2009-02-11 2014-08-12 International Business Machines Corporation User-guided regular expression learning
US8983969B2 (en) * 2009-07-16 2015-03-17 International Business Machines Corporation Dynamically compiling a list of solution documents for information technology queries
WO2011053830A2 (en) * 2009-10-30 2011-05-05 Google Inc. Social search engine
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US11122009B2 (en) 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US8311792B1 (en) * 2009-12-23 2012-11-13 Intuit Inc. System and method for ranking a posting
CN102884518A (zh) 2010-02-01 2013-01-16 金格软件有限公司 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
US9098808B1 (en) 2010-04-22 2015-08-04 Google Inc. Social search engine
US8429098B1 (en) 2010-04-30 2013-04-23 Global Eprocure Classification confidence estimating tool
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
EP2622428A4 (en) 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US20130086024A1 (en) * 2011-09-29 2013-04-04 Microsoft Corporation Query Reformulation Using Post-Execution Results Analysis
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US20140067816A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Surfacing entity attributes with search results
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9280908B2 (en) 2013-03-15 2016-03-08 International Business Machines Corporation Results of question and answer systems
US9342796B1 (en) * 2013-09-16 2016-05-17 Amazon Technologies, Inc. Learning-based data decontextualization
US10002177B1 (en) 2013-09-16 2018-06-19 Amazon Technologies, Inc. Crowdsourced analysis of decontextualized data
US9984127B2 (en) 2014-01-09 2018-05-29 International Business Machines Corporation Using typestyles to prioritize and rank search results
US9378273B2 (en) 2014-03-13 2016-06-28 International Business Machines Corporation System and method for question answering by reformulating word problems
US9846738B2 (en) 2014-12-05 2017-12-19 International Business Machines Corporation Dynamic filter optimization in deep question answering systems
WO2016093837A1 (en) * 2014-12-11 2016-06-16 Hewlett Packard Enterprise Development Lp Determining term scores based on a modified inverse domain frequency
US10475043B2 (en) 2015-01-28 2019-11-12 Intuit Inc. Method and system for pro-active detection and correction of low quality questions in a question and answer based customer support system
US10366107B2 (en) 2015-02-06 2019-07-30 International Business Machines Corporation Categorizing questions in a question answering system
US10795921B2 (en) * 2015-03-27 2020-10-06 International Business Machines Corporation Determining answers to questions using a hierarchy of question and answer pairs
US10083213B1 (en) * 2015-04-27 2018-09-25 Intuit Inc. Method and system for routing a question based on analysis of the question content and predicted user satisfaction with answer content before the answer content is generated
US10755294B1 (en) 2015-04-28 2020-08-25 Intuit Inc. Method and system for increasing use of mobile devices to provide answer content in a question and answer based customer support system
US10134050B1 (en) 2015-04-29 2018-11-20 Intuit Inc. Method and system for facilitating the production of answer content from a mobile device for a question and answer based customer support system
CN107615027B (zh) 2015-05-18 2020-03-27 发可有限公司 用于可激活质量标签的热致变色墨水标记
US10447777B1 (en) 2015-06-30 2019-10-15 Intuit Inc. Method and system for providing a dynamically updated expertise and context based peer-to-peer customer support system within a software application
JP6898298B2 (ja) 2015-07-07 2021-07-07 バーコード リミティド 電子品質表示指標
US10147037B1 (en) 2015-07-28 2018-12-04 Intuit Inc. Method and system for determining a level of popularity of submission content, prior to publicizing the submission content with a question and answer support system
US10475044B1 (en) 2015-07-29 2019-11-12 Intuit Inc. Method and system for question prioritization based on analysis of the question content and predicted asker engagement before answer content is generated
US10268956B2 (en) 2015-07-31 2019-04-23 Intuit Inc. Method and system for applying probabilistic topic models to content in a tax environment to improve user satisfaction with a question and answer customer support system
JP6544131B2 (ja) * 2015-08-14 2019-07-17 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10394804B1 (en) 2015-10-08 2019-08-27 Intuit Inc. Method and system for increasing internet traffic to a question and answer customer support system
US10242093B2 (en) 2015-10-29 2019-03-26 Intuit Inc. Method and system for performing a probabilistic topic analysis of search queries for a customer support system
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
JP6649582B2 (ja) * 2016-02-23 2020-02-19 富士通株式会社 検索制御プログラム、検索制御装置及び検索制御方法
US10599699B1 (en) 2016-04-08 2020-03-24 Intuit, Inc. Processing unstructured voice of customer feedback for improving content rankings in customer support systems
US11200510B2 (en) 2016-07-12 2021-12-14 International Business Machines Corporation Text classifier training
US9940323B2 (en) * 2016-07-12 2018-04-10 International Business Machines Corporation Text classifier operation
US10162734B1 (en) 2016-07-20 2018-12-25 Intuit Inc. Method and system for crowdsourcing software quality testing and error detection in a tax return preparation system
US10460398B1 (en) 2016-07-27 2019-10-29 Intuit Inc. Method and system for crowdsourcing the detection of usability issues in a tax return preparation system
US10467541B2 (en) 2016-07-27 2019-11-05 Intuit Inc. Method and system for improving content searching in a question and answer customer support system by using a crowd-machine learning hybrid predictive model
US10445332B2 (en) 2016-09-28 2019-10-15 Intuit Inc. Method and system for providing domain-specific incremental search results with a customer self-service system for a financial management system
US10572954B2 (en) 2016-10-14 2020-02-25 Intuit Inc. Method and system for searching for and navigating to user content and other user experience pages in a financial management system with a customer self-service system for the financial management system
US10733677B2 (en) 2016-10-18 2020-08-04 Intuit Inc. Method and system for providing domain-specific and dynamic type ahead suggestions for search query terms with a customer self-service system for a tax return preparation system
US10552843B1 (en) 2016-12-05 2020-02-04 Intuit Inc. Method and system for improving search results by recency boosting customer support content for a customer self-help system associated with one or more financial management systems
US10748157B1 (en) 2017-01-12 2020-08-18 Intuit Inc. Method and system for determining levels of search sophistication for users of a customer self-help system to personalize a content search user experience provided to the users and to increase a likelihood of user satisfaction with the search experience
US20180203856A1 (en) * 2017-01-17 2018-07-19 International Business Machines Corporation Enhancing performance of structured lookups using set operations
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
US10922367B2 (en) 2017-07-14 2021-02-16 Intuit Inc. Method and system for providing real time search preview personalization in data management systems
CN110020096B (zh) * 2017-07-24 2021-09-07 北京国双科技有限公司 基于查询的分类器训练方法和装置
US10387572B2 (en) * 2017-09-15 2019-08-20 International Business Machines Corporation Training data update
US11093951B1 (en) 2017-09-25 2021-08-17 Intuit Inc. System and method for responding to search queries using customer self-help systems associated with a plurality of data management systems
US11436642B1 (en) 2018-01-29 2022-09-06 Intuit Inc. Method and system for generating real-time personalized advertisements in data management self-help systems
US10839454B2 (en) 2018-03-13 2020-11-17 Bank Of America Corporation System and platform for execution of consolidated resource-based action
US11269665B1 (en) 2018-03-28 2022-03-08 Intuit Inc. Method and system for user experience personalization in data management systems using machine learning
CN109858028B (zh) * 2019-01-30 2022-11-18 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109977292B (zh) * 2019-03-21 2022-12-27 腾讯科技(深圳)有限公司 搜索方法、装置、计算设备和计算机可读存储介质
US11531818B2 (en) * 2019-11-15 2022-12-20 42 Maru Inc. Device and method for machine reading comprehension question and answer

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793364A (ja) * 1993-09-24 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 文形式変換装置
JPH0944523A (ja) * 1995-07-27 1997-02-14 Fuji Xerox Co Ltd 関連語提示装置
JPH11191114A (ja) * 1997-10-10 1999-07-13 Nec Corp メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン
JPH11338864A (ja) * 1998-05-25 1999-12-10 Sharp Corp 学習機能付き検索装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
US6028601A (en) * 1997-04-01 2000-02-22 Apple Computer, Inc. FAQ link creation between user's questions and answers
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6070133A (en) * 1997-07-21 2000-05-30 Battelle Memorial Institute Information retrieval system utilizing wavelet transform
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6374241B1 (en) * 1999-03-31 2002-04-16 Verizon Laboratories Inc. Data merging techniques
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7831688B2 (en) * 2000-06-06 2010-11-09 Adobe Systems Incorporated Method and system for providing electronic user assistance
US20020026435A1 (en) * 2000-08-26 2002-02-28 Wyss Felix Immanuel Knowledge-base system and method
US6678679B1 (en) * 2000-10-10 2004-01-13 Science Applications International Corporation Method and system for facilitating the refinement of data queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793364A (ja) * 1993-09-24 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 文形式変換装置
JPH0944523A (ja) * 1995-07-27 1997-02-14 Fuji Xerox Co Ltd 関連語提示装置
JPH11191114A (ja) * 1997-10-10 1999-07-13 Nec Corp メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン
JPH11338864A (ja) * 1998-05-25 1999-12-10 Sharp Corp 学習機能付き検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014533407A (ja) * 2011-11-15 2014-12-11 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索方法、検索装置及び検索エンジンシステム
US10289674B2 (en) 2014-10-30 2019-05-14 International Business Machines Corporation Generation apparatus, generation method, and program
US10296579B2 (en) 2014-10-30 2019-05-21 International Business Machines Corporation Generation apparatus, generation method, and program
JP2020035135A (ja) * 2018-08-29 2020-03-05 株式会社日立製作所 質問回答システム、質問回答処理方法、及び質問回答統合システム
JP7169125B2 (ja) 2018-08-29 2022-11-10 株式会社日立製作所 質問回答システム、質問回答処理方法、及び質問回答統合システム

Also Published As

Publication number Publication date
JP3719415B2 (ja) 2005-11-24
US20020169595A1 (en) 2002-11-14
US7269545B2 (en) 2007-09-11

Similar Documents

Publication Publication Date Title
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
Agichtein et al. Learning search engine specific query transformations for question answering
US7676452B2 (en) Method and apparatus for search optimization based on generation of context focused queries
US6088692A (en) Natural language method and system for searching for and ranking relevant documents from a computer database
US5937422A (en) Automatically generating a topic description for text and searching and sorting text by topic using the same
US6633868B1 (en) System and method for context-based document retrieval
US6460029B1 (en) System for improving search text
US6601059B1 (en) Computerized searching tool with spell checking
US6513031B1 (en) System for improving search area selection
US6167397A (en) Method of clustering electronic documents in response to a search query
US6751606B1 (en) System for enhancing a query interface
US6076051A (en) Information retrieval utilizing semantic representation of text
US6947920B2 (en) Method and system for response time optimization of data query rankings and retrieval
US6567805B1 (en) Interactive automated response system
US6993517B2 (en) Information retrieval system for documents
JP3270783B2 (ja) 複数の文書検索方法
US6282538B1 (en) Method and apparatus for generating query responses in a computer-based document retrieval system
US6286000B1 (en) Light weight document matcher
US20040117352A1 (en) System for answering natural language questions
US20040167875A1 (en) Information processing method and system
US11055295B1 (en) Method and apparatus for determining search result demographics
Agichtein et al. Learning to find answers to questions on the web
JP2004534324A (ja) 索引付きの拡張可能な対話的文書検索システム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20230077589A (ko) 외부 데이터베이스를 활용하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041209

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050830

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110916

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130916

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees