JP4162223B2

JP4162223B2 - 自然文検索装置、その方法及びプログラム

Info

Publication number: JP4162223B2
Application number: JP2003155561A
Authority: JP
Inventors: 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-05-30
Filing date: 2003-05-30
Publication date: 2008-10-08
Anticipated expiration: 2023-05-30
Also published as: JP2004355550A

Description

【０００１】
【発明の属する技術分野】
本発明は、一般的には自然言語により表現された情報検索要求に応じて情報を検索する自然文検索装置に関し、特に、キーワード検索方式を利用して適合度の高い文書情報を獲得できる自然文検索装置に関する。
【０００２】
【従来の技術】
従来の文書検索システムは、基本的にキーワード検索システムであり、キーワード集合で表現された情報検索要求を入力とし、それに適合する文書集合を検索結果として出力する。この際、適合度の尺度としては、ＴＦ−ＩＤＦ法のようなキーワード集合と文書の類似度を使用し、入力されたキーワード集合との類似度が高い順番に文書を出力することが多い（例えば、非特許文献１を参照）。
【０００３】
さらに、ＷＷＷ（World Wide Web）上の文書を検索対象とするインターネット検索エンジンの場合には、多くのサイトからリンクを張られているサイトの情報は信頼できるというような、ＷＷＷのトポロジー（相互接続性）に基づくヒューリスティクスを利用することにより適合度の判定の精度を高めている。この方法はPageRankと呼ばれている（例えば、非特許文献２を参照）。
【０００４】
しかし、例えば、「歴史上、一番背が高いアメリカの大統領は誰か？」というような自然言語により表現された質問文に対する回答を与える文書を検索したい場合、キーワード検索システムに入力すべきキーワード集合をこの質問文から作成するのは必ずしも容易ではない。
【０００５】
そこで、キーワード集合ではなく自然言語で情報検索要求を文書検索システムに入力する方法が従来より研究されており、これはキーワード検索に対して自然文検索と呼ばれている。インターネット検索エンジンには、キーワード検索に加えて自然文検索が可能なものが存在する。
【０００６】
自然文検索は、ユーザが知りたい情報を話し言葉で（しゃべるように）検索できるので、キーワード検索に比べてＡＮＤ−ＯＲなどの論理演算に関する専門知識を必要としないので、ユーザにとっては情報検索要求を自然に表現できるという利点がある。また、情報検索サービスを提供する側からみると、検索キーワードよりも自然文の方が、ユーザが欲しい情報をより正確に把握することができるという利点がある。
【０００７】
従来の自然文検索の研究開発では、例えば以下の特許文献のように、自然言語で表現された情報検索要求、すなわち質問文から検索キーワードや検索式を作成する方法、および、シソーラス（同義語・関連語辞書）を利用してユーザが使用する語彙と検索対象となる文書で使用されている語彙の違いを吸収する方法（いわいる「概念検索」）などが考案されている（例えば、特許文献１）。
【０００８】
また英語の自然文検索では、ユーザが入力した質問文に対して、システムがその意味を解釈して複数の言い換えの可能性を提示し、ユーザにその中から一つを選ばせることによって、システムが回答可能な質問へユーザを誘導する手法もある。
【０００９】
しかし、従来の自然文検索では、質問文からユーザが何をどういう情報が知りたいかを判定し、その質問文に対する回答が文書中に含まれているかどうかを質問文と文書の適合度の尺度とするような方法は存在しない。
【００１０】
近年、ユーザの質問文に対する回答をシステムが直接提示する質問応答システムが盛んに研究されている（例えば、特許文献２を参照）。
【００１１】
質問応答システムでは、例えば、ユーザが「一番背が高いアメリカの大統領は誰ですか？」という質問文を入力すると、システムは、「一番背が高いアメリカの大統領」に関する文書を検索するのではなく、「リンカーン」という回答を出力する点に特徴がある。
【００１２】
一般に、質問応答システムでは、質問文に対する回答を表示するだけではなく、以下の表示例のように、回答を抽出した文書もユーザに提示する。これは、例えば「一番背が高いアメリカの大統領は誰ですか？」という質問文に対して、「リンカーン」という回答だけが出力されても、ユーザは本当に「リンカーン」が正しい回答かどうかを確認できないからである。
（表示例）
「２月１２日
…流血のカンザス事件」などが相次いで起った。リンカーン＝ダグラス論争 1858年のアメリカ中間選挙でイリノイ州…リンカーンは身長が１９３．０ｃｍもあり、歴代大統領で一番背が高かく、顔もかなり面長で端から見ると…」
従って、「回答および回答を抽出した文書の組」を出力する質問応答システムは、質問文を入力として文書を出力するところから、自然文検索システムの一種と見なせる。
【００１３】
しかし、質問応答システムは、回答の尤もらしさが大きい順に、回答および回答を抽出した文書の組を出力するものであり、文書は、必ずしも質問文に対する適合度の順に出力されない。
【００１４】
例えば、「一番背が高いアメリカの大統領は誰ですか？」という質問文に対して、「アメリカ」と「大統領」という２つのキーワードしか含まない（質問文に対する適合度が低い）文書が大量に存在し、その中に「ブッシュ」という人名が高頻度で出現した場合、質問応答システムでは、回答候補の第１位として「ブッシュ」が選択され、「ブッシュ大統領」に関する文書が回答の根拠として出力されてしまう可能性がある。
【００１５】
すなわち、従来の質問応答システムでは、質問文解析、固有表現抽出、回答候補選択など、文書検索以外の様々な処理が原因となって回答を誤る場合が相当数あり、このような誤りが発生した場合には、非常に「的はずれ」な回答とともに、質問文に対する適合度が低い文書が表示されるという問題点がある。従って、質問応答システムを、そのまま自然文検索システムとして使用するには問題が多い。
【００１６】
【非特許文献１】
北研二，津田和彦，獅々堀正幹著「情報検索アルゴリズム」共立出版、２００２年。
【００１７】
【非特許文献２】
Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proceedings of the Seventh International World Wide Web Conference（WWW7）,1998。
【００１８】
【特許文献１】
特開２００２−６３２０３号公報。
【００１９】
【特許文献２】
特開２００２−１３２８１１号公報。
【００２０】
【発明が解決しようとする課題】
従来の自然文検索システムでは、ユーザの質問文に対する回答を文書が含んでいるかどうかを質問文と文書の適合度の尺度とするものは存在しなかった。一方、従来の質問応答システムは、質問文に対する回答を出力することができるので、回答を抽出した文書を回答と同時に出力すれば、ユーザの質問文に対する回答を与えることができる文書を出力する自然文検索とみなすことができる。しかし、質問応答システムでは、質問文解析、固有表現抽出、回答候補選択など、文書検索以外の様々な処理が原因となって回答を誤る可能性を無視できず、もし誤った回答を質問応答システムが選択した場合には、質問文に対する適合度が低い文書が出力されるという問題があった。
【００２１】
本発明は、このような事情に鑑みてなされたものであり、質問文から検索キーワード集合を作成してキーワード検索により文書集合を検索し、検索された文書における検索キーワードの周囲のテキストが質問文に対する回答を含むという事象の期待値が大きい順に、検索された文書と検索キーワードの周囲のテキストの組を表示することにより、検索キーワードの周囲のテキストが質問に対する回答および回答の根拠を含むと期待される文書を上位に順位付けて出力する自然文検索装置を提供することを目的とする。
【００２２】
【課題を解決するための手段】
本発明の観点は、自然言語により表現された情報検索要求を入力とする自然文検索装置であって、特に、自然言語による質問文から検索キーワード集合を作成して、当該検索キーワード集合を用いて文書集合を検索する装置である。
【００２３】
本発明の観点に従った自然文検索装置は、自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置であって、入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する質問解析手段と、前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する文書検索インターフェース手段と、前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出する固有表現抽出手段と、前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値を、検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする文書再ランキング手段とを備えた構成である。
【００２４】
【発明の実施の形態】
以下図面を参照して、本発明の実施の形態を説明する。
（システム構成）
図１は、本実施形態に関する自然文検索装置の原理的システム構成を示すブロック図である。
【００２５】
本装置１０は、文書データベース１００と、質問解析部１０１と、文書検索部１０２と、文書再ランキング部１０３とを有する。
【００２６】
文書データベース１００は、検索対象となる文書情報を蓄積している情報記憶装置を主要素とする。質問解析部１０１は、ユーザが自然言語で表現した情報検索要求、すなわち質問文から検索キーワード集合を作成する。文書検索部１０２は、質問解析部１０１により作成された検索キーワード集合に基づいて、文書データベース１００から文書を検索し、さらに、検索された文書から検索キーワードの周囲のテキスト（ＫＷＩＣ）を抽出する。文書再ランキング部１０３は、当該ＫＷＩＣが質問文に対する回答を含むという事象の期待値に基づいて、文書検索部１０２により検索された文書を順位付けて、当該文書とＫＷＩＣとの組み合わせ情報を出力する。
【００２７】
なお、本システムは、ソフトウェア及び当該ソフトウェアを実行するＣＰＵとメモリからなるハードウエアを含むコンピュータシステムにより実現される。
（本実施形態の原理的動作）
以下図１に示すシステムの原理的動作を、図２に示すフローチャートを参照して説明する。
【００２８】
まず、システム１０に対して、ユーザが自然言語で質問文を入力する（ステップＳ２０１）。質問解析部１０１は、入力された質問文を形態素解析し、検索キーワード集合を作成する（ステップＳ２０２）。文書検索部１０２は、質問解析部１０１により作成された検索キーワード集合に基づいて、文書データベース１００から文書を検索し、さらに、各文書から検索キーワードの周囲のテキスト（ＫＷＩＣ）を抽出する（ステップＳ２０３）。
【００２９】
次に、文書再ランキング部１０３は、各文書のＫＷＩＣを形態素解析し、質問文に対する回答が当該ＫＷＩＣの中に含まれている期待値を計算する。そして、文書再ランキング部１０３は、算出した期待値の大きさに基づいて、検索された文書の順位付け処理（再ランキング）を実行する（ステップＳ２０４）。最後に、文書再ランキング部１０３は、文書とＫＷＩＣの組をステップ２０４で求めた期待値の大きい順に出力する（ステップ２０５）。
【００３０】
以上要するに本実施形態のシステムによれば、ユーザが自然言語で入力した質問文に対して、文書データベース１００から、期待値の大きい順に文書とＫＷＩＣとの組み合わせを取得する事ができる。当該期待値は、当該ＫＷＩＣが質問文に対する回答を含むという事象の期待値であり、質問文に対する文書の適合度の尺度としてみることができる。
【００３１】
従って、本システムであれば、ユーザからの質問文に対して、回答を含む期待値の大きい順に、即ち適合度の大きい順に、検索された文書と検索キーワードの周囲のテキスト（ＫＷＩＣ）の組を、例えばディスプレイ上に表示できる。この場合、ＫＷＩＣは、ユーザの質問に対する回答を含む期待値が大きい文書に関して、その回答の根拠を示す役割を果たす。
【００３２】
また、従来の質問応答システムが回答の尤もらしさの順に文書を順位付ける方式に対して、本実施形態のシステムは、回答を含む可能性の大きさの順に文書を順位付けるので、回答選択などの処理における誤りの影響を受けることがなく、より質問文に対する適合度の高い文書を検索結果とすることができる。
（本実施形態を適用する具体例）
図３は、本実施形態のシステムを適用した具体的な自然文検索装置３０のシステム構成を示すブロック図である。
【００３３】
本システムは、質問解析部３０１と、文書検索インターフェース部３０２、文書再ランキング部３０３と、形態素解析器３０５と、固有表現抽出器３０６と、意味カテゴリ辞書３０７と、統計的分類器３０８とを有する。
【００３４】
質問解析部３０１は、形態素解析器３０５を用いて、自然言語からなる質問文の単語分割および品詞付与などの処理を実行して、検索キーワード集合を抽出する。具体的には、名詞・形容詞・副詞などの内容語、及びカタカナ文字列、英文字列、数字列などのキーワードになりやすい未知語を検索キーワードとして抽出する。例えば、「Ｍ（選手名）とＹ（球団名）との契約金は？」という質問文に対しては、「Ｍ」、「Ｙ」、「契約」、「金」が検索キーワード集合として抽出される。
【００３５】
また、質問解析部３０１は、意味カテゴリ辞書３０７および統計的分類器３０８を用いて質問タイプを判定する。質問タイプは、質問文が要求している回答の種類に基づいて質問文を分類するもので、例えば「組織名、人名、地名、固有物名、日付、時間、金額、割合」の８種類を使用する。質問タイプの分類は、固有表現抽出器３０６が抽出する固有表現の分類と同じである。
【００３６】
質問文の質問タイプを判定する問題は、基本的にはテキスト分類問題である。従って、質問文を大量に収集し、各質問文に対して人手により質問タイプを付与したデータを大量に用意すれば、これを学習データとして統計的分類器３０８を学習させることにより、任意の質問文に対して質問タイプを付与することができる。
【００３７】
本実施形態の具体例としては、様々な語彙を含む質問文に対して高精度に質問タイプの分類を行うために、統計的分類器３０８としてサポートベクトルマシン（ＳＶＭ）を使用する。ＳＶＭについては、例えば、文献「Vladimir N.Vapnik ，“The Nature of Statistical Learning Theory”，Springer,1995」に開示されている。また、統計的分類器３０８としては、サポートベクトルマシン以外に、最近隣法、ブースティング、最大エントロピー法、決定木などを使用した方法でもよい。
【００３８】
また、サポートベクトルマシンの入力となる特徴ベクトルを質問文から作成する際には、名詞の意味カテゴリを特徴として利用するために意味カテゴリ辞書３０７を使用する。意味カテゴリ辞書３０７としては、例えば文献（ＮＴＴコミュニケーション科学研究所監修，“日本語語彙体系”，岩波書店，１９９７）に開示されている。この日本語語彙体系では、名詞を１２段、２７１５カテゴリに分類し、１単語につき、最大５個のカテゴリが割り当てられている。
【００３９】
意味カテゴリ辞書３０７と統計的分類器３０８（サポートベクトルマシン）を用いて、質問文の質問タイプを判定する方法については、例えば文献「鈴木潤，佐々木裕，前田英作，“統計的機械学習による質問タイプ同定”，情報科学技術フォーラム（FIT2002），情報技術レターズ，pp.89-90,2002」に開示されている。
【００４０】
この開示されている方法では、各意味カテゴリに対応する２７１５次元の特徴ベクトルを作成し、あるカテゴリに所属する名詞が質問文中に出現したら、そのカテゴリおよびその上位のすべてのカテゴリに対応する特徴ベクトルの位置のビットに１を立てる。質問タイプの判定に使用する特徴ベクトルには、意味カテゴリ辞書３０７のカテゴリ以外に、必要に応じて、質問文の学習データに出現した高頻度の単語や、固有表現抽出器３０６を用いて抽出した固有表現の種類別での出現の有無などを使用してもよい。
【００４１】
形態素解析器３０５および固有表現抽出器３０６としては、形態素解析（単語分割と品詞付与）および固有表現抽出（固有名詞および数値表現の認識と分類）ができるものならば何を使用してもよい。固有表現抽出器３０６としては、例えば文献「齋藤邦子，永田昌明，“ＨＭＭに基づく多言語固有表現抽出システムの開発”，言語処理学会第９回年次大会発表論文集，pp.5-8,2002」に開示されている隠れマルコフモデル（ＨＭＭ）を用いた固有表現抽出器３０６が使用される。
【００４２】
文書検索インターフェース部３０２は、質問解析部３０１が作成した検索キーワード集合を用いて、文書検索エンジン３０４を介して検索された文書及びＫＷＩＣ（即ち、検索キーワードの周囲のテキスト）を獲得する。
【００４３】
ここで、文書検索エンジン３０４は、例えばインターネット（Ｗｅｂ）からＷｅｂ文書を検索するインターネット検索エンジンとして、本システム３０の外部に設けられた要素である。また、文書検索エンジン３０４は、本システム３０の内部に設けられて、内部または外部の文書データベースからキーワード検索を実行するテキスト検索システムに相当するものでもよい。要するに、文書検索エンジン３０４としては、文書データベースからキーワード検索が可能で、かつＫＷＩＣを取得できるものならば何でもよい。
【００４４】
ここでは、文書データベースとしてインターネット（Ｗｅｂ）を使用し、文書検索エンジン３０４は、インターネット検索エンジンとして本システム３０の外部要素の場合を想定する。
【００４５】
ここで、ＫＷＩＣを抽出する方法は、一般的には「パッセージ検索」と呼ばれる方法であり、長い文書の中の関連する一部分を抜き出す技術を利用する。パッセージ検索の実現法については、例えば文献「Marcin Kaszkiel and Justin Zobel,“Passage Retrieval Revisited”，SIGIR-97,pp.178-185」に開示されている。
【００４６】
文書再ランキング部３０３は、文書検索インターフェース部３０２により獲得された検索文書とＫＷＩＣの組を入力として、当該ＫＷＩＣの中に正しい回答が含まれる期待値を算出し、この期待値が大きい順に文書を順位付けする。この処理は、文書検索エンジン３０４が出力する文書の順位とは別の順位を計算するため、「再ランキング」処理と呼ぶ。
【００４７】
ここで、実際にはＫＷＩＣの中に正しい回答が含まれる期待値を厳密に求めることは難しいので、様々なヒューリスティクスを用いてこれを近似する。最も単純なヒューリスティクスは、ＫＷＩＣが質問文により近い表現（同じ単語列）を含むほど、回答を含む可能性が高いというものである。
【００４８】
本具体例では、まず質問文を形態素解析し、質問文中に含まれる単語のunigram,bigram,trigramを作成する。次に、以下の計算式（１）により各ＫＷＩＣに回答が含まれる期待値に相当するスコアＳを算出する。
【００４９】
【数４】

【００５０】
ここでＮ_n（ｎ＝１，２，３）は、あるＫＷＩＣに出現する質問文中のunigram,bigram,trigramの異なり数である。ｔｆ_nはn-gramの出現頻度であり、ｉｄｆは逆文書頻度である。ｗ_nはn-gramへの重みであり、より長いn-gramに対する重みを大きくするように実験的に設定する。Normalized_FactorはＫＷＩＣの長さの違いを正規化する重みであり、より長いＫＷＩＣほど大きくなるように実験的に設定する。
【００５１】
逆文書頻度を計算する際に分母として必要な総文書数は、文書検索エンジン３０４から取得する文書数とする。本具体例では、当該文書検索エンジン３０４から取得する文書数を事前に設定できることを想定し、デフォルトでは例えば１０件に設定することができる。
【００５２】
また、本具体例では、質問タイプと一致する固有表現タイプを持つ語句がＫＷＩＣ中に存在するかどうかを、期待値（スコア）の計算に反映させても良い。その場合には、あらかじめ質問解析部３０１において質問文の質問タイプを判定し、文書検索エンジン３０４が検索した各文書のＫＷＩＣから固有表現抽出器３０６を用いて固有表現を抽出した上で、次式（２）をスコアの計算に用いる。
【００５３】
【数５】

【００５４】
ここで、Ｎ_qtは質問タイプと同じ固有表現タイプを持つＫＷＩＣ中の語句の異なり数を表す。ｗ_qtは質問タイプに対する重みであり、この重みの最適な値は実験的に決定される。
（検索結果の具体例）
図４は、本具体例のシステムにおける検索結果の例を示す機能ブロック図である。ここでは、「Ｍ（選手名）とＹ（球団名）の契約金は？」という質問文が入力された場合を例として示している。
【００５５】
まずユーザは、質問文を入力し、インターネット検索エンジンとそこから検索する文書数を選択する（処理４０１）。この例ではインターネット検索エンジンとして「ＸＸＸＸＸ」を選択し、検索件数として１０件を指定している。
【００５６】
質問解析部３０１は、入力された質問文から「Ｍ、Ｙ、契約、金」というキーワード集合を抽出し、また質問タイプを「金額」と判定する（処理４０２）。
【００５７】
文書検索インターフェース部３０２は、検索キーワードをインターネット検索エンジン３０４に送り、当該検索エンジン３０４から文書のＵＲＬおよびＫＷＩＣを得る（処理４０３）。
【００５８】
文書再ランキング部３０３は、文書検索インターフェース部３０２により獲得された検索文書とＫＷＩＣの組（ＵＲＬタイトル概要文に相当）を入力として、当該ＫＷＩＣの中に正しい回答が含まれる期待値を算出し、この期待値が大きい順に文書を順位付けを実行する。具体的には、質問文とＫＷＩＣの類似度、および、質問タイプと同じタイプを持つ固有表現の有無に基づいて、文書を再ランキングし（処理４０４）、当該結果を例えばディスプレイ上に表示する（表示結果４０５）。
【００５９】
この例では、インターネット検索エンジン３０４の検索結果では、例えば第９位にあった文書が、再ランキングの結果、「Ｍ、Ｙ、契約」というキーワードを含み、かつ、例えば「約２１００万ドル（約２５億２０００万円）」という金額の表現をＫＷＩＣに含むことから第１位に順位付けられる。
【００６０】
従って、ユーザからの例えば「Ｍ（選手名）とＹ（球団名）の契約金は？」という質問文に対して、「約２１００万ドル（約２５億２０００万円）」という回答を含む文書を上位にランキングし、かつ、回答の根拠として当該文書と組となるＫＷＩＣを表示することができる。
【００６１】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【００６２】
【発明の効果】
以上詳述したように本発明によれば、自然言語により表現された質問文を情報検索要求として入力し、当該質問文に対する回答を含むという事象の期待値に基づいて文書を順位付けする方式を実現することにより、質問文に対して適合度の高い文書を出力することができる自然文検索装置を提供できる。
【図面の簡単な説明】
【図１】本発明の実施形態に関する自然文検索装置の原理的システム構成を示すブロック図。
【図２】本実施形態の原理的動作を説明するためのフローチャート。
【図３】本実施形態のシステムを適用した自然文検索装置の具体例のシステム構成を示すブロック図。
【図４】同具体例のシステムに関する検索結果の表示例を示す図。
【符号の説明】
１０…自然文検索装置、１００…文書データベース、１０１…質問解析部、
１０２…文書検索部、１０３…文書再ランキング部。
３０１…質問解析部、３０２…文書検索インターフェース部、
３０３…文書再ランキング部、３０４…文書検索エンジン、
３０５…形態素解析器、３０６…固有表現抽出器、３０７…意味カテゴリ辞書
３０８…統計的分類器。

Claims

自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置であって、
入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する質問解析手段と、
前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する文書検索インターフェース手段と、
前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出する固有表現抽出手段と、
前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値を、検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする文書再ランキング手段と
を具備したことを特徴とする自然文検索装置。
前記文書再ランキング手段は、前記スコア（Ｓとする）を算出する手段として、
Ｎ_n（n=1,2,3）は検索キーワードの周囲のテキストに出現する質問文中のunigram,bigram,trigramの異なり数を示し、ｔｆ_nはn-gramの出現頻度を示し、ｗ_nはn-gramへの重みを示し、Ｎ_qtは質問タイプと同じ固有表現タイプをもつ検索キーワードの周囲のテキスト中の語句の異なり数を示し、ｗ_qtは質問タイプに対する重みを示し、Normalized_Factorは検索キーワードの周囲のテキストの長さの違いを正規化する重みを示す下記式により算出することを特徴とする請求項１に記載の自然文検索装置。
自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置に適用する検索方法であって、
質問解析手段が、入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する質問解析ステップと、
文書検索インターフェース手段が、前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する文書検索ステップと、
固有表現抽出手段が、前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出するステップと、
文書再ランキング手段が、前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値を、検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする文書再ランキングステップと
を実行することを特徴とする検索方法。
前記文書再ランキングステップは、前記スコア（Ｓとする）を算出する手段として、
Ｎ_n（n=1,2,3）は検索キーワードの周囲のテキストに出現する質問文中のunigram,bigram,trigramの異なり数を示し、ｔｆ_nはn-gramの出現頻度を示し、ｗ_nはn-gramへの重みを示し、Ｎ_qtは質問タイプと同じ固有表現タイプをもつ検索キーワードの周囲のテキスト中の語句の異なり数を示し、ｗ_qtは質問タイプに対する重みを示し、Normalized_Factorは検索キーワードの周囲のテキストの長さの違いを正規化する重みを示す下記式により算出することを特徴とする請求項３に記載の検索方法。
質問解析手段、文書検索インターフェース手段、固有表現抽出手段、及び文書再ランキング手段を含み、自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置をコンピュータにより構成し、当該コンピュータが実行するプログラムであって、
前記質問解析手段により、入力された質問文から検索キーワード集合を作成し、その質問文が要求している回答の種類を検索キーワードの固有表現タイプに基づいて分類したものである質問タイプとして判別する手順と、
前記文書検索インターフェース手段により、前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び該文書検索エンジンにより抽出された当該各文書における検索キーワードの周囲のテキストを獲得する手順と、
前記固有表現抽出手段により、前記検索キーワードの周囲のテキストから固有名詞や数値表現を抽出する手順と、
前記文書再ランキング手段により、前記検索キーワードの周囲のテキストと質問文に同じ単語列が出現する頻度が高いほど大きくなる値と、前記質問タイプと同じ固有表現タイプを持つ検索キーワードの周囲のテキスト中の語句の異なり数とを足し合わせた値を、検索キーワードの周囲のテキストの長さで正規化したスコアを算出し、該スコアを前記質問文に対する文書の適合度の尺度として前記検索された文書を順位付けする手順とを実行し、
前記文書再ランキング手段は、前記スコア（Ｓとする）を算出する手段として、
Ｎ_n（n=1,2,3）は検索キーワードの周囲のテキストに出現する質問文中のunigram,bigram,trigramの異なり数を示し、ｔｆ_nはn-gramの出現頻度を示し、ｗ_nはn-gramへの重みを示し、Ｎ_qtは質問タイプと同じ固有表現タイプをもつ検索キーワードの周囲のテキスト中の語句の異なり数を示し、ｗ_qtは質問タイプに対する重みを示し、Normalized_Factorは検索キーワードの周囲のテキストの長さの違いを正規化する重みを示す下記式により算出することを特徴とするプログラム。