JP2006039881A - System, method, and program for answering question - Google Patents

System, method, and program for answering question Download PDF

Info

Publication number
JP2006039881A
JP2006039881A JP2004217904A JP2004217904A JP2006039881A JP 2006039881 A JP2006039881 A JP 2006039881A JP 2004217904 A JP2004217904 A JP 2004217904A JP 2004217904 A JP2004217904 A JP 2004217904A JP 2006039881 A JP2006039881 A JP 2006039881A
Authority
JP
Japan
Prior art keywords
answer
question
document
candidate
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004217904A
Other languages
Japanese (ja)
Other versions
JP4116599B2 (en
Inventor
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004217904A priority Critical patent/JP4116599B2/en
Publication of JP2006039881A publication Critical patent/JP2006039881A/en
Application granted granted Critical
Publication of JP4116599B2 publication Critical patent/JP4116599B2/en
Anticipated expiration legal-status Critical
Active legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To raise precision in answering by presenting answer candidates with feed-back from different users reflected thereon relative to an inputted question sentence. <P>SOLUTION: A document is retrieved from a document database 103 through the use of a keyword which is generated by a question analyzing part 101 for analyzing the inputted question sentence. An answer candidate extracting part 104 extracts a first answer candidate from the retrieved document through the use of an answer pattern which is generated by the question analyzing part 101. An answer retrieving part 109 retrieves answer data as a second answer candidate, which corresponds to the inputted question sentence from a user answer data storage part 108 for storing answer data which is selected or inputted by the user relative to each one of the question sentences. An answer candidate ranking part 105 performs ranking by likelihood with respect to the sum collection of the first and second answer candidates. Then the ranked answer candidates are displayed by an answer candidate display part 106 and presented to the user. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は、自然言語により表現された質問文に対して回答を提示する質問応答システム、方法及びプログラムに関する。さらに特定すれば、この発明はシステムが提示した複数の回答候補の中からユーザが正解を選択したり、正解が回答候補に存在しない場合にユーザが正解を入力するなどの方法により、ユーザからのフィードバックにより得られた質問文に対する正解を利用して回答の精度を高める技術に関するものである。   The present invention relates to a question answering system, method, and program for presenting an answer to a question sentence expressed in a natural language. More specifically, the present invention allows the user to select the correct answer from a plurality of answer candidates presented by the system, or to input the correct answer when the correct answer does not exist in the answer candidate. The present invention relates to a technique for improving the accuracy of answers using correct answers to question sentences obtained by feedback.

一般に、文書検索システムでは例えば富士山の高さが知りたい場合、まずユーザは「富士山」「高さ」などのキーワード集合を選択し、次にキーワード検索により「富士山の高さ」に関する文書を検索し、最後に検索された文書をユーザが読んで「富士山の高さ」に関する記述を探すという手順を踏む必要がある。   In general, in the document search system, for example, when the user wants to know the height of Mt. Fuji, the user first selects a keyword set such as “Mt. Fuji” or “Height”, and then searches for documents related to “Mt. Fuji height” by keyword search. Then, it is necessary to take a procedure in which the user reads the last retrieved document and searches for a description relating to “the height of Mt. Fuji”.

これに対して、質問応答システムでは質問に対する回答を直接提示する。例えば、ユーザが「富士山の高さは何メートルですか?」という質問を入力すると、質問応答システムは「富士山の高さ」に関する文書の検索結果を提示するのではなく、「3776メートル」という回答を提示する。   In contrast, the question answering system directly presents the answer to the question. For example, when the user inputs the question “How many meters is Mt. Fuji?”, The question answering system does not present the search result of the document regarding “Mt. Fuji height”, but the answer “3776 m”. Present.

このような質問応答システムの例は、例えば特許文献1に記載されている。特許文献1に記載された質問応答システムでは、ユーザが自然言語表現の質問文を入力すると、まず質問文から検索キーワード集合を抽出すると同時に、質問文の持つ質問タイプ(質問が要求する回答の種類)を判定する。次に、検索キーワード集合を用いて文書データベースの文書集合から関連する文書を検索し、この関連文書の中から質問タイプに合致する単語または単語列を回答として抽出する。   An example of such a question answering system is described in Patent Document 1, for example. In the question answering system described in Patent Literature 1, when a user inputs a question sentence in natural language expression, first, a search keyword set is extracted from the question sentence, and at the same time, the question type of the question sentence (the type of answer requested by the question) ). Next, a related document is searched from the document set of the document database using the search keyword set, and a word or a word string that matches the question type is extracted as an answer from the related document.

例えば、「富士山の高さは何メートルですか?」という質問文に対して、まず「富士山」「高さ」及び「メートル」というキーワード集合を抽出し、同時に、質問タイプを「数値(単位:メートル)」と判定する。次に、検索された文書集合における検索キーワードの周囲のテキストから、単位がメートルである数量表現を構成する単語列を回答候補として抽出する。最後に、検索キーワードと回答候補の距離や回答候補の出現回数などに基づいて各回答候補の尤度を求め、尤度の高い順に回答候補を表示してユーザに提示する。
特開2002−132811号公報
For example, for a question sentence “How tall is Mount Fuji?”, First, a keyword set of “Mt. Fuji”, “Height”, and “Meter” is extracted, and at the same time, the question type is set to “Numeric (Unit: Unit: Meter) ”. Next, word strings constituting a quantity expression whose unit is meter are extracted as answer candidates from the text around the search keyword in the searched document set. Finally, the likelihood of each answer candidate is obtained based on the distance between the search keyword and the answer candidate, the number of appearances of the answer candidate, and the like, and the answer candidates are displayed in the descending order of the likelihood and presented to the user.
Japanese Patent Laid-Open No. 2002-132911

特許文献1に記載された質問応答システムは、ユーザが入力した質問文に対してシステムが回答候補を提示するだけであり、システムに対してユーザが何らかのフィードバックを行うようなことは全く想定していない。   The question answering system described in Patent Document 1 merely assumes that the system presents answer candidates for a question sentence input by the user, and that the user gives some feedback to the system. Absent.

現状の質問応答システムは決して完壁なものではなく、例えばシステムが提示する全ての回答候補が誤っていたり、あるいは誤った回答候補に高い尤度が与えられ、正解の回答候補に低い尤度が与えられて提示されてしまうことが往々にしてある。   The current question answering system is never perfect. For example, all the answer candidates presented by the system are wrong, or the wrong answer candidate is given high likelihood, and the correct answer candidate has low likelihood. It is often given and presented.

このように回答候補の提示が不適切になされている場合、ユーザがそれを認識しても従来の質問応答システムではユーザからのフィードバックの仕組みがないため、回答候補の提示に対するユーザの評価が以後の質問応答処理に反映されない。   When the answer candidate is presented inappropriately in this way, even if the user recognizes it, the conventional question answering system does not have a feedback mechanism from the user. Is not reflected in the question answering process.

従って、本発明は入力される質問文に対して、種々のユーザからのフィードバックを反映させた回答候補を提示可能として回答の精度を高めること目的とする。   Accordingly, an object of the present invention is to increase the accuracy of answers by making it possible to present answer candidates reflecting feedback from various users to an inputted question sentence.

上記の課題を解決するため、本発明は入力された質問文に対して回答を提示する質問応答システムにおいて、前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成する質問解析手段と、文書集合を蓄積した文書データベースから前記質問解析手段により生成されたキーワードを検索キーワードとして文書を検索する文書検索手段と、検索された文書から前記回答パターンを用いて第1の回答候補を抽出する回答候補抽出手段と、複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するユーザ回答データ記憶手段と、前記ユーザ回答データ記憶手段から前記入力された質問文に対応する回答データを第2の回答候補として検索する回答検索手段と、前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う回答候補順位付け手段と、順位付けられた回答候補をユーザに提示するために表示する回答候補表示手段とを具備することを特徴とする。   In order to solve the above problems, the present invention provides a question answering system that presents an answer to an inputted question sentence, and extracts the keyword for document retrieval and the document by analyzing the inputted question sentence A question analysis unit that generates an answer pattern that defines the type and word sequence of answers to be performed; a document search unit that searches a document using a keyword generated by the question analysis unit as a search keyword from a document database storing document sets; Answer candidate extraction means for extracting a first answer candidate from the retrieved document using the answer pattern; and user answer data for storing answer data selected or input by the user for each of the plurality of question sentences Storage means and answer data corresponding to the inputted question sentence from the user answer data storage means An answer search means for searching as follows, an answer candidate ranking means for ranking the union of the first answer candidate and the second answer candidate by likelihood, and presenting the ranked answer candidates to the user And answer candidate display means for displaying the information.

また、本発明は入力された質問文に対して回答を提示する質問応答方法において、前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成するステップと、文書集合を蓄積した文書データベースから前記生成されたキーワードを検索キーワードとして文書を検索するステップと、検索された文書から前記回答パターンを用いて第1の回答候補を抽出するステップと、複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するステップと、記憶された回答データのうちから前記入力された質問文に対応する回答データを第2の回答候補として検索するステップと、前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行うステップと、順位付けられた回答候補をユーザに提示するために表示するステップとを具備することを特徴とする。   Further, the present invention provides a question answering method for presenting an answer to an inputted question sentence, a keyword for document search by analyzing the inputted question sentence, and an answer type to be extracted from the document, and A step of generating an answer pattern defining a word arrangement, a step of searching a document using the generated keyword as a search keyword from a document database storing a document set, and a first using the answer pattern from the searched document Corresponding to the inputted question sentence from among the stored answer data, the step of extracting the answer candidates, the step of storing the answer data selected or inputted by the user for each of the plurality of question sentences A step of retrieving answer data as a second answer candidate, and the union of the first answer candidate and the second answer candidate Wherein the step of ranking by likelihood, by comprising a step of displaying to present to the user the answer candidates are ranked Te.

さらに、本発明によると上述した質問応答の処理をコンピュータに実行させるためのプログラムが提供される。   Furthermore, according to the present invention, there is provided a program for causing a computer to execute the question answering process described above.

本発明によれば、種々の質問文に対する正解としてユーザが選択または入力した回答データをユーザ回答データ記憶手段に記憶しておき、入力された質問文に対応して文書データベースから抽出された第1の回答候補とユーザ回答データ記憶手段から検索された第2の回答候補の和集合に対して回答候補の尤度を求めることにより、文書データベースからの回答候補抽出の誤りを救済して回答の精度を向上させることができる。   According to the present invention, the answer data selected or inputted by the user as correct answers to various question sentences is stored in the user answer data storage means, and the first extracted from the document database corresponding to the inputted question sentences. Of the candidate answer from the document database and the accuracy of the answer by finding the likelihood of the answer candidate with respect to the union of the answer candidate and the second answer candidate retrieved from the user answer data storage means Can be improved.

以下、図面を参照して本発明の実施形態を説明する。
(第1の実施形態)
図1に示されるように、本発明の第1の実施形態に係る質問応答システムは、質問解析部101、文書集合を蓄積した文書データベース103から検索キーワードに従って文書を検索する文書検索部102、回答候補抽出部104、回答候補順位付け部105、回答候補表示部106、ユーザ入力部107、ユーザ回答データ記憶部108及び回答検索部109を有する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(First embodiment)
As shown in FIG. 1, a question answering system according to the first embodiment of the present invention includes a question analysis unit 101, a document search unit 102 for searching a document according to a search keyword from a document database 103 storing a document set, an answer A candidate extraction unit 104, an answer candidate ranking unit 105, an answer candidate display unit 106, a user input unit 107, a user answer data storage unit 108, and an answer search unit 109 are included.

以下、図1の各部について説明すると、まず質問解析部101はユーザにより入力される質問文から文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定した回答パターンを求める。質問解析部102により求められたキーワードは文書検索部102に送られ、回答パターンは回答候補検索部104に送られる。文書データベース103には、入力される質問文に対する回答候補を検索する対象の文書集合が記憶されている。   In the following, each part of FIG. 1 will be described. First, the question analysis unit 101 obtains a keyword for searching a document from a question sentence input by a user, and an answer pattern that defines the type and word arrangement of answers to be extracted from the document. . The keyword obtained by the question analysis unit 102 is sent to the document search unit 102, and the answer pattern is sent to the answer candidate search unit 104. The document database 103 stores a set of documents to be searched for answer candidates for an inputted question sentence.

文書検索部102は、質問解析部101からキーワードを受け取ると、少なくともこれを検索キーワードとして用いて文書データベース102から検索キーワードを含む文書を検索し、検索した文書を回答候補抽出部104に渡す。回答候補抽出部104は、質問解析部101から渡された回答パターンを用いて、文書検索部103により検索された文書から回答候補(第1の回答候補)を抽出し、これを回答候補順位付け部105に渡す。   Upon receiving a keyword from the question analysis unit 101, the document search unit 102 searches for a document including the search keyword from the document database 102 using at least this as a search keyword, and passes the searched document to the answer candidate extraction unit 104. The answer candidate extraction unit 104 extracts answer candidates (first answer candidates) from the document searched by the document search unit 103 using the answer pattern passed from the question analysis unit 101, and ranks the answer candidates as a ranking of answer candidates. It passes to the part 105.

一方、回答検索部109はユーザにより入力された質問文を質問解析部101を介して受け取ると、入力された質問文に対応する回答データをユーザ回答データ記憶部108から検索し、これを第2の回答候補として回答候補順位付け部105に渡す。   On the other hand, when the answer search unit 109 receives the question text input by the user via the question analysis unit 101, the answer search unit 109 searches the user answer data storage unit 108 for answer data corresponding to the input question text, To the answer candidate ranking unit 105.

回答候補順位付け部105は、第1の回答候補及び第2の回答候補の和集合の尤度、すなわち各回答候補が入力された質問文に対する正解の回答データである確率を計算し、尤度による順位付けを行う。言い替えれば、回答候補和集合を尤度の高い順に回答候補を並べる。こうして順位付けられた回答候補和集合は回答候補表示部106に送られ、ユーザに提示するために表示される。この際、回答候補和集合の全てを無条件に表示してもよいが、尤度が十分に大きい回答候補、例えば尤度が大きい順に予め定められた数(例えば5個)の回答候補のみ、あるいは尤度がある閾値以上の回答候補のみを回答候補検索部105から回答候補表示部106に渡して表示することが望ましい。   The answer candidate ranking unit 105 calculates the likelihood of the union of the first answer candidate and the second answer candidate, that is, the probability that the answer data is the correct answer data for the question sentence in which each answer candidate is input. Ranking by. In other words, answer candidates are arranged in descending order of likelihood in the answer candidate union. The answer candidate sum set thus ranked is sent to the answer candidate display section 106 and displayed for presentation to the user. At this time, all of the answer candidate union sets may be displayed unconditionally. However, answer candidates having a sufficiently high likelihood, for example, only a predetermined number (for example, 5) of answer candidates in descending order of likelihood, Alternatively, it is desirable that only answer candidates having a likelihood equal to or higher than a threshold value are transferred from the answer candidate search unit 105 to the answer candidate display unit 106 and displayed.

ユーザ入力部107は、ユーザが回答データを選択または入力するための入力装置である。すなわち、ユーザは回答候補表示部106上に表示された回答候補のうちから、質問文に対する正解と考える回答候補を選択して回答データを入力するか、あるいは回答データそのものを例えばキーボードにより入力する。こうして入力された回答データは、質問文と対応付けられてユーザ回答データ記憶部108に記憶される。このような処理を繰り返すことにより、ユーザ回答データ記憶部108には種々の質問文とそれに対応する回答データの組が記憶される。   The user input unit 107 is an input device for the user to select or input answer data. That is, the user selects an answer candidate considered as a correct answer to the question sentence from the answer candidates displayed on the answer candidate display unit 106 and inputs the answer data, or inputs the answer data itself using, for example, a keyboard. The answer data input in this way is stored in the user answer data storage unit 108 in association with the question sentence. By repeating such processing, the user answer data storage unit 108 stores various question texts and corresponding answer data sets.

次に、図2に示すフローチャートを用いて図1の質問応答システムの処理手順について説明する。   Next, the processing procedure of the question answering system of FIG. 1 will be described using the flowchart shown in FIG.

ユーザによって質問文が入力されると(ステップS201)、まず質問解析部101が入力された質問文から文書検索のためのキーワード及び回答パターンを生成する(ステップS202)。   When a question text is input by the user (step S201), the question analysis unit 101 first generates a keyword and answer pattern for document search from the input question text (step S202).

次に、ステップS202で求められたキーワードを検索キーワードとして、文書データベース103に蓄積されている文書集合から検索キーワードを含む文書を検索する(ステップS203)。   Next, using the keyword obtained in step S202 as a search keyword, a document including the search keyword is searched from the document set stored in the document database 103 (step S203).

次に、ステップS203で検索された文書から、回答候補抽出部104により回答パターンを用いて回答候補を抽出する(ステップS204)。   Next, answer candidates are extracted from the document searched in step S203 by using the answer pattern by the answer candidate extracting unit 104 (step S204).

次に、ステップS201で入力された質問文に対する回答候補をユーザ回答データ記憶部108から検索する(ステップS205)。   Next, the user answer data storage unit 108 is searched for answer candidates for the question sentence input in step S201 (step S205).

次に、ステップS202で文書データベース103から検索された第1の回答候補とステップS205でユーザ回答データ記憶部108から検索された第2の回答候補の和集合に対して各回答候補の尤度を計算し、順位付けを行う(ステップS206)。   Next, the likelihood of each answer candidate is calculated for the union of the first answer candidate searched from the document database 103 in step S202 and the second answer candidate searched from the user answer data storage unit 108 in step S205. Calculation and ranking are performed (step S206).

次に、ステップS206で順位付けがなされた回答候補集合を尤度順、すなわち尤度の高い順に並べて表示することにより、ユーザに対して回答データの選択または入力を促す(ステップS207)。   Next, the answer candidate sets ranked in step S206 are displayed in order of likelihood, that is, in descending order of likelihood, thereby prompting the user to select or input answer data (step S207).

ユーザは、ステップS207で表示された回答候補の中から、ユーザ入力部107を用いて正解の回答データに相当する回答候補を選択するか、または入力した質問に対する正解の回答データを入力する。このようなユーザの回答データの選択または入力、すなわちユーザからのフィードバックは、質問応答システムの以降の処理に反映される。   The user selects answer candidates corresponding to correct answer data from the answer candidates displayed in step S207 using the user input unit 107, or inputs correct answer data for the input question. Such selection or input of the answer data of the user, that is, feedback from the user is reflected in the subsequent processing of the question answering system.

次のステップS208では、このようなユーザからのフィードバック(正解の回答データの選択または入力)の有無を調べ、もしフィードバックがあれば、それを入力された質問文に対する回答候補としてユーザ回答データ記憶部に記憶し(ステップS209)、質問応答の処理を終了する。フィードバックがない場合は、ステップS207の表示をもって質問応答の処理を終了する。   In the next step S208, the presence / absence of such feedback from the user (selection or input of correct answer data) is checked. If there is feedback, the user answer data storage unit is used as an answer candidate for the inputted question sentence. (Step S209), and the question answering process is terminated. If there is no feedback, the question answering process ends with the display of step S207.

上述した本実施形態に係る質問応答システムによると、以下の効果が得られる。   According to the question answering system according to the present embodiment described above, the following effects can be obtained.

一般的に、質問応答システムが提示する回答候補は正しい場合と間違っている場合がある。適切なユーザインタフェースを用意すれば、質問文に対してシステムが提示した回答候補が正しいか否かをユーザが判定したり、質問文に対する回答をユーザが入力するなどの方法によりユーザからシステムにフィードバックを返すことで、質問応答の精度向上が期待できると考えられる。質問応答サービスを不特定多数のユーザがアクセス可能なポータルサイトの上で提供する場合、毎日数万件以上のアクセスが予想される。もし、上記のようなフィードバックを返してくれるユーザが全体の1%いれば、毎日数百件の正解の回答データが蓄積されることになる。   Generally, the answer candidates presented by the question answering system may be correct or incorrect. If an appropriate user interface is prepared, the user can determine whether or not the answer candidate presented by the system is correct for the question text, and the user can input the answer to the question text to the system to provide feedback to the system. It is considered that the accuracy of question answering can be expected by returning. When a question answering service is provided on a portal site accessible to an unspecified number of users, more than tens of thousands of accesses are expected every day. If 1% of the users return the above feedback, hundreds of correct answer data are accumulated every day.

しかし、このようなフィードバックを利用して質問応答システムの回答の精度を高める方法に関する研究は、これまで全く行われていない。言い換えれば、従来の質問応答システムにおいては、システムが提示した回答候補の正誤をユーザが入力したり、質問文に対する回答をユーザが直接入力することによって、ユーザがシステムにフィードバックを返しても、このフィードバックを利用して質問応答の精度を高めることができない。   However, there has been no research on how to use such feedback to improve the accuracy of answers to question answering systems. In other words, in the conventional question answering system, even if the user returns feedback to the system by inputting the correctness of the answer candidate presented by the system or by directly inputting the answer to the question sentence, It is not possible to improve the accuracy of question answering using feedback.

ユーザからのフィードバックにより得られた質問文に対する回答データを回答候補として利用する最も単純な方法は、それらの回答データを回答候補として予め記憶しておき、もし入力された質問文に対する回答候補が記憶されていれば、それを無条件に提示するという方法である。しかし、この方法は故意か否かにかかわらず、ユーザが誤った回答をシステムにフィードバックした場合、この誤った回答が無条件に提示されてしまうという問題点がある。   The simplest method of using the answer data for the question text obtained from the feedback from the user as answer candidates is to store the answer data as answer candidates in advance, and the answer candidates for the inputted question text are stored. If it is, it is a method of presenting it unconditionally. However, regardless of whether this method is intentional or not, when the user feeds back an incorrect answer to the system, the incorrect answer is presented unconditionally.

これに対し、本実施形態の質問応答システムでは、入力される質問文の解析により得られた検索キーワードに従って検索された文書から回答候補抽出部104により抽出された第1の回答候補に加えて、ユーザ回答データ記憶部108に記憶されている回答データを第2の回答候補として併用する。すなわち、本実施形態の質問応答システムでは回答候補順位付け部105により第1の回答候補と第2の回答候補の和集合について尤度による順位付けを行い、それらを回答候補表示部106で表示することによって、ユーザは尤度のより高い回答候補から適切な回答を見出すことになる。   On the other hand, in the question answering system of the present embodiment, in addition to the first answer candidate extracted by the answer candidate extracting unit 104 from the document searched according to the search keyword obtained by analyzing the input question sentence, The answer data stored in the user answer data storage unit 108 is also used as a second answer candidate. That is, in the question answering system of this embodiment, the answer candidate ranking unit 105 ranks the union of the first answer candidate and the second answer candidate according to likelihood, and displays them on the answer candidate display unit 106. Thus, the user finds an appropriate answer from answer candidates having a higher likelihood.

ここで、第2の回答候補はユーザからのフィードバック、すなわちユーザ入力部107によるユーザの選択または入力に基づいてユーザ回答データ記憶部108に記憶されている回答データである。従って、回答候補表示部106で表示される回答候補集合は複数のユーザによるフィードバックを反映しているため、回答の精度(再現率)が向上する。   Here, the second answer candidate is answer data stored in the user answer data storage unit 108 based on feedback from the user, that is, user selection or input by the user input unit 107. Accordingly, the answer candidate set displayed on the answer candidate display unit 106 reflects feedback from a plurality of users, so that the accuracy (reproducibility) of answers is improved.

一方、もしユーザ回答データ記憶部108に誤った回答データが記憶されている場合、そのような回答データは回答候補順位付け部105において低尤度の回答候補として扱われる。従って、前述のように尤度が大きい順に予め定められた数の回答候補のみ、あるいは尤度がある閾値以上の回答候補のみを回答候補表示部106に渡して表示することによって、ユーザに提示される回答候補から誤った回答候補を排除することが可能となる。   On the other hand, if incorrect answer data is stored in the user answer data storage unit 108, such answer data is treated as a low likelihood answer candidate by the answer candidate ranking unit 105. Accordingly, as described above, only a predetermined number of answer candidates in descending order of likelihood or only answer candidates having a likelihood equal to or greater than a certain threshold value are presented to the answer candidate display unit 106 and presented to the user. It is possible to exclude erroneous answer candidates from the answer candidates.

(第2の実施形態)
次に、本発明のより具体的な第2の実施形態について説明する。質問応答サービスを不特定多数のユーザがアクセス可能なボータルサイトで提供する場合、質問文の分布はいわいる「Zipfの法則」に従うと想定される。すなわち、「頻出質問」と呼ぶべき、少数だが出現頻度の大きい質問が存在する。このような頻出質問に対しては、システム管理者が予め正解を作成し、システム回答データベースに記憶しておくことが有効である。
(Second Embodiment)
Next, a more specific second embodiment of the present invention will be described. When the question answering service is provided at a portal site accessible to an unspecified number of users, the distribution of the question sentence is assumed to follow the so-called “Zipf's law”. In other words, there are a small number of frequently occurring questions that should be called “frequently asked questions”. For such frequent questions, it is effective for the system administrator to create a correct answer in advance and store it in the system answer database.

しかし、システム回答データとユーザ回答データをどのように組み合わせて利用するかという問題に関する研究は従来なされていない。そこで、本実施形態ではシステム回答データとユーザ回答データを有効に組み合わせて利用することで、より効果的な質問応答を可能とする。   However, there has been no research on the problem of how to use system answer data and user answer data in combination. Therefore, in the present embodiment, more effective question responses can be made by using the system answer data and the user answer data in an effective combination.

図3に示されるように、本実施形態の質問応答システムは質問解析部301、インターネット(Web)303を検索するWeb検索部302、回答候補抽出部304、回答候補順位付け部305、回答候補表示部306、ユーザ入力部307、ユーザ回答データ記憶部308、回答検索部309、質問ログデータ記憶部310、質問頻度計算部311、質問頻度データ記憶部312、回答作成部313及びシステム回答データ記憶部314を有する。   As shown in FIG. 3, the question answering system according to the present embodiment includes a question analysis unit 301, a Web search unit 302 that searches the Internet (Web) 303, an answer candidate extraction unit 304, an answer candidate ranking unit 305, an answer candidate display. Unit 306, user input unit 307, user answer data storage unit 308, answer search unit 309, question log data storage unit 310, question frequency calculation unit 311, question frequency data storage unit 312, answer creation unit 313, and system answer data storage unit 314.

すなわち、文書データベースとしてインタネット303を利用し、Web検索部302を文書検索部としている。さらに、第2の実施形態では第1の実施形態の要素に加えて質問ログデータ記憶部310、質問頻度計算部311、質問頻度データ記憶部312、回答作成部313及びシステム回答データ記憶部314が追加されている。以下、図3の各部について詳細に説明する。   That is, the Internet 303 is used as a document database, and the Web search unit 302 is a document search unit. Further, in the second embodiment, in addition to the elements of the first embodiment, a question log data storage unit 310, a question frequency calculation unit 311, a question frequency data storage unit 312, an answer creation unit 313, and a system answer data storage unit 314 are provided. Have been added. Hereinafter, each part of FIG. 3 will be described in detail.

[質問解析部301]
質問解析部301は、第1の実施形態と同様に入力された質問文から文書検索のためのキーワードを作成し、文書から抽出すべき回答の種類及び単語配列を規定した回答パターンを決定する。より具体的には、質問解析部301は質問文の単語分割及び品詞付与を行い、名詞・形容詞・副詞などの内容語、及びカタカナ列・英文字列・数字列などのキーワードになりやすい未知語を文書検索のためのキーワードとして抽出する。例えば、「鉄腕アトムの誕生日は?」という質問文に対しては、「鉄腕アトム」「誕生日」がキーワード集合として抽出される。
[Question analysis unit 301]
The question analysis unit 301 creates a keyword for document search from the inputted question sentence as in the first embodiment, and determines an answer pattern that defines the type and word arrangement of answers to be extracted from the document. More specifically, the question analysis unit 301 performs word segmentation and part-of-speech assignment of question sentences, and unknown words that are likely to become keywords such as nouns, adjectives, adverbs, etc., and katakana strings, English character strings, numeric strings Are extracted as keywords for document retrieval. For example, for a question sentence “What is Astro Boy's birthday?”, “Astro Boy” and “Birthday” are extracted as a keyword set.

次に、質問解析部301は質問解析規則を用いて回答パターンを決定する。回答パターンとは、質問文が要求している回答が満たすべき条件のことであり、質問タイプと呼ぶこともある。図4に具体例を示すように、質問解析規則は質問パターンと回答パターンの組から構成される。   Next, the question analysis unit 301 determines an answer pattern using the question analysis rule. The answer pattern is a condition to be satisfied by the answer requested by the question sentence, and is sometimes called a question type. As shown in a specific example in FIG. 4, the question analysis rule is composed of a combination of a question pattern and an answer pattern.

質問解析部301は、ある質問解析規則の質問パターンが入力された質問文と照合した場合、対応する回答パターンをその質問文の回答パターンとして選ぶ。質問パターン及び回答パターンは、表記・品詞・意味カテゴリ・固有表現クラスなどを構成要素とする正規表現を用いて記述される。図4では、意味カテゴリは記号‘[’と記号‘]’で囲んで表現し、また固有表現クラスは記号‘<’と記号‘>’で囲んで表現している。   When the question analysis part 301 collates with the question sentence in which the question pattern of a certain question analysis rule was input, it selects a corresponding answer pattern as the answer pattern of the question sentence. The question pattern and the answer pattern are described using regular expressions having notations, parts of speech, semantic categories, specific expression classes, and the like as constituent elements. In FIG. 4, the semantic category is expressed by being surrounded by symbols “[” and “′”, and the specific expression class is expressed by being surrounded by symbols “<” and “>”.

例えば、“[組織]はどこ?”のように、もし質問文の最後の名詞の意味カテゴリが[組織]であれば、文書集合から固有表現クラスが<組織名>の固有表現を第1の回答候補として抽出する。もし質問文が“サイトはどこ?”または“URLはどこ?”という文字列と照合すれば、http://.+で始まる英数字列を第1の回答候補として抽出する。もし質問文が“どこ?”という文字列を含む以外に何も手掛かりがなければ、固有表現クラスが<地名>の固有表現を第1の回答候補として抽出する。   For example, if the semantic category of the last noun of the question sentence is “organization”, such as “Where is [organization]?”, The specific expression of the specific expression class <organization name> from the document set is the first. Extract as answer candidates. If the question text matches the character string “Where is the site?” Or “Where is the URL?”, An alphanumeric string starting with http: //.+ is extracted as the first candidate answer. If there is no clue other than the question sentence including the character string “where?”, The specific expression whose specific expression class is <place name> is extracted as the first answer candidate.

本実施形態では、固有表現クラスとして少なくとも「人名」「地名」「組織名」及び「固有物名」の4種類を使用する。また、単語の意味カテゴリとして、例えば参考文献1:NTTコミュニケーション科学研究所監修、「日本語語彙体系」岩波書店、1997発行、に記述されたものを使用する。   In this embodiment, at least four types of “person name”, “place name”, “organization name”, and “unique name” are used as the unique expression class. As the meaning category of words, for example, those described in Reference Document 1: Supervised by NTT Communication Science Laboratories, “Japanese Vocabulary System”, published by Iwanami Shoten, 1997, are used.

質問解析部301においてキーワードを作成する際に、質問文から抽出したキーワードに加えて、質問文に対してユーザ回答データ記憶部308から検索された回答候補(第2の回答候補)を利用し、これらを検索キーワード集合として用いてもよい。例えば、もしWeb検索部302において必須キーワード(文書中に必ず出現するという検索条件)と任意キーワード(文書中に出現しなくてもよいという検索条件)を検索キーワードとして指定できる場合には、質問文から抽出されたキーワードを必須キーワードとし、ユーザ回答データ記憶部308から検索された回答候補を任意キーワードとして文書検索を行ってもよい。   When creating a keyword in the question analysis unit 301, in addition to the keyword extracted from the question sentence, an answer candidate (second answer candidate) retrieved from the user answer data storage unit 308 for the question sentence is used, These may be used as a search keyword set. For example, if the Web search unit 302 can specify an essential keyword (a search condition that always appears in a document) and an arbitrary keyword (a search condition that does not need to appear in a document) as search keywords, a question sentence The document search may be performed by using the keyword extracted from the required keyword and the answer candidate retrieved from the user answer data storage unit 308 as an arbitrary keyword.

一般に、質問文から抽出されたキーワードと正解は近接して共起する可能性が高い。もしユーザ回答データ記憶部308から検索された第2の回答候補が正解ならば、それを任意キーワードに加えることによって、質問文から抽出されたキーワードとユーザ回答データ記憶部308から検索された回答候補が近接して共起する文書がWeb検索部302で検索される可能性が高くなる。その場合、ユーザ回答データ記憶部308から検索された回答候補は、回答候補順位付け部305により尤度は高いと判断される。逆に、ユーザ回答データ記憶部308から検索された第2の回答候補が正解でない場合には、近接する文書は検索されない可能性が高いので、検索された回答候補の尤度は低いと判断される。   In general, a keyword extracted from a question sentence and a correct answer are likely to co-occur in close proximity. If the second answer candidate retrieved from the user answer data storage unit 308 is a correct answer, the keyword extracted from the question sentence and the answer candidate retrieved from the user answer data storage unit 308 are added to an arbitrary keyword. Is likely to be searched by the Web search unit 302. In this case, the answer candidate retrieved from the user answer data storage unit 308 is determined by the answer candidate ranking unit 305 to have a high likelihood. On the other hand, if the second answer candidate searched from the user answer data storage unit 308 is not correct, there is a high possibility that a nearby document will not be searched, so the likelihood of the searched answer candidate is determined to be low. The

[Web検索部302]
Web検索部302は、質問解析部301が作成したキーワード集合を用いてインターネット(Web)303からWeb文書を検索する。すなわち、本実施形態では文書データベースとしてインターネット303を使用する。文書検索部に相当するWeb検索部302としては、キーワードの周囲のテキストを取得可能なインターネット検索エンジンを使用する。Web検索部302は、キーワード検索が可能でかつキーワードの周囲のテキストを取得できるものならば何でもよい。キーワード検索が可能でかつ当該キーワードの周囲のテキスト(KWIC)を表示できるインターネット検索エンジンとしては、例えばgoo (http://goo.ne.jp)がある。
[Web search unit 302]
The Web search unit 302 searches for a Web document from the Internet (Web) 303 using the keyword set created by the question analysis unit 301. That is, in the present embodiment, the Internet 303 is used as a document database. As the Web search unit 302 corresponding to the document search unit, an Internet search engine capable of acquiring text around a keyword is used. The Web search unit 302 may be anything that can perform keyword search and can acquire text around the keyword. For example, goo (http://goo.ne.jp) is an Internet search engine that can perform keyword search and can display text (KWIC) around the keyword.

一般に、あるキーワードの周囲のテキストはKWIC(keyword in context)と呼ばれる。キーワードの周囲のKWICは、ユーザからのキーワードで表現された情報検索要求が、検索された文書と適合しているか否かをユーザが判定するのに役立つので、近年では多くのインターネット検索エンジンが文書のタイトル及びURLの他にKWICを検索結果の一部として表示している。以降では、検索エンジンが作成したキーワードの周囲のテキストのことを単にKWICまたは「概要文」と呼ぶことにする。   In general, text around a keyword is called KWIC (keyword in context). Since KWIC around keywords is useful for users to determine whether information retrieval requests expressed by keywords from users are compatible with retrieved documents, many Internet search engines have recently been documented. In addition to the title and URL, KWIC is displayed as part of the search results. Hereinafter, the text around the keyword created by the search engine is simply called KWIC or “summary sentence”.

ちなみに、キーワードの周囲のテキストを抽出する技術、より一般的には長い文書の中からキーワードに関連する一部分を取り出す技術は、「パッセージ検索」と呼ばれる。質問応答のためのパッセージ検索の実現法については、例えば参考文献2:Stefanie Tellex, Boris Katz, Jimmy Lin, Aaron Fernandes, and Gregory Marton, “Quantitative Evaluation of Passage Retrieval Algorithms for Question Answering” , SIGIR-2003, pp. 41-47に詳しい。   Incidentally, a technique for extracting text around a keyword, more generally a technique for extracting a part related to a keyword from a long document is called “passage search”. For example, reference 2: Stefanie Tellex, Boris Katz, Jimmy Lin, Aaron Fernandes, and Gregory Marton, “Quantitative Evaluation of Passage Retrieval Algorithms for Question Answering”, SIGIR-2003, pp. 41-47.

[回答候補抽出部304]
回答候補抽出部304は、質問解析部301により決定された回答パターンを用いて、Web検索部302により検索された文書から回答候補(第1の回答候補)を抽出する。本実施形態では、インターネット検索エンジンにより検索された文書を当該文書を蓄積したURL(Uniform Resource Locater)からダウンロードし、文書全体から回答候補を抽出するのではなく、インターネット検索エンジンが検索結果の一部として表示した、当該文書中のキーワードの周囲のテキスト(KWIC)から回答候補を抽出する。
[Answer candidate extraction unit 304]
The answer candidate extraction unit 304 uses the answer pattern determined by the question analysis unit 301 to extract an answer candidate (first answer candidate) from the document searched by the Web search unit 302. In this embodiment, instead of downloading a document searched by an Internet search engine from a URL (Uniform Resource Locater) that stores the document and extracting answer candidates from the entire document, the Internet search engine uses a part of the search result. Answer candidates are extracted from the text (KWIC) around the keyword in the document displayed as.

このように検索された文書をダウンロードせず、さらに文書全体ではなくKWIC、すなわち概要文だけを回答候補の抽出対象とすることにより、システムの応答時間を大幅に短縮できる。この場合、回答候補抽出部304はまず概要文の単語分割・品詞付与・固有表現抽出を実行し、次いで質問解析部301により決定された回答パターンと照合する単語列を回答候補として抽出する。   By not downloading the retrieved documents in this way, and by using only KWIC, that is, the summary sentence as an extraction target for the answer candidates, the response time of the system can be greatly shortened. In this case, the answer candidate extraction unit 304 first performs word division, part-of-speech assignment, and unique expression extraction of the summary sentence, and then extracts a word string that matches the answer pattern determined by the question analysis unit 301 as an answer candidate.

[回答検索部309]
回答検索部309は、少なくともユーザ回答データ記憶部308から、入力された質問文に対する回答データを回答候補(第2の回答候補)として検索する。回答検索の対象としては、ユーザ回答データ記憶部308に記憶されている、ユーザにより選択または入力された回答データのみでなく、例えば質問応答システムのシステム管理者が予め作成してシステム回答データ記憶部314に記憶させた正解の回答データ(これをシステム回答データと呼ぶ)を用いてもよい。
[Answer search unit 309]
The answer search unit 309 searches the answer data for the input question sentence from at least the user answer data storage unit 308 as an answer candidate (second answer candidate). As an object of the answer search, not only the answer data selected or input by the user stored in the user answer data storage unit 308 but also a system answer data storage unit prepared in advance by a system administrator of a question answering system, for example The correct answer data stored in 314 (referred to as system answer data) may be used.

[質問ログデータ記憶部310〜システム回答データ記憶部314]
システム回答データ記憶部314には、例えば以下のような手順によって作成されるシステム回答データが記憶される。
[Question log data storage unit 310 to system answer data storage unit 314]
The system answer data storage unit 314 stores system answer data created by the following procedure, for example.

まず、ユーザが過去に入力した全ての質問文を表す質問ログデータを質問ログデータ記憶部310に記憶しておく。次に、質問頻度計算部311によって質問ログデータ記憶部310に記憶されている質問ログデータから各質問文の頻度、すなわち同一の質問文が入力された回数を質問文毎に求め、この入力回数を示す質問頻度データを質問頻度データ記憶部312に記憶する。次に、質問頻度データから入力回数すなわち頻度が一定値以上の質問文から順に選択した予め指定された数の質問文に対する正解の回答データを回答作成部313により作成し、システム回答データ記憶部314に記憶する。   First, question log data representing all question sentences input by the user in the past is stored in the question log data storage unit 310. Next, the frequency of each question sentence, that is, the number of times the same question sentence is inputted is obtained for each question sentence from the question log data stored in the question log data storage part 310 by the question frequency calculation part 311. Is stored in the question frequency data storage unit 312. Next, the answer creation unit 313 creates correct answer data for a predetermined number of question sentences selected in order from the question frequency with the frequency of input, that is, the frequency having a predetermined value or more, from the question frequency data, and the system answer data storage unit 314 To remember.

回答作成部313による回答データの作成方法は、質問文に対する正解が得られる方法であれば何でも良い。例えば、高頻度の質問文の集合に対して質問応答システムをバッチ的に使用し、得られる回答候補を人手でチェックして、正解を選択または入力する方法を用いることができる。   Any method may be used as a method for creating answer data by the answer creating unit 313 as long as it can obtain a correct answer to the question sentence. For example, it is possible to use a method of selecting or inputting a correct answer by using a question answering system batchwise for a set of frequently asked questions and manually checking the obtained answer candidates.

ポータルサイト上で質問応答サービスを提供する場合には、実時間(約1秒以内)で応答するために、回答候補抽出部304が回答候補を抽出する対象を限定する必要がある。このため、本実施形態では検索された文書をダウンロードせず、上位10件の検査結果の概要文だけを回答候補の抽出対象としている。一方、システム回答データ記憶部314に記憶するシステム回答データの作成は実時間で行う必要はないので、システム回答データの作成時には回答候補の探索範囲を大幅に広げることが可能であり、より高精度な回答抽出を期待できる。従って、精度が高い分だけ人手によるチェックの手間を削減することができる。   When providing a question answering service on a portal site, in order to respond in real time (within about 1 second), it is necessary to limit the targets from which the answer candidate extraction unit 304 extracts answer candidates. For this reason, in this embodiment, the retrieved documents are not downloaded, and only summary sentences of the top 10 inspection results are extracted as answer candidates. On the other hand, since it is not necessary to create the system answer data stored in the system answer data storage unit 314 in real time, the search range of answer candidates can be greatly expanded when creating the system answer data. Can be expected. Therefore, it is possible to reduce the labor of checking manually as much as the accuracy is high.

[回答候補順位付け部305]
回答候補順位付け部305は、基本的には第1の実施形態と同様であり、回答候補抽出部304により文書集合から抽出した第1の回答候補と回答検索部309によりユーザ回答データ記憶部308から検索した第2の回答候補の和集合を求める。次に、回答候補順位付け部305は以下の3つの観点から各回答候補の尤度を求める。
[Answer candidate ranking unit 305]
The answer candidate ranking unit 305 is basically the same as in the first embodiment, and the first answer candidate extracted from the document set by the answer candidate extraction unit 304 and the user answer data storage unit 308 by the answer search unit 309. The union of the second answer candidates retrieved from is obtained. Next, the answer candidate ranking unit 305 obtains the likelihood of each answer candidate from the following three viewpoints.

(1)検索結果のより上位の文書の概要文に出現する回答候補の方が尤もらしい;
(2)検索キーワードの近くに出現する回答候補の方が尤もらしい;
(3)何度も出現する回答候補の方が尤もらしい。
(1) A candidate answer that appears in the summary sentence of a higher-order document in the search result is more likely;
(2) Answer candidates appearing near the search keyword are more likely;
(3) Answer candidates that appear many times are more likely.

本実施形態では、上記の3つの観点を考慮した回答候補の尤度Saを以下のように定義する。

Figure 2006039881
In the present embodiment, the likelihood Sa of the answer candidate considering the above three viewpoints is defined as follows.
Figure 2006039881

回答候補の尤度Saは、Web検索部302であるインターネット検索エンジンによる検索結果の上位Nd個の文書を対象として計算する。ここでは、Nd=10としている。数式(1)において、iはインターネット検索エンジンによる文書の順位である。Nsiはi番目の文書の概要文に含まれる文の数を表し、Nqwは検索キーワードの数を表す。Djkは文jにおける回答候補と検索キーワードk間の最短距離である。Wiはi番目の文書の概要文を重みであり(ΣWi=1)、Cは回答候補と検索キーワード間の距離に対する重みである。   The likelihood Sa of the answer candidate is calculated for the top Nd documents of the search result by the Internet search engine which is the Web search unit 302. Here, Nd = 10. In Equation (1), i is the order of documents by the Internet search engine. Nsi represents the number of sentences included in the summary sentence of the i-th document, and Nqw represents the number of search keywords. Djk is the shortest distance between the answer candidate and the search keyword k in sentence j. Wi is a weight for the summary sentence of the i-th document (ΣWi = 1), and C is a weight for the distance between the answer candidate and the search keyword.

回答候補と検索キーワード間の距離は、単語数を単位として一つの文の中でのみ計測する。インターネット検索エンジンでは、一つの文書の異なる箇所から抽出した複数の文を連結して一つの概要文を作成する場合があるためである。exp(-d2 jk/C)の値域は[0, 1](0以上、1以下)なので、尤度Saは0と1の間に正規化されている。尤度Saは厳密な意味では確率ではないが、実用的には確率と同様に使うことができる。 The distance between the answer candidate and the search keyword is measured only in one sentence with the number of words as a unit. This is because an Internet search engine may create a single summary sentence by concatenating a plurality of sentences extracted from different parts of a single document. Since the range of exp (−d 2 jk / C) is [0, 1] (from 0 to 1), the likelihood Sa is normalized between 0 and 1. The likelihood Sa is not a probability in the strict sense, but can be used in the same way as a probability in practical use.

尤度を計算する回答候補集合に、ユーザ回答データ記憶部308から検索した第2の回答候補を加えることは、当該回答候補が正解であり、かつ検索された文書の概要文に当該回答候補が出現しているにもかかわらず、何らかの理由で回答候補抽出部304により回答候補として抽出されなかった場合の救済措置として非常に有効である。   Adding the second answer candidate searched from the user answer data storage unit 308 to the answer candidate set for calculating likelihood is that the answer candidate is correct and the answer candidate is included in the summary sentence of the searched document. Although it appears, it is very effective as a remedy when the answer candidate extraction unit 304 does not extract the answer candidate for some reason.

文書の概要文から正解が抽出されない原因としては、
(a)そもそも適切な回答パターンが存在しない;
(b)質問解析規則の不備により、適切な回答パターンの選択に失敗した;
(c)適切な回答パターンを選択したが、形態素解析または固有表現抽出の誤りや意味カテゴリ辞書の不備(単語に意味カテゴリが付与されていない)により、文書の概要文と回答パターンとの照合に失敗した;など、様々なケースが存在する。
The reason why the correct answer is not extracted from the document summary is as follows:
(A) There is no appropriate answer pattern in the first place;
(B) failure to select an appropriate answer pattern due to incomplete question analysis rules;
(C) Although an appropriate answer pattern has been selected, due to an error in morphological analysis or proper expression extraction and a deficiency in the semantic category dictionary (a semantic category is not assigned to the word), it is possible to match the summary sentence of the document with the answer pattern. There are various cases, such as failure;

ユーザ回答データ記憶部308から検索された第2の回答候補の文字列がWeb検索部302により検索された文書の概要文に出現していれば、その回答候補の尤度Saが計算される。もし尤度Saが大きければ、その回答候補は正解である可能性が高い。逆に、もしユーザ回答データ記憶部308から検索された第2の回答候補が誤りである場合、概要文の中で検索キーワードの周囲に出現する可能性は非常に低いので、尤度Saは小さな値となる。従って、ユーザが誤った回答候補をフィードバヅクした場合には、尤度Saがある閾値に満たない誤った回答候補を回答候補順位付け部305により排除できる。   If the character string of the second answer candidate searched from the user answer data storage unit 308 appears in the summary sentence of the document searched by the Web search unit 302, the likelihood Sa of the answer candidate is calculated. If the likelihood Sa is large, the answer candidate is likely to be correct. On the other hand, if the second answer candidate searched from the user answer data storage unit 308 is incorrect, the likelihood Sa is small because the possibility of appearing around the search keyword in the summary sentence is very low. Value. Therefore, when the user feedbacks an incorrect answer candidate, the answer candidate ranking unit 305 can exclude an incorrect answer candidate whose likelihood Sa is less than a certain threshold.

ここで、ユーザ回答データ記憶部308から検索された第2の回答候補の尤度を計算する際に、その回答候補を正解として選択または入力してフィードバックしたユーザの数を考慮してもよい。一般に、より多くの異なったユーザがフィードバックした回答候補はより尤もらしい。従って、回答候補をフィードバックしたユーザの数が多いほど当該回答候補の尤度を高くする、すなわちフィードバックしたユーザの数に応じて尤度に重みを付けることが望ましい。   Here, when calculating the likelihood of the second answer candidate searched from the user answer data storage unit 308, the number of users who have selected or input the answer candidate as a correct answer and fed back may be considered. In general, answer candidates fed back by more different users are more likely. Therefore, it is desirable to increase the likelihood of the answer candidate as the number of users who have fed back answer candidates increases, that is, weight the likelihood according to the number of users who have fed back.

また、ユーザ回答データ記憶部308だけでなく、システム回答データ記憶部314も回答検索の対象とする場合、システム回答データ記憶部314から検索された回答候補に対して、無条件に高い尤度を与えてもよい。あるいは、システム回答データ記憶部314とユーザ回答データ記憶部308を区別せず、上述のように検索された文書の概要文における回答候補の出現状況に応じて尤度を決定してもよい。   In addition, when not only the user answer data storage unit 308 but also the system answer data storage unit 314 is an object of the answer search, an unconditionally high likelihood is given to the answer candidates searched from the system answer data storage unit 314. May be given. Alternatively, the likelihood may be determined according to the appearance status of the answer candidates in the summary sentence of the document searched as described above without distinguishing between the system answer data storage unit 314 and the user answer data storage unit 308.

[回答候補表示部306]
回答候補表示部306は、尤度が大きい順に回答候補を表示してユーザに提示し、表示された回答候補の中から正解をユーザに選択してもらうか、または質問に対する正しい回答をユーザに直接入力してもらうように促す。
[Answer candidate display section 306]
The answer candidate display unit 306 displays the answer candidates in descending order of likelihood and presents them to the user, and asks the user to select a correct answer from the displayed answer candidates, or directly gives the correct answer to the question to the user. Prompt for input.

図5は、ユーザインタフェースの例を示す。「鉄腕アトムの誕生日は?」という質問文に対して、尤度の大きい順に5つの回答候補が表示されている。各回答候補の尤度Saの値は、「自信度」として棒グラフの形で表示されている。尤度Saの値は、各回答候補の直下に「かもしれない」「じゃないよね?」などの言語表現でも表示されている。   FIG. 5 shows an example of a user interface. For the question sentence “What is Astro Boy's birthday?”, Five answer candidates are displayed in descending order of likelihood. The value of likelihood Sa of each answer candidate is displayed in the form of a bar graph as “confidence level”. The value of likelihood Sa is also displayed in language expressions such as “maybe” or “not right?” Directly under each answer candidate.

本実施形態における言語表現と尤度の対応の一例は、以下の通りである。
・ちがいない(≧0.8);
・だよね?(≧0.6);
・かな?(≧0.4);
・かもしれない(≧0.2);
・じゃないよね?(≧0.05);
・わけないか...(≧0)
図5においては、各回答候補の右端に「回答候補の評価」として「役に立った」というラベルを持つチェックボックスが表示されている。このチェックボックスをユーザがチェックすると、その回答候補が、入力された質問文に対する正解としてユーザ回答データ記憶部308に記憶される。
An example of correspondence between language expressions and likelihoods in the present embodiment is as follows.
・ No mistake (≧ 0.8);
·right? (≧ 0.6);
·Wonder? (≧ 0.4);
・ Maybe (≧ 0.2);
・ Not right? (≧ 0.05);
・ Is there no reason? . . (≧ 0)
In FIG. 5, a check box having a label of “useful” as “evaluation of answer candidate” is displayed at the right end of each answer candidate. When the user checks this check box, the answer candidate is stored in the user answer data storage unit 308 as a correct answer to the inputted question sentence.

また、図5においては回答候補の下にテキストボックスを用意し、「正しい回答をご存じでしたら入力して下さい」というプロンプト、及び「回答の評価・正しい回答を送信」というボタンを表示している。例えば、質問応答システムの能力を試す目的で、正しい回答を知っている質問文をユーザが入力している場合には、ユーザが当該テキストボックスに文字列を入力すると、それが入力された質問文に対する正解としてユーザ回答データ記憶部308に記憶される。   In FIG. 5, a text box is prepared below the answer candidates, and a prompt “Please input if you know the correct answer” and a button “Evaluate answer / Send correct answer” are displayed. . For example, if the user has entered a question sentence that knows the correct answer for the purpose of testing the ability of the question answering system, when the user enters a character string in the text box, the question sentence is entered. Is stored in the user answer data storage unit 308 as a correct answer to.

ちなみに、図5において「正しい」でなく「役に立った」というラベルを使用している理由は、「世界で一番美しい女性は誰?」のように、明確な正解が存在しない質問が多数存在するためである。従って、ここではユーザに対して有用な情報を回答として提示できるものを広義の正解と考えている。   By the way, the reason for using the label “helpful” instead of “correct” in FIG. 5 is that there are many questions that do not have a clear answer, such as “Who is the most beautiful woman in the world?” Because. Therefore, what can present useful information as an answer to the user is considered as a correct answer in a broad sense.

なお、本発明は上記した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変形することができる。例えば、実施形態に示される構成要素あるいは処理ステップのうち幾つかを省略してもよいし、異なる実施形態にわたる構成要素あるいは処理ステップを適宜組み合わせてもよい。   In addition, this invention is not limited to above-described embodiment, In the range which does not deviate from the summary, it can change variously. For example, some of the constituent elements or processing steps shown in the embodiments may be omitted, or constituent elements or processing steps in different embodiments may be appropriately combined.

本発明の第1の実施形態に係る質問応答システムのブロック図The block diagram of the question answering system concerning a 1st embodiment of the present invention. 図1の質問応答システムの処理手順を示すフローチャートThe flowchart which shows the process sequence of the question answering system of FIG. 本発明のより具体的な第2の実施形態に係る質問応答システムのブロック図Block diagram of a question answering system according to a more specific second embodiment of the present invention 第2の実施形態における質問解析規則の例を示す図The figure which shows the example of the question analysis rule in 2nd Embodiment 第2の実施形態における回答候補の表示例を示す図The figure which shows the example of a display of the answer candidate in 2nd Embodiment

符号の説明Explanation of symbols

101…質問解析部
102…文書検索部
103…文書データベース
104…回答候補抽出部
105…回答候補順位付け部
106…回答候補表示部
107…ユーザ入力部
108…ユーザ回答データ記憶部
109…回答検索部
301…質問解析部
302…Web検索部
303…インターネット
304…回答候補抽出部
305…回答候補順位付け部
306…回答候補表示部
307…ユーザ入力部
308…ユーザ回答データ記憶部
309…回答検索部
310…質問ログテータ記憶部
311…質問頻度計算部
312…質問頻度データ記憶部
313…システム回答データ記憶部
DESCRIPTION OF SYMBOLS 101 ... Question analysis part 102 ... Document search part 103 ... Document database 104 ... Answer candidate extraction part 105 ... Answer candidate ranking part 106 ... Answer candidate display part 107 ... User input part 108 ... User answer data storage part 109 ... Answer search part DESCRIPTION OF SYMBOLS 301 ... Question analysis part 302 ... Web search part 303 ... Internet 304 ... Answer candidate extraction part 305 ... Answer candidate ranking part 306 ... Answer candidate display part 307 ... User input part 308 ... User answer data storage part 309 ... Answer search part 310 ... Question log data storage unit 311 ... Question frequency calculation unit 312 ... Question frequency data storage unit 313 ... System answer data storage unit

Claims (10)

入力された質問文に対して回答を提示する質問応答システムにおいて、
前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成する質問解析手段と、
文書集合を蓄積した文書データベースから前記質問解析手段により生成されたキーワードを検索キーワードとして文書を検索する文書検索手段と、
検索された文書から前記回答パターンを用いて第1の回答候補を抽出する回答候補抽出手段と、
複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するユーザ回答データ記憶手段と、
前記ユーザ回答データ記憶手段から前記入力された質問文に対応する回答データを第2の回答候補として検索する回答検索手段と、
前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う回答候補順位付け手段と、
順位付けられた回答候補をユーザに提示するために表示する回答候補表示手段とを具備することを特徴とする質問応答システム。
In the question answering system that presents answers to the question text entered,
A question analysis means for generating a response pattern that specifies a keyword for document search by analyzing the input question sentence, and a type and word arrangement of answers to be extracted from the document;
A document search means for searching a document using a keyword generated by the question analysis means from a document database storing a document set as a search keyword;
Answer candidate extracting means for extracting a first answer candidate from the retrieved document using the answer pattern;
User answer data storage means for storing answer data selected or input by the user for each of a plurality of question sentences;
Answer search means for searching for answer data corresponding to the inputted question sentence from the user answer data storage means as a second answer candidate;
Answer candidate ranking means for ranking by likelihood with respect to the union of the first answer candidate and the second answer candidate;
A question answering system comprising answer candidate display means for displaying the ranked answer candidates for presentation to a user.
前記回答候補順位付け手段は、前記第1の回答候補及び前記第2の回答候補の和集合のうち、尤度が大きい順に予め定められた数の回答候補のみを前記回答候補表示手段に渡すことを特徴とする請求項1に記載の質問応答システム。   The answer candidate ranking means passes only a predetermined number of answer candidates in descending order of likelihood from the union of the first answer candidates and the second answer candidates to the answer candidate display means. The question answering system according to claim 1. 前記回答候補順位付け手段は、前記第1の回答候補及び前記第2の回答候補の和集合のうち、尤度がある閾値以上の回答候補のみを前記回答候補表示手段に渡すことを特徴とする請求項1に記載の質問応答システム。   The answer candidate ranking means passes only answer candidates having a likelihood equal to or higher than a threshold among the union set of the first answer candidates and the second answer candidates to the answer candidate display means. The question answering system according to claim 1. 前記文書検索手段は、前記検索キーワードとして前記質問解析手段により生成されたキーワードに加えて前記第2の回答候補を用いることを特徴とする請求項1に記載の質問応答システム。   The question answering system according to claim 1, wherein the document search unit uses the second answer candidate in addition to the keyword generated by the question analysis unit as the search keyword. 前記回答候補抽出手段は、前記文書検索手段により検索された文書のうち前記質問解析手段により生成されたキーワードの周囲のテキストから前記第1の回答候補を抽出することを特徴とする請求項1に記載の質問応答システム。   2. The answer candidate extracting unit extracts the first answer candidate from a text around a keyword generated by the question analyzing unit among documents searched by the document searching unit. The question answering system described. 前記回答候補順位付け手段は、前記ユーザ回答データ記憶部に記憶された回答データを選択または入力したユーザの数に応じた重みを前記第2の回答候補に付与して前記順位付けを行うことを特徴とする請求項1に記載の質問応答システム。   The answer candidate ranking means assigns a weight according to the number of users who have selected or input the answer data stored in the user answer data storage unit to the second answer candidates and performs the ranking. The question answering system according to claim 1 characterized by things. 前記入力された質問文を表す質問ログデータを記憶する質問ログデータ記憶部と、
前記質問ログデータから前記質問文毎の入力回数を示す質問頻度データを求める質問頻度計算手段と、
前記質問頻度データに基づいて前記入力回数が一定値以上の質問文に対して予め作成された正解の回答データを記憶するシステム回答データ記憶部とをさらに具備し、
前記回答検索手段は、前記ユーザ回答データ記憶部及びシステム回答データ記憶部から前記第2の回答候補を検索することを特徴とする請求項1乃至6のいずれか1項に記載の質問応答システム。
A question log data storage unit for storing question log data representing the inputted question sentence;
Question frequency calculation means for obtaining question frequency data indicating the number of inputs for each question sentence from the question log data;
A system answer data storage unit that stores correct answer data created in advance for a question sentence whose number of inputs is a predetermined value or more based on the question frequency data;
The question answering system according to any one of claims 1 to 6, wherein the answer searching means searches for the second answer candidate from the user answer data storage unit and the system answer data storage unit.
前記文書データベースはインターネットであり、前記検索手段はインターネット検索エンジンであることを特徴とする請求項1記載の質問応答システム。   2. The question answering system according to claim 1, wherein the document database is the Internet, and the search means is an Internet search engine. 入力された質問文に対して回答を提示する質問応答方法において、
前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成するステップと、
文書集合を蓄積した文書データベースから前記生成されたキーワードを検索キーワードとして文書を検索するステップと、
検索された文書から前記回答パターンを用いて第1の回答候補を抽出するステップと、
複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶するステップと、
記憶された回答データのうちから前記入力された質問文に対応する回答データを第2の回答候補として検索するステップと、
前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行うステップと、
順位付けられた回答候補をユーザに提示するために表示するステップとを具備することを特徴とする質問応答方法。
In the question answering method that presents the answer to the question text entered,
Generating an answer pattern defining a keyword for document search by analyzing the input question sentence, and a type and word arrangement of answers to be extracted from the document;
Searching a document from the document database storing the document set using the generated keyword as a search keyword;
Extracting a first answer candidate from the retrieved document using the answer pattern;
Storing answer data selected or input by the user for each of the plurality of question sentences;
Searching the answer data corresponding to the inputted question sentence from the stored answer data as a second answer candidate;
Performing ranking by likelihood on the union of the first answer candidate and the second answer candidate;
And displaying the ranked answer candidates for presentation to the user.
入力された質問文に対して回答を提示する処理をコンピュータに実行させるプログラムにおいて、
前記入力された質問文を解析することにより文書検索のためのキーワード、及び文書から抽出すべき回答の種類と単語配列を規定する回答パターンを生成する処理と、
文書集合を蓄積した文書データベースから前記生成されたキーワードを検索キーワードとして文書を検索する処理と、
検索された文書から前記回答パターンを用いて第1の回答候補を抽出する回答候補抽出処理と、
複数の質問文の各々に対してユーザにより選択または入力された回答データを記憶する処理と、
記憶された回答データのうちから前記入力された質問文に対応する回答データを第2の回答候補として検索する処理と、
前記第1の回答候補及び第2の回答候補の和集合に対して尤度による順位付けを行う処理と、
順位付けられた回答候補をユーザに提示するために表示させる処理とを前記コンピュータに実行させるための質問応答プログラム。
In a program for causing a computer to execute a process of presenting an answer to an inputted question sentence,
Processing for generating an answer pattern that specifies a keyword for document search by analyzing the inputted question sentence, and an answer type and a word arrangement to be extracted from the document;
Processing for searching a document from the document database storing the document set using the generated keyword as a search keyword;
An answer candidate extraction process for extracting a first answer candidate from the retrieved document using the answer pattern;
Processing for storing answer data selected or input by the user for each of a plurality of question sentences;
A process of searching for answer data corresponding to the inputted question sentence from the stored answer data as a second answer candidate;
A process of ranking by likelihood for the union of the first answer candidate and the second answer candidate;
A question answering program for causing the computer to execute processing for displaying ranked answer candidates for presentation to a user.
JP2004217904A 2004-07-26 2004-07-26 Question answering system, method and program Active JP4116599B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004217904A JP4116599B2 (en) 2004-07-26 2004-07-26 Question answering system, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004217904A JP4116599B2 (en) 2004-07-26 2004-07-26 Question answering system, method and program

Publications (2)

Publication Number Publication Date
JP2006039881A true JP2006039881A (en) 2006-02-09
JP4116599B2 JP4116599B2 (en) 2008-07-09

Family

ID=35904826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004217904A Active JP4116599B2 (en) 2004-07-26 2004-07-26 Question answering system, method and program

Country Status (1)

Country Link
JP (1) JP4116599B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009113494A1 (en) * 2008-03-10 2009-09-17 国立大学法人横浜国立大学 Question and answer system which can provide descriptive answer using www as source of information
JP2010211563A (en) * 2009-03-11 2010-09-24 Kansai Electric Power Co Inc:The Answering support method and system
JP2013190985A (en) * 2012-03-13 2013-09-26 Sakae Takeuchi Knowledge response system, method and computer program
JP2015524105A (en) * 2012-05-24 2015-08-20 サウンドハウンド,インコーポレイテッド System and method enabling natural language processing
JP6458183B1 (en) * 2018-04-05 2019-01-23 アビームコンサルティング株式会社 Automatic voice response system and program in motor sports
JPWO2017191696A1 (en) * 2016-05-06 2019-03-07 ソニー株式会社 Information processing system and information processing method
JP2019159878A (en) * 2018-03-14 2019-09-19 Kddi株式会社 Answering device, answering method, answering program and answering system
JP2019204512A (en) * 2016-03-17 2019-11-28 グーグル エルエルシー Question and answer interface based on contextual information
CN112905768A (en) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 Data interaction method, device and storage medium
JPWO2019239543A1 (en) * 2018-06-14 2021-06-17 日本電気株式会社 Question answering device, question answering method and program
CN116975395A (en) * 2023-09-22 2023-10-31 安徽淘云科技股份有限公司 Error feedback data processing method, device, equipment and medium

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009113494A1 (en) * 2008-03-10 2009-09-17 国立大学法人横浜国立大学 Question and answer system which can provide descriptive answer using www as source of information
JP5461388B2 (en) * 2008-03-10 2014-04-02 国立大学法人横浜国立大学 Question answering system capable of descriptive answers using WWW as information source
JP2010211563A (en) * 2009-03-11 2010-09-24 Kansai Electric Power Co Inc:The Answering support method and system
JP2013190985A (en) * 2012-03-13 2013-09-26 Sakae Takeuchi Knowledge response system, method and computer program
JP2015524105A (en) * 2012-05-24 2015-08-20 サウンドハウンド,インコーポレイテッド System and method enabling natural language processing
JP2019204512A (en) * 2016-03-17 2019-11-28 グーグル エルエルシー Question and answer interface based on contextual information
US11042577B2 (en) 2016-03-17 2021-06-22 Google Llc Question and answer interface based on contextual information
JPWO2017191696A1 (en) * 2016-05-06 2019-03-07 ソニー株式会社 Information processing system and information processing method
US11646026B2 (en) 2016-05-06 2023-05-09 Sony Group Corporation Information processing system, and information processing method
US11074916B2 (en) 2016-05-06 2021-07-27 Sony Corporation Information processing system, and information processing method
JP2019159878A (en) * 2018-03-14 2019-09-19 Kddi株式会社 Answering device, answering method, answering program and answering system
JP7014646B2 (en) 2018-03-14 2022-02-01 Kddi株式会社 Response device, response method, response program and response system
JP2019185243A (en) * 2018-04-05 2019-10-24 アビームコンサルティング株式会社 Automatic voice response system and program in motor sports
JP6458183B1 (en) * 2018-04-05 2019-01-23 アビームコンサルティング株式会社 Automatic voice response system and program in motor sports
JP7259854B2 (en) 2018-06-14 2023-04-18 日本電気株式会社 Question answering device, question answering method and program
JPWO2019239543A1 (en) * 2018-06-14 2021-06-17 日本電気株式会社 Question answering device, question answering method and program
US12013849B2 (en) 2018-06-14 2024-06-18 Nec Corporation Question responding apparatus, question responding method, and recording medium
CN112905768A (en) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 Data interaction method, device and storage medium
CN116975395A (en) * 2023-09-22 2023-10-31 安徽淘云科技股份有限公司 Error feedback data processing method, device, equipment and medium
CN116975395B (en) * 2023-09-22 2024-01-23 安徽淘云科技股份有限公司 Error feedback data processing method, device, equipment and medium

Also Published As

Publication number Publication date
JP4116599B2 (en) 2008-07-09

Similar Documents

Publication Publication Date Title
JP4881878B2 (en) Systems, methods, software, and interfaces for multilingual information retrieval
JP4650072B2 (en) Question answering system, data retrieval method, and computer program
US10552467B2 (en) System and method for language sensitive contextual searching
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
JP2006252382A (en) Question answering system, data retrieval method and computer program
US8000957B2 (en) English-language translation of exact interpretations of keyword queries
US20230014700A1 (en) Pre-emptive graph search for guided natural language interactions with connected data systems
Benajiba et al. Implementation of the ArabiQA question answering system's components
JP2013016172A (en) System and method for processing data
WO2013071305A2 (en) Systems and methods for manipulating data using natural language commands
JP4116599B2 (en) Question answering system, method and program
JP2014120053A (en) Question answering device, method, and program
JP2008152522A (en) Data mining system, data mining method and data retrieval system
JP4967037B2 (en) Information search device, information search method, terminal device, and program
JP2020190970A (en) Document processing device, method therefor, and program
JP2000200281A (en) Device and method for information retrieval and recording medium where information retrieval program is recorded
JPWO2003034279A1 (en) Information retrieval method, information retrieval program, and computer-readable recording medium on which information retrieval program is recorded
JP7167997B2 (en) Literature retrieval method and literature retrieval system
JP2004355550A (en) Natural sentence retrieval device, and its method and program
JP4499179B1 (en) Terminal device
JP2007164635A (en) Method, device and program for acquiring synonymous vocabulary
JP4428703B2 (en) Information retrieval method and system, and computer program
JP4860439B2 (en) Automatic question generation system
JP2006227914A (en) Information search device, information search method, program and storage medium
KR20110045927A (en) Electronic book contents searching service system and electronic book contents searching service method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080417

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4116599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350