JP2016045652A - 質問文生成装置及びコンピュータプログラム - Google Patents

質問文生成装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2016045652A
JP2016045652A JP2014168702A JP2014168702A JP2016045652A JP 2016045652 A JP2016045652 A JP 2016045652A JP 2014168702 A JP2014168702 A JP 2014168702A JP 2014168702 A JP2014168702 A JP 2014168702A JP 2016045652 A JP2016045652 A JP 2016045652A
Authority
JP
Japan
Prior art keywords
question
sentence
question sentence
word
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014168702A
Other languages
English (en)
Other versions
JP6414956B2 (ja
Inventor
健太郎 鳥澤
Kentaro Torisawa
健太郎 鳥澤
後藤 淳
Atsushi Goto
淳 後藤
ジュリアン クロエツェー
Kloetzer Julien
ジュリアン クロエツェー
拓也 川田
Takuya Kawada
拓也 川田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2014168702A priority Critical patent/JP6414956B2/ja
Priority to KR1020167036829A priority patent/KR102408082B1/ko
Priority to PCT/JP2015/072622 priority patent/WO2016027714A1/ja
Priority to US15/503,553 priority patent/US10380149B2/en
Priority to EP15833758.4A priority patent/EP3185140A4/en
Priority to CN201580043433.8A priority patent/CN106663125B/zh
Publication of JP2016045652A publication Critical patent/JP2016045652A/ja
Application granted granted Critical
Publication of JP6414956B2 publication Critical patent/JP6414956B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが興味を持つ問題について、質問応答システムで一定以上の精度を持つ回答が得られることが保証されている質問文を容易に作成できるよう、ユーザを補助する装置を提供する。【解決手段】質問文生成装置は、質問応答システムとともに用いられ、質問文生成のもととなる単語等480を受信する単語受信手段と、質問文生成用の複数個のエントリからなる質問文生成用データベース502とを含む。複数個のエントリの各々は、単語をキーとして、質問応答システムで用いられる、当該単語と共起する回答文パターンを含む。質問文生成装置はさらに、単語受信手段により受信された単語等480をキーに質問文生成用データベース502から回答文パターンを検索し、検索された回答文パターンと、受信された単語等480とから、質問文を生成する質問文生成部506とを含む。【選択図】 図6

Description

この発明は、質問応答システムに関し、特に、質問応答システムを利用者がより使用しやすくする技術に関する。
自然言語処理技術を応用した様々な質問応答システムが開発されてきた。そうしたシステムでは、自然言語文からなる質問文をシステムに与えると、回答が自然言語文で与えられる。コンピュータ技術及びネットワーク技術が長足の進歩を遂げた現在では、このような質問応答システムが広く利用されるようになる条件は整っている。しかし、一般のユーザに広く浸透した質問応答システムは皆無といってよい。
その理由として様々なものを考えることができる。例えば、従来の質問応答システムでは、ユーザは自分の興味のある事柄に関して質問文を作り、質問応答システムに与え、その回答を受信する。しかし、このように質問応答システムに質問をしても、的確な答えが得られることが少なく、何度も質問をし直さなければならない場合が多い。こうしたことが重なると、最初は質問応答システムに興味を持っていたユーザも、結局は質問応答システムを利用しなくなる。また、ユーザが何らかの疑問を持っていても、それを具体的な質問に表現することができない場合も多い。質問応答システムは、何らからの形で具体的な質問をしなければ回答は得られない。したがって、何らかの疑問があっても、それを明確な質問文の形にしない限り的確な回答が得られず。結局は質問応答システムを効率よく使用することが難しいということになってしまっている。
一方、いわゆるキーワードを用いた情報検索という技術もある。この技術では、キーワードをシステムに与えると、そのキーワードと関連の高い文をデータベースから検索し、その文をユーザに対して表示する。この方法でも、的確なキーワードが見つけられないと質問に対する回答としてふさわしい情報が得られないという問題がある。しかも質問に対してピンポイントの回答が得られるわけではないので、検索された大量の文書を読まなければならないという問題もある。
こうしたキーワード検索を補助する技術として、キーワードが入力されるとリアルタイムでそのキーワードと同時に入力される機会の多いキーワードを補助的に表示する、いわゆるキーワードサジェスト機能がある。ユーザは、サジェストされたキーワードを選択することで検索の精度を高めることができる。
しかし、キーワードサジェスト機能を用いたとしても、キーワードの間の関係を明確にすることができないという問題がある。複数のキーワードがどのような状況で用いられているかを指定できない限り、検索の精度はある程度の域にとどまると思われる。結局、ユーザが大量の文書を読まなければ回答が得られないという問題は解決できない。
従来の質問応答システムがユーザに浸透しない原因は、質問文を作成する際のコストの高さであると考えられる。質問応答システムにおいて、ユーザが自身の興味に応じて適切な質問文を作成することは必ずしも容易ではない。例えば、TPPに興味があるものの、何を聞けばよいか分からないユーザに対して、従来の質問応答システムは無力である。また、よりよい結果を得るために、ユーザは何度も質問文を作り変えてシステムに問い合わせる必要があった。質問文を作成するためにユーザが時間をかけたとしても、得られる回答がその時間に見合ったものでない限り、ユーザが質問応答システムを積極的に利用することはないであろう。
一方、キーワードサジェスト機能を用いたキーワード検索の場合、入力がキーワードの羅列となる。得られる結果も、キーワードとの関連が高い文書ではあるかもしれないが、ユーザの質問に対する適切な回答を与えるものである可能性は高くない。その結果、ユーザは自分の疑問に対する回答を得るために、検索の結果得られた文書を多数読む必要があり、利便性は低かった。
したがって、自然言語処理技術を利用した質問応答システムにおいて、質問文の作成コストを低くし、ユーザが自然言語文による適切な質問文を容易に生成できるようにするための技術が求められている。その際、人手による回答を準備することなく、様々な分野のユーザの質問に対しても適切な回答が得られるような質問文を生成できることが望ましい。
したがって、この発明の目的は、ユーザが興味を持つ問題について質問応答システムで回答を得ようとしている場合に、精度の高い回答が得られるような質問文をユーザが容易に作成できるよう、ユーザを補助する装置及びコンピュータプログラムを提供することである。
この発明の他の目的は、ユーザが興味を持つ問題について、質問応答システムで一定以上の精度を持つ回答が得られることが保証されている質問文を容易に作成できるよう、ユーザを補助する装置及びコンピュータプログラムを提供することである。
本発明の第1の局面に係る質問文生成装置は、質問応答システムとともに用いられ、質問文生成のもととなる単語又は単語列を受信する単語受信手段と、質問文生成用の複数個のレコードからなる質問文生成用データベースとを含む。複数個のレコードの各々は、単語をキーとして、質問応答システムで用いられる、当該単語と共起する回答文パターンを含む。質問文生成装置はさらに、単語受信手段により受信された単語をキーに質問文生成用データベースから回答文パターンを検索し、検索された回答文パターンと、受信された単語とから、質問文を生成する第1の質問文生成手段とを含む。
好ましくは、質問文生成装置はさらに、単語若しくは回答文パターン又はその双方の同義関係若しくは含意関係を格納した同義語辞書と、質問文生成手段が複数個の質問文を生成したことに応答して、同義語辞書を参照して複数個の質問文をより少数の質問文に集約して出力する質問文集約手段とを含む。
より好ましくは、質問文生成装置はさらに、単語若しくは回答文パターン又はその双方をそれらの意味にしたがって体系的に分類した分類情報を格納したシソーラスと、質問文生成手段が複数個の質問文を生成したことに応答して、シソーラスを参照して複数個の質問文をより少数の質問文に集約して出力する質問文集約手段とを含む。
さらに好ましくは、単語受信手段は、複数の単語を受信可能であり、質問文生成用データベースは、単語受信手段により受信された複数個の単語をキーに当該複数個の単語と共起する回答文パターンを検索可能である。
質問文生成手段は、単語受信手段により受信された単語をキーに質問文生成用データベースから回答文パターンを検索し、検索された回答文パターンと、受信された単語とから、質問文及び当該質問文に対する回答文とを生成する質問・回答生成手段を含んでもよい。
質問応答システムは、ファクトイド型の質問文が与えられると、当該質問文のパターンと当該質問文に含まれる単語又は単語列とをキーにして回答文生成用データベースを検索して回答文候補を生成するファクトイド型質問応答サブシステムを含んでもよい。質問応答システムの回答文生成用データベースと、質問文生成装置の前記質問文生成用データベースとは、同じコーパスから生成された共通のレコードを含むようにできる。
好ましくは、質問応答システムはさらに、ノンファクトイド型の質問文が与えられると、コーパスから回答文候補となるパッセージを複数個抽出し、与えられた質問に対する回答としてのふさわしさを示すスコアを、あらかじめ学習済のスコア算出手段により算出して最上位のスコアを持つ回答文候補を前記与えられた質問に対する回答として出力するノンファクトイド型質問応答サブシステムを含む。質問文生成装置はさらに、各々が、予め準備された、質問と回答という明示的な区別を持たないパッセージの集合内のいずれかのパッセージから生成された質問文であって、当該質問文が生成されたもととなるパッセージを回答とする複数の質問文を記憶した質問文データベースと、質問文生成のもととなる単語又は単語列を受信すると、質問文データベースを参照して、当該質問文生成のもととなる単語若しくは単語列、又はそれらの同義語若しくはそれらを含意する語と、質問文データベースに記憶された質問文とから、新たな質問文を生成して出力する第2の質問文生成手段と、第1及び第2の質問文生成手段の出力する質問文をまとめて出力するための手段とを含む。
本発明の第2の局面に係る質問文生成装置は、質問応答システムとともに用いられる。質問応答システムは、ノンファクトイド型の質問文が与えられると、コーパスから回答文候補となるパッセージを複数個抽出し、各パッセージに上記質問に対する回答としてのふさわしさを示すスコアを、あらかじめ学習済のスコア算出手段により算出して、最上位のスコアを持つ回答文候補を、上記質問に対する回答として出力するノンファクトイド型質問応答サブシステムを含む。質問文生成装置は、各々が、コーパス内のいずれかのパッセージから生成された質問文であって、当該質問文が生成されたもととなるパッセージを回答とする、複数の質問文を記憶した質問文データベースと、質問文生成のもととなる単語又は単語列を受信すると、質問文データベースを参照して、当該質問文生成のもととなる単語若しくは単語列、又はそれらの同義語若しくはそれらを含意する語と、質問文データベースに記憶された質問文とから、新たな質問文を生成して出力する質問文生成手段とを含む。
本発明の第3の局面に係るコンピュータプログラムは、質問応答システムとともに用いられる質問文生成装置としてコンピュータを機能させるコンピュータプログラムである。このコンピュータは、質問文生成用の複数個のレコードからなる質問文生成用データベースに接続して用いられる。複数個のレコードの各々は、単語をキーとして、質問応答システムで用いられる、当該単語と共起する回答文パターンを含む。コンピュータプログラムは、コンピュータを、質問文生成のもととなる単語又は単語列を受信する単語受信手段と、単語受信手段により受信された単語をキーに質問文生成用データベースから回答文パターンを検索し、検索された回答文パターンと、受信された単語とから、質問文を生成する質問文生成手段として機能させる。
本発明の実施の形態に係る質問文生成装置を採用した質問応答システムを利用したネットワークの全体構成を示す概略ブロック図である。 本発明の実施の形態に係る質問応答システムの全体構成を示すブロック図である。 図2に示す質問応答システムのうち、質問応答サブシステムの構成を示すブロック図である。 図3に示す質問応答サブシステムのうち、ファクトイド型質問応答サブシステムの構成を示すブロック図である。 図3に示す質問応答サブシステムのうち、ノンファクトイド型質問応答サブシステムの構成を示すブロック図である。 図2に示す質問応答システムのうち、ファクトイド型質問文生成サブシステムの構成を示すブロック図である。 図2に示す質問応答システムのうち、ノンファクトイド型質問文生成サブシステムの構成を示すブロック図である。 図2に示す質問応答システムにおいて、入力に応じて処理を振り分けるプログラムの制御構造を示すフローチャートである。 図2に示す質問応答システムの初期画面の一例を示す図である。 図9に示す画面で単語等を入力した際に表示される質問応答システムの画面の一例を示す図である。 本発明の実施の形態に係る質問文生成装置を採用した質問応答システムを実現するコンピュータのハードウェア構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰り返さない。
[構成]
これまで開発されて来た質問応答システムでは、例えば「安倍政権は何を狙っているか」という質問に対して、「AはBを狙っている」というパターンを生成し、そのパターンとA=「安倍政権」という2つのキーでデータベースを検索し、Bに相当する単語を回答として得る。データベースは、インターネットのウェブサイトから多数の文を収集し、一方の単語とパターンとをキーに、他方の単語を回答としてテーブルに登録することで準備する。この例では、データベースに「安倍政権はTPP参加を狙っている」という文があれば、上のような質問に対してB=「TPP参加」という回答をデータベースから得ることができる。
質問には、回答として単純な単語又は短いフレーズで回答できるようなタイプの質問(ファクトイド型質問と呼ばれる)と、理由、ものごとを行なう方法等、単語又は短いフレーズでは回答できないようなタイプの質問(ノンファクトイド型質問と呼ばれる)とがある。上に示した「安倍政権は何を狙っているか」はファクトイド型質問の例である。「安倍政権はなぜTPPを狙っているのか」はノンファクトイド型質問の例である。以下に説明する実施の形態に係るシステムは、ファクトイド型質問についてもノンファクトイド型質問についても、ユーザに質問例を提示することにより、ユーザが適切な質問をするための補助を行なう。
図1を参照して、本発明の一実施の形態に係る質問文生成システムを採用した質問応答システム164は、インターネット162に接続されており、同じインターネット162に接続されたモバイル端末166及びコンピュータ168から与えられる質問文に対して適切な回答を与えるためのものである。質問応答システム164はそのために、予めインターネット上のウェブサイトの集合170から多数のテキストデータを収集し、質問に対する応答を生成するためのデータベース(以下「DB」)を生成し保持している。
図2は、図1に示す質問応答システム164の概略構成を示すブロック図である。図2を参照して、質問応答システム164は、インターネットから収集した文からなる質問応答システム用コーパス200と、質問応答システム用コーパス200に記憶された文から質問に対する回答の生成用DB及びユーザが適切な質問文を作成するのを補助するための質問文生成用DBを生成するための前処理を行なう前処理部202と、質問文が与えられると自己が保持している回答生成用DBを検索して自然言語の回答文を生成し出力する質問応答サブシステム240と、1又は複数の単語(以下「単語等」と呼ぶ。)が受信されると、その単語等をキーにファクトイド型質問文生成用DBを参照して、その単語と関連する単語、事物等を回答とする、複数個のファクトイド型質問文を生成しそのリストを出力するファクトイド型質問文生成サブシステム242と、単語等を受信すると、その単語等に基づいて、ノンファクトイド型質問文生成用DBを参照しその単語に関連する何らかの理由、方法、定義等を尋ねるノンファクトイド型質問文を生成するノンファクトイド型質問文生成サブシステム244と、質問応答システムのフロントエンド210と、前処理部202の出力を用いて質問応答サブシステム240のためのDBを生成する質問応答サブシステム用データ生成部204と、前処理部202の出力を用いてファクトイド型質問文生成サブシステム242のためのDBを生成するファクトイド型質問文生成サブシステム用データ生成部206と、前処理部202の出力を用いて、ノンファクトイド型質問文生成サブシステム244のためのDBを生成するノンファクトイド型質問文生成サブシステム用データ生成部208とを含む。
フロントエンド210は、インターネット162への接続を提供するインターフェイス230と、ウェブサーバ232と、ウェブサイト応答用DB234と、ウェブサイト応答用プログラム記憶部236と、インターフェイス230及びウェブサーバ232を介して他の端末から与えられた要求に応じ、適切なプログラムをウェブサイト応答用プログラム記憶部236から読出し、ウェブサイト応答用DB234から適切なデータを検索してウェブページを生成しウェブサーバ232及びインターフェイス230を介して相手端末に返信するプログラム実行系238とを含む。プログラム実行系238は、受信した要求が質問の形式であれば質問応答サブシステム240に対してその質問を与え、質問応答サブシステム240から得られた回答を相手端末に返信する。要求が単語等の形式であれば、ファクトイド型質問文生成サブシステム242及びノンファクトイド型質問文生成サブシステム244にその単語等を与え、得られる質問文を相手端末に返信する。
図3は質問応答サブシステム240並びにその関連構成を示しており、この図3を参照して、前処理部202は、質問応答システム用コーパス200内の各文を形態素解析し、品詞、活用形、読み等の文法情報を付して形態素列として出力する形態素解析部280と、形態素解析部280の出力する形態素列を用いて文の係り受け関係を解析し、語をノード、それらの間の係り受け関係をエッジとするネットワーク(グラフ)形式で出力する係り受け解析部282とを含む。
質問応答サブシステム用データ生成部204は、単語の意味クラスを記憶した辞書300と、辞書300に記憶された情報を用い、係り受け解析部282により出力される係り受け関係のネットワークから種々のパターンを抽出してパターン辞書304を作成するとともに、パターン収集部308の出力に基づいて、ある単語とパターンIDが与えられると、その単語とパターンIDをキーとして、それらと共起する別の単語を検索できるような形式で回答文候補を記憶する回答文生成用DB306を生成するパターン収集部308と、係り受け解析部282の出力を受け、ノンファクトイド型質問応答サブシステム332のための解析済コーパス310を構築するためのDB構築部302とを含む。回答文生成用DB306は、上記した機能を実現するために、本実施の形態では、キーとなる単語及びパターンIDと、検索対象となる単語との3つ組みからなる多数のレコードを、高速に検索可能な形式で記憶している。
質問応答サブシステム240は、ファクトイド型の質問に対する回答を生成するファクトイド型質問応答サブシステム330と、ノンファクトイド型の質問に対する回答を生成するノンファクトイド型質問応答サブシステム332と、質問文260を受け、その質問文がファクトイド型質問文かノンファクトイド型質問文かを判定し判定結果を出力する質問種別判定部334と、質問文260と質問種別判定部334の出力とを受け、質問文の種別に応じて質問文260をファクトイド型質問応答サブシステム330への質問文340と、ノンファクトイド型質問応答サブシステム332への質問文342とに振り分ける質問振分部336と、ファクトイド型質問応答サブシステム330の出力する回答文344と、ノンファクトイド型質問応答サブシステム332の出力する回答文346とを受け、質問種別判定部334の出力する質問種別に応じていずれかを選択し、回答文262として出力する回答選択部338とを含む。
ファクトイド型の質問文と、ノンファクトイド型の質問文とは、その形が異なる。したがって質問振分部336としては、質問文の形に基づいたルールにしたがって質問文を振り分けるようなものを採用することもできる。しかし本実施の形態では、予めファクトイド型の質問文とノンファクトイド型の質問文とを多数集めたものを教師データとして、両者を判別するように機械学習したものを用いる。例えばSVM(Support Vector Machine)を用いることができる。
なお、図2に示すファクトイド型質問文生成サブシステム用データ生成部206はノンファクトイド型質問文生成サブシステム用データ生成部208と同様の構成を持つ。そのノンファクトイド型質問文生成サブシステム用データ生成部208の詳細については後述する。
図4は、ファクトイド型質問応答サブシステム330の概略構成を示すブロック図である。ファクトイド型質問応答サブシステム330は、パターンを各パターンIDとともに記憶したパターン辞書304と、前述した回答文生成用DB306と、単語及びパターンをそれらの意味クラスにしたがって体系的に分類したシソーラス360と、単語間及びパターン間の同義語関係及び含意関係を記憶した同義語・含意辞書362と、質問文340を受け、パターン辞書304、シソーラス360及び同義語・含意辞書362を利用して質問文340を解析し、質問文のパターンを特定するパターンIDと質問文中に出現する単語とを出力する質問解析部364と、質問解析部364の出力に基づいて、回答文生成用DB306から必要な情報を取出すためのクエリ文を生成するクエリ生成部366と、クエリ生成部366の生成したクエリ文により回答文生成用DB306を検索する回答文検索部368と、回答文検索部368の出力する回答文から、質問文340に対する回答文として最もふさわしいものを選択し回答文344として出力する回答選択部370とを含む。なお、パターン辞書304は、パターンごとに、そのパターンを持つ文で質問応答システム用コーパス200に出現する文へのアクセス情報も格納している。したがって、パターンIDがわかれば、そのパターンを持つ文に容易にアクセスできる。
なお、以下の記載で導入されるシソーラス及び同義・含意辞書は、いずれもシソーラス360及び同義語・含意辞書362と同様、単語についてだけでなく、パターンについてのそれらの分類情報、及び同義関係・含意関係をそれぞれ記憶している。また、パターンとしては、「AがYを好む」、「AがBを狙っている」というような2つの変数を含むパターンだけではなく、「Xを食べる」、「Xを引き起こす」のような変数を1つだけ含むようなパターンも含まれている。また、変数を3つ以上含むパターンをパターン辞書に含ませるようにしてもよい。
図5を参照して、ノンファクトイド型質問応答サブシステム332は、前述した図2に示す質問応答システム用コーパス200から得られた解析済コーパス310を用いる。
この解析済コーパス310については、全文検索を高速にするために、予め単語等に関するインデックスを作成しておく。ノンファクトイド型質問応答サブシステム332は、後述するように、回答文候補が質問文342に対する回答文としてどの程度ふさわしいかを示すスコアを出力するためのSVM402と、質問応答システム用コーパス200を用いてSVM402の学習を行なうSVM学習部400と、解析済コーパス310を参照して質問文342に対する回答候補を生成し、SVM402を用いてランク付けし、最上位の回答候補を回答文346として出力する回答文生成部404とを含む。
回答文生成部404は、質問文342を受信し質問文342に対して予め定めた文法的な解析を行ない、質問文342に含まれる各単語について、素性を生成するために必要な情報(品詞、活用形、係り受け構造等)を出力する質問文解析部450と、質問文解析部450の出力と質問文とを用い、解析済コーパス310を全文検索して質問に対する所定個数の回答候補文を抽出する候補文検索部452と、候補文検索部452が抽出した回答候補文をそれらの文法情報とともに記憶する回答候補文記憶部454とを含む。なお、ここでいう「回答候補文」とは、通常の意味での一文とは限らず、複数個の文でもよい。以下、このような一文又は複数個の文の集まりを「パッセージ」と呼ぶ。また、ここでいう「文」とは、必ずしも通常意味する「文」だけではなく、文の一部をなす文のことも指すものとする。
回答文生成部404はさらに、質問文342と回答候補文記憶部454に記憶されている回答候補文との組み合わせの各々について、質問文解析部450の出力する素性と回答候補文から得られる素性とを成分とする素性ベクトルを生成して出力する素性ベクトル生成部456と、素性ベクトル生成部456の出力する素性ベクトルの各々について、SVM402を用いてスコアリングし、スコアにしたがって素性ベクトルに対応する回答候補文をランキングして回答文346として出力する回答文ランキング部458とを含む。
SVM学習部400は、予めSVM402の学習を行なうためのものである。SVM学習部400は、解析済コーパス310から質問及び回答が対になっているもの(以下QA文)を抽出するQA文抽出部420と、QA文抽出部420の出力するQA文を記憶するQA文記憶部422とを含む。ここで、QA文とは、質問とその回答との組のことをいう。インターネット上には、例えば質問文とその回答とをペアにして検索可能としたサイト、及び専門用語の定義等を検索可能にしたり一覧表示したりするサイト等が存在する。これらのサイトから収集した情報に簡単な加工を施すことにより、多くのQA文を抽出できる。この場合の回答文は、一文でもよいが、前述したパッセージ単位でもよい。QA文記憶部422にはさらに、QA文として正しい組み合わせでないQA文が記憶される。これら正しくないQA文は、手入力してもよいし、解析済コーパス310からランダムに抽出した2つの文を組み合わせても良い。QA文の各々には、それらのQA文が正しい組み合わせか否かを示すフラグが付される。SVM学習部400はさらに、QA文記憶部422に記憶された各QA文からSVM402の教師付学習を行なうための学習データを生成する学習データ生成部424と、学習データ生成部424の出力する学習データを記憶する学習データ記憶部426と、学習データ記憶部426に記憶された学習データを用いてSVM402の学習を行なう学習処理部428とを含む。このような学習を行なうことにより、SVM402は、与えられたQA文が正しいQA文か否かを示す出力と、その信頼度を示すスコアとを出力するように最適化される。
ここでのSVMの学習データとして用いられる素性としては以下の様なものが考えられる。例えば、質問文が何らかの事項の理由を問う「なぜ〜ですか」のような形式を持つ場合には、回答文候補内に「理由」、「からである」、「根拠」等、そうした質問文に対する適切な回答であることを判定する手がかりとなる語(手がかり語)が存在する。こうした手がかり語があるか否かを素性の1つとすることができる。素性としては、これ以外にも、質問文内の内容語がどのように回答文中にあらわれているか、それら内容語と手がかり語との位置関係がどのようになっているか、質問が、ある事物についての善悪の判断を示すものである場合、回答文中にその判断と同様の判断を示す部分があるか否か、質問中に存在する自立語が、回答文内に集中して出現しているか否か、等を用いることができる。一般的に、ある質問文に対する回答としてふさわしい回答文中には、その質問文そのもの、又はその質問文を多少変形した文が存在すると考えられる。また、質問文に対する回答にふさわしい回答文中には、質問文中に存在する自立語が多く存在しており、かつそれらがまとまって出現していることが多い。手がかり語の近辺にそれらが集中していれば、回答文はさらに質問文に対する回答としてふさわしいものとなる。したがって、上に述べたような素性を回答文の適格性のスコアリングに用いることが望ましい。
図6は、ファクトイド型質問文生成サブシステム242の概略構成を示すブロック図である。図6を参照して、ファクトイド型質問文生成サブシステム242は、図4に示すパターン辞書304と同様に構築された辞書であって、単語とパターンIDとをキーに、質問応答システム用コーパス200から、その単語を含みそのパターンIDにより特定されるパターンを持つ文を検索可能なパターン辞書500と、複数個のレコードを含むテーブルからなる質問文生成用DB502と、単語等480を受ける候補検索部504と、候補検索部504から出力されたパターンID及びパターン辞書500を用いて質問応答システム用コーパス200を検索し、対応するパターンと単語等とを含む回答文を読出して質問文形式に変形して質問文候補として出力する質問文生成部506とを含む。質問文生成用DB502は、図4に示す回答文生成用DB306と同様、質問応答システム用コーパス200から生成される。質問文生成用DB502は、2つの単語と、1つのパターンIDとの3つ組からなる多数のレコードを高速に検索可能な形式で記憶している。本実施の形態では、質問文生成用DB502の各レコードの内容は、図4に示す回答文生成用DB306と全く同じであり、レコード数も同じである。ただし、回答文生成用DB306では一方の単語とパターンIDとをキーに他方の単語を検索する構成であるのに対し、質問文生成用DB502では、ある単語をキーにパターンIDと他方の単語とを検索する構成となっている点が異なる。したがって、回答文生成用DB306と質問文生成用DB502とをRDBで構築するなら、SQL文を変えれば済むだけで、1つのDBを両者で共用できる。本実施の形態では、レスポンスを重視して回答文生成用DB306と質問文生成用DB502とを別々のDBとしているが、実質的には両者は同じデータを利用して同じレコード構成で構築できるので、質問文を提示するために特別なDBを新たに作るためにデータの収集から始めたりする必要がないという効果がある。
なお、質問文生成用DB502と回答文生成用DB306とのレコードの内容及びレコード数が互いに全く同じである必要はない。質問文生成用DB502が回答文生成用DB306のサブセットであれば、質問文生成用DB502を用いて生成される質問文は必ず回答文生成用DB306で回答が見つかる。したがって、一定の精度で回答が得られることが保証されている質問文をユーザに提示できることになる。
さらに、仮に、回答文生成用DB306にないレコードが質問文生成用DB502に存在する場合でも、それらに対する回答を回答文生成用DB306とは異なる手段で得るようにすることもできる。例えば算術計算に対する回答のように、一定のアルゴリズムで回答が得られるような質問も考えられる。そうした場合には対応するレコードが回答文生成用DB306に存在する必要はない。したがって、質問文生成用DB502には、回答文生成用DB306のサブセット以外のレコードが存在していても良い。この場合でも、質問文生成用DB502を回答文生成用DB306のサブセットから簡単に生成できるという効果は変わらない。
また、上記実施の形態では、回答文生成用DB306のレコードと質問文生成用DB502のレコードとの内容は同じである。すなわち、回答文生成用DB306のレコードのカラム構成と、質問文生成用DB502のカラム構成とは同じである。しかし両者は厳密に同じである必要はない。例えば、質問応答システムの回答表示での回答の表示順序とし「短い回答から順番に表示」又は「回答の新しい順番に表示」等の選択肢を設ける場合には、回答文生成用DB306の各レコードには、回答の文字数又は回答レコードの最初の収集日のようなカラムを設ける場合がある。これらについてまで質問文生成用DB502に設ける必要はない。同様のことは逆についてもいうことができる。
すなわち、回答文生成用DB306と質問文生成用DB502とは、レコードのカラム構成も含めて、互いに共通の部分があればよい。すなわち各レコードのカラムとしては、本実施の形態で説明した構成を共通部分とし、それら以外に互いに共通でないカラムが存在してもよいし、DB全体として、互いに対応する、すなわち同じコーパスの同じ部分から形成された共通のレコードに加え、それら以外のレコードが各DBに存在してもよい。
このような構成としても、回答文生成用DB306をもとに質問文生成用DB502が構築できるという効果は変わらない。
ファクトイド型質問文生成サブシステム242はさらに、シソーラス508と、同義語・含意辞書510と、質問文をスコアリングするためのスコアリングルールを記憶したスコアリングルール記憶部514と、シソーラス508及び同義語・含意辞書510を用い、質問文中で似た質問を集約し、残った質問文をスコアリングルール記憶部514に記憶されたルールにしたがってスコアリングし、スコアの高い質問文を選択して質問文リスト482を出力する質問文集約・選択部512とを含む。質問文生成用DB502の各レコードは、単語をキーとして、その単語と共起するパターンを参照出来る形式になっている。なお、質問集約・選択部512による質問文の集約では、以下のような手法が用いられる。
・単語の同義関係を利用し、同義関係にある単語を代表単語に統一する。
・パターンについても同義関係を利用し、同義関係にあるパターンを代表パターンに統一する。
・単語及びパターンの含意関係についても同様の処理をする。ただしこの場合、含意関係にある2つの単語の場合、意味的に上位にある単語、すなわち下位語を含意する語に統一する。パターンについても同様である。
・このような置換の結果、同一またはほぼ同一となった質問文については、そのうちの1つを残し、他を削除する。
なお、代表単語及び代表パターンをどのようなものにするかについては、予めシソーラス及び同義・含意辞書に記憶させておけばよい。代表単語及び代表パターンは、人手で登録してもよいし、何らかの機械学習により予め定めるようにしてもよい。また、上記した単語及びパターンの統一の順序はどのような順序で行なっても良い。単語の同義関係による統一の後に質問文の統一をする、等、段階的に質問文の集約を行なうようにしてもよい。
スコアリングルール記憶部514が記憶するスコアリングのルールは、質問文としてどのようなものを上位にもってくるか、という、サイトのポリシーに関連するものである。例えば質問文の元になった文中に出現する単語の、シソーラス508により指定されるクラスに基づいてスコアリングしたり、出現する複数の単語の組み合わせによりスコアを上下させたりすることが考えられる。また、元の文には存在していたが質問文中には出現していない単語のクラスに基づいてスコアリングすることもできる。単語のクラスだけでなく、全部又は一部の単語ごとにスコアリングのための何らかの情報を付してもよい。さらに、スコアリングルールの間での適用の優先順位を決めるようにしても良い。このスコアリングルールと、そのルールにしたがったスコアリング計算方法とは、一種のプログラミング言語的スキームにしたがって設計される。したがって、スコアリングルール記憶部514に記憶されるスコアリングルールは、スコアリングルール策定用の専用のツールで作成・更新できるようにすることが望ましい。もちろん、ルールがテキストベースであれば、上記したプログラミング的スキームを理解したユーザによって、例えばテキストエディタ等でこのルールを記述することもできる。
図7は、ノンファクトイド型質問文生成サブシステム用データ生成部208及びノンファクトイド型質問文生成サブシステム244の概略構成を示すブロック図である。
図7を参照して、ノンファクトイド型質問文生成サブシステム用データ生成部208は、図3に示す係り受け解析部282の出力を格納した解析済コーパス550と、解析済コーパス550に記憶された各文書を、各々が5文程度の文を含むパッセージに分割するパッセージ分割部552と、パッセージに分割された文書を記憶する分割済コーパス554とを含む。パッセージ分割部552が分割するパッセージは、互いに重複する部分を持っていても良い。ノンファクトイド型質問文生成サブシステム用データ生成部208はさらに、分割済コーパス554に記憶された各パッセージから、質問文の形式を持つ文を質問文候補として抽出する質問文候補抽出部556と、分割済コーパス554に記憶された各パッセージから、そのパッセージ又はそのパッセージの一部の文を回答とするような質問文候補を生成する質問文候補生成部558と、質問文候補抽出部556及び質問文候補生成部558の出力の各々について、図5に示すノンファクトイド型質問応答サブシステム332で学習済のSVM402と同じSVMを用いて、そのパッセージ又はそのパッセージに含まれる文が回答となるような質問文としてのスコアを算出する質問文候補スコア算出部560と、質問文候補スコア算出部560が算出したスコアがしきい値以上である質問文のみを選択し、質問文DB580を構築する質問文候補選択部562とを含む。
ノンファクトイド型質問文生成サブシステム244は、単語等をキーとして、その単語等を含む質問文を検索できる形式となっている質問文DB580と、シソーラス584と、同義語・含意辞書582と、質問文をスコアリングする際のルールを記憶した、図6のスコアリングルール記憶部514と同様のスコアリングルール記憶部586と、単語等480を受けたことに応答して、質問文DB580から単語等480をキーに質問文を読出して質問文候補を複数個生成する質問文生成部588と、質問文生成部588が生成した複数個の質問文について、シソーラス584、及び同義語・含意辞書582を用いて同義語、同種の意味を表す単語及びパターン等を集約することにより、質問文候補を集約し、さらにスコアリングルール記憶部586に記憶されたルールによって質問文のスコアを算出し、質問文をスコアにしたがってソートして質問文リスト484として出力する質問文集約・選択部590とを含む。
図8は、図2に示すプログラム実行系238が端末装置から何らかの要求を受けたときに、その要求に付加されたユーザの入力にしたがって質問応答サブシステム240、ファクトイド型質問文生成サブシステム242及びノンファクトイド型質問文生成サブシステム244に処理を振り分けるためのプログラムの制御構造を示すフローチャートである。
図8を参照して、プログラム実行系238が実行する振分プログラムは、入力が質問文か否かを判定し判定が肯定か否定かにより制御の流れを分岐させるステップ610と、ステップ610の判定が肯定であったことに応答して、図2に示す質問応答サブシステム240により質問文に対する回答を作成させ、回答を戻り値として親ルーチンに復帰するステップ612と、ステップ610の判定が否定であったことに応答して、入力が単語等であるか否かを判定し、判定が肯定か否定かにより制御の流れを分岐させるステップ614と、ステップ614の判定が肯定であったことに応答して、ファクトイド型質問文生成サブシステム242及びノンファクトイド型質問文生成サブシステム244に単語等を渡して質問文の配列を作成させ、結果を1つの配列にまとめて戻り値として親ルーチンに復帰するステップ616と、ステップ614の判定が否定であったことに応答して、戻り値を示す変数にエラーの種類を示す値を代入して親ルーチンに復帰するステップ618とを含む。
[動作]
以上に説明した構成を持つ質問応答システム164は以下のように動作する。質問応答システム164の動作は、準備とサービス時との2つのフェーズに分けられる。以下順番に説明する。
〈準備〉
準備フェーズは、図4に示すパターン辞書304及び回答文生成用DB306の作成、図5に示すSVM402の学習、図6に示す質問文生成用DB502の作成、図7に示す質問文DB580の作成を行なう。なお、これらの処理に先立ってインターネット上のウェブサイトから多数の文例を収集して質問応答システム用コーパス200を作成しておく。また質問種別判定部334(図2参照)、シソーラス360、同義語・含意辞書362(いずれも図4参照)、シソーラス508、同義語・含意辞書510及びスコアリングルール記憶部514(図6参照)、同義語・含意辞書582、スコアリングルール記憶部586及びシソーラス584(図7参照)等も準備しておくものとする。
(1)パターン辞書304及び回答文生成用DB306の作成
図3を参照して、前処理部202の形態素解析部280は、質問応答システム用コーパス200に格納された各文を形態素解析し、品詞情報等の文法情報が付された形態素列を係り受け解析部282に与える。係り受け解析部282は、与えられた形態素列に基づいてもとの文の係り受け関係を解析し、係り受け関係のネットワークを作成する。係り受け解析部282は、作成されたネットワーク上で、所定の下限数以上及び所定の上限数以下のノードを持つすべてのパスを抽出する。これらパスに対応する単語を連結することで1つのフレーズ又は文が得られる。係り受け解析部282は、このようにして得られたフレーズ又は文をパターン収集部308に与える。
質問応答サブシステム用データ生成部204のパターン収集部308は、係り受け解析部282から与えられたフレーズ及び文を、辞書300を参照しながらパターンに分類する。この分類では、例えば、各フレーズ及び文に属する単語をそれらの属するクラスに抽象化し、同じクラスに属する単語は同じものとして扱うことで、同じ形のフレーズ及び文を1つのパターンに集約する。パターン収集部308は、こうして得られたパターン及び文を用いて図4に示すパターン辞書304を生成する。なおこのパターン辞書304は、それぞれユニークなパターンIDが付されたパターン及び文からなる。
パターン収集部308はまた、各フレーズ又は文について、それらに属する単語と、パターンIDをキーとしてフレーズ又は文が検索できるような形式で回答文生成用DB306を作成する。
同じく質問応答サブシステム用データ生成部204のDB構築部302は、係り受け解析部282が出力するフレーズ及び文と、それらを全文検索するためのインデックスとを格納する解析済コーパス310を構築する。
(2)SVM402の学習
図5を参照して、QA文抽出部420は、解析済コーパス310からQA文を抽出しQA文記憶部422に格納する。QA文抽出部420にはさらに、手操作でQA文が追加されても良い。QA文記憶部422には、QA文として正しい組み合わせでないQA文も記憶される。これら正しくないQA文は、手入力してもよいし、解析済コーパス310からランダムに抽出した2つの文を組み合わせても良い。QA文の各々には、それらのQA文が正しい組み合わせか否かを示すフラグが付される。学習データ生成部424は、QA文記憶部422に記憶された各QA文からSVM402の教師付学習を行なうための学習データを生成し、学習データ記憶部426に格納する。学習処理部428は、学習データ記憶部426に記憶された学習データを用いてSVM402の学習を行なう。このような学習を行なうことにより、SVM402は、与えられたQA文が正しいQA文か否かを示す出力と、その信頼度を示すスコアとを出力するように最適化される。
(3)ファクトイド型質問文生成サブシステム242の質問文生成用DB502の作成
図6を参照して、質問文生成用DB502は、回答文生成用DB306(図3)と同様の手法で作成される。ただし質問文生成用DB502は、ある単語又は単語群が与えられると、その単語又は単語群をキーとしてパターンIDが検索されるようなデータベース形式である。
(4)ノンファクトイド型質問文生成サブシステム244の質問文DB580
図7に示す質問文DB580は、以下のようにして作成される。まず、解析済コーパス550(図5に示す解析済コーパス310と同様で、前処理部202による前処理が済んだもの)について、各文書を5つ程度の文を単位とするパッセージに分割し、分割済コーパス554にそれらパッセージを格納する。質問文候補抽出部556は、各パッセージに存在する単語から生成される全ての単語列を生成し、簡単なパターン変換でそれらを質問文形式に変換する。例えば、パッセージが「皆さんがご存知のように空は青いです。」及び「これは空気中の分子が太陽光の青色部分を散乱させる事によっています。」という2つの文を含む場合を想定する。このパッセージの単語からは、「皆さんがご存知」、「空は青いです」、「これはよっています」、「空気中の分子が太陽光」、「空気中の分子が太陽光の青色部分を散乱させる」等、多数の単語列が得られる。例えばこのようにして得られた単語列を「なぜ…か」という形式のパターンに変換すると、「なぜ皆さんがご存知か?」、「なぜ空は青いですか?」、「なぜこれはよっていますか?」、「なぜ空気中の分子が太陽光?」、「なぜ空気中の分子が太陽光の青色部分を散乱させるか?」などの質問文候補が得られる。なお、パッセージ中に質問文に相当する文又は表現があればそれらも抽出し、質問文候補に加える。
このようにして得られた質問文候補はいずれも質問文候補スコア算出部560に与えられる。質問文候補スコア算出部560は、図3に示すノンファクトイド型質問応答サブシステム332のSVM402を用い、それら質問文候補が、元々のパッセージを回答とする質問になっている度合いを示すスコアを算出し出力する。質問文候補選択部562は、各質問文候補について、質問文候補スコア算出部560により算出されたスコアがしきい値以上のものを選択して質問文DB580に格納する。この質問文DB580は、単語等をキーとして、その単語を含む質問文を検索できる形式となっている。
このような方法で質問文を生成することにより、次のような効果が得られる。すなわち、元のパッセージに含まれる個別の文が単独ではある質問文の回答にはなり得ない場合がある。そうした場合、個別の文から適切な質問文を生成することは難しい。しかし本実施の形態によれば、パッセージ中の単語を用いる可能な全ての組み合わせからなる単語列から質問文を形成するので、例えばパッセージ中の複数の文を組み合わせたものが回答となるような質問文を得ることが可能になる。パッセージそのものが回答となるような質問文が得られることもある。
さらに、上記したような方法によれば、パッセージ中の全ての単語の組み合せを質問文候補として考慮するため、非常に柔軟に質問文を生成できるという効果もある。そのためのアルゴリズムも単純である。単語の組み合わせを生成する際に、何らかの制限をかけることで特定の条件を満たす単語の組み合わせのみを用いるようにすることもできる。例えば係り受け関係を持つ単語の組み合わせのみ、連続する単語からなる単語列のみ、という制限をかけることができる。そうすることで単語列を生成する際の計算コストを抑えることができる。
上のような方法によって適切な質問文を選択できることは、次のような事情を考えれば理解できる。すなわち、ノンファクトイド型の質問に対する正当な回答となる(又は正当な回答となる文を含む)パッセージであれば、その質問と意味的に同義となる、若しくは類似した、表現若しくは文を含んでいる筈である。そのような表現又は文を予めパッセージから抽出しておけば、その表現又は文を、そのパッセージを回答とするいかなる質問文とも同義である質問、又は類似した質問の代表元とすることができる、ということである。
〈サービス時〉
・初期画面
ユーザが例えば図1に示すコンピュータ168においてブラウザを起動させ、質問応答システム164のトップページのアドレスを入力してリターンキーを押す。この結果、図2のインターフェイス230がこの要求を受信し、ウェブサーバ232にこの要求を渡す。ウェブサーバ232は、この要求により特にプログラムの指定がされていないときには、トップページを作成するための特定のプログラムを指定してプログラム実行系238にこの要求を与える。
プログラム実行系238はウェブサイト応答用プログラム記憶部236から、ウェブサーバ232により指定されたプログラムを読出し、実行する。すなわちプログラム実行系238は、読出したプログラム中の命令を実行し、ウェブサイト応答用DB234から必要な情報と、プログラム中で出力することが指定されている静的なテキストとを組み合わせてトップページを表すHTMLファイルを生成しウェブサーバ232に返す。ウェブサーバ232は、インターフェイス230を介し、要求を送信して来た端末にこのHTMLファイルを返信する。このHTMLファイルには、特定の記事の詳細表示を要求するためのフォームが埋め込まれている。各フォームには、その記事を特定する情報と、それを処理するためのプログラム名とが指定されている。ユーザが特定の記事の詳細を要求するフォームに備えられたボタンを押すと、その記事の詳細表示をするためのプログラム名と、詳細表示するために必要な情報とがフロントエンド210に送信されてくる。ウェブサーバ232がこの要求をプログラム実行系238に与えると、プログラム実行系238は、指定されたプログラムをウェブサイト応答用プログラム記憶部236から読出し、指定された条件にしたがってウェブサイト応答用DB234から記事を読出し、表示のためのHTMLファイルを生成して相手端末に返信する。フロントエンド210はこのようにして相手端末からの要求にしたがって動的に画面を生成しながら相手端末に様々な情報を提供する。
・質問文が入力されたとき
質問文が与えられると質問応答システム164は以下のように動作する。
プログラム実行系238は、ユーザから質問文を受信するとその質問文を質問応答サブシステム240に与え、その結果得られる回答文を相手端末に返信する。相手端末から質問文の代わりに単語等を受信すると、プログラム実行系238はその単語等をファクトイド型質問文生成サブシステム242及びノンファクトイド型質問文生成サブシステム244に与えて質問文の配列を生成させる。プログラム実行系238は、そのようにして得られた質問文の配列のテキストを埋め込んだHTML文を生成し、相手端末に返信する。この例では、このHTML文は、各質問文がクリックされるとその質問文をフロントエンド210に送信するようなスクリプトが埋め込まれている。
本実施の形態では、質問応答システム164を採用したウェブサイトのトップページにアクセスすると、図9に示すような画面が表示される。この例では、このウェブサイトはニュースサイトであるものとする。トップページ640は、様々な要素からなっているが、この例では画面の右中央付近に、質問文の入力フィールド642が設けられている。入力フィールド642のすぐ上には、入力フィールド642に質問文又は興味を持つ単語等を入力するよう告げるメッセージが表示されている。入力フィールド642の下には、広告欄、天気欄、及びその他ここには図示していない様々な情報が表示される。この入力フィールドは、図2に示す特定のプログラムを実行するよう指定したフォームの一部をなしている。ここで、ユーザが入力フィールド642に例えば「安倍政権」という語を入力したものとする。
この単語は、特定のプログラム名とともに質問応答システム164のフロントエンド210に送信される。フロントエンド210のプログラム実行系238は、この特定のプログラムをウェブサイト応答用プログラム記憶部236から読出して実行する。このプログラムは、その一部のルーチンとして図8に制御構造を示すプログラムを含んでいる。その結果、上に記載したような条件では図8のステップ610→ステップ614→ステップ616の経路を経て単語等が図2に示すファクトイド型質問文生成サブシステム242及びノンファクトイド型質問文生成サブシステム244に与えられる。
図6を参照して、ファクトイド型質問文生成サブシステム242の候補検索部504は、入力される単語等480をキーにして質問文生成用DB502を検索し、その単語等と共起する回答文のパターンIDを取出す。質問文生成部506は、候補検索部504から与えられた単語等とパターンIDとを用いてパターン辞書500を検索することで、その単語等とパターンIDにより特定されるパターンとを持つ文へのアクセス情報を取出す。質問文生成部506はさらに、このアクセス情報を用いて質問応答システム用コーパス200をアクセスし、目的の文を取出すことができる。この結果、候補検索部504が出力したパターンIDに相当するパターンを持ち、かつ単語等480を含む文が質問応答システム用コーパス200から取出される。質問応答システム用コーパス200には多数の文が記憶されているため、通常は、取出される文はかなりの数になる。質問文生成部506は、このようにして取出された文を質問文形式に変形する。例えば、「安倍政権」という語が単語等480として与えられ、質問文生成用DB502から取出されたパターンIDが「AはBを狙っている」というパターンだったとする。質問応答システム用コーパス200に「安倍政権はTPP参加を狙っている。」という文があったものとする。この文はこの「安倍政権」という語を含むため、質問文生成部506により質問応答システム用コーパス200から取出される。質問文生成部506は、各パターンについて文を質問形式に変形する規則を保持している。例えば「AはBを狙っている」という文に対しては、例えば(1)「Aが狙っているのは何ですか」という変形、(2)「Bを狙っているのは誰ですか」という変形等がルールとして保持されている。ここでは、パターン中の単語のうち、単語等480に相当する単語が残るような変形ルールを適用する。ここに挙げた例では、上記(1)の例が採用されることになり、「安倍政権が狙っているのは何ですか」という質問文が生成される。
質問文生成部506は、質問応答システム用コーパス200から取出された各文について、そのパターンと単語等に応じて上記したような処理で質問文候補を生成し、質問文集約・選択部512に与える。
質問応答システム用コーパス200は、インターネット上のウェブサイトから収集した多数の文を含んでいる。したがって、同じ文、若しくは文の形又は表現が多少異なるがほとんど同じ意味を表している複数の文が存在することが通常である。それらをすべて画面に表示すると、ユーザとしてはかえって煩わしく感じるであろう。質問文としては、できるだけ多彩なものを表示した方がユーザの質問作成の助けになる。そこで質問文集約・選択部512は、シソーラス508及び同義語・含意辞書510を参照して、同義語を一方の単語に集約したり、下位概念を表す複数の単語を、それらの共通の上位概念の単語と置き換えたりすることで、同じ文となった文を集約したり、文のパターンとしては異なるが内容は同じパターンをいずれか1つに集約したりする。その結果、質問文候補が集約される。質問集約・選択部512はさらに、スコアリングルール記憶部514に記憶されたスコアリングルールにしたがって質問文候補をスコアリングする。スコアにしたがって質問文をソートし、スコアの上位の所定数の質問文候補を選択して質問文リスト482として出力する。
図7を参照して、ノンファクトイド型質問文生成サブシステム244は、単語等480が与えられると以下のように動作する。質問文生成部588は、単語等480が与えられると、その単語をキーに質問文DB580を検索し、ノンファクトイド型の質問文候補を取出す。質問文DB580にも、多数の質問文が記憶されている。したがって質問文生成部588が取出す質問文候補は多数となることが通常である。質問文集約・選択部590は、このように多数の質問文候補を、シソーラス584及び同義語・含意辞書582を使用して集約する。質問文集約・選択部590はさらに、スコアリングルール記憶部586に記憶されたスコアリングルールにしたがって、残った質問文候補をスコアリングし、ソートして、スコアの高い所定個数の質問文を選択して質問文リスト484として出力する。
再び図2を参照して、プログラム実行系238は、ファクトイド型質問文生成サブシステム242及びノンファクトイド型質問文生成サブシステム244から出力される質問文のテキストと、質問文がクリックされたときにその質問文を質問応答システム164に送信するスクリプトとを埋め込んだHTMLソースファイルを生成し、ウェブサーバ232及びインターフェイス230を介して相手端末に送信する。
相手端末には、図10に示されるページ660が表示される。ページ660では、トップページ640と異なり、入力フィールド642の直下に、「安倍政権」という単語に基づいて作成された複数の質問文664が表示される。この例では、質問文664のいずれかを選択すると、HTMLファイルに埋め込まれたスクリプトによりその質問文が入力フィールド642に入力されたように処理され、質問応答システム164にその質問文を含む要求が送信される。
この場合、質問応答システム164は次のように動作する。図2を参照して、この要求はインターフェイス230及びウェブサーバ232を介してプログラム実行系238に与えられる。プログラム実行系238は図8に制御構造を示すプログラムを読出し実行する。
図8を参照して、この場合、ステップ610の判定が肯定となり、ステップ612でその質問文に対する回答が質問応答サブシステム240により生成され、相手端末に送信される。
より具体的には、図2を参照して、質問文はプログラム実行系238から質問応答サブシステム240に渡される。図3を参照して、質問文260を受けた質問種別判定部334は、その質問がファクトイド型かノンファクトイド型かを判定し、判定結果を質問振分部336及び回答選択部338に与える。
質問振分部336は、質問がファクトイド型であれば質問文340をファクトイド型質問応答サブシステム330に与え、ノンファクトイド型であれば質問文342をノンファクトイド型質問応答サブシステム332に与える。
質問がファクトイド型であれば、ファクトイド型質問応答サブシステム330は以下のように動作する。図4を参照して、質問解析部364は、シソーラス360及び同義語・含意辞書362を用いて質問文340を解析し、質問文340に対応する回答文のパターンのパターンIDと、質問文中に出現する単語とを特定してクエリ生成部366に与える。
クエリ生成部366は、与えられたパターンIDと出現単語とをキーとして回答文生成用DB306で回答候補を検索するためのクエリ文を生成し、回答文検索部368に与える。回答文検索部368はそのクエリ文を回答文生成用DB306に投入することで回答文生成用DB306から回答候補を読出し、回答選択部370に与える。回答選択部370は、読出された回答候補のうち、質問文340に対する回答として最もふさわしいものを選択し、回答文344としてプログラム実行系238に与える。この場合の回答選択部370による選択は、例えば質問文340と回答候補とで共有する単語の数、両者のパターンの組み合わせ、両者で使用されている単語のクラス及びレベルの組み合わせ等を用いたスコアリングにより行なうことができる。
その結果、その質問文に対応する回答文が質問応答システム164から返信されてきて画面に表示される。
一方、質問がノンファクトイド型である場合、ノンファクトイド型質問応答サブシステム332は以下のように動作する。図5を参照して、質問文342を受けると、質問文解析部450は質問文に対して予め定めた文法的な解析を行ない、質問文342に含まれる自立語である各単語について、素性を生成するために必要な情報を作成し出力する。候補文検索部452は、出力された情報に基づいて、解析済コーパス310を全文検索し、質問文342に含まれる各単語を含む回答候補を所定個数だけ取出してそれらの文法情報とともに回答候補文記憶部454に格納する。
素性ベクトル生成部456は、質問文解析部450と、回答候補文記憶部454に記憶された各回答候補との組み合わせごとに、それらの文法情報を用いて学習データ生成部424により生成される素性ベクトルと同様の構成の素性ベクトルを生成する。ただしこの組成ベクトルは、学習データ生成部424が生成するものと異なり、この組み合わせが正しい組み合わせか否かを示すフラグを持たない。
回答文ランキング部458は、質問文と各回答候補との組み合わせごとに得られる素性ベクトルをSVM402に与え、SVM402からスコアを受け取る。このスコアは、回答候補が質問文に対する回答文としてどの程度ふさわしいかを示すものである。回答文ランキング部458は、このようにして得た質問文と各回答候補との組み合わせを、それらのスコアにより降順にランキングし、最上位の回答文を回答文346として出力する。
ユーザが最初から何らかの質問文を入力した場合には、質問応答サブシステム240がその質問文を上記したのと同様に処理し回答を相手端末に返信する。
[コンピュータによる実現]
上記した実施の形態に係る質問応答システム164は、コンピュータハードウェアと、その上に実装されるソフトウェアとにより実現できる。図11を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。実際には、使用するデータベースが非常に大きく、かつ質問応答システム用コーパス200が大容量の記憶装置を必要とすること、及びレスポンスを良くするために複数のコンピュータによる分散処理が採用される。ここでは便宜的に1つのコンピュータにより質問応答システム164を実装するものとして説明する。
コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)960とを含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)944を含む。
コンピュータシステム930に質問応答システム164の各機能部としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から、又はネットワークI/F944を介して、直接にRAM960にプログラムをロードしてもよい。
このプログラムは、コンピュータ940にこの実施の形態に係る質問応答システム164の各機能部として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又はコンピュータ940にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したノン・ファクトイド型の質問応答システムとしての動作を実行する命令のみを含んでいればよい。コンピュータシステム930の動作は周知である。したがってここでは繰り返さない。
上記実施の形態に係る質問応答システム164によれば、ユーザが自分の興味を持っている単語等を入力すると、その単語等に関連した質問文であって、質問応答システムにより正しい回答が得られる可能性の高い質問のリストが提示される。ユーザは、提示された質問のうち、自分の知りたい回答が得られそうな質問文をクリックすることで、高い確率でその質問に対する回答を得ることができる。すなわち、質問文の作成を繰り返すことなく、容易に自分の知りたい情報を得ることができる。しかも、質問提示するために必要な資源はコンピュータにより自動的に準備できる。したがって対象となる分野が広くても、上記したシステムを容易に構築できるという効果がある。
元々の質問応答システム(上記実施の形態で図2に示す質問応答サブシステム240)の精度については、予め実験により測定しておくことができる。例えばノンファクトイド型質問については、図5に示す回答文ランキング部458で選択する際のスコアのしきい値ごとに、どの程度の精度が得られるかを実験結果に基づいて推定できる。ファクトイド型の質問の場合には、質問のパターンごとに得られる回答の精度がどの程度かについて、予め測定できる。これらの精度をもとにして、ユーザに提示する質問文を生成するときのスコアのしきい値、及び/又は質問文生成に用いるパターンに制限をかけることで、その質問応答システムにおいて一定以上の精度を持つ回答が得られることが保証できる質問文を生成できる。
[変形例]
上記実施の形態では、言語を日本語として説明した。しかし本発明はそのような実施の形態には限定されない。各種の言語に応じた辞書等を用いることで、同様の構成により様々な言語のための質問応答システム及びそのための質問文候補作成サブシステムを実現できる。各種の言語のためのシステムを予め作成しておき、入力された言語を自動認識して適切な言語用のシステムで質問文リスト及び回答を出力するようにしてもよい。
上記実施の形態では、図2に示すファクトイド型質問文生成サブシステム242及びノンファクトイド型質問文生成サブシステム244はいずれも質問文リストを生成し出力している。しかし本発明はそのような実施の形態には限定されない。例えば、各質問文候補に、その質問文に対する回答文を付加してHTMLファイルを作成してブラウザに出力してもよい。この場合、各質問文候補に対する回答は、最初から表示してもよいし表示しなくてもよい。最初からは表示しない場合、ユーザが質問文をクリックしたときに表示するようなスクリプトをHTML文に埋め込んでおいてもよい。
上記実施の形態では、質問文候補を完全な自然言語文として生成している。しかし完全な自然言語文ではなく、例えば自然言語文のうち、質問による回答として重要な単語が何らかのシンボル(例えばアルファベットの“X”等)で表される、肯定文の形式で質問文候補を生成してもよい。
また、上記実施の形態では、単語等が入力されたときに、その単語に関連する質問文候補を生成している。しかしそれだけではなく、修飾句がついた名詞句(体言止め)等の形の入力を処理するようにしてもよい。
上記実施の形態では、ファクトイド型とノンファクトイド型との双方のタイプの質問文を生成しているが、いずれか一方のみを生成するようにしてもよい。
上記実施の形態では、パターンの一部又は全部を、意味的な分類を示すシソーラスと関連付けてある。この場合、その分類を用いることで、生成される質問文を一部の意味クラスと関連付けられたパターンに限定することもできる。例えば「Bが発足する」というパターンを「CREATION」というクラスに関連付けておき、CREATIONクラスに関連づけられたパターンを含む文が得られた場合には、先頭に「なぜ」を付加することでその理由を聞く質問を生成でき、高度に意味的な処理が可能になる。同様のことは名詞等に対しても言える。例えば「安倍政権」が「政治的主体」というようなクラスに関連付けられているものとする。その場合、例えば政治的クラスに関連付けられた名詞を含む文が得られた場合には、その目的を問う質問を生成したりできる。また、「地球温暖化」のような単語を「社会問題」クラスに分類しておくと、地球温暖化という単語を含む文についてはパターンの意味的分類を組み合わせることにより、その帰結を問うというような質問文を生成できる。なお、本発明はこのような実施の形態には限定されず、パターンを単に収集し分類するだけのようなシステムとすることもできる。
なお、このような意味的クラスへの分類、及び生成したい質問の方向性、傾向等を含むシソーラスについては、予め大量の文書から自動学習してもよい。
上記実施の形態では、単語等がユーザにより与えられた場合に質問文の候補を生成し提示している。しかし本発明はそのような実施の形態に限定されない。例えば、質問文に対する回答文が得られたときに、その回答文に含まれる単語を用いてさらに質問文の候補を生成しユーザに提示してもよい。このような方式を採用すると、一度回答が得られた質問について、さらに深い分析をすることが可能になる。すなわち、自動生成された複数個の質問文の回答の組み合わせにより、さらに複雑な質問を生成できる。
上記実施の形態では、質問文に対する回答として、単語又は回答文を提示している。しかし本発明はそのような実施の形態には限定されない。例えば、そうして得られた回答に関連する新聞記事等の一部を同時に提示してもよい。
上記実施の形態では、ユーザは区別していない。しかし、例えばユーザ登録をすることで、ユーザにより選択する質問文の傾向を情報として蓄積しておき、その情報を有効利用できる。その結果、上記した質問文生成システムにより質問応答システムをより効率的に利用できるようになる。例えば、ユーザが好むクラスに属する単語を含む質問文をリストの上位に提示したり、ユーザがよく選択するパターンの質問文を上位に提示したり、抽出すべき質問文の属する分野を、それまでのユーザの質問選択履歴に基づいてある程度限定して示したりすることもできる。
上記実施の形態では、質問候補は単純なリスト形式でユーザに対して提示する。しかし提示方法はこれに限らない。例えば、質問候補をそれらのトピックに基づいて分類し、トピック別に表示してもよい。視覚的に各トピックに属する質問が表示面上の別々の領域に分類して表示されるようにしてもよい。できれば各領域は色分けして表示する。こうすることで、生成された質問相互の関係が視覚的に理解可能になり、ユーザによる質問の選択作業がより容易になる。
上記実施の形態で、ノンファクトイド型質問文候補のスコアリングをする際には、SVM402を用いている。しかし、スコアリングに用いるものはSVMには限定されない。いわゆる機械学習で用いられる手法であって、モデルを用いて入力に対する何らかのスコアを出力するものであればどのような手法でも用いることができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
164 質問応答システム
232 ウェブサーバ
238 プログラム実行系
200 質問応答システム用コーパス
204 質問応答サブシステム用データ生成部
206 ファクトイド型質問文生成サブシステム用データ生成部
208 ノンファクトイド型質問文生成サブシステム用データ生成部
240 質問応答サブシステム
242 ファクトイド型質問文生成サブシステム
244 ノンファクトイド型質問文生成サブシステム
304 パターン辞書
306 回答文生成用DB
310 解析済コーパス
330 ファクトイド型質問応答サブシステム
332 ノンファクトイド型質問応答サブシステム
340、342 質問文
344、346 回答文
360、508 シソーラス
362、510 同義語・含意辞書
364 質問解析部
400 SVM学習部
402 SVM
404 回答文生成部
480 単語等
482、484 質問文リスト
502 質問文生成用DB
506、588 質問文生成部
512、590 質問文集約・選択部

Claims (9)

  1. 質問応答システムとともに用いられる質問文生成装置であって、
    質問文生成のもととなる単語又は単語列を受信する単語受信手段と、
    質問文生成用の複数個のレコードからなる質問文生成用データベースとを含み、
    前記複数個のレコードの各々は、単語をキーとして、前記質問応答システムで用いられる、当該単語と共起する回答文パターンを含み、
    前記質問文生成装置はさらに、前記単語受信手段により受信された単語をキーに前記質問文生成用データベースから回答文パターンを検索し、検索された回答文パターンと、前記受信された単語とから、質問文を生成する第1の質問文生成手段とを含む、質問文生成装置。
  2. 請求項1に記載の質問文生成装置であって、さらに、
    単語若しくは回答文パターン又はその双方の同義関係若しくは含意関係を格納した同義語辞書と、
    前記質問文生成手段が複数個の質問文を生成したことに応答して、前記同義語辞書を参照して前記複数個の質問文をより少数の質問文に集約して出力する質問文集約手段とを含む、質問文生成装置。
  3. 請求項1に記載の質問文生成装置であって、さらに、
    単語若しくは回答文パターン又はその双方をそれらの意味にしたがって体系的に分類した分類情報を格納したシソーラスと、
    前記質問文生成手段が複数個の質問文を生成したことに応答して、前記シソーラスを参照して前記複数個の質問文をより少数の質問文に集約して出力する質問文集約手段とを含む、質問文生成装置。
  4. 請求項1から請求項3のいずれかに記載の質問文生成装置であって、
    前記単語受信手段は、複数の単語を受信可能であり、
    前記質問文生成用データベースは、前記単語受信手段により受信された複数個の単語をキーに当該複数個の単語と共起する回答文パターンを検索可能である、質問文生成装置。
  5. 請求項1から請求項4のいずれかに記載の質問文生成装置であって、
    前記質問文生成手段は、前記単語受信手段により受信された単語をキーに前記質問文生成用データベースから回答文パターンを検索し、検索された回答文パターンと、前記受信された単語とから、質問文及び当該質問文に対する回答文とを生成する質問・回答生成手段を含む、質問文生成装置。
  6. 前記質問応答システムは、ファクトイド型の質問文が与えられると、当該質問文のパターンと当該質問文に含まれる単語又は単語列とをキーにして回答文生成用データベースを検索して回答文候補を生成するファクトイド型質問応答サブシステムを含み、
    前記質問応答システムの前記回答文生成用データベースと、前記質問文生成装置の前記質問文生成用データベースとは、同じコーパスから生成された共通のレコードを含む、請求項1〜請求項5のいずれかに記載の質問文生成装置。
  7. 請求項1から請求項6のいずれかに記載の質問文生成装置であって、前記質問応答システムはさらに、ノンファクトイド型の質問文が与えられると、コーパスから回答文候補となるパッセージを複数個抽出し、前記与えられた質問に対する回答としてのふさわしさを示すスコアを、あらかじめ学習済のスコア算出手段により算出して最上位のスコアを持つ回答文候補を前記与えられた質問に対する回答として出力するノンファクトイド型質問応答サブシステムを含み、
    前記質問文生成装置はさらに、
    各々が、予め準備された、質問と回答という明示的な区別を持たないパッセージの集合内のいずれかのパッセージから生成された質問文であって、当該質問文が生成されたもととなるパッセージを回答とする、複数の質問文を記憶した質問文データベースと、
    質問文生成のもととなる単語又は単語列を受信すると、前記質問文データベースを参照して、当該質問文生成のもととなる単語若しくは単語列、又はそれらの同義語若しくはそれらを含意する語と、前記質問文データベースに記憶された質問文とから、新たな質問文を生成して出力する第2の質問文生成手段と、
    前記第1及び第2の質問文生成手段の出力する質問文をまとめて出力するための手段とを含む、質問文生成装置。
  8. 質問応答システムとともに用いられる質問文生成装置であって、
    前記質問応答システムは、ノンファクトイド型の質問文が与えられると、コーパスから回答文候補となるパッセージを複数個抽出し、各パッセージに前記与えられた質問に対する回答としてのふさわしさを示すスコアを、あらかじめ学習済のスコア算出手段により算出して、最上位のスコアを持つ回答文候補を前記与えられた質問に対する回答として出力するノンファクトイド型質問応答サブシステムを含み、
    前記質問文生成装置は、
    各々が、前記コーパス内のいずれかのパッセージから生成された質問文であって、当該質問文が生成されたもととなるパッセージを回答とする、複数の質問文を記憶した質問文データベースと、
    質問文生成のもととなる単語又は単語列を受信すると、前記質問文データベースを参照して、当該質問文生成のもととなる単語若しくは単語列、又はそれらの同義語若しくはそれらを含意する語と、前記質問文データベースに記憶された質問文とから、新たな質問文を生成して出力する質問文生成手段とを含む、質問文生成装置。
  9. 質問応答システムとともに用いられる質問文生成装置としてコンピュータを機能させるコンピュータプログラムであって、当該コンピュータは、質問文生成用の複数個のレコードからなる質問文生成用データベースに接続して用いられ、前記複数個のレコードの各々は、単語をキーとして、前記質問応答システムで用いられる、当該単語と共起する回答文パターンを含み、
    前記コンピュータプログラムは、前記コンピュータを、
    質問文生成のもととなる単語又は単語列を受信する単語受信手段と、
    前記単語受信手段により受信された単語をキーに前記質問文生成用データベースから回答文パターンを検索し、検索された回答文パターンと、前記受信された単語とから、質問文を生成する質問文生成手段として機能させる、コンピュータプログラム。
JP2014168702A 2014-08-21 2014-08-21 質問文生成装置及びコンピュータプログラム Active JP6414956B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2014168702A JP6414956B2 (ja) 2014-08-21 2014-08-21 質問文生成装置及びコンピュータプログラム
KR1020167036829A KR102408082B1 (ko) 2014-08-21 2015-08-10 질문문 생성 장치 및 컴퓨터 프로그램
PCT/JP2015/072622 WO2016027714A1 (ja) 2014-08-21 2015-08-10 質問文生成装置及びコンピュータプログラム
US15/503,553 US10380149B2 (en) 2014-08-21 2015-08-10 Question sentence generating device and computer program
EP15833758.4A EP3185140A4 (en) 2014-08-21 2015-08-10 Question sentence generation device and computer program
CN201580043433.8A CN106663125B (zh) 2014-08-21 2015-08-10 提问句生成装置以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014168702A JP6414956B2 (ja) 2014-08-21 2014-08-21 質問文生成装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2016045652A true JP2016045652A (ja) 2016-04-04
JP6414956B2 JP6414956B2 (ja) 2018-10-31

Family

ID=55350659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014168702A Active JP6414956B2 (ja) 2014-08-21 2014-08-21 質問文生成装置及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US10380149B2 (ja)
EP (1) EP3185140A4 (ja)
JP (1) JP6414956B2 (ja)
KR (1) KR102408082B1 (ja)
CN (1) CN106663125B (ja)
WO (1) WO2016027714A1 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6218057B1 (ja) * 2017-07-14 2017-10-25 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
WO2018034118A1 (ja) * 2016-08-16 2018-02-22 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
WO2018066489A1 (ja) * 2016-10-07 2018-04-12 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
JP2018063696A (ja) * 2016-10-07 2018-04-19 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
KR101854912B1 (ko) * 2018-03-07 2018-05-04 주식회사 텐디 어플리케이션들 사이의 연관도 분석 방법 및 어플리케이션들 사이의 연관도 분석 장치
WO2019235103A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP2019215841A (ja) * 2018-06-07 2019-12-19 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP2020057117A (ja) * 2018-09-28 2020-04-09 株式会社リコー 情報処理装置、情報処理方法及びプログラム
WO2020170912A1 (ja) * 2019-02-20 2020-08-27 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP2021507350A (ja) * 2017-12-15 2021-02-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複雑な回答の補強証拠取り出し
JPWO2021130964A1 (ja) * 2019-12-26 2021-07-01
JP2022008207A (ja) * 2020-06-24 2022-01-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
JP2022105186A (ja) * 2019-01-30 2022-07-12 株式会社東芝 対話システム、対話方法、プログラム、及び記憶媒体
JP2023026316A (ja) * 2021-08-11 2023-02-24 ボイン アイティー カンパニー リミテッド 自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469169A (zh) 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 信息处理方法及装置
US10289740B2 (en) * 2015-09-24 2019-05-14 Searchmetrics Gmbh Computer systems to outline search content and related methods therefor
CN105786794B (zh) * 2016-02-05 2018-09-04 青岛理工大学 一种问答对检索方法及社区问答检索***
EP3465412A4 (en) 2016-05-29 2020-01-15 Wix.com Ltd. CREATION AND UPDATING OF HIERARCHICAL WEBSITES BASED ON COLLECTED BUSINESS KNOWLEDGE
CN106777232B (zh) * 2016-12-26 2019-07-12 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
WO2018131048A1 (en) * 2017-01-11 2018-07-19 Satyanarayana Krishnamurthy System and method for natural language generation
JP6815899B2 (ja) * 2017-03-02 2021-01-20 東京都公立大学法人 出力文生成装置、出力文生成方法および出力文生成プログラム
JP2020526846A (ja) * 2017-07-24 2020-08-31 バイオメディカル オブジェクツ インク 構造化自然言語知識システム
CN108509477B (zh) * 2017-09-30 2019-10-11 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
KR102100951B1 (ko) * 2017-11-16 2020-04-14 주식회사 마인즈랩 기계 독해를 위한 질의응답 데이터 생성 시스템
US10915560B2 (en) * 2017-11-30 2021-02-09 International Business Machines Corporation Ranking passages by merging features from factoid answers
US11544605B2 (en) 2018-03-07 2023-01-03 International Business Machines Corporation Unit conversion in a synonym-sensitive framework for question answering
JP7149560B2 (ja) * 2018-04-13 2022-10-07 国立研究開発法人情報通信研究機構 リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
US11170333B2 (en) * 2018-05-31 2021-11-09 CompTIA System and method for an adaptive competency assessment model
JP7172226B2 (ja) 2018-07-20 2022-11-16 株式会社リコー 検索装置、検索方法及び検索プログラム
JP7003020B2 (ja) * 2018-09-18 2022-01-20 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
US10970322B2 (en) * 2018-11-26 2021-04-06 International Business Machines Corporation Training an artificial intelligence to generate an answer to a query based on an answer table pattern
KR102018819B1 (ko) * 2019-01-14 2019-09-04 주식회사 크라우드웍스 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
JP2020123131A (ja) * 2019-01-30 2020-08-13 株式会社東芝 対話システム、対話方法、プログラム、及び記憶媒体
JP7474459B2 (ja) * 2019-04-16 2024-04-25 株式会社ユニバーサルエンターテインメント 情報提供システム、及び、情報提供方法
CN110297893B (zh) * 2019-05-16 2024-03-19 平安科技(深圳)有限公司 自然语言问答方法、装置、计算机装置及存储介质
JP7180767B2 (ja) 2019-05-29 2022-11-30 富士通株式会社 応答処理プログラム、応答処理方法および情報処理装置
CN110569342B (zh) * 2019-08-15 2023-04-07 创新先进技术有限公司 问题匹配方法、装置、设备及计算机可读存储介质
CN110765244B (zh) * 2019-09-18 2023-06-06 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
JP7316165B2 (ja) * 2019-09-20 2023-07-27 株式会社日立製作所 情報処理方法および情報処理装置
KR102189894B1 (ko) * 2019-10-10 2020-12-11 주식회사 렉스퍼 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템
US11238074B2 (en) * 2019-10-18 2022-02-01 International Business Machines Corporation Efficient grammatical property alignment for a question answering system
CN110955765A (zh) * 2019-11-22 2020-04-03 中国南方电网有限责任公司 智能助理的语料构建方法、装置、计算机设备和存储介质
CN110968674B (zh) * 2019-12-04 2023-04-18 电子科技大学 基于词向量表征的问题评论对的构建方法
US11256754B2 (en) * 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
CN112307160A (zh) * 2020-02-26 2021-02-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN111428448B (zh) * 2020-03-02 2024-05-07 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及可读存储介质
CN111782785B (zh) * 2020-06-30 2024-04-19 北京百度网讯科技有限公司 自动问答方法、装置、设备以及存储介质
CN111858887B (zh) * 2020-07-13 2022-09-20 北京航空航天大学 一种机场服务的社区问答***
CN112256853A (zh) * 2020-10-30 2021-01-22 深圳壹账通智能科技有限公司 问题生成方法、装置、设备及计算机可读存储介质
CN112579666A (zh) * 2020-12-15 2021-03-30 深港产学研基地(北京大学香港科技大学深圳研修院) 智能问答***和方法及相关设备
US11860946B2 (en) 2022-01-11 2024-01-02 Kyndryl, Inc. Autonomous webpage content summation
JP7372372B2 (ja) * 2022-02-18 2023-10-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP7462375B2 (ja) 2022-05-12 2024-04-05 Line Works株式会社 サーバ、プログラム、情報処理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207127A (ja) * 2006-02-04 2007-08-16 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
JP2012155358A (ja) * 2011-01-21 2012-08-16 National Institute Of Information & Communication Technology 情報検索サービス提供装置及びコンピュータプログラム
JP2013016054A (ja) * 2011-07-05 2013-01-24 Yahoo Japan Corp 質問例提示装置、方法及びプログラム
JP2013171550A (ja) * 2012-02-23 2013-09-02 National Institute Of Information & Communication Technology ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP2013254420A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム
JP2014134871A (ja) * 2013-01-08 2014-07-24 Nippon Telegr & Teleph Corp <Ntt> 質問応答用検索キーワード生成方法、装置、及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434688B1 (ko) * 2000-05-25 2004-06-04 주식회사 다이퀘스트 대화형 db, faq리스트, 웹사이트에 대한 통합형 자연어 질의-응답 검색 방법
JP2003058464A (ja) 2001-06-06 2003-02-28 Neogenesis Corp 質問応答システム
JP3981734B2 (ja) * 2003-11-21 2007-09-26 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
JP2006252382A (ja) * 2005-03-14 2006-09-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4185500B2 (ja) * 2005-03-14 2008-11-26 株式会社東芝 文書検索システム、文書検索方法及びプログラム
JP4650072B2 (ja) 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2007141090A (ja) * 2005-11-21 2007-06-07 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4849596B2 (ja) 2005-12-08 2012-01-11 独立行政法人情報通信研究機構 質問応答装置、質問応答方法および質問応答プログラム
JP2007219955A (ja) * 2006-02-17 2007-08-30 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
WO2007099812A1 (ja) * 2006-03-01 2007-09-07 Nec Corporation 質問回答装置、質問回答方法および質問回答用プログラム
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索***
CN103049433B (zh) * 2012-12-11 2015-10-28 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答***及构建问答实例库的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207127A (ja) * 2006-02-04 2007-08-16 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
JP2012155358A (ja) * 2011-01-21 2012-08-16 National Institute Of Information & Communication Technology 情報検索サービス提供装置及びコンピュータプログラム
JP2013016054A (ja) * 2011-07-05 2013-01-24 Yahoo Japan Corp 質問例提示装置、方法及びプログラム
JP2013171550A (ja) * 2012-02-23 2013-09-02 National Institute Of Information & Communication Technology ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP2013254420A (ja) * 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム
JP2014134871A (ja) * 2013-01-08 2014-07-24 Nippon Telegr & Teleph Corp <Ntt> 質問応答用検索キーワード生成方法、装置、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
後藤 淳、外6名: "質問応答に基づく対災害情報分析システム", 自然言語処理, vol. 第20巻,第3号, JPN6015043571, 14 June 2013 (2013-06-14), JP, pages 367 - 404, ISSN: 0003872511 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936664B2 (en) 2016-08-16 2021-03-02 National Institute Of Information And Communications Technology Dialogue system and computer program therefor
WO2018034118A1 (ja) * 2016-08-16 2018-02-22 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
JP2018028752A (ja) * 2016-08-16 2018-02-22 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
KR20190060995A (ko) * 2016-10-07 2019-06-04 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
WO2018066489A1 (ja) * 2016-10-07 2018-04-12 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
CN109863487A (zh) * 2016-10-07 2019-06-07 国立研究开发法人情报通信研究机构 非事实型问答***和方法及用于其的计算机程序
JP2018063696A (ja) * 2016-10-07 2018-04-19 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
KR102408083B1 (ko) 2016-10-07 2022-06-13 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램
US10997371B2 (en) 2017-07-14 2021-05-04 Je International Corporation Automatic response server device, terminal device, response system, response method, and program
WO2019012872A1 (ja) * 2017-07-14 2019-01-17 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
JP2019020995A (ja) * 2017-07-14 2019-02-07 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
JP6218057B1 (ja) * 2017-07-14 2017-10-25 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム
RU2745632C1 (ru) * 2017-07-14 2021-03-29 Джи Интернэшнл Корпорейшн Серверное устройство автоматизированного ответа, оконечное устройство, система ответа, способ ответа и программа
JP7232831B2 (ja) 2017-12-15 2023-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 複雑な回答の補強証拠取り出し
JP2021507350A (ja) * 2017-12-15 2021-02-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複雑な回答の補強証拠取り出し
KR101854912B1 (ko) * 2018-03-07 2018-05-04 주식회사 텐디 어플리케이션들 사이의 연관도 분석 방법 및 어플리케이션들 사이의 연관도 분석 장치
JP2019215841A (ja) * 2018-06-07 2019-12-19 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP7087938B2 (ja) 2018-06-07 2022-06-21 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
WO2019235103A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP7315065B2 (ja) 2018-06-07 2023-07-26 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP2022111261A (ja) * 2018-06-07 2022-07-29 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP2020057117A (ja) * 2018-09-28 2020-04-09 株式会社リコー 情報処理装置、情報処理方法及びプログラム
JP2022105186A (ja) * 2019-01-30 2022-07-12 株式会社東芝 対話システム、対話方法、プログラム、及び記憶媒体
JP7319504B2 (ja) 2019-01-30 2023-08-02 株式会社東芝 対話システム、対話方法、プログラム、及び記憶媒体
WO2020170912A1 (ja) * 2019-02-20 2020-08-27 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP7230576B2 (ja) 2019-02-20 2023-03-01 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP2020135456A (ja) * 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
WO2021130964A1 (ja) * 2019-12-26 2021-07-01 日本電気株式会社 情報提供方法
JP7131720B2 (ja) 2019-12-26 2022-09-06 日本電気株式会社 情報提供方法
JPWO2021130964A1 (ja) * 2019-12-26 2021-07-01
JP2022008207A (ja) * 2020-06-24 2022-01-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体
JP2023026316A (ja) * 2021-08-11 2023-02-24 ボイン アイティー カンパニー リミテッド 自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置
JP7378103B2 (ja) 2021-08-11 2023-11-13 ボイン アイティー カンパニー リミテッド 自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置

Also Published As

Publication number Publication date
KR102408082B1 (ko) 2022-06-13
EP3185140A1 (en) 2017-06-28
US10380149B2 (en) 2019-08-13
CN106663125B (zh) 2020-06-30
KR20170046611A (ko) 2017-05-02
US20170242915A1 (en) 2017-08-24
WO2016027714A1 (ja) 2016-02-25
JP6414956B2 (ja) 2018-10-31
CN106663125A (zh) 2017-05-10
EP3185140A4 (en) 2018-03-07

Similar Documents

Publication Publication Date Title
JP6414956B2 (ja) 質問文生成装置及びコンピュータプログラム
US9721005B2 (en) Answering questions via a persona-based natural language processing (NLP) system
CN106649768B (zh) 基于深度问答的问答澄清方法和装置
US9367588B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
CN102163198B (zh) 提供新词或热词的方法及***
US20190188324A1 (en) Enriching a knowledge graph
JP2017134787A (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
Rajasurya et al. Semantic information retrieval using ontology in university domain
Bakar The development of an integrated corpus for Malay language
KR20210032253A (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
Mohasseb et al. Web queries classification based on the syntactical patterns of search types
US20120023119A1 (en) Data searching system
Zhuhadar A synergistic strategy for combining thesaurus-based and corpus-based approaches in building ontology for multilingual search engines
Ueyama Evaluation of japanese web-based reference corpora: Effects of seed selection and time interval
US20060195313A1 (en) Method and system for selecting and conjugating a verb
JP2011018152A (ja) 情報提示装置、情報提示方法およびプログラム
El-Ansari et al. Personalized question-answering over linked data
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
Tanaka-Ishii et al. Multilingual phrase-based concordance generation in real-time
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
Buzikashvili Query topic classification and sociology of web query logs
Bakar International Islamic University Malaysia, Kuala Lumpur, Malaysia nsham@ iium. edu. my
Telemala Investigating language preferences in improving multilingual Swahili information retrieval
CN118093663A (zh) 基于用户意图理解的文献检索方法、装置、设备及介质
Alhazmi Linking Arabic social media based on similarity and sentiment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181001

R150 Certificate of patent or registration of utility model

Ref document number: 6414956

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250