JP2018206307A

JP2018206307A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2018206307A
Application number: JP2017114483A
Authority: JP
Inventors: 真中辻; Makoto Nakatsuji; 伊東　久; Hisashi Ito; 久伊東; 毘蘆呉; Pilu Wu; 翔太相樂; Shota Sagara; 明久藤田; Akihisa Fujita
Original assignee: NTT Resonant Inc
Current assignee: NTT Resonant Inc
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2018-12-27
Anticipated expiration: 2037-06-09
Also published as: JP6871809B2

Abstract

【課題】質問に対して違和感を低減した自然な文面の回答を生成する。【解決手段】情報処理装置は、械学習された学習結果に基づいて、入力質問文に対する回答文を生成する回答生成部を備え、学習結果は、質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトルを生成し、生成した文脈ベクトルに基づいて、複数の部分項目ごとの既知の部分回答文をデコードして学習するエンコーダデコーダモデルと、エンコーダデコーダモデルに基づいてデコードされた部分回答文と質問文とを含む組情報を入力情報として、質問文の双方向の単語の並び順に基づいて学習して生成された質問中間ベクトルと、複数の部分項目それぞれに対応し、部分回答文の双方向の単語の並び順に基づいて学習して生成された回答中間ベクトルと、の複数の部分項目の組合せに基づいて学習する文単位学習モデルと、を組み合わせて算出される損失関数により最適化されて学習される。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、機械学習（例えば、深層学習（Deep Learning）手法）を利用して、入力された質問に対して、回答を出力する技術が知られている（例えば、非特許文献１を参照）。このような従来技術を用いた情報処理装置では、例えば、過去に蓄積された回答などの予め用意された既知の回答のうちから、適切であると推定された回答が選択されて出力される。

Tan M, Xiang B, Zhou B, "LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION"1511.04108v1, 12 Nov 2015

しかしながら、上述した従来の情報処理装置では、例えば、質問が理由や事象の説明に基づく回答を求めるNon-Factoid型質問である場合に、回答が複雑な長文になるが、質問に対して、予め用意された既知の回答が出力されるため、新たな回答を生成することは困難である。そのため、上述した従来の情報処理装置では、質問に対して、文面に違和感のある不自然な回答が出力される場合があった。

本発明は、上記問題を解決すべくなされたもので、その目的は、質問に対して、違和感を低減した自然な文面の回答を生成することができる情報処理装置、情報処理方法、及びプログラムを提供することにある。

上記問題を解決するために、本発明の一態様は、入力された入力質問文を取得する質問取得部と、質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する既知の部分回答文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、前記質問取得部によって取得された前記入力質問文に対する回答文を生成する回答生成部とを備え、前記学習結果は、前記質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトルを生成し、生成した前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記既知の部分回答文をデコードして学習するエンコーダデコーダモデルと、前記エンコーダデコーダモデルに基づいてデコードされた前記複数の部分項目ごとの部分回答文と、前記質問文とを含む組情報を入力情報として、前記質問文を前記単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の前記単語の並び順に基づいて生成した質問特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された質問中間ベクトルと、前記複数の部分項目それぞれに対応した回答中間ベクトルであって、前記部分回答文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した回答特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された回答中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習する文単位学習モデルと、を組み合わせて算出される損失関数により最適化されて学習されることを特徴とする情報処理装置である。

また、本発明の一態様は、上記の情報処理装置において、前記文単位学習モデルは、前記エンコーダデコーダモデルの途中学習結果及び前記文脈ベクトルに基づいて生成した回答文を前記部分回答文とし、当該部分回答文と前記質問文とを含む組情報を前記入力情報として学習することを特徴とする。

また、本発明の一態様は、上記の情報処理装置において、前記エンコーダデコーダモデルは、前記既知の部分回答文における単語ごとに関連するトピック情報に基づいて、前記既知の部分回答文をデコードして学習することを特徴とする。

また、本発明の一態様は、上記の情報処理装置において、前記既知の回答文には、前記質問文に対する正解文と、不正解文とが含まれ、前記回答生成部は、前記質問文と、前記複数の部分項目それぞれに対応する前記正解文及び前記不正解文との組を複数有する前記学習情報に基づいて機械学習された前記学習結果に基づいて、前記回答文を生成し、前記エンコーダデコーダモデルは、前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記正解文及び前記不正解文をデコードして学習し、前記文単位学習モデルは、前記質問中間ベクトルと、前記複数の部分項目それぞれに対応した正解中間ベクトルであって、前記正解文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した正解特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された正解中間ベクトルと、前記複数の部分項目それぞれに対応した不正解中間ベクトルであって、前記不正解文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した不正解特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された不正解中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習することを特徴とする。

また、本発明の一態様は、上記の情報処理装置において、前記学習結果は、前記複数の部分項目のうちの第１の部分項目に対応する前記正解中間ベクトル及び前記不正解中間ベクトルに基づいて、前記第１の部分項目と異なる第２の部分項目に対応する正解特徴ベクトル群及び不正解特徴ベクトル群が更新されて学習されることを特徴とする。

また、本発明の一態様は、上記の情報処理装置において、前記学習情報に基づいて機械学習し、前記学習結果を生成する学習処理部を備えることを特徴とする。

また、本発明の一態様は、質問取得部が、入力された入力質問文を取得する質問取得ステップと、回答生成部が、質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する既知の部分回答文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、前記質問取得ステップによって取得された前記入力質問文に対する回答文を生成する回答生成ステップとを含み、前記学習結果は、前記質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトルを生成し、生成した前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記既知の部分回答文をデコードして学習するエンコーダデコーダモデルと、前記エンコーダデコーダモデルに基づいてデコードされた前記複数の部分項目ごとの部分回答文と、前記質問文とを含む組情報を入力情報として、前記質問文を前記単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の前記単語の並び順に基づいて生成した質問特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された質問中間ベクトルと、前記複数の部分項目それぞれに対応した回答中間ベクトルであって、前記部分回答文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した回答特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された回答中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習する文単位学習モデルと、を組み合わせて算出される損失関数により最適化されて学習されることを特徴とする情報処理方法である。

また、本発明の一態様は、コンピュータに、入力された入力質問文を取得する質問取得ステップと、質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する既知の部分回答文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、前記質問取得ステップによって取得された前記入力質問文に対する回答文を生成する回答生成ステップとを実行させるためのプログラムであり、前記学習結果は、前記質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトルを生成し、生成した前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記既知の部分回答文をデコードして学習するエンコーダデコーダモデルと、前記エンコーダデコーダモデルに基づいてデコードされた前記複数の部分項目ごとの部分回答文と、前記質問文とを含む組情報を入力情報として、前記質問文を前記単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の前記単語の並び順に基づいて生成した質問特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された質問中間ベクトルと、前記複数の部分項目それぞれに対応した回答中間ベクトルであって、前記部分回答文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した回答特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された回答中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習する文単位学習モデルと、を組み合わせて算出される損失関数により最適化されて学習されることを特徴とするプログラムである。

本発明によれば、質問に対して、違和感を低減した自然な文面の回答を生成することができる。

本実施形態による情報処理システムの一例を示す機能ブロック図である。本実施形態における学習モデルの一例を説明する図である。本実施形態におけるデコーダモデルの一例を説明する図である。本実施形態における学習処理部及び学習処理の一例を説明する図である。本実施形態におけるエンコーダデコーダモデルの一例を説明する図である。本実施形態における学習処理の一例を示すフローチャートである。本実施形態における情報処理装置の質問文から回答文を生成する処理の一例を示すフローチャートである。本実施形態における回答生成方式と、従来技術との比較を示す図である。本実施形態における情報処理装置が生成した回答文の一例を説明する図である。

以下、本発明の一実施形態による情報処理装置について図面を参照して説明する。

図１は、本実施形態による情報処理システム１００の一例を示す概略ブロック図である。
図１に示すように、情報処理システム１００は、情報処理装置１と、端末装置２とを備えている。情報処理装置１と、端末装置２とは、ネットワークＮＷ１を介して接続されている。
情報処理システム１００は、例えば、情報処理装置１に接続した端末装置２に、投稿された質問及び回答を表示して、ユーザ間で情報共有するＱ＆Ａサービスなどの情報サービスを提供する。

端末装置２は、情報処理システム１００が提供する情報サービスを利用するために、ユーザが使用するクライアント端末である。なお、図１に示す例では、説明を簡略化するため、情報処理装置１に１台の端末装置２が接続されている例を示しているが、複数の端末装置２が、情報処理装置１に接続されてもよい。

情報処理装置１は、例えば、Ｑ＆Ａサービスなどの情報サービスを提供するサーバ装置である。情報処理装置１は、例えば、端末装置２を介してユーザから受け付けた質問文を、Ｑ＆Ａサービスに登録して閲覧可能にするとともに、端末装置２を介して他のユーザから受け付けた回答文を登録して閲覧可能にする。また、情報処理装置１は、機械学習を利用して、登録された質問文に対する回答文を生成し、当該回答文をＱ＆Ａサービスに登録して閲覧可能にする。また、情報処理装置１は、ＮＷ（ネットワーク）通信部１１と、記憶部１２と、制御部１３とを備えている。

ＮＷ通信部１１は、例えば、インターネットなどを利用してネットワークＮＷ１に接続し、ネットワークＮＷ１を介して各種情報の通信を行う。ＮＷ通信部１１は、例えば、ネットワークＮＷ１を介して、接続要求のあった端末装置２に接続し、各種情報の通信を行う。

記憶部１２は、情報処理装置１が実行する各種処理に利用される情報を記憶する。記憶部１２は、例えば、サービス記憶部１２１と、学習結果記憶部１２２とを備えている。
サービス記憶部１２１は、例えば、ユーザによって端末装置２からＱ＆Ａサービスに投稿された質問文及び回答文などの投稿情報を記憶する。
学習結果記憶部１２２は、後述する学習処理部１３２によって、機械学習された学習結果を記憶する。なお、学習結果の詳細については後述する。

制御部１３は、例えば、ＣＰＵ（Central Processing Unit）などを含むプロセッサであり、情報処理装置１を統括的に制御する。制御部１３は、例えば、上述したＱ＆Ａサービスなどの情報サービスを提供する処理や、学習結果記憶部１２２が記憶する学習結果の生成処理、情報処理装置１がＮＷ通信部１１を介して取得した質問文に対する回答文の生成処理などの各種処理を実行する。また、制御部１３は、サービス提供部１３１と、学習処理部１３２と、質問取得部１３３と、回答生成部１３４とを備えている。

サービス提供部１３１は、情報処理装置１が提供する情報サービスに関する処理を実行する。サービス提供部１３１は、例えば、端末装置２からＮＷ通信部１１を介して、受け付けた質問文及び回答文を投稿情報として、サービス記憶部１２１に記憶させる。また、サービス提供部１３１は、例えば、Ｑ＆Ａサービスの閲覧を希望する端末装置２に対して、サービス記憶部１２１に記憶されている投稿情報を、ＮＷ通信部１１を介して端末装置２に出力し、端末装置２に表示させる。また、サービス提供部１３１は、後述する回答生成部１３４が生成した回答文を、サービス記憶部１２１に記憶させる。なお、サービス提供部１３１は、Ｑ＆Ａサービスにおいて、例えば、「恋愛」、「家族」、「料理」など、カテゴリ（分類）ごとに分かれて、情報をユーザに提供するものとする。

学習処理部１３２は、質問文と、既知の回答文において、予め定められた文章の筋道（シナリオ）により分割される複数の部分項目それぞれに対応する部分回答文との組を複数有する学習情報に基づいて、機械学習を実行して学習結果を生成する。ここで、例えば、回答文の文章の筋道（シナリオ）を、「結論」、「補足」の順に定めた場合には、部分項目は、「結論」及び「補足」であり、回答文の文章の筋道（シナリオ）を、「雑談」、「事例」、「結論」の順番に定めた場合には、部分項目は、「雑談」、「事例」、及び「結論」である。
なお、以下の説明では、複数の部分項目の一例として、「結論」及び「補足」である場合について説明する。

また、学習処理部１３２は、例えば、サービス記憶部１２１が記憶するＱ＆Ａサービスの投稿情報（既知の質問文及び既知の回答文）を入力情報として、深層学習（ディープラーニング）技術を利用した学習モデルにより学習した学習結果を生成する。なお、既知の回答文には、質問文に対する正解文と、不正解文とが含まれる。学習処理部１３２は、学習処理の入力情報（学習情報）として、質問文と、正解の回答文、及び正解以外の回答文の中から任意に抽出した不正解文の組を学習情報として使用する。学習処理部１３２は、生成した学習結果を学習結果記憶部１２２に記憶させる。
なお、本実施形態の学習モデル、学習処理部１３２の構成、及び学習処理の詳細ついては、後述する。

質問取得部１３３は、情報処理装置１に入力された入力質問文を取得する。質問取得部１３３は、例えば、サービス記憶部１２１が記憶している質問文の中から、入力質問文を取得する。

回答生成部１３４は、上述した学習処理部１３２によって学習された学習結果に基づいて、質問取得部１３３によって取得された入力質問文に対する回答文を生成する。すなわち、回答生成部１３４は、学習結果記憶部１２２が記憶する学習結果に基づいて、複数の部分項目を結合して生成された回答文を生成する。また、回答生成部１３４は、生成した回答文をサービス提供部１３１に供給して、当該回答文を、入力質問文の回答の投稿として、サービス記憶部１２１に記憶させる。

次に、図２及び図３を参照して、本実施形態における学習モデルについて説明する。
図２は、本実施形態における学習モデルＭ１の一例を説明する図である。
図２に示すように、本実施形態における学習モデルＭ１は、深層学習技術を利用したモデルであり、エンコーダデコーダモデルＭ１１と、文単位学習モデルＭ１２とを組み合わせたモデルである。

エンコーダデコーダモデルＭ１１は、質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトル１０（Context vector）を生成し、生成した文脈ベクトル１０に基づいて、複数の部分項目ごとの既知の部分回答文をデコードして学習する。エンコーダデコーダモデルＭ１１は、例えば、ニューラルエンコーダデコーダモデルであり、まずに、一度に質問文の１つの単語（トークン）をエンコードし、回答文を一度に１つの単語（トークン）をデコードする。エンコーダデコーダモデルＭ１１は、複数の部分項目ごとの既知の回答文を生成するようにデコードして学習するモデルである。エンコーダデコーダモデルＭ１１は、質問文の言葉（ＷＯＲＤ）を質問文である入力文Ｘによって調整することにより、逐次生成する。また、目標文は、Ｙ＝｛ｙ（１），・・・，ｙ（Ｔ）｝とする。エンコーダデコーダモデルＭ１１において、損失関数Ｌは、以下の式（１）により表される。

なお、エンコーダデコーダモデルＭ１１は、エンコーダモデルＭ１１１と、デコーダモデルＭ１１２とを含んでいる。
エンコーダモデルＭ１１１は、質問の全体の意味を捕えるために、両方向にエンコードされるｂｉＬＳＴＭ（bidirectional Long Short-Term Memory）を使用する。エンコーダモデルＭ１１１は、ｂｉＬＳＴＭの出力の各要素の最大値を抽出して蓄積するマックスプーリング（Max pooling）処理により文脈ベクトル１０を生成する。

デコーダモデルＭ１１２は、エンコーダモデルＭ１１１によって生成された文脈ベクトル１０に基づいて、部分回答文（結論回答文ａｃ及び補足回答文ａｓ）を出力するように学習するモデルであり、ＬＳＴＭ（Long Short-Term Memory）を利用して、各単語を予測するモデルである。ここでは、デコーダモデルＭ１１２は、文脈ベクトル１０に基づいて、結論回答文ａｃをデコードするとともに、補足回答文ａｓをデコードするモデルである。
デコーダモデルＭ１１２は、例えば、「遠距離」、「恋愛」、「は」、「愛」、「を」、・・・という質問文ｑをエンコーダモデルＭ１１１によりエンコードした文脈ベクトル１０に基づいて、「遠距離」、「恋愛」、「は」、「真実の」、「愛」、・・・という既知の部分回答文（結論回答文ａｃ）をデコードするように学習する。また、デコーダモデルＭ１１２は、文脈ベクトル１０に基づいて、「遠距離」、「恋愛」、「は」、「あなたの」、「愛」、・・・という既知の部分回答文（補足回答文ａｓ）をデコードするように学習する。

なお、デコーダモデルＭ１１２は、図３に示すように、部分回答文における単語ごとに関連するトピック情報に基づいて、既知の部分回答文をデコードして学習するＣ−ＬＳＴＭ（Contextual-Long Short-Term Memory）により学習するモデルである。

図３は、本実施形態におけるデコーダモデルの一例を説明する図である。
図３に示す例では、単語「情報」に対応するトピック情報は、「ＩＴ」（情報技術）であり、単語「社会」に対応するトピック情報は、「公共」である。また、単語「とは」、「、」（読点）、及び「が」に対応するトピック情報は、「接続」であり、単語「資源」に対応するトピック情報は、「ＩＴ」である。このように、トピック情報は、例えば、単語の関連分野を示す情報である。
デコーダモデルＭ１１２は、図３に示すような回答文（部分回答文）の単語列と、各単語に対応するトピック情報とに基づいて、回答文（部分回答文）を生成すうように、学習する。

図２の説明に戻り、文単位学習モデルＭ１２は、上述したエンコーダデコーダモデルＭ１１の出力（部分回答文）と、質問文ｑとを入力情報として、文ごとに学習するセンテンスバイセンテンス（Sentence-by-sentence）モデルである。文単位学習モデルＭ１２は、質問文ｑと、複数の部分項目の部分回答文とのそれぞれについて、ｂｉＬＳＴＭ及びマックスプーリング処理を利用して、エンコーダデコーダモデルＭ１１とデコーダモデルＭ１１２とを組み合わせた損失関数Ｌｗにより最適化されて学習する。

なお、文単位学習モデルＭ１２は、エンコーダデコーダモデルＭ１１の途中学習結果及び文脈ベクトル１０に基づいて生成した回答文を部分回答文とし、当該部分回答文と質問文とを含む組情報を入力情報として学習するようにしてもよい。また、文単位学習モデルＭ１２の入力情報は、例えば、部分回答文と質問文とを含む組情報をベクトル化した情報（特徴ベクトル）である。
また、文単位学習モデルＭ１２は、複数の部分項目のうちの第１の部分項目に対応する出力に基づいて、第１の部分項目と異なる第２の部分項目に対応するｂｉＬＳＴＭが更新されて学習されるアテンションメカニズムを利用するようにしてもよい。

次に、図４及び図５を参照して、本実施形態における学習処理部１３２及び学習処理について説明する。
図４は、本実施形態における学習処理部１３２及び学習処理の一例を説明する図である。なお、図４に示す例では、学習の入力情報の一部となる既知の回答文に、質問文に対する正解文と、不正解文とが含まれる場合の一例について説明する。

図４に示すように、学習処理部１３２は、エンコーダデコーダモデルＭ１１と、ＱＡ−ＬＳＴＭ（Question Answering-Long Short-Term Memory）部（２０−１、２０−２）と、損失関数生成部３０とを備えている。

エンコーダデコーダモデルＭ１１は、上述した図２に示すエンコーダデコーダモデルＭ１１を、正解文と不正解文とに対応させたモデルであり、例えば、図５に示すようなモデルである。ここで、エンコーダデコーダモデルＭ１１は、学習情報の組に含まれる、質問文ｑ、「結論」の正解文ａｃ＋、「結論」の不正解文ａｃ−、「補足」の正解文ａｓ＋、及び「補足」の不正解文ａｓ−に基づいて学習する。

図５は、本実施形態におけるエンコーダデコーダモデルＭ１１の一例を説明する図である。
図５に示すように、エンコーダデコーダモデルＭ１１は、エンコーダモデルＭ１１１と、デコーダモデルＭ１１２とを含んでおり、上述した質問文ｑ、「結論」の正解文ａｃ＋、「結論」の不正解文ａｃ−、「補足」の正解文ａｓ＋、及び「補足」の不正解文ａｓ−の組情報に基づいて学習する。

エンコーダモデルＭ１１１は、上述した図２と同様に、質問文ｑを１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトル１０を生成する。
また、デコーダモデルＭ１１２は、当該文脈ベクトル１０に基づいて、「結論」の正解文ａｃ＋、「結論」の不正解文ａｃ−、「補足」の正解文ａｓ＋、及び「補足」の不正解文ａｑ−のそれぞれを生成するようにデコードして学習する。
このように、エンコーダデコーダモデルＭ１１は、文脈ベクトル１０に基づいて、複数の部分項目ごとの正解文及び不正解文をデコードして学習する。ここで、エンコーダデコーダモデルＭ１１によって生成された「結論」の正解文及び不正解文と、「補足」の正解文及び不正解文とを、「結論」の正解文ａｃ２＋、「結論」の不正解文ａｃ２−、「補足」の正解文ａｓ２＋、及び「補足」の不正解文ａｓ２−とする。また、「結論」の正解文ａｃ２＋、「結論」の不正解文ａｃ２−、「補足」の正解文ａｓ２＋、及び「補足」の不正解文ａｓ２−は、特徴ベクトルとして出力されるものとする。

図４の説明に戻り、学習処理部１３２は、エンコーダデコーダモデルＭ１１の出力である質問文ｑ、「結論」の正解文ａｃ２＋、「結論」の不正解文ａｃ２−、「補足」の正解文ａｓ２＋、及び「補足」の不正解文ａｓ２−を、それぞれの特徴ベクトル群に変換する。すなわち、学習処理部１３２は、質問文ｑを、特徴ベクトルの集合である特徴ベクトル列Ｗ_ｑに変換する。また、学習処理部１３２は、「結論」の正解文ａｃ２＋を、特徴ベクトルの集合である特徴ベクトル列Ｗ_ａｃ＋に変換し、「結論」の不正解文ａｃ２−を、特徴ベクトルの集合である特徴ベクトル列Ｗ_ａｃ−に変換する。また、学習処理部１３２は、「補足」の正解文ａｓ２＋を、特徴ベクトルの集合である特徴ベクトル列Ｗ_ａｓ＋に変換し、「補足」の不正解文ａｓ２−を、特徴ベクトルの集合である特徴ベクトル列Ｗ_ａｓ−に変換する。

ＱＡ−ＬＳＴＭ部（２０−１、２０−２）は、双方向に学習するニューラルネットワークであるｂｉＬＳＴＭである。ＱＡ−ＬＳＴＭ部２０−１は、「結論」用のｂｉＬＳＴＭであり、ＱＡ−ＬＳＴＭ部２０−２は、「補足」用のｂｉＬＳＴＭである。なお、本実施形態において、ＱＡ−ＬＳＴＭ部２０−１と、ＱＡ−ＬＳＴＭ部２０−２とは、同様の構成であり、学習処理部１３２が備える任意のＱＡ−ＬＳＴＭ部を示す場合、又は特に区別しない場合には、ＱＡ−ＬＳＴＭ部２０として説明する。

ＱＡ−ＬＳＴＭ部２０は、質問埋め込みベクトル生成部２１と、正解埋め込みベクトル生成部２２と、不正解埋め込みベクトル生成部２３とを備えている。
質問埋め込みベクトル生成部２１は、質問文を単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の単語の並び順に基づいて生成した双方向ベクトル列２４（質問特徴ベクトル群）に基づいて、単語の並びを双方向に学習して、質問埋め込みベクトルＯ_ｑを生成する。質問埋め込みベクトル生成部２１は、例えば、質問文の特徴ベクトル列Ｗ_ｑから双方向ベクトル列２４を生成し、当該双方向ベクトル列２４の各要素の最大値を抽出して蓄積するマックスプーリング処理により質問埋め込みベクトルＯ_ｑ（質問中間ベクトル）を生成する。

正解埋め込みベクトル生成部２２は、正解文を単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の単語の並び順に基づいて生成した双方向ベクトル列２５（正解特徴ベクトル群）に基づいて、単語の並びを双方向に学習して、正解埋め込みベクトルＯ_ａ＋を生成する。正解埋め込みベクトル生成部２２は、例えば、正解文の特徴ベクトル列Ｗ_ａ＋から双方向ベクトル列２５を生成し、当該双方向ベクトル列２５の各要素の最大値を抽出して蓄積するマックスプーリング処理により正解埋め込みベクトルＯ_ａ＋（正解中間ベクトル）を生成する。

不正解埋め込みベクトル生成部２３は、不正解文を単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の単語の並び順に基づいて生成した双方向ベクトル列２６（不正解特徴ベクトル群）に基づいて、単語の並びを双方向に学習して、正解埋め込みベクトルＯ_ａ−を生成する。不正解埋め込みベクトル生成部２３は、例えば、不正解文の特徴ベクトル列Ｗ_ａ−から双方向ベクトル列２６を生成し、当該双方向ベクトル列２６の各要素の最大値を抽出して蓄積するマックスプーリング処理により不正解埋め込みベクトルＯ_ａ−（不正解中間ベクトル）を生成する。

なお、ＱＡ−ＬＳＴＭ部２０の基本となるＬＳＴＭについては、非特許文献１に開示されている。基本的なＬＳＴＭでは、学習する際に、入力される時系列の入力Ｘ＝｛ｘ（１），ｘ（２），・・・，ｘ（Ｎ）｝とし、ｘ（ｔ）をｔ番目の単語の特徴ベクトルとした場合に、双方向ベクトル列（２４、２５、２６）の内部のベクトルである各双方向ベクトルｈ（ｔ）が、ｔ時間ごとに以下の式（２）により更新される。

ここで、基本的なＬＳＴＭのアーキテクチャにおいて、３つのゲート（ｉｎｐｕｔｉ_ｔ，ｆｏｒｇｅｔｆ_ｔ，ｏｕｔｐｕｔｏ_ｔ）と、セルメモリーベクトルｃ_ｔとがある。また、σ（）はシグモイド関数である。また、Ｗ_ｉ、Ｗ_ｆ、Ｗ_ｏ、Ｗ_ｃ、Ｕ_ｉ、Ｕ_ｆ，Ｕ_ｏ、Ｕ_ｃ、ｂ_ｉ、ｂ_ｆ，ｂ_ｏ、ｂ_ｃは学習されるネットワークパラメータである。

ＱＡ−ＬＳＴＭ部２０−１は、「結論」用のｂｉＬＳＴＭであり、特徴ベクトル列（Ｗ_ｑ、Ｗ_ａｃ＋、Ｗ_ａｃ−）に基づいて、質問埋め込みベクトルＯ_ｑｃ、正解埋め込みベクトルＯ_ａｃ＋、及び不正解埋め込みベクトルＯ_ａｃ−を生成する。ＱＡ−ＬＳＴＭ部２０−１は、質問埋め込みベクトル生成部２１−１と、正解埋め込みベクトル生成部２２−１と、不正解埋め込みベクトル生成部２３−１とを備えている。質問埋め込みベクトル生成部２１−１は、特徴ベクトル列Ｗ_ｑから双方向ベクトル列２４−１を生成し、マックスプーリング処理により質問埋め込みベクトルＯ_ｑｃを生成する。また、正解埋め込みベクトル生成部２２−１は、特徴ベクトル列Ｗ_ａｃ＋から双方向ベクトル列２５−１を生成し、マックスプーリング処理により正解埋め込みベクトルＯ_ａｃ＋を生成する。また、不正解埋め込みベクトル生成部２３−１は、特徴ベクトル列Ｗ_ａｃ−から双方向ベクトル列２６−１を生成し、マックスプーリング処理により正解埋め込みベクトルＯ_ａｃ−を生成する。

ＱＡ−ＬＳＴＭ部２０−２は、「補足」用のｂｉＬＳＴＭであり、特徴ベクトル列（Ｗ_ｑ、Ｗ_ａｓ＋、Ｗ_ａｓ−）に基づいて、質問埋め込みベクトルＯ_ｑｓ、正解埋め込みベクトルＯ_ａｓ＋、及び不正解埋め込みベクトルＯ_ａｓ−を生成する。ＱＡ−ＬＳＴＭ部２０−２は、質問埋め込みベクトル生成部２１−２と、正解埋め込みベクトル生成部２２−２と、不正解埋め込みベクトル生成部２３−２とを備えている。質問埋め込みベクトル生成部２１−２は、特徴ベクトル列Ｗ_ｑから双方向ベクトル列２４−２を生成し、マックスプーリング処理により質問埋め込みベクトルＯ_ｑｓを生成する。また、正解埋め込みベクトル生成部２２−２は、特徴ベクトル列Ｗ_ａｓ＋から双方向ベクトル列２５−２を生成し、マックスプーリング処理により正解埋め込みベクトルＯ_ａｓ＋を生成する。また、不正解埋め込みベクトル生成部２３−２は、特徴ベクトル列Ｗ_ａｓ−から双方向ベクトル列２６−２を生成し、マックスプーリング処理により不正解埋め込みベクトルＯ_ａｓ−を生成する。

また、ＱＡ−ＬＳＴＭ部２０−２は、学習する際に、アテンションメカニズムを利用して、双方向ベクトル列２５−２及び双方向ベクトル列２６−２を更新する。ＱＡ−ＬＳＴＭ部２０−２は、例えば、ＱＡ−ＬＳＴＭ部２０−１が生成した「結論」に対応する正解埋め込みベクトルＯ_ａｓ＋及び不正解埋め込みベクトルＯ_ａｓ−ルに基づいて、「補足」に対応する双方向ベクトル列２５−２（正解特徴ベクトル群）及び双方向ベクトル列２６−２（不正解特徴ベクトル群）を更新する。具体的に、ＱＡ−ＬＳＴＭ部２０−２は、以下の式（３）により、双方向ベクトル列２５−２及び双方向ベクトル列２６−２の内部ベクトルである双方向ベクトルｈ_ｓ（ｔ）を更新する。

ここで、ｔは、時間のステップであり、Ｗ_ｓｍ、Ｗ_ｃｍ、及びｗ_ｍｂは、アテンションパラメータである。また、^〜ｈ_ｓ（ｔ）は、更新後の双方向ベクトルを示す。なお、本文中の上付の〜は文字の真上に付けられた記号を表すものとする。

また、ＱＡ−ＬＳＴＭ部２０−１が生成した質問埋め込みベクトルＯ_ｑｃ、正解埋め込みベクトルＯ_ａｃ＋、及び不正解埋め込みベクトルＯ_ａｃ−と、ＱＡ−ＬＳＴＭ部２０−２が生成した質問埋め込みベクトルＯ_ｑｓ、正解埋め込みベクトルＯ_ａｓ＋、及び不正解埋め込みベクトルＯ_ａｓ−とに基づいて、コサイン類似度を利用した損失関数Ｌｓは、例えば、以下の式（４）により表される。すなわち、上述した文単位学習モデルＭ１２に対応する損失関数Ｌｓは、式（４）により表される。なお、文単位学習モデルＭ１２において、損失関数Ｌｓは、「結論」と、「補足」と、「正解」と、「不正解」との組み合わせに基づいて、算出される。

ここで、［ｙ，ｚ］は、ベクトルｙとベクトルｚとの結合を示す。Ｏ_ｑは、［Ｏ_ｑｃ，Ｏ_ｑｓ］である。また、Ｍは、定数を示し、ｋ（０＜ｋ＜１）は、マージンをコントロールするパラメータである。

損失関数生成部３０は、エンコーダデコーダモデルＭ１１と、文単位学習モデルＭ１２とを組み合わせて損失関数Ｌｗを算出する。すなわち、損失関数生成部３０は、上述した式（１）の損失関数Ｌと式（４）の損失関数Ｌｓとを組み合わせて以下の式（５）により、損失関数Ｌｗを算出する。

ここで、αは、重み付けを２つの損失関数でコントロールするパラメータである。
なお、損失関数Ｌｗは、学習中の質問と回答との各組合せにおけるコサイン値が最大になるように設定されている。

学習処理部１３２は、上述のような構成を用いて算出された損失関数Ｌｗによって最適化して学習結果を生成し、生成した学習結果を学習結果記憶部１２２に記憶させる。学習処理部１３２は、上述した式（２）の「結論」用のパラメータセット｛Ｗ_ｉ、Ｗ_ｆ、Ｗ_ｏ、Ｗ_ｃ、Ｕ_ｉ、Ｕ_ｆ，Ｕ_ｏ、Ｕ_ｃ、ｂ_ｉ、ｂ_ｆ，ｂ_ｏ、ｂ_ｃ｝_ｃと、「補足」用のパラメータセット｛Ｗ_ｉ、Ｗ_ｆ、Ｗ_ｏ、Ｗ_ｃ、Ｕ_ｉ、Ｕ_ｆ，Ｕ_ｏ、Ｕ_ｃ、ｂ_ｉ、ｂ_ｆ，ｂ_ｏ、ｂ_ｃ｝_ｓと、アテンションパラメータ｛Ｗ_ｓｍ、Ｗ_ｃｍ、ｗ_ｍｂ｝と、を含む学習結果を生成する。

なお、上述した例では、回答文のシナリオを「結論」及び「補足」の２つの部分項目により構成する例を説明したが、２つ以上の部分項目により構成するようにしてもよい。その場合、学習処理部１３２によって学習される学習結果は、質問文から生成された質問埋め込みベクトルＯ_ｑと、複数の部分項目それぞれに対応した正解埋め込みベクトルＯ_ａ＋と、複数の部分項目それぞれに対応した不正解中間ベクトルＯ_ａ−との複数の部分項目の組合せに基づいて算出される損失関数Ｌｗにより最適化されて学習される。

次に、図面を参照して、本実施形態による情報処理装置１の動作について説明する。
＜学習処理＞
ます、情報処理装置１における学習処理部１３２の学習処理について、図６を参照して説明する。

図６は、本実施形態における学習処理の一例を示すフローチャートである。
図６に示すように、学習処理部１３２は、まず、変数ｎに“１”を代入する（ステップＳ１０１）。なお、変数ｎは、学習の繰り返し回数をカウントする。この例では、ＮＮ回の学習を繰り返す場合について説明する。

次に、学習処理部１３２は、質問文及び回答文の組を入力情報として取得する（ステップＳ１０２）。学習処理部１３２は、例えば、複数ある既存の質問文と既存の回答文との組情報のうちから、図４に示すように、質問文ｑと結論回答文ａｃ及び補足回答文ａｓ（「結論」の正解文ａｃ＋、「結論」の不正解文ａｃ−、「補足」の正解文ａｓ＋、及び「補足」の不正解文ａｓ−）との組情報を取得する。

次に、学習処理部１３２は、質問文ｑをエンコードする（ステップＳ１０３）。学習処理部１３２は、取得した質問文ｑを、上述したエンコーダデコーダモデルＭ１１のエンコーダモデルＭ１１１によりエンコードする。すなわち、学習処理部１３２は、取得した質問文ｑを、ｂｉＬＳＴＭ及びマックスプーリング処理によってエンコードして、文脈ベクトル１０を生成する。ここでの文脈ベクトル１０は、質問ベクトルである。

次に、学習処理部１３２は、結論回答文ａｃ及び補足回答文ａｓをデコードする（ステップＳ１０４）。学習処理部１３２は、結論回答文ａｃ及び補足回答文ａｓを学習するために、例えば、予め用意された２つのタイプ識別ベクトル（部分項目ベクトル）を使用する。学習処理部１３２は、エンコーダデコーダモデルＭ１１のデコーダモデルＭ１１２において、タイプ識別ベクトルをエンコーダモデルＭ１１１により生成された文脈ベクトル１０とともに入力情報として使用し、目標のタイプ（部分項目）の回答文（結論回答文ａｃ及び補足回答文ａｓ）になるようにデコードする。

ここで、デコーダモデルＭ１１２の出力列（単語列）は、一度に、１つの単語（トークン）を構成する。また、タイプ識別ベクトルは、Ｃ−ＬＳＴＭモデルにおける文脈ベクトルであるという点で同様である。これによって、学習処理部１３２は、単一のエンコーダデコーダネットワークによって、入力した回答タイプの識別情報（「結論」及び「補足」）に従って、目的のシーケンス（回答文）を生成することができる。
なお、学習処理部１３２は、図５に示すように、「結論」と「補足」とのそれぞれについて、正解文と不正解文とをデコードする。また、学習処理部１３２は、ステップＳ１０４において、「結論」と「補足」との回答文を、１文字（１単語）ずつ学習する。

次に、学習処理部１３２は、結論回答文ａｃ２及び補足回答文ａｓ２を生成する（ステップＳ１０５）。学習処理部１３２は、１組の質問文ｑと結論回答文ａｃ及び補足回答文ａｓとの組情報のためにそれぞれ学習した上述したエンコーダデコーダ学習過程において、次に出力を予測するための入力として、予測された出力単語を単に供給して、結論回答文ａｃ２及び補足回答文ａｓ２を生成する。なお、この処理は、上述したステップＳ１０４の処理においての学習が、ＥＯＳ（end of sequence；結論回答文ａｃ又は補足回答文ａｓの最後の文字）まで進んだ場合に、そのときまでの更新パラメータ（途中学習結果）によって、一旦、結論回答文ａｃ２及び補足回答文ａｓ２を生成する処理である。すなわち、学習処理部１３２は、エンコーダデコーダモデルＭ１１の途中学習結果及び文脈ベクトル１０に基づいて、結論回答文ａｃ２及び補足回答文ａｓ２を生成する。具体的に、学習処理部１３２は、図４に示すように、「結論」の正解文ａｃ２＋、「結論」の不正解文ａｃ２−、「補足」の正解文ａｓ２＋、及び「補足」の不正解文ａｓ２−を生成する。

次に、学習処理部１３２は、質問文ｑ、結論回答文ａｃ２、及び補足回答文ａｓ２を文単位学習モデルＭ１２に入力して、損失関数Ｌｗを生成する（ステップＳ１０６）。学習処理部１３２は、例えば、以下の（ａ）〜（ｆ）の処理により、損失関数Ｌｗを生成する。
（ａ）学習処理部１３２は、まず、図４に示すように、質問文ｑ、「結論」の正解文ａｃ２＋、「結論」の不正解文ａｃ２−、「補足」の正解文ａｓ２＋、「補足」の不正解文ａｓ２−の組情報を特徴ベクトル列（Ｗ_ｑ、Ｗ_ａｃ＋、Ｗ_ａｃ−、Ｗ_ａｓ＋、Ｗ_ａｓ−）に変換する。

（ｂ）次に、学習処理部１３２のＱＡ−ＬＳＴＭ部２０−１は、特徴ベクトル列（Ｗ_ｑ、Ｗ_ａｃ＋、Ｗ_ａｃ−）に基づいて、質問埋め込みベクトルＯ_ｑｃ、正解埋め込みベクトルＯ_ａｃ＋、及び不正解埋め込みベクトルＯ_ａｃ−を生成する。また、ＱＡ−ＬＳＴＭ部２０−１は、双方向ベクトル列（２４−１、２５−１、２６−１）のｔ番目の各双方向ベクトル（ｈ_ｑｃ（ｔ）、ｈ_ａｃ＋（ｔ）、ｈ_ａｃ−（ｔ））をそれぞれマックスプーリング処理して、質問埋め込みベクトルＯ_ｑｃ、正解埋め込みベクトルＯ_ａｃ＋、及び不正解埋め込みベクトルＯ_ａｃ−を生成する。

（ｃ）次に、学習処理部１３２のＱＡ−ＬＳＴＭ部２０−２は、まず、質問埋め込みベクトルＯ_ｑｓを生成する。ＱＡ−ＬＳＴＭ部２０−２は、双方向ベクトル列２４−２のｔ番目の各双方向ベクトルｈ_ｑｓ（ｔ）をマックスプーリング処理して、質問埋め込みベクトルＯ_ｑｓを生成する。

（ｄ）次に、ＱＡ−ＬＳＴＭ部２０−２は、双方向ベクトル列（２５−２、２６−２）のｔ番目の各双方向ベクトル（ｈ_ａｓ＋（ｔ）、ｈ_ａｓ−（ｔ））を、正解埋め込みベクトルＯ_ａｃ＋、及び不正解埋め込みベクトルＯ_ａｃ−を用いて更新する。すなわち、ＱＡ−ＬＳＴＭ部２０−２は、上述した式（２）を用いて、各双方向ベクトル（ｈ_ａｓ＋（ｔ）、ｈ_ａｓ−（ｔ））を更新して、更新ベクトル（^〜ｈ_ａｓ＋（ｔ）、^〜ｈ_ａｓ−（ｔ））を生成する。

（ｅ）次に、ＱＡ−ＬＳＴＭ部２０−２は、更新ベクトル（^〜ｈ_ａｓ＋（ｔ）、^〜ｈ_ａｓ−（ｔ））をそれぞれマックスプーリング処理して、正解埋め込みベクトルＯ_ａｓ＋、及び不正解埋め込みベクトルＯ_ａｓ−を生成する。
（ｆ）そして、学習処理部１３２の損失関数生成部３０は、生成した各埋め込みベクトル（Ｏ_ｑｃ、Ｏ_ａｃ＋、Ｏ_ａｃ−、Ｏ_ｑｓ、Ｏ_ａｓ＋、Ｏ_ａｓ−）、及び式（５）に基づいて、損失関数Ｌｗを生成する。

次に、学習処理部１３２は、生成した損失関数Ｌｗにより最適化する（ステップＳ１０７）。学習処理部１３２は、算出した損失関数Ｌｗにより、各パラメータを最適化する。学習処理部１３２は、例えば、「結論」用のパラメータセット｛Ｗ_ｉ、Ｗ_ｆ、Ｗ_ｏ、Ｗ_ｃ、Ｕ_ｉ、Ｕ_ｆ，Ｕ_ｏ、Ｕ_ｃ、ｂ_ｉ、ｂ_ｆ，ｂ_ｏ、ｂ_ｃ｝_ｃと、「補足」用のパラメータセット｛Ｗ_ｉ、Ｗ_ｆ、Ｗ_ｏ、Ｗ_ｃ、Ｕ_ｉ、Ｕ_ｆ，Ｕ_ｏ、Ｕ_ｃ、ｂ_ｉ、ｂ_ｆ，ｂ_ｏ、ｂ_ｃ｝_ｓと、アテンションパラメータ｛Ｗ_ｓｍ、Ｗ_ｃｍ、ｗ_ｍｂ｝とを最適化する。学習処理部１３２は、最適化した各パラメータを学習結果として学習結果記憶部１２２に記憶させる。

次に、学習処理部１３２は、入力情報が終了であるか否かを判定する（ステップＳ１０８）。学習処理部１３２は、入力情報である質問文ｑと結論回答文ａｃ及び補足回答文ａｓ（「結論」の正解文ａｃ＋、「結論」の不正解文ａｃ−、「補足」の正解文ａｓ＋、及び「補足」の不正解文ａｓ−）との次の組情報があるか否かを判定する。学習処理部１３２は、入力情報が終了である場合（ステップＳ１０８：ＹＥＳ）に、処理をステップＳ１０９に進める。また、学習処理部１３２は、入力情報が終了でない（次の入力情報がある）場合（ステップＳ１０８：ＹＥＳ）に、処理をステップＳ１０２に戻す。

ステップＳ１０９において、学習処理部１３２は、変数ｎが繰り返し回数ＮＮ以上（ｎ≧ＮＮ）であるか否かを判定する。すなわち、学習処理部１３２は、ステップＳ１０２からステップＳ１０８までの処理をＮＮ回繰り返して学習したか否かを判定する。学習処理部１３２は、変数ｎが繰り返し回数ＮＮ以上である場合（ステップＳ１０９：ＹＥＳ）に、この学習処理を終了する。また、学習処理部１３２は、変数ｎが繰り返し回数ＮＮ未満である場合（ステップＳ１０９：ＮＯ）に、処理をステップＳ１１０に進める。

ステップＳ１１０において、学習処理部１３２は、変数ｎに“ｎ＋１”を代入して、処理をステップＳ１０２に戻す。すなわち、学習処理部１３２は、変数ｎの値に“１”を加算して、処理をステップＳ１０２に戻す。
このように、学習処理部１３２は、ステップＳ１０２からステップＳ１０８までの処理をＮＮ回繰り返して学習させ、当該学習結果を学習結果記憶部１２２に記憶させる。

＜回答文の生成処理＞
次に、図面を参照して、本実施形態における情報処理装置１の質問文から回答文を生成する処理について説明する。
図７は、本実施形態における情報処理装置１の質問文から回答文を生成する処理の一例を示すフローチャートである。

図７に示すように、情報処理装置１は、まず、質問文をサービス記憶部１２１から取得する（ステップＳ２０１）。情報処理装置１の質問取得部１３３は、サービス記憶部１２１が記憶している質問文の中から、入力質問文を取得する。

次に、情報処理装置１の回答生成部１３４は、入力質問文と、学習結果記憶部１２２が記憶する学習結果とに基づいて、回答文を生成する（ステップＳ２０２）。なお、ここでの学習結果は、学習処理部１３２によって、上述した文字単位（単語単位）で学習するエンコーダデコーダモデルＭ１１と、文ごとに学習するセンテンスバイセンテンスモデルである文単位学習モデルＭ１２とを組み合わせて学習されている。すなわち、回答生成部１３４は、例えば、図６に示す学習処理により学習されたが学習結果に基づいて、入力質問文から回答文を生成する。

なお、回答生成部１３４は、既存の回答文を単に選択するのではなく、文章の筋道を考慮した部分項目の部分回答文を適切に組み合わせて新たな回答文を生成する。また、回答生成部１３４は、文字単位（単語単位）で学習するエンコーダデコーダモデルＭ１１を組み合わせることにより、「結論」及び「補足」の部分回答文を既存の回答文から単純に選択するのではなく、部分回答文を単語単位で選択して、新たな回答文を生成する。

次に、回答生成部１３４は、サービス記憶部１２１に回答文を記憶させる（ステップＳ２０３）。すなわち、回答生成部１３４は、生成した回答文をサービス提供部１３１に供給して、当該回答文を、入力質問文の回答の投稿として、サービス記憶部１２１に記憶させる。これにより、情報処理装置１にネットワークＮＷ１を介して接続し端末装置２から、質問文に対して、回答生成部１３４が生成した回答文を閲覧可能になる。ステップＳ２０３の処理後に、情報処理装置１は、回答文を生成する処理を終了する。

次に、図８を参照して、本実施形態による情報処理装置１が生成した回答文の評価結果について説明する。

図８は、本実施形態における方式と、従来技術との比較を示す図である。
図８において、「Ｓｅｑ２ｓｅｑ」は、比較のために、センテンスバイセンテンスモデルである文単位学習モデルＭ１２のよる式（４）による損失関数Ｌｓのみを使用した場合の評価結果を示している。また、「Ｃ−ＬＳＴＭ」は、上述したＣ−ＬＳＴＭモデルによる式（１）による損失関数Ｌを使用した場合の評価結果である。

また、「本実施形態の方式」は、上述した本実施形態の学習処理部１３２による式（５）による損失関数Ｌｓを使用した場合の方式である。
また、評価結果の「ＲＯＵＧＥ−１」（uni-gram）、「ＲＯＵＧＥ−２」（bigram）、及び「ＲＯＵＧＥ−Ｌ」（Longest common subsequence）は、ＲＯＵＧＥ（Recall-Oriented Understudy for Gisting Evaluation）シリーズの評価指標である。「ＲＯＵＧＥ−１」、「ＲＯＵＧＥ−２」、及び「ＲＯＵＧＥ−Ｌ」は、いずれも“０”〜“１．０”の範囲で示され、値が大きい程、評価が高いことを意味している。なお、ＲＯＵＧＥの詳細については、例えば、技術文献（Chin-Yew Lin,“ROUGE: A Package for Automatic Evaluation of Summaries”，In Text Summarization Branches Out: Proceedings of the ACL-04 Workshop, pages 74-81,2004.）に記載されている。

また、評価の際に使用した学習情報は、Ｑ＆Ａサービス「教えてｇｏｏ」において、「恋愛相談」、「旅行」、「医療」などを含む１６個のカテゴリに蓄積された５０００組の質問文及び回答文を使用している。また、部分項目は、「結論」及び「補足」の２つの場合である。

また、評価のためのテストデータとして、質問文ｑ、結論回答文ａｃ及び補足回答文ａｓの１００組を２セット準備し、評価結果は、平均値を示している。また、当該評価において、文字の埋め込み数を“３００”とし、式（５）におけるαを“０．５”、繰り返し回数ＮＮを“５００”としている。

図８に示すように、「本実施形態による方式」の評価結果は、「ＲＯＵＧＥ−１」が“０．４５４６”であり、「ＲＯＵＧＥ−２」が“０．２０３０”であり、「ＲＯＵＧＥ−Ｌ」が“０．３３１１”である。「本実施形態による方式」の評価結果は、「ＲＯＵＧＥ−１」、「ＲＯＵＧＥ−２」、及び「ＲＯＵＧＥ−Ｌ」のいずれも、従来の「Ｓｅｑ２ｓｅｑ」及び「Ｃ−ＬＳＴＭ」よりも高い値である。

また、図９は、本実施形態における情報処理装置１が生成した回答文の一例を説明する図である。
なお、図９において、「Ｃ−ＬＳＴＭにより生成した回答文」は、比較のために、上述したＣ−ＬＳＴＭモデルを使用した場合の回答文を示している。
図９に示すように、「Ｃ−ＬＳＴＭにより生成した回答文」では、質問文に対して“相手のことを思いやれないということは、その人がいると思いますよ。大きさを待ったほうが良いと思います。”というような不自然な回答文となる。

これに対して、本実施形態による情報処理装置１が生成した回答文は、“勇気を出して、あなたの気持ちを伝えれば良いと思います。少し優柔不断な様子が伺えますね。”となり、違和感を低減した自然な文面の回答を生成することができる。

以上説明したように、本実施形態による情報処理装置１は、質問取得部１３３と、回答生成部１３４とを備える。質問取得部１３３は、入力された入力質問文を取得する。回答生成部１３４は、質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する既知の部分回答文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、質問取得部１３３によって取得された入力質問文に対する回答文を生成する。ここで、学習結果は、エンコーダデコーダモデルＭ１１と、文単位学習モデルＭ１２と、を組み合わせて算出される損失関数Ｌｗにより最適化されて学習される。また、エンコーダデコーダモデルＭ１１は、質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトル１０を生成し、生成した文脈ベクトル１０に基づいて、複数の部分項目ごとの既知の部分回答文をデコードして学習する。

また、文単位学習モデルＭ１２は、エンコーダデコーダモデルＭ１１に基づいてデコードされた複数の部分項目ごとの部分回答文と、質問文とを含む組情報を入力情報とする。文単位学習モデルＭ１２は、質問埋め込みベクトルＯ_ｑ（質問中間ベクトル）と、複数の部分項目それぞれに対応した回答中間ベクトル（正解埋め込みベクトル（Ｏ_ａｃ＋、Ｏ_ａｓ＋）及び不正解埋め込みベクトル（Ｏ_ａｃ−、Ｏ_ａｓ−））と、の複数の部分項目の組合せに基づいて学習する。ここで、質問埋め込みベクトルＯ_ｑ（質問中間ベクトル）は、入力情報の質問文を単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の単語の並び順に基づいて生成した双方向ベクトル列２４（質問特徴ベクトル群）に基づいて、単語の並びを双方向に学習して生成される。また、回答中間ベクトル（正解埋め込みベクトル（Ｏ_ａｃ＋、Ｏ_ａｓ＋）及び不正解埋め込みベクトル（Ｏ_ａｃ−、Ｏ_ａｓ−））は、部分回答文を単語ごとに変換された特徴ベクトルを双方向の単語の並び順に基づいて生成した回答特徴ベクトル群（双方向ベクトル列２５及び双方向ベクトル列２６）に基づいて、単語の並びを双方向に学習して生成される。

これにより、本実施形態による情報処理装置１は、エンコーダデコーダモデルＭ１１と文単位学習モデルＭ１２とを組み合わせて一括して学習した学習結果に基づいて、回答文を生成するため、文字（単語）単位で回答文を生成することができるとともに、各部分項目の回答のつながりを最適化して選択された各部分項目の回答文が結合されて、新たな回答文を作成することができる。よって、本実施形態による情報処理装置１は、質問に対して、違和感を低減した自然な文面の回答を生成することができる。すなわち、本実施形態による情報処理装置１は、自然な言葉（単語）や文の順序を持ち、従来のチャットボットによる短文回答などよりも複雑な回答を生成することができる。このように、本実施形態による情報処理装置１は、１文字生成で、且つ、長文、複雑、多様なNon-Factoid型質問に対する回答に適用可能である。

また、本実施形態では、文単位学習モデルＭ１２は、エンコーダデコーダモデルＭ１１の途中学習結果及び文脈ベクトル１０に基づいて生成した回答文（例えば、「結論」の正解文ａｃ２＋、「結論」の不正解文ａｃ２−、「補足」の正解文ａｓ２＋、及び「補足」の不正解文ａｓ２−など）を部分回答文とする。文単位学習モデルＭ１２は、当該部分回答文と質問文とを含む組情報を入力情報として学習する。
これにより、本実施形態による情報処理装置１は、エンコーダデコーダモデルＭ１１の途中学習結果に基づいて再生成したより自然な文面となる回答文を入力情報として学習するため、質問に対して、さらに違和感を低減した自然な文面の回答を生成することができる。

また、本実施形態では、エンコーダデコーダモデルＭ１１は、既知の部分回答文における単語ごとに関連するトピック情報に基づいて、既知の部分回答文をデコードして学習する。すなわち、エンコーダデコーダモデルＭ１１は、例えば、Ｃ−ＬＳＴＭにより学習するモデルである。
これにより、本実施形態による情報処理装置１は、トピック情報により、関連の低い文字（単語）が選ばれることを低減することができるため、文字（単語）単位で、さらに違和感を低減した自然な文面の回答を生成することができる。

また、本実施形態では、既知の回答文には、質問文に対する正解文と、不正解文とが含まれる。回答生成部１３４は、質問文と、複数の部分項目それぞれに対応する正解文及び不正解文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、回答文を生成する。エンコーダデコーダモデルＭ１１は、文脈ベクトル１０に基づいて、複数の部分項目ごとの正解文及び不正解文をデコードして学習する。文単位学習モデルＭ１２は、質問埋め込みベクトルＯ_ｑ（質問中間ベクトル）と、複数の部分項目それぞれに対応した正解埋め込みベクトル（Ｏ_ａｃ＋、Ｏ_ａｓ＋）（正解中間ベクトル）と、複数の部分項目それぞれに対応した不正解埋め込みベクトル（Ｏ_ａｃ−、Ｏ_ａｓ−）（不正解中間ベクトル）と、の複数の部分項目の組合せに基づいて学習する。ここで、正解埋め込みベクトル（Ｏ_ａｃ＋、Ｏ_ａｓ＋）は、正解文を単語ごとに変換された特徴ベクトルを双方向の単語の並び順に基づいて生成した双方向ベクトル列２５（正解特徴ベクトル群）に基づいて、単語の並びを双方向に学習して生成される。また、不正解埋め込みベクトル（Ｏ_ａｃ−、Ｏ_ａｓ−）は、不正解文を単語ごとに変換された特徴ベクトルを双方向の単語の並び順に基づいて生成した双方向ベクトル列２６（不正解特徴ベクトル群）に基づいて、単語の並びを双方向に学習して生成される。

これにより、本実施形態による情報処理装置１は、正解文と不正解文とを用いて学習された学習結果に基づいて、回答文を生成するため、さらに違和感を低減した自然な文面の回答を生成することができる。

また、本実施形態では、学習結果は、複数の部分項目のうちの第１の部分項目（例えば、「結論」）に対応する正解埋め込みベクトル（Ｏ_ａｃ＋、Ｏ_ａｓ＋）及び不正解埋め込みベクトル（Ｏ_ａｃ−、Ｏ_ａｓ−）に基づいて、第１の部分項目と異なる第２の部分項目（例えば、「補足」）に対応する双方向ベクトル列２５及び双方向ベクトル列２６（不正解特徴ベクトル群）が更新されて学習される。すなわち、学習処理部１３２は、上述した式（３）を用いたアテンションメカニズムにより、双方向ベクトル列２５−２及び双方向ベクトル列２６−２の各双方向ベクトル（ｈ（ｔ））を更新させて学習する。
これにより、本実施形態による情報処理装置１は、部分項目の間の関連（例えば、部分項目のつながり）を最適化した学習を行うことができる。そのため、本実施形態による情報処理装置１は、部分項目を組み合わせて、より自然な回答文を生成することができる。

また、本実施形態による情報処理装置１は、学習情報に基づいて機械学習し、学習結果を生成する学習処理部１３２を備える。
これにより、本実施形態による情報処理装置１は、自装置で学習して学習結果を生成することができる。また、本実施形態による情報処理装置１は、例えば、再学習して、質問に対する回答を改善することができる。

また、本実施形態では、例えば、上記の式（５）に基づいて、損失関数Ｌｗが算出される。損失関数Ｌｗは、文字（単語）単位での学習と各部分項目の組み合わせとを同時に最適化するため、本実施形態による情報処理装置１は、回答文を生成するのに適切な部分項目を生成することができる。

なお、学習処理部１３２は、所定の条件（例えば、定期的、あるいは、評価値（例えば、ＲＯＵＧＥ）が所定の値以下に低下した、など）に基づいて、学習結果を再学習してもよい。
これにより、本実施形態による情報処理装置１は、時間の変化に対応して、質問に対する回答を改善することができる。

また、本実施形態による情報処理方法は、質問取得ステップと、回答生成ステップとを含む。質問取得ステップにおいて、質問取得部１３３が、入力された入力質問文を取得する。回答生成ステップにおいて、回答生成部１３４が、質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する正解文及び不正解文との組を複数有する学習情報に基づいて、機械学習された上述した学習結果に基づいて、質問取得ステップによって取得された入力質問文に対する回答文を生成する。
これにより、本実施形態による情報処理方法は、上述した情報処理装置１と同様の効果を奏し、質問に対して、違和感を低減した自然な文面の回答を生成することができる。

なお、本発明は、上記の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の実施形態において、情報処理装置１は、学習処理部１３２を備える例を説明したが、これに限定されるものではなく、学習結果を取得できる状態であれば、学習処理部１３２を備えなくてもよい。

また、情報処理装置１は、サービス記憶部１２１と、学習結果記憶部１２２とを備える例を説明したが、サービス記憶部１２１と、学習結果記憶部１２２とのいずれか一方又は両方を、例えば、外部のサーバ装置が備えるようにしてもよい。また、情報処理装置１は、制御部１３が備える機能部の一部を外部のサーバ装置が備えるようにしてもよい。
なお、上記の実施形態において、情報処理装置１は、１台のサーバ装置により構成される例を説明したが、複数の装置により構成されてもよい。

また、上記の実施形態において、情報処理装置１は、回答文を「結論」及び「補足」の２つの部分項目により構成する場合の一例を説明したが、これに限定されるものではなく、３つ以上の部分項目に対応させてもよい。
また、上記の実施形態の文単位学習モデルＭ１２において、情報処理装置１は、部分項目ごとにＱＡ−ＬＳＴＭ部２０を備える手法と、アテンションメカニズムによる手法とを適用する例を説明したが、これに限定されるものではない。情報処理装置１は、文単位学習モデルＭ１２において、例えば、これらの手法の一部を適用しない形態であってもよい。

また、上記の実施形態において、文単位学習モデルＭ１２の損失関数Ｌｓが、上述した式（４）により算出される例を説明したが、これに限定されるものではなく、以下の式（６）により算出されてもよい。

また、上記の実施形態の学習処理において、エンコーダデコーダモデルＭ１１の途中学習結果及び文脈ベクトル１０に基づいて再生成した回答文（例えば、結論回答文ａｃ２、補足回答文ａｓ２など）を文単位学習モデルＭ１２の入力情報とする例を説明したが、これに限定されるものではない。学習処理部１３２は、デコードの学習に利用した再生成する前の回答文を、文単位学習モデルＭ１２の入力情報とするようにしてもよい。

なお、上述した情報処理装置１が備える各構成は、内部に、コンピュータシステムを有している。そして、上述した情報処理装置１が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した情報処理装置１が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ−ＲＯＭ等の非一過性の記録媒体であってもよい。

また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に情報処理装置１が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

また、上述した機能の一部又は全部を、ＬＳＩ（Large Scale Integration）等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、又は汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１情報処理装置
２端末装置
１０文脈ベクトル
１１ＮＷ通信部
１２記憶部
１３制御部
２０、２０−１、２０−２ＱＡ−ＬＳＴＭ部
２１、２１−１、２１−２質問埋め込みベクトル生成部
２２、２２−１、２２−２正解埋め込みベクトル生成部
２３、２３−１、２３−２不正解埋め込みベクトル生成部
２４、２４−１、２４−２、２５、２５−１、２５−２、２６、２６−１、２６−２双方向ベクトル列
３０損失関数生成部
１００情報処理システム
１２１サービス記憶部
１２２学習結果記憶部
１３１サービス提供部
１３２学習処理部
１３３質問取得部
１３４回答生成部
Ｍ１学習モデル
Ｍ１１エンコーダデコーダモデル
Ｍ１２文単位学習モデル
Ｍ１１１エンコーダモデル
Ｍ１１２デコーダモデル
ＮＷ１ネットワーク

Claims

入力された入力質問文を取得する質問取得部と、
質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する既知の部分回答文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、前記質問取得部によって取得された前記入力質問文に対する回答文を生成する回答生成部と
を備え、
前記学習結果は、
前記質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトルを生成し、生成した前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記既知の部分回答文をデコードして学習するエンコーダデコーダモデルと、
前記エンコーダデコーダモデルに基づいてデコードされた前記複数の部分項目ごとの部分回答文と、前記質問文とを含む組情報を入力情報として、前記質問文を前記単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の前記単語の並び順に基づいて生成した質問特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された質問中間ベクトルと、前記複数の部分項目それぞれに対応した回答中間ベクトルであって、前記部分回答文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した回答特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された回答中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習する文単位学習モデルと、
を組み合わせて算出される損失関数により最適化されて学習される
ことを特徴とする情報処理装置。
前記文単位学習モデルは、前記エンコーダデコーダモデルの途中学習結果及び前記文脈ベクトルに基づいて生成した回答文を前記部分回答文とし、当該部分回答文と前記質問文とを含む組情報を前記入力情報として学習する
ことを特徴とする請求項１に記載の情報処理装置。
前記エンコーダデコーダモデルは、前記既知の部分回答文における単語ごとに関連するトピック情報に基づいて、前記既知の部分回答文をデコードして学習する
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記既知の回答文には、前記質問文に対する正解文と、不正解文とが含まれ、
前記回答生成部は、前記質問文と、前記複数の部分項目それぞれに対応する前記正解文及び前記不正解文との組を複数有する前記学習情報に基づいて機械学習された前記学習結果に基づいて、前記回答文を生成し、
前記エンコーダデコーダモデルは、前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記正解文及び前記不正解文をデコードして学習し、
前記文単位学習モデルは、前記質問中間ベクトルと、前記複数の部分項目それぞれに対応した正解中間ベクトルであって、前記正解文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した正解特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された正解中間ベクトルと、前記複数の部分項目それぞれに対応した不正解中間ベクトルであって、前記不正解文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した不正解特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された不正解中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習する
ことを特徴とする請求項１から請求項３のいずれか一項に記載の情報処理装置。
前記学習結果は、
前記複数の部分項目のうちの第１の部分項目に対応する前記正解中間ベクトル及び前記不正解中間ベクトルに基づいて、前記第１の部分項目と異なる第２の部分項目に対応する正解特徴ベクトル群及び不正解特徴ベクトル群が更新されて学習される
ことを特徴とする請求項４に記載の情報処理装置。
前記学習情報に基づいて機械学習し、前記学習結果を生成する学習処理部を備える
ことを特徴とする請求項１から請求項５のいずれか一項に記載の情報処理装置。
質問取得部が、入力された入力質問文を取得する質問取得ステップと、
回答生成部が、質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する既知の部分回答文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、前記質問取得ステップによって取得された前記入力質問文に対する回答文を生成する回答生成ステップと
を含み、
前記学習結果は、
前記質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトルを生成し、生成した前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記既知の部分回答文をデコードして学習するエンコーダデコーダモデルと、
前記エンコーダデコーダモデルに基づいてデコードされた前記複数の部分項目ごとの部分回答文と、前記質問文とを含む組情報を入力情報として、前記質問文を前記単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の前記単語の並び順に基づいて生成した質問特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された質問中間ベクトルと、前記複数の部分項目それぞれに対応した回答中間ベクトルであって、前記部分回答文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した回答特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された回答中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習する文単位学習モデルと、
を組み合わせて算出される損失関数により最適化されて学習される
ことを特徴とする情報処理方法。
コンピュータに、
入力された入力質問文を取得する質問取得ステップと、
質問文と、回答文において、予め定められた文章の筋道により分割される複数の部分項目それぞれに対応する既知の部分回答文との組を複数有する学習情報に基づいて機械学習された学習結果に基づいて、前記質問取得ステップによって取得された前記入力質問文に対する回答文を生成する回答生成ステップと
を実行させるためのプログラムであり、
前記学習結果は、
前記質問文を１単語ずつ順次単語の並び順に基づいてエンコードして文脈ベクトルを生成し、生成した前記文脈ベクトルに基づいて、前記複数の部分項目ごとの前記既知の部分回答文をデコードして学習するエンコーダデコーダモデルと、
前記エンコーダデコーダモデルに基づいてデコードされた前記複数の部分項目ごとの部分回答文と、前記質問文とを含む組情報を入力情報として、前記質問文を前記単語ごとに変換された特徴ベクトルを時系列の順方向及び逆方向の双方向の前記単語の並び順に基づいて生成した質問特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された質問中間ベクトルと、前記複数の部分項目それぞれに対応した回答中間ベクトルであって、前記部分回答文を単語ごとに変換された特徴ベクトルを前記双方向の前記単語の並び順に基づいて生成した回答特徴ベクトル群に基づいて、前記単語の並びを前記双方向に学習して生成された回答中間ベクトルと、の前記複数の部分項目の組合せに基づいて学習する文単位学習モデルと、
を組み合わせて算出される損失関数により最適化されて学習される
ことを特徴とするプログラム。