JP7232485B1

JP7232485B1 - 情報処理装置、情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP7232485B1
Application number: JP2022107202A
Authority: JP
Inventors: 晶季; 博史阿部
Original assignee: 株式会社ジョインポイントテック; ネブラ株式会社
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2023-03-03
Anticipated expiration: 2042-07-01
Also published as: JP2024006380A

Abstract

【課題】質問者の質問に対して適切な回答を提供する。【解決手段】情報処理装置１００は、質問の特徴及び回答に関する情報が格納されている質問回答データＤＢ２００を用いて一連の質問に対して回答を順次提供する。情報処理装置１００は、一連の質問のうち今回の質問に対応する第１文に基づいて第１文に関する特徴を抽出し、当該特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する回答決定部１３０を備える。回答決定部１３０は、第１文に関する特徴に基づいて今回の質問に対する回答が決定できない場合には、今回の質問よりも前の過去の質問に対する回答に対応する第２文と第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、これらの各特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する。【選択図】図２

Description

本発明は、質問者の質問に対して回答を提供する情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。

従来、質問者の質問に対して回答を提供する技術が存在する。例えば、人工知能を利用して質問に対する回答を自動で決定して出力する技術が提案されている（例えば、特許文献１参照）。

特表２０１９－５２８５１２号公報

上述した従来技術では、質問に対する回答を自動で決定することが可能であるが、質問の内容によっては適切な回答を決定することが困難であることも想定される。例えば、質問に対する回答を出力した後に「なんでですか？」等の追加質問が質問者から発せられた場合には、この追加質問の内容から適切な回答を決定することができないおそれがある。

本発明は、質問者の質問に対して適切な回答を提供することを目的とする。

本発明の一態様は、質問の特徴及び回答に関する情報が格納されているデータベースを用いて一連の質問に対して回答を順次提供する情報処理装置である。この情報処理装置は、一連の質問のうち今回の質問に対応する第１文に基づいて第１文に関する特徴を抽出し、当該特徴とデータベースとに基づいて今回の質問に対する回答を決定する決定部を備える。決定部は、第１文に関する特徴に基づいて今回の質問に対する回答が決定できない場合には、今回の質問よりも前の過去の質問に対する回答に対応する第２文と第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、これらの各特徴とデータベースとに基づいて今回の質問に対する回答を決定する。

本発明によれば、質問者の質問に対して適切な回答を提供することができる。

図１は、情報処理装置の使用する場合の使用例を簡略化して示す図である。図２は、情報処理装置の機能構成例を示すブロック図である。図３は、動画ＤＢに格納されている動画を模式的に示す図である。図４は、質問回答データＤＢに格納されている質問回答データの格納内容を簡略化して示す図である。図５は、ＡＩを用いた特徴を抽出する場合に用いられる特徴抽出器の構成例を示すブロック図である。図６は、入力文と特徴量との関係例を示す図である。図７は、質問回答データＤＢに格納されている質問回答データの格納内容を簡略化して示す図である。図８は、新たな質問から特徴量を抽出する抽出処理の一例を模式的に示す図である。図９は、新たな質問から特徴量を抽出する抽出処理の一例を模式的に示す図である。図１０は、情報処理装置における会話応答処理の一例を示すフローチャートである。図１１は、情報処理システムの機能構成例を示すブロック図である。図１２は、情報処理システムの機能構成例を示すブロック図である。

以下、添付図面を参照しながら本発明の実施形態について説明する。

［情報処理装置の使用例］
図１は、情報処理装置１００を使用する場合の使用例を簡略化して示す図である。情報処理装置１００は、質問者Ｕ１が発した質問に対して、予め用意された回答者Ｕ２の動画を再生する会話応答装置である。すなわち、予め用意された回答者Ｕ２の動画が表示部１４１に表示され、予め用意された回答者Ｕ２の動画に関連付けられた音声情報が音声出力部１４２から出力される。例えば、比較的大きな表示装置に回答者Ｕ２を等身大で表示することにより、回答者Ｕ２と会話している雰囲気を出すことが可能となる。

回答者Ｕ２の動画は、回答者Ｕ２を予め撮影して記録しておく。すなわち、本実施形態では、質問者Ｕ１からの質問に対する回答として、質問がされる毎に回答動画を画像処理技術により新たに生成することはせず、予め録画された回答動画の回答部分を再生することができる。ここで、例えば、画像処理により回答者Ｕ２の回答画像を新たに生成することも考えられる。しかし、画像処理により生成された回答者Ｕ２の回答画像は、ぎこちない表情となったり、ぎこちない回答となったりする可能性もある。これに対して、本実施形態では、予め撮影された回答者Ｕ２の回答動画を再生することが可能であるため、回答者Ｕ２がぎこちない表情となったり、回答者Ｕ２の回答がぎこちないものとなったりすることを防止することが可能となる。また、実際に撮影された回答者Ｕ２の回答動画を再生することにより、リアルな応答を実現することができる。

［情報処理装置の構成例］
図２は、情報処理装置１００の機能構成例を示すブロック図である。

情報処理装置１００は、入力部１１０と、音声認識部１２０と、回答決定部１３０と、回答応答部１４０と、質問回答データＤＢ２００と、動画ＤＢ３００とを備える。

入力部１１０は、質問者Ｕ１が発する音声をリアルタイムで受け付ける入力部である。例えば、入力部１１０としてマイク、音声認識専用入力デバイス等の音声入力装置を用いることができる。また、例えば、画像を取得可能なカメラ、音声を入力可能なマイク等で構成される入力装置、例えば撮像装置を用いてもよい。また、例えば、文字を入力可能な入力装置、例えばキーボードを用いてもよい。なお、図２では、情報処理装置１００に入力部１１０を設ける例を示すが、情報処理装置１００とは異なる別体の入力装置を入力部１１０として用いてもよい。すなわち、マイク等の入力装置を情報処理システムに予め登録しておくことにより情報処理装置１００の入力部として機能させることが可能である。情報処理装置１００とは異なる別体の入力装置を設ける例については、図１１に示す。

入力部１１０は、質問者Ｕ１の質問を受け付けると、その質問の音声情報を音声認識部１２０に出力する。なお、入力部１１０は、回答応答部１４０から回答動画が再生されている間（すなわち回答中）に質問者Ｕ１から質問（例えば追加質問）があった場合でもその質問を受け付ける。

音声認識部１２０は、入力部１１０から出力された音声情報に基づいて、質問者Ｕ１の質問の内容をテキストデータに変換するものであり、変換後のテキストデータを回答決定部１３０に出力する。なお、音声認識部１２０によるテキストデータへの変換方法については、公知の音声認識技術を採用することが可能である。例えば、ＡＰＩ（Application Programming Interface）を用いることができる。なお、音声認識部１２０は、例えば、ＣＰＵ（Central Processing Unit）等の処理回路により実現される。なお、文字を入力可能な入力装置を入力部１１０として用いる場合には、音声認識部１２０を省略することが可能である。なお、この場合に、入力部１１０は、文字入力により生成されたテキストデータを回答決定部１３０に直接出力する。

回答決定部１３０は、入力部１１０又は音声認識部１２０から出力されたテキストデータに基づいて、質問者Ｕ１の質問に対する回答を決定するものであり、その決定された回答に関する回答情報を回答応答部１４０に出力する。例えば、回答決定部１３０は、入力部１１０又は音声認識部１２０から出力されたテキストデータに基づいて、質問者Ｕ１の質問に関する特徴を抽出する。質問に関する特徴として、例えば、図４等に示すように、質問に含まれる単語等を抽出してもよく、図７等に示すように、数値化された特徴量を抽出してもよい。そして、回答決定部１３０は、抽出された質問の特徴と似ている質問を質問回答データＤＢ２００から抽出し、その抽出された質問に関連付けられている回答に関する回答情報を回答応答部１４０に出力する。このように、回答決定部１３０は、予め用意された質問回答データＤＢ２００から質問者Ｕ１の質問の特徴と似ている質問を探し出し、その探し出した質問に関連付けられている回答に関する回答情報を回答応答部１４０に出力する。なお、これらの質問の特徴の抽出処理、回答の決定処理については、図４乃至図９等を参照して詳細に説明する。回答決定部１３０は、例えば、ＣＰＵ等の処理回路により実現される。

回答応答部１４０は、質問者Ｕ１に対して、質問者Ｕ１の質問に対する回答動画を提供する出力部である。具体的には、回答応答部１４０は、回答決定部１３０から出力された回答情報に基づいて、動画ＤＢ３００における再生部分を抽出し、その抽出された動画を表示部１４１に表示させ、その動画に関連付けられている音声情報を音声出力部１４２から出力させる。このように、回答応答部１４０は、受け取った回答を再生する再生部として機能する。例えば、回答応答部１４０として画像及び音声を出力可能な表示ディスプレイ等の画像表示装置を用いることができる。また、例えば、画像及び音声のうちの少なくとも１つを出力可能な出力装置を用いてもよい。なお、図１、図２では、回答応答部１４０の一例として表示部１４１、音声出力部１４２を情報処理装置１００に設ける例を示すが、情報処理装置１００とは異なる別体の出力装置を回答応答部１４０として用いてもよい。情報処理装置１００とは異なる別体の出力装置を設ける例については、図１１に示す。

記憶部１５０は、各種情報を記憶する記憶媒体である。例えば、記憶部１５０には、音声認識部１２０、回答決定部１３０、回答応答部１４０が各種処理を行うために必要となる各種情報（例えば、制御プログラム、質問回答データＤＢ２００、動画ＤＢ３００）が記憶される。記憶部１５０として、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の各種記憶媒体を用いることができる。

質問回答データＤＢ２００は、予め用意された質問と回答との組合せを格納するデータベースである。なお、質問回答データＤＢ２００については、図４を参照して詳細に説明する。

動画ＤＢ３００は、予め用意された回答者Ｕ２の動画を格納するデータベースである。なお、動画ＤＢ３００に格納されている動画については、図３を参照して詳細に説明する。

［動画の構成例］
図３は、動画ＤＢ３００に格納されている動画３１０を模式的に示す図である。図３では、動画３１０の開始位置Ｓ１から終了位置Ｅ１までの再生時間の長さを左右方向に延びた矩形で示す。

動画ＤＢ３００に格納されている動画３１０については、動画の位置を指定することにより各部分からの再生が可能である。図３では、動画の位置Ｓ１１からＳ１２までの動画部分と、動画の位置Ｓ２１からＳ２２までの動画部分と、動画の位置Ｓ３１からＳ３２までの動画部分と、これらの各動画部分の画像の一部との関係を簡略化して示す。これらの各動画部分については、図４を参照して詳細に説明する。

例えば、回答応答部１４０は、動画の位置Ｓ１１からＳ１２までを指定する回答情報が回答決定部１３０から出力された場合には、動画の位置Ｓ１１からＳ１２までの動画部分を再生可能である。

［質問回答データＤＢの構成例］
図４は、質問回答データＤＢ２００に格納されている質問回答データの格納内容を簡略化して示す図である。

質問回答データＤＢ２００は、予め用意された回答者Ｕ２の動画３１０から、質問者Ｕ１からの質問に対する回答部分を抽出するための各種情報を格納するためのデータベースである。

具体的には、質問２０１と、回答２０２と、質問の特徴２０３と、回答動画の位置２０４とが関連付けて質問回答データＤＢ２００に格納される。

質問２０１は、想定される質問の内容を示す情報である。この質問については、回答者Ｕ２の動画３１０の内容に基づいて、情報処理装置１００側の管理者等が予め生成しておき、格納することが可能である。なお、人工知能（ＡＩ：Artificial Intelligent）等を用いて、回答者Ｕ２の動画３１０から質問を推定して格納してもよい。

回答２０２は、質問２０１に対して回答する内容を示す情報である。この回答については、回答者Ｕ２の動画３１０の内容に基づいて、情報処理装置１００側の管理者等が予め生成しておき、格納することが可能である。なお、人工知能等を用いて、回答者Ｕ２の動画３１０から回答を抽出して格納してもよい。

質問の特徴２０３は、質問２０１に対応する文について、特徴となる単語等を示す情報である。例えば、質問２０１「出身地はどこですか？」に対しては、「出身地」「どこ」の単語が特徴となる。この質問の特徴については、質問２０１の内容に基づいて、情報処理装置１００側の管理者等が予め生成しておき、格納することが可能である。なお、人工知能等を用いて、質問の特徴を抽出して格納してもよい。

回答動画の位置２０４は、動画ＤＢ３００に格納されている動画３１０における記録部分を示す情報である。例えば、質問２０１「出身地はどこですか？」に対応する回答動画の位置２０４「００：２３：４３－００：２４：１５」は、図３に示す動画の位置Ｓ１１からＳ１２までの動画部分に対応する。また、質問２０１「好きな食べ物は何ですか？」に対応する回答動画の位置２０４「０１：１９：０１－０１：１９：０６」は、図３に示す動画の位置Ｓ２１からＳ２２までの動画部分に対応する。また、質問２０１「なぜおむすびが好きなんですか？」に対応する回答動画の位置２０４「０１：１９：１２－０１：２０：１３」は、図３に示す動画の位置Ｓ３１からＳ３２までの動画部分に対応する。

［回答の抽出例］
次に、回答決定部１３０が、質問回答データＤＢ２００を用いて質問者Ｕ１の質問に対する回答を抽出する抽出方法について説明する。

ここでは、質問者Ｕ１が質問「好きな食べ物は何ですか？」を発した場合を例にして説明する。このように、質問者Ｕ１が質問「好きな食べ物は何ですか？」を発した場合には、入力部１１０は、音声「好きな食べ物は何ですか？」を取得して、音声情報「好きな食べ物は何ですか？」を音声認識部１２０に出力する。

音声認識部１２０は、入力部１１０から出力された音声情報「好きな食べ物は何ですか？」をテキストデータ「好きな食べ物は何ですか？」に変換し、テキストデータ「好きな食べ物は何ですか？」を回答決定部１３０に出力する。

回答決定部１３０は、音声認識部１２０から出力されたテキストデータ「好きな食べ物は何ですか？」に基づいて、質問の特徴を抽出する。この質問の特徴については、予め設定されている言葉、単語に基づいて抽出される。例えば、質問に対応する文に含まれる各単語が、その質問の特徴として抽出される。なお、文に含まれる単語の抽出方法については、公知の文章解析技術を用いることができる。

図４に示す例では、テキストデータ「好きな食べ物は何ですか？」を構成する各単語「好き、食べ物、なに」が特徴として抽出される。

次に、回答決定部１３０は、抽出された質問の特徴「好き、食べ物、なに」と同一又は似ている単語を、質問の特徴２０３から探し出す。図４に示す例では、点線の矩形２１１で示すように、抽出された質問の特徴「好き、食べ物、なに」と同一の特徴「好き、食べ物、なに」が、質問の特徴２０３に格納されている。このため、回答決定部１３０は、抽出された質問の特徴「好き、食べ物、なに」に対する回答として、回答２０２の「おむすびが好きです。」と、回答動画の位置２０４「０１：１９：０１－０１：１９：０６」を抽出する。

ここで、質問者Ｕ１の質問の特徴と同一又は似ている単語を、質問の特徴２０３から探し出す抽出処理について説明する。例えば、質問の特徴２０３に格納されている各単語の組合せのうちに、質問者Ｕ１の質問の特徴の全てが一致する各単語の組合せが存在する場合には、その全てが一致する各単語の組合せに対応する回答２０２及び回答動画の位置２０４が抽出される。また、例えば、質問の特徴２０３に格納されている各単語の組合せのうちに、質問者Ｕ１の質問の特徴の一部が一致する各単語の組合せが存在する場合には、その一部が一致する各単語の組合せに対応する回答２０２及び回答動画の位置２０４が抽出される。この場合には、所定の割合以上の単語が一致することを条件としてもよい。例えば、６０％以上の単語が一致することを条件とすることができる。例えば、質問者Ｕ１の質問の特徴が「好き、食べ物、ある」である場合には、質問の特徴２０３の「好き、食べ物、なに」のうち「好き、食べ物」が一致する。この場合には、６６％の単語が一致することになるため、質問の特徴２０３「好き、食べ物、なに」に対応する回答２０２及び回答動画の位置２０４が抽出される。なお、所定の割合以上の単語が一致する組合せが複数存在する場合には、その割合が最も高い組合せに対応する回答２０２及び回答動画の位置２０４が抽出される。このように、回答決定部１３０は、質問者Ｕ１の質問文に含まれる１又は複数の単語と、質問の特徴２０３に格納されている単語との一致度（又は類似度）に基づいて、今回の質問に対する回答を決定する。

一方、質問の特徴２０３に格納されている各単語の組合せのうちに、質問者Ｕ１の質問の特徴と一致する単語が存在しない場合、又は、質問者Ｕ１の質問の特徴の一部が一致するが、その一致が所定の割合未満である場合も想定される。この場合には、質問者Ｕ１の質問の特徴「好き、食べ物、なに」に対する回答が存在しないと判定される。このように、質問者Ｕ１の質問の特徴に対する回答が存在しない場合には、後述するように、今回の質問よりも前の回答を用いて、新たな質問を生成して回答を抽出することが可能である。

次に、回答決定部１３０は、抽出された回答２０２「おむすびが好きです。」と、回答動画の位置２０４「０１：１９：０１－０１：１９：０６」とを回答情報として回答応答部１４０に出力する。

回答応答部１４０は、回答決定部１３０から出力された回答２０２「おむすびが好きです。」と、回答動画の位置２０４「０１：１９：０１－０１：１９：０６」とに基づいて、質問者Ｕ１からの質問「好きな食べ物は何ですか？」に対する回答「おむすびが好きです。」を出力する。この場合に、回答応答部１４０は、動画ＤＢ３００に格納されている動画３１０に基づいて、音声出力部１４２からの音声情報「おむすびが好きです。」を出力してもよく、回答動画の位置２０４「０１：１９：０１－０１：１９：０６」に対応する動画部分を抽出して再生してもよい。このように、質問者Ｕ１からの質問「好きな食べ物は何ですか？」に対する回答「おむすびが好きです。」が出力される。

［話の文脈を考慮した会話例］
ここで、質問者Ｕ１からの質問「好きな食べ物は何ですか？」に対する回答「おむすびが好きです。」が出力されている間、又は、その出力直後に、質問者Ｕ１から新たな質問が発されることも想定される。例えば、回答応答部１４０が回答「おむすびが好きです。」を出力している間に、質問者Ｕ１が質問「なんでですか？」を発する場合を想定する。この場合に、回答決定部１３０は、質問「なんでですか？」から特徴「なんで」を抽出するものとする。また、質問の特徴２０３には、特徴「なんで」と同一又は似ている特徴が存在しないものとする。

このように、回答決定部１３０は、質問「なんでですか？」から抽出された質問の特徴「なんで」と同一又は似ている特徴が質問の特徴２０３に存在しない場合には、その質問「なんでですか？」よりも前に出力された回答を用いて新たな質問を生成する。具体的には、回答決定部１３０は、直前に出力された回答「おむすびが好きです。」と、今回の質問「なんでですか？」とを合成して、「おむすびが好きです。なんでですか？」を新たな質問として生成する。

このように、合成して生成された新たな質問「おむすびが好きです。なんでですか？」についても同様に、上述した特徴の抽出処理、回答の抽出処理が順次実行される。この例では、質問「おむすびが好きです。」の特徴として「おむすび、好き」が抽出されるものとする。

具体的には、回答決定部１３０は、テキストデータ「おむすびが好きです。なんでですか？」から特徴「おむすび、好き、なんで」を抽出する。また、回答決定部１３０は、抽出された質問の特徴「おむすび、好き、なんで」と同一又は似ている単語を、質問の特徴２０３から探し出す。図４に示す例では、点線の矩形２１２で示すように、抽出された質問の特徴「おむすび、好き、なんで」と似ている特徴「なぜ、おむすび、好き」が、質問の特徴２０３に格納されている。このため、回答決定部１３０は、抽出された質問の特徴「おむすび、好き、なんで」に対する回答として、回答２０２の「戦時中の物のない時代、配給のお米を少しずつ蓄えておいてお母さんが作ってくれたおむすびのことを思い出すからかなあ」と、回答動画の位置２０４「０１：１９：１２－０１：１９：１３」を抽出する。

次に、回答決定部１３０は、抽出された回答２０２「戦時中の物のない時代、配給のお米を少しずつ蓄えておいてお母さんが作ってくれたおむすびのことを思い出すからかなあ」と、回答動画の位置２０４「０１：１９：１２－０１：１９：１３」とを回答応答部１４０に出力する。なお、回答応答部１４０から出力方法については、上述した出力方法と同様である。

なお、前回の回答「おむすびが好きです。」と、今回の質問「なんでですか？」とを合成して生成された新たな質問「おむすびが好きです。なんでですか？」を用いて、上述した特徴の抽出処理、回答の抽出処理を実行しても、今回の質問に対する回答が抽出されないことも想定される。このような場合には、前回の回答と、前々回の回答と、今回の質問「なんでですか？」とを合成して新たな質問を生成し、この新たな質問を用いて、上述した特徴の抽出処理、回答の抽出処理を実行する。ただし、前回の回答と、前々回の回答と、今回の質問「なんでですか？」とを合成して生成された新たな質問を用いても、今回の質問に対する回答が抽出されないことも想定される。このような場合には、１回前の回答から３回前の回答までの各回答と、今回の質問「なんでですか？」とを合成して新たな質問を生成し、この新たな質問を用いて、上述した特徴の抽出処理、回答の抽出処理を実行する。すなわち、今回の質問に対する回答が抽出されるまで、１回前の回答からＮ回（ただし、Ｎは２以上の整数）前の回答までの各回答を合成して新たな質問を生成し、この新たな質問を用いて、上述した特徴の抽出処理、回答の抽出処理を実行する。

ただし、今回の質問を基準として、過去に遡りすぎると、今回の質問の内容とは大きく異なる内容の回答となることも想定される。そこで、閾値ＴＨ１を設定し、１回前の回答から閾値ＴＨ１回前の回答までの各回答を合成対象としてもよい。ここで、閾値ＴＨ１は、実験データ等で適宜設定可能な値である。例えば、閾値ＴＨ１として、２乃至５程度の値を採用することが可能である。なお、閾値ＴＨ１として、類似度が高い回答が継続している場合には、閾値ＴＨ１を高い値としてもよい。すなわち、合成対象となる回答の内容に応じて閾値ＴＨ１を可変とすることが可能である。なお、閾値ＴＨ１を用いる代わりに、合成して生成される新たな質問に対応する文の文字数を基準として、合成対象として過去に遡る回答を決定してもよい。例えば、合成して生成される新たな質問に対応する文の文字数が１００文字を超えたことを条件に、新たな質問の生成処理を中止してもよい。

ここで、例えば、質問者Ｕ１からの質問「好きな食べ物は何ですか」が発せられ、これに対する回答「おむすびが好きです。」が出力されている間に、質問者Ｕ１からの追加質問「なんでですか？」が発せられた場合を想定する。この場合には、従来の技術では、追加質問「なんでですか？」のみを用いて回答を決定するため、追加質問「なんでですか？」に対する適切な回答を生成することが困難であると想定される。すなわち、追加質問「なんでですか？」以外にも、回答の生成に用いることが可能な他の要素が必要となる。そこで、他の要素の入力を促すため、追加質問に対する回答として「質問内容が解りません。もう一度お願いします。」が出力されることが考えられる。

これに対して、本実施形態では、質問者Ｕ１からの追加質問「なんでですか？」が発せられた場合には、前回の回答「おむすびが好きです。」と、今回の質問「なんでですか？」とを合成して生成された新たな質問「おむすびが好きです。なんでですか？」を用いて回答することが可能である。このため、追加質問に対する回答として「戦時中の物のない時代、配給のお米を少しずつ蓄えておいてお母さんが作ってくれたおむすびのことを思い出すからかなあ」を出力することが可能となる。

また、近くのラーメン屋に関する会話をする場合を想定する。例えば、質問者Ｕ１からの質問「近所のラーメン屋を教えて」が発せられ、これに対する回答「近くに３件のラーメン屋があります。表示しますか？」が出力されている間に、質問者Ｕ１からの追加質問「一番人気はどこ？」が発せられた場合を想定する。この場合には、従来の技術では、追加質問「一番人気はどこ？」のみを用いて回答を決定するため、追加質問「一番人気はどこ？」に対する適切な回答を生成することが困難であると想定される。すなわち、追加質問「一番人気はどこ？」以外にも、回答の生成に用いることが可能な他の要素が必要となる。そこで、他の要素の入力を促すため、追加質問に対する回答として「質問内容が解りません。もう一度お願いします。」が出力されることが考えられる。

これに対して、本実施形態では、質問者Ｕ１からの追加質問「一番人気はどこ？」が発せられた場合には、前回の回答「近くに３件のラーメン屋があります。表示しますか？」と、今回の質問「一番人気はどこ？」とを合成して生成された新たな質問「近くに３件のラーメン屋があります。表示しますか？一番人気はどこ？」を用いて回答することが可能である。このため、追加質問に対する回答として「評価が高いのはＡ店ですが、一番近いのはＢのお店です。」を出力することが可能となる。

［ＡＩを用いた回答の抽出例］
以上では、質問者Ｕ１からの質問の特徴として、単語等を用いて特徴の抽出処理、回答の抽出処理を実行する例を示した。ここで、人工知能を用いて、質問者Ｕ１からの質問の特徴を抽出し、この特徴を用いて回答を抽出することも考えられる。そこで、以下では、ＡＩを用いる例を示す。

［ＡＩを用いた特徴の抽出例］
図５は、ＡＩを用いた特徴を抽出する場合に用いられる特徴抽出器１３１の構成例を示すブロック図である。特徴抽出器１３１は、回答決定部１３０に含まれるものとする。なお、本実施形態で示す学習は、多量のデータに基づいて、これらのデータの背後にある規則性を見出すことを意味するものとする。また、本実施形態で示す学習により生成される学習データは、各種の学習アルゴリズムにより生成される。

特徴抽出器１３１は、予め学習された学習データを用いて、入力された文１３５から特徴量１３６を抽出するものである。すなわち、特徴抽出器１３１は、質問者Ｕ１からの質問に対応する文に関する特徴量を抽出するものである。ここで示す特徴量は、質問の文をコンピュータが扱えるようにするため、質問の文を数値化したものである。この数値化を行う場合の代表的なものとして、単語の共起関係に着目した数値化を行うｗｏｒｄ２ｖｅｃ、ディープラーニング等を用いることができる。また、ｗｏｒｄ２ｖｅｃ、ディープラーニング等を用いて学習することにより、文の特徴が内包された数値を特徴量として取得可能となる。例えば、ｗｏｒｄ２ｖｅｃ、ディープラーニング等を用いて各種の文を予め学習して学習データを生成しておき、この学習データを特徴量の抽出に用いるようにする。例えば、食べ物に関する文、乗り物に関する文、感情に関する文等の各文を教師データとして読み込ませ、学習データを生成することが可能である。この学習データを用いて抽出される特徴量については、文に含まれる単語（又は単語が有する意味）が似ているものは、似た数値の特徴量となる性質がある。そこで、特徴抽出器１３１は、その性質を利用して文の特徴量を抽出する。このように、本実施形態では、ディープラーニング、ｗｏｒｄ２ｖｅｃ等によって予め学習された学習データを特徴量の抽出に用いることが可能である。

［入力文と特徴量との関係例］
図６は、入力文１６１と特徴量１６２との関係例を示す図である。例えば、入力文１６１として「リンゴは好きですか」が特徴抽出器１３１に入力された場合には、特徴量１６２として「０．９００．７０００．３」が出力される。

なお、図６では、説明を容易にするため、単純化した例として、１つの入力文１６１に対して６組の数値の組み合わせからなる特徴量１６２を抽出する例を示す。ただし、実際には、１つの入力文１６１に対して多数（例えば１０００組程度）の数値の組合せからなる特徴量１６２を抽出することになる。

このように抽出された特徴量には、何らかのカテゴリに関連する所定範囲の値（例えば０乃至１、－１乃至１）が含まれることになる。なお、図６乃至図９では、説明を容易にするため、０乃至１の値が抽出される例を示す。

図６に示す例では、１番目の数値は「食」に関連する数値を示し、２番目の数値は「乗物」に関連する数値を示し、３番目の数値は「感情」に関連する数値を示し、４番目の数値は「動作」に関連する数値を示し、５番目の数値は「場所」に関連する数値を示し、６番目の数値は「疑問」に関連する数値を示すものとする。なお、０に近い値になるほど関連性が低くなることを意味し、１に近い値になるほど関連性が高くなることを意味するものとする。

例えば、入力文「りんごは好きですか」の特徴量のうち、「食」に関連する数値は０．９であり、「感情」に関連する数値は０．７であるため、入力文「りんごは好きですか」は、食及び感情との関連性が高いものと推定可能である。また、入力文「りんごは好きですか」の特徴量のうち、「疑問」に関連する数値は０．３であるため、入力文「りんごは好きですか」は、疑問との関連性がある程度あるものと推定可能である。一方、入力文「りんごは好きですか」の特徴量のうち、「乗り物」、「動作」、「場所」に関連する各数値は０であるため、入力文「りんごは好きですか」は、乗り物、動作、場所との関連性はないと推定可能である。

なお、上述したように、実際には、１つの入力文１６１に対して多数（例えば１０００組程度）の数値の組合せからなる特徴量１６２が抽出されるため、これらの多数の数値の組合せについては人間が意味を読み取ることは困難である。ただし、各数値については、何らかの関連性を示すものとなる。

［質問回答データＤＢの構成例］
図７は、質問回答データＤＢ２００に格納されている質問回答データの格納内容を簡略化して示す図である。なお、図７に示す例では、図４の一部を変形したものであり、質問の特徴２０５が図４とは異なる。このため、質問の特徴２０５以外については、図４と同一の符号を付してこれらの説明を省略する。

質問回答データＤＢ２００は、質問２０１と、回答２０２と、質問の特徴２０５と、回答動画の位置２０４とが関連付けて質問回答データＤＢ２００に格納される。

質問の特徴２０５は、質問２０１に対応する文について抽出された特徴量を示す情報である。これらの特徴量については、上述したように、特徴抽出器１３１を用いて抽出が可能である。なお、回答２０２に関する特徴量を質問回答データＤＢ２００に保持してもよい。これにより、後述する、新たな質問の特徴量の抽出処理での演算量を削減することが可能となる。

ここでは、上述した例と同様に、質問者Ｕ１が質問「好きな食べ物はありますか？」を発した場合を例にして説明する。また、この場合の質問者Ｕ１の質問「好きな食べ物はありますか？」に対する入力部１１０による音声入力、音声認識部１２０によるテキストデータ「好きな食べ物はありますか？」への変換については、上述した各処理と同様である。

回答決定部１３０の特徴抽出器１３１は、音声認識部１２０から出力されたテキストデータ「好きな食べ物はありますか？」に基づいて、特徴量「０．６００．７０００．３９」を抽出する。

次に、回答決定部１３０は、抽出された特徴量「０．６００．７０００．３９」と同一又は数値が近い特徴量を、質問の特徴２０５から探し出す。図７に示す例では、点線の矩形２１３で示すように、抽出された特徴量「０．６００．７０００．３９」と数値が近い特徴量「０．６００．７０００．４」が、質問の特徴２０５に格納されている。このため、回答決定部１３０は、抽出された特徴量「０．６００．７０００．３９」に対する回答として、回答２０２の「おむすびが好きです。」と、回答動画の位置２０４「０１：１９：０１－０１：１９：０６」を抽出する。

ここで、質問者Ｕ１の質問の特徴量と同一又は数値が近い特徴量を、質問の特徴２０５から探し出す抽出処理について説明する。この抽出処理では、質問者Ｕ１の質問の特徴量と、質問の特徴２０５に格納されている各特徴量とが完全に一致する場合には、その完全に一致する特徴量が質問の特徴２０５から抽出される。一方、質問の特徴２０５に格納されている各特徴量のうちに、質問者Ｕ１の質問の特徴量と完全に一致するものが存在しない場合には、これらのうちの少なくとも一部が同一であり、他の値との差分値が所定値以内となる特徴量が質問の特徴２０５から抽出される。例えば、質問者Ｕ１の質問の６組の特徴量のうち、少なくとも４組の値が質問の特徴２０５の対応する値と同一であり、かつ、他の組の値と質問の特徴２０５の対応する値との差分値が所定値以内、例えば、０．１以内である場合に、似ていると判定される。例えば、上述した例では、質問者Ｕ１の質問の特徴量「０．６００．７０００．３９」と質問の特徴２０５「０．６００．７０００．４」とについて、最初の５列の各値が同一であり、最後の６列の値の差分値が０．０１である。このため、両者は似ていると判定される。

また、例えば、質問者Ｕ１の質問の６組の特徴量と、質問の特徴２０５の対応する値との差分値を列毎に順次算出し、これらの列毎の６組の差分値の合計を算出し、その列毎の６組の差分値の合計値が所定値以内、例えば、０．２以内である場合に、似ていると判定してもよい。例えば、上述した例では、質問者Ｕ１の質問の特徴量「０．６００．７０００．３９」と質問の特徴２０５「０．６００．７０００．４」とについて、最初の５列の各値が同一であるため、最初の５列の差分値の合計は０である。また、最後の６列の値の差分値が０．０１であるため、列毎の６組の差分値の合計は０．０１である。この場合には、両者は似ていると判定される。なお、質問の特徴２０５に格納されている各特徴量のうちに、似ていると判定される特徴量が複数存在する場合には、列毎の６組の差分値の合計値が最も小さい組合せに対応する回答２０２及び回答動画の位置２０４が抽出される。このように、回答決定部１３０は、質問者Ｕ１の質問文に関する特徴量と質問の特徴２０５に格納されている特徴量との一致度（又は類似度）に基づいて、今回の質問に対する回答を決定する。

次に、回答決定部１３０は、抽出された回答２０２「おむすびが好きです。」と、回答動画の位置２０４「０１：１９：０１－０１：１９：０６」とを回答応答部１４０に出力する。なお、回答応答部１４０から出力方法については、上述した出力方法と同様である。

［話の文脈を考慮した会話例］
ここで、質問者Ｕ１からの質問「好きな食べ物はありますか？」に対する回答「おむすびが好きです。」が出力されている間、又は、その出力直後に、質問者Ｕ１から新たな質問が発されることも想定される。例えば、回答応答部１４０が回答「おむすびが好きです。」を出力している間に、質問者Ｕ１が質問「なんでですか？」を発する場合を想定する。この場合に、回答決定部１３０は、質問「なんでですか？」から抽出された特徴量と同一又は数値が近い特徴量が質問の特徴２０５に存在しないものとする。

このように、回答決定部１３０は、質問「なんでですか？」から特徴量と同一又は数値が近い特徴量が、質問の特徴２０５に存在しない場合には、上述した例と同様に、その質問「なんでですか？」よりも前に出力された回答を用いて新たな質問を生成する。具体的には、回答決定部１３０は、直前に出力された回答「おむすびが好きです。」と、今回の質問「なんでですか？」とを合成して、「おむすびが好きです。なんでですか？」を新たな質問として生成する。

図８は、新たな質問から特徴量を抽出する抽出処理の一例を模式的に示す図である。図８（Ａ）に示すように、新たな質問「おむすびが好きです。なんでですか？」を構成する各文「おむすびが好きです。」「なんでですか？」の各特徴量について、各列の数値を加算して新たな質問「おむすびが好きです。なんでですか？」の特徴量を抽出する。図８（Ｂ）には、各列の数値を加算した加算結果を示す。

具体的には、点線の矩形１７１で示すように、特徴量の「食」に関する数値「０．８」と数値「０」とを加算して数値「０．８」を算出する。また、点線の矩形１７２で示すように、特徴量の「感情」に関する数値「０．７」と数値「０」とを加算して数値「０．７」を算出する。また、点線の矩形１７３で示すように、特徴量の「疑問」に関する数値「０」と数値「０．２９」とを加算して数値「０．２９」を算出する。なお、これら以外の各列については、特徴量に関する数値が「０」であるため、各列の加算値としてそれぞれ数値「０」が算出される。なお、各列の数値のうち、加算値が１を超える列が出ることも想定される。このように、加算値が１を超えた列については、その列の加算値を１に変換して用いるようにする。なお、特徴抽出器１３１を用いて新たな質問から特徴量を抽出してもよい。

次に、回答決定部１３０は、各列の数値が加算された特徴量「０．８００．７０００．２９」と同一又は数値が近い特徴量を、質問の特徴２０５から探し出す。図７に示す例では、点線の矩形２１４で示すように、各列の数値が加算された特徴量「０．８００．７０００．２９」と数値が近い特徴量「０．８００．７０００．３」が、質問の特徴２０５に格納されている。このため、回答決定部１３０は、各列の数値が加算された特徴量「０．８００．７０００．２９」に対する回答として、回答２０２の「戦時中の物のない時代、配給のお米を少しずつ蓄えておいてお母さんが作ってくれたおむすびのことを思い出すからかなあ」と、回答動画の位置２０４「０１：１９：１２－０１：２０：１３」を抽出する。

このように、合成して生成された新たな質問「おむすびが好きです。なんでですか？」を用いて、回答決定部１３０は、回答２０２「戦時中の物のない時代、配給のお米を少しずつ蓄えておいてお母さんが作ってくれたおむすびのことを思い出すからかなあ」と、回答動画の位置２０４「０１：１９：１２－０１：２０：１３」とを抽出することが可能となる。

次に、回答決定部１３０は、抽出された回答２０２「戦時中の物のない時代、配給のお米を少しずつ蓄えておいてお母さんが作ってくれたおむすびのことを思い出すからかなあ」と、回答動画の位置２０４「０１：１９：１２－０１：１９：１３」とを回答応答部１４０に出力する。これにより、質問者Ｕ１からの質問「なんでですか？」に対する回答「戦時中の物のない時代、配給のお米を少しずつ蓄えておいてお母さんが作ってくれたおむすびのことを思い出すからかなあ」が再生される。

なお、前回の回答「おむすびが好きです。」と、今回の質問「なんでですか？」とを合成して生成された新たな質問「おむすびが好きです。なんでですか？」を用いて、上述した特徴量の抽出処理、回答の抽出処理を実行しても、回答が抽出されないことも想定される。このような場合には、前回の回答と、前々回の回答と、今回の質問「なんでですか？」とを合成して新たな質問を生成し、この新たな質問を用いて、上述した特徴量の抽出処理、回答の抽出処理を実行する。以降も同様に、回答が抽出されない場合には、さらに1つ前の回答を順次用いて、上述した特徴量の抽出処理、回答の抽出処理を実行する。ただし、上述したように、閾値ＴＨ１、新たな質問に対応する文の文字数等を用いて、合成対象として過去に遡る回答を制限してもよい。

［特徴量の加算処理の変形例］
以上では、新たな質問を構成する各文の特徴量の各列を加算して、新たな質問の特徴量を算出する例を示した。ここで、時間軸において今回の質問を基準として今回の質問から遠い過去の回答は、今回の質問との関連性が低くなることも想定される。そこで、新たな質問の特徴量を算出する場合に、今回の質問から遠い過去の回答ほど影響度を小さくすることにより、直近の回答の特徴をより重視することが考えられる。そこで、以下では、今回の質問から遠い過去の回答ほど影響度を小さくして、新たな質問の特徴量を算出する例を示す。

図９は、新たな質問から特徴量を抽出する抽出処理の一例を模式的に示す図である。図９では、前回の回答と、前々回の回答と、今回の質問とを合成して新たな質問を生成する場合の特徴量の抽出処理の一例を示す。

図９（Ａ）に示すように、新たな質問「車にのります。おむすびが好きです。なんでですか」を構成する各文「車にのります。」「おむすびが好きです。」「なんでですか？」の各特徴量を用いて特徴量を抽出する。なお、「車にのります。」は前々回の回答であり、「おむすびが好きです。」は前回の回答であり、「なんでですか？」は今回の質問であるものとする。この場合に、今回の質問から遠い過去の回答ほど影響度を小さくして新たな質問の特徴量を算出する。具体的には、図９（Ｂ）に示すように、前回の回答には係数０．９を乗算し、前々回の回答には係数０．８を乗算して、乗算後の各列の数値を加算して新たな質問「車にのります。おむすびが好きです。なんでですか」の特徴量を抽出する。なお、ここで示す係数は一例であり、他の数値を用いてもよい。

具体的には、点線の矩形１８１で示すように、特徴量の「食」に関する前回の質問の数値「０．８」に係数０．９を乗算して数値「０．７２」を算出する。また、特徴量の「食」に関する他の数値は「０」であるため、特徴量の「食」に関する数値「０．７２」が算出される。また、点線の矩形１８２乃至１８５で示すように、他の特徴量についても同様に係数を用いて新たな質問の特徴量が算出される。図９（Ｃ）には、各列の数値を加算した加算結果を示す。

このように算出された新たな質問の特徴量については、『「おむすびが好き」＋「なんで」＋「車にのる」』ことを意味的に抱合するが、車に乗ることは若干小さく抱合することが可能となる。このように、新たな質問の特徴量を算出することにより、直近の回答を重視したより適切な質問を合成することが可能となる。図９に示す例では、「乗物に乗っているときには何を食べたいと思いますか」に対応した回答等を導き出せることが可能となる。

このように、回答決定部１３０は、第１回答（前回の回答）乃至第Ｎ回答（Ｎ回前の回答）（ただし、Ｎは２以上の整数）に関する各文に基づいて、当該各文に関する特徴量を算出する。そして、回答決定部１３０は、第１回答から第Ｎ回答に遡るのに応じて、当該各文に関する特徴量の影響度を低下させる。例えば、第１回答に関する特徴量を構成する各数値に係数０．９を乗算し、第２回答に関する特徴量を構成する各数値に係数０．８を乗算し、第３回答に関する特徴量を構成する各数値に係数０．７を乗算することにより、第１回答から第３回答に遡るのに応じて、当該各文に関する特徴量の影響度を低下させる。なお、第４回答以降の各文に関する特徴量を構成する各数値についても同様に所定の係数（０．７未満の値）を乗算することにより、当該各文に関する特徴量の影響度を低下させる。ただし、Ｎ回の閾値ＴＨ１が設定されている場合には、１回前の回答から閾値ＴＨ１回前の回答までの各回答を合成対象として用いる。

なお、この例では、第１回答乃至第Ｎ回答に関する特徴量のそれぞれに係数を乗算する例を示した。ここで、上述したように、各特徴量は、多数（例えば１０００組程度）の数値の組合せからなるため、各特徴量のそれぞれに係数を乗算する場合には、その演算処理の負荷が高くなることが想定される。そこで、演算処理の負荷を軽減させるため、第１回答に関する特徴量には係数を乗算せずに回答を決定する試みをしてもよい。そして、第１回答に関する特徴量を用いても今回の質問に対する決定ができない場合に、第２回答以降の各特徴量には係数を乗算して回答を決定する試みをする。なお、演算処理の負荷をさらに軽減させるため、第１回答及び第２回答に関する各特徴量には係数を乗算せずに回答を決定する試みをしてもよい。そして、第１回答及び第２回答に関する各特徴量を用いても今回の質問に対する決定ができない場合に、第３回答以降の特徴量には係数を乗算して回答を決定する試みをしてもよい。このように、第１回答（又は第１回答及び第２回答）に関する特徴量を用いても今回の質問に対する決定ができない場合に、第２回答以降（又は第３回答以降）の各特徴量の影響度を低下させて回答を決定する試みをすることも可能である。これにより、現在の質問に対する回答を適切に決定することができるとともに、その回答の決定処理に係る演算処理の負荷を軽減することが可能となる。

［情報処理装置の動作例］
図１０は、情報処理装置１００における会話応答処理の一例を示すフローチャートである。また、この会話応答処理は、記憶部１５０に記憶されているプログラムに基づいて実行される。また、この会話応答処理は、制御周期毎に常時実行される。また、この会話応答処理では、図１乃至図９を適宜参照して説明する。

ステップＳ５０１において、音声認識部１２０は、質問者Ｕ１から質問が発せられたか否かを判定する。質問者Ｕ１から質問が発せられた場合には、入力部１１０は、質問者Ｕ１から発せられた質問の音声を音声認識部１２０に出力し、ステップＳ５０２に進む。一方、質問者Ｕ１から質問が発せられていない場合には、継続して監視が行われる。

ステップＳ５０２において、音声認識部１２０は、入力部１１０から出力された質問の音声をテキストデータに変換する。

ステップＳ５０３において、回答決定部１３０は、音声認識部１２０から出力されたテキストデータに基づいて質問者Ｕ１の質問の文の特徴を抽出し、その特徴に基づいて質問者Ｕ１の質問に対する回答を決定する。上述したように、回答決定部１３０は、質問の文の特徴として単語を用いる場合には、質問者Ｕ１の質問の文に含まれる単語を特徴として抽出する。この場合には、質問者Ｕ１の質問の文から抽出された特徴（１又は複数の単語）を用いて、質問者Ｕ１の質問に対する回答を質問回答データＤＢ２００（図４参照）から抽出し、この抽出された回答を質問者Ｕ１の質問に対する回答として決定する。また、回答決定部１３０は、質問の文の特徴として数値化された特徴量を用いる場合には、質問者Ｕ１の質問の文から特徴量（図６参照）を抽出する。この場合には、質問者Ｕ１の質問の文から抽出された特徴量を用いて、質問者Ｕ１の質問に対する回答を質問回答データＤＢ２００（図７参照）から抽出し、この抽出された回答を質問者Ｕ１の質問に対する回答として決定する。なお、ステップＳ５０６で新たな質問が生成された場合には、回答決定部１３０は、その新たな質問を用いて、質問者Ｕ１の今回の質問に対する回答の決定を試みる。すなわち、回答決定部１３０は、その新たな質問に対する回答の抽出を試みて、その新たな質問に対する回答が抽出された場合には、その抽出された回答を質問者Ｕ１の今回の質問に対する回答として決定する。

ステップＳ５０４において、回答決定部１３０は、質問者Ｕ１の今回の質問に対する回答が質問回答データＤＢ２００から抽出できたか否かを判定する。今回の質問に対する回答が質問回答データＤＢ２００から抽出できた場合には、ステップＳ５０５に進む。一方、今回の質問に対する回答が質問回答データＤＢ２００から抽出できなかった場合には、ステップＳ５０６に進む。

ステップＳ５０５において、回答応答部１４０は、ステップＳ５０３で抽出された今回の質問に対する回答に対応する動画部分を再生する再生処理を実行する。

ステップＳ５０６において、回答決定部１３０は、今回の質問と前回の質問に対する回答とを合成して新たな質問を生成する。なお、この新たな質問に基づいて、今回の質問に対する回答が質問回答データＤＢ２００から抽出できなかった場合には、ステップＳ５０６の処理を繰り返すことになる。この場合には、今回の質問に対する回答が質問回答データＤＢ２００から抽出できるまで、１回前の回答からＮ回（ただし、Ｎは２以上の整数）前の回答までの各回答を順次合成して新たな質問を生成する。ただし、閾値ＴＨ１前の回答までの各回答を順次合成して新たな質問を生成しても、今回の質問に対する回答が質問回答データＤＢ２００から抽出できなかった場合には、質問者に対して異なる表現での新たな質問を促すようにしてもよい。

［情報処理システムの構成例］
以上では、音声認識処理、回答決定処理、回答応答処理等を情報処理装置１００において実行する例を示したが、それらの各処理の全部または一部を他の機器において実行してもよい。この場合には、それらの各処理の一部を実行する各機器により情報処理システムが構成される。例えば、サーバ、質問者Ｕ１が使用可能な機器（例えば、スマートフォン、タブレット端末、パーソナルコンピュータ）、インターネット等の所定のネットワークを介して接続可能なサーバ等の各種情報処理装置、各種電子機器を用いて各処理の少なくとも一部を実行させることができる。これらの例を図１１、図１２に示す。

また、情報処理装置１００の機能を実行可能な情報処理システムの一部（または全部）については、インターネット等の所定のネットワークを介して提供可能なアプリケーションにより提供されてもよい。このアプリケーションは、例えばＳａａＳ（Software as a Service）である。

図１１は、情報処理システム６００の機能構成例を示すブロック図である。

情報処理システム６００は、情報処理装置６１０、入力装置６２０、出力装置６３０、記憶装置６４０等により構成される。なお、入力装置６２０は、図２に示す入力部１１０に対応し、出力装置６３０は、図２に示す回答応答部１４０に対応し、記憶装置６４０は、図２に示す記憶部１５０に対応する。情報処理装置６１０における音声認識部１２０、回答決定部１３０は、図２に示す音声認識部１２０、回答決定部１３０に対応するため、これらと同一の符号を付して示す。ただし、図１１で示す回答決定部１３０は、決定された回答に関する回答情報に基づいて、動画ＤＢ３００から動画部分を抽出し、その動画部分を出力装置６３０に出力する再生処理を実行する。なお、この例では、１つの入力装置６２０、１つの出力装置６３０、１つの記憶装置６４０を情報処理装置６１０に接続する例を示すが、これらの機器として複数の機器を情報処理装置６１０に接続して用いてもよい。この場合に、複数の記憶装置６４０には、異なる回答動画を格納して用いてもよい。

図１２は、情報処理システム７００の機能構成例を示すブロック図である。

情報処理システム７００は、ネットワーク７０１、情報処理装置７１０、電子機器７２０、７３０等により構成される。例えば、情報処理装置７１０、電子機器７２０、７３０等がネットワーク７０１を介して接続される。なお、これらの各器機間の通信については、有線通信を利用した通信又は無線通信を利用した通信が行われる。また、これらの各器機間の通信については、ネットワーク７０１を経由した通信以外に機器間で直接通信するようにしてもよい。

ネットワーク７０１は、公衆回線網、インターネット等のネットワークである。また、情報処理システム７００を構成する各機器は、無線通信を利用した通信方式又は有線通信を利用した通信方式の何れかの方式、又は双方の方式によってネットワーク７０１に接続される。

情報処理装置７１０は、図２に示す情報処理装置１００に対応する。また、情報処理装置１００における各部は、図２に示す同一名所の各部に対応する。情報処理装置７１０は、例えば、各種情報を提供可能なサーバとすることが可能である。

通信部７１１は、有線通信又は無線通信の少なくとも１つを利用して、他の機器との間で各種情報のやりとりを行うものである。例えば、通信部７１１は、電子機器７２０、７３０からの質問に関する質問情報を受信する受信処理、その質問に対する回答に関する回答情報を電子機器７２０、７３０に送信する送信処理等を実行する。

電子機器７２０、７３０は、質問者Ｕ１、Ｕ３が所持する固定型又は携帯型の情報処理装置であり、例えばスマートフォン、タブレット端末、スマートウォッチ、パーソナルコンピュータ等の情報処理装置である。また、電子機器７２０、７３０は、情報処理装置７１０との間で有線通信又は無線通信が可能な機器とする。また、電子機器７２０、７３０は、情報処理装置７１０への質問に関する質問情報を送信する送信処理、その質問に対する回答に関する回答情報を情報処理装置７１０から受信する受信処理等を実行する。また、例えば、電子機器７２０、７３０は、その回答情報に基づいて、質問に対する回答を表示部７２１、７３１に表示したり、その回答を音声出力したりすることが可能である。

例えば、質問者Ｕ１は、電子機器７２０を用いて回答者Ｕ２に質問をして、回答者Ｕ２からの回答を電子機器７２０を用いて見たり聞いたりすることが可能である。また、例えば、質問者Ｕ３は、電子機器７３０を用いて回答者Ｕ２に質問をして、回答者Ｕ２からの回答を電子機器７３０を用いて見たり聞いたりすることが可能である。

なお、本実施形態では、質問方法としては、質問者Ｕ１が質問を音声で発する例を示したが、これに限定されない。例えば、質問者Ｕ１が質問をテキスト情報で入力してもよく、映像で入力してもよい。また、他の機器からの電文を、質問者Ｕ１からの質問として入力してもよい。

また、本実施形態では、情報処理装置１００からの応答方法として、動画３１０の回答部分を再生することにより、画像表示及び音声出力で出力する例を示したが、これに限定されない。例えば、動画３１０の回答部分を再生する場合に、画像表示とともに、音声に対応する文字を表示して出力してもよく、画像表示を省略して音声出力のみとしてもよい。また、例えば、質問者Ｕ１に対する回答をテキスト情報で出力（例えば、文字表示、音声出力）してもよい。また、質問者Ｕ１に対する回答を他の機器に電文として出力し、その機器において質問者Ｕ１に対する回答を出力させてもよい。

また、本実施形態では、情報処理装置１００、７１０等に１つの動画３１０を格納しておき、動画３１０の回答部分を再生する例を示したが、これに限定されない。例えば、情報処理装置１００、７１０等に複数の回答動画を格納しておき、質問者からの要求に応じて質問者が所望する回答動画を用いて、質問者からの質問に回答してもよい。また、本実施形態では、質問の特徴として、質問文の単語、特徴量を用いる例を示したが、これに限定されない。質問文から抽出可能な他の特徴を用いてもよい。

［本実施形態の効果］
このように、本実施形態によれば、質問者Ｕ１からの質問と、情報処理装置１００からの回答との会話の連続性に着目して、話の文脈を考慮した会話を実現することができる。具体的には、質問者Ｕ１からの質問のテキストと、予め用意した質問回答データＤＢ２００の質問とに基づいて、質問者Ｕ１からの質問の特徴と似ているものを探し出し、該当する回答部分の動画を再生する。また、回答再生中に入力部１１０からの入力を受付けることにより、回答途中でも質問者Ｕ１は質問をすることができる。これらにより、質問者Ｕ１は回答をさえぎって質問するような自然な会話をすることができる。すなわち、会話の文脈を考慮し、それまでの会話内容も考慮した応答ができる質問回答システムを実現することができる。

また、本実施形態では、質問者Ｕ１からの質問に対して、予め用意された回答者Ｕ２の回答動画から、質問の特徴を用いて回答を探し出し、その回答に対応する部分を再生する会話応答システムを実現することができる。

また、本実施形態では、今回の質問に関する特徴に基づいて今回の質問に対する回答が抽出できない場合には、前回の質問に対する回答に関する特徴と、今回の質問に関する特徴とを抽出し、これらの特徴を用いて質問に対する回答を抽出することができる。また、この特徴に基づいて今回の質問に対する回答が抽出できない場合には、さらに、今回の質問の１回前からＮ（ただし、Ｎは２以上の整数）回前までの各質問に対する回答に対応する各文に関する特徴と、今回の質問に関する特徴とを抽出し、これらの特徴を用いて質問に対する回答を抽出することができる。これにより、例えば「なんでですか？」等の追加質問が質問者Ｕ１から発せられたような場合でも、その追加質問の内容から適切な回答を抽出することが可能となる。例えば、回答再生中も入力部１１０の入力を受付けることにより回答途中でも質問者Ｕ１は質問することができる。この場合に、回答をさえぎって質問するような場合でも、その質問に対する適切な回答を出力することができるため、自然な会話を実現することができる。言い換えると、会話内容の前後関係を考慮した自然な応答ができる。

また、従来の質問回答システムでは、回答に対する追加質問をすると、正常に回答ができないおそれがあった。すなわち、従来の質問回答システムでは、１問１答での応答しかできないおそれがあった。これに対して、本実施形態では、回答に対する追加質問をした場合でも、適切に返答できるようになる。すなわち、それまでの回答に対するさらなる質問に答えることが可能となる。

また、従来の質問回答システムでは、膨大な質問回答データから学習された学習データを用いて回答を生成している。これに対して、本実施形態では、前回よりも前の回答に関する特徴を用いて今回の質問に対する回答を抽出することが可能であるため、少ない質問回答データから学習された学習データを用いて回答を生成できるようになる。すなわち、本実施形態では、少ないデータ量でも適切な回答を実現できる。

［本実施形態の構成例及びその効果］
情報処理装置１００は、質問の特徴及び回答に関する情報が格納されている質問回答データＤＢ２００（データベースの一例）を用いて一連の質問に対して回答を順次提供する情報処理装置である。情報処理装置１００は、一連の質問のうち今回の質問に対応する第１文に基づいて第１文に関する特徴を抽出し、当該特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する回答決定部１３０（決定部の一例）を備える。回答決定部１３０は、第１文に関する特徴に基づいて今回の質問に対する回答が決定できない場合には、今回の質問よりも前の過去の質問に対する回答に対応する第２文と第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、これらの各特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する。

この構成によれば、今回の質問に関する特徴を用いてこれに対する回答が決定できない場合でも、前の過去の質問に対する回答に関する特徴（第２文に関する特徴）を用いて、今回の質問に対する回答を決定することができる。これにより、例えば「なんでですか？」等の追加質問が質問者Ｕ１から発せられたような場合でも、その追加質問の内容から適切な回答を質問者Ｕ１に提供することが可能となる。すなわち、質問者Ｕ１の質問に対して適切な回答を提供することができる。

回答決定部１３０は、第１文（今回の質問に関する文）に関する特徴に基づいて今回の質問に対する回答が決定できない場合には、今回の質問の１回前の質問に対する回答（第１回答）に関する第２文と、その第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、これらの各特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答の決定を試みる。

この構成によれば、今回の質問に関する特徴を用いてこれに対する回答が決定できない場合でも、今回の質問の１回前の質問に対する回答（第１回答）に関する特徴（第２文に関する特徴）を用いて、今回の質問に対する回答を決定することができる。

回答決定部１３０は、今回の質問の１回前からＮ－１（ただし、Ｎは３以上の整数）回前までの各質問に対する回答である第１回答乃至第Ｎ－１回答に対応する各文と第１文（今回の質問に関する文）とを用いても今回の質問に対する回答が決定できない場合には、今回の質問の１回前からＮ回前までの各質問に対する回答（第１回答乃至第Ｎ回答）に対応する各文と、その第１文とに基づいて当該各文及び当該第１文に関する各特徴を抽出し、これらの各特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答の決定を試みる。

この構成によれば、今回の質問に関する特徴を用いてこれに対する回答が決定できない場合でも、今回の質問の１回前からＮ回前までの各質問に対する回答に関する各特徴を用いて、今回の質問に対する回答を決定することができる。

回答決定部１３０は、第１回答乃至第Ｎ回答に対応する各文に基づいて当該各文に関する特徴量を算出し、第１回答から第Ｎ回答に遡るのに応じて、当該各文に関する特徴量の影響度を低下させ、当該影響度を低下させた特徴量と質問回答データＤＢ２００とに基づいて今回の質問に対する回答の決定を試みる。

この構成によれば、第１回答から第Ｎ回答に遡るのに応じて影響度を低下させた特徴量を用いて、今回の質問に対する回答を決定することができる。なお、演算処理の負荷を軽減させるため、第１回答（又は第１回答及び第２回答）に関する特徴量には係数を乗算せずに回答を決定する試みをしてもよい。この場合には、第１回答（又は第１回答及び第２回答）に関する特徴量を用いても今回の質問に対する決定ができない場合に、第２回答以降（又は第３回答以降）の各特徴量には係数を乗算して回答を決定する試みをする。これにより、現在の質問に対する回答を適切に決定することができるとともに、その回答の決定処理に係る演算処理の負荷を軽減することが可能となる。

質問回答データＤＢ２００は、質問に含まれる１又は複数の単語と、その質問に対する回答に関する回答情報とが関連付けて格納されるデータベースである。回答決定部１３０は、第１文に含まれる１又は複数の単語を第１文に関する特徴として抽出し、その１又は複数の単語と質問回答データＤＢ２００に格納されている単語との一致度に基づいて、今回の質問に対する回答を決定する。

この構成によれば、今回の質問の文（第１文）に含まれる１又は複数の単語を特徴として用いて、今回の質問に対する回答を決定することができる。

質問回答データＤＢ２００は、質問に関する特徴量と、その質問に対する回答に関する回答情報とが関連付けて格納されるデータベースである。回答決定部１３０は、第１文に関する特徴量を第１文に関する特徴として抽出し、その特徴量と質問回答データＤＢ２００に格納されている特徴量との一致度に基づいて、今回の質問に対する回答を決定する。

この構成によれば、今回の質問の文（第１文）に関する特徴量を用いて、今回の質問に対する回答を決定することができる。

情報処理装置１００は、一連の質問に対する回答者Ｕ２からの回答が記録されている回答動画のうちから、回答決定部１３０により決定された回答に対応する部分を再生して出力させる回答応答部１４０をさらに備える。

この構成によれば、予め撮影された回答者Ｕ２の回答動画を再生することが可能であるため、回答者Ｕ２がぎこちない表情となったり、回答者Ｕ２の回答がぎこちないものとなったりすることを防止することが可能となる。また、実際に撮影された回答者Ｕ２の回答動画を再生することにより、リアルな応答を実現することができる。

情報処理システム６００は、質問の特徴及び回答に関する情報が格納されている質問回答データＤＢ２００を用いて一連の質問に対して回答を順次提供する情報処理システムである。情報処理システム６００は、質問者Ｕ１からの一連の質問を入力する入力装置６２０（入力部の一例）と、一連の質問のうち今回の質問に対応する第１文に基づいて第１文に関する特徴を抽出し、その特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する回答決定部１３０（決定部の一例）と、回答決定部１３０により決定された回答を出力させる出力装置６３０（出力部の一例）とを備える。回答決定部１３０は、第１文に関する特徴に基づいて今回の質問に対する回答が決定できない場合には、今回の質問よりも前の過去の質問に対する回答に対応する第２文と、その第１文とに基づいて第１文及び第２文に関する各特徴を抽出し、これらの各特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する。

この構成によれば、今回の質問に関する特徴を用いてこれに対する回答が決定できない場合でも、前の過去の質問に対する回答に関する特徴（第２文に関する特徴）を用いて、今回の質問に対する回答を決定することができる。すなわち、質問者Ｕ１の質問に対して適切な回答を提供することが可能な情報処理システム６００を実現することができる。

本実施形態に係る情報処理方法は、質問の特徴及び回答に関する情報が格納されている質問回答データＤＢ２００を用いて一連の質問に対して回答を順次提供する情報処理方法である。この情報処理方法は、一連の質問のうち今回の質問に対応する第１文に基づいて第１文に関する特徴を抽出し、その特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する決定処理（ステップＳ５０３、Ｓ５０４、Ｓ５０６）を含む。この決定処理（ステップＳ５０３、Ｓ５０４、Ｓ５０６）では、第１文に関する特徴に基づいて今回の質問に対する回答が決定できない場合には、今回の質問よりも前の過去の質問に対する回答に対応する第２文と、その第１文とに基づいて第１文及び第２文に関する各特徴を抽出し、これらの各特徴と質問回答データＤＢ２００とに基づいて今回の質問に対する回答を決定する。また、本実施形態に係るプログラムは、これらの各処理をコンピュータに実行させるプログラムである。言い換えると、本実施形態に係るプログラムは、情報処理装置１００が実行可能な各機能をコンピュータに実現させるプログラムである。

この構成によれば、今回の質問に関する特徴を用いてこれに対する回答が決定できない場合でも、前の過去の質問に対する回答に関する特徴（第２文に関する特徴）を用いて、今回の質問に対する回答を決定することができる。すなわち、質問者Ｕ１の質問に対して適切な回答を提供することが可能な情報処理方法及びプログラムを実現することができる。

なお、本実施形態で示した各処理手順は、本実施形態を実現するための一例を示したものであり、本実施形態を実現可能な範囲で各処理手順の一部の順序を入れ替えてもよく、各処理手順の一部を省略したり他の処理手順を追加したりしてもよい。

なお、本実施形態で示した各処理は、各処理手順をコンピュータに実行させるためのプログラムに基づいて実行されるものである。このため、本実施形態は、それらの各処理を実行する機能を実現するプログラム、そのプログラムを記憶する記録媒体の実施形態としても把握することができる。例えば、情報処理装置に新機能を追加するためのアップデート処理により、そのプログラムを情報処理装置の記憶装置に記憶させることができる。これにより、そのアップデートされた情報処理装置に本実施形態で示した各処理を実施させることが可能となる。

以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。

１００、６１０、７１０情報処理装置、１１０入力部、１２０音声認識部、１３０回答決定部、１４０回答応答部、１５０記憶部、２００質問回答データＤＢ、３００動画ＤＢ、４００情報処理システム、４１０ネットワーク、４３０、４４０電子機器、６００、７００情報処置システム、６２０入力装置、６３０出力装置、６４０記憶装置、７０１ネットワーク、７１１通信部、７２０、７３０電子機器

Claims

質問の特徴及び回答に関する情報が格納されているデータベースを用いて一連の質問に対して回答を順次提供する情報処理装置であって、
前記一連の質問のうち今回の質問に対応する第１文に基づいて前記第１文に関する特徴を抽出し、当該特徴と前記データベースとに基づいて前記今回の質問に対する回答を決定する決定部を備え、
前記決定部は、
前記第１文に関する特徴に基づいて前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前の質問に対する回答である第１回答に対応する第２文と前記第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試み、
前記今回の質問の１回前からＮ－１（ただし、Ｎは３以上の整数）回前までの各質問に対する回答である第１回答乃至第Ｎ－１回答に対応する各文と前記第１文とを用いても前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前からＮ回前までの各質問に対する回答である第１回答乃至第Ｎ回答に対応する各文と前記第１文とに基づいて当該各文及び当該第１文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試みる、
情報処理装置。
請求項１に記載の情報処理装置であって、
前記決定部は、前記第１回答乃至前記第Ｎ回答に対応する各文に基づいて当該各文に関する特徴量を算出し、前記第１回答から前記第Ｎ回答に遡るのに応じて、当該各文に関する特徴量の影響度を低下させ、当該影響度を低下させた特徴量と前記データベースとに基づいて前記今回の質問に対する回答の決定を試みる、
情報処理装置。
請求項１又は２に記載の情報処理装置であって、
前記データベースは、前記質問に含まれる１又は複数の単語と、当該質問に対する回答に関する回答情報とが関連付けて格納されるデータベースであり、
前記決定部は、前記第１文に含まれる１又は複数の単語を前記第１文に関する特徴として抽出し、当該１又は複数の単語と前記データベースに格納されている単語との一致度に基づいて、前記今回の質問に対する回答を決定する、
情報処理装置。
請求項１又は２に記載の情報処理装置であって、
前記データベースは、前記質問に関する特徴量と、当該質問に対する回答に関する回答情報とが関連付けて格納されるデータベースであり、
前記決定部は、前記第１文に関する特徴量を前記第１文に関する特徴として抽出し、当該特徴量と前記データベースに格納されている特徴量との一致度に基づいて、前記今回の質問に対する回答を決定する、
情報処理装置。
請求項１又は２に記載の情報処理装置であって、
前記一連の質問に対する回答者からの回答が記録されている回答動画のうちから、前記決定部により決定された回答に対応する部分を再生して出力させる回答応答部をさらに備える、
情報処理装置。
質問の特徴及び回答に関する情報が格納されているデータベースを用いて一連の質問に対して回答を順次提供する情報処理システムであって、
前記一連の質問を入力する入力部と、
前記一連の質問のうち今回の質問に対応する第１文に基づいて前記第１文に関する特徴を抽出し、当該特徴と前記データベースとに基づいて前記今回の質問に対する回答を決定する決定部と、
前記決定部により決定された回答を出力させる出力部とを備え、
前記決定部は、
前記第１文に関する特徴に基づいて前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前の質問に対する回答である第１回答に対応する第２文と前記第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試み、
前記今回の質問の１回前からＮ－１（ただし、Ｎは３以上の整数）回前までの各質問に対する回答である第１回答乃至第Ｎ－１回答に対応する各文と前記第１文とを用いても前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前からＮ回前までの各質問に対する回答である第１回答乃至第Ｎ回答に対応する各文と前記第１文とに基づいて当該各文及び当該第１文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試みる、
情報処理システム。
コンピュータにより実行され、質問の特徴及び回答に関する情報が格納されているデータベースを用いて一連の質問に対して回答を順次提供する情報処理方法であって、
前記一連の質問のうち今回の質問に対応する第１文に基づいて前記第１文に関する特徴を抽出し、当該特徴と前記データベースとに基づいて前記今回の質問に対する回答を決定する決定処理を含み、
前記決定処理では、
前記第１文に関する特徴に基づいて前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前の質問に対する回答である第１回答に対応する第２文と前記第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試み、
前記今回の質問の１回前からＮ－１（ただし、Ｎは３以上の整数）回前までの各質問に対する回答である第１回答乃至第Ｎ－１回答に対応する各文と前記第１文とを用いても前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前からＮ回前までの各質問に対する回答である第１回答乃至第Ｎ回答に対応する各文と前記第１文とに基づいて当該各文及び当該第１文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試みる、
情報処理方法。
質問の特徴及び回答に関する情報が格納されているデータベースを用いて一連の質問に対して回答を順次提供するコンピュータに実行させるためのプログラムであって、
前記一連の質問のうち今回の質問に対応する第１文に基づいて前記第１文に関する特徴を抽出し、当該特徴と前記データベースとに基づいて前記今回の質問に対する回答を決定する決定処理を前記コンピュータに実行させ、
前記決定処理では、
前記第１文に関する特徴に基づいて前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前の質問に対する回答である第１回答に対応する第２文と前記第１文とに基づいて当該第１文及び当該第２文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試み、
前記今回の質問の１回前からＮ－１（ただし、Ｎは３以上の整数）回前までの各質問に対する回答である第１回答乃至第Ｎ－１回答に対応する各文と前記第１文とを用いても前記今回の質問に対する回答が決定できない場合には、前記今回の質問の１回前からＮ回前までの各質問に対する回答である第１回答乃至第Ｎ回答に対応する各文と前記第１文とに基づいて当該各文及び当該第１文に関する各特徴を抽出し、当該各特徴と前記データベースとに基づいて前記今回の質問に対する回答の決定を試みる、
プログラム。