WO2020202862A1

WO2020202862A1 - 応答生成装置及び応答生成方法

Info

Publication number: WO2020202862A1
Application number: PCT/JP2020/006526
Authority: WO
Inventors: 早紀横山; 寿理八重田; 千明宮崎
Original assignee: ソニー株式会社
Priority date: 2019-03-29
Filing date: 2020-02-19
Publication date: 2020-10-08
Also published as: US20220172716A1

Abstract

本開示に係る応答生成装置は、ユーザに対する応答を生成する契機となる入力情報を取得する取得部と、入力情報のみに基づいてユーザに対する応答が生成できないと判定した場合に、入力情報に関連する関連情報を用いてユーザへの応答を生成する応答生成部と、を備える。例えば、取得部は、入力情報として、ユーザが発した音声情報を取得する。

Description

応答生成装置及び応答生成方法

　本開示は、応答生成装置及び応答生成方法に関する。詳しくは、情報機器を利用するユーザに対して出力される応答の生成処理に関する。

　スマートフォンやスマートスピーカーの普及に伴い、ユーザから受け付けた発話やユーザの行動等に反応してユーザに適切な応答を行うための対話システムが広く利用されている。対話システムでは、ユーザの音声を正確に認識し、適切な応答を行うことが求められる。

　例えば、ユーザに向けて出力されているコンテンツに対するユーザからの問い合わせに対して、コンテンツのジャンル等に応じて生成される応答の内容を生成する技術が知られている。

国際公開第２０１６／１５８００５号公報

　上記の従来技術によれば、ユーザがコンテンツを見ながらそのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することができる。

　しかしながら、従来技術は、コンテンツに関する情報に基づいて応答を生成したり、応答を出力するタイミングを決定したりするため、例えばコンテンツを視聴していないユーザの種々の発話に対して、頑健な対話処理を実現することができるとは限らない。

　そこで、本開示では、ユーザから入力された情報に対して頑健な対話処理を実現することができる応答生成装置及び応答生成方法を提案する。

　上記の課題を解決するために、本開示に係る一形態の応答生成装置は、ユーザに対する応答を生成する契機となる入力情報を取得する取得部と、前記入力情報のみに基づいて前記ユーザに対する応答が生成できないと判定した場合に、当該入力情報に関連する関連情報を用いて当該ユーザへの応答を生成する応答生成部と、を備える。

実施形態に係る情報処理の一例を示す図である。実施形態に係る応答生成システムの構成例を示す図である。実施形態に係るユーザ情報テーブルの一例を示す図である。実施形態に係る応答規則テーブルの一例を示す図である。実施形態に係るコンテンツテーブルの一例を示す図である。実施形態に係る応答生成処理の一例を概念的に示す図である。実施形態に係る処理の流れを示す第１のフローチャートである。応答生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．実施形態に係る情報処理の一例
　　　１－２．実施形態に係る応答生成システムの構成
　　　１－３．実施形態に係る情報処理の手順
　　　１－４．実施形態に係る変形例
　　　　１－４－１．ジェスチャー情報
　　　　１－４－２．起動ワード
　　　　１－４－３．応答生成に用いた情報の提供
　　　　１－４－４．優先度判定の例
　　　　１－４－５．対話履歴の利用
　　　　１－４－６．本開示の応答生成処理の適用
　　２．その他の実施形態
　　３．本開示に係る応答生成装置の効果
　　４．ハードウェア構成

（１．実施形態）
［１－１．実施形態に係る情報処理の一例］
　図１を用いて、実施形態に係る情報処理の一例を説明する。図１は、実施形態に係る情報処理の一例を示す図である。実施形態に係る情報処理は、図１に示す応答生成装置１０によって実行される。

　応答生成装置１０は、本開示に係る応答生成装置の一例である。応答生成装置１０は、ユーザとの対話を行う機器であり、音声認識や応答等の種々の情報処理を行う。応答生成装置１０が実行する音声認識及び音声による応答処理等は、エージェント（Agent）機能と称される場合がある。また、応答生成装置１０は、エージェント機器と称される場合がある。

　実施形態では、応答生成装置１０が、いわゆるスマートウォッチ（smart　watch）である例を示す。なお、応答生成装置１０は、音声出力を行うスピーカー部のみならず、映像等を出力する表示部（液晶ディスプレイ等）を備えてもよい。また、応答生成装置１０は、スマートフォンやタブレット端末、スマートスピーカー等であってもよい。この場合、スマートフォンやタブレット端末は、本開示の応答生成処理を実現するためのプログラム（アプリケーション）を実行することにより、本開示に係る応答生成装置１０として機能する。

　また、応答生成装置１０は、スマートウォッチやスマートフォン以外にも、眼鏡型端末などのウェアラブルデバイス（wearable　device）であってもよい。また、応答生成装置１０は、情報処理機能を有する種々のスマート機器により実現されてもよい。例えば、応答生成装置１０は、テレビやエアコン、冷蔵庫等のスマート家電や、自動車などのスマートビークル（Smart　vehicle）や、ドローン（drone）、家庭用ロボット等であってもよい。

　図１の例では、応答生成装置１０は、集音した音声やユーザの行動等、応答を生成するための契機となる情報（以下、「入力情報」と称する）に対する応答処理を実行する。例えば、応答生成装置１０は、ユーザが発した質問を認識し、質問に対する回答を音声出力したり、質問に関する情報を画面に表示したりする。なお、応答生成装置１０が実行する音声認識処理や出力処理等については、種々の既知の技術が利用されてもよい。

　ところで、エージェント機器が取得する入力情報は、必ずしも応答を生成するために充分な情報を含むとは限らない。例えば、ユーザは、日常会話と同様、エージェント機器に対する発話の一部を省略したり、物忘れ等によって適切な発話ができなかったりする場合がある。具体的には、ユーザが「アラームを設定して」とだけ発話しても、エージェント機器は、「何日の何時に」アラームを設定するかを認識することができない場合がある。この場合、エージェント機器は、「何時に設定しますか」のような聞き返しや、「依頼が理解できませんでした」のようなエラーを出力する。このため、ユーザは、エージェント機器と複数のやりとりを行うという、煩わしい処理を行うことを要する。また、このとき、ユーザが、「明日の」という発話を行ったとしても、エージェント機器によっては当該発話に関する動作命令が特定できず、さらにエラーが出力されるおそれもある。

　また、ユーザは、例えばエージェント機器に対する起動ワード（エージェント機能を起動させるための契機となる単語等）を忘れる可能性もある。このような場合、ユーザは、エージェント機器に対して何らかの発話を行っても、エージェント機器から応答を得られないことになる。

　すなわち、エージェント機器には、ユーザから入力される情報（発話等）に対して頑健な対話処理を実現するという課題が存在する。

　そこで、本開示に係る応答生成装置１０は、以下に説明する情報処理により、上記課題を解決する。具体的には、応答生成装置１０は、ユーザに対する応答を生成する契機となる入力情報を取得すると、入力情報のみに基づいてユーザに対する応答が生成可能か否かを判定する。言い換えれば、応答生成装置１０は、入力情報が不完全な依頼発話であるか否かを判定する。そして、応答生成装置１０は、入力情報のみに基づいてユーザに対する応答が生成できないと判定した場合に、入力情報に関連する関連情報を用いてユーザへの応答を生成する。なお、本開示において、不完全な依頼発話とは、例えば上記した「明日の」のような、その発話だけではユーザの意図が理解できず、複数の異なる応答が生成される可能性を含むものである。

　このように、応答生成装置１０は、ユーザの依頼が不完全であると判定した場合に、当該依頼に関連する情報を収集し、収集した情報に基づいて応答を生成する。これにより、応答生成装置１０は、ユーザから入力された情報が不完全である場合にも、「よく聞き取れませんでした」等の聞き返しの応答ではなく、可能な限り適切な応答を生成することができる。すなわち、応答生成装置１０は、ユーザから入力された情報に対して頑健な（ロバストな）対話処理を実現する。

　以下、図１を用いて、本開示に係る情報処理（応答生成処理）の一例の概要を説明する。

　図１に示すように、ユーザは、「電車・・・」と発話することにより、「電車」といった内容を含む音声Ａ０１を応答生成装置１０に入力する。

　応答生成装置１０は、音声Ａ０１を入力情報として、応答生成処理を開始する。例えば、応答生成装置１０は、音声Ａ０１を取得し、自動音声認識（ＡＳＲ（Automatic　Speech　Recognition））処理や自然言語理解（ＮＬＵ（Natural　Language　Understanding））処理等を経て、音声Ａ０１に対応する応答を生成する。例えば、応答生成装置１０は、音声Ａ０１にユーザからの質問の意図が含まれている場合、質問の意図を入力情報と認識し、質問の意図に対する回答を応答として生成する。

　実施形態では、応答生成装置１０は、音声Ａ０１に基づいて、音声Ａ０１が「電車」という文字列を含む内容であることを認識する。ここで、応答生成装置１０は、認識した「電車」という内容のみでは、ユーザの意図が理解できないと判定する。言い換えれば、応答生成装置１０は、音声Ａ０１が不完全な発話（依頼）であると判定する。

　例えば、応答生成装置１０は、ユーザに対する応答の内容を特定するための情報である動作命令を入力情報のみから判定できない場合に、ユーザの発話が不完全であると判定する。ユーザに対する応答の内容とは、応答の分野や応答の種別と読み替えてもよく、一般に対話処理における対話ドメイン（domain）等と称される。すなわち、応答生成装置１０は、ユーザからの依頼に対して、どのような動作を実行すべきか判定できない場合に、ユーザの発話が不完全であると判定する。具体的には、応答生成装置１０は、ユーザの依頼に対して、電車の運行情報を検索するか、天気予報を出力するか、特定の商品を購買するか、あるいはニュースを再生するか等、実行する動作が不明な場合、ユーザの発話が不完全であると判定する。

　あるいは、応答生成装置１０は、動作命令を入力情報のみから判定できた場合であっても、動作命令に対応した応答を生成するために用いられる情報である付属情報を入力情報のみから判定できない場合には、発話が不完全であると判定してもよい。付属情報とは、例えば、動作命令に対応する動作を応答生成装置１０が実行しようとする際に、当該動作の内容を特定するための情報である。例えば、ユーザが「アラームを設定して」とだけ発話した場合、「アラームを設定して」という動作命令に対して、「何日の何時に」といった、動作の内容を特定するための情報が付属情報に該当する。

　応答生成装置１０は、ユーザの発話が不完全発話であると判定した場合、入力された依頼に関連する情報である関連情報を収集する。

　関連情報とは、入力情報から推定される種々の情報である。例えば、関連情報は、入力情報に対応する文字列と関連したコンテンツの情報である。コンテンツとは、例えば、テレビ番組や映画、音楽、ゲーム等、広く流通するサービスや商品を含む。

　あるいは、関連情報は、応答生成装置１０が入力情報を取得した時点の状況を示す情報であるコンテキスト情報であってもよい。コンテキスト情報とは、例えば、依頼を発話したユーザに関する情報や、発話された日時や場所等、状況に関する種々の情報を含む。ユーザに関する情報とは、ユーザの年齢や性別、居住地、出身地等の属性情報や、ユーザが登録しているスケジュール情報等の種々の情報を含む。

　あるいは、関連情報は、入力情報が取得される以前のユーザとの対話履歴や、応答生成装置１０を介して利用したユーザのサービスの利用履歴等であってもよい。例えば、関連情報は、ユーザが過去に購買した商品の名称や、ユーザが頻繁に利用するサービスの種別や、ユーザのウェブサイトの検索履歴等の種々の情報を含んでもよい。

　応答生成装置１０は、収集した関連情報に基づいて、ユーザに対する応答を生成する。詳細は後述するが、応答生成装置１０は、収集した関連情報に基づいて、入力情報に対する総合判断を行い、現状に適したと判定される応答をユーザに対して出力する。

　例えば、応答生成装置１０が、過去のユーザとの対話において、ユーザが外出中であるというコンテキストにある場合、ユーザが「電車の乗換案内」というサービスを利用する頻度が高いという関連情報を参照したとする。さらに、応答生成装置１０は、現在のユーザのコンテキスト情報が「外出中」であることを参照する。ここで、応答生成装置１０は、ユーザの「電車」という単語を認識したことにより、ユーザが「電車の乗換案内」というサービスを利用することを所望している尤度が高いと判定する。

　これらの判定処理を経て、応答生成装置１０は、図１に示すように、音声ＵＩ（User　Interface）を起動し、「Ａ駅から自宅まで乗換案内をします」といった、「電車の乗換案内」に関する応答Ａ０２を生成し、ユーザに対して出力する。

　なお、応答生成装置１０は、関連情報に基づいて、複数の応答を生成してもよい。また、応答生成装置１０は、生成した複数の応答に順序を付与し、付与した順序とともにユーザに提示してもよい。

　例えば、応答生成装置１０は、ユーザが過去に「電車は行く」という曲名の音楽を再生した履歴があるという関連情報を参照したとする。この場合、応答生成装置１０は、「電車」という入力情報が、「電車は行く」という曲を再生することをユーザが所望している尤度が高いと判定する。また、応答生成装置１０は、ユーザが過去に「電車ＸＸＸ」という名称の動画を再生した履歴があるという関連情報を参照したとする。この場合、応答生成装置１０は、「電車」という入力情報が、「電車ＸＸＸ」という名称の動画を再生することをユーザが所望している尤度が高いと判定する。

　このような場合、応答生成装置１０は、例えば表示ＵＩを起動し、ディスプレイＡ０３に応答の候補である応答Ａ０４を表示する。例えば、ユーザは、応答Ａ０２が自身の所望する応答でなかった場合、応答Ａ０４のいずれかの内容を選択し、所望する応答を出力させることができる。

　このように、応答生成装置１０は、ユーザに対する応答を生成する契機となる入力情報を取得し、取得した入力情報のみに基づいてユーザに対する応答が生成できないと判定した場合に、入力情報に関連する関連情報を用いてユーザへの応答を生成する。これにより、応答生成装置１０は、入力情報が不完全である場合にもユーザへの応答を生成することができるため、頑健な対話処理を実現することができる。

　なお、図１の例では、入力情報が音声Ａ０１である例を示したが、応答生成装置１０は、音声以外にも、ユーザのジェスチャー等、ユーザの行動を検知した情報を入力情報として取得してもよい。

［１－２．実施形態に係る応答生成システムの構成］
　次に、応答生成装置１０を含む応答生成システム１の構成について説明する。図２は、実施形態に係る応答生成システム１の構成例を示す図である。

　図２に示すように、応答生成システム１は、応答生成装置１０と外部サーバ２００とを含む。応答生成装置１０及び外部サーバ２００は、図２に図示するネットワークＮ（例えば、インターネット）を介して、有線又は無線により通信可能に接続される。なお、図２での図示は省略するが、応答生成システム１は、複数台の応答生成装置１０や外部サーバ２００を含んでもよい。

　外部サーバ２００は、各種サービスを提供するサービスサーバである。例えば、外部サーバ２００は、応答生成装置１０の要求に従い、天気情報や交通情報等を応答生成装置１０に提供する。例えば、外部サーバ２００は、応答生成装置１０から天気情報の問合せが行われた場合、日時や場所に応じた天気情報を応答生成装置１０に返す。

　応答生成装置１０は、本開示に係る応答生成処理を実行する情報処理端末である。図２に示すように、応答生成装置１０は、センサ２０と、入力部２１と、通信部２２と、記憶部３０と、取得部４０と、応答生成部５０と、出力部６０とを有する。

　センサ２０は、各種情報を検知する。例えば、センサ２０は、ユーザが発話した音声を集音するマイクロフォンや、ユーザの行動を映像として取得するカメラを含む。

　また、センサ２０は、ユーザが応答生成装置１０に触れたことを検知するタッチセンサや、加速度センサやジャイロセンサ等を含んでもよい。また、センサ２０は、応答生成装置１０の現在位置を検知するセンサを含んでもよい。例えば、センサ２０は、ＧＰＳ（Global　Positioning　System）衛星から送出される電波を受信し、受信した電波に基づいて応答生成装置１０の現在位置を示す位置情報（例えば、緯度及び経度）を検知してもよい。

　また、センサ２０は、外部装置が発する電波を検知する電波センサや、電磁波を検知する電磁波センサ等を含んでもよい。また、センサ２０は、応答生成装置１０が置かれた環境を検知してもよい。具体的には、センサ２０は、応答生成装置１０の周囲の照度を検知する照度センサや、応答生成装置１０の周囲の光度を検知する光度センサや、応答生成装置１０の周囲の湿度を検知する湿度センサや、応答生成装置１０の所在位置における磁場を検知する地磁気センサ等を含んでもよい。

　入力部２１は、ユーザから各種操作を受け付けるためのデバイスである。例えば、入力部２１は、キーボードやマウス、タッチパネル等によって実現される。

　通信部２２は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部２２は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、外部サーバ２００等との間で情報の送受信を行う。

　記憶部３０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態では、記憶部３０は、例えば、ユーザ情報テーブル３１と、応答規則テーブル３２と、コンテンツテーブル３３とを有する。以下、各データテーブルについて順に説明する。

　ユーザ情報テーブル３１は、応答生成装置１０を利用するユーザに関する情報を記憶する。図３に、実施形態に係るユーザ情報テーブル３１の一例を示す。図３は、本開示の実施形態に係るユーザ情報テーブル３１の一例を示す図である。図３に示した例では、ユーザ情報テーブル３１は、「ユーザＩＤ」、「ユーザ属性情報」、「履歴情報」といった項目を有する。

　「ユーザＩＤ」は、ユーザを識別する識別情報を示す。「ユーザ属性情報」は、例えば応答生成装置１０の利用の際にユーザから登録された属性情報や、応答生成装置１０が画像認識や音声認識を用いて推定したユーザの属性情報を示す。図３に示した例では、ユーザ属性情報の項目を「Ｆ０１」のように概念的に記載しているが、実際には、ユーザ属性情報には、ユーザの年齢や性別、居住地、家族構成等の属性情報（ユーザプロファイル）が含まれる。また、ユーザ属性情報には、例えば、ユーザに視覚障碍があること等、出力する情報の種別を選択するために要する情報が含まれてもよい。例えば、ユーザ属性情報に視覚障碍があることが登録されている場合、応答生成装置１０は、通常であれば画面に表示される応答の内容を、音声に変換して出力してもよい。

　「履歴情報」は、ユーザによる応答生成装置１０の利用履歴を示す。図３に示した例では、履歴情報の項目を「Ｇ０１」のように概念的に記載しているが、実際には、履歴情報には、ユーザが応答生成装置１０に質問した内容や、聞き返しの履歴や、出力された応答の履歴等の各種情報が含まれる。また、履歴情報には、ユーザを音声で識別するための声紋情報や波形情報等が含まれてもよい。

　また、履歴情報には、応答生成装置１０を介してユーザが利用したサービスに関する情報が含まれてもよい。サービスに関する情報は、例えば、ユーザが利用したサービスの種別（交通情報サービスや、天気情報サービスや、ニュースサービス等の種別）や、サービスの利用回数、利用頻度等を含んでもよい。また、サービスに関する情報は、ショッピングサービスにおいてユーザが購買した商品の名称や、商品の購買回数や購買頻度や、音楽配信サービスや動画サービスでユーザが利用したコンテンツの名称や、コンテンツの再生回数や再生品等を含んでもよい。このように、履歴情報とは、ユーザが応答生成装置１０を利用した際に生じる、あらゆる情報を含んでもよい。

　すなわち、図３に示した例では、ユーザＩＤが「Ｕ０１」で識別されるユーザは、ユーザ属性情報が「Ｆ０１」であり、履歴情報が「Ｇ０１」であることを示している。

　次に、応答規則テーブル３２について説明する。応答規則テーブル３２は、応答生成装置１０に対する動作命令（すなわち、応答生成において応答生成装置１０が実行する動作）と、動作に関する付属情報とを対応付けて記憶する。

　図４に、実施形態に係る応答規則テーブル３２の一例を示す。図４は、本開示の実施形態に係る応答規則テーブル３２の一例を示す図である。図４に示した例では、応答規則テーブル３２は、「動作ＩＤ」、「動作内容」、「付属情報」といった項目を有する。

　「動作ＩＤ」は、動作を識別する識別情報を示す。「動作内容」は、応答生成装置１０が実行する動作の内容を示す。「付属情報」は、動作に関する応答を生成する際に用いられる情報であり、動作の対象を示す情報や、動作の内容をより詳細に規定するための情報等である。

　すなわち、図４に示した例では、動作ＩＤ「Ｈ０１」で識別される動作は、動作内容が「天気情報」であり、その付属情報は「日時」や「場所」であることを示している。

　なお、図４での図示は省略しているが、応答規則テーブル３２には、どのような入力情報に対してどのような動作が選択されるかといった、入力情報と動作命令との対応情報が記憶されてもよい。

　一般に、応答に関する動作は、入力情報に対する意味解析処理によって解析された要素に基づいて選択される。一例として、入力情報が「天気おしえて」という発話である場合、エージェント機器は、かかる発話を「CHECK-WEATHER」という要素と判定する。そして、「CHECK-WEATHER」という要素に対応する動作が「天気情報」であるという対応付けが行われている場合、エージェント機器は、かかる対応付け情報に基づいて、応答に関する動作を決定する。応答規則テーブル３２は、このような対応付け情報が保持してもよい。また、このような対応付け情報は、応答生成装置１０の管理者等によって、適宜、更新されてもよい。また、このような対応付け情報（応答規則）は、予め応答生成装置１０に設定されていてもよいし、ユーザが任意に設定してもよい。

　コンテンツテーブル３３は、関連情報の一例であるコンテンツ情報を記憶する。図５に、実施形態に係るコンテンツテーブル３３の一例を示す。図５は、本開示の実施形態に係るコンテンツテーブル３３の一例を示す図である。図５に示した例では、コンテンツテーブル３３は、「コンテンツＩＤ」、「種別」、「名称」といった項目を有する。

　「コンテンツＩＤ」は、コンテンツを識別する識別情報を示す。「種別」は、コンテンツの種別を示す。「名称」は、コンテンツの名称を示す。図５に示した例では、名称の項目を「Ｋ０１」のように概念的に記載しているが、実際には、名称の項目には、具体的なコンテンツの名称を示す文字列が記憶される。

　すなわち、図５に示した例では、コンテンツＩＤが「Ｊ０１」で識別されるコンテンツは、種別が「テレビ番組」であり、名称が「Ｋ０１」であることを示している。

　なお、図５での図示は省略しているが、コンテンツテーブル３３は、コンテンツの名称のみならず、コンテンツに関する種々の情報を記憶してもよい。例えば、コンテンツテーブル３３は、コンテンツの制作者や監督、出演者、制作された国や場所、コンテンツのジャンルや内容等を記憶してもよい。また、コンテンツテーブル３３は、各コンテンツの知名度や人気度等を記憶してもよい。コンテンツの知名度や人気度は、例えば、コンテンツの再生回数や、アクセス回数や、検索回数や、売上等の情報に基づいて算出される。また、コンテンツテーブル３３は、必ずしも応答生成装置１０が保持するのではなく、コンテンツに関する情報を記憶する各サーバ等が分散して保持してもよい。この場合、応答生成装置１０は、関連情報を収集するタイミングで、各サーバにアクセスしてコンテンツに関する情報を収集してもよい。

　図２に戻って説明を続ける。取得部４０及び応答生成部５０は、応答生成装置１０が実行する情報処理を実行する処理部である。取得部４０及び応答生成部５０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等によって、応答生成装置１０内部に記憶されたプログラム（例えば、本開示に係る応答生成処理を実行する応答生成プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、取得部４０及び応答生成部５０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　取得部４０は、各種情報を取得する処理部である。図２に示すように、取得部４０は、検知部４１と、登録部４２と、受信部４３とを含む。

　検知部４１は、センサ２０を介して、各種情報を検知する。例えば、検知部４１は、センサ２０の一例であるマイクロフォンを介して、ユーザが発話した音声を検知する。また、検知部４１は、カメラや加速度センサ、赤外線センサ等を介して、ユーザの顔情報、ユーザの身体の向き、傾き、動きや移動速度等、ユーザの動作に関する各種情報を検知してもよい。すなわち、検知部４１は、センサ２０を介して、位置情報、加速度、温度、重力、回転（角速度）、照度、地磁気、圧力、近接、湿度、回転ベクトルといった、種々の物理量をコンテキスト情報として検知してもよい。

　登録部４２は、入力部２１を介して、ユーザからの登録を受け付ける。例えば、登録部４２は、タッチパネルやキーボードを介して、応答生成装置１０を利用するユーザのユーザプロファイル（属性情報）の登録を受け付ける。

　また、登録部４２は、ユーザとの対話処理に利用する応答規則や、コンテンツに関する情報等の各種情報を記憶部３０に登録してもよい。例えば、登録部４２は、応答生成装置１０の対話処理を制御するクラウドサーバ等を介して、応答規則やコンテンツに関する情報を取得し、取得した情報を登録する。

　また、登録部４２は、ユーザのスケジュール等の登録を受け付けてもよい。例えば、登録部４２は、応答生成装置１０に組み込まれたアプリケーション機能を利用して、スケジュール登録をユーザから受け付ける。例えば、登録部４２は、ユーザとの対話を通じて、外出予定等のスケジュール情報を記憶部３０に登録する。

　受信部４３は、各種情報を受信する。例えば、受信部４３は、対話処理に用いる日時情報や、応答生成装置１０が所在する現在位置の位置情報等を外部サーバ２００等から受信する。また、受信部４３は、ユーザの属性情報やスケジュール情報が、応答生成装置１０ではなく外部サービス等に登録されている場合、外部サーバ２００から、ユーザの属性情報やスケジュール等を受信する。

　また、受信部４３は、通信に関するコンテキスト情報を受信してもよい。例えば、受信部４３は、応答生成装置１０と各種機器（ネットワーク上のサーバや、自宅内の家電等）との接続状況をコンテキスト情報として受信してもよい。各種機器との接続状況とは、例えば、相互通信が確立しているか否かを示す情報や、通信に利用している通信規格等である。

　取得部４０は、上記各処理部を制御することにより、各種情報を取得する。例えば、取得部４０は、ユーザに対する応答を生成する契機となる入力情報を取得する。

　例えば、取得部４０は、入力情報として、ユーザが発した音声情報を取得する。具体的には、取得部４０は、「電車」や「明日」などのユーザの発話を取得し、当該発話に含まれる文字列（テキスト情報）や、発話に含まれる何らかの意図を入力情報として取得する。なお、取得部４０は、ユーザの発話に限らず、ユーザが入力する文字列（テキストデータ）を取得してもよい。

　あるいは、取得部４０は、入力情報として、ユーザの行動を検知した検知情報を取得してもよい。検知情報とは、検知部４１がセンサ２０を介して検知した情報である。具体的には、検知情報とは、ユーザが応答生成装置１０のカメラを見たことを示す情報や、ユーザが自宅の部屋から玄関へ移動したことを示す情報、発話とともに行われるユーザのジェスチャー等、応答生成装置１０が応答を生成する契機となりうるユーザの行動である。

　例えば、取得部４０は、入力情報よりも過去にユーザから入力された情報、もしくは、過去にユーザに対して出力した応答の内容等を取得してもよい。すなわち、取得部４０は、ユーザとの過去の対話や、ユーザに対して生成した過去の応答の内容等を取得する。また、取得部４０は、対話処理を介してユーザが利用したサービスの利用履歴等を取得してもよい。

　また、取得部４０は、入力情報とともに、入力情報が入力された際のコンテキスト情報を取得してもよい。

　例えば、取得部４０は、ユーザが所在する場所、入力情報が応答生成装置１０に入力された日時、ユーザの属性情報等をコンテキスト情報として取得してもよい。

　また、取得部４０は、ユーザの傍に所在する他のユーザの人数や、所在地、所在地のカテゴリ（自宅や屋外等）、ユーザが乗車している乗り物（電車、地下鉄、新幹線、満員電車（混雑度）、自動車、船、飛行機）等の情報を取得してもよい。取得部４０は、例えば、ユーザが乗車している乗り物における暗騒音等を判定する音声認識モデル等を用いて、これらの情報を取得する。あるいは、取得部４０は、ユーザが利用する端末から取得される位置情報等に基づいてこれらの情報を取得してもよい。

　また、取得部４０は、ユーザ（発話者）の年齢や性別等の属性情報を取得してもよい。例えば、取得部４０は、ユーザによって予め登録されたユーザの属性情報を取得してもよい。取得部４０は、例えば、ユーザの性別や年齢、居住地等の情報を取得する。なお、取得部４０は、センサ２０に捉えた画像を認識することにより、ユーザの属性情報を取得してもよい。

　また、取得部４０は、ユーザの行動状態を取得してもよい。ユーザの行動状態とは、ユーザが立っているか座っているか、寝ているか、歩いているか走っているか、あるいは、電話をしているか他のユーザと話しているか等の状態を示す情報である。また、取得部４０は、ユーザの健康状態や、発話したユーザが応答生成装置１０に登録されたユーザであるか否かといった各種情報を取得してもよい。

　なお、上記で示したコンテキスト情報は一例であり、ユーザや応答生成装置１０が置かれた状況を示すあらゆる情報は、コンテキスト情報となりうる。例えば、取得部４０は、センサ２０を介して取得される、応答生成装置１０の位置情報、加速度、温度、重力、回転（角速度）、照度、地磁気、圧力、近接、湿度、回転ベクトルといった、種々の物理量をコンテキスト情報として取得してもよい。また、取得部４０は、内蔵する通信機能を利用して、各種装置との接続状況（例えば、通信の確立に関する情報や、利用している通信規格）などを、コンテキスト情報として取得してもよい。

　また、コンテキスト情報には、ユーザと他のユーザや、ユーザと応答生成装置１０とが交わしている対話に関する情報が含まれてもよい。例えば、コンテキスト情報には、ユーザが交わしている対話の文脈を示す対話文脈情報、対話のドメイン（天気、ニュース、電車運行情報等）、ユーザ発話の意図や属性情報等が含まれてもよい。

　また、コンテキスト情報には、対話が行われている際の日時情報が含まれてもよい。具体的には、日時情報とは、日付、時間、曜日、祝日特性（クリスマス等）、時間帯（朝、昼、夜、夜中）等の情報である。

　また、コンテキスト情報には、ユーザが所在する位置や状況等の情報が含まれてもよい。具体的には、ユーザが所在する位置を示す情報とは、ユーザが自宅内のリビングにいるか、寝室にいるか、子供部屋にいるかといった、ユーザの所在地を示した情報である。あるいは、ユーザが所在する位置を示す情報には、ユーザの外出先を示す具体的な場所の情報が含まれてもよい。

　また、取得部４０は、ユーザが行っている特定の家事の情報や、視聴しているテレビ番組の内容や、何を食べているかを示す情報や、特定の人物と会話をしていること等、ユーザの状況を示す種々の情報をコンテキスト情報として取得してもよい。

　また、取得部４０は、自宅内に置かれた家電（ＩｏＴ機器等）との相互通信により、どの家電がアクティブであるか否か（例えば、電源がオンであるかオフであるか）、どの家電がどのような処理を実行しているか、といった情報を取得してもよい。

　また、取得部４０は、外部サービスとの相互通信により、ユーザの生活圏における交通状況や気象情報等をコンテキスト情報として取得してもよい。取得部４０は、取得した各情報を記憶部３０に格納する。また、取得部４０は、記憶部３０を参照し、処理に要する情報を適宜取得してもよい。

　続いて、応答生成部５０について説明する。図２に示すように、応答生成部５０は、信号処理部５１と、音声認識部５２と、解析部５３と、応答部５４と、送信部５５とを含む。応答生成部５０は、上記各処理部を制御することにより、入力情報のみに基づいてユーザに対する応答が生成できないと判定した場合に、入力情報に関連する関連情報を用いてユーザへの応答を生成する。

　信号処理部５１は、ユーザの発話等の入力情報に関する信号処理を行う。具体的には、信号処理部５１は、ユーザから受け付けた音声を、後段の情報処理が実行可能な態様である音声信号に変換する。あるいは、信号処理部５１は、センサ２０が捉えた画像を、後段の情報処理が実行可能な態様であるデジタルデータに変換する。

　音声認識部５２は、信号処理部５１によって処理された信号を音声として認識する。例えば、音声認識部５２は、自動音声認識（ＡＳＲ）処理や自然言語理解（ＮＬＵ）処理を行い、応答生成装置１０における起動ワードを認識したり、発話と環境音との音源分離処理を行ったり、ノイズリダクション処理を行ったりする。

　解析部５３は、音声認識部５２によって認識された音声情報を解析する。例えば、解析部５３は、音声認識部５２によって認識された音声の意味を解析する。また、解析部５３は、音声認識部５２によって認識された音声が完全発話であるか不完全発話であるかの判定を行う。

　応答部５４は、解析部５３によって解析された情報に基づいて、入力情報に対して応答を生成する。例えば、応答部５４は、ユーザ情報テーブル３１や応答規則テーブル３２を参照し、入力情報に含まれる単語の意味や入力情報の解析結果に基づいて、入力情報に対応する応答を生成する。

　また、応答部５４は、解析部５３によって解析された入力情報の意味に応じて、入力情報に対する応答を生成する。このとき、応答部５４は、例えば、対話におけるフレーズ抽出やスロット分析等の種々の既知の技術を利用してもよい。

　送信部５５は、応答部５４によって生成された応答の出力を制御する。例えば、送信部５５は、応答部５４によって生成された文字列からなる応答を、音声データに変換する。あるいは、送信部５５は、応答部５４によって生成された画像情報を伴う応答を、画像データに変換する。そして、送信部５５は、変換したデータを出力部６０に送信する。また、送信部５５は、応答生成に用いた情報や応答に対するユーザの反応等の情報を、外部サーバ２００や各種サービスを提供する事業者等に送信してもよい。

　出力部６０は、種々の情報を出力するための機構である。例えば、出力部６０は、スピーカーやディスプレイである。例えば、出力部６０は、応答部５４によって生成された音声データを音声出力する。また、出力部６０は、応答部５４によって生成された画像データをディスプレイに出力する。なお、出力部６０は、応答部５４によって生成された音声データを文字認識してディスプレイに表示する等、種々の態様で応答を出力してもよい。

　応答生成部５０は、上記各処理部を制御することにより、入力情報に対応する応答を生成する。すなわち、応答生成部５０は、入力情報のみに基づいてユーザに対する応答が生成できないと判定した場合に、入力情報に関連する関連情報を用いてユーザへの応答を生成する。

　具体的には、応答生成部５０は、ユーザに対する応答の内容を特定するための情報である動作命令を入力情報のみから判定できない場合に、関連情報を用いてユーザへの応答を生成する。

　あるいは、応答生成部５０は、動作命令を入力情報のみから判定できた場合であって、動作命令に対応した応答を生成するために用いられる情報である付属情報を入力情報のみから判定できない場合に、関連情報を用いてユーザへの応答を生成してもよい。

　ここで、動作命令及び付属情報の判定処理について説明する。例えば、応答生成部５０は、ユーザの発話等の入力情報から、動作命令と付属情報とを応答が生成可能な程度に最低限抽出しているか否かという観点に基づき、完全発話と不完全発話とを区別する。

　応答生成部５０は、ユーザの発話が完全であると判定した場合、完全発話としての発話解析を行い、ユーザに対する応答を生成する。本開示において完全発話とは、少なくとも動作命令と付属情報とが応答生成可能な程度に最低限そろっている発話を指す。例えば、ユーザが「アラームを設定して」という発話を行った場合、応答生成部５０は、応答規則に基づき、動作命令を「アラームの設定」と判定する。また、応答生成部５０は、「アラームを設定して」という発話には付属情報が含まれていないと判定する。この場合、応答生成部５０は、ユーザの「アラームを設定して」という発話を不完全発話と判定する。

　なお、応答生成部５０は、発話に動作命令と付属情報がそろっていても、動作命令によっては、付属情報が存在する場合であっても不完全発話と判定する場合もある。例えば、ユーザが「明日の天気教えて」と発話した場合、応答生成部５０は、応答規則に基づき、動作命令を「天気情報」と判定する。また、応答生成部５０は、「明日の天気教えて」という発話に「明日」という「時間情報」が含まれていると判定する。しかし、応答生成部５０は、かかる発話には場所情報が含まれていないため、当該発話を不完全発話と判定する場合もある。なお、応答生成部５０は、例えば天気情報に関する初期設定等がユーザから行われている場合等には（例えば、天気情報の場所は常に「東京」とする、等の設定）、当該発話を完全発話と判定することもありうる。すなわち、付属情報には、動作の実行において任意又は補完可能な情報も含まれる。例えば、ユーザが「明日の天気教えて」と発話した場合、時間情報や場所情報は、必ずしも必要ではない、あるいは、ユーザの設定やコンテキスト情報から補完される情報である（例えば、「時間情報」を「今日」と、「場所情報」を「現在地」と補完可能である）。

　なお、応答生成部５０は、不完全発話を検知すると、ユーザに対して完全発話を促すような応答を行ってもよい。あるいは、応答生成部５０は、ユーザの発話に対して、不完全、完全両方の可能性があるとして、後段の意味解析処理等を行うことも可能である。

　以下では、応答生成部５０がユーザの発話を不完全発話と判定した場合に、関連情報に基づいて応答を生成する処理の類型について説明する。

　例えば、応答生成部５０は、ユーザの発話から動作命令の一部を抽出し、ユーザの所望の動作は認識したものの、具体的な動作の内容が不明であると判定する場合がある。仮に、応答生成部５０が、ユーザの発話のうち「削除」という文字列のみを認識し、その他の情報を認識していないとする。

　この場合、応答生成部５０は、関連情報として、動作の対象の候補を抽出する。例えば、応答生成部５０は、応答規則テーブル３２を参照し、「削除」に関連する動作命令を全て抽出する。具体的には、応答生成部５０は、「アラーム設定の削除」や、「スケジュール情報の削除」等、動作命令に「削除」が含まれる項目を抽出する。

　そして、応答生成部５０は、例えばユーザとの直近の対話履歴に基づいて、抽出した動作のうちユーザが所望する動作である尤度の高い動作内容を選択する。そして、応答生成部５０は、選択した動作内容に基づいて応答を生成する。例えば、応答生成部５０は、数分前にユーザからアラームの設定を受け付けていたものとする。この場合、応答生成部５０は、ユーザが直近の動作に関する命令を行う可能性が高いと判定し、「さきほど設定したアラームを削除します」のような応答をユーザに出力する。

　また、他の例として、応答生成部５０が、ユーザの発話のうち「再生して」という文字列のみを認識し、その他の情報を認識していないとする。

　この場合も、応答生成部５０は、関連情報として、動作の対象の候補を抽出する。例えば、応答生成部５０は、応答規則テーブル３２を参照し、「再生」に関連する動作命令を全て抽出する。具体的には、応答生成部５０は、「音楽の再生」や、「動画の再生」等、動作命令に「再生」が含まれる項目を抽出する。そして、応答生成部５０は、ユーザのこれまでの行動履歴（音楽より動画再生の回数の方が多いなど）に基づいて、ユーザが所望すると想定される動作に関する応答を生成する。

　あるいは、応答生成部５０が、ユーザの発話のうち「確認して」や「おしえて」という文字列のみを認識し、その他の情報を認識していないとする。この場合、応答生成部５０は、「CHECK」という概念が設定されている動作命令を全て抽出する。そして、応答生成部５０は、天気情報や交通情報など「CHECK」という概念が含まれるサービス等を候補として列挙する等の応答を生成する。

　なお、応答生成部５０は、例えばユーザの発話が疑問詞で始まる場合等にも、上記と同様に対応可能である。例えば、応答生成部５０が、ユーザの発話のうち「いつ」や「どこで」という文字列のみを認識し、その他の情報を認識していないとする。この場合、応答生成部５０は、動作において「when」や「Where」等の概念が含まれるサービス等を候補として列挙する等の応答を生成する。

　また、応答生成部５０は、ユーザの発話から付属情報のみ部分的に抽出できたものの、動作命令が不明であると判定する場合がある。

　この場合、応答生成部５０は、関連情報として、例えば、入力情報が取得された時点の状況を示す情報であるコンテキスト情報を用いてユーザへの応答を生成してもよい。

　具体的には、応答生成部５０は、コンテキスト情報として、ユーザの属性情報もしくは所在地情報を用いて、ユーザへの応答を生成する。

　仮に、応答生成部５０が、ユーザの発話のうち「明日の」という文字列のみを認識し、その他の情報を認識していないとする。この場合、応答生成部５０は、応答規則テーブル３２を参照し、日時情報が付属情報に含まれる動作内容を全て抽出する。例えば、図４に示した例では、動作内容として「天気情報」や「乗換案内」や「スケジュール情報」には、付属情報として「日時」が含まれる。応答生成部５０は、これらの動作内容を全て抽出する。

　そして、応答生成部５０は、ユーザとの過去の対話等に基づいて、ユーザが所望する尤度の高い動作内容を選択する。例えば、応答生成部５０は、直前にユーザが外出に関する会話等を行っていた場合、ユーザが「明日の天気情報を知りたい」という動作命令を行う可能性が高いと判定し、明日の「天気情報」を応答として生成する。あるいは、応答生成部５０は、応答の候補となりうる複数の動作命令をユーザに提示するような応答を生成してもよい。例えば、応答生成部５０は、「明日の天気を確認しますか、それとも、明日のスケジュールを確認しますか？」といった、動作命令を確定するための応答を生成してもよい。

　また、応答生成部５０は、ユーザの発話から動作命令や付属情報という明確な情報が抽出できない場合もある。

　このような場合、応答生成部５０は、関連情報として、入力情報に対応する文字列と関連したコンテンツの情報を用いて、ユーザへの応答を生成してもよい。

　具体的には、応答生成部５０は、コンテンツテーブル３３を参照し、入力情報に対応する文字列を含むコンテンツの名称に基づいてユーザへの応答を生成する。なお、応答生成部５０は、コンテンツの名称に限らず、コンテンツの制作者やコンテンツの内容等に基づいてユーザへの応答を生成してもよい。

　仮に、応答生成部５０が、ユーザの発話のうち「明日の」という文字列のみを認識し、その他の情報を認識していないとする。この場合、応答生成部５０は、コンテンツテーブル３３を参照し、「明日の」という文字列が含まれるコンテンツを全て抽出する。

　そして、応答生成部５０は、抽出されたコンテンツと、コンテンツに関連する動作とを組み合わせて、ユーザに対する応答を生成する。コンテンツに関連する動作とは、例えば、音楽の再生や動画の再生等である。すなわち、応答生成部５０は、「明日の」が含まれるタイトルを有する曲の再生や、「明日の」が含まれるタイトルを有する動画の再生等をユーザに対する応答として生成する。例えば、応答生成部５０は、図１に示したように、再生の候補となるコンテンツ名をユーザに提示してもよい。

　なお、応答生成部５０は、コンテンツの知名度等に基づいて、候補となるコンテンツを抽出してもよい。例えば、ユーザの発話とコンテンツの名称が一致したとしても、コンテンツの知名度が低い場合、その一致は偶然である蓋然性が高い。このため、応答生成部５０は、ユーザの知名度が所定の閾値以下である場合、ユーザの発話とコンテンツの名称が一致したとしても、コンテンツの再生等の動作を応答として生成しないといった処理を行ってもよい。

　また、応答生成部５０は、音声認識や画像認識によりユーザを特定可能な場合、当該ユーザの対話履歴を参照し、当該ユーザの発音や言い回しの癖に即した処理を行ってもよい。例えば、「明日の」の発話に関して、ユーザによって、日常的に「あした」と発話するか、「あす」と発話するかが異なる場合がある。この状況下で、応答生成部５０が、「明日の予定の変更」等を依頼する際にユーザが日常的に「明日」を「あした」と発話しているにも関わらず、当該ユーザが「あす」と発話したと認識したとする。この場合、応答生成部５０は、当該発話は「明日の予定の変更」等の意図ではなく、「あす」という文字列が含まれるコンテンツ（すなわち、何らかの固有名詞）である可能性が高いと判定する。そして、応答生成部５０は、「明日の予定の変更でしょうか」のような、「明日」を付属情報（日時情報）として利用する動作に関する応答ではなく、「「明日の（あすの）・・・」という曲を再生します」のような、「明日」を固有名詞として利用する動作に関する応答を生成する。このように、応答生成部５０は、ユーザの日常的な言い回し等の情報を用いることで、ユーザに対して適切な応答を総合的に判断して応答を生成することができる。

　また、応答生成部５０は、ユーザの発話から動作命令や付属情報という明確な情報が抽出できない場合、ユーザの行動履歴等に基づいて、動作命令や付属情報を推定してもよい。

　例えば、応答生成部５０は、コンテキスト情報として、ユーザのスケジュール情報を用いてユーザへの応答を生成してもよい。

　仮に、応答生成部５０が、ユーザの発話のうち「明日の」という文字列のみを認識し、その他の情報を認識していないとする。この場合、応答生成部５０は、ユーザ情報テーブル３１を参照し、ユーザのスケジュール情報（スケジュールの登録等）を取得する。また、応答生成部５０は、応答規則テーブル３２を参照し、動作命令のうち時間情報が含まれる動作命令を抽出する。

　応答生成部５０は、抽出した動作の候補のうち、ユーザが登録したスケジュール情報等に関係する動作をさらに抽出する。例えば、応答生成部５０は、ユーザが起動させたアプリケーションや外部サービスにおいて、明日の朝に駆動するアラーム設定を行っている場合、「アラームの設定の確認」や「アラームの削除」等の動作を抽出する。そして、応答生成部５０は、関係すると推定される動作の優先度を高く算出して、ユーザに動作を提示するような応答を生成する。具体的には、応答生成部５０は、「明日は７時にアラーム設定されています」や、「明日のアラーム設定を解除しますか」といった応答を生成する。このように、応答生成部５０は、ユーザのスケジュール情報を用いてユーザが所望する動作の優先度を判定することで、ユーザに対して適切な応答を総合的に判断して応答を生成することができる。

　また、応答生成部５０は、関連情報として、入力情報が取得される以前のユーザとの対話履歴を用いてユーザへの応答を生成してもよい。この場合、応答生成部５０は、音声認識や画像認識により発話を行ったユーザを特定するとともに、ユーザ情報テーブル３１を参照し、発話を行ったユーザの対話履歴を参照する。

　この場合、応答生成部５０は、対話履歴として、ユーザによるサービスの利用履歴を参照してもよい。すなわち、応答生成部５０は、入力情報が取得される以前のユーザのサービスの利用履歴を用いてユーザへの応答を生成してもよい。

　仮に、応答生成部５０が、ユーザの発話のうち「電車」という文字列のみを認識し、その他の情報を認識していないとする。この場合、応答生成部５０は、ユーザ情報テーブル３１を参照し、ユーザのサービスの利用履歴を参照する。また、応答生成部５０は、応答規則テーブル３２を参照し、動作命令のうち、乗り物等の対象が付属情報に含まれる動作命令（例えば、乗換案内等）を抽出する。

　例えば、ユーザのサービスの利用履歴のうち、発話を行ったユーザに、習慣的に朝の時間帯に乗換案内サービスを利用しているログがあるとする。この場合、応答生成部５０は、抽出した動作命令のうち、乗換案内を優先的に選択する。そして、応答生成部５０は、日時情報等のコンテキスト情報を参照し、現在の時間と、習慣的に検索されている路線とに基づいて、ユーザに対して乗換案内に関する応答を生成する。これにより、ユーザは、「電車」という断片的な情報のみで、乗換案内に関する応答を受け取ることができる。

　あるいは、ユーザのサービスの利用履歴のうち、発話を行ったユーザに、習慣的に電車が被写体である動画に関する動画配信サービスを利用しているログがあるとする。この場合、応答生成部５０は、抽出した動作命令のうち、動画再生を優先的に選択する。そして、応答生成部５０は、習慣的に再生されている動画に基づいて、ユーザに対して動画再生に関する応答を生成する。これにより、ユーザは、「電車」という断片的な情報のみで、動画再生を実行させることができる。

　このとき、応答生成部５０は、ユーザのコンテキスト情報に基づいて動作命令を選択してもよい。例えば、あるユーザは、外出中には乗換案内に係る動作命令を発話する傾向にあり、自宅では動画再生に係る動作命令を発話する傾向にあるものとする。この場合、応答生成部５０は、ユーザから「電車」という発話を受け付けた場合に、現在のユーザのコンテキスト情報に合わせて、乗換案内か動画再生かのいずれかの動作を行うようにしてもよい。

　また、応答生成部５０は、コンテキスト情報として、ユーザの所在地のみならず、周囲の環境を参照して動作命令を選択してもよい。例えば、ユーザが「出して」という発話のみを行った場合に、応答生成部５０が、上述した種々の情報から、ユーザが「動画再生」を所望していると判定したものとする。このとき、応答生成部５０は、カメラ等を用いてユーザの周囲の環境を参照し、ユーザの周囲に家族以外の人間が所在することを認識する。この場合、応答生成部５０は、ユーザの周囲に家族以外の人間が所在するため、すぐに動画再生を行うのではなく、「動画再生を行ってもよいでしょうか」等の問いかけの応答を生成してもよい。

　また、他の一例として、応答生成部５０は、サービスの利用履歴として、ユーザごとの購買履歴を参照してもよい。例えば、「明日の」という発話を行ったユーザに、「明日のＸＸＸ」という商品を購入したログが多数あるとする。この場合、応答生成部５０は、当該ユーザが再び「明日のＸＸＸ」という商品を購入することを所望すると判定し、「「明日のＸＸＸ」を注文しますか」といった応答を生成してもよい。

　上記のような例では、応答生成部５０は、発話を行ったユーザの属性を特定し、属性に合わせた処理を行ってもよい。例えば、ユーザが子どもであり、応答生成装置１０を介して購買が認められていないユーザであるとする。この場合、応答生成装置１０は、当該ユーザが「明日の」という発話を行ったとしても、この発話から「「明日のＸＸＸ」という商品を購入する」といった動作を発生させないようにする。例えば、応答生成装置１０は、購買以外の動作の候補（例えば、「明日の」を含む名称のコンテンツの再生等）をユーザに提示する。

　上記、応答生成部５０による種々の応答生成の例を示したが、応答生成部５０は、関連情報を用いてユーザへの応答を複数生成するとともに、優先順位を付けて複数の応答をユーザに提示してもよい。

　例えば、応答生成部５０は、ユーザに対して出力する応答の候補を総合判断し、その優先度をスコアリングする。そして、応答生成部５０は、上位Ｎ個（Ｎは任意の数）の応答をユーザに提示する。例えば、応答生成部５０は、図１に示したように、最上位の応答を音声出力し、残りの応答の候補をディスプレイに出力する等、種々の態様でユーザに応答を提示してもよい。

　また、上記の応答生成部５０による種々の応答生成において、応答生成部５０は、ユーザの反応に基づいて学習を行ってもよい。例えば、応答生成部５０は、「明日の」という発話のみから生成した応答に対して、ユーザが特に問題なくその応答との対話を続けていたとすると、その応答を「正例」と判定する。あるいは、応答生成部５０は、「明日の」という発話のみから生成した応答に対して、ユーザが拒否反応を示した場合（「いや、違うよ」や「そうじゃなくて」等、否定に関する発話をした場合等）、その応答を「負例」と判定する。そして、応答生成部５０は、当該応答に対して算出したスコア（優先度）が高く、あるいは低くなるよう学習する。これにより、応答生成部５０は、ユーザとの対話を重ねるにつれ、当該ユーザが所望する動作を正確に推定することができるようになる。

　なお、上記の応答生成部５０による種々の応答生成として、記憶部３０に記憶された各データテーブルに基づくルールベースの処理を示したが、応答生成部５０による応答生成処理は、End-to-Endの処理で実行されてもよい。

　この点について、図６を用いて説明する。図６は、実施形態に係る応答生成処理の一例を概念的に示す図である。図６の例では、応答生成部５０は、ＤＮＮ（Deep　Neural　Network）等により学習された学習済みモデル７０を利用して応答を生成する。

　例えば、学習済みモデル７０は、ユーザの発話とともに、発話が行われた日時や場所等のコンテキスト情報や、ユーザの属性情報や、ユーザとの対話履歴や行動履歴等を入力とし、その発話に対する応答を正例もしくは負例として学習される。なお、学習データは、予め正例や負例がラベル付けされたデータを用いてもよいし、ユーザからの反応に基づいて正例や負例を適宜判定されるものでもよい。

　応答生成部５０は、上記の学習処理で学習された学習済みモデル７０を用いて応答生成処理を行う。例えば、応答生成部５０は、ユーザの発話を取得した場合、発話とともに、日時や場所等のコンテキスト情報や、ユーザの属性情報や、ユーザとの対話履歴や行動履歴等を学習済みモデル７０に入力する。そして、応答生成部５０は、学習済みモデル７０によって生成されたユーザへの応答を出力する。このように、応答生成部５０は、ルールベースによらず、End-to-Endの処理でユーザへの応答を生成してもよい。

［１－３．実施形態に係る情報処理の手順］
　次に、図７を用いて、実施形態に係る情報処理の手順について説明する。図７は、実施形態に係る処理の流れを示すフローチャートである。

　図７に示すように、応答生成装置１０は、ユーザから取得した発話が完全か否かを判定する（ステップＳ１０１）。発話が完全でない場合（ステップＳ１０１；Ｎｏ）、応答生成装置１０は、以下に説明するように、不完全発話に対する各処理を実行する。

　例えば、応答生成装置１０は、発話とコンテンツとのマッチングを確認する（ステップＳ１０２）。例えば、応答生成装置１０は、発話に含まれる文字列を含むコンテンツを列挙するとともに、これらコンテンツに関係する動作命令や付属情報等を抽出する。

　また、応答生成装置１０は、発話内の付属情報を確認する（ステップＳ１０３）。例えば、応答生成装置１０は、「明日」など、ユーザの発話のみでは動作命令が特定できないものの、動作の付属情報になりうる情報を確認する。

　続けて、応答生成装置１０は、付属情報に関連する動作を抽出する（ステップＳ１０４）。例えば、応答生成装置１０は、「明日」という日時情報を付属情報とする動作を抽出する。

　また、応答生成装置１０は、ユーザとの対話履歴とのマッチングを確認する（ステップＳ１０５）。例えば、応答生成装置１０は、「明日」という発話に基づいて、対話処理において過去にユーザが購買した「明日」という文字列を含む商品との照合を行う。そして、応答生成装置１０は、「明日」という文字列を含む商品を過去にユーザが購買したというログに基づいて、発話したユーザが所望する動作として「購買」を抽出するといった処理を行う。

　応答生成装置１０は、ステップＳ１０２～ステップＳ１０５等の処理を経て、発話に対する応答を総合判定する（ステップＳ１０６）。例えば、応答生成装置１０は、抽出した動作の各々の優先度（スコア）に基づいて、「不完全発話においてユーザが所望していたと推定される動作」を決定する。

　なお、応答生成装置１０は、発話が完全であった場合（ステップＳ１０１；Ｙｅｓ）、ステップＳ１０２等の処理をスキップして、完全発話を解析する（ステップＳ１０７）。なお、応答生成装置１０は、発話が完全である場合にも処理をスキップせず、ステップＳ１０２～ステップＳ１０５等の処理を実行してもよい。

　そして、応答生成装置１０は、推定した動作等に基づいて、ユーザに対する応答が生成可能か否かを判定する（ステップＳ１０８）。例えば、応答生成装置１０は、推定した動作等に基づいて応答が生成可能であれば（ステップＳ１０８；Ｙｅｓ）、応答を生成し、生成した応答をユーザに対して出力する（ステップＳ１０９）。一方、推定した動作等に基づいて応答が生成可能でない場合（ステップＳ１０８；Ｎｏ）、例えば動作を推定したとしても付属情報等が不足していて適切な応答が生成できないと判定した場合、応答生成装置１０は、聞き返しもしくはエラーを出力する（ステップＳ１１０）。

　その後、応答生成装置１０は、ユーザに対して出力した応答（あるいは聞き返し等の対応）が正しいものであったか否かを判定する（ステップＳ１１１）。例えば、応答生成装置１０は、ユーザが応答を受けいれた等、応答が正しかったと判定される場合（ステップＳ１１１；Ｙｅｓ）、当該応答を正例として学習する（ステップＳ１１２）。一方、応答生成装置１０は、ユーザが応答を拒否したり再度の依頼発話を行ったりした等、応答が正しくなかったと判定される場合（ステップＳ１１１；Ｎｏ）、当該応答を負例として学習する（ステップＳ１１３）。

［１－４．実施形態に係る変形例］
　上記で説明した実施形態に係る応答生成処理は、様々な変形を伴ってもよい。以下に、実施形態の変形例について説明する。

［１－４－１．ジェスチャー情報］
　上記実施形態では、応答生成装置１０は、入力情報としてユーザの発話を取得する例を示した。このとき、応答生成装置１０は、ユーザの発話の関連情報として、ユーザの動きや身振り手振り等のジェスチャーに関する情報を取得してもよい。

　また、応答生成装置１０は、取得したジェスチャーと発話とを組み合わせて、ユーザに対する応答を生成してもよい。仮に、応答生成装置１０が、ユーザの発話のうち「しずかに」という文字列を認識したものとする。この場合、応答生成装置１０は、ユーザが、例えば「しずか」という名称の人物にメールを送信したり電話をかけたりしようとしているのか、あるいは、応答生成装置１０が再生している曲の音量を下げようとしているのか、動作を特定できない場合がある。

　ここで、応答生成装置１０は、ユーザの発話とともに、ユーザが人差し指を口にあてているというジェスチャーを検知したとする。この場合、応答生成装置１０は、検知したジェスチャーの画像認識結果から、ユーザのジェスチャーに「何らかの音を抑えようとする意図」が含まれる、と解析する。応答生成装置１０は、これらの情報を総合判定し、上記の発話が「再生している曲の音量を下げる」というユーザの意図を示していると判定する。

　このように、応答生成装置１０は、音声情報が入力情報である場合、関連情報として、ユーザのジェスチャー等を検知した検知情報を用いてもよい。これにより、応答生成装置１０は、発話のみではユーザの意図を特定することが困難な場合であっても、ユーザの行動を捉えることでユーザの意図を正確に推定することができる。

［１－４－２．起動ワード］
　上記実施形態では、応答生成装置１０がユーザの所望する動作を総合的に判断し、ユーザに対する応答を生成する処理について説明した。ここで、応答生成装置１０は、必ずしもユーザに対する応答を生成するのではなく、ユーザの所望する動作を総合的に判断して、ユーザの要望に応えるような設定を行ってもよい。

　例えば、応答生成装置１０は、ユーザから取得した断片的な入力情報に基づいて、対話処理を起動させる契機となる設定を変更してもよい。例えば、応答生成装置１０の対話機能を起動させる起動ワードが、「ハロー」等の特定の単語であるものとする。しかし、ユーザは、起動ワードである「ハロー」を忘れたり、咄嗟の場合に起動ワードを発話することができなかったりする場合がある。

　この場合、応答生成装置１０は、応答生成装置１０の前に所在したユーザが、「えっと」「なんだっけ」など、起動ワードでない発話をたびたび行うといったユーザの行動を取得することが想定される。このような場合、応答生成装置１０は、ユーザの行動が所定の条件を満たすか否かを判定し、ユーザの行動に応じて起動ワードを変更してもよい。
例えば、応答生成装置１０は、ユーザが起動ワードを発話する前に、当該ユーザから所定回数以上、同じ内容の発話がなされたか否かを判定する。そして、応答生成装置１０は、所定回数以上同じ内容の発話がなされたと判定した場合、当該ユーザがその発話で応答生成装置１０を起動させたいと所望していると判断し、起動ワードを変更する。

　このように、応答生成装置１０は、ユーザに応じて、「えっと」など通常では対話処理が起動しない単語を起動ワードに設定することができる。これにより、応答生成装置１０は、物忘れが多いユーザや、起動ワードをうまく発音できないユーザに対して、対話処理の利便性を向上させることができる。

　なお、応答生成装置１０は、ユーザの発話以外を起動ワードに設定してもよい。例えば、ユーザによっては、「ハロー」のような発話をするのではなく、応答生成装置１０を指さしたり、応答生成装置１０に対して手を振ったりするジェスチャーを行う可能性がある。このような場合、応答生成部５０は、ユーザに応じて、応答生成装置１０を指さしたり、応答生成装置１０に対して手を振ったりするジェスチャーが対話処理の起動の契機となるよう設定変更してもよい。

［１－４－３．応答生成に用いた情報の提供］
　応答生成装置１０は、応答の生成に用いた各種情報を外部サーバ２００や外部サービス等に提供してもよい。

　例えば、上記実施形態では、応答生成装置１０が、ユーザの「電車」や「明日の」といった、断片的な会話に対する応答を生成する処理を示した。この場合、乗換案内等のサービスを提供する外部サーバ２００は、応答生成装置１０が生成した応答の根拠の提供を受けた方が、よりユーザの意図に即したサービスや情報を提供することができる場合がある。このため、応答生成装置１０は、生成した応答の根拠となる情報として、ユーザの発話や、生成処理に用いた関連情報等を外部サービス等に提供する。具体的には、応答生成装置１０は、どのような情報に基づいてユーザの動作命令を特定したか、発話に関連するコンテンツは何か、発話に関連する過去のユーザの行動履歴は何かといった、応答生成処理に用いられた各種情報を提供する。

　このように、応答生成装置１０は、ユーザに対する応答を生成した後に、応答を生成するために用いた関連情報を外部装置に出力してもよい。これにより、応答生成装置１０は、外部サーバ２００等を管理する事業者に有用な情報を提供することができる。

［１－４－４．優先度判定の例］
　応答生成装置１０は、応答生成装置１０の機器の種別に応じて、ユーザに対する応答の優先度を判定してもよい。

　例えば、応答生成装置１０がテレビである場合、応答生成装置１０は、ユーザがテレビに関係する動作命令を発話する可能性が高いと判定し、テレビに関係する動作命令を応答として用いる優先度を高くする。言い換えれば、応答生成装置１０は、自装置の機器種別に応じて、応答生成の総合判定に利用する情報の重みを調整する。

　これにより、応答生成装置１０は、自装置に対してユーザが所望する確率が高いと推定される動作命令を優先的に用いて応答を生成するので、対話処理を利用するユーザの利便性を向上させることができる。

［１－４－５．対話履歴の利用］
　応答生成装置１０は、発話をしたユーザ自身の対話履歴のみならず、他のユーザの対話履歴を利用してもよい。例えば、応答生成装置１０は、ユーザが発話をする前に、周囲の他の複数ユーザが会話していた内容に基づいて会話のドメインの推定処理を行ってもよい。例えば、周囲の他の複数ユーザが外出に関する会話をしていた場合、応答生成装置１０は、かかる会話に含まれる単語の解析結果等から、会話が「外出」に関するドメインであると判定する。その後、「明日は？」といったユーザからの発話があった場合、応答生成装置１０は、「外出」に関する動作を抽出し、当該ユーザに対する応答を生成する。一例として、応答生成装置１０は、「外出」に関する動作として「天気情報」を抽出し、「明日は晴れます」といった応答を生成する。あるいは、応答生成装置１０は、「外出」に関する動作として「スケジュール情報」を抽出し、「明日は予定が空いています」といった応答を生成する。

　このように、応答生成装置１０は、他のユーザの対話履歴等を利用してユーザの不完全発話の意図を推定することで、発話したユーザにとって自然な応答を行うことができる。

　なお、応答生成装置１０は、他のユーザの対話履歴として、その場に所在するユーザのみならず、クラウドを介して他の装置から取得された対話履歴等に基づいて応答を生成してもよい。

［１－４－６．本開示の応答生成処理の適用］
　本開示の応答生成処理は、ユーザの発話等の対話処理に限らず、種々の技術に適用可能である。例えば、本開示の応答生成処理は、ロボットを利用したユーザとのチャットなど、テキストデータを介した対話処理にも適用可能である。

（２．その他の実施形態）
　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、応答部５４と送信部５５は統合されてもよい。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（３．本開示に係る応答生成装置の効果）
　上述のように、本開示に係る応答生成装置（実施形態では応答生成装置１０）は、取得部（実施形態では取得部４０）と、応答生成部（実施形態では応答生成部５０）とを備える。取得部は、ユーザに対する応答を生成する契機となる入力情報を取得する。応答生成部は、入力情報のみに基づいてユーザに対する応答が生成できないと判定した場合に、入力情報に関連する関連情報を用いてユーザへの応答を生成する。

　これにより、本開示に係る応答生成装置は、入力情報が不完全である場合にもユーザへの応答を生成することができるため、頑健な対話処理を実現することができる。また、応答生成装置によれば、ユーザは完全な文などの依頼を行うことを要しないため、対話処理におけるユーザの負担を軽減することができる。

　また、取得部は、入力情報として、ユーザが発した音声情報を取得する。これにより、応答生成装置は、ユーザが発話した内容が不完全であったとしても、頑健な対話処理を実現することができる。

　また、取得部は、入力情報として、ユーザの行動を検知した検知情報を取得する。これにより、応答生成装置は、ユーザの行動のみではユーザの意図が推定できない場合であっても、頑健な対話処理を実現することができる。

　また、応答生成部は、ユーザに対する応答の内容を特定するための情報である動作命令を入力情報のみから判定できない場合に、関連情報を用いてユーザへの応答を生成する。これにより、応答生成装置は、ユーザが応答生成装置に実行させようとする動作が不明な場合であっても、ユーザに対する何らかの応答を生成することができる。

　また、応答生成部は、ユーザに対する応答の内容を特定するための情報である動作命令を入力情報のみから判定できた場合であって、動作命令に対応した応答を生成するために用いられる情報である付属情報を入力情報のみから判定できない場合に、関連情報を用いてユーザへの応答を生成する。これにより、応答生成装置は、ユーザが明確に発話していない内容等であっても、かかる情報を補った応答を生成することができる。

　また、応答生成部は、関連情報として、入力情報に対応する文字列と関連したコンテンツの情報を用いて、ユーザへの応答を生成する。これにより、応答生成装置は、ユーザの発話の意図に沿ったコンテンツの再生等の動作を実行することができる。

　また、応答生成部は、入力情報に対応する文字列を含むコンテンツの名称に基づいて、ユーザへの応答を生成する。これにより、応答生成装置は、ユーザの発話の意図に沿ったコンテンツの再生等の動作を実行することができる。

　また、応答生成部は、関連情報として、入力情報が取得された時点の状況を示す情報であるコンテキスト情報を用いて、ユーザへの応答を生成する。これにより、応答生成装置は、ユーザの発話のみでは不明な付属情報等をコンテキスト情報で補った応答を生成することができる。

　また、応答生成部は、コンテキスト情報として、ユーザの属性情報もしくは所在地情報を用いて、ユーザへの応答を生成する。これにより、応答生成装置は、ユーザの属性や所在地に適した応答を生成することができる。

　また、応答生成部は、コンテキスト情報として、ユーザのスケジュール情報を用いて、ユーザへの応答を生成する。これにより、応答生成装置は、ユーザの実情に即した応答を生成することができる。

　また、応答生成部は、関連情報として、入力情報が取得される以前のユーザとの対話履歴を用いて、ユーザへの応答を生成する。これにより、応答生成装置は、過去のユーザとの対話や、入力情報が取得されるまでの会話の流れに対して不自然とならない応答を生成することができる。

　また、応答生成部は、入力情報が取得される以前のユーザのサービスの利用履歴を用いて、ユーザへの応答を生成する。これにより、応答生成装置は、ユーザの日常的な行動に即した応答を生成することができる。

　また、応答生成部は、関連情報を用いてユーザへの応答を複数生成するとともに、優先順位を付けて複数の応答をユーザに提示する。これにより、応答生成装置は、ユーザの意図に沿った応答を生成する確率を上げることができるので、対話処理におけるユーザの満足度を向上させることができる。

　また、応答生成部は、ユーザに対する応答を生成した後に、応答を生成するために用いた関連情報を外部装置に出力する。これにより、応答生成装置は、対話処理に関する情報を提供する外部サービス等に有用な情報を提供することができる。

（４．ハードウェア構成）
　上述してきた各実施形態に係る応答生成装置１０や外部サーバ２００等の情報機器は、例えば図８に示すような構成のコンピュータ１０００によって実現される。以下、実施形態に係る応答生成装置１０を例に挙げて説明する。図８は、応答生成装置１０の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る応答生成プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る応答生成装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた応答生成プログラムを実行することにより、取得部４０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る応答生成プログラムや、記憶部３０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　ユーザに対する応答を生成する契機となる入力情報を取得する取得部と、
　前記入力情報のみに基づいて前記ユーザに対する応答が生成できないと判定した場合に、当該入力情報に関連する関連情報を用いて当該ユーザへの応答を生成する応答生成部と、
　を備える応答生成装置。
（２）
　前記取得部は、
　前記入力情報として、前記ユーザが発した音声情報を取得する
　前記（１）に記載の応答生成装置。
（３）
　前記取得部は、
　前記入力情報として、前記ユーザの行動を検知した検知情報を取得する
　前記（１）又は（２）に記載の応答生成装置。
（４）
　前記応答生成部は、
　前記ユーザに対する応答の内容を特定するための情報である動作命令を当該入力情報のみから判定できない場合に、前記関連情報を用いて当該ユーザへの応答を生成する
　前記（１）～（３）のいずれか一つに記載の応答生成装置。
（５）
　前記応答生成部は、
　前記ユーザに対する応答の内容を特定するための情報である動作命令を当該入力情報のみから判定できた場合であって、当該動作命令に対応した応答を生成するために用いられる情報である付属情報を当該入力情報のみから判定できない場合に、前記関連情報を用いて当該ユーザへの応答を生成する
　前記（１）～（４）のいずれか一つに記載の応答生成装置。
（６）
　前記応答生成部は、
　前記関連情報として、前記入力情報に対応する文字列と関連したコンテンツの情報を用いて、前記ユーザへの応答を生成する
　前記（１）～（５）のいずれか一つに記載の応答生成装置。
（７）
　前記応答生成部は、
　前記入力情報に対応する文字列を含むコンテンツの名称に基づいて、前記ユーザへの応答を生成する
　前記（６）に記載の応答生成装置。
（８）
　前記応答生成部は、
　前記関連情報として、前記入力情報が取得された時点の状況を示す情報であるコンテキスト情報を用いて、前記ユーザへの応答を生成する
　前記（１）～（７）のいずれか一つに記載の応答生成装置。
（９）
　前記応答生成部は、
　前記コンテキスト情報として、前記ユーザの属性情報もしくは所在地情報を用いて、前記ユーザへの応答を生成する
　前記（８）に記載の応答生成装置。
（１０）
　前記応答生成部は、
　前記コンテキスト情報として、前記ユーザのスケジュール情報を用いて、前記ユーザへの応答を生成する
　前記（８）又は（９）に記載の応答生成装置。
（１１）
　前記応答生成部は、
　前記関連情報として、前記入力情報が取得される以前の前記ユーザとの対話履歴を用いて、前記ユーザへの応答を生成する
　前記（１）～（１０）のいずれか一つに記載の応答生成装置。
（１２）
　前記応答生成部は、
　前記入力情報が取得される以前の前記ユーザのサービスの利用履歴を用いて、前記ユーザへの応答を生成する
　前記（１１）に記載の応答生成装置。
（１３）
　前記応答生成部は、
　前記関連情報を用いて前記ユーザへの応答を複数生成するとともに、優先順位を付けて複数の応答を当該ユーザに提示する
　前記（１）～（１２）のいずれか一つに記載の応答生成装置。
（１４）
　前記応答生成部は、
　前記ユーザに対する応答を生成した後に、当該応答を生成するために用いた関連情報を外部装置に出力する
　前記（１）～（１３）のいずれか一つに記載の応答生成装置。
（１５）
　コンピュータが、
　ユーザに対する応答を生成する契機となる入力情報を取得し、
　前記入力情報のみに基づいて前記ユーザに対する応答が生成できないと判定した場合に、当該入力情報に関連する関連情報を用いて当該ユーザへの応答を生成する
　応答生成方法。

　１　応答生成システム
　１０　応答生成装置
　２０　センサ
　２１　入力部
　２２　通信部
　３０　記憶部
　３１　ユーザ情報テーブル
　３２　応答規則テーブル
　４０　取得部
　４１　検知部
　４２　登録部
　４３　受信部
　５０　応答生成部
　５１　信号処理部
　５２　音声認識部
　５３　解析部
　５４　応答部
　５５　送信部
　６０　出力部
　２００　外部サーバ

Claims

　ユーザに対する応答を生成する契機となる入力情報を取得する取得部と、
　前記入力情報のみに基づいて前記ユーザに対する応答が生成できないと判定した場合に、当該入力情報に関連する関連情報を用いて当該ユーザへの応答を生成する応答生成部と、
　を備える応答生成装置。
　前記取得部は、
　前記入力情報として、前記ユーザが発した音声情報を取得する
　請求項１に記載の応答生成装置。
　前記取得部は、
　前記入力情報として、前記ユーザの行動を検知した検知情報を取得する
　請求項１に記載の応答生成装置。
　前記応答生成部は、
　前記ユーザに対する応答の内容を特定するための情報である動作命令を当該入力情報のみから判定できない場合に、前記関連情報を用いて当該ユーザへの応答を生成する
　請求項１に記載の応答生成装置。
　前記応答生成部は、
　前記ユーザに対する応答の内容を特定するための情報である動作命令を当該入力情報のみから判定できた場合であって、当該動作命令に対応した応答を生成するために用いられる情報である付属情報を当該入力情報のみから判定できない場合に、前記関連情報を用いて当該ユーザへの応答を生成する
　請求項１に記載の応答生成装置。
　前記応答生成部は、
　前記関連情報として、前記入力情報に対応する文字列と関連したコンテンツの情報を用いて、前記ユーザへの応答を生成する
　請求項１に記載の応答生成装置。
　前記応答生成部は、
　前記入力情報に対応する文字列を含むコンテンツの名称に基づいて、前記ユーザへの応答を生成する
　請求項６に記載の応答生成装置。
　前記応答生成部は、
　前記関連情報として、前記入力情報が取得された時点の状況を示す情報であるコンテキスト情報を用いて、前記ユーザへの応答を生成する
　請求項１に記載の応答生成装置。
　前記応答生成部は、
　前記コンテキスト情報として、前記ユーザの属性情報もしくは所在地情報を用いて、前記ユーザへの応答を生成する
　請求項８に記載の応答生成装置。
　前記応答生成部は、
　前記コンテキスト情報として、前記ユーザのスケジュール情報を用いて、前記ユーザへの応答を生成する
　請求項８に記載の応答生成装置。
　前記応答生成部は、
　前記関連情報として、前記入力情報が取得される以前の前記ユーザとの対話履歴を用いて、前記ユーザへの応答を生成する
　請求項１に記載の応答生成装置。
　前記応答生成部は、
　前記入力情報が取得される以前の前記ユーザのサービスの利用履歴を用いて、前記ユーザへの応答を生成する
　請求項１１に記載の応答生成装置。
　前記応答生成部は、
　前記関連情報を用いて前記ユーザへの応答を複数生成するとともに、優先順位を付けて複数の応答を当該ユーザに提示する
　請求項１に記載の応答生成装置。
　前記応答生成部は、
　前記ユーザに対する応答を生成した後に、当該応答を生成するために用いた関連情報を外部装置に出力する
　請求項１に記載の応答生成装置。
　コンピュータが、
　ユーザに対する応答を生成する契機となる入力情報を取得し、
　前記入力情報のみに基づいて前記ユーザに対する応答が生成できないと判定した場合に、当該入力情報に関連する関連情報を用いて当該ユーザへの応答を生成する
　応答生成方法。