WO2021153101A1

WO2021153101A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2021153101A1
Application number: PCT/JP2020/047857
Authority: WO
Inventors: 真里斎藤
Original assignee: ソニーグループ株式会社
Priority date: 2020-01-27
Filing date: 2020-12-22
Publication date: 2021-08-05
Also published as: JP2021117371A

Abstract

話者の発話の意図に沿った自然な対話を実現する。実施形態に係る情報処理装置（１０）は、話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定部（１１４）と、状態推定部（１１４）による推定結果に基づいた出力情報を生成する応答生成部（１１７）とを備える。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。

　近年、音声の認識精度の向上により、ユーザ（話者）の発話を理解し、話者と対話を行うシステムが普及してきている。例えば、話者の発話の理解度を示すために、入力された発話をテキスト化して表示するシステムが一般化してきている。このシステムは、例えば、スマートスピーカ等のスピーカ型やＰｅｐｐｅｒ（登録商標）等の人型の対話エージェントとして実現されている。

特開２０１８－４０８９７号公報

　しかしながら、発話が複雑な場合、テキストが長々と表示されてしまう場合もあり、話者の発話を理解していることが伝わりにくかった。また、表示デバイスに話者の発話の認識結果をそのまま表示することは不自然でもあり、発話を理解しているかどうか話者を不安にさせてしまう可能性も生じ得る。

　また、命令や依頼等の目的的な発話ではなく、日常会話等の非目的的な発話を傾聴するようなユースケースでは、発話を理解しているかどうか分からないと、話者が発話を十分に楽しむことができない可能性も生じ得る。

　このように、従来技術に係る対話エージェントにおいては、話者の発話の意図に沿った自然な対話を実現することが困難であった。

　そこで、本開示では、話者の発話の意図に沿った自然な対話を実現することが可能な、新規かつ改良された情報処理装置、情報処理方法及び情報処理プログラムを提案する。

　本開示によれば、話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定部と、前記状態推定部による推定結果に基づいた出力情報を生成する応答生成部とを備える、情報処理装置が提供される。

実施形態に係る情報処理システムの構成例を示す図である。実施形態に係る情報処理システムの機能の概要を示す図である。実施形態に係る情報処理システムの機能の概要の一例を示す図である。実施形態に係る情報処理システムの機能の概要の一例を示す図である。実施形態に係る情報処理システムの機能の概要の一例を示す図である。実施形態に係る情報処理システムの機能の概要の一例を示す図である。実施形態に係る情報処理システムの機能の概要の一例を示す図である。実施形態に係る情報処理システムの機能の概要の一例を示す図である。実施形態に係る情報処理システムの機能の概要の一例を示す図である。実施形態に係る情報処理システムの構成例を示すブロック図である。実施形態に係る話者情報記憶部の一例を示す図である。実施形態に係る感情語情報記憶部の一例を示す図である。実施形態に係る情報処理装置における処理の流れを示すフローチャートである。実施形態に係る情報処理装置における処理の流れを示すフローチャートである。実施形態に係る情報処理装置における処理の流れを示すフローチャートである。実施形態に係る情報処理装置における処理の流れを示すフローチャートである。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の一実施形態
　　１．１．概要
　　１．２．情報処理システムの構成
　２．情報処理システムの機能
　　２．１．機能の概要
　　２．２．種々のユースケース例
　　２．３．機能構成例
　　２．４．情報処理システムの処理
　　２．５．処理のバリエーション
　３．応用例
　　３．１．視聴覚障害者
　　３．２．高齢者
　４．ハードウェア構成例
　５．まとめ

＜＜１．本開示の一実施形態＞＞
　＜１．１．概要＞
　近年、音声の認識精度の向上により、話者の発話を理解し、話者と対話を行うシステムが普及してきている。例えば、話者の発話の理解度を示すために、入力された発話をテキスト化して表示するシステムが一般化してきている。このシステムは、例えば、スマートスピーカ等のスピーカ型やＰｅｐｐｅｒ（登録商標）等の人型の対話エージェントとして実現されている。

　話者の発話において、例えば、発話内容とは関係のない繋ぎ言葉であるフィラーや、頷きや相槌等を行うことができれば、対話エージェントが発話を理解していると話者に感じさせることができ得る。そこで、話者の発話において、フィラーや頷きや相槌等を行う対話エージェントに関する技術が進められている。

　上述の対話エージェントの技術に関連し、例えば、特許文献１には、話者からの発話を待つべきとも、発話を実行すべきとも推定できなかった場合に、対話エージェントの動作を制御する技術が開示されている。

　しかしながら、上述の対話エージェントの技術では、話者の発話の意図と関係なく、対話エージェントの対話に関する動作を制御するため、例えば、対話エージェントの動作が話者の発話の邪魔となる可能性も生じ得る。

　本開示の一実施形態では、上記の点に着目して発想されたものであり、話者の発話の意図に沿った適切な応答を行うよう制御することが可能な技術を提案する。以下、本実施形態について順次詳細に説明する。以下、対話エージェントの一例として、端末装置２０を用いて説明する。

　＜１．２．情報処理システムの構成＞
　まず、実施形態に係る情報処理システム１の構成について説明する。図１は、情報処理システム１の構成例を示す図である。図１に示したように、情報処理システム１は、情報処理装置１０及び端末装置２０を備える。情報処理装置１０には、多様な装置が接続され得る。例えば、情報処理装置１０には、端末装置２０が接続され、各装置間で情報の連携が行われる。情報処理装置１０には、端末装置２０が無線で接続される。例えば、情報処理装置１０は、端末装置２０とＢｌｕｅｔｏｏｔｈ（登録商標）を用いた近距離無線通信を行う。なお、情報処理装置１０には、情報処理装置１０及び端末装置２０が、有線と無線とを問わず、Ｉ２Ｃ（Inter-Integrated　Circuit）やＳＰＩ（Serial　Peripheral　Interface）などの各種インタフェースや、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）やインターネットや移動体通信網などの各種ネットワークを介して接続されてもよい。

　（１）情報処理装置１０
　情報処理装置１０は、話者の発話（音声）の発話データに応じて、例えば、端末装置２０を制御する情報処理装置である。具体的には、情報処理装置１０は、まず、話者の発話に基づく感情を理解する感情理解の状態を推定し、推定結果に基づいた出力情報を生成する。そして、情報処理装置１０は、生成された出力情報を、例えば、端末装置２０に送信することにより、端末装置２０を制御する。

　また、情報処理装置１０は、情報処理システム１の動作全般を制御する機能も有する。例えば、情報処理装置１０は、各装置間で連携される情報に基づき、情報処理システム１の動作全般を制御する。具体的には、情報処理装置１０は、端末装置２０から受信する情報に基づき、端末装置２０を制御する。

　情報処理装置１０は、ＰＣ（Ｐｅｒｓｏｎａｌ　ｃｏｍｐｕｔｅｒ）、ＷＳ（Ｗｏｒｋ　ｓｔａｔｉｏｎ）等により実現される。なお、情報処理装置１０は、ＰＣ、ＷＳ等に限定されない。例えば、情報処理装置１０は、情報処理装置１０としての機能をアプリケーションとして実装したＰＣ、ＷＳ等の情報処理装置であってもよい。

　（２）端末装置２０
　端末装置２０は、制御対象となる情報処理装置である。

　端末装置２０は、発話データを取得する。そして、端末装置２０は、取得した発話データを情報処理装置１０へ送信する。

　端末装置２０は、どのような装置として実現されてもよい。例えば、端末装置２０は、スピーカ型の装置として実現されてもよいし、人型の装置として実現されてもよい。端末装置２０は、例えば、対話エージェントの視覚情報を提示する提示装置として実現されてもよい。

＜＜２．情報処理システムの機能＞＞
　以上、情報処理システム１の構成について説明した。続いて、情報処理システム１の機能について説明する。

　＜２．１．機能の概要＞
　実施形態に係る情報処理システム１は、話者の発話に対する傾聴反応である応答の生成を３つの状態（ステート）の遷移で行う。具体的には、情報処理システム１は、話者の発話を認識する発話認識の状態の推定と、話者の発話に基づく感情理解の状態の推定と、話者の発話に含まれる依頼に関する情報である依頼関連情報に基づく処理を実行するための実行準備の状態の推定とを遷移することで、応答の生成を行う。発話認識の状態の推定に基づく応答は、例えば、話者の発話を受信したことを話者に伝えるための応答である。また、感情理解の状態の推定に基づく応答は、例えば、共感していることを話者に伝えるための応答である。また、実行準備の状態の推定に基づく応答は、例えば、話者の発話に含まれる依頼関連情報に基づく処理を実行するための応答である。情報処理システム１は、この３つの状態を遷移することで、状態に応じた応答の生成を行うことができる。

　図２は、情報処理システム１の機能の概要を示す図である。情報処理システム１は、まず、話者Ｕ１２の発話を認識する（Ｓ１１）。情報処理システム１は、話者Ｕ１２の発話を認識すると、発話認識の状態を推定する。次いで、情報処理システム１は、話者Ｕ１２の発話から感情を示す感情語を認識する（Ｓ１２）。情報処理システム１は、感情語を認識すると、感情理解の状態を推定する。そして、情報処理システム１は、感情語を復唱する処理を実行する（Ｓ１３）。情報処理システム１は、更なる話者Ｕ１２の発話を認識する場合、発話認識の状態を推定する。Ｓ１２の処理において、情報処理システム１は、話者Ｕ１２の発話から依頼関連情報を認識する（Ｓ１４）。情報処理システム１は、依頼関連情報を認識すると、実行準備の状態を推定する。そして、情報処理システム１は、依頼関連情報に基づく処理を実行する（Ｓ１５）。Ｓ１５の処理において、情報処理システム１は、依頼関連情報に基づく処理を実行しない場合には、発話認識の状態を推定する（Ｓ１６）。

　ここで、Ｓ１４と同様の処理を、感情理解の状態を推定した後に行う場合を説明する。情報処理システム１は、話者Ｕ１２の発話から依頼関連情報を認識する（Ｓ１７）。情報処理システム１は、依頼関連情報を認識すると、実行準備の状態を推定する。そして、情報処理システム１は、依頼関連情報に基づく処理を実行する（Ｓ１５）。Ｓ１５の処理において、情報処理システム１は、依頼関連情報に基づく処理を実行しない場合には、感情理解の状態を推定する（Ｓ１８）。

　このように、情報処理システム１は、対話エージェントの相槌等の応答に段階を設けることで、「聞いている（声が届いている）」、「感情を理解している」、及び、「依頼を実行する」の状態を異なる処理を用いて伝えることができる。これにより、情報処理システム１は、対話エージェントが話者の発話の内容の推移を理解しながら聞いていることを伝えることができるため、話者は安心して発話をすることができる。

（発話認識の状態を推定する場合）
　図３は、発話認識の状態を推定する場合のＵＩ（Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）の概要を示す図である。端末装置２０は、まず、話者Ｕ１２の発話ＴＫ１１を検出する。情報処理システム１は、発話ＴＫ１１の終端ＳＫ１１を検出すると、「うん」等の相槌を行うように端末装置２０を制御する（Ｓ２１）。端末装置２０は、発話ＴＫ１１に対する相槌である応答ＲＫ１１を出力する。次いで、端末装置２０は、話者Ｕ１２の発話ＴＫ１２を検出する。情報処理システム１は、話者Ｕ１２が発話ＴＫ１２の発話中、発話ＴＫ１２の終端ＳＫ１２が検出されるまで、首を縦に振る等の頷きを行うように端末装置２０を制御する（Ｓ２２）。すなわち、情報処理システム１は、話者Ｕ１２が発話ＴＫ１２の発話中、相槌を行わないように端末装置２０を制御する。情報処理システム１は、発話ＴＫ１２の終端ＳＫ１２を検出すると、相槌を行うように端末装置２０を制御する。端末装置２０は、発話ＴＫ１２に対する相槌である応答ＲＫ１２を出力する。次いで、端末装置２０は、話者Ｕ１２の発話ＴＫ１３を検出する。情報処理システム１は、話者Ｕ１２が発話ＴＫ１３の発話中、発話ＴＫ１３の終端ＳＫ１３が検出されるまで、頷きを行うように端末装置２０を制御する（Ｓ２３）。情報処理システム１は、発話ＴＫ１３の終端ＳＫ１３を検出すると、相槌を行うように端末装置２０を制御する。端末装置２０は、発話ＴＫ１３に対する相槌である応答ＲＫ１３を出力する。これにより、情報処理システム１は、話者の発話を阻害しないタイミングで相槌を行うことができるため、話者の発話が届いていることを話者に適切に伝えることができる。

（感情理解の状態を推定する場合）
　図４では、感情理解の状態を推定する場合のＵＩの概要を示す図である。以下、図３と同様の記載は、説明を適宜省略する。端末装置２０は、話者Ｕ１２の発話ＴＫ２３を検出する。情報処理システム１は、話者Ｕ１２が発話ＴＫ２３の発話中、発話ＴＫ２３の終端ＳＫ２３が検出されるまで、頷きを行うように端末装置２０を制御する。また、情報処理システム１は、発話ＴＫ２３から感情語ＫＧ１１を検出する（Ｓ３３）。具体的には、情報処理システム１は、発話ＴＫ２３に対して言語解析処理を行う。そして、情報処理システム１は、発話ＴＫ２３に含まれる言語情報と、感情語として予め定められた言語情報とを比較することにより、感情語ＫＧ１１を検出する。例えば、情報処理システム１は、感情語情報を記憶した記憶部にアクセスすることにより、感情語ＫＧ１１を検出する。情報処理システム１は、感情語ＫＧ１１を検出すると、感情語ＫＧ１１と、発話ＴＫ２３に含まれる言語情報のうち感情語ＫＧ１１に近い文脈の言語情報とを用いて、感情語ＫＧ１１が示す感情を適切な表現で復唱するように端末装置２０を制御する。具体的には、情報処理システム１は、感情語ＫＧ１１である「困っちゃった」と、近接する言語情報である「長くて」とに基づいて、感情語ＫＧ１１が示す感情である「困る」を適切な表現で復唱する。端末装置２０は、発話ＴＫ２３の復唱である応答ＲＫ２３を出力する。このように、情報処理システム１は、感情語ＫＧ１１に近接する前後の文脈の言語情報を復唱することができる。これにより、情報処理システム１は、話者の感情を理解し共感していることを話者に適切に伝えることができるため、話者は安心して発話を行うことができる。

　図５では、話者Ｕ１２が図３と異なる発話を行う場合を例に挙げて、感情理解の状態を推定する場合のＵＩの概要を説明する。以下、図２乃至４と同様の記載は、説明を適宜省略する。情報処理システム１は、発話ＴＫ３３から感情語ＫＧ２１を検出する（Ｓ４３）。情報処理システム１は、感情語ＫＧ２１を検出すると、感情語ＫＧ２１の同義語（類義語）として予め定められた言語情報を用いて、感情語ＫＧ２１が示す感情を適切な表現で復唱するように端末装置２０を制御する。具体的には、情報処理システム１は、感情語ＫＧ２１である「最悪」の同義語として予め定められた言語情報である「悲しい」を用いて、感情語ＫＧ２１が示す感情である「最悪」を適切な表現で復唱する。このように、情報処理システム１は、感情語ＫＧ２１の同義語として予め定められた言語情報を復唱するための共感発話を生成する。端末装置２０は、発話ＴＫ３３の復唱である応答ＲＫ３３を出力する。他の例として、情報処理システム１は、感情語ＫＧ２１である「最悪」の同義語として予め定められた言語情報である「ひどい」と、発話ＴＫ３３に含まれる言語情報のうち感情語ＫＧ２１に近い文脈の言語情報である「会ったんだって」とを用いて、「会ったんですね、それはひどいですね」を出力する。なお、情報処理システム１は、登録された感情語を用いて応答を出力するのみではなく、例えば、センサを用いて話者の感情を推定することにより、推定された感情に対応する感情語を用いて応答を出力してもよい。また、情報処理システム１は、例えば、他の話者との会話に含まれる発話に基づいて応答を学習してもよい。また、情報処理システム１は、例えば、他の話者との会話を検出する度に学習及び記憶された応答を随時更新することにより、更新された最新の応答を出力してもよい。

（実行準備の状態を推定する場合）
　図６では、実行準備の状態を推定する場合のＵＩの概要を示す図である。以下、図２乃至５と同様の記載は、説明を適宜省略する。端末装置２０は、話者Ｕ１２の発話ＴＫ４３を検出する。情報処理システム１は、話者Ｕ１２が発話ＴＫ４３の発話中、発話ＴＫ４３の終端ＳＫ４３が検出されるまで、頷きを行うように端末装置２０を制御する。また、情報処理システム１は、発話ＴＫ４３から依頼関連情報ＩＧ１１を検出する（Ｓ５３）。情報処理システム１は、依頼関連情報ＩＧ１１を検出すると、「了解」等の依頼を認識した旨の応答ＲＫ４３を出力する。そして、情報処理システム１は、依頼関連情報ＩＧ１１が示す依頼の内容を復唱するように端末装置２０を制御する。端末装置２０は、発話ＴＫ４３の復唱である応答ＲＫ４４を出力する。そして、情報処理システム１は、依頼関連情報ＩＧ１１が示す依頼に関する情報に基づく処理を実行する（Ｓ５４）。

　また、Ｓ５３において、情報処理システム１は、依頼関連情報ＩＧ１１が示す依頼に関する情報が、処理を実行するために十分であるか否かを判定する。情報処理システム１は、依頼関連情報ＩＧ１１が示す依頼に関する情報が、処理を実行するために十分でない場合、所定の基準よりも認識可能でない表現で相槌を行うように端末装置２０を制御する。これにより、情報処理システム１は、例えば、低音量で相槌を行うように端末装置２０を制御することで、話者に発話の続きを促すことができる。また、依頼関連情報ＩＧ１１が示す依頼に関する情報が、処理を実行するために十分でない場合、端末装置２０による発話の重複が生じ得る。情報処理システム１は、話者に発話の続きを促すことができるため、端末装置２０による発話の重複が生じ得る問題等を解消し得る。なお、情報処理システム１は、話者の発話の続きを検出できない場合には、話者に発話が十分でない旨出力する。また、情報処理システム１は、言いよどみ（不完全）な文章の言語情報を用いることにより、話者に発話の続きを促す。これにより、情報処理システム１は、処理を実行するために必要な不足の情報を話者に発話するように促す場合より、自然な発話を促すことができる。一方、情報処理システム１は、依頼関連情報ＩＧ１１が示す依頼に関する情報が、処理を実行するために十分な場合、依頼を認識した旨の応答ＲＫ４３を出力する。ここで、情報処理システム１は、発話ＴＫ４３が、依頼関連情報ＩＧ１１が示す依頼を発話するための対話の文末である場合には、所定の基準と同等の認識可能な表現で応答ＲＫ４３を出力する。これにより、情報処理システム１は、例えば、所定の基準と同等の音量で、応答ＲＫ４３を出力することができる。

　＜２．２．種々のユースケース例＞
　以上、本開示の実施形態に係る機能の概要について説明した。続いて、本開示の実施形態に係る情報処理システム１のユースケース例を説明する。

（介護施設の場合１）
　図７では、話者Ｕ１２が介護施設で発話を行う場合を例に挙げて、情報処理システム１の機能の概要を説明する。以下、図２乃至６と同様の記載は、説明を適宜省略する。端末装置２０は、話者Ｕ１２の発話ＴＫ５１から感情語ＫＧ３１を検出する（Ｓ６２）。端末装置２０は、感情語ＫＧ３１が示す感情である「楽しみ」を適切な表現で復唱した応答ＲＫ５２を出力する。具体的には、情報処理システム１は、感情語ＫＧ３１である「楽しみ」と、近接する言語情報である「すごく」とに基づいて、応答ＲＫ５２を出力する。

（介護施設の場合２）
　図８では、話者Ｕ１２が図７とは異なる発話を行う場合を例に挙げて、情報処理システム１の機能の概要を説明する。以下、図２乃至７と同様の記載は、説明を適宜省略する。端末装置２０は、話者のＵ１２の発話ＴＫ６３から依頼関連情報ＩＧ２１を検出する（Ｓ７３）。Ｓ７３において、情報処理システム１は、依頼関連情報ＩＧ２１が示す依頼に関する情報が、処理を実行するために十分でないと判定する。情報処理システム１は、発話が十分でない旨の応答ＲＫ６３を出力する。端末装置２０は、話者Ｕ１２の発話ＴＫ６４を検出する。情報処理システム１は、話者Ｕ１２の発話ＴＫ６４が、依頼関連情報ＩＧ２１が示す依頼に関する情報に基づく処理を実行するために十分な情報を含むと判定する（Ｓ７４）。端末装置２０は、発話ＴＫ６４の復唱である応答ＲＫ６４を出力する。情報処理システム１は、話者Ｕ１２の発話ＴＫ６５に応じて、応答ＲＫ６５の出力と共に、依頼関連情報ＩＧ２１が示す依頼に関する情報を提示するように端末装置２０を制御する。その後、情報処理システム１は、話者Ｕ１２の発話ＴＫ６７から感情語ＫＧ４１を検出する（Ｓ７７）。端末装置２０は、感情語ＫＧ４１が示す感情である「おいしそう」を適切な表現で復唱した応答ＲＫ６７を出力する。具体的には、情報処理システム１は、感情語ＫＧ４１である「おいしそうね」に基づいて、応答ＲＫ６７を出力する。

（単身赴任の場合）
　図９では、話者Ｕ１２が単身赴任中に発話を行う場合を例に挙げて、情報処理システム１の機能の概要を説明する。以下、図２乃至８と同様の記載は、説明を適宜省略する。端末装置２０は、話者Ｕ１２の発話ＴＫ７１から感情語ＫＧ５１を検出する（Ｓ８１）。端末装置２０は、感情語ＫＧ５１が示す感情である「忙しい」を適切な表現で復唱した応答ＲＫ７１を出力する。具体的には、情報処理システム１は、感情語ＫＧ５１である「忙しくてね」と、近接する言語情報である「仕事が」とに基づいて、応答ＲＫ７１を出力する。

　＜２．３．機能構成例＞
　図１０は、実施形態１に係る情報処理システム１の機能構成例を示すブロック図である。

　（１）情報処理装置１０
　図１０に示したように、情報処理装置１０は、通信部１００、制御部１１０、及び記憶部１２０を備える。なお、情報処理装置１０は、少なくとも制御部１１０を有する。

　（１－１）通信部１００
　通信部１００は、外部装置と通信を行う機能を有する。例えば、通信部１００は、外部装置との通信において、外部装置から受信する情報を制御部１１０へ出力する。具体的には、通信部１００は、端末装置２０から受信する発話データを制御部１１０へ出力する。

　通信部１００は、外部装置との通信において、制御部１１０から入力される情報を外部装置へ送信する。具体的には、通信部１００は、制御部１１０から入力される発話データの取得に関する情報を端末装置２０へ送信する。

　（１－２）制御部１１０
　制御部１１０は、情報処理装置１０の動作を制御する機能を有する。例えば、制御部１１０は、発話データの終端を検出する。また、制御部１１０は、検出された終端に関する情報に基づいて、端末装置２０の動作を制御する処理を行う。

　上述の機能を実現するために、制御部１１０は、図１０に示すように、話者識別部１１１、発話検出部１１２、発話認識部１１３、状態推定部１１４、意味解析部１１５、依頼処理部１１６、応答生成部１１７、発話実行部１１８、動作提示部１１９を有する。

　・話者識別部１１１
　話者識別部１１１は、話者の識別処理を行う機能を有する。例えば、話者識別部１１１は、記憶部１２０（例えば、話者情報記憶部１２１）にアクセスして話者情報を用いた識別処理を行う。具体的には、話者識別部１１１は、通信部２００を介して、撮像部２１２から送信された撮像情報と、記憶部１２０に記憶された話者情報とを比較して、話者を識別する。

　・発話検出部１１２
　発話検出部１１２は、話者の発話の検出処理を行う機能を有する。例えば、発話検出部１１２は、通信部２００を介して、発話取得部２１１から送信された発話データに対する検出処理を行う。また、発話検出部１１２は、特定の話者の発話を検出する。例えば、発話検出部１１２は、通信部２００を介して、撮像部２１２から送信された撮像情報に基づいて、特定の話者の発話を検出する。

　・発話認識部１１３
　発話認識部１１３は、話者の発話の認識処理を行う機能を有する。例えば、発話認識部１１３は、通信部２００を介して、発話取得部２１１から送信された発話データに対する認識処理を行う。具体的には、発話認識部１１３は、発話データを、言語情報に変換する。

　また、発話認識部１１３は、発話データの終端を検出する処理を行う機能を有する。例えば、発話認識部１１３は、発話取得部２１１から送信された発話データの終端を検出する処理を行う。具体的には、発話認識部１１３は、言語情報の終端を検出する。

　・状態推定部１１４
　状態推定部１１４は、話者の発話に基づく状態を推定する処理を行う機能を有する。例えば、状態推定部１１４は、通信部２００を介して、発話取得部２１１から送信された発話データに対する推定処理を行う。具体的には、状態推定部１１４は、話者の発話に感情語が含まれる場合、感情理解の状態を推定する。状態推定部１１４は、記憶部１２０（例えば、感情語情報記憶部１２２）にアクセスして言語情報を用いた推定処理を行う。具体的には、状態推定部１１４は、発話データに含まれる言語情報と、記憶部１２０に記憶された感情語とを比較して、感情理解の状態を推定する。

　また、状態推定部１１４は、話者の発話に含まれる言語情報のうち、感情を示す感情語に応じた感情理解の状態を推定する。また、状態推定部１１４は、話者の発話に含まれる言語情報のうち、感情を示す感情語以外の言語情報であって、話者の感情を表現する言語情報に応じた感情理解の状態を推定する。

　また、状態推定部１１４は、話者の発話に依頼関連情報が含まれる場合、実行準備の状態を推定する。また、状態推定部１１４は、話者の発話に感情語及び依頼関連情報が含まれない場合、発話認識の状態を推定する。

　・意味解析部１１５
　意味解析部１１５は、話者の発話に含まれる言語情報から話者の発話の意図を解析する処理を行う機能を有する。具体的には、意味解析部１１５は、話者の発話の言語情報を、名詞や動詞や修飾語等のカテゴリに分類することにより、話者の発話の意図を解析する。

　・依頼処理部１１６
　依頼処理部１１６は、話者の発話に含まれる依頼関連情報に基づく処理を実行するための処理を行う機能を有する。例えば、依頼処理部１１６は、依頼関連情報に基づく処理を実行するための制御情報を生成する。

　・応答生成部１１７
　応答生成部１１７は、話者に提示する応答を生成する処理を行う機能を有する。例えば、応答生成部１１７は、話者に提示する応答である頷きや相槌等を行うための制御情報を生成する。応答生成部１１７は、例えば、大中小等の段階的な動作の頷きを行うための制御情報を予め定めることにより、話者の発話に基づく状態に応じた大きさでの動作の頷きを行うための制御情報を生成する。他の例として、応答生成部１１７は、頷きの動作の大きさを決定するためのパラメータを予め定めることにより、パラメータの値に基づいて、話者の発話に基づく状態に応じた大きさでの動作の頷きを行うための制御情報を生成する。また、応答生成部１１７は、例えば、音量や語調等が異なる相槌を行うための制御情報を予め定めることにより、話者の発話に基づく状態に応じた音量や語調等での相槌を行うための制御情報を生成する。他の例として、応答生成部１１７は、相槌の音量や語調等を決定するためのパラメータを予め定めることにより、パラメータの値に基づいて、話者の発話に基づく状態に応じた音量や語調等での相槌を行うための制御情報を生成する。応答生成部１１７は、話者に応じた基準と比較して相対的な出力を行うための制御情報を生成する。

　応答生成部１１７は、話者の発話以外の周囲音が定常の周囲音の状態であるか否かを判定し、話者の発話以外の周囲音が定常の周囲音の状態である場合には、例えば、定常的な音量や語調等で相槌を行うための制御情報を生成する。また、応答生成部１１７は、話者の発話以外の周囲音が、定常の周囲音の状態と比較して大きい又は小さい場合には、例えば、相対的に同等の音量や語調等で相槌を行うための制御情報を生成する。この場合、応答生成部１１７は、相槌の音量や語調等に応じた大きさでの動作の頷きを行うための制御情報を生成する。

　応答生成部１１７は、大きい動作の頷きを行うための制御情報を生成する場合には、頷きの動作の大きさに応じた音量や語調等の相槌を行うための制御情報を生成する。これにより、応答生成部１１７は、端末装置２０に対して制御する動作である頷きと相槌との大きさを同期させることができる。例えば、応答生成部１１７は、大きい動作の頷きを行うように端末装置２０を制御する場合には、相槌の音量が増すように端末装置２０を制御する。他の例として、応答生成部１１７は、大きい動作の頷きを行うように端末装置２０を制御する場合には、相槌の頻度が増す又は相槌の間（タイミング）が短くなるように端末装置２０を制御する。

　応答生成部１１７は、話者の発話に話者が定常的に用いる感情語が含まれる場合には、定常的な応答を行うための制御情報を生成する。また、応答生成部１１７は、話者の発話に話者が定常的に用いない（使用頻度の低い）又は初出の感情語が含まれる場合には、非定常的な応答を行うための制御情報を生成する。例えば、応答生成部１１７は、非定常的な応答として、話者の発話を聞き返す、身を乗り出す動作を行う、不審な表情を出す動作を行う、又は、復唱の際の語尾を上げる発話を行う等の応答を行うための制御情報を生成する。

　応答生成部１１７は、話者の発話に含まれる言語情報を用いて応答を生成する。例えば、応答生成部１１７は、意味解析部１１５により解析された言語情報を用いて応答を生成する。

　また、応答生成部１１７は、話者の発話に含まれる言語情報のうち、感情を示す感情語を復唱するための共感発話を生成する。また、応答生成部１１７は、話者の発話に含まれる言語情報のうち、感情を示す感情語以外の言語情報であって、話者の感情を表現する言語情報を復唱するための共感発話を生成する。

　・発話実行部１１８
　発話実行部１１８は、話者に対する端末装置２０の発話を実行するための制御情報を提示する処理を行う機能を有する。例えば、発話実行部１１８は、通信部１００を介して、話者に対する端末装置２０の発話を実行するための制御情報を端末装置２０へ提示する。

　・動作提示部１１９
　動作提示部１１９は、話者に対する端末装置２０の動作を制御するための制御情報を提示する処理を行う機能を有する。例えば、動作提示部１１９は、通信部１００を介して、話者に対する端末装置２０の動作を制御するための制御情報を端末装置２０へ提示する。

　（１－３）記憶部１２０
　記憶部１２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、情報処理装置１０における処理に関するデータを記憶する機能を有する。図１０に示すように、記憶部１２０は、話者情報記憶部１２１と、感情語情報記憶部１２２とを有する。

　図１１は、話者情報記憶部１２１の一例を示す。図１１に示す話者情報記憶部１２１は、話者情報を記憶する。図１１に示すように、話者情報記憶部１２１は、「話者ＩＤ」、「話者情報」といった項目を有してもよい。

　「話者ＩＤ」は、話者を識別するための識別情報を示す。「話者情報」は、話者情報を示す。図１１に示す例では、「話者情報」に「話者情報＃１」や「話者情報＃２」といった概念的な情報が格納される例を示したが、実際には、話者の撮像情報等が格納される。

　図１２は、感情語情報記憶部１２２の一例を示す。図１２に示す感情語情報記憶部１２２は、感情語に関する情報を記憶する。図１２に示すように、感情語情報記憶部１２２は、「感情語情報ＩＤ」、「感情語」、「同義語」、「一般共起語」、「話者共起語」といった項目を有してもよい。

　「感情語情報ＩＤ」は、感情語情報を識別するための識別情報を示す。「感情語」は、感情語を示す。「同義語」は、感情語の同義語を示す。「一般共起語」は、感情語を共起するための共起語のうち、一般的に用いられる共起語を示す。「話者共起語」は、感情語を共起するための共起語のうち、話者固有の共起語を示す。

　ここで、実施形態に係る感情語について説明する。実施形態に係る感情語は、一般的な感情語として話者に共通して定められた感情語でなくても、話者固有の特定の表現に対して頻出する言語情報であってもよい。例えば、感情語情報記憶部１２２は、話者固有の特定の表現に対して頻出する言語情報を感情語として記憶してもよい。この場合、情報処理システム１は、感情語を復唱するのではなくて、特定の表現に共起する言語情報を感情語として提示する。例えば、情報処理システム１は、「忙しい」、「死にそう」、「やってられない」等の特定の表現が検出された場合であって、この特定表現に対して頻出する言語情報が「大変」の場合には、「大変」を感情語として提示する。

　（２）端末装置２０
　図１０に示したように、端末装置２０は、通信部２００、制御部２１０、及び提示部２２０を有する。

　（２－１）通信部２００
　通信部２００は、外部装置と通信を行う機能を有する。例えば、通信部２００は、外部装置との通信において、外部装置から受信する情報を制御部２１０へ出力する。具体的に、通信部２００は、情報処理装置１０から受信する発話データの取得に関する情報を制御部２１０へ出力する。また、通信部２００は、情報処理装置１０から受信する制御情報を制御部２１０へ出力する。

　また、通信部２００は、情報処理装置１０から受信する制御情報を提示部２２０へ出力する。

　また、通信部２００は、外部装置との通信において、制御部２１０から入力される情報を外部装置へ送信する。具体的に、通信部２００は、制御部２１０から入力される発話データを情報処理装置１０へ送信する。

　（２－２）制御部２１０
　制御部２１０は、端末装置２０の動作全般を制御する機能を有する。例えば、制御部２１０は、発話取得部２１１による発話データの取得処理を制御する。また、制御部２１０は、発話取得部２１１により取得された発話データを、通信部２００が情報処理装置１０へ送信する処理を制御する。

　・発話取得部２１１
　発話取得部２１１は、話者の発話データを取得する機能を有する。例えば、発話取得部２１１は、端末装置２０に備えられた発話（音声）検出器を用いて発話データを取得する。

　・撮像部２１２
　撮像部２１２は、話者を撮像する機能を有する。

　・動作制御部２１３
　動作制御部２１３は、端末装置２０の動作を制御する機能を有する。例えば、動作制御部２１３は、取得した制御情報に応じて、端末装置２０の動作を制御する。

　（２－３）提示部２２０
　提示部２２０は、提示全般を制御する機能を有する。提示部２２０は、図１０に示すように、音声提示部２２１及び動作提示部２２２を有する。

　・音声提示部２２１
　音声提示部２２１は、端末装置２０の音声を提示する処理を行う機能を有する。例えば、音声提示部２２１は、通信部２００を介して、発話実行部１１８から受信した制御情報に基づいて、音声を提示する。

　・動作提示部２２２
　動作提示部２２２は、端末装置２０の動作を提示する処理を行う機能を有する。例えば、動作提示部２２２は、通信部２００を介して、動作提示部１１９から受信した制御情報に基づいて、動作を提示する。

　＜２．４．情報処理システムの処理＞
　以上、実施形態に係る情報処理システム１の機能について説明した。続いて、情報処理システム１の処理について説明する。

　（１）情報処理装置１０における状態推定に関する処理
　図１３は、実施形態に係る情報処理装置１０における状態推定に関する処理の流れを示すフローチャートである。まず、情報処理装置１０は、発話データに基づいて、話者の発話を検知する（Ｓ１０１）。例えば、情報処理装置１０は、特定の話者の発話を検知する。また、情報処理装置１０は、話者の発話を認識する（Ｓ１０２）。例えば、情報処理装置１０は、話者の発話の終端を検出する。次いで、情報処理装置１０は、感情語を含むか否かを判定する。そして、情報処理装置１０は、話者の発話に感情語が含まれる場合（Ｓ１０４；ＹＥＳ）、感情理解の状態を推定する（Ｓ１０６）。また、情報処理装置１０は、話者の発話に感情語が含まれない場合（Ｓ１０４；ＮＯ）、依頼関連情報を含むか否かを判定する（Ｓ１０８）。そして、情報処理装置１０は、話者の発話に依頼関連情報が含まれる場合（Ｓ１０８；ＹＥＳ）、実行準備の状態を推定する（Ｓ１１０）。また、情報処理装置１０は、話者の発話に依頼関連情報が含まれない場合（Ｓ１０８；ＮＯ）、発話認識の状態を推定する（Ｓ１１２）。

　（２）発話認識の状態を推定した場合の処理
　図１４は、実施形態に係る情報処理装置１０における発話認識の状態を推定した場合の処理の流れを示すフローチャートである。まず、情報処理装置１０は、発話の終端であるか否かを判定する（Ｓ２００）。そして、情報処理装置１０は、発話の終端である場合（Ｓ２００；ＹＥＳ）、復唱やフィラーで相槌をするように端末装置２０を制御する（Ｓ２０２）。また、情報処理装置１０は、発話の終端でない場合（Ｓ２００；ＮＯ）、発話の間であるか否かを判定する（Ｓ２０４）。そして、情報処理装置１０は、発話の間である場合（Ｓ２０４；ＹＥＳ）、小さい音量で相槌をするように端末装置２０を制御する（Ｓ２０６）。また、情報処理装置１０は、発話の間でない場合（Ｓ２０４；ＮＯ）、小さい動作で頷きをするように端末装置２０を制御する（Ｓ２０８）。

　（３）感情理解の状態を推定した場合の処理
　図１５は、実施形態に係る情報処理装置１０における感情理解の状態を推定した場合の処理の流れを示すフローチャートである。まず、情報処理装置１０は、発話の終端であるか否かを判定する（Ｓ３００）。そして、情報処理装置１０は、発話の終端である場合（Ｓ３００；ＹＥＳ）、感情語を復唱するように端末装置２０を制御する（Ｓ３０２）。また、情報処理装置１０は、発話の終端でない場合（Ｓ３００；ＮＯ）、発話の間であるか否かを判定する（Ｓ３０４）。そして、情報処理装置１０は、発話の間である場合（Ｓ３０４；ＹＥＳ）、大きい音量で相槌をするように端末装置２０を制御する（Ｓ３０６）。また、情報処理装置１０は、発話の間でない場合（Ｓ３０４；ＮＯ）、大きい動作で頷きをするように端末装置２０を制御する（Ｓ３０８）。情報処理装置１０は、感情理解の状態を推定した場合には、図１４に示す発話認識の状態を推定した場合よりも、話者にとって認識可能な制御情報を生成する。

　（４）実行準備の状態を推定した場合の処理
　図１６は、実施形態に係る情報処理装置１０における実行準備の状態を推定した場合の処理の流れを示すフローチャートである。まず、情報処理装置１０は、実行に十分な発話を取得したか否かを判定する（Ｓ４００）。そして、情報処理装置１０は、実行に十分な発話を取得したと判定した場合（Ｓ４００；ＹＥＳ）、依頼に関する情報に基づく処理を実行するように端末装置２０を制御する（Ｓ４０２）。また、情報処理装置１０は、実行に十分な発話を取得していないと判定した場合（Ｓ４００；ＮＯ）、実行をキャンセルする旨の発話であるキャンセル発話を取得したか否かを判定する（Ｓ４０４）。そして、情報処理装置１０は、キャンセル発話を取得したと判定した場合（Ｓ４０４；ＹＥＳ）、情報処理を終了する。また、情報処理装置１０は、キャンセル発話を取得していないと判定した場合（Ｓ４０４；ＮＯ）、更なる依頼に関する情報を発話するように促す発話である促し発話を行うように端末装置２０を制御する（Ｓ４０６）。そして、Ｓ４００の処理に戻る。

　＜２．５．処理のバリエーション＞
　以上、本開示の実施形態について説明した。続いて、本開示の実施形態の処理のバリエーションを説明する。なお、以下に説明する処理のバリエーションは、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、処理のバリエーションは、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。

（１）表現
　上記実施形態では、応答生成部１１７が、頷きの大きさ及び相槌の音量や語調等が異なる応答を行うための制御情報を生成する場合を示したが、この例に限られない。応答生成部１１７は、表情の強弱やアニメーション表現の大きさが異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部１１７は、顔の表情、動物等の尻尾や耳の動き、着ている衣服やアクセサリが異なる応答を行うための制御情報を生成してもよい。このように、応答生成部１１７は、映像上の表現に関する制御情報を生成してもよい。

　また、応答生成部１１７は、端末装置２０が示すキャラクタに応じて、頷きや相槌等の仕方が異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部１１７は、端末装置２０が示すキャラクタがビジネスライクなキャラクタである場合には、強弱差が小さい応答を行うための制御情報を生成してもよい。そして、応答生成部１１７は、「はい」や「そうですか」等の丁寧語を用いた相槌を行うための制御情報を生成してもよい。他の例として、応答生成部１１７は、端末装置２０が示すキャラクタがカジュアルなキャラクタである場合には、強弱差が大きい応答を行うための制御情報を生成してもよい。そして、応答生成部１１７は、「うん」や「なるほど」や「へえ」等の日常語を用いた相槌を行うための制御情報を生成してもよい。

（２）個人化
　・間を個人に合わせる
　応答生成部１１７は、話者に応じて間が異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部１１７は、発話データや撮像情報等を用いて話者を識別して、話者ごとの話速や間等を記憶することにより、話者の発話の間を推定してもよい。そして、応答生成部１１７は、相槌等の応答が重ならなかった対話を教師データとして学習してもよい。これにより、応答生成部１１７は、応答の重複を回避するように適応することができる。また、応答生成部１１７は、間が不確定の場合には、例えば、低音量の相槌や、小さい動作の頷きを行うための制御情報を生成してもよい。これにより、情報処理システム１は、話者の発話を阻害することなく応答の提示を行うことができる。

　・相槌のパターンや感情理解の復唱を個人化する
　応答生成部１１７は、相槌の長短や言語情報のバリエーションを変化させることにより、発話が継続する確率の高い相槌のパターンを話者ごとに学習してもよい。また、応答生成部１１７は、相槌後の話者の発話量が増えた場合の相槌の使用頻度が高くなるように学習してもよい。

　・状態の遷移を個人化する
　状態推定部１１４は、感情語を多く用いる話者の場合には、発話認識の状態から感情理解の状態への遷移の頻度を低くして推定してもよい。これにより、情報処理装置１０は、復唱が多くならないように端末装置２０の制御を行うことができる。また、応答生成部１１７は、感情語を多く用いる話者の場合には、感情理解を示すバリエーションが異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部１１７は、感情語情報記憶部１２２等にアクセスして、同義語等を用いた処理を行ってもよい。

　応答生成部１１７は、話者が日常的に忙しい話者の場合には、実行準備の状態において、聞き返しの復唱をせずに処理を行うための制御情報を生成してもよい。これにより、情報処理装置１０は、話者が依頼に関する発話をすると直ぐに実行するように端末装置２０の制御を行うことができる。

　・感情理解の状態の推定の制限
　状態推定部１１４は、話者の感情が定常（ニュートラル）の状態と判定した場合には、話者の発話に感情語を含む場合であっても、感情理解の状態を推定しなくてもよい。例えば、状態推定部１１４は、撮像情報に基づく話者の表情の認識処理結果に基づいて、話者の感情が定常の状態と判定した場合には、感情理解の状態を推定しなくてもよい。他の例として、状態推定部１１４は、話者の発話の抑揚や周辺言語等による発話認識の処理結果に基づいて、話者の感情が定常の状態と判定した場合には、感情理解の状態を推定しなくてもよい。また、状態推定部１１４は、発話に対する言語処理結果に基づいて、発話に含まれる感情語が、話者の感情による言語情報ではなく、他者の感情や他者の文章から引用された言語情報である場合には、感情理解の状態を推定しなくてもよい。

＜＜３．応用例＞＞
　以上、本開示の実施形態について説明した。続いて、本開示の実施形態に係る情報処理システム１の応用例を説明する。

　＜３．１．視聴覚障害＞
　上記実施形態は、視聴覚障害者等の医療分野においても応用し得る。話者が視覚障害者である場合には、頷き等の視覚による応答を適切に把握することができないものと考えられる。このため、情報処理システム１は、話者が視覚障害者の場合には、頷きではなく、相槌を用いて応答を行ってもよい。この場合、応答生成部１１７は、頷きを用いて応答するタイミングに、頷きではなく、相槌を用いて応答を行うための制御情報を生成してもよい。一方、話者が聴覚障害者である場合には、相槌等の聴覚による応答を適切に把握することができないものと考えられる。このため、情報処理システム１は、話者が聴覚障害者の場合には、相槌ではなく、頷きを用いて応答を行ってもよい。この場合、応答生成部１１７は、相槌を用いて応答するタイミングに、相槌ではなく、頷きを用いて応答を行うための制御情報を生成してもよい。

　＜３．２．高齢者＞
　上記実施形態は、高齢者等の介護分野においても応用し得る。話者が高齢者である場合には、情報処理システム１は、頷きや相槌等の応答の動作のテンポを遅くしてもよい。また、情報処理システム１は、終端検出の間の時間等に関する検出の閾値を大きくしてもよい。これにより、情報処理システム１は、話者の発話と端末装置２０による発話とのタイミングが重複しないように制御することができる。また、情報処理システム１は、端末装置２０が示す表情の変化を大きくしてもよい。また、情報処理システム１は、周囲音が定常であっても、聴力が低下している高齢者の場合には、発話音量等の応答の変化を大きくしてもよい。これにより、情報処理システム１は、端末装置２０が話者以外の他者（例えば、話者の家族）とも対話する場合であっても、他者と対話する場合と比較して、端末装置２０が行う応答を相対的に変化させることにより、話者に適した応答を行うことができる。

＜＜４．ハードウェア構成例＞＞
　最後に、図１７を参照しながら、実施形態に係る情報処理装置のハードウェア構成例について説明する。図１７は、実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。なお、図１７に示す情報処理装置９００は、例えば、図１０に示した情報処理装置１０及び端末装置２０を実現し得る。実施形態に係る情報処理装置１０及び端末装置２０による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

　図１７に示すように、情報処理装置９００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２、及びＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３を備える。また、情報処理装置９００は、ホストバス９０４ａ、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１０、及び通信装置９１１を備える。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ハードウェア構成は、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　ＣＰＵ９０１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０２、ＲＡＭ９０３、又はストレージ装置９０８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０２は、ＣＰＵ９０１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０３には、例えば、ＣＰＵ９０１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。これらはＣＰＵバスなどから構成されるホストバス９０４ａにより相互に接続されている。ＣＰＵ９０１、ＲＯＭ９０２およびＲＡＭ９０３は、例えば、ソフトウェアとの協働により、図１０を参照して説明した制御部１１０及び制御部２１０の機能を実現し得る。

　ＣＰＵ９０１、ＲＯＭ９０２、及びＲＡＭ９０３は、例えば、高速なデータ伝送が可能なホストバス９０４ａを介して相互に接続される。一方、ホストバス９０４ａは、例えば、ブリッジ９０４を介して比較的データ伝送速度が低速な外部バス９０４ｂに接続される。また、外部バス９０４ｂは、インタフェース９０５を介して種々の構成要素と接続される。

　入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、話者によって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いて話者により入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００の話者は、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

　他にも、入力装置９０６は、話者に関する情報を検知する装置により形成され得る。例えば、入力装置９０６は、画像センサ（例えば、カメラ）、深度センサ（例えば、ステレオカメラ）、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ（例えば、ＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）センサ）、力センサ等の各種のセンサを含み得る。また、入力装置９０６は、情報処理装置９００の姿勢、移動速度等、情報処理装置９００自身の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音等、情報処理装置９００の周辺環境に関する情報を取得してもよい。また、入力装置９０６は、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）衛星からのＧＮＳＳ信号（例えば、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）衛星からのＧＰＳ信号）を受信して装置の緯度、経度及び高度を含む位置情報を測定するＧＮＳＳモジュールを含んでもよい。また、位置情報に関しては、入力装置９０６は、Ｗｉ－Ｆｉ（登録商標）、携帯電話・ＰＨＳ・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置９０６は、例えば、図１０を参照して説明した発話取得部２１１の機能を実現し得る。

　出力装置９０７は、取得した情報を話者に対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば、図１０を参照して説明した提示部２２０の機能を実現し得る。

　ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図１０を参照して説明した記憶部１２０の機能を実現し得る。

　ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

　接続ポート９１０は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器を接続するためのポートである。

　通信装置９１１は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１１は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等である。また、通信装置９１１は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１１は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１１は、例えば、図１０を参照して説明した通信部１００及び通信部２００の機能を実現し得る。

　なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　以上、実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

＜＜５．まとめ＞＞
　以上説明したように、実施形態に係る情報処理装置１０は、話者の発話に基づく感情理解の状態の推定結果に基づいた出力情報を生成する処理を行う。これにより、情報処理装置１０は、話者の発話に基づく感情理解の状態の推定結果に基づいて、端末装置２０の動作を制御することができる。

　よって、話者の発話の意図に沿った自然な対話を実現することが可能な、新規かつ改良された情報処理装置、情報処理方法及び情報処理プログラムを提供することが可能である。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図１０に示した情報処理装置１０及び端末装置２０は、それぞれ単独の装置として実現されてもよい。また、例えば、情報処理装置１０及び端末装置２０とネットワーク等で接続されたサーバ装置として実現されてもよい。また、情報処理装置１０が有する制御部１１０の機能をネットワーク等で接続されたサーバ装置が有する構成であってもよい。

　また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体（非一時的な媒体：ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｍｅｄｉａ）に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にＲＡＭに読み込まれ、ＣＰＵなどのプロセッサにより実行される。

　また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定部と、
　前記状態推定部による推定結果に基づいた出力情報を生成する応答生成部と、
　を備える、情報処理装置。
（２）
　前記状態推定部は、
　前記感情理解を含む複数の状態を推定する、
　前記（１）に記載の情報処理装置。
（３）
　前記状態推定部は、
　前記複数の状態として、前記感情理解、前記話者の発話を認識する発話認識、及び、当該話者の発話に含まれる依頼に関する情報に基づく処理を実行するための準備である実行準備処理のうち少なくともいずれか一つの状態を推定する、
　前記（２）に記載の情報処理装置。
（４）
　前記状態推定部は、
　前記話者の発話に含まれる言語情報のうち感情を示す感情語に応じた前記感情理解の状態を推定する、
　前記（１）～（３）のいずれか一項に記載の情報処理装置。
（５）
　前記状態推定部は、
　前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報に応じた前記感情理解の状態を推定する、
　前記（１）～（４）のいずれか一項に記載の情報処理装置。
（６）
　前記応答生成部は、
　前記話者の発話の終端に関する情報に基づいて、当該話者の発話を認識する発話認識に基づいた前記出力情報を生成する、
　前記（１）～（５）のいずれか一項に記載の情報処理装置。
（７）
　前記応答生成部は、
　前記話者の発話の終端に関する情報に基づいて、前記感情理解に基づいた前記出力情報を生成する、
　前記（１）～（６）のいずれか一項に記載の情報処理装置。
（８）
　前記応答生成部は、
　前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語を復唱するための共感発話を生成する、
　前記（７）に記載の情報処理装置。
（９）
　前記応答生成部は、
　前記感情語に対応する同義語として予め定められた言語情報を復唱するための共感発話を生成する、
　前記（８）に記載の情報処理装置。
（１０）
　前記応答生成部は、
　前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報を復唱するための共感発話を生成する、
　前記（７）～（９）のいずれか一項に記載の情報処理装置。
（１１）
　前記応答生成部は、
　前記話者の発話に含まれる依頼に関する情報が所定の条件を満たす場合、当該依頼に関する情報に基づいた前記出力情報を生成する、
　前記（１）～（１０）のいずれか一項に記載の情報処理装置。
（１２）
　前記応答生成部は、
　前記話者の発話に含まれる依頼に関する情報が所定の条件を満たさない場合、当該話者に対して当該依頼に関する情報を発話するよう促すための前記出力情報を生成する、
　前記（１）～（１１）のいずれか一項に記載の情報処理装置。
（１３）
　前記応答生成部は、
　前記出力情報として、音声情報、又は、動作情報を生成する、
　請求項１に記載の情報処理装置。
　前記（１）～（１２）のいずれか一項に記載の情報処理装置。
（１４）
　前記応答生成部は、
　前記出力情報として、映像上の表現に関する前記動作情報を生成する、
　前記（１３）に記載の情報処理装置。
（１５）
　前記応答生成部は、
　前記感情理解に基づいた前記出力情報として、前記話者の発話を認識する発話認識に基づいた前記出力情報よりも、当該話者にとって認識可能な前記音声情報、又は、前記動作情報を生成する、
　前記（１３）又は（１４）に記載の情報処理装置。
（１６）
　前記応答生成部は、
　前記話者に応じた基準と比較して相対的な前記出力情報を生成する、
　前記（１３）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記応答生成部は、
　前記出力情報として、前記話者の周囲の環境に応じた音量での前記音声情報を生成する、
　前記（１６）に記載の情報処理装置。
（１８）
　コンピュータが、
　話者の発話に基づく感情を理解する感情理解の状態を推定し、
　推定された推定結果に基づいた出力情報を生成する、
　情報処理方法。
（１９）
　話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定手順と、
　推定された推定結果に基づいた出力情報を生成する応答生成手順と、
　をコンピュータに実行させることを特徴とする情報処理プログラム。

　１　情報処理システム
　１０　情報処理装置
　２０　端末装置
　１００　通信部
　１１０　制御部
　１１１　話者識別部
　１１２　発話検出部
　１１３　発話認識部
　１１４　状態推定部
　１１５　意味解析部
　１１６　依頼処理部
　１１７　応答生成部
　１１８　発話実行部
　１１９　動作提示部
　１２０　記憶部
　２００　通信部
　２１０　制御部
　２１１　発話取得部
　２１２　撮像部
　２１３　動作制御部
　２２０　提示部
　２２１　音声提示部
　２２２　動作提示部

Claims

　話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定部と、
　前記状態推定部による推定結果に基づいた出力情報を生成する応答生成部と、
　を備える、情報処理装置。
　前記状態推定部は、
　前記感情理解を含む複数の状態を推定する、
　請求項１に記載の情報処理装置。
　前記状態推定部は、
　前記複数の状態として、前記感情理解、前記話者の発話を認識する発話認識、及び、当該話者の発話に含まれる依頼に関する情報に基づく処理を実行するための準備である実行準備処理のうち少なくともいずれか一つの状態を推定する、
　請求項２に記載の情報処理装置。
　前記状態推定部は、
　前記話者の発話に含まれる言語情報のうち感情を示す感情語に応じた前記感情理解の状態を推定する、
　請求項１に記載の情報処理装置。
　前記状態推定部は、
　前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報に応じた前記感情理解の状態を推定する、
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記話者の発話の終端に関する情報に基づいて、当該話者の発話を認識する発話認識に基づいた前記出力情報を生成する、
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記話者の発話の終端に関する情報に基づいて、前記感情理解に基づいた前記出力情報を生成する、
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語を復唱するための共感発話を生成する、
　請求項７に記載の情報処理装置。
　前記応答生成部は、
　前記感情語に対応する同義語として予め定められた言語情報を復唱するための共感発話を生成する、
　請求項８に記載の情報処理装置。
　前記応答生成部は、
　前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報を復唱するための共感発話を生成する、
　請求項７に記載の情報処理装置。
　前記応答生成部は、
　前記話者の発話に含まれる依頼に関する情報が所定の条件を満たす場合、当該依頼に関する情報に基づいた前記出力情報を生成する、
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記話者の発話に含まれる依頼に関する情報が所定の条件を満たさない場合、当該話者に対して当該依頼に関する情報を発話するよう促すための前記出力情報を生成する、
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記出力情報として、音声情報、又は、動作情報を生成する、
　請求項１に記載の情報処理装置。
　前記応答生成部は、
　前記出力情報として、映像上の表現に関する前記動作情報を生成する、
　請求項１３に記載の情報処理装置。
　前記応答生成部は、
　前記感情理解に基づいた前記出力情報として、前記話者の発話を認識する発話認識に基づいた前記出力情報よりも、当該話者にとって認識可能な前記音声情報、又は、前記動作情報を生成する、
　請求項１３に記載の情報処理装置。
　前記応答生成部は、
　前記話者に応じた基準と比較して相対的な前記出力情報を生成する、
　請求項１３に記載の情報処理装置。
　前記応答生成部は、
　前記出力情報として、前記話者の周囲の環境に応じた音量での前記音声情報を生成する、
　請求項１６に記載の情報処理装置。
　コンピュータが、
　話者の発話に基づく感情を理解する感情理解の状態を推定し、
　推定された推定結果に基づいた出力情報を生成する、
　情報処理方法。
　話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定手順と、
　推定された推定結果に基づいた出力情報を生成する応答生成手順と、
　をコンピュータに実行させることを特徴とする情報処理プログラム。