JP2022054326A

JP2022054326A - ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法

Info

Publication number: JP2022054326A
Application number: JP2020161450A
Authority: JP
Inventors: 俊一田原; Shunichi Tawara; 元服部; Hajime Hattori; 一則松本; Kazunori Matsumoto
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-04-06
Anticipated expiration: 2040-09-25
Also published as: JP7423490B2

Abstract

【課題】ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム等を提供する。
【解決手段】ユーザの発話音声から発話文に変換する音声解析手段と、ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、ユーザの発話文から感情極性を判定する発話文感情判定手段と、感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段としてコンピュータを機能させる。
【選択図】図２

Description

本発明は、ユーザと対話する対話エージェントの技術に関する。

スマートフォンやタブレット端末を用いて、ユーザと自然に対話する「対話エージェント」の技術が普及している。この技術によれば、ディスプレイに表示されたコンピュータグラフィックスのキャラクタ（アバター）が、ユーザに対して音声やテキストで対話する。対話エージェントとしてのキャラクタは、ユーザから見て対話可能な人物として認識でき、固有のプロファイル（年齢、性別、出身地等の属性）を有する。勿論、キャラクタは、実在しない仮想的なものであってもよい。キャラクタは、ユーザの状況や趣味趣向に応じて対話を成立させるために、ユーザは、そのキャラクタに対して親近感を持ちやすい。

対話エージェントとしては、「対話シナリオ」や「機械学習モデル」に基づいて対話を進行させるものがある。また、対話エージェントは、ユーザの発話文に対して対話シナリオや機械学習モデルによって適切な応答文を推定できない場合であっても、相槌やオウム返しのような傾聴的な応答文を返答することもできる。ユーザは、傾聴的な応答文によって、キャラクタが自ら話を理解してくれているような錯覚を持ちやすい。

従来、人間同士の対話の中で、相槌のように傾聴的に応答するだけでなく、相手の身振り（仕草）を模倣することによって、模倣しない場合と比較して、相手に対してポジティブな印象を与えたり、ラポール形成が生まれやすくなることが理解されている（例えば非特許文献１参照）。
これによれば、対話エージェントとしてのキャラクタが、ユーザの顔表情や身振りを模倣することによって、ユーザは、キャラクタに対して、自分の話を理解してくれていると感じることが予想される。例えばカウンセリングの場合、ユーザ自らの悩みなどの発言を引き出しやすくなる。

また、ユーザの顔表情や身振りを検出し、ＣＧ(Computer Graphics)のキャラクタが、そのユーザの顔表情や身振りを模倣する技術もある（例えば非特許文献２参照）。この技術によれば、カメラで撮影された、ユーザの顔が映り込む映像を解析することによって、ユーザの顔表情（喜びや悲しみなど）を検出する。また、身振りについては、静止画に映る人間の関節点を検出するOpenPose（商標登録）が用いられている（例えば非特許文献３参照）。

更に、対話中に出現する発話文とその発話文に対する相槌とを訓練した学習モデルを構築し、その学習モデルにパターンをモデルに学習し、任意のユーザ発話をモデルに入力すると、適切な相槌を予測して出力する技術もある（例えば非特許文献４参照）。ユーザの発言に対してキャラクタが例えば「うんうん」と相槌を打つことによって、ユーザは、自らの話を聞いてくれていると感じて、対話における好感度を高めることもできる。

心理臨床場面でのノンバーバル・スキルに関する実験的検討、青柳宏亮, Japanese Journal of Counseling Science, 2013、[online]、［令和２年９月２０日検索］、インターネット＜URL:https://www.jstage.jst.go.jp/article/cou/46/2/46_83/_article/-char/ja/＞人に寄り添うAIの実現に向け、感情表現を模倣する技術を開発、日立製作所, (2018)、[online]、［令和２年９月２０日検索］、インターネット＜URL:https://www.hitachi.co.jp/rd/news/topics/2018/1106.html＞ Gui Liang-Yan, et al. "Teaching robots to predict human motion." [2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, (2018)]、[online]、［令和２年９月２０日検索］、インターネット＜URL:https://www.researchgate.net/publication/330580980_Teaching_Robots_to_Predict_Human_Motion＞ Prediction and Generation of Backchannel Form for Attentive Listening Systems. [Kawahara, Tatsuya, et al, Interspeech. 2016.]、[online]、［令和２年９月２０日検索］、インターネット＜URL:http://sap.ist.i.kyoto-u.ac.jp/EN/bib/intl/KAW-INTERSP16.pdf＞ＡＩと機械学習プロダクト、「感情分析」、[online]、［令和２年９月３日検索］、インターネット＜https://cloud.***.com/natural-language/docs/analyzing-sentiment?hl=ja＞市川寛子. 二者間対面コミュニケーションにおける同調的表情表出. Diss. 筑波大学, 2008.、[online]、［令和２年９月２０日検索］、インターネット＜URL:https://tsukuba.repo.nii.ac.jp/?action=repository_action_common_download&item_id=21183&item_no=1&attribute_id=17&file_no=2＞ N2、KDDI総合研究所、[online]、［令和２年９月３日検索］、インターネット＜https://www.kddi-research.jp/products/n2/spec.html＞ Prediction and Generation of Backchannel Form for Attentive Listening Systems. [Kawahara, Tatsuya, et al, Interspeech. 2016.]、[online]、［令和２年９月３日検索］、インターネット＜https:https://www.researchgate.net/publication/307889355_Prediction_and_Generation_of_Backchannel_Form_for_Attentive_Listening_Systems＞ Jianming Wu et al. "Effects of objective feedback of facial expression recognition during video support chat", MUM '17: Proceedings of the 16th International Conference on Mobile and Ubiquitous Multimedia.、[online]、［令和２年９月３日検索］、インターネット＜https://dl.acm.org/doi/10.1145/3152832.3152848＞ Wang, Yanan, et al. "Multi-Attention Fusion Network for Video-based Emotion Recognition." 2019 International Conference on Multimodal Interaction. 2019. 、[online]、［令和２年９月３日検索］、インターネット＜https:https://www.researchgate.net/publication/336632156_Multi-Attention_Fusion_Network_for_Video-based_Emotion_Recognition＞ J. Xu, K. Tasaka, and H. Yanagihara, "Beyond Two-stream: Skeleton-based Three-stream Networks for Action Recognition in Videos", The 24th International Conference on Pattern Recognition (ICPR2018).

非特許文献２及び３に記載された技術によれば、対話中に、ユーザの顔表情や身振りが変化しない限り、キャラクタがそれを模倣することはできない。そのために、ユーザから見て、キャラクタに対する好感度を高める効果に乏しいという問題が生じる。
また、非特許文献４に記載の技術によれば、ユーザは、長時間に及ぶ対話の中でキャラクタに何度も単調な相槌をされた場合、違和感を生じ、キャラクタに対する好感度が低下するという問題も生じる。

そこで、本発明は、ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法を提供することを目的とする。

本発明によれば、ユーザの感情に応じた対話エージェントとしてコンピュータを機能させるプログラムであって、
ユーザの発話音声から発話文に変換する音声解析手段と、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
ユーザの発話文から感情極性を判定する発話文感情判定手段と、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
してコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
音声解析手段は、ユーザの発話音声から話調データを更に検出し、
音声合成手段は、話調データに同期させて応答音声を生成する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
話調データは、単位時間当たりの文字数、及び／又は、音量レベルである
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
キャラクタ映像生成手段は、感情極性毎に、顔表情が異なるキャラクタ映像を予め記憶しており、判定された感情極性に応じた顔表情のキャラクタ映像を生成する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
キャラクタ映像生成手段は、感情極性毎に、複数の骨格点の時系列の座標変位を予め記憶しており、判定された感情極性に応じた複数の骨格点の座標変位を、キャラクタの複数の骨格点に対応させて時系列に変位させたキャラクタ映像を生成する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
発声中のユーザが映り込む映像を入力し、当該ユーザの感情極性を判定するユーザ映像解析手段と、
ユーザ映像解析手段によって感情極性が判定できなかった際に、キャラクタ映像生成手段に対して、発話文感情判定手段によって判定された感情極性のキャラクタ映像を生成させ、逆に、判定できた際に、キャラクタ映像生成手段に対して、ユーザ映像解析手段によって判定された感情極性のキャラクタ映像を生成させる視覚表現判定手段と
してコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
ユーザ映像解析手段は、教師データとして複数のユーザの顔表情と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における顔映像から、当該ユーザの感情極性を推定する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
ユーザ映像解析手段は、教師データとして複数のユーザについて複数の骨格点の時系列の座標変位と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における複数の骨格点の時系列の座標変位から、当該ユーザの感情極性を推定する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
対話制御手段は、対話シナリオに基づくシナリオ的な応答文を生成すると共に、発話文感情判定手段によってポジティブ又はニュートラルな感情極性が得られた場合にのみ、傾聴的な応答文を生成することもできる
ようにコンピュータを機能させることも好ましい。

本発明によれば、ユーザの感情に応じた対話エージェントとして機能させる対話装置であって、
ユーザの発話音声から発話文に変換する音声解析手段と、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
ユーザの発話文から感情極性を判定する発話文感情判定手段と、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
を有することを特徴とする。

本発明によれば、ユーザの感情に応じた対話エージェントとして機能させる装置の対話方法であって、
装置は、
ユーザの発話音声から発話文に変換する第１のステップと、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する第２のステップと、
ユーザの発話文から感情極性を判定する第３のステップと、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成する第４のステップと、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる第５のステップと、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる第６のステップと
を実行することを特徴とする。

本発明の対話プログラム、装置及び方法によれば、ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラムことができる。

対話装置の実施形態を表す構成図である。本発明における対話装置の基本的な機能構成図である。音声取得部及び音声解析部の処理を表す説明図である。発話文感情判定部の処理を表す説明図である。キャラクタ映像生成部における身振り生成機能を表す説明図である。音声合成部及び映像表示制御部の処理を表す説明図である。ユーザ映像解析部及び視覚表現判定部を更に含む対話装置の機能構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、対話装置の実施形態を表す構成図である。

図１（ａ）によれば、ユーザは、スマートフォンやタブレットのような、ディスプレイを搭載した対話装置１と対話する。対話装置１には、本発明の対話プログラムが予めインストールされたものとして実装されている。
対話装置１のディスプレイには、対話エージェントしてのキャラクタ（アバター）が表示されている。ユーザの発話音声は、対話装置１のマイクによって収音され、対話プログラムに入力される。対話プログラムは、ユーザの発話文に応じた応答文を生成し、対話装置１のスピーカから音声で応答する。

図１（ｂ）によれば、対話装置１は、ネットワークに接続されたサーバとして実装されている。端末２は、対話装置１とネットワークを介して通信すると共に、ディスプレイ、マイク及びスピーカを備えたユーザインタフェースとして機能する。
端末２は、対話装置１からの指示に応じて、ディスプレイのキャラクタの表示態様を制御する。また、端末２は、マイクによって収音した音声情報を対話装置１へ送信し、対話装置１から返答された応答文をスピーカから出力する。

図２は、本発明における対話装置の基本的な機能構成図である。

本発明の対話装置１は、ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラムとして機能する。これによって、ユーザは、対話装置１のディスプレイに表示されたキャラクタが自らの話を理解してくれているように感じ、キャラクタに対する好感度を高めることができる。
図２によれば、本発明の対話装置１は、対話制御部１０と、音声取得部１０１と、音声解析部１１と、発話文感情判定部１２と、キャラクタ映像生成部１３と、音声合成部１４と、映像表示制御部１５とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話方法としても理解できる。

［音声取得部１０１］
音声取得部１０１は、マイクからユーザの発話音声を入力し、ユーザの発話期間の音声信号のみを音声解析部１１へ出力する。勿論、ユーザの発話音声は、映像から抽出された音声であってもよい。

図３は、音声取得部及び音声解析部の処理を表す説明図である。
図３によれば、音声取得部１０１は、ユーザの発話期間の音声信号のみを検出する。
（キャラクタ「おはようー！」） -> ユーザ「おはよう～」
（キャラクタ「どこに行くの？」） -> ユーザ「映画を観に行くよ」

［音声解析部１１］
音声解析部１１は、音声取得部１０１から入力されたユーザ発話の音声信号を、「発話文（テキスト）」に変換する。具体的には、例えばGoogle（登録商標）のCloud Speech-to-Text（登録商標）や、Microsoft（登録商標）のSpeech to Text（登録商標）のような技術を適用することができる。

また、音声解析部１１は、ユーザ発話の音声信号から「話調データ」を更に検出することもできる。話調データとは、単位時間当たりの文字数（発話速度）、及び／又は、音量レベル（声量（例えばデシベル））である。
ここで、音声解析部１１は、ユーザの発話音声を、発話速度に応じて例えば「遅い」「速い」「普通」の３つに分類するものであってもよい。最も簡単な判定基準としては、分類毎に、発話速度の閾値を予め規定しておけばよい。
＜発話速度＞＜判定基準＞
遅い１秒当たり平均2文字以下
普通１秒当たり平均3～5文字
速い１秒当たり平均6文字以上

他の実施形態として、図３によれば、例えば１秒当たりの文字数が異なる複数のテスト発話文を、実際に人に聞かせ、その人に、主観的な印象「遅い」「普通」「速い」をラベリングさせるものであってもよい。
最も簡単な方法としては、多数決によって、文字数毎に主観的な印象を決定することができる。
別途の方法としては、印象のラベル毎に、以下のように平均値を算出するものであってもよい。
印象「遅い」： No.1とNo.6の平均値 1.589(字)＝（1.428＋1.750）／2
印象「普通」： No.3とNo.4の平均値 2.612(字)＝（2.140＋3.083）／2
印象「速い」： No.2とNo.5の平均値 6.850(字)＝（5.900＋7.800）／2
そして、印象「遅い」の平均値と印象「普通」の平均値との中間値を、印象「遅い」の判定基準とする。
印象「遅い」： 2.101字＝（1.589(字)＋2.612(字)）／2
印象「普通」： 4.730字＝（2.612(字)＋6.850(字)）／2
例えばユーザの発話速度が3.429（字/秒）の場合、「普通」と判定する。

そして、音声解析部１１は、検出した発話文を、発話文感情判定部１２及び対話制御部１０へ出力すると共に、話調データを、音声合成部１４へ出力する。

［発話文感情判定部１２］
発話文感情判定部１２は、ユーザの発話文から「感情極性」を判定する。
感情極性として、例えばポジティブ／ネガティブ／ニュートラルの３分類のいずれかに判定するものであってもよい。具体的には、Support Vector Machine等の判定器を使用する方法や、Google（登録商標）社が提供しているCloud Natural Language APIを使用する方法がある（例えば非特許文献５参照）。

発話文感情判定部１２は、ユーザの発話文に含まれる単文毎に「感情極性」を判定するものであってもよい。結果的に、総合的にその発話文全体の感情極性を判定するものであってもよいし、１つでもポジティブな単文が含まれている場合には発話文全体をポジティブと判定するものであってもよい。

図４は、発話文感情判定部の処理を表す説明図である。
図４によれば、発話文感情判定部１２は、ユーザの発話文毎に、以下のように感情極性を判定している。
発話文「おはよう」 -> 感情極性「ニュートラル」
発話文「映画を観に行くよ」 -> 感情極性「ポジティブ」
そして、発話文感情判定部１２は、判定した感情極性を、対話制御部１０及びキャラクタ映像生成部１３へ出力する。

尚、発話文感情判定部１２は、ポジティブ／ネガティブ／ニュートラルに限るものでは、なく、例えば７つの感情極性（喜び、悲しみ、怒り、軽蔑、嫌悪、恐れ、驚き）を判定できるものであってもよい。各感情極性に応じて、対話制御部１０及びキャラクタ映像生成部１３を機能させる。

［対話制御部１０］
対話制御部１０は、音声解析部１１から入力されたユーザの発話文から、シナリオ的又は傾聴的な応答文を生成する。

対話制御部１０は、一般的な対話エージェントであり、「対話シナリオ」に基づいてユーザとの対話を進行させる。対話シナリオは、発話文と応答文との交互のシーケンスによって構成されている。発話文は、ユーザが発話するであろうと想定したテキストであり、応答文は、その発話文に対して対話エージェントが返答するテキストである。
対話制御部１０は、ユーザの発話文が対話シナリオに沿っている場合には、「シナリオ的応答文」で返答することできる。一方で、そうでない場合には、ユーザの発話文に対して傾聴的な応答文を返答することができ、ユーザからの次の発話文を待つ。傾聴的な応答文としては、相槌であってもよいし、オウム返しであってもよい。

また、対話制御部１０は、発話文感情判定部１２によってポジティブ又はニュートラルな感情極性が得られた場合にのみ、傾聴的な応答文を生成することも好ましい。ネガティブな感情極性が得られた場合に、相槌やオウム返しで返答すると、ユーザのネガティブな発話文を肯定したように感じられるためである。
勿論、対話制御部１０によって生成される応答文は、シナリオ的応答文や傾聴的応答文に限ることなく、機械学習エンジンを用いて推定されるものであってもよい。

［キャラクタ映像生成部１３］
キャラクタ映像生成部１３は、感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成する。感情極性に応じて、以下のように表現することできる。
＜キャラクタの顔表情の生成＞
＜キャラクタの身振りの生成＞

＜キャラクタの顔表情の生成＞
キャラクタ映像生成部１３は、感情極性毎に、顔表情が異なるキャラクタ映像を予め記憶しており、判定された感情極性に応じた顔表情のキャラクタ映像を生成する。
感情極性「ポジティブ」 -> 笑顔のキャラクタ映像
感情極性「ネガティブ」 -> 悲しい顔のキャラクタ映像
これによって、ユーザの感情極性を模倣した顔表情のキャラクタ映像が表示される。

尚、顔表情の生成における他の実施形態として、発話文感情判定部１２が７つの感情極性（喜び、悲しみ、怒り、軽蔑、嫌悪、恐れ、驚き）の中で「怒り」と判定した場合、キャラクタ映像生成部１３は、「怒り」の顔表情を模倣せず、あえて「喜び」の顔表情を選択するようにすることも好ましい。
人間同士の対話の中で、相手方が怒りの表情を表出している時に、自らも怒りの表情を表出すると、相手から好感を持たれない傾向がある（例えば非特許文献６参照）。この場合、「笑顔」を表出するとよい、と言及されている。この知見を踏まえれば、キャラクタ映像生成部１３は、発話文感情判定部１２によって出力された顔表情をそのまま模倣することなく、適応的に変化させた顔表情を生成することも好ましい。

＜キャラクタの身振りの生成＞
キャラクタ映像生成部１３は、感情極性毎に、複数の骨格点の時系列の座標変位を予め記憶しており、判定された感情極性に応じた複数の骨格点の座標変位を、キャラクタの複数の骨格点に対応させて時系列に変位させたキャラクタ映像を生成する。
感情極性「ポジティブ」 -> 手を上げる身振りのキャラクタ映像
感情極性「ネガティブ」 -> 手を組む身振りのキャラクタ映像
これによって、ユーザの感情極性を模倣した身振りのキャラクタ映像が表示される。

図５は、キャラクタ映像生成部における身振り生成機能を表す説明図である。
図５によれば、キャラクタに複数の骨格点が対応付けられており、骨格点同士が線で結ばれる。尚、複数の骨格点を１つに纏めた座標を、フレーム骨格点座標として定義される。
これら複数の骨格点を時系列に変位させることによって、所定の身振りを生成する。キャラクタを動かす映像生成ソフトとして、例えばLive2D（登録商標）がある。

［音声合成部１４］
音声合成部１４は、対話制御部１０から入力された応答文を応答音声に変換し、当該応答音声をスピーカから出力させる。
また、音声合成部１４は、音声解析部１１から出力された「話調データ」に応じて、応答音声を制御することもできる。

図６は、音声合成部及び映像表示制御部の処理を表す説明図である。
図６によれば、音声合成部１４は、対話制御部１０から応答文「映画、いいねえ」が入力され、音声解析部１１から話調データ「速い」が入力されている。このとき、音声合成部１４は、応答文「映画、いいねえ」を、「速い」話調で、音声信号に合成する。音声合成部１４は、話調データに合わせた音声応答を生成するために、具体的にはN2を適用することもできる（例えば非特許文献７参照）。
また、音声合成部１４は、合成された音声信号に同期するように、映像表示制御部１５へ指示する。

尚、他の実施形態として、相槌的な応答文のパターンが少ない場合、相槌毎に、異なる話調データに基づく応答音声を予め登録しているものであってもよい。具体的には、１つの相槌「うんうん」について、異なる話調データの応答音声を複数用意しておく（例えば非特許文献８参照）。相槌「うんうん」を返答する際に、音声解析部１１から出力された「話調データ」に応じた相槌の応答音声を選択することができる。

［映像表示制御部１５］
映像表示制御部１５は、音声合成部１４から出力される応答音声に同期して、キャラクタ映像をディスプレイに表示させる。
具体的には、キャラクタ映像における口部分が、応答音声に同期して変化するように、再生速度を速めたり遅めたりして制御する。キャラクタ映像と応答音声とが同期することによって、ユーザが、キャラクタとの対話に違和感を生じないようにする。

図７は、ユーザ映像解析部及び視覚表現判定部を更に含む対話装置の機能構成図である。

［映像取得部１０２］
対話装置１は、カメラを更に有し、ユーザが映り込む映像を撮影する。その映像は、映像取得部１０２へ入力される。
映像取得部１０２は、例えば音声取得部１０１でユーザの発話期間だけ同期して、その映像を切り取るものであってもよい。前述した図３の場合、ユーザの発話期間における2秒～7秒と14秒～18秒の期間の映像のみを抽出する。
抽出された映像は、ユーザ映像解析部１６へ出力される。

［ユーザ映像解析部１６］
ユーザ映像解析部１６は、ユーザが映り込む映像を入力し、当該ユーザの感情極性を判定する。
ユーザ映像解析部１６は、映像から、以下のような感情極性を推定する。
＜ユーザの顔表情からの感情極性の推定＞
＜ユーザの身振りからの感情極性の推定＞

＜ユーザの顔表情からの感情極性の推定＞
ユーザ映像解析部１６は、教師データとして複数のユーザの顔表情と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における顔映像から、当該ユーザの感情極性を推定する。
ユーザの顔画像から３つの感情極性（ポジティブ／ネガティブ／ニュートラル）を判定する既存技術がある（例えば非特許文献９参照）。また、ユーザの顔画像から７つの感情極性（喜び、悲しみ、怒り、軽蔑、嫌悪、恐れ、驚き）を判定する既存技術もある（例えば非特許文献１０参照）。映像は、複数のフレーム（静止画）から構成されるが、各フレームに映るユーザの顔表情から感情極性を判定し、最も多く出現した感情極性に決定するものであってもよい。

＜ユーザの身振りからの感情極性の推定＞
ユーザ映像解析部１６は、教師データとして複数のユーザについて複数の骨格点の時系列の座標変位と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における複数の骨格点の時系列の座標変位から、当該ユーザの感情極性を推定する。映像に含まれる各フレームを学習エンジンに入力し、最も多く出現した感情極性を決定するものであってよい。
身振りの判定について、フレーム毎に、ユーザの大まかな骨格を捉えて、右肩、右手首、右膝など複数の骨格点の座標(x,y)を推定する既存技術がある（例えば非特許文献１１参照）。

［視覚表現判定部１７］
視覚表現判定部１７は、ユーザ映像解析部１６における感情極性の判定の有無に応じて、以下のように判定する。
（１）ユーザ映像解析部１６によって感情極性が判定できなかった場合
視覚表現判定部１７は、キャラクタ映像生成部１３に対して、「発話文感情判定部１２によって判定された感情極性」のキャラクタ映像を生成させる。
（２）ユーザ映像解析部１６によって感情極性が判定できた場合
視覚表現判定部１７は、キャラクタ映像生成部１３に対して、「ユーザ映像解析部１６によって判定された感情極性」のキャラクタ映像を生成させる。
尚、感情極性が３分類の場合、「感情極性が判定できなかった場合」とはニュートラルであった場合を意味し、「感情極性が判定できた場合」とはポジティブ／ネガティブであった場合を意味する。

以上、詳細に説明したように、本発明の対話プログラム、装置及び方法によれば、ユーザの感情に応じたキャラクタの傾聴感を表現することができる。
本発明によれば、ユーザの発話音声（又は映像）から推定されたユーザの感情極性に応じて、対話エージェントとしてのキャラクタ自体の視覚表現を変化させることができる。具体的には、キャラクタの視覚表現は、ユーザの発話文から推定される感情極性を模倣して変化する。また、キャラクタは、ユーザの発話文の感情極性を模倣するだけでなく、ユーザの発話音声の話調も模倣するために、ユーザはキャラクタに対する同調感覚を持つことができる。更に、ユーザの映像から顔表情や身振りから感情極性を推定できなくても、ユーザの発話文から感情極性を推定するために、その感情極性に応じたキャラクタ映像を再生することができる。
ユーザは、自らの感情極性と同じ感情極性で傾聴的に表現されるキャラクタと対話することによって、そのキャラクタに対する好感度を高めることができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１対話装置
１０対話制御部
１０１音声取得部
１０２映像取得部
１１音声解析部
１２発話文感情判定部
１３キャラクタ映像生成部
１４音声合成部
１５映像表示制御部
１６ユーザ映像解析部
１７視覚表現判定部
２端末

Claims

ユーザの感情に応じた対話エージェントとしてコンピュータを機能させるプログラムであって、
ユーザの発話音声から発話文に変換する音声解析手段と、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
ユーザの発話文から感情極性を判定する発話文感情判定手段と、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
してコンピュータを機能させることを特徴とするプログラム。
音声解析手段は、ユーザの発話音声から話調データを更に検出し、
音声合成手段は、話調データに同期させて応答音声を生成する
ようにコンピュータを機能させることを特徴とする請求項１に記載のプログラム。
話調データは、単位時間当たりの文字数、及び／又は、音量レベルである
ようにコンピュータを機能させることを特徴とする請求項２に記載のプログラム。
キャラクタ映像生成手段は、感情極性毎に、顔表情が異なるキャラクタ映像を予め記憶しており、判定された感情極性に応じた顔表情のキャラクタ映像を生成する
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
キャラクタ映像生成手段は、感情極性毎に、複数の骨格点の時系列の座標変位を予め記憶しており、判定された感情極性に応じた複数の骨格点の座標変位を、キャラクタの複数の骨格点に対応させて時系列に変位させたキャラクタ映像を生成する
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
発声中のユーザが映り込む映像を入力し、当該ユーザの感情極性を判定するユーザ映像解析手段と、
ユーザ映像解析手段によって感情極性が判定できなかった際に、キャラクタ映像生成手段に対して、発話文感情判定手段によって判定された感情極性のキャラクタ映像を生成させ、逆に、判定できた際に、キャラクタ映像生成手段に対して、ユーザ映像解析手段によって判定された感情極性のキャラクタ映像を生成させる視覚表現判定手段と
してコンピュータを機能させることを特徴とする請求項１から５のいずれか１項に記載のプログラム。
ユーザ映像解析手段は、教師データとして複数のユーザの顔表情と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における顔映像から、当該ユーザの感情極性を推定する
ようにコンピュータを機能させることを特徴とする請求項６に記載のプログラム。
ユーザ映像解析手段は、教師データとして複数のユーザについて複数の骨格点の時系列の座標変位と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における複数の骨格点の時系列の座標変位から、当該ユーザの感情極性を推定する
ようにコンピュータを機能させることを特徴とする請求項６に記載のプログラム。
対話制御手段は、対話シナリオに基づくシナリオ的な応答文を生成すると共に、発話文感情判定手段によってポジティブ又はニュートラルな感情極性が得られた場合にのみ、傾聴的な応答文を生成することもできる
ようにコンピュータを機能させることを特徴とする請求項１から７のいずれか１項に記載のプログラム。
ユーザの感情に応じた対話エージェントとして機能させる対話装置であって、
ユーザの発話音声から発話文に変換する音声解析手段と、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
ユーザの発話文から感情極性を判定する発話文感情判定手段と、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
を有することを特徴とする対話装置。
ユーザの感情に応じた対話エージェントとして機能させる装置の対話方法であって、
装置は、
ユーザの発話音声から発話文に変換する第１のステップと、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する第２のステップと、
ユーザの発話文から感情極性を判定する第３のステップと、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成する第４のステップと、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる第５のステップと、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる第６のステップと
を実行することを特徴とする装置の対話方法。