JP2022054326A - ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法 - Google Patents

ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法 Download PDF

Info

Publication number
JP2022054326A
JP2022054326A JP2020161450A JP2020161450A JP2022054326A JP 2022054326 A JP2022054326 A JP 2022054326A JP 2020161450 A JP2020161450 A JP 2020161450A JP 2020161450 A JP2020161450 A JP 2020161450A JP 2022054326 A JP2022054326 A JP 2022054326A
Authority
JP
Japan
Prior art keywords
user
voice
sentence
response
polarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020161450A
Other languages
English (en)
Other versions
JP7423490B2 (ja
Inventor
俊一 田原
Shunichi Tawara
元 服部
Hajime Hattori
一則 松本
Kazunori Matsumoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020161450A priority Critical patent/JP7423490B2/ja
Publication of JP2022054326A publication Critical patent/JP2022054326A/ja
Application granted granted Critical
Publication of JP7423490B2 publication Critical patent/JP7423490B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Figure 2022054326000001
【課題】ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム等を提供する。
【解決手段】ユーザの発話音声から発話文に変換する音声解析手段と、ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、ユーザの発話文から感情極性を判定する発話文感情判定手段と、感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段としてコンピュータを機能させる。
【選択図】図2

Description

本発明は、ユーザと対話する対話エージェントの技術に関する。
スマートフォンやタブレット端末を用いて、ユーザと自然に対話する「対話エージェント」の技術が普及している。この技術によれば、ディスプレイに表示されたコンピュータグラフィックスのキャラクタ(アバター)が、ユーザに対して音声やテキストで対話する。対話エージェントとしてのキャラクタは、ユーザから見て対話可能な人物として認識でき、固有のプロファイル(年齢、性別、出身地等の属性)を有する。勿論、キャラクタは、実在しない仮想的なものであってもよい。キャラクタは、ユーザの状況や趣味趣向に応じて対話を成立させるために、ユーザは、そのキャラクタに対して親近感を持ちやすい。
対話エージェントとしては、「対話シナリオ」や「機械学習モデル」に基づいて対話を進行させるものがある。また、対話エージェントは、ユーザの発話文に対して対話シナリオや機械学習モデルによって適切な応答文を推定できない場合であっても、相槌やオウム返しのような傾聴的な応答文を返答することもできる。ユーザは、傾聴的な応答文によって、キャラクタが自ら話を理解してくれているような錯覚を持ちやすい。
従来、人間同士の対話の中で、相槌のように傾聴的に応答するだけでなく、相手の身振り(仕草)を模倣することによって、模倣しない場合と比較して、相手に対してポジティブな印象を与えたり、ラポール形成が生まれやすくなることが理解されている(例えば非特許文献1参照)。
これによれば、対話エージェントとしてのキャラクタが、ユーザの顔表情や身振りを模倣することによって、ユーザは、キャラクタに対して、自分の話を理解してくれていると感じることが予想される。例えばカウンセリングの場合、ユーザ自らの悩みなどの発言を引き出しやすくなる。
また、ユーザの顔表情や身振りを検出し、CG(Computer Graphics)のキャラクタが、そのユーザの顔表情や身振りを模倣する技術もある(例えば非特許文献2参照)。この技術によれば、カメラで撮影された、ユーザの顔が映り込む映像を解析することによって、ユーザの顔表情(喜びや悲しみなど)を検出する。また、身振りについては、静止画に映る人間の関節点を検出するOpenPose(商標登録)が用いられている(例えば非特許文献3参照)。
更に、対話中に出現する発話文とその発話文に対する相槌とを訓練した学習モデルを構築し、その学習モデルにパターンをモデルに学習し、任意のユーザ発話をモデルに入力すると、適切な相槌を予測して出力する技術もある(例えば非特許文献4参照)。ユーザの発言に対してキャラクタが例えば「うんうん」と相槌を打つことによって、ユーザは、自らの話を聞いてくれていると感じて、対話における好感度を高めることもできる。
心理臨床場面でのノンバーバル・スキルに関する実験的検討、青柳宏亮, Japanese Journal of Counseling Science, 2013、[online]、[令和2年9月20日検索]、インターネット<URL:https://www.jstage.jst.go.jp/article/cou/46/2/46_83/_article/-char/ja/> 人に寄り添うAIの実現に向け、感情表現を模倣する技術を開発、日立製作所, (2018)、[online]、[令和2年9月20日検索]、インターネット<URL:https://www.hitachi.co.jp/rd/news/topics/2018/1106.html> Gui Liang-Yan, et al. "Teaching robots to predict human motion." [2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, (2018)]、[online]、[令和2年9月20日検索]、インターネット<URL:https://www.researchgate.net/publication/330580980_Teaching_Robots_to_Predict_Human_Motion> Prediction and Generation of Backchannel Form for Attentive Listening Systems. [Kawahara, Tatsuya, et al, Interspeech. 2016.]、[online]、[令和2年9月20日検索]、インターネット<URL:http://sap.ist.i.kyoto-u.ac.jp/EN/bib/intl/KAW-INTERSP16.pdf> AIと機械学習プロダクト、「感情分析」、[online]、[令和2年9月3日検索]、インターネット<https://cloud.***.com/natural-language/docs/analyzing-sentiment?hl=ja> 市川寛子. 二者間対面コミュニケーションにおける同調的表情表出. Diss. 筑波大学, 2008.、[online]、[令和2年9月20日検索]、インターネット<URL:https://tsukuba.repo.nii.ac.jp/?action=repository_action_common_download&item_id=21183&item_no=1&attribute_id=17&file_no=2> N2、KDDI総合研究所、[online]、[令和2年9月3日検索]、インターネット<https://www.kddi-research.jp/products/n2/spec.html> Prediction and Generation of Backchannel Form for Attentive Listening Systems. [Kawahara, Tatsuya, et al, Interspeech. 2016.]、[online]、[令和2年9月3日検索]、インターネット<https:https://www.researchgate.net/publication/307889355_Prediction_and_Generation_of_Backchannel_Form_for_Attentive_Listening_Systems> Jianming Wu et al. "Effects of objective feedback of facial expression recognition during video support chat", MUM '17: Proceedings of the 16th International Conference on Mobile and Ubiquitous Multimedia.、[online]、[令和2年9月3日検索]、インターネット<https://dl.acm.org/doi/10.1145/3152832.3152848> Wang, Yanan, et al. "Multi-Attention Fusion Network for Video-based Emotion Recognition." 2019 International Conference on Multimodal Interaction. 2019. 、[online]、[令和2年9月3日検索]、インターネット<https:https://www.researchgate.net/publication/336632156_Multi-Attention_Fusion_Network_for_Video-based_Emotion_Recognition> J. Xu, K. Tasaka, and H. Yanagihara, "Beyond Two-stream: Skeleton-based Three-stream Networks for Action Recognition in Videos", The 24th International Conference on Pattern Recognition (ICPR2018).
非特許文献2及び3に記載された技術によれば、対話中に、ユーザの顔表情や身振りが変化しない限り、キャラクタがそれを模倣することはできない。そのために、ユーザから見て、キャラクタに対する好感度を高める効果に乏しいという問題が生じる。
また、非特許文献4に記載の技術によれば、ユーザは、長時間に及ぶ対話の中でキャラクタに何度も単調な相槌をされた場合、違和感を生じ、キャラクタに対する好感度が低下するという問題も生じる。
そこで、本発明は、ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法を提供することを目的とする。
本発明によれば、ユーザの感情に応じた対話エージェントとしてコンピュータを機能させるプログラムであって、
ユーザの発話音声から発話文に変換する音声解析手段と、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
ユーザの発話文から感情極性を判定する発話文感情判定手段と、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
してコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
音声解析手段は、ユーザの発話音声から話調データを更に検出し、
音声合成手段は、話調データに同期させて応答音声を生成する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
話調データは、単位時間当たりの文字数、及び/又は、音量レベルである
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
キャラクタ映像生成手段は、感情極性毎に、顔表情が異なるキャラクタ映像を予め記憶しており、判定された感情極性に応じた顔表情のキャラクタ映像を生成する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
キャラクタ映像生成手段は、感情極性毎に、複数の骨格点の時系列の座標変位を予め記憶しており、判定された感情極性に応じた複数の骨格点の座標変位を、キャラクタの複数の骨格点に対応させて時系列に変位させたキャラクタ映像を生成する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
発声中のユーザが映り込む映像を入力し、当該ユーザの感情極性を判定するユーザ映像解析手段と、
ユーザ映像解析手段によって感情極性が判定できなかった際に、キャラクタ映像生成手段に対して、発話文感情判定手段によって判定された感情極性のキャラクタ映像を生成させ、逆に、判定できた際に、キャラクタ映像生成手段に対して、ユーザ映像解析手段によって判定された感情極性のキャラクタ映像を生成させる視覚表現判定手段と
してコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
ユーザ映像解析手段は、教師データとして複数のユーザの顔表情と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における顔映像から、当該ユーザの感情極性を推定する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
ユーザ映像解析手段は、教師データとして複数のユーザについて複数の骨格点の時系列の座標変位と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における複数の骨格点の時系列の座標変位から、当該ユーザの感情極性を推定する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
対話制御手段は、対話シナリオに基づくシナリオ的な応答文を生成すると共に、発話文感情判定手段によってポジティブ又はニュートラルな感情極性が得られた場合にのみ、傾聴的な応答文を生成することもできる
ようにコンピュータを機能させることも好ましい。
本発明によれば、ユーザの感情に応じた対話エージェントとして機能させる対話装置であって、
ユーザの発話音声から発話文に変換する音声解析手段と、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
ユーザの発話文から感情極性を判定する発話文感情判定手段と、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
を有することを特徴とする。
本発明によれば、ユーザの感情に応じた対話エージェントとして機能させる装置の対話方法であって、
装置は、
ユーザの発話音声から発話文に変換する第1のステップと、
ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する第2のステップと、
ユーザの発話文から感情極性を判定する第3のステップと、
感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成する第4のステップと、
応答文から応答音声に変換し、当該応答音声をスピーカから出力させる第5のステップと、
当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる第6のステップと
を実行することを特徴とする。
本発明の対話プログラム、装置及び方法によれば、ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラムことができる。
対話装置の実施形態を表す構成図である。 本発明における対話装置の基本的な機能構成図である。 音声取得部及び音声解析部の処理を表す説明図である。 発話文感情判定部の処理を表す説明図である。 キャラクタ映像生成部における身振り生成機能を表す説明図である。 音声合成部及び映像表示制御部の処理を表す説明図である。 ユーザ映像解析部及び視覚表現判定部を更に含む対話装置の機能構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、対話装置の実施形態を表す構成図である。
図1(a)によれば、ユーザは、スマートフォンやタブレットのような、ディスプレイを搭載した対話装置1と対話する。対話装置1には、本発明の対話プログラムが予めインストールされたものとして実装されている。
対話装置1のディスプレイには、対話エージェントしてのキャラクタ(アバター)が表示されている。ユーザの発話音声は、対話装置1のマイクによって収音され、対話プログラムに入力される。対話プログラムは、ユーザの発話文に応じた応答文を生成し、対話装置1のスピーカから音声で応答する。
図1(b)によれば、対話装置1は、ネットワークに接続されたサーバとして実装されている。端末2は、対話装置1とネットワークを介して通信すると共に、ディスプレイ、マイク及びスピーカを備えたユーザインタフェースとして機能する。
端末2は、対話装置1からの指示に応じて、ディスプレイのキャラクタの表示態様を制御する。また、端末2は、マイクによって収音した音声情報を対話装置1へ送信し、対話装置1から返答された応答文をスピーカから出力する。
図2は、本発明における対話装置の基本的な機能構成図である。
本発明の対話装置1は、ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラムとして機能する。これによって、ユーザは、対話装置1のディスプレイに表示されたキャラクタが自らの話を理解してくれているように感じ、キャラクタに対する好感度を高めることができる。
図2によれば、本発明の対話装置1は、対話制御部10と、音声取得部101と、音声解析部11と、発話文感情判定部12と、キャラクタ映像生成部13と、音声合成部14と、映像表示制御部15とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話方法としても理解できる。
[音声取得部101]
音声取得部101は、マイクからユーザの発話音声を入力し、ユーザの発話期間の音声信号のみを音声解析部11へ出力する。勿論、ユーザの発話音声は、映像から抽出された音声であってもよい。
図3は、音声取得部及び音声解析部の処理を表す説明図である。
図3によれば、音声取得部101は、ユーザの発話期間の音声信号のみを検出する。
(キャラクタ「おはようー!」 ) -> ユーザ「おはよう~」
(キャラクタ「どこに行くの?」) -> ユーザ「映画を観に行くよ」
[音声解析部11]
音声解析部11は、音声取得部101から入力されたユーザ発話の音声信号を、「発話文(テキスト)」に変換する。具体的には、例えばGoogle(登録商標)のCloud Speech-to-Text(登録商標)や、Microsoft(登録商標)のSpeech to Text(登録商標)のような技術を適用することができる。
また、音声解析部11は、ユーザ発話の音声信号から「話調データ」を更に検出することもできる。話調データとは、単位時間当たりの文字数(発話速度)、及び/又は、音量レベル(声量(例えばデシベル))である。
ここで、音声解析部11は、ユーザの発話音声を、発話速度に応じて例えば「遅い」「速い」「普通」の3つに分類するものであってもよい。最も簡単な判定基準としては、分類毎に、発話速度の閾値を予め規定しておけばよい。
<発話速度> <判定基準>
遅い 1秒当たり平均2文字以下
普通 1秒当たり平均3~5文字
速い 1秒当たり平均6文字以上
他の実施形態として、図3によれば、例えば1秒当たりの文字数が異なる複数のテスト発話文を、実際に人に聞かせ、その人に、主観的な印象「遅い」「普通」「速い」をラベリングさせるものであってもよい。
最も簡単な方法としては、多数決によって、文字数毎に主観的な印象を決定することができる。
別途の方法としては、印象のラベル毎に、以下のように平均値を算出するものであってもよい。
印象「遅い」: No.1とNo.6の平均値 1.589(字)=(1.428+1.750)/2
印象「普通」: No.3とNo.4の平均値 2.612(字)=(2.140+3.083)/2
印象「速い」: No.2とNo.5の平均値 6.850(字)=(5.900+7.800)/2
そして、印象「遅い」の平均値と印象「普通」の平均値との中間値を、印象「遅い」の判定基準とする。
印象「遅い」: 2.101字=(1.589(字)+2.612(字))/2
印象「普通」: 4.730字=(2.612(字)+6.850(字))/2
例えばユーザの発話速度が3.429(字/秒)の場合、「普通」と判定する。
そして、音声解析部11は、検出した発話文を、発話文感情判定部12及び対話制御部10へ出力すると共に、話調データを、音声合成部14へ出力する。
[発話文感情判定部12]
発話文感情判定部12は、ユーザの発話文から「感情極性」を判定する。
感情極性として、例えばポジティブ/ネガティブ/ニュートラルの3分類のいずれかに判定するものであってもよい。具体的には、Support Vector Machine等の判定器を使用する方法や、Google(登録商標)社が提供しているCloud Natural Language APIを使用する方法がある(例えば非特許文献5参照)。
発話文感情判定部12は、ユーザの発話文に含まれる単文毎に「感情極性」を判定するものであってもよい。結果的に、総合的にその発話文全体の感情極性を判定するものであってもよいし、1つでもポジティブな単文が含まれている場合には発話文全体をポジティブと判定するものであってもよい。
図4は、発話文感情判定部の処理を表す説明図である。
図4によれば、発話文感情判定部12は、ユーザの発話文毎に、以下のように感情極性を判定している。
発話文「おはよう」 -> 感情極性「ニュートラル」
発話文「映画を観に行くよ」 -> 感情極性「ポジティブ」
そして、発話文感情判定部12は、判定した感情極性を、対話制御部10及びキャラクタ映像生成部13へ出力する。
尚、発話文感情判定部12は、ポジティブ/ネガティブ/ニュートラルに限るものでは、なく、例えば7つの感情極性(喜び、悲しみ、怒り、軽蔑、嫌悪、恐れ、驚き)を判定できるものであってもよい。各感情極性に応じて、対話制御部10及びキャラクタ映像生成部13を機能させる。
[対話制御部10]
対話制御部10は、音声解析部11から入力されたユーザの発話文から、シナリオ的又は傾聴的な応答文を生成する。
対話制御部10は、一般的な対話エージェントであり、「対話シナリオ」に基づいてユーザとの対話を進行させる。対話シナリオは、発話文と応答文との交互のシーケンスによって構成されている。発話文は、ユーザが発話するであろうと想定したテキストであり、応答文は、その発話文に対して対話エージェントが返答するテキストである。
対話制御部10は、ユーザの発話文が対話シナリオに沿っている場合には、「シナリオ的応答文」で返答することできる。一方で、そうでない場合には、ユーザの発話文に対して傾聴的な応答文を返答することができ、ユーザからの次の発話文を待つ。傾聴的な応答文としては、相槌であってもよいし、オウム返しであってもよい。
また、対話制御部10は、発話文感情判定部12によってポジティブ又はニュートラルな感情極性が得られた場合にのみ、傾聴的な応答文を生成することも好ましい。ネガティブな感情極性が得られた場合に、相槌やオウム返しで返答すると、ユーザのネガティブな発話文を肯定したように感じられるためである。
勿論、対話制御部10によって生成される応答文は、シナリオ的応答文や傾聴的応答文に限ることなく、機械学習エンジンを用いて推定されるものであってもよい。
[キャラクタ映像生成部13]
キャラクタ映像生成部13は、感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成する。感情極性に応じて、以下のように表現することできる。
<キャラクタの顔表情の生成>
<キャラクタの身振りの生成>
<キャラクタの顔表情の生成>
キャラクタ映像生成部13は、感情極性毎に、顔表情が異なるキャラクタ映像を予め記憶しており、判定された感情極性に応じた顔表情のキャラクタ映像を生成する。
感情極性「ポジティブ」 -> 笑顔のキャラクタ映像
感情極性「ネガティブ」 -> 悲しい顔のキャラクタ映像
これによって、ユーザの感情極性を模倣した顔表情のキャラクタ映像が表示される。
尚、顔表情の生成における他の実施形態として、発話文感情判定部12が7つの感情極性(喜び、悲しみ、怒り、軽蔑、嫌悪、恐れ、驚き)の中で「怒り」と判定した場合、キャラクタ映像生成部13は、「怒り」の顔表情を模倣せず、あえて「喜び」の顔表情を選択するようにすることも好ましい。
人間同士の対話の中で、相手方が怒りの表情を表出している時に、自らも怒りの表情を表出すると、相手から好感を持たれない傾向がある(例えば非特許文献6参照)。この場合、「笑顔」を表出するとよい、と言及されている。この知見を踏まえれば、キャラクタ映像生成部13は、発話文感情判定部12によって出力された顔表情をそのまま模倣することなく、適応的に変化させた顔表情を生成することも好ましい。
<キャラクタの身振りの生成>
キャラクタ映像生成部13は、感情極性毎に、複数の骨格点の時系列の座標変位を予め記憶しており、判定された感情極性に応じた複数の骨格点の座標変位を、キャラクタの複数の骨格点に対応させて時系列に変位させたキャラクタ映像を生成する。
感情極性「ポジティブ」 -> 手を上げる身振りのキャラクタ映像
感情極性「ネガティブ」 -> 手を組む身振りのキャラクタ映像
これによって、ユーザの感情極性を模倣した身振りのキャラクタ映像が表示される。
図5は、キャラクタ映像生成部における身振り生成機能を表す説明図である。
図5によれば、キャラクタに複数の骨格点が対応付けられており、骨格点同士が線で結ばれる。尚、複数の骨格点を1つに纏めた座標を、フレーム骨格点座標として定義される。
これら複数の骨格点を時系列に変位させることによって、所定の身振りを生成する。キャラクタを動かす映像生成ソフトとして、例えばLive2D(登録商標)がある。
[音声合成部14]
音声合成部14は、対話制御部10から入力された応答文を応答音声に変換し、当該応答音声をスピーカから出力させる。
また、音声合成部14は、音声解析部11から出力された「話調データ」に応じて、応答音声を制御することもできる。
図6は、音声合成部及び映像表示制御部の処理を表す説明図である。
図6によれば、音声合成部14は、対話制御部10から応答文「映画、いいねえ」が入力され、音声解析部11から話調データ「速い」が入力されている。このとき、音声合成部14は、応答文「映画、いいねえ」を、「速い」話調で、音声信号に合成する。音声合成部14は、話調データに合わせた音声応答を生成するために、具体的にはN2を適用することもできる(例えば非特許文献7参照)。
また、音声合成部14は、合成された音声信号に同期するように、映像表示制御部15へ指示する。
尚、他の実施形態として、相槌的な応答文のパターンが少ない場合、相槌毎に、異なる話調データに基づく応答音声を予め登録しているものであってもよい。具体的には、1つの相槌「うんうん」について、異なる話調データの応答音声を複数用意しておく(例えば非特許文献8参照)。相槌「うんうん」を返答する際に、音声解析部11から出力された「話調データ」に応じた相槌の応答音声を選択することができる。
[映像表示制御部15]
映像表示制御部15は、音声合成部14から出力される応答音声に同期して、キャラクタ映像をディスプレイに表示させる。
具体的には、キャラクタ映像における口部分が、応答音声に同期して変化するように、再生速度を速めたり遅めたりして制御する。キャラクタ映像と応答音声とが同期することによって、ユーザが、キャラクタとの対話に違和感を生じないようにする。
図7は、ユーザ映像解析部及び視覚表現判定部を更に含む対話装置の機能構成図である。
[映像取得部102]
対話装置1は、カメラを更に有し、ユーザが映り込む映像を撮影する。その映像は、映像取得部102へ入力される。
映像取得部102は、例えば音声取得部101でユーザの発話期間だけ同期して、その映像を切り取るものであってもよい。前述した図3の場合、ユーザの発話期間における2秒~7秒と14秒~18秒の期間の映像のみを抽出する。
抽出された映像は、ユーザ映像解析部16へ出力される。
[ユーザ映像解析部16]
ユーザ映像解析部16は、ユーザが映り込む映像を入力し、当該ユーザの感情極性を判定する。
ユーザ映像解析部16は、映像から、以下のような感情極性を推定する。
<ユーザの顔表情からの感情極性の推定>
<ユーザの身振りからの感情極性の推定>
<ユーザの顔表情からの感情極性の推定>
ユーザ映像解析部16は、教師データとして複数のユーザの顔表情と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における顔映像から、当該ユーザの感情極性を推定する。
ユーザの顔画像から3つの感情極性(ポジティブ/ネガティブ/ニュートラル)を判定する既存技術がある(例えば非特許文献9参照)。また、ユーザの顔画像から7つの感情極性(喜び、悲しみ、怒り、軽蔑、嫌悪、恐れ、驚き)を判定する既存技術もある(例えば非特許文献10参照)。映像は、複数のフレーム(静止画)から構成されるが、各フレームに映るユーザの顔表情から感情極性を判定し、最も多く出現した感情極性に決定するものであってもよい。
<ユーザの身振りからの感情極性の推定>
ユーザ映像解析部16は、教師データとして複数のユーザについて複数の骨格点の時系列の座標変位と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における複数の骨格点の時系列の座標変位から、当該ユーザの感情極性を推定する。映像に含まれる各フレームを学習エンジンに入力し、最も多く出現した感情極性を決定するものであってよい。
身振りの判定について、フレーム毎に、ユーザの大まかな骨格を捉えて、右肩、右手首、右膝など複数の骨格点の座標(x,y)を推定する既存技術がある(例えば非特許文献11参照)。
[視覚表現判定部17]
視覚表現判定部17は、ユーザ映像解析部16における感情極性の判定の有無に応じて、以下のように判定する。
(1)ユーザ映像解析部16によって感情極性が判定できなかった場合
視覚表現判定部17は、キャラクタ映像生成部13に対して、「発話文感情判定部12によって判定された感情極性」のキャラクタ映像を生成させる。
(2)ユーザ映像解析部16によって感情極性が判定できた場合
視覚表現判定部17は、キャラクタ映像生成部13に対して、「ユーザ映像解析部16によって判定された感情極性」のキャラクタ映像を生成させる。
尚、感情極性が3分類の場合、「感情極性が判定できなかった場合」とはニュートラルであった場合を意味し、「感情極性が判定できた場合」とはポジティブ/ネガティブであった場合を意味する。
以上、詳細に説明したように、本発明の対話プログラム、装置及び方法によれば、ユーザの感情に応じたキャラクタの傾聴感を表現することができる。
本発明によれば、ユーザの発話音声(又は映像)から推定されたユーザの感情極性に応じて、対話エージェントとしてのキャラクタ自体の視覚表現を変化させることができる。具体的には、キャラクタの視覚表現は、ユーザの発話文から推定される感情極性を模倣して変化する。また、キャラクタは、ユーザの発話文の感情極性を模倣するだけでなく、ユーザの発話音声の話調も模倣するために、ユーザはキャラクタに対する同調感覚を持つことができる。更に、ユーザの映像から顔表情や身振りから感情極性を推定できなくても、ユーザの発話文から感情極性を推定するために、その感情極性に応じたキャラクタ映像を再生することができる。
ユーザは、自らの感情極性と同じ感情極性で傾聴的に表現されるキャラクタと対話することによって、そのキャラクタに対する好感度を高めることができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 対話装置
10 対話制御部
101 音声取得部
102 映像取得部
11 音声解析部
12 発話文感情判定部
13 キャラクタ映像生成部
14 音声合成部
15 映像表示制御部
16 ユーザ映像解析部
17 視覚表現判定部
2 端末

Claims (11)

  1. ユーザの感情に応じた対話エージェントとしてコンピュータを機能させるプログラムであって、
    ユーザの発話音声から発話文に変換する音声解析手段と、
    ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
    ユーザの発話文から感情極性を判定する発話文感情判定手段と、
    感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
    応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
    当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
    してコンピュータを機能させることを特徴とするプログラム。
  2. 音声解析手段は、ユーザの発話音声から話調データを更に検出し、
    音声合成手段は、話調データに同期させて応答音声を生成する
    ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 話調データは、単位時間当たりの文字数、及び/又は、音量レベルである
    ようにコンピュータを機能させることを特徴とする請求項2に記載のプログラム。
  4. キャラクタ映像生成手段は、感情極性毎に、顔表情が異なるキャラクタ映像を予め記憶しており、判定された感情極性に応じた顔表情のキャラクタ映像を生成する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. キャラクタ映像生成手段は、感情極性毎に、複数の骨格点の時系列の座標変位を予め記憶しており、判定された感情極性に応じた複数の骨格点の座標変位を、キャラクタの複数の骨格点に対応させて時系列に変位させたキャラクタ映像を生成する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  6. 発声中のユーザが映り込む映像を入力し、当該ユーザの感情極性を判定するユーザ映像解析手段と、
    ユーザ映像解析手段によって感情極性が判定できなかった際に、キャラクタ映像生成手段に対して、発話文感情判定手段によって判定された感情極性のキャラクタ映像を生成させ、逆に、判定できた際に、キャラクタ映像生成手段に対して、ユーザ映像解析手段によって判定された感情極性のキャラクタ映像を生成させる視覚表現判定手段と
    してコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
  7. ユーザ映像解析手段は、教師データとして複数のユーザの顔表情と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における顔映像から、当該ユーザの感情極性を推定する
    ようにコンピュータを機能させることを特徴とする請求項6に記載のプログラム。
  8. ユーザ映像解析手段は、教師データとして複数のユーザについて複数の骨格点の時系列の座標変位と感情極性とを対応付けて学習した学習エンジンを用いて、発声中のユーザが映り込む映像における複数の骨格点の時系列の座標変位から、当該ユーザの感情極性を推定する
    ようにコンピュータを機能させることを特徴とする請求項6に記載のプログラム。
  9. 対話制御手段は、対話シナリオに基づくシナリオ的な応答文を生成すると共に、発話文感情判定手段によってポジティブ又はニュートラルな感情極性が得られた場合にのみ、傾聴的な応答文を生成することもできる
    ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のプログラム。
  10. ユーザの感情に応じた対話エージェントとして機能させる対話装置であって、
    ユーザの発話音声から発話文に変換する音声解析手段と、
    ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する対話制御手段と、
    ユーザの発話文から感情極性を判定する発話文感情判定手段と、
    感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成するキャラクタ映像生成手段と、
    応答文から応答音声に変換し、当該応答音声をスピーカから出力させる音声合成手段と、
    当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる映像表示制御手段と
    を有することを特徴とする対話装置。
  11. ユーザの感情に応じた対話エージェントとして機能させる装置の対話方法であって、
    装置は、
    ユーザの発話音声から発話文に変換する第1のステップと、
    ユーザの発話文からシナリオ的又は傾聴的な応答文を生成する第2のステップと、
    ユーザの発話文から感情極性を判定する第3のステップと、
    感情極性毎にキャラクタ映像を予め記憶しており、判定された感情極性に応じたキャラクタ映像を生成する第4のステップと、
    応答文から応答音声に変換し、当該応答音声をスピーカから出力させる第5のステップと、
    当該応答音声に同期して、キャラクタ映像をディスプレイに表示させる第6のステップと
    を実行することを特徴とする装置の対話方法。
JP2020161450A 2020-09-25 2020-09-25 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法 Active JP7423490B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020161450A JP7423490B2 (ja) 2020-09-25 2020-09-25 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020161450A JP7423490B2 (ja) 2020-09-25 2020-09-25 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2022054326A true JP2022054326A (ja) 2022-04-06
JP7423490B2 JP7423490B2 (ja) 2024-01-29

Family

ID=80994633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020161450A Active JP7423490B2 (ja) 2020-09-25 2020-09-25 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP7423490B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7360756B1 (ja) 2022-04-15 2023-10-13 株式会社三鷹ホールディングス 磁性流体を用いた表示装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2005202854A (ja) * 2004-01-19 2005-07-28 Nec Corp 画像処理装置、画像処理方法及び画像処理プログラム
JP2006178063A (ja) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置
JP2009134008A (ja) * 2007-11-29 2009-06-18 Toyota Central R&D Labs Inc 感情応答生成装置及び感情応答生成プログラム
JP2017215468A (ja) * 2016-05-31 2017-12-07 トヨタ自動車株式会社 音声対話装置および音声対話方法
WO2018235607A1 (ja) * 2017-06-20 2018-12-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019200671A (ja) * 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6643468B2 (ja) 2016-05-18 2020-02-12 シャープ株式会社 応答制御装置、制御プログラム、情報処理方法、および通信システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (ja) * 1997-12-10 1999-07-02 Toshiba Corp 音声対話装置及び音声対話用音声合成方法
JP2005202854A (ja) * 2004-01-19 2005-07-28 Nec Corp 画像処理装置、画像処理方法及び画像処理プログラム
JP2006178063A (ja) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置
JP2009134008A (ja) * 2007-11-29 2009-06-18 Toyota Central R&D Labs Inc 感情応答生成装置及び感情応答生成プログラム
JP2017215468A (ja) * 2016-05-31 2017-12-07 トヨタ自動車株式会社 音声対話装置および音声対話方法
WO2018235607A1 (ja) * 2017-06-20 2018-12-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019200671A (ja) * 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
永瀬 智之 TOMOYUKI NAGASE: "体動を伴ったポーズ画像からの感情推定 Emotion estimation from pose image with body movement", 電子情報通信学会技術研究報告 VOL.119 NO.456 [ONLINE] IEICE TECHNICAL REPORT, vol. 第119巻, JPN6023021574, JP, ISSN: 0005067071 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7360756B1 (ja) 2022-04-15 2023-10-13 株式会社三鷹ホールディングス 磁性流体を用いた表示装置

Also Published As

Publication number Publication date
JP7423490B2 (ja) 2024-01-29

Similar Documents

Publication Publication Date Title
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及***、存储介质、终端
US20200279553A1 (en) Linguistic style matching agent
KR101604593B1 (ko) 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법
Pelachaud Studies on gesture expressivity for a virtual agent
André et al. Interacting with embodied conversational agents
CN110688911A (zh) 视频处理方法、装置、***、终端设备及存储介质
CN112074899A (zh) 基于多模态传感输入的人机对话的智能发起的***和方法
CN111145282A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
US20090079816A1 (en) Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications
WO2007098560A1 (en) An emotion recognition system and method
KR102174922B1 (ko) 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
JPWO2017200074A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
US20190251350A1 (en) System and method for inferring scenes based on visual context-free grammar model
JP2023026448A (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
Pelachaud et al. Multimodal behavior modeling for socially interactive agents
WO2019160090A1 (ja) 非言語情報生成装置、方法、及びプログラム
KR20110081364A (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
CN114995636A (zh) 多模态交互方法以及装置
JP2015069231A (ja) キャラクタ生成装置およびプログラム
Ritschel et al. Multimodal joke generation and paralinguistic personalization for a socially-aware robot
JP7423490B2 (ja) ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
Ehret et al. Who's next? Integrating Non-Verbal Turn-Taking Cues for Embodied Conversational Agents
Feldman et al. Engagement with artificial intelligence through natural interaction models
JPWO2017200077A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
Cerezo et al. Interactive agents for multimodal emotional user interaction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240117

R150 Certificate of patent or registration of utility model

Ref document number: 7423490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150