JP7379788B2

JP7379788B2 - 感情推定装置、及び、感情推定システム

Info

Publication number: JP7379788B2
Application number: JP2019126106A
Authority: JP
Inventors: 秀行窪田; 博子進藤
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2023-11-15
Anticipated expiration: 2039-07-05
Also published as: JP2021012285A

Description

本発明は、感情推定装置、及び、感情推定システムに関する。

近年、喜び、怒り、悲しみ、及び、平常等のユーザが抱く感情を、ユーザの状況を考慮して推定する技術が知られている。例えば、特許文献１には、ユーザの音声情報の特徴量と感情との関係を学習済みの学習モデルに、ユーザの状況に応じて補正された特徴量を入力して、学習モデルからユーザが抱く感情を出力させる技術が開示されている。

特開２０１８－０７２８７６号公報

しかしながら、ユーザの音声について感情の発露が乏しい状況では、感情を音声に発露しにくい状況なのか、又は、そもそもユーザが感情を込めて発露していない状況なのかが判断することが困難であるため、ユーザが抱く感情を精度良く判断することが困難である。

本発明の好適な態様にかかる感情推定装置は、ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、前記特徴量に基づいて、前記ユーザが第１感情を抱く強度を示す第１音声評価値と、前記ユーザが第２感情を抱く強度を示す第２音声評価値とを生成する第１評価部と、前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、前記認識文字列に基づいて、前記ユーザが前記第１感情を抱く強度を示す第１文字評価値と、前記ユーザが前記第２感情を抱く強度を示す第２文字評価値とを生成する第２評価部と、前記ユーザの状況を示す状況情報に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正する補正部と、前記補正部の補正結果に基づいて、前記ユーザが抱く１つ以上の感情を推定する推定部と、を備える。

本発明の好適な態様にかかる感情推定システムは、上述の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、前記端末装置は、前記ユーザの音声を集音する集音装置と、前記ユーザの状況を示す状況情報を生成する状況情報生成部と、前記ユーザの音声を示す前記音声情報及び前記状況情報を前記感情推定装置に送信し、前記感情推定装置から、前記認識文字列、及び、前記推定部が推定した前記ユーザが抱く１つ以上の感情を示す感情情報を受信する通信装置と、前記感情情報が示す感情に応じた処理を前記認識文字列に対して実行することにより得られる情報を出力する出力部と、を備える。

本発明によれば、ユーザの音声について感情の発露が乏しい状況であっても、ユーザが抱く感情を精度良く推定できる。

ユーザ装置１の概要を示す図。第１実施形態にかかるユーザ装置１の構成を示すブロック図。解析用辞書情報３１の記憶内容の一例を示す図。感情分類情報３３の記憶内容の一例を示す図。スケジュール情報３５の記憶内容の一例を示す図。ユーザ装置１の機能の概要を示す図。状況関係情報３７の記憶内容の一例を示す図。ユーザ装置１の動作を示すフローチャート。第２実施形態にかかるユーザ装置１ａを示すブロック図。第２実施形態におけるユーザ装置１ａの機能の概要を示す図。文字列関係情報３８の記憶内容の一例を示す図。ユーザ装置１ａの動作を示すフローチャート。感情推定システムＳＹＳの全体構成を示す図。ユーザ装置１ｂの構成を示すブロック図。サーバ装置１０の構成を示すブロック図。

１．第１実施形態
図１は、ユーザ装置１の概要を示す図である。ユーザ装置１は、スマートフォンを想定する。ユーザ装置１が、「感情推定装置」の一例である。ただし、ユーザ装置１としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。

ユーザ装置１は、ユーザ装置１を所持するユーザＵの音声を含む音を示す音声情報に対して音声認識処理を実行して得られた認識文字列を、他者が利用する装置に送信する機能、又は、ユーザＵの付近に位置する他者に聞かせるために、認識文字列を示す音を放音する機能を有する。さらに、ユーザ装置１は、ユーザＵの音声に基づいてユーザＵが抱く感情を推定し、認識文字列に対して、推定した感情に応じた図形を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を示す音を放音することにより、コミュニケーションに必要な感情表現を付加できる。
図１の例では、ユーザＵが「こんにちは」と発声し、ユーザ装置１が、推定した感情に応じた図形ＰＩを、認識文字列を表す画像に付加している。

図２は、第１実施形態にかかるユーザ装置１の構成を示すブロック図である。ユーザ装置１は、処理装置２、記憶装置３、入力装置４、出力装置５、通信装置６、慣性センサ７、及び、ＧＰＳ（Global Positioning System）装置８を具備するコンピュータシステムにより実現される。ユーザ装置１の各要素は、情報を通信するための単体又は複数のバス９で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置１の各要素は、単数又は複数の機器で構成され、ユーザ装置１の一部の要素は省略されてもよい。

処理装置２は、ユーザ装置１の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置２は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成される。なお、処理装置２の機能の一部又は全部を、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアによって実現してもよい。処理装置２は、各種の処理を並列的又は逐次的に実行する。

記憶装置３は、処理装置２が読取可能な記録媒体であり、処理装置２が実行する制御プログラムＰＲを含む複数のプログラム、解析用辞書情報３１、感情分類情報３３、スケジュール情報３５、状況関係情報３７、及び、学習モデルＬＭを記憶する。記憶装置３は、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）、ＲＡＭ（Random Access Memory）等の記憶回路の１種類以上で構成される。

図３は、解析用辞書情報３１の記憶内容の一例を示す図である。解析用辞書情報３１は、形態素ごとに、品詞、品詞細分類、及び、原形情報を互いに対応付けた情報である。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形情報は、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。

図４は、感情分類情報３３の記憶内容の一例を示す図である。感情分類情報３３は、文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類した情報である。図４の例では、喜びに分類された文字列群３３１は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群３３２は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群３３３は、「悲しい」、及び、「敗ける」等を含む。同様に、平常に分類された文字列群３３４は、「安心」等を含む。

図５は、スケジュール情報３５の記憶内容の一例を示す図である。スケジュール情報３５は、ユーザＵのスケジュールを示す。図５に示すスケジュール情報３５は、レコード３５＿１～３５＿３を有する。レコード３５＿１は、２０１９年４月１０日の１０時から１１時までのユーザＵの予定が、クライアントと打合せであることを示す。レコード３５＿２は、２０１９年４月１２日の１５時から１６時までのユーザＵの予定が、部内会議への出席であることを示す。レコード３５＿３は、２０１９年４月１５日の１８時から２０時までのユーザＵの予定が、同窓会への出席であることを示す。

説明を図２に戻す。状況関係情報３７は、感情を推定する際に用いられる。学習モデルＬＭは、人間の音声に応じた特徴量と、複数の感情の各々に対する強度との関係を学習済みである。また、学習モデルＬＭは、複数の人間について、人間の音声に応じた特徴量と、複数の感情の各々に対する強度との関係を学習済みであることが好ましい。

入力装置４は、ユーザ装置１が使用する情報を処理装置２に入力するための機器である。入力装置４は、集音装置４１と、タッチパネル４３とを含む。出力装置５は、情報を出力するための機器である。出力装置５は、表示装置５１と、放音装置５３とを含む。

集音装置４１は、例えばマイクロフォン及びＡＤ変換器で構成され、処理装置２による制御のもとで、ユーザＵの音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。ＡＤ変換器は、マイクロフォンが変換した電気信号をＡＤ変換して、図６に示す音声情報ＶＩに変換する。音声情報ＶＩが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。タッチパネル４３は、表示装置５１の表示面に対する接触を検出する。なお、ユーザＵが操作可能な複数の操作子をタッチパネル４３が含んでもよい。

表示装置５１は、処理装置２による制御のもとで各種の画像を表示する。例えば液晶表示パネル、有機ＥＬ（electro-luminescence）表示パネル等の各種の表示パネルが、表示装置５１として好適に利用される。放音装置５３は、例えばスピーカで構成され、処理装置２による制御のもとで、音を放音する。

通信装置６は、ネットワークを介して他の装置と通信を行うためのハードウェア（送受信デバイス）である。通信装置６は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。

慣性センサ７は、ユーザ装置１にかかる慣性力を測定し、測定結果から得られる、図６に示す慣性情報ＩＦＩを出力する。例えば、慣性センサ７は、加速度センサ及び角速度センサの一方又は両方である。

ＧＰＳ装置８は、複数の衛星からの電波を受信し、図６に示す位置情報ＰｏＩを生成する。位置情報ＰｏＩは、位置を特定できるのであれば、どのような形式であってもよい。位置情報ＰｏＩは、例えば、ユーザ装置１の緯度と経度とを示す。また、本実施形態では、位置情報ＰｏＩはＧＰＳ装置８から得られることを例示するが、ユーザ装置１は、どのような方法で位置情報ＰｏＩを取得してもよい。例えば、ユーザ装置１は、ユーザ装置１の通信先となる基地局に割り当てられたセルＩＤ（IDentifier）を位置情報ＰｏＩとして取得する。セルＩＤは基地局を一意に識別する識別情報である。さらに、ユーザ装置１が無線ＬＡＮ（Local Area Network）のアクセスポイントと通信する場合には、アクセスポイントに割り当てられたネットワーク上の識別アドレス（ＭＡＣ（Media Access Control）アドレス）と実際の住所（位置）とを対応付けたデータベースを参照して位置情報ＰｏＩを取得してもよい。

１．１．第１実施形態の機能
処理装置２は、記憶装置３から制御プログラムＰＲを読み取り実行することによって、取得部２１、状況情報生成部２３、感情情報生成部２５、及び、出力部２７として機能する。
図６を用いて、処理装置２によって実現される機能について説明する。

図６は、ユーザ装置１の機能の概要を示す図である。取得部２１は、集音装置４１が出力する音声情報ＶＩを取得する。

状況情報生成部２３は、ＧＰＳ装置８から得られる位置情報ＰｏＩ、慣性センサ７から得られる慣性情報ＩＦＩ、及び、スケジュール情報３５に基づいて、ユーザＵの状況を示す状況情報ＳｉＩを生成する。より詳細には、状況情報生成部２３は、位置情報ＰｏＩに基づいて、ユーザＵの場所を特定する。場所には、例えば、ユーザＵの自宅、ユーザＵの会社、及び、ユーザＵの自宅から会社までの通勤経路内等がある。また、状況情報生成部２３は、慣性情報ＩＦＩに基づいて、ユーザＵが停止しているか、ユーザＵが歩行しているか、又は、ユーザＵが車両に乗り移動中か、を判定する。そして、状況情報生成部２３は、特定した場所が自宅である場合、状況情報ＳｉＩとして、ユーザＵが自宅にいる状況を示す識別情報を生成する。また、特定した場所が通勤経路内であり、且つ、ユーザＵが車両に乗り移動中である場合、状況情報生成部２３は、状況情報ＳｉＩとして、ユーザＵが電車を利用している状況を示す識別情報を生成する。電車を利用している状況は、「公共の交通機関を利用している状況」の一例である。また、スケジュール情報３５が、現在の時間におけるユーザＵの予定について、スケジュール情報３５が打合せ又は会議を示す場合、状況情報生成部２３は、状況情報ＳｉＩとして、ユーザＵが会議中である状況を示す識別情報を生成する。

感情情報生成部２５は、ユーザＵが抱く複数の感情の中から、ユーザＵが抱く１つ以上の感情を推定する。第１実施形態において、ユーザＵが抱く複数の感情は、喜び、怒り、悲しみ、及び、平常の４つであるとして説明する。以下、喜び、怒り、悲しみ、及び、平常は複数の感情の一例である。

感情情報生成部２５は、特徴量生成部２５１、第１評価部２５２、認識部２５４、第２評価部２５５、補正部２５７、及び、推定部２５８を含む。特徴量生成部２５１は、「生成部」の一例である。

特徴量生成部２５１は、音声情報ＶＩから、ユーザＵの音声について特徴量を生成する。特徴量は、例えば、MFCC（Mel-Frequency Cepstrum Coefficients）12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR（Harmonics-to-Noise-Ratio）、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計４７個の一部又は全部である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声情報ＶＩが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。また、特徴量生成部２５１は、音声情報ＶＩに対して補正処理を実行し、補正処理の実行により得られた補正後音声情報から、特徴量を抽出してもよい。補正処理は、例えば、音声情報ＶＩから無音部分のデータを除去する処理、及び、音声情報ＶＩが示す音に含まれるノイズを除去する処理の一方又は両方である。

第１評価部２５２は、特徴量に基づいて、複数の感情の各々に対応する音声評価値ＥＶ１～ＥＶ４を生成する。より詳細には、第１評価部２５２は、喜びに対応する音声評価値ＥＶ１、怒りに対応する音声評価値ＥＶ２、悲しみに対応する音声評価値ＥＶ３、及び、平常に対応する音声評価値ＥＶ４を生成する。音声評価値ＥＶは、ユーザＵが感情を抱く強度を示す。
以下の説明では、同種の要素を区別する場合には、喜びに対応する音声評価値ＥＶ１、怒りに対応する音声評価値ＥＶ２のように参照符号を使用する。一方、同種の要素を区別しない場合には、音声評価値ＥＶのように、参照符号のうちの共通番号だけを使用する。
なお、喜び、怒り、悲しみ、及び、平常の各々が、「第１感情」の一例である。「第２感情」は、喜び、怒り、悲しみ、及び、平常のうち「第１感情」とは異なる感情のうち任意の１つの感情である。喜びに対応する音声評価値ＥＶ１、怒りに対応する音声評価値ＥＶ２、悲しみに対応する音声評価値ＥＶ３、平常に対応する音声評価値ＥＶ４が、「第１音声評価値」の一例である。第１感情とは異なる第２感情に対応する音声評価値が、「第２音声評価値」の一例である。
例えば、第１評価部２５２は、以下に示す２つの態様のいずれか一方によって、音声評価値ＥＶ１～ＥＶ４を生成する。

第１の態様において、第１評価部２５２は、特徴量と所定値とを比較することにより、音声評価値ＥＶ１～ＥＶ４を生成する。例えば、喜び又は怒りが音声に発露する場合、喜び又は怒りが音声に発露しない場合と比較して、基本周波数が高くなり、且つ、ラウドネスが大きくなる傾向がある。例えば、第１評価部２５２は、基本周波数が所定値より大きく、かつ、ラウドネスが所定値より大きい場合に、基本周波数が所定値より小さく、かつ、ラウドネスが所定値より小さい場合と比較して、音声評価値ＥＶ１及び音声評価値ＥＶ２を大きい値に設定する。

第２の態様において、第１評価部２５２は、音声評価値ＥＶ１～ＥＶ４を生成するために、学習モデルＬＭに、特徴量生成部２５１が生成した特徴量を入力し、音声評価値ＥＶ１～ＥＶ４を学習モデルＬＭから取得する。

認識部２５４は、音声情報ＶＩに基づいて、ユーザＵの発話内容を示す認識文字列ＲＴを生成する。より詳細には、認識部２５４は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む音声認識処理を実行して、認識文字列ＲＴを出力する。

第２評価部２５５は、認識文字列ＲＴに基づいて、複数の感情の各々に対応する文字評価値ＥＴを生成する。より詳細には、第２評価部２５５は、喜びに対応する文字評価値ＥＴ１、怒りに対応する文字評価値ＥＴ２、悲しみに対応する文字評価値ＥＴ３、及び、平常に対応する文字評価値ＥＴ４を生成する。文字評価値ＥＴは、ユーザＵが感情を抱く強度を示す。
なお、喜びに対応する文字評価値ＥＴ１、怒りに対応する文字評価値ＥＴ２、悲しみの文字評価値ＥＴ３、及び、平常に対応する文字評価値ＥＴ４が、「第１文字評価値」の一例である。第１感情とは異なる第２感情に対応する文字評価値が、「第２文字評価値」の一例である。

より詳細には、第２評価部２５５は、解析部２５５２と、算出部２５５４とを含む。解析部２５５２は、解析用辞書情報３１を参照して、認識文字列ＲＴに対して形態素解析処理を実行して、補正後認識文字列ＣＲＴを出力する。形態素解析処理は、認識文字列ＲＴを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書情報３１の品詞及び品詞細分類が利用される。補正後認識文字列ＣＲＴは、フィラー等といった、ユーザＵが抱く感情を推定するためには不要な文字列を除いた文字列である。フィラーは、「ええと」、「あの」、及び、「まあ」といった、発話の合間に挟み込む言葉である。

算出部２５５４は、感情分類情報３３に含まれる文字列と、補正後認識文字列ＣＲＴとを比較することにより各感情の文字評価値ＥＴを算出する。各感情の文字評価値ＥＴの算出について、算出部２５５４は、補正後認識文字列ＣＲＴが、感情分類情報３３に含まれる文字列を含む場合に、この補正後認識文字列ＣＲＴに含まれる文字列に対応する感情の文字評価値ＥＴを増加させる。
例えば、補正後認識文字列ＣＲＴが「今日試合に勝った」であれば、算出部２５５４は、以下のような各感情の文字評価値ＥＴを出力する。

喜びに対応する文字評価値ＥＴ１１
怒りに対応する文字評価値ＥＴ２０
悲しみに対応する文字評価値ＥＴ３０
平常に対応する文字評価値ＥＴ４０

上述の例では、補正後認識文字列ＣＲＴに、感情分類情報３３に含まれる「勝っ」が含まれているため、算出部２５５４は、「勝っ」に対応する喜びの文字評価値ＥＴ１を１増加させる。増加させる文字評価値ＥＴの増加量は、１に限らなく、感情分類情報３３に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列に対する文字評価値ＥＴの増加量を２としてもよい。さらに、補正後認識文字列ＣＲＴに、感情分類情報３３に含まれる文字列、及び、内容を強調する文字列が含まれる場合、算出部２５５４は、文字評価値ＥＴの増加量を大きくしてもよい。例えば、補正後認識文字列ＣＲＴが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列ＣＲＴに感情分類情報３３に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、算出部２５５４は、例えば、喜びの文字評価値ＥＴ１を２増加させる。補正後認識文字列ＣＲＴのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させる文字評価値ＥＴの増加量が１であるとする。
さらに、補正後認識文字列ＣＲＴに、感情分類情報３３に含まれる文字列、及び、内容を否定する文字列が含まれる場合、算出部２５５４は、この補正後認識文字列ＣＲＴに含まれる文字列に対応する文字評価値ＥＴを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列ＣＲＴが「今日試合に勝つことができなかった」であれば、補正後認識文字列ＣＲＴに感情分類情報３３に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、算出部２５５４は、例えば、悲しみの文字評価値ＥＴ３を１増加させる。補正後認識文字列ＣＲＴのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列ＣＲＴが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列ＣＲＴに、感情分類情報３３に含まれる文字列が含まれれば、この補正後認識文字列ＣＲＴに含まれる文字列に対応する文字評価値ＥＴを増加させることとして説明を行う。

補正部２５７は、状況情報ＳｉＩに基づいて、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正する。より詳細には、補正部２５７は、音声評価値ＥＶ１、音声評価値ＥＶ２、音声評価値ＥＶ３、音声評価値ＥＶ４を補正して、補正後の音声評価値ＣＥＶ１、補正後の音声評価値ＣＥＶ２、補正後の音声評価値ＣＥＶ３、補正後の音声評価値ＣＥＶ４を出力する。同様に、補正部２５７は、文字評価値ＥＴ１、文字評価値ＥＴ２、文字評価値ＥＴ３、文字評価値ＥＴ４を補正して、補正後の文字評価値ＣＥＴ１、補正後の文字評価値ＣＥＴ２、補正後の文字評価値ＣＥＴ３、補正後の文字評価値ＣＥＴ４を出力する。

より詳細には、補正部２５７は、下記演算を実行することにより、補正後の音声評価値ＣＥＶ１～ＣＥＶ４、及び、補正後の文字評価値ＣＥＴ１～ＣＥＴ４を出力する。

ＣＥＶ１＝ｋｖ１×ＥＶ１
ＣＥＶ２＝ｋｖ２×ＥＶ２
ＣＥＶ３＝ｋｖ３×ＥＶ３
ＣＥＶ４＝ｋｖ４×ＥＶ４
ＣＥＴ１＝ｋｔ１×ＥＴ１
ＣＥＴ２＝ｋｔ２×ＥＴ２
ＣＥＴ３＝ｋｔ３×ＥＴ３
ＣＥＴ４＝ｋｔ４×ＥＴ４

ただし、重み付け係数ｋｖ１～ｋｖ４、及び、重み付け係数ｋｔ１～ｋｔ４は、０以上１以下の実数である。さらに、重み付け係数ｋｖ１～ｋｖ４、及び、重み付け係数ｋｔ１～ｋｔ４には、以下の条件がある。

ｋｖ１＋ｋｔ１＝ｋｖ２＋ｋｔ２＝ｋｖ３＋ｋｔ３＝ｋｖ４＋ｋｔ４

補正部２５７は、例えば、状況関係情報３７を参照して、重み付け係数ｋｖ１～ｋｖ４、及び、重み付け係数ｋｔ１～ｋｔ４を設定する。

図７は、状況関係情報３７の記憶内容の一例を示す図である。状況関係情報３７は、人間が取り得る状況を示す識別情報と、当該状況に応じて設定された複数の音声評価値ＥＶの各々、及び、複数の文字評価値ＥＴの各々との関係を示す。

人間が取り得る状況には、ユーザの許可なく立ち入りが禁止されるプライベート空間内に当該ユーザがいる状況と、ユーザの許可なく立ち入りが可能な非プライベート空間に当該ユーザがいる状況とが含まれる。プライベート空間は、例えば、自宅の中である。非プライベート空間は、例えば、公共の交通機関内、及び、職場の中である。

図７に示す状況関係情報３７には、人間が取り得る状況を示す識別情報として、「自宅」、「電車」、及び、「会議」が登録されている。識別情報「自宅」は、ユーザＵが自宅にいる状況を示す。識別情報「電車」は、ユーザＵが電車を利用している状況を示す。識別情報「会議」は、ユーザＵが職場の会議中である状況を示す。

状況関係情報３７は、識別情報「自宅」に関係する重み付け係数について、重み付け係数ｋｖ１が重み付け係数ｋｔ１より大きいことを示す。同様に、状況関係情報３７は、重み付け係数ｋｖ２が重み付け係数ｋｔ２よりも大きく、かつ、重み付け係数ｋｖ３が重み付け係数ｋｔ３よりも大きく、かつ、重み付け係数ｋｖ４が重み付け係数ｋｔ４より大きいことを示す。具体的には、図７に示す識別情報「自宅」に関係する重み付け係数は、以下の通りである。
重み付け係数ｋｖ１＝０．７
重み付け係数ｋｔ１＝０．３
重み付け係数ｋｖ２＝０．８
重み付け係数ｋｔ２＝０．２
重み付け係数ｋｖ３＝０．７
重み付け係数ｋｔ３＝０．３
重み付け係数ｋｖ４＝０．８
重み付け係数ｋｔ４＝０．２

また、状況関係情報３７は、識別情報「電車」に関係する重み付け係数について、重み付け係数ｋｔ１が重み付け係数ｋｖ１より大きいことを示す。同様に、状況関係情報３７は、重み付け係数ｋｔ２が重み付け係数ｋｖ２より大きく、かつ、重み付け係数ｋｔ３が重み付け係数ｋｖ３より大きく、かつ、重み付け係数ｋｔ４が重み付け係数ｋｖ４より大きいことを示す。具体的には、図７に示す識別情報「電車」に関係する重み付け係数は、以下の通りである。
重み付け係数ｋｖ１＝重み付け係数ｋｖ２＝重み付け係数ｋｖ３＝重み付け係数ｋｖ４＝０．１
重み付け係数ｋｔ１＝重み付け係数ｋｔ２＝重み付け係数ｋｔ３＝重み付け係数ｋｔ４＝０．９

また、状況関係情報３７は、識別情報「会議」に関係する重み付け係数について、重み付け係数ｋｔ１が重み付け係数ｋｖ１より大きいことを示す。同様に、状況関係情報３７は、重み付け係数ｋｔ２が重み付け係数ｋｖ２より大きく、かつ、重み付け係数ｋｔ３が重み付け係数ｋｖ３より大きく、かつ、重み付け係数ｋｔ４が重み付け係数ｋｖ４より大きいことを示す。具体的には、図７に示す識別情報「会議」に関係する重み付け係数は、以下の通りである。
重み付け係数ｋｖ１＝０．４
重み付け係数ｋｔ１＝０．６
重み付け係数ｋｖ２＝０．２
重み付け係数ｋｔ２＝０．８
重み付け係数ｋｖ３＝０．３
重み付け係数ｋｔ３＝０．７
重み付け係数ｋｖ４＝０．２
重み付け係数ｋｔ４＝０．８

説明を図６に戻す。推定部２５８は、補正部２５７の補正結果、即ち、補正後の音声評価値ＣＥＶ１～ＣＥＶ４、及び、補正後の文字評価値ＣＥＴ１～ＣＥＴ４に基づいて、ユーザＵが抱く１つ以上の感情を推定する。例えば、推定部２５８は、以下の演算を実行して、喜びに対応する評価値Ｅ１、怒りに対応する評価値Ｅ２、悲しみに対応する評価値Ｅ３、及び、平常に対応する評価値Ｅ４を生成する。
Ｅ１＝ＣＥＶ１＋ＣＥＴ１
Ｅ２＝ＣＥＶ２＋ＣＥＴ２
Ｅ３＝ＣＥＶ３＋ＣＥＴ３
Ｅ４＝ＣＥＶ４＋ＣＥＴ４

そして、推定部２５８は、例えば、以下に示す２つの態様のいずれか一方に従って、ユーザＵが抱く感情を推定する。第１の態様において、推定部２５８は、評価値Ｅ１、評価値Ｅ２、評価値Ｅ３、及び、評価値Ｅ４のうち、最も大きい評価値Ｅに対応する感情を示す感情情報ＥＩを出力する。第２の態様において、推定部２５８は、評価値Ｅ１～Ｅ４の各々と閾値と比較して、閾値を上回る評価値Ｅに対応する感情を示す感情情報ＥＩを出力する。第２の態様では、感情情報ＥＩが、怒り及び悲しみを示すという様に、複数の感情を示すことがある。
感情情報ＥＩは、例えば、以下に示す２つの態様がある。感情情報ＥＩの第１の態様は、推定したユーザＵが抱く１以上の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、悲しみを示す識別子、及び、平常を示す識別子がある。感情情報ＥＩの第２の態様は、推定したユーザＵが抱く１以上の感情を示す識別子と、推定したユーザＵが抱く感情の評価値Ｅとである。

出力部２７は、認識部２５４によって得られた認識文字列ＲＴに対して、感情情報ＥＩが示す１つ以上の感情に応じた処理を実行して得られた情報を出力する。感情に応じた処理は、例えば、下記に示す２つの態様がある。
感情に応じた処理の第１の態様は、認識文字列ＲＴに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、感情情報ＥＩが第２の態様である場合、出力部２７は、感情情報ＥＩが示す感情であって、感情情報ＥＩに含まれる評価値Ｅに応じた強度を有する感情を具象化した絵文字を、認識文字列ＲＴに付加する絵文字として決定してもよい。例えば、感情情報ＥＩが示す感情が悲しみであり、かつ、感情情報ＥＩに含まれる評価値Ｅが所定の閾値以下である場合、出力部２７は、涙をこぼす顔を示す絵文字を認識文字列ＲＴに付加する絵文字として決定する。一方、感情情報ＥＩが示す感情が悲しみであり、かつ、感情情報ＥＩに含まれる評価値Ｅが所定の閾値より大きい場合、出力部２７は、号泣した顔を示す絵文字を認識文字列ＲＴに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より高い強度の悲しみを具象化している。
出力部２７は、認識文字列ＲＴに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す２つがある。第１の位置は、認識文字列ＲＴの末尾である。第２の位置は、認識文字列ＲＴ内における、感情分類情報３３に含まれる文字列の次である。表示装置５１は、出力部２７が出力した絵文字付き文字列に基づく画像を表示する。

感情に応じた処理の第２の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、例えば、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部２７は、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。そして、出力部２７は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。放音装置５３は、出力部２７が出力したデータが示す合成音声を放音する。

１．２．第１実施形態の動作
次に、ユーザ装置１の動作について、図８を用いて説明する。

図８は、ユーザ装置１の動作を示すフローチャートである。取得部２１は、音声情報ＶＩを取得する（ステップＳ１）。特徴量生成部２５１は、音声情報ＶＩから、特徴量を生成する（ステップＳ２）。そして、第１評価部２５２は、特徴量を学習モデルＬＭに入力し、各感情の音声評価値ＥＶを取得する（ステップＳ３）。

一方、認識部２５４は、音声情報ＶＩに基づいて、認識文字列ＲＴを出力する（ステップＳ４）。次に、解析部２５５２は、形態素解析処理を実行して、補正後認識文字列ＣＲＴを出力する（ステップＳ５）。そして、算出部２５５４は、補正後認識文字列ＣＲＴから、各感情の文字評価値ＥＴ１～ＥＴ４を生成する（ステップＳ６）。

状況情報生成部２３は、ＧＰＳ装置８から得られる位置情報ＰｏＩ、慣性センサ７から得られる慣性情報ＩＦＩ、及び、スケジュール情報３５に基づいて、状況情報ＳｉＩを生成する（ステップＳ７）。そして、補正部２５７は、状況情報ＳｉＩが示す状況に応じた重み付け係数ｋｖ１～ｋｖ４、ｋｔ１～ｋｔ４に基づいて、音声評価値ＥＶ１～ＥＶ４と文字評価値ＥＴ１～ＥＴ４とを補正する（ステップＳ８）。

推定部２５８は、補正後の音声評価値ＣＥＶ１～ＣＥＶ４と、補正後の文字評価値ＣＥＴ１～ＣＥＴ４とに基づいて、ユーザＵが抱く１つ以上の感情を推定し、感情情報ＥＩを出力する（ステップＳ９）。出力部２７は、感情情報ＥＩが示す感情に応じた処理を認識文字列ＲＴに対して実行することにより得られる情報を出力する（ステップＳ１０）。ステップＳ１０の処理終了後、ユーザ装置１は、図８に示す一連の処理を終了する。

１．３．第１実施形態の効果
以上の説明によれば、ユーザ装置１は、状況情報ＳｉＩに基づいて、音声評価値ＥＶ１～ＥＶ４、文字評価値ＥＴ１～ＥＴ４を補正する。状況情報ＳｉＩが、感情を音声に発露しにくい状況を示す場合、音声評価値ＥＶ１～ＥＶ４の精度が低下していると言える。従って、状況情報ＳｉＩが、感情を音声に発露しにくい状況を示す場合、音声評価値ＥＶ１～ＥＶ４を低くする方式で、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正することにより、ユーザＵが抱く感情を精度良く補正できる。

また、ユーザ装置１は、人間の音声に応じた複数の特徴量と音声を発した人間が抱く複数の感情の各々に対する強度との関係を学習済みの学習モデルＬＭに、特徴量生成部２５１が生成した特徴量を入力し、音声評価値ＥＶ１～ＥＶ４を学習モデルＬＭから取得する。学習モデルＬＭを用いることにより、ユーザ装置１は、精度の良い音声評価値ＥＶ１～ＥＶ４を取得できる。

また、学習モデルＬＭは、複数の人間について、人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を学習済みである。言い換えれば、学習モデルＬＭは、複数のユーザの音声情報ＶＩに基づく教師データによって生成されている。従って、学習モデルＬＭは、特定の個人向けに調整されていない、汎用的なモデルである。第１実施形態において、汎用的な学習モデルＬＭを利用できるため、特定の個人向けに調整された学習モデルを用いる場合と比較して、導入が容易である。

また、補正部２５７は、状況関係情報３７を参照して、状況情報ＳｉＩが示す状況に応じた音声評価値ＥＶ１～ＥＶ４、及び文字評価値ＥＴ１～ＥＴ４の各々に対する重み付け係数を設定する。状況関係情報３７を参照することにより、感情を発露しにくい状況にユーザＵが置かれている状況か否かを精度良く特定できる。

状況関係情報３７は、プライベート空間にユーザＵがいる状況を示す識別情報に関係する重み付け係数について、重み付け係数ｋｖ１が重み付け係数ｋｔ１より大きいことを示す。さらに、状況関係情報３７は、重み付け係数ｋｖ２が重み付け係数ｋｔ２より大きく、かつ、重み付け係数ｋｖ３が重み付け係数ｋｔ３より大きく、重み付け係数ｋｖ４が重み付け係数ｋｔ４より大きいことを示す。
ユーザＵが自宅等のプライベート空間にいる状況では、他者の目を引くこともないので、感情を音声に発露しやすい。従って、重み付け係数ｋｖ１が重み付け係数ｋｔ１より大きく、重み付け係数ｋｖ２が重み付け係数ｋｔ２より大きく、重み付け係数ｋｖ３が重み付け係数ｋｔ３より大きく、かつ、重み付け係数ｋｖ４が重み付け係数ｋｔ４より大きいことにより、ユーザ装置１は、喜び、怒り、悲しみ、及び、平常を精度良く推定できる。

状況関係情報３７は、非プライベート空間にユーザＵがいる状況を示す識別情報に関係する重み付け係数について、重み付け係数ｋｔ１が重み付け係数ｋｖ１より大きいことを示す。さらに、状況関係情報３７は、重み付け係数ｋｔ２が重み付け係数ｋｖ２より大きく、重み付け係数ｋｔ３が重み付け係数ｋｖ３より大きく、かつ、重み付け係数ｋｔ４が重み付け係数ｋｖ４より大きいことを示す。
非プライベート空間にユーザＵがいる一例として、ユーザＵが電車を利用している状況では、感情を込めて発声すると他者の注目を浴びてしまうので、感情を込めずに発声することが一般的と言える。ユーザＵが電車を利用している状況は、ユーザＵが感情を音声に発露しにくい状況の一つである。非プライベート空間にユーザＵがいる他の例として、ユーザＵが会議中である状況では、感情を込めて発声することは少ないと言える。ユーザＵが会議中である状況は、ユーザＵが感情を音声に発露しにくい状況の一つである。
従って、非プライベート空間にユーザＵがいる場合には、重み付け係数ｋｔ１が重み付け係数ｋｖ１より大きく、重み付け係数ｋｔ２が重み付け係数ｋｖ２より大きく、重み付け係数ｋｔ３が重み付け係数ｋｖ３より大きく、かつ、重み付け係数ｋｔ４が重み付け係数ｋｖ４より大きいことにより、ユーザ装置１は、喜び、怒り、悲しみ、及び、平常を精度良く推定できる。

２．第２実施形態
第２実施形態にかかるユーザ装置１ａは、認識文字列ＲＴに応じて音声に感情が発露される度合いに基づいて、音声評価値ＣＥＶ１～ＣＥＶ４、及び、文字評価値ＣＥＴ１～ＣＥＴ４を補正する点で、第１実施形態にかかるユーザ装置１と相違する。なお、以下に例示する第２実施形態において作用又は機能が第１実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。

２．１．第２実施形態の機能
図９は、第２実施形態にかかるユーザ装置１ａを示すブロック図である。ユーザ装置１ａは、処理装置２ａ、記憶装置３ａ、入力装置４、出力装置５、通信装置６、慣性センサ７、及び、ＧＰＳ装置８を具備するコンピュータシステムにより実現される。記憶装置３ａは、処理装置２ａが読取可能な記録媒体であり、処理装置２ａが実行する制御プログラムＰＲａを含む複数のプログラム、解析用辞書情報３１、感情分類情報３３、スケジュール情報３５、状況関係情報３７、文字列関係情報３８、及び、学習モデルＬＭを記憶する。

文字列関係情報３８は、認識文字列ＲＴに応じて音声に感情が発露される度合いを判定するために用いられる。処理装置２ａは、記憶装置３ａから制御プログラムＰＲａを読み取り実行することによって、取得部２１、状況情報生成部２３、感情情報生成部２５ａ、及び、出力部２７として機能する。

図１０は、第２実施形態におけるユーザ装置１ａの機能の概要を示す図である。感情情報生成部２５ａは、特徴量生成部２５１、第１評価部２５２、認識部２５４、第２評価部２５５、補正部２５７ａ、及び、推定部２５８を含む。

補正部２５７ａは、ユーザＵが認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いと、状況情報ＳｉＩとに基づいて、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正する。例えば、補正部２５７ａは、以下に示す２つの態様のいずれか一方に従って、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正する。

第１の態様における補正部２５７ａは、発声した場合にユーザＵの音声に感情が発露される度合いの低い文字列と、高い文字列とに分類する。そして、補正部２５７ａは、感情が発露される度合いの低い文字列が認識文字列ＲＴに含まれる場合、認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いが低いと判定する。一方、感情が発露される度合いの低い文字列が認識文字列ＲＴに含まれていない場合、補正部２５７ａは、認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いが高いと判定する。そして、補正部２５７ａは、認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いが低い場合、認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いが高い場合と比較して、音声評価値ＥＶ１～ＥＶ４に対応する重み付け係数ｋｖ１～ｋｖ４を低下させる。
例えば、「ありがとう」は、汎用的な感謝の意味を有する。ユーザＵが「ありがとう」と発声する場合、ユーザＵが抱く感情は喜びが強くなる。しかしながら、汎用的に使用される文字列は、言い慣れているので起伏なく発声する場合が多く、音声に感情が発露される度合いが低いと言える。従って、補正部２５７ａは、認識文字列ＲＴに「ありがとう」が含まれる場合、音声評価値ＥＶ１～ＥＶ４に対応する重み付け係数ｋｖ１～ｋｖ４を低下させる。例えば、補正部２５７ａは、音声評価値ＥＶ１～ＥＶ４に対応する重み付け係数ｋｖ１～ｋｖ４から所定値を減算し、文字評価値ＥＴ１～ＥＴ４に対応する重み付け係数ｋｔ１～ｋｔ４に所定値を加算する。

第２の態様における補正部２５７ａは、文字列関係情報３８及び状況関係情報３７に基づいて、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４の各々に対する、認識文字列ＲＴに含まれる文字列及び状況情報ＳｉＩが示す状況に応じた重み付け係数ｋｖ１～ｋｖ４、ｋｔ１～ｋｔ４を設定する。そして、補正部２５７ａは、認識文字列ＲＴ及び状況情報ＳｉＩが示す状況に応じた重み付け係数に基づいて、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正する。

図１１は、文字列関係情報３８の記憶内容の一例を示す図である。文字列関係情報３８は、人間が発声する文字列と、この文字列を発声した場合において人間の音声に感情が発露される度合いに基づき設定された音声評価値ＥＶ１～ＥＶ４、及び文字評価値ＥＴ１～ＥＴ４に対する重み付け係数ｋｖ１～ｋｖ４、ｋｔ１～ｋｖ４の増減値Δｋｖ１～Δｋｖ４、Δｋｔ１～Δｋｔ４との関係を示す。
増減値Δｋｖ１～Δｋｖ４、及び、増減値Δｋｔ１～Δｋｔ４は、以下の条件がある。

Δｋｖ１＋Δｋｔ１＝Δｋｖ２＋Δｋｔ２＝Δｋｖ３＋Δｋｔ３＝Δｋｖ４＋Δｋｔ４＝０

図１０に示す文字列関係情報３８は、文字列「ありがとう」を人間が発声した場合において、以下に示すように、増減値Δｋｖ１～Δｋｖ４、Δｋｔ１～Δｋｔ４を設定することを示す。
増減値Δｋｖ１＝－０．２
増減値Δｋｔ１＝０．２
増減値Δｋｖ２＝－０．２
増減値Δｋｔ２＝０．２
増減値Δｋｖ３＝－０．２
増減値Δｋｔ３＝０．２
増減値Δｋｖ４＝－０．１
増減値Δｋｔ４＝０．１
なお、増減値Δｋｖ１～Δｋｖ４、Δｋｔ１～Δｋｔ４のうち、０である値が含まれていてもよい。例えば、文字列「ありがとう」に対する増減値Δｋｖ１及びΔｋｔ１は、上述の値であり、増減値Δｋｖ２～Δｋｖ４、Δｋｔ２～Δｋｔ４は、０であってもよい。

補正部２５７ａは、文字列関係情報３８に含まれる文字列が認識文字列ＲＴに含まれる場合、下記演算を実行することにより、補正後の音声評価値ＣＥＶ１～ＣＥＶ４、及び、補正後の文字評価値ＣＥＴ１～ＣＥＴ４を出力する。

ＣＥＶ１＝（ｋｖ１＋Δｋｖ１）×ＥＶ１
ＣＥＶ２＝（ｋｖ２＋Δｋｖ２）×ＥＶ２
ＣＥＶ３＝（ｋｖ３＋Δｋｖ３）×ＥＶ３
ＣＥＶ４＝（ｋｖ４＋Δｋｖ４）×ＥＶ４
ＣＥＴ１＝（ｋｔ１＋Δｋｔ１）×ＥＴ１
ＣＥＴ２＝（ｋｔ２＋Δｋｔ２）×ＥＴ２
ＣＥＴ３＝（ｋｔ３＋Δｋｔ３）×ＥＴ３
ＣＥＴ４＝（ｋｔ４＋Δｋｔ４）×ＥＴ４

増減値Δｋｖ１～Δｋｖ４、及び、増減値Δｋｔ１～Δｋｔ４は、文字列関係情報３８において、認識文字列ＲＴに含まれる文字列に対応する値である。また、重み付け係数ｋｖｘと増減値Δｋｖｘとの和が０未満である場合、補正部２５７ａは、補正後の音声評価値ＣＥＶｘを０として出力し、重み付け係数ｋｖｘと増減値Δｋｖｘとの和が１より大きい場合、補正後の音声評価値ＣＥＶｘを音声評価値ＥＶｘと同一の値として出力する。同様に、重み付け係数ｋｔｘと増減値Δｋｔｘとの和が０未満である場合、補正部２５７ａは、補正後の文字評価値ＣＥＴｘを０として出力し、重み付け係数ｋｔｘと増減値Δｋｔｘとの和が１より大きい場合、補正後の文字評価値ＣＥＴｘを文字評価値ＥＴｘと同一の値として出力する。ｘは、１から４までの整数である。
以下の記載では、補正部２５７ａは、第２の態様であるとして説明する。

２．２．第２実施形態の動作
次に、ユーザ装置１ａの動作について、図１２を用いて説明する。

図１２は、ユーザ装置１ａの動作を示すフローチャートである。図１２に示すステップＳ２１～ステップＳ２７の処理は、それぞれ、図８に示すステップＳ１～ステップＳ７の処理と同一であるため、説明を省略する。

ステップＳ２７の処理終了後、補正部２５７ａは、文字列関係情報３８内の文字列が認識文字列ＲＴに含まれるか否かを判定する（ステップＳ２８）。ステップＳ２８の判定結果が肯定の場合、補正部２５７ａは、認識文字列ＲＴに含まれる文字列及び状況情報ＳｉＩが示す状況に応じた重み付け係数ｋｖ１～ｋｖ４に基づいて、音声評価値ＥＶ１～ＥＶ４と文字評価値ＥＴ１～ＥＴ４とを補正する（ステップＳ２９）。一方、ステップＳ２８の判定結果が否定の場合、補正部２５７ａは、状況情報ＳｉＩが示す状況に応じた重み付け係数ｋｖ１～ｋｖ４に基づいて、音声評価値ＥＶ１～ＥＶ４と文字評価値ＥＴ１～ＥＴ４とを補正する（ステップＳ３０）。

ステップＳ２９の処理又はステップＳ３０の処理終了後、推定部２５８は、補正後の音声評価値ＣＥＶ１～ＣＥＶ４と、補正後の文字評価値ＣＥＴ１～ＣＥＴ４とに基づいて、ユーザＵが抱く１つ以上の感情を推定し、感情情報ＥＩを出力する（ステップＳ３１）。出力部２７は、感情情報ＥＩが示す感情に応じた処理を認識文字列ＲＴに対して実行することにより得られる情報を出力する（ステップＳ３２）。ステップＳ１０の処理終了後、ユーザ装置１は、図１２に示す一連の処理を終了する。

２．３．第２実施形態の効果
以上の説明によれば、ユーザ装置１ａは、ユーザＵが認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いと、状況情報ＳｉＩとに基づいて、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正する。一般的に、発声した場合に感情が発露される度合いが高い文字列と、発声した場合に感情が発露される度合いが低い文字列とが存在するため、発声した場合に感情が発露される度合いに応じて音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正することにより、ユーザＵが抱く感情を精度良く推定できる。

また、ユーザ装置１ａは、状況関係情報３７と文字列関係情報３８とを参照して、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４の各々に対する、認識文字列ＲＴに含まれる文字列及び状況情報ＳｉＩが示す状況に応じた重み付け係数ｋｖ１～ｋｖ４、ｋｔ１～ｋｔ４を設定する。認識文字列ＲＴに含まれる文字列及び状況情報ＳｉＩが示す状況に応じた重み付け係数ｋｖ１～ｋｖ４、ｋｔ１～ｋｔ４を設定することにより、ユーザＵが抱く感情を精度良く推定できる。

３．変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を併合してもよい。

（１）上述の各態様では、ユーザ装置１の処理装置２が、取得部２１、状況情報生成部２３、感情情報生成部２５、及び、出力部２７として機能したが、これに限らない。第１変形例では、取得部２１、状況情報生成部２３、感情情報生成部２５、及び、出力部２７を、ユーザ装置１ｂと、サーバ装置１０とで分散させる。

図１３は、感情推定システムＳＹＳの全体構成を示す図である。感情推定システムＳＹＳは、ユーザＵが所持するユーザ装置１ｂと、ネットワークＮＷと、サーバ装置１０とを備える。ユーザ装置１ｂが、「端末装置」の一例である。サーバ装置１０が、第１変形例における「感情推定装置」の一例である。

図１４は、ユーザ装置１ｂの構成を示すブロック図である。ユーザ装置１ｂは、処理装置２ｂ、記憶装置３ｂ、入力装置４、出力装置５、通信装置６、慣性センサ７、及び、ＧＰＳ装置８を具備するコンピュータシステムにより実現される。記憶装置３ｂは、処理装置２ｂが読取可能な記録媒体であり、処理装置２ｂが実行する制御プログラムＰＲｂを含む複数のプログラム、及び、スケジュール情報３５を記憶する。

処理装置２ｂは、記憶装置３ｂから制御プログラムＰＲｂを読み取り実行することによって、取得部２１、状況情報生成部２３、及び、出力部２７として機能する。

通信装置６は、音声情報ＶＩ及び状況情報ＳｉＩをサーバ装置１０に送信し、サーバ装置１０から、認識文字列ＲＴ及び感情情報ＥＩを受信する。

図１５は、サーバ装置１０の構成を示すブロック図である。サーバ装置１０は、処理装置２Ｂ、記憶装置３Ｂ、通信装置６Ｂを具備するコンピュータシステムにより実現される。サーバ装置１０の各要素は、情報を通信するための単体又は複数のバス９Ｂで相互に接続される。記憶装置３Ｂは、処理装置２Ｂが読取可能な記録媒体であり、処理装置２Ｂが実行する制御プログラムＰＲＢを含む複数のプログラム、解析用辞書情報３１、感情分類情報３３、状況関係情報３７、及び、学習モデルＬＭを記憶する。

処理装置２Ｂは、記憶装置３Ｂから制御プログラムＰＲＢを読み取り実行することによって、感情情報生成部２５として機能する。

通信装置６Ｂは、音声情報ＶＩ及び状況情報ＳｉＩをユーザ装置１ｂから受信し、認識文字列ＲＴ及び感情情報ＥＩをユーザ装置１ｂに送信する。

以上、第１変形例によれば、取得部２１、状況情報生成部２３、感情情報生成部２５、及び、出力部２７を、ユーザ装置１と、サーバ装置１０とで分散することができる。

（２）第２実施形態では、補正部２５７ａは、ユーザＵが認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いと、状況情報ＳｉＩとに基づいて、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正したが、これに限らない。例えば、補正部２５７ａは、ユーザＵが認識文字列ＲＴを発声した場合にユーザＵの音声に感情が発露される度合いに基づいて、音声評価値ＥＶ１～ＥＶ４、及び、文字評価値ＥＴ１～ＥＴ４を補正してもよい。

（３）プライベート空間の一例が、自宅の中であると記載したが、これに限らない。例えば、プライベート空間は、ユーザＵが宿泊するホテルの部屋の中でもよい。例えば、ユーザ装置１が、ホテルの部屋のドアの施錠及び開錠を制御できる機能を有すると前提する。この前提の基、ユーザ装置１がホテルの部屋のドアの開錠を指示し、かつ、開錠を指示した時刻から所定時間が経過するまでの間で、ユーザＵの移動範囲が所定範囲内である場合には、ユーザ装置１は、ユーザＵが宿泊するホテルの部屋の中にいると判定する。

（４）非プライベート空間は、公共の交通機関内、及び、職場の中と記載したが、これらに限らない。例えば、非プライベート空間は、学校の中、病院の中、及び、図書館の中等がある。

（５）公共の交通機関を利用する状況の一例として、電車を利用する状況を挙げたが、公共の交通機関を利用している状況は、電車を利用する状況に限られない。例えば、公共の交通機関を利用している状況として、駅構内にいる状況を含めてもよい。例えば、ユーザ装置１が、交通系ＩＣ（Integrated Circuit）カード機能を有する場合、交通系ＩＣカード機能によって駅構内にユーザＵが入った場合に、ユーザＵが公共の交通機関を利用する状況であると判断してもよい。また、公共の交通機関には、電車に限らず、路線バス、タクシー、フェリー、及び、旅客機等も含まれる。

（６）出力部２７は、感情情報ＥＩが示す感情に応じた処理を認識文字列ＲＴに対して実行することにより得られる情報を出力するが、この限りではない。例えば、出力部２７は、感情情報ＥＩが示す感情を示す文字列を、表示装置５１に出力してもよいし、感情情報ＥＩが示す絵文字を、表示装置５１に出力する。

（７）ユーザ装置１は、集音装置４１を有さなくてもよい。集音装置４１を有さない場合、ユーザ装置１は、通信装置６を介して音声情報ＶＩを取得してもよいし、記憶装置３に記憶された音声情報ＶＩを取得してもよい。

（８）ユーザ装置１は、放音装置５３を有さなくてもよい。

（９）ユーザ装置１は、スマートスピーカでもよい。ユーザ装置１がスマートスピーカである場合、ユーザ装置１は、タッチパネル４３及び表示装置５１を有さなくてもよい。

（１０）感情分類情報３３は、図４に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、悲しみ、及び、平常の何れかに分類したが、これに限らない。例えば、感情分類情報３３は、解析用辞書情報３１の原形データに登録された文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類してもよい。例えば、感情分類情報３３は、解析用辞書情報３１の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。算出部２５５４は、補正後認識文字列ＣＲＴを形態素ごとに分解し、分解した形態素を、解析用辞書情報３１の原形データに登録された文字列に変換する。そして、算出部２５５４は、変換して得られた文字列と、感情分類情報３３に含まれる文字列とが一致する場合に、この補正後認識文字列ＣＲＴに含まれる文字列に対応する感情の文字評価値ＥＴを増加させる。

（１１）算出部２５５４は、補正後認識文字列ＣＲＴに対して、感情ごとの文字評価値ＥＴを算出したが、認識文字列ＲＴに対して感情ごとの文字評価値ＥＴを算出してもよい。しかしながら、認識文字列ＲＴには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列ＣＲＴに対して感情ごとの文字評価値ＥＴを算出することにより、認識文字列ＲＴに対して感情ごとの文字評価値ＥＴを算出する場合と比較して、感情の推定精度を向上できる。

（１２）ユーザＵが日本語を話す例を用いたが、ユーザが如何なる言語を話しても上述の各態様を適用することが可能である。例えば、ユーザＵが、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、ユーザＵが英語を話す場合、解析用辞書情報３１は、英語の形態素に関する情報であり、感情分類情報３３は、英単語を喜び、怒り、悲しみ、及び、平常の何れかに分類した情報であればよい。

（１３）上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に(例えば、有線及び／又は無線)で接続し、これら複数の装置により実現されてもよい。

（１４）上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

（１５）上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

（１６）上述した各態様において、判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

（１７）上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置１として例示したが、ユーザ装置１の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置１として利用してもよい。

（１８）上述した各態様では、記憶装置３は、処理装置２が読取可能な記録媒体であり、ＲＯＭ及びＲＡＭなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、ＣＤ－ＲＯＭ（Compact Disc－ＲＯＭ）、レジスタ、リムーバブルディスク、ハードディスク、フロッピー（登録商標）ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。

（１９）上述した各態様は、ＬＴＥ（Long Term Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

（２０）上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

（２１）図２、図６、図９、図１０、図１４、及び、図１５に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された２個以上の装置によって実現されてもよい。

（２２）上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

（２３）上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

（２４）上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。

（２５）上述した各実施形態において、ユーザ装置１は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。

（２６）上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

（２７）本明細書で使用する「第１」、「第２」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第１及び第２の要素への参照は、２つの要素のみがそこで採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

（２８）上述した各実施形態において「含む(ｉｎｃｌｕｄｉｎｇ)」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

（２９）本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。

（３０）本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。

１、１ａ、１ｂ…ユーザ装置、６…通信装置、１０…サーバ装置、２１…取得部、２３…状況情報生成部、２５、２５ａ…感情情報生成部、２７…出力部、３７…状況関係情報、３８…文字列関係情報、４１…集音装置、２５１…特徴量生成部、２５２…第１評価部
２５４…認識部、２５５…第２評価部、２５７、２５７ａ…補正部、２５８…推定部、ＣＥＴ１…補正後の文字評価値、ＣＥＴ２…補正後の文字評価値、ＣＥＴ３…補正後の文字評価値、ＣＥＴ４…補正後の文字評価値、ＣＥＶ１…補正後の音声評価値、ＣＥＶ２…補正後の音声評価値、ＣＥＶ３…補正後の音声評価値、ＣＥＶ４…補正後の音声評価値、ＥＩ…感情情報、ＥＴ１…文字評価値、ＥＴ２…文字評価値、ＥＴ３…文字評価値、ＥＴ４…文字評価値、ＥＶ１…音声評価値、ＥＶ２…音声評価値、ＥＶ３…音声評価値、ＥＶ４…音声評価値、ｋｔ１…重み付け係数、ｋｔ２…重み付け係数、ｋｔ３…重み付け係数、ｋｔ４…重み付け係数、ｋｖ１…重み付け係数、ｋｖ２…重み付け係数、ｋｖ３…重み付け係数、ｋｖ４…重み付け係数。

Claims

ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、
前記特徴量に基づいて、前記ユーザが第１感情を抱く強度を示す第１音声評価値と、前記ユーザが第２感情を抱く強度を示す第２音声評価値とを生成する第１評価部と、
前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、
前記認識文字列に基づいて、前記ユーザが前記第１感情を抱く強度を示す第１文字評価値と、前記ユーザが前記第２感情を抱く強度を示す第２文字評価値とを生成する第２評価部と、
前記ユーザの状況を示す状況情報に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正する補正部と、
前記補正部の補正結果に基づいて、前記ユーザが抱く１つ以上の感情を推定する推定部と、
を備え、
前記補正部は、
人間が取り得る状況を示す識別情報と、当該状況に応じて設定された前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数との関係を示す状況関係情報を参照して、
前記状況情報が示す状況に応じた前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数を設定し、
前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正し、
前記状況関係情報は、
前記ユーザの許可なく立ち入りが禁止されるプライベート空間内に前記ユーザがいる状況を示す識別情報に関係する重み付け係数について、前記第１音声評価値に対する重み付け係数が前記第１文字評価値に対する重み付け係数より大きく、かつ、前記第２音声評価値に対する重み付け係数が前記第２文字評価値に対する重み付け係数より大きい、
ことを示す、
感情推定装置。
ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、
前記特徴量に基づいて、前記ユーザが第１感情を抱く強度を示す第１音声評価値と、前記ユーザが第２感情を抱く強度を示す第２音声評価値とを生成する第１評価部と、
前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、
前記認識文字列に基づいて、前記ユーザが前記第１感情を抱く強度を示す第１文字評価値と、前記ユーザが前記第２感情を抱く強度を示す第２文字評価値とを生成する第２評価部と、
前記ユーザの状況を示す状況情報に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正する補正部と、
前記補正部の補正結果に基づいて、前記ユーザが抱く１つ以上の感情を推定する推定部と、
を備え、
前記補正部は、
人間が取り得る状況を示す識別情報と、当該状況に応じて設定された前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数との関係を示す状況関係情報を参照して、
前記状況情報が示す状況に応じた前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数を設定し、
前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正し、
前記状況関係情報は、
前記ユーザの許可なく立ち入りが可能な非プライベート空間内に前記ユーザがいる状況を示す識別情報に関係する重み付け係数について、前記第１文字評価値に対する重み付け係数が前記第１音声評価値に対する重み付け係数より大きく、かつ、前記第２文字評価値に対する重み付け係数が前記第２音声評価値に対する重み付け係数より大きい、
ことを示す、
感情推定装置。
ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、
前記特徴量に基づいて、前記ユーザが第１感情を抱く強度を示す第１音声評価値と、前記ユーザが第２感情を抱く強度を示す第２音声評価値とを生成する第１評価部と、
前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、
前記認識文字列に基づいて、前記ユーザが前記第１感情を抱く強度を示す第１文字評価値と、前記ユーザが前記第２感情を抱く強度を示す第２文字評価値とを生成する第２評価部と、
前記ユーザの状況を示す状況情報に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正する補正部と、
前記補正部の補正結果に基づいて、前記ユーザが抱く１つ以上の感情を推定する推定部と、
を備え、
前記補正部は、
前記ユーザが前記認識文字列を発声した場合に前記ユーザの音声に感情が発露される度合いと、前記状況情報とに基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正する、
感情推定装置。
ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、
前記特徴量に基づいて、前記ユーザが第１感情を抱く強度を示す第１音声評価値と、前記ユーザが第２感情を抱く強度を示す第２音声評価値とを生成する第１評価部と、
前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、
前記認識文字列に基づいて、前記ユーザが前記第１感情を抱く強度を示す第１文字評価値と、前記ユーザが前記第２感情を抱く強度を示す第２文字評価値とを生成する第２評価部と、
前記ユーザの状況を示す状況情報に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正する補正部と、
前記補正部の補正結果に基づいて、前記ユーザが抱く１つ以上の感情を推定する推定部と、
を備え、
前記補正部は、
人間が取り得る状況を示す識別情報と、当該状況に応じて設定された前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数との関係を示す状況関係情報と、
前記人間が発声する文字列と、前記文字列を発声した場合において前記人間の音声に感情が発露される度合いに基づき設定された前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する重み付け係数の増減値との関係を示す文字列関係情報と、
を参照し、
前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値の各々に対する、前記認識文字列に含まれる文字列及び前記状況情報が示す状況に応じた重み付け係数を設定し、
前記認識文字列に含まれる文字列及び前記状況情報が示す状況に応じた重み付け係数に基づいて、前記第１音声評価値、前記第２音声評価値、前記第１文字評価値、及び、前記第２文字評価値を補正する、
感情推定装置。
前記第１評価部は、
人間の音声に応じた特徴量と当該音声を発した人間が抱く前記第１感情及び前記第２感情の各々に対する強度との関係を学習済みの学習モデルに、前記生成部が生成した特徴量を入力し、前記第１音声評価値と前記第２音声評価値とを前記学習モデルから取得する、
請求項１から４のいずれか１項に記載の感情推定装置。
前記学習モデルは、複数の人間について、前記人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く前記第１感情及び前記第２感情の各々に対する強度との関係を学習済みである、
請求項５に記載の感情推定装置。
請求項１から６までの何れか１項に記載の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、
前記端末装置は、
前記ユーザの音声を集音する集音装置と、
前記状況情報を生成する状況情報生成部と、
前記ユーザの音声を示す前記音声情報及び前記状況情報を前記感情推定装置に送信し、前記感情推定装置から、前記認識文字列、及び、前記推定部が推定した前記ユーザが抱く１つ以上の感情を示す感情情報を受信する通信装置と、
前記感情情報が示す感情に応じた処理を前記認識文字列に対して実行することにより得られる情報を出力する出力部と、
を備える感情推定システム。