JP6866715B2

JP6866715B2 - 情報処理装置、感情認識方法、及び、プログラム

Info

Publication number: JP6866715B2
Application number: JP2017056482A
Authority: JP
Inventors: 崇史山谷
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2021-04-28
Anticipated expiration: 2037-03-22
Also published as: JP2021105736A; JP7143916B2; JP2018159788A; CN108630231B; US20180277145A1; CN108630231A

Description

本発明は、情報処理装置、感情認識方法、及び、プログラムに関する。

音声を用い、話者の感情に応じた処理を実行する技術が知られている。

例えば、特許文献１は、音声の特徴を用い、音声がもっている話者の感情の度合いを示すレベルを出力する音声感情認識システムを開示している。

特開平１１−１１９７９１号公報

同一の音声、例えば、口癖が、話者に応じて異なる感情に関連している場合がある。例えば、ある話者にとっては怒りを表す音声が他の話者にとっては喜びを表す音声であったり、ある話者にとっては悲しみを表す音声が他の話者にとっては怒りを表す音声であったりする場合がある。このような場合、特許文献１に記載された音声感情認識システムは、上述したような話者に固有の音声と感情との関連性を参酌していないため、話者の感情を誤って認識し、この誤った認識結果に応じた処理を実行してしまう虞があった。

本発明は、上記の事情に鑑みてなされたものであり、ユーザの感情に適合しない処理の実行を抑制する情報処理装置、感情認識方法、及び、プログラムを提供することを目的とする。

上記目的を達成するため、本発明に係る情報処理装置は、
ユーザが発音した音声を取得する音声取得手段と、
感情毎に、前記音声を発音した際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る音声感情スコアを取得する音声感情スコア取得手段と、
前記音声が録音された際に撮像された前記ユーザの顔画像を取得する顔画像取得手段と、
感情毎に、前記顔画像が撮像された際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る顔感情スコアを取得する顔感情スコア取得手段と、
前記音声を音素列に変換する音素列変換手段と、
前記音声感情スコアと前記顔感情スコアとに基づいて、音素列のうち、前記ユーザの感情と関連度が高い音素列を感情音素列として抽出する抽出手段と、
前記抽出手段により抽出された感情音素列に基づいて、前記ユーザの感情認識に係る処理を実行する処理手段と、
を備えることを特徴とする。

本発明によれば、ユーザの感情に適合しない処理の実行を抑制する情報処理装置、感情認識方法、及び、プログラムを提供することができる。

本発明の第１実施形態に係る情報処理装置の物理的構成を示す図である。本発明の第１実施形態に係る情報処理装置の機能的構成を示す図である。頻度データの構成例を示す図である。感情音素列データの構成例を示す図である。本発明の第１実施形態に係る情報処理装置が実行する学習処理を説明するためのフローチャートである。本発明の第１実施形態に係る情報処理装置が実行する感情認識処理を説明するためのフローチャートである。本発明の第２実施形態に係る情報処理装置の機能的構成を示す図である。本発明の第２実施形態に係る情報処理装置が実行する更新処理を説明するためのフローチャートである。

（第１実施形態）
以下、本発明の第１実施形態に係る情報処理装置について、図面を参照しながら説明する。図中、互いに同一又は同等の構成には、互いに同一の符号を付す。

図１に示す情報処理装置１は、動作モードとして、学習モードと感情認識モードとを備えている。詳細は後述するものの、情報処理装置１は、学習モードに従って動作することにより、音声から生成された音素列のうち、ユーザの感情との関連度が高い音素列を感情音素列として学習する。また、情報処理装置１は、感情認識モードに従って動作することにより、学習モードにおける学習の結果に従ってユーザの感情を認識し、認識結果を表す感情画像及び又は感情音声を出力する。感情画像は、認識されたユーザの感情に応じた画像である。感情音声は、認識されたユーザの感情に応じた音声である。以下、情報処理装置１が、ユーザの感情が、喜び等のポジティブな感情と、怒りや悲しみ等のネガティブな感情と、ポジティブな感情ともネガティブな感情とも異なるニュートラルな感情と、の３種類の感情の何れであるかを認識する場合を例に用いて説明する。

情報処理装置１は、ＣＰＵ（Central Processing Unit）１００と、ＲＡＭ（Random Access Memory）１０１と、ＲＯＭ（Read Only Memory）１０２と、入力部１０３と、出力部１０４と、外部インタフェース１０５と、を備えている。

ＣＰＵ１００は、ＲＯＭ１０２に記憶されたプログラム及びデータに従って、後述する学習処理及び感情認識処理を含む各種処理を実行する。ＣＰＵ１００は、コマンド及びデータの伝送経路である図示しないシステムバスを介して情報処理装置１の各部に接続されており、情報処理装置１全体を統括制御する。

ＲＡＭ１０１は、ＣＰＵ１００が各種処理を実行することによって生成又は取得したデータを記憶する。また、ＲＡＭ１０１は、ＣＰＵ１００のワークエリアとして機能する。すなわち、ＣＰＵ１００は、プログラム及びデータをＲＡＭ１０１へ読み出し、読み出されたプログラム及びデータを適宜参照することによって、各種処理を実行する。

ＲＯＭ１０２は、ＣＰＵ１００が各種処理を実行するために用いるプログラム及びデータを記憶する。具体的に、ＲＯＭ１０２は、ＣＰＵ１００が実行する制御プログラム１０２ａを記憶する。また、ＲＯＭ１０２は、複数の音声データ１０２ｂと、複数の顔画像データ１０２ｃと、第１パラメータ１０２ｄと、第２パラメータ１０２ｅと、頻度データ１０２ｆと、感情音素列データ１０２ｇと、を記憶する。第１パラメータ１０２ｄ、第２パラメータ１０２ｅ、頻度データ１０２ｆ及び感情音素列データ１０２ｇについては、後述する。

音声データ１０２ｂは、ユーザが発音した音声を表すデータである。顔画像データ１０２ｃは、ユーザの顔画像を表すデータである。後述するように、情報処理装置１は、学習モードにおいて、音声データ１０２ｂ及び顔画像データ１０２ｃを用いて上述した感情音素列を学習する。また、情報処理装置１は、感情認識モードにおいて、音声データ１０２ｂ及び顔画像データ１０２ｃを用いてユーザの感情を認識する。音声データ１０２ｂは、ユーザが発音した音声を録音することにより外部の録音装置によって生成される。情報処理装置１は、音声データ１０２ｂを当該録音装置から後述する外部インタフェース１０５を介して取得し、ＲＯＭ１０２に予め記憶している。顔画像データ１０２ｃは、ユーザの顔画像を撮像することにより外部の撮像装置によって生成される。情報処理装置１は、顔画像データ１０２ｃを当該撮像装置から後述する外部インタフェース１０５を介して取得し、ＲＯＭ１０２に予め記憶している。

ＲＯＭ１０２は、音声データ１０２ｂと、当該音声データ１０２ｂが表す音声が録音された際に撮像された顔画像を表す顔画像データ１０２ｃと、を互いに対応付けて記憶している。すなわち、互いに対応付けられた音声データ１０２ｂ及び顔画像データ１０２ｃは、同一時点において録音された音声と撮像された顔画像とをそれぞれ表しており、同一時点におけるユーザの感情を表す情報を含んでいる。

入力部１０３は、キーボードやマウス、タッチパネル等の入力装置を備え、ユーザから入力された各種の操作指示を受け付け、受け付けた操作指示をＣＰＵ１００へ供給する。具体的に、入力部１０３は、ユーザによる操作に従って、情報処理装置１の動作モードの選択や、音声データ１０２ｂの選択を受け付ける。

出力部１０４は、ＣＰＵ１００による制御に従って各種の情報を出力する。具体的に、出力部１０４は、液晶パネル等の表示装置を備え、上述した感情画像を当該表示装置に表示する。また、出力部１０４は、スピーカ等の発音装置を備え、上述した感情音声を当該発音装置から発音する。

外部インタフェース１０５は、無線通信モジュール及び有線通信モジュールを備え、外部装置との間で無線通信又は有線通信を行うことによりデータを送受信する。具体的に、情報処理装置１は、上述した音声データ１０２ｂ、顔画像データ１０２ｃ、第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを、外部インタフェース１０５を介して外部装置から取得し、ＲＯＭ１０２に予め記憶している。

上述の物理的構成を備える情報処理装置１は、ＣＰＵ１００の機能として、図２に示すように、音声入力部１０と、音声感情スコア計算部１１と、画像入力部１２と、顔感情スコア計算部１３と、学習部１４と、処理部１５と、を備えている。ＣＰＵ１００は、制御プログラム１０２ａを実行して情報処理装置１を制御することにより、これらの各部として機能する。

音声入力部１０は、ＲＯＭ１０２に記憶された複数の音声データ１０２ｂのうち、ユーザが入力部１０３を操作することにより指定した音声データ１０２ｂを取得する。音声入力部１０は、学習モードにおいて、取得した音声データ１０２ｂを音声感情スコア計算部１１及び学習部１４へ供給する。また、音声入力部１０は、感情認識モードにおいて、取得した音声データ１０２ｂを音声感情スコア計算部１１及び処理部１５へ供給する。

音声感情スコア計算部１１は、音声入力部１０から供給された音声データ１０２ｂが表す音声に従って、上述した３種類の感情それぞれに係る音声感情スコアを計算する。音声感情スコアは、音声を発音した際のユーザの感情が当該音声感情スコアに係る感情である可能性の高さを示す数値である。例えば、ポジティブな感情に係る音声感情スコアは、音声を発音した際のユーザの感情がポジティブな感情である可能性の高さを示している。音声感情スコアが大きいほど、ユーザの感情が当該音声感情スコアに係る感情である可能性が高いものとする。

具体的に、音声感情スコア計算部１１は、ＲＯＭ１０２に記憶された第１パラメータ１０２ｄに従って識別器として機能することにより、音声データ１０２ｂに含まれた、音声の大きさやかすれ、上ずり等の音声の非言語的特徴を示す特徴量に応じて音声感情スコアを計算する。第１パラメータ１０２ｄは、外部の情報処理装置において、複数の話者が発音した音声の特徴量と当該音声を発音した際の話者の感情を表す情報とを互いに対応付けて含む汎用データを教師データとして用いた機械学習を行うことにより生成される。情報処理装置１は、第１パラメータ１０２ｄを当該外部の情報処理装置から外部インタフェース１０５を介して取得し、ＲＯＭ１０２に予め記憶している。

音声感情スコア計算部１１は、学習モードにおいて、計算した音声感情スコアを、学習部１４へ供給する。また、音声感情スコア計算部１１は、感情認識モードにおいて、計算した音声感情スコアを、処理部１５へ供給する。

画像入力部１２は、ＲＯＭ１０２に記憶された複数の顔画像データ１０２ｃのうち、音声入力部１０が取得した音声データ１０２ｂに対応付けて記憶されている顔画像データ１０２ｃを取得する。画像入力部１２は、取得した顔画像データ１０２ｃを、顔感情スコア計算部１３へ供給する。

顔感情スコア計算部１３は、画像入力部１２から供給された顔画像データ１０２ｃが表す顔画像に従って、上述した３種類の感情それぞれに係る顔感情スコアを計算する。顔感情スコアは、顔画像が撮像された際のユーザの感情が当該顔感情スコアに係る感情である可能性の高さを示す数値である。例えば、ポジティブな感情に係る顔感情スコアは、顔画像が撮像された際のユーザの感情がポジティブな感情である可能性の高さを示している。顔感情スコアが大きいほど、ユーザの感情が当該顔感情スコアに係る感情である可能性が高いものとする。

具体的に、顔感情スコア計算部１３は、ＲＯＭ１０２に記憶された第２パラメータ１０２ｅに従って識別器として機能することにより、顔画像データ１０２ｃが表す顔画像の特徴量に応じて顔感情スコアを計算する。第２パラメータ１０２ｅは、外部の情報処理装置において、複数の被写体の顔画像の特徴量と当該顔画像が撮像された際の被写体の感情を表す情報とを互いに対応付けて含む汎用データを教師データとして用いた機械学習を行うことにより生成される。情報処理装置１は、第２パラメータ１０２ｅを当該外部の情報処理装置から外部インタフェース１０５を介して取得し、ＲＯＭ１０２に予め記憶している。

顔感情スコア計算部１３は、学習モードにおいて、計算した顔感情スコアを、学習部１４へ供給する。また、顔感情スコア計算部１３は、感情認識モードにおいて、計算した顔感情スコアを、処理部１５へ供給する。

上述したように、互いに対応付けられた音声データ１０２ｂ及び顔画像データ１０２ｃがそれぞれ表す音声及び顔画像は、同一時点に取得され、同一時点におけるユーザの感情を表している。従って、顔画像データ１０２ｃに従って計算された顔感情スコアは、当該顔画像データ１０２ｃに対応付けられた音声データ１０２ｂが表す音声を発音した際のユーザの感情が当該顔感情スコアに係る感情である可能性の高さを示している。情報処理装置１は、音声感情スコアと顔感情スコアとを併用することにより、音声を発音した際のユーザの感情が音声と顔画像との一方のみに表れている場合であっても当該感情を認識し、学習精度を向上させることができる。

学習部１４は、学習モードにおいて、ユーザの感情との関連度が高い音素列を感情音素列として学習する。また、学習部１４は、感情音素列に対応付けて、当該感情音素列と感情との関連度に応じた調整スコアを学習する。具体的に、学習部１４は、音素列変換部１４ａと、候補音素列抽出部１４ｂと、頻度生成部１４ｃと、頻度記録部１４ｄと、感情音素列判定部１４ｅと、調整スコア生成部１４ｆと、感情音素列記録部１４ｇと、を備えている。

音素列変換部１４ａは、音声入力部１０から供給された音声データ１０２ｂが表す音声を、品詞情報が付された音素列に変換する。すなわち、音素列変換部１４ａは、音声から音素列を生成する。音素列変換部１４ａは、取得した音素列を、候補音素列抽出部１４ｂへ供給する。具体的に、音素列変換部１４ａは、音声データ１０２ｂが表す音声に対して文章単位で音声認識を実行することにより、当該音声を音素列に変換する。音素列変換部１４ａは、音声データ１０２ｂが表す音声に対して形態素解析を行い、上述した音声認識によって得られた音素列を形態素毎に分割し、各音素列に品詞情報を付す。

候補音素列抽出部１４ｂは、音素列変換部１４ａから供給された音素列のうち予め設定された抽出条件を満たす音素列を、感情音素列の候補である候補音素列として抽出する。抽出条件は、実験等の任意の手法によって設定される。候補音素列抽出部１４ｂは、抽出した候補音素列を、頻度生成部１４ｃへ供給する。具体的に、候補音素列抽出部１４ｂは、連続する３形態素分の音素列であり、かつ、固有名詞以外の品詞情報が付された音素列を候補音素列として抽出する。

候補音素列抽出部１４ｂは、連続する３形態素分の音素列を抽出することにより、未知語が誤って３形態素程度に分解されて認識されている場合であっても当該未知語を捕捉し、感情音素列の候補として抽出し、学習精度を向上させることができる。また、候補音素列抽出部１４ｂは、ユーザの感情を表している可能性が低い地名や人名等の固有名詞を感情音素列の候補から除外することにより、学習精度を向上させると共に、処理負荷を軽減することができる。

頻度生成部１４ｃは、候補音素列抽出部１４ｂから供給された各候補音素列について、上述した３種類の感情毎に、候補音素列に対応する音声を発音した際のユーザの感情が当該感情である可能性が極めて高いか否かを判定する。頻度生成部１４ｃは、判定結果を表す頻度情報を、頻度記録部１４ｄへ供給する。

具体的に、頻度生成部１４ｃは、各候補音素列について、感情毎に、当該候補音素列に対応する音声データ１０２ｂに従って計算された音声感情スコアと、当該音声データ１０２ｂに対応付けられた顔画像データ１０２ｃに従って計算された顔感情スコアと、を音声感情スコア計算部１１及び顔感情スコア計算部１３からそれぞれ取得する。頻度生成部１４ｃは、取得した音声感情スコア及び顔感情スコアが検出条件を満たすか否かを判定することにより、感情毎に、候補音素列に対応する音声を発音した際のユーザの感情が当該感情である可能性が極めて高いか否かを判定する。上述したように、顔画像データ１０２ｃに従って計算された顔感情スコアは、当該顔画像データ１０２ｃに対応付けられた音声データ１０２ｂが表す音声を発音した際のユーザの感情が当該顔感情スコアに係る感情である可能性の高さを示している。すなわち、候補音素列に対応する音声データ１０２ｂに従って計算された音声感情スコアと、当該音声データ１０２ｂに対応付けられた顔画像データ１０２ｃに従って計算された顔感情スコアと、は何れも候補音素列に対応する音声を発音した際のユーザの感情が当該音声感情スコア及び顔感情スコアに係る感情である可能性の高さを示している。音声感情スコア及び顔感情スコアは感情スコアに相当し、頻度生成部１４ｃは感情スコア取得手段に相当する。

より具体的に、頻度生成部１４ｃは、取得した音声感情スコアと顔感情スコアとを感情毎に足し合わせることにより各感情に係る合計感情スコアを取得し、この合計感情スコアが検出閾値以上であるか否かを判定することにより、音声感情スコア及び顔感情スコアが検出条件を満たすか否かを判定する。検出閾値は、実験等の任意の手法により予め設定される。例えば、ある候補音素列に対応する音声データ１０２ｂ及び顔画像データ１０２ｃに従ってそれぞれ計算されたポジティブな感情に係る音声感情スコアとポジティブな感情に係る顔感情スコアとの合計値であるポジティブな感情に係る合計感情スコアが検出閾値以上であると判定された場合、頻度生成部１４ｃは、当該候補音素列に対応する音声を発音した際のユーザの感情がポジティブな感情である可能性が極めて高いと判定する。

頻度記録部１４ｄは、ＲＯＭ１０２に記憶された頻度データ１０２ｆを、頻度生成部１４ｃから供給された頻度情報に従って更新する。頻度データ１０２ｆは、候補音素列に対応付けて、上述した３種類の感情毎に、当該候補音素列に対応する音声を発音した際のユーザの感情が当該感情である可能性が極めて高いと頻度生成部１４ｃが判定した回数の累積値である当該感情に係る感情頻度を含むデータである。言い換えると、頻度データ１０２ｆは、候補音素列に対応付けて、感情毎に、候補音素列に対応する音声データ１０２ｂ及び顔画像データ１０２ｃにそれぞれ従って計算された当該感情に係る音声感情スコア及び顔感情スコアが検出条件を満たすと判定された回数の累積値を含んでいる。

具体的に、頻度データ１０２ｆは、図３に示すように、候補音素列と、ポジティブな感情に係るポジティブ感情頻度と、ネガティブな感情に係るネガティブ感情頻度と、ニュートラルな感情に係るニュートラル感情頻度と、合計感情頻度と、を互いに対応付けて含んでいる。ポジティブ感情頻度は、候補音素列に対応する音声を発音した際のユーザの感情がポジティブな感情である可能性が極めて高いと頻度生成部１４ｃが判定した回数の累積値、すなわち、候補音素列に対応する音声データ１０２ｂ及び顔画像データ１０２ｃにそれぞれ従って計算されたポジティブな音声感情スコア及びポジティブな顔感情スコアが検出条件を満たすと頻度生成部１４ｃが判定した回数の累積値である。ネガティブ感情頻度は、候補音素列に対応する音声を発音した際のユーザの感情がネガティブな感情である可能性が極めて高いと頻度生成部１４ｃが判定した回数の累積値である。ニュートラル感情頻度は、候補音素列に対応する音声を発音した際のユーザの感情がニュートラルな感情である可能性が極めて高いと頻度生成部１４ｃが判定した回数の累積値である。合計感情頻度は、ポジティブ感情頻度とネガティブ感情頻度とニュートラル感情頻度との合計値である。

図２に戻り、頻度記録部１４ｄは、ある候補音素列に対応する音声を発音した際のユーザの感情がある感情である可能性が極めて高いと判定されたことを示す頻度情報が頻度生成部１４ｃから供給されると、当該候補音素列に対応付けて頻度データ１０２ｆに含まれている当該感情に係る感情頻度に１を加算する。これにより、頻度データ１０２ｆが更新される。例えば、頻度記録部１４ｄは、ある候補音素列に対応する音声を発音した際のユーザの感情がポジティブな感情である可能性が極めて高いと判定されたことを示す頻度情報が供給されると、当該候補音素列に対応付けて頻度データ１０２ｆに含まれているポジティブ感情頻度に１を加算する。

感情音素列判定部１４ｅは、ＲＯＭ１０２に記憶された頻度データ１０２ｆを取得し、候補音素列と感情との関連度を、感情毎に、取得した頻度データ１０２ｆに従って評価することにより、候補音素列が感情音素列であるか否かを判定する。感情音素列判定部１４ｅは、頻度データ取得手段及び判定手段に相当する。感情音素列判定部１４ｅは、判定結果を示すデータを、感情音素列記録部１４ｇへ供給する。また、感情音素列判定部１４ｅは、感情音素列と感情との関連度を示す情報を、調整スコア生成部１４ｆへ供給する。

具体的に、感情音素列判定部１４ｅは、候補音素列のうち、当該候補音素列と上述した３種類の感情の何れかとの関連度が有意に高く、かつ、当該候補音素列に対応付けて頻度データ１０２ｆに含まれている合計感情頻度に対する当該候補音素列に対応付けて頻度データ１０２ｆに含まれている当該感情に係る感情頻度の割合である感情頻度比率が学習閾値以上である候補音素列を、感情音素列であると判定する。学習閾値は、実験等の任意の手法により設定される。

感情音素列判定部１４ｅは、候補音素列とある感情との関連度が有意に高いか否かを、「当該感情と候補音素列との関連度が有意に高くない、すなわち、当該感情に係る感情頻度が他の２つの感情に係る感情頻度に等しい」とする帰無仮説をカイ二乗検定法により検定することで判定する。具体的に、感情音素列判定部１４ｅは、各感情に係る感情頻度の合計値である感情合計頻度を感情の数である３で除算した値を期待値として取得する。感情音素列判定部１４ｅは、この期待値と判定対象の候補音素列に対応付けて頻度データ１０２ｆに含まれた判定対象の感情に係る感情頻度とに従ってカイ二乗を計算する。感情音素列判定部１４ｅは、計算したカイ二乗を、感情の数である３から１を減算した数である２を自由度とするカイ二乗分布で検定する。感情音素列判定部１４ｅは、カイ二乗の確率が有意水準を下回った場合、上述した帰無仮説が棄却されると判定し、判定対象の候補音素列と判定対象の感情との関連度が有意に高いと判定する。有意水準は、実験等の任意の手法により予め設定される。

感情音素列判定部１４ｅは、上述した関連度を示す情報として、上述した感情頻度比率と共に、上述した有意性の判定に用いたカイ二乗の確率を調整スコア生成部１４ｆへ供給する。感情頻度比率が大きいほど、感情音素列と感情との関連度は高い。また、カイ二乗の確率が小さいほど、感情音素列と感情との関連度は高い。

調整スコア生成部１４ｆは、各感情音素列について、感情毎に、感情音素列と当該感情との関連度に応じた数値である、当該感情に係る調整スコアを生成する。調整スコア生成部１４ｆは、生成した調整スコアを、感情音素列記録部１４ｇへ供給する。具体的に、調整スコア生成部１４ｆは、感情音素列判定部１４ｅから供給された情報が示す感情音素列と感情との関連度が高いほど、調整スコアの値を大きく設定する。後述するように、処理部１５は、調整スコアに応じてユーザの感情を認識する。調整スコアの値が大きいほど、当該調整スコアに係る感情がユーザの感情として決定されやすくなる。すなわち、調整スコア生成部１４ｆは、感情音素列と感情との関連度が高いほど調整スコアの値を大きく設定することにより、感情音素列と関連度が高い感情がユーザの感情として決定されやすくする。より具体的に、調整スコア生成部１４ｆは、関連度を示す情報として供給された感情頻度比率が大きいほど調整スコアの値を大きく設定すると共に、同じく関連度を示す情報として供給されたカイ二乗の確率が小さいほど調整スコアの値を大きく設定する。

感情音素列記録部１４ｇは、ＲＯＭ１０２に記憶された感情音素列データ１０２ｇを、感情音素列判定部１４ｅから供給された感情音素列の判定結果と、調整スコア生成部１４ｆから供給された調整スコアと、に従って更新する。感情音素列データ１０２ｇは、感情音素列と、当該感情音素列に応じて生成された各感情に係る調整スコアと、を互いに対応付けて含むデータである。具体的に、感情音素列データ１０２ｇは、図４に示すように、感情音素列と、ポジティブ調整スコアと、ネガティブ調整スコアと、ニュートラル調整スコアと、を互いに対応付けて含んでいる。ポジティブ調整スコアは、ポジティブな感情に係る調整スコアである。ネガティブ調整スコアは、ネガティブな感情に係る調整スコアである。ニュートラル感情スコアは、ニュートラルな感情に係る調整スコアである。

図２に戻り、感情音素列記録部１４ｇは、感情音素列データ１０２ｇに未だ感情音素列として格納されていない候補音素列が感情音素列であると感情音素列判定部１４ｅによって判定されたことに応答し、当該感情音素列を、調整スコア生成部１４ｆから供給された調整スコアに対応付けて格納する。また、感情音素列記録部１４ｇは、感情音素列データ１０２ｇに感情音素列として格納済みの候補音素列が感情音素列であると感情音素列判定部１４ｅによって判定されたことに応答し、当該感情音素列に対応付けて格納された調整スコアを、調整スコア生成部１４ｆから供給された調整スコアで置換することにより更新する。また、感情音素列記録部１４ｇは、感情音素列データ１０２ｇに感情音素列として格納済みの候補音素列が感情音素列ではないと感情音素列判定部１４ｅによって判定されたことに応答し、当該感情音素列を感情音素列データ１０２ｇから削除する。すなわち、感情音素列判定部１４ｅによって感情音素列であると判定されて感情音素列データ１０２ｇに一旦格納された候補音素列が、その後の学習処理によって、感情音素列ではないと感情音素列判定部１４ｅに判定されると、感情音素列記録部１４ｇが当該候補音素列を感情音素列データ１０２ｇから削除する。これにより、記憶負荷が軽減されると共に、学習精度が向上する。

処理部１５は、感情認識モードにおいて、学習部１４による学習の結果に従い、ユーザの感情を認識し、認識結果を表す感情画像及び又は感情音声を出力する。具体的に、処理部１５は、感情音素列検出部１５ａと、感情スコア調整部１５ｂと、感情決定部１５ｃと、を備えている。

感情音素列検出部１５ａは、音声入力部１０から音声データ１０２ｂが供給されたことに応答し、当該音声データ１０２ｂが表す音声に感情音素列が含まれているか否かを判定する。感情音素列検出部１５ａは、判定結果を、感情スコア調整部１５ｂへ供給する。また、感情音素列検出部１５ａは、音声に感情音素列が含まれていると判定すると、当該感情音素列に対応付けて感情音素列データ１０２ｇに格納されている各感情に係る調整スコアを取得し、判定結果と共に感情スコア調整部１５ｂへ供給する。

具体的に、感情音素列検出部１５ａは、感情音素列から音響特徴量を生成し、この音響特徴量と音声データ１０２ｂから生成した音響特徴量とを比較照合することによって、当該音声データ１０２ｂが表す音声に感情音素列が含まれているか否かを判定する。なお、音声データ１０２ｂが表す音声を、当該音声に対して音声認識を行うことにより音素列に変換し、この音素列と感情音素列とを比較照合することによって、当該音声に感情音素列が含まれているか否かを判定してもよい。本実施形態では、音響特徴量を用いた比較照合により感情音素列の有無を判定することにより、音声認識における誤認識が原因で判定精度が低下することを抑制し、感情認識の精度を向上させている。

感情スコア調整部１５ｂは、音声感情スコア計算部１１から供給された音声感情スコアと、顔感情スコア計算部１３から供給された顔感情スコアと、感情音素列検出部１５ａから供給された判定結果と、に従って各感情に係る合計感情スコアを取得する。感情スコア調整部１５ｂは、取得した合計感情スコアを、感情決定部１５ｃへ供給する。

具体的に、感情スコア調整部１５ｂは、音声データ１０２ｂが表す音声に感情音素列が含まれていると感情音素列検出部１５ａが判定したことに応答し、音声感情スコアと、顔感情スコアと、感情音素列検出部１５ａから供給された調整スコアと、を感情毎に足し合わせることによって、当該感情に係る合計感情スコアを取得する。例えば、感情スコア調整部１５ｂは、ポジティブな感情に係る音声感情スコアと、ポジティブな感情に係る顔感情スコアと、ポジティブ調整スコアと、を足し合わせることによって、ポジティブな感情に係る合計感情スコアを取得する。また、感情スコア調整部１５ｂは、音声に感情音素列が含まれていないと感情音素列検出部１５ａが判定したことに応答し、音声感情スコアと顔感情スコアとを感情毎に足し合わせることによって当該感情に係る合計感情スコアを取得する。

感情決定部１５ｃは、感情スコア調整部１５ｂから供給された各感情に係る合計感情スコアに従って、ユーザの感情が上述した３種類の感情の何れであるかを決定する。感情決定部１５ｃは、決定した感情を表す感情画像及び又は感情音声を生成し、出力部１０４へ供給して出力させる。具体的に、感情決定部１５ｃは、各感情に係る合計感情スコアのうち最も大きい合計感情スコアに対応する感情をユーザの感情として決定する。すなわち、合計感情スコアが大きいほど、当該合計感情スコアに係る感情がユーザの感情として決定されやすい。上述したとおり、音声に感情音素列が含まれている場合、合計感情スコアは、調整スコアを加算することによって取得される。また、調整スコアは、対応する感情と感情音素列との関連度が高いほど大きな値に設定される。従って、音声に感情音素列が含まれている場合、当該感情音素列と関連度が高い感情が当該音声を発音した際のユーザの感情として決定されやすい。すなわち、感情決定部１５ｃは、感情音素列とユーザの感情との関連度を参酌して感情認識を行うことにより、感情認識の精度を向上させることができる。特に、各感情に係る音声感情スコア及び顔感情スコアの間に有意な差が無く、当該音声感情スコア及び顔感情スコアのみに従ってユーザの感情を決定するとユーザの感情を誤認識してしまう虞がある場合、調整スコアが表す感情音素列とユーザの感情との関連度を参酌することにより、感情認識の精度を高めることができる。

以下、上述の物理的・機能的構成を備える情報処理装置１が実行する学習処理及び感情認識処理について、図５及び図６のフローチャートを参照して説明する。

まず、図５のフローチャートを参照して、情報処理装置１が学習モードにおいて実行する学習処理について説明する。情報処理装置１は、複数の音声データ１０２ｂ、複数の顔画像データ１０２ｃ、第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを、外部インタフェース１０５を介して外部装置から取得し、ＲＯＭ１０２に予め記憶している。この状態において、ユーザが、入力部１０３を操作することにより、情報処理装置１の動作モードとして学習モードを選択した後、複数の音声データ１０２ｂのうち何れかを指定すると、ＣＰＵ１００が、図５のフローチャートに示す学習処理を開始する。

まず、音声入力部１０が、ユーザによって指定された音声データ１０２ｂをＲＯＭ１０２から取得し（ステップＳ１０１）、音声感情スコア計算部１１及び学習部１４へ供給する。音声感情スコア計算部１１は、ステップＳ１０１の処理で取得された音声データ１０２ｂに従って音声感情スコアを計算し（ステップＳ１０２）、学習部１４へ供給する。画像入力部１２は、ステップＳ１０１の処理で取得された音声データ１０２ｂに対応付けて格納された顔画像データ１０２ｃをＲＯＭ１０２から取得し（ステップＳ１０３）、顔感情スコア計算部１３へ供給する。顔感情スコア計算部１３は、ステップＳ１０３の処理で取得された顔画像データ１０２ｃに従って顔感情スコアを計算し（ステップＳ１０４）、学習部１４へ供給する。

次に、音素列変換部１４ａが、ステップＳ１０１で取得された音声データ１０２ｂを音素列に変換し（ステップＳ１０５）、候補音素列抽出部１４ｂへ供給する。候補音素列抽出部１４ｂは、ステップＳ１０５の処理で生成された音素列のうち、上述した抽出条件を満たす音素列を候補音素列として抽出し（ステップＳ１０６）、頻度生成部１４ｃへ供給する。頻度生成部１４ｃは、ステップＳ１０６の処理で抽出された各候補音素列について、上述した３種類の感情毎に、当該候補音素列に対応する音声を発音した際のユーザの感情が当該感情である可能性が極めて高いか否かを、ステップＳ１０２及びステップＳ１０４の処理で計算された、当該音声に対応する音声感情スコア及び顔感情スコアに従って判定し、判定結果を表す頻度情報を生成する（ステップＳ１０７）。頻度生成部１４ｃは、生成した頻度情報を、頻度記録部１４ｄへ供給する。頻度記録部１４ｄは、ステップＳ１０７の処理で生成された頻度情報に従って、ＲＯＭ１０２に記憶された頻度データ１０２ｆを更新する（ステップＳ１０８）。感情音素列判定部１４ｅは、候補音素列毎に各感情との関連度を、ステップＳ１０８の処理で更新された頻度データ１０２ｆに従って取得し、この関連度を評価することにより、各候補音素列が感情音素列であるか否かを判定する（ステップＳ１０９）。感情音素列判定部１４ｅは、判定結果を感情音素列記録部１４ｇへ供給すると共に、取得した関連度を調整スコア生成部１４ｆへ供給する。調整スコア生成部１４ｆは、ステップＳ１０９の処理で取得された関連度に応じた調整スコアを生成する（ステップＳ１１０）。感情音素列記録部１４ｇは、ステップＳ１０９の処理における判定結果と、ステップＳ１１０の処理で生成された調整スコアと、に従って感情音素列データ１０２ｇを更新し（ステップＳ１１１）、学習処理を終了する。

次に、図６のフローチャートを参照して、情報処理装置１が感情認識モードにおいて実行する感情認識処理について説明する。情報処理装置１は、感情認識処理の実行に先立って、上述した学習処理を実行することにより感情音素列を学習し、感情音素列と調整スコアとを互いに対応付けて含む感情音素列データ１０２ｇをＲＯＭ１０２に記憶している。また、情報処理装置１は、複数の音声データ１０２ｂ、複数の顔画像データ１０２ｃ、第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを、外部インタフェース１０５を介して外部装置から取得し、ＲＯＭ１０２に予め記憶している。この状態において、ユーザが、入力部１０３を操作することにより、情報処理装置１の動作モードとして感情認識モードを選択した後、複数の音声データ１０２ｂのうち何れかを指定すると、ＣＰＵ１００が、図６のフローチャートに示す感情認識処理を開始する。

まず、音声入力部１０が、指定された音声データ１０２ｂをＲＯＭ１０２から取得し（ステップＳ２０１）、音声感情スコア計算部１１へ供給する。音声感情スコア計算部１１は、ステップＳ２０１の処理で取得された音声データ１０２ｂに従って音声感情スコアを計算し（ステップＳ２０２）、処理部１５へ供給する。画像入力部１２は、ステップＳ２０１の処理で取得された音声データ１０２ｂに対応付けて格納された顔画像データ１０２ｃをＲＯＭ１０２から取得し（ステップＳ２０３）、顔感情スコア計算部１３へ供給する。顔感情スコア計算部１３は、ステップＳ２０３の処理で取得された顔画像データ１０２ｃに従って顔感情スコアを計算し（ステップＳ２０４）、処理部１５へ供給する。

次に、感情音素列検出部１５ａが、ステップＳ２０１の処理で取得された音声データ１０２ｂが表す音声に感情音素列が含まれているか否かを判定する（ステップＳ２０５）。感情音素列検出部１５ａは、判定結果を感情スコア調整部１５ｂへ供給すると共に、感情音素列が含まれていると判定した場合には当該感情音素列に対応付けて感情音素列データ１０２ｇに含まれている調整スコアを取得し、感情スコア調整部１５ｂへ供給する。感情スコア調整部１５ｂは、ステップＳ２０５の処理における判定結果に応じて各感情に係る合計感情スコアを取得し（ステップＳ２０６）、感情決定部１５ｃへ供給する。具体的に、感情スコア調整部１５ｂは、ステップＳ２０５の処理で音声に感情音素列が含まれていると判定された場合、ステップＳ２０２の処理で計算された音声感情スコアと、ステップＳ２０４の処理で計算された顔感情スコアと、感情音素列検出部１５ａから供給された、感情音素列に対応する調整スコアと、を感情毎に足し合わせることによって、当該感情に係る合計感情スコアを取得する。また、感情スコア調整部１５ｂは、ステップＳ２０５の処理で音声に感情音素列が含まれていないと判定された場合、ステップＳ２０２の処理で計算された音声感情スコアと、ステップＳ２０４の処理で計算された顔感情スコアと、を感情毎に足し合わせることによって当該感情に係る合計感情スコアを取得する。次に、感情決定部１５ｃは、ステップＳ２０６の処理で取得された各感情に係る合計感情スコアのうち最大の合計感情スコアに対応する感情が、ステップＳ２０１の処理で取得された音声データ１０２ｂが表す音声を発音した際のユーザの感情であると決定する（ステップＳ２０７）。感情決定部１５ｃは、ステップＳ２０７の処理で決定された感情を表す感情画像及び又は感情音声を生成して出力部１０４に出力させ（ステップＳ２０８）、感情認識処理を終了する。

以上説明したように、情報処理装置１は、学習モードにおいて、ユーザの感情との関連度が高い音素列を感情音素列として学習し、感情認識モードにおいて、感情音素列との関連度が高い感情が当該感情音素列を含む音声を発音した際のユーザの感情として決定されやすくする。これにより、情報処理装置１は、ユーザの感情を誤認識する可能性を低下させ、感情認識の精度を向上させることができる。言い換えると、情報処理装置１は、学習モードにおける学習の結果を参酌することにより、ユーザの感情に適合しない処理の実行を抑制できる。すなわち、情報処理装置１は、ユーザに固有の情報である感情音素列と感情との関連度を参酌することにより、汎用データのみを用いた感情認識よりも精度良く当該ユーザの感情を認識できる。また、情報処理装置１は、上述した学習処理を実行してユーザに固有の情報である感情音素列と感情との関連度を学習することにより、個人適応を進め、感情認識の精度を累積的に向上させることができる。

（第２実施形態）
上記第１実施形態では、情報処理装置１が、感情認識モードにおいて、学習モードにおける学習の結果に応じてユーザの感情を認識し、認識結果を表す感情画像及び又は感情音声を出力するものとして説明した。しかし、これは一例に過ぎず、情報処理装置１は、学習モードにおける学習の結果に応じて任意の処理を実行することができる。以下、動作モードとして上述した学習モード及び感情認識モードと共に更新モードをさらに備え、当該更新モードに従って動作することにより、学習モードにおける学習の結果に応じて音声感情スコア及び顔感情スコアの計算に用いる第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを更新する情報処理装置１’について図７及び図８を参照して説明する。

情報処理装置１’は、情報処理装置１と概ね同様の構成を備えるものの、処理部１５’の構成の一部が異なっている。以下、情報処理装置１’の構成について、情報処理装置１の構成との相違点を中心に説明する。

情報処理装置１’は、図７に示すように、ＣＰＵ１００の機能として、パラメータ候補生成部１５ｄと、パラメータ候補評価部１５ｅと、パラメータ更新部１５ｆと、を備えている。ＣＰＵ１００は、ＲＯＭ１０２に記憶された制御プログラム１０２ａを実行して情報処理装置１’を制御することにより、これらの各部として機能する。パラメータ候補生成部１５ｄは、新たな第１パラメータ１０２ｄ及び第２パラメータ１０２ｅの候補であるパラメータ候補を予め設定された個数だけ生成し、パラメータ候補評価部１５ｅへ供給する。パラメータ候補評価部１５ｅは、各パラメータ候補をＲＯＭ１０２に記憶された感情音素列データ１０２ｇに従って評価し、評価結果をパラメータ更新部１５ｆへ供給する。評価方法の詳細については、後述する。パラメータ更新部１５ｆは、パラメータ候補のうち何れかをパラメータ候補評価部１５ｅによる評価の結果に従って決定し、決定したパラメータ候補でＲＯＭ１０２に現在記憶されている第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを置換することにより第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを更新する。

以下、上述の情報処理装置１’が実行する更新処理について、図８のフローチャートを参照して説明する。情報処理装置１’は、更新処理の実行に先立って、上記第１実施形態で説明した学習処理を実行することにより感情音素列を学習し、感情音素列と調整スコアとを互いに対応付けて含む感情音素列データ１０２ｇをＲＯＭ１０２に記憶している。また、情報処理装置１’は、複数の音声データ１０２ｂ、複数の顔画像データ１０２ｃ、第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを、外部インタフェース１０５を介して外部装置から取得し、ＲＯＭ１０２に予め記憶している。この状態において、ユーザが、入力部１０３を操作することにより、情報処理装置１’の動作モードとして更新モードを選択すると、ＣＰＵ１００が、図８のフローチャートに示す更新処理を開始する。

まず、パラメータ候補生成部１５ｄが、予め設定された個数のパラメータ候補を生成する（ステップＳ３０１）。パラメータ候補評価部１５ｅは、ＲＯＭ１０２に記憶された複数の音声データ１０２ｂのうち予め設定された個数の音声データ１０２ｂを指定する（ステップＳ３０２）。パラメータ候補評価部１５ｅは、ステップＳ３０１の処理で生成されたパラメータ候補のうち一つを評価対象として選択する（ステップＳ３０３）。パラメータ候補評価部１５ｅは、ステップＳ３０２の処理で指定された複数の音声データ１０２ｂのうち一つを選択する（ステップＳ３０４）。

パラメータ候補評価部１５ｅは、ステップＳ３０４の処理で選択された音声データ１０２ｂと、当該音声データに対応付けてＲＯＭ１０２に格納されている顔画像データ１０２ｃと、を取得する（ステップＳ３０５）。パラメータ候補評価部１５ｅは、音声感情スコア計算部１１及び顔感情スコア計算部１３に、ステップＳ３０３の処理で選択したパラメータ候補に従い、ステップＳ３０５の処理で取得した音声データ１０２ｂ及び顔画像データ１０２ｃにそれぞれ応じた音声感情スコア及び顔感情スコアを計算させる（ステップＳ３０６）。パラメータ候補評価部１５ｅは、ステップＳ３０６の処理で計算した音声感情スコア及び顔感情スコアを感情毎に足し合わせることにより合計感情スコアを取得する（ステップＳ３０７）。

次に、パラメータ候補評価部１５ｅは、音声感情スコア計算部１１及び顔感情スコア計算部１３に、ＲＯＭ１０２に現在記憶されている第１パラメータ１０２ｄ及び第２パラメータ１０２ｅに従い、ステップＳ３０５の処理で取得した音声データ１０２ｂ及び顔画像データ１０２ｃにそれぞれ応じた音声感情スコア及び顔感情スコアを計算させる（ステップＳ３０８）。感情音素列検出部１５ａは、ステップＳ３０５の処理で取得された音声データ１０２ｂが表す音声に感情音素列が含まれているか否かを判定する（ステップＳ３０９）。感情音素列検出部１５ａは、判定結果を感情スコア調整部１５ｂへ供給すると共に、感情音素列が含まれていると判定した場合には当該感情音素列に対応付けて感情音素列データ１０２ｇに含まれている調整スコアを取得し、感情スコア調整部１５ｂへ供給する。感情スコア調整部１５ｂは、ステップＳ３０９の処理における判定結果と、供給された調整スコアと、に応じて合計感情スコアを取得する（ステップＳ３１０）。

パラメータ候補評価部１５ｅは、ステップＳ３０７の処理で取得された合計感情スコアと、ステップＳ３１０の処理で取得された合計感情スコアと、の差の二乗値を計算する（ステップＳ３１１）。計算された差の二乗値は、ステップＳ３０４の処理で選択された音声データ１０２ｂに従って評価された、ステップＳ３０３の処理で選択されたパラメータ候補と学習モードにおける学習結果との適合度を示している。差の二乗値が小さいほど、パラメータ候補と学習結果との適合度は高い。パラメータ候補評価部１５ｅは、ステップＳ３０２の処理で指定された複数の音声データ１０２ｂを全て選択したか否かを判定する（ステップＳ３１２）。ステップＳ３０２の処理で指定された音声データ１０２ｂのうち未だ選択されていないものがあると判定すると（ステップＳ３１２；Ｎｏ）、処理はステップＳ３０４へ戻り、未だ選択されていない音声データ１０２ｂのうち何れか一つが選択される。

ステップＳ３０２の処理で指定された音声データ１０２ｂが全て選択されたと判定すると（ステップＳ３１２；Ｙｅｓ）、パラメータ候補評価部１５ｅは、各音声データ１０２ｂに対応するステップＳ３１１の処理で計算された差の二乗値の合計値を計算する（ステップＳ３１３）。計算された差の二乗値の合計値は、ステップＳ３０２の処理で指定された音声データ１０２ｂ全てに従って評価された、ステップＳ３０３の処理で選択されたパラメータ候補と学習モードにおける学習結果との適合度を示している。差の二乗値の合計値が小さいほど、パラメータ候補と学習結果との適合度は高い。パラメータ候補評価部１５ｅは、ステップＳ３０１の処理で生成された複数のパラメータ候補を全て選択したか否かを判定する（ステップＳ３１４）。ステップＳ３０１の処理で生成されたパラメータ候補のうち未だ選択されていないものがあると判定すると（ステップＳ３１４；Ｎｏ）、処理はステップＳ３０３へ戻り、未だ選択されていないパラメータ候補のうち何れか一つが選択される。ＣＰＵ１００は、ステップＳ３１４の処理でＹｅｓと判定されるまでステップＳ３０３〜ステップＳ３１４の処理を繰り返すことにより、ステップＳ３０１の処理で生成された全てのパラメータ候補について、学習モードにおける学習の結果との適合度を、ステップＳ３０２で指定された複数の音声データ１０２ｂに従って評価する。

ステップＳ３０１の処理で生成されたパラメータ候補を全て選択したと判定すると（ステップＳ３１４；Ｙｅｓ）、パラメータ更新部１５ｆは、パラメータ候補のうち、対応するステップＳ３１３の処理で計算した差の二乗値の合計値が最も小さいパラメータ候補を新しい第１パラメータ１０２ｄ及び第２パラメータ１０２ｅとして決定する（ステップＳ３１５）。言い換えると、パラメータ更新部１５ｆは、ステップＳ３１５の処理において、パラメータ候補のうち、学習モードにおける学習の結果との適合度が最も高いパラメータ候補を新しい第１パラメータ１０２ｄ及び第２パラメータ１０２ｅとして決定する。パラメータ更新部１５ｆは、ＲＯＭ１０２に現在記憶されている第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを、ステップＳ３１５の処理で決定されたパラメータ候補で置換することにより第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを更新し（ステップＳ３１６）、更新処理を終了する。

情報処理装置１’は、感情認識モードにおいて、更新モードで更新された第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを用いて音声感情スコア及び顔感情スコアを計算して上述した図６のフローチャートに示す感情認識処理を実行する。これにより、感情認識の精度が向上する。

以上説明したように、情報処理装置１’は、更新モードにおいて、学習モードにおける学習の結果に適合するように第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを更新し、感情認識モードにおいて、更新した第１パラメータ１０２ｄ及び第２パラメータ１０２ｅを用いて感情認識を実行する。これにより、情報処理装置１’は、感情認識の精度を向上させることができる。音声感情スコア及び顔感情スコアの計算に用いるパラメータ自体を学習結果に応じて更新することにより、音声に感情音素列が含まれていない場合でも感情認識の精度を向上させることができる。

以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。

例えば、上記第１，第２実施形態では、情報処理装置１，１’が、音声感情スコア及び顔感情スコアに従って、感情音素列の学習、ユーザの感情の認識及びパラメータの更新を行うものとして説明した。しかし、これは一例に過ぎず、情報処理装置１，１’は、音素列に対応する音声を発音した際のユーザの感情がある感情である可能性の高さを示す任意の感情スコアを用いて上述の各処理を実行できる。例えば、情報処理装置１，１’は、音声感情スコアのみを用いて上述の各処理を実行してもよいし、音声感情スコアと共に顔感情スコア以外の感情スコアを用いて上述の各処理を実行してもよい。

上記第１，第２実施形態では、頻度生成部１４ｃが、音声感情スコアと顔感情スコアとを感情毎に足し合わせることにより取得した各感情に係る合計感情スコアが検出閾値以上であるか否かを判定することにより、音声感情スコア及び顔感情スコアが検出条件を満たすか否かを判定するものとして説明した。しかし、これは一例に過ぎず、任意の条件を検出条件として設定することができる。例えば、頻度生成部１４ｃは、音声感情スコアと顔感情スコアとを感情毎に予め設定した重みを付けて足し合わせることにより各感情に係る合計感情スコアを取得し、この合計感情スコアが検出閾値以上であるか否かを判定することにより、音声感情スコア及び顔感情スコアが検出条件を満たすか否かを判定してもよい。この場合、重みは、実験等の任意の手法により設定すればよい。

上記第１，第２実施形態では、感情音素列判定部１４ｅが、候補音素列のうち、当該候補音素列と上述した３種類の感情の何れかとの関連度が有意に高く、かつ、感情頻度比率が学習閾値以上である候補音素列を、感情音素列であると判定するものとして説明した。しかし、これは一例に過ぎず、感情音素列判定部１４ｅは、頻度データ１０２ｆに従い、任意の方法により感情音素列を判定することができる。例えば、感情音素列判定部１４ｅは、候補音素列のうち、当該候補音素列と３種類の感情の何れかとの関連度が有意に高い候補音素列を、感情頻度比率に関わらず、感情音素列であると判定してもよい。あるいは、感情音素列判定部１４ｅは、候補音素列のうち、３種類の感情の何れかに係る感情頻度の感情頻度比率が学習閾値以上である候補音素列を、当該候補音素列と当該感情との関連度が有意に高いか否かに関わらず、感情音素列であると判定してもよい。

上記第１実施形態では、感情決定部１５ｃが、学習部１４が学習した調整スコアと、音声感情スコア計算部１１及び顔感情スコア計算部１３から供給された音声感情スコア及び顔感情スコアと、に従ってユーザの感情を決定するものとして説明した。しかし、これは一例に過ぎず、感情決定部１５ｃは、調整スコアのみに従ってユーザの感情を決定してもよい。この場合、感情音素列検出部１５ａは、音声データ１０２ｂが表す音声に感情音素列が含まれていると判定したことに応答し、当該感情音素列に対応付けて感情音素列データ１０２ｇに格納されている調整スコアを取得し、感情決定部１５ｃへ供給する。感情決定部１５ｃは、取得された調整スコアのうち最も大きい調整スコアに対応する感情をユーザの感情として決定する。

上記第１，第２実施形態では、音素列変換部１４ａが、音声データ１０２ｂが表す音声に対して文章単位で音声認識を行い、品詞情報が付された音素列に変換するものとして説明した。しかし、これは一例に過ぎない。音素列変換部１４ａは、単語単位や１文字単位、音素単位で音声認識を行ってもよい。なお、音素列変換部１４ａは、言語を表す音声を音素列に変換できるのみならず、適切な音素辞書又は単語辞書を用いて音声認識を行うことにより、舌打ちやしゃっくり、生あくび等の動作に伴う音声も音素列に変換できる。この形態によれば、情報処理装置１，１’は、舌打ちやしゃっくり、生あくび等の動作に伴う音声に対応する音素列を感情音素列として学習し、この学習結果に応じて処理を実行することができる。

例えば、上記第１実施形態では、情報処理装置１が、学習モードにおける学習の結果に応じてユーザの感情を認識し、認識結果を表す感情画像及び又は感情音声を出力するものとして説明した。また、上記第２実施形態では、情報処理装置１’が、学習モードにおける学習の結果に応じて音声感情スコア及び顔感情スコアの計算に用いるパラメータを更新するものとして説明した。しかし、これらは例に過ぎず、情報処理装置１，１’は、学習モードにおける学習の結果に応じて任意の処理を実行することができる。例えば、情報処理装置１，１’は、外部の感情認識装置から音声データが供給されたことに応答し、当該音声データに学習された感情音素列が含まれているか否かを判定し、この判定結果に応じた調整スコアを取得してこの感情認識装置へ供給してもよい。すなわち、この場合、情報処理装置１，１’は、学習モードにおける学習の結果に従って、調整スコアを外部の感情認識装置へ供給する処理を実行する。なお、この場合、上記第１，第２実施形態では情報処理装置１，１’が実行するものとして説明した処理の一部を、当該外部の感情認識装置が実行することとしてもよい。例えば、音声感情スコア及び顔感情スコアの計算を、当該外部の感情認識装置が行えばよい。

上記第１，第２実施形態では、情報処理装置１，１’は、ユーザの感情が、ポジティブな感情、ネガティブな感情及びニュートラルな感情の３種類の感情の何れであるかを認識するものとして説明した。しかし、これは一例に過ぎず、情報処理装置１，１’は、２以上の任意の数のユーザの感情を識別できる。また、ユーザの感情は、任意の方法で区分できる。

上記第１，第２実施形態では、音声データ１０２ｂ及び顔画像データ１０２ｃは、それぞれ外部の録音装置及び撮像装置によって生成されるものとして説明したが、これは一例に過ぎず、情報処理装置１，１’が自ら音声データ１０２ｂ及び顔画像データ１０２ｃを生成してもよい。この場合、情報処理装置１，１’は、録音手段及び撮像手段を備え、ユーザが発音した音声を当該録音手段により録音することによって音声データ１０２ｂを生成すると共に、ユーザの顔画像を当該撮像手段により撮像することによって顔画像データ１０２ｃを生成すればよい。この際、当該情報処理装置１，１’が感情認識モードを実行する場合、録音手段により取得されるユーザの発話音声を音声データ１０２ｂ、前記ユーザが発話した際に撮像手段により取得される前記ユーザの顔画像を顔画像データ１０２ｃ、として取得し、リアルタイムで前記ユーザの感情認識を行なってもよい。

なお、本発明に係る機能を実現するための構成を予め備えた情報処理装置を本発明に係る情報処理装置として提供できることはもとより、プログラムの適用により、ＰＣ（Personal Computer）やスマートフォン、タブレット端末等の既存の情報処理装置を、本発明に係る情報処理装置として機能させることもできる。すなわち、本発明に係る情報処理装置の各機能構成を実現させるためのプログラムを、既存の情報処理装置を制御するコンピュータが実行できるように適用することで、当該既存の情報処理装置を本発明に係る情報処理装置として機能させることができる。なお、このようなプログラムは任意の方法で適用できる。プログラムは、例えば、フレキシブルディスク、ＣＤ（Compact Disc）−ＲＯＭ、ＤＶＤ（Digital Versatile Disc）−ＲＯＭ、メモリカード等のコンピュータが読み取り可能な記憶媒体に記憶して適用できる。さらに、プログラムを搬送波に重畳し、インターネット等の通信ネットワークを介して適用することもできる。例えば、通信ネットワーク上の掲示板（ＢＢＳ：Bulletin Board System）にプログラムを掲示して配信してもよい。そして、このプログラムを起動し、ＯＳ（Operation System）の制御下で、他のアプリケーションプログラムと同様に実行することにより、上記の処理を実行できるように構成してもよい。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
音声から生成された音素列を、当該音素列とユーザの感情との関連度に従って感情音素列として学習する学習手段と、
前記学習手段による学習の結果に従って感情認識に係る処理を実行する処理手段と、
を備えることを特徴とする情報処理装置。

（付記２）
音素列に応じて、感情毎に、当該音素列に対応する音声を発音した際のユーザの感情が当該感情である可能性の高さを示す当該感情に係る感情スコアを取得する感情スコア取得手段と、
音素列に対応付けて、感情毎に、当該音素列に対応する音声に応じた当該感情に係る前記感情スコアが検出条件を満たすと判定された回数の累積値である、当該感情に係る感情頻度を含む頻度データを取得する頻度データ取得手段と、
音素列と感情との関連度を前記頻度データに従って評価することにより、当該音素列が前記感情音素列であるか否かを判定する判定手段と、
をさらに備え、
前記学習手段は、前記判定手段による判定に従って前記感情音素列を学習することを特徴とする付記１に記載の情報処理装置。

（付記３）
前記判定手段は、音素列のうち、当該音素列と感情との関連度が有意に高いことと、当該音素列に対応付けて前記頻度データに含まれている各感情に係る前記感情頻度の合計値に対する当該音素列に対応付けて前記頻度データに含まれている当該感情に係る前記感情頻度の割合が学習閾値以上であることと、のうち少なくとも何れか一方の条件を満たす音素列を感情音素列であると判定することを特徴とする付記２に記載の情報処理装置。

（付記４）
前記感情音素列と感情との関連度に応じた調整スコアを生成する調整スコア生成手段をさらに備え、
前記学習手段は、前記感情音素列に対応付けて前記調整スコアを学習することを特徴とする付記２又は３に記載の情報処理装置。

（付記５）
前記処理手段は、前記調整スコアに従ってユーザの感情を認識することを特徴とする付記４に記載の情報処理装置。

（付記６）
前記処理手段は、前記調整スコアに従って前記感情スコアの計算に用いるパラメータを更新することを特徴とする付記４又は５に記載の情報処理装置。

（付記７）
音声から生成された音素列を、当該音素列とユーザの感情との関連度に従って感情音素列として学習する学習ステップと、
前記学習ステップによる学習の結果に従って感情認識に係る処理を実行する処理ステップと、
を含むことを特徴とする方法。

（付記８）
コンピュータを、
音声から生成された音素列を、当該音素列とユーザの感情との関連度に従って感情音素列として学習する学習手段、
前記学習手段による学習の結果に従って感情認識に係る処理を実行する処理手段、
として機能させることを特徴とするプログラム。

１，１’…情報処理装置、１０…音声入力部、１１…音声感情スコア計算部、１２…画像入力部、１３…顔感情スコア計算部、１４…学習部、１４ａ…音素列変換部、１４ｂ…候補音素列抽出部、１４ｃ…頻度生成部、１４ｄ…頻度記録部、１４ｅ…感情音素列判定部、１４ｆ…調整スコア生成部、１４ｇ…感情音素列記録部、１５，１５’…処理部、１５ａ…感情音素列検出部、１５ｂ…感情スコア調整部、１５ｃ…感情決定部、１５ｄ…パラメータ候補生成部、１５ｅ…パラメータ候補評価部、１５ｆ…パラメータ更新部、１００…ＣＰＵ、１０１…ＲＡＭ、１０２…ＲＯＭ、１０２ａ…制御プログラム、１０２ｂ…音声データ、１０２ｃ…顔画像データ、１０２ｄ…第１パラメータ、１０２ｅ…第２パラメータ、１０２ｆ…頻度データ、１０２ｇ…感情音素列データ、１０３…入力部、１０４…出力部、１０５…外部インタフェース

Claims

ユーザが発音した音声を取得する音声取得手段と、
感情毎に、前記音声を発音した際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る音声感情スコアを取得する音声感情スコア取得手段と、
前記音声が録音された際に撮像された前記ユーザの顔画像を取得する顔画像取得手段と、
感情毎に、前記顔画像が撮像された際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る顔感情スコアを取得する顔感情スコア取得手段と、
前記音声を音素列に変換する音素列変換手段と、
前記音声感情スコアと前記顔感情スコアとに基づいて、音素列のうち、前記ユーザの感情と関連度が高い音素列を感情音素列として抽出する抽出手段と、
前記抽出手段により抽出された感情音素列に基づいて、前記ユーザの感情認識に係る処理を実行する処理手段と、
を備えることを特徴とする情報処理装置。
前記音声感情スコア取得手段は、前記音声の非言語的特徴を示す特徴量に応じて、感情毎に、前記音声を発音した際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る音声感情スコアを取得し、
音素列に対応付けて、感情毎に、当該音素列に対応する音声に応じた当該感情に係る前記音声感情スコア及び前記顔感情スコアが検出条件を満たすと判定された回数の累積値である、当該感情に係る感情頻度を含む頻度データを取得する頻度データ取得手段と、
音素列と感情との関連度を前記頻度データに従って評価することにより、当該音素列が前記感情音素列であるか否かを判定する判定手段と、
をさらに備え、
前記抽出手段は、前記判定手段による判定に従って前記感情音素列を抽出することを特徴とする請求項１に記載の情報処理装置。
前記判定手段は、音素列のうち、当該音素列と感情との関連度が有意に高いことと、当該音素列に対応付けて前記頻度データに含まれている各感情に係る前記感情頻度の合計値に対する当該音素列に対応付けて前記頻度データに含まれている当該感情に係る前記感情頻度の割合が学習閾値以上であることと、のうち少なくとも何れか一方の条件を満たす音素列を感情音素列であると判定することを特徴とする請求項２に記載の情報処理装置。
前記感情音素列と感情との関連度に応じた調整スコアを生成する調整スコア生成手段をさらに備えることを特徴とする請求項２又は３に記載の情報処理装置。
前記処理手段は、前記調整スコアに従って前記ユーザの感情を認識することを特徴とする請求項４に記載の情報処理装置。
前記処理手段は、前記調整スコアに従って前記音声感情スコア及び前記顔感情スコアの計算に用いるパラメータを更新することを特徴とする請求項４又は５に記載の情報処理装置。
情報処理装置の感情認識方法であって、
ユーザが発音した音声を取得する音声取得ステップと、
感情毎に、前記音声を発音した際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る音声感情スコアを取得する音声感情スコア取得ステップと、
前記音声が録音された際に撮像された前記ユーザの顔画像を取得する顔画像取得ステップと、
感情毎に、前記顔画像が撮像された際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る顔感情スコアを取得する顔感情スコア取得ステップと、
前記音声を音素列に変換する音素列変換ステップと、
前記音声感情スコアと前記顔感情スコアとに基づいて、音素列のうち、前記ユーザの感情と関連度が高い音素列を感情音素列として抽出する抽出ステップと、
前記抽出ステップにより抽出された感情音素列に基づいて、前記ユーザの感情認識に係る処理を実行する処理ステップと、
を含むことを特徴とする感情認識方法。
情報処理装置のコンピュータを、
ユーザが発音した音声を取得する音声取得手段、
感情毎に、前記音声を発音した際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る音声感情スコアを取得する音声感情スコア取得手段、
前記音声が録音された際に撮像された前記ユーザの顔画像を取得する顔画像取得手段、
感情毎に、前記顔画像が撮像された際の前記ユーザの感情が当該感情である可能性の高さを示す当該感情に係る顔感情スコアを取得する顔感情スコア取得手段、
前記音声を音素列に変換する音素列変換手段、
前記音声感情スコアと前記顔感情スコアとに基づいて、音素列のうち、前記ユーザの感情と関連度が高い音素列を感情音素列として抽出する抽出手段、
前記抽出手段により抽出された感情音素列に基づいて、前記ユーザの感情認識に係る処理を実行する処理手段、
として機能させることを特徴とするプログラム。