JP2017120609A

JP2017120609A - 感情推定装置、感情推定方法及びプログラム

Info

Publication number: JP2017120609A
Application number: JP2016074175A
Authority: JP
Inventors: 崇史山谷; Takashi Yamatani; 浩一中込; Koichi Nakagome; 佐藤　勝彦; Katsuhiko Sato; 勝彦佐藤
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2015-12-24
Filing date: 2016-04-01
Publication date: 2017-07-06
Also published as: CN107025423A

Abstract

【課題】被推定者の顔画像を用いて、被推定者の感情を高い精度で推定する。【解決手段】発話判定部１００は、被推定者の顔画像が撮像される際に被推定者が発話しているか否かを判定する。感情推定部１１０は、発話判定部１００の判定結果に基づいて被推定者の顔画像を用いた感情推定処理を実行することにより、被推定者の感情を推定する。【選択図】図２

Description

本発明は、感情推定装置、感情推定方法及びプログラムに関する。

被推定者の感情を推定する技術が知られている。例えば、特許文献１は、被推定者の顔画像を用いて被推定者の感情を推定する装置を開示している。

特開２０１４−１７８９７０号公報

さて、一の感情を抱き、かつ、発話している状態における被推定者の口の形状と、他の感情を抱き、かつ、発話していない状態における被推定者の口の形状と、が類似する場合がある。このような場合、特許文献１に開示された装置は、一の感情を抱き、かつ、発話している状態における被推定者の表情を、他の感情を抱き、かつ、発話していない状態における被推定者の表情として誤認識してしまい、被推定者の感情を不正確に推定してしまうことを防げなかった。

本発明は、上記事情に鑑みてなされたものであり、被推定者の顔画像を用いて、被推定者の感情を高い精度で推定することを目的とする。

上記目的を達成するため、本発明に係る感情推定装置は、
被推定者の顔画像が撮像される際に前記被推定者が発話しているか否かを判定する発話判定手段と、
前記発話判定手段の判定結果に基づいて前記被推定者の顔画像を用いた感情推定処理を実行することにより、前記被推定者の感情を推定する感情推定手段と、
を備えることを特徴とする。

本発明によれば、被推定者の顔画像を用いて、被推定者の感情を高い精度で推定することができる。

本発明の実施形態に係る感情推定装置の物理的構成の一例を示すブロック図である。本発明の実施形態に係る感情推定装置の機能的構成の一例を示すブロック図である。本発明の実施形態に係る感情認識モデル生成装置が実行する感情認識モデル生成処理を説明するためのフローチャートである。（ａ）及び（ｂ）は、何れも、本発明の実施形態に係る感情認識モデル生成装置が実行する感情認識モデル生成処理を説明するための図である。（ａ）は、第１の感情認識モデルを生成するための感情認識モデル生成処理を説明するための図である。（ｂ）は、第２の感情認識モデルを生成するための感情認識モデル生成処理を説明するための図である。本発明の実施形態に係る感情認識モデルの構造例を示すブロック図である。本発明の実施形態に係る感情推定装置が実行する感情推定処理を説明するためのフローチャートである。本発明の変形例に係る感情推定装置が実行する感情推定処理を説明するためのフローチャートである。

以下、本発明の実施形態に係る感情推定装置の機能及び動作を、図面を参照しながら詳細に説明する。図中、互いに同一又は同等の部分には同一の符号を付す。

感情推定装置は、被推定者の顔画像を用い、被推定者の感情を推定する。

感情推定装置１は、図１に示すように、ＣＰＵ（Central Processing Unit）１０と、記憶部２０と、入力部３０と、出力部４０と、外部インタフェース５０と、を備えている。

ＣＰＵ１０は、記憶部２０に記憶された各種プログラムを実行する。具体的に、ＣＰＵ１０は、記憶部２０に記憶された制御プログラム２１を実行することにより、感情推定装置１全体を制御する。また、ＣＰＵ１０は、記憶部２０に記憶された感情推定プログラム２２を実行することにより、後述する発話判定部１００及び感情推定部１１０の機能を実現する。

記憶部２０は、ＲＡＭ（Random Access Memory）を備え、ＣＰＵ１０のワークメモリとして機能する。また、記憶部２０は、ＲＯＭ（Read-Only Memory）と、ハードディスクドライブ等の不揮発性メモリを備え、各種データ及び各種プログラムを記憶する。具体的に、本実施形態において、記憶部２０は、制御プログラム２１と、感情推定プログラム２２と、被推定者の顔画像２３と、周辺音声データ２４と、第１の感情認識モデル２５と、第２の感情認識モデル２６と、を記憶している。

制御プログラム２１は、感情推定装置１全体を制御するためのプログラムである。感情推定プログラム２２は、後述する発話判定部１００及び感情推定部１１０の機能を実現するためのプログラムである。被推定者の顔画像２３は、被推定者の顔を表す画像である。感情推定装置１は、被推定者の顔画像２３を用い、被推定者の感情を推定する。周辺音声データ２４は、被推定者の顔画像２３が撮像される際における被推定者の周辺の音声を表す音声データである。記憶部２０において、被推定者の顔画像２３と周辺音声データ２４とは互いに対応付けて記憶されている。なお、被推定者の顔画像２３が静止画データの場合、周辺音声データ２４は、例えば、当該静止画データを撮像した前後数秒程度の音声データを取得して、静止画データと音声データを互いに対応付けるようにし、被推定者の顔画像２３が動画データの場合、当該動画データの取得と同時に音声データも取得し、被推定者の顔画像２３と周辺音声データ２４は、例えば、ムービーファイルデータのように一つのファイルデータの中に含まれていてもよい。第１の感情認識モデル２５及び第２の感情認識モデル２６の詳細については、後述する。

感情推定装置１は、図示しない外部の撮像装置が撮像した被推定者の顔画像２３を予め取得し、記憶部２０に記憶している。感情推定装置１は、図示しない外部の録音装置が取得した周辺音声データ２４を予め取得し、記憶部２０に記憶している。感情推定装置１は、図示しない外部の感情認識モデル生成装置が生成した第１の感情認識モデル２５及び第２の感情認識モデル２６を予め取得し、記憶部２０に記憶している。感情認識モデル生成装置は、例えば、感情推定装置１を製造する工場に設置されたコンピュータである。感情認識モデル生成装置による第１の感情認識モデル２５及び第２の感情認識モデル２６の生成の詳細については、後述する。

入力部３０は、ユーザの操作に従って入力を受け付ける。入力部３０は、受け付けた入力をＣＰＵ１０へ供給する。

出力部４０は、各種データをユーザが認識可能な態様で出力する。具体的に、出力部４０は、図示しないディスプレイを備え、感情推定装置１が推定した被推定者の感情を表す画像である感情画像をこのディスプレイに表示する。感情画像の具体例としては、被推定者の感情を表すテキストメッセージ等が挙げられる。

外部インタフェース５０は、図示しない外部の装置との間で各種データをやり取りする。具体的に、感情推定装置１は、外部インタフェース５０を介して、被推定者の顔画像２３、周辺音声データ２４、第１の感情認識モデル２５及び第２の感情認識モデル２６を取得する。また、感情推定装置１は、推定した被推定者の感情を表す情報である感情情報を、図示しない外部の情報処理装置へ送出する。

上記の物理的構成を有する感情推定装置１は、機能的に、図２に示すように、発話判定部１００と、感情推定部１１０と、を備えている。

発話判定部１００は、被推定者の顔画像２３が撮像される際に被推定者が発話しているか否かを判定する。

具体的に、発話判定部１００は、被推定者の顔画像２３が静止画データの場合は、当該静止画データに対応付けられている音声データを周辺音声データ２４とし、被推定者の顔画像２３が、例えば、ムービーファイルデータのような動画データの場合は、当該ムービーファイルデータ中の音声データを周辺音声データ２４とする。そして、周辺音声データ２４の音量が第１の閾値未満であれば、被推定者は発話していないと判定し、周辺音声データ２４の音量が第１の閾値以上であれば、被推定者は発話していると判定する。第１の閾値は、実験等の任意の方法により予め設定しておけばよい。

感情推定部１１０は、発話判定部１００の判定結果に基づいて被推定者の顔画像２３を用いた被推定者の感情を推定する。

具体的に、感情推定部１１０は、発話判定部１００による判定の結果に基づいて感情識別モデルを選択するモデル選択部１１０ａを備え、モデル選択部１１０ａが選択した感情認識モデルを用いた感情推定処理を実行する。モデル選択部１１０ａは、被推定者が発話していないと発話判定部１００が判定した場合には、第１の感情認識モデル２５を選択する。一方、モデル選択部１１０ａは、被推定者が発話していると発話判定部１００が判定した場合には、第２の感情認識モデル２６を選択する。

すなわち、感情推定部１１０は、被推定者が発話していないと発話判定部１００が判定した場合、第１の感情認識モデル２５を用いた感情推定処理を実行する。一方、感情推定部１１０は、被推定者が発話していると発話判定部１００が判定した場合、第２の感情認識モデル２６を用いた感情推定処理を実行する。なお、被推定者の顔画像２３が、例えば、ムービーファイルデータのような動画データの場合、当該動画データの記録時間の間に、被推定者が発話していない箇所と、発話している箇所が混在している場合があるが、その場合は、発話判定部１００は、被推定者が発話していない箇所では、被推定者が発話していないと判定し、発話している箇所では、被推定者が発話していると判定する。そして、感情推定部１１０は、当該動画データの記録時間において、発話判定部１００の判定結果に基づいて、第１の感情認識モデル２５と第２の感情認識モデル２６を適宜切り換えて感情推定処理を実行する。

第１の感情認識モデル２５及び第２の感情認識モデル２６は、被推定者の顔画像を用いて被推定者の感情を推定するための認識モデルである。第１の感情認識モデル２５は、被推定者が発話していない場合に感情推定を行なうのに適した感情認識モデルであり、第２の感情認識モデル２６は、被推定者が発話している場合に感情推定を行なうのに適した感情認識モデルである。より具体的には、第１の感情認識モデル２５は、被推定者の顔画像の、被推定者の口を表す画像を少なくとも用いて被推定者の感情を推定する。第２の感情認識モデル２６は、被推定者の顔画像の、被推定者の口を表す画像以外の画像を用いて被推定者の感情を推定する。

第１の感情認識モデル２５及び第２の感情認識モデル２６は、図示しない外部の感情認識モデル生成装置によって生成された後、感情推定装置１によって取得され、記憶部２０に記憶されている。第１の感情認識モデル２５は、複数の学習用顔画像を、各学習用顔画像における被写体の口を表す画像を少なくとも用いて生成される。第２の感情認識モデル２６は、複数の学習用顔画像を、各学習用顔画像における被写体の口を表す画像以外の画像を用いて生成される。

［感情認識モデル生成処理の実施形態］
以下、図３〜図５を参照して、感情認識モデル生成装置が第１の感情認識モデル２５及び第２の感情認識モデル２６を生成する動作を説明する。感情認識モデル生成装置は、図３のフローチャートに示す感情認識モデル生成処理を実行することにより、第１の感情認識モデル２５及び第２の感情認識モデル２６を生成する。

まず、感情認識モデル生成装置が、図３のフローチャートに示す感情認識モデル生成処理を実行することにより、第１の感情認識モデル２５を生成する動作について説明する。

感情認識モデル生成装置は、外部の撮像装置が撮像した複数の顔画像を予め取得し、記憶しているものとする。これらの顔画像には、各顔画像における被写体の感情を表す感情ラベルが予め付与されているものとする。

感情認識モデル生成装置は、記憶している複数の顔画像のうち一部を学習用顔画像として指定し、残りの顔画像を評価用顔画像として指定する。

この状態において、ユーザが、図示しない入力部を介して第１の感情認識モデル２５の生成を指示すると、感情認識モデル生成装置は、図３のフローチャートに示す感情認識モデル生成処理を開始する。

まず、感情認識モデル生成装置は、学習用顔画像それぞれについて、各学習用顔画像の被写体の目を表す画像領域である目領域と、各学習用顔画像の被写体の鼻を表す画像領域である鼻領域と、各学習用顔画像の被写体の口を表す画像領域である口領域と、を検出する（ステップＳ１０１）。顔画像から目領域、鼻領域及び口領域を検出する技術は公知であるため、詳細な説明は省略する。

次に、感情認識モデル生成装置は、ステップＳ１０１で検出した目領域、鼻領域及び口領域の位置に基づいて、学習用顔画像をそれぞれ正規化する（ステップＳ１０２）。感情認識モデル生成装置は、ステップＳ１０２において学習用顔画像を正規化する際に用いたパラメータである画像正規化パラメータを記憶する。

具体的に、感情認識モデル生成装置は、第１の感情認識モデル２５を生成する場合、ステップＳ１０２において、ステップＳ１０１で検出した目領域の位置と口領域の位置とに基づいて学習用顔画像をそれぞれ正規化することにより、図４（ａ）に示すように、各学習用顔画像を、口領域を含むように正規化する。感情認識モデル生成装置は、この際に用いた画像正規化パラメータを記憶する。

例えば、顏画像の大きさが異なると、同じ人の笑ったときの顔でも、しわの長さや太さが異なることになる。そのため、発話時の感情認識を誤る要因となる恐れがある。この誤認識を軽減するために、顔画像の正規化を行う。

感情認識モデル生成装置は、ステップＳ１０２で正規化した学習用顔画像それぞれについて、各学習用顔画像が含む全ての画素のＬＢＰ（Local Binary Patterns）を算出することにより、ＬＢＰ画像を生成する（ステップＳ１０３）。

感情認識モデル生成装置は、ステップＳ１０３で生成したＬＢＰ画像をそれぞれ複数のブロックに分割する（ステップＳ１０４）。感情認識モデル生成装置は、ステップＳ１０４でＬＢＰ画像を複数のブロックに分割する際に用いたパラメータである分割パラメータを記憶する。

例えば、目領域について、目頭、瞳、目尻といったさらに細かい部分に領域を分割してもよいし、正規化した顔画像を小矩形領域でタイル状に敷き詰めたように分割してもよい。そして、細かく分割した領域ごとに、特徴量（ＬＢＰ）を抽出する。

感情認識モデル生成装置は、ステップＳ１０４において分割したブロック毎にＬＢＰヒストグラムを生成した上で全ブロックのＬＢＰヒストグラムを連結することにより、ステップＳ１０２で正規化した学習用顔画像それぞれについてＬＢＰヒストグラムを生成する（ステップＳ１０５）。この際、分割した領域の画素数が顔画像ごとで異なるならば、各領域の頻度の合計が１になるようにヒストグラムを正規化する必要がある。

ヒストグラムを作成する目的は、特徴量の分布を図形化することにより、怒ったときや笑ったときの目尻のしわの向き等を総合的に比較しやすくするためである。感情認識モデル生成装置は、予め感情ラベルが付与された学習用顏画像毎にＬＢＰヒストグラムを作成する。

感情認識モデル生成装置は、全ての学習用顔画像のＬＢＰヒストグラムに基づいて取得したパラメータを用い、全ＬＢＰヒストグラムを次元単位で正規化する（ステップＳ１０６）。感情認識モデル生成装置は、全ＬＢＰヒストグラムを次元単位で正規化する際に用いたパラメータであるヒストグラム正規化パラメータを記憶する。

次元正規化とは、ＬＢＰヒストグラムの各次元の広がり具合が次元毎に異ならないようにするためのものである。これは、感情識別に寄与が大きな次元の分布が狭く、感情識別に寄与しない次元の分布が広い場合に認識性能が低下する問題を軽減するのに役立つ。正規化方法としては、最大値最小値に基づくものや、平均標準偏差に基づくものなどがある。

感情認識モデル生成装置は、図４（ａ）に示す、ステップＳ１０６において次元単位で正規化した全ての学習用顔画像のＬＢＰヒストグラム（特徴量）と、各学習用顔画像に予め付与された感情ラベルと、を教師データとして用いた機械学習を行い、サポートベクターマシン（Support Vector Machine）を生成する（ステップＳ１０７）。感情認識モデル生成装置は、生成されたサポートベクターマシンを定義するパラメータであるＳＶＭパラメータを記憶する。すなわち、感情認識モデル生成装置は、予め感情ラベルが付与された学習用顏画像を教師データとして、発話者の発話時の感情状態を、例えば、喜怒哀楽に識別するサポートベクターマシンを生成する。なお、本実施形態では正規化したＬＢＰヒストグラムを特徴量として用いるものとして説明するが、これは一例に過ぎない。第１の感情認識モデル２５及び第２の感情認識モデル２６は、任意の特徴量を機械学習することにより生成できる。

感情認識モデル生成装置は、ステップＳ１０２で用いた画像正規化パラメータを示す情報と、ステップＳ１０４で用いた画像分割パラメータを示す情報と、ステップＳ１０６で用いたヒストグラム正規化パラメータを示す情報と、ステップＳ１０７で取得したＳＶＭパラメータを示す情報と、を互いに対応付けることにより、図５に示す構造を有する第１の感情認識モデル２５を生成し（ステップＳ１０８）、感情認識モデル生成処理を終了する。

なお、感情認識モデル生成装置は、ステップＳ１０８において、生成した感情認識モデルの品質を、評価用顔画像を用いて評価してもよい。具体的に、感情認識モデル生成装置は、生成した感情認識モデルを用いて評価用顔画像が表す被写体の感情を推定し、推定結果と当該評価用顔画像に予め付与された感情ラベルとが一致するか否かに基づいて感情認識モデルの品質を評価すればよい。評価の結果、生成した感情認識モデルの品質が所定の基準を満たさないと判定された場合、感情認識モデルの各パラメータを修正するチューニングや、再度機械学習を行って各パラメータを定義し直す再学習を行うこととしてもよい。

以上説明したように、感情認識モデル生成装置は、ステップＳ１０２において口領域を含むように正規化した学習用顔画像を用いて、第１の感情認識モデル２５を生成する。すなわち、感情認識モデル生成装置は、複数の学習用顔画像の、各学習用顔画像における被写体の口を表す画像を少なくとも用いて、第１の感情認識モデル２５を生成する。

次に、感情認識モデル生成装置が、図３のフローチャートに示す感情認識モデル生成処理を実行することにより、第２の感情認識モデル２６を生成する動作について説明する。

感情認識モデル生成装置は、上述した第１の感情認識モデル２５を生成する際におけるステップＳ１０１〜Ｓ１０８の処理と概ね同一の処理を実行することにより、第２の感情認識モデル２６を生成する。但し、ステップＳ１０２の処理が一部異なる。

具体的に、感情認識モデル生成装置は、第２の感情認識モデル２６を生成する場合、ステップＳ１０２において、ステップＳ１０１で検出した目領域の位置と鼻領域の位置とに基づいて学習用顔画像をそれぞれ正規化することにより、図４（ｂ）に示すように、各学習用顔画像を、口領域を含まないように正規化する。感情認識モデル生成装置は、この際に用いた画像正規化パラメータを記憶する。

感情認識モデル生成装置は、ステップＳ１０２において口領域を含まないように正規化した学習用顔画像を用いて、ステップＳ１０３〜Ｓ１０８の処理を実行することにより、図５に示す構造を有する第２の感情認識モデル２６を生成する。すなわち、感情認識モデル生成装置は、複数の顔画像を、各顔画像における被写体の口を表す画像領域である口領域を除いて用い、第２の感情認識モデル２６を生成する。

なお、本実施形態では第１の感情認識モデル２５と第２の感情認識モデル２６とを個別に生成するものとして説明したが、これは一例に過ぎない。第１の感情認識モデル２５と第２の感情認識モデル２６とは、共通の学習用顔画像を用い、一つの処理によりまとめて生成してもよい。

［感情推定処理の実施形態］
以下、図６を参照して、上記の物理的・機能的構成を有する感情推定装置１が、被推定者の顔画像２３を用いて被推定者の感情を推定する動作を説明する。感情推定装置１は、図６のフローチャートに示す感情推定処理を実行することにより、被推定者の顔画像２３を用いて被推定者の感情を推定する。

感情推定装置１は、外部インタフェース５０を介し、被推定者の顔画像２３、周辺音声データ２４、第１の感情認識モデル２５及び第２の感情認識モデル２６を予め取得し、記憶部２０に記憶している。記憶部２０において、被推定者の顔画像２３と周辺音声データ２４とは互いに対応付けて記憶されている。

この状態において、被推定者の感情を推定することを所望するユーザが入力部３０を介して感情の推定を指示すると、ＣＰＵ１０は、この指示に応答し、図６のフローチャートに示す感情推定処理を開始する。

まず、発話判定部１００が、被推定者の顔画像２３が撮像される際に被推定者が発話しているか否かを判定する（ステップＳ２０１）。具体的に、発話判定部１００は、周辺音声データ２４の音量が第１の閾値未満であれば、被推定者は発話していないと判定し、周辺音声データ２４の音量が第１の閾値以上であれば、被推定者は発話していると判定する。

モデル選択部１１０ａは、ステップＳ２０１における判定結果に基づいて、第１の感情認識モデル２５と第２の感情認識モデル２６とのうち何れかを選択する（ステップＳ２０２）。具体的に、モデル選択部１１０ａは、感情推定部１１０は、被推定者が発話していないとステップＳ２０１で判定された場合には第１の感情認識モデル２５を選択し、被推定者が発話しているとステップＳ２０２で判定された場合には第２の感情認識モデル２６を選択する。

感情推定部１１０は、被推定者の顔画像２３の目を表す画像領域である目領域と、被推定者の鼻を表す画像領域である鼻領域と、被推定者の口を表す画像領域である口領域と、を検出し（ステップＳ２０３）、検出した目領域、鼻領域及び口領域の位置に基づいて、ステップＳ２０２で選択された感情認識モデルの含む画像正規化パラメータを用いて、被推定者の顔画像２３を正規化する（ステップＳ２０４）。

具体的に、感情推定部１１０は、ステップＳ２０２において第１の感情認識モデル２５をモデル選択部１１０ａが選択した場合、ステップＳ２０４において、第１の感情認識モデル２５が含む画像正規化パラメータを用いて被推定者の顔画像２３を正規化することにより、被推定者の顔画像２３を、被推定者の口を表す画像領域を含むように正規化する。また、感情推定部１１０は、ステップＳ２０２において第２の感情認識モデル２６をモデル選択部１１０ａが選択した場合、ステップＳ２０４において、第２の感情認識モデル２６が含む画像正規化パラメータを用いて被推定者の顔画像２３を正規化することにより、被推定者の顔画像２３を、被推定者の口を表す画像領域を含まないように正規化する。

感情推定部１１０は、ステップＳ２０４で正規化した被推定者の顔画像２３が含む全ての画素のＬＢＰを算出することにより、ＬＢＰ画像を生成する（ステップＳ２０５）。

感情推定部１１０は、ステップＳ２０２で選択された感情認識モデルが含む分割パラメータを用いて、ステップＳ２０５で生成したＬＢＰ画像を複数のブロックに分割する（ステップＳ２０６）。具体的に、感情推定部１１０は、ステップＳ２０２においてモデル選択部１１０ａが第１の感情認識モデル２５を選択した場合、第１の感情認識モデル２５が含む分割パラメータを用いてＬＢＰ画像を分割する。また、感情推定部１１０は、ステップＳ２０２においてモデル選択部１１０ａが第２の感情認識モデル２６を選択した場合、第２の感情認識モデル２６が含む分割パラメータを用いてＬＢＰ画像を分割する。

感情推定部１１０は、ステップＳ２０６において分割したブロック毎にＬＢＰヒストグラムを生成した上で全ブロックのＬＢＰヒストグラムを連結することにより、ステップＳ２０４で正規化した被推定者の顔画像２３についてＬＢＰヒストグラムを生成する（ステップＳ２０７）。

感情推定部１１０は、ステップＳ２０２で選択された感情認識モデルが含むヒストグラム正規化パラメータを用いて、ステップＳ２０７で生成したＬＢＰヒストグラムを次元単位で正規化する（ステップＳ２０８）。具体的に、感情推定部１１０は、ステップＳ２０２においてモデル選択部１１０ａが第１の感情認識モデル２５を選択した場合、第１の感情認識モデル２５が含むヒストグラム正規化パラメータを用いてＬＢＰヒストグラムを正規化する。また、感情推定部１１０は、ステップＳ２０２においてモデル選択部１１０ａが第２の感情認識モデル２６を選択した場合、第２の感情認識モデル２６が含むヒストグラム正規化パラメータを用いてＬＢＰヒストグラムを正規化する。

感情推定部１１０は、ステップＳ２０８で正規化したＬＢＰヒストグラムと、ステップＳ２０２で選択された感情認識モデルが含むＳＶＭパラメータで定義されるサポートベクターマシンと、を用いて被推定者の感情を推定する（ステップＳ２０９）。具体的に、感情推定部１１０は、ステップＳ２０２においてモデル選択部１１０ａが第１の感情認識モデル２５を選択した場合、第１の感情認識モデル２５が含むＳＶＭパラメータで定義されるサポートベクターマシンを用いて被推定者の感情を推定する。また、感情推定部１１０は、ステップＳ２０２においてモデル選択部１１０ａが第２の感情認識モデル２６を選択した場合、第２の感情認識モデル２６が含むＳＶＭパラメータで定義されるサポートベクターマシンを用いて被推定者の感情を推定する。

すなわち、感情推定部１１０は、感情認識モデル生成装置が感情認識モデルを生成したときと同じように、被推定者の顏画像２３を目、鼻、口等の領域に分割する。そして、さらに目頭や目尻のように領域を細分化する。そして、細分化した領域毎に、感情認識モデル生成装置と同様にＬＰＢヒストグラムを生成して、次元正規化を行う。そして、正規化されたＬＰＢヒストグラムを被推定者の顔画像２３の特徴データとして、感情識別モデル内のＳＶＭを用いて、その特徴データが、喜怒哀楽のいずれの感情状態の顏画像に属するかを識別する。

感情推定部１１０は、ステップＳ２０９で推定した被推定者の感情を表すテキストメッセージを感情画像として出力部４０のディスプレイに表示し、ステップＳ２０９で推定した被推定者の感情を表す感情情報を、外部インタフェース５０を介して、図示しない外部の情報処理装置へ送出して（ステップＳ２１０）、感情推定処理を終了する。

以上説明したように、感情推定装置１は、被推定者の顔画像２３が撮像される際に被推定者が発話していると発話判定部１００が判定したか否かに応じて、被推定者の顔画像２３を用いた互いに異なる感情推定処理を実行する。このため、感情推定装置１は、被推定者の顔画像２３を用いて、高い精度で被推定者の感情を推定できる。

具体的に、感情推定装置１は、被推定者が発話していないと発話判定部１００が判定した場合、第１の感情認識モデル２５を用いた感情推定処理を実行する。第１の感情認識モデル２５を用いた感情推定処理では、上述したステップＳ２０４の処理で被推定者の顔画像２３を、被推定者の口を表す画像領域を含むように正規化していることから明らかなように、被推定者の顔画像２３の、被推定者の口を表す画像を少なくとも用いて被推定者の感情を推定する。

被推定者が発話していない場合には、被推定者の顔画像２３の、被推定者の口を表す画像を用いたとしても、一の感情を抱き、かつ、発話している状態における被推定者の表情を、他の感情を抱き、かつ、発話していない状態における被推定者の表情として感情推定装置１が誤認識してしまう虞は無い。

感情推定装置１は、被推定者の顔画像２３の、被推定者の口を表す画像を用いることで、被推定者の口を表す画像を用いない場合よりも高い精度で被推定者の感情を推定できる。

また、感情推定装置１は、被推定者が発話していると発話判定部１００が判定した場合、第２の感情認識モデル２６を用いた感情推定処理を実行する。第２の感情認識モデル２６を用いた感情推定処理では、上述したステップＳ２０４の処理で被推定者の顔画像２３を、被推定者の口を表す画像領域を含まないように正規化していること等から明らかなように、被推定者の顔画像２３の、被推定者の口を表す画像以外の画像を用いて被推定者の感情を推定する。

被推定者が発話している場合には、被推定者の顔画像２３の、被推定者の口を表す画像を用いると、一の感情を抱き、かつ、発話している状態における被推定者の表情を、他の感情を抱き、かつ、発話していない状態における被推定者の表情として感情推定装置１が誤認識してしまう虞がある。

感情推定装置１は、被推定者の顔画像２３の、被推定者の口を表す画像以外の画像用いることで、被推定者の口を表す画像を用いた場合よりも高い精度で被推定者の感情を推定できる。

以上説明したように、感情推定装置１は、被推定者が発話していない場合には第１の感情認識モデル２５を、被推定者が発話している場合には第２の感情認識モデル２６を用いて感情推定処理を行うことにより、被推定者の顔画像２３を用いて、当該顔画像が撮像される際に被推定者が発話しているか否かにかかわらず、高い精度で被推定者の感情を推定できる。

以上、本発明の実施形態について説明したが、この実施形態は一例に過ぎず、本発明の範囲はこの実施形態に限定されるものではない。本発明は、種々の形態で実施可能であり、あらゆる実施形態が本発明の範囲に含まれる。

上記の実施形態において、感情推定装置１は、図示しない外部の撮像装置が撮像した被推定者の顔画像２３と、図示しない外部の録音装置が取得した当該被推定者の顔画像２３を撮像した際の被推定者の周辺音声データ２４を予め取得し、被推定者の顔画像２３と周辺音声データ２４とはお互いに対応付けられて記憶部２０に記憶していた。しかし、これは一例に過ぎない。感情推定装置１は、被推定者の顔画像２３と周辺音声データ２４とを任意の方法により取得できる。

例えば、感情推定装置１は、図示しない撮像手段を備え、この撮像手段を用いて被推定者の顔を撮像することにより被推定者の顔画像２３を取得すればよい。また、感情推定装置１は、図示しない音声入力手段を備え、この音声入力手段を用いて、被推定者の顔画像２３が撮像手段により撮像される際における被推定者の周辺の音声を表す音声データを周辺音声データ２４として取得すればよい。この場合、感情推定装置１は、被推定者の顔画像２３と被推定者の周辺音声の取得と、被推定者の発話の有無に基づいた被推定者の顔画像２３を用いた当該被推定者の感情認識を常時行なうようにしてもよい。

上記の実施形態において、第１の感情認識モデル２５及び第２の感情認識モデルは、図３のフローチャートに示す感情認識モデル生成処理によって生成され、図５に示す構造を有していた。しかし、これは一例に過ぎない。第１の感情認識モデル２５は、被推定者の顔画像の、被推定者の口を表す画像を少なくとも用いて被推定者の感情を推定する認識モデルであれば、任意の方法によって生成された、任意の構造を有する認識モデルであってよい。第２の感情認識モデル２６は、被推定者の顔画像の、被推定者の口を表す画像以外の画像を用いて被推定者の感情を推定する認識モデルであれば、任意の方法によって生成された、任意の構造を有する認識モデルであってよい。

上記の実施形態において、発話判定部１００は、周辺音声データ２４の音量が第１の閾値未満であれば、被推定者は発話していないと判定し、周辺音声データ２４の音量が第１の閾値以上であれば、被推定者は発話していると判定した。しかし、これは一例に過ぎない。発話判定部１００は、被推定者の顔画像２３が撮像される際に被推定者が発話しているか否かを、任意の方法により判定できる。

例えば、発話判定部１００は、周辺音声データ２４と母音音声データ及び子音音声データとの間の類似度に基づいて、被推定者が発話しているか否かを判定すればよい。なお、母音音声データは、母音を表す音声データであり、子音音声データは、子音を表す音声データである。具体的に、発話判定部１００は、周辺音声データ２４と母音音声データとの間の類似度と、周辺音声データ２４と子音音声データとの間の類似度と、のうち少なくとも何れか一方が第２の閾値未満であれば、被推定者は発話していないと判定すればよい。また、発話判定部１００は、周辺音声データと母音音声データとの間の類似度と、周辺音声データと子音音声データとの間の類似度と、のうち少なくとも何れか一方が第２の閾値以上であれば、被推定者は発話していると判定すればよい。なお、第２の閾値は、実験等の任意の方法により、予め設定しておくものとする。

或いは、発話判定部１００は、被推定者の顔画像２３が撮像される際に被推定者が発話しているか否かを示す発話情報を外部から取得し、この発話情報に基づいて被推定者が発話しているか否かを判定してもよい。発話判定部１００は、発話情報を、任意の方法により取得できる。例えば、発話判定部１００は、ユーザが入力部３０を用いて入力した、被推定者の顔画像２３が撮像される際に被推定者が発話しているか否かを示す情報を、発話情報として取得すればよい。

［感情推定処理の変形例］
上記の実施形態において、感情推定部１１０は、被推定者が発話していないと発話判定部１００が判定した場合と、被推定者が発話していると発話判定部１００が判定した場合と、で被推定者の顔画像２３を用いた互いに異なる感情推定処理を実行した。具体的には、感情推定部１１０は、被推定者が発話していないと発話判定部１００が判定した場合は、第１の感情認識モデル２５を選択して感情推定処理を実行し、被推定者が発話していると発話判定部１００が判定した場合は、第２の感情認識モデル２６を選択して感情推定処理を実行した。

感情推定処理の変形例においては、感情推定部１１０は、被推定者が発話していないと発話判定部１００が判定した場合は、被推定者の顔画像２３を用いた感情推定処理を実行し、被推定者が発話していると発話判定部１００が判定した場合は、被推定者の顔画像２３を用いた感情推定処理を行なわないように動作する。

以下、図７を参照して、感情推定処理の変形例について説明する。
まず、発話判定部１００が、被推定者の顔画像２３が撮像される際に被推定者が発話しているか否かを判定する（ステップＳ３０１）。本処理は、上記の実施形態におけるステップＳ２０１と同一の処理である。

感情推定部１１０は、ステップＳ３０１における判定結果において被推定者が発話していないと判定した場合（ステップＳ３０２：Ｙｅｓ）、被推定者の顔画像２３を用いた感情推定処理を実行する（ステップＳ３０３）。具体的には、第１の感情認識モデル２５を用いて、上記の実施形態におけるステップＳ２０３〜ステップＳ２１０の処理を行なった後、感情推定処理を終了する。

また、感情推定部１１０は、ステップＳ３０１における判定結果において被推定者が発話していると判定した場合（ステップＳ３０２：Ｎｏ）、被推定者の顔画像２３を用いた感情推定処理を実行することなく（被推定者の顔画像２３を用いた感情推定処理の実行を禁止し）感情推定処理を終了する。なお、本実施形態では、被推定者が発話していると判定した場合、被推定者の顔画像２３を用いた感情推定処理を実行することなく感情推定処理を終了するものとして説明したが、これは一例に過ぎない。被推定者が発話していると判定した場合、被推定者の顔画像２３を用いた感情推定処理を実行することなく（被推定者の顔画像２３を用いた感情推定処理の実行を禁止し）、被推定者の顔画像２３を用いない任意の感情推定処理を実行することにより被推定者の感情を推定することもできる。例えば、被推定者が発話していると判定した場合、被推定者の顔画像２３を用いた感情推定処理を実行することなく、周辺音声データ２４が表す被推定者の音声を用いて被推定者の感情を推定すればよい。被推定者の音声を用いて被推定者の感情を推定する技術は、当該技術分野において周知であるため、詳細な説明は省略する。

なお、感情推定部１１０は、被推定者が発話していると判定した場合、被推定者の顔画像２３を用いた感情推定処理を実行してもよい。具体的には、第２の感情認識モデル２６を用いて、上記の実施形態におけるステップＳ２０３〜ステップＳ２１０の処理を行ない、被推定者が発話していないと判定した場合、被推定者の顔画像２３を用いた感情推定処理を実行することなく感情推定処理を終了してもよい。

以上説明したように、感情推定装置１は、被推定者の顔画像２３を用いた被推定者の感情を推定する際、被推定者の発話の有無に影響されない感情推定を行なうので、高い精度で被推定者の感情を推定できる。

上記の実施形態、及び変形例において、感情推定装置１は、出力部４０が備えるディスプレイに感情画像を表示し、外部インタフェース５０を介して感情情報を送出することにより、感情推定処理の結果を出力した。しかし、これは一例に過ぎない。感情推定装置１は、任意の方法により、感情推定処理の結果を出力できる。例えば、感情推定装置１の出力部４０は、図示しないスピーカを備え、感情推定装置１が推定した被推定者の感情を表す音声である感情音声をこのスピーカから出力すればよい。

本発明に係る感情推定装置は、コンピュータや携帯電話、スマートフォン、カメラ、ＰＤＡ（Personal Digital Assistance）等の任意の電子機器によって実現できる。具体的には、これらの電子機器を本発明に係る感情推定装置として動作させるためのプログラムを、これらの電子機器が読み取り可能な記録媒体（例えば、メモリカードやＣＤ−ＲＯＭ（Compact Disc Read-Only Memory）、ＤＶＤ−ＲＯＭ（Digital Versatile Disc Read-Only Memory）等）に格納して配布し、これらの電子機器にインストールすることにより本発明に係る感情推定装置を実現できる。

あるいは、上記プログラムを、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置（例えば、ディスク装置等）に格納しておき、コンピュータや携帯電話、スマートフォン、カメラ、ＰＤＡ等の電子機器がこのプログラムをダウンロードすることによって本発明に係る感情推定装置を実現してもよい。

また、本発明に係る感情推定装置の機能を、ＯＳ（Operating System）とアプリケーションプログラムとの協働又は分担により実現する場合には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、アプリケーションプログラムを搬送波に重畳し、通信ネットワークを介して配信してもよい。例えば、通信ネットワーク上の掲示板（BBS：Bulletin Board System）にアプリケーションプログラムを掲示し、ネットワークを介してアプリケーションプログラムを配信してもよい。そして、このアプリケーションプログラムをコンピュータにインストールして起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、本発明に係る感情推定装置を実現してもよい。

以上、本発明の好ましい実施の形態について説明したが、本発明は係る特定の実施の形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願当初の特許請求の範囲に記載された発明を付記する。

（付記１）
被推定者の顔画像が撮像される際に前記被推定者が発話しているか否かを判定する発話判定手段と、
前記発話判定手段の判定結果に基づいて前記被推定者の顔画像を用いた感情推定処理を実行することにより、前記被推定者の感情を推定する感情推定手段と、
を備えることを特徴とする感情推定装置。
（付記２）
前記感情推定手段は、前記被推定者が発話していないと前記発話判定手段が判定した場合、前記被推定者の顔画像を用いた感情推定処理を実行することを特徴とした付記１に記載の感情推定装置。
（付記３）
前記感情推定手段は、前記被推定者が発話していると前記発話判定手段が判定した場合、前記被推定者の顔画像を用いた感情推定処理を実行しないことを特徴とした付記２に記載の感情推定装置。
（付記４）
前記感情推定手段は、前記被推定者が発話していると前記発話判定手段が判定した場合、前記被推定者の顔画像を用いた感情推定処理を実行することを特徴とした付記１に記載の感情推定装置。
（付記５）
前記感情推定手段は、前記被推定者が発話していないと前記発話判定手段が判定した場合と、前記被推定者が発話していると前記発話判定手段が判定した場合と、で前記被推定者の顔画像を用いた互いに異なる感情推定処理を実行することにより、前記被推定者の感情を推定することを特徴とする付記１に記載の感情推定装置。
（付記６）
前記感情推定手段は、
前記被推定者が発話していないと前記発話判定手段が判定した場合、前記被推定者の顔画像の、前記被推定者の口を表す画像を少なくとも用いて、前記被推定者の感情を推定する第１の感情認識モデルにより感情推定処理を実行し、
前記被推定者が発話していると前記発話判定手段が判定した場合、前記被推定者の顔画像の、前記被推定者の口を表す画像以外の画像を用いて、前記被推定者の感情を推定する第２の感情認識モデルにより感情推定処理を実行することを特徴とする付記５に記載の感情推定装置。
（付記７）
前記発話判定手段は、
前記被推定者の顔画像が撮像される際における音声に基づいて、前記被推定者が発話しているか否かを判定することを特徴とする付記１乃至６の何れか一つに記載の感情推定装置。
（付記８）
前記発話判定手段は、
前記被推定者の顔画像が撮像される際における前記被推定者の周囲の音声を表す周辺音声データの音量が第１の閾値未満であれば、前記被推定者は発話していないと判定し、
前記周辺音声データの音量が前記第１の閾値以上であれば、前記被推定者は発話していると判定することを特徴とする付記７に記載の感情推定装置。
（付記９）
前記発話判定手段は、
前記被推定者の顔画像が撮像される際における前記被推定者の周辺の音声を表す周辺音声データと母音を表す母音音声データとの間の類似度と、前記周辺音声データと子音を表す子音音声データとの間の類似度と、のうち少なくとも何れか一方が第２の閾値未満であれば、前記被推定者は発話していないと判定し、
前記周辺音声データと前記母音音声データとの間の類似度と、前記周辺音声データと前記子音音声データとの間の類似度と、のうち少なくとも何れか一方が前記第２の閾値以上であれば、前記被推定者は発話していると判定することを特徴とする付記７に記載の感情推定装置。
（付記１０）
被推定者の顔画像が撮像される際に前記被推定者が発話しているか否かを判定する発話判定ステップと、
前記発話判定ステップの判定結果に基づいて前記被推定者の顔画像を用いた感情推定処理を実行することにより、前記被推定者の感情を推定する感情推定ステップと、
を含むことを特徴とする感情推定方法。
（付記１１）
コンピュータを、
被推定者の顔画像が撮像される際に前記被推定者が発話しているか否かを判定する発話判定手段、
前記発話判定手段の判定結果に基づいて前記被推定者の顔画像を用いた感情推定処理を実行することにより、前記被推定者の感情を推定する感情推定手段、
として機能させることを特徴とするプログラム。

１…感情推定装置、１０…ＣＰＵ、２０…記憶部、２１…制御プログラム、２２…感情推定プログラム、２３…被推定者の顔画像、２４…周辺音声データ、２５…第１の感情認識モデル、２６…第２の感情認識モデル、３０…入力部、４０…出力部、５０…外部インタフェース、１００…発話判定部、１１０…感情推定部、１１０ａ…モデル選択部

Claims

被推定者の顔画像が撮像される際に前記被推定者が発話しているか否かを判定する発話判定手段と、
前記発話判定手段の判定結果に基づいて前記被推定者の顔画像を用いた感情推定処理を実行することにより、前記被推定者の感情を推定する感情推定手段と、
を備えることを特徴とする感情推定装置。
前記感情推定手段は、前記被推定者が発話していないと前記発話判定手段が判定した場合、前記被推定者の顔画像を用いた感情推定処理を実行することを特徴とした請求項１に記載の感情推定装置。
前記感情推定手段は、前記被推定者が発話していると前記発話判定手段が判定した場合、前記被推定者の顔画像を用いた感情推定処理を実行しないことを特徴とした請求項２に記載の感情推定装置。
前記感情推定手段は、前記被推定者が発話していると前記発話判定手段が判定した場合、前記被推定者の顔画像を用いた感情推定処理を実行することを特徴とした請求項１に記載の感情推定装置。
前記感情推定手段は、前記被推定者が発話していないと前記発話判定手段が判定した場合と、前記被推定者が発話していると前記発話判定手段が判定した場合と、で前記被推定者の顔画像を用いた互いに異なる感情推定処理を実行することにより、前記被推定者の感情を推定することを特徴とする請求項１に記載の感情推定装置。
前記感情推定手段は、
前記被推定者が発話していないと前記発話判定手段が判定した場合、前記被推定者の顔画像の、前記被推定者の口を表す画像を少なくとも用いて、前記被推定者の感情を推定する第１の感情認識モデルにより感情推定処理を実行し、
前記被推定者が発話していると前記発話判定手段が判定した場合、前記被推定者の顔画像の、前記被推定者の口を表す画像以外の画像を用いて、前記被推定者の感情を推定する第２の感情認識モデルにより感情推定処理を実行することを特徴とする請求項５に記載の感情推定装置。
前記発話判定手段は、
前記被推定者の顔画像が撮像される際における音声に基づいて、前記被推定者が発話しているか否かを判定することを特徴とする請求項１乃至６の何れか一項に記載の感情推定装置。
前記発話判定手段は、
前記被推定者の顔画像が撮像される際における前記被推定者の周囲の音声を表す周辺音声データの音量が第１の閾値未満であれば、前記被推定者は発話していないと判定し、
前記周辺音声データの音量が前記第１の閾値以上であれば、前記被推定者は発話していると判定することを特徴とする請求項７に記載の感情推定装置。
前記発話判定手段は、
前記被推定者の顔画像が撮像される際における前記被推定者の周辺の音声を表す周辺音声データと母音を表す母音音声データとの間の類似度と、前記周辺音声データと子音を表す子音音声データとの間の類似度と、のうち少なくとも何れか一方が第２の閾値未満であれば、前記被推定者は発話していないと判定し、
前記周辺音声データと前記母音音声データとの間の類似度と、前記周辺音声データと前記子音音声データとの間の類似度と、のうち少なくとも何れか一方が前記第２の閾値以上であれば、前記被推定者は発話していると判定することを特徴とする請求項７に記載の感情推定装置。
被推定者の顔画像が撮像される際に前記被推定者が発話しているか否かを判定する発話判定ステップと、
前記発話判定ステップの判定結果に基づいて前記被推定者の顔画像を用いた感情推定処理を実行することにより、前記被推定者の感情を推定する感情推定ステップと、
を含むことを特徴とする感情推定方法。
コンピュータを、
被推定者の顔画像が撮像される際に前記被推定者が発話しているか否かを判定する発話判定手段、
前記発話判定手段の判定結果に基づいて前記被推定者の顔画像を用いた感情推定処理を実行することにより、前記被推定者の感情を推定する感情推定手段、
として機能させることを特徴とするプログラム。