JP6101470B2 - 顔表情解析装置および顔表情解析プログラム - Google Patents

顔表情解析装置および顔表情解析プログラム Download PDF

Info

Publication number
JP6101470B2
JP6101470B2 JP2012237877A JP2012237877A JP6101470B2 JP 6101470 B2 JP6101470 B2 JP 6101470B2 JP 2012237877 A JP2012237877 A JP 2012237877A JP 2012237877 A JP2012237877 A JP 2012237877A JP 6101470 B2 JP6101470 B2 JP 6101470B2
Authority
JP
Japan
Prior art keywords
facial expression
analysis
image data
unit
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012237877A
Other languages
English (en)
Other versions
JP2014041587A (ja
Inventor
誠 奥田
誠 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012237877A priority Critical patent/JP6101470B2/ja
Publication of JP2014041587A publication Critical patent/JP2014041587A/ja
Application granted granted Critical
Publication of JP6101470B2 publication Critical patent/JP6101470B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、顔表情解析装置および顔表情解析プログラムに関する。
人物の顔画像が含まれる画像データを解析し、顔表情を6種類(Anger;怒り、Disgust;嫌悪、Fear;恐れ、Happiness;幸せ、Sadness;悲しみ、Surprise;驚き)に分類し、その強度を計算する技術が知られている(例えば、非特許文献1参照)。
Peng Yang, Qingshan Liu, Dimitris N. Metaxas, "RankBoost with l1 regularization for Facial Expression Recognition and Intensity Estimation", IEEE International Conference on Computer Vision (ICCV), pp. 1018-1025, 2009
上記の非特許文献1に記載された技術を適用した情報処理装置は、複数の顔画像について顔表情の強さ(度合)の順位を求めることができる。しかしながら、その情報処理装置は、顔画像ごとに、人間により主観的に得られる顔表情の強さに近い顔表情の強度値を求めることができない。
そこで、本発明は、上記の問題を解決するためになされたものであり、顔画像について、顔表情を分類するとともに、人間の感覚に近い顔表情の強度値を得ることができる、顔表情解析装置および顔表情解析プログラムを提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様である顔表情解析装置は、画像データを取り込む画像データ取得部と、前記画像データ取得部が取り込んだ前記画像データから顔の解析領域を抽出する顔領域抽出部と、前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、前記画像特徴量計算部が計算した前記画像特徴量と前記画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、数式モデルが有するパラメータ値を前記顔表情種別ごとに更新する回帰分析部と、前記回帰分析部が更新した前記パラメータ値を適用した前記数式モデルに、前記画像特徴量計算部が計算した画像特徴量を適用して、前記顔表情種別ごとに顔表情強度値を計算し、最大の顔表情強度値に対応する顔表情種別を選出する顔表情評価部と、を備えることを特徴とする。
ここで、画像特徴量として、例えば、Bag−of−Keypoints、ローカルバイナリパターン、または拡張ローカルバイナリパターンを適用できる。
[2]上記[1]記載の顔表情解析装置において、前記回帰分析処理は、線形回帰分析処理、ロジスティック回帰分析処理、またはサポートベクトル回帰分析処理のいずれかであることを特徴とする。
[3]上記[1]または[2]いずれか記載の顔表情解析装置において、前記顔表情評価部は、複数フレーム分の画像データを含む所定区間ごとに、前記区間内のフレームにおいて顔表情強度値が最大となる場合の顔表情強度値のみの総和値を顔表情種別ごとに計算し、最大の前記総和値に対応する顔表情種別を選出する、ことを特徴とする。
[4]上記[3]記載の顔表情解析装置において、前記顔表情評価部は、前記複数フレームよりも少ないフレーム数おきに、前記所定区間を前記フレーム数分ずらすことを特徴とする。
[5]上記の課題を解決するため、本発明の一態様である顔表情解析プログラムは、コンピュータを、画像データを取り込む画像データ取得部と、前記画像データ取得部が取り込んだ前記画像データから顔の解析領域を抽出する顔領域抽出部と、前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、前記画像特徴量計算部が計算した前記画像特徴量と前記画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、数式モデルが有するパラメータ値を前記顔表情種別ごとに更新する回帰分析部と、前記回帰分析部が更新した前記パラメータ値を適用した前記数式モデルに、前記画像特徴量計算部が計算した画像特徴量を適用して、前記顔表情種別ごとに顔表情強度値を計算し、最大の顔表情強度値に対応する顔表情種別を選出する顔表情評価部と、として機能させる。
本発明によれば、顔画像について、顔表情を分類するとともに、人間の感覚に近い顔表情の強度値を得ることができる。
本発明の第1実施形態である顔表情解析装置の機能構成を示すブロック図である。 同実施形態である顔表情解析装置が学習モードに設定されて学習処理を実行する際に用いる、顔画像データベースのデータ構造の一部分を概念的に示す図である。 同実施形態である顔表情解析装置が学習モードに設定されて学習処理を実行する際に用いる顔表情強度教師値を、顔画像データに対応付けて示す図である。 画像データと、この画像データから抽出された顔領域データと、この顔領域データを正規化して得られた正規化顔領域データとを模式的に示す図である。 同実施形態における解析領域決定部が正規化顔領域データから決定した解析領域を、視覚的に分かり易く線描画した図である。 同実施形態における画像特徴量計算部によって生成された、上部解析領域における特徴量のヒストグラムと、下部解析領域における特徴量のヒストグラムと、これら二つのヒストグラムが連結された、解析領域全体における特徴量のヒストグラムとを模式的に示した図である。 同実施形態における回帰分析部が実行する回帰分析処理における一つの回帰モデルを模式的に示した図である。 同実施形態である顔表情解析装置が実行する学習処理の手順を示すフローチャートである。 同実施形態である顔表情解析装置が実行する顔表情解析処理の手順を示すフローチャートである。 本発明の第4実施形態である顔表情解析装置が顔表情解析処理を実行することによって顔表情評価部で得られる、フレームごとの顔表情種別に対する顔表情強度値を示す図である。 本発明の第4実施形態である顔表情解析装置の出力結果を模式的に示した図である。 同実施形態の変形例である顔表情解析装置の出力結果を模式的に示した図である。
以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
[第1の実施の形態]
本発明の第1実施形態である顔表情解析装置は、切替制御によって学習処理および顔表情解析処理を切り替えて実行する。学習処理は、顔表情解析装置が、顔表情種別ごとに、顔表情の度合(強度)がそれぞれ異なる顔画像データ列における各顔画像データの顔領域の画像特徴量と、評価者の主観評価による顔表情の度合を示す顔表情強度教師値との対応関係を回帰分析して、顔表情種別ごとの回帰モデルにおけるパラメータ値を求める処理である。また、顔表情解析処理は、顔表情解析装置が、顔表情種別ごとに学習済の回帰モデルに、評価用の顔画像データ(評価顔画像データ)における顔領域の画像特徴量を適用して、顔表情種別ごとに顔表情強度値を計算し、最大の顔表情強度値に対応する顔表情種別を選出する処理である。
図1は、本発明の第1実施形態である顔表情解析装置の機能構成を示すブロック図である。同図に示すように、顔表情解析装置1は、画像データ取得部10と、顔表情強度教師値取得部20と、顔領域抽出部30と、画像特徴量計算部40と、回帰分析部50と、回帰モデル記憶部60と、顔表情評価部70と、モード切替部80とを備える。
モード切替部80は、例えば、顔表情解析装置1がプログラムを実行することにより実現される切替制御により、顔表情解析装置1を学習モードから顔表情解析モード、または顔表情解析モードから学習モードに切り替える。学習モードは、顔表情解析装置1が事前処理および学習処理を実行する動作モードである。また、顔表情解析モードは、顔表情解析装置1が顔表情解析処理を実行する動作モードである。なお、モード切替部80は、例えば、操作者による顔表情解析装置1の切替操作にしたがって、学習モードと顔表情解析モードとを切替えてもよい。
モード切替部80により顔表情解析装置1を学習モードに設定している場合、顔表情解析装置1は、画像データ取得部10と、顔表情強度教師値取得部20と、顔領域抽出部30と、画像特徴量計算部40と、回帰分析部50と、回帰モデル記憶部60とを機能させる。また、モード切替部80により顔表情解析装置1を顔表情解析モードに設定している場合、顔表情解析装置1は、画像データ取得部10と、顔領域抽出部30と、画像特徴量計算部40と、回帰モデル記憶部60と、顔表情評価部70とを機能させる。
画像データ取得部10は、図示しない外部装置が供給する画像データを取り込む。具体的に、顔表情解析装置1が学習モードに設定されているとき、画像データ取得部10は、例えば、顔画像データベースから複数の顔画像データを取り込む。顔画像データベースは、例えば、顔表情の種類別に、複数人の顔表情の度合がそれぞれ異なる顔画像データ列の集合を格納したデータベースである。また、顔表情解析装置1が顔表情解析モードに設定されているとき、画像データ取得部10は、例えば、撮影装置または記録装置が供給する、顔表情解析のための評価顔画像データを取り込む。
画像データ(顔画像データ、評価顔画像データ)は、静止画像データまたは動画像データである。画像データが静止画像データである場合、画像データ取得部10は、取り込んだ静止画像データを顔領域抽出部30に供給する。また、画像データが動画像データである場合、画像データ取得部10は、取り込んだ動画像データからキーフレームを検出し、このキーフレームを画像データとして、順次またはあらかじめ決定された所定フレーム数おきに顔領域抽出部30に供給する。
顔表情解析装置1が学習モードに設定されているとき、顔表情強度教師値取得部20は、図示しない外部装置が供給する顔表情強度教師値を取り込み、この顔表情強度教師値を回帰分析部50に供給する。外部装置は、例えば、前記の顔画像データベースまたはコンピュータ装置等の情報処理装置である。顔表情強度教師値は、顔画像データベースに格納された、顔表情種別ごとの顔画像データ列について、各顔画像データにおける顔表情の度合を、評価者の主観評価にしたがって表した値である。一例として、顔表情強度教師値を、下限値(例えば“0(ゼロ)”)から上限値(例えば“100”)までの整数で表す。このとき、顔表情強度教師値が小さいほど顔表情の度合が小さく、顔表情強度教師値が大きいほど顔表情の度合が大きい。
なお、評価者は一人でもよいし、複数でもよい。評価者が複数である場合、各評価者によって付された値の平均値を顔表情強度教師値としてもよい。
顔表情解析装置1が学習モードに設定されているとき、画像データ取得部10が取り込む顔画像データと、この画像データに対応して顔表情強度教師値取得部20が取り込む顔表情強度教師値との対データは、顔表情解析装置1における教師データである。
顔領域抽出部30は、画像データ取得部10が供給する画像データ(顔画像データまたは評価顔画像データ)を取り込み、この画像データから顔の解析領域を抽出する。顔領域抽出部30は、その機能構成として、顔領域検出部31と、解析領域決定部32とを備える。
顔領域検出部31は、取り込んだ画像データについて顔検出処理を実行し、その画像データから顔領域を検出する。この顔領域のデータ(顔領域データ)は、例えば矩形の画像データである。顔領域検出部31が実行する顔検出処理のアルゴリズムとして、公知の顔検出アルゴリズム(例えば、AdaBoost)を適用できる。なお、公知の顔検出アルゴリズムについては、例えば、PAUL VIOLA, MICHAEL J. JONES, "Robust Real-Time Face Detection", International Journal of Computer Vision, 2004, Vol. 57, No. 2, pp. 137-154に、詳細が開示されている。
解析領域決定部32は、顔領域検出部31が検出した顔領域データを所定画素サイズに正規化する。そして、解析領域決定部32は、正規化した顔領域データ(正規化顔領域データ)から解析領域を抽出する。具体的に、解析領域決定部32は、顔領域データを、例えば水平方向128画素×垂直方向128画素の正規化顔領域データに正規化する。すなわち、解析領域決定部32は、顔領域データを所定画素サイズの矩形画像に拡大または縮小する画像処理を実行して、正規化顔領域データを生成する。つまり、画像データに含まれる顔の大きさは画像データによって様々であるため、解析領域決定部32は、顔領域を拡大または縮小させて、全ての画像データにおける顔領域の解像度を同程度にする。これにより、解像度が異なる顔領域データの情報量を略均等(均等を含む)にすることができる。
解析領域決定部32は、正規化顔領域データから、画像特徴量を計算するための解析領域を決定し、この解析領域のデータ(解析領域データ)を抽出する。解析領域は、例えば、正規化顔領域内の中心部の円(楕円または真円)領域である。そして、解析領域決定部32は、例えば、解析領域の中心を通る水平方向の直線で当該解析領域を二分し、その上部の領域を上部解析領域(第1の解析部分領域)、下部の領域を下部解析領域(第2の解析部分領域)として決定する。言い換えると、解析領域決定部32は、正規化顔領域に内接する円形または楕円形よりも小さな円形または楕円形の解析領域を上下(縦)方向に二分して上部解析領域および下部解析領域を決定する。
画像特徴量計算部40は、顔領域抽出部30が抽出した解析領域データの画像特徴量を計算する。
具体的に、顔表情解析装置1が学習モードに設定されて実行する事前処理において、画像特徴量計算部40は、解析領域決定部32が決定した解析領域における上部解析領域からScale Invariant Feature Transformation(SIFT)特徴量またはSpeeded Up Robust Features(SURF)等の局所特徴量を計算する。画像特徴量計算部40は、全ての顔画像データについての局所特徴量についてクラスタリング処理を実行することによってクラスタを生成する。クラスタリング処理として、画像特徴量計算部40は、例えばK平均法を適用する。また、画像特徴量計算部40は、下部解析領域についても上部解析領域と同様にクラスタを生成する。そして、画像特徴量計算部40は、上部解析領域および下部解析領域それぞれについてのクラスタを記憶する。
なお、画像特徴量計算部40は、学習処理において用いる全ての顔画像データについての上部解析領域および下部解析領域それぞれに対するクラスタを、外部装置から供給を受けて記憶してもよい。
顔表情解析装置1が学習モードに設定されて実行する学習処理、または顔表情解析モードに設定されて実行する顔表情解析処理において、画像特徴量計算部40は、解析領域決定部32が決定した解析領域における上部解析領域からSIFT特徴量、またはSURF等の局所特徴量を計算する。そして、画像特徴量計算部40は、これら局所特徴量を、事前処理において記憶した上部解析領域に対するクラスタに分類し、各クラスタをビン、各クラス多の要素数を頻度とするヒストグラム(Bag−of−Keypoints)を生成する。画像特徴量計算部40は、下部解析領域についても上部解析領域と同様にBag−of−Keypointsを生成する。
画像特徴量計算部40は、上部解析領域および下部解析領域それぞれについてのBag−of−Keypointsを連結して解析領域全体のBag−of−Keypointsを生成する。例えば、画像特徴量計算部40は、上部解析領域に対する175次元のBag−of−Keypointsに、下部解析領域に対する125次元のBag−of−Keypointsを連結し、解析領域全体として300次元のBag−of−Keypointsを生成する。
なお、Bag−of−Keypointsについては、例えば、Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, Gedric Bray, "Visual Categorization with Bag of Keypoints", Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74, 2004に、詳細が開示されている。
顔表情解析装置1が学習モードに設定されているとき、画像特徴量計算部40は、解析領域全体のBag−of−Keypointsを、画像特徴量として回帰分析部50に供給する。また、顔表情解析装置1が顔表情解析モードに設定されているとき、画像特徴量計算部40は、解析領域全体のBag−of−Keypointsを、画像特徴量として顔表情評価部70に供給する。
顔表情解析装置1が学習モードに設定されているとき、回帰分析部50は、画像特徴量計算部40が供給する、顔画像データに対する画像特徴量を取り込み、また、顔表情強度教師値取得部20が供給する、当該顔画像データに対する顔表情強度教師値を取り込む。
回帰分析部50は、顔画像データに対する画像特徴量とその顔画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、回帰モデルが有するパラメータ値を顔表情種別ごとに更新する。回帰モデルは、顔領域の画像特徴量から顔表情の度合を示す顔表情強度値を計算するための計算手段である。この回帰モデルは、可変のパラメータを有し、パラメータ値を更新可能とする数式モデルである。回帰分析部50は、例えば、顔表情種別が“怒り”である回帰分析において、顔表情種別が“怒り”である顔画像データについては顔表情強度教師値そのものを用いる一方、顔表情種別が“怒り”以外である顔画像データについては顔表情強度教師値を“0(ゼロ)”として用いて、回帰処理を実行する。そして、回帰分析部50は、回帰処理によって得られるパラメータ値を、回帰モデル記憶部60に書き込む。なお、回帰分析部50は、顔表情種別ごとの回帰分析処理を実行するのではなく、顔画像データに対する画像特徴量とその顔画像データに対応付けられた全顔表情における顔表情強度教師値とを用いて回帰分析処理を実行してもよい。
回帰モデル記憶部60は、回帰分析部50が供給するパラメータ値を、顔表情種別ごとに記憶する。回帰モデル記憶部60は、例えば、磁気ハードディスク装置または半導体記憶装置により実現される。
顔表情解析装置1が顔表情解析モードに設定されているとき、顔表情評価部70は、画像特徴量計算部40が供給する、評価顔画像データに対する画像特徴量を取り込む。また、顔表情評価部70は、顔表情種別ごとに、回帰モデル記憶部60から回帰モデルのパラメータ値を読み込む。そして、顔表情評価部70は、各回帰モデルに画像特徴量を適用して顔表情種別ごとに顔表情強度値を計算し、最大の顔表情強度値に対応する顔表情種別を選出する。そして、顔表情評価部70は、最大の顔表情強度値と、選出された顔表情種別を示す顔表情種別情報とを出力する。
図2は、顔表情解析装置1が学習モードに設定されて学習処理を実行する際に用いる、顔画像データベースのデータ構造の一部分を概念的に示す図である。同図に示すように、顔画像データベースは、顔表情種別ごとに、各人物(被写体)のニュートラル顔表情からピーク顔表情まで顔表情の度合がそれぞれ異なる顔画像データ列の集合に、当該顔表情の種類を示すラベルを対応付けて構成した顔画像データ群を格納している。顔表情種別は、例えば、怒り、嫌悪、恐れ、幸せ、悲しみ、および驚きの6種類である。ニュートラル顔表情は、人物の中立的な顔表情であり、例えば、人物の無表情な顔つきから表情の種類を判別困難な程度の顔つきまでを示す表情である。つまり、ニュートラル顔表情には、顔表情の幅がある。ピーク顔表情は、人物の感情を豊かに表現した顔表情であり、例えば、怒り、嫌悪、恐れ、幸せ、悲しみ、驚き等の感情を強く表現した顔つきを示す。
顔画像データベースとして、例えば、Patrick Lucey, Jeffrey F. Cohn, Takeo Kanade, Jason Saragih, Zara Ambadar, "The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression", the Third IEEE Workshop on CVPR for Human Communicative Behavior Analysis, pp. 94-101, 2010に記載された、Cohn-Kanade Facial Expression Databaseを適用できる。
図3は、顔表情解析装置1が学習モードに設定されて学習処理を実行する際に用いる顔表情強度教師値を、顔画像データに対応付けて示す図である。同図に示すように、顔表情強度教師値は、顔画像データ群における顔表情種別ごとの各被写体の顔画像データ列それぞれについて、各顔画像データの顔表情の度合を、評価者による主観評価にしたがって下限値“0(ゼロ)”から上限値“100”までの整数で表されている。このように、ニュートラル顔表情からピーク顔表情に顔表情が変化する顔画像列に対し、顔表情強度教師値の下限値および上限値を設けることを必須の条件としてもよいし、必須の条件としなくてもよい。
図3において、顔表情種別が“幸せ”である第1の被写体の顔画像データ列について、ニュートラル顔表情に対応する顔表情強度教師値が“0(ゼロ)”、顔表情の度合が大きくなるにしたがって、顔表情強度教師値が例えば“8”、“46”、“83”等と大きくなり、ピーク顔表情に対応する顔表情強度教師値が“100”となっている。また、顔表情種別が“幸せ”である第2の被写体の顔画像データ列について、ニュートラル顔表情に対応する顔表情強度教師値が“0(ゼロ)”、顔表情の度合が大きくなるにしたがって、顔表情強度教師値が例えば“6”、“52”、“79”等と大きくなり、ピーク顔表情に対応する顔表情強度教師値が“100”となっている。また、顔表情種別が“驚き”である顔画像データ列について、ニュートラル顔表情に対応する顔表情強度教師値が“0(ゼロ)”、顔表情の度合が大きくなるにしたがって、顔表情強度教師値が例えば“7”、“43”、“88”等と大きくなり、ピーク顔表情に対応する顔表情強度教師値が“100”となっている。
図4は、画像データと、この画像データから抽出された顔領域データと、この顔領域データを正規化して得られた正規化顔領域データとを模式的に示す図である。つまり、同図は、画像データ取得部10が取得する画像データ2と、顔領域検出部31が検出する顔領域データ2aと、解析領域決定部32が正規化(ここでは、縮小)する正規化顔領域データ2bとを時系列に示している。同図に示すように、画像データ2は、人物の首より上側を含む画像である。顔領域データ2aは、画像データ2から抽出された顔を含む画像である。顔を含む画像とは、例えば、人物の顔表情を決定付ける顔の主要なパーツ(両眉毛、両目、鼻、口)を含む画像である。正規化顔領域データ2bは、顔領域データ2aを水平画素数L×垂直画素数Lサイズに正規化した画像である。水平画素数Lと垂直画素数Lとの長さの関係は、例えば、水平画素数L=垂直画素数Lである。
図5は、解析領域決定部32が正規化顔領域データ2bから決定した解析領域を、視覚的に分かり易く線描画した図である。同図に示すように、解析領域決定部32は、水平画素数L×垂直画素数Lの正規化顔領域データ2bの中心位置を中心として、正規化顔領域データ2bに含まれる円形の解析領域3を決定する。解析領域3の水平方向の径は、例えば水平画素数Lの0.8倍の長さであり、垂直方向の径は、例えば垂直画素数Lの0.8倍の長さである。このように、解析領域3の径を正規化顔領域データ2bの内接円の径よりも小さくすることにより、顔の認識や顔表情認識にとって重要度が低い髪の毛、耳、イヤリング等の情報を除外することができる。解析領域決定部32は、解析領域3の水平方向であって且つその中心を通る直線で、解析領域3を上部解析領域3Uと下部解析領域3Dとに区分する。このように区分することにより、上部解析領域3Uは両眉毛および両目を含み、下部解析領域3Dは鼻頭および口を含むこととなる。
図6は、画像特徴量計算部40によって生成された、上部解析領域における特徴量のヒストグラムと、下部解析領域における特徴量のヒストグラムと、これら二つのヒストグラムが連結された、解析領域全体における特徴量のヒストグラムとを模式的に示した図である。同図は、上部解析領域における特徴量のヒストグラムの後に、下部解析領域における特徴量のヒストグラムを連結した例である。このように、画像特徴量計算部40が、分割された各領域でヒストグラムを生成して連結することにより、Bag−of−Keypointsに位置情報を加えることができる。
なお、画像特徴量計算部40は、下部解析領域における特徴量のヒストグラムの後に、上部解析領域における特徴量のヒストグラムを連結することによって、解析領域全体における特徴量のヒストグラムを生成してもよい。
図7は、回帰分析部50が実行する回帰分析処理における一つの回帰モデルを模式的に示した図である。同図において、横軸は回帰式における独立変数を表し、本実施形態では顔画像データの顔領域の画像特徴量である。縦軸は回帰式における従属変数を表し、本実施形態では顔表情強度教師値である。同図における複数の四角形印は、画像特徴量とこの画像特徴量に対する顔表情強度教師値との対応関係の分布を示している。また、同図において曲線で表されている実線は、回帰分析部50が実行する回帰分析処理の結果得られる回帰式を示すグラフである。
回帰モデルとして例えば線形回帰モデルを適用した場合、回帰分析部50は、線形回帰分析処理として、画像特徴量および顔表情強度教師値の関係を、下記の式(1)に示す積和関数にモデル化する。ただし、Yは顔表情強度教師値であり、Xは画像特徴量(i=1,・・・,I)である。また、α、βはパラメータである。
Figure 0006101470
回帰分析部50は、画像特徴量とこの画像特徴量に対する顔表情強度教師値との対応関係を例えば最小二乗法によって回帰させることにより、式(1)に示す積和関数を推計する。具体的に、式(1)が画像特徴量とこの画像特徴量に対する顔表情強度教師値との対データに対して最適な近似式となるように、回帰分析部50は、近似誤差の二乗和が最小となるパラメータα、βを、例えば最急降下法によって求める。回帰分析部50は、回帰分析処理において、相関が強い(例えば、相関係数が0.5以上である)独立変数の一方を削除することによって多重共線を排除または抑制してもよい。また、全ての顔表情種別に共通して“0(ゼロ)”である独立変数(画像特徴量)について、回帰分析部50は、その独立変数を削除する処理を行ってもよい。
次に、顔表情解析装置1の動作について、学習処理と顔表情解析処理とに分けて説明する。
まず、学習モードに設定された顔表情解析装置1は、学習処理において用いる全ての顔画像データを顔画像データベースから取り込んで、以下の事前処理を実行する。すなわち、顔表情解析装置1では、画像データ取得部10が顔画像データベースから顔画像データを取り込み、顔領域抽出部30がその取り込んだ顔画像データのサイズを正規化して解析領域(上部解析領域および下部解析領域)を抽出する。次に、画像特徴量計算部40が、上部解析領域からSIFT特徴量またはSURF等の局所特徴量を計算する。画像特徴量計算部40は、全ての顔画像データについての局所特徴量についてクラスタリング処理を実行することによってクラスタを生成する。また、画像特徴量計算部40は、下部解析領域についても上部解析領域と同様にクラスタを生成する。次に、画像特徴量計算部40は、上部解析領域および下部解析領域それぞれについてのクラスタを記憶する。
次に、顔表情解析装置1の学習処理について説明する。
図8は、顔表情解析装置1が実行する学習処理の手順を示すフローチャートである。
ステップS1において、画像データ取得部10は、例えば、顔画像データベースに格納された複数の顔画像データから一つの顔画像データを取り込み、この顔画像データを顔領域抽出部30に供給する。
次に、ステップS2において、顔表情強度教師値取得部20は、ステップS1の処理において取り込まれた顔画像データに対応する顔表情強度教師値を、外部装置(例えば、顔画像データベース)から取り込み、この顔表情強度教師値を回帰分析部50に供給する。
次に、ステップS3において、顔領域抽出部30は、画像データ取得部10が供給する顔画像データを取り込み、この顔画像データから顔の解析領域を抽出する。具体的に、顔領域検出部31は、取り込んだ顔画像データに対して顔検出処理を実行し、その顔画像データから人物の顔領域を検出する。
次に、解析領域決定部32は、顔領域検出部31が検出した顔領域データを所定画素サイズ(例えば、水平方向128画素×垂直方向128画素)に正規化する。次に、解析領域決定部32は、正規化顔領域データから解析領域を抽出し、この解析領域から二つの解析部分領域(上部解析領域および下部解析領域)を決定する。
次に、ステップS4において、画像特徴量計算部40は、顔領域抽出部30が抽出した解析領域データの画像特徴量を計算する。具体的に、画像特徴量計算部40は、上部解析領域からSIFT特徴量またはSURF等の局所特徴量を計算する。次に、画像特徴量計算部40は、これら局所特徴量を、事前処理において記憶した上部解析領域に対するクラスタに分類し、各クラスタをビン、各クラスタの要素数を頻度とするヒストグラムを生成する。また、画像特徴量計算部40は、下部解析領域からSIFT特徴量またはSURF等の局所特徴量を計算する。次に、画像特徴量計算部40は、これら局所特徴量を、事前処理において記憶した下部解析領域に対するクラスタに分類し、各クラスタをビン、各クラスタの要素数を頻度とするヒストグラムを生成する。
次に、画像特徴量計算部40は、上部解析領域および下部解析領域それぞれについてのBag−of−Keypointsを連結して解析領域全体のBag−of−Keypointsを生成する。
次に、画像特徴量計算部40は、解析領域全体のBag−of−Keypointsを、画像特徴量として回帰分析部50に供給する。
次に、ステップS5において、顔画像データベースから取り込むべき全ての顔画像データの取り込みが完了した場合(S5:YES)、顔表情解析装置1はステップS6の処理に移す。一方、顔画像データベースから取り込むべき全ての顔画像データの取り込みが完了していない場合(S5:NO)は、顔表情解析装置1はステップS1の処理に戻す。
ステップS6において、回帰分析部50は、顔画像データに対応する画像特徴量および顔表情強度教師値の対データを用いて、顔表情種別ごとに回帰分析処理を実行することにより、回帰モデルが有するパラメータ値を更新する。次に、回帰分析部50は、回帰処理を行って得られるパラメータ値を、回帰モデル記憶部60に供給する。
次に、ステップS7において、回帰モデル記憶部60は、回帰分析部50が供給するパラメータ値を、顔表情種別ごとに記憶する。
図9は、顔表情解析装置1が実行する顔表情解析処理の手順を示すフローチャートである。
ステップS21において、画像データ取得部10は、例えば、撮影装置または記録装置が供給する、顔表情解析のための評価顔画像データを取り込み、この顔画像データを顔領域抽出部30に供給する。
次に、ステップS22において、顔領域抽出部30は、画像データ取得部10が供給する評価顔画像データを取り込み、この評価顔画像データから顔の解析領域を抽出する。具体的に、顔領域検出部31は、取り込んだ評価顔画像データに対して顔検出処理を実行し、その評価顔画像データから人物の顔領域を検出する。
次に、解析領域決定部32は、顔領域検出部31が検出した顔領域データを所定画素サイズ(例えば、水平方向128画素×垂直方向128画素)に正規化する。次に、解析領域決定部32は、正規化顔領域データから解析領域を抽出し、この解析領域から二つの解析部分領域(上部解析領域および下部解析領域)を決定する。
次に、ステップS23において、画像特徴量計算部40は、顔領域抽出部30が抽出した解析領域データの画像特徴量を計算する。例えば、画像特徴量計算部40は、解析領域決定部32が決定した解析領域における上部解析領域および下部解析領域それぞれのデータについて、学習処理におけるステップS4の処理と同様にBag−of−Keypointsを計算する。
次に、画像特徴量計算部40は、上部解析領域および下部解析領域それぞれについてのBag−of−Keypointsを連結して解析領域全体のBag−of−Keypointsを生成する。
次に、画像特徴量計算部40は、解析領域全体のBag−of−Keypointsを、画像特徴量として顔表情評価部70に供給する。
次に、ステップS24において、顔表情評価部70は、画像特徴量計算部40が供給する、評価顔画像データに対する画像特徴量を取り込む。次に、顔表情評価部70は、顔表情種別ごとに、回帰モデル記憶部60から回帰モデルのパラメータ値を読み込み、各回帰モデルに画像特徴量を適用して、顔表情種別ごとに顔表情強度値を計算する。
次に、ステップS25において、顔表情評価部70は、最大の顔表情強度値に対応する顔表情種別を選出する。次に、顔表情評価部70は、最大の顔表情強度値と、選出された顔表情種別を示す顔表情種別情報とを出力する。
本発明の第1実施形態である顔表情解析装置1は、顔画像データから抽出された顔の解析領域の画像特徴量と、顔画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、回帰モデルが有するパラメータ値を顔表情種別ごとに更新する。顔表情強度教師値は、顔画像データの顔表情の度合についての、評価者による主観評価に基づく数値である。そして、顔表情解析装置1は、顔表情種別ごとの回帰モデルに、評価顔画像データの顔の解析領域の画像特徴量を適用して、顔表情種別ごとに顔表情強度値を計算し、最大の顔表情強度値に対応する顔表情種別を選出する。
したがって、第1実施形態によれば、顔画像を含む評価顔画像データについて、顔表情を分類するとともに、人間の感覚に近い顔表情の強度値を得ることができる。
[第2の実施の形態]
本発明の第2実施形態では、第1実施形態における回帰分析部50が、ロジスティック回帰モデルを用いて、回帰分析処理を実行する。回帰モデルとしてロジスティック回帰モデルを適用した場合、回帰分析部50は、ロジスティック回帰分析処理として、画像特徴量および顔表情強度教師値の関係を、下記の式(2)に示す関数にモデル化する。ただし、Yは顔表情強度教師値、Xは画像特徴量(i=1,・・・,I)である。また、α、βはパラメータである。
Figure 0006101470
回帰分析部50は、画像特徴量とこの画像特徴量に対する顔表情強度教師値との対応関係を回帰させてパラメータα、βを求める。本実施形態によれば、回帰分析部50は、画像特徴量Xに対する顔表情強度教師値Yが0から100までの間(0≦Y≦100)に収まる回帰式を得ることができる。
[第3の実施の形態]
本発明の第3実施形態では、第1実施形態における回帰分析部50が、サポートベクトル回帰モデルを用いて、回帰分析処理を実行する。本実施形態では、回帰分析部50は、サポートベクトル回帰分析処理として、下記の式(3)の形で、画像特徴量X(i=1,・・・,I)と顔表情強度教師値Yとを関係付ける。
Figure 0006101470
式(3)において、φは、I次元の特徴量ベクトルをJ次元のベクトル(行ベクトル)に写像する写像関数である。本実施形態では、この関数φによるカーネルトリックを用いる。β(j=1,・・・,J)は、関数φによる写像後のベクトルの要素それぞれに対応する重み係数である。また、αはバイアス項である。回帰分析部50は、入力される多数の教師データを用いて式(3)の形の回帰を行い、パラメータα,β,・・・,βを求める。なお、パラメータの算出自体は、例えばニュートン法に基づき、既存のサポートベクトル回帰の学習法を適用することができる。
[第4の実施の形態]
前述した第1実施形態から第3実施形態いずれかである顔表情解析装置1を顔表情解析モードに設定し、動画像データを供給して顔表情解析処理を実行させた場合、顔表情解析装置1が生成する、一連のキーフレームそれぞれの顔表情種別情報に、周囲と異なる種類の顔表情種別情報が突発的に現出する場合がある。周囲と異なる種類の顔表情種別情報が突発的に現出する原因は、例えば、顔を撮影する際の照明による影やカメラに対する顔の向き等が顔表情に影響したり、顔表情強度値のばらつきが影響したりすることである。
本発明の第4実施形態である顔表情解析装置は、この突発的に現出する顔表情種別情報をノイズとみなして除去するものである。
本実施形態である顔表情解析装置の構成は第1実施形態と同様であるため、図1のブロック図を参照して説明する。
顔表情解析装置1の顔表情評価部70は、複数フレーム分の画像データを含む区間(時間、フレーム数)ごとに、顔表情強度値の平均(例えば、各画像データに基づいて得られた顔表情強度値の最大値の平均)を計算し、平均値を当該区間における代表顔表情強度値とする。
また、顔表情評価部70は、上記の区間ごとに、顔表情種別ごとに顔表情強度値の総和を計算し、総和値(重要度)が最大となる顔表情の種類(代表顔種別)を示す顔表情種別情報を生成する。例えば、顔表情評価部70は、上記の区間ごとに代表顔種別を選定する。具体的に、顔表情評価部70は、上記の区間ごとに、この区間内のフレームにおいて顔表情強度値が最大となる場合の顔表情強度値のみの総和値を顔表情種別ごとに計算する。つまり、顔表情評価部70は、下記の式(4)に示す総和値S(e)を計算する。ただし、eは顔表情種別、fはフレームを表す。また、I(e,f)は、顔表情種別eのフレームfにおける顔表情強度値を示す。
Figure 0006101470
総和値S(e)は、当該区間における顔表情種別eの重要度を表わす。顔表情評価部70は、総和値S(e)が最大となる顔表情種別eを当該区間における代表顔種別として選定し、この代表顔種別を示す顔表情種別情報を生成する。
図10は、動画像データを取り込んだ顔表情解析装置1が顔表情解析処理を実行することによって顔表情評価部70で得られる、フレームfごとの顔表情種別eに対する顔表情強度値I(e,f)の一例を示す図である。同図において、網掛けされた顔表情強度値は、各フレームにおける顔表情強度値の最大値である。具体的に、同図に示す時刻(t−2)から時刻(t+3)までの6フレームの区間において、顔表情評価部70は、フレームごとの顔表情強度値の最大値(フレーム内の網掛けの数値)の平均を計算し、平均値を当該区間における代表顔表情強度値とする。同図によれば、顔表情評価部70は、時刻(t−2)における「悲しみ」の顔表情強度値“68.3”と時刻(t−1)における「悲しみ」の顔表情強度値“70.1”と時刻tにおける「幸せ」の顔表情強度値“78.2”と時刻(t+1)における「悲しみ」の顔表情強度値“74.5”と時刻(t+2)における「悲しみ」の顔表情強度値“72.2”と時刻(t+3)における「悲しみ」の顔表情強度値“74.5”との平均値“73.0”を得る。顔表情評価部70は、この平均値“73.0”を代表顔表情強度値とする。
また、顔表情評価部70は、図10に示す区間において、6フレームそれぞれに対する顔表情強度値の最大値のみを顔表情種別ごとに足し合わせることによって当該顔表情種別ごとの顔表情強度値の総和を計算する。つまり、顔表情評価部70は、顔表情種別が「幸せ」に関する総和値“78.2”と、顔表情種別が「悲しみ」に関する総和値“359.6”とを得る。また、顔表情評価部70は、顔表情種別が「怒り」、「嫌悪」、「恐れ」、および「驚き」に関する総和値“0”を得る。そして、顔表情評価部70は、総和値が最大となる顔表情種別として顔表情種別「悲しみ」を当該区間における代表顔種別として選定し、この代表顔種別を示す顔表情種別情報を生成する。
図11は、顔表情解析装置1の出力結果を模式的に示した図である。同図における上段のグラフは、第1実施形態である顔表情解析装置1に動画像データを供給した場合に、顔表情解析装置1が出力する顔表情強度値を時系列に示したグラフである。このグラフは、横軸を時間軸とし、縦軸を顔表情強度値としている。このグラフが示すように、第1実施形態である顔表情解析装置1が出力する顔表情強度値は、時間経過に対してばらつきがある。
また、このグラフの直下に示す△、○、および□記号(顔表情記号と呼ぶ)は、顔表情解析装置1が出力する顔表情種別情報を示す記号であり、グラフの時間軸に対応付けて図示されている。ここでは、△は幸せ、○は驚き、□は怒りを示す記号である。このグラフ直下の一連の顔表情記号によれば、幸せを示す顔表情の中に、突発的に驚きや怒りの顔表情が現出している。
また、図11における下段のグラフは、本実施形態である顔表情解析装置1に動画像データを供給した場合に、顔表情解析装置1が出力する顔表情強度値を時系列に示したグラフである。このグラフも、横軸を時間軸とし、縦軸を顔表情強度値としている。このグラフが示すように、本実施形態である顔表情解析装置1は、複数フレーム(例えば10フレーム)ごと(T,T,T,・・・)ではあるが、ばらつきを抑えた顔表情強度値を出力することができ、複数の区間を含む時間における顔表情強度値の信頼度を向上させることができる。
また、このグラフ直下の顔表情記号によれば、突発的な顔表情が現出することなく、安定した顔表情分類の結果が示されている。つまり、本実施形態である顔表情解析装置1は、顔表情強度値の重要度が最大となるように顔表情の分類を行うことによって顔表情のノイズを除去し、顔表情分類の精度を高めることができる。
[第4の実施の形態の変形例]
上述した第4実施形態では、顔表情上解析装置1は、区間ごと(例えば、6フレームごとや10フレームごと)に顔表情強度値および顔表情種別情報を得るものであった。
本発明の第4実施形態の変形例である顔表情解析装置は、上記の区間を時間方向にずらしながら顔表情強度値および顔表情種別情報を得るものである。つまり、顔表情評価部70は、一区間に含まれる複数フレームよりも少ないフレーム数おきに、当該区間をそのフレーム数分ずらし、顔表情強度値の平均(区間における各画像データに基づいて得られた顔表情強度値の最大値の平均)を計算し、平均値を当該区間における代表顔表情強度値とする。
また、顔表情評価部70は、上記の区間ごとに、顔表情の種類別に顔表情強度値の総和を計算し、総和値が最大となる顔表情の種類(代表顔種別)を示す顔表情種別情報を生成する。例えば、顔表情評価部70は、上記の区間ごとに、この区間内のフレームにおいて顔表情強度値が最大となる場合の顔表情強度値のみの総和値を顔表情種別ごとに計算する。そして、顔表情評価部70は、総和値が最大となる顔表情種別を当該区間における代表顔種別として選定し、この代表種別を示す顔表情種別情報を生成する。
図12は、顔表情解析装置1の出力結果を模式的に示した図である。同図における各グラフは、本変形例である顔表情解析装置1に動画像データを供給した場合に、顔表情解析装置1が出力する顔表情強度値を時系列に示したグラフである。各グラフは、横軸を時間軸とし、縦軸を顔表情強度値としている。時刻t、時刻t、および時刻tは、連続するフレームに対する時刻である。また、時間(t+t)は、一区間である。
また、各グラフの直下にある△記号(顔表情記号)は、顔表情解析装置1が出力する顔表情種別情報を示す記号(例えば、幸せを示す)であり、グラフの時間軸に対応付けて図示されている。これらグラフ直下の顔表情記号によれば、連続する時刻t、時刻t、および時刻tそれぞれにおいて、安定した顔表情分類の結果が示されている。
図12における上段のグラフおよび顔表情記号は、時刻(t−t)から時刻(t+t)までの区間を対象として、顔表情評価部70が代表顔表情強度値を計算し、また、代表顔種別を示す顔表情種別情報を生成することを示している。
また、同図における中段のグラフおよび顔表情記号は、時刻(t−t)から時刻(t+t)までの区間を対象として、顔表情評価部70が代表顔表情強度値を計算し、また、代表顔種別を示す顔表情種別情報を生成することを示している。
また、同図における下段のグラフおよび顔表情記号は、時刻(t−t)から時刻(t+t)までの区間を対象として、顔表情評価部70が代表顔表情強度値を計算し、また、代表顔種別を示す顔表情種別情報を生成することを示している。
つまり、図12によれば、顔表情解析装置1は、ばらつきを抑えて信頼度を向上させた顔表情強度値および安定した顔表情種別情報を、フレームごとに出力することができる。
[その他の実施の形態]
上述した本発明の第1実施形態から第4実施形態ならびに変形例において、画像特徴量計算部40は、画像特徴量としてBag−of−Keypointsを求める他に、例えば、ローカルバイナリパターン(Local Binary Patterns;LBP)、または拡張ローカルバイナリパターン(拡張LBP)を用いてもよい。
ローカルバイナリパターンは、画像特徴量計算部40が、解析領域において走査し選択する注目画素と、この注目画素の周辺画素(例えば、8個の隣接画素)とをそれぞれ比較し大小関係を二値化することによって得られるバイナリパターンを特徴量とするものである。画像特徴量計算部40は、解析領域に含まれる各画素を注目画素として順次走査してもよいし、所定数の画素間隔で離散的に走査してもよい。
なお、ローカルバイナリパターンについては、例えば、Timo Ojala, Matti Pietikainen, Senior Member, IEEE and Topi Maenpaa, "Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 7, July 2002に、詳細が開示されている。
具体的に、顔領域抽出部30の解析領域決定部32は、正規化顔領域データを格子状に分割(例えば、水平方向および垂直方向それぞれに8分割)する。つまり、解析領域決定部32は、正規化顔領域データの各分割ブロックデータを解析領域データとする。画像特徴量計算部40は、各分割ブロックデータについて、例えば画素ごとにLBPを計算する。そして、画像特徴量計算部40は、全てのLBPのパターンをビン、各パターンの出力回数を頻度とするヒストグラムを生成する。そして、画像特徴量計算部40は、各分割ブロックのヒストグラムを連結した連結ヒストグラムを顔画像特徴量とする。
また、拡張ローカルバイナリパターンは、上記のローカルバイナリパターンを時系列方向に拡張して得られるバイナリパターンを特徴量とするものである。つまり、拡張ローカルバイナリパターンは、顔表情解析装置1が評価顔画像データとして動画像データを取り込む場合に有用な特徴量である。画像特徴量計算部40は、動画像データにおける現キーフレームの特徴量をローカルバイナリパターンとして求める際に、現キーフレームと現キーフレームよりも過去のキーフレームとの画素の比較結果もバイナリパターンに含める。
なお、拡張LBPについては、例えば、Guoying Zhao, Matti Pietikainen, "Dynamic Texture Recognition Using Local Binary Patterns with an Application to Facial Expressions", IEEE Transactions on Patterns Analysis and Machine Intelligence, vol. 29, no. 6, June 2007に、詳細が開示されている。
また、回帰分析部50に線形回帰モデルまたはサポートベクトル回帰モデルのいずれかを適用してパラメータ値を求めた場合、顔表情評価部70から出力される顔表情強度値が、下限値(例えば“0(ゼロ)”)から上限値(例えば“100”)までの範囲内に収まらない場合がある。
そこで、回帰分析部50に線形回帰モデルまたはサポートベクトル回帰モデルのいずれかを適用する場合、顔表情評価部70は、求めた顔表情強度値が“0(ゼロ)”未満であるときは“0(ゼロ)”、“100”を超えるときは“100”として、顔表情強度値を出力してもよい。
または、回帰分析部50に線形回帰モデルまたはサポートベクトル回帰モデルのいずれかを適用した顔表情解析装置1に、各評価顔画像データについて顔認識処理を実行して人物を識別する顔認識処理部をさらに備えてもよい。この場合、顔表示解析装置1が顔表情解析モードに設定された場合、所定期間において顔認識処理部が認識した人物ごとに、顔表情評価部70に、顔表情強度値の最大値intmaxと最小値intminとを用いて、下記の式(5)によって顔表情強度値intを0から100までの範囲内の値int’に正規化してもよい。
Figure 0006101470
上述した本発明の第1実施形態から第4実施形態ならびに変形例では、回帰分析部50が実行する回帰分析処理として、線形回帰分析処理、ロジスティック回帰分析処理、およびサポートベクトル回帰分析処理を示した。回帰分析部50が実行する回帰分析処理は、これらの例に限定されることなく、他の回帰分析処理も適用できる。例えば、回帰分析部50は、ニューラルネットワークによる学習処理を回帰分析処理に適用してもよい。
また、上述した各実施形態および変形例である顔表情解析装置1の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための顔表情解析プログラムをコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された顔表情解析プログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム(Operating System;OS)や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記の顔表情解析プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
1 顔表情解析装置
10 画像データ取得部
20 顔表情強度教師値取得部
30 顔領域抽出部
31 顔領域検出部
32 解析領域決定部
40 画像特徴量計算部
50 回帰分析部
60 回帰モデル記憶部
70 顔表情評価部

Claims (4)

  1. 画像データを取り込む画像データ取得部と、
    前記画像データ取得部が取り込んだ前記画像データから顔の解析領域を抽出する顔領域抽出部と、
    前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、
    前記画像特徴量計算部が計算した前記画像特徴量と前記画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、数式モデルが有するパラメータ値を前記顔表情種別ごとに更新する回帰分析部と、
    前記回帰分析部が更新した前記パラメータ値を適用した前記数式モデルに、前記画像特徴量計算部が計算した画像特徴量を適用して、前記顔表情種別ごとに顔表情強度値を計算し、最大の顔表情強度値に対応する顔表情種別を選出する顔表情評価部と、
    を備え、
    前記顔表情評価部は、複数フレーム分の画像データを含む所定区間ごとに、前記区間内のフレームにおいて顔表情強度値が最大となる場合の顔表情強度値のみの総和値を顔表情種別ごとに計算し、最大の前記総和値に対応する顔表情種別を選出する、
    ことを特徴とす顔表情解析装置。
  2. 前記顔表情評価部は、前記複数フレームよりも少ないフレーム数おきに、前記所定区間を前記フレーム数分ずらす
    ことを特徴とする請求項記載の顔表情解析装置。
  3. 前記回帰分析処理は、線形回帰分析処理、ロジスティック回帰分析処理、またはサポートベクトル回帰分析処理のいずれかである
    ことを特徴とする請求項1または2記載の顔表情解析装置。
  4. コンピュータを、
    画像データを取り込む画像データ取得部と、
    前記画像データ取得部が取り込んだ前記画像データから顔の解析領域を抽出する顔領域抽出部と、
    前記顔領域抽出部が抽出した前記解析領域の画像特徴量を計算する画像特徴量計算部と、
    前記画像特徴量計算部が計算した前記画像特徴量と前記画像データに対応付けられた顔表情種別ごとの顔表情強度教師値とを用いて回帰分析処理を実行することにより、数式モデルが有するパラメータ値を前記顔表情種別ごとに更新する回帰分析部と、
    前記回帰分析部が更新した前記パラメータ値を適用した前記数式モデルに、前記画像特徴量計算部が計算した画像特徴量を適用して、前記顔表情種別ごとに顔表情強度値を計算し、最大の顔表情強度値に対応する顔表情種別を選出する顔表情評価部と、
    として機能させるための顔表情解析プログラムであって、
    前記顔表情評価部は、複数フレーム分の画像データを含む所定区間ごとに、前記区間内のフレームにおいて顔表情強度値が最大となる場合の顔表情強度値のみの総和値を顔表情種別ごとに計算し、最大の前記総和値に対応する顔表情種別を選出する、
    顔表情解析プログラム。
JP2012237877A 2012-07-23 2012-10-29 顔表情解析装置および顔表情解析プログラム Active JP6101470B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012237877A JP6101470B2 (ja) 2012-07-23 2012-10-29 顔表情解析装置および顔表情解析プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012162748 2012-07-23
JP2012162748 2012-07-23
JP2012237877A JP6101470B2 (ja) 2012-07-23 2012-10-29 顔表情解析装置および顔表情解析プログラム

Publications (2)

Publication Number Publication Date
JP2014041587A JP2014041587A (ja) 2014-03-06
JP6101470B2 true JP6101470B2 (ja) 2017-03-22

Family

ID=50393766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012237877A Active JP6101470B2 (ja) 2012-07-23 2012-10-29 顔表情解析装置および顔表情解析プログラム

Country Status (1)

Country Link
JP (1) JP6101470B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6318765B2 (ja) * 2014-03-27 2018-05-09 富士通株式会社 情報処理装置、評価器の構築方法、及びプログラム
CN105095911B (zh) 2015-07-31 2019-02-12 小米科技有限责任公司 敏感图片识别方法、装置以及服务器
JP6633476B2 (ja) * 2016-08-26 2020-01-22 日本電信電話株式会社 属性推定装置、属性推定方法および属性推定プログラム
KR20180057096A (ko) * 2016-11-21 2018-05-30 삼성전자주식회사 표정 인식과 트레이닝을 수행하는 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007065969A (ja) * 2005-08-31 2007-03-15 Osaka Prefecture Univ 表情から心理状態を推定する方法
JP2012048360A (ja) * 2010-08-25 2012-03-08 Sony Corp Id価値評価装置、id価値評価システム、及びid価値評価方法

Also Published As

Publication number Publication date
JP2014041587A (ja) 2014-03-06

Similar Documents

Publication Publication Date Title
Vu et al. Masked face recognition with convolutional neural networks and local binary patterns
Makhmudkhujaev et al. Facial expression recognition with local prominent directional pattern
Jang et al. Registration-free Face-SSD: Single shot analysis of smiles, facial attributes, and affect in the wild
Mäkinen et al. An experimental comparison of gender classification methods
Ouellet Real-time emotion recognition for gaming using deep convolutional network features
Wang et al. Learning and matching of dynamic shape manifolds for human action recognition
Agrawal et al. Facial expression detection techniques: based on Viola and Jones algorithm and principal component analysis
Vukadinovic et al. Fully automatic facial feature point detection using Gabor feature based boosted classifiers
Nicolle et al. Facial action unit intensity prediction via hard multi-task metric learning for kernel regression
Danelakis et al. A survey on facial expression recognition in 3D video sequences
Savran et al. Non-rigid registration based model-free 3D facial expression recognition
JP5879188B2 (ja) 顔表情解析装置および顔表情解析プログラム
Do et al. Real-time and robust multiple-view gender classification using gait features in video surveillance
Zhao et al. Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection
JP6101470B2 (ja) 顔表情解析装置および顔表情解析プログラム
Wu et al. Privacy leakage of sift features via deep generative model based image reconstruction
Dey et al. Computer vision based gender detection from facial image
JP6166981B2 (ja) 表情解析装置及び表情解析プログラム
US8655084B2 (en) Hand-based gender classification
Allaert et al. Advanced local motion patterns for macro and micro facial expression recognition
Szankin et al. Influence of thermal imagery resolution on accuracy of deep learning based face recognition
JP2014119879A (ja) 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム
Weerasekera et al. Robust asl fingerspelling recognition using local binary patterns and geometric features
Khellat-Kihel et al. Gender and ethnicity recognition based on visual attention-driven deep architectures
Ayre-Storie et al. Deep learning-based human posture recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170227

R150 Certificate of patent or registration of utility model

Ref document number: 6101470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250