JP2021111114A

JP2021111114A - 学習データ生成プログラム、学習データ生成方法及び推定装置

Info

Publication number: JP2021111114A
Application number: JP2020002467A
Authority: JP
Inventors: 昭嘉内田; Akiyoshi Uchida; 淳哉斎藤; Junya Saito; 章人吉井; Akihito Yoshii
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2021-08-02
Anticipated expiration: 2040-01-09
Also published as: US20210216821A1; JP7452016B2

Abstract

【課題】ＡＵ推定のための教師データを生成すること。【解決手段】生成装置は、顔を含む撮像画像を取得する。生成装置は、撮像画像に含まれるマーカの位置を特定する。生成装置は、ＡＵの判定基準と特定されたマーカの位置とに基づいて、複数のＡＵのうち第１のＡＵを選択する。生成装置は、撮像画像からマーカを削除する画像処理を実行することによって、画像を生成する。生成装置は、生成された画像に第１のＡＵに関する情報を付与することによって機械学習用の学習データを生成する。【選択図】図４

Description

本発明は、学習データ生成技術、推定技術に関する。

ノンバーバルコミュニケーションにおいて、表情は重要な役割を果たしている。人を理解し、センシングするためには、表情推定技術は必須である。表情推定のためのツールとしてＡＵ（Action Unit：アクションユニット）と呼ばれる手法が知られている。ＡＵは、表情を顔の部位と表情筋に基づいて分解して定量化する手法である。

ＡＵ推定エンジンは、大量の教師データに基づく機械学習がベースにあり、教師データとして、顔表情の画像データと、各ＡＵのOccurrence（発生の有無）やIntensity（発生強度）が用いられる。また、教師データのOccurrenceやIntensityは、Coder（コーダ）と呼ばれる専門家によりAnnotation（アノテーション）される。

特開２０１１−２３７９７０号公報

X. Zhang, L. Yin, J. Cohn, S. Canavan, M. Reale, A. Horowitz, P. Liu, and J. M. Girard. BP4D-spontaneous: A high-resolution spontaneous 3d dynamic facial expression database. Image and Vision Computing, 32, 2014. 1

しかしながら、従来の手法には、ＡＵ推定のための教師データを生成することが困難な場合があるという問題がある。例えば、コーダによるアノテーションでは、費用及び時間のコストがかかるため、データを大量に作成することが困難である。また、顔画像の画像処理による顔の各部位の移動計測では、小さな変化を正確に捉えるのが困難であり、コンピュータが人の判断を介さずに顔画像からＡＵの判定を行うことは難しい。したがって、コンピュータが人の判断を介さずに顔画像にＡＵのラベルを付した教師データを生成することは困難である。

１つの側面では、ＡＵ推定のための教師データを生成することを目的とする。

１つの態様において、学習データ生成プログラムは、顔を含む撮像画像を取得する処理をコンピュータに実行させる。学習データ生成プログラムは、撮像画像に含まれるマーカの位置を特定する処理をコンピュータに実行させる。学習データ生成プログラムは、アクションユニットの判定基準と特定されたマーカの位置とに基づいて、複数のアクションユニットのうち第１のアクションユニットを選択する処理をコンピュータに実行させる。学習データ生成プログラムは、撮像画像からマーカを削除する画像処理を実行することによって、画像を生成する処理をコンピュータに実行させる。学習データ生成プログラムは、生成された画像に第１のアクションユニットに関する情報を付与することによって機械学習用の学習データを生成する処理をコンピュータに実行させる。

１つの側面では、ＡＵ推定のための教師データを生成することができる。

図１は、学習システムの構成を説明する図である。図２は、カメラの配置例を示す図である。図３は、生成装置の構成例を示すブロック図である。図４は、マーカの移動について説明する図である。図５は、発生強度の判定方法を説明する図である。図６は、発生強度の判定方法の例を示す図である。図７は、マスク画像の作成方法を説明する図である。図８は、マーカの削除方法を説明する図である。図９は、推定装置の構成例を示すブロック図である。図１０は、生成装置の処理の流れを示すフローチャートである。図１１は、発生強度判定処理の流れを示すフローチャートである。図１２は、学習データ生成処理の流れを示すフローチャートである。図１３は、ハードウェア構成例を説明する図である。

以下に、本発明に係る学習データ生成プログラム、学習データ生成方法及び推定装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

図１を用いて、実施例に係る学習システムの構成を説明する。図１は、学習システムの構成を説明するための図である。図１に示すように、学習システム１は、ＲＧＢ（Red、Green、Blue）カメラ３１、ＩＲ（infrared：赤外線）カメラ３２、生成装置１０及び学習装置２０を有する。

図１に示すように、まず、ＲＧＢカメラ３１及びＩＲカメラ３２は、マーカが付された人物の顔に向けられる。例えば、ＲＧＢカメラ３１は一般的なデジタルカメラであり、可視光を受光し画像を生成する。また、例えば、ＩＲカメラ３２は、赤外線を感知する。また、マーカは、例えばＩＲ反射（再帰性反射）マーカである。ＩＲカメラ３２は、マーカによるＩＲ反射を利用してモーションキャプチャを行うことができる。また、以降の説明では、撮像対象の人物を被験者と呼ぶ。

生成装置１０は、ＲＧＢカメラ３１によって撮像された画像及びＩＲカメラ３２によるモーションキャプチャの結果を取得する。そして、生成装置１０は、ＡＵの発生強度１２１及び撮像画像から画像処理によりマーカを削除した画像１２２を学習装置２０に対し出力する。例えば、発生強度１２１は、各ＡＵの発生強度をＡからＥの５段階評価で表現し、「ＡＵ１：２、ＡＵ２：５、ＡＵ４：１、…」のようにアノテーションが行われたデータであってもよい。発生強度は、５段階評価で表現されるものに限られるものではなく、例えば２段階評価（発生の有無）によって表現されても良い。

学習装置２０は、生成装置１０から出力された画像１２２及びＡＵの発生強度１２１を用いて機械学習を行い、画像からＡＵの発生強度を推定するためのモデルを生成する。学習装置２０は、ＡＵの発生強度をラベルとして用いることができる。

ここで、図２を用いて、カメラの配置について説明する。図２は、カメラの配置例を示す図である。図２に示すように、複数のＩＲカメラ３２がマーカトラッキングシステムを構成していてもよい。その場合、マーカトラッキングシステムは、ステレオ撮影によりＩＲ反射マーカの位置を検出することができる。また、複数のＩＲカメラ３２のそれぞれの間の相対位置関係は、カメラキャリブレーションによりあらかじめ補正されているものとする。

また、撮像される被験者の顔には、対象とするＡＵ（例：ＡＵ１からＡＵ２８）をカバーするように、複数のマーカが付される。マーカの位置は、被験者の表情の変化に応じて変化する。例えば、マーカ４０１は、眉の根元付近に配置される。また、マーカ４０２及びマーカ４０３は、豊麗線の付近に配置される。マーカは、１つ以上のＡＵ及び表情筋の動きに対応した皮膚の上に配置されてもよい。また、マーカは、しわの寄り等により、テクスチャ変化が大きくなる皮膚の上を避けて配置されてもよい。

さらに、被験者は、基準点マーカが付された器具４０を装着する。被験者の表情が変化しても、器具４０に付された基準点マーカの位置は変化しないものとする。このため、生成装置１０は、基準点マーカからの相対的な位置の変化により、顔に付されたマーカの位置の変化を検出することができる。また、基準マーカの数を３つ以上にすることで、生成装置１０は、３次元空間におけるマーカの位置を特定することができる。

器具４０は、例えばヘッドバンドであり、顔の輪郭外に基準点マーカを配置する。また、器具４０は、ＶＲヘッドセット及び固い素材のマスク等であってもよい。その場合、生成装置１０は、器具４０のリジッド表面を基準点マーカとして利用することができる。

図３を用いて、生成装置１０の機能構成を説明する。図３は、生成装置の構成例を示すブロック図である。図３に示すように、生成装置１０は、入力部１１、出力部１２、記憶部１３及び制御部１４を有する。

入力部１１は、データを入力するためのインタフェースである。例えば、入力部１１は、マウス及びキーボード等の入力装置を介してデータの入力を受け付ける。また、出力部１２は、データを出力するためのインタフェースである。例えば、出力部１２は、ディスプレイ等の出力装置にデータを出力する。

記憶部１３は、データや制御部１４が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部１３は、ＡＵ情報１３１を記憶する。ＡＵ情報１３１は、マーカとＡＵの対応関係を表す情報である。

制御部１４は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１４は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。制御部１４は、取得部１４１、特定部１４２、判定部１４３、画像生成部１４４及び学習データ生成部１４５を有する。

取得部１４１は、顔を含む撮像画像を取得する。例えば、取得部１４１は、複数のＡＵに対応する複数の位置に複数のマーカを付した顔を含む撮像画像を取得する。取得部１４１は、ＲＧＢカメラ３１によって撮像された画像を取得する。

ここで、ＩＲカメラ３２及びＲＧＢカメラ３１による撮影が行われる際、被験者は表情を変化させていく。これにより、生成装置１０は、時系列に沿って表情が変化していく様子を画像として取得することができる。また、ＲＧＢカメラ３１は、動画を撮像してもよい。動画は、時系列に並べられた複数の静止画とみなすことができる。また、被験者は、自由に表情を変化させてもよいし、あらかじめ定められたシナリオに沿って表情を変化させてもよい。

特定部１４２は、撮像画像に含まれるマーカの位置を特定する。特定部１４２は、撮像画像に含まれる複数のマーカのそれぞれの位置を特定する。さらに、時系列に沿って複数の画像が取得された場合、特定部１４２は、各画像についてマーカの位置を特定する。また、特定部１４２は、器具４０に付された基準マーカとの位置関係を基に、各マーカの平面上又は空間上の座標を特定することができる。なお、特定部１４２は、マーカの位置を、基準座標系から定めてもよいし、基準面の投影位置から定めてもよい。

判定部１４３は、ＡＵの判定基準と複数のマーカの位置とに基づいて、複数のＡＵのそれぞれの発生の有無を判定する。判定部１４３は、複数のＡＵのうち発生している１以上のＡＵについて、発生強度を判定する。このとき、判定部１４３は、複数のＡＵのうちマーカに対応するＡＵが、判定基準とマーカの位置とに基づいて発生していると判定された場合に、当該マーカに対応するＡＵを選択することができる。

例えば、判定部１４３は、判定基準に含まれる第１のＡＵに対応付けられた第１のマーカの基準位置と、特定部１４２によって特定された第１のマーカの位置との距離に基づいて算出した第１のマーカの移動量を基に、第１のＡＵの発生強度を判定する。なお、第１のマーカは、特定のＡＵに対応する１つ、あるいは複数マーカということができる。

ＡＵの判定基準は、例えば、複数のマーカのうち、ＡＵ毎にＡＵの発生強度を判定するために使用される１又は複数のマーカを示す。ＡＵの判定基準は、複数のマーカの基準位置を含んでもよい。ＡＵの判定基準は、複数のＡＵのそれぞれについて、発生強度の判定に使用されるマーカの移動量と発生強度との関係（換算ルール）を含んでもよい。なお、マーカの基準位置は、被験者が無表情な状態（いずれのＡＵも発生していない）の撮像画像における複数のマーカの各位置に応じて定められてもよい。

ここで、図４を用いて、マーカの移動について説明する。図４は、マーカの移動について説明する説明図である。図４の（ａ）、（ｂ）、（ｃ）は、ＲＧＢカメラ３１によって撮像された画像である。また、画像は、（ａ）、（ｂ）、（ｃ）の順で撮像されたものとする。例えば、（ａ）は、被験者が無表情であるときの画像である。生成装置１０は、（ａ）の画像のマーカの位置を、移動量が０の基準位置とみなすことができる。

図４に示すように、被験者は、眉を寄せるような表情を取っている。このとき、表情の変化に従い、マーカ４０１の位置は下方向に移動している。その際、マーカ４０１の位置と、器具４０に付された基準マーカとの間の距離は大きくなっている。

また、マーカ４０１の基準マーカからのＸ方向及びＹ方向の距離の変動値は、図５のように表される。図５は、発生強度の判定方法を説明する説明図である。図５に示すように、判定部１４３は、変動値を発生強度に換算することができる。なお、発生強度は、ＦＡＣＳ（Facial Action Coding System）に準じて５段階に量子化されたものであってもよいし、変動量に基づく連続量として定義されたものであってもよい。

判定部１４３が変動量を発生強度に換算するルールとしては、様々なものが考えられる。判定部１４３は、あらかじめ定められた１つのルールに従って換算を行ってもよいし、複数のルールで換算を行い、最も発生強度が大きいものを採用するようにしてもよい。

例えば、判定部１４３は、被験者が最大限表情を変化させたときの変動量である最大変動量をあらかじめ取得しておき、変動量の最大変動量に対する割合に基づいて発生強度を換算してもよい。また、判定部１４３は、従来手法によりコーダがタグ付けしたデータを用いて最大変動量を定めておいてもよい。また、判定部１４３は、変動量を発生強度にリニアに換算してもよい。また、判定部１４３は、複数の被験者の事前測定から作成された近似式を用いて換算を行ってもよい。

また、例えば、判定部１４３は、判定基準としてあらかじめ設定された位置と、特定部１４２によって特定された第１のマーカの位置とに基づいて算出した第１のマーカの移動ベクトルを基に発生強度を判定することができる。この場合、判定部１４３は、第１のマーカの移動ベクトルと、第１のＡＵに対してあらかじめ対応付けられたベクトルとの合致度合いを基に、第１のＡＵの発生強度を判定する。また、判定部１４３は、既存のＡＵ推定エンジンを使って、ベクトルの大きさと発生強度の対応を補正してもよい。

図６は、発生強度の判定方法の例を示す図である。例えば、ＡＵ４に対応するＡＵ４ベクトルが（−２ｍｍ，−６ｍｍ）のようにあらかじめ定められているものとする。このとき、判定部１４３は、マーカ４０１の移動ベクトルとＡＵ４ベクトルの内積を計算し、ＡＵ４ベクトルの大きさで規格化する。ここで、内積がＡＵ４ベクトルの大きさと一致すれば、判定部１４３は、ＡＵ４の発生強度を５段階中の５と判定する。一方、内積がＡＵ４ベクトルの半分であれば、例えば、前述のリニアな換算ルールの場合は、判定部１４３は、ＡＵ４の発生強度を５段階中の３と判定する。

また、例えば、図６に示すように、ＡＵ１１に対応するＡＵ１１ベクトルの大きさが３ｍｍのようにあらかじめ定められているものとする。このとき、判定部１４３は、マーカ４０２とマーカ４０３の間の距離の変動量がＡＵ１１ベクトルの大きさと一致すれば、判定部１４３は、ＡＵ１１の発生強度を５段階中の５と判定する。一方、距離の変動量がＡＵ４ベクトルの半分であれば、例えば、前述のリニアな換算ルールの場合は、判定部１４３は、ＡＵ１１の発生強度を５段階中の３と判定する。このように、判定部１４３は、特定部１４２によって特定された第１のマーカの位置及び第２のマーカの位置との間の距離の変化を基に、発生強度を判定することができる。

さらに、生成装置１０は、画像処理を行った画像と発生強度を関連付けて出力してもよい。その場合、画像生成部１４４は、撮像画像からマーカを削除する画像処理を実行することによって、画像を生成する。

画像生成部１４４は、マスク画像を用いてマーカを削除することができる。図７は、マスク画像の作成方法を説明する説明図である。図７の（ａ）は、ＲＧＢカメラ３１によって撮像された画像である。まず、画像生成部１４４は、あらかじめ意図的に付けられたマーカの色を抽出して代表色として定義する。そして、図７の（ｂ）のように、画像生成部１４４は、代表色近傍の色の領域画像を生成する。さらに、図７の（ｃ）のように、画像生成部１４４は、代表色近傍の色の領域に対し収縮、膨張等の処理を行い、マーカ削除用のマスク画像を生成する。また、マーカの色を顔の色としては存在しにくい色に設定しておくことで、マーカの色の抽出精度を向上させてもよい。

図８は、マーカの削除方法を説明する説明図である。図８に示すように、まず、画像生成部１４４は、動画から取得した静止画に対し、マスク画像を適用する。さらに、画像生成部１４４は、マスク画像を適用した画像を例えばニューラルネットワークに入力し、処理済みの画像を得る。なお、ニューラルネットワークは、被験者のマスクありの画像及びマスクなしの画像等を用いて学習済みであるものとする。なお、動画から静止画を取得することにより、表情変化の途中データが得られることや、短時間で大量のデータが得られることがメリットとして生じる。また、画像生成部１４４は、ニューラルネットワークとして、ＧＭＣＮＮ（Generative Multi-column Convolutional Neural Networks）やＧＡＮ（Generative Adversarial Networks）を用いてもよい。

なお、画像生成部１４４がマーカを削除する方法は、上記のものに限られない。例えば、画像生成部１４４は、あらかじめ定められたマーカの形状を基にマーカの位置を検出し、マスク画像を生成してもよい。また、ＩＲカメラ３２とＲＧＢカメラ３１の相対位置のキャリブレーションを事前に行うようにしてもよい。この場合、画像生成部１４４は、ＩＲカメラ３２によるマーカトラッキングの情報からマーカの位置を検出することができる。

また、画像生成部１４４は、マーカにより異なる検出方法を採用してもよい。例えば、鼻上のマーカは動きが少なく、形状を認識しやすいため、画像生成部１４４は、形状認識により位置を検出してもよい。また、口横のマーカは動きが大きく、形状を認識しにくいため、画像生成部１４４は、代表色を抽出する方法で位置を検出してもよい。

学習データ生成部１４５は、生成された画像に第１のＡＵに関する情報を付与することによって機械学習用の学習データを生成する。例えば、学習データ生成部１４５は、生成された画像に、判定部１４３によって判定された第１のＡＵの発生強度を付与することによって機械学習用の学習データを生成する。また、学習装置２０は、学習データ生成部１４５によって生成された学習データを既存の学習データに加えて学習を行ってもよい。

例えば、学習データは、画像を入力として、発生しているＡＵを推定する推定モデルの学習に使用できる。また、推定モデルは各ＡＵに特化したモデルであってもよい。推定モデルが特定のＡＵに特化したものである場合、生成装置１０は、生成した学習データを、当該特定のＡＵに関する情報のみを教師ラベルとする学習データに変更してもよい。つまり、生成装置１０は、特定のＡＵと異なる他のＡＵが発生している画像に関しては、他のＡＵに関する情報を削除して、当該特定のＡＵは発生していない旨の情報を教師ラベルとして付加することができる。

本実施例によれば、必要な学習データの見積もりを行うことができる。一般に、機械学習を実施するためには、膨大な計算コストがかかる。計算コストには、時間やＧＰＵ等の使用量が含まれる。

データセットの質及び量が改善すると、学習によって得られるモデルの精度は改善する。そのため、事前に目標精度に対して必要なデータセットの質及び量の大まかな見積もりができれば、計算コストが削減される。ここで、例えば、データセットの質は、マーカの削除率及び削除精度である。また、例えば、データセットの量は、データセット数及び被験者の人数である。

ＡＵの組み合わせ中には、互いの相関が高い組み合わせがある。このため、あるＡＵに対して行った見積りは、当該ＡＵと相関が高い他のＡＵに適用できると考えられる。例えば、ＡＵ１８とＡＵ２２の相関は高いことが知られており、対応するマーカが共通する場合がある。このため、ＡＵ１８の推定精度が目標に達する程度のデータセットの質及び量の見積もりができれば、ＡＵ２２の推定精度が目標に達する程度のデータセットの質及び量の大まかな見積もりが可能になる。

学習装置２０は、生成装置１０によって生成された学習データを用いて機械学習を行い、画像から各ＡＵの発生強度を推定するためのモデルを生成する。さらに、推定装置６０は、学習装置２０によって生成されたモデルを用いて、実際に推定を行う。

図９を用いて、推定装置６０の機能構成を説明する。図９は、推定装置の構成例を示すブロック図である。図９に示すように、推定装置６０は、入力部６１、出力部６２、記憶部６３及び制御部６４を有する。

入力部６１は、データを入力するための装置又はインタフェースである。例えば、入力部６１は、マウス及びキーボードである。また、出力部６２は、データを出力するための装置又はインタフェースである。例えば、出力部６２は、画面を表示するディスプレイ等である。

記憶部６３は、データや制御部６４が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部６３は、モデル情報６３１を記憶する。モデル情報６３１は、学習装置２０によって生成されたモデルを構築するためのパラメータ等である。

制御部６４は、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部６４は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されるようにしてもよい。制御部６４は、取得部６４１及び推定部６４２を有する。

取得部６４１は、顔を含む第１の撮像画像を取得する。例えば、第１の画像は、人物の顔が写った画像であって、各ＡＵの発生強度が未知である画像を取得する。

推定部６４２は、ＡＵの判定基準と撮像画像に含まれるマーカの位置とに基づいて選択された第１のＡＵの情報を教師ラベルとした学習データに基づいて機械学習により生成された機械学習モデルに、第１の撮像画像を入力する。そして、推定部６４２は、機械学習モデルの出力を、顔の表情の推定結果として取得する。

例えば、推定部６４２は、各ＡＵの発生強度をＡからＥの５段階評価で表現した、「ＡＵ１：２、ＡＵ２：５、ＡＵ４：１、…」のようなデータを取得する。また、出力部１２は、推定部６４２によって取得された推定結果を出力する。

図１０を用いて、生成装置１０の処理の流れを説明する。図１０は、生成装置の処理の流れを示すフローチャートである。図１０に示すように、まず、生成装置１０は、被験者の顔の撮像画像を取得する（ステップＳ１０）。次に、生成装置１０は、発生強度判定処理を実行する（ステップＳ２０）。そして、生成装置１０は、学習データ生成処理を実行する（ステップＳ３０）。そして、生成装置１０は、発生強度又は学習データを出力する（ステップＳ４０）。生成装置１０は、発生強度のみを出力してもよいし、撮像画像と発生強度を関連付けた所定の形式のデータを出力してもよい。なお、ステップＳ２０はマーカ画像があれば実行可能であるため、生成装置１０は、Ｓ１とＳ２０並列に実行してもよい。

図１１を用いて、発生強度判定処理（図１０のステップＳ２０）の流れを説明する。図１１は、発生強度判定処理の流れを示すフローチャートである。図１１に示すように、まず、生成装置１０は、撮像画像のマーカの位置を特定する（ステップＳ２０１）。

次に、生成装置１０は、特定したマーカの位置と基準位置を基に、マーカの移動ベクトルを計算する（ステップＳ２０２）。そして、生成装置１０は、移動ベクトルを基にＡＵの発生強度を判定する（ステップＳ２０３）。

図１２を用いて、学習データ生成処理の流れを説明する。図１２は、学習データ生成処理の流れを示すフローチャートである。図１２に示すように、まず、生成装置１０は、撮像画像のマーカの位置を特定する（ステップＳ３０１）。生成装置１０は、画像からマーカを削除する（ステップＳ３０２）。そして、生成装置１０は、ＡＵの発生強度をマーカが削除された画像に付与する（ステップＳ３０３）。

上述したように、生成装置１０の取得部１４１は、顔を含む撮像画像を取得する。特定部１４２は、撮像画像に含まれるマーカの位置を特定する。判定部１４３は、ＡＵの判定基準と特定されたマーカの位置とに基づいて、複数のＡＵのうち第１のＡＵを選択する。画像生成部１４４は、撮像画像からマーカを削除する画像処理を実行することによって、画像を生成する。学習データ生成部１４５は、生成された画像に第１のＡＵに関する情報を付与することによって機械学習用の学習データを生成する。このように、生成装置１０は、マーカが削除された高品質な学習データを自動的に得ることができる。その結果、本実施例によれば、ＡＵ推定のための教師データを生成することができる。

判定部１４３は、複数のＡＵのうちマーカに対応するＡＵが、判定基準とマーカの位置とに基づいて発生していると判定された場合に、当該ＡＵを選択する。このように、判定部１４３は、マーカに対応するＡＵを判定することができる。

判定部１４３は、判定基準に含まれるマーカの基準位置と、特定されたマーカの位置との距離に基づいて算出したマーカの移動量を基に、ＡＵの発生強度を判定する。このように、判定部１４３は、距離に基づいてＡＵを判定することができる。

推定装置６０の取得部６４１は、顔を含む第１の撮像画像を取得する。推定部６４２は、ＡＵの判定基準と撮像画像に含まれるマーカの位置とに基づいて選択された第１のＡＵの情報を教師ラベルとした学習データに基づいて機械学習により生成された機械学習モデルに、第１の撮像画像を入力する。推定部６４２は、機械学習モデルの出力を、顔の表情の推定結果として取得する。このように、推定装置６０は、低コストで生成されたモデルを用いて、精度の良い推定を行うことができる。

上述したように、生成装置１０の取得部１４１は、複数のＡＵに対応する複数の位置に複数のマーカを付した顔を含む撮像画像を取得する。特定部１４２は、撮像画像に含まれる複数のマーカのそれぞれの位置を特定する。判定部１４３は、複数のＡＵの中から選択した特定のＡＵの判定基準と複数のマーカのうち特定のＡＵに対応する１つ、あるいは複数マーカの位置とに基づいて、特定のＡＵの発生強度を判定する。出力部１２は、撮像画像に関連付けて特定のＡＵの発生強度を出力する。このように、生成装置１０は、コーダによるアノテーションを行うことなく、撮像画像から特定のＡＵの発生強度を判定することができる。その結果、ＡＵ推定のための教師データを生成することも可能となる。

判定部１４３は、判定基準としてあらかじめ設定された位置と、特定部１４２によって特定された１つ、あるいは複数のマーカの位置との距離に基づいて算出したマーカの移動量基に、発生強度を判定する。このように、生成装置１０は、判定基準を用いることでＡＵの発生強度を精度良く計算することができる。

判定部１４３は、判定基準としてあらかじめ設定された位置と、特定部１４２によって特定された第１のマーカの位置とに基づいて算出した１つ、あるいは複数のマーカの移動ベクトルと、特定のＡＵに対してあらかじめ対応付けられたベクトルとの合致度合いを基に、特定のＡＵの発生強度を判定する。このように、生成装置１０は、移動ベクトルを計算することで、方向を含めてマーカの移動を評価し、発生強度の判定精度を向上させることができる。

判定部１４３は、特定部１４２によって特定された第１のマーカの位置及び第２のマーカの位置との間の距離の変化を基に、発生強度を判定する。このように、生成装置１０は、複数のマーカの位置を用いることで、顔表面のテクスチャ変化に起因するような複雑なマーカの動きにも対応することができる。

上記の実施例では、判定部１４３が、マーカの移動量を基にＡＵの発生強度を判定するものとして説明した。一方で、マーカが動かなかったことも、判定部１４３による発生強度の判定基準になり得る。

また、マーカの周囲には、検出しやすい色が配置されていてもよい。例えば、中央にＩＲマーカを置いた丸い緑色の粘着シールを被験者に付してもよい。この場合、画像生成部１４４は、撮像画像から緑色の丸い領域を検出し、当該領域をＩＲマーカごと削除することができる。

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

図１３は、ハードウェア構成例を説明する図である。図１１に示すように、生成装置１０は、通信インタフェース１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１３に示した各部は、バス等で相互に接続される。

通信インタフェース１０ａは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図３に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図３等で説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、生成装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、取得部１４１、特定部１４２、判定部１４３、画像生成部１４４及び学習データ生成部１４５と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、取得部１４１、特定部１４２、判定部１４３、画像生成部１４４及び学習データ生成部１４５等と同様の処理を実行するプロセスを実行する。

このように生成装置１０は、プログラムを読み出して実行することで学習類方法を実行する情報処理装置として動作する。また、生成装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、生成装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ（Magneto−Optical disk）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１学習システム
１０生成装置
１１、６１入力部
１２、６２出力部
１３、６３記憶部
１４、６４制御部
２０学習装置
３１ＲＧＢカメラ
３２ＩＲカメラ
４０器具
６０推定装置
１３１ＡＵ情報
１４１取得部
１４２特定部
１４３判定部
１４４画像生成部
１４５学習データ生成部
４０１、４０２、４０３マーカ
６３１モデル情報
６４１取得部
６４２推定部

Claims

顔を含む撮像画像を取得し、
前記撮像画像に含まれるマーカの位置を特定し、
アクションユニットの判定基準と特定された前記マーカの位置とに基づいて、複数のアクションユニットのうち第１のアクションユニットを選択し、
前記撮像画像から前記マーカを削除する画像処理を実行することによって、画像を生成し、
生成された前記画像に前記第１のアクションユニットに関する情報を付与することによって機械学習用の学習データを生成する、
処理をコンピュータに実行させることを特徴とする学習データ生成プログラム。
前記選択する処理は、前記複数のアクションユニットのうち前記マーカに対応する前記第１のアクションユニットが、前記判定基準と前記マーカの位置とに基づいて発生していると判定された場合に、前記第１のアクションユニットを選択する処理を含む、
ことを特徴とする請求項１に記載の学習データ生成プログラム。
前記判定基準に含まれる前記マーカの基準位置と、特定された前記マーカの位置との距離に基づいて算出した前記マーカの移動量を基に、前記第１のアクションユニットの発生強度を判定する、
処理を前記コンピュータにさらに実行させることを特徴とする請求項２に記載の学習データ生成プログラム。
前記第１のアクションユニットに関する情報は、前記第１のアクションユニットの発生強度を含む、
ことを特徴とする請求項３に記載の学習データ生成プログラム。
生成された前記学習データを用いて、顔を含む他の撮像画像を入力としアクションユニットの発生強度に関する情報を出力とする推定モデルの機械学習を実行する、
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の学習データ生成プログラム。
顔を含む撮像画像を取得し、
前記撮像画像に含まれるマーカの位置を特定し、
アクションユニットの判定基準と特定された前記マーカの位置とに基づいて、複数のアクションユニットのうち第１のアクションユニットを選択し、
前記撮像画像から前記マーカを削除する画像処理を実行することによって、画像を生成し、
生成された前記画像に前記第１のアクションユニットに関する情報を付与することによって機械学習用の学習データを生成する、
処理をコンピュータが実行することを特徴とする学習データ生成方法。
顔を含む第１の撮像画像を取得し、
アクションユニットの判定基準と撮像画像に含まれるマーカの位置とに基づいて選択された第１のアクションユニットの情報を教師ラベルとした学習データに基づいて機械学習により生成された機械学習モデルに、前記第１の撮像画像を入力し、
前記機械学習モデルの出力を、前記顔の表情の推定結果として取得する、
処理を実行する処理部を有することを特徴とする推定装置。
前記第１のアクションユニットの情報は、前記撮像画像における前記第１のアクションユニットの発生強度を示す情報であって、
前記推定結果は、前記第１の撮像画像における前記第１のアクションユニットの発生強度を含む、
ことを特徴とする請求項７に記載の推定装置。