JP6814374B2 - 検出方法、検出プログラム及び検出装置 - Google Patents

検出方法、検出プログラム及び検出装置 Download PDF

Info

Publication number
JP6814374B2
JP6814374B2 JP2016106851A JP2016106851A JP6814374B2 JP 6814374 B2 JP6814374 B2 JP 6814374B2 JP 2016106851 A JP2016106851 A JP 2016106851A JP 2016106851 A JP2016106851 A JP 2016106851A JP 6814374 B2 JP6814374 B2 JP 6814374B2
Authority
JP
Japan
Prior art keywords
target
detection
image data
parameters
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016106851A
Other languages
English (en)
Other versions
JP2017211959A (ja
Inventor
卓也 明石
卓也 明石
惇哉 佐藤
惇哉 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iwate University
Original Assignee
Iwate University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iwate University filed Critical Iwate University
Priority to JP2016106851A priority Critical patent/JP6814374B2/ja
Publication of JP2017211959A publication Critical patent/JP2017211959A/ja
Application granted granted Critical
Publication of JP6814374B2 publication Critical patent/JP6814374B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、三次元の検出対象を含む画像データから対象を検出する検出方法、プログラム及び装置に関する。
例えば人物の顔を検出して追跡する技術は、様々なアプリケーションで必要不可欠なであり、検出追跡プログラムはデジタルカメラやスマートフォンといったデジタル機器に搭載されている。Viola等により提案された技術では、顔の濃淡値を用いて明るい部分と暗い部分を特徴量として使用し、それらを機械学習することにより高速かつ高精度に顔を検出している(例えば非特許文献1)。一方で、人物の頭部の姿勢を推定する技術についても多く提案されている(例えば非特許文献2乃至4)。
特開2013−3860号公報
P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2001, pp.511-518. E. Murphy-Chutorian and M. M. Trivedi, "Head pose estimation in computer vision:a survey,"IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 31, no. 4, pp. 607-626,2009. M. L. Cascia, S. Sclaroff, and V. Athitsos, "Fast, reliable head tracking under varying illumination:An approach based on registration of texturemapped 3d models," IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 22,no. 4, pp. 322-336, 2000. T. F. Cootes, G. J. Edwards, and C. J. Taylor,"Active appearance models," IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 23, no. 6, pp. 681-685, 2001.
非特許文献1に開示されている技術では、例えば、学習に使用されるサンプルデータは数万枚以上が必要であり、顔の位置を手動でラベル付けしなければならず、多大な時間と労力を要する。また、学習されていない顔や回転した顔を検出することはできない。さらには三次元空間における顔向きといった情報をセンシングすることはできない。
人物の頭部姿勢を推定する技術のうち、非特許文献2に開示されている技術では、モデルを用いて人物の頭部姿勢を推定する場合には、初期処理としてモデルとターゲット画像中の頭部とをマッチングさせる必要がある。また、非特許文献3に開示されているマッチング手法として顔のパーツといった特徴点を抽出したり正面顔を検出したりしているが、ターゲット画像シーケンスのはじまりは正面顔であるという仮定条件を設けなければならず、モデルの頭部追跡が失敗すると、再び検出処理を行わなければならず、横顔ではマッチングすることができない。
以上述べたように、人物の顔など物体を検出するには学習手法が必要であるため実用的かつ効率性が悪く、物体の姿勢に影響されずに複雑なモデルを要しないで、物体を検出すると共に追跡でき、かつ物体の姿勢を推定することができない。
そこで、本発明の目的は、三次元の検出対象を含む画像データから効率的にかつ簡便に対象物を検出する検出方法、プログラム及び装置を提供する。
本発明者らは、顔検出と顔の向きや頭部の姿勢の推定とを別々の問題と捉えず、物体の三次元回転の問題に対し、二次元の情報と進化的手法とを組み合わせることにより、対象物としての顔の検出と、対象物の姿勢としての顔向きの推定とを同時に行える手法を開発し、本発明を完成するに至った。その結果、対象となるものの検出、追跡及び姿勢の推定を効率的にしかも実用的に行えるようになった。
上記目的を達成するために、本発明は次のコンセプトを有する。
[1] 三次元の検出対象を含む画像データから対象の検出及び前記対象の姿勢推定を同時に行う検出方法であって、
三次元の検出対象を含む画像データから対象を検出するに当たり、
前記対象を抽象化した二次元のモデルを、前記画像データに照らし合わせ、前記モデルを規定するパラメータの最適化をしながら前記対象の検出を行うステップと、
前記画像データに前記対象が含まれている場合には前記対象の姿勢の推定を行うステップと、
を、備え、
前記対象の検出を行うステップにおいては、
前記パラメータとして、ヨーによる見え(p s, e )とピッチによる見え(d)を設定し、
前記二次元のモデルを、三次元の検出対象についての画像データの輝度分布に応じて区分された複数の領域により特徴分布として作成し、
前記対象の姿勢の推定を行うステップにおいては、
前記二次元のモデルの前記画像データ中における前記ヨーによる見え(p s, e )とピッチによる見え(d)からなるパラメータと、平行移動量(x,y)と拡大縮小倍率sと回転角度θとからなる幾何学的変換パラメータと、を進化計算手法により最適化するステップと、
最適化した前記ヨーによる見え(p s, e )とピッチによる見え(d)からなるパラメータ及び前記幾何学的変換パラメータについて評価するステップと、
を含み、
前記幾何学的変換に関するパラメータから画像中での前記対象を検出し、
前記ヨーによる見え(p s, e )とピッチによる見え(d)に関するパラメータから前記対象の姿勢を推定する、検出方法。
[2] 三次元の検出対象として人物画像を含むカラー画像データから、顔を対象として検出するに当たり
前記検出の対象を含むカラー画像を入力し、
前記カラー画像をグレー画像に変換し、該グレー画像から黒画素の誇張処理を少なくとも一回以上行ってターゲット画像を得る、前記[1]に記載の検出方法。
[3] 前記進化計算手法を、遺伝的アルゴリズム、差分進化、粒子群最適化、蟻コロニー最適化の何れかとする、前記[1]又は[2]に記載の検出方法。
[4] 前記遺伝的アルゴリズムにおいて、遺伝的操作を行って個体の最適化をする際の評価に用いる適応度関数fは下記(1)〜(4)式で表される、前記[3]に記載の検出方法。
f=R×W (1)
ここで、R=r1+r2+r3+r4 (2)
W=1.0+0.5×m+m’ +m’ (3)
fは適応度であり、Rは報酬、Wは重み付けを示し、(2)と(3)の各式は報酬と重みを構成している式である。
報酬r1は、グレー画像の輝度分布と二値画像の分布を調べることによって得られる報酬値である。
報酬r2は、物体のパーツとしての顔パーツ内に存在している黒画素数を数え、[0.0,1.0]に正規化することによって求められる。
報酬r3は、物体の非パーツ領域として肌領域に存在している白画素数を数え、[0.0,1.0]に正規化することによって求められる。
報酬r4は、候補領域内で全人類に共通するYCrCb表色系の閾値に当てはまる画素数を数え、[0.0,1.0]に正規化することによって求められる。ここで、Yは輝度、Crは赤色の色差、Cbは青色の色差を表している。
(4)式のw、hは個体によって決定されたテンプレートの幅と高さであり、t ij は座標(i,j)におけるグレー画像の画素値、t’ ij は座標(i,j)におけるテンプレートの画素数を表している。
[5] 前記[1]乃至[4]の何れかに記載の検出方法をコンピュータに実行させるためのプログラムを備えた、検出プログラム。
[6] 請求項1乃至4の何れかに記載の検出方法をコンピュータで実行させる検出装置であって、
三次元の検出対象を含む画像データを格納する画像データ格納部と、
前記対象を抽象化し、前記パラメータを用いて二次元のモデルを保存するモデル保存部と、
前記モデルを規定する前記幾何学的変換パラメータの最適化をする最適化処理部と、
を備える、検出装置。
[7] 前記最適化処理部は、前記パラメータの最適化と、前記モデルの前記画像データ中における前記幾何学的変換パラメータの最適化とを、最適化手法により同時に行う、[6]に記載の検出装置。
[8] さらに、前記最適化処理部による前記パラメータの最適化を評価する評価部を備える、前記[6]又は[7]に記載の検出装置。
[9] 前記モデル保存部は、前記二次元のモデルを、三次元の対象についての画像データの輝度分布に応じて区分された複数の領域により作成し、
前記最適化処理部で最適化される前記パラメータとして、ヨーによる見え(p s, e )とピッチによる見え(d)が設定される、前記[6]乃至[8]の何れかに記載の検出装置。
本発明によれば、三次元の検出対象を含む画像データから効率的にかつ簡便に対象物を検出することができる。
本発明の実施形態で使用する原理のうち、三次元の検出対象を二次元のモデルで抽象化することを説明するための図であり、(a)は実際の状況を示す図、(b)は(a)に示した点線と実線の部分を抜き出して示した図である。 図1に示す特徴の分布を抽象化した二次元のモデルの一つの例である。 ヨーによる見えの変化を示す図である。 ピッチによる見えの変化を示す図である。 二次元のモデルから特徴分布を生成することを説明するための図である。 本発明の実施形態に係る検出方法を説明するための図である。 本発明の実施形態に係る検出方法の前半を詳細に説明する図である。 本発明の実施形態に係る検出方法の後半を詳細に説明する図である。 各個体が有する染色体を示す図である。 顔らしさを判定するための再分割したモデルである。 図10に示すモデル中に平均輝度値を示し、比較の状態を示す図である。 本発明の実施形態に係る検出装置のブロック構成図である。 別の二次元モデルの例を示す図である。 実施例の結果を示す図である。
以下、図面を参照しながら本発明に係る実施形態を詳細に説明するが、本発明の実施形態は特許請求の範囲に記載した発明の範囲において適宜変更したものを含む。
[原理]
先ず、本発明の実施形態で使用する原理を説明する。三次元の検出対象を撮影して作成された画像データから検出対象をサーチする前に、三次元の検出対象を二次元のモデルに抽象化する。
具体的には、三次元の対象についての二次元画像データにおいて、画素毎に輝度を求め、その輝度分布に応じて輝度値から複数の領域に区分する。例えば、第一の領域として輝度値が高い画素の集合を第一の領域とし、輝度値が低い画素の集合を第二の領域とし、輝度値が中間の画素を第三の領域とする。そして、第一の領域と第二の領域とで二次元のモデルを作成する。
図1は、本発明の実施形態で使用する原理のうち、三次元の検出対象を二次元のモデルで抽象化することを説明するための図であり、(a)は実際の状況を示し、(b)は(a)に示した点線と実線の部分を抜き出して示す。図2は図1に示す特徴の分布を抽象化した二次元のモデルの一つの例である。三次元の検出対象は、図1に示すように輝度分布として表現され、図2に示すように輝度分布から二次元のモデルを作成することができる。
三次元の検出対象は、図1(a)に示すように、輝度分布として表現される。照明環境に対して不変的な特徴量は検出対象に応じて決定される。例えば検出対象が自分の顔である場合には、照明環境に対して不変な特徴量として、顔のパーツと、肌領域の相対的な輝度値の大小関係が使用される。顔のパーツには眼瞼裂、鼻孔、唇などが挙げられ、肌領域には眉間、頬などが挙げられる。このように、検出対象は、顔のパーツ(実線の領域)と肌領域(点線の領域)とに分けられる。
図2に示すように、顔の左側面視での顔のパーツ及び肌領域の分布と、顔の右側面視での顔のパーツ及び肌領域の分布と、を一つの分布として、二次元のモデルを作成する。二次元のモデルは、二次元のパターンと呼んでもよい。
このように、検出対象である三次元の特徴分布を、二次元のモデルとして抽象化する。その際、肌領域の一つを更に複数の領域に分割して、領域分割された二次元モデルを作成する。また、二次元のモデルにおいて検出の際に使用しない領域を設定する。これは、計算の手数を減らし、より実用的な使用を可能にする。
二次元のモデルの説明を続ける。二次元のモデルは複数の領域から構成され、複数の領域は、一つの線又は複数の線により区分される。図3と図4で示すモデルでは、二次元のモデルが縦h×横wの矩形で表現されており、縦線P,Pと、横線dとで領域が区分されている。縦線P,Pe、横線dをパラメータとしてそれぞれの範囲で変化させることにより、全ての輝度の特徴分布を表現することができる。
検出の対象に三次元座標軸を設定し、ヨー、ピッチ、ロールの各軸の周りに回転させることで、検出の対象が傾いていることが表現される。以下、検出対象が人物の顔である場合を想定して説明する。
図3は、ヨーによる見えの変化を示す図である。縦線P,Peを横wの左右にシフトさせることにより、ヨーによる見えの変化に対応することができる。0≦P≦w/2-1,w/2≦P≦w-1の範囲で、PsとPeとの差分が或る一定の範囲となる範囲(例えば、20≦|P−Pe|≦27)で、PとPを変化させる。すなわち、ヨーによる見えの変化は、パラメータとして第1の縦線p,第2の縦線pを左右に移動させ、第1の縦線pから第2の縦線pまでの領域のみを使用することで、すべてのヨーによる見えの変化が表され、ヨーによって変化する全ての輝度の特徴分布が表現される。
図4は、ピッチによる見え方の変化を説明するための図である。dの値に基づいて鼻孔を通る水平線よりも上もしくは下の領域を上下にシフトさせることにより、ピッチによる見えの変化に対応することができる。顔が上を向くと目瞼裂から鼻孔までの距離が短く、逆に顔が下を向くと鼻孔から***までの距離が短くなる。これを図4において点線で示す横線を上下することで表現する。d=0のときは何も処理しないため、正面顔を表現することになる。顔が上を向いたときは、dが負の値をとるため、鼻孔の上端を通る水平線よりも下の領域を|d|画素分上に移動させ、二次元モデルの眼瞼裂の下端から鼻孔の上端までの領域を無視することで、眼瞼裂から鼻孔までの距離が短くなる様子を表現する。すなわち、横線から下の領域が上方向に詰まっていく。逆に、顔が下を向いたときは、鼻孔の下端を通る水平線よりも上の領域をd画素分下方向に移動させ、二次元モデルの鼻孔の下端から***の上端までの領域を無視することで、鼻孔から***までの距離が短くなるように表現する。すなわち、横線から上の領域が下方向に詰まっていく。
図5は、二次元のモデルから特徴分布を生成することを説明するための図である。図5に示すように、ヨー、ピッチ、ロールによる見えの各変化のうち少なくとも一つ以上の変化を規定するために、複数の領域から構成された二次元のモデルから、検出対象とする領域を切り取り、かつ、ヨー、ピッチ、ロールによる見え変化を規定するためのパラメータを変化させて、三次元全ての輝度分布の表現をすることができる。パタメータの変化は、遺伝的アルゴリズム(genetic algorithm:GA)をはじめとする進化計算手法などの最適化手法により自動的に行える。進化計算手法として、差分進化、粒子群最適化、蟻コロニー最適化を用いてもよい。
[検出方法]
本発明の実施形態に係る検出方法は、前述の原理を用い、三次元の検出対象を含む画像データから対象を検出する際に、対象を二次元のモデルにすることにより抽象化し、モデルを規定するパラメータの最適化を図りながら、対象の検出を行う。
検出が人物の顔である場合には次のようになる。すなわち、三次元の検出対象として人物画像を含む画像データから、顔を対象として検出する際に、対象を二次元のモデルにすることにより抽象化し、モデルを規定するパラメータの最適化を図りながら、対象の検出を行う。
本発明の実施形態に係る検出方法は、画像データの中に含まれている対象を検出しながら、対象を抽象化した二次元モデルのパラメータの最適化を図っている。そのパラメータには、ヨー軸、ピッチ軸及びロール軸の何れか一つ又は複数の回転に対応している。よって、対象の姿勢をパラメータにより特定することができる。
本発明の実施形態によれば、画像データ中での対象の検出と、対象の姿勢(向き)の推定とを同時に行える。よって、対象の検出、追跡及び対象の姿勢推定を、同時に、かつ効率良く行える。
本発明の実施形態に係る検出方法を詳細に説明する。図6は本発明の実施形態に係る検出方法を説明するための図である。
先ず、三次元の検出対象を含んだ画像データから、パラメータを用いて検出の対象となる二次元のモデルを設定する。二次元のモデルは複数の領域から構成され、複数の領域は、一つの線又は複数の線により区分される。図2で示すモデルでは、二次元のモデルが縦h×横wの矩形で表現されており、縦線P,Pと、横線dとで領域が区分されている。縦線P,Pe、横線dをパラメータとしてそれぞれの範囲で変化させることにより、図5で示すように全ての輝度の特徴分布を表現することができる。
次に、対象が含まれているか否かを判断し、含まれている場合には姿勢の状態を推定する。画像中に含まれる各種物体(ここでは、人物が含まれるものとする。)の眼瞼裂や鼻孔,***といった顔パーツなど、対象を構成するパーツを誇張する処理を行う。この処理を終えた画像を「ターゲット画像」と呼ぶことにする。
具体的には、ターゲット画像中で、検出の候補領域を選定する。特徴分布と同じサイズの矩形を、平行移動量としてx方向及びy方向の移動量(x,y)と、拡大縮小の度合い即ち拡大縮小倍率sと、回転角度θとによって、ターゲット画像中に候補領域となる領域を選定する。この選定では、選定すべき領域毎に遺伝的アルゴリズムをはじめとする進化計算手法などの最適化手法により最適化して選択した特徴分布を用い、各領域に分割した領域それぞれの平均輝度値を求める。そして、領域毎の平均輝度の値を求めて、領域毎の平均輝度値を比較し、「或る領域(顔パーツ領域と推定される領域)の平均輝度値<別の或る領域(肌領域と推定される領域)の平均輝度値」となる分布を求める。そして、この分布がどの程度特徴分布に近いかを数値で表現することで、各候補領域、つまり個体を評価する。
その結果、評価が所定の条件を満足するまで進化計算手法を繰り返し、対象を検出すると同時に、姿勢を求めることができる。
図7は本発明の実施形態に係る検出方法の前半を詳細に説明する図である。図8は本発明の実施形態に係る検出方法の後半を詳細に説明する図である。
先ず、検出の対象を含むカラー画像を入力し、カラー画像をグレー画像に変換し、必要に応じて、グレー画像から黒画素の誇張処理を一回以上、例えば二回行い、対象のパーツとして顔のパーツを強調する。このようにしてターゲット画像を得る。
それと前後して、目的関数を最もよく満たす最適解を取得するために遺伝的アルゴリズムの初期設定をする。図9は、各個体が有する染色体を示す。ここでいう個体は、探索空間内の探索点に対応する。図9に示すように、各個体は、幾何学変換に関するパラメータと、特徴分布の見えに関するパラメータとを、有する染色体を持つ。遺伝子を「0」と「1」のビット列とする。幾何学変換に関するパラメータとして、平行移動量(x,y)と拡大縮小倍率sと回転角度θを設定する。特徴分布の見えに関するパラメータとして、ヨーによる見え(ps,e)と、ピッチによる見え(d)とを設定する。それぞれ8bitを構成し、トータルパラメータの数7×8ビットで、合計56bitからなる。初期設定としてはランダムな値を設定する。これにより、ターゲット画像中で対象の領域候補を選定することができる。
その後、選定した領域候補について、平均輝度値の分布を用いて顔らしさを判定する。
図10は、顔らしさを判定するための再分割したモデルである。図10に示すように、二次元モデルの領域を分割する。ここでは、設定した特徴分布を用いて、分割された領域それぞれの平均輝度値を計算する。その際には、膨張処理したグレースケース画像を使用する。図11は図10に示すモデル中に平均輝度値を示し、比較の状態を示す図である。顔のパーツ(黒)と肌領域(白)の平均輝度値を比較し、「或る領域(顔パーツ領域と推定される領域)の平均輝度値<別の或る領域(肌領域と推定される領域)の平均輝度値」となる分布を求める。そして,この分布がどの程度特徴分布に近いかを数値で表現することで,各候補領域、つまり個体を評価する。
その後、遺伝的操作として、選択、交叉及び突然変異を行い、世代交代を繰り返す。最終世代において、最も評価値が高い個体によって得られた候補領域を検出結果として表示する。これはエリート個体と呼ばれる。エリート個体が持つパラメータのうち、幾何学変換に関するパラメータから画像中での対象の位置が検出することができ、特徴分布の見えに関するパラメータにより、対象の姿勢を推定することができる。
ここで、遺伝的操作を行って個体の最適化をする際の評価について説明する。各候補領域内で、目的関数を使用して評価を行い、その値を適応関数として個体の評価に用いる。この適応度に基いて選択、交叉、突然変異といった遺伝的操作を繰り返し行って世代交代をし、より高い適応度を持つ個体を生成して最適解を取得する。
適応関数について説明する。適応度は適応度関数によって取得される。適応度関数は次式で表される。
f=R×W (1)
ここで、R=r1+r2+r3+r4 (2)
W=1.0+0.5×m+m’+m’ (3)
fは適応度であり、Rは報酬、Wは重み付けを示し、(2)と(3)の各式は報酬と重みを構成している式であり、すべて[0.0,1.0]に正規化されている。
報酬Rは、例えば報酬r1乃至r4の加算で求められる。
報酬r1は、グレー画像の輝度分布と二値画像の分布を調べることによって得られる報酬値である。候補領域でグレー画像における輝度分布を調べる。図10に示すように、輝度分布のテンプレートが領域毎に分割されている。
輝度分布モデルは、図10に示すように分割されており、それぞれの領域で平均輝度値を算出する。次に、対象のパーツ領域としての顔パーツ領域の平均輝度と肌領域の平均輝度の大小を比較する。比較は、テンプレートの線対称の対称軸を左右に分けて行う。つまり、左の顔パーツと右の肌領域との比較は行わない。次に、二値画像を用いて物体のパーツとしての顔パーツと非パーツ領域としての肌領域のパターンを調べる。はじめに、二値化によって顔パーツは黒画素、肌領域は白画素として分離し、図10に示すように分割されたそれぞれの領域内で黒画素数を数え、黒画素数の大小比較をする。その際、二値画素は照明環境によっては肌領域にも黒画素が現れる点に注意する必要がある。そこで、現われる黒画素を判別する条件を導入する。人の顔の特徴として、顔パーツのみの平均輝度値は、正面顔全体の平均輝度値よりも必ず小さくなるはずである。従って、黒画素と同じ座標のグレー値を参照し、候補領域全体の平均輝度値よりも小さければ、黒画素と判別する。この条件により、より正確な黒画素を抽出することができる。このようにして、二値画像を用いて顔パーツと肌領域のパターンを調べる。グレー画素を用いた平均輝度値の大小関係と、二値画素を用いた黒画素数の大小関係が共に正しく満たされた数を数え、[0.0,1.0]に正規化した値r1が報酬r1である。
報酬r2及びr3について説明する。報酬r2は、物体のパーツとしての顔パーツ内に存在している黒画素数を数え、[0.0,1.0]に正規化することによって求められる。報酬r3は、物体の非パーツ領域として肌領域に存在している白画素数を数え、[0.0,1.0]に正規化することによって求められる。
報酬r4は、候補領域内で全人類に共通するYCrCb表色系の閾値に当てはまる画素数を数え、[0.0,1.0]に正規化することによって求められる。ここで、Yは輝度、Crは赤色の色差、Cbは青色の色差を表している。
重みについては、報酬を計算する際に使用された図10に示すテンプレートをそのまま利用し、候補領域内ですべての顔パーツに対応する画素値とすべての肌領域に対応する画素値からそれぞれの平均輝度値を算出する。次に、テンプレートの顔パーツと肌領域を表す領域すべてにそれぞれの平均輝度値を使用して、テンプレートを作成する。このテンプレートと候補領域内のグレー画像との画素差を計算することで、重みwを取得する。式(4)は、重みmを計算するための計算式である。
w、hは個体によって決定されたテンプレートの幅と高さであり、tijは座標(i,j)におけるグレー画像の画素値、t’ijは座標(i,j)におけるテンプレートの画素数を表している。この画素差の計算は人工的に作成された輝度分布モデルを基にしているので、ターゲット画素と完全に一致はしない。そのため、さらに重みmに対して0.5の重みを付加する。
[検出装置]
図12は、本発明の実施形態に係る検出装置10を示すブロック構成図である。本発明の実施形態に係る検出装置10は、三次元の検出対象を含む画像データを格納する画像データ格納部11と、対象を抽象化し、パラメータを用いて二次元のモデルを保存するモデル保存部12と、モデルを規定するパラメータの最適化をする最適化処理部13と、を備える。最適化処理部13は、パラメータの最適化と、モデルの画像データ中における幾何学的変換パラメータの最適化とを最適化手法により同時に行う。好ましくは、最適化処理部による前記パラメータの最適化を評価する評価部14を備える。
モデル保存部12では、二次元のモデルを、三次元の対象についての画像データの輝度分布に応じて区分された複数の領域により作成して保存する。最適化処理部13で最適化されるパラメータとして、交差する二方向の線の移動量が設定される。各部の機能については、前述の原理及び検索方法により詳細に説明したので、説明を省略する。
本発明の実施形態に係る検出装置10は、演算処理部及び制御部を構成するCPUと、各種データを記憶する記憶部と、データの入出力を行う入力部及び出力部とを備えるコンピュータにおいて、記憶部などで画像データ格納部11を実現し、記憶部又はCPUでモデル保存部12を実現し、最適化処理部13をCPU上に展開した検索プログラムにより実行することにより実現される。
[検出プログラム]
本発明の実施形態に係る検出プログラムは、コンピュータの記憶部に格納されてCPUに展開されて実行されることにより、前述の最適化処理部13、評価部14のほか、画像データ格納部11及びモデル保存部12のインタフェースとして実現される。
本発明の実施形態に係る検出プログラムは、三次元の検出対象を含む画像データから対象を検出するためのプログラムであり、次の処理を行う。例えば、最適化処理部13により、対象を抽象化した二次元のモデルを画像データに照らし合わせ、モデルを規定するパラメータの最適化をしながら対象の検出を行う。
対象が人物の顔である場合には、本発明の実施形態に係る検出プログラムは、三次元の検出対象として人物画像を含む画像データから、顔を対象として検出するプログラムであり、次の処理を行う。例えば、予め対象を抽象化し、パラメータを用いて二次元のモデルを作成して、モデル保存部12に保存しておく。そして、最適化処理部13により、モデル保存部12に保存したモデルを読み出し、画像データにモデルを照らし合わせて、パラメータの最適化をしながら対象の検出を行う。
具体的には、本発明の実施形態に係る検出プログラムは、次のステップを含んでいる。一つのステップは、三次元の検出対象を含む画像データにおいて検出の対象を予めパラメータを用いて二次元のモデルにより抽象化して規定する。これは、モデル保存部12に保存される。一つのステップは、モデルの画像データ中における幾何学的変換パラメータと、二次元のモデルを規定するパラメータと、を進化計算手法により最適化する。最適化処理部13が、画像データ格納部11からの画像データにおいて、幾何学的パラメータと二次元モデルを規定するパラメータとを進化計算手法により最適化する。好ましい検出プログラムでは、最適化処理部13において最適化した幾何学的変換パラメータ及び二次元モデルを規定するパラメータについて評価するステップを有する。このステップは評価部14においてなされる。
ここで、モデル保存部12に保存される二次元モデルは、三次元の検出対象についての画像データの輝度分布に応じて区分された複数の領域により作成され、交差する二方向の線の移動量がパラメータとして設定される。
本発明の実施形態においては、主として人物の顔の検出を例に挙げているが、これに限定はされない。例えば、二次元のモデルとしては、図13に示すようなモデルが考えられる。図13に示すモデルにおいても、図3及び図4を参照して説明したように、モデルの幅(横)wと高さ(縦)hが、w=40,h=26であると仮定すると、Psを0以上19以下、Pdを20以上39以下、dを−5以上6以下の範囲で変化させる。なお、幾何学変換のパラメータx、y、s、θについては、前述と同様に設定される。
本発明の実施形態の有効性を示すために実験をした。被検者3人に顔を上下左右回転してもらい、その様子をウェブカメラを用いて撮影した。画素サイズは320×240画素で、30fpsで撮影した。GAは精度が乱数種によって変化するため、一つの画素シーケンスに対して5種類の乱数種を用いて実験し、その精度と処理時間の平均値を全体の計算とした。使用した個体数は25個体で、世代交代は50世代である。個体の選択方法にルーレット選択を使用し、交叉方法として一様交叉を用いた。交叉率は0.7で、突然変異率は0.05である。正解判定は目視で行い、結果矩形が顔パーツを含んでいて、かつ回転角度が顔とほぼ一致していると判断できる場合、正解とした。実験に使用した計算機のCPUは2.9GHzであり、物理メモリは8GBであった。
表1は精度と処理時間の結果を示すテーブルである。被験者によって精度が大きく異なっている。これは、被験者によってピッチとヨーの大きさが異なるためである。特に、被験者2,3の場合、俯いたときの顔の角度が大きく、顔パーツの特徴が失われてしまい、精度が下がっている。
顔の動きが比較的小さい被験者1では、93%という高い精度が得られた。顔の動きが大きい被験者2及び3では若干精度が落ちたが、3次元の動きであっても、二次元モデルと遺伝的アルゴリズムの組み合わせと、安価な汎用性を有するウェブカメラ1台のみで、検出と姿勢推定の同時処理が実現することができた。
処理時間については、全ての結果で49ミリ秒以下であり、非常に高速である。これは、スマートフォンのような性能が低い計算機でも十分応用可能であることを示している。
図14は実施例の結果を示す図である。各画像の左上でGAによって生成された輝度分布モデルも示している。顔の見えの変化に応じて最適なモデルの見えが選択されていることがわかる。検出矩形が比較的理想的な位置で検出できていることから、提案手法は有効性があると言える。
本発明の実施形態では、検出の対象として人物の顔を検出する場合を例にとって説明したが、人物の顔以外の部分でもよく、また、人物以外の動植物、土地に定着した看板や標識、自動車などの動くものであってもよい。
本発明の実施形態に係る検出方法では、二次元情報と最適化方法を用いてリアルタイムに三次元の物体の検出、追跡、姿勢推定(向き及び方向)が同時に行える。そして、従来のような学習方法を使用せず、正面画像からセンシングをスタートしなければならないという条件もない。さらには、赤外線やステレオカメラといった特殊な機器の使用を前提としない。そのため、従来と比べ、効率的かつ実用的な顔などの物体の検出が容易にリアルタイムで可能となり、また、初期検出及び再検出時において正面領域以外の領域についても検出が可能となる。
本発明の実施形態は、ウェブカメラといった汎用性のある画像デバイスがあればよいので、例えば人物の頭部姿勢の推定や頭部のジェスチャーを用いた入力インタフェース、ドライバーの居眠り運転の防止装置、エンターテイメント分野やアミューズメント分野における各種装置として適用される。
カメラなどの画像デバイスはセンサの一種であるので、画像デバイスで取得した画像データから、対象をセンシングすることができる。よって、検出方法、検出プログラム、検出装置は、センシング方法、センシングプログラム、センシング装置と呼んでもよい。
10:検出装置
11:画像データ格納部
12:モデル保存部
13:最適化処理部
14:評価部

Claims (9)

  1. 三次元の検出対象を含む画像データから対象の検出及び前記対象の姿勢推定を同時に行う検出方法であって、
    三次元の検出対象を含む画像データから対象を検出するに当たり、
    前記対象を抽象化した二次元のモデルを、前記画像データに照らし合わせ、前記モデルを規定するパラメータの最適化をしながら前記対象の検出を行うステップと、
    前記画像データに前記対象が含まれている場合には前記対象の姿勢の推定を行うステップと、
    を、備え、
    前記対象の検出を行うステップにおいては、
    前記パラメータとして、ヨーによる見え(p s, e )とピッチによる見え(d)を設定し、
    前記二次元のモデルを、三次元の検出対象についての画像データの輝度分布に応じて区分された複数の領域により特徴分布として作成し、
    前記対象の姿勢の推定を行うステップにおいては、
    前記二次元のモデルの前記画像データ中における前記ヨーによる見え(p s, e )とピッチによる見え(d)からなるパラメータと、平行移動量(x,y)と拡大縮小倍率sと回転角度θとからなる幾何学的変換パラメータと、を進化計算手法により最適化するステップと、
    最適化した前記ヨーによる見え(p s, e )とピッチによる見え(d)からなるパラメータ及び前記幾何学的変換パラメータについて評価するステップと、
    を含み、
    前記幾何学的変換に関するパラメータから画像中での前記対象を検出し、
    前記ヨーによる見え(p s, e )とピッチによる見え(d)に関するパラメータから前記対象の姿勢を推定する、検出方法。
  2. 三次元の検出対象として人物画像を含むカラー画像データから、顔を対象として検出するに当たり
    前記検出の対象を含むカラー画像を入力し、
    前記カラー画像をグレー画像に変換し、該グレー画像から黒画素の誇張処理を少なくとも一回以上行ってターゲット画像を得る、請求項1に記載の検出方法。
  3. 前記進化計算手法を、遺伝的アルゴリズム、差分進化、粒子群最適化、蟻コロニー最適化の何れかとする、請求項1又は2に記載の検出方法。
  4. 前記遺伝的アルゴリズムにおいて、遺伝的操作を行って個体の最適化をする際の評価に用いる適応度関数fは下記(1)〜(4)式で表される、請求項3に記載の検出方法。
    f=R×W (1)
    ここで、R=r1+r2+r3+r4 (2)
    W=1.0+0.5×m+m’ +m’ (3)
    fは適応度であり、Rは報酬、Wは重み付けを示し、(2)と(3)の各式は報酬と重みを構成している式である。
    報酬r1は、グレー画像の輝度分布と二値画像の分布を調べることによって得られる報酬値である。
    報酬r2は、物体のパーツとしての顔パーツ内に存在している黒画素数を数え、[0.0,1.0]に正規化することによって求められる。
    報酬r3は、物体の非パーツ領域として肌領域に存在している白画素数を数え、[0.0,1.0]に正規化することによって求められる。
    報酬r4は、候補領域内で全人類に共通するYCrCb表色系の閾値に当てはまる画素数を数え、[0.0,1.0]に正規化することによって求められる。ここで、Yは輝度、Crは赤色の色差、Cbは青色の色差を表している。
    (4)式のw、hは個体によって決定されたテンプレートの幅と高さであり、t ij は座標(i,j)におけるグレー画像の画素値、t’ ij は座標(i,j)におけるテンプレートの画素数を表している。
  5. 請求項1乃至4の何れかに記載の検出方法をコンピュータに実行させるためのプログラムを備えた、検出プログラム。
  6. 請求項1乃至4の何れかに記載の検出方法をコンピュータで実行させる検出装置であって、
    三次元の検出対象を含む画像データを格納する画像データ格納部と、
    前記対象を抽象化し、前記パラメータを用いて二次元のモデルを保存するモデル保存部と、
    前記モデルを規定する前記パラメータと前記幾何学的変換パラメータの最適化をする最適化処理部と、
    を備える、検出装置。
  7. 前記最適化処理部は、前記パラメータの最適化と、前記モデルの前記画像データ中における前記幾何学的変換パラメータの最適化とを、最適化手法により同時に行う、請求項6に記載の検出装置。
  8. さらに、前記最適化処理部による前記パラメータの最適化を評価する評価部を備える、請求項6又は7に記載の検出装置。
  9. 前記モデル保存部は、前記二次元のモデルを、三次元の対象についての画像データの輝度分布に応じて区分された複数の領域により作成し、
    前記最適化処理部で最適化される前記パラメータとして、ヨーによる見え(p s, e )とピッチによる見え(d)が設定される、請求項6乃至8の何れかに記載の検出装置。
JP2016106851A 2016-05-27 2016-05-27 検出方法、検出プログラム及び検出装置 Active JP6814374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016106851A JP6814374B2 (ja) 2016-05-27 2016-05-27 検出方法、検出プログラム及び検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016106851A JP6814374B2 (ja) 2016-05-27 2016-05-27 検出方法、検出プログラム及び検出装置

Publications (2)

Publication Number Publication Date
JP2017211959A JP2017211959A (ja) 2017-11-30
JP6814374B2 true JP6814374B2 (ja) 2021-01-20

Family

ID=60476175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016106851A Active JP6814374B2 (ja) 2016-05-27 2016-05-27 検出方法、検出プログラム及び検出装置

Country Status (1)

Country Link
JP (1) JP6814374B2 (ja)

Also Published As

Publication number Publication date
JP2017211959A (ja) 2017-11-30

Similar Documents

Publication Publication Date Title
Wang et al. A deep coarse-to-fine network for head pose estimation from synthetic data
US11232286B2 (en) Method and apparatus for generating face rotation image
US20210264144A1 (en) Human pose analysis system and method
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
US10325184B2 (en) Depth-value classification using forests
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
CN111539911B (zh) 一种口呼吸面容识别方法、设备和存储介质
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN113591763B (zh) 人脸脸型的分类识别方法、装置、存储介质及计算机设备
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
Chan et al. A 3-D-point-cloud system for human-pose estimation
Maximili et al. Hybrid salient object extraction approach with automatic estimation of visual attention scale
Ahmed et al. Robust Object Recognition with Genetic Algorithm and Composite Saliency Map
CN107886060A (zh) 基于视频的行人自动检测与跟踪方法
US20240096134A1 (en) Action Recognition System and Method
Mohamed et al. A new method for face recognition using variance estimation and feature extraction
US20220180548A1 (en) Method and apparatus with object pose estimation
JP6814374B2 (ja) 検出方法、検出プログラム及び検出装置
Wang et al. A study on hand gesture recognition algorithm realized with the aid of efficient feature extraction method and convolution neural networks: design and its application to VR environment
Mocanu et al. Multimodal convolutional neural network for object detection using rgb-d images
Zhao et al. Octree segmentation based calling gesture recognition for elderly care robot
JP4942197B2 (ja) テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体
JP2011086245A (ja) テンプレート作成装置、表情認識装置、テンプレート作成方法、表情認識方法、及びプログラム
CN117408304B (zh) 6d姿态预测神经网络模型***及方法
Moreira et al. Fast and accurate gesture recognition based on motion shapes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201127

R150 Certificate of patent or registration of utility model

Ref document number: 6814374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250