JP6814374B2

JP6814374B2 - 検出方法、検出プログラム及び検出装置

Info

Publication number: JP6814374B2
Application number: JP2016106851A
Authority: JP
Inventors: 卓也明石; 惇哉佐藤
Original assignee: Iwate University
Current assignee: Iwate University
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2021-01-20
Anticipated expiration: 2036-05-27
Also published as: JP2017211959A

Description

本発明は、三次元の検出対象を含む画像データから対象を検出する検出方法、プログラム及び装置に関する。

例えば人物の顔を検出して追跡する技術は、様々なアプリケーションで必要不可欠なであり、検出追跡プログラムはデジタルカメラやスマートフォンといったデジタル機器に搭載されている。Viola等により提案された技術では、顔の濃淡値を用いて明るい部分と暗い部分を特徴量として使用し、それらを機械学習することにより高速かつ高精度に顔を検出している（例えば非特許文献１）。一方で、人物の頭部の姿勢を推定する技術についても多く提案されている（例えば非特許文献２乃至４）。

特開２０１３−３８６０号公報

P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2001, pp.511-518. E. Murphy-Chutorian and M. M. Trivedi, "Head pose estimation in computer vision:a survey,"IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 31, no. 4, pp. 607-626,2009. M. L. Cascia, S. Sclaroff, and V. Athitsos, "Fast, reliable head tracking under varying illumination:An approach based on registration of texturemapped 3d models," IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 22,no. 4, pp. 322-336, 2000. T. F. Cootes, G. J. Edwards, and C. J. Taylor,"Active appearance models," IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 23, no. 6, pp. 681-685, 2001.

非特許文献１に開示されている技術では、例えば、学習に使用されるサンプルデータは数万枚以上が必要であり、顔の位置を手動でラベル付けしなければならず、多大な時間と労力を要する。また、学習されていない顔や回転した顔を検出することはできない。さらには三次元空間における顔向きといった情報をセンシングすることはできない。

人物の頭部姿勢を推定する技術のうち、非特許文献２に開示されている技術では、モデルを用いて人物の頭部姿勢を推定する場合には、初期処理としてモデルとターゲット画像中の頭部とをマッチングさせる必要がある。また、非特許文献３に開示されているマッチング手法として顔のパーツといった特徴点を抽出したり正面顔を検出したりしているが、ターゲット画像シーケンスのはじまりは正面顔であるという仮定条件を設けなければならず、モデルの頭部追跡が失敗すると、再び検出処理を行わなければならず、横顔ではマッチングすることができない。

以上述べたように、人物の顔など物体を検出するには学習手法が必要であるため実用的かつ効率性が悪く、物体の姿勢に影響されずに複雑なモデルを要しないで、物体を検出すると共に追跡でき、かつ物体の姿勢を推定することができない。

そこで、本発明の目的は、三次元の検出対象を含む画像データから効率的にかつ簡便に対象物を検出する検出方法、プログラム及び装置を提供する。

本発明者らは、顔検出と顔の向きや頭部の姿勢の推定とを別々の問題と捉えず、物体の三次元回転の問題に対し、二次元の情報と進化的手法とを組み合わせることにより、対象物としての顔の検出と、対象物の姿勢としての顔向きの推定とを同時に行える手法を開発し、本発明を完成するに至った。その結果、対象となるものの検出、追跡及び姿勢の推定を効率的にしかも実用的に行えるようになった。

上記目的を達成するために、本発明は次のコンセプトを有する。
［１］三次元の検出対象を含む画像データから対象の検出及び前記対象の姿勢推定を同時に行う検出方法であって、
三次元の検出対象を含む画像データから対象を検出するに当たり、
前記対象を抽象化した二次元のモデルを、前記画像データに照らし合わせ、前記モデルを規定するパラメータの最適化をしながら前記対象の検出を行うステップと、
前記画像データに前記対象が含まれている場合には前記対象の姿勢の推定を行うステップと、
を、備え、
前記対象の検出を行うステップにおいては、
前記パラメータとして、ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）を設定し、
前記二次元のモデルを、三次元の検出対象についての画像データの輝度分布に応じて区分された複数の領域により特徴分布として作成し、
前記対象の姿勢の推定を行うステップにおいては、
前記二次元のモデルの前記画像データ中における前記ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）からなるパラメータと、平行移動量（ｘ，ｙ）と拡大縮小倍率ｓと回転角度θとからなる幾何学的変換パラメータと、を進化計算手法により最適化するステップと、
最適化した前記ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）からなるパラメータ及び前記幾何学的変換パラメータについて評価するステップと、
を含み、
前記幾何学的変換に関するパラメータから画像中での前記対象を検出し、
前記ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）に関するパラメータから前記対象の姿勢を推定する、検出方法。
［２］三次元の検出対象として人物画像を含むカラー画像データから、顔を対象として検出するに当たり、
前記検出の対象を含むカラー画像を入力し、
前記カラー画像をグレー画像に変換し、該グレー画像から黒画素の誇張処理を少なくとも一回以上行ってターゲット画像を得る、前記［１］に記載の検出方法。
［３］前記進化計算手法を、遺伝的アルゴリズム、差分進化、粒子群最適化、蟻コロニー最適化の何れかとする、前記［１］又は［２］に記載の検出方法。
［４］前記遺伝的アルゴリズムにおいて、遺伝的操作を行って個体の最適化をする際の評価に用いる適応度関数ｆは下記（１）〜（４）式で表される、前記［３］に記載の検出方法。
ｆ＝Ｒ×Ｗ（１）
ここで、Ｒ＝ｒ１＋ｒ２＋ｒ３＋ｒ４（２）
Ｗ＝１．０＋０．５×ｍ＋ｍ’ _ｗ＋ｍ’ _ｈ（３）
ｆは適応度であり、Ｒは報酬、Ｗは重み付けを示し、（２）と（３）の各式は報酬と重みを構成している式である。
報酬ｒ１は、グレー画像の輝度分布と二値画像の分布を調べることによって得られる報酬値である。
報酬ｒ２は、物体のパーツとしての顔パーツ内に存在している黒画素数を数え、［０．０，１．０］に正規化することによって求められる。
報酬ｒ３は、物体の非パーツ領域として肌領域に存在している白画素数を数え、［０．０，１．０］に正規化することによって求められる。
報酬ｒ４は、候補領域内で全人類に共通するＹＣｒＣｂ表色系の閾値に当てはまる画素数を数え、［０．０，１．０］に正規化することによって求められる。ここで、Ｙは輝度、Ｃｒは赤色の色差、Ｃｂは青色の色差を表している。
（４）式のｗ、ｈは個体によって決定されたテンプレートの幅と高さであり、ｔ _ｉｊは座標（ｉ，ｊ）におけるグレー画像の画素値、ｔ’ _ｉｊは座標（ｉ，ｊ）におけるテンプレートの画素数を表している。
［５］前記［１］乃至［４］の何れかに記載の検出方法をコンピュータに実行させるためのプログラムを備えた、検出プログラム。
［６］請求項１乃至４の何れかに記載の検出方法をコンピュータで実行させる検出装置であって、
三次元の検出対象を含む画像データを格納する画像データ格納部と、
前記対象を抽象化し、前記パラメータを用いて二次元のモデルを保存するモデル保存部と、
前記モデルを規定する前記幾何学的変換パラメータの最適化をする最適化処理部と、
を備える、検出装置。
［７］前記最適化処理部は、前記パラメータの最適化と、前記モデルの前記画像データ中における前記幾何学的変換パラメータの最適化とを、最適化手法により同時に行う、［６］に記載の検出装置。
［８］さらに、前記最適化処理部による前記パラメータの最適化を評価する評価部を備える、前記［６］又は［７］に記載の検出装置。
［９］前記モデル保存部は、前記二次元のモデルを、三次元の対象についての画像データの輝度分布に応じて区分された複数の領域により作成し、
前記最適化処理部で最適化される前記パラメータとして、ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）が設定される、前記［６］乃至［８］の何れかに記載の検出装置。

本発明によれば、三次元の検出対象を含む画像データから効率的にかつ簡便に対象物を検出することができる。

本発明の実施形態で使用する原理のうち、三次元の検出対象を二次元のモデルで抽象化することを説明するための図であり、（ａ）は実際の状況を示す図、（ｂ）は（ａ）に示した点線と実線の部分を抜き出して示した図である。図１に示す特徴の分布を抽象化した二次元のモデルの一つの例である。ヨーによる見えの変化を示す図である。ピッチによる見えの変化を示す図である。二次元のモデルから特徴分布を生成することを説明するための図である。本発明の実施形態に係る検出方法を説明するための図である。本発明の実施形態に係る検出方法の前半を詳細に説明する図である。本発明の実施形態に係る検出方法の後半を詳細に説明する図である。各個体が有する染色体を示す図である。顔らしさを判定するための再分割したモデルである。図１０に示すモデル中に平均輝度値を示し、比較の状態を示す図である。本発明の実施形態に係る検出装置のブロック構成図である。別の二次元モデルの例を示す図である。実施例の結果を示す図である。

以下、図面を参照しながら本発明に係る実施形態を詳細に説明するが、本発明の実施形態は特許請求の範囲に記載した発明の範囲において適宜変更したものを含む。

［原理］
先ず、本発明の実施形態で使用する原理を説明する。三次元の検出対象を撮影して作成された画像データから検出対象をサーチする前に、三次元の検出対象を二次元のモデルに抽象化する。

具体的には、三次元の対象についての二次元画像データにおいて、画素毎に輝度を求め、その輝度分布に応じて輝度値から複数の領域に区分する。例えば、第一の領域として輝度値が高い画素の集合を第一の領域とし、輝度値が低い画素の集合を第二の領域とし、輝度値が中間の画素を第三の領域とする。そして、第一の領域と第二の領域とで二次元のモデルを作成する。

図１は、本発明の実施形態で使用する原理のうち、三次元の検出対象を二次元のモデルで抽象化することを説明するための図であり、（ａ）は実際の状況を示し、（ｂ）は（ａ）に示した点線と実線の部分を抜き出して示す。図２は図１に示す特徴の分布を抽象化した二次元のモデルの一つの例である。三次元の検出対象は、図１に示すように輝度分布として表現され、図２に示すように輝度分布から二次元のモデルを作成することができる。

三次元の検出対象は、図１（ａ）に示すように、輝度分布として表現される。照明環境に対して不変的な特徴量は検出対象に応じて決定される。例えば検出対象が自分の顔である場合には、照明環境に対して不変な特徴量として、顔のパーツと、肌領域の相対的な輝度値の大小関係が使用される。顔のパーツには眼瞼裂、鼻孔、唇などが挙げられ、肌領域には眉間、頬などが挙げられる。このように、検出対象は、顔のパーツ（実線の領域）と肌領域（点線の領域）とに分けられる。

図２に示すように、顔の左側面視での顔のパーツ及び肌領域の分布と、顔の右側面視での顔のパーツ及び肌領域の分布と、を一つの分布として、二次元のモデルを作成する。二次元のモデルは、二次元のパターンと呼んでもよい。

このように、検出対象である三次元の特徴分布を、二次元のモデルとして抽象化する。その際、肌領域の一つを更に複数の領域に分割して、領域分割された二次元モデルを作成する。また、二次元のモデルにおいて検出の際に使用しない領域を設定する。これは、計算の手数を減らし、より実用的な使用を可能にする。

二次元のモデルの説明を続ける。二次元のモデルは複数の領域から構成され、複数の領域は、一つの線又は複数の線により区分される。図３と図４で示すモデルでは、二次元のモデルが縦ｈ×横ｗの矩形で表現されており、縦線Ｐ_ｓ，Ｐ_ｅと、横線ｄとで領域が区分されている。縦線Ｐ_ｓ，Ｐ_e、横線ｄをパラメータとしてそれぞれの範囲で変化させることにより、全ての輝度の特徴分布を表現することができる。

検出の対象に三次元座標軸を設定し、ヨー、ピッチ、ロールの各軸の周りに回転させることで、検出の対象が傾いていることが表現される。以下、検出対象が人物の顔である場合を想定して説明する。

図３は、ヨーによる見えの変化を示す図である。縦線Ｐ_ｓ，Ｐ_eを横ｗの左右にシフトさせることにより、ヨーによる見えの変化に対応することができる。０≦Ｐ_ｓ≦ｗ/2-1，w/2≦Ｐ_ｅ≦ｗ-1の範囲で、ＰｓとＰeとの差分が或る一定の範囲となる範囲（例えば、２０≦｜Ｐ_ｓ−Ｐ_e｜≦２７）で、Ｐ_ｓとＰ_ｅを変化させる。すなわち、ヨーによる見えの変化は、パラメータとして第１の縦線ｐ_ｓ，第２の縦線ｐ_ｅを左右に移動させ、第１の縦線ｐ_ｓから第２の縦線ｐ_ｅまでの領域のみを使用することで、すべてのヨーによる見えの変化が表され、ヨーによって変化する全ての輝度の特徴分布が表現される。

図４は、ピッチによる見え方の変化を説明するための図である。ｄの値に基づいて鼻孔を通る水平線よりも上もしくは下の領域を上下にシフトさせることにより、ピッチによる見えの変化に対応することができる。顔が上を向くと目瞼裂から鼻孔までの距離が短く、逆に顔が下を向くと鼻孔から***までの距離が短くなる。これを図４において点線で示す横線を上下することで表現する。ｄ＝０のときは何も処理しないため、正面顔を表現することになる。顔が上を向いたときは、ｄが負の値をとるため、鼻孔の上端を通る水平線よりも下の領域を|ｄ|画素分上に移動させ、二次元モデルの眼瞼裂の下端から鼻孔の上端までの領域を無視することで、眼瞼裂から鼻孔までの距離が短くなる様子を表現する。すなわち、横線から下の領域が上方向に詰まっていく。逆に、顔が下を向いたときは、鼻孔の下端を通る水平線よりも上の領域をｄ画素分下方向に移動させ、二次元モデルの鼻孔の下端から***の上端までの領域を無視することで、鼻孔から***までの距離が短くなるように表現する。すなわち、横線から上の領域が下方向に詰まっていく。

図５は、二次元のモデルから特徴分布を生成することを説明するための図である。図５に示すように、ヨー、ピッチ、ロールによる見えの各変化のうち少なくとも一つ以上の変化を規定するために、複数の領域から構成された二次元のモデルから、検出対象とする領域を切り取り、かつ、ヨー、ピッチ、ロールによる見え変化を規定するためのパラメータを変化させて、三次元全ての輝度分布の表現をすることができる。パタメータの変化は、遺伝的アルゴリズム（genetic algorithm:ＧＡ）をはじめとする進化計算手法などの最適化手法により自動的に行える。進化計算手法として、差分進化、粒子群最適化、蟻コロニー最適化を用いてもよい。

［検出方法］
本発明の実施形態に係る検出方法は、前述の原理を用い、三次元の検出対象を含む画像データから対象を検出する際に、対象を二次元のモデルにすることにより抽象化し、モデルを規定するパラメータの最適化を図りながら、対象の検出を行う。

検出が人物の顔である場合には次のようになる。すなわち、三次元の検出対象として人物画像を含む画像データから、顔を対象として検出する際に、対象を二次元のモデルにすることにより抽象化し、モデルを規定するパラメータの最適化を図りながら、対象の検出を行う。

本発明の実施形態に係る検出方法は、画像データの中に含まれている対象を検出しながら、対象を抽象化した二次元モデルのパラメータの最適化を図っている。そのパラメータには、ヨー軸、ピッチ軸及びロール軸の何れか一つ又は複数の回転に対応している。よって、対象の姿勢をパラメータにより特定することができる。

本発明の実施形態によれば、画像データ中での対象の検出と、対象の姿勢（向き）の推定とを同時に行える。よって、対象の検出、追跡及び対象の姿勢推定を、同時に、かつ効率良く行える。

本発明の実施形態に係る検出方法を詳細に説明する。図６は本発明の実施形態に係る検出方法を説明するための図である。

先ず、三次元の検出対象を含んだ画像データから、パラメータを用いて検出の対象となる二次元のモデルを設定する。二次元のモデルは複数の領域から構成され、複数の領域は、一つの線又は複数の線により区分される。図２で示すモデルでは、二次元のモデルが縦ｈ×横ｗの矩形で表現されており、縦線Ｐ_ｓ，Ｐ_ｅと、横線ｄとで領域が区分されている。縦線Ｐ_ｓ，Ｐ_e、横線ｄをパラメータとしてそれぞれの範囲で変化させることにより、図５で示すように全ての輝度の特徴分布を表現することができる。

次に、対象が含まれているか否かを判断し、含まれている場合には姿勢の状態を推定する。画像中に含まれる各種物体（ここでは、人物が含まれるものとする。）の眼瞼裂や鼻孔，***といった顔パーツなど、対象を構成するパーツを誇張する処理を行う。この処理を終えた画像を「ターゲット画像」と呼ぶことにする。

具体的には、ターゲット画像中で、検出の候補領域を選定する。特徴分布と同じサイズの矩形を、平行移動量としてｘ方向及びｙ方向の移動量（ｘ，ｙ）と、拡大縮小の度合い即ち拡大縮小倍率ｓと、回転角度θとによって、ターゲット画像中に候補領域となる領域を選定する。この選定では、選定すべき領域毎に遺伝的アルゴリズムをはじめとする進化計算手法などの最適化手法により最適化して選択した特徴分布を用い、各領域に分割した領域それぞれの平均輝度値を求める。そして、領域毎の平均輝度の値を求めて、領域毎の平均輝度値を比較し、「或る領域（顔パーツ領域と推定される領域）の平均輝度値＜別の或る領域（肌領域と推定される領域）の平均輝度値」となる分布を求める。そして、この分布がどの程度特徴分布に近いかを数値で表現することで、各候補領域、つまり個体を評価する。

その結果、評価が所定の条件を満足するまで進化計算手法を繰り返し、対象を検出すると同時に、姿勢を求めることができる。

図７は本発明の実施形態に係る検出方法の前半を詳細に説明する図である。図８は本発明の実施形態に係る検出方法の後半を詳細に説明する図である。

先ず、検出の対象を含むカラー画像を入力し、カラー画像をグレー画像に変換し、必要に応じて、グレー画像から黒画素の誇張処理を一回以上、例えば二回行い、対象のパーツとして顔のパーツを強調する。このようにしてターゲット画像を得る。

それと前後して、目的関数を最もよく満たす最適解を取得するために遺伝的アルゴリズムの初期設定をする。図９は、各個体が有する染色体を示す。ここでいう個体は、探索空間内の探索点に対応する。図９に示すように、各個体は、幾何学変換に関するパラメータと、特徴分布の見えに関するパラメータとを、有する染色体を持つ。遺伝子を「０」と「１」のビット列とする。幾何学変換に関するパラメータとして、平行移動量（ｘ，ｙ）と拡大縮小倍率ｓと回転角度θを設定する。特徴分布の見えに関するパラメータとして、ヨーによる見え（ｐ_ｓ，ｐ_e）と、ピッチによる見え（ｄ）とを設定する。それぞれ８ｂｉｔを構成し、トータルパラメータの数７×８ビットで、合計５６ｂｉｔからなる。初期設定としてはランダムな値を設定する。これにより、ターゲット画像中で対象の領域候補を選定することができる。

その後、選定した領域候補について、平均輝度値の分布を用いて顔らしさを判定する。
図１０は、顔らしさを判定するための再分割したモデルである。図１０に示すように、二次元モデルの領域を分割する。ここでは、設定した特徴分布を用いて、分割された領域それぞれの平均輝度値を計算する。その際には、膨張処理したグレースケース画像を使用する。図１１は図１０に示すモデル中に平均輝度値を示し、比較の状態を示す図である。顔のパーツ（黒）と肌領域（白）の平均輝度値を比較し、「或る領域（顔パーツ領域と推定される領域）の平均輝度値＜別の或る領域（肌領域と推定される領域）の平均輝度値」となる分布を求める。そして，この分布がどの程度特徴分布に近いかを数値で表現することで，各候補領域、つまり個体を評価する。

その後、遺伝的操作として、選択、交叉及び突然変異を行い、世代交代を繰り返す。最終世代において、最も評価値が高い個体によって得られた候補領域を検出結果として表示する。これはエリート個体と呼ばれる。エリート個体が持つパラメータのうち、幾何学変換に関するパラメータから画像中での対象の位置が検出することができ、特徴分布の見えに関するパラメータにより、対象の姿勢を推定することができる。

ここで、遺伝的操作を行って個体の最適化をする際の評価について説明する。各候補領域内で、目的関数を使用して評価を行い、その値を適応関数として個体の評価に用いる。この適応度に基いて選択、交叉、突然変異といった遺伝的操作を繰り返し行って世代交代をし、より高い適応度を持つ個体を生成して最適解を取得する。

適応関数について説明する。適応度は適応度関数によって取得される。適応度関数は次式で表される。
ｆ＝Ｒ×Ｗ（１）
ここで、Ｒ＝ｒ１＋ｒ２＋ｒ３＋ｒ４（２）
Ｗ＝１．０＋０．５×ｍ＋ｍ’_ｗ＋ｍ’_ｈ（３）
ｆは適応度であり、Ｒは報酬、Ｗは重み付けを示し、（２）と（３）の各式は報酬と重みを構成している式であり、すべて［０．０，１．０］に正規化されている。

報酬Ｒは、例えば報酬ｒ１乃至ｒ４の加算で求められる。
報酬ｒ１は、グレー画像の輝度分布と二値画像の分布を調べることによって得られる報酬値である。候補領域でグレー画像における輝度分布を調べる。図１０に示すように、輝度分布のテンプレートが領域毎に分割されている。

輝度分布モデルは、図１０に示すように分割されており、それぞれの領域で平均輝度値を算出する。次に、対象のパーツ領域としての顔パーツ領域の平均輝度と肌領域の平均輝度の大小を比較する。比較は、テンプレートの線対称の対称軸を左右に分けて行う。つまり、左の顔パーツと右の肌領域との比較は行わない。次に、二値画像を用いて物体のパーツとしての顔パーツと非パーツ領域としての肌領域のパターンを調べる。はじめに、二値化によって顔パーツは黒画素、肌領域は白画素として分離し、図１０に示すように分割されたそれぞれの領域内で黒画素数を数え、黒画素数の大小比較をする。その際、二値画素は照明環境によっては肌領域にも黒画素が現れる点に注意する必要がある。そこで、現われる黒画素を判別する条件を導入する。人の顔の特徴として、顔パーツのみの平均輝度値は、正面顔全体の平均輝度値よりも必ず小さくなるはずである。従って、黒画素と同じ座標のグレー値を参照し、候補領域全体の平均輝度値よりも小さければ、黒画素と判別する。この条件により、より正確な黒画素を抽出することができる。このようにして、二値画像を用いて顔パーツと肌領域のパターンを調べる。グレー画素を用いた平均輝度値の大小関係と、二値画素を用いた黒画素数の大小関係が共に正しく満たされた数を数え、［０．０，１．０］に正規化した値ｒ１が報酬ｒ１である。

報酬ｒ２及びｒ３について説明する。報酬ｒ２は、物体のパーツとしての顔パーツ内に存在している黒画素数を数え、［０．０，１．０］に正規化することによって求められる。報酬ｒ３は、物体の非パーツ領域として肌領域に存在している白画素数を数え、［０．０，１．０］に正規化することによって求められる。

報酬ｒ４は、候補領域内で全人類に共通するＹＣｒＣｂ表色系の閾値に当てはまる画素数を数え、［０．０，１．０］に正規化することによって求められる。ここで、Ｙは輝度、Ｃｒは赤色の色差、Ｃｂは青色の色差を表している。

重みについては、報酬を計算する際に使用された図１０に示すテンプレートをそのまま利用し、候補領域内ですべての顔パーツに対応する画素値とすべての肌領域に対応する画素値からそれぞれの平均輝度値を算出する。次に、テンプレートの顔パーツと肌領域を表す領域すべてにそれぞれの平均輝度値を使用して、テンプレートを作成する。このテンプレートと候補領域内のグレー画像との画素差を計算することで、重みｗを取得する。式（４）は、重みｍを計算するための計算式である。
ｗ、ｈは個体によって決定されたテンプレートの幅と高さであり、ｔ_ｉｊは座標（ｉ，ｊ）におけるグレー画像の画素値、ｔ’_ｉｊは座標（ｉ，ｊ）におけるテンプレートの画素数を表している。この画素差の計算は人工的に作成された輝度分布モデルを基にしているので、ターゲット画素と完全に一致はしない。そのため、さらに重みｍに対して０．５の重みを付加する。

［検出装置］
図１２は、本発明の実施形態に係る検出装置１０を示すブロック構成図である。本発明の実施形態に係る検出装置１０は、三次元の検出対象を含む画像データを格納する画像データ格納部１１と、対象を抽象化し、パラメータを用いて二次元のモデルを保存するモデル保存部１２と、モデルを規定するパラメータの最適化をする最適化処理部１３と、を備える。最適化処理部１３は、パラメータの最適化と、モデルの画像データ中における幾何学的変換パラメータの最適化とを最適化手法により同時に行う。好ましくは、最適化処理部による前記パラメータの最適化を評価する評価部１４を備える。

モデル保存部１２では、二次元のモデルを、三次元の対象についての画像データの輝度分布に応じて区分された複数の領域により作成して保存する。最適化処理部１３で最適化されるパラメータとして、交差する二方向の線の移動量が設定される。各部の機能については、前述の原理及び検索方法により詳細に説明したので、説明を省略する。

本発明の実施形態に係る検出装置１０は、演算処理部及び制御部を構成するＣＰＵと、各種データを記憶する記憶部と、データの入出力を行う入力部及び出力部とを備えるコンピュータにおいて、記憶部などで画像データ格納部１１を実現し、記憶部又はＣＰＵでモデル保存部１２を実現し、最適化処理部１３をＣＰＵ上に展開した検索プログラムにより実行することにより実現される。

［検出プログラム］
本発明の実施形態に係る検出プログラムは、コンピュータの記憶部に格納されてＣＰＵに展開されて実行されることにより、前述の最適化処理部１３、評価部１４のほか、画像データ格納部１１及びモデル保存部１２のインタフェースとして実現される。

本発明の実施形態に係る検出プログラムは、三次元の検出対象を含む画像データから対象を検出するためのプログラムであり、次の処理を行う。例えば、最適化処理部１３により、対象を抽象化した二次元のモデルを画像データに照らし合わせ、モデルを規定するパラメータの最適化をしながら対象の検出を行う。

対象が人物の顔である場合には、本発明の実施形態に係る検出プログラムは、三次元の検出対象として人物画像を含む画像データから、顔を対象として検出するプログラムであり、次の処理を行う。例えば、予め対象を抽象化し、パラメータを用いて二次元のモデルを作成して、モデル保存部１２に保存しておく。そして、最適化処理部１３により、モデル保存部１２に保存したモデルを読み出し、画像データにモデルを照らし合わせて、パラメータの最適化をしながら対象の検出を行う。

具体的には、本発明の実施形態に係る検出プログラムは、次のステップを含んでいる。一つのステップは、三次元の検出対象を含む画像データにおいて検出の対象を予めパラメータを用いて二次元のモデルにより抽象化して規定する。これは、モデル保存部１２に保存される。一つのステップは、モデルの画像データ中における幾何学的変換パラメータと、二次元のモデルを規定するパラメータと、を進化計算手法により最適化する。最適化処理部１３が、画像データ格納部１１からの画像データにおいて、幾何学的パラメータと二次元モデルを規定するパラメータとを進化計算手法により最適化する。好ましい検出プログラムでは、最適化処理部１３において最適化した幾何学的変換パラメータ及び二次元モデルを規定するパラメータについて評価するステップを有する。このステップは評価部１４においてなされる。

ここで、モデル保存部１２に保存される二次元モデルは、三次元の検出対象についての画像データの輝度分布に応じて区分された複数の領域により作成され、交差する二方向の線の移動量がパラメータとして設定される。

本発明の実施形態においては、主として人物の顔の検出を例に挙げているが、これに限定はされない。例えば、二次元のモデルとしては、図１３に示すようなモデルが考えられる。図１３に示すモデルにおいても、図３及び図４を参照して説明したように、モデルの幅（横）ｗと高さ（縦）ｈが、ｗ＝４０，ｈ＝２６であると仮定すると、Ｐｓを０以上１９以下、Ｐｄを２０以上３９以下、ｄを−５以上６以下の範囲で変化させる。なお、幾何学変換のパラメータｘ、ｙ、ｓ、θについては、前述と同様に設定される。

本発明の実施形態の有効性を示すために実験をした。被検者３人に顔を上下左右回転してもらい、その様子をウェブカメラを用いて撮影した。画素サイズは３２０×２４０画素で、３０ｆｐｓで撮影した。ＧＡは精度が乱数種によって変化するため、一つの画素シーケンスに対して５種類の乱数種を用いて実験し、その精度と処理時間の平均値を全体の計算とした。使用した個体数は２５個体で、世代交代は５０世代である。個体の選択方法にルーレット選択を使用し、交叉方法として一様交叉を用いた。交叉率は０．７で、突然変異率は０．０５である。正解判定は目視で行い、結果矩形が顔パーツを含んでいて、かつ回転角度が顔とほぼ一致していると判断できる場合、正解とした。実験に使用した計算機のＣＰＵは２．９ＧＨｚであり、物理メモリは８ＧＢであった。

表１は精度と処理時間の結果を示すテーブルである。被験者によって精度が大きく異なっている。これは、被験者によってピッチとヨーの大きさが異なるためである。特に、被験者２，３の場合、俯いたときの顔の角度が大きく、顔パーツの特徴が失われてしまい、精度が下がっている。

顔の動きが比較的小さい被験者１では、９３％という高い精度が得られた。顔の動きが大きい被験者２及び３では若干精度が落ちたが、３次元の動きであっても、二次元モデルと遺伝的アルゴリズムの組み合わせと、安価な汎用性を有するウェブカメラ１台のみで、検出と姿勢推定の同時処理が実現することができた。
処理時間については、全ての結果で４９ミリ秒以下であり、非常に高速である。これは、スマートフォンのような性能が低い計算機でも十分応用可能であることを示している。

図１４は実施例の結果を示す図である。各画像の左上でＧＡによって生成された輝度分布モデルも示している。顔の見えの変化に応じて最適なモデルの見えが選択されていることがわかる。検出矩形が比較的理想的な位置で検出できていることから、提案手法は有効性があると言える。

本発明の実施形態では、検出の対象として人物の顔を検出する場合を例にとって説明したが、人物の顔以外の部分でもよく、また、人物以外の動植物、土地に定着した看板や標識、自動車などの動くものであってもよい。

本発明の実施形態に係る検出方法では、二次元情報と最適化方法を用いてリアルタイムに三次元の物体の検出、追跡、姿勢推定（向き及び方向）が同時に行える。そして、従来のような学習方法を使用せず、正面画像からセンシングをスタートしなければならないという条件もない。さらには、赤外線やステレオカメラといった特殊な機器の使用を前提としない。そのため、従来と比べ、効率的かつ実用的な顔などの物体の検出が容易にリアルタイムで可能となり、また、初期検出及び再検出時において正面領域以外の領域についても検出が可能となる。

本発明の実施形態は、ウェブカメラといった汎用性のある画像デバイスがあればよいので、例えば人物の頭部姿勢の推定や頭部のジェスチャーを用いた入力インタフェース、ドライバーの居眠り運転の防止装置、エンターテイメント分野やアミューズメント分野における各種装置として適用される。

カメラなどの画像デバイスはセンサの一種であるので、画像デバイスで取得した画像データから、対象をセンシングすることができる。よって、検出方法、検出プログラム、検出装置は、センシング方法、センシングプログラム、センシング装置と呼んでもよい。

１０：検出装置
１１：画像データ格納部
１２：モデル保存部
１３：最適化処理部
１４：評価部

Claims

三次元の検出対象を含む画像データから対象の検出及び前記対象の姿勢推定を同時に行う検出方法であって、
三次元の検出対象を含む画像データから対象を検出するに当たり、
前記対象を抽象化した二次元のモデルを、前記画像データに照らし合わせ、前記モデルを規定するパラメータの最適化をしながら前記対象の検出を行うステップと、
前記画像データに前記対象が含まれている場合には前記対象の姿勢の推定を行うステップと、
を、備え、
前記対象の検出を行うステップにおいては、
前記パラメータとして、ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）を設定し、
前記二次元のモデルを、三次元の検出対象についての画像データの輝度分布に応じて区分された複数の領域により特徴分布として作成し、
前記対象の姿勢の推定を行うステップにおいては、
前記二次元のモデルの前記画像データ中における前記ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）からなるパラメータと、平行移動量（ｘ，ｙ）と拡大縮小倍率ｓと回転角度θとからなる幾何学的変換パラメータと、を進化計算手法により最適化するステップと、
最適化した前記ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）からなるパラメータ及び前記幾何学的変換パラメータについて評価するステップと、
を含み、
前記幾何学的変換に関するパラメータから画像中での前記対象を検出し、
前記ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）に関するパラメータから前記対象の姿勢を推定する、検出方法。
三次元の検出対象として人物画像を含むカラー画像データから、顔を対象として検出するに当たり、
前記検出の対象を含むカラー画像を入力し、
前記カラー画像をグレー画像に変換し、該グレー画像から黒画素の誇張処理を少なくとも一回以上行ってターゲット画像を得る、請求項１に記載の検出方法。
前記進化計算手法を、遺伝的アルゴリズム、差分進化、粒子群最適化、蟻コロニー最適化の何れかとする、請求項１又は２に記載の検出方法。
前記遺伝的アルゴリズムにおいて、遺伝的操作を行って個体の最適化をする際の評価に用いる適応度関数ｆは下記（１）〜（４）式で表される、請求項３に記載の検出方法。
ｆ＝Ｒ×Ｗ（１）
ここで、Ｒ＝ｒ１＋ｒ２＋ｒ３＋ｒ４（２）
Ｗ＝１．０＋０．５×ｍ＋ｍ’ _ｗ＋ｍ’ _ｈ（３）
ｆは適応度であり、Ｒは報酬、Ｗは重み付けを示し、（２）と（３）の各式は報酬と重みを構成している式である。
報酬ｒ１は、グレー画像の輝度分布と二値画像の分布を調べることによって得られる報酬値である。
報酬ｒ２は、物体のパーツとしての顔パーツ内に存在している黒画素数を数え、［０．０，１．０］に正規化することによって求められる。
報酬ｒ３は、物体の非パーツ領域として肌領域に存在している白画素数を数え、［０．０，１．０］に正規化することによって求められる。
報酬ｒ４は、候補領域内で全人類に共通するＹＣｒＣｂ表色系の閾値に当てはまる画素数を数え、［０．０，１．０］に正規化することによって求められる。ここで、Ｙは輝度、Ｃｒは赤色の色差、Ｃｂは青色の色差を表している。
（４）式のｗ、ｈは個体によって決定されたテンプレートの幅と高さであり、ｔ _ｉｊは座標（ｉ，ｊ）におけるグレー画像の画素値、ｔ’ _ｉｊは座標（ｉ，ｊ）におけるテンプレートの画素数を表している。
請求項１乃至４の何れかに記載の検出方法をコンピュータに実行させるためのプログラムを備えた、検出プログラム。
請求項１乃至４の何れかに記載の検出方法をコンピュータで実行させる検出装置であって、
三次元の検出対象を含む画像データを格納する画像データ格納部と、
前記対象を抽象化し、前記パラメータを用いて二次元のモデルを保存するモデル保存部と、
前記モデルを規定する前記パラメータと前記幾何学的変換パラメータの最適化をする最適化処理部と、
を備える、検出装置。
前記最適化処理部は、前記パラメータの最適化と、前記モデルの前記画像データ中における前記幾何学的変換パラメータの最適化とを、最適化手法により同時に行う、請求項６に記載の検出装置。
さらに、前記最適化処理部による前記パラメータの最適化を評価する評価部を備える、請求項６又は７に記載の検出装置。
前記モデル保存部は、前記二次元のモデルを、三次元の対象についての画像データの輝度分布に応じて区分された複数の領域により作成し、
前記最適化処理部で最適化される前記パラメータとして、ヨーによる見え（ｐ _ｓ，ｐ _e ）とピッチによる見え（ｄ）が設定される、請求項６乃至８の何れかに記載の検出装置。