JP4690190B2

JP4690190B2 - 画像処理方法および装置並びにプログラム

Info

Publication number: JP4690190B2
Application number: JP2005370748A
Authority: JP
Inventors: 元中李
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2004-12-22
Filing date: 2005-12-22
Publication date: 2011-06-01
Anticipated expiration: 2025-12-22
Also published as: JP2006202276A

Description

本発明は画像処理、具体的には画像に含まれる顔などの所定の対象物の形状を識別する画像処理方法および装置並びにそのためのプログラムに関するものである。

医療診断用画像の解釈や、身体的特徴を用いた認証などの様々な分野において、画像データにより表される画像を用いて、該画像に含まれる例えば人物の顔や、身体の部位などの所定対象物の統計モデルを構築することが行われており、統計モデルを構築する手法も種々提案されている。

非特許文献１および特許文献１には、顔を構成する頬、目、口などのような、所定対象物の各構成部品の位置、形状、大きさを表すことができる統計モデルＡＳＭ（Ａｃｔｉｖｅｓｈａｐｅｍｏｄｅｌ）についての記載がなされている。ＡＳＭによる手法は、まず、図１８に示すように、所定対象物（図示の例では、顔となる）の各構成部品の位置、形状、大きさを示す複数のランドマークの位置を、複数の所定対象物のサンプル画像の夫々に対して指定することによって、夫々のサンプル画像のフレームモデルを得る。フレームモデルは、ランドマークとなる点を所定のルールに従って接続してなるものであり、例えば、所定対象物が顔である場合、顔の輪郭線上の点、眉のライン上の点、目の輪郭線上の点、瞳の位置にある点、上下唇のライン上の点などがランドマークとして指定され、これらのランドマークのうち、顔の輪郭線上の点同士、唇のライン上の点同士などが夫々接続されてなるフレームが、顔のフレームモデルとなる。複数のサンプル画像から得られたフレームモデルが、平均処理が施されて顔の平均フレームモデルが得られる。この平均フレームモデル上における各ランドマークの位置が、夫々のサンプル画像における相対応するランドマークの位置の平均位置となる。例えば、顔に対して１３０個のランドマークを用い、これらのランドマークのうち、１１０番のランドマークは、顔における顎先端の位置を示す場合、平均フレームモデル上における１１０番のランドマークの位置は、各サンプル画像に対して指定された、顎先端の位置を示す１１０番のランドマークの位置を平均して得た平均位置である。ＡＳＭによる手法は、このようにして得た平均フレームモデルを、処理対象の画像に含まれる所定対象物に当てはめ、当てはめられた平均フレームモデル上における各ランドマークの位置を、処理対象の画像に含まれる所定対象物の各ランドマークの位置の初期値とすると共に、平均フレームモデルを処理対象の画像に含まれる所定対象物に合うように逐次変形（すなわち、平均フレームモデル上の各ランドマークの位置を移動）させることによって、処理対象の画像に含まれる所定対象物における各ランドマークの位置を得る。ここで、平均フレームモデルの変形について説明する。

前述したように、所定対象物を表すフレームモデルは、該フレームモデル上の各ランドマークの位置により表されるため、２次元の場合、１つのフレームモデルＳは、下記の式（１）のように２ｎ（ｎ：ランドマークの個数）個の成分からなるベクトルによって表すことができる。

Ｓ＝（Ｘ_１，Ｘ_２，・・・，Ｘ_ｎ，Ｘ_ｎ＋１，Ｘ_ｎ＋２，・・・，Ｘ_２ｎ）（１）
但し，Ｓ：フレームモデル
ｎ：ランドマークの個数
Ｘ_ｉ（１≦ｉ≦ｎ）：ｉ番目のランドマークの位置のＸ方向座標値
Ｘ_ｎ＋ｉ（１≦ｉ≦ｎ）：ｉ番目のランドマークの位置のＹ方向座標値

また、平均フレームモデルＳａｖは、下記の式（２）のように表すことができる。

各サンプル画像のフレームモデルと、これらのサンプル画像から得た平均フレームモデルＳａｖを用いて、下記の式（３）に示す行列を求めることができる。

式（３）に示す行列から、Ｋ（１≦Ｋ≦２ｎ）個の固有ベクトルＰ_ｊ（Ｐ_ｊ１，Ｐ_ｊ２，・・・，Ｐ_{ｊ（２ｎ）}）（１≦ｊ≦Ｋ）および各固有ベクトルＰ_ｊに夫々対応するＫ個の固有値λ_j（１≦ｊ≦Ｋ）が求められ、平均フレームモデルＳａｖの変形は、下記の式（４）に従って、固有ベクトルＰ_ｊを用いて行われる。

式（４）におけるΔＳは、各ランドマークの移動量を表すものであり、すなわち、平均フレームモデルＳａｖの変形は、各ランドマークの位置を移動させることによって行われる。また、式（４）から分かるように、各ランドマークの移動量ΔＳは、変形パラメータｂ_ｊと固有ベクトルＰ_ｊから求められるものであり、固有ベクトルＰ_ｊは既に求められているので、平均フレームモデルＳａｖを変形させるために、変形パラメータｂ_ｊを求める必要がある。ここで、変形パラメータｂ_ｊの求め方について説明する。

変形パラメータｂ_ｊを求めるために、まず、夫々のランドマークを特定するための特徴量を、各サンプル画像の各ランドマークに対して求める。ここで、特徴量の例としてランドマークの輝度プロファイルを、ランドマークの例として上唇の凹点を示すランドマークを用いて説明する。上唇の凹点（すなわち上唇の中心点）を示すランドマーク（図１９（ａ）に示す点Ａ０）に対して、このランドマークの両側のランドマーク（図１９（ａ）中の点Ａ１、Ａ２）を結び線と垂直し、かつランドマークＡ０を通過する直線Ｌにおける、ランドマークＡ０を中心とする小範囲（例えば１１画素）内の輝度プロファイルを、ランドマークＡ０の特徴量として求める。図１９（ｂ）は、図１９（ａ）に示すランドマークＡ０の特徴量となる輝度プロファイルの例を示している。

そして、各サンプル画像の上唇凹点を示すランドマークの輝度プロファイルから、上唇凹点を示すランドマークを特定するための統括特徴量を求める。ここで、各サンプル画像における相対応するランドマーク（例えば各サンプル画像における上唇の凹点を示すランドマーク）の特徴量間は差があるものの、これらの特徴量はガウシアン分布を呈すると仮定して総括特徴量を求める。ガウシアン分布の仮定に基づいた統括特徴量の求め方は、例えば平均処理により方法を挙げることができる。すなわち、複数のサンプル画像毎に、各ランドマークの上記輝度プロファイルを求めると共に、相対応するランドマークの輝度プロファイルを平均して、該ランドマークの統括特徴量とする。すなわち、上唇の凹点を示すランドマークの統括特徴量は、複数のサンプル画像の夫々における上唇の凹点を示すランドマークの輝度プロファイルを平均して得たものとなる。

ＡＳＭは、処理対象の画像に含まれる所定対象物に合うように平均フレームモデルＳａｖを変形させる際に、画像中の、平均フレームモデルＳａｖ上のランドマークに対応する位置を含む所定の範囲において、該ランドマークの統括特徴量と最も相似する特徴量を有する点を検出する。例えば上唇の凹点の場合、画像中の、平均フレームモデルＳａｖにおける上唇の凹点を示すランドマークに対応する位置（第１の位置という）を含む、前述の小範囲より大きい範囲（画像中の、平均フレームモデルＳａｖにおける上唇の凹点を示すランドマークの両側のランドマークに夫々対応する位置を結び線と垂直し、かつ第１の位置を通過する直線における、第１の位置を中心とする１１画素より多い例えば２１画素）内において、各画素を夫々中心とする１１画素毎にその中心画素の輝度プロファイルを求め、これらの輝度プロファイルの中から、サンプル画像から求められた、上唇の凹点を示すランドマークの輝度プロファイルと最も相似する統括特徴量（すなわち平均輝度プロファイル）を検出する。そして、検出されたこの輝度プロファイルを有する位置（すなわち、この輝度プロファイルが求められた１１個の画素の中心の画素の位置）と、第１の位置との差に基づいて、平均フレームモデルＳａｖ上における上唇の凹点を示すランドマークの位置を移動させるべき移動量を求めて、この移動量から変形パラメータｂ_ｊを算出する。具体的には、例えば、前述した差より小さい、例えばこの差の１／２の量を移動させるべき量として求め、この移動させるべき量から変形パラメータｂ_ｊを算出する。

なお、平均フレームモデルＳａｖを変形させた後に得たフレームモデルにより顔を表すことができなくなることを防ぐために、変形パラメータｂ_ｊを下記の式（５）に示すように、固有値λ_jを用いて限定することによってランドマークの位置の移動量を限定する。

ＡＳＭは、このようにして、平均フレームモデルＳａｖ上における各ランドマークの位置を移動させて平均フレームモデルＳａｖを収束するまで変形させ、収束時における各ランドマークの位置により示される、処理対象の画像に含まれる所定対象物のフレームモデルを得る。
Ｔ．Ｆ．Ｃｏｏｔｓ，Ａ．Ｈｉｌｌ，Ｃ．Ｊ．Ｔａｙｌｏｒ，Ｊ．Ｈａｓｌａｍ， "ＴｈｅＵｓｅｏｆＡｃｔｉｖｅＳｈａｐｅＭｏｄｅｌｓｆｏｒＬｏｃａｔｉｎｇＳｔｒｕｃｔｕｒｅｓｉｎＭｅｄｉｃａｌＩｍａｇｅｓ"，ＩｍａｇｅａｎｄＶｉｓｉｏｎＣｏｍｐｕｔｉｎｇ，ｐｐ．２７６−２８６，１９９４特表２００４−５２７８６３号公報

しかしながら、上述した手法は、相対応するランドマークの特徴量がガウシアン分布を呈するという仮定に基づいて、各サンプル画像における相対応するランドマークの特徴量から該ランドマークの統括特徴量を求めるようにしているため、サンプル画像間において、同じランドマークであっても特徴量が大きく変動する可能性がある場合や、照明条件の変動がある場合など、上記ガウシアン分布の仮定が成り立たないときに対応することができない。例えば、同じ上唇の凹点を示すランドマークであっても、上唇の上に髭の有無によって、このランドマークのプロファイルがかなり異なり、ガウシアン分布という仮定が成り立たない。そのため、ガウシアン分布に基づいて例えば平均プロファイルを統括特徴量として求め、この統括特徴量を用いて処理対象に含まれる所定対象物の各ランドマークを検出するのでは、検出の精度が良くなく、ロバスト性も低いという問題がある。

本発明は、上記事情に鑑みてなされたものであり、画像に含まれる所定対象物の形状を識別する精度およびロバスト性を向上させることができる画像処理方法および装置並びにそのためのプログラムを提供することを目的とするものである。

本発明の画像処理方法は、所定対象物上の、各々の位置および／または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とし、
１つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行い、
各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得する画像処理方法において、
前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うことを特徴とするものである。

ここで、「所定対象物の形状」とは、所定対象物の輪郭の形状とすることができるが、これに限らず、所定対象物が複数の構成部品を有する場合、これらの各構成部品の位置および／または位置関係、形状も所定対象物の形状に含まれるものとすることができる。

また、「該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理」とは、該処理によって、前記仮位置と前記ランドマークを示す画素として識別された前記画素の位置との差が小さくなる処理を意味し、例えば、前記仮位置を、該仮位置が移動される前の前記差の１／２や、１／３の量移動させる処理とすることができる。なお、各仮位置の初期値は、所定対象物の平均形状を示す複数のランドマークの各々の位置であるので、この仮位置を移動させる際の移動量が大き過ぎると、移動された後の位置を有する複数のランドマークにより表される形状は、所定の対象物からかけ離れてしまうという虞れがあるため、この移動量を前述した式（５）における変形パラメータｂ_ｊを限定することによって移動量を限定することが望ましい。具体的には、通常、所定対象物の平均形状を示す複数のランドマークの位置は、多数の、該所定対象物であるサンプル画像の夫々における複数のランドマークのうちの、相対応するランドマークの位置を平均して該複数のランドマークの夫々の位置の平均値を得ることによって求められるので、所定対象物の平均形状に対して主成分の分析、すなわち前述した式（３）の行列を用いて、固有値λ_j、固有ベクトルＰ_ｊを求めることができる。この固有ベクトルＰ_ｊと、仮位置に対して求められた移動量とを用いて、前述した式（４）（仮位置の移動量は式中ΔＳに対応する）とを用いて、これらの移動量が対応する変形パラメータｂ_ｊを算出することができる。そして、式（５）を満たすｂ_ｊの場合には、該ｂ_ｊが対応する移動量をそのままにすると共に、式（５）を満たさないｂ_ｊの場合には、該ｂ_ｊの値が式（５）に示される範囲内に納まるように、望ましくは該範囲内の最大値となるようにこのｂ_ｊの対応する移動量を修正する。

また、本発明における「マシンラーニング」（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）手法とは、ニューラルネットワークや、ブースティングの手法とすることができる。

また、前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないことが好ましい。

また、前記特徴量が、前記ランドマークを識別することができるものであればいかなるものであってもよく、例えば、該ランドマークの位置における輝度プロファイルとすることができる。

また、該ランドマークの位置における輝度プロファイルの微分値としてもよい。

なお、ここで、前記特徴量としての輝度プロファイルや、輝度プロファイルの微分値としては、多値化されたものであることが望ましい。

本発明の画像処理方法は、人物の顔の形状の識別に適用することができる。

本発明の画像処理装置は、所定対象物上の、各々の位置および／または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とする仮位置設定手段と、
１つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行う移動手段と、
各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得するランドマーク位置取得手段とを備えてなる画像処理装置であって、
前記移動手段が、前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うことを特徴とするものである。

前記移動手段は、前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないものであることが好ましい。

本発明の画像処理方法を、コンピュータに実行させるプログラムとして提供してもよい。

本発明の画像処理方法および装置は、画像に含まれる顔などの所定対象物の形状を識別するために、該所定対象物上のランドマークを示す点を検出する際に、マシンラーニング手法により、該ランドマークであることが分かっている複数のサンプル画像上の点における輝度プロファイルと、該ランドマークではないことが分かっている複数のサンプル画像上の点における輝度プロファイルとに対して学習を行って得た識別器および各識別器に対する識別条件を用いて該ランドマークを検出するようにしているので、複数のサンプル画像における該ランドマークであることが分かっている点における輝度プロファイルの平均値と近似する輝度プロファイルを有する点を当該ランドマークとして検出する従来技術より、精度が良い上に、ロバスト性も高い。

以下、図面を参照して、本発明の実施形態について説明する。

図１は、本発明の実施形態となる画像処理装置の構成を示すブロック図である。なお、本実施形態の画像処理装置は、入力された画像から顔を検出して、顔のフレームモデルを得るものであり、補助記憶装置に読み込まれた処理プログラムをコンピュータ（たとえばパーソナルコンピュータ等）上で実行することにより実現される。また、この処理プログラムは、ＣＤ−ＲＯＭ等の情報記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされることになる。

また、画像データは画像を表すものであり、以下、特に画像と画像データの区別をせずに説明を行う。

図１に示すように、本実施形態の画像処理装置は、処理対象となる画像Ｓ０を入力する画像入力部１０と、画像Ｓ０から顔を検出して、顔部分の画像（以下顔画像という）Ｓ１を得る顔検出部２０と、顔画像Ｓ１を用いて両目の位置を検出して顔画像Ｓ２（その詳細については後述する）を得る目検出部３０と、目検出部３０により得られた顔画像Ｓ２に対してフレームモデルＳｈを構築するフレームモデル構築部５０と、顔検出部２０に用いられる参照データＥ１および目検出部３０に用いられる参照データＥ２を記憶した第１のデータベース４０と、フレームモデル構築部５０に用いられる平均フレームモデルＳａｖおよび参照データＥ３を記憶した第２のデータベース８０とを備えてなる。

画像入力部１０は、本実施形態の画像処理装置に処理対象の画像Ｓ０を入力するものであり、例えば、ネットワークを介して送信されてきた画像Ｓ０を受信する受信部や、ＣＤ−ＲＯＭなどの記録媒体から画像Ｓ０を読み出す読取部や、紙や、プリント用紙などの印刷媒体から印刷媒体に印刷（プリントを含む）された画像を光電変換によって読み取って画像Ｓ０を得るスキャナなどとすることができる。

図２は、図１に示す画像処理装置における顔検出部２０の構成を示すブロック図である。顔検出部２０は、画像Ｓ０に顔が含まれているか否かを検出すると共に、顔が含まれている場合、顔のおおよその位置および大きさを検出し、この位置および大きさにより示される領域の画像を画像Ｓ０から抽出して顔画像Ｓ１を得るものであり、図２に示すように、画像Ｓ０から特徴量Ｃ０を算出する第１の特徴量算出部２２と、特徴量Ｃ０および第１のデータベース４０に記憶された参照データＥ１とを用いて顔検出を実行する顔検出実行部２４とを備えてなる。ここで、第１のデータベース４０に記憶された参照データＥ１、顔検出部２０の各構成の詳細について説明する。

顔検出部２０の第１の特徴量算出部２２は、顔の識別に用いる特徴量Ｃ０を画像Ｓ０から算出する。具体的には、勾配ベクトル（すなわち画像Ｓ０上の各画素における濃度が変化する方向および変化の大きさ）を特徴量Ｃ０として算出する。以下、勾配ベクトルの算出について説明する。まず、第１の特徴量算出部２２は、画像Ｓ０に対して図５（ａ）に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して画像Ｓ０における水平方向のエッジを検出する。また、第１の特徴量算出部２２は、画像Ｓ０に対して図５（ｂ）に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して画像Ｓ０における垂直方向のエッジを検出する。そして、画像Ｓ０上の各画素における水平方向のエッジの大きさＨおよび垂直方向のエッジの大きさＶとから、図６に示すように、各画素における勾配ベクトルＫを算出する。

なお、このようにして算出された勾配ベクトルＫは、図７（ａ）に示すような人物の顔の場合、図７（ｂ）に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルＫは口よりも目の方が大きくなる。

そして、この勾配ベクトルＫの方向および大きさを特徴量Ｃ０とする。なお、勾配ベクトルＫの方向は、勾配ベクトルＫの所定方向（例えば図６におけるｘ方向）を基準とした０から３５９度の値となる。

ここで、勾配ベクトルＫの大きさは正規化される。この正規化は、画像Ｓ０の全画素における勾配ベクトルＫの大きさのヒストグラムを求め、その大きさの分布が画像Ｓ０の各画素が取り得る値（８ビットであれば０〜２５５）に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルＫの大きさを修正することにより行う。例えば、勾配ベクトルＫの大きさが小さく、図８（ａ）に示すように勾配ベクトルＫの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが０〜２５５の全領域に亘るものとなるように勾配ベクトルＫの大きさを正規化して図８（ｂ）に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図８（ｃ）に示すように、勾配ベクトルＫのヒストグラムにおける分布範囲を例えば５分割し、５分割された頻度分布が図８（ｄ）に示すように０〜２５５の値を５分割した範囲に亘るものとなるように正規化することが好ましい。

第１のデータベース４０に記憶された参照データＥ１は、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群の夫々について、各画素群を構成する各画素における特徴量Ｃ０の組み合わせに対する識別条件を規定したものである。

参照データＥ１中の、各画素群を構成する各画素における特徴量Ｃ０の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。

なお、本実施形態においては、参照データＥ１を生成する際には、顔であることが分かっているサンプル画像として、３０×３０画素サイズを有し、図９に示すように、１つの顔の画像について両目の中心間の距離が１０画素、９画素および１１画素であり、両目の中心間距離において垂直に立った顔を平面上±１５度の範囲において３度単位で段階的に回転させた（すなわち、回転角度が−１５度，−１２度，−９度，−６度，−３度，０度，３度，６度，９度，１２度，１５度）サンプル画像を用いるものとする。したがって、１つの顔の画像につきサンプル画像は３×１１＝３３通り用意される。なお、図９においては−１５度、０度および＋１５度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。ここで、両目の中心間の距離が１０画素のサンプル画像であれば、目の中心位置はすべて同一となっている。この目の中心位置をサンプル画像の左上隅を原点とする座標上において（ｘ１，ｙ１）、（ｘ２，ｙ２）とする。また、図面上上下方向における目の位置（すなわちｙ１，ｙ２）はすべてのサンプル画像において同一である。

また、顔でないことが分かっているサンプル画像としては、３０×３０画素サイズを有する任意の画像を用いるものとする。

ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が１０画素であり、平面上の回転角度が０度（すなわち顔が垂直な状態）のもののみを用いて学習を行った場合、参照データＥ１を参照して顔であると識別されるのは、両目の中心間距離が１０画素で全く回転していない顔のみである。画像Ｓ０に含まれる可能性がある顔のサイズは一定ではないため、顔が含まれるか否かを識別する際には、後述するように画像Ｓ０を拡大縮小して、サンプル画像のサイズに適合するサイズの顔の位置を識別できるようにしている。しかしながら、両目の中心間距離を正確に１０画素とするためには、画像Ｓ０のサイズを拡大率として例えば１．１単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。

また、画像Ｓ０に含まれる可能性がある顔は、図１１（ａ）に示すように平面上の回転角度が０度のみではなく、図１１（ｂ）、（ｃ）に示すように回転している場合もある。しかしながら、両目の中心間距離が１０画素であり、顔の回転角度が０度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図１１（ｂ）、（ｃ）に示すように回転した顔については識別を行うことができなくなってしまう。

このため、本実施形態においては、顔であることが分かっているサンプル画像として、図９に示すように両目の中心間距離が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたサンプル画像を用いて、参照データＥ１の学習に許容度を持たせるようにしたものである。これにより、後述する顔検出実行部２４において識別を行う際には、画像Ｓ０を拡大率として１１／９単位で段階的に拡大縮小すればよいため、画像Ｓ０のサイズを例えば拡大率として例えば１．１単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図１１（ｂ）、（ｃ）に示すように回転している顔も識別することができる。

以下、図１２のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。

学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、上述したように１つのサンプル画像につき両目の中心位置が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（Ｓ１）。

次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される（Ｓ２）。ここで、それぞれの識別器とは、１つの画素群を構成する各画素における特徴量Ｃ０の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、１つの画素群を構成する各画素における特徴量Ｃ０の組み合わせについてのヒストグラムを識別器として使用する。

図１３を参照しながらある識別器の作成について説明する。図１３の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素Ｐ１、右側の頬の部分にある画素Ｐ２、額の部分にある画素Ｐ３および左側の頬の部分にある画素Ｐ４である。そして顔であることが分かっているすべてのサンプル画像について全画素Ｐ１〜Ｐ４における特徴量Ｃ０の組み合わせが求められ、そのヒストグラムが作成される。ここで、特徴量Ｃ０は勾配ベクトルＫの方向および大きさを表すが、勾配ベクトルＫの方向は０〜３５９の３６０通り、勾配ベクトルＫの大きさは０〜２５５の２５６通りあるため、これをそのまま用いたのでは、組み合わせの数は１画素につき３６０×２５６通りの４画素分、すなわち（３６０×２５６）⁴通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を０〜３５９を０〜４４と３１５〜３５９（右方向、値：０），４５〜１３４（上方向値：１），１３５〜２２４（左方向、値：２），２２５〜３１４（下方向、値３）に４値化し、勾配ベクトルの大きさを３値化（値：０〜２）する。そして、以下の式を用いて組み合わせの値を算出する。

組み合わせの値＝０（勾配ベクトルの大きさ＝０の場合）
組み合わせの値＝（（勾配ベクトルの方向＋１）×勾配ベクトルの大きさ（勾配ベクトルの大きさ＞０の場合）
これにより、組み合わせ数が９⁴通りとなるため、特徴量Ｃ０のデータ数を低減できる。

同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素Ｐ１〜Ｐ４の位置に対応する画素が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図１３の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量Ｃ０の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量Ｃ０の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳ２では、識別に使用され得る複数種類の画素群を構成する各画素における特徴量Ｃ０の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。

続いて、ステップＳ２で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される（Ｓ３）。すなわち、最初のステップＳ３では、各サンプル画像の重みは等しく１であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップＳ５において各サンプル画像の重みが更新された後の２回目のステップＳ３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳ３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。

次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（Ｓ４）。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップＳ６へと進む。

ステップＳ６では、直近のステップＳ３で選択された識別器が再び選択されないようにするため、その識別器が除外される。

次に、直近のステップＳ３で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる（Ｓ５）。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。

続いて、ステップＳ３へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。

以上のステップＳ３からＳ６を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における特徴量Ｃ０の組み合わせに対応する識別器が選択されたところで、ステップＳ４で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され（Ｓ７）、これにより参照データＥ１の学習を終了する。

なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における特徴量Ｃ０の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図１３の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

顔検出実行部２４は、複数種類の画素群を構成する各画素における特徴量Ｃ０の組み合わせのすべてについて参照データＥ１が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量Ｃ０の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔を検出する。この際、特徴量Ｃ０である勾配ベクトルＫの方向は４値化され大きさは３値化される。本実施形態では、すべての識別ポイントを加算して、その加算値の正負および大小によって顔であるか否かを識別する。例えば、識別ポイントの総和が正の値である場合、顔であると判断し、負の値である場合には顔ではないと判断する。

ここで、画像Ｓ０のサイズは３０×３０画素のサンプル画像とは異なり、各種サイズを有するものとなっている可能性がある。また、顔が含まれる場合、平面上における顔の回転角度が０度であるとは限らない。このため、顔検出実行部２４は、図１４に示すように、画像Ｓ０を縦または横のサイズが３０画素となるまで段階的に拡大縮小するとともに平面上で段階的に３６０度回転させつつ（図１４においては縮小する状態を示す）、各段階において拡大縮小された画像Ｓ０上に３０×３０画素サイズのマスクＭを設定し、マスクＭを拡大縮小された画像Ｓ０上において１画素ずつ移動させながら、マスク内の画像が顔の画像であるか否か（すなわち、マスク内の画像に対して得られた識別ポイントの加算値が正か負か）の識別を行う。そして、この識別を拡大縮小および回転の全段階の画像Ｓ０について行い、識別ポイントの加算値が正の値が得られた段階におけるサイズおよび回転角度の画像Ｓ０から、識別されたマスクＭの位置に対応する３０×３０画素の領域を顔領域として検出すると共に、この領域の画像を顔画像Ｓ１として画像Ｓ０から抽出する。なお、全ての段階において識別ポイントの加算値が負である場合には、画像Ｓ０に顔が無いと判定し、処理を終了する。

なお、参照データＥ１の生成時に学習したサンプル画像として両目の中心位置の画素数が９，１０，１１画素のものを使用しているため、画像Ｓ０を拡大縮小する時の拡大率は１１／９とすればよい。また、参照データＥ１の生成時に学習したサンプル画像として、顔が平面上で±１５度の範囲において回転させたものを使用しているため、画像Ｓ０は３０度単位で３６０度回転させればよい。

なお、第１の特徴量算出部２２は、画像Ｓ０の拡大縮小および回転という変形の各段階において特徴量Ｃ０を算出している。

顔検出部２０は、このようにして画像Ｓ０からおおよその顔の位置および大きさを検出して、顔画像Ｓ１を得る。なお、顔検出部２０は、識別ポイントの加算値が正であれば顔が含まれると判定されるので、顔検出部２０においては、複数の顔画像Ｓ１が得られる可能性がある。

図３は、目検出部３０の構成を示すブロック図である。目検出部３０は、顔検出部２０により得られた顔画像Ｓ１から両目の位置を検出し、複数の顔画像Ｓ１から真の顔画像Ｓ２を得るものであり、図示のように、顔画像Ｓ１から特徴量Ｃ０を算出する第２の特徴量算出部３２と、特徴量Ｃ０および第１のデータベース４０に記憶された参照データＥ２に基づいて目の位置の検出を実行する目検出実行部３４とを備えてなる。

本実施形態において、目検出実行部３４により識別される目の位置とは、顔における目尻から目頭の間の中心位置（図４中×で示す）であり、図４（ａ）に示すように真正面を向いた目の場合においては瞳の中心位置と同様であるが、図４（ｂ）に示すように右を向いた目の場合は瞳の中心位置ではなく、瞳の中心から外れた位置または白目部分に位置する。

第２の特徴量算出部３２は、画像Ｓ０ではなく、顔画像Ｓ１から特徴量Ｃ０を算出する点を除いて、図２に示す顔検出部２０における第１の特徴量算出部２２と同じであるため、ここで、その詳細な説明を省略する。

第１のデータベース４０に記憶された第２の参照データＥ２は、第１の参照データＥ１と同じように、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における特徴量Ｃ０の組み合わせに対する識別条件を規定したものである。

ここで、第２の参照データＥ２の学習には、図９に示すように両目の中心間距離が９．７，１０，１０．３画素であり、各距離において平面上±３度の範囲にて１度単位で段階的に顔を回転させたサンプル画像を用いている。そのため、第１の参照データＥ１と比較して学習の許容度は小さく、精確に目の位置を検出することができる。なお、第２の参照データＥ２を得るための学習は、用いられるサンプル画像群が異なる点を除いて、第１の参照データＥ１を得るための学習と同じであるので、ここでその詳細な説明を省略する。

目検出実行部３４は、顔検出部２０により得られた顔画像Ｓ１上において、複数種類の画素群を構成する各画素における特徴量Ｃ０の組み合わせのすべてについて第２の参照データＥ２が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量Ｃ０の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔に含まれる目の位置を識別する。この際、特徴量Ｃ０である勾配ベクトルＫの方向は４値化され大きさは３値化される。

ここで、目検出実行部３４は、顔検出部２０により得られた顔画像Ｓ１のサイズを段階的に拡大縮小するとともに平面上で段階的に３６０度回転させつつ、各段階において拡大縮小された顔画像上に３０×３０画素サイズのマスクＭを設定し、マスクＭを拡大縮小された顔上において１画素ずつ移動させながら、マスク内の画像における目の位置の検出を行う。

なお、第２参照データＥ２の生成時に学習したサンプル画像として両目の中心位置の画素数が９．０７，１０，１０．３画素のものを使用しているため、顔画像Ｓ１の拡大縮小時の拡大率は１０．３／９．７とすればよい。また、第２の参照データＥ２の生成時に学習したサンプル画像として、顔が平面上で±３度の範囲において回転させたものを使用しているため、顔画像は６度単位で３６０度回転させればよい。

なお、第２の特徴量算出部３２は、顔画像Ｓ１の拡大縮小および回転という変形の各段階において特徴量Ｃ０を算出する。

そして、本実施形態では、顔検出部２０により得られた全ての顔画像Ｓ１毎に、顔画像Ｓ１の変形の全段階においてすべての識別ポイントを加算し、最も大きい加算値が得られた顔画像Ｓ１の変形の段階における３０×３０画素のマスクＭ内の画像において、左上隅を原点とする座標を設定し、サンプル画像における目の位置の座標（ｘ１，ｙ１）、（ｘ２，ｙ２）に対応する位置を求め、変形前の当該顔画像Ｓ１におけるこの位置に対応する位置を目の位置として検出する。

目検出部３０は、このようにして、顔検出部２０により得られた顔画像Ｓ１から両目の位置を夫々検出し、両目の位置と共に、両目の位置が検出された際の顔画像Ｓ１を真の顔画像Ｓ２としてフレームモデル構築部５０に出力する。

図１５は、図１に示す画像処理装置におけるフレームモデル構築部５０の構成を示すブロック図である。フレームモデル構築部５０は、第２のデータベース８０に記憶された平均フレームモデルＳａｖと参照データＥ３とを用いて、目検出部３０により得られた顔画像Ｓ２における顔のフレームモデルＳｈを得るものであり、図１５に示すように、平均フレームモデルＳａｖを顔画像Ｓ０に嵌め込むモデル嵌込部５２と、各ランドマークを識別するためのプロファイルを算出するプロファイル算出部５４と、プロファイル算出部５４により算出された輝度プロファイル、および参照データＥ３に基づいて平均フレームモデルＳａｖを変形させてフレームモデルＳｈを得る変形部６０とを有してなる。ここで、第２のデータベース８０に記憶された平均フレームモデルＳａｖと参照データＥ３、フレームモデル構築部５０の各構成の詳細について説明する。

第２のデータベース８０に記憶された平均フレームモデルＳａｖは、複数の、顔であることが分かっているサンプル画像から得られたものである。本実施形態の画像処理装置において、９０×９０画素サイズを有し、１つの顔の画像について両目の中心間の距離が３０画素となるように正規化されたサンプル画像を用いるとする。これらのサンプル画像に対して、まずオペレータにより図１８に示すような、顔の形状、鼻、口、目などの形状および位置関係を示すことができるランドマークの位置を指定する。例えば左目の目尻、左目の中心、左目の目頭、両目間の中心点、顎先端などを夫々１番目、２番目、３番目、４番目、１１０番目のランドマークとするように、顔毎に１３０個のランドマークを指定する。そして、各サンプル画像における両目間の中心点を合わせた上で、相対応するランドマーク（すなわち同じ番号を有するランドマーク）の位置を平均して各ランドマークの平均位置を得る。このように得られた各ランドマークの平均位置によって、前述した式（２）の平均フレームモデルＳａｖが構成される。

また、第２のデータベース８０には、上記各サンプル画像および平均フレームモデルＳａｖから求められたＫ個（ランドマークの個数の２倍以下、ここでは２６０個以下例えば１６個）の固有ベクトルＰ_ｊ（Ｐ_ｊ１，Ｐ_ｊ２，・・・，Ｐ_{ｊ（２０６）}）（１≦ｊ≦Ｋ）および各固有ベクトルＰ_ｊに夫々対応するＫ個の固有値λ_j（１≦ｊ≦Ｋ）も記憶されている。固有ベクトルＰ_ｊおよび各固有ベクトルＰ_ｊに夫々対応する固有値λ_jの求め方は、従来技術に用いられた手法と同じであるので、ここで説明を省略する。

第２のデータベース８０に記憶された参照データＥ３は、顔上の各ランドマークに対して定義された輝度プロファイルおよび輝度プロファイルに対する識別条件を規定したものであり、複数のサンプル画像の顔における、該当するランドマークが示す位置であることが分かっている部位と、複数のサンプル画像の顔における、該当するランドマークが示す位置ではないことが分かっている部位の学習により、あらかじめ決められたものである。ここで、上唇の凹点を示すランドマークに対して定義された輝度ファイルに対する識別条件の取得を例にして説明する。

本実施形態において、参照データＥ３を生成する際に、平均フレームモデルＳａｖを得る際に使用されたサンプル画像と同じものを用いる。これらのサンプル画像は９０×９０画素サイズを有し、１つの顔の画像について両目の中心間の距離が３０画素となるように正規化されたものを用いる。上唇の凹点を示すランドマークに対して定義された輝度プロファイルは、図１９に示すように、このランドマークの両側のランドマークＡ１、Ａ２を結び線と垂直し、かつランドマークＡ０を通過する直線Ｌにおける、ランドマークＡ０を中心とする１１個の画素の輝度プロファイルであり、上唇の凹点を示すランドマークに対して定義された輝度プロファイルに対する識別条件を得るために、まず、各サンプル画像の顔に対して指定された上唇の凹点を示すランドマークの位置におけるプロファイルを夫々算出する。そして、各サンプル画像の顔における、上唇の凹点以外の任意の位置（例えば目尻）を示すランドマークに対して、上唇の凹点を示すランドマークに対して定義された輝度プロファイルも算出する。

そして、後の処理時間を短縮するために、これらのプロファイルを多値化例えば５値化する。本実施形態の画像処理装置において、分散値に基づいて輝度プロファイルを５値化する。この５値化は、具体的には、輝度プロファイルを形成する各輝度値（上唇の凹点のランドマークの輝度プロファイルの場合、この輝度プロファイルを取得する際に用いられた１１個の画素の輝度値）の分散値σを求めると共に、各輝度値の平均値Ｙａｖを中心にし、分散値単位に５値化を行うものである。例えば、（Ｙａｖ―（３／４）σ）以下の輝度値を０に、（Ｙａｖ−（３／４）σ）と（Ｙａｖ−（１／４）σ）間の輝度値を１に、（Ｙａｖ−（１／４）σ）と（Ｙａｖ＋（１／４）σ）間の輝度値を２に、（Ｙａｖ＋（１／４）σ）と（Ｙａｖ＋（３／４）σ）間の輝度値を３に、（Ｙａｖ＋（３／４）σ）以上の輝度値を４にするように５値化する。

上唇の凹点を示すランドマークのプロファイルを識別するための識別条件は、上記のような５値化された、各サンプル画像における上唇の凹点を示すランドマークのプロファイル（以下第１のプロファイル群という）と、上唇の凹点以外を示すランドマークに対して求められたプロファイル（以下第２のプロファイル群という）とに対して学習することによって得られる。

上記２種類のプロファイル画像群の学習手法は、顔検出部２０に用いられた参照データＥ１や、目検出部３０に用いられた参照データＥ２の学習手法と同じであるが、ここでその概略について説明する。

まず、識別器の作成について説明する。１つの輝度プロファイルを構成する要素としては、該輝度プロファイルを構成する各輝度値の組合せにより示される輝度プロファイルの形状とすることができ、輝度値が０、１、２、３、４の５通りあり、１つのプロファイルに含まれる画素が１１個をそのままを用いたのでは、輝度値の組合せが５^１１通りとなり、学習および検出のために多大な時間およびメモリを要することとなる。このため、本実施形態においては、１つの輝度プロファイルを構成する複数の画素のうちの一部の画素のみを用いることとする。例えば、１１個の画素の輝度値から構成されたプロファイルの場合、その２番目、６番目、１０番目の画素の３つの画素を用いる。この３つの画素の輝度値の組合せは５^３通りとなるため、演算時間の短縮およびメモリの節約を図ることができる。識別器の作成に当たり、まず、第１のプロファイル群における全てのプロファイルについて、上記輝度値の組合せ（（当該プロファイルを構成する画素の一部ここでは２番目、６番目、１０番目の３個の画素の輝度値の組合せ。以下同じ）が求められ、そしてヒストグラムが作成される。同様に、第２のプロファイル群に含まれる各プロファイルについても、同じヒストグラムが作成される。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、ランドマークの輝度プロファイルの識別器として用いられるヒストグラムである。顔を検出する際に作られた識別器と同じように、この識別器によれば、該識別器のヒストグラムが示す各縦軸の値（識別ポイント）が正であれば、該識別ポイントに対応する輝度値分布を有するプロファイルの位置が上唇の凹点である可能性が高く、識別ポイントの絶対値が大きいほどその可能性が高まると言える。逆に識別ポイントが負であれば、該識別ポイントに対応する輝度値分布を有するプロファイルの位置が上唇の凹点ではない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性が高まる。

上唇の凹点を示すランドマークの輝度プロファイルに対して、このようなヒストグラム形式の複数の識別器が作成される。

続いて、作成した複数の識別器のうち、上唇の凹点を示すランドマークであるか否かの識別に最も有効な識別器が選択される。ここで、ランドマークの輝度プロファイルを識別するための最も有効な識別器の選択手法は、識別対象がランドマークの輝度プロファイルである点を除いて、顔検出部２０に用いられた参照データＥ１中の識別器を作成する際に行われた選択の手法と同じであるため、ここで詳細な説明を省略する。

第１のプロファイル群と第２のプロファイル群に対する学習の結果、上唇の凹点を示すランドマークの輝度プロファイルであるか否かの識別に用いる識別器の種類と識別条件が確定される。

ここで、サンプル画像のランドマークの輝度プロファイルの学習方法は、アダブースティングの手法に基づいたマシンラーニング手法を用いたが、上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いてもよい。

フレームモデル構築部５０の説明に戻る。図１５に示すフレームモデル構築部５０は、画像Ｓ０から得られた顔画像Ｓ２が示す顔のフレームモデルを構築するために、まず、モデル嵌込部５２により、第２のデータベース８０に記憶された平均フレームモデルＳａｖを顔画像Ｓ２における顔に嵌め込む。平均フレームモデルＳａｖを嵌め込む際に、平均フレームモデルＳａｖにより示される顔と、顔画像Ｓ２における顔の向き、位置、大きさをできるだけ一致させることが望ましく、ここでは、平均フレームモデルＳａｖにおける、両目の中心点を夫々表すランドマークの位置と、顔画像Ｓ２における、目検出部３０により検出された両目の夫々の位置とが一致するように、顔画像Ｓ２を回転および拡大縮小して、平均フレームモデルＳａｖの嵌め込みを行う。なお、ここで、平均フレームモデルＳａｖを嵌め込む際に回転および拡大縮小された顔画像Ｓ２は、以下顔画像Ｓ２ａという。

プロファイル算出部５４は、各ランドマークに対して定義された輝度プロファイルを、平均フレームモデルＳａｖ上における各ランドマークが対応する顔画像Ｓ２ａ上の位置にある画素を含む所定の範囲内における各画素の位置に対して輝度プロファイルを求めて、プロファイル群を得るものである。例えば、上唇の凹点を示すランドマークは１３０個のランドマーク中の８０番目のランドマークである場合、この８０番目のランドマークに対して定義された図１９に示すような輝度プロファイル（ここでは１１個の画素の輝度値の組合せであり、参照データＥ３に含まれている）を、平均フレームモデルＳａｖ上の８０番目のランドマークが対応する位置の画素（画素Ａとする）を中心とする所定の範囲内の各画素に対して求める。なお、「所定の範囲」は、参照データＥ３に含まれた輝度プロファイルを構成する輝度値に対応する画素の範囲より広い範囲を意味する。例えば、図１９に示すように、８０番目のランドマークの輝度プロファイルは、８０番目のランドマークの両側のランドマークを結んだ直線と垂直し、かつ８０番目のランドマークを通る直線Ｌ上における、８０番目のランドマークを中心とする１１画素の輝度プロファイルであるため、この「所定の範囲」は、この直線Ｌ上における、１１画素より広い範囲例えば２１画素の範囲とすることができる。この範囲内の各画素の位置において、該画素を中心とする連続する１１個の画素毎に輝度プロファイルが求められる。すなわち、平均フレームモデルＳａｖ上の１つ、例えば上唇の凹点のランドマークに対して、顔画像Ｓ２ａから２１個のプロファイルが求められ、プロファイル群として変形部６０に出力される。このようなプロファイル群は、各ランドマーク（ここでは１３０個のランドマーク）に対して取得される。なお、ここで、全てのプロファイルが５値化される。

図１６は、変形部６０の構成を示すブロック図であり、図示のように、識別部６１と、全***置調整部６２と、ランドマーク位置調整部６３と、判断部６８とを備えてなる。

識別部６１は、まず、プロファイル算出部５４により顔画像Ｓ２ａから算出された各ランドマークのプロファイル群毎に、該プロファイル群に含まれる各々のプロファイルが、当該ランドマークのプロファイルであるか否かを識別する。具体的には、１つのプロファイル群、例えば平均フレームモデルＳａｖ上の上唇の凹点を示すランドマーク（８０番目のランドマーク）に対して求められたプロファイル群に含まれる２１個のプロファイルの夫々に対して、参照データＥ３に含まれる、８０番目のランドマークの輝度プロファイルの識別器および識別条件を用いて識別を行って識別ポイントを求め、１つのプロファイルに対して各識別器による識別ポイントの総和が正である場合、該プロファイルが８０番目のランドマークのプロファイルである、すなわち該プロファイルの対応する画素（１１個の画素の中心画素、すなわち６番目の画素）が８０番目のランドマークを示す画素である可能性が高いとし、逆に１つのプロファイルに対して各識別器による識別ポイントの総和が負である場合、該プロファイルが８０番目のランドマークのプロファイルではない、すなわち該プロファイルの対応する画素が８０番目のランドマークではないとして識別する。そして、識別部６１は、２１個のプロファイルのうち、識別ポイントの総和が正であり、かつ絶対値が最も大きいプロファイルの対応する中心画素を８０番目のランドマークとして識別する。一方、２１個のプロファイルのうち、識別ポイントの総和が正であるプロファイルが１つもない場合、２１個のプロファイルの対応する２１個の画素すべてが、８０番目のランドマークではないと識別する。

識別部６１は、このような識別を各ランドマーク群に対して行い、ランドマーク群毎の識別結果を全***置調整部６２に出力する。

前述したように、目検出部３０は、サンプル画像と同じサイズ（３０画素×３０画素）のマスクを用いて両目の位置を検出するようにしているのに対し、フレームモデル構築部５０では、ランドマークの位置を精確に検出するために、９０画素×９０画素のサンプル画像から得た平均フレームモデルＳａｖを用いるので、目検出部３０により検出された両目の位置と平均フレームモデルＳａｖにおける両目の中心を示すランドマークの位置とを合わせるだけでは、ズレが残る可能性がある。

全***置調整部６２は、識別部６１による識別結果に基づいて、平均フレームモデルＳａｖの全体の位置を調整するものであり、具体的には平均フレームモデルＳａｖ全体を必要に応じて、直線的な移動、回転および拡大縮小をし、顔の位置、大きさ、向きと平均フレームモデルＳａｖにより表される顔の位置、大きさ、向きとをより一致させるようにし、前述したズレをさらに小さくするものである。具体的には、全***置調整部６２は、まず、識別部６１により得られたランドマーク群毎の識別結果に基づいて、平均フレームモデルＳａｖ上の各ランドマークを夫々移動すべき移動量（移動量の大きさおよび方向）の最大値を算出する。この移動量例えば８０番目のランドマークの移動量の最大値は、平均フレームモデルＳａｖ上の８０番目のランドマークの位置が、識別部６１により顔画像Ｓ２ａから識別された８０番目のランドマークの画素の位置になるように算出される。

次いで、全***置調整部６２は、各ランドマークの移動量の最大値より小さい値、本実施形態においては、移動量の最大値の１／３の値を移動量として算出する。この移動量は各ランドマークに対して得られ、以下総合移動量としてベクトルＶ（Ｖ１，Ｖ２，・・・，Ｖ２ｎ）（ｎ：ランドマークの個数。ここでは１３０）で表すこととする。

全***置調整部６２は、このように算出された平均フレームモデルＳａｖ上の各ランドマークの移動量に基づいて、平均フレームモデルＳａｖに対して直線的な移動、回転および拡大縮小を行う必要性があるか否かを判定し、必要がある場合には該当する処理を行うと共に、調整された平均フレームモデルＳａｖが嵌め込まれた顔画像Ｓ２ａをランドマーク位置調整部６３に出力する。なお、必要がないと判定した場合、平均フレームモデルＳａｖの全体的な調整をせずに顔画像Ｓ２ａをそのままランドマーク位置調整部６３に出力する。例えば、平均フレームモデルＳａｖ上の各ランドマークの移動量に含まれる移動の方向が同じ方向に向かう傾向を示す場合、この方向に平均フレームフレームＳａｖの全体の位置を直線的に移動させる必要があるように判定することができ、平均フレームモデルＳａｖ上の各ランドマークの移動量に含まれる移動の方向が夫々異なるが、回転に向かう傾向を示す場合、この回転方向に平均フレームモデルＳａｖを回転させる必要があるように判定することができる。また、例えば平均フレームモデルＳａｖ上の、顔の輪郭上の位置を示す各ランドマークの移動量に含まれる移動方向が、全部顔の外側に向かう場合には、平均フレームモデルＳａｖを拡大する必要があると判定することができる。

全***置調整部６２は、このようにして平均フレームＳａｖの位置を全体的に調整し、調整された平均フレームモデルＳａｖが嵌め込まれた顔画像Ｓ２ａをランドマーク位置調整部６３に出力する。ここで、全体調整部６２の調整により各ランドマークが実際に移動された量（全体移動量という）をベクトルＶａ（Ｖ１ａ，Ｖ２ａ，・・・，Ｖ２ｎａ）とする。

ランドマーク位置調整部６３は、全体的な位置調整が行われた平均フレームモデルＳａｖの各ランドマークの位置を移動することによって平均フレームモデルＳａｖを変形させるものであり、図１６に示すように、変形パラメータ算出部６４と、変形パラメータ調整部６５と、位置調整実行部６６とを備えてなる。変形パラメータ算出部６４は、まず、下記の式（６）により各ランドマークの移動量（個別移動量という）Ｖｂ（Ｖ１ｂ，Ｖ２ｂ，・・・，Ｖ２ｎｂ）を算出する。

Ｖｂ＝Ｖ−Ｖａ（６）
但し，Ｖ：総合移動量
Ｖａ：全体移動量
Ｖｂ：個別移動量

そして、変形パラメータ算出部６４は、前述した式（４）を用いて、第２のデータベース８０に記憶された固有ベクトルＰjと、式（６）により求められた個別移動量Ｖｂ（式（４）中ΔＳに対応する）とを用いて、移動量Ｖｂが対応する変形パラメータｂ_ｊを算出する。

そこで、平均フレームモデルＳａｖ上のランドマークの移動量が大き過ぎると、ランドマークが移動された後の平均フレームモデルＳａｖは顔を表すものではなくなるため、変形パラメータ調整部６５は、前述した式（５）に基づいて、変形パラメータ算出部６４により求められた変形パラメータｂ_ｊを調整する。具体的には、式（５）を満たすｂ_ｊの場合には、該ｂ_ｊをそのままにすると共に、式（５）を満たさないｂ_ｊの場合には、該ｂ_ｊの値が式（５）に示される範囲内に納まるように（ここでは正負がそのまま、絶対値がこの範囲内の最大値となるように）当該変形パラメータｂ_ｊを修正する。

位置調整実行部６６は、このようにして調整された変形パラメータを用いて、式（４）に従って平均フレームモデルＳａｖ上の各ランドマークの位置を移動させることによって平均フレームモデルＳａｖを変形させてフレームモデル（ここでＳｈ（１）とする）を得る。

判断部６８は、収束か否かの判断を行うものであり、例えば変形前のフレームモデル（ここでは平均フレームモデルＳａｖ）と変形後のフレームモデル（ここではＳｈ（１））上の相対応するランドマークの位置間の差（例えば２つのフレームモデル上の８０番目のランドマークの位置間の差）の絶対値の総和を求め、この総和が所定の閾値以下である場合には収束したと判断し、変形後のフレームモデル（ここではＳｈ（１））を目的のフレームモデルＳｈとして出力する一方、この総和が所定の閾値より大きい場合には収束していないと判定し、変形後のフレームモデル（ここではＳｈ（１））をプロファイル算出部５４に出力する。後者の場合、プロファイル算出部５４による処理、識別部６１による処理と、全***置調整部６２による処理と、ランドマーク位置調整部６３による処理は、前回の変形後のフレームモデル（Ｓｈ（１））と顔画像Ｓ２ａを対象としてもう一度行われて新しいフレームモデルＳｈ（２）が得られる。

このように、プロファイル算出部５４による処理から、識別部６１による処理を経て、ランドマーク位置調整部６３の位置調整実行部６６による処理までの一連の処理は、収束するまで繰り返される。そして、収束した際のフレームモデルは、目的のフレームモデルＳｈとして得られ、画像処理装置の処理が終了する。

図１７は、図１に示す実施形態の画像処理装置において行われる処理を示すフローチャートである。図示のように、図１に示す画像処理装置において、画像Ｓ０が入力されると、まず、顔検出部２０および目検出部３０により画像Ｓ０に含まれる顔の検出を行い、画像Ｓ０に含まれる顔における両目の位置、および顔部分の画像Ｓ２を得る（Ｓ１０、Ｓ１５、Ｓ２０）。フレームモデル構築部５０のモデル嵌込部５２は、第２のデータベース８０に記憶された、複数の顔のサンプル画像から得られた平均フレームモデルＳａｖを、顔画像Ｓ２に嵌め込む（Ｓ２５）。なお、嵌め込むのに際し、顔画像Ｓ２における両目の位置と、平均フレームモデルＳａｖにおける、両目の位置を示すランドマークの位置とが夫々一致するように、顔画像Ｓ２が回転、拡大縮小され、顔画像Ｓ２ａとなっている。プロファイル算出部５４は、平均フレームモデルＳａｖ上の各ランドマークについて、該ランドマークに対して定義された輝度プロファイルを、平均フレームモデルＳａｖ上の当該ランドマークが対応する位置を含む所定の範囲内の各画素に対して求め、平均フレームモデルＳａｖ上の１つのランドマークに対して、複数の輝度プロファイルからなるプロファイル群が得られる（Ｓ３０）。

変形部６０の識別部６１は、各プロファイル群対して、該プロファイル群（例えば平均フレームモデルＳａｖ上の８０番目のランドマークに対して求められたプロファイル群）内の各プロファイルのうちの、該プロファイル群の対応するランドマーク（例えば８０番目のランドマーク）に対して定義された輝度プロファイルであるプロファイルを識別し、このプロファイルが対応する画素の位置が、該プロファイル群の対応するランドマーク（例えば８０番目のランドマーク）の位置であると識別する。一方、１つのプロファイル群内のいずれのプロファイルも、該プロファイル群の対応するランドマークに対して定義された輝度プロファイルではないと識別した場合には、このプロファイル群に含まれる全てのプロファイルの夫々対応する画素の位置が、該プロファイル群の対応するランドマークの位置ではないと識別する（Ｓ４０）。

ここで、識別部６１の識別結果が全***置調整部６２に出力され、全***置調整部６２は、ステップＳ４０における識別部６１の識別結果に基づいて、平均フレームモデルＳａｖ上の各ランドマークの総合移動量Ｖを求め、これらの移動量に基づいて、平均フレームモデルＳａｖ全体を必要に応じた直線的な移動、回転および拡大縮小をする。（Ｓ４５）。なお、ステップＳ４５における全体的な位置調整によって平均フレームモデルＳａｖ上の各ランドマークの移動量は全体移動量Ｖａである。

ランドマーク位置調整部６３の変形パラメータ算出部６４は、総合移動量Ｖと全体移動量Ｖ１との差分に基づいて各ランドマークの個々の移動量からなる個別移動量Ｖｂを求めると共に、この個別移動量Ｖｂに対応する変形パラメータを算出する（Ｓ５０）。変形パラメータ調整部６５は、式（５）に基づいて、変形パラメータ算出部６４により算出された変形パラメータを調整して調整実行部６６に出力する（Ｓ５５）。位置調整実行部６６は、ステップＳ５５において変形パラメータ調整部６５により調整された変形パラメータを用いて個々のランドマークの位置を調整し、フレームモデルＳｈ（１）を得る（Ｓ６０）。

そして、フレームモデルＳｈ（１）と顔画像Ｓ２ａとを用いて、ステップＳ３０からステップＳ６０までの処理が行われ、フレームモデルＳｈ（１）上のランドマークを移動して得たフレームモデルＳｈ（２）が得られる。このように、ステップＳ３０からステップＳ６０までの処理が判断部６８により収束したと判断されるまで繰り返され（Ｓ６５：Ｎｏ、Ｓ３０〜Ｓ６０）、収束する際のフレームモデルが目的のフレームモデルＳｈとして得られる（Ｓ６５：Ｙｅｓ、Ｓ７０）。

このように、本実施形態の画像処理装置は、顔画像から所定のランドマークを示す点を検出する際に、マシンラーニング手法により、該ランドマークであることが分かっている複数のサンプル画像上の点における輝度プロファイルと、該ランドマークではないことが分かっている複数のサンプル画像上の点における輝度プロファイルとに対して学習を行って得た識別器および各識別器に対する識別条件を用いて該ランドマークを検出するようにしているので、複数のサンプル画像における該ランドマークであることが分かっている点における輝度プロファイルの平均値と近似する輝度プロファイルを有する点を当該ランドマークとして検出する従来技術より、精度が良い上に、ロバスト性も高い。

また、輝度プロファイルを多値化ここでは５値化して得たものを特徴量として用いることによって、演算量を減らし、メモリの節約および計算時間の短縮を図ることができる上に、画像Ｓ０を撮像した際の照明条件のバラつきなどにも拘わらず精度の良い検出を実現することができる。

また、従来では、画像から所定のランドマークを示す点を検出する際に、顔画像における、平均フレームモデルＳａｖ上の該ランドマークが対応する位置を含む所定の範囲内の複数の画素のうち、複数のサンプル画像における該ランドマークであることが分かっている点における輝度プロファイルの平均値と最も近似する輝度プロファイルを有する点を該ランドマークの位置として検出しているため、例えば手などの障害物により顔の一部が覆われている場合においても、平均フレームモデルＳａｖ上の、覆われた部位に位置するランドマークが移動され、最終的に得られたフレームモデルＳｈの精度が低く、最悪の場合は、顔画像に含まれる顔を示すことがまったくできないフレームモデルを構築してしまう可能性もある。それに対して、本実施形態の画像処理装置において、顔画像における、平均フレームモデルＳａｖ上の該ランドマークが対応する位置を含む所定の範囲内の複数の画素のうち、該ランドマークを示す点があるか否かの判定を行い、この判定が否定された場合には、平均フレームモデルＳａｖ上における当該ランドマークの位置を移動しないようにしている。そのため、手などの障害物により顔の一部が覆われた場合に、平均フレームモデルＳａｖ上の、覆われた部位に位置するランドマークの位置が移動されず、精度の良いフレームモデルＳｈを得ることができる。

以上、本発明の望ましい実施形態について説明したが、本発明の画像処理方法および装置並びにそのためのプログラムは、上述した実施形態に限られることがなく、本発明の主旨を逸脱しない限り、様々な増減、変化を加えることができる。

例えば、上述した実施形態において、ランドマークを特定するための特徴量として輝度プロファイルを用いたが、輝度プロファイルに限られることがなく、輝度プロファイルの微分値など、ランドマークを特定することができるいかなる特徴量を用いてもよい。

また、上述した実施形態において、識別器としてヒストグラムを用いたが、マシンラーニング手法に用いられるいかなる識別器を用いてもよい。

本発明の実施形態となる画像処理装置の構成を示すブロック図顔検出部２０の構成を示すブロック図目検出部３０の構成を示すブロック図目の中心位置を説明するための図（ａ）は水平方向のエッジ検出フィルタを示す図、（ｂ）は垂直方向のエッジ検出フィルタを示す図勾配ベクトルの算出を説明するための図（ａ）は人物の顔を示す図、（ｂ）は（ａ）に示す人物の顔の目および口付近の勾配ベクトルを示す図（ａ）は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、（ｂ）は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、（ｃ）は５値化した勾配ベクトルの大きさのヒストグラムを示す図、（ｄ）は正規化後の５値化した勾配ベクトルの大きさのヒストグラムを示す図第１の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図第２の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図顔の回転を説明するための図顔の検出および目検出に用いられる参照データの学習手法を示すフローチャート識別器の導出方法を示す図識別対象画像の段階的な変形を説明するための図図１に示す画像処理装置におけるフレームモデル構築部５０の構成を示すブロック図図１５に示すフレームモデル構築部５０における変形部６０の構成を示すブロック図図１に示す画像処理装置において行われる処理を示すフローチャート１つの顔に対して指定されるランドマークの例を示す図ランドマークに対して定義される輝度プロファイルを説明するための図

符号の説明

１０画像入力部
２０顔検出部
２２第１の特徴量算出部
２４顔検出実行部
３０目検出部
３２第２の特徴量算出部
３４目検出実行部
４０第１のデータベース
５０フレームモデル構築部
５２モデル嵌込部
５４プロファイル算出部
６０変形部
６１識別部
６２全***置調整部
６３ランドマーク位置調整部
６４変形パラメータ算出部
６５変形パラメータ調整部
６６位置調整実行部
６８判断部
８０第２のデータベース
Ｓａｖ平均フレームモデル

Claims

所定対象物上の、各々の位置および／または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とし、
１つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行い、
各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得する画像処理方法において、該方法は、
前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うものであり、
前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないものであることを特徴とする画像処理方法。
前記マシンラーニング手法が、ブースティング手法であることを特徴とする請求項１記載の画像処理方法。
前記マシンラーニング手法が、ニューラルネットワーク手法であることを特徴とする請求項１記載の画像処理方法。
前記特徴量が、前記ランドマークの位置における輝度プロファイルであることを特徴とする請求項１から３のいずれか１項記載の画像処理方法。
前記輝度プロファイルが多値化されたものであることを特徴とする請求項４記載の画像処理方法。
前記所定対象物が、人物の顔であることを特徴とする請求項１から５のいずれか１項記載の画像処理方法。
所定対象物上の、各々の位置および／または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とする仮位置設定手段と、
１つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行う移動手段と、
各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得するランドマーク位置取得手段とを備えてなる画像処理装置であって、
前記移動手段が、前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うものであり、前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないものであることを特徴とする画像処理装置。
前記マシンラーニング手法が、ブースティング手法であることを特徴とする請求項７記載の画像処理装置。
前記マシンラーニング手法が、ニューラルネットワーク手法であることを特徴とする請求項７記載の画像処理装置。
前記特徴量が、前記ランドマークの位置における輝度プロファイルであることを特徴とする請求項７から９のいずれか１項記載の画像処理装置。
前記輝度プロファイルが多値化されたものであることを特徴とする請求項１０記載の画像処理装置。
前記所定対象物が、人物の顔であることを特徴とする請求項７から１１のいずれか１項記載の画像処理装置。
所定対象物上の、各々の位置および／または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とする手順と、
１つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行う手順と、
各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得する手順とを有する画像処理方法をコンピュータに実行させるプログラムであって、該プログラムは、
前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて前記コンピュータに行わせるものであり、
前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないものであることを特徴とするプログラム。