JP2005108195A

JP2005108195A - 対象物識別装置および方法並びにプログラム

Info

Publication number: JP2005108195A
Application number: JP2004254430A
Authority: JP
Inventors: Yuanzhong Li; 元中李
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2003-09-09
Filing date: 2004-09-01
Publication date: 2005-04-21
Anticipated expiration: 2024-09-01
Also published as: JP4510556B2

Abstract

【課題】比較的短い処理時間により顔等の所定対象物が画像に含まれているか否かを識別する。
【解決手段】特徴量算出部４が識別対象画像Ｓ０の正規化が不要な第１の特徴量Ｃ１および正規化された第２の特徴量Ｃ２を算出する。多数の顔画像および顔でない画像の第１の特徴量Ｃ１について学習を行った第１の参照データＲ１を参照して、識別対象画像Ｓ０から算出した第１の特徴量Ｃ１に基づいて、識別対象画像Ｓ０に顔候補が含まれるか否かを第１の識別部８が識別する。顔候補が含まれる場合、多数の顔画像および顔でない画像の第２の特徴量Ｃ２について学習を行った第２の参照データＲ２を参照して、顔候補が顔であるか否かを第２の識別部１０が識別する。
【選択図】図１

Description

本発明は、画像に顔等の所定対象物が含まれるか否かを識別する対象物識別装置および方法並びに対象物識別方法をコンピュータに実行させるためのプログラムに関するものである。

デジタルカメラにおいて取得した画像データや、フイルムに記録された画像を読み取ることにより得た画像データを、プリント等のハードコピーとしてあるいはディスプレイ上にソフトコピーとして再現することが行われている。このような画像データにより表される画像は人物の顔が含まれることが多く、顔が適切な明るさや色を有するものとなるように画像データに対して明るさ、階調、色、シャープネス等を修正する画像処理を施すことが行われている。このように画像データに対して画像処理を施す場合には、画像データにより表される画像から人物の顔に対応する顔領域を検出する必要がある。このため、画像に顔等の所定対象物が含まれるか否かを識別する各種方法が提案されている。

例えば非特許文献１は、顔を検出する際に用いられる特徴量である輝度値を正規化し、顔について学習を行ったニューラルネットワークの学習結果を参照して、画像に顔が含まれるか否かを識別する手法である。また非特許文献２は、画像中に含まれるエッジのような高周波成分を対象物の検出に使用する特徴量として求めてこの特徴量を正規化し、ブースティングと称されるマシンラーニング（machine learning）の手法を用いての特徴量についての学習結果を参照して、画像に対象物が含まれるか否かを識別する手法である。これら非特許文献１，２の手法は、顔等の対象物の検出に使用する特徴量を正規化しているため、画像に対象物が含まれるか否かを精度よく識別することができる。

また、非特許文献３は、特に乳癌における特徴的形態の１つである腫瘤陰影を検出するために、例えばＸ線ネガフイルム上においては、腫瘤陰影は周囲にくらべて濃度値がわずかに低く、腫瘤陰影内の任意の画素における勾配ベクトルは腫瘤陰影の中心付近を向いているという事実を利用して、画像中の勾配ベクトルの向きの分布を評価し、特定の点に集中している領域を腫瘤陰影の候補として抽出する手法である。さらに、特許文献１は、ニューラルネットワークの一手法であるコホーネンの自己組織化を用いて顔等の対象物の特徴パターンを学習し、この学習結果を参照して、対象物の候補と対象物の特徴部分とが学習された特徴パターンに含まれるか否かを判定し、さらに対象物の候補の特徴部分の位置関係が対象物の特徴部分の位置関係と一致するか否かを判定することにより、対象物の候補が対象物であるか否かを判定する手法である。
Henry A. Rowley, Shumeet Baluja, and Takeo Kanada, "Neural Network-Based Face Detection", volume 20, number 1, pages 23-38, January 1998. Rainer Lienhart, Jochen Maydt, "An Extended Set of Haar-like Features for Rapid Object Detection", International Conference on Image Processing. 小畑他、「ＤＲ画像における腫瘤影検出（アイリスフィルタ）」、電子情報通信学会論文誌、D-II Vol.J75-D-II No.3 、P663〜670、1992年３月特開平５−２８２４５７号公報

しかしながら、上記非特許文献１，２の手法は、対象物の検出に使用する特徴量を正規化しているために演算量が多くなり、識別のために必要な処理時間が長くなってしまうという問題がある。また、非特許文献３の手法は勾配ベクトルの向きの分布を評価しているのみであるため、腫瘤陰影のような単純な形状の対象物は検出できても、人物の顔のような複雑な対象物は検出することができない。また、特許文献１の手法は判定する対象が多いため処理に長時間を要する。

本発明は、上記事情に鑑みなされたものであり、比較的短い処理時間により顔等の所定対象物が画像に含まれているか否かを識別することを目的とする。

本発明による対象物識別装置は、識別対象の画像の入力を受け付ける画像入力手段と、
所定対象物の識別に用いる正規化が不要な第１の特徴量を前記識別対象の画像から算出する第１の特徴量算出手段と、
前記第１の特徴量と該第１の特徴量に対応する識別条件とをあらかじめ規定した第１の参照データを、前記識別対象の画像から算出された第１の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別する第１の識別手段と、
該第１の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第２の特徴量を前記所定対象物候補から算出する第２の特徴量算出手段と、
前記第２の特徴量と該第２の特徴量に対応する識別条件とをあらかじめ規定した第２の参照データを、前記所定対象物候補から算出された正規化された第２の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別する第２の識別手段とを備えたことを特徴とするものである。

「所定対象物」とは、ほぼ一定形状をなしており、ほぼ一定の大きさとなるようにサイズを揃えることが可能な対象物が挙げられる。具体的には、人物の顔、車両および道路標識等を所定対象物とすることができる。

「特徴量」とは、画像の特徴を表すパラメータを指し、その画像における各画素の濃度勾配を表す勾配ベクトル、各画素の色情報（色相、彩度）、濃度、テクスチャーの特徴、奥行情報、その画像に含まれるエッジの特徴等、いかなる特徴を表すものであってもよい。

「正規化が不要な第１の特徴量」とは、画像の明度やコントラストの変化に依存しない特徴量である。例えば、画像の各画素における濃度が変化する方向および変化の大きさ、すなわち濃度の勾配を表す勾配ベクトルは、その画素の濃度およびその画素から見た特定の方向におけるコントラストの変化量に応じて大きさが変わるが、大きさが変わっても勾配ベクトルの方向は変わらない。また、色相等の色情報は、画像の濃度が変わっても色情報自体は変わらない。したがって、勾配ベクトルの方向および色情報等を第１の特徴量として用いることができる。

「第２の特徴量」とは、特徴量をそのまま用いたのでは、ある画像の特徴量が、その画像に含まれる同一種類の特徴量や他の画像における同一種類の特徴量と比較して大きいのか小さいのか区別ができない、画像の明度やコントラストの変化に依存する特徴量である。第２の特徴量を正規化する手法としては、例えば、画素毎に第２の特徴量が算出される場合、所定対象物候補を構成する全画素の第２の特徴量を用いて所定対象物候補に含まれる各画素の第２の特徴量を正規化する手法や、所定対象物候補を構成する全画素のうち、正規化の対象となる画素を含む所定範囲内の複数画素の第２の特徴量を用いて対象となる画素の第２の特徴量を正規化する手法等を用いることができる。

「識別条件」とは、特徴量を指標とした、所定対象物とそうでない対象物とを識別する条件を指す。

なお、本発明による対象物識別装置においては、前記第１の参照データを、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第１の特徴量を、ニューラルネットワーク、ブースティング等のマシンラーニング（machine learning）の手法によりあらかじめ学習することにより得てもよい。

ここで、前記所定対象物が顔である場合、前記第１の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記第１の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記第１の特徴量を学習することにより得るものとし、
前記第１の特徴量算出手段を、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記第１の特徴量を算出する手段としてもよい。

また、前記第１の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記第１の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記第１の特徴量をさらに学習することにより得るものとし、
前記第１の特徴量算出手段を、前記識別対象の画像における前記第１から第３の領域に対応する各領域から前記第１の特徴量を算出する手段としてもよい。

また、本発明による対象物識別装置においては、前記第２の参照データを、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第２の特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得てもよい。

ここで、前記所定対象物が顔である場合、前記第２の参照データを、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記第２の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記第２の特徴量を学習することにより得るものとし、
前記第２の特徴量算出手段を、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記第２の特徴量を算出する手段としてもよい。

また、前記第２の参照データを、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記第２の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記第２の特徴量をさらに学習することにより得るものとし、
前記第２の特徴量算出手段を、前記識別対象の画像における前記第１から第３の領域に対応する各領域から前記第２の特徴量を算出する手段としてもよい。

また、本発明による対象物識別装置においては、前記第１の特徴量を、画像上の各画素における勾配ベクトルの方向または色情報としてもよい。

「勾配ベクトル」とは、画像の各画素における濃度が変化する方向および変化の大きさを表すものである。

また、本発明による対象物識別装置においては、前記第２の特徴量を、画像上の各画素における勾配ベクトルの方向および大きさとしてもよい。

また、本発明による対象物識別装置においては、前記第１の識別手段による識別結果が所定の要求を満たすか否かを判定し、該判定が肯定された場合は、前記識別対象の画像から前記第１の特徴量のみを算出して、前記第１の識別手段が識別した前記所定対象物候補を前記所定対象物と識別するよう前記第１および前記第２の特徴量算出手段、並びに前記第１および前記第２の識別手段を制御する制御手段をさらに備えるようにしてもよい。

また、本発明による対象物識別装置においては、前記所定対象物候補から算出されたさらに他の特徴量に基づいて、前記第２の識別手段により識別された前記画像に含まれる所定対象物が、真に所定対象物であるかを識別する少なくとも１つの他の識別手段をさらに備えるようにしてもよい。

また、本発明による対象物識別装置においては、前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えるようにしてもよい。

また、本発明による対象物識別装置においては、前記識別対象の画像における前記所定対象物の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えるようにしてもよい。

本発明によるデジタルカメラ、カメラ付き携帯電話等の撮像装置は、本発明による対象物識別装置を備えたことを特徴とするものである。

本発明による対象物識別方法は、識別対象の画像の入力を受け付け、
所定対象物の識別に用いる正規化が不要な第１の特徴量を前記識別対象の画像から算出し、
前記第１の特徴量と該第１の特徴量に対応する識別条件とをあらかじめ規定した第１の参照データを、前記識別対象の画像から算出された第１の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別し、
該第１の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第２の特徴量を前記所定対象物候補から算出し、
前記第２の特徴量と該第２の特徴量に対応する識別条件とをあらかじめ規定した第２の参照データを、前記所定対象物候補から算出された正規化された第２の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別することを特徴とするものである。

なお、本発明による対象物識別方法をコンピュータに実行させるためのプログラムとして提供してもよい。

本発明によれば、識別対象の画像から正規化が不要な第１の特徴量が算出される。そして、第１の参照データが第１の特徴量に基づいて参照されて、識別対象の画像に所定対象物候補が含まれるか否かが識別される（第１の識別）。そして、所定対象物候補が含まれると識別されると、所定対象物候補から正規化された第２の特徴量が算出され、続いて、第２の参照データが第２の特徴量に基づいて参照されて、所定対象物候補が所定対象物であるか否かが識別（第２の識別）される。ここで、第１の識別においては、正規化が不要な第１の特徴量を用いているため、識別対象の画像の全体について所定対象物候補が含まれるか否かを識別しても、それほど演算量は多くなく、その結果、比較的高速に識別対象の画像に所定対象物候補が含まれるか否かを識別できる。一方、第２の識別においては、正規化された第２の特徴量を用いているため、精度よく所定対象物が含まれるか否かを識別できるものの、演算量が多くなる。しかしながら、本発明においては、正規化された第２の特徴量を算出して第２の識別を行うのは、識別対象の画像における所定対象物候補の部分のみであるため、正規化のための演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本発明によれば、識別対象の画像に所定対象物が含まれるか否かの識別を高速かつ高精度に行うことができる。

また、第１および第２の参照データをマシンラーニングの手法によりあらかじめ学習することにより得られたものとすることにより、所定対象物の識別性能をより向上させることができる。

また、所定対象物が顔である場合において、学習の際に、サンプル画像における左目と左頬とを含む第１の領域および右目と右頬とを含む第２の領域、さらには両目を含む第３の領域に含まれる第１および第２の特徴量を使用することにより、学習時間を大幅に短縮することができる。また、識別対象の画像に所定対象物が含まれるか否かの識別を行う場合において、第１および第２の領域、さらには第３の領域に含まれる第１および第２の特徴量が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第１および第２の領域、さらには第３の領域に含まれる第１および第２の特徴量を使用して第１および第２の参照データの学習を行うことことにより、識別対象の画像に所定対象物が含まれるか否かの識別性能をより向上させることができる。

また、識別対象の画像からは第１および第２の領域、さらには第３の領域に対応する各領域から第１および第２の特徴量を算出することにより、識別対象の画像の全体から第１および第２の特徴量を算出する場合よりも第１および第２の特徴量を算出する範囲が小さくなるため、演算時間を短縮することができる。

また、第１の特徴量を画像上の各画素における勾配ベクトルの方向または色情報とするまたは第２の特徴量を画像上の各画素における勾配ベクトルの方向および大きさとすることにより、画像に含まれる比較的算出しやすい特徴量を用いて精度よく所定対象物が識別対象の画像に含まれるか否かを識別できる。

また、第１の識別手段により識別結果が所定の要求を満たすか否かを判定し、この判定が肯定された場合には、第１の特徴量のみを算出して第１の識別を行い、識別された所定対象物候補を所定対象物と識別することにより、第１の識別が精度よく行われている場合には、正規化された第２の特徴量の算出および第２の識別を省略することができるため、これにより、より高速に識別対象の画像に所定対象物が含まれるか否かの識別を行うことができる。

また、識別された所定対象物を抽出することにより、識別対象の画像から精度よく所定対象物を抽出することができる。

また、識別対象の画像における所定対象物の位置を表す情報を識別対象の画像に付与して出力することにより、後に識別対象に付与された情報を参照すれば、識別対象の画像から精度よく所定対象物を抽出することができる。

以下、図面を参照して本発明の実施形態について説明する。図１は本発明の第１の実施形態による対象物識別装置の構成を示す概略ブロック図である。図１に示すように、第１の実施形態による対象物識別装置１は、識別対象の画像を表す識別対象画像データＳ０の入力を受け付ける画像入力部２、識別対象画像データＳ０により表される識別対象画像（以下画像についても参照符号Ｓ０を用いる）Ｓ０から第１および第２の特徴量Ｃ１，Ｃ２を算出する特徴量算出部４、後述する第１および第２の参照データＲ１，Ｒ２が格納されているメモリ６、特徴量算出部４が算出した第１の特徴量Ｃ１とメモリ６内の第１の参照データＲ１とに基づいて、識別対象画像Ｓ０に所定対象物である人物の顔の候補が含まれているか否かを識別する第１の識別部８、第１の識別部８により識別対象画像Ｓ０に顔候補が含まれていると識別された場合に、特徴量算出部４が算出した第２の特徴量Ｃ２とメモリ６内の第２の参照データＲ２とに基づいて、その顔候補が所定対象物である人物の顔であるか否かを識別する第２の識別部１０、並びに第１および第２の識別部８，１０による識別結果を出力する出力部１２とを備える。

特徴量算出部４は、顔の識別に用いる正規化が不要な第１の特徴量Ｃ１を識別対象画像Ｓ０から算出するとともに、第２の特徴量Ｃ２を後述するように抽出された顔候補内の画像から算出する。具体的には、第１の特徴量Ｃ１として、識別対象画像Ｓ０の勾配ベクトルの方向を、第２の特徴量Ｃ２として顔候補内の画像の勾配ベクトル（すなわち方向および大きさ）を算出する。以下、勾配ベクトルの算出について説明する。まず、特徴量算出部４は、識別対象画像Ｓ０に対して図２（ａ）に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像Ｓ０における水平方向のエッジを検出する。また、特徴量算出部４は、識別対象画像Ｓ０に対して図２（ｂ）に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して識別対象画像Ｓ０における垂直方向のエッジを検出する。そして、識別対象画像Ｓ０上の各画素における水平方向のエッジの大きさＨおよび垂直方向のエッジの大きさＶとから、図３に示すように、各画素における勾配ベクトルＫを算出する。

そして、この勾配ベクトルＫの方向を第１の特徴量Ｃ１とする。具体的には勾配ベクトルＫの所定方向（例えば図３におけるｘ方向）を基準とした０から３５９度の値を第１の特徴量Ｃ１とする。

なお、このようにして算出された勾配ベクトルＫは、図４（ａ）に示すような人物の顔の場合、図４（ｂ）に示すように、目および口のように暗い部分においては目および口の中央を向き、鼻のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルＫの大きさは口よりも目の方が大きくなる。

ここで、第２の特徴量Ｃ２は顔候補内においてのみ算出される。また、第２の特徴量Ｃ２の勾配ベクトルＫの大きさは正規化される。この正規化は、顔候補内の全画素における勾配ベクトルＫの大きさのヒストグラムを求め、その大きさの分布が顔候補内の各画素が取り得る値（８ビットであれば０〜２５５）に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルＫの大きさを修正することにより行う。例えば、勾配ベクトルＫの大きさが小さく、図５（ａ）に示すように勾配ベクトルＫの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが０〜２５５の全領域に亘るものとなるように勾配ベクトルＫの大きさを正規化して図５（ｂ）に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図５（ｃ）に示すように、勾配ベクトルＫのヒストグラムにおける分布範囲を例えば５分割し、５分割された頻度分布が図５（ｄ）に示すように０〜２５５の値を５分割した範囲に亘るものとなるように正規化することが好ましい。

ここで、撮影を行う際には、照明の明るさや照明の方向が撮影時の条件に応じて様々であるため、明るさや照明の方向は識別対象画像Ｓ０毎に異なる。このように明るさや照明の方向が異なる識別対象画像Ｓ０のそれぞれについてそのまま勾配ベクトルＫを求めていたのでは、同じ顔であるのに目の位置における勾配ベクトルの大きさが異なってしまい、精度よく顔候補が顔であるか否かを識別することができない。この場合、勾配ベクトルＫの大きさを識別対象画像Ｓ０の全体について正規化すればよいが、正規化は演算量が多いため処理に時間がかかる。このため、本実施形態においては、識別対象画像Ｓ０の全体ではなく、第１の識別部８が識別した顔候補についてのみ第２の特徴量の正規化を行うことにより、演算量を低減して処理時間を短縮している。

なお、特徴量算出部４は、後述するように識別対象画像Ｓ０および顔候補の変形の各段階において第１および第２の特徴量Ｃ１，Ｃ２を算出する。

メモリ６内に格納されている第１の参照データＲ１は、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における第１の特徴量Ｃ１の組み合わせに対する識別条件を規定したものである。また、第２の参照データＲ２は、サンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における第２の特徴量Ｃ２の組み合わせに対する識別条件を規定したものである。

第１および第２の参照データＲ１，Ｒ２中の、各画素群を構成する各画素における第１および第２の特徴量Ｃ１，Ｃ２の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。

なお、本実施形態においては、顔であることが分かっているサンプル画像として、３０×３０画素サイズを有し、図６に示すように、１つの顔の画像について両目の中心間の距離が１０画素、９画素および１１画素であり、垂直に立った顔を基準として平面上±１５度の範囲において３度単位で段階的に回転させた（すなわち、回転角度が−１５度，−１２度，−９度，−６度，−３度，０度，３度，６度，９度，１２度，１５度）サンプル画像を用いるものとする。したがって、１つの顔の画像につきサンプル画像は３×１１＝３３通り用意される。ここで、顔が垂直に立った状態において上下方向における目の位置はすべてのサンプル画像において同一である。なお、図６においては−１５度、０度および＋１５度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線の交点である。また、顔でないことが分かっているサンプル画像としては、３０×３０画素サイズを有する任意の画像を用いるものとする。

ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が１０画素であり、平面上の回転角度が０度（すなわち顔が垂直な状態）のもののみを用いて学習を行った場合、第１および第２の参照データＲ１，Ｒ２を参照して顔候補または顔であると識別されるのは、両目の中心間距離が１０画素で全く回転していない顔候補または顔のみである。識別対象画像Ｓ０に含まれる可能性がある顔のサイズは一定ではないため、顔候補が含まれるか否かあるいは顔候補が顔であるか否かを識別する際には、後述するように識別対象画像Ｓ０を拡大縮小して、サンプル画像のサイズに適合するサイズの顔を識別できるようにしている。しかしながら、両目の中心間距離を正確に１０画素とするためには、識別対象画像Ｓ０のサイズを拡大率として例えば１．１単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。

また、識別対象画像Ｓ０に含まれる可能性がある顔は、図７（ａ）に示すように平面上の回転角度が０度のみではなく、図７（ｂ）、（ｃ）に示すように回転している場合もある。しかしながら、両目の中心間距離が１０画素であり、顔の回転角度が０度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図７（ｂ）、（ｃ）に示すように回転した顔については識別を行うことができなくなってしまう。

このため、本実施形態においては、顔であることが分かっているサンプル画像として、図６に示すように両目の中心間距離が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたサンプル画像を用いて、第１および第２の参照データＲ１，Ｒ２の学習に許容度を持たせるようにしたものである。これにより、識別対象画像Ｓ０を、拡大率として１１／９単位で段階的に拡大縮小すればよいため、識別対象画像Ｓ０のサイズを例えば拡大率として１．１単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図７（ｂ）、（ｃ）に示すように回転している顔も識別することができる。

以下、図８のフローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。なお、ここでは第２の参照データＲ２の学習について説明する。

学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、１つのサンプル画像につき両目の中心位置が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（ステップＳ１）。

次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される（ステップＳ２）。ここで、それぞれの識別器とは、１つの画素群を構成する各画素における第２の特徴量Ｃ２の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、１つの画素群を構成する各画素における第２の特徴量Ｃ２の組み合わせについてのヒストグラムを識別器として使用する。

図９を参照しながらある識別器の作成について説明する。図９の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素Ｐ１、右側の頬の部分にある画素Ｐ２、額の部分にある画素Ｐ３および左側の頬の部分にある画素Ｐ４である。そして顔であることが分かっている全てのサンプル画像について全画素Ｐ１〜Ｐ４における第２の特徴量Ｃ２の組み合わせが求められ、そのヒストグラムが作成される。ここで、第２の特徴量Ｃ２は勾配ベクトルＫの方向および大きさを表すが、勾配ベクトルＫの方向は０〜３５９の３６０通り、勾配ベクトルＫの大きさは０〜２５５の２５６通りあるため、これをそのまま用いたのでは、組み合わせの数は１画素につき３６０×２５６通りの４画素分、すなわち（３６０×２５６）⁴通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を０〜３５９を０〜４４と３１５〜３５９（右方向、値：０），４５〜１３４（上方向値：１），１３５〜２２４（左方向、値：２），２２５〜３１４（下方向、値３）に４値化し、勾配ベクトルの大きさを３値化（値：０〜２）する。そして、以下の式を用いて組み合わせの値を算出する。

組み合わせの値＝０（勾配ベクトルの大きさ＝０の場合）
組み合わせの値＝（（勾配ベクトルの方向＋１）×勾配ベクトルの大きさ（勾配ベクトルの大きさ＞０の場合）
これにより、組み合わせ数が９⁴通りとなるため、第２の特徴量Ｃ２のデータ数を低減できる。

同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素Ｐ１〜Ｐ４の位置に対応する画素（同様に参照符号Ｐ１〜Ｐ４を用いる）が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図９の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する第２の特徴量Ｃ２の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する第２の特徴量Ｃ２の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳ２では、識別に使用され得る複数種類の画素群を構成する各画素における第２の特徴量Ｃ２の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。

続いて、ステップＳ２で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される（ステップＳ３）。すなわち、最初のステップＳ３では、各サンプル画像の重みは等しく１であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップＳ５において各サンプル画像の重みが更新された後の２回目のステップＳ３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳ３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。

次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（ステップＳ４）。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップＳ６へと進む。

ステップＳ６では、直近のステップＳ３で選択された識別器が再び選択されないようにするため、その識別器が除外される。

次に、直近のステップＳ３で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる（ステップＳ５）。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。

続いて、ステップＳ３へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。

以上のステップＳ３からＳ６を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における第２の特徴量Ｃ２の組み合わせに対応する識別器が選択されたところで、ステップＳ４で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され（ステップＳ７）、これにより第２の参照データＲ２の学習を終了する。

そして、上記と同様に識別器の種類と識別条件とを求めることにより第１の参照データＲ１の学習がなされる。

なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における第１および第２の特徴量Ｃ１，Ｃ２の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図９の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。なお、第１および第２の参照データＲ１，Ｒ２は、熟練した技術者により経験的に定められたものであってもよい。

また、上記の学習方法において、識別器を作成するための画素群を合成する画素として、図１０に示すように顔であることが分かっているサンプル画像における左目と左頬とを含む第１の領域Ａ１および右目と右頬とを含む第２の領域Ａ２内の画素のみを用いるようにしてもよい。また、第１および第２の領域Ａ１，Ａ２に加えて、図１０に破線で示すように両目を含む第３の領域Ａ３内の画素を用いるようにしてもよい。

この場合、領域Ａ１，Ａ２，Ａ３の位置は学習に用いるすべてのサンプル画像において同一とする。すなわち、本実施形態においては、図６に示すように両目の中心間距離が９，１０，１１画素であり、各距離において平面上±１５度の範囲にて３度単位で段階的に顔を回転させることにより変形したサンプル画像を用いて、第１および第２の参照データＲ１，Ｒ２の学習を行うが、変形したサンプル画像上における領域Ａ１，Ａ２，Ａ３の位置を、両目の中心間距離が１０画素で回転角度が０度のサンプル画像に設定した領域Ａ１，Ａ２，Ａ３の位置と同一とする。また、顔でないことが分かっているサンプル画像についても、設定する領域Ａ１，Ａ２，Ａ３の位置は、両目の中心間距離が１０画素で回転角度が０度の顔であることが分かっているサンプル画像に設定した領域Ａ１，Ａ２，Ａ３の位置と同一とする。したがって、図１１に示すように学習に用いるすべてのサンプル画像上に設定された領域Ａ１，Ａ２さらには領域Ａ３内の画素のみを用いて識別器を作成することとなる。

このように、学習の際にサンプル画像における第１から第３の領域Ａ１〜Ａ３内の画素のみを用いて識別器を作成することにより、第１および第２の参照データＲ１，Ｒ２の学習時間を大幅に短縮することができる。

また、識別対象画像Ｓ０に顔が含まれるか否かの識別を行う場合において、第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３に含まれる画素を用いて作成した識別器が識別性能の向上に大きく寄与することが本出願人の実験により確認されている。このため、学習の際に第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３に含まれる画素のみを用いて識別器を作成して第１および第２の参照データＲ１，Ｒ２の学習を行うことにより、識別対象画像Ｓ０に顔が含まれるか否かの識別性能をより向上させることができる。

第１の識別部８は、複数種類の画素群を構成する各画素における第１の特徴量Ｃ１の組み合わせのすべてについて第１の参照データＲ１が学習した識別条件を参照して、各々の画素群を構成する各画素における第１の特徴量Ｃ１の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して識別対象画像Ｓ０に顔候補が含まれるか否かを識別する。この際、第１の特徴量Ｃ１である勾配ベクトルＫの方向は第１の参照データＲ１を学習した場合と同様に例えば４値化される。本実施形態では、すべての識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には識別対象画像Ｓ０には顔候補が含まれると判断し、負の値である場合には顔候補は含まれないと判断する。なお、第１の識別部８が行う識別対象画像Ｓ０に顔候補が含まれるか否かの識別を第１の識別と称する。

ここで、識別対象画像Ｓ０のサイズは３０×３０画素のサンプル画像とは異なり、各種サイズを有するものとなっている。また、顔が含まれる場合、平面上における顔の回転角度が０度であるとは限らない。このため、第１の識別部８は、図１２に示すように、識別対象画像Ｓ０を縦または横のサイズが３０画素となるまで段階的に拡大縮小するとともに平面上で段階的に３６０度回転させつつ（図１２においては縮小する状態を示す）、各段階において拡大縮小された識別対象画像Ｓ０上に３０×３０画素サイズのマスクＭを設定し、マスクＭを拡大縮小された識別対象画像Ｓ０上において１画素ずつ移動させながら、マスク内の画像が顔の画像であるか否かの識別を行うことにより、識別対象画像Ｓ０に顔候補が含まれるか否かを識別する。

なお、第１および第２の参照データＲ１，Ｒ２の生成時に学習したサンプル画像として両目の中心位置の画素数が９，１０，１１画素のものを使用しているため、識別対象画像Ｓ０および顔候補の拡大縮小時の拡大率は１１／９とすればよい。また、第１および第２の参照データＲ１，Ｒ２の生成時に学習したサンプル画像として、顔が平面上で±１５度の範囲において回転させたものを使用しているため、識別対象画像Ｓ０および顔候補は３０度単位で３６０度回転させればよい。

ここで、特徴量算出部４は、識別対象画像Ｓ０および顔候補の拡大縮小および回転という変形の各段階において第１および第２の特徴量Ｃ１，Ｃ２を算出する。

なお、第１および第２の参照データＲ１，Ｒ２の学習の際に、上述したようにサンプル画像に設定された第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３内の画素のみを用いて識別器を作成した場合には、特徴量算出部４はマスクＭにおける第１および第２の領域Ａ１，Ａ２、さらには第３の領域Ａ３に対応する各領域の画素のみを用いて第１および第２の特徴量Ｃ１，Ｃ２を算出する。

そして、識別対象画像Ｓ０に顔候補が含まれるか否かの識別を拡大縮小および回転の全段階の識別対象画像Ｓ０について行い、一度でも顔候補が含まれると識別された場合には、識別対象画像Ｓ０には顔候補が含まれると識別し、顔候補が含まれると識別された段階におけるサイズおよび回転角度の識別対象画像Ｓ０から、識別されたマスクＭの位置に対応する３０×３０画素の領域を顔候補として抽出する。

第２の識別部１０は、第１の識別部８が抽出した顔候補上において、第１の識別部８と同様に顔候補を段階的に拡大縮小しつつ回転させることにより変形し、顔候補の変形の各段階において、複数種類の画素群を構成する各画素における第２の特徴量Ｃ２の組み合わせのすべてについて第２の参照データＲ２が学習した識別条件を参照して、各々の画素群を構成する各画素における第２の特徴量Ｃ２の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔候補が顔であるか否かを識別する。この際、第２の特徴量Ｃ２である勾配ベクトルＫの方向は４値化され大きさは３値化される。本実施形態では、すべての識別ポイントを加算して、その加算値の正負によって識別を行うものとする。例えば、識別ポイントの総和が正の値である場合には顔候補が顔であると判断され、負の値である場合には顔候補は顔でないと判断される。なお、第２の識別部１０が行う顔候補が顔であるか否かの識別を第２の識別と称する。

出力部１２は、第１の識別部８が識別対象画像Ｓ０に顔候補が含まれないと識別した場合、および第１の識別部８が識別対象画像Ｓ０に顔候補が含まれると識別しても第２の識別部１０がその顔候補が顔でないと識別した場合に、識別対象画像Ｓ０には顔が含まれない旨の識別結果を出力する。一方、第２の識別部１０が第１の識別部８が識別した顔候補が顔であると識別した場合、識別対象画像Ｓ０から識別された顔をトリミングすることにより抽出して抽出された顔の画像を表す顔画像データＳ１を出力する。

次いで、第１の実施形態において行われる処理について説明する。図１３は第１の実施形態において行われる処理を示すフローチャートである。まず、画像入力部２が識別対象画像データＳ０の入力を受け付ける（ステップＳ１１）。この際、多数の画像に関する一連の画像データＳ０の入力を連続的に受け付けてもよい。次いで、特徴量算出部４が識別対象画像Ｓ０の拡大縮小および回転の各段階において、識別対象画像Ｓ０の勾配ベクトルＫの方向を第１の特徴量Ｃ１として算出する（ステップＳ１２）。そして、第１の識別部８がメモリ６から第１の参照データＲ１を読み出し（ステップＳ１３）、識別対象画像Ｓ０に顔候補が含まれるか否かの第１の識別を行う（ステップＳ１４）。

ステップＳ１４が肯定されると、第１の識別部８は識別対象画像Ｓ０から顔候補を抽出する（ステップＳ１５）。なお、複数の顔候補を抽出してもよい。次いで、特徴量算出部４が顔候補の拡大縮小および回転の各段階において顔候補から第２の特徴量Ｃ２を算出し（ステップＳ１６）、第２の特徴量Ｃ２を正規化する（ステップＳ１７）。そして、第２の識別部１０がメモリ６から第２の参照データＲ２を読み出し（ステップＳ１８）、顔候補が顔であるか否かの第２の識別を行う（ステップＳ１９）。

ステップＳ１９が肯定されると、出力部１２が識別対象画像Ｓ０から識別された顔を抽出し、抽出された顔の画像を表す顔画像データＳ１を出力し（ステップＳ２０）、処理を終了する。

ステップＳ１４およびステップＳ１９が否定されると、識別対象画像Ｓ０には顔が含まれないとして出力部１２がその旨を表す識別結果を出力し（ステップＳ２１）、処理を終了する。

このように、第１の実施形態による対象物識別装置１の第１の識別部８においては、正規化が不要な勾配ベクトルＫの傾きという第１の特徴量Ｃ１を用いているため、識別対象画像Ｓ０の全体について顔候補が含まれるか否かを識別しても、それほど演算量は多くなく、その結果、比較的高速に識別対象画像Ｓ０に顔候補が含まれるか否かを識別できる。一方、第２の識別部１０においては、勾配ベクトルＫの傾きおよび大きさという第２の特徴量Ｃ２を正規化して顔候補が顔であるか否かの識別を行っているため、識別の精度は高いものの演算量が多くなる。しかしながら、本実施形態においては、第２の特徴量を正規化して第２の識別を行うのは、識別対象画像Ｓ０から抽出された顔候補の部分のみであるため、正規化のための演算量が少なくなり、その結果、識別の処理に要する時間は短いものとなる。したがって、本実施形態によれば、識別対象画像Ｓ０に顔が含まれるか否かの識別を高速かつ高精度に行うことができる。

なお、識別対象画像Ｓ０において、サンプル画像における第１および第２の領域Ａ１，Ａ２さらには第３の領域Ａ３に対応する各領域から第１および第２の特徴量Ｃ１，Ｃ２を算出することにより、識別対象画像Ｓ０の全体から第１および第２の特徴量Ｃ１，Ｃ２を算出する場合よりも第１および第２の特徴量Ｃ１，Ｃ２を算出する範囲が小さくなるため、演算時間を短縮することができる。

次いで、本発明の第２の実施形態について説明する。図１４は本発明の第２の実施形態による対象物識別装置１′の構成を示す概略ブロック図である。なお、第２の実施形態において第１の実施形態と同一の構成については同一の参照番号を付し、ここでは詳細な説明は省略する。第２の実施形態においては、第１の実施形態による対象物識別装置を構成する画像入力部２、特徴量算出部４、メモリ６、第１の識別部８、第２の識別部１０および出力部１２に加えて、第１の識別部８による識別結果が所定の要求を満たすか否かを判定し、この判定が肯定された場合は、第１の特徴量Ｃ１のみを算出し、第１の識別部８が識別した顔候補を顔と識別して第２の識別部１０における第２の識別を行わないよう、特徴量算出部４、第１の識別部８および第２の識別部１０を制御する制御部１４を備えた点が第１の実施形態と異なる。

制御部１４は、識別対象画像データＳ０に対する第１の識別および第２の識別を開始してから、識別を行った識別対象画像データＳ０の数が所定数に達した時点において、第１の識別部８が識別対象画像Ｓ０に顔候補が含まれると識別した回数（Ｎ１とする）と、第２の識別部１０が顔候補が顔であると識別した回数（Ｎ２とする）とを比較し、回数Ｎ１に対する回数Ｎ２の比Ｎ２／Ｎ１が例えば所定の割合（例えば０．９５）以上であるか否かを判定することにより、第１の識別部８の識別結果が所定の要求を満たすか否かを判定する。そしてこの判定が肯定されると第１の識別部８による顔候補の識別精度が非常に高いものであるとして、それ以降識別を行う識別対象画像データＳ０については、特徴量算出部４において第１の特徴量Ｃ１のみを算出し、第１の識別部８においてのみ識別対象画像Ｓ０に顔候補が含まれるか否かを識別し、顔候補が含まれると識別された場合にはその顔候補が顔であるものとして、識別対象画像Ｓ０には顔が含まれると識別し、識別結果を出力部１２に出力するよう特徴量算出部４、第１の識別部８および第２の識別部１０を制御する。

次いで、第２の実施形態において行われる処理について説明する。なお、第２の実施形態においては、画像入力部２、特徴量算出部４、メモリ６、第１の識別部８、第２の識別部１０および出力部１２において行われる処理は第１の実施形態において行われる処理と同一であるため、ここでは制御部１４が行う処理についてのみ説明する。

図１５は第２の実施形態において行われる処理を示すフローチャートである。識別対象画像Ｓ０に顔が含まれるか否かを識別する処理が開始されると制御部１４は処理を開始し、第１の識別部８が識別対象画像Ｓ０に顔候補が含まれると識別した回数Ｎ１をカウントする（ステップＳ３１）。一方、第２の識別部１０が顔候補が顔であると識別した回数Ｎ２をカウントする（ステップＳ３２）。

次いで、制御部１４は、識別を行った識別対象画像Ｓ０の数（すなわち識別数）が所定数に達したか否かを判定する（ステップＳ３３）。ステップＳ３３が否定されるとステップＳ３１に戻り、ステップＳ３３が肯定されるまでステップＳ３１からステップＳ３３の処理を繰り返す。ステップＳ３３が肯定されると、回数Ｎ１に対する回数Ｎ２の比Ｎ２／Ｎ１が所定の割合以上であるか否かを判定する（ステップＳ３４）。

ステップＳ３４が肯定されると、第１の特徴量Ｃ１のみを算出して第１の識別部８のみを用いて識別対象画像Ｓ０に顔が含まれるか否かを識別するよう特徴量算出部４、第１の識別部８および第２の識別部１０を制御し（ステップＳ３５）、処理を終了する。一方、ステップＳ３４が否定されると、引き続き第１および第２の特徴量Ｃ１，Ｃ２を算出し、第１および第２の識別部８，１０を用いて識別対象画像Ｓ０に顔が含まれるか否かを識別するよう特徴量算出部４、第１の識別部８および第２の識別部１０を制御し（ステップＳ３６）、処理を終了する。

このように、第２の実施形態においては、第１の識別部８による識別結果が所定の要求を満たすか否かを判定し、この判定が肯定された場合には、以降の処理においては第１の特徴量Ｃ１のみを算出し、第１の識別部８のみを用いて第１の識別部８が識別した顔候補を顔と識別するようにしたものである。このため、第１の識別部８が精度よく識別を行っている場合には、正規化された第２の特徴量Ｃ２の算出および第２の識別部１０が行う第２の識別を省略することができ、これにより、より高速に識別対象画像Ｓ０に顔が含まれるか否かの識別を行うことができる。

なお、上記第１および第２の実施形態においては、第１および第２の参照データＲ１，Ｒ２は装置１内のメモリ６に格納されているものとしたが、特徴量算出部４、第１の識別部８および第２の識別部１０が第１および第２の参照データＲ１，Ｒ２にアクセスできる限り、第１および第２の参照データＲ１，Ｒ２は、装置１とは別個の装置やＣＤ−ＲＯＭ等の差替可能な媒体に記憶されたものであってもよい。

また、上記第１および第２の実施形態においては、正規化が不要な第１の特徴量Ｃ１として勾配ベクトルＫの傾きを用いているが、識別対象画像Ｓ０の色相や彩度等の色情報も勾配ベクトルＫと同様に識別対象画像Ｓ０の明度やコントラストが変化しても不変なものであることから、識別対象画像Ｓ０の色情報を第１の特徴量として用いてもよい。

また、上記第１および第２の実施形態においては、顔を識別対象物として識別対象画像Ｓ０に顔が含まれるか否かを識別しているが、ほぼ一定形状をなしており、参照データの学習を行う際にサイズを揃えることが可能な自動車や道路標識等を識別の対象物としてもよい。

また、上記第１および第２の実施形態においては、出力部１２が識別対象画像Ｓ０から顔を抽出しているが、識別対象画像Ｓ０における顔の位置を表す顔位置情報（例えば識別された顔を囲む矩形領域の四隅の座標）を識別対象画像データＳ０に付与し、顔位置情報が付与された識別対象画像データＳ０を出力してもよい。ここで、顔位置情報を識別対象画像データＳ０に付与するには、識別対象画像データＳ０のヘッダやタグに顔位置情報を記述したり、識別対象画像データＳ０とファイル名が同一で拡張子が異なる例えばテキストファイルに顔位置情報を記述して、識別対象画像データＳ０とテキストファイルとを一体不可分とする手法を用いることができる。なお、識別対象画像Ｓ０には顔が含まれないと識別された場合には、その識別結果を表す識別情報を識別対象画像データＳ０に付与して出力してもよい。

また、上記第１および第２の実施形態においては、特徴量算出部４において第１および第２の特徴量Ｃ１，Ｃ２を算出しているが、第１の特徴量Ｃ１および第２の特徴量Ｃ２をそれぞれ算出するための専用の特徴量算出部を設けてもよい。

また、上記第１および第２の実施形態においては、第１および第２の識別部８，１０という２つの識別部を用いているが、図１６に示す本発明の第３の実施形態による対象物識別装置１″のように、さらに第３の識別部１６を設けるようにしてもよい。

第３の実施形態による対象物識別装置１″の第３の識別部１６は、第１および第２の特徴量Ｃ１，Ｃ２とは別の特徴量（第３の特徴量Ｃ３とする）について学習を行った別の参照データ（第３の参照データＲ３とする）を参照して、識別対象画像Ｓ０から算出された第３の特徴量Ｃ３に基づいて、第２の識別部１０が識別した顔がさらに真の顔であるか否かを識別する。このように、さらに第３の識別部１６を設けることにより、識別対象画像Ｓ０に顔が含まれるか否かの識別精度をさらに向上させることができる。なお、第３の実施形態においては、第３の識別部１６という１つの識別部を第１および第２の識別部８，１０に追加しているが、さらに複数の識別部を追加してもよい。

また、上記第１から第３の実施形態においては、本発明による対象物識別装置を単体として用いているが、本発明による対象物識別装置をデジタルカメラ、カメラ付き携帯電話等の撮影により画像データを取得する撮像装置に設けるようにしてもよい。これにより、撮像装置において、画像データにより表される画像に対して顔検出、赤目補正または目を閉じているか否かを検出する処理を行う際に、顔さらには目の位置の認識を行うことができる。

以上、本発明の第１から第３の実施形態に係る装置について説明したが、コンピュータを、上記の画像入力部２、特徴量算出部４、メモリ６、第１の識別部８、第２の識別部１０、出力部１２、制御部１４および第３の識別部１６に対応する手段として機能させ、識別対象画像Ｓ０に顔が含まれるか否かを識別する処理を行わせるプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。これらの場合においても、参照データは、プログラム内あるいは同一の記録媒体内に含まれているものであってもよいし、外部の装置や別個の媒体から提供されるものであってもよい。

本発明の第１の実施形態による対象物識別装置の構成を示す概略ブロック図（ａ）は水平方向のエッジ検出フィルタを示す図、（ｂ）は垂直方向のエッジ検出フィルタを示す図勾配ベクトルの算出を説明するための図（ａ）は人物の顔を示す図、（ｂ）は（ａ）に示す人物の顔の目および口付近の勾配ベクトルを示す図（ａ）は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、（ｂ）は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、（ｃ）は５値化した勾配ベクトルの大きさのヒストグラムを示す図、（ｄ）は正規化後の５値化した勾配ベクトルの大きさのヒストグラムを示す図顔であることが分かっているサンプル画像の例を示す図顔の回転を説明するための図参照データの学習手法を示すフローチャート識別器の導出方法を示す図サンプル画像に左目および左頬を含む第１の領域および右目および右頬を含む第２の領域、さらには両目を含む第３の領域を設定した状態を示す図変形したサンプル画像に第１から第３の領域を設定した状態を示す図識別対象画像の段階的な変形を説明するための図第１の実施形態において行われる処理を示すフローチャート本発明の第２の実施形態による対象物識別装置の構成を示す概略ブロック図第２の実施形態の制御部が行う処理を示すフローチャート本発明の第３の実施形態による対象物識別装置の構成を示す概略ブロック図

符号の説明

１，１′，１″ 対象物識別装置
２画像入力部
４特徴量算出部
６メモリ
８第１の識別部
１０第２の識別部
１２出力部
１４制御部
１６第３の識別部

Claims

識別対象の画像の入力を受け付ける画像入力手段と、
所定対象物の識別に用いる正規化が不要な第１の特徴量を前記識別対象の画像から算出する第１の特徴量算出手段と、
前記第１の特徴量と該第１の特徴量に対応する識別条件とをあらかじめ規定した第１の参照データを、前記識別対象の画像から算出された第１の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別する第１の識別手段と、
該第１の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第２の特徴量を前記所定対象物候補から算出する第２の特徴量算出手段と、
前記第２の特徴量と該第２の特徴量に対応する識別条件とをあらかじめ規定した第２の参照データを、前記所定対象物候補から算出された正規化された第２の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別する第２の識別手段とを備えたことを特徴とする対象物識別装置。
前記第１の参照データが、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第１の特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得られたものであることを特徴とする請求項１記載の対象物識別装置。
前記所定対象物が顔である場合、前記第１の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記第１の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記第１の特徴量を学習することにより得られたものであり、
前記第１の特徴量算出手段は、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記第１の特徴量を算出する手段であることを特徴とする請求項２記載の対象物識別装置。
前記第１の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記第１の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記第１の特徴量をさらに学習することにより得られたものであり、
前記第１の特徴量算出手段は、前記識別対象の画像における前記第１から前記第３の領域に対応する各領域から前記第１の特徴量を算出する手段であることを特徴とする請求項３記載の対象物識別装置。
前記第２の参照データが、前記所定対象物であることが分かっている複数のサンプル画像と、前記所定対象物でないことが分かっている複数のサンプル画像とからなる多数のサンプル画像群に含まれる前記第２の特徴量を、マシンラーニングの手法によりあらかじめ学習することにより得られたものであることを特徴とする請求項１から４のいずれか１項記載の対象物識別装置。
前記所定対象物が顔である場合、前記第２の参照データが、前記所定対象物であることが分かっているサンプル画像における左目と左頬とを含む所定範囲の第１の領域および右目と右頬とを含む所定範囲の第２の領域に含まれる前記第２の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第１および前記第２の領域に対応する各領域に含まれる前記第２の特徴量を学習することにより得られたものであり、
前記第２の特徴量算出手段は、前記識別対象の画像における前記第１および前記第２の領域に対応する各領域から前記第２の特徴量を算出する手段であることを特徴とする請求項５記載の対象物識別装置。
前記第２の参照データが、前記所定対象物であることが分かっているサンプル画像における両目を含む所定範囲の第３の領域に含まれる前記第２の特徴量、並びに前記所定対象物でないことが分かっているサンプル画像における前記第３の領域に対応する領域に含まれる前記第２の特徴量をさらに学習することにより得られたものであり、
前記第２の特徴量算出手段は、前記識別対象の画像における前記第１から第３の領域に対応する各領域から前記第２の特徴量を算出する手段であることを特徴とする請求項６記載の対象物識別装置。
前記第１の特徴量は、画像上の各画素における勾配ベクトルの方向または色情報であることを特徴とする請求項１から７のいずれか１項記載の対象物識別装置。
前記第２の特徴量は、画像上の各画素における勾配ベクトルの方向および大きさであることを特徴とする請求項１から８のいずれか１項記載の対象物識別装置。
前記第１の識別手段による識別結果が所定の要求を満たすか否かを判定し、該判定が肯定された場合は、前記識別対象の画像から前記第１の特徴量のみを算出して、前記第１の識別手段が識別した前記所定対象物候補を前記所定対象物と識別するよう前記第１および前記第２の特徴量算出手段、並びに前記第１および前記第２の識別手段を制御する制御手段をさらに備えたことを特徴とする請求項１から９のいずれか１項記載の対象物識別装置。
前記所定対象物候補から算出されたさらに他の特徴量に基づいて、前記第２の識別手段により識別された前記画像に含まれる所定対象物が、真に所定対象物であるか否かを識別する少なくとも１つの他の識別手段をさらに備えたことを特徴とする請求項１から９のいずれか１項記載の対象物識別装置。
前記識別対象の画像から前記所定対象物を抽出する抽出手段をさらに備えたことを特徴とする請求項１から１１のいずれか１項記載の対象物識別装置。
前記識別対象の画像における前記所定対象物の位置を表す情報を前記識別対象の画像に付与して出力する出力手段をさらに備えたことを特徴とする請求項１から１１のいずれか１項記載の対象物識別装置。
請求項１から１３のいずれか１項記載の対象物識別装置を備えたことを特徴とする撮像装置。
識別対象の画像の入力を受け付け、
所定対象物の識別に用いる正規化が不要な第１の特徴量を前記識別対象の画像から算出し、
前記第１の特徴量と該第１の特徴量に対応する識別条件とをあらかじめ規定した第１の参照データを、前記識別対象の画像から算出された第１の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別し、
該第１の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第２の特徴量を前記所定対象物候補から算出し、
前記第２の特徴量と該第２の特徴量に対応する識別条件とをあらかじめ規定した第２の参照データを、前記所定対象物候補から算出された正規化された第２の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別することを特徴とする対象物識別方法。
識別対象の画像の入力を受け付ける手順と、
所定対象物の識別に用いる正規化が不要な第１の特徴量を前記識別対象の画像から算出する手順と、
前記第１の特徴量と該第１の特徴量に対応する識別条件とをあらかじめ規定した第１の参照データを、前記識別対象の画像から算出された第１の特徴量に基づいて参照して、前記識別対象の画像に所定対象物候補が含まれるか否かを識別する手順と、
該第１の識別手段により前記所定対象物候補が含まれると識別された場合、前記所定対象物の識別に用いる正規化された第２の特徴量を前記所定対象物候補から算出する手順と、
前記第２の特徴量と該第２の特徴量に対応する識別条件とをあらかじめ規定した第２の参照データを、前記所定対象物候補から算出された正規化された第２の特徴量に基づいて参照して、前記所定対象物候補が前記所定対象物であるか否かを識別する手順とを有することを特徴とする対象物識別方法をコンピュータに実行させるためのプログラム。