JP2007047965A

JP2007047965A - デジタル画像の対象物検出方法および装置並びにプログラム

Info

Publication number: JP2007047965A
Application number: JP2005230495A
Authority: JP
Inventors: Kensuke Terakawa; 賢祐寺川
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2005-08-09
Filing date: 2005-08-09
Publication date: 2007-02-22
Anticipated expiration: 2025-08-09
Also published as: US20070036429A1; JP4708909B2

Abstract

【課題】入力画像における所定の対象物を検出する方法において、当該対象物の一部が遮蔽されている場合であっても検出を可能にする。
【解決手段】対象物の全体を表すサンプル画像群の他に、サンプル画像の切出し位置をずらす等により所定の一部が遮蔽された対象物を表す１以上のサンプル画像群（ＳＲ，ＳＵ）を用意し、サンプル画像群の種類毎にマシンラーニングの学習手法を用いて判別器を学習させ、複数の判別器を生成する。入力画像上の異なる位置で切り出された部分画像の各々に対して上記複数の判別器を適用し、部分画像が対象物全体を表す画像もしくはその一部が遮蔽された画像（ＳＱ１，ＳＱ２）であるか否かを判別する。
【選択図】図１０

Description

本発明は、デジタル画像の中から所定の対象物を検出する対象物検出方法および装置並びにそのためのプログラムに関するものである。

従来、コンピュータ等の計算機を用いて一般写真等のデジタル画像から顔等の所定の対象物（オブジェクト）を検出する方法が種々提案されている。このような対象物を検出する方法としては、例えば、比較的古くから利用されているテンプレートマッチングによる方法のほか、近年注目されているブースティング（Ｂｏｏｓｔｉｎｇ）と呼ばれる学習手法を用いて実現される方法（特許文献１参照）等が知られている。

このブースティングによる学習手法を用いて実現される方法は、所定の対象物を表す複数の異なるサンプル画像と、所定の対象物でないことが分かっている複数の異なるサンプル画像とを用いて、その対象物の特徴を学習させ、ある画像が所定の対象物を表す画像であるか否かを判別することが可能な判別器を生成して用意しておき、その所定の対象物を検出する対象となる検出対象画像において部分画像を順次切り出し、その部分画像が所定の対象物を表す画像であるか否かを上記の判別器を用いて判別することにより、検出対象画像上で所定の対象物を検出するものである。

これらの方法は、例えば、ある画像が顔と非顔のいずれであるかを判別して顔を検出するような２クラス問題を解決するには有用であり、特に、ブースティングによる学習手法を用いて実現される方法は、高速性と高い検出能が両立しており、これに類似する技術も含め、種々の分野において広く使用されている。
ＵＳ２００２／０１０２０２４Ａ１

しかしながら、上記の方法は、検出対象物全体が画像として現れていることを前提としており、検出対象物の一部が何らかの理由で遮蔽されているような場合には、その対象物を的確に検出できないという問題がある。例えば、検出対象物が人の顔である場合に、髪の毛や手、あるいは他の被写体と重なって顔の一部が遮蔽されているような場合には、その顔を的確に検出できない。また、特に、ブースティングによる学習手法により学習・生成された判別器を用いて検出対象物を検出する方法では、その検出性能が学習に用いられるサンプル画像に強く依存するため、検出漏れも起きやすいという問題がある。

本発明は、上記事情に鑑み、デジタル画像において一部が遮蔽された所定の対象物をも的確に検出することが可能なデジタル画像の対象物検出方法および装置並びにそのためのプログラムを提供することを目的とするものである。

本発明の対象物検出方法は、入力画像における所定の対象物を検出する対象物検出方法であって、前記所定の対象物の全体を表す複数の異なる所定の大きさのサンプル画像からなる全体サンプル画像群と、少なくとも１種類の、所定の一部が遮蔽された前記所定の対象物を表すサンプル画像からなる遮蔽サンプル画像群とを含む複数のサンプル画像群を取得し、該サンプル画像群毎に、該サンプル画像が表す前記所定の対象物の画像上の特徴をマシンラーニングの手法により学習させて、判別対象画像が前記所定の対象物の全体を表す画像であるか否かを判別する判別器と、判別対象画像が所定の一部が遮蔽された前記所定の対象物を表す画像であるか否かを判別する少なくとも１種類の判別器とを含む複数の判別器を生成して用意するステップと、前記入力画像上の複数の異なる位置で前記所定の大きさの部分画像を切り出すステップと、前記部分画像の各々に対して、該部分画像を前記判別対象画像として前記複数の判別器のうち少なくとも１つを適用することにより、該部分画像が前記所定の対象物の全体を表す画像および所定の一部が遮蔽された前記所定の対象物を表す画像のうちのいずれかであるか否かを判別するステップとを有することを特徴とするものである。

本発明の対象物検出装置は、入力画像における所定の対象物を検出する対象物検出装置であって、前記所定の対象物の全体を表す複数の異なる所定の大きさのサンプル画像からなる全体サンプル画像群と、少なくとも１種類の、所定の一部が遮蔽された前記所定の対象物を表すサンプル画像からなる遮蔽サンプル画像群とを含む複数のサンプル画像群を取得し、該サンプル画像群毎に、該サンプル画像が表す前記所定の対象物の画像上の特徴をマシンラーニングの手法により学習させて、判別対象画像が前記所定の対象物の全体を表す画像であるか否かを判別する判別器と、判別対象画像が所定の一部が遮蔽された前記所定の対象物を表す画像であるか否かを判別する少なくとも１種類の判別器とを生成して得られた複数の判別器と、前記入力画像上の複数の異なる位置で前記所定の大きさの部分画像を切り出す部分画像切出し手段と、前記部分画像の各々に対して、該部分画像を前記判別対象画像として前記複数の判別器のうち少なくとも１つを適用することにより、該部分画像が前記所定の対象物の全体を表す画像および所定の一部が遮蔽された前記所定の対象物を表す画像のうちのいずれかであるか否かを判別する判別手段とを備えたことを特徴とするものである。

本発明のプログラムは、コンピュータを、入力画像における所定の対象物を検出する対象物検出手段として機能させるためのプログラムであって、該コンピュータを、前記所定の対象物の全体を表す複数の異なる所定の大きさのサンプル画像からなる全体サンプル画像群と、少なくとも１種類の、所定の一部が遮蔽された前記所定の対象物を表すサンプル画像からなる遮蔽サンプル画像群とを含む複数のサンプル画像群を取得し、該サンプル画像群毎に、該サンプル画像が表す前記所定の対象物の画像上の特徴をマシンラーニングの手法により学習させて、判別対象画像が前記所定の対象物の全体を表す画像であるか否かを判別する判別器と、判別対象画像が所定の一部が遮蔽された前記所定の対象物を表す画像であるか否かを判別する少なくとも１種類の判別器とを生成して得られた複数の判別器と、前記入力画像上の複数の異なる位置で前記所定の大きさの部分画像を切り出す部分画像切出し手段と、前記部分画像の各々に対して、該部分画像を前記判別対象画像として前記複数の判別器のうち少なくとも１つを適用することにより、該部分画像が前記所定の対象物の全体を表す画像および所定の一部が遮蔽された前記所定の対象物を表す画像のうちのいずれかであるか否かを判別する判別手段として機能させるためのプログラムである。

本発明において、前記遮蔽サンプル画像群は、前記全体サンプル画像群を構成する各サンプル画像を、該サンプル画像から所定方向に所定量だけずれた位置において、該サンプル画像と同じ大きさの枠で切り出すことにより得られたものとすることができる。

また、この場合において、前記所定方向は、前記サンプル画像に対して水平方向または垂直方向であり、前記所定量は、前記所定の対象物の幅の１／３から１／５の間の長さであることが望ましい。

また、本発明において、前記所定の対象物は、目、鼻、口を含む顔であり、前記所定の一部は、目または口の一部であってもよい。

また、本発明において、前記マシンラーニングの手法としては、例えば、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）の学習手法、サポートベクターマシーン（ＳＶＭ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）の学習手法、ブースティング（Ｂｏｏｓｔｉｎｇ）等が考えられるが、特に、ブースティングとすることが望ましい。

また、前記「所定の一部が遮蔽された前記所定の対象物」は、所定の一部が何らかの描写がなされた画像で遮蔽されたものであっても、何も描写されていない画像、例えば、白または黒一色の画像で遮蔽されたものであってもよい。

本発明のデジタル画像の対象物検出方法および装置並びにそのためのプログラムによれば、入力画像上で切り出された部分画像が検出対象である所定の対象物であるか否かを判別する際に、判別すべき画像が所定の対象物の全体を表す画像である判別器（第１の判別器）と、判別すべき画像が一部遮蔽された上記所定の対象物を表す画像である他の判別器（第２の判別器）とを用いて判別するので、第１の判別器では判別が難しい、一部が遮蔽された上記所定の対象物は第２の判別器をもって判別することができ、従来、何らかの理由で上記所定の対象物の一部が遮蔽されて上記所定の対象物の全体の特徴が見出させないために検出できなかった対象物であっても、的確に検出することが可能となる。

以下、本発明の実施形態について説明する。

図１は、本発明の対象物検出方法が適用された顔検出システム１の構成を示す概略ブロック図である。顔検出システム１は、デジタル画像に含まれる顔をその位置や大きさに依らず検出するものであり、図１に示すように、顔を検出する対象となる入力画像Ｓ０を多重解像度化して解像度の異なる複数の画像（以下、解像度画像という）からなる解像度画像群Ｓ１（＝Ｓ１＿１，Ｓ１＿２，・・・，Ｓ１＿ｎ）を得る多重解像度化部１０と、解像度画像群Ｓ１の各々対して、解像度画像が後述の顔検出処理に適した階調の画像となるように画素値を変換する正規化処理を施し、正規化済みの解像度画像群Ｓ１′（＝Ｓ１′＿１，Ｓ１′＿２，・・・，Ｓ１′＿ｎ）を得る正規化部２０と、正規化済みの解像度画像群Ｓ１′の各々に対して顔検出処理を施すことにより、解像度画像群Ｓ１′の各解像度画像に含まれる顔を表す画像（以下、顔画像ともいう）Ｓ２を検出する顔検出部３０と、各解像度画像上で検出された顔画像Ｓ２の各々について、同一の顔が重複して検出されたものであるか否かをその位置関係から判定して整理し、重複検出のない顔画像Ｓ３を得る重複検出判定部４０とを備える。

多重解像度化部１０は、入力画像Ｓ０の解像度（画像サイズ）を変換することにより、その解像度を所定の解像度、例えば、短辺が４１６画素の矩形サイズの画像に規格化し、規格化済みの入力画像Ｓ０′を得る。そして、この規格化済みの入力画像Ｓ０′を基本としてさらに解像度変換を行うことにより、解像度の異なる複数の解像度画像を生成し、解像度画像群Ｓ１を得る。このような解像度画像群を生成する理由は、通常、入力画像に含まれる顔の大きさは不明であるが、一方、検出しようとする顔の大きさ（画像サイズ）は、後述の判別器の生成方法と関連して一定の大きさに固定されるため、大きさの異なる顔を検出するためには、解像度の異なる画像上で位置をずらしながら所定サイズの部分画像をそれぞれ切り出し、その部分画像が顔か非顔かを判別してゆく必要があるためである。

図２は、入力画像の多重解像度化の工程を示した図である。多重解像度化、すなわち、解像度画像群の生成は、具体的には、図２に示すように、規格化済みの入力画像Ｓ０′を基本となる解像度画像Ｓ１＿１とし、解像度画像Ｓ１＿１に対して２の−１／３乗倍サイズの解像度画像Ｓ１＿２と、解像度画像Ｓ１＿２に対して２の−１／３乗倍サイズ（基本画像Ｓ１＿１に対しては２の−２／３乗倍サイズ）の解像度画像Ｓ１＿３とを先に生成し、その後、解像度画像Ｓ１＿１，Ｓ１＿２，Ｓ１＿３のそれぞれを１／２倍サイズに縮小した解像度画像を生成し、それら縮小した解像度画像をさらに１／２倍サイズに縮小した解像度画像を生成する、といった処理を繰り返し行い、複数の解像度画像を所定の数だけ生成するようにする。このようにすることで、輝度を表す画素値の補間処理を必要としない１／２倍の縮小処理を主な処理とし、基本となる解像度画像から２の−１／３乗倍ずつサイズが縮小された複数の画像が高速に生成できる。例えば、解像度画像Ｓ１＿１が短辺４１６画素の矩形サイズである場合、解像度画像Ｓ１＿２，Ｓ１＿３，・・・は、短辺がそれぞれ、３３０画素，２６２画素，２０８画素，１６５画素，１３１画素，１０４画素，８２画素，６５画素，・・・の矩形サイズとなり、２の−１／３乗倍ずつ縮小された複数の解像度画像を生成することができる。なお、このように画素値を補間しないで生成される画像は、元の画像パターンの特徴をそのまま担持する傾向が強いので、顔検出処理において精度向上が期待できる点で好ましい。

正規化部２０は、解像度画像群Ｓ１の各々に対して正規化処理を施すものであるが、具体的には、例えば、画素値をｓＲＧＢ空間におけるいわゆる逆ガンマ変換（＝２．２乗する）した後にさらに対数をとるような変換曲線（ルックアップテーブル）にしたがって、画像全体における画素値を変換する処理を考えることができる。これは、次のような理由による。

画像として観測される光強度Ｉは、通常、被写体の反射率Ｒと光源の強度Ｌの積として表現される（Ｉ＝Ｒ×Ｌ）。したがって、光源の強度Ｌが変化すると、画像として観測される光強度Ｉも変化することになるが、被写体の反射率Ｒのみを評価することができれば、光源の強度Ｌに依存しない、すなわち、画像の明るさの影響を受けない精度の高い顔判別を行うことができる。

ここで、光源の強度がＬの場合において、被写体上で反射率がＲ１の部分から観測される光強度をＩ１、被写体上で反射率がＲ２の部分から観測される光強度をＩ２としたとき、それぞれの対数をとった空間では、下記の式が成り立つ。
ｌｏｇ（Ｉ１）−ｌｏｇ（Ｉ２）＝ｌｏｇ（Ｒ１×Ｌ）−ｌｏｇ（Ｒ２×Ｌ）＝ｌｏｇ（Ｒ１）＋ｌｏｇ（Ｌ）−（ｌｏｇ（Ｒ２）＋ｌｏｇ（Ｌ））＝ｌｏｇ（Ｒ１）−ｌｏｇ（Ｒ２）＝ｌｏｇ（Ｒ１／Ｒ２）

すなわち、画像における画素値を対数変換することは、反射率の比が差として表現された空間へ変換することとなり、このような空間では、光源の強度Ｌに依存しない被写体の反射率のみを評価することが可能となる。言い換えると、画像中の明るさによって異なるコントラスト（ここでは画素値の差分そのもの）を揃えることができる。

一方、一般的なデジタルカメラ等の機器で取得された画像の色空間はｓＲＧＢである。ｓＲＧＢとは、機器間の色再現の違いを統一するために、色彩、彩度等を規定・統一した国際標準の色空間のことであり、この色空間においては、ガンマ値（γout）が２．２の画像出力機器において適正な色再現を可能にするため、画像の画素値は、入力輝度を１／γout（＝０．４５）乗して得られる値となっている。

そこで、画像全体における画素値を、いわゆる逆ガンマ変換（すなわち、もとの画素値を２．２乗する）をした後にさらに対数をとるような変換曲線にしたがって変換し、その変換済みの画像において所定の複数点間の画素値の差分を評価することにより、光源の強度に依存しない被写体の反射率のみによる評価を適正に行うことができるようになる。

顔検出部３０は、正規化部２０により正規化処理がなされた解像度画像群Ｓ１′の各々に対して顔検出処理を施し、各解像度画像における顔画像Ｓ２を検出するものであり、さらに複数の要素から構成されている。すなわち、顔検出部３０は、後述の各部を制御して顔検出処理におけるシーケンス制御を主に行う検出制御部３１と、解像度画像群Ｓ１′の中から顔検出処理に供する解像度画像をサイズの小さいものから順に順次選択する解像度画像選択部３２と、解像度画像選択部３２により選択された解像度画像において、顔画像であるか否かの判別対象となる部分画像Ｗを切り出すサブウィンドウを、その位置をずらしながら順次設定するサブウィンドウ設定部３３と、その切り出された部分画像Ｗが顔画像であるか否かを判別する複数の判別器からなる判別器群３４から構成されている。

検出制御部３１は、解像度画像群Ｓ１′の各画像に対して顔検出処理を行うべく、解像度画像選択部３２およびサブウィンドウ設定部３３を制御するものである。例えば、適宜、解像度画像選択部３２に対して解像度画像の選択を指示したり、サブウィンドウ設定部３３に対してサブウィンドウの設定条件を指示したり、また、得られた検出結果を重複検出判定部４０に出力したりする。

解像度画像選択部３２は、検出制御部３１の制御により、解像度画像群Ｓ１′の中から顔検出処理に供する解像度画像をサイズの小さい順に（解像度の粗い順に）順次選択するものである。なお、本実施形態における顔検出の手法が、各解像度画像上で順次切り出された同じサイズの部分画像Ｗについてその部分画像Ｗが顔画像であるか否かを判別することにより入力画像Ｓ０における顔を検出する手法であるから、この解像度画像選択部３２は、入力画像Ｓ０における検出すべき顔の大きさを毎回変えながら設定するものであって、検出すべき顔の大きさを大から小へ変えながら設定するものと同等なものということができる。

サブウィンドウ設定部３３は、検出制御部３１により設定されたサブウィンドウ設定条件に基づいて、解像度画像選択部３２により選択された解像度画像上でサブウィンドウを移動させながら順次設定する。例えば、上記の選択された解像度画像において、所定のサイズすなわち３２×３２画素サイズの部分画像Ｗを切り出すサブウィンドウを、この解像度画像上を２次元的に走査するライン上の各位置において解像度画像を画像平面上で３６０度回転させながら順次設定する。そして、その切り出された部分画像Ｗを判別器群３４へ入力する。

判別器群３４は、部分画像Ｗが所定の状態にある顔を表す画像であるか否かを判別する複数の判別器から構成されており、具体的には、判別すべき画像が顔全体を表す画像である第１の判別器３４１、判別すべき画像が顔の右側の一部が遮蔽された右遮蔽顔を表す画像である第２の判別器３４２、判別すべき画像が顔の左側の一部が遮蔽された左遮蔽顔を表す画像である第３の判別器３４３、判別すべき画像が顔の上側の一部が遮蔽された上遮蔽顔を表す画像である第４の判別器３４４が並列に接続されている。

各判別器は、部分画像Ｗの画素値（輝度）の分布に係る少なくとも１つの特徴量として、所定の複数点間の画素値の差分に係る特徴量を算出し、この特徴量を用いてこの部分画像Ｗが所定の状態にある顔画像であるか否かを判別するものである。

ここで、判別器群３４を構成する各判別器の構成、判別器における処理の流れおよび判別器の学習方法について説明する。

図３は、判別器の構成を示す図である。判別器は、図３に示すように、複数の弱判別器ＷＣからなり、後述の学習により多数の弱判別器ＷＣの中から選定された判別に有効な弱判別器ＷＣをその有効な順に直列に接続したものである。弱判別器ＷＣは、それぞれ、部分画像Ｗから弱判別器毎に固有の所定のアルゴリズムにしたがって特徴量を算出し、その特徴量と後述の自己のヒストグラムとに基づいて、部分画像Ｗが所定の状態にある顔画像であることの蓋然性を示すスコアを求めるものである。判別器３４１〜３４４は、これら複数の弱判別器ＷＣの全部または一部から得られたスコアを評価して、部分画像Ｗが所定の状態にある顔画像であるか否かの判別結果Ｒを得る。

図４は、１つの判別器における処理の流れを示すフローチャートである。部分画像Ｗが判別器に入力されると、第１番目の弱判別器ＷＣにおいて特徴量ｘが算出される（ステップＳ１）。例えば、図５に示すように、所定のサイズ、例えば、３２×３２画素サイズの部分画像Ｗに対して、４近傍画素平均（画像を２×２画素サイズ毎に複数のブロックに区分し、各ブロックの４画素における画素値の平均値をそのブロックに対応する１つの画素の画素値とする処理）を段階的に行うことにより、１６×１６画素サイズの画像と、８×８画素サイズの縮小した画像を得、もとの画像を含めたこれら３つの画像の平面内に設定される所定の２点を１ペアとして、複数種類のペアからなる１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値をそれぞれ計算し、これらの差分値の組合せを特徴量とする。各ペアの所定の２点は、例えば、画像上の顔の濃淡の特徴が反映されるよう決められた縦方向に並んだ所定の２点や、横方向に並んだ所定の２点とする。そして、特徴量である差分値の組合せに対応する値をｘとして算出する。次に、その値ｘに応じて自己のヒストグラムから部分画像Ｗが判別すべき顔（例えば、第１の判別器３４１の場合には「全体顔」、第２の判別器３４２の場合には「右遮蔽顔」）を表す画像であることの蓋然性を示すスコアが求められる（ステップＳ２）。次に、１つ前の弱判別器ＷＣから引き渡されたスコアにそのスコアを加算して累積スコアＳＣを算出するのであるが、第１番目の弱判別器ＷＣの場合には、引き渡されるスコアが存在しないので、この場合には、求めたスコアをそのまま累積スコアＳＣとする（ステップＳ３）。次に、その累積スコアＳＣが予め決められた所定の閾値Ｔｈ1を超えたか否か、および、その累積スコアＳＣが予め決められた所定の閾値Ｔｈ2を下回ったか否かを判定する（ステップＳ４）。すなわち、ＳＣ＞Ｔｈ1という条件、もしくは、ＳＣ＜Ｔｈ2という条件のいずれかを満たすか否かを判定する。これらの条件を満たすと判定された場合には、ＳＣ＞Ｔｈ1のときに部分画像Ｗが判別すべき顔を表す「顔画像」であると判別し、ＳＣ＜Ｔｈ2のときに部分画像Ｗが「非顔画像」であると判別し、処理を終了する（ステップＳ５）。一方、ステップＳ４において、上記の条件を満たさないと判定された場合には、次の弱判別器ＷＣがあるか否かを判定し（ステップＳ６）、ここで、次の弱判別器ＷＣがあると判定されたときには、累積スコアＳＣを次の弱判別器ＷＣに引き渡して、その次の弱判別器ＷＣの処理に移行する（ステップＳ８）。一方、ステップＳ６において、次の弱判別器ＷＣがないと判定された場合には、算出されたスコアの大小に基づいて、部分画像Ｗが判別すべき顔を表す「顔画像」、「非顔画像」のいずれかとして判別し処理を終了する（ステップＳ８）。

次に、判別器の学習（生成）方法について説明する。

図６は判別器の学習方法を示すフローチャートである。判別器の学習には、所定のサイズ、例えば３２×３２画素サイズで規格化され、さらに、前述の正規化部２０による正規化処理と同様の処理が施された複数のサンプル画像を用いる。サンプル画像としては、顔であることが分かっている複数の異なる顔サンプル画像からなる顔サンプル画像群と、顔でないことが分かっている複数の異なる非顔サンプル画像からなる非顔サンプル画像群とを用意する。なお、本実施形態において、顔を表すサンプル画像としては、すべて、顔の向きが正面で顔の天地方向が垂直方向に略揃ったものを用いる。

顔サンプル画像群は、１つの顔サンプル画像につき、縦および／または横を０．７倍から１．２倍の範囲にて０．１倍単位で段階的に拡縮して得られる各サンプル画像に対し、平面上±１５度の範囲にて３度単位で段階的に回転させて得られる複数の変形バリエーションを用いる。なおこのとき、顔サンプル画像は、目の位置が所定の位置に来るように顔のサイズと位置を規格化し、上記の平面上の回転、拡縮は目の位置を基準として行うようにする。例えば、ｄ×ｄサイズのサンプル画像の場合においては、図７に示すように、両目の位置が、サンプル画像の最左上の頂点と最右上の頂点から、それぞれ、内側に１／４ｄ、下側に１／４ｄ移動した各位置とに来るように顔のサイズと位置を規格化し、また、上記の平面上の回転、拡縮は、両目の中間点を中心に行うようにする。

これら各サンプル画像には、重みすなわち重要度が割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく１に設定される（ステップＳ１１）。

次に、サンプル画像およびその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなるペア群を複数種類設定したときの、この複数種類のペア群のそれぞれについて弱半別器が作成される（ステップＳ１２）。ここで、それぞれの弱判別器とは、サブウィンドウＷで切り出された部分画像とその縮小画像の平面内に設定される所定の２点を１ペアとして複数のペアからなる１つのペア群を設定したときの、この１つのペア群を構成する各ペアにおける２点間の画素値（輝度）の差分値の組合せを用いて、顔の画像と顔でない画像とを判別する基準を提供するものである。本実施形態においては、１つのペア群を構成する各ペアにおける２点間の画素値の差分値の組合せについてのヒストグラムを弱判別器のスコアテーブルの基礎として使用する。

図８はサンプル画像からヒストグラムが生成される様子を示した図である。図８の左側のサンプル画像に示すように、この判別器を作成するためのペア群を構成する各ペアの２点は、顔であることが分かっている複数のサンプル画像において、サンプル画像上の右目の中心にある点をＰ１、右側の頬の部分にある点をＰ２、眉間の部分にある点をＰ３、サンプル画像を４近傍画素平均で縮小した１６×１６画素サイズの縮小画像上の右目の中心にある点をＰ４、右側の頬の部分にある点をＰ５、さらに４近傍画素平均で縮小した８×８画素サイズの縮小画像上の額の部分にある点をＰ６、口の部分にある点をＰ７として、Ｐ１−Ｐ２、Ｐ１−Ｐ３、Ｐ４−Ｐ５、Ｐ４−Ｐ６、Ｐ６−Ｐ７の５ペアである。なお、ある判別器を作成するための１つのペア群を構成する各ペアの２点の座標位置はすべてのサンプル画像において同一である。そして顔であることが分かっているすべてのサンプル画像について上記５ペアを構成する各ペアの２点間の画素値の差分値の組合せが求められ、そのヒストグラムが作成される。ここで、画素値の差分値の組合せとしてとり得る値は、画像の輝度階調数に依存するが、仮に１６ビット階調である場合には、１つの画素値の差分値につき６５５３６通りあり、全体では階調数の（ペア数）乗、すなわち６５５３６の５乗通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、画素値の差分値を適当な数値幅で区切って量子化し、ｎ値化する（例えばｎ＝１００）。これにより、画素値の差分値の組合せの数はｎの５乗通りとなるため、画素値の差分値の組合せを表すデータ数を低減できる。

同様に、顔でないことが分かっている複数の非顔サンプル画像についても、ヒストグラムが作成される。なお、非顔サンプル画像については、顔であることが分かっている顔サンプル画像上における上記各ペアの所定の２点の位置に対応する位置（同様に参照符号Ｐ１からＰ７を用いる）が用いられる。これらの２つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図８の一番右側に示す、弱判別器のスコアテーブルの基礎として用いられるヒストグラムである。この弱判別器のヒストグラムが示す各縦軸の値を、以下、判別ポイントと称する。この弱判別器によれば、正の判別ポイントに対応する、画素値の差分値の組合せの分布を示す画像は顔である可能性が高く、判別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の判別ポイントに対応する画素値の差分値の組合せの分布を示す画像は顔でない可能性が高く、やはり判別ポイントの絶対値が大きいほどその可能性は高まる。ステップＳ１２では、判別に使用され得る複数種類のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せについて、上記のヒストグラム形式の複数の弱判別器が作成される。

続いて、ステップＳ１２で作成した複数の弱半別器のうち、画像が顔であるか否かを判別するのに最も有効な弱判別器が選択される。最も有効な弱判別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各弱判別器の重み付き正答率が比較され、最も高い重み付き正答率を示す弱判別器が選択される（ステップＳ１３）。すなわち、最初のステップＳ１３では、各サンプル画像の重みは等しく１であるので、単純にその弱判別器によって画像が顔であるか否かが正しく判別されるサンプル画像の数が最も多いものが、最も有効な弱判別器として選択される。一方、後述するステップＳ１５において各サンプル画像の重みが更新された後の２回目のステップＳ１３では、重みが１のサンプル画像、重みが１よりも大きいサンプル画像、および重みが１よりも小さいサンプル画像が混在しており、重みが１よりも大きいサンプル画像は、正答率の評価において、重みが１のサンプル画像よりも重みが大きい分多くカウントされる。これにより、２回目以降のステップＳ１３では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく判別されることに、より重点が置かれる。

次に、それまでに選択した弱判別器の組合せの正答率、すなわち、それまでに選択した弱判別器を組み合わせて使用して（学習段階では、弱判別器は必ずしも線形に結合させる必要はない）各サンプル画像が顔の画像であるか否かを判別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる（ステップＳ１４）。ここで、弱判別器の組合せの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した弱判別器を用いれば画像が顔であるか否かを十分に高い確率で判別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した弱判別器と組み合わせて用いるための追加の弱判別器を選択するために、ステップＳ１６へと進む。

ステップＳ１６では、直近のステップＳ１３で選択された弱判別器が再び選択されないようにするため、その弱判別器が除外される。

次に、直近のステップＳ１３で選択された弱判別器では顔であるか否かを正しく判別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく判別できたサンプル画像の重みが小さくされる（ステップＳ１５）。このように重みを大小させる理由は、次の弱判別器の選択において、既に選択された弱判別器では正しく判別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく判別できる弱判別器が選択されるようにして、弱判別器の組合せの効果を高めるためである。

続いて、ステップＳ１３へと戻り、上記したように重み付き正答率を基準にして次に有効な弱判別器が選択される。

以上のステップＳ１３からＳ１６を繰り返して、顔であるか否かを判別するのに適した弱判別器として、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せに対応する弱判別器が選択されたところで、ステップＳ１４で確認される正答率が閾値を超えたとすると、顔であるか否かの判別に用いる弱判別器の種類と判別条件とが確定され（ステップＳ１７）、これにより学習を終了する。なお、選択された弱判別器は、その重み付き正答率が高い順に線形結合され、１つの判別器が構成される。また、各弱判別器については、それぞれ得られたヒストグラムを基に、画素値の差分値の組合せに応じてスコアを算出するためのスコアテーブルが生成される。なお、ヒストグラム自身をスコアテーブルとして用いることもでき、この場合、ヒストグラムの判別ポイントがそのままスコアとなる。

このようにして、顔サンプル画像群と非顔サンプル画像群とを用いた学習により、判別器が生成されるわけであるが、上記の第１から第４の判別器３４１〜３４４のように、判別したい顔の状態が異なる複数の判別器を生成するには、各顔の状態に応じた顔サンプル画像群を用意し、その顔サンプル画像群と非顔サンプル画像群とを用いた学習を顔サンプル画像群の種類毎に行うこととなる。

すなわち、本実施形態においては、顔全体を表す複数の全体顔サンプル画像からなる全体顔サンプル画像群、右遮蔽顔を表す複数の右遮蔽顔サンプル画像からなる右遮蔽顔サンプル画像群、左遮蔽顔を表す複数の左遮蔽顔サンプル画像からなる左遮蔽顔サンプル画像群、上遮蔽顔を表す複数の上遮蔽顔サンプル画像からなる上遮蔽顔サンプル画像群、および、下遮蔽顔を表す複数の下遮蔽顔サンプル画像からなる下遮蔽顔サンプル画像群をそれぞれ用意する。なお、このような所定の一部が遮蔽された遮蔽顔サンプル画像は、全体顔サンプル画像から所定方向に所定量だけずれた位置において、この全体顔サンプル画像と同じ大きさの枠で切り出すことにより得ることができる。

図９は、全体顔サンプル画像から所定方向に所定量だけずれた位置において、全体顔サンプル画像と同サイズの枠で切り出すことにより、所定の一部が遮蔽された遮蔽顔サンプル画像を得る様子を示した図である。図９に示すように、例えば、右遮蔽顔サンプル画像ＳＲを得るには、全体顔サンプル画像ＳＮをそのサンプル画像から右側（サンプル画像から見て左側）に１／４ｄずれた位置において、このサンプル画像と同サイズの枠で切り出すようにする。このようにすることで、顔の右目から外側に相当する全体顔サンプル画像の１／４の領域が遮蔽された右遮蔽顔サンプル画像ＳＲを得ることができる。同様に、全体顔サンプル画像ＳＮをそのサンプル画像から左側（サンプル画像から見て右側）に１／４ｄずれた位置、下側に１／４ｄずれた位置の各位置において同サイズの枠で切り出すことにより、顔の左目から外側に相当する全体顔サンプル画像ＳＮの１／４の領域が遮蔽された左遮蔽顔サンプル画像ＳＬ、顔の両目から上側に相当する全体顔サンプル画像の１／４の領域が遮蔽された上遮蔽顔サンプル画像ＳＵがそれぞれ得られる。

全体顔サンプル画像群および各遮蔽顔サンプル画像群が得られたら、顔サンプル画像群の種類毎に、その顔サンプル画像群と非顔サンプル画像群とを用いて、上記の学習を行うことにより、第１から第４の判別器３４１〜３４４を生成することができる。

このような遮蔽顔サンプル画像群を用いた学習によって生成された第２から第４の判別器３４２〜３４４は、顔の一部が遮蔽された遮蔽顔の特徴を学習したものなので、顔全体が現れていないために顔全体の特徴を学習した第１の判別器３４１では判別が難しいような画像に対しても、判別が可能である。

図１０は遮蔽顔を表す画像とその遮蔽顔を判別するのに適用可能な判別器との対応関係の例を示した図である。図１０に示すように、例えば、集合写真の画像等で前列の他人の頭部が後列の人の顔の右側部に重なって遮蔽された画像ＳＱ１のように顔の右側の特徴を充分に捉えることができないような画像に対しては、顔の右側が遮蔽されたサンプル画像で学習された第２の判別器３４２を適用して判別が可能であり、また、サングラスをかけた人の顔を表す画像ＳＱ２のように両目の特徴を十分に捉えることができないような画像に対しては、顔の上側が遮蔽されたサンプル画像で学習された第４の判別器３４４を適用して判別が可能である。

なお、上記の学習手法を採用する場合において、弱判別器は、特定のペア群を構成する各ペアの所定の２点間の画素値の差分値の組合せを用いて顔の画像と顔でない画像とを判別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば２値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図８の中央に示した２つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

重複検出判定部４０は、顔検出部３０によって検出された真の顔画像Ｓ２の位置情報に基づいて、解像度画像群Ｓ１′の各解像度画像上で検出された顔画像のうち同一の顔を表す画像、すなわち重複して検出された顔画像をそれぞれ１つの顔画像としてまとめる処理を行い、入力画像Ｓ０において検出された真の顔画像Ｓ３を出力する。判別器は、学習方法にもよるが、一般的に部分画像Ｗのサイズに対して検出できる顔の大きさにはある程度幅があるので、解像度レベルが隣接する複数の解像度画像において、同一の顔を表す画像が重複して検出される場合があるからである。

なお、本実施形態において、サブウィンドウ設定部３３は本発明の部分画像切出し手段として機能し、判別器群３４は本発明の判別手段として機能する。

次に、顔検出システム１における処理の流れについて説明する。
図１１は、上記顔検出システムにおける処理の流れを示したフローチャートである。図１１に示すように、多重解像度化部１０に入力画像Ｓ０が供給されると（ステップＳ２１）、この入力画像Ｓ０の画像サイズが所定のサイズに変換された画像Ｓ０′が生成され、この画像Ｓ０′から２の−１／３乗倍ずつサイズ（解像度）が縮小された複数の解像度画像からなる解像度画像群Ｓ１が生成される（ステップＳ２２）。そして、正規化部２０において、解像度画像群Ｓ１の各々に対し、画像全体のコントラストのばらつきを抑制する正規化処理を施し、正規化済みの解像度画像群Ｓ１′が得られる（ステップＳ２３）。顔検出部３０においては、検出制御部３１からの指示を受けた解像度画像選択部３２により、解像度画像群Ｓ１′の中から画像サイズの小さい順、すなわち、Ｓ１′＿ｎ，Ｓ１′＿ｎ−１，・・・，Ｓ１′＿１の順に所定の解像度画像Ｓ１′＿ｉを選択する（ステップＳ２４）。次に検出制御部３１が、サブウィンドウ設定部３３に対して、サブウィンドウ設定条件を設定する。これにより、サブウィンドウ設定部３３は、解像度画像Ｓ１′＿ｉ上でサブウィンドウを走査しながら設定して所定サイズの部分画像Ｗを順次切り出し（ステップＳ２５）、その部分画像Ｗを判別器群３４へ入力する（ステップＳ２６）。判別器群３４は、入力された部分画像Ｗが、遮蔽状態が異なる上記４種類の顔のいずれかを表す画像であるか否かを判別し、検出制御部３１がその判別結果Ｒを取得する（ステップＳ２７）。そして、検出制御部３１は、現在切り出された部分画像Ｗが最後の順番に位置する部分画像であるか否かを判定し（ステップＳ２８）、部分画像Ｗが最後の部分画像であると判定された場合には、次のステップＳ２９へ移行し、部分画像Ｗが最後の部分画像でないと判定された場合には、ステップＳ２５に戻って新たな部分画像Ｗが切り出される。このようにして解像度画像Ｓ１′＿ｉについての顔画像を検出する。

１つの解像度画像における顔画像の検出が終了すると、検出制御部３１は、現在選択されている解像度画像Ｓ１′＿ｉが最後の順番に位置する画像であるか否かを判定し（ステップＳ２８）、最後の解像度画像であると判定された場合には、検出処理を終了し、重複検出判定に移行する（ステップＳ２９）。一方、最後の解像度画像ではないと判定された場合には、ステップＳ２４に戻り、解像度画像選択部３２により、現在選択されている解像度画像Ｓ１′＿ｉより１段階サイズが大きい解像度画像Ｓ１′＿ｉ−１が選択され、さらに顔画像の検出が実行される。

このように、ステップＳ２４からＳ２９までの処理を繰り返すことにより、各解像度画像における顔画像Ｓ２を、一部が遮蔽された顔を含めて検出することができる。図１２は、解像度画像がサイズの小さい順に選択されて顔検出が実施される様子を示した図である。

ステップＳ３０では、重複検出判定部４０により、真の顔画像Ｓ２のうち重複して検出された顔画像をそれぞれ１つの顔画像としてまとめる処理を行い、入力画像Ｓ０において検出された真の顔画像Ｓ３を出力する。

このように、本発明の実施形態に係る顔検出システムによれば、入力画像上で切り出された部分画像が検出対象である顔であるか否かを判別する際に、判別すべき画像が顔の全体を表す画像である判別器（第１の判別器）と、判別すべき画像が一部が遮蔽された顔を表す画像である他の判別器（第２の判別器）とを用いて判別するので、第１の判別器では判別が難しい一部が遮蔽された顔は第２の判別器をもって判別することができ、従来、何らかの理由で顔の一部が遮蔽されて顔全体の特徴が見出させないために検出できなかった顔であっても、的確に検出することが可能となる。

以上、本発明の実施形態に係る顔検出システムについて説明したが、この顔検出システムのうちの本発明の対象物検出装置に対応する部分における各処理をコンピュータに実行させるためのプログラムも、本発明の実施形態の１つである。また、そのようなプログラムを記録したコンピュータ読取可能な記録媒体も、本発明の実施形態の１つである。

顔検出システムの構成を示すブロック図入力画像の多重解像度化の工程を示す図判別器の構成を示すブロック図判別器における処理フローを示す図弱判別器における特徴量の算出を説明するための図判別器の学習方法を示すフローチャート目の位置が所定の位置にくるように規格化された顔のサンプル画像を示す図サンプル画像からヒストグラムが生成される様子を示す図所定の一部が遮蔽された遮蔽顔サンプル画像を得る様子を示す図遮蔽顔の画像とその遮蔽顔の判別に適用可能な判別器との対応関係の例を示す図顔検出システムにおける処理の流れを示すフローチャート顔検出対象となる解像度画像の切替えとその画像上でのサブウィンドウの移動を説明するため図

符号の説明

１顔検出システム
１０多重解像度化部
２０正規化部
３０顔検出部
３１検出制御部
３２解像度画像選択部
３３サブウィンドウ設定部（部分画像切出し手段）
３４判別器群（判別手段）
３４１〜３４４判別器
４０重複検出判定部
ＷＣ弱判別器

Claims

入力画像における所定の対象物を検出する対象物検出方法であって、
前記所定の対象物の全体を表す複数の異なる所定の大きさのサンプル画像からなる全体サンプル画像群と、少なくとも１種類の、所定の一部が遮蔽された前記所定の対象物を表すサンプル画像からなる遮蔽サンプル画像群とを含む複数のサンプル画像群を取得し、
該サンプル画像群毎に、該サンプル画像が表す前記所定の対象物の画像上の特徴をマシンラーニングの手法により学習させて、判別対象画像が前記所定の対象物の全体を表す画像であるか否かを判別する判別器と、判別対象画像が所定の一部が遮蔽された前記所定の対象物を表す画像であるか否かを判別する少なくとも１種類の判別器とを含む複数の判別器を生成して用意するステップと、
前記入力画像上の複数の異なる位置で前記所定の大きさの部分画像を切り出すステップと、
前記部分画像の各々に対して、該部分画像を前記判別対象画像として前記複数の判別器のうち少なくとも１つを適用することにより、該部分画像が前記所定の対象物の全体を表す画像および所定の一部が遮蔽された前記所定の対象物を表す画像のうちのいずれかであるか否かを判別するステップとを有することを特徴とする対象物検出方法。
前記遮蔽サンプル画像群が、前記全体サンプル画像群を構成する各サンプル画像を、該サンプル画像から所定方向に所定量だけずれた位置において、該サンプル画像と同じ大きさの枠で切り出すことにより得られたものであることを特徴とする請求項１記載の対象物検出方法。
前記所定方向が、前記サンプル画像に対して水平方向または垂直方向であり、
前記所定量が、前記所定の対象物の幅の１／３から１／５の間の長さであることを特徴とする請求項２記載の対象物検出方法。
前記所定の対象物が、目、鼻、口を含む顔であり、
前記所定の一部が、目または口の一部であることを特徴とする請求項１、２または３記載の対象物検出方法。
前記マシンラーニングの手法が、ブースティングであることを特徴とする請求項１から４いずれか記載の対象物検出方法。
入力画像における所定の対象物を検出する対象物検出装置であって、
前記所定の対象物の全体を表す複数の異なる所定の大きさのサンプル画像からなる全体サンプル画像群と、少なくとも１種類の、所定の一部が遮蔽された前記所定の対象物を表すサンプル画像からなる遮蔽サンプル画像群とを含む複数のサンプル画像群を取得し、
該サンプル画像群毎に、該サンプル画像が表す前記所定の対象物の画像上の特徴をマシンラーニングの手法により学習させて、判別対象画像が前記所定の対象物の全体を表す画像であるか否かを判別する判別器と、判別対象画像が所定の一部が遮蔽された前記所定の対象物を表す画像であるか否かを判別する少なくとも１種類の判別器とを生成して得られた複数の判別器と、
前記入力画像上の複数の異なる位置で前記所定の大きさの部分画像を切り出す部分画像切出し手段と、
前記部分画像の各々に対して、該部分画像を前記判別対象画像として前記複数の判別器のうち少なくとも１つを適用することにより、該部分画像が前記所定の対象物の全体を表す画像および所定の一部が遮蔽された前記所定の対象物を表す画像のうちのいずれかであるか否かを判別する判別手段とを備えたことを特徴とする対象物検出装置。
前記遮蔽サンプル画像群が、前記全体サンプル画像群を構成する各サンプル画像を、該サンプル画像から所定方向に所定量だけずれた位置において、該サンプル画像と同じ大きさの枠で切り出すことにより得られたものであることを特徴とする請求項６記載の対象物検出装置。
前記所定方向が、前記サンプル画像に対して水平方向または垂直方向であり、
前記所定量が、前記所定の対象物の幅の１／３から１／５の間の長さであることを特徴とする請求項７記載の対象物検出装置。
前記所定の対象物が、目、鼻、口を含む顔であり、
前記所定の一部が、目または口の一部であることを特徴とする請求項６、７または８記載の対象物検出装置。
前記マシンラーニングの手法が、ブースティングであることを特徴とする請求項６から９いずれか記載の対象物検出装置。
コンピュータを、入力画像における所定の対象物を検出する対象物検出手段として機能させるためのプログラムであって、
該コンピュータを、
前記所定の対象物の全体を表す複数の異なる所定の大きさのサンプル画像からなる全体サンプル画像群と、少なくとも１種類の、所定の一部が遮蔽された前記所定の対象物を表すサンプル画像からなる遮蔽サンプル画像群とを含む複数のサンプル画像群を取得し、
該サンプル画像群毎に、該サンプル画像が表す前記所定の対象物の画像上の特徴をマシンラーニングの手法により学習させて、判別対象画像が前記所定の対象物の全体を表す画像であるか否かを判別する判別器と、判別対象画像が所定の一部が遮蔽された前記所定の対象物を表す画像であるか否かを判別する少なくとも１種類の判別器とを生成して得られた複数の判別器と、
前記入力画像上の複数の異なる位置で前記所定の大きさの部分画像を切り出す部分画像切出し手段と、
前記部分画像の各々に対して、該部分画像を前記判別対象画像として前記複数の判別器のうち少なくとも１つを適用することにより、該部分画像が前記所定の対象物の全体を表す画像および所定の一部が遮蔽された前記所定の対象物を表す画像のうちのいずれかであるか否かを判別する判別手段として機能させるためのプログラム。
前記遮蔽サンプル画像群が、前記全体サンプル画像群を構成する各サンプル画像を、該サンプル画像から所定方向に所定量だけずれた位置において、該サンプル画像と同じ大きさの枠で切り出すことにより得られたものであることを特徴とする請求項１１記載のプログラム。
前記所定方向が、前記サンプル画像に対して水平方向または垂直方向であり、
前記所定量が、前記所定の対象物の幅の１／３から１／５の間の長さであることを特徴とする請求項１２記載のプログラム。
前記所定の対象物が、目、鼻、口を含む顔であり、
前記所定の一部が、目または口の一部であることを特徴とする請求項１１、１２または１３記載のプログラム。
前記マシンラーニングの手法が、ブースティングであることを特徴とする請求項１１から１４いずれか記載のプログラム。