JP5335554B2

JP5335554B2 - 画像処理装置及び画像処理方法

Info

Publication number: JP5335554B2
Application number: JP2009121320A
Authority: JP
Inventors: 直嗣佐川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-05-19
Filing date: 2009-05-19
Publication date: 2013-11-06
Anticipated expiration: 2029-05-19
Also published as: JP2010271792A

Description

本発明は、デジタル画像機器及び画像処理ソフトウェア等における静止画像及び動画像からの特定の被写体又は被写体の一部の検出に好適な画像処理装置及び画像処理方法等に関する。

画像から特定の被写体パターンを自動的に検出する技術は、画像検索、物体検知、物体認識、物体追跡等の様々な分野に応用できる。このような技術の一例が非特許文献１に提案されている。この技術では、先ず入力画像から矩形の小領域（以下、検出ウインドウと呼ぶ）を抽出し、この検出ウインドウ内に顔が含まれているかどうかを判定する。この判定では、カスケード型に複数の強判別器を接続して構成された検出器に検出ウインドウを通す。そして、全ての強判別器で顔であると判定された場合に、検出ウインドウ内に顔があると出力し、それ以外の場合には検出ウインドウ内に顔がないと出力する。また、各強判別器には、複数の弱判別器等が含まれている。

しかしながら、非特許文献１に記載された従来の技術を用いて、実際に顔又は人物の検出を高い精度で行うためには、数百から数千の弱判別器が必要とされ、弱判別器における判別処理の回数が非常に多くなってしまう。この結果、処理時間が長くなる。

その一方で、検出器へ入力する検出ウインドウの切り出し（抽出）では、先ず、入力画像を基準画像にリサイズし、その後、基準画像を輝度画像等に変換する。そして、輝度画像等のサイズに対して数段階の縮小画像を生成し、これらの縮小画像内全ての領域に対して検出ウインドウが走査するように、ラスタスキャンすることで検出ウインドウを切り出す。従って、検出器に入力される検出ウインドウの数は膨大な数となる。

なお、基準画像を数段階のサイズにリサイズして縮小画像を生成し、この縮小画像に対して検出ウインドウをラスタスキャンするのは、以下の理由のためである。すなわち、基準画像における被写体の大きさは様々だが、切り出す検出ウインドウは特定のサイズとなる。このため、基準画像における被写体が検出ウインドウサイズよりも大きな領域である場合には、この被写体を検出することができない。そこで、基準画像のサイズから数段階サイズを落とした縮小画像を生成し、これらの縮小画像全てに対して検出ウインドウをラスタスキャンすることで様々な大きさの被写体を検出する。

このように、非特許文献１に記載された技術では、入力画像から切り出した膨大な数の検出ウインドウについて、数百から数千の弱判別器で構成される検出器において判別処理を行わなくてはならず、非常に処理コスト（処理時間）がかかってしまう。

このような技術に対し、単純に検出ウインドウのラスタスキャンを画素間引きで行うことにより処理時間を短縮する方法が考えられる。しかし、この方法では特徴的なパターンが判定されるはずの位置を飛ばしてしまうことがあるため、結果として検出漏れが多くなり検出精度が低下する。

これらの課題に対し、特許文献１には、検出ウインドウのラスタスキャンにおける画素間引きを行うかわりに、位置がずれた被写体パターンについての学習を通常の被写体パターンの学習に加えて行う技術が記載されている。また、この技術では、これらの学習結果を全て辞書データとして保持することとしている。

しかしながら、画素間引きを行った場合の位置ズレについては、少なくとも上下左右４方向にずれる可能性があるため、それぞれの位置ズレに対する学習を行わなくてはならない。この結果、通常の辞書に比べ辞書サイズが大きくなってしまい別の問題が生じてしまう。

特開２００７−５８７２２号公報

P. Viola and M. Jones, "Robust Real-time Object Detection", SECOND INTERNATIONAL WORKSHOP ON STATISTICAL AND COMPUTATIONAL THEORIES OF VISION, July 13 2001

本発明は、辞書サイズの増加を抑制しながら、被写体の検出を高い精度及び短時間で行うことができる画像処理装置及び画像処理方法等を提供することを目的とする。

本願発明者は、前記課題を解決すべく鋭意検討を重ねた結果、以下に示す発明の諸態様に想到した。

本発明に係る画像処理装置は、所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報を記憶した辞書記憶手段と、前記辞書情報に基づいて画像内の検出ウインドウの位置を制御する位置制御手段と、前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定手段と、決定された前記局所領域における特徴量を算出する局所特徴量算出手段と、前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定手段と、を有し、前記決定手段は、前記局所領域の横幅が広いほど水平方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定するか、前記局所領域の縦幅が広いほど垂直方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とする。

本発明に係る画像処理方法は、辞書記憶手段に記憶され、所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報に基づいて、画像内の検出ウインドウの位置を制御する位置制御ステップと、前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定ステップと、決定された前記局所領域における特徴量を算出する局所特徴量算出ステップと、前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定ステップと、を有し、前記決定ステップでは、前記局所領域の横幅が広いほど水平方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定するか、前記局所領域の縦幅が広いほど垂直方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とする。

本発明によれば、検出ウインドウを走査して被写体の有無の判定を行う際に、形状に応じて特徴量の算出の対象となる局所領域が決定されるので、高い精度及び短時間で判定を行うことができる。

本発明の第１の実施形態に係る画像処理装置の構成を示すブロック図である。第１の実施形態で用いられるカスケード型検出器の構成を示す図である。第１の実施形態で用いられる強判別器の構成を示す図である。縮小画像から所定の大きさの検出ウインドウ（部分領域）を抽出する処理を示す図である。第１の実施形態に係る画像処理装置の動作を示すフローチャートである。ステップＳ５０５の人物判定処理の内容を示すフローチャートである。強判別器と弱判別器との関係の具体例を示す図である。データ構造の一例を示す図である。本発明の実施形態における被写体尤度算出処理の基本原理を示す図である。本発明の実施形態における被写体尤度算出処理の基本原理を示す図である。第１の実施形態におけるステップＳ６０３の被写体尤度算出処理の内容を示すフローチャートである。ステップＳ１１０４の局所特徴量算出処理の内容を示すフローチャートである。注目する画素（ｕ，ｖ）に関する輝度値の勾配強度及び勾配方向の関係を示す図である。勾配方向ヒストグラムの例を示す図である。ブロック領域の例を示す図である。第２の実施形態におけるステップＳ６０３の被写体尤度算出処理の内容を示すフローチャートである。検出ウインドウが６０×１２０の場合における対応表の例を示す図である。

以下、本発明の実施形態について添付の図面を参照して具体的に説明する。

（第１の実施形態）
先ず、本発明の第１の実施形態について説明する。図１は、本発明の第１の実施形態に係る画像処理装置の構成を示すブロック図である。

この画像処理装置には、図１に示すように、画像入力部１０１、画像保存部１０２、縮小画像生成部１０３、縮小画像設定部１０４、局所特徴量算出部１０５、位置制御部１０６、辞書記憶部１０７、判定部１０８及び判定結果格納部１０９が設けられている。更に、これらの動作を制御する制御部（図示せず）も設けられている。

画像入力部１０１は、検出対象となる画像を入力する。画像保存部１０２は、画像入力部１０１により入力された画像（入力画像）を保存する。縮小画像生成部１０３は、入力画像から数段階の縮小画像を生成する。縮小画像設定部１０４は、数段階の縮小画像のうちから１つの縮小画像を設定する。辞書記憶部１０７は、事前に学習した辞書データ（辞書情報）を記憶する。位置制御部１０６は、辞書データに基づいて縮小画像における検出ウインドウの位置を制御する。局所特徴量算出部１０５は、検出ウインドウ内における局所領域の特徴量（局所特徴量）を算出する。判定部１０８は、局所特徴量に基づいて検出ウインドウ内に人物がいるかどうかを判定する。判定結果格納部１０９は、判定部１０８の出力結果である人物の位置を格納する。

次に、上述のように構成された画像処理装置における、入力画像中から被写体である人物の位置を検出する動作について説明する。図５は、第１の実施形態に係る画像処理装置の動作を示すフローチャートである。

先ず、ステップＳ５０１にて、画像入力部１０１より画像を入力し、画像保存部１０２がこれを読み込む。ここで、読み込まれた画像データは、例えば８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂ、３つの面により構成されるものとする。

次いで、ステップＳ５０２にて、縮小画像生成部１０３が画像データを所定の倍率に縮小した画像データを生成する。これは、本実施形態では、様々な大きさの人物の検出に対応すべく複数のサイズの画像データに対して順次検出を行うため。例えば、倍率が１．２倍程度異なる複数の画像への縮小処理が後段の検出処理のために順次適用される。

その後、ステップＳ５０３にて、縮小画像設定部１０４が、縮小画像生成部１０３により生成された複数のサイズの縮小画像の中から１枚を設定する。

続いて、ステップＳ５０４にて、位置制御部１０６が、縮小画像から所定の大きさの検出ウインドウ（部分領域）を抽出する。ここで、この抽出処理について図４を参照しながら説明する。先ず、入力画像４０１を基準画像４０２にリサイズし、その後、基準画像４０２を後の判定処理（ステップＳ５０５）で用いる所定の形式の画像、例えば輝度画像４０３に変換する。そして、輝度画像４０３のサイズに対して数段階の縮小画像４０４を生成し、これらの縮小画像４０４内の全ての領域に対して検出ウインドウが走査するように、ラスタスキャンすることで検出ウインドウ（部分領域）４０５を切り出す。従って、縮小率の大きな画像から検出ウインドウを切り出して人物の判別を行う場合には、画像に対して大きな人物の検出を行うことになる。

次いで、ステップＳ５０５にて、局所特徴量算出部１０５及び判定部１０８が検出ウインドウ内に人物が含まれるか否かの判定を行う。この判定処理の詳細については後述する。

その後、ステップＳ５０６にて、制御部が、検出ウインドウが画像内の全ての位置を走査したか否かを判定する。そして、全ての位置を走査している場合にはステップＳ５０７に流れ、そうでない場合にはステップステップＳ５０４に流れ、全ての位置の走査が完了するまでステップＳ５０４からステップＳ５０６までの処理を繰り返す。

ステップＳ５０７では、ステップＳ５０２にて縮小画像生成部１０３により生成された複数の縮小画像の全てについて処理が完了したか否かを判定する。そして、全てについて処理が完了している場合にはステップＳ５０８に流れ、そうでない場合にはステップＳ５０３に流れ、次の縮小画像についてステップＳ５０３からステップＳ５０７までの処理を繰り返す。

そして、ステップＳ５０８では、制御部が、検出された人物の位置を判定結果格納部１０９に出力し、判定結果格納部１０９がこれを格納する。

［人物判定処理（ステップＳ５０５）］
次に、ステップＳ５０５の人物の判定処理の詳細について説明する。この判定処理では、図２に示すカスケード型検出器が用いられる。図２は、第１の実施形態で用いられるカスケード型検出器の構成を示す図である。このカスケード型検出器は、図２に示すように、Ｎ個の強判別器２０−１〜２０−Ｎがカスケード接続されて構成されている。また、各強判別器は、図３に示す構成を備えている。図３は、第１の実施形態で用いられる強判別器の構成を示す図である。強判別器には、図３に示すように、Ｍ個の弱判別器３０−１〜３０−Ｍ、加算器３１１及び閾値処理部３１２が含まれている。弱判別器３０−１〜３０−Ｍは、０又は１を出力する。加算器３１１は、弱判別器３０−１〜３０−Ｍから出力された信号に各弱判別器３０−１〜３０−Ｍに対して予め設定された重みを掛けた値を互いに加算して出力する。閾値処理部３１２は、加算器３１１から出力された値及び予め設定された閾値に基づいて判別結果を出力する。なお、１個の強判別器に含まれる弱判別器の数Ｍは均一である必要はなく、強判別器毎に弱判別器の数Ｍが相違していてもよい。

そして、ステップＳ５０５では、次のような処理を実行する。図６は、ステップＳ５０５の人物判定処理の内容を示すフローチャートである。

先ず、ステップＳ６０１にて、局所特徴量算出部１０５が強判別器の番号ｎをｎ＝１と初期化する。番号ｎは１以上Ｎ以下の自然数である。

次いで、ステップＳ６０２にて、局所特徴量算出部１０５が、ｎ番目の強判別器における弱判別器の番号ｔをｔ＝１と初期化し、また、各弱判別器の被写体尤度の合算値を代入するための変数ＳｎをＳｎ＝０と初期化する。番号ｔは１以上Ｍ以下の自然数である。

次に、ステップＳ６０３にて、局所特徴量算出部１０５が、ｎ番目の強判別器におけるｔ番目の弱判別器ｈｎｔ（ｘ，ｙ）の被写体尤度Ｌｎｔ（ｘ，ｙ）を算出する。ここで、強判別器と弱判別器との関係について具体的に説明する。図７は、強判別器と弱判別器との関係の具体例を示す図である。この具体例では、強判別器１に３つの弱判別器ｈ１１〜ｈ１３が含まれ、強判別器２に４つの弱判別器ｈ２１〜ｈ２４が含まれているとする。また、検出ウインドウ内には、図７に示すように、様々な位置、大きさ、形状の局所領域が設定されており、これらの局所領域における被写体尤度を弱判別器が算出する。以下、弱判別器ｈ１１〜ｈ１３、ｈ２１〜ｈ２４が算出した写体尤度をＬ１１〜Ｌ１３、Ｌ２１〜Ｌ２４と表わす。被写体尤度の算出処理の詳細については後述する。なお、強判別器１及び２、弱判別器ｈ１１〜ｈ１３及びｈ２１〜ｈ２４、並びにこれらに付随する情報について予め学習しておき、図８に示すようなデータ構造として辞書記憶部１０７に格納しておく。このデータは、強判別器数８０１と各強判別器のデータ８０２とで構成され、各強判別器のデータ８０２は、弱判別器数８０３と各弱判別器のデータ８０４と判別の閾値８０５とで構成される。各弱判別器のデータ８０４は、８０６に示すように局所領域の情報と尤度変換のＬＵＴ（ルックアップテーブル）とを含み、局所領域の情報は、８０７に示すように、領域の左上のＸ座標とＹ座標、幅および高さで構成される。

なお、弱判別器に対応する局所領域の形状が矩形領域である必要はなく、例えば、図７に示すように、複数の矩形領域の組み合わせからなる局所領域７０１又は７０２等を用いてもよい。また、強判別器に含まれる弱判別器の数は限定されず、１又は２以上のいずれであってもよい。

ステップＳ６０３の後、ステップＳ６０４にて、局所特徴量算出部１０５が、加算器３１１を用いて、ステップＳ６０３で取得した被写体尤度Ｌｎｔ（ｘ，ｙ）を合算値Ｓｎに加算する。

次いで、ステップＳ６０５にて、局所特徴量算出部１０５が、現在注目している弱判別器ｈｎｔ（ｘ，ｙ）が、ｎ番目の強判別器における最後の弱判別器（Ｍ番目の弱判別器）であるか否かを判定する。最後の弱判別器ではない場合、ステップＳ６０３に流れ、ステップＳ６０５までの処理を繰り返す。

最後の弱判別器の場合、ステップＳ６０６に進み、判定部１０８が、閾値処理部３１２を用いて合算値Ｓｎとｎ番目の強判別器の閾値Ｔｎとの値を比較する。閾値Ｔｎは、予め学習処理により求めておき、辞書記憶部１０７に格納しておき、これを参照すればよい。図７に示す例では、強判別器１の合算値Ｓ１は、Ｓ１＝Ｌ１１＋Ｌ１２＋Ｌ１３となり、この合算値Ｓ１が強判別器１の閾値Ｔ１と比較される。また、強判別器２の合算値Ｓ２は、Ｓ２＝Ｌ２１＋Ｌ２２＋Ｌ２３＋Ｌ２４となり、この合算値Ｓ２が強判別器１の閾値Ｔ２と比較される。

そして、判定部１０８は、Ｓｎ＜Ｔｎの場合、現在注目している検出ウインドウには人物が含まれていないと判定し、図６のフローチャートで示す処理を終了して図５のフローチャートに戻り、ステップＳ５０５に流れる。一方、判定部１０８は、Ｓｎ≧Ｔｎ（Ｓｎ＞＝Ｔｎ）の場合、現在注目している検出ウインドウはｎ番目の強判別器の判別処理に対し、条件を満たすパターンであると判定し、ステップＳ６０７に流れる。

ステップＳ６０７では、判定部１０８が、現在注目している強判別器が最後の強判別器（Ｎ番目の強判別器）であるか否かを判定する。最後の強判別器ではない場合、ステップＳ６０２に流れ、次の強判別器の判別処理に移る。最後の判別器の場合、現在注目している検出ウインドウには人物が含まれていると判定し、ステップＳ６０８に流れ、判定結果格納部１０９に人物検出結果として検出ウインドウの位置（ｘ、ｙ）を格納する。

［被写体尤度算出処理（ステップＳ６０３）］
次に、ステップＳ６０３の被写体尤度の算出処理の詳細について説明する。従来の被写体検出処理においては、ラスタスキャンする検出ウインドウについて、全ての位置で被写体尤度算出処理を行っている。しかし、このような処理では、非常に多くの被写体尤度の計算が必要とされる。一方、スキャン画素を間引いて計算コストを下げる方法もあるが、単純にスキャン画素を間引いた場合には検出漏れが多く発生してしまう。

これに対し、本実施形態では被写体尤度を算出する際に各弱判別器に対応する局所領域の形状に注目し、これに応じてスキャン幅を決定することで、精度を落とさずに高速に被写体尤度計算を行う。図９及び図１０は、本発明の実施形態における被写体尤度算出処理の基本原理を示す図である。

図９に示すように、横幅が広い形状の局所領域９０１と、それを水平方向に２画素飛ばした位置にある局所領域９０３とに注目した場合、飛ばした画素数に対して重複する部分の領域が大きい。このため、それぞれの局所領域内の累積的な特徴量（例えば輝度ヒストグラム又はＨＯＧ（Histgrams Of Oriented Gradients）特徴）を、グラフ９０２及び９０４のように表すと、これらの特徴の差は小さい。なお、ＨＯＧ特徴は、例えば「Navneet Dalal and Bill Triggs, "Histograms of Oriented Gradients for Human Detection", IEEE Computer Vision and Pattern Recognition. Vol.1, pp.886-893, 2005」に示されている。ＨＯＧ特徴は、局所領域における画素勾配の強度と角度に基づいたヒストグラムを特徴量とするものであり、人物検出に特に有効な特徴量である。

図１０に示すように、縦幅が広い局所領域１００１と、それを垂直方向に２画素飛ばした位置にある局所領域１００３とに注目した場合にも、同様に、飛ばした画素数に対して重複する部分の領域が大きい。このため、それぞれの局所領域内の累積的な特徴量を、グラフ１００２及び１００４のように表すと、これらの特徴の差も小さい。

従って、特徴量として局所領域内の累積的な特徴量を用いて判別処理を行う場合には、判別対象となる局所領域の横幅が十分に広ければ、弱判別器のラスタスキャンの水平方向のステップ幅を画素を間引いて行ったとしても精度に大きな影響を与えることはないといえる。同様に、判別対象となる局所領域の縦幅が十分に広ければ、弱判別器のラスタスキャンの垂直方向のステップ幅を画素を間引いて行ったとしても精度に大きな影響を与えることはないといえる。

そこで、ステップＳ６０３では、次のような処理を実行する。即ち、本実施形態では、弱判別器の局所領域の横幅が広い場合に水平方向に画素を間引いて（水平方向の走査間隔が広くなるように）ラスタスキャンを行う。図１１は、第１の実施形態におけるステップＳ６０３の被写体尤度算出処理の内容を示すフローチャートである。

先ず、ステップＳ１１０１にて、局所特徴量算出部１０５が、位置制御部１０６を介して検出ウインドウ（ｘ，ｙ）におけるｎ番目の強判別器のｔ番目の弱判別器ｈｎｔ（ｘ，ｙ）の横幅の値を辞書記憶部１０７から取得する。予め学習した結果の弱判別器を辞書として格納する際に、図８の情報８０７のように、局所領域の情報として、左上Ｘ座標、左上Ｙ座標、幅Ｗｌ及び高さＨｌを格納しておき、このうちの横幅Ｗｌの値を取得する。

次いで、ステップＳ１１０２にて、局所特徴量算出部１０５が、取得した横幅Ｗｌの値が、予め定められている閾値ｔｈｗより大きいか否かの判定を行う。大きい場合は画素間引きを行う局所領域であると判断し、ステップＳ１１０３に流れ、そうでない場合は１画素毎に被写体尤度計算を行うため、ステップＳ１１０４に流れる。

ステップＳ１１０３では、局所特徴量算出部１０５が、画素間引きを行う局所領域について、画素間引きを行う位置にあるか否かの判定を行う。本実施形態では、画素間引き数を３画素とするため、検出ウインドウの位置（ｘ，ｙ）の水平方向座標ｘについて、以下の式（１）を満たすか否かの判定を行う。
ｘ％３！＝０・・・（１）
なお、「％」は剰余の計算を行うものとする。

式（１）を満たす場合、弱判別器ｈｎｔ（ｘ，ｙ）は間引き位置にあるため、被写体尤度の計算を省略してステップＳ１１０７に流れる。

ステップＳ１１０７では、局所特徴量算出部１０５が、ステップＳ１１０６で保持した値を参照することで被写体尤度ｌｎｔを取得する。

一方、式（１）を満たさない場合には、弱判別器ｈｎｔ（ｘ，ｙ）は被写体尤度の計算を行う位置にあるため、ステップＳ１１０４に流れて、局所特徴量算出部１０５が局所特徴量Ｕｎｔを算出する。ステップＳ１１０４の局所特徴量Ｕｎｔの算出処理の詳細については後述する。

次いで、ステップＳ１１０５にて、局所特徴量算出部１０５が被写体尤度ｌｎｔを取得する。被写体尤度ｌｎｔの取得では、以下の式（２）を用いて局所特徴量Ｕｎｔからの変換を行う。
ｌｎｔ＝ｆｎｔ（Ｕｎｔ）・・・（２）

ここで、関数ｆｎｔは、ｎ番目の強判別器のｔ番目の弱判別器ｈｎｔにおける局所特徴量と被写体尤度の関係を表した対応表である。局所特徴量算出部１０５はこの対応表を参照して、局所特徴量Ｕｎｔから被写体尤度ｌｎｔを取得する。

なお、被写体尤度ｌｎｔは、以降の検出ウインドウにおいて弱判別器ｈｎｔが間引き位置にある場合に被写体尤度を計算する代わりにこの値を参照するため（ステップＳ１１０７）、ステップＳ１１０６にて、局所特徴量算出部１０５内に設けたメモリに保持しておく。

その後、ステップＳ１１０８にて、被写体尤度ｌｎｔを弱判別器ｈｎｔの被写体尤度Ｌｎｔ（ｘ，ｙ）に代入して図６のステップＳ６０３の処理に戻る。

以上の処理について、例えば検出ウインドウが（０，ｙ）→（１，ｙ）→（２，ｙ）→（３，ｙ）と水平方向に走査する場合、検出ウインドウ（０，ｙ）で弱判別器ｈｎｔの被写体尤度ｌｎｔを算出し、この値を保持する。また、検出ウインドウ（１，ｙ）及び検出ウインドウ（２，ｙ）における弱判別器ｈｎｔの被写体尤度計算は間引き位置にあるため省略し、被写体尤度Ｌｎｔ（１，ｙ）及びＬｎｔ（２，ｙ）にはともに被写体尤度ｌｎｔが代入される。そして、検出ウインドウ（３，ｙ）に移動した際に、再度被写体尤度の計算を行い、被写体尤度ｌｎｔの値を更新する。

なお、この例では、局所領域の横幅を参照することで水平方向の画素間引きを行うか否かを決定したが、局所領域の縦幅を参照して垂直方向の画素間引きを行うか否かを決定してもよく、また、双方を組み合わせてもよい。つまり、局所領域の縦幅が広いほど垂直方向の走査間隔が広くなるように決定してもよい。

［局所特徴量算出処理（ステップＳ１１０４）］
次に、ステップＳ１１０４の局所特徴量の算出処理の詳細について説明する。本実施形態では、局所特徴量として特に画素特徴の累積的な特徴量を用いることで大きな効果を得ることができる。画素特徴の累積的な特徴量としては、例えばＨＯＧ特徴及びＨａａｒ特徴等のように、局所領域における画素値そのもの、輝度値、又はエッジ強度等の画素の特徴を累積した特徴量が挙げられる。本実施形態では、人物の検出に特に有効なＨＯＧ特徴を用いるが、他の特徴量を用いることも可能である。

そして、ステップＳ１１０４では、次のような処理を実行する。図１２は、ステップＳ１１０４の局所特徴量算出処理の内容を示すフローチャートである。

先ず、ステップＳ１２０１にて、局所特徴量算出部１０５が勾配情報を算出する。ここで、勾配情報には、隣接画素における画素特徴の勾配強度及び勾配方向の２つの情報が含まれる。画素特徴としては輝度値が代表的であるが、その他の画素の色情報を表すものであればよい。ここでは、画素特徴を輝度値として説明する。画素（ｕ，ｖ）における輝度値をＩ（ｕ，ｖ）とする。

図１３は、注目する画素（ｕ，ｖ）に関する輝度値の勾配強度及び勾配方向の関係を示す図である。画素（ｕ，ｖ）における輝度の勾配強度は以下の式（３）で、勾配方向は以下の式（４）で表される。

局所特徴量算出部１０５は、これらの式（３）及び（４）から勾配強度１３０１を示す値ｍ（ｕ，ｖ）、勾配方向１３０２を示す値θ（ｕ，ｖ）を算出する。

次いで、ステップＳ１２０２にて、局所特徴量算出部１０５が、勾配方向ヒストグラムを生成する。図１４は、勾配方向ヒストグラムの例を示す図である。図１４の検出ウインドウ１４０１の局所領域１４０２内の各画素は、ステップＳ１２０１の処理により、矢印１４０３で示す勾配強度及び勾配方向の情報を持つ。ステップＳ１２０２では、これらの情報に基づき、勾配の方向別に勾配強度で重み付けしたヒストグラムを生成する。このとき、０度から１８０度の勾配方向を９段階に区分すると、例えばヒストグラム１４０４が得られる。以降、局所領域１４０２をセル領域とよぶ。ステップＳ１２０２の処理により、検出ウインドウ１４０１内の各セル領域はそれぞれ勾配方向ヒストグラムとして生成された９次元の特徴ベクトルを持つことになる。１つのセルにおける特徴ベクトルＦｉを以下の式（５）で表す。

その後、ステップＳ１２０３にて、局所特徴量算出部１０５が、複数のセル領域から構成されるブロック領域において、セル領域を正規化する。本実施形態では、２×２のセル領域を含む領域をブロック領域として設定し、このブロック領域でセル領域内の９次元特徴ベクトルを正規化する。図１５は、ブロック領域の例を示す図である。ブロック領域１５０１内の各セルはそれぞれ９次元のベクトルを持っており、これらをセル領域毎にＦ１、Ｆ２、Ｆ３、Ｆ４と表すと、ブロック領域内には３６次元のベクトルが存在することになる。これらをブロック特徴ベクトルＶｋとすると、このブロック特徴ベクトルＶｋは以下の式（５）で表される。

そして、局所特徴量算出部１０５は、このブロック特徴ベクトルＶｋに対し、パターン照合における照明変動を低減するため、以下の式（６）により正規化を行う。

以上のように求めたブロック特徴ベクトルＶｋが局所領域におけるＨＯＧ特徴となる。即ち、各弱判別器のパターン判別では、３６次元の特徴ベクトルを用いてパターンの照合を行う。

なお、ここでは、セル領域が６×６の画素で構成されることとしているが、セル領域の構成画素数は任意であり、セル領域のアスペクト比は１：１に限定されない。同様に、ブロック領域が２×２のセル領域から構成されているが、ブロック領域を構成するセル領域の数は任意である。このように、様々なサイズ及びアスペクト比のセル領域を任意の数で構成してブロック領域を生成することで、形状及び大きさの異なる複数種類の局所領域の特徴を表現することが可能となる。

このような第１の実施形態では、画像中の被写体として人物領域を抽出する際に、判別器に対応する局所領域の横幅が特定の大きさ以上である場合にラスタスキャンの画素間引きが行われる。このため、判別性能を落とすことなく判別処理を高速に行うことが可能となる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。第２の実施形態は、主にステップＳ６０３の被写体尤度算出処理が第１の実施形態と相違しており、他の構成は第１の実施形態と同様である。図１６は、本発明の第２の実施形態におけるステップＳ６０３の被写体尤度算出処理の内容を示すフローチャートである。

先ず、第１の実施形態と同様にして、ステップＳ１１０１にて、局所特徴量算出部１０５が、位置制御部１０６を介して検出ウインドウ（ｘ，ｙ）におけるｎ番目の強判別器のｔ番目の弱判別器ｈｎｔ（ｘ，ｙ）の横幅の値を辞書記憶部１０７から取得する。

次いで、ステップＳ１６０１にて、局所特徴量算出部１０５が、弱判別器ｈｎｔの幅Ｗｌに基づいて間引き画素数ｍを決定する。この際には、弱判別器の幅と間引き画素数の対応表を予め用意しておき、これを参照することで間引き画素数ｍを決定する。検出ウインドウが６０×１２０の場合における対応表の例を図１７に示す。

その後、ステップＳ１６０２において、局所特徴量算出部１０５が、現在注目している検出ウインドウの画像水平方向の座標ｘ及び間引き画素数ｍから検出ウインドウ（ｘ，ｙ）において弱判別器ｈｎｔの被写体尤度の計算を行うか否かを判定する。
ｘ％ｍ！＝０・・・（７）

式（７）を満たす場合、弱判別器ｈｎｔ（ｘ，ｙ）は間引き位置にあるため、被写体尤度の計算を省略してステップＳ１１０７に流れる。

一方、式（７）を満たさない場合には、弱判別器ｈｎｔ（ｘ，ｙ）は被写体尤度の計算を行う位置にあるため、ステップＳ１１０４に流れて、局所特徴量算出部１０５が局所特徴量Ｕｎｔを算出する。

ステップＳ１１０７の後及びステップＳ１１０４の後には、第１の実施形態と同様にして、ステップＳ１１０５、Ｓ１１０６及びＳ１１０８の処理を行う。

このような第２の実施形態では、画像中の被写体として人物領域を抽出する際に、弱判別器に対応する局所領域の横幅の値に応じてラスタスキャンの間引き画素数が決定され、その間引き画素数で画素間引きが行われる。このため、第１の実施形態と同様に、判別性能を落とすことなく判別処理を高速に行うことが可能となる。

なお、第１の実施形態及び第２の実施形態では、被写体として画像中の人物領域を抽出することとしているが、人物以外の物体、例えば顔及び動物等を抽出の対象としてもよい。

なお、上述した実施形態の処理は、各機能を具現化したソフトウェアのプログラムコードを記録した記録媒体をシステム或いは装置に提供しても実現することができる。そして、そのシステム又は装置のコンピュータ（若しくはＣＰＵ、ＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによって、前述した実施形態の機能を実現することができる。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体（コンピュータ読み取り可能な記録媒体）は本発明を構成することになる。

また、コンピュータが読み出したプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行う場合も含まれている。

１０１：画像入力部、１０２：画像保存部、１０３：縮小画像生成部、１０４：縮小画像設定部、１０５：局所特徴量算出部、１０６：位置制御部、１０７：辞書記憶部、１０８：判定部、１０９：判定結果格納部

Claims

所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報を記憶した辞書記憶手段と、
前記辞書情報に基づいて画像内の検出ウインドウの位置を制御する位置制御手段と、
前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定手段と、
決定された前記局所領域における特徴量を算出する局所特徴量算出手段と、
前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定手段と、
を有し、
前記決定手段は、前記局所領域の横幅が広いほど水平方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とする画像処理装置。
前記決定手段は、前記局所領域の縦幅が広いほど垂直方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とする請求項１に記載の画像処理装置。
所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報を記憶した辞書記憶手段と、
前記辞書情報に基づいて画像内の検出ウインドウの位置を制御する位置制御手段と、
前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定手段と、
決定された前記局所領域における特徴量を算出する局所特徴量算出手段と、
前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定手段と、
を有し、
前記決定手段は、前記局所領域の縦幅が広いほど垂直方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とする画像処理装置。
前記特徴量は、前記局所領域内の画素特徴を累積する特徴量であることを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
辞書記憶手段に記憶され、所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報に基づいて、画像内の検出ウインドウの位置を制御する位置制御ステップと、
前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定ステップと、
決定された前記局所領域における特徴量を算出する局所特徴量算出ステップと、
前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定ステップと、
を有し、
前記決定ステップでは、前記局所領域の横幅が広いほど水平方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とする画像処理方法。
辞書記憶手段に記憶され、所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報に基づいて、画像内の検出ウインドウの位置を制御する位置制御ステップと、
前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定ステップと、
決定された前記局所領域における特徴量を算出する局所特徴量算出ステップと、
前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定ステップと、
を有し、
前記決定ステップでは、前記局所領域の縦幅が広いほど垂直方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とする画像処理方法。
コンピュータに、
辞書記憶手段に記憶され、所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報に基づいて、画像内の検出ウインドウの位置を制御する位置制御ステップと、
前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定ステップと、
決定された前記局所領域における特徴量を算出する局所特徴量算出ステップと、
前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定ステップと、
を実行させ、
前記決定ステップでは、前記局所領域の横幅が広いほど水平方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とするプログラム。
コンピュータに、
辞書記憶手段に記憶され、所定の被写体を判定するための局所領域の位置及び形状の情報を含む辞書情報に基づいて、画像内の検出ウインドウの位置を制御する位置制御ステップと、
前記辞書情報に基づいて前記検出ウインドウ内の局所領域を決定する決定ステップと、
決定された前記局所領域における特徴量を算出する局所特徴量算出ステップと、
前記特徴量及び前記辞書情報に基づいて前記検出ウインドウ内に前記所定の被写体が含まれるか否かを判定する判定ステップと、
を実行させ、
前記決定ステップでは、前記局所領域の縦幅が広いほど垂直方向の走査間隔が広くなるように前記特徴量を算出する対象となる局所領域の位置を決定することを特徴とするプログラム。
請求項７又は８に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。