WO2006134981A1

WO2006134981A1 - 対象物検出装置及びその学習装置

Info

Publication number: WO2006134981A1
Application number: PCT/JP2006/311953
Authority: WO
Inventors: Katsunori Waragai; Fumi Kawai; Cher Keng Heng
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-06-15
Filing date: 2006-06-14
Publication date: 2006-12-21
Also published as: EP1892669A1; CN101198987A; EP1892669A4; JP2006350645A; CN101198987B; US20090232403A1; US8233720B2; EP2363829A1; CN102081734A; CN102081734B; JP4767595B2

Abstract

　高精度で、処理負荷の増加を抑えることが可能な対象物検出装置及びその学習装置を提供する。　対象物検出装置は、入力された画像から、当該画像の部分領域である画像ウィンドウを複数抽出する画像ウィンドウ抽出部（２１０）と、記憶部（５０２）に記憶された対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネットワークを用いて、抽出された画像ウィンドウの各々に対して、対象物の存在を検出するネットワーク識別器（５９０）とを備える。

Description

明細書

対象物検出装置及びその学習装置

技術分野

[0001] 本発明は、画像から顔等の対象物を検出する対象物検出装置及びその学習装置に関する。

背景技術

[0002] コンピュータビジョンにおいて、対象物検出技術は、画像の中に特定の対象物が映つているか否かを判定する問題とされる。対象物としては、車や、歩行者、人間の顔などがある。多くのアプリケーションにおいて、対象物検出は非常に難しい問題とされている。たとえば、対象物が人間の顔の場合、顔の向き、照明、サングラスやマスク等による部分的な隠れにより、その見え方は大きく変化する。また、監視装置等に用いるアプリケーション等においては、画質が悪くノイズが載っている場合や、画像の中に映る顔が小さい場合などはその検出がいっそう難しくなる。

[0003] 対象物検出の問題を解決する一般的な方式として、統計的学習に基づくパターン認識技術があり、識別器のパラメータはあらかじめ与えた学習用サンプノレを元に決定される。顔検出における一般的な手法としては、ニューラルネットワークや、サポートベクターマシン、ベイズ推定等を用いた手法がある。これらの手法は、通常、入力画像力識別に用いる特徴量を抽出する特徴選択技術と、選択した特徴量を入力として対象物であるか否力、を判定する識別器を構築する識別器構築技術と、構築した識別器を使って、画像ウィンドウ内に顔の存在を判定する技術力なる。なお、「画像ゥインドウ」とは、入力画像内の部分領域を意味し、入力画像からは、部分領域の位置や大きさを変えた多数のウィンドウが切り出し可能である。

[0004] 識別器の構築手法としては、非特許文献 1で知られているァダプティブブースティング（Adaptive Boosting)又はァダブースト（Adaboost)がある。以下これを「ァダブースト学習法」と呼ぶ。これは、多数の対象物検出システムにおいて適用されており、これを用いた画像からの顔検出手法としては、非特許文献 2がある。ァダブースト学習法では、識別器は、判別エラーが 50%以下であればよいという高いエラー率でょレヽとされており、これを弱判別器と称す。ァダブースト学習法では、用意した多数の弱判別器の中から、レ、くつかの弱判別器を選択し、これらをアンサンブルすることで、判別エラー率の低レ、強判別器を構築する。

[0005] ァダブースト学習法を用いたリアルタイムでの正面顔検出手法として、非特許文献

2や特許文献 1に示される手法がある。非特許文献 2や特許文献 1における顔識別器、すなわち顔検出器では、複数の強判別器を一列に連結したカスケード構造をとる。カスケード構造では、連結している判別器をステージと称し、入力に近いほうから 1ステージ目を 1段目の強判別器、または 1段目のステージ識別器と呼ぶ。各ステージの識別器は、ァダブースト学習法によって学習し、学習用の入力画像から抽出された特徴量に基づく多数の弱判別器を連結し、構築する。各ステージ識別器は学習サンプノレに対してはほぼ 100%で識別が正解するように訓練する一方で、非顔画像の学習サンプノレに対しては 50%程度で識別が正解すればいいように訓練する。 1段目のステージ識別器の場合は、入力画像に対して、また、 2段目以降のステージ識別器の場合は、 1段目のステージ識別器が顔と判定した入力画像に対して、顔/非顔の判定を行う。 n段目のステージで非顔と判定されたものは、それ以上処理を行わず非顔と判定を決定するため、効率的に処理が可能であり、 1秒あたり 15フレーム程度の処理速度で動作することが知られている。

[0006] また、異なる学習サンプルを用いて複数の顔検出器を構築し、それらの識別結果を総合することで識別精度を向上させる手法がある。その一例として、多数決 (Majority Voting)方式が非特許文献 2に示されてレ、る。非特許文献 2の著者である Violaらは 3つのカスケード構造識別器 (カスケード構造である識別器)を用意し、それらの出力結果の多数決により識別誤差が減少することを示している。非特許文献 3に示される別のアプリケーションにおいては、非特許文献 3の著者である Rowleyらは顔検出器を構築するために多数のニューラルネットを訓練した。複数の検出器の結果の結合方法として、前記多数決方式に代わって、多数のニューラルネットワーク検出器から最終結果を出力するように訓練されたニューラルネットワークを用いる手法が提案されている。

[0007] 顔検出のための特徴量の抽出方法としては、矩形特徴（Rectangle Feature)と呼ばれる特徴が非特許文献 2で Violaらにより提案されている。画像ウィンドウの矩形特徴は矩形フィルターで定義された長方形の部分領域間の輝度差を測ることによって抽出される。

[0008] また、別の特徴量抽出方法として、非特許文献 4の「Modified Census TransformJが提案されている。特徴量は、入力画像中の 3 X 3画素ブロックを 2値画像に変換することによって抽出される。ブロック内の画素の輝度値はブロック内の輝度平均値と比較される。画素の輝度値が平均値よりも高いなら 1が、そうでないなら 0がラベル付けされる。ブロック内のすべての画素のラベルを順に並べると、 9ビットの情報になり、これが特徴量の値として使用される。

[0009] 特許文献 1：米国特許出願公開第 2002/0102024号明細書

非特許乂 ffl^l : Ϋο&ν Freund、 Robert E. Schapire、「A decision-theoretic generalizati on of on-line learning and an application to boostingj、 Computational Learning The ory: Eurocolt '95、 Springer_Verlag、 1995年、 .23— 37

非特許文献 2 : Paul Viola, Michael Jones,「Rapid Object Detection Using a Boosted Cascade of Simple Features]、 IEEE Computer Society Conference on Computer Visi on and Pattern Recognition (CVPR)、 2001年 12月、 ISSN: 1063-6919, Vol. 1、 .511 518

非特許文献 3 : H. Rowleyヽ S. Baluja, T. Kanade,「Neural Network-Based Face Dete ction」、 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)、 Vo 1. 20、 No. 1、 1998年 1月、 p.23 - 28

非特許文献 4 : Bernhard Froba、 Andreas Ernst、「Face Detection with the Modified し ensus Transform J、 Proceedings for Sixth IEEE International Conference on Autom atic Face and Gesture Recognition (AFGR)、 2004年 5月、 ρ·91 _ 96

発明の開示

発明が解決しょうとする課題

[0010] し力ながら、上記の検出技術には下記の課題がある。

[0011] 第一の課題は、非特許文献 2および特許文献 1にて提案されているカスケード識別器において、弱判別器が全入力空間に対して処理する線形識別器であることである。弱判別器は一つ前の弱判別器の識別エラーを補うために追カロ、訓練される。しかし、新たに訓練された弱判別器をカ卩えると、それらを連結してできる全体の識別器でのエラーは遞減するが、入力空間のある部分領域にぉレ、てエラーを改善する一方で、別の部分領域では識別エラーを引き起こす。したがって、カスケード識別器内の後段の強判別器が、対象物（たとえば顔）を含む画像と対象物を含まない画像が、画像特徴として似通っている場合、特徴区間上でそれらのデータを線形分離できないことが多くなり、その判別エラーを引き起こす率が高くなる。そのため、非常に多くの弱判別器を必要とし、識別時に処理する判別処理数が増大する。

[0012] また、ステージ識別器を学習する際には、対象物を含まない画像 (以下、非対象物画像）についてはステージごとに異なる画像サンプルで学習され、学習の非対象物画像に合った最もよい (最もよく判別できる）弱判別器が選択されるが、対象物を含む画像（以下、対象物画像）については全ステージでそれと認識されなければならず、同一の学習サンプルで学習されている。し力しながら、たとえば対象物が顔である場合では、顔画像は、顔の向き'傾きや照明条件、個人の特徴や人種、サングラス 'マスクゃ髪による隠蔽などにより、その特徴は大きく異なる。真正面向きで、目、鼻、口等がはっきり映っている顔は判別しやすぐ一方、向きや照明等により顔の特徴が削減されている場合、判別し難い。このような事情があるにもかかわらず、従来の識別器はそれらの顔特徴について同一の弱判別器で処理を行っており、非顔とは区別しやすい顔画像を処理するメカニズムがない。また、各顔の特徴に応じた識別が実現されていないため、複雑な顔特徴に対する高精度な検出が困難となっている。

[0013] 第二の課題は、非特許文献 2と特許文献 1におけるカスケード構造では、あるステ一ジの強判別器から別のステージへ、何の情報も伝達されないことである。従来の方式では、あるステージの弱判別器は前段のステージの強判別器の出力値を知らない。そのため、たとえば対象物が顔画像である場合に、正面向きで判別しやすい顔を対象とする検出器の構築は、カスケード構造により実現できても、入力空間が複雑で識別器が高次元に及ぶような複雑な顔 (たとえば、多様な向きの顔画像)を対象とする検出器の実現は、カスケード構造では難しい。前段の強判別器の結果を知らずに、新たに強判別器を学習する場合、その強判別器で使用する弱判別機は、学習用の顔 ·非顔サンプルを全体的に最もうまく分離する弱判別機から選択される。一方、仮に前段の強判別器の結果として、前段の強判別器が識別し難力た (すなわち、顔 ·非顔の境界付近に存在するサンプルなの力、判別がしゃすかったサンプノレであつたかの情報が与えられていると、その情報を用いて、顔と非顔の境界付近をうまく識別する弱判別器から組み込むことができ、特徴空間上の顔と非顔の境界をすばやく見つけることが可能になる。したがって、複雑な識別境界となる、多様な向きの顔のような複雑な顔の識別ができる検出器の構築の実現には、前段の強判別機の情報が不可欠と考えられる。

[0014] 第三の課題は、非特許文献 2において示されている多数決方式では、複数の検出器が並列に動作するので処理負荷が大きい。また、カスケード識別器がそれぞれ独立に訓練されるので、それらが補完的に動作しているか否かが不明である。識別器間では情報を共有しない。多数決手法は複数の検出器の結果を結合するための最良の手法ではない。たとえば、まったく別の識別器が訓練され、非特許文献 4に示されるように複数の識別器から最良の結果を出力するように構築した場合には、処理時間はもつと早くなる。

[0015] 第四の課題は、非特許文献 2および特許文献 1において、 Violaらによって提案されている輝度値に基づく矩形特徴が、照明環境に敏感であるということである。たとえば、図 15は従来技術における矩形特徴の課題を説明するための図であり、矩形特徴は図 15の斜線で示す矩形 1220と、矩形 1221との間の輝度値の差の値である。たとえば、図 15 (B)の顔画像 1202では照明影響が顔の一部に強く現れており、そのような画像における輝度値の差は、図 15 (D)の非顔画像 1212のそれに似た値となる。さらに、その特徴量は矩形ブロック内の輝度情報だけを測るので、重要な配置情報を取得しない。たとえば、図 15 (C)に示す非顔画像 1211と図 15 (A)に示す顔画像 12 01は、双方がほぼ同数の低輝度値の画素を持つので同じくらいの輝度差の値を持つ。高低の輝度値を持つ画素の空間的分布は画像を識別する上で非常に重要であるが、それらが特徴抽出の中で考慮されていない。非顔画像が顔画像により似通つてくる後段の識別器では、矩形特徴が顔と非顔を分離するのにどんどん効果がなくなっていき、識別エラーを増加させる。これが、ステージ識別器における特徴量の数を大きく増加する要因となっている。

[0016] 異なるアプローチとして、たとえば非特許文献 4に示されている、パターンにもと基づく「modified census transform」特徴量がある力これは局所特徴量だけを抽出するのでノイズの影響に敏感となってしまう。たとえば、図 16は、この従来の特徴量の課題を説明するための図である。変換テンプレートは 3x3画素のブロック 1250に対して特徴量をとる。ブロック 1250が二値ブロック 1251に示すように二値に変換されるとき、ノイズの載った非顔画像 1231も、顔画像 1201と同じ二値ブロック値に変換される。これは、「mod ed census transforai」特徴量では、輝度情報が完全に無視されている力らである。「modified census transform」特徴量は画素を単位としているので、ブロックに局所化しすぎであり、大域的な特徴量を取得できていない。

[0017] 本発明は、上記の事情に鑑みてなされたものであって、高精度で、処理負荷の増加を抑えることが可能な対象物検出装置及びその学習装置を提供することを目的とする。

課題を解決するための手段

[0018] 本発明の第 1は、対象物検出装置であって、入力された画像から、当該画像の部分領域である画像ウィンドウを複数抽出する画像ウィンドウ抽出部と、対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネットワークを用いて、前記抽出された画像ウィンドウの各々に対して、対象物の存在を検出する対象物検出部とを備える。

[0019] この構成により、ノードネットワークを用いて画像ウィンドウを識別し、対象物の存在を検出するので、高精度で、処理負荷の増加を抑えることが可能となる。

[0020] 本発明は、第 2に、上記第 1に記載の対象物検出装置であって、前記ノードは、複数の識別器を有する。

[0021] 本発明は、第 3に、上記第 1又は第 2に記載の対象物検出装置であって、前記対象物検出部は、前記ノードネットワークにおいて、少なくとも一つの経路を生成する経路生成部と、前記生成された経路の各々について対象物の識別処理を行い、前記画像ウィンドウが対象物を含むか否かの識別結果を出力する識別部とを有する。

[0022] 本発明は、第 4に、上記第 3に記載の対象物検出装置であって、前記対象物検出部は、前記画像ウィンドウに対して前記ノードネットワークの中にまだ評価してレヽなレヽ新しい経路が存在するか否かを判別し、当該判別結果に基づいて、前記経路生成部による経路生成処理と、前記識別部による前記識別結果出力処理とを繰り返す。

[0023] 本発明は、第 5に、上記第 4に記載の対象物検出装置であって、前記経路生成処理及び前記識別結果出力処理は、その繰返し回数が所定の回数に達するまで、又は新たな経路が生成できなくなるまで繰り返される。

[0024] 本発明は、第 6に、上記第 3ないし第 5のいずれかに記載の対象物検出装置であつて、前記経路生成部は、経路の数が所定の数を超えず、かつ少なくとも一つの経路を決定する経路決定部と、新しい経路を生成するために前記ネットワーク上の各経路を分割する機能とを有する。

[0025] 本発明は、第 7に、上記第 3ないし 6のいずれかに記載の対象物検出装置であって、前記識別部は、前記生成された各経路での識別結果と識別エラーとを求める識別処理を行う評価部と、前記ノードネットワークの識別結果として最も識別エラーの低い経路での識別結果を選択する選択部と、最も低い識別エラーが所定の値より小さくなつた場合に前記評価部における識別処理を停止することを決定する停止決定部とを有する。

[0026] 本発明は、第 8に、上記第 7に記載の対象物検出装置であって、前記評価部は、生成された経路の各ノードについて前記画像ウィンドウの特徴量値を抽出する抽出部と、経路に含まれる各ノードの評価値を出すために前記特徴量値を識別器に適用する適用部と、生成された経路の累積評価値を生成するために各ノードの評価値を結合する結合部と、生成された経路の前記識別結果を得るために、累積評価値を用いて画像ウィンドウが対象物体を含むか否力、を識別する識別部と、生成された経路の識別結果に対して識別エラーを推定するエラー推定部とを有する。

[0027] 本発明は、第 9に、上記第 1ないし第 8のいずれかに記載の対象物検出装置であつて、前記各ノードの識別器による識別結果を最終結果の判定に利用するか否かは、前記画像ウィンドウ内の特徴に合わせて変更される。

[0028] 本発明は、第 10に、上記第 1ないし 8のいずれかに記載の対象物検出装置であつて、前記各ノードの識別器による識別結果を最終結果の判定に利用する割合は、前記画像ウィンドウ内の特徴に合わせて変更される。

[0029] 本発明は、第 11に、上記第 10に記載の対象物検出装置であって、前記各ノードの識別器による識別結果を最終結果の判定に利用する割合は、前記画像ウィンドウ内の特徴と、前記識別器の学習に用いた画像の特徴との差に基づくパラメータに基づいて決定される。

[0030] 本発明は、第 12に、上記第 1ないし 8のいずれか一項に記載の対象物検出装置であって、前記識別器がブースティング法に基づく場合、ある識別器の結果が最終結果の判定に寄与する割合は、前記画像ウィンドウに対して当該識別器以前の全識別器による累積評価値と、当該識別器を学習画像に基づき構築する際に当該識別器以前の全識別器による累積評価値のうちもっとも識別エラーが高かった累積評価値との差に基づレ、て決定される。

[0031] 本発明は、第 13に、上記第 1ないし 8のいずれか一項に記載の対象物検出装置であって、前記各ノードにおける識別器において、累積評価値に寄与する割合が、当該ノードの親ノードにおける前記画像ウィンドウの累積評価値と、当該ノードの特徴量識別器を学習画像に基づき構築する際に当該ノードの親ノードにおける累積評価値のうちもっとも識別エラーが高かった累積評価値との差に基づいて決定される。

[0032] 本発明は、第 14に、上記第 1ないし 13のいずれかに記載の対象物検出装置であつて、前記対象物検出部は、あるノードの親ノードが複数存在する場合に、当該ノードの特徴量識別器を学習する際に学習画像において当該ノードの親ノードにおける累積評価値においてもっとも識別エラーを出した累積評価値を、親ノードにおける累積評価値の範囲で探索する。

[0033] 本発明は、第 15に、対象物検出装置の学習装置であって、前記対象物検出装置は、対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネットワークを用いて、前記ノードネットワーク構造の識別器を動的に学習するノードネットワーク学習部を備え、前記ノードネットワーク学習部は、前記ノードネットワークの中に、少なくとも 1つの空ノードを生成する空ノード生成部と、前記空ノードの学習用の複数の画像を集める学習画像収集部と、前記収集した画像で空ノードを学習するノード学習部とを有する。 [0034] 本発明は、第 16に、上記第 15に記載の学習装置であって、前記ノードネットワーク学習部は、新しい空のノードを作成しうるかどうか判別し、当該判別結果に基づいて、前記空ノード生成部、前記学習画像収集部及び前記ノード学習部による処理を繰り返す。

[0035] 本発明は、第 17に、上記第 15又は 16に記載の学習装置であって、前記空ノード生成部は、前記ノードネットワークが空の場合に基準となるノードを生成し、ノードネットワークにすでに存在するノードを統合と分割することによって新しい空ノードを生成する。

[0036] 本発明は、第 18に、上記第 15ないし 17のいずれかに記載の学習装置であって、前記空ノード生成部は、前記学習画像収集部により集められた画像の数が不十分である場合に、そのノードを除去する。

[0037] 本発明は、第 19に、上記第 15ないし 18のいずれかに記載の学習装置であって、前記学習画像収集部は、前記画像を構築中のノードネットワークの入力として与え、画像を伝播させ、前記空ノード間で画像を共有し、各空ノードに到達する画像を収集する。

[0038] 本発明は、第 20に、上記第 15ないし 19のいずれかに記載の学習装置であって、前記ノード学習部には、ブースティングアルゴリズムが適用される。

[0039] 本発明は、第 21に、上記第 20に記載の学習装置であって、前記ノード学習部は、前記ブースティングアルゴリズムにより前記収集された画像から部分集合を決定し、当該部分集合を用いて、収集された画像に重み付けを行い、重み付けされた画像を用いて前記空ノードの識別器を決定する。

[0040] 本発明は、第 22に、上記第 1ないし 14のいずれか一項に記載の対象物検出装置であって、前記対象物検出部は、前記画像ウィンドウの画素の空間分布情報と画素の強さ情報の双方を利用して検出する。

[0041] 本発明は、第 23に、上記第 22に記載の対象物検出装置であって、前記画素の空間分布情報は、 1つ以上の画素力構成される画素ブロックについて、複数の画素ブロック間での、各画素ブロックの特徴量値の大小関係と画素ブロックの画像上の配置関係とを表すものである。 [0042] 本発明は、第 24に、上記第 23に記載の対象物検出装置であって、前記画素の強さ情報は、前記空間分布情報に対して、各画素ブロックの特徴量値の大小関係の強さを表すものである。

[0043] 本発明は、第 25に、上記第 23又は 24に記載の対象物検出装置であって、前記画素ブロックには、長方形のテンプレートが適用される。

発明の効果

[0044] 本発明によれば、高精度で、処理負荷の増加を抑えることが可能な対象物検出装置及びその学習装置を提供することができる。

図面の簡単な説明

[0045] [図 1]本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図

[図 2]本発明の実施形態に係るノードネットワークを示す概念図

[図 3]本発明の実施形態に係るパス生成部の処理手順を示すフローチャート

[図 4]本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフローチャート

[図 5]本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック図

[図 6]本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャート

[図 7]本発明の実施形態に係る空ノード生成を説明する概念図

[図 8]本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチヤ一 h

[図 9]本発明の実施形態に係るノード学習部の処理手順を示すフローチャート

[図 10]本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図

[図 11]本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す図

[図 12]本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャート

[図 13]本発明の実施形態に係る特徴抽出部における処理手順を説明するための説明図

[図 14]本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示す図 [図 15]従来技術における矩形特徴の課題を説明するための図

[図 16]従来の特徴量の課題を説明するための図符号の説明

201 入力部

202 出力部

210 画像ウィンドウ抽出部

390 特徴抽出部

502 pL [思 p[5

520 パス生成部

530 画像ウィンドウ検出処理部

590 ネットワーク識別器

710 空ノード生成部

720 画像サンプル収集部

730 ノード学習部

790 ネットワーク学習部

発明を実施するための最良の形態

[0047] 次に、本発明の実施形態に係る対象物検出装置について説明する。以下の説明では、対象物として人物の顔を具体例として説明する。

[0048] ぐ検出装置の構造 >

図 1は、本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図である。図 1に示すように、本実施形態の対象物検出装置は、入力部 201と、画像ウインドウ抽出部 210と、記憶部 502と、ネットワーク識別器 590と、出力部 202とを有する。

[0049] 画像ウィンドウ抽出部 210は、入力部 201に入力された画像から複数の画像ウィンドウを抽出する。なお、「画像ウィンドウ」とは、入力画像内の部分領域を意味し、入力画像からは、部分領域の位置や大きさを変えた多数のウィンドウが切り出し可能である。

[0050] 記憶部 502は、ノードネットワークを蓄積する。図 2は、本発明の実施形態に係るノードネットワークを示す概念図である。ネットワーク 100は、ネットワーク上に配置された複数のノードを有する。 [0051] 同図に、ネットワークの基本ユニット 110を示す。基本ユニット 110は、 1つのノード' 「ノード N」 111と、多くとも M個のノードからのつながりを統合するジョイント部 117と、多くとも N個のノードへ分割するスピリット部 118からなる。たとえば、図 2では、 M = N = 2の場合を示している。また、 M個のノードは、ノード Nの親ノードと称し、 N個のノードはノード Nの子ノードと称す。

[0052] 図 2の場合、ノード Nの親ノードはノード 1 12、 113であり、子ノードはノード 114, 11 5である。親ノードのないノードをルートノード（図 2では 101)と称す。入力画像 170はルートノード 101に入力される。

[0053] 各ノード 111は複数の識別器を有しており、識別器は、特徴量識別器 h、対象物識 n 別器 H、そして識別エラー関数 Eを有する。識別器はたとえば、 Jin， R.、 Hauptmann, n n

A.、 Carbonell, 、 Si,し、 Liu, Y.、「A New Boosting Algorithm Using Input Depend ent RegularizerJ、 20th International Conference on Machine Learning (ICML'03), W ashington, DC, August 21-24， 2003 (以下、文献 Aという）に示されるように、局所的にブースティングを用いることによって構築することが可能である。特徴量識別器はブースティング学習法における弱判別器であってもよいし、また、対象物識別器はブースティング学習法における強判別器であってもよい。

[0054] 図 1の対象物検出装置の説明に戻る。ネットワーク識別器 590は、ネットワーク構造を有する識別器であり、画像ウィンドウ抽出部 210から画像ウィンドウを取得し、記憶部 502に蓄積されているノードネットワークを用いて、各画像ウィンドウに対象物が含まれるか否かを識別する。

[0055] ネットワーク識別器 590は、パス生成部 520と画像ウィンドウ検出処理部 530を有する。パス生成部 520は、記憶部 502に蓄積されているノードネットワークの情報を読み込み、少なくとも 1つ以上のパス（経路）を生成する。パスは、画像ウィンドウを処理するために選ばれたノードの列である。

[0056] 画像ウィンドウ検出処理部 530は、画像ウィンドウ取得部 210から画像ウィンドウを取得し、パス生成部 520によって生成されたパスにより、画像ウィンドウを処理する。なお、各パスにおいて、上述した各ノードにおいて識別器 (特徴量識別器 h、対象物 n 識別器 H、識別エラー関数 E )による演算を行い、画像ウィンドウが対象物を含むか

11 11 否力を示す識別結果が生成される。出力する識別結果として、最も識別エラーの低い識別結果を選択し、出力部 202に蓄積する。

[0057] 続いて、画像ウィンドウ検出処理部 590は新しいパスを生成するよう、パス生成部 5 20に指示し、それ以上新しいパスが生成されなくなるまで、または所定の回数に達するまで上記識別処理を繰り返す。

[0058] 図 3は、本発明の実施形態に係るパス生成部の処理手順を示すフローチャートである。まず、パス生成部 520は、ネットワーク内に生成されているパスがあるか否かを判定する（ステップ 621)。パスがない場合、ルートノードのみを含むパスが生成され（ステップ 622)、パス生成処理を終了する。

[0059] パスが存在した場合、ネットワーク内に生成されているパスの数があらかじめ設定した K個よりも大きいか否かを判定する（ステップ 623)。 Kの値はたとえば、 1、 2、 3などが設定される。パス数力を超えている場合、パス数が多くとも K個となるように識別エラーが高いパスを終了させる（ステップ 624)。ここで、画像ウィンドウ検出処理部 53 0において既に求められたものにより判定する。また、「パスを終了する」とは、あるパスにつレ、て、入力画像に対してそれ以上処理しなレ、場合をレ、う。

[0060] それぞれの現在のパスを分割することによって、より多くのパスを生成する（ステップ 625)。たとえば、あるパスが {node、 node、 node }を含む場合について考える。こ

0 a b

のとき、たとえば nodeの子ノードとして、 node と、 node 力生成され、新しレヽ

b b.childl b,c ild2

ノヽス、 {node、 node、 node、 node rと {node、 node、 node、 noae r力

0 a b b.childl 0 a b b,c ild2 生成される。

[0061] 図 4は、本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフロ一チャートである。

[0062] 各生成されたパスに対し、画像ウィンドウ検出処理部 530は画像ウィンドウが対象物を含むか否かを示す識別結果を評価する。識別結果はたとえば上記文献 Aのように局所的なブースティングから得てもよい。出力の識別結果は、生成されたパスのすべての識別結果から選択される。

[0063] 図 4のフローチャートの各ステップについて説明する。まず、画像ウィンドウ検出処理部 530は、生成されたパスの各ノードに対して、入力の画像ウィンドウから特徴量を抽出する（ステップ 631)。入力画像ウィンドウを Xとし、ノード Nについて抽出された特徴量を f (X)とする。なお、特徴抽出は、例えば図 10に示す特徴抽出部 390によ n

つて処理されるものであり、詳細は後述する。

[0064] 次に、抽出した特徴量 f (X)を識別器に与え、生成されたパスのノードに対するスコ n

ァ h (X)を求める（ステップ 632)。スコア h (X)は、特徴量識別器 hから求められ、次 n n n

の式（1)に基づいて計算される。

[0065] [数 1]

/2„( )=Prob (7 = +1| f_n{x))- Prob (Y = -l\ f_n(x)) · . · ( l )

[0066] 上記式（1)の Prob(k)は、イベント kが発生する確率を示す。丫= +1ぉょび丫=ー 1は、それぞれ入力画像が対象物を含む場合、および含まない場合を意味している

[0067] 次に、各ノードのスコアが生成されたパスに対する累積スコア S (X)を評価するた

n

めに結合する（ステップ 633)。累積スコア S (X)は、次式（2)で求めてもよい。

n

[0068] [数 2]

^n(^)⁼^ , parent ノ ^+exP (― ^ n, parent (^) ~ η )* }

…（2) 但し、 s_0yPare {x)= , «₀=0

[0069] 正則化関数 exp (― | S (X) _ひ I )は、特徴量識別器 h (X)による効果を入

Π, arent n n

力画像に応じて局所化するものであり、入力画像 Xに対して S (X)が正則化パラ

n, parent

メータひに十分に近い値をとる場合にのみ累積スコア S (X)に加算する。従って、あ n n

る場合には、 exp(_ I S (Χ)-α | )はほぼ 0となり、新しい値 S (X)は古い値

n, parent n n

S (X)と相対的にほぼ変わりない値になることもある。

n, arent

[0070] 次に、各パスの累積スコア S (X)と識別結果 H (X)により、画像ウィンドウが対象物

n n

を含むか否力を判定する（ステップ 634)。ここで、識別結果 H (X)は、対象物識別器

n

Hから求めてもよぐ次式（3)で求めてもよい。

n

[0071] [数 3] ί+ 1 if Prob (7 = +11 S_n (x)) > Prob (Y = -l\S_n{x))

…（3)

1 otherwise

[0072] H (X) = +1は、画像ウィンドウが対象物を含むとする判別結果であり、 H (X) =—

1は、対象物を含まないとの判別結果を意味する。

[0073] 次に、パスの識別結果に対する識別エラー E (X)を推定する（ステップ 635)。識別エラーは、エラー関数 E (誤差関数)から求めることができ、また次式 (4)で求めてもよい。

[0074] [数 4] „( )=?1"。1)(//„( )≠ | ( 》

= Prob(H_n{x)≠Y\S_n , parent ( )， ))

[0075] また、計算に力かる処理負荷を低減するために、関数 hは、次式（5)のようにルックアップテーブルとして実装してもよレ、。関数 E、 Hおよび Sもまた、次式（6)のように

n n n

二次元のルックアップテーブルとして実装してもよい。

[0076] [数 5]

/j„( ) = LookUpTable (/"( 》 … （5)

[0077] [数 6]

h_n{x)) .. · (6)

[0078] 画像ウィンドウ検出処理部 530は、上記ステップ 631〜635を繰り返し、各パスの識別結果および識別エラー (誤差関数)を求める (ステップ 636)。そして、求められたパスの識別結果の中から、最も低レ、識別エラー値の識別結果を出力結果として選択する（ステップ 637)。

[0079] そして、出力結果の識別エラーがあらかじめ定めてレ、る値よりも小さい場合、識別処理を終了する（ステップ 638)。なお、出力結果の識別エラーがあら力じめ定めている値よりも小さくない場合には、パス生成部 520へ新たなパスの生成を指示し、パス生成部 520はパスを生成する。

[0080] 出力部 202は、このようにしてネットワーク識別器 590の画像ウィンドウ検出処理部 5 30が対象物を含んでいると識別した画像ウィンドウの位置 (たとえば、入力画像上における座標値)と大きさ等の情報を出力する。

[0081] このようにして、パス生成部 520によって、ネットワークが統合と分割を行うので、多数のパスを構築することが可能である。また、各パスは識別結果を評価する際に使用され、ネットワークは多数の検出器のプールとなっている。検出器群となっていることで 1つの識別器よりもより信頼できる出力結果を出すことが可能である。

[0082] さらに、高速な識別プロセスを保障するために、パス数は Kで制限されている。最良な識別結果を保証するために、パスは動的に生成され、高い識別エラーを持つパスは識別処理の間に終了させられる。従って、入力に対して低い識別エラーを持つパスのみが使用される。

[0083] したがって、従来の並列では、並列検出器は静的で、識別処理の間に変更可能でないのに対して、本実施形態の対象物検出装置では、利用する検出器を動的に変化させ、不要な処理を抑えることができる。

[0084] また、画像ウィンドウ検出処理部 530において、ブースティングアルゴリズムの利用により、新たに生成したパスでの識別エラーは、古いパスのものより統計的に小さくなること力呆障されている。さらに、上記式（2)は、ブースティングを局所的に行い、識別器 h (X)が入力画像の部分集合にのみに作用することを保障する。

n

[0085] また、十分に識別エラーが低くなつた処理を中止させる本手法により、識別処理の高速化を実現している。これは、対象物を含んでいようがいまいが、判別しやすい入力画像を早期に識別することが可能であり、その判別に必要なノードの数を少なく抑えることができてレ、るからである。

[0086] また、本手法は、対象物を含んでいないと識別できた入力画像ウィンドウのみを早期に認識し、その後は決まった数の識別器で処理する従来のカスケード構造型よりも、より効率的である。

[0087] ぐ対象物検出の学習方法と装置 >

図 5は、本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック図である。図 1に示す対象物検出装置と重複する部分については、同一の符号を付す。図 5に示すように、入力部 701と、ネットワーク学習部 790と、記憶部 502とを有する。この対象物検出学習装置は、判定結果の情報 (対象物の有無)を伴った複数の画像サンプルを与え、対象物検出装置において用いられるノードネットワークのノードの識別器を学習させて構築するものである。なお、目的の対象物を含む画像サンプルをポジティブサンプルといい、目的の対象物を含まない画像サンプルをネガティブサンプノレという。

[0088] 複数の画像サンプル 701が与えられると、ネットワーク学習部 790は、複数の画像サンプノレを識別するよう学習されたノードネットワークを決定する。ここで決定したノードネットワークは記憶部 502にたくわえられ、ネットワーク識別器ブロック 590で画像ゥインドウが対象物のインスタンスを持っているかどうかを識別プロセスにて識別するのに用いられる。

[0089] 図 7に示すように、ネットワーク学習部 790は、空ノード生成部 710、画像サンプル収集部 720、ノード学習部 730を有する。なお、空ノードとは、識別器が決定されていないノードをいい、学習済みのノードとは、識別器を決定済みのノードをいう。ネットヮークのノードの識別器を決定するのにはたとえば上記文献 Aに記載の局所的ブースティングアルゴリズムを用いてもょレ、。

[0090] まず、空ノード生成部 710は、記憶部 502に保存された現在のノードネットワークを読み取り、学習のための空ノードを生成する。そして、空ノード生成部 710は、画像サンプル収集部 720を用いて、複数の入力画像サンプル 701から所定の数の画像サンプルを収集する。もし、収集した画像サンプノレの数が所定の数よりも少なければ学習できないので空ノードを削除する。

[0091] 次に、ノード学習部 730は、画像サンプノレ収集部 720から収集された画像サンプルを用いて生成された各々の空ノードに対応する識別器を最終的に決定する。ノードネットワークは、記憶部 502に学習済みのノードを保存することで更新される。

[0092] これらの学習プロセスを、空ノード生成部 710によって空ノードが生成されなくなるまで繰り返す。

[0093] 図 6は、本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャートである。ステップ 811では、ノードネットワークが空かどうか判定する。ノードが存在しない場合に、ネットワークは空であるという。ネットワークが空であれば、空のルートノード (node )を生成することでネットワークを開始する（ステップ 812)。

0

[0094] 一方、ネットワークが空でない場合、すなわち少なくとも一つのノードが存在する場合、 N個以下の子ノードとなるように、新規の空ノードをノードの結合と分割によって生成する（ステップ 813)。ここで、この空ノードの生成プロセスについて説明する。

[0095] 図 7は、本発明の実施形態に係る空ノード生成を説明する概念図である。現在のノードネットワーク 901から、近接する空ノードが共通の親を共有するように空のノード 9 50、 951、 952、 953を、ノード 960、 961、 962、 963を分害 ijすることで形成する。たとえば、ノード 950及びノードは 1つの共通の親ノードを持っている。

[0096] 図 6に戻り、空ノード生成の手順を説明する。ステップ 814では、画像サンプル収集部 720にそれぞれの空ノードに所定数 T個（たとえば、 10000個）の画像サンプル群を収集する。

[0097] ステップ 815では、収集画像サンプルが不十分な空ノードを取り除く。たとえば、画像サンプノレ数カよりも少ないときである。

[0098] 図 8は、本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチヤートである。

[0099] ステップ 821では、記憶部 502で保存されているノードネットワークの識別で使われるパスを使って入力画像サンプノレ群 701が伝達する。たとえば、ステップ S821において、画像サンプノレ収集部 720は、ネットワーク識別器 590と同様の処理を行い、対象物の検出時と同じ動作で 1つの画像サンプノレを識別する経路を 1つ以上生成する。画像サンプルのコピーが生成され、生成された経路の上を通ってネットワークを伝播し、経路の終端のノードに到達する。その際に、ネットワークには多重に生成した経路が存在しうるから、画像サンプルのコピーは同一のノードに多重に到達することがありうる。

[0100] なお、画像サンプル収集部 720の動作は、ネットワーク識別器 590の対象物検出時と同じ動作である。したがって、あるノードで画像識別の識別エラーが十分小さくなつていれば、その画像に対するパスは、そこで終点となるし、パスの数は一定数以下に制限される点も同じである。

[0101] ステップ 822では、親ノードに到達した画像サンプノレ群は、その空の子ノードに共有される。（たとえば、子ノードに対する親ノードが複数あれば、子ノードはそれぞれの親ノードの画像サンプル群の合併集合を画像サンプルとする。親ノードに対して子ノードが複数あれば、それぞれの子ノードは共通の親ノードから同じ画像サンプノレ群を引き継ぐ）。つまり、ステップ 821で親ノードに到達した画像は、コピーがそれぞれの子ノードに生成される。

[0102] ポジティブサンプルを（X、 Y= + 1)、ネガティブサンプルは（Χ、 Y= - l)として表記する。 1つの空のノード ηについて、親ノードでの画像サンプルの累積スコア S

n, parent

(X)を、式（2)を用いて決定する。空ノードでの画像サンプル群は、（X， Y， S (

n, parent

X) )として表記する。

[0103] そして、ステップ 823において、それぞれの空のノードに到達する画像サンプルを最大 T個になるまで集める。たとえば、 T/2個のポジティブサンプルと T/2個のネガティブサンプルとを、その空ノードに到着した全ての画像サンプルからランダムに選択する。

[0104] 図 9は、本発明の実施形態に係るノード学習部の処理手順を示すフローチャートである。

[0105] ノード学習部 730では、空ノード nの学習のために収集された画像サンプル群を用いて、その中から親ノードで識別エラーが大きくなるよう部分集合を決定する。次に、その部分集合での学習に焦点を合わせて局在化し特化した識別器を生成するように、重み関数を決定する。その働きを、順をおつて説明する。

[0106] ステップ 831では、ノードの識別器を特化するための画像サンプルの部分集合を、累積スコアを考えるときの重みを画像サンプノレに応じて変更することによって決定している。その画像サンプルの部分集合は、親ノードでもっとも高い識別エラーを与える部分集合である。その手順は以下のとおりである。

[0107] まず、画像サンプル収集部 720から収集された画像サンプル群を (X, Y， S (

η, parent

X) )とする。次に、画像サンプル群に対する現行の識別エラー E (X)を、式 (4)

n, parent

によって決定する。この識別エラー E (X)を用い式（7)で、正則化パラメータひ

n, parent n の値を決定する。

[0108] 式（7)では、 α に近い親の累積スコア S (X)をもつ画像サンプノレ群が最大の

n n,parent

識別エラー E (X)を親ノードで持つように α とひとの間に値 α を選ん

n, arent n,parentl n,parent2 n でいる。つまり、前段でうまく識別できなかった画像を集中的に学習するための選択を行っていることになる。それゆえ、親ノードで識別エラーが最大になるように選んだ画像サンプルの部分集合に対し、ノード nの識別器が識別エラーを減らすよう学習すると期待できる。

[0109] 正則化関数 exp (― I S 00 - a

Π, arent I )を用レ、、 α を次式（7)で決定する。この

n

正則化関数、累積スコアはいずれも、対象物検出装置におけるものと同じである。

[0110] [数 7] argmax ^n, parent \ ) * ^exP ~ ^n, parent \^) ~ ^a\

…（7〉

[0111] すなわち、ひくひくひとなるひにおいて、親ノードにおける識別エラー

Π, parent 1 n,parent2

と正則化関数との積の、収集された全ての画像サンプノレについての総和が最大となるひを、ひとする。なお、親ノードが 3つ以上の場合には、ひの選択範囲は、 min (ひ

n

) < aく max (ひ）となる。また、このとき、親ノードがひとつだけのときには、

Π, arent n, parent

次の式 (8)に示す値を用いる。

[0112] 園 apparent 1 = ~°° ^nodQn,parent 1がない時

…（8 )

n, parent 2 = ⁺∞ ^noden,parent 2がなヽ時

[0113] このように、ステップ 831によって、識別器を特化させるための画像サンプノレの部分集合を、親ノードでの識別エラーを最大とする画像サンプルの集合として決定する。

[0114] 次に、ステップ 831で決定した部分集合を用いて、ステップ 832では、全ての収集画像サンプノレに対して重みを決定する。重みをつけた学習サンプル群を (X, Y, w ( X))と表記する。ここで重み関数 w(X)は、次の式（9)で数学的に表現される _c

[0115] [数 9] wA = expi- n, parent -a n '■ exp - * paent 漏 … （ 9 )

[0116] 二で W は w(X)を分布とするときの規格化定数である。この式で、 S (X)

n,parent

- a I 0となる状況で重みが大きぐ | S (Χ) - α Iが大となる状況で重み関

n,parent

数は小さい。

[0117] さらに、ステップ 833では、ノード nの各種識別器を、重みつき画像サンプル群を用いて決定する。決定する識別器は、それぞれ式（1)、（3)、（4)に示す特徴識別器 h

n

、対象物識別器 H、識別エラー関数 Eである。ここで、特徴量には、たとえば上記文

11 11

献 Aに示すブースティングアルゴリズムで見つけられる特徴量から最良の識別を与える特徴量を 1つ選びだして用いる。

[0118] また、特徴識別器 hは、次式 10で決定してよい。

n

[0119] [数 10] h_n{x) = P_w{Y = ₊l\f_n

(10)

∑^w+ -∑W- 2 + + 2>—

[0120] この式で、 P (j)は分布 wのときにイベント jが起こる重みつき確率を示す。 f (X)は w n 最良の選択をした（=最もよい識別結果を与える）特徴量を用いて画像サンプル Xに対して抽出した特徴量、たとえば図 10の特徴抽出部 390 (後述）を用いて抽出した特徴量である。 ∑w、 ∑wはそれぞれ特徴量 f (X)をもつポジティブサンプル、ネガ

n

ティブサンプルの重みの総和である。

[0121] 正則化パラメータひと特徴識別器 h (X)の値とを用いて、累積スコア S (X)は式（2 n n n

)によって決定される。その結果、条件付き確率は次式（11)、（12)で決定される。

[0122] [数 11]

C

Prob (7 = +11 S_n +

l)

c₊ + c_ [0123] [数 12]

Prob (7 = -1 1 · · · ( l 2 )

i

[0124] ここで C、 Cはそれぞれ、累積スコア S (X)をもつポジティブサンプルとネガティブ

+ - n

サンプノレのカウント (個数)である。条件付き確率を用いて、対象物識別器 Hは式（3

n

)で決定される。

[0125] さらに、対象物識別器の識別エラー E (X)は、次の式（13)で表される。

n

[0126] [数 13]

E_n(x)= min { Prob (Y = +l \ S_n (x)\ Prob (7 = -11 S_n(x)) } …（ l 3 )

[0127] ここで、 min{ a, b}は a及び bの最小値を示す。このようにして、各ノードに対する特徴識別器 h、対象物識別器 H、識別エラー関数 Eを決定する。以上の一連の手続

n n n

きによってノード学習プロセスが完了する。

[0128] このように、本発明の実施形態のネットワーク学習部 790では、以下の利点を持つ

[0129] まず、空ノード生成部 710により、複数の経路の識別結果を用いて対象物の判定ができるので、カスケード構造の先行技術に比べて効果的な判定ができるとレ、う利点を持つ。

[0130] 本実施形態では、ノードの統合と分割を用いているので、接続パスを経由して下層の 1つのノードにつながつている上層のノードは 1つ以上ある。それぞれのノードの特徴識別器には、ブースティングアルゴリズムで学習した特徴識別器を用レ、、それらの識別器の結果は、下層の 1つ以上の識別器に伝えられるので、下層の識別器では、それらの複数の経路の識別器の情報をあわせて対象物の判定を行うことができる。

[0131] このことと、複数の経路の識別器の情報をあわせて判定を行えること力 1つのステージの中にある弱識別器は別のステージにある弱識別器の情報をもたなレ、カスケ一ド構造の先行技術に対する利点である。一方、先行技術においては弱識別器の情報は、同じステージにある次の弱識別器に伝わるにすぎない。この利点は、後述の第三の特長に対応する。 [0132] さらに、空ノード生成部 710は、学習の視点でも次のような利点を持っている。先行技術におけるカスケード構造の対象物検出器においては、あるステージの中にある弱判別器は別のステージにある弱判別器の情報を利用することはない。これに対し、本実施形態の装置では、上記、空ノード生成フローにより、複数のステージ識別器内に属する複数の弱判別器の情報を利用して空ノードを学習させることを可能にしている。

[0133] しかも、本方式ではノードの統合と分割を用いているので、ルートノードから新たに生成する空ノードまでのパスがあり、これらのルートノードから空ノードまでのそれぞれのパスは、ステージ識別器に相当している。上層の各ノードはブースティングアルゴリズムで学習した特徴量識別器であり、複数のステージ識別器に属する特徴量識別器の結果を利用して、空ノードを学習できる構造を実現している。

[0134] 従来例として知られる多数決方式においても、並列に動作する複数の検出器において判定を用いている力本発明の形態においては、次の利点を持つ。

[0135] まず、ノードネットワークに対して制限した数のパスを生成しているので、多数決方式に比べ、パスの数ほどに計算量が増大しなレ、。しかも、ノードネットワークに対して複数の空ノードを生成し学習をする基準が明確になっているので、複数のパスによる学習が効果的に行われ、従来例の多数決方式においてはそれぞれのカスケード識別器が補完的に動作しているかどうか不明であるという課題、第三の課題を克服している。このように、従来よりも効率的なアンサンブル学習を実現している

[0136] 次に、画像サンプノレ収集部により、次に示す利点が得られる。第 1に、本発明の実施形態では、画像サンプル群が複数の空ノードで共有されているので、 1枚の学習画像により 1つ以上の経路のノードを同時に学習可能にしている。

[0137] そのため、 1つの画像サンプルを 1つの識別器で識別するのにくらべ、同一の空ノードのいたる複数の経路で構成され複数の経路からの識別結果を利用するネットヮーク識別器によって効果的に識別できる。この利点は、後述の第二の特長に対応する。これは、画像サンプル収集部が、画像サンプノレ群を複数の空ノードで共有させる仕組みにより可能になっている。

[0138] 第 2に、本発明の実施の形態では、識別器の段数を増やしていっても、学習データが過度に細分化（over-fragmentation)されることがなぐ後段の識別器においても安定な学習を可能にしている。

[0139] 従来の手法においては、識別器の段数を増やしていくと、その識別器に到達する学習サンプノレ数が少なくなつていき (過度の断片化を生じ)、学習結果が学習サンプルに対する依存性 (過学習）を強く示すようになってしまう欠点があった。本手法においては、多重経路での判定を可能にするように、ノードの統合と分割を行って画像を共有しているので、学習の優先領域に重なりがあり、学習サンプルが過度に断片化されることもなく、学習結果が過学習を示しにくいので、安定した学習となっているという利点がある。

[0140] 一般に、自由度を高めた学習を行うと、本来のデータの統計的な特徴を再現するのではなぐ学習に用いたデータセットに対して過度に依存性を持つ傾向がある。そのようなモデルのよしあしを判定する指標としてはたとえば AIC (赤池の情報量基準： Akaike's Information Criteria)が失ロられている。

[0141] 多変量解析では AICが最小になる自由度のモデルを採用することで、学習に用いたデータセットに対して過度に依存性をもつことを防いでいる。同様に、本発明のネットワーク型の識別器においても、いたずらに自由度を高めることは、本来のモデルのよしあしには関係なぐ学習に用いたデータセットに対してだけは良好な学習結果になる力もしれないという潜在的な危険を含んでいる。し力しながら、本実施形態の手法においては、ノードの統合も行っていることで学習サンプノレを細分化しすぎない、空ノードに規定の数の画像が集まらない場合には、学習を実施しない、複数のパスの識別器を用いて判定を行っている、といった制限が加えられており、いたずらに自由度が高くなる危険を防いでいるため、本手法においては、学習結果が過学習を示しにくい。

[0142] さらに、本実施形態のノード学習部 730により、以下に示す利点が得られる。

[0143] 第 1に、ノード学習部 730は、親ノードで識別できなかった画像サンプノレの部分集合に対して特化した識別器を作り上げる。これは、ノード学習部は、式（9)の重み関数を用いて、（特徴識別器 hを式（10)にしたがって学習させているので）、親の識別器で大きな識別エラーを生じる画像サンプノレ群に対して大きな重みを与えるようになつている。

[0144] 第 2に、ノード学習部は、影響が局在化した識別器 hを作り上げる。すなわち、親の

n

ノードで大きな識別エラーを生じるときにおいてのみ、このノードによる累積スコアへの寄与があるものになっている。実際、親の識別器での大きな識別エラーを生じる場合には、式（2)で | S (X)—ひ

n Iが小さな値となっているので、累積スコアへの n,parent

exp (- I S (X)—ひ I ) * h (X)の項が大きくなり、このノードでの識別器 h (X

n, arent n n n

)の値が累積スコアに十分に反映される。

[0145] 逆に、親識別器で大きな識別エラーを生じなレ、場合には、式（2)で | S (X) _

n, parent a Iの値が大きくなるので、 exp (— I S (X) _ ひ | ) * h (X)の項が小さくなり n n, parent n n

、このノードでの識別器 h (X)の値が累積スコアにほとんど影響しない。

n

[0146] このため、累積スコアへの影響は、親ノードでの識別エラーが大きい場合に限定されたものになる。それは、影響が局在化した識別器と言い換えることができる。

[0147] このように、 1つのパスの各ノードの識別器では、それぞれの識別器が高い寄与で累積スコアに効いてくる入力画像が異なるため、個々の識別器にはその他の全ての識別器の動作に影響を与えずに優先的に動作する優先領域がある。

[0148] 一方、従来例としてあげるカスケード構造の識別器では、第一の課題に示したように、弱判別器が全入力空間に対して処理を行う線形識別器であり、全ての弱識別器は、全ての顔画像を顔として識別しなければならない。それに対して、本発明の実施形態のノードの識別器にぉレ、ては、前段のノードの識別器が誤識別を起こしやすレヽ画像集合についてだけ、顔と非顔を識別するものである。そのため、ノードの識別器が動作する入力画像空間は限定的なものであり、このノードの識別器での顔/非顔の識別は、カスケード構造の識別器の場合よりもはるかに簡単な構成で実現できる。これは、後述の第一の特長に対応する。

[0149] このように本発明の実施形態では、各ノードの識別器が、優先的に動作する入力画像の優先的な空間があるので、 1つの識別器の動作が他の識別器の動作に影響を与えることはほとんどない。これは、先行技術においては、弱識別器は全入力空間に対して動作しその他の弱分類器動作に影響を与えうるという課題を力かえているのと比較し、大きな利点となっている。 [0150] <特徴抽出 >

図 10は、本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図である

。この特徴抽出部は、例えば、図 1に示す画像ウィンドウ検出処理部 530や、図 7に示すノード学習部 730にて用いられる。

[0151] 図 10に示すように、特徴抽出部 390は、入力部 501に入力された画像ウィンドウから特徴量 309を抽出する。この特徴量 309は画像ウィンドウが対象物を含むかどうかの識別に用いられる。

[0152] たとえば、画像ウィンドウ検出処理部 530によって実行される図 4に記載のステップ

631は、特徴抽出部 390により実行される。

[0153] 図 11は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す図である。与えられた画像ウィンドウ 1001に対して、矩形テンプレートは L個の同じ大きさの長方形等の矩形ブロックを画像ウィンドウ 1001の内部に含む。 Lは、例えば 2 力 9の間の任意の値をとつてよレ、。個々の矩形ブロックは、右上の座標と幅 wと高さ hとで特定できる。

[0154] たとえば、図 11 (A)に示す矩形テンプレート 1010、図 11 (B)に示す矩形テンプレート 1020、図 11 (C)に示す矩形テンプレート 1030は、それぞれ 6、 9、 7個の矩形ブロックを含んでいる。

[0155] 図 12は、本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャートである。また、図 13は、本発明の実施形態に係る特徴抽出部における処理手順を説明するための説明図である。

[0156] ステップ 491では、画像ウィンドウ Xに、画像ウィンドウ中の矩形ブロックを定義する矩形テンプレート fを適用する。

[0157] ステップ 492では、画像ウィンドウから空間的分布情報を測定する。空間的分布情報は、パターンのどの矩形ブロックが他よりも高い輝度値を持つのかを示すパターン

1110として示される。

[0158] パターン 1110を矩形ブロックの輝度値比較によって計算する。全ての矩形ブロックの平均輝度値がまず計算され、これを参照輝度値とする。次に、個々の矩形ブロックの平均輝度値を計算する。矩形ブロックの平均輝度値が参照輝度値よりも小さければ 1、大きければ 0と矩形ブロックはラベルする。これら強度は、積分画像を使うことですばやく効率的に計算できる。この矩形ブロックのラベルを集めることで、パターン 11 10が得られる。

[0159] 例として、図 13において、矩形テンプレート 1010を用いる。入力顔画像 1105に対し、特徴抽出部 390は、 pattern= 101000というパターン 1151を生成する。別の非顔画像 1106に対しては、特徴抽出部 390は pattern = 011000とレ、うパターン 1161 を生成する。

[0160] ステップ 493では、空間輝度値情報を画像ウィンドウから計測する。この空間輝度値情報を強さ（strength)とし、異なるブロック間でどれがどのくらい強度差があるのかを示す。

[0161] 強さ 1120は、 1とラベルされた全ての矩形ブロックの平均輝度値から 0とラベルされた全ての矩形ブロックの平均輝度値を差し引くことで計算される。

[0162] たとえば、図 13において、入力顔画像 1105に対して、特徴抽出部 390は、 strengt h= 35という強さ 1152を生成する。別の非顔画像 1106に対しては、特徴抽出部 39

0は、 strength= 37とレヽぅ強さ 1152を生成する。

[0163] 特徴抽出部 390の抽出する特徴 f (X)は、 2次元量であり、次の式（14)ように表現できる。

[0164] [数 14] バ） = (パターン,強さ) …（1 4 )

[0165] 抽出された特徴量は、特徴量の識別能力を改善するためにパターンと強度の 2つの属性を使う。多くの場合、空間的分布情報と輝度値情報の両方が画像を区別するのに必要である。

[0166] 例をあげれば、図 13において、入力の顔画像 1 105と非顔画像 1106は似た強さである。強さ情報に基づく先行技術は両者を区別することができない。し力ながら、顔画像 1105と非顔画像 1 106とは異なるパターン値をしているので、パターン値で区別できる。

[0167] 図 14は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示す図である。画像ウィンドウ 1101が与えられたとき、矩形テンプレートは L個の矩形ブロックをウィンドウ 1101の内部に含む。

[0168] 図 14 (A)に示す矩形ブロック 1091のように、矩形ブロックはそれぞれ大きさが異なつてもよい。また、図 14 (B)、（C)に示す矩形ブロック 1092、 1093のように、矩形ブロックは交わらなかったり、隣接していなくてもよレ、。さらに、図 14 (D)、図 14 (E)に示す矩形ブロック 1094のように、完全に又は部分的にオーバーラップしていてもよい。

[0169] このような本発明の実施形態の対象物検出装置及びその学習装置によれば、下記の構成を有するものである。

[0170] まず、前記対象物検出方式において、前記ノードはブースティング学習法によって訓練された複数の識別器を備える。ネットワーク学習プロセスは、多数の画像サンプルを入力として、それらの画像サンプノレ群をいくつかの集合に分割し、それぞれの画像集合をもとに識別器を訓練する。ノードに配置する識別器を決定するために、まず、前記構造 (building)は識別プロセスにおレ、てノードに到達する訓練サンプノレを収集する。次に、最も識別エラーが高ぐ学習サンプルが多く存在する領域を決定する。そして、弱判別器がその制限された領域で識別をおこなう。弱判別器は全入力空間に均等に影響を与えるものではない。新たに追加される各弱判別器は特徴づけされ

、決定された領域の中で前の弱判別器の結果の改良のみを行う。このようにして構築した本発明の実施形態のネットワーク識別器においては、各パスの識別器が識別するのはそのパスを伝播した画像からなる入力画像の部分空間であり、部分空間での顔/非顔の判定は全入力画像空間での判定よりも分離が容易となり、従来例の後段の強判別器のように多数の弱判別器を必要としないとレ、効果を生じてレ、る。これにより、第一の課題を解決することができる。

[0171] また、本発明の実施形態のノードネットワークでは、（1)各ノードが自ノードに到達するまでに処理したノードの累積評価値をもとに顔'非顔を判別する強判別器を備えること、（2)学習時に、各ノードの識別器を、そのノードに到達する学習サンプルと前段ノードにおける累積評価値の結果に基づいて学習させる。すなわち、本方式により、各ノードはそれまでの経路上に存在するノードから成る強判別器として機能し、対象物の有無の決定に十分でなレ、場合に、その判別結果に応じて学習されてレ、る次の子ノードで処理が続ぐという構造をとる。したがって、常にそれまでの識別結果が有効に利用されるため、識別処理が高速に、最適に実現できる。また、第一の解決手段により、各ノードが入力空間の部分領域に特化する判別器が選択されている一方で、本ノードネットワークの特徴的な構造の一つであるノードの統合 (親ノードを複数持つ子ノードの存在）では、全親ノードのサンプノレを引継ぎ、親ノードの識別対象領域を統合した部分領域で最適な判別器を学習するこの統合構造により、入力空間を多様な部分領域について識別処理を行うことが可能である。これにより、入力空間上のある 1点の画像は、複数のノードの弱判別器によって処理され、それらの結果の累積値での判別を実現する。これにより、第二の課題を解決することができる。

[0172] また、画像からの対象物検出装置において、前記識別プロセスでは、入力データをネットワーク上の複数のパスで処理させることが可能である。パスとは、入力データを処理し、識別するのに使用されるノードの経路である。パス上の各ノードの識別器は、入力画像に対する識別を行う弱判別器だけではなぐ前段までのノードの弱判別器の識別結果を累積する識別器をも含んでいる。そのため、パス上の各ノードの弱判別器からの累積スコアを用いることによって、強判別器または識別器による識別結果が得られる。また、識別処理の間に、現在のパスから複数のパスをさらに生成する。不必要なパスが多くなるのを防ぐため、最も高い識別エラーを持つパスは終了させる。ノードは分割されたり統合されたりするので、ネットワークを、共通の弱判別器を共有する複数の異なる強判別器の結合とみなすことができる。複数のパス上のノードを用いて強識別器を作ることは、協調的に動作するように訓練された並列な強判別器を動かしているのと同等である。パスの識別結果のうち、識別エラー値が最良のものを出力結果として選択する。このようにして、複数のカスケード識別器力なる検出装置（=多数決方式のカスケード識別器)と同等以上な識別能力を持ちつつ、それぞれのパスが協調的に動作し、しかも多数決方式よりも計算量の少ない識別器を達成できる。これにより、第三の課題を解決することができる。

[0173] 画像からの対象物検出装置において、本実施形態の特徴量抽出手法は、入力の画像ウィンドウに対して空間的分布情報と輝度値情報の両方を測るものである。まず、特徴テンプレートにおいて、画像ウィンドウにおける対象領域を決定する。まず、 " パターン (pattern) "と表記する属性として、領域が他の領域よりも輝度値が高いか低レ、かをあらわす値を計算する。この属性は、輝度値の高低の空間的分布を表す。続いて、〃強さ（strength) "と表記する一つの属性は、画像ウィンドウの輝度値の高低の大きさの差を表現する値が計算される。すなわち、本実施形態で提案する特徴選択手法は画像から有益な情報を得るために 2つの属性値を使用する。これにより、第四の課題を解決することができる。

[0174] そして、本発明の実施形態に係る対象物検出装置及びその学習装置は、以下の特長を含む。第一の特長は、入力画像の部分空間で識別を行うよう、識別器の局所化を行っている点である。ネットワーク構造を導入することによって、弱判別器が入力空間全体を識別するよう訓練されている従来手法とは異なり、本実施形態は入力空間の部分領域に対して処理する弱判別器を訓練する。すなわち、各識別器は他の識別器の識別処理に関係なぐ特定の領域に対して、特定の識別処理を行う。これにより、精度の向上と識別エラーの減少を実現し、より複雑な非線形識別器の構築が可能にしている。

[0175] また、本実施形態では、入力画像に対応した識別器を適用させるため、すべての識別器を評価する必要はない。したがって、識別処理における計算処理コストを低減させることが可能である。さらに、対象物を含む場合にも含まない場合にも、単純な（識別しやすい）入力画像に対して早期に識別することを保証するために、入力画像に対して早期に処理が行われるネットワーク上の上部や外側の位置の弱判別器は、単純な入力画像に対して処理するように特化させる。

[0176] 第二の特長は、識別結果をより効果的に共有する点である。本実施形態では、従来手法において弱判別器をつないでいるカスケード構造にかわって、ネットワーク構造を用いる。識別器は、複数のノードから複数のノードへつながれたネットワーク上のノードに配置される。ネットワークの分割構造が識別器を特定領域の操作に局所化させ、統合構造がネットワークがしつ力と結びついていることを保障する。結合ノードの構築においては、親ノードの学習時のサンプルを統合して用いることによって、入力空間の過分割を起こさないようにしている。対象問題を分割と結合により解を求める本実施形態の方式により識別情報を効果的に共有し、対象物検出器全体で使用する識別器総数を低減させることができる。

[0177] 第三の特長は、ひとつの識別器から複数の識別結果を生成することである。本実施形態の装置においては、対象物検出装置は入力画像を識別器ネットワークにおいて、複数の弱判別器を選択し、複数の経路で識別処理をおこなう。各パスは入力画像を識別するための識別器の集合である。識別器は識別処理において、識別エラーを減少させるように動的に選択する。ある層のノードにいたる識別器のパスの選択の際に、前段までの古いパスを利用して、そこからノードの分割と統合とを行いつつ新しいパスを生成する。各パスは、入力画像内に対象物があるか否かを決定する強判別結果を出す。すなわち、ネットワークそのものは実際には、複数の弱判別器を共有する強判別器の集合である。独立な強判別器が使用されている従来の多数決方式に比ベて、本実施形態の複数の強判別器は集団的に訓練され、強調的に動作する。さらに、最も高い識別エラーのパスを終結させることによって、従来の多数決方式において発生していた複数の判別器を並列に動作させた際の処理負荷の増加を抑えることが可能である。

[0178] 第四の特長は、より高い識別力を持つ新しい特徴抽出手法の使用である。本実施形態では、入力の画像ウィンドウにおけるある領域に対して、従来の非特許文献 2および特許文献 1の矩形特徴量が強さ情報を測るものであるのに比べて、空間的なパターン情報と輝度の強さ情報の両方を測ることが可能な矩形パターン特徴を提案している。空間的なパターン情報は高低の輝度画素がある領域内でどのような配置になっているかを表す。強さ情報は、高低の輝度の画素領域間で輝度値の差がどれくらい強いかを表す。非特許文献 4にある手法に比べて、本実施形態の矩形パターン特徴は強さ情報を組み込んだことによってノイズ画像にロバストであり、本実施形態のパターン特徴は非特許文献 4にある手法が画素間比較するのに比べ、大局的な特徴を取得することが可能である。したがって、識別力がより高くなり、検出器において使用され、対象物体を見つけるのに必要な特徴量の数は大きく減少できる。

[0179] 本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。 [0180] 本出願は、 2005年 6月 15日出願の日本特許出願（特願 2005— 175356)に基づくものであり、その内容はここに参照として取り込まれる。

産業上の利用可能性

[0181] 本発明の対象物検出装置及びその学習装置は、高精度で、処理負荷の増加を抑えることが可能な効果を有し、監視カメラ等により撮影された対象物検出等に有用である。

Claims

請求の範囲

[1] 入力された画像から、当該画像の部分領域である画像ウィンドウを複数抽出する画像ウィンドウ抽出部と、

対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネットワークを用いて、前記抽出された画像ウィンドウの各々に対して、対象物の存在を検出する対象物検出部と

を備える対象物検出装置。

[2] 請求項 1に記載の対象物検出装置であって、

前記ノードは、複数の識別器を有する対象物検出装置。

[3] 請求項 1又は 2に記載の対象物検出装置であって、

前記対象物検出部は、前記ノードネットワークにおいて、少なくとも一つの経路を生成する経路生成部と、前記生成された経路の各々について対象物の識別処理を行レ、、前記画像ウィンドウが対象物を含むか否かの識別結果を出力する識別部とを有する対象物検出装置。

[4] 請求項 3に記載の対象物検出装置であって、

前記対象物検出部は、前記画像ウィンドウに対して前記ノードネットワークの中にまだ評価してレ、なレ、新しレ、経路が存在するか否力 ^判別し、当該判別結果に基づレ、て、前記経路生成部による経路生成処理と、前記識別部による前記識別結果出力処理とを繰り返す対象物検出装置。

[5] 請求項 4に記載の対象物検出装置であって、

前記経路生成処理及び前記識別結果出力処理は、その繰返し回数が所定の回数に達するまで、又は新たな経路が生成できなくなるまで繰り返される対象物検出装置

[6] 請求項 3ないし 5のいずれか一項に記載の対象物検出装置であって、

前記経路生成部は、経路の数が所定の数を超えず、かつ少なくとも一つの経路を決定する経路決定部と、新しい経路を生成するために前記ネットワーク上の各経路を分割する機能とを有する対象物検出装置。

[7] 請求項 3ないし 6のいずれか一項に記載の対象物検出装置であって、前記識別部は、前記生成された各経路での識別結果と識別エラーとを求める識別処理を行う評価部と、前記ノードネットワークの識別結果として最も識別エラーの低い経路での識別結果を選択する選択部と、最も低い識別エラーが所定の値より小さくなつた場合に前記評価部における識別処理を停止することを決定する停止決定部とを有する対象物検出装置。

[8] 請求項 7に記載の対象物検出装置であって、

前記評価部は、生成された経路の各ノードについて前記画像ウィンドウの特徴量値を抽出する抽出部と、経路に含まれる各ノードの評価値を出すために前記特徴量値を識別器に適用する適用部と、生成された経路の累積評価値を生成するために各ノードの評価値を結合する結合部と、生成された経路の前記識別結果を得るために、累積評価値を用いて画像ウィンドウが対象物体を含むか否かを識別する識別部と、生成された経路の識別結果に対して識別エラーを推定するエラー推定部とを有する対象物検出装置。

[9] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、

前記各ノードの識別器による識別結果を最終結果の判定に利用するか否かは、前記画像ウィンドウ内の特徴に合わせて変更される対象物検出装置。

[10] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、

前記各ノードの識別器による識別結果を最終結果の判定に利用する割合は、前記画像ウィンドウ内の特徴に合わせて変更される対象物検出装置。

[11] 請求項 10に記載の対象物検出装置であって、

前記各ノードの識別器による識別結果を最終結果の判定に利用する割合は、前記画像ウィンドウ内の特徴と、前記識別器の学習に用いた画像の特徴との差に基づくパラメータに基づいて決定される対象物検出装置。

[12] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、

前記識別器がブースティング法に基づく場合、ある識別器の結果が最終結果の判定に寄与する割合は、前記画像ウィンドウに対して当該識別器以前の全識別器による累積評価値と、当該識別器を学習画像に基づき構築する際に当該識別器以前の全識別器による累積評価値のうちもっとも識別エラーが高かった累積評価値との差に基づいて決定される対象物検出装置。

[13] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、

前記各ノードにおける識別器において、累積評価値に寄与する割合が、当該ノードの親ノードにおける前記画像ウィンドウの累積評価値と、当該ノードの特徴量識別器を学習画像に基づき構築する際に当該ノードの親ノードにおける累積評価値のうちもっとも識別エラーが高かった累積評価値との差に基づいて決定される対象物検出装置。

[14] 請求項 1ないし 13のいずれか一項に記載の対象物検出装置であって、

前記対象物検出部は、あるノードの親ノードが複数存在する場合に、当該ノードの特徴量識別器を学習する際に学習画像において当該ノードの親ノードにおける累積評価値においてもっとも識別エラーを出した累積評価値を、親ノードにおける累積評価値の範囲で探索する対象物検出装置。

[15] 対象物検出装置の学習装置であって、

前記対象物検出装置は、対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネットワークを用いて、前記ノードネットワーク構造の識別器を動的に学習するノードネットワーク学習部を備え、

前記ノードネットワーク学習部は、前記ノードネットワークの中に、少なくとも 1つの空ノードを生成する空ノード生成部と、前記空ノードの学習用の複数の画像を集める学習画像収集部と、前記収集した画像で空ノードを学習するノード学習部とを有する学習装置。

[16] 請求項 15に記載の学習装置であって、

前記ノードネットワーク学習部は、新しい空のノードを作成しうるかどうか判別し、当該判別結果に基づいて、前記空ノード生成部、前記学習画像収集部及び前記ノード学習部による処理を繰り返す学習装置。

[17] 請求項 15又は 16に記載の学習装置であって、

前記空ノード生成部は、前記ノードネットワークが空の場合に基準となるノードを生成し、ノードネットワークにすでに存在するノードを統合と分割することによって新しい空ノードを生成する学習装置。

[18] 請求項 15ないし 17のいずれか一項に記載の学習装置であって、前記空ノード生成部は、前記学習画像収集部により集められた画像の数が不十分である場合に、そのノードを除去する学習装置。

[19] 請求項 15ないし 18のいずれか一項に記載の学習装置であって、

前記学習画像収集部は、前記画像を構築中のノードネットワークの入力として与え、画像を伝播させ、前記空ノード間で画像を共有し、各空ノードに到達する画像を収集する学習装置。

[20] 請求項 15ないし 19のいずれか一項に記載の学習装置であって、

前記ノード学習部には、ブースティングアルゴリズムが適用される学習装置。

[21] 請求項 20に記載の学習装置であって、

前記ノード学習部は、前記ブースティングアルゴリズムにより前記収集された画像から部分集合を決定し、当該部分集合を用いて、収集された画像に重み付けを行い、重み付けされた画像を用いて前記空ノードの識別器を決定する学習装置。

[22] 請求項 1ないし 14のいずれか一項に記載の対象物検出装置であって、

前記対象物検出部は、前記画像ウィンドウの画素の空間分布情報と画素の強さ情報の双方を利用して検出する対象物検出装置。

[23] 請求項 22に記載の対象物検出装置であって、

前記画素の空間分布情報は、 1つ以上の画素から構成される画素ブロックについて、複数の画素ブロック間での、各画素ブロックの特徴量値の大小関係と画素ブロックの画像上の配置関係とを表すものである対象物検出装置。

[24] 請求項 23に記載の対象物検出装置であって、

前記画素の強さ情報は、前記空間分布情報に対して、各画素ブロックの特徴量値の大小関係の強さを表すものである対象物検出装置。

[25] 請求項 23又は 24に記載の対象物検出装置であって、前記画素ブロックには、長方形のテンプレートが適用される対象物検出装置。