WO2006134981A1 - 対象物検出装置及びその学習装置 - Google Patents

対象物検出装置及びその学習装置 Download PDF

Info

Publication number
WO2006134981A1
WO2006134981A1 PCT/JP2006/311953 JP2006311953W WO2006134981A1 WO 2006134981 A1 WO2006134981 A1 WO 2006134981A1 JP 2006311953 W JP2006311953 W JP 2006311953W WO 2006134981 A1 WO2006134981 A1 WO 2006134981A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
object detection
image
learning
unit
Prior art date
Application number
PCT/JP2006/311953
Other languages
English (en)
French (fr)
Inventor
Katsunori Waragai
Fumi Kawai
Cher Keng Heng
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP06766722A priority Critical patent/EP1892669A4/en
Priority to CN2006800216404A priority patent/CN101198987B/zh
Priority to US11/917,067 priority patent/US8233720B2/en
Publication of WO2006134981A1 publication Critical patent/WO2006134981A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Definitions

  • Non-Patent Document 2 Majority Voting method is shown in Non-Patent Document 2.
  • Viola et al., Authors of Non-Patent Document 2 have prepared three cascade structure classifiers (classifiers with cascade structure) and have shown that the classification error is reduced by the majority of the output results.
  • Non-Patent Document 3 Rowley et al., Author of Non-Patent Document 3, trained numerous neural networks to build a face detector.
  • a method for combining the results of a plurality of detectors a method using a neural network trained to output final results from a number of neural network detectors has been proposed instead of the majority method.
  • Rectangle Feature A feature extraction method for face detection is called Rectangle Feature. This feature is proposed by Viola et al.
  • the rectangular feature of the image window is extracted by measuring the luminance difference between the rectangular partial areas defined by the rectangular filter.
  • FIG. 5 is a block diagram showing a schematic configuration of the object detection learning device according to the embodiment of the present invention.
  • FIG. 12 is a flowchart showing a processing procedure of a feature extraction unit according to the embodiment of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

 高精度で、処理負荷の増加を抑えることが可能な対象物検出装置及びその学習装置を提供する。  対象物検出装置は、入力された画像から、当該画像の部分領域である画像ウィンドウを複数抽出する画像ウィンドウ抽出部(210)と、記憶部(502)に記憶された対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネットワークを用いて、抽出された画像ウィンドウの各々に対して、対象物の存在を検出するネットワーク識別器(590)とを備える。

Description

明 細 書
対象物検出装置及びその学習装置
技術分野
[0001] 本発明は、画像から顔等の対象物を検出する対象物検出装置及びその学習装置 に関する。
背景技術
[0002] コンピュータビジョンにおいて、対象物検出技術は、画像の中に特定の対象物が映 つているか否かを判定する問題とされる。対象物としては、車や、歩行者、人間の顔 などがある。多くのアプリケーションにおいて、対象物検出は非常に難しい問題とされ ている。たとえば、対象物が人間の顔の場合、顔の向き、照明、サングラスやマスク等 による部分的な隠れにより、その見え方は大きく変化する。また、監視装置等に用い るアプリケーション等においては、画質が悪くノイズが載っている場合や、画像の中に 映る顔が小さい場合などはその検出がいっそう難しくなる。
[0003] 対象物検出の問題を解決する一般的な方式として、統計的学習に基づくパターン 認識技術があり、識別器のパラメータはあらかじめ与えた学習用サンプノレを元に決定 される。顔検出における一般的な手法としては、ニューラルネットワークや、サポート ベクターマシン、ベイズ推定等を用いた手法がある。これらの手法は、通常、入力画 像力 識別に用いる特徴量を抽出する特徴選択技術と、選択した特徴量を入力とし て対象物であるか否力、を判定する識別器を構築する識別器構築技術と、構築した識 別器を使って、画像ウィンドウ内に顔の存在を判定する技術力 なる。なお、「画像ゥ インドウ」とは、入力画像内の部分領域を意味し、入力画像からは、部分領域の位置 や大きさを変えた多数のウィンドウが切り出し可能である。
[0004] 識別器の構築手法としては、非特許文献 1で知られているァダプティブブースティ ング(Adaptive Boosting)又はァダブースト(Adaboost)がある。以下これを「ァダブー スト学習法」と呼ぶ。これは、多数の対象物検出システムにおいて適用されており、こ れを用いた画像からの顔検出手法としては、非特許文献 2がある。ァダブースト学習 法では、識別器は、判別エラーが 50%以下であればよいという高いエラー率でょレヽ とされており、これを弱判別器と称す。ァダブースト学習法では、用意した多数の弱 判別器の中から、レ、くつかの弱判別器を選択し、これらをアンサンブルすることで、判 別エラー率の低レ、強判別器を構築する。
[0005] ァダブースト学習法を用いたリアルタイムでの正面顔検出手法として、非特許文献
2や特許文献 1に示される手法がある。非特許文献 2や特許文献 1における顔識別器 、すなわち顔検出器では、複数の強判別器を一列に連結したカスケード構造をとる。 カスケード構造では、連結している判別器をステージと称し、入力に近いほうから 1ス テージ目を 1段目の強判別器、または 1段目のステージ識別器と呼ぶ。各ステージの 識別器は、ァダブースト学習法によって学習し、学習用の入力画像から抽出された 特徴量に基づく多数の弱判別器を連結し、構築する。各ステージ識別器は学習サン プノレに対してはほぼ 100%で識別が正解するように訓練する一方で、非顔画像の学 習サンプノレに対しては 50%程度で識別が正解すればいいように訓練する。 1段目の ステージ識別器の場合は、入力画像に対して、また、 2段目以降のステージ識別器 の場合は、 1段目のステージ識別器が顔と判定した入力画像に対して、顔/非顔の 判定を行う。 n段目のステージで非顔と判定されたものは、それ以上処理を行わず非 顔と判定を決定するため、効率的に処理が可能であり、 1秒あたり 15フレーム程度の 処理速度で動作することが知られている。
[0006] また、異なる学習サンプルを用いて複数の顔検出器を構築し、それらの識別結果を 総合することで識別精度を向上させる手法がある。その一例として、多数決 (Majority Voting)方式が非特許文献 2に示されてレ、る。非特許文献 2の著者である Violaらは 3つのカスケード構造識別器 (カスケード構造である識別器)を用意し、それらの出力 結果の多数決により識別誤差が減少することを示している。非特許文献 3に示される 別のアプリケーションにおいては、非特許文献 3の著者である Rowleyらは顔検出器 を構築するために多数のニューラルネットを訓練した。複数の検出器の結果の結合 方法として、前記多数決方式に代わって、多数のニューラルネットワーク検出器から 最終結果を出力するように訓練されたニューラルネットワークを用いる手法が提案さ れている。
[0007] 顔検出のための特徴量の抽出方法としては、矩形特徴(Rectangle Feature)と呼ば れる特徴が非特許文献 2で Violaらにより提案されている。画像ウィンドウの矩形特徴 は矩形フィルターで定義された長方形の部分領域間の輝度差を測ることによって抽 出される。
[0008] また、別の特徴量抽出方法として、非特許文献 4の「Modified Census TransformJが 提案されている。特徴量は、入力画像中の 3 X 3画素ブロックを 2値画像に変換する ことによって抽出される。ブロック内の画素の輝度値はブロック内の輝度平均値と比 較される。画素の輝度値が平均値よりも高いなら 1が、そうでないなら 0がラベル付け される。ブロック内のすべての画素のラベルを順に並べると、 9ビットの情報になり、こ れが特徴量の値として使用される。
[0009] 特許文献 1:米国特許出願公開第 2002/0102024号明細書
非特許乂 ffl^l : Ϋο&ν Freund、 Robert E. Schapire、「A decision-theoretic generalizati on of on-line learning and an application to boostingj、 Computational Learning The ory: Eurocolt '95、 Springer_Verlag、 1995年、 .23— 37
非特許文献 2 : Paul Viola, Michael Jones,「Rapid Object Detection Using a Boosted Cascade of Simple Features]、 IEEE Computer Society Conference on Computer Visi on and Pattern Recognition (CVPR)、 2001年 12月、 ISSN: 1063-6919, Vol. 1、 .511 518
非特許文献 3 : H. Rowleyヽ S. Baluja, T. Kanade,「Neural Network-Based Face Dete ction」、 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)、 Vo 1. 20、 No. 1、 1998年 1月、 p.23 - 28
非特許文献 4 : Bernhard Froba、 Andreas Ernst、「Face Detection with the Modified し ensus Transform J、 Proceedings for Sixth IEEE International Conference on Autom atic Face and Gesture Recognition (AFGR)、 2004年 5月、 ρ·91 _ 96
発明の開示
発明が解決しょうとする課題
[0010] し力 ながら、上記の検出技術には下記の課題がある。
[0011] 第一の課題は、非特許文献 2および特許文献 1にて提案されているカスケード識別 器において、弱判別器が全入力空間に対して処理する線形識別器であることである 。弱判別器は一つ前の弱判別器の識別エラーを補うために追カロ、訓練される。しかし 、新たに訓練された弱判別器をカ卩えると、それらを連結してできる全体の識別器での エラーは遞減するが、入力空間のある部分領域にぉレ、てエラーを改善する一方で、 別の部分領域では識別エラーを引き起こす。したがって、カスケード識別器内の後段 の強判別器が、対象物(たとえば顔)を含む画像と対象物を含まない画像が、画像特 徴として似通っている場合、特徴区間上でそれらのデータを線形分離できないことが 多くなり、その判別エラーを引き起こす率が高くなる。そのため、非常に多くの弱判別 器を必要とし、識別時に処理する判別処理数が増大する。
[0012] また、ステージ識別器を学習する際には、対象物を含まない画像 (以下、非対象物 画像)についてはステージごとに異なる画像サンプルで学習され、学習の非対象物 画像に合った最もよい (最もよく判別できる)弱判別器が選択されるが、対象物を含む 画像(以下、対象物画像)については全ステージでそれと認識されなければならず、 同一の学習サンプルで学習されている。し力しながら、たとえば対象物が顔である場 合では、顔画像は、顔の向き'傾きや照明条件、個人の特徴や人種、サングラス 'マ スクゃ髪による隠蔽などにより、その特徴は大きく異なる。真正面向きで、 目、鼻、 口 等がはっきり映っている顔は判別しやすぐ一方、向きや照明等により顔の特徴が削 減されている場合、判別し難い。このような事情があるにもかかわらず、従来の識別 器はそれらの顔特徴について同一の弱判別器で処理を行っており、非顔とは区別し やすい顔画像を処理するメカニズムがない。また、各顔の特徴に応じた識別が実現 されていないため、複雑な顔特徴に対する高精度な検出が困難となっている。
[0013] 第二の課題は、非特許文献 2と特許文献 1におけるカスケード構造では、あるステ 一ジの強判別器から別のステージへ、何の情報も伝達されないことである。従来の方 式では、あるステージの弱判別器は前段のステージの強判別器の出力値を知らない 。そのため、たとえば対象物が顔画像である場合に、正面向きで判別しやすい顔を 対象とする検出器の構築は、カスケード構造により実現できても、入力空間が複雑で 識別器が高次元に及ぶような複雑な顔 (たとえば、多様な向きの顔画像)を対象とす る検出器の実現は、カスケード構造では難しい。前段の強判別器の結果を知らずに 、新たに強判別器を学習する場合、その強判別器で使用する弱判別機は、学習用 の顔 ·非顔サンプルを全体的に最もうまく分離する弱判別機から選択される。一方、 仮に前段の強判別器の結果として、前段の強判別器が識別し難力 た (すなわち、 顔 ·非顔の境界付近に存在するサンプルなの力 、判別がしゃすかったサンプノレであ つたかの情報が与えられていると、その情報を用いて、顔と非顔の境界付近をうまく 識別する弱判別器から組み込むことができ、特徴空間上の顔と非顔の境界をすばや く見つけることが可能になる。したがって、複雑な識別境界となる、多様な向きの顔の ような複雑な顔の識別ができる検出器の構築の実現には、前段の強判別機の情報が 不可欠と考えられる。
[0014] 第三の課題は、非特許文献 2において示されている多数決方式では、複数の検出 器が並列に動作するので処理負荷が大きい。また、カスケード識別器がそれぞれ独 立に訓練されるので、それらが補完的に動作しているか否かが不明である。識別器 間では情報を共有しない。多数決手法は複数の検出器の結果を結合するための最 良の手法ではない。たとえば、まったく別の識別器が訓練され、非特許文献 4に示さ れるように複数の識別器から最良の結果を出力するように構築した場合には、処理 時間はもつと早くなる。
[0015] 第四の課題は、非特許文献 2および特許文献 1において、 Violaらによって提案され ている輝度値に基づく矩形特徴が、照明環境に敏感であるということである。たとえば 、図 15は従来技術における矩形特徴の課題を説明するための図であり、矩形特徴 は図 15の斜線で示す矩形 1220と、矩形 1221との間の輝度値の差の値である。たと えば、図 15 (B)の顔画像 1202では照明影響が顔の一部に強く現れており、そのよう な画像における輝度値の差は、図 15 (D)の非顔画像 1212のそれに似た値となる。 さらに、その特徴量は矩形ブロック内の輝度情報だけを測るので、重要な配置情報を 取得しない。たとえば、図 15 (C)に示す非顔画像 1211と図 15 (A)に示す顔画像 12 01は、双方がほぼ同数の低輝度値の画素を持つので同じくらいの輝度差の値を持 つ。高低の輝度値を持つ画素の空間的分布は画像を識別する上で非常に重要であ るが、それらが特徴抽出の中で考慮されていない。非顔画像が顔画像により似通つ てくる後段の識別器では、矩形特徴が顔と非顔を分離するのにどんどん効果がなく なっていき、識別エラーを増加させる。これが、ステージ識別器における特徴量の数 を大きく増加する要因となっている。
[0016] 異なるアプローチとして、たとえば非特許文献 4に示されている、パターンにもと基 づく「modified census transform」特徴量がある力 これは局所特徴量だけを抽出する のでノイズの影響に敏感となってしまう。たとえば、図 16は、この従来の特徴量の課 題を説明するための図である。変換テンプレートは 3x3画素のブロック 1250に対して 特徴量をとる。ブロック 1250が二値ブロック 1251に示すように二値に変換されるとき 、ノイズの載った非顔画像 1231も、顔画像 1201と同じ二値ブロック値に変換される 。これは、「mod ed census transforai」特徴量では、輝度情報が完全に無視されてい る力らである。 「modified census transform」特徴量は画素を単位としているので、ブロ ックに局所化しすぎであり、大域的な特徴量を取得できていない。
[0017] 本発明は、上記の事情に鑑みてなされたものであって、高精度で、処理負荷の増 加を抑えることが可能な対象物検出装置及びその学習装置を提供することを目的と する。
課題を解決するための手段
[0018] 本発明の第 1は、対象物検出装置であって、入力された画像から、当該画像の部 分領域である画像ウィンドウを複数抽出する画像ウィンドウ抽出部と、対象物の識別 を行う識別器を有するノードがネットワーク状に接続されたノードネットワークを用いて 、前記抽出された画像ウィンドウの各々に対して、対象物の存在を検出する対象物 検出部とを備える。
[0019] この構成により、ノードネットワークを用いて画像ウィンドウを識別し、対象物の存在 を検出するので、高精度で、処理負荷の増加を抑えることが可能となる。
[0020] 本発明は、第 2に、上記第 1に記載の対象物検出装置であって、前記ノードは、複 数の識別器を有する。
[0021] 本発明は、第 3に、上記第 1又は第 2に記載の対象物検出装置であって、前記対象 物検出部は、前記ノードネットワークにおいて、少なくとも一つの経路を生成する経路 生成部と、前記生成された経路の各々について対象物の識別処理を行い、前記画 像ウィンドウが対象物を含むか否かの識別結果を出力する識別部とを有する。
[0022] 本発明は、第 4に、上記第 3に記載の対象物検出装置であって、前記対象物検出 部は、前記画像ウィンドウに対して前記ノードネットワークの中にまだ評価してレヽなレヽ 新しい経路が存在するか否かを判別し、当該判別結果に基づいて、前記経路生成 部による経路生成処理と、前記識別部による前記識別結果出力処理とを繰り返す。
[0023] 本発明は、第 5に、上記第 4に記載の対象物検出装置であって、前記経路生成処 理及び前記識別結果出力処理は、その繰返し回数が所定の回数に達するまで、又 は新たな経路が生成できなくなるまで繰り返される。
[0024] 本発明は、第 6に、上記第 3ないし第 5のいずれかに記載の対象物検出装置であつ て、前記経路生成部は、経路の数が所定の数を超えず、かつ少なくとも一つの経路 を決定する経路決定部と、新しい経路を生成するために前記ネットワーク上の各経路 を分割する機能とを有する。
[0025] 本発明は、第 7に、上記第 3ないし 6のいずれかに記載の対象物検出装置であって 、前記識別部は、前記生成された各経路での識別結果と識別エラーとを求める識別 処理を行う評価部と、前記ノードネットワークの識別結果として最も識別エラーの低い 経路での識別結果を選択する選択部と、最も低い識別エラーが所定の値より小さくな つた場合に前記評価部における識別処理を停止することを決定する停止決定部とを 有する。
[0026] 本発明は、第 8に、上記第 7に記載の対象物検出装置であって、前記評価部は、生 成された経路の各ノードについて前記画像ウィンドウの特徴量値を抽出する抽出部と 、経路に含まれる各ノードの評価値を出すために前記特徴量値を識別器に適用する 適用部と、生成された経路の累積評価値を生成するために各ノードの評価値を結合 する結合部と、生成された経路の前記識別結果を得るために、累積評価値を用いて 画像ウィンドウが対象物体を含むか否力、を識別する識別部と、生成された経路の識 別結果に対して識別エラーを推定するエラー推定部とを有する。
[0027] 本発明は、第 9に、上記第 1ないし第 8のいずれかに記載の対象物検出装置であつ て、前記各ノードの識別器による識別結果を最終結果の判定に利用するか否かは、 前記画像ウィンドウ内の特徴に合わせて変更される。
[0028] 本発明は、第 10に、上記第 1ないし 8のいずれかに記載の対象物検出装置であつ て、前記各ノードの識別器による識別結果を最終結果の判定に利用する割合は、前 記画像ウィンドウ内の特徴に合わせて変更される。
[0029] 本発明は、第 11に、上記第 10に記載の対象物検出装置であって、前記各ノードの 識別器による識別結果を最終結果の判定に利用する割合は、前記画像ウィンドウ内 の特徴と、前記識別器の学習に用いた画像の特徴との差に基づくパラメータに基づ いて決定される。
[0030] 本発明は、第 12に、上記第 1ないし 8のいずれか一項に記載の対象物検出装置で あって、前記識別器がブースティング法に基づく場合、ある識別器の結果が最終結 果の判定に寄与する割合は、前記画像ウィンドウに対して当該識別器以前の全識別 器による累積評価値と、当該識別器を学習画像に基づき構築する際に当該識別器 以前の全識別器による累積評価値のうちもっとも識別エラーが高かった累積評価値 との差に基づレ、て決定される。
[0031] 本発明は、第 13に、上記第 1ないし 8のいずれか一項に記載の対象物検出装置で あって、前記各ノードにおける識別器において、累積評価値に寄与する割合が、当 該ノードの親ノードにおける前記画像ウィンドウの累積評価値と、当該ノードの特徴量 識別器を学習画像に基づき構築する際に当該ノードの親ノードにおける累積評価値 のうちもっとも識別エラーが高かった累積評価値との差に基づいて決定される。
[0032] 本発明は、第 14に、上記第 1ないし 13のいずれかに記載の対象物検出装置であ つて、前記対象物検出部は、あるノードの親ノードが複数存在する場合に、当該ノー ドの特徴量識別器を学習する際に学習画像において当該ノードの親ノードにおける 累積評価値においてもっとも識別エラーを出した累積評価値を、親ノードにおける累 積評価値の範囲で探索する。
[0033] 本発明は、第 15に、対象物検出装置の学習装置であって、前記対象物検出装置 は、対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネ ットワークを用いて、前記ノードネットワーク構造の識別器を動的に学習するノードネ ットワーク学習部を備え、前記ノードネットワーク学習部は、前記ノードネットワークの 中に、少なくとも 1つの空ノードを生成する空ノード生成部と、前記空ノードの学習用 の複数の画像を集める学習画像収集部と、前記収集した画像で空ノードを学習する ノード学習部とを有する。 [0034] 本発明は、第 16に、上記第 15に記載の学習装置であって、前記ノードネットワーク 学習部は、新しい空のノードを作成しうるかどうか判別し、当該判別結果に基づいて 、前記空ノード生成部、前記学習画像収集部及び前記ノード学習部による処理を繰 り返す。
[0035] 本発明は、第 17に、上記第 15又は 16に記載の学習装置であって、前記空ノード 生成部は、前記ノードネットワークが空の場合に基準となるノードを生成し、ノードネッ トワークにすでに存在するノードを統合と分割することによって新しい空ノードを生成 する。
[0036] 本発明は、第 18に、上記第 15ないし 17のいずれかに記載の学習装置であって、 前記空ノード生成部は、前記学習画像収集部により集められた画像の数が不十分で ある場合に、そのノードを除去する。
[0037] 本発明は、第 19に、上記第 15ないし 18のいずれかに記載の学習装置であって、 前記学習画像収集部は、前記画像を構築中のノードネットワークの入力として与え、 画像を伝播させ、前記空ノード間で画像を共有し、各空ノードに到達する画像を収集 する。
[0038] 本発明は、第 20に、上記第 15ないし 19のいずれかに記載の学習装置であって、 前記ノード学習部には、ブースティングアルゴリズムが適用される。
[0039] 本発明は、第 21に、上記第 20に記載の学習装置であって、前記ノード学習部は、 前記ブースティングアルゴリズムにより前記収集された画像から部分集合を決定し、 当該部分集合を用いて、収集された画像に重み付けを行い、重み付けされた画像を 用いて前記空ノードの識別器を決定する。
[0040] 本発明は、第 22に、上記第 1ないし 14のいずれか一項に記載の対象物検出装置 であって、前記対象物検出部は、前記画像ウィンドウの画素の空間分布情報と画素 の強さ情報の双方を利用して検出する。
[0041] 本発明は、第 23に、上記第 22に記載の対象物検出装置であって、前記画素の空 間分布情報は、 1つ以上の画素力 構成される画素ブロックについて、複数の画素 ブロック間での、各画素ブロックの特徴量値の大小関係と画素ブロックの画像上の配 置関係とを表すものである。 [0042] 本発明は、第 24に、上記第 23に記載の対象物検出装置であって、前記画素の強 さ情報は、前記空間分布情報に対して、各画素ブロックの特徴量値の大小関係の強 さを表すものである。
[0043] 本発明は、第 25に、上記第 23又は 24に記載の対象物検出装置であって、前記画 素ブロックには、長方形のテンプレートが適用される。
発明の効果
[0044] 本発明によれば、高精度で、処理負荷の増加を抑えることが可能な対象物検出装 置及びその学習装置を提供することができる。
図面の簡単な説明
[0045] [図 1]本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図
[図 2]本発明の実施形態に係るノードネットワークを示す概念図
[図 3]本発明の実施形態に係るパス生成部の処理手順を示すフローチャート
[図 4]本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフロー チャート
[図 5]本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック図
[図 6]本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャート
[図 7]本発明の実施形態に係る空ノード生成を説明する概念図
[図 8]本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチヤ一 h
[図 9]本発明の実施形態に係るノード学習部の処理手順を示すフローチャート
[図 10]本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図
[図 11]本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す図
[図 12]本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャート
[図 13]本発明の実施形態に係る特徴抽出部における処理手順を説明するための説 明図
[図 14]本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示す図 [図 15]従来技術における矩形特徴の課題を説明するための図
[図 16]従来の特徴量の課題を説明するための図 符号の説明
201 入力部
202 出力部
210 画像ウィンドウ抽出部
390 特徴抽出部
502 pL [思 p[5
520 パス生成部
530 画像ウィンドウ検出処理部
590 ネットワーク識別器
710 空ノード生成部
720 画像サンプル収集部
730 ノード学習部
790 ネットワーク学習部
発明を実施するための最良の形態
[0047] 次に、本発明の実施形態に係る対象物検出装置について説明する。以下の説明 では、対象物として人物の顔を具体例として説明する。
[0048] ぐ検出装置の構造 >
図 1は、本発明の実施形態に係る対象物検出装置の概略構成を示すブロック図で ある。図 1に示すように、本実施形態の対象物検出装置は、入力部 201と、画像ウイ ンドウ抽出部 210と、記憶部 502と、ネットワーク識別器 590と、出力部 202とを有す る。
[0049] 画像ウィンドウ抽出部 210は、入力部 201に入力された画像から複数の画像ウィン ドウを抽出する。なお、「画像ウィンドウ」とは、入力画像内の部分領域を意味し、入力 画像からは、部分領域の位置や大きさを変えた多数のウィンドウが切り出し可能であ る。
[0050] 記憶部 502は、ノードネットワークを蓄積する。図 2は、本発明の実施形態に係るノ ードネットワークを示す概念図である。ネットワーク 100は、ネットワーク上に配置され た複数のノードを有する。 [0051] 同図に、ネットワークの基本ユニット 110を示す。基本ユニット 110は、 1つのノード' 「ノード N」 111と、多くとも M個のノードからのつながりを統合するジョイント部 117と、 多くとも N個のノードへ分割するスピリット部 118からなる。たとえば、図 2では、 M = N = 2の場合を示している。また、 M個のノードは、ノード Nの親ノードと称し、 N個のノ ードはノード Nの子ノードと称す。
[0052] 図 2の場合、ノード Nの親ノードはノード 1 12、 113であり、子ノードはノード 114, 11 5である。親ノードのないノードをルートノード(図 2では 101)と称す。入力画像 170は ルートノード 101に入力される。
[0053] 各ノード 111は複数の識別器を有しており、識別器は、特徴量識別器 h、対象物識 n 別器 H、そして識別エラー関数 Eを有する。識別器はたとえば、 Jin, R.、 Hauptmann, n n
A.、 Carbonell, 、 Si,し、 Liu, Y.、「A New Boosting Algorithm Using Input Depend ent RegularizerJ、 20th International Conference on Machine Learning (ICML'03), W ashington, DC, August 21-24, 2003 (以下、文献 Aという)に示されるように、局所的 にブースティングを用いることによって構築することが可能である。特徴量識別器は ブースティング学習法における弱判別器であってもよいし、また、対象物識別器はブ ースティング学習法における強判別器であってもよい。
[0054] 図 1の対象物検出装置の説明に戻る。ネットワーク識別器 590は、ネットワーク構造 を有する識別器であり、画像ウィンドウ抽出部 210から画像ウィンドウを取得し、記憶 部 502に蓄積されているノードネットワークを用いて、各画像ウィンドウに対象物が含 まれるか否かを識別する。
[0055] ネットワーク識別器 590は、パス生成部 520と画像ウィンドウ検出処理部 530を有す る。パス生成部 520は、記憶部 502に蓄積されているノードネットワークの情報を読み 込み、少なくとも 1つ以上のパス(経路)を生成する。パスは、画像ウィンドウを処理す るために選ばれたノードの列である。
[0056] 画像ウィンドウ検出処理部 530は、画像ウィンドウ取得部 210から画像ウィンドウを 取得し、パス生成部 520によって生成されたパスにより、画像ウィンドウを処理する。 なお、各パスにおいて、上述した各ノードにおいて識別器 (特徴量識別器 h、対象物 n 識別器 H、識別エラー関数 E )による演算を行い、画像ウィンドウが対象物を含むか
11 11 否力を示す識別結果が生成される。出力する識別結果として、最も識別エラーの低 い識別結果を選択し、出力部 202に蓄積する。
[0057] 続いて、画像ウィンドウ検出処理部 590は新しいパスを生成するよう、パス生成部 5 20に指示し、それ以上新しいパスが生成されなくなるまで、または所定の回数に達 するまで上記識別処理を繰り返す。
[0058] 図 3は、本発明の実施形態に係るパス生成部の処理手順を示すフローチャートで ある。まず、パス生成部 520は、ネットワーク内に生成されているパスがあるか否かを 判定する(ステップ 621)。パスがない場合、ルートノードのみを含むパスが生成され( ステップ 622)、パス生成処理を終了する。
[0059] パスが存在した場合、ネットワーク内に生成されているパスの数があらかじめ設定し た K個よりも大きいか否かを判定する(ステップ 623)。 Kの値はたとえば、 1、 2、 3など が設定される。パス数力 を超えている場合、パス数が多くとも K個となるように識別 エラーが高いパスを終了させる(ステップ 624)。ここで、画像ウィンドウ検出処理部 53 0において既に求められたものにより判定する。また、「パスを終了する」とは、あるパ スにつレ、て、入力画像に対してそれ以上処理しなレ、場合をレ、う。
[0060] それぞれの現在のパスを分割することによって、より多くのパスを生成する(ステップ 625)。たとえば、あるパスが {node、 node、 node }を含む場合について考える。こ
0 a b
のとき、たとえば nodeの子ノードとして、 node と、 node 力生成され、新しレヽ
b b.childl b,c ild2
ノヽス、 {node、 node、 node、 node rと {node、 node、 node、 noae r力
0 a b b.childl 0 a b b,c ild2 生成される。
[0061] 図 4は、本発明の実施形態に係る画像ウィンドウ検出処理部の処理手順を示すフロ 一チャートである。
[0062] 各生成されたパスに対し、画像ウィンドウ検出処理部 530は画像ウィンドウが対象物 を含むか否かを示す識別結果を評価する。識別結果はたとえば上記文献 Aのように 局所的なブースティングから得てもよい。出力の識別結果は、生成されたパスのすべ ての識別結果から選択される。
[0063] 図 4のフローチャートの各ステップについて説明する。まず、画像ウィンドウ検出処 理部 530は、生成されたパスの各ノードに対して、入力の画像ウィンドウから特徴量を 抽出する(ステップ 631)。入力画像ウィンドウを Xとし、ノード Nについて抽出された 特徴量を f (X)とする。なお、特徴抽出は、例えば図 10に示す特徴抽出部 390によ n
つて処理されるものであり、詳細は後述する。
[0064] 次に、抽出した特徴量 f (X)を識別器に与え、生成されたパスのノードに対するスコ n
ァ h (X)を求める(ステップ 632)。スコア h (X)は、特徴量識別器 hから求められ、次 n n n
の式(1)に基づいて計算される。
[0065] [数 1]
/2„( )=Prob (7 = +1| fn{x))- Prob (Y = -l\ fn(x)) · . · ( l )
[0066] 上記式(1)の Prob(k)は、イベント kが発生する確率を示す。丫= +1ぉょび丫=ー 1は、それぞれ入力画像が対象物を含む場合、および含まない場合を意味している
[0067] 次に、各ノードのスコアが生成されたパスに対する累積スコア S (X)を評価するた
n
めに結合する(ステップ 633)。累積スコア S (X)は、次式(2)で求めてもよい。
n
[0068] [数 2]
^n(^)=^ , parent ノ +exP (― ^ n, parent (^) ~ η )* }
…(2) 但し、 s0yPare {x)= , «0=0
[0069] 正則化関数 exp (― | S (X) _ひ I )は、特徴量識別器 h (X)による効果を入
Π, arent n n
力画像に応じて局所化するものであり、入力画像 Xに対して S (X)が正則化パラ
n, parent
メータひ に十分に近い値をとる場合にのみ累積スコア S (X)に加算する。従って、あ n n
る場合には、 exp(_ I S (Χ)-α | )はほぼ 0となり、新しい値 S (X)は古い値
n, parent n n
S (X)と相対的にほぼ変わりない値になることもある。
n, arent
[0070] 次に、各パスの累積スコア S (X)と識別結果 H (X)により、画像ウィンドウが対象物
n n
を含むか否力を判定する(ステップ 634)。ここで、識別結果 H (X)は、対象物識別器
n
Hから求めてもよぐ次式(3)で求めてもよい。
n
[0071] [数 3] ί+ 1 if Prob (7 = +11 Sn (x)) > Prob (Y = -l\Sn{x))
Figure imgf000017_0001
…(3)
1 otherwise
[0072] H (X) = +1は、画像ウィンドウが対象物を含むとする判別結果であり、 H (X) =—
1は、対象物を含まないとの判別結果を意味する。
[0073] 次に、パスの識別結果に対する識別エラー E (X)を推定する(ステップ 635)。識別 エラーは、エラー関数 E (誤差関数)から求めることができ、また次式 (4)で求めても よい。
[0074] [数 4] „( )=?1"。1)(//„( )≠ | ( 》
= Prob(Hn{x)≠Y\Sn , parent ( ), ))
[0075] また、計算に力かる処理負荷を低減するために、関数 hは、次式(5)のようにルック アップテーブルとして実装してもよレ、。関数 E、 Hおよび Sもまた、次式(6)のように
n n n
二次元のルックアップテーブルとして実装してもよい。
[0076] [数 5]
/j„( ) = LookUpTable (/"( 》 … (5)
[0077] [数 6]
Figure imgf000017_0002
hn{x)) .. · (6)
[0078] 画像ウィンドウ検出処理部 530は、上記ステップ 631〜635を繰り返し、各パスの識 別結果および識別エラー (誤差関数)を求める (ステップ 636)。そして、求められたパ スの識別結果の中から、最も低レ、識別エラー値の識別結果を出力結果として選択す る(ステップ 637)。
[0079] そして、出力結果の識別エラーがあらかじめ定めてレ、る値よりも小さい場合、識別 処理を終了する(ステップ 638)。なお、出力結果の識別エラーがあら力じめ定めてい る値よりも小さくない場合には、パス生成部 520へ新たなパスの生成を指示し、パス 生成部 520はパスを生成する。
[0080] 出力部 202は、このようにしてネットワーク識別器 590の画像ウィンドウ検出処理部 5 30が対象物を含んでいると識別した画像ウィンドウの位置 (たとえば、入力画像上に おける座標値)と大きさ等の情報を出力する。
[0081] このようにして、パス生成部 520によって、ネットワークが統合と分割を行うので、多 数のパスを構築することが可能である。また、各パスは識別結果を評価する際に使用 され、ネットワークは多数の検出器のプールとなっている。検出器群となっていること で 1つの識別器よりもより信頼できる出力結果を出すことが可能である。
[0082] さらに、高速な識別プロセスを保障するために、パス数は Kで制限されている。最良 な識別結果を保証するために、パスは動的に生成され、高い識別エラーを持つパス は識別処理の間に終了させられる。従って、入力に対して低い識別エラーを持つパ スのみが使用される。
[0083] したがって、従来の並列では、並列検出器は静的で、識別処理の間に変更可能で ないのに対して、本実施形態の対象物検出装置では、利用する検出器を動的に変 化させ、不要な処理を抑えることができる。
[0084] また、画像ウィンドウ検出処理部 530において、ブースティングアルゴリズムの利用 により、新たに生成したパスでの識別エラーは、古いパスのものより統計的に小さくな ること力 呆障されている。さらに、上記式(2)は、ブースティングを局所的に行い、識 別器 h (X)が入力画像の部分集合にのみに作用することを保障する。
n
[0085] また、十分に識別エラーが低くなつた処理を中止させる本手法により、識別処理の 高速化を実現している。これは、対象物を含んでいようがいまいが、判別しやすい入 力画像を早期に識別することが可能であり、その判別に必要なノードの数を少なく抑 えることができてレ、るからである。
[0086] また、本手法は、対象物を含んでいないと識別できた入力画像ウィンドウのみを早 期に認識し、その後は決まった数の識別器で処理する従来のカスケード構造型よりも 、より効率的である。
[0087] ぐ対象物検出の学習方法と装置 >
図 5は、本発明の実施形態に係る対象物検出学習装置の概略構成を示すブロック 図である。図 1に示す対象物検出装置と重複する部分については、同一の符号を付 す。図 5に示すように、入力部 701と、ネットワーク学習部 790と、記憶部 502とを有す る。この対象物検出学習装置は、判定結果の情報 (対象物の有無)を伴った複数の 画像サンプルを与え、対象物検出装置において用いられるノードネットワークのノー ドの識別器を学習させて構築するものである。なお、 目的の対象物を含む画像サン プルをポジティブサンプルといい、 目的の対象物を含まない画像サンプルをネガティ ブサンプノレという。
[0088] 複数の画像サンプル 701が与えられると、ネットワーク学習部 790は、複数の画像 サンプノレを識別するよう学習されたノードネットワークを決定する。ここで決定したノー ドネットワークは記憶部 502にたくわえられ、ネットワーク識別器ブロック 590で画像ゥ インドウが対象物のインスタンスを持っているかどうかを識別プロセスにて識別するの に用いられる。
[0089] 図 7に示すように、ネットワーク学習部 790は、空ノード生成部 710、画像サンプル 収集部 720、ノード学習部 730を有する。なお、空ノードとは、識別器が決定されてい ないノードをいい、学習済みのノードとは、識別器を決定済みのノードをいう。ネットヮ ークのノードの識別器を決定するのにはたとえば上記文献 Aに記載の局所的ブース ティングアルゴリズムを用いてもょレ、。
[0090] まず、空ノード生成部 710は、記憶部 502に保存された現在のノードネットワークを 読み取り、学習のための空ノードを生成する。そして、空ノード生成部 710は、画像サ ンプル収集部 720を用いて、複数の入力画像サンプル 701から所定の数の画像サ ンプルを収集する。もし、収集した画像サンプノレの数が所定の数よりも少なければ学 習できないので空ノードを削除する。
[0091] 次に、ノード学習部 730は、画像サンプノレ収集部 720から収集された画像サンプル を用いて生成された各々の空ノードに対応する識別器を最終的に決定する。ノード ネットワークは、記憶部 502に学習済みのノードを保存することで更新される。
[0092] これらの学習プロセスを、空ノード生成部 710によって空ノードが生成されなくなる まで繰り返す。
[0093] 図 6は、本発明の実施形態に係る空ノード生成部の処理手順を示すフローチャート である。ステップ 811では、ノードネットワークが空かどうか判定する。ノードが存在し ない場合に、ネットワークは空であるという。ネットワークが空であれば、空のルートノ ード (node )を生成することでネットワークを開始する(ステップ 812)。
0
[0094] 一方、ネットワークが空でない場合、すなわち少なくとも一つのノードが存在する場 合、 N個以下の子ノードとなるように、新規の空ノードをノードの結合と分割によって 生成する(ステップ 813)。ここで、この空ノードの生成プロセスについて説明する。
[0095] 図 7は、本発明の実施形態に係る空ノード生成を説明する概念図である。現在のノ ードネットワーク 901から、近接する空ノードが共通の親を共有するように空のノード 9 50、 951、 952、 953を、ノード 960、 961、 962、 963を分害 ijすることで形成する。た とえば、ノード 950及びノードは 1つの共通の親ノードを持っている。
[0096] 図 6に戻り、空ノード生成の手順を説明する。ステップ 814では、画像サンプル収集 部 720にそれぞれの空ノードに所定数 T個(たとえば、 10000個)の画像サンプル群 を収集する。
[0097] ステップ 815では、収集画像サンプルが不十分な空ノードを取り除く。たとえば、画 像サンプノレ数カ よりも少ないときである。
[0098] 図 8は、本発明の実施形態に係る画像サンプル収集部の処理手順を示すフローチ ヤートである。
[0099] ステップ 821では、記憶部 502で保存されているノードネットワークの識別で使われ るパスを使って入力画像サンプノレ群 701が伝達する。たとえば、ステップ S821にお いて、画像サンプノレ収集部 720は、ネットワーク識別器 590と同様の処理を行い、対 象物の検出時と同じ動作で 1つの画像サンプノレを識別する経路を 1つ以上生成する 。画像サンプルのコピーが生成され、生成された経路の上を通ってネットワークを伝 播し、経路の終端のノードに到達する。その際に、ネットワークには多重に生成した 経路が存在しうるから、画像サンプルのコピーは同一のノードに多重に到達すること がありうる。
[0100] なお、画像サンプル収集部 720の動作は、ネットワーク識別器 590の対象物検出 時と同じ動作である。したがって、あるノードで画像識別の識別エラーが十分小さくな つていれば、その画像に対するパスは、そこで終点となるし、パスの数は一定数以下 に制限される点も同じである。
[0101] ステップ 822では、親ノードに到達した画像サンプノレ群は、その空の子ノードに共 有される。 (たとえば、子ノードに対する親ノードが複数あれば、子ノードはそれぞれ の親ノードの画像サンプル群の合併集合を画像サンプルとする。親ノードに対して子 ノードが複数あれば、それぞれの子ノードは共通の親ノードから同じ画像サンプノレ群 を引き継ぐ)。つまり、ステップ 821で親ノードに到達した画像は、コピーがそれぞれ の子ノードに生成される。
[0102] ポジティブサンプルを(X、 Y= + 1)、ネガティブサンプルは(Χ、 Y= - l)として表 記する。 1つの空のノード ηについて、親ノードでの画像サンプルの累積スコア S
n, parent
(X)を、式(2)を用いて決定する。空ノードでの画像サンプル群は、(X, Y, S (
n, parent
X) )として表記する。
[0103] そして、ステップ 823において、それぞれの空のノードに到達する画像サンプルを 最大 T個になるまで集める。たとえば、 T/2個のポジティブサンプルと T/2個のネガ ティブサンプルとを、その空ノードに到着した全ての画像サンプルからランダムに選 択する。
[0104] 図 9は、本発明の実施形態に係るノード学習部の処理手順を示すフローチャートで ある。
[0105] ノード学習部 730では、空ノード nの学習のために収集された画像サンプル群を用 いて、その中から親ノードで識別エラーが大きくなるよう部分集合を決定する。次に、 その部分集合での学習に焦点を合わせて局在化し特化した識別器を生成するように 、重み関数を決定する。その働きを、順をおつて説明する。
[0106] ステップ 831では、ノードの識別器を特化するための画像サンプルの部分集合を、 累積スコアを考えるときの重みを画像サンプノレに応じて変更することによって決定し ている。その画像サンプルの部分集合は、親ノードでもっとも高い識別エラーを与え る部分集合である。その手順は以下のとおりである。
[0107] まず、画像サンプル収集部 720から収集された画像サンプル群を (X, Y, S (
η, parent
X) )とする。次に、画像サンプル群に対する現行の識別エラー E (X)を、式 (4)
n, parent
によって決定する。この識別エラー E (X)を用い式(7)で、正則化パラメータひ
n, parent n の値を決定する。
[0108] 式(7)では、 α に近い親の累積スコア S (X)をもつ画像サンプノレ群が最大の
n n,parent
識別エラー E (X)を親ノードで持つように α とひ との間に値 α を選ん
n, arent n,parentl n,parent2 n でいる。つまり、前段でうまく識別できなかった画像を集中的に学習するための選択 を行っていることになる。それゆえ、親ノードで識別エラーが最大になるように選んだ 画像サンプルの部分集合に対し、ノード nの識別器が識別エラーを減らすよう学習す ると期待できる。
[0109] 正則化関数 exp (― I S 00 - a
Π, arent I )を用レ、、 α を次式(7)で決定する。この
n
正則化関数、累積スコアはいずれも、対象物検出装置におけるものと同じである。
[0110] [数 7] argmax ^n, parent \ ) * exP ~ ^n, parent \^) ~ a\
…(7〉
[0111] すなわち、 ひ く ひく ひ となるひにおいて、親ノードにおける識別エラー
Π, parent 1 n,parent2
と正則化関数との積の、収集された全ての画像サンプノレについての総和が最大とな るひを、 ひ とする。なお、親ノードが 3つ以上の場合には、 ひの選択範囲は、 min (ひ
n
) < aく max (ひ )となる。また、このとき、親ノードがひとつだけのときには、
Π, arent n, parent
次の式 (8)に示す値を用いる。
[0112] 園 apparent 1 = ~°° nodQn,parent 1がない時
…(8 )
n, parent 2 = +noden,parent 2がな ヽ時
[0113] このように、ステップ 831によって、識別器を特化させるための画像サンプノレの部分 集合を、親ノードでの識別エラーを最大とする画像サンプルの集合として決定する。
[0114] 次に、ステップ 831で決定した部分集合を用いて、ステップ 832では、全ての収集 画像サンプノレに対して重みを決定する。重みをつけた学習サンプル群を (X, Y, w ( X))と表記する。ここで重み関数 w(X)は、次の式(9)で数学的に表現される c
[0115] [数 9] wA = expi- n, parent -a n '■ exp - * paent 漏 … ( 9 )
[0116] 二で W は w(X)を分布とするときの規格化定数である。この式で、 S (X)
n,parent
- a I 0となる状況で重みが大きぐ | S (Χ) - α Iが大となる状況で重み関
n,parent
数は小さい。
[0117] さらに、ステップ 833では、ノード nの各種識別器を、重みつき画像サンプル群を用 いて決定する。決定する識別器は、それぞれ式(1)、(3)、(4)に示す特徴識別器 h
n
、対象物識別器 H、識別エラー関数 Eである。ここで、特徴量には、たとえば上記文
11 11
献 Aに示すブースティングアルゴリズムで見つけられる特徴量から最良の識別を与え る特徴量を 1つ選びだして用いる。
[0118] また、特徴識別器 hは、次式 10で決定してよい。
n
[0119] [数 10] hn{x) = Pw{Y = +l\fn
(10)
w+ -∑W- 2 + + 2>—
[0120] この式で、 P (j)は分布 wのときにイベント jが起こる重みつき確率を示す。 f (X)は w n 最良の選択をした(=最もよい識別結果を与える)特徴量を用いて画像サンプル Xに 対して抽出した特徴量、たとえば図 10の特徴抽出部 390 (後述)を用いて抽出した 特徴量である。 ∑w、 ∑wはそれぞれ特徴量 f (X)をもつポジティブサンプル、ネガ
n
ティブサンプルの重みの総和である。
[0121] 正則化パラメータひ と特徴識別器 h (X)の値とを用いて、累積スコア S (X)は式(2 n n n
)によって決定される。その結果、条件付き確率は次式(11)、(12)で決定される。
[0122] [数 11]
C
Prob (7 = +11 Sn +
l)
c+ + c_ [0123] [数 12]
Prob (7 = -1 1 · · · ( l 2 )
i
Figure imgf000024_0001
[0124] ここで C、 Cはそれぞれ、累積スコア S (X)をもつポジティブサンプルとネガティブ
+ - n
サンプノレのカウント (個数)である。条件付き確率を用いて、対象物識別器 Hは式(3
n
)で決定される。
[0125] さらに、対象物識別器の識別エラー E (X)は、次の式(13)で表される。
n
[0126] [数 13]
En(x)= min { Prob (Y = +l \ Sn (x)\ Prob (7 = -11 Sn(x)) } …( l 3 )
[0127] ここで、 min{ a, b}は a及び bの最小値を示す。このようにして、各ノードに対する特 徴識別器 h、対象物識別器 H、識別エラー関数 Eを決定する。以上の一連の手続
n n n
きによってノード学習プロセスが完了する。
[0128] このように、本発明の実施形態のネットワーク学習部 790では、以下の利点を持つ
[0129] まず、空ノード生成部 710により、複数の経路の識別結果を用いて対象物の判定 ができるので、カスケード構造の先行技術に比べて効果的な判定ができるとレ、う利点 を持つ。
[0130] 本実施形態では、ノードの統合と分割を用いているので、接続パスを経由して下層 の 1つのノードにつながつている上層のノードは 1つ以上ある。それぞれのノードの特 徴識別器には、ブースティングアルゴリズムで学習した特徴識別器を用レ、、それらの 識別器の結果は、下層の 1つ以上の識別器に伝えられるので、下層の識別器では、 それらの複数の経路の識別器の情報をあわせて対象物の判定を行うことができる。
[0131] このことと、複数の経路の識別器の情報をあわせて判定を行えること力 1つのステ ージの中にある弱識別器は別のステージにある弱識別器の情報をもたなレ、カスケ一 ド構造の先行技術に対する利点である。一方、先行技術においては弱識別器の情 報は、同じステージにある次の弱識別器に伝わるにすぎない。この利点は、後述の第 三の特長に対応する。 [0132] さらに、空ノード生成部 710は、学習の視点でも次のような利点を持っている。先行 技術におけるカスケード構造の対象物検出器においては、あるステージの中にある 弱判別器は別のステージにある弱判別器の情報を利用することはない。これに対し、 本実施形態の装置では、上記、空ノード生成フローにより、複数のステージ識別器内 に属する複数の弱判別器の情報を利用して空ノードを学習させることを可能にしてい る。
[0133] しかも、本方式ではノードの統合と分割を用いているので、ルートノードから新たに 生成する空ノードまでのパスがあり、これらのルートノードから空ノードまでのそれぞれ のパスは、ステージ識別器に相当している。上層の各ノードはブースティングアルゴリ ズムで学習した特徴量識別器であり、複数のステージ識別器に属する特徴量識別器 の結果を利用して、空ノードを学習できる構造を実現している。
[0134] 従来例として知られる多数決方式においても、並列に動作する複数の検出器にお いて判定を用いている力 本発明の形態においては、次の利点を持つ。
[0135] まず、ノードネットワークに対して制限した数のパスを生成しているので、多数決方 式に比べ、パスの数ほどに計算量が増大しなレ、。しかも、ノードネットワークに対して 複数の空ノードを生成し学習をする基準が明確になっているので、複数のパスによる 学習が効果的に行われ、従来例の多数決方式においてはそれぞれのカスケード識 別器が補完的に動作しているかどうか不明であるという課題、第三の課題を克服して いる。このように、従来よりも効率的なアンサンブル学習を実現している
[0136] 次に、画像サンプノレ収集部により、次に示す利点が得られる。第 1に、本発明の実 施形態では、画像サンプル群が複数の空ノードで共有されているので、 1枚の学習 画像により 1つ以上の経路のノードを同時に学習可能にしている。
[0137] そのため、 1つの画像サンプルを 1つの識別器で識別するのにくらべ、同一の空ノ ードのいたる複数の経路で構成され複数の経路からの識別結果を利用するネットヮ ーク識別器によって効果的に識別できる。この利点は、後述の第二の特長に対応す る。これは、画像サンプル収集部が、画像サンプノレ群を複数の空ノードで共有させる 仕組みにより可能になっている。
[0138] 第 2に、本発明の実施の形態では、識別器の段数を増やしていっても、学習データ が過度に細分化(over-fragmentation)されることがなぐ後段の識別器においても安 定な学習を可能にしている。
[0139] 従来の手法においては、識別器の段数を増やしていくと、その識別器に到達する 学習サンプノレ数が少なくなつていき (過度の断片化を生じ)、学習結果が学習サンプ ルに対する依存性 (過学習)を強く示すようになってしまう欠点があった。本手法にお いては、多重経路での判定を可能にするように、ノードの統合と分割を行って画像を 共有しているので、学習の優先領域に重なりがあり、学習サンプルが過度に断片化さ れることもなく、学習結果が過学習を示しにくいので、安定した学習となっているという 利点がある。
[0140] 一般に、 自由度を高めた学習を行うと、本来のデータの統計的な特徴を再現する のではなぐ学習に用いたデータセットに対して過度に依存性を持つ傾向がある。そ のようなモデルのよしあしを判定する指標としてはたとえば AIC (赤池の情報量基準: Akaike's Information Criteria)が失ロられている。
[0141] 多変量解析では AICが最小になる自由度のモデルを採用することで、学習に用い たデータセットに対して過度に依存性をもつことを防いでいる。同様に、本発明のネ ットワーク型の識別器においても、いたずらに自由度を高めることは、本来のモデル のよしあしには関係なぐ学習に用いたデータセットに対してだけは良好な学習結果 になる力もしれないという潜在的な危険を含んでいる。し力しながら、本実施形態の 手法においては、ノードの統合も行っていることで学習サンプノレを細分化しすぎない 、空ノードに規定の数の画像が集まらない場合には、学習を実施しない、複数のパス の識別器を用いて判定を行っている、といった制限が加えられており、いたずらに自 由度が高くなる危険を防いでいるため、本手法においては、学習結果が過学習を示 しにくい。
[0142] さらに、本実施形態のノード学習部 730により、以下に示す利点が得られる。
[0143] 第 1に、ノード学習部 730は、親ノードで識別できなかった画像サンプノレの部分集 合に対して特化した識別器を作り上げる。これは、ノード学習部は、式(9)の重み関 数を用いて、(特徴識別器 hを式(10)にしたがって学習させているので)、親の識別 器で大きな識別エラーを生じる画像サンプノレ群に対して大きな重みを与えるようにな つている。
[0144] 第 2に、ノード学習部は、影響が局在化した識別器 hを作り上げる。すなわち、親の
n
ノードで大きな識別エラーを生じるときにおいてのみ、このノードによる累積スコアへ の寄与があるものになっている。実際、親の識別器での大きな識別エラーを生じる場 合には、式(2)で | S (X)—ひ
n Iが小さな値となっているので、累積スコアへの n,parent
exp (- I S (X)—ひ I ) * h (X)の項が大きくなり、このノードでの識別器 h (X
n, arent n n n
)の値が累積スコアに十分に反映される。
[0145] 逆に、親識別器で大きな識別エラーを生じなレ、場合には、式(2)で | S (X) _
n, parent a Iの値が大きくなるので、 exp (— I S (X) _ ひ | ) * h (X)の項が小さくなり n n, parent n n
、このノードでの識別器 h (X)の値が累積スコアにほとんど影響しない。
n
[0146] このため、累積スコアへの影響は、親ノードでの識別エラーが大きい場合に限定さ れたものになる。それは、影響が局在化した識別器と言い換えることができる。
[0147] このように、 1つのパスの各ノードの識別器では、それぞれの識別器が高い寄与で 累積スコアに効いてくる入力画像が異なるため、個々の識別器にはその他の全ての 識別器の動作に影響を与えずに優先的に動作する優先領域がある。
[0148] 一方、従来例としてあげるカスケード構造の識別器では、第一の課題に示したよう に、弱判別器が全入力空間に対して処理を行う線形識別器であり、全ての弱識別器 は、全ての顔画像を顔として識別しなければならない。それに対して、本発明の実施 形態のノードの識別器にぉレ、ては、前段のノードの識別器が誤識別を起こしやすレヽ 画像集合についてだけ、顔と非顔を識別するものである。そのため、ノードの識別器 が動作する入力画像空間は限定的なものであり、このノードの識別器での顔/非顔 の識別は、カスケード構造の識別器の場合よりもはるかに簡単な構成で実現できる。 これは、後述の第一の特長に対応する。
[0149] このように本発明の実施形態では、各ノードの識別器が、優先的に動作する入力画 像の優先的な空間があるので、 1つの識別器の動作が他の識別器の動作に影響を 与えることはほとんどない。これは、先行技術においては、弱識別器は全入力空間に 対して動作しその他の弱分類器動作に影響を与えうるという課題を力かえているのと 比較し、大きな利点となっている。 [0150] <特徴抽出 >
図 10は、本発明の実施形態に係る特徴抽出部の概略構成を示すブロック図である
。この特徴抽出部は、例えば、図 1に示す画像ウィンドウ検出処理部 530や、図 7に 示すノード学習部 730にて用いられる。
[0151] 図 10に示すように、特徴抽出部 390は、入力部 501に入力された画像ウィンドウか ら特徴量 309を抽出する。この特徴量 309は画像ウィンドウが対象物を含むかどうか の識別に用いられる。
[0152] たとえば、画像ウィンドウ検出処理部 530によって実行される図 4に記載のステップ
631は、特徴抽出部 390により実行される。
[0153] 図 11は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの一例を示す 図である。与えられた画像ウィンドウ 1001に対して、矩形テンプレートは L個の同じ大 きさの長方形等の矩形ブロックを画像ウィンドウ 1001の内部に含む。 Lは、例えば 2 力 9の間の任意の値をとつてよレ、。個々の矩形ブロックは、右上の座標と幅 wと高さ hとで特定できる。
[0154] たとえば、図 11 (A)に示す矩形テンプレート 1010、図 11 (B)に示す矩形テンプレ ート 1020、図 11 (C)に示す矩形テンプレート 1030は、それぞれ 6、 9、 7個の矩形ブ ロックを含んでいる。
[0155] 図 12は、本発明の実施形態に係る特徴抽出部の処理手順を示すフローチャートで ある。また、図 13は、本発明の実施形態に係る特徴抽出部における処理手順を説明 するための説明図である。
[0156] ステップ 491では、画像ウィンドウ Xに、画像ウィンドウ中の矩形ブロックを定義する 矩形テンプレート fを適用する。
[0157] ステップ 492では、画像ウィンドウから空間的分布情報を測定する。空間的分布情 報は、パターンのどの矩形ブロックが他よりも高い輝度値を持つのかを示すパターン
1110として示される。
[0158] パターン 1110を矩形ブロックの輝度値比較によって計算する。全ての矩形ブロック の平均輝度値がまず計算され、これを参照輝度値とする。次に、個々の矩形ブロック の平均輝度値を計算する。矩形ブロックの平均輝度値が参照輝度値よりも小さけれ ば 1、大きければ 0と矩形ブロックはラベルする。これら強度は、積分画像を使うことで すばやく効率的に計算できる。この矩形ブロックのラベルを集めることで、パターン 11 10が得られる。
[0159] 例として、図 13において、矩形テンプレート 1010を用いる。入力顔画像 1105に対 し、特徴抽出部 390は、 pattern= 101000というパターン 1151を生成する。別の非 顔画像 1106に対しては、特徴抽出部 390は pattern = 011000とレ、うパターン 1161 を生成する。
[0160] ステップ 493では、空間輝度値情報を画像ウィンドウから計測する。この空間輝度 値情報を強さ(strength)とし、異なるブロック間でどれがどのくらい強度差があるのか を示す。
[0161] 強さ 1120は、 1とラベルされた全ての矩形ブロックの平均輝度値から 0とラベルされ た全ての矩形ブロックの平均輝度値を差し引くことで計算される。
[0162] たとえば、図 13において、入力顔画像 1105に対して、特徴抽出部 390は、 strengt h= 35という強さ 1152を生成する。別の非顔画像 1106に対しては、特徴抽出部 39
0は、 strength= 37とレヽぅ強さ 1152を生成する。
[0163] 特徴抽出部 390の抽出する特徴 f (X)は、 2次元量であり、次の式(14)ように表現 できる。
[0164] [数 14] バ ) = (パターン,強さ) …(1 4 )
[0165] 抽出された特徴量は、特徴量の識別能力を改善するためにパターンと強度の 2つ の属性を使う。多くの場合、空間的分布情報と輝度値情報の両方が画像を区別する のに必要である。
[0166] 例をあげれば、図 13において、入力の顔画像 1 105と非顔画像 1106は似た強さで ある。強さ情報に基づく先行技術は両者を区別することができない。し力 ながら、顔 画像 1105と非顔画像 1 106とは異なるパターン値をしているので、パターン値で区 別できる。
[0167] 図 14は、本発明の実施形態に係る特徴抽出用の矩形テンプレートの他の例を示 す図である。画像ウィンドウ 1101が与えられたとき、矩形テンプレートは L個の矩形ブ ロックをウィンドウ 1101の内部に含む。
[0168] 図 14 (A)に示す矩形ブロック 1091のように、矩形ブロックはそれぞれ大きさが異な つてもよい。また、図 14 (B)、(C)に示す矩形ブロック 1092、 1093のように、矩形ブ ロックは交わらなかったり、隣接していなくてもよレ、。さらに、図 14 (D)、図 14 (E)に示 す矩形ブロック 1094のように、完全に又は部分的にオーバーラップしていてもよい。
[0169] このような本発明の実施形態の対象物検出装置及びその学習装置によれば、下記 の構成を有するものである。
[0170] まず、前記対象物検出方式において、前記ノードはブースティング学習法によって 訓練された複数の識別器を備える。ネットワーク学習プロセスは、多数の画像サンプ ルを入力として、それらの画像サンプノレ群をいくつかの集合に分割し、それぞれの画 像集合をもとに識別器を訓練する。ノードに配置する識別器を決定するために、まず 、前記構造 (building)は識別プロセスにおレ、てノードに到達する訓練サンプノレを収集 する。次に、最も識別エラーが高ぐ学習サンプルが多く存在する領域を決定する。 そして、弱判別器がその制限された領域で識別をおこなう。弱判別器は全入力空間 に均等に影響を与えるものではない。新たに追加される各弱判別器は特徴づけされ
、決定された領域の中で前の弱判別器の結果の改良のみを行う。このようにして構築 した本発明の実施形態のネットワーク識別器においては、各パスの識別器が識別す るのはそのパスを伝播した画像からなる入力画像の部分空間であり、部分空間での 顔/非顔の判定は全入力画像空間での判定よりも分離が容易となり、従来例の後段 の強判別器のように多数の弱判別器を必要としないとレ、効果を生じてレ、る。これによ り、第一の課題を解決することができる。
[0171] また、本発明の実施形態のノードネットワークでは、(1)各ノードが自ノードに到達 するまでに処理したノードの累積評価値をもとに顔'非顔を判別する強判別器を備え ること、 (2)学習時に、各ノードの識別器を、そのノードに到達する学習サンプルと前 段ノードにおける累積評価値の結果に基づいて学習させる。すなわち、本方式により 、各ノードはそれまでの経路上に存在するノードから成る強判別器として機能し、対 象物の有無の決定に十分でなレ、場合に、その判別結果に応じて学習されてレ、る次 の子ノードで処理が続ぐという構造をとる。したがって、常にそれまでの識別結果が 有効に利用されるため、識別処理が高速に、最適に実現できる。また、第一の解決 手段により、各ノードが入力空間の部分領域に特化する判別器が選択されている一 方で、本ノードネットワークの特徴的な構造の一つであるノードの統合 (親ノードを複 数持つ子ノードの存在)では、全親ノードのサンプノレを引継ぎ、親ノードの識別対象 領域を統合した部分領域で最適な判別器を学習するこの統合構造により、入力空間 を多様な部分領域について識別処理を行うことが可能である。これにより、入力空間 上のある 1点の画像は、複数のノードの弱判別器によって処理され、それらの結果の 累積値での判別を実現する。これにより、第二の課題を解決することができる。
[0172] また、画像からの対象物検出装置において、前記識別プロセスでは、入力データを ネットワーク上の複数のパスで処理させることが可能である。パスとは、入力データを 処理し、識別するのに使用されるノードの経路である。パス上の各ノードの識別器は 、入力画像に対する識別を行う弱判別器だけではなぐ前段までのノードの弱判別器 の識別結果を累積する識別器をも含んでいる。そのため、パス上の各ノードの弱判 別器からの累積スコアを用いることによって、強判別器または識別器による識別結果 が得られる。また、識別処理の間に、現在のパスから複数のパスをさらに生成する。 不必要なパスが多くなるのを防ぐため、最も高い識別エラーを持つパスは終了させる 。ノードは分割されたり統合されたりするので、ネットワークを、共通の弱判別器を共 有する複数の異なる強判別器の結合とみなすことができる。複数のパス上のノードを 用いて強識別器を作ることは、協調的に動作するように訓練された並列な強判別器 を動かしているのと同等である。パスの識別結果のうち、識別エラー値が最良のもの を出力結果として選択する。このようにして、複数のカスケード識別器力 なる検出装 置(=多数決方式のカスケード識別器)と同等以上な識別能力を持ちつつ、それぞ れのパスが協調的に動作し、しかも多数決方式よりも計算量の少ない識別器を達成 できる。これにより、第三の課題を解決することができる。
[0173] 画像からの対象物検出装置において、本実施形態の特徴量抽出手法は、入力の 画像ウィンドウに対して空間的分布情報と輝度値情報の両方を測るものである。まず 、特徴テンプレートにおいて、画像ウィンドウにおける対象領域を決定する。まず、 " パターン (pattern) "と表記する属性として、領域が他の領域よりも輝度値が高いか低 レ、かをあらわす値を計算する。この属性は、輝度値の高低の空間的分布を表す。続 いて、〃強さ(strength) "と表記する一つの属性は、画像ウィンドウの輝度値の高低の 大きさの差を表現する値が計算される。すなわち、本実施形態で提案する特徴選択 手法は画像から有益な情報を得るために 2つの属性値を使用する。これにより、第四 の課題を解決することができる。
[0174] そして、本発明の実施形態に係る対象物検出装置及びその学習装置は、以下の 特長を含む。第一の特長は、入力画像の部分空間で識別を行うよう、識別器の局所 化を行っている点である。ネットワーク構造を導入することによって、弱判別器が入力 空間全体を識別するよう訓練されている従来手法とは異なり、本実施形態は入力空 間の部分領域に対して処理する弱判別器を訓練する。すなわち、各識別器は他の 識別器の識別処理に関係なぐ特定の領域に対して、特定の識別処理を行う。これ により、精度の向上と識別エラーの減少を実現し、より複雑な非線形識別器の構築が 可能にしている。
[0175] また、本実施形態では、入力画像に対応した識別器を適用させるため、すべての 識別器を評価する必要はない。したがって、識別処理における計算処理コストを低減 させることが可能である。さらに、対象物を含む場合にも含まない場合にも、単純な( 識別しやすい)入力画像に対して早期に識別することを保証するために、入力画像 に対して早期に処理が行われるネットワーク上の上部や外側の位置の弱判別器は、 単純な入力画像に対して処理するように特化させる。
[0176] 第二の特長は、識別結果をより効果的に共有する点である。本実施形態では、従 来手法において弱判別器をつないでいるカスケード構造にかわって、ネットワーク構 造を用いる。識別器は、複数のノードから複数のノードへつながれたネットワーク上の ノードに配置される。ネットワークの分割構造が識別器を特定領域の操作に局所化さ せ、統合構造がネットワークがしつ力 と結びついていることを保障する。結合ノード の構築においては、親ノードの学習時のサンプルを統合して用いることによって、入 力空間の過分割を起こさないようにしている。対象問題を分割と結合により解を求め る本実施形態の方式により識別情報を効果的に共有し、対象物検出器全体で使用 する識別器総数を低減させることができる。
[0177] 第三の特長は、ひとつの識別器から複数の識別結果を生成することである。本実施 形態の装置においては、対象物検出装置は入力画像を識別器ネットワークにおいて 、複数の弱判別器を選択し、複数の経路で識別処理をおこなう。各パスは入力画像 を識別するための識別器の集合である。識別器は識別処理において、識別エラーを 減少させるように動的に選択する。ある層のノードにいたる識別器のパスの選択の際 に、前段までの古いパスを利用して、そこからノードの分割と統合とを行いつつ新しい パスを生成する。各パスは、入力画像内に対象物があるか否かを決定する強判別結 果を出す。すなわち、ネットワークそのものは実際には、複数の弱判別器を共有する 強判別器の集合である。独立な強判別器が使用されている従来の多数決方式に比 ベて、本実施形態の複数の強判別器は集団的に訓練され、強調的に動作する。さら に、最も高い識別エラーのパスを終結させることによって、従来の多数決方式におい て発生していた複数の判別器を並列に動作させた際の処理負荷の増加を抑えること が可能である。
[0178] 第四の特長は、より高い識別力を持つ新しい特徴抽出手法の使用である。本実施 形態では、入力の画像ウィンドウにおけるある領域に対して、従来の非特許文献 2お よび特許文献 1の矩形特徴量が強さ情報を測るものであるのに比べて、空間的なパ ターン情報と輝度の強さ情報の両方を測ることが可能な矩形パターン特徴を提案し ている。空間的なパターン情報は高低の輝度画素がある領域内でどのような配置に なっているかを表す。強さ情報は、高低の輝度の画素領域間で輝度値の差がどれく らい強いかを表す。非特許文献 4にある手法に比べて、本実施形態の矩形パターン 特徴は強さ情報を組み込んだことによってノイズ画像にロバストであり、本実施形態 のパターン特徴は非特許文献 4にある手法が画素間比較するのに比べ、大局的な 特徴を取得することが可能である。したがって、識別力がより高くなり、検出器におい て使用され、対象物体を見つけるのに必要な特徴量の数は大きく減少できる。
[0179] 本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲 を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明ら かである。 [0180] 本出願は、 2005年 6月 15日出願の日本特許出願(特願 2005— 175356)に基づ くものであり、その内容はここに参照として取り込まれる。
産業上の利用可能性
[0181] 本発明の対象物検出装置及びその学習装置は、高精度で、処理負荷の増加を抑 えることが可能な効果を有し、監視カメラ等により撮影された対象物検出等に有用で ある。

Claims

請求の範囲
[1] 入力された画像から、当該画像の部分領域である画像ウィンドウを複数抽出する画 像ウィンドウ抽出部と、
対象物の識別を行う識別器を有するノードがネットワーク状に接続されたノードネッ トワークを用いて、前記抽出された画像ウィンドウの各々に対して、対象物の存在を 検出する対象物検出部と
を備える対象物検出装置。
[2] 請求項 1に記載の対象物検出装置であって、
前記ノードは、複数の識別器を有する対象物検出装置。
[3] 請求項 1又は 2に記載の対象物検出装置であって、
前記対象物検出部は、前記ノードネットワークにおいて、少なくとも一つの経路を生 成する経路生成部と、前記生成された経路の各々について対象物の識別処理を行 レ、、前記画像ウィンドウが対象物を含むか否かの識別結果を出力する識別部とを有 する対象物検出装置。
[4] 請求項 3に記載の対象物検出装置であって、
前記対象物検出部は、前記画像ウィンドウに対して前記ノードネットワークの中にま だ評価してレ、なレ、新しレ、経路が存在するか否力 ^判別し、当該判別結果に基づレ、て 、前記経路生成部による経路生成処理と、前記識別部による前記識別結果出力処 理とを繰り返す対象物検出装置。
[5] 請求項 4に記載の対象物検出装置であって、
前記経路生成処理及び前記識別結果出力処理は、その繰返し回数が所定の回数 に達するまで、又は新たな経路が生成できなくなるまで繰り返される対象物検出装置
[6] 請求項 3ないし 5のいずれか一項に記載の対象物検出装置であって、
前記経路生成部は、経路の数が所定の数を超えず、かつ少なくとも一つの経路を 決定する経路決定部と、新しい経路を生成するために前記ネットワーク上の各経路を 分割する機能とを有する対象物検出装置。
[7] 請求項 3ないし 6のいずれか一項に記載の対象物検出装置であって、 前記識別部は、前記生成された各経路での識別結果と識別エラーとを求める識別 処理を行う評価部と、前記ノードネットワークの識別結果として最も識別エラーの低い 経路での識別結果を選択する選択部と、最も低い識別エラーが所定の値より小さくな つた場合に前記評価部における識別処理を停止することを決定する停止決定部とを 有する対象物検出装置。
[8] 請求項 7に記載の対象物検出装置であって、
前記評価部は、生成された経路の各ノードについて前記画像ウィンドウの特徴量値 を抽出する抽出部と、経路に含まれる各ノードの評価値を出すために前記特徴量値 を識別器に適用する適用部と、生成された経路の累積評価値を生成するために各ノ ードの評価値を結合する結合部と、生成された経路の前記識別結果を得るために、 累積評価値を用いて画像ウィンドウが対象物体を含むか否かを識別する識別部と、 生成された経路の識別結果に対して識別エラーを推定するエラー推定部とを有する 対象物検出装置。
[9] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、
前記各ノードの識別器による識別結果を最終結果の判定に利用するか否かは、前 記画像ウィンドウ内の特徴に合わせて変更される対象物検出装置。
[10] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、
前記各ノードの識別器による識別結果を最終結果の判定に利用する割合は、前記 画像ウィンドウ内の特徴に合わせて変更される対象物検出装置。
[11] 請求項 10に記載の対象物検出装置であって、
前記各ノードの識別器による識別結果を最終結果の判定に利用する割合は、前記 画像ウィンドウ内の特徴と、前記識別器の学習に用いた画像の特徴との差に基づく パラメータに基づいて決定される対象物検出装置。
[12] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、
前記識別器がブースティング法に基づく場合、ある識別器の結果が最終結果の判 定に寄与する割合は、前記画像ウィンドウに対して当該識別器以前の全識別器によ る累積評価値と、当該識別器を学習画像に基づき構築する際に当該識別器以前の 全識別器による累積評価値のうちもっとも識別エラーが高かった累積評価値との差 に基づいて決定される対象物検出装置。
[13] 請求項 1ないし 8のいずれか一項に記載の対象物検出装置であって、
前記各ノードにおける識別器において、累積評価値に寄与する割合が、当該ノード の親ノードにおける前記画像ウィンドウの累積評価値と、当該ノードの特徴量識別器 を学習画像に基づき構築する際に当該ノードの親ノードにおける累積評価値のうち もっとも識別エラーが高かった累積評価値との差に基づいて決定される対象物検出 装置。
[14] 請求項 1ないし 13のいずれか一項に記載の対象物検出装置であって、
前記対象物検出部は、あるノードの親ノードが複数存在する場合に、当該ノードの 特徴量識別器を学習する際に学習画像において当該ノードの親ノードにおける累積 評価値においてもっとも識別エラーを出した累積評価値を、親ノードにおける累積評 価値の範囲で探索する対象物検出装置。
[15] 対象物検出装置の学習装置であって、
前記対象物検出装置は、対象物の識別を行う識別器を有するノードがネットワーク 状に接続されたノードネットワークを用いて、前記ノードネットワーク構造の識別器を 動的に学習するノードネットワーク学習部を備え、
前記ノードネットワーク学習部は、前記ノードネットワークの中に、少なくとも 1つの空 ノードを生成する空ノード生成部と、前記空ノードの学習用の複数の画像を集める学 習画像収集部と、前記収集した画像で空ノードを学習するノード学習部とを有する学 習装置。
[16] 請求項 15に記載の学習装置であって、
前記ノードネットワーク学習部は、新しい空のノードを作成しうるかどうか判別し、当 該判別結果に基づいて、前記空ノード生成部、前記学習画像収集部及び前記ノード 学習部による処理を繰り返す学習装置。
[17] 請求項 15又は 16に記載の学習装置であって、
前記空ノード生成部は、前記ノードネットワークが空の場合に基準となるノードを生 成し、ノードネットワークにすでに存在するノードを統合と分割することによって新しい 空ノードを生成する学習装置。
[18] 請求項 15ないし 17のいずれか一項に記載の学習装置であって、 前記空ノード生成部は、前記学習画像収集部により集められた画像の数が不十分 である場合に、そのノードを除去する学習装置。
[19] 請求項 15ないし 18のいずれか一項に記載の学習装置であって、
前記学習画像収集部は、前記画像を構築中のノードネットワークの入力として与え 、画像を伝播させ、前記空ノード間で画像を共有し、各空ノードに到達する画像を収 集する学習装置。
[20] 請求項 15ないし 19のいずれか一項に記載の学習装置であって、
前記ノード学習部には、ブースティングアルゴリズムが適用される学習装置。
[21] 請求項 20に記載の学習装置であって、
前記ノード学習部は、前記ブースティングアルゴリズムにより前記収集された画像か ら部分集合を決定し、当該部分集合を用いて、収集された画像に重み付けを行い、 重み付けされた画像を用いて前記空ノードの識別器を決定する学習装置。
[22] 請求項 1ないし 14のいずれか一項に記載の対象物検出装置であって、
前記対象物検出部は、前記画像ウィンドウの画素の空間分布情報と画素の強さ情 報の双方を利用して検出する対象物検出装置。
[23] 請求項 22に記載の対象物検出装置であって、
前記画素の空間分布情報は、 1つ以上の画素から構成される画素ブロックについ て、複数の画素ブロック間での、各画素ブロックの特徴量値の大小関係と画素ブロッ クの画像上の配置関係とを表すものである対象物検出装置。
[24] 請求項 23に記載の対象物検出装置であって、
前記画素の強さ情報は、前記空間分布情報に対して、各画素ブロックの特徴量値 の大小関係の強さを表すものである対象物検出装置。
[25] 請求項 23又は 24に記載の対象物検出装置であって、前記画素ブロックには、長 方形のテンプレートが適用される対象物検出装置。
PCT/JP2006/311953 2005-06-15 2006-06-14 対象物検出装置及びその学習装置 WO2006134981A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP06766722A EP1892669A4 (en) 2005-06-15 2006-06-14 OBJECT DETECTION DEVICE AND ITS LEARNING DEVICE
CN2006800216404A CN101198987B (zh) 2005-06-15 2006-06-14 对象检测装置及其学习装置
US11/917,067 US8233720B2 (en) 2005-06-15 2006-06-14 Object detecting apparatus and learning apparatus for the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005175356A JP4767595B2 (ja) 2005-06-15 2005-06-15 対象物検出装置及びその学習装置
JP2005-175356 2005-06-15

Publications (1)

Publication Number Publication Date
WO2006134981A1 true WO2006134981A1 (ja) 2006-12-21

Family

ID=37532336

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/311953 WO2006134981A1 (ja) 2005-06-15 2006-06-14 対象物検出装置及びその学習装置

Country Status (5)

Country Link
US (1) US8233720B2 (ja)
EP (2) EP2363829A1 (ja)
JP (1) JP4767595B2 (ja)
CN (2) CN101198987B (ja)
WO (1) WO2006134981A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377373A (zh) * 2012-04-25 2013-10-30 佳能株式会社 图像特征产生方法及设备、分类器、***和捕获设备
CN106296752A (zh) * 2016-08-22 2017-01-04 赖世权 基于图像处理的监控***
CN111931799A (zh) * 2019-05-13 2020-11-13 百度在线网络技术(北京)有限公司 图像识别方法及装置

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217589A (ja) * 2007-03-06 2008-09-18 Toshiba Corp 学習装置及びパターン認識装置
JP5258506B2 (ja) 2008-10-24 2013-08-07 キヤノン株式会社 情報処理装置
KR101133908B1 (ko) 2009-01-30 2012-04-12 주식회사 코아로직 특정 형상을 포함하는 영상을 선택적으로 저장하는 방법 및장치
WO2010140613A1 (ja) * 2009-06-03 2010-12-09 学校法人中部大学 物体検出装置
EP2355492B1 (en) 2009-10-07 2018-04-11 Panasonic Intellectual Property Corporation of America Device, method, program, and circuit for selecting subject to be tracked
CN102301693B (zh) 2009-12-01 2014-09-24 松下电器产业株式会社 识别用摄像装置以及其控制方法
US8693791B2 (en) 2010-02-01 2014-04-08 Morpho, Inc. Object detection apparatus and object detection method
JP5707570B2 (ja) * 2010-03-16 2015-04-30 パナソニックIpマネジメント株式会社 物体識別装置、物体識別方法、及び、物体識別装置の学習方法
JP5214679B2 (ja) * 2010-08-30 2013-06-19 株式会社東芝 学習装置、方法及びプログラム
JP5561066B2 (ja) * 2010-09-27 2014-07-30 富士通株式会社 人物検出装置、人物検出方法及びプログラム
US8494983B2 (en) 2010-11-16 2013-07-23 Microsoft Corporation Object-sensitive image search
JP2012113621A (ja) * 2010-11-26 2012-06-14 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
JP5796185B2 (ja) * 2011-03-10 2015-10-21 パナソニックIpマネジメント株式会社 対象物判定装置
JP5929896B2 (ja) * 2011-03-17 2016-06-08 日本電気株式会社 画像認識システム、画像認識方法および画像認識用プログラム
JP6123975B2 (ja) 2011-07-29 2017-05-10 パナソニックIpマネジメント株式会社 特徴量抽出装置及び特徴量抽出方法
CN103136524A (zh) * 2011-11-24 2013-06-05 北京三星通信技术研究有限公司 能够抑制检测结果冗余的对象检测***和方法
JP5828785B2 (ja) * 2012-03-15 2015-12-09 セコム株式会社 画像処理装置
US8843759B2 (en) * 2012-08-28 2014-09-23 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for media-based authentication
KR20150127503A (ko) * 2014-05-07 2015-11-17 에스케이플래닛 주식회사 객체 인식 서비스 제공 시스템 및 방법, 그리고 이를 위한 장치 및 컴퓨터 프로그램이 기록된 기록매체
KR102223684B1 (ko) * 2014-03-18 2021-03-04 에스케이플래닛 주식회사 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
WO2015133699A1 (ko) * 2014-03-06 2015-09-11 에스케이플래닛 주식회사 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR102203000B1 (ko) * 2014-03-06 2021-01-14 에스케이플래닛 주식회사 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
JP6299299B2 (ja) * 2014-03-14 2018-03-28 オムロン株式会社 事象検出装置および事象検出方法
JP6630999B2 (ja) * 2014-10-15 2020-01-15 日本電気株式会社 画像認識装置、画像認識方法、および、画像認識プログラム
JP6632193B2 (ja) * 2015-01-16 2020-01-22 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US10210418B2 (en) * 2016-07-25 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Object detection system and object detection method
US20180082179A1 (en) * 2016-09-19 2018-03-22 Vicarious Fpc, Inc. Systems and methods for deep learning with small training sets
US11526757B2 (en) 2016-09-19 2022-12-13 Intrinsic Innovation Llc Systems and methods for deep learning with small training sets
EP3336763A1 (en) * 2016-12-14 2018-06-20 Conti Temic microelectronic GmbH Device for classifying data
CN107194416B (zh) * 2017-04-28 2021-06-08 成都天钥科技有限公司 对象识别方法及装置、终端、处理器、存储介质
US11017324B2 (en) * 2017-05-17 2021-05-25 Microsoft Technology Licensing, Llc Tree ensemble explainability system
DE112018002572T5 (de) * 2017-05-19 2020-06-04 Movidius Ltd. Verfahren, systeme und vorrichtungen zur optimierung der pipeline-ausführung
JP6844564B2 (ja) * 2018-03-14 2021-03-17 オムロン株式会社 検査システム、識別システム、及び学習データ生成装置
US11507553B2 (en) 2018-03-20 2022-11-22 Vmware, Inc. Range lookup operations for Bε-trees using update messages
US11836134B2 (en) * 2018-03-20 2023-12-05 Vmware, Inc. Proactive splitting and merging of nodes in a Bε-tree
US11720568B2 (en) 2018-03-20 2023-08-08 Vmware, Inc. Reduced bandwidth queries in B e-trees using approximate membership query data structures
US11354288B2 (en) 2018-03-20 2022-06-07 Vmware, Inc. Optimizing operations on b e-trees stored on solid state media
JP7308421B2 (ja) * 2018-07-02 2023-07-14 パナソニックIpマネジメント株式会社 学習装置、学習システム、及び学習方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020102024A1 (en) 2000-11-29 2002-08-01 Compaq Information Technologies Group, L.P. Method and system for object detection in digital images
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
JP2005175356A (ja) 2003-12-15 2005-06-30 Matsushita Electric Ind Co Ltd 電子部品ピックアップ装置および電子部品ピックアップ方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8802078A (nl) * 1988-08-23 1990-03-16 Philips Nv Werkwijze voor het herkennen van een patroon in een veld met een meerwaardige amplitude, inrichting voor het uitvoeren van een dergelijke werkwijze.
DE69028398T2 (de) * 1990-06-29 1997-03-20 Philips Electronics Nv Verfahren zur Musterdatenverarbeitung auf der Grundlage geordneter Amplitudenwerte, Gerät zum Durchführen des Verfahrens
JP2522859B2 (ja) * 1990-12-14 1996-08-07 日産自動車株式会社 眼位置検出装置
JPH0991432A (ja) 1995-09-28 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 不審人物抽出方法
JP2000194856A (ja) 1998-12-25 2000-07-14 Oki Electric Ind Co Ltd 輪郭抽出方法及び装置
US7212651B2 (en) 2003-06-17 2007-05-01 Mitsubishi Electric Research Laboratories, Inc. Detecting pedestrians using patterns of motion and appearance in videos
US7263229B2 (en) * 2003-10-30 2007-08-28 Samsung Electronics Co., Ltd. Method and apparatus for detecting the location and luminance transition range of slant image edges
US7333673B2 (en) * 2003-10-30 2008-02-19 Samsung Electronics Co., Ltd. Method and apparatus for image detail enhancement without zigzagged edge artifact
JP4517633B2 (ja) * 2003-11-25 2010-08-04 ソニー株式会社 対象物検出装置及び方法
US7330592B2 (en) * 2004-01-27 2008-02-12 Samsung Electronics Co., Ltd. Method and apparatus for detecting the location and luminance transition range of slant image edges
JP4482796B2 (ja) * 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP5025893B2 (ja) * 2004-03-29 2012-09-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020102024A1 (en) 2000-11-29 2002-08-01 Compaq Information Technologies Group, L.P. Method and system for object detection in digital images
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
JP2005175356A (ja) 2003-12-15 2005-06-30 Matsushita Electric Ind Co Ltd 電子部品ピックアップ装置および電子部品ピックアップ方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BERNHARD FROBA; ANDREAS ERNST: "Face Detection with the Modified Census Transform", PROCEEDINGS FOR SIXTH IEEE INTERNATIONAL CONFERENCE ON AUTOMATIC FACE AND GESTURE RECOGNITION (AFGR, May 2004 (2004-05-01), pages 91 - 96
H. ROWLEY; S. BALUJA; T. KANADE: "Neural Network-Based Face Detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE (PAMI, vol. 20, January 1998 (1998-01-01), pages 23 - 28
JIN R. ET AL.: "A New Boosting Algorithm Using Input Dependent Regularizer", 20TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML '03, 21 August 2003 (2003-08-21)
PAUL VIOLA; MICHAEL JONES: "Rapid Object Detection Using a Boosted Cascade of Simple Features", IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, vol. 1, 2001, pages 511 - 518
See also references of EP1892669A4
YOAV FREUND; ROBERT E. SCHAPIRE: "Computational Learning Theory", 1995, EUROCOLT '95, SPRINGER-VERLAG, article "A decision-theoretic generalization of on-line learning and an application to boosting", pages: 23 - 37

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377373A (zh) * 2012-04-25 2013-10-30 佳能株式会社 图像特征产生方法及设备、分类器、***和捕获设备
CN106296752A (zh) * 2016-08-22 2017-01-04 赖世权 基于图像处理的监控***
CN111931799A (zh) * 2019-05-13 2020-11-13 百度在线网络技术(北京)有限公司 图像识别方法及装置

Also Published As

Publication number Publication date
EP1892669A1 (en) 2008-02-27
CN101198987A (zh) 2008-06-11
EP1892669A4 (en) 2011-08-10
JP2006350645A (ja) 2006-12-28
CN101198987B (zh) 2012-06-27
US20090232403A1 (en) 2009-09-17
US8233720B2 (en) 2012-07-31
EP2363829A1 (en) 2011-09-07
CN102081734A (zh) 2011-06-01
CN102081734B (zh) 2013-08-07
JP4767595B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
WO2006134981A1 (ja) 対象物検出装置及びその学習装置
Miller et al. Dropout sampling for robust object detection in open-set conditions
Singh et al. Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods
US8218819B2 (en) Foreground object detection in a video surveillance system
Sebe et al. Skin detection: A bayesian network approach
CN113313037A (zh) 一种基于自注意力机制的生成对抗网络视频异常检测方法
Wang et al. Sface: An efficient network for face detection in large scale variations
CN107170012A (zh) 一种基于语境信息进行视点估计的方法
Hodne et al. Detecting and suppressing marine snow for underwater visual slam
AFFES et al. Comparison of YOLOV5, YOLOV6, YOLOV7 and YOLOV8 for Intelligent Video Surveillance.
Singh et al. Attention-guided generator with dual discriminator GAN for real-time video anomaly detection
Wang et al. A two-layer night-time vehicle detector
CN111027482B (zh) 基于运动向量分段分析的行为分析方法及装置
Yang et al. Video anomaly detection for surveillance based on effective frame area
CN115798055B (zh) 一种基于cornersort跟踪算法的暴力行为检测方法
CN112395900A (zh) 基于YOLOv3算法的疲劳驾驶状态检测算法
JP5241687B2 (ja) 物体検出装置及び物体検出プログラム
JP4741036B2 (ja) 特徴抽出装置、対象物検出装置、特徴抽出方法、および対象物検出方法
Yatbaz et al. Run-time introspection of 2d object detection in automated driving systems using learning representations
JP4712907B2 (ja) 対象物検出装置及びその学習装置
Kumar et al. An efficient hierarchical approach for background subtraction and shadow removal using adaptive GMM and color discrimination
Ranjbar et al. Scene novelty prediction from unsupervised discriminative feature learning
Spinello et al. Scene in the loop: Towards adaptation-by-tracking in RGB-D data
Bhumbla et al. A Review: Object Detection Algorithms
CN118230236A (zh) 区域入侵检测方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680021640.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11917067

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006766722

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006766722

Country of ref document: EP