JP5523053B2

JP5523053B2 - 物体識別装置及び物体識別方法

Info

Publication number: JP5523053B2
Application number: JP2009240810A
Authority: JP
Inventors: 雄太大島
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-10-19
Filing date: 2009-10-19
Publication date: 2014-06-18
Anticipated expiration: 2029-10-19
Also published as: JP2011086259A; US20110091108A1; US8666176B2

Description

本発明は、物体識別装置及び物体識別方法に関する。

従来、画像から特定の被写体パターンを自動的に検出する画像処理方法が知られている。この画像処理方法は、非常に有用であり、例えば人間の顔の判定に利用することができる。また、このような方法は、通信会議、マン・マシン・インタフェース、セキュリティ、人間の顔を追跡するためのモニタ・システム、画像圧縮等の多くの分野で使用することができる。

近年、画像中から顔を検出する技術として、複数の顕著な特徴（２つの目、口、鼻等）、その特徴間の固有の幾何学的位置関係、人間の顔の対称的特徴、人間の顔色の特徴等を利用する方式が開示されている（例えば、非特許文献１参照）。

Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002

しかしながら、非特許文献１に記載の技術では、画像中から顔を識別するには上述の特徴についての算出処理が一律に生じることになるので、顔の識別に時間がかかってしまうという問題が生じ得る。

本発明はこのような問題点に鑑みなされたもので、物体の識別に要する時間を低減することを目的とする。

そこで、本発明の物体識別装置は、入力画像から切り出し位置を順次ずらしながら部分画像を切り出す切出手段と、前記切出手段で切り出された一の部分画像に対して、記憶部に予め記憶されている物体を識別するための複数の識別情報の参照順序を決定する決定手段と、前記複数の識別情報を前記参照順序に従って順次参照して、参照される各識別情報に基づいて前記部分画像が前記物体に係る画像であるか否かを識別し、ある識別情報に基づいて前記部分画像が前記物体に係る画像でないと識別されると、前記参照順序において前記識別情報より後の識別情報に基づく識別を止める識別手段と、前記識別手段で前記部分画像が前記物体に係る画像でないと識別された場合に、前記識別された部分画像の切り出し位置と前記識別に用いられた識別情報の識別子とを対応付けた識別結果情報を保持部に保存する保存手段と、を有し、前記決定手段は、前記一の部分画像に対して、前記識別結果情報中に前記部分画像の近傍の切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報を優先させて、前記参照順序を決定する。

本発明によれば、物体の識別に要する時間を低減することができる。

物体識別装置の構成を示す図である。顔検出における走査の例を示す図である。特徴量の概要を示す図である。カスケード接続の例を示す図である。隣接領域画像の例を示す図である。識別対象領域画像と近傍領域画像とに関する特徴量の相関を示す図である。ラスタスキャンの例を示す図である。物体識別装置における処理に係るフローチャートの一例を示す図である。動画における対応領域画像の例を示す図である。識別処理結果の相関関係を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

＜第１の実施形態＞
本実施形態では、識別器を用いて画像内から顔を検出（顔検出）する物体識別装置について説明する。
図１の（ａ）は、物体識別装置のハードウェア構成を示す図である。物体識別装置は、ＣＰＵ（Central Processing Unit）１、記憶装置２、入力装置３、及び表示装置４を含んで構成される。なお、各装置は、互いに通信可能に構成され、バス等により接続されている。
ＣＰＵ１は、物体識別装置の動作をコントロールし、記憶装置２に格納されたプログラムの実行等を行う。
記憶装置２は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、ＣＰＵ１の動作に基づき読み込まれたプログラム、長時間記憶しなくてはならないデータ等を記憶する。
本実施形態では、ＣＰＵ１が、記憶装置２に格納されたプログラムの手順に従って処理を行うことによって、物体識別装置における機能及び後述するフローチャートに係る処理が実現される。
入力装置３は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。
表示装置４は、液晶パネル、外部モニタ等であり、各種の情報を表示する。
なお、物体識別装置のハードウェア構成は、上述した構成に限られるものではない。例えば、物体識別装置は、各種の装置間で通信を行うためのＩ／Ｏ装置を含んで構成されてもよい。例えば、Ｉ／Ｏ装置は、メモリーカード、ＵＳＢケーブル等の入出力部、有線、無線等による送受信部である。また、例えば、物体識別装置は、撮像装置を含んで構成されてもよい。撮像装置は、カムコーダ等であり、CCD（Charge Coupled Devices）、CMOS（Complementary Metal Oxide Semiconductor）等の撮像素子を備える。撮像装置で撮像された画像データは、記憶装置２等に記憶される。

ここで、顔検出を行う様々な顔検出装置を例に挙げて、物体識別装置による顔検出を行うに際しての前提の技術を説明する。
まず、顔検出装置は、顔の検出を対象とする画像データをメモリに読み込み、顔と照合する部分領域である所定の矩形領域を読み込んだ画像中から切り出す。そして、顔検出装置は、切り出した矩形領域の画素値の分布を入力としてニューラル・ネットワークによる演算で一つの出力を得る。このとき、ニューラル・ネットワークの重み、閾値が膨大な顔画像パターンと非顔画像パターンとにより予め学習されており、顔検出装置は、例えば、ニューラル・ネットワークの出力が０以上であるならば顔、それ以外は非顔であると判別する。そして、顔検出装置は、ニューラル・ネットワークの入力である矩形領域（例えば、後述の識別対象領域画像１１１）の切り出し位置を、例えば、図２に示すように入力画像１１０の全域から縦横順次に走査していくことにより、画像中から顔を検出する。また、顔検出装置は、様々な大きさの顔の検出に対応するため、図２に示すように読み込んだ画像を所定の割合で順次縮小し、それに対して上述した顔検出の走査を行うようにしている。なお、ニューラル・ネットワークにより画像中の顔パターンを検出する方法については、参考文献１等を参照することが好ましい。
（参考文献１）
Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998

また、処理の高速化に着目した顔検出装置としては、AdaBoostを使って多くの弱判別器を有効に組合せて顔判別の精度を向上させるものがある（参考文献２等を参照のこと。）。
一方で、夫々の弱判別器をHaarタイプの矩形特徴量で構成し、矩形特徴量の算出を、積分画像を利用して高速に行う構成を採用する顔検出装置がある。このHaarタイプの矩形特徴量について、図３を参照して説明する。特徴量Ａ（３１０）は、両目部分と両目下部分（頬の部分）とにより構成され、両目部分は、両目下部分より黒っぽいという特徴を示す特徴量である。また、特徴量Ｂ（３２０）は、両目部分と眉間部分とにより構成され、両目部分において、目の部分は黒っぽく、目と目の間である眉間部分は、両目部分に比べて、白っぽいという特徴を示す特徴量である。Haarタイプの矩形特徴量を用いる顔検出装置では、このような学習結果（学習された特徴量）を識別対象領域画像１１１（部分画像に関する特徴量）と照合し、TRUE / FALSEで識別結果を出力する。
（参考文献２）
Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)

また、AdaBoost学習によって得た識別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている顔検出装置がある（参考文献２等を参照のこと。）。図４にカスケード型の顔検出装置の構成を示す。このカスケード型の顔検出装置は、まず前段の単純な（すなわち計算量のより少ない）識別器を使って明らかに顔でないパターンの候補をその場で除去する。次に、顔検出装置は、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な（すなわち計算量のより多い）識別器を使って顔であるか否かの判定を行っている。つまり、この構成によれば、すべての候補に対して複雑な判定を行う必要がないので高速である。このように、カスケード型の顔検出装置では、画像中から顔パターンを検出する場合には、図２に示すように画像中から識別対象領域画像１１１を順次切り出して、識別対象領域画像１１１が投入されることになる。

しかしながら、上述した顔検出装置では、夫々の識別器１（４０１）、識別器２（４０２）、．．．、識別器Ｎ（４０Ｎ）の処理順は、AdaBoost学習の際に使用した膨大な顔パターン及び非顔パターンを識別する効果の高い順に並べられている。そのような処理順は、顔検出器に識別対象領域画像１１１がランダムに投入される場合には最適だが、一つの画像から縦横順次に走査していくように切り出された識別対象領域画像１１１の場合には必ずしも最適とはいえない。
以下、その理由について説明する。
例えば、図５に示す画像パターンＰ１（５０１）をカスケード型の顔検出装置に投入し、識別結果として図４に示す識別器１（４０１）、識別器２（４０２）を通過し（すなわち顔候補だと判断され）、識別器Ｋ（４０Ｋ）で顔でないと判断されたとする。次に、図５に示す画像パターンＰ１（５０１）に隣接する画像パターンＰ２（５０２）をカスケード型の顔検出装置に投入した場合、同様に識別器１（４０１）、識別器２（４０２）を通過し、識別器Ｋ（４０Ｋ）で顔でないと判断される可能性が高い。それは、画像パターンＰ１（５０１）と画像パターンＰ２（５０２）とは共通する画像領域が多いのでHaarタイプの矩形特徴量の相関が高いからである。

この原理を、図６を参照して説明する。現在の識別対象領域画像１１１に対し、周囲に数画素ずらした画像パターンを、近傍領域画像６００と称する。また、識別対象領域画像１１１に対し、特徴量Ａ（３１０）と特徴量Ｂ（３２０）とを取得した結果を、特徴量Ａ１（６１１）及び特徴量Ｂ１（６２１）とする。さらに、近傍領域画像６００に対し、特徴量Ａ（３１０）と特徴量Ｂ（３２０）とを取得した結果を、特徴量Ａ２（６１２）及び特徴量Ｂ２（６２２）とする。このとき、識別対象領域画像１１１と近傍領域画像６００とは、重なる領域が多いため、特徴量Ａ１（６１１）と特徴量Ａ２（６１２）との相関が高く、特徴量Ｂ１（６２１）と特徴量Ｂ２（６２２）との相関も高い。
各識別器（４００）は、これらの特徴量を計算し、識別結果を決定するため、両画像パターンの特徴量の相関が高いならば、両画像パターンの識別処理結果も類似する。

すなわち、予め学習の際に決められた処理順に従い顔検出の処理を行った場合には、識別器ｋ（４０ｋ）で識別処理が打ち切られる可能性が高い場合も、識別器１（４０１）、識別器２（４０２）等の処理を実施する。したがって、識別器１（４０１）、識別器２（４０２）等の処理は、TRUEになる可能性が高く、無駄になってしまう確率が高い。すなわち、上述したカスケード型の顔検出装置では、近傍の画像パターン同士の相関が考慮されていないので、一つの画像から縦横順次に走査して画像パターンを投入するような場合には必ずしも最適な構成にはなっていない。

以上のことを踏まえ、本物体識別装置での顔検出の方法について説明する。本物体識別装置は、画像から矩形領域を切り出して、切り出した矩形領域についての画像を入力として、各識別処理を実行する。
ここで、図７に示すように、本物体識別装置では、画像から矩形領域を切り出す方法として、画像左上画素を開始点とし主走査方向（水平方向）に１画素ずつ走査していく方法（以下、ラスタスキャンと称する。）を採用する。すなわち、ラスタスキャンにおいては、物体識別装置は、入力画像の左上画素を始点とし、矩形領域の左上画素が始点と一致する矩形領域に対して識別処理を行う。次に、物体識別装置は、主走査方向に１画素ずれた矩形領域に対して順次識別処理を行っていき、矩形領域右端が入力画像右端と一致する点（終点）まで処理を行う。そして、物体識別装置は、１つ前の主走査の始点から副走査方向に１画素ずれた画素を始点として、主走査方向に向かって走査を行う。これを１画素ずつ副走査方向にずらしながら、物体識別装置は、矩形領域の下端が入力画像の下端と一致するまでバンドに対する処理を行っていく。
ラスタスキャンの場合、物体識別装置は、近傍領域画像６００として、１画素ずれた領域（隣接領域画像７００）を使用することができる。すなわち、隣接領域画像７００が識別器Ｍ（４０Ｍ）でFALSEした場合、現在の識別対象領域画像１１１でも識別器Ｍ（４０Ｍ）でFALSEとなる可能性が高い。
そこで、直前の識別処理、つまり隣接領域画像７００に対する識別処理が、識別器Ｍ（４０Ｍ）でFALSEしている場合、現在の識別対象領域画像１１１に対する識別処理を識別器Ｍ（４０Ｍ）から開始する。識別器Ｍ（４０Ｍ）がTRUEになった場合は、識別器１（４０１）から再開してもよいし、識別器Ｍ＋１（４０Ｍ＋１）に進んで再開してもよい。
なお、本実施形態では、処置対象の部分画像として、１画素ずれた隣接領域画像７００を使用しているが、これに限られるものではない。例えば、画像の走査方法に関わらず、現在の識別対象領域画像１１１から数画素上下左右いずれかにずれた領域の部分画像（すなわち、識別対象領域画像１１１の近傍の部分画像である近傍領域画像６００等）を利用してもよい。このとき、近傍領域画像６００の処理結果としては、数画素上下左右いずれかにずれた部分画像に対する処理結果でもよいし、周辺の数領域に対する部分画像の処理結果の平均等でもよい。

ここで、図１（ｂ）を参照して、物体識別装置の機能構成を説明する。
物体識別装置は、画像入力部１００、画像切り出し部１０１、識別処理部１０２、識別処理制御部１０３、処理順序決定部１０４、辞書データ保持部１０５、及び識別処理結果情報保持部１０７を含んで構成される。
画像入力部１００は、デジタルカメラで撮影された静止画、動画の１フレーム画像等、入力画像１１０を入力する。
画像切り出し部１０１は、画像入力部１００から入力された入力画像１１０から識別対象となる矩形領域の画像である識別対象領域画像１１１を切り出す。本実施形態では、切り出し方として、上述したラスタスキャンを採用している。
識別処理部１０２は、画像切り出し部１０１で切り出された識別対象領域画像１１１に、物体が存在しているかどうかを識別する。本実施形態では、識別処理部１０２は、１つで構成されており、入力される処理識別器番号１１５をもとに、辞書データ保持部１０５から、辞書データ１１２を読み出して、夫々の識別器（４００）としての識別処理を行う。識別処理では、識別処理部１０２は、識別対象領域画像１１１から辞書データ１１２をもとに複数の特徴量を計算して、識別結果１１６を得る。辞書データ１１２は、予め学習により計算して求められたものであり、辞書データ１１２の違いが各識別器（４００）の違いとなる。
識別処理制御部１０３は、処理順序情報１１８に従って、識別処理部１０２を順番に実行させるように制御する。処理順序情報１１８とは、識別器（４００）をどのような順番で実行していくかを示す情報である。
処理順序決定部１０４は、識別処理制御部１０３による依頼をもとに、処理順序情報１１８を決定し、処理順序情報１１８を識別処理制御部１０３に出力する。

本物体識別装置の動作を、図８を参照して説明する。
まず、画像入力部１００は、入力画像１１０を入力する（ステップＳ８０１）。ここで読み込まれた入力画像１１０は、例えば８ビットの輝度で表現される画素により構成される、横g_width、縦g_heightの２次元配列データである。
次に、切出手段の一例である画像切り出し部１０１は、識別対象領域画像１１１の位置情報（識別対象領域画像１１１の最左上端の位置）（x,y）を入力画像１１０の最左上端（０,０）とする（ステップＳ８０２）。
続いて、画像切り出し部１０１は、入力画像１１０から識別対象領域画像１１１（換言するならば、部分画像）を切り出す（ステップＳ８０３）。識別対象領域画像１１１は、例えば入力画像１１０と同様に８ビットの輝度で表現される画素により構成される、横s_width、縦s_heightの２次元配列データである。このとき、画像切り出し部１０１は、識別対象領域画像１１１の位置情報を含む処理開始依頼通知１１３を識別処理制御部１０３に対して送信する。処理開始依頼通知１１３を受け取った識別処理制御部１０３は、処理順序情報１１８を受け取るために、処理順序決定部１０４に対して識別対象領域画像１１１の位置情報を通知する。

次に、決定手段の一例である処理順序決定部１０４は、識別処理結果情報保持部１０７に、隣接領域画像７００の識別処理結果情報１１７が存在するか否かを判定する（ステップＳ８０４）。存在する場合には、処理順序決定部１０４は、隣接領域画像７００の識別処理結果情報１１７により決定される処理順序情報１１８をList配列に読み出す（ステップＳ８０６）。他方、存在しない場合は、処理順序決定部１０４は、所定の処理順序、例えば識別器１（４０１）から順に、２、３、…、ｎの順の処理順序情報１１８をList配列として作成する（ステップＳ８０５）。なお、処理順序決定部１０４は、初回については、隣接領域画像７００の識別処理結果情報１１７が存在しないため、所定の順序を使用する。すなわち、処理順序決定部１０４は、識別された結果（例えば、識別処理結果情報１１７の有無）に基づいて、識別対象領域画像１１１の近傍の部分画像（例えば、隣接領域画像７００）と複数の辞書データ１１２の各々とに係る認識処理が行われる順序を決定する。

次に、識別処理制御部１０３は、受け取った処理順序情報１１８をもとに、順次識別処理部１０２を動作させる。
まず、識別処理制御部１０３は、ループ変数iを初期化する（ステップＳ８０７）。
次に、識別処理制御部１０３は、List配列のi番目の識別器番号を処理識別器番号１１５として識別処理部１０２に入力する。これにより識別器番号List[i]の処理が識別処理部１０２により実行される（ステップＳ８０９）。すなわち、識別手段の一例である識別処理部１０２は、入力された処理識別器番号１１５をもとに、記憶部の一例である辞書データ保持部１０５から、辞書データ１１２を読み出して、処理識別器番号１１５の識別器（４００）としての識別処理を行う。識別処理では、識別処理部１０２は、識別対象領域画像１１１から辞書データ１１２をもとに複数の特徴量を計算して、識別結果１１６を得る。すなわち、識別処理部１０２は、識別対象領域画像１１１と物体を識別するための複数の識別情報（例えば、複数の辞書データ１１２）の各々とを参照して、識別対象領域画像１１１が物体に係る画像であるか否かを識別する。
その後、識別処理制御部１０３は、識別処理部１０２より識別結果１１６を受け取り、TRUEであるかFALSEであるかを判定する（ステップＳ８１０）。判定の結果、TRUE（Yes）である場合には、識別処理制御部１０３は、ループ変数iをインクリメントする（ステップＳ８１１）。そして、識別処理制御部１０３は、ループ変数iが処理識別器総数ｎより小さいか否かを判定する。ループ変数iが処理識別器総数ｎより小さい場合には、識別処理制御部１０３は、次の識別器（４００）の処理を実行する。他方、ループ変数iが処理識別器総数ｎ以上である場合、すなわち識別処理のループにおいて一度もFALSEせずにループ変数iが処理識別器総数ｎに達した場合、識別処理制御部１０３は、打切り識別器番号NUMに０を代入する（ステップＳ８１４）。
他方、FALSE（No）である場合には、識別処理制御部１０３は、打切り識別器番号NUMとしてFALSEとなった識別器番号List[i]を代入し（ステップＳ８１３）、続いて、処理をステップＳ８１５に移す。すなわち、識別手段の一例である識別処理制御部１０３は、識別対象領域画像１１１が物体に係る画像でないと識別されると、複数の辞書データ１１２のうち参照していない残りの辞書データ１１２についての識別処理を止めるように制御を行う。

次に、識別処理制御部１０３は、打切り識別器番号NUMと、識別対象領域画像１１１の位置情報（x,y）とを識別処理結果情報１１７として、処理順序決定部１０４に通知する。処理順序決定部１０４は、受け取った識別処理結果情報１１７を識別処理結果情報保持部１０７に保存する（ステップＳ８１５）。この保存された識別処理結果情報１１７は、隣接領域画像７００の識別処理結果情報１１７が存在するかを判定するステップ（ステップＳ８０４）で使用される。
以上で、１つの識別対象領域画像１１１に対する識別処理が終了する。この際、識別処理制御部１０３は、画像切り出し部１０１に対し、処理完了通知１１４を通知する。
処理完了通知１１４を受け取った画像切り出し部１０１は、識別対象領域画像１１１の始点（x,y）を（x+１,y）に設定する（ステップＳ８１６）。換言するならば、画像切り出し部１０１は、識別対象領域画像１１１を右に１画素分ずらす。
このとき、識別処理制御部１０３は、xが入力画像１１０の横幅g_width - 識別対象領域画像１１１の横幅s_width以上であるか否かを判断する（ステップＳ８１７）。xが入力画像１１０の横幅g_width - 識別対象領域画像１１１の横幅s_width未満である場合は、識別処理制御部１０３は、次の識別対象領域画像１１１の切り出し処理（ステップＳ８０３）に処理を移す。他方、xが入力画像１１０の横幅g_width - 識別対象領域画像１１１の横幅s_width以上である場合には、識別処理制御部１０３は、識別対象領域画像１１１の位置情報（x,y）を（０,y+１）に設定する（ステップＳ８１８）。すなわち、識別処理制御部１０３は、識別対象領域画像１１１が入力画像１１０の最右端まで達した場合には、識別対象領域画像１１１を、現在の位置から１画素下の行の最左端に設定する。
さらに、識別処理制御部１０３は、yが入力画像１１０の縦幅g_height - 識別対象領域画像１１１の縦幅s_height以上であるか否かを判断する（ステップＳ８１９）。yが入力画像１１０の縦幅g_height - 識別対象領域画像１１１の縦幅s_height未満である場合には、識別処理制御部１０３は、次の識別対象領域画像１１１の切り出し処理（ステップＳ８０３）に処理を移す。他方、yが入力画像１１０の縦幅g_height - 識別対象領域画像１１１の縦幅s_height以上である場合には、そこで入力画像１１０に対する検出処理を終了する。つまり識別対象領域画像１１１が入力画像１１０の最右下端まで達した場合には、識別処理制御部１０３は、そこで入力画像１１０に対する検出処理を終了する。

ここで、次の識別対象領域画像１１１における識別処理について説明する。
まず、画像切り出し部１０１は、次の識別対象領域画像１１１を切り出す（ステップＳ８０３）。
次に、処理順序決定部１０４は、隣接領域画像７００の識別処理結果情報１１７が存在するか否かを判断する（ステップＳ８０４）。例えば、このとき、識別処理結果情報保持部１０７は、前回の識別対象領域画像１１１に対する識別処理結果情報１１７を保持しているとする。この場合には、処理順序決定部１０４により識別処理結果情報１１７が存在すると判断され、識別処理制御部１０３は、隣接領域画像７００の識別処理結果情報１１７により決定される処理順序情報１１８を使用する。この処理順序情報１１８は、処理順序決定部１０４において、隣接領域画像７００の識別処理結果情報１１７に基づき、一意に決定される。例えば、隣接領域画像７００の打切り識別器番号がＭだった場合、処理順序として識別器Ｍ（４０Ｍ）、１、２、…、Ｍ−１、Ｍ＋１、…、Ｎという順序として決定される。すなわち、処理順序決定部１０４は、識別対象領域画像１１１が物体に係る画像でないとの識別に用いられた辞書データ１１２が特定されると、識別対象領域画像１１１の近傍の部分画像と特定された辞書データ１１２とが最初に参照されるように順序を決定する。以降の処理は、上述した識別処理の流れと同じである。
なお、識別対象領域画像１１１の位置が最左端である場合には、隣接領域画像７００の識別処理結果情報１１７は存在しないため、最初の識別対象領域画像１１１に対する識別処理と同じ流れになる。しかしながら、識別対象領域画像１１１の位置の一画素分上の近傍領域画像６００の識別処理結果情報１１７が存在する場合は、処理順序決定部１０４は、この識別処理結果情報１１７により処理順序情報１１８を決定してもよい。

＜第２の実施形態＞
本実施形態は、動画に対しても適用可能である。動画の場合は、図９に示すように、近傍領域画像６００として、連続するフレームの時間的に直前のフレームにおける領域画像、数フレーム前のフレームにおける対応領域画像９１０等を使用することができる。ここで使用する対応領域画像９１０の位置は、処理する対象フレーム内の識別対象領域画像１１１の同一位置座標とする。

第２の実施形態に係る物体識別装置における処理を、図８を参照して、第１の実施形態との相異点に着目して説明する。なお、第２の実施形態では、第１の実施形態に係る構成と同一の構成については、第１の実施形態で用いた符号と同一の符号を採用する。
ステップＳ８０１では、画像入力部１００は、動画の１フレーム画像を入力画像１１０として入力する。入力された入力画像１１０（換言するならば、動画を構成する一連の入力画像）は、基本的に静止画の場合とデータ形式としては同じものになる。なお、ステップＳ８０２及びステップＳ８０３に関しては、第１の実施形態と同様であるので説明を省略する。

ステップ８０４では、処理順序決定部１０４は、隣接領域画像７００の識別処理結果情報１１７の代わりに、前フレームの対応領域画像９１０の識別処理結果情報１１７が存在するか否かを判別する。存在する場合には、処理順序決定部１０４は、現在の識別対象領域画像１１１の位置情報をもとに、識別処理結果情報保持部１０７から、前フレームの対応領域画像９１０の識別処理結果情報１１７を取得し、処理順序を決定する。他方、存在しない場合には、以降のステップについては、第１の実施形態に示すステップと同様である。なお、ステップＳ８０７以降については、第１の実施形態と同様であるので説明を省略する。

本実施形態では、前フレームにおける識別処理結果情報１１７は、処理する対象フレーム内おける識別対象領域画像１１１の同一位置座標のものとしているが、これに限られるものではない。例えば、位置座標の近傍の識別処理結果情報１１７でもよい。また、例えば、前フレームと現在のフレームとの動きベクトルをもとに位置を予測し、使用する近傍の識別処理結果情報１１７を決めてもよい。したがって、処理順序決定部１０４は、一の入力画像における部分画像に対応する一の入力画像とは異なる入力画像における部分画像、又は当該部分画像の近傍の部分画像と複数の辞書データ１１２の各々とが参照されて識別される順序を決定してもよい。

＜第３の実施形態＞
第３の実施形態に係る処理順序決定部１０４は、識別処理の処理順序を決定する際に、予め学習時に求めておいた統計情報を用いる。なお、第３の実施形態では、第１の実施形態に係る構成と同一の構成については、第１の実施形態で用いた符号と同一の符号を採用する。
例えば、画像から顔の検出を行う場合には、学習画像（例えば、顔を含まない画像）を予め多数用意しておき、処理順序決定部１０４は、以下に説明する要領で統計情報を取得する。すなわち、処理順序決定部１０４は、識別器１（４０１）から識別器Ｎ（４０Ｎ）の内、画像内のある矩形領域に対してどの識別器でFALSEとなるかの統計量と、その近傍の矩形領域に対してどの識別器でFALSEとなるかの統計量とを関連付ける。

ここで、識別器が１０個並んだカスケード型の識別処理を行う場合に取得した統計量の例を図１０に示す。図１０に示す例では、Ｌ行Ｍ列の欄の数値は、画像内の矩形領域が識別器ＬでFALSEとなった矩形領域のうち近傍の矩形領域が識別器ＭでFALSEとなった頻度を表す。すなわち、表中の数値が大きいほど識別器間のFALSEとなる結果の相関が高いことを表す。したがって、例えば、近傍の矩形領域である隣接領域画像７００が識別器６（４０６）でFALSEした場合、この例によると、識別器５（４０５）、６、２、…、８、１０、という順で識別処理を実施する。このような順序で識別処理を実施することで、確率上、効率の良いカスケード型の識別処理を実施できることになる。

そこで、統計情報をもとに処理順序を決定する方法を用いた場合の処理の流れを、図８を参照して説明する。なお、処理の流れとしては、ステップＳ８０６を除いて、第１の実施形態と同様であるので、ステップＳ８０６に着目して説明をする。
ステップ８０６において、処理順序決定部１０４は、近傍領域画像６００の識別処理結果情報１１７から処理順序決定部１０４に保持した処理順序情報をもとに処理順序情報１１８を提示する。なお、処理順序決定部１０４の処理順序情報は、上述したように予め学習時に求めておいた統計情報であり、近傍の矩形領域での処理結果別にList配列として保持されている。
なお、処理順序情報は、必ずしも図１０に示した相関の高い順にList配列とする必要はない。例えば、カスケード型識別処理を構成する夫々の識別器の処理演算量が異なる場合には、List配列は、識別器間の相関が低くても処理演算量が小さい識別器を優先的に処理する構成としてもよい。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

上述した各実施形態の構成によれば、近傍の画像パターンの識別処理結果情報１１７をもとに、FALSEになる可能性が高い識別器から処理を開始することにより、識別処理が早期に打ち切られ、処理時間が向上する。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００画像入力部、１０１画像切り出し部、１０２識別処理部、１０３識別処理制御部、１０４処理順序決定部、１０５辞書データ保持部、１０７識別処理結果情報保持部

Claims

入力画像から切り出し位置を順次ずらしながら部分画像を切り出す切出手段と、
前記切出手段で切り出された一の部分画像に対して、記憶部に予め記憶されている物体を識別するための複数の識別情報の参照順序を決定する決定手段と、
前記複数の識別情報を前記参照順序に従って順次参照して、参照される各識別情報に基づいて前記部分画像が前記物体に係る画像であるか否かを識別し、ある識別情報に基づいて前記部分画像が前記物体に係る画像でないと識別されると、前記参照順序において前記識別情報より後の識別情報に基づく識別を止める識別手段と、
前記識別手段で前記部分画像が前記物体に係る画像でないと識別された場合に、前記識別された部分画像の切り出し位置と前記識別に用いられた識別情報の識別子とを対応付けた識別結果情報を保持部に保存する保存手段と、
を有し、
前記決定手段は、前記一の部分画像に対して、前記識別結果情報中に前記部分画像の近傍の切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報を優先させて、前記参照順序を決定する物体識別装置。
前記決定手段は、新たに切り出された前記部分画像に対して、前記識別結果情報中に前記部分画像の近傍の切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報が最初に参照されるように前記参照順序を決定する、請求項１記載の物体識別装置。
動画に含まれる一連の入力画像のそれぞれから切り出し位置を順次ずらしながら部分画像を切り出す切出手段と、
前記切出手段で切り出された一の入力画像における一の部分画像に対して、記憶部に予め記憶されている物体を識別するための複数の識別情報の参照順序を決定する決定手段と、
前記複数の識別情報を前記参照順序に従って順次参照して、参照される各識別情報に基づいて前記一の入力画像における一の部分画像が前記物体に係る画像であるか否かを識別し、ある識別情報に基づいて前記部分画像が前記物体に係る画像でないと識別されると、前記参照順序において前記識別情報より後の識別情報に基づく識別を止める識別手段と、
前記識別手段で前記部分画像が前記物体に係る画像でないと識別された場合に、前記識別された部分画像の切り出し位置と前記識別に用いられた識別情報の識別子とを対応付けた識別結果情報を保持部に保存する保存手段と、
を有し、
前記決定手段は、前記一の入力画像における前記一の部分画像に対して、前記識別結果情報中に前記一の入力画像と時間的に近接する入力画像における部分画像の関連する切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報を優先させて、前記参照順序を決定する物体識別装置。
入力画像から切り出し位置を順次ずらしながら部分画像を切り出す切出工程と、
前記切出工程で切り出された一の部分画像に対して、記憶部に予め記憶されている物体を識別するための複数の識別情報の参照順序を決定する決定工程と、
前記複数の識別情報を前記参照順序に従って順次参照して、参照される各識別情報に基づいて前記部分画像が前記物体に係る画像であるか否かを識別し、ある識別情報に基づいて前記部分画像が前記物体に係る画像でないと識別されると、前記参照順序において前記識別情報より後の識別情報に基づく識別を止める識別工程と、
前記識別工程で前記部分画像が前記物体に係る画像でないと識別された場合に、前記識別された部分画像の切り出し位置と前記識別に用いられた識別情報の識別子とを対応付けた識別結果情報を保持部に保存する保存工程と、
を含み、
前記決定工程では、前記一の部分画像に対して、前記識別結果情報中に前記部分画像の近傍の切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報を優先させて、前記参照順序を決定する物体識別方法。
動画に含まれる一連の入力画像のそれぞれから切り出し位置を順次ずらしながら部分画像を切り出す切出工程と、
前記切出工程で切り出された一の入力画像における一の部分画像に対して、記憶部に予め記憶されている物体を識別するための複数の識別情報の参照順序を決定する決定工程と、
前記複数の識別情報を前記参照順序に従って順次参照して、参照される各識別情報に基づいて前記一の入力画像における一の部分画像が前記物体に係る画像であるか否かを識別し、ある識別情報に基づいて前記部分画像が前記物体に係る画像でないと識別されると、前記参照順序において前記識別情報より後の識別情報に基づく識別を止める識別工程と、
前記識別工程で前記部分画像が前記物体に係る画像でないと識別された場合に、前記識別された部分画像の切り出し位置と前記識別に用いられた識別情報の識別子とを対応付けた識別結果情報を保持部に保存する保存工程と、
を含み、
前記決定工程では、前記一の入力画像における前記一の部分画像に対して、前記識別結果情報中に前記一の入力画像と時間的に近接する入力画像における部分画像の関連する切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報を優先させて、前記参照順序を決定する物体識別方法。
コンピュータを、
入力画像から切り出し位置を順次ずらしながら部分画像を切り出す切出手段と、
前記切出手段で切り出された一の部分画像に対して、記憶部に予め記憶されている物体を識別するための複数の識別情報の参照順序を決定する決定手段と、
前記複数の識別情報を前記参照順序に従って順次参照して、参照される各識別情報に基づいて前記部分画像が前記物体に係る画像であるか否かを識別し、ある識別情報に基づいて前記部分画像が前記物体に係る画像でないと識別されると、前記参照順序において前記識別情報より後の識別情報に基づく識別を止める識別手段と、
前記識別手段で前記部分画像が前記物体に係る画像でないと識別された場合に、前記識別された部分画像の切り出し位置と前記識別に用いられた識別情報の識別子とを対応付けた識別結果情報を保持部に保存する保存手段と、
して機能させ、
前記決定手段は、前記一の部分画像に対して、前記識別結果情報中に前記部分画像の近傍の切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報を優先させて、前記参照順序を決定するプログラム。
コンピュータを、
動画に含まれる一連の入力画像のそれぞれから切り出し位置を順次ずらしながら部分画像を切り出す切出手段と、
前記切出手段で切り出された一の入力画像における一の部分画像に対して、記憶部に予め記憶されている物体を識別するための複数の識別情報の参照順序を決定する決定手段と、
前記複数の識別情報を前記参照順序に従って順次参照して、参照される各識別情報に基づいて前記一の入力画像における一の部分画像が前記物体に係る画像であるか否かを識別し、ある識別情報に基づいて前記部分画像が前記物体に係る画像でないと識別されると、前記参照順序において前記識別情報より後の識別情報に基づく識別を止める識別手段と、
前記識別手段で前記部分画像が前記物体に係る画像でないと識別された場合に、前記識別された部分画像の切り出し位置と前記識別に用いられた識別情報の識別子とを対応付けた識別結果情報を保持部に保存する保存手段と、
して機能させ、
前記決定手段は、前記一の入力画像における前記一の部分画像に対して、前記識別結果情報中に前記一の入力画像と時間的に近接する入力画像における部分画像の関連する切り出し位置に対応付けて識別子が含まれている場合、前記識別子に対応する識別情報を優先させて、前記参照順序を決定するプログラム。