JP5693670B2

JP5693670B2 - 画像処理装置及び画像処理方法

Info

Publication number: JP5693670B2
Application number: JP2013143854A
Authority: JP
Inventors: 八代　哲; 哲八代; 東條　洋; 洋東條; 睦凌郭
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-07-09
Filing date: 2013-07-09
Publication date: 2015-04-01
Anticipated expiration: 2029-01-13
Also published as: JP2013235603A

Description

本発明は、画像処理装置及び画像処理方法に関する。

画像中から被写体を検出する技術の例としては、ＶｉｏｌａとＪｏｎｅｓの報告（非特許文献１参照）がある。これは、所定の大きさのサブウィンドウを走査し、サブウィンドウ内の画像を切り出したパターン画像に対し被写体であるか否かの２クラス判別を行う。この判別には、ＡｄａＢｏｏｓｔを使って多くの弱判別器を有効に組合せて判別器を構成し、判別精度を向上させる。一方、この判別器を直列に繋ぎ、カスケード型の検出器を構成するようにする技術もある。更に夫々の弱判別器をＨａａｒタイプの矩形特徴量で構成し、矩形特徴量の算出を、積分画像を利用して高速に行う技術もある。このカスケード型の検出器は、まず前段の単純な（即ち計算量のより少ない）判別器を使って明らかに被写体でないパターンの候補をその場で除去する。それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な（即ち計算量のより多い）判別器を使って被写体かどうかの判定を行なう。従って、全ての候補に対して複雑な判定を行う必要がないので高速である。

また、早い段階で被写体でないパターンを対象から外すことで高速化した技術が知られている（特許文献１参照）。これは、顔画像と非顔画像とを識別する顔学習辞書と、対象画像のエッジ画像と、に基づいて、対象画像から、顔画像を含むと思われる部分画像を抽出し、学習辞書を参照して、抽出された部分画像が、顔画像を含んでいるか否かを識別するものである。
動画から効率よく被写体を検出する場合、時間的に近いフレーム同士は相関が高いことを利用することができる事が知られている（特許文献２参照）。これは、物体検出処理によって、何れかの階層において特定物体が検出された場合には、次の入力画像に対しては、特定物体が検出された階層と同じ階層の階層画像に対して物体検出処理を行なうものである。

特開２００３−４４８５３号公報特開２００７−２５７３５８号公報

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ'０１）ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｕｓｉｎｇＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ

非特許文献１及び特許文献１は１枚の画像を対象としたものであり、動画から被写体を効率的に探索することは考慮されていない問題がある。
特許文献２は検出結果によって次のフレームの探索範囲を絞り込むものであるが、検出しなかった場所は探索範囲外となる。従って、新たにフレームインした被写体や物陰から現れた被写体を検出するためには定期的に全領域を対象にして探索する必要があるため、効率よく検出することができない問題がある。

本発明はこのような問題点に鑑みなされたもので、動画から被写体を効率よく検出することを目的とする。

そこで、本発明の画像処理装置は、動画像を入力する動画像入力手段と、前記動画像の各フレームの画像を縮小してサイズの異なる複数の画像を生成する生成手段と、前記生成手段で生成された各サイズの画像に対して、前フレームの画像上のサブウィンドウ設定位置と対応付けて被写体尤度情報を記憶する被写体尤度情報記憶手段と、現フレームの各サイズの画像に対して、前フレームのサブウィンドウ設定位置とは異なる位置に設定されるサブウィンドウ候補位置の被写体尤度情報を、前フレームの対応する位置近傍の被写体尤度情報に基づいて補完し、前記被写体尤度情報記憶手段に設定する被写体尤度情報補完手段と、現フレームについて、前記複数の画像の各画像上で、前フレームのサブウィンドウ設定位置とは異なるサブウィンドウ候補位置であって、該画像のサイズに対して該画像上の位置と対応付けて前記被写体尤度情報記憶手段に記憶されている被写体尤度情報が所定の閾値以上である位置に、所定サイズのサブウィンドウを順次設定するサブウィンドウ設定手段と、前記サブウィンドウ設定手段で設定されたサブウィンドウ内のパターンの局所特徴量に基づいて、画像中の被写体を検出する被写体検出手段と、前記サブウィンドウに対する前記被写体検出手段の検出結果に基づいて、現フレームの当該サブウィンドウ設定位置に対する被写体尤度情報を導出する導出手段と、を有することを特徴とする。

また、本発明は、画像処理方法、プログラム及び記憶媒体としてもよい。

本発明によれば、動画から被写体を効率よく検出することができる。

画像処理装置のハードウェア構成の一例を示す図（その１）である。画像処理装置の概略構成を示した図である。本実施形態の概略処理の一例を示すフローチャートである。サブウィンドウの走査方法の一例を示す図である。表示装置２０９に表示する画面の一例を示す図である。探索制御部１０２の処理の一例を示すフローチャートである。被写体尤度情報の位置を移動する一例を示す図である。被写体判別部１０３の概要の一例を示す図である。各強判別部の一例を示す図である。各弱判別部の一例を示す図である。判別情報格納部８０５に格納される判別パラメータについて説明するための図である。顔判別処理の一例を示すフローチャートである。多重解像度化したパターンと画素番号との関係を示す図である。画像処理装置のハードウェア構成の一例を示す図（その２）である。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
（ハードウェア構成）
図１は、画像処理装置のハードウェア構成の一例を示す図（その１）である。
画像処理装置は、以下の構成により成る。
ＣＰＵ２０１は、ＲＯＭ２０２やＲＡＭ２０３に格納されたプログラムに従って命令を実行する。ＣＰＵ２０１がプログラムに従って命令を実行することによって、後述する機能やフローチャートに係る処理が実現される。
ＲＯＭ２０２は、本実施形態のプログラムやその他の制御に必要なプログラムやデータを格納する。
ＲＡＭ２０３は、画像情報２１２、被写体尤度情報２１３の他、一時的なデータを格納する。

ドライブＩ／Ｆ２０４は、ＩＤＥやＳＣＳＩ等の外部記憶装置とのインターフェースを実現する。
ＨＤＤ２０５は、画像やパターン抽出等のプログラムや、顔、非顔のサンプルパターン等を記憶する。
動画像入力装置２０６は、デジタルビデオカメラやネットワークカメラ等の装置から動画像を入力する。
入力装置２０８は、キーボードやマウス等であって、オペレータからの入力を行う。
表示装置２０９は、ブラウン管や液晶ディスプレイ等である。
ネットワークＩ／Ｆ２１０は、インターネットやイントラネット等のネットワークと接続を行うモデムやＬＡＮ等である。
バス２１１は、これらを接続して相互にデータの入出力を行う。

（概略構成）
図２は、画像処理装置の概略構成を示した図である。
動画像入力部１０１は、動画像入力装置２０６から入力される動画像の各フレームを入力する。
探索制御部１０２は、被写体を評価するための後述する図４のサブウィンドウ５０１の走査方法を制御する。より具体的に説明すると、探索制御部１０２は、走査位置における前フレームの被写体尤度情報に従って走査幅の制御を行う。
被写体検出部１０３は、サブウィンドウ５０１上の画像情報が被写体であるかどうかを評価し、被写体らしさを出力し、かつ、所定の閾値によって被写体であることを判定する。
被写体尤度情報記憶部１０４は、入力画像の位置及び被写体サイズ毎に被写体らしさ（被写体尤度情報）を関連付けて記憶する。

（概略処理フローチャート）
図３は、本実施形態の概略処理の一例を示すフローチャートである。
本実施形態では被写体の一例として人間の顔を検出する画像処理装置を挙げて説明する。
ステップＳ３０１において、動画像入力部１０１は、動画像入力装置２０６から入力された各フレーム画像データをＲＡＭ２０３に読み込む。
ここで読み込まれた画像データは、例えば８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂ、３つの面により構成される。このとき、画像データがＭＰＥＧ，ＭｏｔｉｏｎＪＰＥＧ等の方式により圧縮されている場合、動画像入力部１０１は、画像データを所定の解凍方式にしたがって解凍し、ＲＧＢ各画素により構成される画像データとする。更に、本実施形態では動画像入力部１０１は、ＲＧＢデータを輝度画像データに変換し、輝度画像データを以後の処理に適用するものとして、ＲＡＭ２０３に格納する。
動画像入力部１０１は、画像データとしてＹＣｒＣｂのデータを入力する場合、Ｙ成分をそのまま輝度画像データとしてもよい。
なお、以降の処理に適用するものは輝度画像データに限定されるものではない。明るさやコントラスト調整等の正規化、色変換処理の他に所定の方向のエッジの強さを示すエッジ画像や、微分、積分等の画像処理を行った１つ又は異なる画像処理を適用した複数の画像データを以降の処理に適用するようにしてもよい。

次に、ステップＳ３０２において、動画像入力部１０１は、画像データを所定の倍率に縮小した輝度画像データを生成する。これは、本実施形態では様々な大きさの顔の検出に対応するため複数のサイズの画像データに対して順次検出を行うようにしたためである。例えば、倍率が１．２倍程度異なる複数の画像への縮小処理が後段の検出処理のために順次適用される。
図４のＡはステップＳ３０２で縮小されたそれぞれの縮小画像を示しており、ここでは、それぞれの縮小画像に対して所定の大きさの矩形領域を切り出すものとする。
次に、ステップＳ３０３において、探索制御部１０２は、縮小された輝度画像データ上に所定の大きさのサブウィンドウを設定する。この処理の詳細は後述する図６等を用いて説明する。

次に、ステップＳ３０４において、被写体判別部１０３は、照合パターンが顔パターンか非顔パターンかを判別する。この処理の詳細は後述する図１２等を用いて説明する。
以上、Ｓ３０３からＳ３０５までの処理で、ステップＳ３０２の出力である縮小輝度画像に対して図４に示すようにサブウィンドウ５０１の走査が繰り返される。
また、倍率が異なる縮小処理が順次適用され、Ｓ３０２からＳ３０５までの処理が繰り返される。
ステップＳ３０５において、例えば被写体判別部１０３は、以上の繰り返し走査が完了したか判断し、完了した場合、ステップＳ３０６において、被写体判別部１０３は、顔と判別されたパターンに対して表示装置２０９へ顔領域として出力する。
図５は、表示装置２０９に表示する画面の一例を示す図である。図５では、入力画像１２０１に顔の検出結果を重畳して出力した画面表示の一例となっている。検出結果枠１２０２は、被写体判別部１０３によって抽出された顔パターンで、その位置と大きさとが示された枠である。ボタン１２０３は画面を閉じることを指定するボタンである。
次に、ステップＳ３０７において、例えば動画像入力部１０１は、動画が終了したか否かを判定し、終了するまでステップＳ３０１からステップＳ３０６までの処理を繰り返す。

（被写体尤度情報）
次に、被写体尤度情報２１３について説明する。
被写体尤度情報２１３は、図４のＡにおける各縮小画像でのサブウィンドウの移動可能領域に基づいた入力画像１画像分のデータである。即ち、縮小画像１つにつき、１つの２次元データである。２次元データの幅は、縮小画像の幅−サブウィンドウの幅＋１であり、高さは縮小画像の高さ−サブウィンドウの高さ＋１の２次元データである。
例えば被写体判別部１０３は、サブウィンドウの位置に基づいて記憶アドレスを求め、この記憶アドレスに被写体尤度情報を記憶する。例えば被写体判別部１０３は、サブウィンドウの左上の座標に相当する位置に、サブウィンドウ内のパターンを評価して得られた被写体尤度情報を被写体尤度情報記憶部１０４に記憶する。被写体判別部１０３は、量子化を行い、被写体尤度情報を行い、２値としてもよい。

（探索制御部）
次に、ステップＳ３０３における探索制御処理について詳細に説明する。
図４のＢは、非特許文献１において、それぞれの縮小画像から縦横順次に走査を繰り返していく途中の設定の様子を示すものである。図から分かるように、縮小率の大きな画像からサブウィンドウを設定して、サブウィンドウ内の画像パターン顔の判別を行う場合には、画像に対して大きな顔の検出を行うことになる。
本実施形態における探索制御部１０２は前フレームまでの被写体尤度情報に基づいて探索位置、即ちパターン評価を行うサブウィンドウの位置を設定する。

図６は、探索制御部１０２の処理の一例を示すフローチャートである。
ステップＳ４０１において、探索制御部１０２は、被写体尤度情報記憶部１０４に格納された被写体尤度情報を参照する。初回のフレーム画像では被写体尤度情報の情報は無いので、探索制御部１０２は、所定の尤度値で被写体尤度情報を初期化する。また、長期間評価しない座標では記憶していた尤度と映像との関係に誤差が生じるため、探索制御部１０２は、定期的に被写体判別を行う。
この際、探索制御部１０２は、時間的空間的に探索箇所を均等に分散する。即ち、探索制御部１０２は、例えば、偶数番目のフレームでは全探索を行い、奇数番目のフレームは探索しないというような探索方法を採らない。即ち、探索制御部１０２は、偶数番目のフレームでは偶数番目のラインを探索し、奇数番目のフレームでは奇数番目のラインを探索するようにする。つまり、探索制御部１０２は、前のフレームで決定したパターン切り出し位置以外の位置の被写体尤度情報を、前記位置とは異なる位置の被写体尤度情報に基づいて決定し、被写体尤度情報記憶部１０４に設定（又は記憶）するようにする。これにより、負荷の時間的分散が図れ、処理コストに対して精度向上を図ることができる。

また、探索制御部１０２は、オブジェクトの動きが既知であるならば、被写体尤度情報記憶部１０４に記憶されている被写体尤度情報の入力画像上の位置を移動させてもよい。
例えば、公知技術でオプティカルフロー等の動きベクトル生成技術がある。この技術は、主としてＭＰＥＧ等の動画符号化技術で利用されている。
例えば探索制御部１０２は、この技術を複数のフレーム画像に適用することで生成した動きベクトル情報を、被写体尤度情報記憶部１０４に記憶した被写体尤度情報に適用して被写体尤度情報の位置を移動させることができる。
図７は、被写体尤度情報の位置を移動する一例を示す図である。図７において、（ａ）は時刻ｔ＝ｎ−１におけるフレーム画像である。（ｃ）は時刻ｔ＝ｎにおけるフレーム画像である。（ｂ）はフレーム画像ｔ＝ｎ−１からｔ＝ｎにおいて、被写体の位置付近での動きベクトルを示す。また、（ｄ）は時刻ｔ＝ｎ−１におけるある縮小率における被写体尤度情報を２値化して可視化した図であり、黒い丸は被写体尤度情報が高いことを現す。（ｅ）は、ｔ＝ｎ−１における被写体尤度情報（ｄ）と動きベクトル（ｂ）とに基づいて被写体尤度情報が移動された後の被写体尤度情報である。動画を圧縮符号化する際には動きベクトル（動きベクトル情報）は被写体の有無に関わらず生成されるものである。探索制御部１０２は、動きベクトル情報を被写体が検出できていない被写体尤度情報の位置へ適用することで、被写体である可能性が高い場所のみを効果的に探索して被写体を検出することができる。

また、過去の被写体の位置情報から現在や未来の被写体の位置を予測する公知技術がある。例えば、カルマンフィルタ、パーティクルフィルタ等である。被写体を検出できた場合、例えば探索制御部１０２は、このような技術を用いて被写体の動きを求め、被写体尤度情報記憶部１０４に記憶した被写体尤度情報に適用する。そして、探索制御部１０２は、被写体尤度情報を移動させることで、被写体判別部１０３による被写体尤度情報の更新頻度を低減し、処理コストを抑えることができる。
次に、ステップＳ４０２において、探索制御部１０２は、最大尤度の拡張処理を行う。これは、ある位置における被写体尤度情報を所定範囲の近傍の最大の被写体尤度情報で置き換えることで実現する。
このステップの処理の目的は、前ステップでの説明で述べた、時間的空間的に探索箇所を均等に分散することで、探索が行われなかった位置に対して補完を行うことである。
次にステップＳ４０３において、探索制御部１０２は、図４のような走査を行い、サブウィンドウの位置に対応する尤度値（被写体尤度情報）が所定の閾値以上の位置へサブウィンドウの位置を設定する。
また、探索制御部１０２は、尤度値からサブウィンドウの移動量を決定してもよい。これには、探索制御部１０２は、被写体尤度情報に対応する移動幅を予め統計的に求めておいて、被写体尤度情報から移動量への変換テーブルを作成しておくことで実現する。

（被写体判別部１０３）
次に、ステップＳ３０４における顔判別の方法について詳細に説明する。
被写体判別部１０３は図８に示したように複数の強判別部６０１を直列に接続することで実現する。被写体判別部１０３は、前段の強判別部６０１に入力されたパターンデータが被写体であるか否かを判定し、被写体であった場合にのみ後段の強判別部６０１で同じパターンデータが被写体であるか否かの判定を前段より高い精度で行う。各強判別部及びその内部の弱判別部は同様な構成であり、各部の数や判別パラメータが異なるのみである。
図９は、各強判別部の一例を示す図である。各強判別部６０１は複数の弱判別部７０１で構成され、各々が出力する被写体尤度情報を加算器７０２で統合し、閾値処理７０３を行い、被写体であるか否かを出力する。

次に、各弱判別部について説明する。
図１０は、各弱判別部の一例を示す図である。各弱判別部７０１は、解像度変換部８０１と、局所領域抽出部８０２と、特徴量算出部８０３と、被写体信頼度変換部８０４とから構成される。各々の部へは判別情報格納部８０５から判別パラメータが供給される。
図１１は、判別情報格納部８０５に格納される判別パラメータについて説明するための図である。
判別パラメータは強判別部数９０１と、その数分の強判別パラメータ９０２と、が結合されたものである。各々の強判別パラメータ９０２は１つの強判別部に関するパラメータが格納される。各々の強判別パラメータ９０２は弱判別部数９０３とその数分の弱判別パラメータ９０４とが結合されたものである。各々の弱判別パラメータ９０４は１つの弱判別部に関するパラメータが格納される。各弱判別部数９０３は、それぞれの局所領域の画素数９０６と、局所領域の画素番号を列挙した画素番号リスト９０７と、画素数９０６に等しい行数＊１列の行列である特徴抽出フィルタ９０８と、を含む。また、各弱判別部数９０３は、特徴量から被写体の信頼度への変換テーブルである、被写体信頼度変換ルックアップテーブル９０９を含む。

画素番号は、図１３に示すように、本実施形態では顔パターンは目、口を含む２０画素＊２０画素のパターンとしている。また、本実施形態ではこれを更に１／２に縮小し１０画素＊１０画素にしたパターンと１／４に縮小して５画素＊５画素にしたパターンとを作り、それぞれの画素に対して１から５２５までの画素番号を付与している。このように多重解像度にすることによって以下の２つのメリットを併せ持つことができる。即ち、低解像度側では顔を構成する器官同士の位置関係を効率良く照合でき、高解像度側では顔を構成する器官の部分的特徴を精度良く照合できる。

図１２は、顔判別処理の一例を示すフローチャートである。
ステップＳ１１０１において、被写体判別部１０３は、解像度変換部８０１によりパターンの１／２と１／４との縮小画像を生成する。本実施形態では解像度は１／２ｎ（ｎは整数）としているが、これに限ったものではない。１／１．２倍程度の刻みで複数の解像度の画像が得られているので、解像度変換部８０１は、それを利用して更に多くの解像度でのパターンを用いてもよく、この場合でも処理コストが増加することはほとんどない。多重解像度にすることによって以下の２つのメリットを併せ持つことができる。即ち、低解像度側では顔を構成する器官同士の位置関係を効率良く照合でき、高解像度側では顔を構成する器官の部分的特徴を精度良く照合できる。
次にステップＳ１１０２において、被写体判別部１０３は、強判別部ループカウンタＮを初期化する。
次にステップＳ１１０３において、被写体判別部１０３は、弱判別部ループカウンタｔを初期化する。

次にステップＳ１１０４において、特徴量算出部８０３は、局所特徴量を算出する。局所特徴量ｕｔは式（１）によって求める。
Ｕ_t,N ＝φ_t、_N ^Tｚ_t,N ・・・式（１）
ここで添え字ｔ，ＮはＮ番目の強判別部のｔ番目の弱判別部を示す。
Ｕ_t,Nは局所特徴量を示す数値であり、
φ_t,Nは特徴抽出フィルタ９０８であり、
ｚ_t,Nは局所領域抽出部８０２によって得られる画素番号リスト９０７で示されるパターン又は縮小パターン上の画素の輝度を要素とする画素数に等しい行数で１列の行列である。

次にステップＳ１１０５において、被写体信頼度変換部８０４は、式（２）の様に局所特徴量Ｕｔ，Ｎから被写体信頼度に変換する。
Ｈ_t,N ＝ｆ_t,N（Ｕ_t,N）・・・式（２）
但しＨ_t、_Nは被写体信頼度の出力である。
ｆ_t,Nは被写体信頼度変換ルックアップテーブル９０９を使って、局所特徴量Ｕ_t,Nからテーブル変換によって被写体信頼度に変換し、弱判別部の出力としている。
被写体信頼度変換部８０４は、局所特徴量Ｕ_t,Nが変換テーブルの上限又は下限を超えている場合はそれぞれ、上限値、下限値にしたうえで、テーブルを参照し、被写体信頼度を得る。

次にステップＳ１１０６において、被写体判別部１０３は、最後の弱判別部になるまでステップＳ１１１１で弱判別部番号ｔをインクリメントしながらステップＳ１１０４〜ステップＳ１１０６の処理を繰り返す。
最後の弱判別部まで被写体信頼度を求めた場合、ステップＳ１１０７に進み、加算器７０２は、式（３）のように被写体信頼度の総和を求める。
Ｈ＝ Σ_tＨ_t、_N ・・・式（３）

次にステップＳ１１０８において、閾値処理部７０３は、式（４）のように前ステップで求められた総和の閾値比較によって被写体か否かの判定を行う。
Ｈ ≧ Ｔｈ_N ・・・式（４）
強判別部６０１は、顔でないと判定した場合、顔でないとして終了する。
強判別部６０１は、顔であると判定した場合、ステップＳ１１０９に進む。ステップＳ１１０９において、被写体判別部１０３は、最後の強判別部の判定を終わるまでステップＳ１１１２で強判別部番号ＮをインクリメントしながらステップＳ１１０３〜ステップＳ１１０９の処理を繰り返す。

被写体判別部１０３は、最後の強判別部まで全て顔と判定された場合にのみ最終的に顔であると判定し、ステップＳ１１１０に進み、パターンの位置を記憶して終了する。
本実施形態では、局所特徴量として、照合パターンのうち所定解像度、所定サイズ、形状の局所領域における線形識別特徴を用いたが、非特許文献１にも適用できる。

（被写体尤度情報）
次に被写体尤度情報の求め方について説明する。例えば被写体判別部１０３は、複数ある強判別部を通過した数と実際に被写体である確率との関係を予め求めておき、強判別部の通過数に基づいて尤度を求める。また、被写体判別部１０３は、各強判別部で求められる、被写体信頼度の総和Ｈと実際に被写体である確率との関係を予め求めておき、被写体信頼度の総和に基づいて尤度（被写体尤度情報）を求めてもよい。

＜実施形態２＞
図１４は、画像処理装置のハードウェア構成の一例を示す図（その２）である。実施形態１と共通する部分には同じ番号を付与している。
ブロック構成としてはプログラムを記録したＤＶＤ又はＣＤのような光ディスク２１４を追加し、ドライブインターフェース２０４にＣＤ／ＤＶＤドライブ等の外部記憶読書装置２１５が接続されているところが実施形態１と異なる。
プログラムを記録した光ディスク２１４を外部記憶読書装置２１５に挿入するとＣＰＵ２０１は記録媒体からプログラムを読み取って、ＲＡＭ２０３に展開することで、実施形態１と同様の処理を実現することができる。

＜実施形態３＞
実施形態１、実施形態２では顔抽出を行うシステムとしているが、上述した処理は顔以外の任意の物体に対して適用可能である。例えば、人体全身、人体上半身、生物、自動車等がある。工業、流通分野等では生産物、部品、流通物品等の同定や検査等に適用できる。

＜その他の実施形態＞
また、本発明の目的は、以下のようにすることによって達成される。即ち、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（又は記録媒体）を、システム或いは装置に供給する。そして、そのシステム或いは装置の中央演算処理手段（ＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施形態の機能を実現することになり、そのプログラムコードを記録した記憶媒体は本発明を構成することになる。

また、システム或いは装置の前記中央演算処理手段が読み出したプログラムコードを実行することにより、そのプログラムコードの指示に基づき、システム或いは装置上で稼働しているオペレーティングシステム（ＯＳ）等が実際の処理の一部又は全部を行う。その処理によって上述した実施形態の機能が実現される場合も含まれる。

更に、記憶媒体から読み出されたプログラムコードが、前記システム或いは装置に挿入された機能拡張カードや、接続された機能拡張ユニットに備わるメモリに書込まれたとする。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行い、その処理によって上述した実施形態の機能が実現される場合も含まれる。

本発明を前記記憶媒体に適用する場合、その記憶媒体（コンピュータ読み取り可能な記憶媒体）には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。

以上、上述した各実施形態によれば、被写体が存在する可能性が高い領域のみを探索するので、動画から被写体を効率よく検出することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０１動画像入力部
１０２探索制御部
１０３被写体判別部
１０４被写体尤度情報記憶部

Claims

動画像を入力する動画像入力手段と、
前記動画像の各フレームの画像を縮小してサイズの異なる複数の画像を生成する生成手段と、
前記生成手段で生成された各サイズの画像に対して、前フレームの画像上のサブウィンドウ設定位置と対応付けて被写体尤度情報を記憶する被写体尤度情報記憶手段と、
現フレームの各サイズの画像に対して、前フレームのサブウィンドウ設定位置とは異なる位置に設定されるサブウィンドウ候補位置の被写体尤度情報を、前フレームの対応する位置近傍の被写体尤度情報に基づいて補完し、前記被写体尤度情報記憶手段に設定する被写体尤度情報補完手段と、
現フレームについて、前記複数の画像の各画像上で、前フレームのサブウィンドウ設定位置とは異なるサブウィンドウ候補位置であって、該画像のサイズに対して該画像上の位置と対応付けて前記被写体尤度情報記憶手段に記憶されている被写体尤度情報が所定の閾値以上である位置に、所定サイズのサブウィンドウを順次設定するサブウィンドウ設定手段と、
前記サブウィンドウ設定手段で設定されたサブウィンドウ内のパターンの局所特徴量に基づいて、画像中の被写体を検出する被写体検出手段と、
前記サブウィンドウに対する前記被写体検出手段の検出結果に基づいて、現フレームの当該サブウィンドウ設定位置に対する被写体尤度情報を導出する導出手段と、
を有することを特徴とする画像処理装置。
前記被写体尤度情報補完手段は、前記サブウィンドウ候補位置の被写体尤度情報を、前フレームの対応する位置近傍の被写体尤度情報の最大値に決定することを特徴とする請求項１に記載の画像処理装置。
前記動画像の複数のフレームに基づいて動きベクトル情報を生成し、前記サブウィンドウ候補位置の被写体尤度情報を、前記動きベクトル情報に基づいて決定された前フレームの位置の被写体尤度情報に基づいて決定し、前記被写体尤度情報記憶手段に設定する被写体尤度情報設定手段を更に有することを特徴とする請求項１に記載の画像処理装置。
前記被写体尤度情報記憶手段は、前記各サイズの画像に対する前記被写体尤度情報を、前記サブウィンドウの移動可能領域に基づいた画像上の位置と対応する２次元データとして記憶することを特徴とする請求項１に記載の画像処理装置。
画像処理装置における画像処理方法であって、
動画像を入力する動画像入力ステップと、
前記動画像の各フレームの画像を縮小してサイズの異なる複数の画像を生成する生成ステップと、
現フレームの各サイズの画像に対して、前フレームのサブウィンドウ設定位置とは異なる位置に設定されるサブウィンドウ候補位置の被写体尤度情報を、前フレームの対応する位置近傍の被写体尤度情報に基づいて補完し、各サイズの画像に対して前フレームの画像上のサブウィンドウ設定位置と対応付けて被写体尤度情報を記憶する被写体尤度情報記憶手段に設定する被写体尤度情報補完ステップと、
現フレームについて、前記複数の画像の各画像上で、前フレームのサブウィンドウ設定位置とは異なるサブウィンドウ候補位置であって、該画像のサイズに対して該画像上の位置と対応付けて前記被写体尤度情報記憶手段に記憶されている被写体尤度情報が所定の閾値以上である位置に、所定サイズのサブウィンドウを順次設定するサブウィンドウ設定ステップと、
前記サブウィンドウ設定ステップで設定されたサブウィンドウ内のパターンの局所特徴量に基づいて、画像中の被写体を検出する被写体検出ステップと、
前記サブウィンドウに対する前記被写体検出ステップの検出結果に基づいて、現フレームの当該サブウィンドウ設定位置に対する被写体尤度情報を導出する導出ステップと、
を含むことを特徴とする画像処理方法。
コンピュータに、
動画像を入力する動画像入力ステップと、
前記動画像の各フレームの画像を縮小してサイズの異なる複数の画像を生成する生成ステップと、
現フレームの各サイズの画像に対して、前フレームのサブウィンドウ設定位置とは異なる位置に設定されるサブウィンドウ候補位置の被写体尤度情報を、前フレームの対応する位置近傍の被写体尤度情報に基づいて補完し、各サイズの画像に対して前フレームの画像上のサブウィンドウ設定位置と対応付けて被写体尤度情報を記憶する被写体尤度情報記憶手段に設定する被写体尤度情報補完ステップと、
現フレームについて、前記複数の画像の各画像上で、前フレームのサブウィンドウ設定位置とは異なるサブウィンドウ候補位置であって、該画像のサイズに対して該画像上の位置と対応付けて前記被写体尤度情報記憶手段に記憶されている被写体尤度情報が所定の閾値以上である位置に、所定サイズのサブウィンドウを順次設定するサブウィンドウ設定ステップと、
前記サブウィンドウ設定ステップで設定されたサブウィンドウ内のパターンの局所特徴量に基づいて、画像中の被写体を検出する被写体検出ステップと、
前記サブウィンドウに対する前記被写体検出ステップの検出結果に基づいて、現フレームの当該サブウィンドウ設定位置に対する被写体尤度情報を導出する導出ステップと、
を実行させるためのプログラム。
請求項６に記載のプログラムを記憶したコンピュータにより読み取り可能な記憶媒体。