JP4281338B2

JP4281338B2 - 画像検出装置及び画像検出方法

Info

Publication number: JP4281338B2
Application number: JP2002339654A
Authority: JP
Inventors: 寛司三原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-11-22
Filing date: 2002-11-22
Publication date: 2009-06-17
Anticipated expiration: 2022-11-22
Also published as: JP2004171490A

Description

【０００１】
【発明の属する技術分野】
本発明は，画像内の所定の対象物を検出する画像検出装置及び画像検出方法に関し，例えばビデオ映像から人間の顔を検出するのに好適な画像検出装置及び画像検出方法に関する。
【０００２】
【従来の技術】
従来，ビデオ映像等の画像から，所定の対象物，例えば人間の顔等を検出・認識する技術が提案されており（例えば，特許文献１参照），監視システム，ロボット装置などへの応用が考えられている。この分野の検出・認識方法としては，サポートベクタマシン（ＳＶＭ：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）のようなテンプレートマッチングの手法を使用する方法が知られている。なお，本願発明に関連する先行技術文献情報には，次のものがある。
【０００３】
【特許文献１】
特開２００１−２１６５１５号公報
【０００４】
【発明が解決しようとする課題】
ところで，上記のような顔検出・認識を行う装置においては，パターン認識アルゴリズムに要する演算量が膨大になる。そこで，演算処理を軽減しつつ，実用上十分な検出精度を実現することが重要となり，要望されている。従来，ビデオ映像から，縮小スケール画像からなる所定サイズのウィンドウ画像を作り，大まかに顔画像であるか否かを判断して，明らかに顔画像でないウィンドウ画像を除去することにより全体の演算量の軽減を図る手法が考案されている。しかしながら，この手法だけでは，連続した動画像から顔を検出するような場合，時間方向の冗長度を利用しておらず，演算量の軽減が十分とはいえなかった。
【０００５】
本発明は上述した問題に鑑みてなされたもので，画像内の所定の対象物を検出するにあたり，演算量の軽減を推進可能な画像検出装置及び画像検出方法を提供することを目的とする。
【０００６】
【課題を解決するための手段】
上記課題を解決するために，本発明の第１の観点によれば，画像の中における所定の対象物の位置を検出する画像検出装置であって，連続した複数のフレームのなかで，前記所定の対象物を全く探索しない非探索フレームと，前記所定の対象物をフレーム内全ての領域にわたって探索する全探索フレームと，を設定し，前記非探索フレームの間に前記全探索フレームを所定の周期で設ける検出手段を具備することを特徴とする画像検出装置が提供される。
【０００７】
本発明では，全てのフレームに対して対象物を探索するのではなく，対象物を全く探索しない非探索フレームを設定している。非探索フレームでは対象物を全く探索しないため，この分の演算量を大幅に軽減できる。非探索フレームの間に全探索フレームを所定の周期で設けることで，所定の対象物の位置を検出しつつ，演算量の軽減を達成できる。
【０００８】
ここで，検出手段はさらに，前記所定の対象物の位置が検出されたフレームの後には，前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設けることが好ましい。
【０００９】
対象物が瞬時的に極端に位置を変更することは通常起こりにくいため，対象物の検出後は，対象物の位置の近傍を中心に探索すればよく，これにより，探索する画像を減らすことができる。
【００１０】
その際に，近傍探索フレームにおける探索範囲は，検出された所定の対象物の大きさや，画像を撮影している撮影手段のズーム量および移動角度，動きベクトル等に応じて，決定，調整されることが好ましく，これらの情報を用いることにより，探索する画像を減らすことができ，また高精度な検出が可能になる。ここで，移動角度は，例えば，後述の本実施の形態にかかるパン・チルト等に該当する。
【００１１】
また，検出手段は，所定のフレームにわたって全く動かない対象物を静止物体であるとして検出対象から除外するように構成してもよい。これにより，誤検出を排除でき，演算量を軽減できる。
【００１２】
また，本発明の第２の観点によれば，画像内の所定の対象物を検出する画像検出方法であって，連続したフレームのなかで，前記所定の対象物を全く探索しない非探索フレームと，前記所定の対象物をフレーム内全ての領域にわたって探索する全探索フレームと，を設定し，前記非探索フレームの間に前記全探索フレームを所定の周期で設けることを特徴とする画像検出方法が提供される。
【００１３】
本発明では，全てのフレームに対して対象物を探索するのではなく，対象物を全く探索しない非探索フレームを設定している。非探索フレームでは対象物を全く探索しないため，この分の演算量を大幅に軽減できる。非探索フレームの間に全探索フレームを所定の周期で設けることで，所定の対象物の位置を検出しつつ，演算量の軽減を達成できる。
【００１４】
ここで，前記所定の対象物の位置が検出されたフレームの後には，前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設けることが好ましい。
【００１５】
対象物が瞬時的に極端に位置を変更することは通常起こりにくいため，対象物の検出後は，対象物の位置の近傍を中心に探索すればよく，これにより，探索する画像を減らすことができる。
【００１６】
【発明の実施の形態】
以下，添付図面を参照しながら，本発明の好適な実施の形態にかかる画像検出装置および画像検出方法について詳細に説明する。
【００１７】
まず，図１を参照しながら，本実施の形態にかかる画像検出装置の構成について説明する。なおここでは，検出する対象物を人間の顔とした場合を例にとり説明する。図１に示すように，本実施の形態にかかる画像検出装置は，画像入力手段としてのＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラ１０と，画像処理を行って顔を検出する顔検出部２０とを主要構成部として有する。
【００１８】
本装置はさらに，画像を圧縮して伝送する画像圧縮・伸張部３０，ＴＶ（テレビジョン）モニター４０，マイク５０，音声方向検出部６０，音声圧縮・伸張部７０，スピーカー８０，多重・ネットワークインタフェース９０のなかからそれぞれを必要に応じて組み合わせて構成することも可能である。
【００１９】
ＣＣＤカメラ１０は，映像入力デバイスからの動画像を取り込む画像入力手段であり，取り込んだ動画像を顔検出部２０へ送出する。ＣＣＤカメラ１０は，電動のＰＴＺ装置（パン・チルト・ズーム装置）等により自由に向きを変えることができることが好ましく，その場合には例えば，顔だと認識した領域が画像の中央に来るように制御することが容易になる。
【００２０】
顔検出部２０は，ＣＣＤカメラ１０で取り込んだ画像信号をフレーム単位で不図示の内部メモリに記憶し，取り込んだ映像から人間の顔画像を検出する。場合によっては，それに加えて人物の識別を処理する機能を持つよう構成してもよい。
【００２１】
マイク５０は，複数のマイクを配列したマイクアレーで構成することが好ましく，その場合は後述のように音声方向検出が可能になり，探索範囲の縮小に寄与できる。多重・ネットワークインタフェース９０は電話回線等のネットワークと接続されている。
【００２２】
図１に示す構成における全体的な情報の流れとしては，ＣＣＤカメラ１０で撮影された映像が顔検出部２０へ入力され，顔検出が行われる。ＣＣＤカメラ１０がＰＴＺ装置を装備している場合は，顔検出部２０での処理結果に応じて顔検出部２０からＣＣＤカメラ１０へＰＴＺ制御の指示が出される。映像データは顔検出部２０で画像処理を施された後，画像圧縮・伸張部３０へ送出され，必要に応じ圧縮・伸張された後，ＴＶモニター４０及び多重・ネットワークインタフェース９０へ送出される。なお場合に応じて，画像圧縮・伸張部３０から顔検出部２０へは動きベクトルの情報が送出される。
【００２３】
一方，マイク５０に集音された音声は音声方向検出部６０により音声の方向が検出される。検出された音声方向のデータは顔検出部２０へ送出される。また，音声は音声方向検出部６０から音声圧縮・伸張部７０へ送出され，必要に応じ圧縮・伸張された後，スピーカー８０及び多重・ネットワークインタフェース９０へ送出される。
【００２４】
図２は，顔検出部２０の処理内容を説明するための機能ブロック図である。図２に示すように，入力画像スケール変換部２０２，ウィンドウ切出部２０４，テンプレートマッチング部２０６，前処理部２０８，パターン識別部２１０，重なり判定部２１２に分けることができる。以下，各部の機能について概略的に説明する。
【００２５】
入力画像スケール変換部２０２は，ＣＣＤカメラ１０（図１）からの画像信号に基づくフレーム画像を不図示の内部メモリから読み出して，フレーム画像を縮小率が相異なる複数のスケール画像に変換する。例えば，２５３４４（＝１７６×１４４）画素からなるフレーム画像に対して，これを０．８倍ずつ順次縮小して５段階（１倍，０．８倍，０．６４倍，０．５１倍，０．４１倍）のスケール画像に変換することが考えられる。
【００２６】
ウィンドウ切出部２０４は，これらの複数のスケール画像のうち，まず１番目のスケール画像に対して，所定の画素量の矩形領域を順次切り出す。以下，この切り出した領域をウィンドウ画像と呼ぶ。
【００２７】
そして，ウィンドウ切出部２０４は，１番目のスケール画像から切り出した複数のウィンドウ画像のうち先頭のウィンドウ画像を後段のテンプレートマッチング部２０６に送出する。
【００２８】
テンプレートマッチング部２０６は，ウィンドウ切出部２０４から得られた先頭のウィンドウ画像について，当該ウィンドウ画像が顔画像か否かを判断する。ここで，テンプレートマッチング部２０６では，例えば１００人程度の人物の平均的な顔画像をテンプレートとして，当該ウィンドウ画像との大まかなマッチングをとり得るようになされている。
【００２９】
テンプレートマッチング部２０６で顔画像であると判断されたウィンドウ画像はスコア画像として後段の前処理部２０８に送出され，顔画像でないと判断された当該ウィンドウ画像はそのまま後段の重なり判定部２１２に送出される。
【００３０】
前処理部２０８では，スコア画像について人間の顔画像と無関係である背景部分に相当する領域を除去し，撮影時の照明による濃淡，コントラスト等を補正する。さらに前処理部２０８では，スコア画像をベクトル変換して，パターン識別部２１０に送出する。
【００３１】
パターン識別部２１０では，ここではサポートベクタマシンを用いてベクトルとして得られたスコア画像に対して顔データが存在するか否かを判断する。顔データが存在する場合は，画像の位置や大きさ，縮小率等をリスト化し，リストデータとして内部メモリに格納する。
【００３２】
また，パターン識別部２１０は，ウィンドウ切出部２０４に対して先頭のウィンドウ画像について顔検出が終了した旨を通知する。この通知によりウィンドウ切出部２０４は次のウィンドウ画像テンプレートマッチング部２０６に送出する。パターン識別部２１０は，入力画像スケール変換部２０２に対して１番目のスケール画像について顔検出が終了した旨を通知する。この通知により入力画像スケール変換部２０２は２番目のスケール画像をウィンドウ切出部２０４に送出する。
【００３３】
重なり判定部２１２は，内部メモリに格納されている複数のリストデータを読み出して，リストデータに含まれるスコア画像同士を比較して，重なり合う部分を含むか否かを判定し，その判定結果に基づいてスコア画像同士で重なり合う部分を除去し，各スケール画像において，複数のスコア画像から最終的に重なることなく寄せ集めた単一の画像領域を得，画像領域を顔決定データとして新たに内部メモリに格納する。
【００３４】
なお，重なり判定部２１２は，テンプレートマッチング部２０６において顔画像でないと判断された場合には，そのまま何もすることなく，内部メモリの格納も行わない。
【００３５】
このようにして，元のフレーム画像から顔画像を検出することができる。上記のような操作は演算量が膨大である。そこで，本実施の形態にかかる顔検出部２０は，演算量を軽減するために，上記の機能に加えて，以下に説明する種種の機能を有する。
【００３６】
（１）フレーム飛ばし探索機能
連続した動画像の中に含まれる人間の顔を認識する場合，毎フレーム，画像のすべての領域をパターンマッチングするのは非常に計算時間を要する。そこで，フレーム内すべての領域にわたってパターンマッチングによる顔探索を行うフレーム（以下，このフレームを全探索フレームと呼ぶ）と，全く顔の探索を行わないフレーム（以下，このフレームを非探索フレームと呼ぶ）と，を設定する。
【００３７】
また，認識対象が人間の顔の場合，ひとつのビデオカメラで撮影された連続した動画においては，フレーム間で人間の顔の位置が動く範囲は通常の人間の移動速度などから判定して限られた範囲である。したがって突然画面の端から端に人間の位置が飛ぶことはほとんどありえず，画面内の上下左右のある限られた範囲内に顔が移動している方が多い。
【００３８】
よって，上記２種類のフレームに加え，さらに前の画像で顔の場所が特定されたフレームを基準にして周辺領域を探索するフレーム，すなわち近傍探索するフレーム（以下，このフレームを近傍探索フレームと呼ぶ）を設定する。このように，全探索フレーム，非探索フレーム，近傍探索フレームの３種類のフレームを設けて探索を行うことにする。
【００３９】
探索の仕方としてはまず，連続したフレームのうち，複数の非探索フレームの間に全探索フレームを所定の周期で設ける。そして，一度顔の存在を検出したら，その近傍のみを探索範囲として定義し，近傍探索フレームを設けることにする。
【００４０】
図３に上記３種類のフレームを設けた場合の概念図を示す。図３では区別するために，全探索フレームＡは黒塗り，非探索フレームＢは白抜き，近傍探索フレームＣは斜線付き，で示している。横方向は時間を示し，各フレームが図３に示すように時系列で設けられている様子を示す。
【００４１】
すなわち，多数の非探索フレームＢの中に全探索フレームＡを一定の周期で設け，先頭の全探索フレームＡで顔の存在を検出した場合として，その後に近傍探索フレームＣを設けている。
【００４２】
例えばＮＴＳＣ方式のように３０フレーム／秒の動画像を入力している場合，３０枚に１枚だけ全探索フレームとし，残りを非探索フレームとする。この場合，１秒に一回のみ全探索を行えばよく，毎フレームを全探索する場合と比較して１／３０の計算量にすることができる。最初に顔を検出するまではこのように全探索フレームを一定周期で設けることで処理する。顔検出や顔認識に伴う計算処理量を削減するためには，連続する動画像に非探索フレームを多数設けることが好ましい。
【００４３】
図４に近傍探索フレームの探索範囲の例を示す。なお，この例ではカメラは静止しているものとする。図４では，前の探索フレームで顔検出された範囲ｆ１，次の近傍探索フレームで探索する範囲ｆ２，次の近傍探索フレームで探索しない範囲ｆ３が示されている。範囲ｆ３は，画像全体（図４における最外枠で示される範囲）から範囲ｆ２を除いた範囲を指す。範囲ｆ１は人間の顔の部分を示し，範囲ｆ２は範囲ｆ１を中心としてその近傍を含む範囲となっている。
【００４４】
上記のように近傍探索フレームを設けることにより，前述の画像のスケーリング処理の回数を削減するとともに，パターンマッチングの処理を削減することが可能になる。例えば従来では前述の入力画像スケール変換部２０２において，フレーム内すべての領域にわたって顔探索を行い０．８倍ずつの５段階のスケーリング映像を作っていた。これに対して本実施の形態では，近傍探索フレームで前回の探索フレームで検出されたスケーリング段階とその前後１段階ずつの計３段階のスケーリング画像に減らすといったことが可能である。
【００４５】
また，テンプレートマッチングに使うウィンドウ画像の切り出しにおいて，通常スケーリング映像の範囲すべてについて行うところを，前回の検出座標の近傍範囲のみに限定して行うことで計算量を大幅に削減することが可能になる。
【００４６】
このような近傍探索フレームを例えば５枚に１枚挿入することで，人間の動きになめらかに追随することができるようになるとともに，全探索フレームの頻度を減らして計算量を削減することが可能になる。
【００４７】
また，近傍探索のスケーリング処理において，顔がスケーリング画像の中央にくるようなスケーリング画像の切り出しをすることによって，スケーリング画像の境目に顔がかかる確率を減らすことが可能になる。
【００４８】
（２）対象物の大きさに応じた探索範囲の限定機能
近傍探索において，検出・認識する対象物の大きさに依存して探索範囲を限定する。人間の顔画像が画面内に大きく写っている場合と，小さく写っている場合では，人間が顔を移動させた移動量が同程度であっても，画面に映る移動の範囲が異なるという特性を利用することを考える。
【００４９】
例えば，顔画像が大きく写っている場合は，顔やカメラの移動量が小量であっても，隣接する探索フレーム間では画面上の顔の位置が大きく変化することがあり，探索範囲を比較的広くとる必要がある。一方，顔画像が小さく写っている場合は，隣接する探索フレーム間で画面上の顔の位置はさほど変わらないため，探索範囲は比較的狭くて良い。この特性と，スケーリングアルゴリズムを組み合わせることで，探索するスケーリング画像を減らすことが可能となる。
【００５０】
（３）カメラとの連動による探索範囲の調整機能
カメラ自体が左右にパンされた場合などは，画面内の顔画像もカメラの動きに応じて移動することが予想されるので，その特性を応用することができる。近傍探索において，探索する領域を決定する際に，画像を撮影するＣＣＤカメラ１０（図１）の動き情報と連動することで，さらに探索範囲を狭めたり，探索精度を向上させることが可能になる。
【００５１】
例えば電動ＰＴＺ機構を有する首振りカメラを使用したＴＶ会議システムを例にとると，カメラを右にパンした場合，映像に含まれる顔画像は左に動くことが予想される。また，その際の動き量は，顔画像の大きさとズーム量（画角）から予想することが可能であり，その動き予測を用いることで精度を向上することができる。なお，パンした場合だけでなく，カメラをチルトした場合も同様である。
【００５２】
（４）音声方向検出との組み合わせによる探索範囲の縮小機能
２個あるいは３個程度のマイクアレーを使用して，そのマイクアレーに到達する音声の時間差から音源の方向を検出する音声方向検出技術が知られている。このような公知技術を利用して，マイク５０（図１）をマイクアレーで構成し，音声方向検出部６０（図１）に音声方向検出回路を持たせて，組み合わせて使用することにより，音源の方向を検出できる。
【００５３】
例えばＴＶ会議における話者にカメラを向けるアプリケーションにおいて，音声がする方向を大まかに音声方向検出回路により検出し，その検出結果を顔検出回路に伝達することにより，音源方向と思われる方向の近傍だけをパターンマッチング探索することが可能になる。これにより，パターンマッチングの処理が軽減される。
【００５４】
（５）動きベクトルの利用による探索範囲の限定機能
画像圧縮・伸張部３０での処理により，前フレームから現フレームまでの間に，対象物である顔が移動した方向と距離を表す動きベクトルが得られる。この動きベクトルを戻すことにより，カメラのズーム量や移動角度等の情報を用いずに探索範囲を限定でき，顔を検出することが可能である。
【００５５】
（６）静止物体の排除機能
壁に人物の写真を含むポスターが貼ってあり，それも含めて画像内に取り込んだ場合等，人物の写真が画面の中に映っている場合は，通常のパターンマッチングによる顔検出手法では人間であると認識してしまい，アプリケーション上支障が出る場合がある。また，たまたま人間の顔に似た特徴を持つ模様があり，それを画像内に取り込んだ場合等，顔検出アルゴリズムが誤検出する場合もある。
【００５６】
本来の検出対象物は生身の人間の顔であり，上記のようなものは検出対象物とは異なる。このような誤検出するのを防ぐために，「生きている人間は普通じっとしていることはない」という特性を利用する。仮にカメラの向きや倍率が固定されているときに，毎回画面上のまったく同じ場所に，同じ大きさの顔画像が検出されている場合，それは静止物体であると判定して検出対象から除外するアルゴリズムを追加することで，このような誤検出を排除することができる。例えば，連続する１０枚の探索フレームの全てにおいて，毎回同じスケーリング倍率の同じ画素位置に顔画像が検出された場合は，これは静止物体であると判別し，顔として検出しないことにする。
【００５７】
以上述べたように，本実施の形態によれば，画像から人間の顔を検出するにあたり，計算処理量を大幅に削減することが可能になる。これにより，安価なデバイスを使用してシステム構築ができたり，ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の負荷が減ることによる消費電力の低減などの効果がある。また，低い計算処理量でありながら，誤検出を低減することができ，検出精度を向上させることが出来る。
【００５８】
本実施の形態の画像検出装置及び画像検出方法は，ＴＶ会議システム以外にも，ロボット，監視システム等に適用可能であり，検出装置に限定されず，認識装置等にも適用可能なことは言うまでもない。また，上記説明では，検出する対象物を人間の顔とした場合を例にとり説明したが，必ずしもこれに限定するものではなく，他の物体を検出・認識対象とする検索システムにおいて同様の応用をすることが可能である。例えば検出・認識する対象物を車として，駐車場管理システムに本発明を適用することも考えられる。
【００５９】
なお，上記説明では，非探索フレーム，全探索フレーム，近傍探索フレームのようにフレーム単位で設定した例を挙げて説明したが，フレームをフィールドに置き換えて，非探索フィールド，全探索フィールド，近傍探索フィールドのようにフィールド単位で設定することも当然考えられる。
【００６０】
以上，添付図面を参照しながら本発明にかかる好適な実施形態について説明したが，本発明はかかる例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された技術的思想の範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。
【００６１】
【発明の効果】
以上，詳細に説明したように本発明によれば，画像内の所定の対象物を検出するにあたり，演算量の軽減を推進可能な画像検出装置及び画像を提供することができる。
【図面の簡単な説明】
【図１】本発明の１実施の形態にかかる画像検出装置の構成図である。
【図２】顔検出部の処理内容を説明するための機能ブロック図である。
【図３】各種フレームを設定した場合の概念図である。
【図４】近傍探索フレームの探索範囲の例を示す図である。
【符号の説明】
１０ＣＣＤカメラ
２０顔検出部
３０画像圧縮・伸張部
５０マイク
６０音声方向検出部
２０２入力画像スケール変換部
２０４ウィンドウ切出部
２０６テンプレートマッチング部
２０８前処理部
２１０パターン識別部
２１２重なり判定部
Ａ全探索フレーム
Ｂ非探索フレーム
Ｃ近傍探索フレーム

Claims

連続したフレーム画像のうち，前記フレーム画像内の所定の対象物を全く探索しない非探索フレームと，前記非探索フレームの間に所定の周期で設けられ，前記所定の対象物を前記フレーム画像内全ての領域にわたって探索する全探索フレームとを設定し，
前記全探索フレームにおいて前記所定の対象物を検出し，
前記全探索フレームで前記所定の対象物が検出されたフレームの後に，前記フレーム画像を縮小率が相異なる複数段階の複数のスケール画像に変換して，前記複数のスケール画像内の前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設定して，前記近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出し，
前記近傍探索フレームで前記所定の対象物が検出されたとき，前記所定の対象物が検出されたスケール画像の段階を含みつつ，先の前記変換時より少ない段階数の複数のスケール画像に変換して，次の近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出する検出手段を有する，画像検出装置。
前記検出手段は，前記近傍探索フレームにおける探索範囲を，検出された前記所定の対象物の大きさに応じて決定する，請求項１に記載の画像検出装置。
前記検出手段は，前記近傍探索フレームにおける探索範囲に，前記画像を撮影している撮影手段のズーム量および移動角度に基づき調整を加える，請求項１に記載の画像検出装置。
前記検出手段は，前記近傍探索フレームにおける探索範囲を，動きベクトルを用いることにより決定する，請求項１に記載の画像検出装置。
前記検出手段は，所定のフレームにわたって全く動かない対象物を検出対象から除外する，請求項１に記載の画像検出装置。
音源の方向を検出する音声方向検出手段を更に有し，
前記検出手段は，検出された前記音源の方向の近傍のみを前記近傍探索フレームにおける探索範囲として決定する，請求項１に記載の画像検出装置。
連続したフレーム画像のうち，前記フレーム画像内の所定の対象物を全く探索しない非探索フレームと，前記非探索フレームの間に所定の周期で設けられ，前記所定の対象物を前記フレーム画像内全ての領域にわたって探索する全探索フレームとを設定し，
前記全探索フレームにおいて前記所定の対象物を検出し，
前記全探索フレームで前記所定の対象物が検出されたフレームの後に，前記フレーム画像を縮小率が相異なる複数段階の複数のスケール画像に変換して，前記複数のスケール画像内の前記所定の対象物の位置の近傍を中心に探索する近傍探索フレームを設定して，前記近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出し，
前記近傍探索フレームで前記所定の対象物が検出されたとき，前記所定の対象物が検出されたスケール画像の段階を含みつつ，先の前記変換時より少ない段階数の複数のスケール画像に変換し，次の近傍探索フレームにおいて前記スケール画像内の前記所定の対象物を検出する，画像検出方法。
前記近傍探索フレームにおける探索範囲を，検出された前記所定の対象物の大きさに応じて決定する，請求項７に記載の画像検出方法。
前記近傍探索フレームにおける探索範囲に，前記画像を撮影している撮影手段のズーム量および移動角度に基づき調整を加える，請求項７に記載の画像検出方法。
前記近傍探索フレームにおける探索範囲を，動きベクトルを用いることにより決定する，請求項７に記載の画像検出方法。
所定のフレームにわたって全く動かない対象物を検出対象から除外する，請求項７に記載の画像検出方法。
音源の方向を検出し，
検出された前記音源の方向の近傍のみを前記近傍探索フレームにおける探索範囲として決定する，請求項７に記載の画像検出装置。