JP6147056B2

JP6147056B2 - 画像検出装置及び制御プログラム並びに画像検出方法

Info

Publication number: JP6147056B2
Application number: JP2013073457A
Authority: JP
Inventors: 哲英 ▲高▼曽
Original assignee: MegaChips Corp
Current assignee: MegaChips Corp
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2017-06-14
Anticipated expiration: 2033-03-29
Also published as: JP2014197353A

Description

本発明は、撮像画像から移動体の画像を検出する技術に関する。

特許文献１及び２には画像処理技術が開示されている。

特開２０１０−１６５１９５号公報特開２００８−１０１９９４号公報

さて、撮像画像から移動体の画像を検出する際には、その検出精度の向上が望まれている。

そこで、本発明は上述の点に鑑みて成されたものであり、移動体の画像についての検出精度を向上させることが可能な技術を提供することを目的とする。

上記課題を解決するため、本発明に係る画像検出装置の一態様は、移動体の画像を検出対象画像として、撮像装置で撮像された撮像画像から当該検出対象画像を検出する画像検出装置であって、撮像画像に検出枠を設定し、当該検出枠内の画像についての検出対象画像である確からしさを示す確度値を求めて、当該確度値が第１のしきい値よりも大きいあるいは当該第１のしきい値以上である場合には、当該検出枠内の画像は検出対象画像である可能性が高いと判断する検出処理を、当該検出枠を移動させながら行う検出部と、前記検出処理で使用される前記第１のしきい値を調整するしきい値調整部とを備え、前記しきい値調整部は、第１撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する場合には、前記第１撮像画像において検出対象画像が存在する可能性が高い領域を予測領域として特定し、当該予測領域に対する前記検出処理で使用される前記第１のしきい値を、当該予測領域以外の領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする。

また、本発明に係る画像検出装置の一態様では、前記検出部での前記検出処理の結果に基づいて、撮像画像において検出対象画像を特定する検出対象画像特定部がさらに設けられ、前記しきい値調整部は、前記第１撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する場合には、前記検出対象画像特定部が前記第１撮像画像よりも前に前記撮像装置で撮像された第２撮像画像において特定した第１検出対象画像の位置から延びる、当該第２撮像画像と前記第１撮像画像との間での前記移動体の予測動きベクトルを求めて、当該予測動きベクトルに基づいて前記予測領域を特定する。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、前記第１撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する場合には、前記検出対象画像特定部が前記第２撮像画像よりも前に前記撮像装置で撮像された第３撮像画像において特定した第２検出対象画像の位置から前記第１検出対象画像の位置まで延びる、当該第３撮像画像と前記第２撮像画像との間での前記移動体の実際の動きベクトルを求め、当該実際の動きベクトルと、前記第２撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する際に求めた、当該第２検出対象画像の位置から延びる、前記第３撮像画像と前記第２撮像画像との間での前記移動体の予測動きベクトルである過去予測動きベクトルとに基づいて、前記第１の検出対象画像の位置から延びる前記予測動きベクトルを求める。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、前記実際の動きベクトルと前記過去予測動きベクトルとを重み付け合成して得られるベクトルを、前記第１の検出対象画像の位置から延びる前記予測動きベクトルとする。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、前記実際の動きベクトルと前記過去予測動きベクトルとを重み付け合成する際には、前記実際の動きベクトルの重み係数を、前記過去予測動きベクトルの重み係数よりも大きくする。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、前記第３撮像画像の前記第２検出対象画像の位置から所定距離以内に存在する、前記検出対象画像特定部が前記第２撮像画像において特定した前記第１検出対象画像を特定し、前記第２検出対象画像の位置から、特定した当該第１検出対象画像の位置まで延びるベクトルを前記実際の動きベクトルとする。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、前記検出対象画像特定部が前記第２撮像画像において特定した、前記第２検出対象画像の位置から前記所定距離以内に存在する複数の第１検出対象画像が存在する場合には、前記第２検出対象画像の位置から、前記複数の第１検出対象画像の位置にそれぞれ延びる複数のベクトルのうち、前記第２検出対象画像の位置から延びる前記過去予測動きベクトルと成す角度が最も小さいベクトルを前記実際の動きベクトルとする。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、前記２検出対象画像の位置から延びる複数の過去予測動きベクトルが存在する場合には、当該複数の過去予測動きベクトルのうち、前記第２検出対象画像の位置から前記第１の検出対象画像の位置まで延びる前記実際の動きベクトルと成す角度が最も小さいベクトルを使用して、前記第１検出対象画像の位置から延びる前記予測動きベクトルを求める。

また、本発明に係る画像検出装置の一態様では、前記検出部での前記検出処理の結果に基づいて、撮像画像において検出対象画像を特定する検出対象画像特定部をさらに備え、前記しきい値調整部は、前記検出対象画像特定部が前記第１撮像画像よりも前に撮像された第２撮像画像における、検出対象画像であると特定した領域についての前記確度値が、第２のしきい値よりも小さい場合に前記予測領域に対する前記検出処理で使用される前記第１のしきい値を、当該確度値が当該第２のしきい値よりも大きい場合に前記予測領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、前記移動体が前記撮像装置から遠ざかる場合において前記予測領域に対する前記検出処理で使用される前記第１のしきい値を、前記移動体が前記撮像装置に近づく場合において前記予測領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする。

また、本発明に係る画像検出装置の一態様では、前記しきい値調整部は、撮像画像において、それに対する前記検出処理で使用される前記第１のしきい値が小さくされた回数が所定回数よりも大きいあるいは当該所定回数以上である領域に対する前記検出処理で使用される前記第１のしきい値を、当該領域が前記予測領域となるか否かにかかわらず、前記予測領域以外の領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする。

また、本発明に係る画像検出装置の一態様では、前記検出対象画像は、人の顔画像である。

また、本発明に係る制御プログラムの一態様は、移動体の画像を検出対象画像として、撮像画像から当該検出対象画像を検出する画像検出装置を制御するための制御プログラムであって、前記画像検出装置に、（ａ）撮像画像に検出枠を設定し、当該検出枠内の画像についての検出対象画像である確からしさを示す確度値を求めて、当該確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、当該検出枠内の画像は検出対象画像である可能性が高いと判断する検出処理を、当該検出枠を移動させながら行う工程と、（ｂ）前記検出処理で使用される前記しきい値を調整する工程とを実行させ、前記工程（ｂ）において、撮像画像において検出対象画像が存在する可能性が高い領域を予測領域として特定し、当該予測領域に対する前記検出処理で使用される前記しきい値を、当該予測領域以外の領域に対する前記検出処理で使用される前記しきい値よりも小さくするように動作させるためのものである。

また、本発明に係る画像検出方法の一態様は、移動体の画像を検出対象画像として、撮像画像から当該検出対象画像を検出する画像検出方法であって、（ａ）撮像画像に検出枠を設定し、当該検出枠内の画像についての検出対象画像である確からしさを示す確度値を求めて、当該確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、当該検出枠内の画像は検出対象画像である可能性が高いと判断する検出処理を、当該検出枠を移動させながら行う工程と、（ｂ）前記検出処理で使用される前記しきい値を調整する工程とを備え、前記工程（ｂ）において、撮像画像において検出対象画像が存在する可能性が高い領域を予測領域として特定し、当該予測領域に対する前記検出処理で使用される前記しきい値を、当該予測領域以外の領域に対する前記検出処理で使用される前記しきい値よりも小さくする。

本発明によれば、移動体の画像についての検出精度を向上させることができる。

画像処理システムの構成を示す図である。画像検出装置が備える複数の機能ブロックの構成を示す図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。検出結果枠を撮像画像に重ねて示す図である。出力値マップの生成方法を説明するための図である。出力値マップの生成方法を説明するための図である。出力値マップの一例を示す図である。撮像画像の一例を模式的に示す図である。出力値マップの一例を示す図である。２値化マップの一例を示す図である。２値化マップの高確度領域に設定された外接矩形を示す図である。２値化マップでの外接矩形を撮像画像に設定した様子を示す図である。しきい値調整部の動作を説明するための図である。検出部の動作を説明するための図である。検出部の動作を説明するための図である。予測領域の特定方法を示す図である。予測領域の特定方法を示す図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。しきい値調整部の動作を説明するための図である。重み付け係数と予測動きベクトルとの関係を示す図である。重み付け係数と予測動きベクトルとの関係を示す図である。撮像装置の設置例を示す図である。撮像画像と撮像装置のレンズ中心との関係を示す図である。しきい値調整部の動作を説明するための図である。しきい値低減回数マップの一例を示す図である。

図１は実施の形態に係る画像検出装置１を備える画像処理システム１００の構成を示す図である。画像処理システム１００は、画像検出装置１と、撮像装置５とを備えている。撮像装置５は、画像を撮像し、撮像画像を示す画像データを画像検出装置１に出力する。画像検出装置１は、移動体の画像を検出対象画像として、入力される画像データが示す撮像画像から当該検出対象画像を検出する。画像検出装置１は、撮像装置５で撮像画像が撮像されるたびに、当該撮像画像から検出対象画像を検出する。

本実施の形態では、例えば、人の顔の画像が検出対象画像とされる。人の顔は移動体の一種である。画像処理システム１００は、例えば、監視カメラシステム、デジタルカメラシステム等で使用される。以後、単に「顔」と言えば「人の顔」を意味する。また「顔画像」と言えば、人の顔画像を意味する。検出対象画像は顔画像以外の画像であっても良い。例えば、移動体である人全体の画像（人体の画像）、あるいは移動体である車の画像を検出対象画像としても良い。

画像検出装置１は、一種のコンピュータであって、図１に示されるように、ＣＰＵ（Central Processing Unit）２及び記憶部３を備えている。記憶部３は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等の、画像検出装置１（ＣＰＵ２）が読み取り可能な非一時的な記録媒体で構成されている。記憶部３には、画像検出装置１の動作を制御するための制御プログラム４等が記憶されている。記憶部３は、ＲＯＭ及びＲＡＭ以外の、コンピュータが読み取り可能な非一時的な記録媒体を備えていても良い。記憶部３は、例えば、ハードディスクドライブ、ＳＳＤ（Solid State Drive）、ＵＳＢ（Universal Serial Bus）メモリ等を備えていても良い。

画像検出装置１の各種機能は、ＣＰＵ２が記憶部３内の制御プログラム４を実行することによって実現される。画像検出装置１では、制御プログラム４が実行されることによって、図２に示されるような複数の機能ブロックが形成される。

図２に示されるように、画像検出装置１は、機能ブロックとして、画像入力部１１と、検出部１２と、検出対象画像特定部１５と、しきい値調整部１６とを備えている。画像検出装置１が備える各種機能は、機能ブロックではなくハードウェア回路で実現しても良い。

画像入力部１１には、撮像装置（カメラ）５で順次撮像された複数枚の撮像画像をそれぞれ示す複数の画像データが順次入力される。画像入力部１１は、入力された画像データが示す撮像画像を所定サイズにまで縮小し、縮小後の撮像画像を示す画像データを出力する。撮像装置５では、例えば、１秒間にＬ枚（Ｌ≧２）の画像が撮像される。つまり、撮像装置５での撮像フレームレートは、Ｌｆｐｓ(frame per second）である。本実施の形態では例えばＬ＝３０となっている。

また、画像入力部１１が出力する画像データが示す撮像画像（撮像装置５で得られた撮像画像を縮小したもの）では、行方向にＸ個（Ｘ≧２）のピクセルが並び、列方向にＹ個（Ｙ≧２）のピクセルが並んでいる。撮像装置５で得られる撮像画像の解像度は、例えばフルハイビジョンである。また、画像入力部１１が出力する画像データが示す撮像画像は、例えばＶＧＡ（Video Graphics Array）であって、Ｘ＝６４０、Ｙ＝４８０となっている。

なお以後、撮像画像において、行方向にｘ個（ｘ≧１）のピクセルが並び、列方向にｙ個（ｙ≧１）のピクセルが並ぶ領域の大きさをｘｐ×ｙｐで表す（ｐはピクセルの意味）。また、行列状に配置された複数の値において、左上を基準にして第ｘ行目であって第ｙ列目に位置する値をｘ×ｙ番目の値と呼ぶことがある。また以後、単に「撮像画像」と言えば、画像入力部１１が出力する画像データが示す撮像画像を意味する。

検出部１２は、画像入力部１１から出力される画像データを使用して、当該画像データが示す撮像画像に対して顔画像の検出を行う。具体的には、検出部１２は、撮像画像に検出枠を設定し、当該検出枠内の画像についての顔画像である確からしさを示す検出確度値を求めて、当該検出確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、当該検出枠内の画像は顔画像である可能性が高いと判断する検出処理を、当該検出枠を移動させながら行う。以後、検出処理と言えば、検出部１２でのこの検出処理を意味する。

しきい値調整部１６は、検出部１２での検出処理で使用されるしきい値を調整する。検出対象画像特定部１５は、検出部１２での撮像画像についての検出処理の結果に基づいて、当該撮像画像において顔画像を特定する。これにより、画像検出装置１では、撮像装置５で撮像された撮像画像から顔画像が検出される。

次に、画像検出装置１の各ブロックの動作について詳細に説明する。

＜検出部の詳細動作＞
図２に示されるように、検出部１２は、特徴量抽出部１３及び識別器１４を備えている。検出部１２は、撮像画像における様々な大きさの顔画像を検出するために、サイズの異なる複数種類の検出枠を使用する。検出部１２では、例えば３０種類の検出枠が使用される。検出部１２は、複数種類の検出枠のそれぞれについて、当該検出枠を用いた検出処理を行う。検出部１２で使用される複数種類の検出枠のうち最も小さい検出枠は、例えば、大きさが１６ｐ×１６ｐの検出枠である。また、当該複数種類の検出枠には、大きさが１８ｐ×１８ｐの検出枠及び大きさが２０ｐ×２０ｐの検出枠などが含まれている。

検出部１２での検出処理では、特徴量抽出部１３が、撮像画像に対して検出枠を設定し、当該撮像画像における当該検出枠内の画像から複数の特徴量を抽出する。特徴量抽出部１３は、検出枠内の画像から、例えばＨａａｒ−ｌｉｋｅ特徴量やＬＢＰ（Local Binary Pattern）特徴量などの特徴量を抽出する。特徴量の種類についてはこれに限られず、Ｃｏ−ＨＯＧ（Histograms of Oriented Gradients）特徴量などの共起性を表す特徴量であってもよい。

識別器１４は、特徴量抽出部１３が検出枠内の画像から抽出した複数の特徴量から成る特徴ベクトルと、学習サンプル（学習用のサンプル画像）に基づいて生成された複数の重み係数から成る重みベクトルとに基づいて、当該検出枠内の画像が顔画像である確からしさを示す検出確度値を算出する。具体的には、識別器１４は、検出枠内の画像についての特徴ベクトルと、重みベクトルとの内積を求め、当該内積に所定のバイアス値を加算して得られる実数値を、当該検出枠内の画像が顔画像である確からしさを示す検出確度値とする。識別器１４で算出される検出確度値は、検出枠内の画像についての顔画像らしさ（顔らしさ）を示している。識別器１４では、例えば、ＳＶＭ（Support Vector Machine）あるいはＡｄａｂｏｏｓｔが使用される。

識別器１４は、算出した検出確度値がしきい値よりも大きいあるいは当該しきい値以上であれば、検出枠内の画像が顔画像である可能性が高いと判定する。一方で、識別器１４は、算出した検出確度値がしきい以下あるいは当該しきい値未満であれば、検出枠内の画像が顔画像でない可能性が高いと判定する。識別器１４は、撮像画像における検出枠内の画像が顔画像である可能性が高いと判定すると、当該検出枠内の画像を検出結果領域とし、当該検出枠を検出結果枠とする。識別器１４で使用されるしきい値は、後述のように、しきい値調整部１６で調整されることによって、撮像画像での検出枠の位置によって異なることがある。

次に、検出部１２が検出枠を移動させながら撮像画像について検出処理を行う際の当該検出部１２の一連の動作について説明する。図３〜６は、検出部１２の当該動作を説明するための図である。検出部１２は、検出枠をラスタスキャンさせながら、当該検出枠内の画像に対して顔画像の検出を行う。

図３に示されるように、特徴量抽出部１３は、撮像画像２０の左上にまず検出枠１０を設定して、当該検出枠１０内の画像から複数の特徴量を抽出する。識別器１４は、特徴量抽出部１３が抽出した複数の特徴量から成る特徴ベクトルと、複数の重み係数から成る重みベクトルとに基づいて、検出枠１０内の画像についての検出確度値を求める。そして、識別器１４は、算出した検出確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、撮像画像２０での左上の検出枠１０内の領域が顔画像である可能性が高いと判定し、当該領域を検出結果領域とし、当該領域の外形枠である当該検出枠１０を検出結果枠とする。

次に特徴量抽出部１３は、撮像画像２０において検出枠１０を少し右に移動させる。特徴量抽出部１３は、例えば、１ピクセル分あるいは数ピクセル分だけ右に検出枠１０を移動させる。そして、特徴量抽出部１３は、撮像画像２０における移動後の検出枠１０内の画像から複数の特徴量を抽出する。

その後、識別器１４は、特徴量抽出部１３で抽出された複数の特徴量から成る特徴ベクトルと、複数の重み係数から成る重みベクトルとに基づいて、移動後の検出枠１０内の画像についての検出確度値を求める。そして、識別器１４は、算出した検出確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、移動後の検出枠１０内の画像が顔画像である可能性が高いと判定して、当該画像を検出結果領域とするとともに、当該画像の外形枠である移動後の検出枠１０を検出結果枠とする。

その後、検出部１２は同様に動作して、図４に示されるように、検出枠１０が撮像画像２０の右端まで移動すると、検出部１２は、右端の検出枠１０内の画像についての検出確度値を求める。そして、検出部１２は、求めた検出確度値がしきい値よりも大きいあるいは当該しきい値以上であれば、右端の検出枠１０内の画像を検出結果領域とするとともに、当該右端の検出枠１０を検出結果枠とする。

次に、特徴量抽出部１３は、図５に示されるように、検出枠１０を少し下げつつ撮像画像２０の左端に移動させた後、当該検出枠１０内の画像から複数の特徴量を抽出する。特徴量抽出部１３は、上下方向（列方向）において例えば１ピクセル分あるいは数ピクセル分だけ下に検出枠１０を移動させる。その後、識別器１４は、特徴量抽出部１３から抽出された複数の特徴量から成る特徴ベクトルと、複数の重み係数から成る重みベクトルとに基づいて、現在の検出枠１０内の画像についての検出確度値を求めて出力する。そして、識別器１４は、算出した検出確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、現在の検出枠１０内の画像が顔画像である可能性が高いと判定して、当該画像を検出結果領域とするとともに、当該検出枠１０を検出結果枠とする。

その後、検出部１２は同様に動作して、図６に示されるように、検出枠１０が撮像画像２０の右下まで移動すると、検出部１２は、右下の当該検出枠１０内の画像についての検出確度値を求める。そして、検出部１２は、求めた検出確度値がしきい値よりも大きいあるいは当該しきい値以上であれば、右下の検出枠１０内の画像を検出結果領域とするとともに、当該右下の検出枠を検出結果枠とする。

以後、検出枠１０をラスタスキャンさせる場合において、検出枠１０の右方向の一回の移動量と、検出枠１０が撮像画像の右端に到達した後の下方向の一回の移動量を「スキャンステップ」と呼ぶ。本実施の形態では、スキャンステップは例えば５ピクセルとなっている。

検出部１２は、以上ような、検出枠を移動させながらの検出処理を、複数種類の検出枠のそれぞれを用いて行う。これにより、撮像画像に顔画像が含まれている場合には、検出結果領域（顔画像である可能性が高い領域）及び検出結果枠（顔画像である可能性が高い領域の外形枠）が得られるとともに、検出結果枠に対応した検出確度値が得られる。撮像画像について得られた検出結果枠に対応した検出確度値とは、当該撮像画像における当該検出結果枠内の画像が顔画像である確からしさを示している。

図７は、撮像画像２０について得られた検出結果枠１５０が当該撮像画像２０に重ねて配置された様子を示す図である。図７に示されるように、互いにサイズの異なる複数種類の検出枠が使用されて検出処理が行われることによって、様々な大きさの検出結果枠１５０が得られる。言い換えれば、様々な大きさの検出結果領域が得られる。これは、撮像画像２０に含まれる様々な大きさの顔画像が検出されていることを意味している。撮像画像２０に含まれる各顔画像の近くには、複数の検出結果枠１５０が位置しており、複数の検出結果枠１５０は重なることがある。つまり、撮像画像２０に含まれる各顔画像の近くには、複数の検出結果領域が位置しており、複数の検出結果領域は重なることがある。

＜検出対象画像特定部の詳細動作＞
検出対象画像特定部１５は、検出部１２での撮像画像についての検出結果に基づいて、顔画像としての確からしさ（顔画像らしさ）を示す検出確度値についての当該撮像画像での分布を示す出力値マップを生成する。そして、検出対象画像特定部１５は、撮像画像について生成した出力値マップに基づいて、当該撮像画像での顔画像を特定する。以下に、出力値マップの生成方法について説明する。

＜出力値マップの生成方法＞
検出対象画像特定部１５は、撮像画像と同様に、行方向にＸ個の値が並び、列方向にＹ個の値が並ぶ、合計（Ｘ×Ｙ）個の値から成るマップ１７０を考える。そして、検出対象画像特定部１５は、撮像画像についての一つの検出結果枠を対象検出結果枠とし、対象検出結果枠と同じ位置に、対象検出結果枠と同じ大きさの枠１８０をマップ１７０に対して設定する。図８は、マップ１７０に対して枠１８０を設定した様子を示す図である。

次に検出対象画像特定部１５は、マップ１７０における、枠１８０外の各値については“０”とし、枠１８０内の各値については、対象検出結果枠に対応する検出確度値（対象検出結果枠となった検出枠内の画像に対して顔画像の検出を行った結果得られた検出確度値）を用いて決定する。対象検出結果枠の大きさが、例えば１６ｐ×１６ｐであるとすると、枠１８０内には、行方向に１６個、列方向に１６個、合計２５６個の値が存在する。また、対象検出結果枠の大きさが、例えば２０ｐ×２０ｐであるとすると、枠１８０内には、行方向に２０個、列方向に２０個、合計４００個の値が存在する。図９は、枠１８０内の各値を決定する方法を説明するための図である。

検出対象画像特定部１５は、枠１８０内の中心１８１の値を、検出部１２で求められた、対象検出結果枠に対応する検出確度値とする。そして、検出対象画像特定部１５は、枠１８０内のそれ以外の複数の値を、枠１８０の中心１８１の値を最大値とした正規分布曲線に従って枠１８０内の中心１８１から外側に向けて値が徐々に小さくなるようにする。これにより、マップ１７０を構成する複数の値のそれぞれが決定されて、対象検出結果枠に対応するマップ１７０が完成する。

以上のようにして、検出対象画像特定部１５は、撮像画像についての複数の検出結果枠にそれぞれ対応する複数のマップ１７０を生成する。そして、検出対象画像特定部１５は、生成した複数のマップ１７０を合成して出力値マップを生成する。

具体的には、検出対象画像特定部１５は、生成した複数のマップ１７０のｘ×ｙ番目の値を加算し、それによって得られた加算値を出力値マップのｘ×ｙ番目の検出確度値とする。検出対象画像特定部１５は、このようにして、出力値マップを構成する各検出確度値を求める。これにより、撮像画像での検出確度値の分布を示す出力値マップが完成する。出力値マップでは、撮像画像と同様に、行方向にＸ個の検出確度値が並び、列方向にＹ個の検出確度値が並んでいる。出力値マップは（Ｘ×Ｙ）個の検出確度値で構成される。出力値マップを参照すれば、撮像画像において顔画像らしさが高い領域を特定することができる。つまり、出力値マップを参照することによって、撮像画像おける顔画像を特定することができる。

図１０は、撮像画像２０についての出力値マップを当該撮像画像２０に重ねて示す図である。図１０及び後述の図１２では、理解し易いように、検出確度値の大きさを例えば第１段階から第５段階の５段階に分けて出力値マップを示している。図１０，１２に示される出力値マップにおいては、検出確度値が、最も大きい第５段階に属する領域については縦線のハッチングが示されており、２番目に大きい第４段階に属する領域については砂地のハッチングが示されている。また、図１０，１２に示される出力値マップにおいては、検出確度値が、３番目に大きい第３段階に属する領域については右上がりのハッチングが示されており、４番目に大きい第２段階に属する領域については左上がりのハッチングが示されている。そして、図１０，１２に示される出力値マップにおいては、検出確度値が、最も小さい第１段階に属する領域についてはハッチングが示されていない。

図１０に示される出力値マップにおいては、撮像画像２０での顔画像に対応する領域（顔画像と同じ位置にある領域）での検出確度値が高くなっている。これは、撮像画像２０に含まれる顔画像が適切に検出されていることを意味する。また、出力値マップにおける、撮像画像２０での顔画像に対応する領域では、顔画像の中心付近と同じ位置での検出確度値が最も大きくなっており、外側に向かうほど検出確度値が小さくなっている。

＜２値化処理＞
検出対象画像特定部１５は、出力値マップを生成すると、当該出力値マップをしきい値を用いて２値化して２値化マップを生成する。具体的に、検出対象画像特定部１５は、出力値マップにおいて、検出確度値がしきい値以上あるいは当該しきい値よりも大きい領域の各値を例えば“１”に変更し、検出確度値が当該しきい値未満あるいは当該しきい値以下の領域の各値を例えば“０”に変更する。これにより、出力値マップにおける、検出確度値がしきい値以上あるいは当該しきい値よりも大きい領域に対応する、各値が“１”である高確度領域と、出力値マップにおける、検出確度値がしきい値未満あるいは当該しきい値以下の領域に対応する、各値が“０”である低確度領域とで構成された２値化マップが生成される。

図１１は撮像画像２０の一例を模式的に示す図である。図１２は、図１１に示される撮像画像２０についての出力値マップ４０を示す図である。図１３は、図１２に示される出力値マップ４０を所定のしきい値を用いて２値化して生成された２値化マップ５０を示す図である。

図１２に示されるように、出力値マップ４０では、撮像画像２０に含まれる顔画像２０ａに対応する領域４０ａでの検出確度値や、撮像画像２０に含まれる顔画像２０ｂに対応する領域４０ｂでの検出確度値は大きくなっている。一方で、出力値マップ４０では、撮像画像２０に含まれる顔画像２０ｃに対応する領域４０ｃでの検出確度値は小さくなっている。

図１２に示される出力値マップ４０を、例えば、検出確度値についての第２段階（左上がりのハッチング）と第３段階（右上がりのハッチング）の境界の値をしきい値として２値化すると、図１３に示される２値化マップ５０が得られる。図１３では、高確度領域５１には斜線のハッチングが示されており、低確度領域５２にはハッチングが示されていない。出力値マップ４０では、顔画像２０ｃに対応する領域４０ｃでの検出確度値は、全体的に、顔画像２０ａ，２０ｂに対応する領域４０ａ，４０ｂでの検出確度値よりもが小さくなっていることから、２値化マップ５０の高確度領域５１では、顔画像２０ｃに対応する領域５１ｃは、顔画像２０ａ，２０ｂにそれぞれ対応する領域５１ａ，５１ｂよりも小さくなっている。

２値化マップ５０の生成で用いられるしきい値を適切に調整すると、図１３に示されるように、２値化マップ５０の高確度領域５１には、撮像画像２０に含まれる複数の顔画像２０ａ〜２０ｃにそれぞれ対応する互いに独立した（分離した）複数の領域５１ａ〜５１ｃが含まれるようになる。よって、当該複数の領域５１ａ〜５１ｃから、撮像画像２０に含まれる複数の顔画像２０ａ〜２０ｃのそれぞれを個別に特定することが可能となる。

＜２値化マップを用いた検出対象画像の特定方法＞
検出対象画像特定部１５は、２値化マップを生成すると、当該２値化マップの高確度領域に含まれる独立領域（島領域）を特定する。図１３の例では、領域５１ａ〜５１ｃのそれぞれが独立領域として特定される。２値化マップの高確度領域に含まれる独立領域については、当該２値化マップに対して４連結等を用いたラベリングを行うことによって特定することができる。

検出対象画像特定部１５は、特定した独立領域に基づいて、撮像画像において顔画像を特定する。具体的には、まず検出対象画像特定部１５は、特定した各独立領域について、当該独立領域に外接する外接矩形を求める。図１４は、図１３に示される２値化マップ５０の高確度領域５１に含まれる独立領域５１ａ〜５１ｃについての外接矩形を示す図である。図１４に示される外接矩形６０ａ〜６０ｃは、それぞれ、図１３に示される２値化マップ５０の高確度領域５１に含まれる独立領域５１ａ〜５１ｃの外接矩形である。

検出対象画像特定部１５は、撮像画像についての２値化マップの高確度領域の各独立領域についての外接矩形を求めると、当該外接矩形を当該撮像画像に設定する。図１５は、図１４に示される外接矩形６０ａ〜６０ｃを図１１に示される撮像画像２０に設定した様子を示す図である。検出対象画像特定部１５は、撮像画像に設定された各外接矩形について、当該外接矩形内の画像が一つの顔画像であると判断する。これにより、撮像画像２０において顔画像が特定される。

画像検出装置１は、撮像画像を表示装置に表示する際には、図１５に示されるように、検出対象画像特定部１５で求められた外接矩形を撮像画像に重ねて表示する。

また、画像検出装置１は、予め登録された顔画像と、撮像画像において特定した顔画像（外接矩形内の画像）とを比較し、両者が一致するか否かを判定しても良い。そして、画像検出装置１は、予め登録された顔画像と、撮像画像において特定した顔画像とが一致しない場合には、撮像画像での当該顔画像に対してモザイク処理を行った上で、当該撮像画像を表示装置に表示しても良い。これにより、本実施の形態に係る画像検出装置１を監視カメラシステムに使用した場合において、監視カメラによって隣家の人の顔画像が撮影された場合であっても、当該顔画像を認識できないようにすることができる。つまり、プライバシーマスクを実現することができる。

なお、本実施の形態では、撮像画像についての出力値マップが用いられて当該撮像画像での顔画像が特定されているが、出力値マップが生成されずに撮像画像像での顔画像が特定されても良い。例えば、検出対象画像特定部１５は、撮像画像について得られた互いに近くにある複数の検出結果領域（検出結果枠）をMean-Shift法によるクラスタリング及びNearest Neighbor法を用いて統合し、当該撮像画像での統合後の検出結果領域（検出結果枠）内の画像を顔画像として特定しても良い。

＜しきい値調整部の詳細動作＞
しきい値調整部１６は、画像検出装置１においてｎフレーム目の撮像画像での顔画像が検出されると、その検出結果を用いて、検出部１２において（ｎ＋１）フレーム目の撮像画像に対する検出処理で使用されるしきい値を調整する。しきい値調整部１６は、画像入力部１１が画像データを出力するたびに、画像入力部１１が出力した画像データが示す撮像画像に対する顔画像の検出結果を用いて、画像入力部１１が次に出力する画像データが示す撮像画像に対する検出処理で使用されるしきい値を調整する。

ここで、本実施の形態では、撮像装置５での撮像フレームレートＬがＬ＝３０となっていることから、撮像画像の撮像間隔が（１／３０）秒となる。人が歩く速度を５ｋｍ／時間とすると、歩く人が（１／３０）秒の間に移動する距離は数ｃｍ程度となる。したがって、撮像装置５では、連続する複数フレームにわたって同一の顔が撮像されることがある。

撮像装置５において、連続する複数フレームにわたって同一の顔が撮像される場合において、当該顔の向きや撮像装置５での撮像環境（例えば明るさ）等によって、画像検出装置１では、当該連続する複数フレームのうちのあるフレームでの撮像画像だけから、当該顔についての顔画像が検出できないことがある。

そこで、本実施の形態では、しきい値調整部１６が、撮像装置５で次に撮像される撮像画像において顔画像が存在する可能性が高い領域を予測領域として特定し、当該予測領域に対する検出処理で使用されるしきい値を小さくするようなしきい値調整処理を行う。これにより、撮像画像における、顔画像が存在する可能性が高い予測領域では、顔画像が検出され易くなる。よって、連続して撮像された複数枚の撮像画像のうちのある撮像画像だけから顔画像が検出できないといったことが発生しにくくなる。その結果、顔画像についての検出精度が向上する。以下に、しきい値調整部１６の動作について詳細に説明する。なお、ｎについては、撮像画像についての撮像順序を単に表すために使用している。したがって、（ｎ−１）フレーム目の撮像画像、ｎフレーム目の撮像画像、（ｎ＋１）フレームの撮像画像等について言えることは、原則、その撮像画像に固有のことではなく、各撮像画像についても言える。

図１６は、しきい値調整部１６が（ｎ＋１）フレーム目の撮像画像に対する検出処理で使用されるしきい値を調整する際の当該しきい値調整部１６の動作の概要を説明するための図である。以後、（ｎ＋１）フレーム目の撮像画像に対する検出処理で使用されるしきい値を「（ｎ＋１）フレーム目のしきい値」と呼ぶ。ｎフレーム目、（ｎ−１）フレーム目等についても同様である。

図１６では、撮像画像を表す領域２００において、検出対象画像特定部１５が、ｎフレーム目、（ｎ−１）フレーム目、（ｎ−２）フレームおよび（ｎ−３）フレーム目の撮像画像においてそれぞれ特定した、同一の顔についての顔画像の位置１９０〜１９３が丸印で示されている。領域２００の左上、左下、右上及び右下は、撮像画像の左上、左下、右上及び右下にそれぞれ対応している。以後、領域２００を「撮像画像対応領域２００」と呼ぶ。

しきい値調整部１６は、（ｎ＋１）フレーム目の撮像画像において顔画像が存在する可能性が高い領域を予測領域３００として特定する。そして、しきい値調整部１６は、（ｎ＋１）フレーム目のしきい値を調整する際には、（ｎ＋１）フレーム目の撮像画像において、予測領域３００に対する検出処理で使用されるしきい値を、予測領域３００以外の領域に対する検出処理で使用されるしきい値よりも小さくするしきい値低減処理を行う。しきい値の初期値をＴＨ０とすると、しきい値低減処理では、（ｎ＋１）フレーム目の撮像画像において、予測領域３００に対する検出処理で使用されるしきい値が、初期値ＴＨ０よりも所定量だけ小さい値である低減値ＴＨ１（＜ＴＨ０）に設定され、他の領域（予測領域３００以外の領域）に対する検出処理で使用されるしきい値が初期値ＴＨ０に設定される。例えば、初期値ＴＨ０を“１０”とすると、低減値は“７”とされる。

本実施の形態では、しきい値調整部１６は、現在の処理対象のｎフレーム目の撮像画像と、次に処理対象となる（ｎ＋１）フレーム目の撮像画像との間での顔（顔画像）の予測動きベクトルＶｎ（ｎフレーム目の撮像画像と（ｎ＋１）フレーム目の撮像画像との間での顔の動きベクトルの予測値）を求めて、当該予測動きベクトルＶｎに基づいて、（ｎ＋１）フレーム目の撮像画像での予測領域３００を特定する。予測領域３００の特定方法については後で詳細に説明する。

予測動きベクトルＶｎは、ｎフレーム目の撮像画像において検出された顔画像の位置１９０から延びており、以下の式（１）を使用して求めることができる。

Ｖｎ＝α・Ｃｎ＋（１−α）・Ｖｎ−１・・・（１）
ここで式（１）中のＣｎは、（ｎ−１）フレーム目の撮像画像とｎフレーム目の撮像画像との間での顔についての実際の動きベクトルを意味している。以後、実際の動きベクトルを「実動きベクトル」と呼ぶ。また、Ｖｎ−１は、ｎフレーム目のしきい値が調整される際に求められた、（ｎ−１）フレーム目の撮像画像とｎフレーム目の撮像画像との間での顔の予測動きベクトルを示している。以後、当該予測動きベクトルを「過去予測動きベクトル」と呼ぶことがある。図１６を参照して説明すると、実動きベクトルＣｎは、検出対象画像特定部１５が（ｎ−１）フレーム目の撮像画像で特定した顔画像の位置１９１から、検出対象画像特定部１５がｎフレーム目の撮像画像で特定した顔画像の位置１９０まで延びるベクトルである。また過去予測動きベクトルＶｎ−１は、（ｎ−１）フレーム目の撮像画像で特定した顔画像の位置１９１から延びている。本実施の形態では、撮像画像において特定された顔画像の位置として、例えば、当該顔画像の中心位置、つまり検出対象画像特定部１５が求めた上記の外接矩形（図１４参照）の中心位置が採用される。また式（１）中のαは実数を表しており、α＜１となっている。

式（１）に示されるように、予測動きベクトルＶｎは、実動きベクトルＣｎと過去予測動きベクトルＶｎ−１に基づいて求められている。具体的には、予測動きベクトルＶｎは、実動きベクトルＣｎと過去予測動きベクトルＶｎ−１とを重み付け合成して得られるベクトルとなっている。αは実動きベクトルＣｎの重み係数となっており、（１−α）は過去予測動きベクトルＶｎ−１の重み係数となっている。

検出部１２は、（ｎ＋１）フレーム目の撮像画像に対して検出処理を行う際には、しきい値調整部１６で調整された（ｎ＋１）フレーム目のしきい値を使用する。具体的には、検出部１２は、（ｎ＋１）フレーム目の撮像画像２０に対して検出枠をラスタスキャンしていく際に、図１７に示されるように、予測領域３００以外の領域３１０に対して検出枠１０を設定したときには、当該検出枠内の画像について求めた検出確度値と、しきい値の初期値ＴＨ０とを比較する。そして、検出部１２は、当該検出確度値が初期値ＴＨ０以上あるいは初期値ＴＨ０よりも大きいときには、当該検出枠内の画像が顔画像である可能性が高いと判断して、当該検出枠内の画像を検出結果領域とする。

一方で、検出部１２は、図１８に示されるように、予測領域３００に対して検出枠１０を設定したときには、当該検出枠内の画像について求めた検出確度値としきい値の低減値ＴＨ１とを比較する。そして、検出部１２は、当該検出確度値が低減値ＴＨ１以上あるいは低減値ＴＨ１よりも大きいときには、当該検出枠内の画像が顔画像である可能性が高いと判断して、当該検出枠内の画像を検出結果領域とする。

このように、本実施の形態では、顔画像が存在する可能性の高い予測領域３００に対する検出処理で使用されるしきい値が小さくされている。したがって、予測領域３００に設定された検出枠内の画像が、顔画像であるにもかかわらず、顔の向きや撮像装置５での撮像環境によって、当該検出枠内の画像についての検出確度値が小さい場合であっても、検出部１２は、当該検出枠内の画像が顔画像である可能性が高いと適切に判断することが可能となる。よって、（ｎ＋１）フレーム目の撮像画像から顔画像を適切に検出することが可能となる。さらに、顔画像が存在する可能性が高い予測領域３００に対する検出処理で使用されるしきい値が小さくされていることから、顔画像の誤検出を抑制することができる。その結果、顔画像についての検出精度が向上する。

なお、図１８とは異なり、撮像画像２０に対して検出枠１０を設定した際に、当該検出枠１０内に少しでも予測領域３００が存在すれば、当該検出枠１０内の画像から求めた検出確度値と低減値ＴＨ１とを比較しても良い。

しきい値調整部１６は、（ｎ＋２）フレーム目の撮像画像に対する検出処理で使用されるしきい値を調整する場合にも、（ｎ＋１）フレーム目の撮像画像と、その次に処理対象となる（ｎ＋２）フレーム目の撮像画像との間での顔の予測動きベクトルＶｎ＋１を求めて、当該予測動きベクトルＶｎ＋１に基づいて、（ｎ＋２）フレーム目の撮像画像において予測領域（顔画像が存在する可能性が高い領域）を特定する。そして、しきい値調整部１６は、（ｎ＋２）フレーム目の撮像画像において、予測領域に対する検出処理で使用されるしきい値を低減値ＴＨ１に設定し、予測領域３００以外の領域に対する検出処理で使用されるしきい値を初期値ＴＨ０に設定して、予測領域に対する検出処理で使用されるしきい値を、予測領域３００以外の領域に対する検出処理で使用されるしきい値よりも小さくする。しきい値調整部１６は、（ｎ＋３）フレーム目以降のしきい値についても同様にして調整する。

＜予測領域の特定方法＞
次に撮像画像において予測領域を特定する方法について説明する。図１９，２０は、ｎフレーム目及び（ｎ−１）フレーム目の撮像画像において特定された、ある顔についての顔画像が、（ｎ＋１）フレーム目の撮像画像において存在する可能性が高い予測領域３００を特定する方法を説明するための図である。以後、説明の対象の顔を「対象の顔」と呼ぶ。また、ｎフレーム目の撮像画像において特定された顔画像を「ｎフレーム目の顔画像」と呼ぶ。（ｎ＋１）フレーム目等についても同様である。

図１９に示されるように、しきい値調整部１６は、ｎフレーム目の撮像画像において特定された、対象の顔についての顔画像の位置１９０から延びる、対象の顔についての予測移動ベクトルＶｎの先の位置１９４を含む所定の大きさの矩形領域３５０を、上述の撮像画像対応領域２００に対して設定する。この位置１９４は、（ｎ＋１）フレーム目の撮像画像での対象の顔についての顔画像の位置の予測値であると言える。矩形領域３５０の上端は、位置１９４から上方向にスキャンステップＳＳ（本例では５ピクセル）がｄ１個分の距離となっており、矩形領域３５０の下端は、位置１９４から下方向にスキャンステップＳＳがｄ２個分の距離となっている。また、矩形領域３５０の左端は、位置１９４から左方向にスキャンステップＳＳがｄ３個分の距離となっており、矩形領域３５０の右端は、位置１９４から右方向にスキャンステップＳＳのｄ４個分の距離となっている。ｄ１〜ｄ４は、例えば５〜１０の間に設定される。

そして、しきい値調整部１６は、設定した矩形領域３５０が、（ｎ−１）フレーム目の撮像画像で特定された対象の顔の顔画像の位置１９１から、ｎフレーム目の撮像画像で特定された対象の顔の顔画像の位置１９０まで延びる実動きベクトルＣｎを含む場合には、図２０に示されるように、矩形領域３５０のうち、実動きベクトルＣｎを含む部分矩形領域３６０を矩形領域３５０から削除する。矩形領域３５０において、部分矩形領域３６０が削除されて残った領域が予測領域３００となる。部分矩形領域３６０の横幅及び縦幅のそれぞれはスキャンステップの倍数となっている。矩形領域３５０が実動きベクトルＣｎを含まない場合には、矩形領域３５０がそのまま予測領域３００となる。なお、予測領域３００については他の方法で特定しても良い。

＜しきい値調整の開始タイミングについて＞
次に、しきい値調整部１６がしきい値調整を開始するタイミングについて説明する。

例えば、（ｎ−３）フレーム目の撮像画像では特定されていない、ある顔の顔画像が、（ｎ−２）フレーム目の撮像画像において特定されたとする。図２１には、（ｎ−２）フレーム目の撮像画像において特定された、対象の顔の顔画像の位置１９２が示されている。この時点においては、（ｎ−３）フレーム目の撮像画像と（ｎ−２）フレーム目の撮像画像との間での対象の顔についての実際の動きベクトルである実動きベクトルＣｎ−２を求めることができない。したがって、しきい値調整部１６は（ｎ−１）フレーム目のしきい値の調整は行わない。

次に、（ｎ−１）フレーム目の撮像画像から、対象の顔の顔画像が再度特定されたとする。図２２には、（ｎ−１）フレーム目の撮像画像において特定された、対象の顔の顔画像の位置１９１が示されている。この時点においては、実動きベクトルＣｎ−１を求めることはできるものの（図２２参照）、（ｎ−２）フレーム目の撮像画像に対する処理において予測動きベクトルＶｎ−２が求められていないことから、しきい値調整部１６はｎフレーム目のしきい値の調整は行わない。

次に、ｎフレーム目の撮像画像から、対象の顔の顔画像が再度特定されたとする。図２３には、ｎフレーム目の撮像画像において特定された、対象の顔の顔画像の位置１９０が示されている。この時点では、しきい値調整部１６は、実動きベクトルＣｎを求めることができる。そして、しきい値調整部１６は、上記の式（１）において、予測動きベクトルＶｎ−１の代わりに実動きベクトルＣｎ−１を代入することによって、予測動きベクトルＶｎを求める。その後、しきい値調整部１６は、求めた予測動きベクトルＶｎに基づいて、（ｎ＋１）フレーム目のしきい値を調整する。具体的には、しきい値調整部１６は、上述のようにして、予測動きベクトルＶｎに基づいて、（ｎ＋１）フレーム目の撮像画像での予測領域３００を特定し、当該予測領域３００に対する検出処理で使用されるしきい値を、他の領域に対する検出処理で使用されるしきい値よりも小さくする。

次の（ｎ＋１）フレーム目の撮像画像において、対象の顔の顔画像が再度特定された場合には、実動きベクトルＣｎ＋１を求めることができ、また予測動きベクトルＶｎが既に求められていることから、しきい値調整部１６は式（１）を使用して予測動きベクトルＶｎ＋１を求めることができる。そして、しきい値調整部１６は、求めた予測動きベクトルＶｎ＋１に基づいて、（ｎ＋２）フレーム目のしきい値を調整する。以後、しきい値調整部１６は同様に動作する。

次に、（ｎ−３）フレーム目の撮像画像では特定されていない、複数の顔の顔画像が、（ｎ−２）フレーム目の撮像画像において特定された場合のしきい値調整部１６の動作について説明する。図２４は、（ｎ−２）フレーム目の撮像画像から特定された、顔Ａの顔画像の位置１９２Ａと、（ｎ−２）フレーム目の撮像画像から特定された、顔Ｂについての顔画像の位置１９２Ｂとが示されている。

（ｎ−３）フレーム目の撮像画像において特定されていない、顔Ａ及びＢの顔画像が、（ｎ−２）フレーム目の撮像画像において特定されると、顔Ａ及びＢについての実動きベクトルＣｎ−２を求めることができない。したがって、しきい値調整部１６は（ｎ−１）フレーム目のしきい値の調整は行わない。

次に、（ｎ−１）フレーム目の撮像画像から、顔Ａ及びＢの顔画像が再度特定されたとする。図２５には、（ｎ−１）フレーム目の撮像画像において特定された、顔Ａの顔画像の位置１９１Ａと、（ｎ−１）フレーム目の撮像画像において特定された、顔Ｂの顔画像の位置１９１Ｂとが示されている。この時点においては、顔Ａ及びＢについての実動きベクトルＣｎ−１を求めることはできるものの（図２５参照）、（ｎ−２）フレーム目の撮像画像に対する処理において、顔Ａ及びＢについての予測動きベクトルＶｎ−２が求められていないことから、しきい値調整部１６はｎフレーム目のしきい値の調整は行わない。

次に、ｎフレーム目の撮像画像から、顔Ａ及びＢの顔画像が再度特定されたとする。図２６には、ｎフレーム目の撮像画像において特定された、顔Ａの顔画像の位置１９０Ａと、ｎフレーム目の撮像画像において特定された、顔Ｂの顔画像の位置１９０Ｂとが示されている。この時点では、しきい値調整部１６は、顔Ａ及びＢについての実動きベクトルＣｎを求めることができる。そして、しきい値調整部１６は、上記の式（１）において、予測動きベクトルＶｎ−１の代わりに実動きベクトルＣｎ−１を代入することによって、顔Ａ及びＢについての予測動きベクトルＶｎを求める。その後、しきい値調整部１６は、求めた顔Ａ及びＢについての予測動きベクトルＶｎに基づいて、（ｎ＋１）フレーム目のしきい値を調整する。具体的には、しきい値調整部１６は、顔Ａについての予測動きベクトルＶｎに基づいて、（ｎ＋１）フレーム目の撮像画像において、顔Ａの顔画像が存在する可能性が高い予測領域３００を特定するとともに、顔Ｂについての予測動きベクトルＶｎに基づいて、（ｎ＋１）フレーム目の撮像画像において、顔Ｂの顔画像が存在する可能性が高い予測領域３００を特定する。顔Ａについての予測領域３００と、顔Ｂについての予測領域３００とは、部分的に重複することがある。そして、しきい値調整部１６は、求めた２つの予測領域３００に対する検出処理で使用されるしきい値を、他の領域に対する検出処理で使用されるしきい値よりも小さくする。

次の（ｎ＋１）フレーム目の撮像画像において、顔Ａ及びＢの顔画像が再度特定された場合には、顔Ａ及びＢについての実動きベクトルＣｎ＋１を求めることができ、また顔Ａ及びＢについての予測動きベクトルＶｎが既に求められていることから、しきい値調整部１６は式（１）を使用して顔Ａ及びＢについての予測動きベクトルＶｎ＋１を求めることができる。そして、しきい値調整部１６は、求めた顔Ａ及びＢについての予測動きベクトルＶｎ＋１に基づいて、（ｎ＋２）フレーム目のしきい値を調整する。以後、しきい値調整部１６は同様に動作する。

＜フレーム間での顔画像の対応付け＞
（ｎ−１）フレーム目の撮像画像において特定された、ある顔についての顔画像の位置と、ｎフレーム目の撮像画像において特定された、当該ある顔とは別の顔についての顔画像の位置とに基づいて求められた実動きベクトルＣｎが使用されて予測動きベクトルＶｎが求められ、当該予測動きベクトルＶｎに基づいて（ｎ＋１）フレーム目の撮像画像において予測領域３００が特定されると、精度の良い予測領域３００を得ることが困難となる。

また、ｎフレーム目の撮像画像から誤検出された顔画像の位置、つまり、ｎフレーム目の撮像画像において顔画像ではない領域の位置に基づいて求められた実動きベクトルＣｎが使用されて予測動きベクトルＶｎが求められ、当該予測動きベクトルＶｎに基づいて（ｎ＋１）フレーム目の撮像画像において予測領域３００が特定されると、精度の良い予測領域３００を得ることが困難となる。

そこで、本実施の形態では、実動きベクトルＣｎが求められる際に、（ｎ−１）フレーム目の撮像画像において特定された顔画像が対応する顔とは別の顔に対応する、ｎフレーム目の撮像画像において特定された顔画像の位置が使用されないように、またｎフレーム目の撮像画像において誤検出された顔画像の位置が使用されないように、しきい値調整部１６は、（ｎ−１）フレーム目の撮像画像において特定された顔画像に対して、当該顔画像の位置から所定距離ｒ以内に存在する、ｎフレーム目の撮像画像において特定された顔画像を対応付ける。そして、（ｎ−１）フレーム目の撮像画像において特定された顔画像の位置から、当該顔画像に対応する、ｎフレーム目の撮像画像において特定された顔画像の位置まで延びるベクトルを、実動きベクトルＣｎとする。図２７はその様子を示す図である。

図２７には、（ｎ−１）フレーム目の撮像画像で特定された顔画像の位置１９１から所定距離ｒ以内に存在する、ｎフレーム目の撮像画像において特定された顔画像の位置１９０ｘが示されている。このような場合には、しきい値調整部１６は、位置１９１から位置１９０ｘまで延びるベクトルを実動きベクトルＣｎとする。図２８には、（ｎ−１）フレーム目の顔画像の位置１９１から所定距離ｒ以内に存在しない、ｎフレーム目の顔画像の位置１９０ｙが示されている。

ここで、所定距離ｒは、例えば、人の歩く速さに基づいて決定される。例えば、平均的な速さで歩く人を撮像装置５が連続して撮像した場合に、連続して撮像された２つの撮像画像において、先に撮像された撮像画像での当該人の顔画像の位置と、後に撮像された撮像画像での当該人の顔画像の位置との間の距離に対してマージン値を足し合わせて得られる値が所定距離ｒとされる。

しきい値調整部１６は、（ｎ−１）フレーム目の撮像画像で特定された顔画像の位置１９１から所定距離ｒ以内に存在する、ｎフレーム目の撮像画像において特定された顔画像が存在しない場合には、当該位置１９１を用いて実動きベクトルＣｎを求めることができない。したがって、この場合には、しきい値調整部１６は、（ｎ−１）フレーム目の撮像画像で特定された顔画像に対応する顔について、（ｎ＋１）フレーム目の撮像画像において、当該顔の顔画像が存在する可能性が高い予測領域３００を求めることができない。

しきい値調整部１６は、（ｎ−１）フレーム目の撮像画像において複数の顔画像が特定されている場合には、当該複数の顔画像のそれぞれに対して、上述のようにして、ｎフレーム目の撮像画像で特定された顔画像を対応付ける。

なお、（ｎ−１）フレーム目の顔画像に対応付けられないｎフレーム目の顔画像が存在する場合には、上述の図２１〜２３あるいは図２４〜２６を参照して説明したように、ｎフレーム目の当該顔画像については最初から処理される。

このように、本実施の形態では、しきい値調整部１６が、（ｎ−１）フレーム目の撮像画像において特定された第１の顔画像の位置１９１から所定距離ｒ以内に存在する、ｎフレーム目の撮像画像から特定された第２の顔画像を特定し、当該第１の顔画像の位置１９１から当該第２の顔画像の位置１９０ｘまで延びるベクトルを、当該第１の顔画像の位置１９１から延びる実動きベクトルＣｎとしている。したがって、所定距離ｒを人が歩く速さ等に基づいて適切な値に設定することによって、（ｎ−１）フレーム目の撮像画像において特定された顔画像に対応する顔と同じ顔についての、ｎフレーム目の撮像画像から特定された顔画像の位置を用いて実動きベクトルＣｎを求めることができる。つまり、ある顔についての実動きベクトルＣｎを、当該顔についての（ｎ−１）フレーム目及びｎフレーム目の顔画像の位置を用いて求めることができる。よって、精度の良い予測領域３００を得ることができる。

また、ｎフレーム目の撮像画像において顔画像が誤検出されたとしても、誤検出された顔画像の位置が、（ｎ−１）フレーム目の撮像画像において特定された顔画像の位置から大きく離れていれば、当該誤検出された顔画像の位置に基づいて実動きベクトルＣｎが求められることを抑制できる。よって、精度の良い予測領域３００を得ることができる。

なお、所定距離ｒについては、実際の顔の移動の速さ（実際の人の移動の速さ）に基づいて決定しても良い。実動きベクトルＣｎ−１の大きさは、実際の顔の移動の速さを示していることから、しきい値調整部１６は、実動きベクトルＣｎを求める際には、前に求めた実動きベクトルＣｎ−１の大きさに基づいて所定距離ｒを決定することによって、実際の顔の移動の速さに基づいて所定距離ｒを決定することができる。しきい値調整部１６は、例えば、実動きベクトルＣｎ−１の大きさに対して所定のマージン値を足し合わせて得られる値を所定距離ｒとする。

＜所定距離ｒ内に複数の顔画像が検出された場合の処理＞
（ｎ−１）フレーム目のある顔画像の位置から所定距離ｒ以内に、ｎフレーム目の顔画像が複数存在することがある。ここでは、このような場合に、（ｎ−１）フレーム目の顔画像に対応付ける、ｎフレーム目の顔画像の決定方法について説明する。以後、説明の対象の顔画像を「対象顔画像」と呼ぶことがある。

図２９は、（ｎ−１）フレーム目の、顔Ａについての対象顔画像の位置１９１から所定距離ｒ以内に、ｎフレーム目の顔画像が複数存在する様子を示す図である。ｎフレーム目の撮像画像からは、顔画像ａ〜ｄが特定されたとする。図２９には、ｎフレーム目の顔画像ａの位置１９０ａ、顔画像ｂの位置１９０ｂ、顔画像ｃの位置１９０ｃ、顔画像ｄの位置１９０ｄが示されている。位置１９０ａ〜１９０ｃは、（ｎ−１）フレーム目の対象顔画像の位置１９１から所定距離ｒ以内に存在し、位置１９０ｄは、（ｎ−１）フレーム目の対象顔画像の位置１９１から所定距離ｒ以内に存在しない。

このような場合、しきい値調整部１６は、（ｎ−１）フレーム目の対象顔画像の位置１９１から、ｎフレーム目の顔画像ａの位置１９０ａまで延びるベクトル４００ａと、（ｎ−１）フレーム目の対象顔画像の位置１９１から、ｎフレーム目の顔画像ｂの位置１９０ｂまで延びるベクトル４００ｂと、（ｎ−１）フレーム目の対象顔画像の位置１９１から、ｎフレーム目の顔画像ｃの位置１９０ｃまで延びるベクトル４００ｃとを求める。そして、しきい値調整部１６は、求めたベクトル４００ａ〜４００ｃのうち、前に求めた予測動きベクトルＶｎ−１（過去予測動きベクトル）に最も類似するベクトルを特定する。具体的には、しきい値調整部１６は、ベクトル４００ａ〜４００ｃのうち、予測動きベクトルＶｎ−１と成す角度が最も小さいベクトルを、予測動きベクトルＶｎ−１に最も類似するベクトルとする。図２９の例では、ベクトル４００ｂが予測動きベクトルＶｎ−１に最も類似するベクトル（最も近いベクトル）となる。しきい値調整部１６は、特定した、予測動きベクトルＶｎ−１に最も類似するベクトルに対応するｎフレーム目の顔画像を、（ｎ−１）フレーム目の対象顔画像に対応付ける。図２９の例では、ｎフレーム目の顔画像ｂが、（ｎ−１）フレーム目の対象顔画像に対応付けられる。しきい値調整部１６は、図３０に示されるように、（ｎ−１）フレーム目の対象顔画像の位置１９１から、ｎフレーム目の顔画像ｂの位置１９０ｂまで延びるベクトル４００ｂを、（ｎ−１）フレーム目の対象顔画像に対応する顔Ａについての実動きベクトルＣｎとして、予測動きベクトルＶｎを求める。

しきい値調整部１６は、（ｎ−１）フレーム目の撮像画像において複数の顔画像が特定されている場合には、当該複数の顔画像のそれぞれについて同様の処理を行う。ｎフレーム目の顔画像ａ，ｃ，ｄのうち、（ｎ−１）フレーム目のいずれの顔画像にも対応付けられない顔画像については、上述の図２１〜２３あるいは図２４〜２６を参照して説明したように最初から処理される。

このように、本実施の形態に係るしきい値調整部１６は、（ｎ−１）フレーム目の第１の顔画像（対象顔画像）の位置から所定距離ｒ以内に存在する、ｎフレーム目の複数の第２の顔画像（顔画像ａ〜ｃ）が存在する場合には、当該第１の顔画像の位置から、当該複数の第２の顔画像の位置にそれぞれ延びる複数のベクトル（ベクトル４００ａ〜４００ｃ）のうち、当該第１の顔画像の位置から延びる予測動きベクトルＶｎ−１と成す角度が最も小さいベクトル（ベクトル４００ｂ）を、当該第１の顔画像の位置から延びる実動きベクトルＣｎとしている。

ここで、（ｎ−１）フレーム目の第１の顔画像の位置から延びる予測動きベクトルＶｎ−１は、当該第１の顔画像に対応する顔についての、（ｎ−１）フレーム目の撮像画像とｎフレーム目の撮像画像との間での予測動きベクトル（動きベクトルの予測値）であると言える。したがって、（ｎ−１）フレーム目の第１の顔画像の位置から、ｎフレーム目の複数の第２の顔画像の位置にそれぞれ延びる複数のベクトルのうち、予測動きベクトルＶｎ−１と成す角度が最も小さいベクトルを、（ｎ−１）フレーム目の第１の顔画像の位置から延びる実動きベクトルＣｎ、つまり当該第１の顔画像に対応する顔についての実動きベクトルＣｎとすることによって、同じ顔についての（ｎ−１）フレーム目及びｎフレーム目の顔画像の位置に基づいた実動きベクトルＣｎを得ることができる。つまり、ある顔についての実動きベクトルＣｎを、当該顔についての（ｎ−１）フレーム目及びｎフレーム目の顔画像の位置を用いて求めることができる。よって、精度の良い予測領域３００を得ることができる。

図３１は、（ｎ−１）フレーム目の撮像画像及びｎフレーム目の撮像画像のそれぞれにおいて複数の顔画像が特定されている様子を示す図である。図３１には、顔Ａについての（ｎ−３）フレーム目、（ｎ−２）フレーム目及び（ｎ−１）フレーム目の顔画像の位置１９３Ａ，１９２Ａ，１９１Ａが示されている。また図３１には、顔Ｂについての（ｎ−３）フレーム目、（ｎ−２）フレーム目及び（ｎ−１）フレーム目の顔画像の位置１９３Ｂ，１９２Ｂ，１９１Ｂが示されている。また図３１には、顔Ｃについての（ｎ−４）フレーム目、（ｎ−３）フレーム目、（ｎ−２）フレーム目及び（ｎ−１）フレーム目の顔画像の位置１９４Ｃ，１９３Ｃ，１９２Ｃ，１９１Ｃが示されている。そして、図３１には、ｎフレーム目の撮像画像から特定された顔画像ａ〜ｃの位置１９０ａ，１９０ｂ，１９０ｃが示されている。図３１の例では、位置１９０ａ〜１９０ｃは、位置１９１Ａから所定距離ｒ以内に存在する。また位置１９０ａ〜１９０ｃは、位置１９１Ｂから所定距離ｒ以内に存在する。そして、位置１９０ａ〜１９０ｃは、位置１９１Ｃから所定距離ｒ以内に存在する。

図３１の例では、しきい値調整部１６は、顔Ａ〜Ｃにそれぞれ対応する（ｎ−１）フレーム目の複数の顔画像のそれぞれに対して、上記のようにしてｎフレーム目の顔画像ａ〜ｃのうちの一つを対応付ける。

しきい値調整部１６は、顔Ａに対応する（ｎ−１）フレーム目の顔画像に対してｎフレーム目の顔画像を対応付ける場合には、図３２に示されるように、顔Ａに対応する（ｎ−１）フレーム目の顔画像の位置１９１Ａから、ｎフレーム目の顔画像ａの位置１９０ａまで延びるベクトル４１０ａと、位置１９１Ａからｎフレーム目の顔画像ｂの位置１９０ｂまで延びるベクトル４１０ｂと、位置１９１Ａからｎフレーム目の顔画像ｃの位置１９０ｃまで延びるベクトル４１０ｃとを求める。そして、しきい値調整部１６は、ベクトル４１０ａ〜４１０ｃのうち、位置１９１Ａから延びる予測動きベクトルＶｎ−１（顔Ａについて前に求めた予測動きベクトルＶｎ−１）と成す角度が最も小さいベクトルを、予測動きベクトルＶｎ−１に最も類似するベクトルとする。図３２の例では、ベクトル４１０ｂが予測動きベクトルＶｎ−１に最も類似するベクトルとなる。しきい値調整部１６は、特定した、予測動きベクトルＶｎ−１に最も類似するベクトルに対応するｎフレーム目の顔画像を、顔Ａについての（ｎ−１）フレーム目の顔画像に対応付ける。図３２の例では、ｎフレーム目の顔画像ｂが、顔Ａについての（ｎ−１）フレーム目の顔画像に対応付けられる。しきい値調整部１６は、顔Ａについての（ｎ−１）フレーム目の顔画像の位置１９１Ａから、ｎフレーム目の顔画像ｂの位置１９０ｂまで延びるベクトル４１０ｂを、顔Ａについての実動きベクトルＣｎとして、予測動きベクトルＶｎを求める。

しきい値調整部１６は、顔Ｂに対応する（ｎ−１）フレーム目の顔画像に対してｎフレーム目の顔画像を対応付ける場合には、図３３に示されるように、顔Ｂに対応する（ｎ−１）フレーム目の顔画像の位置１９１Ｂから、ｎフレーム目の顔画像ａの位置１９０ａまで延びるベクトル４２０ａと、位置１９１Ｂからｎフレーム目の顔画像ｂの位置１９０ｂまで延びるベクトル４２０ｂと、位置１９１Ｂからｎフレーム目の顔画像ｃの位置１９０ｃまで延びるベクトル４２０ｃとを求める。そして、しきい値調整部１６は、ベクトル４２０ａ〜４２０ｃのうち、位置１９１Ｂから延びる予測動きベクトルＶｎ−１と成す角度が最も小さいベクトルを、予測動きベクトルＶｎ−１に最も類似するベクトルとする。図３３の例では、ベクトル４２０ｃが予測動きベクトルＶｎ−１に最も類似するベクトルとなる。しきい値調整部１６は、特定した、予測動きベクトルＶｎ−１に最も類似するベクトルに対応するｎフレーム目の顔画像を、顔Ｂについての（ｎ−１）フレーム目の顔画像に対応付ける。図３３の例では、ｎフレーム目の顔画像ｃが、顔Ｂについての（ｎ−１）フレーム目の顔画像に対応付けられる。しきい値調整部１６は、顔Ｂについての（ｎ−１）フレーム目の顔画像の位置１９１Ｂから、ｎフレーム目の顔画像ｃの位置１９０ｃまで延びるベクトル４２０ｃを、顔Ｂについての実動きベクトルＣｎとして、予測動きベクトルＶｎを求める。

しきい値調整部１６は、顔Ｃに対応する（ｎ−１）フレーム目の顔画像に対してｎフレーム目の顔画像を対応付ける場合には、図３４に示されるように、顔Ｃに対応する（ｎ−１）フレーム目の顔画像の位置１９１Ｃから、ｎフレーム目の顔画像ａの位置１９０ａまで延びるベクトル４３０ａと、位置１９１Ｃからｎフレーム目の顔画像ｂの位置１９０ｂまで延びるベクトル４３０ｂと、位置１９１Ｃからｎフレーム目の顔画像ｃの位置１９０ｃまで延びるベクトル４３０ｃとを求める。そして、しきい値調整部１６は、ベクトル４３０ａ〜４３０ｃのうち、位置１９１Ｃから延びる予測動きベクトルＶｎ−１と成す角度が最も小さいベクトルを、予測動きベクトルＶｎ−１に最も類似するベクトルとする。図３４の例では、ベクトル４３０ａが予測動きベクトルＶｎ−１に最も類似するベクトルとなる。しきい値調整部１６は、特定した、予測動きベクトルＶｎ−１に最も類似するベクトルに対応するｎフレーム目の顔画像を、顔Ｃについての（ｎ−１）フレーム目の顔画像に対応付ける。図３４の例では、ｎフレーム目の顔画像ａが、顔Ｃについての（ｎ−１）フレーム目の顔画像に対応付けられる。しきい値調整部１６は、顔Ｃについての（ｎ−１）フレーム目の顔画像の位置１９１Ｃから、ｎフレーム目の顔画像ａの位置１９０ａまで延びるベクトル４３０ａを、顔Ｃについての実動きベクトルＣｎとして、予測動きベクトルＶｎを求める。図３５には、位置１９１Ａ，１９１Ｂ，１９１Ｃから延びる、顔Ａ〜Ｃについての実動きベクトルＣｎが示されている。

なお、上記のようにして（ｎ−１）フレーム目の顔画像とｎフレーム目の顔画像とを対応付ける場合には、異なる顔に対応する（ｎ−１）フレーム目及びｎフレームの顔画像を互いに対応付ける可能がある。図３６は、異なる顔に対応する（ｎ−１）フレーム目及びｎフレームの顔画像が互いに対応付けられる様子の一例を示す図である。図３６には、顔Ａについての（ｎ−３）フレーム目、（ｎ−２）フレーム目、（ｎ−１）フレーム及びｎフレーム目の顔画像の位置１９３Ａ，１９２Ａ，１９１Ａ，１９０Ａが示されている。また、図３６には、顔Ｂについての（ｎ−３）フレーム目、（ｎ−２）フレーム目、（ｎ−１）フレーム及びｎフレーム目の顔画像の位置１９３Ｂ，１９２Ｂ，１９１Ｂ，１９０Ｂが示されている。

図３６の例では、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる予測動きベクトルＶｎ−１に対して、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂの方が、ｎフレーム目の顔Ａの顔画像の位置１９０Ａよりも近いことから、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ｂの顔画像とが対応付けられる。したがって、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂに延びるベクトルが、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎとされる。そして、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる予測動きベクトルＶｎが求められる。

一方で、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる予測動きベクトルＶｎ−１に対しては、ｎフレーム目の顔Ａの顔画像の位置１９０Ａの方が、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂよりも近いことから、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ａの顔画像とが対応付けられる。したがって、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから、ｎフレーム目の顔Ａの顔画像の位置１９０Ａに延びるベクトルが、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎとされる。そして、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ａの顔画像の位置１９１Ａから延びる予測動きベクトルＶｎが求められる。

このように、図３６の例では、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ｂの顔画像とが対応付けられ、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ａの顔画像とが対応付けられる。

図３７は、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ａの顔画像とが対応付けられ、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ｂの顔画像とが対応付けられている様子を示す図である。図３７では、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから、ｎフレーム目の顔Ａの顔画像の位置１９０Ａに延びるベクトルが、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎとされている。したがって、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ａの顔画像の位置１９１Ａから延びる予測動きベクトルＶｎが求められる。

また図３７では、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂに延びるベクトルが、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎとされている。したがって、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる予測動きベクトルＶｎが求められる。

予測動きベクトルＶｎを求める際に使用される、実動きベクトルＣｎの重み係数αを大きめに設定すると、図３６に示される例での予測動きベクトルＶｎと、図３７に示される例での予測動きベクトルＶｎとの差を小さくすることができる。よって、図３６のように、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ｂの顔画像とが誤って対応付けられ、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ａの顔画像とが誤って対応付けられていたとしても、予測領域３００の精度はそれほど劣化しない。

図３８は、異なる顔に対応する（ｎ−１）フレーム目及びｎフレームの顔画像が互いに対応付けられる様子の他の一例を示す図である。図３８の例では、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる予測動きベクトルＶｎ−１の方向に、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂが存在していることから、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ｂの顔画像とが対応付けられる。したがって、図３６の例と同様に、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂに延びるベクトルが、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎとされる。そして、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる予測動きベクトルＶｎが求められる。

一方で、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる予測動きベクトルＶｎ−１の方向には、ｎフレーム目の顔Ａの顔画像の位置１９０Ａが存在することから、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ａの顔画像とが対応付けられる。したがって、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから、ｎフレーム目の顔Ａの顔画像の位置１９０Ａに延びるベクトルが、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎとされる。そして、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ａの顔画像の位置１９１Ａから延びる予想動きベクトルＶｎが求められる。

このように、図３８の例においても、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ｂの顔画像とが対応付けられ、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ａの顔画像とが対応付けられる。

図３９は、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ａの顔画像とが対応付けられ、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ｂの顔画像とが対応付けられている様子を示す図である。図３９では、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから、ｎフレーム目の顔Ａの顔画像の位置１９０Ａに延びるベクトルが、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎとされている。したがって、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ａの顔画像の位置１９１Ａから延びる予測動きベクトルＶｎが求められる。

また図３９では、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂに延びるベクトルが、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎとされている。したがって、（ｎ−１）フレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる実動きベクトルＣｎ及び予測動きベクトルＶｎ−１に基づいて、ｎフレーム目の顔Ｂの顔画像の位置１９１Ｂから延びる予測動きベクトルＶｎが求められる。

予測動きベクトルＶｎを求める際に使用される、実動きベクトルＣｎの重み係数αを大きめに設定すると、図３８の例での予測動きベクトルＶｎと、図３９の例での予測動きベクトルとの差を小さくすることができる。したがって、図３８のように、（ｎ−１）フレーム目の顔Ａの顔画像と、ｎフレーム目の顔Ｂの顔画像とが誤って対応付けられ、（ｎ−１）フレーム目の顔Ｂの顔画像と、ｎフレーム目の顔Ａの顔画像とが誤って対応付けられていたとしても、予測領域３００の精度はそれほど劣化しない。

＜一つの顔画像について複数の予測動きベクトルが得られた際の処理＞
上記の例では、（ｎ−１）フレーム目の対象顔画像に対して、（ｎ−２）フレームの複数の顔画像が対応付けられている場合には、（ｎ−１）フレーム目の対象顔画像の位置から延びる予測動きベクトルＶｎ−１が複数求められる。図４０はその様子を示す図である。以後、顔Ａについての予測動きベクトルＶｎ−１を「予測動きベクトルＶｎ−１Ａ」と呼ぶことがある。顔Ｂ，Ｃ等についても同様である。

図４０の例では、（ｎ−１）フレーム目の対象顔画像に対して、顔Ａ〜Ｃについての（ｎ−２）フレームの顔画像が対応付けられている。このような場合には、（ｎ−１）フレーム目の対象顔画像は、顔Ａ〜Ｃに対応することになり、（ｎ−１）フレーム目の対象顔画像の位置１９１ｔから延びる、顔Ａについての予測動きベクトルＶｎ−１Ａ、顔Ｂについての予測動きベクトルＶｎ−１Ｂ及び顔Ｃについての予測動きベクトルＶｎ−１Ｃが得られる。

そして、（ｎ−１）フレーム目の対象顔画像が、ｎフレーム目のある顔画像ｆに対応付けられたとすると、当該顔画像ｆの位置１９０ｆから延びる予測動きベクトルＶｎを求める際に使用する予測動きベクトルＶｎ−１を、３つの予測動きベクトルＶｎ−１Ａ，Ｖｎ−１Ｂ，Ｖｎ−Ｃから決定する必要がある。このような場合、しきい値調整部１６は、予測動きベクトルＶｎ−１Ａ，Ｖｎ−１Ｂ，Ｖｎ−Ｃのうち、（ｎ−１）フレーム目の対象顔画像の位置１９１ｔからｎフレーム目の顔ｆの顔画像の位置１９０ｆまで延びる実動きベクトルＣｎに最も類似するベクトルを、予測動きベクトルＶｎを求める際に使用する予測動きベクトルＶｎ−１とする。具体的には、しきい値調整部１６は、予測動きベクトルＶｎ−１Ａ，Ｖｎ−１Ｂ，Ｖｎ−Ｃのうち、実動きベクトルＣｎと成す角度が最も小さいベクトルを、予測動きベクトルＶｎを求める際に使用する予測動きベクトルＶｎ−１とする。図４０の例では、顔Ｃについての予測動きベクトルＶｎ−１Ｃが、実動きベクトルＣｎに関連付けられ、予測動きベクトルＶｎを求める際に使用する予測動きベクトルＶｎ−１となる。

図４１は、（ｎ−１）フレーム目の対象顔画像の位置１９１ｔから延びる予測動きベクトルＶｎ−１Ａ，Ｖｎ−１Ｂ，Ｖｎ−１Ｃが存在する場合において、ｎフレーム目の撮像画像から特定された、図４０の例とは異なる位置の顔画像ｇに対して対象顔画像が対応付けられている様子を示す図である。図４１の例では、（ｎ−１）フレーム目の対象顔画像の位置１９１ｔから、ｎフレーム目の顔画像ｇの位置１９０ｇまで延びるベクトルが実動きベクトルＣｎとなる。そして、顔Ｂについての予測動きベクトルＶｎ−１Ｂが、実動きベクトルＣｎに関連付けられ、予測動きベクトルＶｎを求める際に使用する予測動きベクトルＶｎ−１となる。

このように、しきい値調整部１６は、（ｎ−１）フレーム目の対象顔画像の位置１９１ｔから延びる複数の予測動きベクトルＶｎ−１を求めた場合には、当該複数の予測動きベクトルＶｎ−１のうち、（ｎ−１）フレーム目の対象顔画像の位置１９１ｔから、当該対象顔画像に対応付けられたｎフレーム目の顔画像の位置まで延びる実動きベクトルＣｎと成す角度が最も小さいベクトルを使用して、当該対象顔画像に対応付けられたｎフレーム目の顔画像の位置から延びる予測動きベクトルＶｎを求めている。

ここで、対象顔画像の位置から延びる複数の予測動きベクトルＶｎ−１のうち、ある顔についての予測動きベクトルＶｎ−１と、対象顔画像から延びる実動きベクトルＣｎとが成す角度が小さいということは、当該実動きベクトルＣｎは当該ある顔についての実動きベクトルＣｎである可能性が高く、対象顔画像に対応付けられたｎフレーム目の顔画像は当該ある顔に対応する可能性が高い。よって、本実施の形態のように、しきい値調整部１６が、対象顔画像の位置から延びる複数の予測動きベクトルＶｎ−１のうち、対象顔画像の位置から延びる実動きベクトルＣｎと成す角度が最も小さいベクトルを使用して、対象顔画像に対応付けられたｎフレーム目の顔画像の位置から延びる予測動きベクトルＶｎを求めることによって、予測領域３００の精度を向上させることが可能となる。

以上のように、本実施の形態では、しきい値調整部１６は、（ｎ＋１）フレーム目の撮像画像に対する検出処理で使用されるしきい値を調整する場合には、（ｎ＋１）フレーム目の撮像画像において顔画像が存在する可能性が高い領域を予測領域３００として特定し、当該予測領域３００に対する検出処理で使用されるしきい値を、当該予測領域３００以外の領域に対する検出処理で使用されるしきい値よりも小さくしている。そのため、（ｎ＋１）フレーム目の撮像画像における、顔画像が存在する可能性が高い予測領域３００では、顔画像が検出され易くなる。よって、撮像画像において顔画像が含まれているにもかかわらず、当該撮像画像から顔画像が検出できないといったことが発生しにくくなる。その結果、顔画像についての検出精度が向上する。

また、顔画像が存在する可能性が高い予測領域３００に対する検出処理で使用されるしきい値を小さくしていることから、検出処理で使用されるしきい値を小さくしたことに起因する顔画像の誤検出の発生を抑制することができる。

また、本実施の形態では、（ｎ＋１）フレーム目の撮像画像において予測領域３００を特定する際に使用される、ｎフレーム目の撮像画像と（ｎ＋１）フレーム目の撮像画像との間の予測動きベクトルＶｎが、（ｎ−１）フレーム目の撮像画像とｎフレーム目の撮像画像との間の予測動きベクトルＶｎ−１と、（ｎ−１）フレーム目の撮像画像とｎフレーム目の撮像画像との間の実動きベクトルＣｎとに基づいて求められている。このように、予測動きベクトルＶｎを、実動きベクトルＣｎだけではなく、前の予測動きベクトルＶｎ−１も用いて求めることによって、予測動きベクトルＶｎの精度を向上することができる。

また、本実施の形態のように、実動きベクトルＣｎと予測動きベクトルＶｎ−１とを重み付け合成する際には、実動きベクトルＣｎの重み係数αを、予測動きベクトルＶｎ−１の重み係数（１−α）よりも大きくすることによって、顔の移動方向が急に変化した場合であっても、精度の良い予測動きベクトルＶｎを得ることができる。

図４２は、実動きベクトルＣｎの重み係数αと、予測動きベクトルＶｎ−１の重み係数（１−α）とが一致している場合において、ｎフレーム目において顔Ａの移動方向が急に変化した際の予測動きベクトルＶｎを示す図である。また、図４３は、実動きベクトルＣｎの重み係数αが、予測動きベクトルＶｎ−１の重み係数（１−α）よりも大きいい場合において、ｎフレーム目において顔Ａの移動方向が急に変化した際の予測動きベクトルＶｎを示す図である。

図４２，４３には、（ｎ−１）フレーム目の顔Ａの顔画像の位置１９１Ａからｎフレーム目の顔Ａの顔画像の位置１９０Ａまで延びる実動きベクトルＣｎが示されている。この実動きベクトルＣｎは、顔Ａについての急に変化した後の移動方向を示している。

図４２に示される予測動きベクトルＶｎと、図４３に示される予測動きベクトルＶｎとを比較すると、図４３に示される予測動きベクトルＶｎの方が実動きベクトルＣｎに類似している。したがって、実動きベクトルＣｎの重み係数αが、予測動きベクトルＶｎ−１の重み係数（１−α）よりも大きい場合には、予測動きベクトルＶｎの方向が、顔Ａについての急に変化した後の移動方向に近くなる。よって、図４３に示される予測動きベクトルＶｎの方が、図４２に示される予測動きベクトルＶｎよりも精度が高いと言える。

＜各種変形例＞
以下に本実施の形態についての各種変形例を説明する。以下の説明では、検出処理で使用されるしきい値を「第１のしきい値」と呼ぶことがある。

＜第１変形例＞
ｎフレーム目の撮像画像において、ある顔に対応する顔画像であると特定された領域についての検出確度値が大きい場合には、（ｎ＋１）フレーム目の撮像画像において、当該ある顔に対応する顔画像が存在する領域についての検出確度値も大きい可能性が高い。

一方で、ｎフレーム目の撮像画像において、ある顔に対応する顔画像であると特定された領域についての検出確度値が小さい場合には、（ｎ＋１）フレーム目の撮像画像において、当該ある顔に対応する顔画像が存在する領域についての検出確度値も小さい可能性が高い。

そこで、本変形例に係るしきい値調整部１６は、検出対象画像特定部１５がｎフレーム目の撮像画像において顔画像であると特定した領域（上記の外接矩形内の画像）についての検出確度値が第２のしきい値よりも小さい場合において（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用される第１のしきい値を、当該検出確度値が当該第２のしきい値よりも大きい場合において（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用される第１のしきい値よりも小さくする。検出対象画像特定部１５がｎフレーム目の撮像画像において顔画像であると特定した領域についての検出確度値としては、例えば、出力値マップにおける、当該領域の中心位置と同じ位置での検出確度値を使用する。

例えば、第１のしきい値の初期値が“１０”であるとすると、ｎフレーム目の撮像画像において顔画像であると特定された領域についての検出確度値が第２のしきい値よりも小さい場合には、しきい値調整部１６は、当該領域の位置（図１６，１９，２０，２３等の例では位置１９０）から延びる予測動きベクトルＶｎに基づいて特定された、（ｎ＋１）フレーム目の撮像画像の予測領域３００に対する検出処理で使用される第１のしきい値を例えば“４”に設定する。一方で、ｎフレーム目の撮像画像において顔画像であると特定された領域についての検出確度値が第２のしきい値よりも大きい場合には、しきい値調整部１６は、当該領域の位置から延びる予測動きベクトルＶｎに基づいて特定された、（ｎ＋１）フレーム目の撮像画像の予測領域３００に対する検出処理で使用される第１のしきい値を例えば“７”に設定する。これにより、（ｎ＋１）フレーム目の撮像画像の予測領域３００に対する検出処理での誤検出を抑制することができる。

なお、検出対象画像特定部１５がｎフレーム目の撮像画像において顔画像であると特定した領域についての検出確度値が第２のしきい値と一致する場合には、（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用する第１のしきい値を、当該検出確度値が当該第２のしきい値よりも大きい場合と同じにしても良いし、当該検出確度値が当該第２のしきい値よりも小さい場合と同じにしても良い。

＜第２変形例＞
撮像装置５が、当該撮像装置５に近づいてくる顔を撮像する場合には、撮像画像において当該顔の顔画像が写りやすくなることから、撮像画像において当該顔の顔画像が存在する領域についての検出確度値は大きくなる可能性が高い。

一方で、撮像装置５が、当該撮像装置５から遠ざかっていく顔を撮像する場合には、撮像画像において当該顔の顔画像が写りにくくなることから、撮像画像において当該顔の顔画像が存在する領域についての検出確度値は小さくなる可能性が高い。

そこで、本変形例に係るしきい値調整部１６は、顔が撮像装置５から遠ざかる場合において（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用される第１のしきい値を、顔が撮像装置５に近づく場合において（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用される第１のしきい値よりも小さくする。以下にこの変形例について具体的に説明する。

図４４は撮像装置５の設置例を示す図である。監視カメラシステム等においては、図４４に示されるように、撮像装置５が、その撮像視野が斜め下方向となるように家４５０の外壁に取り付けられることがある。図４４のように設置された撮像装置５で撮像される撮像画像２０では、図４５に示されるように、下端の中央が撮像装置５のレンズ中心５００となる。

図４４のように設置された撮像装置５で撮像された（ｎ＋１）フレーム目の撮像画像に対する検出処理で使用されるしきい値を調整する際には、しきい値調整部１６は、ｎフレーム目の顔画像から延びる予測動きベクトルＶｎが下方向に向く場合には、当該顔画像に対応する顔が撮像装置５に近づくと判断する。一方で、しきい値調整部１６は、ｎフレーム目の顔画像から延びる予測動きベクトルＶｎが上方向に向く場合には、当該顔画像に対応する顔が撮像装置５から遠ざかると判断する。

図４６は、顔Ａが撮像装置５に近づく様子と、顔Ｂが撮像装置５から遠ざかる様子とを示す図である。図４６には、（ｎ−３）フレーム目、（ｎ−２）フレーム目、（ｎ−１）フレーム目及びｎフレーム目の顔Ａの顔画像の位置１９３Ａ，１９２Ａ，１９１Ａ，１９０Ａが示されている。また図４６には、（ｎ−３）フレーム目、（ｎ−２）フレーム目、（ｎ−１）フレーム目及びｎフレーム目の顔Ｂの顔画像の位置１９３Ｂ，１９２Ｂ，１９１Ｂ，１９０Ｂが示されている。

図４６の例では、しきい値調整部１６は、ｎフレーム目の顔Ａの顔画像の位置１９０Ａから延びる予測動きベクトルＶｎが下方向（より詳細には右下方向）を向いていることから、ｎフレーム目から（ｎ＋１）フレーム目にかけて顔Ａが撮像装置５に近づくと判断する。そして、しきい値調整部１６は、ｎフレーム目の顔Ａの顔画像の位置１９０Ａから延びる予測動きベクトルＶｎに基づいて特定する、（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用する第１のしきい値を例えば“７”に設定する。

一方で、しきい値調整部１６は、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂから延びる予測動きベクトルＶｎが上方向（より詳細には右上方向）を向いていることから、ｎフレーム目から（ｎ＋１）フレーム目にかけて顔Ｂが撮像装置５から遠ざかると判断する。そして、しきい値調整部１６は、ｎフレーム目の顔Ｂの顔画像の位置１９０Ｂから延びる予測動きベクトルＶｎに基づいて特定する、（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用する第１のしきい値を例えば“４”に設定する。

このように、しきい値調整部１６が、顔が撮像装置５から遠ざかる場合において（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用される第１のしきい値を、顔が撮像装置５に近づく場合において（ｎ＋１）フレーム目の撮像画像での予測領域３００に対する検出処理で使用される第１のしきい値よりも小さくすることによって、予測領域３００に対する検出処理での顔画像の誤検出を抑制することができる。

＜第３変形例＞
撮像装置５の撮像視野が固定である場合には、当該撮像視野において、顔が頻繁に移動する経路（例えば人が頻繁に通る道など）のように、顔が存在する可能性が高い特定領域（固定領域）が存在することがある。撮像画像において、撮像視野における、顔が存在する可能性が高い特定領域を写す画像領域には、顔画像が存在する可能性が高い。したがって、撮像画像において、撮像視野における、顔が存在する可能性が高い特定領域を写す画像領域に対する検出処理で使用される第１のしきい値を、当該画像領域が予測領域３００になるかどうかにかかわらず小さくしておくことによって、予測領域３００の精度があまり良くなくても、顔画像の検出処理の精度を向上することが可能となる。

そこで、本変形例では、しきい値調整部１６は、撮像画像において、それに対する検出処理で使用される第１のしきい値が小さくされた回数が、所定回数よりも多い、あるいは当該所定回数以上の領域を特定する。そして、しきい値調整部１６は、特定した当該領域に対する検出処理で使用される第１のしきい値を、当該領域が予測領域３００とされるか否かにかかわらず小さくする。これにより、撮像画像での予測領域３００の精度があまり良くない場合であっても、当該撮像画像において、顔画像が存在する可能性が高い領域に対する検出処理で使用される第１のしきい値を確実に小さくすることができる。よって、顔画像についての検出精度が向上する。以下に、本変形例について具体的に説明する。

本変形例に係るしきい値調整部１６は、検出処理で使用される第１のしきい値が小さくされた回数についての撮像画像での分布を示すしきい値低減回数マップ６００を生成する。第１のしきい値が小さくされた回数は、予測領域３００となった回数を意味していることから、しきい値低減回数マップ６００は、予測領域３００となった回数についての撮像画像での分布を示していると言える。

図４７はしきい値低減回数マップ６００の一例を示す図である。しきい値調整部１６は、撮像画像を複数の分割領域に分割する。そして、しきい値調整部１６は、各分割領域について、当該分割領域に対する検出処理で使用される第１のしきい値が小さくされた回数（以後、「しきい値低減回数」と呼ぶ）をカウントする。分割領域の縦方向及び横方向の長さはスキャンステップと一致している。しきい値低減回数マップ６００では、しきい値低減回数６１０が、撮像画像における、それに対応する分割領域の位置に対応させて示されている。例えば、しきい値低減回数マップ６００での左上のしきい値低減回数６１０は、撮像画像での左上の分割領域についてのしきい値低減回数となっている。

図４７の例では、撮像画像の中央部の２列の複数の分割領域についてのしきい値低減回数６１０が大きくなっている。これは、撮像装置５の撮像視野の中央部において、玄関から門扉まで続く道（アプローチ）などのように、顔が頻繁に移動する経路が含まれているからである。

しきい値調整部１６は、撮像画像での予測領域３００を特定するたびに、当該予測領域３００に基づいて、しきい値低減回数マップ６００を更新する。そして、しきい値調整部１６は、しきい値低減回数マップ６００を更新するたびに、対応するしきい値低減回数６１０が所定回数以上あるいは当該所定回数よりも大きい分割領域を特定し、以後、当該分割領域に対する検出処理で使用される第１のしきい値を、当該分割領域が予測領域３００とされるか否かにかかわらず、予測領域でない領域に対する検出処理で使用される第１のしきい値よりも小さくする。所定回数を例えば１０回とすると、図４７の例では、撮像画像の中央部の２列の複数の分割領域から成る領域に対する検出処理で使用される第１のしきい値が、当該領域が予測領域３００とされるか否かにかかわらず、例えば“７”とされる。

なお、撮像画像において、しきい値低減回数６１０が所定回数以上あるいは当該所定回数よりも大きい分割領域に対する検出処理で使用される第１のしきい値については、当該分割領域が予測領域３００とされる場合と、当該分割領域が予測領域３００とされない場合とで必ずしも一致しなくても良い。

例えば、（ｎ＋１）フレーム目の撮像画像に対する検出処理で使用されるしきい値についての調整処理において、（ｎ＋１）フレーム目の撮像画像において当該分割領域が予測領域３００とされない場合には、当該分割領域に対する検出処理で使用される第１のしきい値を例えば“７”に設定する。一方で、（ｎ＋１）フレーム目の撮像画像において当該分割領域が予測領域３００とされる場合には、第１変形例と同様に、ｎフレーム目の撮像画像において顔画像であると特定された領域についての検出確度値と第２のしきい値との比較結果に応じて当該分割領域に対する検出処理で使用される第１のしきい値を決定する。また、（ｎ＋１）フレーム目の撮像画像において当該分割領域が予測領域３００とされる場合には、第２変形例と同様に、顔が撮像装置５に近づくか撮像装置５から遠ざかるかに応じて当該分割領域に対する検出処理で使用される第１のしきい値を決定する。

上記において画像処理システム１００は詳細に説明されたが、上記した説明は、全ての局面において例示であって、この発明がそれに限定されるものではない。例えば、検出対象画像については、人の顔画像以外の画像であっても良い。また、上述した各種の例は、相互に矛盾しない限り組み合わせて適用可能である。そして、例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１画像検出装置
４制御プログラム
１２検出部
１５検出対象画像特定部
１６しきい値調整部

Claims

移動体の画像を検出対象画像として、撮像装置で撮像された撮像画像から当該検出対象画像を検出する画像検出装置であって、
撮像画像に検出枠を設定し、当該検出枠内の画像についての検出対象画像である確からしさを示す確度値を求めて、当該確度値が第１のしきい値よりも大きいあるいは当該第１のしきい値以上である場合には、当該検出枠内の画像は検出対象画像である可能性が高いと判断する検出処理を、当該検出枠を移動させながら行う検出部と、
前記検出処理で使用される前記第１のしきい値を調整するしきい値調整部と
を備え、
前記しきい値調整部は、
第１撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する場合には、
前記第１撮像画像において検出対象画像が存在する可能性が高い領域を予測領域として特定し、当該予測領域に対する前記検出処理で使用される前記第１のしきい値を、当該予測領域以外の領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする、画像検出装置。
請求項１に記載の画像検出装置であって、
前記検出部での前記検出処理の結果に基づいて、撮像画像において検出対象画像を特定する検出対象画像特定部をさらに備え、
前記しきい値調整部は、
前記第１撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する場合には、
前記検出対象画像特定部が前記第１撮像画像よりも前に前記撮像装置で撮像された第２撮像画像において特定した第１検出対象画像の位置から延びる、当該第２撮像画像と前記第１撮像画像との間での前記移動体の予測動きベクトルを求めて、当該予測動きベクトルに基づいて前記予測領域を特定する、画像検出装置。
請求項２に記載の画像検出装置であって、
前記しきい値調整部は、
前記第１撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する場合には、
前記検出対象画像特定部が前記第２撮像画像よりも前に前記撮像装置で撮像された第３撮像画像において特定した第２検出対象画像の位置から前記第１検出対象画像の位置まで延びる、当該第３撮像画像と前記第２撮像画像との間での前記移動体の実際の動きベクトルを求め、
当該実際の動きベクトルと、前記第２撮像画像に対する前記検出処理で使用される前記第１のしきい値を調整する際に求めた、当該第２検出対象画像の位置から延びる、前記第３撮像画像と前記第２撮像画像との間での前記移動体の予測動きベクトルである過去予測動きベクトルとに基づいて、前記第１の検出対象画像の位置から延びる前記予測動きベクトルを求める、画像検出装置。
請求項３に記載の画像検出装置であって、
前記しきい値調整部は、前記実際の動きベクトルと前記過去予測動きベクトルとを重み付け合成して得られるベクトルを、前記第１の検出対象画像の位置から延びる前記予測動きベクトルとする、画像検出装置。
請求項４に記載の画像検出装置であって、
前記しきい値調整部は、前記実際の動きベクトルと前記過去予測動きベクトルとを重み付け合成する際には、前記実際の動きベクトルの重み係数を、前記過去予測動きベクトルの重み係数よりも大きくする、画像検出装置。
請求項３乃至請求項５のいずれか一つに記載の画像検出装置であって、
前記しきい値調整部は、前記第３撮像画像の前記第２検出対象画像の位置から所定距離以内に存在する、前記検出対象画像特定部が前記第２撮像画像において特定した前記第１検出対象画像を特定し、前記第２検出対象画像の位置から、特定した当該第１検出対象画像の位置まで延びるベクトルを前記実際の動きベクトルとする、画像検出装置。
請求項６に記載の画像検出装置であって、
前記しきい値調整部は、
前記検出対象画像特定部が前記第２撮像画像において特定した、前記第２検出対象画像の位置から前記所定距離以内に存在する複数の第１検出対象画像が存在する場合には、
前記第２検出対象画像の位置から、前記複数の第１検出対象画像の位置にそれぞれ延びる複数のベクトルのうち、前記第２検出対象画像の位置から延びる前記過去予測動きベクトルと成す角度が最も小さいベクトルを前記実際の動きベクトルとする、画像検出装置。
請求項３乃至請求項７のいずれか一つに記載の画像検出装置であって、
前記しきい値調整部は、
前記２検出対象画像の位置から延びる複数の過去予測動きベクトルが存在する場合には、
当該複数の過去予測動きベクトルのうち、前記第２検出対象画像の位置から前記第１の検出対象画像の位置まで延びる前記実際の動きベクトルと成す角度が最も小さいベクトルを使用して、前記第１検出対象画像の位置から延びる前記予測動きベクトルを求める、画像検出装置。
請求項１に記載の画像検出装置であって、
前記検出部での前記検出処理の結果に基づいて、撮像画像において検出対象画像を特定する検出対象画像特定部をさらに備え、
前記しきい値調整部は、前記検出対象画像特定部が前記第１撮像画像よりも前に撮像された第２撮像画像における、検出対象画像であると特定した領域についての前記確度値が、第２のしきい値よりも小さい場合に前記予測領域に対する前記検出処理で使用される前記第１のしきい値を、当該確度値が当該第２のしきい値よりも大きい場合に前記予測領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする、画像検出装置。
請求項１乃至請求項９のいずれか一つに記載の画像検出装置であって、
前記しきい値調整部は、前記移動体が前記撮像装置から遠ざかる場合において前記予測領域に対する前記検出処理で使用される前記第１のしきい値を、前記移動体が前記撮像装置に近づく場合において前記予測領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする、画像検出装置。
請求項１乃至請求項１０のいずれか一つに記載の画像検出装置であって、
前記しきい値調整部は、撮像画像において、それに対する前記検出処理で使用される前記第１のしきい値が小さくされた回数が所定回数よりも大きいあるいは当該所定回数以上である領域に対する前記検出処理で使用される前記第１のしきい値を、当該領域が前記予測領域となるか否かにかかわらず、前記予測領域以外の領域に対する前記検出処理で使用される前記第１のしきい値よりも小さくする、画像検出装置。
請求項１乃至請求項１１のいずれか一つに記載の画像検出装置であって、
前記検出対象画像は、人の顔画像である、画像検出装置。
移動体の画像を検出対象画像として、撮像画像から当該検出対象画像を検出する画像検出装置を制御するための制御プログラムであって、
前記画像検出装置に、
（ａ）撮像画像に検出枠を設定し、当該検出枠内の画像についての検出対象画像である確からしさを示す確度値を求めて、当該確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、当該検出枠内の画像は検出対象画像である可能性が高いと判断する検出処理を、当該検出枠を移動させながら行う工程と、
（ｂ）前記検出処理で使用される前記しきい値を調整する工程と
を実行させ、
前記工程（ｂ）において、撮像画像において検出対象画像が存在する可能性が高い領域を予測領域として特定し、当該予測領域に対する前記検出処理で使用される前記しきい値を、当該予測領域以外の領域に対する前記検出処理で使用される前記しきい値よりも小さくするように動作させるための制御プログラム。
移動体の画像を検出対象画像として、撮像画像から当該検出対象画像を検出する画像検出方法であって、
（ａ）撮像画像に検出枠を設定し、当該検出枠内の画像についての検出対象画像である確からしさを示す確度値を求めて、当該確度値がしきい値よりも大きいあるいは当該しきい値以上である場合には、当該検出枠内の画像は検出対象画像である可能性が高いと判断する検出処理を、当該検出枠を移動させながら行う工程と、
（ｂ）前記検出処理で使用される前記しきい値を調整する工程と
を備え、
前記工程（ｂ）において、撮像画像において検出対象画像が存在する可能性が高い領域を予測領域として特定し、当該予測領域に対する前記検出処理で使用される前記しきい値を、当該予測領域以外の領域に対する前記検出処理で使用される前記しきい値よりも小さくする、画像検出方法。