JP2011053915A

JP2011053915A - 画像処理装置、画像処理方法、プログラム及び電子機器

Info

Publication number: JP2011053915A
Application number: JP2009202266A
Authority: JP
Inventors: Shingo Tsurumi; 唇吾鶴見; Tomohiko Goto; 智彦後藤; In Son; 贇孫; Yusuke Sakai; 祐介阪井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-09-02
Filing date: 2009-09-02
Publication date: 2011-03-17
Also published as: CN102004918A; US20110050939A1

Abstract

【課題】少ない計算量で、より迅速に被写体を検出する。
【解決手段】ピラミッド画像生成部２２は、撮像を行うカメラ２１から検出対象とすべき被写体までの距離に応じて予め設定された倍率により、撮像画像を縮小又は拡大して、被写体の検出に用いるピラミッド画像を生成し、検出領域決定部２５は、ピラミッド画像上の全領域の中から、被写体を検出するための検出領域を決定し、被写体検出部２６は、検出領域から被写体を検出する。本発明は、例えば撮像画像から被写体を検出するコンピュータ等に適用できる。
【選択図】図２

Description

本発明は、画像処理装置、画像処理方法、プログラム及び電子機器に関し、特に、例えば、撮像画像上から被写体を検出する場合に用いて好適な画像処理装置、画像処理方法、プログラム及び電子機器に関する。

従来、例えば、人間の顔が撮像された撮像画像から、顔を検出する検出装置が存在する（例えば、特許文献１及び２を参照）。この検出装置では、例えば、撮像画像を、複数のスケール（倍率）で縮小又は拡大し、その結果得られる複数のスケーリング画像から、それぞれ、所定の大きさからなるウィンドウ画像を切り出す。

そして、検出装置は、切り出したウィンドウ画像に顔が表示されているか否かを判定し、ウィンドウ画像に顔が表示されていると判定したことに対応して、そのウィンドウ画像上に表示されている顔を、撮像画像上に存在する顔として検出する。

特開２００５−１５７６７９号公報特開２００５−２８４４８７号公報

ところで、従来の検出装置では、スケーリング画像上の領域すべてを、顔検出に用いる検出領域に設定し、その検出領域からウィンドウ画像を切り出すようにしているため、撮像画像から顔を検出するために多くの時間を要していた。

本発明は、このような状況に鑑みてなされたものであり、より迅速に、撮像画像から人間の顔等を検出できるようにするものである。

本発明の第１の側面の画像処理装置、又はプログラムは、撮像により得られる撮像画像から、検出対象とすべき被写体を検出する画像処理装置、又は画像処理装置として機能させるためのプログラムであって、前記撮像を行う撮像部から検出対象とすべき前記被写体までの距離に応じて予め設定された倍率により、前記撮像画像を縮小又は拡大して、前記被写体の検出に用いるピラミッド画像を生成する生成手段と、前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域を決定する決定手段と、前記検出領域から前記被写体を検出する被写体検出手段とを含む画像処理装置、又は画像処理装置として機能させるためのプログラムである。

前記撮像部の向きを推定する推定手段をさらに設けることができ、前記決定手段では、推定された前記撮像部の向きに基づいて、前記検出領域を決定するようにすることができる。

前記被写体の検出結果に基づいて、前記被写体の詳細情報を取得する取得手段をさらに設けることができ、前記決定手段では、前記撮像部の向きが所定の方向に固定されていると推定された場合、取得された前記詳細情報に基づいて前記検出領域を決定するようにすることができる。

前記取得手段では、前記詳細情報として、少なくとも、前記撮像画像における前記被写体の位置を表す位置情報を取得し、前記決定手段では、前記位置情報に基づいて、前記被写体が存在する確率が所定の閾値以上となる前記撮像画像上の領域を、前記検出領域に決定するようにすることができる。

前記撮像画像上の動体を表す動体領域を検出する動体検出手段をさらに設けることができ、前記決定手段では、検出された前記動体領域を前記検出領域に決定するようにすることができる。

前記動体検出手段では、前記撮像画像を構成する領域のうち、前記被写体検出手段により検出された前記被写体を含む被写体周辺領域と、前記被写体周辺領域以外の領域とで、前記動体領域を検出するために用いる動体閾値を異なる値に設定するようにすることができる。

前記動体検出手段では、１フレーム分だけ異なる撮像画像どうしの差分絶対値が、前記動体領域を検出するために用いる動体閾値以上であるか否かに基づいて前記動体領域を検出する場合、前記撮像画像どうしが撮像された時刻の差に応じて前記動体閾値を変更するようにすることができる。

前記動体検出手段が、前記撮像画像と、前記被写体が撮像されていない背景のみの背景画像との差分絶対値に基づいて前記動体領域を検出する場合、前記背景画像を構成する領域のうち、前記撮像画像上の背景部分に対応する領域と、前記撮像画像上の背景部分以外の部分に対応する領域とで異なる背景更新処理を行う更新手段をさらに設けることができる。

前記出力手段では、前記被写体検出手段により前記被写体が検出される前に、前記動体検出手段により検出された前記動体領域を表す動体領域情報を出力するようにすることができる。

前記撮像部により撮像される撮像対象までの距離を算出する距離算出手段と、算出された前記距離に基づいて、前記撮像画像上の前記撮像対象それぞれの前記距離を表すDepthマップを生成する生成手段とをさらに設けることができ、前記決定手段では、前記Depthマップに基づいて、前記検出領域を決定するようにすることができる。

前記決定手段では、前記倍率に応じて、前記ピラミッド画像を複数の領域に分割し、前記複数の領域のうちの１つの領域を、前記検出領域に決定するようにすることができる。

前記被写体検出手段では、前記検出領域のうち、n(>1)画素分だけ異なる位置に存在する部分領域それぞれに前記被写体が存在するか否かに基づいて、前記部分領域から前記被写体を検出するようにすることができる。

前記生成手段では、それぞれ異なる倍率で、前記撮像画像を縮小又は拡大して、複数の前記ピラミッド画像を生成し、前記被写体検出手段では、前記複数のピラミッド画像それぞれの前記検出領域から、前記撮像部に近い被写体の順序で前記被写体を検出するようにすることができる。

前記被写体検出手段では、所定数の前記被写体が検出された場合、前記被写体の検出を終了するようにすることができる。

前記被写体検出手段では、検出済みの前記被写体が存在する領域を除外した前記検出領域から、前記被写体を検出するようにすることができる。

前記撮像画像上に存在する前記被写体であって、前記被写体検出手段により未検出の前記被写体を検出する場合、前記被写体検出手段では、所定の方向から見たときの被写体を表す第１のテンプレート画像に基づいて、前記検出領域から前記被写体を検出するようにすることができる。

前記撮像画像上に存在する前記被写体であって、前記被写体検出手段により検出済みの前記被写体を、前記撮像画像とは異なる他の撮像画像上から検出する場合、前記決定手段では、さらに、検出済みの前記被写体が存在する前記撮像画像上の位置に基づいて、前記他の撮像画像上の前記被写体の検出に用いる他のピラミッド画像の検出領域を決定し、前記被写体検出手段では、複数の方向から見たときの被写体それぞれを表す複数の第２のテンプレート画像に基づいて、前記他のピラミッド画像の前記検出領域から、前記被写体を検出するようにすることができる。

本発明の第１の側面の画像処理方法は、撮像により得られる撮像画像から、検出対象とすべき被写体を検出する画像処理装置の画像処理方法であって、前記画像処理装置は、生成手段と、決定手段と、被写体検出手段とを含み、前記生成手段は、前記撮像を行う撮像部から検出対象とすべき前記被写体までの距離に応じて予め設定された倍率により、前記撮像画像を縮小又は拡大して、前記被写体の検出に用いるピラミッド画像を生成し、前記決定手段は、前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域を決定し、前記被写体検出手段は、前記検出領域から前記被写体を検出するステップを含む画像処理方法である。

本発明の第１の側面によれば、撮像を行う撮像部から検出対象とすべき被写体までの距離に応じて予め設定された倍率により、前記撮像画像が縮小又は拡大されて、前記被写体の検出に用いるピラミッド画像が生成され、前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域が決定され、前記検出領域から前記被写体が検出される。

本発明の第２の側面の電子機器は、撮像により得られる撮像画像から、検出対象とすべき被写体を検出し、その検出結果に基づく処理を行う電子機器であって、前記撮像を行う撮像部から検出対象とすべき前記被写体までの距離に応じて予め設定された倍率により、前記撮像画像を縮小又は拡大して、前記被写体の検出に用いるピラミッド画像を生成する生成手段と、前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域を決定する決定手段と、前記検出領域から前記被写体を検出する被写体検出手段と、前記被写体検出手段による検出結果に基づく処理を行う処理手段とを含む電子機器である。

本発明の第２の側面によれば、撮像を行う撮像部から検出対象とすべき被写体までの距離に応じて予め設定された倍率により、前記撮像画像が縮小又は拡大されて、前記被写体の検出に用いるピラミッド画像が生成され、前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域が決定され、前記検出領域から前記被写体が検出され、その検出結果に基づく処理が行われる。

本発明によれば、少ない計算量で、より迅速に、撮像画像から人間の顔等の被写体を検出することが可能となる。

本実施の形態の概要を説明するための図である。第１の実施の形態である画像処理装置の構成例を示すブロック図である。ピラミッド画像を生成する生成処理を説明するための第１の図である。ピラミッド画像を生成する生成処理を説明するための第２の図である。検出領域を決定する第１の決定処理の一例を説明するための図である。顔検出用のテンプレートの一例を示す図である。顔検出処理を説明するための図である。第１の被写体検出処理を説明するためのフローチャートである。検出領域を決定する第２の決定処理の一例を説明するための図である。第２の実施の形態である画像処理装置の構成例を示すブロック図である。背景差分処理を説明するための図である。背景更新処理を説明するための図である。検出領域を決定する第３の決定処理の一例を説明するための図である。第２の被写体検出処理を説明するためのフローチャートである。フレームレートに応じて、フレーム差分処理で用いられる動体閾値が変化する様子の一例を示す図である。第３の実施の形態である画像処理装置の構成例を示すブロック図である。検出領域を決定する第４の決定処理の一例を説明するための図である。第３の被写体検出処理を説明するためのフローチャートである。所定数の被写体を検出した場合に、処理を終了することを説明するための図である。すでに検出済みの被写体が存在する領域については、検出領域に含めないで、被写体の検出を行うことを説明するための図である。テンプレートと比較される比較用領域を、検出領域から抽出することを説明するための図である。第４の実施の形態である表示制御装置の構成例を示すブロック図である。被写体の状態に対する解析結果に先立ち、動体領域情報を出力する様子の一例を示す図である。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．実施の形態の概要
２．第１の実施の形態（カメラの向きに基づいて、検出領域を決定する一例）
３．第２の実施の形態（撮像画像上の動体に基づいて、検出領域を決定する一例）
４．第３の実施の形態（被写体までの距離に基づいて、検出領域を決定する一例）
５．変形例
６．第４の実施の形態（被写体を検出する画像処理部を含む表示制御装置の一例）

＜１．実施の形態の概要＞
図１を参照して、本実施の形態の概要を説明する。

本実施の形態では、複数の撮像画像により構成される動画像から、例えば人間の顔等の検出対象である被写体を検出する被写体検出処理を行う。

すなわち、本実施の形態では、動画像を構成する撮像画像のうち、数フレーム（又はフィールド）に１フレームの頻度で、撮像画像上に存在するすべての被写体を検出するフルスキャンを行う。

また、本実施の形態では、フルスキャンが行われた後、フルスキャンの対象とされた撮像画像とは異なる他の撮像画像上から、フルスキャンにより検出済みの被写体を検出するパーシャルスキャンを行う。

具体的には、記録済みの動画像を構成する撮像画像から被写体を検出する場合には、例えば、図１Aに示されるように、５フレームに１度の頻度で、撮像画像上のすべての被写体を検出するフルスキャンを行う。そして、フルスキャンにより検出済みの被写体を、その前後の２フレームに対応する撮像画像から検出するパーシャルスキャンを行う。

また、記録されておらず、カメラから順次入力される撮像画像から、被写体を検出する場合には、例えば、図１Bに示されるように、５フレームに１度の頻度で、撮像画像上のすべての被写体を検出するフルスキャンを行う。そして、フルスキャンにより検出済みの被写体を、その後の４フレームに対応する撮像画像それぞれから検出するパーシャルスキャンを行う。

以下に説明する第１乃至第３の実施の形態では、カメラの撮像により得られる撮像画像から、順次、被写体を検出する場合について説明する。なお、第１乃至第３の実施の形態において、記録済みの動画像から被写体を検出する場合についても同様の処理により被写体を検出することができる。しかし、この処理は、カメラの撮像により得られる撮像画像から、被写体を検出する場合と同様の処理であるため、以下、その説明は省略する。

＜２．第１の実施の形態＞
[画像処理装置１の構成例]
図２は、第１の実施の形態である画像処理装置１の構成例を示している。

この画像処理装置１は、カメラ２１、ピラミッド画像生成部２２、加速度センサ２３、カメラ位置推定部２４、検出領域決定部２５、被写体検出部２６、辞書記憶部２７、詳細情報取得部２８、状態解析部２９、及び制御部３０により構成されている。

カメラ２１は、撮像を行い、その結果得られる撮像画像を、ピラミッド画像生成部２２に供給する。なお、カメラ２１は、制御部３０の指示にしたがって、カメラ２１の向きを変化させる。

ピラミッド画像生成部２２は、カメラ２１からの撮像画像に基づいて、例えば人間の顔等である被写体を検出するために用いる複数のピラミッド画像を生成する。なお、検出対象としての被写体は、人間の顔に限定されず、人間の手や足の他、自動車等の車両を検出対象とすることが可能であるが、第１乃至第３の実施の形態では、人間の顔を検出する場合について説明する。

[ピラミッド画像を生成する生成処理の一例]
次に、図３及び図４を参照して、ピラミッド画像生成部２２が、複数のピラミッド画像を生成する生成処理について説明する。

図３は、カメラ２１からの撮像画像４１を、それぞれ異なる倍率で縮小（又は拡大）して得られる複数のピラミッド画像４３-1乃至４３-4の一例を示している。

図３に示されるように、撮像画像４１には、検出対象である複数の顔が表示されている。撮像画像４１において、カメラ２１から顔までの距離が近い程に、その顔の大きさは大きく表示される。

カメラ２１から所定の距離に存在する顔を検出するためには、検出対象の顔の大きさを、検出対象の顔と比較される顔検出用の画像を表すテンプレート４２のテンプレートサイズと同様の大きさにする必要がある。

このため、ピラミッド画像生成部２２は、検出対象の顔の大きさが、テンプレートサイズと同様の大きさとなるように、カメラ２１から検出対象の顔までの距離に応じて予め設定された倍率で、撮像画像４１を縮小又は拡大（図３においては、1.0倍、0.841倍、及び0.841*0.841倍等で縮小）して、ピラミッド画像４３-1乃至４３-4を生成する。

次に、図４は、検出対象の顔までの距離に応じて予め設定された倍率で、撮像画像４１を縮小する様子の一例を示している。

ピラミッド画像生成部２２は、図４に示されるように、カメラ２１から最も近い空間範囲D1に存在する顔を検出対象とする場合、カメラ２１から検出対象の顔までの距離に応じた倍率で、撮像画像４１を縮小し、ピラミッド画像４３-1を生成する。

ピラミッド画像生成部２２は、カメラ２１から、空間範囲D1よりも遠い空間範囲D2に存在する顔を検出対象とする場合、カメラ２１から検出対象の顔までの距離に応じた倍率（いまの場合、0.841*0.841倍）で、撮像画像４１を縮小し、ピラミッド画像４３-2を生成する。

ピラミッド画像生成部２２は、カメラ２１から、空間範囲D2よりも遠い空間範囲D3に存在する顔を検出対象とする場合、カメラ２１から検出対象の顔までの距離に応じた倍率（いまの場合、0.841倍）で、撮像画像４１を縮小し、ピラミッド画像４３-3を生成する。

ピラミッド画像生成部２２は、カメラ２１から、空間範囲D3よりも遠い空間範囲D4に存在する顔を検出対象とする場合、カメラ２１から検出対象の顔までの距離に応じた倍率（いまの場合、1.0倍）で、撮像画像４１を縮小し、ピラミッド画像４３-4を生成する。

なお、以下の説明において、ピラミッド画像４３-1乃至４３-4を区別する必要がない場合、ピラミッド画像４３-1乃至４３-4を、それぞれ、単に、ピラミッド画像４３という。

ピラミッド画像生成部２２は、生成した複数のピラミッド画像４３（例えばピラミッド画像４３-1乃至４３-4）を、被写体検出部２６に供給する。

図２に戻り、加速度センサ２３は、カメラ２１に設けられており、カメラ２１に生じる加速度（を表す情報）を検出し、カメラ位置推定部２４に供給する。

カメラ位置推定部２４は、加速度センサ２３からの加速度に基づいて、カメラ２１の向きを推定し、その推定結果を検出領域決定部２５に供給する。

なお、画像処理装置１では、加速度センサ２３に代えて、角速度センサ等を採用するようにしてもよい。この場合、カメラ位置推定部２４は、角速度センサからの角速度に基づいて、カメラ２１の向きを推定することとなる。

検出領域決定部２５は、フルスキャンが行われる場合、カメラ位置推定部２４からの推定結果に基づいて、ピラミッド画像４３内において顔を検出するための検出領域を決定する。

すなわち、例えば、検出領域決定部２５は、カメラ位置推定部２４からの推定結果に基づいて、カメラ２１の向きが時間に応じて変化している（例えば、首振りをしている）と判定した場合には、次のように、フルスキャン時の検出領域を決定する。

つまり、検出領域決定部２５は、カメラ２１からの距離が遠い検出対象の顔を検出するためのピラミッド画像４３（例えばピラミッド画像４３-4）の検出領域を、ピラミッド画像４３内の中央の領域に決定する。そして、検出領域決定部２５は、それ以外のピラミッド画像４３（例えばピラミッド画像４３-1乃至４３-3）の検出領域を、ピラミッド画像４３内の全ての領域に決定する。

また、例えば、検出領域決定部２５は、カメラ位置推定部２４からの推定結果に基づいて、カメラ２１の向きが所定の方向に固定されていると判定した場合であって、カメラ２１の向きがいずれの方向であるのか不明である場合には、次のように、フルスキャン時の検出領域を決定する。

つまり、検出領域決定部２５は、一定時間、ピラミッド画像４３上のすべての領域を、フルスキャン時の検出領域に決定する。また、検出領域決定部２５は、ピラミッド画像４３内の領域において、人間の顔が現れる確率を算出する。そして、検出領域決定部２５は、算出した確率が所定の閾値未満となる領域を除外するようにして、ピラミッド画像４３上のすべての領域から徐々に絞り込んでいくことで、最終的な検出領域を決定する。

なお、人間の顔が現れる確率は、後述する詳細情報取得部２８で取得される詳細情報に含まれる、撮像画像における顔の位置（を表す情報）に基づいて、検出領域決定部２５により算出される。

また、例えば、検出領域決定部２５は、詳細情報に含まれる、人間の姿勢、年齢、身長等の被写体情報を利用して、検出領域を決定するようにしてもよい。すなわち、例えば、検出領域決定部２５は、被写体情報に含まれる姿勢や身長に基づいて、撮像画像４１内の領域のうち、検出すべき人間の顔が多く現れる領域を予測（例えば、身長が高い場合には、撮像画像４１内の領域のうちの上側の領域を、顔が多く現れる領域として予測）し、予測した領域を検出領域に決定するようにしてもよい。

さらに、例えば、検出領域決定部２５は、カメラ位置推定部２４からの推定結果に基づいて、カメラ２１の向きが所定の方向に固定されていると判定した場合であって、カメラ２１の向きがいずれの方向であるのかわかっている場合には、カメラ２１の向きに応じて、フルスキャン時の検出領域を決定する。

なお、カメラ２１の向きが所定の方向に固定されていると判定した場合であって、カメラ２１の向きがいずれの方向であるのかわかっている場合に、カメラ２１の向きに応じて検出領域を決定する方法の詳細は、図５を参照して後述する。

また、検出領域決定部２５は、パーシャルスキャンが行われる場合、被写体検出部２６から供給される、パーシャルスキャンの対象となる撮像画像よりも１フレーム分だけ過去の撮像画像上の顔領域（顔が存在する領域）を表す顔領域情報に基づいて、ピラミッド画像４３内において顔の検出を行う検出領域を決定する。

すなわち、例えば、検出領域決定部２５は、パーシャルスキャンが行われる場合、被写体検出部２６から供給される顔領域情報が表す顔領域を含む領域を、パーシャルスキャン時の検出領域に決定する。

なお、検出領域決定部２５は、パーシャルスキャンが行われる場合、直前に行われたフルスキャンにより検出された顔領域を含む領域を、パーシャルスキャン時の検出領域に決定するようにしてもよい。

[フルスキャン時の検出領域を決定する一例]
次に、図５は、検出領域決定部２５が、カメラ位置推定部２４からの推定結果に基づいて、フルスキャン時の検出領域を決定する場合の一例を示している。

検出領域決定部２５は、カメラ位置推定部２４からの推定結果に基づいて、カメラ２１の向きが所定の方向に固定されていると判定した場合であって、カメラ２１の向きがわかっている場合、そのカメラ２１の向きに応じて、ピラミッド画像４３内の検出領域を決定する。

すなわち、検出領域決定部２５は、カメラ２１の向きが、図５Aに示されるような状態であると判定した場合、カメラ２１の撮像範囲６１（カメラ２１から伸びる２本の線分内の範囲）のうちの中央範囲６２に、人間の顔が殆ど存在することを利用して、ピラミッド画像４３内の検出領域を、中央範囲６２（に対応する領域）に決定する。

具体的には、例えば、空間範囲D1に存在する人間の顔を検出対象とする場合、図５A及び図５Bに示されるように、空間範囲D1における中央範囲６２（に対応する領域）を、ピラミッド画像４３-1内の検出領域６２-1に決定する。

また、例えば、空間範囲D2に存在する人間の顔を検出対象とする場合、図５A及び図５Bに示されるように、空間範囲D2における中央範囲６２を、ピラミッド画像４３-2内の検出領域６２-2に決定する。

さらに、例えば、空間範囲D3に存在する人間の顔を検出対象とする場合、図５A及び図５Bに示されるように、空間範囲D3における中央範囲６２を、ピラミッド画像４３-3内の検出領域６２-3に決定する。なお、空間範囲D4についても同様に、ピラミッド画像４３-4内の検出領域が決定される。

検出領域決定部２５は、ピラミッド画像４３について決定された検出領域（例えば、検出領域６２-1乃至６２-3等）を表す検出領域情報を、被写体検出部２６に供給する。

図２に戻り、被写体検出部２６は、辞書記憶部２７から、顔検出用のテンプレートを読み出す。そして、被写体検出部２６は、検出領域決定部２５からの検出領域情報に基づいて決定される、ピラミッド画像生成部２２からのピラミッド画像４３内の検出領域に対して、読み出したテンプレートを用いて顔を検出する顔検出処理を行う。

なお、被写体検出部２６が行う顔検出処理の詳細は、後述する図７を参照して説明する。

辞書記憶部２７は、顔検出用のテンプレートとして、フルスキャン用のテンプレート、及びパーシャルスキャン用のテンプレートを予め保持している。

[テンプレートの一例]
次に、図６は、フルスキャン用のテンプレート、及びパーシャルスキャン用のテンプレートの一例を示している。

辞書記憶部２７は、例えば、図６Aに示されるように、性別と年齢の複数の組合せ毎に、対応する組合せの条件に合致する人間の平均的な顔を正面から見たときの画像を表すテンプレートを対応付けたシンプル辞書を、予め保持している。

また、辞書記憶部２７は、例えば、図６Bに示されるように、それぞれ異なる表情毎に、対応する表情の平均的な顔を多方面から見たときの画像それぞれを表す複数のテンプレートを対応付けたリッチツリー辞書を、予め保持している。

なお、シンプル辞書は、フルスキャンを行う場合に用いられる辞書であって、顔の検出とともに、撮像画像毎に変化しない顔の属性として、例えば性別や年齢等を検出するために用いられる。また、リッチツリー辞書は、パーシャルスキャンを行う場合に用いられる辞書であって、顔の検出とともに、撮像画像毎に変化する（し易い）顔の属性として、例えば顔の表情を検出するために用いられる。

[顔検出処理の一例]
次に、図７を参照して、被写体検出部２６が、辞書記憶部２７に記憶されたテンプレートを用いて行う顔検出処理の詳細を説明する。

被写体検出部２６は、撮像画像４１に対応するピラミッド画像４３上のすべての顔を検出するフルスキャンを行う場合、図７Aに示されるように、テンプレート４２（例えば、図６Aに示されたシンプル辞書のテンプレート）を用いて、ピラミッド画像４３内の検出領域を対象とする顔検出処理を行う。

また、被写体検出部２６は、フルスキャンにより検出済みの顔を、他の撮像画像４１に対応するピラミッド画像４３から検出するパーシャルスキャンを行う場合、図７Bに示されるように、テンプレート４２（例えば、図６Bに示されたリッチツリー辞書のテンプレート）を用いて、ピラミッド画像４３内の検出領域を対象とする顔検出処理を行う。

被写体検出部２６は、フルスキャン及びパーシャルスキャンによるいずれの顔検出処理により顔を検出した場合にも、ピラミッド画像４３内の顔領域を表す顔領域情報を、検出領域決定部２５及び詳細情報取得部２８に供給する。

また、被写体検出部２６は、顔を検出した場合に用いていたテンプレートを、詳細情報取得部２８に供給する。

図２に戻り、詳細情報取得部２８は、被写体検出部２６からの顔領域情報及びテンプレートに基づいて、撮像画像４１内に存在する顔の詳細情報を取得する。すなわち、例えば、詳細情報取得部２８は、被写体検出部２６からの顔領域情報に基づいて、撮像画像４１における顔の位置を判別し、詳細情報として、状態解析部２９に供給する。

また、例えば、詳細情報取得部２８は、被写体検出部２６からのテンプレートに対応付けられている性別及び年齢、又は顔の表情等を、辞書記憶部２７から読み出し、詳細情報として、状態解析部２９に供給する。

状態解析部２９は、詳細情報取得部２８からの詳細情報に基づいて、被写体の状態（様子）を解析し、その解析結果を出力する。

制御部３０は、カメラ２１乃至状態解析部２９を制御し、カメラ２１により撮像される撮像画像のうち、数フレームに１フレームの頻度でフルスキャンを行わせ、それ以外のフレームに対してパーシャルスキャンを行わせる。

[第１の被写体検出処理の動作説明]
次に、図８のフローチャートを参照して、画像処理装置１が行う第１の被写体検出処理の詳細を説明する。

ステップＳ１において、カメラ２１は、撮像を行い、その結果得られる撮像画像４１を、ピラミッド画像生成部２２に供給する。

ステップＳ２において、ピラミッド画像生成部２２は、例えば図３及び図４を参照して説明したように、カメラ２１からの撮像画像４１に基づいて、人間の顔を検出するために用いる複数のピラミッド画像４３を生成し、被写体検出部２６に供給する。

ステップＳ３において、制御部３０は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行うか否かを判定する。

ステップＳ３において、制御部３０は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行うと判定した場合、処理をステップＳ４に進める。

ステップＳ４乃至ステップＳ８において、加速度センサ２３乃至詳細情報取得部２８は、制御部３０の指示にしたがって、フルスキャンにより顔を検出し、その検出結果から得られる詳細情報を取得する処理を行う。

すなわち、ステップＳ４において、加速度センサ２３は、カメラ２１に生じる加速度（を表す情報）を検出し、カメラ位置推定部２４に供給する。

ステップＳ５において、カメラ位置推定部２４は、加速度センサ２３からの加速度に基づいて、カメラ２１の向きを推定し、その推定結果を検出領域決定部２５に供給する。

ステップＳ６において、検出領域決定部２５は、カメラ位置推定部２４からの推定結果に基づいて、フルスキャン時の検出領域を決定する。

ステップＳ７において、被写体検出部２６は、ステップＳ６の処理により決定された検出領域を対象として、複数の組合せ（性別や年齢等）毎に、対応するテンプレート（図７Aのシンプル辞書）を用いた顔検出処理を行う。

そして、被写体検出部２６は、顔検出処理により顔を検出した場合、ピラミッド画像４３内の顔領域を示す顔領域情報を、検出領域決定部２５及び詳細情報取得部２８に供給する。

ステップＳ８において、詳細情報取得部２８は、被写体検出部２６からのテンプレートに対応付けられている性別や年齢等を、辞書記憶部２７から読み出す。また、詳細情報取得部２８は、被写体検出部２６からの顔領域情報に基づいて、撮像画像４１における人間の顔の位置を判別する。

そして、詳細情報取得部２８は、読み出した性別や年齢、及び判別した人間の顔の位置を、詳細情報として、状態解析部２９に供給し、処理をステップＳ１２に進める。

なお、ステップＳ１２の処理は、ステップＳ９乃至ステップＳ１１の処理を説明した後に後述する。

ステップＳ３において、制御部３０は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行わないと判定した場合、すなわち、パーシャルスキャンを行うと判定した場合、処理をステップＳ９に進める。

ステップＳ９乃至ステップＳ１１において、検出領域決定部２５乃至詳細情報取得部２８は、制御部３０の指示にしたがって、フルスキャンにより検出済みの顔をパーシャルスキャンにより検出し、その検出結果から得られる詳細情報を取得する処理を行う。

すなわち、ステップＳ９において、検出領域決定部２５は、前回のステップＳ７の処理、又は前回のステップＳ１１の処理において、被写体検出部２６から供給される顔領域情報に基づいて、パーシャルスキャン時の検出領域を決定する。

具体的には、例えば、検出領域決定部２５は、被写体検出部２６から供給される顔領域情報が示す顔領域を含む、ピラミッド画像４３内の領域を、パーシャルスキャン時の検出領域に決定する。

ステップＳ１０において、被写体検出部２６は、ステップＳ９の処理により決定された検出領域を対象として、それぞれ異なる表情毎に、対応するテンプレート（図７Bのリッチツリー辞書）を用いた顔検出処理を行う。

そして、被写体検出部２６は、検出処理により顔を検出した場合、ピラミッド画像４３内において顔が存在する領域を示す顔領域情報を、検出領域決定部２５及び詳細情報取得部２８に供給する。

ステップＳ１１において、詳細情報取得部２８は、被写体検出部２６からのテンプレートに対応付けられている顔の表情（を表す情報）等を、辞書記憶部２７から読み出す。また、詳細情報取得部２８は、被写体検出部２６からの顔領域情報に基づいて、撮像画像４１における人間の顔の位置を判別する。

そして、詳細情報取得部２８は、読み出した顔の表情、及び判別した人間の顔の位置を、詳細情報として、状態解析部２９に供給し、処理をステップＳ１２に進める。

ステップＳ１２において、状態解析部２９は、詳細情報取得部２８から、所定の複数の撮像画像（例えば図１Bに示された、フルスキャンの対象となる１枚の撮像画像、及びパーシャルスキャンの対象となる４枚の撮像画像）における詳細情報すべてを取得したか否か、すなわち、被写体の状態を解析するために必要な詳細情報すべてを取得したか否かを判定する。

ステップＳ１２において、状態解析部２９は、詳細情報取得部２８から、所定の複数の撮像画像における詳細情報すべてを、まだ取得していないと判定した場合、処理はステップＳ１に戻り、それ以降同様の処理が行われる。

また、ステップＳ１２において、状態解析部２９は、詳細情報取得部２８から、所定の複数の撮像画像における詳細情報すべてを取得したと判定した場合、処理はステップＳ１３に進められる。

ステップＳ１３において、状態解析部２９は、詳細情報取得部２８からの複数の詳細情報に基づいて、被写体の状態（様子）を解析し、その解析結果を出力する。その後、処理はステップＳ１に戻り、それ以降、同様の処理が行われる。

なお、第１の被写体検出処理は、ユーザ操作等により、画像処理装置１の電源がオフされた場合等に終了される。このことは、後述する第２及び第３の被写体検出処理（図１４及び図１８）についても同様である。

以上説明したように、第１の被写体検出処理によれば、フルスキャンが行われる場合に、検出領域決定部２５は、カメラ２１の向きに基づいて、ピラミッド画像４３上の領域のうちの所定の領域を、検出領域として決定するようにした。

また、パーシャルスキャンが行われる場合に、検出領域決定部２５は、前回、検出された顔領域を含む領域を、検出領域として決定するようにした。

さらに、第１の被写体検出処理では、パーシャルスキャンと比較して、処理量が多くなるフルスキャンを行う場合、ステップＳ７において、例えばリッチツリー辞書を用いる場合と比較して処理量が少なくなるシンプル辞書を用いるようにするとともに、フルスキャンを数フレームに１度の頻度で行うようにした。

そして、パーシャルスキャンを行う場合には、ステップＳ１０において、例えばシンプル辞書を用いる場合と比較して処理量が多くなるものの、多方面から見た顔を自由にトラッキングできるリッチツリー辞書を用いるようにした。

したがって、第１の被写体検出処理によれば、フレーム毎に、ピラミッド画像４３内のすべての領域を検出領域とする場合と比較して、少ない計算量で、より迅速且つ正確に被写体を検出することが可能となる。

なお、第１の実施の形態では、カメラ２１は、制御部３０の指示にしたがって、カメラ２１の向きが変化するものとしたが、カメラ２１としては、例えば、カメラの向きが所定の方向に固定された固定式のカメラを採用することができる。

この場合、加速度センサ２３及びカメラ位置推定部２４を設ける必要がなくなり、検出領域決定部２５は、例えば、カメラ２１の向きが所定の方向に固定されており、カメラ２１の向きがいずれの方向であるのか不明である場合に行われる検出領域の決定方法、又はカメラ２１の向きが所定の方向に固定されており、カメラ２１の向きがいずれの方向であるのかわかっている場合に行われる検出領域の決定方法（図５）のいずれかにより、フルスキャン時の検出領域を決定することとなる。

また、検出領域決定部２５は、フルスキャンが行われる場合、カメラ位置推定部２４からの推定結果に基づいて、フルスキャン時の検出領域を決定するようにしたが、その他、例えば、ユーザに予め設定された領域を、検出領域として決定するようにしてもよい。

その他、例えば、検出領域決定部２５は、フルスキャンが行われる場合に、カメラ２１の向きとは無関係に、フルスキャン時の検出領域を決定することが可能である。

[検出領域の決定の一例]
次に、図９は、カメラ２１の向きとは無関係に、フルスキャン時の検出領域を決定する場合の一例を示している。

検出領域決定部２５は、図９に示されるように、縮小に用いた倍率が1.0以下であって0.8以上のピラミッド画像４３については、そのピラミッド画像４３を分割して得られる複数の領域（例えば、４つの領域）を、フルスキャンが行われる毎に、順番に、検出領域として決定する。

具体的には、例えば、検出領域決定部２５は、ピラミッド画像４３-4及び４３-3については、ピラミッド画像４３-4及び４３-3を４つの領域８１a乃至８１dに分割する。そして、検出領域決定部２５は、フルスキャンが行われる毎に、検出領域を、領域８１a、領域８１b、領域８１c、領域８１d、領域８１a、…の順序で決定する。

また、検出領域決定部２５は、図９に示されるように、倍率が0.8未満であって0.51以上のピラミッド画像４３については、そのピラミッド画像４３を分割して得られる複数の領域（例えば、２つの領域）を、フルスキャンが行われる毎に、順番に、検出領域として決定する。

具体的には、例えば、検出領域決定部２５は、ピラミッド画像４３-2については、ピラミッド画像４３-2を２つの領域８２a及び８１bに分割する。そして、検出領域決定部２５は、フルスキャンが行われる毎に、検出領域を、領域８２a、領域８２b、領域８２a…の順序で決定する。

さらに、検出領域決定部２５は、図９に示されるように、倍率が0.51未満であって0以上のピラミッド画像４３については、そのピラミッド画像４３内のすべての領域を、検出領域として決定する。

具体的には、例えば、検出領域決定部２５は、フルスキャンが行われる場合に、ピラミッド画像４３-1については、ピラミッド画像４３-1内のすべての領域を、検出領域に決定する。

図９において説明した検出領域の決定方法によれば、カメラ２１の向きに拘らず、検出領域を決定することができる。この場合、第１の被写体検出処理において、カメラ２１に生じた加速度を検出するステップＳ４の処理、及びカメラ２１の向きを推定するステップＳ５の処理を省略することができるため、より迅速に、処理を行うことが可能となる。

なお、撮像画像４１から被写体を検出する画像処理装置１は、例えば、カメラ２１の前で行われるユーザのジェスチャ操作等を認識するものとして用いることができる。

この場合、ユーザは、カメラ２１から近い距離で、ジェスチャ操作を行うことが殆どである。したがって、カメラ２１からの距離が近い被写体ほど、検出すべき重要な被写体であることが多い。

よって、図９において説明した検出領域の決定方法によれば、検出すべき被写体の重要度が高い程（カメラ２１からの距離が近い程）に、ピラミッド画像４３内の検出領域を大きくするようにしたので、迅速に処理を行いつつ、重要な被写体を検出し損ねる事態を抑止することが可能となる。

また、図９において説明した検出領域の決定方法では、例えば、ピラミッド画像４３において分割された複数の領域（例えば、領域８１a乃至８１d）を、所定の順番で、フルスキャン時の検出領域に決定するようにしたが、これに限定されない。

すなわち、例えば、ピラミッド画像４３において分割された複数の領域毎の、被写体が存在する存在確率に応じて、複数の領域毎に、検出領域とされる頻度を変更するようにしてもよい。この場合、ピラミッド画像４３において分割された複数の領域を、所定の順番で検出領域に決定する場合と比較して、被写体を検出する確率を向上させることが可能となる。

なお、存在確率は、詳細情報取得部２８で取得される詳細情報に含まれる、撮像画像における顔の位置（を表す情報）に基づいて算出される。

第１の実施の形態では、カメラ２１の向き等に基づいて、検出領域を決定するようにしたが、その他、例えば、撮像画像４１内の動体（動いている物体）を検出し、その動体が存在する撮像画像４１上の位置に基づいて、検出領域を決定することができる。

＜３．第２の実施の形態＞
[画像処理装置１０１の構成例]
図１０は、撮像画像４１内の動体（動いている物体）を検出し、その動体が存在する撮像画像４１上の位置に基づいて、検出領域を決定するようにした、第２の実施の形態である画像処理装置１０１の構成例を示している。

なお、図１０において、図２に示された第１の実施の形態に対応する部分については同一の符号を付しているため、以下、その説明は適宜省略する。

すなわち、第２の実施の形態である画像処理装置１０１は、新たに動体検出部１２１及び背景更新部１２２が設けられているとともに、検出領域決定部２５、状態解析部２９及び制御部３０に代えて、検出領域決定部１２３、状態解析部１２４及び制御部１２５が設けられている他は、第１の実施の形態と同様に構成される。

動体検出部１２１には、カメラ２１から撮像画像４１が、被写体検出部２６から、１フレーム分だけ過去の撮像画像における顔領域情報が、背景更新部１２２から、被写体が撮像されていない背景のみの背景画像が、それぞれ供給される。

動体検出部１２１は、カメラ２１からの撮像画像４１、被写体検出部２６から顔領域情報、及び背景更新部１２２からの背景画像に基づいて、カメラ２１からの撮像画像４１上の動体を検出する。

すなわち、例えば、動体検出部１２１は、被写体検出部２６からの顔領域情報を参照しつつ、カメラ２１からの撮像画像４１と、背景更新部１２２からの背景画像との差分絶対値に基づいて動体を検出する背景差分処理を行う。この背景差分処理については、後述する図１１を参照して説明する。

なお、動体を検出する検出方法としては、上述した背景差分処理の他、隣接する１フレーム分だけ異なる撮像画像４１どうしの差分絶対値に基づいて動体を検出するフレーム差分処理等を採用することができる。

[背景差分処理の一例]
次に、図１１を参照して、動体検出部１２１が行う、背景差分処理について説明する。

図１１Aに示される撮像画像４１は、所定のタイミングで撮像された撮像画像を表している。また、図１１Bに示される撮像画像４１は、図１１Aに示される撮像画像４１よりも１フレーム分だけ過去の撮像画像を表しており、図１１Cに示される撮像画像４１は、図１１Bに示される撮像画像４１よりも１フレーム分だけ過去の撮像画像を表している。

動体検出部１２１は、撮像画像４１と背景画像との、対応する画素の画素値どうしの差分絶対値を算出する。そして、動体検出部１２１は、算出した差分絶対値が、動体であるか否かを検出するための動体閾値以上である場合に、対応する領域を、動体領域として検出する。

具体的には、例えば、動体検出部１２１は、図１１Aに示されるように、カメラ２１からの撮像画像４１内の領域のうち、被写体検出部２６からの顔領域情報が示す顔領域を含む被写体周辺領域１４１に対しては、比較的小さな動体閾値を用いて背景差分処理を行う。

なお、被写体周辺領域１４１において、小さな動体閾値を用いているのは、被写体周辺領域１４１には動体が存在する確率が高いため、例えば図１１A乃至図１１Cに示されるような動体の僅かな動きについても検出できるようにするためである。

また、被写体周辺領域１４１における動体閾値は、時間の経過とともに、徐々に大きくしていく。これは、時間の経過とともに、被写体周辺領域１４１に動体が存在する確率が低くなっていくことによる。

さらに、例えば、動体検出部１２１は、図１１A乃至図１１Cに示されるように、撮像画像４１内の領域のうち、被写体周辺領域１４１を除いた領域に対しては、ノイズ等による、動体の誤検出を回避するために、比較的大きな動体閾値を用いて背景差分処理を行う。

動体検出部１２１は、撮像画像４１内の領域において、検出した動体が存在する動体領域を表す動体領域情報を、背景更新部１２２、検出領域決定部１２３、及び状態解析部１２４に供給する。

図１０に戻り、背景更新部１２２には、動体検出部１２１から動体領域情報が供給される他、カメラ２１から撮像画像４１が、被写体検出部２６から顔領域情報が供給される。

背景更新部１２２は、被写体検出部２６からの顔領域情報、及び動体検出部１２１からの動体領域情報に基づいて、カメラ２１からの撮像画像４１上の領域のうち、背景部分の領域（背景領域）と、背景部分以外の部分の領域（例えば、顔や動体を表す領域）とを判定する。

そして、背景更新部１２２は、背景領域と、背景部分以外の領域とで、異なる比率による重み付け加算を行い、背景画像を更新する背景更新処理を行う。

[背景更新処理の説明]
次に、図１２を参照して、背景更新部１２２が行う、背景画像を更新する背景更新処理について説明する。

背景更新部１２２には、例えば、図１２に示されるように、テーブル１６１a及びリモートコントローラ１６１bが表示された背景領域１６１、及び人間が表示された領域１６２により構成される撮像画像４１が、カメラ２１から供給される。

背景更新部１２２は、例えば、図１２に示されるように、テーブル１６１aが表示された背景画像１８１を、カメラ２１からの撮像画像４１と足しこむことにより、テーブル１６１aの他、リモートコントローラ１６１bが表示された更新後の背景画像１８２を取得する。

すなわち、例えば、背景更新部１２２は、被写体検出部２６からの顔領域情報、及び動体検出部１２１からの動体領域情報に基づいて、撮像画像４１内の領域のうち、背景領域１６１と、背景部分以外の領域１６２（被写体としての人間や、動体が表示された領域）とを判定する。

背景更新部１２２は、カメラ２１からの撮像画像４１上の背景領域１６１を構成する画素の画素値については、比較的大きな重み付けを行い、背景画像１８１上の、背景領域１６１に対応する領域部分を構成する画素の画素値については、比較的小さな重み付けを行う。

また、背景更新部１２２は、カメラ２１からの撮像画像４１上の、背景領域１６１以外の領域１６２を構成する画素の画素値については、比較的小さな重み付けを行い、背景画像１８１上の、領域１６２に対応する領域部分を構成する画素の画素値については、比較的大きな重み付けを行う。

そして、背景更新部１２２は、重み付けにより新たに得られる、対応する画素値どうしを加算し、その結果得られる画素値を、新たな背景画像１８１の画素値とする。

なお、背景更新部１２２は、カメラ２１からの撮像画像４１上の、背景領域１６１以外の領域１６２については、背景画像１８１上の、領域１６２に対応する領域部分との加算を行わないようにしてもよい。

ここで、撮像画像４１上の背景領域１６１に、比較的大きな重み付けを行うのは、新たな背景とされる背景領域１６１を、新たな背景画像１８１により多く反映させるためである。

また、背景領域１６１以外の領域１６２については、比較的小さな重み付けを行った上で、背景画像１８１上の、領域１６２に対応する領域部分との加算を行うのは、背景になり得ない領域１６２が、新たな背景画像１８１に多く反映されることを防止するためである。

このことは、背景領域１６１以外の領域１６２について、背景画像１８１上の、領域１６２に対応する領域部分との加算を行わないようにする場合についても同様である。

背景更新部１２２は、さらに、カメラ２１からの新たな撮像画像４１と、今回の背景更新処理により得られる新たな背景画像１８１とを用いて、新たに背景更新処理を行う。このようにして、背景更新部１２２は、背景更新処理を繰り返すことにより、最終的に、テーブル１６１aの他、リモートコントローラ１６１bが表示された更新後の背景画像１８２を得ることとなる。

図１０に戻り、検出領域決定部１２３は、フルスキャンが行われる場合、カメラ位置推定部２４からの推定結果、又は動体検出部１２１からの動体領域情報の少なくとも一方に基づいて、フルスキャン時の検出領域を決定する。

すなわち、例えば、検出領域決定部１２３は、動体検出部１２１からの動体領域情報を、ピラミッド画像４３内の検出領域に決定する。なお、動体領域を、検出領域に決定する処理の詳細は、図１３を参照して後述する。

また、例えば、検出領域決定部１２３は、第１の実施の形態と同様に、カメラ位置推定部２４からの、カメラ２１の向きの推定結果に基づいて、検出領域を決定するようにしてもよい。

さらに、例えば、検出領域決定部１２３は、カメラ位置推定部２４からの推定結果に基づいて決定される検出領域と、動体検出部１２１からの動体領域情報に基づいて決定される検出領域との、重複する領域部分を、最終的な検出領域として決定することが可能である。

また、検出領域決定部１２３は、パーシャルスキャンが行われる場合、第１の実施の形態における場合と同様に、被写体検出部２６から供給される、パーシャルスキャンの対象となる撮像画像よりも１フレーム分だけ過去の撮像画像における顔領域情報に基づいて、パーシャルスキャン時の検出領域を決定する。

[動体領域に基づく検出領域の決定による一例]
次に、図１３は、検出領域決定部１２３が、動体検出部１２１からの動体領域情報に基づいて、フルスキャン時の検出領域を決定する処理の詳細を示している。

検出領域決定部１２３は、図１３左側に示されるように、動体検出部１２１からの動体領域情報が示す動体領域２０１を、検出領域として決定し、決定した検出領域を示す検出領域情報を、被写体検出部２６に供給する。

これにより、被写体検出部２６は、図１３右側に示されるように、検出領域決定部１２３からの検出領域情報に基づいて、ピラミッド画像４３-1乃至４３-4それぞれの動体領域２０１を検出領域として、顔検出処理を行う。

図１０に戻り、状態解析部１２４は、詳細情報取得部２８からの詳細情報に基づいて、被写体の状態を解析し、その解析結果を出力する。また、状態解析部１２４は、被写体の状態を解析する処理に多くの時間を要する場合、解析結果の出力に先立って、動体検出部１２１からの動体領域情報を出力する。

これにより、例えば、状態解析部１２４からの解析結果に基づいて、被写体の状態を認識する状態認識装置（例えば、後述する図２２の表示制御装置３２１）が、画像処理装置１０１に接続されている場合、状態認識装置は、状態解析部１２４からの解析結果に先立って供給される動体領域情報に基づいて、被写体が動いた可能性をいち早く認識することができる。

制御部１２５は、カメラ２１乃至カメラ位置推定部２４、被写体検出部２６乃至詳細情報取得部２８、及び動体検出部１２１乃至状態解析部１２４を制御し、カメラ２１により撮像される撮像画像のうち、数フレームに１フレームの頻度でフルスキャンを行わせ、それ以外のフレームに対してパーシャルスキャンを行わせる。

[第２の被写体検出処理の動作説明]
次に、図１４のフローチャートを参照して、画像処理装置１０１が行う第２の被写体検出処理の詳細を説明する。

ステップＳ３１及びステップＳ３２において、図８のステップＳ１及びステップＳ２と同様の処理が行われる。

ステップＳ３３において、制御部１２５は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行うか否かを判定する。そして、制御部１２５は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行わないと判定した場合、すなわち、パーシャルスキャンを行うと判定した場合、処理をステップＳ４１に進める。

ステップＳ４１乃至ステップＳ４３において、図８のステップＳ９乃至ステップＳ１１と同様の処理が行われる。

また、ステップＳ３３において、制御部１２５は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行うと判定した場合、処理をステップＳ３４に進める。

ステップＳ３４及びステップＳ３５において、図８のステップＳ４及びステップＳ５と同様の処理が行われる。

ステップＳ３６において、動体検出部１２１は、図１１に示されるように、被写体検出部２６からの顔領域情報、カメラ２１からの撮像画像４１、及び背景更新部１２２からの背景画像に基づいて、カメラ２１からの撮像画像４１上の動体を検出する。

ステップＳ３７において、背景更新部１２２は、図１２に示されるように、被写体検出部２６からの顔領域情報、及び動体検出部１２１からの動体領域情報に基づいて、カメラ２１からの撮像画像４１上の領域のうち、背景部分の背景領域１６１と、背景部分以外の部分の領域１６２とを判定する。

そして、背景更新部１２２は、背景領域１６１と、背景部分以外の領域１６２とで、異なる比率による重み付け加算を行い、背景画像１８１を、更新後の背景画像１８２に更新する背景更新処理を行う。

ステップＳ３８において、例えば、検出領域決定部１２３は、図１３に示されるように、動体検出部１２１からの動体領域情報により示される動体領域２０１を、フルスキャン時の検出領域として決定する。

また、例えば、検出領域決定部１２３は、カメラ位置推定部２４からの推定結果にも基づいて決定される検出領域と、動体検出部１２１からの動体領域情報に基づいて決定される検出領域との、重複する領域部分を、最終的な検出領域として決定するようにしてもよい。

ステップＳ３９、ステップＳ４０、及びステップＳ４４において、それぞれ、図８のステップＳ７、ステップＳ８、及びステップＳ１２と同様の処理が行われる。

ステップＳ４５において、状態解析部１２４は、詳細情報取得部２８からの詳細情報に基づいて、被写体の状態を解析し、その解析結果を出力する。また、状態解析部１２４は、被写体の状態を解析する処理に多くの時間を要する場合、解析結果の出力に先立って、動体検出部１２１からの動体領域情報を出力する。

ステップＳ４５の処理の終了後、処理はステップＳ３１に戻り、それ以降同様の処理が行われる。

以上説明したように、第２の被写体検出処理によれば、フルスキャンが行われる場合に、例えば、検出領域決定部１２３は、撮像画像４１内の動体領域を、検出領域として決定するようにした。

したがって、第２の被写体検出処理によれば、フレーム毎に、ピラミッド画像４３内のすべての領域を検出領域とする場合と比較して、少ない計算量で、より迅速に被写体を検出することが可能となる。

[フレーム差分処理の動体閾値を変化させる一例]
ところで、上述したように、動体検出部１２１により動体を検出する方法としては、背景差分処理の他、フレーム差分処理を採用することができる。

このフレーム差分処理では、制御部１２５に対する負荷等に起因して、カメラ２１から動体検出部１２１に供給される撮像画像のフレームレートが変化する場合、フレームレートの変化に拘らず、固定の動体閾値を用いると、動体の一定の動きを誤検出してしまう事態が生じ得る。

すなわち、例えば、フレームレートの変化により、フレームレートが大きくなった場合（１フレーム分だけ異なるフレームどうしの撮像間隔が短くなった場合）には、１フレーム分だけ異なるフレーム間に生じる動体の動きは比較的小さなものとなるため、固定の動体閾値では、動体による小さな動きを検出できないことが生じ得る。

また、例えば、フレームレートの変化により、フレームレートが小さくなった場合（１フレーム分だけ異なるフレームどうしの撮像間隔が長くなった場合）には、動体ではないとされていた非動体の動きが比較的大きなものとなるため、固定の動体閾値では、非動体による大きな動きを、動体による動きとして誤検出してしまうことが生じ得る。

そこで、カメラ２１から動体検出部１２１に供給される撮像画像のフレームレートが変化する場合には、フレームレートの変化に応じて、動体閾値を適切に変化させるようにすることが望ましい。

次に、図１５は、フレームレートに応じて変化する動体閾値の一例を示している。

図１５において、横軸は、１フレーム分だけ異なるフレーム間の時間Δtを表している。また、縦軸は、動体閾値を表している。

時間Δtが短い場合（フレームレートが大きい場合）には、１フレーム分だけ異なるフレームどうしに表示される動体の動きは小さなものとなる。また、時間Δtが長い場合（フレームレートが小さい場合）には、１フレーム分だけ異なるフレームどうしに表示される動体の動きは大きなものとなる。

したがって、動体検出部１２１は、図１５に示されるように、時間Δtが短い場合には、フレーム間における動体の動きも小さくなるため、動体閾値を小さめに変化させ、時間Δtが長くなるにしたがって、フレーム間における動体の動きも大きくなるため、動体閾値を大きめに変化させる。

これにより、フレームレートが変化したとしても、非動体を誤検出することなく、動体による一定の動きを検出することが可能となる。

第２の実施の形態では、カメラ位置推定部２４からの推定結果（カメラ２１の向き）、又は撮像画像４１内の動体領域の少なくとも一方に基づいて、フルスキャン時の検出領域を決定するようにしたが、その他、例えば、カメラ２１から撮像対象（検出対象である被写体の他、検出対象ではないものも含む）までの距離を表すDepthマップ（後述する図１７を参照）も考慮して、検出領域を決定するように構成することが可能である。

＜４．第３の実施の形態＞
次に、図１６は、カメラ２１から撮像対象までの距離を表すDepthマップも考慮して、フルスキャン時の検出領域を決定するようにした、第３の実施の形態である画像処理装置２２１の構成例を示している。

なお、図１６において、図１０に示された第２の実施の形態に対応する部分については同一の符号を付しているため、以下、その説明は適宜省略する。

すなわち、第３の実施の形態である画像処理装置２２１は、新たに距離検出部２４１が設けられているとともに、検出領域決定部１２３及び制御部１２５に代えて、検出領域決定部２４２及び制御部２４３が設けられている他は、第２の実施の形態と同様に構成される。

距離検出部２４１は、例えばレーザレンジファインダ等を有し、そのレーザレンジファインダにより、レーザを撮像対象に照射し、撮像対象に照射されたレーザが反射して得られる反射光を検出する。そして、距離検出部２４１は、レーザを撮像対象に照射したときから、反射光を検出するまでの時間を計測し、計測した時間とレーザの速さとに基づいて、距離検出部２４１（画像処理装置２２１）から撮像対象までの距離を算出する。

距離検出部２４１は、算出した距離に、撮像対象の位置を対応付けた距離情報を、検出領域決定部２４２に供給する。

なお、距離検出部２４１は、その他、例えば、複数のカメラを用いて、複数のカメラの視差により、撮像対象までの距離を算出するステレオ法により、撮像対象までの距離を算出するようにしてもよい。

検出領域決定部２４２は、距離算出部２４１からの距離情報に基づいて、撮像画像４１に表示された撮像対象までの距離を表すDepthマップを生成する。

そして、検出領域決定部２４２は、例えば、生成したDepthマップに基づいて、ピラミッド画像４３-1乃至４３-4それぞれの検出領域を決定する。なお、Depthマップに基づいて検出領域を決定する決定方法の詳細は、後述する図１７を参照して説明する。

また、検出領域決定部２４２は、Depthマップを生成し、生成したDepthマップに基づいて、検出領域を決定する他、カメラ位置推定部２４からの推定結果、動体検出部１２１からの動体領域情報、又は生成したDepthマップの少なくとも１つに基づいて、検出領域を決定することが可能である。

具体的には、例えば、検出領域決定部２４２は、カメラ位置推定部２４からの推定結果に基づいて決定される検出領域、又は動体検出部１２１からの動体領域情報に基づいて決定される検出領域の少なくとも一方、及び生成したDepthマップに基づいて決定される検出領域それぞれの重複する領域部分を、最終的な検出領域として決定することが可能である。

[Depthマップに基づいて検出領域を決定する一例]
次に、図１７は、検出領域決定部２４２が、距離算出部２４１からの距離情報により生成したDepthマップに基づいて、フルスキャン時の検出領域を決定する処理の詳細を示している。

検出領域決定部２４２は、図１７左側に示されるように、距離算出部２４１からの距離情報に基づいて、Depthマップを生成する。

図１７左側に示されるDepthマップ内の領域において、領域２６１-1は、カメラ２１から空間範囲D1内の撮像対象までの距離（空間範囲D1に存在する撮像対象が表示される領域）を表しており、領域２６１-2は、カメラ２１から空間範囲D2内の撮像対象までの距離（空間範囲D2に存在する撮像対象が表示される領域）を表している。

また、領域２６１-3は、カメラ２１から空間範囲D3内の撮像対象までの距離（空間範囲D3に存在する撮像対象が表示される領域）を表しており、領域２６１-4は、カメラ２１から空間範囲D4内の撮像対象までの距離（空間範囲D4に存在する撮像対象が表示される領域）を表している。

検出領域決定部２４２は、図１７右側に示されるように、空間範囲D1に存在する人間の顔を検出するためのピラミッド画像４３-１の検出領域を、生成したDepthマップ上の領域２６１-1に決定する。

また、検出領域決定部２４２は、空間範囲D2に存在する人間の顔を検出するためのピラミッド画像４３-2の検出領域を、生成したDepthマップ上の領域２６１-2に決定する。

さらに、検出領域決定部２４２は、空間範囲D3に存在する人間の顔を検出するためのピラミッド画像４３-3の検出領域を、生成したDepthマップ上の領域２６１-3に決定する。

また、検出領域決定部２４２は、空間範囲D4に存在する人間の顔を検出するためのピラミッド画像４３-4の検出領域を、生成したDepthマップ上の領域２６１-4に決定する。

検出領域決定部２４２は、決定した検出領域を表す検出領域情報を、被写体検出部２６に供給する。

制御部２４３は、カメラ２１乃至カメラ位置推定部２４、被写体検出部２６乃至詳細情報取得部２８、動体検出部１２１、背景更新部１２２、状態解析部１２４、距離検出部２４１及び検出領域決定部２４２を制御し、カメラ２１により撮像される撮像画像のうち、数フレームに１フレームの頻度でフルスキャンを行わせ、それ以外のフレームに対してパーシャルスキャンを行わせる。

[第３の被写体検出処理の動作説明]
次に、図１８のフローチャートを参照して、画像処理装置２２１が行う第３の被写体検出処理について説明する。

ステップＳ６１及びステップＳ６２において、図１４のステップＳ３１及びステップＳ３２と同様の処理が行われる。

ステップＳ６３において、制御部２４３は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行うか否かを判定する。そして、制御部２４３は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行わないと判定した場合、すなわち、パーシャルスキャンを行うと判定した場合、処理をステップＳ７２に進める。

ステップＳ７２乃至ステップＳ７４において、図１４のステップＳ４１乃至ステップＳ４３と同様の処理が行われる。

また、ステップＳ６３において、制御部２４３は、カメラ２１の撮像により撮像された撮像画像の枚数に基づいて、フルスキャンを行うと判定した場合、処理をステップＳ６４に進める。

ステップＳ６４乃至ステップＳ６７において、図１４のステップＳ３４乃至ステップＳ３７と同様の処理が行われる。

ステップＳ６８において、距離検出部２４１は、レーザを撮像対象に照射し、撮像対象に照射されたレーザが反射して得られる反射光を検出する。そして、距離検出部２４１は、レーザを撮像対象に照射したときから、反射光を検出するまでの時間を計測し、計測した時間とレーザの速さとに基づいて、距離検出部２４１（画像処理装置２２１）から撮像対象までの距離を算出する。

ステップＳ６９において、検出領域決定部２４２は、距離算出部２４１からの距離情報に基づいて、撮像画像４１に表示された被写体までの距離を表すDepthマップを生成する。

そして、検出領域決定部２４２は、生成したDepthマップに基づいて、ピラミッド画像４３-1乃至４３-4それぞれの検出領域を決定し、決定した検出領域を表す検出領域情報を、被写体検出部２６に供給する。

なお、検出領域決定部２４２は、上述したように、Depthマップの他、動体検出部１２１からの動体領域情報や、カメラ位置推定部２４からの推定結果にも基づいて、検出領域を決定することが可能である。

ステップＳ７０、ステップＳ７１、ステップＳ７５、及びステップＳ７６において、それぞれ、図１４のステップＳ３９、ステップＳ４０、ステップＳ４４、及びステップＳ４５と同様の処理が行われる。

以上説明したように、第３の被写体検出処理によれば、フルスキャンが行われる場合に、例えば、検出領域決定部２４２は、撮像対象までの距離を表すDepthマップに基づいて、ピラミッド画像４３上の領域のうちの所定の領域を、検出領域として決定するようにした。

したがって、第３の被写体検出処理によれば、フレーム毎に、ピラミッド画像４３内のすべての領域を検出領域とする場合と比較して、少ない計算量で、より迅速に被写体を検出することが可能となる。

＜５．変形例＞
第１乃至第３の実施の形態では、フルスキャンを行う場合に、被写体検出部２６が、ピラミッド画像４３-1乃至４３-4それぞれの検出領域に存在する顔を、すべて検出するようにしている。

しかしながら、第１乃至第３の実施の形態において、画像処理装置１（１０１又は２２１）からの距離が近い被写体ほど、検出すべき重要な被写体であることを考慮して、図１９に示されるように、ピラミッド画像４３-1，４３-2，４３-3，４３-4の順序で、人間の顔を検出（空間範囲D1,D2,D3及びD4の順序で人間の顔を検出）し、所定の個数以上の顔が検出されたところで、処理を終了するようにしてもよい。

この場合、検出すべき重要な人間の顔を検出できるとともに、処理時間を短縮することが可能となる。

また、第１乃至第３の実施の形態において、被写体検出部２６は、検出領域上の領域すべてを対象として顔を検出するようにしたが、すでに顔が検出された領域については、検出領域から除外したものを、最終的な検出領域に決定するようにしてもよい。

すなわち、例えば、図２０に示されるように、ピラミッド画像４３-1の検出領域（いまの場合、ピラミッド画像４３-1すべての領域）において顔領域２８１を検出した場合には、ピラミッド画像４３-2において顔領域２８１を検出領域（いまの場合、ピラミッド画像４３-2すべての領域）から除外する。

そして、ピラミッド画像４３-2において、他の顔領域２８２を検出した場合には、ピラミッド画像４３-3において、顔領域２８１及び２８２を検出領域（いまの場合、ピラミッド画像４３-3すべての領域）から除外するように構成することが可能である。ピラミッド画像４３-4においても、顔領域２８１及び２８２が検出領域（いまの場合、ピラミッド画像４３-4すべての領域）から除外される。

また、第１乃至第３の実施の形態において、被写体検出部２６は、撮像画像毎に、その撮像画像に対応するピラミッド画像４３内の検出領域を構成する複数の画素に順次注目し、注目している注目画素を、左上の画素とする合計４画素により構成される正方形の領域を、比較用領域として抽出するようにしている。そして、被写体検出部２６は、抽出した比較用領域とテンプレートとを比較し、その比較結果に基づいて、顔の検出を行うようにしている。

しかしながら、例えば、被写体検出部２６は、ピラミッド画像４３に対して、注目すべき画素の個数を1/4とし、抽出する比較用領域を1/4に減らすことにより、顔の検出に要する処理時間を短縮することが可能となる。

次に、図２１は、ピラミッド画像４３において、テンプレートと比較される正方形の比較用領域を抽出する抽出方法の一例を説明する。

図２１Aに示す検出領域３０１は、所定のタイミングで行われる第１のフルスキャン時の検出領域を示している。図２１Bに示す検出領域３０２は、第１のフルスキャンの次に行われる第２のフルスキャン時の検出領域を示している。

図２１Cに示す検出領域３０３は、第２のフルスキャンの次に行われる第３のフルスキャン時の検出領域を示している。図２１Dに示す検出領域３０４は、第３のフルスキャンの次に行われる第４のフルスキャン時の検出領域を示している。

例えば、被写体検出部２６は、第１のフルスキャン時に、ピラミッド画像４３上の検出領域３０１（図２１A）において、検出領域３０１を構成する複数の画素のうち、白色で示す画素を、順次、注目画素に設定する。

そして、被写体検出部２６は、注目画素を左上の画素とする合計４画素により構成される正方形の比較用領域を抽出し、抽出した比較用領域とテンプレートとを比較して、その比較結果に基づいて、顔の検出を行う。

また、例えば、被写体検出部２６は、第２のフルスキャン時に、ピラミッド画像４３上の検出領域３０２（図２１B）において、検出領域３０２を構成する複数の画素のうち、白色で示す画素を、順次、注目画素に設定する。

そして、被写体検出部２６は、注目画素を左下の画素とする合計４画素により構成される正方形の比較用領域を抽出し、抽出した比較用領域とテンプレートとを比較して、その比較結果に基づいて、顔の検出を行う。

さらに、例えば、被写体検出部２６は、第３のフルスキャン時に、ピラミッド画像４３上の検出領域３０３（図２１C）において、検出領域３０３を構成する複数の画素のうち、白色で示す画素を、順次、注目画素に設定する。

そして、被写体検出部２６は、注目画素を右下の画素とする合計４画素により構成される正方形の比較用領域を抽出し、抽出した比較用領域とテンプレートとを比較して、その比較結果に基づいて、顔の検出を行う。

また、例えば、被写体検出部２６は、第４のフルスキャン時に、ピラミッド画像４３上の検出領域３０４（図２１D）において、検出領域３０４を構成する複数の画素のうち、白色で示す画素を、順次、注目画素に設定する。

そして、被写体検出部２６は、注目画素を右上の画素とする合計４画素により構成される正方形の比較用領域を抽出し、抽出した比較用領域とテンプレートとを比較して、その比較結果に基づいて、顔の検出を行う。

これにより、注目画素とされる画素数は、検出領域を構成する画素すべてを注目画素とする場合と比較して、1/4とすることができることから、抽出される比較用領域も1/4となり、処理時間を短縮することが可能となる。

また、図２１に示される、比較用領域の抽出方法によれば、検出領域３０１乃至３０４それぞれから抽出される比較用領域の数は1/4となるものの、検出領域それ自体の大きさは1/4の大きさにはならず不変であるため、比較用領域の数を1/4に減らすことに起因して、顔の検出率が1/4に低下することを防止することが可能となる。

なお、図２１に示される、比較用領域の抽出方法は、パーシャルスキャン時の検出領域にも適用することができる。

また、検出領域を決定する方法は、第１乃至第３の実施の形態において説明した、検出領域の決定方法に限定されず、上述した複数の決定方法のうちのいずれかを用いて、検出領域を決定するようにしてもよいし、複数の決定方法のうちの少なくとも２つ以上により、それぞれ決定される検出領域の、重複する領域部分を、最終的な検出領域に決定するようにしてもよい。

なお、第１の実施の形態では、画像処理装置１において、カメラ２１及び加速度センサ２３を内蔵させるようにしたが、その他、カメラ２１及び加速度センサ２３を内蔵させずに、画像処理装置１とは別々に構成するようにしてもよい。このことは、第２及び第３の実施の形態についても同様のことがいえる。

また、第３の実施の形態では、画像処理装置２２１において、距離検出部２４１を内蔵させるようにしたが、その他、距離検出部２４１を内蔵させずに、画像処理装置２２１とは別々に構成するようにしてもよい。

さらに、第１の被写体検出処理では、フルスキャンを行う場合には、パーシャルスキャンを行わないようにしたが、これに限定されない。すなわち、例えば、フルスキャンを行う場合にも、パーシャルスキャンを行うようにしてもよい。

この場合、第１の被写体検出処理において、パーシャルスキャンをより多く行うことになるので、詳細情報取得部２８において、より多くの詳細情報を取得することができ、状態解析部２９において、取得された詳細情報に基づいて、被写体の状態をより詳細に解析することが可能となる。このことは、第２及び第３の被写体検出処理においても同様のことがいえる。

＜６．第４の実施の形態＞
次に、図２２は、画像処理装置１，１０１又は２２１と同様の処理を行う画像処理部３４２を有する表示制御装置３２１の構成例を示している。

この表示制御装置３２１には、複数のカメラにより構成されるカメラ群３２２、音声を出力するスピーカ部３２３、加速度センサ、角速度センサ、及びレーザレンジファインダ等により構成されるセンサ群３２４、番組等を表示するディスプレイ部３２５、並びに、表示制御装置３２１により収集された情報が記憶される情報収集サーバ３２６が接続されている。

表示制御装置３２１は、画像入力部３４１、画像処理部３４２、視聴状態解析部３４３、視聴状態記録部３４４、システム最適化処理部３４５、及びシステム制御部３４６により構成される。

画像入力部３４１は、カメラ群３２２からの撮像画像を、画像処理部３４２に供給（入力）する。

画像処理部３４２には、画像入力部３４１から撮像画像が供給されるとともに、センサ群３２４から、加速度センサにより検出される加速度、角速度センサにより検出される角速度、又はレーザレンジファインダにより検出される撮像対象までの距離等が供給される。

画像処理部３４２は、センサ群３２４からの加速度、角速度、又は撮像対象までの距離、画像入力部３４１からの撮像画像に基づいて、上述した第１乃至第３の被写体検出処理と同様の処理を行う。そして、画像処理部３４２は、その結果得られる被写体の状態を解析した解析結果を、視聴状態解析部３４３に供給する。

視聴状態解析部３４３は、画像処理部３４２からの解析結果に基づいて、ディスプレイ部３２５に表示される画像（番組）を視聴しているユーザ（被写体）の視聴状態を解析する。そして、視聴状態解析部３４３は、その解析結果を、認識データ情報として、視聴状態記録部３４４及びシステム最適化処理部３４５に供給する。

視聴状態記録部３４４は、視聴状態解析部３４３からの認識データ情報を、インターネットやLAN(local area network)等を介して、情報収集サーバ３２６に送信して記憶（記録）させる。また、視聴状態記録部３４４は、情報収集サーバ３２６からの認識データ情報を、インターネットやLAN等を介して受信し、システム最適化処理部３４５に供給する。

システム最適化処理部３４５は、視聴状態解析部３４３又は視聴状態記録部３４４からの認識データ情報に基づいて、ユーザの視聴状態に最適な制御を、システム制御部３４６に行わせる。

システム制御部３４６は、システム最適化処理部３４５の指示にしたがって、ディスプレイ部３２５のディスプレイの明るさ、ディスプレイ部３２５に表示された番組内容、スピーカ部３２３から出力される音声の音量等を調整する。

ところで、表示制御装置３２１において、視聴状態解析部３４３は、画像処理部３４２からの、被写体の状態を解析した解析結果に基づいて、ユーザの視聴状態を解析するようにしている。

したがって、画像処理部３４２において、被写体の状態を解析する被写体状態解析処理に多くの時間を要する場合、視聴状態解析部３４３は、その被写体状態解析処理が終了するまで、ユーザの視聴状態を解析することができないこととなる。

この場合、視聴状態解析部３４３では、被写体状態解析処理に要する時間が長いことに起因して、ユーザの視聴状態を迅速に解析することができないことが生じ得る。

そこで、例えば、画像処理部３４２において、被写体状態解析処理に多くの時間を要する場合には、図２３に示されるように、被写体状態解析処理により得られる解析結果に先立ち、動体領域情報を視聴状態解析部３４３に供給するように構成することができる。

[画像処理部３４２の一例]
次に、図２３は、被写体状態解析処理により得られる解析結果に先立ち、動体領域情報を出力する画像処理部３４２の一例を示している。

この画像処理部３４２は、第２又は第３の実施の形態における画像処理装置１０１又は２２１と同様に構成されている。

また、図２３において、アプリとは、表示制御装置３２１のうち、画像入力部３４１及び視聴状態解析部３４３に対応するアプリケーションを示している。

画像処理部３４２は、例えば、図２３に示されるように、時刻t1において、画像入力部３４１のアプリから供給される撮像画像から動体領域を検出し、検出した動体領域を、フルスキャン時の検出領域に決定する。そして、画像処理部３４２は、決定した検出領域から被写体の検出を行い、その検出結果に基づいて、被写体の状態を解析し、その解析結果を、時刻t3において、視聴状態解析部３４３のアプリに出力している。

この場合、視聴状態解析部３４３のアプリでは、時刻t3において、画像処理部３４２から解析結果が出力されるまで、ユーザの視聴状態を解析することができない。

そこで、画像処理部３４２は、時刻t1において、画像入力部３４１のアプリから供給される撮像画像から動体領域を検出した後、時刻t3よりも早い時刻t2において、検出した動体領域を表す動体領域情報を、視聴状態解析部３４３のアプリに出力するようにした。

これにより、視聴状態解析部３４３のアプリでは、画像処理部３４２からの動体領域情報に基づいて、ユーザの移動の可能性の有無を、ユーザの視聴状態として、いち早く解析することが可能となる。

なお、画像処理部３４２が、第１の実施の形態である画像処理装置１と同様の機能を有する場合には、第２及び第３の実施の形態のように、動体検出部１２１を設けるようにする。

そして、画像処理部３４２に設けられた動体検出部１２１において、動体領域を検出する処理を、例えば並列に行うこと等により高速化し、カメラ２１乃至状態解析部２９（図２）等において行われる被写体状態解析処理により出力される解析結果に先立ち、動体領域情報を出力する必要がある。

次に、上述した一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、いわゆる組み込み型のコンピュータ、又は、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。

[コンピュータの構成例]
図２４は、上述した一連の処理をプログラムにより実行するコンピュータの構成例を示している。

CPU（Central Processing Unit）４０１は、ROM（Read Only Memory）４０２、又は記憶部４０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）４０３には、CPU４０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU４０１、ROM４０２、及びRAM４０３は、バス４０４により相互に接続されている。

CPU４０１にはまた、バス４０４を介して入出力インタフェース４０５が接続されている。入出力インタフェース４０５には、キーボード、マウス、マイクロホンなどよりなる入力部４０６、ディスプレイ、スピーカなどよりなる出力部４０７が接続されている。CPU４０１は、入力部４０６から入力される指令に対応して各種の処理を実行する。そして、CPU４０１は、処理の結果を出力部４０７に出力する。

入出力インタフェース４０５に接続されている記憶部４０８は、例えばハードディスクからなり、CPU４０１が実行するプログラムや各種のデータを記憶する。通信部４０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部４０９を介してプログラムを取得し、記憶部４０８に記憶してもよい。

入出力インタフェース４０５に接続されているドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア４１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部４０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを記録する記録媒体は、図２４に示されるように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(compact disc-read only memory),DVD(digital versatile disc)を含む）、光磁気ディスク（ＭＤ（mini-disc）を含む）、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア４１１、又は、プログラムが一時的もしくは永続的に記録されるROM４０２や、記憶部４０８を構成するハードディスクなどにより構成される。記録媒体へのプログラムの記録は、必要に応じてルータ、モデムなどのインタフェースである通信部４０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の通信媒体を利用して行われる。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本実施の形態は、上述した第１乃至第４の実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１画像処理装置，２１カメラ，２２ピラミッド画像生成部，２３加速度センサ，２４カメラ位置推定部，２５検出領域決定部，２６被写体検出部，２７辞書記憶部，２８詳細情報取得部，２９状態解析部，３０制御部，１０１画像処理装置，１２１動体検出部，１２２背景更新部，１２３検出領域決定部，１２４状態解析部，１２５制御部，２２１画像処理装置，２４１距離検出部，２４２検出領域決定部，２４３制御部，３２１表示制御装置，３４１画像入力部，３４２画像処理部，３４３視聴状態解析部，３４４視聴状態記録部，３４５システム最適化処理部，３４６システム制御部

Claims

撮像により得られる撮像画像から、検出対象とすべき被写体を検出する画像処理装置において、
前記撮像を行う撮像部から検出対象とすべき前記被写体までの距離に応じて予め設定された倍率により、前記撮像画像を縮小又は拡大して、前記被写体の検出に用いるピラミッド画像を生成する生成手段と、
前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域を決定する決定手段と、
前記検出領域から前記被写体を検出する被写体検出手段と
を含む画像処理装置。
前記撮像部の向きを推定する推定手段をさらに含み、
前記決定手段は、推定された前記撮像部の向きに基づいて、前記検出領域を決定する
請求項１に記載の画像処理装置。
前記被写体の検出結果に基づいて、前記被写体の詳細情報を取得する取得手段をさらに含み、
前記決定手段は、前記撮像部の向きが所定の方向に固定されていると推定された場合、取得された前記詳細情報に基づいて前記検出領域を決定する
請求項２に記載の画像処理装置。
前記取得手段は、前記詳細情報として、少なくとも、前記撮像画像における前記被写体の位置を表す位置情報を取得し、
前記決定手段は、前記位置情報に基づいて、前記被写体が存在する確率が所定の閾値以上となる前記撮像画像上の領域を、前記検出領域に決定する
請求項３に記載の画像処理装置。
前記撮像画像上の動体を表す動体領域を検出する動体検出手段をさらに含み、
前記決定手段は、検出された前記動体領域を前記検出領域に決定する
請求項１に記載の画像処理装置。
前記動体検出手段は、前記撮像画像を構成する領域のうち、前記被写体検出手段により検出された前記被写体を含む被写体周辺領域と、前記被写体周辺領域以外の領域とで、前記動体領域を検出するために用いる動体閾値を異なる値に設定する
請求項５に記載の画像処理装置。
前記動体検出手段は、１フレーム分だけ異なる撮像画像どうしの差分絶対値が、前記動体領域を検出するために用いる動体閾値以上であるか否かに基づいて前記動体領域を検出する場合、前記撮像画像どうしが撮像された時刻の差に応じて前記動体閾値を変更する
請求項５に記載の画像処理装置。
前記動体検出手段が、前記撮像画像と、前記被写体が撮像されていない背景のみの背景画像との差分絶対値に基づいて前記動体領域を検出する場合、
前記背景画像を構成する領域のうち、前記撮像画像上の背景部分に対応する領域と、前記撮像画像上の背景部分以外の部分に対応する領域とで異なる背景更新処理を行う更新手段をさらに含む
請求項５に記載の画像処理装置。
前記被写体検出手段により前記被写体が検出される前に、前記動体検出手段により検出された前記動体領域を表す動体領域情報を出力する出力手段をさらに含む
請求項５に記載の画像処理装置。
前記撮像部により撮像される撮像対象までの距離を算出する距離算出手段と、
算出された前記距離に基づいて、前記撮像画像上の前記撮像対象それぞれの前記距離を表すDepthマップを生成するマップ生成手段と
をさらに含み、
前記決定手段は、前記Depthマップに基づいて、前記検出領域を決定する
請求項１に記載の画像処理装置。
前記決定手段は、前記倍率に応じて、前記ピラミッド画像を複数の領域に分割し、前記複数の領域のうちの１つの領域を、前記検出領域に決定する
請求項１に記載の画像処理装置。
前記被写体検出手段は、前記検出領域のうち、n(>1)画素分だけ異なる位置に存在する部分領域それぞれに前記被写体が存在するか否かに基づいて、前記部分領域から前記被写体を検出する
請求項１に記載の画像処理装置。
前記生成手段は、それぞれ異なる倍率で、前記撮像画像を縮小又は拡大して、複数の前記ピラミッド画像を生成し、
前記被写体検出手段は、前記複数のピラミッド画像それぞれの前記検出領域から、前記撮像部に近い被写体の順序で前記被写体を検出する
請求項１に記載の画像処理装置。
前記被写体検出手段は、所定数の前記被写体が検出された場合、前記被写体の検出を終了する
請求項１３に記載の画像処理装置。
前記被写体検出手段は、検出済みの前記被写体が存在する領域を除外した前記検出領域から、前記被写体を検出する
請求項１３に記載の画像処理装置。
前記撮像画像上に存在する前記被写体であって、前記被写体検出手段により未検出の前記被写体を検出する場合、
前記被写体検出手段は、所定の方向から見たときの被写体を表す第１のテンプレート画像に基づいて、前記検出領域から前記被写体を検出する
請求項１に記載の画像処理装置。
前記撮像画像上に存在する前記被写体であって、前記被写体検出手段により検出済みの前記被写体を、前記撮像画像とは異なる他の撮像画像上から検出する場合、
前記決定手段は、さらに、検出済みの前記被写体が存在する前記撮像画像上の位置に基づいて、前記他の撮像画像上の前記被写体の検出に用いる他のピラミッド画像の検出領域を決定し、
前記被写体検出手段は、複数の方向から見たときの被写体それぞれを表す複数の第２のテンプレート画像に基づいて、前記他のピラミッド画像の前記検出領域から、前記被写体を検出する
請求項１６に記載の画像処理装置。
撮像により得られる撮像画像から、検出対象とすべき被写体を検出する画像処理装置の画像処理方法において、
前記画像処理装置は、
生成手段と、
決定手段と、
被写体検出手段と
を含み、
前記生成手段は、前記撮像を行う撮像部から検出対象とすべき前記被写体までの距離に応じて予め設定された倍率により、前記撮像画像を縮小又は拡大して、前記被写体の検出に用いるピラミッド画像を生成し、
前記決定手段は、前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域を決定し、
前記被写体検出手段は、前記検出領域から前記被写体を検出する
ステップを含む画像処理方法。
撮像により得られる撮像画像から、検出対象とすべき被写体を検出する画像処理装置のコンピュータを、
前記撮像を行う撮像部から検出対象とすべき前記被写体までの距離に応じて予め設定された倍率により、前記撮像画像を縮小又は拡大して、前記被写体の検出に用いるピラミッド画像を生成する生成手段と、
前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域を決定する決定手段と、
前記検出領域から前記被写体を検出する被写体検出手段と
して機能させるためのプログラム。
撮像により得られる撮像画像から、検出対象とすべき被写体を検出し、その検出結果に基づく処理を行う電子機器において、
前記撮像を行う撮像部から検出対象とすべき前記被写体までの距離に応じて予め設定された倍率により、前記撮像画像を縮小又は拡大して、前記被写体の検出に用いるピラミッド画像を生成する生成手段と、
前記ピラミッド画像上の全領域の中から、前記被写体を検出するための検出領域を決定する決定手段と、
前記検出領域から前記被写体を検出する被写体検出手段と、
前記被写体検出手段による検出結果に基づく処理を行う処理手段と
を含む電子機器。