JP5229575B2

JP5229575B2 - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP5229575B2
Application number: JP2009113413A
Authority: JP
Inventors: 一樹相坂; 雅也木下; 敬亀谷; 淳村山; 昌俊横川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-05-08
Filing date: 2009-05-08
Publication date: 2013-07-03
Anticipated expiration: 2029-05-08
Also published as: KR20120018267A; TW201044324A; WO2010128646A1; TWI423168B; CN102084396B; US20120121173A1; CN102084396A; US8577137B2; JP2010262506A; MY154278A; EP2299403A1

Description

本発明は画像処理装置および方法、並びにプログラムに関し、特に、より簡単に画像上の被写体の領域を特定できるようにした画像処理装置および方法、並びにプログラムに関する。

従来、画像上の被写体の領域を特定するための技術として、ビジュアルアテンションと呼ばれる技術が知られている（例えば、非特許文献１および２参照）。

ビジュアルアテンションでは、入力された入力画像から、輝度情報、色情報、エッジ情報が抽出され、それらの抽出された情報に基づいて、入力画像上の各領域における被写体の領域らしさを示す情報マップが、抽出された情報ごとに生成される。

そして、各情報マップがＤＯＧフィルタを用いたフィルタ処理、または線形正規化により正規化されて足し合わされた後、さらに正規化されて、その結果得られた情報が被写体マップとされる。この被写体マップは、入力画像の各領域における被写体の領域らしさを示す情報であり、被写体マップを用いれば、入力画像上のどの領域に被写体が含まれているかを特定することができる。

ここで、入力画像からは、輝度情報として、入力画像の画素のＲ（赤）、Ｇ（緑）、およびＢ（青）の成分の平均値が抽出され、色情報として、入力画像の画素のＲとＧの成分の差分、およびＢとＹ（黄色）の成分の差分が抽出される。また、入力画像からは、ガボアフィルタを用いて０度、４５度、９０度、１３５度の各方向のエッジ強度が抽出される。

Laurent Itti, Christof Koch, and Ernst Niebur, "A Model of Saliency-Based Visual Attention for Rapid Scene Analysis" Laurent Itti, Christof Koch, "Feature combination strategies for saliency-based visual attention systems"

しかしながら、上述した技術では処理量が多く、被写体マップの生成に時間がかかってしまう。例えば、ガボアフィルタを用いたフィルタ処理は指数演算が必要であるため、処理量が多く、また、ＤＯＧフィルタはタップ数が多いため、ＤＯＧフィルタを用いたフィルタ処理の処理量も多くなってしまう。

なお、線形正規化により情報マップの正規化を行う場合には、正規化のための処理量を抑えることはできるが、正規化時に情報マップからノイズを除去することは困難であり、被写体マップによる被写体の検出精度が低下してしまう。すなわち、ノイズの領域が被写体の領域であると誤検出されてしまう場合があった。

さらに、被写体マップを得る処理をハードウェアで行おうとすると、ガボアフィルタの指数演算や、ＤＯＧフィルタのタップ数の影響により、回路規模が大きくなってしまう。

本発明は、このような状況に鑑みてなされたものであり、画像上の被写体の領域を特定するための情報を、より簡単かつ迅速に得ることができるようにするものである。

本発明の一側面の画像処理装置は、入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成する抽出情報画像生成手段と、前記複数の前記抽出情報画像のうちの所定の２つの前記抽出情報画像の差分を求めることにより、差分画像を生成する差分画像生成手段と、複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成する情報マップ生成手段と、前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化する正規化手段と、正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する被写体マップ生成手段とを備える。

画像処理装置には、前記入力画像のいくつかの画素の画素値を、予め定められた係数を用いて重み付き加算することで、前記入力画像の各領域のエッジ強度を示す画像を、前記抽出情報画像として生成するエッジ画像生成手段をさらに設けることができる。

前記抽出情報画像生成手段には、前記抽出情報画像の互いに隣接する画素の画素値の平均値を、前記抽出情報画像とは異なる他の抽出情報画像の画素の画素値とすることにより、互いに異なる解像度の前記複数の前記抽出情報画像を生成させることができる。

本発明の一側面の画像処理方法またはプログラムは、入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成し、前記複数の前記抽出情報画像のうちの所定の２つの前記抽出情報画像の差分を求めることにより、差分画像を生成し、複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成し、前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化し、正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成するステップを含む。

本発明の一側面においては、入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像が生成され、前記複数の前記抽出情報画像のうちの所定の２つの前記抽出情報画像の差分を求めることにより、差分画像が生成され、複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップが生成され、前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値が減算されて、前記情報マップが正規化され、正規化された複数の前記情報マップが重み付き加算されることにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップが生成される。

本発明の一側面によれば、画像上の被写体の領域を特定するための情報を、より簡単かつ迅速に得ることができる。

本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。輝度情報抽出部の構成例を示す図である。ピラミッド画像について説明する図である。ピラミッド画像の生成について説明する図である。色情報抽出部の構成例を示す図である。エッジ情報抽出部の構成例を示す図である。顔情報抽出部の構成例を示す図である。動き情報抽出部の構成例を示す図である。被写体領域特定処理を説明するフローチャートである。輝度情報抽出処理を説明するフローチャートである。色情報抽出処理を説明するフローチャートである。エッジ情報抽出処理を説明するフローチャートである。エッジ抽出のためのフィルタの一例を示す図である。エッジ抽出のためのフィルタの一例を示す図である。顔情報抽出処理を説明するフローチャートである。動き情報抽出処理を説明するフローチャートである。ニューラルネットワークによる学習について説明する図である。ニューラルネットワークによる学習について説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

［画像処理装置の構成］
図１は、本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。

画像処理装置１１は、輝度情報抽出部２１、色情報抽出部２２、エッジ情報抽出部２３、顔情報抽出部２４、動き情報抽出部２５、被写体マップ生成部２６、および被写体領域特定部２７から構成される。

例えば、画像処理装置１１は、被写体を含む入力画像を撮像する撮像装置などからなり、撮像により得られた入力画像が、輝度情報抽出部２１乃至動き情報抽出部２５および被写体領域特定部２７に供給される。この入力画像は、Ｙ（輝度）成分、Ｃｒ（色差）成分、およびＣｂ（色差）成分からなる映像信号とされる。

輝度情報抽出部２１乃至動き情報抽出部２５は、供給された入力画像から所定の情報を抽出し、抽出した情報からなる抽出情報画像に基づいて、入力画像の各領域における被写体の領域らしさを示す情報マップを生成する。これらの情報マップに含まれる情報は、被写体の含まれる領域により多く含まれる特徴の特徴量を示す情報とされ、その情報が入力画像の各領域に対応させて並べられたものが情報マップとされる。つまり、情報マップは、入力画像の各領域における特徴量を示す情報であるといえる。

ここで、被写体とは、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体をいう。したがって、被写体は必ずしも人に限られる訳ではない。また、輝度情報抽出部２１乃至動き情報抽出部２５では、情報マップとして、輝度情報マップ、色情報マップ、エッジ情報マップ、顔情報マップ、および動き情報マップが生成される。

具体的には、輝度情報抽出部２１は、供給された入力画像のＹ（輝度）成分からなる輝度画像を抽出情報画像として輝度情報マップを生成し、被写体マップ生成部２６に供給する。色情報抽出部２２は、供給された入力画像のＣｒ成分からなるＣｒ画像およびＣｂ成分からなるＣｂ画像を抽出情報画像として色情報マップを生成し、被写体マップ生成部２６に供給する。

エッジ情報抽出部２３は、供給された入力画像の各領域のエッジ強度からなるエッジ画像を抽出情報画像としてエッジ情報マップを生成し、被写体マップ生成部２６に供給する。顔情報抽出部２４は、供給された入力画像の各領域における、被写体としての人の顔に関する情報からなる画像を抽出情報画像として顔情報マップを生成し、被写体マップ生成部２６に供給する。動き情報抽出部２５は、供給された入力画像の各領域における、動きに関する情報からなる画像を抽出情報画像として動き情報マップを生成し、被写体マップ生成部２６に供給する。

被写体マップ生成部２６は、輝度情報抽出部２１乃至動き情報抽出部２５から供給された情報マップを足し合わせて被写体マップを生成し、被写体領域特定部２７に供給する。この被写体マップは、入力画像における被写体の含まれる領域を特定するための情報である。

被写体領域特定部２７は、被写体マップ生成部２６からの被写体マップを用いて、供給された入力画像上の被写体の領域を特定し、その特定結果を出力する。

［輝度情報抽出部の構成］
次に、図１の輝度情報抽出部２１乃至動き情報抽出部２５のより詳細な構成について説明する。

図２は、輝度情報抽出部２１の構成例を示すブロック図である。

輝度情報抽出部２１は、ピラミッド画像生成部５１、差分算出部５２、重み付き加算部５３、および正規化部５４から構成される。

ピラミッド画像生成部５１は、供給された入力画像のＹ成分からなる画像を輝度画像とし、輝度画像を用いて、互いに解像度の異なる複数の輝度画像を生成し、それらの輝度画像を輝度のピラミッド画像として差分算出部５２に供給する。ここで、入力画像から生成される輝度画像の画素の画素値は、その画素と同じ位置にある入力画像の画素のＹ成分の値とされる。

また、例えば、図３に示すように、レベルＬ１乃至レベルＬ７までの７つの解像度の階層のピラミッド画像Ｌ１乃至ピラミッド画像Ｌ７が生成される。なお、レベルＬ１のピラミッド画像Ｌ１が最も解像度が高く、レベルＬ１からレベルＬ７まで順番にピラミッド画像の解像度が低くなるようにされる。この場合、入力画像のＹ成分からなる、入力画像と同じ解像度（画素数）の輝度画像が、レベルＬ１のピラミッド画像Ｌ１とされる。

さらに、図４に示すように、レベルＬｉ（但し、１≦ｉ≦６）のピラミッド画像Ｌｉの互いに隣接する画素の画素値の平均値を求めることで、レベルＬ（ｉ＋１）のピラミッド画像Ｌ（ｉ＋１）が生成される。

すなわち、ピラミッド画像Ｌｉが図中、横方向に半分の画素数となるようにダウンコンバートされ、その結果得られた画像が画像Ｌｉ’とされる。例えば、ピラミッド画像Ｌｉの横方向に互いに隣接する画素ｇ１および画素ｇ２の画素値の平均値が、画像Ｌｉ’の画素ｇ３の画素値とされる。

そして、さらに画像Ｌｉ’が図中、縦方向に半分の画素数となるようにダウンコンバートされ、その結果得られた画像がレベルＬ（ｉ＋１）のピラミッド画像Ｌ（ｉ＋１）とされる。例えば、画像Ｌｉ’の縦方向に互いに隣接する画素ｇ３および画素ｇ４の画素値の平均値が、ピラミッド画像Ｌ（ｉ＋１）の画素ｇ５の画素値とされる。

図２の輝度情報抽出部２１の説明に戻り、差分算出部５２は、ピラミッド画像生成部５１から供給された各階層のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めて輝度の差分画像を生成する。

なお、各階層のピラミッド画像は、それぞれ大きさ（画素数）が異なるので、差分画像の生成時には、より小さい方のピラミッド画像が、より大きいピラミッド画像に合わせてアップコンバートされる。

差分算出部５２は、予め定められた数だけ輝度の差分画像を生成すると、生成したそれらの差分画像を重み付き加算部５３に供給する。

重み付き加算部５３は、差分算出部５２から供給された差分画像を重み付き加算して輝度情報マップを生成し、正規化部５４に供給する。正規化部５４は、重み付き加算部５３からの輝度情報マップを正規化して被写体マップ生成部２６に供給する。

［色情報抽出部の構成］
図５は、色情報抽出部２２の構成例を示すブロック図である。

色情報抽出部２２は、ピラミッド画像生成部８１、ピラミッド画像生成部８２、差分算出部８３、差分算出部８４、重み付き加算部８５、重み付き加算部８６、正規化部８７、および正規化部８８から構成される。

ピラミッド画像生成部８１は、供給された入力画像のＣｒ成分からなる画像をＣｒ画像とし、ピラミッド画像生成部８２は、供給された入力画像のＣｂ成分からなる画像をＣｂ画像とする。ここで、Ｃｒ画像およびＣｂ画像の画素の画素値は、その画素と同じ位置にある入力画像の画素のＣｒ成分およびＣｂ成分の値とされる。

ピラミッド画像生成部８１およびピラミッド画像生成部８２は、Ｃｒ画像およびＣｂ画像を用いて、互いに解像度の異なる複数のＣｒ画像およびＣｂ画像を生成する。そして、ピラミッド画像生成部８１およびピラミッド画像生成部８２は、生成したそれらのＣｒ画像およびＣｂ画像を、Ｃｒのピラミッド画像、およびＣｂのピラミッド画像として差分算出部８３および差分算出部８４に供給する。

例えば、Ｃｒのピラミッド画像、およびＣｂのピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルＬ１乃至レベルＬ７までの７つの解像度の階層のピラミッド画像が生成される。

差分算出部８３および差分算出部８４は、ピラミッド画像生成部８１およびピラミッド画像生成部８２からの複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてＣｒの差分画像、およびＣｂの差分画像を生成する。

なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされて、より大きい方のピラミッド画像と同じ大きさとされる。

差分算出部８３および差分算出部８４は、予め定められた数だけＣｒの差分画像およびＣｂの差分画像を生成すると、生成したそれらの差分画像を重み付き加算部８５および重み付き加算部８６に供給する。

重み付き加算部８５および重み付き加算部８６は、差分算出部８３および差分算出部８４から供給された差分画像を重み付き加算して、Ｃｒの色情報マップおよびＣｂの色情報マップを生成し、正規化部８７および正規化部８８に供給する。正規化部８７および正規化部８８は、重み付き加算部８５および重み付き加算部８６からの色情報マップを正規化して被写体マップ生成部２６に供給する。

［エッジ情報抽出部の構成］
図６は、エッジ情報抽出部２３の構成例を示すブロック図である。

エッジ情報抽出部２３は、エッジ画像生成部１１１乃至エッジ画像生成部１１４、ピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８、差分算出部１１９乃至差分算出部１２２、重み付き加算部１２３乃至重み付き加算部１２６、および正規化部１２７乃至正規化部１３０から構成される。

エッジ画像生成部１１１乃至エッジ画像生成部１１４は、供給された入力画像に対して、フィルタ処理を施し、例えば０度、４５度、９０度、および１３５度の方向のエッジ強度を画素の画素値とするエッジ画像を、抽出情報画像として生成する。

例えば、エッジ画像生成部１１１により生成されるエッジ画像の画素の画素値は、その画素と同じ位置にある入力画像の画素における０度の方向のエッジ強度を示している。なお、各エッジの方向とは、入力画像上の所定の方向を基準として定められた方向をいう。

エッジ画像生成部１１１乃至エッジ画像生成部１１４は、生成したエッジ画像を、ピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８に供給する。

ピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８は、エッジ画像生成部１１１乃至エッジ画像生成部１１４から供給されたエッジ画像を用いて、互いに解像度の異なる複数のエッジ画像を生成する。そして、ピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８は、生成したそれらの各方向のエッジ画像を、エッジの各方向のピラミッド画像として差分算出部１１９乃至差分算出部１２２に供給する。

例えば、エッジの各方向のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルＬ１乃至レベルＬ７までの７つの階層のピラミッド画像が生成される。

差分算出部１１９乃至差分算出部１２２は、ピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８からの複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてエッジの各方向の差分画像を生成する。

差分算出部１１９乃至差分算出部１２２は、予め定められた数だけエッジの各方向の差分画像を生成すると、生成したそれらの差分画像を重み付き加算部１２３乃至重み付き加算部１２６に供給する。

重み付き加算部１２３乃至重み付き加算部１２６は、差分算出部１１９乃至差分算出部１２２から供給された差分画像を重み付き加算して、各方向のエッジ情報マップを生成し、正規化部１２７乃至正規化部１３０に供給する。正規化部１２７乃至正規化部１３０は、重み付き加算部１２３乃至重み付き加算部１２６からのエッジ情報マップを正規化して被写体マップ生成部２６に供給する。

［顔情報抽出部の構成］
図７は、顔情報抽出部２４の構成例を示すブロック図である。

顔情報抽出部２４は、顔検出部１６１、顔情報マップ生成部１６２、および正規化部１６３から構成される。

顔検出部１６１は、供給された入力画像から被写体としての人の顔の領域を検出し、その検出結果を抽出情報画像として顔情報マップ生成部１６２に供給する。顔情報マップ生成部１６２は、顔検出部１６１からの検出結果に基づいて顔情報マップを生成し、正規化部１６３に供給する。正規化部１６３は、顔情報マップ生成部１６２から供給された顔情報マップを正規化して被写体マップ生成部２６に供給する。

［動き情報抽出部の構成］
図８は、動き情報抽出部２５の構成例を示すブロック図である。

動き情報抽出部２５は、ローカルモーションベクタ抽出部１９１、グローバルモーションベクタ抽出部１９２、差分算出部１９３、および正規化部１９４から構成される。

ローカルモーションベクタ抽出部１９１は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、入力画像の各画素の動きベクトルをローカルモーションベクタとして検出し、差分算出部１９３に供給する。

グローバルモーションベクタ抽出部１９２は、供給された入力画像と、その入力画像とは撮像時刻の異なる他の入力画像とを用いて、グローバルモーションベクタを検出し、差分算出部１９３に供給する。このグローバルモーションベクタは、入力画像全体の動きの方向を示しており、例えば、入力画像の各画素の動きベクトルの平均値とされる。

差分算出部１９３は、ローカルモーションベクタ抽出部１９１からのローカルモーションベクタと、グローバルモーションベクタ抽出部１９２からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成し、正規化部１９４に供給する。

ここで、動きの差分画像における画素の画素値は、その画素と同じ位置にある入力画像の画素のローカルモーションベクタと、入力画像全体のグローバルモーションベクタとの差分の絶対値とされる。したがって、動きの差分画像の画素の画素値は、入力画像の画素に表示される物体（または背景）の入力画像全体に対する、つまり背景に対する相対的な動き量を示している。

正規化部１９４は、差分算出部１９３からの動きの差分画像を正規化することにより、動き情報マップを生成し、被写体マップ生成部２６に供給する。なお、より詳細には、動き情報マップの生成は、入力画像として、時間的に連続して撮像されたものが供給された場合、例えば、入力画像が連写されたものや、動画像である場合に行われる。

［被写体領域特定処理の説明］
ところで、画像処理装置１１に入力画像が供給されると、画像処理装置１１は、被写体領域特定処理を開始して、入力画像における被写体の領域を特定し、その特定結果を出力する。以下、図９のフローチャートを参照して、被写体領域特定処理について説明する。

ステップＳ１１において、輝度情報抽出部２１は、輝度情報抽出処理を行って、供給された入力画像に基づいて輝度情報マップを生成し、被写体マップ生成部２６に供給する。そして、ステップＳ１２において、色情報抽出部２２は、色情報抽出処理を行って、供給された入力画像に基づいて色情報マップを生成し、被写体マップ生成部２６に供給する。

ステップＳ１３において、エッジ情報抽出部２３は、エッジ情報抽出処理を行って、供給された入力画像に基づいてエッジ情報マップを生成し、被写体マップ生成部２６に供給する。また、ステップＳ１４において、顔情報抽出部２４は、顔情報抽出処理を行って、供給された入力画像に基づいて顔情報マップを生成し、被写体マップ生成部２６に供給する。さらに、ステップＳ１５において、動き情報抽出部２５は、動き情報抽出処理を行って、供給された入力画像に基づいて動き情報マップを生成し、被写体マップ生成部２６に供給する。

なお、これらの輝度情報抽出処理、色情報抽出処理、エッジ情報抽出処理、顔情報抽出処理、および動き情報抽出処理の詳細は後述する。また、より詳細には、動き情報抽出処理は、時間的に連続して撮像された入力画像が、動き情報抽出部２５に供給されなかった場合には行われない。

ステップＳ１６において、被写体マップ生成部２６は、輝度情報抽出部２１乃至動き情報抽出部２５から供給された輝度情報マップ乃至動き情報マップを重み付き加算して被写体マップを生成し、被写体領域特定部２７に供給する。

例えば、被写体マップ生成部２６は、情報マップごとに予め求められている重みである、情報重みＷｂを用いて各情報マップを線形結合する。つまり、線形結合により得られる情報マップの所定の画素を注目画素とすると、注目画素の画素値は、注目画素と同じ位置にある各情報マップの画素の画素値に、情報マップごとの情報重みＷｂを乗算して得られた値の総和とされる。

次に、被写体マップ生成部２６は、線形結合により得られた情報マップ（以下、線形結合情報マップとも称する）の各画素の画素値に、シグモイド関数による演算処理を施す。

より詳細には、被写体マップ生成部２６は、シグモイド関数をテーブル化して得られた変換テーブルを予め保持している。この変換テーブルは、入力としての所定の値と、その値をシグモイド関数に代入して得られる出力値とからなり、変換テーブルにより線形結合情報マップを変換すれば、シグモイド関数により線形結合情報マップを変換した場合と同様の情報マップが得られる。

例えば、シグモイド関数は、次式（１）に示す双曲線余弦関数（ハイパボリックタンジェント関数）とされる。

ｆ（ｘ）＝ａ×ｔａｎｈ（ｘ×ｂ）・・・（１）

なお、式（１）において、ａおよびｂは、予め定められた定数を示しており、ｘは、これから変換しようとする線形結合情報マップの画素の画素値とされる。

このような双曲線余弦関数がシグモイド関数とされる場合、変換テーブルは、入力値ｘの範囲を−２から２までの範囲に制限し、入力値ｘを１／１２８単位で離散化して得られたテーブルとされる。このような変換テーブルでは、入力値ｘが−２より小さい場合には、その入力値ｘが−２であるとして扱われ、入力値ｘが２より大きい場合には、その入力値ｘが２であるとして扱われる。さらに、変換テーブルでは、入力値ｘが大きくなるほど、出力値ｆ（ｘ）が大きくなる。

被写体マップ生成部２６は、線形結合情報マップの画素の画素値を、その画素値ｘ（入力値ｘ）から、画素値ｘに対応する出力値ｆ（ｘ）に変更することにより、線形結合情報マップを変換する。すなわち、被写体マップ生成部２６は、変換テーブルを用いて変換された線形結合情報マップを、シグモイド関数による演算処理が施された線形結合情報マップとする。

このように、変換テーブルを用いて線形結合情報マップを変換することにより、シグモイド関数自体を用いて変換する場合と比べて、より簡単かつ迅速に線形結合情報マップの変換を行うことができる。

さらに、被写体マップ生成部２６は、変換テーブルで変換された線形結合情報マップの各画素の画素値に、画素ごとに予め求められた重みである、被写体重みＷｃを乗算し、被写体マップとする。

すなわち、これから求めようとする被写体マップ上の注目する画素を注目画素とすると、変換された線形結合情報マップの注目画素と同じ位置の画素の画素値に、被写体重みＷｃが乗算された値が、注目画素の画素値とされる。

なお、より詳細には、被写体マップの生成に用いられる色情報マップとして、Ｃｒの色情報マップと、Ｃｂの色情報マップとが用いられ、エッジ情報マップとして、０度、４５度、９０度、１３５度のそれぞれの方向のエッジ情報マップが用いられる。また、情報重みＷｂおよび被写体重みＷｃは、予め学習により求められている。

このようにして被写体マップが生成されると、被写体マップは、被写体マップ生成部２６から被写体領域特定部２７に供給され、処理はステップＳ１７に進む。

ステップＳ１７において、被写体領域特定部２７は、被写体マップ生成部２６から供給された被写体マップを用いて、供給された入力画像上の被写体の領域を特定する。

例えば、被写体マップの画素の画素値が大きいほど、その画素と同じ位置の入力画像の画素の領域が、被写体の領域らしいとされるものとする。この場合、被写体領域特定部２７は、被写体マップ上において、予め定められた閾値以上の画素値を有する、互いに隣接する画素からなり、所定の面積（画素数）以上の領域を検出し、検出された領域に対応する入力画像上の領域が被写体の含まれる領域であるとする。

被写体領域特定部２７は、入力画像上の被写体の含まれる領域を検出すると、その検出結果を後段に出力して、被写体領域特定処理は終了する。

このようにして得られた被写体の領域の検出結果は、入力画像の被写体の領域に所定の画像処理を施すなど、各種の処理に用いられる。また、被写体の領域の特定結果は、例えば、入力画像をスライドショー表示するときに、入力画像の被写体の領域を画面の中央に表示させる画像処理などに利用されてもよい。

なお、被写体領域特定部２７が、被写体の領域の検出結果を用いて、入力画像に所定の処理を施して出力するようにしてもよい。

以上のようにして、画像処理装置１１は、入力画像から被写体マップを生成し、被写体マップを用いて、入力画像における被写体の領域を特定する。

［輝度情報抽出処理の説明］
次に、図９のステップＳ１１乃至ステップＳ１５の処理のそれぞれに対応する処理について説明する。

まず、図１０のフローチャートを参照して、図９のステップＳ１１の処理に対応する輝度情報抽出処理について説明する。

ステップＳ４１において、ピラミッド画像生成部５１は、供給された入力画像のＹ（輝度）成分からなる輝度画像に基づいて、レベルＬ１乃至レベルＬ７の各階層のピラミッド画像を生成し、差分算出部５２に供給する。

従来のビジュアルアテンションでは、８つの階層のピラミッド画像が生成されていたが、画像処理装置１１では、７つの階層のピラミッド画像が生成されるため、ピラミッド画像の生成枚数が１枚削減されたことになる。したがって、従来よりも、より簡単かつ迅速に輝度情報マップを得ることができるようになる。

なお、ピラミッド画像の階層数を７としても、被写体マップによる被写体の領域の特定精度に影響がないことが出願人により確認されており、画像処理装置１１によれば、被写体の領域の特定精度を低下させることなく、より迅速に被写体マップを得ることができる。

また、従来のビジュアルアテンションでは、入力画像のＲ、Ｇ、およびＢの各成分の平均値を求めることで、輝度画像の生成が行われていた。これに対して、画像処理装置１１では、入力画像のＹ（輝度）成分をそのまま輝度画像とすることで、より簡単かつ迅速に輝度画像を得ることができる。また、これにより、輝度画像を生成するための回路を設ける必要がなくなり、画像処理装置１１の小型化を図ることができる。

ステップＳ４２において、差分算出部５２は、ピラミッド画像生成部５１から供給されたピラミッド画像を用いて差分画像を生成し、重み付き加算部５３に供給する。

具体的には、差分算出部５２は、各階層の輝度のピラミッド画像のうち、レベルＬ２およびレベルＬ５、レベルＬ２およびレベルＬ６、レベルＬ３およびレベルＬ６、レベルＬ３およびレベルＬ７、並びにレベルＬ４およびレベルＬ７の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つの輝度の差分画像が得られる。

例えば、レベルＬ２およびレベルＬ５の組み合わせの差分画像が生成される場合、レベルＬ５のピラミッド画像が、レベルＬ２のピラミッド画像の大きさに合わせてアップコンバートされる。

つまり、アップコンバート前のレベルＬ５のピラミッド画像の１つの画素の画素値が、その画素に対応する、アップコンバート後のレベルＬ５のピラミッド画像の互いに隣接するいくつかの画素の画素値とされる。そして、レベルＬ５のピラミッド画像の画素の画素値と、その画素と同じ位置にあるレベルＬ２のピラミッド画像の画素の画素値との差分が求められ、その差分が差分画像の画素の画素値とされる。

これらの差分画像を生成する処理は、輝度画像にバンドパスフィルタを用いたフィルタ処理を施して、輝度画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の画素値の差、つまり入力画像における所定の画素における輝度と、その画素の周囲の平均的な輝度との差分を示している。

一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。

ステップＳ４３において、重み付き加算部５３は、差分算出部５２から供給された差分画像に基づいて輝度情報マップを生成し、正規化部５４に供給する。

例えば、重み付き加算部５３は、供給された５つの差分画像を、予め求められた差分画像ごとの重みである差分重みＷａにより重み付き加算し、輝度情報マップを生成する。すなわち、各差分画像の同じ位置にある画素の画素値のそれぞれに差分重みＷａが乗算されて、差分重みＷａが乗算された画素値の総和が求められる。

なお、輝度情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。また、差分重みＷａは、予め学習により求められたものとされる。

次に、重み付き加算部５３は、得られた輝度情報マップの画素の画素値を、被写体マップ生成部２６が保持している変換テーブルと同じ変換テーブルを用いて変換し、その結果得られた輝度情報マップを、正規化部５４に供給する。

重み付き加算部５３においても、変換テーブルを用いて輝度情報マップを変換することで、より簡単かつ迅速に変換を行うことができる。

ステップＳ４４において、正規化部５４は、重み付き加算部５３からの輝度情報マップを正規化し、その結果得られた輝度情報マップを、最終的な輝度情報マップとして被写体マップ生成部２６に供給する。そして、輝度情報マップが出力されると、輝度情報抽出処理は終了し、その後処理は図９のステップＳ１２に進む。

例えば、まず正規化部５４は、輝度情報マップを線形正規化する。例えば、輝度情報マップの画素値の範囲が、０から２００までの範囲である場合、線形正規化により、画素値の範囲が０から２５５までの範囲となるようにされる。

次に、正規化部５４は、線形正規化された輝度情報マップの各画素の画素値の平均値を求める。すなわち、輝度情報マップの全ての画素の画素値の合計値が、輝度情報マップの画素数で除算されて平均値が求められる。

さらに、正規化部５４は、線形正規化された輝度情報マップの各画素の画素値から、求めた平均値を減算した値を、最終的な輝度情報マップの画素の画素値とする。

なお、より詳細には、画素値から平均値を減算した値が負の値（０未満の値）となる輝度情報マップの画素については、その画素の画素値は０とされる。すなわち、線形正規化された輝度情報マップの画素のうち、画素値が平均値以下である画素は、最終的な画素値が０とされる。

ここで、輝度情報マップに含まれるノイズの値は、輝度情報マップの各画素の平均値以下であることが殆どであるため、各画素の画素値から平均値を減算することにより、輝度情報マップから確実にノイズが除去される。これは、ノイズ部分の画素の画素値が０とされるためである。また、線形正規化された輝度情報マップにおいて、入力画像上の被写体の領域と同じ位置の画素の画素値は、平均値よりも大きい場合が殆どであるため、輝度情報マップの画素値から平均値を減算して正規化しても、被写体の検出精度が低下してしまうこともない。

このように、輝度情報マップを線形正規化し、線形正規化後の輝度情報マップの画素値から平均値を減算することで、輝度情報マップを、より簡単かつ迅速に正規化することができる。特に、輝度情報抽出処理部２１によれば、線形正規化と平均値の計算、および減算という簡単な処理で、ＤＯＧフィルタを用いた場合と同程度のノイズ除去効果を得ることがきる。

すなわち、従来、情報マップの正規化は、ＤＯＧフィルタを用いたフィルタ処理により行われていたが、このフィルタ処理は処理量が多く、迅速に正規化を行うことができなかった。これに対して、正規化部５４では、ＤＯＧフィルタを用いた場合と比べて、より簡単な処理で、より迅速に輝度情報マップを正規化することができる。しかも、正規化によって、輝度情報マップからより確実にノイズを除去することができ、被写体の領域の検出精度も低下することはない。

以上のようにして、輝度情報抽出部２１は、入力画像から輝度情報マップを生成する。このようにして得られた輝度情報マップによれば、入力画像において、輝度の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。

［色情報抽出処理の説明］
次に、図１１のフローチャートを参照して、図９のステップＳ１２の処理に対応する色情報抽出処理について説明する。

ステップＳ７１において、ピラミッド画像生成部８１およびピラミッド画像生成部８２は、供給された入力画像の色差成分からなるＣｒ画像およびＣｂ画像に基づいて、レベルＬ１乃至レベルＬ７の各階層のピラミッド画像を生成する。すなわち、図３および図４を参照して説明した処理と同様の処理が行われ、Ｃｒのピラミッド画像およびＣｂのピラミッド画像が生成される。

ピラミッド画像生成部８１およびピラミッド画像生成部８２は、生成したピラミッド画像を差分算出部８３および差分算出部８４に供給する。

このように、色情報抽出部２２においても、輝度情報抽出部２１における場合と同様に、７つの階層のピラミッド画像を生成すればよいため、従来よりも、より簡単かつ迅速に色情報マップを得ることができるようになる。

また、従来のビジュアルアテンションでは、色情報として、入力画像の画素のＲとＧの成分の差分、およびＢとＹ（黄色）の成分の差分が抽出されていたため、それらの差分を求める処理が必要であった。

これに対して、画像処理装置１１では、入力画像の色差成分をそのままＣｒ画像およびＣｂ画像とすることで、より簡単かつ迅速に、色に関する抽出情報画像を得ることができる。また、これにより、差分を求めるための回路を設ける必要がなくなり、画像処理装置１１の小型化を図ることができる。

ステップＳ７２において、差分算出部８３および差分算出部８４は、ピラミッド画像生成部８１およびピラミッド画像生成部８２から供給されたピラミッド画像に基づいて差分画像を生成し、重み付き加算部８５および重み付き加算部８６に供給する。

例えば、差分算出部８３は、各階層のＣｒのピラミッド画像のうち、レベルＬ２およびレベルＬ５、レベルＬ２およびレベルＬ６、レベルＬ３およびレベルＬ６、レベルＬ３およびレベルＬ７、並びにレベルＬ４およびレベルＬ７の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つのＣｒの差分画像が得られる。なお、差分画像の生成時には、画素数の大きい方のピラミッド画像に合わせて、小さい方のピラミッド画像がアップコンバートされる。

また、差分算出部８４も、差分算出部８３と同様の処理を行って、合計５つのＣｂの差分画像を生成する。

これらの差分画像を生成する処理は、Ｃｒ画像またはＣｂ画像にバンドパスフィルタを用いたフィルタ処理を施して、Ｃｒ画像またはＣｂ画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の差、つまり入力画像の画素における特定の色の成分と、その画素の周囲の平均的な特定の色の成分との差分を示している。

一般的に、画像において周囲と比べて目立つ色の領域、つまり特定の色成分の周囲との差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。

ステップＳ７３において、重み付き加算部８５および重み付き加算部８６は、差分算出部８３および差分算出部８４から供給された差分画像に基づいてＣｒの色情報マップおよびＣｂの色情報マップを生成し、正規化部８７および正規化部８８に供給する。

例えば、重み付き加算部８５は、差分算出部８３から供給されたＣｒの差分画像を、予め求められた差分画像ごとの差分重みＷａにより重み付き加算して、１つのＣｒの色情報マップとする。次に、重み付き加算部８５は、得られたＣｒの色情報マップの画素の画素値を、被写体マップ生成部２６が保持している変換テーブルと同じ変換テーブルを用いて変換し、その結果得られた色情報マップを、正規化部８７に供給する。

同様に、重み付き加算部８６は、差分算出部８４から供給されたＣｂの差分画像を、予め求められた差分重みＷａにより重み付き加算して、１つのＣｂの色情報マップとし、そのＣｂの色情報マップを、変換テーブルを用いて変換して正規化部８８に供給する。

重み付き加算部８５および重み付き加算部８６においても、変換テーブルを用いて色情報マップを変換することで、より簡単かつ迅速に変換を行うことができる。なお、色情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。

ステップＳ７４において、正規化部８７および正規化部８８は、重み付き加算部８５および重み付き加算部８６からの色情報マップを正規化し、その結果得られた色情報マップを、最終的な色情報マップとして被写体マップ生成部２６に供給する。例えば、正規化部８７および正規化部８８は、図１０のステップＳ４４の処理と同様の処理を行って、Ｃｒの色情報マップおよびＣｂの色情報マップを正規化する。

そして、色情報マップが出力されると、色情報抽出処理は終了し、その後処理は図９のステップＳ１３に進む。

このように、色情報マップを線形正規化し、線形正規化後の色情報マップの画素値から平均値を減算することで、色情報マップを、より簡単かつ迅速に正規化することができる。

このようにして、色情報抽出部２２は、入力画像から特定の色の成分の画像を抽出し、その画像から色情報マップを生成する。このようにして得られた色情報マップによれば、入力画像において、周囲と比較して特定の色成分の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。

なお、色情報抽出部２２では、入力画像から抽出される色の情報として、ＣｒおよびＣｂの成分が抽出されると説明したが、Ｒ（赤）の成分と、Ｇ（緑）の成分の差分、およびＢ（青）の成分と、Ｙ（黄）の成分との差分が抽出されるようにしてもよい。

［エッジ情報抽出処理の説明］
次に、図１２のフローチャートを参照して、図９のステップＳ１３の処理に対応するエッジ情報抽出処理について説明する。

ステップＳ１１１において、エッジ画像生成部１１１乃至エッジ画像生成部１１４は、供給された入力画像に基づいて、０度、４５度、９０度、および１３５度の方向のエッジ強度を画素の画素値とするエッジ画像を生成する。

例えば、エッジ画像生成部１１１乃至エッジ画像生成部１１４は、図１３に示すフィルタを予め保持しており、これらのフィルタを用いて抽出情報画像としてのエッジ画像を生成する。図１３の例では、filter1、filter2、filter45、およびfilter135のそれぞれが、１つのフィルタとされる。

filter1における数値「−１，−２，−１，２，４，２，−１，−２，−１」は、入力画像の画素に乗算される係数を示している。

ここで、入力画像における所定の方向、例えば図４における図中、横方向をｘ方向とし、ｘ方向に垂直な方向、つまり図４中、縦方向をｙ方向と呼ぶこととする。

この場合、filter1を用いたフィルタ処理では、ｘ方向に連続して並ぶ９個の画素の画素値のそれぞれに、係数「−１」，「−２」，「−１」，「２」，「４」，「２」，「−１」，「−２」，「−１」のそれぞれが乗算され、係数が乗算された画素値の和が「１６」で除算される。そして、その結果得られた値が、連続して並ぶ９個の画素の中心にある画素に対して、filter1を用いたフィルタ処理を施して得られた画素値とされる。

図１３において、filter1の係数は、それらの係数が乗算される画素と同じ配置で並べられている。したがって、例えば、ｘ方向に並ぶ画素の両端に位置する画素に係数「−１」が乗算され、ｘ方向に並ぶ画素のうち、中心に位置する画素に係数「４」が乗算される。

なお、図１３において、他のフィルタの係数も、それらの係数が乗算される画素と同じ配置で並べられている。

また、filter2を用いたフィルタ処理では、ｘ方向に連続して並ぶ８個の画素の画素値のそれぞれに、係数「１」，「３」，「３」，「１」，「１」，「３」，「３」，「１」のそれぞれが乗算され、係数が乗算された画素値の和が「１６」で除算される。そして、その結果得られた値が、連続して並ぶ８個の画素の中心にある画素（より詳細には、図中、左から４番目または５番目の係数「１」が乗算される画素）に対して、filter2を用いたフィルタ処理を施して得られた画素値とされる。

filter45を用いたフィルタ処理では、ｘ方向に３画素、ｙ方向に３画素の合計９画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「０」，「１」，「２」，「−１」，「０」，「１」，「−２」，「−１」，「０」が乗算される。そして、係数が乗算された画素の画素値の和が「８」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter45を用いたフィルタ処理を施して得られた画素値とされる。したがって、例えば、処理対象の領域の中心に位置する画素には、係数「０」が乗算され、その画素の図中、左側に隣接する画素には、係数「−１」が乗算される。

また、filter135を用いたフィルタ処理では、ｘ方向に３画素、ｙ方向に３画素の合計９画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「２」，「１」，「０」，「１」，「０」，「−１」，「０」，「−１」，「−２」が乗算される。そして、係数が乗算された画素の画素値の和が「８」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter135を用いたフィルタ処理を施して得られた画素値とされる。

例えば、エッジ画像生成部１１１は、入力画像にfilter1を用いたフィルタ処理を施し、その結果得られた画像に、さらにfilter2を用いたフィルタ処理を施して得られた画像を、０度方向のエッジ画像とする。また、エッジ画像生成部１１２は、入力画像にfilter45を用いたフィルタ処理を施して得られた画像を、４５度方向のエッジ画像とする。

エッジ画像生成部１１３は、入力画像にfilter2を用いたフィルタ処理を施し、その結果得られた画像に、さらにfilter1を用いたフィルタ処理を施して得られた画像を、９０度方向のエッジ画像とする。さらに、エッジ画像生成部１１４は、入力画像にfilter135を用いたフィルタ処理を施して得られた画像を、１３５度方向のエッジ画像とする。

このように、エッジ画像生成部１１１乃至エッジ画像生成部１１４は、予め保持しているfilter1、filter2、filter45、およびfilter135の少なくとも１つを用いて各方向のエッジ画像を生成する。これらのフィルタは、ガボアフィルタを近似して得られたフィルタであり、ガボアフィルタに近い特性を有している。

したがって、これらのフィルタを用いることで、ガボアフィルタを用いた場合と同様の各方向のエッジ画像が得られる。しかも、これらのフィルタを用いたフィルタ処理は、予め定められた所定の係数を用いた重み付き加算の計算であり、フィルタ処理に指数演算等の複雑な演算が不要である。

従来のビジュアルアテンションでは、エッジ画像を得るためにガボアフィルタを用いていたが、画像処理装置１１では、filter1、filter2、filter45、およびfilter135を組み合わせてフィルタ処理を行うことで、より簡単かつ迅速にエッジ画像を得ることができる。

なお、エッジ画像の生成に用いるフィルタは、図１３に示した例に限らず、Sobel FilterとRoberts Filterを組み合わせたものなどとされてもよい。そのような場合、例えば、図１４に示すフィルタが用いられる。

図１４の例では、filter0、filter90、filter45、およびfilter135のそれぞれが、１つのフィルタとされる。なお、図１４において、各フィルタの係数は、それらの係数が乗算される入力画像の画素と同じ配置で並べられている。

filter0における数値「１，２，１，０，０，０，−１，−２，−１」は、入力画像の画素に乗算される係数を示している。filter0を用いたフィルタ処理では、ｘ方向に３画素、ｙ方向に３画素の合計９画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「１」，「２」，「１」，「０」，「０」，「０」，「−１」，「−２」，「−１」が乗算される。そして、係数が乗算された画素の画素値の和が「８」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter0を用いたフィルタ処理を施して得られた画素値とされる。したがって、例えば、処理対象の領域の中心に位置する画素には、係数「０」が乗算され、その画素の図中、上側に隣接する画素には、係数「２」が乗算される。

同様に、filter90を用いたフィルタ処理では、ｘ方向に３画素、ｙ方向に３画素の合計９画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「１」，「０」，「−１」，「２」，「０」，「−２」，「１」，「０」，「−１」が乗算される。そして、係数が乗算された画素の画素値の和が「８」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素に対して、filter90を用いたフィルタ処理を施して得られた画素値とされる。

また、filter45を用いたフィルタ処理では、ｘ方向に２画素、ｙ方向に２画素の合計４画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「０」，「１」，「−１」，「０」が乗算される。そして、係数が乗算された画素の画素値の和が「２」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素（より詳細には、図中、左上の係数「０」が乗算される画素）に対して、filter45を用いたフィルタ処理を施して得られた画素値とされる。

さらに、filter135を用いたフィルタ処理では、ｘ方向に２画素、ｙ方向に２画素の合計４画素からなる領域内の画素が用いられ、それらの画素の画素値に、係数「１」，「０」，「０」，「−１」が乗算される。そして、係数が乗算された画素の画素値の和が「２」で除算され、その結果得られた値が、処理対象となる領域の中心に位置する画素（より詳細には、図中、左上の係数「１」が乗算される画素）に対して、filter135を用いたフィルタ処理を施して得られた画素値とされる。

例えば、エッジ画像生成部１１１乃至エッジ画像生成部１１４は、filter0、filter45、filter90、およびfilter135のそれぞれを用いたフィルタ処理を入力画像に施し、その結果得られた画像を、０度、４５度、９０度、および１３５度の方向のエッジ画像とする。

このように、図１４の例における場合も、フィルタ処理に指数演算等の複雑な演算処理が不要であるため、より簡単かつ迅速にエッジ画像を得ることができる。

図１２のフローチャートの説明に戻り、エッジ画像生成部１１１乃至エッジ画像生成部１１４は、各方向のエッジ画像を生成すると、生成したエッジ画像をピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８に供給する。

ステップＳ１１２において、ピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８は、エッジ画像生成部１１１乃至エッジ画像生成部１１４からのエッジ画像に基づいて、ピラミッド画像を生成し、差分算出部１１９乃至差分算出部１２２に供給する。

すなわち、図３および図４を参照して説明した処理と同様の処理が行われ、各方向のエッジ画像について、レベルＬ１乃至レベルＬ７の各階層のピラミッド画像が生成される。エッジ情報抽出部２３においても、輝度情報抽出部２１における場合と同様に、７つの階層のピラミッド画像を生成すればよいため、従来よりも、より簡単かつ迅速にエッジ情報マップを得ることができるようになる。

ステップＳ１１３において、差分算出部１１９乃至差分算出部１２２は、ピラミッド画像生成部１１５乃至ピラミッド画像生成部１１８から供給されたピラミッド画像に基づいて差分画像を生成し、重み付き加算部１２３乃至重み付き加算部１２６に供給する。

例えば、差分算出部１１９は、各階層の０度方向のピラミッド画像のうち、レベルＬ２およびレベルＬ５、レベルＬ２およびレベルＬ６、レベルＬ３およびレベルＬ６、レベルＬ３およびレベルＬ７、並びにレベルＬ４およびレベルＬ７の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つの差分画像が得られる。なお、差分画像の生成時には、画素数の大きい方のピラミッド画像に合わせて、小さい方のピラミッド画像がアップコンバートされる。

また、差分算出部１２０乃至差分算出部１２２も、差分算出部１１９と同様の処理を行って、合計５つの差分画像を生成する。

これらの差分画像を生成する処理は、エッジ画像にバンドパスフィルタを用いたフィルタ処理を施して、エッジ画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像のエッジ強度の差、つまり入力画像の所定の位置のエッジ強度と、その位置の周囲の平均的なエッジ強度との差を示している。

一般的に、画像において周囲と比べてエッジ強度の強い領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。

ステップＳ１１４において、重み付き加算部１２３乃至重み付き加算部１２６は、差分算出部１１９乃至差分算出部１２２から供給された差分画像に基づいて、０度、４５度、９０度、および１３５度の方向のエッジ情報マップを生成する。

例えば、重み付き加算部１２３は、差分算出部１１９から供給された０度方向の差分画像を、予め求められた差分画像ごとの差分重みＷａにより重み付き加算して、１つの０度方向のエッジ情報マップとする。次に、重み付き加算部１２３は、得られた０度方向のエッジ情報マップの画素の画素値を、被写体マップ生成部２６が保持している変換テーブルと同じ変換テーブルを用いて変換し、その結果得られたエッジ情報マップを、正規化部１２７に供給する。

同様に、重み付き加算部１２４乃至重み付き加算部１２６は、差分算出部１２０乃至差分算出部１２２から供給された各方向の差分画像を、予め求められた差分重みＷａにより重み付き加算して、１つのエッジ情報マップとする。そして、重み付き加算部１２４乃至重み付き加算部１２６は、得られたエッジマップを、変換テーブルを用いて変換し、正規化部１２８乃至正規化部１３０に供給する。

重み付き加算部１２３乃至重み付き加算部１２６においても、変換テーブルを用いてエッジ情報マップを変換することで、より簡単かつ迅速に変換を行うことができる。なお、エッジ情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。

ステップＳ１１５において、正規化部１２７乃至正規化部１３０は、重み付き加算部１２３乃至重み付き加算部１２６からのエッジ情報マップを正規化し、その結果得られたエッジ情報マップを、最終的なエッジ情報マップとして被写体マップ生成部２６に供給する。例えば、正規化部１２７乃至正規化部１３０は、図１０のステップＳ４４の処理と同様の処理を行って、各方向のエッジ情報マップを正規化する。

そして、エッジ情報マップが出力されると、エッジ情報抽出処理は終了し、その後処理は図９のステップＳ１４に進む。

このように、エッジ情報マップを線形正規化し、線形正規化後のエッジ情報マップから画素値の平均値を減算することで、エッジ情報マップを、より簡単かつ迅速に正規化することができる。

このようにして、エッジ情報抽出部２３は、入力画像から特定の方向のエッジの差分画像を求め、その差分画像からエッジ情報マップを生成する。このようにして得られた方向ごとのエッジ情報マップによれば、入力画像において、周囲の領域と比べて、特定の方向へのエッジ強度の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。

［顔情報抽出処理の説明］
次に、図１５のフローチャートを参照して、図９のステップＳ１４の処理に対応する顔情報抽出処理について説明する。

ステップＳ１４１において、顔検出部１６１は、供給された入力画像から、人の顔の領域を検出し、その検出結果を顔情報マップ生成部１６２に供給する。例えば、顔検出部１６１は、入力画像に対してガボアフィルタを用いたフィルタ処理を施し、入力画像から人の目、口、鼻などの特徴的な領域を抽出することにより、入力画像における顔の領域を検出する。

ステップＳ１４２において、顔情報マップ生成部１６２は、顔検出部１６１からの検出結果を用いて顔情報マップを生成し、正規化部１６３に供給する。

例えば、入力画像からの顔の検出結果として、顔が含まれると推定される入力画像上の矩形の領域（以下、候補領域と称する）が複数検出されたとする。ここで、入力画像上の所定の位置近傍に複数の候補領域が検出され、それらの候補領域の一部が互いに重なることもあることとする。すなわち、例えば、入力画像上の１つの顔の領域に対して、その顔を含む複数の領域が候補領域として得られた場合には、それらの候補領域の一部が互いに重なることになる。

顔情報マップ生成部１６２は、顔の検出により得られた候補領域に対して、候補領域ごとに、入力画像と同じ大きさの検出画像を生成する。この検出画像は、検出画像上における処理対象の候補領域と同じ領域内の画素の画素値が、候補領域とは異なる領域内の画素の画素値よりも大きい値とされる。

また、検出画像上の画素の画素値は、より人の顔が含まれる可能性が高いと推定された候補領域の画素と同じ位置の画素ほど、画素値が大きくなる。顔情報マップ生成部１６２は、このようにして得られた検出画像を足し合わせて１つの画像を生成し、顔情報マップとする。したがって、顔情報マップ上において、入力画像上の複数の候補領域の一部が重なる領域と同じの領域の画素の画素値は大きくなり、より顔が含まれる可能性が高いことになる。

ステップＳ１４３において、正規化部１６３は、顔情報マップ生成部１６２から供給された顔情報マップを正規化し、その結果得られた顔情報マップを、最終的な顔情報マップとして被写体マップ生成部２６に供給する。例えば、正規化部１６３は、図１０のステップＳ４４の処理と同様の処理を行って、顔情報マップを正規化する。

そして、顔情報マップが出力されると、顔情報抽出処理は終了し、その後処理は図９のステップＳ１５に進む。

このようにして、顔情報抽出部２４は、入力画像から顔を検出し、その検出結果から顔情報マップを生成する。このようにして得られた顔情報マップによれば、入力画像において、被写体としての人の顔の領域を簡単に検出することができる。

［動き情報抽出処理の説明］
さらに、図１６のフローチャートを参照して、図９のステップＳ１５の処理に対応する動き情報抽出処理について説明する。

ステップＳ１７１において、ローカルモーションベクタ抽出部１９１は、供給された入力画像を用いて、勾配法などにより入力画像の各画素のローカルモーションベクタを検出し、差分算出部１９３に供給する。

ステップＳ１７２において、グローバルモーションベクタ抽出部１９２は、供給された入力画像を用いてグローバルモーションベクタを検出し、差分算出部１９３に供給する。

ステップＳ１７３において、差分算出部１９３は、ローカルモーションベクタ抽出部１９１からのローカルモーションベクタと、グローバルモーションベクタ抽出部１９２からのグローバルモーションベクタとの差分の絶対値を求めて動きの差分画像を生成する。そして、差分算出部１９３は、生成した動きの差分画像を正規化部１９４に供給する。

ステップＳ１７４において、正規化部１９４は、差分算出部１９３から供給された差分画像を正規化することで動き情報マップを生成し、その結果得られた動き情報マップを、最終的な動き情報マップとして被写体マップ生成部２６に供給する。例えば、正規化部１９４は、図１０のステップＳ４４の処理と同様の処理を行って、動き情報マップを正規化する。

そして、動き情報マップが出力されると、動き情報抽出処理は終了し、その後処理は図９のステップＳ１６に進む。

このようにして、動き情報抽出部２５は、入力画像から動きを検出し、その検出結果から動き情報マップを生成する。このようにして得られた動き情報マップによれば、入力画像において、動きのある物体の領域を簡単に検出することができる。入力画像において、動きのある物体の領域は、入力画像を一瞥した観察者の目に付きやすい領域であり、被写体である可能性が高い。

以上において説明した輝度情報抽出処理乃至動き情報抽出処理により、各情報マップが得られ、これらの情報マップから被写体マップが生成される。

以上のように、各情報マップの正規化において、情報マップを線形正規化し、線形正規化後の情報マップの画素値から平均値を減算することで、より簡単かつ迅速に情報マップを正規化することができる。これにより、画像上の被写体の領域を特定するための情報マップを、より簡単かつ迅速に得ることができる。しかも、情報マップの正規化時に、情報マップの画素値から平均値を減算することにより、より簡単な処理で、より確実にノイズを除去することができる。

［重みの学習］
ところで、画像処理装置１１では、入力画像から被写体の領域がより多く有すると推定される複数の情報を抽出し、それらの情報を用いて被写体マップを生成することにより、入力画像からより確実に被写体の領域を検出している。被写体マップの画素値は、入力画像上において、入力画像を一瞥した観察者がより目を向けると推定される領域ほど大きくなるので、被写体が人である場合に限らず、動物や植物、建物などの一般的なものであっても、検出することができる。

このような被写体マップは、入力画像から、輝度、色、エッジ、顔、動きなどの情報が抽出されて生成される。すなわち、それらの抽出された情報のピラミッド画像から得られた差分画像が、差分重みＷａにより重み付き加算されて情報マップとされ、それらの情報マップが、情報重みＷｂにより重み付き加算される。そして、さらに、その結果得られた画像（マップ）に被写体重みＷｃが乗算されて被写体マップとされる。

被写体マップの生成時に用いられるこれらの差分重みＷａ、情報重みＷｂ、および被写体重みＷｃは、例えばニューラルネットワークによる学習により求められる。これらの重みの学習時に用いられる学習画像として、人に限らず、一般的な被写体が含まれる画像を用いれば、学習により得られた重みを用いて生成される被写体マップにより、入力画像から、一般的な被写体をより確実に検出することができるようになる。

以下、被写体マップを生成するのに用いられる差分重みＷａ、情報重みＷｂ、および被写体重みＷｃの学習について説明する。

学習時には、図１７に示すように、初期値が与えられた差分重みＷａ、情報重みＷｂ、および被写体重みＷｃと、被写体が含まれた学習画像とが用いられて、被写体マップが生成される。

具体的には、予め用意された学習画像から、被写体マップ生成時に抽出される情報ごとの差分画像Ａｎ（ｍ）（但し、１≦ｎ≦Ｎ，１≦ｍ≦６）が生成される。ここで、差分画像Ａｎ（１）乃至差分画像Ａｎ（６）は、学習画像から抽出された、１つの情報についての差分画像である。

例えば、差分画像Ａ１（１）乃至差分画像Ａ１（６）は、学習画像から得られた輝度のピラミッド画像が用いられて生成された、輝度の差分画像とされる。また、例えば、差分画像ＡＮ（１）乃至差分画像ＡＮ（６）は、学習画像から得られた０度方向のエッジのピラミッド画像が用いられて生成された、０度方向の差分画像とされる。

なお、図１７では、学習画像から抽出される情報ごとに、６つの差分画像が得られる例について示されているが、差分画像の数はいくつであってもよい。例えば、画像処理装置１１の例では、差分画像の数は５つとされている。

学習画像から情報ごとの差分画像Ａｎ（ｍ）が得られると、それらの差分画像と、差分画像ごとの差分重みＷａとから情報マップが生成される。なお、以下、差分画像Ａｎ（ｍ）に乗算される差分重みＷａを、差分重みＷａｎ（ｍ）とも称する。

例えば、差分画像Ａ１（１）乃至差分画像Ａ１（６）のそれぞれが、差分画像ごとの差分重みＷａ１（１）乃至差分重みＷａ１（６）により重み付き加算されて、情報マップＢ１_ｉｎとされる。さらに、この情報マップＢ１_ｉｎに対して、上述した式（１）、つまりシグモイド関数ｆ（ｘ）による演算が行われ、その結果として情報マップＢ１_ｏｕｔが得られる。

すなわち、情報マップＢ１_ｉｎの画素の画素値ｘが、式（１）に代入されて得られた値ｆ（ｘ）が、その画素と同じ位置にある情報マップＢ１_ｏｕｔの画素の画素値とされる。このようにして得られた情報マップＢ１_ｏｕｔは、画像処理装置１１において生成される情報マップ、例えば輝度情報マップに相当する。

なお、シグモイド関数ｆ（ｘ）は、双曲線余弦関数に限らず、どのような関数であってもよい。例えば、ｆ（ｘ）は、理想的なモデルでは、ｘ≧０である場合に値「１」を出力し、ｘ＜０である場合に値「−１」を出力する関数とされる。

以上のようにして、Ｎ個の情報マップＢ１_ｏｕｔ乃至情報マップＢＮ_ｏｕｔが得られると、それらの情報マップＢｎ_ｏｕｔ（但し、１≦ｎ≦Ｎ）が、情報マップごとの情報重みＷｂにより重み付き加算されて、被写体マップＣ_ｉｎとされる。そして、この被写体マップＣ_ｉｎに対して、シグモイド関数ｆ（ｘ）による演算が行われ、その結果として被写体マップＣ_ｏｕｔが得られる。さらに、この被写体マップＣ_ｏｕｔに被写体重みＷｃが乗算されて正規化され、最終的な被写体マップとされる。

なお、より詳細には、被写体マップＣ_ｉｎの生成時には、差分画像を生成することなく得られる情報マップ、例えば、顔情報マップなどの情報マップも用いられて重み付き加算が行われる。また、以下では、情報マップＢｎ_ｏｕｔに乗算される情報重みＷｂを、情報重みＷｂｎとも称する。

このようにして、学習時に被写体マップを生成する処理は、Forward Propagationと呼ばれる。被写体マップが生成されると、続いて図１８に示すように、Back Propagationと呼ばれる処理が行われて、差分重みＷａ、情報重みＷｂ、および被写体重みＷｃが更新される。Back Propagationと呼ばれる処理では、生成された被写体マップと、学習画像に対して予め用意された、学習画像上における被写体の領域を示す情報である画像ラベルとが用いられて、各重みを増減させるべき値である重みの差分が求められる。

ここで、画像ラベルは、学習画像と同じ大きさの画像であり、学習画像上の被写体の領域の画素と同じ位置にある画素の画素値が１とされ、学習画像上の被写体のない領域の画素と同じ位置にある画素の画素値が０とされる画像である。

Back Propagationでは、まず、被写体マップと画像ラベルとの差分が求められ、その結果得られた画像が評価マップとされる。そして、評価マップと、被写体マップＣ_ｉｎとから、次式（２）により、被写体重みＷｃを変化させるべき量である被写体重み差分△Ｗｃが求められる。

△Ｗｃ＝η×Ｃ_ｉｎ×△Ｃ・・・（２）

式（２）において、ηは、予め定められた定数である学習速度を示しており、Ｃ_ｉｎは、被写体マップＣ_ｉｎを示している。なお、より詳細には、式（２）におけるＣ_ｉｎは、被写体マップＣ_ｉｎの１つの画素の画素値とされ、被写体重み差分△Ｗｃは画素ごとに求められる。また、△Ｃは、被写体マップの差分であり、次式（３）により求められる。

△Ｃ＝ＥＶ×ｆ’（Ｃ_ｉｎ）・・・（３）

式（３）において、ＥＶは評価マップを示しており、ｆ’（Ｃ_ｉｎ）は、シグモイド関数ｆ（ｘ）を微分して得られる関数に、被写体マップＣ_ｉｎを代入して得られる値である。関数ｆ（ｘ）を微分して得られる関数ｆ’（ｘ）は、具体的には次式（４）に示される関数である。

ｆ’（ｘ）＝ａ×ｂ×ｓｅｃｈ（ｘ×ｂ）^２・・・（４）

このようにして被写体重み差分△Ｗｃが得られると、被写体重み差分△Ｗｃが、これまでの被写体重みＷｃに加算されて更新され、新たな被写体重みＷｃが求められる。

続いて、更新された被写体重みＷｃと、被写体マップ生成時に生成された情報マップＢｎ_ｉｎとが用いられて次式（５）により、情報重みＷｂｎを変化させるべき量である情報重み差分△Ｗｂｎが求められる。

△Ｗｂｎ＝η×Ｂｎ_ｉｎ×△Ｂｎ・・・（５）

式（５）において、ηは、予め定められた定数である学習速度を示しており、Ｂｎ_ｉｎは、情報マップＢｎ_ｉｎを示している。なお、より詳細には、式（５）におけるＢｎ_ｉｎは、情報マップＢｎ_ｉｎの１つの画素の画素値とされ、情報重み差分△Ｗｂｎは画素ごとに求められる。また、△Ｂｎは情報マップの差分であり、次式（６）により求められる。

△Ｂｎ＝△Ｃ×ｆ’（Ｂｎ_ｉｎ）×Ｗｃ・・・（６）

式（６）において、△Ｃは上述した式（３）を計算して得られる値を示しており、ｆ’（Ｂｎ_ｉｎ）は、シグモイド関数ｆ（ｘ）を微分して得られる関数に、情報マップＢｎ_ｉｎを代入して得られる値である。また、Ｗｃは更新された被写体重みＷｃである。

このようにして、情報マップＢｎ_ｉｎに対する情報重み差分△Ｗｂｎが得られると、情報重み差分△Ｗｂｎが、情報マップＢｎ_ｉｎの情報重みＷｂｎに加算されて更新され、新たな情報重みＷｂｎが求められる。

さらに、更新された情報重みＷｂｎと、被写体マップ生成時に生成された差分画像Ａｎ（ｍ）とが用いられて次式（７）により、差分重みＷａを変化させるべき量である差分重みの差分△Ｗａｎ（ｍ）が求められる。

△Ｗａｎ（ｍ）＝η×Ａｎ（ｍ）×△Ａｎ（ｍ）・・・（７）

式（７）において、ηは、予め定められた定数である学習速度を示しており、Ａｎ（ｍ）は差分画像Ａｎ（ｍ）を示している。なお、より詳細には、式（７）におけるＡｎ（ｍ）は、差分画像Ａｎ（ｍ）の１つの画素の画素値とされ、差分△Ｗａｎ（ｍ）は画素ごとに求められる。また、△Ａｎ（ｍ）は差分画像の差分であり、次式（８）により求められる。

△Ａｎ（ｍ）＝△Ｂｎ×ｆ’（Ａｎ（ｍ））×Ｗｂｎ・・・（８）

式（８）において、△Ｂｎは上述した式（６）を計算して得られる値を示しており、ｆ’（Ａｎ（ｍ））は、シグモイド関数ｆ（ｘ）を微分して得られる関数に、差分画像Ａｎ（ｍ）を代入して得られる値である。また、Ｗｂｎは更新された情報重みＷｂｎである。

このようにして、差分画像Ａｎ（ｍ）に対する差分重みの差分△Ｗａｎ（ｍ）が得られると、差分重みの差分△Ｗａｎ（ｍ）が、差分画像Ａｎ（ｍ）の差分重みＷａｎ（ｍ）に加算されて更新され、新たな差分重みＷａｎ（ｍ）が求められる。

そして、以上のようにして更新された差分重みＷａ、情報重みＷｂ、および被写体重みＷｃと、学習画像とが用いられて上述した処理が繰り返され、最終的な差分重みＷａ、情報重みＷｂ、および被写体重みＷｃが得られる。

差分重みＷａｎ（ｍ）、情報重みＷｂｎ、および被写体重みＷｃを繰り返し更新する処理は、例えば、評価マップの画素の画素値の最大値の絶対値が、予め定められた閾値以下であり、かつ予め定められた回数以上、各重みの更新が行われるまで行われる。すなわち、重みを更新する処理は、画像から充分な精度で被写体を抽出できる被写体マップが得られるまで行われる。

このようにして、ニューラルネットワークによる学習では、予め与えられた重みが用いられて生成された被写体マップと、画像ラベルとから評価マップが生成され、さらに評価マップから逆算により、各重みを変化させるべき変化量である重みの差分が求められる。

ここで、画像ラベルは、学習画像上の被写体の領域を示す情報であるので、いわば被写体マップの正解を示す情報ということができる。したがって、被写体マップと、画像ラベルとの差分である評価マップは、理想的な被写体マップと、与えられた重みを用いて生成された被写体マップとの誤差を示しており、評価マップを用いて逆算すれば、与えられた重みと、理想的な重みとの誤差が求まる。

そして、求められた誤差は、与えられた重みを変化させるべき変化量であり、この変化量を重みに加算すれば、現時点における理想的な重みが求まることになる。このようにして新たに求められた重みを用いて被写体マップを生成すれば、その被写体マップにより、画像からより確実に被写体を検出することができるようになる。ニューラルネットワークによる学習では、重みの変化量として、差分△Ｗａｎ（ｍ）、情報重み差分△Ｗｂｎ、および被写体重み差分△Ｗｃが求められ、各重みが更新される。

なお、ニューラルネットワークによる学習は、例えば「Richar O. Duda, Peter E. Hart, David G. Stork著 ”Patten Classification” WILEY-INTERSCIENCE ISBN 0-471-05669-3」に詳細に記載されている。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）６０１，ROM（Read Only Memory）６０２，RAM（Random Access Memory）６０３は、バス６０４により相互に接続されている。

バス６０４には、さらに、入出力インターフェース６０５が接続されている。入出力インターフェース６０５には、キーボード、マウス、マイクロホンなどよりなる入力部６０６、ディスプレイ、スピーカなどよりなる出力部６０７、ハードディスクや不揮発性のメモリなどよりなる記録部６０８、ネットワークインターフェースなどよりなる通信部６０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア６１１を駆動するドライブ６１０が接続されている。

以上のように構成されるコンピュータでは、CPU６０１が、例えば、記録部６０８に記録されているプログラムを、入出力インターフェース６０５及びバス６０４を介して、RAM６０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU６０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア６１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア６１１をドライブ６１０に装着することにより、入出力インターフェース６０５を介して、記録部６０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部６０９で受信し、記録部６０８にインストールすることができる。その他、プログラムは、ROM６０２や記録部６０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１画像処理装置，２１輝度情報抽出部，２２色情報抽出部，２３エッジ情報抽出部，２４顔情報抽出部，２５動き情報抽出部，２６被写体マップ生成部，５３重み付き加算部，５４正規化部，８５重み付き加算部，８６重み付き加算部，８７正規化部，８８正規化部，１２３重み付き加算部，１２４重み付き加算部，１２５重み付き加算部，１２６重み付き加算部，１２７正規化部，１２８正規化部，１２９正規化部，１３０正規化部

Claims

入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成する抽出情報画像生成手段と、
前記複数の前記抽出情報画像のうちの所定の２つの前記抽出情報画像の差分を求めることにより、差分画像を生成する差分画像生成手段と、
複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成する情報マップ生成手段と、
前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化する正規化手段と、
正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する被写体マップ生成手段と
を備える画像処理装置。
前記入力画像のいくつかの画素の画素値を、予め定められた係数を用いて重み付き加算することで、前記入力画像の各領域のエッジ強度を示す画像を、前記抽出情報画像として生成するエッジ画像生成手段をさらに備える
請求項１に記載の画像処理装置。
前記抽出情報画像生成手段は、前記抽出情報画像の互いに隣接する画素の画素値の平均値を、前記抽出情報画像とは異なる他の抽出情報画像の画素の画素値とすることにより、互いに異なる解像度の前記複数の前記抽出情報画像を生成する
請求項１に記載の画像処理装置。
前記入力画像は、輝度成分および色差成分からなる画像とされ、
前記抽出情報画像は、前記所定の情報としての前記入力画像の輝度成分または色差成分からなる画像とされる
請求項１に記載の画像処理装置。
入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成する抽出情報画像生成手段と、
前記複数の前記抽出情報画像のうちの所定の２つの前記抽出情報画像の差分を求めることにより、差分画像を生成する差分画像生成手段と、
複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成する情報マップ生成手段と、
前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化する正規化手段と、
正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する被写体マップ生成手段と
を備える画像処理装置の画像処理方法であって、
前記抽出情報画像生成手段が、前記入力画像から前記抽出情報画像を生成し、
前記差分画像生成手段が、前記複数の前記抽出情報画像から前記差分画像を生成し、
前記情報マップ生成手段が、前記複数の前記差分画像を重み付き加算して前記情報マップを生成し、
前記正規化手段が、前記情報マップを正規化し、
前記被写体マップ生成手段が、前記情報マップを重み付き加算して前記被写体マップを生成する
ステップを含む画像処理方法。
入力画像の各領域から抽出された所定の情報からなる抽出情報画像に基づいて、互いに異なる解像度の複数の前記抽出情報画像を生成し、
前記複数の前記抽出情報画像のうちの所定の２つの前記抽出情報画像の差分を求めることにより、差分画像を生成し、
複数の前記差分画像を重み付き加算することにより、前記入力画像上の被写体の領域が有する特徴の特徴量を示す情報マップを生成し、
前記情報マップの各領域の値から、前記情報マップの各領域の値の平均値を減算して、前記情報マップを正規化し、
正規化された複数の前記情報マップを重み付き加算することにより、前記入力画像の各領域における前記被写体の領域らしさを示す被写体マップを生成する
ステップを含む処理をコンピュータに実行させるプログラム。