CN102084396B

CN102084396B - 图像处理设备和方法

Info

Publication number: CN102084396B
Application number: CN201080002008.1A
Authority: CN
Inventors: 相坂一树; 木下雅也; 亀谷敬; 村山淳; 横川昌俊
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-05-08
Filing date: 2010-04-30
Publication date: 2014-02-05
Anticipated expiration: 2030-04-30
Also published as: WO2010128646A1; JP5229575B2; US8577137B2; TWI423168B; MY154278A; CN102084396A; JP2010262506A; EP2299403A1; US20120121173A1; TW201044324A; KR20120018267A

Abstract

本发明涉及一种图像处理设备和方法，其能够更容易地识别图像中的被摄对象的区域。亮度信息提取单元21至运动信息提取单元25从输入图像提取特征的信息，并产生指示输入图像的被摄对象的区域所拥有的特征的特征量的信息图。此外，亮度信息提取单元21至运动信息提取单元25从产生的信息图的每个像素的像素值减去整个信息图的像素的像素值的平均值，以将信息图规范化。结果，信息图可被规范化，并且与利用D0G滤波器使信息图规范化的情况相比，能够用简单的处理去除噪声。被摄对象图产生单元26对每个信息图进行线性组合，并且产生针对输入图像的每个区域指示区域为被摄对象的可能性的被摄对象图。本发明可被应用于图像处理设备。

Description

图像处理设备和方法

技术领域

本发明涉及图像处理设备、方法和程序，并且更具体地涉及能够更简单地识别图像中的被摄对象的区域的图像处理设备、方法和程序。

迄今为止，作为识别图像中的被摄对象的区域的技术，已知一种称为视觉注意的技术(例如，参见非专利文献1和2)。

在视觉注意中，从输入的输入图像中提取亮度信息、颜色信息和边缘信息。基于这些提取的信息项，针对每项提取的信息产生针对输入图像的每个区域指示区域为被摄对象的可能性的信息图。

然后，将作为利用DOG滤波器进行滤波处理的结果获得的信息，或者以通过线性规范化将各信息图规范化并求和、之后进一步规范化的方式获得的信息形成为被摄对象图。该被摄对象图是针对输入图像的每个区域指示区域为被摄对象的可能性的信息。被摄对象图的使用使得能够识别被摄对象包含在输入图像的哪个区域中。

这里，作为亮度信息，从输入图像提取输入图像的像素的R(红色)、G(绿色)和B(蓝色)分量的平均值，并且作为颜色信息，提取输入图像的像素的R分量和G分量的差、及B分量和Y(黄色)分量的差。此外，通过利用Gabor滤波器，从输入图像提取0°、45°、90°和135°方向的每个方向的边缘强度。

引用文献列表

非专利文献

NPL1：Laurent Itti Christof Koch和Ernst Niebur，“A Model of Saliency-Based Visual Attention for Rapid Scene Analysis”

NPL2：Laurent Itti Christof Koch，“Feature combination strategies for saliency-based visual attention systems”

但是，在上述技术中，处理量大，且产生被摄对象费时。例如，由于利用Gabor滤波器的滤波处理需要指数计算，处理量大。此外，由于DOG 滤波器具有许多抽头(tap)，利用DOG滤波器的滤波处理量增大。

同时，在通过线性规范化执行信息图的规范化的情况下，能够抑制规范化的处理量。但是，难以在规范化期间从信息图中去除噪声，并且利用被摄对象图检测被摄对象的准确度降低。即，存在错误地将噪声区域检测为被摄对象的区域的情况。

此外，如果要利用硬件执行获得被摄对象图的处理，那么由于Gabor滤波器的指数计算和DOG滤波器的抽头数目的影响而使电路规模变得更大。

鉴于这些情况，做出了本发明，本发明的目的是能够更容易和更快地获得用于识别图像中的被摄对象的区域的信息。

问题的解决方案

根据本发明的一个方面的图像处理设备包括提取信息图像生成装置，其用于基于由从输入图像的各区域提取的特征的信息构成的提取信息图像来生成分辨率彼此不同的多个提取信息图像；差图像生成装置，其用于通过获得多个提取信息图像之中的两个预定的提取信息图像之间的差来生成差图像；信息图产生装置，其用于通过执行多个差图像的加权加法来产生指示输入图像中的被摄对象的区域所拥有的特征的特征量的信息图；规范化装置，其用于通过从信息图的每个区域的值减去信息图的各区域的值的平均值而将信息图规范化；以及被摄对象图产生装置，其用于通过执行多个规范化的信息图的加权加法来产生针对输入图像的每个区域指示区域为被摄对象的可能性的被摄对象图。

图像处理设备还可包括边缘图像生成装置，该边缘图像生成装置用于通过利用预定系数执行输入图像的若干像素的像素值的加权加法，来生成代表输入图像的各区域的边缘强度的图像，作为提取信息图像。所述边缘图像生成装置还包括：第一滤波器，其被配置成通过使在x方向上连续排列的9个像素分别乘以系数-1、-2、-1、2、4、2、-1、-2和-1、并将和除以16，对像素执行滤波操作；第二滤波器，其被配置成通过使在x方向上连续排列的8个像素分别乘以系数1、3、3、1、1、3、3和1、并将和除以16，对像素执行滤波操作；第三滤波器，其被配置成通过使在3乘3矩阵中排列的9个像素分别乘以系数0、1、2、-1、0、1、-2、-1和0、并将和除以8，对像素执行滤波操作；以及第四滤波器，其被配置成通过使在3乘3矩阵中排列的9个像素分别乘以系数2、1、0、1、0、-1、0、-1和-2、并将和除以8，对像素执行滤波操作。

提取信息图像生成装置可通过将提取信息图像中彼此相邻的像素的像素值的平均值设为与该提取信息图像不同的另一提取信息图像的像素的像素值，来生成分辨率彼此不同的多个提取信息图像。

根据本发明的一个方面的图像处理方法或程序包括步骤：基于由从输入图像的各区域提取的特征的信息构成的提取信息图像，生成分辨率彼此不同的多个提取信息图像；通过获得多个提取信息图像之中的两个预定的提取信息图像之间的差，生成差图像；通过执行多个差图像的加权加法，产生指示输入图像中的被摄对象所拥有的特征的特征量的信息图；通过从信息图的每个区域的值减去信息图的各区域的值的平均值，将信息图规范化；以及通过执行多个规范化的信息图的加权加法，产生针对输入图像的每个区域指示区域为被摄对象的可能性的被摄对象图。

在本发明的一个方面中，基于由从输入图像的各区域提取的特征的信息构成的提取信息图像，生成分辨率彼此不同的多个提取信息图像。通过获得多个提取信息图像之中的两个预定的提取信息图像之间的差，生成差图像。通过执行多个差图像的加权加法，生成指示输入图像中的被摄对象的区域所拥有的特征的特征量的信息图。通过从信息图的每个区域的值减去信息图的各区域的值的平均值，将信息图规范化。通过执行多个规范化的信息图的加权加法，生成针对输入图像的每个区域指示区域为被摄对象的可能性的被摄对象图。

根据本发明的一个方面，能够更容易和更快地获得用于识别图像中的被摄对象的区域的信息。

图1图示了应用本发明的图像处理设备的实施例的结构的示例。

图2图示了亮度信息提取单元的结构的示例。

图3图示了金字塔图像。

图4图示了金字塔图像的生成。

图5图示了颜色信息提取单元的结构的示例。

图6图示了边缘信息提取单元的结构的示例。

图7图示了面部信息提取单元的结构的示例。

图8图示了运动信息提取单元的结构的示例。

图9是图示了被摄对象区域识别处理的流程图。

图10是图示了亮度信息提取处理的流程图。

图11是图示了颜色信息提取处理的流程图。

图12是图示了边缘信息提取处理的流程图。

图13图示了提取边缘的滤波器的示例。

图14图示了提取边缘的滤波器的示例。

图15是图示了面部信息提取处理的流程图。

图16是图示了运动信息提取处理的流程图。

图17图示了利用神经网络的学习。

图18图示了利用神经网络的学习。

图19图示了计算机的结构的示例。

具体实施方式

参照附图，下面将说明应用本发明的实施例。

[图像处理设备的结构]

图像处理设备11由亮度信息提取单元21、颜色信息提取单元22、边缘信息提取单元23、面部信息提取单元24、运动信息提取单元25、被摄对象图产生单元26和被摄对象区域识别单元27构成。

例如，图像处理设备11包括用于捕获包含被摄对象的输入图像的图像捕获装置。通过图像捕获获得的输入图像被提供给亮度信息提取单元21至运动信息提取单元25，以及被摄对象区域识别单元27。该输入图像是由Y(亮度)分量，Cr(色差)分量和Cb(色差)分量构成的视频信号。

亮度信息提取单元21至运动信息提取单元25从供给的输入图像提取预定信息，并基于由提取的信息构成的提取信息图像产生针对输入图像的每个区域指示区域为被摄对象的可能性的信息图。包含在这些信息图中的信息是指示特征的特征量的信息，所述特征在更大程度上被包含在包含被摄对象的区域中，并且使以对应于输入图像的每个区域的方式设置的信息成为信息图。即，可认为信息图是指示输入图像的每个区域中的特征量的信息。

这里，在用户瞥一眼输入图像的情况下，术语“被摄对象”指的是推测用户注意到的输入图像中的对象体，即，推测用户使他/她的注意力转向的对象体。因此，被摄对象不必局限于人物。此外，在亮度信息提取单元 21至运动信息提取单元25中，产生亮度信息图、颜色信息图、边缘信息图、面部信息图和运动信息图，作为信息图。

更具体地，亮度信息提取单元21通过利用由供给的输入图像的Y(亮度)分量构成的亮度图像作为提取的信息图像来产生亮度信息图，并将亮度信息图提供给被摄对象图产生单元26。颜色信息提取单元22通过利用由供给的输入图像的Cr分量构成的Cr图像和由供给的输入图像的Cb分量构成的Cb图像作为提取的信息图像来产生颜色信息图，并将颜色信息图提供给被摄对象图产生单元26。

边缘信息提取单元23通过利用由供给的输入图像的每个区域的边缘强度构成的边缘图像作为提取的信息图像来产生边缘信息图，并将边缘信息图提供给被摄对象图产生单元26。面部信息提取单元24通过利用由在供给的输入图像的每个区域中的关于作为被摄对象的人物的面部的信息构成的图像作为提取的信息图像来产生面部信息图，并将面部信息图提供给被摄对象图产生单元26。运动信息提取单元25通过利用由在供给的输入图像的每个区域中的关于运动的信息构成的图像作为提取的信息图像，来产生运动信息图，并将运动信息图提供给被摄对象图产生单元26。

被摄对象图产生单元26通过将从亮度信息提取单元21至运动信息提取单元25提供的信息图相加来产生被摄对象图，并将被摄对象图提供给被摄对象区域识别单元27。该被摄对象图是用于识别其中包含有输入图像中的被摄对象的区域的信息。

被摄对象区域识别单元27通过利用来自被摄对象图产生单元26的被摄对象图来识别供给的输入图像中的被摄对象的区域，并输出识别结果。

[亮度信息提取单元的结构]

下面将说明亮度信息提取单元21至运动信息提取单元25的更详细的结构。

图2是图示了亮度信息提取单元21的结构的示例的方框图。

亮度信息提取单元21由金字塔图像生成单元51、差计算单元52、加权加法单元53和规范化单元54构成。

金字塔图像生成单元51将由供给的输入图像的Y分量构成的图像设为亮度图像，利用亮度图像来产生分辨率彼此不同的多个亮度图像，并将这些亮度图像作为亮度的金字塔图像，提供给差分计算单元52。这里，从输入图像生成的亮度图像的像素的像素值是输入图像的在与亮度图像的像素的相同位置处的像素的Y分量的值。

此外，例如，如图3所示，生成从等级L1到等级L7的七种分辨率的七个金字塔图像L1至L7。同时，等级L1的金字塔图像L1具有最高的分辨率，并且金字塔图像的分辨率被设置成按照从等级L1到等级L7的顺序降低。这种情况下，由输入图像的Y分量构成的、其分辨率(像素数)与输入图像相同的亮度图像被设为等级L1的金字塔图像L1。

此外，如图4所示，通过获得等级Li(其中，1≤i≤6)的金字塔图像Li的彼此相邻的像素的像素值的平均值，生成等级L(i+1)的金字塔图像L(i+1)。

即，对金字塔图像Li进行下转换(down-convert)，使得它将具有图中水平方向上的像素数的一半，并且这样获得的图像被设为图像Li′。例如，金字塔图像Li的水平方向上的彼此相邻的像素g1和g2的像素值的平均值被设为图像Li′的像素g3的像素值。

然后，对图像Li′进行下转换，使得它将具有图中垂直方向上的像素数的一半，并且这样获得的图像被设为等级L(i+1)的金字塔图像L(i+1)。例如，图像Li′的垂直方向上的彼此相邻的像素g3和g4的像素值的平均值被设为金字塔图像L(i+1)的像素g5的像素值。

返回参照图2的亮度信息提取单元21的描述，差计算单元52在从金字塔图像生成单元51供给的每个层级的金字塔图像之中选择层级彼此不同的两个金字塔图像，获得所选金字塔图像的差，并生成亮度的差图像。

同时，由于每个层级的金字塔图像具有不同的大小(像素数)，因此当要生成差图像时，根据较大的金字塔图像，对较小的金字塔图像进行上转换(up-convert)。

当生成预定数目的差图像时，差计算单元52将这些生成的差图像提供给加权加法单元53。

加权加法单元53通过执行从差计算单元52供给的差图像的加权加法来产生亮度信息图，并将亮度信息图提供给规范化单元54。规范化单元54使来自加权加法单元53的亮度信息图规范化，并将其提供给被摄对象图产生单元26。

[颜色信息提取单元的结构]

图5是图示了颜色信息提取单元22的结构的示例的方框图。

颜色信息提取单元22由金字塔图像生成单元81、金字塔图像生成单元82、差计算单元83、差计算单元84、加权加法单元85、加权加法单元86、规范化单元87和规范化单元88构成。

金字塔图像生成单元81将由供给的输入图像的Cr分量构成的图像设为Cr图像。金字塔图像生成单元82将由供给的输入图像的Cb分量构成的图像设为Cb图像。这里，Cr图像和Cb图像的像素的像素值分别被设为输入图像的在与Cr图像和Cb图像的像素的相同位置处的像素的Cr分量和Cb分量的值。

金字塔图像生成单元81和金字塔图像生成单元82通过利用Cr图像和Cb图像来生成分辨率彼此不同的多个Cr图像和Cb图像。然后，金字塔图像生成单元81和金字塔图像生成单元82将这些生成的Cr图像和Cb图像作为Cr的金字塔图像和Cb的金字塔图像，提供给差计算单元83和差计算单元84。

例如，作为Cr的金字塔图像和Cb的金字塔图像，与亮度的金字塔图像的情况类似，相应地生成从等级L1到等级L7的七种分辨率的层级的金字塔图像。

差计算单元83和差计算单元84从来自金字塔图像生成单元81和金字塔图像生成单元82的多个金字塔图像之中选择层级彼此不同的两个金字塔图像，获得所选金字塔图像之间的差，并且生成Cr的差图像和Cb的差图像。

同时，由于每个层级的金字塔图像彼此具有不同的大小，因此当要生成差图像时，对较小的金字塔图像进行上转换，以具有与较大的金字塔图像相同的大小。

当差计算单元83和差计算单元84生成预定数目的Cr的差图像和预定数目的Cb的差图像时，它们将这些生成的差图像提供给加权加法单元85和加权加法单元86。

加权加法单元85和加权加法单元86执行从差计算单元83和差计算单元84供给的差图像的加权加法，产生Cr的颜色信息图和Cb的颜色信息图，并将它们分别提供给规范化单元87和规范化单元88。规范化单元87和规范化单元88分别使来自加权加法单元85和加权加法单元86的颜色信息图规范化，并将规范化后的颜色信息图提供给被摄对象图产生单元26。

[边缘信息提取单元的结构]

图6是图示了边缘信息提取单元23的结构的示例的方框图。

边缘信息提取单元23由边缘图像生成单元111至边缘图像生成单元114、金字塔图像生成单元115至金字塔图像生成单元118、差计算单元119至差计算单元122、加权加法单元123至加权加法单元126、和规范化单元127至规范化单元130构成。

边缘图像生成单元111至边缘图像生成单元114对供给的输入图像执行滤波处理，以生成其中在0°、40°、90°和135°方向上的边缘强度是像素的像素值的边缘图像，作为提取的信息图像。

例如，由边缘图像生成单元111生成的边缘图像的像素的像素值指示输入图像的在与边缘图像的像素的相同位置处的像素中的在0°方向上的边缘强度。同时，每个边缘的方向指的是通过利用输入图像中的预定方向作为基准所确定的方向。

边缘图像生成单元111至边缘图像生成单元114将生成的边缘图像分别提供给金字塔图像生成单元115至金字塔图像生成单元118。

金字塔图像生成单元115至金字塔图像生成单元118通过分别利用从边缘图像生成单元111至边缘图像生成单元114供给的边缘图像来生成分辨率彼此不同的多个边缘图像。然后，金字塔图像生成单元115至金字塔图像生成单元118分别将这些生成的每个方向上的边缘图像作为边缘的每个方向上的金字塔图像，提供给差计算单元119至差计算单元122。

例如，作为边缘的每个方向上的金字塔图像，与亮度的金字塔图像的情况类似，生成均具有从等级L1到等级L7的七个层级的金字塔图像。

差计算单元119至差计算单元122分别从来自金字塔图像生成单元115至金字塔图像生成单元118的多个金字塔图像之中选择层级彼此不同的两个金字塔图像，获得所选金字塔图像的差，并且生成边缘的每个方向上的差图像。

同时，每个层级的金字塔图像彼此具有不同的大小。因此，当要生成差图像时，对较小的金字塔图像进行上转换，以具有与较大的金字塔图像相同的大小。

当生成预定数目的边缘的每个方向上的差图像时，差计算单元119至差计算单元122将这些生成的差图像分别提供给加权加法单元123至加权加法单元126。

加权加法单元123至加权加法单元126分别对从差计算单元119至差计算单元122供给的差图像执行加权加法，产生每个方向上的边缘信息图，并分别将产生的每个方向上的边缘信息图提供给规范化单元127至规范化单元130。规范化单元127至规范化单元130分别将来自加权加法单元123至加权加法单元126的边缘信息图规范化，并将规范化后的边缘信息图提供给被摄对象图产生单元26。

[面部信息提取单元的结构]

图7是图示了面部信息提取单元24的结构的示例的方框图。

面部信息提取单元24由面部检测单元161、面部信息图产生单元162和规范化单元163构成。

面部检测单元161从供给的输入图像检测作为被摄对象的人物的面部区域，并将检测结果作为提取的信息图像提供给面部信息图产生单元162。面部信息图产生单元162基于来自面部检测单元161的检测结果产生面部信息图，并将面部信息图提供给规范化单元163。规范化单元163将从面部信息图产生单元162供给的面部信息图规范化，并将该面部信息图提供给被摄对象图产生单元26。

[运动信息提取单元的结构]

图8是图示了运动信息提取单元25的结构的示例的方框图。

运动信息提取单元25由局部运动矢量提取单元191、全局运动矢量提取单元192、差计算单元193和规范化单元194构成。

通过利用供给的输入图像、和图像捕获时间与该输入图像不同的另一输入图像，局部运动矢量提取单元191检测输入图像的每个像素的运动矢量作为局部运动矢量，并将运动矢量提供给差计算单元193。

通过利用供给的输入图像、和图像捕获时间与该输入图像不同的该另一输入图像，全局运动矢量提取单元192检测全局运动矢量，并将全局运动矢量提供给差计算单元193。该全局运动矢量指示整个输入图像的运动的方向，并且该全局运动矢量例如是输入图像的像素的运动矢量的平均值。

差计算单元193获得来自局部运动矢量提取单元191的局部运动矢量与来自全局运动矢量提取单元192的全局运动矢量之间的差的绝对值，以生成运动的差图像，并将该差图像提供给规范化单元194。

这里，运动的差图像中的像素的像素值是输入图像的在与运动的差图像中的像素的相同位置处的像素的局部运动矢量与整个输入图像的全局运动矢量之间的差的绝对值。因此，运动的差图像的像素的像素值指示关于在输入图像的像素中显示的对象体(或者背景)的整个输入图像的运动量，即，相对于背景的运动量。

规范化单元194通过将来自差计算单元193的运动的差图像规范化来产生运动信息图，并将运动信息图提供给被摄对象图产生单元26。同时，更详细地，在供给关于时间连续捕获的图像(例如连续捕获输入图像的图像)、或者运动图像作为输入图像的情况下，执行运动信息图的产生。

[被摄对象区域识别处理的说明]

顺便提及，当输入图像被提供给图像处理设备11时，图像处理设备11开始被摄对象区域识别处理，识别输入图像中的被摄对象的区域，并输出识别结果。下面将参照图9的流程图来说明被摄对象区域识别处理。

在步骤S11，亮度信息提取单元21执行亮度信息提取处理，以便基于供给的输入图像产生亮度信息图，并将亮度信息图提供给被摄对象图产生单元26。然后，在步骤S12，颜色信息提取单元22执行颜色信息提取处理，以便基于供给的输入图像产生颜色信息图，并将颜色信息图提供给被摄对象图产生单元26。

在步骤S13，边缘信息提取单元23执行边缘信息提取处理，以便基于供给的输入图像产生边缘信息图，并将边缘信息图提供给被摄对象图产生单元26。此外，在步骤S14，面部信息提取单元24执行面部信息提取处理，以便基于供给的输入图像产生面部信息图，并将面部信息图提供给被摄对象图产生单元26。此外，在步骤S15，运动信息提取单元25执行运动信息提取处理，以便基于供给的输入图像产生运动信息图，并将运动信息图提供给被摄对象图产生单元26。

同时，后面将描述亮度信息提取处理、颜色信息提取处理、边缘信息提取处理、面部信息提取处理和运动信息提取处理的细节。此外，更具体地，在关于时间连续拍摄的输入图像未提供给运动信息提取单元25的情况下，不执行运动信息提取处理。

在步骤S16，被摄对象图产生单元26执行从亮度信息提取单元21到运动信息提取单元25供给的亮度信息图到运动信息图的加权加法，以便产生被摄对象图，并将被摄对象图提供给被摄对象区域识别单元27。

例如，被摄对象图产生单元26通过利用信息加权Wb来执行每个信息图的线性组合，信息加权Wb是预先关于每个信息图获得的加权。即，当通过线性组合获得的信息图的预定像素被设为关注像素时，关注像素的像素值是通过使每个信息图的在与关注像素的相同位置处的像素的像素值乘以每个信息图的信息加权Wb而获得的值的总和。

接下来，被摄对象图产生单元26对通过线性组合获得的信息图(下面也称为线性组合信息图)的每个像素的像素值，执行利用S形函数的计算处理。

更具体地，被摄对象图产生单元26预先保存通过使S形函数形成为表格而获得的转换表。该转换表由所输入的预定值、和通过将所述值代入S形函数而获得的输出值形成。如果利用转换表来转换线性组合信息图，那么获得与利用S形函数转换线性组合信息图的情况类似的信息图。

例如，S形函数是在下面的表达式(1)中所示的双曲余弦函数(双曲正切函数)。

f(x)＝a×tanh(x×b) …(1)

同时，在表达式(1)中，a和b均表示预定常数，并且x表示要从现在转换的线性组合信息图的像素的像素值。

在这样的双曲余弦函数是S形函数的情况下，使转换表成为这样的表，即该表是通过将输入值x的范围限制为-2到2并且通过以1/128为单位使输入值x离散而获得的。在这样的转换表中，当输入值x小于-2时，输入值x被处理为-2，而当输入值x大于2时，输入值x被处理为2。此外，在转换表中，输入值x越大，输出值f(x)越大。

被摄对象图产生单元26通过将线性组合信息图的像素的像素值从像素x(输入值x)变成与像素值x对应的输出值f(x)，来转换线性组合信息图。即，被摄对象图产生单元26将通过利用转换表转换的线性组合信息图设为其中执行了利用S形函数的计算处理的线性组合信息图。

如上所述，与通过利用S形函数本身执行转换的情况相比，通过利用转换表转换线性组合信息图，能够更容易和更快地转换线性组合信息图。

此外，被摄对象图产生单元26将利用转换表转换的线性组合信息图的每个像素的像素值乘以被摄对象加权Wc(其是预先关于每个像素获得的加权)，以形成被摄对象图。

即，当要获得的被摄对象图中的被注意的像素被设为关注像素时，通过使在与已转换的线性组合信息图的关注像素的相同位置处的像素的像素值乘以被摄对象加权Wc而获得的值被设为关注像素的像素值。

同时，更具体地，作为用于产生被摄对象图的颜色信息图，使用Cr的颜色信息图和Cb的颜色信息图，并且作为边缘信息图，使用在0°、45°、90°和135°方向的每个方向上的边缘信息图。此外，通过学习预先获得了信息加权Wb和被摄对象加权Wc。

当按照上述方式产生被摄对象图时，从被摄对象图产生单元26将被摄对象图提供给被摄对象区域识别单元27，然后处理进行到步骤S17。

在步骤S17，被摄对象区域识别单元27通过利用从被摄对象图产生单元26供给的被摄对象图来识别供给的输入图像中的被摄对象的区域。

例如，被摄对象图中的像素的像素值越大，则认为输入图像中的在与该像素的相同位置处的像素的区域更可能是被摄对象的区域。这种情况下，被摄对象区域识别单元27检测以下区域：该区域在被摄对象图中具有大于或等于预定阈值的像素值、由彼此相邻的像素构成、并且具有预定面积(像素数)或更大面积，并且输入图像中的与检测到的区域对应的区域是包含被摄对象的区域。

当被摄对象区域识别单元27检测输入图像的包含被摄对象的区域时，被摄对象区域识别单元27将检测结果输出给下一级，并且完成被摄对象区域识别处理。

按照上述方式获得的被摄对象的区域的检测结果被用于各种处理，诸如在输入图像的被摄对象的区域中执行的预定图像处理。此外，被摄对象的区域的识别结果可被用于以下图像处理：当输入图像被显示为幻灯片时，将输入图像的被摄对象的区域显示在屏幕中央。

同时，通过利用被摄对象的区域的检测结果，被摄对象区域识别单元27可对输入图像执行预定处理，并输出图像。

如上所述，图像处理设备11从输入图像产生被摄对象图，并通过利用被摄对象图来识别输入图像中的被摄对象的区域。

[亮度信息提取处理的说明]

接下来，将说明对应于图9的步骤S11至S15的各个处理的处理。

首先，下面参照图10的流程图来说明与图9的步骤S11的处理对应的亮度信息提取处理。

在步骤S41，基于由供给的输入图像的Y(亮度)分量构成的亮度图像，金字塔图像生成单元51生成从等级L1到等级L7的每个层级的金字塔图像，并将这些金字塔图像提供给差计算单元52。

在现有技术的视觉注意中，生成八个层级的金字塔图像。在图像处理设备11中，由于生成七个层级的金字塔图像，所以所生成的金字塔图像的数目减少一个。因此，与现有技术相比，能够更容易和更快地获得亮度信息图。

同时，即使将金字塔图像的层级数设为7，申请人已证实不会对利用被摄对象图的被摄对象的区域的识别准确度有影响。根据图像处理设备11，能够更快地获得被摄对象图，而不降低被摄对象的区域的识别准确度。

此外，在现有技术的视觉注意中，通过获得输入图像的每个R、G和B分量的平均值，生成亮度图像。相比之下，在图像处理设备11中，通过直接利用输入图像的Y(亮度)分量作为亮度图像，能够更容易和更快地获得亮度图像。另外，结果是，不必设置用于生成亮度图像的电路，并能够减小图像处理设备11的大小。

在步骤S42，差计算单元52通过利用从金字塔图像生成单元51供给的金字塔图像来生成差图像，并将差图像提供给加权加法单元53。

更具体地，差计算单元52获得每个层级的亮度的金字塔图像之中的等级L2与等级L5、等级L2与等级L6、等级L3与等级L6、等级L3与等级L7、和等级L4与等级L7的层级组合的金字塔图像之间的差。结果，获得总共5个亮度的差图像。

例如，在生成等级L2与等级L5的组合的差图像的情况下，根据等级L2的金字塔图像的大小，对等级L5的金字塔图像进行上转换。

即，在上转换之前的等级L5的金字塔图像的一个像素的像素值被设为与该一个像素对应的、在上转换之后的等级L5的金字塔图像的几个彼此相邻的像素的像素值。然后，获得等级L5的金字塔图像的像素的像素值与等级L2的金字塔图像的在与等级L5的金字塔图像的该像素的相同位置处的像素的像素值之间的差，并且该差被设为差图像的像素的像素值。

用于生成这些差图像的处理等同于对亮度图像执行的利用带通滤波器的滤波处理并从亮度图像提取特定频率分量的处理。按照上述方式获得的差图像的像素的像素值指示每个等级的金字塔图像的像素值之间的差，即，输入图像中的预定像素中的亮度与该像素的周围区域中的平均亮度之间的差。

通常，图像中的与周围区域具有较大亮度差的区域是吸引观看图像的人物的注意力的区域。从而，该区域成为被摄对象的区域的概率高。因此，可以认为在每个差图像中具有大的像素值的像素是成为被摄对象的区域的概率高的区域。

在步骤S43，加权加法单元53基于从差计算单元52供给的差图像来产生亮度信息图，并将亮度信息图提供给规范化单元54。

例如，加权加法单元53通过利用作为预先获得的每个差图像的加权的差加权Wa，执行五个供给的差图像的加权加法，以产生亮度信息图。即，使在与每个差图像的相同位置处的像素的每个像素值乘以差加权Wa，并且获得乘以差加权Wa的像素值的总和。

同时，当要产生亮度信息图时，执行对差图像的上转换，使得差图像具有相同的大小。此外，假定差加权Wa是预先通过学习而获得的。

接下来，加权加法单元53通过利用与被摄对象图产生单元26所保存的转换表相同的转换表，来转换所获得的亮度信息图的像素的像素值，并将这样获得的亮度信息图提供给规范化单元54。

另外，在加权加法单元53中，通过利用转换表来转换亮度信息图，能够更容易和更快地执行转换。

在步骤S44，规范化单元54使来自加权加法单元53的亮度信息图规范化，并将这样获得的亮度信息图作为最终的亮度信息图提供给被摄对象图产生单元26。然后，在输出亮度信息图时，完成亮度信息提取处理。之后，处理进行到图9的步骤S12。

例如，首先，规范化单元54将亮度信息图线性规范化。例如，当亮度信息图的像素值的范围是0到200的范围时，通过线性规范化使像素值的范围成为0到255的范围。

接下来，规范化单元54获得已被线性规范化的亮度信息图的像素的像素值的平均值。即，将亮度信息图的所有像素的像素值的总值除以亮度信息图的像素数，以获得平均值。

此外，规范化单元54将通过从线性规范化的亮度信息图的每个像素的像素值减去获得的平均值而得到的值设为最终的亮度信息图的像素的像素值。

同时，更具体地，关于通过从像素值减去平均值而获得的值为负值(小于0的值)的亮度信息图的像素，像素的像素值被设为0。即，在线性规范化的亮度信息图的像素之中的其像素值小于或等于平均值的像素的最终像素值被设为0。

这里，包含在亮度信息图中的噪声的大部分数值都小于或等于亮度信息图的每个像素的平均值。从而，通过从每个像素的像素值减去平均值，从亮度信息图可靠地去除噪声。其原因在于噪声部分的像素的像素值被设为0。此外，在线性规范化的亮度信息图中，在多数情况下，在与输入图像中的被摄对象的区域相同位置处的像素的像素值大于平均值。从而，即使从亮度信息图的像素值减去平均值并进行规范化，也不会降低被摄对象的检测准确度。

如上所述，通过对亮度信息图进行线性规范化并通过从线性规范化后的亮度信息图的像素值减去平均值，能够更容易和更快地将亮度信息图规范化。具体地，根据亮度信息提取处理单元21，能够利用线性规范化以及简单的平均值计算和减法处理，来获得大致与使用DOG滤波器的情况相同程度的噪声去除效果。

即，目前为止，信息图的规范化是通过利用DOG滤波器的滤波处理执行的。这种滤波处理涉及大量的处理，并且不能快速地执行规范化。相比之下，规范化单元54能够利用比使用DOG滤波器的情况更简单的处理，更快地使亮度信息图规范化。此外，规范化使得能够更可靠地从亮度信息图中去除噪声，并且不会降低被摄对象的区域的检测准确度。

如上所述，亮度信息提取单元21从输入图像产生亮度信息图。根据以上述方式获得的亮度信息图，能够容易地检测输入图像中的亮度差较大的区域，即，可由瞥一眼输入图像的观察者容易地识别的区域。

[颜色信息提取处理的说明]

接下来，下面将参照图11的流程图来说明由图9的步骤S12的处理进行的颜色信息提取处理。

在步骤S71，金字塔图像生成单元81和金字塔图像生成单元82基于由供给的输入图像的色差分量构成的Cr图像和Cb图像来生成等级L1 到等级L7的层级中的金字塔图像。即，执行与参照图3和4说明的处理相同的处理，并且生成Cr的金字塔图像和Cb的金字塔图像。

金字塔图像生成单元81和金字塔图像生成单元82将生成的金字塔图像分别提供给差计算单元83和差计算单元84。

如上所述，另外，在颜色信息提取单元22中，与亮度信息提取单元21的情况类似，由于生成七个层级的金字塔图像就足够了，因此能够比现有技术更容易和更快地获得颜色信息图。

此外，在现有技术的视觉注意中，提取输入图像的像素的R分量与G分量之间的差、以及输入图像的像素的B分量与Y(黄色)分量之间的差作为颜色信息。从而，需要用于获得这些差的处理。

相比之下，在图像处理设备11中，通过直接将输入图像的色差分量设为Cr图像和Cb图像，能够更容易和更快地获得关于颜色的提取信息图像。此外，结果是，不必设置用于获得差的电路，从而使得能够减小图像处理设备11的大小。

在步骤S72，差计算单元83和差计算单元84分别基于从金字塔图像生成单元81和金字塔图像生成单元82供给的金字塔图像生成差图像，并分别将差图像提供给加权加法单元85和加权加法单元86。

例如，差计算单元83获得层级的Cr的金字塔图像之中的等级L2与等级L5、等级L2与等级L6、等级L3与等级L6、等级L3与等级L7、和等级L4与等级L7的组合的金字塔图像之间的差。结果，获得总共5个Cr的差图像。同时，当要生成差图像时，根据具有较大像素数的金字塔图像，对具有较小像素数的金字塔图像进行上转换。

此外，差计算单元84通过执行与差计算单元83相同的处理来生成总共5个Cb的差图像。

生成这些差图像的处理等同于对Cr图像或Cb图像执行利用带通滤波器的滤波处理以从Cr图像或Cb图像提取预定频率分量的处理。按照上述方式获得的差图像的像素的像素值指示等级的金字塔图像之间的差，即，输入图像的像素中的特定颜色的分量与该像素的周围区域中的平均特定颜色的分量之间的差。

通常，图像中的具有比周围区域更明显的颜色的区域，即，与特定颜色分量的周围区域具有较大差异的区域是吸引观看图像的人物的注意力的区域。从而，该区域成为被摄对象的区域的概率高。因此，可认为在每个差图像中的具有更大像素值的像素指示该区域更可能是被摄对象的区域。

在步骤S73，基于从差计算单元83和差计算单元84供给的差图像，加权加法单元85和加权加法单元86生成Cr的颜色信息图和Cb的颜色信息图，并将它们分别提供给规范化单元87和规范化单元88。

例如，加权加法单元85通过利用预先获得的每个差图像的差加权Wa来执行从差计算单元83供给的Cr的差图像的加权加法，从而形成Cr的一个颜色信息图。接下来，加权加法单元85通过利用与被摄对象图产生单元26所保存的转换表相同的转换表，来转换获得的Cr的颜色信息图的像素的像素值，并将这样获得的颜色信息图提供给规范化单元87。

类似地，加权加法单元86通过利用预先获得的差加权Wa来执行从差计算单元84提供的Cb的差图像的加权加法以形成Cb的一个颜色信息图，通过利用转换表来转换Cb的颜色信息图，并将转换后的颜色信息图提供给规范化单元88。

另外，在加权加法单元85和加权加法单元86中，通过利用转换表来转换颜色信息图，能够更容易和更快地执行转换。同时，当要产生颜色信息图时，对差图像进行上转换，使得差图像具有相同的大小。

在步骤S74，规范化单元87和规范化单元88分别使来自加权加法单元85和加权加法单元86的颜色信息图规范化，并将这样获得的颜色信息图作为最终的颜色信息图，提供给被摄对象图产生单元26。例如，规范化单元87和规范化单元88执行与图10的步骤S44的处理相同的处理，以使Cr的颜色信息图和Cb的颜色信息图规范化。

然后，当输出颜色信息图时，完成颜色信息提取处理，之后处理进行到图9的步骤S13。

如上所述，通过使颜色信息图规范化和从线性规范化后的颜色信息图的像素值减去平均值，能够更容易和更快地使颜色信息图规范化。

按照上述方式，颜色信息提取单元22从输入图像提取特定颜色的分量的图像，并从该图像产生颜色信息图。根据以上述方式获得的颜色信息图，能够容易地检测输入图像中具有比周围区域的特定颜色的更大分量的区域，即，可由瞥一眼输入图像的观察者容易地识别的区域。

同时，在颜色信息提取单元22中，提取Cr和Cb分量作为关于从输入图像提取的颜色的信息。然而，可以提取R(红色)分量与G(绿色) 分量之间的差以及B(蓝色)分量与Y(黄色)分量之间的差。

[边缘信息提取处理的说明]

接下来，下面将参照图12的流程图来说明对应于图9的步骤S13的处理的边缘信息提取处理。

在步骤S111，基于供给的输入图像，边缘图像生成单元111至边缘图像生成单元114生成其中在0°、45°、90°和135°方向上的边缘强度是像素的像素值的边缘图像。

例如，边缘图像生成单元111至边缘图像生成单元114预先保存图13所示的滤波器，并利用这些滤波器生成边缘图像，作为提取的信息图像。在图13的示例中，滤波器1、滤波器2、滤波器45和滤波器135的每一个是一个滤波器。

滤波器1中的数值“-1、-2、-1、2、4、2、-1、-2、-1”指示乘以输入图像的像素的系数。

这里，输入图像中的预定方向(例如图4中的水平方向)将被称为x方向，并且垂直于x方向的方向(即图4中的垂直方向)将称为y方向。

这种情况下，在利用滤波器1的滤波处理中，在x方向上连续排列的9个像素的像素值分别乘以系数“-1”、“-2”、“-1”、“2”、“4”、“2”、“-1”、“-2”和“-1”，并将乘以系数的像素值的和除以“16”。然后，使这样获得的值是以下像素值：该像素值是通过对在连续排列的9个像素的中心的像素执行利用滤波器1的滤波处理而获得的。

在图13中，以与乘以这些系数的像素的排列相同的排列对滤波器1的系数进行设置。因此，例如，系数“-1”乘以位于在x方向上排列的像素的两端处的像素，并且在x方向上排列的像素之中的位于中心的像素乘以系数“4”。

同时，在图13中，以与乘以这些系数的像素的排列相同的排列对其它滤波器的系数进行设置。

此外，在利用滤波器2的滤波处理中，在x方向上连续排列的8个像素的像素值分别乘以系数“1”、“3”、“3”、“1”、“1”、“3”、“3”和“1”，并将乘以系数的像素值的和除以“16”。然后，使这样获得的值是以下像素值：该像素值是通过对在连续排列的8个像素的中心的像素(更具体地，结果是，图中乘以第四或第五系数“1”的像素)执行利用滤波器2的滤波处理而获得的。

在利用滤波器45的滤波处理中，使用在由总共9个像素(在x方向上的3个像素和在y方向上的3个像素)构成的区域内的像素。这些像素的像素值乘以系数“0”、“1”、“2”、“-1”、“0”、“1”、“-2”、“-1”和“0”。然后，将乘以系数的像素的像素值的和除以“8”，并使这样获得的值是以下像素值：该像素值是通过对位于对其执行处理的区域的中心的像素执行利用滤波器45的滤波处理而获得的。因此，例如，位于要处理的目标区域的中心的像素乘以系数“0”，并且图中的与该像素的左侧相邻的像素乘以系数“-1”。

此外，在利用滤波器135的滤波处理中，使用在由总共9个像素(在x方向上的3个像素和在y方向上的3个像素)构成的区域内的像素。这些像素的像素值分别乘以系数“2”、“1”、“0”、“1”、“0”、“-1”、“0”、“-1”和“-2”。然后，将乘以系数的像素的像素值的和除以“8”，并且使这样获得的值是以下像素值：该像素值是通过对位于要处理的目标区域的中心的像素执行利用滤波器135的滤波处理而获得的。

例如，边缘图像生成单元111对输入图像执行利用滤波器1的滤波处理，并将通过对这样获得的图像执行利用滤波器2的滤波处理而获得的图像设为在0°方向上的边缘图像。此外，边缘图像生成单元112将通过对输入图像执行利用滤波器45的滤波处理而获得的图像设为在45°方向上的边缘图像。

边缘图像生成单元113对输入图像执行利用滤波器2的滤波处理，并将通过进一步对这样获得的图像执行利用滤波器1的滤波处理而获得的图像设为在90°方向上的边缘图像。此外，边缘图像生成单元114将通过对输入图像执行利用滤波器135的滤波处理而获得的图像设为在135°方向上的边缘图像。

如上所述，边缘图像生成单元111至边缘图像生成单元114通过利用预先保存的滤波器1、滤波器2、滤波器45和滤波器135中的至少一个来生成在每个方向上的边缘图像。这些滤波器是通过近似Gabor滤波器而获得的、并具有与Gabor滤波器相近的特性的滤波器。

因此，通过利用这些滤波器，获得与在利用Gabor滤波器的情况类似的在每个方向上的边缘图像。此外，利用这些滤波器的滤波处理是利用预定系数的加权加法的计算，并且滤波处理不需要诸如指数计算的复杂计算。

在现有技术的视觉注意中，使用Gabor滤波器来获得边缘图像。然而，在图像处理设备11中，通过组合滤波器1、滤波器2、滤波器45和滤波器135来执行滤波处理，能够更容易和更快地获得边缘图像。

同时，用于生成边缘图像的滤波器并不局限于图13所示的示例，并且可以使用其中结合Sobel滤波器和Roberts滤波器的滤波器。在这种情况下，例如，使用图14所示的滤波器。

在图14的示例中，使滤波器0、滤波器90、滤波器45和滤波器135均是一个滤波器。同时，在图14中，以与乘以这些系数的输入图像的像素的排列相同的排列对滤波器的系数进行设置。

滤波器0中的数值“1、2、1、0、0、0、-1、-2和-1”表示乘以输入图像的像素的系数。在利用滤波器0的滤波处理中，使用由总共9个像素(即，在x方向上的3个像素和在y方向上的3个像素)构成的区域中的像素，并且系数“1”、“2”、“1”、“0”、“0”、“0”、“-1”、“-2”和“-1”乘以这些像素的像素值。然后，将乘以系数的像素的像素值的和除以“8”，并且使这样获得的值是以下像素值：该像素值是通过对位于要处理的目标区域的中心的像素执行利用滤波器0的滤波处理而获得的。因此，例如，使位于要处理的目标区域的中心的像素乘以系数“0”，并使与该像素的图中的上侧相邻的像素乘以系数“2”。

类似地，在利用滤波器90的滤波处理中，使用由总共9个像素(即，在x方向上的3个像素和在y方向上的3个像素)构成的区域中的像素。使这些像素的像素值分别乘以系数“1”、“0”、“-1”、“2”、“0”、“-2”、“1”、“0”和“-1”。然后，将乘以系数的像素的像素值的和除以“8”，并且使这样获得的值是以下像素值：该像素值是通过对位于要处理的目标区域的中心的像素执行利用滤波器90的滤波处理而获得的。

此外，在利用滤波器45的滤波处理中，使用由总共4个像素(即，在x方向上的2个像素和在y方向上的2个像素)构成的区域中的像素，并且使这些像素的像素值分别乘以系数“0”、“1”、“-1”和“0”。然后，将乘以系数的像素的像素值的和除以“2”，并且使这样获得的值是以下像素值：该像素值是通过对位于要处理的目标区域的中心的像素(更具体地，乘以左上方的系数“0”的像素)执行利用滤波器45的滤波处理而获得的。

此外，在利用滤波器135的滤波处理中，使用由总共4个像素(即，在x方向上的2个像素和在y方向上的2个像素)构成的区域中的像素，并且使这些像素的像素值分别乘以系数“1”、“0”、“0”和“-1”。然后，将乘以系数的像素的像素值的和除以“2”，并使这样获得的值是以下像素值：该像素值是通过对位于要处理的目标区域的中心的像素(更具体地，乘以左上方的系数“1”的像素)执行利用滤波器135的滤波处理而获得。

例如，边缘图像生成单元111至边缘图像生成单元114分别对输入图像执行利用滤波器0、滤波器45、滤波器90和滤波器135的滤波处理，并使这样获得的图像为在0°、45°、90°和135°方向上的边缘图像。

如上所述，在图14的示例的情况下，滤波处理同样不需要复杂的计算处理，诸如指数计算。从而，能够更容易和更快地获得边缘图像。

返回参照图12的流程图的说明，当边缘图像生成单元111至边缘图像生成单元114生成在每个方向上的边缘图像时，它们将生成的边缘图像分别提供给金字塔图像生成单元115至金字塔图像生成单元118。

在步骤S112，基于来自边缘图像生成单元111至边缘图像生成单元114的边缘图像，金字塔图像生成单元115至金字塔图像生成单元118生成金字塔图像，并将它们分别提供给差计算单元119至差计算单元122。

即，执行与参照图3和4说明的处理相同的处理，关于在每个方向上的边缘图像生成等级L1到等级L7的层级的金字塔图像。另外，在边缘信息提取单元23中，与亮度信息提取单元21的情况类似，生成七个层级的金字塔图像就足够了。从而，能够比现有技术更容易和更快地获得边缘信息图。

在步骤S113，基于从金字塔图像生成单元115至金字塔图像生成单元118供给的金字塔图像，差计算单元119至差计算单元122生成差图像，并将它们分别提供给加权加法单元123至加权加法单元126。

例如，差计算单元119获得每个层级的在0°方向上的金字塔图像之中的等级L2与等级L5、等级L2与等级L6、等级L3与等级L6、等级L3与等级L7、和等级L4与等级L7的层级的组合的金字塔图像中的差。结果，获得总共5个差图像。同时，当要生成差图像时，根据像素数较大的金字塔图像，对像素数较小的金字塔图像进行上转换。

此外，差计算单元120至差计算单元122执行与差计算单元119相同的处理，以生成总共5个差图像。

生成这些差图像的处理等同于对边缘图像执行利用带通滤波器的滤波处理以从边缘图像提取预定频率分量的处理。按照上述方式获得的差图像的像素的像素值指示每个等级的金字塔图像的边缘强度之差，即，在输入图像的预定位置处的边缘强度与在该位置的周围区域中的平均边缘强度的差。

通常，图像中的具有比周围区域更大的边缘强度的区域是吸引观看图像的人物的注意力的区域。从而，该区域成为被摄对象的区域的概率高。因此，在每个差图像中，可以认为像素值较大的像素指示成为被摄对象的区域的概率较高的区域。

在步骤S114，基于从差计算单元119至差计算单元122供给的差图像，加权加法单元123至加权加法单元126产生在0°、45°、90°和135°方向上的边缘信息图。

例如，加权加法单元123通过利用预先获得的每个差图像的差加权Wa执行从差计算单元119供给的在0°方向上的差图像的加权加法，以形成一个在0°方向上的边缘信息图。接下来，加权加法单元123通过利用与被摄对象图产生单元26所保存的转换表相同的转换表，来转换获得的在0°方向上的边缘信息图的像素的像素值，并将这样获得的边缘信息图提供给规范化单元127。

类似地，加权加法单元124至加权加法单元126通过利用预先获得的差加权Wa执行从差计算单元120至差计算单元122供给的每个方向的差图像的加权加法，以形成一个边缘信息图。然后，加权加法单元124至加权加法单元126通过利用转换表来转换获得的边缘信息图，并将其提供给规范化单元128至规范化单元130。

另外，在加权加法单元123至加权加法单元126中，通过利用转换表转换边缘信息图，能够更容易和更快地执行转换。同时，当要产生边缘信息图时，执行对差图像的上转换，使得差图像具有相同的大小。

在步骤S115，规范化单元127至规范化单元130使来自加权加法单元123至加权加法单元126的边缘信息图规范化，并将这样获得的最终的边缘信息图提供给被摄对象图产生单元26。例如，规范化单元127至规范化单元130执行与图10的步骤S44的处理相同的处理，以使在每个方向上的边缘信息图规范化。

然后，当输出边缘信息图时，完成边缘信息提取处理，之后处理进行到图9的步骤S14。

如上所述，通过使边缘信息图线性规范化并通过从线性规范化后的边缘信息图减去像素值的平均值，能够更容易和更快地使边缘信息图规范化。

按照上述方式，边缘信息提取单元23从输入图像获得特定方向的方向上的边缘的差图像，并从差图像产生边缘信息图。根据以上述方式获得的每个方向的边缘信息图，能够容易地检测输入图像中比周围区域具有在特定方向的方向上较大边缘强度的区域，即，可容易地由瞥一眼输入图像的观察者识别的区域。

[面部信息提取处理的说明]

接下来，下面将参照图15的流程图来说明对应于图9的步骤S14的处理的面部信息提取处理。

在步骤S141，面部检测单元161从供给的输入图像检测人物的面部的区域，并将检测结果提供给面部信息图产生单元162。例如，面部检测单元161对输入图像执行利用Gabor滤波器的滤波处理，并通过从输入图像提取诸如如眼睛、嘴巴、鼻子等的特征区域来检测输入图像中的面部的区域。

在步骤S142，面部信息图产生单元162通过利用来自面部检测单元161的检测结果来产生面部信息图，并将面部信息图提供给规范化单元163。

例如，假定作为来自输入图像的面部的检测结果，检测到输入图像中的推测包含有面部的多个矩形区域(下面称为候选区域)。这里，还假定在输入图像中的预定位置附近检测到多个候选区域，并且这些候选区域的部分可彼此重叠。即，例如，在关于输入图像中的一个面部的区域获得包含面部的多个区域作为候选区域的情况下，这些候选区域的部分彼此重叠。

面部信息图产生单元162关于通过检测面部而获得的候选区域，针对每个候选区域生成具有与输入图像相同大小的检测图像。该检测图像被形成，其方式为使得检测图像中的与要处理的候选区域的相同区域中的像素的像素值是大于在不同于候选区域的区域中的像素的像素值的值。

此外，检测图像中的像素的像素值越大，则在与推测包含人物的面部的概率较高的候选区域的相同位置处的像素的像素值越大。面部信息图产生单元162将按照上述方式获得的检测图像相加以生成一个图像，从而形成面部信息图。因此，在面部信息图中，在与同输入图像中的多个候选区域的部分重叠的区域相同的区域中的像素的像素值增大，并且包含面部的概率是高的。

在步骤S143，规范化单元163使从面部信息图产生单元162供给的面部信息图规范化，并将这样获得的面部信息图作为最终的面部信息图，提供给被摄对象图产生单元26。例如，规范化单元163执行与图10的步骤S44的处理相同的处理，以使面部信息图规范化。

然后，当输出面部信息图时，完成面部信息提取处理，之后，处理进行到图9的步骤S15。

按照上述方式，面部信息提取单元24从输入图像中检测面部，并从检测结果产生面部信息图。按照以上述方式获得的面部信息图，能够容易地检测作为被摄对象的人物的面部的区域。

[运动信息提取处理的说明]

此外，下面将参照图16的流程图来说明对应于图9的步骤S15的处理的运动信息提取处理。

在步骤S171，局部运动矢量提取单元191通过利用供给的输入图像，用梯度方法等检测输入图像的每个像素的局部运动矢量，并将局部运动矢量提供给差计算单元193。

在步骤S172，全局运动矢量提取单元192通过利用供给的输入图像来检测全局运动矢量，并将全局运动矢量提供给差计算单元193。

在步骤S173，差计算单元193获得来自局部运动矢量提取单元191的局部运动矢量与来自全局运动矢量提取单元192的全局运动矢量之间的差的绝对值，以生成运动的差图像。然后，差计算单元193将生成的运动的差图像提供给规范化单元194。

在步骤S174，规范化单元194通过使从差计算单元193供给的差图像规范化来产生运动信息图，并将这样获得的运动信息图作为最终的运动信息图，提供给被摄对象图产生单元26。例如，规范化单元194执行与图10的步骤S44的处理相同的处理，以使运动信息图规范化。

然后，当输出运动信息图时，完成运动信息提取处理，之后，处理进行到图9的步骤S16。

按照上述方式，运动信息提取单元25从输入图像检测运动，并从检测结果产生运动信息图。在输入图像中，运动中的对象体的区域是可容易地由瞥一眼输入图像的观察者识别的并具有成为被摄对象的高概率的区域。

根据前面描述的亮度信息提取处理到运动信息提取处理，获得信息图，并基于这些信息图产生被摄对象图。

按照上述方式，通过在每个信息图的规范化中使信息图线性规范化并并从线性规范化之后的信息图的像素值减去平均值，能够更容易和更快地使信息图规范化。结果，能够更容易和更快地获得用于识别图像中的被摄对象的区域的信息图。此外，当要使信息图规范化时，通过从信息图的像素值减去平均值，能够利用简单的处理更可靠地去除噪声。

[加权的学习]

顺便提及，在图像处理设备11中，从输入图像提取推测具有被摄对象的多个区域的多个信息项，并通过利用这些信息项来产生被摄对象图，更可靠地从输入图像检测被摄对象的区域。推测的吸引瞥一眼输入图像的观察者的注意力的区域越多，输入图像中的被摄对象图的像素值越大。从而，在不局限于被摄对象是人物的情况下，即使被摄对象是诸如动物、植物或建筑物的普通对象，也能够检测被摄对象。

从输入图像提取诸如亮度、颜色、边缘、面部和运动的信息，以产生这样的被摄对象图。即，使从这些提取信息的金字塔图像得到的差图像通过进行利用差加权Wa的加权加法而成为信息图，并使这些信息图进行利用信息加权Wb的加权加法。然后，此外，使这样获得的图像(图)乘以被摄对象加权Wc，从而形成为被摄对象图。

当产生被摄对象图时使用的差加权Wa、信息加权Wb和被摄对象加权Wc是通过利用例如神经网络的学习获得的。如果使用包含普通被摄对象的图像，作为在这些加权的学习期间使用的学习图像，而不局限于人物，那么利用通过学习获得的加权产生的被摄对象图使得能够更可靠地从输入图像检测普通被摄对象。

下面将说明用于产生被摄对象图的差加权Wa、信息加权Wb和被摄对象加权Wc的学习。

在学习期间，如图17所示，使用包含被摄对象的学习图像、以及设有初始值的差加权Wa、信息加权Wb和被摄对象加权Wc，以产生被摄对象图。

更具体地，当要产生被摄对象图时，生成从预先准备的学习图像提取的每个信息项的差图像An(m)(其中1≤n≤N、1≤m≤6)。这里，差图像An(1)至差图像An(6)是关于从学习图像提取的一个信息项的差图像。

例如，使差图像A1(1)至差图像A1(6)为通过利用从学习图像获得的亮度的金字塔图像而生成的亮度的差图像。此外，例如，使差图像AN(1)至差图像AN(6)为通过利用从学习图像获得的在0°方向上的边缘的金字塔图像而生成的在0°方向上的差图像。

同时，在图17中，示出了针对从学习图像提取的每个信息获得的6个差图像的示例。然而，差图像的数目可以是任何数目。例如，在图像处理设备11的示例中，差图像的数目被设为5。

当从学习图像获得每个信息的差图像An(m)时，基于这些差图像和每个差图像的差加权Wa，产生信息图。同时，下面还将与差图像An(m)相乘的差加权Wa称为差加权Wan(m)。

例如，使差图像A1(1)至差图像A1(6)进行利用每个差图像的差加权Wa1(1)至差加权Wa1(6)的加权加法，并形成为信息图B1_in。此外，对信息图B1_in执行利用上述表达式(1)(即，S形函数f(x))的计算，结果，获得信息图B1_out。

即，使通过将信息图B1_in的像素的像素值x代入表达式(1)而获得的值f(x)成为信息图B1_out的在与该像素的相同位置处的像素的像素值。按照上述方式获得的信息图B1_out对应于在图像处理设备11中产生的信息图，诸如亮度信息图。

同时，S形函数f(x)并不局限于双曲余弦函数，而可以是任何函数。例如，在理想模型中，f(x)是以下函数：当x≥0时，该函数输出值“1”，并且当x＜0时，该函数输出值“-1”。

如上所述，当获得N个信息图B1_out至BN_out时，使其信息图Bn_out(其中1≤n≤N)进行过利用每个信息图的信息加权Wb的加权加法，从而形成为被摄对象图C_in。然后，对该被摄对象图C_in执行利用S形函数f(x)的计算。结果，获得被摄对象图C_out。此外，使该被摄对象图C_out乘以被摄对象加权Wc以被规范化，从而形成为最终的被摄对象图。

同时，更具体地，当要产生被摄对象图C_in时，使用在不生成差图像的情况下获得的信息图，例如，诸如面部信息图的信息图，以执行加权加法。此外，下面还将乘以信息图Bn_out的信息加权Wb称为信息加权Wbn。

按照上述方式，在学习期间产生被摄对象图的处理被称为正向传播。当产生被摄对象图时，接下来，如图18所示，执行称为反向传播的处理，并更新差加权Wa、信息加权Wb和被摄对象加权Wc。在称为反向传播的处理中，使用产生的被摄对象图和图像标记以获得加权的差，所述图像标记是关于学习图像预先准备的、指示学习图像中的被摄对象的区域的信息，所述加权的差是每个加权应增大/减小的值。

这里，图像标记是具有与学习图像相同大小的图像，并且是这样的图像，其中，在与学习图像中的被摄对象的区域的像素的相同位置处的像素的像素值被设为1，并且在与学习图像中没有被摄对象的区域的像素的相同位置处的像素的像素值被设为0。

在反向传播中，获得被摄对象图与图像标记之间的差，并且这样获得的图像被设为评价图。然后，基于评价图和被摄对象图C_in，根据下面的表达式(2)获得被摄对象加权差ΔWc，被摄对象加权差ΔWc是被摄对象加权Wc应被改变的量。

ΔWc＝η×C_in×ΔC …(2)

在表达式(2)中，η表示作为预定常数的学习速度，并且C_in表示被摄对象图C_in。同时，更具体地，表达式(2)中的C_in是被摄对象图C_in的一个像素的像素值，并且针对每个像素获得被摄对象加权差ΔWc。此外，ΔC是被摄对象图的差，并且是根据下面的表达式(3)获得的。

ΔC＝EV×f′(C_in) …(3)

在表达式(3)中，EV表示评价图，并且f′(C_in)是通过将被摄对象图C_in代入通过求S形函数f(x)的导数得到的函数而获得的值。更具体地，通过求函数f(x)的导数而得到的函数f′(x)是在下面的表达式(4)中所示的函数。

f′(x)＝a×b×sech(x×b)² …(4)

当按照上述方式获得被摄对象加权差ΔWc时，将被摄对象加权差ΔWc加到目前为止的被摄对象加权Wc中并进行更新，从而获得新的被摄对象加权Wc。

接下来，通过利用更新的被摄对象加权Wc、和当产生被摄对象图时产生的信息图Bn_in，根据下面的表达式(5)获得信息加权差ΔWbn，信息加权差ΔWbn是信息加权Wbn应被改变的量。

ΔWbn＝η×Bn_in×ΔBn …(5)

在表达式(5)中，η表示作为预定常数的学习速度，并且Bn_in表示信息图Bn_in。同时，更具体地，表达式(5)中的Bn_in是信息图Bn_in的一个像素的像素值，并且针对每个像素获得信息加权差ΔWbn。此外，ΔBn是信息图的差，并且是根据下面的表达式(6)获得的。

ΔBn＝ΔC×f′(Bn_in)×Wc …(6)

在表达式(6)中，ΔC表示通过计算上述表达式(3)而获得的值，并且f′(Bn_in)是通过将信息图Bn_in代入通过求S形函数f(x)的导数得到的函数而获得的值。此外，Wc是更新的被摄对象加权Wc。

按照上述方式，当获得信息图Bn_in的信息加权差ΔWbn时，将信息加权差ΔWbn加到信息图Bn_in的信息加权Wbn中并进行更新，从而获得新的信息加权Wbn。

此外，使用更新的信息加权Wbn、和当产生被摄对象图时生成的差图像An(m)，以根据下面的表达式(7)获得差加权的差ΔWan(m)，差加权的差ΔWan(m)是差加权Wa应被改变的量。

ΔWan(m)＝η×An(m)×ΔAn(m) …(7)

在表达式(7)中，η表示作为预定常数的学习速度，并且An(m)表示差图像An(m)。同时，更具体地，表达式(7)中的An(m)是差图像An(m)的一个像素的像素值，并且针对每个像素获得差ΔWan(m)。此外，ΔAn(m)是差图像的差，并且是根据下面的表达式(8)获得的。

ΔAn(m)＝ΔBn×f′(An(m))×Wbn …(8)

在表达式(8)中，ΔBn表示通过计算上述表达式(6)获得的值，并且f′(An(m))是通过将差图像An(m)代入通过求S形函数f(x)的导数得到的函数而获得的值。此外，Wbn是更新的信息加权Wbn。

按照上述方式，当获得差图像An(m)的差加权的差ΔWan(m)时，将差加权的差ΔWan(m)加到差图像An(m)的差加权Wan(m)中并进行更新，从而获得新的差加权Wan(m)。

然后，通过利用学习图像、以及如上所述更新的差加权Wa、信息加权Wb和被摄对象加权Wc，重复上述处理，并且获得最终的差加权Wa、最终的信息加权Wb和最终的被摄对象加权Wc。

执行用于重复更新差加权Wan(m)、信息加权Wbn和被摄对象加权 Wc的处理，直到例如评价图的像素的像素值的最大值的绝对值小于或等于预定阈值并且每个加权的更新被执行预定次数以上为止。即，执行更新加权的处理，直到获得能够以足够的准确度从图像提取被摄对象的被摄对象图为止。

按照上述方式，在利用神经网络的学习中，基于图像标记和利用预先供给的加权所产生的被摄对象图，来产生评价图。此外，通过反向计算从评价图获得加权的差，该加权的差是每个加权应被改变的变化量。

这里，由于图像标记是指示学习图像中的被摄对象的区域的信息，因此，可认为图像标记是指示被摄对象图的正确解答的信息。因此，作为被摄对象图与图像标记之间的差的评价图指示理想的被摄对象图与通过利用供给的加权产生的被摄对象图之间的误差。通过利用评价图执行反向计算，获得供给的加权与理想加权之间的误差。

然后，获得的误差是供给的加权应被改变的变化量。如果将该变化量加到加权中，那么获得当前时刻的理想加权。如果被摄对象图是通过利用以上述方式重新获得加权而产生的，那么该被摄对象图使得能够更可靠地从图像检测被摄对象。在利用神经网络的学习中，作为加权的变化量，获得差ΔWan(m)、信息加权差ΔWbn和被摄对象加权差ΔWc，并更新每个加权。

同时，例如在“Richar O.Duda，Peter E.Hart，David G.Stork所著的‘Patten Classification’，WILEY-INTERSCIENCE ISBN 0-471-05669-3”中详细说明了利用神经网络的学习。

可由硬件或软件来执行上述系列的信息处理。在由软件执行系列处理的情况下，将形成软件的程序从记录介质安装到内置于专用硬件中的计算机、或者例如安装到能够通过安装各种程序来执行各种功能的通用个人计算机。

图19是图示了根据程序执行上述系列处理的计算机的结构示例的方框图。

在计算机中，CPU(中央处理器)601、ROM(只读存储器)602和RAM(随机存取存储器)603经由总线604而彼此互连。

此外，输入/输出接口605连接到总线604。包括键盘、鼠标、麦克风等的输入单元606、包括显示器、扬声器等的输出单元607、包括硬盘、非易失性存储器等的记录单元608、包括网络接口等的通信单元609、以及用于驱动诸如磁盘、光盘、磁光盘或半导体存储器的可拆卸介质的驱动器610连接到输入/输出接口605。

在如上所述配置的计算机中，例如，CPU 601通过输入/输出接口605和总线604将记录在记录单元608中的程序载入RAM 603中并执行该程序，从而执行上述系列处理。

通过将程序记录在用作套装介质(packaged medium)的可拆卸介质611上来提供由计算机(CPU 601)执行的程序，可拆卸介质611是诸如磁盘(包括软盘)、光盘(包括CD-ROM(致密盘-只读存储器)、DVD(数字多功能盘)等)、磁光盘、半导体存储器等的可拆卸介质。替选地，可经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。

然后，通过将可拆卸介质611安装到驱动器610，可经输入/输出接口605将程序安装到记录单元608中。替选地，可经有线或无线传输介质在通信单元609接收程序，并将其安装到记录单元608。替选地，程序可被预先安装在ROM 602或记录单元608中。

由计算机执行的程序可以是根据在说明书中描述的次序以时间顺序执行处理的程序，或者可以是并行地或者在需要时(例如，当被调用时)执行处理的程序。

本发明的实施例并不局限于上述实施例，并且可以做出各种修改，而不脱离本发明的范围和精神。

附图标记列表

11图像处理设备、21亮度信息提取单元、22颜色信息提取单元、23边缘信息提取单元、24面部信息提取单元、25运动信息提取单元、26被摄对象图产生单元、53加权加法单元、54规范化单元、85加权加法单元、86加权加法单元、87规范化单元、88规范化单元、123加权加法单元、124加权加法单元、125加权加法单元、126加权加法单元、127规范化单元、128规范化单元、129规范化单元、130规范化单元

Claims

1.一种图像处理设备，包括：

提取信息图像生成装置，其用于基于由从输入图像的各区域提取的特征的信息构成的提取信息图像来生成分辨率彼此不同的多个提取信息图像；

差图像生成装置，其用于通过获得所述多个提取信息图像之中的两个预定的提取信息图像之间的差来生成差图像；

信息图产生装置，其用于通过执行多个所述差图像的加权加法来产生指示所述输入图像中的被摄对象的区域所拥有的特征的特征量的信息图；

规范化装置，其用于通过从所述信息图的每个区域的值减去所述信息图的各区域的值的平均值而将所述信息图规范化；

被摄对象图产生装置，其用于通过执行多个所述规范化的信息图的加权加法来产生针对所述输入图像的每个区域指示区域为被摄对象的可能性的被摄对象图；和

边缘图像生成装置，其用于通过利用预定系数执行所述输入图像的若干像素的像素值的加权加法，来生成代表所述输入图像的所述各区域的边缘强度的图像，作为所述提取信息图像，其中，所述边缘图像生成装置还包括：

第一滤波器，其被配置成通过使在x方向上连续排列的9个像素分别乘以系数-1、-2、-1、2、4、2、-1、-2和-1、并将和除以16，对像素执行滤波操作；

第二滤波器，其被配置成通过使在x方向上连续排列的8个像素分别乘以系数1、3、3、1、1、3、3和1、并将和除以16，对像素执行滤波操作；

第三滤波器，其被配置成通过使在3乘3矩阵中排列的9个像素分别乘以系数0、1、2、-1、0、1、-2、-1和0、并将和除以8，对像素执行滤波操作；以及

第四滤波器，其被配置成通过使在3乘3矩阵中排列的9个像素分别乘以系数2、1、0、1、0、-1、0、-1和-2、并将和除以8，对像素执行滤波操作。

2.根据权利要求1所述的图像处理设备，其中所述提取信息图像生成装置通过将所述提取信息图像中彼此相邻的像素的像素值的平均值设为与所述提取信息图像不同的另一提取信息图像的像素的像素值，来生成分辨率彼此不同的所述多个提取信息图像。

3.根据权利要求1所述的图像处理设备，其中所述输入图像是由亮度分量和色差分量构成的图像，并且

其中所述提取信息图像是由作为所述特征的信息的所述输入图像的亮度分量或色差分量构成的图像。

4.一种用于图像处理设备的图像处理方法，所述图像处理设备包括：

第四滤波器，其被配置成通过使在3乘3矩阵中排列的9个像素分别乘以系数2、1、0、1、0、-1、0、-1和-2、并将和除以8，对像素执行滤波操作，和

被摄对象图产生装置，其用于通过执行多个所述规范化的信息图的加权加法来产生针对所述输入图像的每个区域指示区域为被摄对象的可能性的被摄对象图，

所述图像处理方法包括步骤：

利用所述提取信息图像生成装置，根据所述输入图像生成所述提取信息图像；

利用所述差图像生成装置，根据所述多个提取信息图像生成所述差图像；

利用所述信息图产生装置，通过执行多个所述差图像的加权加法来产生所述信息图；

利用所述规范化装置将所述信息图规范化；和

利用所述被摄对象图产生装置，通过执行所述信息图的加权加法来产生所述被摄对象图。