CN102496023B

CN102496023B - 像素层面的感兴趣区域提取方法

Info

Publication number: CN102496023B
Application number: CN201110377763.4A
Authority: CN
Inventors: 沈海澜; 陈再良; 邹北骥
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2011-11-23
Filing date: 2011-11-23
Publication date: 2014-08-27
Anticipated expiration: 2031-11-23
Also published as: CN102496023A

Abstract

本发明公开了一种像素层面的感兴趣区域提取方法，用于降低数据规模，提高图像处理的效率。该方法包括以下几个步骤：利用视觉注意模型得到显著图，并将显著图二值化，获得其中的显著点后将其聚类并针对聚类时出现的问题进行优化；同时将原图像二值化，并通过扫描二值图提取原图像的二值化图轮廓；优化后的聚类点作为种子点填充，然后与原图像掩膜，提取到图像的感兴趣区域。本发明以显著图为基础，以显著图中的像素点，即显著点为目标，提取图像中的感兴趣区域时的运算速度可和显著点的个数成线性关系，且感兴趣区域的漏分率至少降为原来的一半，而误分率无明显增加。

Description

像素层面的感兴趣区域提取方法

技术领域

本发明属于图像识别技术领域，涉及一种像素层面的感兴趣区域提取方法。

背景技术

心理学上的研究发现，较能引起人们注意的是图像中那些能够产生新奇刺激的区域或者是图像中人们自己所期待的刺激对应的那些区域，这些区域即感兴趣区域，也称为视觉显著区域，这些区域包含了绝大多数的图像信息。这使得在处理图像时，如果得到了图像中的感兴趣区域，便能获知图像中的绝大部分信息，而着重对这些区域进行分析，则可减少计算量，从而应对图像数据量的大量增长。与此同时，还需要更加准确的感兴趣区域提取与分析的方法来对图像中的相关区域进行准确的识别和操作，以可满足人们在各种领域(如医学影像、气象监测、仿真视觉等)中不断提高的要求。在图像压缩与编码、图像检索、场景渲染、目标检测、目标识别、主动视觉等应用领域，引入视觉注意机制及相应的模型，能够在降低图像处理计算量的同时，有效提高计算机信息处理的效率。正因为在这些领域中突出的表现，图像感兴趣区域的提取具有极其重要的研究及应用价值。

在图像场景中提取感兴趣区域时，需要进行的一项工作就是确定场景中哪些部分比较引人注目，哪些部分不引人注意。比较直观的方法就是根据图像本身不同区域的显著程度，生成图像对应的显著图。通常情况下，显著图为单通道灰度图像，用来表示原图像的显著程度，一般采用视觉注意模型来获得显著图，目前较为经典的视觉注意模型有以下几种。

Itti-Koch模型，是Itti等人于1998年基于Treisman等人的特征整合理论，以及Koch和Ullman的生物学架构而提出的显著性模型。Itti-Koch模型从原始输入图像中提取亮度、颜色、方向三种特征，并对其中每一维使用高斯模糊连续2次采样，建立9级(0级是原始图像)的高斯金字塔；并使用高斯差异(Differenceof Gaussians，DoG)决定中央周边差，根据中央周边差计算得到各个特征维上的醒目图(conspicuity map)；分析、融合每一维的特征图，从而得到显著图(saliencymap)。

2003年，Fred W M Stentiford提出了Stentiford模型。在Stentiford模型中，提出了认知视觉注意(Cognitive Visual Attention，CVA)，这是图像中的邻近点对与相似度的一种概括，同时采用视觉注意图来表示图像的显著性。Stentiford模型总体思路是，输入图像的某个区域的特征相对于其他区域而言，出现的频率越少，则其认知视觉注意分数越高；而图像当中特征分布规律与模式相同的区域被抑制。对于每一个像素，都取其邻居像素与随机抽取的其他若干个像素作比较，从中得到显著图。

光谱剩余模型(SRM)由Hou和Zhang于2007年提出。光谱剩余模型通过分析输入图像的log光谱(Log Spectrum)，提取图像在光谱领域的光谱剩余来建立对应空间领域的显著图。从信息论的角度说，有效的编码可以把图像分割为两部分，即图像中新颖的部分，以及应该被编码***抑制的冗余信息。光谱剩余模型通过去除概率冗余部分来估计图像新颖部分，并专注于自然图像的全体平均傅里叶振幅分布。给定一个输入图像，其对应的log光谱由下采样为高或者宽是64像素的图像计算得到；log光谱的大体形状是在预处理过程得到的信息，接着获取输入图像的特别概率奇点(Statistical Singularities)，平均光谱则可以由输入图像卷积近似获得；最后通过log光谱与平均光谱作差，得到光谱剩余。光谱剩余模型中，光谱剩余包含图像的新颖点，可以被看作一个场景的微缩表示。对最后的结果采用傅里叶反变换，则可以在空间领域获得显著图的输出图像。本模型的显著图主要包含了场景中的非平凡部分，剩余的光谱的内容也可以被解释为是图像中没有被预料到的一部分。

Hu-Rajan-Chia模型于2005年由Yiqun Hu、Deepu Rajan和Liang-Tien Chia三人提出。模型将一张图像分解为若干块，每一块包含p×q像素，称作纹理片。对图像使用Gabor变换，然后计算纹理块与其邻居的平均差异和平均标准偏离，从而得到每一块的纹理对比值，其中纹理用来侦测显著对象以捕捉注意区域。模型中，局部上下文信息对于区分正确注意区域和错误注意区域是很重要的。上下文的影响能用于抑制与其邻居有相似对比的区域的显著性，以抑制错误注意区域。图像块的相似度由一个n×n的协方差矩阵的数据伴随本征向量的方差估计，称为注意线索协方差矩阵。矩阵中本征值表示在注意线索中的相似度或不相似度的范围，显示了对应本征向量方向上的方差，同时也反映了分辨能力的大小，有较高的分辨能力的区域则对应真正的注意区域。接着，计算各个图像块的抑制因子，以及各个特征与其邻近区域的变化的对比图。最后，使用亮度和颜色特征结合后的对比图与抑制因子的乘积生成最终显著图。

感兴趣区域的提取方法，可以分为两类。一类为人机交互指定感兴趣区域，这种方法中每张图像都需要观察者参与，目前较多的是基于眼动数据的感兴趣区域提取。这种方法能够很好地还原人类视觉***对图像的原始反映，但由于需要观察者全程参与，故不能自动实现。另一类是自动提取感兴趣区域，可以分为基于拐点、基于特定对象和基于视觉注意模型的感兴趣区域提取方法。基于视觉注意模型的感兴趣区域提取方法，首先基于图像场景，根据图像本身不同区域的显著程度，得到图像对应的显著图和显著信息，然后融合从视觉注意模型中获得的图像前景和背景信息实现感兴趣区域的提取。不同视觉注意模型从不同程度和角度模拟视觉***，能较好地提取出与视觉***感知相近的感兴趣区域。如此一来，视觉注意模型建立的好坏以及图像分割方法的选取，则成为了感兴趣区域提取效果的决定性因素之一。

使用Itti-Koch得到的显著图将会变模糊；Stentiford视觉注意模型计算的是输入图像对应区域的全局显著性，对图像区域的整体显著性进行评估，所以使用该模型较难提取低显著性物体的感兴趣区域。此外，该模型生成的显著图分辨率与输入图像相同，但噪点较多，使用显著图时需要注意噪点的误差影响；采用光谱剩余模型，显著图的精度损失会比较严重。Hu-Rajan-Chia模型同样为纯计算型的视觉显著模型，但是对于纹理特征不突出的图像，其显著性计算结果仍有待加强。此外，该模型提取的显著图分辨率同样低于输入图像的分辨率。

因而每种视觉注意模型都有各自的优点和缺点，任何但一种视觉注意模型都无法实现较高质量的图像感兴趣区域提取。

发明内容

本发明所要解决的技术问题是提供一种像素层面的感兴趣区域提取方法，该方法性能稳定，能适用于不同的视觉注意模型，在提高感兴趣区域提取效率的同时，也能大幅提升感兴趣区域提取质量。

本发明的技术构思在于利用四种视觉注意模型，获得图像的显著信息生成显著图，选择其中效果最好的显著图二值化，从二值化图中的像素点出发，将得到的显著点聚类并优化，设计了一个基于像素层面的感兴趣区域提取方法，并利用眼动实验数据作为感兴趣区域提取效果的比较标准，评价提取的感兴趣区域有效性和准确性。

发明的技术解决方案如下：

一种像素层面的感兴趣区域提取方法，其特征在于，包括以下步骤：

步骤1：输入待处理的原图像即输入图像G_R并进行预处理；

步骤2：利用四种视觉注意模型分别得到输入图像的显著图，并选择其中效果最佳的显著图作为最佳显著图；

步骤3：聚类并优化最佳显著图中的显著点；

步骤4：以所述的显著点作为种子点进行种子填充，并将填充后的图像进行二值化操作，得到二值图；

步骤5：基于所述的二值图与原图像进行掩膜操作，得到最终的图像的感兴趣区域。

步骤1中的预处理的过程为：

1)将输入图像G_R转换为单通道八位格式的灰度图像G_G；

2)采用自动阈值的方式将灰度图像G_G二值化；

3)扫描二值图的内边界和外边界，提取边界轮廓。

步骤2中，所述的四种视觉注意模型为Itti-Koch模型、Stentiford模型、光谱剩余模型和Hu-Rajan-Chia模型；利用所述的四种视觉注意模型得到对应的四个显著图，并从中选择效果最佳的显著图即最佳显著图。

步骤3的具体过程为：

1)将单通道浮点数表示的最佳显著图转化为单通道八位的图像，将最佳显著图二值化；

2)根据二值化后的最佳显著图得到相应的显著点，使用K-means聚类将显著点聚类；得到至少一个聚类中心点；

在聚类时，采用以下优化方法：

(1)多次运行显著点K-means聚类，每次都将中心点放置在不同位置，选取方差最小的那一次的结果作为聚类中心点；

(2)聚类点设置从1开始到5，每次递增1，并且每次运行的显著点聚类只迭代1次；在此过程中，方差先降后升，存在一个拐点，而这个在拐点处的聚类个数，即为最佳聚类个数。

5.根据权利要求1所述的像素层面的感兴趣区域提取方法，其特征在于，步骤4的具体过程为：

首次填充时，填充种子点即聚类中心点所在轮廓层数J，【即填充种子点所在的边界轮廓内的区域】每次均以白色进行填充，若所在区域里面仍有子边界，即存在孔洞，则将孔洞也进行填充；

然后，对填充操作后的图像进行二值化分割，被填充的亮白区域即填充区域设为1，其余区域均设为0，得到二值图。

6.根据权利要求2-5任一项所述的像素层面的感兴趣区域提取方法，其特征在于，步骤5中，掩膜得到图像的感兴趣区域的过程为：

1)步骤1得到的填充边界和步骤4中得到的填充区域结合，得到一中间处理图像Img；

2)Img和原图像G_R执行“与”操作，即得到G_R对应的感兴趣区域。

有益效果：

本实用像素层面的感兴趣区域提取方法，该方法通过视觉显著性模型生成显著图，获得相应的显著点，采取统计方法，对图像中的点聚类并优化，利用视觉注意模型得到显著图，并将该显著图二值化，获得其中的显著点并采取统计学方法将其聚类并针对聚类时出现的问题进行优化；同时将原图像二值化，并通过扫描二值图提取原图像的二值化图轮廓；优化后的聚类点作为种子点填充，然后与原图像掩膜，提取到图像的感兴趣区域。

发明方法以视觉注意模型为基础，从像素层面根据显著图的共有特性来提取图像的感兴趣区域。该方法性能稳定，能适用于不同的视觉注意模型。在提高感兴趣区域提取效率的同时，也能大幅提升感兴趣区域提取质量，在误分率基本保持不变的情况下，漏分率至少降低50％。其中，误分率指的是被误分为ROI的区域占整幅图像的百分比，漏分率指的是被丢掉的ROI占整幅图像的百分比。

由于(1)显著图是从四种视觉注意模型中选择最好的一个、(2)显著点经过了聚类并优化，因而能提高提取效率。

以眼动实验为参照，对本方法所提基于不同视觉注意模型的显著点感兴趣区域提取的结果与现有的四种注意模型进行比较，结果表明，本发明的方法在漏分率方面远远优于原有的四种注意模型对应的方法。

针对显著点聚类时出现的问题，相应地进行优化，使得提取聚类中心点的准确性提高。这些问题包括：

(1)使用显著点聚类时，需要随机放置中心点，故每次计算的聚类中心位置总是存在差异，特别是显著点聚类无法保证得到最佳聚类中心点的位置；但是，显著点聚类能够保证将输入数据集较好地分类汇聚，以至于数学上逼近最佳聚类状态；

(2)显著点聚类并不能让使用者直接得知应该使用多少个聚类中心点，即每次使用显著点聚类总是需要事先告知中心点个数K的值；且针对相同数据集，使用不同的聚类中心点数目，所得结果会有较大差异，故需要在使用过程中给出一个较合理的中心点数目。

以上所述的两个问题，有以下相对应的解决方案：

(1)针对每次结果不相同的情况，多次运行显著点聚类，每次都将中心点放置在不同位置，选取方差最小的那一次的结果；

(2)针对需要事先定义好聚类中心点个数的问题，可以尝试不同的聚类中心点数值；对显著点聚类来说，经过大量实验表明聚类中心点最多不超过5个；故聚类点设置可以从1开始到5，每次递增1，并且每次运行的显著点聚类只迭代1次；在此过程中，方差在开始时会下降得很快，直到某个数值时，方差开始遇见一个拐点，自此之后，方差的减少开始变得缓慢。而这个在拐点处的聚类个数，正是最佳聚类个数。

附图说明

图1是本发明的流程图。

图2(a)为原始图像，图2(b)为利用Itti-Koch视觉注意模型得到的显著图。

图3(a)为原始图像，图3(b)为Stentiford视觉注意模型得到的显著图。

图4(a)为原始图像，图4(b)为光谱剩余模型的显著图。

图5(a)为原始图像，图5(b)为Hu-Rajan-Chia模型的显著图。

图6是基于像素点的感兴趣区域提取运算耗时对比图。

图7是基于像素点的不同视觉注意模型的感兴趣区域提取结果对比图，(a)、(b)、(c)和(d)列分别是采用Itti-Koch模型、Stentiford模型、光谱剩余模型和Hu-Rajan-Chia模型生成显著图，然后再使用基于像素点的感兴趣区域提取方法得到的感兴趣区域结果。

图8是采用本发明方法提取图像感兴趣区域的实验结果比较图。

图9是注视点与显著点数据规模对比图。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

本发明提出了一种像素层面的感兴趣区域提取方法，先对图像预处理，然后利用视觉注意模型得到图像的显著图，对显著点聚类并优化，通过种子填充并与原图像掩膜后得到感兴趣区域，同时利用眼动实验数据作为提取感兴趣区域效果的比较标准。

实施例1：

本发明的总体框架如图1所示，现介绍每一步的实现细节。

1、预处理要提取感兴趣区域的原图像，如图2(a)。首先将图2(a)转换为单通道八位格式的灰度图像，其颜色由R、G、B三个八位数值分别表示其红色、绿色和蓝色的颜色分量的大小。转换成灰度图像时使用国际电信联盟(International Telecommunication Union，ITU)提出的Rec.ITU-R BT.601-7标准对颜色分量进行有权相加。灰度的数值对应的加权转换关系由公式(1)得到，其中Y为灰度值，R、G、B分别表示彩色图像的红、绿、蓝三种颜色分量。

Y＝0.299×R+0.587×G+0.114×B (1)

由于使用的是单通道八位图像格式，因此最大值设置为255。阈值的设置使用Otsu自动阈值法计算出图像的最佳阈值。然后对图像进行二值化处理，如公式(2)所示，其中Img_I为输入源图像，thre_I为输入源图像阈值【中间值指的是0和255的中间值。实验中，thre_I的初始值设为128，然后根据效果Otsu来自动调整该阈值。】B(x，y)表示对图像x用阈值y进行二值化。

β_I＝B(Img_I，thre_I) (2)

接着针对二值图来提取轮廓，用Suzuki-Abe方法扫描二值图，如果扫描到位于二值图中0和1的分界处的某点，则从该点出发，能找到一个外边界或者一个内边界，然后给每一条找到的边界赋予一个特定的数值，以便从最外层的边界到最内侧的边界依次整理从属关系，形成树状从属结构，得到图像轮廓信息α_i，j。其中轮廓总数为i*j，第(j-1)层轮廓为第j层轮廓的内孔洞，换而言之，第j层为第(j-1)层在树状从属结构中的子节点。获得图像轮廓信息后，开始对轮廓内区域进行填充【填入亮白的颜色，如图8所示，亮白区域即为ROI。】。先在一幅全黑的、与输入图像分辨率大小相同的图像上，绘制图像轮廓，作为填充边界。

2、分别生成图2(a)对应的四种视觉注意模型的显著图

由于在Itti-Koch模型中要对每个特征建立高斯金字塔，使得从输入图像的空间频率连续减少。而每个平滑操作令图像归一化的频率频谱减半，造成一定程度上的失真。在8个平滑操作后，从原始图像的频谱得到的频率在8级金字塔维持在[0，π/256]的范围。因此，输入图像的大量信息被丢弃。如此一来，使用Itti-Koch得到的显著图将会变模糊。Itti-Koch视觉注意模型得到的显著图如图2(b)所示。

Stentiford模型为纯计算的显著性方法。由于Stentiford模型在计算过程中生成对应特征和错误基准，因此该模型一个很重要的优势就是决定相似度的特征无论是形状、纹理、颜色，或者是三者结合，都可以成功匹配。这意味着Stentiford模型能够识别图像中的最佳特征，而并非单纯地搜索相对于整个图像而言某个固定的较优特征。但是，也正由于Stentiford模型对每个像素点都进行随机采点进行比对计算，造成时间复杂度偏高，所需时间较长。同时，该模型计算的是输入图像对应区域的全局显著性，对图像区域的整体显著性进行评估，所以使用该模型较难提取低显著性物体的感兴趣区域。此外，该模型生成的显著图分辨率与输入图像相同，但噪点较多，使用显著图时需要注意噪点的误差影响。Stentiford视觉注意模型得到的显著图如图3(b)所示。

光谱剩余模型是基于光谱剩余假说而得到的视觉显著模型，为纯计算的显著性方法。由于该模型专注于图片光谱作为显著性判定的单一特征，因此，对于感兴趣区域由光谱为分辨标准的图像能生成较为理想的显著图。光谱剩余模型对于任何分辨率的输入图像都生成64×64分辨率的显著图，故对于分辨率较大的图像，显著图的精度损失会比较严重。而显著图中每个点的值都将作平方运算来确定估算错误，可以从一定程度上缓解精度损失。为了消除噪点产生的虚警(FalseAlarm)显著小区域，同时获得更好的视觉效果，将显著图采用高斯滤波平滑。要注意的是，从显著图提取感兴趣区域过程中，太强的高斯平滑会对阈值分割及图像二值化结果干扰过大。光谱剩余模型得到的显著图如图4(b)所示。

Hu-Rajan-Chia模型同样为纯计算型的视觉显著模型，其专注于纹理特征的显著性线索，并结合亮度和颜色特征，因此对纹理、亮度和颜色为分辨标准的感兴趣区域能生成较理想的显著图。同时由于该模型集合了多线索的自适应上下文抑制，因此能较好地提取混乱背景中的小目标物体。但是对于纹理特征不突出的图像，其显著性计算结果仍有待加强。此外，该模型提取的显著图分辨率同样低于输入图像的分辨率。Hu-Rajan-Chia模型得到的显著图如图5(b)所示。

每种视觉注意模型都有各自的优点和缺点，从另一个角度来说，不同的视觉注意模型擅长提取不同类型的图像的显著图。

3、选择最佳的显著图，二值化后对显著点聚类

显著图表示的是从相关视觉显著性模型得到的图像显著区域的分布，理想情况下，视觉显著模型能有效模拟人类视觉***，而其生成的显著图能准确表达出人类对图像的兴趣分布。显著图中的显著性是一个区间为[0，1]的浮点值，故需要对显著图进行二值化。得到显著图的二值图后，其中亮白区域上的点，则称为显著点。

显著图的二值化即灰度图像的二值化，首先将单通道浮点数表示的显著图转化为单通道八位的图像格式【将区间为[0，1]的任一个浮点数通过线性比例关系换算到0～255中的任一个值。】(每个像素采用一个八位数值表示，从0到255分别对应表示最不显著程度到最显著程度。)，然后再二值化。由于使用的是单通道八位图像格式，因此最大值一般设置为255(即2⁸-1)。阈值的设置使用Otsu自动阈值方法计算图像的最佳阈值。给出一张灰度直方图，并且对于该图像没有任何先验知识参与，自动阈值计算需要建立一个适当的标准来较为准确地估计图像的阈值。

显著图中，像素的显著程度由该点以及在图像中与之相互联系的所有点的显著信息汇总得到。因此，需要考虑到显著点与显著点间的关联性，才能较好地提取出其中的显著信息。针对其中的关联性，在得到显著点分布后，需要对显著点分组，使每一组代表一个显著对象，这样就可以确定待提取对象。接着，从显著点的每个分组获得其中的对象物体，完成对感兴趣区域的提取。

由以上两个要求出发，对显著点采用K-means聚类的方法，从统计学角度完成对显著点进行多元观察的分类与分析，完成分组划分，同时得到每个分组的中心，并用于感兴趣区域提取。

显著点聚类的初始化过程为先定义K个中心点，每个中心点对应所聚的一类的质心。由于显著点本质是图中的像素点，因此所有的中心点坐标必须为正整数，有效取值范围为图像的像素区域范围，即与分辨率大小相同。实际使用时，较快且效果较优的方法，是将K个中心点放置到K个随机的有效位置上。初始化过程形式化归纳为公式(3)。其中C_i表示第i个中心点，δ_x和δ_y分别为图像的宽和高范围内的随机值。

C_i＝(δ_x，δ_y)(0≤δ_x＜width，0≤δ_y＜height，i＝1，2，...，K) (3)

同时，K还和运算速度有一定的关系。图6是基于像素点的感兴趣区域提取运算耗时对比图。随机在一幅1024*768的纯黑色图像中，建立K个中心，然后围绕K个中心生成N个互不重叠的显著点，其中K为聚类数，从1到5依次递增，N从500到50000以500的步进速度依次递增。对于每一次生成的N个点进行一次聚类，并统计聚类所耗时间。在测试过程中，对于每一对K、N值均进行10次随机生成数据的测试，设置迭代次数为1次。测试环境为Intel Core 2 DuoCPU T7250，2G内存，操作***为Windows7。测试时，***前台任务只保留测试程序，同时持续时间统计为程序使用的实际CPU时间。图6中每一条曲线分别对应不同聚类数，按照纵坐标的方向，从下到上依次为聚类数为1到5，横坐标为数据规模，纵坐标为运算耗时。

接下来，将显著点数据集中的每个显著点S_i对应一个与它最近的中心点，设该最近中心点序号为τ(S_i)。然后，将K个中心点分别移动到每个中心点所对应的全部数据元素的质心，参见公式(4)。其中，τ^-1(C_i)为映射中心点的逆过程，即从中心点求对应显著点集合。Ψ(x)函数为求x数据集元素的质心。

C_i＝ψ[τ^-1(C_i)](i＝1，2，...，K) (4)

这时，重复选择与数据元素最近的中心点并建立对应关系，循环执行，当质心的位置不再移动时结束。此时的K个中心点所在位置即为聚类中心，而这些中心点所对应的显著点分组即指向具体的显著对象。

图7中的小圈即为聚类中心，可以看到，对于4种不同的模型，虽然聚类中心的位置有所差异，但都集中在显著区域质心附近，而且所得到的提取结果是相同的。这是由于这些视觉注意模型生成的显著图能够较理想地表示图像的显著信息，因此得到的聚类中心能近似表示区域的质心，结果基本相同。这从另一方面表明，本方法能够很好地适应不同的视觉注意模型。

4、聚类点种子填充，首次填充时，得到种子点(即聚类中心点)所在轮廓层数J。每次填充均以最亮白的颜色进行填充，若所在区域里面仍有子边界，即存在孔洞，则将孔洞也进行填充。

然后，对填充图像进行二值化分割，被填充的亮白区域为1，其余区域均设为0，如公式(5)所示。

{Img}_{M} (x, y) = \{\begin{matrix} 0, & {Img}_{F} (x, y) &NotEqual; white \\ 1, & {Img}_{F} (x, y) = white \end{matrix} - - - (5)

最后，将得到的二值图与输入原图像掩膜，如公式(6)所示。二值图中标记为1的区域通过掩膜到达结果图像，标记为0的区域则被屏蔽，最终的结果图像，即为所要提取的感兴趣区域。

{Img}_{ROI} (x, y) = \{\begin{matrix} {Img}_{I} (x, y), & {Img}_{M} (x, y) = 1 \\ 0, & {Img}_{M} (x, y) = 0 \end{matrix} - - - (6)

图8是采用本发明提取图像感兴趣区域的实验结果比较图。Itti-Koch模型采用赢者取全(winner-take-all)，Stentiford模型使用阈值分割法进行感兴趣区域提取的对比，得到的结果如图8所示。(a)列为原始图像，(b)列为Itti-Koch模型的提取结果，(c)列为Stentiford模型提取结果，(d)列为本发明方法提出的在像素层面提取的感兴趣区域结果。需要说明的一点是，图8中各个感兴趣区域图像没有与原图掩膜，而是显示感兴趣区域的剪影。其中的白色区域为感兴趣区域，黑色区域为非感兴趣区域。

5、为了分析和比较本发明的性能和效果，以眼动实验的数据为参照来分析与评价。图9是注视点与显著点数据规模对比图。显著点和注视点的主要不同之处是它们在数量级上的差异。本对比实验中，将19名眼动被试者的有效注视点完全叠加，以此来更准确地逼近视觉***对图像的感兴趣度分布。在眼动实验所用的测试图像中，随机抽取10幅，将每一幅图像的有效注视点个数相加，再求平均值，得到平均注视点个数，同时计算出每种视觉注意模型得到的显著点个数。统计结果如图9所示，图中(1)至(4)分别对应Itti-Koch模型、Stentiford模型、光谱剩余模型和Hu-Rajan-Chia模型四种模型的显著图中显著点个数。此处所指注视点的个数，均指将全部被试者的注视点相加所得结果；而显著点的个数，则是使用阈值后，统计亮白区域的像素个数所得结果。因而对于一张图像而言，其显著点的个数将会远大于注视点的个数。

感兴趣区域之间的对比评价指标则采用漏分率(E_m)和误分率(E_f)两种。其中，漏分率的计算由公式(7)给出，误分率由公式(8)给出。公式中的Img_FixROI表示由眼动实验数据得到的感兴趣区域，Img_SalROI表示由本方法得到的感兴趣区域。

E_m＝(Img_FixROI-Img_FixROI⌒Img_SalROI)/Img_I (7)

E_f＝(Img_SalROI-Img_FixROI⌒Img_SalROI)/Img_I (8)

为了保证评价标准的相对独立性，同时也为了使两个评价标准统一，对一次评价汇总的所有漏分率和误分率分别归一化为0到1之间。归一化后，基于每个视觉注意模型的显著点感兴趣区域提取的误分率和漏分率相加取平均值，其值越小，则表示提取结果越接近于眼动实验所得的感兴趣区域。

以眼动实验为参照，对本方法所提基于不同视觉注意模型的显著点感兴趣区域提取的结果进行比较。各视觉注意模型提取感兴趣区域的方法如下，Itti-Koch模型使用赢者取全方法，光谱剩余模型使用阈值分割法，Stentiford模型和Hu-Rajan-Chia模型由于原始模型中没有感兴趣区域处理过程，为了让评判标准统一，使用自动阈值分割方法，采用这四种提取感兴趣区域的方法统称为缺省方法。与之相对应的就是采用四种视觉注意模型得到显著图，在此基础上再分别采用基于像素层面的感兴趣区域提取方法提取相应图像的感兴趣区域，结果如表1所示。【下表中，带&像素点的方法表示本发明方法】

表1感兴趣区域提取结果表

基于像素层面的感兴趣区域提取方法，能适用不同的视觉注意模型。在提高感兴趣区域提取效率的同时，也能大幅提升感兴趣区域提取质量，在误分率基本保持不变的情况下，漏分率至少降低50％。从表中可以看到，它的漏分率远小于缺省方法，至少降为原来的一半，但误分率有三个略大于缺省方法，一个小于缺省方法。这说明，该方法比起缺省方法而言，能较为完整地提取出感兴趣区域，但是也会相对多划分出一些背景区域作为感兴趣区域。考虑到基于像素层面的方法其漏分率相对于缺省方法的漏分率的差值，比二者的误分率的差值要大，而两个系数是经过归一化后的结果，故感兴趣区域的完整程度所带来的优势大于错误划分区域带来的影响。

Claims

1.一种像素层面的感兴趣区域提取方法，其特征在于，包括以下步骤：

步骤1：输入待处理的原图像G_R并进行预处理；

步骤2：利用四种视觉注意模型分别得到原图像的显著图，并选择其中效果最佳的显著图作为最佳显著图；

步骤3：聚类并优化最佳显著图中的显著点；

步骤5：基于所述的二值图与原图像进行掩膜操作，得到最终的图像的感兴趣区域；

步骤1中的预处理的过程为：

1）将原图像G_R转换为单通道八位格式的灰度图像G_G；

2）采用自动阈值的方式将灰度图像G_G二值化；

3）扫描二值图的内边界和外边界，提取边界轮廓；

步骤2中，所述的四种视觉注意模型为Itti-Koch模型、Stentiford模型、光谱剩余模型和Hu-Rajan-Chia模型；利用所述的四种视觉注意模型得到对应的四个显著图，并从中选择效果最佳的显著图即最佳显著图；

步骤3的具体过程为：

1）将单通道浮点数表示的最佳显著图转化为单通道八位的图像，将最佳显著图二值化；

2）根据二值化后的最佳显著图得到相应的显著点，使用K-means聚类将显著点聚类；得到至少一个聚类中心点；

在聚类时，采用以下优化方法：

（1）多次运行显著点K-means聚类，每次都将中心点放置在不同位置，选取方差最小的那一次的结果作为聚类中心点；

（2）聚类点设置从1开始到5，每次递增1，并且每次运行的显著点聚类只迭代1次；在此过程中，方差先降后升，存在一个拐点，而这个在拐点处的聚类个数，即为最佳聚类个数；

步骤4的具体过程为：

首次填充时，填充种子点即聚类中心点所在轮廓层数J，每次均以白色进行填充，若所在区域里面仍有子边界，即存在孔洞，则将孔洞也进行填充；

然后，对填充操作后的图像进行二值化分割，被填充的亮白区域即填充区域设为1，其余区域均设为0，得到二值图；

步骤5中，掩膜得到图像的感兴趣区域的过程为：

1）步骤1中提取边界轮廓后得到的填充边界和步骤4中得到的填充区域结合，得到一中间处理图像Img；

2）Img和原图像G_R执行“与”操作，即得到G_R对应的感兴趣区域。