CN101493890B

CN101493890B - 基于特征的动态视觉注意区域提取方法

Info

Publication number: CN101493890B
Application number: CN2009100466886A
Authority: CN
Inventors: 侯小笛; 祁航; 张丽清; 祝文骏
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2009-02-26
Filing date: 2009-02-26
Publication date: 2011-05-11
Anticipated expiration: 2029-02-26
Also published as: CN101493890A

Abstract

本发明涉及的是一种机器视觉技术领域的基于特征的动态视觉注意区域提取方法。步骤为：采用独立成分分析方法对大量的自然图像进行稀疏分解，得到一组滤波基函数和对应的一组重构基函数，将输入的图像分成m×m的RGB小块，并投影到这组基上，得到该图的特征；利用有效编码原理，为每个特征衡量增量编码长度指标；第三步，依据这些增量编码长度指标，通过对各个特征的能量重新分配来处理各个小块的显著度，从而最终得到显著地图。本发明可以消除“时间片”，连续的采样，从而不同帧的数据可以一起指导显著度的处理，解决了不同帧的显著度需要独立处理的问题，实现了动态性。

Description

基于特征的动态视觉注意区域提取方法

技术领域

本发明涉及的是一种图像处理技术领域的方法，具体地说，涉及的是一种基于特征的动态的视觉注意区域提取方法。

背景技术

随着人工智能技术地不断发展，机器视觉在现实生活中的应用越来越多，其主要用计算机来模拟人的视觉功能，但并非仅仅是人眼的简单延伸，更重要的是具有人脑的一部分功能——从客观事物的图像中提取信息，进行处理并加以理解，最终用于实际检测、测量和控制。由于机器视觉具有速度快、信息量大、功能多的特点，其在质量检测，身份认证，物体检测与识别，机器人，自动小车等的应用十分广泛。

目前工程上已经可以做出在各个方面(包括视角，视锐度，广谱性，动态特性)都超过人眼能力的传感器，可以说对“视”的探索已经到达一定程度了，但机器视觉***不仅需要“视”，还需要“觉”。由于人的选择性注意机制保证了人眼获取信息的高效性，吸引了人们的关注和研究，各种视觉注意区域的提取技术被提出并得到了广泛的应用。例如，利用基于选择性注意机制的视觉注意区域的提取技术来找到图像中的感兴趣区域，然后优先在这些区域中进行搜索，从而提高了物体检测和识别的效率；利用找到的感兴趣区域，进行高效的图片压缩(感兴趣的区域压缩比低，其他区域压缩比高)，和图片缩放(感兴趣的区域的放缩比例大于其他区域)，等等。视觉注意区域的提取技术在获取信息的高效性有着巨大的优势，因而经常出现中机器视觉***处理过程中。

经对现有技术的文献检索发现，视觉注意区域的提取技术是Koch和Ullman于1985年提出的显著地图(Saliency Map)，后来该技术经Itti和Koch完善，形成一整套关于显著地图的体系。具体可以参考文献：″LAURENT I，CHRISTOF K，ERNST N.A model of saliency-based visual attention for rapid sceneanlysis[J].IEEE Transactions on PAMI，1998，20(11)：1254-1259″，(作者：LAURENT I，CHRISTOF K，ERNST N，题目：一个可用于快速场景分析的基于显著度(saliency)的视觉注意模型，杂志：模式分析和机器智能IEEE会刊，1998年20卷，第11期，1254-1259页)。该方法是基于空间的提取技术，首先将图片分成颜色，方向，亮度，纹理等几个平行的通道，然后对于每个通道分别抽取信息，形成一张保留了图片拓扑结构，但同时对特征的响应强弱有记录的特征地形图(feature maps)，接下来，每个特征地形图都经过一系列尺度的“墨西哥帽(Difference of Gaussian)”函数进行滤波，它是对两个不同尺度的高斯函数求差之后得到的函数。该函数对于检测变化非常敏感，而对于一而弥撒的信号反映非常弱，具有普遍的生物意义。接下来，使用竞争网络的胜者全赢(Winner-Take-All)模型对于不同的注意区域进行比较，最终生成一个关于全局每个点显著度的地图，称为显著地图。该方法以及后来的基于空间的分析技术虽然在很多场景中有很好的表现，但几乎都无可避免的面临着下面的问题：1)只能关注特定一部分视觉线索，2)注意力的分配在时间上是不连续的。例如，在对连续影像进行观测时，***就无法考虑多帧的情况，这就导致每个时刻都需要单独地重新分析显著地图，使得***的连续性，可靠性都大幅下降。而且，当视角以及物体的位置发生变化的时候，由于没有对特征的追踪机制，新的显著地图的预测很有可能与前帧发生偏移。此外，一系列视觉注意行为，例如返回抑制，以及视点转移等，都无法在基于空间的分析技术中得到很好的实现。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于特征的动态视觉注意区域提取方法，该方法对显著度的定义是基于特征本身，而非特征的空间分布差异，可以消除“时间片”，连续的采样，从而不同帧(时间)的数据可以一起指导显著度的处理，解决了不同帧(时间)的显著度需要独立处理的问题，实现了动态性。

本发明是通过以下技术方案实现的，包括以下步骤：

第一步，采用独立成分分析方法对大量的自然图像进行稀疏分解，得到一组滤波基函数和对应的一组重构基函数，将输入的图像分成m×m的RGB小块，并投影到这组基上，得到该图的特征；

第二步，利用有效编码原理，即当一个***是有效编码时，其熵最大的原理，为每个特征衡量增量编码长度指标；

第三步，依据这些增量编码长度指标，通过对各个特征的能量重新分配来处理各个小块的显著度，从而最终得到显著地图。

所述的第一步，具体如下：

①将训练图片分成若干个m×m像素大小的RGB彩色小块，并将每个小块向量化。对自然图片进行采样，得到大量的m×m的RGB彩色小块，将其作为训练样本。m的取值可以是8，16或32。m为每个RGB彩色小块的边长。

②通过标准的独立成分分析(ICA)方法，训练出基函数(A，W)。基函数的个数为m×m×3＝3m²，即

W = [w_{1}, w_{2}, . . . w_{3 m^{2}}],

其中w_i为第i个滤波基函数(A的大小与W一样，1≤i≤3m²)。A，W是ICA方法训练出来的基函数，其值可以取任意范围，由输入决定。

③对于任意一幅图片X，将其分成n个m×m的RGB小块，形成采样矩阵X＝[x₁，x₂，…x_n]，其中x_k是第k个图像块的向量化表示(1≤k≤n)，对x_k进行线性变换

S_{k} = W x_{k} = [s_{k, 1}, s_{k, 2}, . . ., s_{k, 3 m^{2}}],

其中W是训练好的滤波基函数。则S_k为基函数的对应系数，也就是图片小块x_k的特征，s_k，i为第i个基函数的对应系数，即为第i个特征的值。对所有的x_k都做同样的处理，得到X的特征S＝[S₁，S₂，...，S_n]。n是输入图片X被分成RGB小块的个数，其值是由输入图片X的大小和m的取值所确定的。

第一步处理结束后，对于输入图片X，已经构造出3m²个特征S，接下来进行第二步。

所述第二步，具体如下：

①对于每个特征，计算激活率p_i

p_{i} = \frac{Σ_{k} {s_{k, i}}^{2}}{Σ_{j} Σ_{k} {s_{k, j}}^{2}} - - - (2.1)

这个量代表了该特征的平均能量发放水平。

②考虑熵在第i个特征的激活率p_i上的变化，即第i个特征的增量编码长度指标，令

p = {p_{1}, p_{2}, p_{3 m^{2}}},

为随机变量的概率分布。假设，某个特定时刻的特征激活率分布为p，当第i个特征被激活时会对p_i带来一个微小的扰动ε，因此新的分布

变成：

\hat{p} = \{\begin{matrix} \frac{p_{j} + ϵ}{1 + ϵ}, & if j = i \\ \frac{p_{j}}{1 + ϵ}, & if j &NotEqual; i \end{matrix} - - - (2.2)

因此，第i个特征的增量编码长度为：

ICL (p_{i}) = \frac{&PartialD; H (p)}{&PartialD; p_{i}} = 1 - H (p) - p_{i} - \log p_{i} - p_{i} \log p_{i} - - - (2.3)

本发明借助预测编码的原理，将能量、特征与显著度挂钩。增量编码长度(ICL)衡量了每个特征的对感知的熵变化率。这一指标用来指导能量分配，从而实现***整体上实现预测编码——即常见的信息会尽量少的使得***产生响应，而稀有的信息通常会触发***的强烈响应。

所述第三步，具体如下：

①根据所得到出的各个特征的增量编码长度指标，划分显著特征集合SF：

SF＝{i|ICL(p_i)＞0}(3.1)

划分{SF，SF}唯一确定了会导致整体***的熵增的特征。并且该划分有着明确的数学意义，对于一个特征，只有当其它在特征分布上是稀有的，也就是说，当对该特征进行新的观测，会导致整体特征分布p的熵增加。

②依照预测编码原则，在各个特征之间重新分配能量，对于显著特征集合内的特征i，分配权重d_i(i∈SF)：

d_{i} = \frac{ICL (p_{i})}{Σ_{k &Element; SF} ICL (P_{k})}, if i &Element; SF - - - (3.2)

而对于非显著特征，定义其

d_{k} = 0 (k &NotElement; SF) .

③对于图片小块x_k，其显著度定义为m_k：

m_{k} = Σ_{i &Element; SF} d_{i} w_{i}^{T} x_{k} - - - (3.3)

④有了各个图片小块的显著度之后，通过重构基A，生成整幅图片的显著地图M：

M = \underset{k &Element; SF}{Σ} A_{k} m_{k} - - - (3.4)

其中A_k表示重构基A的第k个列向量。

从公式(3.3)中可以看出，对于图片小块的显著度不是常量，而是会随着时间而发生变化。并且，由于在本发明的方法中，采样是一种连续过程，特征的权重会随着采样的增加连续变化，那么就可以成功地把采样变化理解为上下文对特征注意权重的影响。所谓“显著特征”，之所以显著，都是相对于当前上下文的特征分布而言的。

本发明的有益效果是：(1)由于采用的过滤基是预先训练好的，因此在处理一张新的输入图片时，不需要重新训练基函数，使得处理速度非常快，效率高，可以做到实时处理。(2)由于采用了基于特征本身，而非特征的空间分布差异的方式来对显著度进行分析，消除了对图片空间结构上的限制。在处理上，由于连续的采样，消除了“时间片”，从而不同帧(时间)的数据可以一起指导显著度的处理，解决了不同帧(时间)的显著度需要独立处理的问题，实现了动态性。

附图说明

图1.静态图片的显著地图；

其中：(a)、(d)、(g)为输入图片，(b)、(e)、(h)为本发明生成的显著地图，(c)、(f)、(i)为标注的眼动数据。

图2.视屏(动态视觉)的显著地图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

1.特征构造

(1)采用的RGB彩色小块大小为8×8，通过对大量的自然图片进行采样，得到120000个8×8的RGB彩色小块，这些RGB彩色小块为基函数的训练数据。

(2)利用ICA方法来训练基函数(A，W)，由于采用8×8的RGB彩色小块来作为训练样本，即m＝8，因此基函数的个数为3×8²＝192。

(3)对于输入彩色图片，例如图片的大小为800×640，将其分成8000个8×8的RGB彩色小块，即n＝8000，形成采样矩阵X＝[x₁，x₁，...，x₈₀₀₀]，其中x_k是第k个图像块的向量化表示，对其进行线性变换S_k＝Wx_k＝[s_k，1，s_k，2，...，s_k，192]，其中W是训练好的滤波基函数。则S_k为基函数的对应系数，也就是图片小块x_k的特征。s_k，i为第i基函数对应系数，即为第i个特征。

2.衡量增量编码长度(ICL)指标

(1)对各个特征，依据公式(2.1)计算其激活率p。

(2)根据各个特征的激活率，根据公式(2.3)衡量其增量编码长度指标

3.生成显著地图

(1)根据2中得到的各个特征的增量编码长度指标，利用公式(3.1)划分显著特征集合SF。

(2)利用公式(3.2)，重新分配显著特征集合内的各特征的能量。

(3)对于图片小块x_k，根据公式(3.3)，处理其显著度m_k

(4)有了输入图片的各个小块的显著度，利用公式(3.3)，得到输入图片的显著地图M。

实例一：静止图片的显著地图

采用8×8的RGB小块来训练基函数(A，W)，它们的维数为192。

对于大小为800×640的输入图片，将其分成8000个8×8的RGB彩色小块，即n＝8000，形成采样矩阵X＝[x₁，x₁，...，x₈₀₀₀]。并通过公式S＝WX来计算基函数对应系数，即X的特征。

通过公式(2.1)得到各个特征激活率p，并依据p和公式(2.3)衡量各个特征的增量编码长度指标。

根据各个特征的增量编码长度指标和公式(3.1)划分显著特征集合SF，并利用公式(3.2)，重新分配显著特征集合内的各特征的能量。那么对于图片小块x_k，根据公式(3.3)，处理其显著度m_k，并最终利用公式(3.4)，生成输入图片的显著地图M。

当顺序地对一张静态图片上的每个图像小块采样的时候，就可以估计该图片的特征分布特性，从而构筑出显著地图，将生成出的显著地图会进一步和人的眼动数据进行对比分析，以验证模型的正确性。图1中，(a)、(d)、(g)为输入图片，(b)、(e)、(h)为本发明生成的显著地图，(c)、(f)、(i)为标注的眼动数据。在实施例中，采用了文献″BRUCE N，TSOTSOS J.Saliency Basedon Information Maximization[J]，Advances in Neural InformationProcessing Systems，2006，18：155-162″(作者：BRUCE N，TSOTSOS J.题目：基于信息量最大化的显著度，杂志：高级神经信息处理***，2006年18期，第155-162页)所提供的眼动数据作为基准，比较了的模型与传统的模型，结果表明本发明取得了最佳成绩。

实例二：视屏中的显著地图

相比以往同类方法，本发明的方法的一大优点在于它是连续的。增量编码长度是一个连续更新的过程。特征激活率的分布的变化可以是基于空域的，也可以是居于时域的。如果考虑时域变化是一个拉普拉斯分布的话，假定p^t是第t帧，那么可以认为p^t是以前特征响应的累积和：

p^{t} = \frac{1}{Z} Σ_{τ = 0}^{t - 1} \exp (\frac{τ - t}{λ}) {\hat{p}}^{τ}

其中λ是半衰期，

Z = &Integral; {\hat{p}}^{t} (x) dx

是标准化函数。

在对视屏做视觉注意提取的时候，通常面临目标运动和观测视角运动的问题。然而，在的基于特征的注意模型框架下，这些问题都迎刃而解，因为特征总会随着物体在视野中的位置而移动。

分析图像的信噪比(SNR)，其定义如下：

SNR (t) = \frac{Σ_{i &Element; F} m_{i}^{t}}{Σ_{j &NotElement; F} m_{j}^{t}}

其中F是手工标注的“前景”。当分别对250帧画面进行手工标注后，就对每一帧处理其显著度，其过程除了特征激活率p不同外，其他过程与生成静止图片的显著地图是一致的。之后，可以将生成的显著地图与手工标注进行对比，分析信噪比值。图2反映了结果，图中第一行为视频的截图，第二行反应了本发明的信噪比，最后一行则为Itti模型的信噪比，从图中可以看出，本发明的平均信噪比为0.4803，远好于现主流的Itti模型的0.1680。