CN101493890B - 基于特征的动态视觉注意区域提取方法 - Google Patents
基于特征的动态视觉注意区域提取方法 Download PDFInfo
- Publication number
- CN101493890B CN101493890B CN2009100466886A CN200910046688A CN101493890B CN 101493890 B CN101493890 B CN 101493890B CN 2009100466886 A CN2009100466886 A CN 2009100466886A CN 200910046688 A CN200910046688 A CN 200910046688A CN 101493890 B CN101493890 B CN 101493890B
- Authority
- CN
- China
- Prior art keywords
- feature
- fritter
- basis function
- picture
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及的是一种机器视觉技术领域的基于特征的动态视觉注意区域提取方法。步骤为:采用独立成分分析方法对大量的自然图像进行稀疏分解,得到一组滤波基函数和对应的一组重构基函数,将输入的图像分成m×m的RGB小块,并投影到这组基上,得到该图的特征;利用有效编码原理,为每个特征衡量增量编码长度指标;第三步,依据这些增量编码长度指标,通过对各个特征的能量重新分配来处理各个小块的显著度,从而最终得到显著地图。本发明可以消除“时间片”,连续的采样,从而不同帧的数据可以一起指导显著度的处理,解决了不同帧的显著度需要独立处理的问题,实现了动态性。
Description
技术领域
本发明涉及的是一种图像处理技术领域的方法,具体地说,涉及的是一种基于特征的动态的视觉注意区域提取方法。
背景技术
随着人工智能技术地不断发展,机器视觉在现实生活中的应用越来越多,其主要用计算机来模拟人的视觉功能,但并非仅仅是人眼的简单延伸,更重要的是具有人脑的一部分功能——从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、测量和控制。由于机器视觉具有速度快、信息量大、功能多的特点,其在质量检测,身份认证,物体检测与识别,机器人,自动小车等的应用十分广泛。
目前工程上已经可以做出在各个方面(包括视角,视锐度,广谱性,动态特性)都超过人眼能力的传感器,可以说对“视”的探索已经到达一定程度了,但机器视觉***不仅需要“视”,还需要“觉”。由于人的选择性注意机制保证了人眼获取信息的高效性,吸引了人们的关注和研究,各种视觉注意区域的提取技术被提出并得到了广泛的应用。例如,利用基于选择性注意机制的视觉注意区域的提取技术来找到图像中的感兴趣区域,然后优先在这些区域中进行搜索,从而提高了物体检测和识别的效率;利用找到的感兴趣区域,进行高效的图片压缩(感兴趣的区域压缩比低,其他区域压缩比高),和图片缩放(感兴趣的区域的放缩比例大于其他区域),等等。视觉注意区域的提取技术在获取信息的高效性有着巨大的优势,因而经常出现中机器视觉***处理过程中。
经对现有技术的文献检索发现,视觉注意区域的提取技术是Koch和Ullman于1985年提出的显著地图(Saliency Map),后来该技术经Itti和Koch完善,形成一整套关于显著地图的体系。具体可以参考文献:″LAURENT I,CHRISTOF K,ERNST N.A model of saliency-based visual attention for rapid sceneanlysis[J].IEEE Transactions on PAMI,1998,20(11):1254-1259″,(作者:LAURENT I,CHRISTOF K,ERNST N,题目:一个可用于快速场景分析的基于显著度(saliency)的视觉注意模型,杂志:模式分析和机器智能IEEE会刊,1998年20卷,第11期,1254-1259页)。该方法是基于空间的提取技术,首先将图片分成颜色,方向,亮度,纹理等几个平行的通道,然后对于每个通道分别抽取信息,形成一张保留了图片拓扑结构,但同时对特征的响应强弱有记录的特征地形图(feature maps),接下来,每个特征地形图都经过一系列尺度的“墨西哥帽(Difference of Gaussian)”函数进行滤波,它是对两个不同尺度的高斯函数求差之后得到的函数。该函数对于检测变化非常敏感,而对于一而弥撒的信号反映非常弱,具有普遍的生物意义。接下来,使用竞争网络的胜者全赢(Winner-Take-All)模型对于不同的注意区域进行比较,最终生成一个关于全局每个点显著度的地图,称为显著地图。该方法以及后来的基于空间的分析技术虽然在很多场景中有很好的表现,但几乎都无可避免的面临着下面的问题:1)只能关注特定一部分视觉线索,2)注意力的分配在时间上是不连续的。例如,在对连续影像进行观测时,***就无法考虑多帧的情况,这就导致每个时刻都需要单独地重新分析显著地图,使得***的连续性,可靠性都大幅下降。而且,当视角以及物体的位置发生变化的时候,由于没有对特征的追踪机制,新的显著地图的预测很有可能与前帧发生偏移。此外,一系列视觉注意行为,例如返回抑制,以及视点转移等,都无法在基于空间的分析技术中得到很好的实现。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于特征的动态视觉注意区域提取方法,该方法对显著度的定义是基于特征本身,而非特征的空间分布差异,可以消除“时间片”,连续的采样,从而不同帧(时间)的数据可以一起指导显著度的处理,解决了不同帧(时间)的显著度需要独立处理的问题,实现了动态性。
本发明是通过以下技术方案实现的,包括以下步骤:
第一步,采用独立成分分析方法对大量的自然图像进行稀疏分解,得到一组滤波基函数和对应的一组重构基函数,将输入的图像分成m×m的RGB小块,并投影到这组基上,得到该图的特征;
第二步,利用有效编码原理,即当一个***是有效编码时,其熵最大的原理,为每个特征衡量增量编码长度指标;
第三步,依据这些增量编码长度指标,通过对各个特征的能量重新分配来处理各个小块的显著度,从而最终得到显著地图。
所述的第一步,具体如下:
①将训练图片分成若干个m×m像素大小的RGB彩色小块,并将每个小块向量化。对自然图片进行采样,得到大量的m×m的RGB彩色小块,将其作为训练样本。m的取值可以是8,16或32。m为每个RGB彩色小块的边长。
②通过标准的独立成分分析(ICA)方法,训练出基函数(A,W)。基函数的个数为m×m×3=3m2,即 其中wi为第i个滤波基函数(A的大小与W一样,1≤i≤3m2)。A,W是ICA方法训练出来的基函数,其值可以取任意范围,由输入决定。
③对于任意一幅图片X,将其分成n个m×m的RGB小块,形成采样矩阵X=[x1,x2,…xn],其中xk是第k个图像块的向量化表示(1≤k≤n),对xk进行线性变换 其中W是训练好的滤波基函数。则Sk为基函数的对应系数,也就是图片小块xk的特征,sk,i为第i个基函数的对应系数,即为第i个特征的值。对所有的xk都做同样的处理,得到X的特征S=[S1,S2,...,Sn]。n是输入图片X被分成RGB小块的个数,其值是由输入图片X的大小和m的取值所确定的。
第一步处理结束后,对于输入图片X,已经构造出3m2个特征S,接下来进行第二步。
所述第二步,具体如下:
①对于每个特征,计算激活率pi
这个量代表了该特征的平均能量发放水平。
②考虑熵在第i个特征的激活率pi上的变化,即第i个特征的增量编码长度指标,令 为随机变量的概率分布。假设,某个特定时刻的特征激活率分布为p,当第i个特征被激活时会对pi带来一个微小的扰动ε,因此新的分布变成:
因此,第i个特征的增量编码长度为:
本发明借助预测编码的原理,将能量、特征与显著度挂钩。增量编码长度(ICL)衡量了每个特征的对感知的熵变化率。这一指标用来指导能量分配,从而实现***整体上实现预测编码——即常见的信息会尽量少的使得***产生响应,而稀有的信息通常会触发***的强烈响应。
所述第三步,具体如下:
①根据所得到出的各个特征的增量编码长度指标,划分显著特征集合SF:
SF={i|ICL(pi)>0}(3.1)
划分{SF,SF}唯一确定了会导致整体***的熵增的特征。并且该划分有着明确的数学意义,对于一个特征,只有当其它在特征分布上是稀有的,也就是说,当对该特征进行新的观测,会导致整体特征分布p的熵增加。
②依照预测编码原则,在各个特征之间重新分配能量,对于显著特征集合内的特征i,分配权重di(i∈SF):
而对于非显著特征,定义其
③对于图片小块xk,其显著度定义为mk:
④有了各个图片小块的显著度之后,通过重构基A,生成整幅图片的显著地图M:
其中Ak表示重构基A的第k个列向量。
从公式(3.3)中可以看出,对于图片小块的显著度不是常量,而是会随着时间而发生变化。并且,由于在本发明的方法中,采样是一种连续过程,特征的权重会随着采样的增加连续变化,那么就可以成功地把采样变化理解为上下文对特征注意权重的影响。所谓“显著特征”,之所以显著,都是相对于当前上下文的特征分布而言的。
本发明的有益效果是:(1)由于采用的过滤基是预先训练好的,因此在处理一张新的输入图片时,不需要重新训练基函数,使得处理速度非常快,效率高,可以做到实时处理。(2)由于采用了基于特征本身,而非特征的空间分布差异的方式来对显著度进行分析,消除了对图片空间结构上的限制。在处理上,由于连续的采样,消除了“时间片”,从而不同帧(时间)的数据可以一起指导显著度的处理,解决了不同帧(时间)的显著度需要独立处理的问题,实现了动态性。
附图说明
图1.静态图片的显著地图;
其中:(a)、(d)、(g)为输入图片,(b)、(e)、(h)为本发明生成的显著地图,(c)、(f)、(i)为标注的眼动数据。
图2.视屏(动态视觉)的显著地图。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
1.特征构造
(1)采用的RGB彩色小块大小为8×8,通过对大量的自然图片进行采样,得到120000个8×8的RGB彩色小块,这些RGB彩色小块为基函数的训练数据。
(2)利用ICA方法来训练基函数(A,W),由于采用8×8的RGB彩色小块来作为训练样本,即m=8,因此基函数的个数为3×82=192。
(3)对于输入彩色图片,例如图片的大小为800×640,将其分成8000个8×8的RGB彩色小块,即n=8000,形成采样矩阵X=[x1,x1,...,x8000],其中xk是第k个图像块的向量化表示,对其进行线性变换Sk=Wxk=[sk,1,sk,2,...,sk,192],其中W是训练好的滤波基函数。则Sk为基函数的对应系数,也就是图片小块xk的特征。sk,i为第i基函数对应系数,即为第i个特征。
2.衡量增量编码长度(ICL)指标
(1)对各个特征,依据公式(2.1)计算其激活率p。
(2)根据各个特征的激活率,根据公式(2.3)衡量其增量编码长度指标
3.生成显著地图
(1)根据2中得到的各个特征的增量编码长度指标,利用公式(3.1)划分显著特征集合SF。
(2)利用公式(3.2),重新分配显著特征集合内的各特征的能量。
(3)对于图片小块xk,根据公式(3.3),处理其显著度mk
(4)有了输入图片的各个小块的显著度,利用公式(3.3),得到输入图片的显著地图M。
实例一:静止图片的显著地图
采用8×8的RGB小块来训练基函数(A,W),它们的维数为192。
对于大小为800×640的输入图片,将其分成8000个8×8的RGB彩色小块,即n=8000,形成采样矩阵X=[x1,x1,...,x8000]。并通过公式S=WX来计算基函数对应系数,即X的特征。
通过公式(2.1)得到各个特征激活率p,并依据p和公式(2.3)衡量各个特征的增量编码长度指标。
根据各个特征的增量编码长度指标和公式(3.1)划分显著特征集合SF,并利用公式(3.2),重新分配显著特征集合内的各特征的能量。那么对于图片小块xk,根据公式(3.3),处理其显著度mk,并最终利用公式(3.4),生成输入图片的显著地图M。
当顺序地对一张静态图片上的每个图像小块采样的时候,就可以估计该图片的特征分布特性,从而构筑出显著地图,将生成出的显著地图会进一步和人的眼动数据进行对比分析,以验证模型的正确性。图1中,(a)、(d)、(g)为输入图片,(b)、(e)、(h)为本发明生成的显著地图,(c)、(f)、(i)为标注的眼动数据。在实施例中,采用了文献″BRUCE N,TSOTSOS J.Saliency Basedon Information Maximization[J],Advances in Neural InformationProcessing Systems,2006,18:155-162″(作者:BRUCE N,TSOTSOS J.题目:基于信息量最大化的显著度,杂志:高级神经信息处理***,2006年18期,第155-162页)所提供的眼动数据作为基准,比较了的模型与传统的模型,结果表明本发明取得了最佳成绩。
实例二:视屏中的显著地图
相比以往同类方法,本发明的方法的一大优点在于它是连续的。增量编码长度是一个连续更新的过程。特征激活率的分布的变化可以是基于空域的,也可以是居于时域的。如果考虑时域变化是一个拉普拉斯分布的话,假定pt是第t帧,那么可以认为pt是以前特征响应的累积和:
其中λ是半衰期, 是标准化函数。
在对视屏做视觉注意提取的时候,通常面临目标运动和观测视角运动的问题。然而,在的基于特征的注意模型框架下,这些问题都迎刃而解,因为特征总会随着物体在视野中的位置而移动。
分析图像的信噪比(SNR),其定义如下:
其中F是手工标注的“前景”。当分别对250帧画面进行手工标注后,就对每一帧处理其显著度,其过程除了特征激活率p不同外,其他过程与生成静止图片的显著地图是一致的。之后,可以将生成的显著地图与手工标注进行对比,分析信噪比值。图2反映了结果,图中第一行为视频的截图,第二行反应了本发明的信噪比,最后一行则为Itti模型的信噪比,从图中可以看出,本发明的平均信噪比为0.4803,远好于现主流的Itti模型的0.1680。
Claims (1)
1.一种基于特征的动态视觉注意区域提取方法,其特征在于包括以下步骤:
第一步,采用独立成分分析方法对大量的自然图像进行稀疏分解,得到一组滤波基函数和对应的一组重构基函数,将输入的图像分成m×m的RGB小块,并投影到这组滤波基函数上,得到该图的特征,具体如下:
①将训练图片分成若干个m×m像素大小的RGB彩色小块,并将每个小块向量化,对自然图片进行采样,得到大量的m×m的RGB彩色小块,将其作为训练样本,m的取值是8,16或32,m为每个RGB彩色小块的边长;
②通过标准的独立成分分析方法,训练出基函数(A,W),基函数的个数为m×m×3=3m2,即 其中wi为第i个滤波基函数,基函数A的个数大小与基函数W一样,1≤i≤3m2,A,W是ICA方法训练出来的基函数;
③对于任意一幅图片X,将其分成n个m×m的RGB小块,形成采样矩阵X=[x1,x2,…xn],其中xk是第k个图像块的向量化表示,1≤k≤n,对xk进行线性变换 其中W是训练好的滤波基函数,则Sk为基函数的对应系数,也就是图片小块xk的特征,sk,i为第i基函数对应系数,即为第i个特征的值,对所有的xk都做同样的处理,得到X的特征S=[S1,S2,...,Sn],n是输入图片X被分成RGB小块的个数,其值是由输入图片X的大小和m的取值所确定的;
第二步,为每个特征衡量增量编码长度指标,具体如下:
②计算第i个特征的增量编码长度ICL(pi):
第三步,依据这些增量编码长度指标,通过对各个特征的能量重新分配来处 理各个小块的显著度,从而最终得到显著地图,具体如下:
①根据所得到的各个特征的增量编码长度指标,划分显著特征集合SF:
SF={i|ICL(pi)>0}
②依照预测编码原则,在各个特征之间重新分配能量,对于显著特征集合内的特征i,分配权重di,i∈SF:
而对于非显著特征,定义其权重
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100466886A CN101493890B (zh) | 2009-02-26 | 2009-02-26 | 基于特征的动态视觉注意区域提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100466886A CN101493890B (zh) | 2009-02-26 | 2009-02-26 | 基于特征的动态视觉注意区域提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101493890A CN101493890A (zh) | 2009-07-29 |
CN101493890B true CN101493890B (zh) | 2011-05-11 |
Family
ID=40924482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100466886A Expired - Fee Related CN101493890B (zh) | 2009-02-26 | 2009-02-26 | 基于特征的动态视觉注意区域提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101493890B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493890B (zh) * | 2009-02-26 | 2011-05-11 | 上海交通大学 | 基于特征的动态视觉注意区域提取方法 |
EP2524506B1 (en) * | 2010-01-15 | 2018-03-07 | Thomson Licensing DTV | Video coding using compressive sensing |
CN101840518A (zh) * | 2010-04-02 | 2010-09-22 | 中国科学院自动化研究所 | 基于生物视觉机理的物体训练和识别方法 |
HUE045579T2 (hu) | 2010-04-13 | 2020-01-28 | Ge Video Compression Llc | Síkközi predikció |
BR112012026391B1 (pt) | 2010-04-13 | 2020-12-15 | Ge Video Compression, Llc | Herança em amostra de arranjo em subdivisão multitree |
CN105120287B (zh) | 2010-04-13 | 2019-05-17 | Ge 视频压缩有限责任公司 | 解码器、编码器以及用于解码和编码的方法 |
CN106162171B (zh) | 2010-04-13 | 2020-09-11 | Ge视频压缩有限责任公司 | 解码器及方法、编码方法 |
CN101866484B (zh) * | 2010-06-08 | 2012-07-04 | 华中科技大学 | 一种图像中像素显著程度的计算方法 |
TWI478099B (zh) * | 2011-07-27 | 2015-03-21 | Univ Nat Taiwan | 具學習力之視覺注意預測系統及其方法 |
CN102568016B (zh) * | 2012-01-03 | 2013-12-25 | 西安电子科技大学 | 基于视觉注意的压缩感知图像目标重构方法 |
CN104778704B (zh) * | 2015-04-20 | 2017-07-21 | 北京航空航天大学 | 基于随机扫视图稀疏信号重构的图像关注区域检测方法 |
CN105426399A (zh) * | 2015-10-29 | 2016-03-23 | 天津大学 | 一种基于眼动的提取图像兴趣区域的交互式图像检索方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493890A (zh) * | 2009-02-26 | 2009-07-29 | 上海交通大学 | 基于特征的动态视觉注意区域提取方法 |
-
2009
- 2009-02-26 CN CN2009100466886A patent/CN101493890B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493890A (zh) * | 2009-02-26 | 2009-07-29 | 上海交通大学 | 基于特征的动态视觉注意区域提取方法 |
Non-Patent Citations (1)
Title |
---|
LAURENT I,CHRISTOF K,ERNST N.A model of saliency-based visual attention for rapid scene anlysis[J].《IEEE Transactions on PAMI》.1998,第20卷(第11期),1254-1259. * |
Also Published As
Publication number | Publication date |
---|---|
CN101493890A (zh) | 2009-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101493890B (zh) | 基于特征的动态视觉注意区域提取方法 | |
CN106778595B (zh) | 基于高斯混合模型的人群中异常行为的检测方法 | |
CN103839065B (zh) | 人群动态聚集特征提取方法 | |
CN104599292B (zh) | 一种基于低秩矩阵分解的抗噪运动目标检测算法 | |
CN108647668A (zh) | 多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法 | |
CN108710865A (zh) | 一种基于神经网络的司机异常行为检测方法 | |
CN108764142A (zh) | 基于3dcnn的无人机影像森林烟雾检测和分类方法 | |
CN110263833A (zh) | 基于编码-解码结构的图像语义分割方法 | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN101996327B (zh) | 基于加权张量子空间背景建模的视频异常检测方法 | |
CN107784276B (zh) | 微震事件识别方法和装置 | |
CN105069468A (zh) | 基于脊波和深度卷积网络的高光谱图像分类方法 | |
CN106204638A (zh) | 一种基于尺度自适应和遮挡处理的航拍目标跟踪方法 | |
CN103208008A (zh) | 基于机器视觉的交通视频监控目标检测快速适应方法 | |
CN103093250A (zh) | 一种基于新Haar-like特征的Adaboost人脸检测方法 | |
CN103902966A (zh) | 基于序列时空立方体特征的视频交互事件分析方法及装置 | |
CN107169994A (zh) | 基于多特征融合的相关滤波跟踪方法 | |
CN103617413B (zh) | 一种在图像中识别物体的方法 | |
CN105930794A (zh) | 一种基于云计算的室内场景识别方法 | |
US20220315243A1 (en) | Method for identification and recognition of aircraft take-off and landing runway based on pspnet network | |
CN102542295A (zh) | 一种采用图像分类技术从遥感图像中进行滑坡检测的方法 | |
CN104680554B (zh) | 基于surf的压缩跟踪方法和*** | |
CN104463248A (zh) | 基于深度玻尔兹曼机提取高层特征的高分辨率遥感图像飞机检测方法 | |
CN103400154A (zh) | 一种基于有监督等距映射的人体动作识别方法 | |
CN102184384A (zh) | 一种基于多尺度局部相位量化特征的人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110511 Termination date: 20140226 |