CN107977661A - 基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法 - Google Patents
基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法 Download PDFInfo
- Publication number
- CN107977661A CN107977661A CN201710963435.XA CN201710963435A CN107977661A CN 107977661 A CN107977661 A CN 107977661A CN 201710963435 A CN201710963435 A CN 201710963435A CN 107977661 A CN107977661 A CN 107977661A
- Authority
- CN
- China
- Prior art keywords
- matrix
- low
- sparse
- eigentransformation
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,包括:1)对原图像进行超像素聚类,并提取每个超像素的颜色、纹理和边缘特征,据此构成特征矩阵;2)在MSRA数据库中,基于梯度下降法学习得到特征变换矩阵;3)在MSRA数据库中,利用全卷积神经网络学习得到高层语义先验知识;4)利用特征变换矩阵和高层语义先验知识矩阵对特征矩阵进行变换;5)利用鲁棒主成分分析算法对变换后的矩阵进行低秩稀疏分解,并根据分解得到的稀疏噪声计算显著图。本发明作为图像预处理过程,可以被广泛的应用到视觉跟踪、图像分类、图像分割和目标重定位等视觉工作领域。
Description
技术领域
本发明涉及一种基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,该方法对与背景对比度不同、背景复杂度不同的感兴趣区域以及不同面积的感兴趣区域的图像都具有很好的检测效果,本发明作为图像预处理过程,可以被广泛的应用到视觉跟踪、图像分类、图像分割和目标重定位等视觉工作领域。
背景技术
随着信息科技的快速发展与推广,图像数据成为人类重要的信息来源之一,人们所接收的信息量呈指数级增长。如何在海量的图像信息中筛选出人类感兴趣的目标区域具有重要研究意义。研究发现,在复杂场景下,人类视觉处理***会将视觉注意力集中于该场景的少数几个对象,也称为感兴趣区域。感兴趣区域与人类视觉感知关系较为密切,具有一定的主观性。感兴趣区域检测作为图像预处理过程,可以被广泛的应用到视觉跟踪、图像分类、图像分割和目标重定位等视觉工作领域。
感兴趣区域检测方法分为自上而下和自下而上两种。自上而下的检测方法[1,2,3]是任务驱动型的,需要人工标注真值图进行监督训练,融入更多的人类感知(例如中心先验信息、色彩先验信息和语义先验信息等等)得到显著图。而自下而上的方法[4-12]是数据驱动型,更注重利用对比度、位置和纹理等图像特征得到显著图。最早的研究者Itti等人[4]提出一种基于局部对比度的空间域视觉模型,使用由中心向四周变化的图像差异性得到显著图。 Hou等人[5]提出了基于谱残差的SR算法。Achanta等人[6]提出基于图像频域计算显著度的 FT算法。Cheng等人[7]提出了基于直方图计算全局对比度的方法。Perazzi等人[8]引进了一种将显著性检测看作滤波的思想,提出了saliency filters(SF)方法。Goferman等人[9]提出了基于上下文感知的CA算法。Jiang等人[10]提出基于吸收马尔科夫链的MC算法。Yang等人先后提出基于凸包中心和图形正则化的GR算法[11]和基于流行排序的MR算法[12]。此外,低秩矩阵恢复作为高维数据分析及处理的工具被应用到显著性检测中[13-15]。Yan等人[13]提出将图像显著区域看作是稀疏噪声,将背景看作是低秩矩阵,利用稀疏表示和鲁棒主成分分析算法计算图像的显著性。该算法首先将图像分解成的小块,对每个图像块进行稀疏编码并合并成一个编码矩阵;然后利用鲁棒主成分分析分解编码矩阵;最后利用分解得到的稀疏矩阵构建相应图像块的显著性因子。但是,由于大尺寸的显著目标包含很多图像块,每个图像块中的显著目标不再满足稀疏特性,因而极大地影响了检测效果。 Lang等人[14]提出多任务低秩恢复的显著性检测算法,利用多任务低秩表示算法分解特征矩阵,并约束同一图像块中所有特征稀疏成分的一致性,然后采用重构误差构建相应图像块的显著性。该算法充分利用多特征描述的一致性信息,效果比文献[13]有所提升,但由于大尺寸的目标包含大量的特征描述,此时特征不再具有稀疏特性,仅仅利用重构误差不能解决这一问题,故该方法同样不能完整的检测出大尺寸的显著性目标。为了改善低秩矩阵恢复的结果,Shen等人[15]提出一种融合高层次和低层次信息的低秩矩阵恢复检测算法 (LRMR),这是一种自下而上与自上而下结合的算法。该算法改进了文献[18]中的不足,首先将图像进行超像素分割,并提取超像素的多个特征;然后通过学习得到特征变换矩阵和先验知识,包括中心先验、人脸先验和色彩先验,再利用学习得到的特征变换矩阵和先验知识对特征矩阵进行变换;最后利用鲁棒主成分分析算法对变换后的矩阵进行低秩与稀疏分解。该方法在一定程度上盖上了文献[13]和[14]的不足,但是由于中心先验存在一定的局限性,而在复杂场景下色彩先验也会失效,因此该算法对背景较复杂的图像检测效果不理想。受文献[15]的启发,本发明利用基于全卷积神经网络学习得到的高层语义先验知识替换文献[15]中的中心先验、人脸先验和色彩先验知识,并将其融入到低秩稀疏分解中,提高了算法在复杂场景下的检测感兴趣区域的性能。
参考文献:
[1]Marchesotti L,Cifarelli C,Csurka G.A framework for visual saliencydetection with applications to image thumbnailing.In:International Conferenceon Computer Vision, Kyoto,Japan:IEEE,2009,2232-2239
[2]Yang J,Yang M H.Top-down visual saliency via joint CRF anddictionary learning.IEEE Computer Society,2016,39(3),576-588
[3]Ng A Y,Jordan M I,Weiss Y.On spectral clustering:analysis and analgorithm. Proceedings of Advances in Neural Information Processing Systems,2002,14,849-856
[4]Itti L,Kouch C,Niebur E.A model of saliency-based visual attentionfor rapid scene analysis.IEEE Transactions on Pattern Analysis and MachineIntelligence,1998,20(11), 1254-1259
[5]Hou X,Zhang L.Saliency Detection:A spectral residual approach.In:Computer Vision and Pattern Recognition,Minneapolis,MN,USA:IEEE,2007,1-8
[6]Achanta R,Hemami S,Estrada F,et al.Frequency-tuned salient regiondetection.In: Computer Vision and Pattern Recognition,Miami,FL,USA:IEEE,2009,1597-1604
[7]Cheng M M,Zhang G X,Mitra N J,et al.Global contrast based salientregion detection.In: Computer Vision and Pattern Recognition.ColoradoSprings,CO,USA:IEEE,2011, 409-416
[8]Perazzi F,KrAahenbAuhl P,Pritch Y,et al.Saliency filters:contrastbased filtering for salient region detection.In:Computer Vision and PatternRecongnition.Providence,RI, USA:IEEE,2012,733-740
[9]Goferman S,Zelnikmanor L,Tal A.Context-aware saliencydetection.IEEE Transactions on Pattern Analysis&Machine Intelligence,2012,34(10),1915-1926
[10]Jiang B,Zhang L,Lu H,et al.Saliency Detection via AbsorbingMarkov Chain.In: Proceedings of the 2013IEEE International Conference onComputer Vision.Sydney, Australia:IEEE,2013.1665-1672
[11]Yang C,Zhang L,Lu H.Graph-Regularized Saliency Detection WithConvex-Hull-Based Center Prior.IEEE Signal Processing Letters,2013,20(7):637-640
[12]Yang C,Zhang L,Lu H,et al.Saliency Detection via Graph-BasedManifold Ranking.In: Proceedings of the 2013IEEE Conference on ComputerVision and Pattern Recognition. Portland OR,USA:IEEE,2013.3166-3173
[13]Yan J,Zhu M,Liu H,et al.Visual Saliency Detection via SparsityPursuit.IEEE Signal Processing Letters,2010,17(8):739-742
[14]Lang C,Liu G,Yu J,et al.Saliency detection by multitask sparsitypursuit.IEEE Transactions on Image Processing,2012,21(3):1327-1338
[15]Shen X,Wu Y.A unified approach to salient object detection vialow rank matrix recovery. In:Proceedings of the 2012IEEE Conference onComputer Vision and Pattern Recognition. Providence RI,USA:IEEE,2012.853-860
发明内容
本发明提出了一种基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,利用基于全卷积神经网络学习得到的高层语义先验知识替换文献[15]中的中心先验、人脸先验和色彩先验知识,并将其融入到低秩稀疏分解中,提高了算法在复杂场景下的检测感兴趣区域的性能。实现本发明目的技术方案,包括下列步骤:
步骤1:输入一幅图像,提取颜色、纹理和边缘等特征,构成维度d=53的特征矩阵。
(1)颜色特征:提取图像的R、G、B三通道灰度值以及色调(Hue)和饱和度(Saturation)描述图像的颜色特征;
(2)边缘特征:采用可控金字塔(Steerable pyramid)滤波器[21]对图像作多尺度和多方向分解,这里选取3个尺度、4个方向的滤波器,得到12个响应作为图像的边缘特征;
(3)纹理特征:采用Gabor滤波器[22]提取不同尺度、不同方向上的纹理特征,这里选取3个尺度、12个方向,得到36个响应作为图像的纹理特征。
利用mean-shift聚类算法对图像进行超像素聚类,得到N个超像素{pi|i=1,2,3,…,N},如图2(b)所示,计算每个超像素中所有像素特征的均值表示该超像素的特征值fi,所有超像素特征共同构成特征矩阵F=[f1,f2,…,fN].F∈Rd×N。
步骤2:基于梯度下降法利用MSRA标记的数据库学习得到特征变换矩阵,在此基础上对特征矩阵F进行特征变换。获得特征变换矩阵的过程如下。
(1)构造标记矩阵Q=diag(q1,q2,…,qN)∈RN×N,如果超像素pi在人工标注的显著性区域内,qi=0,否则qi=1。
(2)根据如下公式利用数据库中K幅图像学习特征变换矩阵T的优化模型,
s.t.||T||2=c
其中,为第k幅图像的特征矩阵,Nk表示第k幅图像的超像素个数,为第k幅图像的标记矩阵,||·||*表示矩阵的核范数,即矩阵的所有奇异值之和,||T||2表示矩阵T的范数,c是一个常数,阻止T任意变大或变小。
(3)利用梯度下降法求解梯度下降方向,公式如下:
矩阵X的奇异值分解为X=U∑VT,故核范数的导数为:
其中W满足:UTW=0,WV=0且||W||≤1。
(4)利用如下公式更新特征变换矩阵T,直到算法收敛至局部最优,
其中α为步长。
步骤3:实验的训练数据集来自MSRA数据库中标记的17838张图片,将训练图像标记成前景和背景两类。在FCN网络结构中,第一行在交替经过7个卷积层和5个池化层之后,得到feature map,最后一步反卷积层是对feature map进行步长为32像素的上采样,记此时网络结构为FCN-32s。本发明首先训练得到FCN-32s模型,实验发现,由于经过多次最大池化操作造成精度下降,直接对降采样输出的feature map进行上采样会导致输出结果非常粗糙,损失很多细节。因此,本发明尝试将步长为32像素上采样得到的特征做2倍上采样,与步长为16像素上采样得到的特征进行求和,并将得到的特征上采样至原图大小进行训练,得到FCN-16s模型,此时获得了相比于FCN-32s更加精确的细节信息。使用同样的方法继续训练网络得到FCN-8s模型,对细节信息的预测更为准确。实验表明,继续融合更底层的特征训练网络虽然能使得细节信息预测更为准确,但对低秩稀疏分解所得结果图的效果提升不明显,而训练时间会明显增加,故本发明采用FCN-8s 模型获取图像的高层语义先验知识,而不再融合更底层的特征。
至此,已训练得到FCN-8s模型。对于每一幅待处理图像,利用训练好的FCN-8s模型进行处理,输出基于FCN的语义先验知识,据此构建相应的高层语义先验知识矩阵 P∈RN×N,如下所示:
其中pri表示FCN测试结果图像中超像素pi内所有像素的均值。
步骤4:利用特征变换矩阵T和高层先验知识矩阵P对特征矩阵F=[f1,f2,…,fN]∈Rd×N进行变换,得到特征变换后的矩阵:
A=TFP
其中,F∈Rd×N是特征矩阵,T∈Rd×d是学习的到的特征变换矩阵,P∈RN×N是高层先验知识矩阵。
步骤5:利用鲁棒主成分分析算法对变换后的矩阵进行低秩稀疏分解,即用鲁棒主成分分析算法求解如下公式:
s.t. A=L+S
其中,A∈Rd×N是特征变换后的矩阵,L∈Rd×N表示低秩矩阵,S∈Rd×N表示稀疏矩阵,||·||*表示矩阵的核范数,即矩阵的所有奇异值之和,||·||1表示矩阵的范数,即矩阵中所有元素的绝对值之和。
假设S*是稀疏矩阵的最优解,由如下公式可计算出显著图:
Sal(pi)=||S*(:,i)||1
其中,Sal(pi)表示超像素pi的显著值,||S*(:,i)||1表示S*的第i列向量的范数,即向量中所有元素的绝对值之和。
与现有技术相比,本发明的有益效果是:
1.本发明利用基于全卷积神经网络学习得到高层语义先验知识,并将其融入到低秩稀疏分解中,提高了算法在复杂场景下的检测感兴趣区域的性能。实验结果验证了本发明提出的基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法的有效性。
2.本发明可以准确检测感兴趣区域,同时可以很好地抑制背景噪声,通过实验证明了本发明的优越性。
附图说明
图1总体框架示意图,即摘要附图;
图2(a)原图;
图2(b)超像素聚类结果;
图2(c)特征变换之后的R、G、B通道合成的图像;
图2(d)对变换后的特征矩阵进行低秩稀疏分解得到的显著图结果;
图2(e)真值图;
图3 FCN的网络结构;
图4(a)原图;
图4(b)基于FCN的语义先验知识;
图4(c)融合高层语义先验知识后,基于低秩稀疏分解的结果图;
图4(d)文献[15]方法的结果图;
图4(e)真值图;
图5(a)原图;
图5(b)真值图;
图5(c)FT算法结果图;
图5(d)SR算法结果图;
图5(e)CA算法结果图;
图5(f)SF算法结果图;
图5(g)GR算法结果图;
图5(h)MC算法结果图;
图5(i)MR算法结果图;
图5(j)LRMR算法结果图;
图5(k)本发明算法结果图;
图6(a)MSRA-test1000数据库中准确率-召回率对比;
图6(b)PASCAL_S数据库中准确率-召回率对比;
图7(a)MSRA-test1000数据库中F-measure对比;
图7(b)PASCAL_S数据库中F-measure对比;
具体实施方式
下面结合具体实施方式对本发明作进一步详细地描述。
目前感兴趣区域检测的主要问题是复杂背景下,不能准确检测感兴趣区域,同时,背景噪声得不到较好的抑制。本发明提出基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,本发明可以在复杂背景下,准确检测感兴趣区域,同时结果图可以很好地抑制背景噪声。
本发明通过以下步骤实现了基于背景先验和前景节点的感兴趣区域检测方法,具体步骤如下所示:
步骤1:输入一幅图像,提取颜色、纹理和边缘等特征,构成维度d=53的特征矩阵。
(1)颜色特征:提取图像的R、G、B三通道灰度值以及色调(Hue)和饱和度(Saturation)描述图像的颜色特征;
(2)边缘特征:采用可控金字塔(Steerable pyramid)滤波器[21]对图像作多尺度和多方向分解,这里选取3个尺度、4个方向的滤波器,得到12个响应作为图像的边缘特征;
(3)纹理特征:采用Gabor滤波器[22]提取不同尺度、不同方向上的纹理特征,这里选取3个尺度、12个方向,得到36个响应作为图像的纹理特征。
利用mean-shift聚类算法对图像进行超像素聚类,得到N个超像素{pi|i=1,2,3,…,N},如图2(b)所示,计算每个超像素中所有像素特征的均值表示该超像素的特征值fi,所有超像素特征共同构成特征矩阵F=[f1,f2,…,fN].F∈Rd×N。
步骤2:基于梯度下降法利用MSRA标记的数据库学习得到特征变换矩阵,在此基础上对特征矩阵F进行特征变换。获得特征变换矩阵的过程如下。
(1)构造标记矩阵Q=diag(q1,q2,…,qN)∈RN×N,如果超像素pi在人工标注的显著性区域内,qi=0,否则qi=1。
(2)根据如下公式利用数据库中K幅图像学习特征变换矩阵T的优化模型,
s.t.||T||2=c
其中,为第k幅图像的特征矩阵,Nk表示第k幅图像的超像素个数,为第k幅图像的标记矩阵,||·||*表示矩阵的核范数,即矩阵的所有奇异值之和,||T||2表示矩阵T的范数,c是一个常数,阻止T任意变大或变小。
(3)利用梯度下降法求解梯度下降方向,公式如下:
矩阵X的奇异值分解为X=U∑VT,故核范数的导数为:
其中W满足:UTW=0,WV=0且||W||≤1。
(4)利用如下公式更新特征变换矩阵T,直到算法收敛至局部最优,
其中α为步长。
步骤3:实验的训练数据集来自MSRA数据库中标记的17838张图片,将训练图像标记成前景和背景两类。在FCN网络结构中,第一行在交替经过7个卷积层和5个池化层之后,得到feature map,最后一步反卷积层是对feature map进行步长为32像素的上采样,记此时网络结构为FCN-32s。本发明首先训练得到FCN-32s模型,实验发现,由于经过多次最大池化操作造成精度下降,直接对降采样输出的feature map进行上采样会导致输出结果非常粗糙,损失很多细节。因此,本发明尝试将步长为32像素上采样得到的特征做2倍上采样,与步长为16像素上采样得到的特征进行求和,并将得到的特征上采样至原图大小进行训练,得到FCN-16s模型,此时获得了相比于FCN-32s更加精确的细节信息。使用同样的方法继续训练网络得到FCN-8s模型,对细节信息的预测更为准确。实验表明,继续融合更底层的特征训练网络虽然能使得细节信息预测更为准确,但对低秩稀疏分解所得结果图的效果提升不明显,而训练时间会明显增加,故本发明采用FCN-8s 模型获取图像的高层语义先验知识,而不再融合更底层的特征。
至此,已训练得到FCN-8s模型。对于每一幅待处理图像,利用训练好的FCN-8s模型进行处理,输出基于FCN的语义先验知识,据此构建相应的高层语义先验知识矩阵 P∈RN×N,如公式(5)所示:
其中pri表示FCN测试结果图像中超像素pi内所有像素的均值。
步骤4:利用特征变换矩阵T和高层先验知识矩阵P对特征矩阵F=[f1,f2,…,fN]∈Rd×N进行变换,得到特征变换后的矩阵:
A=TFP
其中,F∈Rd×N是特征矩阵,T∈Rd×d是学习的到的特征变换矩阵,P∈RN×N是高层先验知识矩阵。
步骤5:利用鲁棒主成分分析算法对变换后的矩阵进行低秩稀疏分解,即用鲁棒主成分分析算法求解如下公式:
s.t.A=L+S
其中,A∈Rd×N是特征变换后的矩阵,L∈Rd×N表示低秩矩阵,S∈Rd×N表示稀疏矩阵,||·||*表示矩阵的核范数,即矩阵的所有奇异值之和,||·||1表示矩阵的范数,即矩阵中所有元素的绝对值之和。
假设S*是稀疏矩阵的最优解,由如下公式可计算出显著图:
Sal(pi)=||S*(:,i)||1
其中,Sal(pi)表示超像素pi的显著值,||S*(:,i)||1表示S*的第i列向量的范数,即向量中所有元素的绝对值之和。
现结合附图对整个过程做详细介绍:
1.构造特征矩阵
利用mean-shift聚类算法对原图像进行聚类,提取每个像素的颜色,边缘和纹理共53 维特征,据此构成特征矩阵。
2.基于梯度下降法构造特征变换矩阵
本发明采用文献[13-15]的思想,将图像显著区域看作是稀疏噪声,将背景看作是低秩矩阵。在复杂背景下,超像素聚类结果后的图像背景相似度依旧不高,如图2(b)所示,因此原始图像空间中的特征并不利于低秩稀疏分解。为了找到一个合适的特征空间能够将大部分的图像背景表示为低秩矩阵,本发明基于梯度下降法利用MSRA标记的数据库学习得到特征变换矩阵,在此基础上对特征矩阵F进行特征变换。
图2显示部分中间过程结果。图2(b)表示mean-shift聚类结果,可以看出,由于背景复杂,聚类后的图像背景的相似性不够高,不利于低秩稀疏分解;图2(c)表示R、G、B 三个特征经过特征变换后合成的可视化结果,可以看出特征变换后背景的相似性明显提高;图2(d)表示利用特征变换矩阵对特征矩阵进行特征变换,再对变换后的特征矩阵进行低秩稀疏分解得到的显著图,从图中可以看出,其中的背景噪声比较多,感兴趣区域不突出,显著图并不理想。这说明虽然特征变换提高了背景的相似性,在一定程度上提升了低秩稀疏分解的效果,但由于背景非常复杂,仅基于颜色、纹理和边缘等低层次信息仍然无法得到准确的感兴趣区域。因此本发明考虑在特征变换时融入高层语义先验知识,进一步提高特征的有效性。
3.显著性融合
FCN的网络结构如图3所示,本发明在原分类器参数的基础上,利用MSRA数据库使用反向传播算法微调FCN所有层的参数。
经实验发现,基于FCN得到的高层语义信息中,对目标物体的定位比较准确。虽然有些目标物体的轮廓变形(例如图4(b)中的第二行),有时存在误检(例如图4(b)中的第一行),但是并不影响其消除背景噪声的作用。将其应用到低秩稀疏分解(低秩稀疏分解方法将在2.4中介绍)中,可以提升感兴趣区域的检测效果。尤其是在复杂背景下,相比于文献[15]中利用中心、颜色、人脸先验知识得到的结果而言,融合FCN高层语义先验知识后,基于低秩稀疏分解的检测效果明显改善,如图4(c)和图4(d)的对比结果所示。
4.主观评价
利用2个公开标准数据库MASR-test1000和PASCAL_S对算法的准确性和有效性进行评价。MSRA-test1000是本发明在MSRA-20000数据库中挑选出来的1000张图像,这些图像未参与高层先验知识的训练,其中有些图像背景比较复杂。PASCAL_S来源于 PASCALVOC2010数据库,包含了850张复杂背景的自然图像。这些数据库图片都有人工标注的真值图,方便对算法进行客观评价。
图5是本发明算法结果与其他8种算法的结果对比图。由图中对比效果可以直观看出, FT算法可以检测出部分图像的感兴趣区域,但背景噪声较多。SR和CA算法可以较为准确的定位感兴趣区域,但是检测出的感兴趣区域边缘较明显而内部区域不突出,并且背景噪声较多。SF算法背景噪声小,但是感兴趣区域显著度不高。GR、MC、MR和LRMR 算法都是比较优秀的算法,对于背景与感兴趣区域对比度较明显的图像可以很好的检测出感兴趣区域,但是对背景噪声抑制有些不足,例如第二行和第四行的图像;对于背景复杂的图像,感兴趣区域与背景对比度不明显,这四种方法不能很好的定位感兴趣区域,检测出的感兴趣区域显著度不够高,背景噪声抑制不足,例如第一、三和五行的图像。本发明方法可以在复杂的图像中准确检测出感兴趣区域,并且很好的抑制背景噪声,与其他8 种算法相比更接近于真值图。
5.客观评价
为了对本发明方法的性能进行客观评价,采用四个评价指标,即准确率(Precision)、召回率(Recall)、F-measure以及平均绝对误差(MAE)进行对比分析。
(1)准确率和召回率
首先采用最常用的准确率-召回率曲线对算法进行客观比较。如下公式所示,依次选取0到255之间的灰度值作为阈值Ti,分别将各算法的结果图进行二值化,得到二值图,并与人工标注的真值图进行比较,利用如下公式计算各算法的准确率Pi和召回率Ri,并画出Precision-Recall曲线。
式中STi表示显著图经过二值分割后值为1的区域,GT表示真值图中值为1的区域,|R|表示区域R的像素个数。
Precision-Recall曲线中在相同召回率下准确率越高,说明对应的方法越有效。图6 是9种算法在MASR-test1000和PASCAL_S两个数据库上的Precision-Recall曲线,由图可以看出在这两个数据库上本发明方法优于其他算法。
(2)F-measure
为了综合考虑准确率和召回率,本发明采用F-measure(Fβ)进一步评价各个算法。
其中,P是准确率,R是召回率,β是权重系数,这里将β设置为β2=0.3,可以达到突出准确率的目的。F-measure衡量了准确率和召回率的整体性能,其数值越大说明方法性能越好。计算F-measure时,需要将各个算法结果在同等条件进行二值化,本发明采用自适应阈值分割算法,即将阈值设置为每幅显著图的平均值,然后与真值图进行比较,计算得到准确率和召回率,再利用上式计算F-measure值。图7是9种算法在两个数据库上的比较结果,可以看出本发明算法的F-measure最大。
(3)平均绝对误差
Precision-Recall曲线只是评价目标的准确性,而对于非显著区域并没有评判,即不能表征算法对背景噪声的抑制情况,因此本发明利用平均绝对误差(MAE)对整幅图进行评价。MAE是以像素点为单位计算显著图与真值图之间的平均差异,计算公式如下:
式中M和N代表图像的高度和宽度,S(i,j)代表显著图对应的像素值,GT(i,j)代表真值图对应的像素值。显然MAE的值越小,显著图越接近于真值图。表1为9种算法的MAE 比较结果。可以看出,在两个数据库中本发明算法的MAE值均小于其他8种算法,这说明本发明算法的显著图更接近于真值图。
表1.MAE比较
综上所述,本发明可以准确检测感兴趣区域,又可以很好地抑制背景噪声。在公开的 MASR-test1000和PASCAL_S数据集上进行实验验证,在准确率-召回率曲线、F-measure和MAE指标上均优于当前流行算法。
Claims (6)
1.一种基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,包括下列步骤:
步骤1:对原图像进行超像素聚类,并提取每个超像素的颜色、纹理和边缘特征,据此构成特征矩阵;
步骤2:基于梯度下降法学习得到特征变换矩阵;
步骤3:利用全卷积神经网络学习得到高层语义先验知识;
步骤4:利用特征变换矩阵和高层语义先验知识矩阵对特征矩阵进行变换;
步骤5:利用鲁棒主成分分析算法对变换后的矩阵进行低秩稀疏分解,并根据分解得到的稀疏噪声计算显著图。
2.根据权利要求1所述基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,其特征在于,步骤1中,利用mean-shift聚类算法对原图像进行聚类,提取每个像素的颜色、边缘和纹理共53维特征,据此构成特征矩阵。
3.根据权利要求1所述基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,其特征在于,步骤2中,基于梯度下降法利用MSRA标记的数据库学习得到特征变换矩阵T。
4.根据权利要求1所述基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,其特征在于,步骤3中,基于FCN网络利用MSRA数据库训练的得到FCN-8s模型,对于每一幅待处理图像,利用训练好的FCN-8s模型进行处理,输出基于FCN的语义先验知识,据此构建相应的高层语义先验知识矩阵P∈RN×N:
其中pri表示FCN测试结果图像中超像素pi内所有像素的均值。
5.根据权利要求1所述基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,其特征在于,步骤4中,利用学习得到的特征变换矩阵T和高层语义先验知识P对特征矩阵F进行变换,得到特征变换后的矩阵,
A=TFP
其中,F∈Rd×N是特征矩阵,T∈Rd×d是学习的到的特征变换矩阵,P∈RN×N是高层先验知识矩阵。
6.根据权利要求1所述基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法,其特征在于,步骤5中,利用鲁棒主成分分析算法对变换后的矩阵进行低秩稀疏分解,求解如下公式:
<mrow>
<mo>(</mo>
<msup>
<mi>L</mi>
<mo>*</mo>
</msup>
<mo>,</mo>
<msup>
<mi>S</mi>
<mo>*</mo>
</msup>
<mo>)</mo>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>L</mi>
<mo>,</mo>
<mi>S</mi>
</mrow>
</munder>
<mo>(</mo>
<mo>|</mo>
<mo>|</mo>
<mi>L</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mo>*</mo>
</msub>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>S</mi>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
s.t.A=L+S
其中,A∈Rd×N是特征变换后的矩阵,L∈Rd×N表示低秩矩阵,S∈Rd×N表示稀疏矩阵,||·||*表示矩阵的核范数,即矩阵的所有奇异值之和,||·||1表示矩阵的范数,即矩阵中所有元素的绝对值之和,由如下公式计算出显著图:
Sal(pi)=||S*(:,i)||1
其中,S*是稀疏矩阵的最优解,Sal(pi)表示超像素pi的显著值,||S*(:,i)||1表示S*的第i列向量的范数,即向量中所有元素的绝对值之和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710963435.XA CN107977661B (zh) | 2017-10-13 | 2017-10-13 | 基于fcn与低秩稀疏分解的感兴趣区域检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710963435.XA CN107977661B (zh) | 2017-10-13 | 2017-10-13 | 基于fcn与低秩稀疏分解的感兴趣区域检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107977661A true CN107977661A (zh) | 2018-05-01 |
CN107977661B CN107977661B (zh) | 2022-05-03 |
Family
ID=62012438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710963435.XA Active CN107977661B (zh) | 2017-10-13 | 2017-10-13 | 基于fcn与低秩稀疏分解的感兴趣区域检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977661B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614991A (zh) * | 2018-11-19 | 2019-04-12 | 成都信息工程大学 | 一种基于Attention的多尺度扩张性心肌的分割分类方法 |
CN109961444A (zh) * | 2019-03-01 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及电子设备 |
CN110310277A (zh) * | 2019-07-05 | 2019-10-08 | 中原工学院 | 基于深度特征和ntv-rpca的织物疵点检测方法 |
CN111339917A (zh) * | 2020-02-24 | 2020-06-26 | 大连理工大学 | 一种真实场景下玻璃检测的方法 |
CN111640144A (zh) * | 2020-05-21 | 2020-09-08 | 上海工程技术大学 | 一种多视角提花织物图案分割算法 |
CN111833284A (zh) * | 2020-07-16 | 2020-10-27 | 昆明理工大学 | 一种基于低秩分解和卷积稀疏编码的多源图像融合的方法 |
CN111833371A (zh) * | 2020-09-17 | 2020-10-27 | 领伟创新智能***(浙江)有限公司 | 一种基于pq-mean稀疏测度的图像边缘检测方法 |
CN112861924A (zh) * | 2021-01-17 | 2021-05-28 | 西北工业大学 | 一种可见光/红外图像多平台分布式融合多目标检测方法 |
CN117132006A (zh) * | 2023-10-27 | 2023-11-28 | 中国铁塔股份有限公司吉林省分公司 | 基于能源管理***的能耗预测方法及*** |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971116A (zh) * | 2014-04-24 | 2014-08-06 | 西北工业大学 | 基于Kinect的感兴趣区域检测方法 |
US20140307917A1 (en) * | 2013-04-12 | 2014-10-16 | Toyota Motor Engineering & Manufacturing North America, Inc. | Robust feature fusion for multi-view object tracking |
CN105574534A (zh) * | 2015-12-17 | 2016-05-11 | 西安电子科技大学 | 基于稀疏子空间聚类和低秩表示的显著性目标检测方法 |
CN105740910A (zh) * | 2016-02-02 | 2016-07-06 | 北京格灵深瞳信息技术有限公司 | 一种车辆物件检测方法及装置 |
US20160260199A1 (en) * | 2015-03-03 | 2016-09-08 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
CN106203356A (zh) * | 2016-07-12 | 2016-12-07 | 中国计量大学 | 一种基于卷积网络特征提取的人脸识别方法 |
CN106228544A (zh) * | 2016-07-14 | 2016-12-14 | 郑州航空工业管理学院 | 一种基于稀疏表示和标签传播的显著性检测方法 |
CN106250895A (zh) * | 2016-08-15 | 2016-12-21 | 北京理工大学 | 一种光学遥感图像感兴趣区域检测方法 |
CN106339661A (zh) * | 2015-07-17 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 一种用于检测图像中文本区域的方法及装置 |
CN106372390A (zh) * | 2016-08-25 | 2017-02-01 | 姹ゅ钩 | 一种基于深度卷积神经网络的预防肺癌自助健康云服务*** |
WO2017040691A1 (en) * | 2015-08-31 | 2017-03-09 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
CN106815842A (zh) * | 2017-01-23 | 2017-06-09 | 河海大学 | 一种改进的基于超像素的图像显著性检测方法 |
US20170262994A1 (en) * | 2015-11-30 | 2017-09-14 | Snapchat, Inc. | Image segmentation and modification of a video stream |
-
2017
- 2017-10-13 CN CN201710963435.XA patent/CN107977661B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140307917A1 (en) * | 2013-04-12 | 2014-10-16 | Toyota Motor Engineering & Manufacturing North America, Inc. | Robust feature fusion for multi-view object tracking |
CN103971116A (zh) * | 2014-04-24 | 2014-08-06 | 西北工业大学 | 基于Kinect的感兴趣区域检测方法 |
US20160260199A1 (en) * | 2015-03-03 | 2016-09-08 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
CN106339661A (zh) * | 2015-07-17 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 一种用于检测图像中文本区域的方法及装置 |
WO2017040691A1 (en) * | 2015-08-31 | 2017-03-09 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
US20170262994A1 (en) * | 2015-11-30 | 2017-09-14 | Snapchat, Inc. | Image segmentation and modification of a video stream |
CN105574534A (zh) * | 2015-12-17 | 2016-05-11 | 西安电子科技大学 | 基于稀疏子空间聚类和低秩表示的显著性目标检测方法 |
CN105740910A (zh) * | 2016-02-02 | 2016-07-06 | 北京格灵深瞳信息技术有限公司 | 一种车辆物件检测方法及装置 |
CN106203356A (zh) * | 2016-07-12 | 2016-12-07 | 中国计量大学 | 一种基于卷积网络特征提取的人脸识别方法 |
CN106228544A (zh) * | 2016-07-14 | 2016-12-14 | 郑州航空工业管理学院 | 一种基于稀疏表示和标签传播的显著性检测方法 |
CN106250895A (zh) * | 2016-08-15 | 2016-12-21 | 北京理工大学 | 一种光学遥感图像感兴趣区域检测方法 |
CN106372390A (zh) * | 2016-08-25 | 2017-02-01 | 姹ゅ钩 | 一种基于深度卷积神经网络的预防肺癌自助健康云服务*** |
CN106815842A (zh) * | 2017-01-23 | 2017-06-09 | 河海大学 | 一种改进的基于超像素的图像显著性检测方法 |
Non-Patent Citations (3)
Title |
---|
MARIUS PACHITARIU等: "Extracting regions of interest from biological images with convolutional sparse block coding", 《GOOGLE》 * |
XIAOHUI SHEN等: "A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery", 《IEEE》 * |
王晓红等: "基于QR码和Schur分解的感兴趣区域水印算法", 《光电子·激光》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614991A (zh) * | 2018-11-19 | 2019-04-12 | 成都信息工程大学 | 一种基于Attention的多尺度扩张性心肌的分割分类方法 |
CN109961444A (zh) * | 2019-03-01 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及电子设备 |
CN109961444B (zh) * | 2019-03-01 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及电子设备 |
CN110310277B (zh) * | 2019-07-05 | 2020-07-24 | 中原工学院 | 基于深度特征和ntv-rpca的织物疵点检测方法 |
CN110310277A (zh) * | 2019-07-05 | 2019-10-08 | 中原工学院 | 基于深度特征和ntv-rpca的织物疵点检测方法 |
CN111339917A (zh) * | 2020-02-24 | 2020-06-26 | 大连理工大学 | 一种真实场景下玻璃检测的方法 |
CN111339917B (zh) * | 2020-02-24 | 2022-08-09 | 大连理工大学 | 一种真实场景下玻璃检测的方法 |
CN111640144A (zh) * | 2020-05-21 | 2020-09-08 | 上海工程技术大学 | 一种多视角提花织物图案分割算法 |
CN111833284A (zh) * | 2020-07-16 | 2020-10-27 | 昆明理工大学 | 一种基于低秩分解和卷积稀疏编码的多源图像融合的方法 |
CN111833284B (zh) * | 2020-07-16 | 2022-10-14 | 昆明理工大学 | 一种基于低秩分解和卷积稀疏编码的多源图像融合的方法 |
CN111833371A (zh) * | 2020-09-17 | 2020-10-27 | 领伟创新智能***(浙江)有限公司 | 一种基于pq-mean稀疏测度的图像边缘检测方法 |
CN111833371B (zh) * | 2020-09-17 | 2020-12-11 | 领伟创新智能***(浙江)有限公司 | 一种基于pq-mean稀疏测度的图像边缘检测方法 |
CN112861924A (zh) * | 2021-01-17 | 2021-05-28 | 西北工业大学 | 一种可见光/红外图像多平台分布式融合多目标检测方法 |
CN112861924B (zh) * | 2021-01-17 | 2023-04-07 | 西北工业大学 | 一种可见光/红外图像多平台分布式融合多目标检测方法 |
CN117132006A (zh) * | 2023-10-27 | 2023-11-28 | 中国铁塔股份有限公司吉林省分公司 | 基于能源管理***的能耗预测方法及*** |
CN117132006B (zh) * | 2023-10-27 | 2024-01-30 | 中国铁塔股份有限公司吉林省分公司 | 基于能源管理***的能耗预测方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN107977661B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977661A (zh) | 基于全卷积神经网络与低秩稀疏分解的感兴趣区域检测方法 | |
Gholamalinezhad et al. | Pooling methods in deep neural networks, a review | |
CN107944442B (zh) | 基于改进卷积神经网络的对象检测装置及方法 | |
CN108986140B (zh) | 基于相关滤波和颜色检测的目标尺度自适应跟踪方法 | |
Zou et al. | Ship detection in spaceborne optical image with SVD networks | |
Distante et al. | Handbook of image processing and computer vision | |
O'Callaghan et al. | Combined morphological-spectral unsupervised image segmentation | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
Voisin et al. | Supervised classification of multisensor and multiresolution remote sensing images with a hierarchical copula-based approach | |
Chen et al. | Convolutional neural network based dem super resolution | |
CN103049767B (zh) | 基于生物激发特征和流形学习的极光图像分类方法 | |
CN107977660A (zh) | 基于背景先验和前景节点的感兴趣区域检测方法 | |
Huang et al. | Hyperspectral image classification via discriminant Gabor ensemble filter | |
Liu et al. | Iterative relaxed collaborative representation with adaptive weights learning for noise robust face hallucination | |
Chaki et al. | Recognition of whole and deformed plant leaves using statistical shape features and neuro-fuzzy classifier | |
Qu et al. | Hyperspectral and panchromatic image fusion via adaptive tensor and multi-scale retinex algorithm | |
Choy et al. | Supervised texture classification using characteristic generalized Gaussian density | |
Zilvan et al. | Convolutional variational autoencoder-based feature learning for automatic tea clone recognition | |
Taghipour et al. | Hyperspectral anomaly detection using spectral–spatial features based on the human visual system | |
Abishek et al. | Soil Texture Prediction Using Machine Learning Approach for Sustainable Soil Health Management | |
Song et al. | HDTFF-Net: Hierarchical deep texture features fusion network for high-resolution remote sensing scene classification | |
Johnson et al. | A study on eye fixation prediction and salient object detection in supervised saliency | |
Sukhbaatar et al. | Auto-pooling: Learning to improve invariance of image features from image sequences | |
Lu et al. | Exploring generative perspective of convolutional neural networks by learning random field models | |
Peluffo et al. | Optimal data projection for kernel spectral clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |