CN110414513A - 基于语义增强卷积神经网络的视觉显著性检测方法 - Google Patents
基于语义增强卷积神经网络的视觉显著性检测方法 Download PDFInfo
- Publication number
- CN110414513A CN110414513A CN201910699533.6A CN201910699533A CN110414513A CN 110414513 A CN110414513 A CN 110414513A CN 201910699533 A CN201910699533 A CN 201910699533A CN 110414513 A CN110414513 A CN 110414513A
- Authority
- CN
- China
- Prior art keywords
- convolution
- layers
- layer
- convolutional layer
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义增强卷积神经网络的视觉显著性检测方法,通过对经典模型VGG16进行改进,引入卷积层代替全连接层,能够更好的保存图像的细节信息;并且在卷积层后面加入BN层来加快网络的训练速度,同时为了解决网络的过拟合问题在所添加的卷积层之后添加了dropout层。在最后卷积层之后嵌入SENet网络单元来进一步提升网络性能增强特征的语义性。本发明能够解决传统方法无法提取图像深层特征的问题,同时可以加强图像的细节信息,并对提取的特征进行自适应的加权来减少在网络传播中图像主要特征信息的损失和噪声的干扰。本发明能够获得目标区域更加准确,噪声更少的视觉显著图。
Description
技术领域
本发明属于视觉显著性技术领域,具体涉及一种基于语义增强卷积神经网络的视觉显著性检测方法的设计。
背景技术
近年来,随着硬件运算能力的不断提高,深度学习技术被广泛的应用在计算机视觉领域中,在各细分领域中都发挥了重大的作用。和各种传统的算法相比,深度学习技术不需要太多的人工提取特征和人工搭建模型等繁琐的操作,它只需要人工设定框架然后就可以通过自主学习的方式对各种层次特征进行提取。在视觉显著性领域,传统的方法往往通过提取经过实验验证有效的特征,并且进行不同的尺度的计算,然后对特征图进行融合得到对应的显著图。然而在采用深度学习技术后,就可以让神经网络在经过大量数据训练的情况下自主的提取合适特征,这样就大大的增加了算法的准确率。
近年来通过卷积神经网络进行图像识别获得了很大的成功,视觉显著性领域的学者也开始使用卷积神经网络进行图像显著性的计算。例如:(1)通过在深度CNN网络上进行图像的多尺度特征的提取,并通过对模型训练学习来预测显著图;(2)通过结合VGG网络和CNN模型来提取图像的高层次特征和低层特征,然后在全连接层进行训练,来计算图形块的显著值;(3)优化HED网络,然后通过短连接来链接深层特征和浅层特征,最终能够在多个尺度下得到显著图;(4)通过对多个尺度下的卷积特征进行级联来进行显著性计算。
上述现有的使用卷积神经网络进行图像显著性检测及计算的方法均存在无法提取图像深层的特征,最终生成的显著图细节信息不准确,并且有较多的噪声干扰的问题。
发明内容
本发明的目的是为了解决现有的使用卷积神经网络进行图像显著性检测及计算的方法均存在无法提取图像深层的特征的问题,提出一种基于语义增强卷积神经网络的视觉显著性检测方法,可以加强图像的细节信息并对提取的特征进行自适应的加权,从而减少在网络传播中图像主要特征信息的损失和噪声的干扰。
本发明的技术方案为:一种基于语义增强卷积神经网络的视觉显著性检测方法,包括以下步骤:
S1、在VGG16网络的基础上构建语义增强卷积神经网络。
S2、以最小化输入图像的交叉熵损失函数为目标,对语义增强卷积神经网络进行训练,得到视觉显著性检测模型。
S3、将待检测图像输入视觉显著性检测模型,得到视觉显著图。
进一步地,步骤S1中构建的语义增强卷积神经网络包括依次连接的输入层、第一卷积单元、第一池化层pool1、第二卷积单元、第二池化层pool2、第三卷积单元、第三池化层pool3、第四卷积单元、第四池化层pool4、第五卷积单元、第五池化层pool5、第六卷积单元、第七卷积单元、SENet网络单元、反卷积层、Softmax层以及输出层。
进一步地,第一卷积单元包括依次连接的两个卷积子单元,每个第一卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个第一卷积单元中的卷积层均包括64个3×3的卷积核;第二卷积单元包括依次连接的两个卷积子单元,每个第二卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个第二卷积单元中的卷积层均包括128个3×3的卷积核;第三卷积单元包括依次连接的三个卷积子单元,每个第三卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个第三卷积单元中的卷积层均包括256个3×3的卷积核;第四卷积单元包括依次连接的三个卷积子单元,每个第四卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个第四卷积单元中的卷积层均包括512个3×3的卷积核;第五卷积单元包括依次连接的三个卷积子单元,每个第五卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个第五卷积单元中的卷积层均包括512个3×3的卷积核。
进一步地,第六卷积单元包括依次连接的卷积层、BN层、线性修正层和dropout层,第六卷积单元中的卷积层包括4096个7×7的卷积核。
进一步地,第七卷积单元包括依次连接的卷积层、BN层、线性修正层和dropout层,第七卷积单元中的卷积层包括4096个1×1的卷积核。
进一步地,SENet网络单元包括依次连接的全局平均池化层global pool、第一全连接层fc1、第二全连接层fc2、Sigmoid层和Scale层,Scale层的输入端还与第七卷积单元的输出端连接。
进一步地,步骤S2具体为:将THUS10000数据集作为训练数据集输入语义增强卷积神经网络,以最小化输入图像的交叉熵损失函数为目标,设置训练的学习率为0.001,权重衰减系数为0.0005,迭代次数为1000,采用梯度下降法对语义增强卷积神经网络进行训练,得到视觉显著性检测模型。
进一步地,输入图像的交叉熵损失函数L(θ)为:
其中α表示真值图中标签值为0的像素的占比,N表示输入图像的像素数,Ii表示像素i的真值标签,P(Ii=1|X;θ)表示语义增强卷积神经网络的参数集合为θ时候,输入图像X的像素i的标签为1的概率,P(Ii=0|X;θ)表示语义增强卷积神经网络的参数集合为θ时候,输入图像X的像素i的标签为0的概率。
本发明的有益效果是:
(1)本发明能够有效解决传统图像显著性检测及计算方法无法提取图像深层的特征的问题,同时可以加强图像的细节信息和对提取的特征进行自适应的加权,通过和其他算法进行对比发现,本发明不论是在主观表现上和客观指标上都具有一定的优势。
(2)本发明采用第六卷积单元、第七卷积单元以及反卷积层替换原VGG16网络中的三个全连接层,能够有效解决全连接层会把输入的特征图信息的空间信息打乱,且参数量较大的问题,并且保持较高的分类准确率,同时反卷积层能够将输入的图像像素进行填充以便得到和输入大小相同的视觉显著性图像。
(3)本发明在第七卷积单元和反卷积层之间设置了一个SENet网络单元,能够让语义增强卷积神经网络通过学习的方式来分析第七卷积单元输出的特征图的各个特征通道的重要程度,然后提升有用特征的权重并且降低无关特征的权重,进而加强第七卷积单元输出特征的语义性。
(4)本发明在每个卷积层之后都加入了一个BN层,能够加快网络的训练速度。
(5)本发明的第六卷积单元和第七卷积单元中,在卷积层之后都加入了一个dropout层,能够降低网络的过拟合,提高模型的鲁棒性。
附图说明
图1所示为本发明实施例提供的一种基于语义增强卷积神经网络的视觉显著性检测方法流程图。
图2所示为本发明实施例提供的语义增强卷积神经网络结构示意图。
图3所示为本发明实施例提供的MSRA-1000数据集通过各算法得到的显著图对比示意图。
图4所示为本发明实施例提供的MSRA-1000数据集上各算法PR曲线比较示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于语义增强卷积神经网络的视觉显著性检测方法,如图1所示,包括以下步骤S1~S3:
S1、在VGG16网络的基础上构建语义增强卷积神经网络。
本发明实施例中,语义增强卷积神经网络是在VGG16网络的基础上进行改进得到的。VGG16网络作为一个经典的卷积神经网络模型,在图像分类和语义分割方面有着很好的表现。该模型主要由5个卷积模块、3个全连接模块和Softmax分类器组成,卷积模块中的卷积层主要用于对特征进行提取,其中的池化层用于减小输入图像的尺寸,经过每个池化层之后图像的尺寸变为原来的二分之一,这是为了后面卷积层能在更大的感受野上提取特征,全连接模块主要用于对特征进行映射,进行特征的组合,Softmax分类器则根据输入的图像的特征信息对图像进行分类。
如图2所示,语义增强卷积神经网络包括依次连接的输入层、第一卷积单元、第一池化层pool1、第二卷积单元、第二池化层pool2、第三卷积单元、第三池化层pool3、第四卷积单元、第四池化层pool4、第五卷积单元、第五池化层pool5、第六卷积单元、第七卷积单元、SENet网络单元、反卷积层、Softmax层以及输出层。
其中,第一卷积单元包括依次连接的两个卷积子单元,每个第一卷积单元中的卷积子单元均包括依次连接的卷积层(conv1_1、conv1_2)、BN层(BN1_1、BN1_2)和线性修正层(relu1_1、relu1_2),每个第一卷积单元中的卷积层均包括64个3×3的卷积核。
第二卷积单元包括依次连接的两个卷积子单元,每个第二卷积单元中的卷积子单元均包括依次连接的卷积层(conv2_1、conv2_2)、BN层(BN2_1、BN2_2)和线性修正层(relu2_1、relu2_2),每个第二卷积单元中的卷积层均包括128个3×3的卷积核。
第三卷积单元包括依次连接的三个卷积子单元,每个第三卷积单元中的卷积子单元均包括依次连接的卷积层(conv3_1、conv3_2、conv3_3)、BN层(BN3_1、BN3_2、BN3_3)和线性修正层(relu3_1、relu3_2、relu3_3),每个第三卷积单元中的卷积层均包括256个3×3的卷积核。
第四卷积单元包括依次连接的三个卷积子单元,每个第四卷积单元中的卷积子单元均包括依次连接的卷积层(conv4_1、conv4_2、conv4_3)、BN层(BN4_1、BN4_2、BN4_3)和线性修正层(relu4_1、relu4_2、relu4_3),每个第四卷积单元中的卷积层均包括512个3×3的卷积核。
第五卷积单元包括依次连接的三个卷积子单元,每个第五卷积单元中的卷积子单元均包括依次连接的卷积层(conv5_1、conv5_2、conv5_3)、BN层(BN5_1、BN5_2、BN5_3)和线性修正层(relu5_1、relu5_2、relu5_3),每个第五卷积单元中的卷积层均包括512个3×3的卷积核。
第六卷积单元包括依次连接的卷积层(conv6)、BN层(BN6)、线性修正层(relu6)和dropout层(dropout6),第六卷积单元中的卷积层包括4096个7×7的卷积核。
第七卷积单元包括依次连接的卷积层(conv7)、BN层(BN7)、线性修正层(relu7)和dropout层(dropout7),第七卷积单元中的卷积层包括4096个1×1的卷积核。
本发明实施例中,在每个卷积层之后设置了批规范化BN层(BatchNormalization)和线性修正层relu,池化层的池化操作采用最大池化方式,deconv表示反卷积层,用于将输入的图像像素进行填充以便得到和输入大小相同的图像。
SENet网络单元包括依次连接的全局平均池化层global pool、第一全连接层fc1、第二全连接层fc2、Sigmoid层和Scale层,Scale层的输入端还与第七卷积单元的输出端连接。
SENet(Squeeze-and-Excitation Network)网络结构主要通过学习的方式来得到多个特征通道之间的重要程度,然后以各种通道的重要程度为指导来提升有用特征的权重并且降低无关特征的权重。该网络结构包括两个重要的操作Squeeze和Excitation操作,并且根据这两个关键操作来给这种网络模型命名。
其中,全局平均池化层global pool用于对输入的图像进行Squeeze操作,对C×H×W的特征图进行全局平均池化,得到1×1×C的特征图,这个特征图表示全局的感受野。第一全连接层fc1和第二全连接层fc2用于对Sequeeze操作后的结果进行Excitation操作,即进行一个非线性变换,来为每个特征通道生成权值,该权值表示特征通道之间的相关性。Sigmoid层和Scale层用于进行Reweight操作,将Excitation操作得到的权值通过乘法和每个通道进行加权得到一个值,并且将该值赋予到先前的特征上,这就是对特征进行重标定。
本发明实施例中,语义增强卷积神经网络对VGG16网络的改进点如下:
(1)由于VGG16网络的三个全连接层会把输入的特征图信息的空间信息打乱,而且这三个连接层中的参数量在VGG16网络模型中占很大比例。所以本发明把三个全连接层去掉,同时为了降低去除全连接层所导致的网络模型分类准确率的下降的影响,本发明在原来第一连接层、第二连接层和第三连接层位置处添加第六卷积单元、第七卷积单元以及反卷积层。
(2)在第七卷积单元和反卷积层deconv之间嵌入SENet网络单元,让该网络结构通过学习的方式来分析第七卷积单元输出的特征图的各个特征通道的重要程度,然后提升有用特征的权重并且降低无关特征的权重,以此来加强第七卷积单元输出特征的语义性。
(3)考虑到BN层能够提高网络的训练速度,在每个卷积层之后加入BN层;同时为了解决网络的过拟合问题,在第六卷积单元和第七卷积单元中的卷积层之后都加入了一个dropout层,能够降低网络的过拟合,提高模型的鲁棒性。
(4)原来第一个全连接层使用4096个7×7的卷积核代替,第二个全连接层使用4096个1×1的卷积核来代替。
S2、以最小化输入图像的交叉熵损失函数为目标,对语义增强卷积神经网络进行训练,得到视觉显著性检测模型。
本发明实施例中,将THUS10000数据集作为训练数据集输入语义增强卷积神经网络,以最小化输入图像的交叉熵损失函数为目标,设置训练的学习率为0.001,权重衰减系数为0.0005,迭代次数为1000,采用梯度下降法对语义增强卷积神经网络进行训练,得到视觉显著性检测模型。
其中,对于通过语义增强卷积神经网络得到的显著图X和对应的人工标记的真值图GT,定义输入图像的交叉熵损失函数L(θ)为:
其中α表示真值图中标签值为0的像素的占比,N表示输入图像的像素数,Ii表示像素i的真值标签,P(Ii=1|X;θ)表示语义增强卷积神经网络的参数集合为θ时候,输入图像X的像素i的标签为1的概率,P(Ii=0|X;θ)表示语义增强卷积神经网络的参数集合为θ时候,输入图像X的像素i的标签为0的概率。θ中的参数主要包括两个部分:原来VGG16网络中所保留模块的参数和新添加各卷积层和SENet网络单元中的参数,训练的时候保持原来VGG16网络保留部分的参数不变,而让其他部分的参数使用随机值进行初始化。
S3、将待检测图像输入视觉显著性检测模型,得到视觉显著图。
下面通过具体实验例对本发明的效果作进一步描述。
本实验例使用THUS10000数据集作为训练数据,使用本发明实施例步骤S2来训练视觉显著性检测模型,使用MSRA-1000数据集在训练完毕的模型上进行对比试验,MSRA-1000数据集中的图像包含的内容丰富,是测试模型的合适的数据。本实验例的平台的CPU型号为Intel Core i5,GPU型号是GTX 1070 8GB,操作***为16.04。然后和现有的HC,SR,LEGS,MDF,RFCN等算法进行对比,其中HC和SR算法是使用传统方法进行显著性计算的,LEGS,MDF和RFCN算法是基于深度学习的方法进行显著性检测的。这些算法产生的显著图是算法的作者提供的或者通过对应算法的代码产生的。结合真值图和评价的指标来验证本发明的有效性。
在MSRA-1000的数据集随机抽取的图片,使用本发明提出的基于语义增强卷积神经网络的显著性检测方法生成的显著图,和上述提到的另外几种算法产生的显著图进行定性的比较,将经典算法得到的显著图和本发明得到的显著图在图3中展示。图3中从左到右依次是原图、HC、SR、LEGS、MDF、RFCN、基于多特征最优融合显著性检测算法、基于多先验和全局对比度的显著性检测算法得到的显著图以及本发明得到的显著图和真值图。
通过比较在指定数据集上各个算法的显著性检测效果,发现大多数算法都能检测到目标区域,但是各种算法的效果却大有不同。HC算法能够较好的抗背景噪声的干扰,但是不能高亮突出显著性物体;而SR算法只能检测到物体的边界,显著目标内部比较空洞;LEGS算法总体效果不错,但是得到的显著性目标区域不够均匀,而且在背景特征和前景特征比较接近时候,不能很好的分辨出目标区域;MDF算法大概能够定位到目标区域,但是在前景和目标比较接近的时候通常容易把背景误检为目标区域;RFCN的检测效果不错,能够降低背影噪声干扰的影响,但是在目标区域比较小的情况下时候,容易误把目标区域检测为背景区域。基于多特征最优融合显著性检测算法和基于多先验和全局对比度的显著性检测算法总体效果尚可,但是仍然存在着目标区域边缘不够清晰、内部区域不够高亮等问题。而本发明提出的基于语义增强卷积神经网络的显著性检测方法和其他传统的方法、深度学习方法相比有一定的优势,检测到的目标区域边缘相对清晰,内部区域也比较均匀,而且可以抑制背景噪声的干扰,在对多种场景图片的显著性区域检测时能够表现出较好的效果。
在公开数据集MSRA-1000上对本发明提出的基于语义增强卷积神经网络的显著性检测方法和上述提到的几种算法进行算法性能定量比较,使用PR曲线、F测量值、MAE值、AUC值以及算法的运行时间作为评价算法性能的指标。PR曲线主要是用来刻画精确率和召回率之间的关系;F测量值则综合反映了精确率和召回率值;MAE值主要计算得到的显著图和人工标注的真实图之间的差异程度;AUC值表示的是对于随机的一个正例和一个负例,通过算法预测为正的概率值比预测为负的概率值大的可能性。主要在三组数据集MSRA-1000分别绘制本发明提出的基于语义增强卷积神经网络的显著性检测方法和另外8种经典算法的PR曲线图像、F测量值图像以及其他性能指标的列表表示。
通过图4可以看出,在MSRA-1000数据集上,本发明提出的基于语义增强卷积神经网络的显著性检测方法的PR曲线位于其他PR曲线的右上方,而且比较平稳,这是由于本发明提出的基于语义增强卷积神经网络的显著性检测方法结合了在VGG16网络的基础上为网络添加了很多好用的结构单元,比如Dropout层能提高算法的鲁棒性,加入SENet网络结构来加强各种特征的语义性,所以能够在前景背景区分度比较大,并且前景目标比较单一,目标区域靠近中心位置或者显著性目标比较小的图像中得到比较准确目标区域。在该数据集上和其他算法相比,本发明提出的基于语义增强卷积神经网络的显著性检测方法的PR曲线指标也比较表现比较好,例如在相同召回率下本算法的准确率高一些,相同准确率下,本发明提出的基于语义增强卷积神经网络的显著性检测方法的召回率要高一些。这些实验验证了本发明提出的基于语义增强卷积神经网络的显著性检测方法和其他算法在PR指标上的提升。
表1为本发明提出的基于语义增强卷积神经网络的显著性检测方法和其他算法的F测量值、AUC和MAE值比较。
表1
通过表1可以看到,在F测量值、AUC和MAE值方面,深度学习算法MDF、LEGS和RFCN的表现要好于传统的算法HC,SR。这主要是由于这些模型的神经网络的参数比较多,具有很好的特征表达能力,可以很好的提取图像的浅层语义特征和深层语义特征,并且神经网络能够拟合多种函数,所以网络学习能力很强。而且这些深度学习算法和基于多特征最优融合显著性检测算法和基于多先验和全局对比度的显著性检测算法这两个显著性检测方法相比也有较好的表现。而本发明提出的基于语义增强卷积神经网络的显著性检测方法在F测量值、AUC和MAE指标上的表现上和其他算法相比具有一定的优势,这主要是由于本发明的神经网络深度比较深,能够较完整的提取出图像的各个层次的特征,并且在神经网络中增加了Dropout层,可以在一定程度上的防止网络的过拟合。同时由于在卷积网络中嵌入了SENet网络结构,可以增强卷积层所提取特征的语义性,增强有用特征的权重和抑制无用特征的权重。
表2为本发明提出的基于语义增强卷积神经网络的显著性检测方法和其他算法的平均运行时间的比较。表2对比了在MSRA-1000数据集上随机抽取的10张图片上各种算法运行时间的平均值,可以看到深度学习算法比经典算法HC,SR运行时间要长,本发明提出的基于语义增强卷积神经网络的显著性检测方法的运行时间要比所比较的几个深度学习算法的时间要短,主要是由于本网络模型在卷积层后面添加了BN操作能够减少迭代的次数,提升算法的效率。
表2
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (8)
1.一种基于语义增强卷积神经网络的视觉显著性检测方法,其特征在于,包括以下步骤:
S1、在VGG16网络的基础上构建语义增强卷积神经网络;
S2、以最小化输入图像的交叉熵损失函数为目标,对语义增强卷积神经网络进行训练,得到视觉显著性检测模型;
S3、将待检测图像输入视觉显著性检测模型,得到视觉显著图。
2.根据权利要求1所述的视觉显著性检测方法,其特征在于,所述步骤S1中构建的语义增强卷积神经网络包括依次连接的输入层、第一卷积单元、第一池化层pool1、第二卷积单元、第二池化层pool2、第三卷积单元、第三池化层pool3、第四卷积单元、第四池化层pool4、第五卷积单元、第五池化层pool5、第六卷积单元、第七卷积单元、SENet网络单元、反卷积层、Softmax层以及输出层。
3.根据权利要求2所述的视觉显著性检测方法,其特征在于,所述第一卷积单元包括依次连接的两个卷积子单元,每个所述第一卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个所述第一卷积单元中的卷积层均包括64个3×3的卷积核;
所述第二卷积单元包括依次连接的两个卷积子单元,每个所述第二卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个所述第二卷积单元中的卷积层均包括128个3×3的卷积核;
所述第三卷积单元包括依次连接的三个卷积子单元,每个所述第三卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个所述第三卷积单元中的卷积层均包括256个3×3的卷积核;
所述第四卷积单元包括依次连接的三个卷积子单元,每个所述第四卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个所述第四卷积单元中的卷积层均包括512个3×3的卷积核;
所述第五卷积单元包括依次连接的三个卷积子单元,每个所述第五卷积单元中的卷积子单元均包括依次连接的卷积层、BN层和线性修正层,每个所述第五卷积单元中的卷积层均包括512个3×3的卷积核。
4.根据权利要求2所述的视觉显著性检测方法,其特征在于,所述第六卷积单元包括依次连接的卷积层、BN层、线性修正层和dropout层,所述第六卷积单元中的卷积层包括4096个7×7的卷积核。
5.根据权利要求2所述的视觉显著性检测方法,其特征在于,所述第七卷积单元包括依次连接的卷积层、BN层、线性修正层和dropout层,所述第七卷积单元中的卷积层包括4096个1×1的卷积核。
6.根据权利要求2所述的视觉显著性检测方法,其特征在于,所述SENet网络单元包括依次连接的全局平均池化层global pool、第一全连接层fc1、第二全连接层fc2、Sigmoid层和Scale层,所述Scale层的输入端还与第七卷积单元的输出端连接。
7.根据权利要求1所述的视觉显著性检测方法,其特征在于,所述步骤S2具体为:将THUS10000数据集作为训练数据集输入语义增强卷积神经网络,以最小化输入图像的交叉熵损失函数为目标,设置训练的学习率为0.001,权重衰减系数为0.0005,迭代次数为1000,采用梯度下降法对语义增强卷积神经网络进行训练,得到视觉显著性检测模型。
8.根据权利要求7所述的视觉显著性检测方法,其特征在于,所述输入图像的交叉熵损失函数L(θ)为:
其中α表示真值图中标签值为0的像素的占比,N表示输入图像的像素数,Ii表示像素i的真值标签,P(Ii=1|X;θ)表示语义增强卷积神经网络的参数集合为θ时候,输入图像X的像素i的标签为1的概率,P(Ii=0|X;θ)表示语义增强卷积神经网络的参数集合为θ时候,输入图像X的像素i的标签为0的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699533.6A CN110414513A (zh) | 2019-07-31 | 2019-07-31 | 基于语义增强卷积神经网络的视觉显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699533.6A CN110414513A (zh) | 2019-07-31 | 2019-07-31 | 基于语义增强卷积神经网络的视觉显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110414513A true CN110414513A (zh) | 2019-11-05 |
Family
ID=68364601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910699533.6A Pending CN110414513A (zh) | 2019-07-31 | 2019-07-31 | 基于语义增强卷积神经网络的视觉显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414513A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428602A (zh) * | 2020-03-18 | 2020-07-17 | 浙江科技学院 | 卷积神经网络边缘辅助增强的双目显著性图像检测方法 |
CN111462149A (zh) * | 2020-03-05 | 2020-07-28 | 中国地质大学(武汉) | 一种基于视觉显著性的实例人体解析方法 |
CN111476131A (zh) * | 2020-03-30 | 2020-07-31 | 北京微播易科技股份有限公司 | 一种视频处理方法和装置 |
CN113591579A (zh) * | 2021-06-28 | 2021-11-02 | 河北师范大学 | 基于注意机制卷积神经网络的显著性目标检测方法 |
CN114466531A (zh) * | 2022-03-09 | 2022-05-10 | 江门市尚智电子材料有限公司 | 一种多层fpc柔性电路板环保型加工方法 |
CN115017021A (zh) * | 2022-05-26 | 2022-09-06 | 杭州电子科技大学 | 一种视觉功能块执行时间预测方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909924A (zh) * | 2017-02-18 | 2017-06-30 | 北京工业大学 | 一种基于深度显著性的遥感影像快速检索方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN109671063A (zh) * | 2018-12-11 | 2019-04-23 | 西安交通大学 | 一种基于深度网络特征间重要性的图像质量评估方法 |
CN109886221A (zh) * | 2019-02-26 | 2019-06-14 | 浙江水利水电学院 | 基于图像显著性检测的采砂船识别方法 |
-
2019
- 2019-07-31 CN CN201910699533.6A patent/CN110414513A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909924A (zh) * | 2017-02-18 | 2017-06-30 | 北京工业大学 | 一种基于深度显著性的遥感影像快速检索方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN109671063A (zh) * | 2018-12-11 | 2019-04-23 | 西安交通大学 | 一种基于深度网络特征间重要性的图像质量评估方法 |
CN109886221A (zh) * | 2019-02-26 | 2019-06-14 | 浙江水利水电学院 | 基于图像显著性检测的采砂船识别方法 |
Non-Patent Citations (3)
Title |
---|
GAYOUNG LEE 等: "Deep Saliency with Encoded Low level Distance Map and High Level Features", 《ARXIV》 * |
杨帆 等: "基于多任务深度卷积神经网络的显著性对象检测算法", 《计算机应用》 * |
黄侃: "视觉显著性检测方法与应用研究", 《中国优秀博士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462149A (zh) * | 2020-03-05 | 2020-07-28 | 中国地质大学(武汉) | 一种基于视觉显著性的实例人体解析方法 |
CN111462149B (zh) * | 2020-03-05 | 2023-06-06 | 中国地质大学(武汉) | 一种基于视觉显著性的实例人体解析方法 |
CN111428602A (zh) * | 2020-03-18 | 2020-07-17 | 浙江科技学院 | 卷积神经网络边缘辅助增强的双目显著性图像检测方法 |
CN111476131A (zh) * | 2020-03-30 | 2020-07-31 | 北京微播易科技股份有限公司 | 一种视频处理方法和装置 |
CN113591579A (zh) * | 2021-06-28 | 2021-11-02 | 河北师范大学 | 基于注意机制卷积神经网络的显著性目标检测方法 |
CN113591579B (zh) * | 2021-06-28 | 2024-02-13 | 河北师范大学 | 基于注意机制卷积神经网络的显著性目标检测方法 |
CN114466531A (zh) * | 2022-03-09 | 2022-05-10 | 江门市尚智电子材料有限公司 | 一种多层fpc柔性电路板环保型加工方法 |
CN115017021A (zh) * | 2022-05-26 | 2022-09-06 | 杭州电子科技大学 | 一种视觉功能块执行时间预测方法及*** |
CN115017021B (zh) * | 2022-05-26 | 2024-05-14 | 杭州电子科技大学 | 一种视觉功能块执行时间预测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414513A (zh) | 基于语义增强卷积神经网络的视觉显著性检测方法 | |
CN111259930B (zh) | 自适应注意力指导机制的一般性目标检测方法 | |
CN109670528B (zh) | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 | |
CN110210555A (zh) | 基于深度学习的钢轨鱼鳞伤损检测方法 | |
CN106504064A (zh) | 基于深度卷积神经网络的服装分类与搭配推荐方法及*** | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN109800629A (zh) | 一种基于卷积神经网络的遥感图像目标检测方法 | |
CN111709300B (zh) | 基于视频图像的人群计数方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN113221655B (zh) | 基于特征空间约束的人脸欺骗检测方法 | |
CN106055653A (zh) | 基于图像语义注释的视频浓缩对象检索方法 | |
CN109784283A (zh) | 基于场景识别任务下的遥感图像目标提取方法 | |
CN101364263A (zh) | 对图像进行皮肤纹理检测的方法及*** | |
CN109886161A (zh) | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 | |
CN114067444A (zh) | 基于元伪标签和光照不变特征的人脸欺骗检测方法和*** | |
CN110826056B (zh) | 一种基于注意力卷积自编码器的推荐***攻击检测方法 | |
CN108681735A (zh) | 基于卷积神经网络深度学习模型的光学字符识别方法 | |
CN107220655A (zh) | 一种基于深度学习的手写、印刷文本的分类方法 | |
CN105404865A (zh) | 基于概率态受限玻尔兹曼机级联的人脸检测方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及*** | |
CN107145841A (zh) | 一种基于矩阵的低秩稀疏人脸识别方法及其*** | |
CN109903339A (zh) | 一种基于多维融合特征的视频群体人物定位检测方法 | |
CN115512399A (zh) | 一种基于局部特征和轻量级网络人脸融合攻击检测的方法 | |
CN116012722A (zh) | 一种遥感影像场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |
|
RJ01 | Rejection of invention patent application after publication |