CN113313077A

CN113313077A - 基于多策略和交叉特征融合的显著物体检测方法

Info

Publication number: CN113313077A
Application number: CN202110743443.XA
Authority: CN
Inventors: 周武杰; 孙帆; 强芳芳; 许彩娥
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-08-27

Abstract

本发明公开了一种基于多策略融合的显著性物体检测方法，涉及深度学习领域。其在训练阶段，构建卷积神经网络，其隐层包括10个神经网络卷积块、5个多策略融合块、4个交叉特征融合块；使用原始的RGB彩色图和Depth深度图输入到卷积神经网络中进行训练，得到对应的显著体检测图；再通过计算原始的预测图与对应真实的显著体标签图(Ground Truth)的损失函数值，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；在测试阶段，将待检测的显著体的RGB彩色图和对应的Depth深度图一起输入到卷积神经网络分类训练模型中，得到预测显著体检测图像；优点是提高了RGB‑D显著体检测效率和准确度。

Description

基于多策略和交叉特征融合的显著物体检测方法

技术领域

本发明涉及深度学习领域，更具体的说是涉及一种基于多策略和交叉特征融合的显著物体检测方法。

背景技术

显著目标检测(SOD)作为一种强大的预处理工具，在众多的计算机视觉任务中扮演着重要的角色，从自然图像中识别吸引注意对象的人类视觉注意机制。它有很多应用，如自动驾驶，机器人导航、视觉跟踪、图像检索、美学评估和内容感知图像编辑。受到进步的鼓舞在知觉心理学中，早期的模型使用启发式先验和手工制作的特征，如对比距离变换。然而，在复杂的场景下，它们的检测性能严重受限。近期研究已经证明了深度学习技术，特别是卷积神经网络(Convolutional Neural Networks,CNNs)尤为突出擅长从图像区域中提取语义特征来理解视觉概念，并取得了显著的效果。

采用深度学习的语义分割方法，直接进行像素级别端到端(end-to-end)的语义分割，其只需要将训练集中的图像输入进模型框架中训练，得到权重与模型，即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征。目前，基于深度学习语义分割的方法分为两种，第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions)，抛弃了池化层，通过带孔卷积的方式扩大感知域，较小值的带孔卷积感知域较小，学习到一些部分具体的特征；较大值的带孔卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。

现有的显著体检测方法大多采用深度学习的方法，利用卷积层与池化层相结合的模型较多，然而，当目标相似时，图像显著性检测可能会产生不满意的结果具有复杂背景的外观。深度信息能否为识别显著性提供重要的补充线索复杂场景中的物体。随着成像技术的飞速发展设备，深度图的获取变得更加方便，促进了对RGB-D显著性检测的研究。此外，深度映射包含许多有用的属性，例如凸体的形状、轮廓和几何空间信息对象，可以被认为是RGB-D显著性的相关线索。

发明内容

有鉴于此，本发明提供了一种基于多策略和交叉特征融合的显著物体检测方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于多策略和交叉特征融合的显著物体检测方法，包括以下步骤：

选取多幅数据集的RGB彩色图，Depth深度图和Ground Truth标签图，构成训练集；

构建卷积神经网络，所述卷积神经网络采用自顶向下的高级特征监督低级特征融合的方式；

将所述训练集输入到所述卷积神经网络，对所述卷积神经网络训练；

多次训练，得到卷积神经网络模型。

优选的，所述卷积神经网络引入深度优化模块提高图像质量，将多策略融合模块得到的特征图经交叉融合模块的交叉融合，捕获联合特征。

优选的，所述深度优化模块的结构如下：

第一个最大池化层，第一个卷积块，第一个激活层，第二个卷积块和第二个激活层依次连接后与所述第一个最大池化层做像素相乘后输入到第二个最大池化层，所述第二个最大池化层后依次连接有第三个卷积块和第三个激活层，所述第三个激活层的输出与所述第二个最大池化层做像素相乘后输入到第三个最大池化层，所述第三个最大池化层的输出与所述第一个最大池化层的输出做像素相加作为最终输出。

优选的，所述多策略融合模块对深度特征和RGB特征分别做像素相减，像素相加，像素相乘操作，并在通道维度上取平均值和最大值；将像素相减，像素相加，像素相乘操作以及通道维度上的平均值和最大值做像素相加作为第一输出；上一层融合特征经上采样后与所述第一输出做像素相加作为最终输出。

优选的，交叉融合模块的结构如下：

第二输入

经特征提取与第一输入

做像素相加得到的结果记为

经第一卷积块的输出与

做像素相加得到M，M与M做像素相加，像素相加的结果作为与M做像素相乘的输入，像素相乘的结果作为与M做像素相减的输入，像素相减的结果作为与M做通道叠加的输入，通道叠加的输出经过第二卷积块后作为最终输出。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于多策略和交叉特征融合的显著物体检测方法，具有以下有益效果：

1)本发明方法构建卷积神经网络，使用训练集中的RGB-D图像输入到卷积神经网络中进行训练，得到卷积神经网络分类训练模型；再将待进行显著性检测的图像输入到卷积神经网络分类训练模型中，预测得到RGB图像对应的预测显著性图像，由于本发明方法在构建卷积神经网络时将深层的特征用来加强低层的特征融合，采用了各层特征监督，因此能够比较准确地定位显著性物体，从而有效地提高了显著体检测的精确度。

2)本发明方法采用交叉特征融合模块，将多策略融合模块的到的特征图进行交叉融合，捕获联合特征，为单模态特征提供补充信息。

3)本发明方法采用深度优化模块，消除深度信息的噪音对于网络的影响，使得到的深度信息更好的表达的显著体的位置信息。

4)本发明方法采用双向协作架构，采用自顶向下的监督，自底向上的解码，将全局特征细化到区域特征，用于最终预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明方法的总体实现框图；

图2为本发明交叉融合模块结构图；

图3为本发明深度优化模块结构图；

图4为本发明多策略融合模块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于多策略融合和多监督的显著性物体检测的方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅NJU2K和NLPR数据集的RGB彩色图，Depth深度图，Ground Truth标签图，并构成训练集，将训练集中的第q幅原始的显著检测图像记为{I^q(i,j)}，将训练集中与{I^q(i,j)}对应的真实标签图像记为

然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的显著性图像对应的真实显著性检测图像处理成1幅独热编码图像，将

处理成的1幅独热编码图像构成的集合记为

其中，道路场景图像为RGB彩色图像，Q为正整数，Q≥200，如取Q＝2185，q为正整数，1≤q≤Q，1≤i≤W，1≤j≤H，W表示{I^q(i,j)}的宽度，H表示{I^q(i,j)}的高度，如取W＝224、H＝224，I^q(i,j)表示{I^q(i,j)}中坐标位置为(i,j)的像素点的像素值，

表示

中坐标位置为(i,j)的像素点的像素值；在此，直接选用显著性检测图像数据库NJU2K和NLPR训练集中的2185幅图像。

步骤1_2：构建卷积神经网络：卷积神经网络分为编码(Encode)和解码(Decode)两个部分，分别对应图像的特征提取(Feature Extract)，特征融合(Feature Fusion)。其中图2为交叉融合模块结构图，图3为深度优化模块结构图，图4为多策略融合模块结构图。

输入由RGB(三通道)和Depth(单通道)两种不同模态作为联合输入，因此网络输入分为双流，分别对RGB和Depth进行编码。由于深度信息(Depth)包含图像的区域之间的空间信息，因此在显著体检测中起着很重要的作用，但深度图质量通常都很低，可能引入特征噪声和冗余到网络，我们引入深度优化模块(Depth-Optimize Model)。主干网络采用ResNet-50。RGB和Depth编码分别由5个卷积块构成。其中第1个卷积块，第2个卷积块，第3卷积块定义为低级特征，第4卷积块，第5卷积块定义为高级特征，同样深度流中第6卷积块，第7卷积块，第8卷积块定义为低级特征，第9卷积块和第10卷积块定义为高级特征。在两个编码主干流之间还有5个多策略融合模块(Muti-Strage Fusion)，用高级特征来监督低级特征融合，采用自顶向下的方式。每个MSF通过上采样(Upsample)都有一个监督输出，在训练时作为监督损失。通过第一个MSF模块，分别和第2个多策略融合模块，第3个多策略融合模块，第4个多策略融合模块，第5个多策略融合模块的输出进行交叉特征融合(CFF)。其中两个编码流的输入图像的宽度都为W、高度都为H。

对于RGB彩色图像训练层、Depth单通道图像预训练层，采用的是Imagenet上预训练过的ResNet50，共五个输出。RGB彩色图像预训练层的第一个输出层尺寸为W/2、高度为H/2，共有64幅特征图，记为R1；RGB彩色图像预训练层的第二个输出层尺寸为W/4、高度为H/4，共有256幅特征图，记为R2；RGB彩色图像预训练层的第三个输出层尺寸为W/8、高度为H/8,共有512幅特征图，记为R3；RGB彩色图像预训练层的第四个输出层尺寸为W/16、高度为H/16,共有1024幅特征图，记为R4；左视图彩色图像预训练层的第五个输出层尺寸为W/32、高度为H/32，共有1024幅特征图，记为R5；与RGB彩色图像预训练层结构相同，Depth深度图像预训练层也有五个输出，记为D1，D2，D3，D4，D5，结构分别与R1，R2，R3，R4，R5相同。

对于第5个卷积块，第6个卷积块，第7个卷积块，第8个卷积块，第9个卷积块，第10个卷积块，每个卷积块分别通过上一层的卷积块的输出到深度优化模块DOM1，DOM2，DOM3，DOM4，DOM5的输出作为输入,得到D2，D3，D4，D5。

深度优化模块DOM的输入Dⁱ(Cⁱ×Hⁱ×Wⁱ)(i＝1，2，3，4，5)，Cⁱ表示通道数，Hⁱ，Wⁱ分别代表图像的长和宽。首先进行通道注意力(Channel Attention)，其中主分支依次由第一个最大池化层，输出深度图的尺寸大小为1×1。第一个卷积块，卷积核大小1×1，步长为1，通道数为Cⁱ/16，第一个激活层(Relu)，第二个卷积块，卷积核大小1×1，步长为1，通道数为Cⁱ，第二个激活层(Sigmoid)，之后主分支与捷径分支进行像素相乘得到

接着进行空间注意力(Spatial Attention)，其中主分支依次由第一个最大化层(Maximize)，第三个卷积块，卷积核大小为7×7，步长为1，填充(Padding)为3，第三个激活层为Sigmoid，然后将通道注意力得到的

与空间注意力输出相乘，得到

最后将原始输入Dⁱ与

进行Add操作，作为下一个卷积块的输入。

步骤1_3：对于第五个多策略融合模块，将第五个卷积模块(RGB彩色特征R5)和第5个深度优化模块(Depth深度特征D5)的输出作为输入，分别进行像素相减，像素相加，像素相乘，通道取最大值和通道取平均值，得到Q¹，Q²，Q³，Q⁴，Q⁵，然后分别将Qⁱ(i＝1，2，3,4,5)相加，作为下一层多策略融合模块输入的融合特征，对于第4多策略融合模块，第3多策略融合模块，第2多策略融合模块，第1个多策略融合模块，分别将第4个卷积块，第3个卷积块，第2个卷积块，第1个卷积块(R4，R3，R2，R1)和第4深度优化模块，第3深度优化模块，第2深度优化模块，第1个深度优化模块(D4，D3，D2，D1)和前一层的多策略融合特征模块的融合特征作为输入。将Dⁱ(i＝1,2,3,4)和Rⁱ(i＝1,2,3,4)，分别进行像素相减，像素相加，像素相乘，通道取最大值和通道取平均值，得到Q¹，Q²，Q³，Q⁴，Q⁵，然后将上一层的多策略融合模块的融合特征进行2倍上采样，得到Fⁱ(i＝1,2,3,4)最后将Q¹，Q²，Q³，Q⁴，Q⁵与Fⁱ相加，作为下一层多策略融合模块输入的融合特征。

对于第4个交叉融合模块，第3个交叉融合模块，第2个交叉融合模块，第1个交叉融合模块的输入，分别由第一个多策略融合模块的输出

和第5，4，3，2个多策略融合模块的输出构成。首先将第i(i＝2,3,4,5)个多策略融合输出进行2^i-1倍上采样，特征提取块，卷积层的卷积核大小为3×3，步长为1，填充为1，输出通道为64，然后进行标准化(BatchNorm)，最后进行激活(Rectified Linear Unit,ReLU)，得到

将

和

相加得到的结果

进行第一个卷积，卷积核大小为3×3，步长为1，填充为1，得到

然后将

相加，然后分别与自身相加，相乘，相减并将得到的特征作为下一步的操作对象，最后得到的结果与自身进行Concat。第二个卷积块，卷积核大小为1，步长为1，输出为64通道。

步骤1_4：将训练集中的每幅原始的RGB彩色图像和Depth深度图像通过随机裁剪，旋转，色彩加强，翻转等方式进行数据增强之后作为初始输入图像，批次大小为4。输入到深度卷积神经网络中进行训练，得到训练集中的每幅原始的显著性图像与原始大小相等的预测图，此外，为了辅助训练，在训练时将5个多策略融合模块的输出

大小依次为W/2*H/2，W/4*H/4，W/8*H/8，W/16*H/16，W/32*H/32通过上采样2ⁱ倍，得到大小为H*W的特征和模型最后的输出M_out一起监督训练，将

M_out与M_GT(真实值)之间的损失函数记为LOSS(M_pre，M_GT)，LOSS采用二进制交叉熵损失函数(Binary CrossEntropy Loss),最后对6个损失求和作为最终损失值。

步骤1_5：重复执行步骤1_4共N次，直到神经网络在训练集上收敛，在训练期间还取了800幅原始的RGB彩色图像和Depth深度图像作为验证集并共得到N个损失函数值；然后从N个损失函数值中找出值最小的损失函数值；接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和b^best；其中，N＞1，在本实施例中取N＝300。

所述的测试阶段过程的具体步骤为：

步骤2_1：取500幅原始的RGB彩色图像和Depth深度图像的NJU2K数据集和300幅原始的RGB彩色图像和Depth深度图像的NLPR数据集作为测试集。令

表示待检测的显著性图像；其中，1≤i'≤W'，1≤j'≤H'，W'表示

的宽度，H'表示

的高度，

表示

中坐标位置为(i,j)的像素点的像素值。测试时没有进行数据增强。

步骤2_2：将

的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中，并利用W^best和b^best进行预测，得到

对应的预测语义分割图像，记为

其中，

表示

中坐标位置为(i',j')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学***均绝对误差(Mean Absolute Error，MAE)、F1分数(F1 Score，F1)、结构测量(Structure measure，S-measure)、增强定位测量(Enhanced alignment measure，E-measure)来评价显著性检测图像的检测性能，如表1所列。从表1所列的数据可知，按本发明方法得到的显著性物体图像结果是较好的，表明利用本发明方法来获取各类场景的显著性物体图像是可行且有效的。

表1利用本发明方法在测试集上的评测结果

ours	S↑	adpE↑	adpF↑	MaxF↑	MAE↓
						NJU2K	0.912	0.932	0.915	0.917	0.032
NLPR	0.920	0.958	0.904	0.912	0.022

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多策略和交叉特征融合的显著物体检测方法，其特征在于，包括以下步骤：

选取多幅数据集的RGB彩色图，Depth深度图和GroundTruth标签图，构成训练集；

多次训练，得到卷积神经网络模型。

2.根据权利要求1所述的一种基于多策略和交叉特征融合的显著物体检测方法，其特征在于，所述卷积神经网络引入深度优化模块提高图像质量，将多策略融合模块得到的特征图经交叉融合模块的交叉融合，捕获联合特征。

3.根据权利要求2所述的一种基于多策略和交叉特征融合的显著物体检测方法，其特征在于，所述深度优化模块的结构如下：

4.根据权利要求2所述的一种基于多策略和交叉特征融合的显著物体检测方法，其特征在于，所述多策略融合模块对深度特征和RGB特征分别做像素相减，像素相加，像素相乘操作，并在通道维度上取平均值和最大值；将像素相减，像素相加，像素相乘操作以及通道维度上的平均值和最大值做像素相加作为第一输出；上一层融合特征经上采样后与所述第一输出做像素相加作为最终输出。

5.根据权利要求2所述的一种基于多策略和交叉特征融合的显著物体检测方法，其特征在于，所述交叉融合模块的结构如下：

第二输入

经特征提取与第一输入

做像素相加得到的结果记为

经第一卷积块的输出与