CN111563418A

CN111563418A - 一种基于注意力机制的非对称多模态融合显著性检测方法

Info

Publication number: CN111563418A
Application number: CN202010291052.4A
Authority: CN
Inventors: 周武杰; 张欣悦; 雷景生; 靳婷; 史文彬
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-21

Abstract

本发明公开了一种基于注意力机制的非对称多模态融合显著性检测方法。输入原始立体图像的RGB图和深度图进卷积神经网络中进行训练，得到相应的显著性检测图；再通过计算模型生成的显著性检测图构成的集合与对应的真实人眼注视图构成的集合之间的损失函数，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；将选定数据集中的立体图像输入到训练好的卷积神经网络模型中，得到显著性检测的图像。本发明采用非对称的编码结构充分提取RGB和深度图特征，加入内部感知模块后有效利用RGB丰富的图像信息，加入通道和空间注意力机制，增强了显著性区域和显著性特征的表达，提高了视觉显著性检测的检测准确度。

Description

一种基于注意力机制的非对称多模态融合显著性检测方法

技术领域

本发明涉及一种深度学习的视觉显著性检测方法，尤其是涉及一种基于注意力机制的非对称多模态融合显著性检测方法。

背景技术

在图像中寻找感兴趣的对象时，人可以自动捕获对象及其上下文之间的语义信息，对显著对象给予高度的关注，并选择性地抑制不重要的因素。这种精确的视觉注意机制已经在各种生物逻辑模型中得到了解释。显著性检测的目的是自动检测图像中最具信息和吸引力的部分。在许多图像应用，例如图像质量评估、语义分割、图像识别等，确定显著目标不仅可以降低计算成本，还可以提高显著性模型的性能。早期的显著性检测方法采用手工特征，即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入，发现这些手工特征已经不足以很好的捕获图像中的特征，因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此，采用深度学习的方法能更好的提取图像特征，以达到更好的显著性检测效果。现有的显著性检测方法大多数已经采用深度学习的方法，利用卷积层与池化层相结合的方法提取图像特征，但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性，尤其是进行池化操作会丢失图像的特征信息，从而会导致得到的显著性预测图效果较差，预测的准确度低。

发明内容

为了解决背景技术中存在的问题，本发明所要解决的技术问题是提供一种基于注意力机制的非对称多模态融合显著性检测方法，其检测准确度高。

本发明解决上述技术问题所采用的技术方案为：一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段为：在构建卷积神经网络时，输入层的输入端输入原始立体图像的RGB图和对应的深度图，输入原始立体图像的RGB图(即RGB彩色图)和深度图进卷积神经网络中进行训练，得到相应的显著性检测图；再通过计算模型生成的显著性检测图构成的集合与对应的真实人眼注视图构成的集合之间的损失函数，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；将选定数据集中的立体图像输入到训练好的卷积神经网络模型中，得到显著性检测的图像。

所述的训练阶段过程的具体步骤为：

步骤1.1)：采集选取带有目标物体的n幅原始立体图像(RGB图)的RGB图、深度图并和标注获得的真实人眼注释图构成训练集，并采用HHA方法将训练集中的深度图

均处理为与原始立体图像一样具有三通道的集合Hⁱ；

所述的原始立体图像具体为针对静态物体的图像识别，例如为道路上监控摄像头中的车辆/行人检测。

训练集中，第i幅(1≤i≤n)原始立体图像的RGB图记为

原始立体图像所对应的深度图记为

原始立体图像和深度图所对应的真实人眼注视图记为{Gⁱ(x，y)}，其中(x，y)代表像素点的坐标位置，用W表示原始立体图像的宽度，H表示原始立体图像的高度，则1≤x≤W，1≤y≤H。

步骤1.2)：构建的卷积神经网络；

步骤1.3)：将训练集中的原始立体图像的RGB图和深度图作为输入，输入到所构建的卷积神经网络中进行训练，得到原始立体图像对应的显著性检测图，将训练完成得到的显著性检测图构成的集合记为

步骤1.4)：计算训练得到的显著性检测图构成的集合

与对应的真实人眼注视图像{Gⁱ(x，y)}构成的集合之间的损失函数值记为

步骤1.5)：不断重复执行步骤1.3)和步骤1.4)迭代进行m次，得到卷积神经网络分类训练模型，并共得到n×m个损失函数值，然后从n×m个损失函数值中找出值最小的损失函数值，接着将最小的损失函数值对应的卷积神经网络的权值矢量和偏置项保留，作为训练后的卷积神经网络的最优权值矢量W^Best和最优偏置项B^Best；

所述的测试阶段过程的具体步骤为：

步骤2.1)：将目标物体待检测的RGB图和深度图的组合

的R通道分量、G通道分量和B通道分量输入训练后的卷积神经网络中，并利用的最优权值矢量W^Best和最优偏置项B^Best进行预测，得到

对应的显著性检测图像

其中

表示

中坐标位置为(x′，y′)的像素点的像素值。

A(x′，y′)表示

中坐标位置为(x′，y′)的像素点的像素值，用W′表示

的宽度，H′表示

的高度，则1≤x′≤W′，1≤y′≤H′。

如图1所示，所述的步骤1.2)中的卷积神经网络包括输入层和隐层，隐层输出即为卷积神经网络的输出：

所述的输入层的输入端输入原始立体图像的RGB图和深度图，输入层的输出端输出原始立体图像的RGB图的R通道分量、G通道分量和B通道分量以及深度图的编码图，输入层的输出量是隐层的输入量；其中，深度图在输入层中经过HHA编码方式处理后与RGB图一样具有三通道形成深度图的编码图，即经过输入层后也是被处理成三个分量，且原始立体图像的RGB图和深度图的宽度相同均为W、高度相同均为H；

所述隐层的组成部分：十个神经网络块、通道注意力模块(Channel AttentionModule、CAM)、内部感知模块(IPM)、空间力注意模块SAM和四个解码块；具体是为第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块、通道注意力模块(Channel Attention Module、CAM)、内部感知模块(IPM)、空间力注意模块SAM、第1个解码块、第2个解码块、第3个解码块、第4个解码块；

对于深度图的处理：

第1个神经网络块由第一卷积层、第一激活层、第二卷积层、第二激活层和第一最大池化层依次连接组成，输入为输入层输出的深度图的编码图，输出是经过处理后的64幅特征图构成第一深度特征图集合D₁，每幅图的宽度为

高度为

第2个神经网络块由第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成，输入为第1个神经网络块输出的64幅特征图，输出128幅特征图构成第二深度特征图集合D₂，每幅图的宽度为

高度为

第3个神经网络块的输入是第2个神经网络块输出的128幅特征图，输出为256幅特征图构成第三深度特征图集合D₃，每幅图的宽度为

高度为

第4个神经网络块的输入是第3个神经网络块输出的256幅特征图，输出为512幅特征图构成第四深度特征图集合D₄，每幅图的宽度为

高度为

第5个神经网络块的输入是第4个神经网络块输出的512幅特征图，输出为512幅特征图构成第五深度特征图集合D₅，每幅图的宽度为

高度为

由此深度图分别经第1个神经网络块到第5个神经网络块处理得到五个深度特征图集合，五个深度特征图集合分别为D₁、D₂、D₃、D₄、D₅；

对于RGB图的处理：

第6个神经网络块由第十一卷积层、第一归一层、第十一激活层和第六最大池化层组成，输入是三通道原始RGB图，输出是经过处理后的64幅特征图构成第一RGB特征图集合R₁，每幅图的宽度为

高度为

第7个神经网络块的输入是第6个神经网络块输出的64幅特征图，输出是256幅特征图构成第二RGB特征图集合D₂，每幅图的宽度为

高度为

第7个神经网络块由连续三个卷积块组成；每一个卷积块是由连续四层卷积层连接构成，第四层卷积层输入为第三层卷积层的输出以及前一个卷积块的输出(或第6个神经网络块的第六最大池化层输出的64幅特征图)，经相加后输出为256幅特征图；

第8个神经网络块由连续四个卷积块组成，输入为第7个神经网络块输出的256幅特征图，输出为512幅特征图构成第三RGB特征图集合R₃，每幅图的宽度为

高度为

第9个神经网络块由连续六个卷积块组成，输入为第8个神经网络块输出的512幅特征图，输出为1024幅特征图构成第四RGB特征图集合R₄，每幅图的宽度为

高度为

第10个神经网络块由连续三个卷积块组成，输入为第9个神经网络块输出的1024幅特征图，输出为2048幅特征图构成第五RGB特征图集合R₅，每幅图的宽度为

高度为

由此RGB图分别经第6个神经网络块到第10个神经网络块处理得到五个RGB特征图集合，五个RGB特征图集合分别为R₁、R₂、R₃、R₄、R₅；

然后，第一深度特征图集合D₁和第一RGB特征图集合R₁均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出128幅特征图，作为第一特征图集a；第二深度特征图集合D₂和第二RGB特征图集合R₂均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出384幅特征图，作为第二特征图集b；第三深度特征图集合D₃和第三RGB特征图集合R₃均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出768幅特征图，作为第三特征图集c；第四深度特征图集合D₄和第四RGB特征图集合R₄均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出1536幅特征图，作为第四特征图集d；

通道数叠操作具体是指在特征图尺寸相同的条件下，采用通道数相加的方式将输出的RGB或深度图的特征图进行合并。

第五RGB特征图集合R₅经过内部感知模块IPM处理后获得感知特征图集F，感知特征图集F和第五深度特征图集合D₅一起共同输入到空间注意力模块SAM，空间注意力模块SAM的输出和第四特征图集d一起经通道数叠后输入到第1个解码块，第1个解码块的输出和第三特征图集c一起经通道数叠后输入到第2个解码块，第2个解码块的输出和第二特征图集b一起经通道数叠后输入到第3个解码块，第3个解码块的输出和第一特征图集a一起经通道数叠后输入到第4个解码块，第4个解码块输出作为隐层的输出，即为最终显著性预测图。

所述的通道注意力模块CAM，具体为：输入为特征图集合X_i，X_i∈(D₁，D₂，D₃，D₄，R₁，R₂，R₃，R₄)，首先经过调整矩阵形状操作(reshape)后，获得第一调整图RE(X_i)；接着将第一调整图RE(X_i)进行矩阵转置操作(transpose)，获得第二调整图RE^T(X_i)；再将第二调整图RE^T(X_i)和第一调整图RE(X_i)进行矩阵相乘，得到第三调整图M(X_i)，再经过softmax函数处理，得到注意特征图S(X_i)；然后将第三调整图RE(X_i)和注意特征图S(X_i)进行矩阵相乘，后再调整矩阵形状得到第四调整图SR(X_i)；最后将第四调整图SR(X_i)乘上范围参数α后和输入的特征图集合X_i进行相加操作，最终输出得到第五调整图O(X_i)，作为通道注意力模块CAM的输出。

如图2所示，所述的内部感知模块IPM的输入为RGB图第5个神经网络块输出的第五RGB特征图集合R₅，输出为1024幅特征图作为感知特征图集F；内部感知模块IPM包括第1个扩张卷积块、第2个扩张卷积块、第3个扩张卷积块、第4个扩张卷积块和第一上采样层，第1个扩张卷积块和第2个扩张卷积块依次顺序连接，第1个扩张卷积块的输出输入到第2个扩张卷积块，第1个扩张卷积块的输出和第2个扩张卷积块的输出通道数叠后再和第1个扩张卷积块的输出再次通道数叠后输入到第3个扩张卷积块；第3个扩张卷积块的输出和第3个扩张卷积块的输入经通道数叠后再和第3个扩张卷积块的输出再次通道数叠后输入到第四个扩张卷积块，第四个扩张卷积块的输出直接输入到第一上采样层，第一上采样层输出作为内部感知模块IPM的输出。

具体为：

第1个扩张卷积块由第十二卷积层、第二归一层和第十二激活层依次连接组成，输入为RGB图第5个神经网络块输出的第五RGB特征图集合R₅，输出为1024幅特征图形成第一扩张特征图集合F₁；

第2个扩张卷积块由第十三卷积层、第三归一层和第十三激活层依次连接组成，输入为第一扩张特征图集合F₁，输出为512幅特征图形成第二扩张特征图集合F₂；将第一扩张特征图集合F₁和第二扩张特征图集合F₂进行通道数叠得到1536幅特征图作为第三扩张特征图集合F₃，再第三扩张特征图集合F₃和第一扩张特征图集合F₁进行通道数叠得到2560幅特征图作为第四扩张特征图集合F₄；

第3个扩张卷积块由第十四卷积层、第四归一层和第十四激活层依次连接组成，输入为F第四扩张特征图集合F₄，输出为1024幅特征图作为第五扩张特征图集合F₅；

将第五扩张特征图集合F₅和第四扩张特征图集合F₄进行通道数叠得到3584幅特征图作为第六扩张特征图集合F₆，再将第六扩张特征图集合F₆和第五扩张特征图集合F₅进行通道数叠得到4608幅特征图形成第七扩张特征图集合F₇；

第4个扩张卷积块由第十五卷积层、第五归一层和第十五激活层依次连接组成，输入为第七扩张特征图集合F₇，输出为2048幅特征图作为第八扩张特征图集合F₈；

第一上采样层的输入为第八扩张特征图集合F₈，输出为1024幅特征图，每幅图的宽度为

高度为

如图3所示，所述的空间注意力模块SAM主要由第十六卷积层、第六归一层和第十六激活层和第二上采样层组成，第十六卷积层输入为深度图的第5个神经网络块输出的第五深度特征图集合D₅，输出依次经第六归一层和第十六激活层后输入到第二上采样层，第二上采样层的输出和感知特征图集F一起进行矩阵相乘后输入softmax激活函数，softmax激活函数的输出再和感知特征图集F一起进行矩阵相乘后再乘以范围参数β获得特征图集S₄，特征图集S₄最后和深度图的第5个神经网络块输出的第五深度特征图集合D₅一起相加操作输出注意力特征图集S₅，作为空间注意力模块SAM的输出。

对于第1个解码块、主要由第一融合层、第十七卷积层、第七归一层、第十七激活层、第十八卷积层、第八归一层、第十八激活层、第三上采样层依次连接组成；对于第2个解码块、主要由第二融合层、第十九卷积层、第九归一层、第十九激活层、第二十卷积层、第十归一层、第二十激活层、第四上采样层依次连接组成；对于第3个解码块、主要由第三融合层、第二十一卷积层、第十一归一层、第二十一激活层、第二十二卷积层、第十二归一层、第二十二激活层、第五上采样层依次连接组成；对于第4解码块、主要由第四融合层、第二十三卷积层、第十三归一层、第二十三激活层、第二十四卷积层、第十四归一层、第二十四激活层、第二十五卷积层、第十五归一层、第二十五激活层、第六上采样层依次连接组成。

本发明优点是采用非对称的编码结构充分提取RGB和深度图特征，加入内部感知模块后有效利用RGB丰富的图像信息，加入通道和空间注意力机制，增强了显著性区域和显著性特征的表达，最后在解码阶段进行多尺度多层级的特征融合，提高了视觉显著性检测的检测准确度。

与现有技术相比，本发明的优点在于：

本发明方法在构建卷积神经网络的时候，采用非对称的编码结构，将深度图作为RGB图的补充信息，使用不同的主干网络分别提取RGB信息和深度信息，能够充分提取原始立体图像和深度图信息，得到多层次特征图；

本发明方法采用了IPM(Interior Perception Module，即内部感知模块)，该模块以RGB编码网络的输出为输入，能够对输入的特征图进行自适应特征细化，以捕捉更充分的RGB特征信息，从而提高最终的视觉显著性检测精度；

本发明方法采用了SAM(Spatial Attention Module，即空间注意力模块)，该模块以深度图编码结构的输出为输入，能够有效结合多尺度的深度信息和细化后的RGB信息，保留了特征的空间细节，增强了显著区域的表达，提高了显著检测的精度。

附图说明

图1为本发明方法的总体实现框图；

图2为本发明方法的内部感知模块(IPM)实现图；

图3为本发明方法的空间注意力机制模块(SAM)实现图；

图4(a)为同一场景的第1幅原始立体图像对应的真实人眼注视图；

图4(b)为利用本发明方法对图4(a)所示的原始立体图像进行检测后得到的显著性检测图；

图5(a)为同一场景的第2幅原始立体图像对应的真实人眼注视图；

图5(b)为利用本发明方法对图5(a)所示的原始立体图像进行检测后得到的显著性检测图；

图6(a)为同一场景的第3幅原始立体图像对应的真实人眼注视图；

图6(b)为利用本发明方法对图6(a)所示的原始立体图像进行检测后得到的显著性检测图；

图7(a)为同一场景的第4幅原始立体图像对应的真实人眼注视图；

图7(b)为利用本发明方法对图7(a)所示的原始立体图像进行检测后得到的显著性检测图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明实施例的过程如图1所示，其包括训练阶段和测试阶段两个过程：

所述的训练阶段过程的具体步骤为：

步骤①_1：选取n幅原始立体图像的RGB图、深度图和对应的真实人眼注释图构成训练集，n∈{N⁺|n≥200}，将训练集中的第i幅(n≤i≤n)原始立体图像的RGB图记为

原始立体图像所对应的深度图记为

原始立体图像和深度图所对应的真实人眼注视图记为{Gⁱ(x，y)}，其中(x，y)代表像素点的坐标位置，用W表示原始立体图像的宽度，H表示原始立体图像的高度，则1≤x≤W，1≤y≤H；并采用现有的HHA方法(Horizontal disparity,height above ground,and the angle the pixel’s localsurface normal makes with the inferred gravity direction，即独热编码技术)将训练集中的深度图

处理为与原始立体图像(RGB图)一样具有三通道的集合Hⁱ；本实验中的数据集选用视觉显著性检测数据集NUS中的420幅图像和NCTU中的332幅图像作为训练集，60幅NUS图像和48幅NCTU图像作为验证集，剩下95幅NUS图像和120幅NCTU图像作为测试集；

步骤①_2：构建的卷积神经网络，包括输入层、隐层和输出层；

输入层的输入端输入原始立体图像的RGB图和对应的深度图，输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量，输入层的输出量是隐层的输入量；其中，深度图经过HHA编码方式处理后与RGB图一样具有三通道，即经过输入层后也是被处理成三个分量，且输入的原始立体图像的宽度为W、高度为H；

隐层的组成部分：第1个神经网络块，第2个神经网络块，第3个神经网络块，第4个神经网络块，第5个神经网络块，第6个神经网络块，第7个神经网络块，第8个神经网络块，第9个神经网络块，第10个神经网络块，CAM(Channel Attention Module，即通道注意力模块)，内部感知模块IPM，空间力注意模块SAM，第1个解码块，第2个解码块，第3个解码块，第4个解码块；

其中，对于深度图的处理，第1个神经网络块的输入是用HHA编码后的三通道图像，输出是经过处理后的64幅特征图，每幅图的宽度为

高度为

第1个神经网络块由第一卷积层，第一激活层，第二卷积层，第二激活层和第一最大池化层组成；第一卷积层和第二卷积层的卷积核设置为64×3×3，即个数(filters)为64，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第一激活层和第二激活层的激活方式为“ReLU函数”，第一最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第2个神经网络块由第三卷积层，第三激活层，第四卷积层，第四激活层，第二最大池化层组成；输入为第1个神经网络块输出的64幅特征图，输出128幅特征图，每幅图的宽度为

高度为

第三卷积层和第四卷积层卷积核个数(filters)为128，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第三激活层和第四激活层的激活方式为“ReLU函数”，第二最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第3个神经网络块的输入是第2个神经网络块输出的128幅特征图，输出为256幅特征图，每幅图的宽度为

高度为

第五卷积层和第六卷积层卷积核个数(filters)为256，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第五激活层和第六激活层的激活方式为“ReLU函数”，第三最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第4个神经网络块的输入是第3个神经网络块输出的256幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

第七卷积层和第八卷积层卷积核个数(filters)为512，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第七激活层和第八激活层的激活方式为“ReLU函数”，第四最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；

第5个神经网络块的输入是第4个神经网络块输出的512幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

第九卷积层和第十卷积层卷积核个数(filters)为512，卷积核尺寸(kernel_size)为3×3，补零参数(padding)的值为1，第九激活层和第十激活层的激活方式为“ReLU函数”，第五最大池化层的池化尺寸(pool_size)为2，步长(stride)为2；将深度图处理得到的5个特征图集合分别记为D₁，D₂，D₃，D₄，D₅；

对于RGB图的处理，其中的第6个神经网络块的输入是三通道原始RGB图，输出是经过处理后的64幅特征图，每幅图的宽度为

高度为

第6个神经网络块由第十一卷积层，第一归一层，第十一激活层，第六最大池化层组成；第十一卷积层的卷积核个数(filters)为64，尺寸(kernel_size)为7×7，补零参数(padding)的值为3，步长(stride)为2；第一归一层使用的归一算法是“Batch Normalization”；第十一激活层的激活方式为“ReLU函数”，第六最大池化层卷积核尺寸(kernel_size)为3×3，步长(stride)为2，补零参数(padding)的值为1；

第7个神经网络块的输入是第6个神经网络块输出的64幅特征图，输出是256幅特征图，每幅图的宽度为

高度为

第7个神经网络块由3个卷积块组成，每一个卷积块包括4层卷积层，第一个卷积层输入为第1个神经网络块输出的64幅特征图，输出为处理后的64幅特征图，卷积核个数(filters)为64，尺寸(kernel_size)为1×1，步长(stride)为1；第二个卷积层输入为第一个卷积层输出的64幅特征图，输出为处理后的64幅特征图，卷积核个数(filters)为64，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1；第三个卷积层输入为第二个卷积层输出的64幅特征图，输出为处理后的256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为1×1，步长(stride)为1；第四个卷积层输入为前一个卷积块(或第一最大池化层)输出的64幅特征图，输出为256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为1×1，步长(stride)为1；

第8个神经网络块由4个卷积块组成，输入为第7个神经网络块输出的256幅特征图，输出为512幅特征图，每幅图的宽度为

高度为

每一个卷积块包含4层卷积层，第一个卷积层输入为第2个神经网络块输出的256幅特征图，输出为处理后的128幅特征图，卷积核个数(filters)为128，尺寸(kernel_size)为1×1，步长(stride)为1；第二个卷积层输入为第一个卷积层输出的128幅特征图，输出为处理后的128幅特征图，卷积核个数(filters)为128，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1；第三个卷积层输入为第二个卷积层输出的128幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为1×1，步长(stride)为1；第四个卷积层输入为前一个卷积块(或第2个神经网络块)输出的512幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为1×1，步长(stride)为2；

第9个神经网络块由6个卷积块组成，输入为第8个神经网络块输出的512幅特征图，输出为1024幅特征图，每幅图的宽度为

高度为

每一个卷积块包含4层卷积层，第一个卷积层输入为第3个神经网络块输出的512幅特征图，输出为处理后的256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为1×1，步长(stride)为1；第二个卷积层输入为第一个卷积层输出的256幅特征图，输出为处理后的256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1；第三个卷积层输入为第二个卷积层输出的256幅特征图，输出为处理后的1024幅特征图，卷积核个数(filters)为1024，尺寸(kernel_size)为1×1，步长(stride)为1；第四个卷积层输入为前一个卷积块(或第3个神经网络块)输出的512幅特征图，输出为处理后的1024幅特征图，卷积核个数(filters)为1024，尺寸(kernel_size)为1×1，步长(stride)为2；

第10个神经网络块由3个卷积块组成，输入为第9个神经网络块输出的1024幅特征图，输出为2048幅特征图，每幅图的宽度为

高度为

每一个卷积块包含4层卷积层，第一个卷积层输入为第4个神经网络块输出的1024幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为1×1，步长(stride)为1；第二个卷积层输入为第一个卷积层输出的512幅特征图，输出为处理后的512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1；第三个卷积层输入为第二个卷积层输出的512幅特征图，输出为处理后的2048幅特征图，卷积核个数(filters)为2048，尺寸(kernel_size)为1×1，步长(stride)为1；第四个卷积层输入为前一个卷积块(或第4个神经网络块)输出的1024幅特征图，输出为处理后的2048幅特征图，卷积核个数(filters)为2048，尺寸(kernel_size)为1×1，步长(stride)为2；将RGB图处理得到的5个特征图集合分别记为R₁，R₂，R₃，R₄，R₅；

对于通道注意力模块CAM，输入为X_i，X_i∈(D₁，D₂，D₃，D₄，R₁，R₂，R₃，R₄)，

即通道为C，图高H，图宽W，经过调整矩阵形状操作(reshape)后，记为RE(X_i)，

再将RE(X_i)进行矩阵转置操作(transpose)，记为RE^T(X_i)；将RE^T(X_i)和RE(X_i)进行矩阵相乘，得到M(X_i)，此后经过softmax函数处理，得到注意特征图S(X_i)，

将RE(X_i)和S(X_i)进行矩阵相乘，后再调整矩阵形状(reshape)，得到SR(X_i)，

将SR(X_i)乘上范围参数α，α是神经网络逐渐从0开始学习得到的，X_i和α×SR(X_i)进行相加操作，得到最终的输出O(X_i)，

本阶段的融合方式是：D₁经过CAM后，输出经过处理后的64幅特征图D₁’，同理，D₂，D₃，D₄经过CAM后，分别输出经过处理后特征图集D₂’，D₃’，D₄’，分别包含128，256，512幅特征图；R₁经过CAM后，输出经过处理后的64幅特征图R₁’，同理，R₂，R₃，R₄经过CAM后，分别输出经过处理后特征图集R₂’，R₃’，R₄’，分别包含256，512，1024幅特征图；此后将D₁’和R₁’进行通道数叠，输出128幅特征图，记为特征图集a，同理，D₂’和R₂’进行通道数叠，输出384幅特征图，记为特征图集b，D₃’和R₃’进行通道数叠，输出768幅特征图，记为特征图集c，D₄’和R₄’进行通道数叠，输出1536幅特征图，记为特征图集d；

对于内部感知模块IPM，它由第1个扩张卷积块，第2个扩张卷积块，第3个扩张卷积块，第4个扩张卷积块和第一上采样层组成；IPM的输入为RGB图第5个神经网络块输出的2048幅特征图，输出为1024幅特征图记为，记为F；第1个扩张卷积块由第十二卷积层，第二归一层和第十二激活层组成；第十二卷积层输入为RGB图第5个神经网络块输出的2048幅特征图，输出为1024幅特征图，特征图集合记为F₁，卷积核个数(filters)为1024，扩张率(dilation)为2，尺寸(kernel_size)为3×3，补零参数(padding)的值为2，步长(stride)为1，第二归一层使用的归一算法是“Batch Normalization”，第十二激活层的激活方式为“ReLU函数”；第2个扩张卷积块由第十三卷积层，第三归一层和第十三激活层组成；第十三卷积层输入为第1个扩张卷积块输出的1024幅特征图，输出为512幅特征图，卷积核个数(filters)为512，扩张率(dilation)为2，尺寸(kernel_size)为3×3，补零参数(padding)的值为2，步长(stride)为1，第三归一层使用的归一算法是“Batch Normalization”，第十三激活层的激活方式为“ReLU函数”，特征图集合记为F₂；此阶段的融合：将F₁和F₂进行通道数叠，得到1536幅特征图，记为F₃，F₃和F₁进行通道数叠，得到2560幅特征图，记为F₄；

第3个扩张卷积块由第十四卷积层，第四归一层和第十四激活层组成；第十四卷积层输入为F₄包含的2560幅特征图，输出为1024幅特征图，卷积核个数(filters)为1024，扩张率(dilation)为2，尺寸(kernel_size)为3×3，补零参数(padding)的值为2，步长(stride)为1，第四归一层使用的归一算法是“Batch Normalization”，第十四激活层的激活方式为“ReLU函数”特征图集合记为F₅；此阶段的融合：将F₅和F₄进行通道数叠，得到3584幅特征图，记为F₆；将F₆和F₅进行通道数叠，得到4608幅特征图，记为F₇；

第4个扩张卷积块由第十五卷积层，第五归一层和第十五激活层组成；第十五卷积层输入为F₄包含的4608幅特征图，输出为2048幅特征图，记为F₈，卷积核个数(filters)为2048，扩张率(dilation)为2，尺寸(kernel_size)为3×3，补零参数(padding)的值为2，步长(stride)为1，第五归一层使用的归一算法是“Batch Normalization”，第十五激活层的激活方式为“ReLU函数”；

第一上采样层的输入为第4个扩张卷积块输出的2048幅特征图，指定倍数(scale_factor)设置为2，输出为1024幅特征图，每幅图的宽度为

高度为

对于空间注意力模块SAM，由第十六卷积层，第六归一层和第十六激活层和第二上采样层组成，第十六卷积层输入为深度图的第5个神经网络块输出的512幅特征图集D₅，输出为1024幅特征图，卷积核个数(filters)为1024，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第六归一层使用的归一算法是“BatchNormalization”，第十六激活层的激活方式为“ReLU函数”，将特征图集记为S₁；第二上采样层指定倍数(scale_factor)设置为2，输入为S₁，输出为512幅特征图，记为S₂，每幅图的宽度为

高度为

将S₂和IPM的输出F进行矩阵相乘后送入softmax函数，得到S₃；将S₃和F进行矩阵相乘，再乘上β，β是神经网络逐渐从0开始学习得到的，得到S₄，最后将S₂和S₄进行相加操作，得到最终SAM的输出S₅；

对于第1个解码块，由第一融合层，第十七卷积层，第七归一层，第十七激活层，第十八卷积层，第八归一层，第十八激活层，第三上采样层组成；第一融合层将D₄’和R₄’进行通道数叠输出的1536幅特征图集d和SAM的输出S₄进行通道数叠，输出2560幅特征图，记为J₁；第十七卷积层输入J₁，输出为1024幅特征图，卷积核个数(filters)为1024，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第七归一层使用的归一算法是“Batch Normalization”，第十七激活层的激活方式为“ReLU函数”，将特征图集记为J₂；第十八卷积层输入J₂，输出为512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第八归一层使用的归一算法是“Batch Normalization”，第十八激活层的激活方式为“ReLU函数”，将特征图集记为J₃；第三上采样层指定倍数(scale_factor)设置为2，输入为J₃，输出为512幅特征图，图片尺寸为每幅图的宽度为

高度为

对于第2个解码块，由第二融合层，第十九卷积层，第九归一层，第十九激活层，第二十卷积层，第十归一层，第二十激活层，第四上采样层组成；第二融合层将D₃’和R₃’进行通道数叠输出的768幅特征图集c和J₂进行通道数叠，输出1280幅特征图，记为J₄；第十九卷积层输入J₄，输出为512幅特征图，卷积核个数(filters)为512，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第九归一层使用的归一算法是“BatchNormalization”，第十九激活层的激活方式为“ReLU函数”，将特征图集记为J₅；第二十卷积层输入J₅，输出为256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十归一层使用的归一算法是“BatchNormalization”，第二十激活层的激活方式为“ReLU函数”，将特征图集记为J₆；第四上采样层指定倍数(scale_factor)设置为2，输入为J₆，输出为256幅特征图，每幅图的宽度为

高度为

对于第3个解码块，由第三融合层，第二十一卷积层，第十一归一层，第二十一激活层，第二十二卷积层，第十二归一层，第二十二激活层，第五上采样层组成；第三融合层将D₂’和R₂’进行通道数叠输出的384幅特征图集b和J₆进行通道数叠，输出640幅特征图，记为J₇；第二十一卷积层输入J₇，输出为256幅特征图，卷积核个数(filters)为256，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十一归一层使用的归一算法是“Batch Normalization”，第二十一激活层的激活方式为“ReLU函数”，将特征图集记为J₈；第二十二卷积层输入J₉，输出为128幅特征图，卷积核个数(filters)为128，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十二归一层使用的归一算法是“Batch Normalization”，第二十二激活层的激活方式为“ReLU函数”，将特征图集记为J₉；第五上采样层指定倍数(scale_factor)设置为2，输入为J₉，输出为128幅特征图，图片尺寸为每幅图的宽度为

高度为

对于第4解码块，由第四融合层，第二十三卷积层，第十三归一层，第二十三激活层，第二十四卷积层，第十四归一层，第二十四激活层，第二十五卷积层，第十五归一层，第二十五激活层，第六上采样层组成；第四融合层将D₁’和R₁’进行通道数叠输出的128幅特征图集a和J₉进行通道数叠，输出256幅特征图，记为J₁₀；第二十三卷积层输入J₁₀，输出为128幅特征图，卷积核个数(filters)为128，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十三归一层使用的归一算法是“Batch Normalization”，第二十三激活层的激活方式为“ReLU函数”，将特征图集记为J₁₁；第二十四卷积层输入J₁₁，输出为64幅特征图，卷积核个数(filters)为64，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十四归一层使用的归一算法是“Batch Normalization”，第二十四激活层的激活方式为“ReLU函数”，将特征图集记为J₁₂；第二十五卷积层输入J₁₂，输出为1幅特征图，卷积核个数(filters)为1，尺寸(kernel_size)为3×3，补零参数(padding)的值为1，步长(stride)为1，第十五归一层使用的归一算法是“BatchNormalization”，第二十五激活层的激活方式为“ReLU函数”，将特征图集记为J₁₃；第六上采样层指定倍数(scale_factor)设置为2，输入为J₁₄，输出为1幅特征图，图片尺寸为W×H；J₁₄即为最终的显著性预测图；

步骤①_3：将训练集中的原始立体图像的RGB图和深度图作为输入，输入到所构建的卷积神经网络中进行训练，得到原始立体图像对应的显著性检测图，将训练完成得到的显著性检测图构成的集合记为

步骤①_4：计算训练得到的显著性检测图构成的集合

步骤①_5：重复执行步骤①_3和步骤①_4m次，得到卷积神经网络分类训练模型，并共得到n×m个损失函数值；然后从n×m个损失函数值中找出值最小的损失函数值；接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^Best和B^Best；其中，m＞1，本实验中取m为50；

所述的测试阶段过程的具体步骤为：

步骤②_1：令

表示待检测的显著性立体RGB图及对应的深度图；A(x′，y′)表示

中坐标位置为(x′，y′)的像素点的像素值，用W′表示

的宽度，H′表示

的高度，则1≤x′≤W′，1≤y′≤H′；

步骤②_2：将

的R通道分量，G通道分量和B通道分量输入所构建的卷积神经网络训练模型中，并利用W^Best和B^Best进行预测，得到

对应的显著性检测图像，记为

其中

表示

中坐标位置为(x′，y′)的像素点的像素值；

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库PyTorch1.1.0搭建基于注意力机制的非对称多模态融合显著性检测方法的卷积神经网络架构。采用数据集NUS和NCTU来分析利用本发明方法检测得到的显著性图像(分别取600和475幅立体图像)的检测效果。在本实验中，利用评估显著性检测方法的4个常用客观参量作为评价指标：线性相关系数(Linear CorrelationCoefficient,缩写为CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,缩写为KLDiv)、AUC参数(the Aera Under the receiver operating characteristicsCurve,缩写为AUC)、标准化扫描路径显著性(Normalized Scanpath Saliency,缩写为NSS)来评价显著性检测图像的检测性能。

利用本发明方法对两个数据集NUS和NCTU中的每幅立体图像进行检测，得到每幅立体图像对应的显著性检测图像，反映本发明方法的显著性检测效果的线性相关系数CC、Kullback-Leibler散度系数KLDiv、AUC参数、标准化扫描路径显著性NSS如表1所列。

表1利用本发明方法得到的评测结果

从表1所列的数据可知，按本发明方法得到的显著性检测图像的检测结果是较好的。表明客观评价结果与人眼主观感知的结果较为一致，足以说明本发明方法的可行性和有效性。图4(a)给出了NCTU数据集中同一场景的第1幅原始立体图像对应的人眼注视图像；图4(b)给出了利用本发明方法对图4(a)所示的原始立体图像进行检测所得到的显著性检测图像；图5(a)给出了NCTU数据集中同一场景的第2幅原始立体图像对应的人眼注视图像；图5(b)给出了利用本发明方法对图5(a)所示的原始立体图像进行检测所得到的显著性检测图像；图6(a)给出了NUS数据集中同一场景的第3幅原始立体图像对应的人眼注视图像；图6(b)给出了利用本发明方法对图6(a)所示的原始立体图像进行检测所得到的显著性检测图像；图7(a)给出了NUS数据集中同一场景的第4幅原始立体图像对应的人眼注视图像；图7(b)给出了利用本发明方法对图7(a)所示的原始立体图像进行检测得到的显著性检测图像。

对比图4(a)和图4(b)，对比图5(a)和图5(b)，对比图6(a)和图6(b)，对比图7(a)和图7(b)，可以看出利用本发明方法得到的显著性检测图像的预测度精度提高，明显取得了突出显著的技术效果。

Claims

1.一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1.1)：采集选取带有目标物体的n幅原始立体图像的RGB图、深度图并和标注获得的真实人眼注释图构成训练集，并采用HHA方法将训练集中的深度图

均处理为与原始立体图像一样具有三通道的集合Hⁱ；

步骤1.2)：构建的卷积神经网络；

步骤1.4)：计算训练得到的显著性检测图构成的集合

所述的测试阶段过程的具体步骤为：

步骤2.1)：将目标物体待检测的RGB图和深度图的组合

对应的显著性检测图像

其中

表示

中坐标位置为(x′，y′)的像素点的像素值。

2.根据权利要求1所述的一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于：

所述的步骤1.2)中的卷积神经网络包括输入层和隐层，隐层输出即为卷积神经网络的输出：

所述的输入层的输入端输入原始立体图像的RGB图和深度图，输入层的输出端输出原始立体图像的RGB图的R通道分量、G通道分量和B通道分量以及深度图的编码图，输入层的输出量是隐层的输入量；其中，深度图在输入层中经过HHA编码方式处理后与RGB图一样具有三通道形成深度图的编码图，且原始立体图像的RGB图和深度图的宽度相同均为W、高度相同均为H；

所述隐层的组成部分：十个神经网络块、通道注意力模块、内部感知模块、空间力注意模块SAM和四个解码块；

对于深度图的处理：

高度为

高度为

高度为

高度为

高度为

对于RGB图的处理：

高度为

高度为

第7个神经网络块由连续三个卷积块组成；每一个卷积块是由连续四层卷积层连接构成，第四层卷积层输入为第三层卷积层的输出以及前一个卷积块的输出，经相加后输出为256幅特征图；

高度为

高度为

高度为

3.根据权利要求2所述的一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于：

所述的通道注意力模块CAM，具体为：输入为特征图集合X_i，X_i∈(D₁，D₂，D₃，D₄，R₁，R₂，R₃，R₄)，首先经过调整矩阵形状操作(reshape)后，获得第一调整图RE(X_i)；接着将第一调整图RE(X_i)进行矩阵转置操作(transpose)，获得第二调整图RE^T(X_i)；再将第二调整图RE^T(X_i)和第一调整图RE(X_i)进行矩阵相乘，得到第三调整图M(X_i)，再经过softmax函数处理，得到注意特征图S(X_i)；然后将第三调整图RE(X_i)和注意特征图S(X_i)进行矩阵相乘，后再调整矩阵形状得到第四调整图SR(X_i)；最后将第四调整图SR(X_i)乘上范围参数α后和输入的特征图集合X_i进行相加操作，最终输出得到第五调整图O(X_i)，作为通道注意力模块CAM的输出；

所述的内部感知模块IPM的输入为RGB图第5个神经网络块输出的第五RGB特征图集合R₅，输出为1024幅特征图作为感知特征图集F；内部感知模块IPM包括第1个扩张卷积块、第2个扩张卷积块、第3个扩张卷积块、第4个扩张卷积块和第一上采样层，第1个扩张卷积块的输出输入到第2个扩张卷积块，第1个扩张卷积块的输出和第2个扩张卷积块的输出通道数叠后再和第1个扩张卷积块的输出再次通道数叠后输入到第3个扩张卷积块；第3个扩张卷积块的输出和第3个扩张卷积块的输入经通道数叠后再和第3个扩张卷积块的输出再次通道数叠后输入到第四个扩张卷积块，第四个扩张卷积块的输出直接输入到第一上采样层，第一上采样层输出作为内部感知模块IPM的输出。

4.根据权利要求2所述的一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于：所述的空间注意力模块SAM主要由第十六卷积层、第六归一层和第十六激活层和第二上采样层组成，第十六卷积层输入为深度图的第5个神经网络块输出的第五深度特征图集合D₅，输出依次经第六归一层和第十六激活层后输入到第二上采样层，第二上采样层的输出和感知特征图集F一起进行矩阵相乘后输入softmax激活函数，softmax激活函数的输出再和感知特征图集F一起进行矩阵相乘后再乘以范围参数β获得特征图集S₄，特征图集S₄最后和深度图的第5个神经网络块输出的第五深度特征图集合D₅一起相加操作输出注意力特征图集S₅，作为空间注意力模块SAM的输出。

5.根据权利要求2所述的一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于：对于第1个解码块、主要由第一融合层、第十七卷积层、第七归一层、第十七激活层、第十八卷积层、第八归一层、第十八激活层、第三上采样层依次连接组成；对于第2个解码块、主要由第二融合层、第十九卷积层、第九归一层、第十九激活层、第二十卷积层、第十归一层、第二十激活层、第四上采样层依次连接组成；对于第3个解码块、主要由第三融合层、第二十一卷积层、第十一归一层、第二十一激活层、第二十二卷积层、第十二归一层、第二十二激活层、第五上采样层依次连接组成；对于第4解码块、主要由第四融合层、第二十三卷积层、第十三归一层、第二十三激活层、第二十四卷积层、第十四归一层、第二十四激活层、第二十五卷积层、第十五归一层、第二十五激活层、第六上采样层依次连接组成。