CN110619638A

CN110619638A - 一种基于卷积块注意模块的多模态融合显著性检测方法

Info

Publication number: CN110619638A
Application number: CN201910777223.1A
Authority: CN
Inventors: 周武杰; 刘文宇; 雷景生; 钱亚冠; 王海江; 何成
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang University of Science and Technology ZUST
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-12-27

Abstract

本发明公开了一种基于卷积注意模块的多模态融合的显著性检测方法。本发明在训练阶段，构建卷积神经网络；使用原始图像的左视点图和深度图输入到卷积神经网络中进行训练，得到相应的显著性检测图；再通过计算模型生成的显著性检测图构成的集合与对应的真实人眼注视图构成的集合之间的损失函数，获得卷积神经网络分类训练模型的最优权值矢量和偏置项；在测试阶段，将选定数据集中的立体图像输入到训练好的卷积神经网络模型中，得到显著性检测的图像。本发明应用了新颖的模块优化图像特征的提取，进行多尺度、多方式的特征融合，最终提高了视觉显著性检测的检测效率和检测准确度。

Description

一种基于卷积块注意模块的多模态融合显著性检测方法

技术领域

本发明涉及一种深度学习的视觉显著性检测方法，尤其是涉及一种基于卷积块注意模块的多模态融合显著性检测方法。

背景技术

识别视野中的明显刺激是人类的一种重要的注意力机制，即在自由观看时，我们的眼睛会倾向于注意场景中在视觉刺激方面有独特的变化的区域，比如：明亮的颜色、特殊的纹理或者是更复杂的语义方面，这种机制引导我们的眼睛注视到场景中突出的信息、丰富的区域。对于人类视觉的这种机制，最早是神经科学家们展开的研究，其应用最广泛的是在医学治疗领域的影像检查，医学影像检查是进行后续有效诊疗的基础。近年来，计算机视觉也对此展开了研究，并且在计算机视觉领域，称此研究为显著性检测。显著性检测在计算机视觉应用领域取得了巨大的成功，例如：场景分类、视觉跟踪、目标重定向、语义分割等。早期的显著性检测方法采用手工特征，即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入，我们发现这些手工特征已经不足以很好的捕获图像中的特征，因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此，采用深度学习的方法能更好的提取图像特征，以达到更好的显著性检测效果。

采用深度学习的方法进行显著性检测，不仅能弥补手工特征难以提取到图像中的对象特征及其周围环境的高级语义的不足，而且深度神经网络能够以分层的方式从数据中自动学习复杂的模式，这使得它们能适应具有不同数据模式的广泛性问题。人类的视觉***注意力机制分为自底向上和自顶向下两种，自底向上的因素完全来自于视觉场景，它们负责将注意力自动地部署到场景中的识别区域，这种注意力属于自动的、反射的、刺激的，例如：开车时在路上无意间发现一个红色的停车标志；而自顶向下则是由主体的先验知识、期望和当前任务等内部因素驱动的，使其具有情境性和高度主观性，它利用工作记忆中可用的信息，将注意力偏向当前行为目标重要的场景区域，例如：饥饿的动物在在寻找伪装的猎物时所表现出来的选择性注意力。

现有的显著性检测方法大多数已经采用深度学习的方法，利用卷积层与池化层相结合的方法提取图像特征，但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性，尤其是进行池化操作会丢失图像的特征信息，从而会导致得到的显著性预测图效果较差，预测的准确度低。

发明内容

为了解决背景技术中的问题，本发明提供了一种基于卷积块注意模块的多模态融合显著性检测方法，其检测效率高，且检测准确度高。

本发明采用的技术方案如下：

本发明包括以下步骤：

步骤1-1：选取N幅原始立体图像，将原始立体图像的左视点图、深度图和真实人眼注释图构成训练集；

步骤1-2：构建卷积神经网络；

步骤1-3：将训练集中原始立体图像的左视点图(即RGB图)和深度图作为输入，输入到卷积神经网络中进行训练，训练过程中，每次迭代训练处理得到每幅原始立体图像的显著性检测图；计算每幅显著性检测图与训练集中对应的真实人眼注释图之间的损失函数值；

步骤1-4：不断迭代训练重复共M次，共得到N×M个损失函数值，然后从 N×M个损失函数值中找出值最小的损失函数值，接着将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，从而完成卷积神经网络的训练，得到卷积神经网络分类训练模型；

步骤1-5：利用训练后获得的卷积神经网络分类训练模型对待测立体图像进行预测处理，将待测立体图像的左视点图和深度图输入卷积神经网络分类训练模型，输出获得对应的显著性检测图像，实现图像的显著性检测。

所述步骤1-2中，卷积神经网络包括输入层、隐层和总输出层；输入层包括 RGB图输入层和深度图输入层；隐层包括前处理模块、特征融合模块，前处理模块包括深度图前处理模块和RGB图前处理模块；深度图输入层和RGB图输入层分别输入深度图前处理模块和RGB图前处理模块；

深度图前处理模块和RGB图前处理模块均包括五个神经网络块、两个卷积块注意CBAM模块和一个金字塔式带空卷积PDC模块，第一个神经网络块依次经第二个神经网络块、第三个神经网络块、第四个神经网络块输出至第五个神经网络块，第一个卷积块注意模块的输入为第三个神经网络块输出，第二个卷积块注意模块的输入为第四个神经网络块的输出，金字塔式带空卷积模块的输入为第五个神经网络块的输出；

特征融合模块包括三个卷积块、一个卷积层、四个反卷积层和一个反卷积块，三个卷积块分别为第一个卷积块、第二个卷积块和第三个卷积块，四个反卷积层分别为第一个反卷积层、第二个反卷积层、第三个反卷积层和第四个反卷积层；

深度图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与深度图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合 Z₁，深度图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与深度图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合 Z₂，深度图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与深度图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合 Z₃；

RGB图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与RGB 图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Y₁， RGB图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与RGB 图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Y₂， RGB图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与RGB图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Y₃；

特征图集合Z₁与特征图集合Y₁以通道数叠的方式融合后经第一个卷积层输出，特征图集合Z₂与特征图集合Y₂以通道数叠的方式融合后经第一个反卷积层输出，特征图集合Z₃与特征图集合Y₃以通道数叠的方式融合后经第一个反卷积块输出，第一个卷积层的输出、第一个反卷积层的输出和第一个反卷积块的输出以通道数叠的方式融合后输入第二个反卷积层，第二个反卷积层经第三个反卷积层输出至第四个反卷积层；

总输出层包括三个输出层和三个过渡用卷积层，三个输出层分别为第一个输出层、第二个输出层和第三个输出层，三个过渡用卷积层分别为第一个过渡用卷积层、第二个过渡用卷积层和第三个过渡用卷积层；第二个反卷积层经第一个过渡用卷积层输出至第一个输出层，第三个反卷积层经第二个过渡用卷积层输出至第二个输出层，第四个反卷积层经第三个过渡用卷积层输出至第三个输出层。

三个输出层分别输出不同尺度的三个显著性检测图像，用于模型训练时的多尺度监督；第三个输出层输出的显著性检测图像作为模型的最终输出结果。

所述金字塔式带空卷积模块包括三个分支，第一个分支由依次连接的第二十卷积层和第二十一卷积层组成，第二个分支由依次连接的第二十二卷积层和第二十三卷积层组成，第三个分支由依次连接的第二十四和第二十五卷积层组成；第五个神经网络块的输出分别输入三个分支，三个分支的输出以通道数叠的方式融合后输入第二个卷积块；

所述卷积块注意模块主要由依次连接的第十三卷积层、第十三激活层、第四卷积块、第五卷积块和第六卷积块组成，第四卷积块主要由依次连接的第十四卷积层、第十四激活层、第十五卷积层和第十五激活层组成，第五卷积块主要由依次连接的第十六卷积层、第十六激活层、第十七卷积层和第十七激活层组成，第六卷积块主要由第十八卷积层、第十八激活层、第十九卷积层、第十九激活层组成；每个卷积层的卷积核大小均为3x3，步长为1，补零参数的值为 1；每个激活层的激活方式均为线性整流函数。

RGB图输入层的输入为立体图像的左视点图，RGB图输入层输出左视点图的R通道分量、G通道分量和B通道分量；深度图输入层的输入为立体图像的深度图，深度图经过深度图输入层的HHA编码方式处理后具有与RGB图一样的三通道，即经过深度图输入层后深度图被处理成三个分量。

本发明的有益效果：

1)本发明方法构建卷积神经网络，采用多模态特征的特殊融合方式以及深度信息的细化处理，能够准确的检测图像中的显著性区域，使检测精度显著提高。

2)本发明方法采用了CBAM(卷积块注意模块)来处理不同层次的模态特征，该模块以特征图为输入，能够对其输入的特征图进行自适应特征细化以捕获更多的特征信息，从而提高最终的视觉显著性检测精度。

3)本发明方法采用了PDC(金字塔式带空卷积)模块来进行有效的特征提取，它是由一组具有采样率的并行带空卷积层叠加而成，利用多尺度信息的同时，也保留了空间细节，使显著性检测效率得到提升。

4)本发明采用了多尺度监督的方法，以多个输出的方式监督模型的训练，使得模型在训练过程中自主调整训练，以达到更好的训练结果，提高检测效率和精度。

附图说明

图1为本发明的总体实现框图；

图2为本发明的金字塔式带空卷积PDC模块结构图

图3a为同一场景的第1幅原始的立体图像对应的真实人眼注视；

图3b为利用本发明方法对图3a的原始的立体图像进行检测得到的显著性检测图像；

图4a为同一场景的第2幅原始的立体图像对应的真实人眼注视；

图4b为利用本发明方法对图3a的原始的立体图像进行检测得到的显著性检测图像；

图5a为同一场景的第3幅原始的立体图像对应的真实人眼注视；

图5b为利用本发明方法对图5a的原始的立体图像进行检测得到的显著性检测图像；

图6a为同一场景的第4幅原始的立体图像对应的真实人眼注视；

图6b为利用本发明方法对图6a的原始的立体图像进行检测得到的显著性检测图像。

具体实施方式

以下结合附图和实施例对本发明作进一步详细描述。

本发明提出的一种基于卷积块注意模块的多模态融合的显著性检测方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N幅原始立体图像的左视点图、深度图像和对应的真实人眼注释图构成训练集，将训练集中的第k幅原始立体图像的左视点图记为原始立体图像的深度图像记为对应的真实人眼注视图记为{G^k(x,y)}；由于原始立体图像的左视点图即RGB彩色图具有三通道，而深度图像只有一个通道，因此采用现有的独热编码技术 (HHA)将训练集中的深度图像处理成与RGB图一样具有三通道，将处理成三通道的图像构成的集合记为J^k；其中，N为正整数，N≥200，如取N＝600，k为正整数， 1≤k≤N，1≤x≤W，1≤y≤H，W表示原始立体图像的宽度，H表示原始立体图像的高度，如取W＝256、H＝256，R^k(x,y)表示中坐标位置为(x,y)的像素点的像素值，表示中坐标位置为(x,y)的像素点的像素值，G^k(x,y)表示{G^k(x,y)}中坐标位置为(x,y)的像素点的像素值；本实验中的数据集直接选用的是由新加坡国立大学提供的视觉显著性检测数据集NUS中的600幅图像和由交通大学(台湾地区)提供的视觉显著性检测数据集NCTU中的475幅图像。

步骤1_2：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；

输入层包括RGB图输入层和深度图输入层；隐层包括前处理模块、特征融合模块，前处理模块包括深度图前处理模块和RGB图前处理模块；深度图输入层和RGB图输入层分别输入深度图前处理模块和RGB图前处理模块；

对于输入层，RGB图输入层的输入为原始立体图像的RGB图，RGB图输入层输出RGB图的R通道分量、G通道分量和B通道分量；深度图输入层的输入为立体图像的深度图，深度图经过深度图输入层的HHA编码方式处理后具有与RGB图一样的三通道，即经过深度图输入层后深度图被处理成三个分量，且输入的原始立体图像的宽度为W、高度为H。输入层的输出量是隐层的输入量；

深度图前处理模块和RGB图前处理模块均包括五个神经网络块、两个卷积块注意模块和一个金字塔式带空卷积模块，第一个神经网络块依次经第二个神经网络块、第三个神经网络块、第四个神经网络块输出至第五个神经网络块，第一个卷积块注意模块的输入为第三个神经网络块输出，第二个卷积块注意模块的输入为第四个神经网络块的输出，金字塔式带空卷积模块的输入为第五个神经网络块的输出；

第1个神经网络块由第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层依次连接组成；第1个神经网络块的输入是三通道的原始图像，经过第1个神经网络块的处理输出64幅特征图，将64幅特征图构成的集合记为P₁；第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核的个数(filters)均为64、补零参数(padding)的值均为1，第一激活层和第二激活层的激活方式均为“Relu”，第一最大池化层的池化尺寸(pool_size)为2，步长(srtide)为2，并且P₁中的每幅特征图的宽度为高度为第 2个神经网络块由第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层依次连接组成；第2个神经网络块的输入是P₁中的64幅特征图，经第2个神经网络块处理后输出128幅特征图，将128幅特征图构成的集合记为P₂；同样的，第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数(padding)的值均为1，第三激活层和第四激活层的激活方式均为“Relu”，第二最大池化层的池化尺寸为2，步长(srtide)为2， P₂中的每幅特征图的宽度为高度为第3个神经网络块由第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层依次连接组成；第3 个神经网络块的输入是P₂中的128幅特征图，经第3个神经网络块的处理后输出256幅特征图，将256幅特征图构成的集合记为P₃；并且，第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数(padding)的值均为1，第五激活层、第六激活层和第七激活层的激活方式均为“Relu”，第三最大池化层的池化尺寸为大小为2，步长(srtide)为2，P₃中的每幅特征图的宽度为高度为第4个神经网络块由第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层依次连接组成；第4个神经网络块的输入是P₃中的256幅特征图，经第4个神经网络块处理后输出512幅特征图，将512幅特征图构成的集合记为P₄；第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数(padding)的值均为1，第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”，第四最大池化层的池化尺寸为2，步长(srtide)为2，P₄中的每幅特征图的宽度为高度为第5个神经网络块由第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层依次连接组成；第5个神经网络块的输入是P₄中的512幅特征图，经第5个神经网络块处理后输出512幅特征图，将512幅特征图构成的集合记为P₅；并且，第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数(padding)的值均为1，第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”，第五最大池化层的池化尺寸为2，步长(srtide)为2，P₅中的每幅特征图的宽度为高度为这里RGB图和深度图采用了相同的处理步骤，深度图处理后对应的得到5个特征集合，分别将它们记为D₁、D₂、D₃、D₄、D₅。

对于CBAM(Convolutional Block Attention Module，即卷积块注意模块)，主要由第十三卷积层、第十三激活层、第四卷积块、第五卷积块、第六卷积块依次连接组成；其中，第四卷积块由第十四卷积层、第十四激活层、第十五卷积层、第十五激活层依次连接组成；第五卷积块由第十六卷积层、第十六激活层、第十七卷积层、第十七激活层依次连接组成；第六卷积块由第十八卷积层、第十八激活层、第十九卷积层、第十九激活层依次连接组成；第十三卷积层、第十四卷积层、第十六卷积层和第十九卷积层是一个卷积核大小(kernel_size) 为1x1的卷积，其步长(stride)为1；第十五卷积层、第十八卷积层是一个卷积核大小 (kernel_size)为3x3的卷积，其步长(stride)为1，补零参数(padding)的值为1；第十七卷积层是一个带空卷积，其卷积核大小(kernel_size)为3x3，步长(stride)为1，补零参数 (padding)的值为2，卷积膨胀率(dilation)为2；卷积块注意模块(CBAM)中的激活层的激活方式均为“Relu”；该模块的输入是第3个神经网络块的输出P₃中的256幅特征图或者第4个神经网络块的输出P₄中的512幅特征图；P₃经CBAM处理后输出240幅特征图，将这240幅特征图构成的集合记为Q₁，P₄经CBAM处理后输出480幅特征图，将这480幅特征图构成的集合记为Q₂，这里对RGB图和深度图均是同样的处理方式，深度图经CBAM 处理后对应的得到两个集合，分别记为O₁、O₂；CBAM不改变输入的特征图的尺寸大小，即Q₁中的特征图分辨率与P₃中的特征图的分辨率一样，均为Q₂中的特征图的分辨率与P₄中的特征图分辨率一样，均为它只是针对特征图进行卷积操作，为提取更多的图像空间信息。

对于PDC(Pyramid Dilated Convolution，即金字塔式带空卷积)模块，如图2所示包括三个分支，第一个分支由依次连接的第二十卷积层和第二十一卷积层组成，第二个分支由依次连接的第二十二卷积层和第二十三卷积层组成，第三个分支由依次连接的第二十四和第二十五卷积层组成；第五个神经网络块的输出分别输入三个分支，三个分支的输出以通道数叠的方式融合后输入第二个卷积块；其中第二十卷积层、第二十二卷积层和第二十四卷积层是三个带空卷积，其卷积核大小(kernel_size)均为3x3，步长(stride)均为1，膨胀率(dilation) 分别为2、6、12，补零参数(padding)对应的分别为2、6、12；第二十一卷积层、第二十三卷积层和第二十五卷积层均是卷积核大小(kernel_size)为1x1的卷积，其步长(stride) 均为1；PDC模块中的激活层的激活方式均为“Relu”；该模块的输入是第5个神经网络块的输出P₅中的512幅特征图，P₅经PDC模块处理后输出384幅特征图，将这384幅特征图的集合记为Q₃；这里对RGB图和深度图的处理方式相同，深度图经PDC模块处理后得到相应的特征图集合记为O₃；PDC模块也不改变输入的特征图的尺寸大小，即Q₃中的特征图分辨率与P₅中的特征图分辨率大小一样，均为它只是针对特征图进行卷积操作，为提取更多的图像特征信息。

深度图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与深度图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Z₁，深度图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与深度图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Z₂，深度图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与深度图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Z₃；RGB图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与RGB图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Y₁，RGB图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与RGB图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Y₂，RGB图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与RGB图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Y₃；特征图集合Z₁与特征图集合Y₁以通道数叠的方式融合后经第一个卷积层输出，特征图集合Z₂与特征图集合Y₂以通道数叠的方式融合后经第一个反卷积层输出，特征图集合Z₃与特征图集合Y₃以通道数叠的方式融合后经第一个反卷积块输出，第一个卷积层的输出、第一个反卷积层的输出和第一个反卷积块的输出以通道数叠的方式融合后输入第二个反卷积层，第二个反卷积层经第三个反卷积层输出至第四个反卷积层；

对于特征融合模块的融合部分，集合P₃中的特征图与集合Q₄中的特征图以乘的形式融合，融合后得到256的幅特征图集合，记为Z₁，集合P₄中的特征图与集合Q₅中的特征图以乘的形式融合，融合后得到512幅特征图的集合，记为Z₂；集合P₅中的特征图与集合Q₆中的特征图以乘的形式融合，融合然后得到512幅特征图的集合，记为Z₃；同样的，集合D₃中的特征图与集合O₄中的特征图以乘的形式融合，融合后得到256的幅特征图集合，记为Y₁，集合D₄中的特征图与集合O₅中的特征图以乘的形式融合，融合后得到512幅特征图的集合，记为Y₂；集合D₅中的特征图与集合O₆中的特征图以乘的形式融合，融合然后得到512幅特征图的集合，记为Y₃；然后将集合Z₁与集合Y₁以通道数叠的方式融合，其融合后的512幅特征图的集合记为X₁；同理将集合Z₂和集合Y₂、集合Z₃和集合Y₃融合，融合后的集合分别记为 X₂、X₃。

对于第1卷积块，主要由第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层依次连接组成；第二十六卷积层是卷积核大小(kernel_size)为3x3的卷积，其步长 (stride)为1，补零参数(padding)的值为1；第二十七卷积层是一个带空卷积，其卷积核大小(kernel_size)为3x3，步长(stride)为1，膨胀率(dilation)为2，补零参数(padding) 的值为1；第二十六激活层和第二十七激活层的激活方式均为“Relu”；第1个卷积块的输入是集合Q₁中的240幅特征图，经第1个卷积块处理后输出256幅特征图，将这256幅特征图构成的集合记为Q₄；这里对RGB图和深度图采用的是相同的处理步骤，深度图经第1个卷积块的处理后得到的特征图集合记为O₄。

对于第2卷积块，主要由第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层依次连接组成；第二十八卷积层的卷积核大小(kernel_size)为3x3，步长(stride) 为1，补零参数(padding)的值为1；第二十九卷积层是一个带空卷积，其卷积核大小 (kernel_size)为3x3，步长(stride)为1，膨胀率(dilation)为2，补零参数(padding)的值为1；第二十八激活层和第二十九激活层的激活方式均为“Relu”；第2个卷积块的输入是集合Q₃中的480幅特征图，经第2个卷积块处理后输出512幅特征图，将这512幅特征图的集合记为Q₅；这里对RGB图和深度图采用的是相同的处理步骤，深度图经第2个卷积块的处理后得到的特征图集合记为O₅。

对于第3卷积块，它是由第三十卷积层、第三十激活层、第三十一卷积层、第三十一激活层依次连接组成；第三十卷积层的卷积核大小(kernel_size)为3x3，步长(stride)为1，补零参数(padding)的值为1；第三十一卷积层是一个带空卷积，其卷积核大小(kernel_size) 为3x3，步长(stride)为1，膨胀率(dilation)为2，补零参数(padding)的值为1；第三十激活层和第三十一激活层的激活方式均为“Relu”；第3个卷积块的输入是集合Q₂中的384幅特征图，经第3个卷积块的处理后输出512幅特征图，将这512幅特征图的集合记为Q₆；这里对RGB图和深度图采用的是相同的处理步骤，深度图经第3个卷积块的处理后得到的特征图集合记为O₆。

对于第1个卷积层，它是由第三十二卷积层、第三十二激活层依次连接组成的；第三十二卷积层的卷积核大小(kernel_size)为3x3的卷积，其步长(stride)为1，补零参数(padding) 的值为1；第三十二激活层的激活方式为“Relu”；第1个卷积层的输入是集合X₁中的512 幅特征图，经第1个卷积层处理后输出256幅特征图，将这256幅特征图的集合记为X₄。

对于第1个反卷积层，它是由第三十三卷积层、第三十三激活层依次连接组成的；第三十三卷积层的卷积核大小(kernel_size)为4x4的反卷积，其步长(stride)为2，补零参数 (padding)的值为1；第三十三激活层的激活方式为“Relu”；经第1个反卷积层处理后输出512幅特征图，将这512幅特征图的集合记为X₅，反卷积操作改变图像的尺度大小，故X₅中的特征图尺寸大小变为

对于第1个反卷积块，它是由第三十四卷积层、第三十四激活层、第三十五卷积层、第三十五激活层依次连接组成；第三十四卷积层和第三十五卷积层的卷积核大小(kernel_size) 均为4x4，其步长(stride)均为2，补零参数(padding)的值均为1；第三十四激活层和第三十五激活层的激活方式均为“Relu”；经第1个反卷积块处理后输出256幅特征图，将这256幅特征图的集合记为X₆，X₆中的特征图的尺寸大小变为

再将集合X₄、X₅、X₆中的特征图以通道数叠的方式融合，融合后得到1024幅特征图，将这1024幅特征图的集合记为X₇。

对于第2个反卷积层，它是由第三十六卷积层、第三十六激活层依次连接组成；第三十六卷积层的卷积核大小(kernel_size)为4x4，其步长(stride)为2，补零参数(padding)的值为1；第三十六激活层的激活方式为“Relu”；第2个反卷积层的输入是集合X₇中的1024 幅特征图，经第2个反卷积层处理后得到512幅特征图，将这512幅特征图的集合记为X₈，此时图像的尺寸大小变为

对于第3个反卷积层，它是由第三十七卷积层、第三十七激活层依次连接组成；第三十七卷积层的卷积核大小(kernel_size)为4x4，其步长(stride)为2，补零参数(padding)的值为1；第三十七激活层的激活方式为“Relu”；第3个反卷积层的输入是集合X₈中的512 幅特征图，经第3个反卷积层处理后得到256幅特征图，将这256幅特征图的集合记为X₉，此时图像的尺寸大小变为

对于第4个反卷积层，它是由第三十八卷积层、第三十八激活层依次连接组成；第三十八卷积层的卷积核大小(kernel_size)为4x4，其步长(stride)为2，补零参数(padding)的值为1；第三十八激活层的激活方式为“Relu”；第4个反卷积层的输入是集合X₉中的256 幅特征图，经第4个反卷积层处理后得到256幅特征图，将这256幅特征图的集合记为X₁₀，此时图像的尺寸大小变为W×H。

总输出层包括三个输出层和三个过渡用卷积层；第二个反卷积层经第一个过渡用卷积层输出至第一个输出层，第三个反卷积层经第二个过渡用卷积层输出至第二个输出层，第四个反卷积层经第三个过渡用卷积层输出至第三个输出层。第1个过渡用卷积层、第2个过渡用卷积层和第3个过渡用卷积层卷积核大小(kernel_size)均为3x3，步长(stride)均为1，补零参数(padding)的值均为1，激活方式均为“Relu”；第1个过渡用卷积层的输入是第2 个反卷积层输出X₈，第2个过渡用卷积层的输入是第3个反卷积层的输出X₉，第3个过渡用卷积层的输入是第4个反卷积层的输出X₁₀；经这三个过渡用卷积层的处理后输出的特征图集合分别记为I₁、I₂、I₃，它们又分别作为第1个输出层、第2个输出层、第3个输出层的输入，然后分别输出不同尺度的三个显著性检测图像，用于训练模型时的多尺度监督；其中，第3个输出层的输出结果也是最终的显著性检测图像。

步骤1_3：将训练集中的原始立体图像的RGB图和深度图作为输入，输入到卷积神经网络中进行训练，得到原始立体图像对应的显著性检测图，将训练完成得到的显著性检测图构成的集合记为

步骤1_4：计算训练得到的显著性检测图构成的集合与对应的真实人眼注视图像构成的集合之间的损失函数值，将与之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4M次，得到卷积神经网络分类训练模型，并共得到N×M个损失函数值；然后从N×M个损失函数值中找出值最小的损失函数值；接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项，对应记为W^best和B^best；其中，M>1，在本实验中取值M＝500。

所述测试阶段过程的具体步骤为：

步骤2_1：令表示待显著性检测的立体图像(RGB图+深度图)；其中，1≤x'≤W'， 1≤y'≤H'，W'表示的宽度，H'表示的高度，S(x',y')表示中坐标位置为(x',y')的像素点的像素值。

步骤2_2：将的R通道分量、G通道分量和B通道分量输入到卷积神经网络训练模型中，并利用W^best和B^best进行预测，得到对应的显著性检测图像，记为其中，表示中坐标位置为(x',y')的像素点的像素值。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库PyTorch1.1.0搭建基于卷积块注意模块的多模态融合卷积神经网络架构。采用数据集NUS和NCTU来分析利用本发明方法检测得到的显著性图像(分别取600和475幅立体图像)的检测效果。在本实验中，利用评估显著性检测方法的4个常用客观参量作为评价指标：线性相关系数(Linear Correlation Coefficient,CC)、Kullback-Leibler 散度系数(Kullback-Leibler Divergence，KLDiv)、AUC参数(the AeraUnder the receiver operating characteristics Curve,AUC)、标准化扫描路径显著性(Normalized Scanpath Saliency， NSS)来评价显著性检测图像的检测性能。

利用本发明方法对两个数据集NUS和NCTU中的每幅立体图像进行检测，得到每幅立体图像对应的显著性检测图像，反映本发明方法的显著性检测效果的线性相关系数CC、Kullback-Leibler散度系数KLDiv、AUC参数、标准化扫描路径显著性NSS如表1所列。从表1所列的数据可知，按本发明方法得到的显著性检测图像的检测结果是较好的。

表1 利用本发明方法在测试集上的评测结果

图3a给出了NUS数据集中同一场景的第1幅原始立体图像对应的人眼注视图像；图3b 给出了利用本发明方法对图3a所示的原始立体图像进行检测所得到的显著性检测图像；图 4a给出了NUS数据集中同一场景的第2幅原始立体图像对应的人眼注视图像；图4b给出了利用本发明方法对图4a所示的原始立体图像进行检测所得到的显著性检测图像；图5a给出了NCTU数据集中同一场景的第3幅原始立体图像对应的人眼注视图像；图5b给出了利用本发明方法对图5a所示的原始立体图像进行检测所得到的显著性检测图像；图6a给出了NCTU数据集中同一场景的第4幅原始立体图像对应的人眼注视图像；图6b给出了利用本发明方法对图5a所示的原始立体图像进行检测得到的显著性检测图像。对比图3a和图3b，对比图4a和图4b，对比图5a和图5b，对比图6a和图6b，可以看出利用本发明方法得到的显著性检测图像的分割精度较高。

Claims

1.一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于，包括以下步骤：

步骤1-2：构建卷积神经网络模型；

步骤1-3：将训练集中原始立体图像的左视点图和深度图作为输入，输入到卷积神经网络模型中进行训练，训练过程中，每次迭代训练处理得到每幅原始立体图像的显著性检测图；计算每幅显著性检测图与训练集中对应的真实人眼注释图之间的损失函数值；

步骤1-4：不断迭代训练重复共M次，共得到N×M个损失函数值，然后从N×M个损失函数值中找出值最小的损失函数值，接着将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络模型的最优权值矢量和最优偏置项，从而完成卷积神经网络模型的训练；

步骤1-5：将待测立体图像的左视点图和深度图输入步骤1-4训练后的卷积神经网络模型进行预测处理，输出获得对应的显著性检测图像，实现图像的显著性检测。

2.根据权利要求1所述的一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于：所述步骤1-2中，卷积神经网络包括输入层、隐层和总输出层；输入层包括RGB图输入层和深度图输入层；隐层包括前处理模块、特征融合模块，前处理模块包括深度图前处理模块和RGB图前处理模块；深度图输入层和RGB图输入层分别输入深度图前处理模块和RGB图前处理模块；

深度图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与深度图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Z₁，深度图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与深度图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Z₂，深度图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与深度图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Z₃；

RGB图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与RGB图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Y₁，RGB图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与RGB图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Y₂，RGB图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与RGB图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Y₃；

3.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于：三个输出层分别输出不同尺度的三个显著性检测图像，用于模型训练时的多尺度监督；第三个输出层输出的显著性检测图像作为模型的最终输出结果。

4.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于：所述金字塔式带空卷积模块包括三个分支，第一个分支由依次连接的第二十卷积层和第二十一卷积层组成，第二个分支由依次连接的第二十二卷积层和第二十三卷积层组成，第三个分支由依次连接的第二十四和第二十五卷积层组成；第五个神经网络块的输出分别输入三个分支，三个分支的输出以通道数叠的方式融合后输入第二个卷积块。

5.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于：所述卷积块注意模块主要由依次连接的第十三卷积层、第十三激活层、第四卷积块、第五卷积块和第六卷积块组成，第四卷积块主要由依次连接的第十四卷积层、第十四激活层、第十五卷积层和第十五激活层组成，第五卷积块主要由依次连接的第十六卷积层、第十六激活层、第十七卷积层和第十七激活层组成，第六卷积块主要由第十八卷积层、第十八激活层、第十九卷积层、第十九激活层组成；每个卷积层的卷积核大小均为3x3，步长为1，补零参数的值为1；每个激活层的激活方式均为线性整流函数。

6.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法，其特征在于：RGB图输入层的输入为立体图像的左视点图，RGB图输入层输出左视点图的R通道分量、G通道分量和B通道分量；深度图输入层的输入为立体图像的深度图，深度图经过深度图输入层的HHA编码方式处理后具有与RGB图一样的三通道，即经过深度图输入层后深度图被处理成三个分量。