CN112529862A

CN112529862A - 一种交互循环特征重塑的显著性图像检测方法

Info

Publication number: CN112529862A
Application number: CN202011413838.5A
Authority: CN
Inventors: 周武杰; 郭沁玲; 雷景生; 万健; 钱小鸿; 叶宁; 甘兴利
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-19

Abstract

本发明公开了一种交互循环特征重塑的显著性图像检测方法，其在训练阶段构建卷积神经网络，包括输入层、编码部分、解码部分和输出层，编码部分包括神经网络块，解码部分包括信息提取块、特征重塑块、信息重塑块、膨胀卷积块、特征聚合块；将3D图像的RGB图像的三通道及深度图像经处理后得到的三通道深度图输入到卷积神经网络中进行训练，得到显著性检测图；通过计算显著性检测图与标签图像之间的损失函数值，得到最优权值矢量和最优偏置项；在测试阶段将待检测3D图像的RGB图像的三通道及深度图像对应的三通道深度图输入到卷积神经网络训练模型中，利用最优权值矢量和最优偏置项进行预测，得到显著性预测图像；优点是显著性检测结果清晰，检测精度高。

Description

一种交互循环特征重塑的显著性图像检测方法

技术领域

本发明涉及一种深度学习的显著性图像检测技术，尤其是涉及一种交互循环特征重塑的显著性图像检测方法。

背景技术

随着人工智能在计算机领域的快速发展，图像的显著性检测已成为越来越受关注的研究领域。显著对象检测(Salient Object Detection，SOD)旨在将视觉上最独特的对象与输入图像区分开来，在过去的几十年中，已经开发了数百种传统的方法来解决突出对象检测的任务，它是许多图像处理和计算机视觉任务中的一个有效的预处理步骤，例如对象分割和跟踪、视频压缩、图像编辑、纹理平滑等。最近的工作是利用卷积神经网络(CNN)来学习检测突出对象的深层特征，这些卷积神经网络模型采用编码解码结构，结构简单，计算效率高。在编码解码结构中，编码器通常利用预先训练的分类模型(例如ResNet和VGG)，提取不同语义层次和分辨率的多个特征；解码器将提取的特征组合起来生成显著图。现有的利用卷积神经网络的编码解码结构的显著性检测方法颇有成效，但是，在准确性上仍然存在挑战。例如：不同语义层次和分辨率的特征具有不同的分布特点，高层次特征具有丰富的语义信息，但缺乏准确的位置信息；低层次特征具有丰富的细节，但充满背景噪声，导致融合高层次特征和低层次特征的方法的检测准确性仍不是很理想。对于不同模态的特征来说，RGB信息与深度信息都存在杂乱的背景信息，如何有效区分背景与前景，从而生成更好的显著性图像，仍然需要进一步深入研究。

发明内容

本发明所要解决的技术问题是提供一种交互循环特征重塑的显著性图像检测方法，其显著性检测结果清晰，检测精度高。

本发明解决上述技术问题所采用的技术方案为：一种交互循环特征重塑的显著性图像检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取N对原始3D图像及每对原始3D图像对应的标签图像，将第k对原始3D图像的RGB图像记为

将第k对原始3D图像的深度图像记为

将第k对原始3D图像对应的真实显著检测图像作为标签图像，并记为

然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集；其中，N为正整数，N≥200，k为正整数，1≤k≤N，1≤x≤W,1≤y≤H，W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度，H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_2：构建端到端的卷积神经网络：该卷积神经网络包括输入层、编码部分、解码部分和输出层，输入层包括RGB图输入层和深度图输入层，编码部分包括10个神经网络块，解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块；输出层包括输出卷积层，输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1；

对于输入层中的RGB图输入层，其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分；其中，原始RGB图像的宽度为W、高度为H；

对于输入层中的深度图输入层，其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图，其输出端输出三通道深度图给编码部分；其中，原始深度图像的宽度为W、高度为H；

对于编码部分，第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流，第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流；第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量，第1个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为S1，S1中的每幅特征图的宽度为W、高度为H；第2个神经网络块的输入端接收S1中的所有特征图，第2个神经网络块的输出端输出128幅特征图，将这128幅特征图构成的集合记为S2，S2中的每幅特征图的宽度为

高度为

第3个神经网络块的输入端接收S2中的所有特征图，第3个神经网络块的输出端输出256幅特征图，将这256幅特征图构成的集合记为S3，S3中的每幅特征图的宽度为

高度为

第4个神经网络块的输入端接收S3中的所有特征图，第4个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S4，S4中的每幅特征图的宽度为

高度为

第5个神经网络块的输入端接收S4中的所有特征图，第5个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为S5，S5中的每幅特征图的宽度为

高度为

第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图，第6个神经网络块的输出端输出64幅特征图，将这64幅特征图构成的集合记为D1，D1中的每幅特征图的宽度为W、高度为H；第7个神经网络块的输入端接收D1中的所有特征图，第7个神经网络块的输出端输出128幅特征图，将这128幅特征图构成的集合记为D2，D2中的每幅特征图的宽度为

高度为

第8个神经网络块的输入端接收D2中的所有特征图，第8个神经网络块的输出端输出256幅特征图，将这256幅特征图构成的集合记为D3，D3中的每幅特征图的宽度为

高度为

第9个神经网络块的输入端接收D3中的所有特征图，第9个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为D4，D4中的每幅特征图的宽度为

高度为

第10个神经网络块的输入端接收D4中的所有特征图，第10个神经网络块的输出端输出512幅特征图，将这512幅特征图构成的集合记为D5，D5中的每幅特征图的宽度为

高度为

编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分；

对于解码部分，第1个信息提取块的输入端接收D1中的所有特征图，第1个信息提取块的输出端输出64幅特征图，将这64幅特征图构成的集合记为F1，F1中的每幅特征图的宽度为W、高度为H；第1个特征重塑块的第一输入端接收S1中的所有特征图，第1个特征重塑块的第二输入端接收F1中的所有特征图，第1个特征重塑块的输出端输出64幅特征图，将这64幅特征图构成的集合记为F2，F2中的每幅特征图的宽度为W、高度为H；第1个信息重塑块的第一输入端接收F2中的所有特征图，第1个信息重塑块的第二输入端接收D2中的所有特征图，第1个信息重塑块的输出端输出128幅特征图，将这128幅特征图构成的集合记为F3，F3中的每幅特征图的宽度为

高度为

第2个特征重塑块的第一输入端接收S2中的所有特征图，第2个特征重塑块的第二输入端接收F3中的所有特征图，第2个特征重塑块的输出端输出128幅特征图，将这128幅特征图构成的集合记为F4，F4中的每幅特征图的宽度为

高度为

第2个信息重塑块的第一输入端接收F4中的所有特征图，第2个信息重塑块的第二输入端接收D3中的所有特征图，第2个信息重塑块的输出端输出256幅特征图，将这256幅特征图构成的集合记为F5，F5中的每幅特征图的宽度为

高度为

第3个特征重塑块的第一输入端接收S3中的所有特征图，第3个特征重塑块的第二输入端接收F5中的所有特征图，第3个特征重塑块的输出端输出256幅特征图，将这256幅特征图构成的集合记为F6，F6中的每幅特征图的宽度为

高度为

第3个信息重塑块的第一输入端接收F6中的所有特征图，第3个信息重塑块的第二输入端接收D4中的所有特征图，第3个信息重塑块的输出端输出512幅特征图，将这512幅特征图构成的集合记为F7，F7中的每幅特征图的宽度为

高度为

第4个特征重塑块的第一输入端接收S4中的所有特征图，第4个特征重塑块的第二输入端接收F7中的所有特征图，第4个特征重塑块的输出端输出512幅特征图，将这512幅特征图构成的集合记为F8，F8中的每幅特征图的宽度为

高度为

第4个信息重塑块的第一输入端接收F8中的所有特征图，第4个信息重塑块的第二输入端接收D5中的所有特征图，第4个信息重塑块的输出端输出512幅特征图，将这512幅特征图构成的集合记为F9，F9中的每幅特征图的宽度为

高度为

第5个特征重塑块的第一输入端接收S5中的所有特征图，第5个特征重塑块的第二输入端接收F9中的所有特征图，第5个特征重塑块的输出端输出512幅特征图，将这512幅特征图构成的集合记为F10，F10中的每幅特征图的宽度为

高度为

第2个信息提取块的输入端接收S5中的所有特征图，第2个信息提取块的输出端输出512幅特征图，将这512幅特征图构成的集合记为F11，F11中的每幅特征图的宽度为

高度为

第1个膨胀卷积块的输入端接收D1中的所有特征图，第1个膨胀卷积块的输出端输出64幅特征图，将这64幅特征图构成的集合记为P1，P1中的每幅特征图的宽度为W、高度为H；第2个膨胀卷积块的输入端接收D2中的所有特征图，第2个膨胀卷积块的输出端输出128幅特征图，将这128幅特征图构成的集合记为P2，P2中的每幅特征图的宽度为

高度为

第3个膨胀卷积块的输入端接收D3中的所有特征图，第3个膨胀卷积块的输出端输出256幅特征图，将这256幅特征图构成的集合记为P3，P3中的每幅特征图的宽度为

高度为

第4个膨胀卷积块的输入端接收D4中的所有特征图，第4个膨胀卷积块的输出端输出512幅特征图，将这512幅特征图构成的集合记为P4，P4中的每幅特征图的宽度为

高度为

第5个膨胀卷积块的输入端接收D5中的所有特征图，第5个膨胀卷积块的输出端输出512幅特征图，将这512幅特征图构成的集合记为P5，P5中的每幅特征图的宽度为

高度为

第1个特征聚合块的第一输入端接收F10中的所有特征图，第1个特征聚合块的第二输入端接收P5中的所有特征图，第1个特征聚合块的第三输入端接收F11中的所有特征图，第1个特征聚合块的输出端输出256幅特征图，将这256幅特征图构成的集合记为A1，A1中的每幅特征图的宽度为

高度为

第2个特征聚合块的第一输入端接收F8中的所有特征图，第2个特征聚合块的第二输入端接收P4中的所有特征图，第2个特征聚合块的第三输入端接收A1中的所有特征图，第2个特征聚合块的输出端输出128幅特征图，将这128幅特征图构成的集合记为A2，A2中的每幅特征图的宽度为

高度为

第3个特征聚合块的第一输入端接收F6中的所有特征图，第3个特征聚合块的第二输入端接收P3中的所有特征图，第3个特征聚合块的第三输入端接收A2中的所有特征图，第3个特征聚合块的输出端输出64幅特征图，将这64幅特征图构成的集合记为A3，A3中的每幅特征图的宽度为

高度为

第4个特征聚合块的第一输入端接收F4中的所有特征图，第4个特征聚合块的第二输入端接收P2中的所有特征图，第4个特征聚合块的第三输入端接收A3中的所有特征图，第4个特征聚合块的输出端输出32幅特征图，将这32幅特征图构成的集合记为A4，A4中的每幅特征图的宽度为

高度为

第5个特征聚合块的第一输入端接收F2中的所有特征图，第5个特征聚合块的第二输入端接收P1中的所有特征图，第5个特征聚合块的第三输入端接收A4中的所有特征图，第5个特征聚合块的输出端输出16幅特征图，将这16幅特征图构成的集合记为A5，A5中的每幅特征图的宽度为W、高度为H；解码部分提供A5中的所有特征图给输出层；

对于输出层，其输出卷积层的输入端接收A5中的所有特征图，其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图，作为显著性检测图；

步骤1_3：将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练，得到每对原始3D图像对应的显著性检测图，将第k对原始3D图像对应的显著性检测图记为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

步骤1_4：计算每对原始3D图像对应的显著性检测图与对应的标签图像之间的损失函数值，将

与

之间的损失函数值记为

步骤1_5：重复执行步骤1_3和步骤1_4共M次，得到卷积神经网络训练模型，共得到N×M个损失函数值；然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值，共得到M个最终损失函数值；再从M个最终损失函数值中找出值最小的最终损失函数值，将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，M＞1；

所述的测试阶段过程的具体步骤为：

步骤2_1：将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中，并利用最优权值矢量和最优偏置项进行预测，预测得到对应的显著性预测图像。

所述的步骤1_2中，2个信息提取块的结构相同，其由第1个卷积块、第一最大池化层、第一平均池化层、第2个卷积块、第3个卷积块、第一上采样层组成，第1个卷积块包括依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层，第2个卷积块包括依次连接的第三卷积层和第三激活层，第3个卷积块包括依次连接的第四卷积层和第四激活层，第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图，第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图，第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图，对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作，第四卷积层的输入端接收通道数叠加操作后得到的所有特征图，第一上采样层的输入端接收第四激活层的输出端输出的所有特征图，对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作，对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作，对于第1个信息提取块，元素相加操作后得到的所有特征图构成的集合为F1，对于第2个信息提取块，元素相加操作后得到的所有特征图构成的集合为F11；其中，设定第i个信息提取块的输入通道数为n_i，则第1个信息提取块的输入通道数n₁＝64，第2个信息提取块的输入通道数n₂＝512，第i个信息提取块中的第一卷积层和第四卷积层的卷积核大小为1×1、卷积核个数为n_i、步长为1、补零参数的值为0，第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为n_i、步长为1、补零参数的值为0，第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为n_i、步长为1、补零参数的值为1，i＝1,2，第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”，第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0，第一上采样层的放大倍数为2、插值方法为双线性插值。

所述的步骤1_2中，5个特征重塑块的结构相同，其由上下文注意力块和通道注意力块组成，对于第1个特征重塑块，其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F2；对于第2个特征重塑块，其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F4；对于第3个特征重塑块，其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F6；对于第4个特征重塑块，其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F8；对于第5个特征重塑块，其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F10。

所述的步骤1_2中，4个信息重塑块的结构相同，其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成，第4个卷积块包括依次连接的第五卷积层和第五激活层，第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层，第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图，第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图，第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图，第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图，对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作，第五卷积层的输入端接收元素相减操作后得到的所有特征图，对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作，对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作，对于第1个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F3，对于第2个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F5，对于第3个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F7，对于第4个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F9；其中，设定第j个信息重塑块的第一输入端的输入通道数为n1_j、第二输入端的输入通道数为n2_j，则第1个信息重塑块的第一输入端的输入通道数n1₁＝64、第二输入端的输入通道数n2₁＝128，第2个信息重塑块的第一输入端的输入通道数n1₂＝128、第二输入端的输入通道数n2₂＝256，第3个信息重塑块的第一输入端的输入通道数n1₃＝256、第二输入端的输入通道数n2₃＝512，第4个信息重塑块的第一输入端的输入通道数n1₄＝512、第二输入端的输入通道数n2₄＝512，j＝1,2,3,4，第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2_j、步长为1、补零参数的值为0，第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2_j、步长为1、补零参数的值为0，第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2_j、步长为1、补零参数的值为1，第五激活层、第六激活层、第七激活层的激活方式为“Relu”，第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0，对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。

所述的步骤1_2中，5个特征聚合块的结构相同，其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成，第6个卷积块包括依次连接的第八卷积层和第八激活层，第7个卷积块包括依次连接的第九卷积层和第九激活层，第8个卷积块包括依次连接的第十卷积层和第十激活层，第9个卷积块包括依次连接的第十一卷积层和第十一激活层，第10个卷积块包括依次连接的第十二卷积层和第十二激活层，第11个卷积块包括依次连接的第十三卷积层和第十三激活层，第12个卷积块包括依次连接的第十四卷积层和第十四激活层，第13个卷积块包括依次连接的第十五卷积层和第十五激活层，残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层，第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图，第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图，第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图，第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图，第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图，对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割，各按序分成四份，对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作，对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作，对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作，对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作，第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图，第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图，第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图，第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图，第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图，对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作，第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图，对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作，对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作，第十六激活层的输入端接收第一元素相加操作后得到的所有特征图，对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作，对于第1个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A1，对于第2个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A2，对于第3个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A3，对于第4个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A4，对于第5个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A5；其中，设定第m个特征聚合块的第一输入端的输入通道数为n1_m、第二输入端的输入通道数为n2_m、第三输入端的输入通道数为n3_m，第1个特征聚合块的第一输入端的输入通道数n1₁＝512、第二输入端的输入通道数n2₁＝512、第三输入端的输入通道数n3₁＝512，第2个特征聚合块的第一输入端的输入通道数n1₂＝512、第二输入端的输入通道数n2₂＝512、第三输入端的输入通道数n3₂＝256，第3个特征聚合块的第一输入端的输入通道数n1₃＝256、第二输入端的输入通道数n2₃＝256、第三输入端的输入通道数n3₃＝128，第4个特征聚合块的第一输入端的输入通道数n1₄＝128、第二输入端的输入通道数n2₄＝128、第三输入端的输入通道数n3₄＝64，第5个特征聚合块的第一输入端的输入通道数n1₅＝64、第二输入端的输入通道数n2₅＝64、第三输入端的输入通道数n3₅＝32，第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为0，第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为0，m＝1,2,3,4,5，第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”，第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2，第二上采样层的放大倍数为2、插值方法为双线性插值。

与现有技术相比，本发明的优点在于：

1)本发明方法构建的卷积神经网络是一种双流端到端的交互循环特征重塑网络体系结构，两个模态的信息流相互通信，以提取足够的互补信息，同时抑制彼此的背景噪声，使得训练得到的卷积神经网络训练模型具有更好的显著性检测性能。

2)本发明方法构建的卷积神经网络中设计了信息提取块，它可以通过池化操作进一步提取浅层深度图的前景信息和深层彩色图的前景信息，有利于信息的充分提取，从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。

3)本发明方法构建的卷积神经网络中设计了特征重塑块和信息重塑块，特征重塑块以深度信息为权重融合彩色信息，信息重塑块将特征重塑块的融合信息与相邻深度信息再次融合，以获得互补的上下文特征，从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。

4)本发明方法构建的卷积神经网络中设计了特征聚合块，其将两个模态的局部特征和全局特征进行充分地融合，从而使得训练得到的卷积神经网络训练模型能够有效地检测出显著对象。

附图说明

图1为本发明方法构建的端到端的卷积神经网络的组成结构示意图；

图2为本发明方法构建的端到端的卷积神经网络中的信息提取块的组成结构示意图；

图3为本发明方法构建的端到端的卷积神经网络中的特征重塑块的组成结构示意图；

图4为本发明方法构建的端到端的卷积神经网络中的信息重塑块的组成结构示意图；

图5为本发明方法构建的端到端的卷积神经网络中的特征聚合块的组成结构示意图；

图6a为待显著性检测的第1对3D图像的RGB图像；

图6b为待显著性检测的第1对3D图像的深度图像；

图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像；

图6d为待显著性检测的第1对3D图像对应的标签图像；

图7a为待显著性检测的第2对3D图像的RGB图像；

图7b为待显著性检测的第2对3D图像的深度图像；

图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像；

图7d为待显著性检测的第2对3D图像对应的标签图像；

图8a为待显著性检测的第3对3D图像的RGB图像；

图8b为待显著性检测的第3对3D图像的深度图像；

图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像；

图8d为待显著性检测的第3对3D图像对应的标签图像；

图9a为待显著性检测的第4对3D图像的RGB图像；

图9b为待显著性检测的第4对3D图像的深度图像；

图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像；

图9d为待显著性检测的第4对3D图像对应的标签图像；

图10a为利用本发明方法对NJU2K数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图；

图10b为利用本发明方法对NLPR数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种交互循环特征重塑的显著性图像检测方法，其包括训练阶段和测试阶段两个过程。

所述的训练阶段过程的具体步骤为：

将第k对原始3D图像的深度图像记为

然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集；其中，每对原始3D图像包含一幅RGB图像和一幅深度图像，N为正整数，N≥200，如取N＝600，k为正整数，1≤k≤N，1≤x≤W,1≤y≤H，W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度，H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度，在本实施例中取W＝H＝224，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值。

步骤1_2：构建端到端的卷积神经网络：如图1所示，该卷积神经网络包括输入层、编码部分、解码部分和输出层，输入层包括RGB图输入层和深度图输入层，编码部分包括10个神经网络块，解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块；输出层包括输出卷积层，输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1，输出卷积层为常用的卷积层。

对于输入层中的RGB图输入层，其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量，其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分；其中，原始RGB图像的宽度为W、高度为H。

对于输入层中的深度图输入层，其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图，其输出端输出三通道深度图给编码部分；其中，原始深度图像的宽度为W、高度为H。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分。

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

第5个特征聚合块的第一输入端接收F2中的所有特征图，第5个特征聚合块的第二输入端接收P1中的所有特征图，第5个特征聚合块的第三输入端接收A4中的所有特征图，第5个特征聚合块的输出端输出16幅特征图，将这16幅特征图构成的集合记为A5，A5中的每幅特征图的宽度为W、高度为H；解码部分提供A5中的所有特征图给输出层。

对于输出层，其输出卷积层的输入端接收A5中的所有特征图，其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图，作为显著性检测图。

其中，

表示

中坐标位置为(x,y)的像素点的像素值。

与

之间的损失函数值记为

在本实施例中损失函数值采用现有的二分类交叉熵求出。

步骤1_5：重复执行步骤1_3和步骤1_4共M次，得到卷积神经网络训练模型，共得到N×M个损失函数值；然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值，共得到M个最终损失函数值；再从M个最终损失函数值中找出值最小的最终损失函数值，将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项；其中，M＞1，在本实施例中取M＝1025。

所述的测试阶段过程的具体步骤为：

在本实施例中，步骤1_2中，2个信息提取块的结构相同，如图2所示，其由第1个卷积块、第一最大池化层(Maximum pooling，MaxPool)、第一平均池化层(Average pooling，AvePool)、第2个卷积块、第3个卷积块、第一上采样层组成，第1个卷积块包括依次连接的第一卷积层(Convolution，Conv)、第一激活层(Activation，Act)、第二卷积层、第二激活层，第2个卷积块包括依次连接的第三卷积层和第三激活层，第3个卷积块包括依次连接的第四卷积层和第四激活层，第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图，第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图，第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图，对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作，第四卷积层的输入端接收通道数叠加操作后得到的所有特征图，第一上采样层的输入端接收第四激活层的输出端输出的所有特征图，对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作，对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作，对于第1个信息提取块，元素相加操作后得到的所有特征图构成的集合为F1，对于第2个信息提取块，元素相加操作后得到的所有特征图构成的集合为F11；其中，设定第i个信息提取块的输入通道数为n_i，则第1个信息提取块的输入通道数n₁＝64，第2个信息提取块的输入通道数n₂＝512，第i个信息提取块中的第一卷积层和第四卷积层的卷积核(kernel_size)大小为1×1、卷积核(filters)个数为n_i、步长(stride)为1、补零参数(padding)的值为0，第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为n_i、步长为1、补零参数的值为0，第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为n_i、步长为1、补零参数的值为1，i＝1,2，第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”，第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0，第一上采样层的放大倍数(scale factor)为2、插值方法为双线性插值(bilinear)。在此，通道数叠加操作、元素相乘操作、元素相加操作均为现有技术。图2中的C表示通道数叠加操作，+表示元素相加操作，×表示元素相乘操作。

在本实施例中，步骤1_2中，5个特征重塑块的结构相同，如图3所示，其由上下文注意力块和通道注意力块组成，对于第1个特征重塑块，其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F2；对于第2个特征重塑块，其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F4；对于第3个特征重塑块，其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F6；对于第4个特征重塑块，其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F8；对于第5个特征重塑块，其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F10。在此，上下文注意力块和通道注意力块引用自论文M.Zhang,S.-X.Fei,J.Liu,S.Xu,Y.Piao,andH.Lu,“Asymmetric two-stream architecture for accurate rgb-d saliencydetection,”in Proceedings of European Conference on Computer Vision,2020.(张淼，费孙萧，刘杰，徐爽，朴勇日和卢湖川，“用于精确的rgb-d显着性检测的非对称两流架构”，计算机视觉的欧洲会议论文集，2020年)中的DAM模块。图3中的+表示元素相加操作，×表示元素相乘操作。

在本实施例中，步骤1_2中，4个信息重塑块的结构相同，如图4所示，其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成，第4个卷积块包括依次连接的第五卷积层和第五激活层，第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层，第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图，第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图，第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图，第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图，对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作，第五卷积层的输入端接收元素相减操作后得到的所有特征图，对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作，对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作，对于第1个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F3，对于第2个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F5，对于第3个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F7，对于第4个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F9；其中，设定第j个信息重塑块的第一输入端的输入通道数为n1_j、第二输入端的输入通道数为n2_j，则第1个信息重塑块的第一输入端的输入通道数n1₁＝64、第二输入端的输入通道数n2₁＝128，第2个信息重塑块的第一输入端的输入通道数n1₂＝128、第二输入端的输入通道数n2₂＝256，第3个信息重塑块的第一输入端的输入通道数n1₃＝256、第二输入端的输入通道数n2₃＝512，第4个信息重塑块的第一输入端的输入通道数n1₄＝512、第二输入端的输入通道数n2₄＝512，j＝1,2,3,4，第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2_j、步长为1、补零参数的值为0，第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2_j、步长为1、补零参数的值为0，第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2_j、步长为1、补零参数的值为1，第五激活层、第六激活层、第七激活层的激活方式为“Relu”，第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0，对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。在此，元素相减操作、元素相乘操作、元素相加操作均为现有技术。图4中的-表示元素相减操作，+表示元素相加操作，×表示元素相乘操作。

在本实施例中，步骤1_2中，5个特征聚合块的结构相同，如图5所示，其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成，第6个卷积块包括依次连接的第八卷积层和第八激活层，第7个卷积块包括依次连接的第九卷积层和第九激活层，第8个卷积块包括依次连接的第十卷积层和第十激活层，第9个卷积块包括依次连接的第十一卷积层和第十一激活层，第10个卷积块包括依次连接的第十二卷积层和第十二激活层，第11个卷积块包括依次连接的第十三卷积层和第十三激活层，第12个卷积块包括依次连接的第十四卷积层和第十四激活层，第13个卷积块包括依次连接的第十五卷积层和第十五激活层，残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层，第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图，第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图，第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图，第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图，第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图，对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割，各按序分成四份，对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作，对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作，对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作，对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作，第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图，第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图，第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图，第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图，第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图，对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作，第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图，对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作，对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作，第十六激活层的输入端接收第一元素相加操作后得到的所有特征图，对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作，对于第1个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A1，对于第2个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A2，对于第3个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A3，对于第4个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A4，对于第5个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A5；其中，设定第m个特征聚合块的第一输入端的输入通道数为n1_m、第二输入端的输入通道数为n2_m、第三输入端的输入通道数为n3_m，第1个特征聚合块的第一输入端的输入通道数n1₁＝512、第二输入端的输入通道数n2₁＝512、第三输入端的输入通道数n3₁＝512，第2个特征聚合块的第一输入端的输入通道数n1₂＝512、第二输入端的输入通道数n2₂＝512、第三输入端的输入通道数n3₂＝256，第3个特征聚合块的第一输入端的输入通道数n1₃＝256、第二输入端的输入通道数n2₃＝256、第三输入端的输入通道数n3₃＝128，第4个特征聚合块的第一输入端的输入通道数n1₄＝128、第二输入端的输入通道数n2₄＝128、第三输入端的输入通道数n3₄＝64，第5个特征聚合块的第一输入端的输入通道数n1₅＝64、第二输入端的输入通道数n2₅＝64、第三输入端的输入通道数n3₅＝32，第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为0，第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为0，m＝1,2,3,4,5，第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”，第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2，第二上采样层的放大倍数为2、插值方法为双线性插值。在此，通道数叠加操作、元素相乘操作、元素相加操作均为现有技术。图5中的C表示通道数叠加操作，+表示元素相加操作，×表示元素相乘操作。

在本实施例中，10个神经网络块的结构相同，采用现有的VGG-16模型中的神经网络块的结构；5个膨胀卷积块的结构相同，引用自S.Liu,and D.Huang,“Receptive fieldblock net for accurate and fast object detection”,In Proceedings of theEuropean Conference on Computer Vision,2018,pp.385-400(刘宋涛和黄迪，“能够精确，快速地检测物体的接收场块网”，欧洲计算机视觉会议论文集，2018年第385-400页)中的RFB模块。

为进一步说明本发明方法的可行性和有效性，对本发明方法进行实验。

利用pytorch库python语言编写代码对本发明方法进行实验，实验设备为英特尔i5-7500处理器，NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证实验的严谨性，本实验选定数据集为NJU2K和NLPR，均为知名公开数据集。NJU2K包含1485对3D图像，1400对3D图像用于训练，85对3D图像用于检测；NLPR包含730对3D图像，650对3D图像用于训练，80对3D图像用于检测。

在本实验中，利用评估显著性检测方法的4个常用客观参量作为评价指标：S↑(Structure-measure)，用来评估显著性检测图与标签图像中显著区域的结构相似性；adpE↑度量值、adpF↑度量值、MAE↓平均绝对误差(Mean Absolute Error)用来评价显著性检测图的检测性能，通过计算精准率和召回率求出用来评价检测方法好坏的重要指标。

利用本发明方法生成的显著性检测图通过与标签图像对比，分别用S↑，adpE↑，adpF↑，MAE↓来作为评价指标评价本发明方法的好坏，两个数据集的评价指标如表1所列，由表1所列的数据可见本发明方法在两个数据集上的表现是优秀的。

表1本发明方法在两个数据集上的评测结果

图6a为待显著性检测的第1对3D图像的RGB图像，图6b为待显著性检测的第1对3D图像的深度图像，图6c为利用本发明方法对图6a和图6b进行处理得到的显著性预测图像，图6d为待显著性检测的第1对3D图像对应的标签图像；图7a为待显著性检测的第2对3D图像的RGB图像，图7b为待显著性检测的第2对3D图像的深度图像，图7c为利用本发明方法对图7a和图7b进行处理得到的显著性预测图像，图7d为待显著性检测的第2对3D图像对应的标签图像；图8a为待显著性检测的第3对3D图像的RGB图像，图8b为待显著性检测的第3对3D图像的深度图像，图8c为利用本发明方法对图8a和图8b进行处理得到的显著性预测图像，图8d为待显著性检测的第3对3D图像对应的标签图像；图9a为待显著性检测的第4对3D图像的RGB图像，图9b为待显著性检测的第4对3D图像的深度图像，图9c为利用本发明方法对图9a和图9b进行处理得到的显著性预测图像，图9d为待显著性检测的第4对3D图像对应的标签图像。图6a和图6b、图7a和图7b、图8a和图8b、图9a和图9b为具有代表性的3D图像，其包含有多个对象、小对象和复杂的突出对象，利用本发明方法对这些具有代表性的3D图像进行处理，显著性预测图像对应参见图6c、图7c、图8c、图9c，对应与图6d、图7d、图8d、图9d比较，可以发现利用本发明方法能够精准地捕捉这些3D图像中的显著区域。

图10a为利用本发明方法对NJU2K数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图，图10b为利用本发明方法对NLPR数据集中的用于检测的3D图像进行处理得到的PR(精准-召回)曲线图。从图10a和图10b中可以看出，PR曲线下方的面积较大，说明本发明方法具有良好的检测性能。图10a和图10b中Precision代表“精准率”，Recall代表“召回率”。

Claims

1.一种交互循环特征重塑的显著性图像检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

将第k对原始3D图像的深度图像记为

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值，

表示

中坐标位置为(x,y)的像素点的像素值；

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

高度为

其中，

表示

中坐标位置为(x,y)的像素点的像素值；

与

之间的损失函数值记为

所述的测试阶段过程的具体步骤为：

2.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法，其特征在于所述的步骤1_2中，2个信息提取块的结构相同，其由第1个卷积块、第一最大池化层、第一平均池化层、第2个卷积块、第3个卷积块、第一上采样层组成，第1个卷积块包括依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层，第2个卷积块包括依次连接的第三卷积层和第三激活层，第3个卷积块包括依次连接的第四卷积层和第四激活层，第1个信息提取块中的第一卷积层的输入端接收D1中的所有特征图，第2个信息提取块中的第一卷积层的输入端接收S5中的所有特征图，第一最大池化层的输入端、第一平均池化层的输入端、第三卷积层的输入端均接收第四激活层的输出端输出的所有特征图，对第一最大池化层的输出端输出的所有特征图和第一平均池化层的输出端输出的所有特征图进行通道数叠加操作，第四卷积层的输入端接收通道数叠加操作后得到的所有特征图，第一上采样层的输入端接收第四激活层的输出端输出的所有特征图，对第一上采样层的输出端输出的所有特征图和第三激活层的输出端输出的所有特征图进行元素相乘操作，对第一上采样层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作，对于第1个信息提取块，元素相加操作后得到的所有特征图构成的集合为F1，对于第2个信息提取块，元素相加操作后得到的所有特征图构成的集合为F11；其中，设定第i个信息提取块的输入通道数为n_i，则第1个信息提取块的输入通道数n₁＝64，第2个信息提取块的输入通道数n₂＝512，第i个信息提取块中的第一卷积层和第四卷积层的卷积核大小为1×1、卷积核个数为n_i、步长为1、补零参数的值为0，第i个信息提取块中的第二卷积层的卷积核大小为3×3、卷积核个数为n_i、步长为1、补零参数的值为0，第i个信息提取块中的第三卷积层的卷积核大小为3×3、卷积核个数为n_i、步长为1、补零参数的值为1，i＝1,2，第一激活层、第二激活层、第三激活层、第四激活层的激活方式为“Relu”，第一最大池化层和第一平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0，第一上采样层的放大倍数为2、插值方法为双线性插值。

3.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法，其特征在于所述的步骤1_2中，5个特征重塑块的结构相同，其由上下文注意力块和通道注意力块组成，对于第1个特征重塑块，其对S1中的所有特征图和F1中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S1中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F2；对于第2个特征重塑块，其对S2中的所有特征图和F3中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S2中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F4；对于第3个特征重塑块，其对S3中的所有特征图和F5中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S3中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F6；对于第4个特征重塑块，其对S4中的所有特征图和F7中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S4中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F8；对于第5个特征重塑块，其对S5中的所有特征图和F9中的所有特征图进行第一次元素相加操作，上下文注意力块的输入端接收第一次元素相加操作后得到的所有特征图，通道注意力块的输入端接收上下文注意力块的输出端输出的所有特征图，对通道注意力块的输出端输出的所有特征图和第一次元素相加操作后得到的所有特征图进行元素相乘操作，对S5中的所有特征图和元素相乘操作后得到的所有特征图进行第二次元素相加操作，第二次元素相加操作后得到的所有特征图构成的集合为F10。

4.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法，其特征在于所述的步骤1_2中，4个信息重塑块的结构相同，其由第二最大池化层、第二平均池化层、第4个卷积块、第5个卷积块组成，第4个卷积块包括依次连接的第五卷积层和第五激活层，第5个卷积块包括依次连接的第六卷积层、第六激活层、第七卷积层、第七激活层，第1个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F2中的所有特征图、第六卷积层的输入端接收D2中的所有特征图，第2个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F4中的所有特征图、第六卷积层的输入端接收D3中的所有特征图，第3个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F6中的所有特征图、第六卷积层的输入端接收D4中的所有特征图，第4个信息重塑块中的第二最大池化层的输入端和第二平均池化层的输入端均接收F8中的所有特征图、第六卷积层的输入端接收D5中的所有特征图，对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作，第五卷积层的输入端接收元素相减操作后得到的所有特征图，对第五激活层的输出端输出的所有特征图和第七激活层的输出端输出的所有特征图进行元素相乘操作，对第五激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行元素相加操作，对于第1个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F3，对于第2个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F5，对于第3个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F7，对于第4个信息重塑块，元素相加操作后得到的所有特征图构成的集合为F9；其中，设定第j个信息重塑块的第一输入端的输入通道数为n1_j、第二输入端的输入通道数为n2_j，则第1个信息重塑块的第一输入端的输入通道数n1₁＝64、第二输入端的输入通道数n2₁＝128，第2个信息重塑块的第一输入端的输入通道数n1₂＝128、第二输入端的输入通道数n2₂＝256，第3个信息重塑块的第一输入端的输入通道数n1₃＝256、第二输入端的输入通道数n2₃＝512，第4个信息重塑块的第一输入端的输入通道数n1₄＝512、第二输入端的输入通道数n2₄＝512，j＝1,2,3,4，第j个信息重塑块中的第五卷积层的卷积核大小为1×1、卷积核个数为n2_j、步长为1、补零参数的值为0，第j个信息重塑块中的第六卷积层的卷积核大小为1×1、卷积核个数为n2_j、步长为1、补零参数的值为0，第j个信息重塑块中的第七卷积层的卷积核大小为3×3、卷积核个数为n2_j、步长为1、补零参数的值为1，第五激活层、第六激活层、第七激活层的激活方式为“Relu”，第二最大池化层和第二平均池化层的卷积核大小为2×2、步长为2、补零参数的值为0，对第二最大池化层的输出端输出的所有特征图和第二平均池化层的输出端输出的所有特征图进行元素相减操作时为第二最大池化层的输出端输出的特征图中的元素减去第二平均池化层的输出端输出的对应的特征图中的对应元素。

5.根据权利要求1所述的一种交互循环特征重塑的显著性图像检测方法，其特征在于所述的步骤1_2中，5个特征聚合块的结构相同，其由第6个卷积块、第7个卷积块、第8个卷积块、第9个卷积块、第10个卷积块、第11个卷积块、第12个卷积块、第13个卷积块、第二上采样层、残差融合块组成，第6个卷积块包括依次连接的第八卷积层和第八激活层，第7个卷积块包括依次连接的第九卷积层和第九激活层，第8个卷积块包括依次连接的第十卷积层和第十激活层，第9个卷积块包括依次连接的第十一卷积层和第十一激活层，第10个卷积块包括依次连接的第十二卷积层和第十二激活层，第11个卷积块包括依次连接的第十三卷积层和第十三激活层，第12个卷积块包括依次连接的第十四卷积层和第十四激活层，第13个卷积块包括依次连接的第十五卷积层和第十五激活层，残差融合块包括依次连接的第十六激活层、第三最大池化层、第十六卷积层，第1个特征聚合块中的第八卷积层的输入端接收F10中的所有特征图、第九卷积层的输入端接收P5中的所有特征图、第二上采样层的输入端接收F11中的所有特征图，第2个特征聚合块的第八卷积层的输入端接收F8中的所有特征图、第九卷积层的输入端接收P4中的所有特征图、第二上采样层的输入端接收A1中的所有特征图，第3个特征聚合块的第八卷积层的输入端接收F6中的所有特征图、第九卷积层的输入端接收P3中的所有特征图、第二上采样层的输入端接收A2中的所有特征图，第4个特征聚合块的第八卷积层的输入端接收F4中的所有特征图、第九卷积层的输入端接收P2中的所有特征图、第二上采样层的输入端接收A3中的所有特征图，第5个特征聚合块的第八卷积层的输入端接收F2中的所有特征图、第九卷积层的输入端接收P1中的所有特征图、第二上采样层的输入端接收A4中的所有特征图，对第八激活层的输出端输出的所有特征图和第九激活层的输出端输出的所有特征图分别进行通道四等分切割，各按序分成四份，对第八激活层的输出端输出的所有特征图的第1份和第九激活层的输出端输出的所有特征图的第1份进行第一通道数叠加操作，对第八激活层的输出端输出的所有特征图的第2份和第九激活层的输出端输出的所有特征图的第2份进行第二通道数叠加操作，对第八激活层的输出端输出的所有特征图的第3份和第九激活层的输出端输出的所有特征图的第3份进行第三通道数叠加操作，对第八激活层的输出端输出的所有特征图的第4份和第九激活层的输出端输出的所有特征图的第4份进行第四通道数叠加操作，第十卷积层的输入端接收第二上采样层的输出端输出的所有特征图，第十一卷积层的输入端接收第一通道数叠加操作后得到的所有特征图，第十二卷积层的输入端接收第二通道数叠加操作后得到的所有特征图，第十三卷积层的输入端接收第三通道数叠加操作后得到的所有特征图，第十四卷积层的输入端接收第四通道数叠加操作后得到的所有特征图，对第十一激活层的输出端输出的所有特征图、第十二激活层的输出端输出的所有特征图、第十三激活层的输出端输出的所有特征图、第十四激活层的输出端输出的所有特征图进行第五通道数叠加操作，第十五卷积层的输入端接收第五通道数叠加操作后得到的所有特征图，对第十激活层的输出端输出的所有特征图和第十五激活层的输出端输出的所有特征图进行元素相乘操作，对第十激活层的输出端输出的所有特征图和元素相乘操作后得到的所有特征图进行第一元素相加操作，第十六激活层的输入端接收第一元素相加操作后得到的所有特征图，对第十六卷积层的输出端输出的所有特征图和第一元素相加操作后得到的所有特征图进行第二元素相加操作，对于第1个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A1，对于第2个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A2，对于第3个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A3，对于第4个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A4，对于第5个特征聚合块，第二元素相加操作后得到的所有特征图构成的集合为A5；其中，设定第m个特征聚合块的第一输入端的输入通道数为n1_m、第二输入端的输入通道数为n2_m、第三输入端的输入通道数为n3_m，第1个特征聚合块的第一输入端的输入通道数n1₁＝512、第二输入端的输入通道数n2₁＝512、第三输入端的输入通道数n3₁＝512，第2个特征聚合块的第一输入端的输入通道数n1₂＝512、第二输入端的输入通道数n2₂＝512、第三输入端的输入通道数n3₂＝256，第3个特征聚合块的第一输入端的输入通道数n1₃＝256、第二输入端的输入通道数n2₃＝256、第三输入端的输入通道数n3₃＝128，第4个特征聚合块的第一输入端的输入通道数n1₄＝128、第二输入端的输入通道数n2₄＝128、第三输入端的输入通道数n3₄＝64，第5个特征聚合块的第一输入端的输入通道数n1₅＝64、第二输入端的输入通道数n2₅＝64、第三输入端的输入通道数n3₅＝32，第m个特征聚合块中的第八卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第九卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第十卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为1，第m个特征聚合块中的第十一卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十二卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十三卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十四卷积层的卷积核大小为3×3、卷积核个数为n3_m/4、步长为1、补零参数的值为1，第m个特征聚合块中的第十五卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为0，第m个特征聚合块中的第十六卷积层的卷积核大小为3×3、卷积核个数为n3_m/2、步长为1、补零参数的值为0，m＝1,2,3,4,5，第八激活层、第九激活层、第十激活层、第十一激活层、第十二激活层、第十三激活层、第十四激活层、第十五激活层、第十六激活层的激活方式为“Relu”，第三最大池化层的卷积核大小为5×5、步长为1、补零参数的值为2，第二上采样层的放大倍数为2、插值方法为双线性插值。