CN114283315A

CN114283315A - 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法

Info

Publication number: CN114283315A
Application number: CN202111565805.7A
Authority: CN
Inventors: 段松松; 夏晨星; 黄荣梅; 孙延光
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-05

Abstract

本发明属于计算机视觉领域，提供了一种基于交互式引导注意力和梯形金字塔融合的RGB‑D显著性目标检测方法，包括以下步骤：1)获取训练和测试该任务的RGB‑D数据集，并定义本发明的算法目标；2)构建用于提取RGB图像特征RGB编码器和深度(Depth)图像特征Depth编码器；3)建立跨模态特点融合网络，通过交互式引导的注意力机制指导RGB图像特征和Depth图像特征进行交叉融合；4)构建超大规模的感受野融合机制，以增强多模态特征的高级语义信息；5)建立梯形金字塔特征融合网络为基础的解码器以生成显著图P_est；6)预测的显著图P_est与人工标注的显著目标分割图P_GT计算损失；7)对测试数据集进行测试，生成显著图P_test，并使用评价指标进行性能评估。

Description

一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法

技术领域：

本发明涉及计算机视觉和图像处理领域，特别地涉及一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法。

背景技术：

显著性目标检测旨在通过模拟人类视觉注意机制从给定的数据(如RGB图片、RGB-D图片、视频等)中，定位出最引人注目的目标或者区域。而最近几年，显著性目标检测由于其广泛的应用得到了快速发展，在许多计算机视觉领域得到显著应用，比如图像检索，视频分割，语义分割，视频跟踪，人物重建，缩略图创建和质量评估等等。

由于单一的模态的RGB显著性目标检测算法在面对一些具有挑战性的场景(例如，复杂背景、显著目标与背景高度相似、低对比度场景等等)下，难以准确和完整地从背景中定位出显著目标。因此，为了解决这个问题，将深度(Depth)图像引入到显著性目标检测，通过联合RGB图像和Depth图像相结合构成了RGB-D进行显著性目标检测。

由于Depth Map能够提供许多有用的信息，诸如比如空间结构， 3D分布，目标边缘等信息。将Depth图引入到SOD任务中，能够帮助SOD模型处理诸如复杂背景、低对比度、显著目标与背景外形相似等具有挑战性的场景。因此，如何利用Depth Map辅助 RGB-D显著性目标检测模型精确定位显著目标至关重要。此前的 RGB-D显著性目标检测方法大多将DepthMap作为独立于RGB图像的数据流，单独提取特征，或者将Depth图像作为RGB图像的第四个通道输入进RGB-D显著性检测模型，该类方法无差别地对待RGB图像和Depth图像，忽略了一个事实：RGB图像和Depth图像中，不同区域所携带的显著信息是有着巨大的差异，并且RGB图像和Depth图像对显著目标的信息的表示方面也存在着差异。

考虑到RGB图像数据和Depth图像数据之间存在跨模态数据的二义性问题，本发明尝试探索一种发高效的跨模态特征融合方法，并利用跨模态融合方法有效消除跨模态数据之间的二义性问题。此外，为了进一步探索多尺度特征之间的联系和协作机制，利用多尺度的特征信息有效的提升模型检测的性能，并且可以兼顾高级语义信息和低级的细节信息，从到可以达到感知显著性目标的边缘细节和整体完整性。本发明通过进一步挖掘特征金字塔在多尺度特征融合方面的作用，帮助显著性检测模型更加准确地预测出显著目标。

发明内容:

针对以上提出的问题，本发明提供一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法，具体采用的技术方案如下：

1.获取训练和测试该任务的RGB-D数据集。

1.1)将NJUD数据集、NLPR数据集和DUT-RGBD数据集作为训练集，将剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、 SIP数据集、STERE数据集和SSD数据集作为测试集。

1.2)RGB-D图像数据集，包括单幅RGB图像P_RGB、对应的Depth 图像P_Depth和对应的人工标注的显著目标分割图像P_GT。

2.利用卷积神经网络构建用于提取RGB图像特征和Depth图像特征的显著性目标检测模型网络；

2.1)利用VGG16作为本发明的模型的主干网络，用于提取RGB 图像特征和因对的Depth图像特征，分别为

和

2.2)本发明采用ImageNet数据集预训练的VGG16参数权重初始化本发明的用于构建主干网络的VGG16权重。

3.基于步骤2所提取到的多尺度RGB图像特征

和对应的Depth图像特征

进行多尺度的跨模态特征交互式融合，并利用该交互融合构建一个跨模态特征融合网络用于生成多模态特征。

3.1)跨模态特征融合网络由5个层次的CMAF模块已经5个层次的RGB图像特征

和对应的Depth图像特征

构成，并生成5个层次的多模态特征

和

3.2)第i层次的CMAF模块的输入数据为

和

构成，并通过交互式引导的注意力机制生成第i层次的多模态特征

其中i∈{1，2，3，4，5}。

3.3)CMAF模块通过交互式引导的注意力机制生成多模态特征具体过程如下：

3.3.1)首先本发明构建一个残差卷积模块用于增加特征的感受野和语义信息，增强特征的显著性的表达能力，通过该残差卷积模块，可以进一步增强RGB图像特征和对应的Depth图像特征。

3.3.2)进一步利用元素感知的矩阵相乘操作和元素感知的矩阵相加操作融合RGB图像特征和对应的Depth图像特征，然后利用 softmax激活函数将融合后的特征转化为全局上下文感知的注意力权重W_s和通道感知注意力权重W_c：

其中，Resconv表示残差卷积模块，multi表示元素感知的矩阵乘操作，add表示元素感知的矩阵加操作，GAP表示全局平均池化， softmax表示softmax激活函数。

3.3.3)在获得全局上下文感知的注意力权重W_s和通道感知注意力权重W_c之后，我们将W_s和W_c分别与增强之后的RGB图像特征和对应的Depth图像特征相结合，利用注意力机制生成的权重矩阵引导特征聚焦特征中的显著性区域，得到过滤之后的多模态特征：

其中，α∈{r，d}，通过上述操作可以获得经过过滤之后的RGB图像特征

和对应的Depth图像特征

3.3.4)通过交叉交互式融合方法，融合跨模态特征，RGB图像特征

和对应的Depth图像特征

得到融合特征

其中，i∈{1，2，3，4，5}表示特征所在模型的层次，conv3表示卷积核大小为3×3的卷积操作，cat表示特征连接操作。

4)通过上述操作，提取到5个层次的多模态特征

和

并将这5个层次输入到密度空洞卷积模块，通过多层级的空洞卷积操作增强多模态特征的感受野信息和高级语义信息。

4.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息，并设置不同空洞率的空洞卷积：

其中，i∈{1，2，3，4，5}表示多模态特征所在的层次，DLA_i()代表空洞率为i的空洞卷积操作，并DLA₂()、DLA₄()和DLA₈()分别代表空洞率为1、2、4和8的空洞卷积操作，

和

分别代表由第i层次的多模态特征所生成的空洞率为i的特征。

4.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络，融合不同感受野的多模态特征：

其中，TPNet表示梯形金字塔特征融合网络。

5)将步骤4所获取到的5个层次的超大规模感受野的多模态特征输入到由梯形金字塔特征融合网络构成的解码器中，得到最终的融合特征，在经过sigmoid函数激活，得到预测的显著图P_est：

P_est＝sigmoid(TPNet(f₁，f₂，f₃，f₄，f₅)) 公式(7)

6)通过本发明预测出来的显著图P_est与人工标注的显著目标分割图P_GT进行损失函数的计算，并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D显著性目标检测算法的结构和参数权重。

7)在步骤6确定模型的结构和参数权重的基础上，对测试集上的RGB-D图像对进行测试，生成显著图P_test，并使用MAE、S-measure、 F-measure、E-measure评价指标进行评估。

本发明基于深度卷积神经网络实现的多模态显著性目标检测，利用Depth图像中的丰富的空间结构信息，并与RGB图像提取的Depth 特征进行交互引导注意力方式的跨模态特征融合，能够适应不同场景下的显著目标检测的要求，特别在一些具有挑战性场景下(复杂背景、低对比度、透明物体等)，本发明能够具有一定的鲁棒性。相比较之前的RGB-D显著性目标检测方法，本发明具有以下收益：

首先，利用深度学习技术，通过编码器和解码器结构构建RGB-D 图像对和图像显著目标之间的关系，并通过跨模态特征的提取和融合，得到显著性预测。

其次，通过一种交互式融合的方式，有效调制Depth图像特征对于RGB图像特征的补充信息，并利用其本身具备的深度分布信息指导跨模态的特征融合，排除RGB图像中的背景信息的干扰，为下一阶段的显著目标的预测打好基础。

最后，通过构建的梯形金字塔特征融合网络进行多尺度的多模态特征融合，预测最终的显著图。

附图说明

图1为本发明的模型结构示意图

图2为跨模态特征融合模块示意图

图3为超大规模感受野融合模块示意图

图4为梯形金字塔特征融合网络(TPNet)示意图

图5为模型训练和测试示意图

图6为本发明与其他RGB-D显著性目标检测方法的结果对比图

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，此外，所叙述的实例仅仅是本发明一部分实例，而不是所有的实例。基于本发明中的实例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实例，都属于本发明保护范围。

参考附图1，一种基于交互式引导注意力和梯形金字塔融合的 RGB-D显著性目标检测方法主要包含以下步骤：

1.获取训练和测试该任务的RGB-D数据集，并定义本发明的算法目标，并确定用于训练和测试算法的训练集和测试集。将NJUD 数据集、NLPR数据集和DUT-RGBD数据集作为训练集，余下数据集作为测试集，包括SIP数据集、剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、STERE数据集和SSD数据集。

2.利用卷积神经网络构建用于提取RGB图像特征和Depth图像特征的显著性目标检测模型网络，包括用于提取RGB图像特征的 RGB编码器和用于提取Depth图像特征的Depth编码器：

2.1.将带有三通道的RGB图像输入到RGB编码器，生成5个层次的RGB图像特征，分别是

和

2.2.将三通道的Depth图像输入到Depth编码器中，生成5个层次的Depth图像特征，分别是

和

3.参考附图2所示，通过跨模态融合模块将步骤2所生成的5 个层次的RGB图像特征

和Depth图像特征

进行交互式融合，得到5个层次的多模态特征

和

主要步骤如下所示：

3.1.跨模态特征融合网络由5个层次的CMAF模块构成，已经 5个层次的RGB图像特征

和对应的Depth图像特征

构成，并生成5个层次的多模态特征

和

3.2.第i层次的CMAF模块的输入数据为

和

构成，并通过交互式引导的注意力机制输出第i层次的多模态特征

其中 i∈{1，2，3，4，5}。

3.3.CMAF模块通过交互式引导的注意力机制生成多模态特征具体过程如下：

3.3.1.首先本发明构建一个残差卷积模块用于增加特征的感受野和语义信息，增强特征的显著性的表达能力，通过该残差卷积模块，可以进一步增强RGB图像特征和对应的Depth图像特征。

3.3.2.进一步利用元素感知的矩阵乘操作和元素感知的矩阵加操作融合RGB图像特征和对应的Depth图像特征，然后利用softmax 激活函数将融合后的特征转化为全局上下文感知的注意力权重W_s和通道感知注意力权重W_c：

3.3.3.在获得全局上下文感知的注意力权重W_s和通道感知注意力权重W_c之后，我们将W_s和W_c分别与增强之后的RGB图像特征和对应的Depth图像特征相结合，利用注意力机制生成的权重矩阵引导特征聚焦特征中的显著性区域，得到过滤之后的多模态特征：

和对应的Depth图像特征

3.3.4.通过交叉交互式融合方法，融合跨模态特征，RGB图像特征

和对应的Depth图像特征

得到融合特征

4.参考附图3，利用超大规模的感受野融合模块增强多模态特征的感受野信息和高级语义信息：

和

其中，TPNet()表示梯形金字塔特征融合网络。

5.参考附图4，将梯形金字塔本发明提出的算法的解码器，将5 个层次的多模态增强特征f₁、f₂、f₃、f₄和f₅输入到解码器中，再经过sigmoid函数激活，得到预测的显著图P_est：

P_est＝sigmoid(TPNet(f₁，f₂，f₃，f₄，f₅)) 公式(7)

6)通过本发明预测出来的显著图P_est与人工标注的显著目标分割图P_GT进行损失函数的计算，并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D显著性检测算法的结构和参数权重。

以上所述为本申请优选实施而以，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

1.一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法，其特征在于，该方法包括一下步骤：

1)获取训练和测试该任务的RGB-D数据集，并定义本发明的算法目标，并确定用于训练和测试算法的训练集和测试集；

2)构建用于提取RGB图像特征RGB编码器和深度(Depth)图像特征Depth编码器；

3)建立跨模态特点融合网络，通过交互式引导的注意力机制指导RGB图像特征和Depth图像特征进行交叉融合；

4)基于上述的跨模态特征融合成的多模态特征，构建超大规模的感受野融合机制，以增强多模态特征的感受野信息和高级语义信息；

5)建立以梯形金字塔特征融合网络为基础的解码器，并通过激活函数得到最终的预测到的显著图；

6)预测出来的显著图P_est与人工标注的显著目标分割图P_GT进行损失函数的计算，并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D显著性检测算法的结构和参数权重。

7)在步骤6确定模型的结构和参数权重的基础上，对测试集上的RGB-D图像对进行测试，生成显著图P_test，并使用评价指标进行性能评估。

2.根据权利要求1所述的一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法，其特征在于：所述步骤2)具体方法是：

2.1)将NJUD数据集、NLPR数据集和DUT-RGBD数据集作为训练集，将剩余部分的NLPR数据集、剩余的DUT-RGBD数据集、SIP数据集、STERE数据集和SSD数据集作为测试集。

2.2)RGB-D图像数据集包括单幅RGB图像P_RGB、对应的Depth图像P_Depth和对应的人工标注的显著目标分割图像P_GT。

3.根据权利要求1所述的一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法，其特征在于：所述步骤3)具体方法是：

3.1)利用VGG16作为本发明的模型的主干网络，用于提取RGB图像特征和因对的Depth图像特征，分别为

和

3.2)采用在ImageNet数据集上预训练好的VGG16参数权重初始化本发明的用于构建主干网络的VGG16权重。

4.根据权利要求1所述的一种基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法，其特征在于：所述步骤4)具体方法是：

4.1)跨模态特征融合网络由5个层次的CMAF模块构成，并生成5个层次的多模态特征

和

4.2)第i层次的CMAF模块的输入数据为

和

其中i∈{1，2，3，4，5}。

5.根据权利要求1所述的基于交互式引导注意力和梯形金字塔融合的RGB-D显著性目标检测方法，其特征在于：所述步骤5)具体方法是：

5.1)分别将多尺度的多模态特征通过空洞卷积操作提取超大规模的感受野信息，并设置不同空洞率的空洞卷积：

和

5.2)将上述步骤所生成的多层级感受野的多模态特征输入梯形金字塔特征融合网络，融合不同感受野的多模态特征：

其中，TPNet()表示梯形金字塔特征融合网络。

6)将步骤5所获取到的5个层次的超大规模感受野的多模态特征输入到由梯形金字塔特征融合网络构成的解码器中，得到最终的融合特征，在经过sigmoid函数激活，得到预测的显著图P_est：

P_est＝sigmoid(TPNet(f₁，f₂，f₃，f₄，f₅)) 公式(3)

7)通过本发明预测出来的显著图P_est与人工标注的显著目标分割图P_GT进行损失函数的计算，并通过SGD和反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D显著性检测算法的结构和参数权重。