CN113822855A

CN113822855A - 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法

Info

Publication number: CN113822855A
Application number: CN202110933152.7A
Authority: CN
Inventors: 刘政怡; 张志立; 谭亚诚; 唐彬; 姚晟; 李炜
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-21

Abstract

本发明公开了一种RGB‑T图像显著目标检测方法，包括以下步骤：从RGB‑T图像中提取RGB特征和Thermal特征，产生对应初始显著图，利用初始显著图增强所述RGB特征和Thermal特征后，实施独立解码，产生RGB和Thermal独立解码特征、独立解码显著图；融合所述RGB和Thermal独立解码特征，形成RGB‑T融合特征后，实施联合解码，产生联合解码显著图；利用显著图真值监督独立解码显著图、联合解码显著图，通过训练数据集的训练，形成RGB‑T图像显著目标检测模型，所述模型检测任意一张RGB‑T图像，输出联合解码显著图。所述方法通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性，通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异，提高检测性能。

Description

一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法。

背景技术

RGB-T图像是由RGB颜色图像和Thermal热红外图像组成。当RGB颜色图像的光线不足或者背景噪声太多，图像显著目标检测的效果往往不尽人意。然而热红外摄像机可以捕捉任何温度超过绝对零度的物体发出的红外辐射，因此Thermal热红外图像对光照条件不敏感，具有较强的抗噪声干扰能力。结合RGB颜色图像和Thermal热红外图像的优势，RGB-T图像显著目标检测逐渐成为研究的热点。

Transformer依靠多头自注意力及前向传播网络在自然语言处理、计算机视觉领域取得了突破性的进展，其在特征的远距离依赖特性提取方面的表现优异。最近SegFormer提出的使用重叠融合来保持切块周围的局部连续性，采用按比例缩减分辨率来减少多头自注意力的计算复杂度，并使用深度卷积来提供位置信息和减少参数量，因此，它可以方便地作为RGB-T图像显著目标检测的编码模型。

RGB-T图像显著目标检测的关键是有效挖掘颜色图像和热红外图像两种模式的信息并实现其融合，双流编码、联合解码是目前已有的RGB-T图像显著目标检测模型采用的主要方式，它偏向于考虑RGB颜色图像和Thermal热红外图像的融合，并没有考虑RGB颜色图像和Thermal热红外图像各自的独特性。

发明内容

本发明所需要解决的技术问题是提供一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性，并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异，以提高检测性能。

本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，包括以下步骤：

S1、从RGB-T图像中提取RGB特征和Thermal特征，产生RGB初始显著图及Thermal初始显著图；

S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强，形成RGB增强特征和Thermal增强特征；

S3、分别对RGB增强特征和Thermal增强特征进行独立解码，产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图S^c和S^t；

S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合，形成RGB-T融合特征；

S5、对RGB-T融合特征进行联合解码，形成联合解码显著图S；

S6、利用显著图真值监督所述独立解码显著图S^c和S^t、所述联合解码显著图S，通过训练数据集的训练，形成RGB-T图像显著目标检测模型；

S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像，经过步骤S1-S5，输出联合解码显著图为检测结果。

进一步地，在所述步骤S1中，提取RGB特征和Thermal特征的方法是分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征

及Thermal特征

其中i表示层数，对应于SegFormer的层数，i取值为1至4的自然数；接着，分别对所述第四层RGB特征

和Thermal特征

进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图

及Thermal初始显著图

具体描述为：

所述l∈{c,t}，表示RGB或者Thermal，Conv₁(·)表示1×1卷积操作，Sig(·)表示Sigmoid激活函数；

进一步地，在所述步骤S2中，将RGB初始显著图及Thermal初始显著图

上采样到与

一样大小，然后与各层特征

进行逐元素相乘、逐元素相加，形成RGB增强特征

和Thermal增强特征

同时，第四层RGB增强特征

和Thermal增强特征

即为第四层RGB特征

和Thermal特征

具体描述为：

所述l∈{c,t}，表示RGB或者Thermal，up(·)表示上采样操作，“×”是指逐元素相乘操作，“+”是指逐元素相加操作；

进一步地，在步骤S3中，使用传统的U-Net解码结构，分别对RGB增强特征和Thermal增强特征进行独立解码，具体操作是：第四层RGB独立解码特征和Thermal独立解码特征

即为第四层RGB增强特征和Thermal增强特征

其余各层RGB独立解码特征和Thermal独立解码特征

为相邻高一层RGB独立解码特征和Thermal独立解码特征

经过上采样后与本层RGB增强特征和Thermal增强特征

进行级联，再经过3×3卷积、批归一化、ReLU操作产生，具体描述为：

所述l∈{c，t}，表示RGB或者Thermal，up(·)表示上采样操作，Concat(·)表示级联操作，BConv3(·)表示3×3卷积、批归一化、ReLU操作；

接着，使用第一层RGB独立解码特征

和Thermal独立解码特征

产生独立解码显著图S^c和S^t，具体描述为：

所述l∈{c，t}，表示RGB或者Thermal，Conv₁(·)表示1×1卷积操作，Sig(·)表示Sigmoid激活函数，up(·)表示上采样操作；

进一步地，在步骤S4中，对所述RGB独立解码特征和Thermal独立解码特征进行初步融合，形成RGB-T融合特征，具体步骤如下：所述RGB独立解码特征

和Thermal独立解码特征

先进行逐元素相乘，产生共同特征Q_i，同时，RGB独立解码特征

使用通道注意力得到RGB注意力特征

Thermal独立解码特征

使用空间注意力得到Thermal注意力特征

然后将共同特征Q_i与RGB注意力特征

Thermal注意力特征

进行级联操作，再进行3×3卷积，最后再与所述RGB独立解码特征

进行逐元素相加，形成RGB-T融合特征FF_i，具体描述为：

所述“×”是指逐元素相乘操作，CA(·)操作是指论文《Coordinate Attentionfor Efficient Mobile Network Design》中所提出的通道注意力模块，SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块，Concat(·)表示级联操作，Conv₃(·)表示3×3卷积，“+”是指逐元素相加操作；

进一步地，在步骤S5中，对RGB-T融合特征进行联合解码，形成联合解码显著图S，如图4所示，具体步骤如下：第四层RGB-T融合特征FF₄即为增强融合特征JF₄，其余每层RGB-T融合特征FF_i(i＝1，2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征，形成增强融合特征JF_i(i＝1，2,3)；为了确保分辨率大小一致，高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理，具体描述为：

所述up(·)表示上采样操作，BConv3(·)表示3×3卷积、批归一化、ReLU操作，“×”是指逐元素相乘操作；

增强融合特征JF_i(i＝1,…，4)使用传统的U-Net解码结构进行解码，具体操作如下：第四层联合解码特征P₄即为增强融合特征JF₄，其余每层联合解码特征P_i(i＝1，2,3)为相邻高一层联合解码特征P_i+1(i＝1，2，3)经上采样后，与本层增强融合特征JF_i(i＝1，2，3)进行级联，再经过3×3卷积、批归一化、ReLU操作产生，具体描述为：

所述Concat(·)表示级联操作，up(·)表示上采样操作，BConv3(·)表示3×3卷积、批归一化、ReLU操作；

接着，通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S，具体描述为：

S＝Sig(Conv₁(up(BConv3(up(P₁)))))

所述up(·)表示上采样操作，BConv3(·)表示3×3卷积、批归一化、ReLU操作，Conv₁(·)表示1×1卷积操作，Sig(·)表示Sigmoid激活函数；

与已有技术相比，本发明有益效果体现在：

本发明提出一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性，并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异，以提高检测性能。

附图说明

图1为本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法的流程图；

图2为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码过程；

图3为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码特征形成RGB-T融合特征的过程；

图4为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述联合解码过程；

图5为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测模型图。

以下通过具体实施方式，并结合附图对本发明做进一步说明，但本发明的实施方式不限于此。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，如图1所示，包括以下步骤：

S5、对RGB-T融合特征进行联合解码，形成联合解码显著图S；

及Thermal特征

和Thermal特征

进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图

及Thermal初始显著图

具体描述为：

上采样到与

一样大小，然后与各层特征

进行逐元素相乘、逐元素相加，形成RGB增强特征

和Thermal增强特征

同时，第四层RGB增强特征

和Thermal增强特征

即为第四层RGB特征

和Thermal特征

具体描述为：

所述l∈{c，t}，表示RGB或者Thermal，up(·)表示上采样操作，“×”是指逐元素相乘操作，“+”是指逐元素相加操作；

进一步地，在步骤S3中，使用传统的U-Net解码结构，分别对RGB增强特征和Thermal增强特征进行独立解码，如图2所示，具体操作是：第四层RGB独立解码特征和Thermal独立解码特征

即为第四层RGB增强特征和Thermal增强特征

其余各层RGB独立解码特征和Thermal独立解码特征

为相邻高一层RGB独立解码特征和Thermal独立解码特征

经过上采样后与本层RGB增强特征和Thermal增强特征

接着，使用第一层RGB独立解码特征

和Thermal独立解码特征

产生独立解码显著图S^c和S^t，具体描述为：

进一步地，在步骤S4中，对所述RGB独立解码特征和Thermal独立解码特征进行初步融合，形成RGB-T融合特征，如图3所示，具体步骤如下：所述RGB独立解码特征

和Thermal独立解码特征

使用通道注意力得到RGB注意力特征

Thermal独立解码特征

使用空间注意力得到Thermal注意力特征

然后将共同特征Q_i与RGB注意力特征

Thermal注意力特征

进行逐元素相加，形成RGB-T融合特征FF_i，具体描述为：

进一步地，在步骤S5中，对RGB-T融合特征进行联合解码，形成联合解码显著图S，如图4所示，具体步骤如下：第四层RGB-T融合特征FF₄即为增强融合特征JF₄，其余每层RGB-T融合特征FF_i(i＝1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征，形成增强融合特征JF_i(i＝1,2,3)；为了确保分辨率大小一致，高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理，具体描述为：

增强融合特征JF_i(i＝1,…,4)使用传统的U-Net解码结构进行解码，具体操作如下：第四层联合解码特征P₄即为增强融合特征JF₄，其余每层联合解码特征P_i(i＝1,2，3)为相邻高一层联合解码特征P_i+1(i＝1,2,3)经上采样后，与本层增强融合特征JF_i(i＝1,2,3)进行级联，再经过3×3卷积、批归一化、ReLU操作产生，具体描述为：

S＝Sig(Conv₁(up(BConv3(up(P₁)))))

进一步地，在步骤S6中，利用显著图真值监督所述独立解码显著图S^c和S^t、所述联合解码显著图S，三个交叉熵损失的权重设置为0.25、0.25和1。本实施例采用的训练数据集为VT5000数据集上选取的2500张图片。训练集进行了随机翻转、旋转、边界裁剪等数据增强操作。形成的RGB-T图像显著目标检测模型图如图5所示，所述模型训练选取Adam优化器，初始学习率为6e-5，批处理大小为7，采用Mit-B4预训练参数及PyTorch默认设置，使用的显卡是NVIDIA GTX 1080Ti GPU，模型训练100代后收敛。

进一步地，在步骤S7中，本实施例采用的测试数据集为VT5000数据集上除训练数据集之外的剩余图片及整个的VT821和VT1000数据集。

所述独立解码和联合解码相结合的RGB-T图像显著目标检测方法与7种RGB-T图像显著目标检测方法MTMR[1],M3S-NIR[2],SGDL[3],ADF[4],ECFFNet[5],MIDD[6],MMNet[7]进行对比，结果见表1。

表1实验结果

[1]G.Wang,C.Li,Y.Ma,A.Zheng,J.Tang,and B.Luo,“RGB-T saliencydetection benchmark:Dataset,baselines,analysis and a novel approach,”inChinese Conference on Image and Graphics Technologies.Springer,2018,pp.359–369.

[2]Z.Tu,T.Xia,C.Li,Y.Lu,and J.Tang,“M3S-NIR:Multi-modal multi-scalenoise-insensitive ranking for RGB-T saliency detection,”in 2019 IEEEConference on Multimedia Information Processing and Retrieval(MIPR).IEEE,2019,pp.141–146.

[3]Z.Tu,T.Xia,C.Li,X.Wang,Y.Ma,and J.Tang,“RGB-T image saliencydetection via collaborative graph learning,”IEEE Transactions on Multimedia,vol.22,no.1,pp.160–173,2019.

[4]Z.Tu,Y.Ma,Z.Li,C.Li,J.Xu,and Y.Liu,“RGBT salient object detection:A large-scale dataset and benchmark,”arXiv preprint arXiv:2007.03262,2020.

[5]W.Zhou,Q.Guo,J.Lei,L.Yu,and J.-N.Hwang,“ECFFNet:effective andconsistent feature fusion network for RGB-T salient object detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.

[6]Z.Tu,Z.Li,C.Li,Y.Lang,and J.Tang,“Multi-Interactive Dual-Decoderfor RGB-Thermal Salient Object Detection,”IEEE Transactions on ImageProcessing,vol.30,pp.5678–5691,2021.

[7]W.Gao,G.Liao,S.Ma,G.Li,Y.Liang,and W.Lin,“Unifified InformationFusion Network for Multi-Modal RGB-D and RGB-T Salient Object Detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.

如表1所示可知，本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法在S-measure、自适应F-measure、自适应E-measure及MAE评价指标上均取得最优的结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，其特征在于，所述方法包括以下步骤：

S5、对RGB-T融合特征进行联合解码，形成联合解码显著图S；

2.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，其特征在于，所述步骤S1的具体过程为：分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征

及Thermal特征

和Thermal特征

进行1×1卷积、Sigmoid激活函数处理得到RGB初始显著图

及Thermal初始显著图

具体描述为：

所述l∈{c,t}，表示RGB或者Thermal，Conv₁(·)表示1×1卷积操作，Sig(·)表示Sigmoid激活函数。

3.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，其特征在于，所述步骤S2的具体过程为：将RGB初始显著图及Thermal初始显著图

上采样到与

一样大小，然后与各层特征

进行逐元素相乘、逐元素相加，形成RGB增强特征

和Thermal增强特征

同时，第四层RGB增强特征

和Thermal增强特征

即为第四层RGB特征

和Thermal特征

具体描述为：

所述l∈{c,t}，表示RGB或者Thermal，up(·)表示上采样操作，“×”是指逐元素相乘操作，“+”是指逐元素相加操作。

4.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，其特征在于，所述步骤S3的具体过程为：使用传统的U-Net解码结构，分别对RGB增强特征和Thermal增强特征进行独立解码，具体操作是：第四层RGB独立解码特征和Thermal独立解码特征

即为第四层RGB增强特征和Thermal增强特征

其余各层RGB独立解码特征和Thermal独立解码特征

为相邻高一层RGB独立解码特征和Thermal独立解码特征

经过上采样后与本层RGB增强特征和Thermal增强特征

所述l∈{c,t}，表示RGB或者Thermal，up(·)表示上采样操作，Concat(·)表示级联操作，BConv3(·)表示3×3卷积、批归一化、ReLU操作；

接着，使用第一层RGB独立解码特征

和Thermal独立解码特征

产生独立解码显著图S^c和S^t，具体描述为：

所述l∈{c,t}，表示RGB或者Thermal，Conv₁(·)表示1×1卷积操作，Sig(·)表示Sigmoid激活函数，up(·)表示上采样操作。

5.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，其特征在于，所述步骤S4的具体过程为：所述RGB独立解码特征

和Thermal独立解码特征

使用通道注意力得到RGB注意力特征

Thermal独立解码特征

使用空间注意力得到Thermal注意力特征

然后将共同特征Q_i与RGB注意力特征

Thermal注意力特征

进行逐元素相加，形成RGB-T融合特征FF_i，具体描述为：

所述“×”是指逐元素相乘操作，CA(·)操作是指论文《Coordinate Attention forEfficient Mobile Network Design》中所提出的通道注意力模块，SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块，Concat(·)表示级联操作，Conv₃(·)表示3×3卷积，“+”是指逐元素相加操作。

6.根据权利要求1所述的一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法，其特征在于，所述步骤S5的具体过程为：第四层RGB-T融合特征FF₄即为增强融合特征JF₄，其余每层RGB-T融合特征FF_i(i＝1,2,3)要与比它层数高的RGB-T融合特征进行逐元素相乘来加强本层特征，形成增强融合特征JF_i(i＝1,2,3)；为了确保分辨率大小一致，高层RGB-T融合特征要进行上采样、卷积、批归一化、ReLU处理，具体描述为：

增强融合特征JF_i(i＝1,…,4)使用传统的U-Net解码结构进行解码，具体操作如下：第四层联合解码特征P₄即为增强融合特征JF₄，其余每层联合解码特征P_i(i＝1,2，3)为相邻高一层联合解码特征P_i+1(i＝1,2，3)经上采样后，与本层增强融合特征JF_i(i＝1,2,3)进行级联，再经过3×3卷积、批归一化、ReLU操作产生，具体描述为：

S＝Sig(Conv₁(up(BConv3(up(P₁)))))

所述up(·)表示上采样操作，BConv3(·)表示3×3卷积、批归一化、ReLU操作，Conv₁(·)表示1×1卷积操作，Sig(·)表示Sigmoid激活函数。