CN112991350A

CN112991350A - 一种基于模态差异缩减的rgb-t图像语义分割方法

Info

Publication number: CN112991350A
Application number: CN202110187778.8A
Authority: CN
Inventors: 张强; 赵什陆; 黄年昌; 张鼎文; 韩军功
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-06-18
Anticipated expiration: 2041-02-18
Also published as: CN112991350B

Abstract

本发明公开了一种基于模态差异缩减的RGB‑T图像语义分割方法，包括(1)构建双向模态差异缩减子网络，对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型：(2)构建自适应通道加权融合模块，通过加权融合模块对多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征；(3)获取多层级融合特征，再通过计算得到空间相关性矩阵和通道相关性矩阵；(4)将空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率，经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图；(5)训练算法网络得到模型参数。

Description

一种基于模态差异缩减的RGB-T图像语义分割方法

技术领域

本发明属于图像处理领域，涉及一种基于模态差异缩减的RGB-T图像语义分割方法，可用于计算机视觉任务中图像的预处理过程。

背景技术

语义分割旨在利用模型或算法为自然图像中的每个像素分配类别标签。作为场景感知的关键技术之一，语义分割在自动驾驶、行人检测以及医学影像分析等计算机视觉任务中起着至关重要的作用。

现有的语义分割方法可以分为两大类：一类是传统的语义分割方法，另一类是基于深度学***面分类器结合来完成图像语义分割。这类方法鲁棒性差，在复杂场景下难以得到令人满意的结果。随着深度学习技术的广泛应用，基于深度学习的语义分割方法取得了突破性进展，相较于传统方法，其分割效果更好，鲁棒性更强。

到目前为止，基于深度学习技术的RGB图像语义分割方法取得了突出的效果。然而，在光照条件差的情况下，这些算法的性能可能会显著下降。热红外图像可以提供目标的轮廓信息和语义信息，能够对RGB图像进行有效地补充。

现有的RGB-T语义分割方法通常采用简单的策略来捕获RGB图像和热红外图像中的互补信息，如“Yuxiang Sun,WeixunZuo,and Ming Liu.Rtfnet:Rgb-thermal fusionnetwork for semantic segmentation of urban scenes.RAL,4(3):2576–2583,2019.”仅利用逐元素相加的方式在编码器中直接融合两个模态图像的各层级特征；“Qishen Ha,Kohei Watanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes.In IROS,pages 5108–5115,2017.”仅利用级联的方式在解码器中直接融合两个模态图像的各层级特征。这些方法没有考虑到由于成像机制不同导致的RGB图像和热红外图像的模态差异问题。这一问题进一步导致通过简单的融合策略无法充分地利用跨模态互补信息，从而降低RGB-T图像语义分割方法的精度。

除此之外，待检测图像中目标的多样性，例如目标的类别、大小和形状，也是语义分割任务中的关键问题之一。在单模态RGB图像语义分割算法中，多尺度上下文信息及其远程依赖关系已经被证明是解决这一问题的有效方法。然而，在RGB-T语义分割任务中，多尺度上下文信息及其远程依赖关系还没有被很好地挖掘和利用，仅有“Qishen Ha,KoheiWatanabe,Takumi Karasawa,Yoshitaka Ushiku,and Tatsuya Harada.Mfnet:Towardsreal-time semantic segmentation for autonomous vehicles with multi-spectralscenes.In IROS,pages 5108–5115,2017.”使用两个不同感受野的卷积并行的结构，来获取少量的上下文信息，这对于复杂场景下的RGB-T语义分割任务的效果非常有限，目标的多样性的问题仍然无法有效解决。

发明内容

发明目的：针对上述现有技术的不足，本发明目的在于提出一种基于模态差异缩减的RGB-T图像语义分割方法，主要解决现有技术未考虑到可见光图像和热红外图像的模态差异以及上下文信息利用不充分，进而导致的语义分割精度低的问题。

实现本发明的关键是在网络编码阶段对RGB特征与热红外特征的模态差异进行缩减并融合，使融合后特征更具辨别力,同时对融合后特征的多尺度上下文信息及其远程依赖关系进行充分的挖掘。

技术方案：一种基于模态差异缩减的RGB-T图像语义分割方法，包括如下步骤：

(1)构建双向模态差异缩减子网络，对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型：

双向模态差异缩减子网络双向地缩减模态差异，通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异，以提取具有辨别力的RGB特征和热红外特征，然后分别提取RGB伪图像和热红外伪图像的各层级特征，以相应的RGB的真图像和热红外真图像的各层级特征作为其监督，构建监督学习模型；

(2)构建自适应通道加权融合模块，通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征；

(3)获取利用步骤(2)得到的多层级融合特征，再通过计算得到空间相关性矩阵和通道相关性矩阵，将其作用于多尺度特征中，建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系；

(4)将步骤(3)中得到的空间相关性矩阵和通道相关性矩阵通过反卷积操作恢复为全分辨率，经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图；

(5)训练算法网络得到模型参数：

在训练数据集上，对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数，端对端地完成算法网络训练，得到网络模型参数。

进一步地，步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分，上述两个部分均采用结构相同的“编码器-解码器-编码器”网络，其中编码器使用ResNet-50网络和ResNet-18网络，解码器使用图像生成网络，通过双线性插值的上采样策略，以生成伪图像。

更进一步地，在步骤(1)中，通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征

和由ResNet-18网络提取其相应的真热红外图像的五个不同分辨率的层级特征

间的差异，以及

由ResNet-18网络提取生成的伪RGB图像的五个不同分辨率的层级特征

和由ResNet-18网络提取其相应的真RGB图像的五个不同分辨率的层级特征

间的差异；

以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征

和由ResNet-50网络提取的其相应的热红外多层级特征

利用

对

进行监督，利用利用

对

进行监督。

更进一步地，步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征

和其相应的热红外图像前四层特征

作为输入，自适应地生成对应层级的RGB权重向量W₁、W₂、W₃、W₄以及对应层级的热红外权重向量1-W₁、1-W₂、1-W₃、1-W₄，最后通过加权求和的方式实现跨模态信息融合，得到多层级融合特征

进一步地，步骤(3)中多尺度空间、通道上下文模块的输入分别为

和

以建立多尺度上下文信息及其在空间、通道维度上的长期依赖的交互，其中：

(31)多尺度空间上下文模块包括一个洞卷积金字塔结构，一个自空间相关性矩阵，一个跨空间相关性矩阵；

(32)多尺度通道上下文模块包括一个洞卷积金字塔结构，一个自通道相关性矩阵，一个跨通道相关性矩阵。

更进一步地，步骤(31)包括：

(311)、洞卷积金字塔结构包含四个卷积核为1×1，步长为1，参数分别为θ¹，θ²，θ³，θ⁴的卷积操作C(*；θ¹)，C(*；θ²)，C(*；θ³)，C(*；θ⁴)，其中：

一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

四条路径分别得到不同尺度的特征d₁、d₂、d₃、d₄，通道数均为输入的

的一半即256，将这四个特征级联之后通过一个卷积核为1×1，步长为1，参数为θ⁵的卷积操作C(*；θ⁵)，得到包含丰富多尺度上下文信息的特征

其通道数与输入的

相同；

(312)将步骤(311)中得到的多尺度特征

进行尺寸变换并与其自身转置矩阵做矩阵乘法运算，得到自空间相关性矩阵M_ss∈R^HW×HW；

(313)将原输入特征

用与步骤(312)相同的方式得到跨空间相关性矩阵M_cs∈R^HW×HW，作为信息补充部分；

(314)将自空间相关性矩阵M_ss和跨空间相关性矩阵M_cs逐元素相加后进行归一化操作得到总空间相关性矩阵M_s∈R^HW×HW，之后与多尺度特征

进行逐元素相乘运算，同时还加入了跳连接路径，得到包含多尺度上下文信息及其空间长期依赖的特征

更进一步地，步骤(32)包括：

(321)洞卷积金字塔结构包含四个卷积核为1×1，步长为1，参数分别为θ⁶，θ⁷，θ⁸，θ⁹的卷积操作C(*；θ⁶)，C(*；θ⁷)，C(*；θ⁸)，C(*；θ⁹)，其中：

一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

四条路径分别得到不同尺度的特征d₅、d₆、d₇、d₈，通道数均为输入的

的一半即512，将这四个特征级联之后输入到一个卷积核为1×1，步长为1，参数为θ¹⁰的卷积操作C(*；θ¹⁰)，得到包含丰富多尺度上下文信息的特征

其通道数与输入的

相同；

(322)将步骤(321)中得到的多尺度特征

进行尺寸变换并与其自身转置矩阵做矩阵乘法运算，得到自通道相关性矩阵M_sc∈R^1024×1024；

(323)将原输入特征

用与步骤(322)相同的方式得到跨通道相关性矩阵M_cc∈R^1024×1024，作为信息补充部分；

(324)将自通道相关性矩阵M_sc和跨通道相关性矩阵M_cc逐元素相加后进行归一化操作得到总通道相关性矩阵M_c∈R^1024×1024，之后与多尺度特征

进行逐元素相乘运算，同时还加入了跳连接路径，得到包含多尺度上下文信息及其通道长期依赖的特征

进一步地，步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率，再通过一个卷积核为1×1，步长为1，参数为θ¹¹的卷积操作C(*；θ¹¹)将通道数变为数据集类别数，最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。

有益效果：本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法与现有技术相比，具有如下有益效果：

1)不需要人工设计并提取特征，能够实现RGB-T图像对的端到端的像素级语义分割预测，仿真结果表明本发明显著提升了语义分割精度，同时对小目标以及在复杂的场景下的分割效果时更好；

2)本发明设计了一种“先缩减再融合”的策略，首先通过构建一种基于双向图像转换的方法来缩减多模态数据之间由于成像机制不同导致的模态差异，随后自适应地选取具有强辨别力的多模态特征以提升RGB-T语义分割效果。与已有方法相比，本方法提取到的多模态特征具有更强的判别力，有利于提升目标类别预测精度；

3)本发明通过建立跨模态特征的多尺度上下文信息及其空间、通道维度上的长期依赖的交互，充分挖掘了丰富的上下文信息，有利于解决目标多样性问题。相较于已有方法，本方法能够更好地分割不同尺度的目标，同时提升目标内部的分割完整性。

附图说明

图1为本发明公开的一种基于模态差异缩减的RGB-T图像语义分割方法的流程图；

图2为本发明提出的一种基于模态差异缩减的RGB-T图像语义分割方法的算法网络框图，其中，虚线框表示双向的模态差异缩减子网络，CWF表示自适应通道加权融合模块，MSC表示多尺度空间上下文模块，MCC表示多尺度通道上下文模块；

图3为本发明提出的自适应通道加权融合模块(CWF)框架示意图；

图4为本发明提出的多尺度空间上下文模块(MSC)框架图；

图5为本发明提出的多尺度通道上下文模块(MCC)框架图。

具体实施方式：

下面对本发明的具体实施方式详细说明。

参照图1，一种基于模态差异缩减的RGB-T图像语义分割方法，包括如下步骤：

(1)构建双向模态差异缩减子网络，对输入的RGB和热红外配准的图像对提取更具辨别力的RGB特征和热红外特征并同时构建监督学习模型，其中：

如图2所示，双向模态差异缩减子网络双向地缩减模态差异，通过缩减由图像转换方法生成的伪图像各层级特征与其相应真图像各层级特征的模态差异，以提取具有辨别力的RGB特征和热红外特征，然后分别提取RGB伪图像和热红外伪图像的各层级特征，以相应的RGB的真图像和热红外真图像的各层级特征作为其监督，构建监督学习模型；

步骤1)进行RGB模态到热红外模态的特征差异缩减时，首先使用ResNet-50提取RGB图像的多层级特征

其分辨率分别为输入图像分辨率的1/2、1/4、1/8、1/16、1/32，通道数分别为64、256、512、1024、2048。之后利用四个卷积核为3×3，步长为1，参数分别为

的卷积操作

将

降维为单通道特征图，再通过双线性插值计算并求和生成伪热红外图像I^pse-T。利用ResNet-18提取伪热红外图像I^pse-T的多层级特征

同时利用另一个ResNet-18提取相应的真热红外图像的五个不同分辨率多层级特征

计算对应层级真伪特征间的差异。

类似地，进行热红外模态到RGB模态的特征差异缩减时，首先使用ResNet-50提取热红外图像的多层级特征

利用相同的方式生成三通道的伪RGB图像I^pse-RGB，随后利用ResNet-18提取伪RGB图像I^pse-RGB的多层级特征

同时利用另一个ResNet-18提取相应的真RGB图像的五个不同分辨率多层级特征

计算对应层级真伪特征间的差异。

利用

对

进行监督，利用利用

对

进行监督。

双向的模态差异缩减子网络中，总的模态差异L_MD为真伪热红外多层级特征间差异与真伪RGB多层级特征间的差异之和，可表示为：

其中：

L₁(*)表示平均绝对误差。

(2)构建自适应通道加权融合模块，通过加权融合模块对所述步骤(1)得到的多层级RGB特征和热红外特征进行逐通道加权融合得到多层级融合特征，更好地从多模态特征中选择具有强分辨能力的特征通道；

步骤(1)获取的是四层不同分辨率的RGB特征和相应的热红外特征，对每一层RGB特征和T特征都使用该模块进行融合，因此共得到四层融合特征。同时，对于融合后的特征，也使用了ResNet-50进行特征提取。具体来说，第一层的RGB特征和热红外特征利用该融合模块得到第一层的融合特征，随后该融合特征经过ResNet-50残差块降采样，最后与第二层融合特征(即第二层RGB特征和热红外特征利用该融合模块得到的融合特征)进行相加操作。后续层也是如此。

逐通道加权融合模块如图3所示，输入步骤1中得到的缩减模态差异后的RGB特征

和相应的热红外特征

最后一层的特征

和

均丢弃以节省网络计算量。将相应层级的多模态特征级联，通过四个卷积块操作分别预测相应的权重向量，其中每个卷积块操作都包含一个卷积核为3×3，步长为1，参数为

的卷积操作

和一个卷积核为1×1，步长为1，参数为

的卷积操作

计算来自不同模态但在同一通道中的成对特征的相对重要程度，即RGB模态的权重向量W₁，W₂，W₃，W₄以及相对应的多层级热红外模态的权重向量1-W₁，1-W₂，1-W₃，1-W₄，可表示为：

其中：

GAP(*)表示全局平均池化操作；

Cat(*)表示级联操作；

σ(*)表示sigmoid激活函数；

最后通过加权求和的方式实现跨模态信息融合，得到多层级融合特征

可表示为：

其中：

表示逐通道乘法运算；

1表示与W_n尺寸相同的全1向量；

公式(2)中得到的W_n值越大，说明RGB模态特征对应通道比热红外模态特征对应通道更重要，反之亦然。当W_n与1-W_n两个权重向量中的值均为0.5时，可以看作是一种等比重融合的特殊情况；当W_n中的值均为0或1时，可以看作是只使用热红外或RGB单模态信息的特殊情况。

(3)构建多尺度空间、通道上下文模块，挖掘多尺度上下文信息及其空间、通道维度上的长期依赖：

如图4和图5所示，首先获取利用步骤(2)得到的多层级融合特征，再通过计算得到空间相关性矩阵和通道相关性矩阵，将其作用于多尺度特征中，建立多尺度上下文信息及其空间、通道维度上的长期依赖之间的联系；

如图4和图5所示，现有方法未能充分利用上下文信息，导致难以应对语义分割任务中目标多样性问题，故本发明利用洞卷积金字塔结构提取多尺度上下文信息，并对多尺度特征建立空间、通道维度上的长期依赖，以挖掘更为丰富的上下文信息。除此之外，为了缓解上述过程中存在的信息损失问题，本发明还对原始输入特征建立空间、通道维度上的长期依赖，作为补充信息融合到多尺度特征当中，以保证上下文信息的完整性。

具体来说，本发明构建的多尺度空间上下文模块如图4所示，其输入为步骤2中得到的融合特征

该模块包括一个洞卷积金字塔结构，一个自空间相关性矩阵，一个跨空间相关性矩阵。

洞卷积金字塔结构包含四个卷积核为1×1，步长为1，参数分别为θ¹，θ²，θ³，θ⁴的卷积操作C(*；θ¹)，C(*；θ²)，C(*；θ³)，C(*；θ⁴)；一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

的一半即256。将这四个特征级联之后(1024个通道)通过一个卷积核为1×1，步长为1，参数为θ⁵的卷积操作C(*；θ⁵)，得到包含丰富多尺度上下文信息的特征

其通道数与输入的

相同(512通道)，可表示为：

将得到的多尺度特征

进行尺寸变换为

并与其自身转置矩阵做矩阵乘法运算，以得到表征多尺度特征

空间内任意两点间相关性的自空间相关性矩阵，得到的自空间相关性矩阵M_ss∈R^HW×HW可表示如下：

其中：

表示矩阵乘法运算；

(*)^T表示矩阵转置操作；

Reshape(*)表示矩阵维度从R^H×W×C变为R^HW×C的尺寸变换操作。

将原输入特征

用相同的方式得到跨空间相关性矩阵M_cs∈R^HW×HW，计算原始输入特征空间内任意两点间相关性作为信息补充，以确保上下文信息的完整，跨空间相关性矩阵M_cs可表示如下：

将自空间相关性矩阵M_ss和跨空间相关性矩阵M_cs逐元素求和后进行归一化操作得到总空间相关性矩阵M_s∈R^HW×HW，如公式(7)。之后与多尺度特征

进行逐元素相乘运算，同时还加入了跳连接路径，最后得到包含丰富多尺度上下文信息及其空间长期依赖的特征

可表示为公式(8)。

M_s＝Normalization(M_ss+M_cs)(7)

其中：

Normalization(*)表示Min-Max归一化操作；

Reshape'(*)表示Reshape(*)的逆向操作。

本发明构建的多尺度通道上下文模块如图5所示，其输入为步骤2中得到的融合特征

包括一个洞卷积金字塔结构，一个自通道相关性矩阵，一个跨通道相关性矩阵。

洞卷积金字塔结构包含四个卷积核为1×1，步长为1，参数分别为θ⁶，θ⁷，θ⁸，θ⁹的卷积操作C(*；θ⁶)，C(*；θ⁷)，C(*；θ⁸)，C(*；θ⁹)；一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

的一半即512。将这四个特征级联之后(2048个通道)输入到一个卷积核为1×1，步长为1，参数为θ¹⁰的卷积操作C(*；θ¹⁰)，得到包含丰富多尺度上下文信息的特征

其通道数与输入的

相同(1024通道)，可表示为：

将得到的多尺度特征

进行尺寸变换为

任意两通道间相关性的自通道相关性矩阵，得到的自通道相关性矩阵M_sc∈R^1024×1024，可表示如下：

将原输入特征

用相同的方式得到跨通道相关性矩阵M_cc∈R^1024×1024，计算原始输入特征任意两通道间的相关性作为信息补充，进一步提高上下文信息的完整性，可表示如下：

将自通道相关性矩阵M_sc和跨通道相关性矩阵M_cc逐元素相加后进行归一化操作得到总通道相关性矩阵M_c∈R^1024×1024，如公式(12)。之后与多尺度特征

进行逐元素相乘运算，同样加入了跳连接路径，最后得到包含多尺度上下文信息及其通道长期依赖的特征

可表示为公式(13)。

M_c＝Normalization(M_sc+M_cc) (12)

(4)上采样恢复分辨率，预测RGB和热红外图像对的语义分割掩膜图：

将步骤(3)中得到的特征图通过反卷积操作恢复为全分辨率，经过通道变换操作以及softmax函数进行逐像素分类计算后预测语义分割掩膜图；

将步骤3得到的多尺度特征

经过一个卷积核为2×2，步长为16，参数为

的反卷积操作

恢复16倍分辨率，之后利用一个卷积核为1×1，步长为1，参数为

的卷积操作

的卷积操作变换特征图通道数为数据集类别数，利用softmax函数计算得到语义分割掩膜图S，可表示如下：

(5)训练算法网络得到模型参数

在训练数据集上，对步骤(4)的预测语义分割掩膜图和步骤(1)中生成的伪图像特征采用监督学***均绝对误差损失函数，端对端地完成算法网络训练，得到网络模型参数：

在训练数据集上，采用监督学习机制，求取网络模型中语义分割预测结果与真值的交叉熵损失函数L_s：

其中m和n表示输入图像的宽度和高度，(i,j)表示像素点的坐标，p(x_ij)表示像素点的真值标签，q(x_ij)表示像素点的预测结果，w(x_ij)表示像素点的类别权重系数。使用类别权重系数w是为了缓解数据集中存在类别分布不平衡问题，第i类的权重系数w_i可以表示为：

其中c为常数设置为1.1，P_i表示标签为第i类的像素点占总像素点的比例。

求取的交叉熵损失函数与公式(1)中的双向模态差异损失L_MD共同组成总的损失函数L_total，可表示为：

L_total＝λ₁L_s(S,G)+λ₂L_MD (17)

其中，λ₁和λ₂为平衡损失的超参数，S表示模型预测结果，G表示真值。

和

更进一步地，步骤(31)包括：

一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

其通道数与输入的

相同；

(312)将步骤(311)中得到的多尺度特征

(313)将原输入特征

更进一步地，步骤(32)包括：

一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

其通道数与输入的

相同；

(322)将步骤(321)中得到的多尺度特征

(323)将原输入特征

本发明对算法进行端对端地训练，通过训练整体的RGB-T语义分割网络后，得到模型参数；在训练RGB-T语义分割网络参数时，用于训练RGB-T语义分割网络的数据集(MFNet数据集)数据量不足，为了保证网络顺利训练，避免训练数据集出现过拟合现象，对数据集中的RGB-T图像对进行随机翻转、随机裁剪以及噪声注入的数据增广操作；

以下结合仿真实验，对本发明的技术效果作进一步说明：

1、仿真条件：所有仿真实验均在操作***为Ubuntu 16.04.5，硬件环境为GPUNvidia GeForce GTX 1080Ti，采用PyTorch深度学习框架实现；

2、仿真内容及结果分析：

仿真1

将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集MFNet上进行语义分割实验，部分实验结果进行直观的比较。为了保证实验的公平，基于RGB图像的语义分割方法被扩展为两部分即RGB分支和热红外分支，将两个分支的预测结果相加作为最终的语义分割掩膜图；对于基于RGB-D的语义分割方法，我们直接利用热红外图像替换输入的深度图像。

相较于现有技术，本发明对RGB-T图像语义分割难点问题效果更好。得益于本发明中的模态差异缩减与融合策略，在光照条件差的环境中能够更好地利用多模态互补信息，进而使目标的语义分割结果更接近于人工标定的真值图，此外，得益于本发明中对上下文信息的充分挖掘，目标多样性问题得到了有效解决，小目标能够更好地被分割出来，同时不同尺度的目标都得到了较为完整的语义分割结果。

仿真2

将本发明与现有的基于RGB图像的语义分割方法、基于RGB-D的语义分割方法以及基于RGB-T的语义分割方法在公共RGB-T图像语义分割数据集上进行语义分割实验得到的结果，采用公认的评价指标进行客观评价，评价仿真结果如表1所示，其中：

Acc表示每一类准确率；

mAcc表示类平均准确率；

IoU表示每一类的交并比；

mIoU表示类平均交并比。

以上指标均为越高越好，从表1中可以看出本发明对RGB-T图像具有更准确的语义分割能力，充分表明了本发明方法的有效性和优越性。

上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，包括如下步骤：

(5)训练算法网络得到模型参数：

2.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，步骤(1)中所述的双向模态差异缩减子网络包含从RGB模态到热红外模态以及从热红外模态到RGB模态两个部分，上述两个部分均采用结构相同的“编码器-解码器-编码器”网络，其中编码器使用ResNet-50网络和ResNet-18网络，解码器使用图像生成网络，通过双线性插值的上采样策略，以生成伪图像。

3.如权利要求2所述的一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，在步骤(1)中，通过同时缩减由ResNet-18网络提取生成的伪热红外图像的五个不同分辨率的层级特征

间的差异，以及

间的差异；

以获取由ResNet-50网络提取的具有更强辨别力的RGB多层级特征

和由ResNet-50网络提取的其相应的热红外多层级特征

利用

对

进行监督，利用利用

对

进行监督。

4.如权利要求3所述的一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，步骤(2)中所述的自适应通道加权融合模块是将步骤(1)得到的RGB图像的前四层特征

和其相应的热红外图像前四层特征

5.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，步骤(3)中多尺度空间、通道上下文模块的输入分别为

和

6.如权利要求5所述的一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，步骤(31)包括：

一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

其通道数与输入的

相同；

(312)将步骤(311)中得到的多尺度特征

(313)将原输入特征

用与步骤(312)相同的方式得到跨空间相关性矩阵M_cs∈R^HW ^×HW，作为信息补充部分；

7.如权利要求5所述的一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，步骤(32)包括：

一个卷积核为3×3，步长为1，洞率为1，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为12，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为18，参数为

的洞卷积操作

其通道数与输入的

相同；

(322)将步骤(321)中得到的多尺度特征

(323)将原输入特征

用与步骤(322)相同的方式得到跨通道相关性矩阵M_cc∈R¹⁰²⁴ ^×1024，作为信息补充部分；

8.如权利要求1所述的一种基于模态差异缩减的RGB-T图像语义分割方法，其特征在于，步骤(4)中使用一个反卷积操作进行特征图上采样以恢复分辨率，再通过一个卷积核为1×1，步长为1，参数为θ¹¹的卷积操作C(*；θ¹¹)将通道数变为数据集类别数，最后在每个像素点利用softmax函数预测其所属类别得到语义分割掩膜图。