CN114693929A

CN114693929A - 一种rgb-d双模态特征融合的语义分割方法

Info

Publication number: CN114693929A
Application number: CN202210330691.6A
Authority: CN
Inventors: 方艳红; 罗盆琳
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-01

Abstract

本发明提出一种RGB‑D双模态特征融合语义分割方法。首先，使用轻量化的ResNet34架构作为双分支编码主干，分四个阶段提取不同模态特征信息，逐层将输出的不同模态特征图传入双模态特征融合结构，通过注意力感知需要加强和削减的位置和空间特征，融合后的特征送入跳跃链接模块，为解码网络提供浅层细节信息；然后，采用双注意上下文模块丰富最底层特征图全局信息并连接解码器；最后，将来自编码器子网的浅层、低层、细粒度特征与来自解码器子网的深度、语义、粗粒度的相同尺度特征图结合在一起，获取包含低级空间和高级语义信息的全局特征。本发明能充分利用RGB‑D图像的互补特征，得到优异的语义分割性能，分割效果较好，运行效率高，具有较好的鲁棒性。

Description

一种RGB-D双模态特征融合的语义分割方法

技术领域

本发明属于图像处理技术领域，具体来讲，涉及一种根据RGB-D图像数据的不同模态特征进行多级特征提取与融合的室内场景图像语义分割方法。

背景技术

早期的像素级语义分割主要基于传统机器学习的方法。较为著名的有基于图割的方法、基于条件随机场的算法以及其改进后的马尔科夫条件随机场算法。但此类算法只能对输入图像进行二分类的分割，分割精度较低，无论从效果上或是运算速度上均远无法解决端到端的海量数据处理问题。计算机要实现准确的语义理解任务，需要增加图像数据量来提取更多的障碍物特征信息。然而，随着数据量的增加，数据处理精度和速度等要求大大超出了普通算法的信息综合处理能力。

近年来，伴随着计算机计算能力的大幅提升以及人工智能的崛起，为了最大限度地发挥多数据组的特征互补优点，减少数据融合的困难，基于深度学习的特征融合方法被提出。目前，基于深度学习的RGB图像分割中取得了良好的效果。然而在复杂室内场景中，由于物体种类多、光线变化大、易遮挡等因素，导致RGB图像语义分割任务存在较严重的边界模糊、类内误识别以及小目标物体丢失等问题。

研究表明，在进行语义分割时，深度图像可以为RGB图像提供互补的几何信息，从而改善分割效果。随着深度相机的广泛应用，场景深度信息获取变得较为容易。但由于使用RGB-D进行特征融合时数据类型的不同，容易导致网络模型复杂度过高，因此有效的异构数据特征融合方法可以更好的利用RGB特征和深度特征的协同信息，是提升语义分割精度的突破点。

根据特征融合方法在分割模型中参与阶段的不同，可以分为前期融合方法、后期融合方法、多级融合方法。前期融合指在输入深度学习网络之前进行特征融合再将融合特征传入深度学习网络进行特征提取与语义判定；后期融合指将RGB和深度图像分别经过双分支编码网络，单独进行RGB特征和深度特征提取，在最后阶段对特征进行融合为判别提供依据；多级融合分为两种不同形式，一种是将深度卷积神经网络每层提取到的深度图像特征融合到RGB图像特征当中，另一种融合方法的不同之处在于它的两个特征提取网络分支专注于提取单模态特征，然后将RGB特征和深度特征逐层提取出来进行融合。可以看出，多级融合方式将多阶段的特征融合信息用于解码器，利用了双模态数据的低、中、高层次信息，所以在语义分割任务上具有比前期融合和后期融合更好的特征信息利用率。

发明内容

本发明的目的在于解决图像语义分割的问题，提供同一场景下的RGB图像和深度图像，通过多级双模态特征融合卷积神经网络模型得到按照给定标签进行分类使不同种类的物体在图像上得以区分的语义分割图像的方法，通过所述方法可获得语义分割后的图像。

为了实现上述目的，本发明提供一种RGB-D双模态特征融合的语义分割方法，其中主要包括五个部分，第一部分是对RGB-D数据集进行预处理；第二部分是对预处理后图像进行特征提取与特征融合；第三部分是对融合后的图像特征建立丰富的上下文关系；第四部分是通过解码器融合多级图像特征并上采样获得与输入图像分辨率相同的语义分割图像；第五部分是对网络的训练和测试。

第一部分包括两个步骤：

步骤1，下载室内RGB-D图像公开数据集，选取场景复杂、细节多样和类别齐全的图像作为训练样本，其余图像作为测试集样本；

步骤2，为了进一步增加样本数量，使用图像缩放、裁剪和旋转进行随机增强，对于RGB图像还采用了HSV空间上的轻微色彩抖动。

第二部分包括两个步骤：

步骤3，使用双分支编码网络对步骤2中得到的RGB图像和深度图像进行多级特征提取；

步骤4，将步骤3中得到多级、多尺度的不同模态特征通过双模态特征融合结构进行融合，得到融合后的图像特征，通过跳跃链接送入解码器模块。

第三部分包括一个步骤：

步骤5，对步骤4获得的最高层特征图采用双注意力感知模块构建局部上下文依赖关系集成局部特征的相关性，再将得到的特征图经上下文模块的多分支聚合结构处理，结合不同尺度区域特征信息进一步加强特征的全局信息。

第四部分包括四个步骤：

步骤6，融合步骤5得到的特征图和步骤4中得到的第三层双模态特征再上采样扩大分辨率，得到第一层解码器输出图像；

步骤7，融合步骤6得到的特征图和步骤4中得到的第二层双模态特征再上采样扩大分辨率，得到第二层解码器输出图像；

步骤8，融合步骤7得到的特征图和步骤4中得到的第一层双模态特征再上采样扩大分辨率，得到第三层解码器输出图像；

步骤9，将步骤8中获得的图像进行两次两倍学习率上采样，将图像分辨率恢复到输入图像分辨率大小，输出最终语义分割结果图。

第五部分包括两个步骤：

步骤10，调整步骤3到步骤9过程中的网络模型参数和权重，得到最优网络模型参数文件；

步骤11，将步骤1中的测试图像数据集，输入步骤10得到的网络模型，得到语义分割图像。

本发明提出了一种RGB-D双模态特征融合图像语义分割方法。该方法在保证效率与精度平衡的前提下，使用引入Non-Bottleneck-1D架构的轻量ResNet34架构作为骨干网络。首先，RGB和深度数据使用单独的编码器分支，分四个阶段分别提取RGB图像和深度图像的特征信息；同时，在处理深度特征和RGB特征时，逐层将输出特征图传入注意力机制双模态融合模块，通过给定输入模型，了解需要加强和削减的位置和空间特征，然后送入各层的多尺度跳跃连接模块，为解码器网络提供更多的浅层细节信息；接着，采用双重注意上下文模块丰富最高层特征图全局信息并连接解码器；最后，以1×1卷积将来自编码器子网的浅层、低层、细粒度特征与来自解码器子网的深度、语义、粗粒度的相同尺度特征图结合在一起，从而获取包含低级空间信息和高级语义信息的全局特征。本发明能充分利用RGB-D图像的互补特征并去除冗余特征信息，得到优异的语义分割性能，分割效果较好，运行效率高，具有较好的鲁棒性。

附图说明

图1为本发明的网络模型整体结构图。

图2为本发明的双模态特征融合结构图。

图3为本发明双注意力感知上下文结构图。

图4为原始采集的RGB图像和深度图像。

图5为利用本发明处理图4后的语义分割图像。

具体实施方式

为了更好的理解本发明，下面结合具体实施方式对本发明的RGB-D双模态特征融合语义分割方法进行更为详细的描述。在以下的描述当中，当前已有的现有技术的详细描述也许会淡化本发明的主题内容，这些描述在这里将被忽略。

在具体实施方案中，按照以下步骤进行：

步骤1，下载室内RGB-D数据集，包括NYUv2、SUNRGB-D，得到不同数据集的训练集和测试集样本，通过数据处理生成图片名汇总的.txt文件。

步骤2，设置好每一次需要导入的一一对应的RGB和深度图像张数，通过缩放、裁剪等进行数据集增强，得到网络的输入样本101。

图1为本发明的基于卷积神经网络的RGB-D双模态特征融合模型整体结构图，在本次实施方案中，按照以下步骤进行。

步骤3，使用引入Non-Bottleneck-1D架构的轻量化双分支残差结构作为编码器主干102，将原始残差网络残差块中的3×3卷积分解成两个一维的3×1和1×3卷积，两个编码支路分成四个阶段专注于提取RGB和深度图像的不同模态特征。

步骤4，分别在步骤3的每个编码阶段完成后使用双模态特征融合结构103，融合步骤3得到的RGB图像特征和深度图像特征。双模态特征融合结构如图2所示，具体实施如下：

（1）将每一层的RGB特征图和深度特征图201组通过坐标注意力机制202，将两种不同模态特征信息按照同一种规则来获取感兴趣的特征，进而协调两种不同类型特征图中各特征信息的权重；

（2）然后，利用RGB图像特征和深度图像特征之间的互补特性，将上述通过注意力机制获取的特征信息进行协同优化203，不同模态特征协同优化时权重分配为1:1，实现双模态特征融合；

（3）最后，将融合结果204通过多尺度的跳跃链接，使用1×1卷积分别将不同层次特征图通道数转变为512、256、128通道并送入解码器，实现多级、多尺度模态信息混合。

步骤5，通过双注意力感知上下文结构104如图3所示，对步骤4最高层特征进行局部和全局上下文信息融合，将输入特征图301分别经位置注意力分支302与通道注意力模块303进行处理后，再将聚合后的输出特征图304作为类金字塔池化上下文模块305输入，最后将上下文模块输出的信息特征图作为解码器的第首个输入306。其具体步骤如下：

（1）将输入特征图(

)输入到双注意力机制的位置注意力分支中，得到位置注意力模块输出结果

。同时，将输入特征图(

)经过通道注意力分支进行特征提取，得到通道注意力分支输出结果

；

（2）将两个注意力模块得到的输出进行聚合，不同注意力分支聚合权重比例为1:1，以获得更好的像素级预测的特征表示X _T；

（3）将X _T通过类金字塔池化模型的b个不同尺度分支，分别在b个分支中进行不同尺度的池化处理，使用1×1卷积将通道数变为输入特征图的1/b，通过最近邻上采样将特征图尺寸恢复到输入大小，并将原特征图与各个尺度进行连接，最后对连接后得到的特征图通道数调整，使其得到具有丰富上下文信息的特征图X _OUT，传入解码器，本发明中，推荐采用b=4。

步骤6，将步骤5中512通道的双模态特征图与步骤4中的512通道的第三层双模态特征图一起作为第一层解码器的两个输入特征图，并进行一次上采样，将输出特征图分辨率扩大两倍105。

步骤7，将步骤6中256通道的输出特征图与步骤4中256通道的第二层双模态特征图一起作为第二层解码器的两个输入特征图，并进行第二次上采样，将输出特征图分辨率扩大两倍106。

步骤8，将步骤7的128通道的输出特征图与步骤4中128通道的第一层双模态特征图一起作为第三层解码器的两个输入特征图，并再次进行上采样，将输出特征图分辨率扩大两倍107。

步骤9，通过两次两倍学习率上采样，将输出的语义分割结果图尺度扩大至输入图片分辨率大小108。

步骤10，对步骤3到步骤9的网络模型，设置训练批量处理大小为4，即将随机的4张图片作为一个批次进行处理，每训练完一个周期进行一次测试，测试时批量处理大小为8，使用SGD的优化方法，设置动量为0.9，初始学习率为0.01，每个周期使用poly的学习率策略来调整学习率，训练500次后得到最优参数模型文件。

步骤11，将需要测试的RGB图像和深度图像如图4所示，输入训练好的模型当中，得到图像语义分割输出结果，如图5所示。

本发明根据RGB图像和深度图像的互补特征信息，提出了一种RGB-D双模态特征融合语义分割方法，该方法根据RGB图像信息局限的特点，基于多级多模态信息融合特性，利用构建了注意力机制融合模块，用于增强RGB和深度图特征的位置信息和通道信息的关注度，在减小RGB和深度特征差异性的同时充分利用二者之间的互补性进行协同优化。此外，搭建双注意力感知上下文模块用于连接编解码器，增强编码器输出特征图的上下文解析。解码器部分利用多尺度跳跃连接，在反池化操作时充分挖掘不同尺度特征的局部上下文语义，最后输出语义分割结果。本发明算法简单，可操作性强，具有广泛的适用性。

尽管上面对本发明说明性的具体实施方式进行了描述，但应当清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种RGB-D双模态特征融合的语义分割方法，其中主要包括五个部分，第一部分是对RGB-D数据集进行预处理；第二部分是对预处理后图像进行特征提取与特征融合；第三部分是对融合后的图像特征建立丰富的上下文关系；第四部分是通过解码器融合多级、多尺度图像特征并上采样获得与输入分辨率相同的语义分割图像；第五部分是对网络的训练和测试。

第一部分包括两个步骤：

步骤2，设置好每一次需要导入的一一对应的RGB和深度图像张数，通过缩放、裁剪等进行数据集增强，得到网络的输入样本。

第二部分包括两个步骤：

步骤3，使用引入Non-Bottleneck-1D架构的轻量化双分支残差结构作为编码器主干，将原始残差网络残差块中的3×3卷积分解成两个一维的3×1和1×3卷积，两个编码支路分成四个阶段专注于提取RGB和深度图像的不同模态特征。

步骤4，分别在步骤3的每个编码阶段完成后使用双模态特征融合结构，融合步骤3双分支编码主干得到的RGB图像特征和深度图像特征。具体实施如下：

（1）将每一层的RGB特征图和深度特征图组通过坐标注意力机制，将两种不同模态特征信息按照同一种规则来获取感兴趣的特征，进而协调两种不同类型特征图中各特征信息的权重；

（2）然后，利用RGB图像特征和深度图像特征之间的互补特性，将上述通过注意力机制获取的特征信息进行协同优化，不同模态特征协同优化时权重分配为1:1，实现双模态特征融合；

（3）最后，将融合结果通过多尺度的跳跃链接，使用1×1卷积分别将不同层次特征图通道数转变为512、256、128通道并送入解码器，实现多级、多尺度模态信息混合。

第三部分包括一个步骤：

步骤5，通过双注意力感知上下文结构对步骤4最高层特征进行局部和全局上下文信息融合，将输入特征图分别经位置注意力分支与通道注意力分支进行处理并聚合，再将聚合后的输出特征图作为类金字塔池化上下文模块输入，最后将上下文模块输出的特征图作为解码器的第首个输入。其具体步骤如下：

（1）将输入特征图(

。同时，将输入特征图(

。

（2）将两个注意力模块得到的输出进行聚合，不同注意力分支聚合权重比例为1:1，以获得更好的像素级预测的特征表示X _T。

第四部分包括四个步骤：

步骤6，将步骤5中512通道的双模态特征图与步骤4中的512通道的第三层双模态特征图一起作为第一层解码器的两个输入特征图，并进行一次上采样，将输出特征图分辨率扩大两倍；

步骤7，将步骤6中256通道的输出特征图与步骤4中256通道的第二层双模态特征图一起作为第二层解码器的两个输入特征图，并进行第二次上采样，将输出特征图分辨率扩大两倍；

步骤8，将步骤7的128通道的输出特征图与步骤4中128通道的第一层双模态特征图一起作为第三层解码器的两个输入特征图，并再次进行上采样，将输出特征图分辨率扩大两倍；

步骤9，通过两次两倍学习率上采样，将输出的语义分割结果图尺度扩大至输入图片分辨率大小。

第五部分包括两个步骤：

步骤10，对步骤3到步骤9的网络模型，设置训练批量处理大小为4，即将随机的4张图片作为一个批次进行处理，每训练完一个周期进行一次测试，测试时批量处理大小为8，使用SGD的优化方法，设置动量为0.9，初始学习率为0.01，每个周期使用poly的学习率策略来调整学习率，训练500次后得到最优模型参数文件。

步骤11，将需要测试的RGB图像和深度图像输入训练好的模型当中，得到图像语义分割输出结果。

2.根据权利要求1所述的一种RGB-D双模态特征融合的语义分割方法，其特征在于，步骤4（1）中将多级、多尺度的不同模态特征经过同种注意力机制按照同一规则协调特征权重；步骤4（2）中将各编码阶段相同尺度的不同模态特征图进行协同优化，其中，不同模态特征协同优化时权重比例为1:1；步骤4（3）中采用跳跃链接和1×1卷积将三个不同层次特征图送入解码器实现多级、多尺度特征融合，其中，通过1×1卷积后不同层次特征图通道数分别为512、256、128。

3.根据权利要求1所述的一种RGB-D双模态特征融合的语义分割方法，其特征在于，步骤5（1）中利用双注意力机制提取位置和通道特征，步骤5（2）中进行双注意力特征图聚合，不同注意力分支聚合权重比例为1:1，整合任意尺度局部特征的相似性，自适应的集成局部特征和全局特征的依赖性，增强对细节的识别能力，为上下文模块提供丰富的特征信息；步骤5（3）类金字塔池化上下文模型融合b个分支输出不同大小的特征映射，减小不同区域特征的上下文信息损失，为解码器模块提供了全局上下文信息，b=4。