CN114419449B

CN114419449B - 一种自注意力多尺度特征融合的遥感图像语义分割方法

Info

Publication number: CN114419449B
Application number: CN202210308387.1A
Authority: CN
Inventors: 符颖; 郭丹青; 文武; 吴锡; 周激流
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-24
Anticipated expiration: 2042-03-28
Also published as: CN114419449A

Abstract

本发明涉及一种自注意力多尺度特征融合的遥感图像语义分割方法，所述分割网络包括特征编码器和解码器，特征编码器将前三个阶段不同尺度大小的特征图传递给解码器中对应的自注意力多尺度特征融合模块，解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加，逐步进行直到和第一阶段的特征图尺度一样，最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类，并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果，本发明方法能够有效融合不同尺度的遥感语义特征，提升分割性能。

Description

一种自注意力多尺度特征融合的遥感图像语义分割方法

技术领域

本发明涉及遥感图像处理领域，尤其涉及一种自注意力多尺度特征融合的遥感图像语义分割方法。

背景技术

随着遥感影像技术的不断发展，针对遥感图像的处理变得越来越重要，语义分割就是其重要的研究方向之一。不论是自然图像还是遥感图像，语义分割都是在像素级别进行分类，为每一个像素分配一个标签。相较于自然图像，遥感图像具有分辨率高、内容复杂和物体尺度差异较大，并且由于其图像内容复杂以至于实际应用时对分割精度要求更高。随着近年来深度学习在计算机视觉领域大放异彩，不断有研究人员将深度学习技术应用于遥感图像语义分割，其结果也证明深度学习在遥感图像语义分割上效果也优于大部分传统方法并逐渐成为遥感语义分割的主流方法。最开始应用于遥感图像语义分割的深度学习方法大多是基于卷积神经网络的，其中最经典的是端到端的用于图像语义分割的全卷积网络，其总体思想是将全连接层替换为卷积层，使用1*1卷积计算图像中每个类别的分数实现像素级别的预测，由于全卷积网络是对最后一个卷积层的特征图直接上采样至原图大小，导致其分割边缘不完整、精度较低。

为了更好的将特征图恢复到原图大小，有人提出基于编解码器架构的语义分割网络U-Net，它是一个U形的对称结构，由提取特征的编码器和恢复尺度的解码器组成，为了提高对物体边缘特征的提取能力在解码器中加入了跳跃连接来进一步融合编码器提取的特征，这些改进使得U-Net在训练样本较少的情况下也能取得较好的分割精度和鲁棒性。基于卷积神经网络的语义分割模型通常需要不断的下采样来获取更大的感受野，但是不断的下采样又会引起图片分辨率变小导致位置信息丢失。为了解决这个问题，在VGG16的基础上提出了带有空洞卷积和条件随机场的语义分割网络DeepLab，所提出的空洞卷积可以在保持分辨率不变的情况下增大感受野使得分割精度更高。

随着Google在2016年提出的Transformer模型在自然语言处理领域取得了惊世骇俗的效果后，Self Attention和Transformer开始被研究人员所熟悉。正是由于Transformer在自然语言处理上个取得的显著成绩和其强大的建模能力，特别是在全局信息处理上的优秀表现使得研究人员开始尝试将其应用到计算机视觉领域。

现有技术方案存在的不足：

1、在对内容背景复杂的遥感图像提取语义信息时能力不足

传统的卷积神经网络提取语义信息的能力有限，面对内容背景复杂的遥感图像，不能有效提取语义分割需要的关键信息，很大程度影响了分割的效果。

2、在进行特征融合时没有考虑到不同尺度特征之间的相关性

由于遥感图像中物体尺度差异大，很多中小尺度的物体的语义信息没能传递到深层网络中，严重影响了分割结果。以往方法在使用多特征融合时只是从上往下进行简单的叠加，没有考虑到不同尺度之间的相关性，没能较好的利用多尺度语义信息。

3、在物体分布不均的遥感图像数据集中泛化能力差

遥感图像因拍摄地区的差异，内容复杂并且分布不均，以往方法只对城市、乡村某个场景的遥感图像语义分割较好，泛化能力较差。

发明内容

针对现有技术之不足，一种自注意力多尺度特征融合的遥感图像语义分割方法，特征编码器将四个阶段不同尺度大小的特征图传递给解码器，解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加，逐步进行直到和第一阶段的特征图尺度一样，最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类，并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果，所述方法能够有效融合不同尺度的遥感语义特征，提升分割性能，具体步骤包括：

步骤1：构建遥感语义分割网络，所述分割网络包括特征编码器和解码器，预先在ImageNet数据集上训练Swin-T网络，将训练后的Swin-T网络作为编码器，采用自注意力多尺度特征融合的金字塔结构网络作为解码器；

步骤2：所述特征编码器包括依次连接的Swin-T四个模块，具体为Swin-T第一模块、Swin-T第二模块、Swin-T第三模块、Swin-T第四模块，所述Swin-T四个模块依次对输入遥感图像进行特征采集，最后得到四个不同尺度大小的特征图，并传递给解码器；

步骤3：所述解码器包括三个自注意力多尺度特征融合模块，具体为第一特征融合模块、第二特征融合模块、第三特征融合模块，将所述Swin-T第一模块、所述Swin-T第二模块、所述Swin-T第三模块生成的特征图均输入到所述三个特征融合模块中，所述三个特征融合模块根据当前阶段的尺度和通道数进行特征融合，具体为：

步骤31：所述第一特征融合模块以Swin-T第一模块生成的特征图尺度和通道数为标准，将Swin-T第二模块生成的特征图进行2倍上采样、通道数减半的操作，将Swin-T第三模块生成的特征图进行4倍上采样、通道数降为1/4的操作；

步骤32：所述第二特征融合模块以Swin-T第二模块生成的特征图尺度和通道数为标准，将Swin-T第一模块生成的特征图经过特征调整模块进行通道数和尺度的处理，将Swin-T第三模块生成的特征图进行2倍上采样、通道数减半的操作；

步骤33：所述第三特征融合模块以Swin-T第三模块生成的特征图尺度和通道数为标准，将所述Swin-T第一模块和所述Swin-T第二模块生成的特征图经过特征调整模块进行通道数和尺度的处理；

步骤4：所述特征融合模块还包括计算注意力模块，将所述每个特征融合模块中调整后的三个特征图做全局平均池化，将池化后的特征图拼接起来计算自注意力，然后将计算自注意力的结果按照相同的方式拆分得到三个相关性分数，将所述三个相关性分数与各自全局池化前的特征图相乘，最后把相乘后的特征图在通道维度拼接并调整通道数和当前阶段通道数一致；

步骤5：对每个像素进行预测分类，具体为：

如图1所示，将Swin-T第四模块生成的特征图进行二倍上采样后与第三特征融合模块输出的特征图进行叠加，将第三特征融合模块叠加后的特征图进行二倍上采样后与第二特征融合模块输出的特征图进行叠加，将第二特征融合模块叠加后的特征图进行二倍上采样后与第一特征融合模块输出的特征图进行叠加，将三个叠加后的特征图和所述Swin-T第四模块生成的特征图均上采样至原图大小后对每个像素进行预测分类，最后将四个尺度的预测结果进行融合得到最终的遥感语义分割结果。

根据一种优选的实施方式，所述特征调整模块的工作方式具体为：对输入特征图进行2*2的最大池化，更好的保留了大尺度特征图的主要特征，再使用1*1卷积调整通道数，接着使用两个3*3卷积对特征进行选择提取，并使用残差连接避免梯度***和消失，加快网络收敛。

根据一种优选的实施方式，步骤5还包括：进行分割预测时也采用多尺度策略，将输入遥感图像以0.5、0.75、1.0、1.25、1.5、2.0的比例变换尺度进行分割预测，最后将所有尺度下的分割结果叠加。

本发明的有益效果在于：

1、本发明所提出的自注意力多尺度特征融合模块能有效融合不同尺度之间的特征，对背景内容复杂的遥感图像能提取到有用的语义特征，在背景复杂、物体尺度多变和分布不均匀的遥感图像语义分割上能取得较好的分割结果。

2、本发明所提出的特征调整模块，能够有效的将大尺度特征传递到注意力多尺度特征融合模块，更好的保留了大尺度特征图的主要特征，提高了分割精度。

3、考虑了不同尺度特征图之间存在相关性，我们使用自注意力来计算这种相关性，得到的相关性分数可以理解为权值，充分考虑了不同尺度特征之间的相关性，在遥感图像语义分割中能提高对尺度差异较大的物体的分割精度，特别是建筑、水体类。

附图说明

图1是本发明语义分割网络的结构示意图；

图2是本发明自注意力多尺度模块的一种结构示意图；

图3是特征调整模块的结构图；

图4是实验结果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

第一阶段的Swin-T网络代表Swin-T第一模块。

第二阶段的Swin-T网络代表Swin-T第二模块。

第三阶段的Swin-T网络代表Swin-T第三模块。

第四阶段的Swin-T网络代表Swin-T第四模块。

Swin-Transformer有四类规模（swin-t、swin-b、swin-s、swin-l），结构都相同，差别是在参数设置上，网络规模大小不同。swin-t是swin-transformer中规模最小的一种，另外swin-transformer包含四个swin-transformer-block,也就是阶段一至阶段四.

下面结合附图进行详细说明。

本发明主要解决遥感图像内容复杂、物体尺度差异较大和分布不均匀等因素导致语义分割不完整、准确率低的问题，提出一种自注意力多尺度特征融合的遥感语义分割方法，特征编码器将三个阶段不同尺度大小的特征图传递给解码器，解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加，逐步进行直到和第一阶段的特征图尺度一样，最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类，并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果，方法能够有效融合不同尺度的遥感语义特征，提升分割性能。图1是本发明语义分割网络的结构示意图，如图1所示，本发明具体步骤包括：

步骤1：构建遥感语义分割网络，分割网络包括特征编码器和解码器，预先在ImageNet数据集上训练Swin-T网络，将训练后的Swin-T网络作为编码器，采用自注意力多尺度特征融合的金字塔结构网络作为解码器。具体的，使用在ImageNet上经过预训练的Swin-T模型作为特征提取器，将提取的1/4、1/8、1/16原图大小的特征图传递给自注意力多尺度特征融合模块进行融合处理。在训练过程中，将原图随机变换尺度大小为0.5、0.75、1.0、1.25、1.5、2.0来进行多尺度增强。

步骤2：特征编码器包括依次连接的Swin-T四个模块，具体为Swin-T第一模块、Swin-T第二模块、Swin-T第三模块、Swin-T第四模块，Swin-T四个模块依次对输入遥感图像进行特征采集，最后得到四个不同尺度大小的特征图，并传递给解码器。

步骤3：解码器包括三个自注意力多尺度特征融合模块，如图1所示，从左至右依次为第一特征融合模块、第二特征融合模块、第三特征融合模块，将Swin-T第一模块、Swin-T第二模块、Swin-T第三模块生成的特征图均输入到三个特征融合模块中，三个特征融合模块根据当前阶段的尺度和通道数进行特征融合，具体为：

步骤31：第一特征融合模块以Swin-T第一模块生成的特征图尺度和通道数为标准，将Swin-T第二模块生成的特征图进行2倍上采样、通道数减半的操作，将Swin-T第三模块生成的特征图进行4倍上采样、通道数降为1/4的操作。

步骤32：第二特征融合模块以Swin-T第二模块生成的特征图尺度和通道数为标准，将Swin-T第一模块生成的特征图经过特征调整模块进行通道数和尺度的处理，将Swin-T第三模块生成的特征图进行2倍上采样、通道数减半的操作。

步骤33：第三特征融合模块以Swin-T第三模块生成的特征图尺度和通道数为标准，将Swin-T第一模块和Swin-T第二模块生成的特征图经过特征调整模块进行通道数和尺度的处理。

步骤4：特征融合模块还包括计算注意力模块，将每个特征融合模块中调整后的三个特征图做全局平均池化，将池化后的特征图拼接起来计算自注意力，然后将计算自注意力的结果按照相同的方式拆分得到三个相关性分数。保证三个特征图全局池化后的结果各自独立，与池化前的特征图一一对应，计算自注意力也是不会打乱对应顺序的。将三个相关性分数与各自全局池化前的特征图相乘，最后把相乘后的特征图在通道维度拼接并调整通道数和当前阶段通道数一致。将相关性分数和池化前的特征图进行相乘的作用在于：考虑了不同尺度特征图之间存在相关性，我们使用自注意力来计算这种相关性，得到的相关性分数可以理解为权值，将相关性分数和池化签的特征图相乘是加权的过程。

图2是本发明自注意力多尺度模块的一种结构示意图，是以第二阶段为例，第二阶段的尺度大小为64像素*64像素，通道数为192，自注意力多尺度特征融合过程如图2所示。

在做多尺度特征融合的时首先要考虑的就是如何将不同尺度的特征调整成相同尺度，最简单的方法是直接池化下采样，这样的好处是没有额外的参数，缺点是没有很好的保留有效信息，导致多尺度特征融合效果差。为了更好的将大尺度特征图的特征传递到自注意力多尺度特征融合模块，我们提出了特征调整模块，如图3所示，特征调整模块的工作方式具体为：对输入特征图进行2*2的最大池化，更好的保留了大尺度特征图的主要特征，再使用1*1卷积调整通道数，接着使用两个3*3卷积对特征进行选择提取，并使用残差连接避免梯度***和消失，加快网络收敛。

步骤5：对每个像素进行预测分类，具体为：

如图1所示，将Swin-T第四模块生成的特征图进行二倍上采样后与第三特征融合模块输出的特征图进行叠加，将第三特征融合模块叠加后的特征图进行二倍上采样后与第二特征融合模块输出的特征图进行叠加，将第二特征融合模块叠加后的特征图进行二倍上采样后与第一特征融合模块输出的特征图进行叠加，将三个叠加后的特征图和Swin-T第四模块生成的特征图均上采样至原图大小后对每个像素进行预测分类，最后将四个尺度的预测结果进行融合得到最终的遥感语义分割结果。

步骤5还包括：进行遥感语义分割预测时也采用多尺度策略，将输入遥感图像以0.5、0.75、1.0、1.25、1.5、2.0的比例变换尺度进行分割预测，最后将所有尺度下的分割结果叠加。在预测阶段使用多尺度策略可以提高分割精度，将遥感图像分别变换尺度为上述六种比例输入到网络中进行预测得到六种结果，再平均加权融合，能够得到更加精确的分割结果。

为了评价所提出的遥感图像语义分割方法的性能，我们采用遥感图像语义分割中常用的交并比（intersection over union，IoU）和平均交并比（mean intersection overunion，mIoU）作为评价指标。交并比是模型对某一类别预测结果和真实值的交集与并集的比值，平均交并比是所有类别交并比的求和平均值。交并比计算公式如下:

其中TP表示实际为真，预测也为真的像素数量，FP表示实际为假，预测为真的像素数量，FN表示实际为真，预测为假的像素数量。交并比越高，说明模型对遥感图像语义分割效果越好。

为了验证本文提出的遥感图像语义分割方法的有效性，与LoveDA数据集中给出的各网络模型在测试集上的基准分数进行比较，其中包括的网络模型有FCN8S、DeepLabV3+、PAN、UNet、UNet++、Semantic-FPN、PSPNet、LinkNet、FarSeg、FactSeg和HRNet。

首先在单尺度下进行比较，其结果如表1所示，本文提出的方法在各个类别上的交并比都达到最优，平均交并比对比次优结果提升了2.98%，表明本文模型在复杂遥感图像语义分割中具有优秀性能。

表1 在LoveDA数据集上语义分割结果对比

面对尺度差异大的遥感图像，在语义分割训练和测试中使用多尺度策略可以有效提高模型的性能。为此，本文同样在多尺度下与LoveDA数据集中的DeepLabV3+、UNet和HRNet的多尺度结果进行对比，使用多尺度比例统一为0.5、0.75、1.0、1.25、1.5、1.75。表2给出了对比结果，可见多尺度策略显著提高了不同方法的性能，本文方法的平均交并比更是达到54.19%，对比次优结果提升了1.47%，取得了LoveDA数据集上的最优结果。

表2 多尺度训练和多尺度测试结果对比

为了进一步分析各个模块在整个网络模型中的作用，进行了消融研究。我们将实验分为ResNet50+FPN、Swin-T+FPN、带有特征调整的自注意力多尺度特征融合和不带有特征调整模块的自注意力多尺度特征融合，结果如表3所示。通过分析表3可以看出：1）Swin-transformer在复杂遥感图像语义分割中表现得更好，这是由于Swin-Transformer强大的建模能力。2）在自注意力多尺度特征融合过程中，不使用特征调整模块效果提升有限，分析原因是粗暴的将大尺度特征直接池化成相同尺度造成特征不匹配。3）添加特征调整模块，将不同尺度的特征经过一定选择调整后输入到自注意力多尺度特征融合模块计算它们之间的相关性再拼接融合，能有效提高在单尺度和多尺度下的分割性能。

表3 消融实验

图4展示了不同模型的分割结果图，从中可以看出本发明模型分割结果更加圆滑，边缘更加完整，没有出现支离破碎的情况。综合以上实验结果和分析，本发明提出的基于Swin-Transformer的自注意力多尺度特征融合模块能有效融合不同尺度的特征，提升模型在遥感图像语义分割上的性能。从图4中可以看出本发明方法具有较好的泛化能力，在物体分布不均匀，图像内容差异大的遥感图像语义分割中能保持较好的性能。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种自注意力多尺度特征融合的遥感图像语义分割方法，其特征在于，特征编码器将四个阶段不同尺度大小的特征图传递给解码器，解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加，逐步进行直到和第一阶段的特征图尺度一样，最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类，并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果，所述方法能够有效融合不同尺度的遥感语义特征，提升分割性能，具体步骤包括：

步骤3：所述解码器包括三个自注意力多尺度特征融合模块，具体为第一特征融合模块、第二特征融合模块、第三特征融合模块，将所述Swin-T第一模块、所述Swin-T第二模块、所述Swin-T第三模块生成的特征图均输入到三个特征融合模块中，三个特征融合模块根据当前阶段的尺度和通道数进行特征融合，具体为：

步骤32：所述第二特征融合模块以Swin-T第二模块生成的特征图尺度和通道数为标准，将Swin-T第一模块生成的特征图经过特征调整模块进行通道数和尺度的处理，将Swin-T第三模块生成的特征图进行2倍上采样、通道数减半的操作，所述特征调整模块的工作方式具体为：对输入特征图进行2*2的最大池化，再使用1*1卷积调整通道数，接着使用两个3*3卷积对特征进行选择提取，并使用残差连接避免梯度***和消失，加快网络收敛；

步骤4：所述特征融合模块还包括计算注意力模块，将每个特征融合模块中调整后的三个特征图做全局平均池化，将池化后的特征图拼接起来计算自注意力，然后将计算自注意力的结果按照相同的方式拆分得到三个相关性分数，将所述三个相关性分数与各自全局池化前的特征图相乘，最后把相乘后的特征图在通道维度拼接并调整通道数和当前阶段通道数一致；

步骤5：对每个像素进行预测分类，具体为：

将Swin-T第四模块生成的特征图进行二倍上采样后与第三特征融合模块输出的特征图进行叠加，将第三特征融合模块叠加后的特征图进行二倍上采样后与第二特征融合模块输出的特征图进行叠加，将第二特征融合模块叠加后的特征图进行二倍上采样后与第一特征融合模块输出的特征图进行叠加，将三个叠加后的特征图和所述Swin-T第四模块生成的特征图均上采样至原图大小后对每个像素进行预测分类，最后将四个尺度的预测结果进行融合得到最终的遥感语义分割结果。

2.如权利要求1所述的遥感图像语义分割方法，其特征在于，步骤5还包括：进行遥感语义分割预测时也采用多尺度策略，将输入遥感图像以0.5、0.75、1.0、1.25、1.5、2.0的比例变换尺度进行分割预测，最后将所有尺度下的分割结果叠加。