CN116258976A

CN116258976A - 一种分层次Transformer的高分辨率遥感图像语义分割方法及***

Info

Publication number: CN116258976A
Application number: CN202310298438.1A
Authority: CN
Inventors: 付勇泉; 吴宏林; 贾勇
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-13

Abstract

本发明属于遥感图像语义分割技术领域，具体提供了一种分层次Transformer的高分辨率遥感图像语义分割方法及***，其中方法包括：获取原始遥感影像，进行初步处理得到统一的高分辨率遥感图像；数据预处理构建样本集；搭建分层次高效Transformer的高分辨率遥感图像语义分割模型；对高分辨遥感图像语义分割模型按照预先设定好的训练方案进行训练，得到改进模型；将需要进行分割处理的高分遥感图像按固定尺寸裁切后加载到改进模型中实现快速分割。通过设计轻量化高效的Transformer块作为主干网络，能够减少模型计算开销，并获得有效的全局特征映射。对主干网络添加注意力机制、多尺度特征聚合策略；用以增强对不同尺度大小目标类分辨，提高边界精细度，从而取得更好的综合性能。

Description

一种分层次Transformer的高分辨率遥感图像语义分割方法及***

技术领域

本发明涉及遥感图像语义分割技术领域，更具体地，涉及一种分层次Transformer的高分辨率遥感图像语义分割方法及***。

背景技术

遥感技术可以用来获取地球表面的各种信息，例如地形、气象、水文、植被等等。这些信息可以用于农业、林业、城市规划、资源管理、灾害监测等多个领域。随着遥感技术的不断进步和应用领域的不断扩展，它对人们的生活和工作产生了越来越深远的影响。

遥感图像处理包括语义分割、变化监测、覆盖分类等。其中，高分辨率遥感图像语义分割是遥感图像处理中一个十分重要和基础的研究。高分辨率遥感图像语义分割是对图像中待分割区域进行处理，使用不同位置的光谱和抽象的语义特征，将每个像素点分配标签类别，为遥感图像分析和理解奠定坚实基础。传统图像处理算法在进行高分辨率遥感图像语义分割时，存在诸多难点。这些难点包括特征设计的复杂性、大规模数据的处理困难、复杂多变的场景、算法的适应性差等。因此，使用传统图像处理算法进行高分辨率遥感图像语义分割不仅需要耗费大量时间和精力，而且往往难以取得满意的效果。

近年来，深度学习的蓬勃发展为高分辨率遥感图像的语义分割任务带来了明显的进步。与传统的图像处理算法相比，基于深度学习的神经网络在计算机视觉的各个领域表现卓越，因此受到越来越多的学者关注和研究。随着遥感图像分辨率的提高，传统的遥感影像分割和机器学习方法已经无法有效处理大量的特征提取。这一问题经过深度卷积神经网络不断的探索，在一定程度上已经得到了有效的解决，但是直接应用通用的语义分割方法于高分辨率遥感图像，其结果并不尽如人意。因此，近年来，为了解决遥感图像分割中的四个主要问题，即获取空间信息、重构边缘细节、建立全局关系以及设计轻量化架构，不断发展了针对遥感图像的深度学习语义分割方法，其中包括基于CNNs的模型和基于Transformer的模型。

基于CNNs结构的网络常常被用于图像分割任务中，CNNs结构简单，训练速度较快，且可以处理大量的数据。此外，CNNs可以通过使用池化、卷积、注意力机制等技术，来提高模型的准确性。然而，由于CNNs只能捕捉局部的图像特征，因此在处理一些全局的信息时，可能存在不足。因此，CNNs模型在一定程度上解决了空间信息提取、边缘重构、轻量化设计等问题；然而，全局关系的建立远未解决。

随着Transformer在计算机视觉中的应用越来越多，它也逐渐在遥感图像语义分割中得到了应用。Transformer结构具有全局注意力机制，可以捕捉到全局的上下文信息，并且不受卷积核大小的限制。这使得Transformer在处理遥感图像语义分割中能够更好地理解图像的全局信息。Transformer架构擅长建立全局关系，因为基于注意力机制的设计构成了基本的Transformer单元，但在提取局部信息方面不太健壮。

综上所述，基于CNNs架构的分割模型通常是由基础卷积神经网络和特征提取、聚合策略构成，在一定程度上解决了多尺度信息提取、边缘增强、高效分割等问题。但是随着图像的分辨率增大，网络模型参数量激增，基于CNNs架构的模型在语义分割任务上将会达到一个阈值。相反Transformer却能够不断提高性能，在于它具有全局自注意力机制，可以捕捉到全局的上下文信息，并且不受卷积核大小的限制，在处理遥感图像语义分割中能够更好地理解图像的全局信息。但是庞大的计算开销限制其在高分辨率遥感图像语义分割领域的发展。

发明内容

本发明针对现有技术中存在的传统图像处理算法在进行高分辨率遥感图像语义分割时，特征设计的复杂性、大规模数据的处理困难、复杂多变的场景、算法的适应性差等的技术问题。

本发明提供了一种分层次Transformer的高分辨率遥感图像语义分割方法，包括以下步骤：

S1，获取原始遥感影像，进行初步处理得到统一大小的高分辨率遥感图像；

S2，数据预处理构建样本集；

S3，搭建分层次高效Transformer的高分辨率遥感图像语义分割模型；

S4，对高分辨遥感图像语义分割模型按照预先设定好的训练方案进行训练，得到改进模型；

S5，将需要进行分割处理的高分遥感图像按固定尺寸裁切后加载到改进模型中实现快速分割。

优选地，所述S1具体包括：

S11，使用无人机搭载的高分辨率遥感传感器对预定地面进行扫描和拍摄，获取得到原始遥感影像；

S12，对原始遥感影像进行图像校正、拼接、去噪，以生成高质量的高分辨率遥感图像；

S13，对部分高分辨率遥感图像数据集进行人工目视标注，用以提高模型在采集数据集样本下的泛化能力；

S14，将高分辨率遥感数据集图像进行大小统一，将原图和对应标签裁剪为512×512大小以适应网络输入。

优选地，所述S2具体包括：

S21，为了方便训练，对处理过的所有图像进行归一化处理；

S22，使用one-hot编码为标签的每个像素类别进行向量化编码；

S23，采用空间数据增强方式对图像进行增强得到数据集；

S24，按照3:1:1将数据集划分为训练集、验证集和测试集。

优选地，所述S3具体包括：

S31，搭建一个轻量化设计的主干网络，上面是一个多尺度特征聚合分割头，下面是于主干对应连接的残差轴向注意力块(ResidualAxial Attention，RAA)，主干网络包括四个阶段，每个阶段包含一个卷积嵌入块(Convolutional tokens Embedding，ConvS2)和一个EST块(ESwin Transformer Blocks)；

S32，将H×W×3的图像输入主干网络中以建立全局关系，其中，H和W是输入的尺寸，3是代表RGB三个通道。

S33，卷积嵌入块在每个阶段之前调整特征分辨率以生成具有合适分辨率的特征；EST块采用轻量化的自注意力设计来减少参数量，通过线性嵌入层将输入尺寸缩小一半,然后经过自注意力计算、层归一化(LN)、多层向量感知(MLP)，保持分辨率不变，输入到下一个阶段；重复步骤S33总共4次在四个阶段分别输出(C₁，C₂，C₃，C₄)；

S34，使用深度可分离卷积(DWConv)分别对(C1，C2，C3，C4)进行分层多尺度特征聚合，C4经过PPM模块上采样与各层特征进行矩阵相加；然后经过3×3卷积将各层分辨率都映射到

得到不同层特征融合图，通过Concat进行跨通道叠加，输入到1×1卷积中进行通道合并；

S35，采用残差轴向注意力机制方法来弥补边缘损失。即将注意力机制分解为两个注意力模块，第一个注意力模块在特征图高度轴上执行自注意力，第二个注意力模块在宽度轴上运行；

S36，将Uperhead分割头与RAA结果进行concat融合，送入1×1卷积进行通道合并，最后经过softmaxt归一化处理，得到目标类别的预测值，组合成预测分割图，用以评价分割性能。

优选地，所述S32具体包括：

首先利用卷积嵌入块将图像分割成若干个4H×4W×C的窗口，并将其展平成长度为4×4×3＝48的序列；

然后经过线性嵌入层将特征维度从48映射到C，并将特征馈送到EST块以建立全局关系。

优选地，所述S33具体包括：

S331，使用步长为2的3×3卷积将大小为

特征图，映射到/>

完成了特征图的下采样过程；

S332，EST块采用轻量化的自注意力设计来减少参数量，通过线性嵌入层将输入尺寸(H×W)映射到(H’×W’),然后经过投影+变形+相乘、层归一化(LN)、多层向量感知(MLP)，保持分辨率不变，输入到下一个阶段；

重复上述步骤，在四个阶段分别输出(C1，C2，C3，C4)，对应尺度为

优选地，所述S35具体包括：

对于竖直条纹轴(高度轴)向注意力，X被均匀地划分为等宽度sw的非重叠水平条纹[X ¹,..,X ^M]，并且每个条纹包含(sw×W)个tokens，其中sw是条带宽度；

经过竖直轴(高度轴)注意力特征后将特征图重新进行合并，输入进水平轴(宽度轴)注意力进行水平方向的特征聚合，只需对进行水平划分。

本发明还提供了一种分层次Transformer的高分辨率遥感图像语义分割，所述***用于实现如前所述的分层次Transformer的高分辨率遥感图像语义分割方法，包括：

图像获取模块，用于获取原始遥感影像，进行初步处理得到统一大小的高分辨率遥感图像；

数据预处理模块，用于数据预处理构建样本集；

模型建立模块，用于搭建分层次高效Transformer的高分辨率遥感图像语义分割模型；

模型训练模块，用于对高分辨遥感图像语义分割模型按照预先设定好的训练方案进行训练，得到改进模型；

语义分割模块，用于将需要进行分割处理的高分遥感图像按固定尺寸裁切后加载到改进模型中实现快速分割。

本发明还提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现分层次Transformer的高分辨率遥感图像语义分割方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如前所述的分层次Transformer的高分辨率遥感图像语义分割方法的步骤。

有益效果：本发明提供的一种分层次Transformer的高分辨率遥感图像语义分割方法及***，其中方法包括：获取原始遥感影像，进行初步处理得到统一大小的高分辨率遥感图像；数据预处理构建样本集；搭建分层次高效Transformer的高分辨率遥感图像语义分割模型；对高分辨遥感图像语义分割模型按照预先设定好的训练方案进行训练，得到改进模型；将需要进行分割处理的高分遥感图像按固定尺寸裁切后加载到改进模型中实现快速分割。通过设计轻量化高效的Transformer块作为主干网络，能够减少模型计算开销，并获得有效的全局特征映射。对主干网络添加注意力机制、多尺度特征聚合策略；用以增强对不同尺度大小目标类分辨，提高边界精细度，从而取得更好的综合性能。

附图说明

图1为本发明提供的一种分层次Transformer的高分辨率遥感图像语义分割方法流程图；

图2为本发明提供的分层次Transformer的高分辨率遥感图像语义分割方法原理图；

图3为本发明提供的高效主干结构图；

图4为本发明提供的Uperhead多尺度特征聚合模块图；

图5为本发明提供的残差轴向注意力图；

图6为本发明提供的一种可能的电子设备的硬件结构示意图；

图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图；

图8为本发明提供的Swin transformer主干结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明提供的一种分层次Transformer的高分辨率遥感图像语义分割方法，包括：

S1，获取原始遥感影像，进行初步处理得到统一大小的高分辨率遥感数据集图像。一般通过无人机自主获取数据，先要进行人工手动标注，然后进行数据裁剪，裁剪到模型输入大小512×512。

S2，数据预处理构建样本集。通用数据集预处理，包括数据分类、裁切、增强等。

S3，搭建分层次高效transformer的高分辨率遥感图像语义分割模型。

S4，对高分辨遥感图像语义分割模型按照预先设定好的训练方案进行训练。训练时的高分辨遥感图像语义分割模型的输入为512×512大小的高分辨遥感裁剪图，输出为与输入图相同大小的最终分割图。

S5，将训练好的模型搭载到pc端上，pc端接收需要进行分割处理的高分遥感图像，将图按固定尺寸裁切后加载到模型中，模型对输入图像实现快速分割。

本方案解决了四个问题，以实现对高分辨率遥感图像的精细分割。具体内容概括如下：

提出一种Transformer与CNN融合语义分割模型，采用Transformer块进行特征提取、CNN的注意力机制和多尺度聚合策略来实现全局到局部的特征融合。提出了轻量级的Efficient Transformer主干网，以减少SwinTransformer的计算量，加快推理速度。引入多尺度特征聚合网络作为分割头，增强图像目标类别像素分类性能。将残差轴向注意力融入分层网络，以处理Transformer架构中的对象边缘提取问题。

如下表1所示给出了在Vaihingen和Potsdam通用高分辨率遥感图像上分割指标对比：

优选的方案，步骤S1具体包括一下步骤

S11，使用无人机搭载的高分辨率遥感传感器对预定地面进行扫描和拍摄，获取得到原始遥感影像。

S12，进行数据初步处理，包括图像校正、拼接、去噪等，以生成高质量的高分辨率遥感图像。

S13，对部分高分辨率遥感图像数据集进行人工目视标注，用以提高模型在采集数据集样本下的泛化能力。

优选的方案S2具体包括以下步骤：

S21，为了方便训练，对处理过的所有图像进行归一化处理。

S22，使用one-hot编码为标签的每个像素类别进行向量化编码。

S23，采用空间数据增强方式对图像进行增强得到数据集，包括不同角度的随机旋转(90°、180°、270°、360°)和垂直或水平的随机镜像翻转。

S24，按照3:1:1将数据集划分为训练集、验证集和测试集。

优选的方案，步骤S3具体包括以下步骤：

S31，为了更高效地处理大量的特征提取，本文提出了高效的分层视觉转换器(Efficient Swin TransformerBlock)，为了方便介绍以下简称ESWin，其中包含卷积操作进行分阶段降低特征图像分辨率，以获取更多的空间信息。搭建分层次高效transformer的高分辨率遥感图像语义分割模型，如图2所示。该模型主要包含一个轻量化设计的主干网络(四个级联的EST块(ESwin Transformer Blocks))、上面是一个多尺度特征聚合分割头、下面是于主干对应连接的残差轴向注意力(Residual Axial Attention，RAA)块。EST模块结构图如图3所示，共有四个阶段，每个阶段的块数(N₁,N₂,N₃,N₄)分别为(2，2，2，2)，其中每个阶段包含一个卷积嵌入块(ConvS2)和一个EST块。

S32，给定一个H×W×3的图像(3代表RGB通道)输入主干网络中。如图3所示，首先利用卷积嵌入(Convolutional tokens Embedding，Conv S2)块将图像分割成若干个(4H)×(4W)×C的窗口，并将其展平成长度为4×4×3＝48的序列。因此，原来的H×W分辨率变为

并且维度从3变为48。然后，经过线性嵌入层将特征维度从48映射到C，并将特征馈送到ESwin Transformer Blocks(EST块)以建立全局关系。

S33，对两个块分别进行处理，过程如下：

S331，卷积嵌入块在每个阶段之前调整特征分辨率以生成具有合适分辨率的特征。具体是使用步长为2的3×3卷积将大小为

特征图，映射到/>

完成了特征图的下采样过程。其中size缩小为原来的一半，通道扩大为原来的2倍。

S332，EST块采用轻量化的自注意力设计来减少参数量，通过线性嵌入层(LinearEmbedding)将输入尺寸(H×W)映射到(H’×W’),然后经过自注意力计算(投影+变形+相乘)、层归一化(LN)、多层向量感知(MLP)，保持分辨率不变，输入到下一个阶段。

重复上述步骤，在四个阶段分别输出(C₁，C₂，C₃，C₄)，对应尺度为

本实施例的编码器与ViT[]不同，在给定输入图像的情况下生成多级多尺度特征，实现了分层特征表示。这些特征层提供了高分辨率的粗特征和低分辨率的细粒度特征，可以提高语义分割的性能。具体来说，给定大小为H×W×3的输入图像，执行步幅为2的卷积生成分层特征图Fi，分辨率为

其中i∈{1,2,3,4},Ci+1大于Ci，代表通道数逐层扩张。

S34，UPerhead结构如图4所示，使用深度可分离卷积(DWConv)分别对(C₁，C₂，C₃，C₄)进行分层多尺度特征聚合，C₄经过PPM模块上采样与各层特征进行矩阵相加，然后经过3×3卷积将各层分辨率都映射到

得到不同层特征融合图，通过Concat进行跨通道叠加。输入到1×1卷积中进行通道合并。

如图4所示，语义分割模型通常由主干和分割头组成。骨干网络用于从图像中提取特征，以便模型可以区分不同的像素类别。分割头将从主干中提取的特征映射到特定的分类类别，并将下采样的特征恢复为输入图像的分辨率。

Uperhead的提出是为了解决语义分割任务中，纹理和类别的重要性不同而产生的问题。在这项任务中，纹理和类别对于区分不同对象同样重要，因此需要融合不同阶段的特征图以提高模型的性能。与此同时，Uperhead也借鉴了UperNet的思想，即使用不同分辨率的特征对不同字符敏感，从而提高模型对不同类别的区分能力。

Uperhead的整个过程包括金字塔池化模块(PPM)、级联添加架构和融合块。在PPM模块中，使用不同池化尺度(1、2、3、6)的全局池化来获取不同感受野的信息，从而增强模型对不同类别的区分能力。接着，C4特征图通过PPM后变成了特征图F4。级联添加架构通过逐步加法操作来融合不同阶段的输出。具体来说，它将F4(1/32)上采样并添加到输入C3(1/16)以获得融合特征F3(1/16)，然后通过相同的操作获得F2(1/8)和F1(1/4)。这种逐步添加的方法可以确保不同分辨率的特征图能够得到有效融合，从而提高模型的性能。最后，融合块将F1、F2、F3和F4的特征图融合在一起，生成具有1/4分辨率的融合特征。这些特征经过卷积层进行维度映射，得到最终的分割图。这个过程中，使用了级联加法架构和金字塔池化模块来融合不同分辨率的特征图，使模型能够更好地理解对象的纹理和类别，从而提高分割的准确率和鲁棒性。

经过实验对比，Uperhead的提出使语义分割任务中的特征融合更加高效和准确。它使用了不同池化尺度的全局池化和逐步加法操作来融合不同分辨率的特征图，从而使模型能够更好地理解对象的纹理和类别。

S35，采用残差轴向注意力机制方法来弥补边缘损失。RAA与主干块分层对应，使用双线性插值上采样使每个块级联起来，能够增强骨干网络的边界约束，弥补局部的空间上下文信息为了克服计算复杂性。注意力机制被分解为两个attention模块。第一个模块在特征图高度轴上执行自注意力，第二个模块在宽度轴上运行。具体步骤如下：

参考图5，对于竖直条纹轴向注意力(Height-AxisAAttention)，X被均匀地划分为等宽度sw的非重叠水平条纹[X 1,..,XM]，并且每个条纹包含(sw×W)个tokens。这里，sw是条带宽度，可以手动调整以平衡学习能力和计算复杂度。那么竖直条纹注意力的输出定义为：

X＝[X¹,X²,…X^M]；

Zⁱ＝Attention(XⁱW^Q,XⁱW^K,XⁱW^V),

H_attention＝[Z¹,Z²,…,Zⁱ]

其中i＝1,2,…M；FC代表线性映射；W^Q,W^K,W^V分别代表X投影的查询、键、值的权重；Zⁱ表示第i个竖直条纹的注意力图输出值。

经过竖直轴(高度轴)注意力特征后将特征图重新进行合并，输入进水平轴(宽度轴)注意力(Width-Axis Attention)进行水平方向的特征聚合，只需对进行水平划分，后面过程同竖直轴注意力求解。

在语义分割任务中很难识别边缘。首先，很难准确标记边目标类别的边界像素。其次，在遥感图像获取过程中，相机与地面物体存在相对运动，导致物体产生一定的畸变问题。为了解决这个问题，提出了用残差轴向注意力机制(为方便介绍下文使用ARR代替)来对特征图进行边界增强，从而进一步提高高分辨率遥感图像的分割精度。图5给出了残差轴向注意力的作用原理图。

在常用的空间注意力机制作用下，要得到这个目标像素点的上下文关系，需要计算整幅图像的注意力关系，所以计算复杂度是输入图像大小的二次复杂度。为了克服计算的计算复杂性，RAA被分解为两个模块，分别是一个模块特征图垂直轴模块和水平轴模块上执行自注意力。最后通过残差连接将输入特征图和注意力输出特征合并得到模块的最终的输出。而在ARR中，采用了一种特殊的注意力设计设计，将一个交叉区域在水平和垂直方向上拆分为两个条状区域，注意力在这两个条状区域分别计算。计算过程如下：

给定输入张量

其中H，W，C分别代表输入特征图的高度、宽度和通道维度。首先经过卷积核大小为1×1的卷积将通道映射到/>

然后将

进行竖直条状划分，/>

是可调的宽度，将/>

在垂直方向分成N个条状区域则/>

其中每个位置o(i，j)出的输出为Y_o，在竖直方向上的注意力计算用数学表达式展示为：

其中查询项q_o＝W^Qx_o、键项k_o＝W^Kx_o、值项V_o＝W^Vx_o都是输入

的线性变换，W^Q和W^K的形状为/>

W^V的形状为/>

(在实际中d_q和d_out要比/>

小得多)他们都是可以学习的权重参数矩阵。softmaxx_p表示在条状区域/>

所有位置上使用softmax函数。因此很容易将一个条状区域扩展到整个特征图上：

具体实现是将多个条状注意力进行并行的运算，对输入x_o(i,j)；即有

然后将多个通道的输出concat起来得到竖直方向注意力的最终输出：/>

然后进行水平轴方向注意力机制计算时，只需要将切分方向调整便可容易得到水平轴注意力的输出：

Y＝Conv(Y_W，Ckernez_size＝1)+X#

Y_W中已经包含了竖直方向的注意力掩码，最终经过1×1的卷积将通道还原到输入大小C，经过残差连接获得ARR的最终输出结果Y。应用高度和宽度轴的轴向注意力有效地模拟了地物目标的空间线性关系，具有更好的计算效率。经过实验验证，高效的残差轴向注意力机制更加侧重局部的边界对齐，设计上也降低了计算成本，这表明RAA是一种更高效的设计。

具体的方案，残差轴向注意力详细计算过程如下所示：

给定输入张量

然后将

进行竖直条状划分，/>

是可调的宽度，将/>

在垂直方向分成N个条状区域则/>

其中每个位置o(i,j)出的输出为Y_o，在竖直方向上的注意力计算用数学表达式展示为：

的线性变换，W^Q和W^K的形状为/>

W^V的形状为/>

(在实际中d_q和d_out要比/>

具体实现是将多个条状注意力进行并行的运算，对输入x_o(i，j)；即有

Y＝Conv(Y_W，C，kernel_size＝1)+X#

Y_W中已经包含了竖直方向的注意力掩码，最终经过1×1的卷积将通道还原到输入大小C，经过残差连接获得ARR的最终输出结果Y。

其中，Swin transformer主干的结构如图8所示。整体框架由一个切片分块(PatchPartition)模块和四个级联阶段组成，以产生四个分辨率输出。stage1包含线性嵌入(Linear Embedding)和两个SwinTransformer块，其余阶段包含一个切片重组(PatchMerging)模块和每个阶段中的偶数块(例如，×2)。每两个块由一个窗口多头自注意(W-MSA)块和一个移位窗口多头自注意(SW-MSA)块组成，用于计算全局注意力。具体的W-MSA块包含层规范化(LN)、W-MSA模块和多层感知器(MLP)。LN对特征进行归一化处理，使训练过程更加稳定，W-MSA和SW-MSA用于计算像素间的注意力关系，MLP包含大量可学***成长度为4×4×C＝16C的序列。因此，原来的H×W分辨率变为/>

并且维度从C变为16C。然后，线性嵌入层将特征图片维度从16C映射到Cin，并将特征图发送到Swin TransformerBlocks以建立全局关系。PatchMerging在每个阶段之前调整特征分辨率以生成具有合适分辨率的特征。

图8显示了Swintransformer微型版本，每个阶段分别有2、2、6、2个块。通过调整每个阶段的块数和改变维度C的值，文中提供了四个版本的Swintransformer，即tiny、small、base和large，缩写为Swin-T、Swin-S、Swin-B、和Swin-L，表示模型的规模由小变大。Swintransformer的具体创新设计是窗口自注意力机制(W-MSA)，相比于传统自注意力机制(MSA)在整个H×W图像尺寸上计算关系，W-MSA在多个7×7大小窗口尺寸上计算注意力关系，大大减少了计算量。然而，这样的过程也减少了感受野，不利于大物体的分割。因此，Swin transformer增添了另一种巧妙的设计，使用移动窗口自注意力(SW-MSA)来解决这个问题(如图3所示)。通过对两个transformer块之间的特征图进行划分合并，将局部感受野扩展到全局感受野。Swin transformer共有四个阶段，在每一阶段的PatchMerging层进行

空间下采样，其中四个输出C1，C2、C3和C4表示不同的分辨率：分别为/>

和/>

这些不同尺度的输出具有从小到大不同的感受野因此，它们分别对不同大小的物体敏感。

为了方便介绍，接下来采用ESWin缩写代替Efficient Swin transformer。详细的模型结构如图3所示，与Swin transformer结构相比，存在四个不同点。

1)使用卷积运算进行切片初始化组合代替Swin transformer中Patch Partition操作。通过卷积核为7×7，步长为4的卷积层将输入H×W×3(3代表RGB通道)大小的图片被分成4×4个大小为

的窗口，用于提取每个窗口的局部特征和位置信息，然后将通道数从3映射到C输入到ESWin块中。

2)在每个transformer块之前，使用大小为3×步幅为2的卷积(Conv S2)来进行切片重组和对特征图进行下采。具体是将上层特征图分辨率下降一半，而通道数变为原来的2倍。

3)在每个ESWin块中，使用一个隧深卷积(DWConv)进行位置嵌入来学习每个像素的位置信息，取代原Swintransformer中的相对位置嵌入。

4)使用输入大小为h'×w'的更轻的ESWin块，应用全连接层(FC)进行降维和矩阵乘法计算注意力关系，LN和MLP采用传统的transformer设计。

通过应用这种结构，ESWin可以达到与Swin transformer相当的精度，但计算复杂度较低。接下来将详细介绍ESWin模块。

在计算机视觉中应用transformer结构的挑战性问题之一是高计算负荷。一个自注意块的计算复杂度可以表示为：

Ω_MSA＝4HWC²+2(HW)²C#

其中C代表特征图的维度，一般在几十到几百之间。由上式可知，自注意力机制的计算复杂度主要由图像的大小，其计算复杂度是图像尺寸的平方，训练自注意力模块需要巨大的计算开销。在保证精度的情况下，如何针对图片的输入大小进行有效的压缩成为轻量化设计该结构的首选，因此，Swintransformer将一张H×W大小的图像分成M×M个切片(patches)，经过切割后最终的计算复杂度变表示为：

Ω_W-MSA＝4HWC²+2M²HWC#

通过简单的手工设计将二次复杂度转化成线性复杂度。

但是进行高分辨率遥感图像语义分割任务时，由于数据集本身尺度较大，为了保护空间信息连贯性和大目标类样本的完整性，需要尽可能大的输入图像来提高分割精度，因此M的大小设定被限制在一定的范围内。为了进一步提高高分辨率遥感影像的分割的分割效率，本文介绍的ESWin的注意力机制(如图3所示)将H×W大小的输入通过映射到更小的h′×w′来建立局部和全局注意力关系，从而大大减少计算量。当h′×w′足够小时，ESWin会比Swin transformer更加高效的进行训练，但性能也会受到一定影响；经过实验效果对比，本文将h'和w'设置为

和/>

以在性能和效率之间获得最好的权衡。此外，当分割任务相对容易时，为避免过拟合问题和减少计算资源消耗，可以进一步减少每个阶段ESWi n的块数和降低通道维度C，使得模型几乎可以在不损失精度的情况下降低模型的复杂度。本文的ESWi n的注意力计算复杂度可以表示为:/>

此外，在分割任务相对容易时，可以进一步减少C的块数和维数，从而降低模型复杂度、避免过拟合问题并减少计算资源的消耗。实验结果表明，在不损失精度的情况下，该方法可以显著降低模型复杂度。

本发明实施例还提供了一种分层次Transformer的高分辨率遥感图像语义分割，所述***用于实现如前所述的分层次Transformer的高分辨率遥感图像语义分割方法，包括：

数据预处理模块，用于数据预处理构建样本集；

请参阅图6为本发明实施例提供的电子设备的实施例示意图。如图6所示，本发明实施例提了一种电子设备，包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311，处理器1320执行计算机程序1311时实现以下步骤：S1，获取原始遥感影像，进行初步处理得到统一大小的高分辨率遥感图像；

S2，数据预处理构建样本集；

请参阅图7为本发明提供的一种计算机可读存储介质的实施例示意图。如图7所示，本实施例提供了一种计算机可读存储介质1400，其上存储有计算机程序1411，该计算机程序1411被处理器执行时实现如下步骤：S1，获取原始遥感影像，进行初步处理得到统一大小的高分辨率遥感图像；

S2，数据预处理构建样本集；

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种分层次Transformer的高分辨率遥感图像语义分割方法，其特征在于，包括以下步骤：

S2，数据预处理构建样本集；

2.根据权利要求1所述的分层次Transformer的高分辨率遥感图像语义分割方法，其特征在于，所述S1具体包括：

3.根据权利要求1所述的分层次Transformer的高分辨率遥感图像语义分割方法，其特征在于，所述S2具体包括：

S21，为了方便训练，对处理过的所有图像进行归一化处理；

S22，使用one-hot编码为标签的每个像素类别进行向量化编码；

S23，采用空间数据增强方式对图像进行增强得到数据集；

S24_，按照3:1:1将数据集划分为训练集、验证集和测试集。

4.根据权利要求1所述的分层次Transformer的高分辨率遥感图像语义分割方法，其特征在于，所述S3具体包括：

S31，搭建一个轻量化设计的主干网络，上面是一个多尺度特征聚合分割头，下面是主干对应连接的残差轴向注意力块(Residual Axial Attention，RAA)，主干网络包括四个阶段，每个阶段包含一个卷积嵌入块(Convolutional tokens Embedding，Conv S2)和一个EST块(ESwin Transformer Blocks)；

S32，将H×W×3的图像输入主干网络中以建立全局关系，H和W是输入的尺寸，3是代表RGB三个通道；

S35，采用残差轴向注意力机制方法来弥补边缘损失；

5.根据权利要求4所述的分层次Transformer的高分辨率遥感图像语义分割方法，其特征在于，所述S32具体包括：

6.根据权利要求4所述的分层次Transformer的高分辨率遥感图像语义分割方法，其特征在于，所述S33具体包括：

S331，使用步长为2的3×3卷积将大小为

特征图，映射到/>

完成了特征图的下采样过程；

7.根据权利要求4所述的分层次Transformer的高分辨率遥感图像语义分割方法，其特征在于，所述S35具体包括：

对于竖直条纹轴(高度轴)向注意力，X被均匀地划分为等宽度sw的非重叠水平条纹[X¹,..,X ^M]，并且每个条纹包含(sw×W)个tokens，其中sw是条带宽度；

8.一种分层次Transformer的高分辨率遥感图像语义分割，其特征在于，所述***用于实现如权利要求1-7任一项所述的分层次Transformer的高分辨率遥感图像语义分割方法，包括：

数据预处理模块，用于数据预处理构建样本集；

9.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的分层次Transformer的高分辨率遥感图像语义分割方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的分层次Transformer的高分辨率遥感图像语义分割方法的步骤。