CN114419449B - 一种自注意力多尺度特征融合的遥感图像语义分割方法 - Google Patents

一种自注意力多尺度特征融合的遥感图像语义分割方法 Download PDF

Info

Publication number
CN114419449B
CN114419449B CN202210308387.1A CN202210308387A CN114419449B CN 114419449 B CN114419449 B CN 114419449B CN 202210308387 A CN202210308387 A CN 202210308387A CN 114419449 B CN114419449 B CN 114419449B
Authority
CN
China
Prior art keywords
feature
module
swin
scale
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210308387.1A
Other languages
English (en)
Other versions
CN114419449A (zh
Inventor
符颖
郭丹青
文武
吴锡
周激流
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202210308387.1A priority Critical patent/CN114419449B/zh
Publication of CN114419449A publication Critical patent/CN114419449A/zh
Application granted granted Critical
Publication of CN114419449B publication Critical patent/CN114419449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种自注意力多尺度特征融合的遥感图像语义分割方法,所述分割网络包括特征编码器和解码器,特征编码器将前三个阶段不同尺度大小的特征图传递给解码器中对应的自注意力多尺度特征融合模块,解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加,逐步进行直到和第一阶段的特征图尺度一样,最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类,并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果,本发明方法能够有效融合不同尺度的遥感语义特征,提升分割性能。

Description

一种自注意力多尺度特征融合的遥感图像语义分割方法
技术领域
本发明涉及遥感图像处理领域,尤其涉及一种自注意力多尺度特征融合的遥感图像语义分割方法。
背景技术
随着遥感影像技术的不断发展,针对遥感图像的处理变得越来越重要,语义分割就是其重要的研究方向之一。不论是自然图像还是遥感图像,语义分割都是在像素级别进行分类,为每一个像素分配一个标签。相较于自然图像,遥感图像具有分辨率高、内容复杂和物体尺度差异较大,并且由于其图像内容复杂以至于实际应用时对分割精度要求更高。随着近年来深度学习在计算机视觉领域大放异彩,不断有研究人员将深度学习技术应用于遥感图像语义分割,其结果也证明深度学习在遥感图像语义分割上效果也优于大部分传统方法并逐渐成为遥感语义分割的主流方法。最开始应用于遥感图像语义分割的深度学习方法大多是基于卷积神经网络的,其中最经典的是端到端的用于图像语义分割的全卷积网络,其总体思想是将全连接层替换为卷积层,使用1*1卷积计算图像中每个类别的分数实现像素级别的预测,由于全卷积网络是对最后一个卷积层的特征图直接上采样至原图大小,导致其分割边缘不完整、精度较低。
为了更好的将特征图恢复到原图大小,有人提出基于编解码器架构的语义分割网络U-Net,它是一个U形的对称结构,由提取特征的编码器和恢复尺度的解码器组成,为了提高对物体边缘特征的提取能力在解码器中加入了跳跃连接来进一步融合编码器提取的特征,这些改进使得U-Net在训练样本较少的情况下也能取得较好的分割精度和鲁棒性。基于卷积神经网络的语义分割模型通常需要不断的下采样来获取更大的感受野,但是不断的下采样又会引起图片分辨率变小导致位置信息丢失。为了解决这个问题,在VGG16的基础上提出了带有空洞卷积和条件随机场的语义分割网络DeepLab,所提出的空洞卷积可以在保持分辨率不变的情况下增大感受野使得分割精度更高。
随着Google在2016年提出的Transformer模型在自然语言处理领域取得了惊世骇俗的效果后,Self Attention和Transformer开始被研究人员所熟悉。正是由于Transformer在自然语言处理上个取得的显著成绩和其强大的建模能力,特别是在全局信息处理上的优秀表现使得研究人员开始尝试将其应用到计算机视觉领域。
现有技术方案存在的不足:
1、在对内容背景复杂的遥感图像提取语义信息时能力不足
传统的卷积神经网络提取语义信息的能力有限,面对内容背景复杂的遥感图像,不能有效提取语义分割需要的关键信息,很大程度影响了分割的效果。
2、在进行特征融合时没有考虑到不同尺度特征之间的相关性
由于遥感图像中物体尺度差异大,很多中小尺度的物体的语义信息没能传递到深层网络中,严重影响了分割结果。以往方法在使用多特征融合时只是从上往下进行简单的叠加,没有考虑到不同尺度之间的相关性,没能较好的利用多尺度语义信息。
3、在物体分布不均的遥感图像数据集中泛化能力差
遥感图像因拍摄地区的差异,内容复杂并且分布不均,以往方法只对城市、乡村某个场景的遥感图像语义分割较好,泛化能力较差。
发明内容
针对现有技术之不足,一种自注意力多尺度特征融合的遥感图像语义分割方法,特征编码器将四个阶段不同尺度大小的特征图传递给解码器,解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加,逐步进行直到和第一阶段的特征图尺度一样,最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类,并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果,所述方法能够有效融合不同尺度的遥感语义特征,提升分割性能,具体步骤包括:
步骤1:构建遥感语义分割网络,所述分割网络包括特征编码器和解码器,预先在ImageNet数据集上训练Swin-T网络,将训练后的Swin-T网络作为编码器,采用自注意力多尺度特征融合的金字塔结构网络作为解码器;
步骤2:所述特征编码器包括依次连接的Swin-T四个模块,具体为Swin-T第一模块、Swin-T第二模块、Swin-T第三模块、Swin-T第四模块,所述Swin-T四个模块依次对输入遥感图像进行特征采集,最后得到四个不同尺度大小的特征图,并传递给解码器;
步骤3:所述解码器包括三个自注意力多尺度特征融合模块,具体为第一特征融合模块、第二特征融合模块、第三特征融合模块,将所述Swin-T第一模块、所述Swin-T第二模块、所述Swin-T第三模块生成的特征图均输入到所述三个特征融合模块中,所述三个特征融合模块根据当前阶段的尺度和通道数进行特征融合,具体为:
步骤31:所述第一特征融合模块以Swin-T第一模块生成的特征图尺度和通道数为标准,将Swin-T第二模块生成的特征图进行2倍上采样、通道数减半的操作,将Swin-T第三模块生成的特征图进行4倍上采样、通道数降为1/4的操作;
步骤32:所述第二特征融合模块以Swin-T第二模块生成的特征图尺度和通道数为标准,将Swin-T第一模块生成的特征图经过特征调整模块进行通道数和尺度的处理,将Swin-T第三模块生成的特征图进行2倍上采样、通道数减半的操作;
步骤33:所述第三特征融合模块以Swin-T第三模块生成的特征图尺度和通道数为标准,将所述Swin-T第一模块和所述Swin-T第二模块生成的特征图经过特征调整模块进行通道数和尺度的处理;
步骤4:所述特征融合模块还包括计算注意力模块,将所述每个特征融合模块中调整后的三个特征图做全局平均池化,将池化后的特征图拼接起来计算自注意力,然后将计算自注意力的结果按照相同的方式拆分得到三个相关性分数,将所述三个相关性分数与各自全局池化前的特征图相乘,最后把相乘后的特征图在通道维度拼接并调整通道数和当前阶段通道数一致;
步骤5:对每个像素进行预测分类,具体为:
如图1所示,将Swin-T第四模块生成的特征图进行二倍上采样后与第三特征融合模块输出的特征图进行叠加,将第三特征融合模块叠加后的特征图进行二倍上采样后与第二特征融合模块输出的特征图进行叠加,将第二特征融合模块叠加后的特征图进行二倍上采样后与第一特征融合模块输出的特征图进行叠加,将三个叠加后的特征图和所述Swin-T第四模块生成的特征图均上采样至原图大小后对每个像素进行预测分类,最后将四个尺度的预测结果进行融合得到最终的遥感语义分割结果。
根据一种优选的实施方式,所述特征调整模块的工作方式具体为:对输入特征图进行2*2的最大池化,更好的保留了大尺度特征图的主要特征,再使用1*1卷积调整通道数,接着使用两个3*3卷积对特征进行选择提取,并使用残差连接避免梯度***和消失,加快网络收敛。
根据一种优选的实施方式,步骤5还包括:进行分割预测时也采用多尺度策略,将输入遥感图像以0.5、0.75、1.0、1.25、1.5、2.0的比例变换尺度进行分割预测,最后将所有尺度下的分割结果叠加。
本发明的有益效果在于:
1、本发明所提出的自注意力多尺度特征融合模块能有效融合不同尺度之间的特征,对背景内容复杂的遥感图像能提取到有用的语义特征,在背景复杂、物体尺度多变和分布不均匀的遥感图像语义分割上能取得较好的分割结果。
2、本发明所提出的特征调整模块,能够有效的将大尺度特征传递到注意力多尺度特征融合模块,更好的保留了大尺度特征图的主要特征,提高了分割精度。
3、考虑了不同尺度特征图之间存在相关性,我们使用自注意力来计算这种相关性,得到的相关性分数可以理解为权值,充分考虑了不同尺度特征之间的相关性,在遥感图像语义分割中能提高对尺度差异较大的物体的分割精度,特别是建筑、水体类。
附图说明
图1是本发明语义分割网络的结构示意图;
图2是本发明自注意力多尺度模块的一种结构示意图;
图3是特征调整模块的结构图;
图4是实验结果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
第一阶段的Swin-T网络代表Swin-T第一模块。
第二阶段的Swin-T网络代表Swin-T第二模块。
第三阶段的Swin-T网络代表Swin-T第三模块。
第四阶段的Swin-T网络代表Swin-T第四模块。
Swin-Transformer有四类规模(swin-t、swin-b、swin-s、swin-l),结构都相同,差别是在参数设置上,网络规模大小不同。swin-t是swin-transformer中规模最小的一种,另外swin-transformer包含四个swin-transformer-block,也就是阶段一至阶段四.
下面结合附图进行详细说明。
本发明主要解决遥感图像内容复杂、物体尺度差异较大和分布不均匀等因素导致语义分割不完整、准确率低的问题,提出一种自注意力多尺度特征融合的遥感语义分割方法,特征编码器将三个阶段不同尺度大小的特征图传递给解码器,解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加,逐步进行直到和第一阶段的特征图尺度一样,最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类,并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果,方法能够有效融合不同尺度的遥感语义特征,提升分割性能。图1是本发明语义分割网络的结构示意图,如图1所示,本发明具体步骤包括:
步骤1:构建遥感语义分割网络,分割网络包括特征编码器和解码器,预先在ImageNet数据集上训练Swin-T网络,将训练后的Swin-T网络作为编码器,采用自注意力多尺度特征融合的金字塔结构网络作为解码器。具体的,使用在ImageNet上经过预训练的Swin-T模型作为特征提取器,将提取的1/4、1/8、1/16原图大小的特征图传递给自注意力多尺度特征融合模块进行融合处理。在训练过程中,将原图随机变换尺度大小为0.5、0.75、1.0、1.25、1.5、2.0来进行多尺度增强。
步骤2:特征编码器包括依次连接的Swin-T四个模块,具体为Swin-T第一模块、Swin-T第二模块、Swin-T第三模块、Swin-T第四模块,Swin-T四个模块依次对输入遥感图像进行特征采集,最后得到四个不同尺度大小的特征图,并传递给解码器。
步骤3:解码器包括三个自注意力多尺度特征融合模块,如图1所示,从左至右依次为第一特征融合模块、第二特征融合模块、第三特征融合模块,将Swin-T第一模块、Swin-T第二模块、Swin-T第三模块生成的特征图均输入到三个特征融合模块中,三个特征融合模块根据当前阶段的尺度和通道数进行特征融合,具体为:
步骤31:第一特征融合模块以Swin-T第一模块生成的特征图尺度和通道数为标准,将Swin-T第二模块生成的特征图进行2倍上采样、通道数减半的操作,将Swin-T第三模块生成的特征图进行4倍上采样、通道数降为1/4的操作。
步骤32:第二特征融合模块以Swin-T第二模块生成的特征图尺度和通道数为标准,将Swin-T第一模块生成的特征图经过特征调整模块进行通道数和尺度的处理,将Swin-T第三模块生成的特征图进行2倍上采样、通道数减半的操作。
步骤33:第三特征融合模块以Swin-T第三模块生成的特征图尺度和通道数为标准,将Swin-T第一模块和Swin-T第二模块生成的特征图经过特征调整模块进行通道数和尺度的处理。
步骤4:特征融合模块还包括计算注意力模块,将每个特征融合模块中调整后的三个特征图做全局平均池化,将池化后的特征图拼接起来计算自注意力,然后将计算自注意力的结果按照相同的方式拆分得到三个相关性分数。保证三个特征图全局池化后的结果各自独立,与池化前的特征图一一对应,计算自注意力也是不会打乱对应顺序的。将三个相关性分数与各自全局池化前的特征图相乘,最后把相乘后的特征图在通道维度拼接并调整通道数和当前阶段通道数一致。将相关性分数和池化前的特征图进行相乘的作用在于:考虑了不同尺度特征图之间存在相关性,我们使用自注意力来计算这种相关性,得到的相关性分数可以理解为权值,将相关性分数和池化签的特征图相乘是加权的过程。
图2是本发明自注意力多尺度模块的一种结构示意图,是以第二阶段为例,第二阶段的尺度大小为64像素*64像素,通道数为192,自注意力多尺度特征融合过程如图2所示。
在做多尺度特征融合的时首先要考虑的就是如何将不同尺度的特征调整成相同尺度,最简单的方法是直接池化下采样,这样的好处是没有额外的参数,缺点是没有很好的保留有效信息,导致多尺度特征融合效果差。为了更好的将大尺度特征图的特征传递到自注意力多尺度特征融合模块,我们提出了特征调整模块,如图3所示,特征调整模块的工作方式具体为:对输入特征图进行2*2的最大池化,更好的保留了大尺度特征图的主要特征,再使用1*1卷积调整通道数,接着使用两个3*3卷积对特征进行选择提取,并使用残差连接避免梯度***和消失,加快网络收敛。
步骤5:对每个像素进行预测分类,具体为:
如图1所示,将Swin-T第四模块生成的特征图进行二倍上采样后与第三特征融合模块输出的特征图进行叠加,将第三特征融合模块叠加后的特征图进行二倍上采样后与第二特征融合模块输出的特征图进行叠加,将第二特征融合模块叠加后的特征图进行二倍上采样后与第一特征融合模块输出的特征图进行叠加,将三个叠加后的特征图和Swin-T第四模块生成的特征图均上采样至原图大小后对每个像素进行预测分类,最后将四个尺度的预测结果进行融合得到最终的遥感语义分割结果。
步骤5还包括:进行遥感语义分割预测时也采用多尺度策略,将输入遥感图像以0.5、0.75、1.0、1.25、1.5、2.0的比例变换尺度进行分割预测,最后将所有尺度下的分割结果叠加。在预测阶段使用多尺度策略可以提高分割精度,将遥感图像分别变换尺度为上述六种比例输入到网络中进行预测得到六种结果,再平均加权融合,能够得到更加精确的分割结果。
为了评价所提出的遥感图像语义分割方法的性能,我们采用遥感图像语义分割中常用的交并比(intersection over union,IoU)和平均交并比(mean intersection overunion,mIoU)作为评价指标。交并比是模型对某一类别预测结果和真实值的交集与并集的比值,平均交并比是所有类别交并比的求和平均值。交并比计算公式如下:
Figure 586224DEST_PATH_IMAGE001
其中TP表示实际为真,预测也为真的像素数量,FP表示实际为假,预测为真的像素数量,FN表示实际为真,预测为假的像素数量。交并比越高,说明模型对遥感图像语义分割效果越好。
为了验证本文提出的遥感图像语义分割方法的有效性,与LoveDA数据集中给出的各网络模型在测试集上的基准分数进行比较,其中包括的网络模型有FCN8S、DeepLabV3+、PAN、UNet、UNet++、Semantic-FPN、PSPNet、LinkNet、FarSeg、FactSeg和HRNet。
首先在单尺度下进行比较,其结果如表1所示,本文提出的方法在各个类别上的交并比都达到最优,平均交并比对比次优结果提升了2.98%,表明本文模型在复杂遥感图像语义分割中具有优秀性能。
表1 在LoveDA数据集上语义分割结果对比
Figure 300102DEST_PATH_IMAGE003
面对尺度差异大的遥感图像,在语义分割训练和测试中使用多尺度策略可以有效提高模型的性能。为此,本文同样在多尺度下与LoveDA数据集中的DeepLabV3+、UNet和HRNet的多尺度结果进行对比,使用多尺度比例统一为0.5、0.75、1.0、1.25、1.5、1.75。表2给出了对比结果,可见多尺度策略显著提高了不同方法的性能,本文方法的平均交并比更是达到54.19%, 对比次优结果提升了1.47%,取得了LoveDA数据集上的最优结果。
表2 多尺度训练和多尺度测试结果对比
Figure 610997DEST_PATH_IMAGE004
为了进一步分析各个模块在整个网络模型中的作用,进行了消融研究。 我们将实验分为ResNet50+FPN、Swin-T+FPN、带有特征调整的自注意力多尺度特征融合和不带有特征调整模块的自注意力多尺度特征融合,结果如表3所示。通过分析表3可以看出:1)Swin-transformer在复杂遥感图像语义分割中表现得更好,这是由于Swin-Transformer强大的建模能力。2)在自注意力多尺度特征融合过程中,不使用特征调整模块效果提升有限,分析原因是粗暴的将大尺度特征直接池化成相同尺度造成特征不匹配。3)添加特征调整模块,将不同尺度的特征经过一定选择调整后输入到自注意力多尺度特征融合模块计算它们之间的相关性再拼接融合,能有效提高在单尺度和多尺度下的分割性能。
表3 消融实验
Figure 537365DEST_PATH_IMAGE005
图4展示了不同模型的分割结果图,从中可以看出本发明模型分割结果更加圆滑,边缘更加完整,没有出现支离破碎的情况。综合以上实验结果和分析,本发明提出的基于Swin-Transformer的自注意力多尺度特征融合模块能有效融合不同尺度的特征,提升模型在遥感图像语义分割上的性能。从图4中可以看出本发明方法具有较好的泛化能力,在物体分布不均匀,图像内容差异大的遥感图像语义分割中能保持较好的性能。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (2)

1.一种自注意力多尺度特征融合的遥感图像语义分割方法,其特征在于,特征编码器将四个阶段不同尺度大小的特征图传递给解码器,解码器从最后一个阶段的特征图开始上采样并与自注意力多尺度特征融合的特征图进行叠加,逐步进行直到和第一阶段的特征图尺度一样,最后将所有尺度的特征图分别上采样至原图大小并对每个像素预测分类,并将四个尺度的预测结果进行融合得到最终的遥感图像语义分割结果,所述方法能够有效融合不同尺度的遥感语义特征,提升分割性能,具体步骤包括:
步骤1:构建遥感语义分割网络,所述分割网络包括特征编码器和解码器,预先在ImageNet数据集上训练Swin-T网络,将训练后的Swin-T网络作为编码器,采用自注意力多尺度特征融合的金字塔结构网络作为解码器;
步骤2:所述特征编码器包括依次连接的Swin-T四个模块,具体为Swin-T第一模块、Swin-T第二模块、Swin-T第三模块、Swin-T第四模块,所述Swin-T四个模块依次对输入遥感图像进行特征采集,最后得到四个不同尺度大小的特征图,并传递给解码器;
步骤3:所述解码器包括三个自注意力多尺度特征融合模块,具体为第一特征融合模块、第二特征融合模块、第三特征融合模块,将所述Swin-T第一模块、所述Swin-T第二模块、所述Swin-T第三模块生成的特征图均输入到三个特征融合模块中,三个特征融合模块根据当前阶段的尺度和通道数进行特征融合,具体为:
步骤31:所述第一特征融合模块以Swin-T第一模块生成的特征图尺度和通道数为标准,将Swin-T第二模块生成的特征图进行2倍上采样、通道数减半的操作,将Swin-T第三模块生成的特征图进行4倍上采样、通道数降为1/4的操作;
步骤32:所述第二特征融合模块以Swin-T第二模块生成的特征图尺度和通道数为标准,将Swin-T第一模块生成的特征图经过特征调整模块进行通道数和尺度的处理,将Swin-T第三模块生成的特征图进行2倍上采样、通道数减半的操作,所述特征调整模块的工作方式具体为:对输入特征图进行2*2的最大池化,再使用1*1卷积调整通道数,接着使用两个3*3卷积对特征进行选择提取,并使用残差连接避免梯度***和消失,加快网络收敛;
步骤33:所述第三特征融合模块以Swin-T第三模块生成的特征图尺度和通道数为标准,将所述Swin-T第一模块和所述Swin-T第二模块生成的特征图经过特征调整模块进行通道数和尺度的处理;
步骤4:所述特征融合模块还包括计算注意力模块,将每个特征融合模块中调整后的三个特征图做全局平均池化,将池化后的特征图拼接起来计算自注意力,然后将计算自注意力的结果按照相同的方式拆分得到三个相关性分数,将所述三个相关性分数与各自全局池化前的特征图相乘,最后把相乘后的特征图在通道维度拼接并调整通道数和当前阶段通道数一致;
步骤5:对每个像素进行预测分类,具体为:
将Swin-T第四模块生成的特征图进行二倍上采样后与第三特征融合模块输出的特征图进行叠加,将第三特征融合模块叠加后的特征图进行二倍上采样后与第二特征融合模块输出的特征图进行叠加,将第二特征融合模块叠加后的特征图进行二倍上采样后与第一特征融合模块输出的特征图进行叠加,将三个叠加后的特征图和所述Swin-T第四模块生成的特征图均上采样至原图大小后对每个像素进行预测分类,最后将四个尺度的预测结果进行融合得到最终的遥感语义分割结果。
2.如权利要求1所述的遥感图像语义分割方法,其特征在于,步骤5还包括:进行遥感语义分割预测时也采用多尺度策略,将输入遥感图像以0.5、0.75、1.0、1.25、1.5、2.0的比例变换尺度进行分割预测,最后将所有尺度下的分割结果叠加。
CN202210308387.1A 2022-03-28 2022-03-28 一种自注意力多尺度特征融合的遥感图像语义分割方法 Active CN114419449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210308387.1A CN114419449B (zh) 2022-03-28 2022-03-28 一种自注意力多尺度特征融合的遥感图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210308387.1A CN114419449B (zh) 2022-03-28 2022-03-28 一种自注意力多尺度特征融合的遥感图像语义分割方法

Publications (2)

Publication Number Publication Date
CN114419449A CN114419449A (zh) 2022-04-29
CN114419449B true CN114419449B (zh) 2022-06-24

Family

ID=81263512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210308387.1A Active CN114419449B (zh) 2022-03-28 2022-03-28 一种自注意力多尺度特征融合的遥感图像语义分割方法

Country Status (1)

Country Link
CN (1) CN114419449B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972756A (zh) * 2022-05-30 2022-08-30 湖南大学 一种医学图像的语义分割方法及装置
CN115019182B (zh) * 2022-07-28 2023-03-24 北京卫星信息工程研究所 遥感图像目标细粒度识别方法、***、设备及存储介质
CN115578406B (zh) * 2022-12-13 2023-04-07 四川大学 基于上下文融合机制的cbct颌骨区域分割方法及***
CN116229065B (zh) * 2023-02-14 2023-12-01 湖南大学 一种基于多分支融合的机器人手术器械分割方法
CN116295469B (zh) * 2023-05-19 2023-08-15 九识(苏州)智能科技有限公司 高精地图的生成方法、装置、设备及存储介质
CN116580241B (zh) * 2023-05-22 2024-05-14 内蒙古农业大学 基于双分支多尺度语义分割网络的图像处理方法及***
CN117315460A (zh) * 2023-09-15 2023-12-29 生态环境部卫星环境应用中心 一种基于FarSeg算法的城市建成区施工工地扬尘源提取方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689083A (zh) * 2019-09-30 2020-01-14 苏州大学 一种上下文金字塔融合网络及图像分割方法
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法
CN112560733A (zh) * 2020-12-23 2021-03-26 上海交通大学 面向两期遥感影像的多任务处理***及方法
CN112597985A (zh) * 2021-03-04 2021-04-02 成都西交智汇大数据科技有限公司 一种基于多尺度特征融合的人群计数方法
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113516126A (zh) * 2021-07-02 2021-10-19 成都信息工程大学 一种基于注意力特征融合的自适应阈值场景文本检测方法
CN113688813A (zh) * 2021-10-27 2021-11-23 长沙理工大学 多尺度特征融合遥感影像分割方法、装置、设备和存储器
CN113705675A (zh) * 2021-08-27 2021-11-26 合肥工业大学 一种基于多尺度特征交互网络的多聚焦图像融合方法
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN114140472A (zh) * 2022-02-07 2022-03-04 湖南大学 一种跨级信息融合医学图像分割方法
CN114202550A (zh) * 2021-11-24 2022-03-18 重庆邮电大学 一种基于RAPNet网络的脑肿瘤MRI图像三维分割方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110837811B (zh) * 2019-11-12 2021-01-05 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
WO2021137756A1 (en) * 2019-12-30 2021-07-08 Medo Dx Pte. Ltd Apparatus and method for image segmentation using a deep convolutional neural network with a nested u-structure
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置
CN113033570B (zh) * 2021-03-29 2022-11-11 同济大学 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN113256649B (zh) * 2021-05-11 2022-07-01 国网安徽省电力有限公司经济技术研究院 一种基于深度学习的遥感图像选站选线语义分割方法
CN113679426B (zh) * 2021-09-14 2024-02-20 上海市第六人民医院 超声图处理***
CN113902751A (zh) * 2021-11-10 2022-01-07 南京大学 一种基于Swin-Unet算法的肠神经元发育异常识别方法
CN114066902A (zh) * 2021-11-22 2022-02-18 安徽大学 一种基于卷积和transformer融合的医学图像分割方法、***、装置
CN114240004B (zh) * 2022-02-23 2022-07-19 武汉纺织大学 一种多源信息融合的服装流行趋势预测方法及***

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689083A (zh) * 2019-09-30 2020-01-14 苏州大学 一种上下文金字塔融合网络及图像分割方法
CN111145170A (zh) * 2019-12-31 2020-05-12 电子科技大学 一种基于深度学习的医学影像分割方法
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法
CN112560733A (zh) * 2020-12-23 2021-03-26 上海交通大学 面向两期遥感影像的多任务处理***及方法
CN112597985A (zh) * 2021-03-04 2021-04-02 成都西交智汇大数据科技有限公司 一种基于多尺度特征融合的人群计数方法
CN113516126A (zh) * 2021-07-02 2021-10-19 成都信息工程大学 一种基于注意力特征融合的自适应阈值场景文本检测方法
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113705675A (zh) * 2021-08-27 2021-11-26 合肥工业大学 一种基于多尺度特征交互网络的多聚焦图像融合方法
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN113688813A (zh) * 2021-10-27 2021-11-23 长沙理工大学 多尺度特征融合遥感影像分割方法、装置、设备和存储器
CN114202550A (zh) * 2021-11-24 2022-03-18 重庆邮电大学 一种基于RAPNet网络的脑肿瘤MRI图像三维分割方法
CN114140472A (zh) * 2022-02-07 2022-03-04 湖南大学 一种跨级信息融合医学图像分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fully Transformer Networks for Semantic Image Segmentation;Sitong Wu等;《arXiv:2106.04108v3》;20211228;第1-12页 *
Swin-Depth: Using Transformers and Multi-Scale Fusion for Monocular-Based Depth Estimation;Zeyu Cheng等;《IEEE SENSORS JOURNAL》;20211201;第21卷(第23期);第26912-26920页 *
基于全卷积神经网络的多尺度视网膜血管分割;郑婷月等;《光学学报》;20190228;第39卷(第2期);第0211002-1-8页 *
基于特征融合与注意力机制的视频目标检测研究;钟建平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220315(第3期);第I138-2321页 *

Also Published As

Publication number Publication date
CN114419449A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN114419449B (zh) 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN111047551A (zh) 一种基于U-net改进算法的遥感影像变化检测方法及***
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113255837A (zh) 工业环境下基于改进的CenterNet网络目标检测方法
CN113239825B (zh) 一种复杂场景下高精度烟草甲虫检测方法
CN113780132A (zh) 一种基于卷积神经网络的车道线检测方法
CN114973011A (zh) 一种基于深度学习的高分辨率遥感影像建筑物提取方法
CN111832453A (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及***
CN115330703A (zh) 基于上下文信息融合的遥感影像云与云阴影检测方法
CN116206112A (zh) 基于多尺度特征融合和sam的遥感图像语义分割方法
Dong et al. Field-matching attention network for object detection
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN112818818B (zh) 一种基于affpn的新型超高清遥感图像变化检测方法
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN113436198A (zh) 一种协同图像超分辨率重建的遥感图像语义分割方法
CN117058386A (zh) 基于改进DeepLabv3+网络的沥青道路裂缝检测方法
CN117197663A (zh) 基于长距离依赖机制的多层融合图片分类方法及***
CN115082778B (zh) 一种基于多分支学习的宅基地识别方法及***
CN113962332B (zh) 基于自优化融合反馈的显著目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant