CN113688813A - 多尺度特征融合遥感影像分割方法、装置、设备和存储器 - Google Patents

多尺度特征融合遥感影像分割方法、装置、设备和存储器 Download PDF

Info

Publication number
CN113688813A
CN113688813A CN202111252286.9A CN202111252286A CN113688813A CN 113688813 A CN113688813 A CN 113688813A CN 202111252286 A CN202111252286 A CN 202111252286A CN 113688813 A CN113688813 A CN 113688813A
Authority
CN
China
Prior art keywords
remote sensing
sensing image
module
layer
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111252286.9A
Other languages
English (en)
Other versions
CN113688813B (zh
Inventor
王威
唐琛
王新
刘冠群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202111252286.9A priority Critical patent/CN113688813B/zh
Publication of CN113688813A publication Critical patent/CN113688813A/zh
Application granted granted Critical
Publication of CN113688813B publication Critical patent/CN113688813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种多尺度特征融合遥感影像分割方法、装置、设备和存储器。所述方法包括:获取遥感影像,并进行标注,得到训练样本;构建多尺度特征融合遥感影像分割网络,该网络包括:用于将训练样本分割成固定大小的小块,将其展开成一维向量并嵌入位置编码得到输入序列的输入网络;用于利用多层Transformer模块提取输入序列不同层次的编码器;用于通过融合多尺度特征图得到样本预测结果的解码器;利用训练样本对该网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型,并利用该模型得到待测遥感影像的预测结果。该方法充分利用编码器提取的多尺度特征图,将局部分类与层次分割相结合,能够适应遥感影像中目标复杂多变的特点。

Description

多尺度特征融合遥感影像分割方法、装置、设备和存储器
技术领域
本申请涉及遥感影像处理技术领域,特别是涉及一种多尺度特征融合遥感影像分割方法、装置、设备和存储器。
背景技术
随着遥感探测技术的不断发展,能够获取到海量的高分辨率遥感影像数据。对遥感影像进行语义分割是处理遥感图像数据的手段之一,这种方法在林地覆盖检测、城市变化检测、城市规划、农作物监测等方面有着诸多应用。遥感影像分割是语义分割中的一项具体任务,对遥感影像进行分割能够将其所包含的丰富信息提取出来供研究人员使用,因此图像分割性能的优劣决定了信息提取的质量。遥感影像中包含丰富的类别信息以及不规律的分布形态,这给分割任务带来了很大的挑战。
目前大部分的针对遥感图像的分割研究使用了全卷积网络(FCN),FCN是将CNN应用于语义分割领域的开创性工作,通过使用全卷积方法来实现对图像所有的像素点进行分类,同时也创新性地使用了一种端到端结构,为之后编码-解码结构的出现奠定了基础。在FCN-8s结构中,输入图像的大小为
Figure 1867DEST_PATH_IMAGE001
,
Figure 944284DEST_PATH_IMAGE002
指定图像的大小,3代表图像的RGB三个通道,单位为像素。后续层i的输入是一个三维张量
Figure 943464DEST_PATH_IMAGE003
,其中C为特征图的通道数。下一层的特征图是基于上一层输入特征图进行卷积得到的,这些下层特征图通过一层一层的卷积连接起来,这些卷积被定义为它们的感受野。经过多次卷积和池化操作,特征图的尺寸不断减少,通道数不断增加。由于卷积操作的局部性,感受野随着层的深度线性增加,感受野与卷积核的大小息息相关(通常是
Figure 962236DEST_PATH_IMAGE004
)。因此,在FCN架构中,浅层的特征图关注于图像的局部特征,深层次的特征图关注于图像的全局特征。FCN-8s通过跳步拼接的方式将浅层特征和深层特征融合起来,然后通过全卷积输出预测结果,这样使得模型能够综合全局和局部结构进行预测。然而,研究表明,一旦达到一定的深度,添加更多层的好处将迅速减少。因此,一般CNN结构有限的感受野是FCN架构的内在限制,对遥感图像的分割效果产生影响。
发明内容
基于此,有必要针对上述技术问题,提供一种多尺度特征融合遥感影像分割方法、装置、设备和存储器。
一种多尺度特征融合遥感影像分割方法,所述方法包括:
获取高分辨率的遥感影像,以及对所述遥感影像进行标注,得到训练样本。
构建多尺度特征融合遥感影像分割网络;所述多尺度特征融合遥感影像分割网络包括输入网络、编码器以及基于多尺度特征图融合的解码器;所述输入网络用于将所述训练样本分割成固定大小的多个小块图像,并将所述小块图像展开成一维向量并嵌入位置编码得到输入序列;所述编码器用于利用多层Transformer模块提取输入序列不同层次的特征;所述解码器用于将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果。
根据所述训练样本的标注和将所述训练样本输入到所述多尺度特征融合遥感影像分割网络得到的样本预测结果,对所述多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
获取待测遥感影像,并将所述待测遥感影像输入到训练好的多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。
一种多尺度特征融合遥感影像分割装置,所述装置包括:
遥感影像获取模块,用于获取高分辨率的遥感影像,以及对所述遥感影像进行标注,得到训练样本。
多尺度特征融合遥感影像分割网络构建模块,用于构建多尺度特征融合遥感影像分割网络;所述多尺度特征融合遥感影像分割网络包括输入网络、编码器以及基于多尺度特征图融合的解码器;所述输入网络用于将所述训练样本分割成固定大小的多个小块图像,并将所述小块图像展开成一维向量并嵌入位置编码得到输入序列;所述编码器用于利用多层Transformer模块提取输入序列不同层次的特征;所述解码器用于将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果。
多尺度特征融合遥感影像分割网络训练模块,用于根据所述训练样本的标注和将所述训练样本输入到所述多尺度特征融合遥感影像分割网络得到的样本预测结果,对所述多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
待测遥感影像的预测结果确定模块,用于获取待测遥感影像,并将所述待测遥感影像输入到训练好的多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。
上述多尺度特征融合遥感影像分割方法、装置、设备和存储器,所述方法获取高分辨率的遥感影像,并对其进行标注,得到训练样本,构建多尺度特征融合遥感影像分割网络,该网络包括输入网络、编码器以及基于多尺度特征图融合的解码器;输入网络将训练样本分割成固定大小的多个小块图像,并将小块图像展开成一维向量并嵌入位置编码得到输入序列;编码器利用多层Transformer模块提取输入序列不同层次的特征;解码器将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果;根据训练样本的标注和将训练样本输入到多尺度特征融合遥感影像分割网络得到的样本预测结果,对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型;获取待测遥感影像,并将待测遥感影像输入到多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。该方法能够充分利用编码器提取的多尺度特征图,将局部分类与层次分割相结合,能够适应遥感影像中目标复杂多变的特点。
附图说明
图1为一个实施例中多尺度特征融合遥感影像分割方法的流程示意图;
图2为另一个实施例中多尺度特征融合遥感影像分割网络结构示意图;
图3为另一个实施例中基于多尺度特征图融合的解码器的结构示意图;
图4为另一个实施例中特征变换方法流程示意图,其中(a)为第一特征变换方法,(b)为第二特征变换方法;
图5为一个实施例中多尺度特征融合遥感影像分割装置的结构框图;
图6为一个实施例中设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种多尺度特征融合遥感影像分割方法,该方法包括以下步骤:
步骤100:获取高分辨率的遥感影像,以及对遥感影像进行标注,得到训练样本。
步骤102:构建多尺度特征融合遥感影像分割网络。
多尺度特征融合遥感影像分割网络包括输入网络、编码器以及基于多尺度特征图融合的解码器。
输入网络用于将训练样本分割成固定大小的多个小块图像,并将小块图像展开成一维向量并嵌入位置编码得到输入序列;编码器用于利用多层Transformer模块提取输入序列不同层次的特征;解码器用于将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果。
具体的,多尺度特征融合遥感影像分割网络(SEgmentationTRansformer -Multiscale Feature Pyramid Decoder,简称:SETR-MFPD)使用Vision Transformer(简称:ViT)作为编码器,编码器包含了b层由多头自注意力机制组成的Transformer 模块。解码器通过融合不同层提取的图像特征来给出样本预测结果。
多尺度特征融合遥感影像分割网络的优点:将编码器提取的不同层次的特征改变成不同大小,不同通道数的特征图输入至解码器中,更有利于解码器进行特征融合,提升对分布不均且大小不同的目标的分割能力;在解码器中通过拼接操作来融合不同层次的多尺度特征图,提升解码器的局部和全局信息感知能力。
SEgmentationTRansformer(简称:SETR)将Transformer应用于语义分割任务中,SETR使用ViT提取图像的特征,通过将图像特征变换形状的方式将其还原成多通道的特征图,最后将还原的特征图输入至基于CNN的解码器来实现语义分割。
步骤104:根据训练样本的标注和将训练样本输入到多尺度特征融合遥感影像分割网络得到的样本预测结果,对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
步骤106:获取待测遥感影像,并将待测遥感影像输入到训练好的多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。
上述一种多尺度特征融合遥感影像分割方法中,所述方法获取高分辨率的遥感影像,并对其进行标注,得到训练样本;构建多尺度特征融合遥感影像分割网络,该网络包括输入网络、编码器以及基于多尺度特征图融合的解码器;输入网络用于将训练样本分割成固定大小的多个小块图像,并将小块图像展开成一维向量并嵌入位置编码得到输入序列;编码器用于利用多层Transformer模块提取输入序列不同层次的特征;解码器用于将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果;根据训练样本的标注和将训练样本输入到多尺度特征融合遥感影像分割网络得到的样本预测结果,对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型;获取待测遥感影像,并将待测遥感影像输入到训练好的多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。该方法能够充分利用编码器提取的多尺度特征图,将局部分类与层次分割相结合,能够适应遥感影像中目标复杂多变的特点。
在其中一个实施例中,步骤104包括:将训练样本输入到输入网络中,将训练样本分割成固定大小的多个小块图像,并将小块图像展开成一维向量后通过线性连接映射调整一维向量的维度,并在维度调整的向量中嵌入位置编码得到输入序列;将输入序列输入到编码器中,得到不同层次的特征;将不同层次的特征输入到基于多尺度特征图融合的解码器中,得到样本预测结果,并根据样本预测结果和遥感影像的标注对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
在其中一个实施例中,编码器包括b个串联的Transformer模块,每个Transformer模块结构相同;Transformer模块由多头自注意力模块、层标准化模块以及多层感知机模块构成;其中b为大于等于1的整数;步骤104还包括:将输入序列输入到第一个Transformer模块中,经过层标准化模块进行处理后得到标准化输入序列,并将标准化输入序列采用多头自注意力模块进行特征提取,得到注意力特征,并将注意力特征与输入序列进行融合得到注意力融合特征,并将注意力融合特征采用层标准化模块进行处理,将得到的标准化处理结果输入到多层感知机模块中,并将得到感的输出特征与注意力融合特征融合,得到第一个Transformer模块输出特征;将第一个Transformer模块输出特征作为第二个Transformer模块的输入序列,并将输入序列输入到第二个Transformer模块中,得到第二个Transformer模块输出特征,依此类推,得到b个由浅到深的图像特征;在b个由浅到深的图像特征中按照相同的层间隔进行特征选取,得到不同层次的特征。
其中:b个由浅到深的图像特征包括第一个Transformer模块至第b个Transformer模块的输出特征,即包括第一个Transformer模块输出特征、第二个Transformer模块输出特征,……,第b个Transformer模块输出特征。
在其中一个实施例中,基于多尺度特征图融合的解码器由多尺度特征融合模块和图像尺寸恢复模块组成;步骤104还包括:将不同层次的特征输入到多尺度特征融合模块中,得到多尺度融合特征图;将多尺度融合特征图输入到图像尺寸恢复模块中,得到预测结果;根据预测结果和遥感影像对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
在其中一个实施例中,不同层次的特征包括:第s个Transformer模块输出特征、第2s个Transformer模块输出特征、第3s个Transformer模块输出特征以及第b个Transformer模块输出特征;其中s为特征提取的层间隔,s为大于1的整数,b大于3s;步骤104还包括:将第s个Transformer模块输出特征、第2s个Transformer模块输出特征、第3s个Transformer模块输出特征以及第b个Transformer模块输出特征输入到多尺度特征融合模块中,分别将第3s个Transformer模块输出特征和第b个Transformer模块输出特征采用第一特征变换方法进行变换,得到3s层的特征图和b层的第一特征图;其中,3s层的特征图和b层的第一特征图是大小为
Figure 561714DEST_PATH_IMAGE005
的特征图,其中K为向量长度,HW分别为特征图的高度和宽度;第一特征变换方法是将特征图的每个列向量调整为二维特征图;分别将第b个Transformer模块输出特征、第s个Transformer模块输出特以及第2s个Transformer模块输出特征采用第二特征变换方法进行变换,得到b层的第二特征图、s层的特征图以及2s层的特征图;b层的第二特征图为大小为
Figure 58554DEST_PATH_IMAGE006
的特征图,s层的特征图大小为
Figure 505716DEST_PATH_IMAGE007
的特征图,2s层的特征图大小为
Figure 429809DEST_PATH_IMAGE008
的特征图;第二特征变换方法为将特征图的n个列向量调整为n张特征图,并将n张特征图进行拼接,得到
Figure 532895DEST_PATH_IMAGE009
张特征图;其中n是完全平方数并且能被K整除;将s层的特征图、2s层的特征图、3s层的特征图以及b层的第一特征图分别采用卷积操作,得到s层的卷积特征图、2s层的卷积特征图、3s层的卷积特征图以及b层的第一卷积特征图;将s层的卷积特征图、2s层的卷积特征图、3s层的卷积特征图以及b层的第一卷积特征图进行上采样后与b层的第二特征图进行拼接,得到多尺度融合特征图。
其中,第一特征变换方法和第二特征变换方法均是由二维特征变换成三维多尺度特征图的方法。
在其中一个实施例中,步骤104还包括:将多尺度融合特征图输入到图像尺寸恢复模块中,采用渐进式的卷积和上采样操作,将多尺度融合特征图恢复至原图像大小,得到样本预测结果;渐进式的卷积为三次串行的卷积操作。
在其中一个实施例中,多层感知机模块包括两个隐藏层的全连接层和一个GELU激活函数;多头自注意力模块由h个自注意力模块构成;其中h为大于1的整数。
在一个实施例中,提供了一种多尺度特征融合遥感影像分割方法,SETR-MFPD网络包括编码-解码结构,如图2所示。编码器由完全的Transformer网络组成,包含了b层由多头自注意力机制组成的Transformer 模块。解码器通过融合不同层提取的图像特征来给出预测结果。图2中解码器中的卷积1是卷积核为3*3步长为1的卷积、卷积2和卷积1相同、卷积3是卷积核为1*1步长为1的卷积、上采样用于将特征图尺寸放大2倍。
由图2所示的网络结构图可知:给定的输入图像先会被分割成固定大小的小块,然后将其展开成一维向量并嵌入位置编码后输入至由b个Transformer 模块组成的编码器中提取图像不同层次的特征。不同层次的特征经过调整形状后通过一次卷积来降低特征图通道,然后通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样来生成预测结果。
(1)编码器:
Transformer网络中使用的自注意力机制能够很好地整合输入序列的局部和全局信息。因此,将Vision Transformer作为分割任务的编码器能改善FCN架构感受野受限的问题。
1)输入处理
在自然语言处理任务中,使用的Transformer网络的输入是一组一维向量,而在视觉任务中的输入都为二维图像。为了让Transformer网络作为分割任务的编码器,需要对输入图像进行维度的调整。对于输入图像
Figure 811255DEST_PATH_IMAGE010
,先按照长宽将其分割成N个长宽相等图像块
Figure 316186DEST_PATH_IMAGE011
,其中Y代表分割的宽度,而
Figure 207918DEST_PATH_IMAGE012
。然后将N个图像块按照长宽展开,得到N个长度为
Figure 798300DEST_PATH_IMAGE013
的一维向量构成序列
Figure 636943DEST_PATH_IMAGE014
,其中K为向量长度。N的取值对Transformer网络的性能有着重要影响。对于一张输入为
Figure 511227DEST_PATH_IMAGE015
的RGB图像,如果取N=4,将其分割后得到四个维度为49,152的一维向量。而Transformer使用的多层感知机(Multilayer Perceptron,简称:MLP)结构不能支持将如此高维度的向量作为其输入,因为MLP中所使用的全连接层在处理如此高维的输入时会耗费大量的时间和空间。
在语义分割任务中,编码器往往会通过下采样来获得多尺度的特征图
Figure 777123DEST_PATH_IMAGE016
,其中C代表特征图的通道数,
Figure 589221DEST_PATH_IMAGE017
,对应不同尺度的特征图。为了方便在解码器中对特征进行形状调整,同时兼顾Transformer性能的考虑,取N=256,既将输入图像切割为256个宽度为
Figure 965976DEST_PATH_IMAGE018
的图像块,将他们展开可以得到256个维度为768的一维向量所构成的序列,记为
Figure 242236DEST_PATH_IMAGE019
Figure 928301DEST_PATH_IMAGE020
,其中i代表分块的序号。在ViT中,这些向量在输入Transformer网络之前还可以通过一个线性连接映射(LinerProjection)
Figure 227696DEST_PATH_IMAGE021
来调整输入向量的维度,之后会在其中嵌入可以训练的类别编码和位置编码参数,其中类别编码通过将类别编号添加至输入维度来嵌入,位置编码通过与输入向量相加嵌入。但是嵌入类别编码所带来的维度改变会使得之后的形状调整变得困难。所以只在输入向量中嵌入位置编码,最终的输入可以表示为
Figure 408141DEST_PATH_IMAGE022
,其中
Figure 7750DEST_PATH_IMAGE023
,代表嵌入的位置编码。
2)Transformer网络
本实施例中的方法将图像序列化后得到初始输入Z0,将使用Transformer网络作为编码器,用来提取图像的特征。一个Transformer网络由多个Transformer 模块串联组成,每个Transformer 模块都有着相同的结构,前一个模块的输出是下一个模块的输入。每个模块由多头自注意力(multihead self-attention 简称:MSA)模块,layernormalization (LN)模块,MLP模块构成。假设第l层的输入序列为Z l-1,输入序列首先会经过LN模块得到
Figure 412187DEST_PATH_IMAGE024
,如式1所示:
Figure 448144DEST_PATH_IMAGE025
(1)
Figure 166702DEST_PATH_IMAGE026
作为MSA模块的输入,MSA模块由h个self-attention(SA)模块构成。SA模块的输入是三个矩阵
Figure 417555DEST_PATH_IMAGE027
,三个输入矩阵的计算方法如式2所示,SA模块的计算过程如式3所示:
Figure 196155DEST_PATH_IMAGE028
(2)
Figure 204562DEST_PATH_IMAGE029
(3)
其中
Figure 976078DEST_PATH_IMAGE030
代表可以训练的权重参数,d的取值决定权重参数的数量级。MSA模块的计算过程如式4所示
Figure 81437DEST_PATH_IMAGE031
(4)
其中concat代表将h个大小为
Figure 30939DEST_PATH_IMAGE032
矩阵按照行维度拼接得到一个大小为
Figure 792221DEST_PATH_IMAGE033
的矩阵,
Figure 852581DEST_PATH_IMAGE034
代表可以训练的权重参数,通常将d的值设置为N/h
Figure 530556DEST_PATH_IMAGE035
代表第i个self-attention模块的输出,
Figure 650959DEST_PATH_IMAGE036
,其中
Figure 696275DEST_PATH_IMAGE037
表示第i个SA模块可训练的权重参数。
最终一个Transformer模块的完整计算过程如式5-7所示:
Figure 560326DEST_PATH_IMAGE038
(5)
Figure 843540DEST_PATH_IMAGE039
(6)
Figure 118532DEST_PATH_IMAGE040
(7)
其中MLP由包含两个隐藏层的全连接层和一个GELU激活函数构成,l=1…bb代表Transformer网络中Transformer 模块的数量,也就是Transformer网络的层数。通过b次迭代,Transformer网络就能提取出b个由浅到深的图像特征,记为
Figure 651145DEST_PATH_IMAGE041
。通过选取不同的线性连接映射,hb和隐藏层的大小,Dosovitski等人设计了三种不同的ViT模型,如表1所示。
表1 不同ViT模型的配置
Figure 318886DEST_PATH_IMAGE042
(2)多尺度特征融合解码器
通过编码器提取输入序列的不同层次的特征,这些特征都具有相同的形状。本实施例设计了一个与特征金字塔网络类似的多层次特征融合解码器,解码器的结构如图3所示。本解码器与其最大的区别就是先需要将Transformer 模块提取的特征调整为金字塔形状,且编码器提取的不同层次的特征不需要通过池化操作来调整形状,避免了信息丢失。
本实施例选择Transformer网络提取的4个不同层次的特征
Figure 191027DEST_PATH_IMAGE043
s决定选择特征间隔的层数。图4 所示为由二维特征变换成三维多尺度特征图的方法,其中(a)为第一特征变换方法,其具体步骤包括:直接将每个列向量调整为二维特征图,得到K张特征图;(b)为第一特征变换方法,其具体步骤包括:将n个列向量调整为n张特征图,并通过拼接将n张特征图组合成一张更大的特征图,这样就能得到
Figure 653233DEST_PATH_IMAGE044
张特征图;其中n是完全平方数并且能被K整除。对于深层特征
Figure 673141DEST_PATH_IMAGE045
,使用图4 中(a)所示的方法将其调整为大小为
Figure 393842DEST_PATH_IMAGE046
的特征图
Figure 386068DEST_PATH_IMAGE047
。对于
Figure 753596DEST_PATH_IMAGE048
,还会通过图4 中(b)所示的方法将其调整为大小为
Figure 464063DEST_PATH_IMAGE049
的特征图
Figure 270345DEST_PATH_IMAGE050
。对于浅层特征
Figure 372205DEST_PATH_IMAGE051
,选择图4中 (b) 所示的方法将其分别调整为大小为
Figure 441792DEST_PATH_IMAGE052
的特征图
Figure 108397DEST_PATH_IMAGE053
,大小为
Figure 921632DEST_PATH_IMAGE054
的特征图
Figure 872139DEST_PATH_IMAGE055
。然后分别使用大小为
Figure 909366DEST_PATH_IMAGE056
,步长为1,输出通道分为为256,128,64,32的卷积核的对特征图4个特征图进行卷积操作。最后通过将4个特征图上采样后与
Figure 328846DEST_PATH_IMAGE057
拼接,就得到了大小为
Figure 414613DEST_PATH_IMAGE058
的多尺度融合特征图
Figure 235939DEST_PATH_IMAGE059
。为了最大程度利用多尺度融合特征图的信息,使用了通过渐进式的卷积和上采样来恢复图像的尺寸,最终通过三次串行的卷积和上采样操作恢复至原图像大小。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种多尺度特征融合遥感影像分割装置,包括:遥感影像获取模块、多尺度特征融合遥感影像分割网络构建模块、多尺度特征融合遥感影像分割网络训练模块和待测遥感影像的预测结果确定模块,其中:
遥感影像获取模块,用于获取高分辨率的遥感影像,以及对遥感影像进行标注,得到训练样本。
多尺度特征融合遥感影像分割网络构建模块,用于构建多尺度特征融合遥感影像分割网络;多尺度特征融合遥感影像分割网络包括输入网络、编码器以及基于多尺度特征图融合的解码器;输入网络用于将训练样本分割成固定大小的多个小块图像,并将小块图像展开成一维向量并嵌入位置编码得到输入序列;编码器用于利用多层Transformer模块提取输入序列不同层次的特征;解码器用于将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果。
多尺度特征融合遥感影像分割网络训练模块,用于将根据训练样本的标注和将训练样本输入到多尺度特征融合遥感影像分割网络得到的样本预测结果,对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
待测遥感影像的预测结果确定模块,用于获取待测遥感影像,并将待测遥感影像输入到训练好的多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。
在其中一个实施例中,多尺度特征融合遥感影像分割网络训练模块,还用于将训练样本输入到输入网络中,将训练样本分割成固定大小的多个小块图像,并将小块图像展开成一维向量后通过线性连接映射调整一维向量的维度,并在维度调整的向量中嵌入位置编码得到输入序列;将输入序列输入到编码器中,得到不同层次的特征;将不同层次的特征输入到基于多尺度特征图融合的解码器中,得到样本预测结果,并根据样本预测结果和遥感影像的标注对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
在其中一个实施例中,编码器包括b个串联的Transformer模块,每个Transformer模块结构相同;Transformer模块由多头自注意力模块、层标准化模块以及多层感知机模块构成;其中b为大于等于1的整数;多尺度特征融合遥感影像分割网络训练模块,还用于将输入序列输入到第一个Transformer模块中,经过层标准化模块进行处理后得到标准化输入序列,并将标准化输入序列采用多头自注意力模块进行特征提取,得到注意力特征,并将注意力特征与输入序列进行融合得到注意力融合特征,并将注意力融合特征采用层标准化模块进行处理,将得到的标准化处理结果输入到多层感知机模块中,并将得到感的输出特征与注意力融合特征融合,得到第一个Transformer模块输出特征;将第一个Transformer模块输出特征作为第二个Transformer模块的输入序列,并将输入序列输入到第二个Transformer模块中,得到第二个Transformer模块输出特征,依此类推,得到b个由浅到深的图像特征;在b个由浅到深的图像特征中按照相同的层间隔进行特征选取,得到不同层次的特征。
在其中一个实施例中,基于多尺度特征图融合的解码器由多尺度特征融合模块和图像尺寸恢复模块组成;多尺度特征融合遥感影像分割网络训练模块,还用于将不同层次的特征输入到多尺度特征融合模块中,得到多尺度融合特征图;将多尺度融合特征图输入到图像尺寸恢复模块中,得到样本预测结果;根据样本预测结果和遥感影像的标注对多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
在其中一个实施例中,不同层次的特征包括:第s个Transformer模块输出特征、第2s个Transformer模块输出特征、第3s个Transformer模块输出特征以及第b个Transformer模块输出特征;其中s为特征提取的层间隔,s为大于1的整数,b大于3s;多尺度特征融合遥感影像分割网络训练模块,还用于将第s个Transformer模块输出特征、第2s个Transformer模块输出特征、第3s个Transformer模块输出特征以及第b个Transformer模块输出特征输入到多尺度特征融合模块中,分别将第3s个Transformer模块输出特征和第b个Transformer模块输出特征采用第一特征变换方法进行变换,得到3s层的特征图和b层的第一特征图;其中,3s层的特征图和b层的第一特征图是大小为
Figure 444066DEST_PATH_IMAGE060
的特征图,其中K为向量长度,H和W分别为特征图的高度和宽度;第一特征变换方法是将特征图的每个列向量调整为二维特征图;分别将第b个Transformer模块输出特征、第s个Transformer模块输出特以及第2s个Transformer模块输出特征采用第二特征变换方法进行变换,得到b层的第二特征图、s层的特征图以及2s层的特征图;b层的第二特征图为大小为
Figure 600110DEST_PATH_IMAGE061
的特征图,s层的特征图大小为
Figure 489568DEST_PATH_IMAGE062
的特征图,2s层的特征图大小为
Figure 165400DEST_PATH_IMAGE063
的特征图;第二特征变换方法为将特征图的n个列向量调整为n张特征图,并将n张特征图进行拼接,得到
Figure 544429DEST_PATH_IMAGE064
张特征图;其中n是完全平方数并且能被K整除;将s层的特征图、2s层的特征图、3s层的特征图以及b层的第一特征图分别采用卷积操作,得到s层的卷积特征图、2s层的卷积特征图、3s层的卷积特征图以及b层的第一卷积特征图;将s层的卷积特征图、2s层的卷积特征图、3s层的卷积特征图以及b层的第一卷积特征图进行上采样后与b层的第二特征图进行拼接,得到多尺度融合特征图。
在其中一个实施例中,多尺度特征融合遥感影像分割网络训练模块,还用于将多尺度融合特征图输入到图像尺寸恢复模块中,采用渐进式的卷积和上采样操作,将多尺度融合特征图恢复至原图像大小,得到样本预测结果;渐进式的卷积为三次串行的卷积操作。
在其中一个实施例中,该装置中多层感知机模块包括两个隐藏层的全连接层和一个GELU激活函数;多头自注意力模块由h个自注意力模块构成;其中h为大于1的整数。
关于多尺度特征融合遥感影像分割装置的具体限定可以参见上文中对于多尺度特征融合遥感影像分割方法的限定,在此不再赘述。上述多尺度特征融合遥感影像分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种设备,该设备可以是终端,其内部结构图可以如图6所示。该设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多尺度特征融合遥感影像分割方法。该设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介器,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
在一个验证性实施例中,使用Gaofen-2 Chenzhou(GF2-CZ)数据集作为实验数据集。GF2-CZ数据集的原始图像来自于Gaofen-2拍摄的郴州地区六个镇上的遥感影像,每张图像的空间分辨率是0.8m,并且对每张遥感图像都做了像素级的标注。根据郴州地区的地貌特征,标签由背景,林地,湿地,河流,建筑,道路以及丘壑七个类别组成。通过使用
Figure 938501DEST_PATH_IMAGE065
的采样窗口在六张遥感影像上进行随机采样,并通过旋转,模糊等数据增强手段,最终得到10,000张训练图片和2,000张测试图片。GF2-CZ数据集的具体信息如表2所示。
表2 GF2-CZ数据集
Figure 615339DEST_PATH_IMAGE066
本实施例选择语义分割任务中常用的Pix Accuracy(PA),Mean Intersectionover Union (MIoU)和Frequency Weighted Intersection over Union (FWIoU)作为模型性能的度量指标。假设有k个目标类以及1个背景类,则PA,MIoU,FWIoU的计算公式如式8,9,10所示:
Figure 411257DEST_PATH_IMAGE067
(8)
Figure 695608DEST_PATH_IMAGE068
(9)
Figure 311397DEST_PATH_IMAGE069
(10)
其中,
Figure 808237DEST_PATH_IMAGE070
表示本属于类别i却预测为类别j的像素点总数,具体地,
Figure 255399DEST_PATH_IMAGE071
表示被正确分类的像素点的总数,
Figure 428760DEST_PATH_IMAGE072
Figure 531846DEST_PATH_IMAGE073
表示被错误分类的像素点数目。
本实施例使用开源的MMSegmentation库搭建实验平台。MMSegmentation是一个基于PyTorch的语义分割开源工具箱,它是OpenMMLab项目的一部分。MMSegmentation内部集成了众多语义分割方法,如PSPNet,DeeplabV3,STER等,为用户提供了一个统一的基准测试平台。
本实施例使用交叉熵作为损失函数,选用SGD作为优化器,初始学习率设置为0.001,学习率按照多项式速率逐步衰减,动量(momentum)和权重衰减(weight decay)系数分别设置为0.9和0. 0005,batch size设置为2。
本实施例在GF2-CZ数据集上进行了对比实验,对比了STER-MFPD与FCN-8s,PSPNet,DeeplabV3以及SETR-Naïve,SETR-MLA,SETR-PUP的性能差异。Encoder中的网络权重都使用了在ImageNet上进行预训练过的模型的权重来进行初始化。实验结果如表3所示。
表3 不同分割方法的实验结果
Figure 301219DEST_PATH_IMAGE074
从表3可以看出,编码器所使用的网络深度对分割的结果有着较大的影响。深层次的网络性能都要优于浅层网络。使用Transformer作为编码器的方法在准确率,mIoU,fwIoU等方面比使用CNN的方法都要高。具体地来看,使用多层次金字塔融合的PSPNet有着90.49%的准确率,虽然比FCN-8s的91.36%略低,但是其mIoU达到了55.66%,说明多层次金字塔结构的解码器在对目标整体分类时更准确。DeeplabV3虽然使用了ASPP模块,但是其准确率(89.20%)和mIoU(50.62%)并不是很高,但是考虑到其在其他数据集上的表现,说明DeeplabV3的模块对遥感图像的特征提取能力不是很好。DFCN121-C使用了改进的解码器模块,同时使用了DenseNet-121作为其编码器,在对比实验中是基于CNN的分割方法中表现最好的,有着91.54%的准确率和53.58%的mIoU。在基于Transformer的方法中,SETR-PUP有着最高的准确率(91.66%),改进的SETR-MFPD实现了最高的mIoU(60.13%)。说明本实施例使用的多层次特征融合解码器能对遥感影像中的目标实现更好的整体分类效果。使用Transformer的方法在分割的准确性和整体分割效果上都要优于基于CNN的方法。从实验结果可以看出,STER方法对林地,水域,建筑等目标的分割效果要超过FCN,PSPNet。而STER-MFPD在林地的分割准确率上比STER-MLA更好。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种多尺度特征融合遥感影像分割方法,其特征在于,所述方法包括:
获取高分辨率的遥感影像,以及对所述遥感影像进行标注,得到训练样本;
构建多尺度特征融合遥感影像分割网络;所述多尺度特征融合遥感影像分割网络包括输入网络、编码器以及基于多尺度特征图融合的解码器;所述输入网络用于将所述训练样本分割成固定大小的多个小块图像,并将所述小块图像展开成一维向量并嵌入位置编码得到输入序列;所述编码器用于利用多层Transformer模块提取输入序列不同层次的特征;所述解码器用于将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果;
根据所述训练样本的标注和将所述训练样本输入到所述多尺度特征融合遥感影像分割网络得到的样本预测结果,对所述多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型;
获取待测遥感影像,并将所述待测遥感影像输入到训练好的多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述训练样本的标注和将所述训练样本输入到所述多尺度特征融合遥感影像分割网络得到的样本预测结果,对所述多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型,包括:
将所述训练样本输入到所述输入网络中,将所述训练样本分割成固定大小的多个小块图像,并将所述小块图像展开成一维向量后通过线性连接映射调整一维向量的维度,并在维度调整的向量中嵌入位置编码得到输入序列;
将所述输入序列输入到编码器中,得到不同层次的特征;
将所述不同层次的特征输入到基于多尺度特征图融合的解码器中,得到样本预测结果,并根据所述样本预测结果和所述遥感影像的标注对所述多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
3.根据权利要求2所述的方法,其特征在于,所述编码器包括b个串联的Transformer模块,每个所述Transformer模块结构相同;所述Transformer模块由多头自注意力模块、层标准化模块以及多层感知机模块构成;其中b为大于等于1的整数;
将所述输入序列输入到编码器中,得到不同层次的特征,包括:
将所述输入序列输入到第一个Transformer模块中,经过层标准化模块进行处理后得到标准化输入序列,并将所述标准化输入序列采用多头自注意力模块进行特征提取,得到注意力特征,并将所述注意力特征与所述输入序列进行融合得到注意力融合特征,并将所述注意力融合特征采用层标准化模块进行处理,将得到的标准化处理结果输入到多层感知机模块中,并将得到的感知机输出特征与所述注意力融合特征融合,得到第一个Transformer模块输出特征;
将所述第一个Transformer模块输出特征作为第二个Transformer模块的输入序列,并将输入序列输入到第二个Transformer模块中,得到第二个Transformer模块输出特征,依此类推,得到b个由浅到深的图像特征;
在b个由浅到深的图像特征中按照相同的层间隔进行特征选取,得到不同层次的特征。
4.根据权利要求3所述的方法,其特征在于,所述基于多尺度特征图融合的解码器由多尺度特征融合模块和图像尺寸恢复模块组成;
将所述不同层次的特征输入到基于多尺度特征图融合的解码器中,得到样本预测结果,并根据所述样本预测结果和所述遥感影像对所述多尺度特征融合遥感影像分割网络进行训练,训练好的多尺度特征融合遥感影像分割模型,包括:
将所述不同层次的特征输入到所述多尺度特征融合模块中,得到多尺度融合特征图;
将所述多尺度融合特征图输入到所述图像尺寸恢复模块中,得到样本预测结果;
根据所述样本预测结果和所述遥感影像的标注对所述多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型。
5.根据权利要求4所述的方法,其特征在于,所述不同层次的特征包括:第s个Transformer模块输出特征、第2s个Transformer模块输出特征、第3s个Transformer模块输出特征以及第b个Transformer模块输出特征;其中s为特征提取的层间隔,s为大于1的整数,b大于3s;
将所述不同层次的特征输入到所述多尺度特征融合模块中,得到多尺度融合特征图,包括:
将第s个Transformer模块输出特征、第2s个Transformer模块输出特征、第3s个Transformer模块输出特征以及第b个Transformer模块输出特征输入到所述多尺度特征融合模块中,分别将第3s个Transformer模块输出特征和第b个Transformer模块输出特征采用第一特征变换方法进行变换,得到3s层的特征图和b层的第一特征图;其中,所述3s层的特征图和所述b层的第一特征图是大小为
Figure 828233DEST_PATH_IMAGE001
的特征图,其中K为向量长度,H和W分别为特征图的高度和宽度;所述第一特征变换方法是将特征图的每个列向量调整为二维特征图;
分别将第b个Transformer模块输出特征、第s个Transformer模块输出特以及第2s个Transformer模块输出特征采用第二特征变换方法进行变换,得到b层的第二特征图、s层的特征图以及2s层的特征图;所述b层的第二特征图为大小为
Figure 718697DEST_PATH_IMAGE002
的特征图,所述s层的特征图大小为
Figure 873735DEST_PATH_IMAGE003
的特征图,所述2s层的特征图大小为
Figure 346305DEST_PATH_IMAGE004
的特征图;所述第二特征变换方法为将特征图的n个列向量调整为n张特征图,并将n张特征图进行拼接,得到
Figure 928596DEST_PATH_IMAGE005
张特征图;其中n是完全平方数并且能被K整除;
将所述s层的特征图、2s层的特征图、3s层的特征图以及b层的第一特征图分别采用卷积操作,得到s层的卷积特征图、2s层的卷积特征图、3s层的卷积特征图以及b层的第一卷积特征图;
将所述s层的卷积特征图、2s层的卷积特征图、3s层的卷积特征图以及b层的第一卷积特征图进行上采样后与b层的第二特征图进行拼接,得到多尺度融合特征图。
6.根据权利要求4所述的方法,其特征在于,将所述多尺度融合特征图输入到所述图像尺寸恢复模块中,得到样本预测结果,包括:
将所述多尺度融合特征图输入到所述图像尺寸恢复模块中,采用渐进式的卷积和上采样操作,将所述多尺度融合特征图恢复至原图像大小,得到样本预测结果;所述渐进式的卷积为三次串行的卷积操作。
7.根据权利要求3-6中任一项所述的方法,其特征在于,所述多层感知机模块包括两个隐藏层的全连接层和一个GELU激活函数;
所述多头自注意力模块由h个自注意力模块构成;其中h为大于1的整数。
8.一种多尺度特征融合遥感影像分割装置,其特征在于,所述装置包括:
遥感影像获取模块,用于获取高分辨率的遥感影像,以及对所述遥感影像进行标注,得到训练样本;
多尺度特征融合遥感影像分割网络构建模块,用于构建多尺度特征融合遥感影像分割网络;所述多尺度特征融合遥感影像分割网络包括输入网络、编码器以及基于多尺度特征图融合的解码器;所述输入网络用于将所述训练样本分割成固定大小的多个小块图像,并将所述小块图像展开成一维向量并嵌入位置编码得到输入序列;所述编码器用于利用多层Transformer模块提取输入序列不同层次的特征;所述解码器用于将不同层次的特征经过调整形状后通过卷积操作得到不同尺度的特征,并通过拼接操作来融合不同尺度的特征,最后通过多次卷积与上采样得到样本预测结果;
多尺度特征融合遥感影像分割网络训练模块,用于根据所述训练样本的标注和将所述训练样本输入到所述多尺度特征融合遥感影像分割网络得到的样本预测结果,对所述多尺度特征融合遥感影像分割网络进行训练,得到训练好的多尺度特征融合遥感影像分割模型;
待测遥感影像的预测结果确定模块,用于获取待测遥感影像,并将所述待测遥感影像输入到所述多尺度特征融合遥感影像分割模型中,得到待测遥感影像的预测结果。
9.一种设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储器,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202111252286.9A 2021-10-27 2021-10-27 多尺度特征融合遥感影像分割方法、装置、设备和存储器 Active CN113688813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111252286.9A CN113688813B (zh) 2021-10-27 2021-10-27 多尺度特征融合遥感影像分割方法、装置、设备和存储器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111252286.9A CN113688813B (zh) 2021-10-27 2021-10-27 多尺度特征融合遥感影像分割方法、装置、设备和存储器

Publications (2)

Publication Number Publication Date
CN113688813A true CN113688813A (zh) 2021-11-23
CN113688813B CN113688813B (zh) 2022-01-04

Family

ID=78588237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111252286.9A Active CN113688813B (zh) 2021-10-27 2021-10-27 多尺度特征融合遥感影像分割方法、装置、设备和存储器

Country Status (1)

Country Link
CN (1) CN113688813B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022788A (zh) * 2022-01-05 2022-02-08 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN114037899A (zh) * 2021-12-01 2022-02-11 福州大学 基于vit的面向高光谱遥感图像分类径向累加位置编码***
CN114092833A (zh) * 2022-01-24 2022-02-25 长沙理工大学 遥感图像分类方法、装置、计算机设备和存储介质
CN114359554A (zh) * 2021-11-25 2022-04-15 河南农业大学 一种基于多感受野上下文语义信息的图像语义分割方法
CN114419449A (zh) * 2022-03-28 2022-04-29 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN114758360A (zh) * 2022-04-24 2022-07-15 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN114780701A (zh) * 2022-04-20 2022-07-22 平安科技(深圳)有限公司 自动问答匹配方法、装置、计算机设备及存储介质
CN114842312A (zh) * 2022-05-09 2022-08-02 深圳市大数据研究院 面向不配对跨模态图像分割模型的生成及分割方法、装置
CN114913339A (zh) * 2022-04-21 2022-08-16 北京百度网讯科技有限公司 特征图提取模型的训练方法和装置
CN114943963A (zh) * 2022-04-29 2022-08-26 南京信息工程大学 一种基于双分支融合网络的遥感图像云和云影分割方法
CN114972220A (zh) * 2022-05-13 2022-08-30 北京医准智能科技有限公司 一种图像处理方法、装置、电子设备及可读存储介质
CN114998653A (zh) * 2022-05-24 2022-09-02 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN115019182A (zh) * 2022-07-28 2022-09-06 北京卫星信息工程研究所 遥感图像目标细粒度识别方法、***、设备及存储介质
CN115147606A (zh) * 2022-08-01 2022-10-04 深圳技术大学 医学图像的分割方法、装置、计算机设备和存储介质
CN115761383A (zh) * 2023-01-06 2023-03-07 北京匠数科技有限公司 一种图像分类方法、装置、电子设备及介质
CN116188431A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN116310840A (zh) * 2023-05-11 2023-06-23 天地信息网络研究院(安徽)有限公司 一种融合多关键物候期光谱特征的冬小麦遥感识别方法
CN116363143A (zh) * 2023-03-10 2023-06-30 北京长木谷医疗科技有限公司 基于多尺度自注意力机制的髋关节分割方法、装置及设备
CN117173525A (zh) * 2023-09-05 2023-12-05 北京交通大学 一种通用型多模态图像融合方法及装置
CN117709580A (zh) * 2023-11-29 2024-03-15 广西科学院 一种基于setr与地理网格的海洋承灾体脆弱性评价方法
CN117789042A (zh) * 2024-02-28 2024-03-29 中国地质大学(武汉) 一种道路信息解译方法、***及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN113111835A (zh) * 2021-04-23 2021-07-13 长沙理工大学 卫星遥感图像语义分割方法、装置、电子设备和存储介质
CN113191285A (zh) * 2021-05-08 2021-07-30 山东大学 基于卷积神经网络和Transformer的河湖遥感图像分割方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111797779A (zh) * 2020-07-08 2020-10-20 兰州交通大学 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN113111835A (zh) * 2021-04-23 2021-07-13 长沙理工大学 卫星遥感图像语义分割方法、装置、电子设备和存储介质
CN113191285A (zh) * 2021-05-08 2021-07-30 山东大学 基于卷积神经网络和Transformer的河湖遥感图像分割方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SIXIAO ZHENG 等: "Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers", 《ARXIV:2012.15840V1 [CS.CV]》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359554A (zh) * 2021-11-25 2022-04-15 河南农业大学 一种基于多感受野上下文语义信息的图像语义分割方法
CN114037899A (zh) * 2021-12-01 2022-02-11 福州大学 基于vit的面向高光谱遥感图像分类径向累加位置编码***
CN114022788A (zh) * 2022-01-05 2022-02-08 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN114022788B (zh) * 2022-01-05 2022-03-04 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN114092833A (zh) * 2022-01-24 2022-02-25 长沙理工大学 遥感图像分类方法、装置、计算机设备和存储介质
CN114419449A (zh) * 2022-03-28 2022-04-29 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN114419449B (zh) * 2022-03-28 2022-06-24 成都信息工程大学 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN114780701B (zh) * 2022-04-20 2024-07-02 平安科技(深圳)有限公司 自动问答匹配方法、装置、计算机设备及存储介质
CN114780701A (zh) * 2022-04-20 2022-07-22 平安科技(深圳)有限公司 自动问答匹配方法、装置、计算机设备及存储介质
CN114913339B (zh) * 2022-04-21 2023-12-05 北京百度网讯科技有限公司 特征图提取模型的训练方法和装置
CN114913339A (zh) * 2022-04-21 2022-08-16 北京百度网讯科技有限公司 特征图提取模型的训练方法和装置
CN114758360A (zh) * 2022-04-24 2022-07-15 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN114943963A (zh) * 2022-04-29 2022-08-26 南京信息工程大学 一种基于双分支融合网络的遥感图像云和云影分割方法
CN114842312A (zh) * 2022-05-09 2022-08-02 深圳市大数据研究院 面向不配对跨模态图像分割模型的生成及分割方法、装置
CN114842312B (zh) * 2022-05-09 2023-02-10 深圳市大数据研究院 面向不配对跨模态图像分割模型的生成及分割方法、装置
CN114972220B (zh) * 2022-05-13 2023-02-21 北京医准智能科技有限公司 一种图像处理方法、装置、电子设备及可读存储介质
CN114972220A (zh) * 2022-05-13 2022-08-30 北京医准智能科技有限公司 一种图像处理方法、装置、电子设备及可读存储介质
CN114998653A (zh) * 2022-05-24 2022-09-02 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN114998653B (zh) * 2022-05-24 2024-04-26 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN115019182B (zh) * 2022-07-28 2023-03-24 北京卫星信息工程研究所 遥感图像目标细粒度识别方法、***、设备及存储介质
CN115019182A (zh) * 2022-07-28 2022-09-06 北京卫星信息工程研究所 遥感图像目标细粒度识别方法、***、设备及存储介质
CN115147606A (zh) * 2022-08-01 2022-10-04 深圳技术大学 医学图像的分割方法、装置、计算机设备和存储介质
CN115147606B (zh) * 2022-08-01 2024-05-14 深圳技术大学 医学图像的分割方法、装置、计算机设备和存储介质
CN115761383A (zh) * 2023-01-06 2023-03-07 北京匠数科技有限公司 一种图像分类方法、装置、电子设备及介质
CN116188431A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN116188431B (zh) * 2023-02-21 2024-02-09 北京长木谷医疗科技股份有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN116363143A (zh) * 2023-03-10 2023-06-30 北京长木谷医疗科技有限公司 基于多尺度自注意力机制的髋关节分割方法、装置及设备
CN116310840A (zh) * 2023-05-11 2023-06-23 天地信息网络研究院(安徽)有限公司 一种融合多关键物候期光谱特征的冬小麦遥感识别方法
CN117173525A (zh) * 2023-09-05 2023-12-05 北京交通大学 一种通用型多模态图像融合方法及装置
CN117709580A (zh) * 2023-11-29 2024-03-15 广西科学院 一种基于setr与地理网格的海洋承灾体脆弱性评价方法
CN117789042A (zh) * 2024-02-28 2024-03-29 中国地质大学(武汉) 一种道路信息解译方法、***及存储介质
CN117789042B (zh) * 2024-02-28 2024-05-14 中国地质大学(武汉) 一种道路信息解译方法、***及存储介质

Also Published As

Publication number Publication date
CN113688813B (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN113688813B (zh) 多尺度特征融合遥感影像分割方法、装置、设备和存储器
Dewi et al. Synthetic Data generation using DCGAN for improved traffic sign recognition
CN111160335B (zh) 基于人工智能的图像水印处理方法、装置及电子设备
Dewi et al. Weight analysis for various prohibitory sign detection and recognition using deep learning
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN114022788B (zh) 遥感图像变化检测方法、装置、计算机设备和存储介质
CN112115783A (zh) 基于深度知识迁移的人脸特征点检测方法、装置及设备
CN116258976A (zh) 一种分层次Transformer的高分辨率遥感图像语义分割方法及***
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及***
Zhao et al. Multiscale object detection in high-resolution remote sensing images via rotation invariant deep features driven by channel attention
CN112149590A (zh) 一种手部关键点检测方法
CN116740422A (zh) 基于多模态注意力融合技术的遥感图像分类方法及装置
CN115147606B (zh) 医学图像的分割方法、装置、计算机设备和存储介质
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
CN116310916A (zh) 一种高分辨率遥感城市图像语义分割方法及***
Jiao et al. Extracting wetlands from swiss historical maps with convolutional neural networks
CN113704372B (zh) 基于深度对抗网络的遥感影像转换地图迁移方法和装置
CN113111885B (zh) 一种动态分辨率实例分割方法及计算机可读存储介质
Wang et al. An image forensic method for AI inpainting using faster R-CNN
CN117690033A (zh) 一种融合ai大模型与语义分割技术的影像样本扩展方法、***
Chang et al. Landslide features interpreted by neural network method using a high-resolution satellite image and digital topographic data
Wang et al. Pyramid self-attention mechanism-based change detection in hyperspectral imagery
Park et al. Homography Augmented Momentum Contrastive Learning for SAR Image Retrieval
Yang et al. A deep learning approach for automated segmentation of magnetic bright points in the solar photosphere

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant