CN116310325A - 一种从patch到region架构的大幅面遥感影像语义分割方法 - Google Patents

一种从patch到region架构的大幅面遥感影像语义分割方法 Download PDF

Info

Publication number
CN116310325A
CN116310325A CN202310173080.XA CN202310173080A CN116310325A CN 116310325 A CN116310325 A CN 116310325A CN 202310173080 A CN202310173080 A CN 202310173080A CN 116310325 A CN116310325 A CN 116310325A
Authority
CN
China
Prior art keywords
level
patch
region
image
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310173080.XA
Other languages
English (en)
Inventor
庞世燕
石业鹏
周东波
李畅
陈加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202310173080.XA priority Critical patent/CN116310325A/zh
Publication of CN116310325A publication Critical patent/CN116310325A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明针对高分辨率遥感影像单次处理区域小、分割性能受限制等问题,设计了一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,该架构为分层图像金字塔结构,最下层的是较小的图像块,简称“Patch”,上层的是较大的影像区域,简称“Region”。“Patch”部分处理的对象是较小的图像块,采用的是融合Transformer的U型结构语义分割网络,输出的是像素级别的语义特征。“Region”部分处理对象为较大的影像区域,为了减少计算的参数量,采用全局平均池化算法将“Patch”块输出的像素级别语义特征转换为“Patch”级别的语义特征,之后通过Transformer模块提取“Region”级别的全局上下文信息,最后聚合全局上下文信息和像素级别的语义特征来获得高质量的分割图。该方法在高分辨率遥感影像处理领域具有广泛的应用前景。

Description

一种从PATCH到REGION架构的大幅面遥感影像语义分割方法
技术领域
本发明属于遥感图像处理领域,主要涉及一种从PATCH到REGION架构的大幅面遥感影像语义分割方法。
背景技术
近年来,高分辨率卫星遥感影像的使用越来越普及,影像的质量和分辨率也越来越高,使得高分辨率遥感影像在基础地理信息更新、城市规划设计、国防和军事安全等领域的应用越来越广泛。基于深度学习的遥感影像语义分割作为遥感影像处理领域的一个关键技术,在各种任务中扮演着重要的角色。
基于深度学习的遥感影像语义分割算法通常借鉴计算机视觉领域的图像语义分割算法,在图像语义分割任务中,Long等人首次提出了全卷积网络(FCN),在分类网络的基础上去除了全连接层,通过反卷积恢复特征图分辨率,成功地将图像分类网络转化为图像分割网络。之后,很多学者在此基础上设计了一系列FCN变种网络,如DeepLab系列、Unet系列等,这些网络在遥感影像语义分割领域取得了不错的效果。DeepLab网络可以有效地解决传统CNN网络下采样空间分辨率下降的问题,随后又结合深度可分离卷积、并行的空洞可分离卷积、对称的编码-解码结构等方法对DeepLab网络进行改进,设计了精度更高的DeepLabv2、DeepLab v3、DeepLab v3+系列版本,促进了图像语义分割的发展。UNet网络利用一个与编码结构完全对称的解码结构逐步恢复特征图的分辨率,通过跳转连接来充分利用编码器的各尺度特征,大幅提升了遥感影像语义分割的精度。
但是由于卷积运算的固有局限性,基于卷积运算的网络结构感受野范围有限,缺乏对图像本身的全局理解,不能充分利用图像的上下文信息。同时,具有全局建模能力的Transformer结构在自然语言处理领域广泛应用,在此基础上发展起来的VisionTransformer在图像语义分割领域也得到了迅速发展。Vision Transformer的出现将整张图片进行分块序列化处理,并通过自注意力机制来捕获全局上下文信息,抽取更强有力的特征,提升图像语义分割精度。但Transformer也存在特征分辨率损失、模型训练算力消耗大等问题,虽然不少学者在此基础上进行了改进优化,如Swin Transformer等,一定程度上减少了序列长度,降低了计算复杂度,但在分割细节、训练数据集规模、算力需求等方面仍有不少问题。为此,一些学者设计了融合Transformers和CNN的新网络TransUNet,该网络在具备全局注意力的同时,又很好地保留了图像的局部特征,显著提升了图像分割的精度。
遥感影像语义分割的另外一个问题是处理的影像尺寸过小,由于当前主流的深度学***均池化算法将像素级别的语义特征转换为“Patch”级别的语义特征,之后通过Transformer模块提取全局上下文信息。最后聚合全局上下文信息和像素级别的语义特征来获得高质量的分割图。该方法在高分辨率遥感影像细节特征的同时兼顾了影像Region级别的全局信息,可以有效提升高分辨率遥感影像语义分割的精度。同时,在Region级别由于只处理了稀疏的“Patch”级别的语义特征,对算力和显存的要求相对较低。
发明内容
本发明针对高分辨率遥感影像单次处理区域小、分割性能受限制等问题,设计了一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,该架构为分层图像金字塔结构,最下层的是较小的图像块,简称“Patch”,上层的是较大的影像区域,简称“Region”。“Patch”部分处理的对象是较小的图像块,如256×256尺寸,采用的是融合Transformer的U型结构语义分割网络,输出的是像素级别的语义特征。“Region”部分处理对象为较大的影像区域,为了减少计算的参数量,采用全局平均池化算法将“Patch”块输出的像素级别语义特征转换为“Patch”级别的语义特征,之后通过transformer模块提取“Region”级别的全局上下文信息,最后聚合全局上下文信息和像素级别的语义特征来获得高质量的分割图。该方法在高分辨率遥感影像处理领域具有广泛的应用前景。
本发明采用的技术方案如下:一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,包括如下步骤:
步骤1,语义分割数据集构建,通过高分辨率遥感影像以及对应的矢量文件构建语义分割数据集,包括Patch级数据集与Region级数据集两类;
步骤2,Patch级遥感影像语义分割网络训练,Patch级语义分割网络采用的是U型结构的编码解码结构,在解码器最末端添加注意力模块提升特征表达能力,通过跳转连接融合多尺度特征;训练集采用的是影像尺寸相对小的影像,网络训练阶段输出结果为预测的影像语义标签,通过预测标签与真值计算loss函数;
步骤3,Region级遥感影像网络构建与训练,在Patch级网络的基础上构建用于语义分割的Region级遥感影像语义分割网络,在Patch级网络中,将Region级影像划分为若干Patch,采用Patch级语义分割网络提取每一个Patch的像素级语义特征,然后采用全局平均池化算法将像素级别的语义特征转换为“Patch”级别的语义特征,通过Transformer模块提取Region级的全局上下文信息,最后聚合全局上下文信息和像素级别的语义特征来获得高质量的分割图;在整个训练过程中,Patch级语义分割网络固定模型参数,仅作为特征提取网络使用。
进一步的,步骤1中Patch级数据集与Region级数据集的构建方式如下;
首先以尺寸相对大的影像裁切Region级数据集,包含高分辨率遥感影像及对应的标签,划分训练集、验证集和测试集,然后以尺寸相对小的的影像将Region级数据集裁切为Patch级数据集,裁切过程中训练集、验证集和测试集保持一致,以便于后续的模型质量评估。
进一步的,步骤2中U型结构的编码解码结构包括卷积网络特征提取部分,Transformer特征图编码部分和联级解码模块;
其中卷积网络特征提取部分由特征信息压缩块与信息提取块组成,特征信息压缩模块由卷积层、归一层、激活函数与池化层组成,信息提取模块划分为3个子模块,每个子模块包括三个卷积单元以及残差跳跃连接,对于每个卷积单元由卷积层、归一层与激活函数组成,经过压缩的特征图在经过每个子模块后,特征图的高度和宽度均变为之前的二分之一,同时保留不同大小的特征图作为后续联级解码器的输入特征;
Transformer特征图编码部分由位置嵌入Embedding模块与Transformer编码模块组成;
联级解码模块包括卷积上采样模块、特征拼接模块、语义结果预测模块三个部分,卷积上采样解码块由三个串联的block组成,每个block包含两个卷积层和一个上采样层;特征拼接模块衔接在每一个block之后,通过跳跃连接融合卷积特征提取模块输出的对应尺度下的特征图;通过一系列卷积上采样和特征拼接操作后,获得了和原始影像尺寸一致的融合多尺度信息的高维度影像特征,然后通过语义结果预测模块输出遥感影像语义分割结果。
进一步的,卷积网络特征提取部分输出特征图的长宽变为原始影像的1/16,该部分的特征计算流程如下:
S1(x)=elu(GN(Conv7×7(x)))
F1(x)=elu(BN(Conv1×1(S1(x))))
R1(x)=1(x)+1(x)
F2(x)=elu(BN(Conv3×3(R1(x))))
R2(x)=2(x)+1(x)
F3(x)=Relu(BN(Conv1×1(R2(x))))
R3(x)=F3(x)+R2(x)
其中x是输入的原始影像,S1(x)是对图像的特征压缩处理,Fk(x)是提取影像在经过第k个子模块压缩后的特征,Rk(x)是第k个子模块的残差计算单元,k的取值为1,2,3,Convn×n表示卷积核为n的卷积操作,n的取值为1和7,BN表示对批量样本进行归一化处理,GN表示将样本分组,并以组为单位计算归一化的均值和方差。
进一步的,Embedding模块首先将输入的特征图通过一个卷积操作展平为一个2D的Patch序列,其卷积核大小与步长均为1,每个Patch的大小为上部分输入的特征图大小16×16,数量为768,通过一个可训练的线性投影,将向量化的Patch映射进一个196维的空间,并通过加入位置编码来保留位置信息;
Figure BDA0004099921460000041
式中,E是Patch的嵌入投影,Epos代表位置嵌入,
Figure BDA0004099921460000042
第n个Patch的特征项,M为加入位置编码之后的特征向量;
Transformer编码模块由12块堆叠的Transformer单元组成,每个Transformer单元包含多头注意力机制MSA和多层感知机MLP,多头注意力机制MSA通过多组不同的线性投影使模型在不同位置上捕捉更丰富的特征信息,嵌入位置信息的特征序列经过Transformer编码模块后,充分融合注意力信息,使特征图产生更具分辨性的特征表示,最后经过Layer层进行全局信息提取,输出长度为256,维度为768的序列;
其中每个Transformer单元计算流程具体如下:
x1=norm(x)
x2=x+MultiHead(x1)
y=x2+MLP(norm(x2))
式中x1代表输入序列,x2代表融合注意力信息后的序列,代表与x尺寸一致的输出序列,y代表最终的输出序列,norm指对输入序列归一化处理,MultiHead指通过多组线性投影添加注意力信息,MLP代表多层感知机。
进一步的,block中的卷积层的卷积核的大小均为3,步长为1;上采样层采用的缩放倍数为2,即将特征图的大小扩增为原来的2倍。
进一步的,步骤3的具体实现包括如下子步骤:
步骤3.1,Patch级影像语义特征提取,在该步骤中,首先将Region级影像裁切为Patch级影像,然后采用训练的Patch级遥感影像语义分割网络对裁切后的所有Patch级影像进行处理,输出高维度影像特征;
步骤3.2,具有上下文信息的Patch级别特征提取;在该步骤中,首先采用全局平均池化算法将逐像素的语义特征稀疏化,即将逐像素级别的语义特征转换为Patch级别的语义特征,从而大幅减少全局上下文信息提取过程中的计算量和参数数量;在语义特征稀疏化过程中,通过Norm Layer在每一个Patch级特征图上统计所有维度的值,计算均值和方差做归一化操作获得多个尺寸大小为1×1的像素特征图,然后采用Transformer架构提取Region级别的上下文信息,在这一过程中,将Region区域内Patch级别的语义特征展平为一个2D的序列,和位置信息结合后输入至由6个串联的Transformer单元组成的Transformer模块,获得具有Region级别上下文信息的Patch级别特征;
步骤3.3,具有上下文信息的像素级别特征提取;采用向量广播策略将具有上下文信息的Patch级别特征转成像素级别特征,和Patch级影像语义分割网络获得的像素级特征拼接融合,获得具有Region级别上下文信息的像素级别特征;
步骤3.4,解码网络,解码网络由三个轻量化的卷积网络单元组成,像素级高维特征在经过三个串联且卷积核大小均为3的卷积单元后转变为通道为1的一维特征,之后采用特征维度变换手段将具有Region级别上下文信息的像素级别特征转换成Region级影像尺寸,输入解码网络获得最终的Region级影像尺寸的语义分割结果;
步骤3.5,网络训练与验证,采用Region级数据集中的训练数据集对上述模型进行迭代训练,直到模型收敛,并在Region级数据集上验证模型精度。
进一步的,Region级数据集是由影像尺寸大于等于2048×2048像素的遥感影像构成;Patch级数据集是由影像尺寸小于等于512×512像素的遥感影像构成。
进一步的,步骤2中,为了使Patch模型具有更强的泛化能力,在Patch级数据集上使用随机翻转、颜色变换对影像样本进行增强。
进一步的,步骤3中,为了提升网络的准确性与鲁棒性,在Region级数据集上使用空间数据增强的方法,通过随机旋转、镜像翻折,调整影像的颜色、饱和对度、对比度的方式提高样本的多样性。
与现有技术相比,本发明的优点和有益效果如下:本发明提出了一种从Patch到Region的大幅面遥感影像处理架构,对于大面积地物有着更加精确的分割效果。在高分辨率遥感影像建筑提取数据集上的实验表明:本发明可以有效提升高分辨率遥感影像的语义分割性能,尤其在大尺寸建筑物等弱纹理区域效果提升尤为明显,在高分辨率遥感影像处理领域具有广泛的应用前景。
附图说明
图1是本发明的总体流程图。
图2是Region级遥感影像网络的流程框架。
图3是本发明使用前后效果对比图。
具体实施方式
下面通过以遥感影像作为实施例,并结合附图,对本发明的技术方案作进一步的具体说明。
如图2所示,本发明方法的具体实现包括如下步骤:
步骤1,语义分割数据集构建。通过高分辨率遥感影像以及对应的矢量文件构建语义分割数据集,包括Patch级数据集与Region级数据集两类。步骤2,Patch级遥感影像语义分割网络训练。Patch级语义分割网络采用的是U型结构的编码解码结构,在解码器最末端添加注意力模块提升特征表达能力,通过跳转连接融合多尺度特征。训练集采用的是影像尺寸较小(如256×256)的影像,网络训练阶段输出结果为预测的影像语义标签,通过预测标签与真值计算loss函数,在Region级中应用阶段输出逐像素的语义特征。步骤3,Region级遥感影像网络构建与训练。在Patch级网络的基础上构建用于语义分割的Region级遥感影像语义分割网络,在该网络中,将Region级影像划分为若干Patch,采用Patch级语义分割网络提取每一个Patch的像素级语义特征,然后采用全局平均池化算法将像素级别的语义特征转换为“Patch”级别的语义特征,通过Transformer模块提取Region级的全局上下文信息。最后聚合全局上下文信息和像素级别的语义特征来获得高质量的分割图。在整个训练过程中,Patch级语义分割网络固定模型参数,仅作为特征提取网络使用。
步骤1的具体实现包括如下子步骤:
步骤1.1,矢量数据到栅格标签的转化。本发明中的矢量数据为Shapefile格式,该格式能够遥感影像中建筑物等空间对象的位置及相关属性,通过地理信息软件ArcGIS将shp矢量标签转化成tif栅格标签,生成与高分辨率遥感影像相对应的二值灰度图。
步骤1.2,语义分割数据集构建。首先以较大的影像尺寸(2048及以上)裁切Region级数据集,包含高分辨率遥感影像及对应的标签,划分训练集、验证集和测试集。然后以较小的影像尺寸(如256或512)将Region级数据集裁切为Patch级数据集,裁切过程中训练集、验证集和测试集保持一致,以便于后续的模型质量评估。
步骤2的具体实现包括如下子步骤:
步骤2.1,卷积网络特征提取。卷积网络特征提取部分由特征信息压缩块与信息提取块组成,特征信息压缩模块由卷积层、归一层、激活函数与池化层组成,其中卷积层卷积核的大小为7×7,步长为2,池化层卷积核大小为3,步长为2;信息提取模块划分为3个子模块,每个子模块包括三个卷积单元以及残差跳跃连接,对于每个卷积单元由卷积层、归一层与激活函数组成,经过压缩的特征图在经过每个子模块后,特征图的高度和宽度均变为之前的二分之一,同时保留不同大小的特征图作为后续联级解码器的输入特征。最后卷积网络特征提取部分输出特征图的长宽变为原始影像的1/16。该部分的特征计算流程图下所示:
S1(x)=elu(GN(Conv7×7(x)))
F1(x)=elu(BN(Conv1×1(S1(x))))
R1(x)=1(x)+1(x)
F2(x)=elu(BN(Conv3×3(R1(x))))
R2(x)=2(x)+1(x)
F3(x)=elu(BN(Conv1×1(R2(x))))
R3(x)=3(x)+2(x)
其中x是输入的原始影像,S1(x)是对图像的特征压缩处理,Fn(x)是提取影像在经过第n个子模块压缩后的特征,Rn(x)是第n个子模块的残差计算单元,Convn×n表示卷积核为n的卷积操作,BN表示对批量样本进行归一化处理,GN表示将样本分组,并以组为单位计算归一化的均值和方差。
步骤2.2,Transformer特征图编码。Transformer特征图编码部分由位置嵌入Embedding模块与Transformer编码模块组成,Embedding模块首先将输入的特征图通过一个卷积操作展平为一个2D的Patch序列,其卷积核大小与步长均为1,每个Patch的大小为上部分输入的特征图大小16×16,数量为768,通过一个可训练的线性投影,将向量化的Patch映射进一个196维的空间,并通过加入位置编码来保留位置信息。
Figure BDA0004099921460000071
式中,E是Patch的嵌入投影,Epos代表位置嵌入,
Figure BDA0004099921460000072
第n个Patch的特征项,M为加入位置编码之后的特征向量。
Transformer编码模块由12块堆叠的Transformer单元组成,每个Transformer单元包含多头注意力机制(MSA)和多层感知机(MLP),多头注意力机制(MSA)通过多组不同的线性投影使模型在不同位置上捕捉更丰富的特征信息。嵌入位置信息的特征序列经过Transformer编码模块后,充分融合注意力信息,使特征图产生更具分辨性的特征表示。最后经过Layer层进行全局信息提取,输出长度为256,维度为768的序列。
其中每个Transformer单元计算流程具体如下:
x1=norm(x)
x2=x+MultiHead(x1)
y=x2+MLP(norm(x2))
式中x1代表输入序列,x2代表融合注意力信息后的序列,代表与x尺寸一致的输出序列,y代表最终的输出序列,norm指对输入序列归一化处理,MultiHead指通过多组线性投影添加注意力信息,MLP代表多层感知机。
步骤2.3,联级解码模块。联级解码模块包括卷积上采样模块、特征拼接模块、语义结果预测模块三个部分。卷积上采样解码块由三个串联的block组成,每个block包含两个卷积层和一个上采样层,其中卷积层的卷积核的大小均为3,步长为1,上采样层采用的缩放倍数为2,即将特征图的大小扩增为原来的2倍;特征拼接模块衔接在每一个block之后,通过跳跃连接融合卷积特征提取模块输出的对应尺度下的特征图;通过一系列卷积上采样和特征拼接操作后,获得了和原始影像尺寸一致的融合多尺度信息的高维度影像特征,然后通过语义结果预测模块输出遥感影像语义分割结果。
步骤3的具体实现包括如下子步骤:
步骤3.1,Patch级影像语义特征提取。在该步骤中,首先将Region级影像裁切为Patch级影像,如Region级影像尺寸为2048×2048,Patch级影像大小为256×256,则把Region级影像按照8×8的格网均匀划分成64块。然后采用步骤2.3训练的Patch级遥感影像语义分割网络对裁切后的所有Patch级影像进行处理,需要指出的是本发明中此处输出的是高维度影像特征,而不是最终的语义分割结果。同时,在Patch级影像语义特征提取步骤中,Patch级遥感影像语义分割网络参数固定,不参与后续网络训练过程。
步骤3.2,具有上下文信息的Patch级别特征提取。在该步骤中,首先采用全局平均池化算法将逐像素的语义特征稀疏化,即将逐像素级别的语义特征转换为Patch级别的语义特征,从而大幅减少全局上下文信息提取过程中的计算量和参数数量。在语义特征稀疏化过程中,通过Norm Layer在每一个Patch级特征图上统计所有维度的值,计算均值和方差做归一化操作获得多个尺寸大小为1×1的像素特征图。然后采用Transformer架构提取Region级别的上下文信息。在这一过程中,将Region区域内Patch级别的语义特征展平为一个2D的序列,和位置信息结合后输入至由6个串联的Transformer单元组成的Transformer模块,获得具有Region级别上下文信息的Patch级别特征。
步骤3.3,具有上下文信息的像素级别特征提取。采用向量广播策略将具有上下文信息的Patch级别特征转成像素级别特征,和Patch级影像语义分割网络获得的像素级特征拼接融合,获得具有Region级别上下文信息的像素级别特征。
步骤3.4,解码网络。解码网络由三个轻量化的卷积单元组成。像素级高维特征在经过三个串联且卷积核大小均为3的卷积单元后转变为通道为1的一维特征,之后采用特征维度变换手段将具有Region级别上下文信息的像素级别一维特征转换成Region级影像尺寸,输入解码网络获得最终的Region级影像尺寸的语义分割结果。
步骤3.5,网络训练与验证。采用Region级数据集中的训练数据集对上述模型进行迭代训练,直到模型收敛,并在Region级数据集上验证模型精度。
下面通过以遥感影像作为实施例,并结合附图,对本发明的技术方案作进一步的具体说明。
本发明实施分为三个阶段。
第一阶段,语义分割数据集构建。此阶段需要构建两组不同尺寸的分割数据集,对超高尺寸卫星遥感影像以及相关shapefile矢量数据通过Arcgis转化成灰度二值标签,并通过数据切片的方式将整张影像划分为若干个尺寸大小为2048×2048的不重叠Region级影像,并剔除存在无效数据的边缘区域以及不包含建筑等空间对象的地理区域用于Region级网络的训练。本发明总共采用三组高尺寸官方影像(AIDS、WBDS、Vaihingen)与一组自定义影像(WHDS)来构建Region级数据集评估Region网络模型质量。对于AIDS大面幅影像(443347×336181),切分7764张2048大小的影像用于Region网络的训练,验证集与测试集各2588张;对于WBDS数据集,提供两期不同时间段的大面幅影像(32507×15345),总共切分378张2048大小的影像用于Region网络的训练,验证集与测试集各126张;对于Vaihingen大面幅影像,切分84张2048大小的影像用于Region网络的训练,验证集与测试集各28张;对于自定义WHDS数据集,本发明采集并标注两期不同时间段的大面幅影像(32507×15345)以及相关shapefile矢量数据,总共切分126张2048大小的影像用于Region网络的训练,而验证集与测试集各42张。在筛选划分过后的Region级数据的基础上按顺序切分成块构建Patch级遥感影像数据集,其中每一块的尺寸为256×256。
第二阶段,Patch级遥感影像网络构建与训练。为了验证本发明有效性,在Patch级遥感影像特征提取阶段,基于U型编码-解码架构,设计了两种Patch级语义分割网络,分别为PatchSegNet1、PatchSegNet2为了便于像素级语义特征输出,所有的网络末端添加高维特征提取分支。PatchSegNet1网络解码端仅使用卷积下(上)采样单元逐步缩小(恢复)特征图的分辨率;PatchSegNet2网络在PatchSegNet1网络的基础上引入自注意力机制对编码器的最深层特征处理,提升特征表达的全局建模能力。为了使Patch模型具有更强的泛化能力,本发明在训练过程中从随机翻转、颜色变换的角度对影像样本进行增强。
第三阶段,Region级遥感影像网络构建与训练。在模型训练前,为了提升网络的准确性与鲁棒性,本发明在Region级数据集上使用空间数据增强的方法,通过随机旋转、镜像翻折,调整影像的颜色、饱和对度、对比度等方式提高样本的多样性。
在专利实施中,按照步骤3.1,构建Patch级影像语义特征提取模块,在该模块,将Region级影像(2048×2048)按顺序划分为64块堆叠在一起的Patch块(256×256),之后分别加载阶段二的PatchSegNet1、PatchSegNet12训练模型来提取Patch块的高维语义特征,池化后的高维特征在融合全局注意力机制后按照步骤3.3融合局部与全局信息。
在训练过程中,采用阶段一划分的Region级数据集,使用预训练的权重初始化Region网络并冻结Patch级模型的所有参数,该Patch模块不参与后续的反向传播与梯度更新。本发明对比直接借助Patch模型预测分割图拼合为Region影像的方法,分析基于不同Patch级网络模型的Region网络对高尺寸遥感影像的建筑分割性能。
表2本发明在不同数据集上的IOU指标
Figure BDA0004099921460000101
如表1所示,本发明基于Patch+Region架构的金字塔架构在处理Region级影像时明显要优于将Patch影像简单合成的方法,在AIDS、WBDS、Vaihingen三种数据集上,两种Patch级语义分割网络分割精度良好,使用了本发明的Region级影像处理方法后精度得到了进一步提升。
WHDS数据集由于遥感影像质量较差,两种Patch级语义分割网络分割精度较差,分别为51.06%和55.27%,使用了本发明的Region级影像处理方法后精度得到了大幅提升,分别为60.71%和67.34%。

Claims (10)

1.一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于,包括如下步骤:
步骤1,语义分割数据集构建,通过高分辨率遥感影像以及对应的矢量文件构建语义分割数据集,包括Patch级数据集与Region级数据集两类;
步骤2,Patch级遥感影像语义分割网络训练,Patch级语义分割网络采用的是U型结构的编码解码结构,在解码器最末端添加注意力模块提升特征表达能力,通过跳转连接融合多尺度特征;训练集采用的是影像尺寸相对小的影像,网络训练阶段输出结果为预测的影像语义标签,通过预测标签与真值计算loss函数;
步骤3,Region级遥感影像网络构建与训练,在Patch级网络的基础上构建用于语义分割的Region级遥感影像语义分割网络,在Patch级网络中,将Region级影像划分为若干Patch,采用Patch级语义分割网络提取每一个Patch的像素级语义特征,然后采用全局平均池化算法将像素级别的语义特征转换为“Patch”级别的语义特征,通过Transformer模块提取Region级的全局上下文信息,最后聚合全局上下文信息和像素级别的语义特征来获得高质量的分割图;在整个训练过程中,Patch级语义分割网络固定模型参数,仅作为特征提取网络使用。
2.如权利要求1所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:步骤1中Patch级数据集与Region级数据集的构建方式如下;
首先以尺寸相对大的影像裁切Region级数据集,包含高分辨率遥感影像及对应的标签,划分训练集、验证集和测试集,然后以尺寸相对小的的影像将Region级数据集裁切为Patch级数据集,裁切过程中训练集、验证集和测试集保持一致,以便于后续的模型质量评估。
3.如权利要求1所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:步骤2中U型结构的编码解码结构包括卷积网络特征提取部分,Transformer特征图编码部分和联级解码模块;
其中卷积网络特征提取部分由特征信息压缩块与信息提取块组成,特征信息压缩模块由卷积层、归一层、激活函数与池化层组成,信息提取模块划分为3个子模块,每个子模块包括三个卷积单元以及残差跳跃连接,对于每个卷积单元由卷积层、归一层与激活函数组成,经过压缩的特征图在经过每个子模块后,特征图的高度和宽度均变为之前的二分之一,同时保留不同大小的特征图作为后续联级解码器的输入特征;
Transformer特征图编码部分由位置嵌入Embedding模块与Transformer编码模块组成;
联级解码模块包括卷积上采样模块、特征拼接模块、语义结果预测模块三个部分,卷积上采样解码块由三个串联的block组成,每个block包含两个卷积层和一个上采样层;特征拼接模块衔接在每一个block之后,通过跳跃连接融合卷积特征提取模块输出的对应尺度下的特征图;通过一系列卷积上采样和特征拼接操作后,获得了和原始影像尺寸一致的融合多尺度信息的高维度影像特征,然后通过语义结果预测模块输出遥感影像语义分割结果。
4.如权利要求3所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:卷积网络特征提取部分输出特征图的长宽变为原始影像的1/16,该部分的特征计算流程如下:
S1(x)=Relu(GN(Conv7×7(x)))
F1(x)=Relu(BN(Conv1×1(S1(x))))
R1(x)=F1(x)+S1(x)
F2(x)=Relu(BN(Conv3×3(R1(x))))
R2(x)=F2(x)+R1(x)
x3(x)=Relu(BN(Conv1×1(R2(x))))
R3(x)=F3(x)+R2(x)
其中x是输入的原始影像,S1(x)是对图像的特征压缩处理,Fk(x)是提取影像在经过第k个子模块压缩后的特征,Rk(x)是第k个子模块的残差计算单元,k的取值为1,2,3,Convn×n表示卷积核为n的卷积操作,n的取值为1和7,BN表示对批量样本进行归一化处理,GN表示将样本分组,并以组为单位计算归一化的均值和方差。
5.如权利要求3所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:Embedding模块首先将输入的特征图通过一个卷积操作展平为一个2D的Patch序列,其卷积核大小与步长均为1,每个Patch的大小为上部分输入的特征图大小16×16,数量为768,通过一个可训练的线性投影,将向量化的Patch映射进一个196维的空间,并通过加入位置编码来保留位置信息;
Figure FDA0004099921450000021
式中,E是Patch的嵌入投影,Epos代表位置嵌入,
Figure FDA0004099921450000022
第n个Patch的特征项,M为加入位置编码之后的特征向量;
Transformer编码模块由12块堆叠的Transformer单元组成,每个Transformer单元包含多头注意力机制MSA和多层感知机MLP,多头注意力机制MSA通过多组不同的线性投影使模型在不同位置上捕捉更丰富的特征信息,嵌入位置信息的特征序列经过Transformer编码模块后,充分融合注意力信息,使特征图产生更具分辨性的特征表示,最后经过Layer层进行全局信息提取,输出长度为256,维度为768的序列;
其中每个Transformer单元计算流程具体如下:
x1=norm(x)
x2=x+MultiHead(x1)
y=x2+MLP(norm(x2))
式中x1代表输入序列,x2代表融合注意力信息后的序列,代表与x尺寸一致的输出序列,y代表最终的输出序列,norm指对输入序列归一化处理,MultiHead指通过多组线性投影添加注意力信息,MLP代表多层感知机。
6.如权利要求3所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:block中的卷积层的卷积核的大小均为3,步长为1;上采样层采用的缩放倍数为2,即将特征图的大小扩增为原来的2倍。
7.如权利要求1所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:步骤3的具体实现包括如下子步骤:
步骤3.1,Patch级影像语义特征提取,在该步骤中,首先将Region级影像裁切为Patch级影像,然后采用训练的Patch级遥感影像语义分割网络对裁切后的所有Patch级影像进行处理,输出高维度影像特征;
步骤3.2,具有上下文信息的Patch级别特征提取;在该步骤中,首先采用全局平均池化算法将逐像素的语义特征稀疏化,即将逐像素级别的语义特征转换为Patch级别的语义特征,从而大幅减少全局上下文信息提取过程中的计算量和参数数量;在语义特征稀疏化过程中,通过Norm Layer在每一个Patch级特征图上统计所有维度的值,计算均值和方差做归一化操作获得多个尺寸大小为1×1的像素特征图,然后采用Transformer架构提取Region级别的上下文信息,在这一过程中,将Region区域内Patch级别的语义特征展平为一个2D的序列,和位置信息结合后输入至由6个串联的Transformer单元组成的Transformer模块,获得具有Region级别上下文信息的Patch级别特征;
步骤3.3,具有上下文信息的像素级别特征提取;采用向量广播策略将具有上下文信息的Patch级别特征转成像素级别特征,和Patch级影像语义分割网络获得的像素级特征拼接融合,获得具有Region级别上下文信息的像素级别特征;
步骤3.4,解码网络,解码网络由三个轻量化的卷积网络单元组成,像素级高维特征在经过三个串联且卷积核大小均为3的卷积单元后转变为通道为1的一维特征,之后采用特征维度变换手段将具有Region级别上下文信息的像素级别特征转换成Region级影像尺寸,输入解码网络获得最终的Region级影像尺寸的语义分割结果;
步骤3.5,网络训练与验证,采用Region级数据集中的训练数据集对上述模型进行迭代训练,直到模型收敛,并在Region级数据集上验证模型精度。
8.如权利要求1所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:Region级数据集是由影像尺寸大于等于2048×2048像素的遥感影像构成;Patch级数据集是由影像尺寸小于等于512×512像素的遥感影像构成。
9.如权利要求1所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:步骤2中,为了使Patch模型具有更强的泛化能力,在Patch级数据集上使用随机翻转、颜色变换对影像样本进行增强。
10.如权利要求1所述的一种从PATCH到REGION架构的大幅面遥感影像语义分割方法,其特征在于:步骤3中,为了提升网络的准确性与鲁棒性,在Region级数据集上使用空间数据增强的方法,通过随机旋转、镜像翻折,调整影像的颜色、饱和对度、对比度的方式提高样本的多样性。
CN202310173080.XA 2023-02-23 2023-02-23 一种从patch到region架构的大幅面遥感影像语义分割方法 Pending CN116310325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310173080.XA CN116310325A (zh) 2023-02-23 2023-02-23 一种从patch到region架构的大幅面遥感影像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310173080.XA CN116310325A (zh) 2023-02-23 2023-02-23 一种从patch到region架构的大幅面遥感影像语义分割方法

Publications (1)

Publication Number Publication Date
CN116310325A true CN116310325A (zh) 2023-06-23

Family

ID=86795409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310173080.XA Pending CN116310325A (zh) 2023-02-23 2023-02-23 一种从patch到region架构的大幅面遥感影像语义分割方法

Country Status (1)

Country Link
CN (1) CN116310325A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593639A (zh) * 2023-11-21 2024-02-23 北京天鼎殊同科技有限公司 公路及其附属物的提取方法、装置、设备及介质
CN117893922A (zh) * 2024-01-25 2024-04-16 中国自然资源航空物探遥感中心 一种大幅面遥感影像语义分割方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593639A (zh) * 2023-11-21 2024-02-23 北京天鼎殊同科技有限公司 公路及其附属物的提取方法、装置、设备及介质
CN117593639B (zh) * 2023-11-21 2024-05-28 北京天鼎殊同科技有限公司 公路及其附属物的提取方法、装置、设备及介质
CN117893922A (zh) * 2024-01-25 2024-04-16 中国自然资源航空物探遥感中心 一种大幅面遥感影像语义分割方法及***

Similar Documents

Publication Publication Date Title
CN113362223B (zh) 基于注意力机制和双通道网络的图像超分辨率重建方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN116310325A (zh) 一种从patch到region架构的大幅面遥感影像语义分割方法
CN115984714B (zh) 一种基于双分支网络模型的云检测方法
CN113313180B (zh) 一种基于深度对抗学习的遥感图像语义分割方法
CN113221874A (zh) 基于Gabor卷积和线性稀疏注意力的文字识别***
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN114022408A (zh) 基于多尺度卷积神经网络的遥感图像云检测方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN111401247A (zh) 一种基于级联卷积神经网络的人像分割方法
Huang et al. Compressing multidimensional weather and climate data into neural networks
CN115330620A (zh) 一种基于循环生成对抗网络的图像去雾方法
CN117058367A (zh) 高分辨率遥感影像建筑物语义分割方法及装置
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN115660979A (zh) 一种基于注意力机制的双判别器图像修复方法
CN113705340B (zh) 一种基于雷达遥感数据的深度学习变化检测方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN117830788A (zh) 一种多源信息融合的图像目标检测方法
CN117876679A (zh) 一种基于卷积神经网络的遥感图像场景分割方法
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
CN116630387A (zh) 基于注意力机制的单目图像深度估计方法
CN115187775A (zh) 一种遥感图像语义分割方法及装置
CN115424243A (zh) 基于yolov5-shufflenetv2的车位号码识别方法、设备和介质
Liu et al. Second-order attention network for magnification-arbitrary single image super-resolution
Pang et al. PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination