CN116071650A - 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 - Google Patents

一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 Download PDF

Info

Publication number
CN116071650A
CN116071650A CN202310120396.2A CN202310120396A CN116071650A CN 116071650 A CN116071650 A CN 116071650A CN 202310120396 A CN202310120396 A CN 202310120396A CN 116071650 A CN116071650 A CN 116071650A
Authority
CN
China
Prior art keywords
remote sensing
sensing image
feature
convolution
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310120396.2A
Other languages
English (en)
Inventor
徐崇辉
陈炜峰
胡凯
徐德邻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202310120396.2A priority Critical patent/CN116071650A/zh
Publication of CN116071650A publication Critical patent/CN116071650A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,涉及遥感影像分割与计算机视觉技术交叉领域。该融合卷积神经网络与Transformer的遥感影像建筑物提取方法,将获取的遥感影像,制作成遥感影像数据集并逐一打好标签,并将遥感影像数据集划分为训练集、验证集和测试集;对遥感影像经处理后得到的遥感图像进行预处理,增加数据的多样性;将预处理后的遥感图像进行特征提取,收集包含建筑物信息的特征图,并获得图像的全局特征。该方法可以显著降低对于小目标建筑物错检、漏检的问题,提高大目标建筑物分割的完整性,改善目标建筑物边缘信息提取不足导致的边界模糊问题。

Description

一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法
技术领域
本发明涉及遥感影像分割与计算机视觉技术交叉技术领域,具体为一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法。
背景技术
遥感影像建筑物的提取本质可以看成是一种图像分割过程。目前基于深度学习的图像分割模型大都是使用卷积神经网络(CNN)的方法。2015年,Jonathan Long等人提出了FCN实现了第一个完整的端到端的语义分割框架,它通过卷积和池化操作逐层学习图像的特征,并用完全卷积层取代完全连接层,通过跳跃连接和上采样,逐像素生成原始图像的分割图。但卷积操作基于其卷积核的大小只是对于局部进行计算,不能获取长距离依赖关系,且经过池化的多次下采样会导致图像的细节信息丢失。这都使得现有的基于深度学习的方法对于建筑物的特征提取能力不足,导致分割的图像精度不高。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,可以显著降低对于小目标建筑物错检、漏检的问题,提高大目标建筑物分割的完整性,改善目标建筑物边缘信息提取不足导致的边界模糊问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,包括:
将获取的遥感影像,制作成遥感影像数据集并逐一打好标签,并将遥感影像数据集划分为训练集、验证集和测试集;
对遥感影像经处理后得到的遥感图像进行预处理,增加数据的多样性;
将预处理后的遥感图像进行特征提取,收集包含建筑物信息的特征图;并获得图像的全局特征;
将收集到的包含建筑物信息的特征图和获得到的图像的全局特征进行特征融合,得到包含局部信息与全局信息的语义特征,并将获得包含丰富上下文信息的特征映射;
将划分好的训练集和验证集样本经过预处理操作之后,进行训练,迭代数轮直至模型收敛,保存训练好的模型权重;
对划分好的测试集进行分割并分类,得到模型输出的可视化结果对模型进行评估。
优选的,所述收集包含建筑物信息的特征图通过Resnet B l ock实现,所述Resnet B l ock具体计算步骤如下:
输入一个特征图A,首先经过第一个1×1卷积进行通道信息的交互,然后经过一个3×3卷积进行特征提取,最后再经过一个1×1进行通道数调整,然后通过残差连接与输入的特征图A相加得到提取的特征C;在残差连接中加入1×1卷积来对输入特征图A进行下采样;数学表达式如下:
C=f1×1(f3×3(f1×1(A)))+f1×1(A)
其中,f1×1和f3×3分别表示卷积核为1×1和3×3的卷积。
优选的,所述获得图像的全局特征通过Swi n Transformer B l ock实现,所述Swi n Transformer B l ock设计的具体步骤如下:
所述Swi n Transformer B l ock包括交替设置的窗口多头自注意力层、偏移的窗口多头自注意力层和多层感知机,每个多头自注意力层、偏移的窗口多头自注意力层和多层感知机之前都连接一个标准化层;每经过一个标准化层层之前都会有一个残差连接将经过多头自注意力层、偏移的窗口多头自注意力层或多层感知机的特征进行连接;数学计算表达式如下:
Figure BDA0004079755020000031
Figure BDA0004079755020000032
Figure BDA0004079755020000033
Figure BDA0004079755020000034
其中,W-MSA表示窗口多头自注意力层,SW-MSA表示偏移的窗口多头自注意力层,MLP表示多层感知机,LN表示标准化层,xl-1表示上一个编码器的输出序列,
Figure BDA0004079755020000035
表示第l块W-MSA的输出序列,
Figure BDA0004079755020000036
表示第l+1块SW-MSA的输出序列,xl和xl+1分别表示第l和第l+1块MLP的输出序列。
优选的,所述得到包含局部信息与全局信息的语义特征通过自适应注意力模块实现,所述自适应注意力模块计算步骤如下:
对提取的特征Ci与Ti进行Concat操作并通过一个1×1卷积进行的信息交互,经过全局平均池化对空间信息压缩得到1×1×C的向量,经过一个S i gmo i d非线性激活函数得到通道特征权重,将得到的权重与分别经过1×1卷积的Ci与Ti进行矩阵乘法得到具有通道注意力的特征图FCi和FTi,FCi表示重点关注CNN提取的特征,FTi表示重点关注Transformer提取的特征;最后将两个特征向量相加得到融合后的特征信息Fi,数学表达式如下:
Figure BDA0004079755020000037
Figure BDA0004079755020000038
Fi=FCi+FTi,i=1,2,3,4
其中,i表示网络特征提取的四个阶段,f1×1表示卷积核为1×1的卷积,
Figure BDA0004079755020000039
表示矩阵乘法,Avgpoo l表示全局平均池化,Concat表示将不同的特征图进行拼接。
优选的,所述获得包含丰富上下文信息的特征映射通过多尺度特征融合模块实现,所述多尺度特征融合模块计算步骤如下:
输入四个不同尺度特征图Fi分别经过3×3卷积进行特征图分辨率的调整,得到统一分辨率大小的特征图,然后经过Concat将四个特征图进行拼接得到包含丰富上下文信息的图像特征W;数学变换如下所示:
W=Concat[f3×3(F1),f3×3(F2),f3×3(F3),f3×3(F4)]
其中,f3×3表示卷积核为3×3的卷积,Concat表示将不同的特征图进行拼接,i=1,2,3,4。
优选的,所述对划分好的测试集进行分割并分类,得到模型输出的可视化结果对模型进行评估,具体包括:
采用Accuracy、Prec i s ion、Reca l l、F1分数和mIoU指标来评估算法性能,其数学描述分别如下:
Figure BDA0004079755020000041
Figure BDA0004079755020000042
Figure BDA0004079755020000043
Figure BDA0004079755020000044
Figure BDA0004079755020000045
其中,Accuracy表示正确分类像素所占比例,Preci s ion正确分类的正象素占所有预测正像素的比例,Reca l l表示正确分类的正像素占所有正像素的比例,F1表示综合Prec i s ion和Reca l l性能的指标,mIoU为平均交并比,用来表示图像分割的精度,TP、TN、FP、FN分别表示真正例、真负例、假正例、假负例的像素点数目。
第二方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
第三方面,提供了一种计算设备,包括:
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
(三)有益效果
本发明一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,针对输入遥感影像在神经网络中经过卷积和池化操作降低特征图尺寸来提取特征会丢失细节信息。且在特征提取过程中,卷积操作不能获取长距离依赖关系的局限性。通过结合CNN强大的局部细节特征提取能力和Transformer的全局建模能力的优点来提取遥感图像建筑物的信息。使用CNN与Transformer双支网络并行提取图像特征。其次,设计了自适应特征融合模块将两个分支每个阶段得到的特征图进行信息交互。最后,通过一个多尺度融合模块得包含丰富上下文信息的多尺度特征映射。将本发明所提算法应用于遥感影像建筑物提取任务中,可以显著降低对于小目标建筑物错检、漏检的问题,提高大目标建筑物分割的完整性,改善目标建筑物边缘信息提取不足导致的边界模糊问题。
附图说明
图1为本发明遥感影像建筑物提取方法的整体流程示意图;
图2为本发明遥感影像建筑物提取的整体网络结构示意图;
图3为本发明提供的Swi n Transformer B l ock的结构示意图;
图4为本发明提供的ResNet B l ock结构示意图;
图5为本发明提供的自适应注意力模块结构示意图;
图6为本发明提供的多尺度特征融合模块结构示意图;
图7为本发明遥感影像建筑物提取方法的建筑物提取效果示意图。
具体实施方式
下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本发明实施例提供一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,包括:
模型整体结构如图2所示。使用CNN与Transformer双支网络并行提取遥感图像特征,每个分支包含四个特征提取阶段。然后通过自适应注意模块(T)将每个阶段提取的特征交互得到包含局部信息与全局信息的四个不同尺度的特征,再经过多尺度特征融合模块(Mu l t i-sca l e Feature Fus ion Modu l e)来获得包含丰富上下文信息的多尺度特征映射。最后通过上采(Up-samp l i ng)恢复特征图到原始分辨率大小来进行像素级分割
具体的方步骤为:
步骤一:制作数据集
获取高分辨率遥感影像,制作包含多种类别的遥感影像数据集并逐一打好标签。将遥感图像分割为512×512像素大小。将制作好的数据集按照7:2:1随机划分为训练集、验证集和测试集。
步骤二:数据预处理:
对输入图像进行预处理。预处理通过使用一些图像增强的方法来增加数据的多样性,从而提升模型的泛化能力。其中,图像增强包括1°~360°随机旋转、随机水平翻转、随机垂直翻转、0.5~1.0倍率随机缩放、随机对比度变化等,在训练时会随机采用上述任意几种的图像增强方法将训练样本输入设计的网络模型中。
步骤三:通过CNN与Transformer双支网络并行提取特征
将经过步骤二的图像通过CNN与Transformer进行特征提取。CNN分支包括四个特征提取阶段,每个阶段通过ResNet Bl ock来提取图像特征,每经过一个ResNet B l ock图像分辨率都会减半,通道数翻倍。Resnet B l ock结构如图3所示。输入一个特征图A,首先经过第一个1×1卷积进行通道信息的交互,然后经过一个3×3卷积进行特征提取,最后再经过一个1×1进行通道数调整,然后通过残差连接与输入的特征图A相加得到提取的特征C。在残差连接中加入1×1卷积来对输入特征图A进行下采样。数学表达式如下:
C=f1×1(f3×3(f1×1(A)))+f1×1(A)
上式中,f1×1和f3×3分别表示卷积核为1×1和3×3的卷积。
并行分支使用Transformer来提取图像特征,该分支也包括四个特征提取阶段。每个阶段包含一个Patch i ng Mergi ng层和一个Swi n Transformer Bl ock。Patch i ngMergi ng层的作用是对图像降分辨率进行下采样。然后通过Swi n Transformer B l ock的对图像进特征提取。Swi n Transformer通过将图片划分成一系列窗口,在窗口内通过自注意力机制计算每个像素之间的关联性,然后再通过滑动窗口使独立的窗口之间进行信息交互,从而获得图像的全局特征。
Swi n Transformer Bl ock如图4所示。主要包括交替设置的窗口多头自注意力层(W-MSA)、偏移的窗口多头自注意力层(SW-MSA)和多层感知器(MLP),每个W-MSA、SW-MSA和MLP之前都连接一个标准化层(LN)。每经过一个LN层之前都会有一个残差连接将经过W-MSA、SW-MSA或MLP的特征进行连接。数学计算表达式如下:
Figure BDA0004079755020000081
Figure BDA0004079755020000082
Figure BDA0004079755020000083
Figure BDA0004079755020000084
其中,W-MSA表示窗口多头自注意力层,SW-MSA表示偏移的窗口多头自注意力层,MLP表示多层感知机,LN表示标准化层,xl-1表示上一个编码器的输出序列,
Figure BDA0004079755020000085
表示第l块W-MSA的输出序列,
Figure BDA0004079755020000086
表示第l+1块SW-MSA的输出序列,xl和xl+1分别表示第l和第l+1块MLP的输出序列。
步骤四:融合两个分支的信息
将步骤三中CNN与Transformer每个阶段提取的特征通过自适应注意力模块交互信息。首先就CNN与Transformer提取的特征Ci与Ti进行Concat操作并通过一个1×1卷积进行CNN与Transformer的信息交互,然后经过全局平均池化(AvgPooling)对空间信息压缩得到1×1×C的向量,经过一个S i gmo i d非线性激活函数得到通道特征权重,然后将得到的权重与分别经过1×1卷积的Ci与Ti进行矩阵乘法得到具有通道注意力的特征图FCi和FTi,FCi表示重点关注CNN提取的特征,FTi表示重点关注Transformer提取的特征。最后将两个特征向量相加得到融合后的特征信息Fi。其结构如图5所示。数学表达式如下:
Figure BDA0004079755020000087
Figure BDA0004079755020000088
Fi=FCi+FTi,i=1,2,3,4
上式中,i表示网络特征提取的四个阶段,f1×1表示卷积核为1×1的卷积,
Figure BDA0004079755020000091
表示矩阵乘法,Avgpool表示全局平均池化,Concat表示将不同的特征图进行拼接。
将CNN与Transformer交互后得到的四个不同尺度的特征图经过多尺度特征融合模块获得丰富的上下文语义特征信息。多尺度特征融合模块结构如图6所示。输入四个不同尺度特征图Fi(i=1,2,3,4)分别经过3×3卷积进行特征图分辨率的调整,得到统一分辨率大小的特征图,然后经过Concat将四个特征图进行拼接得到包含丰富上下文信息的图像特征W。其结构如图6所示。数学变换如下所示:
W=Concat[f3×3(F1),f3×3(F2),f3×3(F3),f3×3(F4)]
上式中,f3×3表示卷积核为3×3的卷积,Concat表示将不同的特征图进行拼接。
之后经过上采样模块,用双线性插值法对合并后的特征图进行上采样,将特征图尺寸恢复至原分辨率大小,最后经过1×1卷积输出分割的图像。
步骤五:模型训练
将步骤一中划分好的训练集和验证集样本经过步骤二所述的数据预处理之后,输入设计好的网络中进行训练。利用反向传播策略更新网络权值。在模型训练之前,设置合适的超参数并初始化:设定迭代次数为500轮,每次输入网络模型的遥感图像数量为4,选择Adam优化器,初始学习率设定为0.002并在训练过程中使用余弦衰减策略来防止模型训练时陷入局部最优解,损失函数选用交叉熵损失函数来衡量输入与输出的接近程度。
步骤六:模型评估
利用所述的融合卷积神经网络与Transformer的遥感影像建筑物提取的模型对步骤一中划分好的测试集进行分割,得到模型输出的可视化结果。如附图7所示,其中图7中(a)为输入遥感影像,图7中(b)为输出分割图片。
本发明采用Accuracy、Prec i s i on、Reca l l、F1和mI oU等指标来评估算法性能。其数学描述分别如下:
Figure BDA0004079755020000101
Figure BDA0004079755020000102
Figure BDA0004079755020000103
Figure BDA0004079755020000104
Figure BDA0004079755020000105
上式中,Accuracy表示正确分类像素所占比例,Prec i s i on正确分类的正象素占所有预测正像素的比例,Reca l l表示正确分类的正像素占所有正像素的比例,F1表示综合Prec i s i on和Reca l l性能的指标,mI oU为平均交并比,用来表示图像分割的精度,TP、TN、FP、FN分别表示真正例、真负例、假正例、假负例的像素点数目。
通过实验证明该方法对于遥感影像建筑物提取具有明显效果。具体指标为:Accuracy达到了0.98,Prec i s i on达到了0.93,Reca l l达到了0.96,F1达到了0.94,mIoU达到了0.81。
本申请的实施例可提供为方法或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScr i pt等。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,其特征在于,包括:
将获取的遥感影像,制作成遥感影像数据集并逐一打好标签,并将遥感影像数据集划分为训练集、验证集和测试集;
对遥感影像经处理后得到的遥感图像进行预处理,增加数据的多样性;
将预处理后的遥感图像进行特征提取,收集包含建筑物信息的特征图;并获得图像的全局特征;
将收集到的包含建筑物信息的特征图和获得到的图像的全局特征进行特征融合,得到包含局部信息与全局信息的语义特征,并将获得包含丰富上下文信息的特征映射;
将划分好的训练集和验证集样本经过预处理操作之后,进行训练,迭代数轮直至模型收敛,保存训练好的模型权重;
对划分好的测试集进行分割并分类,得到模型输出的可视化结果对模型进行评估。
2.根据权利要求1所述的一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,其特征在于:所述收集包含建筑物信息的特征图通过ResnetBlock实现,所述ResnetBlock具体计算步骤如下:
输入一个特征图A,首先经过第一个1×1卷积进行通道信息的交互,然后经过一个3×3卷积进行特征提取,最后再经过一个1×1进行通道数调整,然后通过残差连接与输入的特征图A相加得到提取的特征C;在残差连接中加入1×1卷积来对输入特征图A进行下采样;数学表达式如下:
C=f1×1(f3×3(f1×1(A)))+f1×1(A)
其中,f1×1和f3×3分别表示卷积核为1×1和3×3的卷积。
3.根据权利要求2所述的一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,其特征在于:所述获得图像的全局特征通过Swin TransformerBlock实现,所述SwinTransformerBlock设计的具体步骤如下:
所述SwinTransformerBlock包括交替设置的窗口多头自注意力层、偏移的窗口多头自注意力层和多层感知机,每个多头自注意力层、偏移的窗口多头自注意力层和多层感知机之前都连接一个标准化层;每经过一个标准化层层之前都会有一个残差连接将经过多头自注意力层、偏移的窗口多头自注意力层或多层感知机的特征进行连接;数学计算表达式如下:
Figure FDA0004079755010000021
Figure FDA0004079755010000022
Figure FDA0004079755010000023
Figure FDA0004079755010000024
其中,W-MSA表示窗口多头自注意力层,SW-MSA表示偏移的窗口多头自注意力层,MLP表示多层感知机,LN表示标准化层,xl-1表示上一个编码器的输出序列,
Figure FDA0004079755010000025
表示第l块W-MSA的输出序列,
Figure FDA0004079755010000026
表示第l+1块SW-MSA的输出序列,xl和xl+1分别表示第l和第l+1块MLP的输出序列。
4.根据权利要求1所述的一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,其特征在于:所述得到包含局部信息与全局信息的语义特征通过自适应注意力模块实现,所述自适应注意力模块计算步骤如下:
对提取的特征Ci与Ti进行Concat操作并通过一个1×1卷积进行的信息交互,经过全局平均池化对空间信息压缩得到1×1×C的向量,经过一个Sigmoid非线性激活函数得到通道特征权重,将得到的权重与分别经过1×1卷积的Ci与Ti进行矩阵乘法得到具有通道注意力的特征图FCi和FTi,FCi表示重点关注CNN提取的特征,FTi表示重点关注Transformer提取的特征;最后将两个特征向量相加得到融合后的特征信息Fi,数学表达式如下:
Figure FDA0004079755010000031
Figure FDA0004079755010000032
Fi=FCi+FTi,i=1,2,3,4
其中,i表示网络特征提取的四个阶段,f1×1表示卷积核为1×1的卷积,
Figure FDA0004079755010000033
表示矩阵乘法,Avgpool表示全局平均池化,Concat表示将不同的特征图进行拼接。
5.根据权利要求4所述的一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,其特征在于:所述获得包含丰富上下文信息的特征映射通过多尺度特征融合模块实现,所述多尺度特征融合模块计算步骤如下:
输入四个不同尺度特征图Fi分别经过3×3卷积进行特征图分辨率的调整,得到统一分辨率大小的特征图,然后经过Concat将四个特征图进行拼接得到包含丰富上下文信息的图像特征W;数学变换如下所示:
W=Concat[f3×3(F1),f3×3(F2),f3×3(F3),f3×3(F4)]
其中,f3×3表示卷积核为3×3的卷积,Concat表示将不同的特征图进行拼接,i=1,2,3,4。
6.根据权利要求1所述的一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法,其特征在于:所述对划分好的测试集进行分割并分类,得到模型输出的可视化结果对模型进行评估,具体包括:
采用Accuracy、Precision、Recall、F1分数和mIoU指标来评估算法性能,其数学描述分别如下:
Figure FDA0004079755010000034
Figure FDA0004079755010000041
Figure FDA0004079755010000042
Figure FDA0004079755010000043
Figure FDA0004079755010000044
其中,Accuracy表示正确分类像素所占比例,Precision正确分类的正象素占所有预测正像素的比例,Recall表示正确分类的正像素占所有正像素的比例,F1表示综合Precision和Recall性能的指标,mIoU为平均交并比,用来表示图像分割的精度,TP、TN、FP、FN分别表示真正例、真负例、假正例、假负例的像素点数目。
7.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-6所述的方法中的任一方法。
8.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-6所述的方法中的任一方法的指令。
CN202310120396.2A 2023-02-16 2023-02-16 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 Pending CN116071650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310120396.2A CN116071650A (zh) 2023-02-16 2023-02-16 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310120396.2A CN116071650A (zh) 2023-02-16 2023-02-16 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法

Publications (1)

Publication Number Publication Date
CN116071650A true CN116071650A (zh) 2023-05-05

Family

ID=86171327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310120396.2A Pending CN116071650A (zh) 2023-02-16 2023-02-16 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法

Country Status (1)

Country Link
CN (1) CN116071650A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665053A (zh) * 2023-05-30 2023-08-29 浙江时空智子大数据有限公司 顾及阴影信息的高分辨遥感影像建筑物识别方法及***
CN116824525A (zh) * 2023-08-29 2023-09-29 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法
CN116958424A (zh) * 2023-07-12 2023-10-27 源海广筑工程科技(河南)有限公司 基于平面图的三维建筑模型生成方法及***
CN117237623A (zh) * 2023-08-04 2023-12-15 山东大学 一种无人机遥感图像语义分割方法及***
CN117612023A (zh) * 2023-11-23 2024-02-27 国网江苏省电力有限公司扬州供电分公司 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法
CN117611600A (zh) * 2024-01-22 2024-02-27 南京信息工程大学 一种图像分割方法、***、存储介质及设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665053A (zh) * 2023-05-30 2023-08-29 浙江时空智子大数据有限公司 顾及阴影信息的高分辨遥感影像建筑物识别方法及***
CN116665053B (zh) * 2023-05-30 2023-11-07 浙江时空智子大数据有限公司 顾及阴影信息的高分辨遥感影像建筑物识别方法及***
CN116958424A (zh) * 2023-07-12 2023-10-27 源海广筑工程科技(河南)有限公司 基于平面图的三维建筑模型生成方法及***
CN116958424B (zh) * 2023-07-12 2024-05-07 源海广筑工程科技(河南)有限公司 基于平面图的三维建筑模型生成方法及***
CN117237623A (zh) * 2023-08-04 2023-12-15 山东大学 一种无人机遥感图像语义分割方法及***
CN117237623B (zh) * 2023-08-04 2024-03-29 山东大学 一种无人机遥感图像语义分割方法及***
CN116824525A (zh) * 2023-08-29 2023-09-29 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法
CN116824525B (zh) * 2023-08-29 2023-11-14 中国石油大学(华东) 一种基于交通道路影像的图像信息提取方法
CN117612023A (zh) * 2023-11-23 2024-02-27 国网江苏省电力有限公司扬州供电分公司 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法
CN117611600A (zh) * 2024-01-22 2024-02-27 南京信息工程大学 一种图像分割方法、***、存储介质及设备
CN117611600B (zh) * 2024-01-22 2024-03-29 南京信息工程大学 一种图像分割方法、***、存储介质及设备

Similar Documents

Publication Publication Date Title
CN116071650A (zh) 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法
CN110188765B (zh) 图像语义分割模型生成方法、装置、设备及存储介质
CN111523546B (zh) 图像语义分割方法、***及计算机存储介质
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、***、装置及存储介质
CN113901900A (zh) 一种同源或异源遥感图像用无监督变化检测方法及***
CN113469099B (zh) 目标检测模型的训练方法、检测方法、装置、设备及介质
CN115390164B (zh) 一种雷达回波外推预报方法及***
CN114511710A (zh) 一种基于卷积神经网络的图像目标检测方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及***
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及***
CN112001399B (zh) 基于局部特征显著化的图像场景分类方法和装置
CN112884001A (zh) 碳钢石墨化自动评级方法和***
CN113095158A (zh) 一种基于对抗生成网络的笔迹生成方法及装置
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
CN116310394A (zh) 显著性目标检测方法及装置
CN115601759A (zh) 端到端文本识别方法、装置、设备及存储介质
CN116994044A (zh) 一种基于掩码多模态生成对抗网络的图像异常检测模型的构建方法
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN115273154A (zh) 基于边缘重构的热红外行人检测方法、***及存储介质
CN114550014A (zh) 道路分割方法及计算机装置
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN117726513A (zh) 一种基于彩色图像引导的深度图超分辨率重建方法及***
CN113392845A (zh) 一种基于u-net的深度学习遥感图像语义分割方法及***
CN115456957B (zh) 一种全尺度特征聚合的遥感影像变化检测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination