CN117635982A - 一种基于深度学习的面向遥感图像的路网匹配方法 - Google Patents

一种基于深度学习的面向遥感图像的路网匹配方法 Download PDF

Info

Publication number
CN117635982A
CN117635982A CN202311671780.8A CN202311671780A CN117635982A CN 117635982 A CN117635982 A CN 117635982A CN 202311671780 A CN202311671780 A CN 202311671780A CN 117635982 A CN117635982 A CN 117635982A
Authority
CN
China
Prior art keywords
road network
kernel
remote sensing
matching
sensing image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311671780.8A
Other languages
English (en)
Other versions
CN117635982B (zh
Inventor
侯伟
吴敌
吴浩萌
葛宝玉
周全
李慧子
李宗鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Space Star Data System Technology Co ltd
Original Assignee
Harbin Space Star Data System Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Space Star Data System Technology Co ltd filed Critical Harbin Space Star Data System Technology Co ltd
Priority to CN202311671780.8A priority Critical patent/CN117635982B/zh
Publication of CN117635982A publication Critical patent/CN117635982A/zh
Application granted granted Critical
Publication of CN117635982B publication Critical patent/CN117635982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/182Network patterns, e.g. roads or rivers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的面向遥感图像的路网匹配方法,属于路网匹配技术领域。解决了现有技术中传统的路网匹配框架不易提取复杂路网遥感图像数据特征的问题;本发明对路网遥感图像数据进行预处理,得到处理后的路网遥感图像数据;对骨干和颈部网络进行改造,基于处理后的路网遥感图像数据,构造提取路网特征图的ResNet‑101‑FPN网络模型;基于ResNet‑101‑FPN网络模型,构造端到端的多功能路网匹配框架,迭代训练内核更新头;将处理后的路网遥感图像数据作为端到端多功能路网匹配框架的输入,设置内核损失函数,得到训练好的路网匹配模型。本发明提升了目标检测和匹配的精度,可以应用于多种情况的路网匹配。

Description

一种基于深度学习的面向遥感图像的路网匹配方法
技术领域
本发明涉及路网匹配方法,尤其涉及一种基于深度学习的面向遥感图像的路网匹配方法,属于路网匹配技术领域。
背景技术
长期以来,面向遥感图像的路网匹配技术在智慧城市领域有着广泛的应用需求,遥感图像中的路网匹配的目的是将遥感图像中的道路区域与现有的路网数据进行比对,以确定遥感图像中道路在实际路网上的位置和属性信息,可应用于道路的提取和更新,用于城市管理和建设等,由于遥感图像的分辨率、噪声、云覆盖等因素影响图像中道路区域的准确提取,可能会导致道路细节丢失、遮挡道路区域等情况,影响路网匹配的精度。目前基于机器学习的部分路网匹配方法,在数据准备之后,需要进行特征提取工作,提取包括路网形状、纹理和颜色等特征信息,再利用算法和模型进行训练,其存在数据复杂不利于获取且需要耗费大量的资源的问题。
因此,需要一种可以端到端地实现多功能路网匹配、节约资源、且精度高的路网匹配方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为实现端到端的多功能路网匹配,同时针对提取复杂遥感路网图像数据特征不易获取的问题,本发明提供一种基于深度学习的面向遥感图像的路网匹配方法。
技术方案如下:一种基于深度学习的面向遥感图像的路网匹配方法,包括以下步骤:
S1.对路网遥感图像数据进行预处理,得到处理后的路网遥感图像数据;
具体的:预处理包括几何校正,云、阴影和杂波去除,图像增强,尺度归一化和噪声去除;
S2.对骨干网络和颈部网络进行改造,基于处理后的路网遥感图像数据,构造提取路网特征图的ResNet-101-FPN网络模型;
S3.基于ResNet-101-FPN网络模型,构造端到端的多功能路网匹配框架,迭代训练内核更新头,得到最终迭代的掩码预测和类预测;
S4.将处理后的路网遥感图像数据作为端到端的多功能路网匹配框架的输入,设置内核损失函数,基于匹配损失训练内核,得到训练好的路网匹配模型。
进一步地,所述S2中,骨干网络采用ResNet网络改造,输入处理后的路网遥感图像数据利用不同的卷积层组得到不同尺寸的路网特征图即原始路网特征图,针对不同尺寸的路网特征图引入三种注意力机制,三种注意力机制包括自变换器、植入变换器和渲染变换器,每层路网特征图通过三种注意力机制,分别得到一组不同尺寸的路网特征图,在颈部网络中将不同组的路网特征图组按照尺寸重新分组,将相同尺寸的路网特征图聚合到一个新的组中,将重新分配的每个新的组中的路网特征图组与ResNet网络得到的原始路网特征图连接到一起,得到新的不同尺寸的路网特征图F,并对新的不同尺寸的路网特征图F卷积降低维度,得到路网特征图金字塔网络,路网特征图金字塔网络与ResNet网络构成ResNet-101-FPN网络模型。
进一步地,所述S3中,构造端到端的多功能路网匹配框架,将新的不同尺寸的路网特征图F作为多功能路网匹配框架的输入,使其与一组学习内核K0进行卷积,学习内核K0包括语义内核和实例内核,得到掩码预测M0,进行内核更新头迭代训练,迭代内核更新头f1,将掩码预测M0、学习内核K0和新的不同尺寸的路网特征图F作为输入,生成类预测、动态核K1和掩码预测M1,将生成的掩码预测M1、动态核K1和特征映射发送到下一内核更新头f2,迭代内核更新头f2,细化动态核和掩码预测,生成动态核Ks、掩码预测Ms和类预测,输出掩码预测Ms和类预测,即最终迭代的掩码预测和类预测。
进一步地,所述S4中,将步骤S1中处理后的路网遥感图像数据输入到端到端的多功能路网匹配框架中,采用匈牙利匹配算法为实例内核分配不同数量的目标并设置内核损失函数,基于匹配损失在实例掩码预测和真实值之间建立一对一映射,以端到端的方式训练实例内核,得到的训练好的路网匹配模型;
实例内核损失函数LK表示为:
LK=λclsLclsceLcediceLdice
其中,Lcls为用于分类的焦点损失,Lce为用于分割的交叉熵损失,Ldice为用于分割的集合相似度损失,λcls为焦点损失的权重,λce为交叉熵损失的权重,λdice为用于分割的集合相似度损失的权重。
本发明的有益效果如下:本发明对路网遥感图像数据进行预处理,减少数据冗余,提高数据质量;在骨干网络中引入了三种注意力机制,即自变换器、植入变换器和渲染变换器,同时在颈部网络处理得到的特征层,得以更加高效地提升单一功能的匹配程度;构造了端到端的多功能路网匹配框架,迭代训练,逐步细化感知内核和掩码预测,通过实现语义分割、全景分割、目标检测等功能实现多功能匹配,可以更好地满足智慧城市构建的各种复杂需求;基于深度学习构建了路网匹配模型,可以端到端地实现包括整体路网匹配、单独道路匹配和背景匹配的多功能路网匹配,无需单独为每个功能训练框架,优化了计算资源的利用,基于深度学习的训练好的路网匹配模型可以应用于多种情况的路网匹配,有效地提高了目标检测和匹配的精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为一种基于深度学习的面向遥感图像的路网匹配方法的流程示意图;
图2为自转换器示意图;
图3为植入转换器示意图;
图4为渲染转换器示意图;
图5为引入三种注意力机制处理特征图构成的ResNet-101-FPN网络示意图;
图6为多功能路网匹配框架内核更新头的更新示意图;
图7为路网匹配模型示意图。
具体实施方式
为了使本发明实施例中的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
参考图1-7详细说明本实施例,一种基于深度学习的面向遥感图像的路网匹配方法,具体包括以下步骤:
S1.对路网遥感图像数据进行预处理,得到处理后的路网遥感图像数据;
具体的:预处理包括几何校正,云、阴影和杂波去除,图像增强,尺度归一化和噪声去除;
S2.对骨干网络和颈部网络进行改造,基于处理后的路网遥感图像数据,构造提取路网特征图的ResNet-101-FPN网络模型;
S3.基于ResNet-101-FPN网络模型,构造端到端的多功能路网匹配框架,迭代训练内核更新头,得到最终迭代的掩码预测和类预测;
S4.将处理后的路网遥感图像数据作为端到端的多功能路网匹配框架的输入,设置内核损失函数,基于匹配损失训练内核,得到训练好的路网匹配模型。
进一步地,所述S2中,骨干网络采用ResNet网络改造,输入处理后的路网遥感图像数据利用不同的卷积层组得到不同尺寸的路网特征图即原始路网特征图,针对不同尺寸的路网特征图引入三种注意力机制,三种注意力机制包括自变换器、植入变换器和渲染变换器,每层路网特征图通过三种注意力机制,分别得到一组不同尺寸的路网特征图,在颈部网络中将不同组的路网特征图组按照尺寸重新分组,将相同尺寸的路网特征图聚合到一个新的组中,将重新分配的每个新的组中的路网特征图组与ResNet网络得到的原始路网特征图连接到一起,得到新的不同尺寸的路网特征图F,并对新的不同尺寸的路网特征图F卷积降低维度,得到路网特征图金字塔网络,路网特征图金字塔网络与ResNet网络构成ResNet-101-FPN网络模型;
具体的,改进的基础模型ResNet-101-FPN主要针对处理ResNet网络得到的特征图的侧边网络进行改进,引入了专门的注意力机制即Transformer模块,Transformer模块包括自变换器(Self-Transformer)、植入变换器(Grounding Transformer)和渲染转换器(Rendering Transformer),ResNet-101-FPN网络模型具体结构包括输入层、卷积层组1、卷积层组2-5和特征金字塔网络(FPN),输入层用于接受图像数据,图像为RGB格式;卷积层组1由一个7*7的卷积层和一个3*3的最大池化层组成;卷积层组2-5分别包含不同层数的残差块,用于进行特征提取和减少特征图尺寸;特征金字塔网络(FPN)在卷积层组2-5的每个残差块输出上,通过添加一个1*1的卷积层,产生额外的侧边分支,侧边分支与采用ResNet网络得到的原始的特征图相连,行成多尺度的特征金字塔,侧边分支的特征图通过上采样的方式与上一层特征图相加实现特征融合。
进一步地,所述S3中,构造端到端的多功能路网匹配框架,将新的不同尺寸的路网特征图F作为多功能路网匹配框架的输入,使其与一组学习内核K0进行卷积,学习内核K0包括语义内核和实例内核,得到掩码预测M0,其中,语义内核用于实现语义分割任务,在多功能匹配中,用于匹配遥感图像中的整体路网,实例内核用于实现实例分割任务,在多功能匹配中,用于匹配遥感图像中的每条单独的道路,进行内核更新头迭代训练,迭代内核更新头f1,将掩码预测M0、学习内核K0和新的不同尺寸的路网特征图F作为输入,生成类预测、动态核K1和掩码预测M1,将生成的掩码预测M1、动态核K1和特征映射发送到下一内核更新头f2,迭代内核更新头f2,细化动态核和掩码预测,生成动态核Ks、掩码预测Ms和类预测,输出掩码预测Ms和类预测,即最终迭代的掩码预测和类预测,其中,掩码预测可得到道路匹配的结果图,类预测可输出遥感图像中的预测类别;
具体的,参考图6和7,内核更新头为fi,f=1,2,...,n,内核更新头迭代训练包括组特征融合、自适应内核更新和卷积核交互组特征融合包括将组特征进行融合,使得基于分组的卷积核具有初步感知能力,通过将特征图与内核掩码相乘聚合得到属于卷积核的新组别特征图;
属于卷积核的新组别特征图FK表示为:
其中,B为图片张数,N为像素组的数量,且N在语义分割中表示类别数,N在实例分割中代表目标的个数,C为通道数,Mi-1(u,v)为内核掩码,F(u,v)为输入的特征图,(u,v)为每个像素点,Mi-1(u,v)∈RN×H×W为每个像素点的掩码值,H为图片的长,W为图片的宽,RN×H×W为每个像素所属于的像素组别;
自适应内核更新包括使用组特征融合后的特征图来更新卷积核,将新组别特征图FK与旧组别特征图Ki-1按元素相乘得到特征图FG,内核更新头设置两个门机制,即GF和GK,采用GF控制新组别特征图FK,采用GK控制旧组别特征图Ki-1,更新卷积核表示为
特征图FG表示为:
FG∈RB×N×C
其中,φ1和φ2为线性变换;
GK=σ(ψ1(FG)),GF=σ(ψ2(FG))
卷积核表示为:
其中,ψn为全卷积-通道的归一化层,n=1,2,3,4,σ为sigmoid函数;
卷积核交互包括在给定卷积核的情况下采用多头注意力机制和前馈神经网络进行卷积核交互的输出动态核Ki,得到新的掩码预测Mi
Mi=gi(Ki)*F
其中,gi为一个全卷积-通道归一化-线性整流层,F为颈部网络输出的特征图;
本实施例中,输入与学习内核K0进行卷积后的路网特征图F和学习内核K0,经内核更新头f1迭代后得到掩码预测M1、动态核K1和类预测,M1∈RN×H×W,K1∈RN×D,D为卷积核的个数,N×C为类预测总数,重复S-2次,S为预先设定的迭代次数,随后进行内核更新头f2迭代,输入掩码预测M1、动态核K1和恒等映射过程产生的特征映射,得到掩码预测Ms、动态核Ks和类预测,Ms∈RN×H×W,K1∈RN×D,输出最终迭代的掩码预测Ms和类预测。
进一步地,所述S4中,将步骤S1中处理后的路网遥感图像数据输入到端到端的多功能路网匹配框架中,采用匈牙利匹配算法为实例内核分配不同数量的目标并设置内核损失函数,基于匹配损失在实例掩码预测和真实值之间建立一对一映射,以端到端的方式训练实例内核,得到的训练好的路网匹配模型;
实例内核损失函数LK表示为:
LK=λclsLcls+ceLcediceLdice
其中,Lcls为用于分类的焦点损失,Lce为用于分割的交叉熵损失,Ldice为用于分割的集合相似度损失,λcls为焦点损失的权重,λce为交叉熵损失的权重,λdice为用于分割的集合相似度损失的权重,λcls、λce和λdice均由训练得到;
具体的,参考图2,自变换器(Self-Transformer)为基于经典的同级特征图内的非局部交互,输出与输入的尺寸相同,旨在捕获同一个特征图上同时出现的对象特征,本质上是一种特征空间的交互,将单特征图X上的queries(Q)即qi,keys(K)即kj和values(V)即vj作为非局部交互操作的输入(Input),其中,i和j代表特征图上的位置,针对植入变换器和渲染转换器均适用,得到自变换器的非局部交互操作公式;
自变换器的非局部交互操作公式表示为:
Input:qi,kj,vj,N
Similarity:
Weight:
Output:
其中,qi,n为qi拆分的N个部分,kj,n为kj拆分的N个部分,为qi,n和kj,n的相似度分数(Similarity),Fsim为sim函数,wi,j为权重(Weight),Fmos为Mos函数,/>为自变换器非局部交互操作的输出(Output),Fmul为mul函数;
采用exp函数求解改进的Mos函数;
改进的Mos函数Fmos表示为:
其中,πn为采用softmax函数求解的特征集成时的权重,为可学习的线性变换,k为所有kj的均值;
参考图3,植入变换器(Grounding Transformer)采用自上而下的形式,将深层特征图中的“概念”属性植入浅层特征中的“像素”属性,借用高层的粗粒度特征XC来增强低层的细粒度特征Xf,由点积替换为更高效的欧氏距离Feud,植入变换器的非局部交互操作公式表示为;
欧氏距离Feud表示为:
Feud(qi,kj)=-||qi-kj||2
其中,
非局部交互公式表示为:
Input:qi,kj,vj,N
Similarity:
Weight:
Output:
其中,为植入变换器的非局部交互操作的输出;
采用局部约束植入变换器进行非局部交互操作,每个qi仅与高层局部区域的kj和vj关联,高层局部区域以qi对应的位置为中心,边长(square size)为固定值,如果高层的局部区域越出了特征图,则使用0代替;
参考图4,渲染转换器(Rendering Transformer)以自下而上的方式工作,旨在将浅层特征中的“像素”属性植入深层特征图中的“概念”属性,借用低层的细粒度特征来增强高层的粗粒度特征,采用通道注意力(channel-wise)进行计算,通道注意力计算步骤包括将定义的高层特征Q、低层特征K和低层特征v作为输入,对低层特征K进行全局平均池化得到权重w,使用权重w和高层特征Q进行加权得到新的高层特征图Qatt,对V进行带步幅(stride)的3*3卷积下采样得到新的低层特征图Vdow,使用3*3卷积对Qatt进行调整,并与Vdow相加,再通过一层3*3卷积后输出
通道注意力公式表示为:
Input:Q,K,V
Weight:w=GAP(K)
Weight Query:
Down-sampled Value:Vdow=Fsconv(V)
Output:
其中,GAP为全局平均池化函数,Fatt为外积函数,Fsconv为带stride的3*3卷积,Fconv用于调整的3*3的卷积,Fadd为包含3*3卷积的特征相加函数。
参考图5,在卷积层2-5中,每个层组的最后一个block取出,得到对应的金字塔特征,按照三种注意力机制分别计算融合了上下文信息的特征图,对特征图计算进行说明,以特征图b为例,特征图b首先使用自变换器生成一张自注意力图(Self-transformer),其次对深层特征图a使用渲染变换器操作得到一个渲染注意力特征图(Renderingtransformer),再次对浅层特征c使用植入变换器得到一个植入注意力特征图(GroundingTransformer),上述过程为生成注意力特征图(transformed features),最后将特征图按照尺寸重新排序(re-arranged features),并与原始金字塔特征合并连接(concatenatedfeatures),通过卷积(conv)缩小维度,得到最终的特征金字塔结构(HeadNetwork)。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (4)

1.一种基于深度学习的面向遥感图像的路网匹配方法,其特征在于,包括以下步骤:
S1.对路网遥感图像数据进行预处理,得到处理后的路网遥感图像数据;
具体的:预处理包括几何校正,云、阴影和杂波去除,图像增强,尺度归一化和噪声去除;
S2.对骨干网络和颈部网络进行改造,基于处理后的路网遥感图像数据,构造提取路网特征图的ResNet-101-FPN网络模型;
S3.基于ResNet-101-FPN网络模型,构造端到端的多功能路网匹配框架,迭代训练内核更新头,得到最终迭代的掩码预测和类预测;
S4.将处理后的路网遥感图像数据作为端到端的多功能路网匹配框架的输入,设置内核损失函数,基于匹配损失训练内核,得到训练好的路网匹配模型。
2.根据权利要求1所述的一种基于深度学习的面向遥感图像的路网匹配方法,其特征在于,所述S2中,骨干网络采用ResNet网络改造,输入处理后的路网遥感图像数据利用不同的卷积层组得到不同尺寸的路网特征图即原始路网特征图,针对不同尺寸的路网特征图引入三种注意力机制,三种注意力机制包括自变换器、植入变换器和渲染变换器,每层路网特征图通过三种注意力机制,分别得到一组不同尺寸的路网特征图,在颈部网络中将不同组的路网特征图组按照尺寸重新分组,将相同尺寸的路网特征图聚合到一个新的组中,将重新分配的每个新的组中的路网特征图组与ResNet网络得到的原始路网特征图连接到一起,得到新的不同尺寸的路网特征图F,并对新的不同尺寸的路网特征图F卷积降低维度,得到路网特征图金字塔网络,路网特征图金字塔网络与ResNet网络构成ResNet-101-FPN网络模型。
3.根据权利要求2所述的一种基于深度学习的面向遥感图像的路网匹配方法,其特征在于,所述S3中,构造端到端的多功能路网匹配框架,将新的不同尺寸的路网特征图F作为多功能路网匹配框架的输入,使其与一组学习内核K0进行卷积,学习内核K0包括语义内核和实例内核,得到掩码预测M0,其中,语义内核用于匹配遥感图像中的整体路网,实例内核用于匹配遥感图像中的每条单独的道路,进行内核更新头迭代训练,迭代内核更新头f1,将掩码预测M0、学习内核K0和新的不同尺寸的路网特征图F作为输入,生成类预测、动态核K1和掩码预测M1,将生成的掩码预测M1、动态核K1和特征映射发送到下一内核更新头f2,迭代内核更新头f2,细化动态核和掩码预测,生成动态核Ks、掩码预测Ms和类预测,输出掩码预测Ms和类预测,即最终迭代的掩码预测和类预测,其中,掩码预测可得到道路匹配的结果图,类预测可输出遥感图像中的预测类别。
4.根据权利要求3所述的一种基于深度学习的面向遥感图像的路网匹配方法,其特征在于,所述S4中,将步骤S1中处理后的路网遥感图像数据输入到端到端的多功能路网匹配框架中,采用匈牙利匹配算法为实例内核分配不同数量的目标并设置内核损失函数,基于匹配损失在实例掩码预测和真实值之间建立一对一映射,以端到端的方式训练实例内核,得到的训练好的路网匹配模型;
实例内核损失函数LK表示为:
LK=λclsLclsceLcediceLdice
其中,Lcls为用于分类的焦点损失,Lce为用于分割的交叉熵损失,Ldice为用于分割的集合相似度损失,λcls为焦点损失的权重,λce为交叉熵损失的权重,λdice为用于分割的集合相似度损失的权重。
CN202311671780.8A 2023-12-07 2023-12-07 一种基于深度学习的面向遥感图像的路网匹配方法 Active CN117635982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311671780.8A CN117635982B (zh) 2023-12-07 2023-12-07 一种基于深度学习的面向遥感图像的路网匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311671780.8A CN117635982B (zh) 2023-12-07 2023-12-07 一种基于深度学习的面向遥感图像的路网匹配方法

Publications (2)

Publication Number Publication Date
CN117635982A true CN117635982A (zh) 2024-03-01
CN117635982B CN117635982B (zh) 2024-06-04

Family

ID=90018084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311671780.8A Active CN117635982B (zh) 2023-12-07 2023-12-07 一种基于深度学习的面向遥感图像的路网匹配方法

Country Status (1)

Country Link
CN (1) CN117635982B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256464A (zh) * 2018-01-12 2018-07-06 适普远景遥感信息技术(北京)有限公司 基于深度学习的高分辨率遥感影像城市道路提取方法
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109493320A (zh) * 2018-10-11 2019-03-19 苏州中科天启遥感科技有限公司 基于深度学习的遥感影像道路提取方法及***、存储介质、电子设备
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN113850824A (zh) * 2021-09-27 2021-12-28 太原理工大学 一种基于多尺度特征融合的遥感图像路网提取方法
CN114708313A (zh) * 2022-03-24 2022-07-05 安徽大学 基于双支路神经网络的光学与sar图像配准方法
CN116052016A (zh) * 2023-01-14 2023-05-02 南京信息工程大学 基于深度学习的遥感图像云和云影的精细分割检测方法
CN116662824A (zh) * 2023-05-30 2023-08-29 深圳依时货拉拉科技有限公司 路网道路差异检测方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN108256464A (zh) * 2018-01-12 2018-07-06 适普远景遥感信息技术(北京)有限公司 基于深度学习的高分辨率遥感影像城市道路提取方法
CN109493320A (zh) * 2018-10-11 2019-03-19 苏州中科天启遥感科技有限公司 基于深度学习的遥感影像道路提取方法及***、存储介质、电子设备
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113850825A (zh) * 2021-09-27 2021-12-28 太原理工大学 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN113850824A (zh) * 2021-09-27 2021-12-28 太原理工大学 一种基于多尺度特征融合的遥感图像路网提取方法
CN114708313A (zh) * 2022-03-24 2022-07-05 安徽大学 基于双支路神经网络的光学与sar图像配准方法
CN116052016A (zh) * 2023-01-14 2023-05-02 南京信息工程大学 基于深度学习的遥感图像云和云影的精细分割检测方法
CN116662824A (zh) * 2023-05-30 2023-08-29 深圳依时货拉拉科技有限公司 路网道路差异检测方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王俊强;李建胜;: "基于深度学习的大区域遥感影像路网提取方法", 工程勘察, no. 12, 1 December 2019 (2019-12-01) *

Also Published As

Publication number Publication date
CN117635982B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
US11501415B2 (en) Method and system for high-resolution image inpainting
WO2019120110A1 (zh) 图像重建方法及设备
Gao et al. Enhanced autoencoders with attention-embedded degradation learning for unsupervised hyperspectral image super-resolution
Lin et al. Hyperspectral image denoising via matrix factorization and deep prior regularization
CN109859110B (zh) 基于光谱维控制卷积神经网络的高光谱图像全色锐化方法
WO2022199583A1 (zh) 图像处理方法、装置、计算机设备和存储介质
CN111310666B (zh) 一种基于纹理特征的高分辨率影像地物识别与分割方法
CN113034358B (zh) 一种超分辨率图像处理方法以及相关装置
WO2021114184A1 (zh) 神经网络模型的训练方法、图像处理方法及其装置
CN113837946B (zh) 一种基于递进蒸馏网络的轻量化图像超分辨率重建方法
CN113222875B (zh) 一种基于色彩恒常性的图像和谐化合成方法
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN111553462A (zh) 一种类激活映射方法
CN108875751B (zh) 图像处理方法和装置、神经网络的训练方法、存储介质
CN109215003B (zh) 一种图像融合方法及装置
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN116258757A (zh) 一种基于多尺度交叉注意力的单目图像深度估计方法
WO2021057091A1 (zh) 视点图像处理方法及相关设备
CN114830168A (zh) 图像重建方法、电子设备和计算机可读存储介质
CN115713632A (zh) 一种基于多尺度注意力机制的特征提取方法及装置
CN112819832A (zh) 基于激光点云的城市场景语义分割细粒度边界提取方法
CN117115563A (zh) 基于区域语义感知的遥感土地覆盖分类方法及***
CN117635982B (zh) 一种基于深度学习的面向遥感图像的路网匹配方法
Yu et al. MagConv: Mask-guided convolution for image inpainting
CN116469172A (zh) 一种多时间尺度下的骨骼行为识别视频帧提取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant