CN117576483A - 基于多尺度卷积自编码器的多源数据融合地物分类方法 - Google Patents

基于多尺度卷积自编码器的多源数据融合地物分类方法 Download PDF

Info

Publication number
CN117576483A
CN117576483A CN202311724746.2A CN202311724746A CN117576483A CN 117576483 A CN117576483 A CN 117576483A CN 202311724746 A CN202311724746 A CN 202311724746A CN 117576483 A CN117576483 A CN 117576483A
Authority
CN
China
Prior art keywords
data
encoder
layer
ground object
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311724746.2A
Other languages
English (en)
Other versions
CN117576483B (zh
Inventor
戴嵩
王斌
宋冬梅
张�杰
覃富侯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202311724746.2A priority Critical patent/CN117576483B/zh
Publication of CN117576483A publication Critical patent/CN117576483A/zh
Application granted granted Critical
Publication of CN117576483B publication Critical patent/CN117576483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A30/00Adapting or protecting infrastructure or their operation
    • Y02A30/60Planning or developing urban green infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多尺度卷积自编码器的多源数据融合地物分类方法,包括以下步骤:获取激光雷达点云数据和光学影像数据,分别对所述激光雷达点云数据和所述光学影像数据进行预处理,构建多源遥感数据集;构建基于多尺度卷积自编码器的多源数据融合地物分类模型;基于所述多源遥感数据集,对所述多源数据融合地物分类模型进行训练;利用训练好的所述多源数据融合地物分类模型对待测的城市地物进行预测,实现对城市地物的分类。本发明能够有效融合多源数据特征,实现高精度的地物分类。它的特点在于利用多尺度卷积自编码器进行特征提取和融合,以及引入注意力机制来提高特征表示能力。这使得本发明具备较强的地物分类能力,并取得了较高的分类精度。

Description

基于多尺度卷积自编码器的多源数据融合地物分类方法
技术领域
本发明属于城市地物分类技术领域,具体涉及基于多尺度卷积自编码器的多源数据融合地物分类方法。
背景技术
近年来,随着城市化进程的加速,城市发展规划对地理空间信息的需求日益迫切。同时,遥感平台和传感器的不断进步使得遥感数据呈现出多元化和多极化的趋势。目前,高空间分辨率光学影像、高光谱遥感数据和激光雷达数据已成为重要的地球观测技术。
这些先进的遥感技术极大增强了获取城市发展规划所需地理空间信息的能力。因此,对多源遥感数据进行融合对于遥感影像分类研究具有重要的现实意义。
多源数据融合旨在通过算法或规则对空间和时间上的冗余和互补的多源信息进行处理,以获得比任何单一数据更精确、更丰富的信息,并生成具有新的空间、波谱和时间特征的合成数据。数据融合不仅仅是简单地叠加数据,而是通过加强和优化信息,突出有用的专题信息,消除或抑制无关的信息,改善数据环境以提高目标识别和分类效果,从而扩大应用范围。根据融合在处理流程中的位置和信息抽象程度,多源遥感数据融合可分为像素级、特征级和决策级三个层次。像素级融合作为低层次的融合方法,在多源数据融合分类中得到广泛应用。然而,在像素级融合过程中,多源数据的综合利用程度较低。因此,许多学者针对多源数据和待分类区域的特性,采用特征级或决策级融合方法,以获得更可靠的分类结果。特征级融合是指在融合之前先对遥感图像数据进行特征提取,生成特征矢量,然后进行特征融合。这种方法通过有意义地组合特征,具有较高的可信度和准确性。
因此,多源数据融合方法在遥感地物分类研究中得到广泛应用。通过综合利用不同数据源的信息,这种方法提供了一种有效的方式来提高地物分类的准确性和可靠性,并为各种应用领域提供了更广泛的可能性。
现有的多源数据特征提取方法相对简单且易于实现,但由于遥感场景中的二维空间特征、地物光谱特征和场景高程特征在信息维度上具有不同的物理含义,因此形成了观测场景的异构特征,这些特征在场景表达上具有信息一致性和互补性。尽管基于深度学习的方法相对于传统方法取得了较好的结果,但在特征融合阶段仍然没有充分利用从多源数据中提取的特征,从而限制了分类精度的提高。
目前基于CNN网络的多源数据融合方法通常采用简单的特征拼接或特征叠加方式。虽然这种方法操作简便,但融合的特征可能包含了冗余信息,并且特征数量的显著增加可能会导致休斯效应。因此,为了改进特征表示,需要探索更加紧凑的信息混合和更有效的信息传递方法。
为了解决多源数据融合过程中的信息交换、特征重构和充分融合等问题,以实现对地物的高精度分类,本发明提出了一种基于多尺度卷积自编码器的多源数据融合地物分类方法。
发明内容
针对现有技术的不足,本发明提出了基于多尺度卷积自编码器的多源数据融合地物分类方法,该方法包括两个关键步骤:特征提取和特征融合。在特征提取模块中,采用了不同大小的卷积核作为空洞卷积的前置操作。通过引入带有空洞卷积的多尺度特征提取模块,扩大了网络的感受野,增强了CNN模型对多源数据深层特征的学习能力,从而提高了特征的多样性。特征融合模块利用卷积自编码器对多源数据的特征进行更充分的融合。通过交叉重建的方式增强特征表示,实现了更有效的信息交换和更紧凑的融合。这样可以更好地利用多源数据提取的特征,提升地物分类的准确性。
为实现上述目的,本发明提供了如下方案:
基于多尺度卷积自编码器的多源数据融合地物分类方法,包括以下步骤:
获取激光雷达点云数据和光学影像数据,分别对所述激光雷达点云数据和所述光学影像数据进行预处理,构建多源遥感数据集;
构建基于多尺度卷积自编码器的多源数据融合地物分类模型;
基于所述多源遥感数据集,对所述多源数据融合地物分类模型进行训练;
利用训练好的所述多源数据融合地物分类模型对待测的城市地物进行预测,实现对城市地物的分类。
优选的,对所述激光雷达点云数据进行预处理的方法包括:
采用统计滤波的方法,对所述激光雷达点云数据进行去噪处理;
使用反距离加权插值算法,将去噪后的所述激光雷达点云数据生成数字表面模型DSM数据;
采用布料模拟滤波算法,将去噪后的所述激光雷达点云数据分离为地面点和非地面点;
对得到的地面点进行插值处理,生成数字高程模型DEM数据;
将数字表面模型DSM数据中的高程值减去数字高程模型DEM数据中对应位置的高程值,得到归一化数字表面模型nDSM影像数据。
优选的,对所述光学影像数据进行预处理的方法包括:
使用裁剪范围对光学影像数据进行裁剪;
将裁剪后的光学影像数据与所述归一化数字表面模型nDSM影像数据进行配准。
优选的,所述多源数据融合地物分类模型由两个分支网络组成,每个分支网络包括输入模块、多尺度特征提取模块和自编码器融合模块;
所述输入模块用于对光学影像数据和激光雷达点云数据进行预处理,获得输入数据;
所述多尺度特征提取模块用于基于所述输入数据,提取光学影像数据中的光谱空间特征和激光雷达点云数据中的高程特征;
所述自编码器融合模块用于对所述光谱空间特征和所述高程特征进行融合。
优选的,所述多尺度特征提取模块由1×1、3×3和5×5的卷积层、批处理的归一化层、2×2的池化层以及ReLU激活层组成。
优选的,所述自编码器融合模块由卷积注意力CBAM模块、2层卷积编码层及2层卷积解码层组成。
优选的,所述卷积注意力CBAM模块包括:通道注意力模块和空间注意力模块;
所述通道注意力模块用于获得通道注意力特征图;
所述空间注意力模块用于基于所述通道注意力特征图,获得空间注意力特征图;
其中,获得通道注意力特征图的方法包括:
其中,σ、W0、W1分别为激活函数及MLP的权重,F为特征图,和/>分别为维度为1×1×C的通道特征;
获得空间注意力特征图的方法包括:
其中,σ、f7×7分别为激活函数及拥有7×7卷积核的卷积层,为进行全局最大池化操作得到的特征图,/>为进行全局平均池化操作得到的特征图。
优选的,所述自编码器融合模块工作的具体步骤包括:
当有特征输入时,卷积编码层1首先经过注意力模块、3×3的卷积层,批处理的归一化层及Relu激活层,后接一个步幅为2的模糊池化层;
卷积编码层2进行编码器1的同样操作,获得多源数据特征,并将所述多源数据特征进行叠加;
卷积解码层1经过一个步幅为2的反卷积层,后接批处理的归一化层及Relu激活层;
卷积解码层2进行卷积解码层1的同样操作,实现叠加后的多源数据特征的重构。
与现有技术相比,本发明的有益效果为:
为了解决多源数据融合过程中的信息交换、特征重构和充分融合等问题,实现对城市地物的高精度分类,本发明通过特征提取模块使用了不同大小的卷积核作为空洞卷积的前置操作,利用带有空洞卷积的多尺度特征提取模块,提高网络的感受野,并增强CNN模型对多源数据深层特征的学习能力,以获得更多样性的特征表示。同时,特征融合模块利用卷积自编码器对从不同模态提取的特征进行更充分的融合。通过交叉重建的方式增强特征表示,实现更有效的信息交换和更紧凑的融合。这样可以提高融合过程中的信息传递和特征重构能力,从而改善多源数据融合的效果。
综上所述,本发明能够有效融合多源数据特征,实现高精度的地物分类。它的特点在于利用多尺度卷积自编码器进行特征提取和融合,以及引入注意力机制来提高特征表示能力。这使得本发明具备较强的地物分类能力,并取得了较高的分类精度。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的基于多尺度卷积自编码器的多源数据融合地物分类流程图;
图2为本发明实施例中的所提出的分类模型框架示意图;
图3为本发明实施例中的特征提取模块示意图;
图4为本发明实施例中的模糊池化模块示意图;
图5为本发明实施例中的卷积注意力模块示意图;
图6为本发明实施例中的特征融合模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明公开了基于多尺度卷积自编码器的多源数据融合地物分类方法,包括:
获取激光雷达点云数据和光学影像数据,分别对激光雷达点云数据和光学影像数据进行预处理,构建多源遥感数据集;
构建基于多尺度卷积自编码器的多源数据融合地物分类模型;
基于多源遥感数据集,对多源数据融合地物分类模型进行训练;
利用训练好的多源数据融合地物分类模型对待测的城市地物进行预测,实现对城市地物的分类。
在本实施例中,预处理阶段的主要目的是对激光雷达数据和光学影像数据进行标准化处理,以保持多源数据格式的一致性,以便符合模型的输入要求。本框架要求对两个遥感数据集进行预处理,下面将介绍激光点云数据和光学影像数据的具体预处理步骤。对于激光点云数据的预处理,首先采用统计滤波的方法对点云进行去噪处理,以剔除噪声和离群点。然后,使用反距离加权插值算法将去噪后的点云数据生成数字高程模型(DSM)。同时,采用布料模拟滤波算法将去噪后的点云数据分离为地面点和非地面点。之后,对得到的地面点进行插值处理,生成数字高程模型(DEM)。最后,通过将数字表面模型(DSM)中的高程值减去数字高程模型(DEM)中对应位置的高程值,得到归一化数字表面模型(nDSM)。nDSM能够表示地物的真实高程信息,通过归一化处理来消除地形变化引起的高程差异。对于光学影像数据的预处理,首先使用裁剪范围对光学影像数据进行裁剪,仅保留与激光点云数据范围一致的光学影像数据。然后,将裁剪后的光学影像数据与nDSM数据进行配准,以确保两者具有相同的坐标***和空间参考。通过上述预处理步骤,激光点云数据和光学影像数据都得到了相应的标准化处理,以满足后续模型的输入要求。
此外,为了满足本模型对于多源数据的空-谱联合特征提取的需求,需要将多源数据切割成Patch的形式。Patch是以单个像元为中心的3D立方体,具有一定像元宽度。每个Patch对应一个中心像素的类别标签。这里的3D立方体的大小为p×p×k,其中p是切割的空间大小,根据具体任务可以进行设置,而k是数据的波段数目。
在进行正式的网络训练之前,还需要将数据集划分为训练集、验证集和测试集,以满足后续训练的需求。训练集用于训练神经网络的参数,验证集用于选择最优的网络参数,而测试集则是待分类的样本,用于评估网络的实际性能。通常情况下,这三种数据集的比例为1:1:8。
在本实施例中,模型构建阶段,本发明提出了一种基于多尺度卷积自编码器的多源数据融合地物分类方法。所采用的网络结构如图2所示,由两个分支网络组成,分别用于学习光学影像数据的光谱特征和激光雷达的高程特征。每个网络包括输入模块、特征提取模块和融合模块。其中,特征融合模块包括网络输出。
输入模块用于对光学影像数据和激光雷达数据进行预处理。预处理后的标准影像Xh∈Rm×n×k和相应的激光雷达图像Xl∈Rm×n覆盖地球表面的相同区域。m和n分别表示两个图像的高度和宽度,k是指数据的波段数。对于光学影像数据,从给定的像素中提取一个Patchxh∈Rp×p×k作为输入数据。对于激光雷达数据,直接提取相同空间位置的Patchxl∈Rp ×p作为输入数据,空间邻域大小p设置为11。
特征提取模块采用了不同大小的卷积核进行空洞卷积操作,以提高网络的感受野,用于增强卷积神经网络对于多源数据深层特征的学习能力,以提取出更丰富的特征信息。
同时,特征融合模块利用卷积自编码器对多源数据的特征进行融合。它通过交叉重建的方式增强特征表示,利用跨通道的方式重建异构数据特征,来实现更有效的信息交换和更紧凑的特征融合,以提高地物分类任务的准确性和鲁棒性。
具体的,鉴于目前存在的特征提取模型无法充分提取光学影像的光谱空间特征、卷积尺度单一以及未能充分利用空间上下文信息等问题,本发明设计了一种多尺度空洞卷积模块,以提取光学影像数据中的光谱空间特征和激光雷达数据中的高程特征。采用不同大小的卷积核和空洞卷积结构,能够获得更抽象的特征表达和学习能力,相较于传统方法具有更强大的特征提取效果。
特征提取模块的详细网络结构如图3所示,由1×1、3×3和5×5的卷积层、批处理的归一化层、2×2的池化层以及ReLU激活层组成。特别地,空洞卷积的使用能够增大感受野,同时计算量相对较低,使得网络能够更好地捕捉到图像中的上下文信息。通过引入多尺度空洞卷积模块,本发明能够克服现有特征提取模型的局限性,充分提取光谱空间特征,并利用多尺度卷积核和空洞卷积的结构来增强特征的学习能力。
首先,本发明采用了三个分支的卷积层,每个分支使用不同尺寸的卷积核来捕捉图像中不同尺度的局部特征,卷积核的尺寸分别设置为{1×1,3×3,5×5}。然后,通过使用三个具有不同扩张率的3×3卷积层,基于这种空洞卷积的操作实现对多尺度特征信息的提取,扩张率分别设置为{1,3,5}。在传统的卷积操作中,扩张率为1,即卷积核的每个元素之间没有间隔。而在本发明的空洞卷积过程中通过增加扩张率,可以扩展卷积核的有效感受野,使其能够同时捕捉到更广泛的局部和全局特征。最后将不同尺寸和扩张率的卷积层的输出进行连接,以此融合不同尺度的深层数据特征。由于多源数据通常在原始数据空间上难以更好地融合,而通过特征提取模块提取的深层次特征能够更好地混合来自不同传感器的异构数据。
另外,池化层通过降采样操作来减小特征图的尺寸,以减少模型的参数量和计算复杂度,同时有助于控制过拟合并提高模型的泛化能力。然而,常用的池化算法可能导致多源特征的信息损失。例如,最大池化只选择局部区域的最大值作为池化结果,忽略了其他邻域值和平均值等信息,可能丢失一些细节特征。另一方面,平均池化无法区分重要特征和次要特征,将它们混合在一起并丢失细微的特征变化。为了提高模型对多源数据特征的敏感性并减少重要特征的丢失,本发明结合了最大池化和平均池化的优势。即,在局部区域选择最大值后,进行模糊滤波操作,然后再进行子采样,以提取更具代表性的特征。这种操作考虑了最大值邻域内所有像素的贡献,从而提高了模型的鲁棒性。详细池化结构如图4所示。
首先,本发明采用2×2的窗口和步长为1的滑动窗口操作,从输入特征图中选择局部区域内的最大值。这种最大池化操作能够提取出图像中的重要特征。为了增强特征的鲁棒性和稳定性,并更好地捕捉图像中的重要特征,本发明引入了模糊滤波器。模糊滤波器的作用是结合最大值周围的邻域信息,使特征更具代表性和丰富性。通过将最大值与其邻域信息进行融合,可以更好地捕捉到特征的细节和上下文关系。最后,采用子采样(SubSampling)的方法生成池化后的特征图。子采样通过降低特征图的维度,减少特征的数量,从而提高计算效率。同时,通过降低特征图的尺寸,还能够减少过拟合的风险,并提高模型的泛化能力。
具体的,为了充分利用自编码器在训练过程中的简单性和堆栈层数的灵活性,本发明采用带有注意力机制的卷积自编码器来融合多源数据的深层特征。通过将卷积注意力(CBAM)模块加入到网络结构中,特征融合模块能够自动学习并选择性地聚焦于重要的特征,从而增强特征融合的效果。该注意力机制能够有效地提取和利用多源数据中的深层次特征,从而提高网络模型的分类效果。
卷积注意力模块是一种轻量级前馈卷积神经网络注意力模块,由通道(channel)和空间(spatial)注意力机制组成,其结构如图5所示。
通道注意力模块和空间注意力模块按照先后顺序相互结合,易被集成到CNN架构中进行端到端训练,能够有效提升卷积层对关键特征的提取能力,抑制不重要特征。
引入通道注意力模块是为了辨识特征图中不同通道的重要性差异,具体来说,首先对特征图F=[f1,…,fC]∈RH×W×C的各个通道分别进行全局最大池化(Max pooling)和平均池化(Average pooling),从而获得两个维度为1×1×C的通道特征和/>然后,将这两个通道特征分别输入到一个由多层感知器(MLP)和一个隐藏层所组成的共享全连接神经网络中并进行处理。
最后将两个处理后的特征图进行相加,通过Sigmoid函数激活后得到通道注意力图MC(F)。
上述通道注意力模块工作流程可以被概括为公式(1)。
其中σ、W0、W1分别为激活函数及MLP的权重。
将上述得到的通道注意力图MC(F)与F的对应元素相乘后得到F′,其将成为空间注意力模块的输入。
引入空间注意力模块是为了辨识特征图中不同区域的重要性差异,具体流程如下:
首先对F′基于通道分别进行全局最大池化(global max pooling)和全局平均池化(global average pooling)操作得到和/>之后,将这两个特征图进行拼接。然后,利用7×7卷积核对叠加后的特征进行卷积处理,最后经Sigmoid函数激活生成空间注意力特征图MS(F′)。该过程可以总结为公式(2)。
其中σ、f7×7分别为激活函数及拥有7×7卷积核的卷积层。
至此,最终的特征图F″可以通过将MS(F′)与F′对应元素相乘所得到。
整个CBAM过程等价于公式(3)。
其中表示对应元素逐个相乘。
为了更充分地融合从不同模态提取的特征,使用交叉重建的方式来增强特征表示。特征融合模块包括编码器和解码器,其中编码器从两种数据的输入特征中抽取特征并进行融合,光学影像数据的解码器根据融合的特征信息重构回输入的激光雷达特征。激光雷达数据的解码器则根据融合的特征信息重构回输入的光学影像数据特征。具体而言,特征融合模块由卷积注意力(CBAM)模块、2层卷积编码层及2层卷积解码层组成。在增加注意力机制的编码层后将编码器部分所学得的多源数据特征进行拼接,利用反卷积操作(DeConvolution),使得解码器中将影像特征重构为与原始特征尺寸相同的激光雷达特征,而激光雷达特征重构回影像特征。反卷积操作为卷积操作的逆过程,即在卷积操作前,通过填充输入图片的像素(Padding),使得输出特征图尺寸大于输入特征图尺寸,从而进行上采样,最终实现特征的重构。通过编码器和解码器共同训练,从而有效学习到多源数据的特征。详细网络结构如图6所示。
特征融合模块的具体步骤如下:
特征输入时,先经过编码器,进行如下操作:
编码层1:首先经过注意力模块、3×3的卷积层,批处理的归一化层及Relu激活层,后接一个步幅为2的模糊池化层;
编码层2:进行编码器1的同样操作。此时,编码器已学得多源数据特征,随后将编码器部分所学得的多源数据特征进行叠加(Concat);
解码层1:经过一个步幅为2的反卷积层,后接批处理的归一化层及Relu激活层,
解码层2:进行解码器1的同样操作实现特征的重构。
在本实施例中,模型的训练阶段:本发明构建的损失函数包括两部分,即重建损失函数和分类损失函数。其中重建损失函数用于计算两种数据在特征融合模块的输入特征与重建特征的损失值,分类损失函数用于计算融合特征与真实标签的损失值。模型的总体损失函数可以表示为:
L=L1+L2+L3 (4)
其中L1表示特征融合网络中的光学影像特征重建激光雷达特征的损失函数,L2表示特征融合网络中的激光雷达特征重建光学影像特征的损失函数,L3表示特征融合网络中的分类损失函数。
特征融合网络中的光学影像和激光雷达数据重建损失函数可以表示为:
其中表示弗罗贝尼乌斯范数(Frobenius norm),yⅠ,i和YⅠ,i表示光学影像数据在特征融合模块的输入特征和重建特征,yⅡ,i和YⅡ,i表示激光雷达图像在特征融合模块的输入特征和重建特征,i表示第i个像素。
使用训练集{(xh,i xl,i yi)|i=1,2,···,N}进行训练,特征融合网络中的分类损失函数用交叉熵损失函数表示为:
其中N表示训练次数,yi是第i个样本的真实值。Fi表示特征融合网络中的融合特征。
本发明实验所用电脑配置为GeForce GTX 3070Ti 8G GPU和Intel i7-12700HCPU。实验是在PyCharm实验平台上利用PyTorch框架进行编码实现。采用Adam作为优化器更新网络梯度,初始学***均值。
在本实施例中,地物目标分类测试阶段,会将训练阶段效果最优的参数对应的网络应用于多源数据分类,将多源数据测试集输入到已完成训练的模型中,采用了总体分类精度(Overall Accuracy,OA),平均准确率(Average Accuracy,AA)和Kappa系数进行分类结果的精度评估。
实施例二
本发明在四川某盆地高分辨率光学影像与激光雷达数据集,包含高光谱和激光雷达数据的休斯敦数据集和特伦托数据集上测试模型的有效性。此外,为了规范地面实况图像作为模型的真实标签,将原始地面实况图像进行了标准化处理,并记录了地面真实样本的位置信息。为评估本实验方案的分类性能,将所提网络模型与其他的网络模型进行对比。本文选取了目前最先进的两种深度学习模型进行比较,包括EndNet以及MML。三个数据集上不同方法的分类精度如表1,2,3所示。表1为本发明在四川盆地数据集精度对比表;表2为本发明在休斯敦数据集精度对比表;表3为本发明在特伦托数据集精度对比表。
表1
表2
表3
从表1表2和表3中可以看出,所提出的方法相对于EndNet和MML表现出更好的地物区分能力,在三个数据集上总体精度OA,平均精度AA和Kappa系数均取得了最高值,证明了本方法的有效性。
综上所述:本发明设计了一种多尺度空洞卷积模块,用于提取多源数据的特征。通过采用不同大小的卷积核和空洞卷积结构,能够获得更抽象的特征表示,相比传统方法具有更强的特征学习和表达能力,能够有效克服异构数据在原始数据空间上的结构差异。特别地,空洞卷积的使用能够增大感受野,同时计算量相对较低,使得网络能够更好地捕捉到图像中的上下文信息。
本发明提出了一种卷积自编码器数据融合模块,用于实现多源数据的特征融合。通过引入跨模态的重建策略,能够学习不同遥感数据源中更丰富的特征信息。更具体地说,在重建异构数据特征阶段,通过交叉重建的方式增强特征表示,更好地消除不同模式之间的差距,从而在特征层面实现了有效的多源信息信息交换;在多源数据融合阶段,通过学习两种数据更深层次的混合特征表示,从而实现更充分的融合,进一步提高分类准确性。
本发明设计了一种模糊池化模块,以增强模型对多源数据特征的感知能力,并减少重要特征的丢失。该模块通过对局部感受野内的最大值进行滤波,并在此基础上考虑了最大值邻域内所有像素的贡献,从而提高了模型的鲁棒性。
本发明提出了一种基于多尺度卷积自编码器的多源数据融合地物分类网络。通过引入卷积注意力模块,从而自动学习并选择性地聚焦于光谱通道和空间区域的重要特征,以优化卷积自编码器网络的分类性能。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,包括以下步骤:
获取激光雷达点云数据和光学影像数据,分别对所述激光雷达点云数据和所述光学影像数据进行预处理,构建多源遥感数据集;
构建基于多尺度卷积自编码器的多源数据融合地物分类模型;
基于所述多源遥感数据集,对所述多源数据融合地物分类模型进行训练;
利用训练好的所述多源数据融合地物分类模型对待测的城市地物进行预测,实现对城市地物的分类。
2.根据权利要求1所述的基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,对所述激光雷达点云数据进行预处理的方法包括:
采用统计滤波的方法,对所述激光雷达点云数据进行去噪处理;
使用反距离加权插值算法,将去噪后的所述激光雷达点云数据生成数字表面模型DSM数据;
采用布料模拟滤波算法,将去噪后的所述激光雷达点云数据分离为地面点和非地面点;
对得到的地面点进行插值处理,生成数字高程模型DEM数据;
将数字表面模型DSM数据中的高程值减去数字高程模型DEM数据中对应位置的高程值,得到归一化数字表面模型nDSM影像数据。
3.根据权利要求2所述的基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,对所述光学影像数据进行预处理的方法包括:
使用裁剪范围对光学影像数据进行裁剪;
将裁剪后的光学影像数据与所述归一化数字表面模型nDSM影像数据进行配准。
4.根据权利要求1所述的基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,所述多源数据融合地物分类模型由两个分支网络组成,每个分支网络包括输入模块、多尺度特征提取模块和自编码器融合模块;
所述输入模块用于对光学影像数据和激光雷达点云数据进行预处理,获得输入数据;
所述多尺度特征提取模块用于基于所述输入数据,提取光学影像数据中的光谱空间特征和激光雷达点云数据中的高程特征;
所述自编码器融合模块用于对所述光谱空间特征和所述高程特征进行融合。
5.根据权利要求4所述的基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,所述多尺度特征提取模块由1×1、3×3和5×5的卷积层、批处理的归一化层、2×2的池化层以及ReLU激活层组成。
6.根据权利要求4所述的基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,所述自编码器融合模块由卷积注意力CBAM模块、2层卷积编码层及2层卷积解码层组成。
7.根据权利要求6所述的基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,所述卷积注意力CBAM模块包括:通道注意力模块和空间注意力模块;
所述通道注意力模块用于获得通道注意力特征图;
所述空间注意力模块用于基于所述通道注意力特征图,获得空间注意力特征图;
其中,获得通道注意力特征图的方法包括:
其中,σ、W0、W1分别为激活函数及MLP的权重,F为特征图,和/>分别为维度为1×1×C的通道特征;
获得空间注意力特征图的方法包括:
其中,σ、f7×7分别为激活函数及拥有7×7卷积核的卷积层,为进行全局最大池化操作得到的特征图,/>为进行全局平均池化操作得到的特征图。
8.根据权利要求6所述的基于多尺度卷积自编码器的多源数据融合地物分类方法,其特征在于,所述自编码器融合模块工作的具体步骤包括:
当有特征输入时,卷积编码层1首先经过注意力模块、3×3的卷积层,批处理的归一化层及Relu激活层,后接一个步幅为2的模糊池化层;
卷积编码层2进行编码器1的同样操作,获得多源数据特征,并将所述多源数据特征进行叠加;
卷积解码层1经过一个步幅为2的反卷积层,后接批处理的归一化层及Relu激活层;
卷积解码层2进行卷积解码层1的同样操作,实现叠加后的多源数据特征的重构。
CN202311724746.2A 2023-12-14 2023-12-14 基于多尺度卷积自编码器的多源数据融合地物分类方法 Active CN117576483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311724746.2A CN117576483B (zh) 2023-12-14 2023-12-14 基于多尺度卷积自编码器的多源数据融合地物分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311724746.2A CN117576483B (zh) 2023-12-14 2023-12-14 基于多尺度卷积自编码器的多源数据融合地物分类方法

Publications (2)

Publication Number Publication Date
CN117576483A true CN117576483A (zh) 2024-02-20
CN117576483B CN117576483B (zh) 2024-06-14

Family

ID=89888192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311724746.2A Active CN117576483B (zh) 2023-12-14 2023-12-14 基于多尺度卷积自编码器的多源数据融合地物分类方法

Country Status (1)

Country Link
CN (1) CN117576483B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN112819732A (zh) * 2021-04-19 2021-05-18 中南大学 一种探地雷达B-scan图像去噪方法
WO2021146890A1 (en) * 2020-01-21 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for object detection in image using detection model
CN113239736A (zh) * 2021-04-16 2021-08-10 广州大学 一种基于多源遥感数据的土地覆盖分类标注图获取方法、存储介质及***
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN114550000A (zh) * 2022-01-05 2022-05-27 中国科学院计算机网络信息中心 一种基于多分辨率特征融合的遥感图像分类方法和装置
US20220309674A1 (en) * 2021-03-26 2022-09-29 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on u-net
CN115497002A (zh) * 2022-09-28 2022-12-20 桂林理工大学 一种多尺度特征融合的激光雷达遥感分类方法
CN115512162A (zh) * 2022-10-08 2022-12-23 中国石油大学(华东) 基于注意力孪生网络与多模态融合特征的地物分类方法
CN115512226A (zh) * 2022-10-08 2022-12-23 中国石油大学(华东) 融入注意力机制多尺度CNN的LiDAR点云滤波方法
CN116778165A (zh) * 2023-06-30 2023-09-19 北京航空航天大学 基于多尺度自适应语义分割的遥感影像灾害检测方法
CN116977866A (zh) * 2023-05-06 2023-10-31 中国科学院地理科学与资源研究所 一种轻量级滑坡检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
WO2021146890A1 (en) * 2020-01-21 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for object detection in image using detection model
US20220309674A1 (en) * 2021-03-26 2022-09-29 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on u-net
CN113239736A (zh) * 2021-04-16 2021-08-10 广州大学 一种基于多源遥感数据的土地覆盖分类标注图获取方法、存储介质及***
CN112819732A (zh) * 2021-04-19 2021-05-18 中南大学 一种探地雷达B-scan图像去噪方法
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN114550000A (zh) * 2022-01-05 2022-05-27 中国科学院计算机网络信息中心 一种基于多分辨率特征融合的遥感图像分类方法和装置
CN115497002A (zh) * 2022-09-28 2022-12-20 桂林理工大学 一种多尺度特征融合的激光雷达遥感分类方法
CN115512162A (zh) * 2022-10-08 2022-12-23 中国石油大学(华东) 基于注意力孪生网络与多模态融合特征的地物分类方法
CN115512226A (zh) * 2022-10-08 2022-12-23 中国石油大学(华东) 融入注意力机制多尺度CNN的LiDAR点云滤波方法
CN116977866A (zh) * 2023-05-06 2023-10-31 中国科学院地理科学与资源研究所 一种轻量级滑坡检测方法
CN116778165A (zh) * 2023-06-30 2023-09-19 北京航空航天大学 基于多尺度自适应语义分割的遥感影像灾害检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUANJIN ZHANG ET AL: "Research on land cover classification of multi-source remote sensing data based on improved U-net network", SCIENTIFIC REPORTS, 28 September 2023 (2023-09-28) *
王一博等: "基于自编码器的高光谱与激光雷达数据融合地物分类", 激光与光电子学进展, 22 August 2023 (2023-08-22), pages 1 - 17 *

Also Published As

Publication number Publication date
CN117576483B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨***
Li et al. Survey of single image super‐resolution reconstruction
CN111145131A (zh) 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、***和介质
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN112991173A (zh) 基于双通道特征迁移网络的单帧图像超分辨率重建方法
CN113792641B (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN111951195A (zh) 图像增强方法及装置
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
Khan et al. An encoder–decoder deep learning framework for building footprints extraction from aerial imagery
CN116309070A (zh) 一种高光谱遥感图像超分辨率重建方法、装置及计算机设备
CN112446835A (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN117252761A (zh) 一种跨传感器遥感图像超分辨率增强方法
CN117474781A (zh) 一种基于注意力机制的高光谱与多光谱图像融合方法
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN115170915A (zh) 一种基于端到端注意力网络的红外与可见光图像融合方法
Pan et al. Structure–color preserving network for hyperspectral image super-resolution
Liu et al. Research on super-resolution reconstruction of remote sensing images: A comprehensive review
CN114782298A (zh) 一种具有区域注意力的红外与可见光图像融合方法
CN117788296B (zh) 基于异构组合深度网络的红外遥感图像超分辨率重建方法
CN115578262A (zh) 基于afan模型的偏振图像超分辨率重建方法
Wang et al. PACCDU: Pyramid attention cross-convolutional dual UNet for infrared and visible image fusion
Ye et al. An unsupervised SAR and optical image fusion network based on structure-texture decomposition
Yang et al. Variation learning guided convolutional network for image interpolation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant