CN115546569B - 一种基于注意力机制的数据分类优化方法及相关设备 - Google Patents

一种基于注意力机制的数据分类优化方法及相关设备 Download PDF

Info

Publication number
CN115546569B
CN115546569B CN202211550245.2A CN202211550245A CN115546569B CN 115546569 B CN115546569 B CN 115546569B CN 202211550245 A CN202211550245 A CN 202211550245A CN 115546569 B CN115546569 B CN 115546569B
Authority
CN
China
Prior art keywords
fusion
data
attention
classification
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211550245.2A
Other languages
English (en)
Other versions
CN115546569A (zh
Inventor
宋伟伟
莫继学
戴勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202211550245.2A priority Critical patent/CN115546569B/zh
Publication of CN115546569A publication Critical patent/CN115546569A/zh
Application granted granted Critical
Publication of CN115546569B publication Critical patent/CN115546569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的数据分类优化方法及相关设备,所述方法包括:将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。本发明构建了基于注意力机制的特征提取与融合框架,同时考虑了样本的语义信息与相似信息,显著提高了特征的表征能力,通过高效的特征提取与融合实现了HSI与LiDAR的精确分类。

Description

一种基于注意力机制的数据分类优化方法及相关设备
技术领域
本发明涉及多源数据融合分类技术领域,尤其涉及一种基于注意力机制的数据分类优化方法、终端及计算机可读存储介质。
背景技术
随着对地观测技术的飞速发展,现已研制出了不同类型的传感器来获取地面物体(地物)的多源信息。例如,多光谱和高光谱相机能获取地物的光谱属性,激光雷达(LightDetection and Ranging, LiDAR)传感器能直接获取地物的三维空间信息,合成孔径雷达(Synthetic Aperture Radar,SAR)传感器能获取振幅和相位信息。
尽管这些类型传感器在遥感对地观测与地物分类应用中发挥着重要作用,然而,仅利用单个传感器却存在各自弊端。例如,高光谱图像(Hyper Spectral Images,HSI)具有丰富的光谱信息,能识别出不同的物质属性,但却难以区分相似光谱不同高程信息的地物(如仅依靠HSI光谱信息无法有效区分草地和树木、停车场和建筑屋顶、道路和高架桥等);另一方面,LiDAR数据可以利用高度信息直接对不同高程的地物分类,然而却无法区分高度相同光谱不同的地物(如仅利用LiDAR点云无法有效区分沥青和混凝土、铁皮瓦和琉璃瓦、树木和伪树木信号塔等)。由此可见,任何单一的传感器数据都不能全面捕获真实准确的地物信息,难以满足可靠的遥感地物分类需求。通过联合LiDAR点云与HSI,充分利用不同类型数据的优势互补,是实现遥感图像精细分类的关键技术手段。
当前,LiDAR点云与HSI融合分类方法可分为以下几类:基于特征堆栈的融合分类方法、基于低维子空间的融合分类方法、基于核变换的融合分类方法,以及基于深度学习的融合分类方法。
其中,特征堆栈是最简单、最容易实现的特征融合方法,然而,简单的串联或堆栈方式可能使得融合后的特征包含大量冗余信息,并且由于标记样本有限,该融合方式通常面临“维数灾难”的问题,导致分类精度受限;基于低维子空间的融合方法通过将高维高光谱数据分解为低维光谱子空间和系数,能够有效避免分类过程中产生的“维数灾难”,并提高计算效率,然而,该类方法需要求解复杂的分解模型,其性能受求解得到的系数影响较大;基于核变换的融合方法将原始空间中线性不可分的数据映射到高维空间中,使之变为线性可分,被广泛用于LiDAR点云与HSI融合分类研究中,然而,该类方法需要人工选择核函数,而且无法保证所选核函数在所有场景下性能最优;基于深度学习的方法是当前的主流方法,该类方法通过构建深层神经网络提取高表征的语义特征,并通过全连接层融合HSI和LiDAR点云特征实现二者的深度融合,然而,基于深度学习的方法需要大量的标签样本进行模型训练,而通常标定的高光谱像素十分有限,一定程度上限制了深度学习方法在高光谱领域中的应用。
尽管针对HSI与LiDAR点云多源数据融合分类问题已开展了若干探索性工作,并取得了较好的地物分类结果。然而,由于遥感数据本身的空间结构复杂性高,HSI与LiDAR点云之间的异构性强,当前的多源数据特征提取与融合方法得到的特征表征能力仍然不够,难以满足当下地物高精度分类的需求。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种基于注意力机制的数据分类优化方法、终端及计算机可读存储介质,旨在解决现有技术中多源数据特征提取与融合方法得到的特征表征能力不够,难以满足当下地物高精度分类的需求的问题。
为实现上述目的,本发明提供一种基于注意力机制的数据分类优化方法,所述基于注意力机制的数据分类优化方法包括如下步骤:
将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;
将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;
获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;
将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,之前还包括:
分别表示HSI和LiDAR点云深度图像中的标记像素集;
其中,分别表示第个HSI像素和第个LiDAR像素;是标记像素集的总数,是HSI光谱波段数;
真实标签数据表示为
其中,表示第个像素的真实标签,表示类别总数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,具体包括:
将HSI和LiDAR点云深度图像中相同坐标位置的像素组成样本对,并根据预先定义的数据划分准则,将所有标记的像素划分为训练集和测试集;
分别表示训练集和测试集,分别表示训练集和测试集的真实标签数据,其中,分别表示训练样本数目和测试样本数目,且满足
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述多源数据特征提取与融合网络包括:数据预处理模块、基于残差-注意力机制特征提取模块、基于注意力机制特征融合模块和基于决策级融合分类模块。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述数据预处理模块用于:
以标记像素为中心,分别在HSI和LiDAR点云深度图像上截取预设大小的图像块,构造图像对样本,其中,为高光谱图像块,为LiDAR点云深度图像块,为图像块大小;
采用两个不同的卷积层分别对进行卷积操作,使的数据维度相等,预处理后的数据表示如下:
其中,分别表示预处理后的高光谱图像块和LiDAR点云深度图像块;
卷积层的卷积核大小分别为,其中,为卷积核的空间大小,为卷积核的输出通道数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述基于残差-注意力机制特征提取模块用于:
为某个残差模块输入,则输出表示为
其中,为两个卷积层的网络函数,即
其中,为卷积核,为偏置向量,表示卷积操作,表示ReLU激活函数;
若多尺度通道注意力模块的输入为,提取的全局特征表示为:
其中,表示全局平均池化操作,表示批正则化,分别表示维度减小层和维度增加层,为通道减小因子,表示输入的特征通道数;
局部特征表示为:
其中,表示局部特征提取过程中两个逐点卷积操作,的卷积核大小分别为;局部特征与输入大小相同;
多尺度通道注意力模块的输出特征表示为:
其中,表示注意力权重,表示逐元素乘法操作,表示广播加法,表示sigmoid激活函数;
经过多个残差-注意力机制模块的处理,提取到的HSI和LiDAR图像特征分别记为
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述基于注意力机制特征融合模块用于:
对提取的HIS图像特征和LiDAR图像特征分别进行全局池化操作,经矢量拉伸与全连接层处理,分别生成相应的语义特征
采用两种特征级融合策略来利用HSI和LiDAR数据间的互补信息;
其中,第一种融合策略是基于加法的特征融合,直接对进行相加,得到二者融合后的语义特征
其中,第二种融合策略是基于注意力机制的特征融合,采用注意力特征融合模块对进行融合,再经过矢量拉伸与全连接层处理,生成融合后的语义特征;待融合的特征经求和操作之后输入到多尺度通道注意力模块中生成基于注意力的融合权重,表示如下:
其中,表示融合后的特征,M表示融合权重,表示待融合的两个特征;
经过处理后,共生成了四种语义特征,包括两种单源数据语义特征,以及两种融合后的语义特征
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述基于决策级融合分类模块用于:
将单源数据语义特征,以及融合后的语义特征分别输入到不同分类器中,得到四种分类预测结果;
采用决策级融合策略对四种分类结果进行优化,最终分类结果表示为:
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络具体为:
设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数,具体包括:
采用基于深度哈希的度量学习来约束图像块样本对之间的相似度;
将提取到的语义特征二值化为哈希码,得到对应的哈希码矩阵:
说明: 说明: 说明: `PK7D5SF4UY[XLXP@_]8ES5
其中,分别表示HSI、LiDAR和HSI-LiDAR的哈希码矩阵,分别表示第个HSI和LiDAR像素的哈希码;
定义任一样本对的相似度变量,若二者类别标签相同,则,反之则为0;
通过计算样本对标签的负对数似然得到单源和跨源样本间相似度损失:
其中,
其中,表示sigmoid激活函数;
采用连续变量的语义特征来逼近离散哈希码,连续化所产生的量化损失表示为:
在提取到的语义特征基础上,采用交叉熵损失函数度量每个样本的语义损失:
其中,表示分类器预测的分类结果;
通过联合最小化以上三种损失函数,目标函数表示如下:
其中,为超参数,用于平衡不同类型损失的权重;
采用梯度下降算法来求解所述目标函数,通过不断的更新迭代获得合适的网络参数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签,具体包括:
对于任一测试样本对,将输入到训练好的所述多源数据特征提取与融合网络中;
所述多源数据特征提取与融合网络的前馈运算提取四种语义特征
将四种语义特征分别输入不同的分类器中得到各自分类结果;
采用决策级融合对四种分类结果进行整合,得到最终的分类结果:
其中,分类器采用softmax函数。
此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被所述处理器执行时实现如上所述的基于注意力机制的数据分类优化方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被处理器执行时实现如上所述的基于注意力机制的数据分类优化方法的步骤。
本发明中,将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。本发明构建了基于注意力机制的特征提取与融合框架,并设计了新颖的目标损失函数,同时考虑了样本的语义信息与相似信息,显著提高了特征的表征能力,通过高效的特征提取与融合实现了HSI与LiDAR的精确分类。
附图说明
图1是本发明基于注意力机制的数据分类优化方法的较佳实施例的流程图;
图2是本发明基于注意力机制的数据分类优化方法的较佳实施例中多源数据特征提取与融合网络的框架示意图;
图3是本发明基于注意力机制的数据分类优化方法的较佳实施例中数据预处理模块处理数据的示意图;
图4是本发明基于注意力机制的数据分类优化方法的较佳实施例中基于残差-注意力机制特征提取模块处理数据的示意图;
图5是本发明基于注意力机制的数据分类优化方法的较佳实施例中采用多尺度通道注意力模块MS-CAM进行特征提取的示意图;
图6是本发明基于注意力机制的数据分类优化方法的较佳实施例中基于注意力机制特征融合模块处理数据的示意图;
图7是本发明基于注意力机制的数据分类优化方法的较佳实施例中待融合的特征经求和操作之后输入到MS-CAM模块中生成基于注意力的融合权重的示意图;
图8是本发明基于注意力机制的数据分类优化方法的较佳实施例中基于决策级融合分类模块处理数据的示意图;
图9为本发明终端的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明较佳实施例所述的基于注意力机制的数据分类优化方法,如图1所示,所述基于注意力机制的数据分类优化方法包括以下步骤:
步骤S10、将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据。
具体地,若 分别表示HSI和LiDAR点云深度图像中的标记像素集;其中,分别表示第个HSI像素和第个LiDAR像素;是标记像素集的总数,是HSI光谱波段数。
对应的真实标签数据表示为;其中,表示第个像素的真实标签,表示类别总数。
将HSI和LiDAR点云深度图像中相同坐标位置的像素组成样本对,并根据预先定义的数据划分准则,将所有标记的像素划分为训练集和测试集;分别表示训练集和测试集,分别表示训练集和测试集的真实标签数据,其中,分别表示训练样本数目和测试样本数目,且满足
步骤S20、将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络。
具体地,将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络,提取高表征的语义特征;如图2所示,所述多源数据特征提取与融合网络包括:数据预处理模块、基于残差-注意力机制特征提取模块、基于注意力机制特征融合模块和基于决策级融合分类模块。
其中,对于数据预处理模块,如图3所示,数据预处理模块包含图像取块和维度变换两个部分。首先,以标记像素为中心,分别在HSI和LiDAR点云深度图像上截取预设大小的图像块,构造图像对样本,其中,为高光谱图像块,为LiDAR点云深度图像块,为图像块大小;其次,采用两个不同的卷积层分别对进行卷积操作,使的数据维度相等,预处理后的数据表示如下:
其中,分别表示预处理后的高光谱图像块和LiDAR点云深度图像块;
卷积层的卷积核大小分别为,其中,为卷积核的空间大小,为卷积核的输出通道数。
其中,对于基于残差-注意力机制特征提取模块,如图4所示,所构建的基于残差-注意力机制特征提取模块采用了双分支结构,每个分支之间采用权值共享机制来减小网络参数量。每个分支又由多个残差-注意力机制模块(即Res-MS-CAM Block)构成。其中,残差学习通过采用跳跃连接,来使得若干卷积层之间的网络残差为零,使之近似为恒等映射。由于跳跃连接既没有增加网络参数,也优化了整个网络的训练,使得网络在很深的结构下达到更优的网络性能。
在发明实施例中,若为某个残差模块输入,则输出表示为
其中,为两个卷积层的网络函数,即;其中,为卷积核,为偏置向量,表示卷积操作,表示ReLU激活函数。
此外,为了在特征提取过程中使网络聚焦更显著的信息,本发明实施还采用了多尺度通道注意力模块(Multi-Scale Channel Attention Module,MS-CAM)。如图5所示,MS-CAM同时利用了全局特征和局部特征。若多尺度通道注意力模块(MS-CAM)的输入为,提取的全局特征表示为:
其中,表示全局平均池化操作,表示批正则化,分别表示维度减小层和维度增加层,为通道减小因子,表示输入的特征通道数。
此外,局部特征表示为:
其中表示局部特征提取过程中两个逐点卷积操作,的卷积核大小分别为;因此,局部特征与输入大小相同。
最后,多尺度通道注意力模块(MS-CAM)的输出特征表示为:
其中,表示注意力权重,表示逐元素乘法操作,表示广播加法,表示sigmoid激活函数。
经过多个残差-注意力机制模块(Res-MS-CAM)的处理,提取到的HSI和LiDAR图像特征分别记为
其中,对于基于注意力机制特征融合模块,如图6所示,对上述提取的HIS图像特征和LiDAR图像特征分别进行全局池化操作(GlobalAvgPool),后经矢量拉伸(Flatten)与全连接层(FC)处理,分别生成相应的语义特征
此外,本实施发明还采用了两种特征级融合策略来利用HSI和LiDAR数据间的互补信息;其中,第一种融合策略是基于加法的特征融合,即直接对进行相加,得到二者融合后的语义特征;第二种融合策略是基于注意力机制的特征融合,首先采用注意力特征融合(Attention Feature Fusion,AFF)模块对进行融合,再经过矢量拉伸(Flatten)与全连接层(FC)处理,生成融合后的语义特征;如图7所示,待融合的特征经求和操作之后输入到多尺度通道注意力模块中生成基于注意力的融合权重,表示如下:
其中,表示融合后的特征,M表示融合权重,表示待融合的两个特征。
与基于加法的融合相比,AFF同时利用了输入特征的局部与全局特征,并实现了同层到跨层的深度融合。
因此,经过上述模块处理后,共生成了四种语义特征,包括两种单源数据语义特征,以及两种融合后的语义特征
其中,对于基于决策级融合分类模块,如图8所示,将上述四种语义特征分别输入到不同分类器中,即将单源数据语义特征,以及融合后的语义特征分别输入到不同分类器中,得到四种分类预测结果;为提升分类结果,本发明实施采用了决策级融合策略对四种分类结果进行优化,即最终分类结果表示为:
步骤S30、获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络。
具体地,设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数。样本相似信息指样本间的相似度,即相同类的样本,其特征距离应尽可能小,不同类的样本,特征距离应尽可能大。为学习样本间的相似信息,本实施例采用了基于深度哈希的度量学习来约束图像块样本对之间的相似度。
首先,将提取到的语义特征进一步二值化为哈希码,得到对应的哈希码矩阵:
说明: 说明: 说明: `PK7D5SF4UY[XLXP@_]8ES5
其中,分别表示HSI、LiDAR和HSI-LiDAR的哈希码矩阵,分别表示第个HSI和LiDAR像素的哈希码。
此外,定义任一样本对的相似度变量,若二者类别标签相同,则,反之则为0。
基于上述定义,通过计算样本对标签的负对数似然得到单源和跨源样本间相似度损失:
其中,
其中,表示sigmoid激活函数;
由于损失函数存在不连续约束(即哈希码矩阵元素为离散值),直接求解该损失函数是个NP-hard问题。为此,本发明实施例采用连续变量的语义特征(即)来逼近离散哈希码(即),该连续化所产生的量化损失表示为:
除了样本间相关性外,每个样本还具有丰富的语义信息。在提取到的语义特征基础上,采用交叉熵损失函数度量每个样本的语义损失:
其中,表示分类器预测的分类结果;
通过联合最小化以上三种损失函数,目标函数表示如下:
其中,为超参数,用于平衡不同类型损失的权重;即通过最小化上述损失函数,可使网络输出的预测类别尽可能接近样本的真实类别,
本发明实施例采用了梯度下降算法来求解所述目标函数,通过不断的更新迭代获得合适的网络参数。
步骤S40、将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。
具体地,对于任一测试样本对,将输入到训练好的所述多源数据特征提取与融合网络中;所述多源数据特征提取与融合网络的前馈运算提取四种语义特征;将四种语义特征分别输入不同的分类器中得到各自分类结果;最后,采用决策级融合对四种分类结果进行整合,得到最终的分类结果:
其中,分类器采用softmax函数。
进一步地,本实施例展示了不同度量指标下的分类结果,采用的分类度量指标包括:总体精度(Overall Accuracy, OA)、平均精度(Average Accuracy, AA)、每类精度(Class Accuracy, CA),以及Kappa系数。除本实施例提出方法外,还进一步对比了其他基于深度学习的HSI和LiDAR分类方法,包括: two-branch CNN、FDSSCN、Coupled CNN。表1展示了不同分类方法的定量比较结果。
表1 不同方法在Houston数据集上的分类结果
由表1可以看出,本发明实施例提出的发明方法在OA、AA、Kappa三个指标上都取得了最好的分类结果。此外,本发明方法的分类结果在大多数类别上也高于其他分类方法。上述实验结果进一步证明了本发明方法对于多源数据融合分类的有效性与优越性。
进一步地,如图9所示,基于上述基于注意力机制的数据分类优化方法和***,本发明还相应提供了一种终端,所述终端包括处理器10、存储器20及显示器30。图9仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据,例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于注意力机制的数据分类优化程序40,该基于注意力机制的数据分类优化程序40可被处理器10所执行,从而实现本申请中基于注意力机制的数据分类优化方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于注意力机制的数据分类优化方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过***总线相互通信。
在一实施例中,当处理器10执行所述存储器20中基于注意力机制的数据分类优化程序40时实现如上所述基于注意力机制的数据分类优化方法的步骤。
本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被处理器执行时实现如上所述的基于注意力机制的数据分类优化方法的步骤。
综上所述,本发明提供一种基于注意力机制的数据分类优化方法及相关设备,所述方法包括:将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。本发明构建了基于注意力机制的特征提取与融合框架,并设计了新颖的目标损失函数,同时考虑了样本的语义信息与相似信息,显著提高了特征的表征能力,通过高效的特征提取与融合实现了HSI与LiDAR的精确分类,为当前联合利用多源数据提供了一种有效的方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的计算机可读存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (4)

1.一种基于注意力机制的数据分类优化方法,其特征在于,所述基于注意力机制的数据分类优化方法包括:
将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;
将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;
获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;
将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签;
所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,之前还包括:
分别表示HSI和LiDAR点云深度图像中的标记像素集;
其中,分别表示第个HSI像素和第个LiDAR像素;是标记像素集的总数,是HSI光谱波段数;
真实标签数据表示为
其中,表示第个像素的真实标签,表示类别总数;
所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,具体包括:
将HSI和LiDAR点云深度图像中相同坐标位置的像素组成样本对,并根据预先定义的数据划分准则,将所有标记的像素划分为训练集和测试集;
分别表示训练集和测试集,分别表示训练集和测试集的真实标签数据,其中,分别表示训练样本数目和测试样本数目,且满足
所述多源数据特征提取与融合网络包括:数据预处理模块、基于残差-注意力机制特征提取模块、基于注意力机制特征融合模块和基于决策级融合分类模块;
所述数据预处理模块用于:
以标记像素为中心,分别在HSI和LiDAR点云深度图像上截取预设大小的图像块,构造图像对样本,其中,为高光谱图像块,为LiDAR点云深度图像块,为图像块大小;
采用两个不同的卷积层分别对进行卷积操作,使的数据维度相等,预处理后的数据表示如下:
其中,分别表示预处理后的高光谱图像块和LiDAR点云深度图像块;
卷积层的卷积核大小分别为,其中,为卷积核的空间大小,为卷积核的输出通道数;
所述基于残差-注意力机制特征提取模块用于:
为某个残差模块输入,则输出表示为
其中,为两个卷积层的网络函数,即
其中,为卷积核,为偏置向量,表示卷积操作,表示ReLU激活函数;
若多尺度通道注意力模块的输入为,提取的全局特征表示为:
其中,表示全局平均池化操作,表示批正则化,分别表示维度减小层和维度增加层,为通道减小因子,表示输入的特征通道数;
局部特征表示为:
其中,表示局部特征提取过程中两个逐点卷积操作,的卷积核大小分别为;局部特征与输入大小相同;
多尺度通道注意力模块的输出特征表示为:
其中,表示注意力权重,表示逐元素乘法操作,表示广播加法,表示sigmoid激活函数;
经过多个残差-注意力机制模块的处理,提取到的HSI和LiDAR图像特征分别记为
所述基于注意力机制特征融合模块用于:
对提取的HIS图像特征和LiDAR图像特征分别进行全局池化操作,经矢量拉伸与全连接层处理,分别生成相应的语义特征
采用两种特征级融合策略来利用HSI和LiDAR数据间的互补信息;
其中,第一种融合策略是基于加法的特征融合,直接对进行相加,得到二者融合后的语义特征
其中,第二种融合策略是基于注意力机制的特征融合,采用注意力特征融合模块对进行融合,再经过矢量拉伸与全连接层处理,生成融合后的语义特征;待融合的特征经求和操作之后输入到多尺度通道注意力模块中生成基于注意力的融合权重,表示如下:
其中,表示融合后的特征,M表示融合权重,表示待融合的两个特征;
经过处理后,共生成了四种语义特征,包括两种单源数据语义特征,以及两种融合后的语义特征
所述基于决策级融合分类模块用于:
将单源数据语义特征,以及融合后的语义特征分别输入到不同分类器中,得到四种分类预测结果;
采用决策级融合策略对四种分类结果进行优化,最终分类结果表示为:
所述获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络具体为:
设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数;
所述设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数,具体包括:
采用基于深度哈希的度量学习来约束图像块样本对之间的相似度;
将提取到的语义特征二值化为哈希码,得到对应的哈希码矩阵:
其中,分别表示HSI、LiDAR和HSI-LiDAR的哈希码矩阵,分别表示第个HSI和LiDAR像素的哈希码;
定义任一样本对的相似度变量,若二者类别标签相同,则,反之则为0;
通过计算样本对标签的负对数似然得到单源和跨源样本间相似度损失:
其中,; 
其中,表示sigmoid激活函数;
采用连续变量的语义特征来逼近离散哈希码,连续化所产生的量化损失表示为:
在提取到的语义特征基础上,采用交叉熵损失函数度量每个样本的语义损失:
其中,表示分类器预测的分类结果;
通过联合最小化以上三种损失函数,目标函数表示如下:
其中,为超参数,用于平衡不同类型损失的权重;
采用梯度下降算法来求解所述目标函数,通过不断的更新迭代获得合适的网络参数。
2.根据权利要求1所述的基于注意力机制的数据分类优化方法,其特征在于,所述将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签,具体包括:
对于任一测试样本对,将输入到训练好的所述多源数据特征提取与融合网络中;
所述多源数据特征提取与融合网络的前馈运算提取四种语义特征
将四种语义特征分别输入不同的分类器中得到各自分类结果;
采用决策级融合对四种分类结果进行整合,得到最终的分类结果:
其中,分类器采用softmax函数。
3.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被所述处理器执行时实现如权利要求1-2任一项所述的基于注意力机制的数据分类优化方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被处理器执行时实现如权利要求1-2任一项所述的基于注意力机制的数据分类优化方法的步骤。
CN202211550245.2A 2022-12-05 2022-12-05 一种基于注意力机制的数据分类优化方法及相关设备 Active CN115546569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211550245.2A CN115546569B (zh) 2022-12-05 2022-12-05 一种基于注意力机制的数据分类优化方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211550245.2A CN115546569B (zh) 2022-12-05 2022-12-05 一种基于注意力机制的数据分类优化方法及相关设备

Publications (2)

Publication Number Publication Date
CN115546569A CN115546569A (zh) 2022-12-30
CN115546569B true CN115546569B (zh) 2023-04-07

Family

ID=84722227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211550245.2A Active CN115546569B (zh) 2022-12-05 2022-12-05 一种基于注意力机制的数据分类优化方法及相关设备

Country Status (1)

Country Link
CN (1) CN115546569B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894972B (zh) * 2023-06-25 2024-02-13 耕宇牧星(北京)空间科技有限公司 融合机载相机图像和sar图像的湿地信息分类方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993220B (zh) * 2019-03-23 2022-12-06 西安电子科技大学 基于双路注意力融合神经网络的多源遥感图像分类方法
CN113435253B (zh) * 2021-05-31 2022-12-02 西安电子科技大学 一种多源影像联合城区地表覆盖分类方法
CN114708455A (zh) * 2022-03-24 2022-07-05 中国人民解放军战略支援部队信息工程大学 高光谱影像和LiDAR数据协同分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Also Published As

Publication number Publication date
CN115546569A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
Shabbir et al. Satellite and scene image classification based on transfer learning and fine tuning of ResNet50
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
Li et al. Toward in situ zooplankton detection with a densely connected YOLOV3 model
Zhou et al. Surveillance of pine wilt disease by high resolution satellite
Zhang et al. Semantic segmentation of very high-resolution remote sensing image based on multiple band combinations and patchwise scene analysis
CN115546569B (zh) 一种基于注意力机制的数据分类优化方法及相关设备
CN116630700A (zh) 基于引入通道-空间注意力机制的遥感图像分类方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
Cheng et al. Multi-scale Feature Fusion and Transformer Network for urban green space segmentation from high-resolution remote sensing images
Sjahputera et al. Clustering of detected changes in high-resolution satellite imagery using a stabilized competitive agglomeration algorithm
Song et al. Multi-source remote sensing image classification based on two-channel densely connected convolutional networks.
Li Segment any building
Yang et al. Lightweight Attention-Guided YOLO With Level Set Layer for Landslide Detection From Optical Satellite Images
Ataş Performance Evaluation of Jaccard-Dice Coefficient on Building Segmentation from High Resolution Satellite Images
Wu et al. Research on asphalt pavement disease detection based on improved YOLOv5s
Jiang Object-based deep convolutional autoencoders for high-resolution remote sensing image classification
Cui et al. Global context dependencies aware network for efficient semantic segmentation of fine-resolution remoted sensing images
Karimpouli et al. Seminonlinear spectral unmixing using a neural network-based forward modeling
Sivagami et al. Analysis of encoder-decoder based deep learning architectures for semantic segmentation in remote sensing images
He et al. Tackling the over-smoothing problem of CNN-based hyperspectral image classification
Yifter et al. Deep transfer learning of satellite imagery for land use and land cover classification
Kattan et al. Systematic evaluation of CNN on land cover classification from remotely sensed images
Mathew et al. Multi-spectral change detection methods: evaluation on simulated and real-world satellite imagery
Jeune et al. Spatial Variation Sequences for Remote Sensing Applications with Small Sample Sizes
Khoyani Towards Full Deep Learning-based SLAM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant