CN115546569B - 一种基于注意力机制的数据分类优化方法及相关设备 - Google Patents
一种基于注意力机制的数据分类优化方法及相关设备 Download PDFInfo
- Publication number
- CN115546569B CN115546569B CN202211550245.2A CN202211550245A CN115546569B CN 115546569 B CN115546569 B CN 115546569B CN 202211550245 A CN202211550245 A CN 202211550245A CN 115546569 B CN115546569 B CN 115546569B
- Authority
- CN
- China
- Prior art keywords
- fusion
- data
- attention
- classification
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000007246 mechanism Effects 0.000 title claims abstract description 61
- 238000005457 optimization Methods 0.000 title claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 108
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000012360 testing method Methods 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000012512 characterization method Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000007500 overflow downdraw method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000010426 asphalt Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000004567 concrete Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/10—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的数据分类优化方法及相关设备,所述方法包括:将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。本发明构建了基于注意力机制的特征提取与融合框架,同时考虑了样本的语义信息与相似信息,显著提高了特征的表征能力,通过高效的特征提取与融合实现了HSI与LiDAR的精确分类。
Description
技术领域
本发明涉及多源数据融合分类技术领域,尤其涉及一种基于注意力机制的数据分类优化方法、终端及计算机可读存储介质。
背景技术
随着对地观测技术的飞速发展,现已研制出了不同类型的传感器来获取地面物体(地物)的多源信息。例如,多光谱和高光谱相机能获取地物的光谱属性,激光雷达(LightDetection and Ranging, LiDAR)传感器能直接获取地物的三维空间信息,合成孔径雷达(Synthetic Aperture Radar,SAR)传感器能获取振幅和相位信息。
尽管这些类型传感器在遥感对地观测与地物分类应用中发挥着重要作用,然而,仅利用单个传感器却存在各自弊端。例如,高光谱图像(Hyper Spectral Images,HSI)具有丰富的光谱信息,能识别出不同的物质属性,但却难以区分相似光谱不同高程信息的地物(如仅依靠HSI光谱信息无法有效区分草地和树木、停车场和建筑屋顶、道路和高架桥等);另一方面,LiDAR数据可以利用高度信息直接对不同高程的地物分类,然而却无法区分高度相同光谱不同的地物(如仅利用LiDAR点云无法有效区分沥青和混凝土、铁皮瓦和琉璃瓦、树木和伪树木信号塔等)。由此可见,任何单一的传感器数据都不能全面捕获真实准确的地物信息,难以满足可靠的遥感地物分类需求。通过联合LiDAR点云与HSI,充分利用不同类型数据的优势互补,是实现遥感图像精细分类的关键技术手段。
当前,LiDAR点云与HSI融合分类方法可分为以下几类:基于特征堆栈的融合分类方法、基于低维子空间的融合分类方法、基于核变换的融合分类方法,以及基于深度学习的融合分类方法。
其中,特征堆栈是最简单、最容易实现的特征融合方法,然而,简单的串联或堆栈方式可能使得融合后的特征包含大量冗余信息,并且由于标记样本有限,该融合方式通常面临“维数灾难”的问题,导致分类精度受限;基于低维子空间的融合方法通过将高维高光谱数据分解为低维光谱子空间和系数,能够有效避免分类过程中产生的“维数灾难”,并提高计算效率,然而,该类方法需要求解复杂的分解模型,其性能受求解得到的系数影响较大;基于核变换的融合方法将原始空间中线性不可分的数据映射到高维空间中,使之变为线性可分,被广泛用于LiDAR点云与HSI融合分类研究中,然而,该类方法需要人工选择核函数,而且无法保证所选核函数在所有场景下性能最优;基于深度学习的方法是当前的主流方法,该类方法通过构建深层神经网络提取高表征的语义特征,并通过全连接层融合HSI和LiDAR点云特征实现二者的深度融合,然而,基于深度学习的方法需要大量的标签样本进行模型训练,而通常标定的高光谱像素十分有限,一定程度上限制了深度学习方法在高光谱领域中的应用。
尽管针对HSI与LiDAR点云多源数据融合分类问题已开展了若干探索性工作,并取得了较好的地物分类结果。然而,由于遥感数据本身的空间结构复杂性高,HSI与LiDAR点云之间的异构性强,当前的多源数据特征提取与融合方法得到的特征表征能力仍然不够,难以满足当下地物高精度分类的需求。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种基于注意力机制的数据分类优化方法、终端及计算机可读存储介质,旨在解决现有技术中多源数据特征提取与融合方法得到的特征表征能力不够,难以满足当下地物高精度分类的需求的问题。
为实现上述目的,本发明提供一种基于注意力机制的数据分类优化方法,所述基于注意力机制的数据分类优化方法包括如下步骤:
将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;
将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;
获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;
将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,之前还包括:
若和分别表示HSI和LiDAR点云深度图像中的标记像素集;
其中,和分别表示第个HSI像素和第个LiDAR像素;是标记像素集的总数,是HSI光谱波段数;
真实标签数据表示为;
其中,表示第个像素的真实标签,表示类别总数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,具体包括:
将HSI和LiDAR点云深度图像中相同坐标位置的像素组成样本对,并根据预先定义的数据划分准则,将所有标记的像素划分为训练集和测试集;
和分别表示训练集和测试集,和分别表示训练集和测试集的真实标签数据,其中,和分别表示训练样本数目和测试样本数目,且满足。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述多源数据特征提取与融合网络包括:数据预处理模块、基于残差-注意力机制特征提取模块、基于注意力机制特征融合模块和基于决策级融合分类模块。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述数据预处理模块用于:
以标记像素和为中心,分别在HSI和LiDAR点云深度图像上截取预设大小的图像块,构造图像对样本,其中,为高光谱图像块,为LiDAR点云深度图像块,为图像块大小;
采用两个不同的卷积层分别对和进行卷积操作,使和的数据维度相等,预处理后的数据表示如下:
;
;
其中,和分别表示预处理后的高光谱图像块和LiDAR点云深度图像块;
卷积层和的卷积核大小分别为和,其中,为卷积核的空间大小,为卷积核的输出通道数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述基于残差-注意力机制特征提取模块用于:
若为某个残差模块输入,则输出表示为;
其中,为两个卷积层的网络函数,即;
其中,和为卷积核,和为偏置向量,表示卷积操作,表示ReLU激活函数;
若多尺度通道注意力模块的输入为,提取的全局特征表示为:
;
其中,表示全局平均池化操作,表示批正则化,和分别表示维度减小层和维度增加层,为通道减小因子,表示输入的特征通道数;
局部特征表示为:
;
其中,和表示局部特征提取过程中两个逐点卷积操作,和的卷积核大小分别为和;局部特征与输入大小相同;
多尺度通道注意力模块的输出特征表示为:
;
其中,表示注意力权重,表示逐元素乘法操作,表示广播加法,表示sigmoid激活函数;
经过多个残差-注意力机制模块的处理,提取到的HSI和LiDAR图像特征分别记为和。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述基于注意力机制特征融合模块用于:
对提取的HIS图像特征和LiDAR图像特征分别进行全局池化操作,经矢量拉伸与全连接层处理,分别生成相应的语义特征和;
采用两种特征级融合策略来利用HSI和LiDAR数据间的互补信息;
其中,第一种融合策略是基于加法的特征融合,直接对和进行相加,得到二者融合后的语义特征;
其中,第二种融合策略是基于注意力机制的特征融合,采用注意力特征融合模块对和进行融合,再经过矢量拉伸与全连接层处理,生成融合后的语义特征;待融合的特征经求和操作之后输入到多尺度通道注意力模块中生成基于注意力的融合权重,表示如下:
;
其中,表示融合后的特征,M表示融合权重,和表示待融合的两个特征;
经过处理后,共生成了四种语义特征,包括两种单源数据语义特征和,以及两种融合后的语义特征和。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述基于决策级融合分类模块用于:
将单源数据语义特征和,以及融合后的语义特征和分别输入到不同分类器中,得到四种分类预测结果;
采用决策级融合策略对四种分类结果进行优化,最终分类结果表示为:
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络具体为:
设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数,具体包括:
采用基于深度哈希的度量学习来约束图像块样本对之间的相似度;
将提取到的语义特征二值化为哈希码,得到对应的哈希码矩阵:
说明: 说明: 说明: `PK7D5SF4UY[XLXP@_]8ES5;
;
;
其中,、和分别表示HSI、LiDAR和HSI-LiDAR的哈希码矩阵,和分别表示第个HSI和LiDAR像素的哈希码;
定义任一样本对的相似度变量,若二者类别标签相同,则,反之则为0;
通过计算样本对标签的负对数似然得到单源和跨源样本间相似度损失:
;
其中,;;
其中,表示sigmoid激活函数;
采用连续变量的语义特征来逼近离散哈希码,连续化所产生的量化损失表示为:
;
在提取到的语义特征基础上,采用交叉熵损失函数度量每个样本的语义损失:
;
其中,,表示分类器预测的分类结果;
通过联合最小化以上三种损失函数,目标函数表示如下:
;
其中,、、为超参数,用于平衡不同类型损失的权重;
采用梯度下降算法来求解所述目标函数,通过不断的更新迭代获得合适的网络参数。
可选地,所述的基于注意力机制的数据分类优化方法,其中,所述将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签,具体包括:
对于任一测试样本对,将输入到训练好的所述多源数据特征提取与融合网络中;
所述多源数据特征提取与融合网络的前馈运算提取四种语义特征、、和;
将四种语义特征、、和分别输入不同的分类器中得到各自分类结果;
采用决策级融合对四种分类结果进行整合,得到最终的分类结果:
其中,分类器采用softmax函数。
此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被所述处理器执行时实现如上所述的基于注意力机制的数据分类优化方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被处理器执行时实现如上所述的基于注意力机制的数据分类优化方法的步骤。
本发明中,将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。本发明构建了基于注意力机制的特征提取与融合框架,并设计了新颖的目标损失函数,同时考虑了样本的语义信息与相似信息,显著提高了特征的表征能力,通过高效的特征提取与融合实现了HSI与LiDAR的精确分类。
附图说明
图1是本发明基于注意力机制的数据分类优化方法的较佳实施例的流程图;
图2是本发明基于注意力机制的数据分类优化方法的较佳实施例中多源数据特征提取与融合网络的框架示意图;
图3是本发明基于注意力机制的数据分类优化方法的较佳实施例中数据预处理模块处理数据的示意图;
图4是本发明基于注意力机制的数据分类优化方法的较佳实施例中基于残差-注意力机制特征提取模块处理数据的示意图;
图5是本发明基于注意力机制的数据分类优化方法的较佳实施例中采用多尺度通道注意力模块MS-CAM进行特征提取的示意图;
图6是本发明基于注意力机制的数据分类优化方法的较佳实施例中基于注意力机制特征融合模块处理数据的示意图;
图7是本发明基于注意力机制的数据分类优化方法的较佳实施例中待融合的特征经求和操作之后输入到MS-CAM模块中生成基于注意力的融合权重的示意图;
图8是本发明基于注意力机制的数据分类优化方法的较佳实施例中基于决策级融合分类模块处理数据的示意图;
图9为本发明终端的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明较佳实施例所述的基于注意力机制的数据分类优化方法,如图1所示,所述基于注意力机制的数据分类优化方法包括以下步骤:
步骤S10、将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据。
具体地,若 和分别表示HSI和LiDAR点云深度图像中的标记像素集;其中,和分别表示第个HSI像素和第个LiDAR像素;是标记像素集的总数,是HSI光谱波段数。
对应的真实标签数据表示为;其中,表示第个像素的真实标签,表示类别总数。
将HSI和LiDAR点云深度图像中相同坐标位置的像素组成样本对,并根据预先定义的数据划分准则,将所有标记的像素划分为训练集和测试集;和分别表示训练集和测试集,和分别表示训练集和测试集的真实标签数据,其中,和分别表示训练样本数目和测试样本数目,且满足。
步骤S20、将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络。
具体地,将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络,提取高表征的语义特征;如图2所示,所述多源数据特征提取与融合网络包括:数据预处理模块、基于残差-注意力机制特征提取模块、基于注意力机制特征融合模块和基于决策级融合分类模块。
其中,对于数据预处理模块,如图3所示,数据预处理模块包含图像取块和维度变换两个部分。首先,以标记像素和为中心,分别在HSI和LiDAR点云深度图像上截取预设大小的图像块,构造图像对样本,其中,为高光谱图像块,为LiDAR点云深度图像块,为图像块大小;其次,采用两个不同的卷积层分别对和进行卷积操作,使和的数据维度相等,预处理后的数据表示如下:
;
;
其中,和分别表示预处理后的高光谱图像块和LiDAR点云深度图像块;
卷积层和的卷积核大小分别为和,其中,为卷积核的空间大小,为卷积核的输出通道数。
其中,对于基于残差-注意力机制特征提取模块,如图4所示,所构建的基于残差-注意力机制特征提取模块采用了双分支结构,每个分支之间采用权值共享机制来减小网络参数量。每个分支又由多个残差-注意力机制模块(即Res-MS-CAM Block)构成。其中,残差学习通过采用跳跃连接,来使得若干卷积层之间的网络残差为零,使之近似为恒等映射。由于跳跃连接既没有增加网络参数,也优化了整个网络的训练,使得网络在很深的结构下达到更优的网络性能。
在发明实施例中,若为某个残差模块输入,则输出表示为;
其中,为两个卷积层的网络函数,即;其中,和为卷积核,和为偏置向量,表示卷积操作,表示ReLU激活函数。
此外,为了在特征提取过程中使网络聚焦更显著的信息,本发明实施还采用了多尺度通道注意力模块(Multi-Scale Channel Attention Module,MS-CAM)。如图5所示,MS-CAM同时利用了全局特征和局部特征。若多尺度通道注意力模块(MS-CAM)的输入为,提取的全局特征表示为:
;
其中,表示全局平均池化操作,表示批正则化,和分别表示维度减小层和维度增加层,为通道减小因子,表示输入的特征通道数。
此外,局部特征表示为:
;
其中和表示局部特征提取过程中两个逐点卷积操作,和的卷积核大小分别为和;因此,局部特征与输入大小相同。
最后,多尺度通道注意力模块(MS-CAM)的输出特征表示为:
;
其中,表示注意力权重,表示逐元素乘法操作,表示广播加法,表示sigmoid激活函数。
经过多个残差-注意力机制模块(Res-MS-CAM)的处理,提取到的HSI和LiDAR图像特征分别记为和。
其中,对于基于注意力机制特征融合模块,如图6所示,对上述提取的HIS图像特征和LiDAR图像特征分别进行全局池化操作(GlobalAvgPool),后经矢量拉伸(Flatten)与全连接层(FC)处理,分别生成相应的语义特征和。
此外,本实施发明还采用了两种特征级融合策略来利用HSI和LiDAR数据间的互补信息;其中,第一种融合策略是基于加法的特征融合,即直接对和进行相加,得到二者融合后的语义特征;第二种融合策略是基于注意力机制的特征融合,首先采用注意力特征融合(Attention Feature Fusion,AFF)模块对和进行融合,再经过矢量拉伸(Flatten)与全连接层(FC)处理,生成融合后的语义特征;如图7所示,待融合的特征经求和操作之后输入到多尺度通道注意力模块中生成基于注意力的融合权重,表示如下:
;
其中,表示融合后的特征,M表示融合权重,和表示待融合的两个特征。
与基于加法的融合相比,AFF同时利用了输入特征的局部与全局特征,并实现了同层到跨层的深度融合。
因此,经过上述模块处理后,共生成了四种语义特征,包括两种单源数据语义特征和,以及两种融合后的语义特征和。
其中,对于基于决策级融合分类模块,如图8所示,将上述四种语义特征分别输入到不同分类器中,即将单源数据语义特征和,以及融合后的语义特征和分别输入到不同分类器中,得到四种分类预测结果;为提升分类结果,本发明实施采用了决策级融合策略对四种分类结果进行优化,即最终分类结果表示为:
步骤S30、获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络。
具体地,设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数。样本相似信息指样本间的相似度,即相同类的样本,其特征距离应尽可能小,不同类的样本,特征距离应尽可能大。为学习样本间的相似信息,本实施例采用了基于深度哈希的度量学习来约束图像块样本对之间的相似度。
首先,将提取到的语义特征进一步二值化为哈希码,得到对应的哈希码矩阵:
说明: 说明: 说明: `PK7D5SF4UY[XLXP@_]8ES5;
;
;
其中,、和分别表示HSI、LiDAR和HSI-LiDAR的哈希码矩阵,和分别表示第个HSI和LiDAR像素的哈希码。
此外,定义任一样本对的相似度变量,若二者类别标签相同,则,反之则为0。
基于上述定义,通过计算样本对标签的负对数似然得到单源和跨源样本间相似度损失:
其中,;;
其中,表示sigmoid激活函数;
由于损失函数存在不连续约束(即哈希码矩阵元素为离散值),直接求解该损失函数是个NP-hard问题。为此,本发明实施例采用连续变量的语义特征(即)来逼近离散哈希码(即),该连续化所产生的量化损失表示为:
;
除了样本间相关性外,每个样本还具有丰富的语义信息。在提取到的语义特征基础上,采用交叉熵损失函数度量每个样本的语义损失:
其中,,表示分类器预测的分类结果;
通过联合最小化以上三种损失函数,目标函数表示如下:
;
其中,、、为超参数,用于平衡不同类型损失的权重;即通过最小化上述损失函数,可使网络输出的预测类别尽可能接近样本的真实类别,
本发明实施例采用了梯度下降算法来求解所述目标函数,通过不断的更新迭代获得合适的网络参数。
步骤S40、将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。
具体地,对于任一测试样本对,将输入到训练好的所述多源数据特征提取与融合网络中;所述多源数据特征提取与融合网络的前馈运算提取四种语义特征、、和;将四种语义特征、、和分别输入不同的分类器中得到各自分类结果;最后,采用决策级融合对四种分类结果进行整合,得到最终的分类结果:
其中,分类器采用softmax函数。
进一步地,本实施例展示了不同度量指标下的分类结果,采用的分类度量指标包括:总体精度(Overall Accuracy, OA)、平均精度(Average Accuracy, AA)、每类精度(Class Accuracy, CA),以及Kappa系数。除本实施例提出方法外,还进一步对比了其他基于深度学习的HSI和LiDAR分类方法,包括: two-branch CNN、FDSSCN、Coupled CNN。表1展示了不同分类方法的定量比较结果。
表1 不同方法在Houston数据集上的分类结果
由表1可以看出,本发明实施例提出的发明方法在OA、AA、Kappa三个指标上都取得了最好的分类结果。此外,本发明方法的分类结果在大多数类别上也高于其他分类方法。上述实验结果进一步证明了本发明方法对于多源数据融合分类的有效性与优越性。
进一步地,如图9所示,基于上述基于注意力机制的数据分类优化方法和***,本发明还相应提供了一种终端,所述终端包括处理器10、存储器20及显示器30。图9仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据,例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于注意力机制的数据分类优化程序40,该基于注意力机制的数据分类优化程序40可被处理器10所执行,从而实现本申请中基于注意力机制的数据分类优化方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于注意力机制的数据分类优化方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过***总线相互通信。
在一实施例中,当处理器10执行所述存储器20中基于注意力机制的数据分类优化程序40时实现如上所述基于注意力机制的数据分类优化方法的步骤。
本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被处理器执行时实现如上所述的基于注意力机制的数据分类优化方法的步骤。
综上所述,本发明提供一种基于注意力机制的数据分类优化方法及相关设备,所述方法包括:将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签。本发明构建了基于注意力机制的特征提取与融合框架,并设计了新颖的目标损失函数,同时考虑了样本的语义信息与相似信息,显著提高了特征的表征能力,通过高效的特征提取与融合实现了HSI与LiDAR的精确分类,为当前联合利用多源数据提供了一种有效的方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的计算机可读存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (4)
1.一种基于注意力机制的数据分类优化方法,其特征在于,所述基于注意力机制的数据分类优化方法包括:
将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据;
将注意力机制嵌入到卷积神经网络中,构建基于注意力机制的多源数据特征提取与融合网络;
获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络;
将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签;
所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,之前还包括:
若和分别表示HSI和LiDAR点云深度图像中的标记像素集;
其中,和分别表示第个HSI像素和第个LiDAR像素;是标记像素集的总数,是HSI光谱波段数;
真实标签数据表示为;
其中,表示第个像素的真实标签,表示类别总数;
所述将所有标记像素划分为训练集和测试集,并分别获取所述训练集和所述测试集的真实标签数据,具体包括:
将HSI和LiDAR点云深度图像中相同坐标位置的像素组成样本对,并根据预先定义的数据划分准则,将所有标记的像素划分为训练集和测试集;
和分别表示训练集和测试集,和分别表示训练集和测试集的真实标签数据,其中,和分别表示训练样本数目和测试样本数目,且满足;
所述多源数据特征提取与融合网络包括:数据预处理模块、基于残差-注意力机制特征提取模块、基于注意力机制特征融合模块和基于决策级融合分类模块;
所述数据预处理模块用于:
以标记像素和为中心,分别在HSI和LiDAR点云深度图像上截取预设大小的图像块,构造图像对样本,其中,为高光谱图像块,为LiDAR点云深度图像块,为图像块大小;
采用两个不同的卷积层分别对和进行卷积操作,使和的数据维度相等,预处理后的数据表示如下:
;
;
其中,和分别表示预处理后的高光谱图像块和LiDAR点云深度图像块;
卷积层和的卷积核大小分别为和,其中,为卷积核的空间大小,为卷积核的输出通道数;
所述基于残差-注意力机制特征提取模块用于:
若为某个残差模块输入,则输出表示为;
其中,为两个卷积层的网络函数,即;
其中,和为卷积核,和为偏置向量,表示卷积操作,表示ReLU激活函数;
若多尺度通道注意力模块的输入为,提取的全局特征表示为:
;
其中,表示全局平均池化操作,表示批正则化,和分别表示维度减小层和维度增加层,为通道减小因子,表示输入的特征通道数;
局部特征表示为:
;
其中,和表示局部特征提取过程中两个逐点卷积操作,和的卷积核大小分别为和;局部特征与输入大小相同;
多尺度通道注意力模块的输出特征表示为:
;
其中,表示注意力权重,表示逐元素乘法操作,表示广播加法,表示sigmoid激活函数;
经过多个残差-注意力机制模块的处理,提取到的HSI和LiDAR图像特征分别记为和;
所述基于注意力机制特征融合模块用于:
对提取的HIS图像特征和LiDAR图像特征分别进行全局池化操作,经矢量拉伸与全连接层处理,分别生成相应的语义特征和;
采用两种特征级融合策略来利用HSI和LiDAR数据间的互补信息;
其中,第一种融合策略是基于加法的特征融合,直接对和进行相加,得到二者融合后的语义特征;
其中,第二种融合策略是基于注意力机制的特征融合,采用注意力特征融合模块对和进行融合,再经过矢量拉伸与全连接层处理,生成融合后的语义特征;待融合的特征经求和操作之后输入到多尺度通道注意力模块中生成基于注意力的融合权重,表示如下:
;
其中,表示融合后的特征,M表示融合权重,和表示待融合的两个特征;
经过处理后,共生成了四种语义特征,包括两种单源数据语义特征和,以及两种融合后的语义特征和;
所述基于决策级融合分类模块用于:
将单源数据语义特征和,以及融合后的语义特征和分别输入到不同分类器中,得到四种分类预测结果;
采用决策级融合策略对四种分类结果进行优化,最终分类结果表示为:
;
所述获取融合了样本语义信息与相似信息的训练数据,有监督训练所述多源数据特征提取与融合网络具体为:
设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数;
所述设计融合样本语义信息与相似信息的损失函数,采用梯度下降法求解所述多源数据特征提取与融合网络的网络参数,具体包括:
采用基于深度哈希的度量学习来约束图像块样本对之间的相似度;
将提取到的语义特征二值化为哈希码,得到对应的哈希码矩阵:
;
;
;
其中,、和分别表示HSI、LiDAR和HSI-LiDAR的哈希码矩阵,和分别表示第个HSI和LiDAR像素的哈希码;
定义任一样本对的相似度变量,若二者类别标签相同,则,反之则为0;
通过计算样本对标签的负对数似然得到单源和跨源样本间相似度损失:
;
其中,; ;
其中,表示sigmoid激活函数;
采用连续变量的语义特征来逼近离散哈希码,连续化所产生的量化损失表示为:
;
在提取到的语义特征基础上,采用交叉熵损失函数度量每个样本的语义损失:
;
其中,,表示分类器预测的分类结果;
通过联合最小化以上三种损失函数,目标函数表示如下:
;
其中,、、为超参数,用于平衡不同类型损失的权重;
采用梯度下降算法来求解所述目标函数,通过不断的更新迭代获得合适的网络参数。
2.根据权利要求1所述的基于注意力机制的数据分类优化方法,其特征在于,所述将待测试样本输入到训练好的所述多源数据特征提取与融合网络中,根据决策级融合结果,输出最终的分类标签,具体包括:
对于任一测试样本对,将输入到训练好的所述多源数据特征提取与融合网络中;
所述多源数据特征提取与融合网络的前馈运算提取四种语义特征、、和;
将四种语义特征、、和分别输入不同的分类器中得到各自分类结果;
采用决策级融合对四种分类结果进行整合,得到最终的分类结果:
;
其中,分类器采用softmax函数。
3.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被所述处理器执行时实现如权利要求1-2任一项所述的基于注意力机制的数据分类优化方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于注意力机制的数据分类优化程序,所述基于注意力机制的数据分类优化程序被处理器执行时实现如权利要求1-2任一项所述的基于注意力机制的数据分类优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211550245.2A CN115546569B (zh) | 2022-12-05 | 2022-12-05 | 一种基于注意力机制的数据分类优化方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211550245.2A CN115546569B (zh) | 2022-12-05 | 2022-12-05 | 一种基于注意力机制的数据分类优化方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115546569A CN115546569A (zh) | 2022-12-30 |
CN115546569B true CN115546569B (zh) | 2023-04-07 |
Family
ID=84722227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211550245.2A Active CN115546569B (zh) | 2022-12-05 | 2022-12-05 | 一种基于注意力机制的数据分类优化方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546569B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894972B (zh) * | 2023-06-25 | 2024-02-13 | 耕宇牧星(北京)空间科技有限公司 | 融合机载相机图像和sar图像的湿地信息分类方法及*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993220B (zh) * | 2019-03-23 | 2022-12-06 | 西安电子科技大学 | 基于双路注意力融合神经网络的多源遥感图像分类方法 |
CN113435253B (zh) * | 2021-05-31 | 2022-12-02 | 西安电子科技大学 | 一种多源影像联合城区地表覆盖分类方法 |
CN114708455A (zh) * | 2022-03-24 | 2022-07-05 | 中国人民解放军战略支援部队信息工程大学 | 高光谱影像和LiDAR数据协同分类方法 |
-
2022
- 2022-12-05 CN CN202211550245.2A patent/CN115546569B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115546569A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shabbir et al. | Satellite and scene image classification based on transfer learning and fine tuning of ResNet50 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
Li et al. | Toward in situ zooplankton detection with a densely connected YOLOV3 model | |
Zhou et al. | Surveillance of pine wilt disease by high resolution satellite | |
Zhang et al. | Semantic segmentation of very high-resolution remote sensing image based on multiple band combinations and patchwise scene analysis | |
CN115546569B (zh) | 一种基于注意力机制的数据分类优化方法及相关设备 | |
CN116630700A (zh) | 基于引入通道-空间注意力机制的遥感图像分类方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
Cheng et al. | Multi-scale Feature Fusion and Transformer Network for urban green space segmentation from high-resolution remote sensing images | |
Sjahputera et al. | Clustering of detected changes in high-resolution satellite imagery using a stabilized competitive agglomeration algorithm | |
Song et al. | Multi-source remote sensing image classification based on two-channel densely connected convolutional networks. | |
Li | Segment any building | |
Yang et al. | Lightweight Attention-Guided YOLO With Level Set Layer for Landslide Detection From Optical Satellite Images | |
Ataş | Performance Evaluation of Jaccard-Dice Coefficient on Building Segmentation from High Resolution Satellite Images | |
Wu et al. | Research on asphalt pavement disease detection based on improved YOLOv5s | |
Jiang | Object-based deep convolutional autoencoders for high-resolution remote sensing image classification | |
Cui et al. | Global context dependencies aware network for efficient semantic segmentation of fine-resolution remoted sensing images | |
Karimpouli et al. | Seminonlinear spectral unmixing using a neural network-based forward modeling | |
Sivagami et al. | Analysis of encoder-decoder based deep learning architectures for semantic segmentation in remote sensing images | |
He et al. | Tackling the over-smoothing problem of CNN-based hyperspectral image classification | |
Yifter et al. | Deep transfer learning of satellite imagery for land use and land cover classification | |
Kattan et al. | Systematic evaluation of CNN on land cover classification from remotely sensed images | |
Mathew et al. | Multi-spectral change detection methods: evaluation on simulated and real-world satellite imagery | |
Jeune et al. | Spatial Variation Sequences for Remote Sensing Applications with Small Sample Sizes | |
Khoyani | Towards Full Deep Learning-based SLAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |