CN116630723A - 基于大核注意力机制与mlp混合的高光谱地物分类方法 - Google Patents

基于大核注意力机制与mlp混合的高光谱地物分类方法 Download PDF

Info

Publication number
CN116630723A
CN116630723A CN202310791850.7A CN202310791850A CN116630723A CN 116630723 A CN116630723 A CN 116630723A CN 202310791850 A CN202310791850 A CN 202310791850A CN 116630723 A CN116630723 A CN 116630723A
Authority
CN
China
Prior art keywords
layer
convolution
training
mlp
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310791850.7A
Other languages
English (en)
Inventor
贾文俊
闫明宁
施国栋
阮文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310791850.7A priority Critical patent/CN116630723A/zh
Publication of CN116630723A publication Critical patent/CN116630723A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于大核注意力机制与MLP混合的高光谱地物分类方法,主要解决现有技术对空间和光谱特征提取能力弱,无法充分利用邻域信息的问题。其实现方案是:从公开网站上获取高光谱数据集和数据标注集,划分出训练集和测试集样本;分别构建基于DenseNet结构的大核注意力机制模块和特征增强模块,并将两者串联组成特征提取网络;利用训练集通过多分类焦点损失函数计算整个网络的损失,利用随机梯度下降法迭代优化网络参数;将测试集输入到训练好的提取网络,得到高光谱图像的分类结果。本发明能充分挖掘遥感图像中的复杂内容,提升对图像空间和光谱的特征提取能力,极大的提高了图像分类效果,可用于城市发展、资源勘探及环境监测。

Description

基于大核注意力机制与MLP混合的高光谱地物分类方法
技术领域
本发明属于图像处理技术领域,特别涉及一种高光谱遥感影像地物分类方法,可用于城市发展、资源勘探及环境监测。
背景技术
高光谱遥感影像地物分类在遥感领域中起着至关重要的作用,并因其广泛的应用而受到越来越多的关注。现有的高光谱分类技术主要分为两类。
第一类是基于机器学习的高光谱分类方法,即支持向量机SVM、随机森林RF等传统的机器学习算法已经被广泛的应用于对遥感图像地物的准确分类。它们提取的特征主要包含浅层特征,如纹理特征、形状特征和颜色特征。由于高光谱遥感图像所涉及的场景复杂多样,且伴随着高光谱“同物异谱”和“同谱异物”的问题,该类方法不能很好地表示高光谱遥感影像中复杂的内容。
第二类是基于深度学***化操作和线性投影对空间信息进行顺序编码,故导致其不能有效利用局部空间光谱信息和位置信息。
针对现有高光谱遥感影像分类技术中存在的问题和缺陷,如何能快速挖掘出对分类任务有用的空间区域与光谱波段使得模型对每个类别都能达到合理的分类精度是本领域技术人员需要解决的难题。
朱命昊等人在电气电子工程师学会IEEE提出了一种新的高光谱分类方法,该方法将残差网络ResNet与卷积注意力模块有机地结合起来,利用光谱注意力模块和空间注意力模块来增强分类性能。通过光谱注意力模块和空间注意力模块的结合,可以更加有效地识别出有用的波段和空间信息,从而更快的完成分类,该方法由于能够有效的捕获图像中的关键区域和光谱波段,大大提高了网络的分类效率。同时由于该方法将注意力模块嵌入到残差块中,有助于有效的减少过拟合的问题。其不足是训练模型需要大量的数据来支撑,且训练时间过长。
孟凡波等人电气电子工程师学会IEEE提出了一个基于3D Octave卷积和空谱注意力的高光谱图像分类方法3DOC-SSAN。该方法先利用四个3D Octave卷积从图像的高低频方面捕获空间-光谱特征。其次从空间和光谱维度上引入了两个注意力模型用来突出分类任务中空间区域和特定光谱带。最后,设计了一个信息互补模型来传递空间和光谱注意力特征之间的重要信息,通过信息互补模型整合了对高光谱分类的任务中有益的空谱特征。然而由于文中采用了3D卷积的操作,所以该方法虽然提升了高光谱的分类精度,但是训练需要大量的时间并且计算复杂度较高。
洪丹峰等人开发了一种称为SpectralFormer的新模型,其设计了两个简单但有效的模块,即分组频谱嵌入GSE和跨层自适应融合CAF,以构成跨层编码器TE模块。该模块学习在像素上局部详细的光谱波段表示并将浅层特征到深层特征融合起来,改进了光谱信息处理模式,可以从分组相邻波段中学习光谱表示信息。尽管该方法在捕获光谱特征方面表现出色,但它由于没有有效捕获高光谱图像局部语义特征的能力,因而导致其没有充分利用高光谱遥感图像空间信息,导致分类效率始终无法得到进一步的提升。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于大核注意力机制和MLP混合的高光谱地物分类方法,以充分提取高光谱图像空间特征和光谱特征,减小参数量,提高分类效率。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)构造训练样本集和测试样本集:
1a)获取公开网站高光谱图像的原始数据集和数据标注集:
1b)在数据标注集中从每个不为0的类别中选定等比例的值,保存这些值在数据标注集对应的位置坐标,在原始数据集合中找到对应坐标位置所在的像素点,按照以每个像素点为中心,以设置的imgsize参数为直径进行镜像分割,生成训练集;
1c)将剩下所有的样本按照1b)的方式生成测试集合;
(2)搭建特征提取网络:
2a)建立包括三个DenseBlock子模块的基于DenseNet结构的大核注意力机制模块,用于用于对输入图像不同空间位置和不同光谱波段信息进行有效提取。
2b)建立由空间混合MLP层和通道混合MLP层连接组成特征增强模块,用于实现光谱维度与空间维度的信息交互;
2c)将基于DenseNet结构的大核注意力机制模块与特征增强模块串联连接,构成特征提取网络,并将多分类焦点损失函数作为该提取网络的损失函数lossFL
(3)对特征提取网络进行训练:
3a)将训练集合输入进入特征提取网络,计算其损失lossFL值;
3b)使用梯度下降法,逐渐降低损失函数的值,以对网络参数进行更新,直到完成设定的最大迭代次数,得到训练好的特征提取网络;
(4)将测试集合输入到训练好的特征提取网络中,得到输出向量,在输出向量中使用softmax函数与argmax函数得到最大值所在的位置索引,该位置索引即为每个测试样本的最终分类结果。
本发明与现有技术相比,具有如下优点:
1)本发明由于构建了由基于DenseNet结构的大核注意力机制模块与特征增强模块串联连接组成的特征提取网络,可挖掘高光谱遥感影像中的不同空间上的信息和光谱波段信息,实现以端到端的方式进行高光谱分类,不仅操作简单,而且能充分解译高光谱遥感影像内的复杂内容。
2)本发明在特征提取网络中由于建立了基于DenseNet结构的大核注意力机制模块,可通过对patch中像素之间的远程关系和光谱信息的联合挖掘,生成一个注意力图来衡量一个patch中所有像素点的重要性,该DenseNet结构不仅能有效地缓解有梯度消失的问题,而且加强了特征重用,可充分挖掘网络模型对特征提取的潜力。
3)本发明在特征提取网络中由于建立了特征增强模块,可通过交替执行TokenMixing和Channel Mixing这两种不同类型的层,使得不同空间位置的空间特征和不同通道之间的光谱特征进行特征通信,并促进两个维度间的信息交互,从而实现空间域和光谱域的信息融合,增强更多信息特征,极大的提升了分类的性能。
仿真实验表明,本发明的分类精度均优于其他现有方法,且总体分类效果更加稳定。
附图说明
图1是本发明的实现流程示意图;
图2是本发明中基于DenseNet结构的大核注意力机制模块结构示意图;
图3是图2基于DenseNet结构的大核注意力机制模块中的注意力层结构示意图;
图4是本发明中的特征增强模块结构示意图。
具体实施方式
下面结合附图对本发明的实例和效果作进一步详细说明。
参照图1,本实例基于CNN和MLP混合的高光谱地物分类方法,包括构造数据集、搭建特征提取网络、图像分类这三大部分,具体实现步骤如下:
步骤一:构造训练集和测试集合。
1.1)获取公开网站高光谱图像的原始数据集和数据标注集,并在数据标注集中从每个不为0的类别中选定等比例的值,保存这些值在数据标注集对应的位置坐标,
1.2)在原始数据集合中找到对应坐标位置所在的像素点,按照以每个像素P为中心,以imgsize设置的参数为直径进行镜像分割,构造出一个3D空间块Pi∈Rd×d×B作为最终的训练集合,其中,d表示图像的宽度和长度,B表示通道数。本实例中设置d为23,B为200,imgsize参数为23;
1.3)将剩下所有的样本按照步骤1.2)模式获得测试集合。
步骤二,搭建特征提取网络。
2.1)构建基于DenseNet结构的大核注意力机制模块:
参照图2,本步骤的实现如下:
2.1.1)建立包括过渡层,两个卷积集成层,两个注意力层,两个拼接层子模块组成的DenseBlock子模块:
2.1.1.1)设置各层的参数及结构:
该过渡层由卷积核大小为1×1的卷积层,大小为2的池化层依次连接构成;
该每个卷积集成层均由一个卷积核大小为1×1的卷积层、一个卷积核大小为3×3的卷积层及批处理层级联组成;
参照图3,该每个注意力层均由一个卷积核大小为(2d-1)×(2d-1)的空间局部卷积块、一个卷积核大小为的空间长程卷积块、一个卷积核大小为1×1通道卷积块串联构成,其中,d为膨胀率,K表示输入特征的长和宽;
2.1.1.2)建立各层的4路连接关系:
第一路:过渡层→第一卷积集成层→第一注意力层→第一拼接层→第二卷积集成层→第二注意力层→第二拼接层;
第二路:过渡层→第一拼接层→第二卷积集成层→第二注意力层→第二拼接层;
第三路是:过渡层→第二拼接层;
第四路是:第一注意力层→第二拼接层。
所述4路的图像传输关系为:
在第一路中,输入图像X经过过渡层之后输出特征F,该特征F经过第一注意力层之后输出特征F1,将特征F与F1经过第一拼接层之后输出特征F2,同时F1继续进入第二卷积集成层、第二注意力层之后输出的特征为F3,该F3即是第一路输入第二拼接层之前得到的特征。
在第二路中,将已经得到的特征F2输入到第二卷积集成层,通过第二注意力层之后输出特征F4,即第二路输入第二拼接层之前得到的特征。
在第三路中,过渡层的输出特征F,即是第三路输入到第二拼接层之前得到的特征。
在第四路中,第一注意力层d输出特征F1,即是第四路输入到第二拼接层之前得到的特征;
将这四路的得到特征:F3,F4,F,F1经过第二拼接层,最终得到一个Denseblock中输出的特征Fout1;
2.1.2)将三个结构相同的DenseBlock子模块依次级联,组成大核注意力机制模块。
2.2)建立特征增强模块:
2.2.1)建立包含空间转置操作和第一全连接层组成的空间混合MLP层,其输出为:
U*,i=X*,i+W2σ(W1LayerNorm(X)*,i),
式中,X表示转置后的特征,U*,i表示经过空间混合MLP后的特征,LayerNorm表示层归一化,σ表示激活函数,X*,i表示特征的列;
2.2.2)建立包含通道转置操作和第二全连接层组成的通道混合MLP层,其输出为:
Yj,*=Uj,*+W4σ(W3LayerNorm(X)j,*),
式中,Uj,*表示U*,i转置之后的特征,Xj,*表示特征的行
2.2.3)参照图4,将空间混合MLP层和通道混合MLP层进行连接,即空间转置操作→第一全连接层→通道转置操作→第二全连接层,组成关系特征增强模块,其中每个全连接层的维度数为128。
2.3)将基于DenseNet结构的大核注意力机制模块与特征增强模块串联连接,构成整个特征提取网络;
2.4)将多分类焦点损失函数作为该提取网络的损失函数LossFL,其表示为:
其中,N为样本数,K为类别总数,yi表示样本i的真实标签类别值,γ是一个预设的值,Pik为第i个样本预测为第K个类别的概率值。
步骤三:对特征提取网络进行训练。
3.1)将1.1)构建的训练集集合输入到特征提取网络中,计算特征提取网络的输出与训练集合中原始标签的损失函数LossFL
3.2)使用梯度下降法更新特征网络参数θ:
3.2.1)设置初始训练批次m=0,最大迭代次数T=200;
3.2.2)计算当前训练更新后的特征提取网络参数θm+1
其中,α是训练阶段的学习率,θm是当前训练更新前的网络参数,L(·)是对当前网络中的参数进行求导;
3.2.3)重复步骤3.2.2),直到达到训练阶段的最大迭代次数T,完成对特征提取网络的训练。
步骤四:利用测试集合获得分类结果。
4.1)将测试集输入到训练好的特征提取网络模型中输出特征向量F;
4.2)使用softmax函数先将特征向量F里的值转换到[0-1]之间,再通过argsmax函数计算得到向量F中最大值所在的索引:Fout=argmax(softmax(F)),其中,Fout最终的结果,F∈1×K为输出的特征向量,K为类别总数,该索引值即为图像中每个像素的分类类别。
本发明的效果可通过以下仿真进一步说明:
一.仿真条件
本发明的仿真环境选取了python 3.8+pytorch 1.7的框架,在GeForce RTX2080Ti和11G内存的工作站上完成。
仿真使用的四个数据集分别是Indian Pines数据集,paviaU数据集,Houston2013数据集和Salinas数据集,其中
Indian Pines数据集由机载可见/红外成像光谱仪AVIRIS传感器在印第安纳州西北部的一片农田区域采集的,原始高光谱图像波长范围在0.4-2.5微米之间。空间分辨率为20m。它所选择的区域大小包含了145×145个像素点,在经过去除噪声和经过大气校正过程之后,选择200个光谱波段进行实验。该数据集包含了针叶林和农田等真实场景中的多种物体和材质,例如玉米、大豆、松树,共有16个不同的地物类别,其中共包含了10249个人工标记的数据样本,其余10776个像素均为背景像素。
paivaU数据集是使用反射光学***成像光谱仪ROSIS-3HS传感器在帕维亚大学附近区域获得的高光谱遥感图像数据集。光谱覆盖范围为430-860nm之间,像素的几何分辨率在1.3m,在去除受到噪声影响的波段之后,选择103个光谱波段进行实验。该区域大小包含了610×340个像素,其中有标签的像素点总共有42776个,共分为9个土地类别。主要括沥青、草地、碎石等物体。
Houston2013数据集是2012年利用机载传感器ITRES-CASI1500在休斯顿大学及其邻近地区所拍摄的。经过校正之后,选择了144个光谱波段进行实验。其空间分辨率为2.5m,该数据集是在2013年被发表于IEEE地球科学与遥感学会数据融合大赛中。该区域十分复杂。为了实验的一致性,将提供的数据集训练集和测试集进行融合,所获得的数据集包含了349×1905个像素。其中有标签的像素点共有15029个。一共包含15个类别。
Salinas数据集由AVIRIS传感器在加利福尼亚州Salinas Valley拍摄,空间分辨率为3.7米,含有224个连续波段,去掉20个吸水带(108-112、154-167、224),实际用于训练的波段是204。该区域包含了512×340个像素,主要包含有玉米、大豆、黄瓜、番茄等16个地物类别。
二.仿真内容
仿真1,在上述仿真条件下,分别用本发明和现有七个方法SVM,2D-CNN,3D-CNN,SSRN,3DOCM-SSAN,HyperX,HSI-SSFTT在Indian Pines数据集上进行分类,计算各自的总体精度OA、平均分类精度AA、Kappa系数,以进行性能对比,结果如表1。
表1本发明与现有7种方法在Indian Pines数据集进行分类的性能结果
仿真2,在上述仿真条件下,分别用本发明和现有七个方法SVM,2D-CNN,3D-CNN,SSRN,3DOCM-SSAN,HyperX,HSI-SSFTT在paviaU数据集上进行分类,计算各自的总体精度OA、平均分类精度AA、Kappa系数,以进行性能对比,结果如表2。
表2本发明与现有7种方法在paviaU数据集进行分类的性能结果
仿真3,在上述仿真条件下,分别用本发明和现有七个方法SVM,2D-CNN,3D-CNN,SSRN,3DOCM-SSAN,HyperX,HSI-SSFTT在Houston2013数据集上进行分类,计算各自的总体精度OA、平均分类精度AA、Kappa系数,以进行性能对比,结果如表3。
表3本发明与现有7种方法在Houston2013数据集进行分类的性能结果
仿真4,在上述仿真条件下,分别用本发明和现有七个方法SVM,2D-CNN,3D-CNN,SSRN,3DOCM-SSAN,HyperX,HSI-SSFTT在Salinas数据集上进行分类,计算各自的总体精度OA、平均分类精度AA、Kappa系数进行性能对比,结果如表4。
表4本发明与现有7种方法在Salinas数据集进行分类的性能结果
上述表中七种现有方法的出处如下:
SVM是在IEEE上发表的用于高光谱数据分类的方法,即:J.A.Gualtieri andS.Chettri,“Support vector machines for classifification ofhyperspectraldata,”in Proc.IEEE Int.Geosci.Remote Sens.Symp.(IGARSS),vol.2,Jul.2000,pp.813–815.
2D-CNN是在IEEE上发表的用于高光谱数据分类的方法,即:G.Cheng,C.Yang,X.Yao,L.Guo,and J.Han,“When deep learning meets metric learning:Remotesensing image scene classifification via learning discriminative CNNs,”IEEETrans.Geosci.Remote Sens.vol.56,no.5,pp.2811–2821,May 2018.
3D-CNN是在IEEE上发表的用于高光谱数据分类的方法,即:Y.Xu,L.Zhang,B.Du,and F.Zhang,“Spectral–spatial unifified networks for hyperspectral imageclassifification,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.10,pp.5893–5909,Oct.2018.
SSRN是在IEEE上发表的用于高光谱数据分类的方法,即:Z.Zhong,J.Li,Z.Luo,and M.Chapman,“Spectral–spatial residual network for hyperspectral imageclassifification:A3-D deep learning framework,”IEEE Trans.Geosci.RemoteSens.,vol.56,no.2,pp.847–858,Feb.2018.
3DOCM-SSAN在IEEE上发表的用于高光谱数据分类的方法,即:是Tang X,Meng F,Zhang X,et al.Hyperspectral image classification based on 3-D octaveconvolution with spatial–spectral attention network[J].IEEE Transactions onGeoscience and Remote Sensing,2020,59(3):2430-2447.
HyperX是在IEEE上发表的用于高光谱数据分类的方法,即:Yang X,Cao W,Lu Y,et al.Hyperspectral Image Transformer Classification Networks[J].IEEETransactions on Geoscience andRemote Sensing,2022,60:1-15.
HSI-SSFTT是在IEEE上发表的用于高光谱数据分类的方法,即:Sun L,Zhao G,Zheng Y,et al.Spectral–Spatial Feature Tokenization Transformer forHyperspectral Image Classification[J].IEEE Transactions on GeoscienceandRemote Sensing,2022,60:1-14.
从表一到表四中明显可见,本发明相对于七种现有方法在四个常用的高光谱遥感数据集中分类精度更高,泛化能力更强,进一步说明了本发明所提出网络模型与方法的优越性。
从表1到表4可见,本发明的总体误差更小,分类精度高,表明本发明相比现有方法具有更好的性能。

Claims (7)

1.一种基于大核注意力机制与MLP混合的高光谱地物分类方法,其特征在于,包括如下步骤:
(1)构造训练样本集和测试样本集:
1a)获取公开网站高光谱图像的原始数据集和数据标注集:
1b)在数据标注集中从每个不为0的类别中选定等比例的值,保存这些值在数据标注集对应的位置坐标,在原始数据集合中找到对应坐标位置所在的像素点,按照以每个像素点为中心,以设置的imgsize参数为直径进行镜像分割,生成训练集;
1c)将剩下所有的样本按照1b)的方式生成测试集合;
(2)搭建特征提取网络:
2a)建立包括三个DenseBlock子模块的基于DenseNet结构的大核注意力机制模块,用于用于对输入图像不同空间位置和不同光谱波段信息进行有效提取。
2b)建立由空间混合MLP层和通道混合MLP层连接组成特征增强模块,用于实现光谱维度与空间维度的信息交互;
2c)将基于DenseNet结构的大核注意力机制模块与特征增强模块串联连接,构成整个特征提取网络,并将多分类焦点损失函数作为该提取网络的损失函数lossFL
(3)对特征提取网络进行训练:
3a)将训练集合输入进入特征提取网络,计算其损失lossFL值;
3b)使用梯度下降法,逐渐降低损失函数的值,以对网络参数进行更新,直到完成设定的最大迭代次数,得到训练好的特征提取网络;
(4)将测试集合输入到训练好的特征提取网络中,得到输出向量,在输出向量中使用softmax函数与argmax函数得到最大值所在的位置索引,该位置索引即为每个测试样本的最终分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤1b)中设置的imgsize参数,是指预先设置训练集和测试集的长和宽。
3.根据权利要求1所述的方法,其特征在于,步骤2a)中建立包括三个DenseBlock子模块的基于DenseNet结构的大核注意力机制模块,实现如下:
2a1)构建包括过渡层,两个卷积集成层,两个注意力层,两个拼接层子模块组成的DenseBlock子模块,其传输关系分为4路:
第一路是:过渡层→第一卷积集成层→第一注意力层→第一拼接层→第二卷积集成层→第二注意力层→第二拼接层;
第二路是:过渡层→第一拼接层→第二卷积集成层→第二注意力层→第二拼接层;
第三路是:过渡层→第二拼接层;
第四路是:第一拼接层→第二拼接层;
所述两个卷积集成层,其内部结构相同,每个卷积集成层均由一个卷积核大小为1×1的卷积层于一个卷积核大小为3×3的卷积层,批处理层级联组成;
所述过渡层由卷积核大小为1×1的卷积层,大小为2的池化层级联组成;
所述拼接层由一个拼接相加操作组成。
所述注意力层,由一个空间长程卷积块,空间局部卷积块,通道卷积块串及一个拼接、一个相加操作组成;
该空间局部卷积块的卷积核大小为(2d-1)×(2d-1),
该空间长程卷积块的卷积核大小为d为膨胀率,K表示输入特征的长和宽;
该通道卷积块的卷积核大小为1×1;
2a2)将三个结构相同的DenseBlock子模块依次级联,组成大核注意力机制模块。
4.根据权利要求1所述的方法,其特征在于,步骤2b)中构成特征增强模块的空间混合MLP层和通道混合MLP层,结构如下;
所述空间混合MLP层,包含空间转置操作,第一全连接层
所述通道混合MLP层,包含通道转置操作,第二全连接层
两者的连接关系为:空间转置操作→第一全连接层→通道转置操作→第二全连接层;
每个全连接层的维度数为128。
5.根据权利要求1所述的方法,其特征在于,步骤2c)中设置的提取网络损失函数lossFL,表示如下:
其中,N为样本数,K为类别总数,yi表示样本i的真实标签类别值,γ是一个预设的值,Pik为第i个样本预测为第K个类别的概率值。
6.根据权利要求1所述的方法,其特征在于,步骤3b)使用梯度下降法,逐渐降低损失函数的值,以对网络参数进行更新,实现如下:
3a1)设初始训练批次m=0,训练阶段最大迭代次数T=200,α是训练阶段的学习率值;
3a2)计算当前训练更新后的特征提取网络参数θm+1
其中,θm是当前训练更新前的网络参数,L(·)是对当前网络中的参数进行求导。
3a3)重复3a2)直到达到最大迭代次数T,完成对特征提取网络的训练。
7.根据权利要求1所述的方法,其特征在于,步骤(4)中在输出向量中使用softmax函数与argmax函数得到最大值所在的位置索引,公式如下:
Fout=argmax(softmax(F))
其中,Fout最终的结果,F∈1×K为输出的特征向量,K为类别总数。
CN202310791850.7A 2023-06-30 2023-06-30 基于大核注意力机制与mlp混合的高光谱地物分类方法 Pending CN116630723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310791850.7A CN116630723A (zh) 2023-06-30 2023-06-30 基于大核注意力机制与mlp混合的高光谱地物分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310791850.7A CN116630723A (zh) 2023-06-30 2023-06-30 基于大核注意力机制与mlp混合的高光谱地物分类方法

Publications (1)

Publication Number Publication Date
CN116630723A true CN116630723A (zh) 2023-08-22

Family

ID=87642012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310791850.7A Pending CN116630723A (zh) 2023-06-30 2023-06-30 基于大核注意力机制与mlp混合的高光谱地物分类方法

Country Status (1)

Country Link
CN (1) CN116630723A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809179A (zh) * 2023-12-26 2024-04-02 成都理工大学 一种面向对象的高光谱遥感影像地表岩性识别分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809179A (zh) * 2023-12-26 2024-04-02 成都理工大学 一种面向对象的高光谱遥感影像地表岩性识别分类方法

Similar Documents

Publication Publication Date Title
CN111523521B (zh) 一种双支路融合多尺度注意神经网络的遥感图像分类方法
Sara et al. Hyperspectral and multispectral image fusion techniques for high resolution applications: A review
CN109272010B (zh) 基于卷积神经网络的多尺度遥感图像融合方法
CN108460391B (zh) 基于生成对抗网络的高光谱图像无监督特征提取方法
CN113705580B (zh) 基于深度迁移学习的高光谱图像分类方法
CN113610905B (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
CN115205590A (zh) 一种基于互补集成Transformer网络的高光谱图像分类方法
CN116664954A (zh) 基于图卷积与卷积融合的高光谱地物分类方法
CN116630723A (zh) 基于大核注意力机制与mlp混合的高光谱地物分类方法
CN111738052B (zh) 基于深度学习的多特征融合高光谱遥感地物分类方法
CN114863173B (zh) 一种面向土地资源审计的自互注意力高光谱图像分类方法
Ahmad et al. Hybrid dense network with attention mechanism for hyperspectral image classification
CN110956601B (zh) 一种基于多传感器样态系数的红外图像融合方法和装置以及计算机可读存储介质
Fan et al. Global sensing and measurements reuse for image compressed sensing
CN115240066A (zh) 基于深度学习的遥感影像矿区复绿监测方法及***
Yang et al. GTFN: GCN and transformer fusion with spatial-spectral features for hyperspectral image classification
CN116977747B (zh) 基于多路多尺度特征孪生网络的小样本高光谱分类方法
CN117853596A (zh) 无人机遥感测绘方法及***
CN116863247A (zh) 一种融合全局和局部信息的多模态遥感数据分类方法
Zhu et al. Short and long range graph convolution network for hyperspectral image classification
CN116958800A (zh) 基于层次注意力残差UNet++的遥感影像变化检测方法
Yang et al. ICSFF: Information Constraint on Self-Supervised Feature Fusion for Few-Shot Remote Sensing Image Classification
Chang et al. A modified D-linknet for water extraction from high-resolution remote sensing
Tan et al. Unsupervised remote sensing image thin cloud removal method based on contrastive learning
Liao et al. Spectral Superresolution Using Transformer with Convolutional Spectral Self-Attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination