CN114972885B

CN114972885B - 基于模型压缩的多模态遥感图像分类方法

Info

Publication number: CN114972885B
Application number: CN202210692193.6A
Authority: CN
Inventors: 谢卫莹; 李艳林; 张佳青; 雷杰; 李云松
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2024-06-07
Anticipated expiration: 2042-06-17
Also published as: CN114972885A

Abstract

本发明提出的一种基于模型压缩的多模态遥感图像分类方法，主要解决现有高光谱图像分类网络信息冗余、分类精度低的技术问题。实现步骤为：利用GS融合方式对高光谱图像HSI和LiDAR图像进行多源数据融合；生成训练集；构建一个基于二值量化的编码器‑解码器网络，对网络当中的激活输出和权重进行二值化操作；利用交叉熵损失函数对二值量化编码器‑解码器网络进行训练；对多模态遥感图像进行分类。本发明通过多源数据融合保证特征信息的完整性，利用二值量化权重和激活参数进行模型压缩，在减少存储空间的同时提高多模态遥感图像的分类精度。

Description

基于模型压缩的多模态遥感图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分类技术领域的一种基于模型压缩的多模态遥感图像分类方法。本发明可用于从两张不同模态的且包含相同物质类别的遥感图像中分类出全部物质类别。

背景技术

遥感高光谱图像分类技术的快速发展是遥感技术领域十分突出的一个方面，通过搭载不同空间平台上的高光谱传感器，以数十至数百个连续且细分的光谱波段对目标区域同时成像。每一个像元都包含了大量且连续波段的光谱信息，这些光谱信息能够近似完整地反映地物的光谱特征，提供丰富的地物信息。遥感高光谱图像分类在城市规划、农业发展、军事等领域有着广泛的应用。然而，对于某一特定的高光谱检测区域，不同的传感器得到的遥感图像所包含的特征信息有所不同，不同的遥感图像对不同特征信息的敏感度会直接影响到最终的分类性能。基于深度学习的神经网络技术通过强大的数据表征能力可以较为完整地提取出遥感图像的特征信息。

Swalpa Kumar Roy等人在其发表的论文“Attention-Based Adaptive Spectral–Spatial Kernel ResNet for Hyperspectral Image Classification”(IEEETransactions on Geoscience and Remote Sensing,2020)中提出了一种基于注意力机制的遥感高光谱图像分类方法。该方法通过自适应光谱-空间核改进基础残差网络框架，根据输入信息的多尺度自适应调整卷积层感受野的大小，同时以端到端的训练方式联合提取单模态高光谱图像HSI(hyperspectral image)的光谱-空间特征，并采用有效的特征重新校准机制在光谱维度上重新校准特征图，以此提升分类性能，最后使用基于softmax的全连接层进行分类。该方法虽然应用注意力机制有效提升分类精度，但是，该方法仍然存在的不足之处是，该方法针对单一模态的HSI进行分类，由于HSI中包含丰富的光谱信息，可用来观测地物信息并进行分类，但HSI缺乏物质的高程信息，从而无法准确地区分由相同物质构成的物质类别，因此在某些特定场景下，单一模态的遥感图像由于特征信息的缺失无法表现出良好的分类性能。

北京工业大学在其申请的专利文献“基于深度学习多特征融合的高光谱图像分类方法”(专利申请号：CN201910552768.2,授权公布号：CN110298396A)中提出了一种高光谱图像分类方法。该方法综合提取HSI的光谱-空间信息，通过数据增强对原始HSI进行预处理获取训练测试标签，并构建由光谱样本集训练模型、空间谱样本集训练模型以及扩展形态特征EMP(Extended Morphology Profiles)提取的样本集训练模型进行数据训练。该方法通过数据增强操作实现数据集扩容，从光谱、空间谱、EMP三条支路提取三个特征，将其融合之后输入到全连接层进行分类。该方法虽然考虑到联合提取特征信息，且在提取EMP的过程中通过降维减少了HSI的波段冗余，从而实现良好的分类性能。但是，该方法仍然存在的不足之处是，该方法构建的三个训练模型较为复杂，数据训练过程中产生的参数量太多且均为32位浮点数，从而导致网络冗余，降低分类精度，此外计算量开销较大，并占用高额的存储空间。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于模型压缩的多模态遥感图像分类方法，用于解决现有高光谱图像分类方法用于多模态遥感图像分类时存在的单模态图像特征信息不完整、分类精度低、网络冗余和占用存储空间大的技术问题。

为实现上述目的，本发明的思路是，通过GS融合方式将包含光谱信息的原始高光谱图像HSI和携带高程信息的LiDAR图像进行多源数据融合，得到多模态融合图像，其同时包含光谱-高程信息，相较于单模态图像，多模态遥感图像可以对同一区域但不同高度的物质进行准确地分类，以此解决单模态图像特征信息不完整、分类精度低的问题。本发明构建了一个基于二值量化的编码器-解码器网络架构，对网络中的激活和权重进行二值化操作，将训练样本集输入到二值量化编码器-解码器网络中，并利用交叉熵损失函数对二值量化编码器-解码器网络进行训练，在训练过程中，激活和权重参数由32位全精度转换为1bit，降低参数量，以此解决网络冗余、占用存储空间大的问题。

实现本发明目的的具体步骤如下：

步骤1，对HSI和LiDAR图像进行多源数据融合：

步骤1.1，选取一张低空间分辨率的HSI和一张高空间分辨率的LiDAR图像，HSI和LiDAR图像中包含的物质类别相同，空间大小相同，而特征信息不同；

步骤1.2，通过局域均值化，对LiDAR图像进行模糊操作，得到接近HSI的像素数量的LiDAR图像，再将模糊处理后的LiDAR图像缩小到与HSI相同的大小，得到一个模拟高分辨率图像；

步骤1.3，按照下式，对模拟高分辨率图像和HSI的每一个波段做施密特正交变换：

其中，GS_N(i,j)表示施密特正交变换后，在HSI上位于(i,j)的坐标位置处元素产生的第n个分量,n的取值范围是[1,N],N表示HSI的波段总数，B_n(i,j)表示在HSI的第n个波段上位于(i,j)的坐标位置处像素点的灰度值，i和j的取值范围分别为[1,W],[1,H]，W和H分别表示HSI的宽和高，u_n表示HSI的第n个波段中所有像素点的灰度值的均值，表示协方差操作,GS_f(i,j)表示施密特正交变换后，在HSI上位于(i,j)的坐标位置处产生的第f个分量，f的取值范围为[1,N-1]；

步骤1.4，通过直方图匹配方法，调整LiDAR图像的均值和方差，得到均值和方差的直方图高度与正交GS变换后的第一分量的直方图高度近似一致的调整后的LiDAR图像；

步骤1.5，用调整后的LiDAR图像替换正交GS变换后的第一个分量后，对替换后的所有施密特正交变换的变量进行施密特正交逆变换，得到在HSI的第n个波段上位于(i,j)的坐标位置处像素点的灰度值,HSI的第n个波段上所有位置的像素点的灰度值构成HSI的第n个波段的图像；

步骤2，生成训练集：

从多模态融合图像中随机挑选占总像素点19％的像素点组成一个矩阵训练集，该训练集中包含多模态融合图像中所有的物质类别；

步骤3，构建基于二值量化的编码器-解码器网络：

步骤3.1，搭建一个由卷积层，组归一化层，激活层依次串联组成的组归一化模块：

将卷积层的输入通道数设置为N，N的取值与多模态融合图像的波段数相等，输出通道数为96，卷积核大小设置为3×3，卷积步长设置为1，边界扩充值设置为1；将组归一化层的分组数量设置为r,r的取值与神经网络的衰减率大小的四倍相等，将输出通道数设置为96，激活层使用的激活函数为ReLU激活函数；

步骤3.2，搭建一个由全局最大池化层，第一全连接层，ReLU激活层，第二全连接层依次串联组成的第一子分支，将第一、第二全连接层的卷积核大小均设置为1×1,卷积步长均设置为1，ReLU激活层采用ReLU激活函数实现；

搭建一个由全局平均池化层，第一全连接层，ReLU激活层，第二全连接层依次串联组成的第二子分支，将第二子分支的第一、第二全连接层的卷积核大小均设置为1×1,卷积步长均设置为1，ReLU激活层采用ReLU激活函数实现；

将第一子分支和第二子分支并联后，再依次与一个加法器、sigmoid激活层串联组成一个光谱特征子分支，sigmoid激活层采用sigmoid激活函数实现；

将步骤3.1的组归一化模块的输出结果输入到一个乘法器中，再将光谱特征子分支与该乘法器依次串联组成一个光谱注意力分支；

步骤3.3，对光谱注意力分支中的第一全连接层、第二全连接层做二值量化操作，得到基于二值量化的光谱注意力分支，该分支中的参数除第一、第二全连接层中的权重参数、激活向量参数更新为二值量化后的参数外，其余参数与光谱注意力分支的参数设置相同；

步骤3.4，将全局最大池化层和全局平均池化层进行级联后与卷积层、ReLU激活层、sigmoid激活层、乘法器依次串联组成一个空间特征子分支，将卷积层的卷积核大小设置为7×7，卷积步长为设置为1，边界扩充值设置为3，ReLU激活层采用ReLU激活函数实现，sigmoid激活层采用sigmoid激活函数实现；

将步骤3.1的组归一化模块的输出结果输入到一个乘法器中，再将空间特征子分支与该乘法器串联组成一个空间注意力分支；

步骤3.5，采用与步骤3.3相同的二值量化操作，对空间注意力分支中的卷积层的权重参数和激活向量参数进行二值量化，得到一个基于二值量化的空间注意力分支；

步骤3.6，将基于二值量化的光谱注意力分支、基于二值量化的空间注意力分支进行级联后，组成基于二值量化的联合注意力分支；

步骤3.7，搭建一个由卷积层，ReLU激活层依次串联组成的下采样模块，将卷积层的卷积核大小设置为3×3，卷积步长设置为2，扩充边界值为1，ReLU激活层采用ReLU激活函数实现；

步骤3.8，采用与步骤3.3相同的二值量化操作，对下采样模块中卷积层的权重参数和激活向量参数进行二值量化，得到一个基于二值量化的下采样模块；

步骤3.9，将ConvLSTM层，基于二值量化的联合注意力分支，组归一化模块，ReLU激活层依次串联组成全局卷积长短期注意力模块；

步骤3.10，将组归一化模块，第一全局卷积长短期注意力模块，二值量化的第一下采样模块，第二全局卷积长短期注意力模块，二值量化的第二下采样模块，第三全局卷积长短期注意力模块，二值量化的第三下采样模块，第四全局卷积长短期注意力模块依次串联组成一个二值量化的编码器子网络；

步骤3.11，搭建一个由卷积层和最近上采样操作依次串联组成的上采样模块，将卷积核的大小设置为3×3，最近邻上采样操作的采样因子设置为2；

步骤3.12，搭建一个由第一卷积层，第二卷积层依次串联而成的头模块，将第一卷积层的卷积核大小设置为3×3，输入通道数为128，输出通道设置为N¹，N¹的取值与多模态融合图像的波段数相等，卷积步长为1，第二卷积层的卷积核大小为1×1，输出通道设置为N²，N²的取值与多模态融合图像的波段数相等，输出通道数为C，C的取值与训练集包含的物质类别数相等，卷积步长为1；

步骤3.13，将第一上采样模块，第二上采样模块，第三上采样模块，头模块依次串联组成一个解码器子网络；

步骤3.14，将二值量化的编码器子网络中第四全局卷积长短期注意力模块的输出，经第一卷积层与解码器子网络中第一上采样模块的输入相连；将二值量化的编码器子网络中第三全局卷积长短期注意力模块的输出，经第二卷积层与解码器子网络中第一上采样模块的输出相连；将二值量化的编码器子网络中第二全局卷积长短期注意力模块的输出，经第三卷积层与解码器子网络中第二上采样模块的输出相连；将二值量化的编码器子网络中第一全局卷积长短期注意力模块的输出，经第四卷积层与解码器子网络中第三上采样模块的输出相连，由此组成基于二值量化的编码器-解码器网络；

将第一至第四卷积层的卷积核大小均设置为1×1，卷积步长均为1，输入通道数依次为：96，128，192，256，输出通道数均为128；

步骤4，训练基于二值量化的编码器-解码器网络：

将训练集输入到基于二值量化的编码器-解码器网络中，使用梯度下降方法，迭代更新网络权重，直到交叉熵损失函数收敛为止，得到训练好的二值量化的编码器-解码器网络模型；

步骤5，对多模态遥感图像进行分类：

步骤5.1，利用与步骤1相同的方法，将两张不同模态的遥感图像融合成一张多模态遥感图像；

步骤5.2，将多模态遥感图像输入到训练好的基于二值量化的编码器-解码器网络中，多模态遥感图像中每一个样本点会生成一个分类结果向量，每一个向量包含与多模态遥感图像中每一个物质类别相对应的概率值，最大概率值所对应的类别即为该样本点的分类结果。

本发明与现有的技术相比具有以下优点：

第1，由于本发明通过GS融合方式将包含光谱信息的高光谱图像HSI和携带高程信息的LiDAR图像进行多源数据融合，得到同时包含光谱-高程信息的多模态融合图像，克服了现有技术从单一模态的高光谱图像HSI中提取特征，导致高程特征信息缺失从而降低分类精度的缺陷，使得本发明可以将特征信息完整的多模态遥感图像应用于分类任务中，不仅保证了特征信息的多样性，而且可以对同一高光谱场景下不同高度的物质进行准确分类。

第2，由于本发明通过构建一个基于二值量化的编码器-解码器网络架构，在数据训练过程中，对网络当中的激活和权重参数进行二值化操作，将网络中产生的激活和权重参数的数据形式由32位全精度转换为1bit，克服了现有技术中所使用的全精度模型参数量庞大、占用存储空间大且在训练过程中会产生不必要的干扰信息的不足，使得本发明在确保分类精度高的同时将网络模型进行压缩，极大地减少了非必要的参数量，减小了模型的占用内存，加快数据训练速度。

附图说明

图1是本发明实现的总体流程图；

图2是本发明构建的光谱、空间注意力分支结构的示意图；

图3是本发明构建的基于二值量化的编码器-解码器网络结构示意图。

具体实施方式

下面结合附图和实施例，对本发明做进一步详细描述。

参照图1和实施例，对本发明的实现步骤做进一步详细描述。

步骤1，对HSI和LiDAR图像进行多源数据融合。

步骤1.1，获取两张不同模态且空间大小相同的遥感图像，本发明的实施例使用的数据集是Houston2012高光谱数据集，该高光谱数据集来源于休斯顿大学和其邻近市区的场景图，其包含一张高光谱图像HSI和一张激光雷达LiDAR图像,两张图像的像素值大小均为349*1905，均包含有15个物质类别，且HSI包含144个光谱波段，LiDAR图像包含单个波段。

步骤1.2，将LiDAR图像进行模糊操作，即通过局域均值化处理，使均值化处理后的LiDAR图像包含的像素数量接近于HSI的像素数量，从而使均值化处理后的LiDAR图像与HSI的分辨率相似，由此得到模拟高分辨率图像，然后将该模拟高分辨率图像缩小到与HSI相同的大小。由于本发明的实施例中采用的LiDAR图像与HSI的空间大小相同，则无需再缩小图像大小。

步骤1.3，按照下式，对模拟高分辨率图像和包含144个波段的HSI的每一个波段做施密特正交变换：

其中，GS_N(i,j)表示施密特正交变换后，在HSI上位于(i,j)的坐标位置处元素产生的第N个分量,该分量是由模拟高分辨率图像作为施密特正交变换的第一分量递推而来，B_N(i,j)表示在HSI的第N个波段上位于(i,j)的坐标位置处像素点的灰度值，u_N表示HSI的第N个波段中图像的所有像素点的灰度值的均值，表示协方差操作,GS_f(i,j)表示施密特正交变换后，在HSI上位于(i,j)的坐标位置处产生的第f个分量。本发明实施例中,N的取值为144,i∈[1,349],j∈[1,1905]，f∈[1,N-1]，施密特正交变换后得到144个GS变换分量。

步骤1.4，通过直方图匹配方法，调整LiDAR图像的均值和方差，使LiDAR图像的均值和方差构成的直方图高度与正交GS变换后的第一分量的均值和方差构成的直方图高度近似一致，得到调整后的LiDAR图像。

步骤1.5，用调整后的LiDAR图像替换正交GS变换后的第一个分量后，对替换后的所有施密特正交变换的变量进行施密特正交逆变换，得到在HSI的第N个波段上位于(i,j)的坐标位置处像素点的灰度值,HSI的第N个波段上所有位置的像素点的灰度值构成HSI的第N个波段的图像。

在本发明的实施例中，施密特正交逆变换后得到144个波段的高空间分辨率图像，同时，经过上述步骤1.3和步骤1.5中的施密特正交变换和施密特正交逆变换，每一个HSI波段的图像均包含了LiDAR图像信息，由此得到高空间分辨率的多模态遥感图像。

GS融合方法是一种将施密特正交算法应用到遥感图像的融合方法，本发明的实施例是通过GS融合方法将高空间分辨率的LiDAR图像和低空间分辨率的HSI进行数据融合，由此提高HSI的空间分辨率，得到的多模态融合图像特征信息更为完整。

步骤2，生成训练集。

从步骤1.1得到的Houston2012高光谱数据集中包含一个地面真值样本集groundtruth，groundtruth是一个大小为349×1905的矩阵，共包含15029个真值样本点，样本点的取值范围是[0,15]，0表示遥感图像的背景点，[1,15]表示15个物质类别对应的目标点，根据类别的不同，将每一个真值样本点的索引分别存储在15个不同的列表里，然后通过随机采样的方式，从所有列表里分别取出一定数量的索引，然后从groundtruth中找到与索引对应的真值样本点，其中，15个类别的地面真值样本点数量分别为：198，190，192，188，186，182，196，191，193，191，181，192，184，181，187，则由15个类别的地面真值样本点构成的2832个样本点组成一个大小为349×1905维的标签矩阵，从由步骤1得到的多模态融合图像中，找到与标签矩阵中样本点的位置索引相对应的像素点组成一个矩阵训练样本集。

步骤3，构建基于二值量化的编码器-解码器网络。

步骤3.1，搭建一个由卷积层，组归一化层，激活层串联组成的组归一化模块。

将卷积层的输入通道数设置为N，N的取值与多模态融合图像的波段数相等，输出通道数为96，卷积核大小设置为3×3，卷积步长设置为1，边界扩充值设置为1；将组归一化层的分组数量设置为r,r的取值与神经网络的衰减率大小的四倍相等，将输出通道数设置为96；激活层使用的激活函数为ReLU激活函数。由于本发明的实施例多模态融合图像波段数为144，因此在本发明的实施例中卷积层的输入通道数设置为144，本发明实施例中神经网络的的衰减率设置为1，则组归一化层的分组数量设置为4。

步骤3.2，参照图2，对光谱注意力分支的结构做进一步的描述。

搭建一个由全局最大池化层，第一全连接层，ReLU激活层，第二全连接层依次串联组成的第一子分支。将第一、第二全连接层的卷积核大小均设置为1×1,卷积步长均设置为1，ReLU激活层采用ReLU激活函数实现。

搭建一个由全局平均池化层，第一全连接层，ReLU激活层，第二全连接层依次串联组成的第二子分支。将第二子分支的第一、第二全连接层的卷积核大小均设置为1×1,卷积步长均设置为1，ReLU激活层采用ReLU激活函数实现。

将第一子分支和第二子分支并联后，再依次与一个加法器、sigmoid激活层串联组成一个光谱特征子分支，sigmoid激活层采用sigmoid激活函数实现。

将步骤3.1的组归一化模块的输出结果输入到一个乘法器中，再将光谱特征子分支与该乘法器依次串联组成一个光谱注意力分支。

步骤3.3，对光谱注意力分支中的第一全连接层、第二全连接层做二值量化操作，得到基于二值量化的光谱注意力分支。该分支中的参数除第一、第二全连接层中的权重参数、激活向量参数更新为二值量化后的参数外，其余参数与光谱注意力分支的参数设置相同。

步骤3.3.1，利用下式，对光谱注意力分支中的第一全连接层的权重参数进行二值量化操作：

其中，表示对光谱注意力分支中的第一全连接层的权重参数进行二值量化之后的权重；sign(·)表示符号函数，/>表示分别对光谱注意力分支中的第一全连接层的权重参数进行归一化处理后得到的平衡权重，/>表示移位操作，s表示移位的位数round表示取四舍五入操作，log₂(·)表示底数为2的对数操作，n表示/>的向量维度，||·||₁表示L1范数操作。

采用相同公式，对光谱注意力分支中的第二全连接层的权重参数进行二值量化操作。

步骤3.3.2，利用下式，对光谱注意力分支中的第一全连接层的激活向量参数进行二值量化操作：：

Q_a(a)＝sign(a)

其中，Q_a(a)表示对光谱注意力分支中的第一全连接层的激活向量参数进行二值量化后的激活向量，sign(·)表示符号函数，a表示光谱注意力分支中的第一全连接层的激活向量参数。

采用相同公式，对光谱注意力分支中的第二全连接层的激活向量参数进行二值量化操作。

步骤3.4，参照图2，对空间注意力分支的结构做进一步的描述。

将全局最大池化层和全局平均池化层进行级联后与卷积层、ReLU激活层、sigmoid激活层、乘法器依次串联组成一个空间特征子分支。将卷积层的卷积核大小设置为7×7，卷积步长为设置为1，边界扩充值设置为3，ReLU激活层采用ReLU激活函数实现，sigmoid激活层采用sigmoid激活函数实现。

将步骤3.1的组归一化模块的输出结果输入到一个乘法器中，再将空间特征子分支与该乘法器依次串联组成一个空间注意力分支。

步骤3.5，采用与步骤3.3相同的二值量化操作，对从步骤3.4中得到的空间注意力分支中的卷积层的权重参数和激活向量参数进行二值量化，得到一个基于二值量化的空间注意力分支。

步骤3.6，将基于二值量化的光谱注意力分支、基于二值量化的空间注意力分支进行级联后，组成基于二值量化的联合注意力分支。

步骤3.7，搭建一个由卷积层，ReLU激活层依次串联组成的下采样模块。将卷积层的卷积核大小设置为3×3，卷积步长设置为2，扩充边界值为1，ReLU激活层采用ReLU激活函数实现。

步骤3.8，采用与步骤3.3相同的二值量化操作，对从步骤3.7中得到的下采样模块中的卷积层的权重参数和激活向量参数进行二值量化，得到一个基于二值量化的下采样模块。

步骤3.9，将ConvLSTM卷积长短期记忆层，基于二值量化的联合注意力分支，组归一化模块，ReLU激活层依次串联组成全局卷积长短期注意力模块。

步骤3.10，将组归一化模块，第一全局卷积长短期注意力模块，二值量化的第一下采样模块，第二全局卷积长短期注意力模块，二值量化的第二下采样模块，第三全局卷积长短期注意力模块，二值量化的第三下采样模块，第四全局卷积长短期注意力模块依次串联组成一个二值量化的编码器子网络。

步骤3.11，搭建一个由卷积层和最近上采样操作依次串联组成的上采样模块。将卷积核的大小设置为3×3，最近邻上采样操作的采样因子设置为2。

步骤3.12，搭建一个由第一卷积层，第二卷积层依次串联而成的头模块。将第一卷积层的卷积核大小设置为3×3，输入通道数为128，输出通道设置为N¹，N¹的取值与多模态融合图像的波段数相等，卷积步长为1，第二卷积层的卷积核大小为1×1，输出通道设置为N²，N²的取值与多模态融合图像的波段数相等，输出通道数为C，C的取值与训练集包含的物质类别数相等，卷积步长为1。由于本发明的实施例多模态融合图像波段数为144，训练集包含的物质类别数为15，因此在本发明的实施例中N¹和N²均设置为144，C设置为15。

步骤3.13，将第一上采样模块，第二上采样模块，第三上采样模块，头模块依次串联组成一个解码器子网络。

步骤3.14，参照图3，对基于二值量化的编码器-解码器网络的结构做进一步的描述。

将二值量化的编码器子网络中第四全局卷积长短期注意力模块的输出，经第一卷积层与解码器子网络中第一上采样模块的输入相连；将二值量化的编码器子网络中第三全局卷积长短期注意力模块的输出，经第二卷积层与解码器子网络中第一上采样模块的输出相连；将二值量化的编码器子网络中第二全局卷积长短期注意力模块的输出，经第三卷积层与解码器子网络中第二上采样模块的输出相连；将二值量化的编码器子网络中第一全局卷积长短期注意力模块的输出，经第四卷积层与解码器子网络中第三上采样模块的输出相连，由此组成基于二值量化的编码器-解码器网络。

将第一至第四卷积层的卷积核大小均设置为1×1，卷积步长均为1，输入通道数依次为：96，128，192，256，输出通道数均为128。

步骤4，训练基于二值量化的编码器-解码器网络

将训练集输入到基于二值量化的编码器-解码器网络中，使用梯度下降方法，迭代更新网络权重，直到交叉熵损失函数收敛为止，得到训练好的二值量化的编码器-解码器网络模型。

所述的交叉熵损失函数如下：

其中，L表示样本的预测概率值和实际概率值之间的损失值，N表示训练集中像素点的总数，y_ik表示符号函数，当样本i的真实类别等于k时y_ik＝1，否则y_ik＝0，p_ik表示训练集中第i个样本点的预测结果属于类别k的概率，M表示训练集中包含的物质类别总数，log(·)表示以10为底的对数操作。本发明实施例中训练集的样本点个数为2832，物质类别总数为15，所以本发明的N取值为2832，M表示为15。

步骤5，对多模态遥感图像进行分类。

本发明实施例中利用与步骤1相同的方法将一张HSI和一张LiDAR图像融合成一张多模态遥感图像，包含15个物质类别，将该多模态遥感图像输入到训练好的基于二值量化的编码器-解码器网络后，得到的分类结果向量包含与15个物质类别对应的概率值。

下面结合仿真实验对本发明的效果做进一步的描述。

1.仿真实验条件。

本发明的仿真实验的硬件平台：处理器为Intel(R)Xeon(R)E5-2650 v4 CPU、主频为2.20GHz、内存为125GB、显卡为GeForce GTX 1080Ti。

本发明的仿真实验的软件平台为：Windows 10操作***，PyTorch库。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明的方法对一张多模态遥感图像进行分类。该多模态遥感图像是利用本发明的具体实施步骤1的方法，将一张大小为349×1905×144的HSI和一张大小为349×1905×1的LiDAR图像，融合成一张大小为349×1905×144的多模态遥感图像，然后利用本发明的具体实施步骤2的方法，从多模态遥感图像中随机选取2832个样本点组成训练集，采用与选取训练集相同的方法随机选取12197个样本点组成测试集。

为了验证本发明的仿真实验效果，将测试集中所有的样本输入到利用本发明具体实施步骤4中训练好的基于二值量化的编码器-解码器网络中进行分类，得到测试集中所有样本的分类结果。同时采用本发明和现有四个技术(正交总变体分量分析OTVCA分类方法，深度编码-解码器Endnet分类方法，基于广义图的融合GGF分类方法，基于全连接的融合Cross fusion FC分类方法)分别对测试集中所有样本进行分类，获得分类结果。

在仿真实验中，采用的四个现有技术是指：

现有正交总变体分量分析OTVCA分类方法是指，Rasti B等人在“Rasti B,Hong D,Hang R，et al.Feature Extraction for Hyperspectral Imagery:The Evolution fromShallow to Deep(Overview and Toolbox)[J].IEEE Geoscience and Remote SensingMagazine,PP(99):0-0.”中提出的高光谱图像分类方法，简称OTVCA分类方法。

现有深度编码-解码器Endnet分类方法是指，Hong D等人在“Hong D，Gao L,etal.Deep Encoder–Decoder Networks for Classification of Hyperspectral andLiDAR Data[J].IEEE Geoscience and Remote Sensing Letters,19:1-5.”中提出的高光谱图像分类方法，简称Endnet分类方法。

现有基于广义图的融合GGF分类方法是指，Liao W等人在“Liao W,Pizurica A ,Bellens R,et al.Generalized Graph-Based Fusion of Hyperspectral and LiDARData Using Morphological Features[J].IEEE Geoscience&Remote Sensing Letters,2014,12(3):552-556.”中提出的高光谱图像分类方法，简称GGF分类方法。

现有基于全连接的融合Cross fusion FC分类方法是指，Hong D等人在“Hong D,Gao L,Yokoya N，et al.More Diverse Means Better:Multimodal Deep Learning MeetsRemote-Sensing Imagery Classification[J].IEEE Transactions on Geoscience andRemote Sensing,2020,PP(99):1-15.”中提出的高光谱图像分类方法，简称Cross fusionFC分类方法。

利用三个评价指标(总体精度OA,平均精度AA和Kappa系数)分别对本发明和现有四种分类方法的分类结果进行评估。

总体精度OA，表示被正确分类的测试样本数与测试样本总数的比值；

平均精度AA表示在某一类别中，被正确分类的测试样本数与测试样本总数的比值；Kappa系数表示为：

其中，N表示样本点总数，x_ii表示分类后获得的混淆矩阵的对角线的值，x'_i和x”_i表示某一种类别的样本总数以及此类中被分类的样本总数。

将上述本发明和现有的四种高光谱图像分类方法，对于Houston2012数据集分类结果的性能进行评估指标对比，结果如表1所示：

表1评价指标对比结果一览表

method	OA	AA	Kappa
				OTVCA	85.80	87.66	0.8458
Endnet	87.82	89.34	0.8684
				GGF	90.79	90.95	0.9001
Cross fusion FC	87.08	89.09	0.8598
				本发明	99.37	99.26	0.9931

从表1可见，相比现有的其他四个分类方法，本发明表现出的分类性能更好，其在总体分类精度OA、平均分类精度AA、Kappa系数这三方面的指标值均优于其他四种算法，进一步证明了本发明在遥感多源图像分类方面的优良性能。

以上仿真实验表明：本发明方法利用由两张不同模态的遥感图像融合而成的多模态遥感图像进行分类，能够有效地联合提取遥感图像的空间、光谱、高程信息，保证了图像特征信息的多样性和完整性；通过搭建基于二值化量化的编码器-解码器网络，能够对网络模型进行压缩，减少网络信息冗余，从而提升分类精度，解决了现有技术存在的只能用到遥感图像的光谱信息，缺少高程信息且由于网络冗余导致的分类精度不高的问题，是一种非常实用的遥感图像分类方法。

Claims

1.一种基于模型压缩的多模态遥感图像分类方法，其特征在于，将包含光谱信息的高光谱图像HSI和携带高程信息的LiDAR图像进行多源数据融合，构建一个基于二值量化的编码器-解码器网络；该分类方法的步骤包括如下：

步骤1，对HSI和LiDAR图像进行多源数据融合：

步骤2，生成训练集：

步骤3，构建基于二值量化的编码器-解码器网络：

步骤4，训练基于二值量化的编码器-解码器网络：

步骤5，对多模态遥感图像进行分类：

2.根据权利要求1所述的基于模型压缩的多模态遥感图像分类方法，其特征在于，步骤3.3中所述的对光谱注意力分支中的第一全连接层、第二全连接层做二值量化操作的步骤如下：

第一步，利用下式，对光谱注意力分支中的第一全连接层的权重参数进行二值量化操作：

其中，表示对光谱注意力分支中的第一全连接层的权重参数进行二值量化之后的权重，sign(·)表示符号函数，/>表示分别对光谱注意力分支中的第一全连接层的权重参数进行归一化处理后得到的平衡权重，《》表示移位操作，s表示移位的位数round表示取四舍五入操作，log₂(·)表示底数为2的对数操作，n表示/>的向量维度，||·||₁表示L1范数操作；

采用相同公式，对光谱注意力分支中的第二全连接层的权重参数进行二值量化操作；

第二步，利用下式，对光谱注意力分支中的第一全连接层的激活向量参数进行二值量化操作：

Q_a(a)＝sign(a)

其中，Q_a(a)表示对光谱注意力分支中的第一全连接层的激活向量参数进行二值量化后的激活向量，sign(·)表示符号函数，a表示光谱注意力分支中的第一全连接层的激活向量参数；

3.根据权利要求1所述的基于模型压缩的多模态遥感图像分类方法，其特征在于，步骤4中所述的交叉熵损失函数如下：

其中，L表示样本的预测概率值和实际概率值之间的损失值，N表示训练集中像素点的总数，y_ik表示符号函数，当样本i的真实类别等于k时y_ik＝1，否则y_ik＝0，p_ik表示训练集中第i个样本点的预测结果属于类别k的概率，M表示训练集中包含的物质类别总数，log(·)表示以10为底的对数操作。