WO2022073452A1

WO2022073452A1 - 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Info

Publication number: WO2022073452A1
Application number: PCT/CN2021/121774
Authority: WO
Inventors: 杜博; 徐永浩; 张良培
Original assignee: 武汉大学
Priority date: 2020-10-07
Filing date: 2021-09-29
Publication date: 2022-04-14
Also published as: CN112287978A; US11783579B2; CN112287978B; US20230260279A1

Abstract

本发明公开了一种基于自注意力上下文网络的高光谱遥感图像分类方法。该方法通过自注意力学习和上下文编码，构建高光谱遥感图像中像素间的空间依赖关系，提取全局上下文特征。在受到对抗攻击污染的高光谱遥感数据上，该方法依然能保持优越的地物识别精度，从而更好的满足高光谱遥感图像分类任务对安全性和可靠性的需求。

Description

一种基于自注意力上下文网络的高光谱遥感图像分类方法

技术领域

本发明属于计算机图像处理技术领域，涉及一种图像分类方法，具体涉及一种基于自注意力上下文网络的高光谱遥感图像分类方法。

背景技术

高光谱遥感通过结合光谱技术与成像技术，可以同时获得空间维度与光谱维度上连续的遥感观测数据。与自然图像相比，高光谱遥感图像光谱分辨率更高，波段数更多，能够反映更加丰富的地物波谱特性。因此，利用高光谱图像进行地物目标的分类与识别，是实现对地观测的重要途径之一。

目前，大部分高光谱图像分类方法多基于深度卷积神经网络，并已取得了较好的地物识别效果。然而，随着计算机视觉领域中对抗攻击算法研究的不断深入，现有的深度神经网络极易受到对抗样本的攻击，导致模型预测结果偏离样本的真实标签。考虑到目前在高光谱遥感研究领域尚未有对抗攻击相关的研究，而现有基于深度神经网络的高光谱遥感图像分类方法在设计过程中，没有充分考虑网络的安全性和可靠性，使得这些方法极易受到对抗攻击的威胁。因此，亟需一种安全性、可靠性更高的高光谱遥感图像分类算法，更好的满足安全、可靠的高精度地物目标识别需求。

发明内容

为了解决上述技术问题，本发明提供了一种基于自注意力上下文网络的高光谱遥感图像分类方法，该方法包含一个基干网络、一个自注意力模块和一个上下文编码模块。基干网络通过三个3×3扩张卷积层和一个2×2平均池化层来提取层次化特征。随后，将基干网络提取的特征作为自注意力模块的输入，进行自注意力学习，构建像素间的空间依赖关系，得到自注意力特征。该特征随后作为上下文编码模块的输入，学习全局上下文特征。在分类阶段，考虑到不同尺寸大小的地物识别需求，本方法进一步将全局上下文特征与基干网络中的前两层卷积特征进行特征融合。

本发明的技术方案为：首先构建整体网络，包括一个基干网络、一个自注意力模块和一个上下文编码模块，基干网络通过三个扩张卷积层和一个平均池化层来提取层次化特征；随后，将基干网络提取的特征作为自注意力模块的输入，进行自注意力学习，构建像素间的空间依赖关系，得到自注意力特征；自注意力特征随后作为上下文编码模块的输入，学习全局上下文特征；具体实现包括以下步骤：

步骤1：初始化整体网络中的参数，使其满足均值为0方差为0.1的高斯分布；

步骤2：记原始高光谱影像为

其中h,w,c分别为影像的高度、宽度和波段数，将X输入基干网络；

步骤3：将第三个扩张卷积层的特征C ₃输入到自注意力模块，学习自注意力特征

m为第一个扩张卷积层中卷积核的个数；

步骤4：将自注意力模块学习到的自注意力特征S输入到上下文编码模块，学习上下文特征

步骤5：将上下文特征Z与第一、第二个卷积特征采用串联的方式进行特征融合，得到融合后的特征

其中U(·)表示2倍双线性内插上采样操作，C ₁和C ₂分别为第一个扩张卷积层的特征和第二个扩张卷积层的特征；

步骤6：将融合特征H输入一个卷积层，利用Softmax函数得到网络预测的概率图

计算预测概率图

与真实标签Y之间的交叉熵损失函数；

步骤7：利用梯度下降算法，优化步骤6中的损失函数；

步骤8：重复上述步骤2-7，直至整体网络收敛；

步骤9：将待识别的目标影像，输入到训练好的整体网络中，完成最终的高光谱遥感图像分类任务。

进一步的，步骤3中所述的自注意力特征S，其具体学习过程包括以下子步骤：

步骤3.1：为了减少自注意力特征学***均池化层将输入的第三层卷积特征C ₃的空间尺寸减半：

P _avg(·)为平均池化操作；

步骤3.2：将P ₂分别输入到三个具有n个卷积核的卷积层得到对应的特征图

步骤3.3：将α,β,γ调整尺寸为

利用下式计算空间注意力图

其中，A _(i,j)表示影像中像素i对像素j的影响，k＝1,2,…,hw/16；

步骤3.4：将空间注意力图A与特征图γ进行矩阵乘法，得到特征图B＝A×γ，随后将B调整尺寸为

步骤3.5：计算最终的自注意力增强特征

S＝F(U(B))+C ₃,

其中F(·)表示非线性映射函数，具体采用一个具有m个卷积核的卷积层实现，U(·)表示2倍双线性内插上采样操作。

进一步的，步骤4中所述的上下文特征Z，其具体学习过程包括以下子步骤：

步骤4.1：利用一个具有n个卷积核的卷积层对输入的自注意力增强特征S进行降维，对得到的特征图Q调整尺寸为

记

为Q的第i个元素，其中i＝1,2,...N，

步骤4.2：记

为利用Q中的全局统计信息来学习视觉中心的编码字典，其中

表示字典中的第j个元素，k是字典D中元素的个数，计算Q与D之间的标准化残差为：

其中，r _ij＝q _i-d _j表示Q中的第i个元素与D中的第j个元素的残差，s _j表示D中的第j个元素对应的缩放因子；

步骤4.3：计算全局上下文向量

其中

表示批标准化操作；

步骤4.4：利用一个全连接层将全局上下文向量e升维至

其中

为sigmoid函数，W _fc与b _fc为全连接层对应的参数矩阵与偏置向量；

步骤4.5：计算最终的上下文特征

其中⊙表示通道维度上的点乘。

进一步的，步骤2中将X输入基干网络的具体实现如下，

将X输入具有m个3×3卷积核的第一个扩张卷积层，计算第一个扩张卷积层的特征C ₁＝g(W ₁*X+b ₁)，其中W ₁,b ₁分别为第一个扩张卷积层对应的参数矩阵与偏置向量，g(x)＝max(0,x)为修正线性单元函数；同样的，第二、第三个扩张卷积层的特征表达为C ₂＝g(W ₂*C ₁+b ₂)，C ₃＝g(W ₃*P ₁+b ₃)，其中P ₁＝P _avg(C ₂)为第一个池化层的特征，P _avg(·)为2×2平均池化操作。

进一步的，步骤6中交叉熵损失

的表达式如下，

其中，v为类别总数，

为预测概率图，Y为真实标签，其中h,w分别为影像的高度、宽度。

本发明的有益效果为：

本发明提出了一种基于自注意力上下文网络的高光谱遥感图像分类方法，该方法能够有效提升模型对对抗样本的抵抗能力。与现有基于深度卷积神经网络的高光谱遥感图像分类方法相比，本发明通过自注意力学习和上下文编码，构建高光谱遥感图像中像素间的空间依赖关系，提取全局上下文特征，在受到对抗攻击污染的高光谱遥感数据上，依然能保持优越的地物识别精度。

附图说明

图1为本发明提出的一种基于自注意力上下文网络的高光谱遥感图像分类方法的示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种基于自注意力上下文网络的高光谱遥感图像分类方法，该方法包含一个基干网络、一个自注意力模块和一个上下文编码模块构成的整体网络。其中，基干网络通过三个3×3扩张卷积层和一个2×2平均池化层来提取层次化特征。随后，将基干网络提取的特征作为自注意力模块的输入，进行自注意力学习，构建像素间的空间依赖关系，得到自注意力特征。该特征随后作为上下文编码模块的输入，学习全局上下文特征。在分类阶段，考虑到不同尺寸大小的地物识别需求，本方法进一步将全局上下文特征与基干网络中的前两层卷积特征进行特征融合。

具体包括以下步骤：

步骤2：记原始高光谱影像为

其中h,w,c分别为影像的高度、宽度和波段数。将X输入具有m个3×3卷积核的第一个扩张卷积层，计算第一个卷积层的特征C ₁＝g(W ₁*X+b ₁)，其中W ₁,b ₁分别为第一个扩张卷积层对应的参数矩阵与偏置向量，g(x)＝max(0,x)为修正线性单元函数。类似的，第二、第三层卷积特征可表达为C ₂＝g(W ₂*C ₁+b ₂)，C ₃＝g(W ₃*P ₁+b ₃)，其中P ₁＝P _avg(C ₂)为第一个池化层的特征，P _avg(·)为2×2平均池化操作；

步骤3：将第三层卷积特征C ₃输入到自注意力模块，学习自注意力特征

步骤5：将上下文特征Z与第一、第二层卷积特征采用串联的方式进行特征融合，得到融合后的特征

其中U(·)表示2倍双线性内插上采样操作；

步骤6：将融合特征H输入一个1×1卷积层，利用Softmax函数得到网络预测的概率图

计算预测概率图

与真实标签Y之间的交叉熵损失

其中，v为类别总数。

步骤7：利用梯度下降算法，优化步骤6中的损失函数；

步骤8：重复上述步骤2-7，直至整体网络收敛；

作为优选，步骤3中所述的自注意力特征S，其具体学习过程包括以下子步骤：

步骤3.2：将P ₂分别输入到三个具有n个1×1卷积核的卷积层得到对应的特征图

步骤3.3：将α,β,γ调整尺寸为

利用下式计算空间注意力图

步骤3.5：计算最终的自注意力增强特征

S＝F(U(B))+C ₃,

其中F(·)表示非线性映射函数，具体采用一个具有m个卷积核的1×1卷积层实现。

作为优选，步骤4中所述的上下文特征Z，其具体学习过程包括以下子步骤：

步骤4.1：利用一个具有n个卷积核的1×1卷积层对输入的自注意力增强特征S进行降维，对得到的特征图Q调整尺寸为

记

为Q的第i个元素，其中i＝1,2,...N，

步骤4.2：记

为利用Q中的全局统计信息来学习视觉中心的编码字典，k是字典D中元素的个数，其中

表示字典中的第j个元素。计算Q与D之间的标准化残差为：

其中，r _ij＝q _i-d _j表示Q中的第i个元素与D中的第j个元素的残差，s _j表示D中的第j个元素对应的缩放因子，s _l表示D中的第l个元素对应的缩放因子；

步骤4.3：计算全局上下文向量

其中

表示批标准化操作(batch normalization)；

步骤4.4：利用一个全连接层将全局上下文向量e升维至

其中

步骤4.5：计算最终的上下文特征

其中⊙表示通道维度上的点乘。

以上是本发明涉及的一种基于自注意力上下文网络的高光谱遥感图像分类方法的实现步骤。

由于数据采集设备的差异，采集到的高光谱图像像素值往往差别很大，可能影响图像分类效果。为了避免这一问题，在进行步骤1前，应对高光谱图像数据进行标准化处理，使所有像素值处于0-1的范围之内。这一步将作为本发明涉及的预处理步骤。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

一种基于自注意力上下文网络的高光谱遥感图像分类方法，其特征在于：首先构建整体网络，包括一个基干网络、一个自注意力模块和一个上下文编码模块，基干网络通过三个扩张卷积层和一个平均池化层来提取层次化特征；随后，将基干网络提取的特征作为自注意力模块的输入，进行自注意力学习，构建像素间的空间依赖关系，得到自注意力特征；自注意力特征随后作为上下文编码模块的输入，学习全局上下文特征；具体实现包括以下步骤：

步骤1：初始化整体网络中的参数，使其满足均值为0方差为0.1的高斯分布；

步骤2：记原始高光谱影像为
其中h,w,c分别为影像的高度、宽度和波段数，将X输入基干网络；

步骤3：将第三个扩张卷积层的特征C ₃输入到自注意力模块，学习自注意力特征
m为第一个扩张卷积层中卷积核的个数；

步骤4：将自注意力模块学习到的自注意力特征S输入到上下文编码模块，学习上下文特征

步骤5：将上下文特征Z与第一、第二个卷积特征采用串联的方式进行特征融合，得到融合后的特征
其中U(·)表示2倍双线性内插上采样操作，C ₁和C ₂分别为第一个扩张卷积层的特征和第二个扩张卷积层的特征；

步骤6：将融合特征H输入一个卷积层，利用Softmax函数得到网络预测的概率图
计算预测概率图
与真实标签Y之间的交叉熵损失函数；

步骤7：利用梯度下降算法，优化步骤6中的损失函数；

步骤8：重复上述步骤2-7，直至整体网络收敛；

步骤9：将待识别的目标影像，输入到训练好的整体网络中，完成最终的高光谱遥感图像分类任务。
根据权利要求1所述的基于自注意力上下文网络的高光谱遥感图像分类方法，其特征在于：步骤3中所述的自注意力特征S，其具体学习过程包括以下子步骤：

步骤3.1：为了减少自注意力特征学***均池化层将输入的第三层卷积特征C ₃的空间尺寸减半：
P _avg(·)为平均池化操作；

步骤3.2：将P ₂分别输入到三个具有n个卷积核的卷积层得到对应的特征图

步骤3.3：将α,β,γ调整尺寸为
利用下式计算空间注意力图

其中，A _(i,j)表示影像中像素i对像素j的影响，k＝1,2,…,hw/16；

步骤3.4：将空间注意力图A与特征图γ进行矩阵乘法，得到特征图B＝A×γ，随后将B调整尺寸为

步骤3.5：计算最终的自注意力增强特征

S＝F(U(B))+C ₃,

其中F(·)表示非线性映射函数，具体采用一个具有m个卷积核的卷积层实现，U(·)表示2倍双线性内插上采样操作。
根据权利要求1所述的基于自注意力上下文网络的高光谱遥感图像分类方法，其特征在于：步骤4中所述的上下文特征Z，其具体学习过程包括以下子步骤：

步骤4.1：利用一个具有n个卷积核的卷积层对输入的自注意力增强特征S进行降维，对得到的特征图Q调整尺寸为
记
为Q的第i个元素，其中i＝1,2,...N，

步骤4.2：记
为利用Q中的全局统计信息来学习视觉中心的编码字典，其中
表示字典中的第j个元素，k是字典D中元素的个数，计算Q与D之间的标准化残差为：

其中，r _ij＝q _i-d _j表示Q中的第i个元素与D中的第j个元素的残差，s _j表示D中的第j个元素对应的缩放因子，s _l表示D中的第l个元素对应的缩放因子；

步骤4.3：计算全局上下文向量
其中
表示批标准化操作；

步骤4.4：利用一个全连接层将全局上下文向量e升维至

其中
为sigmoid函数，W _fc与b _fc为全连接层对应的参数矩阵与偏置向量；

步骤4.5：计算最终的上下文特征

其中⊙表示通道维度上的点乘。
根据权利要求1所述的基于自注意力上下文网络的高光谱遥感图像分类方法，其特征在于：步骤2中将X输入基干网络的具体实现如下，

将X输入具有m个3×3卷积核的第一个扩张卷积层，计算第一个扩张卷积层的特征C ₁＝g(W ₁*X+b ₁)，其中W ₁,b ₁分别为第一个扩张卷积层对应的参数矩阵与偏置向量，g(x)＝max(0,x)为修正线性单元函数；同样的，第二、第三个扩张卷积层的特征表达为C ₂＝g(W ₂*C ₁+b ₂)，C ₃＝g(W ₃*P ₁+b ₃)，其中P ₁＝P _avg(C ₂)为第一个池化层的特征，P _avg(·)为2×2平均池化操作。
根据权利要求1所述的基于自注意力上下文网络的高光谱遥感图像分类方法，其特征在于：步骤6中交叉熵损失
的表达式如下，

其中，v为类别总数，
为预测概率图，Y为真实标签，其中h,w分别为影像的高度、宽度。