CN112232151B

CN112232151B - 一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法

Info

Publication number: CN112232151B
Application number: CN202011055084.0A
Authority: CN
Inventors: 王鑫; 段林; 吕国芳; 严勤; 石爱业
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-08-19
Anticipated expiration: 2040-09-30
Also published as: CN112232151A

Abstract

本发明公开了一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法，首先采用带注意力的迭代聚合模块对高分辨率遥感图像进行卷积、通道注意力筛选、融合得到图像的底层特征；其次将得到的底层特征通过卷积后送入下一个带注意力的迭代聚合模块提取图像的中层特征；然后将得到的中层特征通过卷积后送入最后一个带注意力的迭代聚合模块提取图像的高层特征；最后，将特征图通过池化层和全连接层对遥感场景图像进行分类。本发明利用带注意力的迭代聚合模块对遥感图像进行特征提取并融合，提取的特征涵盖具有较强的语义信息，同时，模块中嵌入了带注意力机制的结构，能有效筛选有用信息的通道进行融合，提高分类器的识别能力和分类性能。

Description

一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法

技术领域

本发明属于图像处理领域，尤其涉及一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法。

背景技术

高分辨率遥感图像场景分类是根据遥感图像的内容，用一组语义类别对其进行标注。近年来，高分辨率遥感图像的场景分类因其在自然灾害探测、土地覆盖与土地利用分类、地理空间目标检测、地理图像检索、城市规划、环境监测等领域的广泛应用而变得越来越重要。在早期的工作中，手工制作的特征在这项工作中应用最为广泛，并得到了深入的研究，如颜色直方图、尺度不变特征变换(SIFT)和方向梯度直方图(HOG)。这些方法严重依赖专业技能和领域专业知识来设计各种特征，使得它们的适应性和表达能力不够强。同时，这些方法通常需要中间层的编码器作为辅助，如著名的视觉单词包(BoVW)、fisher矢量(FV)编码和空间金字塔匹配(SPM)。但是，随着这项工作的难度越来越大，上述方法已经不能满足需求。

在深度神经网络强大的特征学习能力的推动下，由深度学习驱动的遥感图像场景分类引起了人们的极大关注，并取得了重大突破。鉴于这一领域的迅速发展，基于深度学习的高分辨率遥感图像场景分类方法主要有：(1)基于自动编码器的场景分类方法；(2)基于卷积神经网络的场景分类方法；(3)基于生成对抗网络的场景分类方法。

公开号CN108399366A一种遥感图像场景的分类***，包括采集步骤、灰度处理器、拟合步骤、边缘检测步骤、遥感图像像素分类步骤及神经网络训练器；通过对原始遥感图像进行采集作为样本并传输给灰度处理器，接着采用分量法进行灰度化处理，然后采用低次样条函数对灰度直方图进行拟合，最后采用基于零交叉的方法找到由图像得到的二阶导数的零交叉点来定位边缘。所述的方法采用基于像元的方法对遥感图像分类，能够很好地对遥感图像场景进行分类，但是，该分类方法采用的大多是传统手工特征提取的算法，分类步骤繁琐，且在分类的决策边界处难以判定所属类别。

Li等人在2019年IEEE 4th International Conference on Signal and ImageProcessing上发表论文“Classification of Remote Sensing Scenes Based on NeuralArchitecture Search Network”，该文献针对网络模型的自动设计问题，提出了一种基于神经网络的遥感场景分类方法。进一步利用迁移学习技术，使所设计的网络能够很好地迁移到遥感场景分类数据集中。由于该方法采用神经网络架构搜索的方法，使得训练的工作变得非常麻烦，且实现该分类方法对硬件资源的要求极高，同时训练出的的神经网络架构具有偶然性，泛化能力受数据影响。

综上，一般的遥感图像场景分类方法，存在的诸多局限性主要表现在：

(1)特征提取过程复杂：传统的分类方法采用分治的思想，需要人为设计图像特征的提取算法，提取图像的各种类型的特征，其中特征提取过程算法复杂，且提取的特征可能存在信息丢失冗余等现象，从而导致分类准确率不高；

(2)特征表达能力不强：传统遥感图像场景分类方法通常仅用一种或两种类型的特征作为分类器的输入，当场景图像存在畸变、模糊、类别不一等情形，特征表达能力受限，从而弱化了分类性能。

(3)分类器参数选择困难：常用的图像分类器，如SVM、KNN(K-Nearest Neighbor)等参数的设置对分类的性能影响很大，为了得到较好的分类结果，需要大量的人工参与进行最优参数的选择，导致算法通用性不强。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法。该方法可以避免传统手工特征提取过程、分类器参数选择过程等，增强特征表现能力，提高分类的准确力，同时结构中的迭代聚合模块中含有相邻层之间的非线性融合，类似于ResNet的残差结构，在一定程度上避免了训练过程中梯度消失的问题，加上引入的注意力机制对特征通道进行选择性融合，一方面能够有效防止过拟合的现象，另一方面在语义层面上加强了特征的表示，使得该网络具有更好的泛化能力。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法，包含步骤如下：

(1)构建遥感场景图像样本数据集，并制作相应的样本类别标签集合，将遥感场景图像样本数据集分为训练集Train和测试集Test；

(2)构建带注意力机制的迭代聚合网络，将遥感图像作为网络的输入，得到图像的特征图以及特征向量，通过平均池化得到降维后的特征图，使用基于softmax激活函数的全连接层作为分类器，输出分类结果；

(3)设定训练次数，构建损失函数，使用训练集对所构建的迭代聚合网络进行训练，更新网络参数，直到参数取值收敛；收敛条件为损失函数值不再减小；

(4)将测试集输入到训练好的网络中得到测试集的分类识别结果。

进一步的，所述步骤(1)，构建样本集合和集合分类方法如下：

(1.1)构建遥感场景图像样本数据集Image＝[Image₁,…,Image_i,…,Image_N]，并制作相应的样本标签Label＝[Label₁,…,Label_i,…,Label_N]，其中N表示N类遥感场景图像，Image_i表示第i类遥感场景图像的集合，Label_i表示第i类遥感场景图像的标签；

(1.2)将数据集分为训练集Train和测试集Test，针对数据集中每类遥感影像，设其样本总数为n，从中随机抽取m张图像构建训练集，其余n-m张图像构建测试集；则有：Train＝[Train₁,…,Train_i,…,Train_N],Test＝[Test₁,…,Test_i,…,Test_N]；其中Train_i为第i类遥感影像的训练集合，包含m张图像，Test_i为第i类遥感影像的测试集合，包含n-m张图像。

进一步的，所述步骤(2)，带注意力机制的迭代聚合网络结构如下：

(2.1)在输入层中，将每一个遥感场景图像归一化为256×256大小；

(2.2)第一个迭代聚合模块包括卷积1-1、卷积1-2、卷积1-3、卷积2-1、卷积2-2、卷积3-1这六个卷积层，均定义32个尺寸为3×3的卷积核，设定步长为1，填充模式设置为SAME，激活函数设置为Relu；其中，各卷积层连接结构如下：

卷积1-1的输出同时送到卷积1-2和卷积2-1，送到卷积1-2的特征不经过SE模块处理，送到卷积2-1的特征要经过SE模块处理；卷积1-2的输出同时送到卷积1-3和卷积2-2，送到卷积1-3的特征不经过SE模块处理，送到卷积2-2的特征要经过SE模块处理；

卷积2-1接收来自卷积1-1通过SE模块处理后的结果和卷积1-2通过SE模块处理后的结果，并通过合并的方式将两个输入的特征映射堆叠在一起，经过SE模块处理后送到卷积3-1；卷积2-2接收来自卷积1-2通过SE模块处理后的结果和卷积1-3通过SE模块处理后的结果，并通过合并的方式将两个输入的特征映射堆叠在一起，经过SE模块处理后送到卷积3-1；

卷积3-1接收来自卷积2-1通过SE模块处理后的结果和卷积2-2通过SE模块处理后的结果，并通过合并的方式将两个输入的特征映射堆叠在一起，卷积3-1将提取的特征送给卷积4-1；

在SE模块处理中，首先对卷积得到的特征图进行Squeeze操作，得到通道级的全局特征，然后对全局特征进行Excitation操作，学习各个通道间的关系，也得到不同通道的权重，最后乘以原来的特征图得到最终特征；

(2.3)在卷积4-1层中，定义64个尺寸为3×3的卷积核，设定步长为2，填充模式设置为SAME，激活函数设置为Relu；卷积4-1将提取的特征送给卷积5-1层；

(2.4)第二个迭代聚合模块包括卷积5-1、卷积5-2、卷积5-3、卷积6-1、卷积6-2、卷积7-1这六个卷积层，均定义64个尺寸为3×3的卷积核，设定步长为1，填充模式设置为SAME，激活函数设置为Relu；第二个迭代聚合模块的卷积层结构与第一个迭代聚合模块的卷积层结构相同；最后卷积7-1将提取的特征送给卷积8-1；

(2.5)在卷积8-1层中，定义128个尺寸为3×3的卷积核，设定步长为2，填充模式设置为SAME，激活函数设置为Relu；

(2.6)第三个迭代聚合模块包括卷积9-1、卷积9-2、卷积9-3、卷积10-1、卷积10-2、卷积11-1这六个卷积层，均定义128个尺寸为3×3的卷积核，设定步长为1，填充模式设置为SAME，激活函数设置为Relu；第三个迭代聚合模块的卷积层结构与第一个迭代聚合模块的卷积层结构相同；最后卷积11-1将提取的特征送给卷积12-1；

(2.7)在卷积12-1层中，定义256个尺寸为3×3的卷积核，设定步长为2，填充模式设置为SAME，激活函数设置为Relu；

(2.8)卷积12-1层的输出送入池化层，池化层中采用池化窗口为2×2的平均池化；

(2.9)池化层的输出送入全连接层，采用N个神经元，激活函数设置为softmax。

进一步的，所述步骤(2)，特征向量计算方法如下：

设卷积1-1层学习得到c个a×a大小的特征图f_i，第i个特征图f_i中，每个像素的值分别表示为

其中i＝1,…,c；

设卷积1-1层的第i个卷积核g_i中，每个像素的值分别表示为

第i个特征图f_i和第i个卷积核g_i的卷积结果表示为：

对所有P_i求和得到：

FC＝P₁+P₂+…+P_c

针对每个FC值，采用如下形式求解一个FCC值：

FCC＝δ(FC+b₀)

其中，b₀表示偏置，δ表示线性整流激活函数；

重复上述步骤z次，得到z个FCC值，将这些值进行列向量化，即将z个FCC值按列排列，得到卷积1-1层输出的特征向量features_conv11。

有益效果：本发明采用上述技术方案，具有以下有益效果：

(1)本发明采用端到端的训练方式，避免了人为对图像进行繁琐的特征提取、降维和表示等步骤，最终学习得到的深度特征涵盖信息完整且具有较强的识别分类性能。

(2)本发明中的迭代聚合网络结构中尽可能地在每层卷积层中迭代并聚合不同感受野的特征，并且在训练的同时，后面的高层特征能够同时起到辅助的作用对前面的低层特征的提取进行监督，合理的特征复用和融合不仅能够使网络模型能够充分地利用各种大小尺度感受野的特征，使得该网络具有更好的泛化能力。

(3)本发明在特征聚合中引入了SE模块对各层的特征通道进行注意力约束，在语义层面上加强特征表示的同时也削弱了图像中冗余的通道信息，能够大大减少网络的参数和训练的计算量。

附图说明

图1为搭建的一种嵌入注意力机制的迭代聚合神经网络架构图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示，本发明所述的一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法，包含步骤如下：

(1)构建遥感场景图像样本数据集，并制作相应的样本类别标签集合，将遥感场景图像样本数据集分为训练集Train和测试集Test。

带注意力机制的迭代聚合网络结构如下：

在SE模块处理中，首先对卷积得到的特征图进行Squeeze操作，得到通道级的全局特征，然后对全局特征进行Excitation操作，学习各个通道间的关系，也得到不同通道的权重，最后乘以原来的特征图得到最终特征；具体实施方法如下：

Squeeze操作：Squeeze操作通过对特征图进行全局平均池化来实现：

设图像的特征U在第c通道处的特征图u_c(i,j)大小为H×W，该特征图通过Squeeze操作后得到的权值为

Excitation操作：Excitation函数表达式为：激活值s_c＝σ(W₂ReLU(W₁z_c))，其中

σ为激活函数，r为超参数，代表降维系数，这里其值设置为16。

最后将学习到的各个通道的激活值乘以U上的原始特征，得到：x′＝s_c·u_c，该特征x′即为SE操作后的输出特征。

需要注意的是，在该结构中所提到的池化，其本质是下采样，通过池化层可以对输入的特征图选择某种方式进行压缩。池化的意义一方面在于减少网络参数，减少计算量；另一方面在于使训练出的特征具有旋转不变性，增强网络鲁棒性和抗干扰能力。全连接层在整个卷积神经网络中起到“分类器”的作用。

特征向量计算方法如下：

其中i＝1,…,c；，c为32，a为256；每个卷积核大小均为3×3；

设卷积1-1层的第i个卷积核g_i中，每个像素的值分别表示为

第i个特征图f_i和第i个卷积核g_i的卷积结果表示为：

对所有P_i求和得到：

FC＝P₁+P₂+…+P_c

针对每个FC值，采用如下形式求解一个FCC值：

FCC＝δ(FC+b₀)

其中，b₀表示偏置，δ表示线性整流激活函数；

特征图通过平均池化得到降维后的特征图方法如下：

本实施例中，设大小为4×4特征图的矩阵表示形式为

用窗口大小为2×2的平均池化层进行操作，得到的特征图大小为2×2，其特征图矩阵可表示为：

t_ij表示像素值。

构造基于softmax激活函数的全连接层作为分类器方法如下：

其中，S_i表示输入样本为第i类的概率，N表示样本的类别数；V＝(V₁,V₂,...,V_N)是全连接层中的特征向量，长度为N，N为样本的类别总数，V_i表示V中的第i个元素。

使用分类器对测试集进行分类识别，类别判定法则为

其中pred_label代表预测的标签值；该法则即，取当使得S_i达到最大值时的那个i值作为预测的标签值。

(3)设定训练次数，构建损失函数，使用训练集对所构建的迭代聚合网络进行训练，更新网络参数，直到参数取值收敛；收敛条件为损失函数值不再减小。

训练一个神经网络，实际意义上是在训练该网络每一个卷积层的卷积核，使这些卷积核能检测到图像中的各层特征，从而达到训练整个网络的目的。在开始训练之前，随机初始化卷积核，例如将一幅场景图像输入到卷积神经网络中，随机初始化的卷积神经网络训练结果表明这张图像有8％的可能性属于A类，但实际上卷积神经网络已知这张图像属于B类，则卷积神经网络会借助一个反向传播的处理过程，修正卷积核，以便下一次碰到相似图像时会更可能地将其预测为B类。对训练数据重复这一过程，卷积核就会逐渐调整到能够提取图像中益于分类的重要特征。

(4)将测试集输入到训练好的网络中得到测试集的分类识别结果。经过softmax分类器的每一幅测试图像都会得到一个预测标签值pred_label，即为分类结果。将测试集中所有图像的预测值pred_label和它们的原始标签值Label相比，即可得到整个测试集的识别准确率。

Claims

1.一种嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法，其特征在于：该方法包括以下步骤：

(2)构建带注意力机制的迭代聚合网络，将遥感图像作为网络的输入，得到图像的特征图以及特征向量，通过平均池化得到降维后的特征图，使用基于softmax激活函数的全连接层作为分类器，输出分类结果；其中，带注意力机制的迭代聚合网络结构如下：

(2.9)池化层的输出送入全连接层，采用N个神经元，激活函数设置为softmax；

2.根据权利要求1所述的嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法，其特征在于：所述步骤(1)，构建样本集合和集合分类方法如下：

3.根据权利要求1或2所述的嵌入注意力机制的迭代聚合神经网络高分遥感场景分类方法，其特征在于：所述步骤(2)，特征向量计算方法如下：

其中i＝1,…,c；

设卷积1-1层的第i个卷积核g_i中，每个像素的值分别表示为

第i个特征图f_i和第i个卷积核g_i的卷积结果表示为：

对所有P_i求和得到：

FC＝P₁+P₂+…+P_c

针对每个FC值，采用如下形式求解一个FCC值：

FCC＝δ(FC+b₀)

其中，b₀表示偏置，δ表示线性整流激活函数；