CN116543227A

CN116543227A - 基于图卷积网络的遥感图像场景分类方法

Info

Publication number: CN116543227A
Application number: CN202310577746.8A
Authority: CN
Inventors: 李群; 鲁***; 陈宇; 李洁; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-04

Abstract

本发明提供一种基于图卷积网络的遥感图像场景分类方法，涉及遥感技术领域，该方法包括：构建场景分类模型，并对该模型进行训练：将训练样本做超像素分割，得到图像块；利用深度卷积网络对图像块进行提取得到第一特征图，基于图像块和第一特征图构建邻域图，获取第一特征矩阵和邻域矩阵；建立图卷积网络，得到第二特征；根据transformer模块对图像块进行位置编码和注意力特征的提取，得到第三特征；将第二特征和第三特征进行融合，将融合后的特征输入分类层，得到分类结果；获取待分类遥感图像，将其输入场景分类模型，得到场景分类结果。本发明的场景分类模型的分类精度高，能够描述遥感图像的语义信息。

Description

基于图卷积网络的遥感图像场景分类方法

技术领域

本发明涉及遥感技术领域，具体涉及一种基于图卷积网络的遥感图像场景分类方法。

背景技术

地球是人类生存的共同家园，随着人类文明的不断进步，利用技术手段不断发现和了解未知的世界成为人类文明进步的强大动力。由于地球表面的浩瀚和广阔，人类虽然在地球上已经进化了上千万年，但对其所居住环境从局部到整体的认知都非常有限。直到20世纪中期随着卫星遥感技术的出现，人类通过“天眼”获取地球表面的影像资料，才真正拉开地球整体相对连续认知的大幕。尤其到了二十一世纪初期，随着技术的快速进步和遥感技术的蓬勃发展，遥感卫星数量不断增多，人类获取的地球表面的观测资料不断快速积累，数据规模目前已经达到了EB级，随后应运而生的大数据技术为海量资料的处理和信息挖掘提供了技术保障。

作为当前遥感对地观测技术领域的研究热点之一，遥感图像场景分类旨在根据遥感场景图像内容将图像自动分类为一个特定的语义标签，为图像理解提供辅助参考。遥感影像场景分类需要借助影像场景的视觉特征和空间上下文信息区分语义类别，它假设相同类型的场景有着更相似的特征，所以场景分类的关键在于影像特征的提取。传统的人工特征提取方法只能获取影像的中、低层特征表示，这类方法缺乏泛化能力且难以准确描述影像语义。利用深度学习技术的层次化抽象表达能力可以自动学习关于影像场景的高层视觉特征，有效提高场景分类的性能。相关的研究中多使用深度卷积神经网络来进行特征学习并结合分类器完成分类任务。然而，现有的深度学习方法大多数以卷积神经网络为基础，这些方法所使用的分类模型的分类精度有待进一步提升。

发明内容

基于上述技术问题，本发明提供一种基于图卷积网络的遥感图像场景分类方法，通过在训练过程中建立图卷积网络得到嵌入空间拓扑信息的特征，并通过transformer提取的嵌入位置信息的特征，两种特征进行融合，之后进行分类，该方法中的场景分类模型的分类精度高，且能够描述图像的语义信息。

本发明提供一种基于图卷积网络的遥感图像场景分类方法，该方法包括：

S1构建场景分类模型，并对所述场景分类模型进行训练，所述场景分类模型包括深度卷积网络、图卷积网络、transformer模块和分类层，其中，所述图卷积网络是在对所述场景分类模型训练时建立的，训练步骤包括：

S11对训练样本进行超像素分割，得到多个图像块，其中，训练样本表示为图像块序列；

S12将训练样本输入深度卷积网络，得到与图像块对应的第一特征图；

S13基于图像块和第一特征图构建区域邻接图，获取第一特征矩阵和邻接矩阵；

S14将第一特征矩阵和邻接矩阵作为图数据建立图卷积网络，根据图卷积网络的消息传递机制学习得到第二特征；

S15将训练样本输入transformer模块，transformer模块包括输入层和transformer层，利用输入层对图像块进行位置编码，得到位置向量序列，将位置向量序列嵌入至对应的图像块序列的表示中，之后将其输入transformer层，得到第三特征；

S16将第二特征和第三特征进行融合，将融合后的特征输入分类层，得到分类结果；

S2获取待分类遥感图像，将其输入场景分类模型，得到场景分类结果。

于本发明一具体实施例中，步骤S13包括：

对第一特征图进行上采样，根据最大池化方法对上采样后的第一特征图进行处理，得到每个第一特征图对应的第一特征矩阵；

对图像块建立空间4邻域关系，构造邻域矩阵，所述邻域矩阵描述每个图像块之间的空间拓扑结构。

于本发明一具体实施例中，所述对第一特征图进行上采样的方法为：

采用最近邻域插值方法对第一特征图的每个像素进行插值，将第一特征图放大至与对应图像块的大小相同。

于本发明一具体实施例中，所述第二特征包含所述空间拓扑结构的表示。

于本发明一具体实施例中，所述图像块为互相不重叠的图像区域。

于本发明一具体实施例中，步骤S15包括：

transformer模块包括输入层和transformer层，所述输入层为位置编码层，通过所述位置编码层对图像块进行位置编码，得到位置向量序列，之后将所述位置向量序列嵌入至图像块序列中，得到嵌有位置向量信息的图像块序列；

transformer层包括4个编码器，编码器包括多头注意力层、多层感知器，将嵌有位置向量信息的图像块序列输入至transformer层，对其进行编码，输出得到所述第三特征。

于本发明一具体实施例中，所述多层感知器包含激活函数。

于本发明一具体实施例中，所述第三特征为最后一个编码器的输出特征。

于本发明一具体实施例中，所述激活函数为sigmoid函数、tanh函数和relu函数中的一种。

于本发明一具体实施例中，所述第二特征与所述第三特征的特征尺度相同。

本发明的有益效果为：本发明提供一种基于图卷积网络的遥感图像场景分类方法，首先将图像做超像素分割，以图像块为基本处理单元，然后对图像块进行两个分支的处理流程，第一个分支为：利用深度卷积网络提取第一特征图，并对第一特征图进行上采样，使其尺度变换为原图像块的大小，之后对图像块构建邻域图，以第一特征矩阵和邻域矩阵为图数据，结合空间拓扑关系建立图卷积网络，根据图卷积网络的消息传递机制，能够得到嵌入空间拓扑关系的第二特征，该第二特征能有效学习到遥感图像场景中的特征和目标间的空间关系，具有较强的表示能力，有利于提高分类精度；第二个分支为：根据transformer模块对图像块进行位置编码和注意力特征的提取，基于多头注意力机制和多层感知器对图像块序列和位置向量信息进行编码，得到嵌有位置信息的第三特征，在计算时，多头注意力机制能够扩大感受野面积，提升模型的性能，且该步骤能够并行计算，有效减少了计算量；由于第二特征和第三特征得尺度相同，在进行特征融合时能更容易进行，且融合后的特征能够更加全面和更具代表性，对于易混淆的遥感图像和复杂的遥感图像也有较高的分类准确率，有效避免分类时目标丢失的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1和图2，本发明提供一种基于图卷积网络的遥感图像场景分类方法，该方法包括：

获取一组遥感图像，将其作为训练样本对场景分类模型进行训练，记训练样本为表示第f幅训练样本，C、H和W分别表示训练样本的通道数、高度和宽度，y_i表示训练样本对应的场景类别，N为训练样本的数目。

采用SLIC算法对训练样本进行超像素分割，得到多个图像块，图像块为互不重叠的图像区域，则训练样本可表示为一个图像块序列，如代表第i幅训练样本表示为一个包含m个图像块的序列，每个图像块/>其中p表示每个图像块的维度，且m＝HW/p²，超像素分割的具体过程如下：

(1)初始化种子点，即聚类中心

按照设定的超像素个数，在训练样本内均匀的分配种子点。若每幅训练样本的图像总共有N个像素点，预分割为m个相同尺寸的超像素，那么每个超像素的大小为N/m，则相邻种子点的距离(步长)近似为S＝sqrt(N/m)。

(2)在邻域内重新选择种子点

在种子点3*3邻域内重新选择种子点，具体为：计算该邻域内所有像素点的梯度值，将种子点移到该邻域内梯度最小的地方。这样做的目的是为了避免种子点落在梯度较大的轮廓边界上，以免影响后续聚类效果。

(3)在每个种子点周围的邻域内为每个像素点分配类标签，即属于哪个聚类中心

SLIC的搜索范围限制为2S*2S，可以加速算法收敛。

(4)距离度量

包括颜色距离和空间距离。对于每个搜索到的像素点，分别计算它和该种子点的距离。距离计算方法如下：

其中，d_c代表颜色距离，d_s代表空间距离，x、y表示像素点的坐标值，L表示像素点的亮度值，a表示像素点从洋红色至绿色的范围，b表示像素点从黄色至蓝色的范围，N_s是类内最大空间距离，N_s＝S＝sqrt(N/m)，适用于每个聚类，N_c为最大颜色距离，其随图片不同而不同，也随聚类不同而不同，因此本实施例取一个固定常数k代替，k的取值范围为1-40，则式(3)变形为：

式(4)的结果即为最终的距离度量。由于每个像素点都会被多个种子点搜索到，所以每个像素点都会有一个与周围种子点的距离，取最小值对应的种子点作为该像素点的聚类中心。

需要说明的是，上述颜色距离与Lab颜色空间有关，Lab色彩模型是由亮度(L)和有关色彩的a，b三个要素组成。L表示亮度，L的值域由0(黑色)到100(白色)。a表示从洋红色至绿色的范围(a为负值指示绿色而正值指示品红)，b表示从黄色至蓝色的范围(b为负值指示蓝色而正值指示黄色)。Lab颜色空间的优点：1)不像RGB和CMYK色彩空间，Lab颜色被设计来接近人类生理视觉。它致力于感知均匀性，它的L分量密切匹配人类亮度感知。因此可以被用来通过修改a和b分量的输出色阶来做精确的颜色平衡，或使用L分量来调整亮度对比。这些变换在RGB或CMYK中是困难或不可能的。2)因为Lab描述的是颜色的显示方式，而不是设备(如显示器、打印机或数码相机)生成颜色所需的特定色料的数量，所以Lab被视为与设备无关的颜色模型。3)色域宽阔。它不仅包含了RGB，CMYK的所有色域，还能表现它们不能表现的色彩。人的肉眼能感知的色彩，都能通过Lab模型表现出来。另外，Lab色彩模型弥补了RGB色彩模型色彩分布不均的不足，因为RGB模型在蓝色到绿色之间的过渡色彩过多，而在绿色到红色之间又缺少黄色和其他色彩。

(5)迭代优化

迭代步骤(1)-(4)，直至每个像素点的聚类中心不再发生变化。

(6)增强连通性

经过上述迭代优化可能出现以下瑕疵：出现多连通情况、超像素尺寸过小，单个超像素被切割成多个不连续超像素等，这些情况可以通过增强连通性解决。主要思路是：新建一张标记表，表内元素均为-1，按照“Z”型走向(从左到右，从上到下顺序)将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素，遍历过的像素点分配给相应的标签，直到所有点遍历完毕为止。

在将训练样本进行超像素分割，得到图像块后，之后将分为两个处理流程进行特征提取，具体流程步骤如下：

第一个处理流程为：将训练样本输入深度卷积网络，得到与图像块对应的第一特征图，本实施例的深度卷积网络为ResNet-50，将图像块输入到ResNet-50中，得到四层特征图，将最后一层即第四层特征图作为第一特征图。ResNet是深度残差神经网络，该网络在每一个卷积层中都增加了跳跃连接实现特征恒等映射，能够避免由于卷积层对特征压缩提取特征时细节丢失的问题，而最后一层特征图包含了图像丰富的语义信息，将其作为第一特征图，能更利于提高后续的分类准确率。

之后采用最近邻域插值方法对第一特征图的每个像素进行插值，将第一特征图放大至与对应图像块的大小相同，根据最大池化方法对上采样后的第一特征图进行处理，得到每个第一特征图对应的第一特征矩阵，记为m为图像块的数目，t为图像块对应的第一特征维数；对图像块建立空间4邻域关系，构造邻域矩阵/>以此实现对场景内部空间拓扑关系的构造，因此，所述邻域矩阵描述每个图像块之间的空间拓扑结构。对第一特征图进行上采样可以让其在保留高级特征的同时变为高分辨率，在一定程度上保留图像信息。

以第一特征矩阵作为图结构的结点，并结合邻接矩阵及其空间拓扑关系来建立图卷积网络，之后进行训练，根据图卷积网络的分层传播规则，将空间拓扑关系和第一特征矩阵进行消息传递，得到嵌入空间拓扑关系的特征，即第二特征由于对第一特征图进行了上采样，使其在卷积后变换到原始的尺度，之后得到的第二特征也是相同的尺度，可避免由于特征尺度不同而导致的额外的计算，简化后续的计算和处理流程。

第二个处理流程为：将训练样本输入transformer模块，所述训练样本由图像块序列表示，即每个训练样本为图像块序列，transformer模块包括输入层和transformer层，所述输入层为位置编码层，图像块中包含位置向量，所述位置向量可通过位置编码表示，利用所述位置编码层对图像块进行位置编码，得到位置向量序列，之后将所述位置向量序列嵌入至图像块序列中，得到嵌有位置向量信息的图像块序列，表示如下：

式中，E表示一个可学习的嵌入矩阵，用于将图像块投影成一个m×t维的嵌入表示，E_pos用于表示各图像块在训练样本图像中的空间位置并被编码到嵌入表示中。本实施例中采用如下形式进行位置编码：

上式中，p为图像块在对应的图像块序列中的位置，d_model为位置编码信息的向量长度，其与第二特征的向量长度相同，即维度相同，f表示图像块在训练样本中的位置。上式会在每个图像块的偶数位置添加sin变量，奇数位置添加cos变量，以此来产生与第二特征维度相同的空间位置向量，之后将空间位置向量按照式(5)嵌入至图像块序列中，式(5)的结果即transformer层的输入。

transformer层包括4个编码器，编码器包括多头注意力层、多层感知器，将嵌有位置向量信息的图像块序列输入至transformer层，对其进行编码，输出得到所述第三特征。在对transformer层训练时，即训练位于transformer层中的三个矩阵Z^Q、Z^K、Z^V，这三个矩阵分别与输入的序列相乘得到查询矩阵、键矩阵和值矩阵。自注意力机制如下：

式中，Q、K、V分别为查询矩阵、键矩阵和值矩阵，d_k是输入的维度，softmax()表示softmax函数。本实施例中采用多头注意力机制，可提高transformer层的性能，即使用多个Z^Q、Z^K、Z^V矩阵生成多个查询矩阵、键矩阵和值矩阵，再根据式(7)输出多个特征值，然后将多个特征值进行拼接再乘以一个矩阵参数输出一个特征，多层感知器是一种前向结构的人工神经网络，包含两层线性连接层和一层激活函数，所述激活函数为sigmoid函数、tanh函数和relu函数中的一种，本实施例中采用relu激活函数，可以被看做是一个有向图，由多个节点层所组成，每一层都全连接到下一层，将多头注意力层输出的特征输入到多层感知器中即得到一个编码器的输出特征，将上述步骤重复三次，第一个编码器的输出特征即第二个编码器的输入，最后一个编码器的输出特征即第三特征在上述处理流程中，在计算时，多头注意力机制能够扩大感受野面积，提升模型的性能，且该步骤能够并行计算，有效减少了计算量，另外，多头注意力机制对特征表示进行注意力加权，得到的第三特征能描述更丰富的语义信息。

在得到第二特征和第三特征后，对两种特征进行融合，得到融合特征，融合公式如下：

W＝concat(B′，X′) (8)

W为融合特征，B′为第二特征，X′为第三特征，concat()表示将两种特征合并。将融合后的特征输入分类层，得到分类结果。融合特征能够更加全面和更具代表性，对于易混淆的图像也有较高的分类准确率。所述分类层可以是SVM分类器或其它分类器，训练时，以分类精确率、召回率和F1分数来评估分类的结果，根据评估的结果调整场景分类模型的参数。

将场景分类模型训练好后，即可对待分类遥感图像进行场景分类。

Claims

1.一种基于图卷积网络的遥感图像场景分类方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，步骤S13包括：

3.根据权利要求2所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，所述对第一特征图进行上采样的方法为：

4.根据权利要求2所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，所述第二特征包含所述空间拓扑结构的表示。

5.根据权利要求1所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，所述图像块为互相不重叠的图像区域。

6.根据权利要求1所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，步骤S15包括：

7.根据权利要求6所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，所述多层感知器包含激活函数。

8.根据权利要求7所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，所述第三特征为最后一个编码器的输出特征。

9.根据权利要求7所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，所述激活函数为sigmoid函数、tanh函数和relu函数中的一种。

10.根据权利要求1所述的基于图卷积网络的遥感图像场景分类方法，其特征在于，所述第二特征与所述第三特征的特征尺度相同。