CN116503753A

CN116503753A - 一种基于多模态空域变换网络的遥感图像场景分类方法

Info

Publication number: CN116503753A
Application number: CN202310476470.4A
Authority: CN
Inventors: 宋铁成; 郑红宇; 谢林男; 马欣冉; 吴梦怡; 季薇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-07-28

Abstract

本发明属于遥感图像分类识别领域，具体涉及一种基于多模态空域变换网络的遥感图像场景分类方法，包括：利用预训练网络获得多层特征；将不同层级的特征进行循环式自适应空间变换，其结果与下一层特征相融合以输出判别性特征；通过GloVe模型与自注意力机制来提取类名的语义信息，将其用于加权循环空域变换模块的输出特征；建立图像、文本的分类损失以及相似度损失，实现整个网络的优化，通过优化后的网络进行分类识别。本发明通过将图像的多层特征与图像类别的语义信息融合的方式，有效利用多模态信息以及探索模态之间的内在相关性来实现有效的语义对齐。

Description

一种基于多模态空域变换网络的遥感图像场景分类方法

技术领域

本发明属于遥感图像分类识别领域，具体涉及一种基于多模态空域变换网络的遥感图像场景分类方法。

背景技术

多模态数据，即包含多种数据类型的数据，比如文本、图像、视频、音频等，目前已经在许多实际应用场景中得到了广泛的应用，如图像分类、自动驾驶以及显著性检测。多模态数据的研究具有广阔的发展前景，可以为人工智能应用提供更加丰富和准确的信息。结合多模态数据的内部信息可以有效融合互补特征，避免单一模态的某些信息被遗漏。但是，大部分基于多模态的研究工作仅仅是将不同传感器捕获的图像作为不同的模态，没有实现真正的跨模态，提取的特征仍然存在一定的局限性。

遥感图像场景分类主要是将输入图像映射到离散的标签中，但是网络从图像中提取到的特征是有限的，在训练过程中也完全忽略了与每幅图像相关的其它形式的信息。现有的大部分研究内容都是针对图像这种单一模态进行的，缺乏跨模态的相关工作。由于缺少不同模态间的互补信息，网络提取的特征对复杂场景的特征鉴别能力不足。数据的类型是多种多样的，从这些多模态数据中可以学习到其它形式的信息来帮助识别图像类别。目前在自然图像领域中已经有许多多模态框架被提出以探索不同模态间的潜在依赖关系，但由于遥感图像的多样性和复杂性，为自然图像提出的方法不能用来很好地建立遥感模态间的关系。因此如何有效利用多模态信息以及探索模态之间的内在相关性来实现有效的语义对齐仍然是一个难题。

发明内容

为解决上述技术问题，本发明提出一种基于多模态空域变换网络的遥感图像场景分类方法，包括以下步骤：

S1：获取含场景类别标签的遥感图像组成训练数据集；

S2：建立遥感图像分类模型；所述模型包括ResNet50预训练网络模块、循环空域变换模块、类名嵌入模块；

所述ResNet50预训练网络模块包括Conv-1、Res-2、Res-3、Res-4、Res-5、空洞空间金字塔池化层、全局平均池化层和Softmax层；

S3：将训练数据集中的遥感图像输入遥感图像分类模型进行模型训练；

S31：将遥感图像输入ResNet50预训练网络模块获取多层特征，多层特征经过空洞空间金字塔进行特征交互并通过全局平均池化输出整体特征f₁，特征f₁经过Softmax层得到图像的预测分类结果；

S32：循环空域变换模块将不同层级的特征进行循环式自适应空间变换；

S33：将图像的类别标签输入类名嵌入模块，通过GloVe模型与多头自注意力机制提取遥感图像类别的语义信息，并经过Softmax层得到文本的预测分类结果；

S34：将类名的语义信息与循环式自适应空间变换后特征进行逐像素加权融合，得到判别性特征f₂；

S35：根据图像、文本的预测分类结果分别建立图像、文本的分类损失，根据整体特征f₁和判别性特征f₂建立相似度损失；

S36：将图像、文本的分类损失以及相似度损失作为遥感图像分类模型最终的损失函数，当损失函数值最小时完成模型的训练；

S4：将待分类的遥感图像输入训练好的遥感图像分类模型进行分类，得到分类结果。

本发明的有益效果：

本发明通过将图像的多层特征与图像类别的语义信息融合的方式，有效利用多模态信息以及探索模态之间的内在相关性来实现有效的语义对齐；同时通过图像、文本的分类损失以及相似度损失联合优化得到的遥感图像分类模型能够实现遥感图像的分类。

附图说明

图1为本发明的一种基于多模态空域变换网络的遥感图像场景分类方法的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于多模态空域变换网络的遥感图像场景分类方法，如图1所示，包括：

S1：获取含场景类别标签的遥感图像组成训练数据集；

将遥感图像输入ResNet50预训练网络模块获取多层特征，包括：

将遥感图像输入Conv-1层进行图像增强，增强后的图像经过Res-2、Res-3、Res-4、Res-5进行逐层特征提取，得到多层特征。

将不同层级的特征进行循环式自适应空间变换，包括：

将ResNet50预训练网络中Res-2、Res-3、Res-4不同层级的特征进行循环式自适应空间变换：首先将特征图输入到定位网络中，产生变换参数θ，在定位网络中，依次通过5×5和3×3不同大小的卷积核来提取特征，然后利用1×1卷积来实现跨通道信息融合，通过MLP回归层得到最终的变换参数θ，通过网格生成器利用定位网络回归的变换参数θ对图像中的位置进行相应的空间变换，通过采样器利用双线性插值得到输出特征图。

所述相应的空间变换包括图像的缩放、旋转以及平移操作。

通过GloVe模型与多头自注意力机制提取遥感图像类别的语义信息，包括：

通过GloVe模型将K个场景类别的标签嵌入到一个m维向量空间R中，从而产生K个语义特征向量S₁,S₂,…,S_k，选取与输入图像类别标签相对应的类别标签的词向量S_i，将其切分为n段并进行复制扩展得到词向量X_i作为多头自注意力模型的输入进行多头自注意力机制操作，其中带缩放的点积注意力机制通过将查询向量Q、键向量K和值向量V进行点积运算得到注意力分数，将注意力分数进行归一化，对V进行加权求和来计算输出结果，然后得到类名的语义信息向量，并利用全连接层将类名的语义信息向量转换为指定的维度，最后采用Sigmoid激活函数进行处理，以获取类名的深层语义信息。

根据分类结果和图像类别信息分别建立图像、文本的分类损失，两者的分类损失的建立方式一致，通过分类结果计算分出的类别标签与真实的类别标签的概率，根据概率计算出分类损失函数。

所述样本分类标签属于真实标签的计算方式：

其中，表示第i个样本分类标签属于真实标签y_i的概率，/>z_i表示模型输出的图像类别和文本类别值，K表示样本类别标签数。

所述图像的分类损失，包括：

其中，L_img表示图像的分类损失，N表示样本数，表示经过预训练网络输出的第i个样本分类标签属于真实标签y_i的概率。

所述文本的分类损失，包括：

其中，L_txt表示文本的分类损失，N表示样本数，表示经过类名嵌入模块输出的第i个样本分类标签属于真实标签y_i的概率。

所述相似度损失，包括：

其中，L_sim表示相似度损失，f₁和f₂分别表示图像经过预训练网络得到的整体特征和融合类名的语义信息得到的判别性特征。

所述模型的损失函数，包括：

其中，L_img、L_txt分别表示图像、文本的分类损失，N表示样本数，和/>分别表示经过预训练网络和类名嵌入模块输出的第i个样本分类标签属于真实标签y_i的概率，L_sim表示相似度损失，f₁和f₂分别表示图像经过预训练网络得到的整体特征和融合类名的语义信息得到的判别性特征。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，包括：

S1：获取含场景类别标签的遥感图像组成训练数据集；

2.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，将遥感图像输入ResNet50预训练网络模块获取多层特征，包括：

3.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，将不同层级的特征进行循环式自适应空间变换，包括：

将ResNet50预训练网络中Res-2、Res-3、Res-4不同层级的特征进行循环式自适应空间变换：将特征图输入到定位网络中，产生变换参数θ，在定位网络中，依次通过5×5和3×3不同大小的卷积核来提取特征，并利用1×1卷积来实现跨通道信息融合，通过MLP回归层得到最终的变换参数θ，通过网格生成器利用定位网络最终的变换参数θ对图像中的位置进行相应的空间变换，通过采样器利用双线性插值得到输出特征图。

4.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，通过GloVe模型与多头自注意力机制提取遥感图像类别的语义信息，包括：

通过GloVe模型将K个场景类别的标签嵌入到一个m维向量空间R中，得到K个语义特征向量S₁,S₂,…,S_k，选取与输入图像类别标签相对应的类别标签的词向量S_i，将其切分为n段并进行复制扩展得到词向量X_i作为多头自注意力模型的输入进行多头自注意力机制操作，其中带缩放的点积注意力机制通过将查询向量Q、键向量K和值向量V进行点积运算得到注意力分数，将注意力分数进行归一化，对V进行加权求和来计算输出结果，得到类名的语义信息向量，并利用全连接层将类名的语义信息向量转换为指定的维度，最后采用Sigmoid激活函数进行处理，以获取类名的深层语义信息。

5.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述图像的分类损失，包括：

6.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述文本的分类损失，包括：

7.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述相似度损失，包括：

8.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述模型的损失函数，包括：