CN111461067A

CN111461067A - 基于先验知识映射及修正的零样本遥感影像场景识别方法

Info

Publication number: CN111461067A
Application number: CN202010338879.6A
Authority: CN
Inventors: 李彦胜; 孔德宇; 张永军; 季铮; 肖锐
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-07-28
Anticipated expiration: 2040-04-26
Also published as: CN111461067B

Abstract

本发明提出了一种基于先验知识映射及修正的零样本遥感影像场景识别方法。基于带类别标签的可见类遥感影像场景样本和可见类类别的先验知识表示向量集合，通过遥感场景类别学习和视觉特征向量与先验知识表示向量之间的跨模态学习，学习得到深度特征提取器和鲁棒的视觉特征到先验知识表示特征的映射模型。基于全体类别的类别先验知识表示向量和不可见类的遥感影像场景样本，分别通过无监督协同表示学习和无监督k近邻算法来渐进修正不可见类类别的先验知识表示向量，从而有效提高零样本遥感影像场景的分类精度。

Description

基于先验知识映射及修正的零样本遥感影像场景识别方法

技术领域

本发明属于遥感和摄影测量技术领域，涉及一种零样本遥感影像场景分类方法，尤其是涉及一种基于先验知识映射及修正的零样本遥感影像场景识别方法。

背景技术

进入21世纪之后，遥感技术发展越发迅猛，在土地资源调查、生态环境监测、灾害分析和预测等方面发挥着重要的作用。随着遥感影像分辨率的提高，基于像素和对象的分类方法广泛受到高分辨率遥感影像“同物异谱、同谱异物”现象的影响，无法满足高效稳定遥感影像解译的需求。基于这一考虑，遥感影像场景分类受到国内外研究学者的广泛关注。遥感影像场景分类旨在通过挖掘遥感影像场景(影像块)内的视觉基元及视觉基元间的空间关系来预测影像块的语义类别，可以极大程度上降低像素级或对象级地物解译的混淆度，从而提高高分辨率遥感影像解译的稳定性及准确度，在基于内容的遥感影像检索和遥感影像目标检测等方面都有重要应用。

随着遥感影像场景数据集的不断开放，多领域研究人员提出了大量基于人工特征或深度学习的遥感影像场景分类方法。但是已有遥感影像场景分类方法大都依赖全部类别的遥感影像样本来学习分类模型。随着遥感大数据时代的来临，遥感地物类别呈现***式增长趋势，因此为所有类别都搜集充足的遥感影像样本是不现实的。如何将遥感领域的先验知识引入遥感影像场景理解过程，仅通过学习含有遥感影像的部分类别，就可以识别在训练阶段从未出现类别的遥感影像场景，在遥感大数据时代具有重要现实意义。因此，近年来零样本学习(Zero-shot learning)的发展为遥感影像场景分类提供了新的思路。零样本学习旨在模拟人类学习的过程，通过可见类(seen)样本学习，以类别先验知识(例如类别的属性向量，类别的自然语言语义向量)的辅助来推理识别不可见类(unseen)中的样本。目前，零样本学习主要集中于计算机视觉领域，其在遥感影像场景分类中的研究还很少，需要大量研究工作来推进零样本遥感影像场景分类技术的发展。

发明内容

本发明立足于底层遥感影像场景样本与高层先验知识表示之间的模态跨度大、可见类类别先验知识空间与不可见类类别先验知识空间的漂移问题、遥感影像场景映射产生的不可见类先验知识表示空间与基于可见类类别先验知识空间修正后不可见类语义空间的偏移问题，提出了一种基于先验知识映射及修正的零样本遥感影像场景识别方法。基于带类别标签的可见类遥感影像场景样本和可见类类别的先验知识表示向量集合，通过遥感场景类别学习和视觉特征向量与先验知识表示向量之间的跨模态学习，学习得到深度特征提取器和鲁棒的视觉特征到先验知识表示特征的映射模型。基于全体类别的类别先验知识表示向量和不可见类的遥感影像场景样本，分别通过无监督协同表示学习和无监督k近邻算法来渐进修正不可见类类别的先验知识表示向量，从而有效提高零样本遥感影像场景的分类精度。

本发明所采用的技术方案是：一种基于先验知识映射及修正的零样本遥感影像场景识别方法，包括以下步骤：

训练阶段：

步骤1：基于公开自然语言语料库或领域专家知识，创建可见类每个类别对应的先验知识表示向量

不可见类每个类别对应的先验知识表示向量

其中p和q分别表示可见类和不可见类的类别数，d^s为先验知识表示向量的维数；

步骤2：输入原始遥感影像场景数据集D＝{(x_i，y_i)：i＝1，...，M}，

其中D为可见类数据集，x_i表示可见类中的第i张遥感影像场景，y_i表示可见类中第i张影像的类别标签，M为可见类遥感数据的样本总数；D^U为不可见类数据集，

表示不可见类中的第k张遥感影像场景，

表示不可见类中第k张影像的类别标签，N为不可见类数据的样本总数；

利用深度卷积网络提取可见类数据集的图像特征F和不可见类数据集的图像特征F^U；

步骤3：基于视觉特征自编码约束的鲁棒跨模态映射目标函数，求出F到S的映射矩阵W，至此，完成深度跨模态映射的学习；

步骤4：基于无监督协同表示学习，修正S^U，得到

步骤5：用步骤3中的映射矩阵W将F^U映射到

步骤6：利用k近邻算法求

在经过映射得到的语义向量

中的近邻向量并求其均值，得到

测试阶段：

步骤7：给定一张不可见类的测试遥感影像场景，按照步骤2-步骤5，提取视觉特征并映射得到语义向量

步骤8：计算

与

之间的余弦相似度，得到测试遥感影像场景的标签。

进一步的，步骤2中令T表示深度卷积网络的卷积层超参数，V为最后一个全连接层特征与分类层的映射超参数；通过微调深度卷积网络学习卷积层超参数T和全连接层映射超参数V，利用卷积层超参数T，提取可见类数据集的图像特征

微调深度网络过程仅使用可见类数据；其中，f_i＝Q(x_i；T)，Q(.；.)表示深度卷积网络的非线性映射，基于遥感影像场景数据集的深度卷积网络优化损失函数如式壹，其中，c_i＝σ(f_i*V),σ(.)表示Softmax映射，

其中，M为可见类遥感数据的样本总数，p表示可见类的类别数。

进一步的，步骤3中的映射矩阵W通过自编码器得到，目标函数如下：

其中，α是自编码的正则化系数，

表示F范数，s表示与f_i对应的先验知识语义向量，式贰化简为Sylvester方程，利用Bartels-Stewart算法求解出W。

进一步的，步骤4中无监督协同表示学习中的协同表示系数ρ的目标函数为：

其中，β为正则化常数，上式的闭式解为：

其中，I为判别矩阵，利用式肆求得的最优协同表示系数

与S作矩阵运算，得到重建后的不可见类语义向量

进一步的，步骤5中的

按下式计算：

进一步的，步骤6中的

按下式计算：

其中，

表示

中第k类不可见类先验知识表示向量在

中寻找的m个近邻先验知识表示向量,k＝1…q，o＝1…m。

进一步的，步骤8中不可见类测试遥感影像场景的标签按照下式计算：

具体的，给定一副测试遥感影像场景

遥感场景图像的视觉特征

进一步用矩阵W将其映射为语义向量

计算

与

之间的余弦相似性，其中，

是场景图像

的预测标签，d(·)是余弦距离方程。

本发明具有如下优点：本发明着眼于遥感场景零样本分类任务中先验知识的映射学习和基准修正问题。基于可见类的类别先验知识表示向量和遥感影像场景样本，联合场景类别分类和自编码跨模态映射的多任务学习来实现遥感影像场景的视觉空间到类别先验知识表示空间的深度跨模态映射。针对可见类先验知识表示空间与不可见类先验知识表示空间的偏移问题和自编码跨模态映射模型映射后不可见类先验知识表示空间与协同表示后不可见类先验知识表示空间的偏移问题，本发明基于全体类别的类别先验知识表示向量和不可见类遥感影像样本，分别通过无监督协同表示学习和无监督k近邻算法来修正不可见类类别的先验知识表示向量，实现稳定的不可见类遥感影像场景识别任务。

附图说明

图1：为本发明实施例的总体流程图；

图2：为本发明实施例的数据集所含样本示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

见图1，本发明提供的一种基于先验知识映射及修正的零样本遥感影像场景识别方法，包括以下步骤：

不可见类每个类别对应的先验知识表示向量

其中p和q分别表示可见类和不可见类的类别数，d^s为语义向量维数。

令T表示深度卷积网络Resnet-50的卷积层超参数，V为最后一个全连接层特征f与分类层y的映射超参数。通过微调深度卷积网络学习卷积层超参数T和全连接层映射超参数V。基于遥感影像场景数据集的网络优化损失函数如式壹，其中，c_i＝σ(f_i*V),σ(.)表示Softmax映射，f_i＝Q(x_i；T)，Q(.；.)表示深度卷积网络的非线性映射。

通过微调深度卷积网络学习卷积层超参数T和全连接层映射超参数V。利用参数T，提取可见类数据集的图像特征

提取可见类数据集的图像特征

D为可见类数据集，x_i表示可见类中的第i张遥感影像场景，y_i表示可见类中第i张影像的类别标签，M为可见类遥感数据的样本总数；D^U为不可见类数据集，

表示不可见类中的第i张遥感影像场景，

表示不可见类中第i张影像的类别标签，N为不可见类数据的样本总数；

微调深度网络过程仅使用可见类遥感影像场景样本。

步骤3：求出F到S的映射矩阵W。映射矩阵W通过自编码器得到，目标函数如下：

其中，α是自编码的正则化系数，通过实验分析其最佳取值为0.001。

表示F范数，s表示与f_i对应的先验知识语义向量，式壹可以化简为Sylvester方程，利用Bartels-Stewart算法求解出W。

步骤4：利用协同表示修正S^U，得到

协同表示系数ρ的目标函数为：

其中，β为正则化常数。上式的闭式解为：

其中，I为判别矩阵。利用式叁求得的最优协同表示系数

与S作矩阵运算即可以得到重建后的不可见类语义向量

步骤5：用步骤3中的映射矩阵W将F^U映射到

按下式计算：

步骤6：利用k近邻算法求

在经过映射得到的先验知识表示向量

中的近邻向量并求其均值，得到

其中

按下式计算：

表示

中第j类不可见类先验知识表示向量在

中寻找的m个近邻先验知识表示向量。

步骤7：给定一张不可见类的影像，提取视觉特征并映射得到先验知识表示向量

步骤8：计算

与

之间的余弦相似度，预测测试影像的标签。不可见类测试图像的标签可按照下式计算：

具体的，给定一副测试遥感场景图像

遥感场景图像的视觉特征

进一步用矩阵W将其映射为先验知识表示向量

计算

与

之间的余弦相似性，其中，

是场景图像

的预测标签，d(·)是余弦距离方程。

为了验证本发明公开技术的有效性，我们整合多个已有公开的遥感影像场景数据集，组建了一个具有更多场景类别的遥感影像场景数据集。基于自然语言模型Word2vec和Bert，我们为新组建遥感场景数据集的每个类别创建了两种类型的类别先验知识表示向量。基于两种不同的类别先验知识表示方法，实验结果表明本发明公开的算法在多种不同的可见类与不可见类的划分情况下都可以获得理想的分类精度。

该描述方法已经在通过整合公开数据集获得的新数据集上进行了评估测试，可以反映该方法的有效性。具体的，公开评估数据集如图2所示，该数据集包含70类场景类别，每类包含800张影像。表1给出了可见类和不可见类在不同划分方式下，使用Word2vec和Bert两种先验知识表示向量测试的结果。

表1.可见类与不可见类以不同比例划分在Word2vec和Bert两种先验知识表示向量下方法在测试数据集上的总体精确度

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。