CN116052018A

CN116052018A - 基于终身学习的遥感影像解译方法

Info

Publication number: CN116052018A
Application number: CN202310331512.5A
Authority: CN
Inventors: 张广益; 陈宇; 鲁***; 吴皓; 张玥珺; 李洁; 邹圣兵
Original assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Current assignee: Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-05-02
Anticipated expiration: 2043-03-31
Also published as: CN116052018B

Abstract

本发明公开了一种基于终身学习的遥感影像解译方法，涉及遥感影像处理领域，包括：S1 构建组合模型；S2 获取训练样本对组合模型进行预训练，得到第一场景分类结果；S3 获取待解译遥感影像，并进行均匀裁剪；S4 将裁剪后的待解译遥感影像依次输入组合模型，得到第二场景分类结果和解译信息；S5 计算得到场景差异值；S6 计算得到解译损失值；S7 基于场景差异值和解译损失值设置选择策略，根据选择策略对动态可扩展解译子模型进行重训练、扩展的选择，得到最终的组合模型；S8 通过最终的组合模型对新解译遥感影像进行解译。本发明实现了基于动态可扩展网络的面向遥感解译的终身学习，避免了终身学习中常见的灾难性遗忘问题。

Description

基于终身学习的遥感影像解译方法

技术领域

本发明涉及遥感影像处理领域，具体涉及一种基于终身学习的遥感影像解译方法。

背景技术

进入21世纪以来，我们通过卫星、无人机、数码相机、成像光谱仪与航天飞机等多种设备，多角度对高分辨率遥感影像进行采集，并将其应用在不同的领域中。如何快速有效的处理大量的遥感影像数据是遥感领域迫切需要解决的问题。显然，人工处理遥感影像，虽然精度高，但效率低下，且需要大量的成本去投入，这种方法是不可取的。传统遥感影像方法利用物体几何形状和空间位置等信息进行目标的特征提取，也可以通过颜色、阴影、纹理等特征信息，结合LiDAR或SAR对三维数据提取有效特征。采用以上单一的方法进行特征提取存在着一定的不足之处，比如分类效果不够明显、分类错误较多等问题，无法在可辩别性和鲁棒性之间保持一个良好的平衡点。然而，日益成熟的机器学习技术可以应用在我们生活中的多个领域，尤其是深度学习方式对网络进行训练，最终让模型对未知样本能够准确预测。遥感技术提供的大量且可靠数据，为深度学习模型发展奠定基础。而深度学习可以应用在遥感影像的分类、语义分割和检测等领域，为遥感技术更好的发展起到一定的推动作用。

目前应用于遥感影像解译的深度学习方法都面临着一个常见的问题，即面对不同的解译任务时，为了达到较高的解译精度需要构建全新的深度学习模型并进行全新的训练，这导致了工程实施上庞大的工程量和低下的模型训练效率、对于现有遥感影像数据和已构建模型的极低的有效利用率和复用率，限制了大规模的工程实施。为了解决这一问题并推动遥感影像解译的自动化发展，研究者尝试使用在线学习和持续学习的方法来对现有的模型和已经学习到的知识在新的遥感解译任务中进行复用。现有的多种持续学习方法中，最简单的方法是通过新任务提供的新训练数据来训练原网络从并实现网络微调。然而，这种简单的重训练方法会同时降低原网络对于新任务和旧任务的解译效果。如果新任务与旧任务之间的相关性很低，例如两个任务是对两种不同种类的地物，如小麦和建筑物进行分类，这时网络从旧任务学习到的特征就可能对于新任务起不到任何作用。另一个会遇到的问题是灾难性遗忘问题，原网络在学习到了新的知识后会遗忘掉之前学习到的内容，这是由以下两点所导致的：（1）因为深度学习的结构一旦确定，在训练过程中很难调整，神经网络的结构直接决定学习模型的容量。固定结构的神经网络意味着模型的容量也是有限的，在容量有限的情况下，神经网络为了学习一个新的任务，就必须擦除旧有的知识；（2）其次，深度学习的隐含层的神经元是全局的，单个神经元的细小变化能够同时影响整个网络的输出结果。另外，所有前馈网络的参数与输入的每个维度都相连，新数据很大可能改变网络中所有的参数。对于本身结构就已经固定的神经网络，参数是关于知识的唯一变化量。如果变化的参数中包含与历史知识相关性很大的参数，那么最终的效果就是，新知识覆盖了旧的知识。

对于遥感领域，如何保证在新的解译任务上取得较好的效果的同时能不降低模型在旧解译任务上原有的能力，以及如何克服灾难性遗忘问题是当前遥感终身学习技术发展中需要解决的重要问题。

发明内容

本发明提出一种基于终身学习的遥感影像解译方法，该方法通过结合遥感影像场景分类模型和动态可扩展遥感影像解译模型的组合模型实现了适应于遥感影像解译的终身学习方法。通过遥感影像场景分类来识别已知的和未知的任务，并进一步通过对解译网络的扩展和重训练来实现面对新的未知任务时模型容量的扩充以及对未知任务的学习，进而实现知识持续不断地更新。将学习到的知识充分运用于新的遥感解译任务，在不降低解译精度的同时有效避免了灾难性遗忘问题，提高了对现有模型和数据的利用率。

为实现上述技术目的，本发明的技术方案如下：

一种基于终身学习的遥感影像解译方法，该方法包括以下步骤：

S1 构建组合模型，组合模型包括动态可扩展解译子模型和场景分类子模型，场景分类子模型包括场景分类器和存储器；

S2 在样本库中获取训练样本，将裁剪后的训练样本对组合模型进行预训练，将得到的预训练结果作为第一场景分类结果并存储于存储器中；

S3 获取多幅待解译遥感影像，对待解译遥感影像进行均匀裁剪，每幅待解译遥感影像上包含已标注地物样本和未标注目标解译样本，其中，已标注地物样本包含真实标签；

S4 将裁剪后的待解译遥感影像依次输入组合模型，得到第二场景分类结果和解译信息，其中，解译信息包括已标注地物样本的解译信息和未标注目标解译样本的解译信息；

S5 将第二场景分类结果与第一场景分类结果进行计算，得到场景差异值；

S6 将已标注地物样本的解译信息与已标注地物样本的真实标签进行计算，得到解译损失值；

S7 基于场景差异值和解译损失值设置选择策略，根据选择策略对动态可扩展解译子模型进行重训练、扩展的选择，得到最终的组合模型；

S8 通过最终的组合模型对新遥感影像进行解译。

于本发明一实施例中，步骤S7中，选择策略为：

第一种：当场景差异值小于第一预设阈值，且解译损失值小于第二预设阈值时，保持动态可扩展解译子模型的当前结构，并得到最终的组合模型；

第二种：当场景差异值小于第一预设阈值，且解译损失值大于第二预设阈值时，重训练动态可扩展解译子模型，对组合模型进行更新，并转至步骤S4；

第三种：当场景差异值大于第一预设阈值，且解译损失值小于第二预设阈值时，重训练动态可扩展解译子模型，对组合模型进行更新，并转至步骤S4；

第四种：当场景差异值大于第一预设阈值，且解译损失值大于第二预设阈值时，扩展动态可扩展解译子模型，以对组合模型进行更新，并转至步骤S4。

于本发明一实施例中，动态可扩展解译子模型包括卷积神经网络和扩展器，其中卷积神经网络用于完成解译任务，扩展器用于对卷积神经网络进行扩展。

于本发明一实施例中，扩展动态可扩展解译子模型包括增加卷积神经网络的神经元，并对增加的神经元进行训练；

重训练动态可扩展解译子模型包括选择性对部分网络参数进行调整。

于本发明一实施例中，扩展动态可扩展解译子模型包括：

对每层神经网络增加预设数量的神经元；

使用组稀疏正则化去除新增的无效神经元；

对最终增加的神经元进行训练：

其中，l表示神经网络的第l层，D_t为解译数据，W为神经网络权重，L为损失函数，μ和γ为正则项参数，t为当前任务，t-1为前一次任务，g为由每个神经元的输入权值定义的一个组。

于本发明一实施例中，重训练动态可扩展解译子模型包括：

当接收到新任务t时，将一个稀疏的线性分类器安装到动态可扩展解译子模型的最后一层：

其中，l表示卷积神经网络的第l层，为第l层的网络参数，μ是正则化强度，N为网络的总层数，表示除了之外的其他网络参数；

根据建立的稀疏连接识别出与当前新任务t相关的子网络S，并对子网络S进行重训练：

。

于本发明一实施例中，步骤S5中，对第二场景分类结果与第一场景分类结果进行计算的方法为距离计算。

于本发明一实施例中，距离计算的过程为：

；

c表示第一场景分类结果，其中p(y=i|x=j)为输入的裁剪后的训练样本j属于类别i的预测概率，M为场景类别的总数量，N为训练样本被裁切后的数量；

待解译遥感影像被均匀裁剪为r块，c_t表示第二场景分类结果，

D=[d₁,d₂,...,d_r]表示第二场景分类结果与第一场景分类结果进行距离计算得到的最近距离，其中；

将D以数值降序排序，选取前K个数值，将这K个数值的中值作为场景差异值。

于本发明一实施例中，初始的动态可扩展解译子模型中卷积神经网络的结构包括：

第一层：卷积层1，输入为229×229×3的裁剪后的图像；卷积核的数量为96；卷积核的大小为13×13×3；步长为4；

第二层：池化层1，池化尺寸为3×3；步长为2；

第三层：卷积层2，输入为第二层的输出，卷积核个数为256，卷积核大小为5×5；步长为1；

第四层：池化层2，池化尺寸为3×3；步长为2；

第五层：卷积层3，输入为第四层的输出，卷积核个数为384，卷积核大小为3×3；

第六层：卷积层4，输入为第五层的输出，卷积核个数为384，卷积核大小为3×3；

第七层：卷积层5，输入为第六层的输出，卷积核个数为256，卷积核大小为3×3；

第八层：池化层3，池化尺寸为3×3；步长为2；

第九至十一层为全连接层，神经元个数分别为384、192、100。

于本发明一实施例中，场景分类器为残差网络ResNet-50。

本发明的有益效果为：通过结合场景分类子模型和动态可扩展解译子模型的组合模型实现了适应于遥感影像解译的终身学习方法。通过遥感影像场景分类来识别已知的和未知的任务，并进一步通过对解译网络的扩展和重训练来实现面对新的未知任务时模型容量的扩充以及对未知任务的学习，进而实现知识持续不断地更新。将学习到的知识充分运用于新的遥感解译任务，在不降低解译精度的同时有效避免了灾难性遗忘问题，提高了对现有模型和遥感影像数据的利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于终身学习的遥感影像解译方法流程示意图；

图2为组合模型对多幅待解译遥感影像解译示意图；

图3为对动态可扩展解译子模型进行重训练的示意图；

图4为对动态可扩展解译子模型进行扩展的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1是本发明所述的一种基于终身学习的遥感影像解译方法实施例的流程示意图，包括以下步骤：

S8 通过最终的组合模型对新遥感影像进行解译。

本发明的技术思路为：

1）动态可扩展解译子模型中的卷积神经网络的结构直接决定学习模型的容量，固定结构的卷积神经网络意味着模型的容量也是有限的，在容量有限的情况下，卷积神经网络为了学习一个新的任务，就必须擦除旧有的知识。本发明通过构建终身学习动态可扩展解译子模型，来实现卷积神经网络结构的动态化变化，能够根据需求对卷积神经网络的容量进行扩充，在学习新知识的时候能够保留旧有的知识。

2）为了避免灾难性遗忘，本发明在接收新任务时采用选择性重训练而不是传统的重训练。选择性重训练选择部分神经网络结构进行重训练，该部分神经网络结构与当前的待解译遥感影像直接相关，从而避免影响到与待解译遥感影像无关的神经节点；

3）在终身学习的过程中，新的待解译遥感影像与训练样本的相关性是不确定的，相关性低的时候需要使用重训练的方式来学习新的知识，但是在遇到相关性很高的任务时，现有模型能够直接胜任该任务，因而没有重训练的必要性。为了实现自动化的终身学习，本发明在对卷积神经网络进行扩展和重训练之前，先通过场景分类器获得待解译遥感影像的第二场景分类结果，并通过与存储器中存储的第一场景结果进行比较，确认待解译遥感影像的场景是否是新场景。在面对新场景时需要对模型进行重训练，而面对已知的场景时则不需要，从而有效地利用了遥感影像解译场景来避免不必要的训练和模型结构的调整。

本实施例中使用的训练样本和待解译遥感影像均为高分二号（GF-2）卫星获得的空间分辨率为4米的遥感影像，对遥感影像进行均匀裁剪，经过裁剪后得到的图像尺寸为229×229×3。

具体地，本发明的动态可扩展解译子模型包括卷积神经网络和扩展器，其中卷积神经网络用于完成解译任务，扩展器用于对卷积神经网络进行扩展。

本实施例整个组合模型的示意图如图2所示，通过结合基于ResNet-50的场景分类子模型和基于AlexNet的动态可扩展解译子模型，实现本发明的遥感解译终身学习的功能。

具体地，本实施例中使用改进的AlexNet作为动态可扩展解译子模型中的卷积神经网络，AlexNet分为上下两部分，分别利用两块GPU来提高运算效率，其有11层深度神经网络，其中包括5层卷积层、3层池化层和3层全连接层，不计激活层。

具体地，在初始的组合模型中，改进的AlexNet网络结构如下：

第二层：池化层1，池化尺寸为3×3；步长为2；

第四层：池化层2，池化尺寸为3×3；步长为2；

第八层：池化层3，池化尺寸为3×3；步长为2；

第九至十一层为全连接层，神经元个数分别为384、192、100。

在利用改进的AlexNet网络结构对待解译遥感影像进行解译后，得到的解译信息包括已标注地物样本的解译信息和未标注目标解译样本的解译信息。将已标注地物样本的解译信息与已标注地物样本的真实标签进行计算，得到解译损失值。本实施例中，已标注地物样本的解译信息即已标注地物样本的解译标签，解译损失值即已标注地物样本的解译标签与真实标签的相似度。具体计算标签相似度的方法可以是余弦相似度。

本发明引入场景分类子模型的目的是为了判断待解译遥感影像的场景是否与已学习的任务场景相关。若高度相关则认为动态可扩展解译子模型已经能够胜任该类型任务，无需对该模型中的卷积神经网络进行重训练，可直接对当前任务进行解译；否则则需要对其卷积神经网络进行重新训练及扩展。

,本实施例中使用残差网络ResNet-50构建场景分类子模型中的场景分类器。在残差网络中，其通过在低层网络和高层网络之间建立跨越连接来保证低层网络向高层网络的信息流通和避免梯度弥散导致的深度网络训练收敛困难问题，含有跨越连接的ResNetBlock构成了残差网络的基本逻辑单元。残差网络通过堆叠多个ResNet Block构建深度网络。ResNet-50通过逐层特征提取得到对应的特征向量，并将特征输入到场景分类器SoftMax进行深度特征分类，得到场景类别概率分布。将训练样本的场景概率分布存储至存储器中。

对待解译遥感影像的第二场景分类结果与存储器中第一场景分类结果进行距离计算，得到场景差异值，具体方法包括，表示第一场景分类结果，

，

本实施例中，K可以是D中前30%的数值。

基于场景差异值和解译损失值设置选择策略，根据选择策略对动态可扩展解译子模型进行重训练、扩展的选择，得到最终的组合模型。

具体地，选择策略为：

其中，第一预设阈值和第二预设阈值可以根据实际情况进行设置。

具体地，扩展动态可扩展解译子模型包括增加卷积神经网络的神经元，并对增加的神经元进行训练；重训练动态可扩展解译子模型包括选择性对部分网络参数进行调整。

请参阅图3，本实施例中对AlexNet进行重训练的过程如下：

（1）对于初始的训练任务，使用正则化训练卷积神经网络来增加网络的稀疏性，使得每个神经元只与部分神经元相连接：

其中，l表示神经网络的第l层，为第l层的网络参数，μ是正则化强度，N为网络的总层数；

（2）在终身学习的过程中，通过保持的稀疏性并关注于新任务相关的子网络就能够大大地减少网络的计算量。当模型接收新任务t时，先将一个稀疏的线性分类器安装到模型的最后一层：

其中表示除了之外的其他网络参数。通过解决该优化问题来获得N-1层的输出单元与隐藏单元之间的联系。当这层的稀疏连接被建立后，就可以在不影响其他网络结构的前提下识别出所有在训练过程中受到影响的单元和权重；

（3）根据建立的稀疏连接识别出与当前新任务t相关的子网络S，并对子网络S进行重训练：

通过l₂正则化实现网络的部分重训练。这种选择性的对部分网络的重训练能够降低计算量并且避免负迁移。如图3的选择性重训练的示意图所示，图中实心节点为选择性训练的网络节点，t-1为前一次任务，t表示当前任务。

请参阅图4，对AlexNet进行扩展的方法为：先对每层神经网络增加k个的神经元，再使用组稀疏正则化去除新增的无效神经元，如图4的网络扩展的示意图所示，图中实心节点为最终增加的并进行训练的神经元，带叉的节点为去除的新增的无效神经元，t-1为前一次任务，t为当前任务：

其中，l表示神经网络的第l层，D_t为解译数据，W为神经网络权重，L为损失函数，μ和γ为正则项参数，g为由每个神经元的输入权值定义的一个组。

最后为了克服语义漂移和灾难性遗忘问题，通过l₂正则化：

使W^t与W^t-1接近。当λ很小时，神经网络尽量学习新任务，当λ很大时，则尽可能保留学到的知识。通过计算神经元在任务t与(t-1)的l₂距离，如果距离高于阈值，则认为该神经元特征的含义在训练过程中发生了显著变化，对应神经元进行复制和***。

通过上述方法实现的面向遥感影像解译的终身学习能够在面对新解译任务时，有效地学习到新任务中新类型的地物以及已知类型不同源地物的知识，并且不影响对旧有任务解译的效果，最大化保留所学知识。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于终身学习的遥感影像解译方法，其特征在于，包括如下步骤：

S8 通过最终的组合模型对新遥感影像进行解译。

2.根据权利要求1所述的基于终身学习的遥感影像解译方法，其特征在于，步骤S7中，选择策略为：

3.根据权利要求2所述的基于终身学习的遥感影像解译方法，其特征在于，动态可扩展解译子模型包括卷积神经网络和扩展器，其中卷积神经网络用于完成解译任务，扩展器用于对卷积神经网络进行扩展。

4.根据权利要求3所述的基于终身学习的遥感影像解译方法，其特征在于：

扩展动态可扩展解译子模型包括增加卷积神经网络的神经元，并对增加的神经元进行训练；

5.根据权利要求4所述的基于终身学习的遥感影像解译方法，其特征在于，扩展动态可扩展解译子模型包括：

对每层神经网络增加预设数量的神经元；

使用组稀疏正则化去除新增的无效神经元；

对最终增加的神经元进行训练：

其中，l表示神经网络的第l层，D_t为解译数据，W为神经网络权重，L为损失函数，μ和γ为正则项参数，t为当前任务，t-1为前一次任务，g为由每个神经元的输入权值定义的一个组，N为网络的总层数。

6.根据权利要求4所述的基于终身学习的遥感影像解译方法，其特征在于，重训练动态可扩展解译子模型包括：

。

7.根据权利要求1所述的基于终身学习的遥感影像解译方法，其特征在于，步骤S5中，对第二场景分类结果与第一场景分类结果进行计算的方法为距离计算。

8.根据权利要求7所述的基于终身学习的遥感影像解译方法，其特征在于，距离计算的过程为：

9.根据权利要求3所述的基于终身学习的遥感影像解译方法，其特征在于，初始的动态可扩展解译子模型中卷积神经网络的结构包括：

第二层：池化层1，池化尺寸为3×3；步长为2；

第四层：池化层2，池化尺寸为3×3；步长为2；

第八层：池化层3，池化尺寸为3×3；步长为2；

第九至十一层为全连接层，神经元个数分别为384、192、100。

10.根据权利要求1所述的基于终身学习的遥感影像解译方法，其特征在于，场景分类器为残差网络ResNet-50。