CN114299380A

CN114299380A - 对比一致性学习的遥感图像语义分割模型训练方法及装置

Info

Publication number: CN114299380A
Application number: CN202111356783.3A
Authority: CN
Inventors: 吕亮; 管春雨; 黄宁波; 王恩民; 任鑫; 朱俊杰; 祝金涛; 吴昊; 武青; 刁新忠; 张宇; 卢泽华; 曾谁飞; 王�华; 童彤; 赵鹏程; 杜静宇; 王有超; 潘赫男; 李冬
Original assignee: Huaneng Power International Jiangsu Energy Development Co Ltd; Huaneng Yancheng Dafeng New Energy Power Generation Co ltd; Huaneng Clean Energy Research Institute; Clean Energy Branch of Huaneng International Power Jiangsu Energy Development Co Ltd Clean Energy Branch
Current assignee: Huaneng Power International Jiangsu Energy Development Co Ltd; Huaneng Yancheng Dafeng New Energy Power Generation Co ltd; Huaneng Clean Energy Research Institute; Clean Energy Branch of Huaneng International Power Jiangsu Energy Development Co Ltd Clean Energy Branch
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-04-08

Abstract

本申请公开了一种对比一致性学习的遥感图像语义分割模型训练方法及装置，涉及遥感图像分割技术领域。具体实现方案为：构建包含学生网络和教师网络的遥感图像语义分割网络，所述遥感图像语义分割网络为UNet语义分割网络；根据遥感图像数据集对所述遥感图像语义分割网络进行训练；将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，并输出所述遥感图像的语义分割结果。本申请实施例通过学生网络和教师网络进行训练，以对遥感图像进行语义分割，获取各像素的类别。本申请实施例可以用少量的标记数据与大量的无标记数据半监督训练，就能达到用大量标记数据全监督训练的效果，减少对标签数据的需求，减少时间与人工成本。

Description

对比一致性学习的遥感图像语义分割模型训练方法及装置

技术领域

本申请涉及遥感图像分割技术领域，尤其涉及一种对比一致性学习的遥感图像语义分割模型训练方法及装置。

背景技术

图像分割的目的是将每个像素标记为一种类别，对于遥感图像，则将像素标记为一种地物类型，比如建筑、水体、道路、耕地、车辆等等。图像语义分割是从传统图像分割方法发展而来，传统图像分割方法(阈值法、k-Means聚类法、区域法、边缘检测法)只关心找到地物的边界轮廓，并不关心地物所属的类别，语义分割不仅要精确地找到地物的轮廓，还需准确地判断地物所属的类别，即给出其语义。得益于深度学习的快速发展与计算机存储与运算力的极大提升，使得基于深度卷积神经网络的语义分割方法成为高分辨率遥感影像分割新的利器。

基于深度卷积神经网络的语义分割可以认为是像素级的分类任务，需要对影像中的地物目标进行密集标注，标注难度更大，有其是对高分辨率遥感影像来说，语义分割数据集的标注需要大量的人工和时间，这给基于深度卷积神经网络的遥感影像语义分割带来极大的困难。

发明内容

本公开提供一种对比一致性学习的遥感图像语义分割模型训练方法及装置。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种对比一致性学习的遥感图像语义分割模型训练方法，包括：

构建包含学生网络和教师网络的遥感图像语义分割网络，所述遥感图像语义分割网络为UNet语义分割网络；

根据遥感图像数据集对所述遥感图像语义分割网络进行训练；

将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，并输出所述遥感图像的语义分割结果。

可选的，所述根据遥感图像数据集对所述遥感语义分割网络进行训练，包括：

获取所述遥感图像样本数据集，所述述遥感图像样本数据集中包含遥感图像；

对所述遥感图像中像素的地物类别进行标记，以生成对应的标签遥感图像；

对所述遥感图像样本数据集进行预处理，以划分得到训练集、验证集和测试集；

构建教师网络和学生网络，所述教师网络和学生网络均包括编码器和解码器；

将所述训练集的分为标记样本与无标记样本，并输入所述遥感图像语义分割网络中进行训练。

可选的，所述输入所述遥感图像语义分割网络中进行训练，包括：

确定训练所用的超参数与损失函数；

优化遥感图像语义分割网络的参数至所述验证集预测结果的语义分割精度达到预设精度阈值；

将所述测试集输入训练好的遥感图像语义分割网络验证网络分割准确性。

可选的，所述遥感图像语义分割网络的训练包括：

将训练集遥感图像分为标记样本与无标记样本，其中，所述标记样本包含遥感图像与对应的标签遥感图像，所述无标记样本包含遥感图像；

将标记样本输入所述学生网络，获取学生网络的标记样本预测结果和无标记样本预测结果，并根据标记样本的学生网络预测结果与标签数据计算监督损失；

将无标记样本输入所述教师网络，根据学生网络的无标记样本预测结果和教师网络的无标记样本预测结果计算一致性损失；

将无标记数据输入教师网络的编码器和学生网络的编码器，将提取的教师网络特征图输入教师网络映射器，将提取的学生网络特征图输入学生网络映射器，根据所述教师网络映射器和所述学生网络映射器的输出求对比损失；

根据所述监督损失、所述对比损失和所述一致性损失共同优化得到学生网络的参数，根据每轮训练得到的学生网络指数滑动平均得到教师网络的参数。

可选的，所述对所述遥感图像样本数据集进行预处理，包括：

将所述遥感图像样本数据集中的遥感图像随机采样为小图并进行多轮次批量训练，其中，每轮训练采样频率为500；

根据显存空间大小设置所述遥感图像的采样尺寸和训练批次数值，其中，输入图像默认尺寸为512×512，训练批次默认为10；

对所述遥感图像和所述标签遥感图像进行多轮随机采样，其中，每次采样得到512×512大小的有标记遥感图像与对应标签图，以及无标记图像；

对各轮采样的样本都进行随机次数和随机程度的数据增强，设置训练样本增强参数范围，其中，所述数据增强包括以下的至少一项：随机旋转n×90°(n＝0,1,2,3)；随机水平方向或垂直方向180°翻转；随机尺度缩放，所述尺寸缩放的倍数取值范围为[0.5,2]；随机亮度增强，所述亮度增强的倍数取值范围为[0.5,2]；随机对比度增强，所述对比度增强的倍数取值范围为[0.5,2]；随机饱和度增强，所述饱和度增强的倍数取值范围为[0.5,2]。

可选的，所述教师网络和学生网络均为包括编码器、解码器结构的UNet，所述教师网络还包括教师网络映射器，所述学生网络还包括学生网络映射器，所述映射器用于将高维特征图映射为低维特征向量。

可选的，所述超参数与损失函数在训练过程中学习率的变化策略包括：

其中，base_lr＝4.2e-6；热启动因子warmup_factor＝1.2；epoch为训练迭代次数；lr为学习率，lr随着时间增长逐渐上升；warm_epoch为热启动的迭代次数，warm_epoch设置为30；

进行热启动，当训练超过warm_epoch后，使用多项式学习率衰减策略，最大训练迭代次数max_lr设为1500，衰减指数pewer设置为0.9，最大学习率maxlr设置为1e-3；

计算监督损失所使用的损失函数为交叉熵损失函数，计算一致性损失所用的损失函数为均方误差损失函数，所述遥感图像语义分割网络的整体损失函数

为：

其中，

为所述学生网络的标记样本预测结果；y_i为所述标签数据，

为监督损失，e_T为教师网络的无标记样本预测结果，e_S为所述学生网络的无标记样本预测结果，p_T为教师网络映射器的输出结果，p_s为学生网络映射器的输出结果，

为噪声对比估计损失函数，

为一致性损失，λ(epoch)为

的权重函数；

所述噪声对比估计损失函数具体为：

为所述遥感图像通过所述学生网络编码器和所述学生网络映射器得到的特征向量；v⁺为所述遥感图像通过所述教师网络编码器和所述教师网络映射器得到的特征向量；v^-为其他遥感图像通过所述学生网络编码器和所述学生网络映射器得到的特征向量；τ为温度超参数，τ设置为0.07；

在第一训练阶段，所述整体损失函数由监督损失部分主导；

在第二训练阶段，所述整体损失函数由一致性损失主导，所述λ(epoch)具体为：

其中，num_epochs为训练迭代总次数；训练轮次阈值a设置为200，训练至第a轮前λ(epoch)逐渐上升，训练超过a轮后λ(epoch)稳定至其最大值w；num_epochs设置为1500，w设置为1。

可选的，所述映射器包括：两个1×1卷积层、Relu激活函数、1×1卷积层，其中，所述卷积层用于将高维嵌入向量映射为256维经过L₂正则化的特征向量。

可选的，所述根据每轮训练得到的学生网络指数滑动平均得到教师网络的参数所用公式为：

θ′_t=αθ′_t-1+(1-α)θ_t (5)

其中，θ′_t为训练迭代第t次时教师网络的参数；θ′_t-1为教师网络训练迭代第t-1次时的参数；θ_t为训练迭代第t次时学生网络的参数；α为权值，α设置为0.9。

根据本公开实施例的第二方面，提供一种对比一致性学习的遥感图像语义分割模型训练装置，包括：

构建模块，用于构建包含学生网络和教师网络的遥感图像语义分割网络，所述遥感图像语义分割网络为UNet语义分割网络；

训练模块，用于根据遥感图像数据集对所述遥感图像语义分割网络进行训练；

分割模块，用于将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，并输出所述遥感图像的语义分割结果。

根据本申请实施例的第三方面，提供一种对比一致性自训练遥感图像语义分割网络训练装置，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由对比一致性自训练遥感图像语义分割网络训练装置的处理器执行时，使得对比一致性自训练遥感图像语义分割网络训练装置能够执行如上述第一方面中任一项所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

对比一致性自训练的遥感图像语义分割方法，在训练中利用少量标注数据与大量无标注数据，通过对数据增强，并对教师网络解码器输出与学生网络解码器的输出求一致性损失，有效的防止模型过拟合，提升了模型的泛化能力。并根据教师网络编码器经过映射器的输出和学生网络编码器经过映射器的输出计算对比损失，能够进一步提升模型的性能。因此，本发明能够在标记数据不足的情况下，利用大量无标记数据训练出性能更佳的模型，减少对标记样本的需求，降低数据标注的人力成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练方法的流程图。

图2是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练方法的流程图。

图3是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练方法的流程图。

图4是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练***的框图。

图5是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练装置的框图。

图6是根据一示例性实施例示出的一种装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请的方法是在一致性学***均得到。

图1是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练方法的流程图。如图1所示，对比一致性学习的遥感图像语义分割模型训练方法用于遥感图像分割中，包括以下步骤：

步骤101，构建包含学生网络和教师网络的遥感图像语义分割网络，所述遥感图像语义分割网络为UNet语义分割网络；

本申请实施例中，构建遥感图像语义分割网络，所述遥感图像语义分割网络包括教师网络和学生网络，UNet由编码器和解码器两部分构成，前半部分编码器用于特征提取，后半部分解码器用于上采样，所述学生网络和教师网络均为UNet。所述学生网络用于更新所述教师网络中的超参数，以提高教师网络的优化速度和优化性能。

步骤102，根据遥感图像数据集对所述遥感图像语义分割网络进行训练；

本申请实施例中，构建所述遥感图像语义分割网络之后，根据收集到的遥感图像数据集对所述遥感图像语义分割网络进行训练。训练过程分为第一训练阶段和第二训练阶段，在第一训练阶段，所述整体损失函数由监督损失部分主导；在第二训练阶段，所述整体损失函数由一致性损失主导。

步骤103，将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，并输出所述遥感图像的语义分割结果。

本申请实施例中，在所述遥感图像语义分割网络训练完成后，即可将实时拍摄的遥感图像输入所述遥感图像语义分割网络，以获取所述遥感图像的语义分割结果。

本申请实施例通过训练包含学生网络和教师网络的遥感图像语义分割网络，以对遥感图像进行语义分割，通过学生网络和教师网络一起优化网络中的参数，增强了训练效果，提高了遥感图像语义分割网络的分割准确度。

图2是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练方法的流程图。如图2所示，对比一致性学习的遥感图像语义分割模型训练方法用于遥感图像分割中，包括以下步骤：

步骤201，获取遥感图像样本数据集，所述遥感图像样本数据集中包含遥感图像；

本申请实施例中，需要采集遥感图像作为样本数据来训练所述遥感图像语义分割模型，从数据库中获取历史遥感数据，以组成所述遥感图像样本数据集。

步骤202，对所述遥感图像中像素的地物类别进行标记，以生成对应的标签遥感图像；

本申请实施例中，所述遥感图像语义分割模型的任务是识别遥感图像中像素所属的地物类别并进行标记，一种可能的实施例中，所述地物类别包括：建筑、水体、道路、耕地、车辆。

步骤203，对所述遥感图像样本数据集进行预处理，以划分得到训练集、验证集和测试集；

本申请实施例中，为了提高训练的效率，减少人工标注地物类别的工作量，需要对所述遥感图像样本数据集中遥感图像进行预处理。将遥感图像采样为相同的尺寸、标注像素的地物类别、对采样得到的图像进行随机的数据增强等。并将所述遥感图像样本数据集划分为训练集、验证集和测试集。所述训练集用于训练所述遥感图像语义分割模型；所述验证集用于验证训练后的所述遥感图像语义分割模型是否能准确分割所述遥感图像；所述测试集用于测试训练后的所述遥感图像语义分割模型的分割准确率。

步骤204，构建教师网络和学生网络，所述教师网络和学生网络均包括编码器和解码器；

本申请实施例中，所述教师网络和所述学生网络的结构相同，都包括编码器和解码器，所述编码器用于进行上采样，提取遥感图像的高维特征以生成特征张量，所述解码器用于进行下采样，将所述特征张量进行降维，以生成分割结果，所述分割结果为所述遥感图像中各像素的地物类别和所述地物类别对应的概率。

步骤205，将所述训练集的分为标记样本与无标记样本，并输入所述遥感图像语义分割网络中进行训练。

将标记样本和无标记样本输入所述遥感图像语义分割网络中的学生网络进行训练，并将无标记样本输入所述遥感图像语义分割网络中的教师网络进行训练。

图3是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练方法的流程图。如图1所示，对比一致性学习的遥感图像语义分割模型训练方法用于遥感图像分割中，包括以下步骤：

步骤301，确定训练所用的超参数与损失函数。

本申请实施例中，所述遥感图像语义分割模型在开始训练过程之前设置值的参数，在训练过程中，需要不断对超参数进行优化，以提高分割遥感图像的性能和效果。损失函数用于计算分割结果和标记样本的差别大小，根据所述损失函数计算损失，以衡量遥感图像分割结果的精确度。

步骤302，优化遥感图像语义分割网络的参数至所述验证集预测结果的语义分割精度达到预设精度阈值。

本申请实施例中，需要将遥感图像语义分割网络优化到一定的精度，根据所述验证集验证所述遥感图像语义分割网络分割的精度，对比语义分割结果和标签遥感图像中标签匹配的像素比例，所述比例大于或等于所述预设精度阈值，说明训练已经很充分，可以停止训练。

步骤303，将所述测试集输入训练好的遥感图像语义分割网络验证网络分割准确性。

本申请实施例中，根据测试集来测试训练好的遥感图像语义分割网络，根据测试集的分割结果与测试集的标签对比，根据同一像素地物类别是否相同，以及相同的是像素占所有像素的比例计算训练过的遥感图像语义分割网络准确性。

在一种可能的实施方式中，所述遥感图像语义分割网络的训练包括：

本申请实施例中，将标记样本输入所述学生网络中，通过学生网络中的编码器进行上采样，再通过学生网络中的解码器进行下采样，输入遥感图像分割的结果，根据标记样本的学生网络预测结果与标签数据计算监督损失。所述监督损失函数为交叉熵损失函数。

本申请实施例中，将无标记样本输入所述教师网络中，通过教师网络中的编码器进行上采样，再通过教师网络中的解码器进行下采样，输入遥感图像分割的结果，根据标记样本的学生网络预测结果与教师网络的无标记样本预测结果计算一致性损失。所述一致性损失函数为均方误差损失函数。

本申请实施例中，所述对比损失函数为噪声对比估计损失NCE函数。

在一种可能的实施方式中，所述对所述遥感图像样本数据集进行预处理，包括：

本申请实施例通过数据增强后的遥感图像训练包含学生网络和教师网络的遥感图像语义分割网络，减少了人工标注的工作量，提高了训练效率，提高了遥感图像语义分割网络的分割准确度。

在一种可能的实施方式中，所述教师网络和学生网络均为包括编码器、解码器结构的UNet，所述教师网络还包括教师网络映射器，所述学生网络还包括学生网络映射器，所述映射器用于将高维特征图映射为低维特征向量。

在一种可能的实施方式中，所述超参数与损失函数在训练过程中学习率的变化策略包括：

为：

其中，

为所述学生网络的标记样本预测结果；y_i为所述标签数据，

为噪声对比估计损失函数，

为一致性损失，λ(epoch)为

的权重函数；

所述噪声对比估计损失函数具体为：

v为所述遥感图像通过所述学生网络编码器和所述学生网络映射器得到的特征向量；υ⁺为所述遥感图像通过所述教师网络编码器和所述教师网络映射器得到的特征向量；v^-为其他遥感图像通过所述学生网络编码器和所述学生网络映射器得到的特征向量；τ为温度超参数，τ设置为0.07；

在第一训练阶段，所述整体损失函数由监督损失部分主导；

在一种可能的实施方式中，所述映射器包括：两个1×1卷积层、Relu激活函数、1×1卷积层，其中，所述卷积层用于将高维嵌入向量映射为256维经过L2正则化的特征向量。

在一种可能的实施方式中，所述根据每轮训练得到的学生网络指数滑动平均得到教师网络的参数所用公式为：

θ′_t＝αθ′_t-1+(1-α)θ_t (5)

图4是根据一示例性实施例示出的一种对比一致性学***均得到教师网络的参数。不断更新教师网络的参数，以增强教师网络的分割精度。

图5是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练装置的框图。参照图5，该装置包括构建模块510，训练模块520和分割模块530。

该构建模块510被配置为构建包含学生网络和教师网络的遥感图像语义分割网络，所述遥感图像语义分割网络为UNet语义分割网络。

该训练模块520被配置为根据遥感图像数据集对所述遥感图像语义分割网络进行训练。

该分割模块530被配置为将实时拍摄的遥感图像输入训练完成的遥感图像语义分割网络，并输出所述遥感图像的语义分割结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种对比一致性学习的遥感图像语义分割模型训练装置600的框图。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器610，接口630，上述指令可由装置600的处理器620执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。