CN115035418A

CN115035418A - 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***

Info

Publication number: CN115035418A
Application number: CN202210677113.XA
Authority: CN
Inventors: 白根宝; 徐欣; 姚英彪; 杨阿锋; 刘晴; 姜显扬
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-09

Abstract

本发明公开了一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***，方法包括以下步骤：S1.获取遥感道路数据集并进行预处理，数据集中的数据分为训练数据、验证数据和测试数据；S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型；S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练；S4.将步骤S1得到的测试数据输入到步骤S3的改进DeepLabV3+语义分割网络模型，得到遥感道路图像语义分割结果。相较于基于传统的DeepLabV3+网络模型的方法，本发明采用了R‑Drop正则化方法，可以对训练中每个数据样本从dropout中随机抽取的两个子模型的输出进行正则化，本发明不仅可以降低网络模型参数的自由度，还可以缓解训练和推理阶段之间的不一致性，增强了泛化能力。

Description

一种基于改进DeepLabV3+网络的遥感图像语义分割方法及 ***

技术领域

本发明属于遥感图像分割技术领域，涉及一种遥感图像分割方法，具体涉及一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***。

背景技术

遥感图像分割算法指的是对遥感图像中的每个像素进行预测，是一种像素级别的分类算法，可被广泛应用于土地规划、环境监测和灾害评估等诸多应用场景，具有重大的应用价值。传统的图像分割方法主要是基于颜色、纹理等图像底层特征手工设计分类器对图像进行分割，然后对分割后的图像标注语义。如基于像素级的聚类分割法、利用像素级的阈值分割法、基于像素级的决策树分类法等，这些算法在一定程度上较好地实现了图像分割的需求，但是对手工设计的特征提取器要求较高，且对于数据集的泛化性能较差，难以大规模应用到背景复杂的通用场景中。

近年来随着计算机硬件的飞速发展，尤其是GPU计算能力的提升，大大推动了人工智能的进步，同时也为计算机视觉的发展提供了很大的动力。语义分割是计算机视觉中的基本任务，借助于GPU强大的计算能力，基于深度学习的图像分割方法可以对遥感图像进行快速的分割处理，准确提取出有用的信息，目前该方法已经成为遥感图像分割领域中主流的方法。语义分割架构通常有不同的形式，总体可以理解为一个编码器-解码器网络。其中编码器通常是一个预先训练的诸如ResNet等类型的分类网络来进行图像的特征提取，对于解码器来说，其作用主要体现在对可判别特征的映射方面，能够实现从语义到像素空间的映射，由此可以得到密集分类，而这也是语义分割需要实现的功能。

DeepLabV3+是一个在语义分割中具有较好性能的网络模型，其主要通过任意控制编码器来实现对特征分辨率的提取，同时还能够在效率和精度方面达到均衡，将MobileNetV2网络模型应用到语义分割中，在解码模块则使用了深度可分离卷积网络，采用这种方式增强了encode-decode的执行效率。DeepLabV3+网络中采用了Dropout的方法，以此来避免在训练过程中的过拟合问题，Dropout是在训练过程中，随机地忽略部分神经元，在正向传播的过程中，这些被忽略的神经元对下游神经元的贡献暂时消失，在反向传播时，这些神经元也不会有任何权重的更新，然而这一操作会导致每次忽略部分神经元后产生的子模型都不一样，在一定程度上使得训练后的模型具有一定的随机性，是一种多个子模型的组合约束，这影响了网络模型的性能。

发明内容

针对现有技术存在的上述问题，本发明提供了一种基于改进DeepLabV3+网络的遥感图像语义分割方法及***，本发明使用R-Drop正则化方法代替原始DeepLabV3+网络中使用的Dropout方法，R-Drop进一步正则化了模型空间，超越了Dropout，可进一步提高模型的泛化能力，由此能够完成对遥感城市道路图像的有效分割。

本发明采取的技术方案如下：

一种基于改进DeepLabV3+网络的遥感图像语义分割方法，包括以下步骤：

步骤S1.获取遥感道路数据集并进行预处理；

步骤S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络；

步骤S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练；

步骤S4.将步骤S1得到的测试数据输入到步骤S3改进DeepLabV3+语义分割网络模型，得到遥感道路图像语义分割结果。

进一步地，所述步骤S1具体包括以下步骤：

S11.从开源数据集网站下载或自制遥感数据集；

S12.将原始放在一个文件夹中的图像文件和标签文件分别放在不同的文件夹中；

S13.按照2:1:1的比例随机将数据集中的数据分为训练数据、验证数据和测试数据，划分后的文件名列表文件存放在工程所在的路径下，分别为train.txt,val.txt,test.txt。

进一步地，所述步骤S2具体包括以下步骤：

S21.改进DeepLabV3+语义分割网络模型可分为编码器模块和解码器模块；

S22.编码器模块中，采用MobileNetV2作为主干网络对遥感图像进行浅层特征和深层特征的提取；

S23.采用空间金字塔池化模块(又称ASPP模块，ASPP为Atrous Spatial PyramidPooling的英文简称)对S21得到的深层特征进行进一步的特征提取操作。空间金字塔池化模块由一个1×1的卷积，三个膨胀率分别为6、12、18的膨胀卷积以及一个ImagePooling(全局平均池化)模块组成，三个膨胀卷积用来捕获不同尺度的感受野信息并捕获不同尺度的特征信息，全局平均池化和1×1卷积层被用于提取特征；

S24.采用concatenate特征融合方法对步骤S23得到的具有不同感受野的特征层进行堆叠处理，此时输入通道数是原始输入通道数的5倍，通过1×1卷积层将通道数降低至原始值即可得到深层特征；

S25.解码器模块中采用1×1卷积对步骤S22得到的浅层特征进行通道数的调整后，再与步骤S24得到的深层特征层经过4倍上采样之后的结果进行concatenate特征融合；

S26.采用两个3×3的卷积层对步骤S25得到的特征融合结果进行细化，然后进行四倍的上采样即可得到分割预测图。

进一步地，所述步骤S3具体包括以下步骤：

S31.设定训练模型的初始参数如下：

初始学习率，即learning rate：0.014；

权值衰减，即weight decay：0.0005；

动量，即momentum：0.9；

批大小根据实际训练的服务器显存大小而定；

S32.在训练过程中，采用R-Drop正则化方法，即：在每个小批量训练中，每个数据样本经过两次前向传递，每次传递由不同的子模型通过随机删除一些隐藏单元来实现。

具体过程如下：训练数据为

训练的目标是学习一个模型P^w(y_i|x_i)，其中n是训练样本的数量，(x_i，y_i)是标记数据对，x_i是输入数据，y_i是标签，每个样本的loss为交叉熵：

Lⁱ＝-logP^w(y_i|x_i)

在使用R-Drop正则化方法的情况下，可以认为样本通过了两个略有不同的模型，分别记为

和

模型最终的loss分为两部分，一部分是常规的交叉熵：

另一部分则是两个模型之间的对称KL散度，其作用是让两次经过不同Dropout的模型输出尽可能一致：

网络模型最终的loss即为上述两个loss的加权和：

其中α为辅助损失的权重，设置为1，损失函数采用交叉信息熵；

S33.根据步骤S32得到的损失函数计算出梯度，采用随机梯度下降方法作为优化器更新神经网络的权重值、偏置值；

S34.引入像素准确率(Pixel accuracy，PA)以及平均交并比(Mean Intersectionover Union，MIoU)对模型的性能进行评估，PA表示预测类别正确的像素数占总像素数的比例，MIoU表示网络模型分割图像的精度，MIoU值越高则表示图像分割效果越好。计算方法分别为：

上式中，TP(True Positive)代表模型预测正确，即模型预测与实际均为正例；FP(False Positive)代表模型预测错误，即模型预测该类别为正例，但实际该类别为反例；FN(False Negative)代表模型预测错误，即模型预测该类别为反例，实际该类别为正例；TN(True Negative)代表模型预测正确，意为模型预测与实际均为反例；N代表类别数，下标i代表第i类；

S35.重复步骤S32—S24的训练过程，每轮训练完后使用验证数据集对网络模型进行评估，按照MIoU最优结果进行模型的保存，直至迭代次数达到设定值后停止训练，保存训练好的模型。

进一步地，所述步骤S4具体包括以下步骤：

S41.载入步骤S3训练好的模型，读入步骤S1得到的测试数据的测试图片和标签；

S42.算出指标分数，保存测试结果。

本发明还公开了一种基于改进DeepLabV3+网络的遥感图像语义分割***，包括以下模块：

数据分类模块：获取遥感道路数据集并进行预处理，数据集中的数据分为训练数据、验证数据和测试数据；

模型搭建模块：搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型；

训练模块：利用数据分类模块得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练；

获得分割结果模块：将数据分类模块得到的测试数据输入到训练模块的改进DeepLabV3+语义分割网络模型，得到遥感道路图像语义分割结果。

与现有技术相比，本发明具有以下有益效果：

本发明一种基于改进DeepLabV3+网络的遥感图像语义分割方法，相较于基于传统的DeepLabV3+网络模型的方法，本发明由于采用了R-Drop正则化方法，可以对训练中每个数据样本从dropout中随机抽取的两个子模型的输出进行正则化，本发明不仅可以降低网络模型参数的自由度，还可以缓解训练和推理阶段之间的不一致性，增强了泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的一种基于改进DeeplabV3+模型的遥感图像语义分割方法流程示意图。

图2是本发明实施例1提供的R-Drop正则化方法的示意图。

图3是本发明实施例1提供的遥感道路图像语义分割结果图。

图4是本发明实施例2提供的一种基于改进DeepLabV3+网络的遥感图像语义分割***框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例提供了基于改进DeepLabV3+模型的遥感图像语义分割方法，具体包括以下步骤：

步骤S1.获取遥感道路数据集并进行预处理。在本实施例中，使用从开源数据集网站kaggle.com下载到的DeepGlobe Road Extraction Dataset数据集，并且从中随机选择了2000张大小为1024×1024的遥感道路RGB卫星图像按照2:1:1的比例随机将其分为训练数据、验证数据和测试数据。

步骤S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络。在本实施例中，选用MobileNetV2作为DeepLabV3+语义分割网络的主干网络来提取浅层特征和深层特征；深层特征会被输入到ASPP模块中通过卷积、空洞卷积、全局平均池化等5种不同的操作得到具有不同感受野的多尺度特征层，进行concatenate堆叠处理后，通过1×1卷积将通道数降低至原始值得到深层特征并将其输入到解码器模块。在网络模型的解码器模块中，对从编码器模块中输入进来的浅层特征进行通道数调整、深层特征进行4倍上采样，然后将两者的结果进行concatenate堆叠，在完成堆叠后，对堆叠结果进行两次3×3的深度可分离卷积以及4倍的上采样即可恢复成原始图像大小，即得到了遥感图像的预测分割图。

步骤S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练。为了验证本发明设计网络的可行性与复杂环境下路径的识别效果，对网络进行编程与训练测试，具体实验环境与配置如表1所示：

表1实验环境与配置

并设定训练模型的初始参数如表2所示：

表2初始参数设置

设置好以上参数之后即可进行训练，训练过程中，采用R-Drop正则化方法代替原始DeepLabV3+网络中所使用的Dropout方法，具体而言，就是在每个小批量训练中，每个数据样本经过两次前向传递，每次传递由不同的子模型通过随机删除一些隐藏单元来实现，R-Drop正则化方法的示意图如图2所示。

具体过程如下：

训练数据为

Lⁱ＝-logP^w(y_i|x_i)

和

模型最终的loss分为两部分，一部分是常规的交叉熵：

网络模型最终的loss即为上述两个loss的加权和：

引入像素准确率(Pixel accuracy，PA)以及平均交并比(Mean Intersectionover Union，MIoU)对模型的性能进行评估，PA表示预测类别正确的像素数占总像素数的比例，MIoU表示网络模型分割图像的精度，MIoU值越高则表示图像分割效果越好。计算方法分别为：

式中，TP(True Positive)代表模型预测正确，即模型预测与实际均为正例；FP(False Positive)代表模型预测错误，即模型预测该类别为正例，但实际该类别为反例；FN(False Negative)代表模型预测错误，即模型预测该类别为反例，实际该类别为正例；TN(True Negative)代表模型预测正确，意为模型预测与实际均为反例；N代表类别数，下标i代表第i类。

训练阶段采用随机梯度下降方法作为优化器，计算卷积神经网络更新后的权重值、偏置值；每个轮次训练完后使用验证数据集对网络模型进行评估，按照MIoU最优结果进行模型的保存，迭代300轮之后停止训练，保存训练好的模型。

步骤S4.将步骤S1中得到的测试数据输入到改进DeepLabV3+语义分割网络模型，得到遥感道路图像语义分割结果，结果图如图3所示。

除了进行改进DeepLabV3+语义分割网络模型的实验之外，本发明也将DeepLabV3+算法在所选遥感道路数据集上训练出相应模型，并与本发明算法性能进行比较，两种算法在遥感道路数据集上的性能如表3所示：

表3两种模型在遥感道路数据集上的性能比较

模型方法	PA(％)	MIoU(％)
			DeepLabV3+	97.3721	73.8854
本发明	97.6744	76.8213

本发明所提改进DeepLabV3+网络的遥感语义分割方法在像素准确率上得到了提升，且在平均交并比上提供了将近3个点，本发明所提方法对图像的分割效果明显优于原始DeepLabV3+算法的分割效果。

实施例2

如图4所示，本实施例公开了一种基于改进DeepLabV3+网络的遥感图像语义分割***，包括以下模块：

本实施例其他内容可参考实施例1。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，本领域技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于改进DeepLabV3+网络的遥感图像语义分割方法，其特征在于，包括以下步骤：

S1.获取遥感道路数据集并进行预处理，数据集中的数据分为训练数据、验证数据和测试数据；

S2.搭建基于Pytorch环境的改进DeepLabV3+语义分割网络模型；

S3.利用步骤S1得到的训练数据、验证数据对改进DeepLabV3+语义分割网络模型进行训练；

S4.将步骤S1得到的测试数据输入到步骤S3的改进DeepLabV3+语义分割网络模型，得到遥感道路图像语义分割结果。

2.根据权利要求1所述的基于改进DeepLabV3+网络的遥感图像语义分割方法，其特征在于，步骤S1具体包括以下步骤：

S11.从开源数据集网站下载或自制遥感图像数据集；

S13.按照2:1:1的比例随机将数据集中的数据划分为训练数据、验证数据和测试数据，划分后的文件名列表文件存放在工程所在的路径下，分别为train.txt,val.txt,test.txt。

3.根据权利要求2所述的基于改进DeepLabV3+网络的遥感图像语义分割方法，其特征在于，步骤S2具体包括以下步骤：

S21.改进DeepLabV3+语义分割网络模型分为编码器模块和解码器模块；

S23.采用空间金字塔池化模块对S21得到的深层特征进行进一步的特征提取操作；空间金字塔池化模块由一个1×1的卷积，三个膨胀率分别为6、12、18的膨胀卷积以及一个ImagePooling模块组成，三个膨胀卷积用来捕获不同尺度的感受野信息并捕获不同尺度的特征信息，全局平均池化和1×1卷积层被用于提取特征；

4.根据权利要求3所述的基于改进DeepLabV3+网络的遥感图像语义分割方法，其特征在于，步骤S3具体包括以下步骤：

S31.设定训练模型的初始参数如下：

初始学习率，即learning rate：0.014；

权值衰减，即weight decay：0.0005；

动量，即momentum：0.9；

S32.在训练过程中，采用R-Drop正则化方法，即：在每个小批量训练中，每个数据样本经过两次前向传递，每次传递由不同的子模型通过随机删除一些隐藏单元来处理；具体如下：训练数据为