CN113989287A

CN113989287A - 城市道路遥感图像分割方法、装置、电子设备和存储介质

Info

Publication number: CN113989287A
Application number: CN202111064366.1A
Authority: CN
Inventors: 施永刚; 隋吉生; 金鹏; 丛犁; 窦增; 潘建宏; 李洪丰; 黄成斌
Original assignee: State Grid Jilin Electric Power Corp; Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Current assignee: State Grid Jilin Electric Power Corp; Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-01-28

Abstract

本发明公开了一种城市道路遥感图像分割方法，包括：获取待处理的城市道路遥感图像；输入预先训练完成的分割模型，用主干特征提取网络进行特征提取得到低级特征和高级特征；将高级特征利用多尺度特征提取网络提取多尺度特征，将特征融合得到的多尺度融合特征进行卷积操作得到第一特征；利用特征融合网络对低级特征进行卷积操作，并对第一特征进行上采样操作，将两个操作结果进行特征融合，将特征融合结果进行卷积操作和上采样操作得到城市道路遥感图像的分割结果；多尺度特征提取网络基于池化操作为softpool的带孔空间金字塔池化结构构建；分割模型训练使用焦点损失函数。本发明能减少池化造成的信息损失，解决正负样本失衡问题。

Description

城市道路遥感图像分割方法、装置、电子设备和存储介质

技术领域

本发明属于计算机视觉领域，具体涉及一种城市道路遥感图像分割方法、装置、电子设备和存储介质。

背景技术

近年来，图像分割技术已经成为计算机视觉领域的热点研究方向，其研究成果能够有效应用于交通、测绘、人脸识别等领域中。同时，随着遥感技术的不断发展，遥感图像的分辨率有了很大提高，高分辨率遥感图像已经成为数字图像处理的重要数据来源。由于高分辨率遥感图像可以提供丰富的地物特征信息，同时更新速度快、精度高，因而在城市规划、交通管理、车辆导航、地图更新等领域中发挥了重要作用，已经成为近年来的研究热点。

目前的遥感图像分割技术主要利用卷积神经网络实现，在大部分卷积神经网络中，池化层的身影随处可见。在当前的计算机视觉任务中，池化层通常分为两种类型：最大池化层和平均池化层。前者取特定区域内的最大值作为输出，后者取特定区域的平均值作为输出。池化层的主要功能是保留特征的同时，减少计算量和特征的冗余度，防止模型出现过拟合现象，另外保持平移、尺度和旋转的不变性。然而从大量的实验中可以看出，这两种池化操作会大量丢失图像中的信息，严重影响网络的性能。

并且，在城市道路场景下，由于路况复杂和不均匀分布，导致样本图像中存在类别不平衡的问题，即出现正负样本失衡。具体来说，如果一类样本的数量远远大于另一类样本的数量，分类器往往会倾向于将新的样本归为大类，导致小类的精度较低。由此会导致两个问题：一是训练效率较低，因为如果简单易分类的样本过多，会使训练过程中模型无法充分学习有用的信息；二是简单易分类的样本数量过多会对loss函数起到主导作用，进而影响梯度更新的方向，损失一些有用的信息，最终会导致模型性能下降。

因此，如何解决上述已有缺陷，提出一种有效的城市道路遥感图像分割方法，是本领域内一个值得研究的关键问题。

发明内容

本发明实施例的目的在于提供一种城市道路遥感图像分割方法、装置、电子设备和存储介质，以在保持池化层功能的同时尽可能的减少池化所造成的信息损失，并且解决正负样本失衡的问题。具体技术方案如下：

第一方面，本发明实施例提供了一种城市道路遥感图像分割方法，所述方法包括：

获取待处理的城市道路遥感图像；

将所述城市道路遥感图像输入预先训练完成的分割模型，利用所述分割模型的主干特征提取网络进行特征提取，从所述主干特征提取网络得到低级特征和高级特征；其中，所述主干特征提取网络包括带有空洞卷积的DCNN网络；

将所述高级特征利用所述分割模型的多尺度特征提取网络提取多尺度特征，进行特征融合得到多尺度融合特征，将所述多尺度融合特征进行卷积操作得到第一特征；其中，所述多尺度特征提取网络基于池化操作为SoftPool的带孔空间金字塔池化结构构建；

将所述低级特征和所述第一特征输入所述分割模型的特征融合网络，对所述低级特征进行卷积操作，对所述第一特征进行上采样操作，将得到的两个操作结果进行特征融合，并将得到的特征融合结果进行卷积操作和上采样操作，得到所述城市道路遥感图像的分割结果；

其中，所述分割模型根据已标注的样本城市道路遥感图像集训练得到，训练过程使用焦点损失函数。

在本发明的一个实施例中，所述主干特征提取网络基于Xception网络结构构建。

在本发明的一个实施例中，针对所述低级特征，空洞卷积的步长为4；针对所述高级特征，空洞卷积的步长为16。

在本发明的一个实施例中，所述多尺度特征提取网络包括并行的五个分支，所述五个分支包括：一个1×1的Conv分支、空洞率存在差异的三个空洞卷积分支和一个SoftPool分支。

在本发明的一个实施例中，三个空洞卷积分支的空洞率分别为6、12和18，卷积核大小均为3×3。

在本发明的一个实施例中，所述特征融合网络中的上采样操作采用双线性插值法的4倍上采样。

在本发明的一个实施例中，所述样本城市道路遥感图像集，包括CityScapes数据集。

第二方面，本发明实施例提供了一种城市道路遥感图像分割装置，所述装置包括：

图像获取模块，用于获取待处理的城市道路遥感图像；

主干特征提取模块，用于将所述城市道路遥感图像输入预先训练完成的分割模型，利用所述分割模型的主干特征提取网络进行特征提取，从所述主干特征提取网络得到低级特征和高级特征；其中，所述主干特征提取网络包括带有空洞卷积的DCNN网络；

多尺度特征提取模块，用于将所述高级特征利用所述分割模型的多尺度特征提取网络提取多尺度特征，进行特征融合得到多尺度融合特征，将所述多尺度融合特征进行卷积操作得到第一特征；其中，所述多尺度特征提取网络基于池化操作为SoftPool的带孔空间金字塔池化结构构建；

特征融合模块，用于将所述低级特征和所述第一特征输入所述分割模型的特征融合网络，对所述低级特征进行卷积操作，对所述第一特征进行上采样操作，将得到的两个操作结果进行特征融合，并将得到的特征融合结果进行卷积操作和上采样操作，得到所述城市道路遥感图像的分割结果；

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，其中，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现本发明实施例所提供的城市道路遥感图像分割方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的城市道路遥感图像分割方法的步骤。

本发明实施例所提供的方案中，预先构建分割模型并利用已标注的样本城市道路遥感图像集和焦点损失函数训练完成。该分割模型包括顺次连接的主干特征提取网络、多尺度特征提取网络和特征融合网络，其中，所述主干特征提取网络包括带有空洞卷积的DCNN网络，用于对输入的城市道路遥感图像进行特征提取，得到低级特征和高级特征。所述多尺度特征提取网络基于池化操作为SoftPool的带孔空间金字塔池化结构构建，用于将所述高级特征利用所述分割模型的多尺度特征提取网络提取多尺度特征，进行特征融合得到多尺度融合特征，并将所述多尺度融合特征进行卷积操作得到第一特征。所述特征融合网络用于对所述低级特征进行卷积操作，对所述第一特征进行上采样操作，将得到的两个操作结果进行特征融合，并将得到的特征融合结果进行卷积操作和上采样操作，最终得到所述城市道路遥感图像的分割结果。本发明实施例将带孔空间金字塔池化结构的池化操作改为SoftPool，能够在保持池化层功能的同时尽可能的减少池化所造成的信息损失；并在训练过程中采用焦点损失函数，能够降低简单样本的影响，使得模型更加关注难分类的样本，解决正负样本失衡问题，因此能够提高模型训练的稳定性，提高模型的分割效果，并提升模型的训练效率。

附图说明

图1为本发明实施例所提供的一种城市道路遥感图像分割方法的流程示意图；

图2为本发明实施例所提供的分割模型的结构及处理过程示意图；

图3为本发明实施例采用的空洞卷积的原理示意图；

图4为本发明实施例提供的一种主干特征提取网络的结构示意图；

图5(a)为一张原始图像；

图5(b)为本发明实施例的分割模型在仅引入SoftPool时对图5(a)的原始图像的特征提取效果图；

图6为原始图像、标签图像、原始模型的分割效果和本发明实施例所提供的分割模型的分割效果的对比图；

图7(a)为另一张原始图像；

图7(b)为对图7(a)的原始图像利用原始模型得到的分割结果图；

图7(c)为对图7(a)的原始图像利用本发明实施例所提出的分割模型得到的分割结果图；

图8(a)为本发明实施例所提供的分割模型的Loss变化曲线图；

图8(b)为本发明实施例所提供的分割模型的MIOU变化曲线图。

图9为本发明实施例所提供的一种城市道路遥感图像分割装置的结构示意图；

图10为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现在保持池化层功能的同时尽可能的减少池化所造成的信息损失，并且解决正负样本失衡问题的目的，本发明实施例提供了一种城市道路遥感图像分割方法、装置、电子设备和存储介质。

需要说明的是，本发明实施例所提供的一种方法的执行主体可以为一种城市道路遥感图像分割装置，该装置可以运行于电子设备中。其中，该电子设备可以为一服务器或终端设备，或者为一图像采集/处理设备，如摄像机等，当然并不局限于此。

第一方面，本发明实施例提供了一种城市道路遥感图像分割方法。如图1所示，本发明实施例所提供的一种城市道路遥感图像分割方法，可以包括如下步骤：

S1，获取待处理的城市道路遥感图像。

本发明实施例中，所述城市道路遥感图像来自无人机或卫星的遥感图像数据。可选的，可以对获取的遥感图像数据先进行一定的预处理，如滤波、裁剪以及图像增强等，从而得到待处理的城市道路遥感图像。

本发明实施例可以对获取的城市道路遥感图像进行实时的图像分割处理，也可以对获取的城市道路遥感图像进行存储，在需要进行图像分割处理时调取图像，这都是合理的。

S2，将所述城市道路遥感图像输入预先训练完成的分割模型，利用所述分割模型的主干特征提取网络进行特征提取，从所述主干特征提取网络得到低级特征和高级特征。

本发明实施例中，采用预先训练完成的分割模型对待处理的城市道路遥感图像进行分割处理。如图2所示，图2为本发明实施例所提供的分割模型的结构及处理过程示意图。从图2可见，所述分割模型包括顺利连接的主干特征提取网络、多尺度特征提取网络和特征融合网络。

语义分割中，更深的层数决定图像的轮廓，浅层的深度显示的是物体的细节。但是如果图像尺寸缩小的太小，在还原的过程中会导致信息缺失。本发明实施例中，为了解决连续池化与下采样所造成的特征图分辨率严重降低的问题，采用空洞卷积(Atrous/DilatedConvolution，也称为膨胀卷积)实现。

空洞卷积的原理是对原有的卷积操作进行改进，如图3所示，图3为本发明实施例采用的空洞卷积的原理示意图。以3×3的卷积为例，图3(a)表示空洞率rate为1的原始卷积核，卷积核中不包含空洞；图3(b)表示rate为2的卷积核，即在卷积核之间填充一个0；图3(c)表示rate为3的卷积核，即在卷积核之间填充2个0。从图3中可以看出，空洞卷积核在不增加参数的情况下，增大了感受野。空洞率越高，感受野越大。空洞卷积核的尺寸可以由以下公式计算得到：

K＝k+(k-1)(rate-1)

其中，K表示填充后的卷积核尺寸，k为原始卷积核尺寸，rate为空洞率。当前层的感受野大小可以由以下公式得到：

RF_i+1＝RF_i+(k′-1)×S_i

其中，RF_i+1表示当前层的感受野，RF_i表示上一层的感受野，k'代表卷积核的大小，S_i代表之前所有层的步长的乘积。

在深度卷积神经网络中，一般通过下采样来扩大感受野，进而减少计算量，但是这种方法会对特征图的分辨率造成极大影响，通过使用空洞卷积，在增大感受野的同时，聚合得到了更多的上下文信息，并且不会影响特征图的分辨率，能够提高图像的分割精度。

具体的，本发明实施例中，所述主干特征提取网络包括带有空洞卷积的DCNN网络(Diffusion-Convolutional Neural Networks，深度卷积神经网络)，即所述主干特征提取网络利用串行的空洞卷积实现，可以采用常用的分类网络，如ResNet等构建。

可选的一种实施方式中，所述主干特征提取网络基于Xception网络结构构建。比如以任意层级数的Xception网络结构构成。参见图4，图4为本发明实施例提供的一种主干特征提取网络的结构示意图。作为一种示例，图4中主干特征提取网络采用Xception-65网络结构，其中所有的最大池化操作都使用了带步长的深度可分离卷积(DepthwiseDeparable Convolution)，目的是用空洞卷积来以任意分辨率提取特征图。同时，每个深度分离卷积之后设置有批标准化Batch Normalization和激活函数ReLU。

主干特征提取网络用于特征提取，会输出两个层级的特征，其中一个是低级特征，其对应的空洞卷积的步长output stride为4，一般是从所述主干特征提取网络中间的某一层输出的；另一个是高级特征，其对应的空洞卷积的步长为16，一般是从所述主干特征提取网络的末端输出的。

S3，将所述高级特征利用所述分割模型的多尺度特征提取网络提取多尺度特征，进行特征融合得到多尺度融合特征，将所述多尺度融合特征进行卷积操作得到第一特征。

针对城市道路遥感图像，其中对象的大小往往各不相同，因此在运用卷积神经网络实现图像分割时，考虑对象的不同大小可以提高网络的处理能力，因此需要考虑多尺度问题。本发明实施例中，采用多尺度特征提取网络对所述高级特征进行多尺度特征提取。

其中，所述多尺度特征提取网络基于池化操作为softpool的带孔空间金字塔池化结构构建。带孔空间金字塔池化结构(Astrous Spatial Pyramid Pooling，ASPP)也是使用空洞卷积实现的，并应用了深度可分离卷积来加速网络。ASPP通过采用并行的多种空洞率的卷积层，可以提取不同尺度的特征，解决图像分割上由于尺度不同所带来的问题。但是现有的ASPP的池化操作采用的是Image Pooling，为一种平均池化方式，图像的信息损失现象比较明显。

SoftPool是一种变种的池化层，对于大小为C×H×W的特征图，设置R为二维空间区域的激活对应的索引集，对于大小为k×k的卷积核，SoftPool操作分为前向计算(Forward)阶段和反向计算(Backward)阶段。

在Forward阶段中，包括两个步骤：

1)计算候选的3*3区域的权重w；

由于SoftPool是可微的，因此所有在局部邻域内的激活在反向传播期间至少被分配一个最小梯度值，首先利用6×6大小的邻域内的激活映射a，计算候选的3×3大小的区域的权重w，权重计算方法是该激活的自然指数和邻域R内所有激活的自然指数之和的比值，权重和响应的激活值一起用作非线性变换，激活值越高，在池化操作中更占主导地位，计算公式为：

其中，w_i表示权重，a_i表示激活映射，i表示位置序号；R表示邻域。

2)将权重w与激活映射a相乘相加获得

计算公式是：

在Backward阶段中，包括两个步骤：

1)计算出

的梯度值

梯度计算方法属于常见计算手段，在此不做详细说明。

2)将

与权重w相乘得到

计算公式为：

与最大池化和平均池化的方法不同，softmax方法的使用是SoftPool的核心，SoftPool使用区域的softmax方法产生归一化结果，概率分布和每个激活值相对于卷积核区域的邻近的激活值成比例，与选择所有区域的最大激活值和取所有激活值的平均值形成了鲜明的对比，内核区域的输出激活是没有规律的。在SoftPool中实现了使用给定精度级别优先范围的可能值，保留了softmax的可微性，并且通过给定每个类型使用的比特数分配一个较低的算术限制来防止算术下溢，同时也为内核值和最终求和中使用的生成的激活值实现了这种机制。从实验对比可见，与原图相比，SoftPool操作能够保留原图中更多的细节，平均池化次之，而最大池化丢失的信息最多。SoftPool相比最大池化和平均池化的优点是可以在保持池化层的功能的同时尽可能减少图像信息的损失。

可选的一种实施方式中，所述多尺度特征提取网络包括并行的五个分支，所述五个分支包括：

一个1×1的Conv分支、空洞率存在差异的三个空洞卷积分支和一个SoftPool分支。

可见，本发明实施例的多尺度特征提取网络采用的是并行结构的空洞卷积。

其中，在实际的应用场景中，可以根据不同大小的样本来调整空洞率rate，比如对于城市道路遥感图像中一些面积较小的目标，可以减小空洞率来提升分割效果。

可选的一种实施方式中，三个空洞卷积分支的空洞率分别为6、12和18，卷积核大小均为3×3。

因此，一种简便的实现方式中，可以将现有的ASPP中的Image Pooling替换为SoftPool。当然，本发明实施例的多尺度特征提取网络的分支数不限于上述五个分支，比如可以增加一定的卷积层或者池化层，等等。

以所述多尺度特征提取网络包括并行的五个分支为例，在得到五个尺度不同的特征后，利用concat方式进行特征融合得到多尺度融合特征，然后对多尺度融合特征进行诸如1×1的卷积操作，得到第一特征。

S4，将所述低级特征和所述第一特征输入所述分割模型的特征融合网络，对所述低级特征进行卷积操作，对所述第一特征进行上采样操作，将得到的两个操作结果进行特征融合，并将得到的特征融合结果进行卷积操作和上采样操作，得到所述城市道路遥感图像的分割结果。

本发明实施例中，对所述低级特征进行的卷积操作可以是1×1的卷积操作；对得到的特征融合结果进行的卷积操作可以是3×3的卷积操作。

可选的一种实施方式中，所述特征融合网络中的上采样操作采用双线性插值法的4倍上采样。

得到的所述城市道路遥感图像的分割结果中，每个像素的类别被标注。具体的，可以将多个类别以不同的颜色进行标注，那么针对所述城市道路遥感图像，其分割结果表现为图像中的道路、建筑物、人类等不同类别进行了对应的“涂色”处理，使得类别的区分一目了然，从视觉上实现了图像的分割效果。

本发明实施例的所述分割模型，是利用是编码器-解码器结构实现的，其中所述主干特征提取网络和多尺度特征提取网络可以构成编码器；所述特征融合网络可以构成解码器。该编码器-解码器结构能够通过重构空间信息的方式准确获取清晰的物体边界，能够实现对空洞卷积的灵活控制，进而有效地获取编码后的特征分辨率，对提升图像分割的精度作用显著。通过向所述编码器输入任意大小的图像，可以得到对应的特征图。解码器主要完成将编码器得到的特征图重建为和输入图片尺寸一致的输出分割图。具体来说，在得到编码器生成的特征图后，运用双线性插值法进行4倍上采样，采样后的特征图大小为原图的1/4，所述主干特征提取网络输出的低级特征对应的特征图的大小同样为1/4，将该特征图和编码器末端提取得到的特征图使用Concat操作进行融合，通过这种方式实现了浅层和深层特征的融合，新构建的特征图所包含的信息更加丰富。通过再次进行一次3×3卷积操作，然后通过双线性插值法进行4倍上采样，最终可以得到与原图大小一致的特征图，对得到的特征图进行概率预测，可以得到概率得分的分布图，通过概率的分布来推断每个像素点属于哪个类别则得到所述城市道路遥感图像的分割结果。本发明实施例通过编码器-解码器结构得到特征图进行预测，可以使得特征信息更加丰富，分割效果更好。

其中，所述分割模型根据已标注的样本城市道路遥感图像集训练得到，所述样本城市道路遥感图像集可以为自行采集以及标注的关于城市道路的样本遥感图像集。

可选的一种实施方式中，所述样本城市道路遥感图像集包括CityScapes数据集。CityScapes数据集是自动驾驶领域中最权威的数据集之一，主要提供了在驾驶领域中进行算法效果和性能的测试的图像分割数据，该数据集中包含了道路场景下大量的动态目标，并且场景的布局比较丰富，背景也比较复杂，比较适合交通场景下的图像分割任务，常用来检测图像分割算法的功能，是图像分割领域最优秀的数据集。本发明实施例采用该数据集可以减少训练样本的制作成本。

众所周知，神经网络的训练过程需要使用损失函数，损失函数的作用，就是计算神经网络每次迭代的前向计算结果与真实值的差距，从而指导下一步的训练向正确的方向进行。损失函数的使用方法简单可以概括为以下步骤：

步骤1，用随机值初始化前向计算公式的参数；

步骤2，代入样本，计算输出的预测值；

步骤3，用损失函数计算预测值和标签值(真实值)的误差；

步骤4，根据损失函数的导数，沿梯度最小方向将误差回传，修正前向计算公式中的各个权重值；

返回步骤2,直到损失函数值达到一个满意的值则停止迭代。

现有的一些图像分割网络中，损失函数通常选用交叉熵损失函数(CrossEntropyLoss)，交叉熵衡量的是两个分布之间的距离，因此可以被用来表示预测值和标签值的差异，其计算公式为：

在该式中，损失函数由各个类别的损失函数累加得到，各个类别的损失函数则是通过各自的标签值和预测值得到的，其中y和y'分别代表标签值和预测值，p_y'代表预测值的概率，N表示类别数。

但是由于该损失是通过对所有像素进行求和计算出来的，因此对于不平衡的类别的处理能力较差，尤其是不能区分简单易分类和复杂难分类的样本。

因此，本发明实施例中，所述分割模型的训练过程使用焦点损失函数(FocalLoss)，来抑制简单易分类的样本在训练中起到的主导作用，从而将训练过程集中在复杂难分类的样本上，解决正负样本失衡问题。

Focal Loss通过降低大量简单负样本在训练所占的权重，提高难分类样本对于参数更新的影响，使得模型能够更好的训练出结果，可以视为一种自适应的负样本的挖掘策略。Focal Loss本质上是在交叉熵损失函数的基础上进行修改，其公式如下：

Loss＝-α(1-p'_y)^γlogp'_y

其中α的作用是给不同类别的样本加权重，如果正样本少就加大正样本的权重，γ的作用则是通过使模型更加关注难分类样本，一般将γ设置为大于0的某个值，例如将γ设置为2，则对于正样本，预测结果为0.95肯定是简单易分类样本，则(1-0.95)^γ的值相对较小，则该类别的损失函数就会变得更小，如果预测结果为0.2，那么肯定是难分类的样本，损失函数的值也会相对比较大。对于负样本来说，如果预测结果是0.1，肯定是易分类的样本，损失函数的值也会很小，反之，如果预测概率为0.5时，损失函数只减少了0.25倍。FocalLoss通过这种方法，降低了简单样本的影响，使得模型更加关注难分类的样本。在实际应用中，引入Focal Loss可以提高模型训练的稳定性，使得模型的预测效果更加出色。因此，本发明实施例采用Focal Loss，一方面可以提高模型的分割效果，另一方面可以提升模型的训练效率。

本发明实施例针对城市道路场景复杂的状况，提出了一种城市道路遥感图像分割方法，预先构建分割模型并利用已标注的样本城市道路遥感图像集和焦点损失函数训练完成。该分割模型包括顺次连接的主干特征提取网络、多尺度特征提取网络和特征融合网络，其中，所述主干特征提取网络包括带有空洞卷积的DCNN网络，用于对输入的城市道路遥感图像进行特征提取，得到低级特征和高级特征。所述多尺度特征提取网络基于池化操作为SoftPool的带孔空间金字塔池化结构构建，用于将所述高级特征利用所述分割模型的多尺度特征提取网络提取多尺度特征，进行特征融合得到多尺度融合特征，并将所述多尺度融合特征进行卷积操作得到第一特征。所述特征融合网络用于对所述低级特征进行卷积操作，对所述第一特征进行上采样操作，将得到的两个操作结果进行特征融合，并将得到的特征融合结果进行卷积操作和上采样操作，最终得到所述城市道路遥感图像的分割结果。本发明实施例将带孔空间金字塔池化结构的池化操作改为SoftPool，能够在保持池化层功能的同时尽可能的减少池化所造成的信息损失；并在训练过程中采用焦点损失函数，能够降低简单样本的影响，使得模型更加关注难分类的样本，解决正负样本失衡问题，因此能够提高模型训练的稳定性，提高模型的分割效果，并提升模型的训练效率。

为了验证本发明实施例方法即分割模型的有效性，以下以实验数据进行说明。

样本城市道路遥感图像集具体使用CityScapes数据集，Cityscapes数据集在注释中一共定义了30个类，可以分为8个大类：平地flat、建筑物construction、自然nature、车辆vehicle、天空sky、物体object、人类human和空白void。在这30个类中，基于其样本的数量和注释中的实际情况，在实验室排除了样本数量极少的类别，使用数量分布相对均匀的19个类进行评估。

首先，在PyTorch框架下，搭建分割模型。具体结构请参见前文所述。

其次，将训练样本数据输入到搭建好的分割模型中对其进行训练，训练过程使用Focal Loss。得到训练完成的分割模型，具体训练过程请参考现有神经网络的训练方法，在此不做详细说明。

在实验的训练过程中，有以下几个方面需要注意：

(1)在训练前，需要对网络中的一些参数进行初始化，一般来说，利用迁移学习的思想，采用在大型网络训练得到的参数对网络进行初始化有利于加速训练并使得网络尽快收敛。

(2)为了使得网络在尽快收敛的同时避免出现过拟合的情况，可以采用了梯度批量下降的方法来训练，在这种情况下，batch_size的设置至关重要，由于实验所使用的GPU为NVIDIA TITAN X，显存为12GB，因此在综合考虑后，本发明实施例实验将batch_size设置为4。

(3)其余一些比较重要的超参数的设置也会对训练结果有重要影响，如学习率、weight_decay等。学习率过高或过低都会影响训练的效果，因此在综合考虑数据集和训练环境等情况后，本发明实施例实验根据经验将初始学习率设置为0.01。

然后，利用测试集进行测试，观察并分析实验结果。

本发明实施例实验从定性和定量的角度上分析了两种模型的效果差异，模型之一是本发明提出的分割模型，模型之另一是针对本发明实施例提出的分割模型，考虑ASPP仍采用Image Pooling，训练过程仍采用交叉熵损失函数，在此将其命名为原始模型。

首先进行定性分析，在对比分割效果之前先将分割结果中每种颜色代表的类别进行区分定义，具体类别和颜色请参见表1，类别对应的颜色可以自行设置，实现区分效果即可，比如road采用绛紫色、building采用黑色、traffic light采用橘色等等，具体颜色在此不做详细举例。

表1分割结果类别和颜色对照表

类别	颜色	类别	颜色
				road	颜色1	sky	颜色11
sidewalk	颜色2	person	颜色12
				building	颜色3	rider	颜色13
wall	颜色4	car	颜色14
				fence	颜色5	truck	颜色15
pole	颜色6	bus	颜色16
				traffic light	颜色7	train	颜色17
traffic sign	颜色8	motocycle	颜色18
				vegetation	颜色9	bicycle	颜色19
terrain	颜色10

(一)对本发明实施例的分割模型的效果进行定性评估。

请参见图5，图5(a)为一张原始图像；图5(b)为本发明实施例的分割模型在仅引入SoftPool时对图5(a)的原始图像的特征提取效果图。从图5中对比可以看出，SoftPool的引入使得图像边缘的分割效果比较精确。

请参见图6，图6为原始图像、标签图像、原始模型的分割效果和本发明实施例所提供的分割模型的分割效果的对比图。图6中第一排图像为三个原始图像，第二排图像为第一排图像在数据集中的真实标签图像，第三排图像为第一排图像利用原始模型的分割结果，最后一排图像为第一排图像利用本发明实施例所提供的分割模型的分割结果。图6中每一列为一组对比图像。从图6中可以看出，相比原始模型，本发明实施例所提供的分割模型的分割效果更加接近真实标签图像，分割效果更好。

以下将原图和分割结果放在一起进行对比，并在分割结果上标定其类别。对于一张测试图片，其原图如图7(a)所示。将图7(a)分别利用原始模型和本发明实施例所提供的分割模型得到分割结果，分别如图7(b)和图7(c)所示。

从图7(b)中可以看出左右两侧的交通灯、人行道和交通标志杆的分割效果不太理想，而作为对比，从图7(c)中可以看出，对于交通灯，标志杆和人行道的分割效果比较理想，与原始图像中的区域划分比较接近。从视觉直观效果来说，图7(c)的分割效果要好于图7(b)。

(二)对本发明实施例的分割模型的效果进行定量评估

在图像分割中最常见的评价指标是像素准确率(Pixel Accuracy，PA)和平均交并比(mean Inetersection Over Union，MIOU)，在主流的对图像分割的研究中，这两个评价指标被作为主要评价指标来使用。

像素准确率计算的是正确分类的像素数量和所有像素数量的比值。MIOU也是用于图像分割问题的评价指标，计算的是两个集合的交集和其并集的重合比例。关于两者的计算公式请参见相关的现有技术，在此不做详细说明。

在对准确率进行判定时，不仅需要判断像素的分类是否正确，还需要考虑全局的定位评价，通常MIOU运用的更为广泛。

在训练过程中将分割模型的准确率和损失通过TensorBoard实时记录并保存，然后将数据导出并保存下来，通过可视化的方法将训练数据放在曲线图中观察，得到的结果如图8所示。图8(a)为本发明实施例所提供的分割模型的Loss变化曲线图；图8(b)为本发明实施例所提供的分割模型的MIOU变化曲线图。

从图8(a)中可以看到，网络的损失在前1000个Epoch迅速下降，在1000个Epoch后呈现出缓慢下降的趋势，在2500个Epoch时达到收敛的情况。而图8(b)的情况与图8(a)类似，同样是在1000个Epoch之前，准确率迅速上升，在1000个Epoch之后呈缓慢上升趋势，最终在2500个Epoch左右时达到平稳趋势。从训练的曲线变化情况来看，其损失和准确率的变化趋势符合一般的梯度下降的规律，说明训练情况比较正常，并且训练结果是有效的。

由于本发明实施例实验针对的是图像分割问题，从常用性能指标MIOU对本发明实施例方法，即分割模型的性能，在测试集上的1525张图片再次进行评估，评估结果如表2所示：

表2原始模型和分割模型的性能对照表

类别	原始模型	分割模型	类别	原始模型	分割模型
						road	97.03％	98.21％	sky	92.90％	93.85％
sidewalk	78.03％	86.82％	person	69.09％	72.40％
						building	88.85％	90.76％	rider	46.28％	52.47％
wall	53.35％	77.48％	car	91.20％	91.56％
						fence	48.06％	82.43％	truck	64.14％	87.64％
pole	49.62％	46.74％	bus	71.08％	89.40％
						traffic light	50.34％	44.28％	train	67.09％	82.84％
traffic sign	63.79％	62.06％	motorcycle	42.85％	64.91％
						vegetation	88.80％	91.15％	bicycle	64.39％	65.38％
terrain	57.84％	82.51％

表2是原始模型和本发明实施例提出的分割模型的性能对照表，从表2中可以看出，在一共19个类别中，分割模型与原始模型相比，仅在pole、traffic light和trafficsign三个类别的准确率出现了下降，而在其它16个类别的准确率均高于原始模型，其中，在sidewalk、fence、terrain、truck、bus、train、motorcycle这7个类别的准确率相比原始模型出现了大幅提升，其它9个类别的准确率也有小幅提升。总的来说，分割模型在评价指标MIOU上以74.99％优于原始模型的70.30％。因此，总体来说，相比于现有技术可能的常见网络形式，本发明实施例提出的分割模型具有更优的分割效果。

需要说明的是，在实际实验中，图5(b)、图6后三行以及图7(b)和图7(c)，均以不同的颜色对各类别进行了区分，但在本文附图中仅以灰度图示意。

第二方面，相应于上述方法实施例，本发明实施例还提供了一种城市道路遥感图像分割装置，如图9所示，该装置包括：

图像获取模块901，用于获取待处理的城市道路遥感图像；

主干特征提取模块902，用于将所述城市道路遥感图像输入预先训练完成的分割模型，利用所述分割模型的主干特征提取网络进行特征提取，从所述主干特征提取网络得到低级特征和高级特征；其中，所述主干特征提取网络包括带有空洞卷积的DCNN网络；

多尺度特征提取模块903，用于将所述高级特征利用所述分割模型的多尺度特征提取网络提取多尺度特征，进行特征融合得到多尺度融合特征，将所述多尺度融合特征进行卷积操作得到第一特征；其中，所述多尺度特征提取网络基于池化操作为SoftPool的带孔空间金字塔池化结构构建；

特征融合模块904，用于将所述低级特征和所述第一特征输入所述分割模型的特征融合网络，对所述低级特征进行卷积操作，对所述第一特征进行上采样操作，将得到的两个操作结果进行特征融合，并将得到的特征融合结果进行卷积操作和上采样操作，得到所述城市道路遥感图像的分割结果；

可选的，所述主干特征提取网络基于Xception网络结构构建。

可选的，针对所述低级特征，空洞卷积的步长为4；针对所述高级特征，空洞卷积的步长为16。

可选的，所述多尺度特征提取网络包括并行的五个分支，所述五个分支包括：

可选的，三个空洞卷积分支的空洞率分别为6、12和18，卷积核大小均为3×3。

可选的，所述特征融合网络中的上采样操作采用双线性插值法的4倍上采样。

可选的，所述样本城市道路遥感图像集，包括CityScapes数据集。

第三方面，本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如第一方面的城市道路遥感图像分割方法的步骤。

该电子设备可以为：台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定，任何可以实现本发明的电子设备，均属于本发明的保护范围。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

通过上述电子设备，能够实现：在保持池化层功能的同时尽可能的减少池化所造成的信息损失；并且降低简单样本的影响，使得模型更加关注难分类的样本，解决正负样本失衡问题，因此能够提高模型训练的稳定性，提高模型的分割效果，并提升模型的训练效率。

第四方面，相应于第一方面所提供的城市道路遥感图像分割方法，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现本发明实施例所提供的城市道路遥感图像分割方法的步骤。

上述计算机可读存储介质存储有在运行时执行本发明实施例所提供的方法的应用程序，因此能够实现：在保持池化层功能的同时尽可能的减少池化所造成的信息损失；并且降低简单样本的影响，使得模型更加关注难分类的样本，解决正负样本失衡问题，因此能够提高模型训练的稳定性，提高模型的分割效果，并提升模型的训练效率。

对于装置/电子设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，本发明实施例的装置、电子设备及存储介质分别是应用上述城市道路遥感图像分割方法的装置、电子设备及存储介质，则上述城市道路遥感图像分割方法的所有实施例均适用于该装置、电子设备及存储介质，且均能达到相同或相似的有益效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种城市道路遥感图像分割方法，其特征在于，包括：

获取待处理的城市道路遥感图像；

2.根据权利要求1所述的城市道路遥感图像分割方法，其特征在于，所述主干特征提取网络基于Xception网络结构构建。

3.根据权利要求1或2所述的城市道路遥感图像分割方法，其特征在于，

针对所述低级特征，空洞卷积的步长为4；

针对所述高级特征，空洞卷积的步长为16。

4.根据权利要求1所述的城市道路遥感图像分割方法，其特征在于，所述多尺度特征提取网络包括并行的五个分支，所述五个分支包括：

5.根据权利要求4所述的城市道路遥感图像分割方法，其特征在于，三个空洞卷积分支的空洞率分别为6、12和18，卷积核大小均为3×3。

6.根据权利要求1所述的城市道路遥感图像分割方法，其特征在于，所述特征融合网络中的上采样操作采用双线性插值法的4倍上采样。

7.根据权利要求1所述的城市道路遥感图像分割方法，其特征在于，所述样本城市道路遥感图像集，包括CityScapes数据集。

8.一种城市道路遥感图像分割装置，其特征在于，包括：

图像获取模块，用于获取待处理的城市道路遥感图像；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互相的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。