CN112819000A

CN112819000A - 街景图像语义分割***及分割方法、电子设备及计算机可读介质

Info

Publication number: CN112819000A
Application number: CN202110208934.4A
Authority: CN
Inventors: 梁超; 王小瑀; 宋宇; 程超; 姜长泓
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-05-18

Abstract

本发明公开了一种街景图像语义分割***及分割方法、电子设备及计算机可读介质，所述分割方法包括：步骤1，采集街景图像并对其进行预处理和数据增强；步骤2，使用编码器将街景图像编码为输出特征图；步骤3，使用多级特征联合上采样模块采集后三张输出特征图的特征，融合得到第二输出特征图；步骤4，将第二输出特征图转换为第三输出特征图；步骤5，将第三输出特征图输入卷积分类器得到语义分割特征值；步骤6，利用反向传播算法进行端对端训练得到街景图像语义分割模型；步骤7，利用街景图像语义分割模型对街景图像进行语义分割；本发明在不降低语义分割精度的情况下，加快了网络分割的速度，增强了其在应用中的实时响应能力。

Description

街景图像语义分割***及分割方法、电子设备及计算机可读介质

技术领域

本发明属于图像语义分割技术领域，特别是涉及一种街景图像语义分割***及分割方法、电子设备及计算机可读介质。

背景技术

语义分割是计算机视觉的基本任务之一，其目的是为图像中的每一个像素分配一个语义标签，从而得到像素级的分割结果，如今无人驾驶视觉感知***大多使用语义分割技术来处理感知到的物体，如路面、行人、汽车、建筑物等，因此其在无人驾驶领域有着极其重要的作用，由于无人驾驶的特殊性，其对语义分割网络的准确度有较高要求，对语义分割的实时性也有较为迫切的需求。

作为最原始的全卷积神经网络，FCN由一个专门用于图像分类的卷积神经网络转化而来，继FCN之后得益于深度学习技术，语义分割在最近几年取得了非常大的进步；应用于无人驾驶的语义分割算法总的来说分为两大类：第一类是基于编码器-解码器结构的网络，如Unet和SegNet等，使用编码器-解码器结构进行少类别的分割任务时，分类速度快、准确度高，但是当分类类别增多时语义分割的速度和准确度都会大幅度降低；第二类是基于上下文信息的网络，如PSPNet以及DeepLab v3+等，这类网络通过引入更多上下文信息来提高网络的场景解析能力，并且通过引入空洞卷积来保持感受野不变，在最终特征图的顶部采用空洞金字塔池化，避免下采样操作，并获得了大量的感受野信息，但是由于引入空洞卷积会增大该网络的计算复杂度和内存占用率，网络在分割速度方面存在严重不足。

现有的语义分割网络在运行时往往会产生大量参数，耗费大量的运行时间，且只考虑分割精度而没有考虑网络的实时性，而无人驾驶领域不仅对语义分割网络的准确度有要求，对算法的实时性也非常敏感，要求语义分割算法拥有实时的处理速度和快速的交互、响应能力，所以上述网络不适用于无人驾驶。

发明内容

本发明的目的在于提供一种街景图像语义分割***，使用多级特征联合上采样模块及金字塔池化模块提取街景图像中的深层特征和浅层特征，采集的特征能较为全面的表征各分割对象，使语义分割的精度较高，同时使用低分辨率的特征图近似高分辨率特征图，以加快网络的运行速度，提高其在应用中的响应能力。

本发明的目的还在于街景图像语义分割方法，使用本发明对街景图像进行语义分割，在保证分割精度的情况下，能大幅度提高语义分割的实时性，用于无人驾驶时能快速地对街景图像进行语义分割，并给出实时响应，提高了无人驾驶的安全性。

本发明的目的还在于提供一种存储和执行街景图像语义分割的电子设备及计算机可读介质。

本发明所采用的技术方案是，街景图像语义分割***，包括：

预处理模块，用于对精细标注的街景图像进行缩放、随机裁剪、随机翻转和归一化处理；

编码器，用于将预处理后的街景图像编码为尺寸、分辨率逐渐降低的五张输出特征图，并将后三张输出特征图输入多级特征联合上采样模块；

多级特征联合上采样模块，用于提取后三张输出特征图中的特征和上下文信息，并融合得到第二输出特征图；

金字塔池化模块，用于对第二输出特征图进行卷积处理，将其转换为低分辨率的第三输出特征图；

卷积分类器，用于将第三输出特征图划分为不同的对象，实现图像语义分割。

街景图像语义分割的方法，包括以下步骤：

步骤1，获取带有精细标注的街景图像，将其分为训练集、测试集和验证集，将街景图像输入预处理模块进行预处理和数据增强；

步骤2，预处理模块将处理后的训练集街景图像输入编码器，编码器对输入街景图像进行卷积操作和最大池化操作得到Conv1层-Conv5层的五张输出特征图，并将后三张输出特征图输入多级特征联合上采样模块；

步骤3，多级特征联合上采样模块分别采集后三张输出特征图中的特征和上下文信息，并对采集结果进行融合得到第二输出特征图；

步骤4，金字塔池化模块将第二输出特征图作为输入，对其进行卷积操作以将其转换为低分辨率的第三输出特征图；

步骤5，将第三输出特征图输入卷积分类器得到语义分割特征值；

步骤6，将语义分割特征值与精细标注进行对比，利用反向传播算法进行端到端训练，得到街景图像语义分割模型；

步骤7，将待测试的街景图像经预处理后，输入街景图像语义分割模型得到语义分割特征值，对语义分割特征值进行上采样得到语义分割图像。

进一步的，所述步骤1中预处理和数据增强包括：对训练集图像进行缩放、随机裁剪、随机翻转和归一化处理，对测试集和验证集图像进行缩放和归一化处理。

进一步的，所述步骤2中的编码器为轻量级网络FCN8s，依次由2组2个3×3的卷积操作、最大池化操作、3组3个3×3的卷积操作和最大池化操作组成；

所述五张输出特征图如下：Conv1层输出特征图的尺寸为原图像的二分之一，具有64个编码器；Conv2层输出特征图的尺寸为原图像的四分之一，具有64个编码器；Conv3层输出特征图的尺寸为原图像的八分之一，具有128个编码器；Conv4层输出特征图的尺寸为原图像的十六分之一，具有256个编码器；Conv5层输出特征图的尺寸为原图像的三十二分之一，具有512个编码器。

进一步的，所述步骤3具体包括以下步骤：

步骤31，分别对输入的三张特征图进行卷积处理生成三张第一中间特征图，对三张第一中间特征图进行上采样和拼接操作得到第一输出特征图；

步骤32，分别使用四个膨胀率不同的深度可分离卷积对第一输出特征图进行处理，得到四张第二中间特征图，将其输入卷积层进行堆叠、压缩得到第二输出特征图，所述深度可分离卷积的膨胀率分别为1、2、4和8。

进一步的，所述步骤4的具体操作如下，对输入的第二输出特征图进行跨步卷积，然后删除索引为奇数的元素得到第三中间特征图，再对其进行数次普通卷积得到第三输出特征图。

进一步的，所述步骤5中卷积分类器采用conv2d操作，其输入通道数为街景图像分割对象的个数，卷积核尺寸为1，卷积填充方式为same，激活函数为softmax。

进一步的，所述步骤6中所述反响传播算法使用Adam优化器，损失函数为sparse_categorical_crossentropy策略，初始学习率为0.001，学习率策略为逆时间衰减策略，权重衰减使用L2正则化，其中decay_steps＝74300，decay_rate＝0.5。

一种电子设备，包括处理器和存储器，所述处理器和存储器相互通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明的有益效果是：本发明实施例在已有语义分割网络的基础上，提出了一种更高效、实时性更好的语义分割方法，将轻量级网络FCN8s作为编码器输出多尺度特征图，然后使用多级特征联合上采样提取多尺度特征图中的特征和上下文信息，再使用跨步卷积和普通卷积进行特征提取，以获得较为全面的特征信息，使训练得到的语义分割模型语义分割精度较高，同时使用低分辨率的特征图近似高分辨率的特征图，以大幅度降低语义分割网络的运算量，增加网络的分割速度，进一步增强其在应用中的实时响应能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的实现流程图。

图2是本发明实施例的网络结构图。

图3是多级特征联合上采样模块的结构图。

图4是不同算法在Cityscapes数据集上的语义分割效果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

街景图像语义分割***包括依次连接的预处理模块、编码器、多级特征联合上采样模块、金字塔池化模块和卷积分类器，所述预处理模块用于对数据集中的图像进行缩放、随机裁剪、随机翻转和归一化操作；编码器为轻量级网络FCN8s，轻量级网络用于对图像特征进行编码，得到Conv1层、Conv2层、Conv3层、Conv4层和Conv5层的输出特征图，多级特征联合上采样模块用于提取Conv3层、Conv4层和Conv5层输出特征图中的特征和上下文信息，并对提取的特征信息进行融合得到第二输出特征图，金字塔池化模块用于对第二输出特征图进行卷积处理，将高分辨率的第二输出特征图转换为低分辨率的第三输出特征图，卷积分类器用于将特征图划分为不同的对象，实现图像语义分割。

实施例

如图1所示，街景图像语义分割方法，包括以下步骤：

步骤1，获取带精细标注的无人驾驶街景图像，将其划分为训练集、验证集和测试集；

选用奔驰公司发布的Cityscapes数据库作为无人驾驶的街景图像，其中包含50个城市在不同场景、背景、季节的街景图像，含有5000张分辨率均为1024×2048的精细标注图像，将精细标注图像分为2975张训练图、500张验证图和1525张测试图；

使用如下34类物体作为分割对象：unlabeled、ego vehicle、rectificationborder、out of roi、static、dynamic、ground、road、sidewalk、parking、rail track、building、wall、fence、guard rail、bridge、tunnel、pole、polegroup、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、caravan、trailer、train、motorcycle、bicycle、license plate；

对精细标注的街景图像进行预处理和数据增强；

Cityscapes数据库中的精细标注街景图像分辨率较大，对其直接进行语义分割会严重降低语义分割网络的运行速度，所以需将训练集的街景图像缩放成512×1024大小，再随机裁剪成512×512大小，对其进行随机翻转和归一化处理，将测试集和验证集的街景图像缩放成512×512的大小并作归一化处理；

步骤2，如图2所示，采用轻量级网络FCN8s做语义分割网络的编码器，对训练集的街景图像进行编码；

轻量级网络FCN8s具有编码语义信息准确、计算量小等特点，用其做编码器能减少算法在编码特征阶段的时间消耗，所述轻量级网络FCN8s依次由2组2个3×3的卷积操作操作、最大池化操作、3组3个3×3的卷积操作和最大池化操作组成；

输入的街景图像格式为H×W×3，每经过一次最大池化操作，图像的长和宽便会降为原来的二分之一，经过编码器生成的Conv1层输出特征图尺寸为原图像的二分之一，具有64个编码器，Conv2层输出特征图的尺寸为原图像的四分之一，具有64个编码器，Conv3层输出特征图的尺寸为原图像的八分之一，具有128个编码器，Conv4层输出特征图的尺寸为原图像的十六分之一，具有256个编码器，Conv5层输出特征图的尺寸为原图像的三十二分之一，具有512个编码器；

步骤3，使用多级特征联合上采样模块分别采集Conv3层、Conv4层和Conv5层输出特征图的上下文信息和特征，并对采集结果进行融合得到高分辨率的第二输出特征图；

如图3所示，多级特征联合上采样模块将编码器网络FCN8s的后三个特征图(Conv3-Conv5)作为其输入，分别对输入的三个特征图(Conv3-Conv5)进行卷积处理，生成三张第一中间特征图，将三张第一中间特征图放入一个更低维度的同一空间内，再对三张第一中间特征图进行上采样和拼接操作得到第一输出特征图，使多级特征图的上下文信息融合更好，第一输出特征图的计算复杂度降低；

之后分别使用四个深度可分离卷积提取第一输出特征图中的深层和浅层特征，得到四张第二中间特征图，再使用卷积层将四张第二中间特征图的channel堆叠在一起，压缩转换成正常channel大小的高分辨率的第二输出特征图；所述四个深度可分离卷积的膨胀率分别为1、2、4、8，使用膨胀率为1的深度可分离卷积捕获第一输出特征图与其分离特征图的关系，使用膨胀率为2、4、8的深度可分离卷积学习将第一输出特征图分离得到的特征图转换为第二输出特征图的映射；

本实施例使用多级特征联合上采样模块能避免参数量庞大的空洞金字池化网络与高分辨率的输出特征图做卷积计算大幅度降低分割速度，可以从多级特征映射中提取多尺度上下文信息，从而获得更好的性能，本实施例通过深度可分离卷积提取的特征编码了第一输出特征图分离得到的特征图与第一输出特征图的关系，及其与第二输出特征图的映射，再使用卷积层将四张第二中间特征图堆叠、压缩得到高分辨率的第二输出特征图，以提取、融合第一输出特征图的深层特征和浅层特征；

步骤4，将第二输出特征图输入金字塔池化模块，经卷积处理将高分辨率的第二输出特征图转换为低分辨率的第三输出特征图，以进一步提取其多尺度信息，提高网络分割不同尺度目标的能力；

金字塔池化模块包括跨步卷积和数次普通卷积，将第二输出特征图输入跨步卷积进行卷积处理，然后删除索引为奇数的元素得到第三中间特征图，对第三中间特征图进行数次普通卷积得到空间分辨率更低的第三输出特征图；

普通卷积的次数增多时，随着卷积的进行得到的特征图中包含的信息越抽象，具有更强的语义信息，感受野变大，但其分辨率降低，对细节的感知能力变差，卷积次数减少得到的特征图分辨率更高，包含更多的位置、细节等信息，但语义性降低、噪声更多，在操作过程中本实施例进行了5次普通卷积；

所述卷积分类器的构成为：采用conv2d操作，设置输入filters＝34，kernel_size＝1，padding＝‘same’，activation＝‘softmax’，filters为滤波器数，kernel_size为卷积核尺寸，padding为卷积填充方式，activation为激活函数；

在端到端训练过程中仅使用随机翻转和随机裁剪对语义特征值进行处理，反向传播算法使用Adam优化器，损失函数为sparse_categorical_crossentropy策略，初始学习率为0.001，学习率策略为逆时间衰减策略，权重衰减使用L2正则化，其中decay_steps＝74300，decay_rate＝0.5，代表每过100个epoch，学习率衰减为原来的三分之二；

步骤7，将待测试的街景图像下采样到512×512的大小，然后输入语义分割模型得到语义分割特征值，利用双线性插值对语义分割特征值进行上采样，将语义分割特征值还原成街景图像语义分割图像。

分别使用现有的各种语义分割算法和本实施例在Cityscapes数据库上进行语义分割，其评估指标如表1所示，其中指标Pix Acc和指标mIoU用于评估算法的语义分割精度，指标FPS用于评估算法的语义分割速度，由表1的数据可知，本实施例所述语义分割方法在不损失语义分割精度的情况下，能够极大的增加语义分割的运行速度，将其用于无人驾驶能够极大地提高无人驾驶的实时响应能力和驾驶安全性。

表1各算法在Cityscapes数据库上的不同评估指标对比

算法	主干网络	Pix Acc％	mIoU％	FPS(帧/s)
					Unet	VGG16	87.07	37.06	16.6
SegNet	VGG16	85.48	33.75	24.7
					Enet	From Seratch	85.75	30.46	37.8
PSPNet	Resnet101	89.24	41.65	11.2
					EncNet	Resnet101	92.68	45.65	13.6
Deeplab v3+	Resnet101	93.24	44.76	14.3
					本实施例	FCN8s	91.85	43.78	32.3

现有各种语义分割算法和本实施例在Cityscapes数据库的语义分割结果如图4所示，由图4可知本发明获得的分割结果与真实标签最为接近，没有出现分割标签错误的情况，且各分类对象的轮廓线较为清晰。

本发明还包含一种电子设备，包括存储器和处理器，所述存储器用于存储采集的街景图像以及对街景图像进行预处理、编码、特征提取、上采样等操作的各种计算机程序指令，所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤，实现对待处理街景图像的语义分割；电子设备可以与一个或多个外部设备通信，还可与一个或多个使用户与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信，电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信；本发明还包括一种存储有计算机程序的计算机可读介质，该计算机程序可以被处理器执行实现街景图像语义分割，所述计算机可读介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备，此外本发明所述的可读储存介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质，术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.街景图像语义分割***，其特征在于，包括：

2.使用如权利要求1所述的街景图像语义分割***进行街景图像语义分割的方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的街景图像语义分割方法，其特征在于，所述步骤1中预处理和数据增强包括：对训练集图像进行缩放、随机裁剪、随机翻转和归一化处理，对测试集和验证集图像进行缩放和归一化处理。

4.根据权利要求2所述的街景图像语义分割方法，其特征在于，所述步骤2中的编码器为轻量级网络FCN8s，依次由2组2个3×3的卷积操作、最大池化操作、3组3个3×3的卷积操作和最大池化操作组成；

5.根据权利要求2所述的街景图像语义分割方法，其特征在于，所述步骤3具体包括以下步骤：

6.根据权利要求2所述的街景图像语义分割方法，其特征在于，所述步骤4的具体操作如下，对输入的第二输出特征图进行跨步卷积，然后删除索引为奇数的元素得到第三中间特征图，再对其进行数次普通卷积得到第三输出特征图。

7.根据权利要求2所述的街景图像语义分割方法，其特征在于，所述步骤5中卷积分类器采用conv2d操作，其输入通道数为街景图像分割对象的个数，卷积核尺寸为1，卷积填充方式为same，激活函数为softmax。

8.根据权利要求2所述的街景图像语义分割方法，其特征在于，所述步骤6中所述反响传播算法使用Adam优化器，损失函数为sparse_categorical_crossentropy策略，初始学习率为0.001，学习率策略为逆时间衰减策略，权重衰减使用L2正则化，其中decay_steps＝74300，decay_rate＝0.5。

9.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求2-8任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求2-8任一所述的方法步骤。