CN110490884B

CN110490884B - 一种基于对抗的轻量级网络语义分割方法

Info

Publication number: CN110490884B
Application number: CN201910784087.9A
Authority: CN
Inventors: 杨金福; 武随烁; 李明爱; 单义
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2023-04-28
Anticipated expiration: 2039-08-23
Also published as: CN110490884A

Abstract

本发明涉及一种基于对抗的轻量级网络语义分割方法，用以解决预测准确率低，网络处理速度慢，难以达到实时预测的要求的问题。本发明从提升语义分割速度和精度的角度出发，提出一种基于对抗的轻量化语义分割方法。首先，通过减少通道数量，利用非对称卷积减少跳跃连接中参数量，空洞卷积增加特征图感受野，通道打乱操作提升网络信息获取能力，构建轻量级非对称的编码解码语义分割网络；然后，利用对抗思想，使用判别网络对分割图像和标定的语义标签进行判别，并设计判别损失函数和分割损失函数，通过反向传播的方法交替更新分割网络和判别网络，直至判别网络无法分辨分割网络生成的标注和真实标注，实现图像的语义分割。本发明利用轻量化模型和对抗思想使得分割网络确保实时性的同时，具有较高的分割精度。

Description

一种基于对抗的轻量级网络语义分割方法

技术领域

本发明属于计算机视觉图像语义分割领域，具体涉及一种基于对抗的轻量级网络语义分割方法。

背景技术

随着科技的发展，越来越多的诸如服务机器人送餐和无人驾驶等新技术应用于人们的生产生活中。在此背景下，研究人员在相关领域进行了大量研究。机器人送餐和无人驾驶都需要先建立对周围环境的感知，图像语义分割则能够帮助机器深入理解所处场景。图像分割是计算机视觉中的基本任务，也是实现机器对环境感知，乃至与人交互的基础，分割的有效性直接影响到机器智能化水平。图像语义分割旨在预测图像中所有位置的像素，为不同的类别赋予不同的标签，从而实现图像像素级分类。近年来，随着深度学习的发展和计算机硬件性能的提升，基于卷积神经网络(CNN)的语义分割算法取得了很好的效果。

尽管卷积神经网络在图像分类方面取得了较大成功，但其应用于图像像素级标注时，只能提供粗略的空间结果，因此需要与其他算法级联以实现细化。另一方面，现有的大多数分割模型都是通过增加参数来提高准确率，模型往往具有大量的超参数，运算时间较长，不适合用于移动平台上，无法满足如服务器人环境感知和无人驾驶等实时性应用的要求。例如，PSPNet^[1]模型虽然可以取得高达80％的精度，但每秒只能处理一张图像，远未能达到实时性的要求。

除了专注于提升分割精度的网络模型研究，有部分学者开始在模型处理速度上展开探索，试图通过减少参数量，设计能够在移动平台计算的轻量级网络模型，以满足实时性的要求。2016年，Adam等人^[2]提出了一种用于实时语义分割的深度神经网络体系结构(ENet)，与常用的对称编码解码网络不同的是，其编码器和解码器是不对称的。编码器是网络的主要结构，通过下采样进行信息处理和过滤，但下采样会降低特征图分辨率进而丢失细节信息。为了能够收集更多的信息，作者仅采用了8倍下采样，而非全卷积网络(FCN)^[3]使用的32倍下采样。解码器负责上采样输出结果，作者对网络中的卷积层和残差块进行修改，将通常高达上千万参数的模型减少到370万，大大提高了网络的预测速度。ENet虽然在语义分割速度方面取得了巨大的进步，每秒可处理70张图像，但其准确率下降也较明显，准确率只有58％。2017年，Zhan等人^[4]提出一种基于空间金字塔池化网络的图像级联网络(ICNet)，在适当的正确标签引导下，融合了网络中的不同分辨率特征图分支，实现实时语义分割67％的准确率，但每秒只能处理30张图像。2019年，Wang等人^[5]提出一种轻量化网络(LEDNet)，将残差网络的特征图通道打乱，能够减少计算量的同时收集更多的有用信息，在计算速度和准确率方面均有所提升，但是准确率也只有70％，实时语义分割的准确率的上升空间还很大。

综上所述，现有的实时语义分割方法虽然提升了语义分割速度，但都或多或少的牺牲了精度。参考文献：

[1]Zhao H,Shi J,Qi X,et al.Pyramid Scene Parsing Network[C]//Proccedings-30thIEEE Conference on Computer Vision and Pattern Recognition,CVPR 2017,Honolulu,HI,22-25July 2017.IEEE Conference on Computer Vision andPattern Recognition,2017,105-114.

[2]Paszke A,Chaurasia A,Kim S,et al.ENet:A Deep Neural NetworkArchitecture for Real-Time Semantic Segmentation[J].arXiv preprint axXiv:2016,1606.02147.

[3]Shellhamer E,Long J,Darrell T.Fully Convolutional Networks forSemantic Segmentation[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,IEEE Computer Society,2017,640-651.

[4]Zhao H,Qi X,Shen X,et al.ICNet for Real-Time Semantic Segmentationon High-Resolution Images[J].Computer Vision-ECCV 2018,Springer InternationalPublishing,Cham,2018,418-434.

[5]Wang Y,Zhou Q,Liu J,et al.LEDNet:A Lightweight Encoder-DecoderNetwork for Real-Time Semantic Segmentation[J].arXiv preprint axXiv:2019,1905.02423.

发明内容：

现有大多数语义分割网络都是通过增加参数量、使用更深的卷积神经网络等方式以提升准确率，网络处理速度慢，难以达到实时预测的要求。一些实时语义分割方法虽然提升了语义分割速度，但都或多或少的牺牲了精度。本发明从提高语义分割的速度和精度的角度出发，提出一种基于对抗的轻量级网络语义分割方法。首先，通过减少通道数量和减少跳跃连接中参数量，构建轻量级非对称的编码解码语义分割网络；然后，采用对抗思想，使用判别网络对预测标签和真实标签(ground truth)进行判别，并设计判别损失函数和分割损失函数，交替训练分割网络和判别网络，直至判别网络无法分辨分割网络生成的标注和真实标注，实现图像的语义分割。本发明利用轻量级模型和对抗思想使得分割网络在确保实时性的同时，具有较高的分割精度。

本发明的实施步骤如下：

步骤1：数据预处理

对数据集中的图像进行水平翻转、随机裁剪和多尺度变换，得到预处理的图像。

步骤2：构建轻量级语义分割网络

步骤2.1：构建编码网络。编码网络模型共18层，仅在网络的第1,5,8层做下采样，其他层都是上一层的同等映射，第8层以后的特征图通道数量保持在128。网络中的跳跃连接部分将输入的特征图通道分成三部分，每一部分进行的操作相同，都先通过一个3×1和一个1×3的非对称卷积提取图像特征，之后使用一个3×1和一个1×3的空洞卷积增加特征图感受野。将三部分特征图合并，最后利用通道打乱方法打乱跳跃连接输出的特征图通道，获取更多图像信息，以弥补因减少参数量而丢失的信息。

步骤2.2：构建解码网络。编码网络输出的特征图即为解码网络的输入，对该输入进行两种操作。

第一，利用卷积将输入特征图的通道数量从128减少到类别数量大小。

第二，将输入的特征图通过三次下采样，得到三种大小的特征图，三种特征图均通过卷积将通道数从128减少到类别数量大小，特征图从小到大分别记为a、b、c。对特征图a进行一次上采样后得到与b同等大小的特征图，并与b叠加后再进行上采样得到与c同等大小的特征图，并将其与c叠加后进行上采样得到的结果与第一步的结果叠加后进行上采样以恢复到原图像大小，输出结果即为预测的标注。

步骤3：构建基于对抗的语义分割网络

生成对抗网络包含两个子网络模型，分别是生成模型和判别模型。在一种基于对抗的轻量级网络语义分割方法中，生成网络即为步骤2搭建的轻量级分割网络，输入为真实场景图像，输出为预测标签图像。判别网络采用全卷积网络框架，它将预测标签图和真实标签图作为输入，对生成的预测标签和真实标签进行判别，输出置信图，其输出映射的每个像素p，表示该像素是从真实标签图(p＝1)还是从预测标签图(p＝0)采样。

步骤4：设计损失函数

损失函数包括两部分，即判别网络的损失函数和分割网络的损失函数。

给定大小为H×W×3的输入图像X_n，H和W是图像的高和宽，将步骤2搭建的分割网络表示为G(·)，X_n的预测概率图表示成大小为H×W×C的G(X_n)，C是类别编号。判别网络表示为D(·)，其输入是大小为H×W×C的概率图，输出大小为H×W×1的置信图。

步骤4.1：判别网络的损失函数

其中，(h,w)为像素点的位置。若样本是从分割网络中获取的，则y_n＝0，若样本来自正确标签，则y_n＝1。为了将离散的正确标签通过热编码方案转换为C通道的概率图，对于像素X_n ^(h,w)，如果其属于类别c，则Y_n ^(h,w)＝1，否则Y_n ^(h,w)＝0。

步骤4.2：分割网络的损失函数。

分割网络的损失函数可描述如公式(4)所示

L_seg＝L_ce+α_advL_adv (2)

其中，L_ce为交叉熵损失，L_adv为对抗损失，α_adv是权重系数，用于平衡交叉熵损失和对抗损失。

给定判别网络D(·)，通过对抗损失L_adv更新分割网络的参数

给定一张图像，对其真实标签Y_n ^(h,w)和预测标签G(X_n)^(h,w)，通过公式(4)获得交叉熵损失

步骤5：模型训练

网络训练通过交替训练分割网络和判别网络的方式进行。先由分割网络生成预测标签。之后训练判别网络，学***台采用NVIDIA GeForce GTXTITAN X GPU，网络搭建采用Pytorch框架，优化方法采用梯度下降法。

步骤6：预测

预测阶段，只使用训练好的对抗模型中的生成网络，即步骤2搭建的轻量级语义分割网络。对于给定的输入图像，利用训练好的分割网络，获取预测标签。

有益效果

网络计算复杂程度与特征图的大小、通道数，以及卷积核的大小、数量、步长密切相关。本方法通过减少特征图的通道数和卷积核的数量，大大减少了参数量，使用非对称卷积又进一步减少了一部分参数，可提升分割网络的处理速度。较少的参数量往往带来精度降低的后果，通过通道打乱操作，将跳跃连接输出的特征图通道顺序打乱，获取更多的图像信息，以弥补因参数量减少而丢失的信息，另外采用对抗思想，引导分割网络输出靠近正确标签的预测标签图，可提高语义分割的准确率。

附图说明：

图1基于对抗的轻量级网络语义分割方法总体框图

图2轻量级网络语义分割网络示意图

图3跳跃连接框图

图4部分实验结果图，

其中a1-a3为城市道路场景图像，b1-b3为真实标注图像，c1-c3为右本发明生成的预测结果。

具体实施方式

为了使本领域的人员能够更好的理解和使用本发明，下面将结合附图和具体实施案例对本发明的技术方案进行进一步描述。

1.数据预处理。数据集中每张图像需要有与其对应的标注图像，将图像分成训练、验证和测试三组。对这些数据集图像进行水平翻转、随机裁剪和多尺度变换，得到预处理的图像。

2.本发明提出的基于对抗的轻量级网络语义分割方法整体结构图如图1所示，主要包括两个部分：(1)给定输入图像，通过轻量级分割网络产生预测标签；(2)判别网络对预测标签和真实标签进行判别，将判别网络预测的概率与真实值的误差反向传播，引导并更新分割网络，使之生成更靠近正确结果的语义标签，再输入给判别网络进行判别。通过交替训练两个模型，最小化损失函数，直至判别网络无法分辨分割网络生成的预测标注和真实标注。

3.构建如图2所示的轻量级语义分割模型。先将输入图像编码，网络第1层进行下采样，经过三个同等映射层之后，在网络的第5层下采样，第6、7层为同等映射层，再在第8层做下采样，之后直至第18层都为同等映射层，第8层以后的特征图通道数量保持在128。相邻两层相同尺寸的操作如图3所示，将输入的特征图通道分成三部分，每一部分进行的操作相同，都先通过一个3×1和一个1×3的非对称卷积提取图像特征，之后使用一个3×1和一个1×3的空洞卷积增加特征图感受野，层与层之间使用ReLU激活函数，并在每个1×3卷积之后做归一化处理。最后通过通道打乱操作对特征图通道打乱。编码后的图像需要通过解码网络解码，解码过程分两步：(1)将特征图通道数量从128减少到类别数量大小。(2)将编码网络的输出通过下采样三次，得到三种大小的特征图，三种特征图都首先通过卷积将通道数减少类别数量大小，特征图从小到大记做a、b、c。特征图a经上采样一次后得到与b同等大小的特征图，与b叠加之后再上采样得到与c同等大小的特征图，其与c叠加之后上采样得到的结果与(1)叠加后上采样恢复到原图像大小，输出结果即为预测标注图。

4.本方法采用的基础框架是生成对抗网络，生成网络为搭建的轻量级语义分割网络模型，输入真实场景图像，输出带标签的图像。判别网络采用全卷积网络框架，它将预测标签图和真实标签图作为输入，输出空间概率图，其输出映射的每个像素p，表示该像素是从真实标签图(p＝1)还是从预测标签图(p＝0)采样，全卷积网络可接受任意大小的输入，这对实现对抗性学习至关重要。

5.根据语义分割网络生成的预测标签和判别网络输出的置信优化优化模型。针对判别网络构建判别损失函数，针对分割网络构建对抗损失和交叉熵损失。先通过判别网络学习预测标签和正确标签的差异，再结合交叉熵损失引导分割网络生成更靠近真实标签的预测结果。通过交替训练判别网络和分割网络，可不断获取图像信息，直至判别网络无法分辨分割网络生成的标注和真实标注，提高语义分割的准确率。

6.本发明的部分实验结果如图4所示，其中左列为输入的城市道路场景图像，中间列是其对应的真实标注图像，右列是我们的方法生成的预测结果。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的示例对本发明已进行了详细的说明，但是本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于对抗的轻量级语义分割方法，步骤如下：

步骤1：数据预处理

对数据集中的图像进行水平翻转、随机裁剪和多尺度变换，得到预处理的图像；

步骤2：构建轻量级语义分割网络

步骤2.1：构建编码网络；编码网络模型共18层，仅在网络的第1,5,8层做下采样，其他层都是上一层的同等映射，第8层以后的特征图通道数量保持在128；网络中的跳跃连接部分将输入的特征图通道分成三部分，每一部分进行的操作相同，都先通过一个3×1和一个1×3的非对称卷积提取图像特征，之后使用一个3×1和一个1×3的空洞卷积增加特征图感受野，将三部分特征图合并，最后利用通道打乱方法打乱跳跃连接输出的特征图通道，获取更多图像信息，以弥补因减少参数量而丢失的信息；

步骤2.2：构建解码网络；编码网络输出的特征图为解码网络的输入，对该输入进行两种操作：

第一，利用卷积将输入特征图的通道数量从128减少到类别数量大小；

第二，将输入的特征图通过三次下采样，得到三种大小的特征图，三种特征图均通过卷积将通道数从128减少到类别数量大小，特征图从小到大分别记为a、b、c，对特征图a进行一次上采样后得到与b同等大小的特征图，并与b叠加后再进行上采样得到与c同等大小的特征图，并将其与c叠加后进行上采样得到的结果与第一步的结果叠加后进行上采样以恢复到原图像大小，输出结果为预测的标注；

步骤3：构建基于对抗的语义分割网络

生成对抗网络包含两个子网络模型，分别是生成模型和判别模型，所述的生成模型为步骤2搭建的轻量级分割网络，输入为真实场景图像，输出为预测标签图像；判别网络采用全卷积网络框架，它将预测标签图和真实标签图作为输入，对生成的预测标签和真实标签进行判别，输出置信图，其输出映射的每个像素p，表示该像素是从真实标签图还是从预测标签图采样；

步骤4：设计损失函数

损失函数包括两部分，判别网络的损失函数和分割网络的损失函数，

给定大小为H×W×3的输入图像X_n，H和W是图像的高和宽，将步骤2搭建的轻量级分割网络表示为G(·)，X_n的预测概率图表示成大小为H×W×C的G(X_n)，C是类别编号，判别网络表示为D(·)其输入是大小为H×W×C的概率图，输出大小为H×W×1的置信图；

步骤4.1：判别网络的损失函数

其中，(h,w)为像素点的位置，若样本是从分割网络中获取的，则y_n＝0，若样本来自正确标签，则y_n＝1；对于像素X_n ^(h,w)，如果其属于类别c，则Y_n ^(h,w)＝1，否则Y_n ^(h,w)＝0；

步骤4.2：分割网络的损失函数

分割网络的损失函数描述如公式(2)所示

L_seg＝L_ce+a_advL_adv (2)

其中，L_ce为交叉熵损失，L_adv为对抗损失，α_adv是平衡交叉熵损失和对抗损失的权重系数；

给定判别网络D(·)，通过对抗损失L_adv更新分割网络的参数

步骤5：模型训练

网络训练通过交替训练分割网络和判别网络的方式进行，先由分割网络生成预测标签，之后训练判别网络，学***台采用NVIDIA GeForce GTXTITAN X GPU，网络搭建采用Pytorch框架，优化方法采用梯度下降法；

步骤6：预测

对于给定的输入图像，利用训练好的对抗模型中的生成网络，获取预测标签。