CN109902809A

CN109902809A - 一种利用生成对抗网络辅助语义分割模型

Info

Publication number: CN109902809A
Application number: CN201910154150.0A
Authority: CN
Inventors: 郭子豪; 王永松; 郑云彬; 高峰; 刘丹
Original assignee: Chengdu Kang Qiao Electronic LLC; University of Electronic Science and Technology of China
Current assignee: Chengdu Kang Qiao Electronic LLC; University of Electronic Science and Technology of China
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-06-18
Anticipated expiration: 2039-03-01
Also published as: CN109902809B

Abstract

本发明创造提供一种利用生成对抗网络辅助语义分割模型，包括基于VGG/ResNet50设计的语义分割生成模型；输入原图，真实分割图以及生成分割图的对抗模型；增加对抗损失项的损失函数；在原有的交叉熵分类损失函数的基础上增加对抗损失项，对抗损失项通过二值交叉熵函数进行定义。本发明主要是通过生成对抗网络结构辅助语义分割模型提升分割精度，利用对抗模型强大的特征学习能力，区分生成分割图与真实分割图的特征区别，并拉近双方所属的数学分布，使得生成模型在训练中逐步学习到像素间关系，增强分割图像中像素的空间连续性，提高分割精度。同时又还避免了一般后处理技术提升分割精度所带来的时间成本。

Description

一种利用生成对抗网络辅助语义分割模型

技术领域

本发明创造属于深度学习语义分割技术领域，尤其是涉及一种利用生成对抗网络辅助语义分割模型。

背景技术

语义分割是计算机视觉领域中的经典难题之一，其目标是对给定图像进行像素级标注。它是图像理解的基石技术之一，在自动驾驶***，无人机应用，穿戴式设备应用，VR技术等方面具有重要作用。现阶段最先进的语义分割技术均利用卷积神经网络实现，通过卷积强大的特征提取能力和学习能力提取图片中的语义信息和空间信息。然而，无论是全卷积网络结构的分割模型，还是由U-Net 开创的U-Shape结构的分割模型，在模型训练中预测像素标签时每一个像素的预测结果均与其他像素无关。而对于像素间关系的学习则常用各种后处理技术，以增强分割图片的空间连续性。如全连接条件随机DenseCRF，CRFasRNN等。然而这些后处理技术实现困难复杂，运行速度较慢，因此很难运用在视频分割或实时分割中。

发明内容

本发明创造要解决的问题是旨在克服上述现有技术中存在的缺陷，提出一种利用生成对抗网络辅助语义分割模型。

为解决上述技术问题，本发明创造的技术方案是这样实现的：

一种利用生成对抗网络辅助语义分割模型，包括：

基于VGG/ResNet50设计的语义分割生成模型；

通过使用VGG以及ResNet50等经典分类网络作为特征提取器，并将最后数层全连接层转换为卷积层，使得原有的分类网络转变为全卷积网络；通过模型最终层输出的特征图，进行反卷积或双线性插值等方式放大，获得当前输入图片对应的分割图片；

输入原图，真实分割图以及生成分割图的对抗模型；

对抗模型由图片特征提取器、分割特征提取器以及特征融合器组成；使用 VGG/ResNet50等经典分类网络的浅层部分对图片提取的特征，与分割特征提取器提取的分割特征进行整合，并输入到特征融合器中进行判别；

增加对抗损失项的损失函数；

在原有的交叉熵分类损失函数的基础上增加对抗损失项，对抗损失项通过二值交叉熵函数进行定义，当生成模型输出的生成分割图越接近真实分割图，则对抗损失项中生成模型的计算损失会降低，而对抗模型的计算损失会升高。反之亦然。从而提升生成模型的生成效果。

进一步，全连接层的权重通过变形转换为对应全卷积层的卷积核参数。

进一步，第一层反卷积所接收的特征图相较于原图缩放了32倍，通过反卷积放大后与第3个block输出的特征图进行合并并融合成新的特征图，以此类推，对与第2个block输出的特征图融合后得到的新特征图进行8倍的插值放大操作，以获得更为精细的分割效果。

进一步，ResNet50在不增加网络参数量的前提下，将第3和第4两个block 中的标准卷积层替换为空洞卷积层，以此增加特征图的感受野范围。

进一步，空洞卷积核在核中通过***0的方式来扩大卷积核的尺寸。

进一步，在原有的ASPP模块中引入全局平均池化层，对一张特征图上所有的像素点取平均值，使原特征图实质上会成为特征向量，再通过卷积层进行特征重组后重新放大,并与其他特征图进行合并，通过平均整张特征图，过滤了大量细节信息，而只抽取特征图的总体信息，并且由于滑动窗口覆盖了整张特征图，将下一层卷积的感受野扩大至全图。

进一步，对抗模型通过判断输入分割特征图中是否含有0和1即可判断当前特征图的来源。

本发明创造具有的优点和积极效果是：

本发明主要是通过生成对抗网络结构辅助语义分割模型提升分割精度，通过将生成模型生成的生成分割图与来源数据集的真实分割图输入到对抗模型中，利用对抗模型强大的特征学习能力，区分生成分割图与真实分割图的特征区别，并拉近双方所属的数学分布，使得生成模型在训练中逐步学习到像素间关系，增强分割图像中像素的空间连续性，提高分割精度。同时，无需改变原有分割模型的结构，参数量和计算量，避免了一般后处理技术提升分割精度所带来的时间成本。

附图说明

图1是本发明模型的总体结构图；

图2是基于VGG16的生成模型结构图；

图3是基于ResNet50的生成模型结构图；

图4是标准卷积与空洞卷积结构对比图；

图5是对抗网络模型结构图；

图6是语义分割效果对比图。

具体实施方式

需要说明的是，在不相冲突的情况下，本发明创造中的实施例及实施例中的特征可以相互组合。

为了帮助模型学习像素间关系，提升模型分割精度，同时不增加模型结构，参数量，不改变模型运行时间。本发明提供了一种利用生成对抗网络辅助语义分割模型学习像素间关系的应用结构，能够使得原始模型生成的分割图片增强空间连续性。下面对本发明创造的具体实施例做详细说明。

一种利用生成对抗网络辅助语义分割模型，如图1至6所示，包括：

1.基于VGG/ResNet50设计的语义分割生成模型

传统VGG模型为图像分类模型，在模块4之后均为三层全连接层。而特征图在进入全连接层之前，会进行一次维度变换，将y轴的特征向量均连接在一起，从特征图变为了空间向量。

这样做有利于语义特征的提取，却大大破坏了物体的空间结构特征，而语义分割需要同时获取物体的语义特征和空间特征。因此为了保持特征图的空间特征，将网络的全连接转变成全卷积层，全连接层的权重可以通过变形转换为对应全卷积层的卷积核参数。如对于模块5的全卷积层，对应先前全连接层的权重形状为(25088,4096)。

由于全连接层输入的特征向量形状为(25088,)，由形状为(7,7,512)的特征图变形而来，因此可以设置全卷积层的卷积核尺寸为(7,7)，输入通道为512，输出通道为4096，再将全连接层的权重进行形状变换后嫁接过来即可。并且，第一层反卷积所接收的特征图相较于原图缩放了32倍，如果直接使用该特征图进行反卷积放大直原图，会使得分割效果较差。因此通过反卷积放大后与第3个 block输出的特征图进行合并并融合成新的特征图。

以此类推，对与第2个block输出的特征图融合后得到的新特征图进行8 倍的插值放大操作，可以获得更为精细的分割效果。

基于VGG的生成模型结构图如图2所示。而对于ResNet50，在不增加网络参数量的前提下，将第3和第4两个block中的标准卷积层替换为空洞卷积层，以此增加特征图的感受野范围。标准卷积核与空洞卷积核的结构对比如图3所示。空洞卷积核相较于标准卷积核，其核参数量并没有发生变化，而是在核中通过***0的方式来扩大卷积核的尺寸。

在图4中，当前卷积核的感受野由原来的3X3变化到5X5，并且随着层数的增加，深层卷积核的感受野尺寸将会指数级上升。感受野扩大会使得深层特征图中的每一个像素均可获取浅层特征图中更多的信息，因此分割的精细程度得到提高。同时在原有的ASPP模块中引入全局平均池化层，成为增强型ASPP。全局平均池化层等同于滑动窗口尺寸为特征图全图的平均池化层，对一张特征图上所有的像素点取平均值，因此通过全局平均池化层，原特征图实质上会成为特征向量，再通过卷积层进行特征重组后重新放大,并与其他特征图进行合并。

全局平均池化操作在实验被证明是一个有效操作，在计算中通过平均整张特征图，过滤了大量细节信息，而只抽取特征图的总体信息，并且由于滑动窗口覆盖了整张特征图，因此将下一层卷积的感受野扩大至全图。G-VGG16与 G-ResNet50的详细网络结构对比如表1所示。

表1生成模型结构表

2.输入原图，真实分割图以及生成分割图的对抗模型

在对抗模型中，与一般对抗模型只输入生成结果与真实结果不同，原图同时也被输入到模型当中，通过特征提取器进行特征提取后与分割图特征进行合并。由于对抗模型需要判断分割图的来源，而分割图本身空间结构简单，语义信息高度概括，因此若直接输入真假分割图进行对抗训练，容易导致对抗模型通过细节区别快速收敛，而并非如期望中能够学到像素间的高阶关系。如对于输入模型的真实分割图会先进行one-hot变换，将其变成一个H×W×classes的特征图，其中对于每一个像素，描述它的特征向量仅在像素所属类别的维度值为1，其余均为0，而生成模型传递的生成分割图也为一个H×W×classes的特征图，而该特征图在 classes维度上所有数值均为0～1之间的浮点数。因此，对抗模型仅凭通过判断输入分割特征图中是否含有0和1即可判断当前特征图的来源。

为了解决这一问题，一方面增加了对于原始图片特征的提取，利用特征提取器(如VGG/ResNet中的前几层)对图片进行特征提取，得到图片的一类低级特征。同时由于分割图已经是信息经过提炼，较为抽象的特征图，使用深层网络会使得信息损失更加严重，因此使用一个较浅的小网络对其进行特征变换，得到第二类低级特征。然后将两类低级特征进行合并，再使用卷积神经网络进行特征融合。

另一方面，通过对真实分割图的one-hot特征图进行放缩变化，将01的特征向量转变为浮点数的特征向量。对于真实分割图中的像素i，假设其one-hot 的特征向量为v_i，进行放缩后的特征向量为则设定一个固定值ε，表示特征向量中值为1的向量维(假设位置为l)在进行放缩变化后值最低不能小于ε。同时获得生成分割图中相同位置像素的特征向量u_i，那么中位置为l的向量值为

而中其他位置c的向量值为

通过以上的放缩变换，当生成分割图中的像素类别预测正确，且概率超过ε时，真实分割图中相同位置的像素所变换的特征向量将与生成分割图中完全相同。若低于ε，则按照比例为其他维度增加概率值。

通过这两方面操作，进一步缩小真实分割图与生成分割图间的显著区别，增大了对抗网络区分真假样本的难度，帮助生成模型寻找像素间的空间连续性。

此外，为了进一步增强对抗模型的区分能力，不同于一般对抗网络将最后一层的特征图完全合并后直接进行sigmoid归一化操作，输出0或1的均值。而是在最后一层将特征图的尺寸转化为4*4的评判图，每一个小格代表当前区域属于真实分割图还是合成分割图的概率。对每一个小格单独进行归一化操作可以防止当分割图仅在某一部分出现严重偏差时对特征图全局进行梯度调整，提升了模型的鲁棒性。

表2对抗模型结构表

3.增加对抗损失项的损失函数

由于在语义分割中引入了生成对抗模型结构，在训练中，会对生成网络和对抗网络分别进行训练，以达到互相对抗互相调整的目的。因此需要设计两个损失函数，分别用于对生成模型和对抗模型的训练中。并且在训练中，当训练某一方模型时需要将另一方模型的权重固定住，使其不变。

对于生成模型，使用多类别交叉熵损失函数来训练模型对每一个像素单独进行类别判断。假设输入图像为H×W×3的RGB图像x，通过生成模型变化后得到的分割图片为因此，单独训练生成模型的损失函数定义如下。

其中y表示当前像素值所属类别的one-hot形式表示。在将生成模型训练至收敛后，引入生成对抗模型进行训练。在生成对抗模型中，训练生成模型时首先将图像x输入到生成模型中，生成的分割结果g(x)与图像x一同输入到对抗模型中，并使用二值交叉熵损失函数计算其对抗结果d(g(x),x)所计算得到的loss。二值交叉熵损失函数的定义如下。

由于生成模型的任务是需要欺骗当前对抗模型，使其无法区分输入对抗模型中的分割图片的来源，因此对g(x)的标签为1(表示来源为数据集)。

故对于对抗模型的损失函数项为+loss_bce(1,d(g(x)))，而使用 -loss_bce(0,d(g(x)))能够使得对抗模型在判断分割图片的来源是真实还是合成时生成模型的梯度下降能够更为稳定。因此在生成对抗结构下训练生成模型的损失函数定义如下。

loss_g＝loss_mce(y,g(x))-loss_bce(0,d(g(x),x))

当训练对抗模型时，由于对抗模型需要区分输入模型的分割图片是属于真实的还是合成的，因此对于由生成模型合成的分割图片，其标签为0，而从数据集中真实取得的分割图片，其标签为1。期望对抗网络在输入的分割图片为真实的情况下，预测值能够接近1，而在输入的分割图片为合成的情况下，预测值能够接近0。因此训练对抗模型的损失函数定义如下。

loss_d＝loss_bce(1,d(y,x))+loss_bce(0,d(g(x),x))

因此对于训练集中含有N张图片，第x_i张图片对应的分割图片y_i，因此整个模型的损失函数定义如下：

其中λ为超参数，用于调节对抗网络在初期训练时提供的损失大小。

由于初期生成模型生成效果已经较好，而对抗模型由于仍处于初始化状态，初期提供的损失较大，因此需要通过超参数对其进行调整，以减小对抗损失对于生成模型调整的梯度大小。

对于本领域技术人员而言，显然本发明创造不限于上述示范性实施例的细节，而且在不背离本发明创造的精神或基本特征的情况下，能够以其他的具体形式实现本发明创造。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明创造的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明创造内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种利用生成对抗网络辅助语义分割模型，其特征在于，包括：

基于VGG/ResNet50设计的语义分割生成模型；

通过使用VGG以及ResNet50作为特征提取器，并将最后数层全连接层转换为卷积层，使得原有的分类网络转变为全卷积网络；通过模型最终层输出的特征图，进行反卷积或双线性插值等方式放大，获得当前输入图片对应的分割图片；

输入原图，真实分割图以及生成分割图的对抗模型；

对抗模型由图片特征提取器、分割特征提取器以及特征融合器组成；使用VGG/ResNet50的浅层部分对图片提取的特征，与分割特征提取器提取的分割特征进行整合，并输入到特征融合器中进行判别；

增加对抗损失项的损失函数；

在原有的交叉熵分类损失函数的基础上增加对抗损失项，对抗损失项通过二值交叉熵函数进行定义，当生成模型输出的生成分割图越接近真实分割图，则对抗损失项中生成模型的计算损失会降低，而对抗模型的计算损失会升高。

2.根据权利要求1所述的一种利用生成对抗网络辅助语义分割模型，其特征在于：全连接层的权重通过变形转换为对应全卷积层的卷积核参数。

3.根据权利要求1所述的一种利用生成对抗网络辅助语义分割模型，其特征在于：第一层反卷积所接收的特征图相较于原图缩放了32倍，通过反卷积放大后与第3个block输出的特征图进行合并并融合成新的特征图，以此类推，对与第2个block输出的特征图融合后得到的新特征图进行8倍的插值放大操作，以获得更为精细的分割效果。

4.根据权利要求3所述的一种利用生成对抗网络辅助语义分割模型，其特征在于：ResNet50在不增加网络参数量的前提下，将第3和第4两个block中的标准卷积层替换为空洞卷积层，以此增加特征图的感受野范围。

5.根据权利要求4所述的一种利用生成对抗网络辅助语义分割模型，其特征在于：空洞卷积核在核中通过***0的方式来扩大卷积核的尺寸。

6.根据权利要求1至5任一项所述的一种利用生成对抗网络辅助语义分割模型，其特征在于：在原有的ASPP模块中引入全局平均池化层，对一张特征图上所有的像素点取平均值，使原特征图实质上会成为特征向量，再通过卷积层进行特征重组后重新放大,并与其他特征图进行合并，通过平均整张特征图，过滤了大量细节信息，而只抽取特征图的总体信息，并且由于滑动窗口覆盖了整张特征图，将下一层卷积的感受野扩大至全图。

7.根据权利要求1至5任一项所述的一种利用生成对抗网络辅助语义分割模型，其特征在于：对抗模型通过判断输入分割特征图中是否含有0和1即可判断当前特征图的来源。