CN110322445B

CN110322445B - 基于最大化预测和标签间相关性损失函数的语义分割方法

Info

Publication number: CN110322445B
Application number: CN201910505928.8A
Authority: CN
Inventors: 赵帅; 蔡登�; 武伯熹
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2021-06-22
Anticipated expiration: 2039-06-12
Also published as: CN110322445A

Abstract

本发明公开了一种基于最大化预测和标签间相关性损失函数的语义分割方法，包括：(1)将真实场景图片输入分割模型，获得预测图片；(2)用一个高斯核函数在预测图片和标签图片上进行滑动卷积，获得局部统计特征；(3)根据得到的局部统计特征，计算预测图片和标签图片中对应区域间的线性相关性强弱；(4)将线性相关性强弱的指标作为权重，调整图片中像素点的交叉熵损失的值并进行困难样本挖掘；(5)根据获得的损失值更新分割模型中的权重参数；(6)重复上述步骤直到训练结束，并进行语义分割的应用。利用本发明，可以使得分割模型在训练过程中，更多的关注那些导致预测和标签间低相关性的点，从而提升分割模型的图像分割效果。

Description

基于最大化预测和标签间相关性损失函数的语义分割方法

技术领域

本发明属于计算机视觉中的图像语义分割领域，尤其是涉及一种基于最大化预测和标签间相关性损失函数的语义分割方法。

背景技术

语义分割是计算机视觉领域的一个基本问题，在无人驾驶、医疗影像分析、地理信息***、机器人等领域中具有广泛的应用场景。实际中，图像的语义分割通常被考虑为图像中点的多分类问题，目标是将既定的语义标签分配给图像中的每个像素点。近年来，随着卷积神经网络的发展和各种具有较强学***均分类损失来进行训练和优化。最常用的语义分割损失函数是softmax交叉熵损失函数：

其中，N是图片中像素点的数目，C是待分类物体的类别数目，y∈{0,1}是类标签，代表着像素点的真实类别，p∈[0,1]是分割模型预测的概率，p通常由softmax操作给出。从以上公式可以看出，逐像素的交叉熵损失将图像中的点当作相互独立的样本，并将所有点的平均交叉熵损失作为模型预测结果的总损失。然而，图像中的点存在很强的依赖性，这些点与点之间的依赖关系隐藏着物体的结构信息。由于逐像素的损失函数忽略了点与点之间的关系，当前景的视觉特征较微弱或当像素点属于具有较小空间结构的物体时，由逐像素的损失函数监督所训练出的语义分割模型的分割效果通常不太理想。

为了利用图像中所包含的物体的结构信息，在2012年第26届神经信息处理***进展大会Conference on Neural Information Processing Systems上的文章《EfficientInference in Fully Connected CRFs with Gaussian Edge Potentials》提出了一种高效的全连接条件随机场(Conditional Random Field,CRF)来拟合图像中的点与点之间的关系，并且驱使在真实图像中具有相似视觉外观的点的预测结果更加一致。但是，在CRF被当做一个后处理步骤时，它通常具有耗时的迭代推理过程并且对视觉外观变化敏感。

在2016年第30届神经信息处理***进展大会关于对抗学习的研讨会Conferenceon Neural Information Processing Systems Workshop on Adversarial Training上的文章《Semantic Segmentation using Adversarial Networks》提出用对抗学习网络(GAN)的思想来训练分割模型，用一个额外的判别器网络来判断分割模型的预测图片与标签图片是否具有高层次的结构一致性。然而，GAN通常难以训练，并且在训练阶段需要较多的内存来同时存放深层的生成器网络和判别器网络。

在2018年的欧洲计算机视觉国际会议European Conference on ComputerVision上的文章《Adaptive Affinity Fields for Semantic Segmentation》提出了一种关联邻域损失(Affinity Field Loss)函数，这个损失函数对那些属于同一类别物体的邻居点的预测施加一个趋同的力，使得这些点的预测趋向相似；对不属于同一类物体的邻居点的预测施加一个分散的力，使得这些点的预测趋向不相似。由此可以增大邻居的同类点的预测相似度以及邻居的不同类点的不相似度，达到较好的分割效果。然而这种方法在计算损失函数的值时，需要保存邻居点对矩阵，一般需要数倍于原来计算损失函数值所需的内存空间。

发明内容

基于现有技术的不足，本发明提出了一种基于最大化预测和标签间相关性损失函数的语义分割方法，使分割模型输出的预测图片与标签图片间的相关性最大化，从而使二者达到较高的结构相似性，提高分割模型的分割效果。

一种基于最大化预测和标签间相关性损失函数的语义分割方法，包括：

(1)将真实场景图片输入分割模型，获得预测图片；

(2)用一个高斯核函数在预测图片和标签图片上进行滑动卷积，获得局部统计特征，包括局部的均值和方差；

(3)根据得到的局部统计特征，计算预测图片和标签图片中对应区域间的线性相关性强弱；

(4)将线性相关性强弱的指标作为权重，调整图片中像素点的交叉熵损失的值并进行困难样本挖掘；

(5)计算每个训练批次中困难样本的结构损失函数，并进一步计算用于优化分割模型的总损失函数，更新分割模型中的权重参数；

(6)重复上述步骤(1)至步骤(5)，达到预设训练次数后结束训练，并将训练完毕的模型进行语义分割的应用。

对于两张图片或者图片块x和y而言，结构相似性指标SSIM常用的形式如下：

其中，3个部分分别是光照强度相似度的衡量、对比度相似度的衡量和结构相似度的衡量，μ_x、σ_x和σ_xy分别是x的均值、x的方差以及x与y的协方差，C₁、C₂和C₃是用来稳定每个分量的正数，它们的值极小。当约束C₃＝C₂/2时，又可进一步获得SSIM的另外一种简化形式。从上面的公式中可以看出，SSIM能够衡量图片结构相似性的关键在于其第三个部分，而这部分实际上就是变量x和y之间的皮尔逊相关系数：

然而，SSIM并不适合直接用来作为语义分割模型的损失函数，因为在语义分割的语境中，SSIM并不是一个凸函数，因此它并不易于优化，模型可能并不会收敛于一个局部的极小值点。基于以上分析，本发明提出了适用于语义分割的最大化预测图片和标签图片相关性的结构损失函数。

步骤(2)中，采用一个标准差为1.5的高斯核函数w＝{w_i|i＝1,2,...,k²}(权重的值被归一化到1，

)来估计局部统计特征：

其中，μ_y和

分别为标签图片的局部均值和局部方差，y_i∈{0,1}代表标签图片中像素点的值。预测图片的局部均值和方差的计算公式和上述公式一样。

利用这个高斯核函数在分割模型的预测图片和标签图片中逐像素的进行滑动卷积，就可以获得图片的局部统计特征。利用这种方式获得的局部统计特征具有各向同性，有利于后续步骤的进一步操作。

步骤(3)中，对于一个形状为H×W×C的标签图片(H、W和C分别是这个标签图片的高、宽和通道数目)，它被视为C张二值图像。基于此，用于衡量预测图片和标签图片间线性相关性强弱的指标为：

其中，误差e为两个局部区域间相关性强弱的表征，e越小，相关性越强；μ_y和σ_y分别是标签图片的局部均值和局部标准差，标签y对应的像素点位于这个局部区域的中心，p是分割模型预测的概率，C₄＝0.01是一个稳定因子。两个局部区域间的总的误差e可用来衡量这两个区域间的线性相关程度，总的误差e越小，两个局部区域间越有可能是正相关关系，这也意味着这两个区域的结构极有可能是一致的；反之当误差e较大，说明两个区域之间的结构极有可能是不一致的。因此，误差e可以被视为两个局部区域的结构差异性的衡量。

因为标签图片y取值范围为{0,1}，这意味着y²＝y，将这个结果带入方差计算公式可得，

因而可进一步得到：

其中，y^nor是局部归一化后的值。假如我们求y^nor关于μ_y的导数，我们就可以比较明显的发现，当y＝1且局部区域中其他点值为0时，y^nor取得极大值

当y＝0且局部区域中其他点值为1时，y^nor取得极小值

预测图片p的分布往往不如标签图片y的分布极端，其归一化后的值p^nor的极值

和

的绝对值的大小，分别小于对应的

和

的绝对值。

图像的统计特征在空间上常常是不稳定的，经常会有突变的情况。此外，全局的均值和方差是旋转不变的，一张图片旋转前后它的均值和方差并不会产生变化，这对于衡量两张图片的结构相似性而言并不理想。因此，为了更好地捕捉图像的局部细节，本发明采用了局部统计特征而不是全局统计特征。

步骤(4)中，调整图片中像素点的交叉熵损失的值并进行困难样本挖掘所使用的公式如下：

f_n,c＝1{e_n,c>βe_max},

其中，n和c代表当前像素点在图片中的坐标，e_max是误差e的理论最大值；当内部条件为真时，1{·}等于1，反之为0；β∈[0,1)是用来选择要被抛弃的样本的权重因子，y_n,c和p_n,c分别是当前像素点对应的标签和预测概率，

是常规的sigmoid交叉熵损失函数，

是可以最大化预测和标签间相关性的结构损失函数。实际中，β的值被设置为0.1，这是一个经验值。将误差e当做权重来调整图像中像素点的常规的交叉熵损失的值，是为了让分割模型在训练时，将更多的注意力集中在那些可能会导致预测图片和标签图片不一致的预测上，增强预测图片和标签图片的一致性。在这里，我们仍然沿用了交叉熵损失函数，这是因为对数函数损失在一些文献中，已被实验性的证明是一个非常适用于深度神经网络分类器的损失函数。

在重新调整权重的同时，本发明所提出的损失函数抛弃了那些具有较低误差值的样本点。这是因为在训练过程中，一个批次中的图像可能包含数百万甚至数千万的样本点。在训练的后期阶段，分割模型通常可以获得一个较高的像素精度值(例如，96％)和一个相对较低的平均交叉联合(mean intersection-over-union，mIoU)分数(例如，78％)。这种现象表明，容易分类的样本主导了损失并使的分割模型的训练效率变得低下。因此，我们将具有较小结构差异性e的样本视为简单样本，并在训练期间抛弃它们，也就是说这些简单样本并不参与最后的结构损失函数值的计算。最后的结果就是，导致标签图片y和预测图片p之间产生低线性相关性的困难样本(结构差异性e较大的样本)进一步得到更多关注。这在一些文献中被称为困难样本挖掘(online hard example mining,OHEM)策略。

还有一点值得注意的是，本发明所提出的损失函数提取了局部的统计特征作为额外的监督信息。因此，本发明所提出的损失函数，是一个逐区域的损失函数，这与一般的逐像素的损失函数有着本质上的区别。而采用本发明所提出的损失函数进行训练的模型，训练时也将处于局部的统计特征信息的监督下。

步骤(5)中，单个批次中困难样本的结构损失函数为：

其中，

是困难样本的数目，当位于图片坐标(n,c)的像素点为困难样本时，f_n,c为1，反之，其值为0，N是图片中总的像素点数目，C代表物体的类别数目。累加并平均每个像素的结构损失函数值，即可得到当前训练批次的总的结构损失函数值。由于在计算结构差异性时，标签图片每个通道的二值图片和其对应的预测图片的差异性是独立计算的。这意味不同通道的二值图片被视为是相互独立的，不同二值图片中的点自然也是相互独立的，因此在计算结构损失函数的值时，我们选用了sigmoid操作而不是softmax操作，在选取和计算困难样本的数目时，也是在整个二值图片中所有的样本点的范围内进行。

最后，用于优化分割模型的总损失函数为：

其中，λ∈[0,1]是一个权重因子，用来调节常规的交叉熵损失

和结构相似性损失

的相对重要程度，实际中λ的值被设为0.5。常规的交叉熵损失可衡量预测图片和标签图片间像素强度的相似性，而结构相似性损失可衡量预测图片和标签图片间的结构相似性。上式中，逐像素的交叉熵损失的角色类似于SSIM中衡量光照强度相似度的部分，本发明所提出的结构相似性损失的角色类似于SSIM中衡量结构相似度的部分。值得注意的是，此处采用的是sigmoid交叉熵损失。这意味着，语义分割问题在本发明中，并不像大多数常见的方法一样，被视为一个图像中像素点的多分类问题来考虑，而是被视为多个像素点的二分类问题，再由多个二分类器来组合成一个多分类器。

与现有技术相比，本发明具有以下有益效果：

1、本发明提出结构损失函数，提供了一种非常直观的方法来衡量两个图像之间的结构相似性；可以比较容易地用卷积的方式来实现，而且只在训练期间需要较少的额外计算资源。因此本发明提出的方法可被轻易的结合到任何现有的分割框架中。

2、本发明提出的语义分割方法，分割模型易于训练，不需要额外的推理步骤或者额外的网络结构；通过大量实验证明，使用本发明提出方法训练的分割模型，能得到优于基准算法和一些其他同类方法的表现。

附图说明

图1为本发明的整体框架和流程示意图；

图2为本发明实施例中标签图片和预测图片归一化后的示意图；

图3为本发明实施例中归一化后的标签图片和预测图片的统计值示意图；图4为训练过程中困难样本占总体样本数目的示意图；

图5为本发明实施例在PASCAL VOC 2012验证集上定性的分割结果。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于最大化预测和标签间相关性损失函数的语义分割方法，在得到分割模型输出的预测图片之后，将预测图片和标签图片进行局部归一化，然后计算得到预测图片和标签图片相关性的强弱，得到结构差异性的值，并根据结构差异性的值对原始的交叉熵损失进行权重调整，同时进行困难样本挖掘。然后根据得到的损失函数值更新模型参数，重复这些过程直到训练停止。此时就可以得到一个性能较好的图像语义分割模型。

如图2所示，展示了原始的预测图片和标签图片归一化前后像素点值的变化，以及由此带来的交叉熵损失值的变化。在归一化之前，原始的预测图片和标签图片之间的sigmoid交叉熵损失值约为2.805左右。其中，中心点被错分类，中心点的交叉熵损失值约占总交叉熵损失值的57％左右。而在归一化后和用结构相似差异的值对原始的交叉熵损失值进行权重调整之后，归一化后的预测图片和标签图片之间的sigmoid交叉熵损失值约为3.060左右。其中，被错分类的中心点的交叉熵损失值约占总的交叉熵损失值的91％左右。由此可以看出，在进行归一化之后，两个局部区域之间不一致的点的损失被放大，分割模型在产生不一致的预测点时将受到更多的惩罚，由此将引导分割模型往一个更好的局部收敛点前进。

图3中，记录了一次训练过程中，归一化后的标签图片和归一化后的预测图片的极大值、极小值、均值、中值以及结构差异性的最大值，其使用的高斯核函数的高斯核大小为3。从图3中可以看出，对于归一化的预测图片p^nor，其

和

的值分别小于对应的归一化的标签图片y^nor的

和

的值。而结构差异性的最大值e_max的值要明显大于

或

的值。结构差异性的均值e_mean和中值e_median都接近于0，同一时刻，e_mean的值要大于e_median的值。

为了进一步分析本发明所提出的结构损失函数中所采取的困难样本挖掘的策略的影响，在图4中，记录了用于选取困难样本的阈值参数β取不同值时其对应的困难样本数目占总体样本数目的比例，及这个比例在一次训练过程中的变化。

如图4所示，困难样本的比例对于选取困难样本的阈值参数β是非常敏感的，β的变动会对困难样本的比例产生较大影响，因此其选择是较为关键的，本发明中采用的β数值为0.1。

图5中，展示了采用本发明算法和采用常规方法训练的分割模型的分割效果。可以明显看出，采用本发明算法训练的分割模型的分割结果，相对于常规的方法训练的分割模型的分割结果，在视觉感受效果上获得了较大的提升。这定性地证明了本发明算法的有效性。

下面将本发明提出的方法应用到实际例子当中，同时与其他同类型的方法进行对比，以体现本发明的技术效果和优越性。

本发明所采用的分割模型是当前前沿的DeepLabv3和DeepLabv3+语义分割模型，本发明将会比较使用本发明提出的方法和使用常规的交叉熵损失时，分割模型的表现。

本发明在两个大型公开数据集PASCAL VOC 2012和Cityscapes上做了测试。PASCAL VOC 2012数据集分为三个部分：训练集、验证集和测试集，分别有1464、1449和1456张图片。本发明在训练时采用的是PASCAL VOC 2012的一个增强数据集，包含有10582张图片。Cityscapes数据集是一个高分辨率数据集，其中图像的大小均为2048×1046，训练集、验证集和测试集分别包含2975、500和1525张图片。

本发明所使用的评判指标是mean intersection-over-union(mIoU)分数，即预测分割图片和标签图片中物体的交集和并集的比。本发明先在PASCAL VOC 2012验证集上验证了算法的效果，结果如表1所示。如表1所示，CE和BCE分别是常规的softmax和sigmoid交叉熵损失，高斯核函数的高斯核大小，也就是采用的局部区域的大小。从表中可以看出，采用本发明提出的算法训练的分割模型要比传统的方法具有更好的性能。表1中也展示了本发明提出的算法效果和高斯核函数的高斯核大小的关系。

除此之外，本发明同样在PASCAL VOC 2012验证集上对比了所提出方法和一些同类型的方法的性能。对比结果如表2所示。

如表2所示，展示了基于GAN的方法相对基准算法(Base)的提升，还有CRF方法和Affinity方法相对基准算法(CE、BCE)的提升。相比这些方法，本发明所提出的算法展现了相对基准算法最大的提升效果。此外，由于实验设置发生了变化，表2中的mIoU分数并不与表1一致。

表1

表2

更进一步，本发明同样在Cityscapes验证集上验证了所提出算法的有效性，结果如表3所示。

表3

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，包括：

(1)将真实场景图片输入分割模型，获得预测图片；

(4)将线性相关性强弱的指标作为权重，调整预测图片中像素点的交叉熵损失的值并进行困难样本挖掘；

2.根据权利要求1所述的基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，步骤(2)中，采用标准差为1.5的高斯核函数w＝{w_i|i＝1,2,…,k²}来获得局部统计特征，其中，k是预先设置的常量，代表高斯核的大小，k²表示高斯核中的元素个数，标签图片的局部统计特征如下：

其中，

μ_y和

分别为标签图片的局部均值和局部方差，y_i∈{0,1}代表标签图片中像素点的值。

3.根据权利要求1所述的基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，步骤(3)中，计算预测图片和标签图片中对应区域间的线性相关性强弱的指标为：

其中，误差e为两个局部区域间相关性强弱的表征，e越小，相关性越强；μ_y和σ_y分别是标签图片的局部均值和局部标准差，标签y对应的像素点位于这个局部区域的中心，μ_p和σ_p分别为预测图片的局部均值和局部标准差，p是分割模型对于预测图片中像素点的类别归属的预测概率，C₄＝0.01是一个稳定因子。

4.根据权利要求1所述的基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，步骤(4)中，调整预测图片中像素点的交叉熵损失的值并进行困难样本挖掘所使用的公式如下：

f_n,c＝1{e_n,c>βe_max},

其中，n和c代表当前像素点在预测图片中的坐标，e_max是误差e的理论最大值，误差e为步骤(3)中得到的两个局部区域间相关性强弱的表征值，e_n,c表示在预测图片中坐标(n,c)处计算得到的表征相关性强弱的具体数值；当内部条件为真时，1{·}等于1，反之为0；β∈[0,1)是用来选择要被抛弃的样本的权重因子，y_n,c和p_n,c分别是当前像素点对应的标签和预测概率，

是sigmoid交叉熵损失函数，

是最大化预测和标签间相关性的结构损失函数。

5.根据权利要求4所述的基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，β的值设置为0.1。

6.根据权利要求4所述的基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，步骤(5)中，每个训练批次中困难样本的结构损失函数的公式为：

其中，

是困难样本的数目，当位于预测图片坐标(n,c)的像素点为困难样本时，f_n,c为1，反之，其值为0；y表示预测图片中像素点的标签，p表示分割模型对于预测图片中像素点的类别归属的预测概率，y_n,c表示坐标为(n,c)的像素点对应的标签，p_n,c表示分割模型对于坐标为(n,c)的像素点给出的类别归属概率预测值，

表示步骤(4)中得到的最大化预测和标签间相关性的结构损失函数值；N是预测图片中总的像素点数目，C代表物体的类别数目；累加并平均每个像素的结构损失函数值，即可得到当前训练批次的总的结构损失函数值。

7.根据权利要求6所述的基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，总损失函数的公式为：

其中，y表示预测图片中像素点的标签，p表示分割模型对于预测图片图像中像素点的类别归属的预测概率，λ∈[0,1]是一个权重因子，用来调节交叉熵损失

和结构损失函数

的相对重要程度，交叉熵损失

用于衡量预测图片和标签图片间像素强度的相似性，而结构损失函数

用于衡量预测图片和标签图片间的结构相似性。

8.根据权利要求7所述的基于最大化预测和标签间相关性损失函数的语义分割方法，其特征在于，λ的值设置为0.5。