CN110837836A

CN110837836A - 基于最大化置信度的半监督语义分割方法

Info

Publication number: CN110837836A
Application number: CN201911071629.4A
Authority: CN
Inventors: 金�一; ***; 陈林; 陈宇旋; 竺长安; 陈恩红
Original assignee: University of Science and Technology of China USTC
Current assignee: Jin Yi; Zhu Changan; University of Science and Technology of China USTC
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-25
Anticipated expiration: 2039-11-05
Also published as: CN110837836B

Abstract

本发明公开了一种基于最大化置信度的半监督语义分割方法，包括：从已有训练数据集中选取一部分图像作为已标记图像，剩余图像作为未标记图像；构建网络模型，通过网络模型中的分割网络来预测已标记图像与未标记图像的预测类概率图；采用有监督学习和生成对抗的方式来最大化已标记图像预测类概率图的置信度；采用无监督学习方式来预测未标记图像预测类概率图中的分割错误区域；结合有监督学习的损失与无监督学习的损失，对网络模型进行训练；测试阶段，将待分割的未标记图像，输入至训练好的网络模型中，获得分割后的语义图像。本发明实施例上述方案，可以准确对未标记图像进行语义分割。

Description

基于最大化置信度的半监督语义分割方法

技术领域

本发明涉及图像语义分割领域，尤其涉及一种基于最大化置信度的半监督语义分割方法。

背景技术

图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或相似性，而在不同区域间表现出明显的不同。简单的说就是在一副图像中，把不同的目标从背景中分离出来，从分割结果可以清楚的知道分割出来的是什么物体。整体而言，语义分割是一种旨在于场景理解的高难度任务。场景理解作为计算机视觉的核心问题，在当今信息社会得到了广泛的应用。这些应用包括：自动驾驶、人机交互、计算机摄影、图像搜索引擎、及增强现实。这些问题已经尝试使用多种计算机视觉及机器学习的方法来解决。

最近，使用卷积神经网络的方法已经在图像语义分割中实现了最先进的性能。这些方法在大规模像素级注释的数据集上训练的模型来提取神经网络的特征。例如，PSPNet(PyramidSceneParsingNetwork，金字塔场景分析网络)，FCN(Fully ConvolutionalNetworks，全卷积神经网络)等。然而，在大规模数据上注释精确的像素级标签是非常耗时耗力而且效率低下的。为了减少构建精确的像素级注释数据集的需要，无监督学习方法似乎是一种更合适的方法。然而，到目前为止，由于缺乏关于语义分割任务的详细信息，无监督学习方法未能取得成功。因此，弱监督和半监督学习方法也被提出用于语义分割。这些方法通常使用未标记或弱标记的数据，有时它们也使用额外的完全注释数据来提高性能。弱标记的图像会有部分注释，但都会以某种有限的区域注释方式，如图像级注释，方框注释，涂鸦注释，等等。但这种方式也有其不可忽视的缺点，比如：

1)由于缺乏详细的边界位置信息，弱监督方法的表现要远远逊色于完全监督的方法。

2)一些半监督学习方法由于忽略了大量可用的错误分类信息，因此在使用未标记数据方面效率十分低下。

发明内容

本发明的目的是提供一种基于最大化置信度的半监督语义分割方法，可以准确对未标记图像进行语义分割。

本发明的目的是通过以下技术方案实现的：

一种基于最大化置信度的半监督语义分割方法，包括：

利用指定比例的已标记图像与未标记图像构建训练数据集；

构建网络模型，通过网络模型中的分割网络来预测已标记图像与未标记图像的预测类概率图；采用有监督学习的方式来最大化已标记图像预测类概率图的置信度；采用无监督学习方式来预测未标记图像预测类概率图中的分割错误区域；

结合有监督学习的损失与无监督学习的损失，对网络模型进行训练，获得训练好的分割网络；

测试阶段，将待分割的未标记图像，输入至训练好的分割网络模型中，得到预测的类概率图后，寻找预测的类概率图中在通道维度上最大值的索引获得分割后的语义图像。

由上述本发明提供的技术方案可以看出，本发明从增强类概率图置信度的角度，以及关注错误分类的区域来提高语义分割的准确性，并通过分割网络研究未标记数据的数据分布，以对未标记图像产生更可靠的预测结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的验证集与训练集的信息熵比对示意图；

图2为本发明实施例提供的一种基于最大化置信度的半监督语义分割方法的流程图；

图3为本发明实施例提供的网络模型示意图；

图4为本发明实施例提供的标签错误图与预测的分割错误图的示意图；

图5为本发明实施例提供的参与对比实验的方案在PASCAL VOC 2012验证集上的表现结果示意图；

图6为本发明实施例提供的参与对比实验的方案在PASCAL-CONTEXT验证集上的表现结果示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于最大化置信度的半监督语义分割方法，该方法提出了一个半监督学习框架，它结合了有监督学习和无监督学习，该方法从增强类概率图的置信度的角度来解决问题。同时，更加关注错误分类的区域，特别是在边界区域。并且，通过分割网络研究未标记数据的数据分布，以对未标记图像产生更可靠的预测。

本发明实施例中，对于已标记图像，构建了一个生成对抗框架。分割网络被视为生成器，它将图像作为输入并输出预测类概率图。识别器以全卷积方式构造，并用于区分输入是来自预测已标记图像预测类概率图还是由标签图生成的0和1组成的类概率图；生成器和识别器相互对抗，目标为最大化预测类概率图的置信度(即分割网络的置信度)。对于未标记的数据，在对抗性学习的帮助下，使用已标记图像训练的分割网络对于正确分类的像素实现高置信度。因此，将具有高不确定性的已分类像素视为分割错误像素。接着，计算表示分割概率图的信息熵以推断分割错误图。当像素的信息熵最大化时，其预测类概率近似于均匀概率分布，表明所研究的特征不能对该像素进行分类，并且应该优化模型的权重以获得更具代表性的特征。

图1中的(a)部分示出了验证集上的信息熵，图1中的(b)部分示出了训练集上的信息熵，显然，验证集上的信息熵大于训练集上的信息熵，这表明在没有事先训练的情况下预测图像时，特别是在边界区域，分割网络不太可信。在这项工作中，计算未标记数据的错误分类区域中的平均信息熵并将其用作附加监督学习信号以优化分割网络。因此，本发明更加关注错误分类的区域，特别是在边界区域。分割网络研究未标记数据的数据分布，以对未标记图像产生更可靠的预测。

如图2所示，为本发明实施例提供的一种基于最大化置信度的半监督语义分割方法的流程图；其主要包括：

步骤1、利用指定比例的已标记图像与未标记图像构建训练数据集。

通常情况下，利用少量的已标记图像与大量的未标记图像来构建训练数据集，所使用的图像可以来自已有训练数据集。已标记图像与未标记图像的具体比例可以由用户根据实际情况自行设定。

示例性的，可以选取比较具有挑战性的数据集：PASCAL VOC 2012和PASCALCONTEXT。PASCAL VOC 2012数据集包括20个前景对象类和一个背景类，它包含分别用于训练，测试和验证的1464，1456和1449像素级注释图像，此外，还利用了来自分割边界数据集(SBD)的额外注释图像用于增强数据集，共得到了10582个训练图像。PASCAL-CONTEXT数据集在两个对象(例如汽车)和填充物(例如天空)上提供详细的像素级注释，本发明在该数据集中最频繁的59个类和一个背景类别上进行评估，得到了4998张训练图像。最后，从训练数据集中随机抽取10％，30％和50％的图像作为已标记图像，并将剩余数据用于未标记图像。值得注意的是，此处提到的数据集以及已标记图像与未标记图像的比例均为举例，并非构成限制。

步骤2、构建网络模型，通过网络模型中的分割网络来预测已标记图像与未标记图像的预测类概率图；采用有监督学习的方式来最大化已标记图像预测类概率图的置信度；采用无监督学习方式来预测未标记图像预测类概率图中的分割错误区域。

如图3所示，为构建网络模型结构示意图。网络模型分为一个主网络和一个子网络。主网络是分割网络，也就是生成对抗网络中的生成器，其输入是已标记图像与未标记图像并且其输出是预测类概率图。子网络是全卷积的识别器，也就是生成对抗网络中的识别器，识别器将分割网络输出的预测类概率图或由标签图生成的0和1组成的类概率图作为输入，并输出双通道类概率图以区分输入是来自预测类概率图还是由标签图生成的0和1组成的类概率图。

下面针对分割网络与全卷积神经网络进行介绍。

1)分割网络：在本发明实例中，在MSCOCO和ImageNet数据集上预训练的Deeplab-v2模型作为基线网络。然而，为了简化实验并减少内存消耗，不使用条件随机场(CRF)和最大化融合的多尺度输入，只保留了ASPP输出层(Atrous Spatial PyramidPooling膨胀空间金字塔池化层)。为了匹配输入图像的大小，应用上采样层和Softmax函数来预测最终的类概率图。

2)全卷积神经网络：在本发明实例中，全卷积神经网络的输入有两个，一个是标签图经过下采样和Onehot编码后生成的类概率图，一个是已标记图像经过分割网络和Softmax后生成的预测类概率图。全卷积神经网络作为识别器，由5个含有3×3卷积核和{64，128，256，512，2}通道的步长为1的膨胀卷积层组成，在每一层中膨胀率被分别设置为{1,1,2,4,1}。另外除了最后一层之外，每个膨胀卷积层之后都要经过一个ReLU激活函数。

值得注意的是，以上针对分割网络与全卷积神经网络的介绍中所涉及的结构形式、以及相关参数数值均为举例，并非构成限制。

下面针对有监督学习的方式、无监督学习方式及相关损失函数进行介绍。

1)有监督学习的方式及相关损失函数。

有监督学习主要有两个目标：第一个是为每个像素分配语义标签的基本任务，第二个目标是使用生成对抗的方式最大化预测类概率图的置信度。为此，构建了一个生成对抗框架，其中生成器是分割网络，识别器是全卷积神经网络。生成对抗网络中，分割网络作为生成器，预测已标记图像预测类概率图；全卷积神经网络作为识别器，它的输入为已标记图像预测类概率图，以及标签图经过下采样与onehot编码(独热编码)后生成的0和1组成的类概率图，通过识别器来识别输入的类型；生成器和识别器相互对抗，目标为最大化预测类概率图的置信度。

在生成器网络中，空间多类交叉熵损失用于促使分割网络独立预测每个像素位置处的正确语义标签类别，表示为：

其中，x_n为输入至分割网络的已标记图像，y_n为相应已标记图像的onehot编码标签图，(h₁,w₁,c₁)为图中像素的位置坐标，预测的类概率图的大小为H₁×W₁×C₁，H₁、W₁分别表示图像的高、宽，C₁表示类别(通道)数目；S(x_n)为分割网络预测的已标记图像x_n的预测类概率图。

在识别器中，采用空间二进制类熵损失来区分输入是预测的已标记图像预测类概率图，还是由标签图生成的类概率图，空间二进制类熵损失表示为：

Y_n＝one_hot(ones(H₂,W₂)×SG)

其中，p_n表示预测的已标记图像预测类概率图或者由标签图生成的类概率图，D(·)表示识别器，Y_n是用于区分输入来源的注释，C₂＝2，因为识别器是二进制分类网络；one_hot(·)是onehot编码函数，ones(H₂,W₂)用于生成大小为H₂×W₂的矩阵，H₂、W₂分别表示矩阵的行、列数目，其中所有元素的值都为1；SG＝0，表示识别器输入为预测的已标记图像的预测类概率图；SG＝1，表示识别器输入为由标签图生成的0和1组成的类概率图；上述空间二进制类熵损失主要用来训练识别器。

将对抗性损失添加到分割网络中，促进它将预测的类概率增加到接近1。对抗性损失可以写成如下：

本发明实施例中，当输入来自分割网络时，会计算loss_adv。另外，为了混淆识别网络，SG设置为1。

2)无监督学习的方式及相关损失函数。

未标记图像类概率图的信息熵表征了该图像的分割结果的不确定性，这恰恰与图像的分割错误图密切相关。因此，本发明使用预测到的类概率图的信息熵来推断分割错误图，图4显示了标签错误图和预测的分割错误图。错误分类的像素主要位于边界周围，这意味着分割错误图包含丰富的分类信息，尤其是在边界区域中。图4的(a)部分为原图，(b)部分为错误图的标签，(c)部分为预测的分割错误图；图4中的原图来自数据集PASCAL VOC2012。在获得分割错误图之后，将错误分类区域中的平均信息熵计算为无监督损失。

给定大小为H₁×W₁×3的未标记图像x_n'，分割网络预测的未标记图像x_n'的预测类概率图为S(x_n')，通过以下方式计算信息熵图H(x_n')：

其中E[·]表示对所有C₁类别的期望；

信息熵指示分割网络预测的不确定性，给定不确定性阈值T，获得二进制映射，用于表示分割错误图EM(x_n')，表示为：

where h₁∈H₁,w₁∈W₁

其中，

表示信息熵图中(h₁,w₁)位置处的像素点，具体含义是表明EM(x_n')中的每一个像素值是通过对信息熵图的每一个像素值是否大于阈值得到的。

通过信息熵图H(x_n')和分割错误图EM(x_n')得到无监督损失，并回馈到分割网络，无监督损失表示为：

本发明实施例中，使用混合损失函数，混合损失函数结合了空间多类熵损失，对抗性损失和无监督损失。混合损失量计算如下：

loss_seg＝loss_mce+λ_advloss_adv+λ_infloss_inf

其中，loss_mce，loss_adv和loss_inf分别表示空间多类熵损失，对抗性损失和最大化无标记图像预测类概率图的无监督损失；λ_adv和λ_inf是平衡相应损失的两个权重。loss_mce和loss_adv用于指导有监督学习，而loss_inf被用作无监督学习信号来研究未标记图像的数据分布。

步骤3、结合有监督学习的损失与无监督学习的损失，对网络模型进行训练，获得训练好的分割网络。

将已标记图像与未标记图像按照批量尺寸组合一起作为输入，设置网络模型的各项超参数，设置权值初始化方式，并有监督学习的损失与无监督学习的损失，利用随机梯度下降法(stochastic gradient descent，SGD)和多边形学习率策略来训练分割网络，利用Adam优化器和指数衰减学习速率策略来训练识别器，保存训练好的模型权重。

示例性的，下面给出一些网络模型训练的具体设置：

在GPU(Tesla V100)上运行的Tensor-Flow框架来实现所提出的网络。前述步骤1中得到的训练图像随机缩放并且裁剪为321×321像素大小，按照批量尺寸(Batch Size)为10组合一起作为输入，训练模型进行20K次迭代。关于所提出方法的超参数，λ_adv设置为0.02并且λ_inf设置为0.1。此外，用于获得分割错误图的阈值T被设置为0.2。

训练分割网络时，应用随机梯度下降(Stochastic Gradient Descent，SGD)优化，使用0.9的动量和5E-4的权重衰减。保存训练好的模型权重。

训练识别网络时，采用Adam优化器：初始学习率设置为1E-4。保存训练好的模型权重。

步骤4、测试阶段，将待分割的未标记图像，输入至训练好的分割网络模型中，得到预测的类概率图后，寻找预测的类概率图中在通道维度上最大值的索引获得分割后的语义图像。

本发明实施例上述方案，获得如下有益效果：

1)本发明开发了一个生成对抗框架，将分割网络视为生成器，并使用全卷积网络作为识别器。在这种生成对抗框架的帮助下，分割网络可以生成具有更高置信度的类概率图。

2)本发明提出了一种无监督学习方法来研究未标记图像的数据分布。为了将无监督学习信号聚焦在错误分类的区域上，特别是在边界区域，预测未标记图像的分割错误区域，而不是预测潜在的可信赖区域，然后，最小化未标记图像预测的不确定性。

3)我们提出了一个半监督学习框架，它结合了有监督学习和无监督学习。在PASCAL VOC 2012和PASCAL-CONTEXT数据集上的实验结果表明，本发明所提出的半监督学习方法具有竞争力。

为了应证本发明上述方案的性能，下面进行了对比实验。

本次实验中，采用类似步骤1的方式来选取图像，构成验证集。例如，在PASCAL VOC2012数据集中得到标准验证集1449张图像来评估训练好的网络模型，在PASCAL-CONTEXT数据集中用了标准验证集5105张图像来评估训练好的网络模型。

参与对比实验的方案包括：(1)基线网络；(2)基线网络+loss_adv；(3)基线网络+loss_adv+loss_inf。

实验结果分析：

1)PASCAL VOC 2012上的结果。本方法在PASCAL VOC 2012验证集上的定量结果显示在表1中。一些样品图像的定性结果显示在图5中。图5中的(a)部分表示原图，(b)部分表示语义分割图像的标签。(c)～(e)部分依次对应于方案(1)～(3)。

表1在PASCAL VOC 2012验证集上的结果

如表1所示，对抗性损失loss_adv使得mIOU(平均交并比)改善了1.1％至1.4％。这表明，对抗性损失loss_adv能通过提高预测对标记图像的置信度能改善分割性能。结合无监督损失loss_inf，最小化未标记图像上预测的不确定性，本发明所提出的方法比基线网络获得1.9％至2.7％的改善。图5中给出的定性结果表明，使用对抗损失和无监督损失的模型在基线网络错误分类的区域中实现了一些改进，特别是在一些边界区域。

2)PASCAL-CONTEXT的结果。在PASCAL CONTEXT数据集上的定量评估结果显示在表2中。此外，一些样本图像的定性结果在图6中可视化。图6中的(a)部分表示原图，(b)部分表示语义分割图像标签。(c)～(e)部分依次对应于方案(1)～(3)。

数据量	10％	30％	50％	100％
					基线网络	34.6	38.0	40.1	42.3
基线网络+loss<sub>adv</sub>	35.1	38.7	40.8	42.9
					基线网络+loss<sub>adv</sub>+loss<sub>inf</sub>	35.9	39.6	41.3	—

表2在PASCAL-CONTEXT验证集上的结果

可以发现所提出的方法仍然有效，复杂的场景中，本发明所提出的方法将平均交叉结合提高了1.2％至1.6％，其中对抗性损失占性能改进的约0.5％至0.7％。PASCAL-CONTEXT数据集的性能评估比PASCAL VOC 2012数据集上的性能评估差。这是因为包含对象和填充注释的PASCAL-CONTEXT数据集更复杂，导致提议的方法无法准确推断标签错误映射。

3)与最先进的方法进行比较。首先将本发明所提出的方法与几种弱监督的最先进方法进行比较。所有这些弱监督方法都使用基于ResNet-101的DeepLab-v2作为基线网络。使用图像级注释在PASCAL VOC 2012数据集上训练弱监督方法，而使用440像素级注释图像和10142个未标记图像在相同数据集上训练所提出的方法。如表3所示，本发明所提出的方法的mIOU(平均交并比)为68.9％，优于所有弱监督方法至少4.0％。这些大的改进可归因于所提出的方法获取边界区域的更详细信息。弱监督学习方法直接使用图像级注释，这导致难以定位边界区域。相比之下，本发明所提出的方法首先利用有限的像素级注释来学习如何通过对抗性学习来定位边界区域；然后，它预测未标记图像的分割错误区域，使无监督学习信号更多地关注误分类区域，特别是在边界区域。因此，与弱监督方法相比，本发明所提出的方法实现了更具竞争力的性能。

表3本发明方法在PASCAL VOC 2012验证集上与先进弱监督方法进行比较的结果

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于最大化置信度的半监督语义分割方法，其特征在于，包括：

利用指定比例的已标记图像与未标记图像构建训练数据集；

2.根据权利要求1所述的一种基于最大化置信度的半监督语义分割方法，其特征在于，对于已标记图像采用有监督学习来最大化预测类概率图的置信度包括：

对于已标记图像，采用一个生成对抗网络，通过有监督学习中的生成对抗方式来最大化预测类概率图的置信度；

所述生成对抗网络由网络模型中的分割网络与全卷积神经网络构成；

生成对抗网络中，分割网络作为生成器，预测已标记图像的类概率图；全卷积神经网络作为识别器，它的输入为已标记图像预测类概率图，以及标签图经过下采样与onehot编码后生成的类概率图，通过识别器来识别输入的类型；

生成器和识别器相互对抗，目标为最大化预测类概率图的置信度。

3.根据权利要求2所述的一种基于最大化置信度的半监督语义分割方法，其特征在于，有监督学习的损失包括：多类交叉熵损失与对抗性损失；

所述空间多类交叉熵损失，用于促使分割网络独立预测每个像素位置处的正确语义标签类别，表示为：

其中，x_n为输入至分割网络的已标记图像，y_n为相应已标记图像的onehot编码标签图，(h₁,w₁,c₁)为图中像素的位置坐标，预测的类概率图的大小为H₁×W₁×C₁，H₁、W₁分别表示图像的高、宽，C₁表示类别数目，类别数目也即也即通道数目；S(x_n)为分割网络预测的已标记图像x_n的预测类概率图；

Y_n＝one_hot(ones(H₂,W₂)×SG)

其中，p_n表示预测的已标记图像预测类概率图或者由标签图生成的类概率图，D(·)表示识别器，Y_n是用于区分输入来源的注释，C₂＝2，one_hot(·)是一个onehot编码函数，ones(H₂,W₂)用于生成大小为H₂×W₂的矩阵，H₂、W₂分别表示矩阵的行、列数目，其中所有元素的值都为1；SG＝0，表示识别器输入为预测的已标记图像预测类概率图；SG＝1，表示识别器输入为由标签图生成的类概率图；上述所述空间二进制类熵损失用来训练识别器；

对抗性损失表示为：

4.根据权利要求1所述的一种基于最大化置信度的半监督语义分割方法，其特征在于，所述对于未标记图像采用无监督学习方式来预测类概率图中的分割错误区域包括：

未标记图像类概率图的信息熵表征了相应图像的分割结果的不确定性，这分割错误图相关；

使用预测到的类概率图的信息熵来推断分割错误图，在获得分割错误图之后，将错误分类区域中的平均信息熵计算为无监督损失；

给定大小为H₁×W₁×C₁的未标记图像x_n'，分割网络预测的未标记图像x_n'的预测类概率图为S(x_n')，通过以下方式计算信息熵图H(x_n')：

其中E[·]表示对所有C₁类别的期望；

where h₁∈H₁,w₁∈W₁

其中，(h₁,w₁)表示像素点的位置坐标；

5.根据权利要求1所述的一种基于最大化置信度的半监督语义分割方法，其特征在于，有监督学习的损失与无监督学习的损失构成了网络模型的总损失，表示为：

loss_seg＝loss_mce+λ_advloss_adv+λ_infloss_inf

其中，有监督学***衡相应损失的两个权重。

6.根据权利要求2所述的一种基于最大化置信度的半监督语义分割方法，其特征在于，

将已标记图像与未标记图像按照批量尺寸组合一起作为输入，设置网络模型的各项超参数，设置权值初始化方式，并有监督学习的损失与无监督学习的损失，利用随机梯度下降法和多边形学习率策略来训练分割网络，利用Adam优化器和Poly学习速率策略来训练识别器。