CN111027575B

CN111027575B - 一种自注意对抗学习的半监督语义分割方法

Info

Publication number: CN111027575B
Application number: CN201911278533.5A
Authority: CN
Inventors: 李志欣; 张佳; 张灿龙
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2022-06-17
Anticipated expiration: 2039-12-13
Also published as: CN111027575A

Abstract

本发明公开了一种自注意对抗学习的半监督语义分割方法，包括如下步骤：1）获取训练集和验证集，对训练集预处理；2）构建自注意半监督语义分割的对抗网络；3）用自注意半监督语义分割的对抗网络对训练集进行训练，得到分割预测模型；4）利用验证集对分割预测模型进行验证，得到最终分割的结果。这种方法生成的分割模型具有更强的可扩展性，生成图像时可协调好每一个位置与远端的细节，而且训练时计算量少且易于集成到现有实现中。

Description

一种自注意对抗学习的半监督语义分割方法

技术领域

本发明涉及计算机视觉技术，具体是一种自注意对抗学习的半监督语义分割方法。

背景技术

语义分割是计算机视觉中最重要也是最有趣的任务之一，近年来，卷积神经网络(Convolutional Neural Networks,简称CNN)的发展有力的推动了语义分割取得了重大进展，现实生活中使用语义分割需要大量的对象类和每个类的标记数据，应用于自动驾驶和图像编辑，然而，这种标记工作的准确性和效率十分昂贵，为解决这个问题，通过将半/弱监督方法应用于语义分割中，使语义分割模型具有更强的可扩展性，然而，当前弱监督分割方法相对于完全监督分割产生较差的结果。

随着生成对抗网络的出现，对抗学习开始应用于一些半/弱监督的语义分割方法中，这些方法取得了显著的进展，一个典型的对抗网络由两个子网络组成，即生成器和判别器，这两个子网络在训练过程中进行最小-最大博弈，生成器和判别器的互相博弈学习产生很好的输出。在此背景下，将分割网络的输出在空间上尽可能地靠近ground truth标签映射，然而，基于深度卷积网络的对抗网络依赖于卷积来对不同图像区域的依赖性进行建模，由于卷积运算符具有局部感受域，因此只能在经过多个卷积层之后处理长距离依赖性，这可能会阻止学习远程依赖性，优化算法可能无法发现仔细协调多个层以捕获这些依赖性的参数值，增加卷积核的大小可以增加网络的表示能力，但这样同时也会使通过使用局部卷积结构获得的计算和统计效率有所损失，并且对抗网络训练中的一个持续挑战是鉴别器的性能控制，在高维空间的训练过程中，由鉴别器进行的密度比估计通常是不准确且不稳定的，当模型分布的支持与目标分布的支持不同时，存在一个鉴别器，可以很好地将模型分布与目标区分开来，在这种情况下，一旦产生这样的鉴别器，生成器的训练就完全停止了，这促使我们对鉴别器的选择引入某种形式的限制。

发明内容

本发明的目的是针对现有技术的不足，而提供一种自注意对抗学习的半监督语义分割方法。这种方法生成的分割模型具有更强的可扩展性，生成图像时可协调好每一个位置与远端的细节，而且训练时计算量少且易于集成到现有实现中。

实现本发明目的的技术方案是：

一种自注意对抗学习的半监督语义分割方法，包括如下步骤：

1)获取训练集和验证集，对训练集预处理：将已知的语义分割数据集Pascal Voc2012和Cityscapes中的图像分别分成训练集和验证集，并对训练集的图像进行预处理，其中数据集中的一部分图像带标记，其余图像不带标记；

2)构建自注意半监督语义分割的对抗网络：对抗网络由分割网络G和鉴别器D组成，其中

分割网络是任意为语义分割设计的网络，如FCN、DeepLab和膨胀网，去掉分割网络的最后一个卷积层，将分割网络最后两个卷积层的步长由2修改为1，使输出特征图的分辨率达到输入图像大小的1/8，然后分别在第四卷积层和第五卷积层中应用扩展卷积，第四卷积层和第五卷积层的步长分别为2和4，在分割网络的第五卷积层使用Atrous空间金字塔池方法，即得到最终的分割网络：64维的1/2倍下采样层即第一卷积层、128维的1/4倍下采样层即第二卷积层、256维的1/8倍下采样层即第三卷积层、第一个自注意力模块SA1、512维的1/16倍下采样层即第四卷积层、1028维的1/32倍下采样层即第五卷积层、第二个自注意力模块SA2，给定一个H×W×3维的输入图像，采用一个上采样层和softmax输出层来匹配输入图像的大小，然后分割网络输出一个大小为H×W×C的类概率图，其中C为语义类别的个数，

分割网络中的第一自注意力模块SA1与第二自注意力模块SA2的结构相同，将第三卷积层和第五卷积层中的特征图X∈R^C×H×W作为输入，并且第三卷积层和第五卷积层每层各生成两个特征图，即Q、K∈R^C×H×W，Q为查询，即从特征图中输入一个像素点，查询到特征图上所有像素点对这一点的影响，K代表字典中的键，相当于所查询的数据库，将Q和K进行转置后执行矩阵乘法，以softmax层来计算注意力图S∈R^N×N，N＝H×W是像素数：

其中，i为特征图的行数，j为特征图的列数，通过公式(1)得到针对Q的特征图中的某一个位置，计算出特征图K中的所有位置对特征图Q的影响，为学习到更多参数，对特征图X多加了一层卷积映射得到新的特征图V∈R^C×H×W，将S和V进行转置后执行矩阵乘法，然后将S和V的相乘结果乘以比例参数α，最后第一自注意力模块和第二自注意力模块逐渐学习到了将注意力加权过的特征图加在特征图X上，得到特征图O：

特征图O为所有位置上的特征与原始特征的加权和，

鉴别器使用全卷积神经网络，鉴别器以分割网络输出的H×W×C的类概率图或步骤1)中数据集带标记的图像获取类概率图I_n作为输入，最后输出H×W×1的置信图，鉴别器由5个4×4核卷积层和{64,128,256,512,1}通道组成，步长为2，最后，应用一个上采样层和softmax输出层来匹配输入图像的大小，然后在鉴别器的前四个卷积层上均使用谱归一化，让鉴别器的映射函数满足Lipschitz约束；

3)用自注意半监督语义分割的对抗网络对训练集进行训练，得到分割预测模型；

4)利用验证集对分割预测模型进行验证，得到最终分割的结果。

步骤1)中所述的预处理过程如下：

先对图像进行固定大小的随机裁剪，再将裁剪后的图像进行随机水平翻转和亮度变换，后将翻转后的图像进行归一化。

步骤3)中所述的训练，包括如下步骤：

步骤1、将带标记图像经过鉴别器5000次的迭代训练，然后对分割网络和鉴别器进行联合更新；

步骤2、对训练集中的图像进行随机抽样训练，使用带标记的图像时，分割网络既受带标记图像的标准交叉熵损失Lce的监督，又受带鉴别器的对抗损失Ladv的监督；

步骤3、将未标记图像送入分割网络的64维的1/2倍下采样层中提取图像的卷积特征，再将提取的卷积特征送入最大池化层提取图像的最大池化特征，得到缩小2倍的下采样特征图1；

步骤4、将特征图1送入128维的1/4倍下采样层进行卷积运算，并应用最大池化层来扩大特征图1的感受野，来获取卷积运算后特征图1的最大池化特征，得到缩小4倍的下采样特征图2；

步骤5、将特征图2送入256维的1/8倍下采样层进行卷积运算，并应用最大池化层来扩大特征图2的感受野，来获取积运算后特征图2的最大池化特征，得到缩小8倍的下采样特征图3；

步骤6、将特征图3送入第一个自注意力模块捕获特征图3的位置细节，获取特征图3的全局几何特征图4；

步骤7、将特征图4送入512维的1/16倍下采样层进行卷积运算，并应用最大池化层来扩大特征图4的感受野，来获取卷积运算后特征图4的最大池化特征，得到缩小16倍的下采样特征图5；

步骤8、将特征图5送入1028维的1/32倍下采样层进行卷积运算，并应用最大池化层来扩大特征图5的感受野，来获取卷积运算后特征图5的最大池化特征，得到缩小32倍的下采样特征图6；

步骤9、将特征图6送入第二个自注意力模块捕获特征图6的位置细节，获取特征图6的全局几何特征图7；

步骤10、将特征图7应用一个上采样层和softmax输出来匹配输入图像的大小，从而得到未标记图像的类概率图；

步骤11、将未标记图像的类概率图送入鉴别器进行分割预测，计算出置信图；

步骤12、将置信图作为监控信号，采用自学习的方法训练具有掩蔽交叉熵损失Lsemi的分割网络，该置信图表示预测的分割区域的质量，并使得分割网络在训练过程中可信任；

步骤13、重复步骤1-步骤12的步骤20000次后结束训练，得到分割预测模型。

步骤4)中所述的利用验证集对分割预测模型进行验证，其中验证过程只使用分割网络，验证过程如下：

step1、将验证集中的未标记图像送入分割网络64维的1/2倍下采样层提取图像的卷积特征，再将提取的卷积特征送入最大池化层提取图像的最大池化特征，得到缩小2倍的下采样特征图8；

step 2、将特征图8送入128维的1/4倍下采样层进行卷积运算，并应用最大池化层来扩大特征图8的感受野，来获取特征图8的最大池化特征，得到缩小4倍的下采样特征图9；

step 3、将特征图9送入256维的1/8倍下采样层进行卷积运算，并应用最大池化层来扩大特征图9的感受野，来获取特征图9的最大池化特征，得到缩小8倍的下采样特征图10；

step 4、将特征图10送入第一个自注意力模块捕获特征位置的细节，获取特征图10的全局几何特征图11；

step 5、将特征图11送入512维的1/16倍下采样层进行卷积运算，并应用最大池化层来扩大特征图11的感受野，来获取特征图11的最大池化特征，得到缩小16倍的下采样特征图12；

step 6、将特征图12送入1028维的1/32倍下采样层进行卷积运算，并应用最大池化层来扩大特征图12的感受野，来获取特征图12的最大池化特征，得到缩小32倍的下采样特征图13；

step 7、将特征图13送入第二个自注意力模块捕获特征位置的细节，获取特征图13的全局几何特征图14；

step 8、将特征图14应用一个上采样层和softmax输出来匹配验证集中的未标记输入图像的大小，输出一个分割图15；

step 9、通过平均交并比函数运算来计算分割图15的分割精度，然后同时加入第一个自注意力模块和第二个自注意力模块再谱归一化(Spectral Normalization，简称SN)，得到最终的分割结果。

这种方法生成的分割模型具有更强的可扩展性，生成图像时可协调好每一个位置与远端的细节，而且训练时计算量少且易于集成到现有实现中。

附图说明

图1为实施例的结构示意图；

图2为实施例中第一自注意力模块的结构示意图；

图3为实施例的分割结果示意图。

图中，image是原始图像，GT是手工标注的标签图像，AdvSemiSeg是现有方法的分割结果图像,其余图像为实施例的分割结果图像。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

1)获取训练集和验证集，对训练集预处理：将已知的语义分割数据集Pascal Voc2012和Cityscapes中的图像分别分成训练集和验证集，并对训练集的图像进行预处理，预处理过程为：先对图像进行固定大小的随机裁剪，再将裁剪后的图像进行随机水平翻转和亮度变换，然后将翻转后的图像进行归一化，数据集中的一部分图像带标记，其余图像不带标记，

PASCAL VOC 2012数据集包含20个常见对象类，共有12031张图像，利用带注释的图像分割边界数据集获取12031张图像中的10582张图像作为训练集，剩余的1449张图像作为验证集，

Cityscapes数据集包含50个驾驶场景视频，从中提取2975张图像作为训练集，1525张图像作为验证集，并分别用19个类对提取的所有图像进行了注释，用于训练和验证。

2)构建自注意半监督语义分割的对抗网络：如图1所示，对抗网络由分割网络G和鉴别器D组成，其中

本例分割网络G采用DeepLab-v2框架，去掉分割网络的最后一个卷积层，将分割网络最后两个卷积层的步长由2修改为1，使输出特征图的分辨率达到输入图像大小的1/8，然后分别在第四卷积层和第五卷积层中应用扩展卷积，第四卷积层和第五卷积层的步长分别为2和4，在分割网络的第五卷积层使用Atrous空间金字塔池方法，即得到最终的分割网络：64维的1/2倍下采样层即第一卷积层、128维的1/4倍下采样层即第二卷积层、256维的1/8倍下采样层即第三卷积层、第一个自注意力模块SA1、512维的1/16倍下采样层即第四卷积层、1028维的1/32倍下采样层即第五卷积层、第二个自注意力模块SA2，给定一个H×W×3维的输入图像，采用一个上采样层和softmax输出层来匹配输入图像的大小，然后分割网络输出一个大小为H×W×C的类概率图，其中C为语义类别的个数，其中第一自注意力模型和第二自注意力模型能够对图像区域的远程、多级依赖关系进行建模，并使分割网络绘制图像，第一自注意力模型和第二自注意力模型对特征图像素每个位置的精细细节与图像的远处部分中的精细细节进行精心协调，

如图2所示，分割网络中的第一自注意力模块SA1与第二自注意力模块SA2的结构相同，将第三卷积层和第五卷积层中的特征图X∈R^C×H×W作为输入，并且第三卷积层和第五卷积层每层各生成两个特征图，即Q、K∈R^C×H×W，Q为查询，即从特征图中输入一个像素点，查询到特征图上所有像素点对这一点的影响，K代表字典中的键，相当于所查询的数据库，将Q和K进行转置后执行矩阵乘法，以softmax层来计算注意力图S∈R^N×N，N＝H×W是像素数：

特征图O为所有位置上的特征与原始特征的加权和，

鉴别器使用全卷积神经网络，鉴别器以分割网络输出的H×W×C的类概率图或步骤1)中数据集带标记的图像获取类概率图I_n作为输入，最后输出H×W×1的置信图，鉴别器输出映射的每个像素p表示该像素是来自步骤1)中数据集带标记的图像即p＝1采样还是来自分割网络即p＝0，鉴别器由5个4×4核卷积层和{64,128,256,512,1}通道组成，步长为2，除最后一层外，每个卷积层后面都有一个参数为0.2的Leaky-ReLU，为将模型转化为一个完全卷积的网络，在最后一层增加一个上采样层，将输出缩放到输入映射的大小，最后，应用一个上采样层和softmax输出层来匹配输入图像的大小，然后在鉴别器的前四个卷积层上均使用谱归一化，谱归一化后鉴别器的最优的形式是：

where f^*(x)＝logq_data(x)-logp_G(x)(3)，和公式(3)的导数：

其中q_data为数据分布，p_G为要通过对抗性最小-最大优化学习的分割网络的分布，公式(3)没有边界或者无法计算时，需要一定的机制来限定f(x)的导数，

省略鉴别器各个层加上的biase，对于鉴别器的f函数利用一致性有不等式：

其中，σ(W)表示的是W的二范式，利用性质线性，对于任意系数β有||βA||＝|β|||A||，那么可以得出f的上界为1，

对于矩阵W的谱归一化：

公式(5)中的每个W代入式(6)，如果鉴别器的每层权重W都进行谱归一化，那么将鉴别器看做一个函数隐射f，即将Lipschitz范数约束在1以下，这样就达到了鉴别器的映射函数满足Lipschitz约束的效果，对于鉴别器映射输出的每个像素p，若是来自分割网络则p＝0，来自步骤1)中数据集带标记的图像则p＝1；

3)用自注意半监督语义分割的对抗网络对训练集进行训练，训练过程如下：

步骤2、对训练集中部分标记和未标记的图像进行随机抽样训练，使用带标记的图像时，分割网络既受带标记图像的标准交叉熵损失Lce的监督，又受带鉴别器的对抗损失Ladv的监督；

步骤12、将置信图作为监控信号，采用自学习的方法训练具有掩蔽交叉熵损失Lsemi的分割网络，该置信度图表示预测的分割区域的质量，并使得分割网络在训练过程中可信任；

步骤13、重复步骤1-步骤12的步骤20000次后结束训练，得到分割预测模型；

4)利用验证集对分割预测模型进行验证，验证过程只使用分割网络，且验证过程中自动应用分割预测模型的参数，验证过程如下：

step 9、通过平均交并比函数(mean cross-over-union,mean IU)运算来计算分割图15的分割精度，其中Pascal Voc 2012数据集和Cityscapes数据集的计算结果分别如表1和表2所示，

表1

表2

然后加入第一自注意力模块和第二自注意力模块再谱归一化，得到最终的分割结果。

将最终的分割结果与现有的方法得到的分割结果进行对比，本例方法得到的最终分割结果精度比现有的方法得到的分割结果得到较大提升，如图3所示。

Claims

1.一种自注意对抗学习的半监督语义分割方法，其特征在于，包括如下步骤：

1)获取训练集和验证集，对训练集预处理：将已知的语义分割数据集Pascal Voc 2012和Cityscapes中的图像分别分成训练集和验证集，并对训练集的图像进行预处理，其中数据集中的一部分图像带标记，其余图像不带标记；

2)构建自注意半监督语义分割的对抗网络：对抗网络由分割网络G和鉴别器D组成，其中分割网络是任意为语义分割的网络，去掉分割网络的最后一个卷积层，将分割网络最后两个卷积层的步长由2修改为1，使输出特征图的分辨率达到输入图像大小的1/8，然后分别在第四卷积层和第五卷积层中应用扩展卷积，第四卷积层和第五卷积层的步长分别为2和4，在分割网络的第五卷积层使用Atrous空间金字塔池方法，即得到最终的分割网络：64维的1/2倍下采样层即第一卷积层、128维的1/4倍下采样层即第二卷积层、256维的1/8倍下采样层即第三卷积层、第一个自注意力模块SA1、512维的1/16倍下采样层即第四卷积层、1028维的1/32倍下采样层即第五卷积层、第二个自注意力模块SA2，给定一个H×W×3维的输入图像，采用一个上采样层和softmax输出层来匹配输入图像的大小，然后分割网络输出一个大小为H×W×C的类概率图，其中C为语义类别的个数，

分割网络中的第一自注意力模块SA1与第二自注意力模块SA2的结构相同，将第三卷积层和第五卷积层中的特征图X∈R^C×H×W作为输入，并且第三卷积层和第五卷积层各生成两个特征图，即Q、K∈R^C×H×W，Q为查询，即从特征图中输入一个像素点，查询到特征图上所有像素点对这一点的影响，K代表字典中的键，相当于所查询的数据库，将Q和K进行转置后执行矩阵乘法，以softmax层来计算注意力图S∈R^N×N，N＝H×W是像素数：

其中，i为特征图的行数，j为特征图的列数，通过公式(1)得到针对Q的特征图中的某一个位置，计算出特征图K中的所有位置对特征图Q的影响，对特征图X多加了一层卷积映射得到新的特征图V∈R^C×H×W，将S和V进行转置后执行矩阵乘法，然后将S和V的相乘结果乘以比例参数α，第一自注意力模块和第二自注意力模块逐渐学习到了将注意力加权过的特征图加在特征图X上，得到特征图O：

特征图O为所有位置上的特征与原始特征的加权和，

鉴别器使用全卷积神经网络，鉴别器以分割网络输出的H×W×C的类概率图或步骤1)中数据集带标记的图像获取类概率图I_n作为输入，然后输出H×W×1的置信图，鉴别器由5个4×4核卷积层和{64,128,256,512,1}通道组成，步长为2，最后应用一个上采样层和softmax输出层来匹配输入图像的大小，然后在鉴别器的前四个卷积层上均使用谱归一化，让鉴别器的映射函数满足Lipschitz约束；

2.根据权利要求1所述的自注意对抗学习的半监督语义分割方法，其特征在于，步骤1)中所述的预处理过程如下：

先对数据集中的图像进行固定大小的随机裁剪，再将裁剪后的图像进行随机水平翻转和亮度变换，后将翻转后的图像进行归一化。

3.根据权利要求1所述的自注意对抗学习的半监督语义分割方法，其特征在于，步骤3)中所述的训练，包括如下步骤：

4.根据权利要求1所述的自注意对抗学习的半监督语义分割方法，其特征在于，步骤4)中所述的利用验证集对分割预测模型进行验证，其中验证过程只使用分割网络，验证过程如下：

step2、将特征图8送入128维的1/4倍下采样层进行卷积运算，并应用最大池化层来扩大特征图8的感受野，来获取特征图8的最大池化特征，得到缩小4倍的下采样特征图9；

step3、将特征图9送入256维的1/8倍下采样层进行卷积运算，并应用最大池化层来扩大特征图9的感受野，来获取特征图9的最大池化特征，得到缩小8倍的下采样特征图10；

step4、将特征图10送入第一个自注意力模块捕获特征位置的细节，获取特征图10的全局几何特征图11；

step5、将特征图11送入512维的1/16倍下采样层进行卷积运算，并应用最大池化层来扩大特征图11的感受野，来获取特征图11的最大池化特征，得到缩小16倍的下采样特征图12；

step6、将特征图12送入1028维的1/32倍下采样层进行卷积运算，并应用最大池化层来扩大特征图12的感受野，来获取特征图12的最大池化特征，得到缩小32倍的下采样特征图13；

step7、将特征图13送入第二个自注意力模块捕获特征位置的细节，获取特征图13的全局几何特征图14；

step8、将特征图14应用一个上采样层和softmax输出来匹配验证集中的未标记输入图像的大小，输出一个分割图15；

step9、通过平均交并比函数运算来计算分割图15的分割精度，然后同时加入第一个自注意力模块和第二个自注意力模块再谱归一化，得到最终的分割结果。