CN114677515B

CN114677515B - 基于类间相似性的弱监督语义分割方法

Info

Publication number: CN114677515B
Application number: CN202210442111.2A
Authority: CN
Inventors: 许林峰; 王姮冰; 孟凡满; 吴庆波; 潘力立; 李宏亮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-05-26
Anticipated expiration: 2042-04-25
Also published as: CN114677515A

Abstract

本发明公开了一种基于类间相似性的弱监督语义分割方法，属于弱监督语义分割领域。本发明包括：基于每个类别的特征通过聚类方法将相似类进行合并得到新类，重新生成数据集中每个样本在新类上的标签；基于原始标签搭建分类网络，提取对应的类激活谱，将其与阈值比较获取判别性区域，从原图中擦除判别性区域，将其送入基于新标签建立的分类网络，完成对抗擦除模型的搭建；基于训练好的对抗擦除模型，提取类激活谱，依次经过类激活谱增强模块和融合模块的处理，得到最终的类激活谱，再将其与前景背景阈值比较得到伪标注，基于该伪标注对语义分割模型进行训练，得到训练好的分割模型。本发明提升了图像的弱监督语义分割的分割准确。

Description

基于类间相似性的弱监督语义分割方法

技术领域

本发明属于弱监督语义分割领域，具体涉及一种基于类间相似性的弱监督语义分割方法。

背景技术

弱监督语义分割任务是一个在计算机视觉领域中备受关注的研究方向，其目的旨在利用图像级的标签实现像素级的分割，因此被认为是降低语义分割所需标注成本的一个重要任务。近些年来，随着计算机运算能力的提升，深度卷积神经网络的发展使弱监督语义分割任务获得了诸多显著的成果。

现如今，性能优越的弱监督语义分割模型都是基于类激活谱进行实现的，其基于分类模型建立图像级到标签级的映射关系给弱监督语义分割任务注入了新的活力。较于传统的弱监督语义分割算法，基于类激活谱的弱监督语义分割算法在分割性能上有了突破性进步，在各种数据集上都表现出了强劲的性能和优势，但基于类激活谱的弱监督语义分割任务仍然面临着一些挑战，例如基于分类网络提取的类激活谱具有过激活和欠激活问题等。

比如，以分割场景中的猫和狗这两类为例，由于猫和狗的身体具有较强的相似性，导致猫和狗的判别性区域主要集中在头部区域，故在类激活谱中往往只能激活猫和狗的头部区域，进而使得基于类激活谱提取的伪标注与真实的掩膜具有较大的差距，从而导致最终的分割性能受到影响，但目前通用的弱监督语义分割方法并没有解决类激活欠激活问题，分割的准确率较低，不能满足实际需求。

发明内容

本发明的目的在于：为了解决目前通用的基于类激活谱实现弱监督语义分割任务方法中，由于数据集中类与类之间具有较强的相似性导致提取的类激活谱具有欠激活现象，导致目前通用的模型生成的伪标注与真实的掩膜之间存在较大差距而导致最终的分割准确率较低的问题，本发明提出了一种基于类间相似性的弱监督语义分割方法。

本发明采用的技术方案如下：

基于类间相似性的弱监督语义分割方法，包括以下步骤：

步骤1，建立新标签：

通过特征提取网络提取预置的第一图像数据集的每个类别的图像特征，基于提取的图像特征通过聚类方法对相似类进行合并得到新类，并重新生成第一图像数据集中每个样本图像在新类上的标签；

步骤2，搭建对抗擦除模型：

基于第一图像数据集的原始标签，搭建第一分类网络，所述第一分类网络包括特征提取网络和分类器，所述分类器包括至少一层全连接层；

基于第一图像数据集对所述第一分类网络进行训练，得到训练好的第一分类网络；

将第一图像数据集中的样本图像输入训练好的第一分类网络，基于其特征提取网络的输出得到样本特征图，并将训练好的第一分类网络的分类器的最后一层全连接层的权重作为样本特征图的通道权重，对各样本特征图的按通道进行加权求和生成第一类激活谱(即原始标签对应的类激活谱)；

将所述第一类激活谱阈值进行比较，若大于或等于，则确定为判别性区域，并从当前样本图像中擦除判别性区域得到新样本图像，基于新样本图像和新标签得到第二图像数据集；

基于第二图像数据集搭建第二分类网络，所述第二分类网络与第一分类网络的网络结构相同；并基于第二图像数据集对所述第二分类网络进行训练，基于训练好的第二分类网络得到对抗擦除模型；

步骤3，类激活谱融合：

将新样本图像输入对抗擦除模型，基于其特征提取网络的输出得到第二样本特征图，并将对抗擦除模型的分类器的最后一层全连接层的权重作为第二样本特征图的通道权重，对各第二样本特征图的按通道进行加权求和生成第二类激活谱(即新标签对应的类激活谱)；

对第一和第二类激活谱进行合并处理，生成最终的类激活谱；

步骤4，生成伪标注：

若最终的类激活谱大于或等于前景阈值，则将最终的类激活谱对应的像素划分为前景；若最终的类激活谱小于背景阈值，则将最终的类激活谱对应的像素划分为背景；剩余的像素则填充为白色；

步骤5，训练语义分割模型：

将生成的伪标注作为监督信息，并基于第一图像数据集对采用的语义分割模型进行训练，当满足预置的训练结束条件时，得到训练好的语义分割模型。

进一步地，所述步骤1中，基于提取的图像特征通过聚类方法对相似类进行合并具体为：

基于单个样本图像的图像特征F_i，对其按类别划分，取特征均值得到每个类别的特征：

其中，C_j表示第j个类别的特征，y_i,j表示样本图像i的第j个类别的标签值，若样本图像i包含第j类物体，则y_i,j为1，否则y_i,j为0；

基于每个类别的特征进行聚类处理，将每个聚类结果作为一种新类，并设置对应的新标签。

进一步的，所述特征提取网络采用网络Resnet50或VGG16的骨干网络。

进一步的，所述分类器包括一层设置有softmax函数全连接层。

进一步的，第一、第二类激活谱的具体计算方式为：

其中，O_i,j表示样本图像i第j类的第一或第二类激活谱，R()表示正则化，

表示第一或第二分类器的最后一层全连接的权重，/>

表示样本图像的样本特征图，下标m表示通道标识，j表示类别标识，i表示样本图像标识。

进一步的，步骤2中，新样本图像为I_i′＝∑_jy_i,j[I_i⊙(1-D_i,j)]，其中，I_i表示第一图像数据集的第i幅样本图像，y_i,j表示样本图像i的第j个类别的标签值，若样本图像i包含第j类物体，则y_i,j为1，否则y_i,j为0，D_i,j表示判别性区域标识，D_i,j为1表示判别性区域，D_i,j为0表示非判别性区域，⊙代表点乘运算。

进一步地，所述对抗擦除模型在训练时采用的损失函数为：

其中，s和s′分别表示第一和第二分类网络的预测结果，y和y′分别表示原始标签和新标签；λ₁和λ₂表示两个平衡系数，用来调整每部分对总损失的贡献，以保证训练的稳定，即λ₁和λ₂分别表示第一和第二分类网络的损失权重，/>

表示交叉熵损失函数。

进一步的，第一和第二分类网络进行网络训练时的结束条件为：训练次数达到预置的训练次数上限。

进一步的，步骤2中，确定判别性区域时，首先对第一类激活谱进行增强处理，再基于增强处理后的第一类激活谱进行判别性区域确定。

进一步的，步骤3中，对第一和第二类激活谱进行合并处理前，分别对第一和第二类激活谱进行增强处理，再基于增强处理后的第一和第二类激活谱进行合并处理。

进一步的，所述增强处理具体为：

对分类网络的特征提取网络输出的样本特征图F进行转置和尺寸调整处理，得到两个新的特征图F₁和F₂，并根据公式得到亲和力矩阵M：

其中，‖·‖代表2-范数运算；

定义b×h×w表示样本特征图F尺寸，其中，b表示通道数，h×w表示样本特征图的大小，则特征图F₁的尺寸为b×hw，特征图F₂的尺寸为hw×b；

将类激活谱与其对应的亲和力矩阵M进行矩阵相乘得到增强后的增强后的类激活谱。

进一步的，步骤3中，对第一和第二类激活谱进行合并处理具体为：

第一类激活谱减去干扰区域后，再与第二类激活谱相加，生成最终的类激活谱；

其中，干扰区域的具体生成方式为：

Z_i,j表示样本图像i的第j类的干扰区域，n表示类别标识符，A_i,n表示第一类激活谱，即A_i,n表示样本图像i的第n类的第一激活谱，需要说明的是，若该步骤中，合并处理的对象是增强后的类激活谱，则A_i,n表示增强后的第一类激活谱，为了便于区分，可将增强后的第一类激活谱定义为A′_i,n，未增强处理的第一类激活谱表示为A_i,n。

综上所述，由于采用了上述技术方案，本发明的有益效果是：通过两个分类网络实现类激活谱的提取，通过将相似类进行合并，使得基于新标签分类网络生成的类激活谱可以进一步激活类间相似性区域，对基于原始标签分类网络生成的类激活谱进行扩展；擦除方法擦除判别性区域可以使得基于新标签的分类网络更加关注非判别性区域；类激活谱增强模块通过构建像素与像素之间的相似性矩阵，可以进一步激活与激活区域相似的非激活区域；同时通过融合模块将基于两个分类网络提取的类激活谱进行融合，对类激活谱进行进一步优化，扩展了类激活谱的激活区域，使得生成的伪标注和真实的掩膜更加接近，进而提升了分割结果的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是本发明实施例提供的基于类间相似性的弱监督语义分割方法的流程示意图，其中，GAP表示全局平均池化层，FC表示全连接层；

图2是本发明实施例中，基于像素特征类激活谱增强的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供的基于类间相似性的弱监督语义分割方法解决了目前通用的基于类激活谱进行弱监督语义分割方法中存在的类激活谱欠激活问题。其具体包括以下步骤：

步骤S1，建立新标签：提取每个类别的特征，基于提取的特征通过聚类方法将相似类进行合并得到新类，重新生成数据集中每个样本在新类上的标签；

步骤S2，搭建对抗擦除模型：基于原始标签搭建分类网络，将分类网络的全连接层权重视为每个通道的权重，加权至特征谱上求和即可生成原始标签对应的类激活谱，将类激活谱与阈值比较获取判别性区域，从原图中擦除判别性区域送入基于新标签搭建的分类网络，完成对抗擦除模型的搭建；

步骤S3，生成类激活谱：基于两个分类网络的全连接层权重和特征谱提取对应网络的类激活谱，将其分别送入类激活谱增强模块，基于像素特征之间的相似性进行信息增强，从而激活更多的区域，将增强后的类激活谱送入融合模块，将两个网络提取的类激活谱进行合并，进一步优化类激活谱，获得最终的类激活谱；

步骤S4，生成伪标注：将最终的类激活谱与前景阈值和背景阈值进行比较，将类激活谱分数大于(或等于)前景阈值的区域划分为前景，类激活谱分数小于(或等于)背景阈值的区域划分为背景，剩余区域用白色填充；

步骤S5，训练分割模型：将生成的伪标注作为监督信息送入采用的语义分割模型，对该语义分割模型进行训练，其中训练的数据集为原始的数据集，基于训练好的语义分割模型得到最终的分割结果。本步骤中，语义分割模型可以采用任一惯用的网络结构，本发明不做具体限定，例如可以采用经典的分割模型DeeplabV2。

本发明实施例中，通过两个分类网络实现类激活谱的提取，通过将相似类进行合并，使得基于新标签分类网络生成的类激活谱可以进一步激活类间相似性区域，对基于原始标签分类网络生成的类激活谱进行扩展；擦除方法擦除判别性区域可以使得基于新标签的分类网络更加关注非判别性区域；类激活谱增强模块通过构建像素与像素之间的相似性矩阵，可以进一步激活与激活区域相似的非激活区域；同时通过融合模块将基于两个分类网络提取的类激活谱进行融合，对类激活谱进行进一步优化，扩展了类激活谱的激活区域，使得生成的伪标注和真实的掩膜更加接近，进而提升了分割结果的准确率。

作为一种可能的实现方式，参见图1，本发明实施例提供的基于类间相似性的弱监督语义分割方法的较佳实施例，包括以下步骤：

步骤S1、建立新的标签：

提取每个类别的特征，基于提取的特征通过聚类方法将相似类进行合并得到新类，重新生成数据集中每个样本在新类上的标签；该步骤中，通过惯用的用于提取图像特征的特征提取网络即可获取每个类别的特征。

步骤S101、提取每个类的特征：

使用骨干网络提取数据集上只包含单个目标的图像特征F_i，对其按类别划分，取特征均值即为对应类别的特征：

其中，C_j为第j个类别的特征，y_i,j为第i张图像第j个类别的标签值，如果包含第j类物体，则为1，否则为0；

步骤S102、基于特征将相似类聚为新类：

基于特征C，通过谱聚类方法将特征相似的类聚为一个新类：

P(j)＝j′(j＝1,2...c；j′＝1,2…c′) (2)

其中，P代表聚类算法，j′代表第j类经过聚类后的类别标签，c和c′分别代表聚类前后类别总数；

步骤S103、基于合并后的新类重新生成新标签：

对数据集中的每张图像，重新生成一个新的标签，具体地，第i张图像原始标签为y_i,j，新标签对应为y′_i,j′。

步骤S2、搭建对抗擦除模型：

基于原始标签搭建分类网络，将分类网络的最后一层全连接层权重视为每个通道的权重，加权至特征谱上求和即可生成原始标签对应的类激活谱，将类激活谱与阈值比较获取判别性区域，从原图中擦除判别性区域送入基于新标签搭建的分类网络，完成对抗擦除模型的搭建；

步骤S201、基于原始标签搭建分类网络：

本实施中，将原始图像送入网络Resnet50或VGG16中进行特征提取，然后紧接一个分类器(即由至少一层的全连接层组成的分类器，且分类器的最后一层全连接层通常为基于sofmax函数的全连接层，用于输出各个类别的预测概率)，用原始标签进行监督，搭建基于原始标签的分类网络，即该分类网络包括两部分：特征提取网络和分类器；

步骤S202、提取判别性区域：

基于原始标签搭建分类网络，提取特征提取网络的最后一层输出的特征F(也称为特征图)和全连接层权重fc，将权重fc作为每个通道的权重并加权至特征F上，最终通过加权求和生成每张图像每一类对应的类激活谱：

/>

其中，R()代表正则化，下标m表示通道标识，j表示类别标识，i表示样本图像标识，A_i,j为第i张图像第j类的类激活谱，m代表通道，

表示最后一层全连接的第m通道第j类的权重，/>

表示第m通道第i幅图像的样本特征图；

类激活谱激活区域代表的是分类网络通过物体的该区域将其识别为对应的类别。故类激活谱中，数值越大代表该像素属于目标物体区域的置信度越高。通过将类激活谱与阈值比较，获取物体的判别性区域：

其中，D_i,j反映物体的判别性区域分布情况，D_i,j为1时代表判别性区域，D_i,j为0时代表非判别性区域，t代表阈值。

步骤S203、基于新标签搭建分类网络：

在原始图像I_i上擦除判别性区域：

I_i′＝∑_jy_i,j[I_i⊙(1-D_i,j)] (5)

其中，I_i′代表第i张图像I_i擦除判别性区域后的结果，⊙代表点乘运算；

将I_i′作为输入图像送入基于新标签搭建的分类网络中，使得网络将注意力转移至剩余非判别性区域上，完成对抗擦除网络的搭建。本发明实施例中，基于新标签搭建的分类网络与基于原始标签的分类网络的网络结构相同，两者的差异仅在于训练时训练数据(输入的图像数据及标签)的差异。

步骤S204、训练对抗擦除网络：

基于两个分类网络构建损失函数：

其中，

表示交叉熵损失函数，s和s′分别代表两个分类网络的预测结果，y和y′分别代表原始标签和新标签；λ₁和λ₂为平衡系数，用来调整每部分对总损失的贡献，以保证训练的稳定；

对对抗擦除模型进行网络训练，直到达到预设的迭代次数。

步骤S3、生成类激活谱：

基于两个分类网络的全连接层权重和特征谱提取对应网络的类激活谱，将其分别送入类激活谱增强模块，基于像素特征之间的相似性进行信息增强，从而激活更多的区域，将增强后的类激活谱送入融合模块，将两个网络提取的类激活谱进行合并，进一步优化类激活谱，获得最终的类激活谱；

步骤S301、提取类激活谱：

基于两个训练好的分类网络，通过式(3)分别提取类激活谱A和E，其中，类激活谱A对应基于原始标签的分类网络，类激活谱E对应基于新标签搭建的分类网络；

步骤S302、搭建类激活谱增强模块：

将尺寸为b×h×w特征图F通过转置和尺寸调整操作，得到尺寸分别为b×hw和hw×b特征图F₁和F₂，对特征图F₁和F₂进行矩阵相乘得到亲和力矩阵M：

/>

其中，‖·‖代表2-范数运算；

将类激活谱和亲和力矩阵进行矩阵相乘得到最终的类激活谱：

A′＝AM (8)

其中，A′代表类激活谱A经过类激活谱增强模块处理后的输出结果；

同理，将激活谱E经过类激活谱增强模块处理后得到E′；

由此，完成类激活谱增强模块的搭建(如图2所示)，基于像素的特征相似性通过激活区域去进一步激活非判别性区域。

步骤S303、类激活谱融合模块：

基于增强后的类激活谱A′和E′，通过对其进行融合进行信息补偿，进一步对类激活谱进行优化，具体融合方式如式(9)所示：

G_i,j＝A′_i,j-Z_i,j+E′_i,j′ (9)

其中，G_i,j为最终的类激活谱，Z_i,j代表干扰区域，是为了防止两个相似类同时出现在同一张图像中导致提取出来的类激活谱互相产生干扰，具体生成方式如式(10)所示：

其中，n表示类别标识符。

步骤S4、生成伪标注：

将最终的类激活谱与前景阈值和背景阈值进行比较，将大于前景阈值的像素划分为前景，小于背景阈值的像素划分为背景，剩余像素用白色填充：

其中，H_i,j代表第i张图像第j类对应的激活谱生成的伪标注；

对于某一张图像，若出现某个像素同时属于多个前景，则比较Z_i,j值，取数值最大时对应的类别作为前景。

步骤S5、训练分割模型并推理：

将生成的伪标注作为监督信息送入目前经典的语义分割模型DeeplabV2中进行训练，基于训练好的语义分割模型得到最终的分割结果。

本发明实施例主要针对目前基于类激活实现弱监督分割方法中存在的欠激活问题，通过两个分类网络实现类激活谱的提取，通过将相似类进行合并，使得基于新标签分类网络生成的类激活谱可以进一步激活类间相似性区域，对基于原始标签分类网络生成的类激活谱进行扩展；擦除方法擦除判别性区域可以使得基于新标签的分类网络更加关注非判别性区域；类激活谱增强模块通过构建像素与像素之间的相似性矩阵，可以进一步激活与激活区域相似的非激活区域；同时通过融合模块将基于两个分类网络提取的类激活谱进行融合，对类激活谱进行进一步优化，扩展了类激活谱的激活区域，使得生成的伪标注和真实的掩膜更加接近，进而提升了分割结果的准确率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于类间相似性的弱监督语义分割方法，其特征在于，包括下列步骤：

步骤1，建立新标签：

步骤2，搭建对抗擦除模型：

将第一图像数据集中的样本图像输入训练好的第一分类网络，基于其特征提取网络的输出得到样本特征图，并将训练好的第一分类网络的分类器的最后一层全连接层的权重作为样本特征图的通道权重，对各样本特征图的按通道进行加权求和生成第一类激活谱；

将所述第一类激活谱与阈值进行比较，若大于或等于，则确定为判别性区域，并从当前样本图像中擦除判别性区域得到新样本图像，基于新样本图像和新标签得到第二图像数据集；

步骤3，类激活谱融合：

将新样本图像输入对抗擦除模型，基于其特征提取网络的输出得到第二样本特征图，并将对抗擦除模型的分类器的最后一层全连接层的权重作为第二样本特征图的通道权重，对各第二样本特征图的按通道进行加权求和生成第二类激活谱；

对第一和第二类激活谱进行合并处理，生成最终的类激活谱：第一类激活谱减去干扰区域后，再与第二类激活谱相加，生成最终的类激活谱；其中，干扰区域的具体生成方式为：

Z_i,j表示样本图像i的第j类的干扰区域，n表示类别标识符，A_i,n表示第一类激活谱或增强后的第一类激活谱；

步骤4，生成伪标注：

若最终的类激活谱大于或等于前景阈值，则将最终的类激活谱对应的像素划分为前景；若最终的类激活谱小于背景阈值，则将最终的类激活谱对应的像素划分为背景；剩余像素则填充为白色；

步骤5，训练语义分割模型：

2.如权利要求1所述的方法，其特征在于，所述步骤1中，基于提取的图像特征通过聚类方法对相似类进行合并具体为：

其中，j_j表示第h个类别的特征，y_ij表示样本图像i的第j个类别的标签值，若样本图像i包含第j类物体，则y_i,j为1，否则y_i,j为0；

3.如权利要求1所述的方法，其特征在于，所述分类器包括一层设置有softmax函数全连接层。

4.如权利要求1所述的方法，其特征在于，第一、第二类激活谱的具体计算方式为：

表示第一或第二分类器的最后一层全连接的权重，/>

5.如权利要求1所述的方法，其特征在于，步骤2中，新样本图像为i_i ^′＝∑_jy_i,j[I_i⊙(1-D_i,j)]，其中，I_i表示第一图像数据集的第i幅样本图像，y_i,j表示样本图像i的第j个类别的标签值，若样本图像i包含第j类物体，则y_i,j为1，否则y_i,j为0，D_i,j表示判别性区域标识，D_i,j为1表示判别性区域，D_i,j为0表示非判别性区域，⊙代表点乘运算。

6.如权利要求1所述的方法，其特征在于，所述对抗擦除模型在训练时采用的损失函数为：

表示交叉熵损失函数。

7.如权利要求1所述的方法，其特征在于，所述步骤2中，确定判别性区域时，首先对第一类激活谱进行增强处理，再基于增强处理后的第一类激活谱进行判别性区域确定；

和/或者所述步骤3中，对第一和第二类激活谱进行合并处理前，分别对第一和第二类激活谱进行增强处理，再基于增强处理后的第一和第二类激活谱进行合并处理。

8.如权利要求7所述的方法，其特征在于，所述增强处理具体为：

其中，‖·‖代表2-范数运算；