CN117611957B

CN117611957B - 基于统一正负伪标签的无监督视觉表征学习方法及***

Info

Publication number: CN117611957B
Application number: CN202410077239.2A
Authority: CN
Inventors: 吴建龙; 李子晗; 孙玮; 聂礼强; 尹建华; 林宙辰
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology; Shandong University
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology; Shandong University
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-03-29
Anticipated expiration: 2044-01-19
Also published as: CN117611957A

Abstract

本发明属于计算机视觉中的图像聚类技术领域，为解决现有图像聚类模型聚类性能低的问题，提供一种基于统一正负伪标签的无监督视觉表征学习方法及***。其中，基于统一正负伪标签的无监督视觉表征学习方法包括预训练分配正标签的深度聚类模型；利用预训练的深度聚类模型为所有图像样本分配正标签，并从中筛选出一组正标签置信度高于设定阈值的图像样本；其中，将筛选出的图像样本作为有标签的图像样本，剩余的图像样本作为无标签的图像样本；利用预训练的深度聚类模型及所有图像样本再进行半监督调整，利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练，其能够在预训练模型的基础上进一步提升聚类性能。

Description

基于统一正负伪标签的无监督视觉表征学习方法及***

技术领域

本发明属于计算机视觉中的图像聚类技术领域，尤其涉及一种基于统一正负伪标签的无监督视觉表征学习方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，虽然有监督深度学习技术取得了显著进展，但其依赖于完备的有标注数据集，而构建这样的数据集通常需要大量的人力、物力和财力。由于成本和资源的限制，可供使用的有标注数据集相对稀缺，而相对更为丰富的是各类无标注数据。聚类作为一种典型的无监督表征学习方法，在计算机视觉领域扮演着至关重要的角色，其为克服有监督学习中标注数据不足的难题提供了一种有效的途径，即通过将相似的数据划分为同一类别，从而实现对无标注数据更为充分的利用。这一过程不仅有助于揭示数据内在的联系，而且为进一步的分析和应用提供了有力的基础。尤其值得强调的是，聚类在处理大规模无标注数据时展现出其独特的优势。通过对数据进行有效的分组，研究人员可以更深入地了解数据的潜在规律，为后续的特征提取、模型训练等任务奠定坚实的基础。在这个背景下，聚类不仅仅是一种数据整理手段，更是一种有效提升数据利用效率的重要工具，为计算机视觉领域的研究和应用带来了新的启示。

传统的聚类方法，如K-means、层次聚类、谱聚类、子空间聚类等，通常依赖于手工选择的特征和距离度量进行聚类，从而限制了聚类算法的性能和适用范围。然而，深度学习技术的崛起为聚类提供了一种全新的思路，能够自动学习数据的表示，不再受制于人工定义的特征，同时具备发现数据中复杂结构和模式的能力，从而为聚类任务提供更为丰富的结果。由于自监督学习具有强大的表示学习能力，因此基于标签技术的增强深度图像聚类模型的方法也应运而生，例如现有技术中引入了自标记，通过利用预训练的自监督模型生成的高置信度伪标签，以增强模型性能。

然而，现有的视觉表征学习方法仍存在以下问题：

（1）普遍局限于传统的无监督学习框架，这样导致在处理复杂的视觉数据时，很难充分挖掘数据的潜在结构和特征，也没能有效利用已有的高置信度样本进行进一步的训练。

（2）现有的增强聚类模型效果的方法主要关注正标签，而忽略了负标签的使用，这样导致模型对部分类别的学习效果不足，限制了模型的表现能力。

（3）现有方法生成的正负伪标签质量不高，且生成过程需要引入额外的超参数，这样导致模型鲁棒性不高，增加了模型训练的不确定性，降低了方法的通用性和易用性。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于统一正负伪标签的无监督视觉表征学习方法及***，其能够在预训练模型的基础上进一步提升聚类性能。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于统一正负伪标签的无监督视觉表征学习方法。

一种基于统一正负伪标签的无监督视觉表征学习方法，包括：

预训练分配正标签的深度聚类模型；

利用预训练的深度聚类模型为所有图像样本分配正标签，并从中筛选出一组正标签置信度高于设定阈值的图像样本；其中，将筛选出的图像样本作为有标签的图像样本，剩余的图像样本作为无标签的图像样本；

利用预训练的深度聚类模型及所有图像样本再进行半监督调整，利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练；

其中，半监督调整的过程为：

对有标签的图像样本，进行有监督学习，得到监督学习损失；

对无标签的图像样本，利用自适应的正负伪标签阈值策略以及K-means聚类生成伪标签并进行伪标签学习，得到伪标签学习损失；

由监督学习损失与伪标签学习损失构成半监督调整过程中的学习损失。

作为一种实施方式，所述自适应的正负伪标签阈值策略根据深度聚类模型的训练状态自动调节正阈值及负阈值的大小。

作为一种实施方式，对无标签的图像样本，利用自适应的正负伪标签阈值策略生成伪标签的过程为：

当图像样本的最大概率超过正阈值时，最大概率对应的类别将作为该图像样本的正伪标签；

反之，当图像样本的某些概率低于负阈值时，这些概率对应的类别均将作为该图像样本的负伪标签。

作为一种实施方式，所述伪标签学习损失由正伪标签学习损失、负伪标签学习损失和K-means伪标签学习损失这三部分构成。

作为一种实施方式，所述监督学习损失采用最小化特征与标签之间的交叉熵损失表征。

作为一种实施方式，在筛选一组正标签置信度高于设定阈值的图像样本的过程中：

若深度聚类模型为基于聚类头的深度聚类模型，使用弱扩充样本得到预测概率分布，选取图像样本中概率方差最大的部分图像样本；

若深度聚类模型为基于聚类特征的深度聚类模型，使用弱扩充样本得到特征到聚类中心的聚类，选取图像样本中距离聚类中心最近的部分图像样本。

作为一种实施方式，若深度聚类模型为基于聚类头的深度聚类模型，对于无标签的图像样本，使用聚类头得到的弱扩充样本预测概率进行自适应动态更新负阈值，过程为：

在一个批次样本中，除去最大概率的所有概率之和的均值更新全局阈值；

在一个批次样本中，将除去最大概率的不同类别的预测概率期望作为衡量该类别学习状况的标准，作为局部学习状况；

使用全局阈值以及归一化后的局部学习状况之积作为负阈值。

本发明的第二个方面提供一种基于统一正负伪标签的无监督视觉表征学习***。

一种基于统一正负伪标签的无监督视觉表征学习***，其包括：

预训练模块，其用于预训练分配正标签的深度聚类模型；

样本筛选模块，其利用预训练的深度聚类模型为所有图像样本分配正标签，并从中筛选出一组正标签置信度高于设定阈值的图像样本；其中，将筛选出的图像样本作为有标签的图像样本，剩余的图像样本作为无标签的图像样本；

半监督调整模块，其利用预训练的深度聚类模型及所有图像样本再进行半监督调整，利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练；

其中，半监督调整的过程为：

作为一种实施方式，在所述半监督调整模块中，所述自适应的正负伪标签阈值策略根据深度聚类模型的训练状态自动调节正阈值及负阈值的大小。

作为一种实施方式，在所述半监督调整模块中，对无标签的图像样本，利用自适应的正负伪标签阈值策略生成伪标签的过程为：

与现有技术相比，本发明的有益效果是：

（1）本发明在无监督聚类中引入半监督训练，利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练，充分利用了已有的高置信度样本，适用于现有的所有深度聚类方法，且即插即用，进一步增强了模型表征能力。

（2）本发明将负伪标签学习中引入无监督聚类，首次将负学习与聚类任务结合，在利用正标签的同时，也充分利用了负标签，为半监督调整提供了更多的监督信号，提高了模型的表征能力。

（3）本发明提出了自适应的正负伪标签阈值技术，当深度聚类模型为基于聚类头的深度聚类模型，对于无标签的图像样本，使用聚类头得到的弱扩充样本预测概率进行自适应动态更新负阈值，可以根据模型的学习状态动态地过滤低置信度样本，并且不引入额外的超参数，提高了生成的正负伪标签质量。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于统一正负伪标签的无监督视觉表征学习方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

结合图1，本实施例提供了一种基于统一正负伪标签的无监督视觉表征学习方法，其具体包括如下步骤：

步骤1：预训练分配正标签的深度聚类模型。

在具体实施过程中，通过已有的方法训练一个可以分配正标签的深度聚类模型。

例如，基于聚类头的深度聚类模型，其利用聚类头输出的概率预测分布来生成正标签；

也可训练基于聚类特征的深度聚类模型，其对特征进行K-means聚类，利用特征到聚类中心的距离生成正标签。

步骤2：利用预训练的深度聚类模型为所有图像样本分配正标签，并从中筛选出一组正标签置信度高于设定阈值的图像样本；其中，将筛选出的图像样本作为有标签的图像样本，剩余的图像样本作为无标签的图像样本。

在具体实施过程中，筛选出一组正标签置信度高于设定阈值的图像样本中，每一类图像样本数量保持相等。

标签筛选的目标是为所有样本打上正标签，并从中挑选出正标签置信度高的样本。对于一组分为K类，共有N张图片的数据集，给定一个比例。对于每一类，将挑选出/>个样本，并使得这些样本的正标签尽可能准确。

其中，在筛选一组正标签置信度高于设定阈值的图像样本的过程中，若深度聚类模型为基于聚类头的深度聚类模型，使用弱扩充样本得到预测概率分布，选取图像样本中概率方差最大的部分图像样本。

具体地，对于基于聚类头的深度聚类模型：

聚类头将输出一个分配概率矩阵，/>表示每个样本分配给不同类别的概率，其中最大概率所对应的类别将作为样本的正标签，即。为了过滤掉正标签置信度低的样本，利用概率向量的方差来筛选每个类别的样本。一般来说，概率分布的方差越大，意味着概率分布越极端，不同类别间的区分度越大，从而得到的正标签可信度更高。以正标签为/>的样本为例，计算每个样本的方差/>，然后挑选/>最大的前/>个样本作为该类的有标签样本。

在筛选一组正标签置信度高于设定阈值的图像样本的过程中，若深度聚类模型为基于聚类特征的深度聚类模型，使用弱扩充样本得到特征到聚类中心的聚类，选取图像样本中距离聚类中心最近的部分图像样本。

具体地，对于基于聚类特征的深度聚类模型：

将编码器进行K-means聚类后的结果作为正标签。通过K-means聚类，可以得到一个距离矩阵/>，距离矩阵中的每个元素/>表示第个样本到第/>个聚类中心的距离，距离样本最近的聚类中心类别将作为样本的正标签，即/>。认为样本到聚类中心的距离越小，那么该样本的正标签的可信度越高。故对于正标签为/>的样本，挑选/>最小的前/>个样本作为该类的有标签样本。

得到一个拥有高置信度正标签的数据集合，该集合作为半监督学习中的有标签数据，进行有监督学习。未被选择的样本/>作为半监督学习中的无标签数据，对于无标签数据，遵循无标签数据学习中的伪标签学习的方式进行训练，即利用弱扩充的支路生成高置信度的伪标签来指导强扩充支路的学习。

步骤3：利用预训练的深度聚类模型及所有图像样本再进行半监督调整，利用半监督调整过程中的学习损失对预训练的深度聚类模型进行联合优化训练。

其中，半监督调整的过程为：

步骤3.1：对有标签的图像样本，进行有监督学习，得到监督学习损失。例如，所述监督学习损失采用最小化特征与标签之间的交叉熵损失表征。

对于每个有标注的样本，按照有标签数据学习的方式进行训练。

令弱扩充后的样本经过编码器/>和聚类/>获取概率分布，最后计算概率分布和正标签之间的交叉熵损失/>，如下：

其中，表示每个批次中的有标签样本数量，/>为弱扩充，/>为交叉熵函数。

步骤3.2：对无标签的图像样本，利用自适应的正负伪标签阈值策略以及K-means聚类生成伪标签并进行伪标签学习，得到伪标签学习损失。

在一个或多个实施例中，所述伪标签学习损失由负伪标签学习损失、正伪标签学习损失和K-means伪标签学习损失这三部分构成。

（1）负伪标签学习

在本实施例中，所述自适应的正负伪标签阈值策略根据深度聚类模型的训练状态自动调节正阈值及负阈值的大小。

其中，对无标签的图像样本，利用自适应的正负伪标签阈值策略生成伪标签的过程为：

基于这一自适应的正负阈值策略，本实施例引入正、负伪标签学习来对整个聚类网络进行优化。这一策略的实施有助于提高对样本的分类准确性，从而进一步改善聚类性能。

本实施例设计了一种自适应正负阈值策略来确保生成正、负伪标签的可靠性。如果样本的最大概率所对应类别高于正阈值的，则将该类别作为正伪标签，样本的概率低于负阈值的类别，都会作为负伪标签。

在训练过程中，不同类别的学习难度是不同的，因此每个类别都应该有对应的阈值，并且该阈值能够根据训练中的样本情况不断调整的。此处给出负阈值的计算过程，正阈值可以在计算负阈值的过程中得出。

其中，若深度聚类模型为基于聚类头的深度聚类模型，对于无标签的图像样本，使用聚类头得到的弱扩充样本预测概率进行自适应动态更新负阈值，过程为：

例如，设，对于正标签为/>，即/>的样本，定义/>类的负阈值/>，其中/>是一个标量，反映了除类别/>外其他所有类别的全局学习状况，/>为一个/>维的向量，表明了除类别/>外的每个类的局部学习状况。

对于正标签为的样本，其负标签应该从除/>类以外的类别中选取。为了确定非类别的整体学习状况，构造全局阈值/>，如下：

非类别的局部学习情况也很重要，它更具体地反映了不同类别样本学习的难易程度，将不同类别的预测概率期望作为衡量该类别学习状况的标准，作为局部学习状况：

其中表示将/>中的/>置为0后的结果。

为了让阈值更新更加平缓，模型效果更加稳定，本实施例使用EMA（指数滑动平均）的方式更新全局阈值和局部学习状况：

其中，是作为EMA平滑的超参数。

计算得到的也是/>维的，/>中概率小于/>中对应阈值的类别都将作为负伪标签。通过优化下列负伪标签学习损失来使得低于阈值的类别概率趋近于0。

其中：

为负伪标签学习损失；/>表示在一个批次中未标记样本与有标记样本的数量之比，/>表示强扩充，/>表示正伪标签即/>。

（2）正伪标签学习

在半监督调整的过程中，对于未标注的图像样本，使用聚类头得到的弱扩充样本预测概率，将概率最大值大于正阈值的标签作为正伪标签，则对于概率最大值大于正阈值的所有样本，最小化正伪标签和由聚类头得到的强扩充样本预测概率分布之间的交叉熵，

具体地，最大概率所对应的类别即正标签往往是样本的真实标签，为了保留高置信度的正标签，提出正伪标签学习，即样本最大概率超过正阈值的类别将作为正伪标签，指导强扩充支路的学习。基于负阈值，提出正阈值计算如下：

负阈值的学习状况决定了。当模型越来越确定负标签时，负阈值会变得越来越小，从而使得正阈值越来越大，这说明模型识别出正标签的能力也越来越强。

是一个标量，因为只需要考虑最大概率是否达到了正阈值。

最终，正伪标签学习损失可以表示为

（3）K-means伪标签学习

考虑到在训练初期聚类头是随机初始化的，所以其输出的分配概率并不准确，相反由于编码器/>使用了预训练过的深度聚类网络，所以其通过K-means聚类得到的标签是更准确的。为了使整个网络能尽快地熟悉样本，提出K-means伪标签学习，将弱扩充支路的K-means聚类的结果作为K-means伪标签来指导强扩充支路的学习。

在半监督调整的过程中，对于未标注的样本，进行弱扩充后利用编码器得到的特征进行K-means聚类得到K-means伪标签，则对于概率最大值大于正阈值的所有样本，最小化正伪标签和由聚类头得到的强扩充样本预测概率分布之间的交叉熵。

其中，为K-means伪标签学习损失；/>指的是聚类结果采用匈牙利算法后与聚类头对应的K-means伪标签。其中，这里对进行KPL（K-means伪标签）的样本进行了限制，只有超过正阈值/>即拥有正伪标签的样本才进行KPL（K-means伪标签）。因为超过正阈值的样本相较于未超过的样本更简单，聚类结果的准确性往往会更高。

步骤3.3：由监督学习损失与伪标签学习损失构成半监督调整过程中的学习损失。

针对图像聚类任务，创新性地引入了半监督学习，设计了自适应的正负伪标签阈值，并利用K-means伪标签让预训练模型与聚类头更好地融合，最终在半监督调整阶段总损失可以表示为：

其中为个损失的系数。

本实施例在预训练聚类模型完成后，利用预训练聚类模型挖掘高置信度样本，并采用自适应的正负伪标签生成方法进行半监督调整，从而在预训练模型的基础上进一步提升聚类性能。

如表1、表2所示，在不同数据集上对比了本发明的基于统一正负伪标签的无监督视觉表征学习方法与当前存在的深度聚类方法的聚类效果，可以看到在所有数据集上，本发明的基于统一正负伪标签的无监督视觉表征学习方法均表现出明显优势。

表1 各种方法在三个广泛使用的数据集上的聚类结果

在表1中，†表示使用ResNet-34的ProPos，其余模型均使用ResNet-18。

表1中CIFAR-10、CIFAR-100是公开的数据集，ImageNet-Dogs是公开数据集ImageNet-1K数据集的子集。选用的模型骨架为ResNet（Deep Residual Network，深度残差网络）。ResNet-18、ResNet-34和ResNet-50是ResNet的三个版本。

表2中结果选用NMI（Normalized Mutual Information，归一化互信息）、ACC（Accuracy，准确率）、ARI（Adjusted Rand Index，调整兰德系数）三个指标用于对比。用于对比的聚类方法主要为GCC（Graph contrastive clustering，图对比聚类）和ProPos（Learning representation for clustering via prototype scattering and positivesampling，原型分散及正采样聚类）。

表2各种方法在ImageNet-1K上使用ResNet-50的聚类结果

本实施例的基于统一正负伪标签的无监督视觉表征学习可用于人脸聚类和分类***、自然场景聚类等***中。

实施例二

本实施例提供了一种基于统一正负伪标签的无监督视觉表征学习***，其具体包括如下模块：

预训练模块，其用于预训练分配正标签的深度聚类模型；

其中，半监督调整的过程为：

其中，在所述半监督调整模块中，所述自适应的正负伪标签阈值策略根据深度聚类模型的训练状态自动调节正阈值及负阈值的大小。

在所述半监督调整模块中，对无标签的图像样本，利用自适应的正负伪标签阈值策略生成伪标签的过程为：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同。

本发明是参照本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于统一正负伪标签的无监督视觉表征学习方法，其特征在于，包括：

预训练分配正标签的深度聚类模型；

其中，半监督调整的过程为：

由监督学习损失与伪标签学习损失构成半监督调整过程中的学习损失；

对无标签的图像样本，利用自适应的正负伪标签阈值策略生成伪标签的过程为：

当图像样本的最大概率超过正阈值时，最大概率对应的类别将作为该图像样本的正伪标签；反之，当图像样本的某些概率低于负阈值时，这些概率对应的类别均将作为该图像样本的负伪标签；

其中，所述自适应的正负伪标签阈值策略根据深度聚类模型的训练状态自动调节正阈值及负阈值的大小；

若深度聚类模型为基于聚类头的深度聚类模型，对于无标签的图像样本，使用聚类头得到的弱扩充样本预测概率进行自适应动态更新负阈值，过程为：

使用全局阈值以及归一化后的局部学习状况之积作为负阈值；

针对同一标签类别的正阈值的计算过程为：

计算同一标签类别的所有维度的负阈值之和，得到负阈值累加值；

再利用1减去上述负阈值累加值，得到相应正阈值。

2.如权利要求1所述的基于统一正负伪标签的无监督视觉表征学习方法，其特征在于，所述伪标签学习损失由正伪标签学习损失、负伪标签学习损失和K-means伪标签学习损失这三部分构成。

3.如权利要求1所述的基于统一正负伪标签的无监督视觉表征学习方法，其特征在于，所述监督学习损失采用最小化特征与标签之间的交叉熵损失表征。

4.如权利要求1所述的基于统一正负伪标签的无监督视觉表征学习方法，其特征在于，在筛选一组正标签置信度高于设定阈值的图像样本的过程中：

5.一种基于统一正负伪标签的无监督视觉表征学习***，其特征在于，包括：

预训练模块，其用于预训练分配正标签的深度聚类模型；

其中，半监督调整的过程为：

针对同一标签类别的正阈值的计算过程为：

再利用1减去上述负阈值累加值，得到相应正阈值。