CN111898704A

CN111898704A - 对内容样本进行聚类的方法和装置

Info

Publication number: CN111898704A
Application number: CN202010824726.2A
Authority: CN
Inventors: 卢东焕; 赵俊杰; 马锴; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-06
Anticipated expiration: 2040-08-17
Also published as: CN111898704B

Abstract

本申请描述了对内容样本进行聚类的方法，包括：获取包括无标签的多个内容样本的数据集；使用彼此不同的多个聚类方法中对多个内容样本进行聚类，以确定在每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别；针对每个内容样本，响应于确定：每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本；利用有标签的内容样本和无标签的内容样本训练内容样本分类器，以得到经训练的内容样本分类器；利用经训练的内容样本分类器对待聚类的内容样本进行聚类以确定其类别。

Description

对内容样本进行聚类的方法和装置

技术领域

本公开涉及数据处理的技术领域，尤其涉及对内容样本进行聚类的方法和装置。

背景技术

目前，在对诸如图像数据样本、语音数据样本、文本数据样本这样的内容样本进行聚类时，通常采用两阶段的聚类方法。在第一阶段，利用编码器对内容样本提取特征，然后在第二阶段对提取的特征使用诸如K均值（K-means）算法这样的基础聚类算法进行聚类以得到各个样本的类别。然而，这样的聚类方法通常受限于编码器的特征提取能力而效果不佳，而且也无法端到端地获取内容样本的类别（即，直接根据内容样本获取内容样本的类别，而无需利用编码器对内容样本提取特征）。此外，使用的基础聚类算法本身也会影响聚类的准确性。

随着人工智能的发展，基于分类器的聚类方法可以实现端到端地获取内容样本的类别，但是要想训练出聚类准确性好的分类器却面临着很大困难，因为已知其准确类别的训练样本是严重不足的，而且获取这样的训练样本的过程同样受到编码器的特征提取能力和基础聚类算法本身的影响。也有一些研究尝试综合考虑多个基础聚类算法的聚类结果，但使用了简单的加权投票方式进行融合，效率极差。

发明内容

有鉴于此，本公开提供了确定训练集的方法和装置、训练内容样本分类器的方法和装置、以及对内容样本进行聚类的方法和装置，期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。

根据本公开的第一方面，提供了一种对内容样本进行聚类的方法，包括：获取包括无标签的多个内容样本的数据集；使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别；针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应；利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，以得到经训练的内容样本分类器；利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别。

在一些实施例中，所述方法还包括：响应于在使用所述多个聚类方法中的每两个聚类方法中的第一聚类方法聚类成的所有类别中，所述每个内容样本被聚类成的最高置信度对应的类别与在使用所述每两个聚类方法中的第二聚类方法时所述每个内容样本被聚类成的最高置信度对应的类别之间具有最多数量的相同内容样本，则确定所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的。

在一些实施例中，对所述每个内容样本标记标签包括：确定在所述多个聚类方法下所述每个内容样本分别被聚类成的类别的最高置信度的平均值，并将最高置信度对应的类别在标签中的第一置信度标记为所述平均值，以及标记最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度，使得所述第一置信度与所有第二置信度的和为1。

在一些实施例中，对所述每个内容样本标记标签包括：将最高置信度对应的类别在标签中的第一置信度标记为1，以及将最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度分别标记为0。

在一些实施例中，所述多个聚类方法中的至少一个聚类方法包括基于分类器的聚类方法，并且其中在所述利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器前，所述方法还包括：利用所述有标签的内容样本和无标签的内容样本训练所述聚类方法所基于的分类器；利用基于训练后的分类器的聚类方法对所述多个内容样本进行聚类，以确定在所述基于训练后的分类器的聚类方法下每个内容样本被聚类得到的更新的类别的置信度分布；基于所述更新的类别的置信度分布以及在所述多个聚类方法中其它聚类方法下每个内容样本分别被聚类得到的类别的置信度分布来重新形成有标签的内容样本。

在一些实施例中，所述多个聚类方法中的至少一个聚类方法为K均值聚类方法，并且其中使用K均值聚类方法对所述多个内容样本进行聚类还包括：对所述多个内容样本中每个内容样本提取多个维度的特征数据；对所述多个维度的特征数据进行降维；基于所述多个内容样本的降维后的特征数据对所述多个内容样本对进行聚类。

在一些实施例中，利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，包括：通过调整所述内容样本分类器的参数使得总损失函数最小化来训练所述内容样本分类器，其中所述总损失函数为针对每个内容样本的损失函数的和，并且，其中针对每个有标签的内容样本的损失函数用来约束内容样本分类器输出的每个有标签的内容样本的类别的置信度分布与每个有标签的内容样本的标签的接近度；其中针对每个无标签的内容样本的损失函数用来约束内容样本分类器针对随机变换后的每个无标签的内容样本输出的类别的置信度分布的不变性以及内容样本分类器输出的类别的置信度分布与独热向量的相似度，其中类别的置信度分布包括针对多个类别中的每个类别的置信度。

在一些实施例中，通过调整所述内容样本分类器的参数使得总损失函数最小化来训练所述内容样本分类器，包括：以反向传播的方式训练所述内容样本分类器，其中，在反向传播中通过计算损失函数的梯度的一阶矩估计和二阶矩估计来动态调整针对所述内容样本分类器的每个参数的学习速率。

在一些实施例中，利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，包括：每次选择相同数量的有标签的内容样本和无标签的内容样本分次训练所述分类器。

在一些实施例中，利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别，包括：将所述待聚类的内容样本输入经训练的内容样本分类器，使得内容样本分类器输出所述待聚类的内容样本的与所述多个类别对应的置信度分布；将具有置信度分布中的最高置信度的类别确定为所述待聚类的内容样本的类别。

在一些实施例中，所述多个内容样本中的每个内容样本包括图像数据样本，并且所述内容样本分类器的结构包括卷积神经网络。

在一些实施例中，所述多个内容样本中的每个内容样本包括文本数据样本和语音数据样本中的一个，并且所述内容样本分类器的结构包括循环神经网络、长短期记忆网络以及自变换器的双向编码器表征量中的一个。

根据本公开的第二方面，提供了一种对内容样本进行聚类的装置，包括：获取模块，被配置成获取包括无标签的多个内容样本的数据集；聚类模块，被配置成使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别；标记模块，被配置成针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应；训练模块，被配置成利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，以得到经训练的内容样本分类器；确定模块，被配置成利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别。

根据本公开的第三方面，提供了一种确定训练集的方法，包括：获取包括无标签的多个内容样本的数据集；使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别；针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应；将所述数据集中的有标签的内容样本和无标签的内容样本一起确定为用于所述内容样本分类器的训练集。

根据本公开的第四方面，提供了一种确定训练集的装置，包括：数据集获取装置，被配置成获取包括无标签的多个内容样本的数据集；样本聚类模块，被配置成使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别；样本标记模块，被配置成针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应；训练集确定模块，被配置成将所述数据集中的有标签的内容样本和无标签的内容样本一起确定为用于所述内容样本分类器的训练集。

根据本公开的第五方面，提供了一种训练内容样本分类器的方法，包括：获取用于内容样本分类器的训练集，其中所述训练集是根据本公开的第三方面所述的方法确定的并且包括有标签的内容样本和无标签的内容样本；利用训练集中的所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器。

根据本公开的第六方面，提供了一种训练内容样本分类器的装置，包括：训练集获取模块，被配置成获取用于内容样本分类器的训练集，其中所述训练集是根据本公开的第四方面所述的确定训练集的装置确定的并且包括有标签的内容样本和无标签的内容样本；分类器训练模块，被配置成利用训练集中的所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器。

根据本公开的第七方面，提供了一种计算设备，包括处理器；以及存储器，配置为在其上存储有计算机可执行指令，当计算机可执行指令被处理器执行时执行如上面所述的任意方法。

根据本公开的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如上面所述的任意方法。

在本公开要求保护的确定训练集的方法和装置、训练内容样本分类器的方法和装置、以及对内容样本进行聚类的方法和装置中，通过充分利用多个聚类方法对数据集中的内容样本的聚类结果，能够准确地确定出数据集中的“干净”样本和“噪声”样本。对“干净”样本标记标签，并且和其中的“噪声”样本一起对内容样本分类器进行训练，能够极大提高经训练的内容样本分类器的聚类准确性和泛化性，同时使得所述经训练的内容样本分类器能够端到端地获取内容样本的类别。

根据下文描述的实施例，本公开的这些和其它优点将变得清楚，并且参考下文描述的实施例来阐明本公开的这些和其它优点。

附图说明

现在将更详细并且参考附图来描述本公开的实施例，其中：

图1图示了根据本公开的一个实施例的一种确定训练集的方法的示意性流程图；

图2图示了根据本公开的一个实施例的一种训练内容样本分类器的方法的示意性流程图；

图3图示了根据本公开的一个实施例的一种对内容样本进行聚类的方法的示意性流程图；

图4图示了根据本公开的一个实施例的对“干净”样本进行更新的方法的示例性流程图；

图5图示了根据本公开的一个实施例的对内容样本进行聚类的示例性原理图；

图6图示了根据本公开的一个实施例的确定训练集的装置的示例性结构框图；

图7图示了根据本公开的一个实施例的训练内容样本分类器的装置的示例性结构框图；

图8图示了根据本公开的一个实施例的对内容样本进行聚类的装置的示例性结构框图；

图9图示了一个示例***，其包括代表可以实现本文描述的各种技术的一个或多个***和/或设备的示例计算设备。

具体实施方式

下面的描述提供了本公开的各种实施例的特定细节，以便本领域的技术人员能够充分理解和实施本公开的各种实施例。应当理解，本公开的技术方案可以在没有这些细节中的一些细节的情况下被实施。在某些情况下，本公开并没有示出或详细描述一些熟知的结构或功能，以避免这些不必要的描述使对本公开的实施例的描述模糊不清。在本公开中使用的术语应当以其最宽泛的合理方式来理解，即使其是结合本公开的特定实施例被使用的。

首先，对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。作为无监督学习的一个重要方法，聚类的思想就是把属性相似的样本或对象归到一类。由聚类所生成的类是一组对象的集合，这些对象与同一个类中的对象彼此相似，与其他类中的对象相异。常见的聚类方法有K均值聚类、均值漂移聚类、基于密度的聚类方法等等。

分类器：分类器的常规任务是利用给定的类别、已知的训练数据来学习分类规则，然后对未知数据进行分类或预测。分类器是数据挖掘中对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

半监督学习：是机器学习（machine learning）中的一种训练方式/学习方式，其介于监督学习和无监督学习之间，是监督学习与无监督学习相结合的一种学习方法。对于半监督学习，其用于训练的数据的一部分是有标签的，另一部分没有标签，而无标签数据的数量常常远大于有标签数据的数量（这也是符合现实情况的）。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多无标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。

反向传播：本质上是一种具有递归结构的梯度下降算法，被广泛使用为深度神经网络的基本学习训练方法。

人工智能(Artificial Intelligence, AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图1图示了根据本公开的一个实施例的一种确定训练集的方法100的示意性流程图。所述训练集可以被用来训练内容样本分类器，所述内容样本分类器用于对内容样本进行分类以得到内容样本的类别。如图1所示，所述方法100包括如下步骤101-104。

在步骤101，获取包括无标签的多个内容样本的数据集。所述多个内容样本中的每个内容样本可以是但不限于图像数据样本、文本数据样本或语音数据样本，事实上这里对内容样本的类型不做限定。

在步骤102，使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下所述多个内容样本中的每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别。所述多个聚类方法彼此不同，并且其中的聚类方法可以是任何合适的聚类方法，例如K均值聚类、DEC（Deep EmbeddedClustering，深度嵌入聚类）、IDEC（Improved Deep Embedded Clustering，改进的深度嵌入聚类）、DCEC（Deep Convolutional Embedded Clustering，深度卷积式嵌入聚类）、利用了人工智能的基于分类器的聚类方法等，当然这都不是限制性的。

作为示例，给定

个无标签的内容样本

，使用彼此不同的多个聚类方法对这些内容样本进行聚类可以得到类别的置信度分布

，其中M为聚类方法的数目，

为每个聚类方法聚类形成的类别的数目，

并且表示使用第

个聚类方法的情况下第

个样本属于第

个类别的置信度。应当指出，使用每个聚类方法聚类形成的类别的数目通常被预先设置，并且针对所有聚类方法通常都被设置成相同的。

在一些实施例中，对于基于分类器的聚类方法，分类器可以直接输出每个内容样本的属于多个类别中各类别的置信度，即类别的置信度分布。然后可以从针对所述每个内容样本的类别的置信度分布中确定最高置信度，并由此得到最高置信度对应的类别。例如，在使用第1个聚类方法时，分类器针对第1个样本输出的类别的置信度分布

为

,则可以确定其中的最高置信度为0.90，第1个样本的最高置信度对应的类别为第2个类别。

在一些实施例中，对于K均值聚类方法这样的直接体现聚类类别（即，直接得到的是最高置信度对应的类别）而不是针对各个类别的置信度的聚类方法中，可以采用学生t分布来计算样本针对各个类别的置信度（即，所述样本的类别的置信度分布）。学生t分布可以表示为

其中，

为学生t分布的自由度，通常设为1，

为对第

个内容样本的特征，

为聚类得到的第

个类别中的样本中心点（其通常为类别中的内容样本的特征对应的空间坐标的均值）。

在一些实施例中，所述多个聚类方法中的至少一个聚类方法为K均值聚类方法。在这种情况下，在使用K均值聚类方法对所述多个内容样本进行聚类时，可以对所述多个内容样本中每个内容样本提取多个维度的特征数据；然后，对所述多个维度的特征数据进行降维；最后，基于所述多个内容样本的降维后的特征数据对所述多个内容样本对进行聚类。通过提取内容样本的多个维度的特征数据，可以提高聚类的准确性。对所述多个维度的特征数据进行降维可以减低聚类过程的计算量。作为示例，可以使用主成分分析（PrincipalComponent Analysis，PCA）方法来对所述多个维度的特征数据进行降维处理。主成分分析方法是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量被称为主成分。应当指出，主成分分析方法仅仅是一个示例，事实上任何可以将多维特征数据转换成较少维度的数据的方法都是可行的，这里对此不作限制。

在步骤103，针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本。所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应。在本公开的实施例，如果一个内容样本同时满足两个条件（a）所述内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的和（b）所述所有最高置信度均大于置信度阈值，则可以确定该内容样本在不同聚类方法下被聚类成的类别都相同，这样的内容样本可以被确定为“干净”样本并且因此可以被标记标签。对应地，数据集中不满足上面的两个条件（a）和（b）的内容样本可以被确定为“噪声”样本，并且因此不被标记标签，因为这样的内容样本被聚类成的类别很可能是不准确的。

以使用两个不同的聚类方法为例，如果一个内容样本分别在两种不同的聚类方法下聚类成的两个最高置信度对应的类别是相同的，并且所述两个最高置信度中每个都大于置信度阈值，则可以确定该内容样本为“干净”样本并且因此可以被标记标签。这可以通过如下表达式清晰表达出来：

其中，

表示第

个内容样本是否为“干净”样本,

代表第

个样本是“干净”样本，

代表第

个样本不是“干净”样本，

为置信度阈值。

和

分别代表第

个内容样本在第1个聚类方法和第2个聚类方法下聚类成的类别的最高置信度，

和

分别代表第

个内容样本在第1个聚类方法和第2个聚类方法下聚类成的两个最高置信度对应的类别。

由于使用聚类方法聚类成的类别是随机产生的，不同的聚类方法产生类别并不对应，因此在确定条件（a）时存在一定的困难。在本公开的一些实施例中，如果在使用所述多个聚类方法中的每两个聚类方法中的第一聚类方法聚类成的所有类别中，所述每个内容样本被聚类成的最高置信度对应的类别与在使用所述每两个聚类方法中的第二聚类方法时所述每个内容样本被聚类成的最高置信度对应的类别之间具有最多数量的相同内容样本，则确定所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的。这提供了一种高效、准确的方法以便在使用两个或更多个聚类方法时确定所述每个内容样本分别在所述多个聚类方法下被聚类成的最高置信度对应的类别是否是相同的。

在一些实施例中，在对所述每个无标签的内容样本标记标签时，可以对所述每个无标签的内容样本标记标签

，其中

其中，

表示数据集中所述内容样本的序号，

为使用每个聚类方法聚类成的类别的个数，

表示第

个内容样本针对第

个类别的置信度并且k小于或等于K，

为第

个内容样本的最高置信度对应的类别，J为聚类方法的总数，

为使用第j个聚类方法时第

个内容样本的最高置信度。应当指出，第

个内容样本的最高置信度对应的类别m的具体数值或标识可以被预先确定（例如被确定为第2个类别），只要保持确定的各类别与内容样本分类器输出的各置信度对应的类别相一致即可。

换句话说，对内容样本标记标签时，可以确定在所述多个聚类方法下所述内容样本分别被聚类成的类别的最高置信度的平均值，并将最高置信度对应的类别在标签中的第一置信度（即，所述内容样本的预期类别对应的置信度）标记为所述平均值；以及，标记最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度，使得所述第一置信度与所有第二置信度的和为1，也即第二置信度被设置为1与所述平均值的差值与其它类别的类别数的比值。

在一些实施例中，对内容样本标记标签时，可以将最高置信度对应的类别在标签中的第一置信度（即，所述内容样本的预期类别对应的置信度）标记为1（即，100%的置信度），将最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度分别标记为0。当然，这不是限制性的，只要能将最高置信度对应的类别与其余类别显著区分即可。

在一些实施例中，所述多个聚类方法中的至少一个聚类方法为上文所述的基于分类器的聚类方法。在这种情况下，可以对上面“干净”样本进行更新，使得得到的“干净”样本更加准确，从而有利于提升最后训练得到的内容样本分类器的聚类准确性。作为示例，图4图示了对“干净”样本进行更新的方法的示例性流程图。如图4所示，在步骤401，可以利用所述有标签的内容样本和无标签的内容样本来训练所述聚类方法所基于的分类器。在步骤402，可以利用基于训练后的分类器的聚类方法对所述多个内容样本进行聚类，以确定在所述基于训练后的分类器的聚类方法下每个内容样本被聚类得到的更新的类别的置信度分布。在步骤403，基于所述更新的类别的置信度分布以及在所述多个聚类方法中其它聚类方法下每个内容样本分别被聚类得到的类别的置信度分布来重新形成有标签的内容样本。步骤403相当于再次执行一次步骤103。可选地，可以重复所述更新流程，直到“干净”样本的集合不再变化，当然这不是限制性的。

在步骤104，将所述数据集中的有标签的内容样本和无标签的内容样本一起确定为用于所述内容样本分类器的训练集。所述有标签的内容样本即为步骤103中被标记标签后的内容样本，所述无标签的内容样本即为数据集中其余的没有被标记标签的内容样本。所述数据集中的有标签的内容样本和无标签的内容样本一起被确定为用于所述内容样本分类器的训练集，以便能够对所述内容样本分类器进行训练。

应当指出，本公开的实施例并不对内容样本分类器的具体结构进行限定，其可以根据内容样本的类型而相适应地改变。例如，在所述多个内容样本中的每个内容样本为图像数据样本或语音数据样本的情况下，内容样本分类器的结构可以为CNN（ConvolutionalNeural Networks, 卷积神经网络）等。在所述多个内容样本中的每个内容样本为文本数据样本的情况下，内容样本分类器的结构可以为RNN（Recurrent Neural Network, 循环神经网络）、LSTM（Long Short-Term Memory，长短期记忆网络）、或BERT(BidirectionalEncoder Representations from Transformers，自变换器的双向编码器表征量)等。

应当指出，本公开的实施例的中术语“多个”包括两个以及多于两个，除非另外规定。例如，多个聚类方法包括可以包括两个聚类方法以及两个以上的聚类方法。

在本公开的实施例描述的确定训练集的方法中，利用多个聚类方法对数据集中的内容样本的聚类结果，将所有内容样本划分为“干净”样本的集合和“噪声”样本的集合。然后将“干净”样本标记标签以形成有标签的内容样本，标签通过多个聚类方法的输出结果构建；而将“噪声”样本作为无标签的内容样本。集合划分完毕后，可以将有标签的内容样本和无标签的内容样本一起作为所述内容样本分类器的训练集以对所述内容样本分类器进行训练。通过充分利用多个聚类方法对数据集中的内容样本的聚类结果，能够准确地确定出其中的“干净”样本和“噪声”样本。对“干净”样本标记标签，并且和其中的“噪声”样本一起作为训练集对内容样本分类器进行训练，能够极大提高经训练的内容样本分类器的聚类准确性和泛化性，同时所述经训练的内容样本分类器能够端到端地获取内容样本的类别。

图2图示了根据本公开的一个实施例的一种训练内容样本分类器的方法200的示意性流程图。如图2所示，所述方法步骤200包括如下步骤。

在步骤201，获取用于内容样本分类器的训练集。所述内容样本分类器用于对内容样本进行聚类以得到内容样本的类别。所述训练集例如是根据参照图1描述的方法100确定的，并且包括有标签的内容样本和无标签的内容样本。所述有标签的内容样本和无标签的内容样本中的每个可以是图像数据样本、文本数据样本或语音数据样本，这里对内容样本的类型不做限定。

在步骤202，利用训练集中的所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器。作为示例，可以利用训练集中的所述有标签的内容样本和无标签的内容样本以半监督学习的方式训练所述内容样本分类器。利用所述有标签的内容样本能够提高训练的内容样本分类器的聚类准确性，利用所述无标签的内容样本能够提高训练的内容样本分类器的聚类泛化性（即，泛化能力）。

在一些实施例中，在利用训练集中的所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器时，可以通过调整所述内容样本分类器的参数使得总损失函数最小化来训练所述内容样本分类器。所述总损失函数为针对每个内容样本（包括有标签的内容样本和无标签的内容样本）的损失函数的和。作为示例，针对每个有标签的内容样本的损失函数用来约束内容样本分类器输出的每个有标签的内容样本的类别的置信度分布与每个有标签的内容样本的标签的接近度；针对每个无标签的内容样本的损失函数用来约束内容样本分类器针对随机变换后的每个无标签的内容样本输出的类别的置信度分布的不变性以及内容样本分类器输出的类别的置信度分布与独热向量的相似度，其中类别的置信度分布包括针对多个类别中的每个类别的置信度。

作为示例，所述总损失函数可以被表示为如下表达式：

其中，

表示数据集中所述内容样本的序号，

为第

个内容样本的损失函数，

表示交叉熵损失函数，

表示熵损失函数，

表示分类器对

输出的类别的置信度分布，

表示第

个内容样本是否为“干净”样本,Ture代表第

个样本是“干净”样本，

代表第

个样本不是“干净”样本（即，是噪声样本），

和

分别代表对第

个内容样本进行彼此不同的第一随机变换和第二随机变换。

在上面的表达式中，当第

个内容样本为“干净”样本（即，

）时，针对该内容样本的损失函数可以为

，其用于约束内容样本分类器输出的针对第i个内容样本的类别的置信度分布与第i个内容样本的标签的接近度，即：通过调整内容样本分类器的参数，使内容样本分类器输出的针对第i个内容样本的类别的置信度分布与第i个内容样本的标签的尽量接近。

在上面的表达式中，当第

个内容样本为“噪声”样本（即，

）时，针对该内容样本的损失函数可以为

，其中，

用来约束对第i个内容样本进行第一随机变换后内容样本分类器输出的类别的置信度分布和对第i个内容样本进行第二随机变换后内容样本分类器输出的类别的置信度分布直接的不变性。针对“噪声”样本，由于无法确定其标签，本公开的实施例基于数据增强不变性这一点来进行训练，即：使内容样本分类器针对内容样本输出的类别的置信度分布不受随机变换的影响。

用来约束内容样本分类器输出的类别的置信度分布与独热向量的相似度，即：通过调整内容样本分类器的参数，使内容样本分类器输出的针对第i个内容样本的类别的置信度分布与独热向量（one-hotvector）的形式尽量接近。独热向量为通过独热编码形成的向量。独热编码又称为一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。例如独热编码形成的6个独热向量可以分别为000001、000010、000100、001000、010000、100000，其中每个独热向量中只有一位有效。

应当指出，上面所述的随机变换可以是任意合适的随机变换，这里并不做限定。例如，当内容样本为图像数据样本时，所述随机变换可以为随机裁剪、随机水平变换、颜色抖动、或随机组合颜色通道等。当内容样本为文本数据样本时，随机变换可以为将内容样本翻译为另外一种语言、然后再翻译回原语言（语义不变，但文本发生了变化）。还应当指出，上面所述的损失函数并不是限制性的，可以使用其它任何合适的损失函数。

在一些实施例中，在用训练集中的所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器时，可以通过每次从训练集中选择相同数量的有标签的内容样本和无标签的内容样本来分次训练所述分类器。例如，可以每次采样

个“干净”样本和

个“噪声”样本，B为正整数，然后将这些采样的样本的损失函数相加作为每次训练时的总损失函数。通过使用相同数量的有标签的内容样本和无标签的内容样本，能够均衡训练出的内容样本分类器的聚类准确性和泛化性，使得训练出的内容样本分类器具有更好的聚类效果。

作为示例，可以根据上面所描述的总损失函数，通过反向传播(backpropagation)的方式调整内容样本分类器的参数。在反向传播过程中，可以通过计算损失函数的梯度的一阶矩估计和二阶矩估计来动态调整针对所述内容样本分类器的每个参数的学习速率。反向传播本质上是基于梯度下降法，在训练时，步长可以为0.001，一阶矩估计的指数衰减率

设为0.9，二阶矩估计的指数衰减率

设为0.999。优化时，批次大小

可以设为128，对所有参数，使用L2正则化，正则化系数为0.0001。每使用训练集中的内容样本对内容样本训练50次，步长衰减为先前的0.1倍。通常，划分“干净”样本时置信度阈值

可以设为0.95。经过如此训练得到内容样本分类器表现出了良好的聚类效果。

在本公开的实施例描述的训练内容样本分类器的方法中，使用有标签的内容样本和无标签的内容样本一起作为训练集对内容样本分类器进行训练，极大提高了经训练的内容样本分类器的聚类准确性和泛化性，从而提高了聚类效果，同时所述经训练的内容样本分类器实现了端到端地获取内容样本的类别。

图3图示了根据本公开的一个实施例的对内容样本进行聚类的方法300的示意性流程图。如图3所示，所述方法步骤300包括如下步骤。

在步骤301，获取包括无标签的多个内容样本的数据集。所述多个内容样本中的每个内容样本可以是但不限于图像数据样本、文本数据样本或语音数据样本，事实上这里对内容样本的类型不做限定。

在步骤302，使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别。聚类方法可以是任何合适的聚类方法，例如K均值聚类、DEC（Deep Embedded Clustering，深度嵌入聚类）、IDEC（Improved Deep EmbeddedClustering，改进的深度嵌入聚类）、DCEC（Deep Convolutional Embedded Clustering，深度卷积式嵌入聚类）、利用了人工智能的基于分类器的聚类方法等，当然这都不是限制性的。

作为示例，给定

个无标签的内容样本

，使用彼此不同的多个聚类方法这些内容样本进行聚类可以得到类别的置信度分布

，其中M为聚类方法的数目，

为每个聚类方法聚类形成的类别的数目，

并且表示使用第

个聚类方法的情况下第

个样本属于第

在一些实施例中，对于基于分类器的聚类方法，分类器可以直接输出每个内容样本的属于各类别的置信度。然后可以从所述每个内容样本的属于各类别的置信度中确定最高置信度，并由此得到最高置信度对应的类别。在一些实施例中，对于K均值聚类方法这样的直接体现聚类类别（即，直接得到的是最高置信度对应的类别）而不是针对各个类别的置信度的聚类方法中，可以采用学生t分布来计算样本针对各个类别的置信度（即，所述样本的类别的置信度分布），如参照图1的步骤102所描述的。

在一些实施例中，所述多个聚类方法中的至少一个聚类方法为K均值聚类方法。在这种情况下，在使用K均值聚类方法对所述多个内容样本进行聚类时，可以对所述多个内容样本中每个内容样本提取多个维度的特征数据；然后，对所述多个维度的特征数据进行降维；最后，基于所述多个内容样本的降维后的特征数据对所述多个内容样本对进行聚类。通过提取内容样本的多个维度的特征数据，可以提高聚类的准确性。对所述多个维度的特征数据进行降维可以简化聚类过程的计算量。

在步骤303，针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应。

在本公开的实施例，如果一个内容样本同时满足两个条件（a）所述内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的和（b）所述所有最高置信度均大于置信度阈值，则可以确定该内容样本在不同聚类方法下被聚类成的类别都相同且具有高准确性，这样的内容样本可以被确定为“干净”样本并且因此可以被标记标签。对应地，数据集中不满足上面的两个条件（a）和（b）中任意条件的内容样本可以被确定为“噪声”样本，并且因此不被标记标签，因为这样的内容样本被聚类成的类别很可能是不准确的。

以使用两种不同的聚类方法为例，如果一个内容样本分别在两种不同的聚类方法下聚类成的两个最高置信度对应的类别是相同的，并且所述两个最高置信度中每个都大于置信度阈值，则可以确定该内容样本为“干净”样本并且因此可以被标记标签。

在一些实施例中，对内容样本标记标签时，可以确定在所述多个聚类方法下所述内容样本分别被聚类成的类别的最高置信度的平均值，并将最高置信度对应的类别在标签中的第一置信度（即，所述内容样本的预期类别对应的置信度）标记为所述平均值；以及，标记最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度，使得所述第一置信度与所有第二置信度的和为1，也即第二置信度被设置为1与所述平均值的差值与其它类别的类别数的比值。在一些实施例中，对内容样本标记标签时，可以将最高置信度对应的类别在标签中的第一置信度（即，所述内容样本的预期类别对应的置信度）标记为1（即，100%的置信度），将最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度分别标记为0。当然，这不是限制性的，只要能将最高置信度对应的类别与其余类别显著区分即可。

在步骤304，利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，以得到经训练的内容样本分类器。作为示例，可以利用所述有标签的内容样本和无标签的内容样本以半监督学习的方式训练所述内容样本分类器。用所述有标签的内容样本能够提高训练的内容样本分类器的聚类准确性，利用所述无标签的内容样本能够提高训练的内容样本分类器的聚类泛化性（即，泛化能力）。

在一些实施例中，在利用训练集中的所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器时，可以通过调整所述内容样本分类器的参数使得总损失函数最小化来训练所述内容样本分类器。所述总损失函数为针对每个内容样本（包括有标签的内容样本和无标签的内容样本）的损失函数的和。作为示例，针对每个有标签的内容样本的损失函数用来约束内容样本分类器输出的每个有标签的内容样本的类别的置信度分布与每个有标签的内容样本的标签的接近度；针对每个无标签的内容样本的损失函数用来约束内容样本分类器针对随机变换后的每个无标签的内容样本输出的类别的置信度分布的不变性以及内容样本分类器输出的类别的置信度分布与独热向量的相似度，其中类别的置信度分布包括针对多个类别中的每个类别的置信度。具体的总损失函数可以参照图2描述的步骤202中所述。

在一些实施例中，在用所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器时，可以通过每次从训练集中选择相同数量的有标签的内容样本和无标签的内容样本来分次训练所述分类器。例如，可以每次采样

个“干净”样本和

作为示例，可以根据上面所描述的总损失函数，通过反向传播(backpropagation)的方式调整内容样本分类器的参数。在反向传播过程中，可以通过计算损失函数的梯度的一阶矩估计和二阶矩估计来动态调整针对所述内容样本分类器的每个参数的学习速率。具体的训练参数可以参照图2描述的步骤202中所述。使用有标签的内容样本和无标签的内容样本一起以半监督学习的方式对内容样本分类器进行训练，极大提高了经训练的内容样本分类器的聚类准确性和泛化性，从而提高了聚类效果，同时所述经训练的内容样本分类器实现了端到端地获取内容样本的类别。

本公开的实施例并不对内容样本分类器的具体结构进行限定，其可以根据内容样本的类型而相适应地改变。例如，在所述待聚类的内容样本为图像数据样本或语音数据样本的情况下，内容样本分类器的结构可以为CNN（Convolutional Neural Networks, 卷积神经网络）等。在所述待聚类的内容样本为文本数据样本的情况下，内容样本分类器的结构可以为RNN（Recurrent Neural Network, 循环神经网络）、LSTM（Long Short-TermMemory，长短期记忆网络）、或BERT(Bidirectional Encoder Representations fromTransformers，自变换器的双向编码器表征量)等。

在一些实施例中，所述多个聚类方法中的至少一个聚类方法为上文所述的基于分类器的聚类方法。在这种情况下，可以对上面“干净”样本进行更新，使得得到的“干净”样本更加准确，从而有利于提升最后训练得到的内容样本分类器的聚类准确性。

图4图示了对“干净”样本进行更新的方法的示例性流程图。如图4所示，在步骤401，可以利用所述有标签的内容样本和无标签的内容样本来训练所述聚类方法所基于的分类器。在步骤402，可以利用基于训练后的分类器的聚类方法对所述多个内容样本进行聚类，以确定在所述基于训练后的分类器的聚类方法下每个内容样本被聚类得到的更新的类别的置信度分布。在步骤403，基于所述更新的类别的置信度分布以及在所述多个聚类方法中其它聚类方法下每个内容样本分别被聚类得到的类别的置信度分布来重新形成有标签的内容样本。可选地，可以重复所述更新流程，直到“干净”样本的集合不再变化，当然这不是限制性的。

在步骤305，利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别。在一些实施例中，可以将所述待聚类的内容样本输入经训练的内容样本分类器，使得内容样本分类器输出所述待聚类的内容样本的与所述多个类别对应的置信度分布；然后，将具有置信度分布中的最高置信度的类别确定为所述待聚类的内容样本的类别。内容样本分类器的输出是所述待聚类的内容样本的与多个类别对应的置信度分布，从中选择最高置信度对应的类别作为针对所述内容样本的类别，这具有最高的聚类准确度并且实现了直接得到聚类类别的聚类过程。

在本公开的实施例描述的对内容样本进行聚类的方法中，通过充分利用多个聚类方法对数据集中的内容样本的聚类结果，准确地将所有内容样本划分为“干净”样本的集合和“噪声”样本的集合。然后将“干净”样本标记标签以形成有标签的内容样本。集合划分完毕后，可以使用有标签的内容样本和无标签的内容样本一起对所述内容样本分类器进行训练，这能够极大提高经训练的内容样本分类器的聚类准确性和泛化性，同时能够通过所述经训练的内容样本分类器端到端地获取待聚类的内容样本的类别，提升了聚类效果。

图5图示了根据本公开的一个实施例的对内容样本进行聚类的示例性原理图。如图5所示，分别使用两个聚类方法（第一聚类方法和第二聚类方法）对数据集中的无标签的多个内容样本进行聚类，以得到聚类结果，所述聚类结果包括在所述每个聚类方法下所述多个内容样本中的每个内容样本被聚类成的最高置信度对应的类别。然后，对分别使用第一聚类方法和第二聚类方法得到的聚类结果进行匹配，以将数据集中的内容样本划分为“干净”样本和“噪声”样本，并对“干净”样本标记标签，以形成有标签的内容样本。所述标签用于指示所述有标签的内容样本的针对与内容样本分类器的输出相对应多个类别中的每个类别的置信度。在划分时，针对其中的每个内容样本，如果满足两个条件（a）所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及（b）所述所有最高置信度均大于置信度阈值，则可以确定所述内容样本为“干净”样本，否则即为“噪声”样本。所有无标签的内容样本和有标签的内容样本一起形成训练集，以便以半监督学习的方式对所述内容样本分类器进行训练，以得到经训练的内容样本分类器。然后，可以将待聚类的内容样本输入经训练的内容样本分类器，使得内容样本分类器输出所述待聚类的内容样本的与多个类别对应的置信度分布，然后将具有置信度分布中的最高置信度的类别确定为所述内容样本的类别，从而实现了端到端地获取待聚类的内容样本的类别的效果。所述待聚类的内容样本可以是所述无标签的多个内容样本中的内容样本，也可以是与所述多个内容样本具有相同的内容样本类型（例如，图像数据样本、文本数据样本或语音数据样本等）的内容样本。

图6示出了根据本公开的一个实施例的确定训练集的装置600的示例性结构框图。如图6所示，所述装置600包括数据集获取模块601，样本聚类模块602，样本标记模块603，和训练集确定模块604。

数据集获取模块601被配置成获取包括无标签的多个内容样本的数据集。所述多个内容样本中的每个内容样本可以是但不限于图像数据样本、文本数据样本或语音数据样本，事实上这里对内容样本的类型不做限定。

样本聚类模块602被配置成使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下所述多个内容样本中的每个内容样本被聚类成得到的类别的置信度分布中最高置信度对应的类别。所述多个聚类方法彼此不同，并且其中的聚类方法可以是任何合适的聚类方法，例如K均值聚类、DEC、IDEC、DCEC、利用人工智能的基于分类器的聚类方法等，当然这都不是限制性的。

样本标记模块603被配置成针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应。

训练集确定模块604被配置成将所述数据集中的有标签的内容样本和无标签的内容样本一起确定为用于所述内容样本分类器的训练集。所述有标签的内容样本即为被标记模块标记标签后的内容样本，所述无标签的内容样本即为数据集中其余的没有被标记标签的内容样本。所述数据集中的有标签的内容样本和无标签的内容样本一起被确定为用于所述内容样本分类器的训练集，以便能够对所述内容样本分类器进行训练。

图7示出了根据本公开的一个实施例的训练内容样本分类器的装置700的示例性结构框图。如图7所示，所述装置700包括训练集获取模块701和分类器训练模块702。

训练集获取模块701被配置成获取用于内容样本分类器的训练集，其中所述训练集是通过参照图6描述的确定训练集的装置600确定的并且包括有标签的内容样本和无标签的内容样本。所述内容样本分类器用于对内容样本进行分类以得到内容样本的类别。所述有标签的内容样本和无标签的内容样本中的每个可以是图像数据样本、文本数据样本或语音数据样本，这里对内容样本的类型不做限定。

分类器训练模块702被配置成利用训练集中的所述有标签的内容样本和无标签的内容样本训练所述内容样本分类器。利用所述有标签的内容样本能够提高训练的内容样本分类器的聚类准确性，利用所述无标签的内容样本能够提高训练的内容样本分类器的聚类泛化性（即，泛化能力）。

图8示出了根据本公开的一个实施例的对内容样本进行聚类的装置800的示例性结构框图。如图8所示，所述装置800包括获取模块801、聚类模块802、标记模块803、训练模块804、以及确定模块805。

获取模块801被配置成获取包括无标签的多个内容样本的数据集。所述多个内容样本中的每个内容样本可以是但不限于图像数据样本、文本数据样本或语音数据样本，事实上这里对内容样本的类型不做限定。

聚类模块802被配置成使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别。所述多个聚类方法彼此不同，并且其中的聚类方法可以是任何合适的聚类方法，例如K均值聚类、DEC、IDEC、DCEC、利用人工智能的基于分类器的聚类方法等，当然这都不是限制性的。

标记模块803被配置成针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应。

训练模块804被配置成利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，以得到经训练的内容样本分类器。作为示例，训练模块804被配置成利用所述有标签的内容样本和无标签的内容样本以半监督学习的方式训练所述内容样本分类器。用所述有标签的内容样本能够提高训练的内容样本分类器的聚类准确性，利用所述无标签的内容样本能够提高训练的内容样本分类器的聚类泛化性（即，泛化能力）。

确定模块805被配置成利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别。内容样本分类器输出的是所述内容样本的与多个类别对应的置信度分布，在一些实施例中，可以从中选择最高置信度的类别作为针对所述内容样本的类别。这具有最高的聚类准确度并且实现了直接得到聚类类别的聚类过程。

图9图示了示例***900，其包括代表可以实现本文描述的各种技术的一个或多个***和/或设备的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与服务器相关联的设备、片上***、和/或任何其它合适的计算设备或计算***。上面参照图6描述的确定训练集的装置600、参照图7描述的训练内容样本分类器的装置700、以及参照图8描述的对内容样本进行聚类的装置800都可以采取计算设备910的形式。替换地，确定训练集的装置600、训练内容样本分类器的装置700、以及对内容样本进行聚类的装置800中每个都可以以应用916的形式被实现为计算机程序。

如图示的示例计算设备910包括彼此通信耦合的处理***911、一个或多个计算机可读介质912以及一个或多个I / O接口913。尽管未示出，但是计算设备910还可以包括***总线或其他数据和命令传送***，其将各种组件彼此耦合。***总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、***总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理***911代表使用硬件执行一个或多个操作的功能。因此，处理***911被图示为包括可被配置为处理器、功能块等的硬件元件914。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置915可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口913代表允许用户使用各种输入设备向计算设备910输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备910还包括应用916。应用916可以例如是确定训练集的装置600、训练内容样本分类器的装置700、以及对内容样本进行聚类的装置800的软件实例，并且与计算设备910中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

如前所述，硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上***、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。

在各种实施方式中，计算设备910可以采用各种不同的配置。例如，计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备910的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式***、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。

云920包括和/或代表用于资源924的平台922。平台922抽象云920的硬件（例如，服务器）和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的其它应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

应当理解，为清楚起见，参考不同的功能单元对本公开的实施例进行了描述。然而，将明显的是，在不偏离本公开的情况下，每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如，被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此，对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考，而不是表明严格的逻辑或物理结构或组织。因此，本公开可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元和电路之间。

将理解的是，尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分，但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。

尽管已经结合一些实施例描述了本公开，但是其不旨在被限于在本文中所阐述的特定形式。相反，本公开的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种对内容样本进行聚类的方法，包括：

获取包括无标签的多个内容样本的数据集；

使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别；

针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应；

利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，以得到经训练的内容样本分类器；

利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别。

2.根据权利要求1所述的方法，还包括：

响应于在使用所述多个聚类方法中的每两个聚类方法中的第一聚类方法聚类成的所有类别中，所述每个内容样本被聚类成的最高置信度对应的类别与在使用所述每两个聚类方法中的第二聚类方法时所述每个内容样本被聚类成的最高置信度对应的类别之间具有最多数量的相同内容样本，则确定所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的。

3. 根据权利要求1所述的方法，其中，对所述每个内容样本标记标签包括：

确定在所述多个聚类方法下所述每个内容样本分别被聚类成的类别的最高置信度的平均值，并将最高置信度对应的类别在标签中的第一置信度标记为所述平均值，以及

标记最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度，使得所述第一置信度与所有第二置信度的和为1。

4. 根据权利要求1所述的方法，其中，对所述每个内容样本标记标签包括：

将最高置信度对应的类别在标签中的第一置信度标记为1，以及

将最高置信度对应的类别之外的其它类别中的每个类别在标签中的第二置信度分别标记为0。

5.根据权利要求1所述的方法，其中所述多个聚类方法中的至少一个聚类方法包括基于分类器的聚类方法，并且其中在所述利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器前，所述方法还包括：

利用所述有标签的内容样本和无标签的内容样本训练所述聚类方法所基于的分类器；

利用基于训练后的分类器的聚类方法对所述多个内容样本进行聚类，以确定在所述基于训练后的分类器的聚类方法下每个内容样本被聚类得到的更新的类别的置信度分布；

基于所述更新的类别的置信度分布以及在所述多个聚类方法中其它聚类方法下每个内容样本分别被聚类得到的类别的置信度分布来重新形成有标签的内容样本。

6.根据权利要求1所述的方法，其中所述多个聚类方法中的至少一个聚类方法为K均值聚类方法，并且其中使用K均值聚类方法对所述多个内容样本进行聚类还包括：

对所述多个内容样本中每个内容样本提取多个维度的特征数据；

对所述多个维度的特征数据进行降维；

基于所述多个内容样本的降维后的特征数据对所述多个内容样本对进行聚类。

7.根据权利要求1所述的方法，其中利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，包括：

通过调整所述内容样本分类器的参数使得总损失函数最小化来训练所述内容样本分类器，其中所述总损失函数为针对每个内容样本的损失函数的和，并且，

其中针对每个有标签的内容样本的损失函数用来约束内容样本分类器输出的每个有标签的内容样本的类别的置信度分布与每个有标签的内容样本的标签的接近度；

其中针对每个无标签的内容样本的损失函数用来约束内容样本分类器针对随机变换后的每个无标签的内容样本输出的类别的置信度分布的不变性以及内容样本分类器输出的类别的置信度分布与独热向量的相似度，其中类别的置信度分布包括针对多个类别中的每个类别的置信度。

8.根据权利要求7所述的方法，其中，通过调整所述内容样本分类器的参数使得总损失函数最小化来训练所述内容样本分类器，包括：

以反向传播的方式训练所述内容样本分类器，其中，在反向传播中通过计算损失函数的梯度的一阶矩估计和二阶矩估计来动态调整针对所述内容样本分类器的每个参数的学习速率。

9.根据权利要求1所述的方法，其中，利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，包括：

每次选择相同数量的有标签的内容样本和无标签的内容样本分次训练所述分类器。

10.根据权利要求1所述的方法，其中，利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别，包括：

将所述待聚类的内容样本输入经训练的内容样本分类器，使得内容样本分类器输出所述待聚类的内容样本的与所述多个类别对应的置信度分布；

将具有置信度分布中的最高置信度的类别确定为所述待聚类的内容样本的类别。

11.根据权利要求1所述的方法，其中，所述多个内容样本中的每个内容样本包括图像数据样本，并且所述内容样本分类器的结构包括卷积神经网络。

12.根据权利要求1所述的方法，其中，所述多个内容样本中的每个内容样本包括文本数据样本和语音数据样本中的一个，并且所述内容样本分类器的结构包括循环神经网络、长短期记忆网络以及自变换器的双向编码器表征量中的一个。

13.一种对内容样本进行聚类的装置，包括：

获取模块，被配置成获取包括无标签的多个内容样本的数据集；

聚类模块，被配置成使用彼此不同的多个聚类方法中的每个聚类方法对所述多个内容样本进行聚类，以确定在所述每个聚类方法下每个内容样本被聚类得到的类别的置信度分布中最高置信度对应的类别；

标记模块，被配置成针对所述多个内容样本的每个内容样本，响应于确定：所述每个内容样本分别在所述多个聚类方法下被聚类成的所有最高置信度对应的类别是相同的，以及所述所有最高置信度均大于置信度阈值，则对所述每个内容样本标记标签以形成有标签的内容样本，其中所述标签指示所述有标签的内容样本的针对多个类别中的每个类别的置信度，所述多个类别与内容样本分类器的输出相对应；

训练模块，被配置成利用所述数据集中的有标签的内容样本和无标签的内容样本训练所述内容样本分类器，以得到经训练的内容样本分类器；

确定模块，被配置成利用经训练的内容样本分类器对待聚类的内容样本进行聚类，以确定所述待聚类的内容样本的类别。

14.一种计算设备，包括

存储器，其被配置成存储计算机可执行指令；

处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-12中的任一项所述的方法。

15.一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如权利要求1-12中的任一项所述的方法。