CN111598153B - 数据聚类的处理方法、装置、计算机设备和存储介质 - Google Patents

数据聚类的处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111598153B
CN111598153B CN202010400391.1A CN202010400391A CN111598153B CN 111598153 B CN111598153 B CN 111598153B CN 202010400391 A CN202010400391 A CN 202010400391A CN 111598153 B CN111598153 B CN 111598153B
Authority
CN
China
Prior art keywords
sample
data
prior distribution
clustering
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010400391.1A
Other languages
English (en)
Other versions
CN111598153A (zh
Inventor
卢东焕
赵俊杰
马锴
郑冶枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010400391.1A priority Critical patent/CN111598153B/zh
Publication of CN111598153A publication Critical patent/CN111598153A/zh
Application granted granted Critical
Publication of CN111598153B publication Critical patent/CN111598153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能领域内的一种数据聚类的处理方法、装置、计算机设备和存储介质。所述方法包括:获取数据样本;所述数据样本是聚类业务中聚类对象的样本;通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;确定所述数据样本和所述样本特征的相关性;确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;至少根据所述相关性和所述评分值调整所述聚类模型;利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。采用本方法能够在无需人工标注的情况下有效提高数据聚类的精度。

Description

数据聚类的处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据聚类的处理方法、装置、计算机设备和存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术的其中一个重要方向是机器学习。聚类分析是机器学习的一种常用技术。图像、文本、语音等数据类型,均可以作为聚类的对象。通过聚类,可以将相似的对象归为同一类别,将不相似的对象归为不同类别。
在传统的方式中,通过学习数据样本的标签特征,将标签特征作为聚类结果。但是对于互联网中海量的数据,如果进行人工标注将会消耗大量的人力资源。因此,如何在没有人工标注的情况下准确完成数据聚类成为目前需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在没有人工标注的情况下准确完成数据聚类的数据聚类的处理方法、装置、计算机设备和存储介质。
一种数据聚类的处理方法,所述方法包括:
获取数据样本;所述数据样本是聚类业务中聚类对象的样本;
通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;
确定所述数据样本和所述样本特征的相关性;
确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;
至少根据所述相关性和所述评分值调整所述聚类模型;
利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。
一种数据聚类的处理装置,所述装置包括:
第一获取模块,用于获取数据样本;所述数据样本是聚类业务中聚类对象的样本;
特征映射模块,用于通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;
相关性识别模块,用于确定所述数据样本和所述样本特征的相关性;
先验分布评分模块,用于确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;
聚类训练模块,用于至少根据所述相关性和所述评分值调整所述聚类模型;利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取数据样本;所述数据样本是聚类业务中聚类对象的样本;
通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;
确定所述数据样本和所述样本特征的相关性;
确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;
至少根据所述相关性和所述评分值调整所述聚类模型;
利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
获取数据样本;所述数据样本是聚类业务中聚类对象的样本;
通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;
确定所述数据样本和所述样本特征的相关性;
确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;
至少根据所述相关性和所述评分值调整所述聚类模型;
利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。
上述数据聚类的处理方法、装置、计算机设备和存储介质,对于聚类业务中聚类对象的数据样本,不需要执行额外的聚类算法,也无需生成真实图像与原图图像进行比对,通过确定数据样本与样本特征之间的相关性,以及对样本类别特征引入类别先验分布,对样类内风格特征引入类内风格先验分布,以确定样本特征服从于先验分布的评分值,由此利用相关性和评分对聚类模型进行训练,可以有效改善聚类模型对样本特征的学习。由于聚类模型学习到的特征分布靠近先验分布,并且对样本类别特征与样本类内风格特征进行有效解耦,由此使得调整后的聚类模型能够根据待聚类数据的类别特征即可快速准确得到对应的聚类类别。从而实现了在无需人工标注的情况下有效提高数据聚类的精度。
一种数据聚类的处理,所述方法包括:
获取聚类业务中的待聚类数据;
通过编码器,将所述待聚类数据编码为数据特征;所述编码器,是至少根据相关性和评分值训练得到的;所述相关性,是数据编码器将所述数据样本编码所得的样本特征,通过判别器对所述数据样本与所述样本特征间进行相关判别的结果;所述评分值是通过评价器对所述样本特征服从先验分布的评分结果;所述样本特征包括样本类别特征和样本类内风格特征;所述先验分布包括所述样本类别特征对应的类别先验分布和所述样本类内风格特征对应的类内风格先验分布;
根据所述数据特征中的类别特征,对相应的待聚类数据进行聚类。
一种数据聚类的处理装置,所述装置包括:
第二获取模块,用于获取聚类业务中的待聚类数据;
特征编码模块,用于通过编码器,将所述待聚类数据编码为数据特征;所述编码器,是至少根据相关性和评分值训练得到的;所述相关性,是数据编码器将所述数据样本编码所得的样本特征,通过判别器对所述数据样本与所述样本特征间进行相关判别的结果;所述评分值是通过评价器对所述样本特征服从先验分布的评分结果;所述样本特征包括样本类别特征和样本类内风格特征;所述先验分布包括所述样本类别特征对应的类别先验分布和所述样本类内风格特征对应的类内风格先验分布;
聚类模块,用于根据所述数据特征中的类别特征,对相应的待聚类数据进行聚类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取聚类业务中的待聚类数据;
通过编码器,将所述待聚类数据编码为数据特征;所述编码器,是至少根据相关性和评分值训练得到的;所述相关性,是数据编码器将所述数据样本编码所得的样本特征,通过判别器对所述数据样本与所述样本特征间进行相关判别的结果;所述评分值是通过评价器对所述样本特征服从先验分布的评分结果;所述样本特征包括样本类别特征和样本类内风格特征;所述先验分布包括所述样本类别特征对应的类别先验分布和所述样本类内风格特征对应的类内风格先验分布;
根据所述数据特征中的类别特征,对相应的待聚类数据进行聚类。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
获取聚类业务中的待聚类数据;
通过编码器,将所述待聚类数据编码为数据特征;所述编码器,是至少根据相关性和评分值训练得到的;所述相关性,是数据编码器将所述数据样本编码所得的样本特征,通过判别器对所述数据样本与所述样本特征间进行相关判别的结果;所述评分值是通过评价器对所述样本特征服从先验分布的评分结果;所述样本特征包括样本类别特征和样本类内风格特征;所述先验分布包括所述样本类别特征对应的类别先验分布和所述样本类内风格特征对应的类内风格先验分布;
根据所述数据特征中的类别特征,对相应的待聚类数据进行聚类。
上述数据聚类的处理方法、装置、计算机设备和存储介质,通过确定数据样本与样本特征之间的相关性,以及对样本类别特征引入类别先验分布,对样类内风格特征引入类内风格先验分布,以确定样本特征服从于先验分布的评分值,由此利用相关性和评分对编码器进行训练,可以有效改善编码器对样本特征的学习。由于编码器学习到的特征分布靠近先验分布,并且对样本类别特征与样本类内风格特征进行有效解耦,由此根据数据特征中的类别特征,即可得到待聚类数据对应的聚类类别。从而实现了在无需人工标注的情况下有效提高数据聚类的精度。
附图说明
图1为一个实施例中数据聚类的处理方法的应用环境图;
图2为一个实施例中数据聚类的处理方法的流程示意图;
图3为一个实施例中聚类模型进行训练的整体网络结构示意图;
图4为一个实施例中自编码的网络结构示意图;
图5为一个实施例中对抗网络的网络结构示意图;
图6-1为一个实施例中t-SNE图中的聚类簇无重叠的示意图;
图6-2为一个实施例中t-SNE图中的聚类簇出现重叠的示意图;
图7为另一个实施例中数据聚类的处理方法的流程示意图;
图8为一个实施例中数据聚类的处理装置的结构框图;
图9为另一个实施例中数据聚类的处理装置的结构框图;
图10为又一个实施例中数据聚类的处理装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据聚类的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云数据库、云存储、云通信以及大数据和人工智能平台等基础云计算服务的云服务器来实现。服务器104中存储了大量的数据样本,数据样本是聚类业务中聚类对象的样本。终端102向服务器104发送样本获取请求,服务器104根据样本获取请求向终端102返回聚类模型训练的数据样本。终端102通过聚类模型,映射数据样本为样本特征,确定数据样本和样本特征的相关性;样本特征包括样本类别特征和样本类内风格特征。确定样本特征服从于先验分布的评分值,其中,先验分布包括样本类别特征对应的类别先验分布,和样本类内风格特征对应的类内风格先验分布。终端102至少根据相关性和评分值调整聚类模型,利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。从而实现了在无需人工标注的情况下有效提高数据聚类的精度。
在一个实施例中,如图2所示,提供了一种数据聚类的处理方法,以该方法应用于图1中的计算机设备(终端或服务器)为例进行说明,包括以下步骤:
步骤202,获取数据样本;数据样本是聚类业务中聚类对象的样本。
步骤204,通过聚类模型,映射数据样本为样本特征;样本特征包括样本类别特征和样本类内风格特征。
计算机设备获取数据样本集。数据样本集中包括数据样本。数据样本可以是图像、文本、语音等数据类型。计算机设备中预先建立了聚类模型,聚类模型可以是编码器。针对不同数据类型的数据样本,聚类模型所采用的神经网络不同。例如,当数据样本为图像时,聚类模型可以采用卷积神经网络,其卷积块可以根据图像大小进行调整。图像越大,卷积块相应的越大。如,对于32×32的图像,可以采用2个卷积块,对于96×96的图像,可以采用4个卷积块。当数据样本为文本或语音时,聚类模型可以采用LSTM(Long Short-Term Memory,长短期记忆网络)、Bert(Bidirectional Encoder Representation from Transformers,)等神经网络。计算机设备将数据样本输入至聚类模型,聚类模型将数据样本映射为对应的样本特征。样本特征包含样本类别特征以及样本类内风格特征。其中,样本类别特征中的元素为该数据样本属于各聚类类别的概率。样本类内风格特征描述了数据样本的类内风格信息。计算机设备可以利用其它网络模型对聚类模型进行训练。其中,计算机设备可以利用判别器确定数据样本和样本特征的相关性,利用评价器确定样本特征服从于先验分布的评分值。计算机设备对聚类模型进行训练的整体网络结构图,可以如图3所示。
步骤206,确定数据样本和样本特征的相关性。
判别器是由多个全连接层组成的深度神经网络。例如,可以是由三个或三个以上的全连接层组成的深度神经网络。评价器也是由多个全连接层组成的深度神经网络。可以是由三个或三个以上的全连接层组成的深度神经网络。判别器可以判断数据样本与样本特征之间是否相关,以此对数据样本与样本特征之间的互信息进行最大化。计算机设备可以将数据样本和提取到的样本特征同时输入至判别器。其中,数据样本中包括第一样本和第二样本。当输入至判别器的数据样本为第一样本,提取到的样本特征来源于第二样本,且第一样本与第二样本不同时,则第一样本与该样本特征是负样本,判别器判断两者不相关。当输入至判别的数据样本为第一样本,提取到的样本特征来源于第一样本,则第一样本与提取到的样本特征是正样本,判别器判断两者相关。在图3中,鞋子图像可以作为第一样本,衣服图像可以作为第二样本。第一样本与第一样本特征相关,第一样本与第二样本特征不相关。当判别器能够正确地判断数据样本与样本特征是否相关时,说明样本特征中蕴含了与数据样本相关的信息,从而能够达到最大化互信息的目的。
步骤208,确定样本特征服从于先验分布的评分值;先验分布包括样本类别特征对应的类别先验分布,和样本类内风格特征对应的类内风格先验分布。
评价器为样本特征引入先验分布。评价器也是由多个全连接层组成的深度神经网络。可以是由三个或三个以上的全连接层组成的深度神经网络。先验分布包括类别先验分布和类内风格先验分布。类别先验分布可以简称为类别分布,类内风格先验分布可以是高斯分布。评价器为样本类别特征zc引入类别分布
Figure BDA0002489183310000081
,为样本类内风格特征zs引入高斯分布
Figure BDA0002489183310000082
,由此可以将样本类别特征与样本类内风格特征进行有效解耦。
当样本特征服从先验分布时,使得输出的类别特征部分为独热向量,可以直接利用独热向量中数值最大的元素来代表数据样本的类别,避免还需要进行下一步聚类操作。同时,还可以防止数据样本只被聚到1类或几类中,能够保证聚成所需的类别数,如聚到10类。
步骤210,至少根据相关性和评分值调整聚类模型。
步骤212,利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。
计算机设备可以利用数据样本和样本特征的相关性、样本特征服从于先验分布的评分值对聚类模型的网络参数进行反向优化。其中,可以采用反向传播法对聚类模型中各网络参数进行优化。例如,反向传播法可以采用基于Adam的梯度下降法。对聚类模型进行反向优化时,可以对聚类模型、判别器以及评价器的网络参数进行权重更新。训练时,学习率为0.0001,控制损失函数收敛的参数β1设为0.5,β2设为0.9。批大小(batch size)设为64。在反向优化过程中,可以每次利用同一批次的数据样本对评价器、聚类模型和判别器交替进行优化。当评价器的损失函数开始收敛时,说明聚类模型学习到的特征分布已经靠近先验分布,可以停止训练。
在目前的基于深度神经网络的图像聚类方法中,一种是基于自编码学习图像特征,再经过优化聚类损失函数来改善聚类效果。网络结构如图4所示。图像x经过聚类模型后,映射到对应的图像特征,将图像特征输入至解码器,通过解码器生成重构图像,将重构图像与原图像进行比对。在这一方法中,需要额外执行K-means等聚类算法才能获得聚类效果。另一种聚类方法是基于生成对抗网络,网络结构如图5所示。利用生成器G将图像特征Zn、Zc映射为真实图像Xg,通过聚类模型E进行编码,得到编码后的图像特征Zn、Zc。通过判别器D对真实图像Xg与原图像Xr进行相关性判断,从而获取聚类结果。在这一方法中,由于需要生成真实图像,因此网络难以训练。
本实施例中,对于聚类业务中聚类对象的数据样本,不需要执行额外的聚类算法,也无需生成真实图像与原图图像进行比对,通过确定数据样本与样本特征之间的相关性,以及对样本类别特征引入类别先验分布,对样类内风格特征引入类内风格先验分布,以确定样本特征服从于先验分布的评分值,由此利用相关性和评分对聚类模型进行训练,可以有效改善聚类模型对样本特征的学习。由于聚类模型学习到的特征分布靠近先验分布,并且对样本类别特征与样本类内风格特征进行有效解耦,由此使得调整后的聚类模型能够根据待聚类数据的类别特征即可快速准确得到对应的聚类类别。从而实现了在无需人工标注的情况下有效提高数据聚类的精度。
在一个实施例中,该方法还包括:对数据样本进行增强处理,通过聚类模型,映射得到增强后的样本特征;增强后的样本特征包括增强后的样本类别特征和增强后的样本类内风格特征;确定样本类别特征和增强后的样本类别特征的类别特征差异;至少根据相关性和评分值训练聚类模型包括:根据相关性、类别特征差异和评分值调整聚类模型。
计算机设备将数据样本输入聚类模型,映射得到对应的样本特征。样本特征包括样本类别特征和样本类内风格特征。其中,样本类别特征是通过聚类模型的Softmax函数激活后的向量,该向量中的元素表示数据样本属于各聚类类别的概率,向量维度设为聚类类别数。样本类内风格特征为线性激活后的向量。该向量描述了数据样本的类内风格信息,向量维度可以是预设数量,例如可以是50。样本类别特征与样本类内风格特征经过不同的激励后,得到的数值不同,但部分信息可能混在一起。通过对样本类别特征引入类别先验分布,对样本类内风格特征引入类内风格先验分布,可以将样本类别特征与样本类内风格特征进行有效解耦。
由于同一类数据样本会存在不同的风格,风格的改变不会改变原有数据类别的。基于特定的数据增强不会改变原有数据类别这一现象,本实施例中,通过对数据样本进行数据增强处理,通过训练使得增强后的样本特征不会发生变化。计算机设备对数据样本进行增强处理,对不同数据类型的数据样本进行不同的增强处理。例如,数据样本为图像时,增强处理包括对图像进行随机裁剪、随机水平翻转、颜色抖动和随机组合颜色通道等。数据样本为文本或语音时,增强处理包括随机裁剪、随机转换位置等。将增强处理后的数据样本输入至聚类模型,映射得到增强后的样本特征。计算机设备在样本特征中提取样本类别特征,在增强后的样本特征中提取增强后的样本类别特征,将样本类别特征与增强后的样本类别特征输入至评价器,通过评价器识别样本类别特征与增强后的样本类别特征之间的类别特征差异。其中,样本类别特征的向量中的元素是数据样本属于各聚类类别的概率。样本类别特征与增强后的样本类别特征之间的类别特征差异可以通过散度来进行衡量。
计算机设备可以利用数据样本和样本特征的相关性、样本特征服从于先验分布的评分值以及样本类别特征和增强后的样本类别特征的类别特征差异对聚类模型的网络参数进行反向优化。在网络的反向传播过程中,使用梯度下降更新聚类模型、判别器和评价器的网络参数对应的权重值。由此能够使得聚类模型学习到的样本特征与数据样本相关,学习到的样本类别特征可以代表数据样本的聚类类别,学习到的类内风格特征可以代表同一类数据样本的区别。经过数据增强处理后的,数据样本的样本类别特征保持不变,即数据样本的风格可能会发生一定变化,但仍然属于同一类别。而且,由于引入了先验分布的约束,可以使得样本类别特征尽量贴近热独向量,即大部分元素的数值接近0,只有一个元素的值接近1,从而能够根据样本类别特征的热独向量直接确定数据样本对应的聚类类别。
在一个实施例中,数据样本包括第一样本和第二样本;确定数据样本和样本特征的相关性包括:获取第一样本向量,利用第一样本的样本特征与第一样本向量进行拼接,生成拼接后的第一样本向量;利用第二样本的样本特征与第一样本向量进行拼接,生成拼接后的第二样本向量;通过判别器识别拼接后的第一样本向量与拼接后的第二样本向量之间的相关性,得到第一样本与第一样本的样本特征之间的相关性。
数据样本中包括第一样本和第二样本,其中,第一样本与第二样本可以完全不同,也可以相同。第一样本输入聚类模型,映射得到与第一样本对应的样本特征,也可以称为第一样本特征。第二样本输入聚类模型,映射得到与第二样本对应的样本特征,也可以称为第二样本特征。第一样本特征与第二样本特征都可以是多维向量,例如50维。计算机设备将第一样本转换为第一样本向量。计算机设备将第一样本特征与第一样本向量进行拼接,生成拼接后的第一样本向量。拼接的方式可以是在第一样本特征后添加第一样本向量。也可以在第一样本向量之后添加第一样本特征。计算机设备可以采用上述拼接方式将第二样本特征与第一样向量进行拼接,生成拼接后的第二样本向量。将拼接后的第一样本向量与拼接后的第二样本向量输入判别器,判别器对两者进行比对,若两者相关,输出1,若两者不相关,输出0。当判别器能够正确判断数据样本与样本特征之间是否相关时,说明样本特征中蕴含了与数据样本相关的信息,达到最大化互信息的目的,由此能够使得聚类模型学习到的样本特征与数据样本相关。
在一个实施例中,确定样本特征服从于先验分布的评分值包括:通过评价器确定样本类别特征对应的类别先验分布结果;通过评价器确定样本类内风格特征对应的类内风格先验分布结果;通过评价器对类别分布结果以及类内风格先验分布结果进行评分,得到样本特征服从于先验分布的评分值。
评价器为样本特征引入先验分布。先验分布包括类别先验分布和类内风格先验分布。类别先验分布可以简称为类别分布,类内风格先验分布可以是高斯分布。类别分布可以是
Figure BDA0002489183310000111
其中,
Figure BDA0002489183310000112
为样本类别特征的分布,Cat为类别分布,是独热向量,K为聚类类别数,P为K的倒数。样本类内风格特征可以是
Figure BDA0002489183310000113
Figure BDA0002489183310000114
为样本类内风格特征的分布,N为高斯分布,σ为标准差,可以是预设数值,如0.1。
计算机设备将样本类别特征与样本类内风格特征同时输入至评价器,评价器分别输出样本类别特征对应的类别分布结果以及样本类内风格特征对应的高斯分布结果。其中,类别分布结果可以是类别向量,类别向量可以是热独向量。高斯分布结果可以是风格向量。
在其中一个实施例中,通过评价器对类别分布结果以及类内风格先验分布结果进行评分包括:对样本类别特征的类别分布向量与样本类内风格特征的高斯分布向量进行拼接,生成先验分布向量;通过评价器对先验分布向量进行评分,得到样本特征服从于先验分布的评分值。
计算机设备将类别结果与高斯分布结果进行拼接,即将相应的类别向量与风格向量进行拼接。拼接方式可以是在类别向量的最后一个元素之后添加风格向量的元素。也可以是在类别向量的最后一个元素之后添加风格向量的元素。评价器对拼接后的向量进行评分,得到相应分数,该分数为样本特征服从于先验分布的概率。概率越高,说明样本特征越服从于先验分布。样本特征服从先验分布时,可以使得输出的样本类别特征尽量接近热独向量,由此可以直接利用热独向量中数值最大的元素代表数据样本的类别,避免还需要进行下一步聚类操作。此外,在服从先验分布时,可以防止数据样本只被聚到一类或者几类中,从而能保证将数据样本聚到想要的类别数。
在一个实施例中,该方法还包括:通过判别器确定数据样本和样本特征的相关性;通过评价器确定样本特征服从于先验分布的评分值;至少根据相关性和评分值对聚类模型、判别器和评价器进行交替优化。
通过判别器识别数据样本和样本特征之间的相关性。判别器识别数据样本和样本特征之间相关性的损失函数,可以称为互信息损失函数。判别器可以通过互信息损失函数进行训练。互信息损失函数可以采用如下公式(1)表示:
Figure BDA0002489183310000121
其中,X为数据样本,Z为样本特征,S为sigmoid函数,E表示期望,D为判别器,用于判断X和Z是否相关,Q(Z|X)为聚类模型映射得到的Z的后验分布;PX为输入图片的先验分布,
Figure BDA0002489183310000122
为Z的聚合后验分布,
Figure BDA0002489183310000123
表示X、Z服从Q(Z|X)PX(X)的数学期望。当X与Z为正样本时,
Figure BDA0002489183310000124
Figure BDA0002489183310000125
当X与Z为负样本时,
Figure BDA0002489183310000126
通过互信息损失函数对判别器进行训练的过程中,损失函数值越小,相关性判断越准确,反向优化时,对判别器网络中的每一层权重的影响就越小。当判别器能够正确判断数据样本与特征之间是否相关时,说明特征中蕴含了与数据样本相关的信息,达到最大化互信息的目的。
样本类别特征与增强后的样本类别特征之间的类别特征差异可以通过散度来进行衡量。散度可以是KL散度。相应的损失函数可以称为类别差异损失函数,采用如下公式(2)
LAug=KL(Q(Zc|X)||Q(Zc|T(X))) (2)
其中,KL为KL散度,Q为聚类模型,Zc为样本类别特征,X为数据样本,T为数据增强,Q(Zc|X)为Zc的聚合后验分布,Q(Zc|T(X))为增强后的样本特征的后验分布。
类别差异损失函数的函数值越小,样本类别特征与增强后的样本类别特征之间的类别特征差异越小,相应的,数据样本在经过数据增强处理后,样本类别特征发生变化的几率就越小。
通过评价器对样本特征服从于先验分布进行评分。为样本特征引入先验分布的损失函数,可以称为先验分布损失函数。其中,可以分别针对聚类模型和评价器定义不同的先验分布损失函数。通过先验分布损失函数可以使得聚类模型映射的样本特征尽量贴近先验分布。聚类模型的先验分布损失函数可以如下公式(3),评价器的先验分布损失函数可以如下公式(4)所示:
Figure BDA0002489183310000131
其中,Q为聚类模型,Z为数据样本的样本特征,C(Z)为样本特征是否服从先验分布的概率值,QZ是Z的聚合后验分布,
Figure BDA0002489183310000132
为Z服从Qz[C(Z)]的数学期望。
Figure BDA0002489183310000133
其中,C为评价器,PZ为先验分布,
Figure BDA0002489183310000134
为从先验分布PZ和聚合后验分布Qz采样的特征对连线上的特征,
Figure BDA0002489183310000135
为梯度惩罚项,用于让评价器C满足Lipschitz约束,让其评价的得分,即服从先验分布的概率变化不会过于剧烈,λ为梯度惩罚项系数,设为10。
在一个实施例中,可以将互信息损失函数、类别差异损失函数、聚类模型的先验分布损失函数,作为子损失函数来定义聚类模型的总损失函数。每个子损失函数可以分别具有对应的权重。可以利用互信息损失函数以及其对应的权重定义判别器的总损失函数。可以利用评价器的先验分布损失函数及其权重定义评价器的总损失函数。
聚类模型的总损失函数如下公式(5)判别器的总损失函数如下公式(6),评价器的总损失函数如下公式(7):
Figure BDA0002489183310000141
LD=βMILMI (6)
Figure BDA0002489183310000142
其中,LQ为聚类模型的总损失函数。LMI为互信息损失函数,LAug为类别差异损失函数,
Figure BDA0002489183310000143
为聚类模型的先验分布损失函数,βMI为LMI的权重,βAug为LAug的权重,βAdv
Figure BDA0002489183310000144
的权重。βMI、βAdv可以设置为相应的固定值,例如,βMI设为0.5,βAdv设为1。βAug与数据样本的数据集相关,可以通过以下方式设置。具体的,计算机设备可以通过对样本特征进行非线性降维处理,生成相应的可视化降维图,根据可视化降维图选择类别差异损失函数的权重。可视化降维图,是将高维数据降维到低维数据后的结果,使得该结果是可视化的。低维比如二维或三维。例如,可以采用t-SNE对样本特征进行非线性降维处理,根据处理结果生成可视化降维图,即t-SNE图。在t-SNE图中,数据样本会进行聚类,形成聚类簇,在βAug的值较低时,各数据样本的聚类簇较为分散,随着βAug的值升高,得到到特征趋向于聚合,聚类簇甚至会出现重叠。不同的数据类型的数据集,所聚类的结果不同。以数据样本为图像为例,在βAug=2时,t-SNE图中的聚类簇无重叠,如图6-1所示。在βAug=3时,t-SNE图中的聚类簇出现重叠,如图6-2所示。由此可以在2和3之间选择聚类簇物重叠的最大值,作为βAug的值,由此可以使得聚类模型总损失函数更准确,从而使得训练后的聚类模型的聚类结果更准确。
在另一个实施例中,计算机设备可以将判别器替换为解码器,通过解码器对样本特征进行数据样本重构,生成重构样本,通过判断重构样本与数据样本是否相同,以得到数据样本与样本特征之间的相关性。解码器对应的互信息损失函数可以如下公式(8)所示:
Figure BDA0002489183310000145
其中,x为样本数据,x′为重构样本。
聚类模型的总损失函数如下公式(9)所示:
Figure BDA0002489183310000151
βr为Lr的权重,βAug为LAug的权重,βAdv
Figure BDA0002489183310000152
的权重。βr、βAdv可以设置为相应的固定值。βAug可以采用上述方式确定。
在聚类模型的训练可以采用反向优化的方式进行。在进行反向优化时,可以对评价器、聚类模型和判别器交替进行优化。其中,首先优化评价器,然后优化聚类模型和判别器。具体的,首先利用评价器的总损失函数反向优化评价器,使其对服从先验分布的样本特征的概率接近1,对不服从先验分布的样本特征的概率接近0。然后再利用聚类模型的总损失函数反向优化聚类模型,以及利用判别器的总损失函数反向优化判别器,使得聚类模型输出的样本特征尽量获得高分,即样本特征服从先验分布的概率尽可能高,重复这样的交替优化过程,使得聚类模型输出的样本特征获取高分,即样本特征服从先验分布的概率接近1,从而服从先验分布。
在其中一个实施例中,至少根据相关性和评分值对聚类模型、判别器和评价器进行交替优化包括:先根据评分值对评价器的网络参数进行至少一次优化;再至少根据相关性和评分值对聚类模型的网络参数进行优化,及根据相关性对判别器的网络参数进行优化。
具体的,由于数据样本的数量较多,不能一次性将所有的数据样本都输入聚类模型进行训练。在反向优化时,可以将数据样本随机分成多批,每一批次采用固定数量的数据样本,也可以称为批次样本。例如,批次样本可以设定为64个数据样本,即批大小(batchsize)设为64。
训练时,计算机设备确定样本特征服从于先验分布的评分值,确定数据样本和样本特征的相关性。对聚类模型、判别器和评价器进行交替优化时,更新各网络参数对应的权重。首先根据样本特征服从于先验分布的评分值和评价器的总损失函数对评价器的网络参数进行至少一次优化之后,再根据数据样本和样本特征的相关性、样本特征服从于先验分布的评分值、类别特征差异和聚类模型的总损失函数对聚类模型的网络参数进行优化,及根据数据样本和样本特征的相关性和判别器的总损失函数对判别器的网络参数进行优化。例如,首先对评价器进行4次优化之后,再对聚类模型和判别器进行1次优化。对聚类模型和判别器进行反向优化时,可以先后进行反向优化,也可以同时进行反向优化。
对评价器进行反向优化时,对于先验分布的输入,其输出越接近于1时,损失函数值越小,反向传播时,对参数的变化越小,对于数据样本的输入,其输出越接近于0,损失函数越小,反向传播时,对参数的变化越小。对聚类模型进行反向优化时,数据样本的输入,其输出越接近于1,损失函数值越小,反向传播时,对参数的变化越小。对聚类模型进行反向优化时不考虑先验分布。在聚类模型进行反向优化时,可以由评价器的总损失函数指示当前聚类模型学习的特征分布与先验分布之间的差异,当评价器的总损失函数开始收敛时,说明聚类模型学习到的特征分布已经靠近先验分布,可以停止训练。
在一个实施例中,提供了一种数据聚类的处理方法,该方法可以应用于计算机设备,如图7所示,包括如下步骤:
步骤702,获取聚类业务中的待聚类数据。
步骤704,通过编码器,将待聚类数据编码为数据特征;编码器,是至少根据相关性和评分值训练得到的;相关性,是数据编码器将数据样本编码所得的样本特征,通过判别器对数据样本与样本特征间进行相关判别的结果;评分值是通过评价器对样本特征服从先验分布的评分结果;样本特征包括样本类别特征和样本类内风格特征;先验分布包括样本类别特征对应的类别先验分布和样本类内风格特征对应的类内风格先验分布。
步骤706,根据数据特征中的类别特征,对相应的待聚类数据进行聚类。
计算机设备可以通过多种方式获取待聚类数据。多种可以是两种或两种以上。例如,计算机设备通过互联网获取聚类业务中的待聚类数据,计算机设备通过接收聚类任务,根据聚类任务在数据库中获取聚类业务中的待聚类数据等。待聚类数据可以包括多种数据类型,例如,图像、文本、语音等数据类型。
经过预先训练的编码器可以作为聚类模型。编码器是神经网络模型。例如,当数据样本为图像时,编码器可以采用卷积神经网络,当数据样本为文本或语音时,编码器可以采用LSTM(Long Short-Term Memory,长短期记忆网络)、Bert(Bidirectional EncoderRepresentation from Transformers,)等神经网络。编码器可以借助判别器和评价器等神经网络进行训练。判别器是由多个全连接层组成的深度神经网络。例如,可以是由三个或三个以上的全连接层组成的深度神经网络。评价器也是由多个全连接层组成的深度神经网络。可以是由三个或三个以上的全连接层组成的深度神经网络。
在编码器的训练过程中,不需要预先对数据样本进行人工标注。计算机设备将数据样本输入至编码器,编码器将数据样本映射为对应的样本特征。样本特征包含样本类别特征以及样本类内风格特征。其中,样本类别特征中的元素属于该数据样本属于各聚类类别的概率。样本类内风格特征,描述了数据样本的类内风格信息。判别器可以判断数据样本与样本特征之间是否相关。其中,可以通过计算数据样本与样本特征之间的互信息来判断两者之间的相关程度。通过对数据样本与样本特征之间的互信息进行最大化。可以有效改善样本特征表示质量,提高编码器对特征分布的学习,从而促进聚类精度的提高。
在训练过程中,评价器为样本特征引入先验分布。先验分布包括类别分布和高斯分布。评价器为样本类别特征引入类别分布,为样本类内风格特征引入高斯分布。其中,类别分布为独热向量。当样本特征服从先验分布时,使得输出的类别特征部分为独热向量,可以直接利用独热向量中数值最大的元素来代表数据样本的类别,避免还需要进行下一步聚类操作。同时,还可以防止数据样本只被聚到1类或几类中,能够保证聚成所需的类别数,如聚到10类。通过为样本类别特征引入类别分布,为样本类内风格特征引入高斯分布,以此对样本特征进行解耦。
计算机设备可以利用数据样本和样本特征的相关性、样本特征服从于先验分布的评分值、类别特征差异对编码器的网络参数进行反向优化。其中,可以采用反向传播法对编码器中各网络参数进行优化。通过最大化互信息、引入先验分布等可以改善编码器对样本特征的学习。
进一步的,编码器可以参照上述各实施例中的方式进行训练得到。在编码器经过训练后,使得样本类别特征与样本类内风格特征进行有效解耦。将待聚类数据输入编码器的编码器,经过编码器可以映射出对应的类别特征,类别特征对应的类别分布为热独向量,由此可以直接独热向量中数值最大的元素来代表待聚类数据的聚类类别。其中,待聚类数据可以聚为一类,也可以聚为多类,还可以被聚到所需的类别数。
本实施例中,通过确定数据样本与样本特征之间的相关性,以及对样本类别特征引入类别先验分布,对样类内风格特征引入类内风格先验分布,以确定样本特征服从于先验分布的评分值,由此利用相关性和评分对编码器进行训练,可以有效改善编码器对样本特征的学习。由于编码器学习到的特征分布靠近先验分布,并且对样本类别特征与样本类内风格特征进行有效解耦,由此根据数据特征中的类别特征,即可得到待聚类数据对应的聚类类别。从而实现了在无需人工标注的情况下有效提高数据聚类的精度。
应该理解的是,虽然图2、图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
分别以数据样本为图像样本、文本样本、语音样本为例,对上述聚类过程进行说明。
对于图像样本,聚类模型为图像聚类模型。图像聚类模型可以是图像编码器,可以采用卷积神经网络。其卷积块可以根据图像大小进行调整。图像越大,卷积块相应的越大。图像样本输入至图像编码器,图像编码器将图像样本编码为图像样本特征,图像样本特征包括图像类别特征和图像类内风格特征。图像类别是图像的分类结果。针对不同类别的图像,可以采用不同的特征向量。例如,人脸图像中,可以根据五官特征向量进行分类。自然风景图像中,可以采用颜色特征向量进行分类。图像类内风格是相同类别的图像的不同表达。例如,多个图像为识别为同一类别,可以有不同的风格表达,如图像颜色不同、拍照的姿势不同以及拍照背景不同等。或者同一类别的图像可以包括卡通、漫画、油画、水墨等不同风格。通过判别器确定图像样本与图像特征之间的相关性,以及通过评价器确定图像特征服从于先验分布的评分值,其中,先验分布包括图像类别特征对应的图像类别先验分布,和图像类内风格特征对应的图像类内风格先验分布。图像类别先验分布中与某一类别相关的图像类别特征出现的多,其他类的图像类别特征出现的少。图像类内风格先验分布可以是图像类内风格的高斯分布。对图像样本进行增强处理,包括对图像样本进行随机裁剪、随机水平翻转、颜色抖动和随机组合颜色通道等。通过图像编码器对增强后的图像样本进行编码,得到增强后的图像特征,确定图像类别特征和增强后的图像类别特征之间的类别特征差异。利用图像样本与图像特征之间的相关性、图像特征服从于先验分布的评分值以及类别特征差异,对图像编码器进行训练。训练后的编码器对聚类业务中的待聚类图像进行聚类,得到待聚类图像对应的图像聚类类别。
对于文本样本,聚类模型为文本聚类模型。文本聚类模型可以是文本编码器,可以采用LSTM、Bert等神经网络。文本样本输入至文本编码器,文本编码器将文本样本编码为文本样本特征,文本样本特征包括文本类别特征和文本类内风格特征。文本类别特征是表征文本含义的词组元素,可以采用字、词组、短语、常用概念等生成文本类别特征向量。文本类内风格是相同类别的文本的不同表达。例如,同一类别的文本可以是字体不同、背景颜色不同、字体效果不同以及文本旋转角度不同等。通过判别器确定文本样本与文本特征之间的相关性,以及通过评价器确定文本特征服从于先验分布的评分值,其中,先验分布包括文本类别特征对应的文本类别先验分布,和文本类内风格特征对应的文本类内风格先验分布。文本类别先验分布中与某一类别相关的词组元素出现的多,其他类的词组元素出现的少。文本类内风格先验分布可以是文本类内风格的高斯分布。对文本样本进行增强处理,包括对文本样本进行同义词替换、随机删除或随机***某些词、随机打乱文本的顺序、随机隐藏文本中的某些词等。通过文本编码器对增强后的文本样本进行编码,得到增强后的文本特征,确定文本类别特征和增强后的文本类别特征之间的类别特征差异。利用文本样本与文本特征之间的相关性、文本特征服从于先验分布的评分值以及类别特征差异,对文本编码器进行训练。训练后的编码器对聚类业务中的待聚类文本进行聚类,得到待聚类文本对应的文本聚类类别。
对于语音样本,聚类模型为语音聚类模型。语音聚类模型可以是语音编码器,可以采用LSTM、Bert等神经网络。语音样本输入至语音编码器,语音编码器将语音样本编码为语音样本特征,语音样本特征包括语音类别特征和语音类内风格特征。语音类别特征可以是对语音提取的MFCC(Mel-frequency cepstral coefficients,梅尔频率倒谱系数)特征。例如,不同年龄段类别的语音文本中,提取到的MFCC特征不同。语音类内风格特征是相同类别的语音的不同表达。例如,同一类别的语音的语速不同、情绪不同、语调不同以及重音不同等。通过判别器确定语音样本与语音特征之间的相关性,以及通过评价器确定语音特征服从于先验分布的评分值,其中,先验分布包括语音类别特征对应的语音类别先验分布,和语音类内风格特征对应的语音类内风格先验分布。语音类别先验分布中与某一类别相关的MFCC特征出现的多,其他类的MFCC特征出现的少。语音类内风格先验分布可以是语音类内风格的高斯分布。对语音样本进行增强处理,可以是对语音样本中的音频的时频谱进行增强处理,包括相同类别增强、时移增强、音高变换增强等。或者利用语音样本的声谱图进行增强处理,包括时移变换、速度调整、混合背景音如人声噪音、音乐背景噪音和真实噪音等,及音量调节、拉伸音频信号等。通过语音编码器对增强后的语音样本进行编码,得到增强后的语音特征,确定语音类别特征和增强后的语音类别特征之间的类别特征差异。利用语音样本与语音特征之间的相关性、语音特征服从于先验分布的评分值以及类别特征差异,对语音编码器进行训练。训练后的编码器对聚类业务中的待聚类语音进行聚类,得到待聚类语音对应的语音聚类类别。
在一个实施例中,如图8所示,提供了一种数据聚类的处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:第一获取模块802、特征映射模块804、相关性识别模块806、先验分布评分模块808和聚类训练模块810,其中:
第一获取模块802,用于获取数据样本;数据样本是聚类业务中聚类对象的样本。
特征映射模块804,用于通过聚类模型,映射数据样本为样本特征;样本特征包括样本类别特征和样本类内风格特征。
相关性识别模块806,用于确定数据样本和样本特征的相关性。
先验分布评分模块808,用于确定样本特征服从于先验分布的评分值;先验分布包括样本类别特征对应的类别先验分布,和样本类内风格特征对应的类内风格先验分布。
聚类训练模块810,用于至少根据相关性和评分值调整聚类模型;利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。
在一个实施例中,如图9所示,数据聚类的处理装置还包括:增强处理模块812,用于对数据样本进行增强处理;第一特征映射模块804还用于通过聚类模型,映射得到增强后的样本特征;增强后的样本特征包括增强后的样本类别特征和增强后的样本类内风格特征;特征差异识别模块814,用于确定样本类别特征和增强后的样本类别特征的类别特征差异;聚类训练模块810还用于根据相关性、类别特征差异和评分值调整聚类模型。
在一个实施例中,数据样本包括第一样本和第二样本;相关性识别模块806,还用于获取第一样本向量,利用第一样本的样本特征与第一样本向量进行拼接,生成拼接后的第一样本向量;利用第二样本的样本特征与第一样本向量进行拼接,生成拼接后的第二样本向量;通过判别器识别拼接后的第一样本向量与拼接后的第二样本向量之间的相关性,得到第一样本与第一样本的样本特征之间的相关性。
在一个实施例中,先验分布评分模块808还用于通过评价器确定样本类别特征对应的类别先验分布结果;通过评价器确定样本类内风格特征对应的类内风格先验分布结果;通过评价器对类别分布结果以及类内风格先验分布结果进行评分,得到样本特征服从于先验分布的评分值。
在一个实施例中,先验分布评分模块808还用于对样本类别特征的类别分布向量与样本类内风格特征的高斯分布向量进行拼接,生成先验分布向量;通过评价器对先验分布向量进行评分,得到样本特征服从于先验分布的评分值。
在一个实施例中,相关性识别模块806还用于通过判别器确定数据样本和样本特征的相关性;先验分布评分模块808还用于通过评价器确定样本特征服从于先验分布的评分值;聚类训练模块810还用于至少根据相关性和评分值对聚类模型、判别器和评价器进行交替优化。
在一个实施例中,聚类训练模块810还用于先根据评分值对评价器的网络参数进行至少一次优化;再至少根据相关性和评分值对聚类模型的网络参数进行优化,及根据相关性对判别器的网络参数进行优化。
在一个实施例中,聚类训练模块810还用于获取互信息损失函数及权重、先验分布损失函数及权重及类别差异损失函数;利用样本特征生成相应的t-SNE图,根据t-SNE图选择类别差异损失函数的权重;利用互信息损失函数及权重、先验分布损失函数及权重及类别差异损失函数及权重,生成聚类模型的总损失函数;利用聚类模型的总损失函数对聚类模型的网络参数进行优化。
在一个实施例中,如图10所示,提供了一种数据聚类的处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:第二获取模块1002、特征编码模块1004和聚类模块1006,其中:
第二获取模块1002,用于获取聚类业务中的待聚类数据。
特征编码模块1004,用于通过编码器,将待聚类数据编码为数据特征;编码器,是至少根据相关性和评分值训练得到的;相关性,是数据编码器将数据样本编码所得的样本特征,通过判别器对数据样本与样本特征间进行相关判别的结果;评分值是通过评价器对样本特征服从先验分布的评分结果;样本特征包括样本类别特征和样本类内风格特征;先验分布包括样本类别特征对应的类别先验分布和样本类内风格特征对应的类内风格先验分布。
聚类模块1006,用于根据数据特征中的类别特征,对相应的待聚类数据进行聚类。
进一步的,编码器可以采用上述各实施例中提供的方式进行训练得到。
关于数据聚类的处理装置的具体限定可以参见上文中对于数据聚类的处理方法的限定,在此不再赘述。上述数据聚类的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据聚类的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

1.一种数据聚类的处理方法,其特征在于,所述方法包括:
获取数据样本;所述数据样本是聚类业务中聚类对象的样本;所述数据样本的数据类型包括图像、文本或语音中的至少一种;
通过与所述数据样本的数据类型相匹配的聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;
确定所述数据样本和所述样本特征的相关性;所述相关性用于表征所述数据样本与所述样本特征之间是否相关;
确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;
至少根据所述相关性和所述评分值调整所述聚类模型;
利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类;所述待聚类数据的数据类型与所述调整后的聚类模型相匹配。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述数据样本进行增强处理,通过所述聚类模型,映射得到增强后的样本特征;所述增强后的样本特征包括增强后的样本类别特征和增强后的样本类内风格特征;
确定所述样本类别特征和所述增强后的样本类别特征的类别特征差异;
所述至少根据所述相关性和所述评分值调整所述聚类模型包括:
根据所述相关性、所述类别特征差异和所述评分值调整所述聚类模型。
3.根据权利要求1所述的方法,其特征在于,所述数据样本包括第一样本和第二样本;所述确定所述数据样本和所述样本特征的相关性包括:
获取第一样本向量,利用所述第一样本的样本特征与所述第一样本向量进行拼接,生成拼接后的第一样本向量;
利用所述第二样本的样本特征与所述第一样本向量进行拼接,生成拼接后的第二样本向量;
通过判别器识别所述拼接后的第一样本向量与所述拼接后的第二样本向量之间的相关性,得到所述第一样本与所述第一样本的样本特征之间的相关性。
4.根据权利要求1所述的方法,其特征在于,所述确定所述样本特征服从于先验分布的评分值包括:
通过评价器确定所述样本类别特征对应的类别先验分布结果;
通过所述评价器确定所述样本类内风格特征对应的类内风格先验分布结果;
通过所述评价器对所述类别分布结果以及所述类内风格先验分布结果进行评分,得到所述样本特征服从于先验分布的评分值。
5.根据权利要求4所述的方法,其特征在于,所述类内风格先验分布包括高斯分布,所述通过所述评价器对所述类别先验分布结果以及所述类内风格先验分布结果进行评分包括:
对所述样本类别特征的类别分布向量与所述样本类内风格特征的高斯分布向量进行拼接,生成先验分布向量;
通过所述评价器对所述先验分布向量进行评分,得到所述样本特征服从于先验分布的评分值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过判别器确定所述数据样本和所述样本特征的相关性;
通过评价器确定所述样本特征服从于先验分布的评分值;
所述至少根据所述相关性和所述评分值调整所述聚类模型包括:
至少根据所述相关性和所述评分值对所述聚类模型、所述判别器和所述评价器进行交替优化。
7.根据权利要求6所述的方法,其特征在于,所述至少根据所述相关性和所述评分值对所述聚类模型、所述判别器和所述评价器进行交替优化包括:
先根据所述评分值对所述评价器的网络参数进行至少一次优化;
再至少根据所述相关性和所述评分值对所述聚类模型的网络参数进行优化,及根据所述相关性对所述判别器的网络参数进行优化。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取互信息损失函数及权重、先验分布损失函数及权重及类别差异损失函数;
利用所述样本特征生成相应的可视化降维图,根据所述可视化降维图选择所述类别差异损失函数的权重;
利用所述互信息损失函数及权重、所述先验分布损失函数及权重及所述类别差异损失函数及权重,生成所述聚类模型的总损失函数;
利用所述聚类模型的总损失函数对所述聚类模型的网络参数进行优化。
9.一种数据聚类的处理方法,其特征在于,所述方法包括:
获取聚类业务中的待聚类数据;所述待聚类数据的数据类型包括图像、文本或语音中的至少一种;
通过与所述待聚类数据的数据类型相匹配的编码器,将所述待聚类数据编码为数据特征;所述编码器,是至少根据相关性和评分值训练得到的;所述相关性,是数据编码器将与所述待聚类数据属于相同数据类型的数据样本编码所得的样本特征,通过判别器对所述数据样本与所述样本特征间进行相关判别的结果;所述评分值是通过评价器对所述样本特征服从先验分布的评分结果;所述样本特征包括样本类别特征和样本类内风格特征;所述先验分布包括所述样本类别特征对应的类别先验分布和所述样本类内风格特征对应的类内风格先验分布;
根据所述数据特征中的类别特征,对相应的待聚类数据进行聚类。
10.一种数据聚类的处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取数据样本;所述数据样本是聚类业务中聚类对象的样本;所述数据样本的数据类型包括图像、文本或语音中的至少一种;
特征映射模块,用于通过与所述数据样本的数据类型相匹配的聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;
相关性识别模块,用于确定所述数据样本和所述样本特征的相关性;所述相关性用于表征所述数据样本与所述样本特征之间是否相关;
先验分布评分模块,用于确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;
聚类训练模块,用于至少根据所述相关性和所述评分值调整所述聚类模型;利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类;所述待聚类数据的数据类型与所述调整后的聚类模型相匹配。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
增强处理模块,用于对所述数据样本进行增强处理;
所述特征映射模块还用于通过所述聚类模型,映射得到增强后的样本特征;所述增强后的样本特征包括增强后的样本类别特征和增强后的样本类内风格特征;
特征差异识别模块,用于确定所述样本类别特征和所述增强后的样本类别特征的类别特征差异;
所述聚类训练模块还用于根据所述相关性、所述类别特征差异和所述评分值调整所述聚类模型。
12.根据权利要求10所述的装置,其特征在于,所述数据样本包括第一样本和第二样本;
所述相关性识别模块,还用于获取第一样本向量,利用所述第一样本的样本特征与所述第一样本向量进行拼接,生成拼接后的第一样本向量;利用所述第二样本的样本特征与所述第一样本向量进行拼接,生成拼接后的第二样本向量;通过判别器识别所述拼接后的第一样本向量与所述拼接后的第二样本向量之间的相关性,得到所述第一样本与所述第一样本的样本特征之间的相关性。
13.根据权利要求10所述的装置,其特征在于,
所述先验分布评分模块,还用于通过评价器确定所述样本类别特征对应的类别先验分布结果;通过所述评价器确定所述样本类内风格特征对应的类内风格先验分布结果;通过所述评价器对所述类别分布结果以及所述类内风格先验分布结果进行评分,得到所述样本特征服从于先验分布的评分值。
14.根据权利要求13所述的装置,其特征在于,所述类内风格先验分布包括高斯分布;
所述先验分布评分模块,还用于对所述样本类别特征的类别分布向量与所述样本类内风格特征的高斯分布向量进行拼接,生成先验分布向量;通过所述评价器对所述先验分布向量进行评分,得到所述样本特征服从于先验分布的评分值。
15.根据权利要求10所述的装置,其特征在于,
所述相关性识别模块,还用于通过判别器确定所述数据样本和所述样本特征的相关性;
所述先验分布评分模块,还用于通过评价器确定所述样本特征服从于先验分布的评分值;
所述聚类训练模块,还用于至少根据所述相关性和所述评分值对所述聚类模型、所述判别器和所述评价器进行交替优化。
16.根据权利要求15所述的装置,其特征在于,
所述聚类训练模块,还用于先根据所述评分值对所述评价器的网络参数进行至少一次优化;再至少根据所述相关性和所述评分值对所述聚类模型的网络参数进行优化,及根据所述相关性对所述判别器的网络参数进行优化。
17.根据权利要求15所述的装置,其特征在于,
所述聚类训练模块,还用于获取互信息损失函数及权重、先验分布损失函数及权重及类别差异损失函数;利用所述样本特征生成相应的可视化降维图,根据所述可视化降维图选择所述类别差异损失函数的权重;利用所述互信息损失函数及权重、所述先验分布损失函数及权重及所述类别差异损失函数及权重,生成所述聚类模型的总损失函数;利用所述聚类模型的总损失函数对所述聚类模型的网络参数进行优化。
18.一种数据聚类装置,其特征在于,所述装置包括:
第二获取模块,用于获取聚类业务中的待聚类数据;所述待聚类数据的数据类型包括图像、文本或语音中的至少一种;
特征编码模块,用于通过与所述待聚类数据的数据类型相匹配的编码器,将所述待聚类数据编码为数据特征;所述编码器,是至少根据相关性和评分值训练得到的;所述相关性,是数据编码器将与所述待聚类数据属于相同数据类型的数据样本编码所得的样本特征,通过判别器对所述数据样本与所述样本特征间进行相关判别的结果;所述评分值是通过评价器对所述样本特征服从先验分布的评分结果;所述样本特征包括样本类别特征和样本类内风格特征;所述先验分布包括所述样本类别特征对应的类别先验分布和所述样本类内风格特征对应的类内风格先验分布;
聚类模块,用于根据所述数据特征中的类别特征,对相应的待聚类数据进行聚类。
19.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
20.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN202010400391.1A 2020-05-13 2020-05-13 数据聚类的处理方法、装置、计算机设备和存储介质 Active CN111598153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010400391.1A CN111598153B (zh) 2020-05-13 2020-05-13 数据聚类的处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010400391.1A CN111598153B (zh) 2020-05-13 2020-05-13 数据聚类的处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111598153A CN111598153A (zh) 2020-08-28
CN111598153B true CN111598153B (zh) 2023-02-24

Family

ID=72188754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010400391.1A Active CN111598153B (zh) 2020-05-13 2020-05-13 数据聚类的处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111598153B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766362A (zh) * 2021-01-18 2021-05-07 北京嘀嘀无限科技发展有限公司 数据处理方法、装置和设备
US11830476B1 (en) * 2021-06-08 2023-11-28 Amazon Technologies, Inc. Learned condition text-to-speech synthesis
CN115083442B (zh) * 2022-04-29 2023-08-08 马上消费金融股份有限公司 数据处理方法、装置、电子设备以及计算机可读存储介质
CN116361671B (zh) * 2023-06-01 2023-08-22 浪潮通用软件有限公司 一种基于后校正的高熵knn聚类方法、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871896A (zh) * 2019-02-26 2019-06-11 北京达佳互联信息技术有限公司 数据分类方法、装置、电子设备及存储介质
CN110490306A (zh) * 2019-08-22 2019-11-22 北京迈格威科技有限公司 一种神经网络训练和对象识别方法、装置和电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
JP5346756B2 (ja) * 2009-09-25 2013-11-20 Kddi株式会社 画像分類装置
EP3035274A1 (en) * 2014-12-17 2016-06-22 Tata Consultancy Services Limited Interpretation of a dataset
CN110020078B (zh) * 2017-12-01 2021-08-20 北京搜狗科技发展有限公司 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN109145978A (zh) * 2018-08-15 2019-01-04 大连海事大学 一种鞋底花纹图像的特征弱相关聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871896A (zh) * 2019-02-26 2019-06-11 北京达佳互联信息技术有限公司 数据分类方法、装置、电子设备及存储介质
CN110490306A (zh) * 2019-08-22 2019-11-22 北京迈格威科技有限公司 一种神经网络训练和对象识别方法、装置和电子设备

Also Published As

Publication number Publication date
CN111598153A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111598153B (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
CN112949786B (zh) 数据分类识别方法、装置、设备及可读存储介质
CN111582348B (zh) 条件生成式对抗网络的训练方法、装置、设备及存储介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN111754596A (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
JP2023523029A (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
CN114021524B (zh) 一种情感识别方法、装置、设备及可读存储介质
CN114818691A (zh) 文章内容的评价方法、装置、设备及介质
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN114065848A (zh) 一种基于预训练情感嵌入的中文方面级别情感分类方法
CN113962965A (zh) 图像质量评价方法、装置、设备以及存储介质
CN111950295A (zh) 一种训练自然语言处理模型的方法和***
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN117649567B (zh) 数据标注方法、装置、计算机设备和存储介质
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与***
CN114861671A (zh) 模型训练方法、装置、计算机设备及存储介质
CN114511023A (zh) 分类模型训练方法以及分类方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116975711A (zh) 多视图数据分类方法以及相关设备
CN117235633A (zh) 机构分类方法、装置、计算机设备及存储介质
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
Yun et al. [Retracted] Quality Evaluation and Satisfaction Analysis of Online Learning of College Students Based on Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027938

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant