CN112329838B - 一种目标集合类别标签的确定方法和装置 - Google Patents

一种目标集合类别标签的确定方法和装置 Download PDF

Info

Publication number
CN112329838B
CN112329838B CN202011203745.XA CN202011203745A CN112329838B CN 112329838 B CN112329838 B CN 112329838B CN 202011203745 A CN202011203745 A CN 202011203745A CN 112329838 B CN112329838 B CN 112329838B
Authority
CN
China
Prior art keywords
data
target
determining
category
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011203745.XA
Other languages
English (en)
Other versions
CN112329838A (zh
Inventor
徐成国
杨康
周星杰
王硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202011203745.XA priority Critical patent/CN112329838B/zh
Publication of CN112329838A publication Critical patent/CN112329838A/zh
Application granted granted Critical
Publication of CN112329838B publication Critical patent/CN112329838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种目标集合类别标签的确定方法和装置,其中,该方法包括:按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;根据第二集合的集合类别标签确定第一集合中目标数据的数据类别标签,其中,第二集合包括多个样本数据,样本数据为带有样本类别标签的数据;根据第一集合中目标数据的数据类别标签确定第一集合的目标集合类别标签。本申请解决了聚类算法确定聚类类别结果准确率较低的技术问题。

Description

一种目标集合类别标签的确定方法和装置
技术领域
本申请涉及计算机领域,尤其涉及一种目标集合类别标签的确定方法和装置。
背景技术
随着互联网的发展,聚类算法大量应用于无标签数据的聚类区分中,其无监督且无需大量人工处理,使用便捷而且实现简单,但是在实际工程化应用中单纯的聚类算法应用场景有限,通常是作为一些工程化应用的辅助算法,用于最后的类别区分,当前的聚类算法只能将数据聚为各个集合,而无法确定聚类出的各个集合的集合类别标签。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种目标集合类别标签的确定方法和装置,以至少解决相关技术中聚类算法确定聚类类别结果准确率较低的技术问题。
根据本申请实施例的一个方面,提供了一种目标集合类别标签的确定方法,包括:按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据;根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签。
可选地,根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的所述目标集合类别标签包括:根据所述数据类别标签和所述第一集合建立混淆矩阵,其中,所述混淆矩阵的行中的数据表示各个所述第一集合的标识、列中的数据表示各个所述第一集合中的各个所述目标数据的所述数据类别标签,所述混淆矩阵的数据区域中的各个数据表示所述第一集合中的每个所述目标数据的所述数据类别标签所占的比例;在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据,其中,所述目标条件是基于各个所述第二集合中包含的所述样本数据的比值确定的,任意两个所述目标数据所对应的行均不同;将每个所述目标数据所对应的行中的所述数据类别标签确定为对应的列中的所述第一集合的所述目标集合类别标签。
可选地,在所述混淆矩阵的所述数据区域的多列中确定出满足所述目标条件的多个所述目标数据包括:确定各个所述第二集合所包含的所述样本数据的第一比例值;在所述混淆矩阵的所述数据区域的多列中确定出满足第二比例值的多个所述目标数据,其中,所述第二比例值与所述第一比例值的差值小于设定阈值。
可选地,根据第二集合的所述集合类别标签确定所述第一集合中所述目标数据的所述数据类别标签包括:确定每个所述第二集合的所述集合类别标签;计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度,并确定所有相似度中的最大相似度值;将与最大相似度值对应的所述集合类别标签确定为所述目标数据的所述数据类别标签。
可选地,确定每个所述第二集合的所述集合类别标签包括:按照目标集合数N对多个所述样本数据进行特征分析,得到N个所述第二集合,其中N为大于2的正整数;根据所述第二集合中的各个所述样本数据的所述样本类别标签确定所述第二集合的所述集合类别标签。
可选地,计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度包括:计算每个所述目标数据与各个所述集合类别标签之间的欧式距离;基于所述欧式距离确定各个所述目标数据与各个所述集合类别标签之间的相似度,其中,所述欧式距离越小则基于所述欧式距离确定的相似度越大。
根据本申请实施例的另一方面,还提供了一种目标集合类别标签的确定装置,包括:聚类模块,用于按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;第一确定模块,用于根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据;第二确定模块,用于根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签。
可选地,所述第二确定模块包括:处理单元,用于根据所述数据类别标签和所述第一集合建立混淆矩阵,其中,所述混淆矩阵的行中的数据表示各个所述第一集合的标识、列中的数据表示各个所述第一集合中的各个所述目标数据的所述数据类别标签,所述混淆矩阵的数据区域中的各个数据表示所述第一集合中的每个所述目标数据的所述数据类别标签所占的比例;第一确定单元,用于在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据,其中,所述目标条件是基于各个所述第二集合中包含的所述样本数据的比值确定的,任意两个所述目标数据所对应的行均不同;第二确定单元,用于将每个所述目标数据所对应的行中的所述数据类别标签确定为对应的列中的所述第一集合的所述目标集合类别标签。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本申请实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
在本申请实施例中,采用按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;根据第二集合的集合类别标签确定第一集合中目标数据的数据类别标签,其中,第二集合包括多个样本数据,样本数据为带有样本类别标签的数据;根据第一集合中目标数据的数据类别标签确定第一集合的目标集合类别标签的方式,根据预先设定的集合数可以对需要聚类的目标数据进行简单的聚类,得到聚类后的多个第一集合,当前的第一集合是不具有集合类别标签的集合,使用带有类别标签信息的样本数据组成的第二集合,因为第二集合中的样本数据是带有样本类别标签的数据,所以,就可以确定出第二集合的集合类别标签,通过带有集合类别标签的第二集合来确定第一集合中目标数据的数据类别标签,从而可确定进行聚类操作后的第一集合的目标集合类别标签,达到了确定对目标数据进行聚类得到的各个集合的目标集合类别标签的目的,从而实现了提高聚类算法确定聚类类别的准确率的技术效果,进而解决了聚类算法确定聚类类别结果准确率较低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的目标集合类别标签的确定方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的目标集合类别标签的确定方法的流程图;
图3是根据本申请实施例的一种可选的混淆矩阵示意图;
图4是根据本申请实施例的一种可选的确定目标集合类别标签的流程图;
图5是根据本申请实施例的一种可选的目标集合类别标签的确定装置的示意图;
图6是根据本申请实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一方面,提供了一种目标集合类别标签的确定的方法实施例。
可选地,在本实施例中,上述目标集合类别标签的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。图1是根据本申请实施例的目标集合类别标签的确定方法的硬件环境的示意图,如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。本申请实施例的目标集合类别标签的确定方法可以由服务器103来执行,也可以由终端101来执行,还可以是由服务器103和终端101共同执行。其中,终端101执行本申请实施例的目标集合类别标签的确定方法也可以是由安装在其上的客户端来执行。
图2是根据本申请实施例的一种可选的目标集合类别标签的确定方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;
步骤S204,根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据;
步骤S206,根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签。
通过上述步骤S202至步骤S206,根据预先设定的集合数可以对需要聚类的目标数据进行简单的聚类,得到聚类后的多个第一集合,当前的第一集合是不具有集合类别标签的集合,使用带有类别标签信息的样本数据组成的第二集合,因为第二集合中的样本数据是带有样本类别标签的数据,所以,就可以确定出第二集合的集合类别标签,通过带有集合类别标签的第二集合来确定第一集合中目标数据的数据类别标签,从而可确定进行聚类操作后的第一集合的目标集合类别标签,达到了确定对目标数据进行聚类得到的各个集合的目标集合类别标签的目的,从而实现了提高聚类算法确定聚类类别的准确率的技术效果,进而解决了聚类算法确定聚类类别结果准确率较低的技术问题。
可选的,在本实施例中,本方法可以但不限于应用于数据分析领域、图像处理领域、产品推荐领域等等,比如:应用于对新用户进行产品推荐领域,可根据历史产品模型对用户进行打分,但是对高分用户和低分用户进行产品推荐时,由于是根据三种打分模型对用户打分的排序,因此不可对得分进行对比,这就需要利用高分或低分用户数据结合历史样本数据进行聚类判断,但是由于特征数据本身质量较低,聚类只能得到类别,无法确定每个类别具体代表的含义(如:代表哪种商品),通过本方案就可以确定出需要向新用户推荐的产品名称。
在步骤S202提供的技术方案中,目标集合数N可以是根据用户需求随机设置的,通过对目标数据进行聚类,可得到不带有集合类别标签的第一集合。
可选地,在本实施例中,对目标数据进行聚类的方法可以但不限于应用K-MEANS算法(K-means Clustering Algorithm,K均值聚类算法)、K-MEDOIDS算法(K中心点算法)等等。
在步骤S204提供的技术方案中,根据应用的领域不同,数据也是不同的,进而数据的类别标签也是不同的,数据类别标签可以是性别、年龄、身高、体重、商品种类、商品价格等等,同一个数据可以拥有一个或多个类别标签,比如,某个数据的类别标签可以是[商品名称,商品类别,商品价格,上架时间]。
可选地,在本实施例中,第二集合可以是将多个样本数据按照其样本类别标签聚类得到的集合,每个第二集合中可以具有对应的集合类别标签。
作为一种可选的实施例,根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的所述目标集合类别标签包括:
S11,根据所述数据类别标签和所述第一集合建立混淆矩阵,其中,所述混淆矩阵的行表示各个所述第一集合的标识、列表示各个所述第一集合中各个所述目标数据的所述数据类别标签,所述混淆矩阵的数据区域中的各个数据表示所述第一集合中的每个所述目标数据的所述数据类别标签所占的比例;
S12,在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据,其中,所述目标条件是基于各个所述第二集合中包含的所述样本数据的比值确定的,任意两个所述第一数据所对应的行均不同;
S13,将每个所述目标数据所对应的行中的所述数据类别标签确定为对应的列中的所述第一集合的所述目标集合类别标签。
通过以上步骤,建立数据类别标签与第一集合的混淆矩阵,并在混淆矩阵数据区域的各列中挑选出满足目标条件的多个目标数据,将目标数据所对应的数据类别标签作为第一集合的目标集合类别标签,从而可高效准确的确定出第一集合的目标集合类别标签。
作为一种可选的实施例,在所述混淆矩阵的所述数据区域的多列中确定出满足所述目标条件的所述多个目标数据包括:
S21,确定各个所述第二集合所包含的所述样本数据的第一比例值;
S22,在所述混淆矩阵的所述数据区域的多列中确定出满足第二比例的多个所述目标数据,其中,所述第二比例与所述第一比例的差值小于设定阈值。
可选地,在本实施例中,第一比例值是各个第二集合包含的样本数据的数量的比值,比如,样本数据的数量为100个,将样本数据聚类为三个第二集合时,第一个集合中包含70个样本数据,第二个集合中包含20个样本数据,第三个集合中包含10个样本数据,则第一比例值为7:2:1。
可选地,在本实施例中,设定阈值可以但不限于包括任意的数值,如:0.1、0.01、0.001、0.2、0.02等等,当目标数据和对应的第一比例值之差小于设定阈值时,则可认为在当前第一集合中确定的多个目标数据符合目标要求。
可选地,在本实施例中,从各个列中各选取一个目标数据,在选出的目标数据之间的比例值是最接近于第一比例值时,则可以确定在数据区域的多列中选择出的目标数据是满足目标条件的数据。
图3是根据本申请实施例的一种可选的混淆矩阵示意图,如图3所示,设定的目标集合数为3,横坐标label1表示各个第一集合的标识,其中label1-1~label1-3表示按照目标集合数3将多个目标数据进行聚类得到的3个第一集合,纵坐标label2表示根据第二集合的集合类别标签确定的各个所述第一集合中的各个目标数据的数据类别标签,其中,label2-1、label2-1、label2-3分别表示3个集合类别标签,数据区域的各个数据表示第一集合中的每个目标数据的数据类别标签所占的比例,比如:其中total(label1-1)代表的是聚类得到的第1个第一集合中包含的目标数据的数量,同理可知total(label1-2)和total(label1-3)的表示的含义,表中列label1-1与行label2-1所对应的单元格中a表示的是在第1个第一集合中的特征向量离label2-1的质心向量最近的数据数量,那么a/total(label-1)的意义即聚类得到的第1个第一集合中,根据欧氏距离计算距离得到最近的集合类别标签为label2-2的向量数量所占的比例;根据建立的混淆矩阵,除了进行纵向维度对比(a/total(1-1),b/total(label1-1)...)之外,继续进行横向对比(a/total(1-1),f/total(1-2)...),保证数据区域的每列中确定出的数据之间的第二比例值接近第二集合所包含的样本数据的第一比例值,如将多个样本数据聚类为3个第二集合,且比例为7:2:1,如果通过上述计算得到的(label2-1)/(label1-1)、(label2-2)/(label1-2)、(label2-3)/(label1-3)分别为选择的三个label1聚类类别的最佳label2选项,那么这个三个比例数值希望是无限接近7:2:1。最终,互斥的label2-1,label2-2,label2-3就是各个第一集合label1-1,label1-2,label1-3分别对应的实际代表的目标类别标签。
作为一种可选的实施例,根据第二集合的集合类别标签确定第一集合中目标数据的数据类别标签包括:
S31,确定每个所述第二集合的所述集合类别标签;
S32,计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度,并确定所有相似度中的最大相似度值;
S33,将与最大相似度值对应的所述集合类别标签确定为所述目标数据的所述数据类别标签。
可选地,在本实施例中,确定第二集合的集合类别标签的方法可以但不限于包括计算第二集合中包含的各个样本数据的样本类别标签的质心向量,对于不同特征维度的样本类别标签,质心值的计算方法是不一样的,最终可根据样本类别数得到每个第二集合的集合类别标签,比如,对于商品名称、商品类别这样的离散值可进行one-hot编码,将值归一到[-1,1],对于商品价格、商品上架时间这样的连续值可以采用均值话处理,如果原始数据特征是[商品名称,商品类别,商品价格,上架时间],比如,假设根据商品价格分为两类,100以上和100以下,那么集合类别标签可以为[one-hot(商品名称),one-hot(商品类别),average(商品价格<100的所有数据),average(上架时间)]和[one-hot(商品名称),one-hot(商品类别),average(商品价格>100的所有数据),average(上架时间)]。
可选地,在本实施例中,计算目标数据和集合类别标签之间的相似度的方法可以但不限于包括欧几里德距离法、曼哈顿距离法、马氏距离法,本方案对实现计算目标数据和集合类别标签之间的相似度的方法不进行限定,只要能计算出其相似度即可。
通过以上步骤,通过计算目标数据和集合类别标签的相似度,将与目标数据的相似度最大的集合类别标签作为目标数据的数据类别标签,从而提高了目标数据的数据类别标签的准确率。
作为一种可选的实施例,确定每个所述第二集合的所述集合类别标签包括:
S41,按照目标集合数N对多个所述样本数据进行特征分析,得到N个所述第二集合,其中N为大于2的正整数;
S42,根据所述第二集合中的各个所述样本数据的所述样本类别标签确定所述第二集合的所述集合类别标签。
可选的,在本实施例中,根据样本数据的特征进行特征工程,可实现按照目标集合数N将多个样本数据划分为N个数据集合。
作为一种可选的实施例,计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度包括:
S51,计算各个所述目标数据和各个所述集合类别标签之间的欧式距离;
S52,基于所述欧式距离确定各个所述目标数据和各个所述集合类别标签的相似度,其中,所述欧式距离越小则基于所述欧式距离确定的相似度越大。
可选地,在本实施例中,通过采用欧几里德距离法计算目标数据与集合类别标签之间的相似度,该欧几里德距离法计算公式为:在该公式中,n代表数据的特征向量的维度,xi代表一个数据(可以是目标数据和集合类别标签中的任意一个)的第i维度值,yi代表另一个数据(可以是目标数据和集合类别标签中的任意一个)的第i维度的向量值。
本申请还提供了一种可选实施例,图4是根据本申请实施例的一种可选的确定目标集合类别标签的流程图,如图4所示:
S401,使用多个带有类别标签的历史数据作为样本数据,对多个样本数据进行特征工程从而对样本数据进行特征分析。
S402,对特征分析后的样本数据按照预先设定的目标集合数进行分类,得到多个聚类集合,此时的聚类集合不具有集合类别标签。
S403,使用聚类算法按照预先设定的目标集合数对目标数据进行聚类。
S404,得到聚类后的多个目标数据集合,此时的目标数据集合不具有集合类别标签,只能得到目标数据属于哪个目标数据集合的集合标签label1。
S405,根据步骤S402中的聚类集合中包含的样本数据的样本类别标签计算每个聚类集合的质心向量,从而得到各个集合的集合类别标签。
S406,根据样本数据计算每条目标数据和各个聚类集合的质心向量之间的欧式距离,将欧式距离的最小值所属的质心向量对应的集合类别标签记为样本数据的样本类别标签label2。
S407,构建由label1和label2构成混淆矩阵。
S408,根据混淆矩阵中的分析结果即可确定出每个集合标签label1的实际意义。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述目标集合类别标签的确定方法的目标集合类别标签的确定装置。图5是根据本申请实施例的一种可选的目标集合类别标签的确定装置的示意图,如图5所示,该装置可以包括:
聚类模块52,用于按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;
第一确定模块54,用于根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据;
第二确定模块56,用于根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签。
需要说明的是,该实施例中的发起模块52可以用于执行本申请实施例中的步骤S202,该实施例中的开启模块54可以用于执行本申请实施例中的步骤S204,该实施例中的发送模块56可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,可以解决了聚类算法确定聚类类别结果准确率较低的技术问题,进而达到提高聚类算法确定聚类类别的准确率的技术效果。
作为一种可选的实施例,所述第二确定模块包括:处理单元,用于根据所述数据类别标签和所述第一集合建立混淆矩阵,其中,所述混淆矩阵的行中的数据表示各个所述第一集合的标识、列中的数据表示各个所述第一集合中的各个所述目标数据的所述数据类别标签,所述混淆矩阵的数据区域中的各个数据表示所述第一集合中的每个所述目标数据的所述数据类别标签所占的比例;第一确定单元,用于在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据,其中,所述目标条件是基于各个所述第二集合中包含的所述样本数据的比值确定的,任意两个所述目标数据所对应的行均不同;第二确定单元,用于将每个所述目标数据所对应的行中的所述数据类别标签确定为对应的列中的所述第一集合的所述目标集合类别标签。
作为一种可选的实施例,所述第一确定单元包括:确定各个所述第二集合所包含的所述样本数据的第一比例值;在所述混淆矩阵的所述数据区域的多列中确定出满足第二比例值的多个所述目标数据,其中,所述第二比例值与所述第一比例值的差值小于设定阈值。
作为一种可选的实施例,所述第一确定模块包括:第三确定单元,用于确定每个所述第二集合的所述集合类别标签;计算单元,用于计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度,并确定所有相似度中的最大相似度值;第四确定单元,用于将与最大相似度值对应的所述集合类别标签确定为所述目标数据的所述数据类别标签。
作为一种可选的实施例,所述第三确定单元包括:按照目标集合数N对多个所述样本数据进行特征分析,得到N个所述第二集合,其中N为大于2的正整数;根据所述第二集合中的各个所述样本数据的所述样本类别标签确定所述第二集合的所述集合类别标签。
作为一种可选的实施例,所述计算单元包括:计算每个所述目标数据与各个所述集合类别标签之间的欧式距离;基于所述欧式距离确定各个所述目标数据与各个所述集合类别标签之间的相似度,其中,所述欧式距离越小则基于所述欧式距离确定的相似度越大。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的另一个方面,还提供了一种用于实施上述目标集合类别标签的确定方法的服务器或终端。
图6是根据本申请实施例的一种终端的结构框图,如图6所示,该终端可以包括:一个或多个(图中仅示出一个)处理器601、存储器603、以及传输装置605,如图6所示,该终端还可以包括输入输出设备607。
其中,存储器603可用于存储软件程序以及模块,如本申请实施例中的目标集合类别标签的确定方法和装置对应的程序指令/模块,处理器601通过运行存储在存储器603内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标集合类别标签的确定方法。存储器603可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器603可进一步包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置605用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置605包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置605为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器603用于存储应用程序。
处理器601可以通过传输装置605调用存储器603存储的应用程序,以执行下述步骤:按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据;根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签。
采用本申请实施例,提供了一种目标集合类别标签的确定方法和装置的方案。根据预先设定的集合数可以对需要聚类的目标数据进行简单的聚类,得到聚类后的多个第一集合,当前的第一集合是不具有集合类别标签的集合,使用带有类别标签信息的样本数据组成的第二集合,因为第二集合中的样本数据是带有样本类别标签的数据,所以,就可以确定出第二集合的集合类别标签,通过带有集合类别标签的第二集合来确定第一集合中目标数据的数据类别标签,从而可确定进行聚类操作后的第一集合的目标集合类别标签,达到了确定对目标数据进行聚类得到的各个集合的目标集合类别标签的目的,从而实现了提高聚类算法确定聚类类别的准确率的技术效果,进而解决了聚类算法确定聚类类别结果准确率较低的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图6所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,终端还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行目标集合类别标签的确定方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据;根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (7)

1.一种目标集合类别标签的确定方法,其特征在于,包括:
按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;
根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据,所述数据类别标签包括:性别、年龄、身高、体重、商品种类、商品价格、商品名称、上架时间;
根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签包括:根据所述数据类别标签和所述第一集合建立混淆矩阵,其中,所述混淆矩阵的行中的数据表示各个所述第一集合的标识、列中的数据表示各个所述第一集合中的各个所述目标数据的所述数据类别标签,所述混淆矩阵的数据区域中的各个数据表示所述第一集合中的每个所述目标数据的所述数据类别标签所占的比例;在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据,其中,所述目标条件是基于各个所述第二集合中包含的所述样本数据的比值确定的,任意两个所述目标数据所对应的行均不同;将每个所述目标数据所对应的行中的所述数据类别标签确定为对应的列中的所述第一集合的所述目标集合类别标签,其中,所述目标集合类别标签包括:用于向用户推荐的商品的商品名称;
在所述混淆矩阵的所述数据区域的多列中确定出满足所述目标条件的多个所述目标数据包括:确定各个所述第二集合所包含的所述样本数据的第一比例值;在所述混淆矩阵的所述数据区域的多列中确定出满足第二比例值的多个所述目标数据,其中,所述第二比例值与所述第一比例值的差值小于设定阈值。
2.根据权利要求1所述的方法,其特征在于,根据第二集合的所述集合类别标签确定所述第一集合中所述目标数据的所述数据类别标签包括:
确定每个所述第二集合的所述集合类别标签;
计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度,并确定所有相似度中的最大相似度值;
将与最大相似度值对应的所述集合类别标签确定为所述目标数据的所述数据类别标签。
3.根据权利要求2所述的方法,其特征在于,确定每个所述第二集合的所述集合类别标签包括:
按照目标集合数N对多个所述样本数据进行特征分析,得到N个所述第二集合,其中N为大于2的正整数;
根据所述第二集合中的各个所述样本数据的所述样本类别标签确定所述第二集合的所述集合类别标签。
4.根据权利要求2所述的方法,计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度包括:
计算每个所述目标数据与各个所述集合类别标签之间的欧式距离;
基于所述欧式距离确定各个所述目标数据与各个所述集合类别标签之间的相似度,其中,所述欧式距离越小则基于所述欧式距离确定的相似度越大。
5.一种目标集合类别标签的确定装置,其特征在于,包括:
聚类模块,用于按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;
第一确定模块,用于根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据,所述数据类别标签包括:性别、年龄、身高、体重、商品种类、商品价格、商品名称、上架时间;
第二确定模块,用于根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签,其中,所述目标集合类别标签包括:用于向用户推荐的商品的商品名称;
所述第二确定模块包括:
处理单元,用于根据所述数据类别标签和所述第一集合建立混淆矩阵,其中,所述混淆矩阵的行中的数据表示各个所述第一集合的标识、列中的数据表示各个所述第一集合中的各个所述目标数据的所述数据类别标签,所述混淆矩阵的数据区域中的各个数据表示所述第一集合中的每个所述目标数据的所述数据类别标签所占的比例;
第一确定单元,用于在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据,其中,所述目标条件是基于各个所述第二集合中包含的所述样本数据的比值确定的,任意两个所述目标数据所对应的行均不同;在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据包括:确定各个所述第二集合所包含的所述样本数据的第一比例值;在所述混淆矩阵的所述数据区域的多列中确定出满足第二比例值的多个所述目标数据,其中,所述第二比例值与所述第一比例值的差值小于设定阈值;
第二确定单元,用于将每个所述目标数据所对应的行中的所述数据类别标签确定为对应的列中的所述第一集合的所述目标集合类别标签。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至4任一项中所述的方法。
7.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至4任一项中所述的方法。
CN202011203745.XA 2020-11-02 2020-11-02 一种目标集合类别标签的确定方法和装置 Active CN112329838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011203745.XA CN112329838B (zh) 2020-11-02 2020-11-02 一种目标集合类别标签的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011203745.XA CN112329838B (zh) 2020-11-02 2020-11-02 一种目标集合类别标签的确定方法和装置

Publications (2)

Publication Number Publication Date
CN112329838A CN112329838A (zh) 2021-02-05
CN112329838B true CN112329838B (zh) 2024-02-02

Family

ID=74324120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011203745.XA Active CN112329838B (zh) 2020-11-02 2020-11-02 一种目标集合类别标签的确定方法和装置

Country Status (1)

Country Link
CN (1) CN112329838B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置
CN108053268A (zh) * 2017-12-29 2018-05-18 广州品唯软件有限公司 一种商品聚类确认方法及装置
CN108388929A (zh) * 2018-03-27 2018-08-10 四川大学 基于代价敏感和半监督分类的客户分类方法及装置
CN109214421A (zh) * 2018-07-27 2019-01-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置、及计算机设备
CN109522424A (zh) * 2018-10-16 2019-03-26 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN109816047A (zh) * 2019-02-19 2019-05-28 北京达佳互联信息技术有限公司 提供标签的方法、装置、设备及可读存储介质
CN110019774A (zh) * 2017-08-23 2019-07-16 腾讯科技(深圳)有限公司 标签分配方法、装置、存储介质及电子装置
CN110276382A (zh) * 2019-05-30 2019-09-24 平安科技(深圳)有限公司 基于谱聚类的人群分类方法、装置及介质
CN110399564A (zh) * 2019-07-23 2019-11-01 腾讯科技(深圳)有限公司 帐号分类方法和装置、存储介质及电子装置
CN110413856A (zh) * 2019-08-05 2019-11-05 腾讯科技(深圳)有限公司 分类标注方法、装置、可读存储介质及设备
CN111598120A (zh) * 2020-03-31 2020-08-28 宁波吉利汽车研究开发有限公司 数据标注方法、设备及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805836B2 (en) * 2008-08-29 2014-08-12 Fair Isaac Corporation Fuzzy tagging method and apparatus
US10489722B2 (en) * 2017-07-27 2019-11-26 Disney Enterprises, Inc. Semiautomatic machine learning model improvement and benchmarking
US11410029B2 (en) * 2018-01-02 2022-08-09 International Business Machines Corporation Soft label generation for knowledge distillation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置
CN110019774A (zh) * 2017-08-23 2019-07-16 腾讯科技(深圳)有限公司 标签分配方法、装置、存储介质及电子装置
CN108053268A (zh) * 2017-12-29 2018-05-18 广州品唯软件有限公司 一种商品聚类确认方法及装置
CN108388929A (zh) * 2018-03-27 2018-08-10 四川大学 基于代价敏感和半监督分类的客户分类方法及装置
CN109214421A (zh) * 2018-07-27 2019-01-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置、及计算机设备
CN109522424A (zh) * 2018-10-16 2019-03-26 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN109816047A (zh) * 2019-02-19 2019-05-28 北京达佳互联信息技术有限公司 提供标签的方法、装置、设备及可读存储介质
CN110276382A (zh) * 2019-05-30 2019-09-24 平安科技(深圳)有限公司 基于谱聚类的人群分类方法、装置及介质
CN110399564A (zh) * 2019-07-23 2019-11-01 腾讯科技(深圳)有限公司 帐号分类方法和装置、存储介质及电子装置
CN110413856A (zh) * 2019-08-05 2019-11-05 腾讯科技(深圳)有限公司 分类标注方法、装置、可读存储介质及设备
CN111598120A (zh) * 2020-03-31 2020-08-28 宁波吉利汽车研究开发有限公司 数据标注方法、设备及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Genetic Algorithm and Confusion Matrix for Document Clustering;A. K. Santra等;《IJCSI International Journal of Computer Science Issues》;第1-7页 *
基于聚类与分类结合的多示例预测算法研究;顾世忍;《万方数据》;第1-55页 *

Also Published As

Publication number Publication date
CN112329838A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN110782318A (zh) 基于音频交互的营销方法、装置以及存储介质
KR20100039773A (ko) 신상품 추천문제 해결을 위한 내용기반 필터링과 협업 필터링을 혼합한 사용자 프로파일 기반 이미지 추천 방법 및 장치
CN113127633B (zh) 智能会议管理方法、装置、计算机设备及存储介质
CN109961080B (zh) 终端识别方法及装置
CN111178949B (zh) 服务资源匹配参考数据确定方法、装置、设备和存储介质
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN115982463A (zh) 资源推荐方法、装置、设备及存储介质
CN108770002A (zh) 基站流量分析方法、装置、设备及存储介质
CN117459575A (zh) 业务数据推送方法、装置、计算机设备和存储介质
CN111538909A (zh) 一种信息推荐方法及装置
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN117217710B (zh) 一种虚拟商品与快捷服务的智能化管理方法及***
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN112329838B (zh) 一种目标集合类别标签的确定方法和装置
CN111782774B (zh) 一种问题推荐的方法及装置
CN111460113A (zh) 一种数据交互方法及相关设备
CN113448876B (zh) 一种业务测试方法、装置、计算机设备及存储介质
CN116955788A (zh) 一种内容处理的方法、装置、设备、存储介质及程序产品
CN113076450B (zh) 一种目标推荐列表的确定方法和装置
CN114330519A (zh) 数据确定方法、装置、电子设备及存储介质
CN110826582B (zh) 图像特征训练方法、装置和***
CN111681057A (zh) 信息投放的媒体资源的处理方法及装置
CN112819078B (zh) 一种图片识别模型的迭代方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant