CN114358102A - 数据分类方法、装置、设备及存储介质 - Google Patents
数据分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114358102A CN114358102A CN202111060489.8A CN202111060489A CN114358102A CN 114358102 A CN114358102 A CN 114358102A CN 202111060489 A CN202111060489 A CN 202111060489A CN 114358102 A CN114358102 A CN 114358102A
- Authority
- CN
- China
- Prior art keywords
- data
- distance
- classified
- classification
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种数据分类方法、装置、设备及存储介质。该方法包括:获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;根据所述样本距离集,得到分类距离阈值;根据所述分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,所述待分类数据集合包括所述样本数据集。通过采用本申请的上述分类方法,可以实现根据分类距离阈值对待分类数据集进行聚类时,根据待分类数据集合中待分类数据的分布情况动态确定类别集合的个数,以得到多个类别集合,进而能够有效提高数据分类的准确性。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种数据分类方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,互联网中出现了大量的数据(如新闻、短视频、短文、评论或用户特征等等),有效的对上述数据进行分类,可以有助于了解当前的流行趋势,以更好的对用户的兴趣进行分析。
现有的数据聚类技术主要为针对全部数据直接聚类,如基于结构化文本进行聚类方法、K-Means法、层次聚类法和自组织映射聚类等。但上述算法的复杂度较高,导致对文本的聚类效率较低。
发明内容
有鉴于此,本申请实施例提出了一种数据分类方法、装置、设备及存储介质,可以实现数据分布情况动态确定类别集合的个数,进而能够有效提高数据分类的准确性。
第一方面,本申请实施例提供了一种数据分类方法,所述方法包括:获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;根据所述样本距离集,得到分类距离阈值;根据所述分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,所述待分类数据集合包括所述样本数据集。
第二方面,本申请实施例提供了一种数据分类装置,包括距离获取模块、阈值获得模块以及数据分类模块。距离获取模块,用于获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;阈值获得模块,用于根据所述样本距离集,得到分类距离阈值;数据分类模块,用于根据所述分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,所述待分类数据集合包括所述样本数据集。
在一种可能的实施方式中,数据分类模块还用于在从所述待分类数据集合中获取到目标待分类数据时,计算所述目标待分类数据与每个所述类别集合之间的距离;并在存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值时,将所述目标待分类数据存放至该类别集合;以及在不存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值时,新建一类别集合,并将所述目标待分类数据存入所述新建的类别集合中,得到多个类别集合。
在一种可能的实施方式中,所述数据分类模块还用于在不存在类别集合时,新建一类别集合,并将从所述待分类数据集合中获取的目标待分类数据存入该类别集合中,以及用于在存在类别集合时计算所述目标待分类数据与每个所述类别集合之间的距离。
在一种可能的实施方式中,所述数据分类模块包括特征值获得子模块和第一距离获得子模块。所述特征值获得子模块,用于根据所述类别集合中包括的待分类数据的特征值,得到所述类别集合对应的特征值;所述第一距离获得子模块,用于根据所述目标待分类数据的特征值和所述类别集合对应的特征值,得到所述目标待分类数据与所述类别集合之间的距离。
在一种可能的实施方式中,特征值获得子模块还用于对所述类别集合中包括的待分类数据的特征值求取均值,得到该类别集合对应的特征值。
在一种可能的实施方式中,所述装置还包括特征值更新模块,特征值更新模块用于根据所述目标待分类数据的特征值,更新该目标待分类数据所属类别集合对应的特征值。
在一种可能的实施方式中,所述数据分类模块还包括类别集合获取子模块、第二距离计算子模块以及分类子模块。所述类别集合获取子模块用于按照各类别集合的优先级顺序,从各类别集合中获取优先级最高的类别集合;第二距离计算子模块用于计算所述优先级最高的类别集合与所述待分类数据之间的距离;分类子模块,用于在计算得到的距离小于所述分类距离阈值时,确认存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,并将目标待分类数据存放至该类别集合;分类子模块,还用于在计算得到的距离不小于所述分类距离阈值,则从所述优先级顺序中删除优先级最高的类别集合,得到更新后的各类别集合的优先级顺序,并在不存在优先级最高的类别集合时,确认不存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,并新建一类别集合,并将所述目标待分类数据存入该类别集合中。
在一种可能的实施方式中,所述数据分类模块,还用于在存在至少两个类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值时,将所述目标待分类数据存放至与目标待分类数据之间的距离为最小的类别集合;以及用于在存在一个类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值时,将所述目标待分类数据存放至该类别集合。
在一种可能的实施方式中,阈值获得模块包括曲线拟合子模块和阈值获得子模块。曲线拟合子模块,用于利用高斯混合模型拟合函数对所述样本距离集中包括的距离进行拟合,得到概率密度函数曲线;阈值获得子模块,用于获取所述概率密度函数曲线中概率取值满足指定条件时对应的目标距离,根据所述目标距离得到分类距离阈值。
在一种可能的实施方式中,阈值获得子模块,还用于获取所述概率密度函数曲线中,概率取值为最小值时对应的目标距离,将所述目标距离作为所述分类距离阈值。
在一种可能的实施方式中,距离获取模块包括特征值获取子模块和距离获取子模块。特征值获取模块用于获取样本数据集中每个样本数据的特征值;距离获取子模块,用于计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集。
在一种可能的实施方式中,距离获取子模块,还用于利用曼哈顿距离计算式,计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集。
第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行上述的方法。
第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
本申请实施例提供的一种数据分类方法、装置、设备及存储介质,通过获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;根据样本距离集,得到分类距离阈值;根据分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,待分类数据集合包括样本数据集,可以实现依据根据分类距离阈值和待分类数据集合中的待分类数据的分布情况动态确定类别集合的个数,进而能够有效提高数据分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的数据分类***的***架构示意图;
图2示出了本申请实施例提出的一种数据分类方法的流程示意图;
图3示出了本申请实施例提出的一种概率密度曲线的示意图;
图4示出了本申请实施例提供的一种分类结果的示意图;
图5示出了本申请实施例提供的另一种数据分类方法的流程示意图;
图6示出了图5中步骤S230的流程示意图;
图7示出了图5中步骤S230的另一流程示意图;
图8示出了本申请实施例提出的又一种数据分类方法的流程示意图;
图9示出了本申请实施例提供的一种数据分类装置的连接框图;
图10示出了用于执行本申请实施例的方法的电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
近年来,随着互联网的快速发展,人们的日常生活更加依赖网络。同时,也产生了海量的业务数据。如用户画像数据、视频特征数据、图像特征数据、文档特征数据、用户位置数据、汽车保险类数据以及网页访问数据等等,对于这些数据,通常需要按照一定的标准进行划分,以使划分得到的同一集合中的数据相似度尽可能的较大。
以用户画像数据为例,在用户画像标签模型构建过程中,提取用户特征并将特征数据标准化之后,有很多基于聚类进行标签构建的场景,比如促销敏感度聚类、评论敏感度聚类、用户忠诚度聚类等,在相应用户特征下,把用户集分成不同的类或簇,使得同一个簇内的用户特征相似性尽可能大或特征距离尽可能小,同时不在同一个簇中的用户特征差异性也尽可能地大。
目前,常采用的分类方式通常是K均值聚类(k-means算法),由于K-means算法能根据较少的已知聚类样本的类别对树进行剪枝确定部分样本的分类,此外,该算法本身具有优化迭代功能,在已经求得的聚类上再次进行迭代修正剪枝确定部分样本的聚类,优化了初始监督学习样本分类不合理的地方,可以克服少量样本聚类的不准确性,因此被广泛应用。
在利用k-means算法进行聚类时,首先会设定参数k,然后将事先输入的n个数据对象划分为k个聚类以使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。k-means算法基本步骤包括:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;(3)重新计算每个有变化聚类的均值(中心对象);(4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2)。
发明人经研究发现,目前采用的K-means算法进行聚类时,聚类中心的个数k需要事先给定,但在实际中这个k值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;其次,在K-means算法中,需要人为地确定初始聚类中心,根据初始聚类中心来确定一个初始划分,不同的初始聚类中心可能导致完全不同的聚类结果,一旦初始聚类中心选择的不好,可能无法得到有效的聚类结果;更进一步的,K-means算法对异常值敏感,不能检测出离群点,而离群点有时对聚类中心的准确率有很大影响;且在采用K-means算法进行聚类时,需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,收敛较慢且O(knt)的聚类时间复杂度较高,当数据量非常大时,算法的时间开销非常大,且聚类过程中,需要多次扫描全部的待分类数据。
有鉴于此,本申请实施例提供了一种数据分类方法,方法通过获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;根据样本距离集,得到分类距离阈值;根据分类距离阈值,对待分类数据集合中的待分类数据(业务数据)进行聚类,得到多个类别集合,待分类数据集合包括样本数据集。通过采用上述分类方法,可以实现对待分类数据集合中的待分类数据进行聚类时,无需人为确定定初始聚类中心,也无需确认分类个数,而是在计算得到分类距离阈值后,根据分类距离阈值对待分类数据集进行聚类得到的多个类别集合,可以避免在初始聚类中心选取失误的情况下对最终聚类结果的不良影响。
图1示出了可以应用本发明实施例的技术方案的示例性***架构的示意图。
如图1所示,***架构可以包括服务器和终端设备(其中,终端设备可以是配置有摄像组件的智能手机、平板电脑和便携式计算机中的一种或多种,当然也可以是配置有摄像组件的台式计算机、电视机等等)。终端设备和服务器可以通过网络连接,也即,网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。
在本发明的一个实施例中,用户可以通过终端设备向服务器发送对业务数据进行分类处理的数据处理请求,该数据处理请求中可以包含待处理的业务数据,或者是业务数据的地址。服务器在接收到该数据处理请求后,便可以提取业务数据,并对其执行如上述数据分类方法中包括的分类步骤对提取到的业务数据进行聚类,得到包括多个类别集合的分类结果并返回终端。
需要说明的是,本发明实施例所提供的数据分类方法一般由服务器执行,相应地,数据分类装置一般设置于服务器中。但是,在本发明的其它实施例中,终端设备也可以与服务器具有相似的功能,协作执行本发明实施例所提供的数据分类方法。
下面将结合附图具体描述本申请的各实施例。
请参阅图2,图2所示为本申请一实施例提出的数据分类方法,该方法可以应用于如图1所示的电子设备,方法包括:
步骤S110:获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离。
其中,样本数据数据集是指由多个样本数据构成的集合,也即该样本数据集中包括多个样本数据。每个样本数据可以是指某一目标的特征数据,如可以是用户的特征数据,视频的特征数据、图像的特征数据或文档的特征数据等等。上述的特征数据具体可以是属性信息,相应的,样本数据集可以包括多个不同用户的属性信息,也可以包括多个不同视频的属性信息,也可以包括多个图像的属性信息,还可以包括多个文档的属性信息等。应当理解,上述的特征数据还可以是某一属性的特征值。
示例性地,若样本数据集中包括的样本数据为用户的属性信息,则样本数据具体可以包括用户的年龄、性别、资产信息、收入信息或者工作状态等等特征数据中的一种或多种。若样本数据为文件(如视频、文档或新闻)的属性信息,则样本数据具体可以包括文件的评分、类别、所需浏览时长、点击量、点赞量以及评论量等特征数据中的一种或多种。若样本数据为图像的属性信息,则样本数据具体可以包括图像的类别(如人物、动物、植物、食物以及建筑等)、主颜色以及清晰度等特征数据中的一种或多种。
样本距离集中的样本数据可以是从待分类数据集中随机选取的设定数量的待分类数据,也可以是待分类数据集接收到的由数据***产生的前设定数量的待分类数据。上述的设定数量可以是100、200或500等任意数量,根据实际需求进行设置即可。
上述的数据***可以是任意能够产生需要进行数据分类的***,例如,数据***可以是银行***、选址定位***(用于寻找潜在市场的***)、汽车保险***以及网页浏览***等等,相应的样本数据可以是用户画像数据、用户位置数据、汽车保险类数据以及网页访问数据等等预先存储在数据***对应的数据库中的历史数据,也可以是数据***运行中产生的实时数据。
在一种可实施方式中,样本距离集的获得方式可以是:针对每个样本数据,计算该样本数据与样本距离集中除该样本数据外的剩余样本数据之间的距离,如此可以得到每两个样本数据之间的距离,也即得到包括每两个样本数据之间的距离的样本距离集。
考虑到样本数据可以是指某一目标的特征信息,因此,在获得样本距离集时,可以具体获取每个样本数据的特征信息对应的特征值,并根据各样本数据对应的特征值得到每两个样本数据之间的距离值。
因此,样本距离集中每两个样本数据之间的距离的获得方式具体可以是:获取样本数据中每个样本数据的特征值,并计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集。
在另一种可实施方式中,样本距离集中每两个样本数据之间的距离的获得方式可以是:基于每个样本数据对应的特征数据获得该样本数据对应的特征向量,并对该特征向量利用距离计算式进行距离计算,以得到每两个样本数据之间的距离。
上述的距离计算式可以是欧式距离计算式,也可以是曼哈顿距离计算式,还可以是马氏距离计算式等。
考虑到不同的特征对于数据分类的影响不同,在本实施例中,上述计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集的方式还可以是,基于不同特征对应的权重系数计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离。
其中,样本数据的特征值具体可以是指对样本数据中的属性信息进行参数化处理后得到的值。
步骤S120:根据样本距离集,得到分类距离阈值。
其中,根据样本距离集得到样本距离阈值的方式可以有多种。
在一种可实施方式中,可以利用对样本距离集进行均值计算的方式计算得到样本距离阈值。
在该种方式下,具体可以对样本距离集的各距离求取均值,并将求取得到的均值作为分类距离阈值。也可以对样本距离集中的各距离求取均值,并将求取得到的均值与一预设系数相乘得到分类距离阈值,其中,该预设系数可以是基于用户预先设置获得,可以是0.9、0.95、0.98、1.02等任意常数。还可以是从样本距离集中选取距离中间距离值在预设距离范围内距离值,并选取的距离值求取均值得到目标距离值,并对目标距离值求取均值,以根据求取的均值得到分类距离阈值。
在另一种可实施方式中,也可以是利用高斯混合模型拟合函数对样本距离集中包括的距离进行拟合,得到概率密度函数曲线;获取概率密度函数曲线中概率取值满足指定条件时对应的目标距离,根据目标距离得到分类距离阈值。
在该种方式下,上述的高斯混合模型可以是二维的高斯混合模型。上述获取概率取值满足指定条件时对应的目标距离具体可以是获取概率取值为最小时对应的目标距离,也可以是从取值为概率密度函数曲线中小于预设值的点对应的距离中确认一目标距离作为分类距离阈值。
其中,二维混合高斯模型是单一高斯概率密度函数的延伸。例如:有一批观察数据集合X,数据集合X中包括n个数据,也即X={x1,x2,...,xn},在相应d维空间中的分布如果不是椭球状,那么就不适合以一个单一的高斯密度函数来描述这些数据点的概率密度函数。此时,假设每个点均由一个单高斯分布生成(具体参数未知),而这一批数据共由两个单高斯模型生成,具体某个数据xi属于哪个单高斯模型未知,且每个单高斯模型在混合模型中占的比例αj未知,将所有来自不同分布的数据点混在一起,该分布称为二维高斯混合分布。
如图3所示,是利用高斯混合模型拟合函数对样本距离集中包括的距离进行拟合,得到概率密度函数曲线,该概率密度曲线的横坐标为距离,纵坐标为数量值,也即在该距离取值下对应的样本数量。
如图3中的A点所示,A点的横坐标为概率密度函数曲线中的极小值的点对应的目标距离,也即二维混合高斯分布的概率密度函数曲线的极小值点的横坐标可作为聚类的距离阈值。可以简单理解为类内距离集合服从一个均值小方差大的正态分布,类间距离集合服从一个均值大方差小的正态分布,两个正太分布的概率密度函数曲线的交点即为极小值点。
步骤S130:根据分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,待分类数据集合包括样本数据集。
作为一种可实施方式,根据分类距离阈值对待分类数据集合进行聚类得到多个类别集合的方式可以是,从待分类数据集合中选取至少两个待分类数据,该至少两个待分类数据中每两个待分类数据之间的距离均大于分类距离阈值,并基于该至少两个待分类数据分别建立至少两个类别集合,其中,每个类别集合分别对应存储一个待分类数据。后续针对获取到的待分类数据,计算该待分类数据与每个类别集合的中心之间的距离,并将计算得到的距离与待分类距离阈值进行比较,若存在与类别集合之间的距离小于分类距离阈值,则将待分类数据存储至该类别集合,若不存在,则新建一类别集合并将待分类数据存储至该新建的类别集合中,并返回对获取到的待分类数据计算待分类数据与每个类别集合的中心之间的距离的步骤。
作为另一种可实施方式,根据分类距离阈值对待分类数据集合进行聚类得到多个类别集合的方式还可以是:从待分类数据集合中选取一待分类数据作为聚类中心,将与到该聚类中心之间的距离小于分类距离阈值的待分类数据作为一类别集合,待分类数据集合中除类别集合之外的数据作为新的待分类数据集合,并返回执行从待分类数据集合中选取任意一待分类数据作为聚类中心的步骤,直至对待分类数据集合中的所有数据完成分类,以得到多个类别集合。
在该种方式下,上述从待分类数据及中选取一待分类数据作为聚类中心的方式可以是,从待分类数据集合中随机选取一待分类数据;也可以是,基于待分类数据的特征数量(N)建立N维坐标系,以得到各待分类数据在N维坐标系中的位置,以根据各待分类数据在N维坐标系中的位置确定一目标待分类数据,该目标待分类数据在N维坐标系中的位置为数据分布密度最高的区域中的位置。
如图4所示,是依据图3中获得的分类距离阈值对分类数据集中的多个待分类数据进行分类得到的分类结果,从图中可以看出,各类别集合(如图1中的类别集合1、类别集合2以及类别集合3)之间的类间距离较大,且通常大于所述分类距离阈值,同一类别集合(如类别集合1、类别集合2或者类别集合3)中的各数据之间的类内距离较小通常小于分类距离阈值。
通过采用本申请的数据分类方法,获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;根据样本距离集,得到分类距离阈值;根据分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,待分类数据集合包括样本数据集。可以实现依据数据分布情况动态确定类别集合的个数,进而能够有效提高数据分类的准确性。
请参阅图5,本申请实施例提供了一种数据分类方法,方法包括以下步骤:
步骤S210:获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离。
步骤S220:根据样本距离集,得到分类距离阈值。
步骤S230:若从待分类数据集合中获取到目标待分类数据,计算目标待分类数据与每个类别集合之间的距离。
应当理解,上述计算目标待分类数据与每个类别集合之间的距离的步骤,应当是在电子设备中存类别集合时执行。
在一种可实施方式中,计算目标待分类数据与每个类别集合之间的距离的方式可以是:针对每个类别集合,计算目标待分类数据与该类别集合中包括的所有待分类数据之间的距离,并根据各距离得到目标待分类数据与该类别集合之间的距离。
在该种实施方式下,根据各距离得到目标待分类数据与该类别集合之间的距离的方式可以是:对各距离求取均值得到目标待分类数据与该类别集合之间的距离。还可以是:对各距离进行排序,选取排序后位于中间的距离值,作为目标待分类数据与该类别集合之间的距离。
在另一种可实施方式中,计算目标待分类数据与每个类别集合之间的距离的方式还可以是,针对每个类别集合,基于该类别集合中各待分类数据的特征确定一目标特征,并计算该目标特征与目标待分类数据的特征之间的距离,该距离即为目标待分类数据与该类别集合之间的距离。
也即,请参阅图6,在该种实施方式下,上述步骤S230包括:
步骤S231:根据类别集合中包括的待分类数据的特征值,得到类别集合对应的特征值。
在该种实施方式下,基于类别集合中的待分类数据的特征得到类别集合对应的特征值的方式可以是,对类别集合中的待分类数据的特征求取均值,该均值即为类别集合对应的特征值。也可以是:从类别集合中的待分类数据的特征中选取出现频率最高的特征值,即为类别集合对应的特征值。还可以是:对类别集合中的待分类数据的特征进行参数化处理,并对参数化处理后的每个待分类数据的各特征进行加权求和后得到每个待分类数据对应的加权数值,并从加权数值中选取出现频率最高的目标数值,将该目标数值对应的各待分类数据的特征求取均值,得到类别集合对应的特征值。
在一种可实施方式中,上述步骤S231具体可以是:对类别集合中包括的待分类数据的特征值求取均值,得到该类别集合对应的特征值。
步骤S232:根据目标待分类数据的特征值和类别集合对应的特征值,得到目标待分类数据与类别集合之间的距离。
其中,上述步骤S232具体可以是:对目标待分类数据的特征值和类别集合对应的特征值利用距离计算式进行计算,得到目标待分类数据与类别集合之间的距离。其中,上述的距离计算式可以是欧式距离计算式,也可以是曼哈顿距离计算式,还可以是马氏距离计算式等。
应当理解,上述的样本数据之间的距离和目标待分类数据与类别集合之间的距离所采用的距离计算式相同。
示例性地,在本实施例中,当样本数据之间的距离为曼哈顿距离时,目标待分类数据与类别集合之间的距离也为曼哈顿距离。对于具有n种特征值的待分类数据(n维待分类数据),两个待分类数据x和y之间的曼哈顿距离计算方法如下:
其中r=1。若把上述公式中的r置为2,则为欧氏距离的计算方法,也即欧式距离需要计算平方和与平方根,都是速度较慢的计算方法。本申请通过采用曼哈顿距离只需进行简单的数值加减操作,其计算复杂度要大大低于欧氏距离的计算复杂度,从而大大减少计算开销,提高数据聚类的性能和速度。
步骤S240:检测是否存在类别集合与目标待分类数据之间的距离小于分类距离阈值。
其中,在存在类别集合与目标待分类数据之间的距离小于分类距离阈值时,则可以认为该类别集合中的数据与目标待分类数据之间的数据存在相似性或一致性,属于同一类别的数据。若不存在类别集合与目标待分类数据之间的距离小于分类距离阈值时,则可以认为,该目标待分类数据与已未完成分类的数据不具备相似性或一致性。
在一种可实施方式中,在检测是否存在类别集合与目标待分类数据之间的距离小于分类距离阈值,可以是在完成计算对一个待分类集合与目标待分类数据之间的距离后,检测计算得到的距离是否小于分类阈值,并在检测结果为是时,确认存在类别集合与目标待分类数据之间的距离小于分类距离阈值并执行后续分类的步骤。
上述检测是否存在类别集合与目标待分类数据之间的距离小于分类距离阈值,还可以是在完成对计算得到所有目标类别集合与目标待分类数据之间的距离后,分别将计算得到的距离与分类距离阈值进行比较,以确认是否存在类别集合与目标待分类数据之间的距离小于分类距离阈值。
若存在类别集合与目标待分类数据之间的距离小于分类距离阈值,执行步骤S250:将目标待分类数据存放至该类别集合,返回执行步骤S230:若从待分类数据集合中获取到目标待分类数据,计算目标待分类数据与每个类别集合之间的距离。
若不存在类别集合与目标待分类数据之间的距离小于分类距离阈值,执行步骤S260:新建一类别集合,并将目标待分类数据存入新建的类别集合中,得到多个类别集合,返回执行步骤S230:若从待分类数据集合中获取到目标待分类数据,计算目标待分类数据与每个类别集合之间的距离的步骤。
在一种可实施方式中,请参阅图7,上述步骤S230:计算目标待分类数据与每个类别集合之间的距离,具体可以包括:
步骤S234:按照各类别集合的优先级顺序,从各类别集合中获取优先级最高的类别集合。
其中,各类别集合的优先级顺序可以是基于类别集合的生成时刻来确认,也即,类别集合生成时刻越早,则该类别集合的优先级越高。各类别集合的优先级顺序也可以是基于各类别集合中包括的数据量来确认,也即,类别集合中包括数据越多,则该类别集合的优先级越高。
步骤S235:计算优先级最高的类别集合与待分类数据之间的距离。
关于类别集合与待分类数据之间的距离计算,可以参阅前文的描述,此处步骤一一赘述。
步骤S236:检测计算得到的距离是否小于分类距离阈值。
若计算得到的距离小于分类距离阈值,确认存在类别集合与目标待分类数据之间的距离小于分类距离阈值,并执行S250。
若计算得到的距离不小于分类距离阈值,则执行步骤S237:从优先级顺序中删除优先级最高的类别集合,得到更新后的各类别集合的优先级顺序,并返回执行步骤S234,直至不存在优先级最高的类别集合时,确认不存在类别集合与目标待分类数据之间的距离小于分类距离阈值,并执行步骤S260:新建一类别集合,并将目标待分类数据存入该类别集合中。
在另一种实施方式中,若上述步骤S240是在完成对计算得到所有目标类别集合与目标待分类数据之间的距离后,分别将计算得到的距离与分类距离阈值进行比较,则可能存在至少一个(如两个或三个)类别集合与目标待分类数据之间的距离小于分类距离阈值的情况,因此,上述步骤S250具体可以是:若存在至少两个类别集合与目标待分类数据之间的距离小于分类距离阈值,将目标待分类数据存放至与目标待分类数据之间的距离为最小的类别集合;若存在一个类别集合与目标待分类数据之间的距离小于分类距离阈值,将目标待分类数据存放至该类别集合。
示例性的,以对目标待分类数据a1进行分类时,存在类别集合A1、A2以及A3,且A1、A2以及A3的优先级依次降低为例进行说明。
在对目标待分类数据a1进行分类时,获取优先级最高的类别集合A1,计算目标待分类数据a1与类别集合A1之间的距离,若该距离小于分类距离阈值,则将a1存入至类别集合A1,若该距离不小于分类距离阈值时,则从优先级顺序中删除类别集合A1得到更新后的优先级顺序。从更新后的优先级顺序中优先级最高的类别集合A2,并计算a1与类别集合A2之间的距离,若该距离小于分类距离阈值,则将a1存入至类别集合A2,若不小于分类距离阈值时,按照与上述相似的方式,继续从优先级顺序中删除A2得到更新后的优先级顺序,并从更新后的优先级顺序中优先级最高的类别集合A3,并继续计算目标待分类数据a1与类别集合A3之间的距离,若该距离小于分类距离阈值,则将a1存入至类别集合A3,若不小于分类距离阈值时,从优先级顺序中删除集合A3得到更新后的优先级顺序,此时,更新后的优先级顺序中已不存在优先级最高的类别集合,因此,需新建一类别集合A4,并将目标待分类数据存入至类别集合A4。
在完成对a1的分类后,若需要对从待分类数据集合中获取到的新的待分类数据a2进行分类,则此时存在的类别集合包括A1、A2、A3以及A4,若类别集合A1、A2、A3以及A4优先级顺序依次降低,且需要对到的目标待分类数据a2进行分类时,可以采用与目标待分类数据a1相似方式进行比较划分,先计算目标待分类数据a2与类别集合A1之间的距离并与分类距离阈值进行比较,若小于分类距离阈值,则将目标待分类数据a2存入至类别集合A1,若不小于分类阈值,则计算目标待分类数据a2与类别集合A2之间的距离,以此类推即可完成对待分类数据a2的分类,同样的,采用类似的分类方式,可以完成对所有的待分类数据的分类。
在完成对目标待分类数据的分类之后,即在将目标待分类数据存入至类别集合后,方法还包括:
根据目标待分类数据的特征值,更新该目标待分类数据所属类别集合对应的特征值。
其中,根据目标待分类数据的特征值,更新该目标待分类数据所属类别集合对应的特征值的方式可以是,对目标待分类数据所属该类别集合中包括的所有待分类数据的特征值求取均值,得到更新后的与该目标待分类数据所属类别集合对应的特征值。更新该目标待分类数据所属类别集合对应的特征值的方式还可以是,从加入目标待分类数据后得到的类别集合中的待分类数据的特征中选取出现频率最高的特征值,作为类别集合更新后的特征值。
通过更新目标待分类数据所属类别集合对应的特征值,可以使后续分类过程中得到的基于更新后的特征值计算得到的距离进行分类时更可靠。
通过采用上述步骤S210-S250,在根据样本距离集,得到分类距离阈值后,在对待分类数据集合中获取到的目标待分类数据进行分类时,若不存在类别集合则新建类别集合并将该目标待分类存入至该类别集合,以及在存在类别集合时,根据目标待分类数据与该类别集合之间的距离确认是否需要新建类别集合或直接划分,从而可实现在对待分类数据集合中的待分类数据进行聚类时,无需人为确定定初始聚类中心,而是通过自动分析数据分布情况智能决定聚类个数,同时避免了在初始聚类中心选取失误的情况下对最终聚类结果的不良影响。相对于其它聚类算法,通常情况下使用本算法聚类完成后所生成的类别较多,这是因为有一些类别所包含的数据点个数很少,在多数场景下上可将这些类别视为离群点类别,这样就产生了自动检测离群点的效果,而包含数据点较多的类别才作为有实际意义的类别。此外,本申请在确定距离阈值之后,在进行分类过程中,无须迭代,扫描一遍数据即可完成聚类,因此,本方案还可以用于即对实时数据进行聚类,使得算法应用范围更广。
请参阅图8所示,示例性的,以待分类数据为银行***中的用户画像数据,且用户画像数据具体包括用户资产信息、用户薪资信息以及用户的消费水平信息这三种特征信息进行分类为例进行说明。
在对用户画像数据进行聚类时,具体可以执行以下步骤:
步骤S301:获取样本用户画像数据的特征值。
具体的,可以获取银行***对应的待分类数据集合中存储的样本用户画像数据,并对用户画像数据中的特征信息分别进行参数化处理,以得到样本用户画像数据对应的特征值。
其中,不同的特征信息对应的参数值应当不同,例如用户A具有a市2套房产、年收入20万、月均消费1万,则用户A的特征值可以是(4,2,2),用户B具有b县城2套房产、年收入50万、月均消费2万,则用户B的特征值可以是(1,5,3),用户C不具有房子,年收入20万、月均消费0.3万,则用户C的特征值可以是(0,2,0.4)。
步骤S302:利用曼哈顿距离计算式,计算得到包括每两个样本用户画像数据之间的距离的样本距离集。
具体的,可以是利用曼哈顿距离计算式,计算每个样本用户画像数据的特征值与该样本用户画像数据对应的剩余样本用户画像数据中每个样本用户画像数据的特征值之间的距离,得到包括每两个样本用户画像数据之间的距离的样本距离集。
步骤S303:对样本距离集进行高斯拟合得到一曲线。
具体的,可以利用高斯混合模型拟合函数对样本距离集中包括的距离进行拟合,得到概率密度函数曲线。
步骤S304:获取曲线中的最小值作为分类距离阈值。
具体的,可以获取概率密度函数曲线中概率取值为最小时对应的目标距离,根据目标距离得到分类距离阈值。
在对待分类用户画像数据进行分类时,可以执行步骤S305:从待分类数据集合中获取到目标待分类用户画像数据;以及执行步骤S306:检测是否存在类别集合。
若不存在类别集合,则执行步骤S307:新建一类别集合,并将目标待分类用户画像数据存储至该新建的类别集合中,并返回执行步骤S305:从待分类数据集合中获取目标待分类用户画像数据。
若存在类别集合,则执行步骤S308:按照各类别集合的建立顺序从各类别集合中获取优先级最高的类别集合,并计算优先级最高的类别集合与待分类数据之间的距离。
步骤S309:检测计算得到的优先级最高的类别集合与待分类数据之间的距离是否小于分类距离阈值。
若计算得到的距离小于分类距离阈值,确认存在类别集合与目标待分类用户画像数据之间的距离小于分类距离阈值,并执行步骤S310:将目标待分类用户画像数据存放至该类别集合。
若计算得到的距离不小于分类距离阈值,执行步骤S311:从优先级顺序中删除优先级最高的类别集合,得到更新后的各类别集合的优先级顺序。并返回执行步骤S308:按照各类别集合的优先级顺序,从各类别集合中获取优先级最高的类别集合的步骤,直至不存在优先级最高的类别集合时,可以确认不存在类别集合与目标待分类用户画像数据之间的距离小于分类距离阈值,执行新建一类别集合,并将目标待分类用户画像数据存入该类别集合中。
在将目标待分类用户画像数据存入至类别集合后,执行步骤S312:根据目标待分类用户画像数据的特征值,更新该目标待分类用户画像数据所属类别集合对应的特征值,并返回执行步骤S306:从待分类数据集合中获取到目标待分类用户画像数据的步骤,直至对待分类集合中的所有待分类数据均完成分类后,实现了将待分类数据集中的所有待分类用户画像数据的聚类任务。
请参阅图9,本申请提供了一种数据分类装置400,数据分类装置400包括距离获取模块410、阈值获得模块420以及数据分类模块430。
距离获取模块,用于获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离。
其中,距离获取模块410包括特征值获取子模块和距离获取子模块。
特征值获取模块用于获取样本数据集中每个样本数据的特征值;距离获取子模块,用于计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集。
在该种实施方式下,距离获取子模块,还用于利用曼哈顿距离计算式,计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集。
阈值获得模块420,用于根据样本距离集,得到分类距离阈值。
其中,阈值获得模块420包括曲线拟合子模块和阈值获得子模块。
曲线拟合子模块,用于利用高斯混合模型拟合函数对样本距离集中包括的距离进行拟合,得到概率密度函数曲线。阈值获得子模块,用于获取概率密度函数曲线中概率取值满足指定条件时对应的目标距离,根据目标距离得到分类距离阈值。
在一种实施方式中,阈值获得子模块,还用于获取概率密度函数曲线中,概率取值为最小值时对应的目标距离,将目标距离作为分类距离阈值。
数据分类模块430,用于根据分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,待分类数据集合包括样本数据集。
在一种可实施方式中,数据分类模块430还用于在从待分类数据集合中获取到目标待分类数据时,计算目标待分类数据与每个类别集合之间的距离;并在存在类别集合与目标待分类数据之间的距离小于分类距离阈值时,将目标待分类数据存放至该类别集合;以及在不存在类别集合与目标待分类数据之间的距离小于分类距离阈值时,新建一类别集合,并将目标待分类数据存入新建的类别集合中,得到多个类别集合。
在一种可实施方式中,数据分类模块430还用于在不存在类别集合时,新建一类别集合,并将从待分类数据集合中获取的目标待分类数据存入该类别集合中,以及用于在存在类别集合时计算目标待分类数据与每个类别集合之间的距离。
在一种可实施方式中,数据分类模块430包括特征值获得子模块和第一距离获得子模块。特征值获得子模块,用于根据类别集合中包括的待分类数据的特征值,得到类别集合对应的特征值;第一距离获得子模块,用于根据目标待分类数据的特征值和类别集合对应的特征值,得到目标待分类数据与类别集合之间的距离。
在该种实施方式下,特征值获得子模块还用于对类别集合中包括的待分类数据的特征值求取均值,得到该类别集合对应的特征值。
在该种实施方式下,数据分类模块430还包括类别集合获取子模块、第二距离计算子模块以及分类子模块。类别集合获取子模块用于按照各类别集合的优先级顺序,从各类别集合中获取优先级最高的类别集合;第二距离计算子模块用于计算优先级最高的类别集合与待分类数据之间的距离;分类子模块,用于在计算得到的距离小于分类距离阈值时,确认存在类别集合与目标待分类数据之间的距离小于分类距离阈值,并将目标待分类数据存放至该类别集合;分类子模块,还用于在计算得到的距离不小于分类距离阈值,则从优先级顺序中删除优先级最高的类别集合,得到更新后的各类别集合的优先级顺序,并在不存在优先级最高的类别集合时,确认不存在类别集合与目标待分类数据之间的距离小于分类距离阈值,并新建一类别集合,并将目标待分类数据存入该类别集合中。
在该种实施方式下,数据分类模块430,还用于在存在至少两个类别集合与目标待分类数据之间的距离小于分类距离阈值时,将目标待分类数据存放至与目标待分类数据之间的距离为最小的类别集合;以及用于在存在一个类别集合与目标待分类数据之间的距离小于分类距离阈值时,将目标待分类数据存放至该类别集合。
在一种可实施方式中,数据分类装置400还包括特征值更新模块,特征值更新模块用于根据目标待分类数据的特征值,更新该目标待分类数据所属类别集合对应的特征值。
需要说明的是,本申请中装置400实施例与前述方法实施例是相互对应的,装置400实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
下面将结合图10对本申请提供的一种电子设备100进行说明。
请参阅图10,基于上述实施例提供的数据分类方法,本申请实施例还提供的另一种包括可以执行前述方法的处理器102的电子设备100,该电子设备100可以为服务器10或终端设备,终端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。
电子设备100还包括存储器104。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(DigitalSignal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、图像处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所获取的数据(如,待推荐数据以及操作方式)等。
电子设备100还可以包括网络模块以及屏幕,网络模块用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如和音频播放设备进行通讯。网络模块可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互。
在一些实施例中,电子设备100还可以包括有:外设接口106和至少一个***设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与外设接口连接。具体地,***设备包括:射频组件108、定位组件112、摄像头114、音频组件116、显示屏118以及电源122等中的至少一种
外设接口106可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器102和存储器104。在一些实施例中,处理器102、存储器104和外设接口106被集成在同一芯片或电路板上;在一些其他实施例中,处理器102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路板上实现,本申请实施例对此不加以限定。
射频组件108用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射频组件108将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频组件108包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频组件108还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
定位组件112用于定位电子设备的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件112可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
摄像头114用于采集图像或视频。可选地,摄像头114包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备100的前面板,后置摄像头设置在电子设备100的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头114还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器102进行处理,或者输入至射频组件108以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频组件114还可以包括耳机插孔。
显示屏118用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时,显示屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器102进行处理。此时,显示屏118还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏118可以为一个,设置电子设备100的前面板;在另一些实施例中,显示屏118可以为至少两个,分别设置在电子设备100的不同表面或呈折叠设计;在又一些实施例中,显示屏118可以是柔性显示屏,设置在电子设备100的弯曲表面上或折叠面上。甚至,显示屏118还可以设置成非矩形的不规则图形,也即异形屏。显示屏118可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,机发光二极管)等材质制备。
电源122用于为电子设备100中的各个组件进行供电。电源122可以是交流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本申请实施例还提供一种计算机可读存储介质。该计算机可读介质中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中描述的方法。
综上,本申请提供的一种数据分类方法、装置、设备及存储介质,方法的包括:获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;根据样本距离集,得到分类距离阈值;根据分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,待分类数据集合包括样本数据集。通过采用本申请的上述数据分类方法,可以实现根据分类距离阈值对待分类数据集进行聚类得到多个类别集合,进而能够有效提高数据分类的准确性。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (16)
1.一种数据分类方法,其特征在于,所述方法包括:
获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;
根据所述样本距离集,得到分类距离阈值;
根据所述分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,所述待分类数据集合包括所述样本数据集。
2.根据权利要求1所述的数据分类方法,其特征在于,所述根据所述分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,包括:
若从所述待分类数据集合中获取到目标待分类数据,计算所述目标待分类数据与每个所述类别集合之间的距离;
若存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,将所述目标待分类数据存放至该类别集合,返回执行若从所述待分类数据集合中获取到目标待分类数据,计算所述目标待分类数据与每个所述类别集合之间的距离的步骤;
若不存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,新建一类别集合,并将所述目标待分类数据存入所述新建的类别集合中,得到多个类别集合,返回执行若从所述待分类数据集合中获取到目标待分类数据,计算所述目标待分类数据与每个所述类别集合之间的距离的步骤。
3.根据权利要求2所述的数据分类方法,其特征在于,计算所述待分类数据与每个类别集合之间的距离之前,所述方法还包括:
若不存在类别集合,新建一类别集合,并将从所述待分类数据集合中获取的目标待分类数据存入该类别集合中,并返回执行若从所述待分类数据集合中获取到目标待分类数据,计算所述目标待分类数据与每个所述类别集合之间的距离的步骤;
若存在类别集合,执行计算所述目标待分类数据与每个所述类别集合之间的距离的步骤。
4.根据权利要求2所述的数据分类方法,其特征在于,所述计算所述目标待分类数据与每个类别集合之间的距离,包括:
根据所述类别集合中包括的待分类数据的特征值,得到所述类别集合对应的特征值;
根据所述目标待分类数据的特征值和所述类别集合对应的特征值,得到所述目标待分类数据与所述类别集合之间的距离。
5.根据权利要求4所述的数据分类方法,其特征在于,所述根据所述类别集合中包括的待分类数据对应的特征值,得到所述类别集合对应的特征值,包括:
对所述类别集合中包括的待分类数据的特征值求取均值,得到该类别集合对应的特征值。
6.根据权利要求4所述的数据分类方法,其特征在于,在将目标待分类数据存入至所述类别集合后,所述方法还包括:
根据所述目标待分类数据的特征值,更新该目标待分类数据所属类别集合对应的特征值。
7.根据权利要求2所述的数据分类方法,其特征在于,所述计算所述目标待分类数据与每个类别集合之间的距离,包括:
按照各类别集合的优先级顺序,从各类别集合中获取优先级最高的类别集合;
计算所述优先级最高的类别集合与所述待分类数据之间的距离;
若计算得到的距离小于所述分类距离阈值,确认存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,并执行将目标待分类数据存放至该类别集合的步骤;
若计算得到的距离不小于所述分类距离阈值,则从所述优先级顺序中删除优先级最高的类别集合,得到更新后的各类别集合的优先级顺序,并返回执行按照各类别集合的优先级顺序,从各类别集合中获取优先级最高的类别集合的步骤,直至不存在优先级最高的类别集合时,确认不存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,并执行新建一类别集合,并将所述目标待分类数据存入该类别集合中的步骤。
8.根据权利要求2所述的数据分类方法,其特征在于,所述若存在类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,将所述目标待分类数据存放至该类别集合,包括:
若存在至少两个类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,将所述目标待分类数据存放至与目标待分类数据之间的距离为最小的类别集合;
若存在一个类别集合与所述目标待分类数据之间的距离小于所述分类距离阈值,将所述目标待分类数据存放至该类别集合。
9.根据权利要求1至8任一项所述的数据分类方法,其特征在于,所述根据所述样本距离集,得到分类距离阈值,包括:
利用高斯混合模型拟合函数对所述样本距离集中包括的距离进行拟合,得到概率密度函数曲线;
获取所述概率密度函数曲线中概率取值满足指定条件时对应的目标距离,根据所述目标距离得到分类距离阈值。
10.根据权利要求9所述的数据分类方法,其特征在于,所述获取所述概率密度函数曲线中概率取值满足指定条件时对应的目标距离,根据所述目标距离得到分类距离阈值,包括:
获取所述概率密度函数曲线中,概率取值为最小值时对应的目标距离,将所述目标距离作为所述分类距离阈值。
11.根据权利要求1至8任一项所述的数据分类方法,其特征在于,获取样本距离集,包括:
获取样本数据集中每个样本数据的特征值;
计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集。
12.根据权利要求11所述的数据分类方法,其特征在于,所述计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,获得每个样本数据对应的样本距离集,包括:
利用曼哈顿距离计算式,计算每个样本数据的特征值与该样本数据对应的剩余样本数据中每个样本数据的特征值之间的距离,得到包括每两个样本数据之间的距离的样本距离集。
13.一种数据分类装置,其特征在于,所述装置包括:
距离获取模块,用于获取样本距离集,该样本距离集中包括样本数据集中每两个样本数据之间的距离;
阈值获得模块,用于根据所述样本距离集,得到分类距离阈值;
数据分类模块,用于根据所述分类距离阈值,对待分类数据集合中的待分类数据进行聚类,得到多个类别集合,所述待分类数据集合包括所述样本数据集。
14.一种电子设备,其特征在于,包括处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-12中任意一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行权利要求1-12中任意一项所述的方法。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-12中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111060489.8A CN114358102A (zh) | 2021-09-10 | 2021-09-10 | 数据分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111060489.8A CN114358102A (zh) | 2021-09-10 | 2021-09-10 | 数据分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114358102A true CN114358102A (zh) | 2022-04-15 |
Family
ID=81096138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111060489.8A Pending CN114358102A (zh) | 2021-09-10 | 2021-09-10 | 数据分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114358102A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361671A (zh) * | 2023-06-01 | 2023-06-30 | 浪潮通用软件有限公司 | 一种基于后校正的高熵knn聚类方法、设备及介质 |
-
2021
- 2021-09-10 CN CN202111060489.8A patent/CN114358102A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361671A (zh) * | 2023-06-01 | 2023-06-30 | 浪潮通用软件有限公司 | 一种基于后校正的高熵knn聚类方法、设备及介质 |
CN116361671B (zh) * | 2023-06-01 | 2023-08-22 | 浪潮通用软件有限公司 | 一种基于后校正的高熵knn聚类方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299315B (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN109189950B (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN112069414A (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN109784351B (zh) | 行为数据分类方法、分类模型训练方法及装置 | |
CN108961267B (zh) | 图片处理方法、图片处理装置及终端设备 | |
CN110162956B (zh) | 确定关联账户的方法和装置 | |
CN112163428A (zh) | 语义标签的获取方法、装置、节点设备及存储介质 | |
CN111209377B (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
CN111506758A (zh) | 物品名称确定方法、装置、计算机设备及存储介质 | |
CN111984803B (zh) | 多媒体资源处理方法、装置、计算机设备及存储介质 | |
CN111324699A (zh) | 语义匹配的方法、装置、电子设备及存储介质 | |
CN111325220B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN116775915A (zh) | 资源推荐方法、推荐预测模型训练方法、装置及设备 | |
CN113836946B (zh) | 训练评分模型的方法、装置、终端及存储介质 | |
CN114723987A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN114298123A (zh) | 聚类处理方法、装置、电子设备及可读存储介质 | |
CN114358102A (zh) | 数据分类方法、装置、设备及存储介质 | |
CN114691860A (zh) | 文本分类模型的训练方法、装置、电子设备及存储介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN113032560B (zh) | 语句分类模型训练方法、语句处理方法及设备 | |
CN112232890B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114328815A (zh) | 文本映射模型的处理方法、装置、计算机设备及存储介质 | |
CN112925963B (zh) | 数据推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |