CN107067045A

CN107067045A - 数据聚类方法、装置、计算机可读介质和电子设备

Info

Publication number: CN107067045A
Application number: CN201710400066.3A
Authority: CN
Inventors: 李树海
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2017-08-18

Abstract

本发明提供了一种数据聚类方法、装置、计算机可读介质和电子设备。该数据聚类方法包括：获取待聚类的数据集；计算所述数据集中的各个数据与已有类别的聚类中心之间的距离；若所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值，则将所述任一数据归类到所述任一类别中；若所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值，则创建新的类别，并将所述任一数据归类到所述新的类别中。本发明的技术方案在进行数据聚类时，无需事先指定聚类个数和聚类中心，避免了初始聚类中心选取有误而对最终的聚类结果产生不良影响，同时本发明的技术方案也能够降低数据聚类过程所花费的时间。

Description

数据聚类方法、装置、计算机可读介质和电子设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种数据聚类方法、装置、计算机可读介质和电子设备。

背景技术

在用户画像标签模型构建的过程中，提取用户特征并将特征数据标准化之后，有很多基于聚类进行标签构建的场景，比如促销敏感度聚类、评论敏感度聚类、用户忠诚度聚类等。聚类就是在相应用户特征下，按照某个特定标准把用户集分成不同的类或簇，使得同一个类或簇内的用户特征相似性尽可能大或距离尽可能小，同时不在同一个类或簇中的用户特征差异性也尽可能地大。简而言之，聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。在这些场景中需要实现准确地对用户进行聚类的功能。

目前，在进行数据聚类时，一般采用k-means聚类算法。k-means算法接收参数k，然后将事先输入的n个数据对象划分为k个聚类以使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

但是，k-means算法存在如下缺陷：

(1)聚类中心的个数k需要事先给定，但在实际中这个k值的选定是非常难以估计的，很多时候事先并不知道给定的数据集应该分成多少个类别才最合适；

(2)在k-means算法中，需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果，一旦初始值选择的不合适，可能无法得到有效的聚类结果；

(3)k-means算法对异常值敏感，不能检测出离群点，而离群点有时对聚类中心的准确率有很大影响；

(4)k-means算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，收敛较慢且聚类时间复杂度较高，当数据量非常大时，算法的时间开销非常大；

(5)k-means算法需要对全量数据进行多次扫描，对于实时数据无法进行聚类。

因此，需要一种新的数据聚类方案，以至少在一定程度上克服上述的一个或者多个问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种数据聚类方法、装置、计算机可读介质和电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的第一方面，提供了一种数据聚类方法，包括：获取待聚类的数据集；计算所述数据集中的各个数据与已有类别的聚类中心之间的距离；若所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值，则将所述任一数据归类到所述任一类别中；若所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值，则创建新的类别，并将所述任一数据归类到所述新的类别中。

在本发明的一些实施例中，基于前述方案，还包括：在计算所述数据集中的任一数据与已有类别的聚类中心之间的距离之前，若不存在已有类别，则创建新的类别，并将所述任一数据归类到所述新的类别中。

在本发明的一些实施例中，基于前述方案，还包括：在将所述任一数据归类到所述任一类别或所述新的类别中之后，更新所述任一类别或所述新的类别的聚类中心。

在本发明的一些实施例中，基于前述方案，计算所述数据集中的各个数据与已有类别的聚类中心之间的距离的步骤，包括：针对所述数据集中的各个数据，依次计算所述各个数据与已有类别的聚类中心之间的距离。

在本发明的一些实施例中，基于前述方案，依次计算所述各个数据与已有类别的聚类中心之间的距离的步骤，包括：计算所述数据集中的第一数据与已有类别的聚类中心之间的距离；在根据所述第一数据与已有类别的聚类中心之间的距离对所述第一数据归类，且对归类后的聚类中心更新之后，再计算所述数据集中的第二数据与已有类别的聚类中心之间的距离。

在本发明的一些实施例中，基于前述方案，还包括：在计算所述数据集中的任一数据与已有类别的聚类中心之间的距离的过程中，若确定所述任一数据与已有的任一类别的聚类中心之间的距离小于或等于所述距离阈值，则停止计算所述任一数据与已有的其它类别的聚类中心之间的距离。

在本发明的一些实施例中，基于前述方案，计算所述数据集中的任一数据与已有类别的聚类中心之间的距离，包括：计算所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离，获得所述任一数据与所述所有类别的聚类中心之间的最短距离；判断所述最短距离是否小于或等于所述距离阈值；若所述最短距离小于或等于所述距离阈值，则将所述最短距离对应的类别作为所述任一类别。

在本发明的一些实施例中，基于前述方案，还包括：从所述数据集中选取部分数据作为样本数据集合；计算所述样本数据集合中两两数据之间的距离，以得到所述样本数据集合的距离集合；根据所述距离集合，确定所述距离集合服从的二维混合高斯分布的概率密度函数；根据所述概率密度函数确定所述距离阈值。

在本发明的一些实施例中，基于前述方案，根据所述概率密度函数确定所述距离阈值的步骤，包括：计算所述概率密度函数的极小值点，其中，所述概率密度函数中的任一点的横坐标表示距离值；将所述极小值点的横坐标作为所述距离阈值。

根据本发明的第二方面，提供了一种数据聚类装置，包括：获取单元，用于获取待聚类的数据集；计算单元，用于计算所述数据集中的各个数据与已有类别的聚类中心之间的距离；处理单元，用于在所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值时，将所述任一数据归类到所述任一类别中，并用于在所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值时，创建新的类别，并将所述任一数据归类到所述新的类别中。

根据本发明的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述第一方面所述的数据聚类方法。

根据本发明的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面所述的数据聚类方法。

在本发明的一些实施例所提供的技术方案中，通过在确定数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于距离阈值时，创建新的类别，并将该数据归类到创建的新的类别中，使得能够根据待聚类的数据集的实际聚类情况灵活地调整实际聚类个数。并且本发明实施例的技术方案在不存在已有类别时，可以创建新的类别，使得在进行数据聚类时，无需事先给定聚类个数，避免了事先给定不合适的聚类个数而影响数据聚类的结果。同时，本发明实施例的技术方案也无需人为指定初始聚类中心，避免了初始聚类中心选取有误而对最终的聚类结果产生不良影响。

在本发明的一些实施例所提供的技术方案中，能够通过对待聚类的数据集中的数据进行一次扫描处理即可完成数据聚类操作，有效降低了数据聚类过程所花费的时间。

在本发明的一些实施例所提供的技术方案中，通过根据二维混合高斯分布的概率密度函数来确定距离阈值，使得能够根据待聚类数据集的实际情况自动实现距离阈值的选取，避免了手动选择距离阈值而导致费时且选取不合适的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本发明的第一个实施例的数据聚类方法的流程图；

图2示出了根据本发明的实施例的计算数据集合中两两元素之间的距离的示意图；

图3示出了根据本发明的实施例的距离集合服从的二维混合高斯分布的概率密度函数的曲线示意图；

图4示意性示出了根据本发明的第二个实施例的数据聚类方法的流程图；

图5示意性示出了根据本发明的实施例的数据聚类装置的框图；

图6示出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示意性示出了根据本发明的第一个实施例的数据聚类方法的流程图。

参照图1，根据本发明的第一个实施例的数据聚类方法，包括：

步骤S10，获取待聚类的数据集。

步骤S12，计算所述数据集中的各个数据与已有类别的聚类中心之间的距离。

根据本发明的示例性实施例，步骤S12具体包括：针对数据集中的各个数据，依次计算所述各个数据与已有类别的聚类中心之间的距离。

在本发明的实施例中，依次计算所述各个数据与已有类别的聚类中心之间的距离的步骤，包括：计算所述数据集中的第一数据与已有类别的聚类中心之间的距离；在根据所述第一数据与已有类别的聚类中心之间的距离对所述第一数据归类，且对归类后的聚类中心更新之后，再计算所述数据集中的第二数据与已有类别的聚类中心之间的距离。

在该实施例中，当将数据集中的某一数据归类之后，为了保证后续进行聚类操作的准确性，需要对聚类中心进行更新。当聚类中心更新之后，再计算数据集中的其它数据与已有类别的聚类中心之间的距离。

在计算数据集中的任一数据与已有类别的聚类中心之间的距离时，本发明提出了如下两种方式来确定该任一数据应该归类到的类别：

方式一：

在计算所述数据集中的任一数据与已有类别的聚类中心之间的距离的过程中，若确定所述任一数据与已有的任一类别的聚类中心之间的距离小于或等于所述距离阈值，则停止计算所述任一数据与已有的其它类别的聚类中心之间的距离。

在方式一中，计算任一数据与已有类别的聚类中心之间的距离时，可以是依次进行计算，也可以是同时进行计算，而不管是如何进行计算，当确定该数据与任一类别的聚类中心之间的距离小于或等于距离阈值时，就停止计算该数据与已有的其它类别的聚类中心之间的距离。这种方式可以缩短计算时间，提高聚类效率。

方式二：

在方式二中，计算任一数据与已有类别的聚类中心之间的距离时，可以是依次进行计算，也可以是同时进行计算，而不管是如何进行计算，都需要计算出该数据与所有类别的聚类中心之间的距离，然后选择出最小距离，若该最小距离小于或等于距离阈值，则选择该最小距离对应的类别进行归类。这种方式可以找到更合适的类别来进行聚类，提高了聚类的准确度。

继续参照图1，所述的数据聚类方法还包括：

步骤S14，若所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值，则将所述任一数据归类到所述任一类别中。

步骤S16，若所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值，则创建新的类别，并将所述任一数据归类到所述新的类别中。

此外，所述的数据聚类方法还可以包括：在计算所述数据集中的任一数据与已有类别的聚类中心之间的距离之前，若不存在已有类别，则创建新的类别，并将所述任一数据归类到所述新的类别中。

需要说明的是，在将所述任一数据归类到所述任一类别或所述新的类别中之后，更新所述任一类别或所述新的类别的聚类中心。

对于上述的距离阈值，本发明实施例提供了如下的计算方法：

在本发明的实施例中，从所述数据集中选取部分数据作为样本数据集合；计算所述样本数据集合中两两数据之间的距离，以得到所述样本数据集合的距离集合；根据所述距离集合，确定所述距离集合服从的二维混合高斯分布的概率密度函数；根据所述概率密度函数确定所述距离阈值。

为了进一步阐述本发明实施例的技术方案，以下结合图2至图4对本发明实施例的技术方案进行详细说明：

本发明实施例的基本思想是：对于一个数据集合，同一个类别中数据之间的距离(即类内距离)较小，相似度较大；不同类别的数据之间的距离(即类间距离)较大，相似度较小。因此，可以设定一个距离阈值Th，若两个数据点之间的距离小于该阈值，则将这两个数据点归为一类。

公式表示为：

即对于类别G中的每一个数据点Sj，若Si与Sj之间的距离都小于一定的距离阈值Th，则将Si归为类别G中的数据点。

通常情况下，可以通过反复试验观察聚类结果来调整距离阈值；但由于不同的聚类场景下数据特征差异较大，在某一个场景下适用的距离阈值并不适用于其他场景；而且在数据量大的情况下手工调整距离阈值的过程比较费时。为了解决该问题，如何自动选取距离阈值(相似度阈值)成为算法的关键。

经过反复实验发现，数据集合中各个数据点之间的距离集合服从二维混合高斯分布，而相应的二维混合高斯分布的概率密度函数曲线的极小值点的横坐标(其横坐标表示距离值)可作为聚类的距离阈值。可以简单理解为类内距离集合服从一个均值小、方差大的正态分布，类间距离集合服从一个均值大、方差小的正态分布，两个正太分布的概率密度函数曲线的交点即为极小值点。

在输入数据量大的情况下，计算两两之间的距离所需的计算量太大，通常情况下计算条件不允许，故考虑随机选取部分输入数据，再计算它们之间相互的距离作为距离集合。

在本发明的示例性实施例中，设输入数据集合为data[n]，智能选取距离阈值的具体步骤如下：

(1)随机选取部分样本集合，数量记为m；

(2)计算样本数据集合中两两之间的距离，data[i]与data[j]之间的距离设为d[i][j]，样本两两之间的距离集合为d[m][m]；

(3)将d[m][m]作为输入，在MATLAB中基于输入数据集合自动进行参数估计并模拟出该数据集合服从的二维混合高斯分布的概率密度函数f；

(4)将概率密度函数f的极小值点的横坐标作为距离阈值Th。

如图2所示，对于一个数据集合，计算集合中元素两两之间的距离，将这些距离作为一个距离集合。该距离集合服从二维混合高斯分布，相应的概率密度函数曲线如图3所示，曲线的极小值点的横坐标即可作为距离阈值。

在距离阈值选定之后，便可对数据集进行聚类，以将数据点之间的距离小于距离阈值的元素归为一类。由于本发明实施例中的聚类算法只需扫描一遍数据便可完成聚类，故可以扩展用于流式聚类，具体流程如图4所示，包括如下步骤：

步骤S402，将当前类别集合G初始化为空，将距离阈值记为Th。需要说明的是，对类别集合G初始化之后，类别集合G里面的类别可以是0个，也可以预设若干个类别。

步骤S404，依次扫描数据集中每一个元素。

步骤S406，获取数据集中的元素。

步骤S408，若数据集合中的元素已扫描结束，则算法结束；否则执行步骤S410。

步骤S410，计算当前元素与当前类别集合G中每个类别聚类中心的距离，将其中最小的距离记为d，相应的类别记为g。

步骤S412，判断d≤Th且G不为空是否成立，若是，则执行步骤S414；否则执行步骤S416。

步骤S414，将当前元素归类到类别g，并更新类别g的聚类中心。然后返回步骤S406。

步骤S416，新建一个类别h，将当前元素归类到类别h，并更新类别h的聚类中心，将新建的类别h归入G中。然后返回步骤S406。

需要说明的是，在图4所示的流程中，是计算当前元素与类别集合G中每个类别聚类中心的距离，确定其中的最小距离，若该最小距离小于或等于距离阈值Th，则将当前元素归类到类别g中。

在本发明的其它实施例中，也可以在计算当前元素与类别集合G中每个类别聚类中心的距离时，将确定的第一个距离小于或等于距离阈值Th的类别作为当前元素将要归类到的类别，这样可以缩短计算时间。

基于图4所示的实施例，假设输入数据集合的数据量为n，那么图4所示的实施例的算法时间复杂度为O(n*logn)，其中，n为记录数，logn为通常情况下聚类之后的类别个数。而k-means算法的时间复杂度为O(k*n*t)，其中，k为簇的数目(即聚类后的类别个数)，n为记录数，t为迭代次数。可见，本发明实施例的技术方案相比于k-means算法，其时间复杂度大幅下降，在大数据量场景下的优势明显。

综上，本发明实施例的数据聚类方案具有如下优点：

(1)本发明实施例提出的数据聚类算法无需事先给定聚类个数，也无需人为确定初始聚类中心，而是通过自动分析数据分布情况智能决定聚类个数。同时也无需给定初始聚类中心，避免了在初始聚类中心选取失误的情况下对最终聚类结果的不良影响。

(2)相对于其它聚类算法，通常情况下使用本算法聚类完成后所生成的类别较多，这是因为有一些类别所包含的数据点个数很少，在多数场景下上可将这些类别视为离群点类别，这样就产生了自动检测离群点的效果，而包含数据点较多的类别才作为有实际意义的类别。

(3)在确定距离阈值之后，本算法无须迭代，扫描一遍数据即可完成聚类，时间复杂度由k-means算法的O(k*n*t)降为O(n*logn)，在大数据量的场景下优势明显。此外，由于本算法只需扫描一遍数据，故可扩展用于流式聚类，即对实时数据进行聚类，使得算法应用范围更广。

图5示意性示出了根据本发明的实施例的数据聚类装置的框图。

参照图5，根据本发明的实施例的数据聚类装置500，包括：获取单元502、计算单元504和处理单元506。

具体地，获取单元502用于获取待聚类的数据集；计算单元504用于计算所述数据集中的各个数据与已有类别的聚类中心之间的距离；处理单元506用于在所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值时，将所述任一数据归类到所述任一类别中，并用于在所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值时，创建新的类别，并将所述任一数据归类到所述新的类别中。

在本发明的一些实施例中，基于前述方案，所述处理单元506还用于：在所述计算单元504计算所述数据集中的任一数据与已有类别的聚类中心之间的距离之前，若不存在已有类别，则创建新的类别，并将所述任一数据归类到所述新的类别中。

在本发明的一些实施例中，基于前述方案，还包括：更新单元(图5中未示出)，用于在将所述任一数据归类到所述任一类别或所述新的类别中之后，更新所述任一类别或所述新的类别的聚类中心。

在本发明的一些实施例中，基于前述方案，所述计算单元504配置为：针对所述数据集中的各个数据，依次计算所述各个数据与已有类别的聚类中心之间的距离。

在本发明的一些实施例中，基于前述方案，所述计算单元504配置为：计算所述数据集中的第一数据与已有类别的聚类中心之间的距离；在根据所述第一数据与已有类别的聚类中心之间的距离对所述第一数据归类，且对归类后的聚类中心更新之后，再计算所述数据集中的第二数据与已有类别的聚类中心之间的距离。

在本发明的一些实施例中，基于前述方案，所述计算单元504还用于：在计算所述数据集中的任一数据与已有类别的聚类中心之间的距离的过程中，若确定所述任一数据与已有的任一类别的聚类中心之间的距离小于或等于所述距离阈值，则停止计算所述任一数据与已有的其它类别的聚类中心之间的距离。

在本发明的一些实施例中，基于前述方案，所述计算单元504配置为：计算所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离，获得所述任一数据与所述所有类别的聚类中心之间的最短距离；判断所述最短距离是否小于或等于所述距离阈值；若所述最短距离小于或等于所述距离阈值，则将所述最短距离对应的类别作为所述任一类别。

在本发明的一些实施例中，基于前述方案，还包括：选取单元，用于从所述数据集中选取部分数据作为样本数据集合。所述计算单元504还用于，计算所述样本数据集合中两两数据之间的距离，以得到所述样本数据集合的距离集合；所述处理单元506还用于，根据所述距离集合，确定所述距离集合服从的二维混合高斯分布的概率密度函数，并根据所述概率密度函数确定所述距离阈值。

在本发明的一些实施例中，基于前述方案，所述处理单元506配置为：计算所述概率密度函数的极小值点，其中，所述概率密度函数中的任一点的横坐标表示距离值；将所述极小值点的横坐标作为所述距离阈值。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机***600的结构示意图。图6示出的电子设备的计算机***600仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机***600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有***操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的数据聚类方法。

例如，可以实现如图1中所示的：步骤S10，获取待聚类的数据集；步骤S12，计算所述数据集中的各个数据与已有类别的聚类中心之间的距离；步骤S14，若所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值，则将所述任一数据归类到所述任一类别中；步骤S16，若所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值，则创建新的类别，并将所述任一数据归类到所述新的类别中。又如，可以实现如图4中所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据聚类方法，其特征在于，包括：

获取待聚类的数据集；

计算所述数据集中的各个数据与已有类别的聚类中心之间的距离；

若所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值，则将所述任一数据归类到所述任一类别中；

若所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值，则创建新的类别，并将所述任一数据归类到所述新的类别中。

2.根据权利要求1所述的数据聚类方法，其特征在于，还包括：

在计算所述数据集中的任一数据与已有类别的聚类中心之间的距离之前，若不存在已有类别，则创建新的类别，并将所述任一数据归类到所述新的类别中。

3.根据权利要求1所述的数据聚类方法，其特征在于，还包括：

在将所述任一数据归类到所述任一类别或所述新的类别中之后，更新所述任一类别或所述新的类别的聚类中心。

4.根据权利要求1所述的数据聚类方法，其特征在于，计算所述数据集中的各个数据与已有类别的聚类中心之间的距离的步骤，包括：

针对所述数据集中的各个数据，依次计算所述各个数据与已有类别的聚类中心之间的距离。

5.根据权利要求4所述的数据聚类方法，其特征在于，依次计算所述各个数据与已有类别的聚类中心之间的距离的步骤，包括：

计算所述数据集中的第一数据与已有类别的聚类中心之间的距离；

在根据所述第一数据与已有类别的聚类中心之间的距离对所述第一数据归类，且对归类后的聚类中心更新之后，再计算所述数据集中的第二数据与已有类别的聚类中心之间的距离。

6.根据权利要求1所述的数据聚类方法，其特征在于，还包括：

7.根据权利要求1所述的数据聚类方法，其特征在于，计算所述数据集中的任一数据与已有类别的聚类中心之间的距离，包括：

计算所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离，获得所述任一数据与所述所有类别的聚类中心之间的最短距离；

判断所述最短距离是否小于或等于所述距离阈值；

若所述最短距离小于或等于所述距离阈值，则将所述最短距离对应的类别作为所述任一类别。

8.根据权利要求1至7中任一项所述的数据聚类方法，其特征在于，还包括：

从所述数据集中选取部分数据作为样本数据集合；

计算所述样本数据集合中两两数据之间的距离，以得到所述样本数据集合的距离集合；

根据所述距离集合，确定所述距离集合服从的二维混合高斯分布的概率密度函数；

根据所述概率密度函数确定所述距离阈值。

9.根据权利要求8所述的数据聚类方法，其特征在于，根据所述概率密度函数确定所述距离阈值的步骤，包括：

计算所述概率密度函数的极小值点，其中，所述概率密度函数中的任一点的横坐标表示距离值；

将所述极小值点的横坐标作为所述距离阈值。

10.一种数据聚类装置，其特征在于，包括：

获取单元，用于获取待聚类的数据集；

计算单元，用于计算所述数据集中的各个数据与已有类别的聚类中心之间的距离；

处理单元，用于在所述数据集中的任一数据与已有的任一类别的聚类中心之间的距离小于或等于距离阈值时，将所述任一数据归类到所述任一类别中，并用于在所述数据集中的任一数据与已有的所有类别的聚类中心之间的距离都大于所述距离阈值时，创建新的类别，并将所述任一数据归类到所述新的类别中。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的数据聚类方法。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的数据聚类方法。