CN108764307A

CN108764307A - 自然最近邻优化的密度峰值聚类方法

Info

Publication number: CN108764307A
Application number: CN201810463136.4A
Authority: CN
Inventors: 钱雪忠; 金辉
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2018-11-06

Abstract

本发明涉及一种自然最近邻优化的密度峰值聚类方法(TNDP方法)，用自然最近邻居来计算数据点的局部密度，不需要参数，避免了参数敏感问题；用自然最近邻居计算局部密度，由于自然最近邻居准确反映数据点的属性特点，所以这样计算出来的局部密度能准确表示每个数据点的密度大小，提高聚类效果；由于自然最近邻居不包含噪声点和异常点，所以减少了噪声点和异常点对聚类结果的影响。

Description

自然最近邻优化的密度峰值聚类方法

技术领域

本发明涉及聚类方法，特别是涉及自然最近邻优化的密度峰值聚类方法。

背景技术

在聚类分析的发展过程中，相继提出了KMEANS，DBSCAN，FCM，AP等一系列的聚类算法文献，2014年《Science》上发表了一篇《Clusteringby fast search and find offastsearch》，论文提出一种快速搜索和发现密度峰值的聚类算法。该算法能自动给出数据集样本的类簇中心，而且对数据集样本的形状没有严苛的要求，对任意形状的数据集样本都能实现高效的聚类。该算法的核心思想是认定聚类中心同时满足两点基本要求:1)本身的密度很大，即它的周围邻居点的密度均没有它大；2)与比它密度更大的数据点之间的“距离”更大。然而DPC算法的劣势和难点不容小觑:1)各个领域在使用DPC算法的时候，截断距离是该算法必须设定的参数，人们一直是手工设定该参数，手工设定存在一定的随机性和人为因素，影响聚类质量；2)对较高维度数据的分析处理一直是DPC算法的短板，较高维度数据自身结构拥有稀疏性和空间复杂性，使得传统的欧式距离在反映数据对象之间的相似性时无法达到准确、合理的目的，因此导致该算法失效；3)虽然DPC算法声称能自动确定聚类结果，但在实际聚类操作中却需要手动进行聚类结果的选定，聚类结果不能自动给出。

针对DPC聚类算法存在的不足，Zhang WenKai结合该算法和CHAMELEON算法，提出了E_CFSFDP，解决了CFSFDP算法中无法处理一个类簇中有一个以上密度峰值点的问题，但是该算法的性能有待进一步提高并且在处理高维数据上的能力有待加强。LiuY提出一种基于K近邻的快速密度峰值搜索并高效分配样本的算法KNN-DPC，解决了CFSFDP算法聚类结果对截断距离dc比较敏感和因为一步分配所带来的连带分配错误的问题，但是该算法的聚类聚类结果对近邻数K的选取比较敏感。Rashid Mehmood提出了Fuzzy-CFSFDP算法，将模糊规则用于在CFSFDP算法的类簇的中心点确定中，提高了类簇中心点选取和聚类结果的准确率，但在处理复杂数据时稍显不足。

传统技术存在以下技术问题：

现有的基于密度的聚类算法存在参数敏感、处理非球面数据和复杂流形数据聚类效果差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种自然最近邻优化的密度峰值聚类方法，避免了参数敏感问题，提高聚类效果。

一种自然最近邻优化的密度峰值聚类方法，包括：

找到数据集中所有的密度峰；

任意访问一个密度峰，将该密度峰和该密度峰的稀疏邻居分到同一个聚类；

任意在所述聚类中找到一个点，并将这个点的稀疏邻居分到所述聚类，直到所述聚类中的所有点的稀疏邻居分到所述聚类；

重复步骤“任意访问一个密度峰，将该密度峰和该密度峰的稀疏邻居分到同一个聚类；”“任意在所述聚类中找到一个点，并将这个点的稀疏邻居分到所述聚类，直到所述聚类中的所有点的稀疏邻居分到所述聚类；”，直到访问所有的密度峰；

根据所有密度峰通过上述步骤形成的聚类之间的类间相似度，合并相似度高的聚类。

在另外的一个实施例中，将所有密度峰通过上述步骤形成的聚类之间中数据个数小于最小自然邻居数的聚类从聚类结果中除去，并将这些聚类中的数据标记为噪声点，获得最终的聚类结果，所述最小自然邻居数是指聚类中所有数据点的自然最近邻居数中的最小值。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任意一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任意一项所述方法的步骤。

上述自然最近邻优化的密度峰值聚类方法(TNDP方法)，用自然最近邻居来计算数据点的局部密度，不需要参数，避免了参数敏感问题；用自然最近邻居计算局部密度，由于自然最近邻居准确反映数据点的属性特点，所以这样计算出来的局部密度能准确表示每个数据点的密度大小，提高聚类效果；由于自然最近邻居不包含噪声点和异常点，所以减少了噪声点和异常点对聚类结果的影响。

附图说明

图1为本申请实施例提供的一种自然最近邻优化的密度峰值聚类方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参阅图1，一种自然最近邻优化的密度峰值聚类方法，包括：

找到数据集中所有的密度峰；

首先根据自然最近邻居的概念确定数据点的局部密度，然后根据密度峰局部密度最高并且被稀疏区域分割来确定聚类中心，最后提出一种新的类簇间相似度概念来解决复杂流形问题。

自然最近邻居(Natural Nearest Neighbor：TN)是一种新的最近邻居概念，它是一种无尺度的最近邻居，这也是它与K-最近邻和ε-最近邻最大的不同之处。自然最近邻居的基本思想就是数据集中密集区域的数据点拥有较多的邻居，稀疏区域的数据点拥有较少的邻居，而数据集中最离群的数据点只有几个或没有最近邻居，自然最近邻居的特点是计算过程不需要任何的参数，数据点根据数据集自身的属性特点获得准确邻居，邻居数由于数据的密集程度存在差异，由于噪声点和异常点没有邻居，所以正常点也不会把噪声点和异常点当作邻居。

定义1自然最近邻居(Natural Nearest Neighbor：TN):基于自然最近邻居搜索算法(TN-Searching算法)，如果点X属于点Y的邻居，而点Y属于点X的邻居，那么点X和Y属于彼此的自然最近邻居。

定义2自然特征值(supk)：根据TN-Searching算法，每个点有不同数量的邻居，对于任何点i，邻居数量是nb(i)。但是TN-Searching有一个平均数量的邻居，称为supk，它是自然特征值。计算supk的公式如下：

定义3R-邻域(R-neighbor):findKNN(xi,r)表示KNN搜索函数，它返回xi的第r个邻居，KNNr(xi)是X的子集，定义如下:

定义4数据点的密度(Den(Pi)):基于自然最近邻居定义的密度如下：

这里nb(i)是根据TN-Searching算法得到的每个点的自然最近邻居数，N(i,nb(i))是点i的nb(i)个自然最近邻居，dist(i,j)是数据点i和j之间的距离。

定义5代表点(Exemplar)：数据点q的代表点定义为：

Exemplar(q)＝max{Den(NN(p)&&pq}

定义6密度峰(DensityPeak)：如果数据点p满足如下条件，就称数据点p为一个密度峰：

定义7类间相似度(Similarity Between Clusters)：

|Ci∩Cj|指的是类Ci和类Cj的公共部分，supk是自然邻居特征值，Sim(Ci,Cj)的值不小于0，如果这两个相邻的初始簇被稀疏区域划分，则这两个簇之间的相似性将很小，是两个单独的集群。相反，如果这两个相邻的初始簇通过密度区域连接，则这两个相邻簇之间的相似性会很大，然后这两个集群将被合并为一个集群。

定义8稀疏邻居和密集邻居(Sparse and Dense Neighbor)，如果数据点q的密度小于数据点p的密度且q是p的自然最近邻居，则称q是p的稀疏邻居，相反如果数据点q的密度大于等于数据点p的密度且q是p的自然最近邻居，则称q是p的密集邻居，定义如下：

SN(p)＝{q|Den(q)<Den(p)&&q∈NN(p)}

DN(p)＝{q|Den(q)>Den(p)&&q∈NN(p)}

本发明提到的TN-Searching算法的主要流程：

Step 1:输入数据集X，令r＝1，对数据集中的每个点xi用K-d树搜索的方法找到xi的r近邻knnr(xi)，并将xi的r近邻knnr(xi)合并到xi的R-邻域KNNr(xi)中；

Step 2:如果xi在xi的r近邻knnr(xi)的R-邻域KNNr(knnr(xi))内，且xi和knnr(xi)不是彼此的自然最近邻居，就把xi和knnr(xi)定义为彼此的自然最近邻居。

Step 3:r＝r+1，重复步骤1和2，如果自然最近邻居为0的点的个数没有发生改变，跳到步骤4，否则重复步骤3；

Step 4:输出自然特征值r，每个数据点的自然最近邻居数和每个点的自然最近邻居集合。

一个可能的TN-Searching具体实现代码如下：

一个本发明自然最近邻优化的密度峰值聚类方法实现的可能的具体实现代码如下：

由下表可知，在准确率上，TNDP方法要明显优于DPC、DBSCAN、KMEANS算法，在F值的计算上，除了在wpbc数据集上DBSCAN要优于TNDP方法，其他数据集上都是TNDP方法要明显优于DPC、DBSCAN、KMEANS算法，且对这几个数据集TNDP方法都能聚类出正确的类数。综合这三个方面，显然TNDP方法是最优秀的。

下面介绍一个本申请的具体应用实施例：

Step 1:TNDP使用TN-Searching算法获得数据集X中的每个数据点的自然最近邻居，然后计算每个数据点的密度；

Step 2:用定义5和定义8找到每个数据点的代表点和稀疏邻居；

Step 3:找到所有的密度峰并任意访问一个密度峰，将它和它的稀疏邻居分到同一个聚类；

Step 4:任意在这个簇中找到一个点，并将这个点的稀疏邻居和这个点分类为同一个簇，直到这个簇的所有点都被访问过；

Step 5:找到一个未访问的密度峰并重复上述步骤，直到所有的密度峰都被访问过；

Step 6:划分好初始类簇，根据初始类簇之间的相似度关系，合并相似度高的初始类簇；

Step 7:将类簇中数据个数小于最小自然邻居数的类簇从聚类结果中除去，并将这些类簇中的数据标记为噪声点，获得最终的聚类结果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种自然最近邻优化的密度峰值聚类方法，其特征在于，包括：

找到所述数据集中所有的密度峰；

2.根据权利要求1所述的自然最近邻优化的密度峰值聚类方法，其特征在于，还包括：将所有密度峰通过上述步骤形成的聚类之间中数据个数小于最小自然邻居数的聚类从聚类结果中除去，并将这些聚类中的数据标记为噪声点，获得最终的聚类结果，所述最小自然邻居数是指聚类中所有数据点的自然最近邻居数中的最小值。

3.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-2中任意一项所述方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-2任意一项所述方法的步骤。