CN108280472A

CN108280472A - 一种基于局部密度和聚类中心优化的密度峰聚类方法

Info

Publication number: CN108280472A
Application number: CN201810049357.7A
Authority: CN
Inventors: 孙丽萍; 鲍舒婷; 慈尚; 郑孝遥; 罗永龙
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2018-07-13

Abstract

本发明揭示了一种基于局部密度和聚类中心优化的密度峰聚类方法，包括以下步骤：步骤1、密度距离计算阶段：根据共享近邻相似度，计算样本点的局部密度和最短距离；步骤2、聚类中心选择阶段：根据样本点的局部密度和最短距离，自适应的选择聚类中心；步骤3、剩余样本分配阶段：将剩余样本分配到距其最近并拥有高密度的样本所在的类簇中。本发明将共享近邻相似度和欧氏距离进行统一度量样本间的相似度，有效地避免了DPC算法因参数选择导致聚类结果较差的缺陷，可以自适应地进行聚类中心的选择。

Description

一种基于局部密度和聚类中心优化的密度峰聚类方法

技术领域

本发明涉及密度聚类领域，具体涉及一种基于共享近邻相似度的密度峰聚类方法。

背景技术

聚类是数据挖掘技术的一个分支，用来洞察数据的分布和特征。聚类是一个将数据对象划分成若干个类簇的过程，使得簇中的对象相似度高，但每个簇之间的对象相似度低。聚类在模式识别、分类、图像处理、web搜索、商务智能等邻域都有广泛的研究。聚类方法主要分为以下几类：基于层次聚类、基于划分聚类、基于密度聚类以及基于图聚类。K-means算法是基于划分聚类的经典算法，该算法是通过多次迭代找到最佳聚类中心，根据剩余样本到聚类中心点的距离对剩余样本进行划分。由于K-means算法是将样本分配到与其最近的簇中，因此该算法不能发现任意形状的簇。如果初始聚类中心选择不好，结果很容易陷入局部最优，导致聚类结果不稳定。DBSCAN算法是基于密度聚类的域个数minpts来决定样本分布的紧密程度。但是，该算法对参数eps较为敏感，较小的eps值可能会导致过度聚类的情况，较大的eps值可能会使得较小的簇被合并。标准谱聚类算法(Spectral Clustering,SC)是基于图聚类的经典算法，利用矩阵谱分析理论对原始的数据对象进行提取，得到新的数据特征，实现过程较为简单，但聚类结果依赖于相似矩阵。

密度峰聚类(Density Peaks Clustering,DPC)算法简单高效，无需迭代，可针对各种类型的数据集进行聚类。近年来，DPC算法引起了广泛的研究。Du Mingjing等人首先对数据集进行主成分分析处理，再将k近邻引入样本局部密度计算中，对聚类结果进行了优化。Mehmood等人提出基于DPC的模糊聚类算法，自适应地寻找聚类中心的个数，而不需要预先指定类簇个数。Mehmood等人基于热扩散技术提出一种非参数的估计给定数据集的概率分布的DPC改进算法。

发明内容

本发明所要解决的技术问题是实现一种基于局部密度和聚类中心优化的密度峰聚类方法,解决原始DPC算法因d_c的选择导致聚类结果较差和根据决策图选择聚类中心需要人工干预的缺陷。

为了实现上述目的，本发明采用的技术方案为：一种基于局部密度和聚类中心优化的密度峰聚类方法，包括以下步骤：

步骤1、密度距离计算阶段：根据共享近邻相似度，计算样本点的局部密度和最短距离；

步骤2、聚类中心选择阶段：根据样本点的局部密度和最短距离，自适应的选择聚类中心；

步骤3、剩余样本分配阶段：将剩余样本分配到距其最近并拥有高密度的样本所在的类簇中。

所述步骤1中，先定义k近邻集、共享近邻相似度，之后依次计算样本的k近邻集，将共享近邻相似度引入样本局部密度的计算中，最后通过将样本与k近邻集中样本之间的共享近邻相似度和欧氏距离进行统一计算样本的局部密度；所述最短距离为该样本到比该样本密度高的样本之间的最短间距，若该样本为最高密度的样本，则最短距离为该样本到其他样本的最长间距。

所述步骤2中，理想的聚类中心为最短距离大并且局部密度相对较大样本，根据步骤1得到的样本的局部密度和最短距离，自适应地进行聚类中心的选择。

所述步骤3中，将样本按照局部密度由大到小排序，若样本未被分配，则将该样本分配到距其最近并拥有较高密度的样本所在的类簇中，否则，对下一个样本进行分配。

所述步骤1包括以下步骤：

步骤1.1、假定数据集X_N×M＝[x₁,x₂,...,x_N]^T，对于任意向量x_i＝[x_i1,x_i2,...,x_iM]表示样本x_i(1≤i≤N)的M个属性，N为样本总个数，利用以下公式，计算样本x_i和样本x_j(1≤j≤N)的欧氏距离：

步骤1.2、记KNN(x_i)为样本x_i的k近邻集，定义式如下：KNN(x_i)＝{x_j∈X|d(x_i,x_j)≤dk(x_i)}，

其中dk(x_i)为数据集X中的样本x_i到其他样本的欧氏距离升序排列的第k个距离；

步骤1.3、记SNN(x_i,x_j)为样本x_i和样本x_j的共享近邻相似度，定义式如下：

SNN(x_i,x_j)＝|KNN(x_i)∩KNN(x_j)|，

其中，KNN(x_i)和KNN(x_j)分别为样本x_i和样本x_j的k近邻集，共享近邻相似度等于两个样本k近邻集的交集中元素的个数；

步骤1.4、记ρ_i为样本x_i的局部密度，定义式如下：

样本x_i与其k近邻集中样本的欧氏距离和共享近邻相似度两种准则进行统一度量样本间的相似度来计算局部密度ρ_i；

步骤1.5、记δ_i为样本x_i的最短距离，通过以下公式：

计算样本x_i的最短距离δ_i，δ_i为x_i到其他较高密度样本之间的最短间距，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长间距。

所述步骤2包括以下步骤：

步骤2.1、基于密度距离计算阶段已经得到样本的局部密度ρ和最短距离δ，理想的聚类中心为高δ值和相对较高ρ值的样本，则通过计算γ_i＝ρ_i×δ_i，将样本按照γ值降序排列记为并初始化聚类中心队列Q；

步骤2.2、将γ值最大的样本加入队列Q，标记其为已访问并为其分配类标号；

步骤2.3、依次取出样本若满足条件a)和b)，则将其加入到队列Q中，标记为已访问，并为其分配类标号，其中条件a)为条件b)为未被访问；

步骤2.4、若队列Q中样本个数小于等于类簇个数，转入步骤2.3；否则，队列Q为选择后的聚类中心。

所述步骤3包括以下步骤：

步骤3.1、由聚类中心选择阶段得到聚类中心Q及其类标号，将样本按照局部密度降序排列记作

步骤3.2、依次取出中的样本

步骤3.3、若样本属于数据集X_N×M中而非聚类中心队列Q中的样本，则该样本为没有被分配到任何一个簇的剩余样本，则将其他样本到的欧氏距离按升序排序记作

步骤3.4、依次取出中的样本

步骤3.5、若不满足条件则j+1，转到步骤3.4；若满足条件，则将分配到所在类簇，并标记样本为已访问；若i≠N，则i+1，转到步骤3.2，否则，已对所有剩余样本进行分配，完成聚类过程。

本发明将共享近邻相似度和欧氏距离进行统一度量样本间的相似度，有效地避免了DPC算法因参数选择导致聚类结果较差的缺陷，可以自适应地进行聚类中心的选择。

附图说明

下面对本发明说明书中每幅附图表达的内容作简要说明：

图1为基于局部密度和聚类中心优化的密度峰聚类方法流程图；

图2为密度距离计算阶段流程图；

图3为聚类中心选择阶段流程图；

图4为剩余样本分配阶段流程图。

具体实施方式

如图1所示，基于局部密度和聚类中心优化的密度峰聚类方法包括以下步骤：

步骤1：密度距离计算阶段：在密度距离计算过程中，首先定义k近邻集、共享近邻相似度的概念，依次计算样本的k近邻集，将共享近邻相似度的概念引入样本局部密度的计算中，通过将样本与k近邻集中样本之间的共享近邻相似度和欧氏距离进行统一计算样本的局部密度。最短距离为样本到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长距离；

步骤2：聚类中心选择阶段：在聚类中心选择过程中，根据聚类中心特征，理想的聚类中心为最短距离大并且局部密度相对较大的样本，根据步骤1得到的样本的局部密度和最短距离，自适应地进行聚类中心的选择；

步骤3：剩余样本分配阶段：在剩余样本分配过程中，根据样本的密度和距离将剩余样本进行划分，将样本按照局部密度由大到小排序，若样本未被分配，就将该样本分配到距其最近并拥有较高密度的样本所在的类簇中。否则，对下一个样本进行分配。

如图2所示，密度距离计算阶段包括以下步骤：

步骤1.1、假定数据集X_N×M＝[x₁,x₂,...,x_N]^T，对于任意向量x_i＝[x_i1,x_i2,...,x_iM]表示样本x_i(1≤i≤N)的M个属性，N为样本总个数。利用以下公式，计算样本x_i和样本x_j(1≤j≤N)的欧氏距离：

步骤1.2、记KNN(x_i)为样本x_i的k近邻集。定义式如下：

KNN(x_i)＝{x_j∈X|d(x_i,x_j)≤dk(x_i)}，

其中dk(x_i)为数据集X中的样本x_i到其他样本的欧氏距离升序排列的第k个距离。

步骤1.3、记SNN(x_i,x_j)为样本x_i和样本x_j的共享近邻相似度。定义式如下：

SNN(x_i,x_j)＝|KNN(x_i)∩KNN(x_j)|，

其中KNN(x_i)和KNN(x_j)分别为样本x_i和样本x_j的k近邻集，共享近邻相似度就等于两个样本k近邻集的交集中元素的个数。

步骤1.4、记ρ_i为样本x_i的局部密度。定义式如下：

样本x_i与其k近邻集中样本的欧氏距离和共享近邻相似度两种准则进行统一度量样本间的相似度来计算局部密度ρ_i。

步骤1.5、记δ_i为样本x_i的最短距离。通过以下公式：

计算样本x_i的最短距离δ_i，δ_i为x_i到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，最短距离就等于该样本到其他样本的最长距离。

如图3所示，聚类中心选择阶段包括以下步骤：

步骤2.1、基于密度距离计算阶段，已经得到样本的局部密度ρ和最短距离δ，理想的聚类中心为高δ值和相对较高ρ值的样本，因此通过计算γ_i＝ρ_i×δ_i，将样本按照γ值降序排列记为并初始化聚类中心队列Q。

步骤2.2、将γ值最大的样本加入队列Q，标记其为已访问并为其分配类标号。

步骤2.3、依次取出样本若满足条件a)和b)：a).b).未被访问，则将其加入到队列Q中，标记为已访问，并为其分配类标号；

如图4所示，剩余样本分配阶段包括以下步骤：

步骤3.2、依次取出中的样本

步骤3.3、若样本是在数据集X_N×M中不在聚类中心队列Q中的样本，即没有被分配到任何一个簇的剩余样本，则将其他样本到的欧氏距离按升序排序记作

步骤3.4、依次取出中的样本

步骤3.5、若不满足条件则j+1，转到步骤3.4。若满足条件，则将分配到所在类簇，并标记样本为已访问，若i≠N，则i+1，转到步骤3.2。否则，已对所有剩余样本进行分配，完成聚类过程。

为了验证该发明的有效性，实验在UCI数据集和模拟数据集上进行了仿真，并采用准确率(Accuarcy)、标准化互信息(NMI)、F值(F-Measure)三种评价指标对聚类结果进行评价，并将实验结果与DPC算法、DBSCAN算法、K-means算法、SC算法进行比较。

表1数据集基本特征

数据集	样本个数	属性个数	类簇个数T
				Iris	150	4	3
Wpbc	198	33	2
				Heart	303	13	2
Balance	625	4	3
				Aggregation	788	2	7
R15	600	2	15
				Size5	1000	2	4
Forty	1000	2	40

针对UCI数据集，本发明方法与对比算法的实验结果如表2所示。针对模拟数据集，本发明方法与对比算法的实验结果如表3所示。其中加粗数据表示最优结果

表2聚类算法在UCI数据集上的实验结果

表3聚类算法在模拟数据集上的实验结果

实验结果表明，在UCI数据集上，本发明方法中新的基于共享近邻相似度的局部密度计算方式和聚类中心选择方式在聚类中心选择的正确性以及聚类结果的准确性较原始DPC算法有了一定程度的提高并且优于其他对比聚类算法。在模拟数据集上，本发明方法在评价结果中相较其他算法有明显的优势。对于DPC算法聚类效果不够理想的模拟数据集，通过该发明方法可以改进其聚类效果；对于DPC算法聚类效果已经比较理想的模拟数据集，本发明方法也可以保持其聚类效果。

Claims

1.一种基于局部密度和聚类中心优化的密度峰聚类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的密度峰聚类方法，其特征在于：所述步骤1中，先定义k近邻集、共享近邻相似度，之后依次计算样本的k近邻集，将共享近邻相似度引入样本局部密度的计算中，最后通过将样本与k近邻集中样本之间的共享近邻相似度和欧氏距离进行统一计算样本的局部密度；所述最短距离为该样本到比该样本密度高的样本之间的最短间距，若该样本为最高密度的样本，则最短距离为该样本到其他样本的最长间距。

3.根据权利要求1所述的密度峰聚类方法，其特征在于：所述步骤2中，理想的聚类中心为最短距离大并且局部密度相对较大样本，根据步骤1得到的样本的局部密度和最短距离，自适应地进行聚类中心的选择。

4.根据权利要求1所述的密度峰聚类方法，其特征在于：所述步骤3中，将样本按照局部密度由大到小排序，若样本未被分配，则将该样本分配到距其最近并拥有较高密度的样本所在的类簇中，否则，对下一个样本进行分配。

5.根据权利要求1或2所述的密度峰聚类方法，其特征在于：所述步骤1包括以下步骤：

步骤1.2、记KNN(x_i)为样本x_i的k近邻集，定义式如下：

KNN(x_i)＝{x_j∈X|d(x_i,x_j)≤dk(x_i)}，

SNN(x_i,x_j)＝|KNN(x_i)∩KNN(x_j)|，

步骤1.4、记ρ_i为样本x_i的局部密度，定义式如下：

步骤1.5、记δ_i为样本x_i的最短距离，通过以下公式：

6.根据权利要求1或3所述的密度峰聚类方法，其特征在于：所述步骤2包括以下步骤：

7.根据权利要求1或4所述的密度峰聚类方法，其特征在于：所述步骤3包括以下步骤：

步骤3.2、依次取出中的样本

步骤3.4、依次取出中的样本