CN104217015B

CN104217015B - 基于互为共享最近邻的层次聚类方法

Info

Publication number: CN104217015B
Application number: CN201410488243.4A
Authority: CN
Inventors: 周红芳; 王心怡; 刘园; 郭杰; 段文聪; 何馨依; 刘杰; 李锦�
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2017-11-03
Anticipated expiration: 2034-09-22
Also published as: CN104217015A

Abstract

本发明公开了基于互为共享最近邻的层次聚类方法，首先计算整个数据集D的最近邻矩阵T1和最近邻矩阵T2；由最近邻矩阵T1和最近邻矩阵T2计算出最近邻排名矩阵M；通过最近邻排名矩阵M计算出局部密度，得到子簇集合；最后计算子簇间的相似度，凝聚子簇得到最终划分结果。本发明的基于互为共享最近邻的层次聚类方法，解决了现有的基于K近邻图聚类在稀疏化和图划分过程中产生子簇集合时存在的点划分错误导致聚类精度低的问题。

Description

基于互为共享最近邻的层次聚类方法

技术领域

本发明属于计算机科学与技术的数据挖掘技术领域，涉及一种基于互为共享最近邻的层次聚类方法。

背景技术

在数据挖掘领域中聚类分析是一项重要的研究课题。聚类技术已经被广泛应用到电信业、零售业、生物学、市场营销等领域。聚类是一种无监督的分类，是用来发现数据集中于对象本身特征而聚集成簇的数据点，并且保证簇内具有尽可能大的相似度、簇间具有尽可能大的相异度。现有的聚类算法一般分为：1.以K-means、Fuzzy K-means、k中心点为代表的基于划分的聚类算法；2.以QROCK、CURE、BIRCH、为代表的基于层次的聚类算法；3. 以DBSCAN、OPTICS为代表的基于密度的聚类算法；4.其他类型的聚类算法，例如基于子空间的聚类算法或者基于模型的聚类算法。

基于k近邻图的聚类算法如Chameleon算法在稀疏化和图划分的过程中产生的子簇集合时，一个子簇包含的全部或者大部分的点是属于同一个真正的簇。但是，其中包含的错误数据可能会导致下个阶段的凝聚层次聚类结果混合这些错误，导致更大的偏差。基于SNN相似度的Jarvis-Patrick算法存在着***一个真正的簇，合并本该***的簇。这两类算法的共同点是构建了 k近邻图，或基于k近邻的共享最近邻的相似度图，在稀疏化相似度图或K 最近邻图时，就可能会将数据点划分错误，并且在凝聚簇的过程中会将错误放大。

发明内容

本发明的目的是提供一种基于互为共享最近邻的层次聚类方法，解决了现有的基于K近邻图聚类在稀疏化和图划分过程中产生子簇集合时存在的点划分错误导致聚类精度低的问题。

本发明所采用的技术方案是，基于互为共享最近邻的层次聚类方法，将待处理的数据集设为D，设聚类数为K，设最近邻值一为K1，设最近邻值二为K2，具体按照以下步骤实施：

步骤1，分别通过最近邻值一K1和最近邻值二K2计算数据集D的最近邻矩阵，得到最近邻矩阵T1和最近邻矩阵T2；

步骤2，依次查找数据集D中每一个数据点i的最近邻矩阵T2中的每一个邻域点的最近邻矩阵T1 ’ ，如果最近邻矩阵T1 ’ 中包含数据点i，则将最近邻矩阵T2中的该数据点i保留，否则将其删除，得到数据点i的最近邻排名矩阵M_i，遍历数据集D中的所有数据点，得到最近邻排名矩阵M；

步骤3，通过最近邻排名矩阵M计算出数据集D中每一个数据点i的局部密度D_i，并且将这些数据点按照局部密度D_i的大小进行降序排列；

步骤4，取排序后的前K×10个数据点作为子簇中心点，并以子簇中心点和子簇中心点的最近邻排名矩阵中的最近邻域点组成子簇；将未进行划分的数据点划分到该数据点的最近邻中最先出现的子簇中，得到若干子簇；

步骤5，计算步骤4最终得到的各子簇两两之间的相似度，将相似度最大的子簇对进行合并；

步骤6，合并后的子簇数目如果小于K，则执行步骤5；合并后的子簇数目如果等于K，则执行步骤7；

步骤7，将数据集D中从未被分配的数据点i划分到离未被分配的数据点最近的子簇中，得到最终的划分结果，划分结果为K个子簇。

本发明的特点还在于，

步骤3中局部密度D_i按照以下公式计算：

D_i＝count(M_i),i∈n (1)

其中，M_i为最近邻排名矩阵M中第i个数据点的最近邻排名矩阵。

步骤5中子簇两两之间的相似度按照以下方法计算：

设有子簇C_i，子簇C_j，0<i,j≤n，最近邻排名矩阵M，则：子簇两两之间的相似度为：

其中，NumNeighborC_i(C_j)是子簇C_i中的点在最近邻排名矩阵M中的所有最近邻的点，在这些最近邻点的最近邻域中，出现属于子簇C_j的点的次数；

NumNeighborC_i(C_i)是子簇C_i中的点在最近邻排名矩阵M中的所有最近邻的点，在这些最近邻点的最近邻域中，出现属于子簇C_i的点的次数；

CountNeighbor(C_i)是子簇C_i中的点在最近邻排名矩阵M中的所有最近邻的点，这些最近邻点分属不同子簇的子簇数；

CountNeighbor(C_j)是子簇C_j中的点在最近邻排名矩阵M中的所有最近邻的点，这些最近邻点分属不同子簇的子簇数。

步骤4中将未进行划分的数据点划分到该数据点的最近邻中最先出现的子簇中，是指该数据点的最近邻排名矩阵M_i中的所有最近邻域点中如果包含有子簇中心点，就将该数据点i划分到该子簇中；如果该数据点i的最近邻排名矩阵中的所有最近邻域点中包含有多个子簇中心点，则将该数据点i 划分到排名靠前的那个子簇中心点的子簇中。

步骤7中离未被分配的数据点最近的子簇，指数据集D中从未被分配的数据点与步骤6中得到的K个子簇之间的欧几里得距离最小的子簇。

本发明的有益效果是：

1.聚类效果好。本发明在合成数据集DB1、DB2、DB3以及UCI标准数据集Iris、Wine、Soybean、Unbalanced上具有明显的优势结果，能得到具有较高聚类总纯度及较低信息熵的聚类结果。

2.聚类精度高。本发明的相似度函数对于已合并的错误的簇，会将合并错误的簇推放到更晚的时刻来进行下一步的合并，能够有效的避免错误的一步步累积扩大，得到更好的聚类精度。

附图说明

图1是本发明基于互为共享最近邻的层次聚类方法的流程示意图；

图2是本发明基于互为共享最近邻的层次聚类方法聚类过程中数据集的初始状态图；

图3是本发明基于互为共享最近邻的层次聚类方法为选取数据集中局部密度值最大的数据点形成的候选中心点图；

图4是本发明实验中用到的合成数据集DB1；

图5是本发明实验中用到的合成数据集DB2；

图6是本发明实验中用到的合成数据集DB3；

图7是本发明实验中用到的合成数据集DB4；

图8是本发明基于互为共享最近邻的层次聚类方法对合成数据集DB1 的聚类结果图；

图9是本发明基于互为共享最近邻的层次聚类方法对合成数据集DB2 的聚类结果图；

图10是本发明基于互为共享最近邻的层次聚类方法对合成数据集DB3 的聚类结果图；

图11是本发明基于互为共享最近邻的层次聚类方法对合成数据集DB4 的聚类结果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明中的相关定义如下：

定义1 最近邻排名矩阵，是指以数据点及其互为最近邻数据点为行构建的矩阵。

定义2 局部密度，是数据点所在的局部区域在整个数据集中稠密程度的表示，大小等于该数据点最近邻域的点的个数。

定义3 一个类簇C_i的纯度：聚类结果的总纯度是：

其中，p_i是指类簇C_i的纯度；

mi指类簇C_i中数据点的个数；

m指数据集中数据点的总数；

k指数据集D中类簇的个数；

定义4 聚类结果的熵：

首先，需要计算类簇C_i中数据点属于类簇C_j的概率：

其中，m_i是类簇C_i中数据点的个数；

m_ij是类簇C_i中属于类簇C_j的点的个数。

然后，计算每个类簇C_i的熵

L是类簇的个数。

最后，计算聚类结果的熵

K为簇的个数；

m_i是类簇C_i中数据点的个数；

m为数据集中数据点的总数。

定义5 F度量是精度和召回率的组合。

类簇C_i关于类簇C_j的精度:

precision(i,j)＝p_ij (7)

类簇C_i关于类簇C_j的召回率

由此得：类簇C_i关于类簇C_j的F度量

本发明提供了一种基于互为共享最近邻的层次聚类方法，将待处理的数据集设为D，设聚类数为K，设最近邻值一为K1，设最近邻值二为K2，如图1所示，具体按照以下步骤实施：

步骤3，通过最近邻排名矩阵M计算出数据集D中每一个数据点i的局部密度D_i，并且将这些数据点按照局部密度D_i的大小进行降序排列；局部密度D_i按照以下公式计算：

D_i＝count(M_i),i∈n (1)

其中，M_i为最近邻排名矩阵M中第i个数据点的最近邻排名矩阵；

步骤4，取排序后的前K×10个数据点作为子簇中心点，并以子簇中心点和子簇中心点的最近邻排名矩阵中的最近邻域点组成子簇；将未进行划分的数据点划分到该数据点的最近邻中最先出现的子簇中，得到若干子簇；将未进行划分的数据点划分到该数据点的最近邻中最先出现的子簇中，是指该数据点的最近邻排名矩阵M_i中的所有最近邻域点中如果包含有子簇中心点，就将该数据点i划分到该子簇中；如果该数据点i的最近邻排名矩阵中的所有最近邻域点中包含有多个子簇中心点，则将该数据点i划分到排名靠前的那个子簇中心点的子簇中；

步骤5，计算步骤4最终得到的若干子簇两两之间的相似度，将相似度最大的子簇对进行合并；子簇两两之间的相似度按照以下方法计算：

设有子簇C_i，子簇C_j，0<i，j≤n，最近邻排名矩阵M，则：子簇两两之间的相似度为：

CountNeighbor(C_j)是子簇C_j中的点在最近邻排名矩阵M中的所有最近邻的点，这些最近邻点分属不同子簇的子簇数；

步骤7，将数据集D中从未被分配的数据点i划分到离未被分配的数据点最近的子簇中，得到最终的划分结果，划分结果为K个类簇；其中，离未被分配的数据点最近的子簇，指数据集D中从未被分配的数据点与步骤6 中得到的K个子簇之间的欧几里得距离最小的子簇。

实施例：

本发明基于互为共享最近邻的层次聚类方法，由三个关键步骤组成：计算最近邻域矩阵、矩阵划分、层次聚类。首先计算整个数据集D的最近邻矩阵T1和最近邻矩阵T2，(参数k1，k2是输入参数，k2>k1)；由最近邻矩阵 T1和最近邻矩阵T2计算出最近邻排名矩阵M；通过最近邻排名矩阵M计算出局部密度，得到子簇集合；最后计算子簇间的相似度，凝聚子簇得到K 个类簇。

首先，计算最近邻域矩阵，具体过程如下：

假设数据集D的k1最近邻域矩阵为k1为输入参数，0<i≤n, 0<j≤k1；数据集D的k2最近邻域矩阵为k2为算法输入参数，0<i≤n, 0<j≤k2,k1<k2，则：最近邻排名矩阵M＝[x_ij]，且0<i≤n,0<j≤k2。通过控制参数k1,k2的大小(减小k1,增大k2)，可以得到更大且更稠密的子簇。条件中的为的前k1 列。

以图2中的数据集X为例，首先计算出图2中数据集X的最近邻矩阵 T1和最近邻矩阵T2，如表1所示；然后以最近邻矩阵T2为基础，对每个数据点xi的最近邻进行过滤，如果最近邻中的点在T1最近邻中包含xi，则保留这个邻域点，否则删除邻域点。例如，点0的k2最近邻(k2＝10)为 {4,2,1,3,5,6,11,9,7,10}，点4的T1最近邻(k1＝3)为{2,3,0}，包含点0，则保留下来，按照上述方法依次查询邻域中的点，最终得到点0的最近邻排名为 {4,2}。遍历所有数据点，得到最终的最近邻排名矩阵，如表2所示。

表1 图1中数据集X的K最近邻，K＝10

数据点	K最近邻列表
		0	4,2,1,3,5,6,9,11,10,7
1	3,5,4,0,2,6,9,10,7,14
		2	4,0,3,1,5,11,6,15,14,9
3	4,1,2,0,5,11,6,14,15,10
		4	2,0,3,1,5,6,11,14,9,15
5	6,1,9,10,3,7,8,14,4,0
		6	9,7,5,8,10,1,14,3,0,4
7	8,9,6,10,5,1,14,3,0,4
		8	9,7,10,6,5,14,1,3,12,15
9	8,10,6,7,5,14,1,3,15,12
		10	9,8,6,7,5,14,1,12,15,3
11	13,15,14,12,3,2,4,1,5,0
		12	15,14,13,11,10,9,5,8,3,6
13	15,11,12,14,3,10,5,4,2,1
		14	15,12,10,5,9,13,11,8,6,3
15	13,12,14,11,10,3,5,1,9,4

表2 最近邻排名矩阵

数据点	互为最近邻列表
		0	4,2
1	3,5,0
		2	4,0，3
3	4,1,2
		4	2,0,3，1
5	6,1
		6	9,7,5,10
7	8,6
		8	9,7,10
9	8,10,6,7,5
		10	9,8，14
11	13
		12	15,14，13
13	15，11，12
		14	15,12，11
15	13,12,14,11

其次，通过邻域矩阵计算出局部密度，得到子簇集合。

设有最近邻排名矩阵M，Mi表示第i个数据点的最近邻矩阵，则局部密度

D_i＝count(M_i),i∈n (1)

即一个数据点的最近邻域的点的个数越多，则这一数据点所在的局部区域在整个数据集中越稠密。因此，当一个数据点的局部密度很大时，就被认为是它的这一邻域的中心点。

例如：通过表2可以计算出每个点的局部密度并排序，得到结果如表3 所示。这里，选取K*2个点作为候选簇的中心点(K为数据集的聚类数)。并且，从图2可以看出由11-15号点组成的类的密度远远小于图上方的两个类的密度，但是也可以求出它的中心点15号，这是由于基于最近邻的排名矩阵并不是直接依赖距离函数作为度量，而是使用相互的距离排名关系作为度量依据，由此来计算局部密度，获得局部密度的极大点，使得能够处理不同密度的簇。

表3 局部密度的排序结果

数据点	局部密度
		9	5
4	4
		6	4
15	4
		1	3
2	3
		3	3
8	3
		10	3
12	3
		13	3
0	2
		5	2
7	2
		14	2
11	1

最后，根据类簇相似度进行聚类。

设有Ci，Cj，0<i,j≤n，最近邻排名矩阵M，则：子簇相似度为：

对于类Ci和类Cj的相似度定义，包含两个部分，一部分是子簇Ci，它对子簇Cj的相似度；另一部分是子簇Cj，它对子簇Ci的相似度，即它们之间的相似度不是对等的。例如，对于人与人之间的关系来说，PersonA的最好朋友是PersonB，并且只有一个，而对于PersonB来说可能有最好的朋友有很多个，PersonA只是其中一个，因此如果用数值衡量好友度的话，他们之间的好友度并不相等。所以，对于合并子簇对来说，我们采取这样一种策略来合并：每个子簇的邻近的子簇数目最小，并且子簇对之间的最近邻的点的数目最多。

例如在图3中所示结果，进一步将所有的数据点按照最近邻排名矩阵划分到最近的候选中心点的子簇中，得到结果如表4所示。接下来，根据最近邻排名矩阵，统计出子簇邻接其他子簇的次数，得到结果如表5所示。计算 6个子簇两两之间的相似度。例如：簇1的邻接簇有两个(使用代表簇的中心点的编号来表示簇)，分别是簇4和簇9，得similarity(C1→C4)＝2/2，同样，计算similarity(C4→C1)＝2/3，两者相加得到簇1和簇4的相似度similarity(C1,C4)＝similarity(C1→C4)+similarity(C4→C1)≈1.667。

表4 将所有的点划分到候选中心点的子簇后，得到的子簇

簇标号	簇中数据点
		1	1
2	2
		4	4,2,0,3,1
6	6
		9	9,8,10,6,7,5
15	15,13,12,14,11

表5 子簇和其邻接子簇的次数统计

簇标号	邻接簇及出现次数
		1	4＝2,9＝1
2	4＝3
		4	1＝2,2＝3,9＝1
6	9＝3
		9	1＝1,6＝4
15	9＝1

本发明聚类方法性能评测：

为了验证本发明聚类方法的有效性，选择两种算法来进行对比：基于图的Chameleon方法和Jarvis-Patrick(JP)方法。Chameleon方法具有较强的发现任意大小和形状的簇的能力。JP方法擅长发现强相关对象的紧密的簇。这两种方法与本发明基于互为共享最近邻的层次聚类方法相同的地方在于都需要计算K最近邻，然后通过各自不同的方法计算得到最终结果。

本发明采用四个人工数据集和6个UCI标准数据集来测试算法性能。四个人工数据集DB1,DB2,DB3,DB4，数据分布分别如图4、图5、图6、图7 所示。6个UCI标准数据集为：cpu-with-vendor,glass,iris,soybean,unbalanced, wine。4个人工数据集和6个UCI标准数据集的属性如表6和表7所示。

表6 人工数据集属性

表7 UCI数据集属性

实验结果对比：

本文使用聚类结果总纯度Purity,精度与召回率组合函数F-measure,聚类结果熵Entropy三种评价函数来评价聚类结果的有效性，三种评价函数的具体定义如上述定义4、定义5和定义6所示。

表8为本发明的基于互为共享最近邻的层次聚类方法与Chameleon方法和JP方法在对比数据集上的实验结果，从图8、图9、图10、图11和表8 中可以看出，本发明的基于互为共享最近邻的层次聚类方法在合成数据集 DB1、DB2、DB3以及UCI标准数据集Iris、Wine、Soybean、Unbalanced 上具有明显的优势结果。通过聚类有效性外部评价指标显示，Chameleon方法和JP方法在某些UCI数据集上有着非常糟糕的结果，其原因是数据集中混合着分类属性的变量，导致由于算法参数设置的原因使得聚类结果非常差。对于一些较小的数据集，例如，Cpu-with-vendor、Glass，本发明的基于互为共享最近邻的层次聚类方法通过相似度函数，能够对于已合并的错误的簇，将其推放到更晚的时刻来进行下一步的合并，这样可以有效的避免错误的一步步累积扩大。

表8 三种方法实验结果对比

Claims

1.基于互为共享最近邻的层次聚类方法，其特征在于，将待处理的数据集设为D，设聚类数为K，设最近邻值一为K1，设最近邻值二为K2，且K1<K2，具体按照以下步骤实施：

步骤2，依次查找数据集D中每一个数据点i的最近邻矩阵T2中的每一个邻域点的最近邻矩阵T1’，如果T1’中包含数据点i，则将最近邻矩阵T2中的该数据点i保留，否则将其删除，得到数据点i的最近邻排名矩阵M_i，最近邻排名矩阵M_i是指以数据点i及其互为最近邻数据点为行构建的矩阵，遍历数据集D中的所有数据点，得到最近邻排名矩阵M；

步骤3，通过最近邻排名矩阵M计算出数据集D中每一个数据点i的局部密度D_i，局部密度D_i是数据点i所在的局部区域在整个数据集中稠密程度的表示，并且将这些数据点按照局部密度D_i的大小进行降序排列；

其中，局部密度D_i按照以下公式计算：

D_i＝count(M_i),i∈n (1)

M_i为最近邻排名矩阵M中第i个数据点的最近邻排名矩阵；

步骤4，取排序后的前K×10个数据点作为子簇中心点，并以子簇中心点和子簇中心点的最近邻排名矩阵中所包含的数据点组成子簇；将未进行划分的数据点划分到该数据点的最近邻中最先出现的子簇中，得到若干子簇；

步骤6，合并后的子簇数目如果小于K，则执行步骤4；合并后的子簇数目如果等于K，则执行步骤7；

步骤7，将数据集D中从未被分配的数据点i划分到离未被分配的数据点最近的子簇中，得到最终的划分结果，所述划分结果为K个类簇。

2.根据权利要求1所述的基于互为共享最近邻的层次聚类方法，其特征在于，步骤5中子簇两两之间的相似度按照以下方法计算：

设有子簇C_x，子簇C_y，0<x，y≤z，最近邻排名矩阵M，则：子簇两两之间的相似度为：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>NumNeighbor</mi> <msub> <mi>C</mi> <mi>x</mi> </msub> </msub> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>b</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <msub> <mi>NumNeighbor</mi> <msub> <mi>C</mi> <mi>x</mi> </msub> </msub> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>b</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，是子簇C_x中的点在最近邻排名矩阵M中的所有最近邻的点，在这些最近邻点的最近邻排名矩阵中，出现属于子簇C_y的点的次数；

是子簇C_x中的点在最近邻排名矩阵M中的所有最近邻的点，在这些最近邻点的最近邻排名矩阵中，出现属于子簇C_x的点的次数；

CountNeighbor(C_x)是子簇C_x中的点在最近邻排名矩阵M中的所有最近邻的点，这些最近邻点分属不同子簇的子簇数；

CountNeighbor(C_y)是子簇C_y中的点在最近邻排名矩阵M中的所有最近邻的点，这些最近邻点分属不同子簇的子簇数。

3.根据权利要求1中所述的基于互为共享最近邻的层次聚类方法，其特征在于，步骤4中所述将未进行划分的数据点划分到该数据点的最近邻中最先出现的子簇中，是指该数据点的最近邻排名矩阵中如果包含有子簇中心点，就将该数据点划分到该子簇中；如果该数据点的最近邻排名矩阵中包含有多个子簇中心点，则将该数据点划分到排名靠前的那个子簇中心点的子簇中。

4.根据权利要求1所述的基于互为共享最近邻的层次聚类方法，其特征在于，步骤7中离未被分配的数据点最近的子簇，指数据集D中从未被分配的数据点与步骤6中得到的K个子簇之间的欧几里得距离最小的子簇。