CN104951505A

CN104951505A - 一种基于图计算技术的大规模数据聚类方法

Info

Publication number: CN104951505A
Application number: CN201510260191.XA
Authority: CN
Inventors: 周薇; 马宏远; 包秀国; 程工; 刘纬; 刘春阳; 王卿; 韩冀中; 庞琳; 李雄; 刘玮; 贺敏
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2015-05-20
Filing date: 2015-05-20
Publication date: 2015-09-30

Abstract

本发明公开了一种基于图计算技术的大规模数据聚类方法。本方法为：1)从待处理图数据的所有顶点中选取N个顶点作为候选聚类中心；2)设置每一候选聚类中心的簇标签值，然后根据一加权无向图G将候选聚类中心合并，将属于同一聚类簇的候选聚类中心划分到同一集合中；3)候选聚类中心将包含自己当前簇标签值以及权重的消息传递给相邻顶点；收到消息的顶点根据簇标签值将本次迭代收到的所有消息分成不同的类别，然后生成新的消息并在下一迭代时传递给相邻顶点；4)迭代结束后，对于每一顶点，计算具有相同标签类型的边的权重之和，得到每一顶点最后的结果值；将具有相同结果值的顶点聚为一类。本发明节约了时间和存储开销。

Description

一种基于图计算技术的大规模数据聚类方法

技术领域

本发明涉及一种基于图计算技术的大规模数据聚类方法，属于软件技术领域。

背景技术

聚类技术是最重要的数据挖掘技术之一，获得了极大的关注，比如专利ZL 200910211714.6聚类方法和***；ZL 201110418812.4，一种面向SNP数据的聚类方法等技术，聚类技术根据特定标准来查找具有相似之处的对象。例如，在社区检测，话题追踪和意见领袖等社交网络应用中，根据用户的行为和兴趣爱好，利用聚类技术可以快速的发掘类似的群体。传统的聚类解决方案，如CLARANS，BIRCH和DESCAN是单机聚类算法，适合于小规模数据集，具有较低的可扩展性。

为了解决上述问题，学者提出了并行聚类算法。这些方法包括基于MapReduce的K-Means并行算法，基于Pregel的半聚类算法以及RankCompete等。

MapReduce是一个分布式编程模型，它使用迭代的方式执行聚类，采用本地文件***或者分布式文件***维护中间结果，这种方式会导致过度的存储开销，同时也影响执行性能。因此，基于MapReduce的K-Means并行聚类算法非常耗费时间。

为了提升性能，业界学者提出将大同步模型(Bulk Synchronization Model,BSP)应用到大规模聚类算法中。BSP模型采用消息传递来保存中间结果，减小了性能开销。例如，Pregel就是Google提出的基于BSP的图计算模型，基于Pregel及基于它的一种半聚类方案。

然而，基于BSP的聚类算法并不能彻底解决上述问题。在存储中间结果方面，它们仍然存在较高的内存开销。除此之外，它们还需要在顶点之间进行若干消息传输。如果一个顶点有繁重的工作负载，在指定的时间内无法完成需要的计算，消息传输可能会有延迟，从而极大的降低BSP模型的整体性能。此外，还有其他大规模聚类解决方案，如RankCompete，其仅被用于聚类web图片，其应用领域较为狭窄。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提出一种基于分布式图计算平台的聚类算法，相比于当前其它主流的解决方案而言，具有更小的时间和存储开销。

本发明采用一种基于分布式PageRank的算法来确定聚类中心。聚类中心代表社交网络中最重要的顶点，具有较高PageRank值的顶点将被视为聚类中心的候选顶点。该方法与那些随机选择聚类中心的传统方法相比，有更好的聚类效果。也可以使用其他方法来确定聚类中心，比如Canopy算法来获取聚类中心，或者由程序开发人员指定。

本发明在聚类中心的基础上，设计了一种高效的分布式聚类算法，它不仅占用较少的物理内存空间，也可以在短时间内完成。其主要思想是利用PageRank信息传递的优势实现快速收敛，可以非常快的扩散聚类中心的影响。本发明使用影响力来表示一个顶点对其它顶点的影响程度，一个聚类中心在比其它中心点更靠近某一顶点时，该聚类中心对这一顶点的影响力越大。

本发明的技术方案为：

一种基于图计算技术的大规模数据聚类方法，其步骤为：

1)从待处理图数据的所有顶点中选取N个顶点作为候选聚类中心，得到一候选聚类中心列表；

2)设置每一候选聚类中心的簇标签值，然后根据一加权无向图G将所述候选聚类中心进行合并，将属于同一聚类簇的候选聚类中心划分到同一集合中，将顶点聚为k类；其中，N大于k，同一集合中的候选聚类中心采用同一标签；

3)根据该加权无向图G，每个候选聚类中心将包含自己当前簇标签值以及权重的消息传递给相邻顶点；收到消息的顶点根据消息中的簇标签值将本次迭代收到的所有消息分成不同的类别，然后生成新的消息并在下一迭代过程中将其传递给相邻顶点；

4)迭代结束后，对于每一顶点，计算具有相同标签类型的边的权重之和，得到每一顶点最后的结果值；然后将图数据中具有相同结果值的顶点聚为一类。

进一步的，采用PageRank算法计算所有顶点的PageRank值；然后选取PageRank值最高的N个顶点作为所述聚类中心。

进一步的，N为k的10倍。

进一步的，所述步骤2)的具体步骤包括：

41)将所述候选聚类中心设置不同的簇标签值，且簇标签值有一定的间隔区间；

42)根据图G，每个顶点把自己的簇标签值发送给邻居顶点；

43)如果顶点a的簇标签值小于接收到的消息中的簇标签值，则顶点a更新自己的簇标签值为收到的消息中的簇标签值；

44)重复步骤42)、43)直到迭代结束，然后将具有相同簇标签值的候选聚类中心合并到同一集合中。

进一步的，计算所述结果值的方法为：其中，SUM_a是顶点a具有同一标签类型e的所有边的权重之和，m是标签类型e的边数目，EDGE_a为每条边的权重。

进一步的，所述迭代结束的条件为满足设定的迭代次数或簇标签值不再发生变化。

与现有技术相比，本发明的积极效果为：

本发明相比于当前其它主流的解决方案而言，更加适合处理大规模图数据，具有更小的时间和存储开销。

附图说明

图1为本发明的聚类算法流程图；

图2为两种算法的时间开销对比图；

图3为两种算法的模块化值对比图；

图4为内存开销对比图；

图5为顶点A计算它的标签示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提供了一种基于图计算技术的分布式聚类算法，将同一聚类结果中的顶点确定为相似对象，如图1所示。

选择聚类中心

聚类算法使得同一簇中的顶点比在不同簇中的顶点具有更紧密的联系(相似度更大)。合理的选择聚类中心对准确的将顶点聚类成若干子集有很大的帮助。在本发明的方法中，首先使用标准的PageRank算法计算所有顶点的PageRank值。然后，降序排列所有的顶点的PageRank值。在此过程中，本发明算法并没有保存所有顶点信息，而是保存了处于最高PageRank值范围的小部分顶点信息，忽略其他顶点，这种方法大大降低了存储消耗。最后，从列表中选择足够数量的顶点将其作为聚类中心。需要注意的一点是，选择的顶点数一般要大于***实际需求的聚类中心数目，这样可以避免一些具有很高PageRank值的顶点已经被包含在同样的簇中导致的数据重叠问题。

本发明算法的输入包括一个加权无向图G，它的输出是10k个按照顶点PageRank值降序排序的列表，其中k是最终聚类的簇数目。

算法1选择聚类中心

步骤1初始化每个顶点的初值；

步骤2每个顶点把自己的初值发送给邻居顶点；

步骤3每个顶点收到信息后，累加其收到的所有信息

步骤4按照一定权重更新该顶点的值，如a×顶点的值+b×累加值(其中a+b＝1)，然后得到更新后的顶点值；

步骤4顶点把自己更新的值再发送给邻居顶点；

步骤5重复步骤3一直到达到迭代次数或者顶点的值不再发生变化；

步骤6排序每个顶点最后的PageRank值；

步骤7选取10k个排序最高的PageRank值作为初步候选聚类中心。

算法1选择聚类中心

上述算法生成的候选聚类中心列表将被应用于下一步的聚类簇扩展操作。

聚类过程

聚类中心确定后，本发明使用一种新的聚类算法来扩展每个聚类簇的范围，该算法可以迅速扩散聚类中心的影响，并快速收敛。

步骤1：合并同一聚类簇中的多个候选聚类中心。方法如下：最初，当为这些候选聚类中心生成簇标签时，加大标签之间的间隔。例如，有五个候选聚类中心A、B、C、D和E，分配给它们的标签分别为10、50、100、150和200。接下来，每个顶点生成包含此值的消息并向邻居顶点传递此消息。在这个过程中，对于每个顶点而言，收到的消息中最多的标签将被设置为新标签。当前它们自己的老标签将会成为下一次传递消息的值，这个迭代过程将一直持续直到标签不再发生改变。

算法2详细描述了在一个聚类簇中合并多个聚类中心的算法，输入是一个加权无向图G以及由算法1生成的排序中心列表，输出是属于同一聚类簇的聚类中心(顶点)集合。

算法2在同一个簇中合并簇中心

步骤1)将算法1获得的初步聚类中心设置不同的簇标签值，且簇标签值有一定的间隔区间，如聚类中心A的簇标签值为10，聚类中心B的簇标签值为20，依次类推；

步骤2)根据图G，每个顶点把自己的簇标签值发送给邻居顶点；

步骤3)如果本顶点的簇标签值小于接收到的消息中的簇标签值，那么就更新本顶点的簇标签值为收到的消息中的簇标签值；

步骤4)重复步骤2)、3)一直达到迭代次数。将具有相同簇标签值的候选聚类中心合并到同一集合中，同一个集合中的候选聚类中心采用同一标签。

步骤2：扩展聚类中心的范围。聚类中心可以通过其相邻顶点的输出边扩散它的影响，因此，通过反复迭代让聚类中心能够影响到越来越多的顶点。操作如下：

首先，根据图G，每个中心将包含自己当前簇标签值以及权重的消息传递给相邻顶点。例如，假设中心A有两个邻居M和N，A通过它的输出边将它自己的影响以及标签信息传输出去。顶点M和N，相应地在下一轮迭代中传送它们的影响给自己的邻居。对于每一个顶点，每一次迭代接收到消息之后，它会根据消息包含的簇标签值将所有的消息分成不同的类别。然后，自己生成新的消息并在下一个迭代过程中将它们传递出去。这一过程将一直持续直到满足用户的需求(可以有两种结束方式，一种是用户指定了迭代多少次，一种是自动的方式，就是直到簇标签值不再发生变化)。最后，迭代结束后采用公式5计算具有相同标签类型的边的权重之和，得到的SUMa是顶点a最后的结果值。

{SUM}_{a} = Σ_{i = 1}^{m} {EDGE}_{a} - - - (5)

式中SUM_a是具有同一标签类型e的所有边的权重之和。m是标签类型e的边数目，EDGE_a为每条边的权重。

算法3生成聚类簇的过程

步骤1对于每个顶点，值相同的作为同一个簇，写到一个队列中；

步骤2输出每个聚类簇；

实例1聚类算法的性能

本实验在三个数据集上比较本发明提出的算法与半聚类算法的响应延迟，结果如图2所示。结果表明，本发明提出的算法性能显著优于半聚类算法。例如，对于拥有326186个顶点的数据集2而言，本发明算法的平均响应时间为230秒，而半聚类算法需要4286秒以上。本发明算法用不到半聚类算法5％的时间就可以得到结果。在数据集3中(862664顶点)，只花了半聚类算法12％的时间。

为了测量聚类的准确度，本发明也比较了两种算法的模块度，如图3所示。在所有的情况下，本发明提出的算法比半聚类取得更好的性能。例如，对于具有69244个顶点的数据集1，本发明的算法的模块度是0.5638，而半聚类算法得到是0.4806，本发明的算法比半聚类算法高17.3％。在数据集3上，本发明算法的模块化值为0.7127，而半聚类算法只有0.6233，仍然比它高14.3％。

实例2聚类算法的内存开销

下面在内存消耗方面比较了本发明的算法和半聚类算法，结果如图4所示，本发明算法的内存消耗比半聚类算法小很多。对于69244个顶点的数据集，在程序执行若干秒后，半聚类算法的内存开销迅速增加。在第10秒时，内存开销达到5GB，并且不断的增长，在它释放所有内存之前，最高内存开销达到7GB。而本发明算法在12秒内只需要2GB左右内存的开销。在其它的数据集获得了类似的对比结果。

表1～3是使用上述算法计算出的PageRank值。顶点1比其它相邻顶点具有更高的PageRank值，因而被选作簇A的聚类中心，同理可知，顶点6，12被选为簇B和C的中心。

表1聚类簇A中PageRank的值

簇A	1	2	3	4	5
						PR值	0.138	0.038	0.038	0.038	0.038

表2聚类簇B中PageRank的值

簇B	6	7	8	9	10	11
							PR值	0.126	0.046	0.031	0.053	0.031	0.031

表3聚类簇C中的PageRank的值

簇C

12

13

14

15

16

17

18

PR值

0.165

0.033

0.054

0.033

在一个聚类簇中合并聚类中心(初始：顶点A：10顶点B：50顶点C：100顶点D：150顶点E：200；结果：顶点A：100顶点B：100顶点C：100顶点D：200顶点E：200)。

图5举例描述了步骤2的过程，在此图中，图数据有6个顶点。顶点A通过比较接收到消息的不同标签值计算它自己的标签，然后根据权重之和选择对应的标签。消息权重之和可以根据公式5计算得到，标签a生成之后，它将这个标签发送给它的邻居。

Claims

1.一种基于图计算技术的大规模数据聚类方法，其步骤为：

2.如权利要求1所述的方法，其特征在于，采用PageRank算法计算所有顶点的PageRank值；然后选取PageRank值最高的N个顶点作为所述聚类中心。

3.如权利要求1或2所述的方法，其特征在于，N为k的10倍。

4.如权利要求1或2所述的方法，其特征在于，所述步骤2)的具体步骤包括：

42)根据图G，每个顶点把自己的簇标签值发送给邻居顶点；

5.如权利要求1所述的方法，其特征在于，计算所述结果值的方法为：其中，SUM_a是顶点a具有同一标签类型e的所有边的权重之和，m是标签类型e的边数目，EDGE_a为每条边的权重。

6.如权利要求1所述的方法，其特征在于，所述迭代结束的条件为满足设定的迭代次数或簇标签值不再发生变化。