CN101178720A

CN101178720A - 一种面向互联网微内容的分布式聚类方法

Info

Publication number: CN101178720A
Application number: CNA2007101561893A
Authority: CN
Inventors: 陈珂; 陈刚; 汪源; 胡天磊; 寿黎但
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2007-10-23
Filing date: 2007-10-23
Publication date: 2008-05-14
Anticipated expiration: 2027-10-23
Also published as: CN101178720B

Abstract

本发明公开了一种面向互联网微内容的分布式聚类方法。本发明采用多机分布式聚类的方法，主控机器把要处理的微内容切分成多个小文件，并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类，接着合并这些元聚类结果文件，得到相应的单机聚类合并文件，然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后，从各个单机聚类合并文件中抽取微内容代表点，对这些微内容代表点进行再次元聚类，生成新的聚类项，并将对应的类别合并，得到最后的聚类结果。本发明能够准确、快速地对海量级的互联网微内容进行聚类，是一种既高效又实用的分布式聚类方法。

Description

一种面向互联网微内容的分布式聚类方法

技术领域

本发明涉及对海量互联网微内容进行聚类处理相关的技术，特别是涉及一种面向互联网微内容的分布式聚类方法。

背景技术

近年来，随着计算机宽带用户的持续增加，各种互联网应用不断涌现，互联网快速进入了WEB2.0时代，博客、播客、威客等WEB2.0应用迅速发展，以博客应用为例，据权威调研机构预测，今年全球博客数量将超过1亿人，同时还将不断增长，随着博客用户数的不断增长，用户的评论、留言等微内容也在***式地增加，其中有很多微内容都是广告、大量重复推荐等垃圾信息，它们的存在严重影响了用户的阅读质量，如何高效、快速地对这些海量微内容进行聚类，从而识别出其中的垃圾微内容已成为众多博客服务提供商和广大博客用户共同关心的问题之一；

目前已有许多面向互联网微内容的聚类方法，如比较成熟的贝叶斯、KNN、SVM等，但贝叶斯方法需要有特定的语料库支持，维护代价比较高，而且聚类的效果跟语料库规模、质量有很大的关系，不是理想的聚类方法；另外两种聚类方法KNN和SVM都需要首先计算所有微内容之间的相似度，当微内容的数量级为海量级时，比如千万级o(10⁸)，那么计算所有微内容之间的相似度所需要的时间数量级为o(10¹⁶)，这显然是用户所不能忍受的，因此也不是理想的聚类方法；

发明内容

本发明的目的在于提供一种面向互联网微内容的分布式聚类方法。

本发明解决其技术问题采用的技术方案是，该方法的步骤如下：

1)主控机器首先对微内容文件进行切分操作，得到适合元聚类操作的多个小微内容文件，对输入的微内容文件，按照每个文件固定的记录条数写到多个小文件中，在小文件中一行一条微内容；

2)多台聚类机器对微内容进行分布式聚类操作：

第一步，对于由主控机器切分操作生成的适合元聚类操作的各个小微内容文件，用脚本拷贝到相应的聚类机器上；

第二步，多台聚类机器并行进行聚类操作，每台聚类机器都执行以下两个步骤：

a)对分配到的各个小微内容文件循环进行元聚类操作，生成相应的各个元聚类结果文件；

b)对上面生成的元聚类结果文件进行合并操作，生成单机聚类合并文件，其中合并操作的过程如下：

(1)读取各个元聚类结果文件，从各个聚类项中抽取聚类项代表点，把代表点对应的微内容写到一个临时微内容文件中；

(2)对生成的临时微内容文件再次进行元聚类，然后把聚类结果中归为同一个类的各个代表点对应的类别合并，生成新的聚类项，得到最后的单机聚类合并文件；

第三步，每台聚类机器生成完单机聚类合并文件后，通知主控机器，并把聚类合并文件发送给主控机器，主控机器在接收到各台聚类机器发送来的单机聚类合并文件后，再次对这些文件进行合并操作，生成***总的聚类结果文件，其中合并操作的过程如下：

a)读取各个单机聚类合并文件，从各个聚类项中抽取聚类项代表点，把代表点对应的微内容写到一个临时微内容文件中；

b)对生成的临时微内容文件再次进行元聚类，然后把聚类结果中归为同一个类的各个代表点对应的类别合并，生成新的聚类项，得到***总的聚类结果文件；

3)在上述2)中的对微内容文件进行元聚类操作的步骤如下：

第一步，从微内容数据文件中把各行微内容读出，然后放入队列中，队列中的每个元素为一条微内容，将队列中个各条微内容读出，对它们进行中文分词，去掉停用词，生成相应的关键词序列；

第二步，对各个关键词序列，创建按连续两个关键词组合在一起的关键词为键，包含该两个词组合的微内容编号为值的倒排索引；

第三步，等倒排索引建完，扫描倒排索引，创建以微内容编号作为矩阵行列，微内容两两之间相同单元的数目为值的相关矩阵，在扫描每行倒排项时，将两两微内容编号对应的矩阵元素的值加1；

第四步，等相关矩阵建完，扫描相关矩阵，计算微内容之间的相似度，设两条微内容A＜key₁，...，key_i，...，key_n＞、B＜key₁，...，key_i，...，key_m＞，其中key_i为微内容包含的关键词，则定义A、B之间的相似度sim(A，B)为 sim(A，B)＝(A^B)/(A+B)，其中^表示集合交集，+表示集合并集，(A^B)的值也就是A和B在第二步生成的倒排索引中共同出现的次数，可以从相关矩阵中取得，A+B为A、B在第二步生成的倒排索引中各自出现次数之和减去A、B在第二步生成的倒排索引中共同出现的次数，A、B各自出现的次数可以在扫描倒排索引时获得，在计算完A、B之间的相似度sim(A，B)后，把在第三步生成的相关矩阵中A、B对应的值由(A^B)更新为sim(A，B)；

第五步，扫描更新完的相关矩阵，根据微内容之间的相似度对微内容进行聚类，由于相关矩阵是以JAVA中的HashMap为存储结构，且相关矩阵自身的稀疏特性，所以按照HashMap的自然存放顺序来进行聚类分析，取得HashMap的第i个元素，得到微内容k和1的相似度，如果小于设定的阈值，则忽略该元素并继续处理下个元素，否则进行聚类处理：如果k还没有被聚类，并且1也没有被聚类，则创建以k为中心的聚类，并将1标记为k为中心；否则，如果1被聚类，但是它是该类的中心，则将1类别与k合并，并标记1的类中心为k；否则，找到1的聚类中心，如果该中心微内容编号比k大，则将k归为该类，并标记中心为此中心；否则将该类别与k合并，并修改中心为k；如果k已经被聚类，1没有被聚类，则1归类为k的类别，并标记类中心；如果两者都聚类，则找到两者的类中心，将类中心编号大的合并至另一个，并修改聚类中心；然后迭代取得下一个元素，直到取完HashMap中的所有元素。

本发明与背景技术相比，具有的有益的效果是：

(1)本发明是一种能够高效地、分布式地实现对海量微内容进行聚类的全新的方法，具有可扩展性，优于传统的KNN、SVM等方法。

(2)本发明不需要特定语料库的支持，维护代价小，操作简单，有别于传统的贝叶斯聚类方法，应用范围广，如可应用于博客评论、博客留言、bbs留言、贴吧留言等互联网微内容的垃圾聚类***。

所以，本发明是一种适用于互联网环境下的，用于高效、快速地对海量微内容进行聚类的方法。

附图说明

图1是分布式聚类方法的总体结构示意图；

图2是切分模块的结构示意图；

图3是元聚类处理的结构示意图；

图4是对博客评论A(“浙江是个好地方”)和博客评论B(“浙江是个非常好的地方”)建立的倒排索引示意图；

图5是对博客评论A(“浙江是个好地方”)和博客评论B(“浙江是个非常好的地方”)建立的相关矩阵示意图；

图6是对博客评论A(“浙江是个好地方”)和博客评论B(“浙江是个非常好的地方”)建立的更新评论相似度后的相关矩阵示意图；

具体实施方式

在面向互联网微内容的聚类应用***中，采用本发明所提供的分布式聚类方法，可以实现对海量微内容进行快速、准确地聚类，以博客评论垃圾聚类***为例，具体的实施步骤如下：

1)主控机器首先对博客评论源文件进行切分操作，得到多个小源数据文件，具体过程如下：

对输入的大的博客评论源文件，按照每个文件固定的记录条数写到多个小文件中，在小文件中一行一条博客评论，其中固定的评论条数的确定由具体执行元聚类操作的聚类机器的配置决定，图2给出了切分模块的结构示意图，其中图2中的Split_1，Split_k，Split_n为切分后得到的各个小的博客评论文件；

2)多台聚类机器对博客评论进行分布式聚类操作，图1给出了多机分布式聚类方法的总体结构图，具体过程如下：

第一步，对于由主控机器切分操作生成的各个小评论文件，用脚本拷贝到相应的聚类机器上；

a)对分配到的各个小评论文件循环进行元聚类操作，生成相应的各个元聚类结果文件；

(1)读取各个元聚类结果文件，从各个聚类项中抽取聚类项代表点，把代表点对应的评论写到一个临时博客评论文件中；

(2)对生成的临时博客评论文件再次进行元聚类，然后把聚类结果中归为同一个类的各个代表点对应的类别合并，生成新的聚类项，得到最后的单机聚类合并文件；

例如：在某台聚类机器上，通过循环调用元聚类，生成了二个元聚类文件file1和file2，其中file1中有两个聚类项cluster1：(1，2，3)，cluster2：(4，5，6)，file2也有两个聚类项cluster1：(7，8)，cluster2：(10，11)，(注括号中1，2等数字表示属于某个cluster的博客评论编号，如上面的例子中博客评论1、博客评论2、博客评论3同属于file1的cluster1，博客评论7、博客评论8同属于file2的cluster2)，抽取两个聚类结果文件file1和file2中的聚类代表点评论，如(1，4，7，10)(这里每个聚类项抽取一个代表点评论)，生成一个临时评论文件temp，然后对temp文件进行元聚类，假设生成了一个聚类项cluster1：(1，10)，则把1对应的file1中的cluster1：(1，2，3)和10对应的file2中的cluster2：(10，11)合并，生成新的聚类项cluster1：(1，2，3，10，11)，得到最后的单机聚类合并文件file3，内容为：cluster1：(1，2，3，10，11)，cluster2：(4，5，6)，cluster3：(7，8)；

a)读取各个单机聚类合并文件，从各个聚类项中抽取聚类项代表点，把代表点对应的评论写到一个临时博客评论文件中；

b)对生成的临时博客评论文件再次进行元聚类，然后把聚类结果中归为同一个类的各个代表点对应的类别合并，生成新的聚类项，得到***总的聚类结果文件；

3)对博客评论文件进行元聚类操作，过程如图3所示，具体过程如下：

第一步，从小评论文件中把各行评论内容读出然后放入队列中，队列中的每个元素为一条评论，将队列中个各条评论读出，对它们进行中文分词，去掉停用词(即那些高频出现、没有实际意义的词如“的”、“是”、“了”等)，生成相应的关键词序列。例如，某个小评论文件中有两条评论，评论A和评论B。评论A为“浙江是个好地方”，评论B为“浙江是个非常好的地方”，则经过分词模块分解以后得到关键词序列A为＜“浙江”，“好”，“地方”＞，B为＜“浙江”，“非常”，“好”，“地方”＞，在上面的分词过程中去掉了“是”，“个”、“的”等停用词；

第二步，对各个关键词序列，创建按连续两个关键词组合在一起的“词：词”为键，包含该两个词组合的评论编号为值的倒排索引，如假设第一步中的评论A、B对应的编号分别为1和2，那么最后建立的倒排索引如图4所示；

第三步，等倒排索引建完，扫描倒排索引，创建以评论编号作为矩阵行列，评论两两之间相同单元(即“词：词”)的数目为值的相关矩阵，在扫描每行倒排项时，将两两评论编号对应的矩阵元素的值加1；

例如，扫描第二步生成的倒排矩阵，由于评论A(编号为1)和B(编号为2)在相同单元(“好：地方”)上共同出现了一次，则将评论A和评论B对应的矩阵元素的值加1，最后建立的评论A、B的相关矩阵如图5所示；

第四步，等相关矩阵建完，扫描相关矩阵，计算评论之间的相似度，设两条评论A＜key₁，...，key_i，...，key_n＞、B＜key₁，...，key_i，...，key_m＞，其中key_i为评论包含的关键词，则定义A、B之间的相似度sim(A，B)为 sim(A，B)＝(A^B)/(A+B)，其中^表示集合交集，+表示集合并集，(A^B)的值也就是A和B在第二步生成的倒排索引中共同出现的次数，可以从相关矩阵中取得，A+B为A、B在第二步生成的倒排索引中各自出现次数之和减去A、B在第二步生成的倒排索引中共同出现的次数，A、B各自出现的次数可以在扫描倒排索引时获得，在计算完A、B之间的相似度sim(A，B)后，把在第三步生成的相关矩阵中A、B对应的值由(A^B)更新为sim(A，B)；

例如，对第一步中两条的评论A(编号为1)、B(编号为2)，计算它们的相似度sim(A，B)，根据第四步中sim(A，B)的定义，需要计算(A^B)和(A+B)值，其中(A^B)即评论A、B共同出现的次数，从第三步中生成的相关矩阵可以得到为1，而(A+B)即评论A，B各自出现的次数的和减去A和B共同出现的次数，从第二步中生成的倒排索引可以得到A的出现次数为2，B的出现次数为3，则(A+B)＝(2+3)-1＝4，从而得到评论A和评论B的相似度sim(A，B)＝(A^B)/(A+B)＝1/4，然后更新评论A、B的相关矩阵，把A、B对应的值由原来的1更新为1/4，更新后评论A、B的相关矩阵如图6所示；

第五步，扫描更新完的相关矩阵，根据评论之间的相似度对评论进行聚类，由于相关矩阵是以HashMap为存储结构，且相关矩阵自身的稀疏特性，所以按照HashMap的自然存放顺序来进行聚类分析，取得HashMap的第i个元素，得到评论k和1的相似度，如果小于设定的阈值，则忽略该元素并继续处理下个元素，否则进行聚类处理：如果k还没有被聚类，并且1也没有被聚类，则创建以k为中心的聚类，并将1标记为k为中心；否则，如果1被聚类，但是它是该类的中心，则将1类别与k合并，并标记1的类中心为k；否则，找到1的聚类中心，如果该中心博客评论编号比k大，则将k归为该类，并标记中心为此中心；否则将该类别与k合并，并修改中心为k；如果k已经被聚类，1没有被聚类，则1归类为k的类别，并标记类中心；如果两者都聚类，则找到两者的类中心，将类中心编号大的合并至另一个，并修改聚类中心；然后迭代取得下一个元素，直到取完HashMap中的所有元素；

例如，对第四步中生成的相关矩阵，取得其中的元素(<1，2>，1/4)，则当用户设定的阈值为1/5＜1/4时，则编号值1对应的评论A和编号值2对应的评论B自动聚为一个类别，生成元聚类结果文件，它的内容是：cluster1：(1，2)；

(1)读取各个元聚类结果文件，从各个聚类项中抽取聚类项代表点，把代表点对应的评论写到一个临时文件中；

(2)对生成的临时文件再次进行元聚类，然后把聚类结果中归为同一个类的各个代表点对应的类别合并，生成新的聚类项，得到最后的单机聚类合并文件；

例如：在某台聚类机器上，通过循环调用元聚类，生成了二个元聚类文件file1和file2，其中file1中有两个聚类项cluster1：(1，2，3)，cluster2：(4，5，6)，file2也有两个聚类项cluster1：(7，8)，cluster2：(10，11)，抽取两个聚类结果文件file1和file2中的聚类代表点评论，如(1，4，7，10)(这里每个聚类项抽取一个代表点评论)，生成一个临时评论文件temp，然后对temp文件进行元聚类，假设生成了一个聚类项cluster1：(1，10)，则把1对应的file1中的cluster1：(1，2，3)和10对应的file2中的cluster2：(10，11)合并，生成新的聚类项cluster1：(1，2，3，10，11)，得到最后的单机聚类合并文件file3，内容为：cluster1：(1，2，3，10，11)，cluster2：(4，5，6)，cluster3：(7，8)；

a)读取各个单机聚类合并文件，从各个聚类项中抽取聚类项代表点，把代表点对应的评论写到一个临时文件中；

b)对生成的临时文件再次进行元聚类，然后把聚类结果中归为同一个类的

各个代表点对应的类别合并，生成新的聚类项，得到***总的聚类结果文件。

Claims

1.一种面向互联网微内容的分布式聚类方法，其特征在于该方法的步骤如下：

2)多台聚类机器对微内容进行分布式聚类操作：

3)在上述2)中的对微内容文件进行元聚类操作的步骤如下：

第四步，等相关矩阵建完，扫描相关矩阵，计算微内容之间的相似度，设两条微内容A＜key₁，...，key_i，...，key_n＞、B＜key₁，...，key_i，...，key_m＞，其中key_i为微内容包含的关键词，则定义A、B之间的相似度sim(A，B)为sim(A，B)＝(A^B)/(A+B)，其中^表示集合交集，+表示集合并集，(A^B)的值也就是A和B在第二步生成的倒排索引中共同出现的次数，可以从相关矩阵中取得，A+B为A、B在第二步生成的倒排索引中各自出现次数之和减去A、B在第二步生成的倒排索引中共同出现的次数，A、B各自出现的次数可以在扫描倒排索引时获得，在计算完A、B之间的相似度sim(A，B)后，把在第三步生成的相关矩阵中A、B对应的值由(A^B)更新为sim(A，B)；