CN104156463A

CN104156463A - 一种基于MapReduce的大数据聚类集成方法

Info

Publication number: CN104156463A
Application number: CN201410416065.4A
Authority: CN
Inventors: 方巍; 文学志
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2014-08-21
Filing date: 2014-08-21
Publication date: 2014-11-19

Abstract

本发明公开了一种基于MapReduce的大数据聚类集成方法，包括如下步骤：步骤1，大数据切分和管理；步骤2，采用多重K的聚类集成算法生成多个基聚类；步骤3，获取集成关系；步骤4，确定最终聚类。本发明首先对原始数据进行分割，用切分好的非空小数据块代替原数据中的点集进行聚类，减少数据规模和数据处理所耗费时间。本发明采用云计算MapReduce编程模型，使得聚类过程在分布式集群上并行完成，克服了单机算法在存储和计算性能上的限制，从而有效处理大数据，不断地从中挖掘出有价值信息，为用户提供可定制性和可扩展性，并优化了算法执行效率，适用处理大数据环境下的数据处理、分析与计算，能够满足不同用户的需求。

Description

一种基于MapReduce的大数据聚类集成方法

技术领域

本发明属于大数据处理和挖掘技术领域，尤其是涉及一种基于MapReduce的大数据聚类集成方法。

背景技术

随着云计算大数据时代的到来，社会信息化和网络化的高速发展导致数据呈***式增长。据统计，平均每一秒都有200万用户在使用Google搜索，Facebook用户每天共享的数量超过40亿。同时，各种监测、感应设备也源源不断的产生数据，科学计算、医疗卫生、金融、零售业等各行业也有大量数据不断产生。这些数据背后隐藏着许多有价值的信息和知识可被广泛用于各种应用，如市场分析、欺诈检测、顾客保有、产品控制和科学探索等。因此对大数据进行快速有效的处理是十分必要的，具有广阔的市场应用前景。

大数据是规模非常巨大和复杂的数据集，数据量达到PB、EB或ZB的级别，如果采用传统数据库管理工具处理大数据(例如获取、存储、检索、共享、分析和可视化)则会面临很多问题，如对数据库高并发读写要求、对海量数据的高效率存储和访问需求、对数据库高可扩展性和高可用性的需求，传统SQL等数据处理与分析方法在面临大数据处理时没有用武之地，性能极低。

发明内容

为解决上述问题，本发明公开了一种基于MapReduce的大数据聚类集成方法，采用MapReduce编程模型结合Kmeans聚类算法实现了大数据的快速有效处理，能够不断地从数据中挖掘出有价值信息。

集成学习(Ensemble Learning)是为某个问题训练一组学习器，并将这些学习器联合起来执行一定预测任务的一种机器学习技术。集成学习技术已经广泛的应用于生物认证、传感器故障容错、字符识别、辐射源识别、语言学、医学、交通、管理学等各个领域。聚类分析是在一个数据集中，根据元素之间的相似性来将相似的元素划分到同一组的一个过程。因此，高质量的聚类意味着，组(也可称为“簇”)内的元素相似性达到最大，而组间元素的相似性达到最小。现有的集成学习算法中，当训练集的规模较小时，集成学习的效果并不明显，有时还低于单个学习器的泛化性能。我们发现，对于大数据环境下，采用集成学习将具有较高的泛化性能。基于此，本发明提供了基于MapReduce编程模型上的大数据集成聚类学习方法：该方法对原始数据进行分割，用切分好的非空小数据块代替原数据中的点集进行聚类，减少数据规模和数据处理所耗费时间。

MapReduce是Google开发的主要用于大规模(TB级)数据文件处理的编程模型，执行方式如图1所示。其主要思想是通过“Map(映射)”和“Reduce(化简)”的概念来构成运算基本单元，先通过Map程序将数据切割成不相关的区块，分配(调度)给大量计算机处理，达到分布式运算的效果，再通过Reduce程序将结果汇总输出，即可并行处理海量数据。它的一般形式如下：

Map(k₁,v₁)->list(k₂,v₂)

Reduce(k₂,list(v₂))->list(v₂)

简而言之，Map-Reduce编程模式将输入数据文件划分为M个独立的数据分片(split)；然后分配给多个Worker启动M个Map函数并行地执行输出到中间文件(本地写)、并将计算结果以key/value对形式输出中间结果。中间结果key/value按照key分组，执行Reduce函数，根据从Master获得的中间文件位置信息，将Reduce命令发送给中间文件所在节点执行，计算并输出最终结果，MapReduce的输出存放在R个输出文件中，可进一步减少了传送中间文件对带宽的需求。

MapReduce是依赖于HDFS实现的。通常MapReduce会将被计算的数据分为很多小块，HDFS会将每个块复制若干份以确保***的可靠性，同时它按照一定的规则将数据块放置在集群中的不同机器上，以便MapReduce在数据宿主机器上进行最便捷的计算。HDFS是Google GFS的开源版本，一个高度容错的分布式文件***，它能够提供高吞吐量的数据访问，适合存储海量(PB级)的大文件(通常超过64M)。

虽然基于聚合方式的集成学***台的分布式文件***HDFS中，Hadoop负责管理切块数据，其key值为所属数据块D_i。计算集群中的计算机M_i对本地存储的相应切块得采用n个聚类算法得到基聚类结果C_i，对同机器各聚类结果采用一致性方案进行Reduce过程(key值为机器号，value值为聚类结果)得到该机器的最终集成聚类结果，从而达到并行有效处理大数据的目的，能进一步提高的数据处理性能和效率。

为了达到上述目的，本发明提供如下技术方案：

一种基于MapReduce的大数据聚类集成方法，包括如下步骤：

步骤1，大数据切分和管理：将大数据切块后，存储到云平台的分布式文件***HDFS中，Hadoop负责管理切分后的数据块，其key值为所属数据块D_i，i＝1,2,…n，n为划分后的数据块的数量；

步骤2，采用多重K的聚类集成算法生成多个基聚类：将Kmeans算法应用到大数据集上M次，每次运算时都从一个预先定义好的k的分布S中随机采样一个数k_i，用k_i作为kmeans的预定义簇的数目，从而得到n个基聚类结果，其中S为两个整数之间的均匀分布，S被置为(min(5,[N/4],min(20,[N/2]))，N为数据点的数目，[x]表示对x四舍五入取整；

步骤3，获取集成关系：构造共协关系矩阵，统计M个基聚类结果中两个数据点被划分到同一簇中的次数，用该次数作为权值赋给关系矩阵中对应的元素；

步骤4，确定最终聚类：对同机器各聚类结果采用一致性方案进行Reduce，得到该机器的最终集成聚类结果。

具体的，所述步骤3中的共协关系矩阵通过以下公式获得：

W_i×j＝(i与j属于同一簇的次数)/基聚类的总数；

任意两个数据点i和j只要被划分到同一组中时，关系矩阵对应的元素就自增1。

具体的，所述步骤4中采用一致性方案进行Reduce的过程如下：

将标准化后的关系矩阵转化为一个无向带权图，所有数据点作为图的顶点，关系矩阵中每个元素的值转化为其对应的两个顶点之间的权值上；通过一个迭代，每次迭代的过程中，对每个权值减去一个单位阈值，为负的权值则用0替代，顶点之间的权值为0则表示该对顶点之间不连通，通过重复的对所有权值减去单位阈值，然后求该图的连通子图，当某种连通子图保持最多次数不变时，就认为该拓扑关系最稳定，连通子图的个数就是最终簇的数目，该连通子图就是最终的聚类结果。

与现有技术相比，本发明具有如下优点和有益效果：

本发明首先对原始数据进行分割，用切分好的非空小数据块代替原数据中的点集进行聚类，减少数据规模和数据处理所耗费时间。本发明采用云计算MapReduce编程模型，使得聚类过程在分布式集群上并行完成，克服了单机算法在存储和计算性能上的限制，从而有效处理大数据，不断地从中挖掘出有价值信息，为用户提供可定制性和可扩展性，并优化了算法执行效率，适用处理大数据环境下的数据处理、分析与计算，能够满足不同用户的需求。

附图说明

图1为Google的MapReduce执行流程图；

图2为本发明提供的基于MapReduce的大数据聚类集成方法模型图；

图3为基于MapReduce的大数据聚类集成方法的整体流程图；

图4为基于多重K的聚类集成算法原理示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供了一种基于MapReduce的大数据聚类集成方法，流程图如图3所示，首先将大数据切块存储到云平台的分布式文件***HDFS中，然后不断地在数据集上应用传统Kmeans算法，通过随机选择一个聚类数据目k(k有一定的选取范围，在参数设置中给出)，然后对原始数据应用kmeans聚类算法，不同的k值会得到不同的基聚类结果，不同的基聚类结果是通过将数据集投影到不同的子空间而计算得到的，所有数据点和所有特征都参与运算。在得到不同基聚类的基础上，还需要通过一致性函数或共识函数将聚类集体中的多个聚类结果进行结合以生成一个统一的聚类结果，本发明通过生成的不同基聚类结果来构建一个描述两两数据点之间关系的共协关系矩阵，最后再对得到关系矩阵确定最终聚类集成结果。具体地说，本发明包括如下步骤：

步骤1，将大数据切块成数据块D_i,，并将这些数据块切分至小数据片d_j后，存储到云平台的分布式文件***HDFS中，Hadoop负责管理切分后的数据块，其key值为所属数据块D_i，i＝1,2,…n，n为划分后的数据块的数量。Hadoop作为Google的MapReduce算法开源实现，能够把应用程序分割成许多很小的工作单元，每个单元可以在任何集群节点上执行或重复执行。此外，Hadoop还提供一个分布式文件***用来在各个计算节点上存储数据，并提供了对数据读写的高吞吐率。许多单机算法都在Hadoop上予以重新实现，为各种算法处理海量数据提供了高可用性和可扩展性。

步骤2，采用多重K的聚类集成算法生成多个基聚类：多重K聚类算法原理如图4所示。

将Kmeans算法应用到大数据集(存储在HDFS上的经过切块的大数据)上M次，即计算集群中的各个处理单元(这里的处理单元实质为能够独立实现运算、存储功能的单元，并不限制为具体的计算机)针对本地存储的数据块并行地应用多次Kmeans算法进行运算，每次运算时都从一个预先定义好的k的分布S中随机采样一个数k_i，用k_i作为kmeans的预定义簇的数目，运行Kmeans算法直至得到基聚类结果C_i，从而得到n个基聚类结果。其中S为两个整数之间的均匀分布，S被置为(min(5,[N/4],min(20,[N/2]))，N为数据点的数目，[x]表示对x四舍五入取整。

Kmeans算法的具体过程如下：首先接受输入量k；然后将n个数据对象(定点集P)划分为k个聚类以便使得所获得的聚类满足以下条件：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。其中聚类相似度是利用各聚类中对象的均值所获得一个“中心点”(mean point)来进行计算的，优化目标为给定点到其所属子集中心点距离平方和最小。

步骤3，获取集成关系：构造共协关系矩阵，统计M个基聚类结果中两个数据点被划分到同一簇中的次数，用该次数作为权值赋给关系矩阵中对应的元素。任意两个数据点只要被划分到同一组中，关系矩阵对应的元素就自增1。

如果用i和j来代表两个数据点，则共协关系矩阵W_i×j可以由下列公式表示：

W_i×j＝(i与j属于同一簇的次数)/基聚类的总数

步骤4，确定最终聚类：对同机器各聚类结果采用一致性方案进行Reduce(key值为机器号，value值为聚类结果)，得到该机器的最终集成聚类结果。

Reduce过程将标准化后的关系矩阵转化为一个无向带权图，所有数据点作为图的顶点，关系矩阵中每个元素的值转化为其对应的两个顶点之间的权值上。通过一个迭代，每次迭代的过程中，对每个权值减去一个单位阈值(该阈值一般设为0.5左右，可根据需要调整)，为负的权值则用0替代，顶点之间的权值为0则表示该对顶点之间不连通。在这个迭代过程中，最初的无向图被划分为多个子图，连通子图中数据点被认为划分到同一簇中，图中的多个连通子图便认为是数据的多个划分。通过重复的对所有权值减去单位阈值，然后求该图的连通子图，当某种连通子图保持最多次数不变时，就认为该拓扑关系最稳定，连通子图的个数就是最终簇的数目，该连通子图就是最终的聚类结果。

本发明还提供了可行的具体实现方式，通过下述EPMap方法完成切块数据的基聚类学习，通过EPReduce方法生成同机器中Kmeans多重K算法最终聚类结果。必须说明的是，EPMap方法和EPReduce方法的具体实现过程仅仅为一种示例，在具体实现本发明提供的大数据聚类集成方法时，本领域内技术人员在不违背本发明提供的整体思路的基础上，可以通过对具体的函数进行常规变形，这也属于本发明的保护范围。

EPMap方法的输入数据为：

数据集S；分块D(key)，标记训练实例；

产生基聚类的数目M；

Kmeans算法中k值的分布S；

主要实现步骤如下：

初始化关系矩阵W_n×n，矩阵内元素初值为0；

循环M次；

从S中随机取出一个值d；

初始化阈值θ用于创建基聚类；

将分块i中训练好的实例d_i赋值给Vtrain并存储于HDFS中的；

从HDFS中读取所有测试实例，

用聚类算法Kmeans建立一个基聚类C_i，

Kmeans算法将S聚为d组；

如果聚类结果准确度大于事先设定的阈值θ，

增值计算关系矩阵W_n×n；

则保存这个基聚类用于预测实际数据；

结束循环

通过EPMap方法，最终得到基聚类结果；

EPReduce方法的输入数据为：验证集L_val,基聚类集合T＝{C₁,C₂,…，C_T}

主要实现步骤如下：

归一化关系矩阵W_n×n；

L从1到M循环：

创建图G:V(G)＝S,E(G)为W[i][j]>l/M；

计算图G的连通子图数目c；

将点(l/M,C)加入变量f_cut；

计算：

H (1 / M) = - Σ_{i = 1}^{C} (| C_{i} | / N) \log_{2} (| C_{i} | / N)

循环结束

对于x:l/M<x<(l+1)/M,f(x)＝f(l/M)和H(x)＝H(l/M)

创建新图，图的边满足W[i][j]>C

C的选择满足f＝f(c)≠1且f＝f(c)≠1长度最长。

重新计算新图的连通子图。计算结果即为最终的聚类结果。

算法结束

通过EPReduce方法即可得到最终聚类结果。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于MapReduce的大数据聚类集成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于MapReduce的大数据聚类集成方法，其特征在于，所述步骤3中的共协关系矩阵通过以下公式获得：

W_i×j＝(i与j属于同一簇的次数)/基聚类的总数；

3.根据权利要求1或2所述的基于MapReduce的大数据聚类集成方法，其特征在于，所述步骤4中采用一致性方案进行Reduce的过程如下：