CN104731925A

CN104731925A - 基于MapReduce的FP-Growth的负载均衡并行计算方法

Info

Publication number: CN104731925A
Application number: CN201510138318.0A
Authority: CN
Inventors: 杨勇; 陈曙东
Original assignee: Jiangsu IoT Research and Development Center
Current assignee: Jiangsu IoT Research and Development Center
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2015-06-24

Abstract

本发明涉及一种基于MapReduce的FP-Grwoth的负载均衡并行计算方法，其包括如下步骤：步骤1、将数据库事务集D分成连续不同的分区，且子事务集存储在多台节点上；步骤2、并行计算支持度计数，得到全部频繁1项集FList；步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组，以得到新列表GList；步骤4、根据新列表GList将数据库事务集D也划分为M组，在数据库事务集D划分结束后，对每一个事务组DB创建其本地FP-Tree，并根据本地FP-Tree挖掘对应的GList_gidi，以得到频繁1项集中所有项的频繁模式；步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。本发明具有较好的负载均衡能力以及执行效率。

Description

基于MapReduce的FP-Growth的负载均衡并行计算方法

技术领域

本发明涉及一种负载均衡的并行计算方法，尤其是一种基于MapReduce的FP-Grwoth的负载均衡并行计算方法，属于数据挖掘的技术领域。

背景技术

关联规则挖掘反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘技术中一个重要课题。关联规则挖掘需要经历两个步骤，即频繁项集的产生和关联规则的生成，关联规则挖掘的总体性能主要由第一阶段决定。经典的关联规则挖掘算法主要有Apriori算法、FP-Growth算法和Eclat算法，前两者采用水平数据格式进行挖掘，后者采用垂直数据格式进行挖掘。FP-Growth算法较Apriori算法而言，采用分治策略对数据库进行挖掘，不产生候选项集，它采用FP-Tree存放数据库的重要信息，只需扫描两次数据库，然后将关键的信息以FP-Tree的形式存放在内存中，避免了多次扫描数据库带来的巨大开销。

Hadoop是一个开源的、能够并行处理大规模数据的分布式计算平台。MapReduce是Hadoop的核心组件之一，是一个高性能的分布式编程模型和计算框架，用于对海量数据进行并行分析和处理。MapReduce把所有任务都进行统一的操作，即任务的分解与结果的合并，主要包括两个重要的核心操作：Map和Reduce（映射和规约），Map函数将大规模数据拆分为多个小的数据集并发送到多台机器（节点）上进行并行运算，Reduce函数则将各机器（节点）上Map函数的运行结果进行合并得出结果。

随着社会的进步和科学技术的发展，数据呈***式增长，以单机形式进行关联规则挖掘的FP-Growth算法已经远不能满足海量数据的存储以及挖掘等问题，而一些现有的FP-Growth并行算法解决了数据库的划分以及后续的并行计算这两个问题，但是算法在并行计算效率、内存消耗、通信消耗以及FP-Tree稀疏程度差异导致的性能差异等方面存在明显的差异和不足，这些都与数据库事务集划分时欠缺负载均衡考虑有着很大的关系。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种基于MapReduce的FP-Growth的负载均衡并行计算方法，其具有较好的负载均衡能力以及执行效率。

按照本发明提供的技术方案，一种基于MapReduce的FP-Growth的负载均衡并行计算方法，所述负载均衡并行计算方法包括如下步骤：

步骤1、输入所需的数据库事务集D以及最小支持度计数，并将所述数据库事务集D分成连续不同的分区，且数据库事务集D的子事务集存储在多台节点上；

步骤2、第一次扫描数据库事务集D，并行计算每台节点上的项的支持度计数，且将所有节点计算的项的支持度技术合并，以得到全部频繁1项集FList；

步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组，以得到长度为M的新列表GList，新列表GList中每一组的组号为gid_i（1≤i≤M）；

步骤4、第二次扫描数据库事务集D，根据新列表GList将数据库事务集D也划分为M组，划分得到数据库事务集D的组号与新列表GList内的组号相对应，若一条事务包含GList_gidi中的项，则将该条事务对应的部分发送到组号为gid_i的事务组DB；在数据库事务集D划分结束后，对每一个事务组DB创建其本地FP-Tree，并根据本地FP-Tree挖掘对应的GList_gidi，以得到频繁1项集中所有项的频繁模式；

步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。

所述步骤3包括如下步骤：

步骤3.1、计算频繁1项集FList中每项的负载，按照负载降序排列，以得到排列表SList；

步骤3.2、根据指定的组数M，将排列表SList中的前M项初始化为新列表GList中的M组，且新列表GList中的每组与排列表SList中的每项呈一一对应；

步骤3.3、将排列表SList中未被分到新列表GList中组的第一项添加到新列表GList中负载最小的组内，并将添加的项的负载值进行累加，并更新新列表GList中组的负载；

步骤3.4、重复上述步骤3，直至排列表SList中的所有项都完成分组；

步骤3.5、将得到的新列表GList保存在HDFS文件中，以便多台节点共享。

与现有技术相比，本发明的优点：本发明利用频繁1项集FList中每一项的在条件模式树中的前缀路径的总长度作为该项的负载，并进行降序排列，然后指定划分成的组数M，使得每一组内包括的各项的负载之和基本相等，从而实现频繁1项集FList的均衡划分和各计算节点之间的负载均衡策略，从而解决了各个计算节点间负载不均的情况，有更好的负载均衡能力和执行效率。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

如图1所示：为了具有较好的负载均衡能力以及执行效率，本发明负载均衡并行计算方法包括如下步骤：

将数据库事务集D划分成连续的几部分，分别存储于不同的计算节点上。被划分的每一部分子事务集称为数据分片，该过程直接由Hadoop完成，用户只需将数据库事务集拷贝到HDFS上，Hadoop框架会将输入的文件划分为多个数据分片（Blook）存储于不通的节点上，并为每个数据分片保存副本，从而自动完成数据分片过程。

本发明实施例中，通过第一对MapReduce函数统计出整个数据库事务集D中每一项的支持度计数，从而得到频繁1项集FList。其中每一个Map函数的输入对应一个数据分片Shard。Map函数的输入键值对格式为<key=lineNo，value=T>，其中lineNO表示当前的行号，T表示当前行对应的事务。对于每一条事务T，Map函数的输出格式为<key=item，value=1>，其中item表示T中出现的每一项。Hadoop会将所有具有相同key值的Map输出键值对合并后作为Reduce的输入，Reduce函数的输入格式为<key=item，value={1,1,1……}>。Reduce的输出格式为<key=item，value=itemCount>，其中，itemCount表示对应的项item所出现的次数，即支持度计数。

本发明实施例中，对频繁1项集FList进行划分的目的在于需要根据新列表GList对数据库事务集D进行分组，对频繁1项集FList的划分将直接影响到下一步中所划分的各个事务组的负载是否均衡，从而影响整个并行算法的执行效率。本发明以实现被划分的事务组之间的负载均衡为前提对频繁1项集FList进行划分，将原来较大的数据库化整为散，分散到各个节点上，从而实现并行计算，所以在划分频繁1项集FList之前，要先估算每一个事务组的负载。

对于事务组DB（gid_i），将挖掘对应的GList_gidi中所包含的所有项的条件模式树的递归次数之和作为该组的负载。因此，需要先估算频繁1项集FList中每一项的负载，再划分频繁1项集FList。

每一项所对应的条件模式树的前缀路径的最大值为该项在频繁1项集FList中的位置n，若某一项所对应的条件模式树前缀路径的最大值为n，那么挖掘该项的频繁模式所做的最大递归次数为n-1+n-2+……+1=（n×（n-1））/2，即每一项的挖掘负载可估算为（n×（n-1））/2。

根据上述说明，则对频繁1项集FList进行划分，得到新列表GList的过程包括如下步骤：

本发明实施例中，gid_i对应的组记作GList_gidi，而GList_gidi组中的每一项记作αj，αj∈GList_gidi，1≤j≤GList_gidi.length。

本步骤中，通过第二对MapReduce函数完成，其中Map函数的任务是根据频繁1项集FList的划分情况对数据库事务集D进行分组，从而得到一组彼此间相互独立的事务组DB，Reduce函数负责对本节点上的独立事务集进行FP-Growth挖掘。

Map函数：生成M组相互独立的事务组DB，将本地节点上的所有事务发送到合适的分组上。Map函数输入键值对仍为<key=lineNo，value=T>。Map函数的操作如下：

1）、将新列表GList加载到本地节点，根据新列表GList生成一个hashMap，其key为新列表GList中的项，value为该项对应的组号gid_i。

2）、对于读入的每一条事务T，将其按照频繁1项集FList中项的顺序进行排序并删除T中不存在于频繁1项集FList中的项。

3）、设排好序的事务T={item₁，item₂，……，item_n}，从后向前遍历T中的每一项item_j，从n开始直到j等于1时循环结束。若item_j存在于hashMap的某条键值对key-value中，则将hashMap中所有与键值对key-value的value值相同的键值对删除。然后将事务T中的前j项发送到键值对key-value的value值所对应的组中。

Map函数的输出键值对为<key= gid_i，value={ item₁，……，item_j}>，其中gid_i表示该条事务要被分发到的事务组的组号，{ item₁，……，item_j}表示不是将整条事务发送到相应的分组上，而是只发送item_j之前的部分，发送的原则为：事务T所包含的项都属于新列表GList中的哪些组，事务T相应的部分就被发送到哪些组。通过对哈希表中条目的删除，以确保同一条事务不会被重复发送到同一个分组上。这样所有包含组GList_gidi中项的事务，其对应的部分都被发送到组号为gid_i的事务组DB（gid_i）中，那么对事务组DB（gid_i）进行FP-Tree挖掘就可以得到所有组GList_gidi中项的模式。不同的组GList_gidi中包含的项互不相同，每一个分组得到的频繁模式都是不同的，所以每一个事务组DB都是独立的，分组间互相不依赖。

Reduce函数：对本地事务集进行频繁模式挖掘。当所有Map任务都执行完毕后，由于Hadoop会自动合并具有相同key值的Map结果，所以Reduce的输入为<key= gid_i，value=DB（gid_i）>，其中事务组DB（gid_i）表示组号为gid_i的分组所对应的独立事务集，该事务集是由全部被分发到该组的事务所组成的。每个Reduce任务一个接一个地处理Hadoop分配给它的事务集。Reduce函数的操作如下：

1）、加载新列表GList，用于生成groupMap，groupMap中的key表示组号gid_i，value表示该组所对应的所有项GList_gidi。

2）、扫描事务组DB（gid_i）中的每一条记录，创建本地TP树：localFP-Tree。

3）、递归调用Growth算法，与传统Growth算法不通，在第一次调用Growth（FP-Tree，null）时，只遍历组GList_gidi中项，而不是遍历整个表头，这是由于每个事务组只需挖掘其对应的组GList_gidi中所包含的项的频繁模式。

Reduce的输出为<key=pattern，value=sup（pattern）>。其中pattern表示频繁模式，sup（pattern）表示该频繁模式出现的次数。

针对各计算节点的结果进行一次结果合并，即可得到FP-Growth并行算法下的最终结果。

本发明针对传统FP-Growth算法在单机计算节点上计算能力和存储能力有限的问题，提出了基于MapReduce的并行化计算方法，同时针对并行化过程中各个数据块之间数据划分不精确、各计算节点上受FP-Tree稀疏程度差异导致各节点计算计算效率、内存消耗、通信消耗存在明显差异等问题，提出了一种基于MapReduce的FP-Growth的负载均衡并行算法。

相比于传统单机算法和普通的并行算法，本发明利用频繁1项集FList中每一项的在条件模式树中的前缀路径的总长度作为该项的负载，并进行降序排列，然后指定划分成的组数M，使得每一组内包括的各项的负载之和基本相等，从而实现频繁1项集FList的均衡划分和各计算节点之间的负载均衡策略，从而解决了各个计算节点间负载不均的情况，有更好的负载均衡能力和执行效率。

Claims

1.一种基于MapReduce的FP-Growth的负载均衡并行计算方法，其特征是，所述负载均衡并行计算方法包括如下步骤：

2.根据权利要求1所述的基于MapReduce的FP-Growth的负载均衡并行计算方法，其特征是，所述步骤3包括如下步骤：