CN106446161A

CN106446161A - 一种使用Hadoop的极大频繁子图挖掘方法

Info

Publication number: CN106446161A
Application number: CN201610848220.9A
Authority: CN
Inventors: 曾智彬; 印鉴
Original assignee: GUANGZHOU INFINITE WISDOM ASPECT INFORMATION TECHNOLOGY Co Ltd; Sun Yat Sen University; Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd
Current assignee: GUANGZHOU INFINITE WISDOM ASPECT INFORMATION TECHNOLOGY Co Ltd; Sun Yat Sen University; Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2017-02-22
Anticipated expiration: 2036-09-23
Also published as: CN106446161B

Abstract

本发明提供一种使用Hadoop的极大频繁子图挖掘方法，该方法通过使用Hadoop来挖掘极大频繁子图，将频繁子树与候选边结合后，通过已保存的中间结果来判断其是否频繁并产生极大频繁子图，而不需要再次遍历数据库，极大频繁子图极大地降低了输出数量，可以在大数据的情况下挖掘极大频繁子图，同时由于生成的候选集只包括频繁子树及其候选边，降低了运行时间。

Description

一种使用Hadoop的极大频繁子图挖掘方法

技术领域

本发明涉及数据挖掘领域，更具体地，涉及一种使用Hadoop的极大频繁子图挖掘方法。

背景技术

在数据挖掘-频繁子图挖掘Hadoop图论领域中，现有的算法包括SPIN算法和MRFSM算法，其中SPIN算法主要是先找出全部的频繁子树及其候选边，然后将频繁子树与候选边相结合，产生包含频繁子图候选集，然后判断候选集中图的支持度，提取出极大频繁子图的候选集，最后在这个候选集中选出极大频繁子图，SPIN算法可以挖掘图数据库中的极大频繁子图，但是却是单机的算法，不能使用在Hadoop上；MRFSM算法是先将数据分到各个节点，然后使用一轮MapReduce挖掘频繁子图的候选集，之后在使用一轮确定候选集中的频繁子图；MRFSM算法虽可以在Hadoop上挖掘出频繁子图，但是会挖掘出所有频繁子图，其中有大量冗余，所用时间也十分长。

发明内容

本发明提供一种使用Hadoop的极大频繁子图挖掘方法，该方法可降低数据输出数量，且可降低运行时间。

为了达到上述技术效果，本发明的技术方案如下：

一种使用Hadoop的极大频繁子图挖掘方法，包括以下步骤：

S1：使用两轮MapReduce找出频繁子树及其候选边；

S2：使用一轮MapReduce将上述频繁子树及其候选边进行组合，并检验，产生极大频繁子图的候选集；

S3：在候选集中找出极大频繁子图。

进一步地，所述步骤S1的具体过程如下：

S11：将图数据库中的图平均分发个每个节点，假设n个节点，每个节点m个数据，并给定阈值θ；

S12：在每个节点中，找出局部频繁的边的集合E，局部频繁的边是指在节点的数据中出现的次数不小于m*θ的边，通过遍历本节点的数据得到；

S13：继承上一步，在每个节点中递归寻找局部频繁子树及其候选边，并本地记录结果以及输出；

S14：将上一步中每个节点的输出进行整合，判断所得局部频繁子树是否有可能是频繁子树，判断所得局部频繁子树的候选边是否是有必要的，得到第一轮的候选子树及其候选边；

S15：在每个节点中，获取S14得到的第一轮的候选子树的集合及其候选边在本节点的出现次数，并本地记录结果以及输出；

S16：将上一步中每个节点的输出进行整合，判断第一轮的候选子树是否是频繁子树，判断第一轮的候选子树的候选边是否是有必要的，得到第二轮的候选子树及其候选边，即是频繁子树的集合及其候选边。

进一步地，所述步骤S2的具体过程如下：

S21：在每个节点中，将S16得到的频繁子树的集合中的每颗树的候选边在本地保存的记录，提取其中的出现位置信息；

S22：将上一步中每个节点的输出进行整合，对于每棵树，将其候选边的出现位置取交集，如果交集的大小不小于n*m*θ，则该树及其候选边的组合符合要求，并输出该树与其候选边的组合。

进一步地，在步骤S14中判断所得局部频繁子树是否有可能是频繁子树的过程是：

输入中得到一棵树在部分节点的出现次数，用列表表示，列表的长度用k表示，然后将列表中的数都加起来，再加上(n-k)*m*θ，然后如果这个值小于n*m*θ，那么表示这棵树不可能是频繁子树。

进一步地，在步骤S14中判断所得局部频繁子树的候选边是否是有必要的过程是：

对于每条候选边输入中会包含其在部分节点的出现次数，用列表表示，列表的长度用k表示，然后将列表中的数都加起来，再加上(n-k)*m*θ，然后如果这个值小于n*m*θ，那么这条候选边就是不必要的，删除掉这条候选边。

进一步地，在步骤S16判断所得树是否有可能是频繁子树的过程是：

输入中我们会得到这棵树在全部节点的出现次数，用列表表示，然后将列表中的数都加起来，然后如果这个值小于n*m*θ，那么表示这棵树不可能是频繁子树。

进一步地，在步骤S16判断所得树的候选边是否是有必要的过程是：

对于每条候选边输入中会包含其在全部节点的出现次数，用列表表示，然后将列表中的数都加起来，然后如果这个值小于n*m*θ，那么这条候选边就是不必要的，删除掉这条候选边。

进一步地，所述步骤S3的具体过程如下：

a、将输入的集合A按照候选图边的条数划分开，同时把含有一条边的候选图开始，将其加入临时输出，具体如下：

1)将输入的集合A按照候选图边的条数划分开，用A1,A2，A3…表示，A1就是集合中含有一条边的图；

2)临时输出放在集合R中；

3)将A1加入R；

b、将含有更多条边的图加入临时输出，判断临时输出中的图是否是极大频繁子图，不是则删除，具体如下：

1)记录i，i表示第i次运行到这一步；

2)对于R中的每个图，如果其出现在了Ai+1的某个图中(也就是说Ai+1的某个图的子图)，那么就把R中的这个图删掉；

3)把Ai+1的图都加入R中，如果Ai+1后面的A系列集合都为空就结束；否则回到1)；

c、输出结果R；

其中，A表示步骤S2的结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过使用Hadoop来挖掘极大频繁子图，将频繁子树与候选边结合后，通过已保存的中间结果来判断其是否频繁并产生极大频繁子图，而不需要再次遍历数据库，极大频繁子图极大地降低了输出数量，可以在大数据的情况下挖掘极大频繁子图，同时由于生成的候选集只包括频繁子树及其候选边，降低了运行时间。

附图说明

图1为图数据库示意图；

图2为蛋白质的部分结构示意图；

图3为候选边示意图；

图4为本发明步骤S1的流程图；

图5为本发明步骤S2的流程图；

图6为本发明步骤S3的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

图1表示一个图数据库，生活中比如蛋白质分子的数据库就是类似的，G1到G4表示图数据库中的数据，而频繁子图就是找出图数据库中频繁出现的结构，比如某个蛋白质的部分结构如图2，如果g是G1的子图，那么g的出现频度就加1，g是G1，G2，G4的子图，所以g的频度是3，g的支持度定义为频度/图数据库的大小，所以g的支持度是0.75。我们给定一个大于0小等1阈值，挖掘频繁子图就是找出所有的支持度大于等于给定阈值的图。

如果我们把阈值定为0.5，那么g就是频繁子图，而g中的一条边其实也是频繁子图，这就产生了冗余，因为这条边可以从g中推断出来他也是频繁子图。所以就引进了极大频繁子图，也就是如果g是极大频繁子图，那么不存在G，且g是G的子图，而且G是频繁子图。这样那条边就不是极大频繁子图，就可以减少冗余。

实施例1

一种使用Hadoop的极大频繁子图挖掘方法，包括以下步骤：

S1：使用两轮MapReduce找出频繁子树及其候选边；

S2：使用一轮MapReduce将上述频繁子树及其候选边进行结合，并检验，产生极大频繁子图的候选集；

S3：在候选集中找出极大频繁子图。

其中，如图3所示，T是一个子树，候选边就是没有边的顶点之间连接起来的边，比如1号顶点和2号顶点连接起来，也就是树中没有的边。然后先讲下候选边的出现位置，出现位置是相对于数据库中的图的，比如G5是数据库中的图，5是这个图在数据库中的编号。那么T在G5中是出现两次的，使用子图同构算法，先会将T匹配到G5左上角的那个位置，然后找到一条候选边(1，2，y)，那么他的出现位置就是”5#1”，5表示G5的编号，1表示第一个匹配。然后子图同构算法会找到第二个匹配在左下角，同样是候选边(1，2，y)，出现位置是”5#2“。那么对于T的候选边(1，2，y)的出现位置就是”5#1,5#2”。假设T的候选边(1，2，y)的出现位置是”1#1，2#2，5#1,5#2”，那么其出现次数就是3，就是”#“前面的不同数字的个数，实际意义是这条候选边在多少图里出现过。

如图4所示，使用两轮MapReduce找出频繁子树及其候选边细分为2步：

1、一轮MapReduce找出可能是频繁子树的集合及其候选边，并在本地记录中间结果，以供后面使用；

2、第二轮MapReduce确定上述集合中真正的频繁子树及其候选边，并在本地记录中间结果，以供后面使用；

具体的：

准备工作：将图数据库中的图平均分发个每个节点(机器)，假设n个节点，每个节点m个数据，并给定阈值θ。

第一轮MapReduce：找出可能是频繁子树的集合及其候选边。

Map：

1)找出局部频繁的边的集合E：

局部频繁的边是指在本节点的数据中出现的次数不小于的边，通过遍历本节点的数据可以得到；

2)递归寻找局部频繁子树及其候选边，并本地记录结果以及输出：

(因为上一小步已经找出了边，所以这一步要将边组合起来，形成含有2条边的子树，然后再往上加边，变成3条边的子树，一直到不能加为止)

递归的起点：输入两个集合E，E(都是上一小步产生的结果，两个集合一样)

递归的主体：第一，要产生含有i+1条边的局部频繁子树的集合C。

(通过递归来递增i，第一次递归i就是1，第二次就是2，依此类推)，通过将递归起点的两个集合中的图两两组合得到，对于这个集合中不是树的图以及重复的图都删除，然后对这个集合中每个图都计算它在本节点的数据中出现的次数，如果次数小于m*θ，就把它删除，这样就得到了含有i+1条边的局部频繁子树的集合。

第二，对于上面集合中的每个树，都计算其候选边。

通过遍历本节点的数据，找出每条候选边及其出现的位置，然后其候选边出现次数如果小于m*θ，那么这条候选边就应该删除。

第三，本地记录集合中每个树及候选边的信息，并输出相关信息。

本地记录包括集合中每棵树的出现位置的数目，他的候选边的所有的出现位置，对于集合中每棵树输出值对(key，value)，key是这棵树，value包括这棵树的出现位置的数目，他的候选边及其出现次数。

第四，重新回到输出起点继续递归，输入的两个集合变为E，C。其中C是递归主体第一步中产生的结果。如果C是空的那么就表示没有含有更多边的子树了，递归就可以结束了。

Reduce：

每个Reduce函数都会得到一个树在部分节点的出现次数以及他的候选边在部分节点的出现次数。

1)判断这棵树是否有可能是频繁子树。

输入中我们会得到这棵树在部分节点的出现次数，用列表表示，列表的长度用k表示，然后将列表中的数都加起来，再加上，然后如果这个值小，那么表示这棵树不可能是频繁子树，reduce函数结束，否则进行下一步。

2)判断这棵树的候选边是否是有必要的。

类似于上面一步，对于每条候选边输入中会包含其在部分节点的出现次数，用列表表示，列表的长度用k表示，然后将列表中的数都加起来，再加(n-k)*m*θ，然后如果这个值小n*m*θ，那么这条候选边就是不必要的，删除掉这条候选边。

3)将这颗树以及2)中没有被删除的候选边输出。

所有Reduce函数的输出的结果整合在一起就得到了可能是频繁子树的集合及其候选边。

第二轮Mapreduce：确定上一轮得到的集合中真正的频繁子树及其候选边。

Map：输入为上一轮得到的频繁子树的集合及其候选边

1)获得这个集合中的树及其候选边的在本节点的出现次数。

有部分树的出现结果在第一轮的时候在本地保存了，可以直接使用；如果没有，则遍历本地的数据找出其出现位置，以及候选边的信息(包括出现位置)，同时要本地追加这些没有的信息。

2)将这个集合中的每颗树及其候选边输出。

每棵树输出值对(key，value)，key是这棵树，value包括这棵树的出现次数，他的候选边及其出现的次数。

Reduce：确定每棵树是不是频繁子树，确定其候选边。

每个Reduce函数都会得到一个树在全部节点的出现次数以及他的候选边在全部节点的出现次数。

1)判断这棵树是否有可能是频繁子树。

输入中我们会得到这棵树在部分节点的出现次数，用列表表示，然后将列表中的数都加起来，然后如果这个值小n*m*θ，那么表示这棵树不可能是频繁子树，reduce函数结束，否则进行下一步。

2)判断这棵树的候选边是否是有必要的。

类似于上面一步，对于每条候选边输入中会包含其在部分节点的出现次数，用列表表示，然后将列表中的数都加起来，然后如果这个值小n*m*θ，那么这条候选边就是不必要的，删除掉这条候选边。

3)将这颗树以及2)中没有被删除的候选边输出。

所有Reduce函数的输出的结果整合在一起就得到了频繁子树的集合及其候选边。

如图5所示，使用一轮MapReduce将上述频繁子树及其候选边进行结合，并检验，产生极大频繁子图的候选集；

输入就是上一轮产生的频繁子树的集合及其候选边。

Map：

1)提取上一轮产生的频繁子树的集合中的每颗树的候选边在本地保存的记录，提取其中的出现位置信息。

2)对于每棵树，输出值对(key，value)，key是这颗树，value包括其候选边以及每条候选边出现的位置。

Reduce：对每颗频繁子树及其候选边进行结合，并检验，产生极大频繁子图的候选集。

1)每个Reduce函数都会得到一个树以及他的候选边在全部节点的出现位置信息。

将这棵树的与候选边进行组合得到子图的集合，并检验其中每个图，符合条件就输出。使用深搜进行组合及检验。

深搜起点：输入C，就是候选边的集合

深搜主体：将C中的候选边的出现位置取交集。如果交集的大小(用候选边的出现次数定义)不小于n*m*θ，那么就输出这棵树与C的组合(就是将树中的相关顶点连接起来)，深搜返回；否则，对于C中的每条边c，我们再回到深搜起点，输入为C^-，表示的是C中删除了c的集合。

深搜结束：如果深搜主体没有输出任何数据，那么就输出这棵树。

所有Reduce函数的输出的结果整合在一起就得到了极大频繁子树的候选集合。

如图6所示，获得上一步产生的候选集合中的真正的极大频繁子图。

由于上一步产生的集合已经比较小了，所以这一步使用单机完成。

1)将输入的集合按照其中图的边的数目划分开，用A1,A2,A3,…表示，A1就是集合中含有一条边的图；

2)最终的结果放在集合R中；

3)把A1加入R中；

4)记录i，i表示第i次运行到这一步；

5)对于R中的每个图，如果其出现在了Ai+1的某个图中(也就是说Ai+1的某个图的子图)，那么就把R中的这个图删掉；

6)把Ai+1的图都加入R中，如果Ai+1后面的A系列集合都为空就结束；否则回到4)。

最终R中的结果就是我们需要的极大频繁子图。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种使用Hadoop的极大频繁子图挖掘方法，其特征在于，包括以下步骤：

S1：使用两轮MapReduce找出频繁子树及其候选边；

S3：在候选集中找出极大频繁子图。

2.根据权利要求1所述的使用Hadoop的极大频繁子图挖掘方法，其特征在于，所述步骤S1的具体过程如下：

3.根据权利要求2所述的使用Hadoop的极大频繁子图挖掘方法，其特征在于，所述步骤S2的具体过程如下：

S21：在每个节点中，取得S16得到的频繁子树的集合中的每颗树的候选边在本地保存的记录，提取其中的出现位置信息；

4.根据权利要求3所述的使用Hadoop的极大频繁子图挖掘方法，其特征在于，在步骤S14中判断所得局部频繁子树是否有可能是频繁子树的过程是：

5.根据权利要求4所述的使用Hadoop的极大频繁子图挖掘方法，其特征在于，在步骤S14中判断所得局部频繁子树的候选边是否是有必要的过程是：

6.根据权利要求5所述的使用Hadoop的极大频繁子图挖掘方法，其特征在于，在步骤S16判断所得树是否有可能是频繁子树的过程是：

7.根据权利要求6所述的使用Hadoop的极大频繁子图挖掘方法，其特征在于，在步骤S16判断所得树的候选边是否是有必要的过程是：

8.根据权利要求7所述的使用Hadoop的极大频繁子图挖掘方法，其特征在于，所述步骤S3的具体过程如下：

2)临时输出放在集合R中；

3)将A1加入R；

1)记录i，i表示第i次运行到这一步；

c、输出结果R；

其中，A表示步骤S2的结果。