CN103440351A

CN103440351A - 一种关联规则数据挖掘算法的并行计算方法及装置

Info

Publication number: CN103440351A
Application number: CN2013104329649A
Authority: CN
Inventors: 罗建; 李引; 袁峰
Original assignee: Guangzhou Institute of Software Application Technology Guangzhou GZIS
Current assignee: Guangzhou Institute of Software Application Technology Guangzhou GZIS
Priority date: 2013-09-22
Filing date: 2013-09-22
Publication date: 2013-12-11
Anticipated expiration: 2033-09-22
Also published as: CN103440351B

Abstract

本发明实施例公开了一种关联规则数据挖掘算法的并行计算方法，采用并行计算和分布式数据存储的方式，能够解决现有技术所存在的瓶颈和缺点，实现海量数据的快速、简单关联规则挖掘。本发明实施例方法包括：定义最小支持度和最小置信度；扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；根据所述最小支持度筛选所述一维候选集，得到新候选集；根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；根据键值Key将可能候选集Val分发到并行计算集群；根据预设规则分别对各并行计算集群进行计算，得到计算结果；将所述计算结果汇总并产生关联规则集。

Description

一种关联规则数据挖掘算法的并行计算方法及装置

技术领域

本发明实施例涉及通信领域，具体涉及一种关联规则数据挖掘算法的并行计算方法及装置。

背景技术

关联规则挖掘指的是通过对大量数据中项集的分析，发现数据项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，该技术被广泛的应用于各个行业，尤其是电商和零售业。

关联规则定义为：假设I是项的集合。给定一个交易数据库D，其中每个事务(Transaction)t是I的非空子集，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率，用符号记做X=>Y。如果满足最小支持度阈值和最小置信度阈值。

请参阅图1，现有的技术方案，采用串行的计算方式，编程方式比较简单。第一步定义最小支持度min_sup和最新置信度；第二步扫描数据库判断是否产生候选集，如果否结束计算，如果是产生候选集和计算候选集支持度；第三步判断候选集的各个元素的支持度是否大于等于最小支持度，如果元素满足条件则进入频繁项集，如果候选集中没有满足条件的元素则结束；第四步产生频繁项集，并再次扫描数据库计算频繁项集的置信度，判断是否满足置信度产生关联规则集。重复循环第二到第四步产生所有关联规则。

由于该挖掘算法本身计算量较大，且不可避免的存在扫描整个待挖掘数据集的情况，随着当前数据量的***式增长和用户对挖掘结果精准度、实时性的要求，传统串行的计算方式已经很难满足当前的挖掘需求，主要体现在挖掘效率和可处理的数据量两个方面，串行的计算方式只能单机运行，对于一次处理需求往往需要计算几十个小时或者更长时间，并且单机由于受到磁盘空间、内存和处理器等多方面的限制一次处理的数据量也是有限的。同时现有技术存在多次扫描这个挖掘样本的情况，对于海量数据的挖掘来说是无法忍受的，也无法利用数据分布式存储的优势。

发明内容

本发明实施例提供了一种关联规则数据挖掘算法的并行计算方法，采用并行计算和分布式数据存储的方式，能够解决现有技术所存在的瓶颈和缺点，实现海量数据的快速、简单关联规则挖掘。

本发明实施例提供的关联规则数据挖掘算法的并行计算方法，包括：

定义最小支持度和最小置信度；

扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；

根据所述最小支持度筛选所述一维候选集，得到新候选集；

根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；

根据键值Key将可能候选集Val分发到并行计算集群；

根据预设规则分别对各并行计算集群进行计算，得到计算结果；

将所述计算结果汇总并产生关联规则集。

可选地，

步骤所述根据预设规则分别对各并行计算集群进行计算包括：

计算<Key，Val>中的Val的维度vk；

根据vk值选择数据维度不小于vk的数据库计算Val的支持度；

若Val的支持度不小于最小支持度，记录Val为频繁项；

根据vk值选择数据维度不小于vk的数据库计算Val的置信度；

若Val的置信度不小于最小置信度，记录Val为强关联规则。

本发明实施例提供的关联规则数据挖掘算法的并行计算装置，包括：

定义单元，用于定义最小支持度和最小置信度；

处理单元，用于扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；

筛选单元，用于根据所述最小支持度筛选所述一维候选集，得到新候选集；

产生单元，用于根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；

分发单元，用于根据键值Key将可能候选集Val分发到并行计算集群；

计算单元，用于根据预设规则分别对各并行计算集群进行计算，得到计算结果；

关联单元，用于将所述计算结果汇总并产生关联规则集。

可选地，

所述计算单元包括：

第一计算子单元，用于计算<Key，Val>中的Val的维度vk；

第二计算子单元，用于根据vk值选择数据维度不小于vk的数据库计算Val的支持度；

第一记录子单元，用于判断Val的支持度是否不小于最小支持度，如果是记录Val为频繁项；

第三计算子单元，用于根据vk值选择数据维度不小于vk的数据库计算Val的置信度；

第二记录子单元，用于判断置信度是否不小于最小置信度，如果是记录Val为强关联规则。

本发明实施例中，首先定义最小支持度和最小置信度；然后扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；接着根据所述最小支持度筛选所述一维候选集，得到新候选集；然后根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；接着根据键值Key将可能候选集Val分发到并行计算集群；然后根据预设规则分别对各并行计算集群进行计算，得到计算结果；最后将所述计算结果汇总并产生关联规则集。由于本发明实施例的方法和装置采用并行计算和分布式数据存储的方式，能够让复杂的计算分布到各个计算集群分块同时进行计算，从而大大提高了挖掘效率和数据处理能力；同时源数据按数据维度分布式存储，每个计算集群只需要扫描不小于自身数据维度的数据库即可，能够有效地减少扫描数据库的次数，从而实现海量数据的快速、简单关联规则挖掘。

附图说明

图1为现有技术中使用串行计算方式进行关联规则挖掘的流程图；

图2为本发明实施例中关联规则数据挖掘算法的并行计算方法第一实施例流程图；

图3为本发明实施例中关联规则数据挖掘算法的并行计算方法第二实施例流程图；

图4为本发明实施例中关联规则数据挖掘算法的并行计算装置实施例结构示意图。

具体实施方式

请参阅图2，本发明实施例中关联规则数据挖掘算法的并行计算方法的第一实施例包括：

201、定义最小支持度和最小置信度；

在进行本发明实施例的关联规则数据挖掘算法的并行计算之前，可以定义最小支持度和最小置信度，其中最小支持度可以记为min_sup，最小置信度可以记为min_cnf。

202、扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；

定义最小支持度和最小置信度，可以对数据库进行扫描，扫描数据库可以产生一维候选集、一维候选集的支持度和以及数据最大维度，然后可以将源数据按数据维度分成多个分布式存储的数据库。

203、根据最小支持度筛选一维候选集，得到新候选集；

扫描数据库产生一维候选集之后，可以根据最小支持度对一维候选集进行筛选，进而可以得到新候选集。

204、根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；

得到新候选集之后，可以根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>。

205、根据键值Key将可能候选集Val分发到并行计算集群；

根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>之后，可以根据键值Key将可能候选集Val分发到并行计算集群。例如键值Key对应10个可能候选集Val，则可以将10个可能候选集Val分到10个并行计算集群中。

206、根据预设规则分别对各并行计算集群进行计算，得到计算结果；

根据键值Key将可能候选集Val分发到并行计算集群，可以根据预设规则分别对各并行计算集群进行计算，并得到计算结果。假设将10个可能候选集Val分到10个并行计算集群中，则10个并行计算集群分别根据预设规则对可能候选集Val进行计算，可以得到计算结果。

207、将计算结果汇总并产生关联规则集。

得到计算结果之后，可以将计算结果汇总并产生关联规则集。

本发明实施例中，首先定义最小支持度和最小置信度；然后扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；接着根据最小支持度筛选一维候选集，得到新候选集；然后根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；接着根据键值Key将可能候选集Val分发到并行计算集群；然后根据预设规则分别对各并行计算集群进行计算，得到计算结果；最后将计算结果汇总并产生关联规则集。由于本发明实施例的方法和装置采用并行计算和分布式数据存储的方式，能够让复杂的计算分布到各个计算集群分块同时进行计算，从而大大提高了挖掘效率和数据处理能力；同时源数据按数据维度分布式存储，每个计算集群只需要扫描不小于自身数据维度的数据库即可，能够有效地减少扫描数据库的次数，从而实现海量数据的快速、简单关联规则挖掘。

上面简单介绍了本发明关联规则数据挖掘算法的并行计算方法的第一实施例，下面对本发明关联规则数据挖掘算法的并行计算方法的第二实施例进行详细的描述，请参阅图3，本发明实施例中关联规则数据挖掘算法的并行计算方法第二实施例包括：

301、定义最小支持度和最小置信度；

302、扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；

303、根据最小支持度筛选一维候选集，得到新候选集；

304、根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；

305、根据键值Key将可能候选集Val分发到并行计算集群；

306、根据预设规则分别对各并行计算集群进行计算并得到计算结果；

上述根据预设规则分别对各并行计算集群进行计算的具体过程可以是：计算<Key，Val>中的Val的维度vk；根据vk值选择数据维度不小于vk的数据库计算Val的支持度；若Val的支持度不小于最小支持度，记录Val为频繁项；根据vk值选择数据维度不小于vk的数据库计算Val的置信度；若Val的置信度不小于最小置信度，记录Val为强关联规则。

307、将计算结果汇总并产生关联规则集。

下面结合一个具体例子来说明本发明实施例中各步骤的工作过程：

一、初始化计算步骤

1、设定最小支持度min_sup=2，最小置信度min_cnf=0.7；

2、（1）扫描数据库产生一维候选集及其支持度和数据最大维度；（2）将源数据按数据维度分成多个分布式存储的数据库。例如，待挖掘数据库有一下数据项：

TID	Comb
		1	A1，A2，A3
2	A2，A3
		3	A2，A3，A4
4	A3，A4
		5	A1，A4
6	A2，A3，A5

经过处理后产生一维候选集C1

ID	Comb	sup
			1	A1	2
2	A2	3
			3	A3	4
4	A4	3
			5	A5	1

数据最大维度是3，

分库情况为：D1：

TID	Comb
		1	A1，A2，A3
3	A2，A3，A4
		6	A2，A3，A5

D2：

TID	Comb
		2	A2，A3
4	A3，A4
		5	A1，A4

3、根据设定的最小支持度筛选一维候选集产生新的候选集，例如对步骤2处理后的结果为：

ID	Comb	sup
			1	A1	2
2	A2	3
			3	A3	4
4	A4	3

4、根据筛选后的一维候选集产生所有维度大于1且小于等于最大维度的可能候选集键值对<Key，Val>，例如上一步中数据处理结果为:

Key	Val
		1	A1，A2
2	A1，A3
		3	A1，A4
4	A2，A3
		5	A2，A4
6	A3，A4
		7	A1，A2，A3
8	A1，A2，A4
		9	A1，A3，A4
10	A2，A3，A4

5、根据上一步的Key值将可能候选集分发到并行计算集群。这里假设分发规则为Key分发到S(Key)，其中S(Key)代表某一台计算单元，如：Key=1分发到S1、Key=2分发到S2。

二、集群单个单元计算步骤：

1、计算<Key，Val>中的Val的维度vk，如Key=1的vk=2，Key=7的vk=3；

2、根据vk值选择扫描维度大于等于vk的源数据库算计Val的支持度，如S4中需要扫描D1和D2，得到的最大支持度为4；S7中只需要扫描D1得到最大支持度为1；

3、判断Val的支持度是否大于等于最小支持度min_sup，如果是Val记录为频繁项，如上一步实例中的S4将记录频繁项：

Key	Val	sup
			4	A2，A3	4

S7中由于其Key=7的支持度小于2所有没有频繁项产生，结束单元计算。

4、计算置信度，如上一步S4中的置信度结果为：

5、判断置信度是否大于等于最新置信度min_cnf，产生强关联规则集，如S4中产生的强关联规则集为：

ID	Comb
		1	A2=>A3
2	A3=>A2

三、汇总计算集群计算结果

将集群内的各个计算单元结果汇总产生强关联规则集，实例中归并后的结果为：

ID	Comb
		1	A2=>A3
2	A3=>A2

上面对本发明关联规则数据挖掘算法的并行计算方法的第二实施例作了详细描述，特别是根据预设规则分别对各并行计算集群进行计算，得到计算结果的过程，下面介绍本发明关联规则数据挖掘算法的并行计算装置实施例，请参阅图4，本发明实施例中关联规则数据挖掘算法的并行计算装置实施例包括：

定义单元401，用于定义最小支持度和最小置信度；

处理单元402，用于扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；

筛选单元403，用于根据最小支持度筛选一维候选集，得到新候选集；

产生单元404，用于根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；

分发单元405，用于根据键值Key将可能候选集Val分发到并行计算集群；

计算单元406，用于根据预设规则分别对各并行计算集群进行计算，得到计算结果；

关联单元407，用于将计算结果汇总并产生关联规则集。

可选地，

计算单元406包括：

第一计算子单元4061，用于计算<Key，Val>中的Val的维度vk；

第二计算子单元4062，用于根据vk值选择数据维度不小于vk的数据库计算Val的支持度；

第一记录子单元4063，用于判断Val的支持度是否不小于最小支持度，如果是记录Val为频繁项；

第三计算子单元4064，用于根据vk值选择数据维度不小于vk的数据库计算Val的置信度；

第二记录子单元4065，用于判断置信度是否不小于最小置信度，如果是记录Val为强关联规则。

在进行本发明实施例的关联规则数据挖掘算法的并行计算之前，定义单元401可以定义最小支持度和最小置信度，其中最小支持度可以记为min_sup，最小置信度可以记为min_cnf。定义单元401定义最小支持度和最小置信度，处理单元402可以对数据库进行扫描，扫描数据库可以产生一维候选集、一维候选集的支持度和以及数据最大维度，然后可以将源数据按数据维度分成多个分布式存储的数据库。

处理单元402扫描数据库产生一维候选集之后，筛选单元403可以根据最小支持度对一维候选集进行筛选，进而可以得到新候选集。筛选单元403得到新候选集之后，产生单元404可以根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>。产生单元404根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>之后，分发单元405可以根据键值Key将可能候选集Val分发到并行计算集群。例如键值Key对应10个可能候选集Val，则可以将10个可能候选集Val分到10个并行计算集群中。

分发单元405根据键值Key将可能候选集Val分发到并行计算集群，计算单元406可以根据预设规则分别对各并行计算集群进行计算，并得到计算结果。假设将10个可能候选集Val分到10个并行计算集群中，则10个并行计算集群分别根据预设规则对可能候选集Val进行计算，可以得到计算结果。

上述计算单元406根据预设规则分别对各并行计算集群进行计算的具体过程可以是：第一计算子单元4061计算<Key，Val>中的Val的维度vk；第二计算子单元4062根据vk值选择数据维度不小于vk的数据库计算Val的支持度；若Val的支持度不小于最小支持度，第一记录子单元4063记录Val为频繁项；第三计算子单元4064根据vk值选择数据维度不小于vk的数据库计算Val的置信度；若Val的置信度不小于最小置信度，第二记录子单元4065记录Val为强关联规则。

计算单元406得到计算结果之后，关联单元407可以将计算结果汇总并产生关联规则集。

本发明实施例中，定义单元401首先定义最小支持度和最小置信度；然后处理单元402扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库；接着筛选单元403根据最小支持度筛选一维候选集，得到新候选集；然后产生单元404根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key，Val>；接着分发单元405根据键值Key将可能候选集Val分发到并行计算集群；然后计算单元406根据预设规则分别对各并行计算集群进行计算，得到计算结果；最后关联单元407将计算结果汇总并产生关联规则集。由于本发明实施例的方法和装置采用并行计算和分布式数据存储的方式，能够让复杂的计算分布到各个计算集群分块同时进行计算，从而大大提高了挖掘效率和数据处理能力；同时源数据按数据维度分布式存储，每个计算集群只需要扫描不小于自身数据维度的数据库即可，能够有效地减少扫描数据库的次数，从而实现海量数据的快速、简单关联规则挖掘。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，其中的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种关联规则数据挖掘算法的并行计算方法及装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种关联规则数据挖掘算法的并行计算方法，其特征在于，包括：

定义最小支持度和最小置信度；

根据所述最小支持度筛选所述一维候选集，得到新候选集；

根据键值Key将可能候选集Val分发到并行计算集群；

将所述计算结果汇总并产生关联规则集。

2.根据权利要求1所述的关联规则数据挖掘算法的并行计算方法，其特征在于，步骤所述根据预设规则分别对各并行计算集群进行计算包括：

计算<Key，Val>中的Val的维度vk；

根据vk值选择数据维度不小于vk的数据库计算Val的支持度；

若Val的支持度不小于最小支持度，记录Val为频繁项；

根据vk值选择数据维度不小于vk的数据库计算Val的置信度；

若Val的置信度不小于最小置信度，记录Val为强关联规则。

3.一种关联规则数据挖掘算法的并行计算装置，其特征在于，包括：

定义单元，用于定义最小支持度和最小置信度；

关联单元，用于将所述计算结果汇总并产生关联规则集。

4.根据权利要求8所述的关联规则数据挖掘算法的并行计算装置，其特征在于，所述计算单元包括：

第一计算子单元，用于计算<Key，Val>中的Val的维度vk；