CN103440351A - 一种关联规则数据挖掘算法的并行计算方法及装置 - Google Patents

一种关联规则数据挖掘算法的并行计算方法及装置 Download PDF

Info

Publication number
CN103440351A
CN103440351A CN2013104329649A CN201310432964A CN103440351A CN 103440351 A CN103440351 A CN 103440351A CN 2013104329649 A CN2013104329649 A CN 2013104329649A CN 201310432964 A CN201310432964 A CN 201310432964A CN 103440351 A CN103440351 A CN 103440351A
Authority
CN
China
Prior art keywords
val
candidate set
dimension
key
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013104329649A
Other languages
English (en)
Other versions
CN103440351B (zh
Inventor
罗建
李引
袁峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Software Application Technology Guangzhou GZIS
Original Assignee
Guangzhou Institute of Software Application Technology Guangzhou GZIS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Software Application Technology Guangzhou GZIS filed Critical Guangzhou Institute of Software Application Technology Guangzhou GZIS
Priority to CN201310432964.9A priority Critical patent/CN103440351B/zh
Publication of CN103440351A publication Critical patent/CN103440351A/zh
Application granted granted Critical
Publication of CN103440351B publication Critical patent/CN103440351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种关联规则数据挖掘算法的并行计算方法,采用并行计算和分布式数据存储的方式,能够解决现有技术所存在的瓶颈和缺点,实现海量数据的快速、简单关联规则挖掘。本发明实施例方法包括:定义最小支持度和最小置信度;扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;根据所述最小支持度筛选所述一维候选集,得到新候选集;根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;根据键值Key将可能候选集Val分发到并行计算集群;根据预设规则分别对各并行计算集群进行计算,得到计算结果;将所述计算结果汇总并产生关联规则集。

Description

一种关联规则数据挖掘算法的并行计算方法及装置
技术领域
本发明实施例涉及通信领域,具体涉及一种关联规则数据挖掘算法的并行计算方法及装置。
背景技术
关联规则挖掘指的是通过对大量数据中项集的分析,发现数据项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,该技术被广泛的应用于各个行业,尤其是电商和零售业。
关联规则定义为:假设I是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率,用符号记做X=>Y。如果满足最小支持度阈值和最小置信度阈值。
请参阅图1,现有的技术方案,采用串行的计算方式,编程方式比较简单。第一步定义最小支持度min_sup和最新置信度;第二步扫描数据库判断是否产生候选集,如果否结束计算,如果是产生候选集和计算候选集支持度;第三步判断候选集的各个元素的支持度是否大于等于最小支持度,如果元素满足条件则进入频繁项集,如果候选集中没有满足条件的元素则结束;第四步产生频繁项集,并再次扫描数据库计算频繁项集的置信度,判断是否满足置信度产生关联规则集。重复循环第二到第四步产生所有关联规则。
由于该挖掘算法本身计算量较大,且不可避免的存在扫描整个待挖掘数据集的情况,随着当前数据量的***式增长和用户对挖掘结果精准度、实时性的要求,传统串行的计算方式已经很难满足当前的挖掘需求,主要体现在挖掘效率和可处理的数据量两个方面,串行的计算方式只能单机运行,对于一次处理需求往往需要计算几十个小时或者更长时间,并且单机由于受到磁盘空间、内存和处理器等多方面的限制一次处理的数据量也是有限的。同时现有技术存在多次扫描这个挖掘样本的情况,对于海量数据的挖掘来说是无法忍受的,也无法利用数据分布式存储的优势。
发明内容
本发明实施例提供了一种关联规则数据挖掘算法的并行计算方法,采用并行计算和分布式数据存储的方式,能够解决现有技术所存在的瓶颈和缺点,实现海量数据的快速、简单关联规则挖掘。
本发明实施例提供的关联规则数据挖掘算法的并行计算方法,包括:
定义最小支持度和最小置信度;
扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;
根据所述最小支持度筛选所述一维候选集,得到新候选集;
根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;
根据键值Key将可能候选集Val分发到并行计算集群;
根据预设规则分别对各并行计算集群进行计算,得到计算结果;
将所述计算结果汇总并产生关联规则集。
可选地,
步骤所述根据预设规则分别对各并行计算集群进行计算包括:
计算<Key,Val>中的Val的维度vk;
根据vk值选择数据维度不小于vk的数据库计算Val的支持度;
若Val的支持度不小于最小支持度,记录Val为频繁项;
根据vk值选择数据维度不小于vk的数据库计算Val的置信度;
若Val的置信度不小于最小置信度,记录Val为强关联规则。
本发明实施例提供的关联规则数据挖掘算法的并行计算装置,包括:
定义单元,用于定义最小支持度和最小置信度;
处理单元,用于扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;
筛选单元,用于根据所述最小支持度筛选所述一维候选集,得到新候选集;
产生单元,用于根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;
分发单元,用于根据键值Key将可能候选集Val分发到并行计算集群;
计算单元,用于根据预设规则分别对各并行计算集群进行计算,得到计算结果;
关联单元,用于将所述计算结果汇总并产生关联规则集。
可选地,
所述计算单元包括:
第一计算子单元,用于计算<Key,Val>中的Val的维度vk;
第二计算子单元,用于根据vk值选择数据维度不小于vk的数据库计算Val的支持度;
第一记录子单元,用于判断Val的支持度是否不小于最小支持度,如果是记录Val为频繁项;
第三计算子单元,用于根据vk值选择数据维度不小于vk的数据库计算Val的置信度;
第二记录子单元,用于判断置信度是否不小于最小置信度,如果是记录Val为强关联规则。
本发明实施例中,首先定义最小支持度和最小置信度;然后扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;接着根据所述最小支持度筛选所述一维候选集,得到新候选集;然后根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;接着根据键值Key将可能候选集Val分发到并行计算集群;然后根据预设规则分别对各并行计算集群进行计算,得到计算结果;最后将所述计算结果汇总并产生关联规则集。由于本发明实施例的方法和装置采用并行计算和分布式数据存储的方式,能够让复杂的计算分布到各个计算集群分块同时进行计算,从而大大提高了挖掘效率和数据处理能力;同时源数据按数据维度分布式存储,每个计算集群只需要扫描不小于自身数据维度的数据库即可,能够有效地减少扫描数据库的次数,从而实现海量数据的快速、简单关联规则挖掘。
附图说明
图1为现有技术中使用串行计算方式进行关联规则挖掘的流程图;
图2为本发明实施例中关联规则数据挖掘算法的并行计算方法第一实施例流程图;
图3为本发明实施例中关联规则数据挖掘算法的并行计算方法第二实施例流程图;
图4为本发明实施例中关联规则数据挖掘算法的并行计算装置实施例结构示意图。
具体实施方式
本发明实施例提供了一种关联规则数据挖掘算法的并行计算方法,采用并行计算和分布式数据存储的方式,能够解决现有技术所存在的瓶颈和缺点,实现海量数据的快速、简单关联规则挖掘。
请参阅图2,本发明实施例中关联规则数据挖掘算法的并行计算方法的第一实施例包括:
201、定义最小支持度和最小置信度;
在进行本发明实施例的关联规则数据挖掘算法的并行计算之前,可以定义最小支持度和最小置信度,其中最小支持度可以记为min_sup,最小置信度可以记为min_cnf。
202、扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;
定义最小支持度和最小置信度,可以对数据库进行扫描,扫描数据库可以产生一维候选集、一维候选集的支持度和以及数据最大维度,然后可以将源数据按数据维度分成多个分布式存储的数据库。
203、根据最小支持度筛选一维候选集,得到新候选集;
扫描数据库产生一维候选集之后,可以根据最小支持度对一维候选集进行筛选,进而可以得到新候选集。
204、根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;
得到新候选集之后,可以根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>。
205、根据键值Key将可能候选集Val分发到并行计算集群;
根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>之后,可以根据键值Key将可能候选集Val分发到并行计算集群。例如键值Key对应10个可能候选集Val,则可以将10个可能候选集Val分到10个并行计算集群中。
206、根据预设规则分别对各并行计算集群进行计算,得到计算结果;
根据键值Key将可能候选集Val分发到并行计算集群,可以根据预设规则分别对各并行计算集群进行计算,并得到计算结果。假设将10个可能候选集Val分到10个并行计算集群中,则10个并行计算集群分别根据预设规则对可能候选集Val进行计算,可以得到计算结果。
207、将计算结果汇总并产生关联规则集。
得到计算结果之后,可以将计算结果汇总并产生关联规则集。
本发明实施例中,首先定义最小支持度和最小置信度;然后扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;接着根据最小支持度筛选一维候选集,得到新候选集;然后根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;接着根据键值Key将可能候选集Val分发到并行计算集群;然后根据预设规则分别对各并行计算集群进行计算,得到计算结果;最后将计算结果汇总并产生关联规则集。由于本发明实施例的方法和装置采用并行计算和分布式数据存储的方式,能够让复杂的计算分布到各个计算集群分块同时进行计算,从而大大提高了挖掘效率和数据处理能力;同时源数据按数据维度分布式存储,每个计算集群只需要扫描不小于自身数据维度的数据库即可,能够有效地减少扫描数据库的次数,从而实现海量数据的快速、简单关联规则挖掘。
上面简单介绍了本发明关联规则数据挖掘算法的并行计算方法的第一实施例,下面对本发明关联规则数据挖掘算法的并行计算方法的第二实施例进行详细的描述,请参阅图3,本发明实施例中关联规则数据挖掘算法的并行计算方法第二实施例包括:
301、定义最小支持度和最小置信度;
在进行本发明实施例的关联规则数据挖掘算法的并行计算之前,可以定义最小支持度和最小置信度,其中最小支持度可以记为min_sup,最小置信度可以记为min_cnf。
302、扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;
定义最小支持度和最小置信度,可以对数据库进行扫描,扫描数据库可以产生一维候选集、一维候选集的支持度和以及数据最大维度,然后可以将源数据按数据维度分成多个分布式存储的数据库。
303、根据最小支持度筛选一维候选集,得到新候选集;
扫描数据库产生一维候选集之后,可以根据最小支持度对一维候选集进行筛选,进而可以得到新候选集。
304、根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;
得到新候选集之后,可以根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>。
305、根据键值Key将可能候选集Val分发到并行计算集群;
根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>之后,可以根据键值Key将可能候选集Val分发到并行计算集群。例如键值Key对应10个可能候选集Val,则可以将10个可能候选集Val分到10个并行计算集群中。
306、根据预设规则分别对各并行计算集群进行计算并得到计算结果;
根据键值Key将可能候选集Val分发到并行计算集群,可以根据预设规则分别对各并行计算集群进行计算,并得到计算结果。假设将10个可能候选集Val分到10个并行计算集群中,则10个并行计算集群分别根据预设规则对可能候选集Val进行计算,可以得到计算结果。
上述根据预设规则分别对各并行计算集群进行计算的具体过程可以是:计算<Key,Val>中的Val的维度vk;根据vk值选择数据维度不小于vk的数据库计算Val的支持度;若Val的支持度不小于最小支持度,记录Val为频繁项;根据vk值选择数据维度不小于vk的数据库计算Val的置信度;若Val的置信度不小于最小置信度,记录Val为强关联规则。
307、将计算结果汇总并产生关联规则集。
得到计算结果之后,可以将计算结果汇总并产生关联规则集。
下面结合一个具体例子来说明本发明实施例中各步骤的工作过程:
一、初始化计算步骤
1、设定最小支持度min_sup=2,最小置信度min_cnf=0.7;
2、(1)扫描数据库产生一维候选集及其支持度和数据最大维度;(2)将源数据按数据维度分成多个分布式存储的数据库。例如,待挖掘数据库有一下数据项:
TID Comb
1 A1,A2,A3
2 A2,A3
3 A2,A3,A4
4 A3,A4
5 A1,A4
6 A2,A3,A5
经过处理后产生一维候选集C1
ID Comb sup
1 A1 2
2 A2 3
3 A3 4
4 A4 3
5 A5 1
数据最大维度是3,
分库情况为:D1:
TID Comb
1 A1,A2,A3
3 A2,A3,A4
6 A2,A3,A5
D2:
TID Comb
2 A2,A3
4 A3,A4
5 A1,A4
3、根据设定的最小支持度筛选一维候选集产生新的候选集,例如对步骤2处理后的结果为:
ID Comb sup
1 A1 2
2 A2 3
3 A3 4
4 A4 3
4、根据筛选后的一维候选集产生所有维度大于1且小于等于最大维度的可能候选集键值对<Key,Val>,例如上一步中数据处理结果为:
Key Val
1 A1,A2
2 A1,A3
3 A1,A4
4 A2,A3
5 A2,A4
6 A3,A4
7 A1,A2,A3
8 A1,A2,A4
9 A1,A3,A4
10 A2,A3,A4
5、根据上一步的Key值将可能候选集分发到并行计算集群。这里假设分发规则为Key分发到S(Key),其中S(Key)代表某一台计算单元,如:Key=1分发到S1、Key=2分发到S2。
二、集群单个单元计算步骤:
1、计算<Key,Val>中的Val的维度vk,如Key=1的vk=2,Key=7的vk=3;
2、根据vk值选择扫描维度大于等于vk的源数据库算计Val的支持度,如S4中需要扫描D1和D2,得到的最大支持度为4;S7中只需要扫描D1得到最大支持度为1;
3、判断Val的支持度是否大于等于最小支持度min_sup,如果是Val记录为频繁项,如上一步实例中的S4将记录频繁项:
Key Val sup
4 A2,A3 4
S7中由于其Key=7的支持度小于2所有没有频繁项产生,结束单元计算。
4、计算置信度,如上一步S4中的置信度结果为:
Figure BDA0000385332230000091
5、判断置信度是否大于等于最新置信度min_cnf,产生强关联规则集,如S4中产生的强关联规则集为:
ID Comb
1 A2=>A3
2 A3=>A2
三、汇总计算集群计算结果
将集群内的各个计算单元结果汇总产生强关联规则集,实例中归并后的结果为:
ID Comb
1 A2=>A3
2 A3=>A2
本发明实施例中,首先定义最小支持度和最小置信度;然后扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;接着根据最小支持度筛选一维候选集,得到新候选集;然后根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;接着根据键值Key将可能候选集Val分发到并行计算集群;然后根据预设规则分别对各并行计算集群进行计算,得到计算结果;最后将计算结果汇总并产生关联规则集。由于本发明实施例的方法和装置采用并行计算和分布式数据存储的方式,能够让复杂的计算分布到各个计算集群分块同时进行计算,从而大大提高了挖掘效率和数据处理能力;同时源数据按数据维度分布式存储,每个计算集群只需要扫描不小于自身数据维度的数据库即可,能够有效地减少扫描数据库的次数,从而实现海量数据的快速、简单关联规则挖掘。
上面对本发明关联规则数据挖掘算法的并行计算方法的第二实施例作了详细描述,特别是根据预设规则分别对各并行计算集群进行计算,得到计算结果的过程,下面介绍本发明关联规则数据挖掘算法的并行计算装置实施例,请参阅图4,本发明实施例中关联规则数据挖掘算法的并行计算装置实施例包括:
定义单元401,用于定义最小支持度和最小置信度;
处理单元402,用于扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;
筛选单元403,用于根据最小支持度筛选一维候选集,得到新候选集;
产生单元404,用于根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;
分发单元405,用于根据键值Key将可能候选集Val分发到并行计算集群;
计算单元406,用于根据预设规则分别对各并行计算集群进行计算,得到计算结果;
关联单元407,用于将计算结果汇总并产生关联规则集。
可选地,
计算单元406包括:
第一计算子单元4061,用于计算<Key,Val>中的Val的维度vk;
第二计算子单元4062,用于根据vk值选择数据维度不小于vk的数据库计算Val的支持度;
第一记录子单元4063,用于判断Val的支持度是否不小于最小支持度,如果是记录Val为频繁项;
第三计算子单元4064,用于根据vk值选择数据维度不小于vk的数据库计算Val的置信度;
第二记录子单元4065,用于判断置信度是否不小于最小置信度,如果是记录Val为强关联规则。
在进行本发明实施例的关联规则数据挖掘算法的并行计算之前,定义单元401可以定义最小支持度和最小置信度,其中最小支持度可以记为min_sup,最小置信度可以记为min_cnf。定义单元401定义最小支持度和最小置信度,处理单元402可以对数据库进行扫描,扫描数据库可以产生一维候选集、一维候选集的支持度和以及数据最大维度,然后可以将源数据按数据维度分成多个分布式存储的数据库。
处理单元402扫描数据库产生一维候选集之后,筛选单元403可以根据最小支持度对一维候选集进行筛选,进而可以得到新候选集。筛选单元403得到新候选集之后,产生单元404可以根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>。产生单元404根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>之后,分发单元405可以根据键值Key将可能候选集Val分发到并行计算集群。例如键值Key对应10个可能候选集Val,则可以将10个可能候选集Val分到10个并行计算集群中。
分发单元405根据键值Key将可能候选集Val分发到并行计算集群,计算单元406可以根据预设规则分别对各并行计算集群进行计算,并得到计算结果。假设将10个可能候选集Val分到10个并行计算集群中,则10个并行计算集群分别根据预设规则对可能候选集Val进行计算,可以得到计算结果。
上述计算单元406根据预设规则分别对各并行计算集群进行计算的具体过程可以是:第一计算子单元4061计算<Key,Val>中的Val的维度vk;第二计算子单元4062根据vk值选择数据维度不小于vk的数据库计算Val的支持度;若Val的支持度不小于最小支持度,第一记录子单元4063记录Val为频繁项;第三计算子单元4064根据vk值选择数据维度不小于vk的数据库计算Val的置信度;若Val的置信度不小于最小置信度,第二记录子单元4065记录Val为强关联规则。
计算单元406得到计算结果之后,关联单元407可以将计算结果汇总并产生关联规则集。
本发明实施例中,定义单元401首先定义最小支持度和最小置信度;然后处理单元402扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;接着筛选单元403根据最小支持度筛选一维候选集,得到新候选集;然后产生单元404根据新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;接着分发单元405根据键值Key将可能候选集Val分发到并行计算集群;然后计算单元406根据预设规则分别对各并行计算集群进行计算,得到计算结果;最后关联单元407将计算结果汇总并产生关联规则集。由于本发明实施例的方法和装置采用并行计算和分布式数据存储的方式,能够让复杂的计算分布到各个计算集群分块同时进行计算,从而大大提高了挖掘效率和数据处理能力;同时源数据按数据维度分布式存储,每个计算集群只需要扫描不小于自身数据维度的数据库即可,能够有效地减少扫描数据库的次数,从而实现海量数据的快速、简单关联规则挖掘。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,其中的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种关联规则数据挖掘算法的并行计算方法及装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种关联规则数据挖掘算法的并行计算方法,其特征在于,包括:
定义最小支持度和最小置信度;
扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;
根据所述最小支持度筛选所述一维候选集,得到新候选集;
根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;
根据键值Key将可能候选集Val分发到并行计算集群;
根据预设规则分别对各并行计算集群进行计算,得到计算结果;
将所述计算结果汇总并产生关联规则集。
2.根据权利要求1所述的关联规则数据挖掘算法的并行计算方法,其特征在于,步骤所述根据预设规则分别对各并行计算集群进行计算包括:
计算<Key,Val>中的Val的维度vk;
根据vk值选择数据维度不小于vk的数据库计算Val的支持度;
若Val的支持度不小于最小支持度,记录Val为频繁项;
根据vk值选择数据维度不小于vk的数据库计算Val的置信度;
若Val的置信度不小于最小置信度,记录Val为强关联规则。
3.一种关联规则数据挖掘算法的并行计算装置,其特征在于,包括:
定义单元,用于定义最小支持度和最小置信度;
处理单元,用于扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;
筛选单元,用于根据所述最小支持度筛选所述一维候选集,得到新候选集;
产生单元,用于根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;
分发单元,用于根据键值Key将可能候选集Val分发到并行计算集群;
计算单元,用于根据预设规则分别对各并行计算集群进行计算,得到计算结果;
关联单元,用于将所述计算结果汇总并产生关联规则集。
4.根据权利要求8所述的关联规则数据挖掘算法的并行计算装置,其特征在于,所述计算单元包括:
第一计算子单元,用于计算<Key,Val>中的Val的维度vk;
第二计算子单元,用于根据vk值选择数据维度不小于vk的数据库计算Val的支持度;
第一记录子单元,用于判断Val的支持度是否不小于最小支持度,如果是记录Val为频繁项;
第三计算子单元,用于根据vk值选择数据维度不小于vk的数据库计算Val的置信度;
第二记录子单元,用于判断置信度是否不小于最小置信度,如果是记录Val为强关联规则。
CN201310432964.9A 2013-09-22 2013-09-22 一种关联规则数据挖掘算法的并行计算方法及装置 Active CN103440351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310432964.9A CN103440351B (zh) 2013-09-22 2013-09-22 一种关联规则数据挖掘算法的并行计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310432964.9A CN103440351B (zh) 2013-09-22 2013-09-22 一种关联规则数据挖掘算法的并行计算方法及装置

Publications (2)

Publication Number Publication Date
CN103440351A true CN103440351A (zh) 2013-12-11
CN103440351B CN103440351B (zh) 2017-06-30

Family

ID=49694044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310432964.9A Active CN103440351B (zh) 2013-09-22 2013-09-22 一种关联规则数据挖掘算法的并行计算方法及装置

Country Status (1)

Country Link
CN (1) CN103440351B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598569A (zh) * 2015-01-12 2015-05-06 北京航空航天大学 一种基于关联规则的mbd数据集完整性检查方法
CN106570030A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 基于大数据的计算方法和装置
CN107844514A (zh) * 2017-09-22 2018-03-27 深圳市易成自动驾驶技术有限公司 数据挖掘方法、装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243072A (ja) * 2000-01-20 2001-09-07 Internatl Business Mach Corp <Ibm> 重み付き相関ルールをマイニングする方法およびシステム
CN101042698A (zh) * 2007-02-01 2007-09-26 江苏技术师范学院 一种关联规则及元规则的综合挖掘方法
CN101819411A (zh) * 2010-03-17 2010-09-01 燕山大学 一种基于gpu的改进加权关联规则的设备故障预警与诊断方法
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
CN103150163A (zh) * 2013-03-01 2013-06-12 南京理工大学常熟研究院有限公司 一种基于MapReduce模型的并行关联方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243072A (ja) * 2000-01-20 2001-09-07 Internatl Business Mach Corp <Ibm> 重み付き相関ルールをマイニングする方法およびシステム
GB2366024A (en) * 2000-01-20 2002-02-27 Ibm Data mining of weighted data
CN101042698A (zh) * 2007-02-01 2007-09-26 江苏技术师范学院 一种关联规则及元规则的综合挖掘方法
CN101819411A (zh) * 2010-03-17 2010-09-01 燕山大学 一种基于gpu的改进加权关联规则的设备故障预警与诊断方法
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置
CN103150163A (zh) * 2013-03-01 2013-06-12 南京理工大学常熟研究院有限公司 一种基于MapReduce模型的并行关联方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
习慧丹: "关联规则挖掘优化方法研究", 《计算机与数字工程》, vol. 40, no. 5, 20 May 2012 (2012-05-20), pages 31 - 33 *
曾孝文: "关联规则数据挖掘方法的研究", 《计算机与现代化》, no. 9, 30 September 2006 (2006-09-30) *
蔡国明: "基于数据划分的关联规则并行算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2, 15 August 2007 (2007-08-15), pages 138 - 4 *
袁雷等: "利用数据挖掘管理客户关系", 《商场现代化》, no. 14, 10 May 2006 (2006-05-10), pages 24 - 25 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598569A (zh) * 2015-01-12 2015-05-06 北京航空航天大学 一种基于关联规则的mbd数据集完整性检查方法
CN104598569B (zh) * 2015-01-12 2017-12-29 北京航空航天大学 一种基于关联规则的mbd数据集完整性检查方法
CN106570030A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 基于大数据的计算方法和装置
CN107844514A (zh) * 2017-09-22 2018-03-27 深圳市易成自动驾驶技术有限公司 数据挖掘方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN103440351B (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
US11392582B2 (en) Automatic partitioning
Huang et al. Automated variable weighting in k-means type clustering
CN103020256B (zh) 一种大规模数据的关联规则挖掘方法
US9043348B2 (en) System and method for performing set operations with defined sketch accuracy distribution
US8112440B2 (en) Relational pattern discovery across multiple databases
CN108846338B (zh) 基于面向对象随机森林的极化特征选择及分类方法
CN107463665A (zh) 一种数据关联规则挖掘算法
US20120254183A1 (en) Method and System for Clustering Data Points
Jain et al. An adaptive parallel algorithm for computing connected components
Chang et al. A novel incremental data mining algorithm based on fp-growth for big data
US8661040B2 (en) Grid-based data clustering method
CN104778237A (zh) 一种基于关键用户的个性化推荐方法和***
CN103440351A (zh) 一种关联规则数据挖掘算法的并行计算方法及装置
US20140280274A1 (en) Probabilistic record linking
US11321359B2 (en) Review and curation of record clustering changes at large scale
Pandian et al. SOTARM: Size of transaction-based association rule mining algorithm
CN107590225A (zh) 一种基于分布式数据挖掘算法的可视化管理***
Su et al. Searching for network width with bilaterally coupled network
CN103761298A (zh) 一种基于分布式架构的实体匹配方法
Bouguessa A practical approach for clustering transaction data
Li et al. An alternating nonmonotone projected Barzilai–Borwein algorithm of nonnegative factorization of big matrices
CN115168326A (zh) Hadoop大数据平台分布式能源数据清洗方法及***
Mishra et al. Feature reduction using principal component analysis for agricultural data set
CN111107493B (zh) 一种移动用户位置预测方法与***
Lv et al. Active learning of three-way decision based on neighborhood entropy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant