CN108446375A

CN108446375A - 一种基于Spark平台的多尺度关联规则方法

Info

Publication number: CN108446375A
Application number: CN201810218838.6A
Authority: CN
Inventors: 王灵矫; 赵博文
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-08-24

Abstract

本发明提供了一种基于Spark平台的多尺度关联规则方法，该方法包括：在物理服务器上构建具有虚拟机的HDFS文件***和Spark平台，并将数据集上传到HDFS文件***中；Spark平台从HDFS文件***中读取数据并转换为弹性分布式数据集RDD，并将其存储在内存中；选择多个基准尺度划分数据集在Spark平台上并行运算，得到基准尺度数据集的频繁项集；进而通过尺度转换机制挖掘目标数据集的关联规则，并得到算法的精确度。本发明将传统关联规则算法同尺度转换机制结合，只需对基准尺度数据集进行一次挖掘就能得到目标尺度数据集下相关知识，大大提升了在尺度数据集上运算的精确度和效率，同时在Spark平台上实现进一步提高了数据处理速度。

Description

一种基于Spark平台的多尺度关联规则方法

技术领域

本发明涉及数据挖掘及数据处理技术领域，尤其涉及一种基于Spark平台的多尺度关联规则方法。

背景技术

大数据时代已经到来，数据已经渗透到世界各个领域的个体与组织中，记录其生命周期的全过程，是不可或缺的生产要素。面对信息***带来的海量数据，无论是科研领域、商业领域还是政府机构都视数据挖掘技术为必不可少的分析工具，数据挖掘研究也获得了前所未有的关注和重视。数据挖掘旨在从大量的、形式不一、内容驳杂的数据中，发现研究对象本质上性质的相似性和行为的一致性，从而凝练出一定的规则和知识，用于决策。

关联规则挖掘是数据挖掘领域中应用广泛且实用意义较高的研究方向，旨在发掘数据项之间频现且有趣的的关联性和相关性。由于关联规则挖掘具有广泛的商业应用，故对其的研究一直热度不减。目前对于关联规则挖掘的研究越来越具体，研究者往往针对不断涌现的新问题和特定的应用领域，对关联规则挖掘展开研究，力图在较实际的层面上解决问题。如今，简单的“啤酒，尿布”型规则挖掘早已不能满足决策者的信息需求，多层次、多角度的关联模式分析才是解决实际问题的关键。

多尺度科学是新崛起的一门学科，由于其描述了研究对象本质的结构性与层次性，在数学、物理学、生物学、化学、地学等领域掀起了一场跨学科研究热潮。目前，结合多尺度科学进行跨学科研究是大势所趋，数据挖掘领域也顺应这一趋势，在理论和方法上将多尺度科学与数据挖掘技术相结合，分析挖掘结果的多层次、多尺度内涵，可将普通的挖掘结果提升为多尺度知识，这将有利于在实践中形成多尺度决策；另外，多尺度科学中分层次、分尺度处理和分析研究对象的思想与并行运算的思想不谋而合，研究多尺度数据挖掘方法有利于在大数据环境下高效的处理实际问题。

在2009年，Spark起初作为一个研究项目诞生于伯克利大学AMPLab，其采用的开发语言是一门将面向对象与函数式相结合的语言scala，核心代码部分最初是由63个scala文件构成。在2013年6月将该项目开源，并成为Apache基金项目，并于2014年2月，成为了Apache软件基金会的顶级开源项目。截止目前，已有200多家企业的开发人员对Spark做出了贡献，800多开发人员参与其中，是当前的大数据技术领域中最活跃的开源项目之一。在实际的生产环境中，已经得到国内外很多著名企业的深度应用，并且Spark集群中节点的个数已经突破1000。在这短短的2年多的时间里，Spark在众多企业及开发人员的大力支持下，已经发布了近15个版本之多。

Apache Spark作为一种当今最流行的分布式计算框架之一，它是基于内存计算和并行计算的，非常适合大数据挖掘和机器学习。在速度方面，它是基于内存计算的，而Hadoop将中间计算结果写到HDFS文件***，每次读写操作都要读写HDFS文件***，所以Spark的运行效率比Hadoop要快上100倍，访问磁盘的速度也要比Hadoop快上10倍。因此Spark更适合运行比较复杂的算法，例如迭代计算、图计算等。不仅如此，Spark支持对数据集的多种操作，如map，filter，flatmap等，相比之下，MapReduce只支持map和reduce两种操作。

总之，将数据挖掘算法结合多尺度学科在Spark平台上实现，既能够提升效率，又能够有效地利用资源。

发明内容

本发明的目的在于提供一种基于Spark平台的多尺度关联规则方法，将多尺度领域知识与关联规则算法相结合并在Spark平台上实现，在需要处理海量数据的时代背景下，与传统关联规则算法相比，本发明的执行效率和精确度都得到了很高的提升。

本发明是通过以下步骤实现的。

一种基于Spark平台的多尺度关联规则方法，包括：

步骤1：在物理服务器上构建具有虚拟机的HDFS文件***和Spark平台，并将数据集上传到HDFS文件***中；

步骤2：通过客户端向Spark平台提交作业，Spark平台从HDFS文件***中读取数据并转换为弹性分布式数据集RDD，并将其存储在内存中；

步骤3：选择多个基准尺度BS，确定每个基准尺度的数据集ds_BS,由于每个RDD对应多个分区partition，所以在每个分区运行一个基准尺度数据集，各个分区并行运算；

步骤4，各个partition中以最小支持度min_sup挖掘各个基准尺度数据集，得到各个基准尺度数据集频繁项集的集合FI_i，并求取上述若干频繁项集集合的并集FI_C作为目标尺度数据集ds_SO频繁项集的候选项集集合；

步骤5，通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ，用于估算目标尺度数据集中频繁项集的支持度；

步骤6，筛选目标尺度数据集最终的频繁项集，生成关联规则，并计算各个分区的算法精确度，进而求取精确度的均值作为整体实验结果。

其中，所述步骤3中，根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。

其中，所述步骤4中，对于多尺度关联规则算法，只对基准尺度数据集进行相关挖掘，求取基准尺度数据集频繁项集的集合，进而推导目标尺度数据集的频繁项集，进行频繁项集的多尺度转换。

其中，所述步骤5中，首先通过克里格法定义线性估计量，然后计算线性估计量中的克里格系数λ，将目标尺度数据集中的支持度估计值和基准尺度数据集中的支持度分别对应于所定义线性方程的待估计值和样点数据。

其中，所述步骤6中，将所有候选项集的估计支持度同最小支持度min_sup进行比较，选择估计支持度不小于min_sup的频繁项集组成目标尺度数据集的最终频繁项集集合FI，并依据最小置信度min_conf产生关联规则。

本发明与现有技术相比，具有以下优点：

本发明将多尺度领域的尺度转换机制与数据挖掘中的关联规则算法结合，以多尺度数据挖掘算法框架和具体的多尺度关联规则挖掘实现了知识的多尺度转换，从算法角度分析，算法在具备多尺度特性的数据集上实施，精确度和运行速度将有很大的提升，这具有相当大的实际意义。

本分明还将多尺度关联规则算法在Spark平台上运行，在当下海量数据时刻都会产生的背景下，基于Spark平台的并行化模式将进一步提高数据处理效率。

附图说明

图1是本发明的方法流程图；

图2是在Spark平台上的实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

结合图1和图2，一种基于Spark平台的多尺度关联规则方法，包括以下步骤：

步骤3：选择多个基准尺度BS，确定每个基准尺度的数据集ds_BS,调用SparkContext方法的parallelize，将数据集并行化，转化为分布式的RDD，每个RDD由很多分区partition组成，所以在每个分区运行一个基准尺度数据集，各个分区并行运算。

该过程根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。

步骤4：各个partition中以最小支持度min_sup挖掘各个基准尺度数据集，得到各个基准尺度数据集频繁项集的集合FI_i，并求取上述若干频繁项集集合的并集FI_C作为目标尺度数据集ds_SO频繁项集的候选项集集合，此候选项集集合能最大程度地反映目标尺度数据集中隐含频繁项集的情况。

简单来说，该过程只对基准尺度数据集进行相关挖掘，求取基准尺度数据集频繁项集的集合，进而推导目标尺度数据集的频繁项集，进行频繁项集的多尺度转换。

步骤5：通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ，用于估算目标尺度数据集中频繁项集的支持度；

步骤S500，克里格法定义一个线性估计量：

其中，为待估计值，Z(x_i)为样点数据，λ为克里格系数，表示为：

λ＝K^-1D

步骤S501，确定基准尺度数据集之间的相似度矩阵K，我们通过Jaccard相似性系数来计算矩阵元素M_ij：

其中，FI_i、FI_j表示不同基准尺度数据集频繁项集的集合。

步骤S502，确定矩阵D，尺度上推(基准尺度BS∈目标尺度SO)时，D的元素为基准尺度数据集在上层尺度数据集中数量上的占比；尺度下推(目标尺度SO∈基准尺度BS)时，D的元素为两者的Jaccard相似性系数；

步骤S503，应用克里格法定义的线性估计量求目标尺度数据集的支持度估计值：

按照上述方式处理步骤4中目标尺度数据集的所有候选项集。

步骤6：筛选目标尺度数据集最终的频繁项集，生成关联规则，并计算各个分区的算法精确度和执行时间，进而求取精确度和运行时间的均值作为整体实验结果。

将所有候选项集的估计支持度同最小支持度min_sup进行比较，选择估计支持度不小于min_sup的频繁项集组成目标尺度数据集的最终频繁项集集合FI，并依据所设置的最小置信度min_conf产生关联规则；通过spark平台下的Action算子得出各个分区数据集下的算法精确度，进而求其均值作为最终结果。

步骤S600，对于生成的每条关联规则计算置信度，计算公式为：

给定参数最小置信度阈值min_conf，将以上每条关联规则计算出的置信度与min_conf比较，仅将置信度大于min_conf的关联规则留下；

步骤S601，求取算法最终精确度，计算公式为：

其中，FI_m为算法挖掘到的频繁项集，FI_o为目标尺度数据集包含的真实频繁项集，fp和fn为错误判断的频繁项集，n为RDD中分区partition的个数(即所设置基准尺度的个数)。

Claims

1.一种基于Spark平台的多尺度关联规则方法，其特征在于，包括以下步骤：

步骤4：各个partition中以最小支持度min_sup挖掘各个基准尺度数据集，得到各个基准尺度数据集频繁项集的集合FI_i，并求取上述若干频繁项集集合的并集FI_C作为目标尺度数据集ds_SO频繁项集的候选项集集合；

步骤6：筛选各个分区目标尺度数据集最终的频繁项集，生成关联规则，并计算各个分区的算法精确度，进而求取精确度的均值作为最终结果。

2.如权利要求1所述的基于Spark平台的多尺度关联规则方法，其特征在于步骤3中，根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。

3.如权利要求1所述的基于Spark平台的多尺度关联规则方法，其特征在于步骤4中，对于多尺度关联规则算法，只对基准尺度数据集进行相关挖掘，求取基准尺度数据集频繁项集的集合，进而推导目标尺度数据集的频繁项集，进行频繁项集的多尺度转换。

4.如权利要求1所述的基于Spark平台的多尺度关联规则方法，其特征在于步骤5的具体过程：

步骤S500，克里格法定义一个线性估计量：

λ＝K^-1D

步骤S502，确定矩阵D，尺度上推时，D的元素为基准尺度数据集在上层尺度数据集中数量上的占比；尺度下推时，D的元素为两者的Jaccard相似性系数；

按照上述方式处理步骤4中目标尺度数据集的所有候选项集。

5.如权利要求1所述的基于Spark平台的多尺度关联规则方法，其特征在于步骤6中，通过spark平台下的Action算子得出各个分区数据集下的算法精确度，进而求其均值作为最终结果，

步骤S601，求取算法最终精确度，计算公式为：