CN108446375A - 一种基于Spark平台的多尺度关联规则方法 - Google Patents

一种基于Spark平台的多尺度关联规则方法 Download PDF

Info

Publication number
CN108446375A
CN108446375A CN201810218838.6A CN201810218838A CN108446375A CN 108446375 A CN108446375 A CN 108446375A CN 201810218838 A CN201810218838 A CN 201810218838A CN 108446375 A CN108446375 A CN 108446375A
Authority
CN
China
Prior art keywords
data set
benchmark
scale
frequent item
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810218838.6A
Other languages
English (en)
Inventor
王灵矫
赵博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201810218838.6A priority Critical patent/CN108446375A/zh
Publication of CN108446375A publication Critical patent/CN108446375A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于Spark平台的多尺度关联规则方法,该方法包括:在物理服务器上构建具有虚拟机的HDFS文件***和Spark平台,并将数据集上传到HDFS文件***中;Spark平台从HDFS文件***中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;选择多个基准尺度划分数据集在Spark平台上并行运算,得到基准尺度数据集的频繁项集;进而通过尺度转换机制挖掘目标数据集的关联规则,并得到算法的精确度。本发明将传统关联规则算法同尺度转换机制结合,只需对基准尺度数据集进行一次挖掘就能得到目标尺度数据集下相关知识,大大提升了在尺度数据集上运算的精确度和效率,同时在Spark平台上实现进一步提高了数据处理速度。

Description

一种基于Spark平台的多尺度关联规则方法
技术领域
本发明涉及数据挖掘及数据处理技术领域,尤其涉及一种基于Spark平台的多尺度关联规则方法。
背景技术
大数据时代已经到来,数据已经渗透到世界各个领域的个体与组织中,记录其生命周期的全过程,是不可或缺的生产要素。面对信息***带来的海量数据,无论是科研领域、商业领域还是政府机构都视数据挖掘技术为必不可少的分析工具,数据挖掘研究也获得了前所未有的关注和重视。数据挖掘旨在从大量的、形式不一、内容驳杂的数据中,发现研究对象本质上性质的相似性和行为的一致性,从而凝练出一定的规则和知识,用于决策。
关联规则挖掘是数据挖掘领域中应用广泛且实用意义较高的研究方向,旨在发掘数据项之间频现且有趣的的关联性和相关性。由于关联规则挖掘具有广泛的商业应用,故对其的研究一直热度不减。目前对于关联规则挖掘的研究越来越具体,研究者往往针对不断涌现的新问题和特定的应用领域,对关联规则挖掘展开研究,力图在较实际的层面上解决问题。如今,简单的“啤酒,尿布”型规则挖掘早已不能满足决策者的信息需求,多层次、多角度的关联模式分析才是解决实际问题的关键。
多尺度科学是新崛起的一门学科,由于其描述了研究对象本质的结构性与层次性,在数学、物理学、生物学、化学、地学等领域掀起了一场跨学科研究热潮。目前,结合多尺度科学进行跨学科研究是大势所趋,数据挖掘领域也顺应这一趋势,在理论和方法上将多尺度科学与数据挖掘技术相结合,分析挖掘结果的多层次、多尺度内涵,可将普通的挖掘结果提升为多尺度知识,这将有利于在实践中形成多尺度决策;另外,多尺度科学中分层次、分尺度处理和分析研究对象的思想与并行运算的思想不谋而合,研究多尺度数据挖掘方法有利于在大数据环境下高效的处理实际问题。
在2009年,Spark起初作为一个研究项目诞生于伯克利大学AMPLab,其采用的开发语言是一门将面向对象与函数式相结合的语言scala,核心代码部分最初是由63个scala文件构成。在2013年6月将该项目开源,并成为Apache基金项目,并于2014年2月,成为了Apache软件基金会的顶级开源项目。截止目前,已有200多家企业的开发人员对Spark做出了贡献,800多开发人员参与其中,是当前的大数据技术领域中最活跃的开源项目之一。在实际的生产环境中,已经得到国内外很多著名企业的深度应用,并且Spark集群中节点的个数已经突破1000。在这短短的2年多的时间里,Spark在众多企业及开发人员的大力支持下,已经发布了近15个版本之多。
Apache Spark作为一种当今最流行的分布式计算框架之一,它是基于内存计算和并行计算的,非常适合大数据挖掘和机器学习。在速度方面,它是基于内存计算的,而Hadoop将中间计算结果写到HDFS文件***,每次读写操作都要读写HDFS文件***,所以Spark的运行效率比Hadoop要快上100倍,访问磁盘的速度也要比Hadoop快上10倍。因此Spark更适合运行比较复杂的算法,例如迭代计算、图计算等。不仅如此,Spark支持对数据集的多种操作,如map,filter,flatmap等,相比之下,MapReduce只支持map和reduce两种操作。
总之,将数据挖掘算法结合多尺度学科在Spark平台上实现,既能够提升效率,又能够有效地利用资源。
发明内容
本发明的目的在于提供一种基于Spark平台的多尺度关联规则方法,将多尺度领域知识与关联规则算法相结合并在Spark平台上实现,在需要处理海量数据的时代背景下,与传统关联规则算法相比,本发明的执行效率和精确度都得到了很高的提升。
本发明是通过以下步骤实现的。
一种基于Spark平台的多尺度关联规则方法,包括:
步骤1:在物理服务器上构建具有虚拟机的HDFS文件***和Spark平台,并将数据集上传到HDFS文件***中;
步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件***中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;
步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition,所以在每个分区运行一个基准尺度数据集,各个分区并行运算;
步骤4,各个partition中以最小支持度min_sup挖掘各个基准尺度数据集,得到各个基准尺度数据集频繁项集的集合FIi,并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合;
步骤5,通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ,用于估算目标尺度数据集中频繁项集的支持度;
步骤6,筛选目标尺度数据集最终的频繁项集,生成关联规则,并计算各个分区的算法精确度,进而求取精确度的均值作为整体实验结果。
其中,所述步骤3中,根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。
其中,所述步骤4中,对于多尺度关联规则算法,只对基准尺度数据集进行相关挖掘,求取基准尺度数据集频繁项集的集合,进而推导目标尺度数据集的频繁项集,进行频繁项集的多尺度转换。
其中,所述步骤5中,首先通过克里格法定义线性估计量,然后计算线性估计量中的克里格系数λ,将目标尺度数据集中的支持度估计值和基准尺度数据集中的支持度分别对应于所定义线性方程的待估计值和样点数据。
其中,所述步骤6中,将所有候选项集的估计支持度同最小支持度min_sup进行比较,选择估计支持度不小于min_sup的频繁项集组成目标尺度数据集的最终频繁项集集合FI,并依据最小置信度min_conf产生关联规则。
本发明与现有技术相比,具有以下优点:
本发明将多尺度领域的尺度转换机制与数据挖掘中的关联规则算法结合,以多尺度数据挖掘算法框架和具体的多尺度关联规则挖掘实现了知识的多尺度转换,从算法角度分析,算法在具备多尺度特性的数据集上实施,精确度和运行速度将有很大的提升,这具有相当大的实际意义。
本分明还将多尺度关联规则算法在Spark平台上运行,在当下海量数据时刻都会产生的背景下,基于Spark平台的并行化模式将进一步提高数据处理效率。
附图说明
图1是本发明的方法流程图;
图2是在Spark平台上的实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
结合图1和图2,一种基于Spark平台的多尺度关联规则方法,包括以下步骤:
步骤1:在物理服务器上构建具有虚拟机的HDFS文件***和Spark平台,并将数据集上传到HDFS文件***中;
步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件***中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;
步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,调用SparkContext方法的parallelize,将数据集并行化,转化为分布式的RDD,每个RDD由很多分区partition组成,所以在每个分区运行一个基准尺度数据集,各个分区并行运算。
该过程根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。
步骤4:各个partition中以最小支持度min_sup挖掘各个基准尺度数据集,得到各个基准尺度数据集频繁项集的集合FIi,并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合,此候选项集集合能最大程度地反映目标尺度数据集中隐含频繁项集的情况。
简单来说,该过程只对基准尺度数据集进行相关挖掘,求取基准尺度数据集频繁项集的集合,进而推导目标尺度数据集的频繁项集,进行频繁项集的多尺度转换。
步骤5:通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ,用于估算目标尺度数据集中频繁项集的支持度;
步骤S500,克里格法定义一个线性估计量:
其中,为待估计值,Z(xi)为样点数据,λ为克里格系数,表示为:
λ=K-1D
步骤S501,确定基准尺度数据集之间的相似度矩阵K,我们通过Jaccard相似性系数来计算矩阵元素Mij
其中,FIi、FIj表示不同基准尺度数据集频繁项集的集合。
步骤S502,确定矩阵D,尺度上推(基准尺度BS∈目标尺度SO)时,D的元素为基准尺度数据集在上层尺度数据集中数量上的占比;尺度下推(目标尺度SO∈基准尺度BS)时,D的元素为两者的Jaccard相似性系数;
步骤S503,应用克里格法定义的线性估计量求目标尺度数据集的支持度估计值:
按照上述方式处理步骤4中目标尺度数据集的所有候选项集。
步骤6:筛选目标尺度数据集最终的频繁项集,生成关联规则,并计算各个分区的算法精确度和执行时间,进而求取精确度和运行时间的均值作为整体实验结果。
将所有候选项集的估计支持度同最小支持度min_sup进行比较,选择估计支持度不小于min_sup的频繁项集组成目标尺度数据集的最终频繁项集集合FI,并依据所设置的最小置信度min_conf产生关联规则;通过spark平台下的Action算子得出各个分区数据集下的算法精确度,进而求其均值作为最终结果。
步骤S600,对于生成的每条关联规则计算置信度,计算公式为:
给定参数最小置信度阈值min_conf,将以上每条关联规则计算出的置信度与min_conf比较,仅将置信度大于min_conf的关联规则留下;
步骤S601,求取算法最终精确度,计算公式为:
其中,FIm为算法挖掘到的频繁项集,FIo为目标尺度数据集包含的真实频繁项集,fp和fn为错误判断的频繁项集,n为RDD中分区partition的个数(即所设置基准尺度的个数)。

Claims (5)

1.一种基于Spark平台的多尺度关联规则方法,其特征在于,包括以下步骤:
步骤1:在物理服务器上构建具有虚拟机的HDFS文件***和Spark平台,并将数据集上传到HDFS文件***中;
步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件***中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;
步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition,所以在每个分区运行一个基准尺度数据集,各个分区并行运算;
步骤4:各个partition中以最小支持度min_sup挖掘各个基准尺度数据集,得到各个基准尺度数据集频繁项集的集合FIi,并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合;
步骤5:通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ,用于估算目标尺度数据集中频繁项集的支持度;
步骤6:筛选各个分区目标尺度数据集最终的频繁项集,生成关联规则,并计算各个分区的算法精确度,进而求取精确度的均值作为最终结果。
2.如权利要求1所述的基于Spark平台的多尺度关联规则方法,其特征在于步骤3中,根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。
3.如权利要求1所述的基于Spark平台的多尺度关联规则方法,其特征在于步骤4中,对于多尺度关联规则算法,只对基准尺度数据集进行相关挖掘,求取基准尺度数据集频繁项集的集合,进而推导目标尺度数据集的频繁项集,进行频繁项集的多尺度转换。
4.如权利要求1所述的基于Spark平台的多尺度关联规则方法,其特征在于步骤5的具体过程:
步骤S500,克里格法定义一个线性估计量:
其中,为待估计值,Z(xi)为样点数据,λ为克里格系数,表示为:
λ=K-1D
步骤S501,确定基准尺度数据集之间的相似度矩阵K,我们通过Jaccard相似性系数来计算矩阵元素Mij
步骤S502,确定矩阵D,尺度上推时,D的元素为基准尺度数据集在上层尺度数据集中数量上的占比;尺度下推时,D的元素为两者的Jaccard相似性系数;
步骤S503,应用克里格法定义的线性估计量求目标尺度数据集的支持度估计值:
按照上述方式处理步骤4中目标尺度数据集的所有候选项集。
5.如权利要求1所述的基于Spark平台的多尺度关联规则方法,其特征在于步骤6中,通过spark平台下的Action算子得出各个分区数据集下的算法精确度,进而求其均值作为最终结果,
步骤S600,对于生成的每条关联规则计算置信度,计算公式为:
给定参数最小置信度阈值min_conf,将以上每条关联规则计算出的置信度与min_conf比较,仅将置信度大于min_conf的关联规则留下;
步骤S601,求取算法最终精确度,计算公式为:
其中,FIm为算法挖掘到的频繁项集,FIo为目标尺度数据集包含的真实频繁项集,fp和fn为错误判断的频繁项集,n为RDD中分区partition的个数(即所设置基准尺度的个数)。
CN201810218838.6A 2018-03-16 2018-03-16 一种基于Spark平台的多尺度关联规则方法 Pending CN108446375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810218838.6A CN108446375A (zh) 2018-03-16 2018-03-16 一种基于Spark平台的多尺度关联规则方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810218838.6A CN108446375A (zh) 2018-03-16 2018-03-16 一种基于Spark平台的多尺度关联规则方法

Publications (1)

Publication Number Publication Date
CN108446375A true CN108446375A (zh) 2018-08-24

Family

ID=63195522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810218838.6A Pending CN108446375A (zh) 2018-03-16 2018-03-16 一种基于Spark平台的多尺度关联规则方法

Country Status (1)

Country Link
CN (1) CN108446375A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857997A (zh) * 2019-02-02 2019-06-07 杭州费尔斯通科技有限公司 一种离线表关联方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080209568A1 (en) * 2007-02-26 2008-08-28 International Business Machines Corporation Preserving privacy of data streams using dynamic correlations
CN101308544A (zh) * 2008-07-11 2008-11-19 中国科学院地理科学与资源研究所 一种基于栅格的空间异质模式识别方法及分层方法
US20150066646A1 (en) * 2013-08-27 2015-03-05 Yahoo! Inc. Spark satellite clusters to hadoop data stores
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN106294715A (zh) * 2016-08-09 2017-01-04 中国地质大学(武汉) 一种基于属性约简的关联规则挖掘方法及装置
CN107229751A (zh) * 2017-06-28 2017-10-03 济南大学 一种面向流式数据的并行增量式关联规则挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080209568A1 (en) * 2007-02-26 2008-08-28 International Business Machines Corporation Preserving privacy of data streams using dynamic correlations
CN101308544A (zh) * 2008-07-11 2008-11-19 中国科学院地理科学与资源研究所 一种基于栅格的空间异质模式识别方法及分层方法
US20150066646A1 (en) * 2013-08-27 2015-03-05 Yahoo! Inc. Spark satellite clusters to hadoop data stores
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN106294715A (zh) * 2016-08-09 2017-01-04 中国地质大学(武汉) 一种基于属性约简的关联规则挖掘方法及装置
CN107229751A (zh) * 2017-06-28 2017-10-03 济南大学 一种面向流式数据的并行增量式关联规则挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUILIN LIU ET AL.: "Spark-based Rare Assciation Rule Mining for Big Datasets", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIG DATA》 *
柳萌萌 等: "多尺度数据挖掘方法", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857997A (zh) * 2019-02-02 2019-06-07 杭州费尔斯通科技有限公司 一种离线表关联方法

Similar Documents

Publication Publication Date Title
CN111149117B (zh) 机器学习和深度学习模型的基于梯度的自动调整
Khatibi Bardsiri et al. A PSO-based model to increase the accuracy of software development effort estimation
CN103235974B (zh) 一种提高海量空间数据处理效率的方法
CN107480694B (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN111127364B (zh) 图像数据增强策略选择方法及人脸识别图像数据增强方法
US11756649B2 (en) System, apparatus, and method for sequence-based enzyme EC number prediction by deep learning
US11907821B2 (en) Population-based training of machine learning models
WO2020154830A1 (en) Techniques to detect fusible operators with machine learning
JP2022543954A (ja) キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体
CN109634924A (zh) 基于机器学习的文件***参数自动调优方法及***
US20240054345A1 (en) Framework for Learning to Transfer Learn
CN112463976A (zh) 一种以群智感知任务为中心的知识图谱构建方法
WO2016148107A1 (ja) データ処理装置、データ処理方法、および、データ処理用プログラム
Liu et al. A chimp-inspired remora optimization algorithm for multilevel thresholding image segmentation using cross entropy
CN115563315A (zh) 一种面向持续少样本学习的主动复杂关系抽取方法
CN116629352A (zh) 一种亿级参数寻优平台
CN116112563A (zh) 一种基于流行度预测的双策略自适应缓存替换方法
Felten et al. A toolkit for reliable benchmarking and research in multi-objective reinforcement learning
Liu et al. Data adaptive functional outlier detection: Analysis of the Paris bike sharing system data
Kadhuim et al. Intelligent deep analysis of DNA sequences based on FFGM to enhancement the performance and reduce the computation
CN110413406A (zh) 一种任务负载预测***及方法
Pu et al. A novel artificial bee colony clustering algorithm with comprehensive improvement
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN108446375A (zh) 一种基于Spark平台的多尺度关联规则方法
CN110070120B (zh) 基于判别采样策略的深度度量学习方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180824