CN107229751A - 一种面向流式数据的并行增量式关联规则挖掘方法 - Google Patents

一种面向流式数据的并行增量式关联规则挖掘方法 Download PDF

Info

Publication number
CN107229751A
CN107229751A CN201710507953.0A CN201710507953A CN107229751A CN 107229751 A CN107229751 A CN 107229751A CN 201710507953 A CN201710507953 A CN 201710507953A CN 107229751 A CN107229751 A CN 107229751A
Authority
CN
China
Prior art keywords
data
database
newly
item
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710507953.0A
Other languages
English (en)
Inventor
杜韬
曲守宁
华峥
牟国栋
张坤
朱连江
王钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201710507953.0A priority Critical patent/CN107229751A/zh
Publication of CN107229751A publication Critical patent/CN107229751A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向流式数据的并行增量式关联规则挖掘方法,对传统静态的关联规则挖掘方法进行了改进,提出了面向动态数据流的并行增量式关联规则提取方法,其基本步骤如下:1、在原事务数据库中,根据数据对象的时序划分层次,将整个事务数据库随机划分成若干个非重叠区域;2、利用并行计算平台挖掘出局部频繁项集,生成全局候选项集,进而计算得到全局频繁项集;3、对新增数据流进行增量挖掘,使用局部剪枝的方法,减少扫描数据集次数,得到增量式全局规则。

Description

一种面向流式数据的并行增量式关联规则挖掘方法
技术领域
本发明属于数据挖掘领域,具体涉及一种面向流式数据的并行增量式关联规则挖掘方法。
背景技术
随着计算机技术、数据库技术和无线传感网络的飞速发展,对于在线实时数据挖掘的能力得到了越来越多的关注,对于流式数据的数据挖掘也成为了学术界新的研究课题。
数据流数据以流的形式广泛存在于日常生活中,例如各类传感器网络中的数据包流,金融证券领域波动的数据流,电信行业的通讯数据流、零售行业的交易数据流、web用户上网点击率的数据流等其他相关行业的领域。流式数据往往具有迅速多变,数据量庞大,无限取值,不可预测的特性。
与传统静态的数据挖掘相比,基于数据流的数据挖掘无疑对计算机资源的存储提出了更高的要求,如何从这些连续变化,快速生成的数据流数据中挖掘出有价值的、潜在的知识,无疑是数据挖掘领域热门的研究方向,这将对许多应用领域的发展带来重大的意义。
针对于此,提供设计一种面向流式数据的并行增量式关联规则挖掘方法,是非常有必要的。
发明内容
本发明的目的就是为了解决传统关联规则发现方法资源消耗大,单台计算机计算能力有限以及候选项集庞大的缺陷,通过对传统的关联规则发现算法进行改进,提升知识的获取能力,具有知识可信度高、挖掘效率高等优点。
为实现上述目的,本发明给出以下技术方案:
一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,包括以下步骤:
步骤S1:针对原事务数据库的频繁项集挖掘,采用数据划分的方式,运用并行分层的思想,将原始数据库尽可能的均等划分;
步骤S2:数据划分中进行频繁项集的挖掘;
步骤S3:针对增量数据流的频繁项集挖掘算法,在数据流更新的条件下,利用已有的挖掘结果结合新增数据的特征,实现关联规则知识的快速更新。
作为优选,所述步骤S1包括以下步骤:
步骤S11:设Q1,Q2,…,Qn为n台功能相互独立的计算机,这n台计算机除了进行网络通信外,无共享体系结构,无共同存储结构;设Di(i=1,2,…,n)为分别存储于计算机Q1,Q2,…,Qn硬盘上的独立数据库,每个数据库上的事务数为Tj(j=1,2,…,n)个,则所有的数据库为总的事物数为通过利用这n***立的计算机同时工作,利用网络进行设备间的通信,而在本地的计算机Qi上仅处理本地的数据库任务Di,最后通过网络互相传递信息达到数据共享,从而实现整个数据库D上的频繁项集挖掘。
作为优选,所述的步骤S2包括以下步骤:
步骤S21:采用动态的支持度和置信度来评判关联规则挖掘的准确性,支持度揭示了事务A与B同时出现的概率,动态关联规则的支持度可表示为:
s=C(A∪B)/N (1)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,N表示数据库中所有事务的总频数,置信度揭示了当事务A出现时,事务B同样会出现的概率,动态关联规则的置信度可以表示为:
c=C(A∪B)/C(A) (2)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,C(A)表示在数据中项集A出现的频数,即A的支持度计数假设原始数据库为D,将事务数据库D随机划分成n个子集,这n个子数据库被分配到m个worker节点进行并行频繁项集挖掘,所用的时间由执行时间最长的分区决定;通过调用Spark框架中的mapPartitions()算子得到分区的频繁项集。
步骤S22:调用reduceBykey()算子统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,进而得到全局候选项集;
步骤S23:将全局候选项集通过广播变量方式传播到Spark集群的各个工作节点上,调用filter()算子,将不满足全局支持度阈值的候选项集删除,得到全局频繁项集。最后调用collect()函数,以数组的形式,将数据集中的全局频繁项集返回给主节点,完成对原始数据库上频繁项集的挖掘。
作为优选,所述步骤S3包括以下步骤:
步骤S31:设原始数据库为DB,新增数据流的数据集为db,项目集X在数据库DB中的支持度计数为X.sup_DB,在新增数据流d中的支持度计数为X.sup_db,min_sup为原始的支持度阈值;原数据集的大小为|DB|,新增数据流的大小为|db|,更新后的数据集大小为|DB∪db|,s为数据集的支持度。在原数据库DB和新增数据集合db都频繁的项集为频繁项集;此时过滤后的候选项集主要分为两大类:在原数据库DB中频繁但在新增数据流db中不频繁的项集和在原数据库DB中不频繁但在新增数据流db中频繁的项集;在原数据库DB中频繁而在新增数据流d中非频繁的数据只需要扫描新增数据流分层就可以确定频繁项集,如果X.sup_DB+X.sup_db<0,则项集X在DB∪db中就是非频繁的项目集,否则就是频繁项目集;只有在新增数据流db中频繁却在原数据库DB中非频繁的才需要扫描整个数据集,这样只需要扫描一次原始数据集,减少了重复扫描原始数据集的时间,提高了规则发现的效率。。
本发明的有益效果在于,解决传统关联规则发现方法资源消耗大,单台计算机计算能力有限以及候选项集庞大的缺陷,通过对传统的关联规则发现算法进行改进,提升知识的获取能力,具有知识可信度高、挖掘效率高等优点。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1是基于原始数据库并行挖掘频繁项集的算法流程图。
图2所示是增量关联规则挖掘频繁项集的算法流程图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
本实施例给出一种面向流式数据的并行增量式关联规则挖掘方法,包括以下步骤:
首先利用Spark并行平台对原始事务数据库进行频繁项集挖掘。根据关联规则的挖掘规则,设最小支持度阈值为min_sup,最小置信度阈值为min_con。则当支持度s>min_sup且置信度c>min_con时,则称规则A=>B为强关联规则。在频繁项集挖掘过程中,利用最小支持度计数代替支持度阈值,则每个分区的支持度计数为s_count=min_sup×该分区的事务数。这样有利于减少频繁计算支持度阈值的概率。根据划分的思想,若X为频繁项集,则X的所有子集都是频繁项集。若X为非频繁项集,则X的所有的超集都是非频繁项集。假设原始数据库为D,根据实际挖掘过程的需要,将事务数据库D随机划分成n个非重叠区域,使各个子集的分区大小基本一致,保证每个项集有相同的概率进行频繁项集的挖掘,保证事物的同等重要性;在进行局部频繁项集挖掘时,运用并行分层的思想,若子集数据量庞大,每个分区Di还可以继续向下划分成Di1,Di2,…,Din,子分区D11,D12,…,D1s,D21,D22,…,D2s,…,Di1,Di2,…,Din均可并行执行。尽量避免不同分区出现相同数据的现象,避免重复挖掘的低效性,提高挖掘结果的可信度和高效性。
Spark读取事务数据库中的数据并对其划分,master节点利用Spark的提供的textFile()算子扫描在HDFS上的事务数据库,即一个RDD。对分区的数据子集并行挖掘频繁项集,所用的时间由执行时间最长的分区决定。如果某项集X是频繁项集,那么必然会作为局部频繁项集出现在其中至少一个分区中。通过mapPartitions()算子得到该分区的频繁项集,mapPartitions()函数是基于分区的map,是map的一个变种。map的输入函数是应用于RDD中每个元素,mapPartitions的作用对象是RDD的一整个分区,也就是把每个分区中的内容作为整体来处理的。mapPartitions()函数获取到每个分区的迭代器,在函数中通过这个分区整体的迭代器对整个分区的元素进行操作。每个分区中的内容将以Iterator[T]传递给输入函数,输入函数的输出结果是Iterator[U]。最终的RDD是由所有分区经过输入函数处理后的结果合并起来的。再采用reduceBykey()算子来统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,从而得到全局候选项集。reduceBykey()函数的性能优于groupByKey()函数的性能,因为reduceBykey()函数在数据混洗之前会进行本地规约处理,减少网络传输的时间开销。reduceByKey()算子是transformation操作,reduceByKey()只对键相同的值进行规约,对<key,value>结构的RDD进行聚合。reduceByKey()就是对RDD中Key相同的元素的Value进行reduce,因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。再采用广播变量的方式将全局候选项集传播到Spark集群的各个工作节点上,调用filter()算子,删除不满足全局支持度阈值的候选项集,从而得到全局频繁项集。filter()函数的功能是对不满足条件的元素进行过滤,对每个元素应用f函数,返回值为true的元素在RDD中保留,返回值为false的元素将被过滤掉。此时得到的结果还是一个RDD。最后采用collect()函数收集RDD的元素到driver节点,会在本机上生成一个新的Scala Array数组,在这个数组上运用Scala的函数式操作,以存储来自各个节点的所有数据,最后将数据集中的全局频繁项集返回给主节点。
对于流式数据来说,关联规则挖掘主要是研究在数据流更新的条件下,利用已有的挖掘结果,实现关联规则的快速更新。一般情况下,新增数据流db相对于历史数据要小得多,并且新增数据的数据特征也更容易取得。在原事务数据库DB和新增数据流db融合生成新的数据集后,产生新的频繁项集主要面对以下两个问题:如何找出DB中不在满足条件的频繁项集并删除;如何找出DB融合db后满足条件的频繁项集并增加。当项目集X在原数据库DB和新增数据库db中都是频繁项目集时,则X在DB∪db的数据中一定也是频繁项目集。当项目集X在原数据库DB和新增数据库db中都不是频繁项目集时,则X在DB∪db的数据中也一定不是频繁项目集。过滤后的候选项集主要分为两大类:在原数据库DB中频繁但在新增数据流db中不频繁的项集和在原数据库DB中不频繁但在新增数据流db中频繁的项集。在原数据库DB中频繁而在新增数据流d中非频繁的数据只需要扫描新增数据流分层就可以确定频繁项集,如果X.sup_DB+X.sup_db<0,则项集X在DB∪db中就是非频繁的项目集,否则就是频繁项目集。只有在新增数据流db中频繁却在原数据库DB中非频繁的才需要扫描整个数据集,这样只需要扫描一次原始数据集,减少了重复扫描原数据库的时间,提高了算法的效率。
读取分布式文件***HDFS中的新增数据流db作为预处理数据,按照时间序列划分成n个互不重叠、互不相交的数据块,且尽量各个数据块大小相似。master节点利用Spark提供的textFile()算子并行扫描新增数据流,生成RDD。数据块被分发到m个worker节点并行处理,采用count()算子计算分区各项集的支持度计数。如果某项集的频数小于分区的最小支持度频数,采用局部剪枝的方法,删除该项集。通过mapPartitions()函数计算得出每个项集的支持度计数,产生局部频繁项集Lk。本地频繁项集以RDD<项集,1>键值对的形式存储于m个节点中。reduceByKey()函数统计支持度计数count的值,对上一步产生的局部频繁项集进行合并,得到新增数据流中的局部候选项集Ck。这些候选项集在整个数据库中不一定是频繁项集,还要分析它们在原数据库DB中的频繁情况。将db的局部候选项集Ck和原数据集DB的频繁项集L(DB)合并,在原数据库DB和新增数据流db中公共的频繁项集加入到更新后的频繁项集L(DB∪db)中。其他的项集分为两类:在原数据库DB中频繁但在新增数据流db中不频繁的项集,在原数据库DB中不频繁但在新增数据流db中频繁的项集。把这两种项集统一归为全局候选项集C(DB∪db)。再将全局候选项集C(DB∪db)分配到m个节点,各节点尽量大小均等、规模相当。并行扫描候选项集,如果项集的局部支持度频数小于局部支持度阈值,采用局部剪枝的方法,删除该项集。通过union()函数进行候选项集的全局连接,采用filter()算子删除不满足最小支持度阈值的数据项,从而得到全局候选项集C(DB∪db)中的频繁项集。将得到的频繁项集与之前的频繁项集L(DB∪db)合并,就得到数据流增量更新后完整的频繁项集。
如图1所示是基于原始数据库并行挖掘频繁项集的算法流程图,具体过程如下:
Spark读取事务数据库DB上的数据并对其进行分块,n个数据块被分配到m个worker节点进行处理。对分区的数据子集进行并行频繁项集挖掘,所用的时间由执行时间最长的分区决定,对每个子集中的项集进行支持度计数。由于局部频繁项集数据量庞大,如果直接进行连接产生候选项集,必然会降低算法的执行效率。因此先对局部频繁项集进行局部剪枝处理。若某项集的频数小于该分区的最小支持度计数,则去掉该项集。得到子集的候选频繁项集,即局部频繁项集。局部频繁项集可能是全局频繁项集,也可能不是全局频繁项集。然而如果项集X是频繁项集,那么必然会作为局部频繁项集出现在其中至少一个分区中。具体的生成步骤如下:
Step1:通过textFile()算子扫描在HDFS上的事务数据库。
Step2:通过mapPartitions()算子得到该分区的频繁项集。
Step3:通过reduceBykey()算子来统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,从而得到全局候选项集。
Step4:将全局候选项集通过广播变量传播到Spark集群的各个工作节点上,通过调用filter()算子,将不满足全局支持度阈值的候选项集删除,得到全局频繁项集。
Step5:最后调用collect()函数,以数组的形式,将数据集中的全局频繁项集返回给主节点。
如图2所示是增量关联规则挖掘频繁项集的算法流程图,具体过程如下:
读取分布式文件***HDFS中的新增事务数据库作为预处理数据,按照时间序列划分成n个互不重叠、互不相交的数据块,且尽量各个数据块大小相似。再计算各个分区各项集的支持度计数,通过每个项集的支持度计数,得到局部频繁项集。将局部频繁项集进行合并,得到新增数据流db中的局部候选项集Ck。这些候选项集在事务数据库中不一定是频繁项集,还要分析它们在原数据库DB中的频繁情况。将db的局部候选项集Ck和原数据集DB的频繁项集L(DB)合并,在原数据库DB和新增数据流db中公共的频繁项集加入到更新后的频繁项目集L(DB∪db)中。其他的项集分为两种:在原数据库DB中频繁但在新增数据流db中不频繁的项集,在原数据库DB中不频繁但在新增数据流db中频繁的项集。把这两种项集统一归为全局候选项集C(DB∪db)。将全局候选项集分配到m个节点中,各节点尽量大小均等、规模相当。如果项集的局部支持度频数小于局部支持度阈值,利用局部剪枝的性质,删除该项集。最后对候选项集全局连接,删除不满足最小支持度阈值的数据项,从而得到全局候选项集C(DB∪db)中的频繁项集。将得到的频繁项集与之前的频繁项集L(DB∪db)合并,就得到了数据流增量更新后完整的频繁项集。具体生成步骤如下:
Step1:利用Spark提供的textFile()算子对子区域进行并行扫描,生成RDD。将数据块分发到m个worker节点进行处理,利用count()算子计算分区各项集的支持度计数。同时将此支持度设置为频繁模式挖掘的最小支持度阈值。利用局部剪枝的方法,如果项集的频数小于分区最小支持度频数,则删除该项集。
Step2:通过mapPartitions()函数计算得出每个项集的支持度计数,产生局部频繁项集Lk。本地频繁项集以RDD<item,1>键值对的形式存储于m个节点中。
Step3:利用reduceByKey()函数统计支持度计数count的值,对上一步产生的局部频繁项集进行合并,得到新增数据流db中的局部候选项集Ck
Step4:在原数据库DB中频繁但在新增数据流db中不频繁的项集,在原数据库DB中不频繁但在新增数据流db中频繁的项集。把这两种项集统一归为全局候选项集C(DB∪db)。将全局候选项集分配到m个节点中,各节点尽量大小均等、规模相当。
Step5:各节点对分配的候选项集进行扫描。如果项集的局部支持度频数小于局部支持度阈值,利用局部剪枝的性质,删除该项集。通过union()函数进行候选项集的全局连接,利用filter()算子删除不满足最小支持度阈值的数据项,从而得到全局候选项集C(DB∪db)中的频繁项集。
Step6:将得到的频繁项集与之前的频繁项集L(DB∪db)合并,就得到了数据流增量更新后完整的频繁项集。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (4)

1.一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,包括以下步骤:
步骤S1:针对原事务数据库的频繁项集挖掘,采用数据划分的方式,运用并行分层的思想,将原始数据库尽可能的均等划分;
步骤S2:数据划分中进行频繁项集的挖掘;
步骤S3:针对增量数据流的频繁项集挖掘算法,在数据流更新的条件下,利用已有的挖掘结果结合新增数据的特征,实现关联规则知识的快速更新。
2.根据权利要求1所述的一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,所述步骤S1包括以下步骤:
步骤S11:设Q1,Q2,…,Qn为n台功能相互独立的计算机,这n台计算机除了进行网络通信外,无共享体系结构,无共同存储结构;设Di(i=1,2,…,n)为分别存储于计算机Q1,Q2,…,Qn硬盘上的独立数据库,每个数据库上的事务数为Tj(j=1,2,…,n)个,则所有的数据库为总的事物数为通过利用这n***立的计算机同时工作,利用网络进行设备间的通信,而在本地的计算机Qi上仅处理本地的数据库任务Di,最后通过网络互相传递信息达到数据共享,从而实现整个数据库D上的频繁项集挖掘。
3.根据权利要求1或2所述的一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,所述的步骤S2包括以下步骤:
步骤S21:采用动态的支持度和置信度来评判关联规则挖掘的准确性,支持度揭示了事务A与B同时出现的概率,动态关联规则的支持度可表示为:
s=C(A∪B)/N (1)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,N表示数据库中所有事务的总频数,置信度揭示了当事务A出现时,事务B同样会出现的概率,动态关联规则的置信度可以表示为:
c=C(A∪B)/C(A) (2)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,C(A)表示在数据中项集A出现的频数,即A的支持度计数假设原始数据库为D,将事务数据库D随机划分成n个子集,这n个子数据库被分配到m个worker节点进行并行频繁项集挖掘,所用的时间由执行时间最长的分区决定;通过调用Spark框架中的mapPartitions()算子得到分区的频繁项集。
步骤S22:调用reduceBykey()算子统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,进而得到全局候选项集;
步骤S23:将全局候选项集通过广播变量方式传播到Spark集群的各个工作节点上,调用filter()算子,将不满足全局支持度阈值的候选项集删除,得到全局频繁项集。最后调用collect()函数,以数组的形式,将数据集中的全局频繁项集返回给主节点,完成对原始数据库上频繁项集的挖掘。
4.根据权利要求3所述的一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,所述步骤S3包括以下步骤:
步骤S31:设原始数据库为DB,新增数据流的数据集为db,项目集X在数据库DB中的支持度计数为X.sup_DB,在新增数据流d中的支持度计数为X.sup_db,min_sup为原始的支持度阈值;原数据集的大小为|DB|,新增数据流的大小为|db|,更新后的数据集大小为|DB∪db|,s为数据集的支持度。在原数据库DB和新增数据集合db都频繁的项集为频繁项集;此时过滤后的候选项集主要分为两大类:在原数据库DB中频繁但在新增数据流db中不频繁的项集和在原数据库DB中不频繁但在新增数据流db中频繁的项集;在原数据库DB中频繁而在新增数据流d中非频繁的数据只需要扫描新增数据流分层就可以确定频繁项集,如果X.sup_DB+X.sup_db<0,则项集X在DB∪db中就是非频繁的项目集,否则就是频繁项目集;只有在新增数据流db中频繁却在原数据库DB中非频繁的才需要扫描整个数据集。
CN201710507953.0A 2017-06-28 2017-06-28 一种面向流式数据的并行增量式关联规则挖掘方法 Pending CN107229751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710507953.0A CN107229751A (zh) 2017-06-28 2017-06-28 一种面向流式数据的并行增量式关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710507953.0A CN107229751A (zh) 2017-06-28 2017-06-28 一种面向流式数据的并行增量式关联规则挖掘方法

Publications (1)

Publication Number Publication Date
CN107229751A true CN107229751A (zh) 2017-10-03

Family

ID=59936187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710507953.0A Pending CN107229751A (zh) 2017-06-28 2017-06-28 一种面向流式数据的并行增量式关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN107229751A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197272A (zh) * 2018-01-05 2018-06-22 北京搜狐新媒体信息技术有限公司 一种分布式关联规则增量的更新方法及装置
CN108446375A (zh) * 2018-03-16 2018-08-24 湘潭大学 一种基于Spark平台的多尺度关联规则方法
CN108595711A (zh) * 2018-05-11 2018-09-28 成都华数天成科技有限公司 一种分布式环境下图模式关联规则挖掘方法
CN109063769A (zh) * 2018-08-01 2018-12-21 济南大学 基于变异系数自动确认簇数量的聚类方法、***及介质
CN109165522A (zh) * 2018-07-26 2019-01-08 安徽师范大学 一种基于数据流的敏感数据挖掘保护方法
CN109376181A (zh) * 2018-09-25 2019-02-22 深圳市元征科技股份有限公司 一种数据挖掘方法及相关设备
CN109471877A (zh) * 2018-11-01 2019-03-15 中南大学 面向流数据的增量式时态频繁模式并行挖掘方法
CN109739897A (zh) * 2018-12-18 2019-05-10 湖南大学 一种基于Spark框架的增量式频繁项集挖掘方法
CN109783464A (zh) * 2018-12-21 2019-05-21 昆明理工大学 一种基于Spark平台的频繁项集挖掘方法
CN110222090A (zh) * 2019-06-03 2019-09-10 哈尔滨工业大学(威海) 一种海量数据频繁项集挖掘方法
CN110489448A (zh) * 2019-07-24 2019-11-22 西安理工大学 基于Hadoop的大数据关联规则的挖掘方法
CN112204543A (zh) * 2018-05-25 2021-01-08 易享信息技术有限公司 用于分布式***的频繁模式分析
CN112685438A (zh) * 2020-12-29 2021-04-20 杭州海康威视数字技术股份有限公司 数据处理***、方法、装置及存储介质
CN112818030A (zh) * 2021-01-21 2021-05-18 北京理工大学 一种自适应的分布式流数据关联规则挖掘方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙芬芬: ""海量数据并行挖掘技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张忠林 等: ""大数据环境下关联规则并行分层挖掘算法研究"", 《计算机科学》 *
曹博 等: ""基于Spark的并行频繁模式挖掘算法"", 《计算机工程与应用》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197272A (zh) * 2018-01-05 2018-06-22 北京搜狐新媒体信息技术有限公司 一种分布式关联规则增量的更新方法及装置
CN108446375A (zh) * 2018-03-16 2018-08-24 湘潭大学 一种基于Spark平台的多尺度关联规则方法
CN108595711A (zh) * 2018-05-11 2018-09-28 成都华数天成科技有限公司 一种分布式环境下图模式关联规则挖掘方法
CN108595711B (zh) * 2018-05-11 2021-11-30 西南石油大学 一种分布式环境下图模式关联规则挖掘方法
CN112204543A (zh) * 2018-05-25 2021-01-08 易享信息技术有限公司 用于分布式***的频繁模式分析
CN109165522A (zh) * 2018-07-26 2019-01-08 安徽师范大学 一种基于数据流的敏感数据挖掘保护方法
CN109063769B (zh) * 2018-08-01 2021-04-09 济南大学 基于变异系数自动确认簇数量的聚类方法、***及介质
CN109063769A (zh) * 2018-08-01 2018-12-21 济南大学 基于变异系数自动确认簇数量的聚类方法、***及介质
CN109376181A (zh) * 2018-09-25 2019-02-22 深圳市元征科技股份有限公司 一种数据挖掘方法及相关设备
CN109471877A (zh) * 2018-11-01 2019-03-15 中南大学 面向流数据的增量式时态频繁模式并行挖掘方法
CN109739897A (zh) * 2018-12-18 2019-05-10 湖南大学 一种基于Spark框架的增量式频繁项集挖掘方法
CN109783464A (zh) * 2018-12-21 2019-05-21 昆明理工大学 一种基于Spark平台的频繁项集挖掘方法
CN109783464B (zh) * 2018-12-21 2022-11-04 昆明理工大学 一种基于Spark平台的频繁项集挖掘方法
CN110222090A (zh) * 2019-06-03 2019-09-10 哈尔滨工业大学(威海) 一种海量数据频繁项集挖掘方法
CN110489448A (zh) * 2019-07-24 2019-11-22 西安理工大学 基于Hadoop的大数据关联规则的挖掘方法
CN112685438A (zh) * 2020-12-29 2021-04-20 杭州海康威视数字技术股份有限公司 数据处理***、方法、装置及存储介质
CN112818030A (zh) * 2021-01-21 2021-05-18 北京理工大学 一种自适应的分布式流数据关联规则挖掘方法
CN112818030B (zh) * 2021-01-21 2022-11-04 北京理工大学 一种自适应的分布式流数据关联规则挖掘方法

Similar Documents

Publication Publication Date Title
CN107229751A (zh) 一种面向流式数据的并行增量式关联规则挖掘方法
CN103838863B (zh) 一种基于云计算平台的大数据聚类算法
CN103729478B (zh) 基于MapReduce的LBS兴趣点发现方法
CN103258049A (zh) 一种基于海量数据的关联规则挖掘方法
CN107103050A (zh) 一种大数据建模平台及方法
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN108804602A (zh) 一种基于spark的分布式空间数据存储计算方法
Yang et al. A MapReduce approach for spatial co-location pattern mining via ordered-clique-growth
CN107391621A (zh) 一种基于Spark的并行关联规则增量更新方法
CN111475837B (zh) 一种网络大数据隐私保护方法
CN108681577A (zh) 一种新型的库结构数据索引方法
Bao et al. Mining non-redundant co-location patterns
CN113704248B (zh) 一种基于外置索引的区块链查询优化方法
CN109768878A (zh) 一种基于大数据的网络工单计算方法及装置
CN105138607B (zh) 一种基于混合粒度分布式内存网格索引的knn查询方法
CN110232079A (zh) 一种基于Hadoop的改进型FP-Growth数据挖掘方法
CN109471877A (zh) 面向流数据的增量式时态频繁模式并行挖掘方法
CN115982177B (zh) 一种基于树形维度的数据归集的方法、装置、设备及介质
Fu et al. ICA: an incremental clustering algorithm based on OPTICS
CN106126739A (zh) 一种处理业务关联数据的装置
Wang et al. Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm
Grossi et al. Efficient splitting and merging algorithms for order decomposable problems
Dong et al. Association rules mining of silk relics database with the RCFP-growth algorithm
CN108509531A (zh) 一种基于Spark平台的不确定数据集频繁项挖掘方法
CN107346331A (zh) 一种基于Spark云计算平台的并行序列模式挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171003