CN107229751A - 一种面向流式数据的并行增量式关联规则挖掘方法 - Google Patents
一种面向流式数据的并行增量式关联规则挖掘方法 Download PDFInfo
- Publication number
- CN107229751A CN107229751A CN201710507953.0A CN201710507953A CN107229751A CN 107229751 A CN107229751 A CN 107229751A CN 201710507953 A CN201710507953 A CN 201710507953A CN 107229751 A CN107229751 A CN 107229751A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- newly
- item
- frequent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向流式数据的并行增量式关联规则挖掘方法,对传统静态的关联规则挖掘方法进行了改进,提出了面向动态数据流的并行增量式关联规则提取方法,其基本步骤如下:1、在原事务数据库中,根据数据对象的时序划分层次,将整个事务数据库随机划分成若干个非重叠区域;2、利用并行计算平台挖掘出局部频繁项集,生成全局候选项集,进而计算得到全局频繁项集;3、对新增数据流进行增量挖掘,使用局部剪枝的方法,减少扫描数据集次数,得到增量式全局规则。
Description
技术领域
本发明属于数据挖掘领域,具体涉及一种面向流式数据的并行增量式关联规则挖掘方法。
背景技术
随着计算机技术、数据库技术和无线传感网络的飞速发展,对于在线实时数据挖掘的能力得到了越来越多的关注,对于流式数据的数据挖掘也成为了学术界新的研究课题。
数据流数据以流的形式广泛存在于日常生活中,例如各类传感器网络中的数据包流,金融证券领域波动的数据流,电信行业的通讯数据流、零售行业的交易数据流、web用户上网点击率的数据流等其他相关行业的领域。流式数据往往具有迅速多变,数据量庞大,无限取值,不可预测的特性。
与传统静态的数据挖掘相比,基于数据流的数据挖掘无疑对计算机资源的存储提出了更高的要求,如何从这些连续变化,快速生成的数据流数据中挖掘出有价值的、潜在的知识,无疑是数据挖掘领域热门的研究方向,这将对许多应用领域的发展带来重大的意义。
针对于此,提供设计一种面向流式数据的并行增量式关联规则挖掘方法,是非常有必要的。
发明内容
本发明的目的就是为了解决传统关联规则发现方法资源消耗大,单台计算机计算能力有限以及候选项集庞大的缺陷,通过对传统的关联规则发现算法进行改进,提升知识的获取能力,具有知识可信度高、挖掘效率高等优点。
为实现上述目的,本发明给出以下技术方案:
一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,包括以下步骤:
步骤S1:针对原事务数据库的频繁项集挖掘,采用数据划分的方式,运用并行分层的思想,将原始数据库尽可能的均等划分;
步骤S2:数据划分中进行频繁项集的挖掘;
步骤S3:针对增量数据流的频繁项集挖掘算法,在数据流更新的条件下,利用已有的挖掘结果结合新增数据的特征,实现关联规则知识的快速更新。
作为优选,所述步骤S1包括以下步骤:
步骤S11:设Q1,Q2,…,Qn为n台功能相互独立的计算机,这n台计算机除了进行网络通信外,无共享体系结构,无共同存储结构;设Di(i=1,2,…,n)为分别存储于计算机Q1,Q2,…,Qn硬盘上的独立数据库,每个数据库上的事务数为Tj(j=1,2,…,n)个,则所有的数据库为总的事物数为通过利用这n***立的计算机同时工作,利用网络进行设备间的通信,而在本地的计算机Qi上仅处理本地的数据库任务Di,最后通过网络互相传递信息达到数据共享,从而实现整个数据库D上的频繁项集挖掘。
作为优选,所述的步骤S2包括以下步骤:
步骤S21:采用动态的支持度和置信度来评判关联规则挖掘的准确性,支持度揭示了事务A与B同时出现的概率,动态关联规则的支持度可表示为:
s=C(A∪B)/N (1)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,N表示数据库中所有事务的总频数,置信度揭示了当事务A出现时,事务B同样会出现的概率,动态关联规则的置信度可以表示为:
c=C(A∪B)/C(A) (2)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,C(A)表示在数据中项集A出现的频数,即A的支持度计数假设原始数据库为D,将事务数据库D随机划分成n个子集,这n个子数据库被分配到m个worker节点进行并行频繁项集挖掘,所用的时间由执行时间最长的分区决定;通过调用Spark框架中的mapPartitions()算子得到分区的频繁项集。
步骤S22:调用reduceBykey()算子统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,进而得到全局候选项集;
步骤S23:将全局候选项集通过广播变量方式传播到Spark集群的各个工作节点上,调用filter()算子,将不满足全局支持度阈值的候选项集删除,得到全局频繁项集。最后调用collect()函数,以数组的形式,将数据集中的全局频繁项集返回给主节点,完成对原始数据库上频繁项集的挖掘。
作为优选,所述步骤S3包括以下步骤:
步骤S31:设原始数据库为DB,新增数据流的数据集为db,项目集X在数据库DB中的支持度计数为X.sup_DB,在新增数据流d中的支持度计数为X.sup_db,min_sup为原始的支持度阈值;原数据集的大小为|DB|,新增数据流的大小为|db|,更新后的数据集大小为|DB∪db|,s为数据集的支持度。在原数据库DB和新增数据集合db都频繁的项集为频繁项集;此时过滤后的候选项集主要分为两大类:在原数据库DB中频繁但在新增数据流db中不频繁的项集和在原数据库DB中不频繁但在新增数据流db中频繁的项集;在原数据库DB中频繁而在新增数据流d中非频繁的数据只需要扫描新增数据流分层就可以确定频繁项集,如果X.sup_DB+X.sup_db<0,则项集X在DB∪db中就是非频繁的项目集,否则就是频繁项目集;只有在新增数据流db中频繁却在原数据库DB中非频繁的才需要扫描整个数据集,这样只需要扫描一次原始数据集,减少了重复扫描原始数据集的时间,提高了规则发现的效率。。
本发明的有益效果在于,解决传统关联规则发现方法资源消耗大,单台计算机计算能力有限以及候选项集庞大的缺陷,通过对传统的关联规则发现算法进行改进,提升知识的获取能力,具有知识可信度高、挖掘效率高等优点。此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1是基于原始数据库并行挖掘频繁项集的算法流程图。
图2所示是增量关联规则挖掘频繁项集的算法流程图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
本实施例给出一种面向流式数据的并行增量式关联规则挖掘方法,包括以下步骤:
首先利用Spark并行平台对原始事务数据库进行频繁项集挖掘。根据关联规则的挖掘规则,设最小支持度阈值为min_sup,最小置信度阈值为min_con。则当支持度s>min_sup且置信度c>min_con时,则称规则A=>B为强关联规则。在频繁项集挖掘过程中,利用最小支持度计数代替支持度阈值,则每个分区的支持度计数为s_count=min_sup×该分区的事务数。这样有利于减少频繁计算支持度阈值的概率。根据划分的思想,若X为频繁项集,则X的所有子集都是频繁项集。若X为非频繁项集,则X的所有的超集都是非频繁项集。假设原始数据库为D,根据实际挖掘过程的需要,将事务数据库D随机划分成n个非重叠区域,使各个子集的分区大小基本一致,保证每个项集有相同的概率进行频繁项集的挖掘,保证事物的同等重要性;在进行局部频繁项集挖掘时,运用并行分层的思想,若子集数据量庞大,每个分区Di还可以继续向下划分成Di1,Di2,…,Din,子分区D11,D12,…,D1s,D21,D22,…,D2s,…,Di1,Di2,…,Din均可并行执行。尽量避免不同分区出现相同数据的现象,避免重复挖掘的低效性,提高挖掘结果的可信度和高效性。
Spark读取事务数据库中的数据并对其划分,master节点利用Spark的提供的textFile()算子扫描在HDFS上的事务数据库,即一个RDD。对分区的数据子集并行挖掘频繁项集,所用的时间由执行时间最长的分区决定。如果某项集X是频繁项集,那么必然会作为局部频繁项集出现在其中至少一个分区中。通过mapPartitions()算子得到该分区的频繁项集,mapPartitions()函数是基于分区的map,是map的一个变种。map的输入函数是应用于RDD中每个元素,mapPartitions的作用对象是RDD的一整个分区,也就是把每个分区中的内容作为整体来处理的。mapPartitions()函数获取到每个分区的迭代器,在函数中通过这个分区整体的迭代器对整个分区的元素进行操作。每个分区中的内容将以Iterator[T]传递给输入函数,输入函数的输出结果是Iterator[U]。最终的RDD是由所有分区经过输入函数处理后的结果合并起来的。再采用reduceBykey()算子来统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,从而得到全局候选项集。reduceBykey()函数的性能优于groupByKey()函数的性能,因为reduceBykey()函数在数据混洗之前会进行本地规约处理,减少网络传输的时间开销。reduceByKey()算子是transformation操作,reduceByKey()只对键相同的值进行规约,对<key,value>结构的RDD进行聚合。reduceByKey()就是对RDD中Key相同的元素的Value进行reduce,因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。再采用广播变量的方式将全局候选项集传播到Spark集群的各个工作节点上,调用filter()算子,删除不满足全局支持度阈值的候选项集,从而得到全局频繁项集。filter()函数的功能是对不满足条件的元素进行过滤,对每个元素应用f函数,返回值为true的元素在RDD中保留,返回值为false的元素将被过滤掉。此时得到的结果还是一个RDD。最后采用collect()函数收集RDD的元素到driver节点,会在本机上生成一个新的Scala Array数组,在这个数组上运用Scala的函数式操作,以存储来自各个节点的所有数据,最后将数据集中的全局频繁项集返回给主节点。
对于流式数据来说,关联规则挖掘主要是研究在数据流更新的条件下,利用已有的挖掘结果,实现关联规则的快速更新。一般情况下,新增数据流db相对于历史数据要小得多,并且新增数据的数据特征也更容易取得。在原事务数据库DB和新增数据流db融合生成新的数据集后,产生新的频繁项集主要面对以下两个问题:如何找出DB中不在满足条件的频繁项集并删除;如何找出DB融合db后满足条件的频繁项集并增加。当项目集X在原数据库DB和新增数据库db中都是频繁项目集时,则X在DB∪db的数据中一定也是频繁项目集。当项目集X在原数据库DB和新增数据库db中都不是频繁项目集时,则X在DB∪db的数据中也一定不是频繁项目集。过滤后的候选项集主要分为两大类:在原数据库DB中频繁但在新增数据流db中不频繁的项集和在原数据库DB中不频繁但在新增数据流db中频繁的项集。在原数据库DB中频繁而在新增数据流d中非频繁的数据只需要扫描新增数据流分层就可以确定频繁项集,如果X.sup_DB+X.sup_db<0,则项集X在DB∪db中就是非频繁的项目集,否则就是频繁项目集。只有在新增数据流db中频繁却在原数据库DB中非频繁的才需要扫描整个数据集,这样只需要扫描一次原始数据集,减少了重复扫描原数据库的时间,提高了算法的效率。
读取分布式文件***HDFS中的新增数据流db作为预处理数据,按照时间序列划分成n个互不重叠、互不相交的数据块,且尽量各个数据块大小相似。master节点利用Spark提供的textFile()算子并行扫描新增数据流,生成RDD。数据块被分发到m个worker节点并行处理,采用count()算子计算分区各项集的支持度计数。如果某项集的频数小于分区的最小支持度频数,采用局部剪枝的方法,删除该项集。通过mapPartitions()函数计算得出每个项集的支持度计数,产生局部频繁项集Lk。本地频繁项集以RDD<项集,1>键值对的形式存储于m个节点中。reduceByKey()函数统计支持度计数count的值,对上一步产生的局部频繁项集进行合并,得到新增数据流中的局部候选项集Ck。这些候选项集在整个数据库中不一定是频繁项集,还要分析它们在原数据库DB中的频繁情况。将db的局部候选项集Ck和原数据集DB的频繁项集L(DB)合并,在原数据库DB和新增数据流db中公共的频繁项集加入到更新后的频繁项集L(DB∪db)中。其他的项集分为两类:在原数据库DB中频繁但在新增数据流db中不频繁的项集,在原数据库DB中不频繁但在新增数据流db中频繁的项集。把这两种项集统一归为全局候选项集C(DB∪db)。再将全局候选项集C(DB∪db)分配到m个节点,各节点尽量大小均等、规模相当。并行扫描候选项集,如果项集的局部支持度频数小于局部支持度阈值,采用局部剪枝的方法,删除该项集。通过union()函数进行候选项集的全局连接,采用filter()算子删除不满足最小支持度阈值的数据项,从而得到全局候选项集C(DB∪db)中的频繁项集。将得到的频繁项集与之前的频繁项集L(DB∪db)合并,就得到数据流增量更新后完整的频繁项集。
如图1所示是基于原始数据库并行挖掘频繁项集的算法流程图,具体过程如下:
Spark读取事务数据库DB上的数据并对其进行分块,n个数据块被分配到m个worker节点进行处理。对分区的数据子集进行并行频繁项集挖掘,所用的时间由执行时间最长的分区决定,对每个子集中的项集进行支持度计数。由于局部频繁项集数据量庞大,如果直接进行连接产生候选项集,必然会降低算法的执行效率。因此先对局部频繁项集进行局部剪枝处理。若某项集的频数小于该分区的最小支持度计数,则去掉该项集。得到子集的候选频繁项集,即局部频繁项集。局部频繁项集可能是全局频繁项集,也可能不是全局频繁项集。然而如果项集X是频繁项集,那么必然会作为局部频繁项集出现在其中至少一个分区中。具体的生成步骤如下:
Step1:通过textFile()算子扫描在HDFS上的事务数据库。
Step2:通过mapPartitions()算子得到该分区的频繁项集。
Step3:通过reduceBykey()算子来统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,从而得到全局候选项集。
Step4:将全局候选项集通过广播变量传播到Spark集群的各个工作节点上,通过调用filter()算子,将不满足全局支持度阈值的候选项集删除,得到全局频繁项集。
Step5:最后调用collect()函数,以数组的形式,将数据集中的全局频繁项集返回给主节点。
如图2所示是增量关联规则挖掘频繁项集的算法流程图,具体过程如下:
读取分布式文件***HDFS中的新增事务数据库作为预处理数据,按照时间序列划分成n个互不重叠、互不相交的数据块,且尽量各个数据块大小相似。再计算各个分区各项集的支持度计数,通过每个项集的支持度计数,得到局部频繁项集。将局部频繁项集进行合并,得到新增数据流db中的局部候选项集Ck。这些候选项集在事务数据库中不一定是频繁项集,还要分析它们在原数据库DB中的频繁情况。将db的局部候选项集Ck和原数据集DB的频繁项集L(DB)合并,在原数据库DB和新增数据流db中公共的频繁项集加入到更新后的频繁项目集L(DB∪db)中。其他的项集分为两种:在原数据库DB中频繁但在新增数据流db中不频繁的项集,在原数据库DB中不频繁但在新增数据流db中频繁的项集。把这两种项集统一归为全局候选项集C(DB∪db)。将全局候选项集分配到m个节点中,各节点尽量大小均等、规模相当。如果项集的局部支持度频数小于局部支持度阈值,利用局部剪枝的性质,删除该项集。最后对候选项集全局连接,删除不满足最小支持度阈值的数据项,从而得到全局候选项集C(DB∪db)中的频繁项集。将得到的频繁项集与之前的频繁项集L(DB∪db)合并,就得到了数据流增量更新后完整的频繁项集。具体生成步骤如下:
Step1:利用Spark提供的textFile()算子对子区域进行并行扫描,生成RDD。将数据块分发到m个worker节点进行处理,利用count()算子计算分区各项集的支持度计数。同时将此支持度设置为频繁模式挖掘的最小支持度阈值。利用局部剪枝的方法,如果项集的频数小于分区最小支持度频数,则删除该项集。
Step2:通过mapPartitions()函数计算得出每个项集的支持度计数,产生局部频繁项集Lk。本地频繁项集以RDD<item,1>键值对的形式存储于m个节点中。
Step3:利用reduceByKey()函数统计支持度计数count的值,对上一步产生的局部频繁项集进行合并,得到新增数据流db中的局部候选项集Ck。
Step4:在原数据库DB中频繁但在新增数据流db中不频繁的项集,在原数据库DB中不频繁但在新增数据流db中频繁的项集。把这两种项集统一归为全局候选项集C(DB∪db)。将全局候选项集分配到m个节点中,各节点尽量大小均等、规模相当。
Step5:各节点对分配的候选项集进行扫描。如果项集的局部支持度频数小于局部支持度阈值,利用局部剪枝的性质,删除该项集。通过union()函数进行候选项集的全局连接,利用filter()算子删除不满足最小支持度阈值的数据项,从而得到全局候选项集C(DB∪db)中的频繁项集。
Step6:将得到的频繁项集与之前的频繁项集L(DB∪db)合并,就得到了数据流增量更新后完整的频繁项集。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。
Claims (4)
1.一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,包括以下步骤:
步骤S1:针对原事务数据库的频繁项集挖掘,采用数据划分的方式,运用并行分层的思想,将原始数据库尽可能的均等划分;
步骤S2:数据划分中进行频繁项集的挖掘;
步骤S3:针对增量数据流的频繁项集挖掘算法,在数据流更新的条件下,利用已有的挖掘结果结合新增数据的特征,实现关联规则知识的快速更新。
2.根据权利要求1所述的一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,所述步骤S1包括以下步骤:
步骤S11:设Q1,Q2,…,Qn为n台功能相互独立的计算机,这n台计算机除了进行网络通信外,无共享体系结构,无共同存储结构;设Di(i=1,2,…,n)为分别存储于计算机Q1,Q2,…,Qn硬盘上的独立数据库,每个数据库上的事务数为Tj(j=1,2,…,n)个,则所有的数据库为总的事物数为通过利用这n***立的计算机同时工作,利用网络进行设备间的通信,而在本地的计算机Qi上仅处理本地的数据库任务Di,最后通过网络互相传递信息达到数据共享,从而实现整个数据库D上的频繁项集挖掘。
3.根据权利要求1或2所述的一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,所述的步骤S2包括以下步骤:
步骤S21:采用动态的支持度和置信度来评判关联规则挖掘的准确性,支持度揭示了事务A与B同时出现的概率,动态关联规则的支持度可表示为:
s=C(A∪B)/N (1)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,N表示数据库中所有事务的总频数,置信度揭示了当事务A出现时,事务B同样会出现的概率,动态关联规则的置信度可以表示为:
c=C(A∪B)/C(A) (2)
其中,C(A∪B)表示项集A∪B在数据库中出现的频数,C(A)表示在数据中项集A出现的频数,即A的支持度计数假设原始数据库为D,将事务数据库D随机划分成n个子集,这n个子数据库被分配到m个worker节点进行并行频繁项集挖掘,所用的时间由执行时间最长的分区决定;通过调用Spark框架中的mapPartitions()算子得到分区的频繁项集。
步骤S22:调用reduceBykey()算子统计RDD上所有分区每个项集的支持度计数,即每个数据项在整个事务数据库中出现的次数,进而得到全局候选项集;
步骤S23:将全局候选项集通过广播变量方式传播到Spark集群的各个工作节点上,调用filter()算子,将不满足全局支持度阈值的候选项集删除,得到全局频繁项集。最后调用collect()函数,以数组的形式,将数据集中的全局频繁项集返回给主节点,完成对原始数据库上频繁项集的挖掘。
4.根据权利要求3所述的一种面向流式数据的并行增量式关联规则挖掘方法,其特征在于,所述步骤S3包括以下步骤:
步骤S31:设原始数据库为DB,新增数据流的数据集为db,项目集X在数据库DB中的支持度计数为X.sup_DB,在新增数据流d中的支持度计数为X.sup_db,min_sup为原始的支持度阈值;原数据集的大小为|DB|,新增数据流的大小为|db|,更新后的数据集大小为|DB∪db|,s为数据集的支持度。在原数据库DB和新增数据集合db都频繁的项集为频繁项集;此时过滤后的候选项集主要分为两大类:在原数据库DB中频繁但在新增数据流db中不频繁的项集和在原数据库DB中不频繁但在新增数据流db中频繁的项集;在原数据库DB中频繁而在新增数据流d中非频繁的数据只需要扫描新增数据流分层就可以确定频繁项集,如果X.sup_DB+X.sup_db<0,则项集X在DB∪db中就是非频繁的项目集,否则就是频繁项目集;只有在新增数据流db中频繁却在原数据库DB中非频繁的才需要扫描整个数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710507953.0A CN107229751A (zh) | 2017-06-28 | 2017-06-28 | 一种面向流式数据的并行增量式关联规则挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710507953.0A CN107229751A (zh) | 2017-06-28 | 2017-06-28 | 一种面向流式数据的并行增量式关联规则挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107229751A true CN107229751A (zh) | 2017-10-03 |
Family
ID=59936187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710507953.0A Pending CN107229751A (zh) | 2017-06-28 | 2017-06-28 | 一种面向流式数据的并行增量式关联规则挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107229751A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197272A (zh) * | 2018-01-05 | 2018-06-22 | 北京搜狐新媒体信息技术有限公司 | 一种分布式关联规则增量的更新方法及装置 |
CN108446375A (zh) * | 2018-03-16 | 2018-08-24 | 湘潭大学 | 一种基于Spark平台的多尺度关联规则方法 |
CN108595711A (zh) * | 2018-05-11 | 2018-09-28 | 成都华数天成科技有限公司 | 一种分布式环境下图模式关联规则挖掘方法 |
CN109063769A (zh) * | 2018-08-01 | 2018-12-21 | 济南大学 | 基于变异系数自动确认簇数量的聚类方法、***及介质 |
CN109165522A (zh) * | 2018-07-26 | 2019-01-08 | 安徽师范大学 | 一种基于数据流的敏感数据挖掘保护方法 |
CN109376181A (zh) * | 2018-09-25 | 2019-02-22 | 深圳市元征科技股份有限公司 | 一种数据挖掘方法及相关设备 |
CN109471877A (zh) * | 2018-11-01 | 2019-03-15 | 中南大学 | 面向流数据的增量式时态频繁模式并行挖掘方法 |
CN109739897A (zh) * | 2018-12-18 | 2019-05-10 | 湖南大学 | 一种基于Spark框架的增量式频繁项集挖掘方法 |
CN109783464A (zh) * | 2018-12-21 | 2019-05-21 | 昆明理工大学 | 一种基于Spark平台的频繁项集挖掘方法 |
CN110222090A (zh) * | 2019-06-03 | 2019-09-10 | 哈尔滨工业大学(威海) | 一种海量数据频繁项集挖掘方法 |
CN110489448A (zh) * | 2019-07-24 | 2019-11-22 | 西安理工大学 | 基于Hadoop的大数据关联规则的挖掘方法 |
CN112204543A (zh) * | 2018-05-25 | 2021-01-08 | 易享信息技术有限公司 | 用于分布式***的频繁模式分析 |
CN112685438A (zh) * | 2020-12-29 | 2021-04-20 | 杭州海康威视数字技术股份有限公司 | 数据处理***、方法、装置及存储介质 |
CN112818030A (zh) * | 2021-01-21 | 2021-05-18 | 北京理工大学 | 一种自适应的分布式流数据关联规则挖掘方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761236A (zh) * | 2013-11-20 | 2014-04-30 | 同济大学 | 一种增量式频繁模式增长数据挖掘方法 |
-
2017
- 2017-06-28 CN CN201710507953.0A patent/CN107229751A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761236A (zh) * | 2013-11-20 | 2014-04-30 | 同济大学 | 一种增量式频繁模式增长数据挖掘方法 |
Non-Patent Citations (3)
Title |
---|
孙芬芬: ""海量数据并行挖掘技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张忠林 等: ""大数据环境下关联规则并行分层挖掘算法研究"", 《计算机科学》 * |
曹博 等: ""基于Spark的并行频繁模式挖掘算法"", 《计算机工程与应用》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197272A (zh) * | 2018-01-05 | 2018-06-22 | 北京搜狐新媒体信息技术有限公司 | 一种分布式关联规则增量的更新方法及装置 |
CN108446375A (zh) * | 2018-03-16 | 2018-08-24 | 湘潭大学 | 一种基于Spark平台的多尺度关联规则方法 |
CN108595711A (zh) * | 2018-05-11 | 2018-09-28 | 成都华数天成科技有限公司 | 一种分布式环境下图模式关联规则挖掘方法 |
CN108595711B (zh) * | 2018-05-11 | 2021-11-30 | 西南石油大学 | 一种分布式环境下图模式关联规则挖掘方法 |
CN112204543A (zh) * | 2018-05-25 | 2021-01-08 | 易享信息技术有限公司 | 用于分布式***的频繁模式分析 |
CN109165522A (zh) * | 2018-07-26 | 2019-01-08 | 安徽师范大学 | 一种基于数据流的敏感数据挖掘保护方法 |
CN109063769B (zh) * | 2018-08-01 | 2021-04-09 | 济南大学 | 基于变异系数自动确认簇数量的聚类方法、***及介质 |
CN109063769A (zh) * | 2018-08-01 | 2018-12-21 | 济南大学 | 基于变异系数自动确认簇数量的聚类方法、***及介质 |
CN109376181A (zh) * | 2018-09-25 | 2019-02-22 | 深圳市元征科技股份有限公司 | 一种数据挖掘方法及相关设备 |
CN109471877A (zh) * | 2018-11-01 | 2019-03-15 | 中南大学 | 面向流数据的增量式时态频繁模式并行挖掘方法 |
CN109739897A (zh) * | 2018-12-18 | 2019-05-10 | 湖南大学 | 一种基于Spark框架的增量式频繁项集挖掘方法 |
CN109783464A (zh) * | 2018-12-21 | 2019-05-21 | 昆明理工大学 | 一种基于Spark平台的频繁项集挖掘方法 |
CN109783464B (zh) * | 2018-12-21 | 2022-11-04 | 昆明理工大学 | 一种基于Spark平台的频繁项集挖掘方法 |
CN110222090A (zh) * | 2019-06-03 | 2019-09-10 | 哈尔滨工业大学(威海) | 一种海量数据频繁项集挖掘方法 |
CN110489448A (zh) * | 2019-07-24 | 2019-11-22 | 西安理工大学 | 基于Hadoop的大数据关联规则的挖掘方法 |
CN112685438A (zh) * | 2020-12-29 | 2021-04-20 | 杭州海康威视数字技术股份有限公司 | 数据处理***、方法、装置及存储介质 |
CN112818030A (zh) * | 2021-01-21 | 2021-05-18 | 北京理工大学 | 一种自适应的分布式流数据关联规则挖掘方法 |
CN112818030B (zh) * | 2021-01-21 | 2022-11-04 | 北京理工大学 | 一种自适应的分布式流数据关联规则挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229751A (zh) | 一种面向流式数据的并行增量式关联规则挖掘方法 | |
CN103838863B (zh) | 一种基于云计算平台的大数据聚类算法 | |
CN103729478B (zh) | 基于MapReduce的LBS兴趣点发现方法 | |
CN103258049A (zh) | 一种基于海量数据的关联规则挖掘方法 | |
CN107103050A (zh) | 一种大数据建模平台及方法 | |
CN103150163A (zh) | 一种基于MapReduce模型的并行关联方法 | |
CN108804602A (zh) | 一种基于spark的分布式空间数据存储计算方法 | |
Yang et al. | A MapReduce approach for spatial co-location pattern mining via ordered-clique-growth | |
CN107391621A (zh) | 一种基于Spark的并行关联规则增量更新方法 | |
CN111475837B (zh) | 一种网络大数据隐私保护方法 | |
CN108681577A (zh) | 一种新型的库结构数据索引方法 | |
Bao et al. | Mining non-redundant co-location patterns | |
CN113704248B (zh) | 一种基于外置索引的区块链查询优化方法 | |
CN109768878A (zh) | 一种基于大数据的网络工单计算方法及装置 | |
CN105138607B (zh) | 一种基于混合粒度分布式内存网格索引的knn查询方法 | |
CN110232079A (zh) | 一种基于Hadoop的改进型FP-Growth数据挖掘方法 | |
CN109471877A (zh) | 面向流数据的增量式时态频繁模式并行挖掘方法 | |
CN115982177B (zh) | 一种基于树形维度的数据归集的方法、装置、设备及介质 | |
Fu et al. | ICA: an incremental clustering algorithm based on OPTICS | |
CN106126739A (zh) | 一种处理业务关联数据的装置 | |
Wang et al. | Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm | |
Grossi et al. | Efficient splitting and merging algorithms for order decomposable problems | |
Dong et al. | Association rules mining of silk relics database with the RCFP-growth algorithm | |
CN108509531A (zh) | 一种基于Spark平台的不确定数据集频繁项挖掘方法 | |
CN107346331A (zh) | 一种基于Spark云计算平台的并行序列模式挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171003 |