CN104731925A - 基于MapReduce的FP-Growth的负载均衡并行计算方法 - Google Patents

基于MapReduce的FP-Growth的负载均衡并行计算方法 Download PDF

Info

Publication number
CN104731925A
CN104731925A CN201510138318.0A CN201510138318A CN104731925A CN 104731925 A CN104731925 A CN 104731925A CN 201510138318 A CN201510138318 A CN 201510138318A CN 104731925 A CN104731925 A CN 104731925A
Authority
CN
China
Prior art keywords
collection
frequent
glist
item
new list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510138318.0A
Other languages
English (en)
Inventor
杨勇
陈曙东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu IoT Research and Development Center
Original Assignee
Jiangsu IoT Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu IoT Research and Development Center filed Critical Jiangsu IoT Research and Development Center
Priority to CN201510138318.0A priority Critical patent/CN104731925A/zh
Publication of CN104731925A publication Critical patent/CN104731925A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于MapReduce的FP-Grwoth的负载均衡并行计算方法,其包括如下步骤:步骤1、将数据库事务集D分成连续不同的分区,且子事务集存储在多台节点上;步骤2、并行计算支持度计数,得到全部频繁1项集FList;步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到新列表GList;步骤4、根据新列表GList将数据库事务集D也划分为M组,在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。本发明具有较好的负载均衡能力以及执行效率。

Description

基于MapReduce的FP-Growth的负载均衡并行计算方法
技术领域
本发明涉及一种负载均衡的并行计算方法,尤其是一种基于MapReduce的FP-Grwoth的负载均衡并行计算方法,属于数据挖掘的技术领域。
背景技术
关联规则挖掘反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘技术中一个重要课题。关联规则挖掘需要经历两个步骤,即频繁项集的产生和关联规则的生成,关联规则挖掘的总体性能主要由第一阶段决定。经典的关联规则挖掘算法主要有Apriori算法、FP-Growth算法和Eclat算法,前两者采用水平数据格式进行挖掘,后者采用垂直数据格式进行挖掘。FP-Growth算法较Apriori算法而言,采用分治策略对数据库进行挖掘,不产生候选项集,它采用FP-Tree存放数据库的重要信息,只需扫描两次数据库,然后将关键的信息以FP-Tree的形式存放在内存中,避免了多次扫描数据库带来的巨大开销。
Hadoop是一个开源的、能够并行处理大规模数据的分布式计算平台。MapReduce是Hadoop的核心组件之一,是一个高性能的分布式编程模型和计算框架,用于对海量数据进行并行分析和处理。MapReduce把所有任务都进行统一的操作,即任务的分解与结果的合并,主要包括两个重要的核心操作:Map和Reduce(映射和规约),Map函数将大规模数据拆分为多个小的数据集并发送到多台机器(节点)上进行并行运算,Reduce函数则将各机器(节点)上Map函数的运行结果进行合并得出结果。
随着社会的进步和科学技术的发展,数据呈***式增长,以单机形式进行关联规则挖掘的FP-Growth算法已经远不能满足海量数据的存储以及挖掘等问题,而一些现有的FP-Growth并行算法解决了数据库的划分以及后续的并行计算这两个问题,但是算法在并行计算效率、内存消耗、通信消耗以及FP-Tree稀疏程度差异导致的性能差异等方面存在明显的差异和不足,这些都与数据库事务集划分时欠缺负载均衡考虑有着很大的关系。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于MapReduce的FP-Growth的负载均衡并行计算方法,其具有较好的负载均衡能力以及执行效率。
按照本发明提供的技术方案,一种基于MapReduce的FP-Growth的负载均衡并行计算方法,所述负载均衡并行计算方法包括如下步骤:
步骤1、输入所需的数据库事务集D以及最小支持度计数,并将所述数据库事务集D分成连续不同的分区,且数据库事务集D的子事务集存储在多台节点上;
步骤2、第一次扫描数据库事务集D,并行计算每台节点上的项的支持度计数,且将所有节点计算的项的支持度技术合并,以得到全部频繁1项集FList;
步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到长度为M的新列表GList,新列表GList中每一组的组号为gidi(1≤i≤M);
步骤4、第二次扫描数据库事务集D,根据新列表GList将数据库事务集D也划分为M组,划分得到数据库事务集D的组号与新列表GList内的组号相对应,若一条事务包含GListgidi中的项,则将该条事务对应的部分发送到组号为gidi的事务组DB;在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;
步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。
所述步骤3包括如下步骤:
步骤3.1、计算频繁1项集FList中每项的负载,按照负载降序排列,以得到排列表SList;
步骤3.2、根据指定的组数M,将排列表SList中的前M项初始化为新列表GList中的M组,且新列表GList中的每组与排列表SList中的每项呈一一对应;
步骤3.3、将排列表SList中未被分到新列表GList中组的第一项添加到新列表GList中负载最小的组内,并将添加的项的负载值进行累加,并更新新列表GList中组的负载;
步骤3.4、重复上述步骤3,直至排列表SList中的所有项都完成分组;
步骤3.5、将得到的新列表GList保存在HDFS文件中,以便多台节点共享。
与现有技术相比,本发明的优点:本发明利用频繁1项集FList中每一项的在条件模式树中的前缀路径的总长度作为该项的负载,并进行降序排列,然后指定划分成的组数M,使得每一组内包括的各项的负载之和基本相等,从而实现频繁1项集FList的均衡划分和各计算节点之间的负载均衡策略,从而解决了各个计算节点间负载不均的情况,有更好的负载均衡能力和执行效率。
附图说明
    图1为本发明的流程示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示:为了具有较好的负载均衡能力以及执行效率,本发明负载均衡并行计算方法包括如下步骤:
步骤1、输入所需的数据库事务集D以及最小支持度计数,并将所述数据库事务集D分成连续不同的分区,且数据库事务集D的子事务集存储在多台节点上;
将数据库事务集D划分成连续的几部分,分别存储于不同的计算节点上。被划分的每一部分子事务集称为数据分片,该过程直接由Hadoop完成,用户只需将数据库事务集拷贝到HDFS上,Hadoop框架会将输入的文件划分为多个数据分片(Blook)存储于不通的节点上,并为每个数据分片保存副本,从而自动完成数据分片过程。
步骤2、第一次扫描数据库事务集D,并行计算每台节点上的项的支持度计数,且将所有节点计算的项的支持度技术合并,以得到全部频繁1项集FList;
本发明实施例中,通过第一对MapReduce函数统计出整个数据库事务集D中每一项的支持度计数,从而得到频繁1项集FList。其中每一个Map函数的输入对应一个数据分片Shard。Map函数的输入键值对格式为<key=lineNo,value=T>,其中lineNO表示当前的行号,T表示当前行对应的事务。对于每一条事务T,Map函数的输出格式为<key=item,value=1>,其中item表示T中出现的每一项。Hadoop会将所有具有相同key值的Map输出键值对合并后作为Reduce的输入,Reduce函数的输入格式为<key=item,value={1,1,1……}>。Reduce的输出格式为<key=item,value=itemCount>,其中,itemCount表示对应的项item所出现的次数,即支持度计数。
步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到长度为M的新列表GList,新列表GList中每一组的组号为gidi(1≤i≤M);
本发明实施例中,对频繁1项集FList进行划分的目的在于需要根据新列表GList对数据库事务集D进行分组,对频繁1项集FList的划分将直接影响到下一步中所划分的各个事务组的负载是否均衡,从而影响整个并行算法的执行效率。本发明以实现被划分的事务组之间的负载均衡为前提对频繁1项集FList进行划分,将原来较大的数据库化整为散,分散到各个节点上,从而实现并行计算,所以在划分频繁1项集FList之前,要先估算每一个事务组的负载。
对于事务组DB(gidi),将挖掘对应的GListgidi中所包含的所有项的条件模式树的递归次数之和作为该组的负载。因此,需要先估算频繁1项集FList中每一项的负载,再划分频繁1项集FList。
每一项所对应的条件模式树的前缀路径的最大值为该项在频繁1项集FList中的位置n,若某一项所对应的条件模式树前缀路径的最大值为n,那么挖掘该项的频繁模式所做的最大递归次数为n-1+n-2+……+1=(n×(n-1))/2,即每一项的挖掘负载可估算为(n×(n-1))/2。
根据上述说明,则对频繁1项集FList进行划分,得到新列表GList的过程包括如下步骤:
步骤3.1、计算频繁1项集FList中每项的负载,按照负载降序排列,以得到排列表SList;
步骤3.2、根据指定的组数M,将排列表SList中的前M项初始化为新列表GList中的M组,且新列表GList中的每组与排列表SList中的每项呈一一对应;
步骤3.3、将排列表SList中未被分到新列表GList中组的第一项添加到新列表GList中负载最小的组内,并将添加的项的负载值进行累加,并更新新列表GList中组的负载;
步骤3.4、重复上述步骤3,直至排列表SList中的所有项都完成分组;
步骤3.5、将得到的新列表GList保存在HDFS文件中,以便多台节点共享。
本发明实施例中,gidi对应的组记作GListgidi,而GListgidi组中的每一项记作αj,αj∈GListgidi,1≤j≤GListgidi.length。
步骤4、第二次扫描数据库事务集D,根据新列表GList将数据库事务集D也划分为M组,划分得到数据库事务集D的组号与新列表GList内的组号相对应,若一条事务包含GListgidi中的项,则将该条事务对应的部分发送到组号为gidi的事务组DB;在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;
本步骤中,通过第二对MapReduce函数完成,其中Map函数的任务是根据频繁1项集FList的划分情况对数据库事务集D进行分组,从而得到一组彼此间相互独立的事务组DB,Reduce函数负责对本节点上的独立事务集进行FP-Growth挖掘。
Map函数:生成M组相互独立的事务组DB,将本地节点上的所有事务发送到合适的分组上。Map函数输入键值对仍为<key=lineNo,value=T>。Map函数的操作如下:
1)、将新列表GList加载到本地节点,根据新列表GList生成一个hashMap,其key为新列表GList中的项,value为该项对应的组号gidi
2)、对于读入的每一条事务T,将其按照频繁1项集FList中项的顺序进行排序并删除T中不存在于频繁1项集FList中的项。
3)、设排好序的事务T={item1,item2,……,itemn},从后向前遍历T中的每一项itemj,从n开始直到j等于1时循环结束。若itemj存在于hashMap的某条键值对key-value中,则将hashMap中所有与键值对key-value的value值相同的键值对删除。然后将事务T中的前j项发送到键值对key-value的value值所对应的组中。
Map函数的输出键值对为<key= gidi,value={ item1,……,itemj}>,其中gidi表示该条事务要被分发到的事务组的组号,{ item1,……,itemj}表示不是将整条事务发送到相应的分组上,而是只发送itemj之前的部分,发送的原则为:事务T所包含的项都属于新列表GList中的哪些组,事务T相应的部分就被发送到哪些组。通过对哈希表中条目的删除,以确保同一条事务不会被重复发送到同一个分组上。这样所有包含组GListgidi中项的事务,其对应的部分都被发送到组号为gidi的事务组DB(gidi)中,那么对事务组DB(gidi)进行FP-Tree挖掘就可以得到所有组GListgidi中项的模式。不同的组GListgidi中包含的项互不相同,每一个分组得到的频繁模式都是不同的,所以每一个事务组DB都是独立的,分组间互相不依赖。
Reduce函数:对本地事务集进行频繁模式挖掘。当所有Map任务都执行完毕后,由于Hadoop会自动合并具有相同key值的Map结果,所以Reduce的输入为<key= gidi,value=DB(gidi)>,其中事务组DB(gidi)表示组号为gidi的分组所对应的独立事务集,该事务集是由全部被分发到该组的事务所组成的。每个Reduce任务一个接一个地处理Hadoop分配给它的事务集。Reduce函数的操作如下:
1)、加载新列表GList,用于生成groupMap,groupMap中的key表示组号gidi,value表示该组所对应的所有项GListgidi
2)、扫描事务组DB(gidi)中的每一条记录,创建本地TP树:localFP-Tree。
3)、递归调用Growth算法,与传统Growth算法不通,在第一次调用Growth(FP-Tree,null)时,只遍历组GListgidi中项,而不是遍历整个表头,这是由于每个事务组只需挖掘其对应的组GListgidi中所包含的项的频繁模式。
Reduce的输出为<key=pattern,value=sup(pattern)>。其中pattern表示频繁模式,sup(pattern)表示该频繁模式出现的次数。
步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。
针对各计算节点的结果进行一次结果合并,即可得到FP-Growth并行算法下的最终结果。
本发明针对传统FP-Growth算法在单机计算节点上计算能力和存储能力有限的问题,提出了基于MapReduce的并行化计算方法,同时针对并行化过程中各个数据块之间数据划分不精确、各计算节点上受FP-Tree稀疏程度差异导致各节点计算计算效率、内存消耗、通信消耗存在明显差异等问题,提出了一种基于MapReduce的FP-Growth的负载均衡并行算法。
相比于传统单机算法和普通的并行算法,本发明利用频繁1项集FList中每一项的在条件模式树中的前缀路径的总长度作为该项的负载,并进行降序排列,然后指定划分成的组数M,使得每一组内包括的各项的负载之和基本相等,从而实现频繁1项集FList的均衡划分和各计算节点之间的负载均衡策略,从而解决了各个计算节点间负载不均的情况,有更好的负载均衡能力和执行效率。

Claims (2)

1.一种基于MapReduce的FP-Growth的负载均衡并行计算方法,其特征是,所述负载均衡并行计算方法包括如下步骤:
步骤1、输入所需的数据库事务集D以及最小支持度计数,并将所述数据库事务集D分成连续不同的分区,且数据库事务集D的子事务集存储在多台节点上;
步骤2、第一次扫描数据库事务集D,并行计算每台节点上的项的支持度计数,且将所有节点计算的项的支持度技术合并,以得到全部频繁1项集FList;
步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到长度为M的新列表GList,新列表GList中每一组的组号为gidi(1≤i≤M);
步骤4、第二次扫描数据库事务集D,根据新列表GList将数据库事务集D也划分为M组,划分得到数据库事务集D的组号与新列表GList内的组号相对应,若一条事务包含GListgidi中的项,则将该条事务对应的部分发送到组号为gidi的事务组DB;在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;
步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。
2.根据权利要求1所述的基于MapReduce的FP-Growth的负载均衡并行计算方法,其特征是,所述步骤3包括如下步骤:
步骤3.1、计算频繁1项集FList中每项的负载,按照负载降序排列,以得到排列表SList;
步骤3.2、根据指定的组数M,将排列表SList中的前M项初始化为新列表GList中的M组,且新列表GList中的每组与排列表SList中的每项呈一一对应;
步骤3.3、将排列表SList中未被分到新列表GList中组的第一项添加到新列表GList中负载最小的组内,并将添加的项的负载值进行累加,并更新新列表GList中组的负载;
步骤3.4、重复上述步骤3,直至排列表SList中的所有项都完成分组;
步骤3.5、将得到的新列表GList保存在HDFS文件中,以便多台节点共享。
CN201510138318.0A 2015-03-26 2015-03-26 基于MapReduce的FP-Growth的负载均衡并行计算方法 Pending CN104731925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510138318.0A CN104731925A (zh) 2015-03-26 2015-03-26 基于MapReduce的FP-Growth的负载均衡并行计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510138318.0A CN104731925A (zh) 2015-03-26 2015-03-26 基于MapReduce的FP-Growth的负载均衡并行计算方法

Publications (1)

Publication Number Publication Date
CN104731925A true CN104731925A (zh) 2015-06-24

Family

ID=53455812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510138318.0A Pending CN104731925A (zh) 2015-03-26 2015-03-26 基于MapReduce的FP-Growth的负载均衡并行计算方法

Country Status (1)

Country Link
CN (1) CN104731925A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183875A (zh) * 2015-09-21 2015-12-23 南京邮电大学 基于共享路径的FP-Growth数据挖掘方法
CN106503218A (zh) * 2016-10-27 2017-03-15 北京邮电大学 一种并行化工作流关联数据发现方法
CN106874479A (zh) * 2017-02-19 2017-06-20 郑州云海信息技术有限公司 基于FPGA的FP‑Growth算法的改进方法及装置
CN107045512A (zh) * 2016-02-05 2017-08-15 北京京东尚科信息技术有限公司 一种数据交换方法及***
CN108153589A (zh) * 2016-12-06 2018-06-12 国际商业机器公司 用于多线程的处理布置中的数据处理的方法和***
CN110232079A (zh) * 2019-05-08 2019-09-13 江苏理工学院 一种基于Hadoop的改进型FP-Growth数据挖掘方法
CN110990434A (zh) * 2019-11-29 2020-04-10 国网四川省电力公司信息通信公司 Spark平台分组和Fp-Growth关联规则挖掘方法
CN111107493A (zh) * 2018-10-25 2020-05-05 中国电力科学研究院有限公司 一种移动用户位置预测方法与***
CN111309786A (zh) * 2020-02-20 2020-06-19 江西理工大学 基于MapReduce的并行频繁项集挖掘方法
CN113672665A (zh) * 2021-08-18 2021-11-19 Oppo广东移动通信有限公司 数据处理方法、数据采集***、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127037A (zh) * 2006-08-15 2008-02-20 临安微创网格信息工程有限公司 基于时序向量差异序列法聚类的周期关联规则发现算法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
US20150019562A1 (en) * 2011-04-26 2015-01-15 Brian J. Bulkowski Method and system of mapreduce implementations on indexed datasets in a distributed database environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127037A (zh) * 2006-08-15 2008-02-20 临安微创网格信息工程有限公司 基于时序向量差异序列法聚类的周期关联规则发现算法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
US20150019562A1 (en) * 2011-04-26 2015-01-15 Brian J. Bulkowski Method and system of mapreduce implementations on indexed datasets in a distributed database environment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周诗慧: "基于Hadoop的改进的并行Fp-Growth算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183875A (zh) * 2015-09-21 2015-12-23 南京邮电大学 基于共享路径的FP-Growth数据挖掘方法
CN107045512A (zh) * 2016-02-05 2017-08-15 北京京东尚科信息技术有限公司 一种数据交换方法及***
CN106503218A (zh) * 2016-10-27 2017-03-15 北京邮电大学 一种并行化工作流关联数据发现方法
US11036558B2 (en) 2016-12-06 2021-06-15 International Business Machines Corporation Data processing
CN108153589A (zh) * 2016-12-06 2018-06-12 国际商业机器公司 用于多线程的处理布置中的数据处理的方法和***
CN108153589B (zh) * 2016-12-06 2021-12-07 国际商业机器公司 用于多线程的处理布置中的数据处理的方法和***
CN106874479A (zh) * 2017-02-19 2017-06-20 郑州云海信息技术有限公司 基于FPGA的FP‑Growth算法的改进方法及装置
CN111107493A (zh) * 2018-10-25 2020-05-05 中国电力科学研究院有限公司 一种移动用户位置预测方法与***
CN111107493B (zh) * 2018-10-25 2022-09-02 中国电力科学研究院有限公司 一种移动用户位置预测方法与***
CN110232079A (zh) * 2019-05-08 2019-09-13 江苏理工学院 一种基于Hadoop的改进型FP-Growth数据挖掘方法
CN110990434A (zh) * 2019-11-29 2020-04-10 国网四川省电力公司信息通信公司 Spark平台分组和Fp-Growth关联规则挖掘方法
CN110990434B (zh) * 2019-11-29 2023-04-18 国网四川省电力公司信息通信公司 Spark平台分组和Fp-Growth关联规则挖掘方法
CN111309786A (zh) * 2020-02-20 2020-06-19 江西理工大学 基于MapReduce的并行频繁项集挖掘方法
CN111309786B (zh) * 2020-02-20 2023-09-15 韶关学院 基于MapReduce的并行频繁项集挖掘方法
CN113672665A (zh) * 2021-08-18 2021-11-19 Oppo广东移动通信有限公司 数据处理方法、数据采集***、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN104731925A (zh) 基于MapReduce的FP-Growth的负载均衡并行计算方法
CN103020256B (zh) 一种大规模数据的关联规则挖掘方法
CN103258049A (zh) 一种基于海量数据的关联规则挖掘方法
CN102662639A (zh) 一种基于Mapreduce的多GPU协同计算方法
CN109408521A (zh) 一种用于更新区块链全局数据状态的方法及其装置
CN103729478A (zh) 基于MapReduce的LBS兴趣点发现方法
Liao et al. MRPrePost—A parallel algorithm adapted for mining big data
CN103617162A (zh) 一种对等云平台上构建希尔伯特r树索引的方法
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN104834709B (zh) 一种基于负载均衡的并行余弦模式挖掘方法
CN112015741A (zh) 一种海量数据的分库分表存储方法与装置
CN106815302A (zh) 一种应用于游戏道具推荐的频繁项集挖掘方法
CN105045806A (zh) 一种面向分位数查询的概要数据动态***与维护方法
CN104679966B (zh) 基于多层次方法和离散粒子群的赋权超图优化划分方法
CN104933143A (zh) 获取推荐对象的方法及装置
CN102207935A (zh) 用于创建索引的方法和***
CN101499097A (zh) 基于散列表的数据流频繁模式内存压缩存储方法
CN105138607B (zh) 一种基于混合粒度分布式内存网格索引的knn查询方法
CN110232079A (zh) 一种基于Hadoop的改进型FP-Growth数据挖掘方法
CN106874479A (zh) 基于FPGA的FP‑Growth算法的改进方法及装置
CN102043857A (zh) 最近邻查询方法及***
Al-Hamodi et al. An enhanced frequent pattern growth based on MapReduce for mining association rules
CN103761298A (zh) 一种基于分布式架构的实体匹配方法
CN109254962A (zh) 一种基于t-树的索引优化方法及装置
CN103870342B (zh) 云计算环境中的基于结点属性函数的任务核值计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150624