CN104731925A - 基于MapReduce的FP-Growth的负载均衡并行计算方法 - Google Patents
基于MapReduce的FP-Growth的负载均衡并行计算方法 Download PDFInfo
- Publication number
- CN104731925A CN104731925A CN201510138318.0A CN201510138318A CN104731925A CN 104731925 A CN104731925 A CN 104731925A CN 201510138318 A CN201510138318 A CN 201510138318A CN 104731925 A CN104731925 A CN 104731925A
- Authority
- CN
- China
- Prior art keywords
- collection
- frequent
- glist
- item
- new list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/176—Support for shared access to files; File sharing support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于MapReduce的FP-Grwoth的负载均衡并行计算方法,其包括如下步骤:步骤1、将数据库事务集D分成连续不同的分区,且子事务集存储在多台节点上;步骤2、并行计算支持度计数,得到全部频繁1项集FList;步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到新列表GList;步骤4、根据新列表GList将数据库事务集D也划分为M组,在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。本发明具有较好的负载均衡能力以及执行效率。
Description
技术领域
本发明涉及一种负载均衡的并行计算方法,尤其是一种基于MapReduce的FP-Grwoth的负载均衡并行计算方法,属于数据挖掘的技术领域。
背景技术
关联规则挖掘反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘技术中一个重要课题。关联规则挖掘需要经历两个步骤,即频繁项集的产生和关联规则的生成,关联规则挖掘的总体性能主要由第一阶段决定。经典的关联规则挖掘算法主要有Apriori算法、FP-Growth算法和Eclat算法,前两者采用水平数据格式进行挖掘,后者采用垂直数据格式进行挖掘。FP-Growth算法较Apriori算法而言,采用分治策略对数据库进行挖掘,不产生候选项集,它采用FP-Tree存放数据库的重要信息,只需扫描两次数据库,然后将关键的信息以FP-Tree的形式存放在内存中,避免了多次扫描数据库带来的巨大开销。
Hadoop是一个开源的、能够并行处理大规模数据的分布式计算平台。MapReduce是Hadoop的核心组件之一,是一个高性能的分布式编程模型和计算框架,用于对海量数据进行并行分析和处理。MapReduce把所有任务都进行统一的操作,即任务的分解与结果的合并,主要包括两个重要的核心操作:Map和Reduce(映射和规约),Map函数将大规模数据拆分为多个小的数据集并发送到多台机器(节点)上进行并行运算,Reduce函数则将各机器(节点)上Map函数的运行结果进行合并得出结果。
随着社会的进步和科学技术的发展,数据呈***式增长,以单机形式进行关联规则挖掘的FP-Growth算法已经远不能满足海量数据的存储以及挖掘等问题,而一些现有的FP-Growth并行算法解决了数据库的划分以及后续的并行计算这两个问题,但是算法在并行计算效率、内存消耗、通信消耗以及FP-Tree稀疏程度差异导致的性能差异等方面存在明显的差异和不足,这些都与数据库事务集划分时欠缺负载均衡考虑有着很大的关系。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于MapReduce的FP-Growth的负载均衡并行计算方法,其具有较好的负载均衡能力以及执行效率。
按照本发明提供的技术方案,一种基于MapReduce的FP-Growth的负载均衡并行计算方法,所述负载均衡并行计算方法包括如下步骤:
步骤1、输入所需的数据库事务集D以及最小支持度计数,并将所述数据库事务集D分成连续不同的分区,且数据库事务集D的子事务集存储在多台节点上;
步骤2、第一次扫描数据库事务集D,并行计算每台节点上的项的支持度计数,且将所有节点计算的项的支持度技术合并,以得到全部频繁1项集FList;
步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到长度为M的新列表GList,新列表GList中每一组的组号为gidi(1≤i≤M);
步骤4、第二次扫描数据库事务集D,根据新列表GList将数据库事务集D也划分为M组,划分得到数据库事务集D的组号与新列表GList内的组号相对应,若一条事务包含GListgidi中的项,则将该条事务对应的部分发送到组号为gidi的事务组DB;在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;
步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。
所述步骤3包括如下步骤:
步骤3.1、计算频繁1项集FList中每项的负载,按照负载降序排列,以得到排列表SList;
步骤3.2、根据指定的组数M,将排列表SList中的前M项初始化为新列表GList中的M组,且新列表GList中的每组与排列表SList中的每项呈一一对应;
步骤3.3、将排列表SList中未被分到新列表GList中组的第一项添加到新列表GList中负载最小的组内,并将添加的项的负载值进行累加,并更新新列表GList中组的负载;
步骤3.4、重复上述步骤3,直至排列表SList中的所有项都完成分组;
步骤3.5、将得到的新列表GList保存在HDFS文件中,以便多台节点共享。
与现有技术相比,本发明的优点:本发明利用频繁1项集FList中每一项的在条件模式树中的前缀路径的总长度作为该项的负载,并进行降序排列,然后指定划分成的组数M,使得每一组内包括的各项的负载之和基本相等,从而实现频繁1项集FList的均衡划分和各计算节点之间的负载均衡策略,从而解决了各个计算节点间负载不均的情况,有更好的负载均衡能力和执行效率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示:为了具有较好的负载均衡能力以及执行效率,本发明负载均衡并行计算方法包括如下步骤:
步骤1、输入所需的数据库事务集D以及最小支持度计数,并将所述数据库事务集D分成连续不同的分区,且数据库事务集D的子事务集存储在多台节点上;
将数据库事务集D划分成连续的几部分,分别存储于不同的计算节点上。被划分的每一部分子事务集称为数据分片,该过程直接由Hadoop完成,用户只需将数据库事务集拷贝到HDFS上,Hadoop框架会将输入的文件划分为多个数据分片(Blook)存储于不通的节点上,并为每个数据分片保存副本,从而自动完成数据分片过程。
步骤2、第一次扫描数据库事务集D,并行计算每台节点上的项的支持度计数,且将所有节点计算的项的支持度技术合并,以得到全部频繁1项集FList;
本发明实施例中,通过第一对MapReduce函数统计出整个数据库事务集D中每一项的支持度计数,从而得到频繁1项集FList。其中每一个Map函数的输入对应一个数据分片Shard。Map函数的输入键值对格式为<key=lineNo,value=T>,其中lineNO表示当前的行号,T表示当前行对应的事务。对于每一条事务T,Map函数的输出格式为<key=item,value=1>,其中item表示T中出现的每一项。Hadoop会将所有具有相同key值的Map输出键值对合并后作为Reduce的输入,Reduce函数的输入格式为<key=item,value={1,1,1……}>。Reduce的输出格式为<key=item,value=itemCount>,其中,itemCount表示对应的项item所出现的次数,即支持度计数。
步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到长度为M的新列表GList,新列表GList中每一组的组号为gidi(1≤i≤M);
本发明实施例中,对频繁1项集FList进行划分的目的在于需要根据新列表GList对数据库事务集D进行分组,对频繁1项集FList的划分将直接影响到下一步中所划分的各个事务组的负载是否均衡,从而影响整个并行算法的执行效率。本发明以实现被划分的事务组之间的负载均衡为前提对频繁1项集FList进行划分,将原来较大的数据库化整为散,分散到各个节点上,从而实现并行计算,所以在划分频繁1项集FList之前,要先估算每一个事务组的负载。
对于事务组DB(gidi),将挖掘对应的GListgidi中所包含的所有项的条件模式树的递归次数之和作为该组的负载。因此,需要先估算频繁1项集FList中每一项的负载,再划分频繁1项集FList。
每一项所对应的条件模式树的前缀路径的最大值为该项在频繁1项集FList中的位置n,若某一项所对应的条件模式树前缀路径的最大值为n,那么挖掘该项的频繁模式所做的最大递归次数为n-1+n-2+……+1=(n×(n-1))/2,即每一项的挖掘负载可估算为(n×(n-1))/2。
根据上述说明,则对频繁1项集FList进行划分,得到新列表GList的过程包括如下步骤:
步骤3.1、计算频繁1项集FList中每项的负载,按照负载降序排列,以得到排列表SList;
步骤3.2、根据指定的组数M,将排列表SList中的前M项初始化为新列表GList中的M组,且新列表GList中的每组与排列表SList中的每项呈一一对应;
步骤3.3、将排列表SList中未被分到新列表GList中组的第一项添加到新列表GList中负载最小的组内,并将添加的项的负载值进行累加,并更新新列表GList中组的负载;
步骤3.4、重复上述步骤3,直至排列表SList中的所有项都完成分组;
步骤3.5、将得到的新列表GList保存在HDFS文件中,以便多台节点共享。
本发明实施例中,gidi对应的组记作GListgidi,而GListgidi组中的每一项记作αj,αj∈GListgidi,1≤j≤GListgidi.length。
步骤4、第二次扫描数据库事务集D,根据新列表GList将数据库事务集D也划分为M组,划分得到数据库事务集D的组号与新列表GList内的组号相对应,若一条事务包含GListgidi中的项,则将该条事务对应的部分发送到组号为gidi的事务组DB;在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;
本步骤中,通过第二对MapReduce函数完成,其中Map函数的任务是根据频繁1项集FList的划分情况对数据库事务集D进行分组,从而得到一组彼此间相互独立的事务组DB,Reduce函数负责对本节点上的独立事务集进行FP-Growth挖掘。
Map函数:生成M组相互独立的事务组DB,将本地节点上的所有事务发送到合适的分组上。Map函数输入键值对仍为<key=lineNo,value=T>。Map函数的操作如下:
1)、将新列表GList加载到本地节点,根据新列表GList生成一个hashMap,其key为新列表GList中的项,value为该项对应的组号gidi。
2)、对于读入的每一条事务T,将其按照频繁1项集FList中项的顺序进行排序并删除T中不存在于频繁1项集FList中的项。
3)、设排好序的事务T={item1,item2,……,itemn},从后向前遍历T中的每一项itemj,从n开始直到j等于1时循环结束。若itemj存在于hashMap的某条键值对key-value中,则将hashMap中所有与键值对key-value的value值相同的键值对删除。然后将事务T中的前j项发送到键值对key-value的value值所对应的组中。
Map函数的输出键值对为<key= gidi,value={ item1,……,itemj}>,其中gidi表示该条事务要被分发到的事务组的组号,{ item1,……,itemj}表示不是将整条事务发送到相应的分组上,而是只发送itemj之前的部分,发送的原则为:事务T所包含的项都属于新列表GList中的哪些组,事务T相应的部分就被发送到哪些组。通过对哈希表中条目的删除,以确保同一条事务不会被重复发送到同一个分组上。这样所有包含组GListgidi中项的事务,其对应的部分都被发送到组号为gidi的事务组DB(gidi)中,那么对事务组DB(gidi)进行FP-Tree挖掘就可以得到所有组GListgidi中项的模式。不同的组GListgidi中包含的项互不相同,每一个分组得到的频繁模式都是不同的,所以每一个事务组DB都是独立的,分组间互相不依赖。
Reduce函数:对本地事务集进行频繁模式挖掘。当所有Map任务都执行完毕后,由于Hadoop会自动合并具有相同key值的Map结果,所以Reduce的输入为<key= gidi,value=DB(gidi)>,其中事务组DB(gidi)表示组号为gidi的分组所对应的独立事务集,该事务集是由全部被分发到该组的事务所组成的。每个Reduce任务一个接一个地处理Hadoop分配给它的事务集。Reduce函数的操作如下:
1)、加载新列表GList,用于生成groupMap,groupMap中的key表示组号gidi,value表示该组所对应的所有项GListgidi。
2)、扫描事务组DB(gidi)中的每一条记录,创建本地TP树:localFP-Tree。
3)、递归调用Growth算法,与传统Growth算法不通,在第一次调用Growth(FP-Tree,null)时,只遍历组GListgidi中项,而不是遍历整个表头,这是由于每个事务组只需挖掘其对应的组GListgidi中所包含的项的频繁模式。
Reduce的输出为<key=pattern,value=sup(pattern)>。其中pattern表示频繁模式,sup(pattern)表示该频繁模式出现的次数。
步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。
针对各计算节点的结果进行一次结果合并,即可得到FP-Growth并行算法下的最终结果。
本发明针对传统FP-Growth算法在单机计算节点上计算能力和存储能力有限的问题,提出了基于MapReduce的并行化计算方法,同时针对并行化过程中各个数据块之间数据划分不精确、各计算节点上受FP-Tree稀疏程度差异导致各节点计算计算效率、内存消耗、通信消耗存在明显差异等问题,提出了一种基于MapReduce的FP-Growth的负载均衡并行算法。
相比于传统单机算法和普通的并行算法,本发明利用频繁1项集FList中每一项的在条件模式树中的前缀路径的总长度作为该项的负载,并进行降序排列,然后指定划分成的组数M,使得每一组内包括的各项的负载之和基本相等,从而实现频繁1项集FList的均衡划分和各计算节点之间的负载均衡策略,从而解决了各个计算节点间负载不均的情况,有更好的负载均衡能力和执行效率。
Claims (2)
1.一种基于MapReduce的FP-Growth的负载均衡并行计算方法,其特征是,所述负载均衡并行计算方法包括如下步骤:
步骤1、输入所需的数据库事务集D以及最小支持度计数,并将所述数据库事务集D分成连续不同的分区,且数据库事务集D的子事务集存储在多台节点上;
步骤2、第一次扫描数据库事务集D,并行计算每台节点上的项的支持度计数,且将所有节点计算的项的支持度技术合并,以得到全部频繁1项集FList;
步骤3、将频繁1项集FList的项根据负载均衡的方法划分成M组,以得到长度为M的新列表GList,新列表GList中每一组的组号为gidi(1≤i≤M);
步骤4、第二次扫描数据库事务集D,根据新列表GList将数据库事务集D也划分为M组,划分得到数据库事务集D的组号与新列表GList内的组号相对应,若一条事务包含GListgidi中的项,则将该条事务对应的部分发送到组号为gidi的事务组DB;在数据库事务集D划分结束后,对每一个事务组DB创建其本地FP-Tree,并根据本地FP-Tree挖掘对应的GListgidi,以得到频繁1项集中所有项的频繁模式;
步骤5、将每台节点上得到的频繁1项集中所有项的频繁模式聚合输出。
2.根据权利要求1所述的基于MapReduce的FP-Growth的负载均衡并行计算方法,其特征是,所述步骤3包括如下步骤:
步骤3.1、计算频繁1项集FList中每项的负载,按照负载降序排列,以得到排列表SList;
步骤3.2、根据指定的组数M,将排列表SList中的前M项初始化为新列表GList中的M组,且新列表GList中的每组与排列表SList中的每项呈一一对应;
步骤3.3、将排列表SList中未被分到新列表GList中组的第一项添加到新列表GList中负载最小的组内,并将添加的项的负载值进行累加,并更新新列表GList中组的负载;
步骤3.4、重复上述步骤3,直至排列表SList中的所有项都完成分组;
步骤3.5、将得到的新列表GList保存在HDFS文件中,以便多台节点共享。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510138318.0A CN104731925A (zh) | 2015-03-26 | 2015-03-26 | 基于MapReduce的FP-Growth的负载均衡并行计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510138318.0A CN104731925A (zh) | 2015-03-26 | 2015-03-26 | 基于MapReduce的FP-Growth的负载均衡并行计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104731925A true CN104731925A (zh) | 2015-06-24 |
Family
ID=53455812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510138318.0A Pending CN104731925A (zh) | 2015-03-26 | 2015-03-26 | 基于MapReduce的FP-Growth的负载均衡并行计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104731925A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183875A (zh) * | 2015-09-21 | 2015-12-23 | 南京邮电大学 | 基于共享路径的FP-Growth数据挖掘方法 |
CN106503218A (zh) * | 2016-10-27 | 2017-03-15 | 北京邮电大学 | 一种并行化工作流关联数据发现方法 |
CN106874479A (zh) * | 2017-02-19 | 2017-06-20 | 郑州云海信息技术有限公司 | 基于FPGA的FP‑Growth算法的改进方法及装置 |
CN107045512A (zh) * | 2016-02-05 | 2017-08-15 | 北京京东尚科信息技术有限公司 | 一种数据交换方法及*** |
CN108153589A (zh) * | 2016-12-06 | 2018-06-12 | 国际商业机器公司 | 用于多线程的处理布置中的数据处理的方法和*** |
CN110232079A (zh) * | 2019-05-08 | 2019-09-13 | 江苏理工学院 | 一种基于Hadoop的改进型FP-Growth数据挖掘方法 |
CN110990434A (zh) * | 2019-11-29 | 2020-04-10 | 国网四川省电力公司信息通信公司 | Spark平台分组和Fp-Growth关联规则挖掘方法 |
CN111107493A (zh) * | 2018-10-25 | 2020-05-05 | 中国电力科学研究院有限公司 | 一种移动用户位置预测方法与*** |
CN111309786A (zh) * | 2020-02-20 | 2020-06-19 | 江西理工大学 | 基于MapReduce的并行频繁项集挖掘方法 |
CN113672665A (zh) * | 2021-08-18 | 2021-11-19 | Oppo广东移动通信有限公司 | 数据处理方法、数据采集***、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127037A (zh) * | 2006-08-15 | 2008-02-20 | 临安微创网格信息工程有限公司 | 基于时序向量差异序列法聚类的周期关联规则发现算法 |
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
US20150019562A1 (en) * | 2011-04-26 | 2015-01-15 | Brian J. Bulkowski | Method and system of mapreduce implementations on indexed datasets in a distributed database environment |
-
2015
- 2015-03-26 CN CN201510138318.0A patent/CN104731925A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127037A (zh) * | 2006-08-15 | 2008-02-20 | 临安微创网格信息工程有限公司 | 基于时序向量差异序列法聚类的周期关联规则发现算法 |
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
US20150019562A1 (en) * | 2011-04-26 | 2015-01-15 | Brian J. Bulkowski | Method and system of mapreduce implementations on indexed datasets in a distributed database environment |
Non-Patent Citations (1)
Title |
---|
周诗慧: "基于Hadoop的改进的并行Fp-Growth算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183875A (zh) * | 2015-09-21 | 2015-12-23 | 南京邮电大学 | 基于共享路径的FP-Growth数据挖掘方法 |
CN107045512A (zh) * | 2016-02-05 | 2017-08-15 | 北京京东尚科信息技术有限公司 | 一种数据交换方法及*** |
CN106503218A (zh) * | 2016-10-27 | 2017-03-15 | 北京邮电大学 | 一种并行化工作流关联数据发现方法 |
US11036558B2 (en) | 2016-12-06 | 2021-06-15 | International Business Machines Corporation | Data processing |
CN108153589A (zh) * | 2016-12-06 | 2018-06-12 | 国际商业机器公司 | 用于多线程的处理布置中的数据处理的方法和*** |
CN108153589B (zh) * | 2016-12-06 | 2021-12-07 | 国际商业机器公司 | 用于多线程的处理布置中的数据处理的方法和*** |
CN106874479A (zh) * | 2017-02-19 | 2017-06-20 | 郑州云海信息技术有限公司 | 基于FPGA的FP‑Growth算法的改进方法及装置 |
CN111107493A (zh) * | 2018-10-25 | 2020-05-05 | 中国电力科学研究院有限公司 | 一种移动用户位置预测方法与*** |
CN111107493B (zh) * | 2018-10-25 | 2022-09-02 | 中国电力科学研究院有限公司 | 一种移动用户位置预测方法与*** |
CN110232079A (zh) * | 2019-05-08 | 2019-09-13 | 江苏理工学院 | 一种基于Hadoop的改进型FP-Growth数据挖掘方法 |
CN110990434A (zh) * | 2019-11-29 | 2020-04-10 | 国网四川省电力公司信息通信公司 | Spark平台分组和Fp-Growth关联规则挖掘方法 |
CN110990434B (zh) * | 2019-11-29 | 2023-04-18 | 国网四川省电力公司信息通信公司 | Spark平台分组和Fp-Growth关联规则挖掘方法 |
CN111309786A (zh) * | 2020-02-20 | 2020-06-19 | 江西理工大学 | 基于MapReduce的并行频繁项集挖掘方法 |
CN111309786B (zh) * | 2020-02-20 | 2023-09-15 | 韶关学院 | 基于MapReduce的并行频繁项集挖掘方法 |
CN113672665A (zh) * | 2021-08-18 | 2021-11-19 | Oppo广东移动通信有限公司 | 数据处理方法、数据采集***、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104731925A (zh) | 基于MapReduce的FP-Growth的负载均衡并行计算方法 | |
CN103020256B (zh) | 一种大规模数据的关联规则挖掘方法 | |
CN103258049A (zh) | 一种基于海量数据的关联规则挖掘方法 | |
CN102662639A (zh) | 一种基于Mapreduce的多GPU协同计算方法 | |
CN109408521A (zh) | 一种用于更新区块链全局数据状态的方法及其装置 | |
CN103729478A (zh) | 基于MapReduce的LBS兴趣点发现方法 | |
Liao et al. | MRPrePost—A parallel algorithm adapted for mining big data | |
CN103617162A (zh) | 一种对等云平台上构建希尔伯特r树索引的方法 | |
CN103678550A (zh) | 一种基于动态索引结构的海量数据实时查询方法 | |
CN104834709B (zh) | 一种基于负载均衡的并行余弦模式挖掘方法 | |
CN112015741A (zh) | 一种海量数据的分库分表存储方法与装置 | |
CN106815302A (zh) | 一种应用于游戏道具推荐的频繁项集挖掘方法 | |
CN105045806A (zh) | 一种面向分位数查询的概要数据动态***与维护方法 | |
CN104679966B (zh) | 基于多层次方法和离散粒子群的赋权超图优化划分方法 | |
CN104933143A (zh) | 获取推荐对象的方法及装置 | |
CN102207935A (zh) | 用于创建索引的方法和*** | |
CN101499097A (zh) | 基于散列表的数据流频繁模式内存压缩存储方法 | |
CN105138607B (zh) | 一种基于混合粒度分布式内存网格索引的knn查询方法 | |
CN110232079A (zh) | 一种基于Hadoop的改进型FP-Growth数据挖掘方法 | |
CN106874479A (zh) | 基于FPGA的FP‑Growth算法的改进方法及装置 | |
CN102043857A (zh) | 最近邻查询方法及*** | |
Al-Hamodi et al. | An enhanced frequent pattern growth based on MapReduce for mining association rules | |
CN103761298A (zh) | 一种基于分布式架构的实体匹配方法 | |
CN109254962A (zh) | 一种基于t-树的索引优化方法及装置 | |
CN103870342B (zh) | 云计算环境中的基于结点属性函数的任务核值计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150624 |