CN102737126B - 云计算环境下的分类规则挖掘方法 - Google Patents

云计算环境下的分类规则挖掘方法 Download PDF

Info

Publication number
CN102737126B
CN102737126B CN201210203816.5A CN201210203816A CN102737126B CN 102737126 B CN102737126 B CN 102737126B CN 201210203816 A CN201210203816 A CN 201210203816A CN 102737126 B CN102737126 B CN 102737126B
Authority
CN
China
Prior art keywords
key
value
control center
cloud computing
computing environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210203816.5A
Other languages
English (en)
Other versions
CN102737126A (zh
Inventor
杨善林
丁静
罗贺
丁帅
徐达宇
范雯娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201210203816.5A priority Critical patent/CN102737126B/zh
Publication of CN102737126A publication Critical patent/CN102737126A/zh
Application granted granted Critical
Publication of CN102737126B publication Critical patent/CN102737126B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云计算环境下的分类规则挖掘方法,其特征在于:采用由一个控制中心和多个从属服务器构成的主从式组织结构,首先由控制中心将待分类数据集划分为训练样本和测试样本,并将训练样本均匀划分为相同大小的各数据块分配到各处理单元上;然后由处理单元采用遗传算法训练数据块,得到分类的原子规则;最后由分类器约简原子规则,并选择满足分类精度要求的约简结果作为分类规则挖掘的最终结果。本发明适用于云计算环境下分布式数据存储上的数据分类,可进行云计算环境下数据分类任务的分布式并行处理,对云计算环境下海量数据的分类处理问题起到了积极的效果。

Description

云计算环境下的分类规则挖掘方法
技术领域
本发明属于云计算环境下数据分析技术领域,具体涉及一种云计算环境下的分类规则挖掘方法。
背景技术
分类技术研究是云计算环境下数据分析与管理的重要研究领域。一方面,分类是数据挖掘重要的任务类型,云计算环境下的数据具有海量性、分布性和动态性等特征,这些特征给云计算环境下的数据管理带来了挑战,通过分类规则挖掘对这些数据进行分析,有助于提高云计算环境下海量数据分析与管理的效率。另一方面,云环境具有超大规模的存储和计算能力,资源和结构具有动态伸缩性,并且通过虚拟化技术和庞大的资源池按需提供服务,使得高效的数据分类成为可能。分类规则挖掘是数据分析管理中的重要任务,有助于更好地理解云计算环境下的海量数据,辅助云计算环境下的运营决策;同时,云计算高性能的计算和存储能力,为分类规则挖掘提供了高效运行的保障。因此,分类规则挖掘是云计算环境下的数据分析处理的重要技术,其理论和应用的研究具有重要意义。
在分类规则挖掘技术的研究中,国内外学者提出了诸多解决方案,包括以贝叶斯法为代表的统计学方法、以决策树法和规则归纳法为代表的及其学习方法,以及神经网络方法等,这些方法应用于小规模静态数据集的分类规则挖掘时,具有较高的分类精度。然而这些方法仍存在瓶颈问题,包括需要对数据集进行多次的扫描和排序,导致算法的低效;对噪声和确实数据比较敏感,易出现过拟合;对于大训练集的可伸缩性不是很好等。特别在云计算环境下,分布式海量数据集的大规模性和动态性,导致数据分类过程搜索空间和维度的激增,增加了分类的计算复杂性,降低了传统分类方法的效率,因而现有的分类规则挖掘方法无法直接应用于云计算环境中。
发明内容
为了解决上述问题,本发明克服现有技术的局限性,提供一种云计算环境下的分类规则挖掘方法。本发明适用于云计算环境下分布式数据存储上的数据分类,可进行云计算环境下数据分类任务的分布式并行处理,对云计算环境下海量数据的分类处理问题起到了积极的效果。利用云计算环境下大规模计算节点的规模计算效应,有效提高云计算环境下海量数据分类规则挖掘的效率;并通过主从式的组织结构和基于遗传算法的规则训练过程,解决分类规则挖掘在云计算环境下的分布式实现。
本发明为解决技术问题采用如下技术方案:
本发明云计算环境下的分类规则挖掘方法的特点是:
所述云计算环境由多个分布式的服务器构成;在所述云计算环境下实施分类规则挖掘时,采取主从式组织结构,所述主从式组织结构为设置一台服务器为控制中心,其它服务器为从属服务器;由所述控制中心安排部署整个挖掘任务的执行、调度管理并协调各从属服务器的操作;所述各从属服务器是任务的具体执行单元,所述分类规则挖掘方法按如下步骤进行:
a、由控制中心将待分类的数据集划分为训练样本和测试样本,对所述训练样本进行均匀划分,得到相同大小的各数据块,为每个数据块指定一个执行分类挖掘任务的从属服务器作为处理单元,将所述各数据块分配到对应的各处理单元上;
b、由所述处理单元采用遗传算法对分配得到的数据块实施用于分类的原子规则的训练,将训练得到的原子规则存入缓冲区;
c、由所述控制中心对缓冲区内的原子规则进行划分,选择闲置的从属服务器作为分类器,安排分类器进行原子规则的冗余约简,并检测约简结果的分类精度,筛选出满足分类精度要求的约简结果,作为分类规则挖掘的最终结果。
本发明云计算环境下的分类规则挖掘方法的特点也在于:
所述步骤a的执行过程是:
控制中心在接到分类挖掘任务的请求后,将待分类的数据集划分为训练样本和测试样本,根据用户所提出分类挖掘任务的要求以及训练样本的特征,搜索合适的从属服务器作为处理单元,并将训练样本均匀划分成大小相同的数据块;设满足条件的处理单元数量为N,训练样本大小为M,则所划分的数据块大小为M/N;
所述合适的从属服务器满足的条件是:存储空间不小于M/N,响应时间不大于用户所要求的最晚时间;
控制中心访问所述训练样本,将划分所得的数据块复制到相应的处理单元上,并向处理单元传递利用遗传算法训练原子规则的操作指令。
所述步骤b中的原子规则的训练过程是:
处理单元对构成数据块的每一条数据记录进行遗传编码,通过遗传操作的循环迭代生成原子规则,将所述原子规则以<key,value>键值对的形式存入缓冲区,所述<key,value>键值对中的key为类标签,value为该类标签下的原子规则;
控制中心周期性地读取缓冲区中的<key,value>键值对,生成<key,value list>键值对列表存入缓冲区,所述<key,value list>键值对列表中的key为类标签,value list为该类标签下的原子规则列表;
处理单元完成对数据块中所有数据记录的操作之后,向控制中心发送处理单元操作完毕的消息。
所述步骤c按如下过程进行:
由控制中心搜索闲置的从属服务器作为分类器,分类器的个数为<key,value list>键值对列表中key值的个数,每个分类器对应一个key值;控制中心将<key,value list>键值对列表中的原子规则列表和测试样本中具有相同类标签的记录传送到的分类器中,并向分类器传递冗余约简和分类精度检测的操作指令;
分类器对同一类标签下的多个相同原子规则只记录一次,删除冗余的原子规则,得到约简后的原子规则;
分类器利用约简后的原子规则对测试样本进行分类,检测分类结果是否与测试样本的类标签相一致,假设被原子规则a分类的测试样本中,有Y条记录的类标签与分类结果相一致,有N条记录的类标签与分类结果不一致,则原子规则a的分类精度为Y/(Y+N);假定用户提出的分类挖掘任务要求中,分类精度要求为α,将所有分类精度不小于α的原子规则作为分类规则挖掘的最终结果传送给控制中心;
控制中心汇总所有分类器生成的最终结果,再将汇总结果反馈至分类规则挖掘任务的请求者。
与已有的数据分类方法相比,本发明的有益效果体现在:
1、本发明将海量数据的分类规则挖掘任务划分成多个子任务,分配到云计算环境中的大规模服务器集群上处理,降低单个任务的计算复杂度,利用云计算服务器集群的规模计算效应,显著提高整个分类规则挖掘任务的效率;
2、本发明中主从式组织结构,实现了云计算环境下任务的分配、调度与管理,为分类规则挖掘提供了分布式的实现机制;同时,规则训练采用的遗传算法本身具有良好的并行性,解决了常规分类技术在分布式环境中并行性差的问题。
附图说明
图1为本发明云计算环境下分类规则挖掘方法的原理图
图2为本发明中基于遗传操作循环迭代的原子规则生成的流程图
具体实施方式
在本实施例云计算环境下的分类规则挖掘方法中:
云计算环境由多个分布式的服务器构成;在云计算环境下实施分类规则挖掘时,采取主从式组织结构,主从式组织结构为设置一台服务器为控制中心,其它服务器为从属服务器;由控制中心安排部署整个挖掘任务的执行、调度管理并协调各从属服务器的操作;各从属服务器是任务的具体执行单元。分类规则挖掘方法如图1所示,按如下步骤进行:
1、由控制中心将待分类的数据集划分为训练样本和测试样本,对训练样本进行均匀划分,得到相同大小的各数据块,为每个数据块指定一个执行分类挖掘任务的从属服务器作为处理单元,将各数据块分配到对应的各处理单元上;
2、由处理单元采用遗传算法对分配得到的数据块实施用于分类的原子规则的训练,将训练得到的原子规则存入缓冲区;
3、由控制中心对缓冲区内的原子规则进行划分,选择闲置的从属服务器作为分类器,安排分类器进行原子规则的冗余约简,并检测约简结果的分类精度,筛选出满足分类精度要求的约简结果,作为分类规则挖掘的最终结果。
假设数据集由关系模式R(a1,a2,…,ak)表示,其中ai(i=1,2,…,k)为属性。将属性组<a1,a2,…,ak>分为两部分,包括k-1个条件属性与1个类标签,属性a1,a2,…,ak-1为条件属性,属性ak为类标签。数据集中的每一条数据记录均为一个k维向量[c1,c2,…,ck],ci为该数据记录中属性ai的取值。
原子规则的表现形式为:If(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1),Then ak=ck
步骤1的执行过程是:
控制中心在接到分类挖掘任务的请求后,将待分类的数据集划分为训练样本和测试样本,根据用户所提出分类挖掘任务的要求以及训练样本的特征,搜索合适的从属服务器作为处理单元,并将训练样本均匀划分成大小相同的数据块;设满足条件的处理单元数量为N,训练样本大小为M,则所划分的数据块大小为M/N;
合适的从属服务器需满足如下条件:存储空间不小于M/N,响应时间不大于用户所要求的最晚时间。
控制中心访问训练样本,将划分所得的数据块复制到相应的处理单元上,并向处理单元传递利用遗传算法训练原子规则的操作指令。
步骤2中原子规则的训练过程是:
处理单元对构成数据块的每一条数据记录进行遗传编码,通过遗传操作的循环迭代生成原子规则,将原子规则以<key,value>键值对的形式存入缓冲区,<key,value>键值对中的key为类标签,value为该类标签下的原子规则;
数据记录的遗传编码过程为:每条数据记录表示为一条染色体,染色体基因值由k个属性值的二进制码值构成。若属性值为离散值,可直接进行二进制编码;若属性值为连续值,则要对连续属性值进行离散化后,再进行二进制编码。二进制编码过程为:设属性ai有s个离散属性值v1,v2,…,vs,则用含s个码位的二进制数表示属性ai的值。若ai的值为vj,则该属性值二进制码的第j位值为1,其余码位的值位为0。例如,性别属性有“男”、“女”两个值,若属性值为“男”,则该属性的二进制编码为“0 1”;若属性值为“女”,编码为“1 0”。遗传算法中,每条染色体为一个遗传个体,所有的遗传个体构成一个种群,种群规模用遗传个体的数量n表示,由遗传编码过程得到的种群为初始种群,一个二进制码位对应染色体的一个基因位。
遗传操作的循环迭代过程如图2所示:第t次迭代中,首先评价第t代种群P(t)的适应度,之后判断是否停止迭代,若满足迭代停止条件,则停止迭代,将P(t)输出作为原子规则;若不满足迭代停止条件,则进行选择、交叉和变异操作,生成第t+1代种群P(t+1),令t=t+1,实施下一次迭代。
迭代停止条件为以下两个条件的任意一个:
①迭代次数t>100;
②适应度fitness>0.75。
适应度评价为:设某一遗传个体对应的数据记录为[c1,c2,…,ck],该遗传个体的适应度为fitness=TT/n+TT/(TT+TF),其中TT为数据块中满足“(a1=c1)∧(a2=c2)∧…∧(ak=ck)”的数据记录条数,TF为数据快中满足“(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1)∧(ak≠ck)”的数据记录条数,FT为数据块中满足“┐[(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1)]∧(ak=ck)”的数据记录条数,FF为数据块中满足“┐[(a1=c1)∧(a2=c2)∧…∧(ak-1=ck-1)]∧(ak≠ck)”的数据记录条数。
选择操作为:遗传个体Xi的选择概率
Figure BDA00001786606100051
复制pi×n个Xi的副本作为下一次遗传操作种群中的个体,fitnexss(Xi)为Xi的适应度值。
交叉操作为:按照交叉概率pc随机选择两个遗传个体Xi和Xj,随机选择染色体上的一个基因位w,将Xi和Xj上基因位w后面的基因段交换形成两个新的个体,作为下一次遗传操作种群中的个体。其中,交叉概率pc为[0.4,0.9]之间的数值,也可采用自适应的交叉概率。
变异操作为:按照变异概率pm随机选择一个遗传个体Xi,随机选择Xi上一个基因位,对该基因位上的二进制码进行取反。其中,变异概率pm为[0.01,0.1]之间的数值,也可采用自适应的变异概率。
控制中心周期性地读取缓冲区中的<key,value>键值对,生成<key,value list>键值对列表存入缓冲区,<key,value list>键值对列表中的key为类标签,value list为该类标签下的原子规则列表;
处理单元完成对数据块中所有数据记录的操作之后,向控制中心发送处理单元操作完毕的消息。
步骤3按如下过程进行:
由控制中心搜索闲置的从属服务器作为分类器,分类器的个数为<key,value list>键值对列表中key值的个数,每个分类器对应一个key值;控制中心将<key,value list>键值对列表中的原子规则列表和测试样本中具有相同类标签的记录传送到的分类器中,并向分类器传递冗余约简和分类精度检测的操作指令;
分类器对同一类标签下的多个相同原子规则只记录一次,删除冗余的原子规则,得到约简后的原子规则;
分类器利用约简后的原子规则对测试样本进行分类,检测分类结果是否与测试样本的类标签相一致,假设被原子规则a分类的测试样本中,有Y条记录的类标签与分类结果相一致,有N条记录的类标签与分类结果不一致,则原子规则a的分类精度为Y/(Y+N)。用户提出的分类挖掘任务要求中,分类精度要求为α,将所有分类精度不小于α的原子规则作为分类规则挖掘的最终结果,传送给控制中心;
控制中心汇总所有分类器生成的最终结果,再将汇总结果反馈至分类规则挖掘任务的请求者。

Claims (3)

1.一种云计算环境下的分类规则挖掘方法,其特征在于: 
所述云计算环境由多个分布式的服务器构成;在所述云计算环境下实施分类规则挖掘时,采取主从式组织结构,所述主从式组织结构为设置一台服务器为控制中心,其它服务器为从属服务器;由所述控制中心安排部署整个挖掘任务的执行、调度管理并协调各从属服务器的操作;所述各从属服务器是任务的具体执行单元,所述分类规则挖掘方法按如下步骤进行: 
a、由控制中心将待分类的数据集划分为训练样本和测试样本,对所述训练样本进行均匀划分,得到相同大小的各数据块,为每个数据块指定一个执行分类挖掘任务的从属服务器作为处理单元,将所述各数据块分配到对应的各处理单元上; 
b、由所述处理单元采用遗传算法对分配得到的数据块实施用于分类的原子规则的训练,将训练得到的原子规则存入缓冲区;所述原子规则的训练过程是: 
处理单元对构成数据块的每一条数据记录进行遗传编码,通过遗传操作的循环迭代生成原子规则,将所述原子规则以<key,value>键值对的形式存入缓冲区,所述<key,value>键值对中的key为类标签,value为该类标签下的原子规则; 
控制中心周期性地读取缓冲区中的<key,value>键值对,生成<key,value list>键值对列表存入缓冲区,所述<key,value list>键值对列表中的key为类标签,value list为该类标签下的原子规则列表; 
处理单元完成对数据块中所有数据记录的操作之后,向控制中心发送处理单元操作完毕的消息; 
c、由所述控制中心对缓冲区内的原子规则进行划分,选择闲置的从属服务器作为分类器,安排分类器进行原子规则的冗余约简,并检测约简结果的分类精度,筛选出满足分类精度要求的约简结果,作为分类规则挖掘的最终结果。
2.根据权利要求书1所述的云计算环境下的分类规则挖掘方法,其特征在于,所述步骤a的执行过程是: 
控制中心在接到分类挖掘任务的请求后,将待分类的数据集划分为训练样本和测试样本,根据用户所提出分类挖掘任务的要求以及训练样本的特征,搜索合适的从属服务器作为处理单元,并将训练样本均匀划分成大小相同的数据块;设满足条件的处理单元数量为N,训练样本大小为M,则所划分的数据块大小为M/N; 
所述合适的从属服务器满足的条件是:存储空间不小于M/N,响应时间不大于用户所要求的最晚时间; 
控制中心访问所述训练样本,将划分所得的数据块复制到相应的处理单元上,并向处理单元传递利用遗传算法训练原子规则的操作指令。 
3.根据权利要求书1所述的云计算环境下的分类规则挖掘方法,其特征在于,所述步骤c按如下过程进行: 
由控制中心搜索闲置的从属服务器作为分类器,分类器的个数为<key,value list>键值对列表中key值的个数,每个分类器对应一个key值;控制中心将<key,value list>键值对列表中的原子规则列表和测试样本中具有相同类标签的记录传送到分类器中,并向分类器传递冗余约简和分类精度检测的操作指令; 
分类器对同一类标签下的多个相同原子规则只记录一次,删除冗余的原子规则,得到约简后的原子规则; 
分类器利用约简后的原子规则对测试样本进行分类,检测分类结果是否与测试样本的类标签相一致,假设被原子规则a分类的测试样本中,有Y条记录的类标签与分类结果相一致,有N条记录的类标签与分类结果不一致,则原子规则a的分类精度为Y/(Y+N);假定用户提出的分类挖掘任务要求中,分类精度要求为α,将所有分类精度不小于α的原子规则作为分类规则挖掘的最终结果传送给控制中心; 
控制中心汇总所有分类器生成的最终结果,再将汇总结果反馈至分类规则挖掘任务的请求者。 
CN201210203816.5A 2012-06-19 2012-06-19 云计算环境下的分类规则挖掘方法 Expired - Fee Related CN102737126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210203816.5A CN102737126B (zh) 2012-06-19 2012-06-19 云计算环境下的分类规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210203816.5A CN102737126B (zh) 2012-06-19 2012-06-19 云计算环境下的分类规则挖掘方法

Publications (2)

Publication Number Publication Date
CN102737126A CN102737126A (zh) 2012-10-17
CN102737126B true CN102737126B (zh) 2014-03-12

Family

ID=46992627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210203816.5A Expired - Fee Related CN102737126B (zh) 2012-06-19 2012-06-19 云计算环境下的分类规则挖掘方法

Country Status (1)

Country Link
CN (1) CN102737126B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113516A (zh) * 2013-04-19 2014-10-22 ***通信集团设计院有限公司 一种识别防火墙的规则冲突的方法和终端
WO2015196476A1 (zh) * 2014-06-27 2015-12-30 华为技术有限公司 一种数据处理方法和计算机***
CN105900064B (zh) * 2014-11-19 2019-05-03 华为技术有限公司 调度数据流任务的方法和装置
CN104468239B (zh) * 2014-12-22 2018-08-21 上海大唐移动通信设备有限公司 一种基于规则的数据处理方法及装置
US10430429B2 (en) 2015-09-01 2019-10-01 Cognizant Technology Solutions U.S. Corporation Data mining management server
CN107153630B (zh) * 2016-03-04 2020-11-06 阿里巴巴集团控股有限公司 一种机器学习***的训练方法和训练***
CN105912674A (zh) * 2016-04-13 2016-08-31 精硕世纪科技(北京)有限公司 数据降噪及分类方法、装置及***
CN105975331A (zh) * 2016-04-26 2016-09-28 浪潮(北京)电子信息产业有限公司 一种数据并行处理方法及装置
CN106372185B (zh) * 2016-08-31 2017-07-04 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN107169513B (zh) * 2017-05-05 2019-10-18 第四范式(北京)技术有限公司 控制数据使用顺序的分布式机器学习***及其方法
CN107590263B (zh) * 2017-09-22 2020-07-07 辽宁工程技术大学 一种基于多变量决策树模型的分布式大数据分类方法
CN108763952B (zh) * 2018-05-03 2022-04-05 创新先进技术有限公司 一种数据分类方法、装置及电子设备
CN110109753A (zh) * 2019-04-25 2019-08-09 成都信息工程大学 基于多维度约束遗传算法的资源调度方法及***
TWI739229B (zh) 2019-12-03 2021-09-11 財團法人工業技術研究院 快篩派工法則方法和裝置
CN111814882B (zh) * 2020-07-10 2021-06-22 辽东学院 一种基于计算机大数据的数据分类***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282106C (zh) * 2004-11-29 2006-10-25 南京大学 快速学习分类方法
WO2009062090A1 (en) * 2007-11-08 2009-05-14 Genetic Finance Holdings Limited Distributed network for performing complex algorithms
CN101556650B (zh) * 2009-04-01 2011-07-06 东北大学 一种分布式自适应肺结节计算机检测方法及***
US9275048B2 (en) * 2009-09-09 2016-03-01 Tapicu, Inc. System and methods for solving information retrieval problem sets
CN102143022B (zh) * 2011-03-16 2013-09-25 北京邮电大学 用于ip网络的云测量装置和测量方法

Also Published As

Publication number Publication date
CN102737126A (zh) 2012-10-17

Similar Documents

Publication Publication Date Title
CN102737126B (zh) 云计算环境下的分类规则挖掘方法
Bifet et al. Extremely fast decision tree mining for evolving data streams
Xiao et al. SMK-means: an improved mini batch k-means algorithm based on mapreduce with big data
Luo et al. A parallel dbscan algorithm based on spark
Jia et al. A grid and density-based clustering algorithm for processing data stream
Du et al. Parallel processing of improved KNN text classification algorithm based on Hadoop
Lin et al. A K-means clustering with optimized initial center based on Hadoop platform
Elagib et al. Big data analysis solutions using MapReduce framework
Zhang et al. Multi-source big data dynamic compressive sensing and optimization method for water resources based on IoT
Xu Research and implementation of improved random forest algorithm based on Spark
Li et al. Scalable random forests for massive data
Gong et al. Evolutionary computation in China: A literature survey
Al_Zyadat et al. Securitizing big data characteristics used tall array and mapreduce
Saxena et al. A framework for multi-sensor data fusion in the context of IoT smart city parking data
Bu et al. Incomplete big data clustering algorithm using feature selection and partial distance
Wang et al. Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm
Guo et al. Stream classification algorithm based on decision tree
Xu et al. Applying an improved elephant herding optimization algorithm with spark-based parallelization to feature selection for intrusion detection
Zhu et al. Efficient Gaussian Kernel Microcluster Real-Time Clustering Method for Industrial Internet of Things (IIoT) Streams
Sun et al. Key nodes discovery in large-scale logistics network based on MapReduce
Gao et al. Dynamic community detection using nonnegative matrix factorization
Jia et al. An improved FP-growth algorithm based on SOM partition
Wang et al. Sknn algorithm for filling missing oil data based on knn
Xu et al. Explore maximal frequent itemsets for big data pre-processing based on small sample in cloud computing
Song et al. HTME: A data streams processing strategy based on Hoeffding tree in MapReduce environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140312

Termination date: 20210619

CF01 Termination of patent right due to non-payment of annual fee