CN107341210B - Hadoop平台下的C-DBSCAN-K聚类算法 - Google Patents

Hadoop平台下的C-DBSCAN-K聚类算法 Download PDF

Info

Publication number
CN107341210B
CN107341210B CN201710495491.5A CN201710495491A CN107341210B CN 107341210 B CN107341210 B CN 107341210B CN 201710495491 A CN201710495491 A CN 201710495491A CN 107341210 B CN107341210 B CN 107341210B
Authority
CN
China
Prior art keywords
data
cluster
clusters
read
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710495491.5A
Other languages
English (en)
Other versions
CN107341210A (zh
Inventor
王彬
安涛
吕征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUNMNET TECHNOLOGY Co.,Ltd.
Original Assignee
Sunmnet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunmnet Technology Co ltd filed Critical Sunmnet Technology Co ltd
Priority to CN201710495491.5A priority Critical patent/CN107341210B/zh
Publication of CN107341210A publication Critical patent/CN107341210A/zh
Application granted granted Critical
Publication of CN107341210B publication Critical patent/CN107341210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Hadoop平台下的C‑DBSCAN‑K聚类算法,包括以下步骤:步骤1,建立能够相互通信的集群;步骤2,为集群建立Hadoop平台;步骤3,使用dfs–put命令将待聚类数据集A上传至HDFS;步骤4,执行Canopy聚类算法对A中的数据进行初始聚类,得到粗粒度的聚类结果;步骤5,在步骤4得到的聚类上构造k‑d树;步骤6,对步骤4得到的聚类执行DBSCAN算法,使用k‑d树查询每个聚类中数据对象的ε‑邻域,输出聚类结果;步骤7,将步骤6中具有相同数据的聚类进行合并,输出聚类结果。本发明的算法解决了现有技术中存在的DBSCAN聚类算法在大规模数据集上聚类效率低下的问题。

Description

Hadoop平台下的C-DBSCAN-K聚类算法
技术领域
本发明属于计算机数据挖掘技术领域,涉及一种Hadoop平台下的C-DBSCAN-K聚类算法。
背景技术
如今,互联网技术发展迅速,Internet深入人们的生活,现代社会已经进入一个信息化的时代,大量的数据信息星罗棋布。在面对海量的数据时,首要任务就是对其进行合理的归类,聚类分析就是这样一种方法。使用聚类,人们可以从包含大量对象的数据集中智能、自动地辨别出有价值的分类知识,获取数据的分布状态,观察不同簇彼此之间的差异,并在此基础上,对某些特定的簇集合做更深层次的分析。在商务智能、图像模式识别、Web搜索等领域,都广泛的使用了聚类分析技术。
然而,随着互联网时代的迅速发展和移动设备的广泛使用,数据信息成指数级的增长,传统的、单机上运行的聚类算法在效率上已经不能满足人们的需求。Hadoop分布式平台是处理大数据的利器,它为数据挖掘提供了条件,如何使用Hadoop进行数据挖掘,如何将传统的、单机上运行的算法结合MapReduce模型进行分布式设计,使其能够使用Hadoop分布式平台高效地处理海量的数据,具有很重要的意义。
发明内容
本发明的目的是提供一种Hadoop平台下的C-DBSCAN-K聚类算法,解决了现有技术中存在的DBSCAN聚类算法在大规模数据集上聚类效率低下的问题。
本发明所采用的技术方案是,Hadoop平台下的C-DBSCAN-K聚类算法,包括以下步骤:
步骤1,将多台计算机连接到同一局域网中,每台计算机作为一个节点,建立能够相互通信的集群;
步骤2,为集群建立Hadoop平台;
步骤3,使用Hadoop分布式文件命令dfs–put将待聚类数据集A上传至Hadoop分布式文件***;
步骤4,执行Canopy聚类算法对待聚类数据集A中的数据进行初始聚类,得到粗粒度的聚类结果;
步骤5,在步骤4得到的聚类上构造k-d树;
步骤6,对步骤4得到的聚类执行DBSCAN算法,查询过程中,使用步骤5构造的k-d树查询每个聚类中数据对象的ε-邻域,输出DBSCAN算法的聚类结果;
步骤7,将步骤6中具有相同数据的聚类进行合并,输出聚类结果。
步骤2具体为:
首先为集群中每一个节点安装redhat6.2操作***;然后为集群中每一个节点安装Hadoop2.2.0文件,并为集群中每一个节点安装jdk1.8.0_65文件;配置集群中每个节点上的redhat6.2***的.bashrc文件,使得redhat6.2***关联该节点上的Hadoop2.2.0文件和该节点上的jdk1.8.0_65文件;配置每个节点上Hadoop2.2.0文件中的hadoop-env.sh文件、mapred-env.sh文件、yarn-env.sh文件、slaves文件、core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件和yarn-site.xml文件。
步骤4的具体步骤为:
步骤4.1,确定中心点集合;
步骤4.2,根据中心点集合将待聚类数据集A中的数据进行聚类。
步骤4.1的具体步骤为:
步骤4.1.1,启动第一个Map任务,扫描并读入待聚类数据集A中的数据;
步骤4.1.2,初始化一个中心点集合KEY1,令KEY1为空;对每次读入的数据,如果KEY1为空,则将读入的数据添加到KEY1中;如果KEY1不为空,采用公式(1)计算读入的数据到KEY1中的中心点的距离dist1:
dist1=dist(di,dj)=|xi1-xj2|+|xi2-xj2|+…+|xip-xjp| (1)
其中,di为待聚类数据集A中的第i个数据,di=(xi1,xi2,…,xip),xi1,xi2,…,xip为di的p个数值属性,dj为KEY1中的第j个中心点,dj=(xj1,xj2,…,xjp),xj1,xj2,…,xjp为dj的p个数值属性,dist(di,dj)表示di到dj的曼哈顿距离;
步骤4.1.3,如果对于di,存在dj使得dist(di,dj)<T1,则将di添加到KEY1中,更新并输出KEY1;其中,T1是设定的初始距离阈值;
步骤4.1.4,启动第一个Reduce任务,读入第一个Map任务输出的KEY1中的数据;初始化一个中心点集合KEY2,令KEY2为空,对每次读入的数据,如果KEY2为空,则将读入的数据添加到KEY2中;如果KEY2不为空,使用公式(1)计算读入的数据到KEY2中的中心点的距离dist2,如果存在中心点使得dist2<T1,将本次读入的数据添加到KEY2中,更新并输出KEY2。
步骤4.2的具体步骤为:
步骤4.2.1,启动第二个Map任务,读入待聚类集A中的数据和第一个Reduce任务输出的KEY2中的数据;
步骤4.2.2,采用公式(1)计算待聚类集A中的数据到KEY2中的中心点的距离dist3;
步骤4.2.3,如果存在KEY2中的中心点使得dist3<T2,该中心点和与之距离小于T2的待聚类数据构成集合B,输出集合B;其中,T2是设定的初始距离阈值;
步骤4.2.4,启动第二个Reduce任务,读入第二个Map任务输出的若干个集合B,将具有相同中心点的集合B中不等于中心点的数据添加到同一个聚类中,输出聚类(key,list);其中,key表示一个中心点,list表示同一聚类中除key之外的所有数据。
步骤5具体为:启动第三个Map任务,读入第二个Reduce任务输出的聚类,每次读入一个聚类,在该聚类的数据上构造k-d树。
步骤7的具体步骤为:
步骤7.1,启动第四个Map任务,读入步骤6输出的聚类;
步骤7.2,初始化一个集合C,每次读入一个聚类并添加到集合C中;判断每次读入的聚类是否与集合C中的聚类有相同的数据,如果是,将与读入的聚类有相同数据的聚类从集合C中取出,并与读入的聚类进行合并,将合并后的聚类去掉重复数据后添加到集合C中;
步骤7.3,按步骤7.2处理完读入到第四个Map任务中的所有聚类后,输出集合C;
步骤7.4,启动第四个Reduce任务,读入步骤7.3输出的集合C中的聚类;初始化一个集合D,每次读入一个聚类并添加到集合D中,判断读入的聚类是否与集合D中的聚类有相同的数据,如果是,将与本次读入的聚类有相同数据的聚类从集合D中取出,并与本次读入的聚类进行合并,将合并后的聚类去掉重复数据后添加到集合D中;
步骤7.5,按步骤7.4处理完读入到第四个Reduce任务中的所有聚类后,输出集合D,即为聚类结果。
本发明的有益效果是,本发明Hadoop平台下的C-DBSCAN-K聚类算法,首先,使用Canopy聚类算法,快速的得到粗粒度的聚类结果;然后,在粗粒度的聚类结果上构造k-d树数据结构,并执行DBSCAN算法,使用k-d树查询对象的ε-邻域范围,加快了DBSCAN的运行速度;最后,合并具有相同对象的聚类,得到最终的聚类结果。Hadoop平台下的C-DBSCAN-K聚类算法在处理大数据集时快速有效,在保持聚类准确度不降低的情况下,显著的提高了DBSCAN算法的执行效率。
附图说明
图1是Hadoop平台下的C-DBSCAN-K聚类算法的流程图;
图2是Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法的聚类结果比较图;
图3是Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法的执行时间比较图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,Hadoop平台下的C-DBSCAN-K聚类算法,包括以下步骤:
步骤1,将多台计算机连接到同一局域网中,每台计算机作为一个节点,建立能够相互通信的集群;
步骤2,为集群建立Hadoop平台;
步骤2具体为:首先为集群中每一个节点安装redhat6.2操作***;然后为集群中每一个节点安装Hadoop2.2.0文件,并为集群中每一个节点安装jdk1.8.0_65文件;配置集群中每个节点上的redhat6.2***的.bashrc文件,使得redhat6.2***关联该节点上的Hadoop2.2.0文件和该节点上的jdk1.8.0_65文件;配置每个节点上Hadoop2.2.0文件中的hadoop-env.sh文件、mapred-env.sh文件、yarn-env.sh文件、slaves文件、core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件和yarn-site.xml文件。
步骤3,使用Hadoop分布式文件命令dfs–put将待聚类数据集A上传至Hadoop分布式文件***;
步骤4,执行Canopy聚类算法对待聚类数据集A中的数据进行初始聚类,得到粗粒度的聚类结果;
步骤4的具体步骤为:
步骤4.1,确定中心点集合;
步骤4.1的具体步骤为:
步骤4.1.1,启动第一个Map任务,扫描并读入待聚类数据集A中的数据;
步骤4.1.2,初始化一个中心点集合KEY1,令KEY1为空;对每次读入的数据,如果KEY1为空,则将读入的数据添加到KEY1中;如果KEY1不为空,采用公式(1)计算读入的数据到KEY1中的中心点的距离dist1:
dist1=dist(di,dj)=|xi1-xj2|+|xi2-xj2|+…+|xip-xjp| (1)
其中,di为待聚类数据集A中的第i个数据,di=(xi1,xi2,…,xip),xi1,xi2,…,xip为di的p个数值属性,dj为KEY1中的第j个中心点,dj=(xj1,xj2,…,xjp),xj1,xj2,…,xjp为dj的p个数值属性,dist(di,dj)表示di到dj的曼哈顿距离;
步骤4.1.3,如果对于di,存在dj使得dist(di,dj)<T1,则将di添加到KEY1中,更新并输出KEY1;其中,T1是设定的初始距离阈值;
步骤4.1.4,启动第一个Reduce任务,读入第一个Map任务输出的KEY1中的数据;初始化一个中心点集合KEY2,令KEY2为空,对每次读入的数据,如果KEY2为空,则将读入的数据添加到KEY2中;如果KEY2不为空,使用公式(1)计算读入的数据到KEY2中的中心点的距离dist2,如果存在中心点使得dist2<T1,将本次读入的数据添加到KEY2中,更新并输出KEY2。
步骤4.2,根据中心点集合KEY2将待聚类数据集A中的数据进行聚类。
步骤4.2的具体步骤为:
步骤4.2.1,启动第二个Map任务,读入待聚类集A中的数据和第一个Reduce任务输出的KEY2中的数据;
步骤4.2.2,采用公式(1)计算待聚类集A中的数据到KEY2中的中心点的距离dist3;
步骤4.2.3,如果存在KEY2中的中心点使得dist3<T2,该中心点和与之距离小于T2的待聚类数据构成集合B,输出集合B;其中,T2是设定的初始距离阈值;
步骤4.2.4,启动第二个Reduce任务,读入第二个Map任务输出的若干个集合B,将具有相同中心点的集合B中不等于中心点的数据添加到同一个聚类中,输出聚类(key,list);其中,key表示一个中心点,list表示同一聚类中除key之外的所有数据。
步骤5,在步骤4得到的聚类上构造k-d树;
步骤5具体为:启动第三个Map任务,读入第二个Reduce任务输出的聚类,每次读入一个聚类,在该聚类的数据上构造k-d树。
步骤6,对步骤4得到的聚类执行DBSCAN算法,查询过程中,使用步骤5构造的k-d树查询每个聚类中数据对象的ε-邻域,输出DBSCAN算法的聚类结果;
步骤7,将步骤6中具有相同数据的聚类进行合并,输出聚类结果。
步骤7的具体步骤为:
步骤7.1,启动第四个Map任务,读入步骤6输出的聚类;
步骤7.2,初始化一个集合C,每次读入一个聚类并添加到集合C中;判断读入的聚类是否与集合C中的聚类有相同的数据,如果是,将与本次读入的聚类有相同数据的聚类从集合C中取出,并与本次读入的聚类进行合并,将合并后的聚类去掉重复数据后添加到集合C中;
步骤7.3,按步骤7.2处理完读入到第四个Map任务中的所有聚类后,输出集合C;
步骤7.4,启动第四个Reduce任务,读入步骤7.3输出的集合C中的聚类;初始化一个集合D,每次读入一个聚类并添加到集合D中,判断每次读入的聚类是否与集合D中的聚类有相同的数据,如果是,将与读入的聚类有相同数据的聚类从集合D中取出,并与读入的聚类进行合并,将合并后的聚类去掉重复数据后添加到集合D中;
步骤7.5,按步骤7.4处理完读入到第四个Reduce任务中的所有聚类后,输出集合D,即为聚类结果。
以R语言包生成的四组模拟数据集:face数据集、spirals数据集、cassini数据集、hypercube数据集分别作为待聚类数据集为例,分别采用Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法对4个数据集中的数据进行聚类;图2(a)、图2(b)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在face数据集上的运行结果,图2(c)、图2(d)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在spirals数据集上的运行结果,图2(e)、图2(f)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在cassini数据集上的运行结果,图2(g)、图2(h)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在hypercube数据集上的运行结果;图2中的矩形框代表噪声点,其他不同灰度的形状代表不同的聚类,由图2可以得出:Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在各个数据集上生成的聚类是相同的,并且识别出的噪声点也是相同的,即两种算法的准确率相同。
如图3所示,Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法对对包含120k条数据的face数据集、包含150k条数据spirals数据集、包含180k条数据cassini数据集、包含200k条数据hypercube数据集进行聚类时,Hadoop平台下的C-DBSCAN-K聚类算法均比DBSCAN算法运行时间短,Hadoop平台下的C-DBSCAN-K聚类算法有更高的执行效率。
综上所述,本发明Hadoop平台下的C-DBSCAN-K聚类算法,首先,使用Canopy聚类算法,快速的得到粗粒度的聚类结果;然后,在粗粒度的聚类结果上构造k-d树数据结构,并执行DBSCAN算法,使用k-d树查询对象的ε-邻域范围,加快了DBSCAN的运行速度;最后,合并具有相同对象的聚类,得到最终的聚类结果。Hadoop平台下的C-DBSCAN-K聚类算法在处理大数据集时快速有效,在保持聚类准确度不降低的情况下,显著的提高了DBSCAN算法的执行效率。

Claims (4)

1.Hadoop平台下的C-DBSCAN-K聚类算法,其特征在于,包括以下步骤:
步骤1,将多台计算机连接到同一局域网中,每台计算机作为一个节点,建立能够相互通信的集群;
步骤2,为所述集群建立Hadoop平台;
步骤3,使用Hadoop分布式文件命令dfs–put将待聚类数据集A上传至Hadoop分布式文件***;
步骤4,执行Canopy聚类算法对所述待聚类数据集A中的数据进行初始聚类,得到粗粒度的聚类结果;
所述步骤4的具体步骤为:
步骤4.1,确定中心点集合;
步骤4.2,根据所述中心点集合将待聚类数据集A中的数据进行聚类;
所述步骤4.1的具体步骤为:
步骤4.1.1,启动第一个Map任务,扫描并读入所述待聚类数据集A中的数据;
步骤4.1.2,初始化一个中心点集合KEY1,令KEY1为空;对每次读入的数据,如果KEY1为空,则将读入的数据添加到KEY1中;如果KEY1不为空,采用公式(1)计算读入的数据到KEY1中的中心点的距离dist1:
dist1=dist(di,dj)=|xi1-xj2|+|xi2-xj2|+···+|xip-xjp| (1)
其中,di为待聚类数据集A中的第i个数据,di=(xi1,xi2,…,xip),xi1,xi2,…,xip为di的p个数值属性,dj为KEY1中的第j个中心点,dj=(xj1,xj2,…,xjp),xj1,xj2,…,xjp为dj的p个数值属性,dist(di,dj)表示di到dj的曼哈顿距离;
步骤4.1.3,如果对于di,存在dj使得dist(di,dj)<T1,则将di添加到KEY1中,更新并输出KEY1;其中,T1是设定的初始距离阈值;
步骤4.1.4,启动第一个Reduce任务,读入所述第一个Map任务输出的KEY1中的数据;初始化一个中心点集合KEY2,令KEY2为空,对每次读入的数据,如果KEY2为空,则将读入的数据添加到KEY2中;如果KEY2不为空,使用公式(1)计算读入的数据到KEY2中的中心点的距离dist2,如果存在中心点使得dist2<T1,将本次读入的数据添加到KEY2中,更新并输出KEY2;
所述步骤4.2的具体步骤为:
步骤4.2.1,启动第二个Map任务,读入所述待聚类集A中的数据和第一个Reduce任务输出的KEY2中的数据;
步骤4.2.2,采用所述公式(1)计算待聚类集A中的数据到KEY2中的中心点的距离dist3;
步骤4.2.3,如果存在KEY2中的中心点使得dist3<T2,该中心点和与之距离小于T2的待聚类数据构成集合B,输出集合B;其中,T2是设定的初始距离阈值;
步骤4.2.4,启动第二个Reduce任务,读入所述第二个Map任务输出的若干个集合B,将具有相同中心点的集合B中不等于中心点的数据添加到同一个聚类中,输出聚类(key,list);其中,key表示一个中心点,list表示同一聚类中除key之外的所有数据;
步骤5,在所述步骤4得到的聚类上构造k-d树;
步骤6,对所述步骤4得到的聚类执行DBSCAN算法,查询过程中,使用所述步骤5构造的k-d树查询每个聚类中数据对象的ε-邻域,输出DBSCAN算法的聚类结果;
步骤7,将所述步骤6中具有相同数据的聚类进行合并,输出聚类结果。
2.根据权利要求1所述的Hadoop平台下的C-DBSCAN-K聚类算法,其特征在于,所述步骤2具体为:
首先为集群中每一个节点安装redhat6.2操作***;然后为集群中每一个节点安装Hadoop2.2.0文件,并为集群中每一个节点安装jdk1.8.0_65文件;配置集群中每个节点上的所述redhat6.2***的.bashrc文件,使得redhat6.2***关联该节点上的Hadoop2.2.0文件和该节点上的jdk1.8.0_65文件;配置每个所述节点上Hadoop2.2.0文件中的hadoop-env.sh文件、mapred-env.sh文件、yarn-env.sh文件、slaves文件、core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件和yarn-site.xml文件。
3.根据权利要求1所述Hadoop平台下的C-DBSCAN-K聚类算法,其特征在于,所述步骤5具体为:
启动第三个Map任务,读入所述第二个Reduce任务输出的聚类,每次读入一个聚类,在该聚类的数据上构造k-d树。
4.根据权利要求3所述Hadoop平台下的C-DBSCAN-K聚类算法,其特征在于,所述步骤7的具体步骤为:
步骤7.1,启动第四个Map任务,读入所述步骤6输出的聚类;
步骤7.2,初始化一个集合C,每次读入一个聚类并添加到集合C中;判断读入的聚类是否与集合C中的聚类有相同的数据,如果是,将与本次读入的聚类有相同数据的聚类从集合C中取出,并与本次读入的聚类进行合并,将合并后的聚类去掉重复数据后添加到集合C中;
步骤7.3,按所述步骤7.2处理完读入到第四个Map任务中的所有聚类后,输出集合C;
步骤7.4,启动第四个Reduce任务,读入所述步骤7.3输出的集合C中的聚类;初始化一个集合D,每次读入一个聚类并添加到集合D中,判断每次读入的聚类是否与集合D中的聚类有相同的数据,如果是,将与读入的聚类有相同数据的聚类从集合D中取出,并与读入的聚类进行合并,将合并后的聚类去掉重复数据后添加到集合D中;
步骤7.5,按所述步骤7.4处理完读入到第四个Reduce任务中的所有聚类后,输出集合D,即为聚类结果。
CN201710495491.5A 2017-06-26 2017-06-26 Hadoop平台下的C-DBSCAN-K聚类算法 Active CN107341210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710495491.5A CN107341210B (zh) 2017-06-26 2017-06-26 Hadoop平台下的C-DBSCAN-K聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710495491.5A CN107341210B (zh) 2017-06-26 2017-06-26 Hadoop平台下的C-DBSCAN-K聚类算法

Publications (2)

Publication Number Publication Date
CN107341210A CN107341210A (zh) 2017-11-10
CN107341210B true CN107341210B (zh) 2020-07-31

Family

ID=60221100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710495491.5A Active CN107341210B (zh) 2017-06-26 2017-06-26 Hadoop平台下的C-DBSCAN-K聚类算法

Country Status (1)

Country Link
CN (1) CN107341210B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491507B (zh) * 2018-03-22 2022-03-11 北京交通大学 一种基于Hadoop分布式环境的不确定交通流数据并行持续查询方法
CN109656696B (zh) * 2018-12-03 2020-10-16 华南师范大学 一种数据api高效调用的处理方法
CN110334725A (zh) * 2019-04-22 2019-10-15 国家电网有限公司 雷电数据的雷暴聚类方法、装置、计算机设备和存储介质
CN110493221B (zh) * 2019-08-19 2020-04-28 四川大学 一种基于聚簇轮廓的网络异常检测方法
CN112579581B (zh) * 2020-11-30 2023-04-14 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517052A (zh) * 2014-12-09 2015-04-15 中国科学院深圳先进技术研究院 一种入侵检测方法及装置
CN106503086A (zh) * 2016-10-11 2017-03-15 成都云麒麟软件有限公司 分布式局部离群点的检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7298891B2 (en) * 2004-07-15 2007-11-20 Harris Corporation Bare earth digital elevation model extraction for three-dimensional registration from topographical points
US9239967B2 (en) * 2011-07-29 2016-01-19 Hewlett-Packard Development Company, L.P. Incremental image clustering
US8886649B2 (en) * 2012-03-19 2014-11-11 Microsoft Corporation Multi-center canopy clustering
US9286391B1 (en) * 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
CN103955685A (zh) * 2014-04-22 2014-07-30 西安理工大学 边缘跟踪数字识别方法
US9703856B2 (en) * 2014-07-07 2017-07-11 Sap Se Hilbert curve partitioning for parallelization of DBSCAN
CN104933156A (zh) * 2015-06-25 2015-09-23 西安理工大学 一种基于共享近邻聚类的协同过滤方法
CN105550368A (zh) * 2016-01-22 2016-05-04 浙江大学 一种高维数据的近似最近邻检索方法及检索***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517052A (zh) * 2014-12-09 2015-04-15 中国科学院深圳先进技术研究院 一种入侵检测方法及装置
CN106503086A (zh) * 2016-10-11 2017-03-15 成都云麒麟软件有限公司 分布式局部离群点的检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于云平台的聚类算法并行化研究;程堃;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20160623(第5期);I138-3117 *

Also Published As

Publication number Publication date
CN107341210A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107341210B (zh) Hadoop平台下的C-DBSCAN-K聚类算法
US11941016B2 (en) Using specified performance attributes to configure machine learning pipepline stages for an ETL job
Hua et al. Faster parallel core maintenance algorithms in dynamic graphs
Zhang et al. Panorama: a data system for unbounded vocabulary querying over video
Saeed et al. Big data clustering techniques based on spark: a literature review
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
CN106897374B (zh) 一种基于轨迹大数据最近邻查询的个性化推荐方法
US9754015B2 (en) Feature rich view of an entity subgraph
Banaei et al. Hadoop and its role in modern image processing
JP5673473B2 (ja) 分散計算機システム及び分散計算機システムの制御方法
US11809460B1 (en) Systems, methods, and graphical user interfaces for taxonomy-based classification of unlabeled structured datasets
Salloum et al. An asymptotic ensemble learning framework for big data analysis
Xiao et al. A survey of parallel clustering algorithms based on spark
CN106599122B (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
Abualigah et al. Advances in MapReduce big data processing: platform, tools, and algorithms
Brown et al. A distributed density-grid clustering algorithm for multi-dimensional data
CN110209895B (zh) 向量检索方法、装置和设备
Płaza et al. Analysis of parallel computational models for clustering
Merk et al. Distributed DBSCAN algorithm–Concept and experimental evaluation
Dass et al. Amelioration of Big Data analytics by employing Big Data tools and techniques
Agrawal et al. High performance big data clustering
Zoraghchian et al. Parallel frequent itemsets mining using distributed graphic processing units
Jia et al. An improved FP-growth algorithm based on SOM partition
Hashem et al. Pre-processing and modeling tools for bigdata

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200703

Address after: 510000 Room 302, building 2, No. 10-16, taihegang Road, Yuexiu District, Guangzhou City, Guangdong Province

Applicant after: SUNMNET TECHNOLOGY Co.,Ltd.

Address before: 710048 Shaanxi city of Xi'an Province Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: C-dbscan-k clustering algorithm based on Hadoop platform

Effective date of registration: 20210205

Granted publication date: 20200731

Pledgee: China Co. truction Bank Corp Guangzhou Liwan branch

Pledgor: SUNMNET TECHNOLOGY Co.,Ltd.

Registration number: Y2021980001059

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20230919

Granted publication date: 20200731