CN107341210B

CN107341210B - Hadoop平台下的C-DBSCAN-K聚类算法

Info

Publication number: CN107341210B
Application number: CN201710495491.5A
Authority: CN
Inventors: 王彬; 安涛; 吕征
Original assignee: Sunmnet Technology Co ltd
Current assignee: SUNMNET TECHNOLOGY Co.,Ltd.
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2020-07-31
Anticipated expiration: 2037-06-26
Also published as: CN107341210A

Abstract

Hadoop平台下的C‑DBSCAN‑K聚类算法，包括以下步骤：步骤1，建立能够相互通信的集群；步骤2，为集群建立Hadoop平台；步骤3，使用dfs–put命令将待聚类数据集A上传至HDFS；步骤4，执行Canopy聚类算法对A中的数据进行初始聚类，得到粗粒度的聚类结果；步骤5，在步骤4得到的聚类上构造k‑d树；步骤6，对步骤4得到的聚类执行DBSCAN算法，使用k‑d树查询每个聚类中数据对象的ε‑邻域，输出聚类结果；步骤7，将步骤6中具有相同数据的聚类进行合并，输出聚类结果。本发明的算法解决了现有技术中存在的DBSCAN聚类算法在大规模数据集上聚类效率低下的问题。

Description

Hadoop平台下的C-DBSCAN-K聚类算法

技术领域

本发明属于计算机数据挖掘技术领域，涉及一种Hadoop平台下的C-DBSCAN-K聚类算法。

背景技术

如今，互联网技术发展迅速，Internet深入人们的生活，现代社会已经进入一个信息化的时代，大量的数据信息星罗棋布。在面对海量的数据时，首要任务就是对其进行合理的归类，聚类分析就是这样一种方法。使用聚类，人们可以从包含大量对象的数据集中智能、自动地辨别出有价值的分类知识，获取数据的分布状态，观察不同簇彼此之间的差异，并在此基础上，对某些特定的簇集合做更深层次的分析。在商务智能、图像模式识别、Web搜索等领域，都广泛的使用了聚类分析技术。

然而，随着互联网时代的迅速发展和移动设备的广泛使用，数据信息成指数级的增长，传统的、单机上运行的聚类算法在效率上已经不能满足人们的需求。Hadoop分布式平台是处理大数据的利器，它为数据挖掘提供了条件，如何使用Hadoop进行数据挖掘，如何将传统的、单机上运行的算法结合MapReduce模型进行分布式设计，使其能够使用Hadoop分布式平台高效地处理海量的数据，具有很重要的意义。

发明内容

本发明的目的是提供一种Hadoop平台下的C-DBSCAN-K聚类算法，解决了现有技术中存在的DBSCAN聚类算法在大规模数据集上聚类效率低下的问题。

本发明所采用的技术方案是，Hadoop平台下的C-DBSCAN-K聚类算法，包括以下步骤：

步骤1，将多台计算机连接到同一局域网中，每台计算机作为一个节点，建立能够相互通信的集群；

步骤2，为集群建立Hadoop平台；

步骤3，使用Hadoop分布式文件命令dfs–put将待聚类数据集A上传至Hadoop分布式文件***；

步骤4，执行Canopy聚类算法对待聚类数据集A中的数据进行初始聚类，得到粗粒度的聚类结果；

步骤5，在步骤4得到的聚类上构造k-d树；

步骤6，对步骤4得到的聚类执行DBSCAN算法，查询过程中，使用步骤5构造的k-d树查询每个聚类中数据对象的ε-邻域，输出DBSCAN算法的聚类结果；

步骤7，将步骤6中具有相同数据的聚类进行合并，输出聚类结果。

步骤2具体为：

首先为集群中每一个节点安装redhat6.2操作***；然后为集群中每一个节点安装Hadoop2.2.0文件，并为集群中每一个节点安装jdk1.8.0_65文件；配置集群中每个节点上的redhat6.2***的.bashrc文件，使得redhat6.2***关联该节点上的Hadoop2.2.0文件和该节点上的jdk1.8.0_65文件；配置每个节点上Hadoop2.2.0文件中的hadoop-env.sh文件、mapred-env.sh文件、yarn-env.sh文件、slaves文件、core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件和yarn-site.xml文件。

步骤4的具体步骤为：

步骤4.1，确定中心点集合；

步骤4.2，根据中心点集合将待聚类数据集A中的数据进行聚类。

步骤4.1的具体步骤为：

步骤4.1.1，启动第一个Map任务，扫描并读入待聚类数据集A中的数据；

步骤4.1.2，初始化一个中心点集合KEY1，令KEY1为空；对每次读入的数据，如果KEY1为空，则将读入的数据添加到KEY1中；如果KEY1不为空，采用公式(1)计算读入的数据到KEY1中的中心点的距离dist1：

dist1＝dist(d_i,d_j)＝|x_i1-x_j2|+|x_i2-x_j2|+…+|x_ip-x_jp| (1)

其中，d_i为待聚类数据集A中的第i个数据，d_i＝(x_i1，x_i2，…，x_ip)，x_i1，x_i2，…，x_ip为d_i的p个数值属性，d_j为KEY1中的第j个中心点，d_j＝(x_j1，x_j2，…，x_jp)，x_j1，x_j2，…，x_jp为d_j的p个数值属性，dist(d_i，d_j)表示d_i到d_j的曼哈顿距离；

步骤4.1.3，如果对于d_i，存在d_j使得dist(d_i,d_j)<T1，则将d_i添加到KEY1中，更新并输出KEY1；其中，T1是设定的初始距离阈值；

步骤4.1.4，启动第一个Reduce任务，读入第一个Map任务输出的KEY1中的数据；初始化一个中心点集合KEY2，令KEY2为空，对每次读入的数据，如果KEY2为空，则将读入的数据添加到KEY2中；如果KEY2不为空，使用公式(1)计算读入的数据到KEY2中的中心点的距离dist2，如果存在中心点使得dist2<T1，将本次读入的数据添加到KEY2中，更新并输出KEY2。

步骤4.2的具体步骤为：

步骤4.2.1，启动第二个Map任务，读入待聚类集A中的数据和第一个Reduce任务输出的KEY2中的数据；

步骤4.2.2，采用公式(1)计算待聚类集A中的数据到KEY2中的中心点的距离dist3；

步骤4.2.3，如果存在KEY2中的中心点使得dist3<T2，该中心点和与之距离小于T2的待聚类数据构成集合B，输出集合B；其中，T2是设定的初始距离阈值；

步骤4.2.4，启动第二个Reduce任务，读入第二个Map任务输出的若干个集合B，将具有相同中心点的集合B中不等于中心点的数据添加到同一个聚类中，输出聚类(key，list)；其中，key表示一个中心点，list表示同一聚类中除key之外的所有数据。

步骤5具体为：启动第三个Map任务，读入第二个Reduce任务输出的聚类，每次读入一个聚类，在该聚类的数据上构造k-d树。

步骤7的具体步骤为：

步骤7.1，启动第四个Map任务，读入步骤6输出的聚类；

步骤7.2，初始化一个集合C，每次读入一个聚类并添加到集合C中；判断每次读入的聚类是否与集合C中的聚类有相同的数据，如果是，将与读入的聚类有相同数据的聚类从集合C中取出，并与读入的聚类进行合并，将合并后的聚类去掉重复数据后添加到集合C中；

步骤7.3，按步骤7.2处理完读入到第四个Map任务中的所有聚类后，输出集合C；

步骤7.4，启动第四个Reduce任务，读入步骤7.3输出的集合C中的聚类；初始化一个集合D，每次读入一个聚类并添加到集合D中，判断读入的聚类是否与集合D中的聚类有相同的数据，如果是，将与本次读入的聚类有相同数据的聚类从集合D中取出，并与本次读入的聚类进行合并，将合并后的聚类去掉重复数据后添加到集合D中；

步骤7.5，按步骤7.4处理完读入到第四个Reduce任务中的所有聚类后，输出集合D，即为聚类结果。

本发明的有益效果是，本发明Hadoop平台下的C-DBSCAN-K聚类算法，首先，使用Canopy聚类算法，快速的得到粗粒度的聚类结果；然后，在粗粒度的聚类结果上构造k-d树数据结构，并执行DBSCAN算法，使用k-d树查询对象的ε-邻域范围，加快了DBSCAN的运行速度；最后，合并具有相同对象的聚类，得到最终的聚类结果。Hadoop平台下的C-DBSCAN-K聚类算法在处理大数据集时快速有效，在保持聚类准确度不降低的情况下，显著的提高了DBSCAN算法的执行效率。

附图说明

图1是Hadoop平台下的C-DBSCAN-K聚类算法的流程图；

图2是Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法的聚类结果比较图；

图3是Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法的执行时间比较图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，Hadoop平台下的C-DBSCAN-K聚类算法，包括以下步骤：

步骤2，为集群建立Hadoop平台；

步骤2具体为：首先为集群中每一个节点安装redhat6.2操作***；然后为集群中每一个节点安装Hadoop2.2.0文件，并为集群中每一个节点安装jdk1.8.0_65文件；配置集群中每个节点上的redhat6.2***的.bashrc文件，使得redhat6.2***关联该节点上的Hadoop2.2.0文件和该节点上的jdk1.8.0_65文件；配置每个节点上Hadoop2.2.0文件中的hadoop-env.sh文件、mapred-env.sh文件、yarn-env.sh文件、slaves文件、core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件和yarn-site.xml文件。

步骤4的具体步骤为：

步骤4.1，确定中心点集合；

步骤4.1的具体步骤为：

dist1＝dist(d_i,d_j)＝|x_i1-x_j2|+|x_i2-x_j2|+…+|x_ip-x_jp| (1)

步骤4.2，根据中心点集合KEY2将待聚类数据集A中的数据进行聚类。

步骤4.2的具体步骤为：

步骤5，在步骤4得到的聚类上构造k-d树；

步骤7的具体步骤为：

步骤7.1，启动第四个Map任务，读入步骤6输出的聚类；

步骤7.2，初始化一个集合C，每次读入一个聚类并添加到集合C中；判断读入的聚类是否与集合C中的聚类有相同的数据，如果是，将与本次读入的聚类有相同数据的聚类从集合C中取出，并与本次读入的聚类进行合并，将合并后的聚类去掉重复数据后添加到集合C中；

步骤7.4，启动第四个Reduce任务，读入步骤7.3输出的集合C中的聚类；初始化一个集合D，每次读入一个聚类并添加到集合D中，判断每次读入的聚类是否与集合D中的聚类有相同的数据，如果是，将与读入的聚类有相同数据的聚类从集合D中取出，并与读入的聚类进行合并，将合并后的聚类去掉重复数据后添加到集合D中；

以R语言包生成的四组模拟数据集：face数据集、spirals数据集、cassini数据集、hypercube数据集分别作为待聚类数据集为例，分别采用Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法对4个数据集中的数据进行聚类；图2(a)、图2(b)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在face数据集上的运行结果，图2(c)、图2(d)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在spirals数据集上的运行结果，图2(e)、图2(f)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在cassini数据集上的运行结果，图2(g)、图2(h)为Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在hypercube数据集上的运行结果；图2中的矩形框代表噪声点，其他不同灰度的形状代表不同的聚类，由图2可以得出：Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法在各个数据集上生成的聚类是相同的，并且识别出的噪声点也是相同的，即两种算法的准确率相同。

如图3所示，Hadoop平台下的C-DBSCAN-K聚类算法与DBSCAN算法对对包含120k条数据的face数据集、包含150k条数据spirals数据集、包含180k条数据cassini数据集、包含200k条数据hypercube数据集进行聚类时，Hadoop平台下的C-DBSCAN-K聚类算法均比DBSCAN算法运行时间短，Hadoop平台下的C-DBSCAN-K聚类算法有更高的执行效率。

综上所述，本发明Hadoop平台下的C-DBSCAN-K聚类算法，首先，使用Canopy聚类算法，快速的得到粗粒度的聚类结果；然后，在粗粒度的聚类结果上构造k-d树数据结构，并执行DBSCAN算法，使用k-d树查询对象的ε-邻域范围，加快了DBSCAN的运行速度；最后，合并具有相同对象的聚类，得到最终的聚类结果。Hadoop平台下的C-DBSCAN-K聚类算法在处理大数据集时快速有效，在保持聚类准确度不降低的情况下，显著的提高了DBSCAN算法的执行效率。

Claims

1.Hadoop平台下的C-DBSCAN-K聚类算法，其特征在于，包括以下步骤：

步骤2，为所述集群建立Hadoop平台；

步骤4，执行Canopy聚类算法对所述待聚类数据集A中的数据进行初始聚类，得到粗粒度的聚类结果；

所述步骤4的具体步骤为：

步骤4.1，确定中心点集合；

步骤4.2，根据所述中心点集合将待聚类数据集A中的数据进行聚类；

所述步骤4.1的具体步骤为：

步骤4.1.1，启动第一个Map任务，扫描并读入所述待聚类数据集A中的数据；

dist1＝dist(d_i,d_j)＝|x_i1-x_j2|+|x_i2-x_j2|+···+|x_ip-x_jp| (1)

步骤4.1.4，启动第一个Reduce任务，读入所述第一个Map任务输出的KEY1中的数据；初始化一个中心点集合KEY2，令KEY2为空，对每次读入的数据，如果KEY2为空，则将读入的数据添加到KEY2中；如果KEY2不为空，使用公式(1)计算读入的数据到KEY2中的中心点的距离dist2，如果存在中心点使得dist2＜T1，将本次读入的数据添加到KEY2中，更新并输出KEY2；

所述步骤4.2的具体步骤为：

步骤4.2.1，启动第二个Map任务，读入所述待聚类集A中的数据和第一个Reduce任务输出的KEY2中的数据；

步骤4.2.2，采用所述公式(1)计算待聚类集A中的数据到KEY2中的中心点的距离dist3；

步骤4.2.3，如果存在KEY2中的中心点使得dist3＜T2，该中心点和与之距离小于T2的待聚类数据构成集合B，输出集合B；其中，T2是设定的初始距离阈值；

步骤4.2.4，启动第二个Reduce任务，读入所述第二个Map任务输出的若干个集合B，将具有相同中心点的集合B中不等于中心点的数据添加到同一个聚类中，输出聚类(key，list)；其中，key表示一个中心点，list表示同一聚类中除key之外的所有数据；

步骤5，在所述步骤4得到的聚类上构造k-d树；

步骤6，对所述步骤4得到的聚类执行DBSCAN算法，查询过程中，使用所述步骤5构造的k-d树查询每个聚类中数据对象的ε-邻域，输出DBSCAN算法的聚类结果；

步骤7，将所述步骤6中具有相同数据的聚类进行合并，输出聚类结果。

2.根据权利要求1所述的Hadoop平台下的C-DBSCAN-K聚类算法，其特征在于，所述步骤2具体为：

首先为集群中每一个节点安装redhat6.2操作***；然后为集群中每一个节点安装Hadoop2.2.0文件，并为集群中每一个节点安装jdk1.8.0_65文件；配置集群中每个节点上的所述redhat6.2***的.bashrc文件，使得redhat6.2***关联该节点上的Hadoop2.2.0文件和该节点上的jdk1.8.0_65文件；配置每个所述节点上Hadoop2.2.0文件中的hadoop-env.sh文件、mapred-env.sh文件、yarn-env.sh文件、slaves文件、core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件和yarn-site.xml文件。

3.根据权利要求1所述Hadoop平台下的C-DBSCAN-K聚类算法，其特征在于，所述步骤5具体为：

启动第三个Map任务，读入所述第二个Reduce任务输出的聚类，每次读入一个聚类，在该聚类的数据上构造k-d树。

4.根据权利要求3所述Hadoop平台下的C-DBSCAN-K聚类算法，其特征在于，所述步骤7的具体步骤为：

步骤7.1，启动第四个Map任务，读入所述步骤6输出的聚类；

步骤7.3，按所述步骤7.2处理完读入到第四个Map任务中的所有聚类后，输出集合C；

步骤7.4，启动第四个Reduce任务，读入所述步骤7.3输出的集合C中的聚类；初始化一个集合D，每次读入一个聚类并添加到集合D中，判断每次读入的聚类是否与集合D中的聚类有相同的数据，如果是，将与读入的聚类有相同数据的聚类从集合D中取出，并与读入的聚类进行合并，将合并后的聚类去掉重复数据后添加到集合D中；

步骤7.5，按所述步骤7.4处理完读入到第四个Reduce任务中的所有聚类后，输出集合D，即为聚类结果。