CN107908696A

CN107908696A - 一种并行高效的基于网格与密度的多维空间数据聚类算法griden

Info

Publication number: CN107908696A
Application number: CN201711063595.5A
Authority: CN
Inventors: 邓超; 陈智斌; 郭晓惠; 农英雄; 黄聪; 李喆; 韦屹; 汪倍贝; 钱方远
Original assignee: China Tobacco Guangxi Industrial Co Ltd
Current assignee: China Tobacco Guangxi Industrial Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-04-13

Abstract

本发明具体涉及一种并行高效的基于网格与密度的多维空间数据聚类算法GRIDEN，预设基于密度聚类参数：近邻距离ε、最小近邻数量Min_N、网格划分系数k；根据预设值及D维空间数据集P创建D维空间数据网格G；计算关于ε与k的近邻格子子集S；根据近邻格子子集S对D维空间数据网格G进行无监督的空间网格聚类；根据数据点所在D维格子的聚类结果对整个D维空间数据集P进行分类标注。通过本发明的技术方案，可对海量多维空间数据集进行基于密度的无监督聚类，并实现高效、快速的并行空间数据聚类计算。

Description

一种并行高效的基于网格与密度的多维空间数据聚类算法 GRIDEN

技术领域

本发明涉及数据挖掘和大数据分析领域，具体涉及一种并行高效的基于网格与密度的多维空间数据聚类算法GRIDEN。

背景技术

空间数据聚类被广泛的应用于许多信息技术领域，例如数据挖掘、模式识别、机器学习、人工智能、可视分析、地理信息***等。在大数据时代，它可用来探索与发现数据中潜在的模式及价值，可应用于许多学科领域，例如天文学、生物信息学、文献计量学、社会网络分析、经济网络分析、交通网络分析、气象分析、智慧城市发展等。传统的空间数据聚类方法主要有四种：1)、基于划分的聚类；2)、基于密度的聚类；3)、层次聚类；4)、基于网格的聚类。

基于密度的聚类方法可以有效的处理数据噪声点以及识别任意形状，其中，最经典的算法是DBSCAN(Density-Based Spatial Clustering of Applications withNoise)，计算精度高。但是，传统的DBSCAN算法的时间复杂度为O(N²)，随着数据样本数量的增长，所需计算时间呈指数级增加，使得DBSCAN的应用范围与场景受到限制。基于网格的聚类算法可以高效的进行数据聚类，其时间复杂度为O(N)，所需计算时间随着数据样本数量的增长呈线性增加，但是对比基于密度的聚类算法，其聚类精度存在缺陷。

因此，如何将基于密度的算法和基于网格的算法有机结合起来，使得新型的变异算法可以同时具备基于密度的算法的精度和基于网格的算法的速度是值得研究的。同时现有绝大部分空间数据聚类方法在相关文献中并未给出并行化设计技术方案，在大数据时代下，支持并行计算意味着计算时间可以通过增加计算核心数量成倍的压缩，因此设计一款能够支持并行计算的空间数据聚类算法是具有现实意义的。

发明内容

本发明要解决的是现有基于密度的空间数据聚类算法效率不够高，以及现有基于网格的空间数据聚类算法精度不够高的问题，设计了一款能够同时具备基于密度聚类算法的精度和基于网格聚类算法的速度的变异空间数据聚类算法，同时结合了并行计算的思想与方法，本方法具备可靠的计算精度和非常强悍的运算效率。

为了解决上述技术问题，本发明提供如下技术方案：

一种基于网格与密度的多维空间数据聚类算法GRIDEN，包括以下步骤：

步骤1，根据预设近邻距离参数ε、网格划分系数k及D维空间数据集P创建D维空间数据网格G，并将P中的数据点映射到G中；

步骤2，计算关于所述近邻距离参数ε与所述网格划分系数k的近邻格子子集S；

步骤3，根据预设最小近邻参数Min_N和所述近邻格子子集S对所述D维空间数据网格G进行无监督的空间网格聚类，并根据数据点所在D维格子的聚类结果对整个所述D维空间数据集P进行分类标注。

可选地，上述并行高效的基于网格与密度的多维空间数据聚类方法中，所述k为大于0的自然数，ε为大于0的任意数值；D为正整数。所述创建一个D维空间数据网格G的具体方法为：计算每个格子的边长并根据所述边长L对所述D维空间数据集P的每个维度的数值范围进行平均切分；所述空间数据网格G中的每个格子为各边相等的超方格子。所述将P中的数据点映射到G中的具体方法为：根据所述D维空间数据集P中每个点的D维信息将数据点映射到相应的格子，并进行数据点数量累加与记录。

可选地，上述基于网格与密度的多维空间数据聚类算法GRIDEN中，所述近邻格子子集S的计算方法具体包括以下步骤：

1)对于所述D维空间数据网格G中的任意格子C_i，其所述近邻格子子集S中的任意格子C_j的正中心与C_i的正中心之间的空间距离不超过ε；

2)C_i也是C_i自己的近邻格子；

3)所述近邻格子子集S存在且仅存在于格子子集S₁中，其中，S₁是以C_i为空间正中心的(2k+1)^D个格子的集合，且S₁中的任意格子C_j与C_i在任意维度的间距均不超过k。

可选地，上述基于网格与密度的多维空间数据聚类算法GRIDEN中，所述无监督的空间聚类的计算方法具体包括以下步骤：

1)生成核心格子：对于所述D维空间数据网格G中的任意数据点数非空的格子C_i，计算其所述近邻格子子集S中的数据点数的总和，如果总数大于所述最小近邻参数Min_N，则C_i为核心格子，给予C_i独立的类标；

2)核心格子聚类：对于所述D维空间数据网格G中的任意核心格子C_i，将C_i与其所述近邻格子子集S中的所有其他核心格子合并到一个类中；迭代遍历G中的所有核心格子，并重复上述过程，直到合并不再发生；

3)边界格子聚类：对于所述D维空间数据网格G中的任意核心格子C_i，将C_i与其所述近邻格子子集S中的所有非空且非核心格子合并到一个类中，并标记为边界格子；

4)空间数据聚类：根据数据点所在D维格子的类标对整个所述D维空间数据集P进行分类标注。

可选地，上述基于网格与密度的多维空间数据聚类算法GRIDEN中，整个计算过程不存在计算依赖关系，可以支持并行计算。

可选地，上述的基于网格与密度的多维空间数据聚类算法GRIDEN中，所述无监督空间聚类计算过程可以按照上述4个步骤依次进行，且单个步骤中不存在计算依赖关系，可以支持并行计算。

本发明还提供一种执行基于网格与密度的多维空间数据聚类算法GRIDEN的电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

根据预设近邻距离参数ε、网格划分系数k及D维空间数据集P创建D维空间数据网格G，并将P中的数据点映射到G中；

计算关于所述近邻距离参数ε与所述网格划分系数k的近邻格子子集S；

根据预设最小近邻参数Min_N和所述近邻格子子集S对所述D维空间数据网格G进行无监督的空间网格聚类，并根据数据点所在D维格子的聚类结果对整个所述D维空间数据集P进行分类标注。

本发明提供的上述技术方案，与现有技术相比，至少具有以下有益效果：

1.该聚类方法首先构建一种所有格子均为超方格子且所述边长的超方网格结构，其次利用一种所述近邻格子子集S来执行聚类计算，最后利用一种分布式并行化方法使得该算法可以支持并行计算。

2.该方法同时具备了基于密度聚类方法的准确性和基于网格聚类方法的高效性，并具备强大的并行计算能力，在能够保证聚类精度的情况下，极大的降低了现有基于密度的多维空间数据聚类方法的时间复杂度，使得该算法可广泛应用于海量多维空间数据聚类。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所述基于网格与密度的多维空间数据聚类算法GRIDEN的方法流程图。

图2为本发明一个实施例所述基于网格与密度的多维空间数据聚类算法GRIDEN详细方法流程图。

图3为本发明一个实施例所述基于网格与密度的多维空间数据聚类算法GRIDEN的二维实施例的关于所述近邻距离参数ε与所述网格划分系数k的所述近邻格子子集S的示意图；图中灰色格子为中央黑色格子的所述近邻格子。

图4为本发明一个实施例所述基于网格与密度的多维空间数据聚类算法GRIDEN的二维空间数据聚类示意图；假设图中k＝1且黑色格子为核心格子，则所有黑色格子和灰色格子将聚为同一个类。其中，灰色格子为边界格子。

图5为本发明一个实施例所述执行基于网格与密度的多维空间数据聚类算法GRIDEN的方法的电子设备的硬件结构连接示意图。

具体实施方式

实施例1

本实施例提供一种基于网格与密度的多维空间数据聚类算法GRIDEN，如图1所示，包括：

S1：根据预设近邻距离参数ε、网格划分系数k及D维空间数据集P创建D维空间数据网格G，并P中的数据点映射到G中。

S2：计算关于所述近邻距离参数ε与所述网格划分系数k的近邻格子子集S。

S3：根据最小近邻参数Min_N和所述近邻格子子集S对所述D维空间数据网格G进行无监督的空间网格聚类，并根据数据点所在D维格子的聚类结果对整个所述D维空间数据集P进行分类标注。

上述方案中，首先根据所述预设近邻距离参数ε、网格划分系数k及D维空间数据集P创建一种由超方格子构成的D维空间数据网格G，其次利用一种关于所述近邻距离参数ε与所述网格划分系数k的近邻格子子集S，最后根据最小近邻参数Min_N和所述近邻格子子集S对所述D维空间数据网格G进行无监督的空间网格聚类计算。对比传统的基于密度的空间数据聚类算法，该算法消除了聚类过程中点与点之间的距离计算，极大的降低了基于密度的空间数据聚类的计算复杂度；对比传统的基于网格的空间数据聚类算法，该算法通过空间距离计算获得近邻格子子集S，并通过近邻格子子集S来实施聚类计算，使得该算法的聚类精度得到大幅提升。用户可以所述预设网格划分系数k在聚类算法的精度与速度之间进行权衡，当k越大时，运算精度增加，同时运算效率降低。同时由于该算法完成支持并行计算，使得该算法可广泛应用于海量空间数据聚类以及其他领域学科应用。

实施例2

上述步骤S3中，可以采用四个顺序步骤，实现对所述无监督空间网格聚类过程的并行计算。本实施例中提供一种实现方式，包括：

具体地，如图2所示，包括如下步骤：

S31：根据预设最小近邻参数Min_N，对所述D维空间数据网格G中的任意数据点数非空的格子，并行计算其所述近邻格子子集S中的数据点数的总和，且将总数大于所述最小近邻参数Min_N的格子标记为核心格子，并给予独立的类标；

S32：迭代遍历并行计算所述D维空间数据网格G中的所有核心格子，将该核心格子与其所述近邻格子子集S中的所有其他核心格子合并到一个类中,如果迭代过程尚未结束则继续迭代计算，否则跳转到S33；

S33：遍历并行计算所述D维空间数据网格G中的任意核心格子，将之与其所述近邻格子子集S中的所有非空且非核心格子合并到一个类中，并将非核心格子标记为边界格；

S34：根据数据点所在D维格子的类标对整个所述D维空间数据集P进行分类标注。

实施例3

图5是本实施例提供的基于网格与密度的多维空间数据聚类算法GRIDEN的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器701以及存储器702，图5中以一个处理器701为例。

执行基于网格与密度的多维空间数据聚类算法GRIDEN的设备还可以包括：输入装置703和输出装置704。

处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图5以通过总线连接为例。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于网格与密度的多维空间数据聚类算法GRIDEN对应的程序指令/模块。处理器701通过运行存储在存储器702中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上市方法实施例的基于网格与密度的多维空间数据聚类算法GRIDEN。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可以存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据执行基于网格与密度的多维空间数据聚类算法GRIDEN的装置的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，开可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或者其他非易失性固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至执行基于网格与密度的多维空间数据聚类算法GRIDEN装置。上述网络的实施包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置703可接收输入的数字或字符信息，以及产生与执行基于网格与密度的多维空间数据聚类算法GRIDEN装置的用户设置以及功能控制有关的信号输入，输出装置704可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器702中，当被所述一个或者多个处理器701执行时，执行上述任意方法实施例中的基于网格与密度的多维空间数据聚类算法GRIDEN。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框，以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机或其他可编程数据处理设备的处理器执行的指令产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特点方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可以装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于网格与密度的多维空间数据聚类算法GRIDEN，其特征在于，包括以下步骤：

2.根据权利要求1所述基于网格与密度的多维空间数据聚类算法GRIDEN，其特征在于，步骤一中，所述创建一个D维空间数据网格G，具体包括：

k为大于0的自然数；

ε为大于0的任意数值；

D为正整数；

计算每个格子的边长并根据所述边长L对所述D维空间数据集P的每个维度的数值范围进行平均切分；

所述空间数据网格G中的每个格子为各边相等的超方格子。

3.根据权利要求1所述基于网格与密度的多维空间数据聚类算法GRIDEN，其特征在于，步骤1中，所述将P中的数据点映射到G中，具体包括：根据所述D维空间数据集P中每个点的D维信息将数据点映射到相应的格子，并进行累加与记录。

4.根据权利要求1所述基于网格与密度的多维空间数据聚类算法GRIDEN，其特征在于，步骤2中，所述计算关于所述近邻距离参数ε与所述网格划分系数k的近邻格子子集S，具体包括：

对于所述D维空间数据网格G中的任意格子C_i，其所述近邻格子子集S中的任意格子C_j的正中心与C_i的正中心之间的空间距离不超过ε；

C_i也是C_i自己的近邻格子；

所述近邻格子子集S存在且仅存在于格子子集S₁中，其中，S₁是以C_i为空间正中心的(2k+1)^D个格子的集合，且S₁中的任意格子C_j与C_i在任意维度的间距均不超过k。

5.根据权利要求1所述基于网格与密度的多维空间数据聚类算法GRIDEN，，其特征在于，步骤3中，所述的无监督的空间聚类具体包括以下步骤：

3)格子聚类：对于所述D维空间数据网格G中的任意核心格子C_i，将C_i与其所述近邻格子子集S中的所有非空且非核心格子合并到一个类中，并标记为边界格子。

6.根据权利要求1-3任一所述的基于网格与密度的多维空间数据聚类算法GRIDEN，其特征在于，整个计算过程不存在计算依赖关系，可以支持并行计算。

7.根据权利要求1或4所述的基于网格与密度的多维空间数据聚类算法GRIDEN，其特征在于，所述的无监督空间聚类计算过程需要按照4个步骤依次进行，但单个步骤中不存在计算依赖关系，可以支持并行计算。

8.一种执行基于网格与密度的多维空间数据聚类算法GRIDEN的电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：