CN111708853A

CN111708853A - 特征化密度峰聚类的出租车热点区域提取方法

Info

Publication number: CN111708853A
Application number: CN202010449285.2A
Authority: CN
Inventors: 汪小寒; 罗永龙; 张泽培; 何增宇; 胡王悟
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-25
Anticipated expiration: 2040-05-25
Also published as: CN111708853B

Abstract

本发明公开了一种特征化密度峰聚类的出租车热点区域提取方法，方法具体包括如下步骤：S1、选取一定数量的特征点放入特征点集合中，计算特征点集合中每个特征点的支持度；S2、计算密度峰聚类过程中的聚类指标，即特征点的局部密度和聚类中心距离，基于将特征化过程中得到的支持度结合聚类指标构建三维决策图；S3、基于三维决策图来选取聚类中心、基本聚类点以及噪声点；S4、基于聚类中心对基本聚类点进行聚类，形成聚类簇，一个聚类簇对应出租车的一个热点区域。基于特征化原理采用三维决策图来准确定位聚类中心、基本聚类点以及噪声点，由于采用特征点以及支持度模拟原始数据，进而提高了聚类效率，同时解决二维决策图无法处理重合点的问题。

Description

特征化密度峰聚类的出租车热点区域提取方法

技术领域

本发明属于数据聚类技术领域，提供了一种特征化密度峰聚类的出租车热点区域提取方法。

背景技术

聚类作为无监督机器学习方法已广泛应用于模式识别，图像分割，文档聚类等许多领域，其中DBSCAN和密度峰聚类等在识别目标数据集的高密度区域中起着重要作用，因此可以用于位置数据中的城市热点区域挖掘。但是出租车GPS位置数据的数据量大且存在稀疏点，如何避免噪声影响以及高效挖掘城市热点区域已成为急需解决的问题。针对现有密度峰聚类方法在处理大规模数据时，需要计算每两个位置点的距离矩阵，计算量巨大造成聚类低效，并且传统方法决策图无法识别重合点导致聚类结果不准确的问题。

发明内容

本发明提供了一种特征化密度峰聚类的出租车热点区域提取方法，旨在解决上述问题。

本发明是这样实现的，一种特征化密度峰聚类的出租车热点区域提取方法，所述方法具体包括如下步骤：

S1、GPS数据特征化：选取一定数量的特征点放入特征点集合中，计算特征点集合中每个特征点的支持度；

S2、计算密度峰聚类过程中的聚类指标，即特征点的局部密度和聚类中心距离，基于将特征化过程中得到的支持度结合聚类指标构建三维决策图；

S3、基于三维决策图来选取聚类中心、基本聚类点以及噪声点；

S4、基于聚类中心对基本聚类点进行聚类，形成聚类簇，一个聚类簇对应出租车的一个热点区域。

进一步的，特征点的选取方法具体如下：

根据特征化规模参数α及采样点个数Ts确定特征点个数；

从采样点中随机确定第1个临时特征点，将距第1个临时特征点距离最远的采样点作为第2个临时特征点，将距第2个临时特征点距离最远的采样点作为第3个临时特征点，以此类推，直至临时特征点数量满足特征点个数；

将原始数据集中所有采样点添加到距离他们最近的临时特征点集合中，并计算每个临时特征点集合中的采样点中心，将采样点中心更新为新的临时特征点，并重新将原始数据采样点添加到新的临时点特征集合中，再次计算每个新临时点集合中的采样点中心，迭代上述步骤，直到两次计算的采样点中心不变，则将临时特征点作为特征点输出。

进一步的，特征点对应临时特征点集合中的采样点个数，即为该特征点的支持度。

进一步的，特征点的局部密度获取过程具体如下：

计算该特征点到其他特征点的欧式距离，若该欧式距离小于截断距离，则该特征点的特征点局部密度自加1，遍历所有其他特征点，即生成该特征点的特征点局部密度。

进一步的，特征点的聚类中心距离获取方法具体如下：

循环遍历特征点集合，找到特征点集合中局部密度最大的特征点，该点的聚类中心距离是：该点到离他距离最远的特征点的欧式距离，对于其他特征点，聚类中心距离取离该点最近的特征点的欧式距离。

进一步的，三维决策图中X轴是特征点局部密度，Y轴表示特征点聚类中心距离，Z轴是特征点支持度，则聚类中心、基本聚类点及噪音点的选择方法具体如下：

支持度、局部密度、聚类中心距离均较大的特征点即为聚类中心；

聚类中心距离较短、局部密度较高的特征点即为基本聚类点；

聚类中心距离较高、局部密度较低的特征点即为噪音点。

本发明提供的特征化密度峰聚类的出租车热点区域提取方法具有如下有益技术效果：

1)在原始数据集特征化阶段定义了位置特征点以及支持度概念，特征点选取可以简化输入数据且较准确地在聚类过程中代表原始数据，使得聚类过程更加高效；2)通过参数来灵活的调整特征点个数使得本发明提出的聚类方法可应用于不同数据量的数据集内；3)在特征点聚类阶段提出特征点局部密度以及特征点聚类中心距离进行后续聚类分析，基于特征化原理采用三维决策图来准确定位聚类中心、基本聚类点以及噪声点，由于采用特征点以及支持度模拟原始数据，进而提高了聚类效率，同时解决二维决策图无法处理重合点的问题。

附图说明

图1为本发明实施例提供的特征化密度峰聚类的出租车热点区域提取方法流程图；

图2为本发明实施例提供的特征点与支持度计算过程示意图；

图3为本发明实施例提供的局部密度与聚类中心距离计算过程示意图；

图4为本发明实施例提供的聚类过程示意图；

图5为本发明实施例提供的聚类结果在三维决策图的分布图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

首先给出发明中部分术语的定义，

特征点和支持度计数：特征点是用于代表原始位置采样点的位置点集合，该集合根据特征化算法产生，特征点集合表示为：

FeaturePoints＝{p₁,p₂,p₃,...,p_n} (4-1)

其中每个特征点表示为

p_i＝{ln g,lat,sup portIndex} (4-2)

sup portIndex即p_i的支持度计数，该值表示单个特征点在原始数据集中占有的权重，ln g及lat分别表示特征点的经度和纬度；

特征点局部密度：表示在密度峰聚类过程中，每个特征点周围的相邻特征点个数，根据密度峰聚类的思想，密度峰值点的密度较高，代表周围存在较多的特征点。轨迹特征点的局部密度定义为：

其中dist_cutoff表示截断距离，函数χ(x)表示特征点集合内如果其他特征点到该点的距离小于截断距离，则该点的局部密度加1。

特征点聚类中心距离：聚类中心距离的定义分为两类，一类是特征点集合中密度最大的点，定义为该点到其他特征点最远的距离。另一类则是密度并非为最大的特征点，定义为该点到其他特征点最近的距离。特征点的聚类中心距离定义如下：

聚类中心：假设一个聚类簇内位置采样点数据集合为cluster＝{p₁，p₂，p₃，...p_n}，则该聚类簇的聚类中心即为其中一个点p_i，使得

值最小。

基本聚类点：基本聚类点是有较高的局部密度同时具有较低的聚类中心距离，代表着位置相近、较密集、构成聚类簇的基本采样点。

噪声点：噪声点有较低的局部密度而同时具有较高的聚类中心距离，表明该点离聚类中心较远。现实意义是远离聚类中心的孤立点。

图1为本发明实施例提供的特征化密度峰聚类的出租车热点区域提取方法流程图，该方法具体包括如下步骤：

特征点确定过程具体如下：

首先采用特征化规模参数α(为设置值，例如5)来确定特征点个数；先随机选择一个临时特征点，并按照距离最远原则选取相应个数的临时特征点。然后将原始位置点分配到距离它们最近的临时特征点构成集合，再以集合平均位置点代替临时特征点，并且重新分配原始位置点。迭代上述过程，直到临时特征点位置不再变化，至此将临时特征点作为特征点输出。支持度计算则将遍历特征点集合，将每个特征点的原始位置点集合计数作为该特征点的支持度。

经过特征化后，原始数据集由特征点集合和对应的支持度计数来表示。如图2所示，灰色点表示特征点集合，由箭头指向的黑色点表示该特征点的支持度计数。特征化的核心思想是先对原始采样点进行预处理，从数据集中选出可以代表本数据集的特征点以及对应的支持度，通过使用数据量较小的特征点和支持度来代替原始轨迹数据集进行密度峰聚类，从而在不影响聚类精度的境况下提高算法的时间效率，实现快速精确的城市热点信息挖掘。

算法1是特征点选取和支持度计算过程，首先根据输入的特征化规模参数α结合采样点个数Ts确定特征点个数(line 1)Ts/α，随后，先随机确定第1个临时特征点，然后将距第1个临时特征点距离最远的采样点作为第2个临时特征点，使其，将距第2个临时特征点距离最远的采样点作为第3个临时特征点，以此类推，当临时特征点数量满足特征点个数时停止(line 2-5)；

再将原始数据集中所有采样点添加到距离他们最近的临时特征点集合中(line6-8)；随后计算每个临时特征点集合中的采样点中心，将采样点中心更新为新的临时特征点(line 11-13)，并且重新将原始数据采样点添加到新的临时点特征集合中，再次计算每个新临时点集合中的采样点中心，迭代上述步骤，直到两次计算的采样点中心不变，则特征化完成(line 9-10)，每个临时特征点集合中的采样点中心坐标为特征点，临时特征点集合中对应的采样点个数即该特征点的支持度计数(line 14-15)。下面给出算法伪代码。

图3是特征点的局部密度与聚类中心距离的计算过程，灰色点表示特征点集合，由箭头指向的黑色点表示该特征点的支持度计数。在密度峰聚类中，采用特征点的局部密度来计算密集程度，每个点的局部密度即代表该点周围的其他采样点数目的密集程度。特征点的局部密度与聚类中心距离计算过程是：首先，遍历所有特征点，每一个特征点根据其截断距离内的特征点总数，计算出局部密度，图3中虚线圆表示的截断距离圆中，圆心所表示的特征点，因为截断距离圆内有3个特征点，因此其局部密度计数为3。

根据特征点之间的欧式距离判断聚类中心距离，聚类中心距离判断需要分两种情况，第一种：若该点为局部密度最大的特征点，则该点聚类中心距离为该特征点与其他特征点的最远距离，即图3中虚线表示的欧式距离值。另一种情况：该特征点不是局部密度最大点，则聚类中心距离为该特征点到其他特征点的最近距离。

基于特征化后生成的特征点和支持度计数来计算特征点的局部密度和聚类中心距离，算法2和算法3是其伪代码描述，

算法2是计算特征点的局部密度计算，算法输入数据是特征点集合、截断距离dist_cutoff，算法步骤如下：循环遍历特征点集合(line 1-2)，计算每个特征点到其他特征点的欧式距离，如果该距离小于截断距离则局部密度自加1(line 3-4)，遍历结束返回每个特征点的局部密度(line 6)。

算法3是特征点的聚类中心距离计算，算法输入数据为特征点集合、局部密度集合，执行步骤如下：循环遍历特征点集合，找到特征点集合中局部密度最大的特征点，该点的聚类中心距离是：该点到离他距离最远的特征点的欧式距离(line 1-3)，对于其他特征点，聚类中心距离取离该点最近的特征点的欧式距离(line 4-5)，为了方便在决策图中观察相关聚类结果所以在最后将聚类中心距离归一化统一到[0,1]区间中(line 6-8)。根据上面集合中局部密度最大的特征点的特殊聚类中心距离计算方式，这里经过归一化后的1一般即为集合中局部密度最大的特征点。

根据构建的三维决策图，需要识别三类点，分别为聚类中心点、基本聚类点和噪声点。根据聚类原理，整个采样点数据空间被划分为多个不相交的聚类簇，聚类簇的簇内存在多个相近邻的数据点，而簇间距离较大。聚类中心点是使得每个聚类簇中内采样点到该点的距离之和最低的位置点。基本聚类点是聚类簇中围绕着聚类中心的采样点，这些点是构成聚类簇的基石，占大部分。噪声点往往指一些离大部分位置采样点都较远而自身周围也没有足够的数据采样点来构成聚类簇的一类点，这类点不参与到聚类簇的构成中。聚类簇中的聚类中心、基本聚类点和噪声点如图4所示。

图4中点p1,p2,p3,p4,p5,p6,p7,p8是位置特征点集合。在经过判断和聚类后，形成了一个虚线表示的五个点特征构成的圆形聚类簇，该簇中灰色点p8为聚类中心，因为p8到其他各点p4,p5,p6,p7的距离之和最小。p4,p5,p6,p7是基本聚类点，与聚类中心p8形成聚类簇。p1,p2,p3点均为孤立点，因为它们分布稀疏且远离其他点。

上述的三类点是根据三维决策图判断的，挖掘原则如下：

如图5所示，三维决策图中X轴是特征点局部密度，此值越大就越容易成为聚类中心。Y轴表示聚类中心距离，由于在计算特征点聚类中心距离最后会进行归一化处理，因此所有三维决策图取值均在[0,1]区间内，此值表示聚类中每个簇之间的距离，一般来说，值越大则表示簇间距离越大。Z轴是特征点支持度，该值在特征化过程中求得，表示特征点在原始数据集中的周围点的状况，值越大则表示该特征点越适合成为聚类中心。

在三维决策图中聚类中心就是密度峰值，在三维决策图中越靠近与坐标原点中心对称点的坐标越容易成为聚类中心，如图5白色点所示，表现为三个聚类指标即特征点的支持度、局部密度、聚类中心距离均较大的峰值点。基本聚类点一般较为密集，表现在三维决策图中即聚类中心距离较短而局部密度较高，因此靠近XZ轴平面的点适合作为基本聚类点，如图5黑色点所示。与基本聚类点相反的是噪声点，一般分布较为稀疏，它们的三维决策图特征为聚类中心距离较高而局部密度较短，因此靠近YZ轴平面的点适合作为噪声点，如图5灰色点所示。至此，利用三维决策图进行聚类的过程结束。

在本发明的一实施例中，聚类中心的选取原则是：

首先选取靠近XZ轴平面的点，计算该点支持度、局部密度、聚类中心距离三者的乘积，将乘积进行降序排列，计算相邻乘积的差值，将较大差值作为聚类中心点和非聚类中心点的分隔点，将分隔点之上，即乘积值大的点作为聚类中心；

将靠近XZ轴平面的点适合作为基本聚类点，靠近YZ轴平面的点适合作为噪声点，对于既靠近XZ轴平面又靠近YZ轴平面的点而言，检测这样点的周边是否为孤立的点，即其周边不存在其他基本聚类点，若是，则标识为噪音点，否则标识为基本聚类点。

1)在原始数据集特征化阶段定义了位置特征点以及支持度概念，特征点选取可以简化输入数据且较准确地在聚类过程中代表原始数据，使得聚类过程更加高效；

2)通过参数来灵活的调整特征点个数使得本发明提出的聚类方法可应用于不同数据量的数据集内；

3)在特征点聚类阶段提出特征点局部密度以及特征点聚类中心距离进行后续聚类分析，基于特征化原理采用三维决策图来准确定位聚类中心、基本聚类点以及噪声点，由于采用特征点以及支持度模拟原始数据，进而提高了聚类效率，同时解决二维决策图无法处理重合点的问题。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种特征化密度峰聚类的出租车热点区域提取方法，其特征在于，所述方法具体包括如下步骤：

2.如权利要求1所述特征化密度峰聚类的出租车热点区域提取方法，其特征在于，特征点的选取方法具体如下：

根据特征化规模参数α及采样点个数Ts确定特征点个数；

3.如权利要求1所述特征化密度峰聚类的出租车热点区域提取方法，其特征在于，特征点对应临时特征点集合中的采样点个数，即为该特征点的支持度。

4.如权利要求1所述特征化密度峰聚类的出租车热点区域提取方法，其特征在于，特征点的局部密度获取过程具体如下：

5.如权利要求1所述特征化密度峰聚类的出租车热点区域提取方法，其特征在于，特征点的聚类中心距离获取方法具体如下：

6.如权利要求1所述特征化密度峰聚类的出租车热点区域提取方法，其特征在于，三维决策图中X轴是特征点局部密度，Y轴表示特征点聚类中心距离，Z轴是特征点支持度，则聚类中心、基本聚类点及噪音点的选择方法具体如下：

聚类中心距离较高、局部密度较低的特征点即为噪音点。