CN110688436B

CN110688436B - 一种基于行车轨迹的改进型GeoHash道路聚类方法

Info

Publication number: CN110688436B
Application number: CN201910764610.1A
Authority: CN
Inventors: 张沛; 刘科
Original assignee: Chengdu Htdata Technology Co ltd
Current assignee: Chengdu Htdata Technology Co ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2021-06-08
Anticipated expiration: 2039-08-19
Also published as: CN110688436A

Abstract

本发明公开了一种基于行车轨迹的改进型GeoHash道路聚类方法，包括以下步骤：S1由随车采集的道路经度、纬度及时间信息通过Hash运算和base64编码得样本集D；S2向服务端输入样本集，领域参数(hash,MinPts)，设置样本距离度量方式，服务端进行第一次初始化设置；S3遍历样本集中的所有点，找出其中的噪声点和非噪声点，若存在非噪声点则进行继续；S4样本集中的所有非噪声点集中为核心对象集Ω，服务端进行第二次初始化设置；S5遍历Ω_cur中的所有点，找出其中的非噪声点，服务端进行第三次初始化设置；S6循环进行S5至Ω_cur为空集，将C_k更新至簇划分C＝{C₁,C₂,...,C_k}，并将C_k从Ω移除，跳转入S3；S7输出簇划分C＝{C₁,C₂,...,C_k}。本发明能够有效降低乡镇道路信息采集成本，改善乡镇道路信息更新滞后的问题。

Description

一种基于行车轨迹的改进型GeoHash道路聚类方法

技术领域

本发明涉及定位***技术领域，尤其涉及一种基于行车轨迹的改进型GeoHash道路聚类方法。

背景技术

农村道路交通是全国交通网络的重要组成部分，随着国家经济的发展，农村交通出行量增加。而偏远农村地区道路信息不全、采集难度较大等多方面问题，制约着手机等智能终端设备在农村地区的导航应用。随着大数据时代的到来以及智慧交通推广落地，运管局等交通管理机构源源不断的采集到乡镇客运班车行车轨迹数据，如何根据班车等车辆行驶轨迹对农村等乡镇道路进行主动发现、道路异常进行精确预警已成为一项重要的研究课题。

传统的基于车辆的道路采集设备对道路信息进行随车采集，存在采集成本过高、采集信息覆盖不全、道路信息更新滞后等诸多问题。传统道路聚类算法通常采用基于密度的聚类算法，因为设备点数据较多，因此传统的道路聚类算法存在计算量过大、时间复杂度较高等问题。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于行车轨迹的改进型GeoHash道路聚类方法。

为了实现上述目的，本公开提供一种基于行车轨迹的改进型GeoHash道路聚类方法，包括以下步骤：

S1，由随车采集的道路经度、纬度及时间信息通过Hash运算和base64编码得样本集D；

S2，向服务端输入样本集，领域参数(hash,MinPts)，设置样本距离度量方式，服务端进行第一次初始化设置：核心对象集合Ω为空集，未访问样本集合Γ＝D，簇划分C为空集；

S3，遍历样本集中的所有点，找出其中的噪声点和非噪声点，若样本集中的所有点均为噪声点，则结束流程，若存在非噪声点则进行S4；

S4，样本集中的所有非噪声点集中为核心对象集Ω，服务端进行第二次初始化设置：于Ω中随机抽取核心对象O加入到簇核心对象队列Ω_cur，且将O加入簇样本集合C_k，将O从Γ中移除；

S5，遍历Ω_cur中的所有点，找出其中的非噪声点，服务端进行第三次初始化设置：将Ω_cur的非噪声点加入C_k、，并将Ω_cur的非噪声点从Γ中移除，将Ω_cur的非噪声点加入Ω_cur，并将O从Ω_cur中移除；

S6，循环进行S5至Ω_cur为空集，将C_k更新至簇划分C＝{C₁,C₂,...,C_k}，并将C_k从Ω移除，跳转入S3；

S7，输出簇划分C＝{C₁,C₂,...,C_k}，即得主干道路区域信息。

优选地，随车采集的道路经度/纬度/时间的Hash运算过程如下：

随车采集的道路经度/纬度/时间范围(X_min,X_max)均分为前区间(X_min,(X_min+X_max)/2)和后区间((X_min+X_max)/2,X_max)，若目标经度/纬度/时间X位于前区间，则编码为0，否则编码为1；

若编码为0，则将前区间再次均分为前后两个区间，若目标经度/纬度/时间X位于再次均分后的前区间，则编码为0，否则编码为1；

以此种方式均分经度/纬度/时间范围2n次至达到精度要求，得经度/纬度/时间编码。

优选地，将经度编码、纬度编码、时间编码合并后进行Base64编码，Base64编码长度n与误差关系如下：

优选地，遍历集合找出非噪声点的方法如下：

于集合中取对象点，找到对象点同一Hash领域内的子集，若子集中的点个数大于及等于MinPts，则该对象点位非噪声点，否则为噪声点。

本发明的有益效果在于：

本发明研发出一种基于行车轨迹的改进型GeoHash道路聚类方法，有效降低乡镇道路信息采集成本，改善乡镇道路信息更新滞后的问题。本发明涉及的聚类方法与传统的基于距离的密度聚类算法相比(例如DBscan算法)，该发明的不同在于不需要计算两点之间的距离，而是通过是否为同一个Hash来确定是否为同一个簇，故大大降低了其时间复杂度。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本发明所述的一种基于行车轨迹的改进型GeoHash道路聚类方法的流程图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

如图1所示，本公开提供一种基于行车轨迹的改进型GeoHash道路聚类方法，包括以下步骤：

S1，由随车采集的道路经度、纬度及时间信息通过Hash运算和base64编码得样本集D。

S2，向服务端输入样本集，领域参数(hash,MinPts)，设置样本距离度量方式，服务端进行第一次初始化设置：核心对象集合Ω为空集，未访问样本集合Γ＝D，簇划分C为空集。

领域参数(hash,MinPts)描述领域的样本分布紧密程度，其中hash描述了某一样本的所处区域的hash值，MinPts描述了某一样本在所处hash区域内的样本个数阈值。

S7，输出簇划分C＝{C₁,C₂,...,C_k}，即得主干道路区域信息。

优选地，将经度编码、纬度编码、时间编码合并，第1、4位为经度编码，第2、5位为纬度编码、第3、6位为时间编码，后进行Base64编码，base64编码对照参照表1-1。

Decimal	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14
																Base64	0	1	2	3	4	5	6	7	8	9	a	b	c	d	e
Decimal	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29
																Base64	f	g	h	i	j	k	l	m	n	o	p	q	r	s	t
Decimal	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44
																Base64	u	v	w	x	y	z	A	B	C	D	E	F	G	H	I
Decimal	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59
																Base64	J	K	L	M	N	O	P	Q	R	S	T	U	V	W	X
Decimal	60	61	62	63
																Base64	Y	Z	+	/

表1-1对照表

Base64编码长度n与误差关系如下，具体参照表1-2：

表1-2Base64编码长度与精度对照表

优选地，遍历集合找出非噪声点的方法如下：

以下详细说明随车采集的39.928167,116.389550,30600(上午8点30的秒数)的Hash运算过程如下：

1.1根据纬度进行二进制编码

1.1.1纬度区间[-90,90]进行二分[-90,0),[0,90]，分隔为左右区间，39.928167属于有区间[0,90]，标记为1；

1.1.2将[0,90]进行二分[0,45),[45,90]，确定39.928167属于左区间，[0,45)，标记为0；

1.1.3重复上述过程，39.928167总属于某个区间[a,b]，且随着每次迭代[a,b]范围随之缩小，逼近39.92816；

1.1.4如果给定的纬度x(39.928167)属于左区间，则记录0，如果属于右区间则记录1，这样随着算法的进行会产生一个序列1011100，序列的长度跟给定的区间划分次数有关。

根据纬度计算编码

1.2根据经度进行二进制编码

1.2.1同理，经度区间为[-180,180]，对116.389550进行二进制编码。

根据经度计算编码

bit	min	mid	max
				1	-180	0.000	180
1	0.000	90	180
				0	90	135	180
1	90	112.5	135
				0	112.5	123.75	135
0	112.5	118.125	123.75
				1	112.5	115.3125	118.125
0	115.3125	116.71875	118.125
				1	115.3125	116.015625	116.71875
1	116.015625	116.3671875	116.71875

1.3根据时间进行二进制编码

1.3.1同理，时间区间为[0,86400]，对30600进行二进制编码

根据时间计算编码

bit	min	mid	max
				0	0	43200	86400
1	0	21600	43200
				0	21600	32400	43200
1	21600	27000	32400
				1	27000	29700	32400
0	29700	31500	32400
				1	29700	30375	31500
0	30375	30937.5	31500
				0	30375	30656.25	30937.5
1	30375	30515.5	30656.25

2组码

通过上述计算，经度产生的编码为1101001011，纬度产生的编码为1011100011，时间产生的编码为0101101001。第一、四位放经度，第二、五位放纬度，第三、六位放时间，把三串编码组合生成新的二进制编码：111000

最后使用0-9、a-z、A-Z、+、/这64个字母进行base64编码，首先将110101010111011000101000110111转成十进制，对应着53、23、24、40、55，十进制对应的编码为RnoET。

本发明涉及的一种基于行车轨迹的改进型GeoHash道路聚类方法，有效降低乡镇道路信息采集成本，改善乡镇道路信息更新滞后的问题。本发明涉及的聚类方法与传统的基于距离的密度聚类算法相比(例如DBscan算法)，该发明的不同在于不需要计算两点之间的距离，而是通过是否为同一个Hash来确定是否为同一个簇，故大大降低了其时间复杂度。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种基于行车轨迹的改进型GeoHash道路聚类方法，其特征在于，包括以下步骤：

S1，由随车采集的道路经度、纬度及时间信息通过Hash运算和base64编码得到样本集D；

S2，向服务端输入样本集、领域参数(hash,MinPts)，领域参数(hash,MinPts)描述领域的样本分布紧密程度，其中hash描述了某一样本的所处区域的hash值，MinPts描述了某一样本在所处hash区域内的样本个数阈值；

设置样本距离度量方式，服务端进行第一次初始化设置：核心对象集合Ω为空集，未访问样本集合Γ＝D，簇划分C为空集；

S5，遍历Ω_cur中的所有点，找出其中的非噪声点，服务端进行第三次初始化设置：将Ω_cur的非噪声点加入C_k，并将Ω_cur的非噪声点从Γ中移除，将Ω_cur的非噪声点加入Ω_cur，并将O从Ω_cur中移除；

S7，输出簇划分C＝{C₁,C₂,...,C_k}，即得主干道路区域信息。

2.根据权利要求1所述的一种基于行车轨迹的改进型GeoHash道路聚类方法，其特征在于，随车采集的道路经度/纬度/时间的Hash运算过程如下：

随车采集的道路经度/纬度/时间范围(X_min,X_max)均分为前区间(X_min, (X_min+X_max)/2)和后区间((X_min+X_max)/2,X_max)，若目标经度/纬度/时间X位于前区间，则编码为0，否则编码为1；

以此种方式均分经度/纬度/时间范围2n次至达到精度要求，得到经度/纬度/时间编码。

3.根据权利要求2所述的一种基于行车轨迹的改进型GeoHash道路聚类方法，其特征在于，将经度/纬度/时间编码合并后进行Base64编码，Base64编码长度n与误差关系如下：

4.根据权利要求1所述的一种基于行车轨迹的改进型GeoHash道路聚类方法，其特征在于，遍历集合找出非噪声点的方法如下：

于集合中取对象点，找到对象点同一Hash领域内的子集，若子集中的点个数大于及等于MinPts，则该对象点为非噪声点，否则为噪声点。