CN112380302B

CN112380302B - 基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质

Info

Publication number: CN112380302B
Application number: CN202011148718.7A
Authority: CN
Inventors: 张健钦; 张昊; 郭小刚; 卢剑; 陆浩
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2023-07-21
Anticipated expiration: 2040-10-23
Also published as: CN112380302A

Abstract

本发明实施例公开了基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质。所述方法，包括：获取轨迹数据和地图数据；将所述轨迹数据以原格式存储于Hadoop平台分布式文件***；对所述轨迹数据进行聚类，得到聚类数据；将所述地图数据以及所述聚类数据存储于HBase分布式数据库；从所述HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据；根据所获取的地图数据和聚类数据，生成热力图。基于该方法和装置，可以在保留轨迹数据的位置特征的同时，提高热力图可视化的效率，缩短成图时间，改善因用户交互而发生的卡顿问题，改善用户体验。

Description

基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质。

背景技术

近年来，随着卫星定位技术、LBS技术以及互联网的不断发展，位置数据被以各种方式收集，轨迹大数据呈爆发式增长。常规数据库不论在管理方式还是存储容量扩展方面都无已法应对。大数据时代的到来，带来了数据结构改变、存储结构复杂、信息碎片化等问题，研究一种服务于轨迹大数据存储、管理的技术是GIS领域的重点研究方向之一。海量的轨迹数据具有很大的研究价值，包含大量的地理空间信息。使用热力图渲染轨迹数据，可以综合展示空间位置特征以便研究人员挖掘当前区域空间信息、分析车辆移动特征。

目前，轨迹数据热力图可视化的不足主要体现在：①数据规模大，可视化成图耗时较长，交互性低；②热力图自适应效果低，切换缩放级别，热力图展示的轨迹数据位置特征形变较大；③不同缩放级别色彩梯度相同，导致数据密集区域呈现热核现象。目前只对存储及查询性能进行优化已经不能满足大规模数据可视化所需的技术要求，还应对轨迹数据本身进行处理。现阶段针对于大数据可视化的优化，主要通过对整体数据量进行削减来提升成图效率，然而这种方式仍然不能够充分克服上述轨迹数据热力图可视化的缺陷。

发明内容

本发明实施例的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明实施例提供了基于轨迹数据的热力图生成方法、装置、电子设备以及存储介质，其可以提高热力图可视化的效率。

第一方面，提供了一种基于轨迹数据的热力图生成方法，包括：

获取轨迹数据和地图数据；

将所述轨迹数据以原格式存储于Hadoop平台分布式文件***；

对所述轨迹数据进行聚类，得到聚类数据；

将所述地图数据以及所述聚类数据存储于HBase分布式数据库；

从所述HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据；

根据所获取的地图数据和聚类数据，生成热力图。

可选地，所述将所述轨迹数据以原格式存储于Hadoop平台分布式文件***，包括：

将所述轨迹数据分割成多个时间切片，其中，每个时间切片包含一预设的时间范围内的所有轨迹数据；

在所述Hadoop平台分布式文件***中，将同一时间切片所包含的轨迹数据以原格式进行集中存储，并且所述多个时间切片依照时间顺序进行邻近存储。

可选地，所述地图数据具有多个缩放级别；

所述对所述轨迹数据进行聚类，得到聚类数据，包括：

根据所述多个缩放级别，确定多组聚类参数；

针对各时间切片所包含的轨迹数据，根据所述多组聚类参数进行聚类，得到针对各时间切片的对应于所述多个缩放级别的多组聚类数据；

所述从所述HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据，包括：

根据所述待生成的热力图的缩放级别，确定与所述待生成的热力图相对应的地图数据的缩放级别；

根据所述待生成的热力图的时间范围，确定与所述待生成的热力图相对应的聚类数据所属于的时间切片；

从所述HBase分布式数据库获取相应缩放级别下的地图数据以及相应的时间切片下相应缩放级别的聚类数据。

可选地，所述地图数据具有多个缩放级别；

所述对所述轨迹数据进行聚类，得到聚类数据，包括：

根据所述多个缩放级别，确定多组聚类参数；

根据所述多组聚类参数，对所述轨迹数据进行聚类，得到对应于所述多个缩放级别的多组聚类数据；

从所述HBase分布式数据库获取相应缩放级别下的地图数据和聚类数据。

可选地，所述各组聚类参数包括扫描半径；

所述根据所述多个缩放级别，确定多组聚类参数，包括：

根据所述多个缩放级别，确定各缩放级别对应的扫描半径；其中，各缩放级别对应的扫描半径随着相应缩放级别的减小而减小。

可选地，所述各组聚类参数包括最小包含点数；

所述根据所述多个缩放级别，确定多组聚类参数，还包括：

根据所述多个缩放级别，确定各缩放级别对应的最小包含点数，其中，各缩放级别对应的最小包含点数随着相应缩放级别的减小而减少。

可选地，所述各组聚类数据包括多个聚类簇的中心坐标和影响力值以及多个噪声点的坐标和影响力值。

可选地，所述聚类是基于DBScan算法实现的。

可选地，所述将所述聚类数据存储于HBase分布式数据库，包括：

分别针对各时间切片的对应于各缩放级别的各组聚类数据构建各张聚类数据表。

可选地，所述地图数据具有多个缩放级别；

所述将所述地图数据存储于HBase分布式数据库，包括：

针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行。

可选地，所述针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行，包括：

根据各缩放级别下的地图数据中每行所包含的瓦片数量n，计算所述各缩放级别下的地图数据的总阶数m，其中，

当n-2m＝1时，将所述各缩放级别下的地图数据划分成m*m个正方形子格网和n个边缘子格网，其中，所述正方形子格网由4个瓦片构成，与所述正方形子格网邻接的2m个边缘子格网由2个瓦片构成，与所述正方形子格网不邻接的1个边缘子格网由1个瓦片构成；

基于Z型填充曲线对所述m*m个正方形子格网进行填充，基于直线型填充曲线对所述2m个边缘子格网进行填充，将所述m*m个正方形子格网与所述2m个边缘子格网的填充曲线连接成为一个整体，将所述m*m个正方形子格网与所述2m个边缘子格网的填充曲线延伸至与所述正方形子格网不邻接的1个边缘子格网；

根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；

针对各缩放级别下的地图数据构建各张地图数据表，基于所述n个瓦片的编码，将所述n个瓦片顺序存储于相应地图数据表中，其中，属于同一个正方形子格网的4个瓦片存储于相应地图数据表中的同一行，属于同一个边缘子格网的瓦片存储于相应地图数据表中的同一行。

当n＝2m时，将各缩放级别的地图数据划分成m*m个正方形子格网，其中，所述正方形子格网由4个瓦片构成；

基于Z型填充曲线对所述m*m个正方形子格网进行填充；

根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；

针对各缩放级别下的地图数据构建各张地图数据表，基于所述n个瓦片的编码，将所述n个瓦片顺序存储于相应地图数据表中，其中，属于同一个正方形子格网的4个瓦片存储于相应地图数据表中的同一行。

第二方面，提供了一种基于轨迹数据的热力图生成装置，包括：

第一获取模块，用于获取轨迹数据和地图数据；

第一存储模块，用于将所述轨迹数据以原格式存储于Hadoop平台分布式文件***；

聚类模块，用于对所述轨迹数据进行聚类，得到聚类数据；

第二存储模块，用于将所述地图数据以及所述聚类数据存储于HBase分布式数据库；

第二获取模块，用于从所述HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据；

生成模块，用于根据所获取的地图数据和聚类数据，生成热力图。

可选地，所述第一存储模块，具体用于：

可选地，所述地图数据具有多个缩放级别；

所述聚类模块，包括：

第一确定单元，用于根据所述多个缩放级别，确定多组聚类参数；

聚类单元，用于针对各时间切片所包含的轨迹数据，根据所述多组聚类参数进行聚类，得到针对各时间切片的对应于所述多个缩放级别的多组聚类数据；

所述第二获取模块，包括：

第二确定单元，用于根据所述待生成的热力图的缩放级别，确定与所述待生成的热力图相对应的地图数据的缩放级别；

第三确定单元，用于根据所述待生成的热力图的时间范围，确定与所述待生成的热力图相对应的聚类数据所属于的时间切片；

获取单元，用于从所述HBase分布式数据库获取相应缩放级别下的地图数据以及相应的时间切片下相应缩放级别的聚类数据。

可选地，所述地图数据具有多个缩放级别；

所述聚类模块，包括：

聚类单元，用于根据所述多组聚类参数，对所述轨迹数据进行聚类，得到对应于所述多个缩放级别的多组聚类数据；

所述第二获取模块，包括：

获取单元，用于从所述HBase分布式数据库获取相应缩放级别下的地图数据和聚类数据。

可选地，所述各组聚类参数包括扫描半径；

所述第一确定单元，具体用于：

可选地，所述各组聚类参数包括最小包含点数；

所述第一确定单元，具体用于：

可选地，所述聚类是基于DBScan算法实现的。

可选地，所述第二存储模块，包括：

第一构建单元，用于分别针对各时间切片的对应于各缩放级别的各组聚类数据构建各张聚类数据表。

可选地，所述地图数据具有多个缩放级别；

所述第二存储模块，包括：

第二构建单元，用于针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行。

可选地，所述第二构建单元，具体用于：

基于Z型填充曲线对所述m*m个正方形子格网进行填充，基于直线型填充曲线对所述2m个边缘子格网进行填充，并将所述m*m个正方形子格网以及所述n个边缘子格网用连线连接；

根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；

可选地，所述第二构建单元，具体用于：

基于Z型填充曲线对所述m*m个正方形子格网进行填充；

根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；

第三方面，提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行以上所述的方法。

第四方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现以上所述的方法。

本发明实施例至少包括以下有益效果：

本发明实施例提供的基于轨迹数据的热力图生成方法及装置，首先获取轨迹数据和地图数据；将所述轨迹数据以原格式存储于Hadoop平台分布式文件***；对所述轨迹数据进行聚类，得到聚类数据；将所述地图数据以及所述聚类数据存储于HBase分布式数据库；从所述HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据；根据所获取的地图数据和聚类数据，生成热力图。基于该方法和装置，可以在保留轨迹数据的位置特征的同时，提高热力图可视化的效率，缩短成图时间，改善因用户交互而发生的卡顿问题，改善用户体验。

本发明实施例的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明实施例的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明一个实施例提供的基于轨迹数据的热力图生成方法的流程图；

图2为本发明一个实施例提供的轨迹数据存储模式示意图；

图3为本发明一个实施例提供的地图数据在显示状态下的示意图；

图4(a)为本发明一个实施例提供的n＝2时地图数据的编码方式示意图；

图4(b)为本发明一个实施例提供的n＝4时地图数据的编码方式示意图；

图4(c)为本发明一个实施例提供的n＝3时地图数据的编码流程示意图；

图4(d)为本发明一个实施例提供的n＝3时地图数据的编码方式示意图；

图5为本发明另一个实施例提供的轨迹数据和地图数据的存储框架的示意图；

图6为本发明另一个实施例提供的地图数据的加载流程图；

图7为本发明另一个实施例提供的地图数据加载时长对比图；

图8为本发明又一个实施例提供的基于轨迹数据的热力图生成方法的流程图；

图9(a)为本发明又一个实施例提供的利用缩放级别为11的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；

图9(b)为本发明又一个实施例提供的利用缩放级别为11的地图数据以及聚类数据所生成的热力图；

图9(c)为本发明又一个实施例提供的利用缩放级别为12的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；

图9(d)为本发明又一个实施例提供的利用缩放级别为12的地图数据以及聚类数据所生成的热力图；

图9(e)为本发明又一个实施例提供的利用缩放级别为13的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；

图9(f)为本发明又一个实施例提供的利用缩放级别为13的地图数据以及聚类数据所生成的热力图；

图9(g)为本发明又一个实施例提供的利用缩放级别为14的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；

图9(h)为本发明又一个实施例提供的利用缩放级别为14的地图数据以及聚类数据所生成的热力图；

图10为本发明又一个实施例提供的热力图的生成时长对比图；

图11为本发明一个实施例提供的基于轨迹数据的热力图生成装置的结构示意图；

图12为本发明一个实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

目前Oracle、PostgreSQL等关系型数据库作为轨迹数据存储的数据仓库，主要是静态地存储以及表达出轨迹数据在某个特定时期的状态，不能实时对某时间段内的信息存储管理。具体地说，常规数据库存储方案在输入、输出数据量较大时会到达处理负荷的上限，不足以支持海量数据的快速存储及查询，且常规数据库支持的数据类型单一，在面对大量数据时其容量扩展和数据备份等功能表现较差。而Hadoop开源云存储框架，具有高扩展性、高容错性、经济性等特点以及强大的计算能力，可以为实时海量轨迹数据的存储提供技术支持。HBase是以Hadoop为基础技术的NoSQL数据库，包含了HDFS的心跳机制和数据备份等多项核心功能。在存储方面HBase支持多种数据结构，能够应对PB级别的海量数据，因其良好的扩展性可以用于对海量数据进行存储。

图1为本发明一个实施例提供的基于轨迹数据的热力图生成方法的流程图，该方法由具有处理能力的***、服务器或基于轨迹数据的热力图生成装置执行。如图1所示，上述方法包括：

步骤110，获取轨迹数据和地图数据。

其中，轨迹数据是具有位置、时间信息的采样序列，蕴含了被研究对象的时空动态性。基于对轨迹数据的分析，可以获取被研究对象的时空分布特征。

步骤120，将轨迹数据以原格式存储于Hadoop平台分布式文件***。

轨迹数据的原格式为txt文件。在将轨迹数据向HDFS中存入时，直接将轨迹数据以txt格式存入，而无须对轨迹数据的格式做任何的处理。基于这样的过程，有助于提高海量的轨迹数据的存储和管理效率，进而提高热力图生成的效率。

在一些实施例中，将轨迹数据以原格式存储于Hadoop平台分布式文件***，包括：将轨迹数据分割成多个时间切片，其中，每个时间切片包含一预设的时间范围内的所有轨迹数据；在Hadoop平台分布式文件***中，将同一时间切片所包含的轨迹数据以原格式进行集中存储，并且多个时间切片依照时间顺序进行邻近存储。

HBase分布式数据库以表的形式存储数据。表由行和列组成，列划分为若干个列族。HBase与NoSQL数据库类似，HBase由Row Key作为检索记录的主键。存储时，数据按照RowKey的字典序排序存储。表中的每个列，都归属于某个列族，而每个列是由叫单元格(cell)的最小存储单元组成，cell中的数据是没有类型的，全部是字节码形式存储。因此在存储数据之前需要先对原始数据预处理。

对原始轨迹数据进行预处理，其过程是：先按其原格式存入HDFS(Hadoop分布式文件***)，然后使用HBase对聚类数据进行按行入库。原始轨迹数据存储方式为基于时间维度进行存储，即以时间属性优先的存储方式。采用该方式，可以方便进行空间点聚类，即可以方便地对轨迹数据进行聚类分析，有助于开展基于时空的轨迹数据挖掘分析。其他存储方法如基于车辆轨迹的存储方法、基于空间分布的存储方法等都不能保证有效地支持此类分析所需要的查询条件，其原因在于，同一时间段内的轨迹数据在存储设备上并非连续存储，会导致大量IO产生，从而降低数据访问效率。

本发明实施例针对原始轨迹数据使用了基于时间维度的存储方式。具体地，对全部轨迹数据的时间进行排序，之后将轨迹数据分割成多个时间切片，一个时间切片包含一预设的时间范围所有的轨迹数据，之后将属于同一时间切片的轨迹数据集中存储，并且所有的时间切片按照时间顺序排列，从而保证轨迹数据在存储空间中邻近存储。举例来说，可以将一天之内的全部轨迹数据按照每1个小时一个时间切片进行分割，可以将一天之内的全部轨迹数据分割成12个时间切片，即0:00-1:00之间的轨迹数据，1:00-2:00之间的轨迹数据，···，23:00-24:00之间的轨迹数据，之后对每个时间切片所包含的轨迹数据集中存储，并且0:00-1:00之间的轨迹数据与1:00-2:00之间的轨迹数据邻近存储，1:00-2:00之间的轨迹数据与2:00-3:00之间的轨迹数据邻近存储···，从而保证12个时间切片全部按照时间顺序进行邻近存储。

图2为本发明实施例提供的轨迹数据存储模式的示意图。在HDFS中，针对各时间切片构建数据表(以下称为轨迹数据表)。轨迹数据表中，列族可以包括以下列：轨迹数据身份编号ID，轨迹数据经度LAT，轨迹数据纬度LON，日期DATE，时刻TIME···，一条轨迹数据的记录格式可以是：ID1，LAT1，LON1，DATE1，TIME···。表中每一行用于存储一条轨迹数据，该时间切片所包含的所有轨迹数据依据时间顺序在轨迹数据表中排列。这里，轨迹数据身份编号ID用于表示轨迹数据所属于的被研究对象个体，比如当轨迹数据为出租车轨迹数据时，该轨迹数据身份编号ID则用于表示该条轨迹数据来自于哪一台出租车。也就是说，在同一个轨迹数据表中，同一时间切片的轨迹数据可能来自于不同的被研究对象个体，即不同的出租车。更确切地说，在将轨迹数据向HDFS中存储时，仅基于轨迹数据的时间属性对其进行存储，而不考虑轨迹数据具体是由哪个被研究对象个体产生的。

步骤130，对轨迹数据进行聚类，得到聚类数据。

聚类处理分析通常是根据设定的聚类参数、条件对原始数据进行有选择的信息提取的方法，常用于对数据分类和简化。

本步骤中，对轨迹数据聚类可以在保留轨迹数据的位置特征的同时，减小数据量，进而提高热力图生成的效率。另外，对轨迹数据进行聚类分析，还可以优化数据密集区域的热核现象，进而改善热力图的可视化效果。本发明实施例不是直接利用在HDFS中存储的原始轨迹数据生成热力图，而是针对轨迹数据进行聚类，将聚类数据存储于HBase分布式数据库，生成热力图时直接从HBase分布式数据库中获取所须的聚类数据。基于这一过程，可以进一步提高热力图的生成效率。

在一些实施例中，地图数据具有多个缩放级别；对轨迹数据进行聚类，得到聚类数据，包括：根据多个缩放级别，确定多组聚类参数；根据多组聚类参数，对轨迹数据进行聚类，得到对应于多个缩放级别的多组聚类数据。

现有的热力图自适应效果低，当切换缩放级别时，热力图展示的轨迹数据位置特征形变较大，而且不同缩放级别的热力图色彩梯度相同，导致数据密集区域呈现热核现象。基于此，本发明实施例针对地图数据的不同缩放级别设定不同的聚类参数，从而获得与缩放级别相匹配的聚类结果，进而可以根据所须生成的热力图的缩放级别，来获取相应的聚类数据用于生成实际的热力图，所生成的热力图在数据密集区域的热核现象得到优化，位置特征展示更加细致，可视化效果得以改善。

进一步地，对轨迹数据进行聚类，得到聚类数据，包括：根据多个缩放级别，确定多组聚类参数；针对各时间切片所包含的轨迹数据，根据多组聚类参数进行聚类，得到针对各时间切片的对应于多个缩放级别的多组聚类数据。

在一些示例中，各组聚类参数包括扫描半径；根据多个缩放级别，确定多组聚类参数，包括：根据多个缩放级别，确定各缩放级别对应的扫描半径；其中，各缩放级别对应的扫描半径随着相应缩放级别的减小而减小。

各组聚类参数包括扫描半径。即，当对某一个时间切片所包含的轨迹数据进行聚类分析时，所形成的每个聚类簇所包含的轨迹数据必须分布在扫描半径的范围内。

随着地图数据的缩放级别减小，地图数据所包含的瓦片数量减小，地图数据中单位面积所对应的真实地理空间的空间范围越大，进而导致地图数据中单位面积上所对应的轨迹数据分布更为密集。因此，当缩放级别减小时，减小扫描半径，从而减少每个聚类簇所包含的点的数量，降低每个聚类簇中轨迹数据的密集程度，进而改善局部区域的热核现象，使得每个聚类簇可以更加准确地反映轨迹数据的位置特征。

具体地，可以根据各缩放级别下的地图数据中单个像素点在真实地理空间中所实际覆盖的空间范围，确定各缩放级别对应的扫描半径。在不同缩放级别的地图数据中，单个像素点的尺寸是不同的。缩放级别越低，单个像素点的尺寸越小，其在真实地理空间中所实际覆盖的空间范围也就越小，反之单个像素点的尺寸越大，其在真实地理空间中所实际覆盖的空间范围越大。比如，在某一在较低缩放级别的地图数据中，单个像素点在真实地理空间中所实际覆盖的空间范围仅为300m，而在较高缩放级别的地图数据中，单个像素点在真实地理空间中所实际覆盖的空间范围为1000m。可以将各缩放级别下的地图数据中单个像素点在真实地理空间中所实际覆盖的空间范围直接作为各缩放级别对应的扫描半径。也可以根据需要对各缩放级别下的地图数据中单个像素点在真实地理空间中所实际覆盖的空间范围进行一定的调整，对各缩放级别对应的扫描半径进行设定。本发明实施例对此不做具体限定。

在一些示例中，各组聚类参数包括最小包含点数；根据多个缩放级别，确定多组聚类参数，还包括：根据多个缩放级别，确定各缩放级别对应的最小包含点数，其中，各缩放级别对应的最小包含点数随着相应缩放级别的减小而减少。

各组聚类参数包括最小包含点数。即，当对某一个时间切片所包含的轨迹数据进行聚类分析时，所形成的每个聚类簇所包含的轨迹数据量必须在最小包含点数的范围内。应该理解的是，当扫描半径和最小包含点数同时作为聚类参数时，则聚类过程中须同时遵循扫描半径和最小包含点数的限制。

随着地图数据的缩放级别减小，地图数据所包含的瓦片数量减小，地图数据中单位面积所对应的真实地理空间中的空间范围越大，进而导致地图数据中单位面积上所对应的轨迹数据分布更为密集。因此，当缩放级别减小时，减小最小包含点数，同样有助于减少每个聚类簇所包含的点的数量，降低每个聚类簇中轨迹数据的密集程度，进而改善局部区域的热核现象，使得每个聚类簇可以更加准确地反映轨迹数据的位置特征。各缩放级别对应的最小包含点数可以根据需要进行设定，本发明实施例对此不做具体限定。

对于任一时间切片，基于与多个缩放级别对应的多组聚类参数，对其所包含的轨迹数据进行聚类，将得到多组聚类数据。在一些实施例中，各组聚类数据包括多个聚类簇的中心坐标和影响力值以及多个噪声点的坐标和影响力值。其中，噪声点可以理解为离散点，即未被包含进任何聚类簇的单个的轨迹数据。噪声点也可以反映轨迹数据的位置分布情况，因此在绘制热力图时，将噪声点考虑在内。

在一些示例中，对轨迹数据的聚类是基于DBScan算法实现的。常用的聚类算法包括DBScan算法，K-means算法等。经过对不同的聚类算法对比发现，DBScan算法具有以下优点：①对数据集形状要求低；②可以发现数据中的异常点；③不需要设置聚类后簇的数量。因此，基于DBScan算法适用于任意形状的稠密数据集这一特性，本发明实施例选择DBScan算法对轨迹数据进行聚类。

具体地，针对全部轨迹数据，采用以下过程实现聚类分析：

(1)首先对全部轨迹数据进行预处理，剔除异常点。

(2)根据多个缩放级别确定多组聚类参数，聚类参数包括扫描半径和最小包含点数。

(3)基于DBScan算法对各时间切片所包含的轨迹数据进行聚类。对于任一时间切片，针对多个缩放级别，可以得到多组聚类数据。假设任一缩放级别对应的聚类数据包括n个聚类簇和m个噪声点。

(4)对于任一个聚类簇，利用聚类簇所包含的轨迹数据计算簇中心点坐标(x,y)和影响力值count(见公式(1))。由于噪声点都为单一坐标点，可以直接将其影响力赋值为1。

式中n为某一聚类簇内轨迹点的个数，x_i、y_i则为该簇内第i个轨迹点的经度及纬度。

步骤140，将地图数据以及聚类数据存储于HBase分布式数据库。

在一些实施例中，将聚类数据存储于HBase分布式数据库，包括：分别针对各时间切片的对应于各缩放级别的各组聚类数据构建各张聚类数据表。基于此，当需要生成热力图时，可以确定热力图的时间范围和缩放级别，进而直接从HBase分布式数据库中查询到对应时间切片的对应缩放级别的聚类数据所在的聚类数据表，进而获取相应的聚类数据。即，本发明实施例可以提高从HBase分布式数据库中获取相关聚类数据的效率，进而提高热力图生成的效率。

聚类数据的存储模式见表1。该表中主要存储信息为聚类处理后的聚类簇的中心坐标、影响力值以及噪声点的坐标和影响力值。Row Key为顺序排列的整数，列族包含4个列，分别为LAT、LNG、COUNT以及PROPERTIES，前三列分别存储经纬度和影响力值，PROPERTIES列则是作为信息补充列存储其他说明性或辅助信息。

表1聚类数据存储模式

地图数据一般为具有多个缩放级别的栅格数据，每个缩放级别下的地图数据由多个瓦片所组成，而且随着缩放级别的增大，瓦片数量逐渐增加。为了实现对各缩放级别的地图数据的存储与查询，需要依据一定的规则对各缩放级别的地图数据中的瓦片进行编码。在一些实施例中，可以依据地图数据在显示状态下瓦片自然排列的顺序对瓦片进行编码。图3示出了本发明实施例提供的地图数据在显示状态下的示意图。如图3所示，地图数据由编码为1-12的12张瓦片组成，瓦片按照从上到下，从左到右的方式顺序编码。依据上述编码，将地图数据所包含的12张瓦片依次存储于存储空间中，即具有相邻编码的瓦片的物理存储位置是彼此相邻的，而编码不相邻的瓦片的物理存储位置则是不相邻的。但是，这种编码方式会影响对地图数据的读取效率。如图3所示，屏幕显示区域(虚线框所限定的区域)内的瓦片编码分别为7、8、11和12，这4个瓦片在屏幕显示区域内是相邻的，但在物理存储位置上却是有间隔的，在这种情况下，对于数据的查询和读取的时间都会增加，进而影响到热力图生成的效率。

为了减少查询时间，则需要将在显示状态下彼此相邻的瓦片的物理存储位置也尽可能接近，从而减少数据读取时间，提高效率。本发明实施例所采用的地图数据为基于四叉树模型的地图瓦片数据。由于HBase分布式数据库采用面向列的存储方式，所以将在显示状态下彼此相邻的4张瓦片存入同一行。具体地，将地图数据存储于HBase分布式数据库，包括：针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行。这里，“在显示状态下彼此相邻”指的是4张瓦片互相之间处于邻接的关系，也可以认为，4张瓦片构成一个正方形的区域。对于在地图数据中在横向上排列于同一行的4个瓦片或者在纵向上排列于同一列的4个瓦片，由于这两种情况下实际只是两两相邻，还存在2个瓦片被其他瓦片间隔开的情况，因此不属于“在显示状态下彼此相邻”的情况。

为了实现对于地图数据的有序存储与快速查询，并且使得在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行，需要对地图数据所包含瓦片进行编码。在一些示例中，对各缩放级别的地图数据所包含瓦片进行编码的过程如下：

(1)根据各缩放级别下的地图数据中每行所包含的瓦片数量n，计算各缩放级别下的地图数据的总阶数m，其中，直角括号表示向上取整。

(2)判断瓦片数量n与总阶数m之间的关系。当n＝2m时，将各缩放级别的地图数据划分成m*m个正方形子格网，其中，正方形子格网由4个瓦片构成。

(3)基于Z型填充曲线对m*m个正方形子格网进行填充。这里，可以先基于Z型填充曲线对每个正方形子格网进行填充，然后再使用连线将每个正方形子格网中的填充曲线连接起来，从而实现对全部子格网的填充。

(4)根据对n个瓦片的填充顺序对n个瓦片进行编码。

(5)针对各缩放级别下的地图数据构建各张地图数据表，基于n个瓦片的编码，将n个瓦片顺序存储于相应地图数据表中，其中，属于同一个正方形子格网的4个瓦片存储于相应地图数据表中的同一行。

图4(a)为本发明实施例提供的n＝2时地图数据的编码方式示意图；图4(b)为本发明实施例提供的n＝4时地图数据的编码方式示意图。如图4(a)所示，n＝2时，m取值为1，地图数据通过1阶Z型填充曲线实现填充，瓦片依据填充顺序进行编码。如图4(b)所示，n＝4时，m取值为2，地图数据通过2阶Z型填充曲线实现填充，瓦片依据填充顺序进行编码。

由于屏幕显示区域的限制，屏幕显示区域内瓦片数量可能不符合Z型填充曲线所需要的数量，因此本实施例提供了一种在瓦片数量不支持Z型填充曲线编码情况下的编码方法。在一些示例中，对各缩放级别的地图数据所包含瓦片进行编码的过程如下：

(2)判断瓦片数量n与总阶数m之间的关系。当n-2m＝1时，将各缩放级别下的地图数据划分成m*m个正方形子格网和n个边缘子格网，其中，正方形子格网由4个瓦片构成，与正方形子格网邻接的2m个边缘子格网由2个瓦片构成，与正方形子格网不邻接的1个边缘子格网由1个瓦片构成。

(3)基于Z型填充曲线对所述m*m个正方形子格网进行填充，基于直线型填充曲线对2m个边缘子格网进行填充，将m*m个正方形子格网与2m个边缘子格网的填充曲线连接成为一个整体，将m*m个正方形子格网与2m个边缘子格网的填充曲线延伸至与正方形子格网不邻接的1个边缘子格网。

(4)根据n个瓦片的填充顺序对n个瓦片进行编码。

(5)针对各缩放级别下的地图数据构建各张地图数据表，基于n个瓦片的编码，将n个瓦片顺序存储于相应地图数据表中，其中，属于同一个正方形子格网的4个瓦片存储于相应地图数据表中的同一行，属于同一个边缘子格网的瓦片存储于相应地图数据表中的同一行。

图4(c)为本发明实施例提供的n＝3时地图数据的编码流程示意图。当n＝3时，m取值为1，即地图数据的1个子格网可以通过1阶Z型填充曲线实现填充，其他子格网需要以其他方式进行填充。如图4(c)所示，先将地图数据划分成1个正方形子格网和3个边缘子格网，2个与正方形子格网邻接的边缘子格网(即编号为2和3的子格网)由2个瓦片构成，与正方形子格网不邻接的边缘子格网(即编号为4的子格网)则由1个瓦片组成；之后基于Z型填充曲线对正方形子格网进行填充，基于直线型曲线对编号为2和3的子格网进行填充，之后将正方形子格网以及2个边缘子格网的填充曲线连接成为一个整体，并继续延伸至编号为4的子格网，从而实现对全部子格网的填充；根据填充顺序，对瓦片进行编码。图4(d)为本发明实施例提供的n＝3时地图数据的编码方式示意图。地图数据所包含的9个瓦片的编码如图4(d)所示。

本发明实施例所提供的地图数据的存储模式见表2。表2中，主键Row Key对应于子格网的编号，子格网的编号由子格网的填充顺序决定。列族包含至少四个列，用于存储同属于同一子格网的瓦片，并且瓦片的存储顺序与瓦片的编码顺序一致。列名以瓦片编号命名，可以根据瓦片的XY编号来实现对于特定瓦片的查询。如有备注或其他信息则存储在每个表的备注列。以图4(c)和图4(d)所对应的地图数据来说，该地图数据包含有编号为1、2、3、4的4个子格网，依据4个子格网的编号可以确定主键Row Key，每个子格网所包含的瓦片则分别存储于对应的行中，其中，对于编号为1的子格网，编码为1、2、3、4的4个瓦片依次存储于同一行，对于编号为2的子格网，其仅包含有编码为5和6的2个瓦片，则这2个瓦片依次存储于下一行，对于编号为4的子格网，其仅包含有编码为9的1个瓦片，则将这1个瓦片存储于单独的一行。

表2地图数据存储模式

应该理解的是，由于不同缩放级别下的地图数据所包含的瓦片会发生变化，瓦片数量也会改变，须对各缩放级别下的地图数据分别进行编码，并最终依据编码，将各缩放级别下的地图数据分别存储于各自的地图数据表中。这样，在生成热力图时，通过从HBase分布式数据中查询到相应缩放级别的地图数据的地图数据表，即可以获取相应缩放级别的地图数据。

步骤150，从HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据。

在一些实施例中，从HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据，包括：根据待生成的热力图的缩放级别，确定与待生成的热力图相对应的地图数据的缩放级别；从HBase分布式数据库获取相应缩放级别下的地图数据和聚类数据。基于此，所获取的聚类数据与地图数据的缩放级别相匹配，进而可以解决不同缩放级别下热力图的轨迹数据位置特征形变大的问题，优化数据密集区域的热核现象。

在一些实施例中，从HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据，包括：根据待生成的热力图的缩放级别，确定与待生成的热力图相对应的地图数据的缩放级别；根据待生成的热力图的时间范围，确定与待生成的热力图相对应的聚类数据所属于的时间切片；从HBase分布式数据库获取相应缩放级别下的地图数据以及相应的时间切片下相应缩放级别的聚类数据。

当针对各时间切片所包含的轨迹数据进行聚类时，可以得到针对各时间切片所包含的轨迹数据的聚类数据。在绘制热力图时，除确定热力图的缩放级别，还需要确定热力图的时间范围，并基于热力图的时间范围来确定聚类数据所属于的时间切片，例如，需要绘制反映某一自然日内出租车出行热度的热力图，则需要从HBase分布式数据库中获取该自然日的聚类数据。

步骤160，根据所获取的地图数据和聚类数据，生成热力图。

在一些实施例中，聚类数据包括聚类簇的中心坐标和影响力值以及噪声点的坐标和影响力值。根据聚类簇以及噪声点的影响力值，可以计算聚类簇和噪声点所覆盖区域的灰度值，再结合聚类簇和噪声点的中心坐标，可以在地图数据上生成热力图。这里，基于聚类簇的中心坐标和影响力值以及噪声点的坐标和影响力值，确定灰度值，并结合地图数据生成热力图的过程采用热力图生成领域的常规方法实现，本发明实施例在此不再赘述。

综上所述，本发明实施例提供了一种基于轨迹数据的热力图生成方法，首先获取轨迹数据和地图数据；将所述轨迹数据以原格式存储于Hadoop平台分布式文件***；对所述轨迹数据进行聚类，得到聚类数据；将所述地图数据以及所述聚类数据存储于HBase分布式数据库；从所述HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据；根据所获取的地图数据和聚类数据，生成热力图。基于该方法和装置，可以在保留轨迹数据的位置特征的同时，提高热力图可视化的效率，缩短成图时间，改善因用户交互而发生的卡顿问题，改善用户体验。

以下提供一个具体的实施场景，以进一步说明本发明实施例提供的基于轨迹数据的热力图生成方法。

图5为本发明实施例提供的轨迹数据和地图数据的存储框架的示意图。如图5所示，基于HBase分布式数据库所搭建的轨迹数据与地图数据存储框架总共由5个部分组成。从下到上依次为：1)由PC集群搭建成的Hadoop存储框架；2)依托于HDFS的HBase云数据存储层；3)用于查询数据的数据操作层；4)用于接收请求和调取数据的Web服务层；5)基于Web浏览器的表现层。其中，HBase云数据存储层即HBase分布式数据库，HBase分布式数据库用于存储地图数据和聚类数据，HDFS构建于Hadoop存储框架，用于存储轨迹数据。数据操作层用于实现对于轨迹数据、地图数据以及聚类数据的操作，可以包括地图数据处理模块和轨迹数据处理模块，其中，地图数据处理模块包括地图编码转换模块以及地图数据接口，轨迹数据模块包括原始轨迹数据接口和聚类数据接口。

具体地，本发明实施例搭建了由5个计算机构成的Hadoop集群，各节点内存为8Gb，硬盘为1Tb，CPU为i7处理器。软件配置为Hadoop版本为2.7.6，分布式数据库HBase版本为2.1.9，协调服务zookeeper版本为3.4.14，web服务器使用的Tomcat7.0.90，Java版本为1.8.0。

本发明实施例热力图可视化选择基于B/S架构的WebGIS可视化技术，WebGIS可以理解为基于Web环境的GIS(Geographic Information System，地理信息***)。

图6为本发明实施例提供的地图数据的加载流程图。结合图5所示出的轨迹数据和地图数据的存储框架以及图6，说明地图数据的加载过程。首先，web浏览器根据屏幕显示区域判断所需要瓦片编号，即确定查询条件，并向web地图服务端发送请求，web地图服务端通过地图编码转换模块将瓦片编号转换为查询HBase云数据存储层所需要的编码，即RowKey，通过地图数据接口与HBase云数据存储层进行交互，根据Row Key查询到相应的地图数据表，再通过瓦片编号确定瓦片所在的cell，然后web地图服务端将查询到的地图数据返回到web浏览器端。据此，就实现了对于待生成热力图所须的地图数据的获取过程。

本发明实施例所使用的地图数据为北京地区共18级(即18个缩放级别)地图数据。选取其中一个缩放等级的地图数据进行高压力查询测试，以考察地图数据的加载效率。图7为本发明实施例提供的地图数据加载时长对比图，图7中两条加载时间曲线分别为针对两种编码方式的地图数据的加载时间曲线，其中，第一种编码方式为基于在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行的目的对地图数据进行编码(例如图4(a)至图4(d)所例举的编码方式)，第二种编码方式为依据地图数据在显示状态下瓦片自然排列的顺序对瓦片进行编码(例如图3所例举的编码方式)。由于对地图数据的编码方式决定了地图数据的存储方式，因此，图7所示出的加载时间对比实际是针对两种存储方式的地图数据的加载效率的对比。

从图7可以看出，在请求次数较少时对两种编码方式的地图数据的加载时间相差不多，但随着请求次数的增多，两者之间的差距变得越来越明显。基于在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行的目的对地图数据进行编码，在完成100次的加载后其耗时在2000ms以下，即平均每秒可以完成大约50次完整的加载流程，可以应对可视化交互时发生的高并发情景。可见，在经过上述编码处理后，从发送请求到HBase分布式数据库开始，再到数据返回到Web浏览器端，整体平均加载时间呈现缩短趋势，并且具有较稳定的实时加载速率。

以下提供又一个具体的实施场景，以进一步说明本发明实施例提供的基于轨迹数据的热力图生成方法。

本发明实施例搭建了由5个计算机构成的Hadoop集群，各节点内存为8Gb，硬盘为1Tb，CPU为i7处理器。软件配置为Hadoop版本为2.7.6，分布式数据库HBase版本为2.1.9，协调服务zookeeper版本为3.4.14，web服务器使用的Tomcat7.0.90，Java版本为1.8.0。

本发明实施例所使用的地图数据为北京地区共18级(即缩放级别为18级)地图数据。轨迹数据为北京市出租车某天24小时的轨迹数据，共计约1440多万条记录。随机选取某一时间切片的轨迹数据进行可视化处理。

图8为本发明实施例提供的基于轨迹数据的热力图生成方法的流程图。结合图5所示出的轨迹数据和地图数据的存储框架、图6和图8，说明热力图的生成过程。其中，首先基于图6所示出的地图数据的加载过程对地图数据进行加载。该过程与上一实施场景中的地图数据加载过程相同，本发明实施例在此不再赘述。所加载的地图数据为基于在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行的目的对地图数据进行编码，并基于该编码方式存储于HBase分布式数据库中的地图数据。之后，基于图8所示的可视化过程，结合所获取的聚类数据和地图数据绘制热力图。具体地，对于出租车轨迹数据，将其存储于HDFS中，再基于DBScan算法对轨迹数据进行聚类。针对聚类得到的聚类簇和噪声点，通过逐一遍历全部聚类簇和噪声点的方式计算聚类簇的中心坐标和影响力值以及噪声点的影响力值，待计算完成，将聚类数据入库。这里，每当改变聚类参数，就对轨迹数据进行一轮新的聚类，并对新得到聚类簇和噪声点执行新一轮的遍历，以得到新的聚类数据，从而可以根据地图数据的多个缩放级别得到与各缩放级别相适应的聚类数据。待聚类数据入库，则可以根据热力图生成的需要执行聚类数据的加载过程，在web浏览器端发送数据请求，web地图服务端根据查询条件到HBase分布式数据库查询对应数据，并返回到web浏览器端。Web浏览器端根据聚类数据的影响力值计算灰度值，并绘制热力图。为了与利用聚类数据的热力图生成过程相区分，本发明实施例还提供了基于原始轨迹数据的热力图生成过程。这里，基于原始轨迹数据生成热力图时，直接从HDFS中获取原始轨迹数据，并基于该原始轨迹数据以及所加载的地图数据，绘制热力图。

图9(a)为本发明实施例提供的利用缩放级别为11的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；图9(b)为本发明实施例提供的利用缩放级别为11的地图数据以及聚类数据所生成的热力图；图9(c)为本发明又一个实施例提供的利用缩放级别为12的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；图9(d)为本发明实施例提供的利用缩放级别为12的地图数据以及聚类数据所生成的热力图；图9(e)为本发明实施例提供的利用缩放级别为13的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；图9(f)为本发明实施例提供的利用缩放级别为13的地图数据以及聚类数据所生成的热力图；图9(g)为本发明实施例提供的利用缩放级别为14的地图数据以及未经聚类处理的原始轨迹数据所生成的热力图；图9(h)为本发明实施例提供的利用缩放级别为14的地图数据以及聚类数据所生成的热力图。图9(a)至图9(h)中所标注的“zoom：”字样代表该热力图的缩放级别，时间字样代表生成该热力图所耗费的时间。这里，对于利用聚类数据的热力图生成过程来说，将完成以下过程所耗费的时间作为生成该热力图所耗费的时间：web浏览器端发送数据请求，web地图服务端根据查询条件到HBase分布式数据库查询对应数据，并返回到web浏览器端，Web浏览器端根据聚类数据的影响力值计算灰度值，并绘制热力图。对于直接利用未经聚类处理的原始轨迹数据的热力图生成过程来说，则将完成以下过程所耗费的时间作为生成该热力图所耗费的时间：web浏览器端发送数据请求，web地图服务端根据查询条件到HDFS中查询对应数据，并返回到web浏览器端，Web浏览器端根据所获取的原始轨迹数据绘制热力图。

将相同缩放级别的两张热力图作为一组进行对比，即图9(a)与图9(b)，图9(c)与图9(d)，图9(e)与图9(f)，图9(g)与图9(h)分别组成4组，从每组的对比结果发现，利用未经聚类处理的原始轨迹数据所生成的热力图的热核现象更加严重，位置特征形变较大，热力图生成的时间也更长，可视化效果较差，相对应地，利用聚类数据所生成的热力图，其数据密集区域的热核现象得到了优化，位置特征展示的更加细致，可视化整体效果得到了改善。尤其是利用聚类数据生成热力图时，针对不同的缩放等级设计了不同的聚类参数，所得到的聚类数据与地图数据的缩放等级相适应，因此，更有利于改善数据密集区域的热核现象。图10为本发明实施例提供的热力图的生成时长对比图。由图10可知，在缩放等级较低时，如11级和12级，利用未经聚类处理的原始轨迹数据与利用聚类数据生成热力图所耗费的时长存在一定差距，在缩放等级较高的情况下，聚类数据可视化加载时间有了明显的降低。

综上所述，本发明实施例提供的基于轨迹数据的热力图生成方法在保留数据位置特征的同时，提高了可视化效率，缩短了成图时间，减少了因用户交互而发生的卡顿影响，改善了用户交互体验。本发明实施例提供的基于轨迹数据的热力图生成方法能够实现海量轨迹数据的高效管理、存储，并得到较好的绘制效果。

此外，本发明实施例提供的基于轨迹数据的热力图生成方法基于hadoop框架的高可靠性、高扩展性、高效性以及高容错性等优势，设计了基于HBase平台的轨迹大数据存储方案，在空间数据存储、可视化与扩展领域具有较好的普适性。通过对热力图成图数据的处理，提高了热力图的生成效率，为基于时间属性的轨迹数据挖掘及分析提供了关键技术支撑。

图11示出了本发明实施例提供的基于轨迹数据的热力图生成装置的结构示意图。如图11所示，该基于轨迹数据的热力图生成装置1100包括：第一获取模块1110，用于获取轨迹数据和地图数据；第一存储模块1120，用于将所述轨迹数据以原格式存储于Hadoop平台分布式文件***；聚类模块1130，用于对所述轨迹数据进行聚类，得到聚类数据；第二存储模块1140，用于将所述地图数据以及所述聚类数据存储于HBase分布式数据库；第二获取模块1150，用于从所述HBase分布式数据库获取与待生成的热力图相对应的地图数据以及聚类数据；生成模块1160，用于根据所获取的地图数据和聚类数据，生成热力图。

在一些实施例中，所述第一存储模块，具体用于：将所述轨迹数据分割成多个时间切片，其中，每个时间切片包含一预设的时间范围内的所有轨迹数据；在所述Hadoop平台分布式文件***中，将同一时间切片所包含的轨迹数据以原格式进行集中存储，并且所述多个时间切片依照时间顺序进行邻近存储。

在一些实施例中，所述地图数据具有多个缩放级别；所述聚类模块，包括：第一确定单元，用于根据所述多个缩放级别，确定多组聚类参数；聚类单元，用于针对各时间切片所包含的轨迹数据，根据所述多组聚类参数进行聚类，得到针对各时间切片的对应于所述多个缩放级别的多组聚类数据；所述第二获取模块，包括：第二确定单元，用于根据所述待生成的热力图的缩放级别，确定与所述待生成的热力图相对应的地图数据的缩放级别；第三确定单元，用于根据所述待生成的热力图的时间范围，确定与所述待生成的热力图相对应的聚类数据所属于的时间切片；获取单元，用于从所述HBase分布式数据库获取相应缩放级别下的地图数据以及相应的时间切片下相应缩放级别的聚类数据。

在一些实施例中，所述地图数据具有多个缩放级别；所述聚类模块，包括：第一确定单元，用于根据所述多个缩放级别，确定多组聚类参数；聚类单元，用于根据所述多组聚类参数，对所述轨迹数据进行聚类，得到对应于所述多个缩放级别的多组聚类数据；所述第二获取模块，包括：第二确定单元，用于根据所述待生成的热力图的缩放级别，确定与所述待生成的热力图相对应的地图数据的缩放级别；获取单元，用于从所述HBase分布式数据库获取相应缩放级别下的地图数据和聚类数据。

在一些实施例中，所述各组聚类参数包括扫描半径；所述第一确定单元，具体用于：根据所述多个缩放级别，确定各缩放级别对应的扫描半径；其中，各缩放级别对应的扫描半径随着相应缩放级别的减小而减小。

在一些实施例中，所述各组聚类参数包括最小包含点数；所述第一确定单元，具体用于：根据所述多个缩放级别，确定各缩放级别对应的最小包含点数，其中，各缩放级别对应的最小包含点数随着相应缩放级别的减小而减少。

在一些实施例中，所述各组聚类数据包括多个聚类簇的中心坐标和影响力值以及多个噪声点的坐标和影响力值。

在一些实施例中，所述聚类是基于DBScan算法实现的。

在一些实施例中，所述第二存储模块，包括：第一构建单元，用于分别针对各时间切片的对应于各缩放级别的各组聚类数据构建各张聚类数据表。

在一些实施例中，所述地图数据具有多个缩放级别；所述第二存储模块，包括：第二构建单元，用于针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行。

在一些实施例中，所述第二构建单元，具体用于：根据各缩放级别下的地图数据中每行所包含的瓦片数量n，计算所述各缩放级别下的地图数据的总阶数m，其中，当n-2m＝1时，将所述各缩放级别下的地图数据划分成m*m个正方形子格网和n个边缘子格网，其中，所述正方形子格网由4个瓦片构成，与所述正方形子格网邻接的2m个边缘子格网由2个瓦片构成，与所述正方形子格网不邻接的1个边缘子格网由1个瓦片构成；基于Z型填充曲线对所述m*m个正方形子格网进行填充，基于直线型填充曲线对所述2m个边缘子格网进行填充，并将所述m*m个正方形子格网以及所述n个边缘子格网用连线连接；根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；针对各缩放级别下的地图数据构建各张地图数据表，基于所述n个瓦片的编码，将所述n个瓦片顺序存储于相应地图数据表中，其中，属于同一个正方形子格网的4个瓦片存储于相应地图数据表中的同一行，属于同一个边缘子格网的瓦片存储于相应地图数据表中的同一行。

在一些实施例中，所述第二构建单元，具体用于：根据各缩放级别下的地图数据中每行所包含的瓦片数量n，计算所述各缩放级别下的地图数据的总阶数m，其中，当n＝2m时，将各缩放级别的地图数据划分成m*m个正方形子格网，其中，所述正方形子格网由4个瓦片构成；基于Z型填充曲线对所述m*m个正方形子格网进行填充；根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；针对各缩放级别下的地图数据构建各张地图数据表，基于所述n个瓦片的编码，将所述n个瓦片顺序存储于相应地图数据表中，其中，属于同一个正方形子格网的4个瓦片存储于相应地图数据表中的同一行。

图12示出了本发明实施例的电子设备。如图12所示，电子设备1200包括：至少一个处理器1210，以及与所述至少一个处理器1210通信连接的存储器1220，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的方法。

具体地，上述存储器1220和处理器1210经由总线1230连接在一起，能够为通用的存储器和处理器，这里不做具体限定，当处理器1210运行存储器520存储的计算机程序时，能够执行本发明实施例中结合图1至图10所描述的各项操作和功能。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的方法。具体实现可参见方法实施例，在此不再赘述。

尽管本发明实施例的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明实施例的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明实施例并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于轨迹数据的热力图生成方法，其特征在于，包括：

获取轨迹数据和地图数据；

将所述轨迹数据以原格式存储于Hadoop平台分布式文件***；

对所述轨迹数据进行聚类，得到聚类数据；

根据所获取的地图数据和聚类数据，生成热力图；

所述地图数据具有多个缩放级别；

所述将所述地图数据存储于HBase分布式数据库，包括：

针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行；

所述针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行，包括：

根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；

2.如权利要求1所述的基于轨迹数据的热力图生成方法，其特征在于，所述将所述轨迹数据以原格式存储于Hadoop平台分布式文件***，包括：

将所述轨迹数据分割成多个时间切片，其中，每个时间切片包含一预设的时间段内的所有轨迹数据；

3.如权利要求2所述的基于轨迹数据的热力图生成方法，其特征在于，

所述对所述轨迹数据进行聚类，得到聚类数据，包括：

根据所述多个缩放级别，确定多组聚类参数；

4.如权利要求1所述的基于轨迹数据的热力图生成方法，其特征在于，

所述对所述轨迹数据进行聚类，得到聚类数据，包括：

根据所述多个缩放级别，确定多组聚类参数；

5.如权利要求3或4所述的基于轨迹数据的热力图生成方法，其特征在于，

所述各组聚类参数包括扫描半径；

所述根据所述多个缩放级别，确定多组聚类参数，包括：

6.如权利要求3或4所述的基于轨迹数据的热力图生成方法，其特征在于，

所述各组聚类参数包括最小包含点数；

所述根据所述多个缩放级别，确定多组聚类参数，还包括：

7.如权利要求3或4所述的基于轨迹数据的热力图生成方法，其特征在于，所述各组聚类数据包括多个聚类簇的中心坐标和影响力值以及多个噪声点的坐标和影响力值。

8.如权利要求3或4所述的基于轨迹数据的热力图生成方法，其特征在于，所述聚类是基于DBScan算法实现的。

9.如权利要求3所述的基于轨迹数据的热力图生成方法，其特征在于，所述将所述聚类数据存储于HBase分布式数据库，包括：

10.如权利要求1所述的基于轨迹数据的热力图生成方法，其特征在于，所述针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行，包括：

基于Z型填充曲线对所述m*m个正方形子格网进行填充；

根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；

11.一种基于轨迹数据的热力图生成装置，其特征在于，包括：

第一获取模块，用于获取轨迹数据和地图数据；

聚类模块，用于对所述轨迹数据进行聚类，得到聚类数据；

生成模块，用于根据所获取的地图数据和聚类数据，生成热力图；

所述地图数据具有多个缩放级别；

所述第二存储模块，包括：

第二构建单元，用于针对各缩放级别下的地图数据构建各张地图数据表，将各缩放级别下的地图数据所包含的在显示状态下彼此相邻的4张瓦片存储于相应地图数据表中的同一行；

所述第二构建单元，具体用于：

根据所述n个瓦片的填充顺序对所述n个瓦片进行编码；

12.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-10中任一项所述的方法。

13.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1-10中任一项所述的方法。