CN104952248A

CN104952248A - 一种基于欧氏空间的车辆汇聚预测方法

Info

Publication number: CN104952248A
Application number: CN201510310640.7A
Authority: CN
Inventors: 王总辉; 陈文智; 潘俊良; 李川
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-06-08
Filing date: 2015-06-08
Publication date: 2015-09-30
Anticipated expiration: 2035-06-08
Also published as: CN104952248B

Abstract

本发明公开了一种基于欧氏空间的出租车汇聚预测方法，包括如下步骤：(1)获取待预测区域内所有出租车的载客运行轨迹，并对各个载客运行轨迹进行预处理；(2)对所述步骤(1)的预处理结果进行线段聚类得到聚类结果，并根据所述的聚类结果进行运动模式挖掘；(3)根据当前时刻各个出租车的位置和运动模式挖掘结果，预测设定时间内到达设定位置的出租车。本发明的汇聚预测方法在不需要知道路网状况的条件下，能够根据出租车的历史轨迹数据，对其将来轨迹进行预测，并基于此，将其应用于对给定地点出租车的汇聚预测。

Description

一种基于欧氏空间的车辆汇聚预测方法

技术领域

本发明涉及智能交通技术领域，具体涉及一种基于欧氏空间的车辆汇聚预测方法。

背景技术

如今，面对着全球信息化的发展趋势，传统的交通技术和手段已经不再适应经济社会的发展要求。智能交通***是交通事业发展的必然选择。智能交通随着传感器技术、通信技术、GIS技术(地理信息***)、3S技术(遥感技术、地理信息***、全球定位***三种技术)和计算机技术的不断发展而发展。

近年来，随着卫星定位技术的成熟和普遍，现在的交通工具，包括车辆，基本都配备了卫星定位设备来对车辆的轨迹进行定时记录。因此，每天会有大量的车辆卫星定位轨迹数据产生。对车辆运营过程中产生的卫星定位数据进行数据挖掘是智能交通领域的研究热点。

现有的对于卫星定位数据进行挖掘的方法有很多。例如Guo Q,Luo J,等人在文献“A■data-driven approach for convergence prediction on roadnetwork”(Web and Wireless Geographical Information Systems.Springer BerlinHeidelberg,2013:41-53)中提出了一种基于路网的预测车辆未来轨迹的方法，该方法中不需要事先知道任何的个人驾驶习惯，并且提出了一个统计模型来预测实时的基于路网的车辆汇聚情况。

由于一些实际因素的影响，譬如传输过程中的包丢失、时间间隔过长的定时位置更新策略等，车辆等移动对象的位置更新可能会遗漏部分路径信息，因此导致数据库中的车辆卫星定位轨迹存在不确定性。

针对该问题，郭黎敏等人在文献“基于路网的不确定性轨迹预测”(计算机研究与发展，2010,47(1):104-112.)中提出了一种基于路网的不确定性轨迹生成的方法及其表示形式以及不确定性轨迹频繁模式挖掘的算法，此外还提供了一种快速查找轨迹模式的索引结构。该方法提供了一种能够减少实际过程中遇到的如包丢失等情况所带来的误差的有效方法。，但是也存在如下问题：前提是必须知道路网信息的情况下，才能进行后续操作

发明内容

针对现有技术的不足，本发明提出了一种基于欧氏空间的车辆汇聚预测方法。

一种基于欧氏空间的车辆汇聚预测方法，包括如下步骤：

(1)获取待预测区域内所有车辆的载客运行轨迹，并对各个载客运行轨迹进行预处理；

(2)对所述步骤(1)的预处理结果进行线段聚类得到聚类结果，并根据所述的聚类结果进行运动模式挖掘；

(3)根据当前时刻各个车辆的位置和运动模式挖掘结果，预测设定时间内到达设定位置的车辆。

本发明中待预测区域应理解为设定位置所在的地区，通常为一个城市或城市中某一设定区域根据应用需求设定。

本发明中载客轨迹可通过如下方法获取：

首先获取待预测区域内所有车辆在设定时间段内运行的历史卫星定位数据(直接从车辆公司获取)。所述的卫星定位数据包括车牌号、各个卫星定位数据获取的时间戳，位置(位置坐标，包括经度和纬度)、空重车状态等等。其中，空重车状态即载客状态，重车状态表示处于载客状态，轻车状态表示处于未载客状态。

然后针对每一辆车辆，对其历史卫星定位数据进行筛选，筛选出卫星定位数据中车辆载客时(即为重车状态时)的卫星定位数据，并将筛选出的卫星定位数据按照车牌号和时间戳排序，然后以各个卫星定位数据作为轨迹点绘制得到该车辆的载客运行轨迹。

所述步骤(1)中通过如下步骤对每一个载客运行轨迹进行预处理：

(1-1)确定该载客运行轨迹的时间跳跃点和空间跳跃点的位置，并根据时间跳跃点和空间跳跃点的位置对该载客运行轨迹进行轨迹分离；

(1-2)采用Douglas-Peucker算法对轨迹分离后的结果进行轨迹简化得到预处理后的载客运行轨迹。

作为优选，通过如下方法确定时间跳跃点的位置：

若载客运行轨迹中任意两个相邻的卫星定位数据(轨迹点)对应的时间戳的间隔大于设定的时间阈值，则认为该相邻的两个卫星定位数据之间存在时间跳跃点。

进一步优选，通过如下方法确定空间跳跃点的位置：

若载客运行轨迹中任意两个相邻的卫星定位数据(轨迹点)对应的位置之间空间欧几里得距离(即欧氏距离)的大于设定的空间阈值，则认为该相邻的两个卫星定位数据之间存在空间跳跃点。

其中，时间阈值和空间阈值根据车辆的运行规律设定，时间阈值通常为10～20分钟，优选为15分钟。空间阈值为2～3km，优选为2.5km。

轨迹分离的目的是将运行轨迹分割成多个单次运行轨迹。单次运行轨迹是指车辆有目的地从一个地点移动到另一个地点的过程中的运动轨迹。单次运行轨迹是后面挖掘运动模式的基础，因为运动模式反映的是车辆在完成一个单次运行轨迹时的运动习惯和路径选择偏好。轨迹分离通过识别分离点的方式实现，分离点包括时间跳跃点、空间跳跃点、速度异常点、长时间停留点(在预处理时已经处理好)等。

作为优选，所述步骤(1-1)中对载客运行轨迹进行轨迹分离如下：

(1-11)根据时间跳跃点的位置将对各个车辆的载客轨迹进行轨迹分类得到相应的单次运行轨迹作为轨迹分离结果；

(1-12)针对任意一个单次运行轨迹，根据空间跳跃点的位置对当前单次运行轨迹进行划分得到若干子运行轨迹作为轨迹分离结果。

为进一步提高预测精度，进一步优选，所述步骤(1-1)中对载客运行轨迹进行轨迹分离得到子运行轨迹后还对所述的子运行轨迹进行速度判决：

若所述子运行轨迹中任意两个连续点之间的速度超过预设的速度阈值，则认为后面那个点为异常点，并舍弃该异常点，得到修正子运行轨迹作为轨迹分离结果。通过速度判决能够有效去除错误的卫星定位数据，可以有效提高预测精度。

所述步骤(1-2)采用基于高线的Douglas-Peucker算法对各轨迹分离结果进行轨迹简化。本发明中得到的轨迹分离结果仍然是轨迹，对其进行轨迹简化具体包括如下步骤：

(a)将轨迹分离结果的两个端点连接成线段；

(b)确定轨迹分离结果上离该线段距离最远的点，计算该距离最远的点到线段的高线距离，并进行如下操作：

若该高线距离小于预设的高线距离阈值，则舍弃该点，并以舍弃后的轨迹分离结果作为简化运行轨迹(即预处理后的载客运行轨迹)；

否则，保留距离最远的点，并将其与两个端点相连接，得到两条子线段；

(c)针对得到的两条子线段分别执行步骤(b)。

所述的高线距离阈值的范围为50～150m，优选为80m。

由于轨迹分离之后得到的结果中通常会包含了很多冗余的记录。例如当某个对象(车辆)长时间在某个位置停留时将连续报告一系列经纬度相同的位置信息，某个对象直线行驶时将报告多个在同一条直线上的点。这些冗余的记录可能是没有意义的或者可以由其它记录通过线性拟合的方式推断出来。轨迹简化的目的就是去掉单次运行轨迹中这些冗余记录，只保留轨迹中的关键点。

所述步骤(2)中基于欧氏空间距离对所有预处理结果进行线段聚类，包括如下步骤：

(2-1)将各预处理结果划分为若干线段；

本发明中的预处理结果经过预处理后的载客运行轨迹，实际上也是运行轨迹，对其划分线段时，直接以相邻两个点之间作为一个线段即可。针对每一个预处理结果，最终得到的线段数量取决于实际情况，但由于对数据进行过预处理，实际每条载客运行轨迹分离得到的线段数量不会相差太大。

(2-2)针对当前预处理结果对应的任意一条线段，在其他预处理结果对应的线段中确定与其距离最近的线段：

若该两条线段之间的距离小于预设的线段距离阈值，则将该两条线段聚为同一类；

否则，以该线段单独作为一个类；

(2-3)针对任意两个类，计算二者之间的距离，若所述的距离小于预设的类距离阈值，则将二者合并为一类；

否则，不处理；

(2-4)返回执行步骤(2-3)直至总类数不变时停止；

(2-5)统计每个类中的线段数量，舍弃线段数量小于预设线段数量阈值的类。

所述的线段距离阈值为150m，所述的类距离阈值为150m，所述的线段数量阈值15。实际应用时，线段距离阈值、类距离阈值以及线段数量阈值均可根据实际应用需求设定。

所述步骤(2)中进行运动模式挖掘过程如下：

(S1)针对任意两个类，计算任意两个类之间的距离，并根据距离以及当前两个类中线段的连接关系判断当前两个类之间的邻近关系：

若当前两个类之间的距离小于预设的拼接距离阈值，则根据各个线段在其所对应(即所来源)的各预处理结果中位置判断其中可拼接的线段的对数，若可拼接的对数大于预设的对数阈值，则认为该两个类相邻，否则，不相邻。

所述的拼接距离阈值通常为500～1500，本发明优选1000。

所述的对数阈值为3～7，本发明中优选为3。

本发明中对于属于不同聚类的两个线段：

若该两个线段对应来源的预处理结果，且二者在对应的预处理结果中的位置连续(即两条线段中时序在前的线段的终点和时序在后的线段的起点相邻，即中间不存在其他点)，则认为该两个线段可拼接。

本发明中线段的时序由线段的起点或终点对应的卫星定位数据的采集时间确定。例如由起点采集时间确定时，起点对应的卫星定位数据的采集时间在前，则认为该线段为时序在前，相反，若起点对应的卫星定位数据的采集时间在后，则认为该线段为时序在后。

本发明中为保证确定各个线段的来源以及确定可拼接的线段，在聚类过程中将各预处理结果划分为若干线段时，可对各个线段添加标记，该标记用于说明该线段的来源(即其所对应的预处理结果)和该线段在对应的预处理结果中的位置。

由于线段来源于连续的轨迹(预处理结果)，线段的来源可先对预处理结果进行编号，以编号表示对应关系。

该线段在对应的预处理结果中的位置可以在划分线段时，将每次划分得到的线段的起始点在预处理结果中的排序编号赋给该线段作为线段编号以表示线段在对应的预处理结果中的位置。

相应的，对于属于不同类的两个线段：

若该两个线段对应相同的预处理结果，且二者在对应的预处理结果中的位置连续(即用于表示线段在对应的预处理结果中的位置的编号连续)，则认为该两个线段可拼接。

(S2)根据所有类的邻近关系构建频繁模式树，所述频繁模式树中根节点用于保存与该根节点相连的子节点的列表，其子节点与线段聚类一一对应；所述频繁模式树中每一个非根节点包含cluster和support两个属性，cluster属性表示该节点对应的类，Support值表示从该节点到深度为1的节点的车辆运行轨迹的数量。

根据所有类的邻近关系构建频繁模式树时首先根据各个聚类之间的相邻关系，构建用于表示相邻关系的有向连通关系，在连通图中的节点表示类，边表示相邻的两个类之间的连接关系，且边上的箭头表示两个类之间的位置关系。

然后根据该有向连通图，生成频繁模式树，来表示我们所得到的频繁运动轨迹。其中，频繁运动轨迹根据各个聚类的邻近关系，将相邻的聚类拼接生成一个运动模式，将该运动模式对应的聚类的代表线段按照相邻关系连接即得到频繁运动轨迹。

需要注意的是，模式树中的每一个深度大于1的节点到其深度为1的父节点的路径都是一条运动模式，而且所有的运动模式在该树中都以这种形式存在。

频繁模式树的根节点只用于保存与该根节点相连的子节点的列表，所有的子节点与线段聚类一一对应。以深度为1的节点为根的子树保存了以该节点对应的线段聚类结尾的所有频繁运动轨迹。

频繁运动轨迹是指车辆通过频率较高的路段轨迹，其反映的是车辆的运动规律和运动习惯。它也可以看成是一组历史轨迹的共同子轨迹，但是直接比较历史轨迹去寻找共同子轨迹复杂度太高，因此我们采用从短的共同子轨迹延长到长的共同子轨迹的方法。最短的共同子轨迹即为线段的聚类，其长度为1。长度为2的共同子轨迹可以通过连接两个线段聚类来获得。两个线段聚类连接成长度为2的共同子轨迹的条件是：1)两个类的地理位置相连；2)存在一定数量的历史轨迹依次通过这两个类所在的区域。通过类似的过程可以将长度为N的共同子轨迹延伸成长度为N+1的共同子轨迹，从而挖掘出长的共同子轨迹，这些子轨迹就可以作为下一步预测的基础。

本发明中任意两个类之间的距离通过如下方法计算：

确定各个类的代表线段，以每个类的代表线段之间的距离作为两个类之间的距离。

所述的代表线段为对应类中的所有线段的起点和终点的位置平均值，即将所有起点的坐标相加后求平均作为代表线段的起点坐标，将所有终点的坐标相加后求平均作为代表线段的终点坐标。

本发明中起点和终点按照线段两个端点对应的卫星定位数据的采集时间(即时间戳)确定，时序在前的为起点，时序在后的为终点。

所述步骤(3)中针对任意一辆车辆进行如下操作：

(3-1)将设定位置(即待预测位置)和当前时刻该车辆的位置归并到所述的频繁模式树上，并根据归并结果计算得到设定位置以及当前时刻各个车辆在频繁运动轨迹中的投影位置和对应的时间戳；所述时间戳表示该频繁运动轨迹中该投影位置对应的卫星定位数据的采集时间。具体方法如下：

确定与预设位置距离最近的类，计算预设位置点到该类代表线段的距离：

(a)若该距离大于预测范围阈值(通常取30～100，本发明中优选为50)，则预测失败(即通过现有的频繁运动轨迹预测不出该车辆将来的运行轨迹)；

(b)否则，进行继续确定与当前时刻车辆的位置距离最小的类：

(b1)若该最小距离大于预设的预测范围阈值，则认为该车辆经过设定时间不能到达设定位置，并舍弃该车辆；

(b2)否则，从该车辆的位置向距离最小的类的代表线段作垂线，并以垂足位置作为该车辆在频繁运动轨迹中的投影位置，并计算该投影位置对应的时间戳：

(c)根据投影位置与投影位置所属类的代表线段两个端点的位置关系，按照比例计算出该投影位置对应的时间戳。

通过如下步骤计算出该投影位置对应的时间戳：

假设所属类的代表线段的两个端点分别为A，对应的时间戳为T1、B对应的时间戳T2，投影位置为N，对应的时间戳为T3，根据长度比例关系计算投影位置对应的时间戳T3通过如下公式计算：

T3＝T1+(AN/AB)*(T2-T1))，

其中，AN为A到N之间的距离，AB为A到B之间的距离。

本发明中首先通过确定预设位置与各类之间的距离与预设的阈值进行比较，从而确定出该位置是否可以预测，通过设定预测条件，大大提高了车辆汇聚预测方法的实用性和预测效率。

(3-2)根据当前时刻该车辆的位置在频繁运动轨迹中的投影位置和时间戳计算该车辆经过预设时间后所处的位置作为预测位置；

(3-3)计算预测位置与设定位置之间的距离，若小于阈值(通常取30～80，本发明中优选为50)且该投影位置在频繁模式树中对应的节点的Support值大于3，则认为该车辆经过设定时间能够到达设定位置，否则，认为该车辆经过设定时间不能到达设定位置。

本发明的预测方法，还可以通过统计能够到达设定位置处的车辆的数量直接预测得到在设定时间可能到达设定位置处的车辆的数量。

未作特殊说明，本发明中的距离全部指欧氏空间距离，即欧式距离。

与现有技术相比，本发明具有如下优点：

在不需要知道路网状况的条件下，能够根据车辆的历史轨迹数据，对其将来轨迹进行预测，并基于此，将其应用于对给定地点车辆的汇聚预测。通过这一应用，能够在一定程度上得到一些有帮助的信息：如预测某一交通路口在接下来一段时间的车辆流量状况；可以通过预测车辆的汇聚状况，来感知到某地正在发生一些重要的事件，比如该地正在举行演唱会，足球赛等；可以为需要乘车辆的人进行预测自己等待车辆需要多少时间；或者是对一些重要部门如政府机构等地的安全进行监控，倘若有较多的车辆在接下来的一段时间内会汇聚在这些地方，则应当引起一定的重视。

附图说明

图1为本实施例的基于欧氏空间的车辆汇聚预测方法的流程图；

图2为线性L_i和线段L_j之间的距离示意图；

图3为有向连通图的结构示意图；

图4为频繁模式树的结构示意图。

具体实施方式

下面将结合附图和具体实施例对本发明进行详细描述。

一种基于欧氏空间的车辆汇聚预测方法，如图1所示，包括如下步骤：

(1)获取待预测区域内所有车辆在设定时间段内运行的卫星定位数据(直接从车辆所属公司获取)。

本实施例的卫星定位数据包括车牌号、时间戳，位置(经度+纬度)、空重车状态等等。其中，空重车状态即载客状态，重车状态表示处于载客状态，轻车状态表示处于未载客状态。

(2)对获取的卫星定位数据进行预处理。

首先，筛选出卫星定位数据中车辆载客时(即为重车状态时)的卫星定位数据，并将筛选出的卫星定位数据按照车牌号和时间戳分别排序得到车辆的载客运行轨迹。

(3)针对每辆车辆，对其载客轨迹进行轨迹分离，针对当前车辆进行轨迹分离时具体进行操作如下：

(3-1)根据时间跳跃点的位置将对当前载客轨迹进行划分，得到每辆车辆对应的单次运行轨迹；

(3-2)针对任意一个单次运行轨迹，根据空间跳跃点的位置将当前单次运行轨迹进行划分，得到对应的子运行轨迹；

本实施例中时间跳跃点的位置通过如下方法确定：

相邻两个卫星定位数据的时间戳的间隔大于设定的时间阈值(本实施例中时间阈值取15分钟)，则认为该相邻的两个卫星定位数据之间存在时间跳跃点。

本实施例中定义空间跳跃点的位置通过如下方法确定：

相邻两个卫星定位数据的空间欧几里得距离(即欧氏距离)大于设定的空间阈值(本实施例中取2.5km)，则认为该相邻的两个卫星定位数据之间存在空间跳跃点。

(3-3)根据运行速度对各个子运行轨迹进行修正得到修正子运行轨迹，具体如下：

计算子运行轨迹中任意两个时序相邻的卫星定位数据之间车辆的运行速度，若运行速度大于预设的速度阈值，则认为其中时序在后的卫星定位数据异常，并将该异常的卫星定位数据从子运行轨迹中删除；否则，不操作。

本实施例中对子运行轨迹进行速度判决时预设的速度阈值S_max为60m/s。

其中，步骤(3-2)和(3-3)为优选，能够进一步提高预测精度。

轨迹分离的目的是将这样的历史轨迹分割成多个单次运行轨迹。单次运行轨迹是指车辆有目的地从一个地点移动到另一个地点的过程中的运动轨迹。单次运行轨迹是后面挖掘运动模式的基础，因为运动模式反映的是车辆在完成一个单次运行轨迹时的运动习惯和路径选择偏好。轨迹分离通过识别分离点的方式实现，分离点包括时间跳跃点、空间跳跃点、速度异常点、长时间停留点(在预处理时已经处理好)等。

(4)采用基于高线的Douglas-Peucker算法对修正子运行轨迹进行轨迹简化得到简化运行轨迹(为便于后续操作，此时对每个简化运行轨迹进行编号，并按照时序先后依次对简化运行轨迹中的各个点进行编号)。

(4-1)将修正子运行轨迹的两个端点连接成线段；

(4-2)在修正子运行轨迹的两个端点之间找到离该线段距离最远的点，并求出该最远的点到该线段的高线距离；

(4-3)若该高线距离小于所设定的高线距离阈值(本实施例中该高线距离阈值等于80m)，则舍弃该点，否则，保留该点，并与两个端点相连接，得到两条子线段；

(4-4)对得到的两条子线段分别执行(4-2)～(4-3)步骤，直到没有在(4-3)步骤中没有新的保留点产生(即没有产生新的子线段)为止。

由于对象报告位置信息的时间间隔较短，轨迹分离之后得到的单次运行轨迹包含了很多冗余的记录。例如当某个对象长时间在某个位置停留时将连续报告一系列经纬度相同的位置信息，某个对象直线行驶时将报告多个在同一条直线上的点。这些冗余的记录可能是没有意义的或者可以由其它记录通过线性拟合的方式推断出来。轨迹简化的目的就是去掉单次运行轨迹中这些冗余记录，只保留轨迹中的关键点。

(5)将所有车辆对应的简化运行轨迹进行线段聚类

本实施例中聚类对象为经上述步骤简化得到的简化运行轨迹，聚类方法如下：

(5-1)将各简化运行轨迹拆分为若干线段(相邻两个点形成一个线段，例如：十个点可拆分为9个线段)，并对每一条线段进行标记，标记包括其所属的简化运行轨迹的编号，以及该线段是其所属的简化运行轨迹中的第几条线段。

本实施例中是所属的简化运行轨迹中的第几条线段根据该拆分得到的线段的起点在简化运行轨迹中的编号确定，为便于实现，可直接以起点在简化运行轨迹中的编号表示该线段是其所属的简化运行轨迹中的第几条线段。

(5-2)针对每一条线段，找到离其最近的线段，并计算出这两条线段之间的距离。

针对任意两条线段L_i与线段L_j，二者之间的距离d通过如下公式计算：

d＝d_⊥+d_||+d_e

且：d_||＝Max(l_||1，l_||2)，d_θ＝||L_f||*sin(θ)，

其中，||L_f||为线段L_j的长度，

l_⊥1，l_⊥2分别为过线段L_j的两个端点到线段L_i的长度，

l_||1，l_||2分别为线段L_i的两个端点到距离其最近的垂线的距离，所述的垂线包括过线段L_j的两个端点到线段L_i的两条垂线，

θ为线段L_i与线段L_j的夹角。

下面将结合图2以线段L_i和线段L_j之间的距离为例进行说明两条线段之间的距离定义：如图2所示，线段L_i与线段L_j，它们的端点分别是s_i、s_i、s_j、e_j，p_s、p_e分别为过s_j、e_j向线段L_j做垂线得到的垂足，l_⊥1，l_⊥2分别是这两条垂线的长度，l_||1，l_||2分别是s_i到p_s和s_j到p_e的距离。θ为过s_j做与线段L_i平行的平行线与线段L_j的夹角，d_θ为过s_j做与线段L_i平行的平行线和l_⊥2线段的交点到e_j的距离。

线段L_i与线段L_j之间的距离d由三部分组成：d_⊥,d_||，d_θ，d＝d_⊥+d_||+d_θ，其中：

d_||＝Max(l_||1，l_||2)，d_θ＝||L_f||*sin(θ)。

(5-3)若二者之间的距离小于预设的线段距离阈值(本实施例中取150m)则将两条轨迹聚为同一类，并计算出这个类的代表线段(定义如下)，否则，以当前线段单独作为一个小类；

(5-4)计算任意两个小类的距离(聚类之间距离定义如下)，同样，小于预设的类距离阈值(本实施例中取150m)的归为一类，大于则不处理；循环步骤(5-4)直至聚类结果不再改变时停止；

两个聚类间的距离：两个聚类(即类)的代表线段之间的距离即为聚类之间的距离。其中，每个类的代表线段通过如下方法获取：

将该类中的所有线段的起点的位置求平均作为起点，所有线段的终点的位置求平均作为终点的位置，将起点和终点相连所得到的线段即为该聚类代表线段。

对于任何线段，线段的起点和终点按照其两个端点对应的卫星定位数据的采集时间确定，时序在前的为起点，时序在后的为终点。

(5-5)统计每个聚类中的线段数量：当数量小于数量阈值(本实施例中取15)，则舍弃该类；否则，保留，进而得到最终聚类结果。

上一步输出的每一条简化轨迹都可以表示成首尾相连的有向线段，线段聚类是指将这些线段进行分类，即将非常相似(线段首尾端点在地理位置上相近)的线段聚集在一起。线段聚类的目的有两个：1)过滤对象通过频率较低的路段；2)找出经过各个路段的轨迹，为运行模式挖掘做准备。每个线段聚类包含了一组各个属性非常相似的线段(这些属性包括位置、方向和长度)，因此每个聚类内部的线段都可以用一条代表线段来表示。

(6)根据聚类结果对所有车辆进行运动模式挖掘，具体方法如下：

(6-1)计算任意两个类之间的距离，对于距离小于拼接距离阈值(本实施例中取1000)的两个类判断其中可拼接的线段的对数，若对数大于对数阈值(本实施例中取3)，则认为该两个类相邻，否则，不相邻；

(6-2)相邻情况确定完毕后，根据各个聚之间的相邻关系，用连通图来表示聚类(即类)之间的连通关系。

本实施例的连通图是一个有向图。以图3所示为例，在连通图中的节点为线段聚类，边表示聚类之间的连接关系。存在Ci→Cj的边的条件是Ci代表轨迹的终点与Cj代表轨迹的起点非常接近，其中，i＝1,2,3,4；j＝1,2,3,4。

(6-3)根据该连通图生成相应的频繁模式树，以表示车辆的频繁运动轨迹。

本实施例中频繁运动轨迹：根据各个聚类的邻近关系，将相邻的聚类拼接生成一个运动模式，将该运动模式对应的聚类的代表线段按照相邻关系连接即得到频繁运动轨迹。

模式树(即频繁模式树)的根节点只用于保存子节点的列表，其子节点(即深度为1的节点)与线段聚类的聚类结果(即类)对应，以深度为1的节点为根的子树保存了以该节点对应的线段聚类的所有频繁运动轨迹。如图4所示的频繁模式树，该模式树具有9个节点，分别为N0、N1、N2、N3、N4、N5、N6、N7、N8，该9个节点分别对应四个聚类(分别为C1、C2、C3和C4)，可以看出，以N1为根的子树保存了以C1结尾的C4-C2-C1、C2-C1和C3-C1这三条频繁运动轨迹。

模式树的每一个非根节点包含cluster和support两个属性，cluster属性表示节点关联的线段聚类，support属性表示从该节点到深度为1的节点的路径代表的频繁运动轨迹的support值，实际为从该节点到深度为1的节点的车辆单次运行轨迹的数量。例如C4-C2-C1这个频繁运动轨迹的support值就保存在节点N8中，C2-C1的support值保存在N5中等等。

根据定义，support属性表示从该节点到深度为1的节点的路径代表的频繁运动轨迹的support值，所以同理，C1中的30表示C1节点到深度为1(就是它自己)的节点的频繁运动轨迹的support值。

需要注意的是，模式树中的每一个深度大于1的节点到其深度为1的父节点的路径都是一条运动模式，而且所有的运动模式在该树中都以这种形式存在。如图中的C4-C2模式，虽然在N1子树中C2和C4也以父子关系存在，但是它们并不构成一条运动模式。其support在N1子树中也无法计算出来，而是保存在N2子树中。

频繁运动轨迹是指车辆通过频率较高的路段轨迹，其反映的是车辆的运动规律和运动习惯。它也可以看成是一组历史轨迹的共同子轨迹，但是直接比较历史轨迹去寻找共同子轨迹复杂度太高，因此我们采用从短的共同子轨迹延长到长的共同子轨迹的方法。最短的共同子轨迹即为线段的聚类，其长度为1。长度为2的共同子轨迹可以通过连接两个线段聚类来获得。两个线段聚类连接成长度为2的共同子轨迹的条件是：1)两个聚类的地理位置相连；2)存在一定数量的历史轨迹依次通过这两个聚类所在的区域。通过类似的过程可以将长度为N的共同子轨迹延伸成长度为N+1的共同子轨迹，从而挖掘出长的共同子轨迹，这些子轨迹就可以作为下一步预测的基础。

(7)汇聚预测

进行预测时已知当前时刻所有车辆的位置。本实施例中设定如下预测目标：预测在t时间内，运动到设定位置P点处的车辆的数量。

预测过程如下：

(7-1)将P点和所给定的车辆的位置点(即当前时刻所有车辆的位置)归并到模式树上，归并方法如下：

(7-11)找到离P点距离最近的一个聚类，计算P点到该聚类代表线段的距离，若该距离大于预测范围阈值(通常取30～100，本实施中取50)，则预测失败；否则，进行如下操作：

(7-12)对给定的车辆位置分别找到离其最近的一个聚类，计算车辆位置与该聚类代表线段之间的距离，若大于预测范围阈值，则舍弃该车辆位置点(即通过现有的频繁运动轨迹预测不出该车辆将来的运行轨迹)，否则，通过该车辆位置点向最近的聚类的代表线段作垂线，并以垂足为该车辆的新位置点(即在频繁运动轨迹中的投影位置)。

(7-2)根据车辆新位置点与所处聚类代表线段两个端点的位置关系，按照比例计算出该新位置点的时间戳(假设两个端点为A(经度，纬度，时间戳T1)、B(经度，纬度，时间戳T2)，车辆新位置点为N(经度，纬度，时间戳T3)，根据长度比例关系，T3＝T1+(AN/AB)*(T2-T1))。

(7-3)根据新位置点的时间戳T3，和t(给定的预测时间)，基于模式树得到该车辆在(T3+t)时刻时，在频繁轨迹中的位置P′

(7-4)计算P′到P点的欧几里得距离，若小于阈值(通常取30～80，本发明中取50)，并且(7-2)中的车辆新位置点N所在聚类在模式树种的support值大于3，则预测车辆数量加1，否则不加。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于欧氏空间的车辆汇聚预测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(1)中通过如下步骤对每一个载客运行轨迹进行预处理：

3.如权利要求2所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(1-1)中对载客运行轨迹进行轨迹分离如下：

4.如权利要求3所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(1-1)中对载客运行轨迹进行轨迹分离得到子运行轨迹后还对所述的子运行轨迹进行速度判决：

若所述子运行轨迹中任意两个连续点之间的速度超过预设的速度阈值，则认为后面那个点为异常点，并舍弃该异常点，得到修正子运行轨迹作为轨迹分离结果。

5.如权利要求2所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(1-2)采用基于高线的Douglas-Peucker算法对各轨迹分离结果进行轨迹简化。

6.如权利要求1～5中任意一项所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(2)中基于欧氏空间距离对所有预处理结果进行线段聚类，包括如下步骤：

(2-1)将各预处理结果划分为若干线段；

否则，以该线段单独作为一个类；

否则，不处理；

(2-4)返回执行步骤(2-3)直至类别数量不变时停止；

(2-5)统计每个类别中的线段数量，舍弃线段数量小于的预设的线段数量阈值的类。

7.如权利要求6所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(2)中进行运动模式挖掘过程如下：

(S1)针对任意两个类，计算任意两个类之间的距离，并根据距离以及当前两个类中线段的连接关系判断当前两个类之间的邻近关系；

8.如权利要求7所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(S1)判断当前两个类之间的邻近关系的方法具体如下：

若当前两个类之间的距离小于预设的拼接距离阈值，则根据各个线段在其所来源的各预处理结果中位置判断其中可拼接的线段的对数，若可拼接的对数大于预设的对数阈值，则认为该两个类相邻，否则，不相邻。

9.如权利要求8所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，任意两个类之间的距离通过如下方法计算：

10.如权利要求9所述的基于欧氏空间的车辆汇聚预测方法，其特征在于，所述步骤(3)中针对任意一辆车辆进行如下操作：

(3-1)将当前时刻该车辆的位置归并到所述的频繁模式树上，并根据归并结果计算得到当前时刻该车辆在频繁运动轨迹中的投影位置和对应的时间戳；

(3-3)计算预测位置与设定位置之间的距离，若小于阈值且该投影位置在频繁模式树中对应的节点的Support值大于3，则认为该车辆经过设定时间能够到达设定位置，否则，认为该车辆经过设定时间不能到达设定位置。