CN104778245B

CN104778245B - 基于海量车牌识别数据的相似轨迹挖掘方法及装置

Info

Publication number: CN104778245B
Application number: CN201510167058.XA
Authority: CN
Inventors: 丁维龙; 赵卓峰; 卢帅; 张帅; 韩燕波
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2015-04-09
Filing date: 2015-04-09
Publication date: 2018-11-27
Anticipated expiration: 2035-04-09
Also published as: CN104778245A

Abstract

本发明公开了一种基于海量车牌识别数据的相似轨迹挖掘方法及装置。该方法包括轨迹组织与筛选、点伴随关系计算、轨迹相似性判定三个主要步骤；本发明克服海量数据集下计算响应时间滞后问题，基于车牌识别数据分析提高了计算的准确度，使用Hadoop MapReduce分布式处理方式提高计算效率，高效快速挖掘相似轨迹，可以用于交通业务领域的伴随车辆的发现。

Description

基于海量车牌识别数据的相似轨迹挖掘方法及装置

技术领域

本发明属于信息技术领域的方法，可以在智能交通领域中基于海量车牌识别数据快速高效的发现车辆相似轨迹，进而用于识别伴随车辆。

本发明又涉及大数据分析的装置，在Hadoop MapReduce集群环境使用所述方法完成相似轨迹计算，用于智能交通领域的数据挖掘，可为公安民警办案提供辅助。

背景技术

城市路网中车辆的相似轨迹挖掘，是智能交通领域重要的业务计算，相关研究一直是重点和热点，可以用于智能交通***、智慧城市环境的公交车路线设计，犯罪嫌疑车辆布控，也可以基于车辆行车规律为城市道路规划提供参考建议，具有深远的社会经济意义。相似轨迹挖掘需要发现车辆轨迹在空间维度和时间维度上的相似性，是一种典型的大数据分析计算。具体的，基于海量车牌识别数据的车辆相似轨迹挖掘，针对任意历史时期或当前时间段，以不同的相似性定义及约束条件，来发现车辆相似轨迹。这里所述的车牌识别数据来自城市通行车辆信息采集，相关的车牌识别技术是近年来新兴的一类技术：分析道路摄像头采集的车辆图像信息，识别其中的车牌号，并将出现位置、拍摄时间、拍摄照片和行车方向等信息封装为车牌识别数据。随着监控技术的完善，车牌捕获率与识别准确率显著提高，基于车牌识别数据的车辆出行信息采集技术在众多城市被广泛采纳，带动了相关领域业务的挖掘分析技术和计算装置的发展。车辆作为移动对象，位置随着时间连续变化。相比基于GPS技术的浮动车车辆数据采集技术，基于车牌识别数据的车辆信息采集技术具有工作连续性强、数据精确度高、检测样本量大、覆盖车辆范围广等优点。来源于城市道路实时监测的车牌识别数据，包含监测时间、地理位置等典型的时空属性，以及车辆本身的相关属性，具有典型的时空相关、时序连续、位置可测的特征。另外，由于前端设备通过专网连接且部署广泛，车牌识别数据具有海量、更新频率高的特征。一个大型城市一年即可累积百亿条以上车牌识别数据记录，数据集的规模将大大超过传统采样方法，所以海量车牌识别数据对相似轨迹挖掘业务计算也提出了更高的要求。

在基于相似轨迹的车辆伴随模式挖掘方面，伊利诺伊大学的Lu-An Tang等人在旗舰会议International Conference on Data Engineering给出了一种伴侣候选集合模型和加速处理的智能交叉方法，用于从车载GPS的动态流式数据中低开销的获取车辆的出行伴侣。公安部交通管理科学研究所的方艾芬等人在《计算机应用与软件》撰文，基于过车数据给出了一种伴随车辆的发现算法，将伴随车辆的查询问题转化为数据挖掘的关联规则挖掘问题，方法具有效率高和扩展性强的特点。哈尔滨工业大学的赵新勇在《交通运输***工程与信息》发表文章，基于车辆识别数据对车辆行车特征进行分析，并依据特定经验指标值筛选出可能的伴随车辆。在轨迹数据流的相似性度量方面，哈尔滨工程大学的赵洪斌等人，分析了道路网络空间轨迹相似的性质，在《计算机工程与应用》中提出一种移动对象轨迹建模的时空表示方法，将轨迹从道路网络空间转化到欧氏空间，并给出一种基于兴趣点POI(Points Of Interesting)距离的轨迹间相似性测量方法，有效地对轨迹进行化简并减少轨迹中节点的数目，从而降低算法时间复杂度，避免在实际应用中移动对象常受限于空间网络而无法利用现有欧氏空间中轨迹及其距离处理技术。类似的，张延玲等人基于路网空间移动对象的特性，考虑时空相似性而非仅是空间相似性，在《软件》杂志提出了一种路网空间中移动对象相似轨迹搜索方法。

从以上国内外相关工作可以看到，车辆相似轨迹挖掘的研究尚处于发展阶段，技术相对不成熟。主要存在以下两方面的问题或缺陷：

第一方面，当前工作研究大多基于有限的数据集，如数天内浮动车的GPS监控数据，而非数月级别的车辆识别数据，对当前海量交通数据带来复杂性考虑不足，导致大数据环境下处理效率低下或查询缓慢。

第二方面，算法设定支持度等参数时多没有考虑车辆作为移动对象的特点，随着设定值偏高或偏低，导致查询结果过多或过少，以及正确率低。

针对海量车牌识别数据的挖掘分析，提出适用性的参数设定，迄今为止尚未见到相关报道。

发明内容

本发明的目的是为了克服上述技术缺陷，从而解决海量车牌识别数据下相似轨迹挖掘效率和准确性不高的问题。

本发明通过点伴随关系定义车辆轨迹相似度，提出一种基于多级任务并行计算的相似轨迹挖掘方法。所述方法通过Hadoop MapReduce分布式环境，将计算进行任务分解、调度和并行执行，实现高效的优化处理。

具体而言，本发明公开了如下技术方案：

1.一种基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述方法包括：

(1)轨迹组织与筛选步骤，用于去除无效冗余数据；

(2)点伴随计算步骤，用于维护中间点伴随结果集；

(3)轨迹相似性判定，用于统计并计算车辆轨迹相似度，获得具有相似性轨迹的伴随车辆对。

2.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，其中所述的轨迹组织与筛选步骤，利用一种轨迹链表结构存储处理过程中涉及的车辆识别数据，该步骤通过三级流水线的第一级完成，是一个MapReduce计算作业，输入海量车牌识别数据集，输出结果是轨迹链表集合1，并传递给第二级流水线使用。

3.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的点伴随计算步骤，用于获得中间点伴随结果集；该步骤利用所述的轨迹链表集合1的第一级的计算结果，通过三级流水线的第二级完成，是另一个MapReduce作业的实现，输入所述的轨迹链表结构1，输出结果是轨迹链表集合2，并传递给第三级流水线使用。

4.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的轨迹相似性判定步骤，用于计算车辆轨迹相似度，获得具有相似轨迹的伴随车辆对；该步骤利用所述的轨迹链表集合2的第二级的计算结果，通过三级流水线的第三级完成，是又一个MapReduce作业的实现，输入所述的轨迹链表结构2，输出结果是轨迹链表集合3，并最终写入文件***或数据库。

5.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的海量车牌识别数据集用L表示，是指受测路网上各监测点捕获的所有车辆信息数据；每条车牌识别数据l∈L可表示为其中v_i表示车牌号码(可唯一标识一个车辆)，表示车辆v_i经过监测点n_k；进一步，其中表示车辆经过的监测点n_k的地理位置，表示车辆经过监测点n_k的时间。

6.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的车辆轨迹用t_i表示，是车辆v_i在一个时间范围内按时间顺序经过的一组监测点序列；

进一步，t_i可以表示为：其中，对任意p<q,有t_i中包含的监测点数目称为轨迹的长度，记为l_i。

7.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的点伴随用sim_n(v_i,v_j)表示，是指两个车辆v_i和v_j在一定时间阈值δ_t内先后经过某监测点n_p且其满足以下条件的一种关系：在一定时间范围内经过同一监测点的两个车辆在该监测点仅可能存在一次点伴随关系。

8.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，通过轨迹相似度判定相似轨迹；轨迹相似度是指两条车辆轨迹的相似程度，用simD(t_i,t_j)表示；

进一步，其中l_i和l_j分别为车辆i和车辆j轨迹长度，m为所述两辆车途经具有点伴随关系的监测点数目。

9.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的车辆轨迹t_i和车辆轨迹t_j为相似轨迹，是指给定轨迹相似度阈值δ_d、轨迹长度阈值δ_l和在时间范围dur内，t_i和t_j是同时满足以下两个条件的轨迹对：

(1)轨迹t_i和t_j的相似度simD(t_i,t_j)≥δ_d；

(2)轨迹t_i和t_j的轨迹长度l_i≥δ_l，l_j≥δ_l。

10.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述方法中获取相似轨迹的计算，可以按照步骤5—9的描述，设定不同参数的阈值用于限定计算条件，避免较短车辆轨迹作为相似轨迹的误判，并对无效数据进行过滤；具体如下：

假设给定点伴随时间阈值δ_t、轨迹相似度阈值δ_d和轨迹长度阈值δ_l，利用已有车牌识别数据集L，找出在给定的时间范围dur内所有符合所述定义的车辆相似轨迹集合ST；

具体的，

11.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的第一级流水线MapReduce作业过程，对车辆轨迹长度小于给定轨迹长度阈值的进行删除，并进一步建立所有车辆的轨迹链表；具体的，可以进一步分解为以下两步：

(1)Map任务从文件***中分片读取车牌识别数据，获得给定时间范围dur的车牌识别数据；所述车牌识别数据按监测时间划分数据分片；所述Map任务将车牌识别数据记录转换为以车牌号为键、以时间和监测点为值的数据项；相同键的数据项将发送至同一Reduce任务；

(2)Reduce任务将车牌识别数据按车牌号组织为车辆轨迹链表，形成所述时间范围dur内的轨迹；所述Reduce任务对每个车辆轨迹链表判断长度，删除小于轨迹长度阈值δ_l的链表，将其余符合条件的轨迹作为所述的轨迹链表集合1输出。

12.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的第二级流水线MapReduce作业过程可以分为如下两步：

(1)Map任务读取第一级作业的结果，转换为监测点为键、监测时间和车牌号为值的数据项，传递给Reduce任务；相同键的数据项将发送至同一Reduce任务；

(2)Reduce任务将同一监测点的数据项组织为一个过车链表，形成数个所述的过车链表；所述Reduce任务按照监测时间先后排序和计算点伴随，输出满足点伴随关系的结果数据项；所述结果数据项包含两车的车牌号、伴随时间范围和各自轨迹长度。

13.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的点伴随计算，是按如下方式进行的：

(1)获取未处理的过车链表，从表头开始获取数据项1；

(2)若数据项1存在未扫描的后续数据项2，标记数据项2为已扫描，判断两个数据项1和数据项2所含时间属性之差是否小于时间阈值：如果满足阈值，输出数据项1包含的车牌号1和数据项2包含的车牌号2组合为键，伴随时间范围为值，转(2)；如果不满足阈值，转(2)；

(3)若数据项1不存在未扫描的后续，如果数据项1不是所述链表最后一项，则将数据项1的直接后续数据项标记为数据项1，转(2)；如果数据项1是所述链表最后一项，则标记该链表已处理，转(1)。

14.所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的的第三级流水线MapReduce作业过程可以分为如下两步：

(1)Map任务读取第二级流水线MapReduce作业输出的结果，车牌号组合相同数据将发送至同一Reduce任务处理；

(2)Reduce任务对车牌号组合进行计数，也即形成两辆的点伴随关系计数；计算所述两辆车的轨迹相似度，输出满足相似度阈值的结果数据项；所述结果数据项，以所述两辆车的车牌号键，以伴随时间范围、点伴随次数和轨迹相似度为值。

15.一种基于海量车牌识别数据的相似轨迹挖掘装置，其特征在于，包含如下部件：

(1)数据存储模块：该模块与数据读取划分模块、数据分块计算模块和相似轨迹计算模块相连接，采用分布式文件***架构；该模块存放海量车牌识别数据、作业的中间数据和结果、路网监测点基础数据和相似轨迹挖掘最终结果；

(2)数据读取划分模块：该模块与数据存储模块、数据分块计算模块相连接，用于轨迹组织与筛选；该模块读取数据存储模块中的海量车牌识别数据，按监测点划分去除无效冗余数据，将满足要求的各分块的数据子集传给数据分块计算模块进行计算；

(3)数据分块计算模块：该模块与数据存储模块、数据读取划分模块相连接，接收数据读取划分模块的分块数据子集，用于点伴随计算；计算结果存入数据存储模块的中间结果集；

(4)相似轨迹计算模块：该模块与数据存储模块、人机交互接口相连接，用于轨迹相似性计算及判定；该模块根据人机交互接口传递的参数，读取数据分块计算模块存入数据存储模块的中间结果集，计算获得具有相似轨迹的车辆对，并将结果返回人机交互接口；

(5)人机交互接口：此模块与相似轨迹算模块相连接，该模块为用户提供交互界面，支持用户输入计算参数，所述参数包括轨迹长度阈值，点伴随时间阈值，相似度阈值以及时间范围；所述参数将传递给相似轨迹计算模块，所述人机交互接口接收所述相似轨迹计算模块的计算结果，并将该计算结果在所述交互界面中的地图中为用户呈现。

本发明可以有效应用于海量车牌识别数据的相似轨迹挖掘，计算效率高且适应性强。这可以根据如下的实验测试说明。例如，本发明的装置部署在十台机器的集群上，每台机器配置为4核CPU、4G内存，集群可用的分布式存储容量为800G。上述配置的装置，基于某市80天的真实车牌识别数据(数据量在4亿条以上)，挖掘其中某天相似轨迹的计算需要2分钟左右。根据在人机交互接口模块输入的阈值不同，计算结果可以在地图页面中展示几十到几千条不同的相似轨迹。

附图说明

本发明可以参考下文附图所进行的描述而得到更好的理解，并且在所有附图中，使用了相同或者相似的附图标记来标识。所述附图连同下面的详细说明一起包含在本说明书中且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实例和解释本发明的原理和优点。在附图中：

图1为本发明的无效冗余数据筛选示意图；

图2为本发明的车辆相似轨迹挖掘的基本流程；

图3为本发明的点伴随计算流程图；

图4为本发明的相似轨迹挖掘装置的架构图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。需要声明的是，下述的具体实施例仅仅是示意性说明，除非有特别说明，本申请的不同实施例以及各个实施例中的不同优化手段、即便没有在同一实施例中阐述，也应该被理解成能够被应用于在这里描述的任何其它方面、实施例或者例子，除非与之不相容或在本文中被明确地排除在外，否则本申请所有没有穷尽的实施方式之间的组合或子组合都是在本发明的记载及保护范围内。以下将结合说明书及附图详细阐述本发明主旨及其优选实施方式。

实施例1

本发明提供了一种相似轨迹挖掘装置，其主要包括数据存储模块、读取数据划分模块、数据分块计算模块、相似轨迹计算模块和人机交互接口。下面参考附图4详细说明各个模块。

数据存储模块：该模块与数据读取划分模块、数据分块计算模块和相似轨迹计算模块相连接，采用分布式文件***架构；该模块存放海量车牌识别数据、作业的中间数据和结果、路网监测点基础数据和相似轨迹挖掘最终结果；

数据读取划分模块：该模块与数据存储模块、数据分块计算模块相连接，用于轨迹组织与筛选；该模块读取数据存储模块中的海量车牌识别数据，按监测点划分去除无效冗余数据，将满足要求的各分块的数据子集传给数据分块计算模块进行计算；

数据分块计算模块：该模块与数据存储模块、数据读取划分模块相连接，接收数据读取划分模块的分块数据子集，用于点伴随计算；计算结果存入数据存储模块的中间结果集；

相似轨迹计算模块：该模块与数据存储模块、人机交互接口相连接，用于轨迹相似性计算及判定；该模块根据人机交互接口传递的参数，读取数据分块计算模块存入数据存储模块的中间结果集，计算获得具有相似轨迹的车辆对，并将结果返回人机交互接口；

人机交互接口：此模块与相似轨迹算模块相连接，该模块为用户提供交互界面，支持用户输入计算参数，所述参数包括轨迹长度阈值，点伴随时间阈值，相似度阈值以及时间范围；所述参数将传递给相似轨迹计算模块，所述人机交互接口接收所述相似轨迹计算模块的计算结果，并将该计算结果在所述交互界面中的地图中为用户呈现。

道路摄像头传感器实时捕获识别数据，通过专网传输至所述的相似轨迹挖掘装置。该数据的数据项包括监测时间、监测点ID、车牌号等22个属性，以结构化的数据项形式，存储至装置的数据存储模块，作为历史车牌识别数据。该数据以天为单位形成一个文本文件。基于所述存储的海量历史车牌识别数据，本发明的装置可以进行车辆相似轨迹的计算和挖掘。

装置对车牌识别数据进行冗余筛选处理，去除无效冗余数据信息。现实场景中可能会出现下述情况，某辆车在车牌识别数据集只出现了很少几次(例如小于等于2次)，使得轨迹长度过短，相关计算结果没有意义。所以需要筛除这类无效冗余数据。图1展示了去除数据的情形：车辆1、3、7的识别数据只在历史数据中出现了一次，小于设定的阈值2，经第一级作业计算后可以被去除，计算结果如图1右边所示。通过筛选去除无效冗余数据，减小了数据集的规模，能够提高之后两级作业的计算速度和准确率。

本发明还包括一种基于海量车牌识别数据的相似轨迹挖掘方法：

(1)轨迹组织与筛选步骤，用于去除无效冗余数据；

(2)点伴随计算步骤，用于维护中间点伴随结果集；

所述的轨迹组织与筛选步骤，利用一种轨迹链表结构存储处理过程中涉及的车辆识别数据，该步骤通过三级流水线的第一级完成，是一个MapReduce计算作业，输入海量车牌识别数据集，输出结果是轨迹链表集合1，并传递给第二级流水线使用。

所述的点伴随计算步骤，用于获得中间点伴随结果集；该步骤利用所述的轨迹链表集合1的第一级的计算结果，通过三级流水线的第二级完成，是另一个MapReduce作业的实现，输入所述的轨迹链表结构1，输出结果是轨迹链表集合2，并传递给第三级流水线使用。

所述的轨迹相似性判定步骤，用于计算车辆轨迹相似度，获得具有相似轨迹的伴随车辆对；该步骤利用所述的轨迹链表集合2的第二级的计算结果，通过三级流水线的第三级完成，是又一个MapReduce作业的实现，输入所述的轨迹链表结构2，输出结果是轨迹链表集合3，并最终写入文件***或数据库。

所述的海量车牌识别数据集用L表示，是指受测路网上各监测点捕获的所有车辆信息数据；每条车牌识别数据l∈L可表示为其中v_i表示车牌号码(可唯一标识一个车辆)，表示车辆v_i经过监测点n_k；进一步，其中表示车辆经过的监测点n_k的地理位置，表示车辆经过监测点n_k的时间。

所述的车辆轨迹用t_i表示，是车辆v_i在一个时间范围内按时间顺序经过的一组监测点序列；进一步，t_i可以表示为：其中，对任意p<q,有t_i中包含的监测点数目称为轨迹的长度，记为l_i。

所述的点伴随用sim_n(v_i,v_j)表示，是指两个车辆v_i和v_j在一定时间阈值δ_t内先后经过某监测点n_p且其满足以下条件的一种关系：在一定时间范围内经过同一监测点的两个车辆在该监测点仅可能存在一次点伴随关系。

方法通过轨迹相似度判定相似轨迹；轨迹相似度是指两条车辆轨迹的相似程度，用simD(t_i,t_j)表示；

所述的车辆轨迹t_i和车辆轨迹t_j为相似轨迹，是指给定轨迹相似度阈值δ_d、轨迹长度阈值δ_l和在时间范围dur内，t_i和t_j是同时满足以下两个条件的轨迹对：

(1)轨迹t_i和t_j的相似度simD(t_i,t_j)≥δ_d；

(2)轨迹t_i和t_j的轨迹长度l_i≥δ_l，l_j≥δ_l。

所述方法中获取相似轨迹的计算，可以设定不同参数的阈值用于限定计算条件，避免较短车辆轨迹作为相似轨迹的误判，并对无效数据进行过滤；具体如下：

具体的，

所述的第一级流水线MapReduce作业过程，对车辆轨迹长度小于给定轨迹长度阈值的进行删除，并进一步建立所有车辆的轨迹链表；具体的，可以进一步分解为以下两步：

所述的第二级流水线MapReduce作业过程可以分为如下两步：

所述的点伴随计算，是按如下方式进行的：

(1)获取未处理的过车链表，从表头开始获取数据项1；

所述的的第三级流水线MapReduce作业过程可以分为如下两步：

实施例2

结合图2基本流程对相似轨迹挖掘流程进行说明。首先，读取历史车牌识别数据，剔除无效冗余数据实现数据筛选；然后对筛选后的数据进行点伴随关系计算，将点伴随结果写入相似轨迹候选集；最后根据设定的阈值计算轨迹相似度，返回满足条件的相似轨迹及相关伴随车辆。在图2中，

S1是历史车牌识别数据，作为原始数据用于接下来的计算。经过第一级作业轨迹组织与筛选的过程后，结果形成轨迹链表集合S2写入装置的数据存储模块。

S2是经历了第一级作业的轨迹组织与筛选后的轨迹链表集合，是剔除无效冗余数据后的车辆轨迹数据集。针对S2，装置将经过第二级作业的计算，按监测点划分数据，并按经过监测点的时间先后排序，将监测点相同的所有数据项组织到一个过车链表；从链表头结点开始，依次对比之后在时间范围阈值内的所有数据项，并判断是否具有点伴随关系。计算完成后形成S3，写入装置的数据存储模块。

S3是经历了第二级作业的点伴随关系计算后的结果，是相似轨迹候选集。针对S3装置将经过第三级作业计算轨迹相似度从而判断轨迹相似性。这个过程中，对于S3提取车牌对、时间范围、点伴随数目和轨迹长度等信息；通过车牌对，将两个车牌号及车辆伴随时间存入链表。这个链表的每个数据项，记录了两辆车在指定时间范围内在某个监测点的一次伴随关系。之后，对每一记录判断相似度是否满足之前设置的阈值，如果满足阈值该记录将写入装置的数据存储模块。例如，下述输出记录，体现了两辆车(京888888与京999999)在2012年11月13日早上8点到10点的两个小时内，在监测点JNC88888存在一次伴随关系，各自的轨迹长度为12和15。

<京888888，京999999，<2012-11-1308:00:00，2012-11-1310:00:00>，JNC88888，12,15>

S4是经历了第三级作业的轨迹相似性判定后的结果，记录了具有相似轨迹的两辆车。装置将计算各个监测点的不同车辆对的相似度，将满足判断阈值的结果写入数据存储模块。例如，下述输出记录，体现了两辆车(京888888与京999999)在2012年11月13日早上8点到10点的两个小时内，点伴随的次数为15个，轨迹相似程度为88％。

<京888888，京999999，<2012-11-1308:00:00，2012-11-1310:00:00>，0.88,15>。

实施例3

第二级作业按如下方式组织车辆过车链表。假定某个监测点获取的车牌识别数据，时间跨度从2012年11月13日0点至24点。该数据读入第一级作业计算筛选去除冗余后的轨迹链表集合，本发明所述方法提取每条数据中监测点，车牌号，记录时间等属性项，按经过监测点的时间先后排序，针对每个监测点形成在所述时间范围内的过车链表。所述某个监测点链表结构如下述输出记录所示。

<监测点ID<车牌1,时间1，轨迹长度1；车牌2,时间2，轨迹长度2；...；车牌n,时间n，轨迹长度n>>

实施例4

第二级作按图3所示的流程计算点伴。其中，在指定时间范围内的一对车辆i和j若具有点伴随关系，此时将伴随车辆对的车牌号、各自轨迹长度、伴随时间范围作为中间结果集写入所述S3。

实施例5

具体的，第三级作业将第二级作业的结果按监测点进行统计，计算所有车辆对的所有点伴随次数和两车轨迹相似的时间范围；随后可计算所述两车的轨迹相似度，将所有结果写入所述S4。

最后应该说明的是，以上仅用以说明本发明的技术方案而非限制。尽管对本发明进行了详细的说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

(1)轨迹组织与筛选步骤，用于去除无效冗余数据；

(2)点伴随计算步骤，用于维护中间点伴随结果集；

(3)轨迹相似性判定，用于统计并计算车辆轨迹相似度，获得具有相似性轨迹的伴随车辆对；

所述的轨迹组织与筛选步骤，利用一种轨迹链表结构存储处理过程中涉及的车辆识别数据，该步骤通过三级流水线的第一级流水线完成，是一个MapReduce计算作业，输入海量车牌识别数据集，输出结果是轨迹链表集合l，并传递给第二级流水线使用；

所述的第一级流水线的MapReduce计算作业过程，对车辆轨迹长度小于给定轨迹长度阈值的进行删除，并进一步建立所有车辆的轨迹链表，具体包括以下两步：

2.根据权利要求1所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的点伴随计算步骤，用于获得中间点伴随结果集；该步骤利用所述的轨迹链表集合1的第一级的计算结果，通过三级流水线的第二级完成，是另一个MapReduce作业的实现，输入所述的轨迹链表集合1，输出结果是轨迹链表集合2，并传递给第三级流水线使用。

3.根据权利要求2所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的轨迹相似性判定步骤，用于计算车辆轨迹相似度，获得具有相似轨迹的伴随车辆对；该步骤利用所述的轨迹链表集合2的第二级的计算结果，通过三级流水线的第三级完成，是又一个MapReduce作业的实现，输入所述的轨迹链表集合2，输出结果是轨迹链表集合3，并最终写入文件***或数据库。

4.根据权利要求1所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的海量车牌识别数据集用L表示，是指受测路网上各监测点捕获的所有车辆信息数据；每条车牌识别数据l∈L可表示为其中v_i表示车牌号码，表示车辆v_i经过监测点n_k；进一步，其中表示车辆经过的监测点n_k的地理位置，表示车辆经过监测点n_k的时间。

5.根据权利要求1所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的车辆轨迹用t_i表示，是车辆v_i在一个时间范围内按时间顺序经过的一组监测点序列；进一步，t_i可以表示为：其中，对任意p<q，有t_i中包含的监测点数目称为轨迹的长度，记为l_i；表示车辆v_i经过监测点n_k，表示车辆i经过监测点n_k的时间。

6.根据权利要求2所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的点伴随用sim_n(v_i,v_j)表示，是指两个车辆v_i和v_j在一定时间阈值δ_t内先后经过某监测点n_p且其满足以下条件的一种关系：在一定时间范围内经过同一监测点的两个车辆在该监测点仅可能存在一次点伴随关系；其中，表示车辆i经过监测点n_k的时间。

7.根据权利要求3所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，通过轨迹相似度判定相似轨迹；轨迹相似度是指两条车辆轨迹的相似程度，用simD(t_i，t_j)表示；进一步，其中l_i和l_j分别为车辆i和车辆j轨迹长度，m为两辆车i、j途经具有点伴随关系的监测点数目。

8.根据权利要求7所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，车辆轨迹t_i和车辆轨迹t_j为相似轨迹，是指给定轨迹相似度阈值δ_d、轨迹长度阈值δ_l和在时间范围dur内，t_i和t_j是同时满足以下两个条件的轨迹对：

(1)轨迹t_i和t_j的相似度simD(t_i,t_j)≥δ_d；

(2)轨迹t_i和t_j的轨迹长度l_i≥δ_l，l_j≥δ_l。

9.根据权利要求4至8之一所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述方法中获取相似轨迹的计算，设定不同参数的阈值用于限定计算条件，避免较短车辆轨迹作为相似轨迹的误判，并对无效数据进行过滤；具体如下：

假设给定点伴随时间阈值δ_t、轨迹相似度阈值δ_d和轨迹长度阈值δ_l，利用已有车牌识别数据集L，找出在给定的时间范围dur内所有符合ST定义的车辆相似轨迹集合ST；

具体的，

10.根据权利要求2所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的第二级流水线MapReduce作业过程可以分为如下两步：

11.根据权利要求10所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的点伴随计算，是按如下方式进行的：

(1)获取未处理的过车链表，从表头开始获取数据项1；

(2)若数据项1存在未扫描的后续数据项2，标记数据项2为已扫描，判断两个数据项1和数据项2所含时间属性之差是否小于时间阈值：如果满足阈值，则输出数据项1包含的车牌号1、数据项2包含的车牌号2组合为键，同时伴随时间范围为值，转(3)；如果不满足阈值，转(3)；

若数据项1不存在未扫描的后续，转(3)；

(3)如果数据项1不是所述链表最后一项，则将数据项1的直接后续数据项标记为数据项1，转(2)；如果数据项1是所述链表最后一项，则标记该链表已处理，转(1)。

12.根据权利要求3所述的基于海量车牌识别数据的相似轨迹挖掘方法，其特征在于，所述的的第三级流水线MapReduce作业过程可以分为如下两步：

(2)Reduce任务对车牌号组合进行计数，也即形成两辆车的点伴随关系计数；计算所述两辆车的轨迹相似度，输出满足相似度阈值的结果数据项；所述结果数据项，以所述两辆车的车牌号为键，以伴随时间范围、点伴随次数和轨迹相似度为值。

13.一种基于海量车牌识别数据的相似轨迹挖掘装置，其特征在于，包含如下部件：

(2)数据读取划分模块：该模块与数据存储模块、数据分块计算模块相连接，该模块读取数据存储模块中的海量车牌识别数据，按监测点划分去除无效冗余数据，将满足要求的各分块的数据子集传给数据分块计算模块进行计算；

所述相似轨迹计算模块，还用于轨迹组织与筛选，利用一种轨迹链表结构存储处理过程中涉及的车辆识别数据，通过三级流水线的第一级流水线完成，是一个MapReduce计算作业，所述的第一级流水线的MapReduce计算作业过程，对车辆轨迹长度小于给定轨迹长度阈值的进行删除，并进一步建立所有车辆的轨迹链表，具体包括以下两步：

1)Map任务从文件***中分片读取车牌识别数据，获得给定时间范围dur的车牌识别数据；所述车牌识别数据按监测时间划分数据分片；所述Map任务将车牌识别数据记录转换为以车牌号为键、以时间和监测点为值的数据项；相同键的数据项将发送至同一Reduce任务；

2)Reduce任务将车牌识别数据按车牌号组织为车辆轨迹链表，形成所述时间范围dur内的轨迹；所述Reduce任务对每个车辆轨迹链表判断长度，删除小于轨迹长度阈值δ_l的链表，将其余符合条件的轨迹作为轨迹链表集合1输出；

(5)人机交互接口：此模块与相似轨迹计算模块相连接，该模块为用户提供交互界面，支持用户输入计算参数，所述参数包括轨迹长度阈值，点伴随时间阈值，相似度阈值以及时间范围；所述参数将传递给相似轨迹计算模块，所述人机交互接口接收所述相似轨迹计算模块的计算结果，并将该计算结果在所述交互界面中的地图中为用户呈现。