CN108564788B

CN108564788B - 一种基于流式大数据的同行车辆发现方法

Info

Publication number: CN108564788B
Application number: CN201810580649.3A
Authority: CN
Inventors: 刘宴兵; 刘浩宇; 程川云; 肖云鹏; 朱萌钢; 帅杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2021-09-10
Anticipated expiration: 2038-06-07
Also published as: CN108564788A

Abstract

本发明请求保护一种基于流式大数据的同行车辆发现方法，包括步骤：首先，针对卡口车流量和分支数量进行聚类，通过得到的卡口类簇对卡口进行角色标识，验证了卡口车流量的幂律性。其次，在流式数据的基础上引入Spark‑streaming时间滑动窗口，根据行车轨迹得到车辆之间的上下文环境，完成对同行语料库的创建和完善。最后提出PDGC(plate‑number dynamic graph computing)算法，基于动态语料库和卡口角色标识建立车辆之间的动态关系图，把卡口角色作为影响因子和车辆之间的图进行关联，通过实时对车辆关系图的剪边和对同行车辆之间边权重的计算得到同行车组。有效降低了数据处理的复杂度。能够实时发现同行车辆组，不仅可以用于搜索相似轨迹，也可通过计算车辆图顶点的出度和入度来挖掘到跟踪车辆。

Description

一种基于流式大数据的同行车辆发现方法

技术领域

本发明属于大数据挖掘领域，主要是涉及智能交通领域，尤其是一种基于大数据的同行车辆发现方法。

背景技术

随着移动设备和识别技术的进步，大量的轨迹数据被记录下来，这些数据被集中用于轨迹聚类、交通管理、离群点检测、兴趣区域、隐私保护、位置推荐等方面。轨迹数据来源有两类，一种来自外部设备：卡口探头拍摄的移动对象信息数据，这种数据记录了移动对象的特征。另外一种轨迹数据是移动对象自己产生的：行人身上的移动设备产生的定位数据，车辆自带设备产生的GPS数据，包括移动对象的位置信息等数据。人们期望通过轨迹数据发现与特定对象一起移动的团体，即同行团体。例如，对动物轨迹研究可以让科学家们发现物种迁移的规律；对车辆轨迹的研究可以发现同行车组，应用到交通管理，公安治理和军事监视等领域。本文基于一种特殊的流式时空数据，即ANPR(车牌自动识别)数据建立模型来实时挖掘同行车组。

当前，对于同行车辆挖掘问题主要集中在两个方向：(1)基于GPS轨迹数据获得同行车辆组，针对GPS数据进行同行车辆挖掘主要通过几种途径：基于轨迹相似性运用聚类算法得到同行车组；限制车辆之间的地理距离和一起移动的时间。(2)基于卡口探头拍摄数据挖掘同行车组。这种数据通常以流的形式传输到数据中心,用于进一步的分析和挖掘。一些学者处理流式数据，通过密度聚类尝试实时得到同行团体。还有部分学者采用分布式处理框架Hadoop和Spark，实现了频繁项集挖掘算法的并行化，并对频繁项集挖掘算法进行了优化。但是，实时发现同行车辆组属于动态挖掘问题，频繁项集的计算在静态数据集上效果更好，对于动态计算，由于需要不断重新进行项集挖掘，过多的I/O操作导致计算成本的增加。尽管以上研究通过不同角度建立了同行车辆挖掘模型，对同行车辆的挖掘做出了很大贡献，同行车辆挖掘目前还存在一些挑战：

·GPS数据由安装在车辆上的GPS设备按照固定的时间间隔产生并回传，没有安装GPS设备或者设备没有开启的车辆不会产生GPS数据。在某些特殊场合下，如车辆跟踪、犯罪嫌疑人出逃等,嫌疑人通常会关闭甚至拆掉GPS设备，这使得基于GPS数据实现的车辆同行模式发现方法无法满足上述场景的需求。

·一些学者通过ANPR数据挖掘同行车辆组，然而他们大多处理的数据集都是静态的历史数据，有些方法需要多次扫描。不能满足现实中需要实时得到结果，因此，仍然希望提供高质量但成本较低的技术用于同行车辆实时发现。

·轨迹是以数据流的形式产生的。处理大量短时间迅速到达的数据需要高计算开销，现应应该开发能够有效处理这种数据结构的算法。

近几年，图计算已变得越来越流行，这在社交计算，网络搜索，自然语言处理和推荐***等广泛应用的领域中得到了证明。高效结构化编程模型发展了许多图计算框架，他们通常遵循通过编码图形来处理顶点并行和边之间的通信，数据流的计算和存储消耗大量资源。而图结构可以降低数据存储的复杂度，因为它相比于结构化数据更简单更自然的保存了数据之间的联系。本文针对图计算的特点，提出了一种动态的图计算方法来对流数据进行实时处理，即PDGC动态图计算算法。该算法能够实时生成行驶在道路上的车辆关系图，通过实时剪枝可以有效降低数据流处理过程中的复杂度，我们还对卡口处理为向量形式并对卡口进行了聚类，将卡口角色加入图计算模型中可以进一步降低数据处理的复杂度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种降低图计算过程中的复杂度、能够实时发现同行车辆组的基于流式大数据的同行车辆发现方法。本发明的技术方案如下：

一种基于流式大数据的同行车辆发现方法，其包括以下步骤：

S1：获取卡口摄像头拍摄的行驶在路上的车辆的数据，生成数据集；

S2：提取相关属性，从获取到的数据集中提取同行车辆最密切的特征：包括车牌号、时间及卡口，将提取到的特征作为动态图计算的输入特征；

S3：对卡口进行角色划分，卡口角色划分主要是通过车辆行驶轨迹得到的卡口属性作为聚类条件，通过聚类算法得到卡口类簇进而对卡口进行角色划分，同行车组经过不同类别卡口后，它们之间的权重得到不同程度的增加，卡口角色划分作为外部因子参与到动态图计算过程；

S4：获取动态车牌数据集，将用于实验的ANPR数据通过高吞吐量的分布式发布订阅消息***Kafka处理为流式数据，根据ANPR数据流中的移动对象的特征信息引入滑动时间窗口机制，对特征信息进行时间切片化处理建立动态数据集；

S5：根据动态车牌数据集建立动态图计算模型，用权重、出度、入度表示车辆车辆节点之间的关系，车辆实时轨迹用动态图进行表示，在实时计算过程中通过引入卡口角色对车辆之间形成的动态图进行剪枝、权重计算在内的步骤挖掘得到同行车辆组。

进一步的，所述步骤S1获取卡口摄像头拍摄的行驶在路上的车辆的数据，生成数据集，具体包括：

S11：获取数据，提取卡口摄像头采集的行驶车辆的所有数据；

S12：对数据进行时间分片，根据“时间”字段，对每辆车的所有数据进行划分，考虑到同行车辆的特点，统计同一卡口在设定阈值间隔中的过车数量，其中，同行车辆组指的是两个或多个移动对象在短时间阈值内共同经过多个卡口的车辆组。

进一步的，所述步骤S2提取相关属性，主要分以下2个步骤。

S21：提取相关属性。从获取到的数据集中提取同行车辆最密切的特征：车牌号、时间、卡口；

S22：将提取到的属性根据时间维度进行序列化，获得每辆车的轨迹Trace_v，通过轨迹得到卡口的分支数量，通过统计经过卡口的次数可以得到卡口特定时间段的车流量。

进一步的，所述步骤S3对卡口进行角色划分，主要分以下4个步骤。

S31：通过车辆轨迹Trace_v得到基于卡口的路网流量图，图中的节点代表卡口，卡口之间的连线形成边；

S32：构造图G的邻接矩阵A，转移矩阵S，计算图G的转移矩阵P，且

0＜β＜1为衰减因子，N为卡口图中节点的数量，U为N阶矩阵，且U_ij＝1；

S33:求解矩阵P的特征向量q＝Pq，当q不断迭代到最终收敛时，得到终解q，节点v的PageRank值即为特征向量q中对应维的值，采用社团中的每个点在社团内外的重要性来量化节点在所属社团的内部影响力和外部影响力，这两个影响力值构成节点的影响力二维坐标Inner值和Outter值；

S34:根据Inner和Outter值对卡口进行Kmens聚类，得到卡口类簇，据此划分卡口角色。

进一步的，所述步骤S4获取动态车牌数据集具体包括：

S41：流式数据从交通探头拍摄，包含车辆信息的数据通过时间批间隔传输到操作平台；

S42:利用Sparkstreaming处理数据，利用公式：

动态调整批间隔，优化批间隔选择的时间，F_tr表示卡口的车流量，α表示动态系数；

S43:对批间隔数据进行操作，根据时间轴加入时间窗口函数，对卡口角色，车牌进行组合处理，在一个时间窗口内经过同一个卡口的车辆被判定为同行车组关系，通过不断对流数据进行处理实时发现同行车组。

进一步的，所述步骤S5建立动态图计算模型，主要分以下3个步骤：

S51：通过处理后的RDD构造加权定向图G(V、E)的顶点V和边E，每个顶点v_i∈V代表一个车牌号，顶点属性是聚类得到的卡口类别，边e∈E代表在给定的源v_s和其对应的目标车辆之间的定向关联，每个边上的w权重是在两个顶点之间绘制边的次数；

S52：动态图构造之后，遍历查询图G(N,E)识别冗余连接和更新边权重，定义以下度量标准，阈值

两辆车或多辆车同行与否的判断依据，即出现频率；冗余Ru：车辆组合之间的连边不再增加或者没达到阈值，对于这种连边要及时进行删除；

S53：提取达到提前设定阈值的车辆组作为结果。

本发明的优点及有益效果如下：

本发明1、利用大数据处理框架Spark加时间窗口的方法，根据流式ANPR数据建立动态车牌语料库，并根据流式数据建立动态语料库。

2、验证了卡口车流量的幂律分布规律，通过车辆行驶轨迹得到卡口属性，应用聚类算法卡口进行角色划分，将卡口角色作为影响因子加入图计算中能够进一步降低图计算过程中的复杂度。

3、提出流式数据与图计算相结合的PGDC算法，将基于流数据的同行车辆挖掘问题转换为动态图计算问题。

附图说明

图1是本发明提供优选实施例的整体框架图；

图2是本发明的总体流程图；

图3是本发明的动态图计算流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示为本发明的整体框架图，首先验证了卡口车流量的幂律性，针对卡口车流量和分支数量进行聚类，通过得到的卡口类簇对卡口进行角色标识。其次，在流式数据的基础上引入Spark-streaming时间滑动窗口，根据行车轨迹得到车辆之间的上下文环境，完成对同行语料库的创建和完善。最后提出PDGC算法，基于动态语料库和卡口角色标识建立车辆之间的动态关系图，把卡口角色作为影响因子和车辆之间的图进行关联，通过实时对车辆关系图的剪边和对同行车辆之间边权重的计算得到同行车组。

如图2所示为本发明的总体流程图，主要包括

具体说明本发明的详细实施过程，包括如下六个步骤：

S1：获取数据集。数据集可以通过卡口摄像头拍摄采集的行驶在路上的车辆产生的数据中获取。

S2：提取相关属性。从获取到的数据集中提取同行车辆最密切的特征：车牌号、时间、卡口。将提取到的特征作为后续模型的输入特征。

S3：对卡口进行角色划分。卡口角色划分(Passport Role)主要是通过车辆行驶轨迹得到的卡口属性(卡口分支数是某一个卡口通往其他卡口的个数，卡口过车数量是统计得到的一天中卡口过车总数量)作为聚类条件，通过聚类算法得到卡口类簇进而对卡口进行角色划分，同行车组经过不同类别卡口后，它们之间的权重得到不同程度的增加。(例如：两辆车经过卡口分支较多且车流量较少的卡口，它们之间形成的图权重会大大增加，即同行几率大大增加)。卡口角色划分是作为外部因子参与到动态图计算过程中的。

S4：获取动态车牌数据集。将用于实验的ANPR数据(主要应用车牌号、时间、卡口三个字段)通过高吞吐量的分布式发布订阅消息***Kafka处理为流式数据。根据ANPR数据流中的移动对象的特征信息引入滑动时间窗口机制，对特征信息进行时间切片化处理建立动态数据集。

S5：根据动态车牌数据集建立动态图计算模型，用权重、出度、入度等表示车辆车辆节点之间的关系。车辆实时轨迹可以用动态图进行表示，在实时计算过程中通过引入卡口角色对车辆之间形成的动态图进行剪枝、权重计算等挖掘得到同行车辆组。

S6：预测和分析过程。通过在真实车牌识别数据集上进行实验，验证本发明方法的有效性。

上述步骤S1获取数据集。主要分以下2个步骤。

S11：获取数据。提取卡口摄像头采集的行驶车辆的所有数据。

S12：对数据进行时间分片。根据“时间”字段，对每辆车的所有数据进行划分，考虑到同行车辆的特点，统计同一卡口在特定阈值间隔中的过车数量。其中，同行车辆组指的是两个或多个移动对象在短时间阈值内共同经过多个卡口的车辆组。

上述步骤S2提取相关属性。主要分以下2个步骤。

S21：提取相关属性。从获取到的数据集中提取同行车辆最密切的特征：车牌号、时间、卡口。

上述步骤S3对卡口进行角色划分。主要分以下4个步骤。

S31：通过车辆轨迹Trace_v得到基于卡口的路网流量图，图中的节点代表卡口，卡口之间的连线形成边。

0＜β＜1为衰减因子，N为卡口图中节点的数量，U为N阶矩阵，且U_ij＝1

S33:求解矩阵P的特征向量q＝Pq，当q不断迭代到最终收敛时，得到终解q，节点v的PageRank值即为特征向量q中对应维的值。本方案采用社团中的每个点在社团内外的重要性来量化节点在所属社团的内部影响力和外部影响力，这两个影响力值构成节点的影响力二维坐标Inner值和Outter值。

S34:根据Inner和Outter值对卡口进行Kmens聚类。得到卡口类簇，据此划分卡口角色。

上述步骤S4获取动态车牌数据集。主要分以下3个步骤。

S41：流式数据从交通探头拍摄，包含车辆信息的数据通过时间批间隔传输到操作平台。

S42:调节批间隔的时间可以让我们获得不同流量的ANPR数据。一般来说，利用Sparkstreaming处理数据是按照固定划分的时间段来处理批数据，但车流量在一天中呈现波动状态，我们利用公式：

动态调整批间隔，优化批间隔选择的时间(F_tr表示卡口的车流量)。

S43:对批间隔数据进行操作，根据时间轴加入时间窗口函数，对卡口角色，车牌进行组合处理，在一个时间窗口内经过同一个卡口的车辆被判定为同行车组关系。通过不断对流数据进行处理实时发现同行车组。

上述步骤S5建立动态图计算模型。主要分以下3个步骤。

这里要提到图3的图计算流程图

S51：图形构造阶段处理后的RDD中构造为加权定向图G(V、E)顶点和边E。每个顶点v_i∈V代表一个车辆(在这里表示车牌号)。顶点属性是上一节我们聚类得到的卡口类别(例如,卡口角色(Role(v))等)。边e∈E代表在给定的源v_s和其对应的目标车辆之间的定向关联。边缘属性s与t之间的激活时间的差异。每个边上的w权重是在两个顶点之间绘制边的次数(计数)。顶点和边缘属性在提供需要的时间统计信息时非常有用,用于更新图权重(下一小节)结果中量化生成的规则。顶点属性中的卡口角色属性有助于识别关键路口和对权重做出调节。

S52：图构造之后，遍历查询图G(N,E)识别冗余连接和更新边权重。图遍历要求定义一些度量标准，阈值

两辆车或多辆车同行与否的判断依据，即出现频率。冗余Ru：车辆组合之间的连边不再增加或者没达到阈值，对于这种连边要及时进行删除。

S53：提取达到我们提前设定阈值的车辆组作为结果。

上述步骤S6预测和分析过程。主要分以下两个步骤。

S61：通过S3对卡口进行角色划分和S5建立的动态图模型，在真实的数据集上进行实验，得到最终的同行车辆。

S62：通过S61得到的实验结果，与传统的频繁项挖掘算法进行分析比较。

综上所述，本发明基于动态图计算提出一种基于流式大数据的同行车辆发现方法；引入引入滑动窗口针对批数据建立动态车辆语料库，对卡口角色划分结合动态图计算实时挖掘同行车组；通过对卡口车流量和分支数量进行聚类，得到卡口类簇，对卡口进行角色标；在流式数据的基础上引入Spark-streaming时间滑动窗口，根据行车轨迹得到车辆之间的上下文环境，完成对同行语料库的创建和完善；提出PDGC算法，基于动态语料库和卡口角色标识建立车辆之间的动态关系图，把卡口角色作为影响因子和车辆之间的图进行关联，通过实时对车辆关系图的剪边和对同行车辆之间边权重的计算得到同行车组。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于流式大数据的同行车辆发现方法，其特征在于，包括以下步骤：

S2：提取相关属性，从获取到的数据集中提取同行车辆最密切的特征：包括车牌号、时间及卡口，将提取到的特征作为动态图计算模型的输入特征；

所述步骤S3对卡口进行角色划分，主要分以下4个步骤

S32：构造动态图的邻接矩阵A，转移矩阵S，计算动态图的转移矩阵P，且

0<β<1为衰减因子，N为基于卡口的路网流量图中节点的数量，U为N阶矩阵，且U_ij＝1；

S33:求解矩阵P的特征向量q＝Pq，当q不断迭代到最终收敛时，得到终解q，节点的PageRank值即为特征向量q中对应维的值，采用社团中的每个点在社团内外的重要性来量化节点在所属社团的内部影响力和外部影响力，这两个影响力值构成节点的影响力二维坐标Inner值和Outter值；

S34:根据Inner和Outter值对卡口进行Kmens聚类，得到卡口类簇，据此划分卡口角色；

S4：获取动态车牌数据集，将用于实验的自动车牌识别数据通过高吞吐量的分布式发布订阅消息***Kafka处理为流式数据，根据ANPR数据流中的移动对象的特征信息引入滑动时间窗口机制，特征信息包括车牌号、时间及卡口，对特征信息进行时间切片化处理建立动态车牌数据集；

S5：根据动态车牌数据集建立动态图计算模型，用权重、出度、入度表示车辆节点之间的关系，车辆实时轨迹用动态图进行表示，在实时计算过程中通过引入卡口角色对车辆之间形成的动态图进行剪枝、权重计算在内的步骤挖掘得到同行车辆组；

所述步骤S1获取卡口摄像头拍摄的行驶在路上的车辆的数据，生成数据集，具体包括：

S12：对数据进行时间分片，根据“时间”字段，对每辆车的所有数据进行划分，考虑到同行车辆的特点，统计同一卡口在设定阈值间隔中的过车数量，其中，同行车辆组指的是两个或多个移动对象在短时间阈值内共同经过多个卡口的车辆组；

所述步骤S2提取相关属性，主要分以下2个步骤；

S21：提取相关属性，从获取到的数据集中提取同行车辆最密切的特征：车牌号、时间、卡口；

S22：将提取到的属性根据时间维度进行序列化，获得每辆车的轨迹Trace_v，通过轨迹得到卡口的分支数量，通过统计经过卡口的次数得到卡口特定时间段的车流量。

2.根据权利要求1所述的一种基于流式大数据的同行车辆发现方法，其特征在于，所述步骤S4获取动态车牌数据集具体包括：

S42:利用Sparkstreaming处理数据，利用公式：

3.根据权利要求2所述的一种基于流式大数据的同行车辆发现方法，其特征在于，所述步骤S5建立动态图计算模型，主要分以下3个步骤：

S51：通过处理后的RDD构造动态图G(V、E)的顶点V和边E，每个顶点v_i∈V代表一个车牌号，边e∈E代表在给定的源v_s和其对应的目标车辆之间的定向关联，每个边上的w权重是在两个顶点之间绘制边的次数；

S52：动态图构造之后，遍历查询图G(N,E)识别冗余连接和更新边权重，N为卡口图中节点的数量，E表示边，定义以下度量标准，阈值

S53：提取达到提前设定阈值的车辆组作为结果。