CN117037465A

CN117037465A - 交通拥堵传播模式感知与可视分析方法

Info

Publication number: CN117037465A
Application number: CN202310593139.0A
Authority: CN
Inventors: 张慧杰; 吕程; 谢文强; 董家鹭
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-11-10
Anticipated expiration: 2043-05-24
Also published as: CN117037465B

Abstract

本发明涉及交通拥堵传播模式感知与可视分析方法，属于电数字数据处理技术领域，提出了基于图挖掘的交通拥堵传播可视分析方法，允许对城市道路拥堵传播规律进行交互式探索，帮助领域专家从大规模交通数据中挖掘交通拥堵传播规律，对拥堵传播的时空因素进行分析和解释。在拥堵传播规律挖掘方面，该方法允许综合道路网络拓扑信息从海量的交通数据中识别拥堵传播关系，并引入图神经网络对拥堵和拥堵传播进行表征与聚类，有效地发现交通拥堵传播模式；在拥堵传播模式感知与解释方面，该方法提出了灵活的可视分析流程，将展示拥堵传播模式时空因素的可视化视图集成到交互式可视分析***，允许领域专家在多个层次进行拥堵传播的深入分析。

Description

交通拥堵传播模式感知与可视分析方法

技术领域

本发明属于电数字数据处理技术领域，具体涉及交通拥堵传播模式感知与可视分析方法。

背景技术

交通拥堵在各大城市日益严重，已经成为困扰城市发展的普遍难题，给人们的出行带来诸多不便，有效的缓解交通拥堵问题对改进城市交通规划、改善人们的出行体验具有重要的研究意义。城市交通数据的收集和分析工作为解决这一问题提供了坚实的基础，通过探索海量的交通出行数据，既可以发现城市道路拥堵的产生、发展和消散，又能够揭示出隐藏在拥堵现象背后的拥堵传播规律。然而，这面临了一系列难题，如何从海量的数据中识别交通拥堵的传播关系，如何在真实世界复杂的道路交通网络中挖掘出拥堵传播规律并以直观的方式展示出来，是现阶段的难题和痛点。

因此，现阶段需设计交通拥堵传播模式感知与可视分析方法，来解决以上问题。

发明内容

本发明目的在于提供交通拥堵传播模式感知与可视分析方法，用于解决上述现有技术中存在的技术问题，基于图挖掘发现交通拥堵传播模式，感知道路间交通拥堵的复杂传播依赖关系，通过可视化技术引入人的智慧，实现交互式的分析过程，揭示交通拥堵传播模式的时空态势，从而准确地、有针对性地帮助领域专家寻找城市道路交通的瓶颈，制定缓解交通拥堵问题的相关措施。

为实现上述目的，本发明的技术方案是：

交通拥堵传播模式感知与可视分析方法，包括下述步骤：

S1、通过巡游出租车GPS轨迹数据感知道路拥堵的发生和消散；

对GPS轨迹数据进行数据清洗；采用地图匹配算法将GPS轨迹点映射到对应的道路，并将其以固定长度的时间片划分，通过计算时间片内GPS轨迹点的平均速度，作为道路在该时段的行程速度；

S2、依据道路在各个时间片上的行程速度量化计算道路拥堵程度，道路上连续拥堵的时间片为交通拥堵事件；采用时空近邻关系量化拥堵事件间发生拥堵传播的可能性，确定拥堵事件间的拥堵传播关系，构建交通拥堵事件传播图；

S3、采用Node2Vec模型来表征道路，并将道路嵌入向量作为交通拥堵事件传播图中节点的特征；将交通拥堵事件传播图作为输入图，采用VGAE模型表征传播图中的每一个拥堵事件节点，传播图节点间的拥堵传播关系和拥堵事件发生的时空特性被表征到嵌入向量；采用HDBSCAN算法聚类交通拥堵事件来挖掘交通拥堵传播模式；拥堵事件聚类分簇后，对各个簇的拥堵事件进行时空分析和道路拥堵传播概览图构建，总结拥堵传播模式的时空规律；

S4、引入可视分析来增强交通拥堵事件表征与拥堵传播时空规律挖掘。

进一步的，步骤S1具体如下：

GPS轨迹数据为研究区域所在城市巡游出租车采集的GPS轨迹数据，该GPS轨迹数据集的轨迹点集中在所在城市市区范围，反映所在城市道路交通的运行状况；

数据集中每条数据样本表示一个轨迹点，记录巡游出租车在空间和时间上的位置，记为pt；每个轨迹点包括车辆ID、时间戳、经纬度坐标和行驶速度以及一些额外的识别信息；

对所述GPS轨迹数据进行数据清洗；

将离散的轨迹点pt按车辆ID组织并以记录时间的先后排序为一个轨迹点序列[pt₁，pt₂，pt₃，…，pt_n]，轨迹点序列对应车辆在时间范围内的行驶情况；

通过对序列相邻的轨迹点间的时间间隔和地理距离进行限制，将序列划分为子序列；一个序列中两个近邻的轨迹点pt_i和pt_i+1，其时间间隔必须小于阈值地理距离也必须小于阈值δ；同时符合以上时间限制和空间限制的子序列称为轨迹，记为tj；并对轨迹tj进行过滤；

轨迹点pt，通过ST-Matching地图匹配算法，记为map，使得轨迹点pt和道路rd相对应，即rd＝map(pt)；

计算一段时间内轨迹点的平均速度作为道路的行程速度，以固定时间长度TL划分时间片，给定道路rd_i和对应的时间片ts_j中的所有轨迹点每个轨迹点都有速度记录/>在计算道路平均速度时添加支持度参数θ，参与计算平均速度的时间片内轨迹点数量/>必须大于给定阈值θ，否则计算结果无效；道路rd_i在时间片ts_j上的行程速度/>计算方法如下公式

将待分析的m条道路和n个时间片的轨迹点用于计算道路平均速度以道路为矩阵的行，时间片为列，获取道路平均速度矩阵V_m×n。

进一步的，步骤S2具体如下：

基于道路网络的对偶表示和交通拥堵的反向传播的特性，构建道路拥堵反向传播网络，该网络以道路为节点，道路间的连接关系为边，边的方向为道路通行方向的反方向，指示相邻道路间的拥堵传播方向；

交通拥堵事件传播图的构建过程为：

创建一个空的交通拥堵事件传播图G；然后从第一个时间片开始，选取时间片内的一个拥堵事件作为源事件，计算该源事件符合空间近邻关系的道路序列R，提取发生在该道路序列R上发生的全部拥堵事件作为备选目标事件集合E；最后计算源事件与备选目标事件集合E中每个事件两两之间的时间近邻关系，若符合时间近邻关系，则将这两个事件加入传播图中，并且添加连边；然后又以目标事件为源事件，重复这个过程直到没有新的目标事件加入图中，则从第一个时间片中选取一个全新的源事件，重复算法；若第一个时间片中没有备选的源事件，则从下一时间片中选取，重复这个过程，计算所有时间片中所有的拥堵事件。

进一步的，对所述GPS轨迹数据进行数据清洗如下：

(1)地理区域限制；

(2)记录时间限制；

(3)重复轨迹点限制；

(4)行驶速度限制；

(5)道路范围限制。

进一步的，对轨迹tj进行过滤如下：

(1)轨迹点数量；轨迹要包含五个或以上的轨迹点；

(2)行驶时间；轨迹第一个节点到最后一个节点的时间间隔必须大于等于25秒；

(3)行驶距离；轨迹内任意近邻两轨迹点的距离之和必须大于等于400米。

进一步的，ST-Matching地图匹配算法如下：

(1)确定候选点集；以轨迹tj实际观测到的轨迹点pt_i∈tj为圆心，指定半径r确定一个圆，通过pt_i做该圆内所有道路的法线，第j条法线与该道路的交点为候选点pt_i可能有一个或者多个候选点，所有候选点构成候选点集/>

(2)候选点空间分析；通过对候选点进行时空分析来计算近邻的两个候选点被选中的权重，时空分析综合考虑相邻候选点的空间权重和时间权重，空间权重通过GPS轨迹点与对应候选点距离的观察概率和转移概率的差异共同衡量；

观察概率是以μ和σ为参数的正态分布N(μ，σ²)，衡量GPS轨迹点pt_i与某一候选点的近似程度，用/>表示pt_i与其候选点/>的欧式距离，候选点观察概率如下公式，

给定相邻的两个轨迹点pt_i-1、pt_i和各一候选点d_i-1→i表示从轨迹点pt_i-1到pt_i的欧式距离，w_{(i-1，t)→(i，s)}表示从候选点/>到候选点/>的最短路径，转移概率V表示为如下公式，

给定两个相邻的候选点和/>空间分析函数F_s定义为如下公式，n表示轨迹点的个数，

(3)候选点时间分析；时间分析函数F_t兼顾轨迹的通过速度和道路的限速，避免空间分析函数无法区分同向近邻道路的情形，提升轨迹地图匹配的质量；对于相邻轨迹点pt_i-1和pt_i的两个候选点和/>它们的最短路径包括道路路段[rd₁，rd₂，…，rd_u，…，rd_k]，其中路段rd_u的长度记为len_u，限速为lim_u，轨迹点pt_i-1到pt_i的行驶时间记为Δt_i-1→i，则轨迹点pt_i-1到pt_i的平均速度/>计算如下第一公式，对应候选点和/>的时间分析函数F_t如下第二公式，

(4)路径匹配；路径匹配前首先以每个轨迹点为一个阶段，各个轨迹点的候选点为对应阶段的状态，构建候选图；相邻轨迹点的各一个候选点和/>构成候选图的一条边，其转移概率为时空分析函数F如下公式，

对于轨迹tj的候选路径序列P_cand：序列得分如下第一公式，得分最高的序列即为最佳匹配路径MP，如下第二公式，

与现有技术相比，本发明所具有的有益效果为：

本方案其中一个有益效果在于，基于图挖掘发现交通拥堵传播模式，感知道路间交通拥堵的复杂传播依赖关系，通过可视化技术引入人的智慧，实现交互式的分析过程，揭示交通拥堵传播模式的时空态势，从而准确地、有针对性地帮助领域专家寻找城市道路交通的瓶颈，制定缓解交通拥堵问题的相关措施。

附图说明

图1为本发明提供的交通拥堵传播模式感知与可视分析方法流程框架图。

图2为本发明提供的研究区域，(a)地理区域；(b)道路网络。

图3为本发明提供的道路范围限制示意图。

图4为本发明提供的地图匹配实例示意图。

图5为本发明提供的交通拥堵事件获取流程示意图。

图6为本发明提供的时间近邻关系示意图。

图7为本发明提供的空间近邻关系示意图。

图8为本发明提供的边的转移概率示意图。

图9为本发明提供的VGAE模型框架示意图。

图10为本发明提供的单纯形示意图。

图11为本发明提供的拥堵事件嵌入向量降维散点示意图。

图12为本发明提供的道路拥堵传播概览构建算法过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

提出一种交通拥堵传播模式感知与可视分析方法，包括下述步骤：

方法框架如图1所示。

(1)数据集与数据预处理

本方案通过巡游出租车GPS轨迹数据感知道路拥堵的发生和消散。首先本方案对GPS轨迹数据进行数据清洗，提升数据质量。由于GPS轨迹数据只包含地理位置信息，因此本方案采用了地图匹配算法将GPS轨迹点映射到对应的道路，并将其以固定长度的时间片划分，通过计算时间片内GPS轨迹点的平均速度，作为道路在该时段的行程速度。

(2)拥堵事件提取与传播图构建

道路行程速度反映了道路的运行状况，低于道路正常水平的行程速度表明发生了交通拥堵。本方案依据道路在各个时间片上的行程速度量化计算了道路拥堵程度，道路上连续拥堵的时间片为交通拥堵事件。

在道路网络中，交通拥堵会向周围道路传播。本方案采用时空近邻关系量化拥堵事件间发生拥堵传播的可能性，确定拥堵事件间的拥堵传播关系，构建交通拥堵事件传播图。传播图中的事件节点以道路嵌入向量为特征向量，说明了拥堵发生的道路。道路嵌入向量是通过对本方案建立的道路拥堵反向传播网络的节点表征获取的。

(3)拥堵事件表征与拥堵传播规律挖掘

本方案将交通拥堵事件传播图作为输入图，采用VGAE(Variational Graph Auto-Encoders，VGAE)模型表征传播图中的每一个拥堵事件节点。这一过程中传播图节点间的拥堵传播关系和拥堵事件发生的时空特性被表征到嵌入向量。

具有相似拥堵传播特征的交通拥堵事件，其嵌入向量也更加相似，因此本方案采用HDBSCAN(Hierarchical DBSCAN，HDBSCAN)算法聚类交通拥堵事件来挖掘交通拥堵传播模式。拥堵事件聚类分簇后，本方案进一步对各个簇的拥堵事件进行时空分析和道路拥堵传播概览图构建，总结拥堵传播模式的时空规律，加深对交通拥堵传播的感知和理解。

(4)可视分析与探索

本方案引入可视分析来增强以上提出的交通拥堵事件表征与拥堵传播时空规律挖掘方法，使得本方案提出的方法可以更加广泛地应用。本方案提出可视分析***JPViz，该***集成了多种交互方式和丰富的视图，支持用户从多层次感知城市交通拥堵状况，探索交通拥堵传播规律。

交通拥堵是由于道路实际通行车辆数量多于道路通行能力引起的道路车速缓慢的现象，交通拥堵已经成为困扰人们日常生活和城市高速发展的严重问题。随着对于交通拥堵问题的日益重视以及技术手段的不断提升，人们研究和应用了多种方法监控道路的运行情况，期待及时准确地观察到道路拥堵的发生，提出有效的应对措施。

车辆GPS轨迹数据被广泛地用于获取道路行程速度，监控道路运行情况。本方案也采用这一方法，通过巡游出租车GPS轨迹数据集获取城市道路运行状态，识别交通拥堵事件。本方案采用了ST-Matching方法对出租车GPS轨迹数据进行地图匹配，将轨迹点的地理位置转换为对应的道路表示。本方案通过道路上的轨迹点计算道路的行程速度，进而量化道路拥堵程度，识别交通拥堵事件。

在道路网络中，交通拥堵具有传播的特点，通过计算交通拥堵事件间的时空近邻关系，本方案建立了拥堵事件间的拥堵传播关系。依据拥堵传播关系构建了交通拥堵事件传播图，传播图以交通拥堵事件为节点，拥堵事件间的拥堵传播关系为连边，描述了交通拥堵事件连续的传播行为。

本方案的研究区域是我国某省会城市，如图2a所示的矩形区域。交通体系的建设对于该市自身和周边城市都具有重要地位。然而随着机动车保有量的持续增长，该市城市交通也面临严重的问题，道路交通拥堵等出行矛盾日益突出。因此，以该市为例研究道路交通拥堵传播规律不但具有一定理论意义，也有迫切的现实需求，具有较高的研究价值。

上述研究区域内的道路路网数据由OpenStreetMap提供，通过OSMnx下载和处理。OSMnx提供了一系列可编程接口用于从OpenStreetMap下载地理数据资源，并对下载后的地理数据提供了建模、投影和分析等功能。本方案获取到研究区域内的道路路网，包括节点298703个，表示道路间的交叉口；边23690条，表示道路。道路的基本信息通过边来描述，主要包括道路编号、道路名称、道路长度和道路几何形状等信息。如图2b所示，为道路路网的示意图，该图隐藏了道路路网的节点，只显示了表示道路的边，且边绘制为道路实际的几何形状。

本方案采用的GPS轨迹数据为研究区域所在城市巡游出租车采集的GPS轨迹数据，该GPS轨迹数据集的轨迹点集中在该市市区范围，反映了该市道路交通的运行状况。

数据集中每条数据样本表示一个轨迹点，记录巡游出租车在空间和时间上的位置，记为pt。每个轨迹点主要包括了车辆ID、时间戳、经纬度坐标和行驶速度以及一些额外的识别信息，如车牌颜色等。该数据集较为原始，没有进行过数据清洗。

为了提升数据质量，提升分析结果的准确性，本方案对这些GPS轨迹数据进行了数据清洗，主要包括如下步骤：

(1)地理区域限制。虽然该GPS轨迹数据集中轨迹点集中在市区范围，但还是有部分轨迹点位于周边城市，这是由于出租车跨城市区域运营导致的。因此，本方案对轨迹点的空间范围进行了限制，限制的区域同道路网络数据一致，为包含该市市区的矩形区域，如图2a中虚线框所示；

(2)记录时间限制。该GPS轨迹数据集采集时间为2021年10月04日——2021年10月17日，本方案将这个时间范围定义为本方案研究的时间范围，超出这一时间范围的轨迹点会被清理；

(3)重复轨迹点限制。一辆出租车在确定的时刻只能有一个有效的轨迹点，本方案将具有相同的车辆ID和记录时间戳的轨迹点记录定义为重复轨迹点。分析后发现该数据集存在一定的重复现象，重复的轨迹点只保留其中一条。

(4)行驶速度限制。部分轨迹点的行驶速度远超实际情况下车辆可以达到的行驶速度，这部分具有不合理速度信息的轨迹点也会被清洗。本方案参考现行的道路限速规定，将合理的行驶速度区间确定为0-130千米每小时。

(5)道路范围限制。本方案将道路两边55m的范围内的空间定义为道路范围，超出该范围的轨迹点将被视为噪音轨迹点清理。观察到两个实际情况使得本方案认为进行道路范围限制是必要的，首先GPS记录设备并不是每次都能准确的记录车辆所在的精确位置，往往是在一个空间范围内分布的，极少数的情况下这个偏移会很严重，使得轨迹点已经不能作为正常的轨迹点记录来分析；其次由于地图数据的时效性和实际中部分非正常道路也可能行驶车辆，这使得数据集有部分轨迹点并不隶属于现有的道路路网中的任何道路，此类轨迹点也会对周围道路的分析产生影响。如图3展示了以上情况，图中黑色线条为道路，灰色阴影为道路限制区域，三角形表示分布在限制范围内的轨迹点，圆点表示超出道路范围限制的噪音轨迹点。

为了更好地描述巡游出租车行驶的状态，本方案将离散的轨迹点pt按车辆ID组织并以记录时间的先后排序为一个轨迹点序列[pt₁，pt₂，pt₃，…，pt_n]，轨迹点序列对应车辆在时间范围内的行驶情况。在实际生活中巡游出租车并非一直运行，序列中相邻轨迹点存在较长时间间隔或空间距离较远的情况，此时这两个相邻轨迹点不足以推测车辆实际运行情况。因此本方案通过对序列相邻的轨迹点间的时间间隔和地理距离进行限制，将序列划分为子序列。一个序列中两个近邻的轨迹点pt_i和pt_i+1，其时间间隔必须小于阈值地理距离也必须小于阈值δ。同时符合以上时间限制和空间限制的子序列可以较好反映车辆在一段时间内的行驶状况，本方案称为轨迹，记为tj。

在实践中，以上方法划分的轨迹不能满足后续分析的需求，为了筛选出可以较好反映车辆行驶状况的轨迹，本方案进行轨迹过滤的工作，主要有如下三个条件：

(1)轨迹点数量。轨迹要包含五个或以上的轨迹点，过短的轨迹不能正确地反映车辆在道路上实际的运行状况；

(2)行驶时间。轨迹第一个节点到最后一个节点的时间间隔必须大于等于25秒；

(3)行驶距离。轨迹内任意近邻两轨迹点的距离之和必须大于等于400米。

GPS轨迹数据通过经纬度以点的形式描述了出租车在地理空间中的分布，城市道路数据也通过经纬度以线段的形式表达了其在地理空间的几何形状。虽然轨迹点和城市道路都分布在相同的地理空间，但是这两者之间却没有建立直接的联系，无法直接判断某个轨迹点是否在某个道路上采集的，即使在地理空间上GPS轨迹点和道路的距离很近，可以直观地判定轨迹点采集的道路，但对于复杂的城市道路网络和海量的GPS轨迹数据集来说，这样简单的判断方法无法实际应用。

本方案后续的工作中需要通过道路上的轨迹点来计算道路的拥堵状况，因此需要在GPS轨迹数据和道路网络之间建立一种映射关系。通过该映射关系，可以将一个确定地理位置的轨迹点对应到具体某一条道路。对于轨迹点pt，需要确定一种映射方法map，使得轨迹点pt可以和道路rd相对应，有rd＝map(pt)。

部分研究采用将轨迹点与地理距离最近的道路直接对应的映射方法，这是一种简单且快速的方法。然而对于复杂的城市道路和现实世界的轨迹数据来说，这一方法也存在一些局限。多数城市道路存在多个车道，这些车道彼此接近，而巡游出租车采集的GPS轨迹数据往往存在一定的偏移，这也就导致与轨迹点最接近的道路，很可能并不是其实际行驶的道路。如图4中的黑色虚线框展示了一个偏移的实例，正方形为获取的原始轨迹点，它们都是沿着右侧车道行驶，行驶的路径为从a到e。可以观察到在黑色虚线框内，正方形的原始轨迹点和对向道路更加接近。

本方案采用了ST-Matching地图匹配算法完成轨迹点和道路的映射。ST-Matching算法是一种适用于低采样率轨迹的地图匹配算法，可以综合轨迹点与道路距离的集合信息、道路路网的拓扑结构以及实际行驶的轨迹信息，匹配出全局的最佳路径。该算法具有速度快、稳定性好和精度高的优点。以下简要的描述ST-Matching算法。

(1)确定候选点集。以轨迹tj实际观测到的轨迹点pt_i∈tj为圆心，指定半径r确定一个圆，通过pt_i做该圆内所有道路的法线，第j条法线与该道路的交点为候选点pt_i可能有一个或者多个候选点，所有候选点构成候选点集/>

(2)候选点空间分析。通过对候选点进行时空分析来计算近邻的两个候选点被选中的权重，时空分析综合考虑了相邻候选点的空间权重和时间权重，空间权重通过GPS轨迹点与对应候选点距离的观察概率和转移概率的差异共同衡量。

观察概率是以μ和σ为参数的正态分布N(μ，σ²)，衡量了GPS轨迹点pt_i与某一候选点的近似程度，用/>表示pt_i与其候选点/>的欧式距离，候选点观察概率如公式3-1。

给定相邻的两个轨迹点pt_i-1、pt_i和各一候选点d_i-1→i表示从轨迹点pt_i-1到pt_i的欧式距离，w_{(i-1，t)→(i，s)}表示从候选点/>到候选点/>的最短路径，转移概率V表示为公式3-2。

综合观察概率公式3-1和公式3-2，给定两个相邻的候选点和/>空间分析函数F_s定义为公式3-3。

(3)候选点时间分析。时间分析函数F_t兼顾轨迹的通过速度和道路的限速，避免空间分析函数无法区分同向近邻道路的情形，提升轨迹地图匹配的质量。对于相邻轨迹点pt_i-1和pt_i的两个候选点和/>它们的最短路径包括道路路段[rd₁，rd₂，…，rd_u，…，rd_k]，其中路段rd_u的长度记为len_u，限速为lim_u，轨迹点pt_i-1到pt_i的行驶时间记为Δt_i-1→i，则轨迹点pt_i-1到pt_i的平均速度如公式3-4，对应候选点/>和/>的时间分析函数如公式3-5所示。

(4)路径匹配。路径匹配前首先以每个轨迹点为一个阶段，各个轨迹点的候选点为对应阶段的状态，构建候选图。考虑候选点空间分析公式3-3与时间分析公式3-5，相邻轨迹点的各一个候选点和/>构成候选图的一条边，其转移概率为时空分析函数F如公式3-6。

对于轨迹tj的候选路径序列P_cand：序列得分如公式3-7所示，得分最高的序列即为最佳匹配路径MP，如公式3-8所示。

以图4为例，展示了一条采用上述地图匹配方法获取的轨迹匹配结果，图中圆点表示地图匹配后的轨迹点，显示ST-Matching方法很好地结合道路网络信息和轨迹信息匹配道路。特别的，在黑色虚线框区域可以看到ST-Matching算法正确处理了轨迹行驶方向和道路网络的拓扑结构，将被对向道路隔离的偏移轨迹点匹配到正确的道路上。

本方案GPS轨迹数据集的轨迹点记录了出租车的行驶速度信息，以轨迹点的速度为道路拥堵状况的反应，本方案计算一段时间内轨迹点的平均速度作为道路的行程速度,以固定时间长度TL划分时间片，本方案将TL设置为10min。给定道路rd_i和对应的时间片ts_j中的所有轨迹点每个轨迹点都有速度记录/>为了使计算得到的道路平均速度更加接近实际情况，避免个别车辆异常的数据记录影响道路平均速度的准确，本方案在计算道路平均速度时添加了支持度参数θ，参与计算平均速度的时间片内轨迹点数量必须大于给定阈值θ，否则计算结果无效。道路rd_i在时间片tsj_上的行程速度/>计算方法如公式3-9。

本方案将待分析的m条道路和n个时间片的轨迹点用于计算道路平均速度以道路为矩阵的行，时间片为列，获取道路平均速度矩阵V_m×n。

整个道路空间中的道路具有不同的设计通行能力、日常维护水平和实际通行需求的差异，使用一个固定的速度阈值来衡量整个道路空间的拥堵状态存在困难，因此本方案依据各条道路估算的自由流速度计算SRI速度递减指数(Speed Reduction Index)确定各个时间片的道路拥堵状况。自由流速度是指道路在非高峰时段道路的平均通行速度，可以用来估算道路的日常通行能力。这一指标可以从道路观察到的大量数据中推测得到。以道路rd_i为例，将其全部有效的道路平均速度从小到大排列，取排序后道路平均速度的F％数位处的速度作为道路rd_i的自由流速度v_ffi，实践中F＝85是一个常采用的参数。在时间片ts_j上计算得到道路rd_i的行程速度作为道路速度的观察值，结合道路自由流速度定义了衡量拥堵状况的速度递减指数，如公式3-10。

SRI指数的范围为[0，10]，指数值越大则认为道路交通状况更差，当SRI≥4时指示道路拥堵的发生，用表示道路rd_i在时间片ts_j上是否发生了拥堵，其中0表示没有拥堵状况，1表示发生了拥堵，有公式3-11。

使用上述的公式3-11计算道路rd_i上的每个时间片的道路拥堵状况，得到拥堵向量若其存在一组子序列的值都为1，则道路rd_i从时间片ts_t到时间片ts_t+Q发生了交通拥堵事件，记为/>

如图5为从道路rd_i的道路平均速度向量，计算相应的SRI指数向量和道路拥堵指示向量，最后获取到交通拥堵事件的流程示意图。图中道路平均速度向量、SRI指数向量和道路拥堵指示向量的每一个矩形方块表示一个时间片相应的观察值。道路平均速度向量的颜色从浅灰到灰色示意道路通行速度从高到低，SRI指数使用不同深度的灰色示意数值的从小到大。

通过以上方法获取到的交通拥堵事件持续时间长短不一，持续时间过短或者过长的事件都会影响后续的分析过程。持续时间过短的拥堵事件，如只持续了一个时间片。此类拥堵事件可能是由于个别车辆异常的行驶行为，导致道路上没有获取到足够的轨迹点数据。而持续时间过长的事件会影响周围道路其他事件传播关系的估计，造成不良的影响。

交通网络是现实世界中存在的复杂网络，长期以来被关注和研究。现实世界中存在各种交通网络，如铁路网络、地铁网络、公共交通网络等。其中道路网络是尤为基础的一种，描述了道路的地理空间分布和道路间的连接关系，被用于日常生活和研究工作的方方面面。道路网络是一种典型的空间网络，网络的构造和连接关系被地理空间制约。根据研究的不同需求，合理表示道路网络十分重要，对研究工作具有深远的影响。

道路网络常常是以交通基础设施为出发点构建的，将交叉路口表示为节点，交叉路口之间的道路表示为边。依据研究问题侧重点的不同，道路网络中节点和边可以对偶表示，即将道路表示为节点，道路间的连接关系表示为边。与直接表示的道路网络相比，在一些研究工作中道路网络的对偶表示具有优势，对偶表示的道路网络忽略了道路具体的地理空间限制，简化了道路网络的拓扑结构，突出了道路间的连接关系，为以道路间连接关系切入点的交通拥堵传播的研究提供了便利。

与日常生活观察到的现象一致，在道路上行驶的车辆是沿着道路通行方向来行驶的，若道路的某处发生拥堵导致无法通行，那么随着时间的推移，沿着道路行驶方向开往拥堵位置的车辆会越来越多，也就是交通拥堵是沿着与道路通行方向相反的方向传播的，这被称为交通拥堵的反向传播。现实生活中，在一些繁忙的双向通行道路还存在一类由于车辆掉头导致的拥堵，但由于U型拥堵占总体的拥堵较少，且无较好的方法识别出来，因此本方案将忽略此类拥堵。

基于道路网络的对偶表示和交通拥堵的反向传播的特性，本方案构建了道路拥堵反向传播网络，该网络以道路为节点，道路间的连接关系为边，边的方向为道路通行方向的反方向，指示了相邻道路间的拥堵传播方向。

本方案采用时间近邻关系和空间近邻关系来计算任意两个交通拥堵事件是否存在拥堵传播关系，若两个事件同时存在时间近邻关系和空间近邻关系，则认为这两个事件存在时空近邻关系，具有较大的概率发生交通拥堵的传递，具有拥堵传播关系。

时间近邻关系是指两个拥堵事件发生的时间符合拥堵传播的条件，有交通拥堵事件ev₁从时间片ts_m持续到ts_n，拥堵事件ev₂从时间片ts_p持续到ts_q，若两个拥堵事件间存在关系ts_m≤ts_p≤ts_n，则拥堵事件ev₁和ev₂在时间上可能发生拥堵传播。如图6所示为时间近邻关系的示意图，拥堵事件ev₁为源事件，拥堵事件ev₂、ev₃和ev₄为潜在的目标事件。ev₂和ev₃的开始时间都处于ev₁持续时间段内，因此ev₁分别与ev₂和ev₃存在时间近邻关系，而ev₄在ev₁结束后才发生，这两个事件之间没有时间近邻关系。

空间近邻关系是指两个拥堵事件的空间距离上小于给定的阈值，那么源事件就可能传递到目标事件，两个事件间存在空间近邻关系。交通拥堵是沿着道路传播的，因此本方案在计算空间近邻关系时考虑了道路网络的限制和影响。本方案不再以两个道路之间的地理距离作为判定空间近邻的依据，而是采用道路拥堵传播网络中道路节点间连通的跳数和累积传播的道路长度共同作为阈值。对于一般的道路路段，交通拥堵是不允许跨越节点传播的，因此拥堵的传播必须一个节点接着一个节点，跳数阈值为1。但由于道路交叉位置上，道路路段的长度很短，极有可能存在整条道路都发生了拥堵，但交叉位置并没有巡游出租车记录轨迹点数据的可能。综上本方案使用累积传播的道路长度LEN和路径的条数SKP两个参数来判断空间近邻关系，实验中本方案采取了道路累计长度LEN≤90和路径的条数SKP≤3，如图7示意了这一参数条件的空间近邻关系。

对于任意两个拥堵事件，本方案分别计算这两个拥堵事件时间近邻关系和空间近邻关系，如果这两个事件同时存在时间近邻关系和空间近邻关系，那么这两个事件有较大的可能发生了拥堵传递，具有事件间的拥堵传播关系。

交通事件拥堵还可能通过拥堵事件间连续的传播，将多个拥堵事件联系起来。为了更好的表示多个交通拥堵事件问直接或者间接的拥堵传播关系，本方案构建了交通拥堵事件传播图。交通拥堵事件传播图是一个有向图，图的节点为交通拥堵事件，事件间的拥堵传播关系为图的边，拥堵从源事件传递到目标事件的方向就是边的方向。

交通拥堵事件传播图的构建过程主要是将存在拥堵传播关系的两个拥堵事件加入图中，并且添加连边。具体过程是：首先，创建一个空的交通拥堵事件传播图G。然后从第一个时间片开始，选取时间片内的一个拥堵事件作为源事件，计算该源事件符合空间近邻关系的道路序列R，提取发生在该道路序列R上发生的全部拥堵事件作为备选目标事件集合E。最后计算源事件与备选目标事件集合E中每个事件两两之间的时间近邻关系，若符合时间近邻关系，则将这两个事件加入传播图中，并且添加连边。然后又以目标事件为源事件，重复这个过程直到没有新的目标事件加入图中，则从第一个时间片中选取一个全新的源事件，重复算法。若第一个时间片中没有了备选的源事件，则从下一时间片中选取，重复这个过程，计算所有时间片中所有的拥堵事件。

Node2Vec通过将Skip-gram模型扩展到图上完成表征任务，Skip-gram模型是具有一层隐含层的简单的神经网络，预测给定中心词时，出现对应背景词的条件概率。给定图G＝(V，E)，V是图G的节点集合，E是图的边集合，通过f：V→R^d将节点映射到隐空间以用于下游的预测任务，其中R表示特征空间，d为嵌入维度，f是将节点映射到特征空间的映射函数，即尺寸为|V|×d的矩阵。对于任意源节点o∈V，定义表示通过采样策略STRTG获取到的源节点o的近邻节点集合。Node2Vec模型的优化目标是在给定源节点o的条件下，最大化其近邻节点N_STRTG(o)被观察到的概率，如公式4-1所示。

其中，f表示映射函数，N_STRTG(o)表示源节点o的近邻节点集合，Pr(*)表示出现概率；

Node2Vec模型引入了两个假设来简化优化目标，具体如下：

(1)条件独立性假设。设给定源节点的条件下，该节点的近邻节点被观察到的概率与近邻节点集合N_STRTG(o)中其他的节点无关，如公式4-2所示，n_i表示任意一个近邻节点。

(2)特征空间对称性假设。图中顶点作为源节点和近邻节点的特征空间是一致的，一个节点作为源节点和近邻节点都用一个特征向量表示。给定源节点o时其某个近邻节点n_i∈N_STRTG(o)的观察概率如公式4-3，exp(*)表示指数函数。

将以上两个假设带入优化目标中，可得到新的优化目标函数，如公式4-4，公式中Z_o＝∑_v∈Vexp(f(o)·f(v))为归一化因子。

Node2Vec模型使用近邻节点集合表达图的结构信息，选取合适的节点采样策略获取更好表达图结构信息的近邻节点集合具有重要的意义。深度优先遍历(Depth-firstsearch，DFS)和广度优先遍历(Breadth-first search，BFS)是两种经典的遍历策略，深度优先遍历是从图中某个节点出发，不断前往当前访问节点的下一个节点，深度优先遍历采样的节点具有更强的结构等价性，描述图的全局结构；广度优先遍历获取到当前访问节点的全部邻接节点后才前往下一节点，采样节点更具同质性，描述图的局部结构。

考虑到探索大型图存在的效率问题，Node2Vec算法并不直接使用深度优先遍历或者广度优先遍历策略，而是通过有偏随机游走来平衡从图中采样得到节点的同质性和结构等价性。随机游走是每次都随机选择要访问节点的采样策略，总体来说，随机游走更倾向于采样远离源节点的节点，表达了更多的结构等价性。若以图G(V，E)中的节点o∈V为源节点，获取游走步长为I的采样序列，那么随机游走采样的序列中第i个节点c_i＝nxt通过如公式4-5的概率分布产生。

其中，c_i-1＝cur为当前游走采样的节点，c_i＝nxt为待转移的节点，Z为正则化常量，σ_(cur，nxt)为从节点cur到节点nxt的未归一化转移概率，若节点cur与节点nxt不存在连边，则转移概率为0；若节点cur与节点nxt存在连边，随机游走通过任一连边访问节点的概率都是一样的，节点c_i-1＝cur具有M个邻接节点，则σ_(cur，nxt)＝1\M。

每次随机选择访问节点时可以是加权的，让游走过程中一些节点被访问的概率高于其他的节点，在一定程度上控制随机游走的过程，这就是有偏随机游走。通过合理的定义加权参数，可以使得游走过程平衡采样节点表达的同质性和结构等价性。因此将节点间的未归一化转移概率定义为σ_(cur，nxt)＝αp_q(prev，nxt)·w_(cur，nxt)，其中w_(cur，nxt)表示边(cur，nxt)∈E的权重，对于非加权图w_(cur，nxt)＝1；prev表示节点cur的上一个采样节点，α_pq(prev，nxt)定义如公式4-6，公式中d_(prev，nxt)表示当前节点cur的上一节点prev与下一节点nxt之间的最短路径距离，参数p与q调节可偏游走策略对于网络同质性和结构等价性的关注程度。

具体来说，参数p控制采样时返回上一个访问过的节点的概率。当p>max(q,1)时，返回访问过的节点的概率会更小，使得采样过程更可能向外探索图的全局结构；反之则倾向于围绕源节点o进行节点采样，此时有利于描述节点及其邻域在图中的局部结构；而参数q用以控制游走的“向内”或者“向外”的采样倾向，当q>1时，随机游走会以更高概率返回已经采样过的节点和这些节点近邻的节点，这有助于获取图的局部结构；而若q<1，游走过程会更可能向外探索，通过参数p和参数q的组合，可以更好地控制节点采样按预期的方向进行。如图8示意了转移概率的计算。

道路嵌入模型有两个核心部分，一是通过随机游走从道路拥堵反向传播网络中采样节点序列，二是通过Skip-gram模型和节点序列学习道路的嵌入表征。

交通拥堵事件表征的目的在于将拥堵事件嵌入为隐向量，用于后续拥堵的时空传播规律分析。以交通拥堵事件拥堵传播图为输入图，本方案采用VGAE模型来完成交通拥堵事件嵌入任务，VGAE模型可以有效地将图节点自身的信息和节点间的关系映射到特征空间，这对保留拥堵事件更多的道路信息和事件间的拥堵传播关系具有优势。

VGAE模型是变分自编码器(Variational autoencoder，VAE)在图数据的扩展。自编码器结构包括编码器和解码器两个部分，编码器用来获取输入数据在低维空间的表征，解码器使用隐向量重构输入数据。

如图9所示为VGAE模型的结构示意图，其中G＝(V,E)表示一个图，V为节点集合，E为边集合，图G中有N＝|V|个节点；又有A表示图G的邻接矩阵，X表示图G中节点的特征矩阵，σ和μ为低维表示的正态分布参数，Z表示采样得到的所有节点的低维矩阵，由每个节点样本的低维向量z_i组成，表示重构的邻接矩阵。

VGAE模型的编码器部分由两层GCN神经网络构成，输入数据为图G的邻接矩阵和节点特征矩阵X，输出一个表示图节点的嵌入矩阵Z。编码器的第一层GCN神经网络从邻接矩阵A和节点特征矩阵X中获取低维特征矩阵如公式4-7，其中W₀表示第一层GCN神经网络权重矩阵，/>则为对称的归一化邻接矩阵。/>与节点度矩阵D的关系如公式4-8所示，ReLU(*)表示激活函数。

第二层GCN神经网络学习了正态分布参数μ和参数logσ²，这两个参数约束了节点低维表示的分布空间，分别如公式4-9和公式4-10所示，其中W₁表示第二层GCN神经网络的权重矩阵。综合考虑第一层GCN神经网络和第二层GCN神经网络，VGAE模型的编码器表示为公式4-11。

VGAE模型获取节点的隐向量需要从学习到的分布空间中采样，然而在模型训练过程中采样操作没有梯度信息导致无法进行反向传播，VGAE模型使用重参数技巧(reparameterization trick)解决这一问题。具体来说，将从正态分布空间N(μ，σ²)中采样节点隐向量Z的操作，转换为从标准正态分布N(0，1)中采样随机数∈，然后使用公式4-12计算得到样本的隐向量Z。因此，VGAE模型编码器编码输入图中第i个节点隐向量z_i的过程表示为公式4-13，diag(*)表示对角矩阵，N(*)表示正态分布，编码图中所有节点的过程如公式4-14。

Z＝μ+σ*∈#(4-12)

VGAE模型的解码器并没有使用和编码器对称的结构，而是通过两个节点隐向量的内积计算节点间存在边的概率，进而重构输入图的邻接矩阵。具体来说，输入图中任意两个节点i和节点j，存在边的概率采用公式4-15计算。重构输入图G的邻接矩阵，需要图中所有节点两两计算存在边的概率，如公式4-16所示，其中A_ij表示图G的邻接矩阵A的对应位置元素，σ(·)表示logistic sigmoid函数。

VGAE模型的学习目标包括两个部分，一是重构的邻接矩阵和输入数据的邻接矩阵尽可能的相似，二是编码器和解码器的正态分布的散度尽可能小。定义变分下界为L，VGAE模型的优化目标如公式4-17所示。公式4-17中KL[q(·)||p(·)]表示编码器q(·)和解码器p(·)的KL散度，E_q(z|X，A)[logp(A|Z)]为交叉熵函数，p(Z)如公式4-18。

L＝E_q(Z|X，A)[logp(A|Z)]-KL[q(Z|X，A)||p(Z)]#(4-17)

通过聚类算法可以将一个数据集内不同的数据记录分配到不同的组别或者类簇，使得同一簇内的记录尽可能的相似，而不同簇之间的差异尽可能的大。本方案将聚类算法应用于交通拥堵事件的嵌入向量，对交通拥堵事件进行聚类，将全体的交通拥堵事件集划分为不同的类簇。聚类算法在数据分析中具有重要的意义和作用，不同类型的聚类算法适用于不同分布的数据集合，选择适用的聚类算法是挖掘数据模式的关键。本方案采用HDBSCAN算法来对拥堵事件进行聚类。

对高维数据进行聚类时，若数据在高维空间分布稀疏，可能会导致聚类算法过拟合，造成聚类效果不佳，对于基于密度的聚类算法，表现为将大量的样本识别为噪声，实践中常对数据进行降维改变数据的分布空间，解决数据分布稀疏的问题。本方案使用UMAP(Uniform Manifold Approximation and Projection，UMAP)算法对交通拥堵事件的隐向量进行降维，作为聚类的前置操作，借助UMAP算法的非线性感知降维能力，提升了HDBSCAN算法的聚类效果。

类簇中的拥堵事件是拥堵传播规律的具体表现，通过总结类簇中的拥堵事件，可以具体的描述拥堵传播规律。本方案提出了道路拥堵传播概览构建算法，结合道路拥堵传播概览图展示拥堵传播规律的空间分布。

降维(Dimensionality reduction，DR)被广泛用于各类机器学习任务的预处理过程，对数据集聚类前使用降维算法是有效的工作流。在聚类算法前采用降维算法预处理有如下两个显著的优势，(1)使用更低维度的数据进行聚类工作可以显著地降低聚类算法的时间复杂度，加速聚类算法的执行；(2)降维可以帮助聚类算法取得更好的聚类结果，特别是待聚类的数据集在低维空间上体现了更好的结构性时。

本方案通过降维算法来对交通拥堵事件的嵌入向量进行降维，作为拥堵事件聚类的预处理过程。借助降维算法在保持拥堵事件嵌入向量相互关系的基础上解决拥堵事件嵌入空间分布稀疏的问题，提升拥堵事件聚类工作的性能表现。对于不同类型的降维算法，本方案选择UMAP算法完成这一工作，在多个数据集上的实验表明UMAP算法在降维效果上优于其他常见算法，与t-SNE(t-Distributed Stochastic Neighbor Embedding，t-SNE)算法表现相当，但UMAP算法在时间复杂度上远优于t-SNE算法的表现。

UMAP算法使用单纯复形(Simplicial complexes)的概念通过简单的组合分量构建拓扑空间，有效地降低处理数据拓扑空间的复杂性。如图10是四个基本的单纯形的示意图，0单纯形(0-simple)是由一个单独的点构成的，1-单纯形(1-simple)是两个独立点构成的直线，2-单纯形(2-simple)是由三个点构成的三角形，而3-单纯形(3-simple)是包含四个2-单纯形的四面体，这些基本的组合分量通过k+1个点的凸壳形成的k维对象，可以推广泛化到任意的维度空间。

UMAP算法在构造高维加权图时，将输入数据的每一个数据样本都作为一个高维空间的一个点，这些点都是0-单纯形。通过将点半径内重叠的点连接，就可以构造1单纯形、2单纯形和更高维度的单纯形，这些单纯形通过特定的方式组合形成复合体，复合体对于数据集的近似拓扑表示具有重要意义。通常来说，组合0单纯形和1单纯形不但可以完成绝大多数的拓扑表示工作，而且具有更高的计算效率，这在大型数据集上具有明显的优势。

然而，选择合适的构造复合体的连接半径是一个挑战，半径的选择将影响数据拓扑空间的近似表达，若半径过小，算法将对局部的点簇具有明显的倾向性；反之若半径过大，算法无法有效捕获结构。UMAP算法通过每个样本点到其k近邻节点的距离动态地确定半径，而不使用固定的半径参数。在这个局部半径内部的点，都和该点存在一个连接，这也意味着每个点都至少有一个连接，并不存在孤立的节点。将样本点间连接的距离作为权重，数据样本构成了有向加权图其中V表示图的节点，E表示图/>的有向边，边的权重w表示两个节点间连接的可能性。将数据样本表示为x，有x_i∈V，若x_i有k个邻居节点/>有/> 为了计算x_i与某一邻居节点/>的权重，首先定义了ρ_i和σ_i，如公式5-1和公式5-2，/>表示两节点的欧式距离。又有σ_i则符合公式5-2的约束，综合ρ_i和σ_i，边/>的权重函数w如公式5-3表示。

图为有向图，对于任意两个节点x_i和/>最多可能存在两条边，结合边的权重函数w，这两点之间两条边权重可能不同。将有向图/>转换为无向加权图G＝{V，E，w}需要解决两条边权重不一致的问题。UMAP算法采用合并的策略将两点之间边的权重合并，获得具有组合权重的无向加权图。若A为有向图/>的邻接矩阵，A^T表示A的转置矩阵，B为组合权重后无向图G连边的权重，B如公式5-4所示。

以上步骤UMAP算法将输入数据表示成高维加权图，该加权图为无向图，捕捉了数据流形的拓扑结构。

UMAP算法将采用力导向图布局算法在低维空间确定一个与高维空间尽可能相似的拓扑结构，该低维空间的拓扑结构就是输入数据的低维表示。为了获取低维空间的投影与高维加权图尽可能的相似，采用交叉熵函数优化投影，如公式5-5。

对于图G中的每一条边e∈E，w_l(e)表示低维空间的距离权重，而w_h(e)表示在高维空间的距离权重，这两个距离权重的计算方法见公式5-3。

不同的聚类算法使用不同的方法指标来衡量数据样本间的相似性，特定的聚类算法并不都适用所有的数据集，因此依据任务类型和数据样本的分布特点，选择合适的聚类算法在数据挖掘任务中至关重要。本方案考察了几种常见的聚类算法，对比了这些算法的优缺点和适用范围。

K-Means算法是被广泛采用的聚类算法，以距离作为数据实例间相似性度量的标准，距离越近的实例越有可能划分为相同的簇。在实践应用中，需要对数据集有丰富的先验知识才能选择出合适的聚类数量参数k，虽然一些方法被提出用于帮助更好的选择参数k，但这些方法本身也只适用于特定分布的数据集。DBSCAN算法使用密度可达衡量样本间的相似性，寻找被低密度样本分割的高密度的样本簇团。因此DBSCAN算法无需指定划分的类别数量，就可以在任意形状的数据集上取得较好的聚类结果，算法初始值的选择也不会对聚类结果造成重大影响，聚类稳定性较好。DBSCAN算法通过最小簇样本数量参数MPts和半径Eps来改变样本间的密度可达性，调整具体数据集上的聚类效果。对于数据样本密度差异较大的数据集，为DBSCAN算法选取合适的半径Eps参数存在挑战，难以取得理想的聚类效果。

本方案使用UMAP算法将交通拥堵事件嵌入向量降维后可视化，以观察嵌入向量在隐空间中的分布情况，可视结果如图11所示。通过细致的对比验证，发现嵌入向量在隐空间中有明显的聚集现象，这些高密度区域样本点对应的拥堵事件也在道路空间上相互接近。然而通过进一步观察，本方案发现这些“簇”的密度差异较大，在隐空间上分布很不均匀，难以选择一个合适的半径参数将这些高密度区域分离开来。依据嵌入向量的空间分布特点，本方案需要采用一种可以自动识别最佳的聚簇数量并自适应邻域半径的聚类算法。

HDBSCAN算法的一些关键改进，使得该算法可以在密度差异较大的数据集上取得较好的聚类效果。首先，HDBSCAN算法提出了相互可达距离来改进数据样本间距离的计算方法，达到空间变换的目的，避免不同的簇被错误的合并；其次，HDBSCAN算法计算了类簇的稳定性，并据此将类簇适当合并或者分割，获取不同密度簇类的最佳聚类结果。结合交通拥堵事件嵌入向量的空间分布特点，本方案使用HDBSCAN算法聚类交通拥堵事件，挖掘交通拥堵传播模式。

HDBSCAN聚类算法的核心思想是单链路聚类(Single Linkage Clustering)，通过簇间最短的样本距离来衡量簇间的距离，合并簇间距离最小的两个簇。这一策略使得单链路聚类算法对于噪声点极为敏感，位于“错误”位置的噪声点会将两个不同的类簇连接，从而改变整个数据集的聚类结构。为了增强聚类算法的健壮性，降低噪声数据对聚类结果的影响，HDBSCAN算法在进行具体的聚类工作前，重新定义了样本间的相互可达距离以达成空间变换目的，使得数据空间中稠密样本与稀疏噪声样本的距离更远。

首先，使用数据样本spl与其第k个最近邻的另一数据样本T^k(spl)之间的距离估算样本spl的密度，这是一种效率很高的密度估计方法，称之为数据样本spl在参数k下的核心距离，记为core_k(spl)，计算公式如5-6，其中d表示距离函数。

core_k(spl)＝d(spl，T^k(spl))#(5-6)

接下来借助核心距离定义了一个新的数据样本间距的度量算法，使得稀疏的点远离稠密的点，这就是相互可达距离，定义如公式5-7。

d_mreach-k(spla，spl_b)＝max{core_k(spla)，core_k(spl_b)，d(spla，spl_b)}#(5-7)

同上公式5-6，d表示距离函数，d(spl_a，spl_b)即spl_a和spl_b的距离度量；core_k(spl_a)表示spl_a的核心距离，core_k(spl_b)表示spl_b的核心距离。公式5-7说明数据样本spl_a和数据样本spl_b间的相互可达距离是由二者之间的距离和各自的核心距离三者共同决定，稠密的数据样本间的距离度量依旧保持实际的距离d(spl_a，spl_b)，稀疏的数据样本间的距离将由核心距离表示，最终稀疏的数据实例被“推开”，使其远离其他的点。核心距离参数k的选择会影响噪声点的判断，较大的k会导致更多的数据实例被判定为噪声点。

已有研究证明采用相互可达距离进行空间变换，可以使得单链接最小距离聚类算法在任何密度分布的数据集上达到更加接近水平的层次结构，这有助于提升聚类效果。

HDBSCAN算法需要找到一种方法可以在整体的数据实例分布空间中，将稠密的数据实例团作为类簇分离出来。这里所指的稠密是相对而言的，对于同一个数据分布空间中不同的“类簇”，它们有不同的密度。为了完成这一任务，HDBSCAN算法首先构建了一个加权图，该加权图以数据实例为节点，任意两个数据实例间建立一条连边，连边的权重为这两个数据实例的相互可达距离。接着，HDBSCAN算法找到一个权重之和最小的边集，这个边集是完全连接的加权图的最小生成树，边集中任何一条边断开，就会导致加权图断开。

Prim算法是基于贪心策略的最小生成树构建算法，执行过程中每次都添加一条权重最小的边到选定的边子集中，使得边子集中的树连接到子集中还没有出现的顶点，直到所有的顶点都被添加到该边子集。

通过上述构建方法，HDBSCAN构建了一颗以数据样本为节点，样本间的连接为边的最小生成树。此后HDBSCAN基于最小生成树来构建层次结构，以获取数据样本的簇类，算法过程主要分为两步，重复这一过程直到最小生成树的每一条边都被处理：

(1)第一步：首先将最小生成树中的边按从小到大的递增顺序排序；

(2)第二步：按排序后的顺序选取每一条边，将选取的边的子图合并为一个类簇。

通过上述算法构建簇的层次结构是二叉树，根节点则表示整个数据集，每个节点表示一个数据样本子集构成的类簇，节点的子树表示当前类簇的***。自顶向下理解这个类簇子集的***过程，每次***都去掉最小生成树的一条边，将连接的类簇结构划分为不连接的子图。每一次***都有与之对应的距离distance，该距离是最小二叉树中去掉的边的距离，以上表示簇类层次结构的二叉树称为聚类树。

依据聚类树的层次可以确定一个固定的阈值，将聚类树划分为上下两部分，在给定阈值下，最接近阈值的聚类树节点便是获取到的类簇，大于阈值才被包含进聚类树节点的数据样本则为噪声点。然而使用固定阈值划分的策略依赖于对数据集先验知识的了解，对于簇间距离不均衡的数据集也很难取得好的聚类效果，这限制了聚类算法的应用范围，也降低了该算法在实际数据集上的表现。

HDBSCAN算法通过压缩聚类树并改进获取簇类时节点距离度量来解决以上问题。压缩聚类树旨在将庞大且复杂的聚类树压缩为一个规模更小的树，使得每个聚类树节点包含更多的数据样本，并去除噪声样本。最小簇尺寸定义聚类类簇最小的样本数量限制，HDBSCAN算法遍历聚类树的每一个节点，检查该节点的子节点包含数据样本的数量是否符合最小簇尺寸的要求：

(1)若两个子节点包含的数据实例数量都小于最小簇尺寸，这两个节点都要被删除，且当前节点停止***；

(2)若在两个子节点中，有一个子节点包含的数据实例数量小于最小簇尺寸，而另一个大于最小簇尺寸，那么将小于最小簇尺寸的节点删除，保留较大尺寸的节点且该子节点保留父节点的标签；

(3)若两个子节点包含的数据实例数量都大于最小簇尺寸，保留当前节点的两个子节点，使当前节点在聚类树中正常***。

压缩聚类树后，获取到一棵规模较小、噪声点样本已经被移除的聚类树，选择聚类树中不被其他已带标签节点包含的节点添加标签即完成了聚类。为了实现最佳的聚类效果，被选中的聚类树节点应当是稳定的。

聚类树可以形象地理解为将数据集***为不同类簇的过程，***的节点与子节点间的距离distance为这一过程中最小生成树断开的边的距离。HDBSCAN算法使用distance的倒数度量节点的稳定性，即λ＝1\distance。

从不同节点的视角观察，每次节点的***过程中包含一个被***的节点，也包含有若干节点为***产生的节点。因此对于聚类树的每个节点，都是从其他节点***得到的(根节点除外)，同时每个节点也将***得到其他节点(叶子节点除外)。因此每个节点定义了两种稳定性度量，λ_birth表示通过***产生的节点(子节点)，λ_death表示当前节点为被***的节点(父节点)。在构建簇层次结构时，首先将最小生成树的边按升序排序，因此生成的聚类树层次越深，断开边的距离越短，由此可知节点的稳定性度量存在关系λ_birth＜λ_death。

对于聚类树节点中的每个数据样本slp，也定义了一个稳定性度量λ_slp，其值为在压缩聚类树过程中，样本slp离开节点时断开最小生成树边距离distance的倒数。这一过程有两种情况会使样本离开当前聚类树节点：

(1)***得到的子节点的样本数量小于最小簇尺寸，此时数据实例将作为噪声点从聚类树中移除，此时有λ_birth＜λ_slp＜λ_death；

(2)***得到的两个子节点的样本数量都大于最小簇尺寸，这种情况下节点进行了正常的***，当前节点的样本slp将进入子节点，此时有λ_slp＝λ_death。

综合节点(簇)内的每个样本，聚类树节点的稳定性计算如公式5-8。

分析公式5-8可知s_cluster≤0，且节点中的噪声散点越少，簇稳定性越高，节点稳定性s_cluster越大。

计算聚类树节点的稳定性后，自底向上遍历聚类树获取标记节点。若当前节点的稳定性小于子节点的稳定性之和，将当前节点的稳定性设置为子节点的稳定性之和；若当前节点的稳定性大于子节点的稳定性之和，则将当前节点标记，并取消当前节点所有子节点的标记。遍历到聚类树根节点时，返回所有的标记的节点作为聚类结果。

本方案使用聚类算法将交通拥堵传播事件聚类，同一个簇中的交通拥堵事件具有类似的交通拥堵传播规律，通过对簇中拥堵事件进行总结，概括拥堵事件在时间、空间和拥堵传播关系的共性规律。本方案主要是从规律中发现拥堵事件的道路空间、道路拥堵严重程度、道路间拥堵传播关系和关联强度、拥堵事件发生的事件周期和不同事件周期上的拥堵强度等几个方面描述具体的交通拥堵传播规律，这些描述将有助于人们理解不同类型交通拥堵的时空特性。

道路间拥堵传播关系和关联强度并不能通过数值简单描述，这一关系包含了一系列的道路、道路间拥堵传播关联和传播强度，关注道路间在拥堵传播上的相互联系。因此，本方案提出了道路拥堵传播概览构建算法用以总结道路拥堵传播规律，这是一个加权有向图，由构建算法从交通拥堵传播模式包含的交通拥堵事件提取、总结道路间拥堵传播关系。

本方案以簇中的拥堵事件作为描述交通拥堵传播规律的关键事件，称为锚点事件，如图12所示斜线填充的节点示意了一个事件簇中的锚点事件。以锚点事件为出发节点，对交通拥堵事件传播图分别进行正向和反向的深度遍历，获取了全部与交通拥堵事件簇高度相关的拥堵事件集合E。

接下来构建算法初始化一个空的有向拓扑图G，接着遍历拥堵事件集合E存在的每一条有向边。每条边在道路交通拥堵传播网络中使用图的深度遍历算法(DFS)获取两个拥堵事件发生道路间的最短路径作为传播边之间的最佳传播路径。将传播路径作为边加入拓扑图G中，若待加入拓扑图G的边不存在，则添加相应的连边，且边的权重为1；若待加入拓扑图G中的连边存在，则只增加相应边的权重。对于待加入拓扑图G中的道路节点同样处理，若道路节点不存在则添加节点且初始化节点权重为1，若节点已经存在则只增加节点的权重。构建算法重复该过程直到所有的拥堵事件集合E中相关的边都被处理，这样就得到了道路拥堵传播概览图。如图12示意了该构建算法的具体过程。

交通拥堵传播可视分析***JPViz立足于具体的设计需求，结合丰富的可视化视图设计与高效的***交互，帮助领域专家对城市交通拥堵传播模式进行深入探索。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.交通拥堵传播模式感知与可视分析方法，其特征在于，包括下述步骤：

2.根据权利要求1的交通拥堵传播模式感知与可视分析方法，其特征在于，步骤S1具体如下：

对所述GPS轨迹数据进行数据清洗；

计算一段时间内轨迹点的平均速度作为道路的行程速度，以固定时间长度TL划分时间片，给定道路rd_i和对应的时间片ts_j中的所有轨迹点每个轨迹点都有速度记录/>在计算道路平均速度时添加支持度参数θ，参与计算平均速度的时间片内轨迹点数量必须大于给定阈值θ，否则计算结果无效；道路rd_i在时间片ts_j上的行程速度计算方法如下公式

3.根据权利要求1的交通拥堵传播模式感知与可视分析方法，其特征在于，步骤S2具体如下：

交通拥堵事件传播图的构建过程为：

4.根据权利要求2的交通拥堵传播模式感知与可视分析方法，其特征在于，对所述GPS轨迹数据进行数据清洗如下：

(1)地理区域限制；

(2)记录时间限制；

(3)重复轨迹点限制；

(4)行驶速度限制；

(5)道路范围限制。

5.根据权利要求2的交通拥堵传播模式感知与可视分析方法，其特征在于，对轨迹tj进行过滤如下：

(1)轨迹点数量；轨迹要包含五个或以上的轨迹点；

6.根据权利要求2的交通拥堵传播模式感知与可视分析方法，其特征在于，ST-Matching地图匹配算法如下：

(3)候选点时间分析；时间分析函数F_t兼顾轨迹的通过速度和道路的限速，避免空间分析函数无法区分同向近邻道路的情形，提升轨迹地图匹配的质量；对于相邻轨迹点pt_i-1和pt_i的两个候选点和/>它们的最短路径包括道路路段[rd₁，rd₂，…，rd_u，…，rd_k]，其中路段rd_u的长度记为len_u，限速为lim_u，轨迹点pt_i-1到pt_i的行驶时间记为Δt_i-1→i，则轨迹点pt_i-1到pt_i的平均速度/>计算如下第一公式，对应候选点/>和的时间分析函数F_t如下第二公式，

对于轨迹tj的候选路径序列序列得分如下第一公式，得分最高的序列即为最佳匹配路径MP，如下第二公式，

MP＝argmax_PcandF(P_cand)#(3-8)。