CN108417029B

CN108417029B - 基于自适应多任务深度学习的城市路网行程时间估计方法

Info

Publication number: CN108417029B
Application number: CN201810141263.2A
Authority: CN
Inventors: 陈淑燕; 唐坤; 张斌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2020-11-06
Anticipated expiration: 2038-02-11
Also published as: CN108417029A

Abstract

本发明公开了一种基于自适应多任务深度学习的城市路网行程时间估计方法，属于智能交通技术领域。首先提取影响路段行程时间的特征，然后以降噪稀疏自编码器为元件构建由多个特征学习层组成的深度网络，逐层学习输入的特征表示；最后，使用基于概率的方法对行程时间的不确定性建模，构建多任务的回归层，由最小化模型输出与观测值之间的误差，使模型自动调整各个任务的权重。本发明克服了现有方法存在的浅层网络难以描述城市路网中复杂非线性的行程时间、需要人为调整联合学习任务权重以及只能利用具有完整任务标签的数据等缺陷，提高了行程时间估计的效率，在城市路网行程时间估计中具有重要的现实意义。

Description

基于自适应多任务深度学习的城市路网行程时间估计方法

技术领域

本发明涉及一种运用自适应权重的多任务深度学习方法进行城市路网行程时间估计的方法，属于智能交通技术领域。

背景技术

在现实生活中，我们通常会把一个大的问题划分成若干高度相关的子问题。把对于每个子问题的学***行训练，共享信息，以实现良好的学习效果。

在城市路网行程时间的估计方面，不同时段下路网上各路段行程时间的估计可以视为不同的任务，如果进行单任务的学习，各任务之间将不能共享信息，浪费了数据背后隐含的规律。如果将不同的行程时间估计任务同时进行多任务学习，就可以让模型共享各个任务之间在时间和空间上的相关信息，使得行程时间估计的精度和效率更为提高。同时，在实际情况下，由于受到车辆数量和车辆经行路线的限制，很难获得所有路段行程时间的观测值，这种标签不完整的数据在训练模型的过程中会带来很多问题，使得模型的训练效果不够理想。针对不完整标签数据的观测样本，进一步提出改进的多任务深度学习模型，只要某一个路段在任何一个任务中存在行程时间标签，就可以对其加以利用，这样可以提高数据的利用效率，使模型拥有更好的路段行程时间估计效果。

发明内容

本发明所要解决的技术问题是：

为了提高了城市路网行程时间估计的效率，本发明提出一种运用自适应权重的多任务深度学习方法进行城市路网行程时间估计的方法

本发明为解决上述技术问题采用以下技术方案：一种基于自适应多任务深度学习的城市路网行程时间估计方法，包括如下步骤：

1)获取路网信息及影响路段上车辆行程时间的特征参数；

2)通过堆叠的降噪稀疏自编码器实现单个时段内路段行程时间估计的单任务学习；

3)将若干时段的路段行程时间估计结合在同一个深度多任务学习模型之中，各任务共享信息，使得部分在单任务学习中无法使用的数据在此加以利用；

4)通过程序自动调节多任务学习模型中各任务所占权重；

5)在模型中应用缺失标签数据；建立最小化模型输出与路段行程时间观测值之间的误差训练模型，估计城市路网中各路段的通行时间。

进一步地，步骤1)所述路网信息包括整个城市路网的路段数量、长度和节点数量；所述影响路段上车辆行程时间的特征参数包括路段特征、环境特征和空间相关特征。

进一步地，步骤2)所述实现单任务学习，步骤具体包括：

201、通过降噪稀疏自编码器获取原始输入中的数据特征；

202、最小化重构误差

其中的第一项是基于经验的损失项，N是样本数，x_i表示第i个路段行程时间影响因素的特征向量，

是x_i与

之间的重构误差，第二项是控制稀疏的正则项，其中β是稀疏性惩罚权重，H是隐层的神经元数量，ρ是恒定的稀疏参数，

是训练集中隐层神经元j的稀疏度，KL(·)是Kullback-Leibler差异，或称KL距离，定义如下：

203、逐层训练模型。

进一步地，步骤3)所述将若干时段的路段行程时间估计结合在同一个深度多任务学习模型之中的具体方法为：

实现

其中，W表示多任务深度学习的模型参数；

是第i个路段行程时间影响因素的特征向量，

是第j个时间段内第i个路段观测到的行程时间，j＝1,2,…,T；i＝1,2,…,N；f^j(x_i；W)是对应于输入x_i的第j个任务的输出，

是一个损失函数，c_j是单个任务的权重；第二项λΩ(W)是一个正则化项，用以惩罚W的复杂度，其中λ＞0是正则化参数。

进一步地，所述损失函数L为平方损失函数。

进一步地，步骤4)所述调节多任务学习模型中各任务所占权重具体步骤包括：

通过最小化单任务损失函数的线性加权和来实现最小化多任务损失函数，所述多个任务总的损失函数为

结合贝叶斯模型，将上述最优化问题转化为如下优化问题：

其中σ_j是对应于第j个任务的高斯分布的标准差，L_j(W)是第j个任务的损失函数，末项为正则项。

进一步地，步骤5)所述在模型中应用缺失标签数据的具体步骤包括：

构建最小化模型

其中a_ji'表示第i'个样本对于第j个任务是否有标签，定义为：

a_ji'＝0表示第i'个样本对于第j个任务没有标签，即没有观测值；

标准化每个任务的损失为：

用

表示第j个任务的平均估计损失，上式转化为：

将其作为所提出的自适应权重的深度多任务学习模型，估计城市路网中各路段的通行时间；其中，末项是正则项。

进一步地，所述自适应权重的深度多任务学习模型的末项选用

范数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)考虑道路沿线的环境特征对行程时间的影响，提高模型的精度；

(2)相较于浅层神经网络，采用深度神经网络以更好地学习数据中的隐含特征；

(3)多任务学习模型考虑到各个任务之间的相关性，训练过程中各个任务共享特征，相较于单任务学习模型可以实现更高的估计精度；

(4)不再平等对待多任务深度学习模型中的多个任务或是人为确定各个任务的权重，而是采用自适应权重的方法，更合理地调节各个任务的权重，以使得整个模型达到更高的估计精度；

(5)有效地处理了标签不完整的数据，使得这些数据也可以被加以利用。

附图说明

图1是本发明的总体流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

参考图1所示，本部分包括以下五个步骤。首先提取影响路段行程时间的特征因素，以此确定模型的输入。考虑将一个时间段内所有路段的行程时间估计作为一个任务，由于实际条件的限制，很多路段上的行程时间数据是没有的，这就导致进行单任务学***等对待或人为指定的，而在此我们让模型自动调整各任务的权重，使得模型能够更好地捕获数据中的特征，取得更高的精度。

(1)输入参数确定

在一个时段内，某一路段的行程时间受到诸多因素的影响，如路段长度、车道数以及相邻路段的交通状况等。对于一个给定的路段i，将影响其行程时间的因素分为以下三类：路段特征、环境特征和空间相关特征。

1)路段特征

一个路段的行程时间主要是受其路段特征g(i)的影响。在本文中，从道路网中提取7个路段特征，包括路段长度、车道数量、路段限速、方向、道路等级、转弯半径以及连接道路的数量，因此

路段特征表征了路段在地理空间上的相似程度，有相似路段特征的路段在行程时间上也是相似的。

2)环境特征

一个路段的行程时间也与路段的环境特征c(i)，亦即道路沿线各种兴趣点的分布高度相关。在本文中，提取了11个道路沿线的环境特征，包括学校、公司、银行、商场、餐厅、加油站、景点、酒店、交通站点、娱乐设施分布的分布情况以及沿线兴趣点的总数，因此

环境特征表征了路段在沿线环境上的相似性，有相似环境特征的路段在行程时间上也是相似的。

3)空间相关特征

一个路段的行程时间除了与路段自身的一些特征有关，也受到相邻路段的影响。在本文中，我们同时提取目标路段及其上下游路段的路段特征和环境特征，将这些特征一起作为目标路段行程时间估计的输入。

模型的输入x(i)如下所示：

其中的

和

分别是前文提及的路段特征和环境特征，(i-m)和(i+m)分别表示第m个上下游路段。因此一个输入的维度为d＝(2m+1)×(7+11)＝36×m+18。目标路段的行程时间以y(i)＝f(x(i))表示，其中

是行程时间关于影响因素的函数。给定一个有m个输入/输出的数据集

行程时间估计的过程也就是建立行程时间关于影响因素的关系模型f的过程，使得

其中

是一个衡量估计误差的损失函数，比如平方误差损失函数。

(2)深度单任务学习

目前应用于行程时间估计的神经网络结构中，多数都是采用了浅层的网络。由于受到交叉口处车辆到达的波动性和交通信号的影响，城市道路上车辆的行程时间具有很大的不确定性。一个隐层难以捕捉行程时间与诸多影响因素之间的非线性特征，鉴于此，一种可行方法就是建立一个能够逐层学习输入特征的深层网络。在此引入一种叫做堆叠降噪稀疏自编码器(Stacked Denoising Sparse Auto-encoders，SDSAEs)的深度结构模型。

1)降噪稀疏自编码器(Denoising Sparse Auto-encoders，DSAEs)

降噪稀疏自编码器通过重构输入来学习隐层的特征。首先增加噪声到输入x中，然后将带有噪声的输入映射到输出y，y＝s(Wx_noise+b)，s(·)是Sigmoid激活函数，W是编码的权重矩阵，b是偏置项。然后通过解码重构输入，

其中W'是解码的权重矩阵，b'是解码的偏置项。给定训练样本{x₁,x₂,…,x_N}，降噪稀疏自编码器最小化重构误差，即

是x_i与

2)堆叠降噪稀疏自编码器(StackedDenoisingSparseAuto-encoders，SDSAEs)

堆叠降噪稀疏自编码器是把多层的降噪稀疏自编码器串联起来，前层的输出作为相邻后一层的输入。基于SDSAEs学习到的高层特征，在最后增加一个回归层来估计城市路网中各个路段的行程时间。

(3)深度多任务学习

不同时段的路段行程时间估计可以被视为不同的任务，这些任务之间有高度的相关性。多任务学习考虑到各任务之间的相关性，通过各任务之间共享信息，提高学习的精度和效率。一个路段的行程时间在相邻的时段上是相关的，彼此之间有很多信息可以共享。在此以一定的时间间隔划分时段，每个时段的路段行程时间估计视为一个任务。不同时段的多个任务共享隐层，共享权重，通过反向传播算法协作学习。

假设同时进行T个时间段的路段行程时间估计任务，现在给定了有N个输入/输出的样本

其中

是第j个路段行程时间影响因素的特征向量，

是第i个时段内第j个路段观测到的行程时间。此时多任务深度学习的目标即为实现：

其中，W表示多任务深度学习的模型参数；

是第i个路段行程时间影响因素的特征向量，

是一个损失函数，c_j是单个任务的权重；第二项λΩ(W)是一个正则化项，用以惩罚W的复杂度，其中λ＞0是正则化参数。(4)自适应权重的深度多任务学习

定义

为第j个任务的损失函数，则多个任务总的损失函数为

最小化多任务损失函数通过最小化单任务损失函数的线性加权和来实现，这时候模型的表现对各任务之间的权重高度敏感。以下通过自适应权重来解决最优化问题。

首先考虑单任务学习的情况。令f(x；W)为单任务深度学习的输出，基于贝叶斯模型考虑如下概率模型：

给定W情况下的y符合均值为f(x；W)、方差为σ²的高斯分布。对于独立的观测变量{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，考虑了W和σ的最优化问题就转化为最大似然估计问题：

其等价于最小化平方误差的和函数：

通过对W和σ的梯度下降可以求得其局部最优解。

在多任务学习的情况下，用y_j表示第j个任务的观测值，fⁱ(x；W)表示对应于输入x的第j个任务的输出。对于所有的j(j＝1,2,…,T)个任务，单个任务的似然函数表示为

即第j个任务服从均值为f^j(x；W)、方差为

的高斯分布。对多任务深度学习网络的输出f(x；W)＝[f¹(x；W),f²(x；W),…,f^T(x；W)]进行因式分解，得到如下多任务的似然函数：

对于有N个观测样本的数据集，考虑到模型参数W和σ_j(j＝1,2,…,T)，则有如下的最大似然估计问题：

其中，y_ji'表示第j个任务的标签，f^j(x_i'；W)是深度多任务学习网络对应于输入x_i'的输出。考虑到模型参数W和观测噪声σ_j，上述最大化问题等价于：

其中

表示第j个任务的标签和对应于第i'个输入的输出之间的差值。由于第j个任务的损失表示为：

所以上述最小化问题可写为如下形式：

通过对W和σ₁,σ₂,…,σ_T进行梯度下降运算求解此最小化问题。为防止过拟合，在此仍含有正则项。

最小化这个关于σ₁,σ₂,…,σ_T的目标函数的过程，可以理解为学***等对待所有任务或需要人为确定各个任务的权重。

(5)缺失标签数据在模型中的应用

上述提到的多任务深度学习模型只能适用于所有时段所有路段都有行程时间观测值的情况，然而在实际中，难以获取如此大量完整的数据。绝大多数情况下，数据的标签是不完整的。针对不完整标签数据的观测样本，提出如下改进的多任务深度学习模型，只要一个观测样本在任一任务中存在一个标签，即一个路段在某一时段内有行程时间的观测值，就可以对其加以利用。

将缺失标签的数据应用于模型之中，则有：

a_ji'＝0表示第i'个样本对于第j个任务没有标签，即没有观测值；这时候，相应的估计损失

将会被忽略，在多任务深度学习中，也不会再考虑梯度的问题。

每个任务中样本的数量不一样，所以每个任务的损失也不同。通过任务中的样本数的不同，标准化每个任务的损失如下：

用

表示第j个任务的平均估计损失，上式转化为：

此即为所提出的自适应权重的深度多任务学习模型，以此来估计城市路网中各路段的通行时间。

本发明提出的一种基于自适应多任务深度学习的城市路网行程时间估计方法，在此以北京的城市道路网络进行示例。

(1)数据说明

北京市整个城市包括148110个结点(交叉口)和196307个路段，路段总长度达22000km。从数字路网中提取道路的路段特征g(i)，从北京的POI数据集中提取路段的环境特征c(i)，从描述路网结构的道路连接数据集中提取路段的环境特征。路段行程时间的观测值从大规模稀疏的GPS轨迹数据集中获取，该数据集中包括2013年9月1日到10月31日的32670辆出租车的轨迹数据，共计达到6.7×10⁸条。使用地图匹配算法将GPS轨迹数据匹配到路网上，计算通过各路段的车辆行程时间。

将上午7：00-9：00以30分钟为间隔划分为4个时间段。由于涉及到的车辆数量有限且一辆车租车在一个时段中只能通过有限个路段，很多路段会没有行程时间的观测值。表1展示了在不同时段有行程时间观测值的路段数量在路段总数中的占比，在第一个时段(早上7:00-7:30)内，只有50490个路段有行程时间的观测值，占比25.7％。

表1不同时段有行程时间观测值的路段占比

时段	7:00-7:30	7:30-8:00	8:00-8:30	8:30-9:00
					有行程时间观测值的路段数量	52604	52616	51291	49396
有观测值的路段数占路段总数的百分比(％)	25.7	26.8	26.1	25.2

受GPS设备及地图匹配算法的影响，从GPS轨迹数据中获取的行程时间数据会有一定的误差。使用高斯混合模型来分析不合理的数据，将其标记为异常值。将3个多变量的高斯函数应用于路段长度和行程时间的对数空间中，将超出99％置信区间的数据标记为异常值。

为评估所提出模型的表现，按照3:1:1的比例，将有行程时间观测值的路段随机地划分为训练集、验证集和测试集。训练集用于有监督的训练，验证集用以判定是否终止训练，基于训练好的模型估计出的测试集中的行程时间用以评估模型效果。

(2)模型建立

为对比所提出模型(即能够处理不完整标签数据的自适应权重深度多任务学习模型，i-WDMTL)在路段行程时间估计上的效果，将其与以下四种方法做对比：反向传播神经网络(BPNN)、深度单任务学习(DSTL)、深度多任务学习(DMTL)、自适应权重的深度多任务学习(WDMTL)。

4个时段作为4个任务，同步进行多任务学习。考虑路段的空间相关特征时，在待估计路段的上下游各取3个路段，即m取3，则对于每一个待估计路段来说，考虑路段特征

环境特征

和空间相关特征的一个输入为d＝(2m+1)×(7+11)＝36×3+18＝126维。多任务学习时，模型一次产生对应于4个时段的输出，其维度为4。

对于模型中的其他参数，在指定的参数范围中寻找最优值。模型的层数从{2,3,4,5,6}中选取，每层的神经元个数从{32,64,128,256,512,1024}中选取，采用Sigmoid非线性激活函数，权重惩罚系数λ、稀疏惩罚系数β、稀疏系数ρ、噪声系数η以0.001的步长从0到1变化。经过梯度搜索，得到各个模型的最优参数如表2所示。

表2模型结构与参数

(3)效果分析

采用三种常用的验证指标：平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、根均方误差(RMSE)来评价所提出模型(i-WDMTL)的效果。表3展示了各种模型在4个时段的路段行程时间估计效果之间的对比，结果表明所提出的模型在行程时间估计上效果良好。

表3模型表现对比

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。