CN114120637A

CN114120637A - 一种基于连续监测器的智慧高速交通流量预测方法

Info

Publication number: CN114120637A
Application number: CN202111311231.0A
Authority: CN
Inventors: 杨阳; 张志祥; 刘强; 关永胜
Original assignee: Jiangsu Sinoroad Engineering Research Institute Co ltd
Current assignee: Jiangsu Sinoroad Engineering Research Institute Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-01

Abstract

本发明的一种基于连续监测器的智慧高速交通流量预测方法，属于交通流量预测技术领域，高速公路门架采集实时交通流量数据，针对历史流量数据建立特征工程获取多维特征，通过线性和非线性方法进行特征选择，建立基于TCN+GBDT的网络模型，采用历史大数据进行训练，模型可对下一时间间隔交通流量进行预测。本方法较传统模型驱动方法、基于纯序列特征的神经网络方法、基于单一RNN类神经网络等方法提高了预测精度。

Description

一种基于连续监测器的智慧高速交通流量预测方法

技术领域

本发明属于交通流量预测技术领域，更具体来说，涉及一种基于连续监测器的智慧高速交通流量预测方法。

背景技术

随着交通智能化水平的提高，大数据、人工智能技术的快速发展，使得及时、有效的获取交通流量实时数据成为现实，海量的历史数据为交通流量预测提供了坚实的数据基础，为了充分发挥智能交通设备的作用以及最大化利用海量历史数据，更好的服务交通管理和控制，众多专家学者在交通流量预测领域开展了大量研究。

在过往研究中，交通流量预测模型主要存在两种模式：模型驱动和数据驱动。

模型驱动也被称为参数方法，典型模型有历史平均模型(HA)、时间序列模型(ARIMA)、卡尔曼滤波模型等。这类方法寻求一种准确的交通流数学模型进行预测，然而，由于交通流的随机性和非线性特征，难以建立固定的数学模型；

数据驱动也被称为非参数方法，主要采用了机器学习方法，支持向量机(SVM)、贝叶斯、K近邻(KNN)、随机森林，以及一些组合算法如卡尔曼滤波模型+SVM、随机森林+遗传算法等等，相比模型驱动方法，数据驱动方法可以从历史交通数据中学习统计规律，但处理高维度复杂数据以及海量数据时，难以高精度地拟合交通流多因素耦合的复杂非线性特征。

随着硬件水平的提高，学者开始采用深度学习方法代替机器学习方法，如人工神经网络(ANN)、循环神经网络(RNN)及其衍生子类长短时记忆神经网络(LSTM)、门控神经网络(GRU)等，以及一些组合，深度学习方法+模型驱动方法，如RNN+ARIMA、深度学习方法+机器学习方法，如K-means+GRU、深度学习方法+深度学习方法，如CNN+LSTM，深度学习模型通过其强大的非线性拟合和深层特征表达能力可以更精准地表达交通流数据内部的复杂结构。

RNN类神经网络及其衍生子类LSTM、GRU等神经网络是当前最为主流的交通流量预测方法，尽管在多数情况下的预测效果已经较模型驱动方法或机器学习方法有了长足进步，但仍然在以下几个方面存在问题：

(1)多数模型通常仅以单一变量如交通流量序列数据，对交通流量进行预测，忽略多个因素对于交通流量的影响，如天气等，导致对恶劣天气情况下的预测精度不准；

(2)RNN类以及衍生子类LSTM、GRU等，都是循环结构，因此在计算当前的输出时，必须等待之前的神经元完成计算，将隐含层状态传递之后才能继续向前。因此，循环结构的网络模型无法像CNN架构大规模并行计算，对效率有要求的场景不适用；

(3)模型着重于时间维度的学习，在空间维度上，各个节点之间交通流量也存在相互影响。

为此，基于以上现状，提出一种基于连续监测器的智慧高速交通流量预测方法。

发明内容

1.发明要解决的技术问题

本发明的目的在于解决上述的缺陷。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种基于连续监测器的智慧高速交通流量预测方法，该方法包括以下步骤：

S1，采集m个高速公路检测器实时交通流量数据；

S2，对采集的数据进行预处理；

S3，对预处理后的数据进行特征工程得到若干个特征；

S4，对得到的若干个特征进行特征选择；

S5，建立TCN-GBDT模型；

S6，对模型进行训练；

S7，预测交通流量。

优选的，步骤S2的预处理包括如下内容：

S2.1，缺失值处理，是对步骤S1中数据不满足数据量Q的情况，采用KNN进行数据补全，k值通过n折交叉验证计算得到，距离采用标准欧式距离：

其中，x_1k是指分量1数据，x_2k是指分量2数据，s_k是指分量标准差；

S2.2，数据核验，是对步骤S1中数据是否满足按照1min统计数据量Q的核验，此外，还包括核验数据中是否包含特殊占道时段，如包括则删除该时段数据：

其中，t_b为采集数据开始时间，t_f为采集数据结束时间，时间都以时间戳表示；

S2.3，归一化，是对步骤S1中补全后的数据进行标准化处理：

其中，x_i为当前数据，x_min为当前向量最小值，x_max为当前向量最大值。

优选的，步骤S3中的特征包括如下内容：

时间特征：节假日、星期、时间段；

数据统计特征：交通流量统计序列、行车速度、空间占有率、时间占有率；

关联路段特征：上游主路交通流量、下游主路交通流量、上游匝道交通流量、下游匝道交通流量；

环境特征：温度、湿度、能见度、天气、风力、空气质量；

事故情况：事故次数统计、接警次数统计、出警次数统计；

特殊事件：重大会议、庆典等次数；

其中，除时间特征和环境特征外，其他特征按照上周同期、上月同期、去年同期、近一年平均、近一月平均、近一周平均、近一天平均、近一小时平均为时间单位统计；

时间特征、环境特征中的天气取one-hot向量，对其他特征按照步骤S2中归一化方法处理。

输入数据由历史数据的门架标志、时间特征、天气特征、前n个序列等多维数据组成，形成i*j的矩阵X，：

其中，i表示数据条数，j表示特征数量。

优选的，步骤S4中的特性选择包括线性特征选择和非线性特征选择，分别如下：

线性特征选择：通过皮尔森相关系数计算，皮尔森相关系数是一种线性相关系数，用来反映两个变量的线性相关程度，其值介于-1到1之间，绝对值越大表明相关性越强：

其中，Cov(X,Y)为X和Y的协方差，σ_X和σ_Y分别为X和Y的标准差，μ_X是X的平均值，μ_Y是Y的平均值，E为期望；

非线性特性选择：在随机森林迭代过程中使用基尼系数作为评价指标来衡量。将变量重要性评分用VIM表示，将基尼系数用GI表示，假设有m个特征X₁,X₂,X₃,...,X_m，计算每个特征X_j的基尼系数评分VIM_j ^Gini，亦即第j个特征在所有决策树中节点***不纯度的平均改变量，评分越高，说明该特征越值得保留。

基尼系数计算公式：

其中，K表示类别，p_mk表示节点m中随机抽取两个样本，其类别标记不一致的概率。

特征X_j在节点m的重要性，即节点m分枝前后的基尼系数变化量为

VIM_jm ^Gini＝GI_m-GI_l-GI_r

其中，GI_l和GI_r分别表示分枝后两个新节点的基尼系数

如果特征X_j在决策树i中出现的节点集合为M，那么X_j在第i颗树的重要性为

假设随机森林中共有n颗树，那么

最后，把所有求得的重要性评分做一个归一化处理即可

优选的，线性特征选择和非线性特征选择均设有阈值，线性特征阈值设为γ₁，非线性特征阈值设为γ₂，对满足γ₁或者γ₂的特征计算结果行步骤S5。

优选的，步骤S5的具体内容为输入数据为经过特征选择的矩阵X，包括i个时刻，j个特征：

简化表示为

表示t_i时刻向量；

卷积核为F＝(f₁,f₂,…,f_k)，其中k为卷积核大小，序列X在

处的因果卷积为：

简单因果卷积网络的感受野与网络深度呈线性关系，学习长时间序列依赖关系时网络会变得非常深，引入扩张卷积以减少简单因果卷积的深度，d为扩张卷积的系数：

引入残差单元模块以解决网络优化问题，如梯度消散，梯度***等；

通过TCN网络自适应提取特征数据，将其作为梯度提升树(GDBT)的输入，通过GDBT对交通流量进行预测。GBDT可看成是由K棵树组成的加法模型，其中F为所有树组成的函数空间，x_ti对应TCN中间层输出

输入是TCN的隐层数据。

优选的，步骤S6的具体内容为对于第t个时刻，第m个门架，将前m-1个门架第t时刻前的特征数据等作为模型输入，第t个时刻、第m个门架实际交通流量数据作为模型输出，对模型进行训练。

优选的，步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量，需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入，输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

(1)本发明在特征上综合时间、数据统计、关联路段、环境、事故情况、特殊事件等多维特征，考虑多个因素对交通流量的影响，提高了模型预测精度。

(2)本发明在特征上基于线性和非线性方法进行了特征选择，相比全部特征进行训练，在训练效率和针对性上有了提高。

(3)本发明选择了TCN神经网络模型，相比当前主流预测模型RNN类以及衍生子类LSTM、GRU等无法并行计算的缺点，在计算效率上有了显著提升。

本发明在TCN神经网络隐藏层计算后输出数据作为GBDT输入，GBDT参数少、训练过程稳定，提高模型整体鲁棒性。

附图说明

图1为本发明的一种基于连续监测器的智慧高速交通流量预测方法的流程示意图；

图2为本发明的一种基于连续监测器的智慧高速交通流量预测方法的60min时间间隔交通流量预测的拟合图；

图3为本发明的一种基于连续监测器的智慧高速交通流量预测方法的15min时间间隔交通流量预测的拟合图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述，附图中给出了本发明的若干实施例，但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例，相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件；当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件；本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明；本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

参照附图1-图3所示，其中，source data为原始观测统计数据，train data为使用本发明模型训练学习阶段的拟合数据，test data为使用本发明模型针对未知数据进行预测的数据，对于预测阶段，test data与source data的拟合度越高，则说明模型的泛化能力越强，图2中60min时间间隔表示每个数据时间步长为60min，图3中15min时间间隔表示每个数据时间步长为15min。

本实施例的一种基于连续监测器的智慧高速交通流量预测方法，该方法包括以下步骤：

S1，采集m个高速公路检测器实时交通流量数据；

S2，对采集的数据进行预处理；

S3，对预处理后的数据进行特征工程得到若干个特征；

S4，对得到的若干个特征进行特征选择；

S5，建立TCN-GBDT模型；

S6，对模型进行训练；

S7，预测交通流量。

本实施例的步骤S2的预处理包括如下内容：

S2.3，归一化，是对步骤S1中补全后的数据进行标准化处理：

本实施例的步骤S3中的特征包括如下内容：

时间特征：节假日、星期、时间段；

环境特征：温度、湿度、能见度、天气、风力、空气质量；

事故情况：事故次数统计、接警次数统计、出警次数统计；

特殊事件：重大会议、庆典等次数；

其中，i表示数据条数，j表示特征数量。

本实施例的步骤S4中的特性选择包括线性特征选择和非线性特征选择，分别如下：

基尼系数计算公式：

VIM_jm ^Gini＝GI_m-GI_l-GI_r

其中，GI_l和GI_r分别表示分枝后两个新节点的基尼系数

假设随机森林中共有n颗树，那么

最后，把所有求得的重要性评分做一个归一化处理即可

本实施例的线性特征选择和非线性特征选择均设有阈值，线性特征阈值设为γ₁，非线性特征阈值设为γ₂，对满足γ₁或者γ₂的特征计算结果行步骤S5。

本实施例的步骤S5的具体内容为输入数据为经过特征选择的矩阵X，包括i个时刻，j个特征：

简化表示为

表示t_i时刻向量；

卷积核为F＝(f₁,f₂,…,f_k)，其中k为卷积核大小，序列X在

处的因果卷积为：

输入是TCN的隐层数据。

本实施例的步骤S6的具体内容为对于第t个时刻，第m个门架，将前m-1个门架第t时刻前的特征数据等作为模型输入，第t个时刻、第m个门架实际交通流量数据作为模型输出，对模型进行训练，将输入数据分为训练集数据和验证集数据，数据量占比分别为80％、20％。

设置损失函数，h_θ(x_t)表示t时刻预测值，

表示t时刻真实值：

采用Adam优化器；

其中，g_t表示第t时间步的梯度，α表示学习率；

对模型进行迭代训练和验证，采用RMSE、MAE、MA等评估指标来测量预测方法效果：

其中y_t、

分别是预测值和真实值，N是所有预测值数量。

本实施例的步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量，需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入，输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。交通流量。

x_pr＝x_p*(x_max-x_min)+x_min

其中x_p表示输出预测值，x_pr表示反归一化后预测值

以下内容针对上文的步骤作补充说明

本发明具体实施环境：在深度神经网络部分采用pyTorch框架，具体开发环境为pyCharm。

本发明数据源：沪宁高速G42K1104+400000002桩号开始连续5个门架持续1年的交通流量数据。

本发明相关模型参数：经过多轮试验比较，最终参数确定为数据补全过程中KNN中K为3，TCN中因果卷积卷积核大小为4，GBDT树深度为12，第i个卷积块的扩展因子d＝2^i-1，卷积块设置为5，训练过程中学习率为0.01，批量为64，训练周期为3000。

本发明预测过程：

(1)原始数据采集

表1采集数据

(2)数据预处理

缺失值处理：采用KNN进行数据补全

数据核验：核验数据是否满足按照1min统计

归一化：将所有数据压缩至0-1之间

(3)特征工程

表2特征字段

(4)特征选择

根据皮尔森相关系数和梯度提升树(GDBT)进行特征选择

表3特征选择结果

(5)建立TCN-GBDT模型

经过特征选择后，将多个时间时刻组合，数据形式如下，其中j为此时特征数量21：

经过TCN网络中间层输出数据形式同上，其中j为此时隐藏层神经元数量64：

经过GBDT预测交通流量数据得到

Y＝[y₁,y₂,...,y_ti]

(6)对模型进行训练

设定训练轮次，或者精度，将TCN-GBDT模型预测结果Y与已知标签

进行比较，迭代模型直至训练完成，产生预训练模型，可以对未来时刻进行流量预测。

(7)对模型进行预测

输入特征序列，其中j为21，即特征选择后的特征数量

输出反归一化后即为下一时刻预测交通流量，具体输出标准依赖训练阶段标签交通流量量级：训练标签为分钟级别流量，则输出为分钟级别预测流量，以此类推。

本发明预测结果：表4是本发明和和使用其他模型测试的结果，实验结果说明本发明优于其他对比算法。

表4本发明和其他模型的预测结果对比

以上所述实施例仅表达了本发明的某种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于连续监测器的智慧高速交通流量预测方法，其特征在于，该方法包括以下步骤：

S1，采集m个高速公路检测器实时交通流量数据；

S2，对采集的数据进行预处理；

S3，对预处理后的数据进行特征工程得到若干个特征；

S4，对得到的若干个特征进行特征选择；

S5，建立TCN-GBDT模型；

S6，对模型进行训练；

S7，预测交通流量。

2.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法，其特征在于，所述步骤S2的预处理包括如下内容：

S2.3，归一化，是对步骤S1中补全后的数据进行标准化处理：

其中，x_i为当前数据，x_min为当前向量最小值，x_ma0为当前向量最大值。

3.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法，其特征在于，所述步骤S3中的特征包括如下内容：

时间特征：节假日、星期、时间段；

环境特征：温度、湿度、能见度、天气、风力、空气质量；

事故情况：事故次数统计、接警次数统计、出警次数统计；

特殊事件：重大会议、庆典等次数；

其中，i表示数据条数，j表示特征数量。

4.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法，其特征在于，所述步骤S4中的特性选择包括线性特征选择和非线性特征选择，分别如下：

基尼系数计算公式：

VIM_jm ^Gini＝GI_m-GI_l-GI_r

其中，GI_l和GI_r分别表示分枝后两个新节点的基尼系数

假设随机森林中共有n颗树，那么

最后，把所有求得的重要性评分做一个归一化处理即可得到特征得分

5.根据权利要求4所述的一种基于连续监测器的智慧高速交通流量预测方法，其特征在于：所述线性特征选择和非线性特征选择均设有阈值，所述线性特征阈值设为γ₁，非线性特征阈值设为γ₂，对满足γ₁或者γ₂的特征计算结果行步骤S5。

6.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法，其特征在于：所述步骤S5的具体内容为输入数据为经过特征选择的矩阵X，包括i个时刻，j个特征：

简化表示为

表示t_i时刻向量；

卷积核为F＝(f₁,f₂,…,f_k)，其中k为卷积核大小，序列X在

处的因果卷积为：

输入是TCN的隐层数据。

7.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法，其特征在于：所述步骤S6的具体内容为对于第t个时刻，第m个门架，将前m-1个门架第t时刻前的特征数据等作为模型输入，第t个时刻、第m个门架实际交通流量数据作为模型输出，对模型进行训练。

8.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法，其特征在于：所述步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量，需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入，输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。