CN113449905A

CN113449905A - 一种基于门控循环单元神经网络的交通拥堵预警方法

Info

Publication number: CN113449905A
Application number: CN202110555241.2A
Authority: CN
Inventors: 郭海锋; 程茂恒; 刘瑞; 吴铨力
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-09-28

Abstract

一种基于门控循环单元神经网络的交通拥堵预警方法，包括：1)获取车道检测器采集的交通流数据信息，包括流量、占有率和速度信息；2)对数据进行预处理，处理其中不合理的部分，以免对后续训练模型的精度造成影响，之后再进行标准化处理；3)构建注意力机制和门控循环单元神经网络的组合模型，将样本集分成训练集、测试集和验证集；4)定义模型损失函数，基于反向传播理论训练模型；5)设定拥堵状态评判标准，对模型输出结果进行判断，实现交通拥堵预警。本发明能够通过已知的交通流数据对下一时刻的交通流信息进行预测，并根据预测的结果对路口未来时刻是否发生拥堵做出判断，比较准确地实现了交通拥堵预警。

Description

一种基于门控循环单元神经网络的交通拥堵预警方法

技术领域

本发明涉及一种基于门控循环单元神经网络的交通拥堵预警方法。

技术背景

近些年来，随着中国城市化水平的不断提高，中国的汽车产业发展十分迅猛。现如今，庞大的机动车保有量以及其仍具有的快速增长态势，给城市基础道路交通运输***带来了不小的挑战，对城市交通的发展提出了更高的要求。

基于此，应用现如今前沿的科学技术，如数据通信技术、传感器技术、大数据、人工智能等，与交通领域的实际情况、实际问题相结合，将之有效地综合运用于整个交通运输管理体系中，从而建立起一种实时、准确、高效的综合运输和管理***就成为解决交通问题的一个有效途径。这其中，交通拥堵预警是这方面研究的重要组成部分。现有技术中存在短时交通流预测准确度低的不足。即时、准确的短时交通流预测，用于预知可能发生的拥堵，并有时间提前对拥堵做出预警，辅助交通管理人员对城市道路交通运行状况有一个更为及时的把控，为更加准确的交通控制提供了依据，从而更好地发挥整个交通***的协调作用。

发明内容

本发明要克服现有技术上的不足，实现比较准确的交通拥堵预警，提供一种基于门控循环单元神经网络的交通拥堵预警方法。

循环神经网络适合用以处理时间序列数据，而相比于普通的循环神经网络，门控循环单元神经网络有效地解决了无法处理长期依赖的问题。本发明更是将注意力机制运用进门控循环单元神经网络中，使得训练得到的模型的效果和准确度得到进一步的提升。

本发明解决其技术问题所采用的技术方案是：

一种基于门控循环单元神经网络的交通拥堵预警方法，含有以下步骤：

1)通过城市中各个节点车道检测器采集交通流数据信息，得到原始交通流数据样本集，其中，数据包括三个特征：流量值、占有率和速度值。

2)对获取的交通流数据进行预处理，之后作为神经网络的训练数据集。

3)构建注意力机制和门控循环单元神经网络相结合的组合模型。

4)定义模型损失函数，基于反向传播理论训练模型。

5)设定交通拥堵状态评判标准，针对短时交通流预测结果进行判断，对未来时刻是否发生拥堵做出预警。

在步骤1)中，数据采集的环境不限于具体的某个城市和特定的时间段；用于采集交通流数据信息的车道检测器设备包括线圈检测器、地磁检测器及相关设备。

在步骤2)中，对获取的交通流数据进行预处理，其具体内容为：

(2.1)筛选掉不合理的数据：对于一个时间区间，当该区间内检测器采集到的数据缺失量大于10％时，其已经在某种程度上破坏了整体数据的完整性和规律性，则直接舍弃掉这段区间内的所有数据，不加入到后续神经网络的训练中。对于在空间维度上是同一节点，同一时刻输出多条交通流数据的情况，值相同，取其中一条数据；值不同，则只取第一条数据。当某个节点某一时刻输出的数据与前一时刻和后一时刻同时相比增长或者降低幅度大于3倍，那么该数据信息要被筛选掉，不予训练，以待后续处理。不符合采集路段实际道路情况的数据信息也要被筛选掉。因同一时刻获取的交通流数据同时包含流量、占有率和速度三个特征，结合交通常识与逻辑综合分析这三个特征数据同时存在的合理性，不合理时刻的所有数据要被舍弃。

(2.2)对被筛选掉的和缺失的数据进行处理：当被筛选掉的和缺失的数据占其邻近一段时间数据总量的比例小于3％时，其对整个数据体现出的趋势影响很小。那么对于这种情况，被筛选掉的和缺失的数据不用补充，其对模型的训练效果没有影响。而在一段时间区间内，被筛选掉的和缺失的数据量大于6％且小于10％时，不进行修复和填充会对模型训练效果产生影响，要根据缺失数据前一时刻和后一时刻的实际数据及其变化趋势，新计算一个数据替代。应实际交通流情况，直接采用邻近时刻数据(前一时刻或者后一时刻)、算数平均值或者加权平均值进行补充：

式中，x_t表示待计算后填充的t时刻数据，x_t-k,..,x_t-1,x_t+1,...,x_t+k为邻近t-k,...,t-1,t+1,...,t+k时刻的数据值，其中k取正整数。w_t-k,...,w_t-1,w_t+1,...,w_t+k则为对应时刻的权数，n为分子中所有权数的总和。权数取值的思想是：根据整体趋势判断哪一时刻对t时刻的影响更大，相应时刻的权数也更大，最终计算的x_t也更合理。

(2.3)对剩余数据进行标准化处理：经过前两步的处理后，将所得的交通流数据信息(包括流量、占有率和速度)统一做标准化的处理，使其服从标准正态分布，有益于提升模型整体的训练效果。标准化方法为均值方差标准化，计算公式如下：

式中，x'为单个数据标准化后的结果，x为单个数据的取值，

为对应特征的均值，σ为对应特征的标准差。

在步骤3)中，构建注意力机制和门控循环单元神经网络相结合的组合模型：

(3.1)将经过预处理的数据样本集按7：2：1的比例分成训练集、测试集和验证集，用于对模型进行训练；

(3.2)构建注意力机制和门控循环单元神经网络组合模型：门控循环单元神经网络在处理长时间序列数据问题上效果良好，有效地解决了普通循环神经网络无法处理长期依赖的问题。它是由长短期记忆网络改进而来，在保留门结构的基础上同时做出了优化，相比之下，模型所需参数更少、效率更高。门控循环单元神经网络由重置门和更新门组成，重置门组合新输入的信息和之前的记忆，更新门决定留下多少之前的记忆，它的隐含层状态及门结构的输出为：

h_t＝(1-z_t)*h_(t-1)+z_t*E_t (4)

z_t＝σ(W_zx_t+b_z+W_hzh_(t-1)+b_hz) (5)

r_t＝σ(W_rx_t+b_r+W_hrh_(t-1)+b_hr) (6)

E_t＝tanh(W_Ex_t+b_E+r_t*(Wh_Eh_(t-1)+bh_E)) (7)

式中，x_t,h_t,z_t,r_t,E_t分别为t时刻输入、隐含层状态、更新门输出、重置门输出、当前时刻的候选状态，h_(t-1)为t-1时刻隐含层状态。其中，tanh是一种激活函数，σ为logistic函数，它的输出区间为(0,1)，*为向量元素乘积。W_z,W_r,W_E,W_hz,W_hr,W_hE分别是对应的权重矩阵，而b_z,b_r,b_E,b_hz,b_hr,b_hE则为相应的偏置，它们都是需要训练的参数。

本发明中的组合模型会同时应用编码器-解码器结构，编码器、解码器使用的是门控循环单元神经网络，在编码、解码的过程中应用的是注意力机制。其中，注意力机制看作是输入数据对预测结果影响程度的度量，程度越高，训练时赋予的权重更大，最后训练得到模型的预测结果也更加准确。为输入中更重要、关联度更高的部分分配更多的权重，同时加快了深度学习模型的训练速度，提高预测结果的精度。对训练集中不同时刻的交通流数据编码时赋予不同权重的做法是：对于越邻近待预测时刻的数据训练时被赋予的权重越高；以一天时间作为一个时间维度，不同时间区间是有一定规律性的，其中，交通高峰时段被看作特殊的时间区间，这些时区交通流的拥堵程度越高，待预测时刻交通状况越差。考虑到这种规律性，那么这些特殊的时间区间对待预测时刻的影响程度是更高的，被赋予的权重也更高。

经过预处理后的交通流数据经过编码器后，通过运算得到一个时间区间T的隐含层状态的加权平均值，则解码器在t'时刻的中间变量o_t'为：

s_t′t＝v^Ttanh(W_sh′_t′-1+W_hh_t) (9)

式中，h_t为编码器在t时刻的隐含层状态，h_t前面的因子是注意力权重。h'_t'-1为解码器在t'-1时刻的隐含层状态，m为求和公式中一变量，s_t′t,s_t′m为上面两式的中间变量，v^T,W_s,W_h均为模型待训练的参数，exp()为以自然常数e为底的指数函数，tanh是一种激活函数。

在步骤4)中，定义模型损失函数，基于反向传播理论训练模型的内容如下：

将模型预测的未来5分钟交通流数据信息与真实值进行比较，包含流量、占有率和速度三个指标，定义模型损失函数，根据损失函数值基于反向传播理论训练模型参数。流程为：前向计算每个神经元的输出值，然后反向计算每个神经元的误差项，接着根据误差项，利用优化算法计算相应的权重梯度，最后利用计算得到的梯度更新权重，损失函数值逐渐收敛，直至趋于稳定。这里的权重指的是门控循环单元神经网络内部待训练的权重矩阵参数。计算模型的损失值使用的是RMSE。当预测的结果与真实值相比达到比较高的预测精度时，则认为训练的模型取得了比较好的预测效果。模型的损失函数与衡量准确度的计算方法为：

其中，RMSE为计算预测指标与真实值间的均方根误差，R²衡量预测结果的准确率，其取值区间为[0,1]，评判起来更加直观。i为式中一变量，m为数据的数量值，y_i为上述三个指标中某一指标的真实值，

为均值，

为同一时刻该指标的预测值。其中，计算模型损失值与衡量准确度的方法包括但不限于RMSE和R Squared。

在步骤5)中，针对短时交通流预测结果进行判断的内容为：

通过将已知的前一段时间的交通流信息数据输入进之前训练好的组合模型中，输出得到下一时刻的交通流信息。然后将预测的数据结果，包括流量、占有率、速度值，通过设定的拥堵状态评判标准判断其实际交通状态。

在步骤5)中，设定交通拥堵状态评判标准的内容为：

1)首先通过下式来区分下一时刻的交通状态是拥堵还是畅通：

式中，V_t为t时刻的速度，O_t为t时刻的占有率，V_m为交通畅通状态下的一般速度，O_m为交通畅通状态下的一般占有率。S为判断交通状态是否拥堵的一个指标，根据交通流规律以及交通管理人员的客观评价设定一个固定的阈值用来进行判断。当S低于设定的阈值时，此时的交通状态判定为拥堵状态。而用速度除以占有率是为了让这一趋势变得更加明显、易于判断。最终与交通畅通状态下的值作比较是为了将S的结果限制在[0,1]。

2)对于已经判定为拥堵的情况，需要进一步评判其拥堵程度，拥堵程度分为：轻度拥堵、中度拥堵和重度拥堵。首先对每个评判因子划分区间加以评判其为哪一类拥堵，并赋予一个代表单个评判因子拥堵程度的值，然后根据三个值的加权平均值进行计算后的结果综合评判：

f_o＝F₃(O*t) (15)

D＝w_v·f_v+w_c·f_c+w_o·f_o (16)

式中，f_v,f_c,f_o分别为与速度、流量、占有率相关的评判因子，w_v,w_c,w_o为对应的权重，t为拥堵时间，v,c,O分别为预测的速度、流量和占有率值，F₁,F₂,F₃分别代表自变量和因变量间的函数关系，D为评判拥堵程度的综合指标。D的值越大，说明拥堵程度越高。最后，通过计算得到的D值对预测结果的交通状态进行评判，具体确定是轻度拥堵、中度拥堵和重度拥堵这三类中的哪一类。

本发明的有益效果：

(1)本方法通过注意力机制和门控循环单元神经网络的组合模型，实现了短时交通流预测，通过已有时段的交通流信息预测未来5分钟的交通流参数，且拥有比较准确的预测效果；(2)通过筛选掉不合理的数据以及对被筛选掉的数据或是原本缺失的数据进行处理、填充，并在之后进行标准化处理，使得后续训练的模型的效果更好、准确度更高；(3)通过将门控循环单元神经网络运用进编码器-解码器结构中，同时辅以注意力机制。在模型训练过程中，让那些对待预测时刻交通状况影响程度更高的数据赋予更高的权重，减少其它次要因素对预测结果的影响，提高短时交通流预测的精度；(4)通过设定评判交通拥堵状态的标准，对预测的交通流信息进行交通状态评判，根据计算得到的S值和D值判断下一时刻是否发生拥堵，可靠性高，从而为交通拥堵预警提供依据。

附图说明

图1是本发明的方法流程图；

图2是门控循环单元神经网络的结构图；

图3是组合模型损失值随训练次数变化曲线图；

图4是组合模型预测的流量与真实值的对比图；

图5是组合模型预测的占有率与真实值的对比图；

图6是组合模型预测的速度与真实值的对比图；

图7是组合模型与普通门控循环单元神经网络以及长短期记忆神经网络在同一数据集下预测的流量对比图；

图8是组合模型与普通门控循环单元神经网络以及长短期记忆神经网络在同一数据集下预测的占有率对比图；

图9是组合模型与普通门控循环单元神经网络以及长短期记忆神经网络在同一数据集下预测的速度对比图；

图10是某一天内速度、占有率随时间的变化图；

图11是早高峰时段交通状态由畅通变为拥堵时的速度、占有率随时间变化图；

图12是早高峰时段交通状态由畅通变为拥堵时的速度、速度/占有率随占有率的变化图。

具体实施方式

为说明本发明的技术特点，下面结合附图对本发明的具体实施步骤作进一步的描述。此处所描述的具体实施案例仅仅用于解释本发明，而不是限定本发明。

对于本案例，基于门控循环单元神经网络的交通拥堵预警方法含有以下步骤，如附图1所示：

4)定义模型损失函数，基于反向传播理论训练模型。

在步骤1)中，原始交通流数据样本集为某市300个节点2018年1月至3月期间采集的数据，其中用于采集交通流数据信息的车道检测器设备包括线圈检测器、地磁检测器。

在步骤2)中，对获取的交通流数据进行预处理，其具体内容如下：

(2.2)对被筛选掉的或是缺失的数据进行处理：当被筛选掉的和缺失的数据占其邻近一段时间数据总量的比例小于3％时，其对整个数据体现出的趋势影响很小。那么对于这种情况，被筛选掉的和缺失的数据不用补充，其对模型的训练效果没有影响。而在一段时间区间内，被筛选掉的和缺失的数据量大于6％且小于10％时，不进行修复和填充会对模型训练效果产生影响，要根据缺失数据前一时刻和后一时刻的实际数据及其变化趋势，新计算一个数据替代。应实际交通流情况，直接采用邻近时刻数据(前一时刻或者后一时刻)、算数平均值或者加权平均值进行补充：

式中，x'为单个数据标准化后的结果，x为单个数据的取值，

为对应特征的均值，σ为对应特征的标准差。

(3.2)构建注意力机制和门控循环单元神经网络组合模型：门控循环单元神经网络在处理长时间序列数据问题上效果良好，有效地解决了普通循环神经网络无法处理长期依赖的问题。它是由长短期记忆网络改进而来，在保留门结构的基础上同时做出了优化，相比之下，模型所需参数更少、效率更高。门控循环单元神经网络的结构如附图2所示，由重置门和更新门组成，重置门组合新输入的信息和之前的记忆，更新门决定留下多少之前的记忆，它的隐含层状态及门结构的输出为：

h_t＝(1-z_t)*h_(t-1)+z_t*E_t (4)

z_t＝σ(W_zx_t+b_z+W_hzh_(t-1)+b_hz) (5)

r_t＝σ(W_rx_t+b_r+W_hrh_(t-1)+b_hr) (6)

E_t＝tanh(W_Ex_t+b_E+r_t*(W_hEh_(t-1)+b_hE)) (7)

本发明中的组合模型会同时应用编码器-解码器结构，编码器、解码器使用的是门控循环单元神经网络，而在编码、解码的过程中应用的是注意力机制。其中，注意力机制看作是输入数据对预测结果影响程度的度量，程度越高，训练时赋予的权重更大，最后训练得到模型的预测结果也更加准确。为输入中更重要、关联度更高的部分分配更多的权重，同时加快了深度学习模型的训练速度，提高预测结果的精度。对训练集中不同时刻的交通流数据编码时赋予不同权重的做法是：对于越邻近待预测时刻的数据训练时被赋予的权重越高；以一天时间作为一个时间维度，不同时间区间是有一定规律性的。日常情况下，早高峰、晚高峰时段交通比较拥堵。考虑到这种规律性，那么这些特殊的时间区间对待预测时刻的影响程度更高，被赋予的权重也更高。

经过预处理后的交通流数据经过编码器后，通过运算可得到一个时间区间T的隐含层状态的加权平均值，则解码器在t'时刻的中间变量o_t'为：

s_t′t＝v^Ttanh(W_sh′_t′-1+W_hh_t) (9)

将模型预测的未来5分钟交通流数据信息与真实值进行比较，包含流量、占有率和速度三个指标，定义模型损失函数，根据损失函数值基于反向传播理论训练模型参数。流程为：前向计算每个神经元的输出值，然后反向计算每个神经元的误差项，接着根据误差项，利用优化算法计算相应的权重梯度，最后利用计算得到的梯度更新权重，随着训练次数的增加损失函数值逐渐收敛，直至趋于稳定，如附图3所示，计算模型的损失值使用的是RMSE。这里的权重指的是门控循环单元神经网络内部待训练的权重矩阵参数。当预测的结果与真实值相比达到比较高的预测精度时，则认为训练的模型取得了比较好的预测效果，最终使用组合模型预测的流量、占有率、速度与真实值的对比图如附图4、5、6所示，其中一个时间单位为5分钟。

模型的损失函数与衡量准确度的计算方法为：

为均值，

实验结果与普通门控循环单元神经网络以及长短期记忆神经网络在同一数据集下预测结果如附图7、8、9所示，其中一个时间单位为5分钟，最终误差及准确度统计表如下：

表1各个模型预测结果误差及准确度统计表

模型名称	RMSE	R<sup>2</sup>
			长短期记忆神经网络	27.929	0.875
普通门控循环单元神经网络	25.579	0.912
			组合模型	21.501	0.939

在步骤5)中，针对短时交通流预测结果进行判断的内容为：

通过将已知的前一段时间的交通流数据信息输入进之前训练好的组合模型，输出得到下一时刻的交通流信息。然后将预测的数据结果，包括流量、占有率、速度值，通过之前设定的拥堵状态评判标准判断其实际交通状态。

在步骤5)中，设定交通拥堵状态评判标准：

1)得到组合模型输出的短时交通流预测的结果，考虑到交通状态与速度和占有率之间的关系，首先通过下式来区分下一时刻的交通状态是拥堵还是畅通，当判断为拥堵后再对拥堵的程度做进一步的界定。

式中，V_t为t时刻的速度，O_t为t时刻的占有率，V_m为交通畅通状态下的一般速度，O_m为交通畅通状态下的一般占有率。S为判断交通状态是否拥堵的一个指标，根据交通流规律以及交通管理人员的客观评价设定一个固定的阈值用来进行判断。速度是随着占有率的提高而降低，选取某一天内的速度、占有率随时间变化的结果如附图10所示。当S低于设定的阈值时，此时的交通状态可以判定为拥堵状态。选取某一天内早高峰时段25分钟内交通状态由畅通变为拥堵时的速度、占有率随时间变化的结果如附图11所示。而用速度除以占有率是为了让这一变化趋势变得更加明显、易于判断，其差别如附图12所示。最终与交通畅通状态下的值作比较是为了将S的结果限制在[0,1]。

f_o＝F₃(O*t) (15)

D＝w_v·f_v+w_c·f_c+w_o·f_o (16)

式中，f_v,f_c,f_o分别为与速度、流量、占有率相关的评判因子，w_v,w_c,w_o为对应的权重，t为拥堵时间，v,c,O分别为预测的速度、流量和占有率值，F₁,F₂,F₃分别代表自变量和因变量间的函数关系，D为评判拥堵程度的综合指标。D的值越大，说明拥堵程度越高。最后，通过计算得到的D值对预测结果的交通状态进行评判，具体确定其是轻度拥堵、中度拥堵和重度拥堵这三类中的哪一类。

选取2018年1月22日某节点早高峰期间7：30附近时段的交通流数据信息通过上述评判标准得到的交通状态与客观评判结果进行对比，这里各评判因子的权重w_v,w_c,w_o分别为3/8,2/8,3/8，S设定的阈值为0.27，表中畅通状态下的f_v,f_c,f_o,D值无需计算，默认为0。当S<0.27时，f_v,f_c,f_o的值根据F₁,F₂,F₃函数的自变量划分分段函数赋予值1、2、3，分别表示这个因子评判为轻度拥堵、中度拥堵、重度拥堵。然后计算D值，三个评判因子的加权平均值D值的综合评判依据是：[1,1.75]为轻度拥堵，(1.75,2.25]为中度拥堵，(2.25,3]为重度拥堵。最终评判结果如下表：

表2文中设定的交通状态评判标准与客观评判结果统计表

通过设定标准的评判结果与客观评判结果对比，得到设定的交通状态评判标准的准确度在88.9％，准确度较高，整体来说满足实际需要。

本案例的实验结果表明，通过门控循环单元神经网络和注意力机制的组合模型对交通流进行预测，从而得到的预测结果，不仅实现了比较准确的短时交通流预测，而且也对普通的门控循环单元神经网络的运用做出了一些尝试，对模型的训练过程做出了一些调整，使得模型最终拥有优异的预测效果。同时，设定的交通拥堵状态评判标准，用于对短时交通流预测的结果进行判断，评判准确度较高，有助于对未来时刻是否发生拥堵做出预警。因此，本发明能够辅助交通管理人员对城市道路交通运行状况有一个更为及时的把控，从而有助于做出更加快速、有效的调控。

本发明能够通过已知的交通流数据对下一时刻的交通流信息进行预测，并根据预测的结果对路口未来时刻是否发生拥堵做出判断，比较准确地实现了交通拥堵预警。进而辅助交通管理人员及时掌握道路交通运行情况，有助于信号配时人员及时调控，提高路网的通行能力。

Claims

1.一种基于门控循环单元神经网络的交通拥堵预警方法，包括以下步骤：

1)通过车道检测器采集交通流数据信息，得到原始交通流数据样本集；

2)对获取的交通流数据进行预处理，之后作为神经网络的训练数据集；

3)构建注意力机制和门控循环单元神经网络的组合模型；

4)定义模型损失函数，基于反向传播理论训练模型；

5)设定交通拥堵状态评判标准，针对短时交通流预测结果进行判断，对未来时刻拥堵做出预警。

2.如权利要求1所述的一种基于门控循环单元神经网络的交通拥堵预警方法，其特征在于，所述步骤1)中，交通流数据信息包括3个特征：流量值、占有率和速度值；数据采集的环境不限于具体的某个城市和特定的时间段；用于采集交通流数据信息的车道检测器设备包括线圈检测器、地磁检测器及相关设备。

3.如权利要求1所述的一种基于门控循环单元神经网络的交通拥堵预警方法，其特征在于，所述步骤2)中，对获取的交通流数据进行预处理，包括以下步骤：

2.1)筛选掉不合理的数据：对于一个时间区间，当该区间内检测器采集到的数据缺失量大于10％，则直接舍弃掉该区间内的所有数据；当在空间维度上是同一节点，同一时刻输出多条交通流数据时，值相同，取其中一条数据，值不同，则只取第一条数据；当节点输出的数据与前一时刻和后一时刻同时相比增长或者降低幅度大于3倍时，筛选掉该数据信息；同一时刻获取的交通流数据同时包含流量、占有率和速度三个特征，结合交通常识与逻辑综合分析这三个特征数据同时存在的合理性，不合理时刻的所有数据要被舍弃；不符合采集路段实际道路情况的数据信息也要被筛选掉；

2.2)对被筛选掉的数据和缺失的数据进行处理：当被筛选掉的数据和缺失的数据占其邻近一段时间数据总量的比例小于3％时，这些缺失的数据不用补充；当在一段时间区间内，被筛选掉的和缺失的数据量大于6％且小于10％时，根据缺失数据前一时刻和后一时刻的实际数据及其变化趋势，新计算一个数据替代；应实际交通流情况，采用邻近时刻数据、均值或者加权平均值进行补充：

式中，x_t表示待计算后填充的t时刻数据，x_t-k,..,x_t-1,x_t+1,...,x_t+k为邻近t-k,...,t-1,t+1,...,t+k时刻的数据值，其中k取正整数；w_t-k,...,w_t-1,w_t+1,...,w_t+k则为对应时刻的权数，n为分子中所有权数的总和；

2.3)对剩余数据进行标准化处理：经过前两步的处理后，对剩余的交通流数据信息(包括流量、占有率和速度)统一做标准化的处理，使其服从标准正态分布，有益于提升模型的训练效果；标准化方法为均值方差标准化，计算公式如下：

式中，x'为单个数据标准化后的结果，x为单个数据的取值，

为对应特征的均值，σ为对应特征的标准差。

4.如权利要求1所述的一种基于门控循环单元神经网络的交通拥堵预警方法，其特征在于，所述步骤3)中，构建注意力机制和门控循环单元神经网络的组合模型：

3.1)将训练数据集按7：2：1的比例分成训练集、测试集和验证集；

3.2)构建基于注意力机制和门控循环单元神经网络的组合模型：组合模型应用编码器-解码器结构，编码器、解码器使用的是门控循环单元神经网络，在编码、解码的过程中应用的是注意力机制；其中，门控循环单元神经网络由重置门和更新门组成，它的隐含层状态及门结构的输出为：

h_t＝(1-z_t)*h_(t-1)+z_t*E_t (4)

z_t＝σ(W_zx_t+b_z+W_hzh_(t-1)+b_hz) (5)

r_t＝σ(W_rx_t+b_r+W_hrh_(t-1)+b_hr) (6)

E_t＝tan h(W_Ex_t+b_E+r_t*(W_hEh_(t-1)+b_hE)) (7)

式中，x_t,h_t,z_t,r_t,E_t分别为t时刻输入、隐含层状态、更新门输出、重置门输出、当前时刻的候选状态，h_(t-1)为t-1时刻隐含层状态；其中，tanh是一种激活函数，σ为logistic函数，它的输出区间为(0,1)，*为向量元素乘积；W_z,W_r,W_E,W_hz,W_hr,W_hE分别是对应的权重矩阵，b_z,b_r,b_E,b_hz,b_hr,b_hE则为相应的偏置，它们都是需要训练的参数；

其中，注意力机制看作是输入数据对预测结果影响程度的度量，程度越高，训练时赋予的权重更大，最后训练得到模型的预测结果更加准确；对训练集中不同时刻的交通流数据编码时赋予不同权重的做法是：越邻近待预测时刻的数据训练时被赋予的权重越高；以一天时间作为一个时间维度，交通高峰时段被看作特殊的时间区间，这些特殊的时间区间训练时被赋予的权重更高；经过预处理后的交通流数据经过编码器，通过运算得到一个时间区间T的隐含层状态的加权平均值，则解码器在t'时刻的中间变量o_t'为：

s_t't＝v^Ttan h(W_sh'_t'-1+W_hh_t) (9)

式中，h_t为编码器在t时刻的隐含层状态，h_t前面的因子是注意力权重；h'_t'-1为解码器在t'-1时刻的隐含层状态，m为求和公式中一变量，s_t't,s_t'm为上面两式的中间变量，v^T,W_s,W_h均为模型待训练的参数，exp()为以自然常数e为底的指数函数，tanh是一种激活函数。

5.如权利要求1所述的一种基于门控循环单元神经网络的交通拥堵预警方法，其特征在于，所述步骤4)中，定义模型损失函数，基于反向传播理论训练模型的内容为：

将模型预测的未来5分钟交通流数据信息与真实值进行比较，包含流量、占有率和速度三个指标，定义模型损失函数，根据损失函数值基于反向传播理论训练模型参数，损失函数值逐渐收敛，直至趋于稳定；计算模型的损失值使用的是RMSE；模型的损失函数与衡量准确度的计算方法为：

其中，RMSE为计算预测指标与真实值间的均方根误差，R²衡量预测结果的准确率，其取值区间为[0,1]；i为式中一变量，m为数据的数量值，y_i为上述三个指标中某一指标的真实值，

为均值，

为同一时刻该指标的预测值；其中，计算模型损失值与衡量准确度的方法包括但不限于RMSE和R Squared。

6.如权利要求1所述的一种基于门控循环单元神经网络的交通拥堵预警方法，其特征在于，所述步骤5)中，设定交通拥堵状态评判标准，针对短时交通流预测结果进行判断：

5.1)先通过下式判断下一时刻的交通状态是拥堵还是畅通：

式中，V_t为t时刻的速度，O_t为t时刻的占有率，V_m为交通畅通状态下的一般速度，O_m为交通畅通状态下的一般占有率；S为判断交通状态是否拥堵的一个指标，根据交通流规律以及交通管理人员的客观评价设定一个固定的阈值进行判断，当S低于设定的阈值时，此时的交通状态判定为拥堵状态；

5.2)对于已经判定为拥堵的情况，再进一步评判其拥堵的程度，拥堵程度分为：轻度拥堵、中度拥堵和重度拥堵；首先对每个评判因子划分区间加以评判其为哪一类拥堵，并赋予一个代表单个评判因子拥堵程度的值，然后根据三个值的加权平均值进行计算后的结果进行综合评判：

f_o＝F₃(O*t) (15)

D＝w_v·f_v+w_c·f_c+w_o·f_o (16)

式中，f_v,f_c,f_o分别为与速度、流量、占有率相关的评判因子，w_v,w_c,w_o为对应的权重，t为拥堵时间，v,c,O分别为预测的速度、流量和占有率值，F₁,F₂,F₃分别代表自变量和因变量间的函数关系，D为评判拥堵程度的综合指标；D的值越大，说明拥堵程度越高；

5.3)通过将已知的前一段时间的交通流数据信息输入进训练好的组合模型中，输出得到下一时刻的交通流信息；然后将预测得到的下一时刻的数据，包括流量、占有率、速度值，通过设定的交通拥堵状态评判标准判断其实际状态。