CN110837888A - 一种基于双向循环神经网络的交通缺失数据补全方法 - Google Patents

一种基于双向循环神经网络的交通缺失数据补全方法 Download PDF

Info

Publication number
CN110837888A
CN110837888A CN201911106967.7A CN201911106967A CN110837888A CN 110837888 A CN110837888 A CN 110837888A CN 201911106967 A CN201911106967 A CN 201911106967A CN 110837888 A CN110837888 A CN 110837888A
Authority
CN
China
Prior art keywords
data
time
completion
traffic flow
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911106967.7A
Other languages
English (en)
Inventor
申彦明
徐文权
齐恒
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201911106967.7A priority Critical patent/CN110837888A/zh
Publication of CN110837888A publication Critical patent/CN110837888A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种基于双向循环神经网络的交通缺失数据补全方法,属于交通领域。该方法首先利用数据在时间上的时序性特点,同时考虑了补全时间点之前的数据和之后的数据对当前时间点的影响,大幅提高了对数据的利用和补全精度,其次考虑到外部特征、相邻传感器数据对当前传感器数据的影响,将其加入到补全模型中,大幅提高了补全精度。本发明的方法不仅大幅提高数据缺失率低的情况下补全精度,还提升了在数据缺失率高的情况下的补全精度。

Description

一种基于双向循环神经网络的交通缺失数据补全方法
技术领域
本发明属于交通领域,具体涉及一种基于双向循环神经网络的交通缺失数据补全方法。
背景技术
道路线圈车流量数据具有周期性、时间序列性和趋势性。现阶段,对车流量数据补全的方法主要是基于其时序性。
基于时序性的车流量数据补全,取当前缺失点之前的一段时间的数据,通过神经网络,来对缺失点数据进行补全。比如要补全今天16点的车流量数据,那么就取当天8点到15点的数据作为输入,通过循环神经网络,得到下一个时间点——16点的数据。这种基于历史数据的补全方法,很好地利用了数据的时序性的特点来进行补全,补全结果相对较好,但是该方法具有局限性。当有特殊事件发生时,当前的缺失点之前也是一系列的缺失点,比如:停电,会导致一段连续的数据的丢失,当对最后一个缺失点进行补全时,由于输入数据缺失严重,补全效果在这种情况下非常差。
神经网络最开始是受生物神经***的启发,为了模拟生物神经***而出现的,由大量的节点(或称神经元)之间相互联接构成。神经网络根据输入的变化,对权值进行调整,改善***的行为,自动学习到一个能够解决问题的模型。 LSTM(长短记忆网络)是RNN(循环神经网络)的一种特殊形式,有效地解决多层神经网络训练的梯度消失和梯度***问题,能够处理长时时间依赖序列。LSTM 能够捕获充电量数据的时间序列特性,使用LSTM模型能够有效提高补全精度。
LSTM网络由LSTM单元组成,LSTM单元由单元,输入门、输出门和遗忘门组成。
遗忘门:决定从上一个单元的输出状态中丢弃多少信息,公式如下:
ft=σg(Wfxt+Ufht-1+bf)
其中,ft是遗忘门的输出,xt是输入序列,ht-1是上一个单元的输出,σg表示sigmoid函数,Wf表示输入的权重参数矩阵,Uf表示上一个单元输出的权重参数矩阵,bf表示偏差参数向量。
输入门:决定让多少新的信息加入到Cell状态中,并对单元状态C进行更新,公式如下:
it=σg(Wixt+Uiht-1+bi)
Figure BDA0002271602260000021
其中,ct表示当前单元的单元状态,σg和σc表示sigmoid函数,
Figure BDA0002271602260000022
表示矩阵乘积,Wi表示输入的权重参数矩阵,Ui表示上一个单元输出的权重参数矩阵,bi表示偏差参数向量,ft是遗忘门的输出,ct-1是上一个单元的单元状态,表示矩阵乘积,Wc表示输入的权重参数矩阵,Uc表示上一个单元输出的权重参数矩阵, bc表示偏差参数向量。
输出门:基于当前的单元状态输出结果。
ot=σg(Woxt+Uoht-1+bo)
Figure BDA0002271602260000023
其中,ht表示当前单元的输出,σg和σh表示sigmoid函数,
Figure BDA0002271602260000024
表示矩阵乘积, Wo表示输入的权重参数矩阵,Uo表示上一个单元输出的权重参数矩阵,bo表示偏差参数向量。
发明内容
本发明提出了一种基于双向循环神经网络的交通缺失数据补全方法,是基于时序性、周期性以及空间性的深度学习补全方法,目的在于提高道路车流量数据的补全精度。
本发明的技术方案:
一种基于双向循环神经网络的交通缺失数据补全方法,步骤如下:
第一步,将车流量数据进行预处理
所述的预处理包括时间粒度划分和对数据进行标准化;
第二步、将预处理后的数据进行随机数据点丢失处理,构建带有缺失点的数据集,然后记录缺失点所在的位置信息,用作验证值,从而验证方法的补全效果。
同时,构建时间维度影响衰减性矩阵。由于数据发生缺失会出现连续缺失的情况,比如,传感器的供电元件的损坏会导致之后一段时间的数据丢失,随着时间的积累,历史数据对缺失点的数据的影响会越来越小,会影响补全精度,所以需要记录时间维度数据影响的衰减性。时间维度影响衰减性矩阵定义如下:
Figure BDA0002271602260000031
其中,nt表示当前的时刻,的定义如下:
第三步、将丢失处理后的车流量数据划分为训练集、验证集和测试集。在每个数据集中,不同模型采用的数据有以下几种类型:
前向时间序列深度学习模块用的数据:
Figure BDA0002271602260000034
反向时间序列深度学习模块的数据:
Figure BDA0002271602260000035
外部特征模块中采用的外部特征数据:Fn
周期性特征模块中采用的周期性序列数据:
Figure BDA0002271602260000036
其中,n表示当前时刻,t表示时间序列的步长,p表示周期序列的步长。S 表示的是车流量数据,T表示的是S在时间维度上的反向序列。si表示在n时刻的车流量数据,表示第n时刻的前i天的日内相同时刻的车流量数据,
Figure BDA0002271602260000042
表示包括第n时刻的前t个时刻的车流量数据的集合,
Figure BDA0002271602260000043
表示包括第n时刻当天的前p天日内相同时刻的车流量数据集合,Fn表示在第n时刻的外部特征,包括节假日、位置区域、天气和气温。
第四步、构建补全模型,补全模型包括前向时间序列深度学习模块、反向时间序列深度学习模块、周期性特征模块和外部特征模块,各个模块的结构及训练机制如下:
(1)前向时间序列深度学习模块:是一个线性回归网络和多层长短记忆网络组合LSTM模型,通过一层线性回归网络,添加当前缺失点在时间上的延续性信息,用来应对长时间序列缺失的情况,提升补全精度。
前向序列深度学习模块的实现细节:先将时间维度衰减性矩阵输入到线性回归网络,然后将线性回归网络的输出和前向时间序列数据
Figure BDA0002271602260000044
输入LSTM网络中,对当前时刻输入值xt,如果数据点没有缺失,则直接输入,当数据点缺失时,将上一个时刻的隐含状态作为当前时刻的输入,在处理完输入后,对深度学习网络进行训练,在不断的迭代更新中得到最终的前向序列深度学习模块的输出。
(2)反向时间序列深度学习模块:在网络结构上与前向序列深度学习模块一致,不同的在于将前向时间序列深度学习模块的输入在时间维度上做一个反向处理,作为模块的输入。
(3)周期性特征学习模块:是由三层全连接网络构成的模块,通过对周期性数据特征的提取,获取历史数据中、同一个传感器、同一个时间段车流量的变化规律,然后将提取到的特征输出。实现细节:将周期序列数据输入到全连接层中,经过三层全连接层,提取周期性数据的时序性特征,然后输出。
(4)外部特征模块:由两部分组成:第一部分处理节假日、天气特征,是一层特征编码层。实现细节:将外部特征数据输入到特征编码层,把数据转化为向量形式,然后把得到的向量和上述三个模块的输出合并。
第二部分处理空间性特征。为了将道路空间上的信息考虑进去,将路段上所有传感器同时输入第二部分中,然后将与当前传感器的缺失点相同时刻的其它传感器的隐含状态作为输入,通过Softmax网络计算权重之后,得到输出,将该输出输入到前向、反向时间序列深度学习模块中。
最后将上述四个模块的输出合并成一维向量,通过一层全连接网络,得到最终的补全结果。
第五步、使用训练集数据对前向时间序列深度学习模块、反向时间序列深度学习模块的预训练部分进行预训练,提前优化时间序列深度学习模型的参数,避免在整体训练时将参数优化到局部最优点。
第六步、使用训练集数据和验证集数据对步骤四建立的四个模块进行整体性训练:
将预处理后的数据分别输入到相应的模块中,同时对所有模块进行整体性训练。计算每次训练后的补全值和车流量数据的真值的损失函数值,将模型的参数训练到目标值。根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高补全精度。
所述的输入数据包括:前向时间序列数据
Figure BDA0002271602260000051
(前t1小时的车流量数据)、反向时间序列数据
Figure BDA0002271602260000052
(后t2小时的车流量数据)、周期序列数据
Figure BDA0002271602260000053
(前t3天同一时刻的车流量数据)、时间维度影响衰减性矩阵
Figure BDA0002271602260000054
外部特征数据Fn(第n时刻的节假日、区域、天气和气温外部特征数据)和车流量数据的真值
Figure BDA0002271602260000055
(当前时刻的车流量数据)。
经过一次迭代后,得到的是经过一次补全操作之后的车流量数据。将这次迭代后的数据作为下一次迭代的输入,之前缺失点虽然有了补全值,但是由于标签还是表示缺失,后续迭代过程中,目标还是对这些缺失点进行数据补全,但是由于已经存在相对接近真值的数据,提供了先验知识,可以提升模型收敛的速度以及补全精度。
第七步、使用测试集利用第六步训练好的模型进行车流量数据补全。
输入数据为:前向时间序列数据
Figure BDA0002271602260000061
反向时间序列数据周期序列数据时间维度影响衰减性矩阵
Figure BDA0002271602260000064
外部特征数据
Figure BDA0002271602260000065
和车流量数据的真值
Figure BDA0002271602260000066
通过第六步的模型得到缺失的车流量数据的补全值,和第二步进行丢失处理后得到的验证值进行对比,验证模型的补全效果。
所述第一步中,预处理的具体过程为:
(1)时间粒度划分:将所有车流量数据按k分钟的时间粒度处理为每k分钟的车流量数据;
(2)对数据进行标准化:采用最小值和最大值对车流量数据进行标准化,公式如下:
Figure BDA0002271602260000067
其中,x表示原始值,xmin表示原始值的最小值,xmax表示原始值的最大值, max为归一化的上限值,min为归一化的下限值,[min,max]表示归一化后的区间,x*为标准化后的结果。
所述第四步中,考虑道路空间信息部分(Softmax处理):设所有传感器在当前时刻的隐含状态h=<h1,h2,h3,…,hi,…,ht>,hi是第i个传感器在当前时刻的隐含状态,然后对每一个hi计算权重,得到当前传感器的新的隐含状态h′i
Figure BDA0002271602260000071
使用Softmax处理后,所有的权重和为1。其中,l表示传感器数目,hij表示第j个传感器i时刻的隐含状态。
所述第六步中,计算每次迭代所得到的补全得到后的数据和车流量数据真值的均方误差MAE,使用Adam方法最小化MAE。
Figure BDA0002271602260000072
其中,x′i表示第i时刻的传感器真实值,xi表示第i时刻的传感器补全值。
本发明的有益效果:本发明与已有方法的区别在于,首先是对数据时序性特点使用上的改进,以往的方法在利用数据时序性特点时,往往考虑的是历史数据对当前时间点数据的影响,但是在车流量数据的补全应用上,后续时间点的信息对当前时间点的数据有影响,本发明同时考虑前向时间序列和反向时间序列,大幅提高了补全精度。其次考虑到外部特征节假日、传感器相邻区域对车流量数据的影响,将其加入到补全模型中,大幅提高了补全精度和对特殊值的补全。最后还考虑了数据缺失在时间维度上影响的衰减性,提高了补全精度。本发明的方法不仅大幅提高低缺失率车流量数据的补全精度,而且能够在数据缺失率较高的情况下达到很好的补全效果。
附图说明
图1是本发明涉及的补全模型结构图。
图2是数据缺失率为20%的低缺失率补全结果与真实值的对比图。
图3是数据缺失率为50%的高缺失率补全结果与真实值的对比图。
具体实施方法
下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。
一种基于双向循环神经网络的交通缺失数据补全方法,步骤如下:
第一步,将车流量数据预处理
(1)时间粒度划分:将所有车流量数据按5分钟的时间粒度处理为每5分钟的车流量数据;
(2)对数据进行标准化:采用最小值最大值对车流量数据进行标准化,公式如下:
Figure BDA0002271602260000081
其中,x表示原始值,xmin表示原始值的最小值,xmax表示原始值的最大值, max为归一化的上限值,min为归一化的下限值,[min,max]表示归一化后的区间,x*为标准化后的结果。
第二步,将预处理后的数据进行随机数据点丢失,采用随机数的方法,将一定比例(根据实验要求自行设置)的数据打上缺失的标签,用来作为缺失点,然后记录这些点的值,作为真值,用来验证模型最终的补全效果。
同时,建立时间维度影响衰减性矩阵。由于数据的缺失会出现连续缺失的情况,比如,一次停电可能会导致传感器在几个小时之内采集不到数据,随着时间的积累,历史数据对缺失点的数据的影响会越来越小,会影响补全精度,所以需要记录时间维度数据影响的衰减性。时间维度影响衰减性矩阵定义如下:
Figure BDA0002271602260000082
其中,nt表示当前的时刻,
Figure BDA0002271602260000083
的定义如下:
Figure BDA0002271602260000084
第三步、将预处理后的车流量数据划分为训练集、验证集和测试集,按照8:1:1的比例进行划分。在每个数据集中,不同模型采用的数据有以下几种类型:
前向时间序列深度学习模块用的数据:
Figure BDA0002271602260000091
反向时间序列深度学习模块的数据:
Figure BDA0002271602260000092
外部特征模型中采用的外部特征数据:Fn
周期性特征模块中采用的周期性序列数据:
其中,n表示当前时刻,t表示时间序列的步长,p表示周期序列的步长。S 表示的是车流量数据,T表示的是S在时间维度上的反向序列。si表示在n时刻的车流量数据,
Figure BDA0002271602260000094
表示第n时刻的前i天的日内相同时刻的车流量数据,表示包括第n时刻的前t个时刻的车流量数据的集合,
Figure BDA0002271602260000096
表示包括第n时刻当天的前p天日内相同时刻的车流量数据集合,Fn表示在第n时刻的外部特征,包括节假日、位置区域、天气和气温。
第四步、构建补全模型,补全模型包括前向序列深度学习模块、反向时间序列深度学习模块、周期性特征模块和外部特征模块,各个模块的结构及训练机制如下:
(1)前向序列深度学习模块:是一个线性回归网络和多层长短记忆网络组合LSTM模型,通过一层线性回归网络,添加当前缺失点在时间上的延续性信息,用来应对长时间序列缺失的情况,提升补全精度。
前向序列深度学习模块的实现细节:先将时间维度衰减性矩阵输入到线性回归网络,然后将线性回归网络的输出和前向时间序列数据
Figure BDA0002271602260000097
输入LSTM网络中,对当前时刻输入值xt,如果数据点没有缺失,则直接输入,当数据点缺失时,将上一个时刻的隐含状态作为当前时刻的输入,在处理完输入后,对深度学习网络进行训练,在不断的迭代更新中得到最终的前向序列深度学习模块的输出。
(2)反向序列深度学习模块:在网络结构上与前向序列深度学习模块一致,不同的在于将前向序列深度学习模块的输入在时间维度上做一个反向处理,作为模块的输入。
(3)周期性特征模块:是由三层全连接网络构成的模块,通过对周期性数据特征的提取,获取历史数据中,同一个传感器,同一个时间段车流量的变化规律,然后将提取到的特征输出。实现细节:将周期序列数据输入到全连接层中,经过三层全连接层,提取周期性数据的时序性特征,然后输出。
(4)外部特征模块:是一层特征编码层;实现细节:将外部特征数据输入到特征编码层,将文字化描述的天气,节假日等外部特征,通过划分等级的方式:比如根据是否是节假日,将是节假日的用1来表示,不是节假日的用0来表示,将周期序列数据转化为向量形式,然后把得到的向量输出到下一步。
为了将道路空间上的信息考虑进去,还加入了空间性特征学习模块,将路段上所有传感器同时输入模型中,然后将与当前传感器的缺失点相同时刻的其它传感器的隐含状态作为输入,通过Softmax网络计算权重之后,得到输出,将输入到前向序列模块和反向序列模块中。
最后,将各个模块的输出合并成一维向量,然后通过一层全连接网络,得到最终的补全结果。
第五步、使用训练集数据对时间序列深度学习模型的预训练部分进行预训练,提前优化时间序列深度学习模型的参数,避免在整体训练时将参数优化到局部最优点。
第六步、使用训练集数据和验证集数据对步骤四建立的四个模块进行整体性训练(对于数据有缺失的点用补全值替换,数据没有缺失就保持原始数据不变):
将预处理后的数据分别输入到相应的模块中,同时对所有模块进行整体性训练。计算每次训练后的补全值和车流量数据的真值的损失函数值,将模型的参数训练到目标值。根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高补全精度。训练过程中,计算每次迭代所得到的补全得到后的数据和车流量数据真值的MAE(均方误差),使用Adam方法最小化MAE。
Figure BDA0002271602260000111
其中,x′i表示第i时刻的传感器真实值,xi表示第i时刻的传感器补全值。
所述的输入数据包括:前向时间序列数据
Figure BDA0002271602260000112
(前t1小时的车流量数据)、反向时间序列数据
Figure BDA0002271602260000113
(后t2小时的车流量数据)、时间维度影响衰减性矩阵
Figure BDA0002271602260000114
周期序列数据
Figure BDA0002271602260000115
(前t3天同一时刻的车流量数据)、外部特征数据Fn(第n时刻的节假日、区域、天气和气温外部特征数据)和车流量数据的真值
Figure BDA0002271602260000116
(当前时刻的车流量数据)。
第七步、使用测试集利用第六步训练好的模型进行车流量数据补全。
输入数据为:前向时间序列数据
Figure BDA0002271602260000117
反向时间序列数据
Figure BDA0002271602260000118
周期序列数据
Figure BDA0002271602260000119
外部特征数据
Figure BDA00022716022600001110
和车流量数据的真值
Figure BDA00022716022600001111
时间维度影响衰减性矩阵
Figure BDA00022716022600001112
图2是数据缺失率为20%的补全结果与真实值的对比图,模型补全结果与车流量真实值的均方误差MAE是29.18。(图中选取前100个缺失点)
图3是数据缺失率为50%的补全结果与真实值的对比图,模型补全结果与车流量真实值的均方误差MAE是31.94。(图中选取前100个缺失点)。

Claims (5)

1.一种基于双向循环神经网络的交通缺失数据补全方法,其特征在于,步骤如下:
第一步,将车流量数据进行预处理
所述的预处理包括时间粒度划分和对数据进行标准化;
第二步、将预处理后的数据进行随机数据点丢失处理,构建带有缺失点的数据集,然后记录缺失点所在的位置信息,用作验证值;同时,构建时间维度影响衰减性矩阵:
Figure FDA0002271602250000011
其中,nt表示当前的时刻,
Figure FDA0002271602250000012
的定义如下:
Figure FDA0002271602250000013
第三步、将丢失处理后的车流量数据划分为训练集、验证集和测试集;在每个数据集中,不同模型采用的数据有以下几种类型:
前向时间序列深度学习模块用的数据:
Figure FDA0002271602250000014
反向时间序列深度学习模块的数据:
Figure FDA0002271602250000015
外部特征模块中采用的外部特征数据:Fn
周期性特征模块中采用的周期性序列数据:
Figure FDA0002271602250000016
其中,n表示当前时刻,t表示时间序列的步长,p表示周期序列的步长;S表示的是车流量数据,T表示的是S在时间维度上的反向序列;si表示在n时刻的车流量数据,
Figure FDA0002271602250000017
表示第n时刻的前i天的日内相同时刻的车流量数据,
Figure FDA0002271602250000018
表示包括第n时刻的前t个时刻的车流量数据的集合,
Figure FDA0002271602250000019
表示包括第n时刻当天的前p天日内相同时刻的车流量数据集合,Fn表示在第n时刻的外部特征,包括节假日、位置区域、天气和气温;
第四步、构建补全模型,补全模型包括前向时间序列深度学习模块、反向时间序列深度学习模块、周期性特征模块和外部特征模块,各个模块的结构及训练机制如下:
(1)前向时间序列深度学习模块:是一个线性回归网络和多层长短记忆网络组合LSTM模型,通过一层线性回归网络,添加当前缺失点在时间上的延续性信息,用来应对长时间序列缺失的情况,提升补全精度;
前向序列深度学习模块的实现细节:先将时间维度衰减性矩阵输入到线性回归网络,然后将线性回归网络的输出和前向时间序列数据
Figure FDA0002271602250000021
输入LSTM网络中,对当前时刻输入值xt,如果数据点没有缺失,则直接输入,当数据点缺失时,将上一个时刻的隐含状态作为当前时刻的输入,在处理完输入后,对深度学习网络进行训练,在不断的迭代更新中得到最终的前向序列深度学习模块的输出;
(2)反向时间序列深度学习模块:在网络结构上与前向序列深度学习模块一致,不同的在于将前向时间序列深度学习模块的输入在时间维度上做一个反向处理,作为模块的输入;
(3)周期性特征学习模块:是由三层全连接网络构成的模块,通过对周期性数据特征的提取,获取历史数据中、同一个传感器、同一个时间段车流量的变化规律,然后将提取到的特征输出;实现细节:将周期序列数据输入到全连接层中,经过三层全连接层,提取周期性数据的时序性特征,然后输出;
(4)外部特征模块:该模块由两部分组成:第一部分处理节假日、天气特征,是一层特征编码层;实现细节:将外部特征数据输入到特征编码层,把数据转化为向量形式,然后把得到的向量和上述三个模块的输出合并;
第二部分处理空间性特征,将路段上所有传感器同时输入第二部分中,然后将与当前传感器的缺失点相同时刻的其它传感器的隐含状态作为输入,通过Softmax网络计算权重之后,得到输出,将该输出输入到前向、反向时间序列深度学习模块中;
最后将上述四个模块的输出合并成一维向量,通过一层全连接网络,得到最终的补全结果;
第五步、使用训练集数据对前向时间序列深度学习模块、反向时间序列深度学习模块的预训练部分进行预训练,提前优化时间序列深度学习模型的参数,避免在整体训练时将参数优化到局部最优点;
第六步、使用训练集数据和验证集数据对步骤四建立的四个模块进行整体性训练:
将预处理后的数据分别输入到相应的模块中,同时对所有模块进行整体性训练;计算每次训练后的补全值和车流量数据的真值的损失函数值,将模型的参数训练到目标值;根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高补全精度;
所述的输入数据包括:
前向时间序列数据:前t1小时的车流量数据
Figure FDA0002271602250000031
反向时间序列数据:后t2小时的车流量数据
Figure FDA0002271602250000032
周期序列数据:前t3天同一时刻的车流量数据
时间维度影响衰减性矩阵:
Figure FDA0002271602250000034
外部特征数据:第n时刻的节假日、区域、天气和气温外部特征数据Fn
车流量数据的真值:当前时刻的车流量数据
Figure FDA0002271602250000035
经过一次迭代后,得到的是经过一次补全操作之后的车流量数据;将这次迭代后的数据作为下一次迭代的输入,之前缺失点虽然有了补全值,但是由于标签还是表示缺失,后续迭代过程中,目标还是对这些缺失点进行数据补全;
第七步、使用测试集利用第六步训练好的模型进行车流量数据补全;
输入数据为:前向时间序列数据反向时间序列数据
Figure FDA0002271602250000042
周期序列数据
Figure FDA0002271602250000043
时间维度影响衰减性矩阵
Figure FDA0002271602250000044
外部特征数据
Figure FDA0002271602250000045
和车流量数据的真值
Figure FDA0002271602250000046
通过第六步的模型得到缺失的车流量数据的补全值,和第二步进行丢失处理后得到的验证值进行对比,验证模型的补全效果。
2.根据权利要求1所述的一种基于双向循环神经网络的交通缺失数据补全方法,其特征在于,所述第一步中,预处理的具体过程为:
(1)时间粒度划分:将所有车流量数据按k分钟的时间粒度处理为每k分钟的车流量数据;
(2)对数据进行标准化:采用最小值和最大值对车流量数据进行标准化,公式如下:
Figure FDA0002271602250000047
其中,x表示原始值,xmin表示原始值的最小值,xmax表示原始值的最大值,max为归一化的上限值,min为归一化的下限值,[min,max]表示归一化后的区间,x*为标准化后的结果。
3.根据权利要求1或2所述的一种基于双向循环神经网络的交通缺失数据补全方法,其特征在于,所述第四步中,处理空间性特征的具体过程:设所有传感器在当前时刻的隐含状态h=<h1,h2,h3,…,hi,…,ht>,hi是第i个传感器在当前时刻的隐含状态,然后对每一个hi计算权重,得到当前传感器的新的隐含状态h′i
Figure FDA0002271602250000048
其中,l表示传感器数目,hij表示第j个传感器i时刻的隐含状态。
4.根据权利要求1或2所述的一种基于双向循环神经网络的交通缺失数据补全方法,其特征在于,所述第六步中,计算每次迭代所得到的补全得到后的数据和车流量数据真值的均方误差MAE,使用Adam方法最小化MAE;
其中,x′i表示第i时刻的传感器真实值,xi表示第i时刻的传感器补全值。
5.根据权利要求3所述的一种基于双向循环神经网络的交通缺失数据补全方法,其特征在于,所述第六步中,计算每次迭代所得到的补全得到后的数据和车流量数据真值的均方误差MAE,使用Adam方法最小化MAE;
Figure FDA0002271602250000052
其中,x′i表示第i时刻的传感器真实值,xi表示第i时刻的传感器补全值。
CN201911106967.7A 2019-11-13 2019-11-13 一种基于双向循环神经网络的交通缺失数据补全方法 Withdrawn CN110837888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911106967.7A CN110837888A (zh) 2019-11-13 2019-11-13 一种基于双向循环神经网络的交通缺失数据补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911106967.7A CN110837888A (zh) 2019-11-13 2019-11-13 一种基于双向循环神经网络的交通缺失数据补全方法

Publications (1)

Publication Number Publication Date
CN110837888A true CN110837888A (zh) 2020-02-25

Family

ID=69576320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911106967.7A Withdrawn CN110837888A (zh) 2019-11-13 2019-11-13 一种基于双向循环神经网络的交通缺失数据补全方法

Country Status (1)

Country Link
CN (1) CN110837888A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417000A (zh) * 2020-11-18 2021-02-26 杭州电子科技大学 一种基于双向循环编解码器神经网络的时间序列缺失值填充方法
CN113094357A (zh) * 2021-04-23 2021-07-09 大连理工大学 一种基于时空注意力机制的交通缺失数据补全方法
CN113239029A (zh) * 2021-05-18 2021-08-10 国网江苏省电力有限公司镇江供电分公司 一种电能表缺失日冻结数据的补全方法
CN113392139A (zh) * 2021-06-04 2021-09-14 中国科学院计算技术研究所 一种基于关联融合的多元时间序列补全方法及***
CN113554105A (zh) * 2021-07-28 2021-10-26 桂林电子科技大学 一种基于时空融合的物联网缺失数据补全方法
CN114611396A (zh) * 2022-03-15 2022-06-10 国网安徽省电力有限公司蚌埠供电公司 一种基于大数据分析线损的方法
CN116595806A (zh) * 2023-07-14 2023-08-15 江西师范大学 一种自适应温度数据补全方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822712A (en) * 1992-11-19 1998-10-13 Olsson; Kjell Prediction method of traffic parameters
US20150120174A1 (en) * 2013-10-31 2015-04-30 Here Global B.V. Traffic Volume Estimation
CN107154150A (zh) * 2017-07-25 2017-09-12 北京航空航天大学 一种基于道路聚类和双层双向lstm的交通流量预测方法
CN107610469A (zh) * 2017-10-13 2018-01-19 北京工业大学 一种考虑多因素影响的日维度区域交通指数预测方法
CN107680377A (zh) * 2017-11-06 2018-02-09 浙江工商大学 基于趋势拟合的交通流量数据交叉补全方法
CN107992536A (zh) * 2017-11-23 2018-05-04 中山大学 基于张量分解的城市交通缺失数据填补方法
CN108010320A (zh) * 2017-12-21 2018-05-08 北京工业大学 一种基于自适应时空约束低秩算法的路网交通数据的补全方法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN108205889A (zh) * 2017-12-29 2018-06-26 长春理工大学 基于卷积神经网络的高速公路交通流预测方法
CN109146156A (zh) * 2018-08-03 2019-01-04 大连理工大学 一种用于预测充电桩***充电量的方法
CN109598935A (zh) * 2018-12-14 2019-04-09 银江股份有限公司 一种基于超长时间序列的交通数据预测方法
CN110070713A (zh) * 2019-04-15 2019-07-30 浙江工业大学 一种基于双向嵌套lstm神经网络的交通流预测方法
CN110162744A (zh) * 2019-05-21 2019-08-23 天津理工大学 一种基于张量的车联网数据缺失多重估计新方法
CN110223510A (zh) * 2019-04-24 2019-09-10 长安大学 一种基于神经网络lstm的多因素短期车流量预测方法
US20190286990A1 (en) * 2018-03-19 2019-09-19 AI Certain, Inc. Deep Learning Apparatus and Method for Predictive Analysis, Classification, and Feature Detection
CN110322695A (zh) * 2019-07-23 2019-10-11 内蒙古工业大学 一种基于深度学习的短时交通流预测方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822712A (en) * 1992-11-19 1998-10-13 Olsson; Kjell Prediction method of traffic parameters
US20150120174A1 (en) * 2013-10-31 2015-04-30 Here Global B.V. Traffic Volume Estimation
CN107154150A (zh) * 2017-07-25 2017-09-12 北京航空航天大学 一种基于道路聚类和双层双向lstm的交通流量预测方法
CN107610469A (zh) * 2017-10-13 2018-01-19 北京工业大学 一种考虑多因素影响的日维度区域交通指数预测方法
CN107680377A (zh) * 2017-11-06 2018-02-09 浙江工商大学 基于趋势拟合的交通流量数据交叉补全方法
CN107992536A (zh) * 2017-11-23 2018-05-04 中山大学 基于张量分解的城市交通缺失数据填补方法
CN108010320A (zh) * 2017-12-21 2018-05-08 北京工业大学 一种基于自适应时空约束低秩算法的路网交通数据的补全方法
CN108205889A (zh) * 2017-12-29 2018-06-26 长春理工大学 基于卷积神经网络的高速公路交通流预测方法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
US20190286990A1 (en) * 2018-03-19 2019-09-19 AI Certain, Inc. Deep Learning Apparatus and Method for Predictive Analysis, Classification, and Feature Detection
CN109146156A (zh) * 2018-08-03 2019-01-04 大连理工大学 一种用于预测充电桩***充电量的方法
CN109598935A (zh) * 2018-12-14 2019-04-09 银江股份有限公司 一种基于超长时间序列的交通数据预测方法
CN110070713A (zh) * 2019-04-15 2019-07-30 浙江工业大学 一种基于双向嵌套lstm神经网络的交通流预测方法
CN110223510A (zh) * 2019-04-24 2019-09-10 长安大学 一种基于神经网络lstm的多因素短期车流量预测方法
CN110162744A (zh) * 2019-05-21 2019-08-23 天津理工大学 一种基于张量的车联网数据缺失多重估计新方法
CN110322695A (zh) * 2019-07-23 2019-10-11 内蒙古工业大学 一种基于深度学习的短时交通流预测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
DONALD B. RUBIN: "Inference and missing data", 《BIOMETRIKA》 *
FILIPE RODRIGUES ET AL.: "Multi-Output Gaussian Processes for Crowdsourced Traffic Data Imputation", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
HAN-GYU KIM ET AL.: "Medical examination data prediction with missing information imputation based on recurrent neural networks", 《INTERNATIONAL JOURNAL OF DATA MINING AND BIOINFORMATICS》 *
LABLACK MOURAD ET AL.: "ASTIR: Spatio-Temporal Data Mining for Crowd Flow Prediction", 《IEEE ACCESS》 *
WEI CAO ET AL.: "BRITS: Bidirectional Recurrent Imputation for Time Series", 《ARXIV》 *
YI-FAN ZHANG ET AL.: "SSIM—A Deep Learning Approach for Recovering Missing Time Series Sensor Data", 《IEEE INTERNET OF THINGS JOURNAL》 *
任艺柯: "基于改进的LSTM网络的交通流预测", 《万方》 *
朱勇: "基于时空关联混合模型的交通流预测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417000A (zh) * 2020-11-18 2021-02-26 杭州电子科技大学 一种基于双向循环编解码器神经网络的时间序列缺失值填充方法
CN113094357A (zh) * 2021-04-23 2021-07-09 大连理工大学 一种基于时空注意力机制的交通缺失数据补全方法
CN113239029A (zh) * 2021-05-18 2021-08-10 国网江苏省电力有限公司镇江供电分公司 一种电能表缺失日冻结数据的补全方法
CN113392139A (zh) * 2021-06-04 2021-09-14 中国科学院计算技术研究所 一种基于关联融合的多元时间序列补全方法及***
CN113392139B (zh) * 2021-06-04 2023-10-20 中国科学院计算技术研究所 一种基于关联融合的环境监测数据补全方法及***
CN113554105A (zh) * 2021-07-28 2021-10-26 桂林电子科技大学 一种基于时空融合的物联网缺失数据补全方法
CN113554105B (zh) * 2021-07-28 2023-04-18 桂林电子科技大学 一种基于时空融合的物联网缺失数据补全方法
CN114611396A (zh) * 2022-03-15 2022-06-10 国网安徽省电力有限公司蚌埠供电公司 一种基于大数据分析线损的方法
CN116595806A (zh) * 2023-07-14 2023-08-15 江西师范大学 一种自适应温度数据补全方法
CN116595806B (zh) * 2023-07-14 2023-10-10 江西师范大学 一种自适应温度数据补全方法

Similar Documents

Publication Publication Date Title
CN111899510B (zh) 基于发散卷积和gat的智能交通***流量短期预测方法及***
CN110837888A (zh) 一种基于双向循环神经网络的交通缺失数据补全方法
CN113094357B (zh) 一种基于时空注意力机制的交通缺失数据补全方法
CN112365040B (zh) 一种基于多通道卷积神经网络和时间卷积网络的短期风电功率预测方法
CN110223517B (zh) 基于时空相关性的短时交通流量预测方法
CN109685252B (zh) 基于循环神经网络和多任务学习模型的建筑能耗预测方法
CN109255505B (zh) 一种多模型融合神经网络的短期负荷预测方法
CN108280551B (zh) 一种利用长短期记忆网络的光伏发电功率预测方法
CN109146156B (zh) 一种用于预测充电桩***充电量的方法
CN110766212B (zh) 用于历史数据缺失电场的超短期光伏功率预测方法
CN109886444A (zh) 一种交通短时客流预测方法、装置、设备和存储介质
CN113723010B (zh) 一种基于lstm温度-位移相关模型的桥梁损伤预警方法
CN109902862A (zh) 一种融合时间注意力机制的时间序列预测***
CN110619430A (zh) 一种用于交通预测的时空注意力机制方法
CN111027772A (zh) 基于pca-dbilstm的多因素短期负荷预测方法
CN111861013A (zh) 一种电力负荷预测方法及装置
CN111626764A (zh) 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
Suryo et al. Improved time series prediction using LSTM neural network for smart agriculture application
CN112257847A (zh) 一种基于CNN和LSTM预测地磁Kp指数的方法
CN114781744A (zh) 基于编码解码器的深度学习多步长辐照度预测方法
CN112766603A (zh) 一种交通流量预测方法、***、计算机设备及存储介质
CN113947182A (zh) 基于双阶段堆叠图卷积网络的交通流预测模型构建方法
CN114120637A (zh) 一种基于连续监测器的智慧高速交通流量预测方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN111524349B (zh) 一种语境特征注入的多尺度交通流预测模型建立方法及使用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200225

WW01 Invention patent application withdrawn after publication