CN112884222B - 一种面向时间段的lstm交通流密度预测方法 - Google Patents

一种面向时间段的lstm交通流密度预测方法 Download PDF

Info

Publication number
CN112884222B
CN112884222B CN202110185310.5A CN202110185310A CN112884222B CN 112884222 B CN112884222 B CN 112884222B CN 202110185310 A CN202110185310 A CN 202110185310A CN 112884222 B CN112884222 B CN 112884222B
Authority
CN
China
Prior art keywords
traffic flow
flow density
time
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110185310.5A
Other languages
English (en)
Other versions
CN112884222A (zh
Inventor
曾昀敏
陈佩仪
张衡
胡栋
孙艺菲
姚剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110185310.5A priority Critical patent/CN112884222B/zh
Publication of CN112884222A publication Critical patent/CN112884222A/zh
Application granted granted Critical
Publication of CN112884222B publication Critical patent/CN112884222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种面向时间段的LSTM交通流密度预测方法。本发明创造性地提出了交通流密度的概念,得到区域内各车辆的交通流密度数据集,有效反映城市交通热点区域内的实际交通拥堵情况。利用动态时间规整方法在时间轴上进行局部的延伸或缩短,以此更精确地度量交通流密度序列切片间的相似性。利用K‑Means聚类方法,对各交通流密度切片序列按照相似性分类,有利于反映交通流密度的典型模式。针对模式相似的交通流密度数据分别训练神经网络,并对各神经网络输出预测值按时间标签或据聚类中心的距离加权求和,充分利用了数据的序列结构特点。最后利用所在工作日类型相同的过往数据对加权求和结果进行相似日修正,提高算法预测精度。

Description

一种面向时间段的LSTM交通流密度预测方法
技术领域
本发明属于交通预测领域,更具体地,涉及一种面向时间段的LSTM交通流密度预测方法。
背景技术
随着我国社会经济发展的蒸蒸日上和城市化建设进程的稳步推进,人民的物质生活条件得到改善,机动车持有量及道路交通运输量急剧增加,城市尤其是大城市的交通拥堵现象成为目前一个焦点问题。逐渐突显的交通路网阻滞、交通秩序混乱等问题,给城市交通管理带来了巨大冲击和压力。而由此现象带来的通勤时间浪费、能源经济损失、空气质量下降等问题也日益彰显。当前,城市道路交通拥堵问题不仅制约着社会经济的进一步发展,也是影响民众出行体验、降低人民生活质量的重要原因。因此,必须加强对城市道路车辆运动预测方法的研究,以备能够进一步完成解决城市交通拥堵的任务。
针对城市道路交通流预测的问题,相关领域的专家学者进行了许多的研究,不断地提出复杂度更高、性能更优良的预测方法,或是对现有的预测方法从不同角度进行改良。总体来说,目前这些预测方法大致可分成两类:一类是以数理统计和微积分等传统数学和物理方法为基础的预测模型,主要包括时间序列模型、参数回归模型、指数平滑模型等,这类方法以经典的数学和物理理论知识为支撑,适合处理规模较小、较为简易和单一的交通流数据,但随着交通***的复杂化,这类方法往往不能满足实际精度的要求;另一类是以现代科学技术和方法为主要研究手段而形成的预测模型,包括非参数回归模型、基于多维分形的方法、谱分析法、神经网络模型等,这类方法注重提高对真实交通流现象的拟合效果,而并不追求严格的数学推导以及明晰的物理意义,在处理较为复杂的交通流数据中表现出优势。长短期记忆神经网络(Long-Short Term Memory)就是常用的神经网络模型之一,近年来在交通流预测方面有着较为良好的表现。但由于其只是单纯地根据交通流数据的时间相关性进行模拟,且没有考虑实际道路交通的客观规律,在提高精度方面仍然有改进的空间。
发明内容
由于目前针对某一时间段或时间标签进行时间序列预测的深度学习方法十分有限,且鲜有将聚类思想引入预测过程的做法,本发明旨在结合聚类、神经网络、集成学习、相似日修正四大模块,提供一种面向时间段的LSTM(长短期记忆神经网络)交通流密度预测方法。所述交通流密度通过单位时间内车辆留下的轨迹点个数来定义,更能反映交通拥堵情况。
本发明的技术方案为一种面向时间段的LSTM交通流密度预测方法,包括数据处理阶段、训练阶段、调参阶段和测试阶段;
其中数据处理阶段具体包括:选取研究区域,从采集的车辆轨迹信息中选取与该研究区域有交集的部分,按交通流密度公式计算得到区域内各车辆的交通流密度数据集,将交通流密度数据集划分为训练集、验证集和测试集;
训练阶段包括如下步骤:
步骤S11,对训练集中的交通流密度数据按给定的长度进行分割,得到时间序列切片,并记录其时间标签,利用动态时间规整方法计算时间序列切片间的相似性,并通过K-Means聚类方法对各交通流密度切片按照相似性分类,得到N个聚类簇及对应的时间标签;
步骤S12,搭建面向时间段的LSTM神经网络,将神经网络的输入数据按指定滑窗长度进行时间序列滑窗处理、拼接处理与正规化处理;
步骤S13,取N个聚类簇的数据,分别训练N个LSTM神经网络;
调参阶段包括如下步骤:
步骤S21,对验证集数据进行预处理,具体包括:
设滑窗长度为seq_len,对验证集内每条序列进行时间序列窗口大小为seq_len、滑窗步长为1的时间序列滑窗处理,然后进行拼接处理和正规化处理;
步骤S22,将处理后的验证集数据按给定标准输入L个神经网络,L<N,并对L个预测结果进行反正规化操作和加权求和;
步骤S23,利用过往数据对加权求和结果进行修正,输出最终预测结果;
步骤S24,调整参数,重新用训练集数据进行聚类和神经网络训练,然后重复S22、S23并进行误差分析;
步骤S25,重复步骤S24多次,最终保留使三个指标相对表现最好的参数作为模型参数;
测试阶段包括如下步骤:
步骤S31,对测试集数据进行同步骤S21的预处理操作;
步骤S32,将处理后的测试集数据按给定标准输入L个神经网络,L<N,并对L个预测结果进行反正规化操作和加权求和,利用过往数据对加权求和结果进行修正,输出最终预测结果;
步骤S33,重新利用训练集数据进行聚类、神经网络训练,再进行步骤S32;
步骤S34,重复执行步骤S33 M遍,计算修正预测值与真实值的MAE、MSE、MAPE的均值与标准差。
进一步的,所述的车辆轨迹信息来源于网络数据集;
所述的研究区域为城市交通热点区域;
获取的车辆轨迹信息为经过间隔时间采集的机动车轨迹点数;
将选取研究区域内的指定间隔时间内的轨迹点数量进行累加,得到指定间隔时间的交通流密度数据集,所述指定间隔时间根据预测需求制定;
若指定间隔时间为Δt,间隔时间内车辆轨迹点在研究区域出现频数为n,则交通流密度数据定义为:
Figure BDA0002942843750000031
将交通流密度数据集划分为训练集、验证集和测试集。
进一步的,步骤S11中得到N个聚类簇的具体实现方式如下;
首先利用动态时间规整方法计算时间序列切片间的相似性,具体实现方式如下,
动态时间规整方法在时间轴上进行局部的延伸或缩短,以计算时间序列间的相似性,若需要计算相似度的两个时间序列为X和Y,长度为|X|和|Y|,i表示X中的i时刻交通流密度,j表示Y中的j时刻交通流密度,则归整路径W定义为:
W=w1,w2,...,wk,Max(|X|,|Y|)≤k≤|X|+|Y|
式中:w1=(1,1),wk=(|X|,|Y|);
从(1,1)到(i,j)累积的归整距离D(i,j)定义为:
D(i,j)=Dist(i,j)+Min[D(i-1,j),D(i,j-1),D(i-1,j-1)]
式中:Dist(i,j)表示Xi,Yj两点间的距离;
使用动态规划求解,得到归整路径距离D(|X|,|Y|);
然后通过K-Means聚类方法,对各交通流密度切片序列按照相似性分类,得到交通流序列的多种典型序列,整合出N个聚类簇和聚类中心。
进一步的,步骤S12中对输入数据按指定长度进行时间序列滑窗处理、拼接处理与正规化处理的具体实现方式如下;
所述时间序列滑窗处理为:
若聚类簇中的交通流密度切片数据表示为{S1,S2,...,Sn},交通流密度切片长为time_span,滑窗长度为seq_len,先将Si(i=1,...,n)与未切片的交通流密度数据集中时间逻辑上对应的前seq_len-1个交通流密度值拼接起来,记作
Figure BDA0002942843750000041
再对
Figure BDA0002942843750000042
进行时间序列窗口大小为seq_len、滑窗步长为1的时间序列滑窗处理;
拼接处理为:
记x为滑窗切割出的交通流密度切片,y为切片下一时刻的交通流密度值;
则得到交通流密度滑窗数据集表示为:
{(xi,yi)}1≤i≤n×time_span
正规化处理为:对{x0,...,xn},正规化后的交通流密度定义为:
Figure BDA0002942843750000043
其中xk∈{x0,...,xn};
正规化后的交通流密度滑窗数据集合就是神经网络中接收的数据
Figure BDA0002942843750000046
进一步的,步骤S22中所述给定标准分为两种,一种是以时间标签为标准,一种是以与聚类中心的距离为标准;
所述以时间标签为标准,即首先判断输入数据的时间标签,再挑选具备相同时间标签的神经网络,若一神经网络的训练集中不含此时间标签,则不将数据输入此神经网络;
所述以与聚类中心的距离为标准,即计算输入数据与各神经网络对应聚类簇的聚类中心的DTW距离,当距离小于给定阈值时挑选此神经网络进行预测;
所述反正规化操作,即将预测结果
Figure BDA0002942843750000044
按如下公式转换为{x0,...,xn}:
Figure BDA0002942843750000045
其中xk∈{x0,...,xn};
所述加权求和也分为两种,分别与两种输入时的给定标准对应;
以时间标签为标准时,设反正规化后的L个预测结果为y1,...,yL,在第k个神经网络对应的聚类簇中,与输入数据时间标签相同的切片共有Nk个,而训练集中含该时间标签的总切片数为N,则第k个神经网络输出预测值的权重为:
Figure BDA0002942843750000051
以与聚类中心的距离为标准时,若输入数据与聚类中心
Figure BDA0002942843750000056
的DTW距离依次递减,且对应的预测结果为y1,...,yL,则:
c1≤...≤cL
c1+...+cL=1
最终,加权所得的预测值为:
Figure BDA0002942843750000052
进一步的,步骤S23的具体实现方式如下;
若神经网络输入数据在指定修正时间段内,且有n个与神经网络输入数据所在工作日类型相同的过往时间序列数据{p0,...,pn-1},加权后的交通流密度预测值为Ow,则修正后交通流密度预测值O定义为:
Figure BDA0002942843750000053
式中:α表示相似日修正系数,d为修正天数范围。
进一步的,步骤S24中误差分析包括对三个指标MAE,MAPE和MSE的计算,定义如下:
Figure BDA0002942843750000054
Figure BDA0002942843750000055
Figure BDA0002942843750000061
式中:y表示交通流密度的真实值,O表示交通流密度的预测值,N表示交通流密度预测值的数量。与现有技术相比,本发明的优点和有益效果如下:
创造性地提出了交通流密度的概念,得到区域内各车辆的交通流密度数据集,可以有效反映城市交通热点区域内的实际交通拥堵情况。
利用动态时间规整方法在时间轴上进行局部的延伸或缩短,以此更精确地度量交通流密度序列切片间的相似性。
利用K-Means聚类方法,对各交通流密度切片序列按照相似性分类,有利于反映交通流密度的典型模式。
提供初值化正规化方法,经实验验证该方法更加稳定。
针对模式相似的交通流密度数据分别训练神经网络,并在集成学习步骤中对各神经网络输出预测值按时间标签或据聚类中心的距离加权求和,充分利用了数据的序列结构特点。
利用所在工作日类型相同的过往数据对加权求和结果进行相似日修正,进一步利用交通流密度的长时间依赖性提高算法预测精度。
计算三个指标平均绝对误差MAE,平均绝对百分比误差MAPE和均方误差MSE进行误差分析,多角度描述算法的偏差和稳定性。
附图说明
图1是面向时间段的LSTM交通流密度预测方法总体流程图;
图2是面向时间段的LSTM交通流密度预测方法训练阶段流程图;
图3是面向时间段的LSTM交通流密度预测方法验证阶段流程图;
图4是面向时间段的LSTM交通流密度预测方法测试阶段流程图。
具体实施方式
下面结合附图与实施实例,对本模型进行进一步详细说明。此处描述的具体实施实例仅用以解释本模型,不用于限定本模型。
如图1所示,本发明提供一种面向时间段的LSTM交通流密度预测方法,分为数据处理阶段、训练阶段、调参阶段和测试阶段,其中数据处理阶段具体包括:
选取研究区域,从采集的车辆轨迹信息中选取与该区域有交集的部分,按交通流密度定义式计算区域内车辆的交通流密度序列,将序列划分为训练集、验证集和测试集。
所述的车辆轨迹信息来源于网络数据集。
所述的研究区域为城市交通热点区域。
获取的车辆轨迹信息为经过间隔时间采集的机动车轨迹点数。
将选取研究区域内的指定间隔时间内的轨迹点数量进行累加,得到指定间隔时间的交通流密度数据集,所述指定间隔时间可以根据预测需求制定(例如2分钟)。
若指定间隔时间为Δt,间隔时间内车辆轨迹点在研究区域出现频数为n,则交通流密度数据定义为:
Figure BDA0002942843750000071
不同于传统的车流量定义,交通流密度是单位时间内的轨迹点个数,更能反映实际拥堵情况。因为实际情况中可能出现车流量大但交通畅通的现象,而车辆轨迹点是通过每经过一固定时间间隔采集一次车辆经纬度数据形成的二维时间序列,若在单位时间内,某区域内全体车辆留下的轨迹点个数多,则大概率是各车辆在该区域内形成了滞留。
将交通流密度数据集划分为训练集、验证集和测试集。具体地,若获取的车辆轨迹信息一共含T天,则将前T-2天的交通流密度数据集作为训练集,第T-1天的作为验证集,第T天的作为测试集。
如图2所示,训练阶段包括如下步骤:
步骤S11,对训练集中的交通流密度数据按给定的长度进行分割,得到时间序列切片,并根据每个切片位于一天中的位置记录其时间标签。利用动态时间规整方法计算时间序列切片间的相似性,并通过K-Means聚类方法对各交通流密度切片按照相似性分类,得到N个聚类簇,每个簇内的切片都具有各自的时间标签。
所述给定的长度可以根据预测需求制定(例如3小时)。
所述的动态时间规整(Dynamic Time Warping)方法为一种序列度量方法,在时间轴上进行局部的延伸或缩短,以计算时间序列间的相似性。
动态时间规整方法在时间轴上进行局部的延伸或缩短,以计算时间序列间的相似性,若需要计算相似度的两个时间序列为X和Y,长度为|X|和|Y|,i表示X中的i时刻交通流密度,j表示Y中的j时刻交通流密度,则归整路径W定义为:
W=w1,w2,...,wk,Max(|X|,|Y)≤k≤|X|+|Y|
式中:w1=(1,1),wk=(|X|,|Y|);
从(1,1)到(i,j)累积的归整距离D(i,j)定义为:
D(i,j)=Dist(i,j)+Min[D(i-1,j),D(i,j-1),D(i-1,j-1)]
式中:Dist(i,j)表示Xi,Yj两点间的距离;
使用动态规划求解,得到归整路径距离D(|X|,|Y|);
所述的K-Means聚类,对各交通流密度切片按照相似性(动态时间规整度量)分类,得到交通流序列的多种典型序列,整合出N个聚类簇和聚类中心。所述N值可以根据预测需求制定。
步骤S12,搭建面向时间段的LSTM神经网络,将神经网络的输入数据按指定滑窗长度进行时间序列滑窗处理、拼接处理与正规化处理。
所述时间序列滑窗处理为:
若聚类簇中的交通流密度切片数据表示为{S1,S2,...,Sn},交通流密度切片长为time_span,滑窗长度为seq_len,先将Si(i=1,...,n)与未切片的交通流密度数据集中时间逻辑上对应的前seq_len-1个交通流密度值拼接起来,记作
Figure BDA0002942843750000081
再对
Figure BDA0002942843750000082
进行时间序列窗口大小为seq_len、滑窗步长为1的时间序列滑窗处理;
拼接处理为:
记x为滑窗切割出的交通流密度切片,y为切片下一时刻的交通流密度值;
则得到交通流密度滑窗数据集表示为:
{(xi,yi)}1≤i≤n×time_span
正规化处理为:对{x0,...,xn},正规化后的交通流密度定义为:
Figure BDA0002942843750000083
其中xk∈{x0,...,xn};
正规化后的交通流密度滑窗数据集合就是神经网络中接收的数据
Figure BDA0002942843750000084
步骤S13,取N个聚类簇的数据,分别训练N个LSTM神经网络。
如图3所示,调参阶段包括如下步骤:
步骤S21,对验证集数据进行预处理,具体包括:
设滑窗长度为seq_len,对验证集内每条序列进行时间序列窗口大小为seq_len、滑窗步长为1的时间序列滑窗处理,然后进行与S12一样的拼接处理和正规化处理。
步骤S22,将处理后的数据按给定标准输入L个神经网络(L<N),并对L个预测结果进行反正规化操作和加权求和。
所述神经网络由1或2层(可调参数)LSTM层,LSTM层后的Dropout层和最后一层全连接层组成,全连接层的激活函数是线性函数,网络使用Adam优化器,每接收seq_len长的交通流密度,将输出1个交通流密度值作为下一时刻的预测值。
所述给定标准,一种以时间标签为标准,一种以与聚类中心的距离为标准。
所述以时间标签为标准,即首选判断输入数据的时间标签,再挑选具备相同时间标签的神经网络。若一神经网络的训练集中不含此时间标签,则不将数据输入此神经网络。
所述以与聚类中心的距离为标准,即计算输入数据与各神经网络对应聚类簇的聚类中心的DTW距离,当距离小于给定阈值时挑选此网络进行预测。
以上数据输入过程选择与待预测数据模式类似的数据训练出来的神经网络,充分利用了交通流密度序列的数据结构特点,具有较强的针对性;忽略模式相似性弱的神经网络,节省了计算量。
所述反正规化操作,即将预测结果
Figure BDA0002942843750000091
按如下公式转换为{x0,...,xn}:
Figure BDA0002942843750000092
其中xk∈{x0,...,xn};
所述加权求和也有两种方法,分别与两种输入时的给定标准对应。
以时间标签为标准时,设反正规化后的L个预测结果为y1,...,yL,在第k个神经网络对应的聚类簇中,与输入数据时间标签相同的切片共有Nk个,而训练集中含该时间标签的总切片数为N,则第k个神经网络输出预测值的权重为:
Figure BDA0002942843750000093
以与聚类中心的距离为标准时,若输入数据与聚类中心
Figure BDA0002942843750000094
的DTW距离依次递减,且对应的预测结果为y1,...,yL,则:
c1≤...≤cL
c1+...+cL=1
最终,加权所得的预测值为:
Figure BDA0002942843750000101
步骤S23,利用过往数据对加权求和结果进行修正,输出最终预测结果。
若神经网络输入数据在指定修正时间段内,且有n个与神经网络输入数据所在工作日类型相同的过往时间序列数据{p0,...,pn-1},加权后的交通流密度预测值为Ow,则修正后交通流密度预测值O定义为:
Figure BDA0002942843750000102
式中:α表示相似日修正系数,d为修正天数范围,均可调整。
步骤S24,调整参数,重新用训练集数据进行聚类和神经网络训练,然后重复S22、S23并进行误差分析。
所述误差分析包括对三个指标MAE,MAPE和MSE的计算,定义如下:
Figure BDA0002942843750000103
Figure BDA0002942843750000104
Figure BDA0002942843750000105
式中:y表示交通流密度的真实值,O表示交通流密度的预测值,N表示交通流密度预测值的数量。
步骤S25,重复步骤S24多次,最终保留使三个指标相对表现最好的参数作为模型参数。
如图4所示,测试阶段进行测试,对预测结果与真实值进行分析,例证模型有效性。具体步骤为:
步骤S31,对测试集数据进行同S21的预处理操作;
步骤S32,将处理后的测试集数据以时间标签或与聚类中心的距离为标准输入L个神经网络(L<N),并对L个预测结果进行反正规化操作和加权求和,利用过往数据对加权求和结果进行修正,输出最终预测结果;
步骤S33,重新用训练集数据进行聚类、神经网络训练,再进行步骤S32;
步骤S34,将步骤S33重复M遍,计算修正预测值与真实值的MAE、MSE、MAPE的均值(Mean)与标准差(Std),以模拟真实情况下模型的预测效果。
本发明的有效性可进一步通过以下仿真实验来例证。需要指出,实验中应用的参数不影响本发明的一般性。
1)仿真条件:
8G内存、128G硬盘、Intel Core i3-8750H处理器、操作***Windows、仿真软件SQL、SPSS、Jupyter Notebook。
2)仿真内容:
使用滴滴盖亚数据开放平台的KDD CUP 2020数据集进行分析建模。选取成都市的局部区域,时间范围为2016年11月1日至11月30日,原始的车辆轨迹数据隔2-4秒记录,将原始数据合并为2分钟时间间隔,用所述方法对数据进行正规化。实验将11月1日至11月28日的交通流密度数据作为训练集,11月29日的交通流密度数据作为验证集,11月30日的交通流密度数据作为测试集。
将本发明方法提出的模型(记为TPO)与经典的时间序列预测模型作对比,包括循环神经网络LSTM(记为C)。TPO与C皆在验证集上进行了调参工作,得到了各自的最佳参数。
对11月30日局部区域的交通流密度进行预测,并进行误差分析,结果如表1所示。
本发明对比于C算法,MAE在均值上少3.3×104,标准差上少6×107;MAPE在均值上少0.09,标准差上少0.014,证明了本发明对交通流密度预测的精度和稳定性都有所提升。
表1各预测模型的表现对比
Figure BDA0002942843750000111
以上对本发明的具体实施进行了描述。需要理解的是,以上所述仅为本发明的具体实施案例,不用于限制本发明,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。

Claims (5)

1.一种面向时间段的LSTM交通流密度预测方法,其特征在于,包括:数据处理阶段、训练阶段、调参阶段和测试阶段;
其中数据处理阶段具体包括:选取研究区域,从采集的车辆轨迹信息中选取与该研究区域有交集的部分,按交通流密度公式计算得到区域内各车辆的交通流密度数据集,将交通流密度数据集划分为训练集、验证集和测试集;
所述的车辆轨迹信息来源于网络数据集;
所述的研究区域为城市交通热点区域;
获取的车辆轨迹信息为经过间隔时间采集的机动车轨迹点数;
将选取研究区域内的指定间隔时间内的轨迹点数量进行累加,得到各路段指定间隔时间的交通流密度数据集,所述指定间隔时间根据预测需求制;
若指定间隔时间为Δt,间隔时间内车辆轨迹点在研究区域出现频数为n',则交通流密度数据定义为:
Figure FDA0003609452510000011
将交通流密度数据集划分为训练集、验证集和测试集;训练阶段包括如下步骤:
步骤S11,对训练集中的交通流密度数据按给定的长度进行分割,得到时间序列切片,并记录其时间标签,利用动态时间规整方法计算时间序列切片间的相似性,并通过K-Means聚类方法对各交通流密度切片按照相似性分类,得到N个聚类簇及对应的时间标签;
步骤S12,搭建面向时间段的LSTM神经网络,将神经网络的输入数据按指定长度进行时间序列滑窗处理、拼接处理与正规化处理;
步骤S13,取N个聚类簇的数据,分别训练N个LSTM神经网络;
调参阶段包括如下步骤:
步骤S21,对验证集数据进行预处理,具体包括:
设滑窗长度为seq_len,对验证集内每条序列进行时间序列窗口大小为seq_len、滑窗步长为1的时间序列滑窗处理,然后进行拼接处理和正规化处理;
步骤S22,将处理后的验证集数据按给定标准输入L个神经网络,L<N,并对L个预测结果进行反正规化操作和加权求和;
步骤S23,利用过往数据对加权求和结果进行修正,输出最终预测结果;
步骤S23的具体实现方式如下;
若有m个与输入数据所在工作日类型相同的过往时间序列数据{p0,…pj ,…,pm-1},加权后的交通流密度预测值为Ow,则修正后交通流密度预测值O定义为:
Figure FDA0003609452510000021
式中:α表示相似日修正系数,d为修正天数范围;
步骤S24,调整参数,重新用训练集数据进行聚类和神经网络训练,然后重复S22、S23并进行误差分析;
步骤S25,重复步骤S24多次,最终保留使误差分析中相对表现最好的参数作为模型参数;
测试阶段包括如下步骤:
步骤S31,对测试集数据进行同步骤S21的预处理操作;
步骤S32,将处理后的测试集数据按给定标准输入L个神经网络,L<N,并对L个预测结果进行反正规化操作和加权求和,利用过往数据对加权求和结果进行修正,输出最终预测结果;
步骤S33,重新利用训练集数据进行聚类、神经网络训练,再进行步骤S32;
步骤S34,重复执行步骤S33 M遍,预测得到交通流密度。
2.根据权利要求1所述的一种面向时间段的LSTM交通流密度预测方法,其特征在于:步骤S12中对输入数据按指定长度进行时间序列滑窗处理、拼接处理与正规化处理的具体实现方式如下;
所述时间序列滑窗处理为:
若聚类簇中的交通流密度切片数据表示为{S1,S2,...,Sn},交通流密度切片长为time_span,滑窗长度为seq_len,先将Si与未切片的交通流密度数据集中时间逻辑上对应的前seq_len-1个交通流密度值拼接起来,记作
Figure FDA0003609452510000022
再对
Figure FDA0003609452510000023
进行时间序列窗口大小为seq_len、滑窗步长为1的时间序列滑窗处理,i=1,…,n;
拼接处理为:
记x为滑窗切割出的交通流密度切片,y为切片下一时刻的交通流密度值;
则得到交通流密度滑窗数据集表示为:
{(xa,ya)}1≤a≤n×time_span
正规化处理为:对{xa,1,...,xa,seq_len}进行正规化处理,正规化后的交通流密度定义为:
Figure FDA0003609452510000031
其中l=1,...,seq_len;
正规化后的交通流密度滑窗数据集合就是神经网络中接收的数据
Figure FDA0003609452510000032
3.根据权利要求2所述的一种面向时间段的LSTM交通流密度预测方法,其特征在于:步骤S22中所述给定标准分为两种,一种是以时间标签为标准,一种是以与聚类中心的距离为标准;
所述以时间标签为标准,即首先判断输入数据的时间标签,再挑选具备相同时间标签的神经网络,若一神经网络的训练集中不含此时间标签,则不将数据输入此神经网络;
所述以与聚类中心的距离为标准,即计算输入数据与各神经网络对应聚类簇的聚类中心的DTW距离,当距离小于给定阈值时挑选此神经网络进行预测;
所述反正规化操作,即将预测结果进行反正规化操作得到y1,...,yL, 反正规化操作与正规化操作的方式相反;
所述加权求和也分为两种,分别与两种输入时的给定标准对应;
以时间标签为标准时,设反正规化后的L个预测结果为y1,...,yL,在第k个神经网络对应的聚类簇中,与输入数据时间标签相同的切片共有Nk个,而训练集中含该时间标签的总切片数为N,则第k个神经网络输出预测值的权重为:
Figure FDA0003609452510000033
其中k的取值为1-L;
以与聚类中心的距离为标准时,若输入数据与聚类中心
Figure FDA0003609452510000034
的DTW距离依次递减,且对应的预测结果为y1,...,yL,则:
c1≤...≤ck≤...≤cL
c1+...+ck+...+cL=1
最终,加权所得的预测值为:
Figure FDA0003609452510000035
其中k的取值为1-L。
4.根据权利要求1所述的一种面向时间段的LSTM交通流密度预测方法,其特征在于:步骤S24中误差分析包括对三个指标MAE,MAPE和MSE的计算,定义如下:
Figure FDA0003609452510000041
Figure FDA0003609452510000042
Figure FDA0003609452510000043
式中:y表示交通流密度的真实值,O表示交通流密度的预测值,N表示交通流密度预测值的数量。
5.根据权利要求1所述的一种面向时间段的LSTM交通流密度预测方法,其特征在于:步骤S34中计算修正预测值与真实值的MAE、MSE、MAPE的均值与标准差,以模拟真实情况下的预测效果。
CN202110185310.5A 2021-02-10 2021-02-10 一种面向时间段的lstm交通流密度预测方法 Active CN112884222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110185310.5A CN112884222B (zh) 2021-02-10 2021-02-10 一种面向时间段的lstm交通流密度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110185310.5A CN112884222B (zh) 2021-02-10 2021-02-10 一种面向时间段的lstm交通流密度预测方法

Publications (2)

Publication Number Publication Date
CN112884222A CN112884222A (zh) 2021-06-01
CN112884222B true CN112884222B (zh) 2022-06-14

Family

ID=76056434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110185310.5A Active CN112884222B (zh) 2021-02-10 2021-02-10 一种面向时间段的lstm交通流密度预测方法

Country Status (1)

Country Link
CN (1) CN112884222B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570004B (zh) * 2021-09-24 2022-01-07 西南交通大学 一种乘车热点区域预测方法、装置、设备及可读存储介质
CN115457764B (zh) * 2022-08-24 2023-07-18 华南理工大学 基于车辆轨迹数据的路段交通密度估测方法、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701571A (zh) * 2016-01-13 2016-06-22 南京邮电大学 一种基于神经网络组合模型的短时交通流量预测方法
CN109377752A (zh) * 2018-10-19 2019-02-22 桂林电子科技大学 短时交通流变化预测方法、装置、计算机设备及存储介质
CN110889546A (zh) * 2019-11-20 2020-03-17 浙江省交通规划设计研究院有限公司 一种基于注意力机制的交通流量模型训练方法
CN111292534A (zh) * 2020-02-13 2020-06-16 北京工业大学 一种基于聚类与深度序列学习的交通状态估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701571A (zh) * 2016-01-13 2016-06-22 南京邮电大学 一种基于神经网络组合模型的短时交通流量预测方法
CN109377752A (zh) * 2018-10-19 2019-02-22 桂林电子科技大学 短时交通流变化预测方法、装置、计算机设备及存储介质
CN110889546A (zh) * 2019-11-20 2020-03-17 浙江省交通规划设计研究院有限公司 一种基于注意力机制的交通流量模型训练方法
CN111292534A (zh) * 2020-02-13 2020-06-16 北京工业大学 一种基于聚类与深度序列学习的交通状态估计方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Cluster-Based LSTM Network for Short-Term Passenger Flow Forecasting in Urban Rail Transit;Jinlei Zhang,etc;《IEEE》;20190917;第7卷;全文 *
Short-Term Traffic Flow Prediction using DTW-BiGRU Model;Hanyi Zou,etc;《2020 35th Youth Academic Annual Conference of Chinese Association of Automation (YAC)》;20210205;全文 *
基于LSTM的船舶航迹预测模型;权波等;《计算机科学》;20181115;全文 *
基于卷积循环神经网络的城市区域车流量预测模型;薛佳瑶等;《信息工程大学学报》;20190415(第02期);全文 *
基于时空关联度加权的LSTM短时交通速度预测;刘易诗等;《地理信息世界》;20200225(第01期);全文 *

Also Published As

Publication number Publication date
CN112884222A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN107610464B (zh) 一种基于高斯混合时间序列模型的轨迹预测方法
CN110097755B (zh) 基于深度神经网络的高速公路交通流量状态识别方法
Chen et al. Traffic flow prediction based on deep learning in internet of vehicles
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
Zheng et al. Composite quantile regression extreme learning machine with feature selection for short-term wind speed forecasting: A new approach
CN110570651A (zh) 一种基于深度学习的路网交通态势预测方法及***
CN113902011A (zh) 基于循环神经网络的城市轨道交通短时客流预测方法
CN112884222B (zh) 一种面向时间段的lstm交通流密度预测方法
CN111105104A (zh) 一种基于相似日和rbf神经网络的短期电力负荷预测方法
CN112686464A (zh) 短期风电功率预测方法及装置
CN112396234A (zh) 一种基于时域卷积神经网络的用户侧负荷概率预测方法
CN112966871A (zh) 基于卷积长短期记忆神经网络的交通拥堵预测方法及***
CN114548592A (zh) 一种基于cemd和lstm的非平稳时间序列数据预测方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN115496257A (zh) 基于时空融合的短时车速预测
CN113436433A (zh) 一种高效的城市交通离群值检测方法
CN115269758A (zh) 面向乘客诱导的路网客流状态推演方法及***
Wibawa et al. Long Short-Term Memory to Predict Unique Visitors of an Electronic Journal
Yang et al. A carbon price hybrid forecasting model based on data multi-scale decomposition and machine learning
CN112330051A (zh) 一种基于Kmeans与FR-DBN的短期负荷预测方法
Dhole et al. An ensemble approach to multi-source transfer learning for air quality prediction
Mead Hybrid CNN and LSTM Model (HCLM) for Short-Term Traffic Volume Prediction
CN113657533B (zh) 一种面向时空场景构建的多元时间序列分割聚类方法
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN
Liang et al. Forecasting tourist arrivals using dual decomposition strategy and an improved fuzzy time series method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant