CN114120637A - 一种基于连续监测器的智慧高速交通流量预测方法 - Google Patents
一种基于连续监测器的智慧高速交通流量预测方法 Download PDFInfo
- Publication number
- CN114120637A CN114120637A CN202111311231.0A CN202111311231A CN114120637A CN 114120637 A CN114120637 A CN 114120637A CN 202111311231 A CN202111311231 A CN 202111311231A CN 114120637 A CN114120637 A CN 114120637A
- Authority
- CN
- China
- Prior art keywords
- data
- traffic flow
- time
- feature
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000001364 causal effect Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 239000010410 layer Substances 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011144 upstream manufacturing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013524 data verification Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 238000013467 fragmentation Methods 0.000 claims description 3
- 238000006062 fragmentation reaction Methods 0.000 claims description 3
- 239000011229 interlayer Substances 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/048—Detecting movement of traffic to be counted or controlled with provision for compensation of environmental or other condition, e.g. snow, vehicle stopped at detector
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的一种基于连续监测器的智慧高速交通流量预测方法,属于交通流量预测技术领域,高速公路门架采集实时交通流量数据,针对历史流量数据建立特征工程获取多维特征,通过线性和非线性方法进行特征选择,建立基于TCN+GBDT的网络模型,采用历史大数据进行训练,模型可对下一时间间隔交通流量进行预测。本方法较传统模型驱动方法、基于纯序列特征的神经网络方法、基于单一RNN类神经网络等方法提高了预测精度。
Description
技术领域
本发明属于交通流量预测技术领域,更具体来说,涉及一种基于连续监测器的智慧高速交通流量预测方法。
背景技术
随着交通智能化水平的提高,大数据、人工智能技术的快速发展,使得及时、有效的获取交通流量实时数据成为现实,海量的历史数据为交通流量预测提供了坚实的数据基础,为了充分发挥智能交通设备的作用以及最大化利用海量历史数据,更好的服务交通管理和控制,众多专家学者在交通流量预测领域开展了大量研究。
在过往研究中,交通流量预测模型主要存在两种模式:模型驱动和数据驱动。
模型驱动也被称为参数方法,典型模型有历史平均模型(HA)、时间序列模型(ARIMA)、卡尔曼滤波模型等。这类方法寻求一种准确的交通流数学模型进行预测,然而,由于交通流的随机性和非线性特征,难以建立固定的数学模型;
数据驱动也被称为非参数方法,主要采用了机器学习方法,支持向量机(SVM)、贝叶斯、K近邻(KNN)、随机森林,以及一些组合算法如卡尔曼滤波模型+SVM、随机森林+遗传算法等等,相比模型驱动方法,数据驱动方法可以从历史交通数据中学习统计规律,但处理高维度复杂数据以及海量数据时,难以高精度地拟合交通流多因素耦合的复杂非线性特征。
随着硬件水平的提高,学者开始采用深度学习方法代替机器学习方法,如人工神经网络(ANN)、循环神经网络(RNN)及其衍生子类长短时记忆神经网络(LSTM)、门控神经网络(GRU)等,以及一些组合,深度学习方法+模型驱动方法,如RNN+ARIMA、深度学习方法+机器学习方法,如K-means+GRU、深度学习方法+深度学习方法,如CNN+LSTM,深度学习模型通过其强大的非线性拟合和深层特征表达能力可以更精准地表达交通流数据内部的复杂结构。
RNN类神经网络及其衍生子类LSTM、GRU等神经网络是当前最为主流的交通流量预测方法,尽管在多数情况下的预测效果已经较模型驱动方法或机器学习方法有了长足进步,但仍然在以下几个方面存在问题:
(1)多数模型通常仅以单一变量如交通流量序列数据,对交通流量进行预测,忽略多个因素对于交通流量的影响,如天气等,导致对恶劣天气情况下的预测精度不准;
(2)RNN类以及衍生子类LSTM、GRU等,都是循环结构,因此在计算当前的输出时,必须等待之前的神经元完成计算,将隐含层状态传递之后才能继续向前。因此,循环结构的网络模型无法像CNN架构大规模并行计算,对效率有要求的场景不适用;
(3)模型着重于时间维度的学习,在空间维度上,各个节点之间交通流量也存在相互影响。
为此,基于以上现状,提出一种基于连续监测器的智慧高速交通流量预测方法。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决上述的缺陷。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种基于连续监测器的智慧高速交通流量预测方法,该方法包括以下步骤:
S1,采集m个高速公路检测器实时交通流量数据;
S2,对采集的数据进行预处理;
S3,对预处理后的数据进行特征工程得到若干个特征;
S4,对得到的若干个特征进行特征选择;
S5,建立TCN-GBDT模型;
S6,对模型进行训练;
S7,预测交通流量。
优选的,步骤S2的预处理包括如下内容:
S2.1,缺失值处理,是对步骤S1中数据不满足数据量Q的情况,采用KNN进行数据补全,k值通过n折交叉验证计算得到,距离采用标准欧式距离:
其中,x1k是指分量1数据,x2k是指分量2数据,sk是指分量标准差;
S2.2,数据核验,是对步骤S1中数据是否满足按照1min统计数据量Q的核验,此外,还包括核验数据中是否包含特殊占道时段,如包括则删除该时段数据:
其中,tb为采集数据开始时间,tf为采集数据结束时间,时间都以时间戳表示;
S2.3,归一化,是对步骤S1中补全后的数据进行标准化处理:
其中,xi为当前数据,xmin为当前向量最小值,xmax为当前向量最大值。
优选的,步骤S3中的特征包括如下内容:
时间特征:节假日、星期、时间段;
数据统计特征:交通流量统计序列、行车速度、空间占有率、时间占有率;
关联路段特征:上游主路交通流量、下游主路交通流量、上游匝道交通流量、下游匝道交通流量;
环境特征:温度、湿度、能见度、天气、风力、空气质量;
事故情况:事故次数统计、接警次数统计、出警次数统计;
特殊事件:重大会议、庆典等次数;
其中,除时间特征和环境特征外,其他特征按照上周同期、上月同期、去年同期、近一年平均、近一月平均、近一周平均、近一天平均、近一小时平均为时间单位统计;
时间特征、环境特征中的天气取one-hot向量,对其他特征按照步骤S2中归一化方法处理。
输入数据由历史数据的门架标志、时间特征、天气特征、前n个序列等多维数据组成,形成i*j的矩阵X,:
其中,i表示数据条数,j表示特征数量。
优选的,步骤S4中的特性选择包括线性特征选择和非线性特征选择,分别如下:
线性特征选择:通过皮尔森相关系数计算,皮尔森相关系数是一种线性相关系数,用来反映两个变量的线性相关程度,其值介于-1到1之间,绝对值越大表明相关性越强:
其中,Cov(X,Y)为X和Y的协方差,σX和σY分别为X和Y的标准差,μX是X的平均值,μY是Y的平均值,E为期望;
非线性特性选择:在随机森林迭代过程中使用基尼系数作为评价指标来衡量。将变量重要性评分用VIM表示,将基尼系数用GI表示,假设有m个特征X1,X2,X3,...,Xm,计算每个特征Xj的基尼系数评分VIMj Gini,亦即第j个特征在所有决策树中节点***不纯度的平均改变量,评分越高,说明该特征越值得保留。
基尼系数计算公式:
其中,K表示类别,pmk表示节点m中随机抽取两个样本,其类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分枝前后的基尼系数变化量为
VIMjm Gini=GIm-GIl-GIr
其中,GIl和GIr分别表示分枝后两个新节点的基尼系数
如果特征Xj在决策树i中出现的节点集合为M,那么Xj在第i颗树的重要性为
假设随机森林中共有n颗树,那么
最后,把所有求得的重要性评分做一个归一化处理即可
优选的,线性特征选择和非线性特征选择均设有阈值,线性特征阈值设为γ1,非线性特征阈值设为γ2,对满足γ1或者γ2的特征计算结果行步骤S5。
优选的,步骤S5的具体内容为输入数据为经过特征选择的矩阵X,包括i个时刻,j个特征:
简单因果卷积网络的感受野与网络深度呈线性关系,学习长时间序列依赖关系时网络会变得非常深,引入扩张卷积以减少简单因果卷积的深度,d为扩张卷积的系数:
引入残差单元模块以解决网络优化问题,如梯度消散,梯度***等;
通过TCN网络自适应提取特征数据,将其作为梯度提升树(GDBT)的输入,通过GDBT对交通流量进行预测。GBDT可看成是由K棵树组成的加法模型,其中F为所有树组成的函数空间,xti对应TCN中间层输出输入是TCN的隐层数据。
优选的,步骤S6的具体内容为对于第t个时刻,第m个门架,将前m-1个门架第t时刻前的特征数据等作为模型输入,第t个时刻、第m个门架实际交通流量数据作为模型输出,对模型进行训练。
优选的,步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量,需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入,输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
(1)本发明在特征上综合时间、数据统计、关联路段、环境、事故情况、特殊事件等多维特征,考虑多个因素对交通流量的影响,提高了模型预测精度。
(2)本发明在特征上基于线性和非线性方法进行了特征选择,相比全部特征进行训练,在训练效率和针对性上有了提高。
(3)本发明选择了TCN神经网络模型,相比当前主流预测模型RNN类以及衍生子类LSTM、GRU等无法并行计算的缺点,在计算效率上有了显著提升。
本发明在TCN神经网络隐藏层计算后输出数据作为GBDT输入,GBDT参数少、训练过程稳定,提高模型整体鲁棒性。
附图说明
图1为本发明的一种基于连续监测器的智慧高速交通流量预测方法的流程示意图;
图2为本发明的一种基于连续监测器的智慧高速交通流量预测方法的60min时间间隔交通流量预测的拟合图;
图3为本发明的一种基于连续监测器的智慧高速交通流量预测方法的15min时间间隔交通流量预测的拟合图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
参照附图1-图3所示,其中,source data为原始观测统计数据,train data为使用本发明模型训练学习阶段的拟合数据,test data为使用本发明模型针对未知数据进行预测的数据,对于预测阶段,test data与source data的拟合度越高,则说明模型的泛化能力越强,图2中60min时间间隔表示每个数据时间步长为60min,图3中15min时间间隔表示每个数据时间步长为15min。
本实施例的一种基于连续监测器的智慧高速交通流量预测方法,该方法包括以下步骤:
S1,采集m个高速公路检测器实时交通流量数据;
S2,对采集的数据进行预处理;
S3,对预处理后的数据进行特征工程得到若干个特征;
S4,对得到的若干个特征进行特征选择;
S5,建立TCN-GBDT模型;
S6,对模型进行训练;
S7,预测交通流量。
本实施例的步骤S2的预处理包括如下内容:
S2.1,缺失值处理,是对步骤S1中数据不满足数据量Q的情况,采用KNN进行数据补全,k值通过n折交叉验证计算得到,距离采用标准欧式距离:
其中,x1k是指分量1数据,x2k是指分量2数据,sk是指分量标准差;
S2.2,数据核验,是对步骤S1中数据是否满足按照1min统计数据量Q的核验,此外,还包括核验数据中是否包含特殊占道时段,如包括则删除该时段数据:
其中,tb为采集数据开始时间,tf为采集数据结束时间,时间都以时间戳表示;
S2.3,归一化,是对步骤S1中补全后的数据进行标准化处理:
其中,xi为当前数据,xmin为当前向量最小值,xmax为当前向量最大值。
本实施例的步骤S3中的特征包括如下内容:
时间特征:节假日、星期、时间段;
数据统计特征:交通流量统计序列、行车速度、空间占有率、时间占有率;
关联路段特征:上游主路交通流量、下游主路交通流量、上游匝道交通流量、下游匝道交通流量;
环境特征:温度、湿度、能见度、天气、风力、空气质量;
事故情况:事故次数统计、接警次数统计、出警次数统计;
特殊事件:重大会议、庆典等次数;
其中,除时间特征和环境特征外,其他特征按照上周同期、上月同期、去年同期、近一年平均、近一月平均、近一周平均、近一天平均、近一小时平均为时间单位统计;
时间特征、环境特征中的天气取one-hot向量,对其他特征按照步骤S2中归一化方法处理。
输入数据由历史数据的门架标志、时间特征、天气特征、前n个序列等多维数据组成,形成i*j的矩阵X,:
其中,i表示数据条数,j表示特征数量。
本实施例的步骤S4中的特性选择包括线性特征选择和非线性特征选择,分别如下:
线性特征选择:通过皮尔森相关系数计算,皮尔森相关系数是一种线性相关系数,用来反映两个变量的线性相关程度,其值介于-1到1之间,绝对值越大表明相关性越强:
其中,Cov(X,Y)为X和Y的协方差,σX和σY分别为X和Y的标准差,μX是X的平均值,μY是Y的平均值,E为期望;
非线性特性选择:在随机森林迭代过程中使用基尼系数作为评价指标来衡量。将变量重要性评分用VIM表示,将基尼系数用GI表示,假设有m个特征X1,X2,X3,...,Xm,计算每个特征Xj的基尼系数评分VIMj Gini,亦即第j个特征在所有决策树中节点***不纯度的平均改变量,评分越高,说明该特征越值得保留。
基尼系数计算公式:
其中,K表示类别,pmk表示节点m中随机抽取两个样本,其类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分枝前后的基尼系数变化量为
VIMjm Gini=GIm-GIl-GIr
其中,GIl和GIr分别表示分枝后两个新节点的基尼系数
如果特征Xj在决策树i中出现的节点集合为M,那么Xj在第i颗树的重要性为
假设随机森林中共有n颗树,那么
最后,把所有求得的重要性评分做一个归一化处理即可
本实施例的线性特征选择和非线性特征选择均设有阈值,线性特征阈值设为γ1,非线性特征阈值设为γ2,对满足γ1或者γ2的特征计算结果行步骤S5。
本实施例的步骤S5的具体内容为输入数据为经过特征选择的矩阵X,包括i个时刻,j个特征:
简单因果卷积网络的感受野与网络深度呈线性关系,学习长时间序列依赖关系时网络会变得非常深,引入扩张卷积以减少简单因果卷积的深度,d为扩张卷积的系数:
引入残差单元模块以解决网络优化问题,如梯度消散,梯度***等;
通过TCN网络自适应提取特征数据,将其作为梯度提升树(GDBT)的输入,通过GDBT对交通流量进行预测。GBDT可看成是由K棵树组成的加法模型,其中F为所有树组成的函数空间,xti对应TCN中间层输出输入是TCN的隐层数据。
本实施例的步骤S6的具体内容为对于第t个时刻,第m个门架,将前m-1个门架第t时刻前的特征数据等作为模型输入,第t个时刻、第m个门架实际交通流量数据作为模型输出,对模型进行训练,将输入数据分为训练集数据和验证集数据,数据量占比分别为80%、20%。
采用Adam优化器;
其中,gt表示第t时间步的梯度,α表示学习率;
对模型进行迭代训练和验证,采用RMSE、MAE、MA等评估指标来测量预测方法效果:
本实施例的步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量,需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入,输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。交通流量。
xpr=xp*(xmax-xmin)+xmin
其中xp表示输出预测值,xpr表示反归一化后预测值
以下内容针对上文的步骤作补充说明
本发明具体实施环境:在深度神经网络部分采用pyTorch框架,具体开发环境为pyCharm。
本发明数据源:沪宁高速G42K1104+400000002桩号开始连续5个门架持续1年的交通流量数据。
本发明相关模型参数:经过多轮试验比较,最终参数确定为数据补全过程中KNN中K为3,TCN中因果卷积卷积核大小为4,GBDT树深度为12,第i个卷积块的扩展因子d=2i-1,卷积块设置为5,训练过程中学习率为0.01,批量为64,训练周期为3000。
本发明预测过程:
(1)原始数据采集
表1采集数据
(2)数据预处理
缺失值处理:采用KNN进行数据补全
数据核验:核验数据是否满足按照1min统计
归一化:将所有数据压缩至0-1之间
(3)特征工程
表2特征字段
(4)特征选择
根据皮尔森相关系数和梯度提升树(GDBT)进行特征选择
表3特征选择结果
(5)建立TCN-GBDT模型
经过特征选择后,将多个时间时刻组合,数据形式如下,其中j为此时特征数量21:
经过TCN网络中间层输出数据形式同上,其中j为此时隐藏层神经元数量64:
经过GBDT预测交通流量数据得到
Y=[y1,y2,...,yti]
(6)对模型进行训练
(7)对模型进行预测
输入特征序列,其中j为21,即特征选择后的特征数量
输出反归一化后即为下一时刻预测交通流量,具体输出标准依赖训练阶段标签交通流量量级:训练标签为分钟级别流量,则输出为分钟级别预测流量,以此类推。
本发明预测结果:表4是本发明和和使用其他模型测试的结果,实验结果说明本发明优于其他对比算法。
表4本发明和其他模型的预测结果对比
以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,该方法包括以下步骤:
S1,采集m个高速公路检测器实时交通流量数据;
S2,对采集的数据进行预处理;
S3,对预处理后的数据进行特征工程得到若干个特征;
S4,对得到的若干个特征进行特征选择;
S5,建立TCN-GBDT模型;
S6,对模型进行训练;
S7,预测交通流量。
2.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,所述步骤S2的预处理包括如下内容:
S2.1,缺失值处理,是对步骤S1中数据不满足数据量Q的情况,采用KNN进行数据补全,k值通过n折交叉验证计算得到,距离采用标准欧式距离:
其中,x1k是指分量1数据,x2k是指分量2数据,sk是指分量标准差;
S2.2,数据核验,是对步骤S1中数据是否满足按照1min统计数据量Q的核验,此外,还包括核验数据中是否包含特殊占道时段,如包括则删除该时段数据:
其中,tb为采集数据开始时间,tf为采集数据结束时间,时间都以时间戳表示;
S2.3,归一化,是对步骤S1中补全后的数据进行标准化处理:
其中,xi为当前数据,xmin为当前向量最小值,xma0为当前向量最大值。
3.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,所述步骤S3中的特征包括如下内容:
时间特征:节假日、星期、时间段;
数据统计特征:交通流量统计序列、行车速度、空间占有率、时间占有率;
关联路段特征:上游主路交通流量、下游主路交通流量、上游匝道交通流量、下游匝道交通流量;
环境特征:温度、湿度、能见度、天气、风力、空气质量;
事故情况:事故次数统计、接警次数统计、出警次数统计;
特殊事件:重大会议、庆典等次数;
其中,除时间特征和环境特征外,其他特征按照上周同期、上月同期、去年同期、近一年平均、近一月平均、近一周平均、近一天平均、近一小时平均为时间单位统计;
时间特征、环境特征中的天气取one-hot向量,对其他特征按照步骤S2中归一化方法处理。
输入数据由历史数据的门架标志、时间特征、天气特征、前n个序列等多维数据组成,形成i*j的矩阵X,:
其中,i表示数据条数,j表示特征数量。
4.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于,所述步骤S4中的特性选择包括线性特征选择和非线性特征选择,分别如下:
线性特征选择:通过皮尔森相关系数计算,皮尔森相关系数是一种线性相关系数,用来反映两个变量的线性相关程度,其值介于-1到1之间,绝对值越大表明相关性越强:
其中,Cov(X,Y)为X和Y的协方差,σX和σY分别为X和Y的标准差,μX是X的平均值,μY是Y的平均值,E为期望;
非线性特性选择:在随机森林迭代过程中使用基尼系数作为评价指标来衡量。将变量重要性评分用VIM表示,将基尼系数用GI表示,假设有m个特征X1,X2,X3,...,Xm,计算每个特征Xj的基尼系数评分VIMj Gini,亦即第j个特征在所有决策树中节点***不纯度的平均改变量,评分越高,说明该特征越值得保留。
基尼系数计算公式:
其中,K表示类别,pmk表示节点m中随机抽取两个样本,其类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分枝前后的基尼系数变化量为
VIMjm Gini=GIm-GIl-GIr
其中,GIl和GIr分别表示分枝后两个新节点的基尼系数
如果特征Xj在决策树i中出现的节点集合为M,那么Xj在第i颗树的重要性为
假设随机森林中共有n颗树,那么
最后,把所有求得的重要性评分做一个归一化处理即可得到特征得分
5.根据权利要求4所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述线性特征选择和非线性特征选择均设有阈值,所述线性特征阈值设为γ1,非线性特征阈值设为γ2,对满足γ1或者γ2的特征计算结果行步骤S5。
6.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述步骤S5的具体内容为输入数据为经过特征选择的矩阵X,包括i个时刻,j个特征:
简单因果卷积网络的感受野与网络深度呈线性关系,学习长时间序列依赖关系时网络会变得非常深,引入扩张卷积以减少简单因果卷积的深度,d为扩张卷积的系数:
引入残差单元模块以解决网络优化问题,如梯度消散,梯度***等;
通过TCN网络自适应提取特征数据,将其作为梯度提升树(GDBT)的输入,通过GDBT对交通流量进行预测。GBDT可看成是由K棵树组成的加法模型,其中F为所有树组成的函数空间,xti对应TCN中间层输出输入是TCN的隐层数据。
7.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述步骤S6的具体内容为对于第t个时刻,第m个门架,将前m-1个门架第t时刻前的特征数据等作为模型输入,第t个时刻、第m个门架实际交通流量数据作为模型输出,对模型进行训练。
8.根据权利要求1所述的一种基于连续监测器的智慧高速交通流量预测方法,其特征在于:所述步骤S7的具体内容为预测第t+1时刻、第m个门架的交通流量,需要将t+1时刻特征数据进行数据预处理和特征工程后作为模型输入,输出后进行反归一化即为第t+1时刻、第m个门架的预测交通流量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111311231.0A CN114120637A (zh) | 2021-11-05 | 2021-11-05 | 一种基于连续监测器的智慧高速交通流量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111311231.0A CN114120637A (zh) | 2021-11-05 | 2021-11-05 | 一种基于连续监测器的智慧高速交通流量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114120637A true CN114120637A (zh) | 2022-03-01 |
Family
ID=80381032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111311231.0A Pending CN114120637A (zh) | 2021-11-05 | 2021-11-05 | 一种基于连续监测器的智慧高速交通流量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114120637A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909748A (zh) * | 2023-01-07 | 2023-04-04 | 深圳市城市交通规划设计研究中心股份有限公司 | 节假日公路交通量预测方法、电子设备及存储介质 |
CN116504076A (zh) * | 2023-06-19 | 2023-07-28 | 贵州宏信达高新科技有限责任公司 | 基于etc门架数据的高速公路车流量预测方法 |
CN117423238A (zh) * | 2023-12-19 | 2024-01-19 | 北京华录高诚科技有限公司 | 基于卷积交换网络的交通流量一体式预测装置及预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170063893A1 (en) * | 2015-08-28 | 2017-03-02 | Cisco Technology, Inc. | Learning detector of malicious network traffic from weak labels |
CN111540199A (zh) * | 2020-04-21 | 2020-08-14 | 浙江省交通规划设计研究院有限公司 | 一种基于多模态融合和图注意力机制的高速交通流预测方法 |
CN112350899A (zh) * | 2021-01-07 | 2021-02-09 | 南京信息工程大学 | 一种基于图卷积网络融合多特征输入的网络流量预测方法 |
CN112468326A (zh) * | 2020-11-11 | 2021-03-09 | 北京工业大学 | 基于时间卷积神经网络的访问流量预测方法 |
-
2021
- 2021-11-05 CN CN202111311231.0A patent/CN114120637A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170063893A1 (en) * | 2015-08-28 | 2017-03-02 | Cisco Technology, Inc. | Learning detector of malicious network traffic from weak labels |
CN111540199A (zh) * | 2020-04-21 | 2020-08-14 | 浙江省交通规划设计研究院有限公司 | 一种基于多模态融合和图注意力机制的高速交通流预测方法 |
CN112468326A (zh) * | 2020-11-11 | 2021-03-09 | 北京工业大学 | 基于时间卷积神经网络的访问流量预测方法 |
CN112350899A (zh) * | 2021-01-07 | 2021-02-09 | 南京信息工程大学 | 一种基于图卷积网络融合多特征输入的网络流量预测方法 |
Non-Patent Citations (2)
Title |
---|
WENTIAN ZHAO ET AL.: "Deep Temporal Convolutional Networks for Short-Term Traffic Flow Forecasting", 《IEEE ACCESS》 * |
魏梦媛: "基于时间卷积网络的城市快速路交通流量预测方法研究", 《中国优秀硕士论文全文数据库工程科技Ⅱ辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909748A (zh) * | 2023-01-07 | 2023-04-04 | 深圳市城市交通规划设计研究中心股份有限公司 | 节假日公路交通量预测方法、电子设备及存储介质 |
CN116504076A (zh) * | 2023-06-19 | 2023-07-28 | 贵州宏信达高新科技有限责任公司 | 基于etc门架数据的高速公路车流量预测方法 |
CN117423238A (zh) * | 2023-12-19 | 2024-01-19 | 北京华录高诚科技有限公司 | 基于卷积交换网络的交通流量一体式预测装置及预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161535B (zh) | 基于注意力机制的图神经网络交通流量预测方法及*** | |
CN111210633B (zh) | 一种基于深度学习的短时交通流预测方法 | |
CN114626512B (zh) | 一种基于有向图神经网络的高温灾害预报方法 | |
Shao et al. | Traffic flow prediction with long short-term memory networks (LSTMs) | |
CN114120637A (zh) | 一种基于连续监测器的智慧高速交通流量预测方法 | |
CN110046743B (zh) | 基于ga-ann的公共建筑能耗预测方法和*** | |
CN113094357B (zh) | 一种基于时空注意力机制的交通缺失数据补全方法 | |
CN109583565A (zh) | 基于注意力模型长短时记忆网络的洪水预测方法 | |
CN112087442B (zh) | 基于注意力机制的时序相关网络入侵检测方法 | |
CN110837888A (zh) | 一种基于双向循环神经网络的交通缺失数据补全方法 | |
CN111861013A (zh) | 一种电力负荷预测方法及装置 | |
CN113344288B (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN113591728A (zh) | 基于集成深度学习的电能质量扰动分类方法 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN111352977A (zh) | 基于自注意力双向长短期记忆网络的时序数据监测方法 | |
CN114580545A (zh) | 一种基于融合模型的风电机组齿轮箱故障预警方法 | |
CN115392554A (zh) | 基于深度图神经网络和环境融合的轨道客流预测方法 | |
CN112766603A (zh) | 一种交通流量预测方法、***、计算机设备及存储介质 | |
CN113947182A (zh) | 基于双阶段堆叠图卷积网络的交通流预测模型构建方法 | |
CN114548591A (zh) | 一种基于混合深度学习模型和Stacking的时序数据预测方法及*** | |
CN115481788B (zh) | 相变储能***负荷预测方法及*** | |
CN115293249A (zh) | 一种基于动态时序预测的电力***典型场景概率预测方法 | |
KR102177728B1 (ko) | 합성곱 신경망을 활용한 데이터 확장방법 및 장치 | |
CN116646927A (zh) | 一种基于分段滤波与纵横聚类的风电功率预测方法 | |
CN113282785B (zh) | 一种基于未标注关键词数据的关键词检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220301 |