CN109508751A

CN109508751A - 高速铁路列车晚点时间预测的深度神经网络模型建模方法

Info

Publication number: CN109508751A
Application number: CN201811487875.3A
Authority: CN
Inventors: 黄平; 文超; 李忠灿; 汤轶雄; 蒋朝哲
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-03-22
Anticipated expiration: 2038-12-06
Also published as: CN109508751B

Abstract

本发明公开了一种高速铁路列车晚点时间预测的深度神经网络模型建模方法，属于轨道交通的技术领域，结合相邻列车间具有明显相互作用关系及列车晚点具有时间序列以及非时间序列影响因素的特点，提出了包含循环神经网络以及全连接神经网络的深度神经网络模型；该模型中，晚点的非时间序列影响因素被输入全连接神经网络，时间序列影响因素被输入循环神将网络以利用其反馈机制学习到相邻列车间相互作用关系；以达到能够识别列车之间相互作用对列车晚点的影响，具有较高的预测精度，且具有较好的实际应用能力，其预测绝对误差与相对误差均低于支持向量回归模型、普通神经网络模型及马尔科夫等模型的最优预测结果。

Description

高速铁路列车晚点时间预测的深度神经网络模型建模方法

技术领域

本发明属于轨道交通的技术领域，具体而言，涉及一种高速铁路列车晚点时间预测的深度神经网络模型建模方法。

背景技术

我国高速铁路自2008年8月1日开始运营以来，短短十年的时间里获得了飞速发展，截止2017年底，我国高速铁路的运营里程已超过了2.5万公里，占全世界运营里程的66％以上，动车组开行比例也已经占到总旅客列车数的60％以上。高速铁路的运营，完善了铁路路网结构、消解了客货运输瓶颈与冲突、推动了铁路修建与技术装备的持续更新。

列车晚点情况下，调度员经验化的调度组织原则严重影响了我国高速铁路运输组织效率，提高列车晚点时间实时预测能力是提高高速铁路调度指挥水平的关键。准确地预测列车晚点时间，一方面能够使调度员较为准确地估计列车的运行状态，制定合理的行车指挥决策并指导客运及其他相关部门协同完成运输任务，在提高铁路行车指挥质量方面具有一定的实践意义；另一方面，将有助于旅客估计行程时间、制定新的旅行计划，是铁路部门向社会提供优质运输服务的保证。

列车晚点时间实时预测一直是铁路运输领域专家致力解决的热点问题。 2018年INFORMS铁路优化专题竞赛(The 2018Railroad Problem Solving Competition)也基于铁路运营数据与列车晚点预测进行。已有研究中，部分学者由于列车运行数据缺乏，主要致力于用时间-事件网络、排队模型来描述列车占用资源的次序，从而进行列车到发时刻的估计或使用列车运行仿真***来仿真列车运行。

Hansen等首先将时间-事件网络理论应用于列车区间运行时间以及车站到达时间预测。

随后，Kecman等在此基础上利用具有动态权重的时间-事件网络图来实现列车运行时刻的更精确估计。

Huisman等基于排队网络模型来预测列车平均晚点时间、连带晚点时间以及列车等待进路时间。

Fukami等针对日本高速铁路开发了列车运行仿真***，并最终于2003年将该***成功用于新干线列车晚点实时预测，为新干线高铁列车的调度指挥提供可靠决策支持。

杨肇夏等也基于列车晚点传播仿真***对我国不同铁路区段运行图稳定性进行了仿真分析，但该***并未成功应用于实际，且主要针对既有线。

马嘶等假设干扰服从左偏的β函数分布，以列车终到正点率、平均晚点时间、恢复率等为统计指标仿真研究了不同冗余时间布局对列车运行图稳定性的影响。

当列车实际运行数据充足时，学者主要利用统计分析或人工智能算法构建数据驱动模型。

在基于统计分析方法上，刘岩等利用京沪高速铁路一个半月的列车运行实际数据分析了列车实际区间运行时分和停站时分的分布特征以及区间运行时分与发车晚点、停站时分与到达晚点之间的关系。

孟令云等利用荷兰铁路运营数据，并基于轨道区段锁闭时间理论，提出了列车之间的晚点传播过程构建方法。

庄河等利用我国武广高速铁路故障历史记录数据对武广高速铁路初始晚点进行了分布拟合研究，拟合了高速铁路初始晚点时长分布函数。Briggs等，Xu 等，Wen等都分别对列车晚点时长进行了分布研究，得到了适合不同铁路线路的列车晚点分布曲线，但其研究只能得到相应的晚点时长概率分布规律，并不能对列车在将来时刻的晚点时间进行定量预测，对调度指挥工作支撑作用非常有限。

在利用机器学习算法方法方面，马尔科夫模型以及人工神经网络模型是列车晚点预测中应用最广泛的算法，但由于马尔科夫模型的无后效性假设(即***当前状态只与前一时刻有关)，使得其预测精度低于神经网络模型。随后， Markovic′等针对神经网络模型在列车晚点中的广泛应用，基于塞尔维亚铁路运营数据提出支持向量回归预测模型，并证明支持向量回归比普通神经网络模型有更高的预测精度。

机器学习算法由于比统计方法有更少的模型假设一般能够得到更好的数据拟合。但分析发现已有基于机器学习的晚点预测模型具有如下缺点：

1)均是利用单列晚点列车已知参数预测自身未知晚点时间，并未考虑待预测列车与其前行列车的相互作用关系。但在铁路***内，由于固定设备的联锁关系，列车之间的相互作用在技术条件允许的情况下是必须要考虑的。

2)模型均无“时序”概念，但列车晚点影响因素有时间序列与非时间序列两种，晚点与时间序列变量的时间依赖关系不能得到较好的拟合。

发明内容

有鉴于此，为了解决现有技术存在的上述问题，本发明的目的在于提供一种高速铁路列车晚点时间预测的深度神经网络模型建模方法以达到获取循环神经网络与全连接神经网络相结合的列车晚点时间实时预测深度学习模型，将各次列车作为时序输入以识别前后列车之间的作用关系的目的。

本发明所采用的技术方案为：一种高速铁路列车晚点时间预测的深度神经网络模型建模方法，包括以下步骤：

(1)建立晚点影响因素特征集，表示为F，影响因素特征集包括计划运行图参数、实际运行图参数和设备参数，所述计划运行图参数和实际运行图参数为时间序列变量，设备参数为非时间序列变量；令表示为列车i在车站S_n+1的到达晚点时间；

(2)将时间序列变量输入至RNN单元进行模型学习，将非时间序列变量输入至FCNN单元进行模型学习；

(3)通过Keras深度学习包的模型融合方法将RNN单元和第一FCNN单元进行融合，以得到深度神经网络模型；其中，RNN为Recurrent Neural Networks；FCNN为Fully-connected Neural Networks；

(4)通过深度神经网络模型计算得到模型拟合值并计算模型拟合值与真实晚点值的误差得到模型损失；

(5)通过误差反向传播算法将误差从输出层反向传播至输入层来更新神经元权重以减小模型损失。

进一步地，所述计划运行图参数包括：始发站至预测站各区间图定运行时间T，列车所经过各车站图定停站时间W，与前行列车在各车站图定间隔时间 I，列车所经过的各相邻两车站的起停次数S；

所述实际运行图参数包括：列车各站晚点时间D，列车在已经过各区间的旅行时间T′,与前行列车在各车站的实际间隔时间I′,已经过各站的实际停站时间W′；

所述设备参数包括：区间长度L和占用车站股道N。

进一步地，所述影响因素特征集按照75％、15％和10％的比例划分为训练样本数据集、验证样本数据集和测试样本数据集。

进一步地，所述RNN单元将每l列列车作为一个时间序列，且l为RNN单元的时间步长；所述时间序列包括多个影响因素特征集，分别为且中均包括所述时间序列中每一列车从其始发站S₁至当前站S_n区段内每个车站的影响因素特征集。

进一步地，所述步骤(2)中，令时间序列变量为给定输入序列 X＝(x₀,x₁,···,x_T)，RNN单元在任意时刻t(t∈0,1,···,T)的隐藏层状态h_t均是基于当前时刻的输入x_t以及过去时刻的隐藏层状态h_t-1映射得到的，且RNN单元将每个时刻的隐藏层状态输出且传入下一时刻；最终通过RNN单元的输出层将最后时刻的状态h_T映射成RNN单元的输出y_T，其表达式如下：

h_t＝σ(W_xhx_t+W_hhh_t-1+b_h) (1)

y_T＝σ(W_hyh_T+b_y) (2)

式中，W_xh、W_hh分别为输入层到隐藏层、隐藏层与隐藏层之间的神经元权重； b_h、b_y为服从正态分布的神经元拟合误差；σ(x)为激活函数。

进一步地，所述RNN单元与第一FCNN单元的激活函数均选用高级激活函数Prelu，该函数可从数据中自动学习得到α值以适应不同的非线性关系，且该高级激活函数如下：

进一步地，所述步骤(3)中，将RNN单元和第一FCNN单元的输出张量进行横向连接，并将融合后的张量传入至第二FCNN单元以更新RNN单元和第一FCNN单元里的各神经元的权重。

进一步地，所述模型损失选用均方误差(MSE)函数，具体如下：

其中，N为训练数据集样本量，loss为模型损失，表示模型拟合值，D_i表示真实晚点值。

进一步地，所述RNN单元的层数为3层且每层50个神经元；所述第一FCNN 单元层数为3层且每层30个神经元，第二FCNN单元为单FCNN神经元，即1 层且只有1个神经元。

本发明的有益效果为：

1.通过本发明提供的深度神经网络模型训练方法，通过提取了计划运行图参数、实际运行图参数以及设备参数的晚点影响因素特征集，再通过深度神经网络模型中融合RNN单元(循环神经网络)和FCNN单元(全连接神经网络) 来分别处理提取影响因素特征集中的时间序列变量和非时间序列变量，相比于已有模型，具有循环神经网络及全连接神经网络结构的深度神经模型能够处理时序和非时序变量，使深度神经模型能够识别列车之间相互作用对列车晚点的影响，具有较高的预测精度，且具有较好的实际应用能力。

2.基于交叉验证研究了列车间相互作用对深度神经网络模型预测效果的影响，并基于平均绝对误差(MAE)及平均百分绝对误差(MAPE)两种指标对深度神经网络模型进行了评估，一定范围内，输入列车数越多，深度神经网络模型的损失越低，其能较好地学习到列车之间的相互作用关系；深度神经网络模型对测试数据集的预测精度最高，其预测绝对误差与相对误差均低于支持向量回归模型、普通神经网络模型及马尔科夫模型的最优预测结果；SVR及 ANN的预测误差不随输入列车增加而减小，且最优预测结果均在以晚点列车最为输入数据集上获得，其均不能有效地识别列车间相互作用。

3.本发明中深度神经网络模型有较好的实际应用能力，能够适用于我国 350km/h及250km/h速度等级的高速铁路线路。

附图说明

图1是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中RNN单元的模型示意图；

图2是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中深度神经网络模型的结构示意图；

图3是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中深度神经网络模型的输入序列转换示意图；

图4是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中RNN层数选择图；

图5是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中RNN单元数选择图；

图6是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中FCNN层数选择图；

图7是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中FCNN神经元数选择图；

图8是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中FCNN单元进行模型学习的结构示意图；

图9是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中武广高速铁路各车站晚点预测MAE的统计图；

图10是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中武广高速铁路各车站晚点预测MAPE的统计图；

图11是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中厦深高速铁路各车站晚点预测MAE的统计图；

图12是本发明提供的高速铁路列车晚点时间预测的深度神经网络模型建模方法中厦深高速铁路各车站晚点预测MAPE的统计图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

高速铁路是一个由多子***组成的复杂***，列车在运行过程中由于轨道设备、信号设备、供电***等各基础设施的联锁关系，列车之间存在相互作用关系，尤其，当列车受到故障影响而晚点运行时，列车之间由于进路占用冲突相互作用关系更加明显。对于每一列晚点列车，故障发生后调度员会不断对其进行运行调整，其在将来的晚点时间也是列车本身在前行多个车站晚点状态的累积影响结果。因此，列车在将来时刻的晚点时间与列车过去的晚点时间以及其前行列车的晚点状态有较大关系。

鉴于已有研究主要采用列车i本身参数进行预测，通过考虑增加其前行列车(i-1,i-2,…)的参数输入以考虑列车之间的相互作用对列车晚点时间预测的影响，以建立具有更高预测精度的晚点时间预测模型，从而为高速铁路列车调度指挥提供更可靠的决策支持。

针对以上，在本实施例中提供了一种高速铁路列车晚点时间预测的深度神经网络模型建模方法，包括以下步骤：

(1)对列车运行数据进行预处理操作，包括按运行顺序排序、划分训练样本数据集、验证样本数据集和测试样本数据集、序列转化和标准化。

建立晚点影响因素特征集，表示为F，影响因素特征集包括计划运行图参数、实际运行图参数和设备参数，所述计划运行图参数和实际运行图参数为时间序列变量，设备参数为非时间序列变量；令表示为列车i在车站S_n+1的到达晚点时间；

所述计划运行图参数包括：始发站至预测站各区间图定运行时间T，列车所经过各车站图定停站时间W，与前行列车在各车站图定间隔时间I，列车所经过的各相邻两车站的起停次数S；

所述设备参数包括：区间长度L和占用车站股道N。

(2)将时间序列变量输入至RNN单元进行模型学习，并学习到相邻列车的时序依赖关系；将非时间序列变量输入至FCNN单元进行模型学习，并学习到设备参数的因素对列车晚点的影响。其中，RNN为RecurrentNeuralNetworks 的简写；FCNN为Fully-connectedNeuralNetworks的简写。

1)为了防止RNN单元和FCNN单元在模型学习过程中出现过拟合，将列车运行数据分为训练集、验证集和测试集。由于提出的模型学习考虑了相邻列车之间的相互作用关系，故需按照列车当前站的出发次序对列车进行排序，因此，将所述影响因素特征集按照75％、15％和10％的比例划分为训练样本数据集、验证样本数据集和测试样本数据集。

2)时间序列变量输入至RNN单元进行模型学习的具体方法如下：

如图1、图3所示，令时间序列变量为给定输入序列X＝(x₀,x₁,···,x_T)，RNN 单元在任意时刻t(t∈0,1,···,T)的隐藏层状态h_t均是基于当前时刻的输入x_t以及过去时刻的隐藏层状态h_t-1映射得到的，且RNN单元将每个时刻的隐藏层状态输出且传入下一时刻；最终通过RNN单元的输出层将最后时刻的状态h_T映射成RNN单元的输出y_T，其表达式如下：

h_t＝σ(W_xhx_t+W_hhh_t-1+b_h) (1)

y_T＝σ(W_hyh_T+b_y) (2)

所述RNN单元中将每l列列车作为一个时间序列，且l为RNN单元的时间步长；所述时间序列包括多个影响因素特征集，分别为且中均包括所述时间序列中每一列车从其始发站S₁至当前站S_n区段内每个车站的10个影响因素(分别为计划运行图参数、实际运行图参数和设备参数)。

3)非时间序列变量输入至FCNN单元进行模型学习的具体方法如下：

将l列车的非时间序列因素合并输入FCNN，若每列车有M个非时间序列因素，那么最终输入FCNN的因素数为M*l。输入FCNN的数据不分时间先后同时进入FCNN输入层，然后依次向隐藏层、输出层传播，最终由输出层拟合出晚点预测值。FCNN各层为全连接结构，即相邻两层间每个神经元之间均有连接，层内神经元无连接。如图8所示，设任一神经元输入为x，输出y与x 的映射关系为：

式中，为神经元连接权重向量，为神经元偏置，f(x)为激活函数，最终输出层神经元的输出值即为模型的拟合值。

(3)如图2所示，通过Keras深度学习包的模型融合方法将RNN单元和第一FCNN单元进行融合，以得到深度神经网络模型，并将深度神经网络模型命名为：RFC-NN；用到的数据处理及深度学习包包括：Numpy，Pandas， Scikit-learn，TensorFlow，Keras等。

将RNN单元和第一FCNN单元的输出张量进行横向连接，并将融合后的张量传入至第二FCNN单元以更新RNN单元和第一FCNN单元里的各神经元的权重，根据上述的反向传播算法更新RNN单元和第一FCNN单元里的各神经元的权重。

所述第一FCNN单元层数为3层且每层30个神经元，第二FCNN单元为单FCNN神经元，即1层且只有1个神经元。

令：RNN输出张量维度为M，FCNN输出张量维度为N，融合后张量维度为M+N，其中，M、N由最后一层的RNN以及FCNN数决定，具体指最后一层有多少个RNN或FCNN神经元。

(4)通过深度神经网络模型计算得到模型拟合值并计算模型拟合值与真实晚点值的误差得到模型损失；所述模型损失选用均方误差 (MSE)函数，具体如下：

其中，loss为模型损失，表示模型拟合值，D_i表示真实晚点值。

(5)通过误差反向传播算法将误差从输出层反向传播至输入层来更新神经元权重以减小模型损失。其中，误差反向传播算法的具体步骤如下：

1)输入数据流由网络输入层-隐藏层-输出层传播，输出层计算模型拟合值；

2)通过对比拟合值和真实值得到误差；

3)误差-隐层-输入层传播，其主要目的是通过将输出误差反传，将误差分摊给各层所有单元，从而获得各层单元的误差信号，进而修正各单元的权值，该过程是一个权值调整的过程。

在本实施例中，所述RNN单元的层数为3层且每层50个神经元，RNN单元的前两层具有“多对多”的输入输出关系，以使RNN单元能够将学到的过去信息存储；最后一层具有“多对一”的输入输出关系，以使RNN单元在输出时利用过去储存的所有信息。

所述RNN单元与第一FCNN单元的激活函数均选用高级激活函数Prelu， Prelu具有收敛速度快、错误率低的特点。PReLU可以用于反向传播的训练，可以与其他层同时优化，该函数可从数据中自动学习得到α值以适应不同的非线性关系，且该高级激活函数如下：

在本实施例中，RNN单元、FCNN单元以及深度神经网络模型的模型训练均是利用Python语言编程在英特尔酷睿八代(6核、6线程)处理器上完成。

在本实施中，对于深度神经网络模型的参数优化如下：

影响深度神经网络模型拟合效果的因素主要有隐藏层数以及每一隐藏层中神经元数，较少的隐藏层数以及神经元会导致模型欠拟合，使得模型对数据的学习不足；过多的隐藏层以及神经元会导致模型过拟合，使得模型训练误差不断下降，而预测误差却不断上升。

首先，基于交叉验证方法探究了RFC-NN模型对武广高速铁路衡阳东站列车晚点及其影响因素的拟合程度。

如图4、图5所示，柱状图表示每次训练模型的时间消耗，点线图表示每次模型在验证数据集上的损失值。结果表明，模型在验证数据集上的损失随着 RNN单元及FCNN单元中隐藏层以及每层神经元数量的增加都先减小，但当它们继续增加时模型损失都有增加的趋势。该趋势说明模型在隐藏层及神经元较少时对数据拟合不充分，数据欠拟合；当隐藏层及神经元较多时模型结构过于复杂，数据过拟合。

此外，柱状图表明深度神经网络模型耗用时间受RNN单元的层数及每层神经元数量影响较大，这主要是由于RNN单元的循环机制使得其必须按照时间顺序从序列的第一个元素到最后一个元素逐步处理。最终选择误差较小且耗时较少的模型结构作为本实施例的晚点预测模型，即：3层RNN，每层50个神经元， 3层FCNN，每层30个神经元。

此外，为了找到模型的最佳输入时间序列长度l，即考虑多少列车之间的相互作用关系，同样，基于交叉验证探索了时间序列长度为1-5的模型损失值情况，各序列长度下模型在验证集的损失值及时间消耗如图6所示。

图6、图7的结果表明：随着输入列车数的增加，深度神经网络模型最终损失值减小，但当输入列车数大于3时，深度神经网络模型的损失不再明显减小。每次输入的列车数越多，说明考虑了更多列车之间的相互影响关系。但随着输入列车数的增加，训练各模型平均耗用时间也会明显增加，因此最终选择 l＝3为预测模型的时间序列长度。

当深度神经网络模型在进行模型训练时，采用了学习率衰减法，当模型损失在连续三个训练步上不减小时，将学习衰减原来的50％来增加模型的鲁棒性及扩展能力。同时，也采用了小批量(Mini-batch)技术以及RMSProp优化器训练模型来防止模型陷入局部最优，深度神经网络模型所有参数如表1所示：

表2深度神经网络模型的参数

针对本实施例中提供的深度神经网络模型的预测效果评估如下：

为了评估深度神经网络模型的预测效果，选用了其它应用广泛的列车晚点预测模型作为评估标准，包括支持向量回归模型、人工神经网络模型以及马尔科夫模型。

其中，支持向量回归模型(SupportVector Regression,SVR)：SVR的主要原理是通过非线性函数将非线性数据集映射到高维特征空间的线性数据集。对于给定的输入X，模型先计算出预测值仅当预测值与真实值的误差超过一个阈值ε时才计算损失函数值。

人工神经网络模型(Artificial Neural Network,ANN)：ANN(即：全连接神经网络模型)相邻层神经元之间为全连接的，训练ANN采用误差反向传播法。 RNN与ANN的最大不同在于其拥有反馈机制，使得信息可以在RNN网络内重复利用，模型可以学习到当前时刻与过去时刻的时序依赖关系。

马尔科夫模型(Markov Model，MM)：马尔科夫模型主要处理离散状态问题，其主要基于无后效性理论，即***当前状态只与上一时刻的状态有关。在用于列车晚点预测时，马尔科夫模型的输入为列车上一时刻状态，输出为列车要预测状态。

已有利用ANN与SVR及MM预测列车晚点的研究均利用本列晚点列车自身的已知参数预测未知晚点，并未考虑列车间的相互作用关系。但本实施例中为了考虑列车相互作用关系，将未晚点列车也作为深度神经网络模型的输入。

为了***地评估本文提出的模型，分别研究了以输入列车数为1、2、3、4、 5及晚点列车自身已知参数这6种情况作为ANN及SVR的输入的预测结果。此外，由于马尔科夫模型只能利用其前一状态预测后一状态，因此，马尔科夫模型仅有一种输入形式。选择平均绝对误差(MAE)与平均绝对百分误差 (MAPE)两种常用的模型性能评估指标从模型预测绝对误差及相对误差两个方面来评估模型。各自计算公式如式(5)、(6)所示。由于实际预测中主要需要预测晚点列车的晚点时间，因此，模型仅基于晚点列车(晚点时间大于4min)进行评估，即只计算模型对晚点列车的预测MAE及MAPE。各模型在测试数据集上预测结果如表3所示。

上式中，N为样本量；y_i为真实值；为模型估计值。

表2各模型预测MAE、MAPE及标准差

表2中，模型名称后括号内数字表示其对应的输入列车数(l)，括号内为字母“D”表示与已有研究一样，模型只基于晚点列车进行训练得到。

同时，统计了各模型在各批样本晚点列车上的MAE和MAPE的标准差。由表3结果可得如下结论：

1)“RFC-NN(3)”模型考虑每3列车的相互作用关系，在MAE与MAPE 上均表现最佳；

2)传统ANN和SVR模型预测误差均不随着l的增加而减少，且在晚点列车作为输入上获得最优预测，其均不能识别列车间相互作用关系；

3)以上模型中，“RFC-NN(3)”预测MAE与MAPE的标准差处于较小水平，模型稳定较好；

4)MM模型由于忽略了较多列车晚点影响因素，其具有最差的预测结果。

为了验证模型的扩展能力，选取了武广高速铁路广州北-长沙南各车站以及厦深高速铁路惠东-潮汕各车站晚点预测对模型进行了扩展能力验证。武广高速铁路与厦深高速铁路分别于2009年与2013年开通运营，具有不同运营速度，是我国310km/h及200km/h速度等级的典型线路，且具有不同的行车量，选用其作为模型的扩展能力验证线路具有较好的实际意义。

模型验证与模型建立时相同，首先对列车运行数据进行预处理操作，包括按运行顺序排序、划分训练/测试数据集、序列转化、标准化等。模型预测武广高速铁路各站晚点MAE与MAPE如图9、图10所示，而厦深高速铁路各站晚点预测MAE与MAPE如图11、12所示。

RFC-NN模型在两条线路上的验证结果表明：除广州北及惠东两站外， RFC-NN在MAE及MAPE表现均优于SVR、ANN的最优预测结果及MM模型。其主要原因是RFC-NN中RNN单元能够学习到相邻列车之间的相互作用关系。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，包括以下步骤：

(3)通过Keras深度学习包的模型融合方法将RNN单元和第一FCNN单元进行融合，以得到深度神经网络模型；

2.根据权利要求1所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述计划运行图参数包括：始发站至预测站各区间图定运行时间T，列车所经过各车站图定停站时间W，与前行列车在各车站图定间隔时间I，列车所经过的各相邻两车站的起停次数S；

所述设备参数包括：区间长度L和占用车站股道N。

3.根据权利要求1所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述影响因素特征集按照75％、15％和10％的比例划分为训练样本数据集、验证样本数据集和测试样本数据集。

4.根据权利要求1所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述RNN单元将每l列列车作为一个时间序列，且l为RNN单元的时间步长；所述时间序列包括多个影响因素特征集，分别为且中均包括所述时间序列中每一列车从其始发站S₁至当前站S_n区段内每个车站的影响因素特征集。

5.根据权利要求1所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述步骤(2)中，令时间序列变量为给定输入序列X＝(x₀,x₁,…,x_T)，RNN单元在任意时刻t(t∈0,1,…,T)的隐藏层状态h_t均是基于当前时刻的输入x_t以及过去时刻的隐藏层状态h_t-1映射得到的，且RNN单元将每个时刻的隐藏层状态输出且传入下一时刻；最终通过RNN单元的输出层将最后时刻的状态h_T映射成RNN单元的输出y_T，其表达式如下：

h_t＝σ(W_xhx_t+W_hhh_t-1+b_h) (1)

y_T＝σ(W_hyh_T+b_y) (2)

式中，W_xh、W_hh分别为输入层到隐藏层、隐藏层与隐藏层之间的神经元权重；b_h、b_y为服从正态分布的神经元拟合误差；σ(x)为激活函数。

6.根据权利要求1或5所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述RNN单元与第一FCNN单元的激活函数均选用高级激活函数Prelu，该函数可从数据中自动学习得到α值以适应不同的非线性关系，且该高级激活函数如下：

7.根据权利要求1所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述步骤(3)中，将RNN单元和第一FCNN单元的输出张量进行横向连接，并将融合后的张量传入至第二FCNN单元以更新RNN单元和第一FCNN单元里的各神经元的权重。

8.根据权利要求1所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述模型损失选用均方误差(MSE)函数，具体如下：

9.根据权利要求7所述的高速铁路列车晚点时间预测的深度神经网络模型建模方法，其特征在于，所述RNN单元的层数为3层且每层50个神经元；所述第一FCNN单元层数为3层且每层30个神经元，第二FCNN单元为单FCNN神经元。