CN113525462A

CN113525462A - 延误情况下的时刻表调整方法、装置和电子设备

Info

Publication number: CN113525462A
Application number: CN202110904084.1A
Authority: CN
Inventors: 吕宜生; 王银; 袁志明; 王晓; 王荣笙; 董海荣; 王飞跃
Original assignee: Institute of Automation of Chinese Academy of Science; Beijing Jiaotong University; Signal and Communication Research Institute of CARS
Current assignee: Institute of Automation of Chinese Academy of Science; Beijing Jiaotong University; Signal and Communication Research Institute of CARS
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-10-22
Anticipated expiration: 2041-08-06
Also published as: CN113525462B

Abstract

本发明提供一种延误情况下的时刻表调整方法、装置和电子设备，其中方法包括：获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的；基于所述发车动作序列，调整所述当前车站的时刻表，减少了突发情况下列车运行紊乱和大面积延迟到站的状况，缩短了所有列车的各车站的总延误时间；实现了在复杂情况下列车时刻表调整效果的提升。

Description

延误情况下的时刻表调整方法、装置和电子设备

技术领域

本发明涉及高铁运输调度领域，尤其涉及一种延误情况下的时刻表调整方法、装置和电子设备。

背景技术

随着交通运输体系的逐步发展，高速铁路在我国综合交通运输体系中地位日渐突出。在高铁运输中，时常由于通信中断、恶劣天气、人为因素等突发事件的发生，导致高铁列车偏离既定的运行图。设计合理的列车时刻表调整策略不仅可以避免冲突引起的列车碰撞，还可以最大程度地提高整个高铁路网的运营效率。因此，研究突发情况下高铁列车的调整方法具有重要意义。

目前，高铁列车调度方法主要可以分为以下三类：仿真方法、运筹学方法和启发式群体智能方法。仿真方法很大程度上取决于对真实环境的模拟，需要搭建模型运行平台，且寻优效率低下；运筹学方法缺乏实时性和适应性，不能满足实际运行和调整需要；启发式群体智能方法虽然全局搜索能力较强，但在复杂场景下容易陷入局部最优的困境，计算难度大，寻优效率低下。

现有技术难以适应高铁的动态、复杂、快速变化，调整效果较差，无法有效提高交通***运行效率。

发明内容

本发明提供一种延误情况下的时刻表调整方法、装置和电子设备，用以解决现有技术中延误情况下列车时刻表调整效果不好的问题，实现了突发情况下所有列车在各车站的总延误时间的缩短，以及在复杂情况下列车时刻表调整效果的整体提升。

本发明提供一种延误情况下的时刻表调整方法，包括：

获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；

将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的；

基于所述发车动作序列，调整所述当前车站的时刻表。

根据本发明提供的一种延误情况下的时刻表调整方法，所述发车动作规划模型包括运行环境模型和策略网络模型；

所述运行环境模型用于基于当前发车动作，更新当前的待调整列车状态，所述策略网络模型用于基于动作空间范围和当前的待调整列车状态确定下一发车动作；

其中，初始的待调整列车状态是基于所述当前车站的各个待调整列车的时刻信息确定的，所述动作空间范围是基于所述基础设施信息确定的。

根据本发明提供的一种延误情况下的时刻表调整方法，所述发车动作规划模型是基于如下步骤确定的：

构建初始强化学习模型；

将当前样本车站的各个待调整样本列车的时刻信息和基础设施信息输入至所述初始强化学习模型，得到所述初始强化学习模型输出的所述当前样本车站的预估发车动作序列，以及所述预估发车动作序列中每个样本发车动作的动作奖励，将所述当前样本车站的下一样本车站更新为所述当前样本车站，直至所述当前样本车站为最尾的样本车站；

基于各个样本车站对应的预估发车动作序列中每个样本发车动作的动作奖励，对所述初始强化学习模型进行参数更新，得到所述发车动作规划模型。

根据本发明提供的一种延误情况下的时刻表调整方法，所述初始强化学习模型包括初始运行环境模型和初始策略网络模型；

所述将当前样本车站的各个待调整样本列车的时刻信息和基础设施信息输入至所述初始强化学习模型，得到所述初始强化学习模型输出的所述当前样本车站的预估发车动作序列，以及所述预估发车动作序列中每个样本发车动作的动作奖励，包括：

将当前样本发车动作输入至所述初始运行环境模型，得到所述初始运行环境模型输出的当前的待调整样本列车状态和所述当前样本发车动作的动作奖励；

将所述当前的待调整样本列车状态输入至所述初始策略网络模型，得到所述初始策略网络模型基于所述当前样本车站的动作空间范围和所述当前的待调整样本列车状态输出的下一样本发车动作，并将所述下一样本发车动作更新为所述当前样本发车动作，直至所述当前的待调整样本列车状态为空；

其中，初始的待调整样本列车状态是所述初始强化学习模型基于所述当前样本车站的各个待调整样本列车的时刻信息确定的，所述当前样本车站的动作空间范围是所述初始强化学习模型基于所述当前样本车站的基础设施信息确定的。

根据本发明提供的一种延误情况下的时刻表调整方法，所述当前样本发车动作的动作奖励是基于所述当前样本发车动作对应的待调整样本列车在下一样本车站的实际到站时间和原计划到站时间确定的。

根据本发明提供的一种延误情况下的时刻表调整方法，所述基于各个样本车站对应的预估发车动作序列中每个样本发车动作的动作奖励，对所述初始强化学习模型进行参数更新，得到所述发车动作规划模型，包括：

以策略梯度方向为更新方向，基于各个样本车站对应的预估发车动作序列中每个样本发车动作的动作奖励，对所述初始强化学习模型进行参数更新，得到所述发车动作规划模型。

根据本发明提供的一种延误情况下的时刻表调整方法，所述时刻信息包括对应列车的原计划到站时间、原计划出站时间和实际到站时间。

本发明还提供一种延误情况下的时刻表调整装置，包括：

信息获取单元，用于获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；

序列确定单元，用于将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的；

时刻调整单元，用于基于所述发车动作序列，调整所述当前车站的时刻表。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述延误情况下的时刻表调整方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述延误情况下的时刻表调整方法的步骤。

本发明提供的延误情况下的时刻表调整方法、装置和电子设备，通过发车动作规划模型得到发车动作序列，根据发车动作序列对应调整待调整列车的时刻表，减少了突发情况下列车运行紊乱和大面积延迟到站的状况，缩短了所有列车的各车站的总延误时间；还可根据实际需求对发车动作规划模型的参数进行相应的调整，以使列车的时刻表调整策略收敛至期望策略，实现了在复杂情况下列车时刻表调整效果的整体提升。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图逐一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的延误情况下的时刻表调整方法的流程示意图之一；

图2是本发明提供的延误情况下的时刻表调整方法的流程示意图之二；

图3是本发明提供的延误情况下的时刻表调整装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的延误情况下的时刻表调整方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；

此处，当前车站的待调整列车即经过当前车站需要进行时刻表调整的列车，待调整列车包括存在延误的列车，还包括本身并未延误，但是可能需要配合延误列车进行调整的途径当前车站的列车。各个待调整列车的时刻信息可以包括列车时刻表上列车在当前车站的原计划到站时间和原计划出站时间，也可以包括列车在当前车站的实际到站时间，还可以包括根据列车在当前车站的原计划到站时间、实际到站时间和原计划出站时间计算得到的列车在当前车站的延误时间，本发明实施例对此不做具体限定。

当前车站的基础设施信息可以是当前车站的调整轨道数量，即能够在延误情况下用于调整列车轨道的轨道数量。

在获取当前车站的各个待调整列车的时刻信息，以及当前车站的基础设施信息之后，执行步骤120。

步骤120，将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的。

具体地，在步骤120执行之前，需要预先训练得到发车动作规划模型。在对发车动作规划模型进行训练时，可以对当前车站各个待调整列车的延误时间进行汇总，得到当前车站的总延误时间，获取各车站的总延误时间，并对各车站的总延误时间进行汇总，得到各个待调整列车在各车站的总延误时间。以各个待调整列车在各车站的总延误时间最短为目标，对初始强化学习模型进行强化学习得到发车动作规划模型。

其中，强化学习是通过初始强化学习模型获取预估发车动作序列以及其中每个样本发车动作的动作奖励，根据当前样本发车动作确定当前的状态转移信息，根据当前的状态转移信息确定下一个样本发车动作；根据每个样本发车动作的动作奖励对强化学习模型的参数进行更新。其中，状态转移信息为根据当前样本车站的各个待调整样本列车的时刻信息和当前样本发车动作，对当前的待调整样本列车状态进行状态转移。样本发车动作的动作奖励用于表征待调整样本列车在当前样本车站的样本发车动作对于调整当前样本车站的各个待调整样本列车延误的效果。

例如，第j个样本车站当前的状态转移信息可以表示为若第j个样本车站的当前的待调整样本列车状态是有N辆待调整样本列车，在第t步选择发出某辆待调整样本列车，则当前的待调整样本列车状态的下一状态为有N-1辆待调整样本列车，通过上述方式实现了状态转移。然后根据N-1辆待调整样本列车确定第t+1步选择发出的待调整样本列车，则下一状态为有N-2辆待调整样本列车，如此重复，直至第j个样本车站的待调整样本列车数量为零。根据第j个样本车站的每个样本发车动作的动作奖励对初始强化学习模型的参数进行更新。

在步骤120中，将获取的当前车站的各个待调整列车的时刻信息，以及当前车站的基础设施信息输入至发车动作规划模型，发车动作规划模型根据输入的信息相应输出当前车站的发车动作序列。此处的发车动作序列为当前车站的各个待调整列车的发车动作的集合。

在得到发车动作规划模型输出的发车动作序列之后，执行步骤130。

步骤130，基于所述发车动作序列，调整所述当前车站的时刻表。

具体地，根据上一步获得的发车动作规划模型输出的当前车站的发车动作序列，对应调整当前车站的各个待调整列车的发车动作，即对当前车站的各个待调整列车的时刻表进行相应调整。此处的发车动作指当前选中的列车进行发车的动作。

本发明提供的延误情况下的时刻表调整方法，通过发车动作规划模型得到发车动作序列，根据发车动作序列对应调整待调整列车的时刻表，减少了突发情况下列车运行紊乱和大面积延迟到站的状况，缩短了所有列车的各车站的总延误时间；还可根据实际需求对发车动作规划模型的参数进行相应的调整，以使列车的时刻表调整策略收敛至期望策略，实现了在复杂情况下列车时刻表调整效果的整体提升。

基于上述实施例，发车动作规划模型包括运行环境模型和策略网络模型；

此处的动作空间范围是根据当前车站的基础设施信息确定的策略网络模型能够选择的动作空间的取值范围，动作空间的取值范围如下式所示：

A^j∈[0,c^j-1]

其中，A^j为动作空间范围，c^j为第j个车站的调整轨道数量。

需要说明的是，不同车站的基础设施信息不同，即不同车站的调整轨道数量不同。在不同的车站，根据车站的基础设施信息确定的策略网络模型能够选择的动作空间的取值范围是不同的。

具体地，在发车动作规划过程中，首先运行环境模型可以根据当前车站的各个待调整列车的时刻信息确定初始的待调整列车状态；策略网络模型可以根据当前车站的基础设施信息确定当前车站的动作空间范围。

在此之后，运行环境模型根据当前发车动作，对当前的待调整列车状态进行更新；策略网络模型根据当前车站的动作空间范围和当前的待调整列车状态，确定下一发车动作。即策略网络模型根据初始车站的动作空间范围和初始的待调整列车状态，确定当前发车动作，并将当前发车动作反馈至运行环境模型；运行环境模型根据当前发车动作，对初始的待调整列车状态进行更新，将更新后的待调整列车状态确定为当前的待调整列车状态；策略网络模型再根据当前的待调整列车状态和当前车站的动作空间范围，确定下一发车动作，并将下一发车动作反馈至运行环境模型，如此循环，直至当前的待调整列车状态为空，结束循环。

基于上述实施例，策略网络模型用于基于动作空间范围和当前的待调整列车状态确定下一发车动作，可以表示为：

其中，

表示在第j个车站策略网络模型决定第t位出发的待调整列车时，第j个车站的待调整列车状态；

表示在第j个车站策略网络模型决定第t位出发的待调整列车时采取的动作，

表示策略网络模型在状态

下，选择动作

的概率；μ_θ(·)表示策略网络模型，θ表示为策略网络模型的参数，

表示动作

对应的待调整列车，exp表示以e为底的指数函数。

基于上述实施例，发车动作规划模型是基于如下步骤确定的：

构建初始强化学习模型；

具体地，在构建初始强化学习模型之前，还需获取当前样本车站的各个待调整样本列车的时刻信息，以及当前样本车站的基础设施信息。根据获取的当前样本车站的各个待调整样本列车的时刻信息和当前样本车站的基础设施信息，构建初始强化学习模型。

将当前样本车站的各个待调整样本列车的时刻信息和基础设施信息输入至初始强化学习模型，初始强化学习模型根据输入的信息相应输出当前样本车站的预估发车动作序列，以及预估发车动作序列中每个样本发车动作的动作奖励。此处的预估发车动作序列为预估的当前样本车站的各个待调整样本列车的样本发车动作的集合。样本发车动作的动作奖励用于表征待调整样本列车在当前样本车站的样本发车动作对于调整当前样本车站的各个待调整样本列车延误的效果。

获得初始强化学习模型输出的当前样本车站的预估发车动作序列，以及预估发车动作序列中每个样本发车动作的动作奖励之后，根据待调整样本列车的时刻表，确定当前样本车站的下一样本车站，将当前样本车站的下一样本车站更新为当前样本车站，直至当前样本车站为最尾的样本车站。

即获取更新后的当前样本车站的各个待调整样本列车的时刻信息，以及更新后的当前样本车站的基础设施信息，并将更新后的当前样本车站的各个待调整样本列车的时刻信息和基础设施信息输入至初始强化学习模型，得到初始强化学习模型输出的更新后的当前样本车站的预估发车动作序列，以及预估发车动作序列中每个样本发车动作的动作奖励，而后从待调整样本列车的时刻表上确定更新后的当前样本车站的下一样本车站，将更新后的当前样本车站的下一样本车站更新为当前样本车站，重复上述过程，直至当前样本车站为待调整样本列车的时刻表上最后一个样本车站。

进一步地，根据各个样本车站对应的预估发车动作序列中每个样本发车动作的动作奖励，对初始强化学习模型的参数进行更新，将更新完成的初始强化学习模型作为发车动作规划模型；即对初始强化学习模型输出当前样本车站的预估发车动作序列中每个样本发车动作的动作奖励进行汇总，得到当前样本车站的预估发车动作序列的奖励；再对各个样本车站的预估发车动作序列的奖励进行汇总，得到总体奖励，根据总体奖励对初始强化学习模型的参数进行更新，更新后的初始强化学习模型即为发车动作规划模型。

基于上述实施例，构建初始强化学习模型，之前还包括：

获取当前样本车站的各个待调整样本列车，将当前样本车站的各个待调整样本列车中每一待调整样本列车抽象为一个多元组，多元组中包括该待调整样本列车的在当前样本车站的原计划到站时间，原计划出站时间和实际到站时间等信息。多元组可以表示为：

其中，

表示第j个样本车站的第i辆待调整样本列车，

表示第i辆待调整样本列车在第j个样本车站的原计划到站时间，

表示第i辆待调整样本列车在第j个样本车站的原计划出站时间，A_ij表示第i辆待调整样本列车在第j个样本车站的实际到站时间。

将各个待调整样本列车的多元组进行合并，得到当前样本车站的各个待调整样本列车的数据集合，各个待调整样本列车的数据集合表示为：

其中，X^j表示为第j个样本车站的各个待调整列车的数据集合，n表示第j个样本车站的待调整样本列车的数量。

由于获取的当前样本车站的各个待调整列车的数据集合可能存在格式不规范的问题，需要对各个待调整列车的数据集合进行预处理，预处理后得到当前样本车站的各个待调整样本列车的时刻信息。预处理的具体处理方法为：以一天24小时为基准，将得到的数据集合进行归一化处理，如下式所示：

基于上述实施例，所述初始强化学习模型包括初始运行环境模型和初始策略网络模型；

此处的当前样本车站的动作空间范围是根据当前样本车站的基础设施信息确定的初始策略网络模型能够选择的动作空间的取值范围。不同样本车站的基础设施信息不同，即不同样本车站的调整轨道数量不同。在不同的样本车站，根据样本车站的基础设施信息确定的初始策略网络模型能够选择的动作空间的取值范围是不同的。

具体地，在初始强化学习模型的训练过程中，初始强化学习模型可以根据当前样本车站的各个待调整样本列车的时刻信息确定初始的待调整样本列车状态，还可以根据当前样本车站的基础设施信息确定当前样本车站的动作空间范围。

在此之后，将当前样本发车动作输入至初始运行环境模型，初始运行环境模型根据输入的当前样本发车动作相应输出当前的待调整样本列车状态和当前样本发车动作的动作奖励；即初始运行环境模型根据输入的当前样本发车动作，对应输出当前的待调整样本列车状态和当前样本发车动作的动作奖励。

进一步地，将初始运行环境模型输出的当前的待调整样本列车状态输入至初始策略网络模型，初始策略网络模型根据当前样本车站的动作空间范围和输入的当前的待调整样本列车状态相应输出当前样本车站的下一样本发车动作，即初始策略网络模型根据当前样本车站的动作空间范围和当前的待调整样本列车状态，确定当前样本车站的下一样本发车动作。

获得初始策略网络模型输出的当前样本车站的下一样本发车动作之后，将当前样本车站的下一样本发车动作更新为当前样本发车动作，直至当前的待调整样本列车状态为空。

即初始策略网络模型根据初始的待调整样本列车状态和初始样本车站的动作空间范围，输出当前样本发车动作，并将当前样本发车动作反馈至初始运行环境模型；初始运行环境模型根据当前样本发车动作对初始的待调整样本列车状态进行更新，将更新后的初始的待调整样本列车状态确定为当前的待调整样本列车状态，输出当前的待调整样本列车状态和当前样本发车动作的动作奖励。初始策略网络模型再根据当前的待调整样本列车状态和当前样本车站的动作空间范围，输出下一样本发车动作，并将下一样本发车动作反馈至初始运行环境模型；如此循环，直至当前的待调整列车状态为空，结束循环。

基于上述实施例，待调整样本列车状态可以表示为：

其中，

表示在第j个车站初始策略网络模型决定第t位出发的待调整列车时，第j个车站的待调整列车状态。

基于上述实施例，所述当前样本发车动作的动作奖励是基于所述当前样本发车动作对应的待调整样本列车在下一样本车站的实际到站时间和原计划到站时间确定的。

此处的下一样本车站的原计划到站时间为待调整样本列车的时刻表上的指示到达下一样本车站的时间；下一样本车站的实际到站时间为待调整样本列车实际到达下一样本车站的时间。

具体地，初始运行环境模型根据当前样本发车动作对应的待调整样本列车在下一样本车站的实际到站时间和原计划到站时间，确定当前样本发车动作的动作奖励。样本发车动作的动作奖励可以表示为：

其中，

表示第j个样本车站在第t步时的样本发车动作的动作奖励，A_ij+1表示第i辆待调整样本列车在第j+1个车站的实际到站时间，

表示第i辆待调整样本列车在第j+1个车站的原计划到站时间。

基于上述实施例，所述基于各个样本车站对应的预估发车动作序列中每个样本发车动作的动作奖励，对所述初始强化学习模型进行参数更新，得到所述发车动作规划模型，包括：

具体地，以策略梯度方向为更新方向，对初始强化学习模型的参数进行更新，得到发车动作规划模型。即初始强化学习模型中初始策略网络模型的参数的更新方向为策略梯度方向，以策略梯度方向为更新方向具体可以表示为：

其中，θ_new为初始策略网络模型更新后的参数；θ_old为初始策略网络模型未更新时的参数；α为初始策略网络模型更新的学习率；

表示在第j个车站初始策略网络模型决定第t位出发的待调整样本列车时，该车站的待调整样本列车状态；

表示在第j个车站初始策略网络模型决定第t位出发的待调整样本列车时采取的动作，

表示初始策略网络模型在状态

下，选择动作

的概率；

为策略梯度方向；

表示第j个车站从第t位到最后一位所有动作的累计奖励，γ为奖励函数的衰减系数，

表示第j个车站决定第k位出发的待调整样本列车时采取的动作的动作奖励，γ^k-t表示从第t位到最后一位所有动作的累计奖励的衰减系数。需要说明的是，本发明实施例优选初始策略网络模型更新的学习率的取值范围为[0.1,0.3]。

基于上述实施例，所述时刻信息包括对应列车的原计划到站时间、原计划出站时间和实际到站时间。

此处的列车的原计划到站时间为列车的时刻表上指示到达某一车站的时间；原计划出站时间为列车的时刻表上指示驶出某一车站的时间；实际到站时间为列车实际到达某一车站的时间。

图2是本发明提供的延误情况下的时刻表调整方法的流程示意图之二，如图2所示，该方法包括：

发车动作规划模型的应用过程和初始强化学习模型的训练过程；其中，初始强化学习模型的训练过程包括：

步骤210，构建初始强化学习模型。

步骤220，将当前样本车站的各个待调整样本列车的时刻信息和基础设施信息输入至初始强化学习模型，得到初始强化学习模型输出的当前样本车站的预估发车动作序列，以及预估发车动作序列中每个样本发车动作的动作奖励，将当前样本车站的下一样本车站更新为当前样本车站，直至当前样本车站为最尾的样本车站。

步骤230，基于各个样本车站对应的预估发车动作序列中每个样本发车动作的动作奖励，对初始强化学习模型进行参数更新，得到发车动作规划模型。

发车动作规划模型的应用过程包括：

步骤240，获取当前车站的各个待调整列车的时刻信息，以及当前车站的基础设施信息。

步骤250，将当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到发车动作规划模型输出的发车动作序列；发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的。

步骤260，基于发车动作序列，调整当前车站的时刻表。

本发明提供的延误情况下的时刻表调整方法，通过对初始强化学习模型进行训练得到发车动作规划模型，通过发车动作规划模型得到发车动作序列，根据发车动作序列对应调整待调整列车的时刻表，将初始强化学习模型应用到对列车的时刻表进行调整这一过程中，通过与环境的互动学习，学习到最优或者次优的调整策略，能够适应不同延误下的交通需求，提高整个高铁路网的运营效率。

下面对本发明提供的延误情况下的时刻表调整装置进行描述，下文描述的延误情况下的时刻表调整装置与上文描述的延误情况下的时刻表调整方法可相互对应参照。

图3是本发明提供的延误情况下的时刻表调整装置的结构示意图。如图3所示，该装置包括：

信息获取单元310，用于获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；

序列确定单元320，用于将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的；

时刻调整单元330，用于基于所述发车动作序列，调整所述当前车站的时刻表。

本发明提供的延误情况下的时刻表调整装置，通过发车动作规划模型得到发车动作序列，根据发车动作序列对应调整待调整列车的时刻表，减少了突发情况下列车运行紊乱和大面积延迟到站的状况，缩短了所有列车的各车站的总延误时间；还可根据实际需求对发车动作规划模型的参数进行相应的调整，以使列车的时刻表调整策略收敛至期望策略，实现了在复杂情况下列车时刻表调整效果的整体提升。

基于上述实施例，所述发车动作规划模型包括运行环境模型和策略网络模型；

基于上述实施例，序列确定单元320用于：

构建初始强化学习模型；

基于上述实施例，所述初始强化学习模型包括初始运行环境模型和初始策略网络模型；序列确定单元320用于：

基于上述实施例，所述装置还包括参数更新单元，用于：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行延误情况下的时刻表调整方法，该方法包括：获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的；基于所述发车动作序列，调整所述当前车站的时刻表。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的延误情况下的时刻表调整方法，该方法包括：获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的；基于所述发车动作序列，调整所述当前车站的时刻表。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的延误情况下的时刻表调整方法，该方法包括：获取当前车站的各个待调整列车的时刻信息，以及所述当前车站的基础设施信息；将所述当前车站的各个待调整列车的时刻信息和基础设施信息输入至发车动作规划模型，得到所述发车动作规划模型输出的发车动作序列；所述发车动作规划模型是以各车站的总延误时间最短为目标，强化学习得到的；基于所述发车动作序列，调整所述当前车站的时刻表。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种延误情况下的时刻表调整方法，其特征在于，包括：

基于所述发车动作序列，调整所述当前车站的时刻表。

2.根据权利要求1所述的延误情况下的时刻表调整方法，其特征在于，所述发车动作规划模型包括运行环境模型和策略网络模型；

3.根据权利要求2所述的延误情况下的时刻表调整方法，其特征在于，所述发车动作规划模型是基于如下步骤确定的：

构建初始强化学习模型；

4.根据权利要求3所述的延误情况下的时刻表调整方法，其特征在于，所述初始强化学习模型包括初始运行环境模型和初始策略网络模型；

5.根据权利要求4所述的延误情况下的时刻表调整方法，其特征在于，所述当前样本发车动作的动作奖励是基于所述当前样本发车动作对应的待调整样本列车在下一样本车站的实际到站时间和原计划到站时间确定的。

6.根据权利要求3所述的延误情况下的时刻表调整方法，其特征在于，所述基于各个样本车站对应的预估发车动作序列中每个样本发车动作的动作奖励，对所述初始强化学习模型进行参数更新，得到所述发车动作规划模型，包括：

7.根据权利要求1至6中任一项所述的延误情况下的时刻表调整方法，其特征在于，所述时刻信息包括对应列车的原计划到站时间、原计划出站时间和实际到站时间。

8.一种延误情况下的时刻表调整装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的延误情况下的时刻表调整方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的延误情况下的时刻表调整方法的步骤。