CN111898310B

CN111898310B - 车辆调度方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: CN111898310B
Application number: CN202010542775.7A
Authority: CN
Inventors: 施俊庆; 赵雅辉; 孟国连; 陈林武; 夏顺娅
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2023-08-04
Anticipated expiration: 2040-06-15
Also published as: CN111898310A

Abstract

本申请涉及车辆调度方法、装置、计算机设备和存储介质。该方法包括：获取与车站衔接的专用线条数信息；根据所述专用线条数信息构建强化学习模型；对所述强化学习模型进行训练，得到强化学习模型的经验值；根据所述经验值确定车辆调度顺序。通过构建强化学习模型，对该强化学习模型进行训练，得到强化学习模型的经验值，根据该经验值确定车辆调度顺序，可以得到专用线取送车的全部最佳取送方案，解决了时差顺序法在求解最佳取送方案时，为了减少计算方案数量会错过部分最佳取送方案的问题。

Description

车辆调度方法、装置、计算机设备和计算机可读存储介质

技术领域

本申请涉及车辆调度技术领域，特别是涉及一种车辆调度方法、装置、计算机设备和计算机可读存储介质。

背景技术

取送车作业是铁路车站的一项重要的技术作业。当装卸货量较大、衔接的专用线较多时，取送车作业是比较复杂的。车流整列到发以及一台机车作业条件下的放射形专用线取送车顺序问题是车站调度指挥人员重点考虑的问题之一。合理安排取送车顺序有利于缩短货车在站停留时间，提高车辆周转率。

在相关技术中，一般采用时差顺序法解决放射形专用线取送车顺序问题，但是，时差顺序法在求解最佳取送方案时，为了减少计算方案数量会错过部分最佳取送方案。

申请内容

本申请提供一种车辆调度方法、装置、计算机设备和计算机可读存储介质，可以得到专用线取送车的全部最佳取送方案，以满足生产实践中专用线装车作业时间多变的需求。

根据本申请的一个方面，提供了一种车辆调度方法，包括以下步骤：

获取与车站衔接的专用线条数信息；

根据所述专用线条数信息构建强化学习模型；

对所述强化学习模型进行训练，得到强化学习模型的经验值；

根据所述经验值确定车辆调度顺序。

在其中一些实施例中，所述根据所述专用线条数信息构建强化学习模型包括：

根据所述专用线条数定义状态空间，所述状态空间用于表示机车当前所在位置以及当前每一所述专用线的送车状态；

定义动作空间，所述动作空间用于表示机车下一时间步前往的专用线；

定义奖励函数，所述奖励函数用于表示所述机车完成所有所述专用线的送车作业后得到的奖励值。

在其中一些实施例中，所述定义奖励函数包括：

根据预设调度顺序获取机车作业所需的标准作业时间；

根据实际作业时间与所述标准作业时间，定义所述奖励函数。

在其中一些实施例中，所述对所述强化学习模型进行训练，得到强化学习模型的经验值包括：

获取当前位置，若当前位置为车站位置，且各专用线均未完成取送车作业，则将状态空间设置为初始状态；

根据所述初始状态，得到所有状态动作集合；

根据所述状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值；

根据所述最终奖励值，得到所述强化学习模型的经验值。

在其中一些实施例中，所述根据所述状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值包括：

根据当前所述状态空间和所述状态动作集合，在多条所述专用线中选择第一专用线并完成送车；

更新所述状态空间，对其余所述专用线进行送车，直至完成所有专用线的送车，计算完成本次迭代所需的实际作业时间；

根据所述实际作业时间、标准作业时间以及所述奖励函数，计算本次迭代的最终奖励值。

在其中一些实施例中，所述根据所述最终奖励值，得到所述强化学习模型的经验值包括：

构建Q矩阵，所述Q矩阵用于表示训练过程中得到的经验值；

根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值。

在其中一些实施例中，所述根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值包括：

根据本次迭代的最终奖励值与本次迭代前所述Q矩阵中的经验值更新所述Q矩阵，并将更新后所述Q矩阵中的经验值作为所述强化学习模型的经验值。

根据本申请的另一个方面，还提供一种车辆调度装置，所述装置包括：

获取模块，用于获取与车站衔接的专用线条数信息；

构建模块，用于根据所述专用线条数信息构建强化学习模型；

训练模块，用于对所述强化学习模型进行训练，得到强化学习模型的经验值；

确定模块，用于根据所述经验值确定车辆调度顺序。

根据本申请的另一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法。

根据本申请的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一所述方法。

本申请提供的车辆调度方法、装置、计算机设备和计算机可读存储介质，通过构建强化学习模型，对该强化学习模型进行训练，得到强化学习模型的经验值，根据该经验值确定车辆调度顺序，可以得到专用线取送车的全部最佳取送方案，解决了时差顺序法在求解最佳取送方案时，为了减少计算方案数量会错过部分最佳取送方案的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中车辆调度方法的流程图；

图2为本申请实施例中与车站衔接的专用线的示意图；

图3为本申请实施例提供的对强化学习模型进行训练的流程图；

图4为本申请实施例中对强化学习模型进行一次迭代训练过程的示意图；

图5为本申请实施例提供的计算一次迭代的最终奖励值的流程图；

图6为本申请实施例中最终奖励值变化的示意图；

图7为本申请实施例中Q矩阵的示意图；

图8a至图8d为本申请实施例中最佳取送方案的技术作业总时间示意图；

图9为本申请实施例中车辆调度装置的结构框图；

图10为本申请实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请实施例所涉及的术语“第一”、“第二”、“第三”仅仅是区别类似的对象，不代表针对对象的特定排序，“第一”、“第二”、“第三”在允许的情况下可以互换特定的顺序或先后次序。可以理解地，“第一”、“第二”、“第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请提供的车辆调度方法，可以应用于车流整列到发以及一台机车作业条件下的放射形专用线取送车顺序问题。

图1为本申请实施例中车辆调度方法的流程图，如图1所示，提供了一种车辆调度方法，包括步骤S110至步骤S140，其中：

步骤S110，获取与车站衔接的专用线条数信息。

专用线条数信息包括但不限于专用线条数的数量信息。该专用线条数信息还包括各条专用线的标识信息，该标识信息用于表示各条专用线代号。该标识信息可以是数字、字母或者特殊符号，也可以是数字、字母以及特殊符号的组合，本申请不作限制。例如，专用线条数为六条，该六条专用线代号可以表示为L1、L2、L3、L4、L5和L6，也可以表示为(1)、(2)、(3)、(4)、(5)和(6)。

例如，图2为一个实施例中与车站衔接的专用线的示意图，如图2所示，专用线条数为四条，L1、L2、L3和L4分别表示四条专用线，S表示车站。与车站衔接的该四条专用线采用放射形专用线布设方式，四条专用线分别与车站衔接呈放射状。

步骤S120，根据该专用线条数信息构建强化学习模型。

根据该专用线条数信息，定义该强化学习模型的状态空间、动作空间和奖励函数。

在其中一些实施例中，根据该专用线条数信息，定义该强化学习模型的状态空间。该状态空间用于表示机车当前所在位置以及当前每一该专用线的送车状态。状态空间可以定义为其中，n表示专用线条数，该状态空间S_t由以下两个参数组成：机车当前所在位置a_t-1以及各条专用线的送车状态/>用n位二进制数表示，/>表示i号线的送车状态，取值为0或1，0表示未送车，1表示已送车；a_t-1的取值范围为[0,n]，其中，n为整数，当a_t-1为0时，表示机车在车站，当a_t-1为n时，表示机车在n号专用线。前一状态可以用来表示该强化学习模型当前的状态空间，下一状态可以用来表示该强化学习模型下一状态空间，根据该前一状态以及动作空间，经转移函数运算后指向下一状态。

在其中一些实施例中，根据该专用线条数信息，定义该强化学习模型的动作空间，该动作空间用于表示机车下一时间步前往的专用线。动作空间可以定义为A_t，A_t用n位二进制数表示，/>表示当前时间调机是否前往i号线送车，/>取值为0或1，1表示去，0表示不去。假设调机一次只能前往1条专用线送车，j表示下一时间步调机前往送车的专用线编号，则/>到/>中只有/>为1，其余为0。

在其中一些实施例中，定义奖励函数，所述奖励函数用于表示所述机车完成所有所述专用线的送车作业后得到的奖励值。

可以根据预设奖励规则定义该奖励函数，预设奖励规则具体可以为预设调度顺序，根据预设调度顺序控制机车进行取送车作业。在送车完成后，获取机车作业过程中的取车时间、送车时间以及装车时间，将取车时间、送车时间以及装车时间之和作为标准作业时间，计算实际作业时间与该标准作业时间的差值，设置奖励值与该差值的映射关系，根据该映射关系和差值计算奖励值。

步骤S130，对该强化学习模型进行训练，得到强化学习模型的经验值。

在其中一些实施例中，对该强化学习模型进行多次迭代训练，根据预设经验值的求解规则，得到该强化学习模型的经验值。

步骤S140，根据该经验值确定车辆调度顺序。

在其中一些实施例中，该经验值表示对训练过程中车辆调度方案的评估值。车辆调度顺序表示总的作业时间最短的顺序。其中，取车时间和送车时间是固定的，等待时间是可压缩的。根据预设车辆调度方案的评估规则以及该经验值确定车辆调度顺序，其中，可以设置车辆调度方案的评估规则为送车时间和经验值的映射关系，也可以设置其他的评估规则，本申请对该评估规则不做限制。

上述车辆调度方法，通过构建强化学习模型，对该强化学习模型进行训练，得到强化学习模型的经验值，根据该经验值确定车辆调度顺序，从而可以得到专用线取送车的全部最佳取送方案，解决了时差顺序法在求解最佳取送方案时，为了减少计算方案数量会错过其它最佳取送方案的问题。

在其中一些实施例中，定义奖励函数包括步骤S210和步骤S220，其中：

步骤S210，根据预设调度顺序获取机车作业所需的标准作业时间。

预设调度顺序可以设置为，完成任意一条专用线的送车作业，在等待装车完毕后，进行取车作业，再进行下一条专用线的取送车作业，直到完成所有专用线的取送车作业，获取机车作业所用的总时间作为标准作业时间。可以理解的是，预设调度顺序也可以根据实际情况进行调整，本实施例不作具体限制。

步骤S220，根据实际作业时间与该标准作业时间，定义该奖励函数。

在送车作业完成后，根据送车作业顺序和各专用线装车作业时间，确定取车顺序，完成全部专用线的取送车作业之后，根据取送车作业顺序计算出实际作业时间，根据实际作业时间与该标准作业时间，定义该奖励函数。例如，可以计算实际作业时间与该标准作业时间的差值，设奖励值与该差值成正比，根据该差值计算奖励值，也可以将奖励值与该差值设置其他映射关系。

图3为本申请实施例提供的对强化学习模型进行训练的流程图，如图3所示，对强化学习模型进行训练包括步骤S131至步骤S134，其中：

步骤S131，获取当前位置，若当前位置为车站位置，则将状态空间设置为初始状态。

在其中一些实施例中，获取机车的当前位置，若机车的当前位置为车站位置，且所有专用线的送车状态均为未完成状态，则将状态空间设置为初始状态，例如，根据专用线条数的数量为六条，设置初始状态下的状态空间为S₀(0,000000)。

步骤S132，根据该初始状态，得到所有状态动作集合。

在其中一些实施例中，所有状态动作集合表示在当前状态下机车下一时间步是否前往的各专用线，例如，设置状态空间的初始状态为S₀(0,000000)，此时，动作集合为(000001，000010，000100，001000，010000，100000)。

步骤S133，根据该状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值。

在其中一些实施例中，最终奖励值可以用于表示对本次迭代过程送车顺序的评估值。图4为一个实施例中对强化学习模型进行一次迭代训练过程的示意图，如图4所示，设置该专用线条数为六条，设置状态空间的初始状态为S₀(0,000000)，此时，动作集合为(000001，000010，000100，001000，010000，100000)。在初始状态下，根据该动作集合，假设动作为010000。根据当前状态空间和动作更新状态空间，下一状态为(5，010000)，以此类推，根据以下送车顺序：(3，010100)，(2，010110)，(4，011110)，(6，111110)和(1，111111)，完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值。

步骤S134，根据该最终奖励值，得到该强化学习模型的经验值。

在其中一些实施例中，根据该最终奖励值和预设经验值计算公式，得到该强化学习模型的经验值。其中，预设经验值计算公式表示最终奖励值与经验值的映射关系。可以根据将多次迭代得到的最终奖励值和该预设经验值计算公式，计算该强化学习模型的经验值，也可以根据其他方式计算该强化学习模型的经验值，本申请不作限制。

图5为本申请实施例提供的计算一次迭代的最终奖励值的流程图，如图5所示，包括步骤S310至步骤S330：

步骤S310，根据当前该状态空间和该状态动作集合，在多条该专用线中选择第一专用线并完成送车。

在其中一些实施例中，设置该专用线条数为六条，设置状态空间的初始状态为S₀(0,000000)，此时，动作集合为(000001，000010，000100，001000，010000，100000)，根据当前状态空间为初始状态以及动作集合，可以在多条该专用线中选择5号专用线作为机车下一时间步前往的专用线，同时对应设置动作空间为010000，并完成该条专用线的送车作业。

步骤S320，更新状态空间，对其余专用线进行送车，直至完成所有专用线的送车，计算完成本次迭代所需的实际作业时间。

在其中一些实施例中，根据当前状态空间以及动作空间，经转移函数运算后指向下一状态空间，对其余该专用线进行送车，直至完成所有专用线的送车，计算完成本次迭代所需的实际作业时间。

步骤S330，根据实际作业时间、标准作业时间以及奖励函数，计算本次迭代的最终奖励值。

根据实际作业时间、标准作业时间以及奖励函数，计算每一次迭代的最终奖励值，图6为本申请实施例中最终奖励值变化的示意图，如图6所示，经过多次迭代训练得到的最终奖励值逐渐趋于平稳，从而得到强化学习模型的经验值。

在其中一些实施例中，计算实际作业时间和标准作业时间的差值，将该差值作为本次迭代的最终奖励值。

例如，标准时间T_max为912，本次迭代的实际作业时间T_sum为224，则本次迭代的最终奖励值为R_m＝T_max-T_sum＝668。

在其中一些实施例中，根据该最终奖励值，得到该强化学习模型的经验值包括步骤S510至步骤S520：

步骤S510，构建Q矩阵，Q矩阵用于表示训练过程中得到的经验值。

图7为本申请实施例中Q矩阵的示意图，Q矩阵的第1列表示状态空间，第2至7列表示在当前状态下选择某一动作的经验值。Q矩阵的行数为n×2^n-1+1，本实施例中为193行。

步骤S520，根据最终奖励值和Q矩阵更新规则更新Q矩阵，得到强化学习模型的经验值。

在其中一些实施例中，根据本次迭代的最终奖励值与本次迭代前Q矩阵中的经验值更新Q矩阵，并将更新后Q矩阵中的经验值作为强化学习模型的经验值。通过将本次迭代的最终奖励值与本次迭代前Q矩阵中的经验值进行比较，从本次迭代的最终奖励值与本次迭代前Q矩阵中选择数值较大的作为更新后Q矩阵中的经验值，从而得到强化学习模型的经验值。

在其中一些实施例中，根据最终奖励值和矩阵更新公式(1)更新该Q矩阵，得到该强化学习模型的经验值：

其中，Q(s,a)表示状态s下，选择动作a的经验值，也就是更新后Q矩阵中经验值；Q'(s,a)表示更新前Q矩阵中的经验值；R_m表示第m次迭代的最终奖励值；α表示学习率，取值范围为0-1，α越大，表示更新后Q矩阵中的经验值所占的比例越高，而更新前Q矩阵中的经验值所占的比例越低，本实施例中取0.3。

例如，完成本次迭代的最终奖励值为R_m＝T_max-T_sum＝668。送车顺序为h＝5,3,2,4,6,1，根据公式(1)依次计算每一专用线对应的Q值，并更新该Q矩阵。

Q(S₅＝(6,111110),a₅＝1)＝0+0.3×(688-0)＝206.4

Q(S₄＝(4,011110),a₄＝6)＝0+0.3×(688-0)＝206.4

Q(S₃＝(2,010110),a₃＝4)＝0+0.3×(688-0)＝206.4

Q(S₂＝(3,010100),a₂＝2)＝0+0.3×(688-0)＝206.4

Q(S₁＝(5,010000),a₁＝3)＝0+0.3×(688-0)＝206.4

Q(S₀＝(0,000000),a₀＝5)＝0+0.3×(688-0)＝206.4

上述车辆调度方法，通过构建Q矩阵来表示训练过程中得到的经验值，根据该最终奖励值更新该Q矩阵，通过多次训练得到的Q矩阵来存储多次训练的经验值，在实际应用场景中，根据该Q矩阵存储的经验值选择最佳取送方案进行取送车作业，具有灵活方便和适用范围广的优点。

本申请还提供以下一个具体的实施例，对车辆调度方法作进一步详细说明。

本实施例以专用线条数的数量为6条为例进行说明，在本实施例中，上述车辆调度方法包括如下步骤：

步骤S610，获取与车站衔接的专用线条数的数量信息、专用线的布设方式、专用线代号、取送走行时间、装车作业时间和装车数，其中，专用线条数为六条，与该车站衔接的六条专用线采用放射形专用线布设方式，表1为具体实施例中的各条专用线信息表：

表1具体实施例中的各条专用线信息表

其中，该取送走行时间可以用于表示机车前往每一条专用线进行取车作业的实际作业时间或送车作业的实际作业时间，该装车作业时间可以用于表示每一条专用线的等待装车的时间，装车数可以用于表示每一条专用线需要装车的机车数量。

步骤S620，根据该专用线条数为六条，定义强化学习模型状态空间为设置状态空间的初始状态为S₀(0,000000)，此时，动作集合为(000001，000010，000100，001000，010000，100000)，在一次迭代过程中，在初始状态下，根据该动作集合，设置动作空间为010000，根据当前状态空间和动作空间更新状态空间，下一状态空间为(5，010000)，以此类推，根据以下送车顺序(3，010100)、(2，010110)、(4，011110)、(6，111110)、(1，111111)完成所有专用线的送车作业，终止状态的状态空间为(1，111111)。

步骤S630，根据当前状态空间和状态动作集合，在多条专用线中选择第一专用线并完成送车；更新状态空间，对其余专用线进行送车，直至完成所有专用线的送车，计算完成本次迭代所需的实际作业时间；根据实际作业时间、标准作业时间以及奖励函数，计算本次迭代的最终奖励值。

步骤S640，标调度顺序表示送车时间最短的送车顺序，可以设置车辆调度方案的评估规则为送车时间和经验值的映射关系，根据预设车辆调度方案的评估规则以及该经验值确定车辆调度顺序。图8a至图8d为本申请实施例中最佳取送方案的技术作业总时间示意图，由仿真结果可知最佳送车方案为：(3,5,4,6,1,2)、(5,3,2,4,6,1)、(5,6,2,3,4,1)和(6,5,3,4,1,2)。

需要说明的是该车辆调度顺序是指送车顺序，在送车顺序确定的前提下，取车顺序可以根据装车作业完成的先后来确定，根据装车作业时间可确定以下4个最佳取送方案：{(3,5,4,6,1,2),(1,4,3,2,6,5)}、{(5,3,2,4,6,1),(2,1,4,3,5,6)}、{(5,6,2,3,4,1),(2,1,6,4,5,3)}和{(6,5,3,4,1,2),(1,6,4,2,3,5)}，其中，送车顺序在前，取车顺序在后。

传统时差顺序法为减少计算方案数量根据经验先送货物作业时间最大的专用线，这样会错过其它最佳取送方案。使用本申请提出的方法得到的最佳取送方案与时差顺序法计算得到的方案相比，本申请提出的方法可以得到传统时差顺序法的方案的同时，还可以得到其他最佳方案以供选择。

上述车辆调度方法，通过构建强化学习模型，对该强化学习模型进行训练，得到强化学习模型的经验值，根据该经验值确定车辆调度顺序，可以得到专用线取送车的全部最佳取送方案，解决了时差顺序法在求解最佳取送方案时，为了减少计算方案数量会错过其它最佳取送方案的问题。

应理解的是，虽然图1、3和5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、3和5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

对应于上述车辆调度方法，在本实施例中，还提供了车辆调度装置，装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

根据本申请的另一个方面，还提供了一种车辆调度装置，图9为本申请实施例中车辆调度装置的结构框图，如图9所示，该装置包括：

获取模块901，用于获取与车站衔接的专用线条数信息。

构建模块902，用于根据专用线条数信息构建强化学习模型。

训练模块903，用于对强化学习模型进行训练，得到强化学习模型的经验值。

确定模块904，用于根据经验值确定车辆调度顺序。

上述车辆调度装置包括获取模块901、构建模块902、训练模块903和确定模块904。通过上述车辆调度装置，对该强化学习模型进行训练，得到强化学习模型的经验值，根据该经验值确定车辆调度顺序，可以得到专用线取送车的全部最佳取送方案，解决了时差顺序法在求解最佳取送方案时，为了减少计算方案数量会错过其它最佳取送方案的问题。

在其中一些实施例中，构建模块902包括第一定义单元、第二定义单元和第三定义单元，其中：

第一定义单元，用于根据所述专用线条数定义状态空间，所述状态空间用于表示机车当前所在位置以及当前每一所述专用线的送车状态。

第二定义单元，用于定义动作空间，所述动作空间用于表示机车下一时间步前往的专用线。

第三定义单元，用于定义奖励函数，所述奖励函数用于表示所述机车完成所有所述专用线的送车作业后得到的奖励值。

在其中一些实施例中，第三定义单元包括时间获取子单元和奖励函数子单元，其中：

时间获取子单元，用于根据预设调度顺序获取机车作业所需的标准作业时间。

奖励函数子单元，用于根据实际作业时间与所述标准作业时间，定义所述奖励函数。

在其中一些实施例中，训练模块903包括初始化单元、状态动作获取单元、奖励值求解单元和经验值求解单元，其中：

初始化单元，用于获取当前位置，若当前位置为车站位置，且各专用线均未完成取送车作业，则将状态空间设置为初始状态。

状态动作获取单元，用于根据所述初始状态，得到所有状态动作集合。

奖励值求解单元，用于根据所述状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值。

经验值求解单元，用于根据所述最终奖励值，得到所述强化学习模型的经验值。

在其中一些实施例中，奖励值求解单元还用于根据当前所述状态空间和所述状态动作集合，在多条所述专用线中选择第一专用线并完成送车；更新所述状态空间，对其余所述专用线进行送车，直至完成所有专用线的送车，计算完成本次迭代所需的实际作业时间；根据所述实际作业时间、标准作业时间以及所述奖励函数，计算本次迭代的最终奖励值。

在其中一些实施例中，经验值求解单元包括Q矩阵构建子单元和经验值求解子单元，其中：

Q矩阵构建子单元，用于构建Q矩阵，所述Q矩阵用于表示训练过程中得到的经验值。

经验值求解子单元，用于根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值。

在其中一些实施例中，经验值求解子单元还用于根据本次迭代的最终奖励值与本次迭代前所述Q矩阵中的经验值更新所述Q矩阵，并将更新后所述Q矩阵中的经验值作为所述强化学习模型的经验值。

关于车辆调度装置的具体限定可以参见上文中对于车辆调度方法的限定，在此不再赘述。上述车辆调度装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，图10为本申请实施例中计算机设备的内部结构图，如图10所示，该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述车辆调度方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一些实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

步骤S110，获取与车站衔接的专用线条数信息；

步骤S120，根据该专用线条数信息构建强化学习模型；

步骤S130，对该强化学习模型进行训练，得到强化学习模型的经验值；

步骤S140，根据该经验值确定车辆调度顺序。

在其中一些实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

步骤S110，获取与车站衔接的专用线条数信息；

步骤S120，根据该专用线条数信息构建强化学习模型；

步骤S140，根据该经验值确定车辆调度顺序。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种车辆调度方法，其特征在于，所述方法包括：

获取与车站衔接的专用线条数信息；

根据所述专用线条数信息构建强化学习模型；

根据所述经验值确定车辆调度顺序；

其中，所述根据所述专用线条数信息构建强化学习模型包括：

定义奖励函数，所述奖励函数用于表示所述机车完成所有所述专用线的送车作业后得到的奖励值；

所述对所述强化学习模型进行训练，得到强化学习模型的经验值包括：

根据所述初始状态，得到所有状态动作集合；

根据所述最终奖励值，得到所述强化学习模型的经验值；

所述根据所述状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值包括：

根据所述实际作业时间、标准作业时间以及所述奖励函数，计算本次迭代的最终奖励值；

所述根据所述最终奖励值，得到所述强化学习模型的经验值包括：

构建Q矩阵，所述Q矩阵用于表示训练过程中得到的经验值；

根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值；

根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值包括：

2.根据权利要求1所述的方法，其特征在于，所述定义奖励函数包括：

根据预设调度顺序获取机车作业所需的标准作业时间；

3.一种车辆调度装置，其特征在于，所述装置包括：

获取模块，用于获取与车站衔接的专用线条数信息；

确定模块，用于根据所述经验值确定车辆调度顺序；

其中，所述构建模块包括：

第一定义单元，用于根据所述专用线条数定义状态空间，所述状态空间用于表示机车当前所在位置以及当前每一所述专用线的送车状态；

第二定义单元，用于定义动作空间，所述动作空间用于表示机车下一时间步前往的专用线；

第三定义单元，用于定义奖励函数，所述奖励函数用于表示所述机车完成所有所述专用线的送车作业后得到的奖励值；

所述训练模块包括：

初始化单元，用于获取当前位置，若当前位置为车站位置，且各专用线均未完成取送车作业，则将状态空间设置为初始状态；

状态动作获取单元，用于根据所述初始状态，得到所有状态动作集合；

奖励值求解单元，用于根据所述状态动作集合完成所有专用线的送车作业，作为一次迭代过程并计算本次迭代的最终奖励值；

经验值求解单元，用于根据所述最终奖励值，得到所述强化学习模型的经验值；

其中，所述奖励值求解单元，还用于根据当前所述状态空间和所述状态动作集合，在多条所述专用线中选择第一专用线并完成送车；更新所述状态空间，对其余所述专用线进行送车，直至完成所有专用线的送车，计算完成本次迭代所需的实际作业时间；根据所述实际作业时间、标准作业时间以及所述奖励函数，计算本次迭代的最终奖励值；

所述经验值求解单元，包括：

Q矩阵构建子单元，用于构建Q矩阵，所述Q矩阵用于表示训练过程中得到的经验值；

经验值求解子单元，用于根据所述最终奖励值和Q矩阵更新规则更新所述Q矩阵，得到所述强化学习模型的经验值；

所述经验值求解子单元，还用于根据本次迭代的最终奖励值与本次迭代前所述Q矩阵中的经验值更新所述Q矩阵，并将更新后所述Q矩阵中的经验值作为所述强化学习模型的经验值。

4.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。