CN111737826B

CN111737826B - 一种基于增强学习的轨道交通自动仿真建模方法及装置

Info

Publication number: CN111737826B
Application number: CN202010690764.3A
Authority: CN
Inventors: 韦伟; 石晶; 刘岭; 刘军; 张波
Original assignee: CRSC Research and Design Institute Group Co Ltd
Current assignee: CRSC Research and Design Institute Group Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-24
Anticipated expiration: 2040-07-17
Also published as: CN111737826A

Abstract

本发明公开了一种基于增强学习的轨道交通自动仿真建模方法及装置，所述方法包括，首先，以客流作为仿真的研究对象，搭建客流仿真***；初始化客流仿真***在t时刻的状态为

，其次，仿真模拟获得列车在行驶区段的断面客流量拥挤度惩罚函数和乘客t时刻选择路径动作的惩罚函数；然后，将乘客选择路径动作所得到的奖赏值作为研究对象在t时刻的回报函数；然后，执行客流仿真***仿真训练，更新相关网络参数，然后，获取训练完成的客流仿真模型；最终，提取动作函数作为旅客的路径选择概率生成函数。根据已知的运行逻辑和参数建立仿真***，自动的获得仿真***中未知的参数取值，从而获得仿真模型能够准确描述真实***。

Description

一种基于增强学习的轨道交通自动仿真建模方法及装置

技术领域

本发明属于轨道交通领域，特别涉及一种基于增强学习的轨道交通自动仿真建模方法及装置。

背景技术

现有的轨道交通领域应用的仿真建模是采用由特殊到一般的逻辑归纳方法，根据一定数量的在***运行过程中实测、观察的物理量数据，运用统计规律、***辨识等理论合理估计出反映***各物理量相互制约关系的数学模型，其主要依据是来自***的大量实测数据。当对所研究***的内部结构和特性尚不清楚、未知部分参数时，***内部的机理变化规律就不能确定，往往很难获取能够准确描述真实***的仿真参数，导致仿真模型与真实***之间存在差异，即导致仿真***与真实***不相匹配，难以支撑对复杂***的深入研究分析和决策制定。

此外，既有仿真建模方法中通过专家分析或研究者主观设置方式，通常由于未充分考虑***中的复杂的运行逻辑和状态转移过程，所考虑的因素过于片面，与实际***之间存在差异较大。进一步，采用函数标定的方式进行仿真参数获取时，往往需要被模拟真实***运行参数与运行指标之间关系的大量的标签数据，这在仿真建模和仿真***研发过程中往往难以获取。

从而，如何提供一种能够充分考虑轨道交通的运行逻辑、自动获取合理仿真参数的仿真建模方法及装置越来越成为亟待解决的技术问题。

发明内容

针对上述问题，本发明提供了一种基于增强学习的轨道交通自动仿真建模方法及装置，获取的仿真模型能够准确的描述真实***。

本发明的目的在于提供一种基于增强学习的轨道交通自动仿真建模方法，所述自动仿真建模方法包括，

以车站和客流作为仿真的研究对象，搭建客流仿真***；

基于车站a在t时刻的客流拥挤度仿真模拟值

、列车行驶区段b在t时刻的客流拥挤度仿真模拟值

和仿真***中列车在t时刻的发车时间间隔

，初始化客流仿真系统在列车运行过程中t时刻的状态为

，其中，a、b均为大于0的整数；

在列车运行过程中t时刻的状态

下，确定列车行驶区段的断面客流量拥挤度的惩罚函数和乘客在t时刻选择路径动作的惩罚函数；

将在列车运行过程中t时刻的状态

下，乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数；

执行客流仿真***仿真训练，更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数；

基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数，获取训练完成的客流仿真模型；

基于所述客流仿真模型，提取动作函数作为旅客的路径选择概率生成函数。

进一步地，在列车运行过程中t时刻的状态

下，列车行驶区段的断面客流量拥挤度的惩罚函数满足：

其中，

表示车站a在t时刻的客流拥挤度仿真模拟值，

表示车站a在t时刻的客流拥挤度的实际取值，

表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值，

表示在t时刻列车所行驶区段b的客流拥挤度实际取值，M表示列车运行过程中从t时刻至T 时刻所经过的车站数目，N表示列车运行过程中从t时刻至T时刻所经过的区段数目，t为列车行驶区段断面流量统计的起始时刻，T表示列车行驶区段断面流量统计的结束时刻。

进一步地，在列车运行过程中t时刻的状态

下，确定乘客在t时刻选择路径动作的惩罚函数满足：

其中，

表示在t时刻的状态

下，乘客采取的路径选择动作；n表示每个OD之间具有的路径数目，且n为大于0的整数，

表示在t时刻的第j个OD内，乘客选择第r条路径的概率，j表示列车在运行过程的列车OD，j为大于0的整数，且r∈n，

为一个极小的正实数，

为一个极大的正实数。

进一步地，研究对象在t时刻的回报函数满足：

。

进一步地，所述执行客流仿真***仿真训练，更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数之前还包括,

初始化Actor网络参数

和Critic网络参数

；

采用参数为

和

的深度神经网络表示确定性策略

和动作值函数

；

基于Actor策略网络，将列车运行过程中t时刻的状态

作为输入，更新确定性策略；

基于Critic值网络，将列车运行过程中t时刻的状态

与乘客在t时刻选择路径动作的惩罚函数作为输入，以获取状态动作对的值函数。

进一步地，所述自动仿真建模方法还包括设置Actor策略网络，所述Actor策略网络包括输入层、多个隐层和输出层，其中，

所述Actor策略网络的输入层设置为3个节点；

所述Actor策略网络的多个隐层激活函数采用ReLU函数；

所述Actor策略网络的输出层采用sigmoid激活函数。

进一步地，所述自动仿真建模方法还包括设置Critic值网络，所述Critic值网络包括输入层、多个隐层和输出层，其中，

所述Critic值网络的输入层设置为4个节点；

所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数，第二个隐层至倒数第二个隐层的激活函数采用ReLU函数；

所述Critic值网络输出层的激活函数采用线性函数。

进一步地，所述执行客流仿真***仿真训练，Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括，

将随机过程N添加到所述Actor网络参数

的确定性策略上；

将t时刻的状态

、乘客在t时刻选择路径动作的惩罚函数、研究对象在t时刻的回报函数以及t+1时刻的状态

存储到经验池W中；

对经验池W采样，随机的选取K个状态动作对

，计算Critic网络当前的动作期望回报；

基于最小化Critic网络的损失函数，更新Critic网络参数；

计算Actor策略网络的梯度，并使用梯度上升法更新Actor网络参数；

基于Critic网络参数和Actor网络参数，获取Actor和Critic目标网络的网络参数。

进一步地，所述自动仿真建模方法还包括，

将状态

输入旅客的路径选择概率生成函数，获取旅客的路径选择概率。

本发明的另一目的在于提供一种基于增强学习的轨道交通自动仿真建模装置，所述自动仿真建模装置包括，

搭建模块，用于以车站和客流作为仿真的研究对象，搭建客流仿真***；

状态获取模块，用于基于车站a在t时刻的客流拥挤度仿真模拟值

、列车行驶区段b在t时刻的客流拥挤度仿真模拟值

和仿真***中列车在t时刻的发车时间间隔

，初始化客流仿真***在列车运行过程中t时刻的状态为

，其中，a、b 均为大于0的整数；

惩罚函数获取模块，用于在列车运行过程中t时刻的状态

下，确定列车行驶区段的断面客流量拥挤度惩罚函数和乘客在t时刻选择路径动作的惩罚函数；

回报函数获取模块，用于将在列车运行过程中t时刻的状态

训练模块，用于执行客流仿真***仿真训练，更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数；

仿真模型获取模块，基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数，获取训练完成的客流仿真模型；

提取模块，用于基于所述客流仿真模型，提取动作函数作为旅客的路径选择概率生成函数。

本发明中的自动仿真方法将增强学习与仿真建模相结合，根据已知的运行逻辑和参数建立仿真***，通过深度强化学习的确定性策略对仿真***中的未知参数进行搜索，以降低仿真***与真实***之间的运行指标差异为目标，自动的获得仿真***中未知的参数取值，从而获得能够准确描述真实***的仿真模型。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模方法流程示意图；

图2示出了本发明实施例中一种Actor策略网络的结构示意图；

图3示出了本发明实施例中一种Critic值网络的结构示意图；

图4示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例中介绍了一种基于增强学习的轨道交通自动仿真建模方法，所述自动仿真建模方法包括，首先，以车站和客流作为仿真的研究对象，搭建客流仿真***；其次，基于车站a在t时刻的客流拥挤度仿真模拟值

、列车行驶区段b在t时刻的客流拥挤度仿真模拟值

和仿真***中列车在t时刻的发车时间间隔

，初始化客流仿真***在列车运行过程中t时刻的状态为

，其中，a、b均为大于0的整数；然后，在列车运行过程中t时刻的状态

下，确定列车行驶区段的断面客流量拥挤度惩罚函数和乘客在t时刻选择路径动作的惩罚函数；然后，将在列车运行过程中t时刻的状态

下，乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数；然后，执行客流仿真***仿真训练，更新Actor（行动者，一种神经网络）网络参数、Critic（评论家，一种神经网络）网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数；然后，基于 Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数，获取训练完成的客流仿真模型；最后，基于所述客流仿真模型，提取动作函数作为旅客的路径选择概率生成函数。将增强学习与仿真建模相结合，根据已知的运行逻辑和参数建立仿真***，即，将Actor策略网络和Critic值网络、状态、动作、回报综合起来，即通过增强学习的确定性策略对仿真***中的未知参数进行搜索，以降低仿真***与真实***之间的运行指标差异为目标，自动的获得仿真***中未知的参数取值，从而能够获得准确描述真实***的仿真模型。

具体的，采用

表示在列车运行过程中t时刻的状态

下，列车行驶区段的断面客流量拥挤度的惩罚函数，其中，

表示车站a在t时刻的客流拥挤度仿真模拟值，

表示车站a在t时刻的客流拥挤度的实际取值，

表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值，

表示在t时刻列车所行驶区段b的客流拥挤度实际取值，M表示列车运行过程中从t时刻至T时刻所经过的车站数目，N表示列车运行过程中从t时刻至T时刻所经过的区段数目，t为列车行驶区段断面流量统计的起始时刻，T表示列车行驶区段断面流量统计的结束时刻，则

满足：

（1）

在列车运行过程中t时刻的状态

下，确定乘客在t时刻选择路径动作的惩罚函数满足：

（2）

其中，

表示在t时刻的状态

表示在t时刻的第j个OD内，乘客选择第r条路径的概率，j表示列车在运行过程的列车OD（交通起止点：Origin Destination），j为大于0的整数，且r∈n，

为一个极小的正实数，M为一个极大的正实数。

研究对象在t时刻的回报函数

为在***状态

下，乘客采取的路径选择动作

得到的奖赏值，回报函数

如公式(3)所示。

（3）

进一步，初始化Actor网络参数

和Critic网络参数

，分别使用参数为

和

的深度神经网络来表示确定性策略

和动作值函数

，其中，

和Q代表函数。

本实施例中，所述基于增强学习的轨道交通自动仿真建模方法还包括设置Actor 策略网络，用于更新确定性策略，即通过

这个函数求得在t时刻的状态

下，乘客采取的路径选择动作

。具体的，如图2所示，本发明实施例中提供了一种Actor策略网络的结构，Actor策略网络的输入为t时刻的状态

，即在t时刻，列车途径车站a的客流拥挤度仿真模拟值

、列车行驶区段b的客流拥挤度仿真模拟值

和仿真***中列车的发车时间间隔

，因此Actor策略网络的输入层有3个节点；隐层激活函数采用ReLU函数（Rectified Linear Unit：线性整流函数），输出层采用sigmoid激活函数（神经网络的激活函数），输出动作即为确定性策略

。Actor策略网络结构包括多层隐层，同时，为防止Actor策略网络在训练过程中出现过拟合或梯度消失的情况，对Actor策略网络进行了 L1正则化处理，L1正则化处理为机器学习中重要的手段，在支持向量机学习过程中，是一种对于成本函数求解最优的过程。Actor策略网络用来更新确定性策略，对应Actor-Critic框架中的行动者，且确定性策略会根据状态

产生在t时刻，任意出发地和目的地之间，旅客选择各条路径的概率。

本实施例中，所述基于增强学习的轨道交通自动仿真建模方法还包括设置Critic 值网络，用来逼近状态动作的动作对值函数，具体的，如图3所示，提供了一种Critic值网络的结构，输入包括t时刻的状态

和在t时刻的状态

下，乘客采取的路径选择动作

，状态

包括在t时刻，列车途径车站的客流拥挤度仿真模拟值

、列车行驶区段的客流拥挤度仿真模拟值

和仿真***中列车的发车时间间隔

，因此输入层有4个节点。 Critic值网络设置为多层，第一个隐层激活函数采用tanh函数（双曲线正切函数），第二个隐层至倒数第二个隐层激活函数采用ReLU函数，最后一个隐层激活函数采用tanh函数，输出层的激活函数采用线性函数，输出为状态动作对的动作值函数

。其中，tanh 函数为双曲线正切函数，在(4)中表示。

（4）

动作值函数用来逼近状态动作对的值函数，通过值函数获得值能够衡量状态动作对的符合度，并提供梯度信息，对应Actor-Critic框架中的评论者。本实施例中，动作值函数，也称为Q函数，是一个神经网络，根据符合度（符合度越大越好）增加的方向，提供动作值函数神经网络参数的梯度信息，从而对其进行优化。

本实施例中，Actor策略网络和Critic值网络都是用于更新相应参数的神经网络。神经网络与仿真***的结合，能够在先验知识不足或仅能知晓部分基本参数下建立仿真模型，不仅有效减少建模过程的工作量，也能一定程度上弥补了由于建模样本数据要求过于严苛的问题。

本实施例中，所述执行客流仿真***仿真训练，更新Actor和Critic网络参数包括以下步骤：

步骤一、将随机过程N添加在Actor策略网络输出的动作上，以保证神经网络的探索过程，该过程如(5)所示。

（5）

然后，通过城市轨道交通车站客流仿真***不断产生***状态

、乘客采取的路径选择动作

、根据***状态

和乘客采取的路径选择动作

组成的回报函数

以及乘客采取的路径选择动作

后达到下一状态

，然后，

、

、

以及

四者构成状态动作对，并将其存储到经验池W中。

步骤二：对经验池W采样，随机的选取K个状态动作对

，通过公式 (6)计算Critic值网络当前的动作期望回报：

（6）

当前的动作期望回报是当前仿真状态

下，乘客采取的路径选择动作

下，仿真观测值与实际观测值之间的综合符合度，

为当前观测值的瞬时符合度，

为后续t+1时段观测值的符合度，

为折减系数。

最小化Critic值网络的损失函数

，实现对Critic 网络参数

的更新。通过公式(7)计算Actor网络的梯度，并使用梯度上升法（一个最优化算法，常用于机器学习和人工智能当中用来递归性地逼近目标函数）更新Actor网络参数。在仿真建模过程中引入策略梯度算法并通过***的经验回放，经验回放即上述从经验池W 采样的过程，避免了仿真***参数通过研究者主观设置或采用简单函数关系进行标定，与真实***之间存在差异较大的问题，从而很大程度的提高仿真***搭建精度和效率。

（7）

步骤三：重复步骤一和步骤二，根据公式(8)更新Critic和Actor目标网络的网络参数，

（8）

其中，

分别为Target-Critic网络（Critic目标网络）、 Critic网络、Target-Actor网络（Actor目标网络）以及Actor网络的网络参数，且

。

还代表的都是神经网络的参数集合。在网络参数更新过程中， Actor网络的是逐步依次迭代的，每隔一定步数，会将Actor网络参数赋给Target-Actor网络，这样保证Target-Actor相对稳定且波动性较小，使得仿真过程更加的稳定，同理， Critic网络与Target-Critic网络的关系类似。

基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数，最终获取客流仿真***基于增强学习训练好的仿真模型，即获得训练完成的确定性策略和动作值函数，确定性策略和动作值函数均为一种神经网络，训练完成的确定性策略和动作值函数，可以在客流仿真***仿真过程中用于实时产生仿真参数，进而就得到了较为准确的仿真模型。如下过程是城市轨道交通客流仿真***的训练过程。

城市轨道交通客流仿真计算过程：

初始化Critic网络和Actor网络参数：

和

初始化Critic和Actor网络的目标网络，直接复制参数：

初始化经验池W

1 For episode = 1,…,M do：

2 初始化随机过程N

3 获取城市轨道交通车站客流仿真的初始状态

4 For t=1,…,T do：

5 根据当前策略和随机噪声，选择动作：

6 执行动作

，获得奖励

和下一个状态

7 将状态动作对

存储到经验池W中

8 从经验池中随机采样K个状态动作对

9 计算Critic网络的“标签值”：

10 计算Critic网络的误差：

，并使梯度下降法（一个最优化算法，常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型）更新Critic网络参数

11 计算Actor网络的梯度，并使用梯度上升法更新Actor网络参数：

12 更新Critic和Actor网络目标的参数：

13 End for

14 End for

提取仿真模型中的动作函数

，作为仿真参数生成函数，在特定仿真系统状态下，将状态

输入仿真参数生成函数

，即可得到t时刻的仿真***下旅客的路径选择概率。

旅客选择各条路径的概率确定后，会在仿真模型模拟行人出行，乘客去到具体的路径上，就会改变路径上车站和区段的流量，这时候将这些流量与已知的实际的流量进行对比，误差越小表明路径选择函数与实际情况越贴近，从而就有一个滞后的奖励，这个滞后的奖励会使得模型不断调整参数，得到任意情况下产生出行路径概率（也就是

）的函数

，这个

就能够反应任意情况下旅客的路径选择规律，进而得到一个与实际相贴合且合理的仿真模型，从而基于增强学习与仿真建模相结合，根据已知的运行逻辑和参数建立仿真 ***，通过增强学习的确定性策略对仿真***中的未知参数进行搜索，以降低仿真***与真实***之间的运行指标差异为目标，自动的获得仿真***中未知的参数取值，从而获得能够准确描述真实***的仿真模型。

如图4所示，本发明实施例中还公开了一种基于增强学习的轨道交通自动仿真建模装置，用于执行上述所述方法，所述自动仿真建模装置包括，搭建模块，用于以车站和客流作为仿真的研究对象，搭建客流仿真***；状态获取模块，用于基于车站a在t时刻的客流拥挤度仿真模拟值

、列车行驶区段b在t时刻的客流拥挤度仿真模拟值

和仿真*** 中列车在t时刻的发车时间间隔

，初始化客流仿真***在列车运行过程中t时刻的状态为

，其中，a、b均为大于0的整数；惩罚函数获取模块，用于在列车运行过程中t时刻的状态

下，确定列车行驶区段的断面客流量拥挤度惩罚函数和乘客在t 时刻选择路径动作的惩罚函数；回报函数获取模块，用于将在列车运行过程中t时刻的状态

下，乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数；训练模块，用于执行客流仿真***仿真训练，更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数；仿真模型获取模块，基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数，获取训练完成的客流仿真模型；提取模块，用于基于所述客流仿真模型，提取动作函数作为旅客的路径选择概率生成函数。

在列车运行过程中t时刻的状态

下，列车行驶区段的断面客流量拥挤度的惩罚函数满足：

其中，

表示车站a在t时刻的客流拥挤度仿真模拟值，

表示车站a在t时刻的客流拥挤度的实际取值，

表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值，

在列车运行过程中t时刻的状态

下，确定乘客在t时刻选择路径动作的惩罚函数满足：

其中，

表示在t时刻的状态

为一个极小的正实数，M为一个极大的正实数。

研究对象在t时刻的回报函数满足：

。

所述训练模块还用于初始化Actor网络参数

和Critic网络参数

；

采用参数为

和

的深度神经网络表示确定性策略

和动作值函数

；

基于Actor策略网络，将列车运行过程中t时刻的状态

作为输入，更新确定性策略；

基于Critic值网络，将列车运行过程中t时刻的状态

所述自动仿真建模装置还包括网络设置模块，用于设置Actor策略网络，所述Actor策略网络包括输入层、多个隐层和输出层，其中，

所述Actor策略网络的输入层设置为3个节点；

所述Actor策略网络的多个隐层激活函数采用ReLU函数；

所述Actor策略网络的输出层采用sigmoid激活函数。

所述网络设置模块还用于设置Critic值网络，所述Critic值网络包括输入层、多个隐层和输出层，其中，

所述Critic值网络的输入层设置为4个节点；

所述Critic值网络输出层的激活函数采用线性函数。

所述训练模块还用于，

将随机过程N添加到所述Actor网络参数

的确定性策略上；

将t时刻的状态

存储到经验池W中；

对经验池W采样，随机的选取K个状态动作对

，计算Critic网络当前的动作期望回报；

基于最小化Critic网络的损失函数，更新Critic网络参数；

所述自动仿真建模装置还包括生成模块，用于将状态

输入旅客的路径选择概率生成函数，获取旅客在时间t的路径选择概率。

将增强学习与仿真建模相结合，根据已知的运行逻辑和参数建立仿真***，通过增强学习的确定性策略对仿真***中的未知参数进行搜索，以降低仿真***与真实***之间的运行指标差异为目标，自动的获得仿真***中未知的参数取值，从而获得能够准确描述真实***的仿真模型。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于增强学习的轨道交通自动仿真建模方法，其特征在于，所述自动仿真建模方法包括，

以车站和客流作为仿真的研究对象，搭建客流仿真***；

基于车站a在t时刻的客流拥挤度仿真模拟值

、列车行驶区段b在t时刻的客流拥挤度仿真模拟值

和仿真***中列车在t时刻的发车时间间隔

，初始化客流仿真***在列车运行过程中t时刻的状态为

，其中，a、b均为大于0的整数；

在列车运行过程中t时刻的状态

将在列车运行过程中t时刻的状态

下，乘客选择路径动作得到的奖赏值作为所述研究对象在t时刻的回报函数；

基于所述客流仿真模型，提取动作函数作为乘客的路径选择概率生成函数。

2.根据权利要求1所述的基于增强学习的轨道交通自动仿真建模方法，其特征在于，在列车运行过程中t时刻的状态

下，列车行驶区段的断面客流量拥挤度的惩罚函数满足：

其中，

表示车站a在t时刻的客流拥挤度仿真模拟值，

表示车站a在t时刻的客流拥挤度的实际取值，

表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值，

表示在t时刻列车所行驶区段b的客流拥挤度实际取值，M表示列车运行过程中从t时刻至T时刻所经过的车站数目，N表示列车运行过程中从t时刻至T时刻所经过的区段数目，t为列车行驶区段断面流量统计的起始时刻，T表示列车行驶区段断面流量统计的结束时刻。

3.根据权利要求2所述的基于增强学习的轨道交通自动仿真建模方法，其特征在于，在列车运行过程中t时刻的状态

下，确定乘客在t时刻选择路径动作的惩罚函数满足：

其中，

表示在t时刻的状态

为一个极小的正实数，

为一个极大的正实数。

4.根据权利要求3所述的基于增强学习的轨道交通自动仿真建模方法，其特征在于，所述研究对象在t时刻的回报函数满足：

。

5.根据权利要求3所述的基于增强学习的轨道交通自动仿真建模方法，其特征在于，所述执行客流仿真***仿真训练，更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数之前还包括,

初始化Actor网络参数

和Critic网络参数

；

采用参数为

和

的深度神经网络表示确定性策略

和动作值函数

；

基于Actor策略网络，将列车运行过程中t时刻的状态

作为输入，更新确定性策略；

基于Critic值网络，将列车运行过程中t时刻的状态

6.根据权利要求5所述的基于增强学习的轨道交通自动仿真建模方法，其特征在于，所述自动仿真建模方法还包括设置Actor策略网络，所述Actor策略网络包括输入层、多个隐层和输出层，其中，

所述Actor策略网络的输入层设置为3个节点；

所述Actor策略网络的多个隐层激活函数采用ReLU函数；

所述Actor策略网络的输出层采用sigmoid激活函数。

7.根据权利要求6所述的轨道交通自动仿真建模方法，其特征在于，所述自动仿真建模方法还包括设置Critic值网络，所述Critic值网络包括输入层、多个隐层和输出层，其中，

所述Critic值网络的输入层设置为4个节点；

所述Critic值网络输出层的激活函数采用线性函数。

8.根据权利要求5-7任一所述的基于增强学习的轨道交通自动仿真建模方法，其特征在于，所述执行客流仿真***仿真训练，更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括，

将随机过程N添加到所述Actor网络参数

的确定性策略上；

将t时刻的状态

、乘客在t时刻采取的选择路径动作、所述研究对象在t时刻的回报函数以及t+1时刻的状态

存储到经验池W中；

对经验池W采样，随机的选取K个状态动作对

，计算Critic值网络当前的动作期望回报；

基于最小化Critic值网络的损失函数，更新Critic网络参数；

9.根据权利要求1-6任一所述的基于增强学习的轨道交通自动仿真建模方法，其特征在于，所述自动仿真建模方法还包括，

将状态

输入乘客的路径选择概率生成函数，获取乘客的路径选择概率。

10.一种基于增强学习的轨道交通自动仿真建模装置，其特征在于，所述自动仿真建模装置包括，

、列车行驶区段b在t时刻的客流拥挤度仿真模拟值

和仿真***中列车在t时刻的发车时间间隔

，初始化客流仿真***在列车运行过程中t时刻的状态为

，其中，a、b均为大于0的整数；

惩罚函数获取模块，用于在列车运行过程中t时刻的状态

回报函数获取模块，用于将在列车运行过程中t时刻的状态

提取模块，用于基于所述客流仿真模型，提取动作函数作为乘客的路径选择概率生成函数。