CN111737826B - 一种基于增强学习的轨道交通自动仿真建模方法及装置 - Google Patents
一种基于增强学习的轨道交通自动仿真建模方法及装置 Download PDFInfo
- Publication number
- CN111737826B CN111737826B CN202010690764.3A CN202010690764A CN111737826B CN 111737826 B CN111737826 B CN 111737826B CN 202010690764 A CN202010690764 A CN 202010690764A CN 111737826 B CN111737826 B CN 111737826B
- Authority
- CN
- China
- Prior art keywords
- time
- simulation
- passenger
- train
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000005094 computer simulation Methods 0.000 title claims abstract description 39
- 230000002787 reinforcement Effects 0.000 title claims abstract description 31
- 238000004088 simulation Methods 0.000 claims abstract description 149
- 230000006870 function Effects 0.000 claims abstract description 133
- 230000009471 action Effects 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000011160 research Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 43
- 230000004913 activation Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001125 extrusion Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
Description
技术领域
本发明属于轨道交通领域,特别涉及一种基于增强学习的轨道交通自动仿真建模方法及装置。
背景技术
现有的轨道交通领域应用的仿真建模是采用由特殊到一般的逻辑归纳方法,根据一定数量的在***运行过程中实测、观察的物理量数据,运用统计规律、***辨识等理论合理估计出反映***各物理量相互制约关系的数学模型,其主要依据是来自***的大量实测数据。当对所研究***的内部结构和特性尚不清楚、未知部分参数时,***内部的机理变化规律就不能确定,往往很难获取能够准确描述真实***的仿真参数,导致仿真模型与真实***之间存在差异,即导致仿真***与真实***不相匹配,难以支撑对复杂***的深入研究分析和决策制定。
此外,既有仿真建模方法中通过专家分析或研究者主观设置方式,通常由于未充分考虑***中的复杂的运行逻辑和状态转移过程,所考虑的因素过于片面,与实际***之间存在差异较大。进一步,采用函数标定的方式进行仿真参数获取时,往往需要被模拟真实***运行参数与运行指标之间关系的大量的标签数据,这在仿真建模和仿真***研发过程中往往难以获取。
从而,如何提供一种能够充分考虑轨道交通的运行逻辑、自动获取合理仿真参数的仿真建模方法及装置越来越成为亟待解决的技术问题。
发明内容
针对上述问题,本发明提供了一种基于增强学习的轨道交通自动仿真建模方法及装置,获取的仿真模型能够准确的描述真实***。
本发明的目的在于提供一种基于增强学习的轨道交通自动仿真建模方法,所述自动仿真建模方法包括,
以车站和客流作为仿真的研究对象,搭建客流仿真***;
基于车站a在t时刻的客流拥挤度仿真模拟值、列车行驶区段b在t时刻的客流
拥挤度仿真模拟值和仿真***中列车在t时刻的发车时间间隔,初始化客流仿真系
统在列车运行过程中t时刻的状态为,其中,a、b均为大于0的整数;
执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
其中,表示车站a在t时刻的客流拥挤度仿真模拟值,表示车站a在t时刻的
客流拥挤度的实际取值,表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T
时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列
车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
其中,表示在t时刻的状态下,乘客采取的路径选择动作;n表示每个OD之间
具有的路径数目,且n为大于0的整数,表示在t时刻的第j个OD内,乘客选择第r条路径的
概率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,为一个极小的正实数,为一个极大的正实数。
进一步地,研究对象在t时刻的回报函数满足:
进一步地,所述执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数之前还包括,
进一步地,所述自动仿真建模方法还包括设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
进一步地,所述自动仿真建模方法还包括设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
进一步地,所述执行客流仿真***仿真训练,Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括,
基于最小化Critic网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
进一步地,所述自动仿真建模方法还包括,
本发明的另一目的在于提供一种基于增强学习的轨道交通自动仿真建模装置,所述自动仿真建模装置包括,
搭建模块,用于以车站和客流作为仿真的研究对象,搭建客流仿真***;
状态获取模块,用于基于车站a在t时刻的客流拥挤度仿真模拟值、列车行驶
区段b在t时刻的客流拥挤度仿真模拟值和仿真***中列车在t时刻的发车时间间隔,初始化客流仿真***在列车运行过程中t时刻的状态为,其中,a、b
均为大于0的整数;
训练模块,用于执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
仿真模型获取模块,基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
提取模块,用于基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
本发明中的自动仿真方法将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真***,通过深度强化学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与真实***之间的运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而获得能够准确描述真实***的仿真模型。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模方法流程示意图;
图2示出了本发明实施例中一种Actor策略网络的结构示意图;
图3示出了本发明实施例中一种Critic值网络的结构示意图;
图4示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例中介绍了一种基于增强学习的轨道交通自动仿真建模
方法,所述自动仿真建模方法包括,首先,以车站和客流作为仿真的研究对象,搭建客流仿
真***;其次,基于车站a在t时刻的客流拥挤度仿真模拟值、列车行驶区段b在t时刻的
客流拥挤度仿真模拟值和仿真***中列车在t时刻的发车时间间隔,初始化客流仿
真***在列车运行过程中t时刻的状态为,其中,a、b均为大于0的整
数;然后,在列车运行过程中t时刻的状态下,确定列车行驶区段的断面客流量拥挤度惩
罚函数和乘客在t时刻选择路径动作的惩罚函数;然后,将在列车运行过程中t时刻的状态下,乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数;然后,执行客流
仿真***仿真训练,更新Actor(行动者,一种神经网络)网络参数、Critic(评论家,一种神
经网络)网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;然后,基于
Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参
数,获取训练完成的客流仿真模型;最后,基于所述客流仿真模型,提取动作函数作为旅客
的路径选择概率生成函数。将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建
立仿真***,即,将Actor策略网络和Critic值网络、状态、动作、回报综合起来,即通过增强
学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与真实***之间的
运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而能够获得准确描述真
实***的仿真模型。
具体的,采用表示在列车运行过程中t时刻的状态下,列车行驶区段的
断面客流量拥挤度的惩罚函数,其中,表示车站a在t时刻的客流拥挤度仿真模拟值,表示车站a在t时刻的客流拥挤度的实际取值,表示在t时刻列车所行驶区段b的客
流拥挤度仿真模拟值,表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列
车运行过程中从t时刻至T时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻
所经过的区段数目,t为列车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面
流量统计的结束时刻,则满足:
其中,表示在t时刻的状态下,乘客采取的路径选择动作;n表示每个OD之间具
有的路径数目,且n为大于0的整数,表示在t时刻的第j个OD内,乘客选择第r条路径的概
率,j表示列车在运行过程的列车OD(交通起止点:Origin Destination),j为大于0的整数,
且r∈n,为一个极小的正实数,M为一个极大的正实数。
本实施例中,所述基于增强学习的轨道交通自动仿真建模方法还包括设置Actor
策略网络,用于更新确定性策略,即通过这个函数求得在t时刻的状态下,乘
客采取的路径选择动作。具体的,如图2所示,本发明实施例中提供了一种Actor策略网络
的结构,Actor策略网络的输入为t时刻的状态,即在t时刻,列车途径车站a的客流拥挤
度仿真模拟值、列车行驶区段b的客流拥挤度仿真模拟值和仿真***中列车的发
车时间间隔,因此Actor策略网络的输入层有3个节点;隐层激活函数采用ReLU函数
(Rectified Linear Unit:线性整流函数),输出层采用sigmoid激活函数(神经网络的激活
函数),输出动作即为确定性策略。Actor策略网络结构包括多层隐层,同时,为
防止Actor策略网络在训练过程中出现过拟合或梯度消失的情况,对Actor策略网络进行了
L1正则化处理,L1正则化处理为机器学习中重要的手段,在支持向量机学习过程中,是一种
对于成本函数求解最优的过程。Actor策略网络用来更新确定性策略,对应Actor-Critic框
架中的行动者,且确定性策略会根据状态产生在t时刻,任意出发地和目的地之间,旅客
选择各条路径的概率。
本实施例中,所述基于增强学习的轨道交通自动仿真建模方法还包括设置Critic
值网络,用来逼近状态动作的动作对值函数,具体的,如图3所示,提供了一种Critic值网络
的结构,输入包括t时刻的状态和在t时刻的状态下,乘客采取的路径选择动作,状
态包括在t时刻,列车途径车站的客流拥挤度仿真模拟值、列车行驶区段的客流拥
挤度仿真模拟值和仿真***中列车的发车时间间隔,因此输入层有4个节点。
Critic值网络设置为多层,第一个隐层激活函数采用tanh函数(双曲线正切函数),第二个
隐层至倒数第二个隐层激活函数采用ReLU函数,最后一个隐层激活函数采用tanh函数,输
出层的激活函数采用线性函数,输出为状态动作对的动作值函数。其中,tanh
函数为双曲线正切函数,在(4)中表示。
动作值函数用来逼近状态动作对的值函数,通过值函数获得值能够衡量状态动作对的符合度,并提供梯度信息,对应Actor-Critic框架中的评论者。本实施例中,动作值函数,也称为Q函数,是一个神经网络,根据符合度(符合度越大越好)增加的方向,提供动作值函数神经网络参数的梯度信息,从而对其进行优化。
本实施例中,Actor策略网络和Critic值网络都是用于更新相应参数的神经网络。神经网络与仿真***的结合,能够在先验知识不足或仅能知晓部分基本参数下建立仿真模型,不仅有效减少建模过程的工作量,也能一定程度上弥补了由于建模样本数据要求过于严苛的问题。
本实施例中,所述执行客流仿真***仿真训练,更新Actor和Critic网络参数包括以下步骤:
步骤一、将随机过程N添加在Actor策略网络输出的动作上,以保证神经网络的探索过程,该过程如(5)所示。
然后,通过城市轨道交通车站客流仿真***不断产生***状态、乘客采取的路
径选择动作、根据***状态和乘客采取的路径选择动作组成的回报函数
以及乘客采取的路径选择动作后达到下一状态,然后,、、以及
四者构成状态动作对,并将其存储到经验池W中。
最小化Critic值网络的损失函数,实现对Critic
网络参数的更新。通过公式(7)计算Actor网络的梯度,并使用梯度上升法(一个最优化
算法,常用于机器学习和人工智能当中用来递归性地逼近目标函数)更新Actor网络参数。
在仿真建模过程中引入策略梯度算法并通过***的经验回放,经验回放即上述从经验池W
采样的过程,避免了仿真***参数通过研究者主观设置或采用简单函数关系进行标定,与
真实***之间存在差异较大的问题,从而很大程度的提高仿真***搭建精度和效率。
步骤三:重复步骤一和步骤二,根据公式(8)更新Critic和Actor目标网络的网络参数,
其中,分别为Target-Critic网络(Critic目标网络)、
Critic网络、Target-Actor网络(Actor目标网络)以及Actor网络的网络参数,且。还代表的都是神经网络的参数集合。在网络参数更新过程中,
Actor网络的是逐步依次迭代的,每隔一定步数,会将Actor网络参数赋给Target-Actor网
络,这样保证Target-Actor相对稳定且波动性较小,使得仿真过程更加的稳定,同理,
Critic网络与Target-Critic网络的关系类似。
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,最终获取客流仿真***基于增强学习训练好的仿真模型,即获得训练完成的确定性策略和动作值函数,确定性策略和动作值函数均为一种神经网络,训练完成的确定性策略和动作值函数,可以在客流仿真***仿真过程中用于实时产生仿真参数,进而就得到了较为准确的仿真模型。如下过程是城市轨道交通客流仿真***的训练过程。
城市轨道交通客流仿真计算过程:
初始化经验池W
1 For episode = 1,…,M do:
2 初始化随机过程N
4 For t=1,…,T do:
9 计算Critic网络的“标签值”:
10 计算Critic网络的误差:
11 计算Actor网络的梯度,并使用梯度上升法更新Actor网络参数:
12 更新Critic和Actor网络目标的参数:
13 End for
14 End for
旅客选择各条路径的概率确定后,会在仿真模型模拟行人出行,乘客去到具体的
路径上,就会改变路径上车站和区段的流量,这时候将这些流量与已知的实际的流量进行
对比,误差越小表明路径选择函数与实际情况越贴近,从而就有一个滞后的奖励,这个滞后
的奖励会使得模型不断调整参数,得到任意情况下产生出行路径概率(也就是)的函数
,这个就能够反应任意情况下旅客的路径选择规律,进而得到一个与实际相贴合且合理
的仿真模型,从而基于增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真
***,通过增强学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与
真实***之间的运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而获得
能够准确描述真实***的仿真模型。
如图4所示,本发明实施例中还公开了一种基于增强学习的轨道交通自动仿真建
模装置,用于执行上述所述方法,所述自动仿真建模装置包括,搭建模块,用于以车站和客
流作为仿真的研究对象,搭建客流仿真***;状态获取模块,用于基于车站a在t时刻的客流
拥挤度仿真模拟值、列车行驶区段b在t时刻的客流拥挤度仿真模拟值和仿真***
中列车在t时刻的发车时间间隔,初始化客流仿真***在列车运行过程中t时刻的状态
为,其中,a、b均为大于0的整数;惩罚函数获取模块,用于在列车运
行过程中t时刻的状态下,确定列车行驶区段的断面客流量拥挤度惩罚函数和乘客在t
时刻选择路径动作的惩罚函数;回报函数获取模块,用于将在列车运行过程中t时刻的状态下,乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数;训练模块,用于
执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络
参数和Critic目标网络的网络参数;仿真模型获取模块,基于Actor网络参数、Critic网络
参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真
模型;提取模块,用于基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成
函数。
其中,表示车站a在t时刻的客流拥挤度仿真模拟值,表示车站a在t时刻的
客流拥挤度的实际取值,表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T
时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列
车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
其中,表示在t时刻的状态下,乘客采取的路径选择动作;n表示每个OD之间
具有的路径数目,且n为大于0的整数,表示在t时刻的第j个OD内,乘客选择第r条路径
的概率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,为一个极小的正实
数,M为一个极大的正实数。
研究对象在t时刻的回报函数满足:
所述自动仿真建模装置还包括网络设置模块,用于设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
所述网络设置模块还用于设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
所述训练模块还用于,
基于最小化Critic网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真***,通过增强学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与真实***之间的运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而获得能够准确描述真实***的仿真模型。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法包括,
以车站和客流作为仿真的研究对象,搭建客流仿真***;
基于车站a在t时刻的客流拥挤度仿真模拟值、列车行驶区段b在t时刻的客流拥挤度仿真模拟值和仿真***中列车在t时刻的发车时间间隔,初始化客流仿真***在列车运行过程中t时刻的状态为,其中,a、b均为大于0的整数;
执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
基于所述客流仿真模型,提取动作函数作为乘客的路径选择概率生成函数。
6.根据权利要求5所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
7.根据权利要求6所述的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
8.根据权利要求5-7任一所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括,
基于最小化Critic值网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
10.一种基于增强学习的轨道交通自动仿真建模装置,其特征在于,所述自动仿真建模装置包括,
搭建模块,用于以车站和客流作为仿真的研究对象,搭建客流仿真***;
状态获取模块,用于基于车站a在t时刻的客流拥挤度仿真模拟值、列车行驶区段b在t时刻的客流拥挤度仿真模拟值和仿真***中列车在t时刻的发车时间间隔,初始化客流仿真***在列车运行过程中t时刻的状态为,其中,a、b均为大于0的整数;
训练模块,用于执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
仿真模型获取模块,基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
提取模块,用于基于所述客流仿真模型,提取动作函数作为乘客的路径选择概率生成函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010690764.3A CN111737826B (zh) | 2020-07-17 | 2020-07-17 | 一种基于增强学习的轨道交通自动仿真建模方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010690764.3A CN111737826B (zh) | 2020-07-17 | 2020-07-17 | 一种基于增强学习的轨道交通自动仿真建模方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737826A CN111737826A (zh) | 2020-10-02 |
CN111737826B true CN111737826B (zh) | 2020-11-24 |
Family
ID=72654809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010690764.3A Active CN111737826B (zh) | 2020-07-17 | 2020-07-17 | 一种基于增强学习的轨道交通自动仿真建模方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737826B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289044B (zh) * | 2020-11-02 | 2021-09-07 | 南京信息工程大学 | 基于深度强化学习的高速公路道路协同控制***及方法 |
CN112614343B (zh) * | 2020-12-11 | 2022-08-19 | 多伦科技股份有限公司 | 基于随机策略梯度的交通信号控制方法、***及电子设备 |
CN112906291B (zh) * | 2021-01-25 | 2023-05-19 | 武汉纺织大学 | 一种基于神经网络的建模方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428117A (zh) * | 2019-08-15 | 2019-11-08 | 北京交通大学 | 城市轨道交通多场景下客流精准诱导方法及*** |
CN111376954A (zh) * | 2020-06-01 | 2020-07-07 | 北京全路通信信号研究设计院集团有限公司 | 一种列车自主调度方法和*** |
-
2020
- 2020-07-17 CN CN202010690764.3A patent/CN111737826B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428117A (zh) * | 2019-08-15 | 2019-11-08 | 北京交通大学 | 城市轨道交通多场景下客流精准诱导方法及*** |
CN111376954A (zh) * | 2020-06-01 | 2020-07-07 | 北京全路通信信号研究设计院集团有限公司 | 一种列车自主调度方法和*** |
Non-Patent Citations (5)
Title |
---|
An Intelligent train regulation algorithm for metro using deep reinforcement learning;Yafei Liu et al.;《2018 21st International Conference on Intelligent Transportation Systems (ITSC)》;20181107;全文 * |
Development of people mass movement simulation framework based on reinforcement learning;Yanbo Pang et al.;《Transportation Research Part C》;20200709;全文 * |
Modeling and Simulation of Passenger Flow Distribution in Urban Rail Transit Hub Platform;Long Gao,Limin Jia;《www.preprints.org》;20160926;全文 * |
Modelling railway traffic management through multi-agent systems and reinforcement learning;A. Bretas et al.;《23rd International Congress on Modelling and Simulation, Canberra, ACT》;20191206;全文 * |
Reinforcement learning approach for coordinated passenger inflow control of urban rail transit in peak hours;Zhibin Jiang et al.;《Transportation Research Part C》;20180130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737826A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737826B (zh) | 一种基于增强学习的轨道交通自动仿真建模方法及装置 | |
CN109754605B (zh) | 一种基于注意力时态图卷积网络的交通预测方法 | |
CN108197739B (zh) | 一种城市轨道交通乘客流量预测方法 | |
WO2020034903A1 (zh) | 一种基于拓扑图的智能导航的方法和*** | |
CN108446470B (zh) | 基于车辆轨迹数据和人口分布的医疗设施可达性分析方法 | |
CN107103754A (zh) | 一种道路交通状况预测方法及*** | |
CN112382082A (zh) | 一种拥堵区域交通运行状态预测方法及*** | |
CN110837602A (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
Zheng et al. | A stochastic simulation-based optimization method for equitable and efficient network-wide signal timing under uncertainties | |
CN111667693B (zh) | 用于确定预计到达时间的方法、装置、设备及介质 | |
CN107145991B (zh) | 一种考虑路段相关性的时变随机网络动态路径搜索方法 | |
CN112801399B (zh) | 一种路径生成方法、装置、终端设备及存储介质 | |
CN112101676B (zh) | 一种乘车路径规划方法、装置、计算机设备及存储介质 | |
CN113762595A (zh) | 通行时间预测模型训练方法、通行时间预测方法及设备 | |
Kannan et al. | Predictive indoor navigation using commercial smart-phones | |
WO2022163003A1 (ja) | モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及*** | |
CN106447071A (zh) | 一种应用于视频监控场景的路径预测方法 | |
CN116662815B (zh) | 时间预测模型的训练方法以及相关设备 | |
Menguc et al. | A data driven approach to forecasting traffic speed classes using extreme gradient boosting algorithm and graph theory | |
CN111160594B (zh) | 一种到达时间的预估方法、装置及存储介质 | |
CN111507499B (zh) | 预测用模型的构建方法、测试方法、装置及*** | |
Panovski et al. | Real-time public transportation prediction with machine learning algorithms | |
CN116451867A (zh) | 一种基于时空出行路径标定的地铁短时客流预测方法 | |
CN110008571A (zh) | 一种城市轨道交通工程投资计算方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |