CN111737826B - 一种基于增强学习的轨道交通自动仿真建模方法及装置 - Google Patents

一种基于增强学习的轨道交通自动仿真建模方法及装置 Download PDF

Info

Publication number
CN111737826B
CN111737826B CN202010690764.3A CN202010690764A CN111737826B CN 111737826 B CN111737826 B CN 111737826B CN 202010690764 A CN202010690764 A CN 202010690764A CN 111737826 B CN111737826 B CN 111737826B
Authority
CN
China
Prior art keywords
time
simulation
passenger
train
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010690764.3A
Other languages
English (en)
Other versions
CN111737826A (zh
Inventor
韦伟
石晶
刘岭
刘军
张波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRSC Research and Design Institute Group Co Ltd
Original Assignee
CRSC Research and Design Institute Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRSC Research and Design Institute Group Co Ltd filed Critical CRSC Research and Design Institute Group Co Ltd
Priority to CN202010690764.3A priority Critical patent/CN111737826B/zh
Publication of CN111737826A publication Critical patent/CN111737826A/zh
Application granted granted Critical
Publication of CN111737826B publication Critical patent/CN111737826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明公开了一种基于增强学习的轨道交通自动仿真建模方法及装置,所述方法包括,首先,以客流作为仿真的研究对象,搭建客流仿真***;初始化客流仿真***在t时刻的状态为
Figure 986500DEST_PATH_IMAGE001
,其次,仿真模拟获得列车在行驶区段的断面客流量拥挤度惩罚函数和乘客t时刻选择路径动作的惩罚函数;然后,将乘客选择路径动作所得到的奖赏值作为研究对象在t时刻的回报函数;然后,执行客流仿真***仿真训练,更新相关网络参数,然后,获取训练完成的客流仿真模型;最终,提取动作函数作为旅客的路径选择概率生成函数。根据已知的运行逻辑和参数建立仿真***,自动的获得仿真***中未知的参数取值,从而获得仿真模型能够准确描述真实***。

Description

一种基于增强学习的轨道交通自动仿真建模方法及装置
技术领域
本发明属于轨道交通领域,特别涉及一种基于增强学习的轨道交通自动仿真建模方法及装置。
背景技术
现有的轨道交通领域应用的仿真建模是采用由特殊到一般的逻辑归纳方法,根据一定数量的在***运行过程中实测、观察的物理量数据,运用统计规律、***辨识等理论合理估计出反映***各物理量相互制约关系的数学模型,其主要依据是来自***的大量实测数据。当对所研究***的内部结构和特性尚不清楚、未知部分参数时,***内部的机理变化规律就不能确定,往往很难获取能够准确描述真实***的仿真参数,导致仿真模型与真实***之间存在差异,即导致仿真***与真实***不相匹配,难以支撑对复杂***的深入研究分析和决策制定。
此外,既有仿真建模方法中通过专家分析或研究者主观设置方式,通常由于未充分考虑***中的复杂的运行逻辑和状态转移过程,所考虑的因素过于片面,与实际***之间存在差异较大。进一步,采用函数标定的方式进行仿真参数获取时,往往需要被模拟真实***运行参数与运行指标之间关系的大量的标签数据,这在仿真建模和仿真***研发过程中往往难以获取。
从而,如何提供一种能够充分考虑轨道交通的运行逻辑、自动获取合理仿真参数的仿真建模方法及装置越来越成为亟待解决的技术问题。
发明内容
针对上述问题,本发明提供了一种基于增强学习的轨道交通自动仿真建模方法及装置,获取的仿真模型能够准确的描述真实***。
本发明的目的在于提供一种基于增强学习的轨道交通自动仿真建模方法,所述自动仿真建模方法包括,
以车站和客流作为仿真的研究对象,搭建客流仿真***;
基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 609783DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的客流 拥挤度仿真模拟值
Figure DEST_PATH_IMAGE002
和仿真***中列车在t时刻的发车时间间隔
Figure 323661DEST_PATH_IMAGE003
,初始化客流仿真系 统在列车运行过程中t时刻的状态为
Figure DEST_PATH_IMAGE004
,其中,a、b均为大于0的整数;
在列车运行过程中t时刻的状态
Figure 509923DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度的 惩罚函数和乘客在t时刻选择路径动作的惩罚函数;
将在列车运行过程中t时刻的状态
Figure 170712DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为研 究对象在t时刻的回报函数;
执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
进一步地,在列车运行过程中t时刻的状态
Figure 985084DEST_PATH_IMAGE005
下,列车行驶区段的断面客流量拥 挤度的惩罚函数满足:
Figure DEST_PATH_IMAGE006
其中,
Figure 214071DEST_PATH_IMAGE001
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure 12263DEST_PATH_IMAGE007
表示车站a在t时刻的 客流拥挤度的实际取值,
Figure DEST_PATH_IMAGE008
表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
Figure 617688DEST_PATH_IMAGE009
表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T 时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列 车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
进一步地,在列车运行过程中t时刻的状态
Figure DEST_PATH_IMAGE010
下,确定乘客在t时刻选择路径动作 的惩罚函数满足:
Figure DEST_PATH_IMAGE011
其中,
Figure DEST_PATH_IMAGE012
表示在t时刻的状态
Figure 722785DEST_PATH_IMAGE010
下,乘客采取的路径选择动作;n表示每个OD之间 具有的路径数目,且n为大于0的整数,
Figure 981728DEST_PATH_IMAGE013
表示在t时刻的第j个OD内,乘客选择第r条路径的 概率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,
Figure DEST_PATH_IMAGE014
为一个极小的正实数,
Figure 267216DEST_PATH_IMAGE015
为一个极大的正实数。
进一步地,研究对象在t时刻的回报函数满足:
Figure DEST_PATH_IMAGE016
进一步地,所述执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数之前还包括,
初始化Actor网络参数
Figure 410752DEST_PATH_IMAGE017
和Critic网络参数
Figure DEST_PATH_IMAGE018
采用参数为
Figure 465296DEST_PATH_IMAGE017
Figure 301665DEST_PATH_IMAGE019
的深度神经网络表示确定性策略
Figure DEST_PATH_IMAGE020
和动作 值函数
Figure 708070DEST_PATH_IMAGE021
基于Actor策略网络,将列车运行过程中t时刻的状态
Figure 248773DEST_PATH_IMAGE010
作为输入,更新确定性策 略;
基于Critic值网络,将列车运行过程中t时刻的状态
Figure 423402DEST_PATH_IMAGE010
与乘客在t时刻选择路径动 作的惩罚函数作为输入,以获取状态动作对的值函数。
进一步地,所述自动仿真建模方法还包括设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
进一步地,所述自动仿真建模方法还包括设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
进一步地,所述执行客流仿真***仿真训练,Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括,
将随机过程N添加到所述Actor网络参数
Figure DEST_PATH_IMAGE022
的确定性策略上;
将t时刻的状态
Figure 194787DEST_PATH_IMAGE010
、乘客在t时刻选择路径动作的惩罚函数、研究对象在t时刻的回 报函数以及t+1时刻的状态
Figure 64654DEST_PATH_IMAGE023
存储到经验池W中;
对经验池W采样,随机的选取K个状态动作对
Figure DEST_PATH_IMAGE024
,计算Critic网络 当前的动作期望回报;
基于最小化Critic网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
进一步地,所述自动仿真建模方法还包括,
将状态
Figure 674627DEST_PATH_IMAGE010
输入旅客的路径选择概率生成函数,获取旅客的路径选择概率。
本发明的另一目的在于提供一种基于增强学习的轨道交通自动仿真建模装置,所述自动仿真建模装置包括,
搭建模块,用于以车站和客流作为仿真的研究对象,搭建客流仿真***;
状态获取模块,用于基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 172604DEST_PATH_IMAGE001
、列车行驶 区段b在t时刻的客流拥挤度仿真模拟值
Figure 209830DEST_PATH_IMAGE002
和仿真***中列车在t时刻的发车时间间隔
Figure 301414DEST_PATH_IMAGE003
,初始化客流仿真***在列车运行过程中t时刻的状态为
Figure 449499DEST_PATH_IMAGE025
,其中,a、b 均为大于0的整数;
惩罚函数获取模块,用于在列车运行过程中t时刻的状态
Figure 67562DEST_PATH_IMAGE010
下,确定列车行驶区段 的断面客流量拥挤度惩罚函数和乘客在t时刻选择路径动作的惩罚函数;
回报函数获取模块,用于将在列车运行过程中t时刻的状态
Figure DEST_PATH_IMAGE026
下,乘客选择路径动 作得到的奖赏值作为研究对象在t时刻的回报函数;
训练模块,用于执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
仿真模型获取模块,基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
提取模块,用于基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
本发明中的自动仿真方法将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真***,通过深度强化学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与真实***之间的运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而获得能够准确描述真实***的仿真模型。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模方法流程示意图;
图2示出了本发明实施例中一种Actor策略网络的结构示意图;
图3示出了本发明实施例中一种Critic值网络的结构示意图;
图4示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例中介绍了一种基于增强学习的轨道交通自动仿真建模 方法,所述自动仿真建模方法包括,首先,以车站和客流作为仿真的研究对象,搭建客流仿 真***;其次,基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 416635DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的 客流拥挤度仿真模拟值
Figure 854569DEST_PATH_IMAGE002
和仿真***中列车在t时刻的发车时间间隔
Figure 540766DEST_PATH_IMAGE003
,初始化客流仿 真***在列车运行过程中t时刻的状态为
Figure 278914DEST_PATH_IMAGE027
,其中,a、b均为大于0的整 数;然后,在列车运行过程中t时刻的状态
Figure 657943DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度惩 罚函数和乘客在t时刻选择路径动作的惩罚函数;然后,将在列车运行过程中t时刻的状态
Figure 222654DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数;然后,执行客流 仿真***仿真训练,更新Actor(行动者,一种神经网络)网络参数、Critic(评论家,一种神 经网络)网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;然后,基于 Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参 数,获取训练完成的客流仿真模型;最后,基于所述客流仿真模型,提取动作函数作为旅客 的路径选择概率生成函数。将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建 立仿真***,即,将Actor策略网络和Critic值网络、状态、动作、回报综合起来,即通过增强 学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与真实***之间的 运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而能够获得准确描述真 实***的仿真模型。
具体的,采用
Figure DEST_PATH_IMAGE028
表示在列车运行过程中t时刻的状态
Figure 978121DEST_PATH_IMAGE005
下,列车行驶区段的 断面客流量拥挤度的惩罚函数,其中,
Figure 39618DEST_PATH_IMAGE001
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure 589548DEST_PATH_IMAGE007
表示车站a在t时刻的客流拥挤度的实际取值,
Figure 143020DEST_PATH_IMAGE008
表示在t时刻列车所行驶区段b的客 流拥挤度仿真模拟值,
Figure 436598DEST_PATH_IMAGE009
表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列 车运行过程中从t时刻至T时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻 所经过的区段数目,t为列车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面 流量统计的结束时刻,则
Figure 883760DEST_PATH_IMAGE028
满足:
Figure 339012DEST_PATH_IMAGE029
(1)
在列车运行过程中t时刻的状态
Figure 379780DEST_PATH_IMAGE005
下,确定乘客在t时刻选择路径动作的惩罚函 数满足:
Figure DEST_PATH_IMAGE030
(2)
其中,
Figure 211470DEST_PATH_IMAGE012
表示在t时刻的状态
Figure 778718DEST_PATH_IMAGE005
下,乘客采取的路径选择动作;n表示每个OD之间具 有的路径数目,且n为大于0的整数,
Figure 404871DEST_PATH_IMAGE013
表示在t时刻的第j个OD内,乘客选择第r条路径的概 率,j表示列车在运行过程的列车OD(交通起止点:Origin Destination),j为大于0的整数, 且r∈n,
Figure 932936DEST_PATH_IMAGE031
为一个极小的正实数,M为一个极大的正实数。
研究对象在t时刻的回报函数
Figure DEST_PATH_IMAGE032
为在***状态
Figure 568316DEST_PATH_IMAGE005
下,乘客采取的路径选择动作
Figure 990070DEST_PATH_IMAGE012
得到的奖赏值,回报函数
Figure 432465DEST_PATH_IMAGE032
如公式(3)所示。
Figure 306880DEST_PATH_IMAGE033
(3)
进一步,初始化Actor网络参数
Figure DEST_PATH_IMAGE034
和Critic网络参数
Figure 11531DEST_PATH_IMAGE019
,分别使用参数为
Figure 163158DEST_PATH_IMAGE034
Figure 396693DEST_PATH_IMAGE035
的深度神经网络来表示确定性策略
Figure DEST_PATH_IMAGE036
和动作值函数
Figure 164929DEST_PATH_IMAGE021
, 其中,
Figure 142112DEST_PATH_IMAGE037
和Q代表函数。
本实施例中,所述基于增强学习的轨道交通自动仿真建模方法还包括设置Actor 策略网络,用于更新确定性策略,即通过
Figure DEST_PATH_IMAGE038
这个函数求得在t时刻的状态
Figure 679404DEST_PATH_IMAGE005
下,乘 客采取的路径选择动作
Figure 83840DEST_PATH_IMAGE012
。具体的,如图2所示,本发明实施例中提供了一种Actor策略网络 的结构,Actor策略网络的输入为t时刻的状态
Figure 932848DEST_PATH_IMAGE005
,即在t时刻,列车途径车站a的客流拥挤 度仿真模拟值
Figure 182563DEST_PATH_IMAGE001
、列车行驶区段b的客流拥挤度仿真模拟值
Figure 72897DEST_PATH_IMAGE002
和仿真***中列车的发 车时间间隔
Figure 648234DEST_PATH_IMAGE003
,因此Actor策略网络的输入层有3个节点;隐层激活函数采用ReLU函数 (Rectified Linear Unit:线性整流函数),输出层采用sigmoid激活函数(神经网络的激活 函数),输出动作即为确定性策略
Figure 984538DEST_PATH_IMAGE039
。Actor策略网络结构包括多层隐层,同时,为 防止Actor策略网络在训练过程中出现过拟合或梯度消失的情况,对Actor策略网络进行了 L1正则化处理,L1正则化处理为机器学习中重要的手段,在支持向量机学习过程中,是一种 对于成本函数求解最优的过程。Actor策略网络用来更新确定性策略,对应Actor-Critic框 架中的行动者,且确定性策略会根据状态
Figure 303524DEST_PATH_IMAGE005
产生在t时刻,任意出发地和目的地之间,旅客 选择各条路径的概率。
本实施例中,所述基于增强学习的轨道交通自动仿真建模方法还包括设置Critic 值网络,用来逼近状态动作的动作对值函数,具体的,如图3所示,提供了一种Critic值网络 的结构,输入包括t时刻的状态
Figure 284249DEST_PATH_IMAGE005
和在t时刻的状态
Figure 30488DEST_PATH_IMAGE005
下,乘客采取的路径选择动作
Figure 588509DEST_PATH_IMAGE012
,状 态
Figure 711185DEST_PATH_IMAGE005
包括在t时刻,列车途径车站的客流拥挤度仿真模拟值
Figure 405472DEST_PATH_IMAGE001
、列车行驶区段的客流拥 挤度仿真模拟值
Figure 197979DEST_PATH_IMAGE002
和仿真***中列车的发车时间间隔
Figure 508874DEST_PATH_IMAGE003
,因此输入层有4个节点。 Critic值网络设置为多层,第一个隐层激活函数采用tanh函数(双曲线正切函数),第二个 隐层至倒数第二个隐层激活函数采用ReLU函数,最后一个隐层激活函数采用tanh函数,输 出层的激活函数采用线性函数,输出为状态动作对的动作值函数
Figure DEST_PATH_IMAGE040
。其中,tanh 函数为双曲线正切函数,在(4)中表示。
Figure DEST_PATH_IMAGE041
(4)
动作值函数用来逼近状态动作对的值函数,通过值函数获得值能够衡量状态动作对的符合度,并提供梯度信息,对应Actor-Critic框架中的评论者。本实施例中,动作值函数,也称为Q函数,是一个神经网络,根据符合度(符合度越大越好)增加的方向,提供动作值函数神经网络参数的梯度信息,从而对其进行优化。
本实施例中,Actor策略网络和Critic值网络都是用于更新相应参数的神经网络。神经网络与仿真***的结合,能够在先验知识不足或仅能知晓部分基本参数下建立仿真模型,不仅有效减少建模过程的工作量,也能一定程度上弥补了由于建模样本数据要求过于严苛的问题。
本实施例中,所述执行客流仿真***仿真训练,更新Actor和Critic网络参数包括以下步骤:
步骤一、将随机过程N添加在Actor策略网络输出的动作上,以保证神经网络的探索过程,该过程如(5)所示。
Figure DEST_PATH_IMAGE042
(5)
然后,通过城市轨道交通车站客流仿真***不断产生***状态
Figure 576187DEST_PATH_IMAGE005
、乘客采取的路 径选择动作
Figure 390560DEST_PATH_IMAGE012
、根据***状态
Figure 744181DEST_PATH_IMAGE005
和乘客采取的路径选择动作
Figure 276793DEST_PATH_IMAGE012
组成的回报函数
Figure 115174DEST_PATH_IMAGE043
以及乘客采取的路径选择动作
Figure 784053DEST_PATH_IMAGE012
后达到下一状态
Figure DEST_PATH_IMAGE044
,然后,
Figure 308575DEST_PATH_IMAGE005
Figure 328483DEST_PATH_IMAGE045
Figure 206441DEST_PATH_IMAGE043
以及
Figure 995405DEST_PATH_IMAGE044
四者构成状态动作对,并将其存储到经验池W中。
步骤二:对经验池W采样,随机的选取K个状态动作对
Figure DEST_PATH_IMAGE046
,通过公式 (6)计算Critic值网络当前的动作期望回报:
Figure DEST_PATH_IMAGE047
(6)
当前的动作期望回报是当前仿真状态
Figure 956408DEST_PATH_IMAGE005
下,乘客采取的路径选择动作
Figure 73400DEST_PATH_IMAGE045
下,仿真 观测值与实际观测值之间的综合符合度,
Figure DEST_PATH_IMAGE048
为当前观测值的瞬时符合度,
Figure 145261DEST_PATH_IMAGE049
为后续t+1时段观测值的符合度,
Figure DEST_PATH_IMAGE050
为折减系数。
最小化Critic值网络的损失函数
Figure DEST_PATH_IMAGE051
,实现对Critic 网络参数
Figure 195256DEST_PATH_IMAGE052
的更新。通过公式(7)计算Actor网络的梯度,并使用梯度上升法(一个最优化 算法,常用于机器学习和人工智能当中用来递归性地逼近目标函数)更新Actor网络参数。 在仿真建模过程中引入策略梯度算法并通过***的经验回放,经验回放即上述从经验池W 采样的过程,避免了仿真***参数通过研究者主观设置或采用简单函数关系进行标定,与 真实***之间存在差异较大的问题,从而很大程度的提高仿真***搭建精度和效率。
Figure DEST_PATH_IMAGE053
(7)
步骤三:重复步骤一和步骤二,根据公式(8)更新Critic和Actor目标网络的网络参数,
Figure DEST_PATH_IMAGE054
(8)
其中,
Figure 327160DEST_PATH_IMAGE055
分别为Target-Critic网络(Critic目标网络)、 Critic网络、Target-Actor网络(Actor目标网络)以及Actor网络的网络参数,且
Figure DEST_PATH_IMAGE056
Figure 695563DEST_PATH_IMAGE055
还代表的都是神经网络的参数集合。在网络参数更新过程中, Actor网络的是逐步依次迭代的,每隔一定步数,会将Actor网络参数赋给Target-Actor网 络,这样保证Target-Actor相对稳定且波动性较小,使得仿真过程更加的稳定,同理, Critic网络与Target-Critic网络的关系类似。
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,最终获取客流仿真***基于增强学习训练好的仿真模型,即获得训练完成的确定性策略和动作值函数,确定性策略和动作值函数均为一种神经网络,训练完成的确定性策略和动作值函数,可以在客流仿真***仿真过程中用于实时产生仿真参数,进而就得到了较为准确的仿真模型。如下过程是城市轨道交通客流仿真***的训练过程。
城市轨道交通客流仿真计算过程:
初始化Critic网络和Actor网络参数:
Figure DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE058
初始化Critic和Actor网络的目标网络,直接复制参数:
Figure DEST_PATH_IMAGE059
初始化经验池W
1 For episode = 1,…,M do:
2 初始化随机过程N
3 获取城市轨道交通车站客流仿真的初始状态
Figure DEST_PATH_IMAGE060
4 For t=1,…,T do:
5 根据当前策略和随机噪声,选择动作:
Figure 712060DEST_PATH_IMAGE061
6 执行动作
Figure DEST_PATH_IMAGE062
,获得奖励
Figure 741196DEST_PATH_IMAGE063
和下一个状态
Figure DEST_PATH_IMAGE064
7 将状态动作对
Figure DEST_PATH_IMAGE065
存储到经验池W中
8 从经验池中随机采样K个状态动作对
Figure 919368DEST_PATH_IMAGE065
9 计算Critic网络的“标签值”:
Figure 401165DEST_PATH_IMAGE066
10 计算Critic网络的误差:
Figure DEST_PATH_IMAGE067
,并使梯度下降法(一个最优化算法,常用于机器 学习和人工智能当中用来递归性地逼近最小偏差模型)更新Critic网络参数
11 计算Actor网络的梯度,并使用梯度上升法更新Actor网络参数:
Figure 549249DEST_PATH_IMAGE068
12 更新Critic和Actor网络目标的参数:
Figure DEST_PATH_IMAGE069
13 End for
14 End for
提取仿真模型中的动作函数
Figure 308258DEST_PATH_IMAGE070
,作为仿真参数生成函数,在特定仿真系 统状态下,将状态
Figure DEST_PATH_IMAGE071
输入仿真参数生成函数
Figure 781964DEST_PATH_IMAGE072
,即可得到t时刻的仿真***下旅客 的路径选择概率。
旅客选择各条路径的概率确定后,会在仿真模型模拟行人出行,乘客去到具体的 路径上,就会改变路径上车站和区段的流量,这时候将这些流量与已知的实际的流量进行 对比,误差越小表明路径选择函数与实际情况越贴近,从而就有一个滞后的奖励,这个滞后 的奖励会使得模型不断调整参数,得到任意情况下产生出行路径概率(也就是
Figure DEST_PATH_IMAGE073
)的函数
Figure 142537DEST_PATH_IMAGE074
,这个
Figure 563154DEST_PATH_IMAGE074
就能够反应任意情况下旅客的路径选择规律,进而得到一个与实际相贴合且合理 的仿真模型,从而基于增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真 ***,通过增强学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与 真实***之间的运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而获得 能够准确描述真实***的仿真模型。
如图4所示,本发明实施例中还公开了一种基于增强学习的轨道交通自动仿真建 模装置,用于执行上述所述方法,所述自动仿真建模装置包括,搭建模块,用于以车站和客 流作为仿真的研究对象,搭建客流仿真***;状态获取模块,用于基于车站a在t时刻的客流 拥挤度仿真模拟值
Figure 301303DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的客流拥挤度仿真模拟值
Figure 414752DEST_PATH_IMAGE002
和仿真*** 中列车在t时刻的发车时间间隔
Figure 480928DEST_PATH_IMAGE003
,初始化客流仿真***在列车运行过程中t时刻的状态 为
Figure DEST_PATH_IMAGE075
,其中,a、b均为大于0的整数;惩罚函数获取模块,用于在列车运 行过程中t时刻的状态
Figure 970816DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度惩罚函数和乘客在t 时刻选择路径动作的惩罚函数;回报函数获取模块,用于将在列车运行过程中t时刻的状态
Figure 563471DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数;训练模块,用于 执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络 参数和Critic目标网络的网络参数;仿真模型获取模块,基于Actor网络参数、Critic网络 参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真 模型;提取模块,用于基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成 函数。
在列车运行过程中t时刻的状态
Figure 113401DEST_PATH_IMAGE010
下,列车行驶区段的断面客流量拥挤度的惩罚 函数满足:
Figure 666873DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE076
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure 960451DEST_PATH_IMAGE007
表示车站a在t时刻的 客流拥挤度的实际取值,
Figure 142034DEST_PATH_IMAGE008
表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
Figure 862865DEST_PATH_IMAGE009
表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T 时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列 车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
在列车运行过程中t时刻的状态
Figure 903634DEST_PATH_IMAGE010
下,确定乘客在t时刻选择路径动作的惩罚函数 满足:
Figure 735323DEST_PATH_IMAGE077
其中,
Figure DEST_PATH_IMAGE078
表示在t时刻的状态
Figure 302571DEST_PATH_IMAGE079
下,乘客采取的路径选择动作;n表示每个OD之间 具有的路径数目,且n为大于0的整数,
Figure DEST_PATH_IMAGE080
表示在t时刻的第j个OD内,乘客选择第r条路径 的概率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,
Figure 568205DEST_PATH_IMAGE081
为一个极小的正实 数,M为一个极大的正实数。
研究对象在t时刻的回报函数满足:
Figure DEST_PATH_IMAGE082
所述训练模块还用于初始化Actor网络参数
Figure 486482DEST_PATH_IMAGE083
和Critic网络参数
Figure DEST_PATH_IMAGE084
采用参数为
Figure 997229DEST_PATH_IMAGE083
Figure 418983DEST_PATH_IMAGE084
的深度神经网络表示确定性策略
Figure 481617DEST_PATH_IMAGE020
和动作值 函数
Figure 356032DEST_PATH_IMAGE021
基于Actor策略网络,将列车运行过程中t时刻的状态
Figure 529525DEST_PATH_IMAGE079
作为输入,更新确定性策 略;
基于Critic值网络,将列车运行过程中t时刻的状态
Figure 681152DEST_PATH_IMAGE079
与乘客在t时刻选择路径 动作的惩罚函数作为输入,以获取状态动作对的值函数。
所述自动仿真建模装置还包括网络设置模块,用于设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
所述网络设置模块还用于设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
所述训练模块还用于,
将随机过程N添加到所述Actor网络参数
Figure 914687DEST_PATH_IMAGE085
的确定性策略上;
将t时刻的状态
Figure 276398DEST_PATH_IMAGE079
、乘客在t时刻选择路径动作的惩罚函数、研究对象在t时刻的回 报函数以及t+1时刻的状态
Figure DEST_PATH_IMAGE086
存储到经验池W中;
对经验池W采样,随机的选取K个状态动作对
Figure 128947DEST_PATH_IMAGE087
,计算Critic网络当 前的动作期望回报;
基于最小化Critic网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
所述自动仿真建模装置还包括生成模块,用于将状态
Figure 259715DEST_PATH_IMAGE079
输入旅客的路径选择概率 生成函数,获取旅客在时间t的路径选择概率。
将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真***,通过增强学习的确定性策略对仿真***中的未知参数进行搜索,以降低仿真***与真实***之间的运行指标差异为目标,自动的获得仿真***中未知的参数取值,从而获得能够准确描述真实***的仿真模型。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法包括,
以车站和客流作为仿真的研究对象,搭建客流仿真***;
基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 843823DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的客流拥挤度仿真模拟值
Figure 964225DEST_PATH_IMAGE002
和仿真***中列车在t时刻的发车时间间隔
Figure 635640DEST_PATH_IMAGE003
,初始化客流仿真***在列车运行过程中t时刻的状态为
Figure 234112DEST_PATH_IMAGE004
,其中,a、b均为大于0的整数;
在列车运行过程中t时刻的状态
Figure 579643DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度的惩罚函数和乘客在t时刻选择路径动作的惩罚函数;
将在列车运行过程中t时刻的状态
Figure 792318DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为所述研究对象在t时刻的回报函数;
执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
基于所述客流仿真模型,提取动作函数作为乘客的路径选择概率生成函数。
2.根据权利要求1所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,在列车运行过程中t时刻的状态
Figure 262614DEST_PATH_IMAGE005
下,列车行驶区段的断面客流量拥挤度的惩罚函数满足:
Figure 727093DEST_PATH_IMAGE006
其中,
Figure 347037DEST_PATH_IMAGE001
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure 746925DEST_PATH_IMAGE007
表示车站a在t时刻的客流拥挤度的实际取值,
Figure 32413DEST_PATH_IMAGE008
表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
Figure 425217DEST_PATH_IMAGE009
表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
3.根据权利要求2所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,在列车运行过程中t时刻的状态
Figure 479761DEST_PATH_IMAGE010
下,确定乘客在t时刻选择路径动作的惩罚函数满足:
Figure 50551DEST_PATH_IMAGE011
其中,
Figure 823335DEST_PATH_IMAGE012
表示在t时刻的状态
Figure 52453DEST_PATH_IMAGE010
下,乘客采取的路径选择动作;n表示每个OD之间具有的路径数目,且n为大于0的整数,
Figure 102449DEST_PATH_IMAGE013
表示在t时刻的第j个OD内,乘客选择第r条路径的概率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,
Figure 703194DEST_PATH_IMAGE014
为一个极小的正实数,
Figure 87908DEST_PATH_IMAGE015
为一个极大的正实数。
4.根据权利要求3所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述研究对象在t时刻的回报函数满足:
Figure 369985DEST_PATH_IMAGE016
5.根据权利要求3所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数之前还包括,
初始化Actor网络参数
Figure 399121DEST_PATH_IMAGE017
和Critic网络参数
Figure 330954DEST_PATH_IMAGE018
采用参数为
Figure 547172DEST_PATH_IMAGE017
Figure 836202DEST_PATH_IMAGE018
的深度神经网络表示确定性策略
Figure 719845DEST_PATH_IMAGE019
和动作值函数
Figure 318185DEST_PATH_IMAGE020
基于Actor策略网络,将列车运行过程中t时刻的状态
Figure 959382DEST_PATH_IMAGE010
作为输入,更新确定性策略;
基于Critic值网络,将列车运行过程中t时刻的状态
Figure 911157DEST_PATH_IMAGE010
与乘客在t时刻选择路径动作的惩罚函数作为输入,以获取状态动作对的值函数。
6.根据权利要求5所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
7.根据权利要求6所述的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
8.根据权利要求5-7任一所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括,
将随机过程N添加到所述Actor网络参数
Figure 275405DEST_PATH_IMAGE021
的确定性策略上;
将t时刻的状态
Figure 920013DEST_PATH_IMAGE010
、乘客在t时刻采取的选择路径动作、所述研究对象在t时刻的回报函数以及t+1时刻的状态
Figure 251768DEST_PATH_IMAGE022
存储到经验池W中;
对经验池W采样,随机的选取K个状态动作对
Figure 928606DEST_PATH_IMAGE023
,计算Critic值网络当前的动作期望回报;
基于最小化Critic值网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
9.根据权利要求1-6任一所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括,
将状态
Figure 521261DEST_PATH_IMAGE010
输入乘客的路径选择概率生成函数,获取乘客的路径选择概率。
10.一种基于增强学习的轨道交通自动仿真建模装置,其特征在于,所述自动仿真建模装置包括,
搭建模块,用于以车站和客流作为仿真的研究对象,搭建客流仿真***;
状态获取模块,用于基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 946558DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的客流拥挤度仿真模拟值
Figure 890243DEST_PATH_IMAGE024
和仿真***中列车在t时刻的发车时间间隔
Figure 72569DEST_PATH_IMAGE003
,初始化客流仿真***在列车运行过程中t时刻的状态为
Figure 457414DEST_PATH_IMAGE025
,其中,a、b均为大于0的整数;
惩罚函数获取模块,用于在列车运行过程中t时刻的状态
Figure 178245DEST_PATH_IMAGE010
下,确定列车行驶区段的断面客流量拥挤度惩罚函数和乘客在t时刻选择路径动作的惩罚函数;
回报函数获取模块,用于将在列车运行过程中t时刻的状态
Figure 733861DEST_PATH_IMAGE010
下,乘客选择路径动作得到的奖赏值作为所述研究对象在t时刻的回报函数;
训练模块,用于执行客流仿真***仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
仿真模型获取模块,基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
提取模块,用于基于所述客流仿真模型,提取动作函数作为乘客的路径选择概率生成函数。
CN202010690764.3A 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置 Active CN111737826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010690764.3A CN111737826B (zh) 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010690764.3A CN111737826B (zh) 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置

Publications (2)

Publication Number Publication Date
CN111737826A CN111737826A (zh) 2020-10-02
CN111737826B true CN111737826B (zh) 2020-11-24

Family

ID=72654809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010690764.3A Active CN111737826B (zh) 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置

Country Status (1)

Country Link
CN (1) CN111737826B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289044B (zh) * 2020-11-02 2021-09-07 南京信息工程大学 基于深度强化学习的高速公路道路协同控制***及方法
CN112614343B (zh) * 2020-12-11 2022-08-19 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备
CN112906291B (zh) * 2021-01-25 2023-05-19 武汉纺织大学 一种基于神经网络的建模方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428117A (zh) * 2019-08-15 2019-11-08 北京交通大学 城市轨道交通多场景下客流精准诱导方法及***
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428117A (zh) * 2019-08-15 2019-11-08 北京交通大学 城市轨道交通多场景下客流精准诱导方法及***
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An Intelligent train regulation algorithm for metro using deep reinforcement learning;Yafei Liu et al.;《2018 21st International Conference on Intelligent Transportation Systems (ITSC)》;20181107;全文 *
Development of people mass movement simulation framework based on reinforcement learning;Yanbo Pang et al.;《Transportation Research Part C》;20200709;全文 *
Modeling and Simulation of Passenger Flow Distribution in Urban Rail Transit Hub Platform;Long Gao,Limin Jia;《www.preprints.org》;20160926;全文 *
Modelling railway traffic management through multi-agent systems and reinforcement learning;A. Bretas et al.;《23rd International Congress on Modelling and Simulation, Canberra, ACT》;20191206;全文 *
Reinforcement learning approach for coordinated passenger inflow control of urban rail transit in peak hours;Zhibin Jiang et al.;《Transportation Research Part C》;20180130;全文 *

Also Published As

Publication number Publication date
CN111737826A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737826B (zh) 一种基于增强学习的轨道交通自动仿真建模方法及装置
CN109754605B (zh) 一种基于注意力时态图卷积网络的交通预测方法
CN108197739B (zh) 一种城市轨道交通乘客流量预测方法
WO2020034903A1 (zh) 一种基于拓扑图的智能导航的方法和***
CN108446470B (zh) 基于车辆轨迹数据和人口分布的医疗设施可达性分析方法
CN107103754A (zh) 一种道路交通状况预测方法及***
CN112382082A (zh) 一种拥堵区域交通运行状态预测方法及***
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
Zheng et al. A stochastic simulation-based optimization method for equitable and efficient network-wide signal timing under uncertainties
CN111667693B (zh) 用于确定预计到达时间的方法、装置、设备及介质
CN107145991B (zh) 一种考虑路段相关性的时变随机网络动态路径搜索方法
CN112801399B (zh) 一种路径生成方法、装置、终端设备及存储介质
CN112101676B (zh) 一种乘车路径规划方法、装置、计算机设备及存储介质
CN113762595A (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
Kannan et al. Predictive indoor navigation using commercial smart-phones
WO2022163003A1 (ja) モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム
CN115659966A (zh) 基于动态异构图和多级注意力的谣言检测方法及***
CN106447071A (zh) 一种应用于视频监控场景的路径预测方法
CN116662815B (zh) 时间预测模型的训练方法以及相关设备
Menguc et al. A data driven approach to forecasting traffic speed classes using extreme gradient boosting algorithm and graph theory
CN111160594B (zh) 一种到达时间的预估方法、装置及存储介质
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及***
Panovski et al. Real-time public transportation prediction with machine learning algorithms
CN116451867A (zh) 一种基于时空出行路径标定的地铁短时客流预测方法
CN110008571A (zh) 一种城市轨道交通工程投资计算方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant