WO2022121510A1 - 基于随机策略梯度的交通信号控制方法、***及电子设备 - Google Patents

基于随机策略梯度的交通信号控制方法、***及电子设备 Download PDF

Info

Publication number
WO2022121510A1
WO2022121510A1 PCT/CN2021/124593 CN2021124593W WO2022121510A1 WO 2022121510 A1 WO2022121510 A1 WO 2022121510A1 CN 2021124593 W CN2021124593 W CN 2021124593W WO 2022121510 A1 WO2022121510 A1 WO 2022121510A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
value
traffic
signal control
time
Prior art date
Application number
PCT/CN2021/124593
Other languages
English (en)
French (fr)
Inventor
叶剑
Original Assignee
多伦科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 多伦科技股份有限公司 filed Critical 多伦科技股份有限公司
Publication of WO2022121510A1 publication Critical patent/WO2022121510A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Definitions

  • the static road network data includes road grade, number of lanes, lane width, lane function division, road segment length, road marking, intersection type, adjacent intersection information, signal device number, phase information, and phase sequence information some or all of it;
  • the value network is a dual-delay deep Q-network, including an action-value network for selecting actions and the target value network used to calculate the Q value
  • the present invention provides a traffic signal control system based on stochastic policy gradient, comprising:
  • a second data acquisition module configured to acquire real-time traffic operation status data of at least one control signal intersection
  • the simulation check module is used to check the simulation parameters in the traffic simulation road network according to the traffic operation state data, and obtain the optimized traffic simulation road network;
  • step S400 may include the following steps:
  • Step S402 observe the traffic simulation road network, obtain the simulated headway and vehicle acceleration and deceleration, and compare and analyze with the actual headway and vehicle acceleration and deceleration.
  • Step S500 Input the traffic state obtained by observing the optimized traffic simulation road network into the value network, obtain the evaluation value of each signal control scheme under the traffic state, and use the time difference algorithm to update the parameters of the value network.
  • the value network is a pre-built convolutional neural network, which is used to approximate the action value function.
  • the policy network at signalized intersection i has n optional actions at decision time t in each iteration, specifically:
  • the strategy network at signalized intersection i decides to continue the current phase, that is, That is, the action at time t is the same as the action at the previous decision time p(t), and the duration of the current phase is extended by m seconds, and m is 1 to 5 seconds; then the next decision time to judge whether to switch the phase is time t+m, If it is decided to end the current phase and switch to the next phase at time t, there is That is, the action at time t is different from the action at the last decision time p(t), then finally put a minimum green light time G min of this phase, and then put the intermediate phase yellow light time Y, then start to switch to the next phase, Then, the next decision-making time to judge whether to switch the phase is time t+ Gmin +Y+m.
  • Cd p(t),v and Cd t,v are the total delay of the accumulated queued vehicles at decision time p(t) and decision time t, respectively;
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (Read-Only Memory, ROM), a random access memory (Random Access Memory, RAM), a flash memory (Flash Memory), a hard disk (Hard) Disk Drive, abbreviation: HDD) or solid-state drive (Solid-State Drive, SSD), etc.; the storage medium may also include a combination of the above-mentioned types of memories.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于随机策略梯度的交通信号控制方法、***及电子设备,该方法包括:获取静态路网数据(步骤S100);可视化绘制交通仿真路网(步骤S200);获取实时交通运行状态数据(步骤S300);得到优化后的交通仿真路网(步骤S400);得到信号控制方案的评价值,并更新价值网络的参数(步骤S500);得到每个信号控制方案的概率值,并做随机抽样得到一个信号控制方案(步骤S600);基于交通状态下每个信号控制方案的评价值以及抽样得到的信号控制方案,通过随机策略梯度更新策略网络的参数(步骤S700)。该方法能够解决信号控制具有的维数***的问题。

Description

基于随机策略梯度的交通信号控制方法、***及电子设备 技术领域
本发明涉及智能交通技术领域,具体涉及基于随机策略梯度的交通信号控制方法、***及电子设备。
背景技术
为满足城市交通需求的快速增长,不仅需要新建道路基础设施来提高城市整体的通行能力,还需要改善城市现有的交通基础设施,通过智能交通管理与控制技术来提高现有道路的通行效率。交叉口作为城市路网的关键节点,也是城市智能交通管控的研究热点之一。城市智能交通管控将交叉口当做一个实时可控的***,对交叉口进行连续实时的监控、诊断、建模、控制。但传统基于固定配时方案的交叉口信号控制***无法适应交通***的非线性、随机性、模糊性和不确定性。
自适应交通信号控制***能够及时响应交通流的动态变化,优化信号配时方案进行实时控制。但现有的自适应交通信号控制***存在以下局限性:(1)同时处理多个交叉口会发生维数***问题;(2)缺乏一个精确的交通模型框架来表现交通流的动态性和随机性来响应信号控制的最优变化;(3)检测器的故障和通信故障极大影响***的稳定性。
强化学习作为一种无监督的机器学习方法,可以直接与交通仿真路网进行交互来学习控制策略。智能体通过对仿真路网进行观测,获得状态,基于策略函数从动作集中选择一个动作,执行动作后,仿真路网会反馈一个奖励监督信号用于评价所选动作的好坏,同时仿真路网会更新为下一状态,智能体会重复上述过程,直到一个episode结束获得最大的累计奖励。因此,基于强化学习的自适应交通信号控制能够适应交通***的动态性和随机性,相较于传统基于固定配时方案的信号控制和感应信号控制具有明显的优势。但传统的强化学习如Q学习的动作是基于Q表中的Q值进行选取的,此方法的弊端是只能处理有限的状态-动作对,无法处理巨大的状态空间,会因状态空间过大发生“维数***”问题,导致策略学习的效率低下和准确率较低等问题。
发明内容
为了克服现有技术中使用传统的强化学习进行交通信号控制存在的能处理有限的状态-动作对,无法处理巨大的状态空间,且会因状态空间过大发生“维数***”,导致策略学习的效率低下和准确率较低的问题,本发明提供了一种基于随机策略梯度的交通信号控制方法、***及电子设备。
根据第一方面,本发明提供了一种基于随机策略梯度的交通信号控制方法,包括如下步骤:
获取至少一个控制信号交叉口的静态路网数据;
根据静态路网数据可视化绘制交通仿真路网;
获取至少一个控制信号交叉口的实时交通运行状态数据;
根据交通运行状态数据对交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网;
将观测优化后的交通仿真路网得到的交通状态输入价值网络,得到交通状态下每个信号控制方案的评价值,并采用时间差分算法更新价值网络的参数;价值网络为预先构建的卷积神经网络,用于近似动作价值函数;
将交通状态输入策略网络,得到每个信号控制方案的概率值,并根据每个信号控制方案的概率值做随机抽样得到一个信号控制方案;策略网络为预先构建的卷积神经网络,用于近似策略函数;
基于交通状态下每个信号控制方案的评价值以及一个信号控制方案,通过随机策略梯度更新策略网络的参数。
可选地,交通运行状态数据包括车头时距、车辆加减速度,根据交通运行状态数据对交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网的步骤,包括:
获取实际车头时距参数和车辆加减速度参数的取值范围,并根据取值范围对交通仿真路网中车头时距参数和车辆加减速度参数进行初步校核;
观测交通仿真路网,获取仿真车头时距和车辆加减速度,并与实际车头时距和车辆加减速度进行对比分析;
若仿真车头时距和车辆加减速度与实际车头时距和车辆加减速度的差异在预设范围内时,则参数校核结束,得到优化后的交通仿真路网;否则,重复上述步骤,直至差异在预设范围内时结束。
可选地,静态路网数据包括道路等级、车道数量、车道宽度、车道功能划分、路段长度、道路标志标线、交叉口类型、相邻交叉口信息、信号设备编号、相位信息和相序信息中的部分或者全部;
交通运行状态数据还可以包括设备ID、检测时间、车流量、车辆类型分布、车辆时间占有率、车辆空间占有率、车辆速度、车辆长度、车头间距、排队长度和停车次数 部分或者全部。
可选地,交通状态表示为每个信号交叉口中每个相位j的最大排队车辆数,具体为:
Figure PCTCN2021124593-appb-000001
式中,
Figure PCTCN2021124593-appb-000002
表示信号交叉口i在决策时刻t的交通状态的观测值,i表示为每个信号交叉口的编号,i∈{1,2,...N};j表示为相位编号,j∈{1,2,...n};t为决策时刻;l为车道编号;L j表示在相位j可以通行的车道组;q t,l表示为在决策时刻t车道l上的排队车辆数;
在决策时刻t车道l的排队车辆数等于在决策时刻t-1车道l的排队车辆数加上或减去在决策时刻t进入排队或离开排队的车辆数,具体为:
Figure PCTCN2021124593-appb-000003
式中,q t-1,l表示为在决策时刻t-1车道l上的排队车辆数,V t,l表示在决策时刻t驶入车道l的车辆集合,v表示在决策时刻t是否加入到排队的某一辆车,判断车辆加入排队或离开排队,具体为:
Figure PCTCN2021124593-appb-000004
式中,
Figure PCTCN2021124593-appb-000005
为车辆v在决策时刻t-1与决策时刻t的速度;Sp Thr用于判断是否加入到排队的速度阈值;
多个信号交叉口的联合状态表示为每个信号交叉口的观测值的向量,具体为:
Figure PCTCN2021124593-appb-000006
式中,
Figure PCTCN2021124593-appb-000007
表示为第i个信号交叉口在决策时刻t的观测值。
可选地,信号控制方案根据是否改变相位的次序分为固定相位次序的动作选择和可变相位次序的动作选择;
对于固定相位次序,信号交叉口i处的策略网络在每次迭代的决策时刻t中有两个 可选动作,当
Figure PCTCN2021124593-appb-000008
时表示延续当前相位;当
Figure PCTCN2021124593-appb-000009
时表示结束当前相位并切换到下一相位,具体为:
Figure PCTCN2021124593-appb-000010
对于可变相位次序,信号交叉口i处的策略网络在每次迭代的决策时刻t中有n个可选动作,具体为:
Figure PCTCN2021124593-appb-000011
若在决策时刻t,信号交叉口i处的策略网络决定延续当前相位,即有
Figure PCTCN2021124593-appb-000012
即在t时刻的动作与上一决策时刻p(t)的动作相同,延长当前相位的时长m秒,m为1至5秒;则下次判断是否切换相位的决策时刻为t+m时刻,若在t时刻决定结束当前相位并切换到下一相位,即有
Figure PCTCN2021124593-appb-000013
即在t时刻的动作与上一决策时刻p(t)的动作不同,则最后再放一段此相位的最小绿灯时间G min,再放中间相黄灯时间Y,则开始切换到下个相位,则下次判断是否切换相位的决策时刻为t+G min+Y+m时刻。
可选地,信号交叉口i处价值网络的评价值计算函数定义为最大化排队车辆数的减小值,具体为:
Figure PCTCN2021124593-appb-000014
式中,L p(t),l和L t,l分别为在决策时刻p(t)和决策时刻t车道l上排队车辆数;
或者,信号交叉口i处价值网络的评价值计算函数定义为最大化总延误的减小值,具体为:
Figure PCTCN2021124593-appb-000015
式中,Cd p(t),v和Cd t,v分别为在决策时刻p(t)和决策时刻t时累计排队车辆的总延误;
多个信号交叉口处价值网络的联合评价值计算函数表示为每个信号交叉口处价值网络的评价值计算函数的耦合,具体为:
Figure PCTCN2021124593-appb-000016
式中,J(i)是除信号交叉口i的价值网络以外其他价值网络的集合;对于联合奖励函数,n为一个非负常数,当n为0时,信号交叉口i的价值网络只考虑其他价值网络集合J(i)的评价值,当n越大时,信号交叉口i的价值网络只考虑其本地评价值。
可选地,价值网络为双延迟深度Q网络,包含用于选择动作的动作价值网络
Figure PCTCN2021124593-appb-000017
和用于计算Q值的目标价值网络
Figure PCTCN2021124593-appb-000018
参数ω=[ω 1,…,ω i,…,ω N]表示为动作价值网络的N个参数,参数ω′=[ω′ 1,…,ω′ i,…,ω′ N]表示为目标价值网络的N个参数;
训练价值网络和策略网络,包括如下步骤:
1)输入强化学习相关参数:经验池容量max_size、小批量大小batch_size、折扣率γ、动作价值网络学习率α、目标价值网络学习率β、策略网络学习率η、终止迭代次数N;
2)初始化经验池E中的元素、动作价值网络
Figure PCTCN2021124593-appb-000019
的参数ω、目标价值网络
Figure PCTCN2021124593-appb-000020
的参数ω′、策略网络
Figure PCTCN2021124593-appb-000021
的参数θ;
3)获取每个信号交叉口i在时刻t的观测值
Figure PCTCN2021124593-appb-000022
所构成的联合交通状态s t、当前相位current_phase;
4)当迭代次数i小于终止迭代次数N时,执行以下步骤:
41)根据策略网络
Figure PCTCN2021124593-appb-000023
计算概率分布,根据概率分布随机抽样得到信号控制方案
Figure PCTCN2021124593-appb-000024
42)当信号控制方案
Figure PCTCN2021124593-appb-000025
为当前相位状态current_phase时,则延长当前相位时长m秒;当信号控制方案
Figure PCTCN2021124593-appb-000026
非当前相位状态current_phase时,放行一段当前相位的最小绿灯时间G min,在中间相黄灯时间Y结束后,开始切换到第j个相位;
43)计算信号交叉口i处的评价网络的评价值
Figure PCTCN2021124593-appb-000027
并构建联合评价值计算函数
Figure PCTCN2021124593-appb-000028
并计算各个信号交叉口i在时刻t+1的观测值
Figure PCTCN2021124593-appb-000029
所构成的联合交通状态s t+1
44)当经验池E的容量为最大容量max_size时,从经验池E中移除时刻较早的经验;否则,将经验
Figure PCTCN2021124593-appb-000030
放入到经验池E中;
45)当经验池的容量大于小批量经验数量batch_size时,执行以下步骤:
451)从经验池E中根据经验的优先值小批量的随机抽样;
452)对于每个小批量经验样本
Figure PCTCN2021124593-appb-000031
分别计算信号交叉口i处的动作价值网络
Figure PCTCN2021124593-appb-000032
的值和目标价值网络的值
Figure PCTCN2021124593-appb-000033
并得到基线b值的大小;
453)根据
Figure PCTCN2021124593-appb-000034
计算损失函数的值,并使用Adam优化器梯度下降法
Figure PCTCN2021124593-appb-000035
最小化损失函数来更新参数ω;
454)根据ω′=βω′+(1-β)ω来更新目标价值网络
Figure PCTCN2021124593-appb-000036
的参数ω′;
455)对于每个小批量经验样本
Figure PCTCN2021124593-appb-000037
基于蒙特卡洛近似方法,计算策略网络
Figure PCTCN2021124593-appb-000038
的随机策略梯度
Figure PCTCN2021124593-appb-000039
并采用梯度上升算法
Figure PCTCN2021124593-appb-000040
更新参数θ;
46)将t+1时刻的交通状态s t+1赋值给s t,并重复步骤451)到步骤455)。
根据第二方面,本发明提供了一种基于随机策略梯度的交通信号控制***,包括:
第一数据获取模块,用于获取至少一个控制信号交叉口的静态路网数据;
仿真绘制模块,用于根据静态路网数据可视化绘制交通仿真路网;
第二数据获取模块,用于获取至少一个控制信号交叉口的实时交通运行状态数据;
仿真校核模块,用于根据交通运行状态数据对交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网;
动作评价模块,用于将观测优化后的交通仿真路网得到的交通状态输入价值网络,得到交通状态下每个信号控制方案的评价值,并采用时间差分算法更新价值网络的参数;价值网络为预先构建的神经网络,用于近似动作价值函数;
动作抽样模块,用于将交通状态输入策略网络,得到每个信号控制方案的概率值,并根据每个信号控制方案的概率值做随机抽样得到一个信号控制方案;策略网络为预先构建的神经网络,用于近似策略函数;
信号控制模块,用于基于交通状态下每个信号控制方案的评价值以及一个信号控制方案,通过随机策略梯度更新策略网络的参数。
根据第三方面,本发明提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面的基于随机策略梯度的交通信号控制方法。
根据第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面所述的基于随机策略梯度的交通信号控制方法。
本发明的有益效果:
1、本发明提供的基于随机策略梯度的交通信号控制方法,直接通过构建策略网络,采用策略搜索方法对策略函数进行参数化表示,与现有技术中通过Q值函数的参数化表示相比,策略函数参数化更简单,具有更好的收敛性,学习效率和准确率均较高,且一般不会出现维数***的问题。
2、本发明提供的基于随机策略梯度的交通信号控制方法,通过对交叉口进行连续实时的监控、诊断、建模和控制,能够适应交通***的非线性、随机性、模糊性和不确定性。
3、本发明提供的基于随机策略梯度的交通信号控制方法,采用深度学习中的卷积神经网络能够解决原始的交通数据和交通状态过大的问题,卷积神经网络输入原始的高维数据,将底层的特征组合形成更加抽象的高层特征,捕捉高维交通状态中的隐藏特征,可以直接根据输入的高维数据进行控制,提高了状态输入矩阵的特征表示能力,增强了该方法对不同交通状态表示的泛化能力。
4、本发明提供的基于随机策略梯度的交通信号控制方法,相较于传统的定时式控制和感应式控制,该方法能够及时响应交通流的动态变化,优化信号配时方案进行实时控制,最终可以减小路网的行车延误,提高路网的通行效率。
附图说明
图1是本发明提供的基于随机策略梯度的交通信号控制方法的流程图;
图2是本发明实施例中的示例交通路网示意图;
图3是图1中步骤S400的具体步骤流程图;
图4是本发明提供的基于随机策略梯度的交通信号控制***的原理框图;
图5是本发明提供的一种电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
实施例1
图3示出了本发明实施例的基于随机策略梯度的交通信号控制方法的流程图,如图3所示,该方法可以包括如下步骤:
步骤S100:获取至少一个控制信号交叉口的静态路网数据。
在本发明实施例中,静态路网数据包括道路等级、车道数量、车道宽度、车道功能划分、路段长度、道路标志标线、交叉口类型、相邻交叉口信息、信号设备编号、相位信息和相序信息中的部分或者全部。
步骤S200:根据静态路网数据可视化绘制交通仿真路网。
在本发明实施例中,可以使用微观交通仿真软件,如SUMO进行交通仿真路网的绘制。
在本发明实施例中,一个交通仿真路网中包括至少一个控制信号交叉口。具体地,如图2所示,图中的标号1-9表示9个信号交叉口,图2所示的整体为一个交通路网。
步骤S300:获取至少一个控制信号交叉口的实时交通运行状态数据。
在本发明实施例中,交通运行状态数据还可以包括设备ID、检测时间、车流量、车辆类型分布、车辆时间占有率、车头时距、车辆加减速度、车辆空间占有率、车辆速度、车辆长度、车头间距、排队长度和停车次数部分或者全部。
步骤S400:根据交通运行状态数据对交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网。
在本发明实施例中,可以使用上述交通状态数据中的一个或者几个对交通仿真路网中的仿真参数进行参数校核,在这里,以使用车头时距和车辆加减速度为例进行说明,如图3所示,则步骤S400可以包括如下步骤:
步骤S401:获取实际车头时距参数和车辆加减速度参数的取值范围,并根据取值范围对交通仿真路网中车头时距参数和车辆加减速度参数进行初步校核。
步骤S402:观测交通仿真路网,获取仿真车头时距和车辆加减速度,并与实际车头时距和车辆加减速度进行对比分析。
步骤S403:若仿真车头时距和车辆加减速度与实际车头时距和车辆加减速度的差异在预设范围内时,则参数校核结束,得到优化后的交通仿真路网。
若仿真车头时距和车辆加减速度与实际车头时距和车辆加减速度的差异不在预设范围内,则重复上述步骤S401-S403,直至差异在预设范围内时结束。
步骤S500:将观测优化后的交通仿真路网得到的交通状态输入价值网络,得到交通状态下每个信号控制方案的评价值,并采用时间差分算法更新价值网络的参数。在本发明实施例中,价值网络为预先构建的卷积神经网络,用于近似动作价值函数。
在本发明实施例中,价值网络可以为一个用于仅是动作价值函数的卷积神经网络,输入层、卷积层、全连接层和输出层;也可以为双延迟深度Q网络,包含用于选择动作的动作价值网络
Figure PCTCN2021124593-appb-000041
和用于计算Q值的目标价值网络
Figure PCTCN2021124593-appb-000042
其中,参数ω=[ω 1,…,ω i,…,ω N]表示为动作价值网络的N个参数,参数ω′=[ω′ 1,…,ω′ i,…,ω′ N]表示为目标价值网络的N个参数。
步骤S600:将交通状态输入策略网络,得到每个信号控制方案的概率值,并根据每个信号控制方案的概率值做随机抽样得到一个信号控制方案。在本发明实施例中,策略网络为预先构建的卷积神经网络,用于近似策略函数。在本发明实施例中,策略网络包含输入层、卷积层、全连接层和输出层。
步骤S700:基于交通状态下每个信号控制方案的评价值以及一个信号控制方案,通过随机策略梯度更新策略网络的参数。
在本发明实施例中,交通状态表示为每个信号交叉口中每个相位j的最大排队车辆数,具体为:
Figure PCTCN2021124593-appb-000043
式中,
Figure PCTCN2021124593-appb-000044
表示信号交叉口i在决策时刻t的交通状态的观测值,i表示为每个信号交叉口的编号,i∈{1,2,...N};j表示为相位编号,j∈{1,2,...n};t为决策时刻;l为车道编号;L j表示在相位j可以通行的车道组;q t,l表示为在决策时刻t车道l上的排队车辆数;
在决策时刻t车道l的排队车辆数等于在决策时刻t-1车道l的排队车辆数加上或减去在决策时刻t进入排队或离开排队的车辆数,具体为:
Figure PCTCN2021124593-appb-000045
式中,q t-1,l表示为在决策时刻t-1车道l上的排队车辆数,V t,l表示在决策时刻t驶入车道l的车辆集合,v表示在决策时刻t是否加入到排队的某一辆车,判断车辆加入排队或离开排队,具体为:
Figure PCTCN2021124593-appb-000046
式中,
Figure PCTCN2021124593-appb-000047
为车辆v在决策时刻t-1与决策时刻t的速度;Sp Thr用于判断是否加入到排队的速度阈值;
多个信号交叉口的联合状态表示为每个信号交叉口的观测值的向量,具体为:
Figure PCTCN2021124593-appb-000048
式中,
Figure PCTCN2021124593-appb-000049
表示为第i个信号交叉口在决策时刻t的观测值。
在本发明实施例中,信号控制方案根据是否改变相位的次序分为固定相位次序的动作选择和可变相位次序的动作选择;
对于固定相位次序,信号交叉口i处的策略网络在每次迭代的决策时刻t中有两个可选动作,当
Figure PCTCN2021124593-appb-000050
时表示延续当前相位;当
Figure PCTCN2021124593-appb-000051
时表示结束当前相位并切换到下一相位,具体为:
Figure PCTCN2021124593-appb-000052
对于可变相位次序,信号交叉口i处的策略网络在每次迭代的决策时刻t中有n个可选动作,具体为:
Figure PCTCN2021124593-appb-000053
若在决策时刻t,信号交叉口i处的策略网络决定延续当前相位,即有
Figure PCTCN2021124593-appb-000054
即在t时刻的动作与上一决策时刻p(t)的动作相同,延长当前相位的时长m秒,m为1至5秒;则下次判断是否切换相位的决策时刻为t+m时刻,若在t时刻决定结束当前相位并切换到下一相位,即有
Figure PCTCN2021124593-appb-000055
即在t时刻的动作与上一决策时刻p(t)的动作不同,则最后再放一段此相位的最小绿灯时间G min,再放中间相黄灯时间Y,则开始切换到下个相位,则下次判断是否切换相位的决策时刻为t+G min+Y+m时刻。
在本发明实施例中,信号交叉口i处价值网络的评价值计算函数定义为最大化排队车辆数的减小值,具体为:
Figure PCTCN2021124593-appb-000056
式中,L p(t),l和L t,l分别为在决策时刻p(t)和决策时刻t车道l上排队车辆数;
或者,信号交叉口i处价值网络的评价值计算函数定义为最大化总延误的减小值,具体为:
Figure PCTCN2021124593-appb-000057
式中,Cd p(t),v和Cd t,v分别为在决策时刻p(t)和决策时刻t时累计排队车辆的总延误;
多个信号交叉口处价值网络的联合评价值计算函数表示为每个信号交叉口处价值网络的评价值计算函数的耦合,具体为:
Figure PCTCN2021124593-appb-000058
式中,J(i)是除信号交叉口i的价值网络以外其他价值网络的集合;对于联合奖励函数,n为一个非负常数,当n为0时,信号交叉口i的价值网络只考虑其他价值网络集合J(i)的评价值,当n越大时,信号交叉口i的价值网络只考虑其本地评价值。
在本发明实施例中,当价值网络为双延迟深度Q网络,训练价值网络和策略网络的具体步骤如下:
1)输入强化学习相关参数:经验池容量max_size、小批量大小batch_size、折扣率γ、动作价值网络学习率α、目标价值网络学习率β、策略网络学习率η、终止迭代次数N。
在本发明实施例中,上述参数的具体数值均可以根据实际应用场景的需要以及使用者的经验进行具体设置,在这里,提供一组具体参数数值,用以帮助本领域技术人员理解该技术方案:经验池大小max_size设置为100,000;小批量大小batch_size设置为32;折扣率γ设置为0.75;价值网络学习率α设置为0.0002;目标价值网络学习率β设置为0.001、策略网络学习率η设置为0.0002、终止迭代次数N设置为450,000;具体第,如下表所示:
Figure PCTCN2021124593-appb-000059
2)初始化经验池E中的元素、动作价值网络
Figure PCTCN2021124593-appb-000060
的参数ω、目标价值网络
Figure PCTCN2021124593-appb-000061
的参数ω′、策略网络
Figure PCTCN2021124593-appb-000062
的参数θ;
3)获取每个信号交叉口i在时刻t的观测值
Figure PCTCN2021124593-appb-000063
所构成的联合交通状态s t、当前相位 current_phase;
4)当迭代次数i小于终止迭代次数N时,执行以下步骤:
41)根据策略网络
Figure PCTCN2021124593-appb-000064
计算概率分布,根据概率分布随机抽样得到信号控制方案
Figure PCTCN2021124593-appb-000065
42)当信号控制方案
Figure PCTCN2021124593-appb-000066
为当前相位状态current_phase时,则延长当前相位时长m秒;当信号控制方案
Figure PCTCN2021124593-appb-000067
非当前相位状态current_phase时,放行一段当前相位的最小绿灯时间G min,在中间相黄灯时间Y结束后,开始切换到第j个相位;
43)计算信号交叉口i处的评价网络的评价值
Figure PCTCN2021124593-appb-000068
并构建联合评价值计算函数
Figure PCTCN2021124593-appb-000069
并计算各个信号交叉口i在时刻t+1的观测值
Figure PCTCN2021124593-appb-000070
所构成的联合交通状态s t+1
44)当经验池E的容量为最大容量max_size时,从经验池E中移除时刻较早的经验;否则,将经验
Figure PCTCN2021124593-appb-000071
放入到经验池E中;
45)当经验池的容量大于小批量经验数量batch_size时,执行以下步骤:
451)从经验池E中根据经验的优先值小批量的随机抽样;
452)对于每个小批量经验样本
Figure PCTCN2021124593-appb-000072
分别计算信号交叉口i处的动作价值网络
Figure PCTCN2021124593-appb-000073
的值和目标价值网络的值
Figure PCTCN2021124593-appb-000074
并得到基线b值的大小;
453)根据
Figure PCTCN2021124593-appb-000075
计算损失函数的值,并使用Adam优化器梯度下降法
Figure PCTCN2021124593-appb-000076
最小化损失函数来更新参数ω;
454)根据ω′=βω′+(1-β)ω来更新目标价值网络
Figure PCTCN2021124593-appb-000077
的参数ω′;
455)对于每个小批量经验样本
Figure PCTCN2021124593-appb-000078
基于蒙特卡洛近似 方法,计算策略网络
Figure PCTCN2021124593-appb-000079
的随机策略梯度
Figure PCTCN2021124593-appb-000080
并采用梯度上升算法
Figure PCTCN2021124593-appb-000081
更新参数θ;
46)将t+1时刻的交通状态s t+1赋值给s t,并重复步骤451)到步骤455)。
实施例2
图4示出了本发明实施例的一种基于随机策略梯度的交通信号控制***的原理框图,该装置可以用于实现实施例1或者其任意可选实施方式所述的基于随机策略梯度的交通信号控制方法。如图4所示,该***包括:第一数据获取模块10、仿真绘制模块20、第二数据获取模块30、仿真校核模块40、动作评价模块50、动作抽样模块60和信号控制模块70。其中,
第一数据获取模块10用于获取至少一个控制信号交叉口的静态路网数据。
仿真绘制模块20用于根据静态路网数据可视化绘制交通仿真路网。
第二数据获取模块30用于获取至少一个控制信号交叉口的实时交通运行状态数据。
仿真校核模块40用于根据交通运行状态数据对交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网。
动作评价模块50用于将观测优化后的交通仿真路网得到的交通状态输入价值网络,得到交通状态下每个信号控制方案的评价值,并采用时间差分算法更新价值网络的参数。在本发明实施例中,价值网络为预先构建的神经网络,用于近似动作价值函数。
动作抽样模块60用于将交通状态输入策略网络,得到每个信号控制方案的概率值,并根据每个信号控制方案的概率值做随机抽样得到一个信号控制方案。在本发明实施例中,策略网络为预先构建的神经网络,用于近似策略函数。
信号控制模块70用于基于交通状态下每个信号控制方案的评价值以及一个信号控制方案,通过随机策略梯度更新策略网络的参数。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以 为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的基于随机策略梯度的交通信号控制方法对应的程序指令/模块(如图4示出的第一数据获取模块10、仿真绘制模块20、第二数据获取模块30、仿真校核模块40、动作评价模块50、动作抽样模块60和信号控制模块70)。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于随机策略梯度的交通信号控制方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-图3所示实施例中的基于随机策略梯度的交通信号控制方法。
上述电子设备具体细节可以对应参阅图1至图3所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

  1. 一种基于随机策略梯度的交通信号控制方法,其特征在于,包括如下步骤:
    获取至少一个控制信号交叉口的静态路网数据;
    根据所述静态路网数据可视化绘制交通仿真路网;
    获取所述至少一个控制信号交叉口的实时交通运行状态数据;
    根据所述交通运行状态数据对所述交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网;
    将观测所述优化后的交通仿真路网得到的交通状态输入价值网络,得到所述交通状态下每个信号控制方案的评价值,并采用时间差分算法更新所述价值网络的参数;所述价值网络为预先构建的卷积神经网络,用于近似动作价值函数;
    将所述交通状态输入策略网络,得到所述每个信号控制方案的概率值,并根据所述每个信号控制方案的概率值做随机抽样得到一个信号控制方案;所述策略网络为预先构建的卷积神经网络,用于近似策略函数;
    基于所述交通状态下每个信号控制方案的评价值以及所述一个信号控制方案,通过随机策略梯度更新所述策略网络的参数。
  2. 根据权利要求1所述的基于随机策略梯度的交通信号控制方法,其特征在于,所述交通运行状态数据包括车头时距、车辆加减速度,所述根据所述交通运行状态数据对所述交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网的步骤,包括:
    获取实际车头时距参数和车辆加减速度参数的取值范围,并根据所述取值范围对所述交通仿真路网中车头时距参数和车辆加减速度参数进行初步校核;
    观测所述交通仿真路网,获取仿真车头时距和车辆加减速度,并与实际车头时距和车辆加减速度进行对比分析;
    若所述仿真车头时距和车辆加减速度与实际车头时距和车辆加减速度的差异在预设范围内时,则参数校核结束,得到所述优化后的交通仿真路网;否则,重复上述步骤,直至所述差异在预设范围内时结束。
  3. 根据权利要求2所述的基于随机策略梯度的交通信号控制方法,其特征在于,所述静态路网数据包括道路等级、车道数量、车道宽度、车道功能划分、路段长度、道路标志标线、交叉口类型、相邻交叉口信息、信号设备编号、相位信息和相序信息中的部分或者全部;
    所述交通运行状态数据还可以包括设备ID、检测时间、车流量、车辆类型分布、车辆时间占有率、车辆空间占有率、车辆速度、车辆长度、车头间距、排队长度和停车次数部分或者全部。
  4. 根据权利要求1-3任一项所述的基于随机策略梯度的交通信号控制方法,其特征在于,所述交通状态表示为每个信号交叉口中每个相位j的最大排队车辆数,具体为:
    Figure PCTCN2021124593-appb-100001
    式中,
    Figure PCTCN2021124593-appb-100002
    表示信号交叉口i在决策时刻t的交通状态的观测值,i表示为每个信号交叉口的编号,i∈{1,2,...N};j表示为相位编号,j∈{1,2,...n};t为决策时刻;l为车道编号;L j表示在相位j可以通行的车道组;q t,l表示为在决策时刻t车道l上的排队车辆数;
    在决策时刻t车道l的排队车辆数等于在决策时刻t-1车道l的排队车辆数加上或减去在决策时刻t进入排队或离开排队的车辆数,具体为:
    Figure PCTCN2021124593-appb-100003
    式中,q t-1,l表示为在决策时刻t-1车道l上的排队车辆数,V t,l表示在决策时刻t驶入车道l的车辆集合,v表示在决策时刻t是否加入到排队的某一辆车,判断车辆加入排队或离开排队,具体为:
    Figure PCTCN2021124593-appb-100004
    式中,
    Figure PCTCN2021124593-appb-100005
    为车辆v在决策时刻t-1与决策时刻t的速度;Sp Thr用于判断是否加入到排队的速度阈值;
    多个信号交叉口的联合状态表示为每个信号交叉口的观测值的向量,具体为:
    Figure PCTCN2021124593-appb-100006
    式中,
    Figure PCTCN2021124593-appb-100007
    表示为第i个信号交叉口在决策时刻t的观测值。
  5. 根据权利要求4所述的基于随机策略梯度的交通信号控制方法,其特征在于,所 述信号控制方案根据是否改变相位的次序分为固定相位次序的动作选择和可变相位次序的动作选择;
    对于固定相位次序,信号交叉口i处的策略网络在每次迭代的决策时刻t中有两个可选动作,当
    Figure PCTCN2021124593-appb-100008
    时表示延续当前相位;当
    Figure PCTCN2021124593-appb-100009
    时表示结束当前相位并切换到下一相位,具体为:
    Figure PCTCN2021124593-appb-100010
    对于可变相位次序,信号交叉口i处的策略网络在每次迭代的决策时刻t中有n个可选动作,具体为:
    Figure PCTCN2021124593-appb-100011
    若在决策时刻t,信号交叉口i处的策略网络决定延续当前相位,即有
    Figure PCTCN2021124593-appb-100012
    即在t时刻的动作与上一决策时刻p(t)的动作相同,延长当前相位的时长m秒,m为1至5秒;则下次判断是否切换相位的决策时刻为t+m时刻,若在t时刻决定结束当前相位并切换到下一相位,即有
    Figure PCTCN2021124593-appb-100013
    即在t时刻的动作与上一决策时刻p(t)的动作不同,则最后再放一段此相位的最小绿灯时间G min,再放中间相黄灯时间Y,则开始切换到下个相位,则下次判断是否切换相位的决策时刻为t+G min+Y+m时刻。
  6. 根据权利要求5所述的基于随机策略梯度的交通信号控制方法,其特征在于,信号交叉口i处价值网络的评价值计算函数定义为最大化排队车辆数的减小值,具体为:
    Figure PCTCN2021124593-appb-100014
    式中,L p(t),l和L t,l分别为在决策时刻p(t)和决策时刻t车道l上排队车辆数;
    或者,信号交叉口i处价值网络的评价值计算函数定义为最大化总延误的减小值,具体为:
    Figure PCTCN2021124593-appb-100015
    式中,Cd p(t),v和Cd t,v分别为在决策时刻p(t)和决策时刻t时累计排队车辆的总延误;
    多个信号交叉口处价值网络的联合评价值计算函数表示为每个信号交叉口处价值 网络的评价值计算函数的耦合,具体为:
    Figure PCTCN2021124593-appb-100016
    式中,J(i)是除信号交叉口i的价值网络以外其他价值网络的集合;对于联合奖励函数,n为一个非负常数,当n为0时,信号交叉口i的价值网络只考虑其他价值网络集合J(i)的评价值,当n越大时,信号交叉口i的价值网络只考虑其本地评价值。
  7. 根据权利要求6所述的基于随机策略梯度的交通信号控制方法,其特征在于,所述价值网络为双延迟深度Q网络,包含用于选择动作的动作价值网络
    Figure PCTCN2021124593-appb-100017
    和用于计算Q值的目标价值网络
    Figure PCTCN2021124593-appb-100018
    参数ω=[ω 1,…,ω i,…,ω N]表示为动作价值网络的N个参数,参数ω′=[ω′ 1,…,ω′ i,…,ω′ N]表示为目标价值网络的N个参数;
    训练所述价值网络和所述策略网络,包括如下步骤:
    1)输入强化学习相关参数:经验池容量max_size、小批量大小batch_size、折扣率γ、动作价值网络学习率α、目标价值网络学习率β、策略网络学习率η、终止迭代次数N;
    2)初始化经验池E中的元素、动作价值网络
    Figure PCTCN2021124593-appb-100019
    的参数ω、目标价值网络
    Figure PCTCN2021124593-appb-100020
    的参数ω′、策略网络
    Figure PCTCN2021124593-appb-100021
    的参数θ;
    3)获取每个信号交叉口i在时刻t的观测值
    Figure PCTCN2021124593-appb-100022
    所构成的联合交通状态s t、当前相位current_phase;
    4)当迭代次数i小于终止迭代次数N时,执行以下步骤:
    41)根据策略网络
    Figure PCTCN2021124593-appb-100023
    计算概率分布,根据概率分布随机抽样得到信号控制方案
    Figure PCTCN2021124593-appb-100024
    42)当所述信号控制方案
    Figure PCTCN2021124593-appb-100025
    为当前相位状态current_phase时,则延长当前相位时长m秒;当所述信号控制方案
    Figure PCTCN2021124593-appb-100026
    非当前相位状态current_phase时,放行一段当前相位的最 小绿灯时间G min,在中间相黄灯时间Y结束后,开始切换到第j个相位;
    43)计算信号交叉口i处的评价网络的评价值
    Figure PCTCN2021124593-appb-100027
    并构建联合评价值计算函数
    Figure PCTCN2021124593-appb-100028
    并计算各个信号交叉口i在时刻t+1的观测值
    Figure PCTCN2021124593-appb-100029
    所构成的联合交通状态s t+1
    44)当经验池E的容量为最大容量max_size时,从经验池E中移除时刻较早的经验;否则,将经验
    Figure PCTCN2021124593-appb-100030
    放入到经验池E中;
    45)当经验池的容量大于小批量经验数量batch_size时,执行以下步骤:
    451)从经验池E中根据经验的优先值小批量的随机抽样;
    452)对于每个小批量经验样本
    Figure PCTCN2021124593-appb-100031
    分别计算信号交叉口i处的动作价值网络
    Figure PCTCN2021124593-appb-100032
    的值和目标价值网络的值
    Figure PCTCN2021124593-appb-100033
    并得到基线b值的大小;
    453)根据
    Figure PCTCN2021124593-appb-100034
    计算损失函数的值,并使用Adam优化器梯度下降法
    Figure PCTCN2021124593-appb-100035
    最小化损失函数来更新参数ω;
    454)根据ω′=βω′+(1-β)ω来更新目标价值网络
    Figure PCTCN2021124593-appb-100036
    455)对于每个小批量经验样本
    Figure PCTCN2021124593-appb-100037
    基于蒙特卡洛近似方法,计算策略网络
    Figure PCTCN2021124593-appb-100038
    的随机策略梯度
    Figure PCTCN2021124593-appb-100039
    并采用梯度上升算法
    Figure PCTCN2021124593-appb-100040
    更新参数θ;
    46)将t+1时刻的交通状态s t+1赋值给s t,并重复步骤451)到步骤455)。
  8. 一种基于随机策略梯度的交通信号控制***,其特征在于,包括:
    第一数据获取模块,用于获取至少一个控制信号交叉口的静态路网数据;
    仿真绘制模块,用于根据所述静态路网数据可视化绘制交通仿真路网;
    第二数据获取模块,用于获取所述至少一个控制信号交叉口的实时交通运行状态数据;
    仿真校核模块,用于根据所述交通运行状态数据对所述交通仿真路网中的仿真参数进行参数校核,得到优化后的交通仿真路网;
    动作评价模块,用于将观测所述优化后的交通仿真路网得到的交通状态输入价值网络,得到所述交通状态下每个信号控制方案的评价值,并采用时间差分算法更新所述价值网络的参数;所述价值网络为预先构建的神经网络,用于近似动作价值函数;
    动作抽样模块,用于将所述交通状态输入策略网络,得到所述每个信号控制方案的概率值,并根据所述每个信号控制方案的概率值做随机抽样得到一个信号控制方案;所述策略网络为预先构建的神经网络,用于近似策略函数;
    信号控制模块,用于基于所述交通状态下每个信号控制方案的评价值以及所述一个信号控制方案,通过随机策略梯度更新所述策略网络的参数。
  9. 一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7任一项所述的基于随机策略梯度的交通信号控制方法。
  10. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一项所述的基于随机策略梯度的交通信号控制方法。
PCT/CN2021/124593 2020-12-11 2021-10-19 基于随机策略梯度的交通信号控制方法、***及电子设备 WO2022121510A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011459044.2A CN112614343B (zh) 2020-12-11 2020-12-11 基于随机策略梯度的交通信号控制方法、***及电子设备
CN202011459044.2 2020-12-11

Publications (1)

Publication Number Publication Date
WO2022121510A1 true WO2022121510A1 (zh) 2022-06-16

Family

ID=75234428

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/124593 WO2022121510A1 (zh) 2020-12-11 2021-10-19 基于随机策略梯度的交通信号控制方法、***及电子设备

Country Status (2)

Country Link
CN (1) CN112614343B (zh)
WO (1) WO2022121510A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310278A (zh) * 2022-07-28 2022-11-08 东南大学 一种大规模路网在线微观交通的仿真方法及其验证方法
CN115331428A (zh) * 2022-07-05 2022-11-11 成利吉(厦门)智能股份有限公司 一种基于规则库的交通信号优化方法
CN115440042A (zh) * 2022-09-02 2022-12-06 吉林大学 基于多智能体约束策略优化的无信号交叉口协同控制方法
CN115762128A (zh) * 2022-09-28 2023-03-07 南京航空航天大学 一种基于自注意力机制的深度强化学习交通信号控制方法
CN115936195A (zh) * 2022-11-23 2023-04-07 合肥工业大学 智能小区能源优化方法、***、电子设备和存储介质
CN116153065A (zh) * 2022-12-29 2023-05-23 山东大学 车路协同环境下交叉***通信号精细化优化方法及装置
CN115171408B (zh) * 2022-07-08 2023-05-30 华侨大学 一种交通信号优化控制方法
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN117151441A (zh) * 2023-10-31 2023-12-01 长春工业大学 一种基于演员-评论家算法的置换流水车间调度方法
CN117173914A (zh) * 2023-11-03 2023-12-05 中泰信合智能科技有限公司 一种简化复杂模型的路网信控单元解耦方法、装置及介质
CN117671977A (zh) * 2024-02-01 2024-03-08 银江技术股份有限公司 一种交通干线的信号灯控制方法、***、装置和介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614343B (zh) * 2020-12-11 2022-08-19 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备
CN113362618B (zh) * 2021-06-03 2022-08-09 东南大学 基于策略梯度的多模式交通自适应信号控制方法及装置
CN114038217B (zh) * 2021-10-28 2023-11-17 李迎 一种交通信号配置和控制的方法
CN114446066B (zh) * 2021-12-30 2023-05-16 银江技术股份有限公司 一种道路信号控制方法以及装置
CN114613159B (zh) * 2022-02-10 2023-07-28 北京箩筐时空数据技术有限公司 基于深度强化学习的交通信号灯控制方法、装置及设备
CN114743388B (zh) * 2022-03-22 2023-06-20 中山大学·深圳 一种基于强化学习的多交叉口信号自适应控制方法
CN115100850B (zh) * 2022-04-21 2024-06-11 浙江省交通投资集团有限公司智慧交通研究分公司 基于深度强化学习的混合交通流控制方法、介质及设备
CN114898576B (zh) * 2022-05-10 2023-12-19 阿波罗智联(北京)科技有限公司 交通控制信号的生成方法、目标网络模型的训练方法
CN117275259B (zh) * 2023-11-20 2024-02-06 北京航空航天大学 一种基于领域信息回溯的多交叉口协同信号控制方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102165501A (zh) * 2008-09-30 2011-08-24 西门子公司 用于优化道路交通网络内灯控交叉点上的交通控制的方法
US20140032032A1 (en) * 2012-04-09 2014-01-30 Google Inc. Control of Vehicles based on Auditory Signals
CN105955930A (zh) * 2016-05-06 2016-09-21 天津科技大学 引导型策略搜索强化学习算法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、***和存储介质
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路***通信号控制方法、***、装置
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策***及方法
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN111737826A (zh) * 2020-07-17 2020-10-02 北京全路通信信号研究设计院集团有限公司 一种基于增强学习的轨道交通自动仿真建模方法及装置
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215355A (zh) * 2018-08-09 2019-01-15 北京航空航天大学 一种基于深度强化学习的单点交叉口信号配时优化方法
CN109559530B (zh) * 2019-01-07 2020-07-14 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110047278B (zh) * 2019-03-30 2021-06-08 北京交通大学 一种基于深度强化学习的自适应交通信号控制***及方法
CN111833590B (zh) * 2019-04-15 2021-12-07 北京京东尚科信息技术有限公司 交通信号灯的控制方法、装置及计算机可读存储介质
CN110673602B (zh) * 2019-10-24 2022-11-25 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN110930734A (zh) * 2019-11-30 2020-03-27 天津大学 基于强化学习的闲时交通指示灯智能控制方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102165501A (zh) * 2008-09-30 2011-08-24 西门子公司 用于优化道路交通网络内灯控交叉点上的交通控制的方法
US20140032032A1 (en) * 2012-04-09 2014-01-30 Google Inc. Control of Vehicles based on Auditory Signals
CN105955930A (zh) * 2016-05-06 2016-09-21 天津科技大学 引导型策略搜索强化学习算法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、***和存储介质
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路***通信号控制方法、***、装置
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策***及方法
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN111737826A (zh) * 2020-07-17 2020-10-02 北京全路通信信号研究设计院集团有限公司 一种基于增强学习的轨道交通自动仿真建模方法及装置
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331428A (zh) * 2022-07-05 2022-11-11 成利吉(厦门)智能股份有限公司 一种基于规则库的交通信号优化方法
CN115331428B (zh) * 2022-07-05 2023-10-17 成利吉(厦门)智能股份有限公司 一种基于规则库的交通信号优化方法
CN115171408B (zh) * 2022-07-08 2023-05-30 华侨大学 一种交通信号优化控制方法
CN115310278A (zh) * 2022-07-28 2022-11-08 东南大学 一种大规模路网在线微观交通的仿真方法及其验证方法
CN115310278B (zh) * 2022-07-28 2024-06-11 东南大学 一种大规模路网在线微观交通的仿真方法及其验证方法
CN115440042B (zh) * 2022-09-02 2024-02-02 吉林大学 基于多智能体约束策略优化的无信号交叉口协同控制方法
CN115440042A (zh) * 2022-09-02 2022-12-06 吉林大学 基于多智能体约束策略优化的无信号交叉口协同控制方法
CN115762128A (zh) * 2022-09-28 2023-03-07 南京航空航天大学 一种基于自注意力机制的深度强化学习交通信号控制方法
CN115762128B (zh) * 2022-09-28 2024-03-29 南京航空航天大学 一种基于自注意力机制的深度强化学习交通信号控制方法
CN115936195A (zh) * 2022-11-23 2023-04-07 合肥工业大学 智能小区能源优化方法、***、电子设备和存储介质
CN116153065B (zh) * 2022-12-29 2024-06-04 山东大学 车路协同环境下交叉***通信号精细化优化方法及装置
CN116153065A (zh) * 2022-12-29 2023-05-23 山东大学 车路协同环境下交叉***通信号精细化优化方法及装置
CN116597672B (zh) * 2023-06-14 2024-02-13 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN117151441B (zh) * 2023-10-31 2024-01-30 长春工业大学 一种基于演员-评论家算法的置换流水车间调度方法
CN117151441A (zh) * 2023-10-31 2023-12-01 长春工业大学 一种基于演员-评论家算法的置换流水车间调度方法
CN117173914A (zh) * 2023-11-03 2023-12-05 中泰信合智能科技有限公司 一种简化复杂模型的路网信控单元解耦方法、装置及介质
CN117173914B (zh) * 2023-11-03 2024-01-26 中泰信合智能科技有限公司 一种简化复杂模型的路网信控单元解耦方法、装置及介质
CN117671977A (zh) * 2024-02-01 2024-03-08 银江技术股份有限公司 一种交通干线的信号灯控制方法、***、装置和介质

Also Published As

Publication number Publication date
CN112614343A (zh) 2021-04-06
CN112614343B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
WO2022121510A1 (zh) 基于随机策略梯度的交通信号控制方法、***及电子设备
Wei et al. Recent advances in reinforcement learning for traffic signal control: A survey of models and evaluation
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN111243297A (zh) 交通灯相位控制方法、***、设备及介质
US11893886B2 (en) Traffic control system
CN111243299A (zh) 一种基于3dqn_pser算法的单交叉口信号控制方法
WO2021051930A1 (zh) 基于动作预测模型的信号调节方法、装置和计算机设备
Coşkun et al. Deep reinforcement learning for traffic light optimization
CN112907970B (zh) 一种基于车辆排队长度变化率的可变车道转向控制方法
CN113257016B (zh) 一种交通信号控制方法、装置以及可读存储介质
JP7396367B2 (ja) 制御装置、制御システム、及びプログラム
CN114120670B (zh) 用于交通信号控制的方法和***
CN116453343A (zh) 智能网联环境下基于流量预测的智能交通信号控制优化算法、软件与***
WO2022258943A1 (en) Traffic control system
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network
CN114419884A (zh) 基于强化学习和相位竞争的自适应信号控制方法及***
CN113515892A (zh) 一种多智能体交通仿真并行计算方法及装置
Wang et al. A large-scale traffic signal control algorithm based on multi-layer graph deep reinforcement learning
CN115640852B (zh) 联邦学习参与节点选择优化方法、联邦学习方法及***
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
Sun et al. KeyLight: Intelligent Traffic Signal Control Method Based on Improved Graph Neural Network
CN115981302A (zh) 车辆跟驰换道行为决策方法、装置及电子设备
CN116259175A (zh) 一种面向多样化动态信号灯模式的车速推荐方法及装置
JP2023531927A (ja) 運転意思決定方法および運転意思決定装置ならびにチップ
Faqir et al. Combined extreme learning machine and max pressure algorithms for traffic signal control

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21902217

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21902217

Country of ref document: EP

Kind code of ref document: A1