CN113823099A - 信控方案调整方法、装置、设备及计算机可读存储介质 - Google Patents

信控方案调整方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113823099A
CN113823099A CN202111062347.5A CN202111062347A CN113823099A CN 113823099 A CN113823099 A CN 113823099A CN 202111062347 A CN202111062347 A CN 202111062347A CN 113823099 A CN113823099 A CN 113823099A
Authority
CN
China
Prior art keywords
signal control
data
period
lane
signaling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111062347.5A
Other languages
English (en)
Other versions
CN113823099B (zh
Inventor
徐承成
马子安
阚宇衡
王茂南
庄芷钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202111062347.5A priority Critical patent/CN113823099B/zh
Publication of CN113823099A publication Critical patent/CN113823099A/zh
Application granted granted Critical
Publication of CN113823099B publication Critical patent/CN113823099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Traffic Control Systems (AREA)

Abstract

本公开提供了一种信控方案调整方法、装置、设备及计算机可读存储介质;所述方法包括:获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的;基于所述第一观测数据,确定所述第一信控周期的调整策略;在所述第一信控周期中,利用所述第一信控周期的调整策略调整所述第一信控方案。通过本公开提供的信控方案调整方法,能够提升信控方案调整方法的灵活性。

Description

信控方案调整方法、装置、设备及计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种信控方案调整方法、装置、设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。对于道路路口,在基础几何结构和车道功能划分确定后,为了实现有序的交通控制,可以在道路路口设置信号灯,通过信号灯为不同车流方向分配路权,即为每个车流方向分配红绿灯时间。通过信号灯为不同车流方向分配路权,涉及相位、相序等设计。
传统技术中,主要依赖人工经验,首先把道路路口的车流方向组合成不同的相位,再确定信号灯的变化周期,以该周期为单位对道路路口的信号灯进行控制,从而把绿灯时间分配给不同相位。这种信控方案调整方法,不仅自动化程度低,而且不能针对实际交通场景的不同,变更不同的信号控制方案,灵活性较差,优化程度低。
发明内容
本公开实施例提供一种信控方案调整方法、装置、设备及计算机可读存储介质,具体涉及一种基于强化学习的自适应干线协调控制方法,能够针对真实场景中交通状态的不同,对信控方案进行调整,提升了本***号控制方法的灵活性。
本公开实施例的技术方案是这样实现的:
本公开实施例提供一种信控方案调整方法,包括:获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的;基于所述第一观测数据,确定第一信控周期的调整策略;在所述第一信控周期中,利用所述调整策略调整所述第一信控方案。
在一些实施例中,信控周期包括数据采集周期和方案调整周期,所述第一观测数据在所述第一信控周期的数据采集周期中获取,所述调整策略在所述第一信控周期的方案调整周期中执行。
在本公开实施例中,由于在一个信控周期内将用于获取观测数据的数据采集周期和方案调整周期独立,可以使得采集到的观测数据可以准确的反映出对应的信控方案对于真实场景的管控效果,进而基于该观测数据得到的调整策略可以更加符合真实场景的调整趋势。
在一些实施例中,所述调整策略包括所述真实场景的每一真实路口的调整子策略,所述调整子策略包括绿信比调整动作和/或相位差调整动作,
所述在所述第一信控周期中,利用所述调整策略调整所述第一信控方案,包括:针对每一所述真实路口,利用所述真实路口对应的所述绿信比调整动作调整所述真实路口的绿信比,和/或利用所述真实路口对应的所述相位差调整动作调整所述真实路口的相位差。
在一些实施例中,所述信控周期包括至少三个信号周期,所述利用所述真实路口对应的所述相位差调整动作调整所述真实路口的相位差,包括:在确定调整策略后的第一个信号周期中,将所述真实路口的信号周期延长预设相位差,其中,所述预设相位差基于所述相位差调整动作确定;在确定调整策略后的第二个信号周期中,将所述真实路口延长后的信号周期缩短所述预设相位差。
在一些实施例中,所述利用所述真实路口对应的所述绿信比调整动作调整所述真实路口的绿信比,包括:在确定调整策略后的第一个信号周期中,基于所述绿信比调整动作调整所述真实路口的绿信比。
在一些实施例中,所述基于所述第一观测数据,确定所述第一信控周期的调整策略,包括:将所述第一观测数据输入至预设的信控模型,输出所述第一信控周期的调整策略;其中,所述信控模型是通过包括样本奖励值的样本数据进行迭代地强化学习训练得到;所述样本奖励值用于表征所述交通场景中的车辆延误情况。
在一些实施例中,所述信控模型的训练方法包括:获取仿真场景中第一信控周期对应的第一状态数据;所述仿真场景基于所述真实场景模拟构建;将所述第一状态数据输入至初始模型,得到所述仿真场景中第一信控周期对应的第一信控动作;在所述第一信控周期中,利用所述第一信控周期对应的第一信控动作对所述仿真场景中的信控方案进行调整;在第二信控周期中,获取所述仿真场景响应于所述第一信控动作产生的所述第一信控周期对应的第一回报数据和所述第二信控周期对应的第二状态数据;基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述初始模型的模型参数进行调整,得到训练后的信控模型;所述第一回报数据为所述第一信控周期的样本奖励值。
通过上述公开实施例,由于用于训练信控模型的仿真场景的几何位置与实际部署的真实场景的几何位置相同,因此,得到的信控模型可以更加匹配真实场景;进一步地,本公开实施例提供的信控模型的训练方法可以针对不同的真实场景建立不同的仿真模型,进而可以针对不同真实场景训练得到对应的信控模型,应用范围较大;同时,由于采用了强化学习策略训练该信控模型,由此得到的信控模型可以对真实场景中的信号灯设备进行实时控制,实现了信号灯控制的自动化,有利于提高管控灵活性和优化程度。
在一些实施例中,所述方法还包括:构建初始仿真场景;所述初始仿真场景包括至少一个仿真路口、每一所述仿真路口对应的仿真车道;基于所述初始仿真场景和场景配置参数,生成训练周期内的车流量变化曲线;所述车流量变化曲线用于表征每一所述仿真路口对应的仿真车道中的车流量变化情况;基于所述初始仿真场景和所述车流量变化曲线构建所述仿真场景。
在一些实施例中,所述基于所述初始仿真场景和场景配置参数,生成训练周期内的车流量变化曲线,包括:基于训练周期和预设仿真周期,确定多个仿真时间点;基于所述初始仿真场景和所述场景配置参数,确定每一所述仿真时间点对应的车流量数据;所述车流量数据包括所述仿真路口中驶入方向与协调方向一致的每一协调车道的车流量数据,和所述仿真路口中驶入方向与所述协调方向不一致的每一非协调车道中的车流量数据;对每一所述仿真时间点对应的车流量数据进行平滑处理,得到所述训练周期中每一所述协调车道对应的第一流量子曲线和每一所述非协调车道对应的第二流量子曲线;所述车流量变化曲线包括所述第一流量子曲线和每一所述第二流量子曲线。
在一些实施例中,所述仿真场景为车流量非饱和场景,非饱和场景的所述场景配置参数包括饱和流率范围参数和流量比范围参数,所述初始仿真场景包括多个路网源头车道;所述基于所述初始仿真场景和所述非饱和场景配置参数,确定每一所述仿真时间点对应的车流量数据,包括:针对每一所述仿真时间点,基于所述车道饱和流率范围参数和所述流量比范围参数,确定所述初始仿真场景中每一所述路网源头车道的目标饱和流率和目标流量比;基于每一所述路网源头车道的目标饱和流率和目标流量比,确定每一所述路网源头车道的源流量;所述仿真时间点中驶入所述初始仿真场景的车流量包括每一所述路网源头车道的源流量;基于每一所述路网源头车道的源流量,确定所述仿真时间点对应的车流量数据。
通过上述公开实施例,由于采用上述非饱和场景配置参数,为该仿真场景提供具有非饱和场景对应的车流量数据,可以使得到的信控模型适用于非饱和场景下的真实场景,并降低该真实场景中协调车道的延误时间;同时,由于通过先采样再进行平滑处理的步骤生成车流量变化曲线,不仅可以提升车流量的生成效率,还可以是得到的车流量数据更加符合真实场景中的车流量变化情况。
在一些实施例中,所述在第二信控周期中,获取所述仿真场景响应于所述第一信控动作产生的所述第一信控周期对应的第一回报数据,包括:基于所述仿真场景,在所述第二信控周期的数据采集周期内,获取每一协调车道中至少一个仿真车辆的延误数据;所述协调车道为所述仿真车道中驶入方向与所述协调方向一致的车道;基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据。
在一些实施例中,在所述延误数据包括停车次数的情况下,所述第一回报数据包括平均停车次数和/或平均延误时间;
所述获取每一所述协调车道中至少一个仿真车辆的延误数据,包括:针对每一所述协调车道,获取所述协调车道中每一所述仿真车辆的轨迹数据;基于每一所述仿真车辆的轨迹数据,确定所述协调车道中每一所述仿真车辆的停车次数和/或延误时间;
所述基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据,包括:基于每一所述协调车道中至少一个仿真车辆的停车次数,确定所述平均停车次数,和/或基于每一所述协调车道中至少一个仿真车辆的延误时间,确定所述平均延误时间。
通过上述公开实施例,由于采用上述停车次数和延误时间作为回报数据,可以使该信控模型可以更加关注场景中的车辆延误数据,进而在实际部署时降低真实场景中的延误情况;同时由于对仿真场景中的延误数据进行筛选,得到协调车道相关的延误数据,可以使得该信控模型可以更加关注协调车道中的延误情况。
在一些实施例中,所述信控模型包括主网络;所述将所述第一状态数据输入至所述待训练的信控模型,得到所述第一信控周期对应的第一信控动作,包括:将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作;
所述基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述信控模型的模型参数进行调整,得到训练后的信控模型,包括:将所述第二状态数据和所述第一信控动作输入至所述主网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练,直至模型系数稳定,得到已训练的信控模型。
在一些实施例中,所述信控模型包括主网络和目标网络;所述将所述第一状态数据输入至所述待训练的信控模型,得到所述第一信控周期对应的第一信控动作,包括:将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作;
所述基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述信控模型的模型参数进行调整,得到训练后的信控模型,包括:将所述第二状态数据和所述第一信控动作输入至所述目标网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练;在经过预设迭代次数后,将所述主网络的模型参数复制至所述目标网络中,并继续迭代训练,直至模型系数稳定,得到已训练的信控模型。
本公开实施例提供一种信控方案调整装置,所述装置包括:
获取模块,用于获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的;
确定模块,用于基于所述第一观测数据,确定所述第一信控周期的调整策略;
调整模块,用于在所述第一信控周期中,利用所述第一信控周期的调整策略调整所述第一信控方案。
本公开实施例提供一种信控方案调整设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本公开实施例提供的信控方案调整方法。
本公开实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本公开实施例提供的信控方案调整方法。
本公开实施例具有以下有益效果:
在本公开实施例中,由于本公开实施例可以基于第一信控周期中采集的真实场景的车道交通状态和当前运行的第一信控方案,针对性的得到第一信控周期的调整策略,不仅可以提高信控方案调整方法中针对信控方案调整的及时性,还可以提升该调整策略的针对性,进而可以得到更符合第一信控周期内车辆运行规律的第二信控方案,提高管控灵活性和优化程度。
附图说明
图1是本公开实施例提供的信控方案调整方法的一个可选的流程示意图;
图2是本公开实施例提供的信控方案调整方法的一个可选的流程示意图;
图3是本公开实施例提供的信控方案调整方法的一个可选的流程示意图;
图4是本公开实施例提供的信控方案调整方法的一个可选的流程示意图;
图5是本公开实施例提供的信控方案调整方法的一个可选的流程示意图;
图6是本公开实施例提供的信控方案调整方法的一个可选的流程示意图;
图7是本公开实施例提供的一个可选的测试场景示意图;
图8是本公开实施例提供的一个可选的流量变化示意图;
图9是本公开实施例提供一个可选的强化学习***的架构图;
图10是本公开实施例提供的一个可选的相位差调整过程示意图;
图11是本公开实施例提供的不同车流的回报计算示意图;
图12是本公开实施例提供的一个可选的信控方案调整装置的组成结构示意图;
图13是本公开实施例提供的一个可选的信控方案调整设备的硬件实体示意图。
具体实施方式
下面将通过实施例并结合附图具体地对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
需要说明的是:在本公开实例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述目标的顺序或先后次序。另外,本公开实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
图1为本公开实施例提供的一种信控方案调整方法的流程示意图,如图1所示,所述信控方案调整方法包括:
S101、获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的。
在一些实施例中,该真实场景为现实中的一个道路场景,该道路场景包括至少一个真实路口,该至少一个真实路口之间可以通过任意形式的道路进行连接。其中,本实施例的真实路口可以是T形、Y形、十字形、X形、错位、环形等形式的道路交叉口。在本实施例中,真实路口支持多个车流方向。道路路口的样式不同,所支持的车流方向也会有所不同。以十字路口为例,该十字路口可以支持的多个车流方向。假设,以“上北下南”为基准对十字路口进行图示,则该十字路口需要通过信号灯控制的8个车流方向包括:东进口的直行方向、东进口的左转方向、南进口的直行方向、南进口的左转方向、北进口的直行方向、北进口的左转方向、西进口的直行方向以及西进口的左转方向。这些车流方向之间存在冲突的情况,如果不进行管控,该道路路口处很容易出现交通事故,甚至交通瘫痪。在本实施例中,可以针对真实路口的信号灯设备设置信控方案,进而通过该信控方案完成对该真实路口各个车流方向进行管控。
在一些实施例中,该信控方案(信号灯控制方案)包括的信号参数包括以下至少之一:信号相位、信号周期时长、绿性比、相位差、绿灯间隔时间、有效绿灯时间。以下将对各信号参数进行解释:
信号相位:在一个信号周期内,具有相同的信号灯色显示的一股或几股交通流的信号状态序列称作一个信号相位。信号相位是按车流获得信号显示的时序来划分的,有多少种不同的时序排列,就有多少个信号相位。每一个控制状态,对应显示一组不同的灯色组合,称为一个相位。简而言之,一个相位也被称作一个控制状态。以上述十字路口为例,可以包括4个信号相位:包括南北方向对应的第一相位,东西方向对应的第二相位,南北前进左方向对应的第三相位和东西前进左方向对应的第四相位。
信号周期时长:信号灯发生变化,信号运行一个循环所需的时间,等于绿、黄、红灯时间之和;也等于全部相位所需的绿灯时间和黄灯时间的总和。
绿信比:是指在一个周期内(针对一个信号相位),有效绿灯时间与信号周期长度之比。
相位差:是指两个(相邻)路口的同一信号相位的绿灯(或红灯)开始时间之差。该相位差主要可以分为绝对相位差和相对相位差。相对相位差是指在各路口的周期时间均相同的联动信号***中,相邻两个交叉路口协调相位的绿灯起始时间之差。绝对相位差是指在联动信号***中选定一标准路口,规定该路口的相位差为零,其他路口相对于标准路口的相位差叫绝对相位差。本公开实施例中的相位差均指该相对相位差。
绿灯间隔时间:是指从失去通行权的相位的绿灯结束,到下一个得到通行权的相位绿灯开始所用的时间。
有效绿灯时间:是指被有效利用的实际车辆通行时间。它等于绿灯时间与黄灯时间之和减去损失时间。损失时间包括两部分,一是绿灯信号开启时,车辆启动时的时间;还有绿灯关闭、黄灯开启时,只有越过停止线的车辆才能继续通行,所以也有一部分损失时间,即为绿灯时间减去启动时间加上结束滞后时间。结束滞后时间是黄灯时间中有效利用的那部分。每一相位的损失时间为启动延迟时间和结束滞后时间之差。
在一些实施例中,该车道交通状态包括以下至少之一:该真实场景中真实路口的转向流量,车道的实际长度,车道中车辆队列的长度。
在一些实施例中,本公开可以通过在该真实场景中设置至少一个传感器,基于该至少一个传感器完成该车道交通状态的采集;在其他实施方式中,也可以结合网络模型检测到的车辆数据来计算,对此不做具体限定。
S102、基于所述第一观测数据,确定所述第一信控周期的调整策略。
在一些实施例中,S102可以针对当前第一信控周期采集的第一观测数据,确定当前第一信控方案需要调整的方向。也就是说,由于该第一观测数据是该真实场景响应于该第一信控方案产生的,基于该第一观测数据可以确定当前的第一信控方案是否需要调整,在需要调整的情况下,还包括需要调整的调整动作。例如,针对仅包括一个真实路口的真实场景,若南北方向(信号相位)对应车道的车辆队列长度较长,其余信号相位的对应的车道的车辆队列长度较短,该第一信控周期的调整策略可以包括增大第一信控方案中针对南北方向(信号相位)的绿信比,和/或降低第一信控方案中针对其他方向(信号相位)的绿信比。
在一些实施例中,还可以通过训练好的信控模型实现上述S102,即可以将所述第一观测数据输入至已训练的信控模型,输出所述第一信控周期的调整策略;所述信控模型是通过包括样本奖励值的样本数据进行迭代地强化学习训练得到;所述样本奖励值用于表征所述交通场景中的车辆延误情况。
S103、在所述第一信控周期中,利用所述第一信控周期的调整策略调整所述第一信控方案。
在一些实施例中,在得到该第一信控周期的调整策略之后,可以在将该调整策略下发至该真实场景中的信号灯设备,进而可以调整该信号灯设备正在运行的第一信控方案,以得到第二信控方案,即第二信控周期下,通过调整后的第二信控方案控制信号灯设备。
在一些实施例中,在得到该第一信控周期的调整策略之后,可以先基于该调整策略和第一信控方案确定第二信控方案,再将该第二信控方案下发至该真实场景的信号灯设备。
需要说明的是,在该第一信控周期结束前,该真实场景中的信号灯设备已经基于该第二信控方案对该真实场景中的车流进行控制,进而可以在第一信控周期的相邻下一个信控周期中,直接可以得到真实场景响应于该第二信控方案产生的观测数据。在一些实施例中,所述方法还包括:在第二信控周期中,获取所述真实场景响应于所述第二信控方案产生的第二观测数据;再基于第二观测数据确定下个信控周期(例如第三信控周期)的调整策略,得到第三信控方案,使得下个信控周期中采用所述第三信控方案控制信号灯设备;其中,所述第二观测数据用于确定所述第二信控周期的调整策略,所述第二信控周期为所述第一信控周期的下一个信控周期。
在本公开实施例中,由于本公开实施例可以基于第一信控周期中采集的真实场景的车道交通状态和当前运行的第一信控方案,针对性的得到第一信控周期的调整策略,不仅可以提高信控方案调整方法中针对信控方案调整的及时性,还可以提升该调整策略的针对性,进而可以得到更符合第一信控周期内车辆运行规律的信控方案,提高管控灵活性和优化程度。
参见图2,图2是本公开实施例提供的信控方案调整方法的一个可选的流程示意图,基于图1,图1中的S101可以更新为S201,S102可以更新为S202,将结合图2示出的步骤进行说明。
S201、获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的;所述车道交通状态包括协调车道的交通状态数据和每一非协调车道的交通状态数据;所述第一信控方案包括每一真实路口对应的信控子方案。
其中,所述真实场景包括协调方向上的至少一个真实路口,和每一所述真实路口对应的车道;所述车道包括所述真实路口中驶入方向与所述协调方向一致的协调车道,和所述真实路口中驶入方向与所述协调方向不一致的非协调车道。
在一些实施例中,为了针对性的避免协调车道(主车道)中车辆的非正常延误情况,即减少协调车道中车辆的停车次数和/或停车等待的时间,因此,本公开实施例中针对该真实场景中协调方向上的至少一个真实路口的信控方案进行控制。相应地,真实场景包括该协调方向上的至少一个真实路口,和每一真实路口对应的协调车道和非协调车道,其中,一个真实路口对应的非协调车道可以为一个或多个。采集到的第一观测数据可以包括该协调车道的交通状态数据和每一非协调车道的交通状态数据,还可以包括每一真实路口对应的信控子方案。其中,协调方向为场景中需要调整信控策略的干线的方向。
S202、基于每一所述协调车道的交通状态数据、每一所述非协调车道的交通状态数据和每一所述真实路口对应的信控子方案,确定所述第一信控周期的调整策略;所述调整策略包括每一所述真实路口的调整子策略。
在一些实施例中,由于上述第一观测数据包括每一真实路口的观测数据,即每一非协调车道的交通状态数据和每一所述真实路口对应的信控子方案,因此,本公开实施例可以针对每一真实路口生成对应的调整子策略。
S103、在所述第一信控周期中,利用所述第一信控周期的调整策略调整所述第一信控方案。
在一些实施例中,该第一信控方案包括每一真实路口对应的信控子方案,相应地,该第一信控周期的调整策略也包括每一真实路口对应的调整子策略,在S103中,可以在该第一信控周期中,利用每一真实路口对应的调整子策略调整对应的信控子方案,得到每一真实路口对应的调整后的信控子方案。
在本公开实施例中,由于采集的第一观测数据可以包括真实场景中每一真实路口对应的观测数据,结合每一真实路口在第一信控周期开始时的信控子方案,可以得到包括每一真实路口的调整子策略的调整策略,进而可以针对不同该真实场景中不同真实路口进行分别调整,进一步提升了本申请中信号控制方案的针对性;同时,由于本公开中调整的是协调车道中的至少一个真实路口,该至少一个真实路口在真实场景中是相互影响的,因此,通过对该至少一个真实路口进行统一调整,不仅可以在全局中考虑到各真实路口之间的相互影响,也可以针对每一真实路口生成对应的调整子策略,即考虑每一真实路口的局部情况,提升了本公开实施例针对协调车道的整体调整效果。
需要说明的是,为了使观测数据可以更好的反映真实场景响应于当前信控方案的信控效果,提高针对该当前信控方案得到的调整策略的调整效果。上述实施例中的信控周期的采集观测数据的时间段和调整信控方案的时间段需要相互独立,也就是说,在得到一个信控方案之后,为了提高得到真实场景针对该信控方案的真实性,需要在该信控方案完全实施完成之后,再获取对应的观测数据。基于上述问题,信控周期包括数据采集周期和方案调整周期,所述第一观测数据在所述第一信控周期的数据采集周期中获取,所述调整策略在所述第一信控周期的方案调整周期中执行。
请参见图3,图3是本公开实施例提供的信控方案调整方法的一个可选的流程示意图,基于图1或图2,以基于图1为例,图1中的S101可以更新为S301,S102可以更新为S302,S103可以更新为S303,将结合图3示出的步骤进行说明。
S301、在所述第一信控周期中的数据采集周期获取所述第一信控周期对应的第一观测数据。
在一些实施例中,该第一信控周期包括数据采集周期和方案调整周期,其中,该数据采集周期与该方案周期相互独立。为了提升信控效果,该数据采集周期和方案调整周期的周期长度至少包括一个信号周期的周期长度(信号周期时长)。
在一些实施例中,由于该第一信控方案已经在该第一信控周期的上一个信控周期中完成实施,因此,为了得到更多的观测数据,可以将该数据采集周期的起始时间点设置为该第一信控周期的起始时间点,来尽可能的得到更多的观测数据。
S302、基于所述第一观测数据,确定所述第一信控周期的调整策略;所述调整策略包括所述真实场景的每一真实路口的调整子策略。
在一些实施例中,每一真实路口对应的调整子策略可以包括针对该真实路口的绿信比调整动作和/或针对该真实路口的相位差调整动作。
需要说明的是,为了对协调车道中的所有真实路口进行统一调整,降低调整复杂度,可以将每一真实路口的信号周期时长设置为同一值。在此基础上,上述绿信比调整动作还可以为绿灯时间调整动作。
S303、针对每一所述真实路口,利用所述真实路口对应的所述绿信比调整动作调整所述真实路口的绿信比,和/或利用所述真实路口对应的所述相位差调整动作调整所述真实路口的相位差。
在一些实施例中,可以通过步骤S3031至S3032实现上述利用所述真实路口对应的所述相位差调整动作调整所述真实路口的相位差:
S3031、在确定调整策略后的第一个信号周期中,将所述真实路口的信号周期延长预设相位差,其中,所述预设相位差基于所述相位差调整动作确定。
在一些实施例中,该第一个信号周期为所述第一信控周期中第一个完整的信号周期。S3031可以在该第一个信号周期的起始时间点,基于所述周期调整动作确定预设相位差,并基于该预设相位差将所述真实路口的信号周期从第一长度调整至第二长度。
S3032、在确定调整策略后的第二个信号周期中,将所述真实路口延长后的信号周期缩短所述预设相位差。
在一些实施例中,该第二个信号周期为所述第一信控周期中第二个完整的信号周期。S3032可以在该第二个信号周期的起始时间点(即第一个信号周期的结束时间点),基于该预设相位差将所述真实路口的信号周期从所述第二长度调整至所述第一长度,以完成所述真实路口的相位差调整。
需要说明的是,执行该S3031的时间点至执行该S3032的时间点之间的时间段为上述方案调整周期,该方案调整周期的长度为一个信号周期的长度。
示例性的,若基于所述周期调整动作确定的预设相位差(即需要调整的真实路口的预设相位差)为正5秒,也就是说该真实路口的第一相位的绿灯(红灯)开始时间比标准路口的第一相位的绿灯(红灯)开始时间晚5秒,且该信号周期的固定长度为80秒,若需要将该相位差调整为正10秒,则上述S303中实施相位差调整动作的过程包括:在该方案调整周期的起始时间点,将当前信号周期(即该方案调整周期)的长度从80秒调整为85秒,则在该方案调整后期的结束时间点,即到达下一个信号周期的时刻相比于未调整前晚了5秒,此时再将当前信号周期(即下一个信号周期)的周期长度从85秒恢复至原来的80秒,此时,当前信号周期中每一相位的绿灯(红灯)开始时间相对于未调整前均晚了5秒,相对于标准路况的相位差为正10秒,即此时已经完成了该真实路口的相位差调整。
在一些实施例中,可以通过步骤S3033实现上述利用所述真实路口对应的所述绿信比调整动作调整所述真实路口的绿信比:
S3033、在确定调整策略后的第一个信号周期中,基于所述绿信比调整动作调整所述真实路口的绿信比。
在本公开实施例中,由于在一个信控周期内将用于获取观测数据的数据采集周期和方案调整周期独立,可以使得采集到的观测数据可以准确的反映出对应的信控方案对于真实场景的管控效果,进而基于该观测数据得到的调整策略可以更加符合真实场景的调整趋势。
在一些实施例中,上述实施例中的所述基于所述第一观测数据确定所述第一信控周期的调整策略可以通过已训练的信控模型实现。其中,可以将所述第一观测数据输入至已训练的信控模型,输出所述第一信控周期的调整策略;所述信控模型是通过包括样本奖励值的样本数据进行迭代地强化学习训练得到;所述样本奖励值用于表征所述交通场景中的车辆延误情况。参见图4,图4是本公开实施例提供的信控模型的训练方法的一个可选的流程示意图,该信控模型的训练过程,可以通过S401至S405实现,将结合图4示出的步骤进行说明。
S401、获取仿真场景中第一信控周期对应的第一状态数据;所述仿真场景基于所述真实场景模拟构建。
在一些实施例中,本公开实施例可以针对当前需要管控的真实场景模拟搭建布局相同的仿真场景,进而可以得到与真实场景更加匹配的信控模型。其中,该几何位置包括至少一个路口之间的相对位置,和每一路口的车道配置情况。
其中,上述第一状态数据包括可以包括仿真场景中每一仿真路口对应的当前信控子方案,以及各个仿真路口所在的协调车道的交通状态数据和每一非协调车道的交通状态数据。训练过程中获取的状态数据与实际部署过程中获取的观测数据相同。
S402、将所述第一状态数据输入至初始模型,得到所述仿真场景中第一信控周期对应的第一信控动作。
在一些实施例中,将该第一状态数据输入至该待训练的信控模型,该待训练的信控模型可以从预设的动作空间获取多个预选动作,并计算每一预选动作的期望值,将期望值最高的预选动作作为所述第一信控周期对应的第一信控动作。
其中,在该仿真场景中包括多个仿真路口的情况下,该第一信控动作可以包括每一仿真路口对应的信控子动作。
S403、在所述第一信控周期中,利用所述第一信控周期对应的第一信控动作对所述仿真场景中的信控方案进行调整。
在一些实施例中,在该第一信控周期中,利用每一仿真路口对应的信控子动作调整对应的信控子方案,得到每一仿真路口对应的调整后的信控子方案。
需要说明的是,与实际部署过程相同,S403需要在第一信控周期中完成该信控方案的调整过程,即需要完全下发所有的第一信控动作。
S404、在第二信控周期中,获取所述仿真场景响应于所述第一信控动作产生的所述第一信控周期对应的第一回报数据和所述第二信控周期对应的第二状态数据。
在一些实施例中,该第二信控周期为第一信控周期的下一个信控周期。由于该第一信控周期中已经完成了该第一信控动作的下发,即完成了对仿真场景中的信控方案进行调整。上述第二信控周期得到的第一回报数据和该第二状态数据均用于表征调整后的信控方案的管控效果。其中,该第一回报数据进一步用于表征协调车道中的延误情况,该状态数据进一步用于表征整体场景中的交通状态。
S405、基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述初始模型的模型参数进行调整,得到训练后的信控模型;所述第一回报数据为所述第一信控周期的样本奖励值。
在一些实施例中,所述信控模型为深度Q网络(Deep Q-learning,DQN),在所述信控模型为DQN的情况下,所述信控模型包括主网络,所述将所述第一状态数据输入至所述待训练的信控模型,得到所述第一信控周期对应的第一信控动作,包括:将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作。
所述基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述信控模型的模型参数进行调整,得到训练后的信控模型,包括:将所述第二状态数据和所述第一信控动作输入至所述主网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练,直至模型系数稳定,得到已训练的信控模型。
其中,上述估计值和真实值均为DQN中的Q值,即为Q(s,a),指的是在某一时刻的s状态下,采取预选动作a能够获得收益的期望。
在一些实施例中,所述信控模型为深度双Q网络(Double Deep Q-learning,DQN),在所述信控模型为Double-DQN的情况下,所述信控模型包括主网络和目标网络;所述将所述第一状态数据输入至所述待训练的信控模型,得到所述第一信控周期对应的第一信控动作,包括:将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作;
所述基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述信控模型的模型参数进行调整,得到训练后的信控模型,包括:将所述第二状态数据和所述第一信控动作输入至所述目标网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练;在经过预设迭代次数后,将所述主网络的模型参数复制至所述目标网络中,并继续迭代训练,直至模型系数稳定,得到已训练的信控模型。
其中,上述估计值和真实值均为DDQN中的Q值,即为Q(s,a),指的是在某一时刻的s状态下,采取预选动作a能够获得收益的期望。
需要说明的是,在所述信控模型为DQN或Double-DQN的情况下,该第一真实值可以通过以下方式获取:确定第二估计值与折扣系数的乘积;将所述第一回报数据与所述乘积的和作为所述第一真实值。上述基于所述第一真实值与所述第一估计值调整所述主网络的模型参数的过程中,可以基于第一真实值与第一估计值之间的差异调整所述主网络的模型参数。
通过上述公开实施例,由于用于训练信控模型的仿真场景的几何位置与实际部署的真实场景的几何位置相同,因此,得到的信控模型可以更加匹配真实场景;进一步地,本公开实施例提供的信控模型的训练方法可以针对不同的真实场景建立不同的仿真模型,进而可以针对不同真实场景训练得到对应的信控模型,应用范围较大;同时,由于采用了强化学习策略训练该信控模型,由此得到的信控模型可以对真实场景中的信号灯设备进行实时控制,实现了信号灯控制的自动化,有利于提高管控灵活性和优化程度。
参见图5,图5是本公开实施例提供的信控模型的训练方法的一个可选的流程示意图,基于图4,图4中的方法还可以包括S501至S503,将结合图5示出的步骤进行说明。
S501、构建初始仿真场景;所述初始仿真场景包括至少一个仿真路口、每一所述仿真路口对应的仿真车道。
在一些实施例中,所述初始仿真场景包括所述协调方向上的至少一个仿真路口,和每一所述仿真路口对应的仿真车道;所述仿真车道包括所述仿真路口中驶入方向与所述协调方向一致的协调车道,和所述仿真路口中驶入方向与所述协调方向不一致的非协调车道。
S502、基于所述初始仿真场景和非饱和场景配置参数,生成训练周期内的车流量变化曲线;所述车流量变化曲线用于表征每一所述仿真路口对应的仿真车道中的车流量变化情况。
在一些实施例中,可以通过步骤S5021至S5023实现上述基于所述初始仿真场景和非饱和场景配置参数,生成训练周期内的车流量变化曲线:
S5021、基于训练周期和预设仿真周期,确定多个仿真时间点;
S5022、基于所述初始仿真场景和所述场景配置参数,确定每一所述仿真时间点对应的车流量数据;所述车流量数据包括所述仿真路口中驶入方向与协调方向一致的每一协调车道的车流量数据,和所述仿真路口中驶入方向与所述协调方向不一致的每一所述非协调车道中的车流量数据;
其中,针对每一所述仿真时间点,生成对应的车流量数据的方法包括:基于所述车道饱和流率范围参数和所述流量比范围参数,确定所述初始仿真场景中每一所述路网源头车道的目标饱和流率和目标流量比;基于每一所述路网源头车道的目标饱和流率和目标流量比,确定每一所述路网源头车道的源流量;所述仿真时间点中驶入所述初始仿真场景的车流量包括每一所述路网源头车道的源流量;基于每一所述路网源头车道的源流量,确定所述仿真时间点对应的车流量数据。
S5023、对每一所述仿真时间点对应的车流量数据进行平滑处理,得到所述训练周期中每一所述协调车道对应的第一流量子曲线和每一所述非协调车道对应的第二流量子曲线;所述车流量变化曲线包括所述第一流量子曲线和每一所述第二流量子曲线。
S503、基于所述初始仿真场景和所述车流量变化曲线构建所述仿真场景。
通过上述公开实施例,由于采用上述非饱和场景配置参数,为该仿真场景提供具有非饱和场景对应的车流量数据,可以使得到的信控模型适用于非饱和场景下的真实场景,并降低该真实场景中协调车道的延误时间;同时,由于通过先仿真部分时间点的车流量,再进行平滑处理的步骤生成车流量变化曲线,不仅可以提升车流量的生成效率,还可以是得到的车流量数据更加符合真实场景中的车流量变化情况。
参见图6,图6是本公开实施例提供的信控方案调整方法的一个可选的流程示意图,是本公开实施例提供的信控模型的训练方法的一个可选的流程示意图,基于图4,图4中的S404可以包括S601至S602,将结合图6示出的步骤进行说明。
S601、基于所述仿真场景,在所述第二信控周期的数据采集周期内,获取每一协调车道中至少一个仿真车辆的延误数据;所述协调车道为所述仿真车道中驶入方向与所述协调方向一致的车道。
S602、基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据。
在一些实施例中,所述延误数据可以包括以下至少之一:停车次数和延误时间。
在一些实施例中,在所述延误数据包括停车次数的情况下,所述获取每一所述协调车道中至少一个仿真车辆的延误数据,包括:针对每一所述协调车道,获取所述协调车道中每一所述仿真车辆的轨迹数据;基于每一所述仿真车辆的轨迹数据,确定所述协调车道中每一所述仿真车辆的停车次数;
所述基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据,包括:基于每一所述协调车道中至少一个仿真车辆的停车次数,确定所述平均停车次数。
在一些实施例中,在所述延误数据包括延误时间的情况下,所述第一回报数据包括所述平均延误时间;所述获取每一所述协调车道中至少一个仿真车辆的延误数据,包括:针对每一所述协调车道,获取所述协调车道中每一所述仿真车辆的轨迹数据;基于每一所述仿真车辆的轨迹数据,确定所述协调车道中每一所述仿真车辆的延误时间;
所述基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据,包括:基于每一所述协调车道中至少一个仿真车辆的延误时间,确定所述平均延误时间。
在一些实施例中,所述基于每一所述仿真车辆的轨迹数据,确定每一所述仿真车辆的延误时间包括:对所述协调车道中每一所述仿真车辆的轨迹数据进行筛选,得到至少一个目标仿真车辆的轨迹数据,所述目标仿真车辆的轨迹数据用于表征所述目标仿真车辆从非协调车道经过仿真路口转移至协调车道;
基于所述至少一个目标仿真车辆的轨迹数据,确定每一所述目标仿真车辆在对应的仿真路口的延误时间;
所述基于每一所述协调车道中至少一个仿真车辆的延误时间,确定所述平均延误时间,包括:
基于每一所述目标仿真车辆在对应的仿真路口的延误时间,确定每一所述仿真路口对应的平均延误时间。
通过上述公开实施例,由于采用上述停车次数和延误时间作为回报数据,可以使该信控模型可以更加关注场景中的车辆延误数据,进而在实际部署时降低真实场景中的延误情况;同时由于对仿真场景中的延误数据进行筛选,得到协调车道相关的延误数据,可以使得该信控模型可以更加关注协调车道中的延误情况。
下面,将说明本公开实施例在一个实际的应用场景中的示例性应用。
交叉口是城市道路交通***中对不同交通流时空资源分配的重要节点。合理的交通信号控制方案能够有效降低交通流运行过程所需的行程时间,减少各各方向的排队长度,并对降低交通排放和能耗具有重要意义。在众多交通信号控制方式中,干线协调控制是最经济并且得到广泛应用的信号控制方法之一。干线协调控制通过合理地协调干线交叉口的信号灯的周期时长和相位差,使得干线车流以不停车或者较少停车的方式通过各个交叉口,从而大大提高干线的通行效率,减少车辆延误和能耗。
随着检测技术的发展,越来越多的研究和应用逐渐关注于自适应控制方法,期望通过对交通需求的实时检测和交通供给的实时调整,保证交通***处于供需平衡状态。而目前主流的自适应控制方法主要有基于模型的传统信控方法和基于强化学习的数据驱动方法。
基于模型的方法通过数学模型建立信号控制和交通运行效果之间的关系,并利用最优化的方法得到最佳的控制方案。其主要存在的问题是:指数级的时间复杂度导致计算效率低;需要将交通流统一简化为恒定速度的强假设条件,无法应对复杂多变的交通流动态;未考虑交叉口的几何布置差异、信号相位相序差异等。
而在基于强化学习的数据驱动方法中,通过训练强化学习环境中的智能体,利用该智能体根据环境状态做出动作,通过不断地与环境交互获得动作回报,迭代更新交通灯的信控策略来获得最大期望收益。对于难以结构化表达和建模的交通流动态变化和场景差异问题,基于数据的强化学习方法取得了较好的成效。
然而,现阶段基于强化学习的研究主要集中在算法和模型的设计层面,很少涉及对于干线协调控制的分析,算法边界的界定也较为模糊;在动作空间的选取上,多数研究仅简单地选择绿灯持续时间作为动作,未考虑周期和相位差的影响;在回报设计中,没有考虑未饱和与过饱和场景之间优化目标的差异;所设计的算法往往针对仅针对一类场景进行训练和测试,缺乏鲁棒性。
在一些实施例中,为了提升测试场景的真实性,同时为了得到具有鲁棒性的信控智能体,本公开提供了一种信控测试场景的构建方法。请参阅图7,其示出了一种测试场景示意图,在图7中,包括协调车道的方向对应的协调方向A01,除了该协调方向A01,其他方向均为非协调方向。为了更好地解释本公开提供的测试场景构建方法,以7个交叉口(A021至A027)为例,且相邻的两个交叉口可以设置不同的间距,如A021至A022之间可以设置间距为430米等。
在一些实施例中,针对每一交叉口,该交叉口的信号结构可以包括多个相位,每一相位用于表征具有相同信号灯色显示的一股交通流的信号状态序列。以图7中的十字交叉口为例,每一交叉口可以包括4个相位,例如,可以包括南北方向对应的第一相位,东西方向对应的第二相位,南北前进左方向对应的第三相位和东西前进左方向对应的第四相位。当然,十字交叉口还可以包括南北前进右方向对应的第五相位和东西前进右方向对应的第六相位。同时本公开实施例还可以设置不同的交叉口,例如,丁字交叉口等。
其中,每一路网源头车道的饱和流率在800-1500veh/h/lane之间变化。车道流量与车道饱和流率之比为流量比,为保证每一交叉口为未饱和状态,流量比小于0.25,每一路网源头车道的饱和流率与对应流量比的乘积即为路网源头车道流率。每一方向产生的路网源头车道流量可以相同也可以不同,且是随机的。在一个方向的流量经过交叉口的过程中,车辆转向比与相应方向中的车辆数量成正相关,也就是说,如图7中协调方向的第一个交叉口A021,在源流量经过该交叉口的过程中,该源流量在该交叉口的分流情况为:左转流量、直行流量、右转流量之间的流量比例与左侧车道数量、前方车道数量和右侧车道数量的比例相关,示例性的,若源流量为20辆,在左侧车道数量、前方车道数量和右侧车道数量的比例为1:2:1的情况下,左转流量为5辆、直行流量为10辆、右转流量为5辆。需要说明的是,上述测试场景中主车道的最大流量大于次要车道的最大流量。
基于上述测试场景的构建方法,可以生成如图8的流量变化示意图,其中,四条流量曲线中的B01代表主车道的流量变化情况、B02至B04分别代表其余次要车道的流量变化情况。***可以针对至少一个预设时间点生成一组随机流量,每一组随机流量包括主车道和其余次要车道的流量,同时,采用平滑算法对至少一个预设时间点对应的每组随机流量进行平滑处理,得到如图8示出的各车道的流量变化示意图。通过上述实施例,由于随机生成各车道的流量,可以体现测试场景的随机性,进而为训练过程中提升智能体鲁棒性提供数据基础,另外,由于对不同时间点的流量进行平滑处理,可以得到的流量数据更加贴近真实车辆场景中的流量变化情况。
请参阅图9,其示出了一种强化学习***的架构图,该强化学习***为干线交通信号协调(ATSC)***,其中,在基于强化学习的训练过程中,智能体(agent)观察(observes)环境状态,并不断的做出相应动作(action)。之后,环境(environment)受到动作影响之后,需要更新当前环境状态,并将回报数据(reward)反馈至智能体。该训练方法可以为DQN、Double-DQN中的任意一种。
在一些实施例中,本公开实施例中使用的RL训练算法是Double-DQN。主要原因如下:1)研究和应用广泛,该方法结构简单,稳定性较高,2)避免了DQN的过估计问题,3)off-policy的数据利用率较高,4)适用于大规模并行。下面将描述环境、状态、动作和回报数据的设计。
在一些实施例中,在ATSC场景中,预计会使用信号优化来减少主要道路上的停靠次数。然而,发明人经过研究发现,在不同的交通供需关系下,ATSC的目标是不同的。当协调车道某个交叉口过饱和时,协调车道优化的目标是防止溢出。上游路口应减少过往流量的同时尽量引起下游路口的外溢。过饱和和欠饱和情况下的优化是不同的任务。因此,本公开首先定义了交通环境的边界,即所有路口都处于非饱和状态的干线场景。其中,本公开实施例中的场景应满足以下条件:
Figure BDA0003257130580000161
其中,qi,ni,si分别是对应车道i的流量需求、平均排队长度和饱和流率,c为信控的周期长度,K是每个相位具有最大饱和系数的关键车道集合,δ为这一交叉口的重要饱和系数。根据绿灯时长,δ取值在0.85到0.95之间。
在一些实施例中,ATSC场景通常具有以下特征:(1)不同车道的流量需求的波动,(2)源于次要道路的合流,导致的主要道路绿灯前现有队列长度的波动。因此,信控智能体需要观察每个动作的流量变化,以自适应调整每个阶段的绿灯持续时间。另一方面,信控智能体需要检测现有队列的长度并自适应调整相位差,以确保主要道路交通不受现有队列的影响。因此,在本公开实施例中,状态空间,即状态观测数据主要包括以下变量:每个转向流量、每个车道的长度、各相位的绿色信号比、周期长度和相位差。
在一些实施例中,本公开实施例提供的动作空间为每个相位的绿灯时长和每个交叉口的相位差。由于交通流量变化的随机性,本公开通过选择微调绿灯持续时间和相位差作为动作,可以防止信控智能体对流量变化反应过度的现象。对于每个绿灯持续时间或相位差,有-1、+1和0三个动作,分别对应减少恒定间隔、增加恒定间隔和保持持续时间。实现每个动作的时间步长是一个周期长度。因此,信号方案逐渐适应交通流量的变化。同时,每个交叉点的周期长度是固定的,以满足协调要求。
值得注意的是,相位差的变化首先需要调整某个交叉口的周期长度,产生绿灯的差值,然后在下一个周期恢复原来的周期长度,如图10所示。
在一些实施例中,本公开还提供一种回报数据的获取方法。在基于上述测试场景的模型训练过程中,需要获取每一时间步的回报数据。与单交叉口和路网优化不同,ATSC场景有一个明确的目标,即减少协调车道的停车次数,并保证次干道没有溢出。回报数据的主要决定因素为协调方向上每辆车的平均停车次数和每个入口车道上每辆车的平均延误。
针对平均停车次数,请参阅图11,其示出了不同车流的回报计算示意图,其中,轨迹A在交叉路口m发散,因此其在路口m处的平均停车次数仅反映了转弯流量的状态,轨迹A在(路口m-1至路口m之间的状态观测数据)不计入回报计算;而轨迹B在到达交叉路口m前尚未处于协调方向中,因此在回报计算中,仅有路口m处的平均停车次数可以用于确定回报数据;轨迹C的情况类似于轨迹B,仅有路口m+1处的平均停车次数可以用于确定回报数据。
针对平均延误时间,图11中的每一个交叉口的所有方向的道路的车辆延误时间均需要参与回报数据的计算,以避免非协调方向的空间和时间资源的不必要浪费。
在一些实施例中,为了增加训练的鲁棒性,回报数据还包括执行动作对应的惩罚和短绿灯持续时间对应的惩罚。
图12为本公开实施例提供的一种信控方案调整装置的组成结构示意图,如图12所示,信控方案调整装置1200包括:
获取模块1201,用于获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的;
确定模块1202,用于基于所述第一观测数据,确定所述第一信控周期的调整策略;
调整模块1203,用于在所述第一信控周期中,利用所述第一信控周期的调整策略调整所述第一信控方案。
在一些实施例中,信控周期包括数据采集周期和方案调整周期,所述第一观测数据在所述第一信控周期的数据采集周期中获取,所述调整策略在所述第一信控周期的方案调整周期中执行。
在一些实施例中,所述调整策略包括所述真实场景的每一真实路口的调整子策略,所述调整子策略包括绿信比调整动作和/或相位差调整动作,所述调整模块1203,还用于针对每一所述真实路口,利用所述真实路口对应的所述绿信比调整动作调整所述真实路口的绿信比,和/或利用所述真实路口对应的所述相位差调整动作调整所述真实路口的相位差。
在一些实施例中,所述信控周期包括至少三个信号周期,所述调整模块1203,还用于:在确定调整策略后的第一个信号周期中,将所述真实路口的信号周期延长预设相位差,其中,所述预设相位差基于所述相位差调整动作确定;在确定调整策略后的第二个信号周期中,将所述真实路口延长后的信号周期缩短所述预设相位差。
在一些实施例中,所述调整模块1203,还用于:在确定调整策略后的第一个信号周期中,基于所述绿信比调整动作调整所述真实路口的绿信比。
在一些实施例中,所述确定模块1202,还用于:将所述第一观测数据输入至预设的信控模型,输出所述第一信控周期的调整策略;其中,所述信控模型是通过包括样本奖励值的样本数据进行迭代地强化学习训练得到;所述样本奖励值用于表征所述交通场景中的车辆延误情况。
在一些实施例中,所述信控方案调整装置1200还包括训练模块,所述训练模块用于:获取仿真场景中第一信控周期对应的第一状态数据;所述仿真场景基于所述真实场景模拟构建;将所述第一状态数据输入至初始模型,得到所述仿真场景中第一信控周期对应的第一信控动作;在所述第一信控周期中,利用所述第一信控周期对应的第一信控动作对所述仿真场景中的信控方案进行调整;在第二信控周期中,获取所述仿真场景响应于所述第一信控动作产生的所述第一信控周期对应的第一回报数据和所述第二信控周期对应的第二状态数据;基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述初始模型的模型参数进行调整,得到训练后的信控模型;所述第一回报数据为所述第一信控周期的样本奖励值。
在一些实施例中,所述训练模块,还用于:构建初始仿真场景;所述初始仿真场景包括至少一个仿真路口、每一所述仿真路口对应的仿真车道;基于所述初始仿真场景和场景配置参数,生成训练周期内的车流量变化曲线;所述车流量变化曲线用于表征每一所述仿真路口对应的仿真车道中的车流量变化情况;基于所述初始仿真场景和所述车流量变化曲线构建所述仿真场景。
在一些实施例中,所述训练模块,还用于:基于训练周期和预设仿真周期,确定多个仿真时间点;基于所述初始仿真场景和所述场景配置参数,确定每一所述仿真时间点对应的车流量数据;所述车流量数据包括所述仿真路口中驶入方向与协调方向一致的每一协调车道的车流量数据,和所述仿真路口中驶入方向与所述协调方向不一致的每一非协调车道中的车流量数据;对每一所述仿真时间点对应的车流量数据进行平滑处理,得到所述训练周期中每一所述协调车道对应的第一流量子曲线和每一所述非协调车道对应的第二流量子曲线;所述车流量变化曲线包括所述第一流量子曲线和每一所述第二流量子曲线。
在一些实施例中,所述仿真场景为车流量非饱和场景,非饱和场景的所述场景配置参数包括饱和流率范围参数和流量比范围参数,所述初始仿真场景包括多个路网源头车道;所述训练模块,还用于:针对每一所述仿真时间点,基于所述车道饱和流率范围参数和所述流量比范围参数,确定所述初始仿真场景中每一所述路网源头车道的目标饱和流率和目标流量比;基于每一所述路网源头车道的目标饱和流率和目标流量比,确定每一所述路网源头车道的源流量;所述仿真时间点中驶入所述初始仿真场景的车流量包括每一所述路网源头车道的源流量;基于每一所述路网源头车道的源流量,确定所述仿真时间点对应的车流量数据。
在一些实施例中,所述训练模块,还用于:基于所述仿真场景,在所述第二信控周期的数据采集周期内,获取每一协调车道中至少一个仿真车辆的延误数据;所述协调车道为所述仿真车道中驶入方向与所述协调方向一致的车道;基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据。
在一些实施例中,在所述延误数据包括停车次数的情况下,所述第一回报数据包括平均停车次数和/或平均延误时间;所述训练模块,还用于:针对每一所述协调车道,获取所述协调车道中每一所述仿真车辆的轨迹数据;基于每一所述仿真车辆的轨迹数据,确定所述协调车道中每一所述仿真车辆的停车次数和/或延误时间;
所述训练模块,还用于:基于每一所述协调车道中至少一个仿真车辆的停车次数,确定所述平均停车次数,和/或基于每一所述协调车道中至少一个仿真车辆的延误时间,确定所述平均延误时间。
在一些实施例中,所述信控模型包括主网络;所述训练模块,还用于:将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作;将所述第二状态数据和所述第一信控动作输入至所述主网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练,直至模型系数稳定,得到已训练的信控模型。
在一些实施例中,所述信控模型包括主网络和目标网络;所述训练模块,还用于将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作;将所述第二状态数据和所述第一信控动作输入至所述目标网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练;在经过预设迭代次数后,将所述主网络的模型参数复制至所述目标网络中,并继续迭代训练,直至模型系数稳定,得到已训练的信控模型。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开装置实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
需要说明的是,本公开实施例中,如果以软件功能模块的形式实现上述的信控方案调整方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本公开各个实施例方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本公开实施例不限制于任何目标的硬件和软件结合。
图13为本公开实施例提供的一种信控方案调整设备的硬件实体示意图,如图13所示,该信控方案调整设备1300的硬件实体包括:处理器1301和存储器1302,其中,存储器1302存储有可在处理器1301上运行的计算机程序,处理器1301执行程序时实现上述任一实施例的方法中的步骤。在一些实施方式中,游戏桌上收赔游戏币的设备1300可以是上述任一实施例中所说明的信控方案调整设备。
存储器1302存储有可在处理器上运行的计算机程序,存储器1302配置为存储由处理器1301可执行的指令和应用,还可以缓存待处理器1301以及信控方案调整设备1300中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器1301执行程序时实现上述任一项的信控方案调整方法的步骤。处理器1301通常控制信控方案调整设备1300的总体操作。
本公开实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的信控方案调整方法的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
上述处理器可以为目标用途集成电路(Application Specific IntegratedCircuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable LogicDevice,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。
上述计算机存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“本公开实施例”或“前述实施例”或“一些实施例”意味着与实施例有关的目标特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本公开实施例”或“前述实施例”或“一些实施例”未必一定指相同的实施例。此外,这些目标的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
在未做特殊说明的情况下,信控方案调整设备执行本公开实施例中的任一步骤,可以是信控方案调整设备的处理器执行该步骤。除非特殊说明,本公开实施例并不限定信控方案调整设备执行下述步骤的先后顺序。另外,不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是,本公开实施例中的任一步骤是信控方案调整设备可以独立执行的,即信控方案调整设备执行上述实施例中的任一步骤时,可以不依赖于其它步骤的执行。
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本公开各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本公开所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本公开所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本公开所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、信控方案调整设备、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
在本公开实施例中,不同实施例中相同步骤和相同内容的说明,可以互相参照。在本公开实施例中,术语“并”不对步骤的先后顺序造成影响。
以上所述,仅为本公开的实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种信控方案调整方法,其特征在于,所述方法包括:
获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的;
基于所述第一观测数据,确定第一信控周期的调整策略;
在所述第一信控周期中,利用所述调整策略调整所述第一信控方案。
2.根据权利要求1所述的方法,其特征在于,信控周期包括数据采集周期和方案调整周期,所述第一观测数据在所述第一信控周期的数据采集周期中获取,所述调整策略在所述第一信控周期的方案调整周期中执行。
3.根据权利要求1或2所述的方法,其特征在于,所述调整策略包括所述真实场景的每一真实路口的调整子策略,所述调整子策略包括绿信比调整动作和/或相位差调整动作,
所述在所述第一信控周期中,利用所述调整策略调整所述第一信控方案,包括:针对每一所述真实路口,利用所述真实路口对应的所述绿信比调整动作调整所述真实路口的绿信比,和/或利用所述真实路口对应的所述相位差调整动作调整所述真实路口的相位差。
4.根据权利要求3所述的方法,其特征在于,所述信控周期包括至少三个信号周期,所述利用所述真实路口对应的所述相位差调整动作调整所述真实路口的相位差,包括:
在确定调整策略后的第一个信号周期中,将所述真实路口的信号周期延长预设相位差,其中,所述预设相位差基于所述相位差调整动作确定;
在确定调整策略后的第二个信号周期中,将所述真实路口延长后的信号周期缩短所述预设相位差。
5.根据权利要求3所述的方法,其特征在于,所述利用所述真实路口对应的所述绿信比调整动作调整所述真实路口的绿信比,包括:
在确定调整策略后的第一个信号周期中,基于所述绿信比调整动作调整所述真实路口的绿信比。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一观测数据,确定所述第一信控周期的调整策略,包括:
将所述第一观测数据输入至预设的信控模型,输出所述第一信控周期的调整策略;其中,所述信控模型是通过包括样本奖励值的样本数据进行迭代地强化学习训练得到;所述样本奖励值用于表征所述交通场景中的车辆延误情况。
7.根据权利要求6所述的方法,其特征在于,所述信控模型的训练方法包括:
获取仿真场景中第一信控周期对应的第一状态数据;所述仿真场景基于所述真实场景模拟构建;
将所述第一状态数据输入至初始模型,得到所述仿真场景中第一信控周期对应的第一信控动作;
在所述第一信控周期中,利用所述第一信控周期对应的第一信控动作对所述仿真场景中的信控方案进行调整;
在第二信控周期中,获取所述仿真场景响应于所述第一信控动作产生的所述第一信控周期对应的第一回报数据和所述第二信控周期对应的第二状态数据;
基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述初始模型的模型参数进行调整,得到训练后的信控模型;所述第一回报数据为所述第一信控周期的样本奖励值。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
构建初始仿真场景;所述初始仿真场景包括至少一个仿真路口、每一所述仿真路口对应的仿真车道;
基于所述初始仿真场景和场景配置参数,生成训练周期内的车流量变化曲线;所述车流量变化曲线用于表征每一所述仿真路口对应的仿真车道中的车流量变化情况;
基于所述初始仿真场景和所述车流量变化曲线构建所述仿真场景。
9.根据权利要求8所述的方法,其特征在于,所述基于所述初始仿真场景和场景配置参数,生成训练周期内的车流量变化曲线,包括:
基于训练周期和预设仿真周期,确定多个仿真时间点;
基于所述初始仿真场景和所述场景配置参数,确定每一所述仿真时间点对应的车流量数据;所述车流量数据包括所述仿真路口中驶入方向与协调方向一致的每一协调车道的车流量数据,和所述仿真路口中驶入方向与所述协调方向不一致的每一非协调车道中的车流量数据;
对每一所述仿真时间点对应的车流量数据进行平滑处理,得到所述训练周期中每一所述协调车道对应的第一流量子曲线和每一所述非协调车道对应的第二流量子曲线;所述车流量变化曲线包括所述第一流量子曲线和每一所述第二流量子曲线。
10.根据权利要求9所述的方法,其特征在于,所述仿真场景为车流量非饱和场景,非饱和场景的所述场景配置参数包括饱和流率范围参数和流量比范围参数,所述初始仿真场景包括多个路网源头车道;所述基于所述初始仿真场景和所述非饱和场景配置参数,确定每一所述仿真时间点对应的车流量数据,包括:
针对每一所述仿真时间点,基于所述车道饱和流率范围参数和所述流量比范围参数,确定所述初始仿真场景中每一所述路网源头车道的目标饱和流率和目标流量比;
基于每一所述路网源头车道的目标饱和流率和目标流量比,确定每一所述路网源头车道的源流量;所述仿真时间点中驶入所述初始仿真场景的车流量包括每一所述路网源头车道的源流量;
基于每一所述路网源头车道的源流量,确定所述仿真时间点对应的车流量数据。
11.根据权利要求8所述的方法,其特征在于,所述在第二信控周期中,获取所述仿真场景响应于所述第一信控动作产生的所述第一信控周期对应的第一回报数据,包括:
基于所述仿真场景,在所述第二信控周期的数据采集周期内,获取每一协调车道中至少一个仿真车辆的延误数据;所述协调车道为所述仿真车道中驶入方向与所述协调方向一致的车道;
基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据。
12.根据权利要求11所述的方法,其特征在于,在所述延误数据包括停车次数的情况下,所述第一回报数据包括平均停车次数和/或平均延误时间;
所述获取每一所述协调车道中至少一个仿真车辆的延误数据,包括:针对每一所述协调车道,获取所述协调车道中每一所述仿真车辆的轨迹数据;基于每一所述仿真车辆的轨迹数据,确定所述协调车道中每一所述仿真车辆的停车次数和/或延误时间;
所述基于每一所述协调车道中至少一个仿真车辆的延误数据,确定所述第一回报数据,包括:基于每一所述协调车道中至少一个仿真车辆的停车次数,确定所述平均停车次数,和/或基于每一所述协调车道中至少一个仿真车辆的延误时间,确定所述平均延误时间。
13.根据权利要求7至12任一项所述的方法,其特征在于,所述信控模型包括主网络;
所述将所述第一状态数据输入至所述待训练的信控模型,得到所述第一信控周期对应的第一信控动作,包括:
将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作;
所述基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述信控模型的模型参数进行调整,得到训练后的信控模型,包括:将所述第二状态数据和所述第一信控动作输入至所述主网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练,直至模型系数稳定,得到已训练的信控模型。
14.根据权利要求7至12任一项所述的方法,其特征在于,所述信控模型包括主网络和目标网络;
所述将所述第一状态数据输入至所述待训练的信控模型,得到所述第一信控周期对应的第一信控动作,包括:将所述第一状态数据输入至所述主网络,得到多个预选动作对应的第一估计值;选择第一估计值最高的预选动作作为所述第一信控周期对应的第一信控动作;
所述基于所述第一状态数据、所述第一信控动作、第一回报数据和所述第二状态数据对所述信控模型的模型参数进行调整,得到训练后的信控模型,包括:将所述第二状态数据和所述第一信控动作输入至所述目标网络,得到第二估计值,基于所述第二估计值和所述第一回报数据,得到第一真实值;基于所述第一真实值与所述第一估计值调整所述主网络的模型参数,并进行下一轮迭代训练;在经过预设迭代次数后,将所述主网络的模型参数复制至所述目标网络中,并继续迭代训练,直至模型系数稳定,得到已训练的信控模型。
15.一种信控方案调整装置,其特征在于,包括:
获取模块,用于获取真实场景中第一信控周期对应的第一观测数据;所述第一观测数据包括车道交通状态和第一信控方案;所述第一观测数据为所述第一信控周期中所述真实场景响应于所述第一信控方案产生的;
确定模块,用于基于所述第一观测数据,确定所述第一信控周期的调整策略;
调整模块,用于在所述第一信控周期中,利用所述第一信控周期的调整策略调整所述第一信控方案。
16.一种信控方案调整设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至14任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至14任一项所述的方法。
CN202111062347.5A 2021-09-10 2021-09-10 信控方案调整方法、装置、设备及计算机可读存储介质 Active CN113823099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111062347.5A CN113823099B (zh) 2021-09-10 2021-09-10 信控方案调整方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111062347.5A CN113823099B (zh) 2021-09-10 2021-09-10 信控方案调整方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113823099A true CN113823099A (zh) 2021-12-21
CN113823099B CN113823099B (zh) 2023-03-21

Family

ID=78914451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111062347.5A Active CN113823099B (zh) 2021-09-10 2021-09-10 信控方案调整方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113823099B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009065352A (ja) * 2007-09-05 2009-03-26 Oki Electric Ind Co Ltd 通信制御装置、通信制御方法、通信制御プログラム、ノード及び通信システム
CN104298540A (zh) * 2014-10-23 2015-01-21 浙江大学 一种微观交通仿真软件的底层模型参数校正方法
WO2017166474A1 (zh) * 2016-03-29 2017-10-05 中国科学院深圳先进技术研究院 一种基于交叉口群的交通控制方法及***
CN107331167A (zh) * 2017-08-07 2017-11-07 青岛海信网络科技股份有限公司 一种交通信号灯反馈调整方法及装置
CN109326131A (zh) * 2018-11-28 2019-02-12 南京莱斯信息技术股份有限公司 一种自动调整周期和绿信比的交通信号协调控制方法
US20190051152A1 (en) * 2017-08-11 2019-02-14 Gridsmart Technologies, Inc. System and method for controlling vehicular traffic
CN109410601A (zh) * 2018-12-04 2019-03-01 北京英泰智科技股份有限公司 交通信号灯控制方法、装置、电子设备及存储介质
CN110910663A (zh) * 2019-10-16 2020-03-24 清华大学 一种车路协同环境下多智能车交叉口通行协调控制方法
US20200139973A1 (en) * 2018-11-01 2020-05-07 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
CN111667701A (zh) * 2020-05-27 2020-09-15 北京百度网讯科技有限公司 信控设备调整方法和装置
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
WO2021085848A1 (ko) * 2019-10-28 2021-05-06 라온피플 주식회사 강화학습 기반 신호 제어 장치 및 신호 제어 방법
CN113077642A (zh) * 2021-04-01 2021-07-06 武汉理工大学 一种交通信号灯控制方法、装置及计算机可读存储介质
CN113223305A (zh) * 2021-03-26 2021-08-06 中南大学 基于强化学习的多路***通灯控制方法、***及存储介质
US20210375129A1 (en) * 2017-09-28 2021-12-02 Weiping Meng Traffic Signal Pan-String Control Method and Its System

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009065352A (ja) * 2007-09-05 2009-03-26 Oki Electric Ind Co Ltd 通信制御装置、通信制御方法、通信制御プログラム、ノード及び通信システム
CN104298540A (zh) * 2014-10-23 2015-01-21 浙江大学 一种微观交通仿真软件的底层模型参数校正方法
WO2017166474A1 (zh) * 2016-03-29 2017-10-05 中国科学院深圳先进技术研究院 一种基于交叉口群的交通控制方法及***
CN107331167A (zh) * 2017-08-07 2017-11-07 青岛海信网络科技股份有限公司 一种交通信号灯反馈调整方法及装置
US20190051152A1 (en) * 2017-08-11 2019-02-14 Gridsmart Technologies, Inc. System and method for controlling vehicular traffic
US20210375129A1 (en) * 2017-09-28 2021-12-02 Weiping Meng Traffic Signal Pan-String Control Method and Its System
US20200139973A1 (en) * 2018-11-01 2020-05-07 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
CN109326131A (zh) * 2018-11-28 2019-02-12 南京莱斯信息技术股份有限公司 一种自动调整周期和绿信比的交通信号协调控制方法
CN109410601A (zh) * 2018-12-04 2019-03-01 北京英泰智科技股份有限公司 交通信号灯控制方法、装置、电子设备及存储介质
CN110910663A (zh) * 2019-10-16 2020-03-24 清华大学 一种车路协同环境下多智能车交叉口通行协调控制方法
WO2021085848A1 (ko) * 2019-10-28 2021-05-06 라온피플 주식회사 강화학습 기반 신호 제어 장치 및 신호 제어 방법
CN111667701A (zh) * 2020-05-27 2020-09-15 北京百度网讯科技有限公司 信控设备调整方法和装置
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN113223305A (zh) * 2021-03-26 2021-08-06 中南大学 基于强化学习的多路***通灯控制方法、***及存储介质
CN113077642A (zh) * 2021-04-01 2021-07-06 武汉理工大学 一种交通信号灯控制方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁文杰: "基于深度强化学习的交通信号自适应控制研究", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅱ辑》 *

Also Published As

Publication number Publication date
CN113823099B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
Prothmann et al. Organic control of traffic lights
WO2019165616A1 (zh) 信号灯控制方法、相关设备及***
García-Nieto et al. Swarm intelligence for traffic light scheduling: Application to real urban areas
CN103761883B (zh) 一种交通信号控制的自学习方法及***
CN112216124A (zh) 一种基于深度强化学习的交通信号控制方法
Mannion et al. Parallel reinforcement learning for traffic signal control
CN113780624B (zh) 一种基于博弈均衡理论的城市路网信号协调控制方法
CN113257016B (zh) 一种交通信号控制方法、装置以及可读存储介质
Yoon et al. Transferable traffic signal control: Reinforcement learning with graph centric state representation
CN114333357B (zh) 一种交通信号控制方法、装置、电子设备及存储介质
CN113643528A (zh) 信号灯控制方法、模型训练方法、***、装置及存储介质
CN110164150A (zh) 一种基于时间分配和强化学习的交通信号灯控制方法
CN112289045B (zh) 交通信号控制方法、装置、电子设备及可读存储介质
JP2012043066A (ja) 交通インフラ改善計画作成装置およびその方法
Jiang et al. Multi-agent reinforcement learning for traffic signal control through universal communication method
CN112309138A (zh) 交通信号控制方法、装置、电子设备及可读存储介质
CN115951587A (zh) 自动驾驶控制方法、装置、设备、介质及自动驾驶车辆
CN113823099B (zh) 信控方案调整方法、装置、设备及计算机可读存储介质
Luo et al. AlphaRoute: large-scale coordinated route planning via Monte Carlo tree search
CN116189451A (zh) 一种交通信号灯的控制方法、装置、终端设备和存储介质
CN114973704A (zh) 信号控制策略的生成方法及装置、设备、存储介质
CN117321650A (zh) 交通灯的控制方法、装置、路网***、电子设备和介质
Cabrejas-Egea et al. Assessment of Reward Functions in Reinforcement Learning for Multi-Modal Urban Traffic Control under Real-World limitations
CN115953894B (zh) 城市路网布局的交通性能评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant