CN112309138A - 交通信号控制方法、装置、电子设备及可读存储介质 - Google Patents

交通信号控制方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112309138A
CN112309138A CN202011120565.5A CN202011120565A CN112309138A CN 112309138 A CN112309138 A CN 112309138A CN 202011120565 A CN202011120565 A CN 202011120565A CN 112309138 A CN112309138 A CN 112309138A
Authority
CN
China
Prior art keywords
intersection
current
stage
state information
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011120565.5A
Other languages
English (en)
Inventor
王鲁晗
胡天风
胡智群
王刚
傅彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhiyou Open Source Communication Research Institute Beijing Co ltd
Original Assignee
Zhiyou Open Source Communication Research Institute Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiyou Open Source Communication Research Institute Beijing Co ltd filed Critical Zhiyou Open Source Communication Research Institute Beijing Co ltd
Priority to CN202011120565.5A priority Critical patent/CN112309138A/zh
Publication of CN112309138A publication Critical patent/CN112309138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本公开实施例公开了一种交通信号控制方法、装置、电子设备及可读存储介质,其中,该方法包括获取当前路口的当前阶段的状态信息;接收所述当前路口的临近路口的前一阶段的控制动作;确定所述临近路口的前一阶段的控制动作的编码的平均值;基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,从而将全体智能体与交通流量环境的交互作为一个随机博弈问题,通过平均场近似来减小动作空间的维度,将本智能体与其他智能体的交互问题转化为本智能体与临近智能体的某种平均效应的交互问题,避免了“维度灾难”问题。

Description

交通信号控制方法、装置、电子设备及可读存储介质
技术领域
本公开涉及智慧交通技术领域,具体涉及一种交通信号控制方法、装置、电子设备及可读存储介质。
背景技术
随着中国社会经济的快速发展,城市居民汽车保有量的不断提高,道路拥塞的现象越来越频繁的出现,这一问题也直接影响着城市居民的生活质量和出行体验。作为交通流量管理的关键部分,交通信号灯配时在交通流量控制、减缓道路堵塞、区域交通流量协调起着重要作用。
基于深度强化学习的交通灯智能调控研究将深度强化学习算法引入到交通灯配时中,在每个路口搭建一个智能体,获取当前路口的车流信息作为状态,通过深度强化学习网络输出动作以控制交通灯的配时方案,再设定排队长度、等待时间等交通性能指标作为奖励以指导智能体的学习。这类研究主要利用深度强化学习可应用于动态化、不确定化场景的特点,无需推导复杂的数学模型。
但是,本发明人发现,现有技术中至少存在如下问题:如果将各个路口的智能体当成独立个体,各智能体收集局部状态信息,独立地做出动作决策,缺少智能体之间的状态、动作信息交互,从而容易产生局部的交通堵塞,不能达到较好的区域协调效果;如果将全部智能体与环境之间的交互当成一个随机博弈问题,智能体需要处理的动作空间包含全体智能体的动作选择,在处理多路口甚至大规模路网的情况下,会导致动作空间的维度随着交叉路口的数量增多而指数增长,引发“维度灾难”。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种交通信号控制方法、装置、电子设备及可读存储介质。
第一方面,本公开实施例中提供了一种交通信号控制方法。
具体地,所述交通信号控制方法,包括:
获取当前路口的当前阶段的状态信息;
接收所述当前路口的临近路口的前一阶段的控制动作;
确定所述临近路口的前一阶段的控制动作的编码的平均值;
基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作。
结合第一方面,本公开在第一方面的第一种实现方式中,所述状态信息包括当前路口范围内的多个子区域的车辆状态,所述车辆状态包括所述子区域内是否存在车辆以及所述子区域内车辆的速度。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述获取当前路口的当前阶段的状态信息包括:
确定多个所述子区域中每个子区域所属的车道的属性;
采集所述当前路口范围内的多个子区域的车辆状态;
按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵,作为所述当前路口的当前阶段的状态信息。
结合第一方面,本公开在第一方面的第三种实现方式中,所述临近路口包括以下至少一种:
到所述当前路口经过的路口数量小于第一阈值的路口;
与所述当前路口的直线距离小于第二阈值的路口;
沿道路到达所述当前路口的距离小于第三阈值的路口。
结合第一方面,本公开在第一方面的第四种实现方式中,所述基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,包括:
将所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值输入至基于深度强化学习的预测模型,以获取所述当前路口的当前阶段的控制动作。
结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,该方法还包括:
获取执行所述当前路口的当前阶段的控制动作之后当前路口的下一阶段的状态信息;
基于所述当前路口的下一阶段的状态信息确定车辆排队长度;
基于所述车辆排队长度确定奖励值;
基于所述奖励值更新所述预测模型的参数。
结合第一方面的第二种实现方式,本公开在第一方面的第六种实现方式中,该方法还包括通过卷积神经网络处理所述状态矩阵,以提取状态特征。
第二方面,本公开实施例中提供了一种交通信号控制装置。
具体地,所述交通信号控制装置,包括:
获取模块,被配置为获取当前路口的当前阶段的状态信息;
接收模块,被配置为接收所述当前路口的临近路口的前一阶段的控制动作;
第一确定模块,被配置为确定所述临近路口的前一阶段的控制动作的编码的平均值;
第二确定模块,被配置为基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种至第六种中任一项所述的方法。
第四方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种至第六种中任一项所述的方法。
根据本公开实施例提供的技术方案,通过获取当前路口的当前阶段的状态信息;接收所述当前路口的临近路口的前一阶段的控制动作;确定所述临近路口的前一阶段的控制动作的编码的平均值;基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,从而将全体智能体与交通流量环境的交互作为一个随机博弈问题,通过平均场近似来减小动作空间的维度,将本智能体与其他智能体的交互问题转化为本智能体与临近智能体的某种平均效应的交互问题,避免了“维度灾难”问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1A和图1B示出根据本公开实施例的应用场景的示意图;
图2示出根据本公开实施例的交通信号控制方法的流程图;
图3示出根据本公开实施例的获取状态信息的流程图;
图4示出根据本公开实施例的更新模型参数的流程图;
图5示出根据本公开实施例的交通信号控制装置的框图;
图6示出根据本公开实施例的电子设备的框图;
图7示出适于实现本公开实施例的交通信号控制的计算机***的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
现有技术的在应用强化学习解决多路口的交通信号灯控制时存在两个问题:如果将各个路口的智能体当成独立个体,各智能体收集局部状态信息,独立地做出动作决策,缺少智能体之间的状态、动作信息交互,从而容易产生局部的交通堵塞,不能达到较好的区域协调效果;如果将全部智能体与环境之间的交互当成一个随机博弈问题,智能体需要处理的动作空间包含全体智能体的动作选择,在处理多路口甚至大规模路网的情况下,会导致动作空间的维度随着交叉路口的数量增多而指数增长,引发“维度灾难”。
根据本公开实施例提供的技术方案,通过获取当前路口的当前阶段的状态信息;接收所述当前路口的临近路口的前一阶段的控制动作;确定所述临近路口的前一阶段的控制动作的编码的平均值;基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,从而将全体智能体与交通流量环境的交互作为一个随机博弈问题,通过平均场近似来减小动作空间的维度,将本智能体与其他智能体的交互问题转化为本智能体与临近智能体的某种平均效应的交互问题,避免了“维度灾难”问题。
图1A和图1B示出根据本公开实施例的应用场景的示意图。
路网结构通常包括多条道路以及多条道路的交汇形成的多个路口。图1A示出了一种示例性的路网结构,包括三条横向道路和三条纵向道路以及形成的九个十字路口。图1B示出了一种示例性的路口的示意图,定义进入路口方向的车道为入车道,离开路口方向的车道为出车道,该路口包括12条入车道和12条出车道,每个方向上各有三条入车道和三条出车道。其中,三条入车道分别为左转道、直行道和右转道。
应当注意的是,以上图1A和图1B仅为示例性的路网结构,本公开实施例的交通信号控制方法和装置的应用不仅限于此种结构,例如可以具有更多或更少的路口数量,或者可以存在丁字路口等其他形式的路口,各个路口也可以与图1B不同的车道设置。
图2示出根据本公开实施例的交通信号控制方法的流程图。
如图2所示,该交通信号控制方法包括操作S210~S240。
在操作S210,获取当前路口的当前阶段的状态信息;
在操作S220,接收所述当前路口的临近路口的前一阶段的控制动作;
在操作S230,确定所述临近路口的前一阶段的控制动作的编码的平均值;
在操作S240,基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作。
根据本公开实施例提供的技术方案,通过获取当前路口的当前阶段的状态信息;接收所述当前路口的临近路口的前一阶段的控制动作;确定所述临近路口的前一阶段的控制动作的编码的平均值;基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,从而将全体智能体与交通流量环境的交互作为一个随机博弈问题,通过平均场近似来减小动作空间的维度,将本智能体与其他智能体的交互问题转化为本智能体与临近智能体的某种平均效应的交互问题,避免了“维度灾难”问题。
根据本公开实施例,在操作S210,获取当前路口的当前阶段的状态信息,所述状态信息包括当前路口范围内的多个子区域的车辆状态。例如可以在每一路口的每一方向上布置检测器,检测范围可覆盖整个路段,用于获取路口的状态信息。
根据本公开实施例,除上述检测器外,每个路口还可以设置通信单元、处理单元和控制单元。该通信单元用于发送当前路口的信息到其他路口,或者接收来自其他路口发送的信息。该处理单元用于执行计算任务,根据已获得的信息生成控制动作。该控制单元用于根据处理单元生成的控制动作控制信号灯的信号变化。
根据本公开实施例,所述状态信息包括当前路口范围内的多个子区域的车辆状态,所述车辆状态包括所述子区域内是否存在车辆以及所述子区域内车辆的速度。
根据本公开实施例提供的技术方案,通过所述子区域内是否存在车辆以及所述子区域内车辆的速度,可以简单有效地描述车辆状态,使控制动作的预测的效率和有效性得到提升。
例如,车辆长度和车间距离路段的间隔L(例如约6.5米),可以将每一个路口对应的K条入车道分别切分成w个长为L的小路段,即子区域,于是,可将一个路口的交通状态转化成了一个K×w(w取决于车道长度)的矩阵。矩阵中的位置可以准确的代表车辆的车道位置,矩阵的每一元素是位于此位置的车辆速度。以图1B所示的具有12条入车道的路口为例,可以将该路口的状态信息表示为12×w的矩阵,矩阵中的每一个元素表示相应的一个子区域上的车辆状态。
根据本公开实施例,为了表示子区域中没有车辆的情况,可以定义车辆速度为0时矩阵元素等于1,此位置无车辆矩阵元素等于0。
图3示出根据本公开实施例的获取状态信息的流程图。
如图3所示,该操作S210可以包括操作S310~S330。
在操作S310,确定多个所述子区域中每个子区域所属的车道的属性;
在操作S320,采集所述当前路口范围内的多个子区域的车辆状态;
在操作S330,按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵,作为所述当前路口的当前阶段的状态信息。
根据本公开实施例,车道的属性例如可以包括左转道、直行道或右转道。对于不同于如图1B所示的路口的车道设置的情况,可以根据预定规则对原始状态信息进行预处理,即通过上述操作S330,按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵。例如,在南向北方向有四条车道,分别为左转、直行、直行、右转的情况下,将两条直行车道上的对应(平行)位置的车辆速度进行算数平均当作直行车道上的此位置的车辆速度,填入矩阵对应位置;左转和右转车道直接将车道上的所有车辆的速度填入矩阵对应位置即可。又如,在南向北方向有两条车道,一条为左转,一条为直行兼右转,可将矩阵中表示右转车道的所在行的元素置0,将直行兼右转的车道上的车辆速度信息填入特征矩阵中表示直行车道的所在行。
根据本公开实施例提供的技术方案,通过确定多个所述子区域中每个子区域所属的车道的属性;采集所述当前路口范围内的多个子区域的车辆状态;按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵,作为所述当前路口的当前阶段的状态信息,该状态信息具有较好的扩展性,可以适应不同的路网结构,且维度较低,可以简单有效地描述路口的情况,使控制动作的预测的效率和有效性得到提升。
根据本公开实施例,在操作S220,接收所述当前路口的临近路口的前一阶段的控制动作,其中,所述临近路口包括以下至少一种:
到所述当前路口经过的路口数量小于第一阈值的路口;
与所述当前路口的直线距离小于第二阈值的路口;
沿道路到达所述当前路口的距离小于第三阈值的路口。
根据本公开实施例,第一阈值可以为大于或等于1的整数,在第一阈值等于1的情况下,到所述当前路口经过的路口数量小于第一阈值的路口即当前路口的相邻路口。例如,在图1A所示意的实施例中,路口5的相邻路口为路口2、4、6、8。又如,在第一阈值等于2的情况下,路口1的临近路口为路口2、3、4、5、7。根据本公开实施例,第二阈值和第三阈值均为正数,例如5千米。
根据本公开实施例提供的技术方案,通过以上一种或多种方式确定临近路口,仅接收临近路口的数据,避免收集全部路口的数据,从而可以使该方法能够适用于任何规模的路网结构。
根据本公开实施例,在操作S230,确定所述临近路口的前一阶段的控制动作的编码的平均值。在每一个信号灯周期(例如15s),每个智能体做出一次控制动作的选择,各个路口的控制动作例如可以包括:南北直行、南北左转、东西直行、东西左转。由此,可将智能体的动作表示为一个4维向量,即智能体的动作空间可以表示为独热编码(one-hot),即{[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]},例如,如果东西直行的控制动作可以表示为[0,0,1,0]的编码。
根据本公开实施例,可以确定临近路口的控制动作的编码的平均值。例如,对于图1B所示的路口5,其临近路口为路口2、4、6、8的情况下,如果路口2、4、6、8的控制动作的编码分别为[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[1,0,0,0],则可以取其平均值[0.5,0.25,0.25,0],仍然是一个元素之和为1的具有相同维度的向量。
应当注意,除平均值以外,临近路口控制动作的编码的算数和具有等同的作用,可以使用算数和代替该平均值,例如,[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[1,0,0,0]的算数和为[2,1,1,0],只是元素之和不为1,必要时可对其进行归一化处理。
根据本公开实施例,在操作S240,所述基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,包括,将所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值输入至基于深度强化学习的预测模型,以获取所述当前路口的当前阶段的控制动作。
强化学习是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。在本公开实施例中,每个路口的处理单元所运行的预测模型可抽象成一个智能体,每个路口的状态信息即该智能体面临的环境的状态信息。
根据本公开实施例,该预测模型例如可以以DQN(Deep Q Network)网络为主要构架。该模型的状态输入维度较大,可使用卷积神经网络来对状态特征进行提取。交通流状态信息经过两层卷积、池化之和,经过数据展平操作准备输入到全连接层。此时引入上文所描述的临近路口的控制动作的编码的平均值。相邻智能体的动作的算术平均值依然是一个具有相同维度的向量,这一向量可理解为本路口的周围智能体动作选择的经验分布。将这一平均动作信息作为状态的一部分输入到深度神经网络,不仅可以实现路口间的信息交互,而且只引入很少的维度增加,避免了多智能体强化学***均动作之后,将经过卷积、池化、展平的交通流状态向量进行拼接,输入到神经网络的全连接层。
根据本公开实施例,动作策略选择学习率随时间衰减的玻尔兹曼探索策略,以制衡智能体学习过程的探索和利用,避免采取贪婪策略可能导致的因为环境的动态不稳定性而造成算法最终无法收敛的问题。
根据本公开实施例,可以首先使用仿真环境对模型进行训练。在智能体与仿真交通环境的交互过程中,智能体根据环境的当前状态向环境做出一个动作选择,环境则反馈一个奖励值和新的状态,在此过程中,对目标函数进行梯度下降参数更新,最终训练出成熟的深度神经网络。
智能体训练完成以后,将交通检测器收集得到的交通状态信息和智能体的平均动作信息输入到深度神经网络,智能体可以给出针对当前交通流状态下的最优信号灯配时方案。还可以输出各路口车流的等待时间、排队长度、车流平均速度。通过动态的动作决策,可以充分的利用信号灯周期,减少相位损失,提高交通信号灯控制***的有效性。
根据本公开实施例提供的技术方案,通过将平均动作作为状态的一部分,与检测器收集得到的状态信息拼接到一起输入基于深度强化学习的预测模型,以获取所述当前路口的当前阶段的控制动作,可以利用基于深度强化学习的预测模型生成针对当前交通流状态下的最优信号灯配时的控制动作,并可不断地在应用过程中自学习,持续改善配时策略。
图4示出根据本公开实施例的更新模型参数的流程图。
如图4所示,该方法还可以包括操作S410~S440。
在操作S410,获取执行所述当前路口的当前阶段的控制动作之后当前路口的下一阶段的状态信息;
在操作S420,基于所述当前路口的下一阶段的状态信息确定车辆排队长度;
在操作S430,基于所述车辆排队长度确定奖励值,例如,可以确定路口处12条入车道的车辆总数的相反数,或路口处车流的总排队长度的相反数为奖励值,排队长度越长或者车辆总数越多,奖励值越低;
在操作S440,基于所述奖励值更新所述预测模型的参数。
根据本公开实施例提供的技术方案,通过获取执行所述当前路口的当前阶段的控制动作之后当前路口的下一阶段的状态信息;基于所述当前路口的下一阶段的状态信息确定车辆排队长度;基于所述车辆排队长度确定奖励值;基于所述奖励值更新所述预测模型的参数,可以最小化排队长度为目标,持续改善配时策略。
根据本公开实施例,该方法还可以包括将所述当前路口的当前阶段的控制动作发送至临近路口的控制设备,便于临近路口采用类似的方法产生配时的控制动作。
图5示出根据本公开实施例的交通信号控制装置500的框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
如图5所示,所述交通信号控制装置500包括获取模块510、接收模块520、第一确定模块530和第二确定模块540。
获取模块510,被配置为获取当前路口的当前阶段的状态信息;
接收模块520,被配置为接收所述当前路口的临近路口的前一阶段的控制动作;
第一确定模块530,被配置为确定所述临近路口的前一阶段的控制动作的编码的平均值;
第二确定模块540,被配置为基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作。
根据本公开实施例提供的技术方案,通过获取当前路口的当前阶段的状态信息;接收所述当前路口的临近路口的前一阶段的控制动作;确定所述临近路口的前一阶段的控制动作的编码的平均值;基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,从而将全体智能体与交通流量环境的交互作为一个随机博弈问题,通过平均场近似来减小动作空间的维度,将本智能体与其他智能体的交互问题转化为本智能体与临近智能体的某种平均效应的交互问题,避免了“维度灾难”问题。
根据本公开实施例,所述状态信息包括当前路口范围内的多个子区域的车辆状态,所述车辆状态包括所述子区域内是否存在车辆以及所述子区域内车辆的速度。
根据本公开实施例提供的技术方案,通过所述子区域内是否存在车辆以及所述子区域内车辆的速度,可以简单有效地描述车辆状态,使控制动作的预测的效率和有效性得到提升。
根据本公开实施例,所述获取模块510包括第一确定子模块、采集子模块以及映射子模块。
第一确定子模块,被配置为确定多个所述子区域中每个子区域所属的车道的属性;
采集子模块,被配置为采集所述当前路口范围内的多个子区域的车辆状态;
映射子模块,被配置为按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵,作为所述当前路口的当前阶段的状态信息。
根据本公开实施例提供的技术方案,通过确定多个所述子区域中每个子区域所属的车道的属性;采集所述当前路口范围内的多个子区域的车辆状态;按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵,作为所述当前路口的当前阶段的状态信息,该状态信息具有较好的扩展性,可以适应不同的路网结构,且维度较低,可以简单有效地描述路口的情况,使控制动作的预测的效率和有效性得到提升。
根据本公开实施例,所述临近路口包括以下至少一种:
到所述当前路口经过的路口数量小于第一阈值的路口;
与所述当前路口的直线距离小于第二阈值的路口;
沿道路到达所述当前路口的距离小于第三阈值的路口。
根据本公开实施例提供的技术方案,通过以上一种或多种方式确定临近路口,仅接收临近路口的数据,避免收集全部路口的数据,从而可以使该装置能够适用于任何规模的路网结构。
根据本公开实施例,所述第二确定模块540被配置为将所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值输入至基于深度强化学习的预测模型,以获取所述当前路口的当前阶段的控制动作。
根据本公开实施例提供的技术方案,通过将所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值输入至基于深度强化学习的预测模型,以获取所述当前路口的当前阶段的控制动作,可以利用基于深度强化学习的预测模型生成控制动作,并可不断地在应用过程中自学习,持续改善配时策略。
根据本公开实施例,该装置还可以包括参数更新模块,被配置为执行以下操作:
获取执行所述当前路口的当前阶段的控制动作之后当前路口的下一阶段的状态信息;
基于所述当前路口的下一阶段的状态信息确定车辆排队长度;
基于所述车辆排队长度确定奖励值;
基于所述奖励值更新所述预测模型的参数。
根据本公开实施例提供的技术方案,通过获取执行所述当前路口的当前阶段的控制动作之后当前路口的下一阶段的状态信息;基于所述当前路口的下一阶段的状态信息确定车辆排队长度;基于所述车辆排队长度确定奖励值;基于所述奖励值更新所述预测模型的参数,可以最小化排队长度为目标,持续改善配时策略。
根据本公开实施例,该装置还可以包括发送模块,被配置为将所述当前路口的当前阶段的控制动作发送至临近路口的控制设备。
根据本公开实施例提供的技术方案,通过将所述当前路口的当前阶段的控制动作发送至临近路口的控制设备,便于临近路口采用类似的方法产生配时的控制动作。
本公开还公开了一种电子设备,图6示出根据本公开实施例的电子设备的框图。
如图6所示,所述电子设备600包括存储器601和处理器602,其中,存储器601用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器602执行以实现如下操作:
获取当前路口的当前阶段的状态信息;
接收所述当前路口的临近路口的前一阶段的控制动作;
确定所述临近路口的前一阶段的控制动作的编码的平均值;
基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作。
根据本公开实施例,所述状态信息包括当前路口范围内的多个子区域的车辆状态,所述车辆状态包括所述子区域内是否存在车辆以及所述子区域内车辆的速度。
根据本公开实施例,所述获取当前路口的当前阶段的状态信息包括:
确定多个所述子区域中每个子区域所属的车道的属性;
采集所述当前路口范围内的多个子区域的车辆状态;
按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵,作为所述当前路口的当前阶段的状态信息。
根据本公开实施例,所述临近路口包括以下至少一种:
到所述当前路口经过的路口数量小于第一阈值的路口;
与所述当前路口的直线距离小于第二阈值的路口;
沿道路到达所述当前路口的距离小于第三阈值的路口。
根据本公开实施例,所述基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,包括:
将所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值输入至基于深度强化学习的预测模型,以获取所述当前路口的当前阶段的控制动作。
根据本公开实施例,处理器602还用于执行:
获取执行所述当前路口的当前阶段的控制动作之后当前路口的下一阶段的状态信息;
基于所述当前路口的下一阶段的状态信息确定车辆排队长度;
基于所述车辆排队长度确定奖励值;
基于所述奖励值更新所述预测模型的参数。
根据本公开实施例,处理器602还用于执行通过卷积神经网络处理所述状态矩阵,以提取状态特征。
图7示出适于实现本公开实施例的交通信号控制的计算机***的结构示意图。
如图7所示,计算机***700包括处理单元701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述实施例中的各种处理。在RAM 703中,还存储有***700操作所需的各种程序和数据。处理单元701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。其中,所述处理单元701可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机***中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种交通信号控制方法,包括:
获取当前路口的当前阶段的状态信息;
接收所述当前路口的临近路口的前一阶段的控制动作;
确定所述临近路口的前一阶段的控制动作的编码的平均值;
基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作。
2.根据权利要求1所述的方法,其中,所述状态信息包括当前路口范围内的多个子区域的车辆状态,所述车辆状态包括:
所述子区域内是否存在车辆;
所述子区域内车辆的速度。
3.根据权利要求2所述的方法,其中,所述获取当前路口的当前阶段的状态信息包括:
确定多个所述子区域中每个子区域所属的车道的属性;
采集所述当前路口范围内的多个子区域的车辆状态;
按照所述子区域所属车道的属性,将所述多个子区域的车辆状态映射为状态矩阵,作为所述当前路口的当前阶段的状态信息。
4.根据权利要求1所述的方法,其中,所述临近路口包括以下至少一种:
到所述当前路口经过的路口数量小于第一阈值的路口;
与所述当前路口的直线距离小于第二阈值的路口;
沿道路到达所述当前路口的距离小于第三阈值的路口。
5.根据权利要求1所述的方法,其中,所述基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作,包括:
将所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值输入至基于深度强化学习的预测模型,以获取所述当前路口的当前阶段的控制动作。
6.根据权利要求5所述的方法,还包括:
获取执行所述当前路口的当前阶段的控制动作之后当前路口的下一阶段的状态信息;
基于所述当前路口的下一阶段的状态信息确定车辆排队长度;
基于所述车辆排队长度确定奖励值;
基于所述奖励值更新所述预测模型的参数。
7.根据权利要求3所述的方法,还包括:
通过卷积神经网络处理所述状态矩阵,以提取状态特征。
8.一种交通信号控制装置,包括:
获取模块,被配置为获取当前路口的当前阶段的状态信息;
接收模块,被配置为接收所述当前路口的临近路口的前一阶段的控制动作;
第一确定模块,被配置为确定所述临近路口的前一阶段的控制动作的编码的平均值;
第二确定模块,被配置为基于所述当前路口的当前阶段的状态信息和所述临近路口的前一阶段的控制动作的编码的平均值,确定所述当前路口的当前阶段的控制动作。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1~7任一项所述的方法步骤。
10.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1~7任一项所述的方法步骤。
CN202011120565.5A 2020-10-19 2020-10-19 交通信号控制方法、装置、电子设备及可读存储介质 Pending CN112309138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011120565.5A CN112309138A (zh) 2020-10-19 2020-10-19 交通信号控制方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011120565.5A CN112309138A (zh) 2020-10-19 2020-10-19 交通信号控制方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112309138A true CN112309138A (zh) 2021-02-02

Family

ID=74328322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011120565.5A Pending CN112309138A (zh) 2020-10-19 2020-10-19 交通信号控制方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112309138A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436447A (zh) * 2021-06-22 2021-09-24 佳都科技集团股份有限公司 用于网格状路网的交通信号管控***和设备
CN114049760A (zh) * 2021-10-22 2022-02-15 北京经纬恒润科技股份有限公司 基于交叉路口的交通控制方法、装置及***
CN116628520A (zh) * 2023-07-24 2023-08-22 中国船舶集团有限公司第七〇七研究所 基于平均场理论算法的多学员模拟训练方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路***通信号控制方法、***、装置
US20190347933A1 (en) * 2018-05-11 2019-11-14 Virtual Traffic Lights, LLC Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby
CN111127910A (zh) * 2019-12-18 2020-05-08 上海天壤智能科技有限公司 交通信号调节方法、***及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
US20190347933A1 (en) * 2018-05-11 2019-11-14 Virtual Traffic Lights, LLC Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路***通信号控制方法、***、装置
CN111127910A (zh) * 2019-12-18 2020-05-08 上海天壤智能科技有限公司 交通信号调节方法、***及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨文臣: "多智能体强化学习在城市交通网络信号控制方法中的应用综述", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436447A (zh) * 2021-06-22 2021-09-24 佳都科技集团股份有限公司 用于网格状路网的交通信号管控***和设备
CN114049760A (zh) * 2021-10-22 2022-02-15 北京经纬恒润科技股份有限公司 基于交叉路口的交通控制方法、装置及***
CN116628520A (zh) * 2023-07-24 2023-08-22 中国船舶集团有限公司第七〇七研究所 基于平均场理论算法的多学员模拟训练方法及***
CN116628520B (zh) * 2023-07-24 2023-09-29 中国船舶集团有限公司第七〇七研究所 基于平均场理论算法的多学员模拟训练方法及***

Similar Documents

Publication Publication Date Title
CN108197739B (zh) 一种城市轨道交通乘客流量预测方法
CN110796856B (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
CN110562258B (zh) 一种车辆自动换道决策的方法、车载设备和存储介质
CN112309138A (zh) 交通信号控制方法、装置、电子设备及可读存储介质
US20230124864A1 (en) Graph Representation Querying of Machine Learning Models for Traffic or Safety Rules
CN109272157A (zh) 一种基于门控神经网络的高速公路交通流参数预测方法及***
CN112289045B (zh) 交通信号控制方法、装置、电子设备及可读存储介质
CN111667693B (zh) 用于确定预计到达时间的方法、装置、设备及介质
EP4138051A1 (en) Method of collecting data from fleet of vehicles
CN114360239A (zh) 一种多层时空交通知识图谱重建的交通预测方法及***
Ma et al. Adaptive optimization of traffic signal timing via deep reinforcement learning
CN115493610A (zh) 一种车道级导航方法及装置、电子设备、存储介质
CN115062202A (zh) 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质
CN115169239A (zh) 融合卷积、注意力和mlp的行程目的地预测方法
CN114495060A (zh) 一种道路交通标线识别方法及装置
CN114428889A (zh) 轨迹绑路方法、模型训练方法、装置、设备及存储介质
CN115691140B (zh) 一种汽车充电需求时空分布的分析与预测方法
CN116629425A (zh) 车辆能耗的计算方法、装置、计算机可读介质及电子设备
CN113276860B (zh) 车辆控制方法、装置、电子设备以及存储介质
CN115540880A (zh) 一种导航路径匹配方法及装置、电子设备、存储介质
CN112686457B (zh) 路线到达时间预估方法及装置、电子设备、存储介质
CN110853346B (zh) 交叉路口的车流控制方法和***
CN114202272A (zh) 一种基于电子围栏的车货匹配方法、装置、存储介质及终端
Płaczek Fuzzy cellular model for on-line traffic simulation
CN115081186B (zh) 一种支持数据驱动的驾驶行为仿真***及其仿真方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202