CN110444028A - 多路口信号灯控制方法、装置及设备 - Google Patents
多路口信号灯控制方法、装置及设备 Download PDFInfo
- Publication number
- CN110444028A CN110444028A CN201910846656.8A CN201910846656A CN110444028A CN 110444028 A CN110444028 A CN 110444028A CN 201910846656 A CN201910846656 A CN 201910846656A CN 110444028 A CN110444028 A CN 110444028A
- Authority
- CN
- China
- Prior art keywords
- traffic
- destination node
- signal lamp
- node
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种多路口信号灯控制方法、装置及设备,其中控制方法包括:预先构建多个相邻路口的交通元素邻接图,用于描述信号灯所在路口以及相关车道的空间位置关系;实时获取各路口及相关车道的交通状态信息;基于交通元素邻接图和交通状态信息,获得各信号灯之间的时空协作关系;再利用时空协作关系,对各信号灯进行控制。一方面本发明构建了用于描述交通元素空间位置关系的拓扑结构,另一方面考虑到将基于时间流动性的交通状态信息与上述空间关系结合,由此能够充分表征各信号灯所在路口在时间和空间上的联系,因而使得对信号灯的控制建立于联动协作基础之上,控制方式更为合理、控制效果更为精准,由此可以大幅提升城市交通的流畅度。
Description
技术领域
本发明涉及交通灯控制技术领域,尤其涉及一种多路口信号灯控制方法、装置及设备。
背景技术
随着城市规模的发展,城市道路交通状况越来越复杂,设置信号灯的路口也日益增多,在结合近几年人工智能技术的广泛应用以及智慧城市这个概念的提出,足见交通智能化控制、尤其交通道口的灯控技术对于智慧城市的管理将有着举足轻重的地位,这是缓解城市交通压力、减少污染排放的关键环节、同时也是直接相关的管理手段之一。
现有针对多个关联路口的信号灯的控制方法,大多是孤立地控制各自路口的信号灯,一方面忽略了多个信号灯在空间位置上形成的拓扑结构,另一方面也忽略了历史交通状态对当前时刻信号灯决策的影响。
因此,如何在充分考虑多个路口之间的空间和时间关联性基础上对各路口信号灯进行协作式调控,是本领域亟待解决的重要问题之一。
发明内容
本发明的目的是提供一种多路口信号灯控制方法、装置及设备,以解决现有多路口信号灯控制方式的上述弊端。
本发明采用的技术方案如下:
一种多路口信号灯控制方法,包括:
预先构建多个相邻路口的交通元素邻接图,所述交通元素邻接图用于描述信号灯所在路口以及相关车道的空间位置关系;
实时获取各所述路口及相关车道的交通状态信息;
基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系;
根据所述时空协作关系,对各所述信号灯进行控制。
可选地,所述基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系包括依序执行的如下步骤:
更新所述交通元素邻接图中各车道的初始状态;
汇聚车道的初始状态,得到所述交通元素邻接图中各所述信号灯所在路口的初始状态;
将所述交通状态信息融入到所述交通元素邻接图,得到包含各所述信号灯之间的时间协作关系的交通元素邻接图;
基于包含时间协作关系的交通元素邻接图,推理并得到各所述信号灯之间的空间协作关系。
可选地,所述根据所述时空协作关系,对各所述信号灯进行控制包括:
按照所述时空协作关系,模拟各所述信号灯的动作状态,使预设的全局奖励最大化;
得到所述全局奖励最大时各所述路口的状态参数,以所述状态参数确定各所述信号灯的控制决策参数。
可选地,所述交通元素邻接图包括:
目标节点,所述目标节点用于表征所述信号灯或所述信号灯所在路口;
末端节点,所述末端节点用于表征作为非控制目标且与各所述路口相接的交通元素;以及,
连接在所述目标节点之间、目标节点与所述末端节点之间的有向边,所述有向边用于表征车道以及车流方向。
可选地,所述基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系包括:
更新所述有向边,得到所述有向边的初始状态;
将有车流流入的所述路口所对应的所述有向边的初始状态进行汇聚,得到所述目标节点的初始状态;
利用所述交通状态信息,为所述目标节点融入当前时刻的交通状态信息以及历史时刻的交通状态信息,得到各所述目标节点之间的时间协作关系;
基于各所述目标节点之间的时间协作关系,推理出各所述目标节点之间的空间协作关系;
结合所述时间协作关系以及所述空间协作关系,得到包含时空协作关系的所述交通元素邻接图。
可选地,所述推理出各所述目标节点之间的空间协作关系包括:
在推理当前步骤时,将各节点的初始状态与其在先推理结果融合,得到各节点的当前状态;
计算所述目标节点的当前状态与相接于该目标节点的预设节点的当前状态的相似度;其中,所述预设节点是指车流流入所述目标节点的其他节点;
根据所述目标节点与全部所述预设节点的相似度以及全部所述预设节点的当前状态,得到所述目标节点的汇总状态;
基于所述目标节点的汇总状态及其初始状态,更新所述目标节点的当前状态。
一种多路口信号灯控制装置,包括:
交通元素邻接图构建模块,用于预先构建多个相邻路口的交通元素邻接图,所述交通元素邻接图用于描述信号灯所在路口以及相关车道的空间位置关系;
交通状态信息获取模块,用于实时获取各所述路口及相关车道的交通状态信息;
时空协作关系建立模块,用于基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系;
信号灯控制决策模块,用于根据所述时空协作关系,对各所述信号灯进行控制。
可选地,所述时空协作关系建立模块包括如下模块:
车道初始化单元,用于更新所述交通元素邻接图中各车道的初始状态;
路口初始化单元,用于汇聚车道的初始状态,得到所述交通元素邻接图中各所述信号灯所在路口的初始状态;
时间协作关系确定单元,用于将所述交通状态信息融入到所述交通元素邻接图,得到包含各所述信号灯之间的时间协作关系的交通元素邻接图;
空间协作关系确定单元,用于基于包含时间协作关系的交通元素邻接图,推理并得到各所述信号灯之间的空间协作关系。
可选地,所述信号灯控制决策模块包括:
动作单元,用于按照所述时空协作关系,模拟各所述信号灯的动作状态,使预设的全局奖励最大化;
决策参数确定单元,用于得到所述全局奖励最大时各所述路口的状态参数,以所述状态参数确定各所述信号灯的控制决策参数。
可选地,所述交通元素邻接图包括:
目标节点,所述目标节点用于表征所述信号灯或所述信号灯所在路口;
末端节点,所述末端节点用于表征作为非控制目标且与各所述路口相接的交通元素;以及,
连接在所述目标节点之间、目标节点与所述末端节点之间的有向边,所述有向边用于表征车道以及车流方向。
可选地,所述时空协作关系建立模块具体包括:
边更新单元,用于更新所述有向边,得到所述有向边的初始状态;
目标节点初始化单元,用于将有车流流入的所述路口所对应的所述有向边的初始状态进行汇聚,得到所述目标节点的初始状态;
交通状态融入单元,用于利用所述交通状态信息,为所述目标节点融入当前时刻的交通状态信息以及历史时刻的交通状态信息,得到各所述目标节点之间的时间协作关系;
目标节点更新单元,用于基于各所述目标节点之间的时间协作关系,推理出各所述目标节点之间的空间协作关系;
交通元素邻接图更新单元,用于结合所述时间协作关系以及所述空间协作关系,得到包含时空协作关系的所述交通元素邻接图。
可选地,所述目标节点更新单元具体包括:
当前状态推理子单元,用于在推理当前步骤时,将各节点的初始状态与其在先推理结果融合,得到各节点的当前状态;
相似度计算子单元,用于计算所述目标节点的当前状态与相接于该目标节点的预设节点的当前状态的相似度;其中,所述预设节点是指车流流入所述目标节点的其他节点;
节点状态汇总子单元,用于根据所述目标节点与全部所述预设节点的相似度以及全部所述预设节点的当前状态,得到所述目标节点的汇总状态;
目标节点更新子单元,用于基于所述目标节点的汇总状态及其初始状态,更新所述目标节点的当前状态。
一种多路口信号灯控制设备,包括:
存储器,用于存储计算机程序;
处理器,用于当执行所述计算机程序时,实现如上所述的多路口信号灯控制方法。
本发明通过预先构建多个相邻路口的交通元素邻接图,并将基于实时获取的各所述路口及相关车道的交通状态信息与该交通元素邻接图结合,从而得各信号灯之间的时空协作关系,并以此基础对信号灯进行控制决策。一方面本发明构建了用于描述各路***通元素空间位置关系的拓扑结构,另一方面考虑到将基于时间流动性的交通状态信息与上述空间关系结合,由此相比现有技术,能够充分表征各信号灯所在路口在时间和空间上的联系,因而使得对信号灯的控制建立于联动协作基础之上,控制方式更为合理、控制效果更为精准,由此可以大幅提升城市交通的流畅度。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的多路口信号灯控制方法的实施例的流程图;
图2为本发明建立交通元素邻接图实施例的转化示意图;
图3为本发明提供的步骤S3的一种实施例的流程图;
图4为本发明提供的基于交通元素邻接图的步骤S3的优选实施例的流程图;
图5为本发明提供的节点更新的一种实施例的流程图;
图6为本发明提供的多路口信号灯控制装置的实施例的方框示意图。
附图标记说明:
1 交通元素邻接图构建模块 2 交通状态信息获取模块
3 时空协作关系建立模块 4 信号灯控制决策模块
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明提出了一种多路口信号灯控制方法的实施例,如图1所示,主要包括如下步骤:
步骤S1、预先构建多个相邻路口的交通元素邻接图;
这里所述交通元素邻接图,可以用来描述信号灯所在路口以及相关车道的空间位置关系,具体实施时可如图2所示,图2示出的是由实际路口邻接状态转化为所述交通元素邻接图的过程。在实际道路中,路口的空间结构及关系比较复杂,连接到同一个路口的道路可能有不同的车道以及不同的车流方向限制,如单向或者双向。而所述交通元素邻接图便包括了各个相接在同一路口上的不同车道之间的邻接关系,当然,各路口的邻接关系还包含诸如路口的各方向上的车道数量、车道的流向等附带信息,由此可知上述交通元素可以是指信号灯、路口、车道以及车道流向等。为了描述真实路口的复杂状况,交通元素邻接图可以包括用于表征信号灯(或信号灯所在路口)的目标节点、用于表征作为非控制目标且与各路口相接的交通元素的末端节点,以及连接在目标节点之间、目标节点与末端节点之间的有向边,所述有向边用于表征车道以及车流方向。以图2右侧示例,每一个路口元素邻接关系均可在实施本发明方法时表示为G=(V,E),其中,用V来表示各路口(信号灯)的关系表示,E用于表示连接路口的车道的关系表示,后文将做具体说明;具体而言,实心圆表示目标节点,即待控制的信号灯(当然也可以理解为待控制的信号灯所在的路口),图中TL为Traffic Light的缩写,而序号仅为参考,并非是对控制目标的数量的限定;空心圆表示末端节点,即非控制节点,在优选方案中末端节点可以是指与当前目标路口相接的其他路口(或相应的信号灯),但并不限于此,末端节点可以指代多种与真实交通情况相对应的交通元素,例如与目标路口相接的某建筑物等;而有向边则表示相接与各节点之间的车道,其中由箭头指示出车道流向。
步骤S2、实时获取各路口及相关车道的交通状态信息;
具体实施时,可以持续获取如下与信号灯路口相关的附近交通状态,例如各车道上的车辆排队长度、各车道上的车辆数量、各车道上的车辆等待时间、各车道的车流流向、信号灯指示状态以及附带的时间戳,其中所述各车道是指与信号灯所在各个路口连接的各条车道,所述车辆等待时间则可以但不限于是各车道上的各车辆在一段时间内的平均等待时间,所述信号灯指示状态可以包括通行/禁止通行、单向/双向通行、转向通行/禁止通行等。在实施应用中,交通状态信息可以由安装在各个路口的摄像头或其他方式获取。当然,在实施应用中,可能由于地理环境、硬件配置等因素,难以保证每一个信号灯路口的交通状态信息都能够完全准确地获取,但需指出,即便存在交通状态信息无法获取的个例,也不影响本方法的施用。鉴于此,本申请中所指的各路口的交通状态信息,可以是指与需要控制的信号灯相关的全部路口的交通状态信息,也可以是除个别无法获取交通状态信息的路口外的其他所有路口的交通状态信息。
步骤S3、基于交通元素邻接图以及交通状态信息,获得各信号灯之间的时空协作关系;
如前所述,交通状态信息是依时间延续性所采集的各信号灯所在路口及周边交通状况的流动信息,而交通元素邻接图表达是一种空间位置上的关系,因而本实施例提出将二者结合,以获得信号灯(或者所在路***通状况)基于时间和空间两种维度的协作关系,可以参考图3所示,包括如下实施步骤:
步骤S30、更新交通元素邻接图中各车道的初始状态;
步骤S31、汇聚车道的初始状态,得到交通元素邻接图中各信号灯所在路口的初始状态;
步骤S32、将交通状态信息融入到交通元素邻接图,得到包含各信号灯之间的时间协作关系的交通元素邻接图;
步骤S33、基于包含时间协作关系的交通元素邻接图,推理并得到各信号灯之间的空间协作关系。
借此本发明提出,在实际操作中上述过程可以利用但不限于神经网络予以实现,具体来说,结合前文提及的一种交通元素邻接图的优选方案,上述过程可进一步参考图4所示的优选过程:
步骤S300、更新有向边,得到有向边的初始状态;
通常来说,能够反映一个路***通状态以及信号灯动作适当与否的交通状态信息多基于车道的状态,也即是观测到各种交通元素所反映出的交通状况,均可以通过车道车流状态予以直接或间接表示,因而在本优选过程初始,可以是利用所述交通状态信息,对前述交通元素邻接图中的有向边进行编码,以实现对有向边的更新,从而获得交通元素邻接图中各有向边的初始关系表示e。在实施时,可使用边编码器对有向边进行编码来得到深层的状态表示,即,有向边的状态表示可以如下:
其中ql、nl、wl分别是指车道l上的排队长度、车辆数目以及车辆的等待时间,每进行一次训练或者运算,都需要进行一次更新,而车道关系表示的更新则可如下:
其中,c(k)为车道的类型,即表示有lk个车道在这条有向车道上,也可以理解为所表示的是当前路口的岔路口数。另外可以说明的是,为了减少边编码器中的参数量,在其他实施方式中,可以在边编码器的第一层对不同的边类型使用不同的参数,在其余层则使用共享的参数,对此本发明不作限定。
步骤S301、将有车流流入的路口所对应的有向边的初始状态进行汇聚,得到目标节点的初始状态;
此过程实质即是从边到点的过程,即利用有向边的初始表示推导出目标节点的初始状态,由此可见本实施例的构思脉络是以车道状态获得信号灯(所在路口)的状态,而在后续步骤中皆主要是针对信号灯(所在路口)进行空间和时间上的关联。具体在本步骤中,可根据上述各有向边的初始状态表示,尤其可以是汇聚那些车流流向路口的车道状态,以此获得控制目标,即信号灯所在路口的车辆流入接口表示:
其中,其中rk是第k条边的接收点,所述接收点在这里是指有车流流向路口的信号灯所在路口。
当然,上述仅为一种优选方式,不排除在其他实施方式将全部有向边的状态一并汇聚考虑;并且在获得节点初始化过程中,也不限定针对的节点类型,可以是有车流流入的目标节点、可以是与有车流流入的目标节点相接的其他节点(包括所述目标节点、所述末端节点),也可以是针对交通元素邻接图的所有节点。
步骤S302、利用交通状态信息,为目标节点融入当前时刻的交通状态信息以及历史时刻的交通状态信息,得到各目标节点之间的时间协作关系;
具体来说,是将上述步骤得到的交通元素邻接图中各目标节点的基于时间的状态关系,结合前文提及的神经网络的方式进行融合,从而可以学习到具有时间依赖性的目标节点状态表示。具体地,预设的神经网络模型为经过训练的神经网络模型,其输入为经由初始化的交通元素邻接图中的目标节点关系表示,输出则为各个信号灯(所在路口)的时间协作关系。
在实际操作中,所述“为目标节点融入当前时刻的交通状态信息以及历史时刻的交通状态信息”,可以是三种形式:
1)将每个路口当前时刻的交通状态表示与该路口的历史时刻的交通状态表示融入到预设的神经网络模型,例如长短期记忆网络(Long Short-Term Memory,LSTM)中,由该神经网络输出各路口之间的时间协作关系表示。具体地,当前时刻的交通状态表示可记为也即是经由前述初始化步骤(边更新)之后得到的目标节点(优选是有车流流入的目标节点)的初始状态表示,这里以表示是将整个交通元素理解图视为一个整体输入至前述LSTM之中;之后,LSTM中的每个目标节点的隐层状态前一时刻可记为因此,此过程输出的、附带了时间依赖关系的隐状态表示为此处同样是以整个邻接图予以表示。但需指出的是,所述前一时刻仅为上述“历史时刻”的一种优选,不排除在其他实施方式中将之前的多个历史时刻或观测到的全部历史时刻信息予以考虑在内,这取决于实际操作方式的选取,例如利用以一个预设的时间窗口进行截取则可以获取到相应的时间片段中的数据,对此本发明不作赘述。
2)将每个路口当前时刻的交通状态表示与该路口相接的其他路口的历史时刻的交通状态表示融入到预设的神经网络模型。其他思路如前所述,这里只是将历史时刻限定在与有车流流入的目标节点相连接的其他节点(包括所述目标节点、末端节点)的当前初始状态上。
3)将每个路口当前时刻的交通状态表示与所有路口的历史时刻的交通状态表示融入到预设的神经网络模型。其他思路如前所述,这里只是将历史时刻限定在交通元素邻接图中的所有节点的当前初始状态上。
步骤S303、基于各目标节点之间的时间协作关系,推理出各目标节点之间的空间协作关系;
基于上述步骤获得了具有时间依赖关系的表示本发明提出为了使得当前的交通元素邻接图(尤其是针对作为控制目标的目标节点)建立空间上的关联性,可采用点更新来学习多个路口之间的空间协作关系。在实际操作中,可使用注意力机制推理出各个路口之间的空间协作关系,具体可参考图5所示:
步骤S3031、在推理当前步骤时,将各节点的初始状态与其在先推理结果融合,得到各节点的当前状态;
例如在推理第d步时,作为输入的目标节点的向量表示可以包含该节点初始状态的向量表示以及前一推理步获得状态表示的表示
其中||表示拼接两个向量。当然,本领域技术人员可以理解的是,上述过程仅是一种参考性的优选示意,本发明并不排除在其他实施方式中将初始的节点表示与全部在先的推理结果的表示进行融合,也不限定每次融合必须基于节点的初始状态表示。
步骤S3032、计算目标节点的当前状态与相接于该目标节点的预设节点的当前状态的相似度;
具体地,可以计算某一目标节点i和发送节点j之间的注意力得分αij:
其中,a是可以训练的权重向量,f是一个非线性的激活函数,表示节点i的入边对应的节点,所述入边即有车流流向节点i的路口,这里采用ELU激活函数。需指出的是,所称发送节点可以理解为有车流流入当前目标节点的其他相接节点,前述预设节点优选是指车流流入目标节点的其他节点,但如前文所述并不限于此,在计算目标节点与其他节点的相似度时,也可以考虑其本身的历史状态或可以将全部节点(所述目标节点、所述末端节点)考虑在内。
步骤S3033、根据目标节点与全部预设节点的相似度以及全部预设节点的当前状态,得到目标节点的汇总状态;
结合上文的优选方案来说,对于每一个目标节点i从其发送节点j聚集而来的状态表示:
这里采用的构思是求取基于相似度和相应的发送节点的向量均值作为当前的目标节点在汇总相关节点后的一种状态,由此可知,点更新的过程实质即是从点到点建立各信号灯(所在路口)空间协作关系的过程。
步骤S3034、基于目标节点的汇总状态及其初始状态,更新目标节点的当前状态。
本步骤也即是优选地,可以再次利用节点的初始状态,对该目标节点的向量进行更新,得到本步推理的最终结果:
其中,g可以是指一层的多层感知器MLP,而输出层的激活函数则可选用ELU函数。
以上所述节点更新过程是以一步的关系推理作为示意说明,实际操作时,可以使用多步的关系推理来获得多智能体(各信号灯)之间的高阶信息,所述高阶信息指长距离的信号灯之间的交互信息。
步骤S304、结合时间协作关系以及空间协作关系,得到包含时空协作关系的交通元素邻接图。
回到图4示意,利用循环神经网络将所有节点的关系推理完成后,便可以得到既有时间协作关系表示、也有空间协作关系表示的交通元素邻接图。
接续前文图1示例,最后执行步骤S4、根据时空协作关系,对各信号灯进行控制。
在实际操作中,对各信号灯进行控制决策的主要构思是,可将但不限于区域内车辆排队长度的负值预设为全局奖励,基于前述实施例及优选方法得到的各信号灯(所在路口)的时空协作关系,通过模拟各个路口的信号灯的动作使该全局奖励最大化,进而可以得到在该全局奖励最大时的各信号的控制参数。
具体地,上述思路的由来是考虑到由于收集到的交通状态信息可能是不完整的或不准确的,本实施例将多个路口的信号灯控制问题视作部分可观测马尔可夫决策问题——智能体(各信号灯)无法直接观察目前的状态,相反地,其必须要根据全域与部分区域的观察结果来推断状态的分布,而决策的过程则可以选用深度强化学习中的DQN(deep Q-learning)算法分别对各个信号灯基于具有时间关联性和空间关联性的交通元素邻接图进行决策。其中,关于上述部分可观测马尔可夫决策问题架构,N表示路口的数目:
(1)状态空间是t时刻各路口邻接图上的所有信息,但是每个信号灯只能有局部的视野,因此这里就有了局部可观测性的问题。
(2)观测空间是路口i在时间t部分可观测的状态。在上述交通元素邻接图中,观测到的交通状态信息是在每条有向边(每个车道)上其中ql,nl,wl分别是车道l上的排队长度,车辆数目以及车辆的等待时间。对于路口i,部分可观测状态指的是在i所在节点入边上观测到的信息。所述可观测状态即当前目标节点(即信号灯所在路口)的入边(有车流流向该路口的车道)所能观测到的信息,不可观测全局的所有信息。
(3)动作这是所有信号灯在时刻t的联合动作。在上述问题中由于现实环境的限制和安全考虑,信号灯的状态按照固定的顺序变化,具体顺序为:信号灯相位1→信号灯相位2→…→信号灯相位n,即信号灯的每个循环有n个信号灯相位,当信号灯相位n结束时进入信号灯相位1。对于每个路口i在时刻t的动作:表示信号灯是否需要切换到下一个状态。
(4)奖励是智能体i在时间t的即时奖励函数。路口i是优化这个期望的未来奖励其中γ是折扣因子,对于路口i的奖励其中li是连接到路口i的车道。
(5)状态转移概率定义了当所有路口采取动作at时从状态st到st+1的转移概率。
(6)观测概率观测
基于上述架构,在给定具有时空协作关系的交通元素邻接图以及预设的奖励时,本实施例的目的在于为每个路口的信号灯做出合适的决策来最大化全局奖励:
最后需要指出的是,本实施例中所使用的神经网络模型及强化学习算法中的所有参数矩阵或向量可以进行预先训练。在实际训练过程中,我们可以把训练过程中的观测数据存到replay buffer中,因为如前文所述,观测到的交通状态信息主要是指邻接图中的有向边的状态。在时刻t我们将观测表示为转移记录(ot,at,ot+1,rt)存储起来,其中,联合动作奖励该训练的损失函数可以表示如下:
其中Δt是考虑时间依赖的时间长度,为了稳定训练,可以在一个episode结束后便更新模型,前述关于部分可观测马尔可夫决策问题架构、为了应对该问题的深度强化学习算法以及网络的训练过程本身,皆可借鉴成熟的机器学习技术,本实施例仅是基于设计构思采用了上述可选工具进行实际实施以供参考。接着,在模型训练完成之后的具体测试阶段,可以在信号灯所在路口持续观察到各自周边的当前时刻的交通状态信息以及历史时刻的交通状态信息,再结合上述训练好的基于空间位置和历史状态的强化学习神经网络为每个信号灯做出决策。
综上所述,本发明通过预先构建多个相邻路口的交通元素邻接图,并将基于实时获取的各所述路口及相关车道的交通状态信息与该交通元素邻接图结合,从而得到各信号灯之间的时空协作关系,并以此基础对信号灯进行控制决策。一方面本发明构建了用于描述各路***通元素空间位置关系的拓扑结构,另一方面考虑到将基于时间流动性的交通状态信息与上述空间关系结合,并且在具体操作中还可以结合人工智能领域中的模型结构以及算法进行更优地处理操作,由此相比现有技术,本发明能够充分表征各信号灯所在路口在时间和空间上的联系,因而使得对信号灯的控制建立于联动协作基础之上,控制方式更为合理、控制效果更为精准,由此可以大幅提升城市交通的流畅度。
相应于上述各实施例及优选方案,本发明还提供了一种多路口信号灯控制装置的实施例,如图6所示,具体可以包括如下部件:
交通元素邻接图构建模块1,用于预先构建多个相邻路口的交通元素邻接图,交通元素邻接图用于描述信号灯所在路口以及相关车道的空间位置关系;
交通状态信息获取模块2,用于实时获取各路口及相关车道的交通状态信息;
时空协作关系建立模块3,用于基于交通元素邻接图以及交通状态信息,获得各信号灯之间的时空协作关系;
信号灯控制决策模块4,用于根据时空协作关系,对各信号灯进行控制。
进一步地,时空协作关系建立模块包括如下模块:
车道初始化单元,用于更新交通元素邻接图中各车道的初始状态;
路口初始化单元,用于汇聚车道的初始状态,得到交通元素邻接图中各信号灯所在路口的初始状态;
时间协作关系确定单元,用于将交通状态信息融入到交通元素邻接图,得到包含各信号灯之间的时间协作关系的交通元素邻接图;
空间协作关系确定单元,用于基于包含时间协作关系的交通元素邻接图,推理并得到各信号灯之间的空间协作关系。
进一步地,信号灯控制决策模块包括:
动作单元,用于按照时空协作关系,模拟各信号灯的动作状态,使预设的全局奖励最大化;
决策参数确定单元,用于得到全局奖励最大时各路口的状态参数,以状态参数确定各信号灯的控制决策参数。
进一步地,交通元素邻接图包括:
目标节点,目标节点用于表征信号灯或信号灯所在路口;
末端节点,末端节点用于表征作为非控制目标且与各路口相接的交通元素;以及,
连接在目标节点之间、目标节点与末端节点之间的有向边,有向边用于表征车道以及车流方向。
进一步地,时空协作关系建立模块具体包括:
边更新单元,用于更新有向边,得到有向边的初始状态;
目标节点初始化单元,用于将有车流流入的路口所对应的有向边的初始状态进行汇聚,得到目标节点的初始状态;
交通状态融入单元,用于利用交通状态信息,为目标节点融入当前时刻的交通状态信息以及历史时刻的交通状态信息,得到各目标节点之间的时间协作关系;
目标节点更新单元,用于基于各目标节点之间的时间协作关系,推理出各目标节点之间的空间协作关系;
交通元素邻接图更新单元,用于结合时间协作关系以及空间协作关系,得到包含时空协作关系的交通元素邻接图。
进一步地,目标节点更新单元具体包括:
当前状态推理子单元,用于在推理当前步骤时,将各节点的初始状态与其在先推理结果融合,得到各节点的当前状态;
相似度计算子单元,用于计算目标节点的当前状态与相接于该目标节点的预设节点的当前状态的相似度;其中,预设节点是指车流流入目标节点的其他节点;
节点状态汇总子单元,用于根据目标节点与全部预设节点的相似度以及全部预设节点的当前状态,得到目标节点的汇总状态;
目标节点更新子单元,用于基于目标节点的汇总状态及其初始状态,更新目标节点的当前状态。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于基于硬件载体的各种实施方案,本发明以下述硬件载体作为示意性说明:
(1)一种多路口信号灯控制设备,其可以包括:
存储器,用于存储计算机程序或上述装置;
处理器,用于当执行计算机程序或上述装置时,实现上述多路口信号灯控制方法。
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,实现上述多路口信号灯控制方法。
(3)一种计算机程序产品(该产品可以包括上述装置),计算机程序产品在终端设备上运行时,使终端设备执行上述多路口信号灯控制方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;上述可读存储介质可以是ROM/RAM、磁碟或光盘等;上述设备可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等等)。并且,该设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;存储器也可以是高速RAM存储器或非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器。
最后需说明,虽然上述装置实施例及优选方案的工作方式以及技术原理皆记载于前文,但仍需强调的是,该装置中各个部件实施例仍可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。可以把装置实施例中的模块或单元或组件等组合成一个模块或单元或组件,也可以把它们分成多个子模块或子单元或子组件予以实施。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (13)
1.一种多路口信号灯控制方法,其特征在于,包括:
预先构建多个相邻路口的交通元素邻接图,所述交通元素邻接图用于描述信号灯所在路口以及相关车道的空间位置关系;
实时获取各所述路口及相关车道的交通状态信息;
基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系;
根据所述时空协作关系,对各所述信号灯进行控制。
2.根据权利要求1所述的多路口信号灯控制方法,其特征在于,所述基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系包括依序执行的如下步骤:
更新所述交通元素邻接图中各车道的初始状态;
汇聚车道的初始状态,得到所述交通元素邻接图中各所述信号灯所在路口的初始状态;
将所述交通状态信息融入到所述交通元素邻接图,得到包含各所述信号灯之间的时间协作关系的交通元素邻接图;
基于包含时间协作关系的交通元素邻接图,推理并得到各所述信号灯之间的空间协作关系。
3.根据权利要求1所述的多路口信号灯控制方法,其特征在于,所述根据所述时空协作关系,对各所述信号灯进行控制包括:
按照所述时空协作关系,模拟各所述信号灯的动作状态,使预设的全局奖励最大化;
得到所述全局奖励最大时各所述路口的状态参数,以所述状态参数确定各所述信号灯的控制决策参数。
4.根据权利要求1~3任一项所述的多路口信号灯控制方法,其特征在于,所述交通元素邻接图包括:
目标节点,所述目标节点用于表征所述信号灯或所述信号灯所在路口;
末端节点,所述末端节点用于表征作为非控制目标且与各所述路口相接的交通元素;以及,
连接在所述目标节点之间、目标节点与所述末端节点之间的有向边,所述有向边用于表征车道以及车流方向。
5.根据权利要求4所述的多路口信号灯控制方法,其特征在于,所述基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系包括:
更新所述有向边,得到所述有向边的初始状态;
将有车流流入的所述路口所对应的所述有向边的初始状态进行汇聚,得到所述目标节点的初始状态;
利用所述交通状态信息,为所述目标节点融入当前时刻的交通状态信息以及历史时刻的交通状态信息,得到各所述目标节点之间的时间协作关系;
基于各所述目标节点之间的时间协作关系,推理出各所述目标节点之间的空间协作关系;
结合所述时间协作关系以及所述空间协作关系,得到包含时空协作关系的所述交通元素邻接图。
6.根据权利要求5所述的多路口信号灯控制方法,其特征在于,所述推理出各所述目标节点之间的空间协作关系包括:
在推理当前步骤时,将各节点的初始状态与其在先推理结果融合,得到各节点的当前状态;
计算所述目标节点的当前状态与相接于该目标节点的预设节点的当前状态的相似度;其中,所述预设节点是指车流流入所述目标节点的其他节点;
根据所述目标节点与全部所述预设节点的相似度以及全部所述预设节点的当前状态,得到所述目标节点的汇总状态;
基于所述目标节点的汇总状态及其初始状态,更新所述目标节点的当前状态。
7.一种多路口信号灯控制装置,其特征在于,包括:
交通元素邻接图构建模块,用于预先构建多个相邻路口的交通元素邻接图,所述交通元素邻接图用于描述信号灯所在路口以及相关车道的空间位置关系;
交通状态信息获取模块,用于实时获取各所述路口及相关车道的交通状态信息;
时空协作关系建立模块,用于基于所述交通元素邻接图以及所述交通状态信息,获得各所述信号灯之间的时空协作关系;
信号灯控制决策模块,用于根据所述时空协作关系,对各所述信号灯进行控制。
8.根据权利要求7所述的多路口信号灯控制装置,其特征在于,所述时空协作关系建立模块包括如下模块:
车道初始化单元,用于更新所述交通元素邻接图中各车道的初始状态;
路口初始化单元,用于汇聚车道的初始状态,得到所述交通元素邻接图中各所述信号灯所在路口的初始状态;
时间协作关系确定单元,用于将所述交通状态信息融入到所述交通元素邻接图,得到包含各所述信号灯之间的时间协作关系的交通元素邻接图;
空间协作关系确定单元,用于基于包含时间协作关系的交通元素邻接图,推理并得到各所述信号灯之间的空间协作关系。
9.根据权利要求7所述的多路口信号灯控制装置,其特征在于,所述信号灯控制决策模块包括:
动作单元,用于按照所述时空协作关系,模拟各所述信号灯的动作状态,使预设的全局奖励最大化;
决策参数确定单元,用于得到所述全局奖励最大时各所述路口的状态参数,以所述状态参数确定各所述信号灯的控制决策参数。
10.根据权利要求7~9任一项所述的多路口信号灯控制装置,其特征在于,所述交通元素邻接图包括:
目标节点,所述目标节点用于表征所述信号灯或所述信号灯所在路口;
末端节点,所述末端节点用于表征作为非控制目标且与各所述路口相接的交通元素;以及,
连接在所述目标节点之间、目标节点与所述末端节点之间的有向边,所述有向边用于表征车道以及车流方向。
11.根据权利要求10所述的多路口信号灯控制装置,其特征在于,所述时空协作关系建立模块具体包括:
边更新单元,用于更新所述有向边,得到所述有向边的初始状态;
目标节点初始化单元,用于将有车流流入的所述路口所对应的所述有向边的初始状态进行汇聚,得到所述目标节点的初始状态;
交通状态融入单元,用于利用所述交通状态信息,为所述目标节点融入当前时刻的交通状态信息以及历史时刻的交通状态信息,得到各所述目标节点之间的时间协作关系;
目标节点更新单元,用于基于各所述目标节点之间的时间协作关系,推理出各所述目标节点之间的空间协作关系;
交通元素邻接图更新单元,用于结合所述时间协作关系以及所述空间协作关系,得到包含时空协作关系的所述交通元素邻接图。
12.根据权利要求11所述的多路口信号灯控制装置,其特征在于,所述目标节点更新单元具体包括:
当前状态推理子单元,用于在推理当前步骤时,将各节点的初始状态与其在先推理结果融合,得到各节点的当前状态;
相似度计算子单元,用于计算所述目标节点的当前状态与相接于该目标节点的预设节点的当前状态的相似度;其中,所述预设节点是指车流流入所述目标节点的其他节点;
节点状态汇总子单元,用于根据所述目标节点与全部所述预设节点的相似度以及全部所述预设节点的当前状态,得到所述目标节点的汇总状态;
目标节点更新子单元,用于基于所述目标节点的汇总状态及其初始状态,更新所述目标节点的当前状态。
13.一种多路口信号灯控制设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于当执行所述计算机程序时,实现如权利要求1~6任一项所述的多路口信号灯控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846656.8A CN110444028A (zh) | 2019-09-06 | 2019-09-06 | 多路口信号灯控制方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846656.8A CN110444028A (zh) | 2019-09-06 | 2019-09-06 | 多路口信号灯控制方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110444028A true CN110444028A (zh) | 2019-11-12 |
Family
ID=68439618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910846656.8A Pending CN110444028A (zh) | 2019-09-06 | 2019-09-06 | 多路口信号灯控制方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444028A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260937A (zh) * | 2020-02-24 | 2020-06-09 | 武汉大学深圳研究院 | 一种基于强化学习的十字路***通信号灯控制方法 |
CN112289045A (zh) * | 2020-10-19 | 2021-01-29 | 智邮开源通信研究院(北京)有限公司 | 交通信号控制方法、装置、电子设备及可读存储介质 |
CN112419762A (zh) * | 2020-08-12 | 2021-02-26 | 华东师范大学 | 基于物联网平台的强化学习智能交通信号灯控制方法及*** |
CN112863206A (zh) * | 2021-01-07 | 2021-05-28 | 北京大学 | 一种基于强化学习的交通信号灯控制方法与*** |
CN113409598A (zh) * | 2021-06-08 | 2021-09-17 | 智道网联科技(北京)有限公司 | 区域道路交通信号灯协同联动自适应配时方法及装置 |
CN114399909A (zh) * | 2021-12-31 | 2022-04-26 | 深圳云天励飞技术股份有限公司 | 交通信号灯控制方法及相关设备 |
CN114495506A (zh) * | 2022-02-23 | 2022-05-13 | 复旦大学 | 基于车流预测和强化学习的多路口信号灯控制***及方法 |
US11594126B2 (en) | 2020-08-28 | 2023-02-28 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and methods for a traffic flow monitoring and graph completion system |
CN117636253A (zh) * | 2023-11-30 | 2024-03-01 | 江苏圣创半导体科技有限公司 | 一种智能灯故障识别方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180005072A1 (en) * | 2016-03-11 | 2018-01-04 | Irvine Sensors Corporation | Method and Processing Unit for Correlating Image Data Content from Disparate Sources |
CN109147355A (zh) * | 2018-09-17 | 2019-01-04 | 杭州中奥科技有限公司 | 多路口信号控制方案生成方法及装置 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、***和存储介质 |
CN109754597A (zh) * | 2018-08-02 | 2019-05-14 | 银江股份有限公司 | 一种城市道路区域拥堵调控策略推荐***及方法 |
-
2019
- 2019-09-06 CN CN201910846656.8A patent/CN110444028A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180005072A1 (en) * | 2016-03-11 | 2018-01-04 | Irvine Sensors Corporation | Method and Processing Unit for Correlating Image Data Content from Disparate Sources |
CN109754597A (zh) * | 2018-08-02 | 2019-05-14 | 银江股份有限公司 | 一种城市道路区域拥堵调控策略推荐***及方法 |
CN109147355A (zh) * | 2018-09-17 | 2019-01-04 | 杭州中奥科技有限公司 | 多路口信号控制方案生成方法及装置 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、***和存储介质 |
Non-Patent Citations (6)
Title |
---|
SHENGNAN GUO 等: "Attention Based Spatial-Temporal Graph Convolutional Networks", 《THE THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-19)》 * |
YUXUAN LIANG 等: "GeoMAN: Multi-level Attention Networks for Geo-sensory Time Series Prediction", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-18)》 * |
冉祥栋: "基于深度学习的交通时间预测模型与方法研宄", 《中国博士学位论文全文数据库》 * |
李志帅 等: "基于图卷积神经网络和注意力机制的短时交通流量预测", 《交通工程》 * |
裔隽 等: "《Python机器学习实战》", 27 February 2018 * |
马广露: "基于时空特性的城市交通协同控制研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260937A (zh) * | 2020-02-24 | 2020-06-09 | 武汉大学深圳研究院 | 一种基于强化学习的十字路***通信号灯控制方法 |
CN111260937B (zh) * | 2020-02-24 | 2021-09-14 | 武汉大学深圳研究院 | 一种基于强化学习的十字路***通信号灯控制方法 |
CN112419762A (zh) * | 2020-08-12 | 2021-02-26 | 华东师范大学 | 基于物联网平台的强化学习智能交通信号灯控制方法及*** |
US11594126B2 (en) | 2020-08-28 | 2023-02-28 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and methods for a traffic flow monitoring and graph completion system |
CN112289045A (zh) * | 2020-10-19 | 2021-01-29 | 智邮开源通信研究院(北京)有限公司 | 交通信号控制方法、装置、电子设备及可读存储介质 |
CN112289045B (zh) * | 2020-10-19 | 2021-12-21 | 智邮开源通信研究院(北京)有限公司 | 交通信号控制方法、装置、电子设备及可读存储介质 |
CN112863206A (zh) * | 2021-01-07 | 2021-05-28 | 北京大学 | 一种基于强化学习的交通信号灯控制方法与*** |
CN113409598A (zh) * | 2021-06-08 | 2021-09-17 | 智道网联科技(北京)有限公司 | 区域道路交通信号灯协同联动自适应配时方法及装置 |
CN114399909A (zh) * | 2021-12-31 | 2022-04-26 | 深圳云天励飞技术股份有限公司 | 交通信号灯控制方法及相关设备 |
CN114495506A (zh) * | 2022-02-23 | 2022-05-13 | 复旦大学 | 基于车流预测和强化学习的多路口信号灯控制***及方法 |
CN114495506B (zh) * | 2022-02-23 | 2023-07-28 | 复旦大学 | 基于车流预测和强化学习的多路口信号灯控制***及方法 |
CN117636253A (zh) * | 2023-11-30 | 2024-03-01 | 江苏圣创半导体科技有限公司 | 一种智能灯故障识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444028A (zh) | 多路口信号灯控制方法、装置及设备 | |
CN111785045B (zh) | 基于演员-评论家算法的分布式交通信号灯联合控制方法 | |
CN107169591A (zh) | 基于线性时序逻辑的移动端快递派送路径规划方法 | |
CN106017496A (zh) | 一种基于路况的实时导航方法 | |
Jaleel et al. | Reducing congestion in an intelligent traffic system with collaborative and adaptive signaling on the edge | |
Tan et al. | Multi-agent bootstrapped deep q-network for large-scale traffic signal control | |
Ye et al. | Fedlight: Federated reinforcement learning for autonomous multi-intersection traffic signal control | |
Chen et al. | An adaptive control method for arterial signal coordination based on deep reinforcement learning | |
Zhang et al. | Distributed signal control of arterial corridors using multi-agent deep reinforcement learning | |
Nakamura et al. | Constructing execution and life-cycle models for smart city services with self-aware IoT | |
Zhao et al. | Learning transformer-based cooperation for networked traffic signal control | |
Jiang et al. | A general scenario-agnostic reinforcement learning for traffic signal control | |
CN115617034B (zh) | 多智能体的环境探索方法、装置、电子设备及存储介质 | |
Ding et al. | Learning to help emergency vehicles arrive faster: A cooperative vehicle-road scheduling approach | |
CN115331460B (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
Swapno et al. | An adaptive traffic signal management system incorporating reinforcement learning | |
CN115719547A (zh) | 基于多重交互行为的交通参与者轨迹预测方法及*** | |
Ma et al. | Meta-deep Q-learning for eco-routing | |
Yu et al. | Real-time holding control for transfer synchronization via robust multiagent reinforcement learning | |
Shijie et al. | A novel multi-agent deep RL approach for traffic signal control | |
Duwaer | On deep reinforcement learning for data-driven traffic control | |
Zhang et al. | Build simulation platform in real logistics scenario and optimization based on reinforcement learning | |
Kamesh et al. | An efficient architectural model for building cognitive expert system related to traffic management in smart cities | |
Razack et al. | A Deep reinforcement learning approach to traffic signal control | |
Wang et al. | Xrouting: Explainable vehicle rerouting for urban road congestion avoidance using deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |