CN115631638B - 管控区域基于多智能体强化学习的交通灯控制方法及*** - Google Patents
管控区域基于多智能体强化学习的交通灯控制方法及*** Download PDFInfo
- Publication number
- CN115631638B CN115631638B CN202211561155.3A CN202211561155A CN115631638B CN 115631638 B CN115631638 B CN 115631638B CN 202211561155 A CN202211561155 A CN 202211561155A CN 115631638 B CN115631638 B CN 115631638B
- Authority
- CN
- China
- Prior art keywords
- agent
- module
- option
- network
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种管控区域基于多智能体强化学习的交通灯控制方法及***,构建了多智能体注意力双重演员评论家强化学习网络,该网络将多个路口的交通灯控制问题建模为一个半马尔科夫博弈,其中每个路口都被视为一个智能体,可以为动态交通环境中的每个路口生成自适应动作。本发明不仅可以协调交叉口周围的交通流量,还可以处理管控区域的长序列决策问题,以给予救护车等特殊车辆更高的优先权,确保特殊车辆快速通过交叉口。本发明将选项框架与图注意网络相结合的多智能体强化学习框架,选项框架使智能体能够学习结果输出更优,图注意网络可以捕获智能体之间的图结构相互影响。
Description
技术领域
本发明涉及智能交通技术领域,具体地指一种管控区域基于多智能体强化学习的交通灯控制方法及***。
技术背景
管控区域下的交通管控为智能交通管控提出了新的要求,智能交通信号灯控制***作为智能交通***的重要组成部分,负责动态协调交叉口周围的交通运动,这对于支持上述活动至关重要。
在管控区域下,交叉口应该能够处理长序列决策问题,以给予特殊车辆更高的通过优先权。而现存的工作大多数都忽略了复杂的交通组成,仅关注单智能体设置,无法有效处理多个交叉口同时管理交通流的多智能体环境中的长序列决策问题。因此,不能简单地将现有的框架的最佳实践应用于管控区复杂场景下的智能交通灯控制***。
发明内容
为了解决上述技术问题,本发明提供了一个管控区域下基于多智能体强化学习的交通灯控制方法及***。
为实现上述目的,本发明所设计的一种管控区域基于多智能体强化学习的交通灯控制方法,其特殊之处在于,所述方法包括如下步骤:
S1构建多智能体注意力双重演员评论家强化学习网络并完成训练;
S2采用多智能体注意力双重演员评论家强化学习网络,输出每个智能体i应采取的动作ai,为下一个时间段tp选择合理的交通灯相位,进行管控区域下的交通灯控制;
其中,步骤S1中将多个路***通灯的决策过程制定为一个半马尔可夫博弈,并定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励:
所述智能体:将每个道路交叉口作为一个智能体,用i∈I表示,其中I={i|i=1,2,3,…,N},N为大于3的自然数;
所述观测状态:在每个时间点t,每个所述智能体i∈I都会收到一个局部观测oi,所述局部观测oi由智能体i的当前相位和交叉口周围的交通状况组成,所有可能的观测值构成观测空间O;
所述选项:在每个时间点t,每个所述智能体i选择一个选项ωi,t,所述选项ωi,t是一个(Iω,πω,βω)的三元组,其中Iω是初始集,πω是低层模块中的策略,βω是终止函数,如果βω=1,则终止当前选项,所述智能体i的选项空间表示为Ωi;
所述动作:在每个时间点t,每个所述智能体i采取一个动作ai,为下一个tp时间段选择相位,所述智能体i的动作空间表示为Ai;
所述高层模块中的策略:在每个时间点t,给定先前的选项ωi,t-1和观测oi,t,所述智能体i的高层模块中的策略πH i,t指定一个概率πH i,t(ωi,t|ωi,t-1,oi,t),由此获得当前时间点t的选项ωi,t∈Ωi;
所述低层模块中的策略:给定观测oi,t和选项ωi,t,所述智能体i的低层模块中的策略πL i,t指定一个概率πL i,t t(ai,t|oi,t,ωi,t),由此获得当前时间点t的动作ai,t∈Ai;
所述转移概率:在高层模块中,给定状态st、前一个联合选项ωt-1=(ω1,t-1,ω2,t-1,ω3,t-1,…,ωN,t-1)和当前联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t),在高层模块中转移概率记为pH(ωt,st+1|ωt-1,st,ωt);在低层模块中,给定状态st,联合选项ωt=(ω1,t,ω2,t,ω3,t,,…,ωN,t)和联合动作at=(a1,t,a2,t,a3,t,…,aN,t),低层模块中的转移概率表示为pL(st+1,ωt+1|st,ωt,at),其中st+1是下一个状态并且ωt+1=(ω1,t+1,ω2,t+1,ω3,t+1,…,ωN,t+1)是下一个联合选项;
所述奖励:为了让普通车辆和特殊车辆能够快速通过不同优先级的路口,在每个时间点t,将每个所述智能体i的奖励定义为ri,t=η∑vλv.(wi,v,t-1-wi,v,t),其中wi,v,t表示在时间点t,车辆v在智能体i的累积等待时间,λv表示车辆v的重要性权重,η是常数。
优选地,步骤S1)中,所述多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构,其中Actor网络包括多层感知器MLP、一个高层模块和一个低层模块,Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet。
优选地,所述多智能体注意力双重演员评论家强化学习网络中,在每个时间点t,智能体i的观测oi,t被输入至多层感知器MLP以获得观测表示xi,t;在高层模块中,多层感知器MLP将观测表示xi,t作为输入,并将输出传递给Softmax层,该层输出智能体i的选项空间上的概率分布pH i,t;同时,观测表示xi,t通过多层感知器MLP和ReLU激活函数得到终止条件βωi,t;由概率分布pH i,t和终止条件βωi,t-1共同确定高层模块中的策略πH i,t;之后,所述高层模块根据高层模块中的策略对选项ωi,t进行采样;在低层模块中,多层感知器MLP将观测表示xi,t作为输入,以在所有选项中生成智能体动作空间的概率分布;然后,给定来自高层模块的选项ωi,t,选择一个概率分布作为智能体最终的低层模块中的策略πL i,t;之后,智能体i从低层模块中的策略πL i,t中采样一个动作ai,t。
优选地,步骤S1)中采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络,具体包括以下子步骤:
S1.1:初始化每个所述智能体i的参数Φi、θi和以及为每个卷积层初始化每个注意力头l的编码矩阵Wl Q、Wl K和Wl V;其中Φi表示Critic网络的参数,θi表示低层模块的Actor网络的学习参数,表示高层模块的Actor网络的学习参数,编码矩阵Wl Q、Wl K和Wl V是注意力模块中的编码矩阵;
S1.2:设置训练回合次数为1,2,3,...,K,K为大于3的自然数;
S1.3:设置时间步长1,2,3,...,T,T为大于3的自然数;
S1.4:在每个时间点t,所述智能体i从低层模块中的策略πL i,t采取动作ai,t,与环境交互并获得奖励ri,t;所述智能体i将所有GAT层输出的特征向量连接起来输入到状态价值网络VNet获得低层模块的状态值vL i,t;
S1.5:在每个时间点t,将元组bt=(ai,t,ωi,t,πL i,t,πH i,t,ri,t,vL i,t)存储到经验回放池B中;其中,ai,t,ωi,t,πL i,t,πH i,t,ri,t,vL i,t分别表示动作、选项、低层模块中的策略、高层模块中的策略、奖励以及低层模块的状态值;
S1.6:回转执行步骤S1.4,直到训练步长为T;
S1.8:回转执行步骤S1.3,直到训练次数为K;
S1.9:保存所述Actor网络和Critic网络。
优选地,步骤S1.1中,所述GAT模块中的GAT层通过编码矩阵Wl Q、Wl K和Wl V将每个注意力模块的输入特征向量fi投影到查询、键和值的表示中,然后,为每个注意力头l计算Softmax函数:
其中是比例因子,dk是键表示的维度,Ni表示智能体i的感受野内的所有智能体;用al i,j对彼此的特征向量进行加权,并将所有加权特征向量相加作为注意力头l的输出;最后,将所有L个注意力头的输出连接起来并输入到非线性ReLU激活函数中,以导出智能体i的特征向量fi’:
优选地,在步骤S1.7的参数更新过程中,首先保持高层模块中的策略πH i和终止条件βωi固定,然后优化低层模块中的策略πL i;
在低层模块中,智能体i的以最小化损失训练低层模块的状态值函数:
其中γ是折扣因子;
所述低层模块中保守策略迭代的目标函数为:
其中πL,old i,t是智能体i的低层模块中的旧策略,AL i,t=ri,t+γVL i,t+1-VL i,t是低层模块中的优势函数,μL i,t是低层模块中的策略概率比,以最小化以下等式中给出的裁剪目标函数LCLIP更新智能体i的低层模块中的策略:
然后,保持低层模块中的策略πL i固定,隐式优化高层模块中的策略πH i和终止条件βωi,在高层模块中,智能体i在最小化以下等式中给出的损失函数:
其中,vH i,t是高层模块中的状态值,计算方式为vH i,t=ΣπH i,tVL i,t,保守策略迭代的目标函数在高层模块中用以下公式表示:
其中,πH,old i,t是智能体i的高层模块中的旧策略,AH i,t=ri,t+VH i,t+1-VH i,t是高层模块中的优势函数,μH i,t是高层模块中的策略概率比,此后,通过最小化以下等式中给出的裁剪目标函数来训练智能体i的Actor网络:
其中ε是裁剪比例。
优选地,步骤S1)中完成网络训练的评价指标包括加权等待时间、特殊车辆等待时间和等待时间;所述加权等待时间表示所有车辆的平均加权等待时间,这是一个与奖励函数直接相关的指标;所述特殊车辆等待时间表示特殊车辆的平均等待时间;所述等待时间表示所有车辆的平均等待时间。
本发明还提出一种管控区域基于多智能体强化学习的交通灯控制***,其特殊之处在于,包括多智能体注意力双重演员评论家强化学习网络和控制输出模块;
所述多智能体注意力双重演员评论家强化学习网络,定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励:
所述智能体:将每个道路交叉口作为一个智能体,用i∈I表示,其中I={i|i=1,2,3,…,N},N为大于3的自然数;
所述观测状态:在每个时间点t,每个所述智能体i∈I都会收到一个局部观测oi,所述局部观测oi由智能体i的当前相位和交叉口周围的交通状况组成,所有可能的观测值构成观测空间O;
所述选项:在每个时间点t,每个所述智能体i选择一个选项ωi,t,所述选项ωi,t是一个(Iω,πω,βω)的三元组,其中Iω是初始集,πω是低层模块中的策略,βω是终止函数,如果βω=1,则终止当前选项,所述智能体i的选项空间表示为Ωi;
所述动作:在每个时间点t,每个所述智能体i采取一个动作ai,为下一个tp时间段选择相位,所述智能体i的动作空间表示为Ai;
所述高层模块中的策略:在每个时间点t,给定先前的选项ωi,t-1和观测oi,t,所述智能体i的高层模块中的策略πH i,t指定一个概率πH i,t(ωi,t|ωi,t-1,oi,t),由此获得当前时间点t的选项ωi,t∈Ωi;
所述低层模块中的策略:给定观测oi,t和选项ωi,t,所述智能体i的低层模块中的策略πL i,t指定一个概率πL i,t t(ai,t|oi,t,ωi,t),由此获得当前时间点t的动作ai,t∈Ai;
所述转移概率:在高层模块中,给定状态st、前一个联合选项ωt-1=(ω1,t-1,ω2,t-1,ω3,t-1,…,ωN,t-1)和当前联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t),在高层模块中转移概率记为pH(ωt,st+1|ωt-1,st,ωt);在低层模块中,给定状态st,联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t)和联合动作at=(a1,t,a2,t,a3,t,…,aN,t),低层模块中的转移概率表示为pL(st+1,ωt+1|st,ωt,at),其中st+1是下一个状态并且ωt+1=(ω1,t+1,ω2,t+1,ω3,t+1,…,ωN,t+1)是下一个联合选项;
所述奖励:为了让普通车辆和特殊车辆能够快速通过不同优先级的路口,在每个时间点t,将每个所述智能体i的奖励定义为ri,t=η∑vλv.(wi,v,t-1-wi,v,t),其中wi,v,t表示在时间点t,车辆v在智能体i的累积等待时间,λv表示车辆v的重要性权重,η是常数;
所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络,向管控区域下的交通灯作为智能体i发出基于动作ai的控制指令。
进一步地,所述多智能体注意力双重演员评论家强化学习网络的框架结构包括Actor网络和Critic网络,所述Actor网络包括多层感知器MLP、一个高层模块和一个低层模块;所述多层感知器MLP用于获得观测表示xi,t;所述高层模块用于由概率分布pH i,t和终止条件βωi,t-1确定高层模块中的策略πH i,t,根据高层模块中的策略对选项ωi,t进行采样;所述低层模块用于在所有选项中生成智能体动作空间的概率分布,根据高层模块的选项ωi,t,选择一个概率分布作为智能体最终的低层模块中的策略πL i,t,根据低层模块中的策略πL i,t采样一个动作ai,t;
所述Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet;所述多层感知器MLP用于获得观测表示zi,t;所述GAT模块用于为不同的智能体分配不同的权重,所述状态价值网络VNet用于获得低层模块的状态值VL i,t。
本发明另外提出一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述一种管控区域基于多智能体强化学习的交通灯控制方法及***。
本发明与现有技术相比具有如下优点和有益效果:
(1)与其他基于强化学习的交通信号灯控制方法不同的是,本发明考虑的是管控区域下具有复杂车辆组成的多个路***通灯控制问题,没有手动设计控制方案,而是提出了一种新的多智能体注意力双重演员评论家强化学习(MAADAC)网络,它使路口能够有效地适应动态交通流,并促进特殊车辆快速通过多个交叉口。
(2)其他方法大多数都忽略了复杂的交通组成,并且仅关注单智能体设置,因此无法有效处理多个交叉口同时管理交通流的多智能体环境中的长序列决策问题。本发明提出的MAADAC网络将选项框架与图注意力网络相结合的网络,它可以使路口在相位上做出一系列令人满意的选择,还可以捕获路口之间的图结构相互影响。
(3)本发明所提出的交通灯控制框架不一定与特定的交叉口形状和车道数相关,因此,本发明提出的这个框架可以应用于各种交叉口。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施的MAADAC网络结构示意图;
图3为本发明实施的四路交叉口场景示例。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细描述。
如图1所示,本发明提出的管控区域基于多智能体强化学习的交通灯控制方法,包括如下步骤:
S1构建多智能体注意力双重演员评论家强化学习网络并完成训练;
S2采用多智能体注意力双重演员评论家强化学习网络,输出每个智能体i应采取的动作ai,为下一个时间段tp选择合理的交通灯相位,进行管控区域下的交通灯控制。
步骤S1中将多个路***通灯的决策过程制定为一个半马尔可夫博弈,并定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励:
其中,智能体:将每个道路交叉口作为一个智能体,用i∈I表示,其中I={i|i=1,2,3…,N},N为大于3的自然数;
观测状态:在每个时间点t,每个所述智能体i∈I都会收到一个局部观测oi,所述局部观测oi由智能体i的当前相位和交叉口周围的交通状况组成,所有可能的观测值构成观测空间O;
选项:在每个时间点t,每个所述智能体i选择一个选项ωi,t,所述选项ωi,t是一个(Iω,πω,βω)的三元组,其中Iω是初始集,πω是低层模块中的策略,βω是终止函数,如果βω=1,则终止当前选项,所述智能体i的选项空间表示为Ωi;
动作:在每个时间点t,每个所述智能体i采取一个动作ai,为下一个tp时间段选择相位,所述智能体i的动作空间表示为Ai;
高层模块中的策略:在每个时间点t,给定先前的选项ωi,t-1和观测oi,t,所述智能体i的高层模块中的策略πH i,t指定一个概率πH i,t(ωi,t|ωi,t-1,oi,t),由此获得当前时间点t的选项ωi,t∈Ωi;
低层模块中的策略:给定观测oi,t和选项ωi,t,所述智能体i的低层模块中的策略πL i,t指定一个概率πL i,t t(ai,t|oi,t,ωi,t),由此获得当前时间点t的动作ai,t∈Ai;
转移概率:在高层模块中,给定状态st、前一个联合选项ωt-1=(ω1,t-1,ω2,t-1,ω3,t-1,…,ωN,t-1)和当前联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t),在高层模块中转移概率记为pH(ωt,st+1|ωt-1,st,ωt);在低层模块中,给定状态st,联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t)和联合动作at=(a1,t,a2,t,a3,t,…,aN,t),低层模块中的转移概率表示为pL(st+1,ωt+1|st,ωt,at),其中st+1是下一个状态并且ωt+1=(ω1,t+1,ω2,t+1,ω3,t+1,…,ωN,t+1)是下一个联合选项;
奖励:为了让普通车辆和特殊车辆能够快速通过不同优先级的路口,在每个时间点t,将每个所述智能体i的奖励定义为ri,t=η∑vλv.(wi,v,t-1-wi,v,t),其中wi,v,t表示在时间点t,车辆v在智能体i的累积等待时间,λv表示车辆v的重要性权重,η是常数。
本实施例的多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构,Actor网络涉及一个高层模块和一个低层模块,具体模型如图2所示。
多智能体注意双重演员评论家(MAADAC)框架将选项框架与图注意网络(GAT)相结合。更具体地说,本发明将多个路***通灯控制问题建模为一个半马尔科夫博弈,其中每个路口都被视为一个智能体。MAADAC框架为动态交通环境中的每个路口生成自适应动作。从技术上讲,本方法采用时间抽象,即选项框架,使智能体能够学习做出一系列决策。本发明提出的MAADAC框架采用Actor-Critic架构,Actor网络涉及一个高层模块和一个低层模块。高层模块侧重于选择选项,这些选项从本质上指导智能体的长序列决策。相比之下,低层模块侧重于学习切换到令人满意的相位。此外,一个路口的决策通过它们之间路段的交通流量影响相邻的路口。
为了将路口之间的相互影响纳入决策过程,本实施例将Critic与GAT模块集成在一起,该模块堆叠GAT层以增加智能体的感受野。更具体地说,本方法将多智能体环境构建为有向图,其中每个顶点代表一个路口,如果两个路口之间通过路段连接,则它们之间存在一条边。当多个路段连接路口时,它们之间的边缘会综合影响多个路段。GAT模块将来自智能体感受野内的路口的一组观察值作为其输入,并为智能体捕获图形结构的相互影响。
如图2所示,在每个时间点t,智能体i的观测oi,t被输入至多层感知器MLP以获得观测表示xi,t;在高层模块中,多层感知器MLP将观测表示xi,t作为输入,并将输出传递给Softmax层,该层输出智能体i的选项空间上的概率分布pH i,t;同时,观测表示xi,t通过多层感知器MLP和ReLU激活函数得到终止条件βωi,t;由概率分布pH i,t和终止条件βωi,t-1共同确定高层模块中的策略πH i,t;之后,所述高层模块根据高层模块中的策略对选项ωi,t进行采样;在低层模块中,多层感知器MLP将观测表示xi,t作为输入,以在所有选项中生成智能体动作空间的概率分布;然后,给定来自高层模块的选项ωi,t,选择一个概率分布作为智能体最终的低层模块中的策略πL i,t;之后,智能体i从低层模块中的策略πL i,t中采样一个动作ai,t。
如图2所示,在训练过程中,智能体i首先通过在Critic模块中使用MLP层提取其观察表示zi,t。为了整合智能体之间的相互影响,本实施例采用带有C个GAT层的GAT模块为不同的智能体分配不同的权重。更具体地说,首先根据有向图为每个智能体i构造一个邻接矩阵Mi,t。从技术上讲,这个邻接矩阵的第一行是智能体索引的one-hot表示,其他行是其相邻智能体索引的one-hot表示。每个GAT层都使用邻接矩阵来提取有关智能体及其邻居的信息。例如,在第C个GAT层中,智能体i使用邻接矩阵Mi,t从第C-1个GAT层输出的特征向量zc -1 i,t中提取智能体及其邻居的信息,并将提取的信息输入用于获得特征向量zc i,t的注意力模块,然后将其用作第C+1个GAT层的输入。例外的是,第一个GAT层将其自身和其他智能体在其感受野内的观察表示作为输入。最后,将观测表示和所有GAT层输出的特征向量连接起来,表示为(zi,t,z1 i,t,z2 i,t,…,zc i,t)。然后将这种连接输入状态价值网络VNet以获得低层模块的状态值vL i,t。当状态值函数作为Critic时,高层模块中的状态值函数可以由低层模块中的状态值函数表示,因此计算高层模块中的状态值vH i,t通过以下等式:
因此,在MAADAC框架中只需要一个Critic来生成高层和低层模块的状态值,这些状态值分别用于更新高层和低层模块中的策略。
本模块在GAT层采用了多头点积注意模块(multi-head dot-product attentionmodule)。在此本实施例使用符号fi来表示每个注意力模块的输入特征向量。具体来说,GAT模块中的每个GAT层都采用多头自注意力模型来推导智能体之间的影响权重。首先,本实施例通过编码矩阵Wl Q、Wl K和Wl V将输入fi投影到查询、键和值的表示中。然后,为每个注意力头l计算以下Softmax函数:
其中是比例因子,dk是键表示的维度,Ni表示智能体i的感受野内的所有智能体;用al i,j对彼此的特征向量进行加权,并将所有加权特征向量相加作为注意力头l的输出;最后,将所有L个注意力头的输出连接起来并输入到非线性ReLU激活函数中,以导出智能体i的特征向量fi’:
本实施例采用集中训练和分散执行的训练方式训练多智能体注意力双重演员评论家强化学习网络,每一次训练都会由训练环境生成数据并放入经验回放池B,然后从经验回放池B中联合采样。因此,在训练过程中为每个智能体训练了一个集中的Critic。从技术上讲,这种集中的Critic允许每个智能体在训练过程中使用其他智能体的额外信息。相反,在执行过程中,每个智能体的Actor只能访问其本地信息。
如图3所示,本发明实施例采用四路交叉口场景和相对位置矩阵表示作为示例。本实施例的训练环境,是一个长度为500m的3x3网格网络,每条道路由3条车道组成,右侧车道允许车辆右转,中间车道允许直行车辆,左侧车道允许车辆左转;在这个复杂的管控区域中,交通流由普通车辆和特殊车辆组成,其中特殊车辆从医院开始或结束,普通车辆和特殊车辆的长度分别设置为4m和6m,默认的平均车辆到达率设置为每秒6次;特殊车辆的默认比例设置为25%。
本实施例采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络,具体包括以下子步骤:
S1.1:初始化每个所述智能体I的参数Φi、θi和以及为每个卷积层初始化每个注意力头l的编码矩阵Wl Q、Wl K和Wl V;其中Φi表示Critic网络的参数,θi表示低层模块的Actor网络的学习参数,表示高层模块的Actor网络的学习参数,编码矩阵Wl Q、Wl K和Wl V是注意力模块中的编码矩阵;GAT模块中的GAT层通过编码矩阵Wl Q、Wl K和Wl V将每个注意力模块的输入特征向量fi投影到查询、键和值的表示中,然后,为每个注意力头l计算Softmax函数;
S1.2:设置训练回合次数为1,2,3,...,K,K为大于3的自然数;
S1.3:设置时间步长1,2,3,...,T,T为大于3的自然数;
S1.4:在每个时间点t,所述智能体i从低层模块中的策略πL i,t采取动作ai,t,与环境交互并获得奖励ri,t;所述智能体i将所有GAT层输出的特征向量连接起来输入到状态价值网络VNet获得低层模块的状态值vL i,t;
S1.5:在每个时间点t,将元组bt=(ai,t,ωi,t,πL i,t,πH i,t,ri,t,vL i,t)存储到经验回放池B中;其中,ai,t,ωi,t,πL i,t,πH i,t,ri,t,vL i,t分别表示动作、选项、低层模块中的策略、高层模块中的策略、奖励以及低层模块的状态值;
S1.6:回转执行步骤S1.4,直到训练步长为T;
在参数更新过程中,首先保持高层模块中的策略πH i和终止条件βωi固定,然后优化低层模块中的策略πL i;
在低层模块中,智能体i的以最小化损失训练低层模块的状态值函数:
其中γ是折扣因子;
所述低层模块中保守策略迭代的目标函数为:
其中πL,old i,t是智能体i的低层模块中的旧策略,AL i,t=ri,t+γVL i,t+1-VL i,t是低层模块中的优势函数,μL i,t是低层模块中的策略概率比,以最小化以下等式中给出的裁剪目标函数LCLIP更新智能体i的低层模块中的策略:
然后,保持低层模块中的策略πL i固定,隐式优化高层模块中的策略πH i和终止条件βωi,在高层模块中,智能体i在最小化以下等式中给出的损失函数:
其中,vH i,t是高层模块中的状态值,计算方式为vH i,t=ΣπH i,tVL i,t,保守策略迭代的目标函数在高层模块中用以下公式表示:
其中,πH,old i,t是智能体i的高层模块中的旧策略,AH i,t=ri,t+VH i,t+1-VH i,t是高层模块中的优势函数,μH i,t是高层模块中的策略概率比,此后,通过最小化以下等式中给出的裁剪目标函数来训练智能体i的Actor网络:
其中ε是裁剪比例。
S1.8:回转执行步骤S1.3,直到训练次数为K;
S1.9:保存所述Actor网络和Critic网络。
本实施例中,通过训练这些参数,每个智能体i能够更好地采取的动作ai(即为下一个tp时间段选择合理的相位),能使得每个交叉口为动态的交通环境生成自适应动作。
基于上述方法,本发明提出一种管控区域基于多智能体强化学习的交通灯控制***,包括多智能体注意力双重演员评论家强化学习网络和控制输出模块;多智能体注意力双重演员评论家强化学习网络,定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励:所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络,向管控区域下的交通灯作为智能体i发出基于动作ai的控制指令。
本发明提出的一种新的多智能体注意力双重演员评论家强化学习(MAADAC)网络,是第一个将选项框架与图形注意力网络(graph attention network,GAT)相结合的多智能体强化学习网络。该网络不仅可以协调交叉口周围的交通流量,还可以处理管控区域的长序列决策问题。在技术上,MAADAC网络将每个交叉口视为一个智能体,根据通信和交通状况为动态交通环境中的每个路口生成自适应动作。
MAADAC网络采用了Actor-Critic架构,其中Actor网络涉及一个高层模块和一个低层模块。高层模块侧重于选择选项,这些选项从本质上指导智能体的长序列决策。相比之下,低层模块侧重于学习切换到令人满意的相位。此外,一个路口的决策通过它们之间路段的交通流量影响相邻的路口。为了将路口之间的相互影响纳入决策过程,本发明将Critic与GAT模块集成在一起,该模块堆叠GAT层以增加智能体的感受野。
更具体地说,本发明将多智能体环境构建为有向图,其中每个顶点代表一个路口,如果两个路口之间通过路段连接,则它们之间存在一条边。当多个路段连接路口时,它们之间的边缘会综合影响多个路段。GAT模块将来自智能体感受野内的路口的一组观察值作为其输入,并为智能体捕获图形结构的相互影响。
通过这种方式,管控区域的交通灯控制问题可以得到更好地处理,不仅可以协调交叉口周围的交通流量,还可以处理管控区域的长序列决策问题,以给予特殊车辆更高的通过优先权,确保救护车等特殊车辆快速通过交叉口。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
最后需要说明的是,以上具体实施方式仅用以说明本专利技术方案而非限制,尽管参照较佳实施例对本专利进行了详细说明,本领域的普通技术人员应当理解,可以对本专利的技术方案进行修改或者等同替换,而不脱离本专利技术方案的精神和范围,其均应涵盖在本专利的权利要求范围当中。
Claims (7)
1.一种管控区域基于多智能体强化学习的交通灯控制方法,其特征在于:所述方法包括如下步骤:
S1构建多智能体注意力双重演员评论家强化学习网络并完成训练;所述多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构,其中Actor网络包括多层感知器MLP、一个高层模块和一个低层模块,Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet;
所述多智能体注意力双重演员评论家强化学习网络中,在每个时间点t,智能体i的观测oi,t被输入至多层感知器MLP以获得观测表示xi,t;在高层模块中,多层感知器MLP将观测表示xi,t作为输入,并将输出传递给Softmax层,该层输出智能体i的选项空间上的概率分布pH i,t;同时,观测表示xi,t通过多层感知器MLP和ReLU激活函数得到终止条件βωi,t;由概率分布pH i,t和终止条件βωi,t-1共同确定高层模块中的策略πH i,t;之后,所述高层模块根据高层模块中的策略对选项ωi,t进行采样;在低层模块中,多层感知器MLP将观测表示xi,t作为输入,以在所有选项中生成智能体动作空间的概率分布;然后,给定来自高层模块的选项ωi,t,选择一个概率分布作为智能体最终的低层模块中的策略πL i,t;之后,智能体i从低层模块中的策略πL i,t中采样一个动作ai,t;
S2采用多智能体注意力双重演员评论家强化学习网络,输出每个智能体i应采取的动作ai,为下一个时间段tp选择合理的交通灯相位,进行管控区域下的交通灯控制;
其中,步骤S1中将多个路***通灯的决策过程制定为一个半马尔可夫博弈,并定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励:
所述智能体:将每个道路交叉口作为一个智能体,用i∈I表示,其中I={i|i=1,2,3,…,N},N为大于3的自然数;
所述观测状态:在每个时间点t,每个所述智能体i∈I都会收到一个局部观测oi,所述局部观测oi由智能体i的当前相位和交叉口周围的交通状况组成,所有可能的观测值构成观测空间O;
所述选项:在每个时间点t,每个所述智能体i选择一个选项ωi,t,所述选项ωi,t是一个(Iω,πω,βω)的三元组,其中Iω是初始集,πω是低层模块中的策略,βω是终止函数,如果βω=1,则终止当前选项,所述智能体i的选项空间表示为Ωi;
所述动作:在每个时间点t,每个所述智能体i采取一个动作ai,为下一个tp时间段选择相位,所述智能体i的动作空间表示为Ai;
所述高层模块中的策略:在每个时间点t,给定先前的选项ωi,t-1和观测oi,t,所述智能体i的高层模块中的策略πH i,t指定一个概率πH i,t(ωi,t|ωi,t-1,oi,t),由此获得当前时间点t的选项ωi,t∈Ωi;
所述低层模块中的策略:给定观测oi,t和选项ωi,t,所述智能体i的低层模块中的策略πL i,t指定一个概率πL i,t t(ai,t|oi,t,ωi,t),由此获得当前时间点t的动作ai,t∈Ai;
所述转移概率:在高层模块中,给定状态st、前一个联合选项ωt-1=(ω1,t-1,ω2,t-1,ω3,t-1,…,ωN,t-1)和当前联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t),在高层模块中转移概率记为pH(ωt,st+1|ωt-1,st,ωt);在低层模块中,给定状态st,联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t)和联合动作at=(a1,t,a2,t,a3,t,…,aN,t),低层模块中的转移概率表示为pL(st+1,ωt+1|st,ωt,at),其中st+1是下一个状态并且ωt+1=(ω1,t+1,ω2,t+1,ω3,t+1,…,ωN,t+1)是下一个联合选项;
所述奖励:为了让普通车辆和特殊车辆能够快速通过不同优先级的路口,在每个时间点t,将每个所述智能体i的奖励定义为ri,t=η∑vλv.(wi,v,t-1-wi,v,t),其中wi,v,t表示在时间点t,车辆v在智能体i的累积等待时间,λv表示车辆v的重要性权重,η是常数。
2.根据权利要求1所述的一种管控区域基于多智能体强化学习的交通灯控制方法,其特征在于:步骤S1中采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络,具体包括以下子步骤:
S1.1:初始化每个所述智能体i的参数Φi、θi和以及为每个卷积层初始化每个注意力头l的编码矩阵Wl Q、Wl K和Wl V;其中Φi表示Critic网络的参数,θi表示低层模块的Actor网络的学习参数,表示高层模块的Actor网络的学习参数,编码矩阵Wl Q、Wl K和Wl V是注意力模块中的编码矩阵;
S1.2:设置训练回合次数为1,2,3,...,K,K为大于3的自然数;
S1.3:设置时间步长1,2,3,...,T,T为大于3的自然数;
S1.4:在每个时间点t,所述智能体i从低层模块中的策略πL i,t采取动作ai,t,与环境交互并获得奖励ri,t;所述智能体i将所有GAT层输出的特征向量连接起来输入到状态价值网络VNet获得低层模块的状态值vL i,t;
S1.5:在每个时间点t,将元组bt=(ai,t,ωi,t,πL i,t,πH i,t,ri,t,vL i,t)存储到经验回放池B中;其中,ai,t,ωi,t,πL i,t,πH i,t,ri,t,vL i,t分别表示动作、选项、低层模块中的策略、高层模块中的策略、奖励以及低层模块的状态值;
S1.6:回转执行步骤S1.4,直到训练步长为T;
S1.8:回转执行步骤S1.3,直到训练次数为K;
S1.9:保存所述Actor网络和Critic网络。
4.根据权利要求3所述的一种管控区域基于多智能体强化学习的交通灯控制方法,其特征在于:在步骤S1.7的参数更新过程中,首先保持高层模块中的策略πH i和终止条件βωi固定,然后优化低层模块中的策略πL i;
在低层模块中,智能体i的以最小化损失训练低层模块的状态值函数:
其中γ是折扣因子;
所述低层模块中保守策略迭代的目标函数为:
其中πL,old i,t是智能体i的低层模块中的旧策略,AL i,t=ri,t+γVL i,t+1-VL i,t是低层模块中的优势函数,μL i,t是低层模块中的策略概率比,以最小化以下等式中给出的裁剪目标函数LCLIP更新智能体i的低层模块中的策略:
然后,保持低层模块中的策略πL i固定,隐式优化高层模块中的策略πH i和终止条件βωi,在高层模块中,智能体i在最小化以下等式中给出的损失函数:
其中,vH i,t是高层模块中的状态值,计算方式为vH i,t=ΣπH i,tVL i,t,保守策略迭代的目标函数在高层模块中用以下公式表示:
其中,πH,old i,t是智能体i的高层模块中的旧策略,AH i,t=ri,t+VH i,t+1-VH i,t是高层模块中的优势函数,μH i,t是高层模块中的策略概率比,此后,通过最小化以下等式中给出的裁剪目标函数来训练智能体i的Actor网络:
其中ε是裁剪比例。
5.根据权利要求1所述的一种管控区域基于多智能体强化学***均加权等待时间,这是一个与奖励函数直接相关的指标;所述特殊车辆等待时间表示特殊车辆的平均等待时间;所述等待时间表示所有车辆的平均等待时间。
6.一种管控区域基于多智能体强化学习的交通灯控制***,其特征在于:包括多智能体注意力双重演员评论家强化学习网络和控制输出模块;
所述多智能体注意力双重演员评论家强化学习网络,定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励:
所述智能体:将每个道路交叉口作为一个智能体,用i∈I表示,其中I={i|i=1,2,3,…,N},N为大于3的自然数;
所述观测状态:在每个时间点t,每个所述智能体i∈I都会收到一个局部观测oi,所述局部观测oi由智能体i的当前相位和交叉口周围的交通状况组成,所有可能的观测值构成观测空间O;
所述选项:在每个时间点t,每个所述智能体i选择一个选项ωi,t,所述选项ωi,t是一个(Iω,πω,βω)的三元组,其中Iω是初始集,πω是低层模块中的策略,βω是终止函数,如果βω=1,则终止当前选项,所述智能体i的选项空间表示为Ωi;
所述动作:在每个时间点t,每个所述智能体i采取一个动作ai,为下一个tp时间段选择相位,所述智能体i的动作空间表示为Ai;
所述高层模块中的策略:在每个时间点t,给定先前的选项ωi,t-1和观测oi,t,所述智能体i的高层模块中的策略πH i,t指定一个概率πH i,t(ωi,t|ωi,t-1,oi,t),由此获得当前时间点t的选项ωi,t∈Ωi;
所述低层模块中的策略:给定观测oi,t和选项ωi,t,所述智能体i的低层模块中的策略πL i,t指定一个概率πL i,t t(ai,t|oi,t,ωi,t),由此获得当前时间点t的动作ai,t∈Ai;
所述转移概率:在高层模块中,给定状态st、前一个联合选项ωt-1=(ω1,t-1,ω2,t-1,ω3,t-1,…,ωN,t-1)和当前联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t),在高层模块中转移概率记为pH(ωt,st+1|ωt-1,st,ωt);在低层模块中,给定状态st,联合选项ωt=(ω1,t,ω2,t,ω3,t,…,ωN,t)和联合动作at=(a1,t,a2,t,a3,t,…,aN,t),低层模块中的转移概率表示为pL(st+1,ωt+1|st,ωt,at),其中st+1是下一个状态并且ωt+1=(ω1,t+1,ω2,t+1,ω3,t+1,…,ωN,t+1)是下一个联合选项;
所述奖励:为了让普通车辆和特殊车辆能够快速通过不同优先级的路口,在每个时间点t,将每个所述智能体i的奖励定义为ri,t=η∑vλv.(wi,v,t-1-wi,v,t),其中wi,v,t表示在时间点t,车辆v在智能体i的累积等待时间,λv表示车辆v的重要性权重,η是常数;
所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络,向管控区域下的交通灯作为智能体i发出基于动作ai的控制指令;所述多智能体注意力双重演员评论家强化学习网络的框架结构包括Actor网络和Critic网络,所述Actor网络包括多层感知器MLP、一个高层模块和一个低层模块;所述多层感知器MLP用于获得观测表示xi,t;所述高层模块用于由概率分布pH i,t和终止条件βωi,t-1确定高层模块中的策略πH i,t,根据高层模块中的策略对选项ωi,t进行采样;所述低层模块用于在所有选项中生成智能体动作空间的概率分布,根据高层模块的选项ωi,t,选择一个概率分布作为智能体最终的低层模块中的策略πL i,t,根据低层模块中的策略πL i,t中采样一个动作ai,t;
所述Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet;所述多层感知器MLP用于获得观测表示zi,t;所述GAT模块用于为不同的智能体分配不同的权重,所述状态价值网络VNet用于获得低层模块的状态值VL i,t。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211561155.3A CN115631638B (zh) | 2022-12-07 | 2022-12-07 | 管控区域基于多智能体强化学习的交通灯控制方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211561155.3A CN115631638B (zh) | 2022-12-07 | 2022-12-07 | 管控区域基于多智能体强化学习的交通灯控制方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631638A CN115631638A (zh) | 2023-01-20 |
CN115631638B true CN115631638B (zh) | 2023-03-21 |
Family
ID=84909888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211561155.3A Active CN115631638B (zh) | 2022-12-07 | 2022-12-07 | 管控区域基于多智能体强化学习的交通灯控制方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631638B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524745B (zh) * | 2023-05-10 | 2024-01-23 | 重庆邮电大学 | 一种云边协同区域交通信号动态配时***及方法 |
CN118034492A (zh) * | 2023-12-29 | 2024-05-14 | 辉塔信息技术咨询(上海)有限公司 | 一种数字化多模态人机交互座舱模拟控制*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0916204D0 (en) * | 2009-09-16 | 2009-10-28 | Road Safety Man Ltd | Traffic signal control system and method |
CN102110371B (zh) * | 2011-03-04 | 2012-09-05 | 哈尔滨工业大学 | 一种基于分级多智能体架构的交通信号控制*** |
US9818297B2 (en) * | 2011-12-16 | 2017-11-14 | Pragmatek Transport Innovations, Inc. | Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control |
CN103208195A (zh) * | 2013-04-08 | 2013-07-17 | 沈阳广信先锋交通高技术有限公司 | 多智能体交通信号控制*** |
CN112216124B (zh) * | 2020-09-17 | 2021-07-27 | 浙江工业大学 | 一种基于深度强化学习的交通信号控制方法 |
-
2022
- 2022-12-07 CN CN202211561155.3A patent/CN115631638B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115631638A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115631638B (zh) | 管控区域基于多智能体强化学习的交通灯控制方法及*** | |
Shu et al. | M $^ 3$ RL: Mind-aware Multi-agent Management Reinforcement Learning | |
CN106411749B (zh) | 一种基于q学习的用于软件定义网络的路径选择方法 | |
CN111582469A (zh) | 多智能体协作信息处理方法、***、存储介质、智能终端 | |
CN108776483A (zh) | 基于蚁群算法和多智能体q学习的agv路径规划方法和*** | |
CN110977967A (zh) | 一种基于深度强化学习的机器人路径规划方法 | |
Kumar et al. | Federated control with hierarchical multi-agent deep reinforcement learning | |
CN112863206B (zh) | 一种基于强化学习的交通信号灯控制方法与*** | |
CN111090899B (zh) | 一种用于城市建筑空间布局设计方法 | |
CN109726676A (zh) | 自动驾驶***的规划方法 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
Yang et al. | An efficient transfer learning framework for multiagent reinforcement learning | |
Zhu et al. | Learning by reusing previous advice in teacher-student paradigm | |
Kim et al. | Optimizing large-scale fleet management on a road network using multi-agent deep reinforcement learning with graph neural network | |
Ge et al. | Enhancing cooperation by cognition differences and consistent representation in multi-agent reinforcement learning | |
Zhang et al. | Stackelberg decision transformer for asynchronous action coordination in multi-agent systems | |
Ouaarab | Discrete Cuckoo search for combinatorial optimization | |
Bidar et al. | Nature-inspired techniques for dynamic constraint satisfaction problems | |
Guan et al. | Ab-mapper: Attention and bicnet based multi-agent path planning for dynamic environment | |
Nguyen et al. | A visual communication map for multi-agent deep reinforcement learning | |
CN114120672B (zh) | 基于多智能体强化学习的异构路口场景交通信号控制方法 | |
CN115512558A (zh) | 一种基于多智能体强化学习的交通灯信号控制方法 | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 | |
Van Moffaert | Multi-criteria reinforcement learning for sequential decision making problems | |
Morales | Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |