CN115631638B

CN115631638B - 管控区域基于多智能体强化学习的交通灯控制方法及***

Info

Publication number: CN115631638B
Application number: CN202211561155.3A
Authority: CN
Inventors: 刘冰艺; 彭唯; 韩玮祯; 陈葳旸; 熊盛武
Original assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Current assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-03-21
Anticipated expiration: 2042-12-07
Also published as: CN115631638A

Abstract

本发明公开了一种管控区域基于多智能体强化学习的交通灯控制方法及***，构建了多智能体注意力双重演员评论家强化学习网络，该网络将多个路口的交通灯控制问题建模为一个半马尔科夫博弈，其中每个路口都被视为一个智能体，可以为动态交通环境中的每个路口生成自适应动作。本发明不仅可以协调交叉口周围的交通流量，还可以处理管控区域的长序列决策问题，以给予救护车等特殊车辆更高的优先权，确保特殊车辆快速通过交叉口。本发明将选项框架与图注意网络相结合的多智能体强化学习框架，选项框架使智能体能够学习结果输出更优，图注意网络可以捕获智能体之间的图结构相互影响。

Description

管控区域基于多智能体强化学习的交通灯控制方法及***

技术领域

本发明涉及智能交通技术领域，具体地指一种管控区域基于多智能体强化学习的交通灯控制方法及***。

技术背景

管控区域下的交通管控为智能交通管控提出了新的要求，智能交通信号灯控制***作为智能交通***的重要组成部分，负责动态协调交叉口周围的交通运动，这对于支持上述活动至关重要。

在管控区域下，交叉口应该能够处理长序列决策问题，以给予特殊车辆更高的通过优先权。而现存的工作大多数都忽略了复杂的交通组成，仅关注单智能体设置，无法有效处理多个交叉口同时管理交通流的多智能体环境中的长序列决策问题。因此，不能简单地将现有的框架的最佳实践应用于管控区复杂场景下的智能交通灯控制***。

发明内容

为了解决上述技术问题，本发明提供了一个管控区域下基于多智能体强化学习的交通灯控制方法及***。

为实现上述目的，本发明所设计的一种管控区域基于多智能体强化学习的交通灯控制方法，其特殊之处在于，所述方法包括如下步骤：

S1构建多智能体注意力双重演员评论家强化学习网络并完成训练；

S2采用多智能体注意力双重演员评论家强化学习网络，输出每个智能体i应采取的动作a_i，为下一个时间段t_p选择合理的交通灯相位，进行管控区域下的交通灯控制；

其中，步骤S1中将多个路***通灯的决策过程制定为一个半马尔可夫博弈，并定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：

所述智能体：将每个道路交叉口作为一个智能体，用i∈I表示，其中I＝{i|i＝1,2,3,…,N}，N为大于3的自然数；

所述观测状态：在每个时间点t，每个所述智能体i∈I都会收到一个局部观测o_i，所述局部观测o_i由智能体i的当前相位和交叉口周围的交通状况组成，所有可能的观测值构成观测空间O；

所述选项：在每个时间点t，每个所述智能体i选择一个选项ω_i,t，所述选项ω_i,t是一个(I_ω,π_ω,β_ω)的三元组，其中I_ω是初始集，π_ω是低层模块中的策略，β_ω是终止函数，如果β_ω＝1，则终止当前选项，所述智能体i的选项空间表示为Ω_i；

所述动作：在每个时间点t，每个所述智能体i采取一个动作a_i，为下一个t_p时间段选择相位，所述智能体i的动作空间表示为A_i；

所述高层模块中的策略：在每个时间点t，给定先前的选项ω_i,t-1和观测o_i,t，所述智能体i的高层模块中的策略π^H _i,t指定一个概率π^H _i,t(ω_i,t|ω_i,t-1,o_i,t)，由此获得当前时间点t的选项ω_i,t∈Ω_i；

所述低层模块中的策略：给定观测o_i,t和选项ω_i,t，所述智能体i的低层模块中的策略π^L _i,t指定一个概率π^L _i,t _t(a_i,t|o_i,t,ω_i,t)，由此获得当前时间点t的动作a_i,t∈A_i；

所述转移概率：在高层模块中，给定状态s_t、前一个联合选项ω_t-1＝(ω_1,t-1,ω_2,t-1,ω_3,t-1,…,ω_N,t-1)和当前联合选项ω_t＝(ω_1,t,ω_2,t,ω₃,t,…,ω_N,t)，在高层模块中转移概率记为p^H(ω_t,s_t+1|ω_t-1,s_t,ω_t)；在低层模块中，给定状态s_t，联合选项ω_t＝(ω_1,t,ω_2,t,ω_3,t,,…,ω_N,t)和联合动作a_t＝(a_1,t,a_2,t,a_3,t,…,a_N,t)，低层模块中的转移概率表示为p^L(s_t+1,ω_t+1|s_t,ω_t,a_t)，其中s_t+1是下一个状态并且ω_t+1＝(ω_1,t+1,ω_2,t+1,ω_3,t+1,…,ω_N,t+1)是下一个联合选项；

所述奖励：为了让普通车辆和特殊车辆能够快速通过不同优先级的路口，在每个时间点t，将每个所述智能体i的奖励定义为r_i,t＝η∑_vλ_v.(w_i,v,t-1-w_i,v,t)，其中w_i,v,t表示在时间点t，车辆v在智能体i的累积等待时间，λ_v表示车辆v的重要性权重，η是常数。

优选地，步骤S1)中，所述多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构，其中Actor网络包括多层感知器MLP、一个高层模块和一个低层模块，Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet。

优选地，所述多智能体注意力双重演员评论家强化学习网络中，在每个时间点t，智能体i的观测o_i,t被输入至多层感知器MLP以获得观测表示x_i,t；在高层模块中，多层感知器MLP将观测表示x_i,t作为输入，并将输出传递给Softmax层，该层输出智能体i的选项空间上的概率分布p^H _i,t；同时，观测表示x_i,t通过多层感知器MLP和ReLU激活函数得到终止条件β_ωi,t；由概率分布p^H _i,t和终止条件β_ωi,t-1共同确定高层模块中的策略π^H _i,t；之后，所述高层模块根据高层模块中的策略对选项ω_i,t进行采样；在低层模块中，多层感知器MLP将观测表示x_i,t作为输入，以在所有选项中生成智能体动作空间的概率分布；然后，给定来自高层模块的选项ω_i,t，选择一个概率分布作为智能体最终的低层模块中的策略π^L _i,t；之后，智能体i从低层模块中的策略π^L _i,t中采样一个动作a_i,t。

优选地，步骤S1)中采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络，具体包括以下子步骤：

S1.1：初始化每个所述智能体i的参数Φ_i、θ_i和

以及为每个卷积层初始化每个注意力头l的编码矩阵W^l _Q、W^l _K和W^l _V；其中Φ_i表示Critic网络的参数，θ_i表示低层模块的Actor网络的学习参数，

表示高层模块的Actor网络的学习参数，编码矩阵W^l _Q、W^l _K和W^l _V是注意力模块中的编码矩阵；

S1.2：设置训练回合次数为1,2,3,...,K，K为大于3的自然数；

S1.3：设置时间步长1,2,3,...,T，T为大于3的自然数；

S1.4：在每个时间点t，所述智能体i从低层模块中的策略π^L _i,t采取动作a_i,t，与环境交互并获得奖励r_i,t；所述智能体i将所有GAT层输出的特征向量连接起来输入到状态价值网络VNet获得低层模块的状态值v^L _i,t；

S1.5：在每个时间点t，将元组b_t＝(a_i,t,ω_i,t,π^L _i,t,π^H _i,t,r_i,t,v^L _i,t)存储到经验回放池B中；其中，a_i,t,ω_i,t,π^L _i,t,π^H _i,t,r_i,t,v^L _i,t分别表示动作、选项、低层模块中的策略、高层模块中的策略、奖励以及低层模块的状态值；

S1.6：回转执行步骤S1.4，直到训练步长为T；

S1.7：更新参数Φ_i、θ_i和

S1.8：回转执行步骤S1.3，直到训练次数为K；

S1.9：保存所述Actor网络和Critic网络。

优选地，步骤S1.1中，所述GAT模块中的GAT层通过编码矩阵W^l _Q、W^l _K和W^l _V将每个注意力模块的输入特征向量f_i投影到查询、键和值的表示中，然后，为每个注意力头l计算Softmax函数：

其中

是比例因子，d_k是键表示的维度，N_i表示智能体i的感受野内的所有智能体；用a^l _i,j对彼此的特征向量进行加权，并将所有加权特征向量相加作为注意力头l的输出；最后，将所有L个注意力头的输出连接起来并输入到非线性ReLU激活函数中，以导出智能体i的特征向量f_i’：

优选地，在步骤S1.7的参数更新过程中，首先保持高层模块中的策略π^H _i和终止条件β_ωi固定，然后优化低层模块中的策略π^L _i；

在低层模块中，智能体i的以最小化损失训练低层模块的状态值函数：

其中γ是折扣因子；

所述低层模块中保守策略迭代的目标函数为：

其中π^L,old _i,t是智能体i的低层模块中的旧策略，A^L _i,t＝r_i,t+γV^L _i,t+1-V^L _i,t是低层模块中的优势函数，μ^L _i,t是低层模块中的策略概率比，以最小化以下等式中给出的裁剪目标函数L^CLIP更新智能体i的低层模块中的策略：

然后，保持低层模块中的策略π^L _i固定，隐式优化高层模块中的策略π^H _i和终止条件β_ωi，在高层模块中，智能体i在最小化以下等式中给出的损失函数：

其中，v^H _i,t是高层模块中的状态值，计算方式为v^H _i,t＝Σπ^H _i,tV^L _i,t，保守策略迭代的目标函数在高层模块中用以下公式表示：

其中，π^H,old _i,t是智能体i的高层模块中的旧策略，A^H _i,t＝r_i,t+V^H _i,t+1-V^H _i,t是高层模块中的优势函数，μ^H _i,t是高层模块中的策略概率比，此后，通过最小化以下等式中给出的裁剪目标函数来训练智能体i的Actor网络：

其中ε是裁剪比例。

优选地，步骤S1)中完成网络训练的评价指标包括加权等待时间、特殊车辆等待时间和等待时间；所述加权等待时间表示所有车辆的平均加权等待时间，这是一个与奖励函数直接相关的指标；所述特殊车辆等待时间表示特殊车辆的平均等待时间；所述等待时间表示所有车辆的平均等待时间。

本发明还提出一种管控区域基于多智能体强化学习的交通灯控制***，其特殊之处在于，包括多智能体注意力双重演员评论家强化学习网络和控制输出模块；

所述多智能体注意力双重演员评论家强化学习网络，定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：

所述低层模块中的策略：给定观测o_i,t和选项ω_i,t，所述智能体i的低层模块中的策略π^L _i,t指定一个概率π^L _{i,t t}(a_i,t|o_i,t,ω_i,t)，由此获得当前时间点t的动作a_i,t∈A_i；

所述转移概率：在高层模块中，给定状态s_t、前一个联合选项ω_t-1＝(ω_1,t-1,ω_2,t-1,ω_3,t-1,…,ω_N,t-1)和当前联合选项ω_t＝(ω_1,t,ω_2,t,ω_3,t,…,ω_N,t)，在高层模块中转移概率记为p^H(ω_t,s_t+1|ω_t-1,s_t,ω_t)；在低层模块中，给定状态s_t，联合选项ω_t＝(ω_1,t,ω_2,t,ω_3,t,…,ω_N,t)和联合动作a_t＝(a_1,t,a_2,t,a_3,t,…,a_N,t)，低层模块中的转移概率表示为p^L(s_t+1,ω_t+1|s_t,ω_t,a_t)，其中s_t+1是下一个状态并且ω_t+1＝(ω_1,t+1,ω_2,t+1,ω_3,t+1,…,ω_N,t+1)是下一个联合选项；

所述奖励：为了让普通车辆和特殊车辆能够快速通过不同优先级的路口，在每个时间点t，将每个所述智能体i的奖励定义为r_i,t＝η∑_vλ_v.(w_i,v,t-1-w_i,v,t)，其中w_i,v,t表示在时间点t，车辆v在智能体i的累积等待时间，λ_v表示车辆v的重要性权重，η是常数；

所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络，向管控区域下的交通灯作为智能体i发出基于动作a_i的控制指令。

进一步地，所述多智能体注意力双重演员评论家强化学习网络的框架结构包括Actor网络和Critic网络，所述Actor网络包括多层感知器MLP、一个高层模块和一个低层模块；所述多层感知器MLP用于获得观测表示x_i,t；所述高层模块用于由概率分布p^H _i,t和终止条件β_ωi,t-1确定高层模块中的策略π^H _i,t，根据高层模块中的策略对选项ω_i,t进行采样；所述低层模块用于在所有选项中生成智能体动作空间的概率分布，根据高层模块的选项ω_i,t，选择一个概率分布作为智能体最终的低层模块中的策略π^L _i,t，根据低层模块中的策略π^L _i,t采样一个动作a_i,t；

所述Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet；所述多层感知器MLP用于获得观测表示z_i,t；所述GAT模块用于为不同的智能体分配不同的权重，所述状态价值网络VNet用于获得低层模块的状态值V^L _i,t。

本发明另外提出一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述一种管控区域基于多智能体强化学习的交通灯控制方法及***。

本发明与现有技术相比具有如下优点和有益效果：

(1)与其他基于强化学习的交通信号灯控制方法不同的是，本发明考虑的是管控区域下具有复杂车辆组成的多个路***通灯控制问题，没有手动设计控制方案，而是提出了一种新的多智能体注意力双重演员评论家强化学习(MAADAC)网络，它使路口能够有效地适应动态交通流，并促进特殊车辆快速通过多个交叉口。

(2)其他方法大多数都忽略了复杂的交通组成，并且仅关注单智能体设置，因此无法有效处理多个交叉口同时管理交通流的多智能体环境中的长序列决策问题。本发明提出的MAADAC网络将选项框架与图注意力网络相结合的网络，它可以使路口在相位上做出一系列令人满意的选择，还可以捕获路口之间的图结构相互影响。

(3)本发明所提出的交通灯控制框架不一定与特定的交叉口形状和车道数相关，因此，本发明提出的这个框架可以应用于各种交叉口。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施的MAADAC网络结构示意图；

图3为本发明实施的四路交叉口场景示例。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述。

如图1所示，本发明提出的管控区域基于多智能体强化学习的交通灯控制方法，包括如下步骤：

S2采用多智能体注意力双重演员评论家强化学习网络，输出每个智能体i应采取的动作a_i，为下一个时间段t_p选择合理的交通灯相位，进行管控区域下的交通灯控制。

步骤S1中将多个路***通灯的决策过程制定为一个半马尔可夫博弈，并定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：

其中，智能体：将每个道路交叉口作为一个智能体，用i∈I表示，其中I＝{i|i＝1,2,3…,N}，N为大于3的自然数；

观测状态：在每个时间点t，每个所述智能体i∈I都会收到一个局部观测o_i，所述局部观测o_i由智能体i的当前相位和交叉口周围的交通状况组成，所有可能的观测值构成观测空间O；

选项：在每个时间点t，每个所述智能体i选择一个选项ω_i,t，所述选项ω_i,t是一个(I_ω,π_ω,β_ω)的三元组，其中I_ω是初始集，π_ω是低层模块中的策略，β_ω是终止函数，如果β_ω＝1，则终止当前选项，所述智能体i的选项空间表示为Ω_i；

动作：在每个时间点t，每个所述智能体i采取一个动作a_i，为下一个t_p时间段选择相位，所述智能体i的动作空间表示为A_i；

高层模块中的策略：在每个时间点t，给定先前的选项ω_i,t-1和观测o_i,t，所述智能体i的高层模块中的策略π^H _i,t指定一个概率π^H _i,t(ω_i,t|ω_i,t-1,o_i,t)，由此获得当前时间点t的选项ω_i,t∈Ω_i；

低层模块中的策略：给定观测o_i,t和选项ω_i,t，所述智能体i的低层模块中的策略π^L _i,t指定一个概率π^L _{i,t t}(a_i,t|o_i,t,ω_i,t)，由此获得当前时间点t的动作a_i,t∈A_i；

转移概率：在高层模块中，给定状态s_t、前一个联合选项ω_t-1＝(ω_1,t-1,ω_2,t-1,ω_3,t-1,…,ω_N,t-1)和当前联合选项ω_t＝(ω_1,t,ω_2,t,ω_3,t,…,ω_N,t)，在高层模块中转移概率记为p^H(ω_t,s_t+1|ω_t-1,s_t,ω_t)；在低层模块中，给定状态s_t，联合选项ω_t＝(ω_1,t,ω_2,t,ω_3,t,…,ω_N,t)和联合动作a_t＝(a_1,t,a_2,t,a_3,t,…,a_N,t)，低层模块中的转移概率表示为p^L(s_t+1,ω_t+1|s_t,ω_t,a_t)，其中s_t+1是下一个状态并且ω_t+1＝(ω_1,t+1,ω_2,t+1,ω_3,t+1,…,ω_N,t+1)是下一个联合选项；

奖励：为了让普通车辆和特殊车辆能够快速通过不同优先级的路口，在每个时间点t，将每个所述智能体i的奖励定义为r_i,t＝η∑_vλ_v.(w_i,v,t-1-w_i,v,t)，其中w_i,v,t表示在时间点t，车辆v在智能体i的累积等待时间，λ_v表示车辆v的重要性权重，η是常数。

本实施例的多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构，Actor网络涉及一个高层模块和一个低层模块，具体模型如图2所示。

多智能体注意双重演员评论家(MAADAC)框架将选项框架与图注意网络(GAT)相结合。更具体地说，本发明将多个路***通灯控制问题建模为一个半马尔科夫博弈，其中每个路口都被视为一个智能体。MAADAC框架为动态交通环境中的每个路口生成自适应动作。从技术上讲，本方法采用时间抽象，即选项框架，使智能体能够学习做出一系列决策。本发明提出的MAADAC框架采用Actor-Critic架构，Actor网络涉及一个高层模块和一个低层模块。高层模块侧重于选择选项，这些选项从本质上指导智能体的长序列决策。相比之下，低层模块侧重于学习切换到令人满意的相位。此外，一个路口的决策通过它们之间路段的交通流量影响相邻的路口。

为了将路口之间的相互影响纳入决策过程，本实施例将Critic与GAT模块集成在一起，该模块堆叠GAT层以增加智能体的感受野。更具体地说，本方法将多智能体环境构建为有向图，其中每个顶点代表一个路口，如果两个路口之间通过路段连接，则它们之间存在一条边。当多个路段连接路口时，它们之间的边缘会综合影响多个路段。GAT模块将来自智能体感受野内的路口的一组观察值作为其输入，并为智能体捕获图形结构的相互影响。

如图2所示，在每个时间点t，智能体i的观测o_i,t被输入至多层感知器MLP以获得观测表示x_i,t；在高层模块中，多层感知器MLP将观测表示x_i,t作为输入，并将输出传递给Softmax层，该层输出智能体i的选项空间上的概率分布p^H _i,t；同时，观测表示x_i,t通过多层感知器MLP和ReLU激活函数得到终止条件β_ωi,t；由概率分布p^H _i,t和终止条件β_ωi,t-1共同确定高层模块中的策略π^H _i,t；之后，所述高层模块根据高层模块中的策略对选项ω_i,t进行采样；在低层模块中，多层感知器MLP将观测表示x_i,t作为输入，以在所有选项中生成智能体动作空间的概率分布；然后，给定来自高层模块的选项ω_i,t，选择一个概率分布作为智能体最终的低层模块中的策略π^L _i,t；之后，智能体i从低层模块中的策略π^L _i,t中采样一个动作a_i,t。

如图2所示，在训练过程中，智能体i首先通过在Critic模块中使用MLP层提取其观察表示z_i,t。为了整合智能体之间的相互影响，本实施例采用带有C个GAT层的GAT模块为不同的智能体分配不同的权重。更具体地说，首先根据有向图为每个智能体i构造一个邻接矩阵M_i,t。从技术上讲，这个邻接矩阵的第一行是智能体索引的one-hot表示，其他行是其相邻智能体索引的one-hot表示。每个GAT层都使用邻接矩阵来提取有关智能体及其邻居的信息。例如，在第C个GAT层中，智能体i使用邻接矩阵M_i,t从第C-1个GAT层输出的特征向量z^c ^-1 _i,t中提取智能体及其邻居的信息，并将提取的信息输入用于获得特征向量z^c _i,t的注意力模块，然后将其用作第C+1个GAT层的输入。例外的是，第一个GAT层将其自身和其他智能体在其感受野内的观察表示作为输入。最后，将观测表示和所有GAT层输出的特征向量连接起来，表示为(z_i,t,z¹ _i,t,z² _i,t,…,z^c _i,t)。然后将这种连接输入状态价值网络VNet以获得低层模块的状态值v^L _i,t。当状态值函数作为Critic时，高层模块中的状态值函数可以由低层模块中的状态值函数表示，因此计算高层模块中的状态值v^H _i,t通过以下等式：

因此，在MAADAC框架中只需要一个Critic来生成高层和低层模块的状态值，这些状态值分别用于更新高层和低层模块中的策略。

本模块在GAT层采用了多头点积注意模块(multi-head dot-product attentionmodule)。在此本实施例使用符号f_i来表示每个注意力模块的输入特征向量。具体来说，GAT模块中的每个GAT层都采用多头自注意力模型来推导智能体之间的影响权重。首先，本实施例通过编码矩阵W^l _Q、W^l _K和W^l _V将输入f_i投影到查询、键和值的表示中。然后，为每个注意力头l计算以下Softmax函数：

其中

本实施例采用集中训练和分散执行的训练方式训练多智能体注意力双重演员评论家强化学习网络，每一次训练都会由训练环境生成数据并放入经验回放池B，然后从经验回放池B中联合采样。因此，在训练过程中为每个智能体训练了一个集中的Critic。从技术上讲，这种集中的Critic允许每个智能体在训练过程中使用其他智能体的额外信息。相反，在执行过程中，每个智能体的Actor只能访问其本地信息。

如图3所示，本发明实施例采用四路交叉口场景和相对位置矩阵表示作为示例。本实施例的训练环境，是一个长度为500m的3x3网格网络，每条道路由3条车道组成，右侧车道允许车辆右转，中间车道允许直行车辆，左侧车道允许车辆左转；在这个复杂的管控区域中，交通流由普通车辆和特殊车辆组成，其中特殊车辆从医院开始或结束，普通车辆和特殊车辆的长度分别设置为4m和6m，默认的平均车辆到达率设置为每秒6次；特殊车辆的默认比例设置为25％。

本实施例采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络，具体包括以下子步骤：

S1.1：初始化每个所述智能体I的参数Φ_i、θ_i和

表示高层模块的Actor网络的学习参数，编码矩阵W^l _Q、W^l _K和W^l _V是注意力模块中的编码矩阵；GAT模块中的GAT层通过编码矩阵W^l _Q、W^l _K和W^l _V将每个注意力模块的输入特征向量f_i投影到查询、键和值的表示中，然后，为每个注意力头l计算Softmax函数；

S1.2：设置训练回合次数为1,2,3,...,K，K为大于3的自然数；

S1.3：设置时间步长1,2,3,...,T，T为大于3的自然数；

S1.6：回转执行步骤S1.4，直到训练步长为T；

S1.7：更新参数Φ_i、θ_i和

在参数更新过程中，首先保持高层模块中的策略π^H _i和终止条件β_ωi固定，然后优化低层模块中的策略π^L _i；

其中γ是折扣因子；

所述低层模块中保守策略迭代的目标函数为：

其中ε是裁剪比例。

S1.8：回转执行步骤S1.3，直到训练次数为K；

S1.9：保存所述Actor网络和Critic网络。

本实施例中，通过训练这些参数，每个智能体i能够更好地采取的动作a_i(即为下一个t_p时间段选择合理的相位)，能使得每个交叉口为动态的交通环境生成自适应动作。

基于上述方法，本发明提出一种管控区域基于多智能体强化学习的交通灯控制***，包括多智能体注意力双重演员评论家强化学习网络和控制输出模块；多智能体注意力双重演员评论家强化学习网络，定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络，向管控区域下的交通灯作为智能体i发出基于动作a_i的控制指令。

本发明提出的一种新的多智能体注意力双重演员评论家强化学习(MAADAC)网络，是第一个将选项框架与图形注意力网络(graph attention network，GAT)相结合的多智能体强化学习网络。该网络不仅可以协调交叉口周围的交通流量，还可以处理管控区域的长序列决策问题。在技术上，MAADAC网络将每个交叉口视为一个智能体，根据通信和交通状况为动态交通环境中的每个路口生成自适应动作。

MAADAC网络采用了Actor-Critic架构，其中Actor网络涉及一个高层模块和一个低层模块。高层模块侧重于选择选项，这些选项从本质上指导智能体的长序列决策。相比之下，低层模块侧重于学习切换到令人满意的相位。此外，一个路口的决策通过它们之间路段的交通流量影响相邻的路口。为了将路口之间的相互影响纳入决策过程，本发明将Critic与GAT模块集成在一起，该模块堆叠GAT层以增加智能体的感受野。

更具体地说，本发明将多智能体环境构建为有向图，其中每个顶点代表一个路口，如果两个路口之间通过路段连接，则它们之间存在一条边。当多个路段连接路口时，它们之间的边缘会综合影响多个路段。GAT模块将来自智能体感受野内的路口的一组观察值作为其输入，并为智能体捕获图形结构的相互影响。

通过这种方式，管控区域的交通灯控制问题可以得到更好地处理，不仅可以协调交叉口周围的交通流量，还可以处理管控区域的长序列决策问题，以给予特殊车辆更高的通过优先权，确保救护车等特殊车辆快速通过交叉口。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

最后需要说明的是，以上具体实施方式仅用以说明本专利技术方案而非限制，尽管参照较佳实施例对本专利进行了详细说明，本领域的普通技术人员应当理解，可以对本专利的技术方案进行修改或者等同替换，而不脱离本专利技术方案的精神和范围，其均应涵盖在本专利的权利要求范围当中。

Claims

1.一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：所述方法包括如下步骤：

S1构建多智能体注意力双重演员评论家强化学习网络并完成训练；所述多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构，其中Actor网络包括多层感知器MLP、一个高层模块和一个低层模块，Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet；

所述多智能体注意力双重演员评论家强化学习网络中，在每个时间点t，智能体i的观测o_i,t被输入至多层感知器MLP以获得观测表示x_i,t；在高层模块中，多层感知器MLP将观测表示x_i,t作为输入，并将输出传递给Softmax层，该层输出智能体i的选项空间上的概率分布p^H _i,t；同时，观测表示x_i,t通过多层感知器MLP和ReLU激活函数得到终止条件β_ωi,t；由概率分布p^H _i,t和终止条件β_ωi,t-1共同确定高层模块中的策略π^H _i,t；之后，所述高层模块根据高层模块中的策略对选项ω_i,t进行采样；在低层模块中，多层感知器MLP将观测表示x_i,t作为输入，以在所有选项中生成智能体动作空间的概率分布；然后，给定来自高层模块的选项ω_i,t，选择一个概率分布作为智能体最终的低层模块中的策略π^L _i,t；之后，智能体i从低层模块中的策略π^L _i,t中采样一个动作a_i,t；

2.根据权利要求1所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：步骤S1中采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络，具体包括以下子步骤：

S1.1：初始化每个所述智能体i的参数Φ_i、θ_i和

S1.2：设置训练回合次数为1,2,3,...,K，K为大于3的自然数；

S1.3：设置时间步长1,2,3,...,T，T为大于3的自然数；

S1.6：回转执行步骤S1.4，直到训练步长为T；

S1.7：更新参数Φ_i、θ_i和

S1.8：回转执行步骤S1.3，直到训练次数为K；

S1.9：保存所述Actor网络和Critic网络。

3.根据权利要求2所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：步骤S1.1中，所述GAT模块中的GAT层通过编码矩阵W^l _Q、W^l _K和W^l _V将每个注意力模块的输入特征向量f_i投影到查询、键和值的表示中，然后，为每个注意力头l计算Softmax函数：

其中

4.根据权利要求3所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：在步骤S1.7的参数更新过程中，首先保持高层模块中的策略π^H _i和终止条件β_ωi固定，然后优化低层模块中的策略π^L _i；

其中γ是折扣因子；

所述低层模块中保守策略迭代的目标函数为：

其中ε是裁剪比例。

5.根据权利要求1所述的一种管控区域基于多智能体强化学***均加权等待时间，这是一个与奖励函数直接相关的指标；所述特殊车辆等待时间表示特殊车辆的平均等待时间；所述等待时间表示所有车辆的平均等待时间。

6.一种管控区域基于多智能体强化学习的交通灯控制***，其特征在于：包括多智能体注意力双重演员评论家强化学习网络和控制输出模块；

所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络，向管控区域下的交通灯作为智能体i发出基于动作a_i的控制指令；所述多智能体注意力双重演员评论家强化学习网络的框架结构包括Actor网络和Critic网络，所述Actor网络包括多层感知器MLP、一个高层模块和一个低层模块；所述多层感知器MLP用于获得观测表示x_i,t；所述高层模块用于由概率分布p^H _i,t和终止条件β_ωi,t-1确定高层模块中的策略π^H _i,t，根据高层模块中的策略对选项ω_i,t进行采样；所述低层模块用于在所有选项中生成智能体动作空间的概率分布，根据高层模块的选项ω_i,t，选择一个概率分布作为智能体最终的低层模块中的策略π^L _i,t，根据低层模块中的策略π^L _i,t中采样一个动作a_i,t；

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。