CN113780624A

CN113780624A - 一种基于博弈均衡理论的城市路网信号协调控制方法

Info

Publication number: CN113780624A
Application number: CN202110908404.0A
Authority: CN
Inventors: 朱际宸; 马成元; 赖金涛; 张振; 杨晓光
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-12-10
Anticipated expiration: 2041-08-09
Also published as: CN113780624B

Abstract

本发明涉及一种基于博弈均衡理论的城市路网信号协调控制方法，包括：在车路协同环境下收集车辆信息；根据收集的车辆信息，确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态；通过构建分布式信号控制博弈模型，结合贪心策略，以得到智能体的动作策略；采用多智能体强化学习方法，对交叉口的收益矩阵进行更新；基于更新后的收益矩阵，结合分布式信号控制博弈模型，得到对应的动作信号，以相应控制信号灯工作状态。与现有技术相比，本发明能够在车路协同环境下实现分布式信号线协同控制，避免了传统集中式方法计算时间长的缺陷，使每个信号交叉口达到博弈均衡状态，从而提高交叉口的通行效率，避免发生拥堵现象。

Description

一种基于博弈均衡理论的城市路网信号协调控制方法

技术领域

本发明涉及智能交通控制技术领域，尤其是涉及一种基于博弈均衡理论的城市路网信号协调控制方法。

背景技术

城市路网信号协调控制是缓解交通拥堵、提高通行效率的有效方法之一，但是目前路网信号协调控制的方法大多基于集中式方法，利用启发式算法获得最优控制方案，求解效率低，难以在实际中应用。

近年来，车路协同技术的快速发展，在解决交通安全、道路拥堵和改善驾乘体验上展现出的巨大潜力。在车路协同环境下，车辆及周围环境的信息可以实时获取，城市路网信号***可以看作是具有信息感知和处理能力的多智能体***。现有的城市路网协调控制研究面临两个挑战：一是协调控制要求每个智能体的行为相互协作，这可能会导致优化模型结果不收敛，只能通过启发式算法获得近似解，降低协调控制的稳定性；另一个挑战是传统的集中式控制方案容易陷入维数灾难，联合策略空间随着网络规模的增大而迅速增长，导致计算效率显著降低。这些都会导致交叉口通行效率较低、容易发生交通拥堵，因此，设计一种稳定性强、分布式的路网信号协调控制方法，是当下亟需解决的问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于博弈均衡理论的城市路网信号协调控制方法，以在车路协同环境下实现分布式信号协同控制，从而提高交叉口通行效率。

本发明的目的可以通过以下技术方案来实现：一种基于博弈均衡理论的城市路网信号协调控制方法，包括以下步骤：

S1、在车路协同环境下收集车辆信息；

S2、根据收集的车辆信息，确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态；

S3、通过构建分布式信号控制博弈模型，结合贪心策略，以得到智能体的动作策略，所述智能体具体为参与博弈的交叉口；

S4、采用多智能体强化学习方法，对交叉口的收益矩阵进行更新，所述收益矩阵具体为交叉口对应于不同动作所获得的收益；

基于更新后的收益矩阵，结合分布式信号控制博弈模型，得到对应的动作信号，以相应控制信号灯工作状态。

进一步地，所述步骤S1具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间。

进一步地，所述步骤S1具体包括以下步骤：

S11、将交叉口连接路段设定为控制区域，控制区域内的车辆实时与交叉口信号控制器进行通讯，以将车辆信息传输给交叉口信号控制器；

S12、各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯，以获取相邻交叉口的车辆信息。

进一步地，所述步骤S2具体包括以下步骤：

S21、每个交叉口根据各个进口道的排队长度，以确定信号控制方向m的平均排队长度l_m，根据l_m的大小排序即可得到该交叉口i的交通状态s_i；

S22、根据两个相邻交叉口各自的交通状态s_i和s_j，得到两个交叉口i和j的联合状态s。

进一步地，所述步骤S3具体包括以下步骤：

S31、定义智能体动作策略；

S32、定义智能体收益函数；

S33、以交叉口作为分布式信号控制智能体，即作为参与者，通过构建分布式信号控制混合策略博弈模型，得到混合策略博弈的均衡概率分布；

S34、得到混合策略博弈的均衡概率分布后，采用贪心策略选择得到智能体的动作策略。

进一步地，所述步骤S31具体是定义智能体动作策略为执行的信号相位以及对应的执行时长。

进一步地，所述步骤S32具体是定义智能体收益函数为动作执行前后车辆排队时间的差值：

其中，W_i，t和N_i，t分别为交叉口i的车辆总排队时间和车辆排队数量，如果车辆队列开始消散，信号控制智能体将获得奖励；否则，智能体将受到处罚，

为所有相邻交叉口在交叉口i执行动作前后的平均收益，μ为相邻交叉口收益的影响因子。

进一步地，所述步骤S33中分布式信号控制混合策略博弈模型具体为：

s.t.Q_ix_i≥1

x_i≥0

其中，v为交叉口的最小收益值，π_i，a为智能体i选择动作a的概率，Q_i为智能体i的收益矩阵，A为交叉口i所有可能的动作的集合，x_i，a为交叉口i选择动作a的混合策略概率π_i，a对应的中间变量，x_i为所有x_i，a的集合；

混合策略博弈的均衡概率分布具体为：

其中，πⁱ为第i个参与者选择动作策略的概率分布，

为智能体i在状态s下混合策略博弈的均衡概率分布，∏ⁱ为参与者i可供选择的动作空间，Q_i为参与者i的收益，

为其他智能体的均衡概率分布，k为参与者的总数量。

进一步地，所述步骤S34具体是设定一个取值范围为0到1的数ε，之后随机生成一个取值范围为0到1的随机数n，如果n≤ε，则随机选取一个动作并执行；否则按照步骤S33求解得到的均衡概率分布选取动作。

进一步地，所述步骤S4中采用多智能体强化学习方法对交叉口的收益矩阵进行更新的具体过程为：

执行动作策略后，智能体i收集车辆排队等待时间，由此计算该动作带来的收益r_i，t；

智能体i记录动作执行前的联合状态s_i、执行的动作a_i以及执行动作带来的收益r_i，t；

采用Nash Q-1earning方法对收益矩阵Q_i进行迭代更新，迭代公式为：

其中，

为迭代更新前收益矩阵Q_i中对应状态s_i以及各智能体策略选择为a¹，...，aⁿ的情况下对应的收益值，

为第k个参与者的均衡概率分布，r_i，t为智能体i执行动作策略后在时刻t收到的收益回报，

为迭代更新后的收益值，α和γ分别为学习率和折现率，

为智能体i在其状态s_i的收益。

与现有技术相比，本发明具有以下优点：

一、本发明将交叉口之间的信号协调控制看作一种博弈关系，从而将将集中式的协调控制方法转化为易于求解的分布式博弈模型，利用车路协同技术获取车辆信息以判断当前交通状态、构建分布式博弈模型求解最优动作策略，由此在车路协同环境下实现分布式信号线协同控制，避免了传统集中式方法计算时间长的缺陷，让每个信号交叉口达到博弈均衡状态，从而提高交叉口的通行效率，避免发生严重的拥堵，有效降低车均延误、等待时间和停车次数。

二、本发明通过分布式博弈模型求解得到最优动作策略后，继续计算该最优动作策略对应的收益，采用多智能体强化学习方法对收益值进行更新，进一步保证分布式博弈模型的精准性，从而有效提高信号协调控制的稳定性。

附图说明

图1为本发明的方法流程示意图；

图2为实施例的应用过程示意图；

图3为实施例中智能体动作策略示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于博弈均衡理论的城市路网信号协调控制方法，包括以下步骤：

S1、在车路协同环境下收集车辆信息，具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间：

首先将交叉口连接路段设定为控制区域，控制区域内的车辆实时与交叉口信号控制器进行通讯，以将车辆信息传输给交叉口信号控制器；

各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯，以获取相邻交叉口的车辆信息；

S2、根据收集的车辆信息，确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态，具体的：每个交叉口根据各个进口道的排队长度，以确定信号控制方向m的平均排队长度l_m，根据l_m的大小排序即可得到该交叉口i的交通状态s_i；

根据两个相邻交叉口各自的交通状态s_i和s_j，得到两个交叉口i和j的联合状态s；

S3、通过构建分布式信号控制博弈模型，结合贪心策略，以得到智能体的动作策略，智能体具体为参与博弈的交叉口，具体的：

S31、定义智能体动作策略为执行的信号相位以及对应的执行时长；

S32、定义智能体收益函数为动作执行前后车辆排队时间的差值：

为所有相邻交叉口在交叉口i执行动作前后的平均收益，μ为相邻交叉口收益的影响因子；

S33、以交叉口作为分布式信号控制智能体，即作为参与者，通过构建分布式信号控制混合策略博弈模型，得到混合策略博弈的均衡概率分布，其中，分布式信号控制混合策略博弈模型具体为：

s.t.Q_ix_i≥1

x_i≥0

式中，v为交叉口的最小收益值，π_i，a为智能体i选择动作a的概率，Q_i为智能体i的收益矩阵，A为交叉口i所有可能的动作的集合，x_i，a为交叉口i选择动作a的混合策略概率π_i，a对应的中间变量，x_i为所有x_i，a的集合；

混合策略博弈的均衡概率分布具体为：

式中，πⁱ为第i个参与者选择动作策略的概率分布，

为智能体i在状态s下混合策略博弈的均衡概率分布，Πⁱ为参与者i可供选择的动作空间，Q_i为参与者i的收益，

为其他智能体的均衡概率分布，k为参与者的总数量；

S34、得到混合策略博弈的均衡概率分布后，采用贪心策略选择得到智能体的动作策略，具体是设定一个取值范围为0到1的数ε，之后随机生成一个取值范围为0到1的随机数n，如果n≤ε，则随机选取一个动作并执行；否则按照步骤S33求解得到的均衡概率分布选取动作；

S4、采用多智能体强化学习方法，对交叉口的收益矩阵进行更新，收益矩阵具体为交叉口对应于不同动作所获得的收益：

采用Nash Q-learning方法对收益矩阵Q_i进行迭代更新，迭代公式为：

其中，

为迭代更新后的收益值，α和γ分别为学习率和折现率，

为智能体i在其状态s_i的收益；

本实施例应用上述技术方案，具体过程如图2所示，包括：

步骤1、收集车辆信息

利用车路协同技术，交叉口信号控制智能体可以通过摄像头、雷达等设备通过通讯技术获取各个进口道的排队长度、车辆排队时间等信息：

(1.1)将交叉口连接路段作为控制区，该区域内的车辆需要实时与交叉口信号控制器进行通讯，并将自身信息发送给信号控制器；

(1.2)信号控制器收集各进口道排队长度、车辆排队等待时间信息，同时各交叉口信号控制器之间可以实现信息共享，获取临近交叉口的信息，并具备实时计算和控制信号灯的能力。

步骤2、判断交叉口及其相邻交叉***通状态

(2.1)判断交叉口自身交通状态。

每个交叉口获取其各个进口道的排队长度，得到信号控制方向m的平均排队长度l_m，根据l_m的大小排序即可得到该交叉口i的交通状态si，以四相位信号控制(东西直行，东西左转，南北直行，南北左转)为例，则该交叉口共有N＝24种状态空间。

(2.2)判断联合状态。

选取该交叉口i的某一相邻交叉口j，在采用相同信号控制方案的情况下，两个交叉口共有N²中联合状态空间，以四相位信号控制(东西直行，东西左转，南北直行，南北左转)为例，则联合状态空间的大小为576，根据两个交叉口各自的交通状态s_i和s_j，可以判断当前两个交叉口的联合状态s。

步骤3、构建分布式信号控制博弈模型

(3.1)定义智能体动作策略。

如图3所示，定义智能体动作策略为选取何种信号相位执行，其执行时长为最小绿灯时间g_min，该交叉口i选取的动作策略(即信号相位)定义为a_i。

(3.2)定义智能体收益函数。

为有效降低车均延误，利用交叉口处所有车辆的平均等待时间作为最小化总延误的目标。将收益定义为执行动作前后车辆平均等待时间的差值：

其中W_i，t和N_i，t分别表示总等待时间和等车辆总数。如果车辆队列开始消散，信号控制智能体将获得奖励；否则，智能体将受到处罚。此外，

田来表示所有相邻交叉口在交叉口i执行动作前后的平均收益，μ为相邻交叉口收益的影响因子。

(3.3)构建分布式信号控制混合策略博弈模型。

混合策略博弈要求参与者根据均衡概率分布在多种策略中选择其中一个，混合策略博弈的结果可以写成π＝{π¹，π²，...，π^k}，式中πⁱ表示第i个参与者选择动作策略的概率分布，对于所有参与者，如果

满足：

则称

为智能体i在状态s下混合策略博弈的均衡概率分布。其中Πⁱ表示参与者i可供选择的动作空间，Q_i表示收益，

表示其他智能体的均衡概率分布。为了得到纳什均衡解，构建线性规划模型来最大化收益v的最小值(v表示某一个交叉口在执行所有可能的信号控制方案下，获得的最小的收益值，由于交叉口获得的收益值是和自己以及周围交叉口信号控制有关的，而每一个交叉口不知道周围交叉口会采取什么样的信号控制方案，为了保护自己在最坏情况下(也就是可能获得收益的最小值)获得的收益不是那么小，所以这个模型的目标是最大化收益的最小值v)：

s.t.Q_ix_i≥1

x_i≥0

其中π_i，a表示智能体i选择动作a的概率，Q_i表示智能体i的收益矩阵(即在每种状态下采用某种动作获得的历史收益估计值)，x_i，a式转化后的混合策略概率。

求解上述线性规划模型后，即可得到交叉口i与某一个相邻交叉口j的博弈均衡解。假设交叉口i共有J_i个相邻交叉口，则会得到J_i个不同的混合策略概率分布，对所有的混合策略概率分布求其平均值，则可以得到最终的动作策略选择的概率分布。值得注意的是，该博弈是分布式建模的，每个智能体与相邻的其中一个智能体进行博弈，而不是以集中的、区域的方式进行博弈。每个智能体都将执行J_i次两个参与者的混合策略博弈。

(3.4)基于贪心策略选择智能体动作策略。

得到混合策略博弈的均衡概率分布后，采用ε贪心策略选择智能体的动作策略。具体来说，给定一个取值范围为0到1的数ε，***生成一个取值范围为0到1的随机数n，如果n≤ε，则随机选取一个动作并执行；反之，则按照步骤(3.3)求解得到的均衡概率分布π_*选取动作，为了更好地训练智能体，ε初始值为1，且随着训练次数的增加逐渐减小。

步骤4、多智能体强化学习方法对历史收益进行更新

执行动作策略后，智能体i收集车辆排队等待时间，由此计算该动作带来的收益r_i，t。智能体i记录动作执行前的联合状态s_i，执行的动作a_i，执行动作带来的收益r_i，t(由步骤3.2获取)，然后利用Nash Q-learning方法对收益矩阵Q_i进行更新。

具体来说，Nash Q-learning定义了一个迭代过程，用于更新迭代收益值，其迭代公式如下：

其中

式中

表示迭代更新前，收益矩阵Q_i中对应状态s_i，各智能体策略选择为a¹，...，aⁿ的情况下对应的收益值；

为第k个参与者的均衡概率分布；r_i，t智能体i执行动作策略后在时刻t收到的收益回报；

为迭代更新后的收益值；α和γ分别为学习率和折现率；

为智能体i在其状态s_i的收益。

根据Nash Q-learning迭代更新策略，各信号控制智能体i将从历史采取的动作策略获得的收益中学习如何在状态s_i下采取策略。更新后收益矩阵Q_i将用于信号控制智能体在未来的博弈模型中。

本发明提出的技术方案中，分布式博弈信号协调控制框架能够保证灵活的信号相位选择方案，使得信号控制器可以灵活切换相位并延长绿灯时间。经过多智能体强化学习过程，路网中各信号控制智能体将学习得到最优的控制策略(收益矩阵)，并根据该最优策略在现实中执行。本发明利用车路协同技术收集交叉口处车辆排队信息，利用分布式博弈模型对交叉口之间的信号协调控制进行建模，以降低排队时间和延误为目标，通过博弈关系实现交叉口之间的协调控制，提高交叉口通行效率，避免发生严重的拥堵，有效降低车均延误、等待时间和停车次数，使城市大规模多交叉口协同控制成为可能。