CN113780624A - 一种基于博弈均衡理论的城市路网信号协调控制方法 - Google Patents

一种基于博弈均衡理论的城市路网信号协调控制方法 Download PDF

Info

Publication number
CN113780624A
CN113780624A CN202110908404.0A CN202110908404A CN113780624A CN 113780624 A CN113780624 A CN 113780624A CN 202110908404 A CN202110908404 A CN 202110908404A CN 113780624 A CN113780624 A CN 113780624A
Authority
CN
China
Prior art keywords
intersection
action
agent
game
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110908404.0A
Other languages
English (en)
Other versions
CN113780624B (zh
Inventor
朱际宸
马成元
赖金涛
张振
杨晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110908404.0A priority Critical patent/CN113780624B/zh
Publication of CN113780624A publication Critical patent/CN113780624A/zh
Application granted granted Critical
Publication of CN113780624B publication Critical patent/CN113780624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Algebra (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于博弈均衡理论的城市路网信号协调控制方法,包括:在车路协同环境下收集车辆信息;根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态;通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略;采用多智能体强化学习方法,对交叉口的收益矩阵进行更新;基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。与现有技术相比,本发明能够在车路协同环境下实现分布式信号线协同控制,避免了传统集中式方法计算时间长的缺陷,使每个信号交叉口达到博弈均衡状态,从而提高交叉口的通行效率,避免发生拥堵现象。

Description

一种基于博弈均衡理论的城市路网信号协调控制方法
技术领域
本发明涉及智能交通控制技术领域,尤其是涉及一种基于博弈均衡理论的城市路网信号协调控制方法。
背景技术
城市路网信号协调控制是缓解交通拥堵、提高通行效率的有效方法之一,但是目前路网信号协调控制的方法大多基于集中式方法,利用启发式算法获得最优控制方案,求解效率低,难以在实际中应用。
近年来,车路协同技术的快速发展,在解决交通安全、道路拥堵和改善驾乘体验上展现出的巨大潜力。在车路协同环境下,车辆及周围环境的信息可以实时获取,城市路网信号***可以看作是具有信息感知和处理能力的多智能体***。现有的城市路网协调控制研究面临两个挑战:一是协调控制要求每个智能体的行为相互协作,这可能会导致优化模型结果不收敛,只能通过启发式算法获得近似解,降低协调控制的稳定性;另一个挑战是传统的集中式控制方案容易陷入维数灾难,联合策略空间随着网络规模的增大而迅速增长,导致计算效率显著降低。这些都会导致交叉口通行效率较低、容易发生交通拥堵,因此,设计一种稳定性强、分布式的路网信号协调控制方法,是当下亟需解决的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于博弈均衡理论的城市路网信号协调控制方法,以在车路协同环境下实现分布式信号协同控制,从而提高交叉口通行效率。
本发明的目的可以通过以下技术方案来实现:一种基于博弈均衡理论的城市路网信号协调控制方法,包括以下步骤:
S1、在车路协同环境下收集车辆信息;
S2、根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态;
S3、通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略,所述智能体具体为参与博弈的交叉口;
S4、采用多智能体强化学习方法,对交叉口的收益矩阵进行更新,所述收益矩阵具体为交叉口对应于不同动作所获得的收益;
基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。
进一步地,所述步骤S1具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间。
进一步地,所述步骤S1具体包括以下步骤:
S11、将交叉口连接路段设定为控制区域,控制区域内的车辆实时与交叉口信号控制器进行通讯,以将车辆信息传输给交叉口信号控制器;
S12、各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯,以获取相邻交叉口的车辆信息。
进一步地,所述步骤S2具体包括以下步骤:
S21、每个交叉口根据各个进口道的排队长度,以确定信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si
S22、根据两个相邻交叉口各自的交通状态si和sj,得到两个交叉口i和j的联合状态s。
进一步地,所述步骤S3具体包括以下步骤:
S31、定义智能体动作策略;
S32、定义智能体收益函数;
S33、以交叉口作为分布式信号控制智能体,即作为参与者,通过构建分布式信号控制混合策略博弈模型,得到混合策略博弈的均衡概率分布;
S34、得到混合策略博弈的均衡概率分布后,采用贪心策略选择得到智能体的动作策略。
进一步地,所述步骤S31具体是定义智能体动作策略为执行的信号相位以及对应的执行时长。
进一步地,所述步骤S32具体是定义智能体收益函数为动作执行前后车辆排队时间的差值:
Figure BDA0003202737010000031
其中,Wi,t和Ni,t分别为交叉口i的车辆总排队时间和车辆排队数量,如果车辆队列开始消散,信号控制智能体将获得奖励;否则,智能体将受到处罚,
Figure BDA0003202737010000032
为所有相邻交叉口在交叉口i执行动作前后的平均收益,μ为相邻交叉口收益的影响因子。
进一步地,所述步骤S33中分布式信号控制混合策略博弈模型具体为:
Figure BDA0003202737010000033
s.t.Qixi≥1
xi≥0
Figure BDA0003202737010000034
其中,v为交叉口的最小收益值,πi,a为智能体i选择动作a的概率,Qi为智能体i的收益矩阵,A为交叉口i所有可能的动作的集合,xi,a为交叉口i选择动作a的混合策略概率πi,a对应的中间变量,xi为所有xi,a的集合;
混合策略博弈的均衡概率分布具体为:
Figure BDA0003202737010000035
Figure BDA0003202737010000036
其中,πi为第i个参与者选择动作策略的概率分布,
Figure BDA0003202737010000037
为智能体i在状态s下混合策略博弈的均衡概率分布,∏i为参与者i可供选择的动作空间,Qi为参与者i的收益,
Figure BDA0003202737010000038
为其他智能体的均衡概率分布,k为参与者的总数量。
进一步地,所述步骤S34具体是设定一个取值范围为0到1的数ε,之后随机生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;否则按照步骤S33求解得到的均衡概率分布选取动作。
进一步地,所述步骤S4中采用多智能体强化学习方法对交叉口的收益矩阵进行更新的具体过程为:
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t
智能体i记录动作执行前的联合状态si、执行的动作ai以及执行动作带来的收益ri,t
采用Nash Q-1earning方法对收益矩阵Qi进行迭代更新,迭代公式为:
Figure BDA0003202737010000041
Figure BDA0003202737010000042
其中,
Figure BDA0003202737010000043
为迭代更新前收益矩阵Qi中对应状态si以及各智能体策略选择为a1,...,an的情况下对应的收益值,
Figure BDA0003202737010000044
为第k个参与者的均衡概率分布,ri,t为智能体i执行动作策略后在时刻t收到的收益回报,
Figure BDA0003202737010000045
为迭代更新后的收益值,α和γ分别为学习率和折现率,
Figure BDA0003202737010000046
为智能体i在其状态si的收益。
与现有技术相比,本发明具有以下优点:
一、本发明将交叉口之间的信号协调控制看作一种博弈关系,从而将将集中式的协调控制方法转化为易于求解的分布式博弈模型,利用车路协同技术获取车辆信息以判断当前交通状态、构建分布式博弈模型求解最优动作策略,由此在车路协同环境下实现分布式信号线协同控制,避免了传统集中式方法计算时间长的缺陷,让每个信号交叉口达到博弈均衡状态,从而提高交叉口的通行效率,避免发生严重的拥堵,有效降低车均延误、等待时间和停车次数。
二、本发明通过分布式博弈模型求解得到最优动作策略后,继续计算该最优动作策略对应的收益,采用多智能体强化学习方法对收益值进行更新,进一步保证分布式博弈模型的精准性,从而有效提高信号协调控制的稳定性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例的应用过程示意图;
图3为实施例中智能体动作策略示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于博弈均衡理论的城市路网信号协调控制方法,包括以下步骤:
S1、在车路协同环境下收集车辆信息,具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间:
首先将交叉口连接路段设定为控制区域,控制区域内的车辆实时与交叉口信号控制器进行通讯,以将车辆信息传输给交叉口信号控制器;
各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯,以获取相邻交叉口的车辆信息;
S2、根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态,具体的:每个交叉口根据各个进口道的排队长度,以确定信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si
根据两个相邻交叉口各自的交通状态si和sj,得到两个交叉口i和j的联合状态s;
S3、通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略,智能体具体为参与博弈的交叉口,具体的:
S31、定义智能体动作策略为执行的信号相位以及对应的执行时长;
S32、定义智能体收益函数为动作执行前后车辆排队时间的差值:
Figure BDA0003202737010000051
其中,Wi,t和Ni,t分别为交叉口i的车辆总排队时间和车辆排队数量,如果车辆队列开始消散,信号控制智能体将获得奖励;否则,智能体将受到处罚,
Figure BDA0003202737010000052
为所有相邻交叉口在交叉口i执行动作前后的平均收益,μ为相邻交叉口收益的影响因子;
S33、以交叉口作为分布式信号控制智能体,即作为参与者,通过构建分布式信号控制混合策略博弈模型,得到混合策略博弈的均衡概率分布,其中,分布式信号控制混合策略博弈模型具体为:
Figure BDA0003202737010000053
s.t.Qixi≥1
xi≥0
Figure BDA0003202737010000054
式中,v为交叉口的最小收益值,πi,a为智能体i选择动作a的概率,Qi为智能体i的收益矩阵,A为交叉口i所有可能的动作的集合,xi,a为交叉口i选择动作a的混合策略概率πi,a对应的中间变量,xi为所有xi,a的集合;
混合策略博弈的均衡概率分布具体为:
Figure BDA0003202737010000061
Figure BDA0003202737010000062
式中,πi为第i个参与者选择动作策略的概率分布,
Figure BDA0003202737010000063
为智能体i在状态s下混合策略博弈的均衡概率分布,Πi为参与者i可供选择的动作空间,Qi为参与者i的收益,
Figure BDA0003202737010000064
为其他智能体的均衡概率分布,k为参与者的总数量;
S34、得到混合策略博弈的均衡概率分布后,采用贪心策略选择得到智能体的动作策略,具体是设定一个取值范围为0到1的数ε,之后随机生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;否则按照步骤S33求解得到的均衡概率分布选取动作;
S4、采用多智能体强化学习方法,对交叉口的收益矩阵进行更新,收益矩阵具体为交叉口对应于不同动作所获得的收益:
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t
智能体i记录动作执行前的联合状态si、执行的动作ai以及执行动作带来的收益ri,t
采用Nash Q-learning方法对收益矩阵Qi进行迭代更新,迭代公式为:
Figure BDA0003202737010000065
Figure BDA0003202737010000066
其中,
Figure BDA0003202737010000067
为迭代更新前收益矩阵Qi中对应状态si以及各智能体策略选择为a1,...,an的情况下对应的收益值,
Figure BDA0003202737010000068
为第k个参与者的均衡概率分布,ri,t为智能体i执行动作策略后在时刻t收到的收益回报,
Figure BDA0003202737010000069
为迭代更新后的收益值,α和γ分别为学习率和折现率,
Figure BDA00032027370100000610
为智能体i在其状态si的收益;
基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。
本实施例应用上述技术方案,具体过程如图2所示,包括:
步骤1、收集车辆信息
利用车路协同技术,交叉口信号控制智能体可以通过摄像头、雷达等设备通过通讯技术获取各个进口道的排队长度、车辆排队时间等信息:
(1.1)将交叉口连接路段作为控制区,该区域内的车辆需要实时与交叉口信号控制器进行通讯,并将自身信息发送给信号控制器;
(1.2)信号控制器收集各进口道排队长度、车辆排队等待时间信息,同时各交叉口信号控制器之间可以实现信息共享,获取临近交叉口的信息,并具备实时计算和控制信号灯的能力。
步骤2、判断交叉口及其相邻交叉***通状态
(2.1)判断交叉口自身交通状态。
每个交叉口获取其各个进口道的排队长度,得到信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si,以四相位信号控制(东西直行,东西左转,南北直行,南北左转)为例,则该交叉口共有N=24种状态空间。
(2.2)判断联合状态。
选取该交叉口i的某一相邻交叉口j,在采用相同信号控制方案的情况下,两个交叉口共有N2中联合状态空间,以四相位信号控制(东西直行,东西左转,南北直行,南北左转)为例,则联合状态空间的大小为576,根据两个交叉口各自的交通状态si和sj,可以判断当前两个交叉口的联合状态s。
步骤3、构建分布式信号控制博弈模型
(3.1)定义智能体动作策略。
如图3所示,定义智能体动作策略为选取何种信号相位执行,其执行时长为最小绿灯时间gmin,该交叉口i选取的动作策略(即信号相位)定义为ai
(3.2)定义智能体收益函数。
为有效降低车均延误,利用交叉口处所有车辆的平均等待时间作为最小化总延误的目标。将收益定义为执行动作前后车辆平均等待时间的差值:
Figure BDA0003202737010000071
其中Wi,t和Ni,t分别表示总等待时间和等车辆总数。如果车辆队列开始消散,信号控制智能体将获得奖励;否则,智能体将受到处罚。此外,
Figure BDA0003202737010000072
田来表示所有相邻交叉口在交叉口i执行动作前后的平均收益,μ为相邻交叉口收益的影响因子。
(3.3)构建分布式信号控制混合策略博弈模型。
混合策略博弈要求参与者根据均衡概率分布在多种策略中选择其中一个,混合策略博弈的结果可以写成π={π1,π2,...,πk},式中πi表示第i个参与者选择动作策略的概率分布,对于所有参与者,如果
Figure BDA0003202737010000081
满足:
Figure BDA0003202737010000082
则称
Figure BDA0003202737010000083
为智能体i在状态s下混合策略博弈的均衡概率分布。其中Πi表示参与者i可供选择的动作空间,Qi表示收益,
Figure BDA0003202737010000084
表示其他智能体的均衡概率分布。为了得到纳什均衡解,构建线性规划模型来最大化收益v的最小值(v表示某一个交叉口在执行所有可能的信号控制方案下,获得的最小的收益值,由于交叉口获得的收益值是和自己以及周围交叉口信号控制有关的,而每一个交叉口不知道周围交叉口会采取什么样的信号控制方案,为了保护自己在最坏情况下(也就是可能获得收益的最小值)获得的收益不是那么小,所以这个模型的目标是最大化收益的最小值v):
Figure BDA0003202737010000085
s.t.Qixi≥1
xi≥0
Figure BDA0003202737010000086
其中πi,a表示智能体i选择动作a的概率,Qi表示智能体i的收益矩阵(即在每种状态下采用某种动作获得的历史收益估计值),xi,a式转化后的混合策略概率。
求解上述线性规划模型后,即可得到交叉口i与某一个相邻交叉口j的博弈均衡解。假设交叉口i共有Ji个相邻交叉口,则会得到Ji个不同的混合策略概率分布,对所有的混合策略概率分布求其平均值,则可以得到最终的动作策略选择的概率分布。值得注意的是,该博弈是分布式建模的,每个智能体与相邻的其中一个智能体进行博弈,而不是以集中的、区域的方式进行博弈。每个智能体都将执行Ji次两个参与者的混合策略博弈。
(3.4)基于贪心策略选择智能体动作策略。
得到混合策略博弈的均衡概率分布后,采用ε贪心策略选择智能体的动作策略。具体来说,给定一个取值范围为0到1的数ε,***生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;反之,则按照步骤(3.3)求解得到的均衡概率分布π*选取动作,为了更好地训练智能体,ε初始值为1,且随着训练次数的增加逐渐减小。
步骤4、多智能体强化学习方法对历史收益进行更新
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t。智能体i记录动作执行前的联合状态si,执行的动作ai,执行动作带来的收益ri,t(由步骤3.2获取),然后利用Nash Q-learning方法对收益矩阵Qi进行更新。
具体来说,Nash Q-learning定义了一个迭代过程,用于更新迭代收益值,其迭代公式如下:
Figure BDA0003202737010000091
其中
Figure BDA0003202737010000092
式中
Figure BDA0003202737010000093
表示迭代更新前,收益矩阵Qi中对应状态si,各智能体策略选择为a1,...,an的情况下对应的收益值;
Figure BDA0003202737010000094
为第k个参与者的均衡概率分布;ri,t智能体i执行动作策略后在时刻t收到的收益回报;
Figure BDA0003202737010000095
为迭代更新后的收益值;α和γ分别为学习率和折现率;
Figure BDA0003202737010000096
为智能体i在其状态si的收益。
根据Nash Q-learning迭代更新策略,各信号控制智能体i将从历史采取的动作策略获得的收益中学习如何在状态si下采取策略。更新后收益矩阵Qi将用于信号控制智能体在未来的博弈模型中。
本发明提出的技术方案中,分布式博弈信号协调控制框架能够保证灵活的信号相位选择方案,使得信号控制器可以灵活切换相位并延长绿灯时间。经过多智能体强化学习过程,路网中各信号控制智能体将学习得到最优的控制策略(收益矩阵),并根据该最优策略在现实中执行。本发明利用车路协同技术收集交叉口处车辆排队信息,利用分布式博弈模型对交叉口之间的信号协调控制进行建模,以降低排队时间和延误为目标,通过博弈关系实现交叉口之间的协调控制,提高交叉口通行效率,避免发生严重的拥堵,有效降低车均延误、等待时间和停车次数,使城市大规模多交叉口协同控制成为可能。

Claims (10)

1.一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,包括以下步骤:
S1、在车路协同环境下收集车辆信息;
S2、根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态;
S3、通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略,所述智能体具体为参与博弈的交叉口;
S4、采用多智能体强化学习方法,对交叉口的收益矩阵进行更新,所述收益矩阵具体为交叉口对应于不同动作所获得的收益;
基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。
2.根据权利要求1所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S1具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间。
3.根据权利要求2所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、将交叉口连接路段设定为控制区域,控制区域内的车辆实时与交叉口信号控制器进行通讯,以将车辆信息传输给交叉口信号控制器;
S12、各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯,以获取相邻交叉口的车辆信息。
4.根据权利要求3所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、每个交叉口根据各个进口道的排队长度,以确定信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si
S22、根据两个相邻交叉口各自的交通状态si和sj,得到两个交叉口i和j的联合状态s。
5.根据权利要求1所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、定义智能体动作策略;
S32、定义智能体收益函数;
S33、以交叉口作为分布式信号控制智能体,即作为参与者,通过构建分布式信号控制混合策略博弈模型,得到混合策略博弈的均衡概率分布;
S34、得到混合策略博弈的均衡概率分布后,采用贪心策略选择得到智能体的动作策略。
6.根据权利要求5所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S31具体是定义智能体动作策略为执行的信号相位以及对应的执行时长。
7.根据权利要求6所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S32具体是定义智能体收益函数为动作执行前后车辆排队时间的差值:
Figure FDA0003202734000000021
其中,Wi,i和Ni,t分别为交叉口i的车辆总排队时间和车辆排队数量,如果车辆队列开始消散,信号控制智能体将获得奖励;否则,智能体将受到处罚,
Figure FDA0003202734000000022
为所有相邻交叉口在交叉口i执行动作前后的平均收益,μ为相邻交叉口收益的影响因子。
8.根据权利要求7所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S33中分布式信号控制混合策略博弈模型具体为:
Figure FDA0003202734000000023
s.t.Qixi≥1
xi≥0
Figure FDA0003202734000000024
其中,v为交叉口的最小收益值,πi,a为智能体i选择动作a的概率,Qi为智能体i的收益矩阵,A为交叉口i所有可能的动作的集合,xi,a为交叉口i选择动作a的混合策略概率πi,a对应的中间变量,xi为所有xi,a的集合;
混合策略博弈的均衡概率分布具体为:
Figure FDA0003202734000000031
Figure FDA0003202734000000032
其中,πi为第i个参与者选择动作策略的概率分布,
Figure FDA0003202734000000033
为智能体i在状态s下混合策略博弈的均衡概率分布,Πi为参与者i可供选择的动作空间,Qi为参与者i的收益,
Figure FDA0003202734000000034
为其他智能体的均衡概率分布,k为参与者的总数量。
9.根据权利要求5所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S34具体是设定一个取值范围为0到1的数ε,之后随机生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;否则按照步骤S33求解得到的均衡概率分布选取动作。
10.根据权利要求8所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S4中采用多智能体强化学习方法对交叉口的收益矩阵进行更新的具体过程为:
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t
智能体i记录动作执行前的联合状态si、执行的动作ai以及执行动作带来的收益ri,t
采用Nash Q-learning方法对收益矩阵Qi进行迭代更新,迭代公式为:
Figure FDA0003202734000000035
Figure FDA0003202734000000036
其中,
Figure FDA0003202734000000037
为迭代更新前收益矩阵Qi中对应状态si以及各智能体策略选择为a1,…,an的情况下对应的收益值,
Figure FDA0003202734000000038
为第k个参与者的均衡概率分布,ri,t为智能体i执行动作策略后在时刻t收到的收益回报,
Figure FDA0003202734000000039
为迭代更新后的收益值,α和γ分别为学习率和折现率,
Figure FDA00032027340000000310
为智能体i在其状态si的收益。
CN202110908404.0A 2021-08-09 2021-08-09 一种基于博弈均衡理论的城市路网信号协调控制方法 Active CN113780624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110908404.0A CN113780624B (zh) 2021-08-09 2021-08-09 一种基于博弈均衡理论的城市路网信号协调控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110908404.0A CN113780624B (zh) 2021-08-09 2021-08-09 一种基于博弈均衡理论的城市路网信号协调控制方法

Publications (2)

Publication Number Publication Date
CN113780624A true CN113780624A (zh) 2021-12-10
CN113780624B CN113780624B (zh) 2023-08-29

Family

ID=78837180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110908404.0A Active CN113780624B (zh) 2021-08-09 2021-08-09 一种基于博弈均衡理论的城市路网信号协调控制方法

Country Status (1)

Country Link
CN (1) CN113780624B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464001A (zh) * 2022-01-30 2022-05-10 同济大学 车路协同环境下城市多交叉口多层分布控制***及其方法
CN114973660A (zh) * 2022-05-13 2022-08-30 黄河科技学院 一种模型线性化迭代更新法的交通决策方法
CN117173914A (zh) * 2023-11-03 2023-12-05 中泰信合智能科技有限公司 一种简化复杂模型的路网信控单元解耦方法、装置及介质
WO2023246066A1 (zh) * 2022-06-23 2023-12-28 北京百度网讯科技有限公司 基于车路协同的信号管控方法、相关装置及程序产品
CN117973660A (zh) * 2024-03-29 2024-05-03 华东交通大学 一种多车辆动态路径选择方法与***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274684A (zh) * 2017-08-01 2017-10-20 东南大学 一种车路协同环境下单点交叉口信号控制策略选择方法
CN110246344A (zh) * 2019-03-28 2019-09-17 中国公路工程咨询集团有限公司 一种基于博弈论的信号配时方法
CN111942383A (zh) * 2020-07-14 2020-11-17 南京天航智能装备研究院有限公司 一种电动汽车跟驰节能控制***及其博弈论方法
CN111994090A (zh) * 2020-09-02 2020-11-27 中国科学技术大学 基于混合策略博弈的驾驶人变道切入意图识别方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274684A (zh) * 2017-08-01 2017-10-20 东南大学 一种车路协同环境下单点交叉口信号控制策略选择方法
CN110246344A (zh) * 2019-03-28 2019-09-17 中国公路工程咨询集团有限公司 一种基于博弈论的信号配时方法
CN111942383A (zh) * 2020-07-14 2020-11-17 南京天航智能装备研究院有限公司 一种电动汽车跟驰节能控制***及其博弈论方法
CN111994090A (zh) * 2020-09-02 2020-11-27 中国科学技术大学 基于混合策略博弈的驾驶人变道切入意图识别方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENGYUAN MA: "Signal_Timing_Optimization_for_Isolated_Intersections_under_Mixed_Traffic_Environment", 《2020 IEEE 23RD INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS (ITSC)》 *
HAO DONG: "A_multi_intersections_signal_coordinate_control_method_based_on_game_theory", 《2011 INTERNATIONAL CONFERENCE ON ELECTRONICS, COMMUNICATIONS AND CONTROL (ICECC)》 *
KEKE LONG: "Integrated Optimization of Traffic Signals and Vehicle Trajectories at Intersection With the Consideration of Safety During Signal Change", 《IEEE ACCESS》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464001A (zh) * 2022-01-30 2022-05-10 同济大学 车路协同环境下城市多交叉口多层分布控制***及其方法
CN114973660A (zh) * 2022-05-13 2022-08-30 黄河科技学院 一种模型线性化迭代更新法的交通决策方法
CN114973660B (zh) * 2022-05-13 2023-10-24 黄河科技学院 一种模型线性化迭代更新法的交通决策方法
WO2023246066A1 (zh) * 2022-06-23 2023-12-28 北京百度网讯科技有限公司 基于车路协同的信号管控方法、相关装置及程序产品
CN117173914A (zh) * 2023-11-03 2023-12-05 中泰信合智能科技有限公司 一种简化复杂模型的路网信控单元解耦方法、装置及介质
CN117173914B (zh) * 2023-11-03 2024-01-26 中泰信合智能科技有限公司 一种简化复杂模型的路网信控单元解耦方法、装置及介质
CN117973660A (zh) * 2024-03-29 2024-05-03 华东交通大学 一种多车辆动态路径选择方法与***
CN117973660B (zh) * 2024-03-29 2024-06-11 华东交通大学 一种多车辆动态路径选择方法与***

Also Published As

Publication number Publication date
CN113780624B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN113780624A (zh) 一种基于博弈均衡理论的城市路网信号协调控制方法
CN111785045B (zh) 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
CN112669629B (zh) 一种基于深度强化学习的实时交通信号控制方法及装置
CN108510764B (zh) 一种基于q学习的多路口自适应相位差协调控制***及方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
WO2021051870A1 (zh) 基于强化学习模型的信息控制方法、装置和计算机设备
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
Prothmann et al. Organic control of traffic lights
CN113223305B (zh) 基于强化学习的多路***通灯控制方法、***及存储介质
CN103593535A (zh) 基于多尺度融合的城市交通复杂自适应网络平行仿真***及方法
CN113436443B (zh) 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN111047884A (zh) 一种基于雾计算和强化学习的交通灯控制方法
WO2023123885A1 (zh) 交通信号控制方法、装置、电子设备、存储介质和程序产品
CN110718077A (zh) 一种行动-评价机制下信号灯优化配时方法
Dogan et al. Estimation of delay and vehicle stops at signalized intersections using artificial neural network
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN109752952B (zh) 一种获取多维随机分布及强化控制器的方法和装置
CN115171408B (zh) 一种交通信号优化控制方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN115762128B (zh) 一种基于自注意力机制的深度强化学习交通信号控制方法
CN115273502B (zh) 一种交通信号协同控制方法
CN116189454A (zh) 交通信号控制方法、装置、电子设备及存储介质
Shahriar et al. Intersection traffic efficiency enhancement using deep reinforcement learning and V2X communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant