CN113780624A - 一种基于博弈均衡理论的城市路网信号协调控制方法 - Google Patents
一种基于博弈均衡理论的城市路网信号协调控制方法 Download PDFInfo
- Publication number
- CN113780624A CN113780624A CN202110908404.0A CN202110908404A CN113780624A CN 113780624 A CN113780624 A CN 113780624A CN 202110908404 A CN202110908404 A CN 202110908404A CN 113780624 A CN113780624 A CN 113780624A
- Authority
- CN
- China
- Prior art keywords
- intersection
- action
- agent
- game
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000000875 corresponding effect Effects 0.000 claims abstract description 19
- 230000002787 reinforcement Effects 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 33
- 230000008901 benefit Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 230000007547 defect Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000001276 controlling effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Operations Research (AREA)
- Human Resources & Organizations (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种基于博弈均衡理论的城市路网信号协调控制方法,包括:在车路协同环境下收集车辆信息;根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态;通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略;采用多智能体强化学习方法,对交叉口的收益矩阵进行更新;基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。与现有技术相比,本发明能够在车路协同环境下实现分布式信号线协同控制,避免了传统集中式方法计算时间长的缺陷,使每个信号交叉口达到博弈均衡状态,从而提高交叉口的通行效率,避免发生拥堵现象。
Description
技术领域
本发明涉及智能交通控制技术领域,尤其是涉及一种基于博弈均衡理论的城市路网信号协调控制方法。
背景技术
城市路网信号协调控制是缓解交通拥堵、提高通行效率的有效方法之一,但是目前路网信号协调控制的方法大多基于集中式方法,利用启发式算法获得最优控制方案,求解效率低,难以在实际中应用。
近年来,车路协同技术的快速发展,在解决交通安全、道路拥堵和改善驾乘体验上展现出的巨大潜力。在车路协同环境下,车辆及周围环境的信息可以实时获取,城市路网信号***可以看作是具有信息感知和处理能力的多智能体***。现有的城市路网协调控制研究面临两个挑战:一是协调控制要求每个智能体的行为相互协作,这可能会导致优化模型结果不收敛,只能通过启发式算法获得近似解,降低协调控制的稳定性;另一个挑战是传统的集中式控制方案容易陷入维数灾难,联合策略空间随着网络规模的增大而迅速增长,导致计算效率显著降低。这些都会导致交叉口通行效率较低、容易发生交通拥堵,因此,设计一种稳定性强、分布式的路网信号协调控制方法,是当下亟需解决的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于博弈均衡理论的城市路网信号协调控制方法,以在车路协同环境下实现分布式信号协同控制,从而提高交叉口通行效率。
本发明的目的可以通过以下技术方案来实现:一种基于博弈均衡理论的城市路网信号协调控制方法,包括以下步骤:
S1、在车路协同环境下收集车辆信息;
S2、根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态;
S3、通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略,所述智能体具体为参与博弈的交叉口;
S4、采用多智能体强化学习方法,对交叉口的收益矩阵进行更新,所述收益矩阵具体为交叉口对应于不同动作所获得的收益;
基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。
进一步地,所述步骤S1具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间。
进一步地,所述步骤S1具体包括以下步骤:
S11、将交叉口连接路段设定为控制区域,控制区域内的车辆实时与交叉口信号控制器进行通讯,以将车辆信息传输给交叉口信号控制器;
S12、各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯,以获取相邻交叉口的车辆信息。
进一步地,所述步骤S2具体包括以下步骤:
S21、每个交叉口根据各个进口道的排队长度,以确定信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si;
S22、根据两个相邻交叉口各自的交通状态si和sj,得到两个交叉口i和j的联合状态s。
进一步地,所述步骤S3具体包括以下步骤:
S31、定义智能体动作策略;
S32、定义智能体收益函数;
S33、以交叉口作为分布式信号控制智能体,即作为参与者,通过构建分布式信号控制混合策略博弈模型,得到混合策略博弈的均衡概率分布;
S34、得到混合策略博弈的均衡概率分布后,采用贪心策略选择得到智能体的动作策略。
进一步地,所述步骤S31具体是定义智能体动作策略为执行的信号相位以及对应的执行时长。
进一步地,所述步骤S32具体是定义智能体收益函数为动作执行前后车辆排队时间的差值:
其中,Wi,t和Ni,t分别为交叉口i的车辆总排队时间和车辆排队数量,如果车辆队列开始消散,信号控制智能体将获得奖励;否则,智能体将受到处罚,为所有相邻交叉口在交叉口i执行动作前后的平均收益,μ为相邻交叉口收益的影响因子。
进一步地,所述步骤S33中分布式信号控制混合策略博弈模型具体为:
s.t.Qixi≥1
xi≥0
其中,v为交叉口的最小收益值,πi,a为智能体i选择动作a的概率,Qi为智能体i的收益矩阵,A为交叉口i所有可能的动作的集合,xi,a为交叉口i选择动作a的混合策略概率πi,a对应的中间变量,xi为所有xi,a的集合;
混合策略博弈的均衡概率分布具体为:
其中,πi为第i个参与者选择动作策略的概率分布,为智能体i在状态s下混合策略博弈的均衡概率分布,∏i为参与者i可供选择的动作空间,Qi为参与者i的收益,为其他智能体的均衡概率分布,k为参与者的总数量。
进一步地,所述步骤S34具体是设定一个取值范围为0到1的数ε,之后随机生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;否则按照步骤S33求解得到的均衡概率分布选取动作。
进一步地,所述步骤S4中采用多智能体强化学习方法对交叉口的收益矩阵进行更新的具体过程为:
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t;
智能体i记录动作执行前的联合状态si、执行的动作ai以及执行动作带来的收益ri,t;
采用Nash Q-1earning方法对收益矩阵Qi进行迭代更新,迭代公式为:
其中,为迭代更新前收益矩阵Qi中对应状态si以及各智能体策略选择为a1,...,an的情况下对应的收益值,为第k个参与者的均衡概率分布,ri,t为智能体i执行动作策略后在时刻t收到的收益回报,为迭代更新后的收益值,α和γ分别为学习率和折现率,为智能体i在其状态si的收益。
与现有技术相比,本发明具有以下优点:
一、本发明将交叉口之间的信号协调控制看作一种博弈关系,从而将将集中式的协调控制方法转化为易于求解的分布式博弈模型,利用车路协同技术获取车辆信息以判断当前交通状态、构建分布式博弈模型求解最优动作策略,由此在车路协同环境下实现分布式信号线协同控制,避免了传统集中式方法计算时间长的缺陷,让每个信号交叉口达到博弈均衡状态,从而提高交叉口的通行效率,避免发生严重的拥堵,有效降低车均延误、等待时间和停车次数。
二、本发明通过分布式博弈模型求解得到最优动作策略后,继续计算该最优动作策略对应的收益,采用多智能体强化学习方法对收益值进行更新,进一步保证分布式博弈模型的精准性,从而有效提高信号协调控制的稳定性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例的应用过程示意图;
图3为实施例中智能体动作策略示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于博弈均衡理论的城市路网信号协调控制方法,包括以下步骤:
S1、在车路协同环境下收集车辆信息,具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间:
首先将交叉口连接路段设定为控制区域,控制区域内的车辆实时与交叉口信号控制器进行通讯,以将车辆信息传输给交叉口信号控制器;
各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯,以获取相邻交叉口的车辆信息;
S2、根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态,具体的:每个交叉口根据各个进口道的排队长度,以确定信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si;
根据两个相邻交叉口各自的交通状态si和sj,得到两个交叉口i和j的联合状态s;
S3、通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略,智能体具体为参与博弈的交叉口,具体的:
S31、定义智能体动作策略为执行的信号相位以及对应的执行时长;
S32、定义智能体收益函数为动作执行前后车辆排队时间的差值:
其中,Wi,t和Ni,t分别为交叉口i的车辆总排队时间和车辆排队数量,如果车辆队列开始消散,信号控制智能体将获得奖励;否则,智能体将受到处罚,为所有相邻交叉口在交叉口i执行动作前后的平均收益,μ为相邻交叉口收益的影响因子;
S33、以交叉口作为分布式信号控制智能体,即作为参与者,通过构建分布式信号控制混合策略博弈模型,得到混合策略博弈的均衡概率分布,其中,分布式信号控制混合策略博弈模型具体为:
s.t.Qixi≥1
xi≥0
式中,v为交叉口的最小收益值,πi,a为智能体i选择动作a的概率,Qi为智能体i的收益矩阵,A为交叉口i所有可能的动作的集合,xi,a为交叉口i选择动作a的混合策略概率πi,a对应的中间变量,xi为所有xi,a的集合;
混合策略博弈的均衡概率分布具体为:
式中,πi为第i个参与者选择动作策略的概率分布,为智能体i在状态s下混合策略博弈的均衡概率分布,Πi为参与者i可供选择的动作空间,Qi为参与者i的收益,为其他智能体的均衡概率分布,k为参与者的总数量;
S34、得到混合策略博弈的均衡概率分布后,采用贪心策略选择得到智能体的动作策略,具体是设定一个取值范围为0到1的数ε,之后随机生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;否则按照步骤S33求解得到的均衡概率分布选取动作;
S4、采用多智能体强化学习方法,对交叉口的收益矩阵进行更新,收益矩阵具体为交叉口对应于不同动作所获得的收益:
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t;
智能体i记录动作执行前的联合状态si、执行的动作ai以及执行动作带来的收益ri,t;
采用Nash Q-learning方法对收益矩阵Qi进行迭代更新,迭代公式为:
其中,为迭代更新前收益矩阵Qi中对应状态si以及各智能体策略选择为a1,...,an的情况下对应的收益值,为第k个参与者的均衡概率分布,ri,t为智能体i执行动作策略后在时刻t收到的收益回报,为迭代更新后的收益值,α和γ分别为学习率和折现率,为智能体i在其状态si的收益;
基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。
本实施例应用上述技术方案,具体过程如图2所示,包括:
步骤1、收集车辆信息
利用车路协同技术,交叉口信号控制智能体可以通过摄像头、雷达等设备通过通讯技术获取各个进口道的排队长度、车辆排队时间等信息:
(1.1)将交叉口连接路段作为控制区,该区域内的车辆需要实时与交叉口信号控制器进行通讯,并将自身信息发送给信号控制器;
(1.2)信号控制器收集各进口道排队长度、车辆排队等待时间信息,同时各交叉口信号控制器之间可以实现信息共享,获取临近交叉口的信息,并具备实时计算和控制信号灯的能力。
步骤2、判断交叉口及其相邻交叉***通状态
(2.1)判断交叉口自身交通状态。
每个交叉口获取其各个进口道的排队长度,得到信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si,以四相位信号控制(东西直行,东西左转,南北直行,南北左转)为例,则该交叉口共有N=24种状态空间。
(2.2)判断联合状态。
选取该交叉口i的某一相邻交叉口j,在采用相同信号控制方案的情况下,两个交叉口共有N2中联合状态空间,以四相位信号控制(东西直行,东西左转,南北直行,南北左转)为例,则联合状态空间的大小为576,根据两个交叉口各自的交通状态si和sj,可以判断当前两个交叉口的联合状态s。
步骤3、构建分布式信号控制博弈模型
(3.1)定义智能体动作策略。
如图3所示,定义智能体动作策略为选取何种信号相位执行,其执行时长为最小绿灯时间gmin,该交叉口i选取的动作策略(即信号相位)定义为ai。
(3.2)定义智能体收益函数。
为有效降低车均延误,利用交叉口处所有车辆的平均等待时间作为最小化总延误的目标。将收益定义为执行动作前后车辆平均等待时间的差值:
其中Wi,t和Ni,t分别表示总等待时间和等车辆总数。如果车辆队列开始消散,信号控制智能体将获得奖励;否则,智能体将受到处罚。此外,田来表示所有相邻交叉口在交叉口i执行动作前后的平均收益,μ为相邻交叉口收益的影响因子。
(3.3)构建分布式信号控制混合策略博弈模型。
则称为智能体i在状态s下混合策略博弈的均衡概率分布。其中Πi表示参与者i可供选择的动作空间,Qi表示收益,表示其他智能体的均衡概率分布。为了得到纳什均衡解,构建线性规划模型来最大化收益v的最小值(v表示某一个交叉口在执行所有可能的信号控制方案下,获得的最小的收益值,由于交叉口获得的收益值是和自己以及周围交叉口信号控制有关的,而每一个交叉口不知道周围交叉口会采取什么样的信号控制方案,为了保护自己在最坏情况下(也就是可能获得收益的最小值)获得的收益不是那么小,所以这个模型的目标是最大化收益的最小值v):
s.t.Qixi≥1
xi≥0
其中πi,a表示智能体i选择动作a的概率,Qi表示智能体i的收益矩阵(即在每种状态下采用某种动作获得的历史收益估计值),xi,a式转化后的混合策略概率。
求解上述线性规划模型后,即可得到交叉口i与某一个相邻交叉口j的博弈均衡解。假设交叉口i共有Ji个相邻交叉口,则会得到Ji个不同的混合策略概率分布,对所有的混合策略概率分布求其平均值,则可以得到最终的动作策略选择的概率分布。值得注意的是,该博弈是分布式建模的,每个智能体与相邻的其中一个智能体进行博弈,而不是以集中的、区域的方式进行博弈。每个智能体都将执行Ji次两个参与者的混合策略博弈。
(3.4)基于贪心策略选择智能体动作策略。
得到混合策略博弈的均衡概率分布后,采用ε贪心策略选择智能体的动作策略。具体来说,给定一个取值范围为0到1的数ε,***生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;反之,则按照步骤(3.3)求解得到的均衡概率分布π*选取动作,为了更好地训练智能体,ε初始值为1,且随着训练次数的增加逐渐减小。
步骤4、多智能体强化学习方法对历史收益进行更新
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t。智能体i记录动作执行前的联合状态si,执行的动作ai,执行动作带来的收益ri,t(由步骤3.2获取),然后利用Nash Q-learning方法对收益矩阵Qi进行更新。
具体来说,Nash Q-learning定义了一个迭代过程,用于更新迭代收益值,其迭代公式如下:
其中
式中表示迭代更新前,收益矩阵Qi中对应状态si,各智能体策略选择为a1,...,an的情况下对应的收益值;为第k个参与者的均衡概率分布;ri,t智能体i执行动作策略后在时刻t收到的收益回报;为迭代更新后的收益值;α和γ分别为学习率和折现率;为智能体i在其状态si的收益。
根据Nash Q-learning迭代更新策略,各信号控制智能体i将从历史采取的动作策略获得的收益中学习如何在状态si下采取策略。更新后收益矩阵Qi将用于信号控制智能体在未来的博弈模型中。
本发明提出的技术方案中,分布式博弈信号协调控制框架能够保证灵活的信号相位选择方案,使得信号控制器可以灵活切换相位并延长绿灯时间。经过多智能体强化学习过程,路网中各信号控制智能体将学习得到最优的控制策略(收益矩阵),并根据该最优策略在现实中执行。本发明利用车路协同技术收集交叉口处车辆排队信息,利用分布式博弈模型对交叉口之间的信号协调控制进行建模,以降低排队时间和延误为目标,通过博弈关系实现交叉口之间的协调控制,提高交叉口通行效率,避免发生严重的拥堵,有效降低车均延误、等待时间和停车次数,使城市大规模多交叉口协同控制成为可能。
Claims (10)
1.一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,包括以下步骤:
S1、在车路协同环境下收集车辆信息;
S2、根据收集的车辆信息,确定当前交叉口的交通状态、当前交叉口及其相邻交叉口的联合状态;
S3、通过构建分布式信号控制博弈模型,结合贪心策略,以得到智能体的动作策略,所述智能体具体为参与博弈的交叉口;
S4、采用多智能体强化学习方法,对交叉口的收益矩阵进行更新,所述收益矩阵具体为交叉口对应于不同动作所获得的收益;
基于更新后的收益矩阵,结合分布式信号控制博弈模型,得到对应的动作信号,以相应控制信号灯工作状态。
2.根据权利要求1所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S1具体是利用交叉口信号控制器收集交叉口各个进口道的排队长度和车辆排队时间。
3.根据权利要求2所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、将交叉口连接路段设定为控制区域,控制区域内的车辆实时与交叉口信号控制器进行通讯,以将车辆信息传输给交叉口信号控制器;
S12、各交叉口信号控制器同时与其余相邻交叉口信号控制器进行通讯,以获取相邻交叉口的车辆信息。
4.根据权利要求3所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、每个交叉口根据各个进口道的排队长度,以确定信号控制方向m的平均排队长度lm,根据lm的大小排序即可得到该交叉口i的交通状态si;
S22、根据两个相邻交叉口各自的交通状态si和sj,得到两个交叉口i和j的联合状态s。
5.根据权利要求1所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、定义智能体动作策略;
S32、定义智能体收益函数;
S33、以交叉口作为分布式信号控制智能体,即作为参与者,通过构建分布式信号控制混合策略博弈模型,得到混合策略博弈的均衡概率分布;
S34、得到混合策略博弈的均衡概率分布后,采用贪心策略选择得到智能体的动作策略。
6.根据权利要求5所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S31具体是定义智能体动作策略为执行的信号相位以及对应的执行时长。
8.根据权利要求7所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S33中分布式信号控制混合策略博弈模型具体为:
s.t.Qixi≥1
xi≥0
其中,v为交叉口的最小收益值,πi,a为智能体i选择动作a的概率,Qi为智能体i的收益矩阵,A为交叉口i所有可能的动作的集合,xi,a为交叉口i选择动作a的混合策略概率πi,a对应的中间变量,xi为所有xi,a的集合;
混合策略博弈的均衡概率分布具体为:
9.根据权利要求5所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S34具体是设定一个取值范围为0到1的数ε,之后随机生成一个取值范围为0到1的随机数n,如果n≤ε,则随机选取一个动作并执行;否则按照步骤S33求解得到的均衡概率分布选取动作。
10.根据权利要求8所述的一种基于博弈均衡理论的城市路网信号协调控制方法,其特征在于,所述步骤S4中采用多智能体强化学习方法对交叉口的收益矩阵进行更新的具体过程为:
执行动作策略后,智能体i收集车辆排队等待时间,由此计算该动作带来的收益ri,t;
智能体i记录动作执行前的联合状态si、执行的动作ai以及执行动作带来的收益ri,t;
采用Nash Q-learning方法对收益矩阵Qi进行迭代更新,迭代公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908404.0A CN113780624B (zh) | 2021-08-09 | 2021-08-09 | 一种基于博弈均衡理论的城市路网信号协调控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908404.0A CN113780624B (zh) | 2021-08-09 | 2021-08-09 | 一种基于博弈均衡理论的城市路网信号协调控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780624A true CN113780624A (zh) | 2021-12-10 |
CN113780624B CN113780624B (zh) | 2023-08-29 |
Family
ID=78837180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110908404.0A Active CN113780624B (zh) | 2021-08-09 | 2021-08-09 | 一种基于博弈均衡理论的城市路网信号协调控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780624B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114464001A (zh) * | 2022-01-30 | 2022-05-10 | 同济大学 | 车路协同环境下城市多交叉口多层分布控制***及其方法 |
CN114973660A (zh) * | 2022-05-13 | 2022-08-30 | 黄河科技学院 | 一种模型线性化迭代更新法的交通决策方法 |
CN117173914A (zh) * | 2023-11-03 | 2023-12-05 | 中泰信合智能科技有限公司 | 一种简化复杂模型的路网信控单元解耦方法、装置及介质 |
WO2023246066A1 (zh) * | 2022-06-23 | 2023-12-28 | 北京百度网讯科技有限公司 | 基于车路协同的信号管控方法、相关装置及程序产品 |
CN117973660A (zh) * | 2024-03-29 | 2024-05-03 | 华东交通大学 | 一种多车辆动态路径选择方法与*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274684A (zh) * | 2017-08-01 | 2017-10-20 | 东南大学 | 一种车路协同环境下单点交叉口信号控制策略选择方法 |
CN110246344A (zh) * | 2019-03-28 | 2019-09-17 | 中国公路工程咨询集团有限公司 | 一种基于博弈论的信号配时方法 |
CN111942383A (zh) * | 2020-07-14 | 2020-11-17 | 南京天航智能装备研究院有限公司 | 一种电动汽车跟驰节能控制***及其博弈论方法 |
CN111994090A (zh) * | 2020-09-02 | 2020-11-27 | 中国科学技术大学 | 基于混合策略博弈的驾驶人变道切入意图识别方法及*** |
-
2021
- 2021-08-09 CN CN202110908404.0A patent/CN113780624B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274684A (zh) * | 2017-08-01 | 2017-10-20 | 东南大学 | 一种车路协同环境下单点交叉口信号控制策略选择方法 |
CN110246344A (zh) * | 2019-03-28 | 2019-09-17 | 中国公路工程咨询集团有限公司 | 一种基于博弈论的信号配时方法 |
CN111942383A (zh) * | 2020-07-14 | 2020-11-17 | 南京天航智能装备研究院有限公司 | 一种电动汽车跟驰节能控制***及其博弈论方法 |
CN111994090A (zh) * | 2020-09-02 | 2020-11-27 | 中国科学技术大学 | 基于混合策略博弈的驾驶人变道切入意图识别方法及*** |
Non-Patent Citations (3)
Title |
---|
CHENGYUAN MA: "Signal_Timing_Optimization_for_Isolated_Intersections_under_Mixed_Traffic_Environment", 《2020 IEEE 23RD INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS (ITSC)》 * |
HAO DONG: "A_multi_intersections_signal_coordinate_control_method_based_on_game_theory", 《2011 INTERNATIONAL CONFERENCE ON ELECTRONICS, COMMUNICATIONS AND CONTROL (ICECC)》 * |
KEKE LONG: "Integrated Optimization of Traffic Signals and Vehicle Trajectories at Intersection With the Consideration of Safety During Signal Change", 《IEEE ACCESS》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114464001A (zh) * | 2022-01-30 | 2022-05-10 | 同济大学 | 车路协同环境下城市多交叉口多层分布控制***及其方法 |
CN114973660A (zh) * | 2022-05-13 | 2022-08-30 | 黄河科技学院 | 一种模型线性化迭代更新法的交通决策方法 |
CN114973660B (zh) * | 2022-05-13 | 2023-10-24 | 黄河科技学院 | 一种模型线性化迭代更新法的交通决策方法 |
WO2023246066A1 (zh) * | 2022-06-23 | 2023-12-28 | 北京百度网讯科技有限公司 | 基于车路协同的信号管控方法、相关装置及程序产品 |
CN117173914A (zh) * | 2023-11-03 | 2023-12-05 | 中泰信合智能科技有限公司 | 一种简化复杂模型的路网信控单元解耦方法、装置及介质 |
CN117173914B (zh) * | 2023-11-03 | 2024-01-26 | 中泰信合智能科技有限公司 | 一种简化复杂模型的路网信控单元解耦方法、装置及介质 |
CN117973660A (zh) * | 2024-03-29 | 2024-05-03 | 华东交通大学 | 一种多车辆动态路径选择方法与*** |
CN117973660B (zh) * | 2024-03-29 | 2024-06-11 | 华东交通大学 | 一种多车辆动态路径选择方法与*** |
Also Published As
Publication number | Publication date |
---|---|
CN113780624B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113780624A (zh) | 一种基于博弈均衡理论的城市路网信号协调控制方法 | |
CN111785045B (zh) | 基于演员-评论家算法的分布式交通信号灯联合控制方法 | |
CN112700664B (zh) | 一种基于深度强化学习的交通信号配时优化方法 | |
CN112669629B (zh) | 一种基于深度强化学习的实时交通信号控制方法及装置 | |
CN108510764B (zh) | 一种基于q学习的多路口自适应相位差协调控制***及方法 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
WO2021051870A1 (zh) | 基于强化学习模型的信息控制方法、装置和计算机设备 | |
CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
Prothmann et al. | Organic control of traffic lights | |
CN113223305B (zh) | 基于强化学习的多路***通灯控制方法、***及存储介质 | |
CN103593535A (zh) | 基于多尺度融合的城市交通复杂自适应网络平行仿真***及方法 | |
CN113436443B (zh) | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 | |
CN111047884A (zh) | 一种基于雾计算和强化学习的交通灯控制方法 | |
WO2023123885A1 (zh) | 交通信号控制方法、装置、电子设备、存储介质和程序产品 | |
CN110718077A (zh) | 一种行动-评价机制下信号灯优化配时方法 | |
Dogan et al. | Estimation of delay and vehicle stops at signalized intersections using artificial neural network | |
CN115019523A (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
CN109752952B (zh) | 一种获取多维随机分布及强化控制器的方法和装置 | |
CN115171408B (zh) | 一种交通信号优化控制方法 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN115762128B (zh) | 一种基于自注意力机制的深度强化学习交通信号控制方法 | |
CN115273502B (zh) | 一种交通信号协同控制方法 | |
CN116189454A (zh) | 交通信号控制方法、装置、电子设备及存储介质 | |
Shahriar et al. | Intersection traffic efficiency enhancement using deep reinforcement learning and V2X communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |