CN109559530A - 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法 - Google Patents

一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法 Download PDF

Info

Publication number
CN109559530A
CN109559530A CN201910011893.2A CN201910011893A CN109559530A CN 109559530 A CN109559530 A CN 109559530A CN 201910011893 A CN201910011893 A CN 201910011893A CN 109559530 A CN109559530 A CN 109559530A
Authority
CN
China
Prior art keywords
intersection
agent
network
value
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910011893.2A
Other languages
English (en)
Other versions
CN109559530B (zh
Inventor
葛宏伟
宋玉美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910011893.2A priority Critical patent/CN109559530B/zh
Publication of CN109559530A publication Critical patent/CN109559530A/zh
Application granted granted Critical
Publication of CN109559530B publication Critical patent/CN109559530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,属于机器学习与智能交通的交叉领域。本方法首先将一个区域的多交叉***通网络建模为多Agent***,各个Agent在学习策略过程中同时考虑最近时刻的相邻Agent动作的影响,使得多个Agent能协同地进行多交叉口的信号灯控制。每个Agent通过一个深度Q网络自适应控制一个交叉口,网络输入为各自对应路口的原始状态信息的离散交通状态编码。在其学习过程中将最近时刻相邻Agent的最优动作Q值迁移到网络的损失函数中。本方法能够提升区域路网的交通流量,提高道路的利用率,减少车辆的排队长度,缓解交通拥堵。该方法对各交叉口结构无限制。

Description

一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制 方法
技术领域
本发明属于机器学习与智能交通的交叉领域,涉及一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法。
背景技术
交通拥堵问题已成为城市交通面临的迫切挑战,然而现存的基础道路设施由于空间、环境和经济方面的限制难以扩张。因此,交通信号灯的优化控制是解决这一问题的有效途径之一。通过信号灯的自适应控制,能够优化区域道路网络的交通,减少拥堵及二氧化碳的排放。
目前,不同的机器学习方法已被用于城市交通信号灯控制的研究,主要包括模糊逻辑、进化算法和动态规划。基于模糊逻辑的控制通常依据专家知识建立一组规则,再根据交通状态选择近似的信号灯相位。然而,由于规则的制定过分依赖于专家知识,对于拥有大量相位的多交叉口,获得一套有效的规则更为困难。遗传算法和蚁群算法等进化算法,由于其较低的搜索效率,在应用于大规模的交通协同优化控制时,难以满***通信号灯决策的实时性要求。动态规划难以建立有效的交通环境模型,难以解决计算成本和计算环境转移概率的问题。
交通信号灯控制实际上是一个序列决策问题,很多研究利用强化学习的框架来寻求最优控制策略。强化学习通过感知环境状态并从中获得不确定奖赏来学习由Agent组成的动态***的最优行为策略。该方法将学习视为一个试错的过程,如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的累积奖赏最大。
强化学习方法在单路口和区域多路口信号灯控制方面已有大量应用。对于多路口的信号灯控制,主要有集中式控制和分布式控制两种方式。集中控制利用强化学习训练一个单独的Agent控制整个道路网络,在每个时间步Agent对道路网络的各交叉口信号灯相位进行决策。然而,集中控制由于状态空间和动作空间会随着交叉口的线性增加而指数增长,导致状态空间和动作空间的维度灾难;分布式控制将多路口信号灯控制问题建模为多Agent***,其中每个Agent负责控制一个单路口的信号灯。Agent通过单个路口的局部环境进行决策的方式易于扩展到多交叉口。
传统的强化学***均车辆延迟只反映了历史交通数据,忽略了实时交通需求。这些解决状态空间过大的方法没有充分利用交叉口的有效状态信息,导致Agent所做的决策是基于部分信息的。
在Deep Mind实验室的Mnih提出将强化学习与深度学习联合的深度Q网络(Deep QNetwork,DQN)学习算法后(MnihV,KavukcuogluK,SilverD,et al.Human-level controlthrough deep reinforcement learning[J].Nature,2015,518(7540):529-533.),很多学者将深度强化学习技术应用于单路口和多路口的信号灯控制。通过卷积神经网络(Convolutional Neural Network,CNN)、堆叠自编码器(Stacked Auto-Encoder,SAE)等深度学习模型进行路口状态信息的自动提取特征,Agent能够充分地利用路口状态信息进行最优决策。Li等人使用各道路车辆排队长度作为路口状态,并利用深度堆叠的自编码器来估计最优的Q值(Li L,Yisheng L,Wang F Y.Traffic signal timing via deepreinforcement learning[J].ACTAAUTOMATICASINICA,2016,3(3):247-254.)。Genders等人提出基于CNN的深度强化学习控制单路口信号灯,将状态空间定义为车辆的位置矩阵、速度矩阵和最近时刻的信号灯相位,应用带有经验回放的Q-learning算法训练单交叉口的信号灯控制器。该方法由于动作值与目标值之间的潜在相关性,使得算法的稳定性较差(Genders W,Razavi S.Using a Deep Reinforcement Learning Agent for TrafficSignal Control[J].//arXiv preprint arXiv:1611.01142,2016.)。为了解决不稳定的问题,Gao等人采用目标网络改进了Genders的方法(Gao J,ShenY,Liu J,et al.AdaptiveTraffic Signal Control:DeepReinforcement Learning Algorithm with ExperienceReplay and TargetNetwork.//arXiv preprint arXiv:1705.02755,2017.)。Jeon等人指出以往大多数强化学习研究中的参数不能完全表示实际交通状态的复杂性,他们直接使用交叉口的视频图像来表示交通状态(Jeon H J,Lee J and SohnK.Artificialintelligence for traffic signal controlbased solely on video images.Journalof Intelligent TransportationSystems,2018,22(5):433-445)。最近,Van der Pol等人首次将多Agent深度强化学习应用于规则的多路口信号灯自适应控制(Vander Pol E andOliehoek F A,Coordinated deep reinforcement learnersfor traffic lightcontrol.//In NIPS’16Workshop on Learning,Inferenceand Control of Multi-AgentSystems,2016)。首先将多Agent问题划分为多个较小的子问题(两个相邻交叉口的Agent为一个子问题,又称为“源问题”),利用DQN算法在源问题上训练并得到近似的联合Q函数,进而将训练源问题得到的近似联合Q函数迁移至其他子问题,最后应用max-plus算法寻找最优联合动作。然而,将max-plus算法应用于以协同图表示的协作多Agent***,不能保证收敛到最优解,且在不同的源问题之间迁移Q函数要求各源问题状态空间和动作空间大小相同,因而该方法对各交叉口的网络结构施加了较强的限制。
针对多交叉***通状态特征提取困难、信号灯控制缺乏有效的协同策略以及协同策略过分依赖交叉口结构的问题,本发明提出了一种基于Q值迁移深度强化学***衡各路口的交通流量,提高区域交通中道路的利用率,减少车辆的排队长度,缓解交通拥堵。该方法对交通网络具有较好的可扩展性,并且对各交叉口结构无限制。
发明内容
针对传统的信号灯控制方法存在交通状态特征提取困难、多路口信号灯之间缺乏有效的协同策略以及算法过分依赖交叉口结构等问题,本发明提出一种带有Q值迁移的协同深度Q网络(QT-CDQN)用于多交叉口信号灯协同控制。该方法对交通状态的原始信息进行自动特征提取,并充分考虑相邻交叉口的影响,对多交叉口信号灯进行协同控制,提升了多交叉口的交通效率,缓解了各交叉口的拥堵。
本发明的技术方案:
一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,包括如下步骤:
步骤1:将一个区域的交通网络建模为多Agent***,每个交叉口由一个Agent控制,每个Agent包括一个经验池M、一个估计网络和一个目标网络组成,分别初始化估计网络和目标网络的参数θi和θi′,初始化每个经验池。
步骤2:对进入交叉口的所有道路上的车辆进行离散状态编码,对于某个交叉口i,将从停车线开始长度为l的道路k划分为长度c的离散单元,将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵和车辆速度矩阵当车辆头部在某个离散单元上时,则车辆位置矩阵对应的位置值为1,否则值为0;将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值。对于每条进入交叉口i的车道,相应的都有一个位置矩阵和一个速度矩阵对于第i个交叉口,所有车道的组成交叉口i的位置矩阵Pi和速度矩阵Vi。在t时刻,Agent观察到第i个交叉口的状态为其中Si表示第i个路口的状态空间。
定义第i个交叉口的动作空间Ai,即第i个交叉口的所有可切换信号灯相位。
定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化。计算公式为:
其中,分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度。
步骤3:在每个时间步t,将第i个交叉口当前状态输入第i个Agent的估计网络,估计网络自动提取交叉口的特征并估计各个动作对应的Q值,Agent根据估计网络输出的各个动作对应的的Q值,依据ε-贪心策略,以概率1-ε选择最大的Q值对应的动作,即否则在动作空间中随机选择一个动作然后Agent执行选择的动作动作停留时间为τg(最小单元时间),交叉口进入下一个状态Agent根据公式(1)计算奖赏其中,ε的初始值为1,呈线性递减。
步骤4:将各Agent的经验存入Agent对应的经验池M中。其中,表示t时刻第i个Agent的估计网络输出的所有动作的Q值;
步骤5:从经验池M中随机采样m条经验,采用RMSProp梯度下降算法更新估计网络参数θi,损失函数为
其中,γ为学习率。a′为动作空间中可选的某个动作。N是第i个Agent的邻居集合,j为其中的某个邻居Agent,Aj为第j个Agent的动作空间,为第j个Agent在t-1时刻的状态,为邻居j最近时刻的最优Q值。
步骤6:令
步骤7:重复T次步骤3至步骤6。
步骤8:更新目标网络的参数θi′=θi,ε值递减直至值为0.1。
步骤9:重复步骤3至步骤8,定时(约50小时的交通)计算一次车辆平均排队长度L,当L连续3次非递减且相邻的L差值小于0.02时,则多交叉口协同网络训练完成。
步骤10:多交叉口协同网络训练完成后,在每个时间步t,将第i个交叉口的当前状态输入第i个Agent的估计网络,各Agent的估计网络输出各个动作对应的Q值,Agent以概率1-ε选择最大的Q值对应的动作,即否则在动作空间中随机选择一个动作Agent执行动作
所述估计网络和目标网络均为卷积神经网络,均包含4个隐层,第一个卷积层由16个4×4的滤波器组成,步长为2;第二个卷积层由32个2×2的滤波器组成,步长为1;第三层和第四层是两个全连接层,分别由128和64个神经元组成。四个隐层都采用Relu非线性激活函数,然后将网络的输出值再作为最后的输出层的输入,输出层采用softmax激活函数,其中输出层的神经元个数与对应交叉口的动作空间大小相等。
本发明的有益效果:基于Q值迁移深度强化学习的信号灯协同控制方法充分利用了交叉口的状态信息,并能够协同地控制多交叉口的信号灯,该方法能扩展到更多的交叉口,且对各交叉口结构无限制。
附图说明
图1非对称结构的四交叉口示意图;
图2交通信息的离散状态编码;
图3四交叉口的动作空间;
图4估计网络和目标网络的结构;
图5带有Q值迁移的多交叉口协同控制结构;
图6基于Q值迁移深度强化学习的信号灯协同控制流程图;
图7QT-CDQN方法在四路口上的平均排队长度(其中,QT-CDQN为带有Q值迁移深度强化学习的协同控制方法,MADQN为无协同的DQN方法,FTA为根据车流量提前设定的最优定时控制方法);
图8QT-CDQN方法在四路口上的平均速度;
图9QT-CDQN方法在四路口上的平均等待时间;
图10QT-CDQN方法在每个交叉口的平均排队长度;
图11QT-CDQN方法在每个交叉口的平均速度;
图12QT-CDQN方法在每个交叉口的平均等待时间。
具体实施方式
本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法。所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明,具体包括以下步骤:
1.四交叉口的示意图。本发明的应用不限制交叉口的结构,以图1中不规则的四交叉口为例说明,其中路口3为四路交叉口,其他的为三路交叉口,每个交叉路口都有一个信号灯控制车辆的通行。三路交叉口和四路交叉口分别有三条和四条进入路口的道路,每条道路均有两条车道。根据路口的结构,左侧车道允许车辆直行或左转,右侧车道允许车辆直行或右转。
2.交通信息的离散状态编码。将从停车线开始长度为l的道路k(k=0,1,…12)划分为长度c的离散单元,其中c的取值要适中,c值过大则容易忽略个体车辆状态,过小会造成计算量太大。如图2所示,将路口i的道路k的车辆位置和速度记录在两个矩阵:车辆位置矩阵和车辆速度矩阵如果车辆头部在某个单元格上,则矩阵对应的位置值为1,否则值为0;将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值。对于第i个交叉口(这里以四路交叉口为例),所有道路的车辆位置矩阵Pi和车辆速度矩阵Vi分别表示为在t时刻,Agent观察到第i个路口的状态为其中Si表示第i个路口的状态空间。
3.四交叉口的动作空间。在t时刻,Agent得到第i个交叉口的状态后,选择一个动作其中Ai表示第i个交叉口的动作空间,不同的交叉口对应的动作空间Ai不同,如图3所示,三路交叉口和四路交叉口分别有三个和四个不同的动作。每次选择的动作,其相位时间是一段固定长度的时间间隔τg(6s),当前相位时间结束后,当前时刻t随之结束,并且开始下一个时刻t+1,Agent开始观察第i个交叉口的下一个状态状态会受最近一次所执行动作的影响,对于新状态选择下一个动作并执行(此时可能选择与上一时刻相同的动作)。
4.奖赏函数的设置。奖赏函数是在与环境交互的过程中获取的奖励信号,奖赏函数反应了Agent所面临的任务的性质,同时作为Agent修改策略的基础。在Agent观察到第i个交叉口的状态后,选择一个动作并执行,Agent将从环境中获得一个标量奖赏值以评价所执行动作的好坏。Agent追求的目标就是寻找一种状态-动作策略,使最终得到的累积奖赏值达到最大。本发明选择路口车辆平均排队长度的变化作为奖赏函数,分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度,奖赏如式(1)所示,奖赏值为正,表示t时刻采取的动作对环境有一个积极的影响,使车辆平均排队长度减少,为负表示动作导致环境中车辆平均排队长度增加。
5.估计网络和目标网络的结构。以四交叉口的道路网络为例,每个交叉口由一个Agent控制,每个Agent由一个估计网络和一个目标网络组成,每个网络都是一个卷积神经网络。估计网络能够根据各自路口的原始交通状态进行自动特征提取并逼近状态动作值函数(Q函数)。CNN估计网络结构如图4所示(图中矩阵的维度和输出层神经元个数在实现时应根据实际情况设置)。每个路口以车辆的位置矩阵和车辆的速度构建的归一化矩阵作为对应CNN网络的输入,网络的输出为在所观察的状态下对所有动作的价值评估(Q值经过Softmax后的概率值)。CNN网络包含4个隐层,第一个卷积层由16个4×4的滤波器组成,步长为2;第二个卷积层由32个2×2的滤波器组成,步长为1;第三层和第四层是两个全连接层,分别由128和64个神经元组成。四个隐层都采用Relu非线性激活函数,然后将网络的输出值再作为最后的输出层的输入,输出层采用softmax激活函数,其中输出层的神经元个数与对应路口的动作空间大小相等。为缓解决策过程中微小的Q值变化可能导致的策略震荡问题,每个Agent新增一个与估计网络结构相同参数不同的目标网络,估计网络估计当前状态下各个动作的Q值目标网络估计目标值yt,其中通过在一段时间内冻结目标网络的参数,使得估计网络更平稳。
6.网络的训练过程。如图5所示,各Agent只考虑相邻路口最优动作对本路口的影响,通过将相邻Agent的最近时刻的Q值迁移到各自Agent***的损失函数中,使得多个Agent能协同地进行多交叉口的信号灯控制。通过采取协同机制,一个交叉口的行为选择策略不仅依赖于其自身Q值,还取决于其相邻交叉口的Q值,该方法提升了区域路网的交通流量,缓解了交通拥堵。
将相邻路口最近时刻的最优Q值迁移到每个路口的损失函数中,损失函数为
其中,m为批大小,θ为估计网络的参数,为第i个Agent的估计网络的输出,θ′为目标网络的参数,为相应的目标网络的输出,N是第i个Agent的邻居集合,为邻居j最近时刻的最优Q值。
QT-CDQN方法的流程图如图6所示,在每个时间步t,第i个Agent将对交叉口的状态观察输入网络,根据网络输出的值使用贪心策略选择动作并执行,此时Agent由公式(2)计算得到来自环境的奖赏并进入下一个状态在每个时间步t将对第i个路口的经验存入经验池Mi中(每个agent对应一个经验池)。每个经验池最多能存储max_size(2×105)条经验,存满后将最早的数据舍弃继续存入最新的经验。为了更有效的训练估计网络CNNi的参数θi,每间隔一定的步数从经验池Mi中随机采样m(32)条经验,对网络进行更新。由于在更新第i个Agent的网络时会将其邻居最近时刻的最优Q值迁移到当前Agent的损失函数中,因此,从经验池Mi中随机采样后,需要从其邻居的经验池中采样对应的最近时刻的经验。
在训练中,在动作选择时采用递减的ε-贪心策略,即以概率ε(初始值为1)随机选择一个动作,以概率1-ε选择动作值最大的一个动作,ε随着训练回合的递增而递减,这种选择方法倾向于由探索逐渐转向利用,直至ε值降为0.1后保持不变。各个估计网络都采用学习率为0.0002的RMSProp梯度下降算法,目标网络的参数每T(200)步更新为最新值,即估计网络的最新参数。当估计网络能够充分地近似动作值函数Q后,通过选择当前状态下网络输出的最大值对应的动作来达到最优控制。
多交叉口协同网络训练完成后,在每个时间步t,将第i个交叉口当前状态输入第i个Agent的估计网络,各Agent的估计网络输出各个动作对应的Q值,Agent以概率1-ε选择最大的Q值对应的动作,否则在动作空间中随机选择一个动作,Agent执行所选动作。

Claims (3)

1.一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,包括如下步骤:
步骤1:将一个区域的交通网络建模为多Agent***,每个交叉口由一个Agent控制,每个Agent包括一个经验池M、一个估计网络和一个目标网络组成,分别初始化估计网络和目标网络的参数θi和θi′,初始化每个经验池;
步骤2:对进入交叉口的所有道路上的车辆进行离散状态编码,对于某个交叉口i,将从停车线开始长度为l的道路k划分为长度c的离散单元,将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵和车辆速度矩阵当车辆头部在某个离散单元上时,则车辆位置矩阵对应的位置值为1,否则值为0;将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值;对于每条进入交叉口i的车道,相应的都有一个位置矩阵和一个速度矩阵对于第i个交叉口,所有车道的组成交叉口i的位置矩阵Pi和速度矩阵Vi;在t时刻,Agent观察到第i个交叉口的状态为其中Si表示第i个路口的状态空间;
定义第i个交叉口的动作空间Ai,即第i个交叉口的所有可切换信号灯相位;
定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化;计算公式为:
其中,分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度;
步骤3:在每个时间步t,将第i个交叉口当前状态输入第i个Agent的估计网络,估计网络自动提取交叉口的特征并估计各个动作对应的Q值,Agent根据估计网络输出的各个动作对应的的Q值,依据ε-贪心策略,以概率1-ε选择最大的Q值对应的动作,即否则在动作空间中随机选择一个动作然后Agent执行选择的动作动作停留时间为τg,交叉口进入下一个状态Agent根据公式(1)计算奖赏其中,ε的初始值为1,呈线性递减;
步骤4:将各Agent的经验存入Agent对应的经验池M中;其中,表示t时刻第i个Agent的估计网络输出的所有动作的Q值;
步骤5:从经验池M中随机采样m条经验,采用RMSProp梯度下降算法更新估计网络参数θi,损失函数为
其中,γ为学习率;a′为动作空间中可选的某个动作;N是第i个Agent的邻居集合,j为其中的某个邻居Agent,Aj为第j个Agent的动作空间,为第j个Agent在t-1时刻的状态,为邻居j最近时刻的最优Q值;
步骤6:令
步骤7:重复T次步骤3至步骤6;
步骤8:更新目标网络的参数θi′=θi,ε值递减直至值为0.1;
步骤9:重复步骤3至步骤8,定时计算一次车辆平均排队长度L,当L连续3次非递减且相邻的L差值小于0.02时,则多交叉口协同网络训练完成;
步骤10:多交叉口协同网络训练完成后,在每个时间步t,将第i个交叉口的当前状态输入第i个Agent的估计网络,各Agent的估计网络输出各个动作对应的Q值,Agent以概率1-ε选择最大的Q值对应的动作,即否则在动作空间中随机选择一个动作Agent执行动作
2.根据权利要求1所述的一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,所述估计网络和目标网络均为卷积神经网络,均包含4个隐层,第一个卷积层由16个4×4的滤波器组成,步长为2;第二个卷积层由32个2×2的滤波器组成,步长为1;第三层和第四层是两个全连接层,分别由128和64个神经元组成;四个隐层都采用Relu非线性激活函数,然后将网络的输出值再作为最后的输出层的输入,输出层采用softmax激活函数,其中输出层的神经元个数与对应交叉口的动作空间大小相等。
3.根据权利要求1或2所述的一种基于Q值迁移深度强化学***均排队长度L,设置为50小时计算一次车辆平均排队长度L。
CN201910011893.2A 2019-01-07 2019-01-07 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法 Active CN109559530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910011893.2A CN109559530B (zh) 2019-01-07 2019-01-07 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910011893.2A CN109559530B (zh) 2019-01-07 2019-01-07 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法

Publications (2)

Publication Number Publication Date
CN109559530A true CN109559530A (zh) 2019-04-02
CN109559530B CN109559530B (zh) 2020-07-14

Family

ID=65872499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910011893.2A Active CN109559530B (zh) 2019-01-07 2019-01-07 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法

Country Status (1)

Country Link
CN (1) CN109559530B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110718077A (zh) * 2019-11-04 2020-01-21 武汉理工大学 一种行动-评价机制下信号灯优化配时方法
CN110753384A (zh) * 2019-10-12 2020-02-04 西安邮电大学 基于自适应边界的分布式强化学习稳定拓扑生成方法
CN110930734A (zh) * 2019-11-30 2020-03-27 天津大学 基于强化学习的闲时交通指示灯智能控制方法
CN111081035A (zh) * 2019-12-17 2020-04-28 扬州市鑫通智能信息技术有限公司 一种基于q学习的交通信号控制方法
CN111091711A (zh) * 2019-12-18 2020-05-01 上海天壤智能科技有限公司 基于强化学习和交通车道竞争理论的交通控制方法及***
CN111091710A (zh) * 2019-12-18 2020-05-01 上海天壤智能科技有限公司 交通信号控制方法、***及介质
CN111260937A (zh) * 2020-02-24 2020-06-09 武汉大学深圳研究院 一种基于强化学习的十字路***通信号灯控制方法
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN111797857A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN111813893A (zh) * 2020-06-24 2020-10-23 重庆邮电大学 基于深度迁移学习的房地产市场分析方法、装置及设备
CN112150808A (zh) * 2020-09-25 2020-12-29 天津大学 一种基于深度学习的城市交通***调度策略生成方法
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112216129A (zh) * 2020-10-13 2021-01-12 大连海事大学 一种基于多智能体强化学习的自适应交通信号控制方法
CN112258859A (zh) * 2020-09-28 2021-01-22 航天科工广信智能技术有限公司 一种基于时间差分学习的交叉***通控制优化方法
CN112309138A (zh) * 2020-10-19 2021-02-02 智邮开源通信研究院(北京)有限公司 交通信号控制方法、装置、电子设备及可读存储介质
CN112365724A (zh) * 2020-04-13 2021-02-12 北方工业大学 一种基于深度强化学习的连续交叉口信号协同控制方法
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备
CN112669629A (zh) * 2020-12-17 2021-04-16 北京建筑大学 一种基于深度强化学习的实时交通信号控制方法及装置
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN112750298A (zh) * 2020-12-17 2021-05-04 梁宏斌 一种基于smdp和drl的货车编队动态资源分配方法
CN112927505A (zh) * 2021-01-28 2021-06-08 哈尔滨工程大学 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN112927522A (zh) * 2021-01-19 2021-06-08 华东师范大学 一种基于物联网设备的强化学习可变时长信号灯控制方法
CN113160585A (zh) * 2021-03-24 2021-07-23 中南大学 交通灯配时优化方法、***及存储介质
CN113223305A (zh) * 2021-03-26 2021-08-06 中南大学 基于强化学习的多路***通灯控制方法、***及存储介质
CN113299079A (zh) * 2021-03-29 2021-08-24 东南大学 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN113299084A (zh) * 2021-05-31 2021-08-24 大连理工大学 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
CN113487891A (zh) * 2021-06-04 2021-10-08 东南大学 一种基于纳什q学习算法的交叉口联合信号控制方法
CN113724507A (zh) * 2021-08-19 2021-11-30 复旦大学 基于深度强化学习的交通控制与车辆诱导协同方法和***
CN113963555A (zh) * 2021-10-12 2022-01-21 南京航空航天大学 一种结合状态预测的深度强化学习交通信号控制方法
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN115457781A (zh) * 2022-09-13 2022-12-09 内蒙古工业大学 一种基于多代理深度强化学习的智能交通信号灯控制方法
CN116612636A (zh) * 2023-05-22 2023-08-18 暨南大学 基于多智能体强化学习及多模态信号感知的信号灯协同控制方法
CN117275259A (zh) * 2023-11-20 2023-12-22 北京航空航天大学 一种基于领域信息回溯的多交叉口协同信号控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2916305A1 (en) * 2014-03-05 2015-09-09 Siemens Industry, Inc. Cloud-enhanced traffic controller
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
CN106340192A (zh) * 2016-10-08 2017-01-18 京东方科技集团股份有限公司 一种智能交通***及智能交通控制方法
JP2017081382A (ja) * 2015-10-27 2017-05-18 トヨタ自動車株式会社 自動運転装置
US20180013211A1 (en) * 2016-07-07 2018-01-11 NextEv USA, Inc. Duplicated wireless transceivers associated with a vehicle to receive and send sensitive information
CN108510764A (zh) * 2018-04-24 2018-09-07 南京邮电大学 一种基于q学习的多路口自适应相位差协调控制***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2916305A1 (en) * 2014-03-05 2015-09-09 Siemens Industry, Inc. Cloud-enhanced traffic controller
JP2017081382A (ja) * 2015-10-27 2017-05-18 トヨタ自動車株式会社 自動運転装置
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
US20180013211A1 (en) * 2016-07-07 2018-01-11 NextEv USA, Inc. Duplicated wireless transceivers associated with a vehicle to receive and send sensitive information
CN106340192A (zh) * 2016-10-08 2017-01-18 京东方科技集团股份有限公司 一种智能交通***及智能交通控制方法
CN108510764A (zh) * 2018-04-24 2018-09-07 南京邮电大学 一种基于q学习的多路口自适应相位差协调控制***及方法

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797857A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110264750B (zh) * 2019-06-14 2020-11-13 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110753384A (zh) * 2019-10-12 2020-02-04 西安邮电大学 基于自适应边界的分布式强化学习稳定拓扑生成方法
CN110753384B (zh) * 2019-10-12 2023-02-03 西安邮电大学 基于自适应边界的分布式强化学习稳定拓扑生成方法
CN110718077B (zh) * 2019-11-04 2020-08-07 武汉理工大学 一种行动-评价机制下信号灯优化配时方法
CN110718077A (zh) * 2019-11-04 2020-01-21 武汉理工大学 一种行动-评价机制下信号灯优化配时方法
CN110930734A (zh) * 2019-11-30 2020-03-27 天津大学 基于强化学习的闲时交通指示灯智能控制方法
CN111081035A (zh) * 2019-12-17 2020-04-28 扬州市鑫通智能信息技术有限公司 一种基于q学习的交通信号控制方法
CN111091710A (zh) * 2019-12-18 2020-05-01 上海天壤智能科技有限公司 交通信号控制方法、***及介质
CN111091711A (zh) * 2019-12-18 2020-05-01 上海天壤智能科技有限公司 基于强化学习和交通车道竞争理论的交通控制方法及***
CN111260937A (zh) * 2020-02-24 2020-06-09 武汉大学深圳研究院 一种基于强化学习的十字路***通信号灯控制方法
CN111260937B (zh) * 2020-02-24 2021-09-14 武汉大学深圳研究院 一种基于强化学习的十字路***通信号灯控制方法
CN112365724A (zh) * 2020-04-13 2021-02-12 北方工业大学 一种基于深度强化学习的连续交叉口信号协同控制方法
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN111813893A (zh) * 2020-06-24 2020-10-23 重庆邮电大学 基于深度迁移学习的房地产市场分析方法、装置及设备
CN111813893B (zh) * 2020-06-24 2022-11-18 重庆邮电大学 基于深度迁移学习的房地产市场分析方法、装置及设备
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112216124B (zh) * 2020-09-17 2021-07-27 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112150808B (zh) * 2020-09-25 2022-06-17 天津大学 一种基于深度学习的城市交通***调度策略生成方法
CN112150808A (zh) * 2020-09-25 2020-12-29 天津大学 一种基于深度学习的城市交通***调度策略生成方法
CN112258859A (zh) * 2020-09-28 2021-01-22 航天科工广信智能技术有限公司 一种基于时间差分学习的交叉***通控制优化方法
CN112216129A (zh) * 2020-10-13 2021-01-12 大连海事大学 一种基于多智能体强化学习的自适应交通信号控制方法
CN112309138A (zh) * 2020-10-19 2021-02-02 智邮开源通信研究院(北京)有限公司 交通信号控制方法、装置、电子设备及可读存储介质
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备
CN112750298A (zh) * 2020-12-17 2021-05-04 梁宏斌 一种基于smdp和drl的货车编队动态资源分配方法
CN112669629A (zh) * 2020-12-17 2021-04-16 北京建筑大学 一种基于深度强化学习的实时交通信号控制方法及装置
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法
CN112927522A (zh) * 2021-01-19 2021-06-08 华东师范大学 一种基于物联网设备的强化学习可变时长信号灯控制方法
CN112927505A (zh) * 2021-01-28 2021-06-08 哈尔滨工程大学 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN112927505B (zh) * 2021-01-28 2022-08-02 哈尔滨工程大学 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN113160585A (zh) * 2021-03-24 2021-07-23 中南大学 交通灯配时优化方法、***及存储介质
CN113160585B (zh) * 2021-03-24 2022-09-06 中南大学 交通灯配时优化方法、***及存储介质
CN113223305A (zh) * 2021-03-26 2021-08-06 中南大学 基于强化学习的多路***通灯控制方法、***及存储介质
CN113299079A (zh) * 2021-03-29 2021-08-24 东南大学 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN113299079B (zh) * 2021-03-29 2022-06-10 东南大学 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
CN113299084A (zh) * 2021-05-31 2021-08-24 大连理工大学 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
CN113487891A (zh) * 2021-06-04 2021-10-08 东南大学 一种基于纳什q学习算法的交叉口联合信号控制方法
CN113724507A (zh) * 2021-08-19 2021-11-30 复旦大学 基于深度强化学习的交通控制与车辆诱导协同方法和***
CN113724507B (zh) * 2021-08-19 2024-01-23 复旦大学 基于深度强化学习的交通控制与车辆诱导协同方法和***
CN113963555A (zh) * 2021-10-12 2022-01-21 南京航空航天大学 一种结合状态预测的深度强化学习交通信号控制方法
CN114613169B (zh) * 2022-04-20 2023-02-28 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN115457781A (zh) * 2022-09-13 2022-12-09 内蒙古工业大学 一种基于多代理深度强化学习的智能交通信号灯控制方法
CN115457781B (zh) * 2022-09-13 2023-07-11 内蒙古工业大学 一种基于多代理深度强化学习的智能交通信号灯控制方法
CN116612636A (zh) * 2023-05-22 2023-08-18 暨南大学 基于多智能体强化学习及多模态信号感知的信号灯协同控制方法
CN116612636B (zh) * 2023-05-22 2024-01-23 暨南大学 基于多智能体强化学习的信号灯协同控制方法
CN117275259A (zh) * 2023-11-20 2023-12-22 北京航空航天大学 一种基于领域信息回溯的多交叉口协同信号控制方法
CN117275259B (zh) * 2023-11-20 2024-02-06 北京航空航天大学 一种基于领域信息回溯的多交叉口协同信号控制方法

Also Published As

Publication number Publication date
CN109559530B (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN109559530A (zh) 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110264750A (zh) 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN106910351B (zh) 一种基于深度强化学习的交通信号自适应控制方法
CN110060475A (zh) 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN113643553B (zh) 基于联邦强化学习的多路口智能交通信号灯控制方法及***
CN110047278B (zh) 一种基于深度强化学习的自适应交通信号控制***及方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
Liang et al. Deep reinforcement learning for traffic light control in vehicular networks
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN110136456A (zh) 基于深度强化学习的交通信号灯防堵塞控制方法和***
CN103280114B (zh) 一种基于bp-pso模糊神经网络的信号灯智能控制方法
CN110470301A (zh) 多动态任务目标点下的无人机路径规划方法
CN113223305A (zh) 基于强化学习的多路***通灯控制方法、***及存储介质
CN108492568A (zh) 一种基于时空特性分析的短时交通流预测方法
CN102110371A (zh) 一种基于分级多智能体架构的交通信号控制***
CN113299084A (zh) 一种基于多视角编码迁移强化学习的区域信号灯协同控制方法
CN111461500B (zh) 一种基于动态电子围栏和强化学习的共享单车***潮汐现象控制方法
Xie et al. IEDQN: Information exchange DQN with a centralized coordinator for traffic signal control
CN114995119A (zh) 基于多智能体深度强化学习的城市交通信号协同控制方法
Ha-li et al. An intersection signal control method based on deep reinforcement learning
CN114613169A (zh) 一种基于双经验池dqn的交通信号灯控制方法
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
Yang et al. A meta multi-agent reinforcement learning algorithm for multi-intersection traffic signal control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant