CN109559530A

CN109559530A - 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法

Info

Publication number: CN109559530A
Application number: CN201910011893.2A
Authority: CN
Inventors: 葛宏伟; 宋玉美
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-04-02
Anticipated expiration: 2039-01-07
Also published as: CN109559530B

Abstract

本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法，属于机器学习与智能交通的交叉领域。本方法首先将一个区域的多交叉***通网络建模为多Agent***，各个Agent在学习策略过程中同时考虑最近时刻的相邻Agent动作的影响，使得多个Agent能协同地进行多交叉口的信号灯控制。每个Agent通过一个深度Q网络自适应控制一个交叉口，网络输入为各自对应路口的原始状态信息的离散交通状态编码。在其学习过程中将最近时刻相邻Agent的最优动作Q值迁移到网络的损失函数中。本方法能够提升区域路网的交通流量，提高道路的利用率，减少车辆的排队长度，缓解交通拥堵。该方法对各交叉口结构无限制。

Description

一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法

技术领域

本发明属于机器学习与智能交通的交叉领域，涉及一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法。

背景技术

交通拥堵问题已成为城市交通面临的迫切挑战，然而现存的基础道路设施由于空间、环境和经济方面的限制难以扩张。因此，交通信号灯的优化控制是解决这一问题的有效途径之一。通过信号灯的自适应控制，能够优化区域道路网络的交通，减少拥堵及二氧化碳的排放。

目前，不同的机器学习方法已被用于城市交通信号灯控制的研究，主要包括模糊逻辑、进化算法和动态规划。基于模糊逻辑的控制通常依据专家知识建立一组规则，再根据交通状态选择近似的信号灯相位。然而，由于规则的制定过分依赖于专家知识，对于拥有大量相位的多交叉口，获得一套有效的规则更为困难。遗传算法和蚁群算法等进化算法，由于其较低的搜索效率，在应用于大规模的交通协同优化控制时，难以满***通信号灯决策的实时性要求。动态规划难以建立有效的交通环境模型，难以解决计算成本和计算环境转移概率的问题。

交通信号灯控制实际上是一个序列决策问题，很多研究利用强化学习的框架来寻求最优控制策略。强化学习通过感知环境状态并从中获得不确定奖赏来学习由Agent组成的动态***的最优行为策略。该方法将学习视为一个试错的过程，如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的累积奖赏最大。

强化学习方法在单路口和区域多路口信号灯控制方面已有大量应用。对于多路口的信号灯控制，主要有集中式控制和分布式控制两种方式。集中控制利用强化学习训练一个单独的Agent控制整个道路网络，在每个时间步Agent对道路网络的各交叉口信号灯相位进行决策。然而，集中控制由于状态空间和动作空间会随着交叉口的线性增加而指数增长，导致状态空间和动作空间的维度灾难；分布式控制将多路口信号灯控制问题建模为多Agent***，其中每个Agent负责控制一个单路口的信号灯。Agent通过单个路口的局部环境进行决策的方式易于扩展到多交叉口。

传统的强化学***均车辆延迟只反映了历史交通数据，忽略了实时交通需求。这些解决状态空间过大的方法没有充分利用交叉口的有效状态信息，导致Agent所做的决策是基于部分信息的。

在Deep Mind实验室的Mnih提出将强化学习与深度学习联合的深度Q网络(Deep QNetwork，DQN)学习算法后(MnihV,KavukcuogluK,SilverD,et al.Human-level controlthrough deep reinforcement learning[J].Nature,2015,518(7540):529-533.)，很多学者将深度强化学习技术应用于单路口和多路口的信号灯控制。通过卷积神经网络(Convolutional Neural Network,CNN)、堆叠自编码器(Stacked Auto-Encoder,SAE)等深度学习模型进行路口状态信息的自动提取特征，Agent能够充分地利用路口状态信息进行最优决策。Li等人使用各道路车辆排队长度作为路口状态，并利用深度堆叠的自编码器来估计最优的Q值(Li L,Yisheng L,Wang F Y.Traffic signal timing via deepreinforcement learning[J].ACTAAUTOMATICASINICA,2016,3(3):247-254.)。Genders等人提出基于CNN的深度强化学习控制单路口信号灯，将状态空间定义为车辆的位置矩阵、速度矩阵和最近时刻的信号灯相位，应用带有经验回放的Q-learning算法训练单交叉口的信号灯控制器。该方法由于动作值与目标值之间的潜在相关性，使得算法的稳定性较差(Genders W,Razavi S.Using a Deep Reinforcement Learning Agent for TrafficSignal Control[J].//arXiv preprint arXiv:1611.01142,2016.)。为了解决不稳定的问题，Gao等人采用目标网络改进了Genders的方法(Gao J,ShenY,Liu J,et al.AdaptiveTraffic Signal Control:DeepReinforcement Learning Algorithm with ExperienceReplay and TargetNetwork.//arXiv preprint arXiv:1705.02755,2017.)。Jeon等人指出以往大多数强化学习研究中的参数不能完全表示实际交通状态的复杂性，他们直接使用交叉口的视频图像来表示交通状态(Jeon H J,Lee J and SohnK.Artificialintelligence for traffic signal controlbased solely on video images.Journalof Intelligent TransportationSystems,2018,22(5):433-445)。最近，Van der Pol等人首次将多Agent深度强化学习应用于规则的多路口信号灯自适应控制(Vander Pol E andOliehoek F A,Coordinated deep reinforcement learnersfor traffic lightcontrol.//In NIPS’16Workshop on Learning,Inferenceand Control of Multi-AgentSystems,2016)。首先将多Agent问题划分为多个较小的子问题(两个相邻交叉口的Agent为一个子问题，又称为“源问题”)，利用DQN算法在源问题上训练并得到近似的联合Q函数，进而将训练源问题得到的近似联合Q函数迁移至其他子问题，最后应用max-plus算法寻找最优联合动作。然而，将max-plus算法应用于以协同图表示的协作多Agent***，不能保证收敛到最优解，且在不同的源问题之间迁移Q函数要求各源问题状态空间和动作空间大小相同，因而该方法对各交叉口的网络结构施加了较强的限制。

针对多交叉***通状态特征提取困难、信号灯控制缺乏有效的协同策略以及协同策略过分依赖交叉口结构的问题，本发明提出了一种基于Q值迁移深度强化学***衡各路口的交通流量，提高区域交通中道路的利用率，减少车辆的排队长度，缓解交通拥堵。该方法对交通网络具有较好的可扩展性，并且对各交叉口结构无限制。

发明内容

针对传统的信号灯控制方法存在交通状态特征提取困难、多路口信号灯之间缺乏有效的协同策略以及算法过分依赖交叉口结构等问题，本发明提出一种带有Q值迁移的协同深度Q网络(QT-CDQN)用于多交叉口信号灯协同控制。该方法对交通状态的原始信息进行自动特征提取，并充分考虑相邻交叉口的影响，对多交叉口信号灯进行协同控制，提升了多交叉口的交通效率，缓解了各交叉口的拥堵。

本发明的技术方案：

一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法，包括如下步骤：

步骤1：将一个区域的交通网络建模为多Agent***，每个交叉口由一个Agent控制，每个Agent包括一个经验池M、一个估计网络和一个目标网络组成，分别初始化估计网络和目标网络的参数θ_i和θ_i′，初始化每个经验池。

步骤2：对进入交叉口的所有道路上的车辆进行离散状态编码，对于某个交叉口i，将从停车线开始长度为l的道路k划分为长度c的离散单元，将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵和车辆速度矩阵当车辆头部在某个离散单元上时，则车辆位置矩阵对应的位置值为1，否则值为0；将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值。对于每条进入交叉口i的车道，相应的都有一个位置矩阵和一个速度矩阵对于第i个交叉口，所有车道的和组成交叉口i的位置矩阵P_i和速度矩阵V_i。在t时刻，Agent观察到第i个交叉口的状态为其中S_i表示第i个路口的状态空间。

定义第i个交叉口的动作空间A_i，即第i个交叉口的所有可切换信号灯相位。

定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化。计算公式为：

其中，和分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度。

步骤3：在每个时间步t，将第i个交叉口当前状态输入第i个Agent的估计网络，估计网络自动提取交叉口的特征并估计各个动作对应的Q值，Agent根据估计网络输出的各个动作对应的的Q值，依据ε-贪心策略，以概率1-ε选择最大的Q值对应的动作，即否则在动作空间中随机选择一个动作然后Agent执行选择的动作动作停留时间为τ_g(最小单元时间)，交叉口进入下一个状态Agent根据公式(1)计算奖赏其中，ε的初始值为1，呈线性递减。

步骤4：将各Agent的经验存入Agent对应的经验池M中。其中，表示t时刻第i个Agent的估计网络输出的所有动作的Q值；

步骤5：从经验池M中随机采样m条经验，采用RMSProp梯度下降算法更新估计网络参数θ_i，损失函数为

其中，γ为学习率。a′为动作空间中可选的某个动作。N是第i个Agent的邻居集合，j为其中的某个邻居Agent，A_j为第j个Agent的动作空间，为第j个Agent在t-1时刻的状态，为邻居j最近时刻的最优Q值。

步骤6：令

步骤7：重复T次步骤3至步骤6。

步骤8：更新目标网络的参数θ_i′＝θ_i，ε值递减直至值为0.1。

步骤9：重复步骤3至步骤8，定时(约50小时的交通)计算一次车辆平均排队长度L，当L连续3次非递减且相邻的L差值小于0.02时，则多交叉口协同网络训练完成。

步骤10：多交叉口协同网络训练完成后，在每个时间步t，将第i个交叉口的当前状态输入第i个Agent的估计网络，各Agent的估计网络输出各个动作对应的Q值，Agent以概率1-ε选择最大的Q值对应的动作，即否则在动作空间中随机选择一个动作Agent执行动作

所述估计网络和目标网络均为卷积神经网络，均包含4个隐层，第一个卷积层由16个4×4的滤波器组成，步长为2；第二个卷积层由32个2×2的滤波器组成，步长为1；第三层和第四层是两个全连接层，分别由128和64个神经元组成。四个隐层都采用Relu非线性激活函数，然后将网络的输出值再作为最后的输出层的输入，输出层采用softmax激活函数，其中输出层的神经元个数与对应交叉口的动作空间大小相等。

本发明的有益效果：基于Q值迁移深度强化学习的信号灯协同控制方法充分利用了交叉口的状态信息，并能够协同地控制多交叉口的信号灯，该方法能扩展到更多的交叉口，且对各交叉口结构无限制。

附图说明

图1非对称结构的四交叉口示意图；

图2交通信息的离散状态编码；

图3四交叉口的动作空间；

图4估计网络和目标网络的结构；

图5带有Q值迁移的多交叉口协同控制结构；

图6基于Q值迁移深度强化学习的信号灯协同控制流程图；

图7QT-CDQN方法在四路口上的平均排队长度(其中，QT-CDQN为带有Q值迁移深度强化学习的协同控制方法，MADQN为无协同的DQN方法，FTA为根据车流量提前设定的最优定时控制方法)；

图8QT-CDQN方法在四路口上的平均速度；

图9QT-CDQN方法在四路口上的平均等待时间；

图10QT-CDQN方法在每个交叉口的平均排队长度；

图11QT-CDQN方法在每个交叉口的平均速度；

图12QT-CDQN方法在每个交叉口的平均等待时间。

具体实施方式

本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法。所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明，具体包括以下步骤：

1.四交叉口的示意图。本发明的应用不限制交叉口的结构，以图1中不规则的四交叉口为例说明，其中路口3为四路交叉口，其他的为三路交叉口，每个交叉路口都有一个信号灯控制车辆的通行。三路交叉口和四路交叉口分别有三条和四条进入路口的道路，每条道路均有两条车道。根据路口的结构，左侧车道允许车辆直行或左转，右侧车道允许车辆直行或右转。

2.交通信息的离散状态编码。将从停车线开始长度为l的道路k(k＝0,1,…12)划分为长度c的离散单元，其中c的取值要适中，c值过大则容易忽略个体车辆状态，过小会造成计算量太大。如图2所示，将路口i的道路k的车辆位置和速度记录在两个矩阵：车辆位置矩阵和车辆速度矩阵如果车辆头部在某个单元格上，则矩阵对应的位置值为1，否则值为0；将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值。对于第i个交叉口(这里以四路交叉口为例)，所有道路的车辆位置矩阵P_i和车辆速度矩阵V_i分别表示为和在t时刻，Agent观察到第i个路口的状态为其中S_i表示第i个路口的状态空间。

3.四交叉口的动作空间。在t时刻，Agent得到第i个交叉口的状态后，选择一个动作其中A_i表示第i个交叉口的动作空间，不同的交叉口对应的动作空间A_i不同，如图3所示，三路交叉口和四路交叉口分别有三个和四个不同的动作。每次选择的动作，其相位时间是一段固定长度的时间间隔τ_g(6s)，当前相位时间结束后，当前时刻t随之结束，并且开始下一个时刻t+1，Agent开始观察第i个交叉口的下一个状态状态会受最近一次所执行动作的影响，对于新状态选择下一个动作并执行(此时可能选择与上一时刻相同的动作)。

4.奖赏函数的设置。奖赏函数是在与环境交互的过程中获取的奖励信号，奖赏函数反应了Agent所面临的任务的性质，同时作为Agent修改策略的基础。在Agent观察到第i个交叉口的状态后，选择一个动作并执行，Agent将从环境中获得一个标量奖赏值以评价所执行动作的好坏。Agent追求的目标就是寻找一种状态-动作策略，使最终得到的累积奖赏值达到最大。本发明选择路口车辆平均排队长度的变化作为奖赏函数，和分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度，奖赏如式(1)所示，奖赏值为正，表示t时刻采取的动作对环境有一个积极的影响，使车辆平均排队长度减少，为负表示动作导致环境中车辆平均排队长度增加。

5.估计网络和目标网络的结构。以四交叉口的道路网络为例，每个交叉口由一个Agent控制，每个Agent由一个估计网络和一个目标网络组成，每个网络都是一个卷积神经网络。估计网络能够根据各自路口的原始交通状态进行自动特征提取并逼近状态动作值函数(Q函数)。CNN估计网络结构如图4所示(图中矩阵的维度和输出层神经元个数在实现时应根据实际情况设置)。每个路口以车辆的位置矩阵和车辆的速度构建的归一化矩阵作为对应CNN网络的输入，网络的输出为在所观察的状态下对所有动作的价值评估(Q值经过Softmax后的概率值)。CNN网络包含4个隐层，第一个卷积层由16个4×4的滤波器组成，步长为2；第二个卷积层由32个2×2的滤波器组成，步长为1；第三层和第四层是两个全连接层，分别由128和64个神经元组成。四个隐层都采用Relu非线性激活函数，然后将网络的输出值再作为最后的输出层的输入，输出层采用softmax激活函数，其中输出层的神经元个数与对应路口的动作空间大小相等。为缓解决策过程中微小的Q值变化可能导致的策略震荡问题，每个Agent新增一个与估计网络结构相同参数不同的目标网络，估计网络估计当前状态下各个动作的Q值目标网络估计目标值y_t，其中通过在一段时间内冻结目标网络的参数，使得估计网络更平稳。

6.网络的训练过程。如图5所示，各Agent只考虑相邻路口最优动作对本路口的影响，通过将相邻Agent的最近时刻的Q值迁移到各自Agent***的损失函数中，使得多个Agent能协同地进行多交叉口的信号灯控制。通过采取协同机制，一个交叉口的行为选择策略不仅依赖于其自身Q值，还取决于其相邻交叉口的Q值，该方法提升了区域路网的交通流量，缓解了交通拥堵。

将相邻路口最近时刻的最优Q值迁移到每个路口的损失函数中，损失函数为

其中，m为批大小，θ为估计网络的参数，为第i个Agent的估计网络的输出，θ′为目标网络的参数，为相应的目标网络的输出，N是第i个Agent的邻居集合，为邻居j最近时刻的最优Q值。

QT-CDQN方法的流程图如图6所示，在每个时间步t，第i个Agent将对交叉口的状态观察输入网络，根据网络输出的值使用贪心策略选择动作并执行，此时Agent由公式(2)计算得到来自环境的奖赏并进入下一个状态在每个时间步t将对第i个路口的经验存入经验池M_i中(每个agent对应一个经验池)。每个经验池最多能存储max_size(2×10⁵)条经验，存满后将最早的数据舍弃继续存入最新的经验。为了更有效的训练估计网络CNN_i的参数θ_i，每间隔一定的步数从经验池M_i中随机采样m(32)条经验，对网络进行更新。由于在更新第i个Agent的网络时会将其邻居最近时刻的最优Q值迁移到当前Agent的损失函数中，因此，从经验池Mi中随机采样后，需要从其邻居的经验池中采样对应的最近时刻的经验。

在训练中，在动作选择时采用递减的ε-贪心策略，即以概率ε(初始值为1)随机选择一个动作，以概率1-ε选择动作值最大的一个动作，ε随着训练回合的递增而递减，这种选择方法倾向于由探索逐渐转向利用，直至ε值降为0.1后保持不变。各个估计网络都采用学习率为0.0002的RMSProp梯度下降算法，目标网络的参数每T(200)步更新为最新值，即估计网络的最新参数。当估计网络能够充分地近似动作值函数Q后，通过选择当前状态下网络输出的最大值对应的动作来达到最优控制。

多交叉口协同网络训练完成后，在每个时间步t，将第i个交叉口当前状态输入第i个Agent的估计网络，各Agent的估计网络输出各个动作对应的Q值，Agent以概率1-ε选择最大的Q值对应的动作，否则在动作空间中随机选择一个动作，Agent执行所选动作。

Claims

1.一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法，其特征在于，包括如下步骤：

步骤1：将一个区域的交通网络建模为多Agent***，每个交叉口由一个Agent控制，每个Agent包括一个经验池M、一个估计网络和一个目标网络组成，分别初始化估计网络和目标网络的参数θ_i和θ_i′，初始化每个经验池；

步骤2：对进入交叉口的所有道路上的车辆进行离散状态编码，对于某个交叉口i，将从停车线开始长度为l的道路k划分为长度c的离散单元，将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵和车辆速度矩阵当车辆头部在某个离散单元上时，则车辆位置矩阵对应的位置值为1，否则值为0；将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值；对于每条进入交叉口i的车道，相应的都有一个位置矩阵和一个速度矩阵对于第i个交叉口，所有车道的和组成交叉口i的位置矩阵P_i和速度矩阵V_i；在t时刻，Agent观察到第i个交叉口的状态为其中S_i表示第i个路口的状态空间；

定义第i个交叉口的动作空间A_i，即第i个交叉口的所有可切换信号灯相位；

定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化；计算公式为：

其中，和分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度；

步骤3：在每个时间步t，将第i个交叉口当前状态输入第i个Agent的估计网络，估计网络自动提取交叉口的特征并估计各个动作对应的Q值，Agent根据估计网络输出的各个动作对应的的Q值，依据ε-贪心策略，以概率1-ε选择最大的Q值对应的动作，即否则在动作空间中随机选择一个动作然后Agent执行选择的动作动作停留时间为τ_g，交叉口进入下一个状态Agent根据公式(1)计算奖赏其中，ε的初始值为1，呈线性递减；

步骤4：将各Agent的经验存入Agent对应的经验池M中；其中，表示t时刻第i个Agent的估计网络输出的所有动作的Q值；

其中，γ为学习率；a′为动作空间中可选的某个动作；N是第i个Agent的邻居集合，j为其中的某个邻居Agent，A_j为第j个Agent的动作空间，为第j个Agent在t-1时刻的状态，为邻居j最近时刻的最优Q值；

步骤6：令

步骤7：重复T次步骤3至步骤6；

步骤8：更新目标网络的参数θ_i′＝θ_i，ε值递减直至值为0.1；

步骤9：重复步骤3至步骤8，定时计算一次车辆平均排队长度L，当L连续3次非递减且相邻的L差值小于0.02时，则多交叉口协同网络训练完成；

2.根据权利要求1所述的一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法，其特征在于，所述估计网络和目标网络均为卷积神经网络，均包含4个隐层，第一个卷积层由16个4×4的滤波器组成，步长为2；第二个卷积层由32个2×2的滤波器组成，步长为1；第三层和第四层是两个全连接层，分别由128和64个神经元组成；四个隐层都采用Relu非线性激活函数，然后将网络的输出值再作为最后的输出层的输入，输出层采用softmax激活函数，其中输出层的神经元个数与对应交叉口的动作空间大小相等。

3.根据权利要求1或2所述的一种基于Q值迁移深度强化学***均排队长度L，设置为50小时计算一次车辆平均排队长度L。