CN110930734A

CN110930734A - 基于强化学习的闲时交通指示灯智能控制方法

Info

Publication number: CN110930734A
Application number: CN201911207789.7A
Authority: CN
Inventors: 金志刚; 韩玥
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-30
Filing date: 2019-11-30
Publication date: 2020-03-27

Abstract

本发明涉及一种基于强化学习的闲时交通指示灯控制方法，包括下列步骤：采用的SlimYOLOv3模型感知环境，解析场景，识别出场景中所有车辆类型的目标，并通过在每个目标周围定义边界框来定位这些目标的位置。采用基于DQN的强化学习方法训练交通指示灯控制智能体：a)定义动作空间，交通指示灯以的概率随机选取动作，以的概率采用贪婪算法选取动作；b)定义状态空间：任意时刻观测的路面状态为各方向不同区间的车辆个数，观测状态值为一个六维的向量；c)定义奖励函数：三个区间路段、和的惩罚权重分别为、和，奖励值为各路段惩罚权重之和；d)采用基于DQN的强化学习方法学习出使得奖励值最高的策略，得到性能优质的交通指示灯控制智能体。

Description

基于强化学习的闲时交通指示灯智能控制方法

技术领域

本发明属于智能交通指示灯技术领域，具体涉及一种基于强化学习的闲时交通指示灯控制方法。

背景技术

随着中国城市化速度的加快，城市规模逐渐扩大。在交通管理领域，政府和相关部门致力于加强城市公共交通建设，完善道路布局，打通城市微循环。目前我国城市街道十字路口的交通信号灯大多采用定时式转换控制的方式，即转换的间隔时间是固定不变的。但是在信号灯频繁的闲时路段，这种控制方式却不能很好地满足驾驶员的行车体验。比如在夜间行车时，辅路的车流较少，常常出现主路红灯等待，辅路却无一车通行的尴尬局面。如果主路信号灯较多，往往造成车辆不必要的等待或多次刹车启动的操作，不仅间接缩短了车辆的使用寿命，增加耗油量，还会给驾驶员带去烦躁的心情，大大降低行车体验的满意度。

为了解决上述问题，个别路口的交通指示灯设置为“黄闪”状态，一方面提醒过往车辆减速慢行，另一方面也保证车辆通过的效率。但在实际行车中，“黄闪”引发的事故频发。尤其是在闲时路段，由于车辆较少或夜间行车疲惫，驾驶员往往掉以轻心，在“黄闪”路口侥幸大意。因此，设计一种智能的闲时交通指示灯控制方法对提升行车幸福感有重要的发明意义。

近年来，随着人工智能的发展，智能交通指示灯控制算法层出不穷，形成了以分类讨论为核心的控制模式。控制放行时间的依据主要包括高峰或平峰、道口不同方向车流量大小、各方向车流量之比等。本发明在此基础上引入人工智能强化学习的方法，基于神经网络训练控制交通指示灯的智能体。通过对路况的观测和得到的反馈值，自动学习交通指示灯变化的优化过程，给出最优的控制决策，提供一种基于强化学习的闲时交通指示灯控制方法。

发明内容

本发明所要解决的技术问题是：提供一种适合闲时路段的智能交通指示灯控制方法，该方法在传统的分类讨论基础上引入自动学习的智能体，自主学习决策过程。本发明提出的基于强化学习的闲时交通指示灯控制方法，主要包括图像识别技术和基于DQN(Deep QNetwork，深度Q网络)的强化学习技术。目标检测指用于识别图像中目标位置的技术，可用来计算图像中的目标数量，甚至是实时视频中的目标数量。本发明中要求实时目标检测模型应该能够感知环境，解析场景，识别出场景中所有车辆类型的目标，并通过在每个目标周围定义边界框来定位这些目标的位置。本发明使用SlimYOLOv3模型十字路口视频监控进行实时目标检测，为智能交通指示灯控制方法提供数据支持。在此基础上，本发明采用DQN模型分别训练估计神经网络和目标神经网络，更新网络参数，得到交通指示灯控制智能体。为实现上述目的，本发明采取以下技术方案：

一种基于强化学习的闲时交通指示灯控制方法，包括下列步骤：

第一步：采用的SlimYOLOv3模型感知环境，解析场景，识别出场景中所有车辆类型的目标，并通过在每个目标周围定义边界框来定位这些目标的位置，对路口车辆计数：

a)设十字路口分为东西和南北两个走向，分别记为E-W和S-N，以十字路口为中心，按照距离十字路口的远近，对各个方向道路划分为x₁、x₂和x₃三个不同区间；

b)以车头为基准，用SlimYOLOv3模型检测每个区间内车辆的个数，通行方向i区间的车辆数记为n_Bi，等待方向i区间的车辆数记为n_Ri。

第二步：采用基于DQN的强化学习方法训练交通指示灯控制智能体：

a)定义动作空间：交通指示灯有E-W为绿灯、S-N为红灯和E-W为红灯、S-N为绿灯两种显示状态，分别记为B_E和B_S，初始交通指示灯状态为B_E；交通指示灯有改变和不改变两种行为，分别记为Y和N，动作空间A＝{Y，N}；交通指示灯以ε的概率随机选取动作，以1-ε的概率采用贪婪算法选取动作；

b)定义状态空间：任意时刻t观测的路面状态为各方向不同区间的车辆个数，观测状态值s_t为一个六维的向量，s_t＝[n_B1,n_B2,n_B3,n_R1,n_R2,n_R3]；

c)定义奖励函数：三个区间路段x₁、x₂和x₃的惩罚权重分别为w₁、w₂和w₃，奖励值为各路段惩罚权重之和，记为

d)初始化估计动作值网络、目标动作值网络、交通指示灯状态和路面状态，采用基于DQN的强化学习方法学习出使得奖励值最高的策略，得到性能优质的交通指示灯控制智能体。

本发明由于采取以上技术方案，其具有以下优点：

(1)采用的SlimYOLOv3模型能够实时检测目标。假设用一个已经训练好的目标检测模型，它需要2秒钟来检测图像中的物体。如果将这个模型部署在交通指示灯***中，识别后的推理将会延迟，不能对交通指示灯进行及时调整。而采用的SlimYOLOv3模型对传统的YOLOv3模型进行了改进，剪枝后的模型导致较少的训练参数和较低的计算要求，因此对于实时目标检测更方便。

(2)强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题，每个十字路***通指示灯的控制本质就是强化学习问题。与传统的QL学习方法相比，DQN一方面采用经验回放策略随机抽取经历，打乱经历之间的相关性；另一方面采用两个结构相同但参数不同的神经网络，打乱相关性，使得神经网络更新更有效率。因此本发明基于DQN提出了一种更加有效的、更加智能的交通指示灯控制方法。

附图说明

图1为SlimYOLOv3模型的工作原理。

图2为DQN模型框架。

图3为基于强化学习的闲时交通指示灯控制方法流程。

图4为十字路口示意图。

具体实施方式

本发明提出了一种基于强化学习的闲时交通指示灯控制方法，使用SlimYOLOv3模型采集实时路面车流量情况，基于DQN强化学习算法学习交通控制智能体，为闲时路段提供智能的交通指示灯控制方法，方法流程如图3所示。

具体实施方式步骤如下：

a)设十字路口分为东西和南北两个走向，分别记为E-W和S-N。交通指示灯有E-W为绿灯、S-N为红灯和E-W为红灯、S-N为绿灯两种显示状态，分别记为B_E和B_S。

b)使用SlimYOLOv3模型采集实时路面车流量情况。具体来说，以十字路口为中心，对各方向道路划分为x₁、x₂和x₃三个区间，如图4所示。以车头为基准检测每个区间内车辆的个数，分别记为n₁、n₂和n₃。t时刻的观测状态值s_t为一个六维的向量，s_t＝[n_B1,n_B2,n_B3,n_R1,n_R2,n_R3]。其中，n_Bi代表通行方向i区间的车辆数，n_Ri代表等待方向i区间的车辆数。

c)初始化经验池D、估计动作值网络Q_θ和目标动作值网络

d)初始交通指示灯状态为B_E，初始化路面状态s₀＝[n_B1,n_B2,n_B3,n_R1,n_R2,n_R3]；

e)交通指示灯有改变和不改变两种行为，分别记为Y和N，动作空间A＝{Y，N}。交通指示灯以ε的概率随机选取动作a_t，以1-ε的概率采用贪婪算法选取动作a_t＝argmax_aQ(s_t,a；θ)；

f)三个路段x₁、x₂和x₃的惩罚权重分别为w₁、w₂和w₃，奖励值为各路段惩罚权重之和，记为

交通指示灯执行动作a_t，观测奖励值r_t和下一时刻路面状态s_t+1；

g)将经历(s_t,a_t,r_t,s_t+1)记录进经验池D中；

h)从经验池D中随机抽取迷你批样本(s_j,a_j,r_j,s_j+1)；

i)计算

j)采用随机梯度下降算法最小化损失函数J(θ)＝E[(y_j-Q(s_j+1,a_j；θ))²]，更新估计动作值网络参数θ；

k)重复步骤e)～j)，每间隔c步重置网络

l)重复步骤d)～k)，直到学习出使得奖励值最高的策略π，得到性能优质的交通指示灯控制智能体。

Claims

1.一种基于强化学习的闲时交通指示灯控制方法，包括下列步骤：