CN110930734A - 基于强化学习的闲时交通指示灯智能控制方法 - Google Patents

基于强化学习的闲时交通指示灯智能控制方法 Download PDF

Info

Publication number
CN110930734A
CN110930734A CN201911207789.7A CN201911207789A CN110930734A CN 110930734 A CN110930734 A CN 110930734A CN 201911207789 A CN201911207789 A CN 201911207789A CN 110930734 A CN110930734 A CN 110930734A
Authority
CN
China
Prior art keywords
traffic indicator
defining
reinforcement learning
vehicles
indicator lamp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911207789.7A
Other languages
English (en)
Inventor
金志刚
韩玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911207789.7A priority Critical patent/CN110930734A/zh
Publication of CN110930734A publication Critical patent/CN110930734A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于强化学习的闲时交通指示灯控制方法,包括下列步骤:采用的SlimYOLOv3模型感知环境,解析场景,识别出场景中所有车辆类型的目标,并通过在每个目标周围定义边界框来定位这些目标的位置。采用基于DQN的强化学习方法训练交通指示灯控制智能体:a)定义动作空间,交通指示灯以的概率随机选取动作,以的概率采用贪婪算法选取动作;b)定义状态空间:任意时刻观测的路面状态为各方向不同区间的车辆个数,观测状态值为一个六维的向量;c)定义奖励函数:三个区间路段、和的惩罚权重分别为、和,奖励值为各路段惩罚权重之和;d)采用基于DQN的强化学习方法学习出使得奖励值最高的策略,得到性能优质的交通指示灯控制智能体。

Description

基于强化学习的闲时交通指示灯智能控制方法
技术领域
本发明属于智能交通指示灯技术领域,具体涉及一种基于强化学习的闲时交通指示灯控制方法。
背景技术
随着中国城市化速度的加快,城市规模逐渐扩大。在交通管理领域,政府和相关部门致力于加强城市公共交通建设,完善道路布局,打通城市微循环。目前我国城市街道十字路口的交通信号灯大多采用定时式转换控制的方式,即转换的间隔时间是固定不变的。但是在信号灯频繁的闲时路段,这种控制方式却不能很好地满足驾驶员的行车体验。比如在夜间行车时,辅路的车流较少,常常出现主路红灯等待,辅路却无一车通行的尴尬局面。如果主路信号灯较多,往往造成车辆不必要的等待或多次刹车启动的操作,不仅间接缩短了车辆的使用寿命,增加耗油量,还会给驾驶员带去烦躁的心情,大大降低行车体验的满意度。
为了解决上述问题,个别路口的交通指示灯设置为“黄闪”状态,一方面提醒过往车辆减速慢行,另一方面也保证车辆通过的效率。但在实际行车中,“黄闪”引发的事故频发。尤其是在闲时路段,由于车辆较少或夜间行车疲惫,驾驶员往往掉以轻心,在“黄闪”路口侥幸大意。因此,设计一种智能的闲时交通指示灯控制方法对提升行车幸福感有重要的发明意义。
近年来,随着人工智能的发展,智能交通指示灯控制算法层出不穷,形成了以分类讨论为核心的控制模式。控制放行时间的依据主要包括高峰或平峰、道口不同方向车流量大小、各方向车流量之比等。本发明在此基础上引入人工智能强化学习的方法,基于神经网络训练控制交通指示灯的智能体。通过对路况的观测和得到的反馈值,自动学习交通指示灯变化的优化过程,给出最优的控制决策,提供一种基于强化学习的闲时交通指示灯控制方法。
发明内容
本发明所要解决的技术问题是:提供一种适合闲时路段的智能交通指示灯控制方法,该方法在传统的分类讨论基础上引入自动学习的智能体,自主学习决策过程。本发明提出的基于强化学习的闲时交通指示灯控制方法,主要包括图像识别技术和基于DQN(Deep QNetwork,深度Q网络)的强化学习技术。目标检测指用于识别图像中目标位置的技术,可用来计算图像中的目标数量,甚至是实时视频中的目标数量。本发明中要求实时目标检测模型应该能够感知环境,解析场景,识别出场景中所有车辆类型的目标,并通过在每个目标周围定义边界框来定位这些目标的位置。本发明使用SlimYOLOv3模型十字路口视频监控进行实时目标检测,为智能交通指示灯控制方法提供数据支持。在此基础上,本发明采用DQN模型分别训练估计神经网络和目标神经网络,更新网络参数,得到交通指示灯控制智能体。为实现上述目的,本发明采取以下技术方案:
一种基于强化学习的闲时交通指示灯控制方法,包括下列步骤:
第一步:采用的SlimYOLOv3模型感知环境,解析场景,识别出场景中所有车辆类型的目标,并通过在每个目标周围定义边界框来定位这些目标的位置,对路口车辆计数:
a)设十字路口分为东西和南北两个走向,分别记为E-W和S-N,以十字路口为中心,按照距离十字路口的远近,对各个方向道路划分为x1、x2和x3三个不同区间;
b)以车头为基准,用SlimYOLOv3模型检测每个区间内车辆的个数,通行方向i区间的车辆数记为nBi,等待方向i区间的车辆数记为nRi
第二步:采用基于DQN的强化学习方法训练交通指示灯控制智能体:
a)定义动作空间:交通指示灯有E-W为绿灯、S-N为红灯和E-W为红灯、S-N为绿灯两种显示状态,分别记为B_E和B_S,初始交通指示灯状态为B_E;交通指示灯有改变和不改变两种行为,分别记为Y和N,动作空间A={Y,N};交通指示灯以ε的概率随机选取动作,以1-ε的概率采用贪婪算法选取动作;
b)定义状态空间:任意时刻t观测的路面状态为各方向不同区间的车辆个数,观测状态值st为一个六维的向量,st=[nB1,nB2,nB3,nR1,nR2,nR3];
c)定义奖励函数:三个区间路段x1、x2和x3的惩罚权重分别为w1、w2和w3,奖励值为各路段惩罚权重之和,记为
Figure BDA0002297301890000021
d)初始化估计动作值网络、目标动作值网络、交通指示灯状态和路面状态,采用基于DQN的强化学习方法学习出使得奖励值最高的策略,得到性能优质的交通指示灯控制智能体。
本发明由于采取以上技术方案,其具有以下优点:
(1)采用的SlimYOLOv3模型能够实时检测目标。假设用一个已经训练好的目标检测模型,它需要2秒钟来检测图像中的物体。如果将这个模型部署在交通指示灯***中,识别后的推理将会延迟,不能对交通指示灯进行及时调整。而采用的SlimYOLOv3模型对传统的YOLOv3模型进行了改进,剪枝后的模型导致较少的训练参数和较低的计算要求,因此对于实时目标检测更方便。
(2)强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题,每个十字路***通指示灯的控制本质就是强化学习问题。与传统的QL学习方法相比,DQN一方面采用经验回放策略随机抽取经历,打乱经历之间的相关性;另一方面采用两个结构相同但参数不同的神经网络,打乱相关性,使得神经网络更新更有效率。因此本发明基于DQN提出了一种更加有效的、更加智能的交通指示灯控制方法。
附图说明
图1为SlimYOLOv3模型的工作原理。
图2为DQN模型框架。
图3为基于强化学习的闲时交通指示灯控制方法流程。
图4为十字路口示意图。
具体实施方式
本发明提出了一种基于强化学习的闲时交通指示灯控制方法,使用SlimYOLOv3模型采集实时路面车流量情况,基于DQN强化学习算法学习交通控制智能体,为闲时路段提供智能的交通指示灯控制方法,方法流程如图3所示。
具体实施方式步骤如下:
a)设十字路口分为东西和南北两个走向,分别记为E-W和S-N。交通指示灯有E-W为绿灯、S-N为红灯和E-W为红灯、S-N为绿灯两种显示状态,分别记为B_E和B_S。
b)使用SlimYOLOv3模型采集实时路面车流量情况。具体来说,以十字路口为中心,对各方向道路划分为x1、x2和x3三个区间,如图4所示。以车头为基准检测每个区间内车辆的个数,分别记为n1、n2和n3。t时刻的观测状态值st为一个六维的向量,st=[nB1,nB2,nB3,nR1,nR2,nR3]。其中,nBi代表通行方向i区间的车辆数,nRi代表等待方向i区间的车辆数。
c)初始化经验池D、估计动作值网络Qθ和目标动作值网络
Figure BDA0002297301890000031
d)初始交通指示灯状态为B_E,初始化路面状态s0=[nB1,nB2,nB3,nR1,nR2,nR3];
e)交通指示灯有改变和不改变两种行为,分别记为Y和N,动作空间A={Y,N}。交通指示灯以ε的概率随机选取动作at,以1-ε的概率采用贪婪算法选取动作at=argmaxaQ(st,a;θ);
f)三个路段x1、x2和x3的惩罚权重分别为w1、w2和w3,奖励值为各路段惩罚权重之和,记为
Figure BDA0002297301890000032
交通指示灯执行动作at,观测奖励值rt和下一时刻路面状态st+1
g)将经历(st,at,rt,st+1)记录进经验池D中;
h)从经验池D中随机抽取迷你批样本(sj,aj,rj,sj+1);
i)计算
Figure BDA0002297301890000033
j)采用随机梯度下降算法最小化损失函数J(θ)=E[(yj-Q(sj+1,aj;θ))2],更新估计动作值网络参数θ;
k)重复步骤e)~j),每间隔c步重置网络
Figure BDA0002297301890000034
l)重复步骤d)~k),直到学习出使得奖励值最高的策略π,得到性能优质的交通指示灯控制智能体。

Claims (1)

1.一种基于强化学习的闲时交通指示灯控制方法,包括下列步骤:
第一步:采用的SlimYOLOv3模型感知环境,解析场景,识别出场景中所有车辆类型的目标,并通过在每个目标周围定义边界框来定位这些目标的位置,对路口车辆计数:
a)设十字路口分为东西和南北两个走向,分别记为E-W和S-N,以十字路口为中心,按照距离十字路口的远近,对各个方向道路划分为x1、x2和x3三个不同区间;
b)以车头为基准,用SlimYOLOv3模型检测每个区间内车辆的个数,通行方向i区间的车辆数记为nBi,等待方向i区间的车辆数记为nRi
第二步:采用基于DQN的强化学习方法训练交通指示灯控制智能体:
a)定义动作空间:交通指示灯有E-W为绿灯、S-N为红灯和E-W为红灯、S-N为绿灯两种显示状态,分别记为B_E和B_S,初始交通指示灯状态为B_E;交通指示灯有改变和不改变两种行为,分别记为Y和N,动作空间A={Y,N};交通指示灯以ε的概率随机选取动作,以1-ε的概率采用贪婪算法选取动作;
b)定义状态空间:任意时刻t观测的路面状态为各方向不同区间的车辆个数,观测状态值st为一个六维的向量,st=[nB1,nB2,nB3,nR1,nR2,nR3];
c)定义奖励函数:三个区间路段x1、x2和x3的惩罚权重分别为w1、w2和w3,奖励值为各路段惩罚权重之和,记为
Figure FDA0002297301880000011
d)初始化估计动作值网络、目标动作值网络、交通指示灯状态和路面状态,采用基于DQN的强化学习方法学习出使得奖励值最高的策略,得到性能优质的交通指示灯控制智能体。
CN201911207789.7A 2019-11-30 2019-11-30 基于强化学习的闲时交通指示灯智能控制方法 Pending CN110930734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911207789.7A CN110930734A (zh) 2019-11-30 2019-11-30 基于强化学习的闲时交通指示灯智能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911207789.7A CN110930734A (zh) 2019-11-30 2019-11-30 基于强化学习的闲时交通指示灯智能控制方法

Publications (1)

Publication Number Publication Date
CN110930734A true CN110930734A (zh) 2020-03-27

Family

ID=69848040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911207789.7A Pending CN110930734A (zh) 2019-11-30 2019-11-30 基于强化学习的闲时交通指示灯智能控制方法

Country Status (1)

Country Link
CN (1) CN110930734A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233435A (zh) * 2020-12-18 2021-01-15 深圳市城市交通规划设计研究中心股份有限公司 一种交通管控方法、***、终端设备及存储介质
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备
CN112863206A (zh) * 2021-01-07 2021-05-28 北京大学 一种基于强化学习的交通信号灯控制方法与***
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150102945A1 (en) * 2011-12-16 2015-04-16 Pragmatek Transport Innovations, Inc. Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN109215355A (zh) * 2018-08-09 2019-01-15 北京航空航天大学 一种基于深度强化学习的单点交叉口信号配时优化方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、***和存储介质
CN109509214A (zh) * 2018-10-15 2019-03-22 杭州电子科技大学 一种基于深度学习的船舶目标跟踪方法
CN109544913A (zh) * 2018-11-07 2019-03-29 南京邮电大学 一种基于深度q网络学习的交通灯动态配时算法
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150102945A1 (en) * 2011-12-16 2015-04-16 Pragmatek Transport Innovations, Inc. Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN109215355A (zh) * 2018-08-09 2019-01-15 北京航空航天大学 一种基于深度强化学习的单点交叉口信号配时优化方法
CN109509214A (zh) * 2018-10-15 2019-03-22 杭州电子科技大学 一种基于深度学习的船舶目标跟踪方法
CN109544913A (zh) * 2018-11-07 2019-03-29 南京邮电大学 一种基于深度q网络学习的交通灯动态配时算法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、***和存储介质
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、***及电子设备
CN112233435A (zh) * 2020-12-18 2021-01-15 深圳市城市交通规划设计研究中心股份有限公司 一种交通管控方法、***、终端设备及存储介质
CN112233435B (zh) * 2020-12-18 2021-04-02 深圳市城市交通规划设计研究中心股份有限公司 一种交通管控方法、***、终端设备及存储介质
CN112863206A (zh) * 2021-01-07 2021-05-28 北京大学 一种基于强化学习的交通信号灯控制方法与***
CN114613169A (zh) * 2022-04-20 2022-06-10 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法
CN114613169B (zh) * 2022-04-20 2023-02-28 南京信息工程大学 一种基于双经验池dqn的交通信号灯控制方法

Similar Documents

Publication Publication Date Title
CN110930734A (zh) 基于强化学习的闲时交通指示灯智能控制方法
WO2021051870A1 (zh) 基于强化学习模型的信息控制方法、装置和计算机设备
CN109191830B (zh) 一种基于视频图像处理的道路拥堵检测方法
CN110717433A (zh) 一种基于深度学习的交通违规分析方法及装置
WO2017156772A1 (zh) 一种乘客拥挤度的计算方法及其***
CN107316010A (zh) 一种识别前方车辆尾灯及判断其状态的方法
CN106205156A (zh) 一种针对部分车道车流突变的交叉口自愈合控制方法
CN107274672B (zh) 基于gps数据的信号交叉口单车延误时间估计方法
CN107016861A (zh) 基于深度学习和智能路灯的交通信号灯智能调控***
CN110077398B (zh) 一种用于智能驾驶的危险处理方法
CN110930723B (zh) 一种违法停车检测实现方法
CN113516854B (zh) 一种基于卡警、视频检测器的多路口协调自适应控制方法
CN104361648B (zh) 一种具有信号灯提示其他车辆的行车记录仪及其控制方法
WO2022213542A1 (zh) 基于激光雷达和轨迹预测的信控交叉口清空方法和***
CN210442948U (zh) 一种带摄像头的自动行人过街装置
CN109489679B (zh) 一种导航路径中的到达时间计算方法
CN110321897A (zh) 基于图像语义分割识别非机动车异常行为的方法
CN107590999A (zh) 一种基于卡口数据的交通状态判别方法
CN115100904B (zh) 一种基于正和博弈的慢行交通与汽车冲突预警方法及***
CN104318760B (zh) 一种基于似物性模型的路口违章行为智能检测方法及***
CN113487872B (zh) 一种基于大数据和人工智能的公交车通行时间预测方法
CN116524745B (zh) 一种云边协同区域交通信号动态配时***及方法
CN116704807A (zh) 停车场车位的引导***及方法
CN111028519A (zh) 一种基于视频流量检测器的自适应控制方法
CN113284338B (zh) 机动车紧急避让无灯控人行横道对交通流影响的计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327

RJ01 Rejection of invention patent application after publication