CN114550456B

CN114550456B - 基于强化学习的城市交通堵塞调度方法

Info

Publication number: CN114550456B
Application number: CN202210188427.3A
Authority: CN
Inventors: 肖友
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2023-07-04
Anticipated expiration: 2042-02-28
Also published as: CN114550456A

Abstract

本发明公开了一种基于强化学习的城市交通堵塞调度方法，通过图像传感器和电感传感器获取城市道路交叉口的车辆数量信息、车辆排队信息和交通灯状态的实时数据；再利用机器学习算法，根据车辆数量信息、车辆排队信息和交通灯状态的实时数据，结合从图像信息与储备结构化数据获取的路段限制与车道信息的交叉口先验知识，形成交叉口路况状态数据作为调度模型训练数据；调度模型根据环境反馈的交叉口各车道的通行效果和奖励函数计算奖励信号，从而训练调度模型；利用强化学习算法，基于交叉口路况状态数据与交叉口通行安全准则训练调度模型；以交叉口路况状态数据作为输入，通过完成训练后的调度模型输出交通灯状态指令及相应交通灯控制信号。

Description

基于强化学习的城市交通堵塞调度方法

技术领域

本发明涉及智能交通领域，具体涉及一种基于强化学习的城市交通堵塞调度方法。

背景技术

随着人民经济水平的不断提高和城市化进程的推进，汽车作为最主要的交通工具走入了千家万户，城市交通拥堵的问题也越发严重。交通堵塞一方面会降低社会生产力，造成大量的经济损失，同时会消耗燃油资源，并导致严重的二氧化碳排放问题。因此，提升城市通行效率、优化交通调度方法在现代化交通领域占据重要地位，其中交通灯路口通行是城市路段最为普遍的通行效率瓶颈。

现有的交通灯控制方法主要分为两大类别，一类是基于规则的传统信号灯控制算法，如固定时长、交通流量、车道占用比等算法，此类方法对场景的认知比较片面，在复杂场景下难以应对车辆流调度，车辆通行效率较低。另一类是基于机器学习的自适应控制算法，如基于强化学习的交通灯调度算法，强化学习已在游戏博弈、优化调度等领域取得了良好的表现，由于强化学习能够自我学习并提高决策能力的特点，近年来也在交通灯控制领域引起关注。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种提高城市车辆通行效率，缓解交通堵塞情况的基于强化学习的城市交通堵塞调度方法。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种基于强化学习的城市交通堵塞调度方法，包括以下步骤：

(1)通过图像传感器和电感传感器获取城市道路交叉口的车辆数量信息、车辆排队信息和交通灯状态的实时数据；

(2)利用机器学习算法，根据车辆数量信息、车辆排队信息和交通灯状态的实时数据，结合从图像信息与储备结构化数据获取的路段限制与车道信息的交叉口先验知识，联合形成交叉口路况状态数据作为调度模型训练数据；

(3)采用强化学习算法，在给定时刻，调度模型根据交叉口路况状态数据和交叉口通行安全准则在交通灯状态切换的动作空间内选择一个交通灯状态切换动作，并根据环境反馈的交叉口各车道的通行效果和奖励函数计算奖励信号，在多次迭代后使模型选择的动作最大化奖励信号，从而训练调度模型；

(4)以交叉口路况状态数据作为输入，通过完成训练后的调度模型输出交通灯状态指令及相应交通灯控制信号。

作为优化，在步骤(1)中，还通过激光雷达获取接近交叉口车辆的行驶速度，还通过温度传感器和湿度传感器获取交叉口的环境状态信息。

作为优化，在步骤(2)中，先对车辆数量信息、车辆排队信息和交通灯状态的实时数据进行数据清洗、特征构建的数据预处理工作，然后利用CNN、MLP、GBDT、SVM中任意一种机器学习算法，提取作为调度模型输入的结构化实时路况特征。

作为优化，在步骤(2)中，交叉口先验知识包括路段速度限制、转向限制、车道数量、车道类别和交通灯切换时长。

作为优化，在步骤(3)中，强化学***均速度、车辆数量、车辆位置、车道数量、车道类别、天气状态、事故状态和通行效率，其中通行效率通过公式①计算得到，奖励函数的变量包括通行数量、车辆等待时间、通行前后车辆平均速度差和交通灯是否切换；

其中efficiency为车辆整体通行效率，v_{car_avg}为交叉口车辆平均速度，v_{lane_speed_limit}为路口上限速度。

作为优化，在步骤(3)中，交叉口通行安全准则是对该交叉口安全通行的基本约束，以保证各个车道的车流不会发生碰撞。

作为优化，在步骤(4)中，将交叉口路况状态数据与交叉口先验知识输入调度模型中，得到交通灯目标状态，若当前交通灯状态与目标状态一致，则不进行交通灯切换动作，否则将交通灯切换到目标状态。

综上所述，本发明的有益效果在于：本发明通过当前交叉口路况信息，结合强化学习算法，解决了传统调度算法策略输入不全面、控制策略不灵活的问题，为城市复杂交通网络调度提供了解决方案，有效缓解交通堵塞情况，提高了城市车辆通行效率。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明中交叉口车辆调度控制整体流程图；

图2为本发明中强化学习模型信息流程图；

图3为本发明中交通灯的有效状态空间图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1和图2所示，本具体实施方式中的基于强化学习的城市交通堵塞调度方法，包括以下步骤：

本具体实施方式中，在步骤(1)中，还通过激光雷达获取接近交叉口车辆的行驶速度，还通过温度传感器和湿度传感器获取交叉口的环境状态信息。

本具体实施方式中，在步骤(2)中，先对车辆数量信息、车辆排队信息和交通灯状态的实时数据进行数据清洗、特征构建的数据预处理工作，然后利用CNN、MLP、GBDT、SVM中任意一种机器学习算法，提取作为调度模型输入的结构化实时路况特征。

本具体实施方式中，在步骤(2)中，交叉口先验知识包括路段速度限制、转向限制、车道数量、车道类别和交通灯切换时长。

本具体实施方式中，在步骤(3)中，强化学***均速度、车辆数量、车辆位置、车道数量、车道类别、天气状态、事故状态和通行效率，其中通行效率通过公式①计算得到，奖励函数的变量包括通行数量、车辆等待时间、通行前后车辆平均速度差和交通灯是否切换；

本具体实施方式中，在步骤(3)中，交叉口通行安全准则是对该交叉口安全通行的基本约束，以保证各个车道的车流不会发生碰撞。在调度模型中，可将安全准则与交通灯状态空间相结合，如对于标准十字路口，交通灯的有效状态空间可认为有8个状态，如图3所示，因此根据路况状态输入可根据模型选择8个状态中奖励最大的状态作为交通灯目标状态

本具体实施方式中，在步骤(4)中，将交叉口路况状态数据与交叉口先验知识输入调度模型中，得到交通灯目标状态，若当前交通灯状态与目标状态一致，则不进行交通灯切换动作，否则将交通灯切换到目标状态。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种基于强化学习的城市交通堵塞调度方法，其特征在于：包括以下步骤：

(3)采用强化学***均速度、车辆数量、车辆位置、车道数量、车道类别、天气状态、事故状态和通行效率，在给定时刻，调度模型根据交叉口路况状态数据和交叉口通行安全准则在交通灯状态切换的动作空间内选择一个交通灯状态切换动作，并根据环境反馈的交叉口各车道的通行效果和奖励函数计算奖励信号，在多次迭代后使模型选择的动作最大化奖励信号，从而训练调度模型；

2.根据权利要求1所述的基于强化学习的城市交通堵塞调度方法，其特征在于：在步骤(1)中，还通过激光雷达获取接近交叉口车辆的行驶速度，还通过温度传感器和湿度传感器获取交叉口的环境状态信息。

3.根据权利要求1所述的基于强化学习的城市交通堵塞调度方法，其特征在于：在步骤(2)中，先对车辆数量信息、车辆排队信息和交通灯状态的实时数据进行数据清洗、特征构建的数据预处理工作，然后利用CNN、MLP、GBDT、SVM中任意一种机器学习算法，提取作为调度模型输入的结构化实时路况特征。

4.根据权利要求1所述的基于强化学习的城市交通堵塞调度方法，其特征在于：在步骤(2)中，交叉口先验知识包括路段速度限制、转向限制、车道数量、车道类别和交通灯切换时长。

5.根据权利要求1所述的基于强化学***均速度差和交通灯是否切换；

6.根据权利要求1所述的基于强化学习的城市交通堵塞调度方法，其特征在于：在步骤(3)中，交叉口通行安全准则是对该交叉口安全通行的基本约束，以保证各个车道的车流不会发生碰撞。

7.根据权利要求1所述的基于强化学习的城市交通堵塞调度方法，其特征在于：在步骤(4)中，将交叉口路况状态数据与交叉口先验知识输入调度模型中，得到交通灯目标状态，若当前交通灯状态与目标状态一致，则不进行交通灯切换动作，否则将交通灯切换到目标状态。