CN116127853A

CN116127853A - 融合时序信息的基于ddpg的无人驾驶超车决策方法

Info

Publication number: CN116127853A
Application number: CN202310197273.9A
Authority: CN
Inventors: 黄志清; 张晨阳; 王舒晴; 赵瑞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-16

Abstract

本发明公开了融合时序信息的基于DDPG的无人驾驶超车决策方法。本发明通过获取多个连续时刻的状态，如车辆速度、车轮转速、距离邻近其它车辆位置和车道线距离检测等状态信息，处理生成一个多维状态输入矩阵。然后将该状态矩阵输入到超车决策控制模型中，直接输出车辆的动作控制信号，如油门、刹车和转向角度，从而控制车辆完成超车驾驶行为。超车模型的神经网络结构基于Actor‑Critic架构，其中神经网络输入的多维状态矩阵融入了时间序列驾驶状态信息，通过时间衰减因子权重系数来控制不同时刻的状态空间所占的比重。最后通过在TORCS(TheOpenRacingCarSimulator)平台上的仿真实验表明，融合时序信息的超车模型能够控制无人车安全、精准地完成超车任务。

Description

融合时序信息的基于DDPG的无人驾驶超车决策方法

技术领域

本发明属于无人驾驶智能决策控制领域，涉及一种基于DDPG算法建模实现的无人驾驶超车决策方法。

背景技术

随着人工智能和信息感知的快速发展，无人驾驶技术受到学术界和工业界的广泛关注，迎来了蓬勃发展的阶段，无人驾驶技术已成为国内外研究的热点。无人驾驶在未来构建智慧城市体系中发挥着关键作用，无人驾驶的应用可以缓解道路交通拥堵、尾气排放污染、能源消耗、土地资源紧张等问题。超车是无人驾驶中一种基础的驾驶行为，它是指从当前车道变道进入超车道，超越同侧车辆后再返回原车道的过程。

目前解决超车决策控制问题的方法主要包括基于规则和基于学习的方法。基于规则的方法通常为针对某一场景人工设定规则，其中最具代表性的是有限状态机，它可以在不同的驾驶状态之间进行分类和切换，从而适应不同的驾驶场景。随着场景不确定性的增加，人工设定的规则也多种多样，从而导致规则数量庞大，规则库维护困难，因此基于规则的方法难以适应高动态和多样性的环境。基于学习的方法可以分为强化学习和深度强化学习。基于强化学习的方法只能用来解决低维度的状态和动作空间问题，具有很大的局限性且缺乏扩展性。基于深度强化学习的方法将神经网络的特征提取和强化学习的分步决策能力相结合，能够处理高维状态空间，更好地适应高动态和复杂的高维环境。基于深度强化学习构建超车驾驶行为是一种重要的研究途径，其中DDPG算法被广泛应用于无人驾驶领域，优势在于擅长处理连续型动作输出，同时与真实世界中的驾驶动作更加相近。根据真实世界中人类的超车行为可推断出，车辆超车的动作不仅取决于车辆当前时刻的状态，还取决于过去多个历史时刻的状态，即每个时刻的状态之间存在时间序列上的依赖关系。DDPG算法是依靠无人车的当前状态决策出的动作，并未考虑多个时刻的时序依赖性。对此，本发明提出了融合时序信息的基于DDPG的无人驾驶超车决策方法。

发明内容

本发明提出了融合时序信息的基于DDPG的无人驾驶超车决策方法，旨在解决不同时间段的多个状态对车辆动作具有不同程度影响，从而让无人车决策出更精准、更安全的动作控制信号，实现无人车的超车驾驶行为。考虑无人车的时间序列驾驶状态信息的端对端超车决策控制模型如图2所示。

本发明包括以下步骤：

步骤1：融合时序信息的基于DDPG的无人驾驶超车模型的多维状态空间和动作空间的设计。通过结合仿真环境上车辆的运动学和动力学因素分析，无人车的输入状态空间包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息，接着对输入状态进行维度扩充，然后构建无人车考虑时间序列驾驶状态信息的多维状态矩阵。多维状态矩阵由一段连续时间内多个时刻的状态数据组成，在考虑到多个时刻中距离当前时刻越近，其对无人车决策车辆动作产生影响越大的原因，决定设计一个时间衰减因子权重系数来控制不同时刻的状态空间所占比重不同。最后再对多维状态矩阵进行卷积操作形成带有时间衰减因子的特征图，形成过程如图3所示。无人车的输出动作空间包括油门、转角和刹车三种动作控制信号。

步骤2：融合时序信息的基于DDPG的无人驾驶超车模型的神经网络搭建。超车模型的神经网络由Actor网络μ(s|θ^μ)、Critic网络Q(s，a|θ^Q)、Target-Actor网络μ′(s′|θ^μ′)和Target-Critic网络Q′(s′，a′|θ^Q′)组成。无人驾驶超车模型的Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号，无人驾驶超车模型的Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号。无人驾驶超车模型的Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值，无人驾驶超车模型的Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值。

步骤3：融合时序信息的基于DDPG的无人驾驶超车模型的训练过程。通过无人车车身传感器获取连续t时刻内的环境状态信息s_t-1，s_t-2，…，s_t-n，处理生成无人车的多维状态空间矩阵，之后输入到超车模型的A_ct_or网络得到无人车应该执行的动作a_t。然后将动作a_t交给无人驾驶仿真环境执行后生成无人车面临的新环境状态s′_t，并计算无人车所获得的奖励值r_t，最后不断地与无人驾驶仿真环境进行交互训练。融合时序信息的基于DDPG的超车模型与环境的交互过程如图4所示。超车模型控制无人车完成超车行为的过程中需要明确一个触发条件和两个关键变量，如图5所示。其中一个触发条件指的是汽车探测到前方有车且自身相对该车处于安全距离内，此时达到触发超车的条件。两个关键变量指的是无人车相对整个车道的横向偏移点位和纵向行驶速度偏移量，横向偏移点位控制无人车在不同车道行驶，纵向行驶速度偏移量控制无人车以不同的目标速度行驶，这两者都为超车模型控制无人车实施超车行为奠定基础。

步骤4：超车模型的学习过程。其学习过程一共分为两个阶段，分别是车道保持和超车阶段。车道保持阶段是无人车在单车环境下学习以恒定速度进行车道保持状态。通过调整横向偏移点位和纵向速度偏移量，同时结合车道保持奖励函数，共同指导无人车不断地学习左右转向和加减速操作，最后达到在不同车道以不同速度进行车道保持行驶的目的。超车阶段是无人车在多车的环境下学习超车行为。这一阶段以车道保持阶段为基础，当无人车前方传感器探测到前方有其它车辆时，则触发超车条件。由于无人车一开始没有超车经验，故会直接与前方车辆发生碰撞。当它在超车奖励函数的指导下经过一段时间的学习后，就能够在安全距离内通过改变横向偏移点位左转进入左车道，并进行车道保持行驶。然后通过更改纵向速度偏移量的值来学习加速超车行为，最后超车完成返回原车道。当无人车在右车道行驶，发现前方车辆后准备进行超车时的流程图如图6所示。

步骤5：融合时序信息的基于DDPG的无人驾驶超车模型的验证过程。对训练好的超车模型在TORCS仿真平台上进行测试，以验证无人车超车模型的控制精准度。

进一步地，步骤3中，超车模型的具体训练流程为：

步骤3.1：加载无人驾驶仿真环境，初始化车辆起始位置，更新无人车的环境状态信息s_t。

步骤3.2：获得无人车在连续t时刻内的环境状态信息s_t-1，s_t-2，…，s_t-n，同时设定一个时间衰减因子权重系数α(0＜α＜1)。

步骤3.3：把获得的无人车多个状态信息组合形成多维状态矩阵A。

步骤3.4：将该状态矩阵输入到无人驾驶超车模型的Actor网络中，根据时间衰减因子α进行卷积操作形成无人车的多个时间衰减因子特征图A_α。

A_α＝A*diag(1，α¹，α²…αⁿ) (1)

步骤3.5：然后将多个特征图A_α中的信息进行整合，重新组合成一个特征向量。最后把特征向量转化为一组三维向量，即为无人驾驶超车模型的Actor网络输出的动作a_t。

步骤3.6：对动作a_t加入噪声N处理，之后把动作a_t应用到仿真环境上生成无人车的新环境状态信息s′_t。

a_t＝a_t+N (2)

步骤3.7：接着根据奖励函数R计算整体奖励值。其中

为无人车的纵向速度奖励函数，R_collision为判断无人车是否发生碰撞的奖励函数，R_track为判断无人车是否冲出车道的奖励函数，R_overtaking为无人车执行超车行为时的奖励函数

步骤3.8：最后收集无人车的整体奖励值、新环境状态以及回合结束标志存入经验回放池。

步骤3.9：接着开始更新无人驾驶超车模型的Actor网络和Critic网络。

步骤3.10：首先从经验回放池中随机选取批量大小的样本数据，每个样本数据包括根据时间衰减因子组合成的多维状态矩阵A。

步骤3.11：接着把无人车的多维状态矩阵A和样本数据中的动作a_t拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间。

步骤3.12：将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出下一状态和动作的最大Q值y，其中γ是奖励衰减因子，r_t是奖励值。

y＝γQ′(s′_t，μ′(s′_t|θ^μ)|θ^Q)+r_t (4)

步骤3.13：然后通过最小化损失函数L(θ^Q)的方式更新无人驾驶超车模型的Critic网络参数θ^Q。

步骤3.14：再根据返回的策略梯度

更新无人驾驶超车模型的Actor网络参数θ^μ。

步骤3.15：之后以滑动平均的方式更新Target-Actor网络参数θ^μ′和Target-Critic网络参数θ^Q′，其中τ是滑动系数。

步骤3.16：最后保存无人驾驶超车模型的Actor网络和Critic网络模型。至此，融合时序信息的基于DDPG的无人驾驶超车模型训练完成。

进一步地，无人车的多维状态输入矩阵包括多个连续时刻的环境状态信息s_t，每一环境状态又包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息。

进一步地，无人车的动作空间a_t包括油门、转角和刹车三种动作控制信号。

进一步地，无人车的整体奖励函数R包括速度奖励函数

碰撞奖励函数R_collision、回合终止奖励函数R_track和超车奖励函数R_overtaking。

与现有的方法相比，本发明提出的融合时序信息的基于DDPG的无人驾驶超车决策方法具有更精准的动作控制效果，相较于单个状态决策的动作能够更好地控制无人车完成超车任务。

附图说明

图1为本发明的模型整体结构图

图2为本发明的融合时序信息的端对端超车模型图

图3为本发明的时间衰减因子特征图

图4为本发明的超车模型与仿真环境交互图

图5为本发明的超车触发条件和关键变量示意图

图6为本发明的超车行为流程图

具体实施方式

为了使本发明的目的，发明内容及优点更加清楚明白，以及结合附图对本发明作进一步的详细说明。实施案例中超车行为的执行流程以及网络模型的决策和更新过程的具体步骤如下：

步骤1：首先是无人车进行超车行为的执行流程。开始加载无人驾驶仿真环境，初始化车辆起始位置，更新无人车的环境状态信息。

步骤2：搭建融合时序信息的基于DDPG的无人驾驶超车模型的神经网络。超车模型的神经网络由Actor网络μ(s|θ^μ)、Critic网络Q(s，a|θ^Q)、Target-Actor网络μ′(s′|θ^μ′)和Target-Critic网络Q′(s′，a′|θ^Q′)组成。无人驾驶超车模型的Actor网络和Target-Actor网络是相同的，都由两层全连接网络组成，两层隐藏层均含有Relu激活函数，输出层含有Tanh和Sigmoid激活函数。Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号，Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号。无人驾驶超车模型的Critic和Target-Critic网络相同，都由三层全连接网络组成，且只在第一层和第三层隐藏层含有Relu激活函数，其他层没有任何激活函数。Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值，Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值。

步骤3：初始化无人驾驶超车模型的神经网络参数、经验回放池Replay Buffer和随机噪声N等。

步骤4：与仿真环境交互，收集无人车的多个时间序列驾驶状态信息存入经验回放池。

步骤5：将无人车的多个状态组合成多维状态矩阵A。

步骤6：将无人车的多维状态矩阵A作为环境状态空间输入到无人驾驶超车模型的Actor网络中。

步骤7：无人驾驶超车模型的Actor网络则进行状态处理，根据时间衰减因子α对多维状态矩阵A进行卷积操作，形成多个时间衰减因子特征图A_α，如图2所示。

步骤8：将多个特征图中的信息进行整合，重新组合成一个特征向量。

步骤9：此特征向量经过全连接操作转化为一组三维向量，即为无人驾驶超车模型的Actor网络输出的无人车的具体动作。

步骤10：再将此动作加入噪声N处理，变成带有噪声的动作a_t。

步骤11：把噪声处理的动作a_t应用到TORCS仿真环境上，生成无人车的新环境观测信息s′_t。

步骤12：根据无人车的纵向速度奖励函数

计算速度奖励值r₁。

步骤13：判断此时无人车与其他车的安全距离是否触发超车条件，是否应执行超车行为流程。

步骤14：若达到超车条件，则超车模型开始控制无人车实施超车操作，如图6所示。

步骤15：根据无人车进行超车时的奖励函数R_ovwrtaking开始计算无人车超车时的奖励值r₂。

步骤16：通过更改无人车横向偏移点位的值，控制无人车执行左转操作进入超车道中行驶。

步骤17：通过更改无人车纵向速度偏移量的值，控制无人车执行加速操作超越同侧车道中的车辆。

步骤18：在无人车超车完成后，超车模型控制无人车返回原车道行驶。

步骤19：同时更改无人车的纵向速度偏移量，控制无人车在原车道减速继续进行车道保持行驶。

步骤20：根据无人车的碰撞奖励函数R_collision计算无人车在超车过程中是否发生碰撞的奖励值r₃。

步骤21：根据无人车的回合终止奖励函数R_track计算无人车在行驶过程中是否发生卡在轨道不动或冲出轨道的奖励值r₄。

步骤22：对无人车所获得的奖励值进行整合，得到整体奖励值Reward＝r₁+r₂+r₃+r₄。

步骤23：收集无人车的整体奖励值Reward、新环境状态s′_t、回合结束标志done存入经验回放池。

步骤24：至此一次完整的融合时序信息的基于DDPG的无人驾驶超车模型控制无人车执行超车行为的流程完成，接着是超车模型中的神经网络决策和更新过程。

步骤25：从无人驾驶超车模型的经验回放池中随机选取批量大小的样本数据，每个样本数据包括根据时间衰减因子组合成的多维状态矩阵R。

步骤26：接着把无人车的多维状态矩阵A和样本数据中的动作a_t拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间。

步骤27：将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出下一状态和动作的最大Q值y。

步骤28：然后通过最小化损失函数L(θ^Q)的方式更新无人驾驶超车模型的Critic网络参数θ^Q。

步骤29：再根据返回的策略梯度

更新无人驾驶超车模型的Actor网络参数θ^μ。

步骤30：之后以滑动平均的方式更新无人驾驶超车模型的Target-Actor网络参数θ^μ′和Target-Critic网络参数θ^Q′

步骤31：最后将无人驾驶超车模型的Actor网络和Critic网络进行保存。

本发明的实施案例中，选用Ubuntu服务器上搭建的单向双车道的无人驾驶仿真平台超车场景作为无人车完成超车操作的条件。融合时序信息的基于DDPG的无人驾驶超车模型在达到超车条件时，通过结合无人车的横向偏移点位和纵向速度偏移量两个变量控制无人车实施超车行为，顺利展现了融合时序信息的基于DDPG的无人驾驶超车模型的决策控制过程。最后在TORCS仿真平台的E-tra_ck5地图上进行实验测试，表明无人车能够在无碰撞的条件下安全、精准地完成超车任务。

Claims

1.融合时序信息的基于DDPG的无人驾驶超车决策方法，其特征在于，包括以下步骤：

步骤1：融合时序信息的基于DDPG的无人驾驶超车模型的多维状态空间和动作空间的设计；通过结合仿真环境上车辆的运动学和动力学因素分析，无人车的输入状态空间包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息，接着对输入状态进行维度扩充，然后构建考虑时间序列驾驶状态信息的多维状态矩阵；无人车的输出动作空间包括油门、转角和刹车三种动作控制信号；

步骤2：融合时序信息的基于DDPG的无人驾驶超车模型的神经网络搭建；超车模型的神经网络由Actor网络μ(s|θ^μ)、Critic网络Q(s,a|θ^Q)、Target-Actor网络μ′(s′|θ^μ′)和Target-Critic网络Q′(s′,a′|θ^Q′)组成；无人驾驶超车模型的Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号，无人驾驶超车模型的Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号；无人驾驶超车模型的Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值，无人驾驶超车模型的Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值；

步骤3：融合时序信息的基于DDPG的无人驾驶超车模型的训练过程；通过无人车车身传感器获取连续t时刻内的环境状态信息s_t-1,s_t-2,…,s_t-n，处理生成无人车的多维状态空间矩阵，之后输入到超车模型的Actor网络得到无人车应该执行的动作a_t；然后将动作a_t交给无人驾驶仿真环境执行后生成无人车面临的新环境状态s′_t，并计算无人车所获得的奖励值r_t，最后不断地与无人驾驶仿真环境进行交互训练；

步骤4：融合时序信息的基于DDPG的无人驾驶超车模型的学习过程；其学习过程一共分为两个阶段，分别是车道保持和超车阶段；车道保持阶段是超车模型控制的无人车在单车环境下学习以恒定速度进行车道保持状态；超车阶段是超车模型控制的无人车在多车的环境下学习超车行为；

步骤5：融合时序信息的基于DDPG的无人驾驶超车模型的验证过程；对训练好的超车模型在TORCS仿真平台上进行测试，以验证无人车超车模型的控制精准度。

2.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法，其特征在于，在步骤3中，无人驾驶超车模型与环境交互的训练流程为：

第一步，初始化无人驾驶场景中的车辆起始位置，更新环境状态信息s_t；

第二步，获得连续多个t时刻内的环境状态信息s_t-1,s_t-2,…,s_t-n，同时设定一个时间衰减因子权重系数α，0<α<1；

第三步，将所获得的无人车的多个状态组合形成一个多维状态矩阵A；

第四步，将该状态矩阵输入到无人驾驶超车模型的Actor网络中，根据时间衰减因子α进行卷积操作形成无人车的多个时间衰减因子特征图A_α；

第五步，然后将多个特征图A_α中的信息进行整合，重新组合成一个特征向量；最后把特征向量转化为一组三维向量，即为无人驾驶超车模型的Actor网络输出的无人车应执行的动作a_t；

第六步，对动作a_t加入噪声N处理，之后把动作a_t应用到无人驾驶仿真环境上生成无人车的新环境状态信息s′_t；

第七步，接着根据设定的无人车整体奖励函数R计算其整体奖励值；

第八步，最后收集无人车的整体奖励值、新环境状态、回合结束标志存入无人车超车模型的经验回放池；

第九步，接着开始更新无人驾驶超车模型的Actor网络和Critic；

第十步，首先从经验回放池中随机选取批量大小的样本数据，每个样本数据包括根据时间衰减因子组合成的多维状态矩阵A；

第十一步，接着把无人车的多维状态矩阵A和样本数据中的动作a_t拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间；

第十二步，将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出无人车的下一状态和动作的最大Q值；

第十三步，然后通过最小化损失函数的方式更新无人驾驶超车模型的Critic网络参数θ^Q；

第十四步，再根据策略梯度更新无人驾驶超车模型的Actor网络参数θ^μ；

第十五步，之后以滑动平均的方式更新无人驾驶超车模型的Target-Actor网络参数θ^μ′和Target-Critic网络参数θ^Q′；

第十六步，最后保存无人驾驶超车模型的Actor网络和Critic网络模型；至此，融合时序信息的基于DDPG的无人驾驶超车决策控制模型训练完成。

3.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法，其特征在于，无人车的多维状态输入矩阵包括多个连续时刻的环境状态信息s_t，每一状态又包括车辆速度、车辆与道路中心线的夹角以及车轮转速。

4.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法，其特征在于，无人车的动作空间a_t包括油门、转角和刹车三种动作控制信号。

5.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法，其特征在于，无人车的整体奖励函数R包括速度奖励函数