CN114442630A

CN114442630A - 一种基于强化学习和模型预测的智能车规划控制方法

Info

Publication number: CN114442630A
Application number: CN202210088325.4A
Authority: CN
Inventors: 陈剑; 戚子恒; 王通
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-06
Anticipated expiration: 2042-01-25
Also published as: CN114442630B

Abstract

本发明公开了一种基于强化学习和模型预测的智能车规划控制方法。包括：通过车载激光雷达传感器采集并计算后获得车身坐标系下的道路边界信息和障碍物信息；利用车载GPS传感器采集并计算后获得车身坐标系下的全局参考路点；搭建智能车所在的虚拟场景；在智能车的虚拟场景下，基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点，利用路径生成模块对智能车进行路径规划，获得智能车的规划路径；利用跟踪控制模块对智能车的规划路径进行跟踪，从而实现智能车的规划控制。本发明提升了规划部分的网络训练，确保了智能车在定位不准时的路径规划效果，提升了车身运动的稳定性和舒适性。

Description

一种基于强化学习和模型预测的智能车规划控制方法

技术领域

本发明属于智能车自动驾驶领域的一种智能车规划控制方法，具体涉及了弱GPS环境下一种基于强化学习和模型预测的智能车规划控制方法。

背景技术

随着近年来经济的发展和汽车工业技术水平的提高，汽车保有量不断增加，导致交通事故、交通拥堵、废气排放、驾驶员困倦等问题的加剧。无人驾驶汽车具有节能、环保、舒适和高效等优点，是未来汽车发展的重要趋势，受到世界各国的高度重视。

路径规划和跟踪控制是自动驾驶的关键技术。对于路径规划模块，其规划的效果严重依赖于高精度地图和高精度的定位设备。相比于精度为米级别的传统电子地图，厘米级别的高精度地图能够更加真实得展现出道路的车道数、形状、宽窄等细节，帮智能车更准确地规划和决策。但是，高精度地图制作过程中的信息采集、质量检测、运营维护等流程使得其绘制和维护的成本昂贵。同时，由于GPS信号容易由于天气、高楼和隧道等原因定位不准或是丢失，高精度定位设备往往还需要配备高昂的IMU设备辅助定位，这也给智能车的推广和普及带来很大阻碍。对于跟踪控制模块，其难点在于如何在跟踪路径的同时，处理车辆***的非线性特性及处理状态变量和操纵变量中的约束问题。同时，由于在传感器感知车身运动状态时也容易引入误差，需要确保控制器在误差干扰下的鲁棒性。

近年来，强化学习在诸如图像识别、语音识别、机器人等领域取得巨大的成功。Q学习由强化学习发展而来。在Q学习中，有一个具有状态和相应动作的主体。在任何时候，代理都处于某种可行的状态。在下一个时间步骤中，通过执行某些操作将状态转换。这个行动伴随着奖励或惩罚。代理的目标是使奖励收益最大化。该算法可以在最初未知的环境中通过不断的反复试验来与其环境进行交互，它指导车辆不断采取行动，使得其从环境中获得的回报最大化，然后找到避免障碍的无碰撞路径。

DDPG(Deep Deterministic Policy Gradient)算法借鉴了Actor-Critic的网络结构，并采用了DQN(Deep Q Network)算法中的经验回放池的方法，建立了一个名为经验池的数据库来存储智能体与环境交互的数据。在训练时，智能体可以从经验池中随机选取训练数据来训练神经网络，以此防止训练数据在时间上的相关性，有效提高了训练效率和样本利用率。

模型预测控制(Model Predictive Control,MPC)作为一种有效的方法可以方便地处理多变量约束控制问题，已在工业***中得到广泛应用。近年来，MPC已扩展到运动体跟踪控制问题，能以一种次优的方式，在满足***约束条件的基础上，完成预设目标。在这种控制方案中，在每个采样时间重新计算控制序列，在输入状态约束下将成本函数最小化。将序列的第一个控制输入应用到***后，在下一个时间步根据最新***状态重复在线优化问题。

发明内容

为了解决背景技术中存在的智能车定位不精确的问题，本发明提出了一种基于强化学习和模型预测的智能车规划控制方法，对现有的规划和控制算法进行改进，以提升智能车在定位不精确时的稳定性和舒适性。

本发明所采用的技术方案为：

本发明包括以下步骤：

步骤1：通过车载激光雷达传感器获得障碍物栅格地图，基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息，然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息；

步骤2：利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点，再通过车载GPS传感器获得车身定位以及运动状态，最后基于车身定位以及运动状态对全局参考路点进行坐标转换，获得车身坐标系下的全局参考路点；

步骤3：由障碍物栅格地图和全局参考路点搭建智能车所在的虚拟场景；

步骤4：在智能车的虚拟场景下，基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点，利用路径生成模块对智能车进行路径规划，获得智能车的规划路径；

步骤5：利用跟踪控制模块对智能车的规划路径进行跟踪，从而实现智能车的规划控制。

所述步骤4中的路径生成模块通过以下步骤训练获得：

S1：将基于DDPG的强化学习智能体的训练阶段依次分为初始阶段、中间阶段和最终阶段；其中，初始阶段中输入的第一状态空间由智能车到道路左右边界的距离以及准确的全局参考路点在车身坐标系中的位置组成，中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置组成，最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置组成；

S2：构建动作空间，动作空间为智能车的前轮转角δ_f；

S3：将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练，设置奖惩值并对训练过程进行监督，获得训练好的强化学习智能体。

所述奖惩值包括到达终点的奖励值R_arrive、智能车发生碰撞的惩罚值R_collision和中间状态的奖惩值R_temp。

所述中间状态的奖惩值R_temp通过以下步骤计算获得：

A1：利用势场法为各训练阶段中的道路边界、障碍物以及全局参考路点分别分配对应的势场函数；

A2：根据三个势场函数分别计算对应的道路边界势场P_R、障碍物势场P_O和准确的全局参考路点势场P_W和不准确的全局参考路点势场P_W′，将训练阶段中对应的势场进行叠加后，获得当前训练阶段的总势场P_U并作为中间状态的奖惩值R_temp；

A3：训练过程中，根据总势场P_U的三维梯度图，利用基于势场法的路径规划方法对A1中各训练阶段的所有势场函数进行势场参数整定，根据整定后的势场函数进行各训练阶段的总势场的更新，将更新后的总势场作为各训练阶段的中间状态的奖惩值R_temp。

所述步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型，再基于车辆动力学模型构建车辆状态的预测方程；

接着根据车辆状态的预测方程，利用模型预测控制算法建立目标优化函数和约束条件，进而搭建路径跟踪控制器；

最后利用路径跟踪控制器对智能车的规划路径进行跟踪，从而实现智能车的规划控制。

所述的目标优化函数为：

目标优化函数的约束条件为：

Δu_min≤Δu(k|t)≤Δu_max

u_min≤u(k|t)≤u_max

y_min≤y(k|t)≤y_max

β_min≤β(k|t)≤β_max

k＝t,…,t+N_p-1

y(t+N_p|t)-r(t+N_p|t)∈Ω

其中，min_U(t)J表示在t时刻对应的预测时域中，当智能车的目标优化值最小时，取车辆前轮转角的控制量集合的操作；J表示智能车的目标优化值，U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合；

表示基于第一权重矩阵Q计算范数平方的操作，

表示基于第二权重矩阵R计算范数平方的操作，

表示基于第三权重矩阵P计算范数平方的操作，y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值，r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值，u(t+i|t)表示在t时刻下第i个控制量，y(t+N_p|t)表示在t时刻下第N_p个车辆状态横摆角和横向位置的预测值，r(t+N_p|t)表示在t时刻下第N_p个车辆状态横摆角和横向位置的预期值，N_p为预测时域，Q、R、P分别为第一、第二、第三权重系数，Δu_max为车辆前轮转角的右极限增量；Δu_min为车辆前轮转角的左极限增量；Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量，u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量，u_max为车辆前轮转角的右极限位置；u_min为车辆前轮转角的左极限位置；y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置，y_min为车辆状态横摆角和横向位置的最小值；y_max为车辆状态横摆角和横向位置的最大值，β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角；β_min和β_max分别为车辆质心侧偏角的最小值和最大值，Ω表示终端约束域。

所述目标优化函数中的终端约束域经过了线性化预处理。

本发明的有益效果是：

本发明针对智能车定位不精确的场景，提出了一种规划控制方法，包括基于DDPG强化学习的路径规划方法和基于模型预测控制的路径跟踪方法，即路径生成模块和跟踪控制模块。

在路径规划方法中，基于DDPG算法实现了智能车在定位不精确场景下的路径生成，确保了路径的安全性和平滑性。用势场法对DDPG的奖惩值进行改进，并将训练阶段分为初始阶段、中间阶段和最终阶段，提升了算法的收敛速度和训练效率。

在跟踪控制方法中，基于模型预测控制算法实现了路径跟踪控制器，并在目标优化函数中加入了终端代价和终端约束，提升了控制***的稳定性和控制精度。将终端约束域线性化，确保了智能车控制***的实时性。

将路径规划方法和跟踪控制方法结合的规划控制算法，能够在智能车定位不精确的场景中顺利完成避障，遵循所设计的路径安全完成导航任务，且能保证轨迹的平滑稳定。

附图说明

图1是采集的参考路点发生偏移的示意图。

图2是车身定位不准使参考路点发生偏移的示意图。

图3是DDPG网络结构的示意图。

图4是虚拟环境路径生成流程框图。

图5是智能车运动学模型。

图6是虚拟环境中路径生成的示意图。

图7是车辆动力学模型。

图8是强化学习训练的奖励函数曲线。

图9是本发明的规划控制实施流程。

图10是在定位不准确时的智能车运动轨迹。

图11是在定位不准确时的三种方法质心侧偏角变化。

图12是在定位步准确时的三种方法横向加速度变化。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图9所示，本发明包括以下步骤：

步骤1：智能车上装有激光雷达传感器和GPS传感器。通过车载激光雷达传感器获得障碍物栅格地图，基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息，然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息；障碍物信息具体为智能车前方最近的障碍物所在位置。

步骤2：利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点，再通过车载GPS传感器获得车身定位以及运动状态，最后基于车身定位以及运动状态对全局参考路点进行坐标转换，获得车身坐标系下的全局参考路点；车载GPS传感器的信号会受到环境干扰而发生偏移，导致采集的全局参考路点发生偏移，如图1所示。车载GPS传感器的信号受到干扰还会导致车身定位不准，进而使得车身坐标系下的全局参考路点偏移，如图2所示。

步骤4：如图4所示，在智能车的虚拟场景下，基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点，利用路径生成模块对智能车进行路径规划，获得智能车的规划路径；其中，智能车的运动学模型如图5所示，虚拟环境中生成规划路径如图6所示。

步骤4中的路径生成模块通过以下步骤训练获得：

S1：基于DDPG的强化学习智能体的网络结构如图3所示，将基于DDPG的强化学习智能体的训练阶段根据训练场景由简到难依次分为初始阶段、中间阶段和最终阶段；其中，初始阶段中输入的第一状态空间由智能车到道路左右边界的距离d_l和d_r以及准确的全局参考路点在车身坐标系中的位置d_wx和d_wy组成，中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置d_ox和d_oy组成，最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置d_wx′和d_wy′组成；即第三状态空间s＝{d_l,d_r,d_ox,d_oy,d_wx′,d_wy′}。

S2：构建动作空间，动作空间为智能车的前轮转角δ_f；

S3：将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练，设置奖惩值并对训练过程进行监督，获得训练好的强化学习智能体；

奖惩值包括到达终点的奖励值R_arrive、智能车发生碰撞的惩罚值R_collision和中间状态的奖惩值R_temp；

中间状态的奖惩值R_temp通过以下步骤计算获得：

A2：根据三个势场函数分别计算对应的道路边界势场P_R、障碍物势场P_O和准确的全局参考路点势场P_W和不准确的全局参考路点势场P_W′，将训练阶段中对应的势场进行叠加后，获得当前训练阶段的总势场P_U并作为中间状态的奖惩值R_temp；即最终阶段的中间状态的奖惩值R_temp＝P_R+P_O+P_W′；

道路边界的势场函数为：

其中，P_R(d_l,d_r)是道路边界势场，a_R是势场的强度参数，d_s为智能车到道路边界的安全距离。

障碍物的势场函数为：

其中，P_O(d_ox,d_oy)是障碍物势场，a_o和b_o分别是障碍物势函数的强度参数和形状参数。X_s和Y_s分别表示车辆到障碍物的纵向和横向的安全距离，纵向为智能车的行驶方向，垂直于智能车的行驶方向的方向为横向，纵向与横向在水平面中，其定义为：

X_s＝X₀-vT₀

Y_s＝Y₀+(υsinθ_e+υ_osinθ_e)T₀

其中，X₀和Y₀分别表示纵向和横向的最小安全距离，T₀是安全时间间隔，v是智能车的速度，v_o是障碍物的速度，θ_e是智能车和障碍物之间的航向角偏差。

准确和不准确的全局参考路点的势场函数相同，其中全局参考路点的势场函数为：

其中，P_W(d_wy)是准确的全局参考路点势场，d_a指全局参考路点的横向位置的误差范围，a_w为全局参考路点的势场强度。

步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型，再基于车辆动力学模型构建车辆状态的预测方程；车辆动力学模型如图7所示。

接着根据车辆状态的预测方程，利用模型预测控制算法建立带终端约束和终端代价的目标优化函数和约束条件，进而搭建路径跟踪控制器；

最后利用路径跟踪控制器通过控制车辆前轮转角对智能车的规划路径进行跟踪，从而实现智能车的规划控制。

带终端约束和终端代价的目标优化函数为：

目标优化函数的约束条件为：

Δu_min≤Δu(k|t)≤Δu_max

u_min≤u(k|t)≤u_max

y_min≤y(k|t)≤y_max

β_min≤β(k|t)≤β_max

k＝t,…,t+N_p-1

y(t+N_p|t)-r(t+N_p|t)∈Ω

其中，

为加入的终端代价；y(t+N_p|t)-r(t+N_p|t)∈Ω为加入的终端约束。min_U(t)J表示在t时刻对应的预测时域中，当智能车的目标优化值最小时，取车辆前轮转角的控制量集合的操作；J表示智能车的目标优化值，反映了未来一定时域上的对路径跟踪误差和控制量平稳变化的要求，U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合；

表示基于第一权重矩阵Q计算范数平方的操作，

表示基于第二权重矩阵R计算范数平方的操作，

表示基于第三权重矩阵P计算范数平方的操作，

表示在t时刻下第i个时刻基于第一权重矩阵Q计算智能车跟踪误差权重的操作，

表示在t时刻下第i个时刻基于第二权重矩阵R计算智能车控制平稳性权重的操作，

表示在t时刻下第N_p个时刻基于第三权重矩阵P计算智能车跟踪误差权重的操作，

反映了对路径跟踪误差的要求，

反映了对控制量平稳变化的要求，y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值，r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值，车辆状态横摆角和横向位置的预期值是通过智能车的规划路径获得的，u(t+i|t)表示在t时刻下第i个控制量，y(t+N_p|t)表示在t时刻下第N_p个车辆状态横摆角和横向位置的预测值，r(t+N_p|t)表示在t时刻下第N_p个车辆状态横摆角和横向位置的预期值，N_p为预测时域，Q、R、P分别为第一、第二、第三权重系数，Δu_max为车辆前轮转角的右极限增量；Δu_min为车辆前轮转角的左极限增量；Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量，u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量，u_max为车辆前轮转角的右极限位置；u_min为车辆前轮转角的左极限位置；y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置，y_min为车辆状态横摆角和横向位置的最小值；y_max为车辆状态横摆角和横向位置的最大值，β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角；β_min和β_max分别为车辆质心侧偏角的最小值和最大值，Ω表示终端约束域。

目标优化函数中的终端约束域经过了线性化预处理，确保控制***的实时性。

在本实施例中，训练的环境为MATLAB/Simulink和Carsim的联合仿真。在MATLAB/Simulink中对强化学习算法的网络结构、状态空间、动作空间和奖励函数进行设计，在Carsim中获得高精度、高真实度的车辆模型。

势场设计完成后，用势场法的路径规划方法对势场参数进行整定。若规划的路径不符合安全性要求，则对势场参数进行调整。

在设定强化学习训练场景时，将训练场景由简到难分为三个阶段。初始阶段，只包括道路障碍物和准确的参考路点；中间阶段，往初始阶段加入了障碍物；最终阶段，在中间阶段加入了不准确的参考路点。

强化学习训练的结果如图8所示，本方法在网络训练效果和收敛速度上均相比传统DDPG网络有提升。

将此发明所提出的控制器在双移线工况下进行测试，在横摆角速度和横向速度中加入噪声，并与传统模型预测控制方法的跟踪效果对比。其跟踪效果的平均绝对误差(MAE)由下表给出：

表1：跟踪效果的平均绝对误差(MAE)

从表1可以看出，本发明所提出的跟踪控制方法在无误差、存在横摆角速度噪声和存在横向速度噪声时，跟踪精度均相比传统模型预测控制方法有所提升。

将本发明所提出的路径规划方法和跟踪控制方法相结合，用于应对本文所针对的车身定位不准确的场景，其实施流程如图9所示。图10为在所设计的参考路点不精确、车身定位步准确的场景下的规划控制效果比较，framework A为本发明所提出的规划控制方法，framework B为传统DDPG规划和纯跟踪控制的方法，PF+MPC为势场法的规划和模型预测控制跟踪的方法。图11的(a)、(b)、(c)依次分别为三种方法的质心侧偏角值变化，图12的(a)、(b)、(c)依次分别为三种方法的横向加速度变化，用于体现轨迹的稳定性和舒适性。表2对实验的数据进行了统计分析。

表2：本发明与其他方法的实验结果分析表

从图9、图10、图11、图12和表2可以看出，本发明所设计的规划控制方法能在定位不准确时让智能车有更舒适、更稳定的运动状态。