CN114442630A - 一种基于强化学习和模型预测的智能车规划控制方法 - Google Patents

一种基于强化学习和模型预测的智能车规划控制方法 Download PDF

Info

Publication number
CN114442630A
CN114442630A CN202210088325.4A CN202210088325A CN114442630A CN 114442630 A CN114442630 A CN 114442630A CN 202210088325 A CN202210088325 A CN 202210088325A CN 114442630 A CN114442630 A CN 114442630A
Authority
CN
China
Prior art keywords
vehicle
intelligent vehicle
intelligent
potential field
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210088325.4A
Other languages
English (en)
Other versions
CN114442630B (zh
Inventor
陈剑
戚子恒
王通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210088325.4A priority Critical patent/CN114442630B/zh
Publication of CN114442630A publication Critical patent/CN114442630A/zh
Application granted granted Critical
Publication of CN114442630B publication Critical patent/CN114442630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/0278Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using satellite positioning signals, e.g. GPS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Optics & Photonics (AREA)
  • Electromagnetism (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习和模型预测的智能车规划控制方法。包括:通过车载激光雷达传感器采集并计算后获得车身坐标系下的道路边界信息和障碍物信息;利用车载GPS传感器采集并计算后获得车身坐标系下的全局参考路点;搭建智能车所在的虚拟场景;在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。本发明提升了规划部分的网络训练,确保了智能车在定位不准时的路径规划效果,提升了车身运动的稳定性和舒适性。

Description

一种基于强化学习和模型预测的智能车规划控制方法
技术领域
本发明属于智能车自动驾驶领域的一种智能车规划控制方法,具体涉及了弱GPS环境下一种基于强化学习和模型预测的智能车规划控制方法。
背景技术
随着近年来经济的发展和汽车工业技术水平的提高,汽车保有量不断增加,导致交通事故、交通拥堵、废气排放、驾驶员困倦等问题的加剧。无人驾驶汽车具有节能、环保、舒适和高效等优点,是未来汽车发展的重要趋势,受到世界各国的高度重视。
路径规划和跟踪控制是自动驾驶的关键技术。对于路径规划模块,其规划的效果严重依赖于高精度地图和高精度的定位设备。相比于精度为米级别的传统电子地图,厘米级别的高精度地图能够更加真实得展现出道路的车道数、形状、宽窄等细节,帮智能车更准确地规划和决策。但是,高精度地图制作过程中的信息采集、质量检测、运营维护等流程使得其绘制和维护的成本昂贵。同时,由于GPS信号容易由于天气、高楼和隧道等原因定位不准或是丢失,高精度定位设备往往还需要配备高昂的IMU设备辅助定位,这也给智能车的推广和普及带来很大阻碍。对于跟踪控制模块,其难点在于如何在跟踪路径的同时,处理车辆***的非线性特性及处理状态变量和操纵变量中的约束问题。同时,由于在传感器感知车身运动状态时也容易引入误差,需要确保控制器在误差干扰下的鲁棒性。
近年来,强化学习在诸如图像识别、语音识别、机器人等领域取得巨大的成功。Q学习由强化学习发展而来。在Q学习中,有一个具有状态和相应动作的主体。在任何时候,代理都处于某种可行的状态。在下一个时间步骤中,通过执行某些操作将状态转换。这个行动伴随着奖励或惩罚。代理的目标是使奖励收益最大化。该算法可以在最初未知的环境中通过不断的反复试验来与其环境进行交互,它指导车辆不断采取行动,使得其从环境中获得的回报最大化,然后找到避免障碍的无碰撞路径。
DDPG(Deep Deterministic Policy Gradient)算法借鉴了Actor-Critic的网络结构,并采用了DQN(Deep Q Network)算法中的经验回放池的方法,建立了一个名为经验池的数据库来存储智能体与环境交互的数据。在训练时,智能体可以从经验池中随机选取训练数据来训练神经网络,以此防止训练数据在时间上的相关性,有效提高了训练效率和样本利用率。
模型预测控制(Model Predictive Control,MPC)作为一种有效的方法可以方便地处理多变量约束控制问题,已在工业***中得到广泛应用。近年来,MPC已扩展到运动体跟踪控制问题,能以一种次优的方式,在满足***约束条件的基础上,完成预设目标。在这种控制方案中,在每个采样时间重新计算控制序列,在输入状态约束下将成本函数最小化。将序列的第一个控制输入应用到***后,在下一个时间步根据最新***状态重复在线优化问题。
发明内容
为了解决背景技术中存在的智能车定位不精确的问题,本发明提出了一种基于强化学习和模型预测的智能车规划控制方法,对现有的规划和控制算法进行改进,以提升智能车在定位不精确时的稳定性和舒适性。
本发明所采用的技术方案为:
本发明包括以下步骤:
步骤1:通过车载激光雷达传感器获得障碍物栅格地图,基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息,然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息;
步骤2:利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点,再通过车载GPS传感器获得车身定位以及运动状态,最后基于车身定位以及运动状态对全局参考路点进行坐标转换,获得车身坐标系下的全局参考路点;
步骤3:由障碍物栅格地图和全局参考路点搭建智能车所在的虚拟场景;
步骤4:在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;
步骤5:利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
所述步骤4中的路径生成模块通过以下步骤训练获得:
S1:将基于DDPG的强化学习智能体的训练阶段依次分为初始阶段、中间阶段和最终阶段;其中,初始阶段中输入的第一状态空间由智能车到道路左右边界的距离以及准确的全局参考路点在车身坐标系中的位置组成,中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置组成,最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置组成;
S2:构建动作空间,动作空间为智能车的前轮转角δf
S3:将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练,设置奖惩值并对训练过程进行监督,获得训练好的强化学习智能体。
所述奖惩值包括到达终点的奖励值Rarrive、智能车发生碰撞的惩罚值Rcollision和中间状态的奖惩值Rtemp
所述中间状态的奖惩值Rtemp通过以下步骤计算获得:
A1:利用势场法为各训练阶段中的道路边界、障碍物以及全局参考路点分别分配对应的势场函数;
A2:根据三个势场函数分别计算对应的道路边界势场PR、障碍物势场PO和准确的全局参考路点势场PW和不准确的全局参考路点势场PW′,将训练阶段中对应的势场进行叠加后,获得当前训练阶段的总势场PU并作为中间状态的奖惩值Rtemp
A3:训练过程中,根据总势场PU的三维梯度图,利用基于势场法的路径规划方法对A1中各训练阶段的所有势场函数进行势场参数整定,根据整定后的势场函数进行各训练阶段的总势场的更新,将更新后的总势场作为各训练阶段的中间状态的奖惩值Rtemp
所述步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型,再基于车辆动力学模型构建车辆状态的预测方程;
接着根据车辆状态的预测方程,利用模型预测控制算法建立目标优化函数和约束条件,进而搭建路径跟踪控制器;
最后利用路径跟踪控制器对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
所述的目标优化函数为:
Figure BDA0003488117330000031
目标优化函数的约束条件为:
Δumin≤Δu(k|t)≤Δumax
umin≤u(k|t)≤umax
ymin≤y(k|t)≤ymax
βmin≤β(k|t)≤βmax
k=t,…,t+Np-1
y(t+Np|t)-r(t+Np|t)∈Ω
其中,minU(t)J表示在t时刻对应的预测时域中,当智能车的目标优化值最小时,取车辆前轮转角的控制量集合的操作;J表示智能车的目标优化值,U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合;
Figure BDA0003488117330000041
表示基于第一权重矩阵Q计算范数平方的操作,
Figure BDA0003488117330000042
表示基于第二权重矩阵R计算范数平方的操作,
Figure BDA0003488117330000043
表示基于第三权重矩阵P计算范数平方的操作,y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值,r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值,u(t+i|t)表示在t时刻下第i个控制量,y(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预测值,r(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预期值,Np为预测时域,Q、R、P分别为第一、第二、第三权重系数,Δumax为车辆前轮转角的右极限增量;Δumin为车辆前轮转角的左极限增量;Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量,u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量,umax为车辆前轮转角的右极限位置;umin为车辆前轮转角的左极限位置;y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置,ymin为车辆状态横摆角和横向位置的最小值;ymax为车辆状态横摆角和横向位置的最大值,β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角;βmin和βmax分别为车辆质心侧偏角的最小值和最大值,Ω表示终端约束域。
所述目标优化函数中的终端约束域经过了线性化预处理。
本发明的有益效果是:
本发明针对智能车定位不精确的场景,提出了一种规划控制方法,包括基于DDPG强化学习的路径规划方法和基于模型预测控制的路径跟踪方法,即路径生成模块和跟踪控制模块。
在路径规划方法中,基于DDPG算法实现了智能车在定位不精确场景下的路径生成,确保了路径的安全性和平滑性。用势场法对DDPG的奖惩值进行改进,并将训练阶段分为初始阶段、中间阶段和最终阶段,提升了算法的收敛速度和训练效率。
在跟踪控制方法中,基于模型预测控制算法实现了路径跟踪控制器,并在目标优化函数中加入了终端代价和终端约束,提升了控制***的稳定性和控制精度。将终端约束域线性化,确保了智能车控制***的实时性。
将路径规划方法和跟踪控制方法结合的规划控制算法,能够在智能车定位不精确的场景中顺利完成避障,遵循所设计的路径安全完成导航任务,且能保证轨迹的平滑稳定。
附图说明
图1是采集的参考路点发生偏移的示意图。
图2是车身定位不准使参考路点发生偏移的示意图。
图3是DDPG网络结构的示意图。
图4是虚拟环境路径生成流程框图。
图5是智能车运动学模型。
图6是虚拟环境中路径生成的示意图。
图7是车辆动力学模型。
图8是强化学习训练的奖励函数曲线。
图9是本发明的规划控制实施流程。
图10是在定位不准确时的智能车运动轨迹。
图11是在定位不准确时的三种方法质心侧偏角变化。
图12是在定位步准确时的三种方法横向加速度变化。
具体实施方式
下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图9所示,本发明包括以下步骤:
步骤1:智能车上装有激光雷达传感器和GPS传感器。通过车载激光雷达传感器获得障碍物栅格地图,基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息,然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息;障碍物信息具体为智能车前方最近的障碍物所在位置。
步骤2:利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点,再通过车载GPS传感器获得车身定位以及运动状态,最后基于车身定位以及运动状态对全局参考路点进行坐标转换,获得车身坐标系下的全局参考路点;车载GPS传感器的信号会受到环境干扰而发生偏移,导致采集的全局参考路点发生偏移,如图1所示。车载GPS传感器的信号受到干扰还会导致车身定位不准,进而使得车身坐标系下的全局参考路点偏移,如图2所示。
步骤3:由障碍物栅格地图和全局参考路点搭建智能车所在的虚拟场景;
步骤4:如图4所示,在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;其中,智能车的运动学模型如图5所示,虚拟环境中生成规划路径如图6所示。
步骤4中的路径生成模块通过以下步骤训练获得:
S1:基于DDPG的强化学习智能体的网络结构如图3所示,将基于DDPG的强化学习智能体的训练阶段根据训练场景由简到难依次分为初始阶段、中间阶段和最终阶段;其中,初始阶段中输入的第一状态空间由智能车到道路左右边界的距离dl和dr以及准确的全局参考路点在车身坐标系中的位置dwx和dwy组成,中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置dox和doy组成,最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置dwx′和dwy′组成;即第三状态空间s={dl,dr,dox,doy,dwx′,dwy′}。
S2:构建动作空间,动作空间为智能车的前轮转角δf
S3:将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练,设置奖惩值并对训练过程进行监督,获得训练好的强化学习智能体;
奖惩值包括到达终点的奖励值Rarrive、智能车发生碰撞的惩罚值Rcollision和中间状态的奖惩值Rtemp
中间状态的奖惩值Rtemp通过以下步骤计算获得:
A1:利用势场法为各训练阶段中的道路边界、障碍物以及全局参考路点分别分配对应的势场函数;
A2:根据三个势场函数分别计算对应的道路边界势场PR、障碍物势场PO和准确的全局参考路点势场PW和不准确的全局参考路点势场PW′,将训练阶段中对应的势场进行叠加后,获得当前训练阶段的总势场PU并作为中间状态的奖惩值Rtemp;即最终阶段的中间状态的奖惩值Rtemp=PR+PO+PW′
道路边界的势场函数为:
Figure BDA0003488117330000071
其中,PR(dl,dr)是道路边界势场,aR是势场的强度参数,ds为智能车到道路边界的安全距离。
障碍物的势场函数为:
Figure BDA0003488117330000072
其中,PO(dox,doy)是障碍物势场,ao和bo分别是障碍物势函数的强度参数和形状参数。Xs和Ys分别表示车辆到障碍物的纵向和横向的安全距离,纵向为智能车的行驶方向,垂直于智能车的行驶方向的方向为横向,纵向与横向在水平面中,其定义为:
Xs=X0-vT0
Ys=Y0+(υsinθeosinθe)T0
其中,X0和Y0分别表示纵向和横向的最小安全距离,T0是安全时间间隔,v是智能车的速度,vo是障碍物的速度,θe是智能车和障碍物之间的航向角偏差。
准确和不准确的全局参考路点的势场函数相同,其中全局参考路点的势场函数为:
Figure BDA0003488117330000073
其中,PW(dwy)是准确的全局参考路点势场,da指全局参考路点的横向位置的误差范围,aw为全局参考路点的势场强度。
A3:训练过程中,根据总势场PU的三维梯度图,利用基于势场法的路径规划方法对A1中各训练阶段的所有势场函数进行势场参数整定,根据整定后的势场函数进行各训练阶段的总势场的更新,将更新后的总势场作为各训练阶段的中间状态的奖惩值Rtemp
步骤5:利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型,再基于车辆动力学模型构建车辆状态的预测方程;车辆动力学模型如图7所示。
接着根据车辆状态的预测方程,利用模型预测控制算法建立带终端约束和终端代价的目标优化函数和约束条件,进而搭建路径跟踪控制器;
最后利用路径跟踪控制器通过控制车辆前轮转角对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
带终端约束和终端代价的目标优化函数为:
Figure BDA0003488117330000081
目标优化函数的约束条件为:
Δumin≤Δu(k|t)≤Δumax
umin≤u(k|t)≤umax
ymin≤y(k|t)≤ymax
βmin≤β(k|t)≤βmax
k=t,…,t+Np-1
y(t+Np|t)-r(t+Np|t)∈Ω
其中,
Figure BDA0003488117330000082
为加入的终端代价;y(t+Np|t)-r(t+Np|t)∈Ω为加入的终端约束。minU(t)J表示在t时刻对应的预测时域中,当智能车的目标优化值最小时,取车辆前轮转角的控制量集合的操作;J表示智能车的目标优化值,反映了未来一定时域上的对路径跟踪误差和控制量平稳变化的要求,U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合;
Figure BDA0003488117330000083
表示基于第一权重矩阵Q计算范数平方的操作,
Figure BDA0003488117330000084
表示基于第二权重矩阵R计算范数平方的操作,
Figure BDA0003488117330000085
表示基于第三权重矩阵P计算范数平方的操作,
Figure BDA0003488117330000086
表示在t时刻下第i个时刻基于第一权重矩阵Q计算智能车跟踪误差权重的操作,
Figure BDA0003488117330000087
表示在t时刻下第i个时刻基于第二权重矩阵R计算智能车控制平稳性权重的操作,
Figure BDA0003488117330000088
表示在t时刻下第Np个时刻基于第三权重矩阵P计算智能车跟踪误差权重的操作,
Figure BDA0003488117330000089
反映了对路径跟踪误差的要求,
Figure BDA00034881173300000810
反映了对控制量平稳变化的要求,y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值,r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值,车辆状态横摆角和横向位置的预期值是通过智能车的规划路径获得的,u(t+i|t)表示在t时刻下第i个控制量,y(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预测值,r(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预期值,Np为预测时域,Q、R、P分别为第一、第二、第三权重系数,Δumax为车辆前轮转角的右极限增量;Δumin为车辆前轮转角的左极限增量;Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量,u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量,umax为车辆前轮转角的右极限位置;umin为车辆前轮转角的左极限位置;y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置,ymin为车辆状态横摆角和横向位置的最小值;ymax为车辆状态横摆角和横向位置的最大值,β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角;βmin和βmax分别为车辆质心侧偏角的最小值和最大值,Ω表示终端约束域。
目标优化函数中的终端约束域经过了线性化预处理,确保控制***的实时性。
在本实施例中,训练的环境为MATLAB/Simulink和Carsim的联合仿真。在MATLAB/Simulink中对强化学习算法的网络结构、状态空间、动作空间和奖励函数进行设计,在Carsim中获得高精度、高真实度的车辆模型。
势场设计完成后,用势场法的路径规划方法对势场参数进行整定。若规划的路径不符合安全性要求,则对势场参数进行调整。
在设定强化学习训练场景时,将训练场景由简到难分为三个阶段。初始阶段,只包括道路障碍物和准确的参考路点;中间阶段,往初始阶段加入了障碍物;最终阶段,在中间阶段加入了不准确的参考路点。
强化学习训练的结果如图8所示,本方法在网络训练效果和收敛速度上均相比传统DDPG网络有提升。
将此发明所提出的控制器在双移线工况下进行测试,在横摆角速度和横向速度中加入噪声,并与传统模型预测控制方法的跟踪效果对比。其跟踪效果的平均绝对误差(MAE)由下表给出:
表1:跟踪效果的平均绝对误差(MAE)
Figure BDA0003488117330000101
从表1可以看出,本发明所提出的跟踪控制方法在无误差、存在横摆角速度噪声和存在横向速度噪声时,跟踪精度均相比传统模型预测控制方法有所提升。
将本发明所提出的路径规划方法和跟踪控制方法相结合,用于应对本文所针对的车身定位不准确的场景,其实施流程如图9所示。图10为在所设计的参考路点不精确、车身定位步准确的场景下的规划控制效果比较,framework A为本发明所提出的规划控制方法,framework B为传统DDPG规划和纯跟踪控制的方法,PF+MPC为势场法的规划和模型预测控制跟踪的方法。图11的(a)、(b)、(c)依次分别为三种方法的质心侧偏角值变化,图12的(a)、(b)、(c)依次分别为三种方法的横向加速度变化,用于体现轨迹的稳定性和舒适性。表2对实验的数据进行了统计分析。
表2:本发明与其他方法的实验结果分析表
Figure BDA0003488117330000102
从图9、图10、图11、图12和表2可以看出,本发明所设计的规划控制方法能在定位不准确时让智能车有更舒适、更稳定的运动状态。

Claims (7)

1.一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,包括以下步骤:
步骤1:通过车载激光雷达传感器获得障碍物栅格地图,基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息,然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息;
步骤2:利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点,再通过车载GPS传感器获得车身定位以及运动状态,最后基于车身定位以及运动状态对全局参考路点进行坐标转换,获得车身坐标系下的全局参考路点;
步骤3:由障碍物栅格地图和全局参考路点搭建智能车所在的虚拟场景;
步骤4:在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;
步骤5:利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
2.根据权利要求1所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述步骤4中的路径生成模块通过以下步骤训练获得:
S1:将基于DDPG的强化学习智能体的训练阶段依次分为初始阶段、中间阶段和最终阶段;其中,初始阶段中输入的第一状态空间由智能车到道路左右边界的距离以及准确的全局参考路点在车身坐标系中的位置组成,中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置组成,最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置组成;
S2:构建动作空间,动作空间为智能车的前轮转角δf
S3:将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练,设置奖惩值并对训练过程进行监督,获得训练好的强化学习智能体。
3.根据权利要求2所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述奖惩值包括到达终点的奖励值Rarrive、智能车发生碰撞的惩罚值Rcollision和中间状态的奖惩值Rtemp
4.根据权利要求3所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述中间状态的奖惩值Rtemp通过以下步骤计算获得:
A1:利用势场法为各训练阶段中的道路边界、障碍物以及全局参考路点分别分配对应的势场函数;
A2:根据三个势场函数分别计算对应的道路边界势场PR、障碍物势场PO和准确的全局参考路点势场PW和不准确的全局参考路点势场PW′,将训练阶段中对应的势场进行叠加后,获得当前训练阶段的总势场PU并作为中间状态的奖惩值Rtemp
A3:训练过程中,根据总势场PU的三维梯度图,利用基于势场法的路径规划方法对A1中各训练阶段的所有势场函数进行势场参数整定,根据整定后的势场函数进行各训练阶段的总势场的更新,将更新后的总势场作为各训练阶段的中间状态的奖惩值Rtemp
5.根据权利要求1所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型,再基于车辆动力学模型构建车辆状态的预测方程;
接着根据车辆状态的预测方程,利用模型预测控制算法建立目标优化函数和约束条件,进而搭建路径跟踪控制器;
最后利用路径跟踪控制器对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
6.根据权利要求5所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述的目标优化函数为:
Figure FDA0003488117320000021
目标优化函数的约束条件为:
Δumin≤Δu(k|t)≤Δumax
umin≤u(k|t)≤umax
ymin≤y(k|t)≤ymax
βmin≤β(k|t)≤βmax
k=t,…,t+Np-1
y(t+Np|t)-r(t+Np|t)∈Ω
其中,minU(t)J表示在t时刻对应的预测时域中,当智能车的目标优化值最小时,取车辆前轮转角的控制量集合的操作;J表示智能车的目标优化值,U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合;
Figure FDA0003488117320000031
表示基于第一权重矩阵Q计算范数平方的操作,
Figure FDA0003488117320000032
表示基于第二权重矩阵R计算范数平方的操作,
Figure FDA0003488117320000033
表示基于第三权重矩阵P计算范数平方的操作,y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值,r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值,u(t+i|t)表示在t时刻下第i个控制量,y(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预测值,r(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预期值,Np为预测时域,Q、R、P分别为第一、第二、第三权重系数,Δumax为车辆前轮转角的右极限增量;Δumin为车辆前轮转角的左极限增量;Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量,u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量,umax为车辆前轮转角的右极限位置;umin为车辆前轮转角的左极限位置;y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置,ymin为车辆状态横摆角和横向位置的最小值;ymax为车辆状态横摆角和横向位置的最大值,β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角;βmin和βmax分别为车辆质心侧偏角的最小值和最大值,Ω表示终端约束域。
7.根据权利要求6所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述目标优化函数中的终端约束域经过了线性化预处理。
CN202210088325.4A 2022-01-25 2022-01-25 一种基于强化学习和模型预测的智能车规划控制方法 Active CN114442630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210088325.4A CN114442630B (zh) 2022-01-25 2022-01-25 一种基于强化学习和模型预测的智能车规划控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210088325.4A CN114442630B (zh) 2022-01-25 2022-01-25 一种基于强化学习和模型预测的智能车规划控制方法

Publications (2)

Publication Number Publication Date
CN114442630A true CN114442630A (zh) 2022-05-06
CN114442630B CN114442630B (zh) 2023-12-05

Family

ID=81368785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210088325.4A Active CN114442630B (zh) 2022-01-25 2022-01-25 一种基于强化学习和模型预测的智能车规划控制方法

Country Status (1)

Country Link
CN (1) CN114442630B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578834A (zh) * 2022-05-09 2022-06-03 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN115540896A (zh) * 2022-12-06 2022-12-30 广汽埃安新能源汽车股份有限公司 路径规划方法、装置、电子设备和计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN112650237A (zh) * 2020-12-21 2021-04-13 武汉理工大学 基于聚类处理和人工势场的船舶路径规划方法和装置
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799386A (zh) * 2019-10-25 2021-05-14 中国科学院沈阳自动化研究所 基于人工势场与强化学习的机器人路径规划方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112650237A (zh) * 2020-12-21 2021-04-13 武汉理工大学 基于聚类处理和人工势场的船舶路径规划方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUNQIANG LIN: "APF-DPPO: an automatic driving policy learning method based on the artificial potential field method ot optimize the reward function", MACHINES *
刘和祥;边信黔;秦政;王宏健;: "基于前视声呐信息的AUV避碰规划研究", ***仿真学报, no. 24 *
王通: "基于强化学习的智能车低成本导航", 中国优秀硕士学位论文全文数据库工程科技Ⅱ辑, pages 035 - 484 *
韩光信: "约束非完整移动机器人轨迹跟踪的非线性预测控制", 吉林大学学报(工学版), pages 177 - 181 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578834A (zh) * 2022-05-09 2022-06-03 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN115540896A (zh) * 2022-12-06 2022-12-30 广汽埃安新能源汽车股份有限公司 路径规划方法、装置、电子设备和计算机可读介质
CN115540896B (zh) * 2022-12-06 2023-03-07 广汽埃安新能源汽车股份有限公司 路径规划方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN114442630B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN110187639B (zh) 一种基于参数决策框架的轨迹规划控制方法
Li et al. Real-time trajectory planning for autonomous urban driving: Framework, algorithms, and verifications
CN113276848B (zh) 一种智能驾驶换道避障轨迹规划、跟踪控制方法及***
Weiskircher et al. Predictive guidance and control framework for (semi-) autonomous vehicles in public traffic
CN110356394A (zh) 一种车辆主动避让障碍物的方法、装置及汽车
CN111289978A (zh) 一种车辆无人驾驶行为决策的方法和***
CN112965476B (zh) 一种基于多窗口模型的高速无人车轨迹规划***及方法
CN114442630B (zh) 一种基于强化学习和模型预测的智能车规划控制方法
CN110568841A (zh) 一种自动驾驶决策方法及***
CN113848914B (zh) 动态环境下碰撞系数人工势场法局部路径规划方法
CN112249008B (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN112577506B (zh) 一种自动驾驶局部路径规划方法和***
CN113433947B (zh) 基于障碍车估计与预测的交叉路口轨迹规划与控制方法
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
Wei et al. Game theoretic merging behavior control for autonomous vehicle at highway on-ramp
CN114942642A (zh) 一种无人驾驶汽车轨迹规划方法
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
Zhang et al. Structured road-oriented motion planning and tracking framework for active collision avoidance of autonomous vehicles
CN113200054A (zh) 一种自动驾驶接管的路径规划方法及***
Smit et al. Informed sampling-based trajectory planner for automated driving in dynamic urban environments
Li et al. Distributed MPC for multi-vehicle cooperative control considering the surrounding vehicle personality
CN113460091B (zh) 一种无保护十字路口无人车滚动优化决策方法
CN115447615A (zh) 基于车辆运动学模型预测控制的轨迹优化方法
CN115140048A (zh) 一种自动驾驶行为决策与轨迹规划模型与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant