CN114442630A - 一种基于强化学习和模型预测的智能车规划控制方法 - Google Patents
一种基于强化学习和模型预测的智能车规划控制方法 Download PDFInfo
- Publication number
- CN114442630A CN114442630A CN202210088325.4A CN202210088325A CN114442630A CN 114442630 A CN114442630 A CN 114442630A CN 202210088325 A CN202210088325 A CN 202210088325A CN 114442630 A CN114442630 A CN 114442630A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- intelligent vehicle
- intelligent
- potential field
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims description 30
- 238000005457 optimization Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000004888 barrier function Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 230000000875 corresponding effect Effects 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
- G05D1/0278—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using satellite positioning signals, e.g. GPS
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Traffic Control Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于强化学习和模型预测的智能车规划控制方法。包括:通过车载激光雷达传感器采集并计算后获得车身坐标系下的道路边界信息和障碍物信息;利用车载GPS传感器采集并计算后获得车身坐标系下的全局参考路点;搭建智能车所在的虚拟场景;在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。本发明提升了规划部分的网络训练,确保了智能车在定位不准时的路径规划效果,提升了车身运动的稳定性和舒适性。
Description
技术领域
本发明属于智能车自动驾驶领域的一种智能车规划控制方法,具体涉及了弱GPS环境下一种基于强化学习和模型预测的智能车规划控制方法。
背景技术
随着近年来经济的发展和汽车工业技术水平的提高,汽车保有量不断增加,导致交通事故、交通拥堵、废气排放、驾驶员困倦等问题的加剧。无人驾驶汽车具有节能、环保、舒适和高效等优点,是未来汽车发展的重要趋势,受到世界各国的高度重视。
路径规划和跟踪控制是自动驾驶的关键技术。对于路径规划模块,其规划的效果严重依赖于高精度地图和高精度的定位设备。相比于精度为米级别的传统电子地图,厘米级别的高精度地图能够更加真实得展现出道路的车道数、形状、宽窄等细节,帮智能车更准确地规划和决策。但是,高精度地图制作过程中的信息采集、质量检测、运营维护等流程使得其绘制和维护的成本昂贵。同时,由于GPS信号容易由于天气、高楼和隧道等原因定位不准或是丢失,高精度定位设备往往还需要配备高昂的IMU设备辅助定位,这也给智能车的推广和普及带来很大阻碍。对于跟踪控制模块,其难点在于如何在跟踪路径的同时,处理车辆***的非线性特性及处理状态变量和操纵变量中的约束问题。同时,由于在传感器感知车身运动状态时也容易引入误差,需要确保控制器在误差干扰下的鲁棒性。
近年来,强化学习在诸如图像识别、语音识别、机器人等领域取得巨大的成功。Q学习由强化学习发展而来。在Q学习中,有一个具有状态和相应动作的主体。在任何时候,代理都处于某种可行的状态。在下一个时间步骤中,通过执行某些操作将状态转换。这个行动伴随着奖励或惩罚。代理的目标是使奖励收益最大化。该算法可以在最初未知的环境中通过不断的反复试验来与其环境进行交互,它指导车辆不断采取行动,使得其从环境中获得的回报最大化,然后找到避免障碍的无碰撞路径。
DDPG(Deep Deterministic Policy Gradient)算法借鉴了Actor-Critic的网络结构,并采用了DQN(Deep Q Network)算法中的经验回放池的方法,建立了一个名为经验池的数据库来存储智能体与环境交互的数据。在训练时,智能体可以从经验池中随机选取训练数据来训练神经网络,以此防止训练数据在时间上的相关性,有效提高了训练效率和样本利用率。
模型预测控制(Model Predictive Control,MPC)作为一种有效的方法可以方便地处理多变量约束控制问题,已在工业***中得到广泛应用。近年来,MPC已扩展到运动体跟踪控制问题,能以一种次优的方式,在满足***约束条件的基础上,完成预设目标。在这种控制方案中,在每个采样时间重新计算控制序列,在输入状态约束下将成本函数最小化。将序列的第一个控制输入应用到***后,在下一个时间步根据最新***状态重复在线优化问题。
发明内容
为了解决背景技术中存在的智能车定位不精确的问题,本发明提出了一种基于强化学习和模型预测的智能车规划控制方法,对现有的规划和控制算法进行改进,以提升智能车在定位不精确时的稳定性和舒适性。
本发明所采用的技术方案为:
本发明包括以下步骤:
步骤1:通过车载激光雷达传感器获得障碍物栅格地图,基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息,然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息;
步骤2:利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点,再通过车载GPS传感器获得车身定位以及运动状态,最后基于车身定位以及运动状态对全局参考路点进行坐标转换,获得车身坐标系下的全局参考路点;
步骤3:由障碍物栅格地图和全局参考路点搭建智能车所在的虚拟场景;
步骤4:在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;
步骤5:利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
所述步骤4中的路径生成模块通过以下步骤训练获得:
S1:将基于DDPG的强化学习智能体的训练阶段依次分为初始阶段、中间阶段和最终阶段;其中,初始阶段中输入的第一状态空间由智能车到道路左右边界的距离以及准确的全局参考路点在车身坐标系中的位置组成,中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置组成,最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置组成;
S2:构建动作空间,动作空间为智能车的前轮转角δf;
S3:将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练,设置奖惩值并对训练过程进行监督,获得训练好的强化学习智能体。
所述奖惩值包括到达终点的奖励值Rarrive、智能车发生碰撞的惩罚值Rcollision和中间状态的奖惩值Rtemp。
所述中间状态的奖惩值Rtemp通过以下步骤计算获得:
A1:利用势场法为各训练阶段中的道路边界、障碍物以及全局参考路点分别分配对应的势场函数;
A2:根据三个势场函数分别计算对应的道路边界势场PR、障碍物势场PO和准确的全局参考路点势场PW和不准确的全局参考路点势场PW′,将训练阶段中对应的势场进行叠加后,获得当前训练阶段的总势场PU并作为中间状态的奖惩值Rtemp;
A3:训练过程中,根据总势场PU的三维梯度图,利用基于势场法的路径规划方法对A1中各训练阶段的所有势场函数进行势场参数整定,根据整定后的势场函数进行各训练阶段的总势场的更新,将更新后的总势场作为各训练阶段的中间状态的奖惩值Rtemp。
所述步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型,再基于车辆动力学模型构建车辆状态的预测方程;
接着根据车辆状态的预测方程,利用模型预测控制算法建立目标优化函数和约束条件,进而搭建路径跟踪控制器;
最后利用路径跟踪控制器对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
所述的目标优化函数为:
目标优化函数的约束条件为:
Δumin≤Δu(k|t)≤Δumax
umin≤u(k|t)≤umax
ymin≤y(k|t)≤ymax
βmin≤β(k|t)≤βmax
k=t,…,t+Np-1
y(t+Np|t)-r(t+Np|t)∈Ω
其中,minU(t)J表示在t时刻对应的预测时域中,当智能车的目标优化值最小时,取车辆前轮转角的控制量集合的操作;J表示智能车的目标优化值,U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合;表示基于第一权重矩阵Q计算范数平方的操作,表示基于第二权重矩阵R计算范数平方的操作,表示基于第三权重矩阵P计算范数平方的操作,y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值,r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值,u(t+i|t)表示在t时刻下第i个控制量,y(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预测值,r(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预期值,Np为预测时域,Q、R、P分别为第一、第二、第三权重系数,Δumax为车辆前轮转角的右极限增量;Δumin为车辆前轮转角的左极限增量;Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量,u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量,umax为车辆前轮转角的右极限位置;umin为车辆前轮转角的左极限位置;y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置,ymin为车辆状态横摆角和横向位置的最小值;ymax为车辆状态横摆角和横向位置的最大值,β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角;βmin和βmax分别为车辆质心侧偏角的最小值和最大值,Ω表示终端约束域。
所述目标优化函数中的终端约束域经过了线性化预处理。
本发明的有益效果是:
本发明针对智能车定位不精确的场景,提出了一种规划控制方法,包括基于DDPG强化学习的路径规划方法和基于模型预测控制的路径跟踪方法,即路径生成模块和跟踪控制模块。
在路径规划方法中,基于DDPG算法实现了智能车在定位不精确场景下的路径生成,确保了路径的安全性和平滑性。用势场法对DDPG的奖惩值进行改进,并将训练阶段分为初始阶段、中间阶段和最终阶段,提升了算法的收敛速度和训练效率。
在跟踪控制方法中,基于模型预测控制算法实现了路径跟踪控制器,并在目标优化函数中加入了终端代价和终端约束,提升了控制***的稳定性和控制精度。将终端约束域线性化,确保了智能车控制***的实时性。
将路径规划方法和跟踪控制方法结合的规划控制算法,能够在智能车定位不精确的场景中顺利完成避障,遵循所设计的路径安全完成导航任务,且能保证轨迹的平滑稳定。
附图说明
图1是采集的参考路点发生偏移的示意图。
图2是车身定位不准使参考路点发生偏移的示意图。
图3是DDPG网络结构的示意图。
图4是虚拟环境路径生成流程框图。
图5是智能车运动学模型。
图6是虚拟环境中路径生成的示意图。
图7是车辆动力学模型。
图8是强化学习训练的奖励函数曲线。
图9是本发明的规划控制实施流程。
图10是在定位不准确时的智能车运动轨迹。
图11是在定位不准确时的三种方法质心侧偏角变化。
图12是在定位步准确时的三种方法横向加速度变化。
具体实施方式
下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图9所示,本发明包括以下步骤:
步骤1:智能车上装有激光雷达传感器和GPS传感器。通过车载激光雷达传感器获得障碍物栅格地图,基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息,然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息;障碍物信息具体为智能车前方最近的障碍物所在位置。
步骤2:利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点,再通过车载GPS传感器获得车身定位以及运动状态,最后基于车身定位以及运动状态对全局参考路点进行坐标转换,获得车身坐标系下的全局参考路点;车载GPS传感器的信号会受到环境干扰而发生偏移,导致采集的全局参考路点发生偏移,如图1所示。车载GPS传感器的信号受到干扰还会导致车身定位不准,进而使得车身坐标系下的全局参考路点偏移,如图2所示。
步骤3:由障碍物栅格地图和全局参考路点搭建智能车所在的虚拟场景;
步骤4:如图4所示,在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;其中,智能车的运动学模型如图5所示,虚拟环境中生成规划路径如图6所示。
步骤4中的路径生成模块通过以下步骤训练获得:
S1:基于DDPG的强化学习智能体的网络结构如图3所示,将基于DDPG的强化学习智能体的训练阶段根据训练场景由简到难依次分为初始阶段、中间阶段和最终阶段;其中,初始阶段中输入的第一状态空间由智能车到道路左右边界的距离dl和dr以及准确的全局参考路点在车身坐标系中的位置dwx和dwy组成,中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置dox和doy组成,最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置dwx′和dwy′组成;即第三状态空间s={dl,dr,dox,doy,dwx′,dwy′}。
S2:构建动作空间,动作空间为智能车的前轮转角δf;
S3:将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练,设置奖惩值并对训练过程进行监督,获得训练好的强化学习智能体;
奖惩值包括到达终点的奖励值Rarrive、智能车发生碰撞的惩罚值Rcollision和中间状态的奖惩值Rtemp;
中间状态的奖惩值Rtemp通过以下步骤计算获得:
A1:利用势场法为各训练阶段中的道路边界、障碍物以及全局参考路点分别分配对应的势场函数;
A2:根据三个势场函数分别计算对应的道路边界势场PR、障碍物势场PO和准确的全局参考路点势场PW和不准确的全局参考路点势场PW′,将训练阶段中对应的势场进行叠加后,获得当前训练阶段的总势场PU并作为中间状态的奖惩值Rtemp;即最终阶段的中间状态的奖惩值Rtemp=PR+PO+PW′;
道路边界的势场函数为:
其中,PR(dl,dr)是道路边界势场,aR是势场的强度参数,ds为智能车到道路边界的安全距离。
障碍物的势场函数为:
其中,PO(dox,doy)是障碍物势场,ao和bo分别是障碍物势函数的强度参数和形状参数。Xs和Ys分别表示车辆到障碍物的纵向和横向的安全距离,纵向为智能车的行驶方向,垂直于智能车的行驶方向的方向为横向,纵向与横向在水平面中,其定义为:
Xs=X0-vT0
Ys=Y0+(υsinθe+υosinθe)T0
其中,X0和Y0分别表示纵向和横向的最小安全距离,T0是安全时间间隔,v是智能车的速度,vo是障碍物的速度,θe是智能车和障碍物之间的航向角偏差。
准确和不准确的全局参考路点的势场函数相同,其中全局参考路点的势场函数为:
其中,PW(dwy)是准确的全局参考路点势场,da指全局参考路点的横向位置的误差范围,aw为全局参考路点的势场强度。
A3:训练过程中,根据总势场PU的三维梯度图,利用基于势场法的路径规划方法对A1中各训练阶段的所有势场函数进行势场参数整定,根据整定后的势场函数进行各训练阶段的总势场的更新,将更新后的总势场作为各训练阶段的中间状态的奖惩值Rtemp。
步骤5:利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型,再基于车辆动力学模型构建车辆状态的预测方程;车辆动力学模型如图7所示。
接着根据车辆状态的预测方程,利用模型预测控制算法建立带终端约束和终端代价的目标优化函数和约束条件,进而搭建路径跟踪控制器;
最后利用路径跟踪控制器通过控制车辆前轮转角对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
带终端约束和终端代价的目标优化函数为:
目标优化函数的约束条件为:
Δumin≤Δu(k|t)≤Δumax
umin≤u(k|t)≤umax
ymin≤y(k|t)≤ymax
βmin≤β(k|t)≤βmax
k=t,…,t+Np-1
y(t+Np|t)-r(t+Np|t)∈Ω
其中,为加入的终端代价;y(t+Np|t)-r(t+Np|t)∈Ω为加入的终端约束。minU(t)J表示在t时刻对应的预测时域中,当智能车的目标优化值最小时,取车辆前轮转角的控制量集合的操作;J表示智能车的目标优化值,反映了未来一定时域上的对路径跟踪误差和控制量平稳变化的要求,U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合;表示基于第一权重矩阵Q计算范数平方的操作,表示基于第二权重矩阵R计算范数平方的操作,表示基于第三权重矩阵P计算范数平方的操作,表示在t时刻下第i个时刻基于第一权重矩阵Q计算智能车跟踪误差权重的操作,表示在t时刻下第i个时刻基于第二权重矩阵R计算智能车控制平稳性权重的操作,表示在t时刻下第Np个时刻基于第三权重矩阵P计算智能车跟踪误差权重的操作,反映了对路径跟踪误差的要求,反映了对控制量平稳变化的要求,y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值,r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值,车辆状态横摆角和横向位置的预期值是通过智能车的规划路径获得的,u(t+i|t)表示在t时刻下第i个控制量,y(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预测值,r(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预期值,Np为预测时域,Q、R、P分别为第一、第二、第三权重系数,Δumax为车辆前轮转角的右极限增量;Δumin为车辆前轮转角的左极限增量;Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量,u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量,umax为车辆前轮转角的右极限位置;umin为车辆前轮转角的左极限位置;y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置,ymin为车辆状态横摆角和横向位置的最小值;ymax为车辆状态横摆角和横向位置的最大值,β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角;βmin和βmax分别为车辆质心侧偏角的最小值和最大值,Ω表示终端约束域。
目标优化函数中的终端约束域经过了线性化预处理,确保控制***的实时性。
在本实施例中,训练的环境为MATLAB/Simulink和Carsim的联合仿真。在MATLAB/Simulink中对强化学习算法的网络结构、状态空间、动作空间和奖励函数进行设计,在Carsim中获得高精度、高真实度的车辆模型。
势场设计完成后,用势场法的路径规划方法对势场参数进行整定。若规划的路径不符合安全性要求,则对势场参数进行调整。
在设定强化学习训练场景时,将训练场景由简到难分为三个阶段。初始阶段,只包括道路障碍物和准确的参考路点;中间阶段,往初始阶段加入了障碍物;最终阶段,在中间阶段加入了不准确的参考路点。
强化学习训练的结果如图8所示,本方法在网络训练效果和收敛速度上均相比传统DDPG网络有提升。
将此发明所提出的控制器在双移线工况下进行测试,在横摆角速度和横向速度中加入噪声,并与传统模型预测控制方法的跟踪效果对比。其跟踪效果的平均绝对误差(MAE)由下表给出:
表1:跟踪效果的平均绝对误差(MAE)
从表1可以看出,本发明所提出的跟踪控制方法在无误差、存在横摆角速度噪声和存在横向速度噪声时,跟踪精度均相比传统模型预测控制方法有所提升。
将本发明所提出的路径规划方法和跟踪控制方法相结合,用于应对本文所针对的车身定位不准确的场景,其实施流程如图9所示。图10为在所设计的参考路点不精确、车身定位步准确的场景下的规划控制效果比较,framework A为本发明所提出的规划控制方法,framework B为传统DDPG规划和纯跟踪控制的方法,PF+MPC为势场法的规划和模型预测控制跟踪的方法。图11的(a)、(b)、(c)依次分别为三种方法的质心侧偏角值变化,图12的(a)、(b)、(c)依次分别为三种方法的横向加速度变化,用于体现轨迹的稳定性和舒适性。表2对实验的数据进行了统计分析。
表2:本发明与其他方法的实验结果分析表
从图9、图10、图11、图12和表2可以看出,本发明所设计的规划控制方法能在定位不准确时让智能车有更舒适、更稳定的运动状态。
Claims (7)
1.一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,包括以下步骤:
步骤1:通过车载激光雷达传感器获得障碍物栅格地图,基于障碍物栅格地图确定激光雷达传感器坐标系下车身周围的道路边界信息和障碍物信息,然后进行坐标转换后获得车身坐标系下的道路边界信息和障碍物信息;
步骤2:利用车载GPS传感器采集车载GPS传感器坐标系下的全局参考路点,再通过车载GPS传感器获得车身定位以及运动状态,最后基于车身定位以及运动状态对全局参考路点进行坐标转换,获得车身坐标系下的全局参考路点;
步骤3:由障碍物栅格地图和全局参考路点搭建智能车所在的虚拟场景;
步骤4:在智能车的虚拟场景下,基于车身坐标系下的道路边界信息、障碍物信息和全局参考路点,利用路径生成模块对智能车进行路径规划,获得智能车的规划路径;
步骤5:利用跟踪控制模块对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
2.根据权利要求1所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述步骤4中的路径生成模块通过以下步骤训练获得:
S1:将基于DDPG的强化学习智能体的训练阶段依次分为初始阶段、中间阶段和最终阶段;其中,初始阶段中输入的第一状态空间由智能车到道路左右边界的距离以及准确的全局参考路点在车身坐标系中的位置组成,中间阶段中输入的第二状态空间由第一状态空间以及智能车前方最近的障碍物在车身坐标系中的位置组成,最终阶段中输入的第三状态空间由智能车到道路左右边界的距离、智能车前方最近的障碍物在车身坐标系中的位置以及不准确的参考路点在车身坐标系中的位置组成;
S2:构建动作空间,动作空间为智能车的前轮转角δf;
S3:将动作空间与不同状态空间构成训练集对基于DDPG的强化学习智能体进行训练,设置奖惩值并对训练过程进行监督,获得训练好的强化学习智能体。
3.根据权利要求2所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述奖惩值包括到达终点的奖励值Rarrive、智能车发生碰撞的惩罚值Rcollision和中间状态的奖惩值Rtemp。
4.根据权利要求3所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述中间状态的奖惩值Rtemp通过以下步骤计算获得:
A1:利用势场法为各训练阶段中的道路边界、障碍物以及全局参考路点分别分配对应的势场函数;
A2:根据三个势场函数分别计算对应的道路边界势场PR、障碍物势场PO和准确的全局参考路点势场PW和不准确的全局参考路点势场PW′,将训练阶段中对应的势场进行叠加后,获得当前训练阶段的总势场PU并作为中间状态的奖惩值Rtemp;
A3:训练过程中,根据总势场PU的三维梯度图,利用基于势场法的路径规划方法对A1中各训练阶段的所有势场函数进行势场参数整定,根据整定后的势场函数进行各训练阶段的总势场的更新,将更新后的总势场作为各训练阶段的中间状态的奖惩值Rtemp。
5.根据权利要求1所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述步骤5的跟踪控制模块中首先根据智能车建立车辆动力学模型,再基于车辆动力学模型构建车辆状态的预测方程;
接着根据车辆状态的预测方程,利用模型预测控制算法建立目标优化函数和约束条件,进而搭建路径跟踪控制器;
最后利用路径跟踪控制器对智能车的规划路径进行跟踪,从而实现智能车的规划控制。
6.根据权利要求5所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述的目标优化函数为:
目标优化函数的约束条件为:
Δumin≤Δu(k|t)≤Δumax
umin≤u(k|t)≤umax
ymin≤y(k|t)≤ymax
βmin≤β(k|t)≤βmax
k=t,…,t+Np-1
y(t+Np|t)-r(t+Np|t)∈Ω
其中,minU(t)J表示在t时刻对应的预测时域中,当智能车的目标优化值最小时,取车辆前轮转角的控制量集合的操作;J表示智能车的目标优化值,U(t)表示在t时刻对应的预测时域中车辆前轮转角的控制量集合;表示基于第一权重矩阵Q计算范数平方的操作,表示基于第二权重矩阵R计算范数平方的操作,表示基于第三权重矩阵P计算范数平方的操作,y(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预测值,r(t+i|t)表示在t时刻下第i个车辆状态横摆角和横向位置的预期值,u(t+i|t)表示在t时刻下第i个控制量,y(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预测值,r(t+Np|t)表示在t时刻下第Np个车辆状态横摆角和横向位置的预期值,Np为预测时域,Q、R、P分别为第一、第二、第三权重系数,Δumax为车辆前轮转角的右极限增量;Δumin为车辆前轮转角的左极限增量;Δu(k|t)表示在当前t时刻下的k时刻的车辆前轮转角的控制增量,u(k|t)为在当前t时刻下的k时刻的车辆前轮转角的控制量,umax为车辆前轮转角的右极限位置;umin为车辆前轮转角的左极限位置;y(k|t)表示当前t时刻下的k时刻的车辆状态横摆角和横向位置,ymin为车辆状态横摆角和横向位置的最小值;ymax为车辆状态横摆角和横向位置的最大值,β(k|t)表示当前t时刻下的k时刻的车辆质心侧偏角;βmin和βmax分别为车辆质心侧偏角的最小值和最大值,Ω表示终端约束域。
7.根据权利要求6所述的一种基于强化学习和模型预测的智能车规划控制方法,其特征在于,所述目标优化函数中的终端约束域经过了线性化预处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210088325.4A CN114442630B (zh) | 2022-01-25 | 2022-01-25 | 一种基于强化学习和模型预测的智能车规划控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210088325.4A CN114442630B (zh) | 2022-01-25 | 2022-01-25 | 一种基于强化学习和模型预测的智能车规划控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114442630A true CN114442630A (zh) | 2022-05-06 |
CN114442630B CN114442630B (zh) | 2023-12-05 |
Family
ID=81368785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210088325.4A Active CN114442630B (zh) | 2022-01-25 | 2022-01-25 | 一种基于强化学习和模型预测的智能车规划控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114442630B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114578834A (zh) * | 2022-05-09 | 2022-06-03 | 北京大学 | 基于目标分层双感知域的强化学习的无人车路径规划方法 |
CN115540896A (zh) * | 2022-12-06 | 2022-12-30 | 广汽埃安新能源汽车股份有限公司 | 路径规划方法、装置、电子设备和计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110794842A (zh) * | 2019-11-15 | 2020-02-14 | 北京邮电大学 | 基于势场的强化学习路径规划算法 |
CN112650237A (zh) * | 2020-12-21 | 2021-04-13 | 武汉理工大学 | 基于聚类处理和人工势场的船舶路径规划方法和装置 |
CN112666939A (zh) * | 2020-12-09 | 2021-04-16 | 深圳先进技术研究院 | 一种基于深度强化学习的机器人路径规划算法 |
CN112799386A (zh) * | 2019-10-25 | 2021-05-14 | 中国科学院沈阳自动化研究所 | 基于人工势场与强化学习的机器人路径规划方法 |
-
2022
- 2022-01-25 CN CN202210088325.4A patent/CN114442630B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112799386A (zh) * | 2019-10-25 | 2021-05-14 | 中国科学院沈阳自动化研究所 | 基于人工势场与强化学习的机器人路径规划方法 |
CN110794842A (zh) * | 2019-11-15 | 2020-02-14 | 北京邮电大学 | 基于势场的强化学习路径规划算法 |
CN112666939A (zh) * | 2020-12-09 | 2021-04-16 | 深圳先进技术研究院 | 一种基于深度强化学习的机器人路径规划算法 |
CN112650237A (zh) * | 2020-12-21 | 2021-04-13 | 武汉理工大学 | 基于聚类处理和人工势场的船舶路径规划方法和装置 |
Non-Patent Citations (4)
Title |
---|
JUNQIANG LIN: "APF-DPPO: an automatic driving policy learning method based on the artificial potential field method ot optimize the reward function", MACHINES * |
刘和祥;边信黔;秦政;王宏健;: "基于前视声呐信息的AUV避碰规划研究", ***仿真学报, no. 24 * |
王通: "基于强化学习的智能车低成本导航", 中国优秀硕士学位论文全文数据库工程科技Ⅱ辑, pages 035 - 484 * |
韩光信: "约束非完整移动机器人轨迹跟踪的非线性预测控制", 吉林大学学报(工学版), pages 177 - 181 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114578834A (zh) * | 2022-05-09 | 2022-06-03 | 北京大学 | 基于目标分层双感知域的强化学习的无人车路径规划方法 |
CN115540896A (zh) * | 2022-12-06 | 2022-12-30 | 广汽埃安新能源汽车股份有限公司 | 路径规划方法、装置、电子设备和计算机可读介质 |
CN115540896B (zh) * | 2022-12-06 | 2023-03-07 | 广汽埃安新能源汽车股份有限公司 | 路径规划方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114442630B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110187639B (zh) | 一种基于参数决策框架的轨迹规划控制方法 | |
Li et al. | Real-time trajectory planning for autonomous urban driving: Framework, algorithms, and verifications | |
CN113276848B (zh) | 一种智能驾驶换道避障轨迹规划、跟踪控制方法及*** | |
Weiskircher et al. | Predictive guidance and control framework for (semi-) autonomous vehicles in public traffic | |
CN110356394A (zh) | 一种车辆主动避让障碍物的方法、装置及汽车 | |
CN111289978A (zh) | 一种车辆无人驾驶行为决策的方法和*** | |
CN112965476B (zh) | 一种基于多窗口模型的高速无人车轨迹规划***及方法 | |
CN114442630B (zh) | 一种基于强化学习和模型预测的智能车规划控制方法 | |
CN110568841A (zh) | 一种自动驾驶决策方法及*** | |
CN113848914B (zh) | 动态环境下碰撞系数人工势场法局部路径规划方法 | |
CN112249008B (zh) | 针对复杂动态环境的无人驾驶汽车预警方法 | |
CN113255998B (zh) | 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 | |
CN112577506B (zh) | 一种自动驾驶局部路径规划方法和*** | |
CN113433947B (zh) | 基于障碍车估计与预测的交叉路口轨迹规划与控制方法 | |
CN115257745A (zh) | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 | |
Wei et al. | Game theoretic merging behavior control for autonomous vehicle at highway on-ramp | |
CN114942642A (zh) | 一种无人驾驶汽车轨迹规划方法 | |
CN115257746A (zh) | 一种考虑不确定性的自动驾驶汽车换道决策控制方法 | |
Zhang et al. | Structured road-oriented motion planning and tracking framework for active collision avoidance of autonomous vehicles | |
CN113200054A (zh) | 一种自动驾驶接管的路径规划方法及*** | |
Smit et al. | Informed sampling-based trajectory planner for automated driving in dynamic urban environments | |
Li et al. | Distributed MPC for multi-vehicle cooperative control considering the surrounding vehicle personality | |
CN113460091B (zh) | 一种无保护十字路口无人车滚动优化决策方法 | |
CN115447615A (zh) | 基于车辆运动学模型预测控制的轨迹优化方法 | |
CN115140048A (zh) | 一种自动驾驶行为决策与轨迹规划模型与方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |