CN115202341A - 一种自动驾驶车辆横向运动控制方法及*** - Google Patents
一种自动驾驶车辆横向运动控制方法及*** Download PDFInfo
- Publication number
- CN115202341A CN115202341A CN202210686595.5A CN202210686595A CN115202341A CN 115202341 A CN115202341 A CN 115202341A CN 202210686595 A CN202210686595 A CN 202210686595A CN 115202341 A CN115202341 A CN 115202341A
- Authority
- CN
- China
- Prior art keywords
- model
- vehicle
- motion control
- lateral
- front wheel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 53
- 230000002787 reinforcement Effects 0.000 claims abstract description 40
- 238000005457 optimization Methods 0.000 claims abstract description 22
- 230000008859 change Effects 0.000 claims abstract description 14
- 230000008447 perception Effects 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims abstract description 9
- 230000007613 environmental effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000001994 activation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Steering Control In Accordance With Driving Conditions (AREA)
Abstract
本发明涉及一种自动驾驶车辆横向运动控制方法,该方法包括以下步骤:步骤1:建立自动驾驶车辆的横向运动控制模型;步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;步骤5:强化学习算法模块采用BLF‑SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。与现有技术相比,本发明具有使车辆横向运动控制在变化场景工况中具备安全控制性能以及对于场景工况变化引起的模型参数变化具有学习自适应性能等优点。
Description
技术领域
本发明涉及自动驾驶车辆运动控制领域,尤其是涉及一种自动驾驶车辆横向运动控制方法及***。
背景技术
自动驾驶车辆的运动控制***是典型的安全关键(Safety-Critical,SC)***,在其面对复杂动态驾驶场景进行决策和控制时,存在决策问题抽象和运动控制***具备强非线性等特征。强化学习是典型的一类可不基于模型的交互学习类算法,其基本特点是采用试错机制,基于与环境在线交互得到的评价和反馈信号通过最大化未来回报以实现序列学习。由于其可交互特点,强化学习能够有效通过环境反馈信息学习***控制策略,被广泛认为是实现智能决策和控制,使其具备持续自学习能力进而增强***性能的有效方法。
尽管强化学习具备交互性学习以及无模型学习优势,其在自动驾驶车辆的广泛应用仍存在一定限制,主要原因可归纳为两点:
1、自动驾驶车辆控制***涉及严格安全性;而强化学***稳环境的学习容易失效、学习过程中的安全性难以保证等方面的问题;
2、自动驾驶车辆的行驶环境复杂多变,在建模过程中会不可避免地引入模型不确定性,使得***状态进入非安全区域,导致运动失稳和控制失效,如何解决动态场景运动控制的工况适应性问题是另一个挑战。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种自动驾驶车辆横向运动控制***及方法。
本发明的目的可以通过以下技术方案来实现:
一种自动驾驶车辆横向运动控制方法,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;
步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
所述的步骤1中,建立自动驾驶车辆的横向运动控制模型的过程具体为:
步骤101:获取四轮驱动车辆的动力学模型;
步骤102:忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,获取只考虑车辆的纵向、横向和横摆动力学特性的横向运动控制模型;
步骤103:对横向轮胎力采用线性轮胎力模型进行简化,最终将自动驾驶车辆的横向运动控制模型描述为二阶严格反馈形式。
所述的步骤101中,四轮驱动车辆的运动学模型的表达式为:
所述的步骤102中,横向运动控制模型的表达式为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力。
所述的步骤103中,横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
其中,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于前轮转角δf和横摆角速度ωr小,对进行动力学模型简化,简化后的四轮驱动车辆的动力学模型为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力;
若纵向车速不变,考虑单车的运动控制问题的二阶严格反馈形式下的横向运动控制模型为:
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的模型,表示车辆的侧向位置和航向角,v=[vy,ωr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
定义二阶严格反馈形式的横向运动控制模型时所需的模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
其中,C1、C2、C3、C4、C5和C6分别为模型参数。
所述的步骤4中,实际车辆中的轮胎具有非线性特性,受到不同工况的影响,模型fi和gi与真实***的动力学模型fi p和之间存在参数不匹配的***不确定性,进而造成模型参数失配,令真实***的轮胎的作用力为:
所述的步骤5中,强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为:
针对二阶严格反馈形式下的非线性***,即二阶严格反馈形式下的横向运动控制模型,引入待优化的虚拟控制αi(i=1,...,n-1)并定义误差z1=x1-yd,zi=xi-αi-1(i=2,...,n),以优化***控制达到***期望输出,并建立级联结构的***模型,即将待优化的非线性***重新建立为:
通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化***的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由变量将学习问题描述为在整个学习过程中,优化***控制跟踪***期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域其中,为正常数;
对于z1子***,引入待优化的虚拟控制,定义最优性能指标函数为:
由级联结构的***模型将最优性能指标函数表示为:
最优性能指标函数和最优虚拟控制的不确定性项采用独立的神经网络逼近得到最优性能指标函数和最优虚拟控制的估计值和在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值为Sub-Actora1,将最优虚拟控制估计值定义为Sub-Criticc1,打破最优性能指标函数和最优虚拟控制之间的相关性,以迭代得到其数值解,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值和最终两者逐步满足相关关系,通过BLF-SRL算法进而得到子***的优化控制;
同理,zi,i=2,...,n子***与z1子***相似推导出最优性能指标函数并逼近出各自最优性能指标函数和最优虚拟控制的估计值,利用强化学习的Actor-Critic框架迭代更新估计值,训练出子***的优化控制量;
所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,Sub-Actor和Sub-Critic神经网络结构包括:
第一个隐藏层:以ReLU作为激活数;
第二个隐藏层:以ReLU作为激活函数;
输出层:以tanh作为激活函数;
所述的Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam算法,其损失函数为均方误差,当训练集的MSE小于设定值时,停止学习,批训练集数设为prac。
一种实现所述自动驾驶车辆横向运动控制方法的***,该***包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,所述的感知传感器用以将获取的环境信息传输至横向运动控制模型,所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块,所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型,所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块,以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。
所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。
与现有技术相比,本发明具有以如下有益效果:
本发明面向场景工况变化导致的模型不确定性,针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求,设计了具备解析形式的安全强化学习算法,解决了车辆横向运动控制的工况适应性问题,使其在变化场景工况中具备一致的安全控制性能,且对于场景工况变化引起的模型参数变化具有学习自适应性能。
附图说明
图1为本发明的结构示意图。
图2为四轮驱动车辆结构图。
图7为C4~6仿真工况下***状态侧向位置yG曲线图。
图9为BLF-SRL方法下z1子***中HJB方程的估计值曲线图。
图10为OBSC方法下z2子***中HJB方程的估计值曲线图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供了一种考虑学习全过程安全性能的自动驾驶车辆横向运动控制***,考虑到自动驾驶车辆运动控制***为典型的安全关键(Safety-Critical,SC)***,需要时刻保证控制过程中的安全约束,该***面向场景工况变化导致的模型不确定性,针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求,设计了具备解析形式的安全强化学习算法,解决了车辆横向运动控制的工况适应性问题,使其在变化场景工况中具备一致的安全控制性能,对于场景工况变化引起的模型参数变化具有学习自适应性能。
如图1所示,该***包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,横向运动控制模型所需的环境信息由感知传感器输入,所需的车辆状态参数由车载传感通讯输入,强化学习算法模块所需的模型参数失配以及安全性约束和驾驶场景变化分别由横向运动控制模型和感知模块输入,自动驾驶车辆的横向运动控制模型通过分析四轮驱动车辆的运动学过程,忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,并对横向轮胎力使用线性轮胎力模型进行简化,最终将自动驾驶车辆横向运动模型描述为BLF-SRL算法所需的二阶严格反馈形式,自动驾驶车辆横向运动的轨迹跟踪和优化问题通过BLF-SRL算法进行控制,通过与传统OBSC算法的对比可验证算法有效性。
本发明还提供了一种自动驾驶车辆横向运动控制***的方法,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:感知传感器将获取的环境信息传输至横向运动控制模型,将获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:车载传感通讯模块将获取的车辆状态参数传输至横向运动控制模型;
步骤4:横向运动控制模型获取模型参数失配并将其传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
在步骤1中,建立四轮驱动车辆的横向运动控制模型的过程具体为:
四轮驱动车辆的运动学模型为:
考虑车辆的纵向、横向和横摆动力学特性,忽略车辆的俯仰和侧倾动力学特性,得到的四轮驱动车辆的动力学模型:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力;
横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
其中,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮、右后轮的横向轮胎力;
若纵向车速不变,将考虑单车的运动控制问题的四轮车辆的横向运动控制模型写成二阶严格反馈形式:
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的矩阵(模型),表示车辆的侧向位置和航向角,v=[vy,ωr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
采用线性轮胎力模型建立二阶严格反馈形式的横向运动控制模型,以在线性区域保持较高的精度,但实际车辆中的轮胎具有非线性特性,受到不同工况的影响,因此,模型fi和gi与真实***的动力学模型fi p和之间存在参数不匹配的***不确定性,进而造成模型失配,令被控对象的轮胎力为真实***的动力学模型fi p和中的参数与模型fi和gi的参数Ci的关系为模型fi和gi与真实***的动力学模型fi p和之间的关系表达式为:
对于自动驾驶横向运动的轨迹跟踪和优化问题,采用BLF-SRL算法提升安全性和自适,针对二阶严格反馈形式下的横向运动控制模型(非线性***),为了优化***控制达到***期望输出,引入待优化虚拟控制并定义误差,将待优化的非线性***重新建立为:
***模型呈级联结构,通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化***的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由变量并将学习问题描述为:在整个学习过程中,优化***控制跟踪***期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域其中,为正常数。
以z1子***为例,引入待优化的虚拟控制,定义最优性能指标函数为:
由级联结构的***模型,将最优性能指标函数表示为:
最优性能指标函数和最优虚拟控制的不确定性项使用独立的神经网络逼近得到最优性能指标函数和最优虚拟控制的估计值和在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值为Sub-Actora1,将最优虚拟控制估计值定义为Sub-Criticc1,为了迭代得到其数值解,可先打破最优性能指标函数和最优虚拟控制之间的相关性,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值和最终两者逐步满足相关关系,通过BLF-SRL算法进而得到***的优化控制。
强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,包括:
第一个隐藏层由400个神经元组成,以ReLU作为激活数;
第二个隐藏层由300个神经元组成,以ReLU作为激活函数;
输出层使用tanh作为激活函数。
Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam,学习率为10-5;损失函数为均方误差(Mean-Square Error,MSE),当训练集的MSE小于10-4时,停止学习;批训练集数为64。
下面基于本发明提出的BLF-SRL算法对自动驾驶横向运动的轨迹跟踪和优化问题进行描述并验证:
其中,为t时刻全局坐标系中y方向的坐标yG的参考信号,为t时刻全局坐标系中的航向角的参考信号,y0为yG的初始信号,vx为车辆坐标系中x方向的速度,ω0为初始角速度,在本实施例中,y0=4m,ω0=0.4πrad/s;
令β代表***不确定性参数,表示被控对象与模型间的参数不匹配导致的模型失配情况,***不确定性参数β的界为[1-δ,1+δ],本实例中,各个工况的设置分别为:
确定性工况C1的设置为***不确定性参数β=1,界中的参数δ=0;
随机不确定性工况C2的设置为***不确定性参数β从高斯分布N(1,σ2)中选取。
考虑被控对象使用比线性轮胎模型更精确的Fiala轮胎模型标记为不确定性工况C4、C5和C6,确定性工况C3等同于确定性工况C1,在控制器设计中,采用相同的控制参数,分别为κ1=[2,4]T,κ2=[1,3]T,k1s=k1c=k2s=[1,1]T,k2c=[1,10-5]T。
对于工况C1和C2分别使用传统OBSC方法和BLF-SRL方法的结构如图3~4所示,其中工况C2中,参数β从高斯分布N(1,0.8)中选取,并重复多次计算标准差,随机情况下仿真结果的标准差越大,则图中曲线的颜色区域越大,在工况C1中,两种方法控制下状态变量和的状态轨迹全部约束在预先设计的安全区域内,表明控制器参数选取合适。而在不确定性工况C2下,通过状态变量和的状态轨迹可见,使用OBSC方法控制的部分状态轨迹超出了预先设计的安全区域,而使用BLF-SRL方法控制的状态轨迹较小并且始终全部保持在预先设计的安全区域内。
对于不确定性工况C4、C5和C6,界中的参数δ分别设置为0.1、0.2和0.4,将BLF-SRL方法与OBSC和OBSC结合控制障碍函数的附加安全控制器的性能进行比较,结果如图5~图8所示,其中,图5为状态变量的状态轨迹,图6为状态变量的状态轨迹,图7和图8为参考信号和的状态轨迹,根据结果可得,OBSC方法的状态变量的状态轨迹超出了安全区域,而BLF-SRL和OBSC结合控制障碍函数的附加安全控制器的状态变量的状态轨迹保持在预先设计的安全区域内。两者的区别在于,所提出的BLF-SRL通过反步优化方法将BLF相关控制项对***的控制虚拟、实际控制进行设计,从而影响整个优化学习期间的控制,在理论上可以保证状态变量在学习期间约束在设计的安全区域内并且永远不会超出该区域,在整个优化学习过程中逐渐远离安全边界。
在自动驾驶车辆的横向运动轨迹优化问题中,将yG和的参考信号设定为和性能指标函数考虑跟踪性能与控制输入,控制输入在学***滑且震荡减少;在z2动力学层中,状态变量与控制变量的权重相当,以保证跟踪性能,控制参数分别设计为分别为κ1=[0.5,0.5]T,κ2=[2,2]T,k1s的初始值为[0.001,0.01]T,并在每个时刻增加[0.01,0.1]T,直至达到[5,4]T,k1c=[5,1.5]T,k2s=[1,1]T,k2c=[1,10-8]T,其他条件保持不变。
将BLF-SRL方法与OBSC方法进行比较,如图9~10所示,分别展示了z1和z2子***中HJB方程和的估值曲线,其中, 分别为y轴方向的位移yG的HJB方程估计值、航向角对应的HJB方程估计值、y轴方向的速度vy的HJB方程估计值以及横摆角速度ωr对应的HJB方程估计值,如图9和图10中的(a)~(b)所示,虽然两种方法最终都达到了期望的轨迹,但BLF-SRL的控制输入更优且更小,如图9和图10中的(c)~(d)所示,使用BLF-SRL和原始OBSC学习后的控制输入得到了优化,并且比初始策略更温和,但OBSC方法的HJB函数估计值只能在控制下最终收敛到0,而BLF-SRL方法的HJB函数估计值可以在每个控制时刻随着学习更新逐渐收敛到0,即可通过迭代更新,最终满足贝尔曼最优性方程。
本发明通过利用车载传感器信号和控制器(由自动驾驶车辆横向运动模型和强化学习算法模块组成),基于自动驾驶车辆横向运动模型,推导具备解析形式的分层安全控制律和安全强化学习算法,并分别设计确定性工况和不确定性随机工况,以有效验证算法应用的工况适应性,使其在变化场景工况中具备一致的安全控制性能,对于场景工况变化引起的模型参数变化具有学习自适应性能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种自动驾驶车辆横向运动控制方法,其特征在于,该方法包括以下步骤:
步骤1:建立自动驾驶车辆的横向运动控制模型;
步骤2:将感知传感器获取的环境信息传输至横向运动控制模型,将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块;
步骤3:将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型;
步骤4:将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块;
步骤5:强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。
2.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤1中,建立自动驾驶车辆的横向运动控制模型的过程具体为:
步骤101:获取四轮驱动车辆的动力学模型;
步骤102:忽略车辆的俯仰和侧倾动力学特性,只考虑车辆的纵向、横向和横摆动力学特性,获取只考虑车辆的纵向、横向和横摆动力学特性的横向运动控制模型;
步骤103:对横向轮胎力采用线性轮胎力模型进行简化,最终将自动驾驶车辆的横向运动控制模型描述为二阶严格反馈形式。
5.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤103中,横向轮胎力采用线性轮胎力模型,用轮胎的侧偏角表示,得到每个轮胎的作用力和侧偏角的计算公式为:
Fy,fl=-Cfαy,fl
Fy,fr=-Cfαy,fr
Fy,rl=-Crαy,rl
Fy,rr=-Crαy,rr
其中,Fy,fl、Fy,fr、Fy,rl和Fy,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力,αy,fl、αy,fr、αy,rl和αy,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角,Cf和Cr分别为前后轮的侧偏刚度;
由于前轮转角δf和横摆角速度ωr小,对进行动力学模型简化,简化后的四轮驱动车辆的动力学模型为:
其中,M为车辆质量,Iz为车辆绕z轴的惯性矩,lf和lr分别为从重心到前轴和后轴的距离,d为两轴间距离,δf为前轮转角,Fx,fl、Fx,fr、Fx,rl和Fx,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力;
若纵向车速不变,考虑单车的运动控制问题的二阶严格反馈形式下的横向运动控制模型为:
其中,f1(η)、g1(η)、f2(η,v)和g2(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的模型,表示车辆的侧向位置和航向角,v=[vy,ωr]T表示车辆运动的侧向速度和横摆角速度,u=[δf,Mz]T表示控制输入为前轮转角和附加横摆力矩,对于四轮驱动车辆,左右轮的纵向驱动力通过轮内电机进行独立控制,进而产生附加横摆力矩,附加横摆力矩Mz的表达式为:
定义二阶严格反馈形式的横向运动控制模型时所需的模型f1(η)、g1(η)、f2(η,v)和g2(η,v)的表达式分别为:
其中,C1、C2、C3、C4、C5和C6分别为模型参数。
6.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤4中,实际车辆中的轮胎具有非线性特性,受到不同工况的影响,模型fi和gi与真实***的动力学模型fi p和之间存在参数不匹配的***不确定性,进而造成模型参数失配,令真实***的轮胎的作用力为:
7.根据权利要求6所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的步骤5中,强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为:
针对二阶严格反馈形式下的非线性***,即二阶严格反馈形式下的横向运动控制模型,引入待优化的虚拟控制αi(i=1,...,n-1)并定义误差z1=x1-yd,zi=xi-αi-1(i=2,...,n),以优化***控制达到***期望输出,并建立级联结构的***模型,即将待优化的非线性***重新建立为:
通过优化引入的每一个虚拟控制αi(i=1,...,n-1)最终优化***的整体控制,将所有的状态变量z=[z1,...,zn]T分为待约束状态变量和自由变量将学习问题描述为在整个学习过程中,优化***控制跟踪***期望输出yd的同时,部分状态变量zi,(i=1,...,ns)始终保持在设计的安全区域其中,为正常数;
对于z1子***,引入待优化的虚拟控制,定义最优性能指标函数为:
由级联结构的***模型将最优性能指标函数表示为:
最优性能指标函数和最优虚拟控制的不确定性项采用独立的神经网络逼近得到最优性能指标函数和最优虚拟控制的估计值和在强化学习的Actor-Critic框架下,进行策略评估和策略改进,将最优性能指标函数估计值为Sub-Actor a1,将最优虚拟控制估计值定义为Sub-Criticc1,打破最优性能指标函数和最优虚拟控制之间的相关性,以迭代得到其数值解,进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络,以更新估计值和最终两者逐步满足相关关系,通过BLF-SRL算法进而得到子***的优化控制;
同理,zi,i=2,...,n子***与z1子***相似推导出最优性能指标函数并逼近出各自最优性能指标函数和最优虚拟控制的估计值,利用强化学习的Actor-Critic框架迭代更新估计值,训练出子***的优化控制量;
8.根据权利要求7所述的一种自动驾驶车辆横向运动控制方法,其特征在于,所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同,Sub-Actor和Sub-Critic神经网络结构包括:
第一个隐藏层:以ReLU作为激活数;
第二个隐藏层:以ReLU作为激活函数;
输出层:以tanh作为激活函数;
所述的Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam算法,其损失函数为均方误差,当训练集的MSE小于设定值时,停止学习,批训练集数设为prac。
9.一种实现如权利要求1~8任一项所述自动驾驶车辆横向运动控制方法的***,其特征在于,该***包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块,所述的感知传感器用以将获取的环境信息传输至横向运动控制模型,所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块,所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型,所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块,以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。
10.根据权利要求9所述的一种***,其特征在于,所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686595.5A CN115202341B (zh) | 2022-06-16 | 2022-06-16 | 一种自动驾驶车辆横向运动控制方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686595.5A CN115202341B (zh) | 2022-06-16 | 2022-06-16 | 一种自动驾驶车辆横向运动控制方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115202341A true CN115202341A (zh) | 2022-10-18 |
CN115202341B CN115202341B (zh) | 2023-11-03 |
Family
ID=83576407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210686595.5A Active CN115202341B (zh) | 2022-06-16 | 2022-06-16 | 一种自动驾驶车辆横向运动控制方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115202341B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116588119A (zh) * | 2023-05-30 | 2023-08-15 | 同济大学 | 一种基于轮胎模型参数自适应的车辆状态估计方法 |
CN117911414A (zh) * | 2024-03-20 | 2024-04-19 | 安徽大学 | 一种基于强化学习的自动驾驶汽车运动控制方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN110568760A (zh) * | 2019-10-08 | 2019-12-13 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制***及方法 |
CN110941268A (zh) * | 2019-11-20 | 2020-03-31 | 苏州大学 | 一种基于Sarsa安全模型的无人自动小车的控制方法 |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN112896170A (zh) * | 2021-01-30 | 2021-06-04 | 同济大学 | 一种车路协同环境下的自动驾驶横向控制方法 |
CN113342029A (zh) * | 2021-04-16 | 2021-09-03 | 山东师范大学 | 基于无人机群的最大传感器数据采集路径规划方法及*** |
CN114162110A (zh) * | 2021-11-26 | 2022-03-11 | 华南理工大学 | 一种无人驾驶车辆的横向稳定性控制方法 |
US20220143823A1 (en) * | 2019-03-13 | 2022-05-12 | Meidensha Corporation | Learning System And Learning Method For Operation Inference Learning Model For Controlling Automatic Driving Robot |
CN114564016A (zh) * | 2022-02-24 | 2022-05-31 | 江苏大学 | 一种结合路径规划和强化学习的导航避障控制方法、***及模型 |
CN114580302A (zh) * | 2022-03-16 | 2022-06-03 | 重庆大学 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
CN115016278A (zh) * | 2022-06-22 | 2022-09-06 | 同济大学 | 一种基于blf-srl的自动驾驶控制方法 |
-
2022
- 2022-06-16 CN CN202210686595.5A patent/CN115202341B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220143823A1 (en) * | 2019-03-13 | 2022-05-12 | Meidensha Corporation | Learning System And Learning Method For Operation Inference Learning Model For Controlling Automatic Driving Robot |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN110568760A (zh) * | 2019-10-08 | 2019-12-13 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制***及方法 |
CN110941268A (zh) * | 2019-11-20 | 2020-03-31 | 苏州大学 | 一种基于Sarsa安全模型的无人自动小车的控制方法 |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN112896170A (zh) * | 2021-01-30 | 2021-06-04 | 同济大学 | 一种车路协同环境下的自动驾驶横向控制方法 |
CN113342029A (zh) * | 2021-04-16 | 2021-09-03 | 山东师范大学 | 基于无人机群的最大传感器数据采集路径规划方法及*** |
CN114162110A (zh) * | 2021-11-26 | 2022-03-11 | 华南理工大学 | 一种无人驾驶车辆的横向稳定性控制方法 |
CN114564016A (zh) * | 2022-02-24 | 2022-05-31 | 江苏大学 | 一种结合路径规划和强化学习的导航避障控制方法、***及模型 |
CN114580302A (zh) * | 2022-03-16 | 2022-06-03 | 重庆大学 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
CN115016278A (zh) * | 2022-06-22 | 2022-09-06 | 同济大学 | 一种基于blf-srl的自动驾驶控制方法 |
Non-Patent Citations (5)
Title |
---|
YUXIANG ZHANG 等: "Barrier Lyapunov Function-Based Safe Reinforcement Learning Algorithm for Autonomous Vehicles with System Uncertainty", 《2021 THE 21ST INTERNATIONAL CONFERENCE ON CONTROL, AUTOMATION AND SYSTEMS》 * |
ZHANG, YUXIANG 等: "Adaptive Safe Reinforcement Learning With Full-State Constraints and Constrained Adaptation for Autonomous Vehicles", 《IEEE》 * |
ZHANG, YUXIANG 等: "Barrier Lyapunov Function-Based Safe Reinforcement Learning for Autonomous Vehicles With Optimized Backstepping", 《IEEE》 * |
张羽翔 等: "基于参数描述的换道场景自动驾驶精确决策学习", 《同济 大 学 学报(自然科学版)》 * |
阮政委: "基于智能切换机制的非线性***自适应容错控制方法研究", 《CNKI》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116588119A (zh) * | 2023-05-30 | 2023-08-15 | 同济大学 | 一种基于轮胎模型参数自适应的车辆状态估计方法 |
CN117911414A (zh) * | 2024-03-20 | 2024-04-19 | 安徽大学 | 一种基于强化学习的自动驾驶汽车运动控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115202341B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111890951B (zh) | 智能电动汽车轨迹跟踪与运动控制方法 | |
CN109144076B (zh) | 一种多车辆横纵向耦合协同控制***及控制方法 | |
CN115202341A (zh) | 一种自动驾驶车辆横向运动控制方法及*** | |
CN107561942A (zh) | 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法 | |
Cai et al. | Implementation and development of a trajectory tracking control system for intelligent vehicle | |
CN114379583B (zh) | 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪***及方法 | |
CN111055921B (zh) | 一种基于数据驱动的四轮转向模型预测控制方法 | |
CN108791491A (zh) | 一种基于自评价学习的车辆侧向跟踪控制方法 | |
CN113650609B (zh) | 基于模糊规则的人机共驾控制权柔性转移方法及*** | |
CN110162046A (zh) | 基于事件触发型模型预测控制的无人车路径跟随方法 | |
CN112666833A (zh) | 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法 | |
CN113911106B (zh) | 基于博弈论的商用车横向轨迹跟随与稳定性协同控制方法 | |
Guo et al. | Intelligent vehicle trajectory tracking based on neural networks sliding mode control | |
Viadero-Monasterio et al. | Event-triggered robust path tracking control considering roll stability under network-induced delays for autonomous vehicles | |
Wu et al. | Steering and braking game control architecture based minimax robust stability control for emergency avoidance of autonomous vehicles | |
CN115303289A (zh) | 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备 | |
CN112578672A (zh) | 基于底盘非线性的无人驾驶汽车轨迹控制***及其轨迹控制方法 | |
CN115016278A (zh) | 一种基于blf-srl的自动驾驶控制方法 | |
Bárdos et al. | Implementation and experimental evaluation of a MIMO drifting controller on a test vehicle | |
CN114684199A (zh) | 一种机理分析-数据驱动的车辆动力学串联混合模型、智能汽车轨迹跟踪控制方法及控制器 | |
Niasar et al. | Yaw moment control via emotional adaptive neuro-fuzzy controller for independent rear wheel drives of an electric vehicle | |
Sousa et al. | Nonlinear tire model approximation using machine learning for efficient model predictive control | |
CN114987537A (zh) | 基于神经网络动力学的自动驾驶车辆道路自适应漂移控制***与方法 | |
CN113885548B (zh) | 一种多四旋翼无人机输出约束状态一致博弈控制器 | |
CN116184835A (zh) | 考虑输入时延与速度时变的无人驾驶车辆跟踪控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |