CN115202341A

CN115202341A - 一种自动驾驶车辆横向运动控制方法及***

Info

Publication number: CN115202341A
Application number: CN202210686595.5A
Authority: CN
Inventors: 程一帆; 高炳钊; 张羽翔; 褚洪庆; 陈虹
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-10-18
Anticipated expiration: 2042-06-16
Also published as: CN115202341B

Abstract

本发明涉及一种自动驾驶车辆横向运动控制方法，该方法包括以下步骤：步骤1：建立自动驾驶车辆的横向运动控制模型；步骤2：将感知传感器获取的环境信息传输至横向运动控制模型，将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块；步骤3：将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型；步骤4：将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块；步骤5：强化学习算法模块采用BLF‑SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。与现有技术相比，本发明具有使车辆横向运动控制在变化场景工况中具备安全控制性能以及对于场景工况变化引起的模型参数变化具有学习自适应性能等优点。

Description

一种自动驾驶车辆横向运动控制方法及***

技术领域

本发明涉及自动驾驶车辆运动控制领域，尤其是涉及一种自动驾驶车辆横向运动控制方法及***。

背景技术

自动驾驶车辆的运动控制***是典型的安全关键(Safety-Critical,SC)***，在其面对复杂动态驾驶场景进行决策和控制时，存在决策问题抽象和运动控制***具备强非线性等特征。强化学习是典型的一类可不基于模型的交互学习类算法，其基本特点是采用试错机制，基于与环境在线交互得到的评价和反馈信号通过最大化未来回报以实现序列学习。由于其可交互特点，强化学习能够有效通过环境反馈信息学习***控制策略，被广泛认为是实现智能决策和控制，使其具备持续自学习能力进而增强***性能的有效方法。

尽管强化学习具备交互性学习以及无模型学习优势，其在自动驾驶车辆的广泛应用仍存在一定限制，主要原因可归纳为两点：

1、自动驾驶车辆控制***涉及严格安全性；而强化学***稳环境的学习容易失效、学习过程中的安全性难以保证等方面的问题；

2、自动驾驶车辆的行驶环境复杂多变，在建模过程中会不可避免地引入模型不确定性，使得***状态进入非安全区域，导致运动失稳和控制失效，如何解决动态场景运动控制的工况适应性问题是另一个挑战。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种自动驾驶车辆横向运动控制***及方法。

本发明的目的可以通过以下技术方案来实现：

一种自动驾驶车辆横向运动控制方法，该方法包括以下步骤：

步骤1：建立自动驾驶车辆的横向运动控制模型；

步骤2：将感知传感器获取的环境信息传输至横向运动控制模型，将感知传感器获取的安全性约束和驾驶场景变化传输至强化学习算法模块；

步骤3：将车载传感通讯模块获取的车辆状态参数传输至横向运动控制模型；

步骤4：将根据横向运动控制模型获取的模型参数失配传输至强化学习算法模块；

步骤5：强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化。

所述的步骤1中，建立自动驾驶车辆的横向运动控制模型的过程具体为：

步骤101：获取四轮驱动车辆的动力学模型；

步骤102：忽略车辆的俯仰和侧倾动力学特性，只考虑车辆的纵向、横向和横摆动力学特性，获取只考虑车辆的纵向、横向和横摆动力学特性的横向运动控制模型；

步骤103：对横向轮胎力采用线性轮胎力模型进行简化，最终将自动驾驶车辆的横向运动控制模型描述为二阶严格反馈形式。

所述的步骤101中，四轮驱动车辆的运动学模型的表达式为：

其中，x_G和y_G分别为全局坐标系中x方向和y方向的坐标，v_x和v_y分别为车辆坐标系中x方向和y方向的速度，

为全局坐标系中的航向角，ω_r为横摆角速度。

所述的步骤102中，横向运动控制模型的表达式为：

其中，M为车辆质量，I_z为车辆绕z轴的惯性矩，l_f和l_r分别为从重心到前轴和后轴的距离，d为两轴间距离，δ_f为前轮转角，F_x,fl、F_x,fr、F_x,rl和F_x,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力，F_y,fl、F_y,fr、F_y,rl和F_y,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力。

所述的步骤103中，横向轮胎力采用线性轮胎力模型，用轮胎的侧偏角表示，得到每个轮胎的作用力和侧偏角的计算公式为：

F_y,fl＝-C_fα_y,fl

F_y,fr＝-C_fα_y,fr

F_y,rl＝-C_rα_y,rl

F_y,rr＝-C_rα_y,rr

其中，F_y,fl、F_y,fr、F_y,rl和F_y,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力，α_y,fl、α_y,fr、α_y,rl和α_y,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角，C_f和C_r分别为前后轮的侧偏刚度；

由于前轮转角δ_f和横摆角速度ω_r小，对进行动力学模型简化，简化后的四轮驱动车辆的动力学模型为：

其中，M为车辆质量，I_z为车辆绕z轴的惯性矩，l_f和l_r分别为从重心到前轴和后轴的距离，d为两轴间距离，δ_f为前轮转角，F_x,fl、F_x,fr、F_x,rl和F_x,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力；

若纵向车速不变，考虑单车的运动控制问题的二阶严格反馈形式下的横向运动控制模型为：

其中，f₁(η)、g₁(η)、f₂(η,v)和g₂(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的模型，

表示车辆的侧向位置和航向角，v＝[v_y,ω_r]^T表示车辆运动的侧向速度和横摆角速度，u＝[δ_f,M_z]^T表示控制输入为前轮转角和附加横摆力矩，对于四轮驱动车辆，左右轮的纵向驱动力通过轮内电机进行独立控制，进而产生附加横摆力矩，附加横摆力矩M_z的表达式为：

定义二阶严格反馈形式的横向运动控制模型时所需的模型f₁(η)、g₁(η)、f₂(η,v)和g₂(η,v)的表达式分别为：

其中，C₁、C₂、C₃、C₄、C₅和C₆分别为模型参数。

所述的步骤4中，实际车辆中的轮胎具有非线性特性，受到不同工况的影响，模型f_i和g_i与真实***的动力学模型f_i ^p和

之间存在参数不匹配的***不确定性，进而造成模型参数失配，令真实***的轮胎的作用力为：

其中，

为真实***的轮胎的作用力，β为真实***的轮胎的作用力

与轮胎的作用力F_y,(·)之间的关系系数；

模型f_i和g_i与真实***的动力学模型f_i ^p和

之间的关系表达式为：

其中，

和

分别为真实***的动力学模型，β_f为真实***的动力学模型

和模型f₂之间的关系系数，β_g为真实***的动力学模型

和模型g₂之间的关系系数；

且模型f_i和g_i的参数C_i与真实***的动力学模型f_i ^p和

中的参数

之间的关系表达式为：

所述的步骤5中，强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为：

针对二阶严格反馈形式下的非线性***，即二阶严格反馈形式下的横向运动控制模型，引入待优化的虚拟控制α_i(i＝1,...,n-1)并定义误差z₁＝x₁-y_d,z_i＝x_i-α_i-1(i＝2,...,n)，以优化***控制达到***期望输出，并建立级联结构的***模型，即将待优化的非线性***重新建立为：

其中，

为状态变量的导数，α_i(i＝1,...,n-1)为每i个虚拟控制，

为控制输入，y_d为***期望输出；

通过优化引入的每一个虚拟控制α_i(i＝1,...,n-1)最终优化***的整体控制，将所有的状态变量z＝[z₁,...,z_n]^T分为待约束状态变量

和自由变量

将学习问题描述为在整个学习过程中，优化***控制跟踪***期望输出y_d的同时，部分状态变量z_i,(i＝1,...,n_s)始终保持在设计的安全区域

其中，

为正常数；

对于z₁子***，引入待优化的虚拟控制，定义最优性能指标函数为：

其中，

为最优性能指标函数，

为最优虚拟控制，

为代价函数，κ_1s和κ_1c分别为权重系数，对应的HJB方程

为：

其中，

表示最优性能指标函数对z₁子***求偏导；

最优虚拟控制

通过求解

并分解得到：

其中，

为待学习的未知连续函数，κ₁为一个正常数；

由级联结构的***模型将最优性能指标函数表示为：

最优性能指标函数

和最优虚拟控制

的不确定性项采用独立的神经网络逼近得到最优性能指标函数

和最优虚拟控制

的估计值

和

在强化学习的Actor-Critic框架下，进行策略评估和策略改进，将最优性能指标函数估计值

为Sub-Actora₁，将最优虚拟控制估计值

定义为Sub-Criticc₁，打破最优性能指标函数

和最优虚拟控制

之间的相关性，以迭代得到其数值解，进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络，以更新估计值

和

最终两者逐步满足相关关系，通过BLF-SRL算法进而得到子***的优化控制；

同理，z_i,i＝2,...,n子***与z₁子***相似推导出最优性能指标函数并逼近出各自最优性能指标函数和最优虚拟控制的估计值，利用强化学习的Actor-Critic框架迭代更新估计值，训练出子***的优化控制量；

最终在整个学习过程中，优化***控制跟踪***期望输出y_d的同时，部分状态变量z_i,(i＝1,...,n_s)始终保持在设计的安全区域

内，其中

为正常数。

所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同，Sub-Actor和Sub-Critic神经网络结构包括：

第一个隐藏层：以ReLU作为激活数；

第二个隐藏层：以ReLU作为激活函数；

输出层：以tanh作为激活函数；

所述的Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam算法，其损失函数为均方误差，当训练集的MSE小于设定值时，停止学习，批训练集数设为prac。

一种实现所述自动驾驶车辆横向运动控制方法的***，该***包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块，所述的感知传感器用以将获取的环境信息传输至横向运动控制模型，所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块，所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型，所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块，以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。

所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。

与现有技术相比，本发明具有以如下有益效果：

本发明面向场景工况变化导致的模型不确定性，针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求，设计了具备解析形式的安全强化学习算法，解决了车辆横向运动控制的工况适应性问题，使其在变化场景工况中具备一致的安全控制性能，且对于场景工况变化引起的模型参数变化具有学习自适应性能。

附图说明

图1为本发明的结构示意图。

图2为四轮驱动车辆结构图。

图3为C1和C2仿真工况下状态变量

的状态轨迹图。

图4为C1和C2仿真工况下状态变量

的状态轨迹图。

图5为C3～6仿真工况下状态变量

的状态轨迹图。

图6为C4～6仿真工况下状态变量

的状态轨迹图。

图7为C4～6仿真工况下***状态侧向位置y_G曲线图。

图8为C4～6仿真工况下状态变量

的状态轨迹图。

图9为BLF-SRL方法下z₁子***中HJB方程的估计值曲线图。

图10为OBSC方法下z₂子***中HJB方程的估计值曲线图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供了一种考虑学习全过程安全性能的自动驾驶车辆横向运动控制***，考虑到自动驾驶车辆运动控制***为典型的安全关键(Safety-Critical，SC)***，需要时刻保证控制过程中的安全约束，该***面向场景工况变化导致的模型不确定性，针对车辆横向运动控制在学习过程中的状态约束需要始终满足的需求，设计了具备解析形式的安全强化学习算法，解决了车辆横向运动控制的工况适应性问题，使其在变化场景工况中具备一致的安全控制性能，对于场景工况变化引起的模型参数变化具有学习自适应性能。

如图1所示，该***包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块，横向运动控制模型所需的环境信息由感知传感器输入，所需的车辆状态参数由车载传感通讯输入，强化学习算法模块所需的模型参数失配以及安全性约束和驾驶场景变化分别由横向运动控制模型和感知模块输入，自动驾驶车辆的横向运动控制模型通过分析四轮驱动车辆的运动学过程，忽略车辆的俯仰和侧倾动力学特性，只考虑车辆的纵向、横向和横摆动力学特性，并对横向轮胎力使用线性轮胎力模型进行简化，最终将自动驾驶车辆横向运动模型描述为BLF-SRL算法所需的二阶严格反馈形式，自动驾驶车辆横向运动的轨迹跟踪和优化问题通过BLF-SRL算法进行控制，通过与传统OBSC算法的对比可验证算法有效性。

本发明还提供了一种自动驾驶车辆横向运动控制***的方法，该方法包括以下步骤：

步骤1：建立自动驾驶车辆的横向运动控制模型；

步骤2：感知传感器将获取的环境信息传输至横向运动控制模型，将获取的安全性约束和驾驶场景变化传输至强化学习算法模块；

步骤3：车载传感通讯模块将获取的车辆状态参数传输至横向运动控制模型；

步骤4：横向运动控制模型获取模型参数失配并将其传输至强化学习算法模块；

在步骤1中，建立四轮驱动车辆的横向运动控制模型的过程具体为：

四轮驱动车辆的运动学模型为：

为全局坐标系中的航向角，ω_r为横摆角速度；

考虑车辆的纵向、横向和横摆动力学特性，忽略车辆的俯仰和侧倾动力学特性，得到的四轮驱动车辆的动力学模型：

其中，M为车辆质量，I_z为车辆绕z轴的惯性矩，l_f和l_r分别为从重心到前轴和后轴的距离，d为两轴间距离，δ_f为前轮转角，F_x,fl、F_x,fr、F_x,rl和F_x,rr分别为左前轮、右前轮、左后轮和右后轮的纵向轮胎力，F_y,fl、F_y,fr、F_y,rl和F_y,rr分别为左前轮、右前轮、左后轮和右后轮的横向轮胎力；

横向轮胎力采用线性轮胎力模型，用轮胎的侧偏角表示，得到每个轮胎的作用力和侧偏角的计算公式为：

F_y,fl＝-C_fα_y,fl

F_y,fr＝-C_fα_y,fr

F_y,rl＝-C_rα_y,rl

F_y,rr＝-C_rα_y,rr

其中，α_y,fl、α_y,fr、α_y,rl和α_y,rr分别为左前轮、右前轮、左后轮和右后轮的侧偏角，C_f和C_r分别为前后轮的侧偏刚度；

由于δ_f和ω_r较小，对sinδ_f、cosδ_f和

进行简化，因此，简化后的四轮车辆的动力学模型为：

其中，M为车辆质量，I_z为车辆绕z轴的惯性矩，l_f和l_r分别为从重心到前轴和后轴的距离，d为两轴间距离，δ_f为前轮转角，F_x,fl、F_x,fr、F_x,rl和F_x,rr分别为左前轮、右前轮、左后轮、右后轮纵向轮胎力，F_y,fl、F_y,fr、F_y,rl和F_y,rr分别为左前轮、右前轮、左后轮、右后轮的横向轮胎力；

若纵向车速不变，将考虑单车的运动控制问题的四轮车辆的横向运动控制模型写成二阶严格反馈形式：

其中，f₁(η)、g₁(η)、f₂(η,v)和g₂(η,v)分别为定义二阶严格反馈形式的横向运动控制模型时所需的矩阵(模型)，

模型f₁(η)、g₁(η)、f₂(η,v)和g₂(η,v)的表达式分别为：

采用线性轮胎力模型建立二阶严格反馈形式的横向运动控制模型，以在线性区域保持较高的精度，但实际车辆中的轮胎具有非线性特性，受到不同工况的影响，因此，模型f_i和g_i与真实***的动力学模型f_i ^p和

之间存在参数不匹配的***不确定性，进而造成模型失配，令被控对象的轮胎力为

真实***的动力学模型f_i ^p和

中的参数

与模型f_i和g_i的参数C_i的关系为

模型f_i和g_i与真实***的动力学模型f_i ^p和

之间的关系表达式为：

其中，

和

分别为真实***的动力学模型，β_f为真实***的动力学模型

和模型f₂之间的关系系数，β_g为真实***的动力学模型

和模型g₂之间的关系系数；

对于自动驾驶横向运动的轨迹跟踪和优化问题，采用BLF-SRL算法提升安全性和自适，针对二阶严格反馈形式下的横向运动控制模型(非线性***)，为了优化***控制达到***期望输出，引入待优化虚拟控制并定义误差，将待优化的非线性***重新建立为：

***模型呈级联结构，通过优化引入的每一个虚拟控制α_i(i＝1,...,n-1)最终优化***的整体控制，将所有的状态变量z＝[z₁,...,z_n]^T分为待约束状态变量

和自由变量

并将学习问题描述为：在整个学习过程中，优化***控制跟踪***期望输出y_d的同时，部分状态变量z_i,(i＝1,...,n_s)始终保持在设计的安全区域

其中，

为正常数。

以z₁子***为例，引入待优化的虚拟控制，定义最优性能指标函数为：

其中，

为最优性能指标函数，

为代价函数，κ_1s和κ_1c分别为权重系数，对应的HJB方程

为：

其中，

表示最优性能指标函数对z₁子***求偏导；

最优虚拟控制

通过求解

并分解设计得到：

其中，

为待学习的未知连续函数，κ₁为一个正常数；

由级联结构的***模型，将最优性能指标函数表示为：

最优性能指标函数

和最优虚拟控制

的不确定性项使用独立的神经网络逼近得到最优性能指标函数

和最优虚拟控制

的估计值

和

为Sub-Actora₁，将最优虚拟控制估计值

定义为Sub-Criticc₁，为了迭代得到其数值解，可先打破最优性能指标函数

和最优虚拟控制

之间的相关性，进而在Actor-Critic框架下通过策略评估和策略改进迭代更新神经网络，以更新估计值

和

最终两者逐步满足相关关系，通过BLF-SRL算法进而得到***的优化控制。

强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同，包括：

第一个隐藏层由400个神经元组成，以ReLU作为激活数；

第二个隐藏层由300个神经元组成，以ReLU作为激活函数；

输出层使用tanh作为激活函数。

Sub-Actor和Sub-Critic神经网络学习更新的优化算法为Adam，学习率为10^-5；损失函数为均方误差(Mean-Square Error,MSE)，当训练集的MSE小于10^-4时，停止学习；批训练集数为64。

下面基于本发明提出的BLF-SRL算法对自动驾驶横向运动的轨迹跟踪和优化问题进行描述并验证：

在自动驾驶车辆横向跟踪控制问题中，令受约束的状态变量为

和

且在学习过程中保持在安全区域内，即

其中，

y_G和

的参考信号的表达式为：

其中，

为t时刻全局坐标系中y方向的坐标y_G的参考信号，

为t时刻全局坐标系中的航向角

的参考信号，y₀为y_G的初始信号，v_x为车辆坐标系中x方向的速度，ω₀为初始角速度，在本实施例中，y₀＝4m，ω₀＝0.4πrad/s；

令β代表***不确定性参数，表示被控对象与模型间的参数不匹配导致的模型失配情况，***不确定性参数β的界为[1-δ,1+δ]，本实例中，各个工况的设置分别为：

确定性工况C1的设置为***不确定性参数β＝1，界中的参数δ＝0；

随机不确定性工况C2的设置为***不确定性参数β从高斯分布N(1,σ²)中选取。

考虑被控对象使用比线性轮胎模型更精确的Fiala轮胎模型

标记为不确定性工况C4、C5和C6，确定性工况C3等同于确定性工况C1，在控制器设计中，采用相同的控制参数，分别为κ₁＝[2,4]^T，κ₂＝[1,3]^T，k_1s＝k_1c＝k_2s＝[1,1]^T，k_2c＝[1,10^-5]^T。

对于工况C1和C2分别使用传统OBSC方法和BLF-SRL方法的结构如图3～4所示，其中工况C2中，参数β从高斯分布N(1,0.8)中选取，并重复多次计算标准差，随机情况下仿真结果的标准差越大，则图中曲线的颜色区域越大，在工况C1中，两种方法控制下状态变量

和

的状态轨迹全部约束在预先设计的安全区域内，表明控制器参数选取合适。而在不确定性工况C2下，通过状态变量

和

的状态轨迹可见，使用OBSC方法控制的部分状态轨迹超出了预先设计的安全区域，而使用BLF-SRL方法控制的状态轨迹较小并且始终全部保持在预先设计的安全区域内。

对于不确定性工况C4、C5和C6，界中的参数δ分别设置为0.1、0.2和0.4，将BLF-SRL方法与OBSC和OBSC结合控制障碍函数的附加安全控制器的性能进行比较，结果如图5～图8所示，其中，图5为状态变量

的状态轨迹，图6为状态变量

的状态轨迹，图7和图8为参考信号

和

的状态轨迹，根据结果可得，OBSC方法的状态变量

的状态轨迹超出了安全区域，而BLF-SRL和OBSC结合控制障碍函数的附加安全控制器的状态变量

的状态轨迹保持在预先设计的安全区域内。两者的区别在于，所提出的BLF-SRL通过反步优化方法将BLF相关控制项对***的控制虚拟、实际控制进行设计，从而影响整个优化学习期间的控制，在理论上可以保证状态变量在学习期间约束在设计的安全区域内并且永远不会超出该区域，在整个优化学习过程中逐渐远离安全边界。

在自动驾驶车辆的横向运动轨迹优化问题中，将y_G和

的参考信号设定为

和

性能指标函数考虑跟踪性能与控制输入，控制输入在学***滑且震荡减少；在z₂动力学层中，状态变量与控制变量的权重相当，以保证跟踪性能，控制参数分别设计为分别为κ₁＝[0.5,0.5]^T，κ₂＝[2,2]^T，k_1s的初始值为[0.001,0.01]^T，并在每个时刻增加[0.01,0.1]^T，直至达到[5,4]^T，k_1c＝[5,1.5]^T，k_2s＝[1,1]^T，k_2c＝[1,10^-8]^T，

其他条件保持不变。

将BLF-SRL方法与OBSC方法进行比较，如图9～10所示，分别展示了z₁和z₂子***中HJB方程

和

的估值曲线，其中，

分别为y轴方向的位移y_G的HJB方程估计值、航向角

对应的HJB方程估计值、y轴方向的速度v_y的HJB方程估计值以及横摆角速度ω_r对应的HJB方程估计值，如图9和图10中的(a)～(b)所示，虽然两种方法最终都达到了期望的轨迹，但BLF-SRL的控制输入更优且更小，如图9和图10中的(c)～(d)所示，使用BLF-SRL和原始OBSC学习后的控制输入得到了优化，并且比初始策略更温和，但OBSC方法的HJB函数估计值只能在控制下最终收敛到0，而BLF-SRL方法的HJB函数估计值可以在每个控制时刻随着学习更新逐渐收敛到0，即可通过迭代更新，最终满足贝尔曼最优性方程。

本发明通过利用车载传感器信号和控制器(由自动驾驶车辆横向运动模型和强化学习算法模块组成)，基于自动驾驶车辆横向运动模型，推导具备解析形式的分层安全控制律和安全强化学习算法，并分别设计确定性工况和不确定性随机工况，以有效验证算法应用的工况适应性，使其在变化场景工况中具备一致的安全控制性能，对于场景工况变化引起的模型参数变化具有学习自适应性能。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种自动驾驶车辆横向运动控制方法，其特征在于，该方法包括以下步骤：

步骤1：建立自动驾驶车辆的横向运动控制模型；

2.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法，其特征在于，所述的步骤1中，建立自动驾驶车辆的横向运动控制模型的过程具体为：

步骤101：获取四轮驱动车辆的动力学模型；

3.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法，其特征在于，所述的步骤101中，四轮驱动车辆的运动学模型的表达式为：

为全局坐标系中的航向角，ω_r为横摆角速度。

4.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法，其特征在于，所述的步骤102中，横向运动控制模型的表达式为：

5.根据权利要求2所述的一种自动驾驶车辆横向运动控制方法，其特征在于，所述的步骤103中，横向轮胎力采用线性轮胎力模型，用轮胎的侧偏角表示，得到每个轮胎的作用力和侧偏角的计算公式为：

F_y,fl＝-C_fα_y,fl

F_y,fr＝-C_fα_y,fr

F_y,rl＝-C_rα_y,rl

F_y,rr＝-C_rα_y,rr

其中，C₁、C₂、C₃、C₄、C₅和C₆分别为模型参数。

6.根据权利要求1所述的一种自动驾驶车辆横向运动控制方法，其特征在于，所述的步骤4中，实际车辆中的轮胎具有非线性特性，受到不同工况的影响，模型f_i和g_i与真实***的动力学模型f_i ^p和

其中，

为真实***的轮胎的作用力，β为真实***的轮胎的作用力

与轮胎的作用力F_y,(·)之间的关系系数；

模型f_i和g_i与真实***的动力学模型f_i ^p和

之间的关系表达式为：

其中，

和

分别为真实***的动力学模型，β_f为真实***的动力学模型

和模型f₂之间的关系系数，β_g为真实***的动力学模型

和模型g₂之间的关系系数；

且模型f_i和g_i的参数C_i与真实***的动力学模型f_i ^p和

中的参数

之间的关系表达式为：

7.根据权利要求6所述的一种自动驾驶车辆横向运动控制方法，其特征在于，所述的步骤5中，强化学习算法模块采用BLF-SRL算法实现自动驾驶车辆横向运动的轨迹跟踪和优化的过程具体为：

其中，

为状态变量的导数，α_i(i＝1,...,n-1)为每i个虚拟控制，

为控制输入，y_d为***期望输出；

和自由变量

其中，

为正常数；

其中，

为最优性能指标函数，

为最优虚拟控制，

为代价函数，κ_1s和κ_1c分别为权重系数，对应的HJB方程

为：

其中，

表示最优性能指标函数对z₁子***求偏导；

最优虚拟控制

通过求解

并分解得到：

其中，

为待学习的未知连续函数，κ₁为一个正常数；

由级联结构的***模型将最优性能指标函数表示为：

最优性能指标函数

和最优虚拟控制

和最优虚拟控制

的估计值

和

为Sub-Actor a₁，将最优虚拟控制估计值

定义为Sub-Criticc₁，打破最优性能指标函数

和最优虚拟控制

和

内，其中

为正常数。

8.根据权利要求7所述的一种自动驾驶车辆横向运动控制方法，其特征在于，所述的强化学习的Actor-Critic框架中的Sub-Actor和Sub-Critic神经网络结构相同，Sub-Actor和Sub-Critic神经网络结构包括：

第一个隐藏层：以ReLU作为激活数；

第二个隐藏层：以ReLU作为激活函数；

输出层：以tanh作为激活函数；

9.一种实现如权利要求1～8任一项所述自动驾驶车辆横向运动控制方法的***，其特征在于，该***包括感知传感器、自动驾驶车辆的横向运动控制模型、考虑全过程安全性能的强化学习算法模块和车载传感通讯模块，所述的感知传感器用以将获取的环境信息传输至横向运动控制模型，所述的感知传感器用以将获取的安全性约束和驾驶场景变化传输至强化学习算法模块，所述的车载传感通讯模块用以将获取的车辆状态参数传输至横向运动控制模型，所述的横向运动控制模型用以将模型参数失配传输至强化学习算法模块，以解决车辆横向运动控制的工况适应性问题和实现在变化场景工况下的安全一致性能。

10.根据权利要求9所述的一种***，其特征在于，所述的强化学习算法模块采用BLF-SRL算法控制自动驾驶车辆横向运动的轨迹跟踪和优化。