CN108791491A

CN108791491A - 一种基于自评价学习的车辆侧向跟踪控制方法

Info

Publication number: CN108791491A
Application number: CN201810602132.XA
Authority: CN
Inventors: 徐盺; 黄振华; 刘大学; 易梦龙
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2018-11-13

Abstract

本发明属于车辆控制技术领域，公开了一种基于自评价学习的车辆侧向跟踪控制方法，输入信号是期望路径的转弯半径，阿克曼几何转向模型与轮胎模型两部分信息，输出跟踪期望转弯半径所需要的前馈转向控制信号；利用车辆与期望路径之间的误差关系，车辆转向执行机构的时延特性和饱和特性，以最小化侧向跟踪误差为性能指标，采用迭代自评价学习方法得到了反馈转向控制策略。本发明的侧向跟踪控制方法将前馈转向控制信号与反馈转向控制信号相加作用于车辆前轮转向机构，使自主驾驶车辆既可跟踪期望路径，降低了车辆与期望道路之间的跟踪误差。与传统的LQR反馈控制方法、预瞄方法相比较，自主驾驶车辆的侧向跟踪控制精度得到一定的提高。

Description

一种基于自评价学习的车辆侧向跟踪控制方法

技术领域

本发明属于车辆控制技术领域，尤其涉及一种基于自评价学习的车辆侧向跟踪控制方法。

背景技术

作为智能交通***的核心，智能驾驶技术是车辆主动安全技术的基础，已成为世界汽车产业新一轮竞争的焦点，并受到越来越多研究者的关注与重视。车辆智能驾驶技术具有广阔的应用前景，无论是商用车、乘用车还是公共交通车辆均将受益于智能驾驶技术的应用。车辆智能驾驶(或自主驾驶)本质上是由机器代替人类驾驶员驾驶控制汽车，是集合人工智能、模式识别、控制理论和计算机科学等相关理论的一门综合性技术。在城市环境中，利用装备的传感器精确感知车辆周围环境和自身状态，智能驾驶车辆能够协助甚至代替人类驾驶员安全驾驶，在保证车辆驾驶的安全性和舒适性前提下，提高了城市交通运输效率、缓解了交通压力，还可以实现更低的油耗和减轻环境污染。在越野战场环境，智能驾驶车辆不仅能够代替战士在战场前线执行各种侦查任务，还能够装备武器载荷完成各种打击敌人的作战任务。因此，车辆智能驾驶技术对城市交通的发展和国防武器装备建设具有重要的现实意义。

随着智能驾驶技术的越发成熟，全球各大汽车公司均积极谋划如何尽快将该门技术实用化，让消费者体验到智能驾驶技术带来的便利，提高产品的竞争力。其中应用较为广泛的智能驾驶技术包括车辆自适应巡航、车道保持、车道跑偏预警、自动泊车和车辆紧急避碰等技术。然而由于车辆行驶环境的复杂性和不确定性，实现车辆全自主驾驶仍面临诸多困难。运动控制技术是实现车辆自主驾驶的基础。由于智能车辆本身具有非线性、时延等复杂动力学特性，且道路坡度和侧倾度不断变化，轮地作用关系也较为复杂，因此实现高性能的车辆运动控制仍具有一定的难度。

随着计算机科学的迅速发展，研究者开始利用机器学习方法解决复杂环境下的车辆智能驾驶决策与控制等问题。作为人工智能的核心，机器学习 (MachineLearning，ML)是一门涉及概率论、逼近论、凸优化和统计学等多领域的交叉学科。机器学习的目标是根据经验或观测数据不断优化自身性能指标，使计算机获取新的知识或技能。机器学习方法可分为三大类：监督学习、无监督学习和增强学习。监督学习方法需要学习***给出在输入信号下所对应的期望输出，也即利用监督信号来训练样本；无监督学习则不需要监督信号，直接利用无标识的样本进行训练；增强学习是一种特殊的学习***，该***中智能体和环境不断进行“交互”，根据环境反馈的回报信号，以最大化累积回报作为优化目标，可用于求解优化决策和控制问题。

作为增强学习的重要发展方向，自评价学习控制方法通过与马尔可夫决策理论、动态规划理论等相互交叉结合取得了许多显著的研究成果，尤其是在2016 年谷歌DeepMind开发的人工智能程序AlphaGo采用深度自评价学习方法分别击败了欧洲围棋冠军樊麾和世界冠军李世乭，用事实证明了人工智能的强大。另外，自评价学习控制方法在解决一些非线性控制***、时延控制***以及不确定性控制***等优化控制问题时展现了比传统控制方法更好的控制性能。因此通过车辆与环境智能交互的自评价学习过程去解决传统方法难以求解的驾驶决策与控制问题，具有重要的研究意义。

针对大规模、连续状态动作空间的马尔可夫决策问题，自评价学习控制方法仍然面临着诸多难点和挑战。比如，值函数逼近与策略逼近精度有待提高，策略学习的泛化能力以及算法对参数的鲁棒性有待进一步加强，基函数自动构造机理以及优化指标函数的设计也需要进一步研究，这些均是自评价学习控制方法运用到机器人领域需要解决的问题。只有合理的解决这些问题，才能扩大自评价学习控制方法在实际***中的应用范围。针对智能驾驶车辆的纵向控制、侧向控制以及协同自适应巡航控制三种典型的运动控制问题，本文重点研究了一类具有执行器-评价器框架的自评价学习控制方法，从优化控制的角度来解决传统控制方法难以求解的驾驶决策与控制问题。

车辆侧向跟踪控制也可称为路径跟踪控制，目的是通过控制方向盘信号使自主车沿着期望路径行驶。车辆侧向控制方法主要有PID控制、反馈控制方法、模型预测控制、基于学习的控制方法。PID控制方法具有稳定性较好且容易实现等优点，被广泛用于解决车辆路径跟踪控制问题。有研究者在PID控制器中加入比例增益调度机制，自主车可根据不同的速度以及侧向误差、航向误差来选择PID参数以提高控制性能，但需要利用经验选择参数。也有人利用嵌套的 PID控制器实现了车辆侧向跟踪控制，该方法将两个PID控制器相互嵌套在一起，提高了侧向跟踪控制精度，然而增加了可调参数的数量。反馈控制方法利用车辆与期望路径的几何关系，计算出车辆与期望路径的航向误差和侧向误差，并将该误差转化为方向盘转角以控制车辆沿着期望路径行驶。常用的有：单点跟踪法、预瞄控制方法和Stanley方法。除了利用跟踪侧向误差和航向误差设计方向盘控制率外，单点跟踪法和预瞄控制方法还引入了预瞄距离的概念。预瞄距离通常用于确定期望路径上车辆跟踪的参考点，可根据不同的车速以及期望道路曲率来确定。预瞄距离的引入，使得自主车像人类驾驶员看着前方的路一样，但是该参数的选择对车辆控制性能影响较大。自主车跟踪期望路径时，较小的预瞄距离容易造成跟踪路径超调，较大的预瞄距离则降低了跟踪精度。 Stanley方法由斯坦福大学自主车团队采用的路径跟踪控制方法，在DARPA挑战赛中有较好的表现。该方法设计了一个非线性控制器，且被证明具有指数收敛性。但是该方法适用于跟踪具有连续曲率的期望路径，针对曲率不连续变化的道路，该方法跟踪效果较差，且仍需要人为调整控制参数才能达到较高控制精度。

模型预测控制方法利用车辆转向模型，在预测时域里估计自主车行驶路径，以确定车辆与期望路径之间的侧向误差和航向误差，通过优化设定的目标函数得到最优方向盘转向控制序列。该方法需要用到车辆转向模型，研究者常采用简化的运动学模型或者动力学模型进行预测。模型的精度以及预测时域的长度是影响该类方法控制性能的关键因素。为了降低模型以及复杂参数选择的影响，研究者也尝试利用机器学习方法设计车辆侧向跟踪控制器。有人利用启发式动态规划方法设计了一种自主车的路径跟踪控制器。启发式动态规划方法是一类具有执行器-评价器模块的增强学习算法，其中评价器模块用于评价当前执行的控制动作，执行器模块根据车辆与期望路径之间的误差关系输出控制动作。虽然该类侧向控制器在学习过程中不需要利用车辆模型信息，但这也降低了学习效率，且学习的控制率鲁棒性较差。有人利用对偶启发式动态规划的方法设计了一类侧向学习控制器，该类控制器的输入是侧向误差和航向误差，输出是方向盘角度。虽然仿真结果表明该方法控制性能优于单点跟踪、预瞄控制等传统方法，但是在实验中发现该控制器输出的控制量鲁棒性较差，且在跟踪过程中方向盘存在抖动，影响车辆乘坐的舒适性。

综上所述，现有技术存在的问题是：

目前侧向跟踪控制方法大多采用了车辆几何转向模型，未考虑车辆本身的侧偏特性，因此适用于中低车速下跟踪曲率连续变化的路径。当车辆行驶车速较高或者跟踪较大曲率路径时，车辆前轮和后轮均可能存在一定的侧偏角，此时传统的侧向控制方法跟踪精度会有所降低。控制跟踪效果较差，参数的选择对车辆控制性能影响较大，需要人为调整控制参数才能达到较高控制精度。

发明内容

针对现有技术存在的问题，本发明提供了一种基于自评价学习的车辆侧向跟踪控制方法。

本发明是这样实现的，一种基于自评价学习的侧向跟踪控制方法，所述基于自评价学习的侧向跟踪控制方法包括：

输入信号是期望路径的转弯半径，阿克曼几何转向模型与轮胎模型两部分信息，输出跟踪期望转弯半径所需要的前馈转向控制信号；

利用车辆与期望路径之间的误差关系，车辆转向执行机构的时延特性和饱和特性，以最小化侧向跟踪误差为性能指标，采用迭代自评价学习方法得到了反馈转向控制策略。

进一步，所述基于自评价学习的侧向跟踪控制方法以为状态变量的车辆侧向动力学模型为：

进一步，所述基于自评价学习的侧向跟踪控制方法采用轮胎模型如下：

其中μ为轮胎与地面的摩擦系数，Fz为车辆质心处的垂直载荷，Cα为轮胎的侧偏刚度。

进一步，所述基于自评价学习的侧向跟踪控制方法的车辆路径跟踪的误差状态模型，轮胎的侧向力与其侧滑角可近似成正比关系，则前轮侧向力Fyf和后轮侧向力Fyr表示为：

F_yf＝2C_fα_f＝2C_f(δ-θ_vf) (4.22)

F_yr＝2C_rα_r＝-2C_rθ_vr (4.23)

其中αf和αr分别为前轮侧偏角和后轮侧偏角，δ表示当前前轮摆角，θvf和 θvr分别表示为前轮的速度方向和后轮的速度方向，Cf和Cr分别为前轮的侧偏刚度和后轮的侧偏刚度。

状态s(k)所对应的最优控制率：

本发明的另一目的在于提供一种所述基于自评价学习的侧向跟踪控制方法的基于自评价学习的侧向跟踪控制***，所述基于自评价学习的侧向跟踪控制 ***包括：

前馈转向控制器，输入信号是期望路径的转弯半径，采用阿克曼几何转向模型与轮胎模型两部分信息，输出跟踪期望转弯半径所需要的前馈转向控制信号；

反馈转向控制器，利用车辆与期望路径之间的误差关系，采用车辆转向执行机构的时延特性和饱和特性，以最小化侧向跟踪误差为性能指标，采用了迭代的自评价学习方法得到了反馈转向控制策略。

本发明的前馈转向控制器的输入信号是期望路径的转弯半径，阿克曼几何转向模型与轮胎模型两部分信息，输出跟踪期望转弯半径所需要的前馈转向控制信号。反馈转向控制器利用车辆与期望路径之间的误差关系，车辆转向执行机构的时延特性和饱和特性，以最小化侧向跟踪误差为性能指标，采用了迭代的自评价学习方法得到了反馈转向控制策略。本发明的侧向跟踪控制方法将前馈转向控制信号与反馈转向控制信号相加作用于车辆前轮转向机构，使自主驾驶车辆既可跟踪期望路径，降低了车辆与期望道路之间的跟踪误差。与传统的 LQR反馈控制方法、预瞄方法相比较，自主驾驶车辆的侧向跟踪控制精度得到一定的提高。本发明利用前馈控制器使自主驾驶车辆跟踪期望路径，且通过基于ADP学习优化的反馈控制器进一步降低了车辆与期望道路之间的跟踪误差。仿真结果表明侧向跟踪控制方法较传统的LQR控制方法和预瞄方法具有更高的控制精度。

附图说明

图1是本发明实施例提供的基于自评价学习的侧向跟踪控制方法流程图。

图2是本发明实施例提供的基于自评价学习的侧向跟踪控制***结构示意图；

图中：1、前馈控制器；2、反馈控制器。

图3是本发明实施例提供的自主驾驶车辆侧向跟踪控制框架示意图。

图4是本发明实施例提供的车辆航向和期望道路上点P的切线方向示意图。

图5是本发明实施例提供的低速情况下车辆转向的阿克曼几何关系示意图。

图6是本发明实施例提供的车速为5km/h、10km/h、20km/h、30km/h下跟踪10m半径圆时的跟踪结果示意图。

图7是本发明实施例提供的前轮和后轮的侧偏角示意图。

图8是本发明实施例提供的车速为5km/h、10km/h、20km/h、30km/h下跟踪10m半径圆时前轮和后轮与地面之间的侧向力以及轮胎的侧滑角。

图9是本发明实施例提供的车辆在转向时受到的侧偏力与侧偏角之间的关系示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于自评价学习的侧向跟踪控制方法包括以下步骤：

S101：输入信号是期望路径的转弯半径，阿克曼几何转向模型与轮胎模型两部分信息，输出跟踪期望转弯半径所需要的前馈转向控制信号；

S102：利用车辆与期望路径之间的误差关系，车辆转向执行机构的时延特性和饱和特性，以最小化侧向跟踪误差为性能指标，采用迭代自评价学习方法得到了反馈转向控制策略。

如图2所示，本发明实施例提供的基于自评价学习的侧向跟踪控制***包括：前馈控制器1和反馈控制器2。

前馈转向控制器1输入信号是期望路径的转弯半径，采用阿克曼几何转向模型与轮胎模型两部分信息，输出跟踪期望转弯半径所需要的前馈转向控制信号。

反馈转向控制器2利用车辆与期望路径之间的误差关系，采用车辆转向执行机构的时延特性和饱和特性，以最小化侧向跟踪误差为性能指标，采用了迭代的自评价学习方法得到了反馈转向控制策略。

下面结合附图对本发明的应用原理作进一步的描述。

如图3所示，本发明的侧向跟踪控制器的输出由三部分组成：1、利用车辆侧向动力学逆模型与最优期望转弯半径计算得到的前馈转向命令δFF；2、根据当前车辆与期望路径的侧向误差、航向误差产生反馈控制命令δFB1；3、根据转向扰动补偿器产生的反馈控制命令δFB2。侧向跟踪控制器的输出命令作用于车辆转向机构。车辆状态检测模块可将当前车辆的实际车速以及位姿等信息反馈给最优运动轨迹生成模块，以生成当前车辆跟踪期望路径所需要的最优期望转弯半径，并计算当前车辆的侧向跟踪误差。

本发明建立能够反映轮胎侧向力与侧偏角之间非线性关系以及饱和特性的轮胎模型，并与前轮转向的阿克曼模型相结合，计算得到前馈转向命令δFF。考虑了车辆转向执行机构的时延特性和饱和特性，本发明节以最小化跟踪误差和能量损耗为目标函数，采用了近似动态规划方法学习优化得到了反馈控制率 δFB1。由于行驶车辆常受到不同程度的干扰，本发明节利用一个转向扰动补偿器，根据车辆的期望转弯半径和实际转弯半径产生一个反馈控制率δFB2，使车辆在外界干扰条件下尽可能的达到期望转弯半径。

1、侧向控制器

侧向控制(路径跟踪控制)是车辆自主驾驶的关键技术，目的是根据行驶的车辆与期望路径之间的关系产生准确且合适的转向信号使车辆以尽可能高的精度跟踪上期望路径。为便于分析，可将自主驾驶车辆表示为二自由度转向模型，该模型假设两个前轮可用一个车轮来表示，左右车辆所受的侧偏力相等。后轮可做同样假设。由于该二自由度转向模型足以反映车辆运动时的动力学特性，因此常被应用于车辆建模和车辆控制研究，在车辆极限控制研究中也有实际应用，设车辆速度为v,纵轴方向速度为vx，与纵轴垂直方向速度为vy，车辆质心侧偏角为β，车辆前轮和后轮的侧向力分别为Fy f和Fyr，车辆前轮和后轮的纵向力分别为Fx f和Fxr，根据车辆在行驶过程中产生的侧向运动和平面转动，得：

其中M是车辆的质量，Iz为车辆的转动惯量，lf和lr分别为车辆质心离前轴中心和后轴中心的距离。

图4给出了车辆与期望道路之间的误差关系，点P为期望路径离车辆质心最近的一点，e表示车辆质心与点P的距离，表示车辆航向与P点切线方向的夹角。则可得以下关系式:

其中分别表示车辆航向和期望道路上点P的切线方向。

设s为期望道路上行驶的距离，则满足：

如图4所示，设r为车辆横摆角速度，则：

其中κ为期望道路的曲率。

假设很小，根据小角度理论且假设˙vx≈0，

则式(4.4)可表示为：

如图4所示，侧向误差ep可表示为根据小角度假设

和式(4.9)可得：

再根据式(4.7)和(4.9)可得：

结合式(4.1)，可得以为状态变量的车辆侧向动力学模型为：

2、前馈转向控制器设计

如图3所示，基于车辆动力学的前馈信号是车辆方向盘的控制输入一个重要组成部分，如何根据运动车辆与被跟踪期望路径之间的关系来产生前馈命令是首先要解决的问题。在车辆低速运动过程中，轮胎产生的侧向力和侧偏角足够小，可以忽略不计，根据图5所示的几何关系可得车辆前轮摆角与车辆的转弯半径满足以下阿克曼几何关系：

其中δ为车辆转向时前轮摆角，L和R分别为车辆的轴距和转弯半径。

低速情况下，可以根据期望转弯半径利用阿克曼几何转向关系得到期望的前轮摆角作为前馈控制量输入。随着车辆速度的增加，车辆受到的离心力和轮地之间的作用力也在不断增加，车辆的前后轮会出现侧滑现象。图6给出了车辆根据式(4.14)在不同车速下跟踪10m半径圆时的跟踪结果，在车速为5km/h 和10km/h时，车辆跟踪轨迹与10m半径的圆基本吻合，但是随着速度增加至 20km/h和30km/h时，车辆轮胎出现侧滑现象，即轮胎的速度方向和轮胎的纵向存在侧偏角，如图7所示，αf和αr即为轮胎的侧偏角。图8给出了不同车速

条件下前轮和后轮与地面之间的侧向力以及轮胎的侧滑角。因此在计算车辆前馈控制量输入时，必须要考虑车辆轮胎的侧偏特性，才能使车辆在不同车速条件下完成路径跟踪任务。

在车辆稳态转向情况下，结合前后轮的侧偏角，车辆的前轮摆角作为控制输入，可根据以下关系来求得：

其中δFF表示前馈前轮摆角，αFFf和αFFr分别为前轮和后轮期望的前馈侧偏角。轮胎侧偏角与侧偏力之间存在一定的非线性关系，设为Fy＝f(αy)，即为轮胎模型。因此只需根据合适的轮胎模型，利用期望的前轮侧向力Fyf和期望的后轮侧向力Fyr，便可求得前轮期望的侧偏角αFFf和后轮期望的侧偏角αFFr。

根据式(4.12)和式(4.13)，通过选择合适的距离xp，可求出跟踪期望路径所需要的前轮侧向力Fyf和后轮侧向力Fyr。由于研究车辆为前轮转向，所以只能通过方向盘控制前轮转角，而不能直接控制后轮转角，且后轮侧向力随着车辆动力学特性不断变化，尤其在极限情况下。为了消除后轮侧向力对计算前轮转向力的影响，可通过选择合适的xp在式(4.12)中消除Fyr，令：

令xp＝xcop，代入式(4.12)中可得：

令¨ep＝0，则可根据式(4.18)求得：

在稳态转向情况下满足˙s＝vx、¨s＝˙κ＝0，则期望的前轮侧向力为：

可得期望的后轮侧向力为：

为了尽可能准确的模拟轮胎侧向力和侧偏角之间的非线性关系以及饱和特性，采用轮胎模型如下：

其中μ为轮胎与地面的摩擦系数，Fz为车辆质心处的垂直载荷，Cα为轮胎的侧偏刚度。图9给出了车辆在转向时受到的侧偏力与侧偏角之间的关系，利用这些实验数据可对轮胎的侧偏刚度和摩擦系数进行辨识，将辨识的参数代入到轮胎模型(4.3)中，便可得到如图9所示的轮胎侧偏角和侧偏力之间的输入输出关系。利用该输入输出关系，可得到期望的侧偏力所对应的期望侧偏角，再代入(4.15)中便可得到期望的前轮摆角作为前馈控制量输入。

3、基于SI-DHP的反馈转向控制器设计

本发明首先建立车辆路径跟踪的误差状态模型，考虑到车辆自主驾驶*** 所具有的时延特性和执行机构的饱和特性，本发明采用自评价学习方法对该误差模型的控制量进行求解。

3.1车辆路径跟踪的误差状态模型

在轮胎侧滑角较小情况下，轮胎的侧向力与其侧滑角可近似成正比关系，则前轮侧向力Fyf和后轮侧向力Fyr可近似表示为：

F_yf＝2C_fα_f＝2C_f(δ-θ_vf) (4.22)

F_yr＝2C_rα_r＝-2C_rθ_vr (4.23)

其中αf和αr分别为前轮侧偏角和后轮侧偏角，δ表示当前前轮摆角，θvf和 θvr分别表示为前轮的速度方向和后轮的速度方向(如图7所示)，Cf和Cr分别为前轮的侧偏刚度和后轮的侧偏刚度。

如图所示，前轮的速度方向θvf和后轮的速度方向θvr可近似表示为：

设κ为期望路径的曲率，车辆纵向车速为vx，则车辆跟踪期望路径所需要达到的期望横摆角速度和侧向加速度ayd可表示为：

如图4所示,点P为期望路径上离车辆质心最近的一点，e为点P与车辆质心之间的距离，即侧向误差；为车辆航向与P点切线方向的夹角，即方向误差；其中方向误差可表示为：

侧向误差e的二阶导数可表示为：

侧向误差e的一阶导数可表示为：

将式(4.22)、(4.28)和(4.31)代入到式(4.1)中，可得：

将近似表达式(4.24)代入式(4.32)和式(4.33)中可得：

根据以上关系，可得以(e，˙e，Δ˙)作为状态变量、前轮摆角δ作为控制量的连续状态空间方程如下：

为了使车辆行驶中充分保证稳定性，可采用xcop处对应的误差ecop替代车辆质心处所对应的误差e，根据关系式可得：

将状态变量(e，˙e，Δ˙)与状态变量(ecop，˙ecop，Δ˙) 关系式(4.37)代入到连续状态空间方程式(4.36)中，并由xcop＝Iz/lrM可得

对连续状态空间方程式(4.38)进行离散化处理，设离散周期为T，则可得所对应的离散状态空间方程式为：

其中k＝0,1,2,...，I表示单位矩阵，s(k)表示k时刻所对应的***误差状态变量(ecop，˙ecop，Δ˙)，δ(k)为k时刻所采用的控制输入。在实际车辆跟踪路径的过程中，由于整个车辆自主***的延时特性，造成计算的误差状态变量也存在一定的时延，且控制量输入也具有饱和特性。

对上述车辆路径跟踪问题的离散状态空间方程式(4.39)进行展开，可得：

其中a22、a23、a24、a42、a43和a44为矩阵A中的元素，b12和b14分别为向量B1中第二行和第四行元素，b22和b24分别为向量B2中第二行和第四行元素。

在状态变量s2和s4分别加入时延项，则上述差分方程可表示为：

其中σ为状态时延项。

转向控制量求解针对自主驾驶车辆路径跟踪问题，上述所建立的离散误差模型可表示为：

s(k+1)＝f(s(k)，s(k-σ))+g(s(k))δ(k) (4.43)

其中k＝0，1，2，...，s(k)为***k时刻的误差状态，s(-σ)＝s(-σ+1) ＝…＝s(0)＝0，设控制量输入满足约束为车辆前轮允许的最大角度。本发明所设计的最优状态反馈控制器要能够输出当前状态s(k)所对应的最优反馈控制率δFB(k)使以下目标函数达到最小：

其中

其中Q1，Q2，Q3∈R4×4是正定对角矩阵，R为一个正常数，tanh(x)＝(ex -e-x)/(ex+e-x)。

令J*(s(k))＝minδ(·)J(s(k),δ(·))为***状态s(k)所对应的最优值函数， δ*(s(k))是与最优值函数所对应的最优控制率，可根据贝尔曼最优原理如下离散的汉密尔顿-雅各比-贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程：

根据上述HJB方程，可得状态s(k)所对应的最优控制率

因此，针对受控***(4.43)的最优控制问题，需要对最优值函数进行求解 J*(s(k))，也即求解HJB方程。但是由于目标函数(4.44)有状态时延项和动作约束项，很难利用传统的动态规划方法获得HJB方程的解析解。因此，针对该类具有执行器约束的仿射非线性离散时延***，本发明采用基于ADP的迭代学习控制方法近似求解最优值函数J*(s(k))和最优控制量δ*(s(k))。

对上述等式(4.47)两边对状态s(k)求偏导，可得：

令状态协函数为

则等式(4.49)可表示为：

再根据等式(4.51)的两边对控制量δ*(k)求偏导，可得：

令等式(4.52)等于0，可得最优控制解为：

从式(4.53)中可以看出，最优控制解δ*需要得到效用值函数λ*(k+1)，后

者需要求解HJB方程(4.51)才能得到，本发明利用迭代的思想对上述所建立的HJB方程(4.51)求解，进而得到近似最优控制解δ*。

令i表示为当前的迭代次数，λ[0](s(k))＝0为初始条件，当i＝0时，控制量δ[0](s(k))可表示为：

协状态变量λ[1](s(k))可表示为：

依此类推，对于i＝1,2,...，则可得控制量δ[i](k)的迭代表达式为：

协状态变量λ[i+1](s(k))的迭代表达式为：

其中s(k+1)＝f(s(k),s(k-σ))+g(s(k))δ[i](k)。

在ADP方法中，协状态变量序列{λ[i]}和控制量序列{δ[i]}分别根据式 (4.57)和(4.56)不断迭代求解，由对迭代对偶启发式动态规划算法的收敛性分析可得，随着i→∞，可知δ[i]→δ*。综上可知，针对上述车辆路径跟踪误差模型(4.41)所得到的近似最优转向控制率可根据式(4.56)不断迭代求解得到。在利用上述ADP方法迭代求解转向控制率过程中，评价器网络和执行器网络分别用来逼近效用值函数λ(s(k))和转向控制率δ(k)。

综上可知，基于侧向力补偿的前馈转向控制器根据期望道路的曲率、速度和轮胎侧向力等信息产生一个前馈转向控制率δFF，同时基于迭代对偶启发式动态规划的反馈转向控制器根据当前车辆与道路之间的误差关系输出一个反馈转向控制率δFB1使车辆跟踪期望路径的误差逐渐减小。由于上述控制器中存在一定的动力学建模误差，且行驶中的车辆不断受外界环境因素所带来的各种干扰和噪声影响，比如道路路面、横坡等，因此有必要根据车辆的期望转弯半径和车辆的实际转弯半径设计一个转向扰动补偿控制器(如图2所示)，以降低以上因素对车辆转向特性的影响。该转向扰动补偿控制器输出的控制率δFB2可表示为：

其中a为反馈系数，κd为车辆当前的期望曲率，可根据图4中的运动轨迹生成和优化模块产生，也可根据期望道路曲率产生，v为当前车速，ω为当前车辆的横摆角速度，可根据惯性传感器测量得到。最终可得自动驾驶车辆在跟踪期望路径过程中，所执行的转向控制输入可表示为：

其中δFF由基于侧向力补偿的前馈转向控制器输出，控制率为式(4.15)； δFB1由基于迭代对偶启发式动态规划的反馈转向控制器输出，控制率为式 (4.56)；δFB2由转向扰动补偿控制器输出，控制率为式(4.58)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自评价学习的侧向跟踪控制方法，其特征在于，所述基于自评价学习的侧向跟踪控制方法包括：

2.如权利要求1所述的基于自评价学习的侧向跟踪控制方法，其特征在于，所述基于自评价学习的侧向跟踪控制方法以为状态变量的车辆侧向动力学模型为：

3.如权利要求1所述的基于自评价学习的侧向跟踪控制方法，其特征在于，所述基于自评价学习的侧向跟踪控制方法采用轮胎模型如下：

4.如权利要求1所述的基于自评价学习的侧向跟踪控制方法，其特征在于，所述基于自评价学习的侧向跟踪控制方法的车辆路径跟踪的误差状态模型，轮胎的侧向力与其侧滑角可近似成正比关系，则前轮侧向力Fyf和后轮侧向力Fyr表示为：

F_yf＝2C_fα_f＝2C(δ-θ_vf) (4.22)

F_yr＝2C_rα_r＝-2C_rθ_vr (4.23)

其中αf和αr分别为前轮侧偏角和后轮侧偏角，δ表示当前前轮摆角，θvf和θvr分别表示为前轮的速度方向和后轮的速度方向，Cf和Cr分别为前轮的侧偏刚度和后轮的侧偏刚度；

状态s(k)所对应的最优控制率：

5.一种如权利要求1所述基于自评价学习的侧向跟踪控制方法的基于自评价学习的侧向跟踪控制***，其特征在于，所述基于自评价学习的侧向跟踪控制***包括：

6.一种应用权利要求1～4任意一项所述基于自评价学习的侧向跟踪控制方法的汽车。