CN115062539A - 基于强化学习转角权重分配的人车协同转向控制方法 - Google Patents

基于强化学习转角权重分配的人车协同转向控制方法 Download PDF

Info

Publication number
CN115062539A
CN115062539A CN202210642626.7A CN202210642626A CN115062539A CN 115062539 A CN115062539 A CN 115062539A CN 202210642626 A CN202210642626 A CN 202210642626A CN 115062539 A CN115062539 A CN 115062539A
Authority
CN
China
Prior art keywords
vehicle
network
function
weight
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210642626.7A
Other languages
English (en)
Inventor
汪洪波
冯立钊
夏兆君
高振刚
沈杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210642626.7A priority Critical patent/CN115062539A/zh
Publication of CN115062539A publication Critical patent/CN115062539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Automation & Control Theory (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新。经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。本发明在迭代过程中生成满足期望标准的智能体对驾驶员和控制器输出转角进行协调分配。

Description

基于强化学习转角权重分配的人车协同转向控制方法
技术领域
本发明涉及无人驾驶领域中的一种人车协同转向控制方法,尤其涉及一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。
背景技术
随着科学技术的日益发展,无人驾驶已经成为未来交通运输中不可或缺的部分。虽然理论上无人驾驶技术可以解决由于驾驶员误操作导致的事故问题,但是无论从现有技术水平还是从人文伦理角度出发,完全的自动驾驶会导致很多的问题,综合考虑,保持驾驶员实时在环的人车协同技术是十分有必要的。其中人车协同转角控制策略是研究的热点,但是现有的人车协同技术,大多是根据经验、考虑规则获得的策略。
发明内容
为解决现有的经验设定的人车协同转向转角分配策略耗时耗力的技术问题,本发明提供一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。
本发明采用以下技术方案实现:一种基于合作模式强化学习转角权重分配的人车协同转向控制方法,其包括训练进行和训练结束两个部分;
训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新;
经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。
作为上述方案的进一步改进,针对所述无人驾驶汽车,设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,所述自我迭代过程为:
定义所述BP神经网络的输入特征量s为:
Figure RE-GDA0003760550750000011
其中,edis为所述无人驾驶汽车的横向误差;eyaw为所述无人驾驶汽车的航向角误差;
Figure RE-GDA0003760550750000012
为所述无人驾驶汽车的横向误差变化率;
Figure RE-GDA0003760550750000013
为所述无人驾驶汽车的航向角误差变化率;k为路径曲率;
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi-1+bi) (2)
其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi-1为第i-1层的神经元值;
定义所述BP神经网络的第一层输出h1为:
h1=s (3)
定义驾驶员通过所述BP神经网络最终输出转角δf为:
δf=net(s) (4)
其中,net(s)为所述BP神经网络的网络函数;
定义第一层的激活函数σ1为:
Figure RE-GDA0003760550750000021
定义第二、三层的激活函数σ2、σ3均为:
Figure RE-GDA0003760550750000022
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:
Figure RE-GDA0003760550750000023
其中,m1为选取样本数目,
Figure RE-GDA0003760550750000024
为第i1个无人驾驶汽车样本经过所述BP神经网络net 输出的前轮目标转角,
Figure RE-GDA0003760550750000025
为第i1个无人驾驶汽车样本的前轮的实际转角;
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络;
迭代训练所述前轮目标转角
Figure RE-GDA0003760550750000026
作为上述方案的进一步改进,所述BP神经网络具体结构为下表所示:
神经元数目 激活函数
输入层 5 tanh
隐含层1 10~20 relu
隐含层2 3~10 relu
输出层 1 none
作为上述方案的进一步改进,根据车辆二自由度动力学模型和牛顿第二定律可得:
Figure RE-GDA0003760550750000027
Figure RE-GDA0003760550750000028
Figure RE-GDA0003760550750000029
其中,m为所述无人驾驶汽车的车辆质量,
Figure RE-GDA0003760550750000031
为车辆侧向加速度,
Figure RE-GDA0003760550750000032
为车辆纵向速度,
Figure RE-GDA0003760550750000033
为车辆横摆角速度,
Figure RE-GDA0003760550750000034
为车辆前轮侧向力,
Figure RE-GDA0003760550750000035
为车辆后轮侧向力,
Figure RE-GDA0003760550750000036
为车辆纵向加速度,
Figure RE-GDA0003760550750000037
为车辆侧向速度,
Figure RE-GDA0003760550750000038
为车辆前轮纵向力,
Figure RE-GDA0003760550750000039
为车辆后轮纵向力,
Figure RE-GDA00037605507500000310
为车辆横摆角加速度,Iz为车辆绕z轴转动惯量;a为车辆质心距离前轴中心距离,b为车辆质心距离后轴中心距离;
在前轮转角较小和线性轮胎模型假设的基础上,同时结合车辆坐标系和全局坐标系的二维平面转换关系,在基于(8)-(10)基础上可以得到:
Figure RE-GDA00037605507500000311
Figure RE-GDA00037605507500000312
Figure RE-GDA00037605507500000313
Figure RE-GDA00037605507500000314
Figure RE-GDA00037605507500000315
其中,Ccf为车辆前轮侧向刚度,δf为车辆前轮转角,Ccr为车辆后轮侧向刚度,Clf为车辆前轮纵向刚度,sf为车辆前轮滑移率,Clr为车辆后轮纵向刚度,sr为车辆后轮滑移率,X为车辆全局坐标系下横坐标,Y为车辆全局坐标系下纵坐标,
Figure RE-GDA00037605507500000316
为车辆全局坐标系下横坐标方向速度,
Figure RE-GDA00037605507500000317
为车辆全局坐标系下纵坐标方向速度;
Figure RE-GDA00037605507500000318
为车辆航向角;
设置车辆状态量ξ为:
Figure RE-GDA00037605507500000319
其中,T为转置符号;
车辆实际控制量u为:
u=δf (17)
则式(11)-(15)表达的非线性模型可以写为:
Figure RE-GDA00037605507500000320
对该非线性模型进行线性化处理,得到:
Figure RE-GDA00037605507500000321
其中:
Figure RE-GDA0003760550750000041
Figure RE-GDA0003760550750000042
其中,
Figure RE-GDA0003760550750000043
为当前时刻t的纵向速度,
Figure RE-GDA0003760550750000044
为状态方程关于车辆侧向速度
Figure RE-GDA0003760550750000045
的偏导,
Figure RE-GDA0003760550750000046
为车辆纵向速度
Figure RE-GDA0003760550750000047
的偏导,δf,t-1为上一时刻t-1的车辆前轮转角,
Figure RE-GDA0003760550750000048
为状态方程关于车辆纵向速度
Figure RE-GDA0003760550750000049
的偏导,
Figure RE-GDA00037605507500000410
为当前时刻t的横向速度,
Figure RE-GDA00037605507500000411
为状态方程关于横摆角速度
Figure RE-GDA00037605507500000412
的偏导,
Figure RE-GDA00037605507500000413
为当前时刻t的车辆横摆角速度。
作为上述方案的进一步改进,在实际控制算法部署中,需要把式(19)转为离散状态函数:
Figure RE-GDA00037605507500000414
其中,
Figure RE-GDA00037605507500000415
为采样点k+1的离散状态函数,
Figure RE-GDA00037605507500000416
为采样点k的离散状态函数;
Figure RE-GDA00037605507500000417
为采样点k的车辆实际控制量u(k)与车辆目标控制量u(k,ref)之间的车辆控制量偏差;
A(k)=I+ ΔT.A (23)
B(k)=ΔT.B (24)
I为单位矩阵,ΔT为采样时间间隔;
将式(22)进一步处理,将控制实际量转化为增量形式:
Figure RE-GDA00037605507500000418
其中,ε(k+1)为采样点k+1的增量函数,ε(k)为采样点k的增量函数,Δu(k)为采样点k相对上一时刻的车辆控制量增量,η(k)采样点k的车辆状态量提取函数;
Figure RE-GDA00037605507500000419
Figure RE-GDA00037605507500000420
Figure RE-GDA00037605507500000421
Figure RE-GDA00037605507500000422
Figure RE-GDA00037605507500000423
为采样点k-1的车辆实际控制量u(k-1)与车辆目标控制量u(k-1,ref)之间的车辆控制量偏差;
根据式(25)进行迭代可以得到:
Y(k)=Ψsε(k)sΔU(k) (30)
其中:
Figure RE-GDA0003760550750000051
η(k+1)采样点k+1的车辆状态量提取函数,η(k+2)采样点k+2的车辆状态量提取函数,
Figure RE-GDA0003760550750000056
采样点k+Nc的车辆状态量提取函数,Nc为控制车辆跟踪的目标函数的控制域,
Figure RE-GDA0003760550750000057
采样点k+Np的车辆状态量提取函数,Np为所述目标函数的预测域;
Figure RE-GDA0003760550750000052
Figure RE-GDA0003760550750000053
Figure RE-GDA0003760550750000054
Δu(k+1)为采样点k+1相对上一时刻的车辆控制量增量,Δu(k+Nc)为采样点k+Nc相对上一时刻的车辆控制量增量;
作为上述方案的进一步改进,设定求解所述目标函数J:
Figure RE-GDA0003760550750000055
i2表示预测域Np的序号,i3表示控制域Nc的序号,η(k1+i2)为采样点k+i2的车辆状态量提取函数,ηref(k+i2)为采样点k+i2的车辆参考状态量提取函数;Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量;Q为状态量权重矩阵,R为控制量权重矩阵;
对所述前轮目标转角的控制量设定约束方程:
Δumin≤Δu≤Δumax (36)
umin≤u≤umax (37)
αmin≤α≤αmax (38)
对目标函数(35)在约束方程(36)-(38)下求解,得出所述前轮目标转角;
Δu为控制量增量序列,Δumin、Δumax分别为控制量增量序列Δu的最小值和最大值;umin、 umax分别为车辆实际控制量u的最小值和最大值;α为车辆侧偏角,αmin、αmax分别为车辆侧偏角α的最小值和最大值。
作为上述方案的进一步改进,权重分配方法为:
选择输入特征量s作为强化学习算法的状态量:
Figure RE-GDA0003760550750000061
设计奖励函数为:
Figure RE-GDA0003760550750000062
其中,τdis为横向误差权重系数,edis为横向误差,τyaw为航向误差权重系数,eyaw为航向角误差,τdisr为横向误差变化率权重系数,edisr为横向误差变化率,τyawr为航向误差变化率权重系数,
Figure RE-GDA0003760550750000063
为航向误差变化率权重系数,eyawr为航向角误差变化率;该奖励函数前两项
Figure RE-GDA0003760550750000064
代表轨迹跟踪精度,后三项
Figure RE-GDA0003760550750000065
代表乘坐舒适性;
状态量数目对应策略网络actorNet的输入层神经元数目,输出层神经元数目代表控制权重区间数目,在此所述驾驶员模型的权重wdriver,所述控制器的权重wmpc通过式(41)间接获得:
wdriver+wmpc=1 (41)
作为上述方案的进一步改进,所述无人驾驶汽车的最终输出转角为:
δdeal=wdriverδdriver+wmpcδmpc
wdriver为所述驾驶员模型的权重系数;wmpc为所述控制器的权重系数;δdriver为所述驾驶员模型的输出转角;δmpc为所述控制器的输出转角;δdeal为协调后目标转角。
作为上述方案的进一步改进,所述DQN智能体的DQN超参数设置如下表所示:
参数
采样时间(s) 0.1~0.25
单次回合时间(s) 25~35
网络学习率 0.001~0.005
更新参数间隔 1000~2000
经验池数目 2000~5000
采样数目 32~64
本发明还公开一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现上述任意基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。
本发明还公开一种计算机终端,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。
相比与传统技术,本发明具备如下有益效果:
1、通过强化学习来代替传统的基于经验设计的合作模式人车协同转角分配策略。
2、设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,避免了人力物力的浪费。
3、建立了Deep-Q-learning算法在智能汽车人车协同权重分配的应用,并不是直接对智能汽车进行控制。
附图说明
图1为本发明的人车协同转向控制方法在网络训练过程中的均方根误差变化图。
图2为本发明的驾驶员实际、网络预测输出之间的对比示意图。
图3为本发明的人车协同转向控制方法应用的二自由度动力学模型的示意图。
图4为本发明的人车协同转向控制方法的合作模式强化学习转角权重分配示意图。
图5为本发明的DQN迭代训练图。
图6为本发明的训练前后横向误差对比图。
图7为本发明的训练前后航向误差对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明根据经验设定的人车协同转向转角分配策略耗时耗力,且针对于不同工况需要区别考虑,因此提出利用强化学习可以自学习的特性,制定评判人车协同转向的转角分配策略目标函数,选择合适的强化学习策略,在迭代过程中生成满足期望标准的智能体对驾驶员和控制器输出转角进行协调分配,从而避免根据经验确定分配策略。
人车协同转角分配策略中,主要包括三方面:驾驶员、轨迹跟踪转角控制器、权重分配策略。其中驾驶员模型采用BP神经网络训练,轨迹跟踪控制器采用模型预测控制(MPC)。在此基于强化学习设计权重分配方案,强化学习需要自我迭代过程,如果保持真人实时在环,耗时耗力,且效率低下,因此在智能体自我迭代训练过程中需要通过驾驶员模型代替驾驶员进行操作。在智能体自我迭代训练后可以通过实际驾驶员替换驾驶员模型来验证权重分配策略是否合理。
一、基于BP神经网络的驾驶员模型:
edis——横向误差
eyaw——航向角误差
Figure RE-GDA0003760550750000084
——横向误差变化率
Figure RE-GDA0003760550750000085
——航向角误差变化率
k——路径曲率
δf——前轮转角
δnet——前轮预测转角
δref——前轮实际转角
net——驾驶员转角预测网络
s——预测网络输入特征量
w——预测网络权重
b——预测网络偏差
σ——激活函数
h——单层网络
m1——选取样本数目
通过驾驶模拟器采集驾驶员特征数据,选取合适的特征量s作为神经网络net的输入,其中:
Figure RE-GDA0003760550750000081
其中,edis为所述无人驾驶汽车的横向误差;eyaw为所述无人驾驶汽车的航向角误差;
Figure RE-GDA0003760550750000082
为所述无人驾驶汽车的横向误差变化率;
Figure RE-GDA0003760550750000083
为所述无人驾驶汽车的航向角误差变化率;k为路径曲率。
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi-1+bi) (2)
其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi-1为第i-1层的神经元值。
定义所述BP神经网络的第一层输出h1为:
h1=s (3)
定义驾驶员通过所述BP神经网络最终输出转角δf为:
δf=net(s) (4)
其中,net(s)为所述BP神经网络的网络函数。
该BP神经网络具体结构如表1:
神经元数目 激活函数
输入层 5 tanh
隐含层1 10 relu
隐含层2 3 relu
输出层 1 none
表1神经网络结构
其中,第一层的激活函数σ1为:
Figure RE-GDA0003760550750000091
第二、三层的激活函数σ2、σ3均为:
Figure RE-GDA0003760550750000092
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:
Figure RE-GDA0003760550750000093
其中,m1为选取样本数目,
Figure RE-GDA0003760550750000094
为第i1个无人驾驶汽车样本经过所述BP神经网络net 输出的前轮目标转角,
Figure RE-GDA0003760550750000095
为第i1个无人驾驶汽车样本的前轮的实际转角。
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络。
网络训练过程如图1所示,驾驶员实际输出和网络预测输出对比如图2所示。驾驶员实际输出和网络预测输出趋势基本相同,因此证实所设计的网络可以代替真实驾驶员参与迭代训练过程。
二、模型预测控制器的控制原理如下所示:
L——车辆轴距
m——车辆质量
Iz——车辆绕z轴转动惯量
Figure RE-GDA0003760550750000096
——车辆前轮侧向力
Figure RE-GDA0003760550750000097
——车辆后轮侧向力
Figure RE-GDA0003760550750000098
——车辆前轮纵向力
Figure RE-GDA0003760550750000099
——车辆后轮纵向力
a——车辆质心距离前轴中心距离
b——车辆质心距离后轴中心距离
Ccf——车辆前轮侧向刚度
Ccr——车辆后轮侧向刚度
Clf——车辆前轮纵向刚度
Clr——车辆后轮纵向刚度
δf——车辆前轮转角
sf——车辆前轮滑移率
sr——车辆后轮滑移率
X——车辆全局坐标系下横坐标
Y——车辆全局坐标系下纵坐标
Figure RE-GDA0003760550750000101
——车辆纵向速度
Figure RE-GDA0003760550750000102
——车辆纵向加速度
Figure RE-GDA0003760550750000103
——车辆侧向速度
Figure RE-GDA0003760550750000104
——车辆侧向加速度
Figure RE-GDA0003760550750000105
——车辆航向角
Figure RE-GDA0003760550750000106
——车辆横摆角速度
Figure RE-GDA0003760550750000107
——车辆横摆角加速度
Np——预测域
Nc——控制域
Δu——控制量增量
u——控制量
α——车辆侧偏角
I——单位矩阵
ΔT——采样时间
Figure RE-GDA0003760550750000108
Figure RE-GDA0003760550750000109
Figure RE-GDA00037605507500001010
其中,m为所述无人驾驶汽车的车辆质量,
Figure RE-GDA00037605507500001011
为车辆侧向加速度,
Figure RE-GDA00037605507500001012
为车辆纵向速度,
Figure RE-GDA00037605507500001013
为车辆横摆角速度,
Figure RE-GDA00037605507500001014
为车辆前轮侧向力,
Figure RE-GDA00037605507500001015
为车辆后轮侧向力,
Figure RE-GDA00037605507500001016
为车辆纵向加速度,
Figure RE-GDA00037605507500001017
为车辆侧向速度,
Figure RE-GDA00037605507500001018
为车辆前轮纵向力,
Figure RE-GDA00037605507500001019
为车辆后轮纵向力,
Figure RE-GDA00037605507500001020
为车辆横摆角加速度,Iz为车辆绕z轴转动惯量;a为车辆质心距离前轴中心距离,b为车辆质心距离后轴中心距离。
在前轮转角较小和线性轮胎模型假设的基础上,同时结合车辆坐标系和全局坐标系的二维平面转换关系,在基于(8)-(10)基础上可以得到:
Figure RE-GDA0003760550750000111
Figure RE-GDA0003760550750000112
Figure RE-GDA0003760550750000113
Figure RE-GDA0003760550750000114
Figure RE-GDA0003760550750000115
其中,Ccf为车辆前轮侧向刚度,δf为车辆前轮转角,Ccr为车辆后轮侧向刚度,Clf为车辆前轮纵向刚度,sf为车辆前轮滑移率,Clr为车辆后轮纵向刚度,sr为车辆后轮滑移率,X为车辆全局坐标系下横坐标,Y为车辆全局坐标系下纵坐标,
Figure RE-GDA0003760550750000116
为车辆全局坐标系下横坐标方向速度,
Figure RE-GDA0003760550750000117
为车辆全局坐标系下纵坐标方向速度;
Figure RE-GDA0003760550750000118
为车辆航向角。
设置车辆状态量ξ为:
Figure RE-GDA0003760550750000119
其中,T为转置符号;
车辆实际控制量u为:
u=δf (17)
则式(11)-(15)表达的非线性模型可以写为:
Figure RE-GDA00037605507500001110
对该非线性模型进行线性化处理,得到:
Figure RE-GDA00037605507500001111
其中:
Figure RE-GDA00037605507500001112
Figure RE-GDA00037605507500001113
其中,
Figure RE-GDA00037605507500001114
为当前时刻t的纵向速度,
Figure RE-GDA00037605507500001115
为状态方程关于车辆侧向速度
Figure RE-GDA00037605507500001116
的偏导,
Figure RE-GDA00037605507500001117
为车辆纵向速度
Figure RE-GDA0003760550750000121
的偏导,δf,t-1为上一时刻t-1的车辆前轮转角,
Figure RE-GDA0003760550750000122
为状态方程关于车辆纵向速度
Figure RE-GDA0003760550750000123
的偏导,
Figure RE-GDA0003760550750000124
为当前时刻t的横向速度,
Figure RE-GDA0003760550750000125
为状态方程关于横摆角速度
Figure RE-GDA0003760550750000126
的偏导,
Figure RE-GDA0003760550750000127
为当前时刻t的车辆横摆角速度。
在实际控制算法部署中,需要把式(19)转为离散状态:
Figure RE-GDA0003760550750000128
其中,
Figure RE-GDA0003760550750000129
为采样点k+1的离散状态函数,
Figure RE-GDA00037605507500001210
为采样点k的离散状态函数;
Figure RE-GDA00037605507500001211
为采样点k的车辆实际控制量u(k)与车辆目标控制量u(k,ref)之间的车辆控制量偏差;
A(k)=I+ΔT.A (23)
B(k)=ΔT.B (24)
I为单位矩阵,ΔT为采样时间间隔。
将式(22)进一步处理,将控制实际量转化为增量形式:
Figure RE-GDA00037605507500001212
其中,ε(k+1)为采样点k+1的增量函数,ε(k)为采样点k的增量函数,Δu(k)为采样点k相对上一时刻的车辆控制量增量,η(k)采样点k的车辆状态量提取函数。
Figure RE-GDA00037605507500001213
Figure RE-GDA00037605507500001214
Figure RE-GDA00037605507500001215
Figure RE-GDA00037605507500001216
Figure RE-GDA00037605507500001217
为采样点k-1的车辆实际控制量u(k-1)与车辆目标控制量u(k-1,)之间的车辆控制量偏差。
根据式(25)进行迭代可以得到:
Y(k)=Ψsε(k)sΔU(k) (30)
其中:
Figure RE-GDA00037605507500001218
η(k+1)采样点k+1的车辆状态量提取函数,η(k+2)采样点k+2的车辆状态量提取函数,
Figure RE-GDA00037605507500001219
采样点k+Nc的车辆状态量提取函数,Nc为控制车辆跟踪的目标函数的控制域,
Figure RE-GDA00037605507500001220
采样点k+Np的车辆状态量提取函数,Np为所述目标函数的预测域。
Figure RE-GDA0003760550750000131
Figure RE-GDA0003760550750000132
Figure RE-GDA0003760550750000133
Δu(k+1)为采样点k+1相对上一时刻的车辆控制量增量,
Figure RE-GDA0003760550750000134
为采样点k+Nc相对上一时刻的车辆控制量增量。
设定求解目标函数:
Figure RE-GDA0003760550750000135
i2表示预测域Np的序号,i3表示控制域Nc的序号,η(k1+i2)为采样点k+i2的车辆状态量提取函数,ηref(k+i2)为采样点k+i2的车辆参考状态量提取函数;Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量;Q为状态量权重矩阵,R为控制量权重矩阵。
对控制量设定约束方程:
Δumin≤Δu≤Δumax (36)
umin≤u≤umax (37)
αmin≤α≤αmax (38)
对目标函数(35)在约束方程(36)-(38)下求解,得出所述前轮目标转角;
Δu为控制量增量序列,Δumin、Δumax分别为控制量增量序列Δu的最小值和最大值;umin、 umax分别为车辆实际控制量u的最小值和最大值;α为车辆侧偏角,αmin、αmax分别为车辆侧偏角α的最小值和最大值。
三、合作模式强化学习人车权重分配策略:
D——经验储存池
N——经验储存池经验数目
M——迭代回合次数
∈——当下迭代回合
T——单次回合总步数
t——当下回合步数
σrandom——随机数
σ——贪婪策略阈值
m——挑选训练经验数目
C——评估网络权重赋值间隔
actorNet——策略网络
targeNet——评估网络
θ——策略网络权重
θ-——评估网络权重
Q——策略网络输出值
Q-——评估网络输出值
s——输入状态量
a——执行动作
r——获得单步奖励
edis——横向误差
eyaw——航向角误差
Figure RE-GDA0003760550750000141
——横向误差变化率
Figure RE-GDA0003760550750000142
——航向角误差变化率
k——路径曲率
τdis——横向误差权重系数
τyaw——航向误差权重系数
τdisr——横向误差变化率权重系数
τyawr——航向误差变化率权重系数
Figure RE-GDA0003760550750000143
——航向误差变化率权重系数
wdriver——纯跟踪输出转角权重系数
wmpc——MPC输出转角权重系数
δdriver——纯跟踪控制器输出转角
δmpc——MPC控制器输出转角
δdeal——协调后目标转角
由于智能汽车的状态量较为复杂,需要根据实际情况选择可以适应复杂工况的强化学习策略。在此选择Deep-Q-learning(以下简称DQN)算法为强化学习策略。
DQN算法伪代码:
Figure RE-GDA0003760550750000151
选择状态量:
Figure RE-GDA0003760550750000152
此处考虑合作模式下的人车协同权重分配问题,主要以智能汽车的轨迹跟踪精度和乘坐舒适性作为评价指标,因此设计奖励函数为:
Figure RE-GDA0003760550750000153
其中,τdis为横向误差权重系数,edis为横向误差,τyaw为航向误差权重系数,eyaw为航向角误差,τdisr为横向误差变化率权重系数,edisr为横向误差变化率,τyawr为航向误差变化率权重系数,
Figure RE-GDA0003760550750000154
为航向误差变化率权重系数,eyawr为航向角误差变化率;该奖励函数前两项
Figure RE-GDA0003760550750000155
代表轨迹跟踪精度,后三项
Figure RE-GDA0003760550750000156
代表乘坐舒适性。
状态量数目对应策略网络actorNet的输入层神经元数目,输出层神经元数目代表控制权重区间数目。假设输出层神经元数目为100,选择神经元1执行动作,那么对应的权重0.01,另一方对应权重0.99。在此直接驾驶员控制的权重wdriver,MPC的权重wmpc可以通过式(41)间接获得:
wdriver+wmpc=1 (41)
强化学习是一个不断自我迭代更新参数的过程,因此在迭代训练中,需要利用BP神经网络建立的驾驶员模型参与训练过程。根据设计的目标函数,actorNet在迭代训练过程中逐渐符合设计目标。在训练结束后,通过实际驾驶员对该训练好的权重分配策略做出评价。具体流程如图4所示。
环境传感器在接收道路信息后,分别发送给控制器和驾驶员(驾驶员模型)。其中控制器为橙色部分,驾驶员(驾驶员模型)为蓝色部分。该权重分配策略分为两个部分,训练进行和训练结束。训练进行时,驾驶员模型参与迭代训练过程,DQN智能体实时分配控制器和驾驶员模型权重,并且通过车辆状态和评估网络实时对策略网络进行更新;经过一定迭代次数以后,策略网络迭代完成,保持网络参数不变,此时评估网络不参与权重分配过程,DQN 智能体通过固定的策略网络实时分配控制器和驾驶员权重。
最终输出转角为:
δdeal=wdriverδdriver+wmpcδmpc (41)
wdriver为所述驾驶员模型的权重系数;wmpc为所述控制器的权重系数;δdriver为所述驾驶员模型的输出转角;δmpc为所述控制器的输出转角;δdeal为协调后目标转角。
DQN超参数设置如表2:
参数
采样时间(s) 0.1
单次回合时间(s) 30
网络学习率 0.001
更新参数间隔 1000
经验池数目 2000
采样数目 64
表二DQN超参数
训练过程累计回合奖励如图5所示。随着训练的进行,actorNet逐渐符合期望,将训练好的actorNet作为合作模式权重分配策略,并和未训练之前的初始策略进行对比,如图6、图7所示:智能体自我迭代完成后,可以得到满足设计目标的权重分配方案,从而避免手动指定分配规则。
本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法设计成程序进行实现功能时,可以采用一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序。该计算机终端可包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机程序。该计算机程序被处理器执行时,实现本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。计算机终端可以是电脑、智能手机等。也可以设计成嵌入式运行的程序,安装在计算机终端上,如安装在单片机上。
本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法设计成程序进行实现功能时,也可以设计成计算机可读存储介质可独立运行的程序,计算机可读存储介质可以是U盘,设计成U盾,通过U盘设计成通过外在触发启动整个方法的程序。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,其包括训练进行和训练结束两个部分;
训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新;
经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。
2.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,针对所述无人驾驶汽车,设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,所述自我迭代过程为:
定义所述BP神经网络的输入特征量s为:
Figure FDA0003682610120000011
其中,edis为所述无人驾驶汽车的横向误差;eyaw为所述无人驾驶汽车的航向角误差;
Figure FDA0003682610120000012
为所述无人驾驶汽车的横向误差变化率;
Figure FDA0003682610120000013
为所述无人驾驶汽车的航向角误差变化率;k为路径曲率;
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi-1+bi) (2)
其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi-1为第i-1层的神经元值;
定义所述BP神经网络的第一层输出h1为:
h1=s (3)
定义驾驶员通过所述BP神经网络最终输出转角δf为:
δf=net(s) (4)
其中,net(s)为所述BP神经网络的网络函数;
定义第一层的激活函数σ1为:
Figure FDA0003682610120000014
定义第二、三层的激活函数σ2、σ3均为:
Figure FDA0003682610120000021
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:
Figure FDA0003682610120000022
其中,m1为选取样本数目,
Figure FDA0003682610120000023
为第i1个无人驾驶汽车样本经过所述BP神经网络net输出的前轮目标转角,
Figure FDA0003682610120000024
为第i1个无人驾驶汽车样本的前轮的实际转角;
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络;
迭代训练所述前轮目标转角
Figure FDA0003682610120000025
3.如权利要求2所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述BP神经网络具体结构为下表所示:
神经元数目 激活函数 输入层 5 tanh 隐含层1 10-20 relu 隐含层2 3-10 relu 输出层 1 none
4.如权利要求2所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,根据车辆二自由度动力学模型和牛顿第二定律可得:
Figure FDA0003682610120000026
Figure FDA0003682610120000027
Figure FDA0003682610120000028
其中,m为所述无人驾驶汽车的车辆质量,
Figure FDA0003682610120000029
为车辆侧向加速度,
Figure FDA00036826101200000210
为车辆纵向速度,
Figure FDA00036826101200000211
为车辆横摆角速度,
Figure FDA00036826101200000222
为车辆前轮侧向力,
Figure FDA00036826101200000212
为车辆后轮侧向力,
Figure FDA00036826101200000213
为车辆纵向加速度,
Figure FDA00036826101200000214
为车辆侧向速度,
Figure FDA00036826101200000215
为车辆前轮纵向力,
Figure FDA00036826101200000216
为车辆后轮纵向力,
Figure FDA00036826101200000217
为车辆横摆角加速度,Iz为车辆绕z轴转动惯量;a为车辆质心距离前轴中心距离,b为车辆质心距离后轴中心距离;
在前轮转角较小和线性轮胎模型假设的基础上,同时结合车辆坐标系和全局坐标系的二维平面转换关系,在基于(8)-(10)基础上可以得到:
Figure FDA00036826101200000218
Figure FDA00036826101200000219
Figure FDA00036826101200000220
Figure FDA00036826101200000221
Figure FDA0003682610120000031
其中,Ccf为车辆前轮侧向刚度,δf为车辆前轮转角,Ccr为车辆后轮侧向刚度,
Figure FDA0003682610120000032
为车辆前轮纵向刚度,sf为车辆前轮滑移率,Clr为车辆后轮纵向刚度,sr为车辆后轮滑移率,X为车辆全局坐标系下横坐标,Y为车辆全局坐标系下纵坐标,
Figure FDA0003682610120000033
为车辆全局坐标系下横坐标方向速度,
Figure FDA0003682610120000034
为车辆全局坐标系下纵坐标方向速度;
Figure FDA0003682610120000035
为车辆航向角;
设置车辆状态量ξ为:
Figure FDA0003682610120000036
其中,T为转置符号;
车辆实际控制量u为:
u=δf (17)
则式(11)-(15)表达的非线性模型可以写为:
Figure FDA0003682610120000037
对该非线性模型进行线性化处理,得到:
Figure FDA0003682610120000038
其中:
Figure FDA0003682610120000039
Figure FDA00036826101200000310
其中,
Figure FDA00036826101200000311
为当前时刻t的纵向速度,
Figure FDA00036826101200000312
为状态方程关于车辆侧向速度
Figure FDA00036826101200000325
的偏导,
Figure FDA00036826101200000313
为车辆纵向速度
Figure FDA00036826101200000314
的偏导,δf,t-1为上一时刻t-1的车辆前轮转角,
Figure FDA00036826101200000315
为状态方程关于车辆纵向速度
Figure FDA00036826101200000316
的偏导,
Figure FDA00036826101200000317
为当前时刻t的横向速度,
Figure FDA00036826101200000318
为状态方程关于横摆角速度
Figure FDA00036826101200000319
的偏导,
Figure FDA00036826101200000320
为当前时刻t的车辆横摆角速度。
5.如权利要求4所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,在实际控制算法部署中,需要把式(19)转为离散状态函数:
Figure FDA00036826101200000321
其中,
Figure FDA00036826101200000322
为采样点k+1的离散状态函数,
Figure FDA00036826101200000323
为采样点k的离散状态函数;
Figure FDA00036826101200000324
为采样点k的车辆实际控制量u(k)与车辆目标控制量u(k,ref)之间的车辆控制量偏差;
A(k)=I+ΔT.A (23)
B(k)=ΔT.B (24)
I为单位矩阵,ΔT为采样时间间隔;
将式(22)进一步处理,将控制实际量转化为增量形式:
Figure FDA0003682610120000041
其中,ε(k+1)为采样点k+1的增量函数,ε(k)为采样点k的增量函数,Δu(k)为采样点k相对上一时刻的车辆控制量增量,η(k)采样点k的车辆状态量提取函数;
Figure FDA0003682610120000042
Figure FDA0003682610120000043
Figure FDA0003682610120000044
Figure FDA0003682610120000045
Figure FDA0003682610120000046
为采样点k-1的车辆实际控制量u(k-1)与车辆目标控制量u(k-1,ref)之间的车辆控制量偏差;
根据式(25)进行迭代可以得到:
Y(k)=Ψsε(k)sΔU(k) (30)
其中:
Figure FDA0003682610120000047
η(k+1)采样点k+1的车辆状态量提取函数,η(k+2)采样点k+2的车辆状态量提取函数,
Figure FDA0003682610120000049
采样点k+Nc的车辆状态量提取函数,Nc为控制车辆跟踪的目标函数的控制域,
Figure FDA00036826101200000410
采样点k+Np的车辆状态量提取函数,Np为所述目标函数的预测域;
Figure FDA0003682610120000048
Figure FDA0003682610120000051
Figure FDA0003682610120000052
Δu(k+1)为采样点k+1相对上一时刻的车辆控制量增量,Δu(k+Nc)为采样点k+Nc相对上一时刻的车辆控制量增量。
6.如权利要求5所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,设定求解所述目标函数J:
Figure FDA0003682610120000053
i2表示预测域Np的序号,i3表示控制域Nc的序号,η(k1+i2)为采样点k+i2的车辆状态量提取函数,ηref(k+i2)为采样点k+i2的车辆参考状态量提取函数;Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量;Q为状态量权重矩阵,R为控制量权重矩阵;
对所述前轮目标转角的控制量设定约束方程:
Δumin≤Δu≤Δumax (36)
umin≤u≤umax (37)
αmin≤α≤αmax (38)
对目标函数(35)在约束方程(36)-(38)下求解,得出所述前轮目标转角;
Δu为控制量增量序列,Δumin、Δumax分别为控制量增量序列Δu的最小值和最大值;umin、umax分别为车辆实际控制量u的最小值和最大值;α为车辆侧偏角,αmin、αmax分别为车辆侧偏角α的最小值和最大值。
7.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,权重分配方法为:
选择输入特征量s作为强化学习算法的状态量:
Figure FDA0003682610120000054
设计奖励函数为:
Figure FDA0003682610120000055
其中,τdis为横向误差权重系数,edis为横向误差,τyaw为航向误差权重系数,eyaw为航向角误差,τdisr为横向误差变化率权重系数,edisr为横向误差变化率,τyawr为航向误差变化率权重系数,
Figure FDA0003682610120000063
为航向误差变化率权重系数,eyawr为航向角误差变化率;该奖励函数前两项
Figure FDA0003682610120000061
代表轨迹跟踪精度,后三项
Figure FDA0003682610120000062
代表乘坐舒适性;
状态量数目对应策略网络actorNet的输入层神经元数目,输出层神经元数目代表控制权重区间数目,在此所述驾驶员模型的权重wdriver,所述控制器的权重wmpc通过式(41)间接获得:
wdriver+wmpc=1 (41)。
8.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述无人驾驶汽车的最终输出转角为:
δdeal=wdriverδdriver+wmpcδmpc
wdriver为所述驾驶员模型的权重系数;wmpc为所述控制器的权重系数;δdriver为所述驾驶员模型的输出转角;δmpc为所述控制器的输出转角;δdeal为协调后目标转角。
9.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述DQN智能体的DQN超参数设置如下表所示:
参数 采样时间(s) 0.1~0.25 单次回合时间(s) 25~35 网络学习率 0.001~0.005 更新参数间隔 1000~2000 经验池数目 2000~5000 采样数目 32~64
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时,实现如权利要求1至9中任意一项所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。
CN202210642626.7A 2022-06-08 2022-06-08 基于强化学习转角权重分配的人车协同转向控制方法 Pending CN115062539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210642626.7A CN115062539A (zh) 2022-06-08 2022-06-08 基于强化学习转角权重分配的人车协同转向控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210642626.7A CN115062539A (zh) 2022-06-08 2022-06-08 基于强化学习转角权重分配的人车协同转向控制方法

Publications (1)

Publication Number Publication Date
CN115062539A true CN115062539A (zh) 2022-09-16

Family

ID=83200903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210642626.7A Pending CN115062539A (zh) 2022-06-08 2022-06-08 基于强化学习转角权重分配的人车协同转向控制方法

Country Status (1)

Country Link
CN (1) CN115062539A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829256A (zh) * 2024-01-08 2024-04-05 南京航空航天大学 基于深度强化学习人机共驾转向权重系数预测分配方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829256A (zh) * 2024-01-08 2024-04-05 南京航空航天大学 基于深度强化学习人机共驾转向权重系数预测分配方法

Similar Documents

Publication Publication Date Title
CN111890951B (zh) 智能电动汽车轨迹跟踪与运动控制方法
CN110568760B (zh) 适用于换道及车道保持的参数化学习决策控制***及方法
CN111055921B (zh) 一种基于数据驱动的四轮转向模型预测控制方法
CN107561942A (zh) 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法
CN108791491A (zh) 一种基于自评价学习的车辆侧向跟踪控制方法
CN112666833B (zh) 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法
CN103324085A (zh) 基于监督式强化学习的最优控制方法
CN113671962B (zh) 一种无人驾驶铰接式清扫车的横向控制方法
CN113650609B (zh) 基于模糊规则的人机共驾控制权柔性转移方法及***
CN109808707A (zh) 一种基于随机模型预测的汽车转向控制方法及控制器
CN114379583A (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪***及方法
CN107357168A (zh) 一种基于机会约束模型预测控制的无人车避障方法
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
CN113442906A (zh) 一种分布式驱动电动汽车横向稳定性分层控制***及方法
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制***及方法
Chen et al. Rhonn modelling-enabled nonlinear predictive control for lateral dynamics stabilization of an in-wheel motor driven vehicle
CN115062539A (zh) 基于强化学习转角权重分配的人车协同转向控制方法
Fu et al. Nmpc-based path tracking control strategy for autonomous vehicles with stable limit handling
CN114987537A (zh) 基于神经网络动力学的自动驾驶车辆道路自适应漂移控制***与方法
CN116560223A (zh) 一种基于物理信息神经网络的智能车辆动力学模型、ilqr控制算法及轨迹跟踪控制器
Villagrá et al. Model-free control techniques for Stop & Go systems
Zheng et al. Extension coordinated control of distributed-driven electric vehicles based on evolutionary game theory
Sousa et al. Nonlinear tire model approximation using machine learning for efficient model predictive control
CN113184040B (zh) 一种基于驾驶人转向意图的无人车线控转向控制方法及***
CN114906128A (zh) 一种基于mcts算法的自动泊车运动规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination