CN115062539A

CN115062539A - 基于强化学习转角权重分配的人车协同转向控制方法

Info

Publication number: CN115062539A
Application number: CN202210642626.7A
Authority: CN
Inventors: 汪洪波; 冯立钊; 夏兆君; 高振刚; 沈杨
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-16

Abstract

本发明公开了一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。训练进行时，无人驾驶汽车的驾驶员模型参与迭代训练过程，采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重，并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新。经过一定迭代次数以后，所述策略网络迭代完成，训练结束，保持最后更新的策略网络的网络参数不变，此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程，所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。本发明在迭代过程中生成满足期望标准的智能体对驾驶员和控制器输出转角进行协调分配。

Description

基于强化学习转角权重分配的人车协同转向控制方法

技术领域

本发明涉及无人驾驶领域中的一种人车协同转向控制方法，尤其涉及一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。

背景技术

随着科学技术的日益发展，无人驾驶已经成为未来交通运输中不可或缺的部分。虽然理论上无人驾驶技术可以解决由于驾驶员误操作导致的事故问题，但是无论从现有技术水平还是从人文伦理角度出发，完全的自动驾驶会导致很多的问题，综合考虑，保持驾驶员实时在环的人车协同技术是十分有必要的。其中人车协同转角控制策略是研究的热点，但是现有的人车协同技术，大多是根据经验、考虑规则获得的策略。

发明内容

为解决现有的经验设定的人车协同转向转角分配策略耗时耗力的技术问题，本发明提供一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。

本发明采用以下技术方案实现：一种基于合作模式强化学习转角权重分配的人车协同转向控制方法，其包括训练进行和训练结束两个部分；

训练进行时，无人驾驶汽车的驾驶员模型参与迭代训练过程，采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重，并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新；

经过一定迭代次数以后，所述策略网络迭代完成，训练结束，保持最后更新的策略网络的网络参数不变，此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程，所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。

作为上述方案的进一步改进，针对所述无人驾驶汽车，设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程，所述自我迭代过程为：

定义所述BP神经网络的输入特征量s为：

其中，e_dis为所述无人驾驶汽车的横向误差；e_yaw为所述无人驾驶汽车的航向角误差；

为所述无人驾驶汽车的横向误差变化率；

为所述无人驾驶汽车的航向角误差变化率；k为路径曲率；

定义所述BP神经网络的第i层输出h_i为：

h_i＝σ_i(w_ih_i-1+b_i) (2)

其中，w_i表示第i层的网络权重；b_i表示第i层的网络偏差；σ_i为第i层的激活函数；h_i-1为第i-1层的神经元值；

定义所述BP神经网络的第一层输出h₁为：

h₁＝s (3)

定义驾驶员通过所述BP神经网络最终输出转角δ_f为：

δ_f＝net(s) (4)

其中，net(s)为所述BP神经网络的网络函数；

定义第一层的激活函数σ₁为：

定义第二、三层的激活函数σ₂、σ₃均为：

利用所述BP神经网络做线性拟合作用，所述BP神经网络的输出层神经元个数为1，则定义损失函数loss为：

其中，m1为选取样本数目，

为第i1个无人驾驶汽车样本经过所述BP神经网络net 输出的前轮目标转角，

为第i1个无人驾驶汽车样本的前轮的实际转角；

根据所述损失函数对所述BP神经网络计算相应梯度，进行所述网络权重、所述网络偏差更新，经过一定训练周期后，生成符合期望的驾驶员模型网络；

迭代训练所述前轮目标转角

作为上述方案的进一步改进，所述BP神经网络具体结构为下表所示：

	神经元数目	激活函数
			输入层	5	tanh
隐含层1	10～20	relu
			隐含层2	3～10	relu
输出层	1	none

作为上述方案的进一步改进，根据车辆二自由度动力学模型和牛顿第二定律可得：

其中，m为所述无人驾驶汽车的车辆质量，

为车辆侧向加速度，

为车辆纵向速度，

为车辆横摆角速度，

为车辆前轮侧向力，

为车辆后轮侧向力，

为车辆纵向加速度，

为车辆侧向速度，

为车辆前轮纵向力，

为车辆后轮纵向力，

为车辆横摆角加速度，I_z为车辆绕z轴转动惯量；a为车辆质心距离前轴中心距离，b为车辆质心距离后轴中心距离；

在前轮转角较小和线性轮胎模型假设的基础上，同时结合车辆坐标系和全局坐标系的二维平面转换关系，在基于(8)-(10)基础上可以得到：

其中，C_cf为车辆前轮侧向刚度，δ_f为车辆前轮转角，C_cr为车辆后轮侧向刚度，C_lf为车辆前轮纵向刚度，s_f为车辆前轮滑移率，C_lr为车辆后轮纵向刚度，s_r为车辆后轮滑移率，X为车辆全局坐标系下横坐标，Y为车辆全局坐标系下纵坐标，

为车辆全局坐标系下横坐标方向速度，

为车辆全局坐标系下纵坐标方向速度；

为车辆航向角；

设置车辆状态量ξ为：

其中，T为转置符号；

车辆实际控制量u为：

u＝δ_f (17)

则式(11)-(15)表达的非线性模型可以写为：

对该非线性模型进行线性化处理，得到：

其中：

其中，

为当前时刻t的纵向速度，

为状态方程关于车辆侧向速度

的偏导，

为车辆纵向速度

的偏导，δ_f,t-1为上一时刻t-1的车辆前轮转角，

为状态方程关于车辆纵向速度

的偏导，

为当前时刻t的横向速度，

为状态方程关于横摆角速度

的偏导，

为当前时刻t的车辆横摆角速度。

作为上述方案的进一步改进，在实际控制算法部署中，需要把式(19)转为离散状态函数：

其中，

为采样点k+1的离散状态函数，

为采样点k的离散状态函数；

为采样点k的车辆实际控制量u_(k)与车辆目标控制量u_(k,ref)之间的车辆控制量偏差；

A_(k)＝I+ ΔT.A (23)

B_(k)＝ΔT.B (24)

I为单位矩阵，ΔT为采样时间间隔；

将式(22)进一步处理，将控制实际量转化为增量形式：

其中，ε_(k+1)为采样点k+1的增量函数，ε_(k)为采样点k的增量函数，Δu_(k)为采样点k相对上一时刻的车辆控制量增量，η_(k)采样点k的车辆状态量提取函数；

为采样点k-1的车辆实际控制量u_(k-1)与车辆目标控制量u_(k-1,ref)之间的车辆控制量偏差；

根据式(25)进行迭代可以得到：

Y(k)＝Ψ_sε_(k)+Θ_sΔU(k) (30)

其中：

η_(k+1)采样点k+1的车辆状态量提取函数，η_(k+2)采样点k+2的车辆状态量提取函数，

采样点k+N_c的车辆状态量提取函数，N_c为控制车辆跟踪的目标函数的控制域，

采样点k+N_p的车辆状态量提取函数，N_p为所述目标函数的预测域；

Δu_(k+1)为采样点k+1相对上一时刻的车辆控制量增量，Δu_(k+Nc)为采样点k+Nc相对上一时刻的车辆控制量增量；

作为上述方案的进一步改进，设定求解所述目标函数J：

i2表示预测域N_p的序号，i3表示控制域N_c的序号，η_(k1+i2)为采样点k+i2的车辆状态量提取函数，η_ref(k+i2)为采样点k+i2的车辆参考状态量提取函数；Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量；Q为状态量权重矩阵，R为控制量权重矩阵；

对所述前轮目标转角的控制量设定约束方程：

Δu_min≤Δu≤Δu_max (36)

u_min≤u≤u_max (37)

α_min≤α≤α_max (38)

对目标函数(35)在约束方程(36)-(38)下求解，得出所述前轮目标转角；

Δu为控制量增量序列，Δu_min、Δu_max分别为控制量增量序列Δu的最小值和最大值；u_min、 u_max分别为车辆实际控制量u的最小值和最大值；α为车辆侧偏角，α_min、α_max分别为车辆侧偏角α的最小值和最大值。

作为上述方案的进一步改进，权重分配方法为：

选择输入特征量s作为强化学习算法的状态量：

设计奖励函数为：

其中，τ_dis为横向误差权重系数，e_dis为横向误差，τ_yaw为航向误差权重系数，e_yaw为航向角误差，τ_disr为横向误差变化率权重系数，e_disr为横向误差变化率，τ_yawr为航向误差变化率权重系数，

为航向误差变化率权重系数，e_yawr为航向角误差变化率；该奖励函数前两项

代表轨迹跟踪精度，后三项

代表乘坐舒适性；

状态量数目对应策略网络actorNet的输入层神经元数目，输出层神经元数目代表控制权重区间数目，在此所述驾驶员模型的权重w_driver，所述控制器的权重w_mpc通过式(41)间接获得:

w_driver+w_mpc＝1 (41)

作为上述方案的进一步改进，所述无人驾驶汽车的最终输出转角为：

δ_deal＝w_driverδ_driver+w_mpcδ_mpc

w_driver为所述驾驶员模型的权重系数；w_mpc为所述控制器的权重系数；δ_driver为所述驾驶员模型的输出转角；δ_mpc为所述控制器的输出转角；δ_deal为协调后目标转角。

作为上述方案的进一步改进，所述DQN智能体的DQN超参数设置如下表所示：

参数	值
		采样时间(s)	0.1～0.25
单次回合时间(s)	25～35
		网络学习率	0.001～0.005
更新参数间隔	1000～2000
		经验池数目	2000～5000
采样数目	32～64

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现上述任意基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。

本发明还公开一种计算机终端，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。

相比与传统技术，本发明具备如下有益效果：

1、通过强化学习来代替传统的基于经验设计的合作模式人车协同转角分配策略。

2、设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程，避免了人力物力的浪费。

3、建立了Deep-Q-learning算法在智能汽车人车协同权重分配的应用，并不是直接对智能汽车进行控制。

附图说明

图1为本发明的人车协同转向控制方法在网络训练过程中的均方根误差变化图。

图2为本发明的驾驶员实际、网络预测输出之间的对比示意图。

图3为本发明的人车协同转向控制方法应用的二自由度动力学模型的示意图。

图4为本发明的人车协同转向控制方法的合作模式强化学习转角权重分配示意图。

图5为本发明的DQN迭代训练图。

图6为本发明的训练前后横向误差对比图。

图7为本发明的训练前后航向误差对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明根据经验设定的人车协同转向转角分配策略耗时耗力，且针对于不同工况需要区别考虑，因此提出利用强化学习可以自学习的特性，制定评判人车协同转向的转角分配策略目标函数，选择合适的强化学习策略，在迭代过程中生成满足期望标准的智能体对驾驶员和控制器输出转角进行协调分配，从而避免根据经验确定分配策略。

人车协同转角分配策略中，主要包括三方面：驾驶员、轨迹跟踪转角控制器、权重分配策略。其中驾驶员模型采用BP神经网络训练，轨迹跟踪控制器采用模型预测控制(MPC)。在此基于强化学习设计权重分配方案，强化学习需要自我迭代过程，如果保持真人实时在环，耗时耗力，且效率低下，因此在智能体自我迭代训练过程中需要通过驾驶员模型代替驾驶员进行操作。在智能体自我迭代训练后可以通过实际驾驶员替换驾驶员模型来验证权重分配策略是否合理。

一、基于BP神经网络的驾驶员模型：

e_dis——横向误差

e_yaw——航向角误差

——横向误差变化率

——航向角误差变化率

k——路径曲率

δ_f——前轮转角

δ_net——前轮预测转角

δ_ref——前轮实际转角

net——驾驶员转角预测网络

s——预测网络输入特征量

w——预测网络权重

b——预测网络偏差

σ——激活函数

h——单层网络

m1——选取样本数目

通过驾驶模拟器采集驾驶员特征数据，选取合适的特征量s作为神经网络net的输入，其中：

为所述无人驾驶汽车的横向误差变化率；

为所述无人驾驶汽车的航向角误差变化率；k为路径曲率。

定义所述BP神经网络的第i层输出h_i为：

h_i＝σ_i(w_ih_i-1+b_i) (2)

其中，w_i表示第i层的网络权重；b_i表示第i层的网络偏差；σ_i为第i层的激活函数；h_i-1为第i-1层的神经元值。

定义所述BP神经网络的第一层输出h₁为：

h₁＝s (3)

定义驾驶员通过所述BP神经网络最终输出转角δ_f为：

δ_f＝net(s) (4)

其中，net(s)为所述BP神经网络的网络函数。

该BP神经网络具体结构如表1：

	神经元数目	激活函数
			输入层	5	tanh
隐含层1	10	relu
			隐含层2	3	relu
输出层	1	none

表1神经网络结构

其中，第一层的激活函数σ₁为：

第二、三层的激活函数σ₂、σ₃均为：

其中，m1为选取样本数目，

为第i1个无人驾驶汽车样本的前轮的实际转角。

根据所述损失函数对所述BP神经网络计算相应梯度，进行所述网络权重、所述网络偏差更新，经过一定训练周期后，生成符合期望的驾驶员模型网络。

网络训练过程如图1所示，驾驶员实际输出和网络预测输出对比如图2所示。驾驶员实际输出和网络预测输出趋势基本相同，因此证实所设计的网络可以代替真实驾驶员参与迭代训练过程。

二、模型预测控制器的控制原理如下所示：

L——车辆轴距

m——车辆质量

I_z——车辆绕z轴转动惯量

——车辆前轮侧向力

——车辆后轮侧向力

——车辆前轮纵向力

——车辆后轮纵向力

a——车辆质心距离前轴中心距离

b——车辆质心距离后轴中心距离

C_cf——车辆前轮侧向刚度

C_cr——车辆后轮侧向刚度

C_lf——车辆前轮纵向刚度

C_lr——车辆后轮纵向刚度

δ_f——车辆前轮转角

s_f——车辆前轮滑移率

s_r——车辆后轮滑移率

X——车辆全局坐标系下横坐标

Y——车辆全局坐标系下纵坐标

——车辆纵向速度

——车辆纵向加速度

——车辆侧向速度

——车辆侧向加速度

——车辆航向角

——车辆横摆角速度

——车辆横摆角加速度

N_p——预测域

N_c——控制域

Δu——控制量增量

u——控制量

α——车辆侧偏角

I——单位矩阵

ΔT——采样时间

其中，m为所述无人驾驶汽车的车辆质量，

为车辆侧向加速度，

为车辆纵向速度，

为车辆横摆角速度，

为车辆前轮侧向力，

为车辆后轮侧向力，

为车辆纵向加速度，

为车辆侧向速度，

为车辆前轮纵向力，

为车辆后轮纵向力，

为车辆横摆角加速度，I_z为车辆绕z轴转动惯量；a为车辆质心距离前轴中心距离，b为车辆质心距离后轴中心距离。

为车辆全局坐标系下横坐标方向速度，

为车辆全局坐标系下纵坐标方向速度；

为车辆航向角。

设置车辆状态量ξ为：

其中，T为转置符号；

车辆实际控制量u为：

u＝δ_f (17)

则式(11)-(15)表达的非线性模型可以写为：

对该非线性模型进行线性化处理，得到：

其中：

其中，

为当前时刻t的纵向速度，

为状态方程关于车辆侧向速度

的偏导，

为车辆纵向速度

的偏导，δ_f,t-1为上一时刻t-1的车辆前轮转角，

为状态方程关于车辆纵向速度

的偏导，

为当前时刻t的横向速度，

为状态方程关于横摆角速度

的偏导，

为当前时刻t的车辆横摆角速度。

在实际控制算法部署中，需要把式(19)转为离散状态：

其中，

为采样点k+1的离散状态函数，

为采样点k的离散状态函数；

A_(k)＝I+ΔT.A (23)

B_(k)＝ΔT.B (24)

I为单位矩阵，ΔT为采样时间间隔。

将式(22)进一步处理，将控制实际量转化为增量形式：

其中，ε_(k+1)为采样点k+1的增量函数，ε_(k)为采样点k的增量函数，Δu_(k)为采样点k相对上一时刻的车辆控制量增量，η_(k)采样点k的车辆状态量提取函数。

为采样点k-1的车辆实际控制量u_(k-1)与车辆目标控制量u_(k-1,)之间的车辆控制量偏差。

根据式(25)进行迭代可以得到：

Y(k)＝Ψ_sε_(k)+Θ_sΔU(k) (30)

其中：

采样点k+N_p的车辆状态量提取函数，N_p为所述目标函数的预测域。

Δu_(k+1)为采样点k+1相对上一时刻的车辆控制量增量，

为采样点k+Nc相对上一时刻的车辆控制量增量。

设定求解目标函数：

i2表示预测域N_p的序号，i3表示控制域N_c的序号，η_(k1+i2)为采样点k+i2的车辆状态量提取函数，η_ref(k+i2)为采样点k+i2的车辆参考状态量提取函数；Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量；Q为状态量权重矩阵，R为控制量权重矩阵。

对控制量设定约束方程：

Δu_min≤Δu≤Δu_max (36)

u_min≤u≤u_max (37)

α_min≤α≤α_max (38)

三、合作模式强化学习人车权重分配策略：

D——经验储存池

N——经验储存池经验数目

M——迭代回合次数

∈——当下迭代回合

T——单次回合总步数

t——当下回合步数

σ_random——随机数

σ——贪婪策略阈值

m——挑选训练经验数目

C——评估网络权重赋值间隔

actorNet——策略网络

targeNet——评估网络

θ——策略网络权重

θ^-——评估网络权重

Q——策略网络输出值

Q^-——评估网络输出值

s——输入状态量

a——执行动作

r——获得单步奖励

e_dis——横向误差

e_yaw——航向角误差

——横向误差变化率

——航向角误差变化率

k——路径曲率

τ_dis——横向误差权重系数

τ_yaw——航向误差权重系数

τ_disr——横向误差变化率权重系数

τ_yawr——航向误差变化率权重系数

——航向误差变化率权重系数

w_driver——纯跟踪输出转角权重系数

w_mpc——MPC输出转角权重系数

δ_driver——纯跟踪控制器输出转角

δ_mpc——MPC控制器输出转角

δ_deal——协调后目标转角

由于智能汽车的状态量较为复杂，需要根据实际情况选择可以适应复杂工况的强化学习策略。在此选择Deep-Q-learning(以下简称DQN)算法为强化学习策略。

DQN算法伪代码：

选择状态量：

此处考虑合作模式下的人车协同权重分配问题，主要以智能汽车的轨迹跟踪精度和乘坐舒适性作为评价指标，因此设计奖励函数为：

代表轨迹跟踪精度，后三项

代表乘坐舒适性。

状态量数目对应策略网络actorNet的输入层神经元数目，输出层神经元数目代表控制权重区间数目。假设输出层神经元数目为100，选择神经元1执行动作，那么对应的权重0.01，另一方对应权重0.99。在此直接驾驶员控制的权重w_driver，MPC的权重w_mpc可以通过式(41)间接获得:

w_driver+w_mpc＝1 (41)

强化学习是一个不断自我迭代更新参数的过程，因此在迭代训练中，需要利用BP神经网络建立的驾驶员模型参与训练过程。根据设计的目标函数，actorNet在迭代训练过程中逐渐符合设计目标。在训练结束后，通过实际驾驶员对该训练好的权重分配策略做出评价。具体流程如图4所示。

环境传感器在接收道路信息后，分别发送给控制器和驾驶员(驾驶员模型)。其中控制器为橙色部分，驾驶员(驾驶员模型)为蓝色部分。该权重分配策略分为两个部分，训练进行和训练结束。训练进行时，驾驶员模型参与迭代训练过程，DQN智能体实时分配控制器和驾驶员模型权重，并且通过车辆状态和评估网络实时对策略网络进行更新；经过一定迭代次数以后，策略网络迭代完成，保持网络参数不变，此时评估网络不参与权重分配过程，DQN 智能体通过固定的策略网络实时分配控制器和驾驶员权重。

最终输出转角为：

δ_deal＝w_driverδ_driver+w_mpcδ_mpc (41)

DQN超参数设置如表2:

参数	值
		采样时间(s)	0.1
单次回合时间(s)	30
		网络学习率	0.001
更新参数间隔	1000
		经验池数目	2000
采样数目	64

表二DQN超参数

训练过程累计回合奖励如图5所示。随着训练的进行，actorNet逐渐符合期望，将训练好的actorNet作为合作模式权重分配策略，并和未训练之前的初始策略进行对比，如图6、图7所示：智能体自我迭代完成后，可以得到满足设计目标的权重分配方案，从而避免手动指定分配规则。

本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法设计成程序进行实现功能时，可以采用一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序。该计算机终端可包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机程序。该计算机程序被处理器执行时，实现本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。计算机终端可以是电脑、智能手机等。也可以设计成嵌入式运行的程序，安装在计算机终端上，如安装在单片机上。

本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法设计成程序进行实现功能时，也可以设计成计算机可读存储介质可独立运行的程序，计算机可读存储介质可以是U盘，设计成U盾，通过U盘设计成通过外在触发启动整个方法的程序。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，其包括训练进行和训练结束两个部分；

2.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，针对所述无人驾驶汽车，设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程，所述自我迭代过程为：

定义所述BP神经网络的输入特征量s为：

为所述无人驾驶汽车的横向误差变化率；

为所述无人驾驶汽车的航向角误差变化率；k为路径曲率；

定义所述BP神经网络的第i层输出h_i为：

h_i＝σ_i(w_ih_i-1+b_i) (2)

定义所述BP神经网络的第一层输出h₁为：

h₁＝s (3)

定义驾驶员通过所述BP神经网络最终输出转角δ_f为：

δ_f＝net(s) (4)

其中，net(s)为所述BP神经网络的网络函数；

定义第一层的激活函数σ₁为：

定义第二、三层的激活函数σ₂、σ₃均为：

其中，m1为选取样本数目，

为第i1个无人驾驶汽车样本经过所述BP神经网络net输出的前轮目标转角，

为第i1个无人驾驶汽车样本的前轮的实际转角；

迭代训练所述前轮目标转角

3.如权利要求2所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，所述BP神经网络具体结构为下表所示：

神经元数目激活函数输入层 5 tanh 隐含层1 10-20 relu 隐含层2 3-10 relu 输出层 1 none

。

4.如权利要求2所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，根据车辆二自由度动力学模型和牛顿第二定律可得：

其中，m为所述无人驾驶汽车的车辆质量，

为车辆侧向加速度，

为车辆纵向速度，

为车辆横摆角速度，

为车辆前轮侧向力，

为车辆后轮侧向力，

为车辆纵向加速度，

为车辆侧向速度，

为车辆前轮纵向力，

为车辆后轮纵向力，

其中，C_cf为车辆前轮侧向刚度，δ_f为车辆前轮转角，C_cr为车辆后轮侧向刚度，

为车辆前轮纵向刚度，s_f为车辆前轮滑移率，C_lr为车辆后轮纵向刚度，s_r为车辆后轮滑移率，X为车辆全局坐标系下横坐标，Y为车辆全局坐标系下纵坐标，

为车辆全局坐标系下横坐标方向速度，

为车辆全局坐标系下纵坐标方向速度；

为车辆航向角；

设置车辆状态量ξ为：

其中，T为转置符号；

车辆实际控制量u为：

u＝δ_f (17)

则式(11)-(15)表达的非线性模型可以写为：

对该非线性模型进行线性化处理，得到：

其中：

其中，

为当前时刻t的纵向速度，

为状态方程关于车辆侧向速度

的偏导，

为车辆纵向速度

的偏导，δ_f，t-1为上一时刻t-1的车辆前轮转角，

为状态方程关于车辆纵向速度

的偏导，

为当前时刻t的横向速度，

为状态方程关于横摆角速度

的偏导，

为当前时刻t的车辆横摆角速度。

5.如权利要求4所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，在实际控制算法部署中，需要把式(19)转为离散状态函数：

其中，

为采样点k+1的离散状态函数，

为采样点k的离散状态函数；

为采样点k的车辆实际控制量u_(k)与车辆目标控制量u_(k，ref)之间的车辆控制量偏差；

A_(k)＝I+ΔT.A (23)

B_(k)＝ΔT.B (24)

I为单位矩阵，ΔT为采样时间间隔；

将式(22)进一步处理，将控制实际量转化为增量形式：

为采样点k-1的车辆实际控制量u_(k-1)与车辆目标控制量u_(k-1，ref)之间的车辆控制量偏差；

根据式(25)进行迭代可以得到：

Y(k)＝Ψ_sε_(k)+Θ_sΔU(k) (30)

其中：

Δu_(k+1)为采样点k+1相对上一时刻的车辆控制量增量，Δu_(k+Nc)为采样点k+Nc相对上一时刻的车辆控制量增量。

6.如权利要求5所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，设定求解所述目标函数J：

对所述前轮目标转角的控制量设定约束方程：

Δu_min≤Δu≤Δu_max (36)

u_min≤u≤u_max (37)

α_min≤α≤α_max (38)

Δu为控制量增量序列，Δu_min、Δu_max分别为控制量增量序列Δu的最小值和最大值；u_min、u_max分别为车辆实际控制量u的最小值和最大值；α为车辆侧偏角，α_min、α_max分别为车辆侧偏角α的最小值和最大值。

7.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，权重分配方法为：

选择输入特征量s作为强化学习算法的状态量：

设计奖励函数为：

代表轨迹跟踪精度，后三项

代表乘坐舒适性；

状态量数目对应策略网络actorNet的输入层神经元数目，输出层神经元数目代表控制权重区间数目，在此所述驾驶员模型的权重w_driver，所述控制器的权重w_mpc通过式(41)间接获得：

w_driver+w_mpc＝1 (41)。

8.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，所述无人驾驶汽车的最终输出转角为：

δ_deal＝w_driverδ_driver+w_mpcδ_mpc

9.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法，其特征在于，所述DQN智能体的DQN超参数设置如下表所示：

参数值采样时间(s) 0.1～0.25 单次回合时间(s) 25～35 网络学习率 0.001～0.005 更新参数间隔 1000～2000 经验池数目 2000～5000 采样数目 32～64

。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现如权利要求1至9中任意一项所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。