CN115062539A - 基于强化学习转角权重分配的人车协同转向控制方法 - Google Patents
基于强化学习转角权重分配的人车协同转向控制方法 Download PDFInfo
- Publication number
- CN115062539A CN115062539A CN202210642626.7A CN202210642626A CN115062539A CN 115062539 A CN115062539 A CN 115062539A CN 202210642626 A CN202210642626 A CN 202210642626A CN 115062539 A CN115062539 A CN 115062539A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- network
- function
- weight
- driver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Automation & Control Theory (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新。经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。本发明在迭代过程中生成满足期望标准的智能体对驾驶员和控制器输出转角进行协调分配。
Description
技术领域
本发明涉及无人驾驶领域中的一种人车协同转向控制方法,尤其涉及一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。
背景技术
随着科学技术的日益发展,无人驾驶已经成为未来交通运输中不可或缺的部分。虽然理论上无人驾驶技术可以解决由于驾驶员误操作导致的事故问题,但是无论从现有技术水平还是从人文伦理角度出发,完全的自动驾驶会导致很多的问题,综合考虑,保持驾驶员实时在环的人车协同技术是十分有必要的。其中人车协同转角控制策略是研究的热点,但是现有的人车协同技术,大多是根据经验、考虑规则获得的策略。
发明内容
为解决现有的经验设定的人车协同转向转角分配策略耗时耗力的技术问题,本发明提供一种基于合作模式强化学习转角权重分配的人车协同转向控制方法。
本发明采用以下技术方案实现:一种基于合作模式强化学习转角权重分配的人车协同转向控制方法,其包括训练进行和训练结束两个部分;
训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新;
经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。
作为上述方案的进一步改进,针对所述无人驾驶汽车,设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,所述自我迭代过程为:
定义所述BP神经网络的输入特征量s为:
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi-1+bi) (2)
其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi-1为第i-1层的神经元值;
定义所述BP神经网络的第一层输出h1为:
h1=s (3)
定义驾驶员通过所述BP神经网络最终输出转角δf为:
δf=net(s) (4)
其中,net(s)为所述BP神经网络的网络函数;
定义第一层的激活函数σ1为:
定义第二、三层的激活函数σ2、σ3均为:
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络;
作为上述方案的进一步改进,所述BP神经网络具体结构为下表所示:
神经元数目 | 激活函数 | |
输入层 | 5 | tanh |
隐含层1 | 10~20 | relu |
隐含层2 | 3~10 | relu |
输出层 | 1 | none |
作为上述方案的进一步改进,根据车辆二自由度动力学模型和牛顿第二定律可得:
其中,m为所述无人驾驶汽车的车辆质量,为车辆侧向加速度,为车辆纵向速度,为车辆横摆角速度,为车辆前轮侧向力,为车辆后轮侧向力,为车辆纵向加速度,为车辆侧向速度,为车辆前轮纵向力,为车辆后轮纵向力,为车辆横摆角加速度,Iz为车辆绕z轴转动惯量;a为车辆质心距离前轴中心距离,b为车辆质心距离后轴中心距离;
在前轮转角较小和线性轮胎模型假设的基础上,同时结合车辆坐标系和全局坐标系的二维平面转换关系,在基于(8)-(10)基础上可以得到:
其中,Ccf为车辆前轮侧向刚度,δf为车辆前轮转角,Ccr为车辆后轮侧向刚度,Clf为车辆前轮纵向刚度,sf为车辆前轮滑移率,Clr为车辆后轮纵向刚度,sr为车辆后轮滑移率,X为车辆全局坐标系下横坐标,Y为车辆全局坐标系下纵坐标,为车辆全局坐标系下横坐标方向速度,为车辆全局坐标系下纵坐标方向速度;为车辆航向角;
设置车辆状态量ξ为:
其中,T为转置符号;
车辆实际控制量u为:
u=δf (17)
则式(11)-(15)表达的非线性模型可以写为:
对该非线性模型进行线性化处理,得到:
其中:
其中,为当前时刻t的纵向速度,为状态方程关于车辆侧向速度的偏导,为车辆纵向速度的偏导,δf,t-1为上一时刻t-1的车辆前轮转角,为状态方程关于车辆纵向速度的偏导,为当前时刻t的横向速度,为状态方程关于横摆角速度的偏导,为当前时刻t的车辆横摆角速度。
作为上述方案的进一步改进,在实际控制算法部署中,需要把式(19)转为离散状态函数:
A(k)=I+ ΔT.A (23)
B(k)=ΔT.B (24)
I为单位矩阵,ΔT为采样时间间隔;
将式(22)进一步处理,将控制实际量转化为增量形式:
其中,ε(k+1)为采样点k+1的增量函数,ε(k)为采样点k的增量函数,Δu(k)为采样点k相对上一时刻的车辆控制量增量,η(k)采样点k的车辆状态量提取函数;
根据式(25)进行迭代可以得到:
Y(k)=Ψsε(k)+ΘsΔU(k) (30)
其中:
η(k+1)采样点k+1的车辆状态量提取函数,η(k+2)采样点k+2的车辆状态量提取函数,采样点k+Nc的车辆状态量提取函数,Nc为控制车辆跟踪的目标函数的控制域,采样点k+Np的车辆状态量提取函数,Np为所述目标函数的预测域;
Δu(k+1)为采样点k+1相对上一时刻的车辆控制量增量,Δu(k+Nc)为采样点k+Nc相对上一时刻的车辆控制量增量;
作为上述方案的进一步改进,设定求解所述目标函数J:
i2表示预测域Np的序号,i3表示控制域Nc的序号,η(k1+i2)为采样点k+i2的车辆状态量提取函数,ηref(k+i2)为采样点k+i2的车辆参考状态量提取函数;Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量;Q为状态量权重矩阵,R为控制量权重矩阵;
对所述前轮目标转角的控制量设定约束方程:
Δumin≤Δu≤Δumax (36)
umin≤u≤umax (37)
αmin≤α≤αmax (38)
对目标函数(35)在约束方程(36)-(38)下求解,得出所述前轮目标转角;
Δu为控制量增量序列,Δumin、Δumax分别为控制量增量序列Δu的最小值和最大值;umin、 umax分别为车辆实际控制量u的最小值和最大值;α为车辆侧偏角,αmin、αmax分别为车辆侧偏角α的最小值和最大值。
作为上述方案的进一步改进,权重分配方法为:
选择输入特征量s作为强化学习算法的状态量:
设计奖励函数为:
其中,τdis为横向误差权重系数,edis为横向误差,τyaw为航向误差权重系数,eyaw为航向角误差,τdisr为横向误差变化率权重系数,edisr为横向误差变化率,τyawr为航向误差变化率权重系数,为航向误差变化率权重系数,eyawr为航向角误差变化率;该奖励函数前两项代表轨迹跟踪精度,后三项代表乘坐舒适性;
状态量数目对应策略网络actorNet的输入层神经元数目,输出层神经元数目代表控制权重区间数目,在此所述驾驶员模型的权重wdriver,所述控制器的权重wmpc通过式(41)间接获得:
wdriver+wmpc=1 (41)
作为上述方案的进一步改进,所述无人驾驶汽车的最终输出转角为:
δdeal=wdriverδdriver+wmpcδmpc
wdriver为所述驾驶员模型的权重系数;wmpc为所述控制器的权重系数;δdriver为所述驾驶员模型的输出转角;δmpc为所述控制器的输出转角;δdeal为协调后目标转角。
作为上述方案的进一步改进,所述DQN智能体的DQN超参数设置如下表所示:
参数 | 值 |
采样时间(s) | 0.1~0.25 |
单次回合时间(s) | 25~35 |
网络学习率 | 0.001~0.005 |
更新参数间隔 | 1000~2000 |
经验池数目 | 2000~5000 |
采样数目 | 32~64 |
本发明还公开一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现上述任意基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。
本发明还公开一种计算机终端,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。
相比与传统技术,本发明具备如下有益效果:
1、通过强化学习来代替传统的基于经验设计的合作模式人车协同转角分配策略。
2、设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,避免了人力物力的浪费。
3、建立了Deep-Q-learning算法在智能汽车人车协同权重分配的应用,并不是直接对智能汽车进行控制。
附图说明
图1为本发明的人车协同转向控制方法在网络训练过程中的均方根误差变化图。
图2为本发明的驾驶员实际、网络预测输出之间的对比示意图。
图3为本发明的人车协同转向控制方法应用的二自由度动力学模型的示意图。
图4为本发明的人车协同转向控制方法的合作模式强化学习转角权重分配示意图。
图5为本发明的DQN迭代训练图。
图6为本发明的训练前后横向误差对比图。
图7为本发明的训练前后航向误差对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明根据经验设定的人车协同转向转角分配策略耗时耗力,且针对于不同工况需要区别考虑,因此提出利用强化学习可以自学习的特性,制定评判人车协同转向的转角分配策略目标函数,选择合适的强化学习策略,在迭代过程中生成满足期望标准的智能体对驾驶员和控制器输出转角进行协调分配,从而避免根据经验确定分配策略。
人车协同转角分配策略中,主要包括三方面:驾驶员、轨迹跟踪转角控制器、权重分配策略。其中驾驶员模型采用BP神经网络训练,轨迹跟踪控制器采用模型预测控制(MPC)。在此基于强化学习设计权重分配方案,强化学习需要自我迭代过程,如果保持真人实时在环,耗时耗力,且效率低下,因此在智能体自我迭代训练过程中需要通过驾驶员模型代替驾驶员进行操作。在智能体自我迭代训练后可以通过实际驾驶员替换驾驶员模型来验证权重分配策略是否合理。
一、基于BP神经网络的驾驶员模型:
edis——横向误差
eyaw——航向角误差
k——路径曲率
δf——前轮转角
δnet——前轮预测转角
δref——前轮实际转角
net——驾驶员转角预测网络
s——预测网络输入特征量
w——预测网络权重
b——预测网络偏差
σ——激活函数
h——单层网络
m1——选取样本数目
通过驾驶模拟器采集驾驶员特征数据,选取合适的特征量s作为神经网络net的输入,其中:
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi-1+bi) (2)
其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi-1为第i-1层的神经元值。
定义所述BP神经网络的第一层输出h1为:
h1=s (3)
定义驾驶员通过所述BP神经网络最终输出转角δf为:
δf=net(s) (4)
其中,net(s)为所述BP神经网络的网络函数。
该BP神经网络具体结构如表1:
神经元数目 | 激活函数 | |
输入层 | 5 | tanh |
隐含层1 | 10 | relu |
隐含层2 | 3 | relu |
输出层 | 1 | none |
表1神经网络结构
其中,第一层的激活函数σ1为:
第二、三层的激活函数σ2、σ3均为:
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络。
网络训练过程如图1所示,驾驶员实际输出和网络预测输出对比如图2所示。驾驶员实际输出和网络预测输出趋势基本相同,因此证实所设计的网络可以代替真实驾驶员参与迭代训练过程。
二、模型预测控制器的控制原理如下所示:
L——车辆轴距
m——车辆质量
Iz——车辆绕z轴转动惯量
a——车辆质心距离前轴中心距离
b——车辆质心距离后轴中心距离
Ccf——车辆前轮侧向刚度
Ccr——车辆后轮侧向刚度
Clf——车辆前轮纵向刚度
Clr——车辆后轮纵向刚度
δf——车辆前轮转角
sf——车辆前轮滑移率
sr——车辆后轮滑移率
X——车辆全局坐标系下横坐标
Y——车辆全局坐标系下纵坐标
Np——预测域
Nc——控制域
Δu——控制量增量
u——控制量
α——车辆侧偏角
I——单位矩阵
ΔT——采样时间
其中,m为所述无人驾驶汽车的车辆质量,为车辆侧向加速度,为车辆纵向速度,为车辆横摆角速度,为车辆前轮侧向力,为车辆后轮侧向力,为车辆纵向加速度,为车辆侧向速度,为车辆前轮纵向力,为车辆后轮纵向力,为车辆横摆角加速度,Iz为车辆绕z轴转动惯量;a为车辆质心距离前轴中心距离,b为车辆质心距离后轴中心距离。
在前轮转角较小和线性轮胎模型假设的基础上,同时结合车辆坐标系和全局坐标系的二维平面转换关系,在基于(8)-(10)基础上可以得到:
其中,Ccf为车辆前轮侧向刚度,δf为车辆前轮转角,Ccr为车辆后轮侧向刚度,Clf为车辆前轮纵向刚度,sf为车辆前轮滑移率,Clr为车辆后轮纵向刚度,sr为车辆后轮滑移率,X为车辆全局坐标系下横坐标,Y为车辆全局坐标系下纵坐标,为车辆全局坐标系下横坐标方向速度,为车辆全局坐标系下纵坐标方向速度;为车辆航向角。
设置车辆状态量ξ为:
其中,T为转置符号;
车辆实际控制量u为:
u=δf (17)
则式(11)-(15)表达的非线性模型可以写为:
对该非线性模型进行线性化处理,得到:
其中:
其中,为当前时刻t的纵向速度,为状态方程关于车辆侧向速度的偏导,为车辆纵向速度的偏导,δf,t-1为上一时刻t-1的车辆前轮转角,为状态方程关于车辆纵向速度的偏导,为当前时刻t的横向速度,为状态方程关于横摆角速度的偏导,为当前时刻t的车辆横摆角速度。
在实际控制算法部署中,需要把式(19)转为离散状态:
A(k)=I+ΔT.A (23)
B(k)=ΔT.B (24)
I为单位矩阵,ΔT为采样时间间隔。
将式(22)进一步处理,将控制实际量转化为增量形式:
其中,ε(k+1)为采样点k+1的增量函数,ε(k)为采样点k的增量函数,Δu(k)为采样点k相对上一时刻的车辆控制量增量,η(k)采样点k的车辆状态量提取函数。
根据式(25)进行迭代可以得到:
Y(k)=Ψsε(k)+ΘsΔU(k) (30)
其中:
η(k+1)采样点k+1的车辆状态量提取函数,η(k+2)采样点k+2的车辆状态量提取函数,采样点k+Nc的车辆状态量提取函数,Nc为控制车辆跟踪的目标函数的控制域,采样点k+Np的车辆状态量提取函数,Np为所述目标函数的预测域。
设定求解目标函数:
i2表示预测域Np的序号,i3表示控制域Nc的序号,η(k1+i2)为采样点k+i2的车辆状态量提取函数,ηref(k+i2)为采样点k+i2的车辆参考状态量提取函数;Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量;Q为状态量权重矩阵,R为控制量权重矩阵。
对控制量设定约束方程:
Δumin≤Δu≤Δumax (36)
umin≤u≤umax (37)
αmin≤α≤αmax (38)
对目标函数(35)在约束方程(36)-(38)下求解,得出所述前轮目标转角;
Δu为控制量增量序列,Δumin、Δumax分别为控制量增量序列Δu的最小值和最大值;umin、 umax分别为车辆实际控制量u的最小值和最大值;α为车辆侧偏角,αmin、αmax分别为车辆侧偏角α的最小值和最大值。
三、合作模式强化学习人车权重分配策略:
D——经验储存池
N——经验储存池经验数目
M——迭代回合次数
∈——当下迭代回合
T——单次回合总步数
t——当下回合步数
σrandom——随机数
σ——贪婪策略阈值
m——挑选训练经验数目
C——评估网络权重赋值间隔
actorNet——策略网络
targeNet——评估网络
θ——策略网络权重
θ-——评估网络权重
Q——策略网络输出值
Q-——评估网络输出值
s——输入状态量
a——执行动作
r——获得单步奖励
edis——横向误差
eyaw——航向角误差
k——路径曲率
τdis——横向误差权重系数
τyaw——航向误差权重系数
τdisr——横向误差变化率权重系数
τyawr——航向误差变化率权重系数
wdriver——纯跟踪输出转角权重系数
wmpc——MPC输出转角权重系数
δdriver——纯跟踪控制器输出转角
δmpc——MPC控制器输出转角
δdeal——协调后目标转角
由于智能汽车的状态量较为复杂,需要根据实际情况选择可以适应复杂工况的强化学习策略。在此选择Deep-Q-learning(以下简称DQN)算法为强化学习策略。
DQN算法伪代码:
选择状态量:
此处考虑合作模式下的人车协同权重分配问题,主要以智能汽车的轨迹跟踪精度和乘坐舒适性作为评价指标,因此设计奖励函数为:
其中,τdis为横向误差权重系数,edis为横向误差,τyaw为航向误差权重系数,eyaw为航向角误差,τdisr为横向误差变化率权重系数,edisr为横向误差变化率,τyawr为航向误差变化率权重系数,为航向误差变化率权重系数,eyawr为航向角误差变化率;该奖励函数前两项代表轨迹跟踪精度,后三项代表乘坐舒适性。
状态量数目对应策略网络actorNet的输入层神经元数目,输出层神经元数目代表控制权重区间数目。假设输出层神经元数目为100,选择神经元1执行动作,那么对应的权重0.01,另一方对应权重0.99。在此直接驾驶员控制的权重wdriver,MPC的权重wmpc可以通过式(41)间接获得:
wdriver+wmpc=1 (41)
强化学习是一个不断自我迭代更新参数的过程,因此在迭代训练中,需要利用BP神经网络建立的驾驶员模型参与训练过程。根据设计的目标函数,actorNet在迭代训练过程中逐渐符合设计目标。在训练结束后,通过实际驾驶员对该训练好的权重分配策略做出评价。具体流程如图4所示。
环境传感器在接收道路信息后,分别发送给控制器和驾驶员(驾驶员模型)。其中控制器为橙色部分,驾驶员(驾驶员模型)为蓝色部分。该权重分配策略分为两个部分,训练进行和训练结束。训练进行时,驾驶员模型参与迭代训练过程,DQN智能体实时分配控制器和驾驶员模型权重,并且通过车辆状态和评估网络实时对策略网络进行更新;经过一定迭代次数以后,策略网络迭代完成,保持网络参数不变,此时评估网络不参与权重分配过程,DQN 智能体通过固定的策略网络实时分配控制器和驾驶员权重。
最终输出转角为:
δdeal=wdriverδdriver+wmpcδmpc (41)
wdriver为所述驾驶员模型的权重系数;wmpc为所述控制器的权重系数;δdriver为所述驾驶员模型的输出转角;δmpc为所述控制器的输出转角;δdeal为协调后目标转角。
DQN超参数设置如表2:
参数 | 值 |
采样时间(s) | 0.1 |
单次回合时间(s) | 30 |
网络学习率 | 0.001 |
更新参数间隔 | 1000 |
经验池数目 | 2000 |
采样数目 | 64 |
表二DQN超参数
训练过程累计回合奖励如图5所示。随着训练的进行,actorNet逐渐符合期望,将训练好的actorNet作为合作模式权重分配策略,并和未训练之前的初始策略进行对比,如图6、图7所示:智能体自我迭代完成后,可以得到满足设计目标的权重分配方案,从而避免手动指定分配规则。
本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法设计成程序进行实现功能时,可以采用一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序。该计算机终端可包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机程序。该计算机程序被处理器执行时,实现本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。计算机终端可以是电脑、智能手机等。也可以设计成嵌入式运行的程序,安装在计算机终端上,如安装在单片机上。
本发明的基于合作模式强化学习转角权重分配的人车协同转向控制方法设计成程序进行实现功能时,也可以设计成计算机可读存储介质可独立运行的程序,计算机可读存储介质可以是U盘,设计成U盾,通过U盘设计成通过外在触发启动整个方法的程序。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,其包括训练进行和训练结束两个部分;
训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新;
经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。
2.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,针对所述无人驾驶汽车,设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,所述自我迭代过程为:
定义所述BP神经网络的输入特征量s为:
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi-1+bi) (2)
其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi-1为第i-1层的神经元值;
定义所述BP神经网络的第一层输出h1为:
h1=s (3)
定义驾驶员通过所述BP神经网络最终输出转角δf为:
δf=net(s) (4)
其中,net(s)为所述BP神经网络的网络函数;
定义第一层的激活函数σ1为:
定义第二、三层的激活函数σ2、σ3均为:
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络;
3.如权利要求2所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述BP神经网络具体结构为下表所示:
。
4.如权利要求2所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,根据车辆二自由度动力学模型和牛顿第二定律可得:
其中,m为所述无人驾驶汽车的车辆质量,为车辆侧向加速度,为车辆纵向速度,为车辆横摆角速度,为车辆前轮侧向力,为车辆后轮侧向力,为车辆纵向加速度,为车辆侧向速度,为车辆前轮纵向力,为车辆后轮纵向力,为车辆横摆角加速度,Iz为车辆绕z轴转动惯量;a为车辆质心距离前轴中心距离,b为车辆质心距离后轴中心距离;
在前轮转角较小和线性轮胎模型假设的基础上,同时结合车辆坐标系和全局坐标系的二维平面转换关系,在基于(8)-(10)基础上可以得到:
其中,Ccf为车辆前轮侧向刚度,δf为车辆前轮转角,Ccr为车辆后轮侧向刚度,为车辆前轮纵向刚度,sf为车辆前轮滑移率,Clr为车辆后轮纵向刚度,sr为车辆后轮滑移率,X为车辆全局坐标系下横坐标,Y为车辆全局坐标系下纵坐标,为车辆全局坐标系下横坐标方向速度,为车辆全局坐标系下纵坐标方向速度;为车辆航向角;
设置车辆状态量ξ为:
其中,T为转置符号;
车辆实际控制量u为:
u=δf (17)
则式(11)-(15)表达的非线性模型可以写为:
对该非线性模型进行线性化处理,得到:
其中:
5.如权利要求4所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,在实际控制算法部署中,需要把式(19)转为离散状态函数:
A(k)=I+ΔT.A (23)
B(k)=ΔT.B (24)
I为单位矩阵,ΔT为采样时间间隔;
将式(22)进一步处理,将控制实际量转化为增量形式:
其中,ε(k+1)为采样点k+1的增量函数,ε(k)为采样点k的增量函数,Δu(k)为采样点k相对上一时刻的车辆控制量增量,η(k)采样点k的车辆状态量提取函数;
根据式(25)进行迭代可以得到:
Y(k)=Ψsε(k)+ΘsΔU(k) (30)
其中:
η(k+1)采样点k+1的车辆状态量提取函数,η(k+2)采样点k+2的车辆状态量提取函数,采样点k+Nc的车辆状态量提取函数,Nc为控制车辆跟踪的目标函数的控制域,采样点k+Np的车辆状态量提取函数,Np为所述目标函数的预测域;
Δu(k+1)为采样点k+1相对上一时刻的车辆控制量增量,Δu(k+Nc)为采样点k+Nc相对上一时刻的车辆控制量增量。
6.如权利要求5所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,设定求解所述目标函数J:
i2表示预测域Np的序号,i3表示控制域Nc的序号,η(k1+i2)为采样点k+i2的车辆状态量提取函数,ηref(k+i2)为采样点k+i2的车辆参考状态量提取函数;Δu(k+i3)为采样点k+i3相对上一时刻的车辆控制量增量;Q为状态量权重矩阵,R为控制量权重矩阵;
对所述前轮目标转角的控制量设定约束方程:
Δumin≤Δu≤Δumax (36)
umin≤u≤umax (37)
αmin≤α≤αmax (38)
对目标函数(35)在约束方程(36)-(38)下求解,得出所述前轮目标转角;
Δu为控制量增量序列,Δumin、Δumax分别为控制量增量序列Δu的最小值和最大值;umin、umax分别为车辆实际控制量u的最小值和最大值;α为车辆侧偏角,αmin、αmax分别为车辆侧偏角α的最小值和最大值。
7.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,权重分配方法为:
选择输入特征量s作为强化学习算法的状态量:
设计奖励函数为:
其中,τdis为横向误差权重系数,edis为横向误差,τyaw为航向误差权重系数,eyaw为航向角误差,τdisr为横向误差变化率权重系数,edisr为横向误差变化率,τyawr为航向误差变化率权重系数,为航向误差变化率权重系数,eyawr为航向角误差变化率;该奖励函数前两项代表轨迹跟踪精度,后三项代表乘坐舒适性;
状态量数目对应策略网络actorNet的输入层神经元数目,输出层神经元数目代表控制权重区间数目,在此所述驾驶员模型的权重wdriver,所述控制器的权重wmpc通过式(41)间接获得:
wdriver+wmpc=1 (41)。
8.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述无人驾驶汽车的最终输出转角为:
δdeal=wdriverδdriver+wmpcδmpc
wdriver为所述驾驶员模型的权重系数;wmpc为所述控制器的权重系数;δdriver为所述驾驶员模型的输出转角;δmpc为所述控制器的输出转角;δdeal为协调后目标转角。
9.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,所述DQN智能体的DQN超参数设置如下表所示:
。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时,实现如权利要求1至9中任意一项所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210642626.7A CN115062539A (zh) | 2022-06-08 | 2022-06-08 | 基于强化学习转角权重分配的人车协同转向控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210642626.7A CN115062539A (zh) | 2022-06-08 | 2022-06-08 | 基于强化学习转角权重分配的人车协同转向控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062539A true CN115062539A (zh) | 2022-09-16 |
Family
ID=83200903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210642626.7A Pending CN115062539A (zh) | 2022-06-08 | 2022-06-08 | 基于强化学习转角权重分配的人车协同转向控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829256A (zh) * | 2024-01-08 | 2024-04-05 | 南京航空航天大学 | 基于深度强化学习人机共驾转向权重系数预测分配方法 |
-
2022
- 2022-06-08 CN CN202210642626.7A patent/CN115062539A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829256A (zh) * | 2024-01-08 | 2024-04-05 | 南京航空航天大学 | 基于深度强化学习人机共驾转向权重系数预测分配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111890951B (zh) | 智能电动汽车轨迹跟踪与运动控制方法 | |
CN110568760B (zh) | 适用于换道及车道保持的参数化学习决策控制***及方法 | |
CN111055921B (zh) | 一种基于数据驱动的四轮转向模型预测控制方法 | |
CN107561942A (zh) | 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法 | |
CN108791491A (zh) | 一种基于自评价学习的车辆侧向跟踪控制方法 | |
CN112666833B (zh) | 一种用于电动自动驾驶车辆的车速跟随自适应鲁棒控制方法 | |
CN103324085A (zh) | 基于监督式强化学习的最优控制方法 | |
CN113671962B (zh) | 一种无人驾驶铰接式清扫车的横向控制方法 | |
CN113650609B (zh) | 基于模糊规则的人机共驾控制权柔性转移方法及*** | |
CN109808707A (zh) | 一种基于随机模型预测的汽车转向控制方法及控制器 | |
CN114379583A (zh) | 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪***及方法 | |
CN107357168A (zh) | 一种基于机会约束模型预测控制的无人车避障方法 | |
CN115303289A (zh) | 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备 | |
CN113442906A (zh) | 一种分布式驱动电动汽车横向稳定性分层控制***及方法 | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制***及方法 | |
Chen et al. | Rhonn modelling-enabled nonlinear predictive control for lateral dynamics stabilization of an in-wheel motor driven vehicle | |
CN115062539A (zh) | 基于强化学习转角权重分配的人车协同转向控制方法 | |
Fu et al. | Nmpc-based path tracking control strategy for autonomous vehicles with stable limit handling | |
CN114987537A (zh) | 基于神经网络动力学的自动驾驶车辆道路自适应漂移控制***与方法 | |
CN116560223A (zh) | 一种基于物理信息神经网络的智能车辆动力学模型、ilqr控制算法及轨迹跟踪控制器 | |
Villagrá et al. | Model-free control techniques for Stop & Go systems | |
Zheng et al. | Extension coordinated control of distributed-driven electric vehicles based on evolutionary game theory | |
Sousa et al. | Nonlinear tire model approximation using machine learning for efficient model predictive control | |
CN113184040B (zh) | 一种基于驾驶人转向意图的无人车线控转向控制方法及*** | |
CN114906128A (zh) | 一种基于mcts算法的自动泊车运动规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |