CN112896161A

CN112896161A - 一种基于强化学习的电动汽车生态自适应巡航控制***

Info

Publication number: CN112896161A
Application number: CN202110171999.6A
Authority: CN
Inventors: 翟春杰; 杨建�; 杨祥宇; 颜成钢; 孙垚棋
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-06-04
Anticipated expiration: 2041-02-08
Also published as: CN112896161B

Abstract

本发明公开了一种基于强化学习的电动汽车生态自适应巡航控制***，包括信息获取模块、纵向动力学模块、电动汽车储能模块、控制目标模块、控制器设计模块；信息获取模块通过雷达和车载信息传感器获取前车的位置和速度信息；纵向动力学模块用于计算加速度、集总阻力、实际车距、车轮扭矩和期望功率；电动汽车储能模块用于电动汽车驱动和制动情况下的需求功率以及电阻的计算；控制目标模块通过对车辆间距进行约束，确保车辆安全；通过给定优化目标提高节能驾驶、延长电池寿命；控制器设计模块用于确定控制过程中的状态变量以及代价函数的具体涉及的内容。本发明***可保证电动汽车跟随性能、实现行驶安全、增强能源经济性和延长电池使用寿命。

Description

一种基于强化学习的电动汽车生态自适应巡航控制***

技术领域

本发明属于汽车辅助智能驾驶，尤其是涉及一种基于自适应动态规划的电动汽车生态自适应巡航控制***。

背景技术

当前，汽车工业作为耗能较大的产业大户，面临着较大的节能减排压力。电动汽车在行驶过程中污染物零排放，是汽车产业未来发展的重要方向。如何将智能驾驶技术应用在电动汽车上以进一步挖掘其节能潜力，是各大高校、车企重点研究方向。先进驾驶辅助***(Advanced Driver Assistant System,ADAS)是智能驾驶技术的初始发展阶段，能够利用各种车载传感器自动获取相关环境数据，实现对车辆的自动控制，提高驾驶舒适性和主动安全性。

作为一种先进的智能驾驶辅助***，自适应巡航控制(Adaptive CruiseControl,ACC)从早期的定速巡航发展而来，主要用来控制汽车的纵向运动。ACC***可以使用多种车载传感器检测前方车辆的相对位置和速度，根据控制策略自动调整自身车辆的速度，以保持期望的安全距离，有利于改善交通流量，减少交通事故，提供舒适的驾驶体验。

虽然ACC***可以维持一定的安全车距，并且通过降低空气阻力可以减小能耗，但是其节能效果并不显著，尤其对于车头面积小的乘用车。特别的，当采用基于恒定车距和恒定时距的ACC***控制电动汽车时，电动汽车往往以一定车距紧紧跟随前方车辆，若前方车辆速度波动较大，则电动汽车一直处于频繁的加减速状态，这会极大影响电动汽车中电池的使用寿命，也会造成能耗损失和驾乘不舒适。

执行依赖启发式动态规划(Action-Dependent Heuristic DynamicProgramming,ADHDP)框架，即ADHDP算法参考书本《基于自适应动态规划的智能优化控制》4.3基于BP网络的ADHDP算法及实现P118，作者：林小峰、宋绍剑、宋春宁。

发明内容

本发明的目的在于提供可保证电动汽车跟随性能、实现行驶安全、增强能源经济性和延长电池使用寿命的一种基于增强学习(Reinforcement Learning,RL)的电动汽车生态自适应巡航控制(Ecological Adaptive Cruise Control,Eco-ACC)***。

一种基于强化学习的电动汽车生态自适应巡航控制***包括信息获取模块、纵向动力学模块、电动汽车储能模块、控制目标模块、控制器设计模块。

信息获取模块通过雷达和车载信息传感器获取前车的位置和速度信息；

纵向动力学模块用于计算加速度、集总阻力、实际车距、车轮扭矩和期望功率；

电动汽车储能模块用于电动汽车驱动和制动情况下的需求功率以及电阻的计算；

控制目标模块通过对车辆间距进行约束，确保车辆安全；通过给定优化目标提高节能驾驶、延长电池寿命；

控制器设计模块用于确定控制过程中的状态变量以及代价函数的具体涉及的内容。

一种基于增强学习的电动汽车生态自适应巡航控制方法采用执行依赖启发式动态规划(Action-Dependent Heuristic Dynamic Programming,ADHDP)框架，包括以下步骤：

1)通过信息获取模块和控制器设计模块确定状态变量x(t)，通过控制目标模块来确定效用函数U(t)，初始化相关参数。；

2)将状态变量x(t)输入到执行网络获取控制变量u(t)；

3)将状态变量x(t)和控制变量u(t)输入到评价网络获取期望代价J(t)；

4)设定执行网络和评价网络的误差；

5)通过纵向动力学模块和电动汽车储能模块求解出下一时刻的状态变量x(t+1)。

6)更新执行网络的权值，将状态变量x(t+1)输入到执行网络获取控制变量u(t+1)；

7)更新评价网络的权值，通过评价网络，获取期望代价

值；

8)判断评价网络和执行网络的是否满足最大迭代次数或容差是否满足自适应迭代值。若满足，则求解出的控制变量u(t+1)作为最优或者次优的控制变量，否则回到第二步。

本发明有益效果如下：

发明的***所控制的车辆和前方车辆的速度基本一致，车辆的加速度也比传统ACC***控制的更加平滑，使乘客感到更加舒适；本发明***所控制的车辆与前方车辆的实际车距始终保持在安全范围内，保证了车辆在行驶过程中的安全性；本发明***所控制的车辆比传统ACC***控制的车辆更加节能。本发明***可保证电动汽车跟随性能、实现行驶安全、增强能源经济性和延长电池使用寿命。

附图说明

图1是车辆跟车场景；

图2是ADHDP结构框图；

图3是ADHDP评价网络结构；

图4是ADHDP执行网络结构；

图5基于ADHDP控制算法的流程图；

图6是UDDS驾驶循环仿真结果对比图；

图7是MANHATAN驾驶循环仿真结果对比图；

图8是WLTC2驾驶循环仿真结果对比图。

具体实施方式

以下结合附图与实施例对本发明***及方法进行进一步描述。

所要研究的车辆跟车场景如图1所示，其中被控电动汽车和其前方车辆分别记为主车和前车；主车和前车之间的实际车距用L表示；主车和前车的速度分别用V_h和V_p表示。各个模块的具体内容如下：

纵向动力学模块：

主车的纵向动力学模型表示如下：

式中：s_h(t)、v_h(t)和T_w(t)分别为主车的位置、速度和车轮扭矩；m、R、η_t和δ分别为主车质量、轮胎有效滚动半径、传动效率和转动惯性系数；F_b(t)和F_r(t)分别为制动力和集总阻力。

由气动阻力、滚动阻力和重力组成的集总阻力F_r(t)F_r(t)表示如下：

式中：Φ_h(L(t))、C_d、μ_h、A_v和θ(s_h(t))分别为车辆归一化阻力系数、空气阻力系数、滚动阻力系数、车头迎风面积和路面坡度；g和ρ分别为重力加速度和空气密度。此外，主车与前车的距离L(t)可表示为

L(t)＝s_p(t)-s_h(t)-d_car (3)

式中：d_car表示主车车身的长度，s_p(t)表示前车位置。

车轮的扭矩由齿轮通过电机输出或向电机输入，电机的转矩T_m和转速ω_m表示如下：

式中：G_r为主车的固定齿轮比。车轮转速ω_w(t)的计算公式如下：

然后，给出电机逆变器的输入功率如下：

式中：η_m(t)(0＜η_m(t)＜1)表示电机逆变器的效率。

电动汽车储能***模块：

变量符号定义如下：

·P_bat(t)：电池组在t时刻的输出功率；

·P_e(t)：电动汽车在t时刻的需求功率；

·V_bat(t)：电池组在t时刻的开路电压；

·I_bat(t)：电池组在t时刻的电流；

·SoC_bat(t)：电池组在t时刻的荷电状态(State of Charge,简称SOC)；

·R_bat，disch(SoC_bat(t))：电池组在t时刻的放电电阻；

·R_bat，ch(SoC_bat(t))：电池组在t时刻的充电电阻；

电池组的放电电阻R_bat，disch(SoC_bat(t))和充电电阻

R_bat，ch(SoC_bat(t))表示如下：

(1)驱动模式：

(2)再生制动模式：

电池的荷电状态SoC如下：

控制目标模块：

(1)车辆安全：

为了确保车辆安全，给出车辆间距的约束如下：

d_min(υ_h(t))≤L(t)≤d_max(υ_h(t)) (11)

其中，d_min(υ_h(t))和d_max(υ_h(t))分别为允许的最小和最大安全车距，并且它们的计算公式如下：

(2)节能驾驶：

为了确保车辆在行驶过程中的能耗经济性，给出如下优化目标：

(3)延长电池寿命：

为了减少车辆在行驶过程中的电池容量损失，给出如下优化目标：

控制器设计模块：

(1)带补偿因子的带阻函数：

为了得到车辆间的误差Δd(t)，先求出车辆在安全范围内的迭代δd(t)的误差，具体描述如下：

由式中，则可以得出Δd(t)车辆间的误差为：

其中α＞0，β≥1

d_min，d_max∈R⁺分别为带阻的下限和上限，c_f为补偿因子。

在以多目标代价函数最小化目标的优化问题中，当参数α，β，

和c_f设置正确后，如果带阻函数

作为代价函数的一部分，则实际车距L(t)被限制在[d_min，d_max]范围内。

(2)基于增强学习的需求功率优化问题：

首先定义基本变量：

·x(t)：电动汽车在t时刻的状态变量；

·F_b(t)：电动汽车在t时刻的制动力；

·ω_w(t)：电动汽车在t时刻的车轮转速；

·ω_m(t)：电动汽车在t时刻的电机转速；

·T_m(t)：电动汽车在t时刻的电机转矩；

·T_m，max(t)：电动汽车在t时刻允许的最大电机扭矩；

·u(t)：电动汽车在t时刻的控制输入；

·η_m(t)：电动汽车在t时刻的电机效率；

·P_e(t)：电动汽车在t时刻的需求功率；

主车在时间t的连续动力学状态方程如下：

式中：x(t)＝[Δv_h(t)，Δd(t)]^T表示主车动力学***的状态变量。定义两类变量后，优化问题中的目标代价函数J如下：

式中：U为效用函数，γ为折现系数，则0＜γ≤1，函数J为状态x(t)的代价函数，它取决于初始时间t和初始状态x(t)。增强学习的目的是选择一个控制序列u(t)，使得公式(18)定义的代价函数最小化。另外，目标代价函数的优化目标如下：

U(t)＝λ₁L₁+λ₂L₂+λ₃L₃. (20)

式中：考虑到车辆的行驶安全，L₁的目的是保持车辆之间的距离在最小车距d_min和最大车距d_max之间。另外，α，β，

和c_f是间距阻带函数的参数。L₂能够提升车辆在行驶的时候能耗经济性。L₃能够延长电动汽车的电池使用寿命。

设预期电机转矩为控制变量，则给出基于ADHDP算法优化的控制变量如下

u^*(·|t₀)＝argminJ(x(·|t₀)) (21)

总体控制算法流程图，如图5所示；

本发明的具体操作流程如图3所示，首先我们通过控制器模块确定的状态变量x(t)＝[Δv，BSF]。然后通过我们的ADHDP框架进行学习，获得控制最佳变量。其中ADHDP学习框架学习分为以下几个步骤：

一种基于增强学习的电动汽车生态自适应巡航控制方法采用执行依赖启发式动态规划(Action-Dependent Heuristic Dynamic Programming,ADHDP)框架，如图2所示，基于BP神经网络的评价网络和执行网络的结构如图3，4所示，包括以下步骤：

1)通过信息获取模块和控制器设计模块确定状态变量x(t)，通过控制目标模块来确定效用函数U(t)，初始化相关参数。

2)将状态变量x(t)输入到执行网络获取控制变量u(t)

3)将状态变量x(t)和控制变量u(t)输入到评价网络获取期望代价

4)设定执行网络和评价网络的误差

6)更新执行网络的权值，将状态变量输入x(t+1)到执行网络获取控制变量u(t+1)

7)更新评价网络的权值，通过评价网络，获取期望代价

值

在学习过程开始时，评价网络和执行网络的参数先随机初始化。仿真开始后的每一个时间步长中，对评价网络的权重进行迭代，直到达到最大迭代次数N_c或者E_c达到允许容差T_c，迭代终止后，从评价网络中获得近似值函数；对执行网络的权重进行迭代，直到达到最大迭代次数N_ah或者E_a达到允许容差T_c，迭代终止后，从执行网络中获得控制输入，经过计算获得最优需求功率P_e并应用于主车车辆上。仿真参数见表1。

表1在线学习参数

对所发明的Eco-ACC控制***进行了评估，并以城市、高速、城郊等驾驶循环为例进行测试。前车沿着驾驶循环的速度轨迹行驶，跟随车辆分别采用传统ACC***和发明的Eco-ACC***跟随前车。在典型UDDS、MANHATTAN和WLTC2驾驶循环的测试数据分别如图6、图7和图8所示，应当指出，为了便于观察仿真结果，仿真图中仅展示前400秒的仿真效果图；更多驾驶循环下的测试数据见表2和表3。

表2电池容量损失(％)

表3能耗损失(w·h)

仿真结果表明：发明的Eco-ACC***所控制的车辆和前方车辆的速度基本一致，车辆的加速度也比传统ACC***控制的更加平滑，使乘客感到更加舒适；Eco-ACC***所控制的车辆与前方车辆的实际车距始终保持在安全范围内，保证了车辆在行驶过程中的安全性；Eco-ACC***所控制的车辆比传统ACC***控制的车辆更加节能，见表3。

Claims

1.一种基于强化学习的电动汽车生态自适应巡航控制***，其特征在于，包括信息获取模块、纵向动力学模块、电动汽车储能模块、控制目标模块、控制器设计模块；

2.根据权利要求1所述的一种基于强化学习的电动汽车生态自适应巡航控制***，其特征在于，纵向动力学模块的具体内容如下：

被控电动汽车和其前方车辆分别记为主车和前车；主车和前车之间的实际车距用L表示；主车和前车的速度分别用V_h和V_p表示；

纵向动力学模块：

主车的纵向动力学模型表示如下：

式中：s_h(t)、v_h(t)和T_ω(t)分别为主车的位置、速度和车轮扭矩；m、R、η_t和δ分别为主车质量、轮胎有效滚动半径、传动效率和转动惯性系数；F_b(t)和F_r(t)分别为制动力和集总阻力；

式中：Φ_h(L(t))、C_d、μ_h、A_v和θ(s_h(t))分别为车辆归一化阻力系数、空气阻力系数、滚动阻力系数、车头迎风面积和路面坡度；g和ρ分别为重力加速度和空气密度；此外，主车与前车的距离L(t)可表示为

L(t)＝s_p(t)-s_h(t)-d_car (3)

式中：d_car表示主车车身的长度，s_p(t)表示前车位置；

式中：G_r为主车的固定齿轮比；车轮转速ω_w(t)的计算公式如下：

然后，给出电机逆变器的输入功率如下：

式中：η_m(t)(0＜η_m(t)＜1)表示电机逆变器的效率。

3.根据权利要求2所述的一种基于强化学习的电动汽车生态自适应巡航控制***，其特征在于，电动汽车储能***模块的具体内容如下：

电动汽车储能***模块：

变量符号定义如下：

·P_bat(t)：电池组在t时刻的输出功率；

·P_e(t)：电动汽车在t时刻的需求功率；

·V_bat(t)：电池组在t时刻的开路电压；

·I_bat(t)：电池组在t时刻的电流；

·SoC_bat(t)：电池组在t时刻的荷电状态(State of Charge，简称SOC)；

·R_batdisch(SoC_bat(t))：电池组在t时刻的放电电阻；

·R_batch(SoC_bat(t))：电池组在t时刻的充电电阻；

电池组的放电电阻R_bat，disch(SoC_bat(t))和充电电阻R_bat，ch(SoC_bat(t))表示如下：

(1)驱动模式：

(2)再生制动模式：

电池的荷电状态SoC如下：

4.根据权利要求3所述的一种基于强化学习的电动汽车生态自适应巡航控制***，其特征在于，控制目标模块的具体内容如下：

控制目标模块：

(1)车辆安全：

为了确保车辆安全，给出车辆间距的约束如下：

d_min(v_h(t))≤L(t)≤d_max(v_h(t)) (11)

其中，d_min(v_h(t))和d_max(v_h(t))分别为允许的最小和最大安全车距，并且它们的计算公式如下：

(2)节能驾驶：

(3)延长电池寿命：

5.根据权利要求4所述的一种基于强化学习的电动汽车生态自适应巡航控制***，其特征在于，控制器设计模块的具体内容如下：

控制器设计模块：

(1)带补偿因子的带阻函数：

由式中，则可以得出Δd(t)车辆间的误差为：

其中α＞0，β≥1，

d_min，d_max∈R⁺分别为带阻的下限和上限，c_f为补偿因子；

和c_f设置正确后，如果带阻函数

作为代价函数的一部分，则实际车距L(t)被限制在[d_min，d_max]范围内；

(2)基于增强学习的需求功率优化问题：

首先定义基本变量：

·x(t)：电动汽车在t时刻的状态变量；

·F_b(t)：电动汽车在t时刻的制动力；

·ω_w(t)：电动汽车在t时刻的车轮转速；

·ω_m(t)：电动汽车在t时刻的电机转速；

·T_m(t)：电动汽车在t时刻的电机转矩；

·T_m，max(t)：电动汽车在t时刻允许的最大电机扭矩；

·u(t)：电动汽车在t时刻的控制输入；

·η_m(t)：电动汽车在t时刻的电机效率；

·P_e(t)：电动汽车在t时刻的需求功率；

主车在时间t的连续动力学状态方程如下：

式中：x(t)＝[Δv_h(t)，Δd(t)]^T表示主车动力学***的状态变量；定义两类变量后，优化问题中的目标代价函数J如下：

式中：U为效用函数，γ为折现系数，则0＜γ≤1，函数J为状态x(t)的代价函数，它取决于初始时间t和初始状态x(t)；增强学习的目的是选择一个控制序列u(t)，使得公式(18)定义的代价函数最小化；另外，目标代价函数的优化目标如下：

U(t)＝λ_iL_i+λ₂L₂+λ_aL_a. (20)

式中：考虑到车辆的行驶安全，L₁的目的是保持车辆之间的距离在最小车距d_min和最大车距d_max之间；另外，α，β，

和c_f是间距阻带函数的参数；L₂能够提升车辆在行驶的时候能耗经济性；L₃能够延长电动汽车的电池使用寿命；

u^*(·|t₀)＝argminJ(x(·|t₀)) (21)。

6.根据权利要求5所述的一种基于强化学习的电动汽车生态自适应巡航控制***，其特征在于，一种基于增强学习的电动汽车生态自适应巡航控制方法采用执行依赖启发式动态规划框架，包括以下步骤：

1)通过信息获取模块和控制器设计模块确定状态变量x(t)，通过控制目标模块来确定效用函数U(t)，初始化相关参数；

2)将状态变量x(t)输入到执行网络获取控制变量u(t)

3)将状态变量x(t)和控制变量u(t)输入到评价网络获取期望代价

4)设定执行网络和评价网络的误差

5)通过纵向动力学模块和电动汽车储能模块求解出下一时刻的状态变量x(t+1)；

7)更新评价网络的权值，通过评价网络，获取期望代价

值

8)判断评价网络和执行网络的是否满足最大迭代次数或容差是否满足自适应迭代值；若满足，则求解出的控制变量u(t+1)作为最优或者次优的控制变量，否则回到第二步。