CN113246958B

CN113246958B - 基于td3多目标hev能量管理方法及***

Info

Publication number: CN113246958B
Application number: CN202110654498.3A
Authority: CN
Inventors: 颜伏伍; 王金海; 杜常清; 彭可挥
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-06-14
Anticipated expiration: 2041-06-11
Also published as: CN113246958A

Abstract

公开了一种基于双延迟深度确定性策略梯度多目标HEV能量管理方法及***。本发明创新地使用双延迟深度确定性策略梯度策略，解决基于离散动作空间深度强化学习能量管理策略维度灾难问题和深度确定性策略梯度过估计问题。而且将燃油消耗、电池温度和电池寿命(SOH)作为优化目标，提高能量管理策略的实用价值。

Description

基于TD3多目标HEV能量管理方法及***

技术领域

本发明涉及深度强化学习算法提高新能源汽车燃油经济性和电池使用寿命，尤其涉及一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient,TD3)的并联混合动力车辆(HEV)多目标能量管理方法。

背景技术

能源危机和气候变化已经引起了世界各国的广泛关注，车辆的燃油消耗和尾气排放是不可忽视的关键因素。为了缓解严峻的能源危机和气候变化，车辆电动化是未来汽车工业发展的必由之路。在新能源汽车中，混合动力汽车由于相比于传统燃油汽车需要更少的燃料，相比于纯电动汽车具有更远的行驶里程，成为目前最行之有效的解决方案。但是混合动力车辆能量管理***非常复杂，既要恰当地分配发动机功率和电机功率，又要全面保障车辆的驾驶性能和经济性，其能量管理方法涵盖了传统汽车、纯电动汽车和油电混合汽车能量管理多方面的内容，成为国内外汽车领域广泛研究的焦点。

能量管理策略主要可以分为三类。a)基于规则的能量管理策略，其依赖于通过专业经验制定的规则集合而且不需要预知驾驶工况，虽然实用性强，但是基于规则的能量管理往往不能达到车辆的最优控制，且针对的驾驶工况单一。二进制控制策略是一种典型的基于规则的控制策略，该策略首先用电池的能量驱动车辆行驶，当电池SOC值达到设定的最低值，转换到发动机驱动车辆。b)基于优化的能量管理策略，例如动态规划策略(DP),凸优化，遗传算法，其根据已知的或预测的车辆行驶工况对车辆进行最优控制，能够获得车辆在特定工况循环下的最优或者接近最优结果，但是需要预知车辆的全部行驶工况，耗用的计算资源很大，无法用于实时控制。为了提高能量管理策略的实用性，实时在线优化策略得到广泛的研究,例如，模型预测控制(MPC)，庞特里亚金最小值原理(PMP)和等效燃油消耗策略(ECMS)。但是由于采用部分历史信息计算***的等效燃油消耗，历史信息不一定能代表未来的行驶状态，导致这种算法的鲁棒性不好。需要采用性能更好的策略弥补上述算法的缺陷。c)基于学习的能量管理策略。机器学习(数据驱动优化)，特别是近年来发展起来的深度强化学习(Deep Reinforcement Learning)算法，为***模型及控制参数优化、道路工况特征以及驾驶行为特征提取提供了有力的研究工具。在强化学习算法中，Q Learning和DeepQ Network(DQN)等离散动作空间强化学习算法使用最为广泛，但是上述算法只适用于离散的和低维的动作空间，HEV能量管理控制任务具有高维和连续的动作空间。上述算法需要将动作空间离散化，这样做不可避免地丢失动作空间的重要的信息而且还会构成维度灾难(curse of dimensionality)问题。深度确定性策略梯度(DDPG)等连续动作空间的强化学习算法可以很好地处理连续的动作空间而不需要进行离散化，但是深度确定性策略梯度存在过估计问题，估计的值函数往往大于真实的值函数，影响该能量管理策略的稳定性,算法的鲁棒性差。

此外，目前的能量管理策略仅片面地改善了车辆的燃油经济性，忽略了控制策略对电池的寿命影响。众所周知，电池***的使用寿命与操作工况和电池温度息息相关，电池内部温度过高会导致热击穿。能量管理策略必须考虑这些重要的因素，否则没有实际应用价值。

发明内容

本发明提供一种基于双延迟深度确定性策略梯度多目标HEV能量管理方法及***。该方法及***使用两套网络表示值函数和延迟更新技术可以很好地解决过估计问题。将车辆燃油消耗、电池SOC、电池温度和电池寿命(State of Health,SOH)作为优化目标，构建多目标优化能量管理策略，使车辆工作在真实最优状态，提高能量管理策略的实用价值。

本发明的至少一个实施例提供一种HEV能量管理方法，包括：

建立并联式混合动力汽车的动力学模型、电池热模型和电池寿命模型，将三个模型的发动机燃油消耗率m_f、发动机输出转矩T_eng、电池温度T_emp、电池SOC、SOH作为控制目标；

构建双延迟深度确定性策略梯度策略梯度TD3网络；

将所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC作为TD3状态空间信号S，将发动机输出转矩作为TD3动作空间信号A，并制定TD3的回报函数r；

获取车辆标准工况行驶中影响能量管理的参数和观测值，其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC，利用所述标准工况行驶中影响能量管理的参数和观测值以及所述回报函数r，对TD3网络进行训练，使其根据接收到的状态信号S做出能够最大化回报函数r的动作A，进而得到训练好的深度强化学习智能体；

获取车辆实际行驶中影响能量管理的参数和观测值，其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC，将所述实际行驶中影响能量管理的参数和观测值输入所述训练好的深度强化学习智能体进行能量管理。

本发明的至少一个实施例提供一种HEV能量管理方法***，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述方法的全部或部分步骤。

本发明的至少一个实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现项所述方法的全部或部分步骤。

本发明采用双延迟深度确定性策略梯度能量管理策略，优化发动机和电机功率分配和电池的使用工况，不仅能够弥补离散动作空间深度强化学习能量管理策略维度灾难的问题，而且能够解决深度确定性策略梯度过估计，训练不稳定的问题。

本发明不仅优化车辆运行过程中的燃油消耗和保持电池SOC在合理的范围内，而且考虑控制策略对电池温度和电池寿命的影响。创新地设计回报函数，构建燃油经济性，电池SOC，电池温度和电池寿命多目标能量管理策略，能够使得车辆多目标综合最优。

本发明采集实际道路工况数据，验证本发明所述深度强化学习TD3能量管理策略的最优性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明一实施例提供的一种基于TD3多目标HEV能量管理方法流程图。

图2为本发明一实施例提供的并联混合动力汽车结构图。

图3为本发明一实施例提供的深度强化学习TD3智能体基本架构图。

图4为本发明一实施例提供的一种车辆在标准工况下形势的速度曲线。

图5为本发明一实施例提供的一种车辆在某地实际行驶的速度曲线。

具体实施方式

针对HEV能量管理，本发明创新地使用双延迟深度确定性策略梯度TD3策略，解决基于离散动作空间深度强化学习能量管理策略维度灾难问题和深度确定性策略梯度过估计问题。而且将燃油消耗、电池温度和电池寿命(SOH)作为优化目标，提高能量管理策略的实用价值。下文将结合图1—图5对基于TD3多目标HEV能量管理方法进行详细介绍。

步骤1：建立并联式混合动力汽车模型，包括根据汽车动力方程建立汽车动力模型，根据电池生热散热原理建立电池热模型，根据电池容量衰减原理建立电池寿命模型。通过电池热模型结合电池寿命模型能够预测电池***的动态特性。将上述三个模型的发动机燃油消耗率m_f、发动机输出转矩T_eng、电池温度T_emp、电池SOH和电池SOC作为控制目标；

步骤2：利用深度神经网络分别搭建Critic网络和Actor网络，共同构建双延迟深度确定性策略梯度策略TD3的基本网络框架即Actor-Critic网络，以构建多目标HEV能量管理策略学习网络，并对所述Actor-Critic网络参数进行初始化和状态数据归一化处理，网络参数如表格2所示。将所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC作为TD3状态空间信号S，将发动机输出转矩作为TD3动作空间信号A，并制定TD3合理的回报函数r。

步骤3：获取汽车标准工况行驶中影响能量管理的参数和观测值，其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC，利用所述标准工况行驶中影响能量管理的参数和观测值以及所述回报函数r，对TD3的基本网络进行训练，使TD3能量管理策略会根据接收到的状态信号S做出能够最大化回报函数r的动作A，控制车辆节能高效行驶，进而获得训练后的深度强化学习智能体。

步骤4：获取汽车实际行驶中影响能量管理的参数和观测值，其包括作为所述控制目标的所述发动机燃油消耗率、所述发动机输出转矩、所述电池温度、所述电池SOH和所述电池SOC，将所述实际行驶中影响能量管理的参数和观测值输入到所述训练后的深度强化学习智能体，进行能量管理。

图2示出了并联混合动力汽车驱动***示意图。步骤1中，可以由汽车动力学方程计算得出所述汽车动力模型，汽车动力学方程如公式(1)所示：

其中，F_t是汽车行驶驱动力；F_f是汽车行驶滚动阻力；F_i是汽车行驶坡度阻力；F_ω是汽车行驶空气阻力；F_j是汽车行驶加速阻力；m是汽车质量；g是重力加速度；f为滚动阻力系数；α是汽车道路坡度；ρ是空气密度；A是汽车迎风面积；C_D空气阻力系数；v是汽车行驶速度；δ是旋转质量换算系数；a是汽车行驶加速度。

所述电池热模型如公式(2)所示：

其中，T_emp为电池温度；T_amb为环境温度；m为电池的质量；c为电池的比热容；I为电池工作电流；OCV为电池开路电压；V为电池工作电压；h为自然热对流常数。

所述电池寿命模型如公式(3)所示：

其中，N(c_r,T_emp)是电池寿命结束前等效循环次数，受电池放电倍率C-rate(c_r)和电池温度(T_emp)影响，由公式(4)所示；

电池容量损失百分比为C_n，B是指数因子，其值由表1给出，R＝8.314是通用气体常数，z＝0.55是幂律系数，Ah是电池吞吐量，E_a是活化能；当电池的容量下降到20％时，电池达到寿命终点。C_n，Ah和E_a由公式(5)定义：

表格1指数因子与放电倍率的关系

步骤2中，TD3状态空间信号为S＝(SOC,m_f,T_eng,T_emp,SOH)，其中SOC表示电池荷电状态(State of Charge,SOC)；m_f是发动机燃油消耗率；T_eng发动机输出转矩；T_emp是电池温度。动作空间信号为A＝(T_eng|T_eng∈[-250,841])；回报函数由公式(6)定义：

其中，b是一个偏置量，用来调节回报函数的范围；J_i是损失函数，i表示时间步长；s和a分别表示第i个时间步长的状态(所述控制目标的所述发动机燃油消耗率、所述发动机输出转矩、所述电池温度、所述电池SOH和所述电池SOC)和动作(所述发动机输出转矩)；C_f＝m_f表示发动机燃油消耗率；C_b表示电池衰减成本；P_s和P_t分别表示SOC相对于参考值SOC_ref的偏差和过高温的惩罚系数；ω₁和ω₂分别表示P_s和P_t影响因素的权重。C_b由公式(7)计算得到：

C_b,i＝λΔSOH (7)

其中，λ是电池置换成本与一千克燃油成本的比率(N.Kittner,F.Lill,andD.M.Kammen,“Energy storage deployment and innovation for the clean energytransition,”Nature Energy,vol.2,2017,Art.no.17125.)。

SOC相对于参考值SOC_ref的偏差和过高温的惩罚系数由公式(8)和公式(9)确定：

其中，SOC_ref＝0.6是电池SOC参考值，T_ref是惩罚触发阈值，可以设定为40℃。τ₁和τ₂调节系数，使得电池SOC偏差和过高温惩罚系数与发动机燃油消耗率在同一数量级。

步骤2中，双延迟深度确定性策略梯度算法的基本架构如图3所示。

其中，J表示损失函数，M批量梯度下降样本数，θ_Q和θ_μ分别是Critic网络和Actor网络的参数，r表示回报函数，ε表示噪声，τ表示软更新因子，y表示时序差分误差(TD error)，L_k表示累计误差。

深度强化学习TD3智能体详细参数如表格2所示：

表格2 TD3智能体具体参数

TD3能量管理策略具体实施细节如表格3所示：

表格3 TD3算法执行步骤

其中θ_Q和θ_μ分别是Critic网络和Actor网络的参数。深度强化学习智能体将观测信号(包括所述发动机燃油消耗率、所述发动机输出转矩、所述电池温度、所述电池SOH和所述电池SOC)传输给Actor网络，Actor网络通过确定性策略函数μ(s)和随机噪声N输出控制动作a＝μ(s|θ_μ)+N。被控对象通过执行动作a，得到新的状态s'以及回报r，将(s,a,r,s')存入经验回放区，然后从经验回放区随机采样M个样本，将s'输入到目标网络中的Actor网络，便可以得到a'，其中Critic网络通过状态s和Actor网络得到的动作a利用贝尔曼方程学习得到值函数Q(s,a)，目标Critic网络是通过下一时刻的状态值s'和回报r以及目标Actor网络得到的a'计算目标Q值Q'(s,a)＝E[r(s,a)+γQ'(s',a')]，其中Q'(s,a)代表目标Q值，s表示这一时刻的观测量，a表示智能体中Actor网络选择的动作，E表示求期望运算，r(s,a)表示在这种状态值和动作值下得到的回报，γ表示折扣银子，Q'(s',a')表示下一个状态的目标Q值，被控对象通过执行动作a得到新的状态值s'以及在智能体中选择的下一时刻的动作a'，那么TD误差计算如下

其中y表示目标Q值的近似等效，L_k是累计误差，Q(s_j,a_j)是当前网络中的估计Q值。当前网络中的Actor网络参数通过动作值函数将状态映射到指定动作来更新，通过神经网络的梯度反向传播和软更新策略进行更新。

步骤3中，深度强化学习智能体在与环境(车辆和道路工况)进行交互的过程中进行学习，选择能够最大化回报的动作，但是在初期智能体所选择的动作远远达不到最优值，会产生意想不到的后果，所以在标准工况中对深度强化学习智能体进行训练，得到比较稳定的智能体超参数(学习率，神经元数量，网络层数，经验回放区大小，批量梯度采样大小等)，然后应用到实际道路工况中。选择合适的标准工况，导入到驾驶员模型，驾驶员模型对道路工况信息进行预处理，输入工况的速度、加速度、坡度信息，输出车辆行驶所需速度、加速度以及总的转矩需求信息。在训练过程中根据车辆信息，工况信息调整TD3智能体的超参数，以达到TD3智能体能够快速准确选择最优控制动作的目的。可以使用三种典型的标准工况对深度强化学习TD3网络进行训练，但不限于此。三种工况的速度参数如图4所示，每个工况的特点如表4所示：

表格4标准工况特点

步骤4中，采集车辆的实际运行数据，制作实际道路工况数据，导入到驾驶员模型，利用训练好的深度强化学习智能体进行能量管理。同时还可对已经训练好的深度强化学习TD3能量管理策略进行验证，测试该能量管理策略的最优性。实际道路速度参数如图5所示。

综上，本发明方法不仅保证车辆行驶过程中燃油经济性最优，而且保证电池工作在合适的温度区间，延长电池使用寿命，保证了混合动力车辆多目标综合性能最优。

在示例性实施例中，还提供一种基于双延迟深度确定性策略梯度多目标HEV能量管理***，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述方法的全部或部分步骤。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的全部或部分步骤。例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

Claims

1.一种HEV能量管理方法，其特征在于，包括：

构建双延迟深度确定性策略梯度策略梯度TD3网络；

获取车辆标准工况行驶中影响能量管理的参数和观测值，其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC，利用所述标准工况行驶中影响能量管理的参数和观测值以及所述回报函数r，对TD3网络进行训练，使其根据接收到的状态信号S做出能够最大化回报函数r的动作，进而得到训练好的深度强化学习智能体；

2.根据权利要求1所述的HEV能量管理方法，其特征在于，TD3状态空间信号为S＝(SOC,m_f,T_eng,T_emp,SOH)，动作空间信号为A＝(T_eng|T_eng∈[-250_,841])，回报函数由公式(1)定义：

其中，b是一个偏置量，用来调节回报函数的范围；i表示时间步长；C_f＝m_f表示发动机燃油消耗率；C_b表示电池衰减成本；P_s和P_t分别表示SOC相对于参考值SOC_ref的偏差和过高温的惩罚系数；ω₁和ω₂分别表示P_s和P_t影响因素的权重；C_b由公式(2)计算得到：

C_b,i＝λΔSOH (2)

其中，λ是电池置换成本与一千克燃油成本的比率；

其中，SOC_ref＝0.6是电池SOC参考值，T_ref是惩罚触发阈值，可以设定为40°C,τ₁和τ₂调节系数，使得电池SOC偏差和过高温惩罚系数与发动机燃油消耗率在同一数量级。

3.一种HEV能量管理方法***，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-2任一项所述的方法的步骤。

4.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。