CN113246958B - 基于td3多目标hev能量管理方法及*** - Google Patents

基于td3多目标hev能量管理方法及*** Download PDF

Info

Publication number
CN113246958B
CN113246958B CN202110654498.3A CN202110654498A CN113246958B CN 113246958 B CN113246958 B CN 113246958B CN 202110654498 A CN202110654498 A CN 202110654498A CN 113246958 B CN113246958 B CN 113246958B
Authority
CN
China
Prior art keywords
battery
energy management
soc
engine
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110654498.3A
Other languages
English (en)
Other versions
CN113246958A (zh
Inventor
颜伏伍
王金海
杜常清
彭可挥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110654498.3A priority Critical patent/CN113246958B/zh
Publication of CN113246958A publication Critical patent/CN113246958A/zh
Application granted granted Critical
Publication of CN113246958B publication Critical patent/CN113246958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/13Controlling the power contribution of each of the prime movers to meet required power demand in order to stay within battery power input or output limits; in order to prevent overcharging or battery depletion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/04Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
    • B60W10/06Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of combustion engines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/24Conjoint control of vehicle sub-units of different type or different function including control of energy storage means
    • B60W10/26Conjoint control of vehicle sub-units of different type or different function including control of energy storage means for electrical energy, e.g. batteries or capacitors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/15Control strategies specially adapted for achieving a particular effect
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • B60W2710/0666Engine torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/24Energy storage means
    • B60W2710/242Energy storage means for electrical energy
    • B60W2710/244Charge state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/24Energy storage means
    • B60W2710/242Energy storage means for electrical energy
    • B60W2710/246Temperature

Landscapes

  • Engineering & Computer Science (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Hybrid Electric Vehicles (AREA)

Abstract

公开了一种基于双延迟深度确定性策略梯度多目标HEV能量管理方法及***。本发明创新地使用双延迟深度确定性策略梯度策略,解决基于离散动作空间深度强化学习能量管理策略维度灾难问题和深度确定性策略梯度过估计问题。而且将燃油消耗、电池温度和电池寿命(SOH)作为优化目标,提高能量管理策略的实用价值。

Description

基于TD3多目标HEV能量管理方法及***
技术领域
本发明涉及深度强化学习算法提高新能源汽车燃油经济性和电池使用寿命,尤其涉及一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient,TD3)的并联混合动力车辆(HEV)多目标能量管理方法。
背景技术
能源危机和气候变化已经引起了世界各国的广泛关注,车辆的燃油消耗和尾气排放是不可忽视的关键因素。为了缓解严峻的能源危机和气候变化,车辆电动化是未来汽车工业发展的必由之路。在新能源汽车中,混合动力汽车由于相比于传统燃油汽车需要更少的燃料,相比于纯电动汽车具有更远的行驶里程,成为目前最行之有效的解决方案。但是混合动力车辆能量管理***非常复杂,既要恰当地分配发动机功率和电机功率,又要全面保障车辆的驾驶性能和经济性,其能量管理方法涵盖了传统汽车、纯电动汽车和油电混合汽车能量管理多方面的内容,成为国内外汽车领域广泛研究的焦点。
能量管理策略主要可以分为三类。a)基于规则的能量管理策略,其依赖于通过专业经验制定的规则集合而且不需要预知驾驶工况,虽然实用性强,但是基于规则的能量管理往往不能达到车辆的最优控制,且针对的驾驶工况单一。二进制控制策略是一种典型的基于规则的控制策略,该策略首先用电池的能量驱动车辆行驶,当电池SOC值达到设定的最低值,转换到发动机驱动车辆。b)基于优化的能量管理策略,例如动态规划策略(DP),凸优化,遗传算法,其根据已知的或预测的车辆行驶工况对车辆进行最优控制,能够获得车辆在特定工况循环下的最优或者接近最优结果,但是需要预知车辆的全部行驶工况,耗用的计算资源很大,无法用于实时控制。为了提高能量管理策略的实用性,实时在线优化策略得到广泛的研究,例如,模型预测控制(MPC),庞特里亚金最小值原理(PMP)和等效燃油消耗策略(ECMS)。但是由于采用部分历史信息计算***的等效燃油消耗,历史信息不一定能代表未来的行驶状态,导致这种算法的鲁棒性不好。需要采用性能更好的策略弥补上述算法的缺陷。c)基于学习的能量管理策略。机器学习(数据驱动优化),特别是近年来发展起来的深度强化学习(Deep Reinforcement Learning)算法,为***模型及控制参数优化、道路工况特征以及驾驶行为特征提取提供了有力的研究工具。在强化学习算法中,Q Learning和DeepQ Network(DQN)等离散动作空间强化学习算法使用最为广泛,但是上述算法只适用于离散的和低维的动作空间,HEV能量管理控制任务具有高维和连续的动作空间。上述算法需要将动作空间离散化,这样做不可避免地丢失动作空间的重要的信息而且还会构成维度灾难(curse of dimensionality)问题。深度确定性策略梯度(DDPG)等连续动作空间的强化学习算法可以很好地处理连续的动作空间而不需要进行离散化,但是深度确定性策略梯度存在过估计问题,估计的值函数往往大于真实的值函数,影响该能量管理策略的稳定性,算法的鲁棒性差。
此外,目前的能量管理策略仅片面地改善了车辆的燃油经济性,忽略了控制策略对电池的寿命影响。众所周知,电池***的使用寿命与操作工况和电池温度息息相关,电池内部温度过高会导致热击穿。能量管理策略必须考虑这些重要的因素,否则没有实际应用价值。
发明内容
本发明提供一种基于双延迟深度确定性策略梯度多目标HEV能量管理方法及***。该方法及***使用两套网络表示值函数和延迟更新技术可以很好地解决过估计问题。将车辆燃油消耗、电池SOC、电池温度和电池寿命(State of Health,SOH)作为优化目标,构建多目标优化能量管理策略,使车辆工作在真实最优状态,提高能量管理策略的实用价值。
本发明的至少一个实施例提供一种HEV能量管理方法,包括:
建立并联式混合动力汽车的动力学模型、电池热模型和电池寿命模型,将三个模型的发动机燃油消耗率mf、发动机输出转矩Teng、电池温度Temp、电池SOC、SOH作为控制目标;
构建双延迟深度确定性策略梯度策略梯度TD3网络;
将所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC作为TD3状态空间信号S,将发动机输出转矩作为TD3动作空间信号A,并制定TD3的回报函数r;
获取车辆标准工况行驶中影响能量管理的参数和观测值,其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC,利用所述标准工况行驶中影响能量管理的参数和观测值以及所述回报函数r,对TD3网络进行训练,使其根据接收到的状态信号S做出能够最大化回报函数r的动作A,进而得到训练好的深度强化学习智能体;
获取车辆实际行驶中影响能量管理的参数和观测值,其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC,将所述实际行驶中影响能量管理的参数和观测值输入所述训练好的深度强化学习智能体进行能量管理。
本发明的至少一个实施例提供一种HEV能量管理方法***,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述方法的全部或部分步骤。
本发明的至少一个实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现项所述方法的全部或部分步骤。
本发明采用双延迟深度确定性策略梯度能量管理策略,优化发动机和电机功率分配和电池的使用工况,不仅能够弥补离散动作空间深度强化学习能量管理策略维度灾难的问题,而且能够解决深度确定性策略梯度过估计,训练不稳定的问题。
本发明不仅优化车辆运行过程中的燃油消耗和保持电池SOC在合理的范围内,而且考虑控制策略对电池温度和电池寿命的影响。创新地设计回报函数,构建燃油经济性,电池SOC,电池温度和电池寿命多目标能量管理策略,能够使得车辆多目标综合最优。
本发明采集实际道路工况数据,验证本发明所述深度强化学习TD3能量管理策略的最优性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明一实施例提供的一种基于TD3多目标HEV能量管理方法流程图。
图2为本发明一实施例提供的并联混合动力汽车结构图。
图3为本发明一实施例提供的深度强化学习TD3智能体基本架构图。
图4为本发明一实施例提供的一种车辆在标准工况下形势的速度曲线。
图5为本发明一实施例提供的一种车辆在某地实际行驶的速度曲线。
具体实施方式
针对HEV能量管理,本发明创新地使用双延迟深度确定性策略梯度TD3策略,解决基于离散动作空间深度强化学习能量管理策略维度灾难问题和深度确定性策略梯度过估计问题。而且将燃油消耗、电池温度和电池寿命(SOH)作为优化目标,提高能量管理策略的实用价值。下文将结合图1—图5对基于TD3多目标HEV能量管理方法进行详细介绍。
步骤1:建立并联式混合动力汽车模型,包括根据汽车动力方程建立汽车动力模型,根据电池生热散热原理建立电池热模型,根据电池容量衰减原理建立电池寿命模型。通过电池热模型结合电池寿命模型能够预测电池***的动态特性。将上述三个模型的发动机燃油消耗率mf、发动机输出转矩Teng、电池温度Temp、电池SOH和电池SOC作为控制目标;
步骤2:利用深度神经网络分别搭建Critic网络和Actor网络,共同构建双延迟深度确定性策略梯度策略TD3的基本网络框架即Actor-Critic网络,以构建多目标HEV能量管理策略学习网络,并对所述Actor-Critic网络参数进行初始化和状态数据归一化处理,网络参数如表格2所示。将所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC作为TD3状态空间信号S,将发动机输出转矩作为TD3动作空间信号A,并制定TD3合理的回报函数r。
步骤3:获取汽车标准工况行驶中影响能量管理的参数和观测值,其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC,利用所述标准工况行驶中影响能量管理的参数和观测值以及所述回报函数r,对TD3的基本网络进行训练,使TD3能量管理策略会根据接收到的状态信号S做出能够最大化回报函数r的动作A,控制车辆节能高效行驶,进而获得训练后的深度强化学习智能体。
步骤4:获取汽车实际行驶中影响能量管理的参数和观测值,其包括作为所述控制目标的所述发动机燃油消耗率、所述发动机输出转矩、所述电池温度、所述电池SOH和所述电池SOC,将所述实际行驶中影响能量管理的参数和观测值输入到所述训练后的深度强化学习智能体,进行能量管理。
图2示出了并联混合动力汽车驱动***示意图。步骤1中,可以由汽车动力学方程计算得出所述汽车动力模型,汽车动力学方程如公式(1)所示:
Figure GDA0003560639090000041
其中,Ft是汽车行驶驱动力;Ff是汽车行驶滚动阻力;Fi是汽车行驶坡度阻力;Fω是汽车行驶空气阻力;Fj是汽车行驶加速阻力;m是汽车质量;g是重力加速度;f为滚动阻力系数;α是汽车道路坡度;ρ是空气密度;A是汽车迎风面积;CD空气阻力系数;v是汽车行驶速度;δ是旋转质量换算系数;a是汽车行驶加速度。
所述电池热模型如公式(2)所示:
Figure GDA0003560639090000042
其中,Temp为电池温度;Tamb为环境温度;m为电池的质量;c为电池的比热容;I为电池工作电流;OCV为电池开路电压;V为电池工作电压;h为自然热对流常数。
所述电池寿命模型如公式(3)所示:
Figure GDA0003560639090000043
其中,N(cr,Temp)是电池寿命结束前等效循环次数,受电池放电倍率C-rate(cr)和电池温度(Temp)影响,由公式(4)所示;
Figure GDA0003560639090000051
电池容量损失百分比为Cn,B是指数因子,其值由表1给出,R=8.314是通用气体常数,z=0.55是幂律系数,Ah是电池吞吐量,Ea是活化能;当电池的容量下降到20%时,电池达到寿命终点。Cn,Ah和Ea由公式(5)定义:
Figure GDA0003560639090000052
表格1指数因子与放电倍率的关系
Figure GDA0003560639090000053
步骤2中,TD3状态空间信号为S=(SOC,mf,Teng,Temp,SOH),其中SOC表示电池荷电状态(State of Charge,SOC);mf是发动机燃油消耗率;Teng发动机输出转矩;Temp是电池温度。动作空间信号为A=(Teng|Teng∈[-250,841]);回报函数由公式(6)定义:
Figure GDA0003560639090000054
其中,b是一个偏置量,用来调节回报函数的范围;Ji是损失函数,i表示时间步长;s和a分别表示第i个时间步长的状态(所述控制目标的所述发动机燃油消耗率、所述发动机输出转矩、所述电池温度、所述电池SOH和所述电池SOC)和动作(所述发动机输出转矩);Cf=mf表示发动机燃油消耗率;Cb表示电池衰减成本;Ps和Pt分别表示SOC相对于参考值SOCref的偏差和过高温的惩罚系数;ω1和ω2分别表示Ps和Pt影响因素的权重。Cb由公式(7)计算得到:
Cb,i=λΔSOH (7)
其中,λ是电池置换成本与一千克燃油成本的比率(N.Kittner,F.Lill,andD.M.Kammen,“Energy storage deployment and innovation for the clean energytransition,”Nature Energy,vol.2,2017,Art.no.17125.)。
SOC相对于参考值SOCref的偏差和过高温的惩罚系数由公式(8)和公式(9)确定:
Figure GDA0003560639090000061
Figure GDA0003560639090000062
其中,SOCref=0.6是电池SOC参考值,Tref是惩罚触发阈值,可以设定为40℃。τ1和τ2调节系数,使得电池SOC偏差和过高温惩罚系数与发动机燃油消耗率在同一数量级。
步骤2中,双延迟深度确定性策略梯度算法的基本架构如图3所示。
其中,J表示损失函数,M批量梯度下降样本数,θQ和θμ分别是Critic网络和Actor网络的参数,r表示回报函数,ε表示噪声,τ表示软更新因子,y表示时序差分误差(TD error),Lk表示累计误差。
深度强化学习TD3智能体详细参数如表格2所示:
表格2 TD3智能体具体参数
Figure GDA0003560639090000063
TD3能量管理策略具体实施细节如表格3所示:
表格3 TD3算法执行步骤
Figure GDA0003560639090000071
其中θQ和θμ分别是Critic网络和Actor网络的参数。深度强化学习智能体将观测信号(包括所述发动机燃油消耗率、所述发动机输出转矩、所述电池温度、所述电池SOH和所述电池SOC)传输给Actor网络,Actor网络通过确定性策略函数μ(s)和随机噪声N输出控制动作a=μ(s|θμ)+N。被控对象通过执行动作a,得到新的状态s'以及回报r,将(s,a,r,s')存入经验回放区,然后从经验回放区随机采样M个样本,将s'输入到目标网络中的Actor网络,便可以得到a',其中Critic网络通过状态s和Actor网络得到的动作a利用贝尔曼方程学习得到值函数Q(s,a),目标Critic网络是通过下一时刻的状态值s'和回报r以及目标Actor网络得到的a'计算目标Q值Q'(s,a)=E[r(s,a)+γQ'(s',a')],其中Q'(s,a)代表目标Q值,s表示这一时刻的观测量,a表示智能体中Actor网络选择的动作,E表示求期望运算,r(s,a)表示在这种状态值和动作值下得到的回报,γ表示折扣银子,Q'(s',a')表示下一个状态的目标Q值,被控对象通过执行动作a得到新的状态值s'以及在智能体中选择的下一时刻的动作a',那么TD误差计算如下
Figure GDA0003560639090000081
其中y表示目标Q值的近似等效,Lk是累计误差,Q(sj,aj)是当前网络中的估计Q值。当前网络中的Actor网络参数通过动作值函数将状态映射到指定动作来更新,通过神经网络的梯度反向传播和软更新策略进行更新。
步骤3中,深度强化学习智能体在与环境(车辆和道路工况)进行交互的过程中进行学习,选择能够最大化回报的动作,但是在初期智能体所选择的动作远远达不到最优值,会产生意想不到的后果,所以在标准工况中对深度强化学习智能体进行训练,得到比较稳定的智能体超参数(学习率,神经元数量,网络层数,经验回放区大小,批量梯度采样大小等),然后应用到实际道路工况中。选择合适的标准工况,导入到驾驶员模型,驾驶员模型对道路工况信息进行预处理,输入工况的速度、加速度、坡度信息,输出车辆行驶所需速度、加速度以及总的转矩需求信息。在训练过程中根据车辆信息,工况信息调整TD3智能体的超参数,以达到TD3智能体能够快速准确选择最优控制动作的目的。可以使用三种典型的标准工况对深度强化学习TD3网络进行训练,但不限于此。三种工况的速度参数如图4所示,每个工况的特点如表4所示:
表格4标准工况特点
Figure GDA0003560639090000091
步骤4中,采集车辆的实际运行数据,制作实际道路工况数据,导入到驾驶员模型,利用训练好的深度强化学习智能体进行能量管理。同时还可对已经训练好的深度强化学习TD3能量管理策略进行验证,测试该能量管理策略的最优性。实际道路速度参数如图5所示。
综上,本发明方法不仅保证车辆行驶过程中燃油经济性最优,而且保证电池工作在合适的温度区间,延长电池使用寿命,保证了混合动力车辆多目标综合性能最优。
在示例性实施例中,还提供一种基于双延迟深度确定性策略梯度多目标HEV能量管理***,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述方法的全部或部分步骤。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的全部或部分步骤。例如,所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

Claims (4)

1.一种HEV能量管理方法,其特征在于,包括:
建立并联式混合动力汽车的动力学模型、电池热模型和电池寿命模型,将三个模型的发动机燃油消耗率mf、发动机输出转矩Teng、电池温度Temp、电池SOC、SOH作为控制目标;
构建双延迟深度确定性策略梯度策略梯度TD3网络;
将所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC作为TD3状态空间信号S,将发动机输出转矩作为TD3动作空间信号A,并制定TD3的回报函数r;
获取车辆标准工况行驶中影响能量管理的参数和观测值,其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC,利用所述标准工况行驶中影响能量管理的参数和观测值以及所述回报函数r,对TD3网络进行训练,使其根据接收到的状态信号S做出能够最大化回报函数r的动作,进而得到训练好的深度强化学习智能体;
获取车辆实际行驶中影响能量管理的参数和观测值,其包括作为所述控制目标的发动机燃油消耗率、发动机输出转矩、电池温度、电池SOH和电池SOC,将所述实际行驶中影响能量管理的参数和观测值输入所述训练好的深度强化学习智能体进行能量管理。
2.根据权利要求1所述的HEV能量管理方法,其特征在于,TD3状态空间信号为S=(SOC,mf,Teng,Temp,SOH),动作空间信号为A=(Teng|Teng∈[-250,841]),回报函数由公式(1)定义:
Figure FDA0003560639080000011
其中,b是一个偏置量,用来调节回报函数的范围;i表示时间步长;Cf=mf表示发动机燃油消耗率;Cb表示电池衰减成本;Ps和Pt分别表示SOC相对于参考值SOCref的偏差和过高温的惩罚系数;ω1和ω2分别表示Ps和Pt影响因素的权重;Cb由公式(2)计算得到:
Cb,i=λΔSOH (2)
其中,λ是电池置换成本与一千克燃油成本的比率;
SOC相对于参考值SOCref的偏差和过高温的惩罚系数由公式(8)和公式(9)确定:
Figure FDA0003560639080000021
Figure FDA0003560639080000022
其中,SOCref=0.6是电池SOC参考值,Tref是惩罚触发阈值,可以设定为40°C,τ1和τ2调节系数,使得电池SOC偏差和过高温惩罚系数与发动机燃油消耗率在同一数量级。
3.一种HEV能量管理方法***,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-2任一项所述的方法的步骤。
4.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。
CN202110654498.3A 2021-06-11 2021-06-11 基于td3多目标hev能量管理方法及*** Active CN113246958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654498.3A CN113246958B (zh) 2021-06-11 2021-06-11 基于td3多目标hev能量管理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654498.3A CN113246958B (zh) 2021-06-11 2021-06-11 基于td3多目标hev能量管理方法及***

Publications (2)

Publication Number Publication Date
CN113246958A CN113246958A (zh) 2021-08-13
CN113246958B true CN113246958B (zh) 2022-06-14

Family

ID=77187634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654498.3A Active CN113246958B (zh) 2021-06-11 2021-06-11 基于td3多目标hev能量管理方法及***

Country Status (1)

Country Link
CN (1) CN113246958B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114290959B (zh) * 2021-12-30 2023-05-23 重庆长安新能源汽车科技有限公司 一种动力电池主动寿命控制方法、***及计算机可读存储介质
CN114852043B (zh) * 2022-03-23 2024-06-18 武汉理工大学 一种基于分层回报td3的hev能量管理方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014222513B4 (de) * 2014-11-04 2020-02-20 Continental Automotive Gmbh Verfahren zum Betrieb eines Hybrid- oder Elektrofahrzeugs
JP2018102074A (ja) * 2016-12-21 2018-06-28 株式会社デンソー 車両制御装置
CN110254418B (zh) * 2019-06-28 2020-10-09 福州大学 一种混合动力汽车增强学习能量管理控制方法
CN110341690B (zh) * 2019-07-22 2020-08-04 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN112249002B (zh) * 2020-09-23 2022-06-28 南京航空航天大学 一种基于td3的启发式串并联混合动力能量管理方法
CN112440974B (zh) * 2020-11-27 2021-11-02 武汉理工大学 基于分布式深度确定性策略梯度的hev能量管理方法

Also Published As

Publication number Publication date
CN113246958A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
Liu et al. Online energy management for multimode plug-in hybrid electric vehicles
Liu et al. Optimal power management based on Q-learning and neuro-dynamic programming for plug-in hybrid electric vehicles
Liu et al. Reinforcement learning optimized look-ahead energy management of a parallel hybrid electric vehicle
Yuan et al. Intelligent energy management strategy based on hierarchical approximate global optimization for plug-in fuel cell hybrid electric vehicles
Wu et al. Multiobjective optimization of HEV fuel economy and emissions using the self-adaptive differential evolution algorithm
CN107688343B (zh) 一种混合动力车辆的能量控制方法
Lin et al. Driving pattern recognition for control of hybrid electric trucks
Zhang et al. A deep reinforcement learning-based energy management framework with Lagrangian relaxation for plug-in hybrid electric vehicle
CN113246958B (zh) 基于td3多目标hev能量管理方法及***
CN112668799A (zh) 基于行驶大数据的phev的智能能量管理方法和存储介质
CN113479186B (zh) 一种混合动力汽车能量管理策略优化方法
Zhu et al. Energy management of hybrid electric vehicles via deep Q-networks
CN116070783B (zh) 一种混动传动***在通勤路段下的学习型能量管理方法
Montazeri-Gh et al. Driving condition recognition for genetic-fuzzy HEV control
Li et al. Real‐time energy management for commute HEVs using modified A‐ECMS with traffic information recognition
CN115107733A (zh) 一种混合动力汽车的能量管理方法及***
Yang et al. Real-time energy management for a hybrid electric vehicle based on heuristic search
He et al. Deep reinforcement learning based energy management strategies for electrified vehicles: Recent advances and perspectives
Liu Reinforcement learning-enabled intelligent energy management for hybrid electric vehicles
Gan et al. Intelligent learning algorithm and intelligent transportation-based energy management strategies for hybrid electric vehicles: A review
Guo et al. Clustered energy management strategy of plug-in hybrid electric logistics vehicle based on Gaussian mixture model and stochastic dynamic programming
Wei et al. Priority-driven multi-objective model predictive control for integrated motion control and energy management of hybrid electric vehicles
Fechert et al. Using deep reinforcement learning for hybrid electric vehicle energy management under consideration of dynamic emission models
Filev et al. Contextual on-board learning and prediction of vehicle destinations
Payri et al. On a stochastic approach of the ECMS method for energy management in hybrid electric vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant