CN114103971B

CN114103971B - 一种燃料电池汽车节能驾驶优化方法及装置

Info

Publication number: CN114103971B
Application number: CN202111390601.4A
Authority: CN
Inventors: 孙超; 刘波; 孙逢春; 任强; 周飞鲲
Original assignee: Beijing Institute of Technology BIT; Guangzhou Automobile Group Co Ltd
Current assignee: Beijing Institute of Technology BIT; Guangzhou Automobile Group Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2023-10-10
Anticipated expiration: 2041-11-23
Also published as: CN114103971A

Abstract

本发明公开了一种燃料电池汽车节能驾驶优化方法及装置，所述方法包括：建立燃料电池汽车***模型和其***功率平衡模型；在电量维持模式下，求解燃料电池汽车在各种工况下的最优能量管理策略；基于得到的最优数据库进行训练，得到数据驱动的能量管理模型；建立包含信号灯的训练场景，定义状态空间和动作空间；根据数据驱动的能量管理模型，得到燃料电池汽车在某个状态和相应动作下的燃料消耗，建立相关的回报函数模型；在训练场景中进行训练，得到节能驾驶优化模型。本发明所提出的方法结合了联合优化和分层优化的优点，可将预先优化的能量管理策略融合到基于深度强化学***衡。

Description

一种燃料电池汽车节能驾驶优化方法及装置

技术领域

本发明涉及燃料电池汽车车速规划和能量管理领域，特别是涉及一种燃料电池汽车节能驾驶优化方法。

背景技术

车辆智能化和网联化有望革新人员和货物的运输，从而提高道路安全性、改善乘坐舒适性、提高交通效率并减少能源消耗。通过车对基础设施V2I通信，网联式汽车可以获取道路上的实时信号灯信息，并通过优化车速轨迹实现节能驾驶。

燃料电池汽车作为一种混合能源驱动的车辆，其节能驾驶涉及速度规划和能量管理。该问题的最优解决方案是以最小化混合能源的总能耗为目标，进行车速和能量的联合优化。然而由于维数诅咒，超高的计算负担使得一般的联合优化难以具备实时性。一种简化的解决方案是分层优化，即首先以最小化车轮处的功率需求为目标进行车速规划，然后基于车速进行能量管理。通过将车辆运动规划和动力传动***控制完全解耦，分层优化能够降低计算代价，但是也牺牲了一定的最优性。

在现有技术中，涉及燃料电池汽车在信号灯场景中的节能驾驶方法较少，并且难以实现最优性和实时性的平衡。

发明内容

本发明的目的在于弥补现有技术的不足，提出一种燃料电池汽车节能驾驶优化方法和装置，其结合联合优化和分层优化的优点，可将预先优化的能量管理策略融合到基于深度强化学***衡。

本发明的技术方案如下：

一种燃料电池汽车节能驾驶优化方法，其包括：

S1.建立所述燃料电池汽车的***模型和其***功率平衡模型，其中，所述***模型包括车辆的纵向动力学模型、其电机模型、其燃料电池和/或动力电池模型；

S2.基于所述***模型和所述功率平衡模型，在电量维持模式下，利用动态规划算法求解所述燃料电池汽车在各种工况下的最优能量管理策略，由最优能量管理策略得到的最优***和/或功率参数组成最优数据库；

S3.基于所述最优数据库，利用机器学习回归算法进行第一模型训练，得到数据驱动的能量管理模型；

S4.建立包含信号灯的训练场景，定义所述燃料电池汽车的状态空间和动作空间；

S5.根据所述数据驱动的能量管理模型，得到所述燃料电池汽车在某个状态和/或相应动作下的燃料消耗，建立和所述燃料消耗相关的回报函数模型；

S6.在所述训练场景中利用深度强化学习算法进行第二模型训练，得到训练后的节能驾驶优化模型；

S7.在包含信号灯的不同测试场景中利用所述节能驾驶优化模型得到经济车速，和/或，在电量维持模式下利用动态规划算法评估与所述经济车速响应的燃料消耗。

根据本发明的一些优选实施方式，所述机器学习回归算法选自XGBoost算法、神经网络算法和随机森林算法中的一种或多种。

根据本发明的一些优选实施方式，所述深度强化学习算法选自DDPG、TD3、A3C和PPO算法中的一种或多种。

根据本发明的一些优选实施方式，所述第一模型训练的输入为车速、加速度、动力电池荷电状态SOC，输出为燃料电池***净功率。

根据本发明的一些优选实施方式，所述状态空间包括车速、信号灯与车辆位置的差值、信号灯的实时相位配时信息SPaT，所述动作空间包括车辆的加速度。

根据本发明的一些优选实施方式，所述回报函数模型包括：整体回报函数，与车辆保持当前车速行驶到信号灯路口时的信号状态有关的第一回报函数，与车辆实际通过信号灯路口时的信号状态有关的第二回报函数，及分别与车辆的速度、加速度或能耗有关第三～第五回报函数。

根据本发明的一些优选实施方式，所述第五回报函数包括：与需求功率相关的代价函数及与燃料消耗相关的代价函数。

根据本发明的一些优选实施方式，所述第二模型的训练包括：

S61.初始化深度强化学习网络、经验池和随机探索噪声；

S62.根据当前状态和随机探索噪声选择动作，并将相关经验添加到所述经验池；

S63.从添加后的经验池中选取一定长度的批量数据，进行所述深度强化学习网络的参数更新；

S64.重复进行S62和S63，直至达到最大训练回合数。

更优选的，所述深度强化学习网络包含actor网络、critic网络以及相对应的目标网络。

进一步优选的，所述actor网络采用策略梯度进行参数更新，和/或，所述critic网络采用最小化损失函数进行参数更新。

根据本发明的一些优选实施方式，所述最优能量管理策略通过以下模型获得：

其中，状态变量x＝SOC表示动力电池荷电状态；表示状态变量x对时间t的一阶导数；控制变量u＝P_fcs表示燃料电池***净功率；t_f表示终端时间；t表示时间；φ表示终端代价；SOC_min,SOC_max,P_fcs,min,P_fcs,max,ω_mot,min,ω_mot,max均为常数，分别表示SOC的最小值和最大值、P_fcs的最小值和最大值、ω_mot的最小值和最大值；P_bat,min,P_bat,max均为荷电状态SOC的函数，分别表示P_bat的最小值和最大值；T_mot,min,T_mot,max均为ω_mot的函数，分别表示T_mot的最小值和最大值；ξ表示SOC的动力学参数，即SOC对时间t的一阶导数/>

更优选的，通过将下式(9)代入式(11)后得到：

其中，I_bat表示动力电池电流，V_OC，R₀，P_bat分别表示开路电压、内阻和电池功率，V_OC和R₀都是动力电池荷电状态SOC的函数，Q_bat表示电池容量。

根据本发明的一些优选实施方式，所述***模型和其***功率平衡模型包括以下模型中的一个或多个：

车辆纵向动力学模型：

P_dmd＝(F_drv+F_brk)v (2)

其中，v，M，f_r和A分别表示车辆的位置、车速、质量、滚动阻力系数和迎风面积，表示车辆位置对时间t的一阶导数，即车速v；车辆的加速度/>F_drv和F_brk分别表示车轮处的电机机械力和刹车片制动力；G表示重力加速度；θ表示道路坡度；ρ和C_D分别表示空气密度和空气阻力系数；P_dmd表示车轮处的需求功率；

电机模型：

其中，ω_mot表示电机转速，T_mot表示电机转矩，r_whl是轮胎滚动半径，i_FD和η_FD分别是主减速器的传动比和效率，P_mot,m表示电机的机械功率，P_mot,e表示电机的电功率，η_mot表示与ω_mot和T_mot有关的电机效率，sgn是符号函数；

燃料电池***模型：

其中，表示氢气消耗率，P_fcs表示燃料电池***净功率，ψ表示P_fcs与/>之间的函数关系，可通过查表获得，η_fcs表示燃料电池***效率，LHV表示氢气的低热值；

动力电池模型：

其中，I_bat表示动力电池电流，V_bat表示动力电池电压，V_OC，R₀，P_bat分别表示开路电压、内阻和电池功率，V_OC和R₀都是动力电池荷电状态SOC的函数，Q_bat表示电池容量，表示SOC对时间t的一阶导数；

***功率平衡模型：

其中，η_DC/AC和η_DC/DC分别表示DC/AC逆变器和DC/DC变换器的效率。

根据本发明的一些优选实施方式，所述回报函数模型具体包括：

r＝r_l+r_L+r_v+r_a+r_e (14)

r_a＝-|a| (18)

r_e＝r_e,p+r_e,h (19)

其中，r表示整体回报函数，r_l表示第一回报函数、其与假设车辆保持当前车速行驶到信号灯路口时的信号状态有关，r_L表示第二回报函数、其与车辆实际通过信号灯路口时的信号状态有关，r_v，r_a，r_e分别表示第三～第五回报函数，其分别与车辆的速度、加速度和能耗有关，其中r_e由与需求功率相关的代价r_e,p及与氢耗相关的代价r_e,h组成，P_dmd,max表示在最大速度和最大加速度下的需求功率，表示和燃料电池***最大净功率P_fcs,max对应的最大氢气消耗率，t′表示车速不为0时车辆通过信号灯路口的估计时间，即当前时间加上车辆到信号灯的距离与当前车速的比值，P_l表示取值为0或1的信号灯状态，t_p表示车辆通过信号灯路口的实际时间，v_max表示最高车速。

根据以上优化方法，可进一步获得一种燃料电池汽车节能驾驶优化装置，其包括以下存储介质：该存储介质存储有实现所述优化方法的程序、算法、模型、所需数据中的一种或多种。

本发明具备以下有益效果：

(1)本发明基于最优数据库训练机器学习回归算法，得到数据驱动的近似最优能量管理策略，实现了对燃料电池汽车的瞬时能耗估计；

(2)本发明提出的融合能量管理策略的深度强化学习节能驾驶优化方法，相比于基于DRL的分层优化方法表现出更好的能耗经济性，相比于非强化学习方法表现出更大的在线应用潜力。

附图说明

图1为一种具体的燃料电池汽车节能驾驶优化方法流程图。

图2为一种具体的深度强化学习算法DDPG训练流程图。

具体实施方式

以下结合实施例和附图对本发明进行详细描述，但需要理解的是，所述实施例和附图仅用于对本发明进行示例性的描述，而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。

如图1所示，一种燃料电池汽车节能驾驶优化方法，包括以下步骤：

S1.建立燃料电池汽车整车和动力传动***模型，包括车辆纵向动力学模型、电机模型、燃料电池***模型、动力电池模型和***功率平衡模型；

更具体的，其可包括：

S11.建立车辆纵向动力学模型，如下：

P_dmd＝(F_drv+F_brk)v (2)

其中，v，M，f_r和A分别表示车辆的位置、车速、质量、滚动阻力系数和迎风面积，表示车辆位置对时间t的一阶导数，即车速v；车辆的加速度/>F_drv和F_brk分别表示车轮处的电机机械力和刹车片制动力；G表示重力加速度；θ表示道路坡度；ρ和C_D分别表示空气密度和空气阻力系数；P_dmd表示车轮处的需求功率。

S12.建立电机模型，如下：

其中，ω_mot表示电机转速，T_mot表示电机转矩，r_whl是轮胎滚动半径，i_FD和η_FD分别是主减速器的传动比和效率，P_mot,m表示电机的机械功率，P_mot,e表示电机的电功率，η_mot表示与ω_mot和T_mot有关的电机效率，sgn是符号函数。

S13.建立燃料电池***模型，如下：

其中，表示氢气消耗率，P_fcs表示燃料电池***净功率，ψ表示P_fcs与/>之间的函数关系，可通过查表获得，η_fcs表示燃料电池***效率，LHV表示氢气的低热值。

S14.建立动力电池模型，如下：

其中，I_bat表示动力电池电流，V_bat表示动力电池电压，V_OC，R₀，P_bat分别表示开路电压、内阻和电池功率，V_OC和R₀都是动力电池荷电状态SOC的函数，Q_bat表示电池容量，表示SOC对时间t的一阶导数，则式(11)可表示电池***动力学。

S15.建立***功率平衡模型，如下：

S2.基于所述燃料电池汽车整车和动力传动***模型，在电量维持模式下，利用动态规划算法求解燃料电池汽车在各种工况下的最优能量管理策略，得到最优数据库；

在具体实施中，所述工况可包括如NEDC、UDDS、JN1015和HWFET等标准工况。

更具体的，其中，在电量维持模式下，燃料电池汽车的最优能量管理策略的获取方式可包括：寻找使代价函数J_EMS最小的最优控制参数集u^*，优选的，其获取模型如下：

其中，状态变量x＝SOC表示动力电池荷电状态，表示状态变量x对时间t的一阶导数，控制变量u＝P_fcs表示燃料电池***净功率，t_f表示终端时间，t表示时间，φ表示终端代价，ξ表示SOC动力学参数/>即将式(9)代入式(11)后的结果，SOC_min,SOC_max,P_fcs,min,P_fcs,max,ω_mot,min,ω_mot,max均为常数，分别表示SOC的最小值和最大值、P_fcs的最小值和最大值、ω_mot的最小值和最大值，P_bat,min,P_bat,max均为SOC的函数，分别表示P_bat的最小值和最大值，T_mot,min,T_mot,max均为ω_mot的函数，分别表示T_mot的最小值和最大值。

S3.基于最优数据库，利用机器学习回归算法进行训练，得到数据驱动的能量管理策略；

其中，更具体的，所述机器学习回归算法可选择如XGBoost算法、神经网络算法和随机森林算法等。

以其中XGBoost算法为例，则算法的输入为车速、加速度、动力电池荷电状态SOC，输出为燃料电池***净功率。

其中，更具体的，所述状态空间可包括如车速、信号灯与车辆位置的差值、信号灯的实时相位配时信息SPaT；所述动作空间可包括如车辆的加速度。

S5.根据所得数据驱动的能量管理策略，得到燃料电池汽车在某个状态和相应动作下的氢耗，并建立和氢耗相关的回报函数模型；

更具体的，所述回报函数模型可构建如下：

r＝r_l+r_L+r_v+r_a+r_e (14)

r_a＝-|a| (18)

r_e＝r_e,p+r_e,h (19)

其中，r表示整体回报函数，r_l表示第一回报函数、其与假设车辆保持当前车速行驶到信号灯路口时的信号状态有关，r_L表示第二回报函数、其与车辆实际通过信号灯路口时的信号状态有关，r_v，r_a，r_e分别表示第三～第五回报函数，其分别与车辆的速度、加速度和能耗有关，其中r_e由与需求功率相关的代价r_e,p及与氢耗相关的代价r_e,h组成，P_dmd,max表示在最大速度和最大加速度下的需求功率，表示和燃料电池***最大净功率P_fcs,max对应的最大氢气消耗率，t′表示车速不为0时车辆通过信号灯路口的估计时间，即为当前时间加上车辆到信号灯的距离与当前车速的比值，P_l表示信号灯状态，如P_l＝1表示红灯，P_l＝0表示绿灯，t_p表示车辆通过信号灯路口的实际时间，v_max表示最高车速。

S6.在所建立的训练场景中利用深度强化学习算法进行训练，得到训练后的节能驾驶优化模型；

其中，所述深度强化学习算法可选择如DDPG、TD3、A3C和PPO等算法。

以DDPG为例，其训练流程如图2所示，包括如下步骤：

S61.初始化深度强化学习网络、经验池和随机探索噪声

其中，在一些具体实施中，深度强化学习网络可包含actor网络μ(s|θ^μ)和critic网络Q(s，a|θ^Q)以及相对应的目标网络μ′(s|θ^μ′)和Q′(s，a|θ^Q′)，s表示状态空间中的状态量，a表示动作空间中的动作量，θ^μ，θ^μ′，θ^Q，θ^Q′分别表示网络μ，μ′，Q，Q′的参数。

进一步的，深度强化学习网络均包含一个输入层、2个隐藏层和1个输出层，其中，actor网络及其目标网络的输入是状态，输出是动作；critic网络及其目标网络的输入是状态和动作，输出是动作价值Q。

随机探索噪声可以选取如Omstein-Uhlenbeck噪声或者高斯噪声。

S62.根据当前状态和随机探索噪声选择动作，并将相关经验添加到经验池；

更具体的，其可包括：actor网络根据当前t时刻的状态s_t选择动作a_t，获得奖励r_t并转移到下一状态s_t+1，其中，在t时刻的干扰噪声下，动作a_t如下所示：

存储到经验池的相关经验为(s_t，a_t，r_t，s_t+1，done)，其中done∈{true，false}表示每个训练回合是否结束，每个训练回合的终止条件为车辆到达终点或者时间达到回合最大时间。

S63.从经验池中选取长度为N的小批量数据，进行神经网络参数更新；

更具体的，critic网络可以最小化损失函数Loss为目标进行参数更新，如下所示：

其中，y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)，γ为折扣因子。

actor网络可使用策略梯度进行参数更新，如下所示：

其中，表示梯度算子。

目标网络参数可采用软更新，如下所示：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中，系数τ＜＜1。

S64.重复进行S62和S63，直至达到最大训练回合数。

S7.在包含信号灯的不同测试场景中利用训练后的节能驾驶优化模型得到经济车速，并在电量维持模式下利用动态规划算法评估相应经济车速的氢耗。

在具体实施例中，本发明将预先优化的能量管理策略融合到基于深度强化学习的燃料电池汽车车速规划之中，相比于不融合能量管理策略的深度强化学习方法，氢耗降低4.41％。

以上实施例仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下的改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种燃料电池汽车节能驾驶优化方法，其特征在于，其包括：

S1.建立所述燃料电池汽车的***模型和其***功率平衡模型，其中，所述***模型包括车辆的纵向动力学模型、电机模型、燃料电池和/或动力电池模型；

S7.在包含信号灯的不同测试场景中利用所述节能驾驶优化模型得到经济车速，和/或，在电量维持模式下利用动态规划算法评估与所述经济车速响应的燃料消耗；

其中，

所述最优能量管理策略通过以下模型获得：

其中，J_EMS表示代价函数，x表示状态变量，x＝SOC，SOC表示动力电池荷电状态；表示状态变量x对时间t的一阶导数；u表示控制变量，u＝P_fcs，P_fcs表示燃料电池***净功率；t_f表示终端时间；/>表示氢气消耗率，t表示时间；φ表示终端代价；SOC_min,SOC_max,P_fcs,min,P_fcs,max,ω_mot,min,ω_mot,max均为常数，分别表示SOC的最小值和最大值、P_fcs的最小值和最大值、ω_mot的最小值和最大值，ω_mot表示电机转速；P_bat,min,P_bat,max均为荷电状态SOC的函数，分别表示P_bat的最小值和最大值，P_bat表示电池功率；T_mot,min,T_mot,max均为ω_mot的函数，分别表示T_mot的最小值和最大值，T_mot表示电机转矩；ξ表示SOC的动力学参数，即SOC对时间t的一阶导数/>

所述回报函数模型具体包括：

r＝r_l+r_L+r_v+r_a+r_e (14)

r_a＝-|a| (18)

r_e＝r_e,p+r_e,h (19)

其中，r表示整体回报函数，r_l表示第一回报函数、其与假设车辆保持当前车速行驶到信号灯路口时的信号状态有关，r_L表示第二回报函数、其与车辆实际通过信号灯路口时的信号状态有关，r_v，r_a，r_e分别表示第三回报函数、第四回报函数和第五回报函数，其分别与车辆的速度v、加速度a和能耗有关，其中r_e由与需求功率相关的代价r_e,p及与氢耗相关的代价r_e,h组成，P_dmd表示车轮处的需求功率，P_dmd,max表示在最大速度和最大加速度下的需求功率，表示和燃料电池***最大净功率P_fcs,max对应的最大氢气消耗率，ψ表示P_fcs与/>之间的函数关系，可通过查表获得，t′表示车速不为0时车辆通过信号灯路口的估计时间，即当前时间加上车辆到信号灯的距离与当前车速的比值，P_I表示取值为0或1的信号灯状态，t_p表示车辆通过信号灯路口的实际时间，v_max表示最高车速。

2.根据权利要求1所述的优化方法，其特征在于：所述机器学习回归算法选自XGBoost算法、神经网络算法和随机森林算法中的一种或多种；和/或，所述深度强化学习算法选自DDPG、TD3、A3C和PPO算法中的一种或多种。

3.根据权利要求1所述的优化方法，其特征在于：所述第一模型训练的输入为车速、加速度、动力电池荷电状态SOC，输出为燃料电池***净功率。

4.根据权利要求1所述的优化方法，其特征在于：所述状态空间包括车速、信号灯与车辆位置的差值、信号灯的实时相位配时信息SPaT，所述动作空间包括车辆的加速度。

5.根据权利要求1所述的优化方法，其特征在于：所述第二模型的训练包括：

S61.初始化深度强化学习网络、经验池和随机探索噪声；

S64.重复进行S62和S63，直至达到最大训练回合数；

其中，所述深度强化学习网络包含actor网络、critic网络以及相对应的目标网络。

6.根据权利要求5所述的优化方法，其特征在于：所述actor网络采用策略梯度进行参数更新，和/或，所述critic网络采用最小化损失函数进行参数更新。

7.根据权利要求1所述的优化方法，其特征在于：所述***模型和其***功率平衡模型包括以下模型中的一个或多个：

车辆纵向动力学模型：

P_dmd＝(F_drv+F_brk)v (2)

其中，s、v、M、f_r和A分别表示车辆的位置、车速、质量、滚动阻力系数和迎风面积，表示车辆位置对时间t的一阶导数，即车速v；车辆的加速度/>F_drv和F_brk分别表示车轮处的电机机械力和刹车片制动力；G表示重力加速度；θ表示道路坡度；ρ和C_D分别表示空气密度和空气阻力系数；P_dmd表示车轮处的需求功率；

电机模型：

燃料电池***模型：

动力电池模型：

***功率平衡模型：

8.一种燃料电池汽车节能驾驶优化装置，其特征在于：所述装置包括以下存储介质：该存储介质存储有实现权利要求1-7中任一项所述的优化方法的程序、算法、模型、所需数据中的一种或多种。