CN112035949B

CN112035949B - 一种结合q增强学习的实时模糊能源管理方法

Info

Publication number: CN112035949B
Application number: CN202010818612.7A
Authority: CN
Inventors: 陶吉利; 胡业强; 白杨; 马龙华
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang University of Science and Technology ZUST
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2024-02-02
Anticipated expiration: 2040-08-14
Also published as: CN112035949A

Abstract

本发明公开一种结合Q增强学习的实时模糊能源管理方法，属于自动化技术领域。本发明提出的Q学习控制器通过车辆运行需求功率和超级电容荷电状态来采取行动，即无需提前知道驾驶模式。为了延长燃料电池的寿命并降低其能量消耗，通过遗传算法对Q值表的初始值进行了优化。此外，为了提高环境适应能力，改进了Q学习控制器的学习策略。仿真结果表明，在不同的驾驶条件下，可以减小燃料电池电流波动和能耗，同时超级电容器的荷电状态可以安全地维持在给定范围内。本发明提出的方法相比于神经网络路况识别的自适应模糊能源管理或优化的能源管理方法，融合了学习与规则，进一步改善了对不同驾驶条件的适应性，能同时降低燃料电池能耗和电流波动。

Description

一种结合Q增强学习的实时模糊能源管理方法

技术领域

本发明属于自动化技术领域，涉及一种基于Q增强学习算法和模糊控制的混合电动汽车实时能源管理策略。

背景技术

为改善混合动力车的能源管理性能，现有的能源管理策略通常有两种：基于规则的能源管理策略和基于优化的能源管理策略。前者往往是确定性经验规则或模糊控制规则，而后者通常和先进控制理论及优化算法想结合。基于规则的能源管理策略计算量少易于实现，因此被广泛运用。但该策略较为单一，一般不具有工况自适应性，而且基于规则的策略通常是次优的，其性能在很大程度上取决于专家对规则设计的经验。基于优化的策略能够实现能源管理的最佳控制，需针对各种工况离线完成优化过程。在实时运行过程中则需要先行进行工况识别，再根据相应工况实施控制。实时工况识别过程本身十分复杂，需要特定的工况识别算法。

发明内容

本发明的目的是利用模糊规则能源管理策略的优势，采用Q增强学习算法进行复杂工况的信息反馈，从而无需工况识别，就能实现实时能源管理策略的工况自适应调整和性能优化。与基于车辆运行工况识别的能源管理方法不同，本发明提出了一种基于Q增强学习算法的模糊能源管理策略，可改善能源管理策略对不同驾驶工况的适应性，为克服Q增强学习算法收敛慢、甚至无法收敛等不足，又引入了遗传算法(GA)，用来优化Q值表的初始化值，优化目标为降低车辆运行能耗指标，降低主动力源的电流输出脉动，并将超级电容(SC)的荷电状态(SoC)保持在合理范围内，以便SC既能回收制动能量又能提供主动力源辅助能源。

本发明提出了一种基于Q增强学习算法的模糊自适应混合动力车辆实时能源管理控制器。以燃料电池(FC)和超级电容混合动力车为例，基于Q增强学习的自适应模糊能源管理***(EMS)获得了最低的氢气(H2)消耗，并大大减少了燃料电池输出电压和输出电流波动，有利于延长燃料电池使用寿命。

本发明具体采用的技术方案如下：

一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其步骤如下：

S1：构建模糊逻辑控制器，作为燃料电池和超级电容混合动力车的主控制器；所述模糊逻辑控制器以车辆需求功率P_dem和超级电容的荷电状态SoC为输入，将其分别模糊化到模糊域后再通过解模糊，得到分配比例系数u_f作为输出；

S2：构建Q增强学习补偿控制器，利用Q增强学习得到的动作对不同驾驶工况下的能源管理策略进行自适应补偿；在Q增强学习补偿控制器中，根据超级电容的SoC和车辆需求功率P_dem设计状态空间，根据燃料电池的输出功率P_FC设计动作空间，根据超级电容的SoC状态设计奖励函数，Q增强学习补偿控制器的输出为对不同驾驶工况的补偿动作a；

S3：结合S1中构建的模糊逻辑控制器和S2中构建的Q增强学习补偿控制器，建立Q-Learning模糊能量管理***，在该***中能量管理策略为：

若车辆需求功率P_dem为正且超级电容的荷电状态SoC大于SoC阈值，则由Q-Learning模糊能量管理***进行能量管理，基于输出的系数(u_f+a)计算不同时刻的燃料电池的输出功率P_FC：

P_FC＝(u_f+a)P_dem

其中a是Q增强学习补偿控制器输出的补偿动作，u_f+a≤1；

若超级电容的SoC低于SoC阈值，则燃料电池将在其功率范围内提供所有需求功率；

S4：获取车辆在不同工况下行驶的实时功率需求，在各种工况下对Q-Learning模糊能量管理***进行离线训练，使其能对实时功率进行分配；

在离线训练Q-Learning模糊能量管理***中的Q增强学习补偿控制器时，根据遗传算法对Q增强学习策略的Q值表进行初始值优化，具体过程为：

S41：初始化遗传算法的参数，包括最大进化代数G、种群大小N、交叉算子概率P_c和变异算子概率P_m及其权重系数ω，进化代数g初始化为1，当前时刻t初始化为1；同时随机生成N个Q值表个体；

S42：在车辆的一个行驶周期T中，对于每个Q值表个体，执行如下操作：

1)基于当前时刻状态s_t选择的动作a_t计算t+1时刻的状态s_t+1和奖励值r_t+1，并利用Bellman公式更新t+1时刻的Q值Q_t+1；在选择动作a_t时，在行驶周期T的前一部分时刻按照概率ξ随机选出动作a_t，其余的时刻根据确定动作a_t，将其添加到Q-Learning模糊能量管理***输出中；

2)如果1)中得到的奖励值r_t+1是表明SoC＞SoC_max或SoC＜SoC_min的值，则当前行驶周期T中的学习过程立即中止，否则使t＝t+1后重复步骤1)，直到行驶周期T结束；根据最终学习完成得到的Q值表，在Q-Learning模糊能量管理***中计算目标函数J，其目标为在满足约束条件下，使得燃料电池的电流脉动最小且能耗最低；

S43：对N个Q值表个体执行赌轮盘选择和精英保留策略，以产生交叉和变异算子的父代；

S44：在执行S43后产生的N个后代中分别以概率P_c和P_m执行交叉操作和变异操作，更新Q值表个体，完成一代进化；

S45：不断重复执行步骤S42至S44，直到达到最大进化代数G，获得当前行驶周期T的Q值表；

S46：以S41至S45得到的Q值表为最优初始值，同时为克服按照概率ξ随机选出动作a_t的影响，不断迭代重复步骤S42，直到完成所有Np次迭代，得到Np个Q值表；

S5：在Np个Q值表中，以行驶周期中燃料电池的能耗总和最低为标准，选出最优Q值表Qb；

S6：基于S5中的最优Q值表Qb，利用Q-Learning模糊能量管理***对车辆的燃料电池和超级电容输出功率进行在线调节。

作为优选，所述S1的模糊逻辑控制器中，将车辆需求功率P_dem和超级电容的荷电状态SoC分别模糊化到模糊域I₁∈[0，1]，I₂∈[0，1]：

其中P_max是车辆行驶的最大需求功率，SoC_max和SoC_min分别表示SoC的最小值和最大值；

再采用Takagi-Sugeno-Kang模糊推理***及设定的模糊规则，通过重心法解模糊，计算模糊输出u_f。

作为优选，所述S1的Q增强学习补偿控制器中，所述状态空间设计为：

选择车辆功率需求P_dem和超级电容的荷电状态SoC作为***状态s，对连续状态进行离散化：

其中：P_d∈[1，n₁]，SoC_d∈[1，n₂]为离散化状态空间的索引值，d₁和d₂分别表示P_dem和SoC的离散维度，n₁和n₂代表状态数。

作为优选，所述S1的Q增强学习补偿控制器中，所述动作空间设计为：

选择不同驾驶模式下的补偿输出量作为控制动作输出，对连续动作进行离散化：

其中：d₃是Q增强学习控制器的补偿动作a的离散维度，n₃表示动作a的动作数，u_dmax和u_dmin是动作a的最大和最小值，k是动作a的索引值，该值通过当前状态下Q值表最大获得。

作为优选，所述S1的Q增强学习补偿控制器中，所述奖励函数设计为：

根据超级电容的瞬时SoC状态设计奖励函数，形式如下：

其中：r_t表示t时刻的奖励回报值，变量Δp＝P_dem-P_FC-P_SC，P_SC是超级电容SC提供的功率，ΔI是在时间Δt内的燃料电池电流变化。

作为优选，所述S3中，SoC阈值为0.45。

作为优选，所述S42的步骤1)中，在行驶周期T的前10％时刻按照概率ξ随机选出动作a_t。

作为优选，所述S42的步骤2)中，目标函数J设定为：

s.t.P_FC+P_SC＝P_dem

0＜P_FC≤40kW

0＜i_FC≤150A

-5kW≤ΔP_FC≤5kW

-30kW≤P_SC≤30kW

-150A≤i_SC≤150A

v_FC≥60V

其中：T是行驶周期，即离线优化过程中，混合动力汽车驾驶全程的采样时刻数；ΔP_FC是t时刻FC的功率变化，ΔP_FC＝P_FC(t)-P_FC(t-1)；i_FC，i_sC分别是燃料电池和超级电容的电流；ΔI(t)＝i_FC(t)-i_FC(t-1)是t时刻燃料电池的电流变化；ω是权重系数。

本发明提出的混合动力车辆运行实时能源管理方法弥补了传统方法的不足，相比传统的基于规则或优化的方法，本发明融合了增强学习和模糊规则，能显著提高能耗经济指标，减少电流波动对燃料电池所造成的影响，同时实现复杂工况下的在线实时能源管理。

附图说明

图1为基于GA和Q增强学习的模糊EMS框架图；

图2为实时需求功率的功率分配及其功率误差图；

图3为超级电容SoC实时分布图；

图4为3种方法的功率误差对比图；

图5为3种方法的超级电容SoC分布对比图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

在本发明中的一个较佳实现方式中，提出了一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其步骤如下：

S1：构建模糊逻辑控制器，作为燃料电池和超级电容混合动力车的主控制器；所述模糊逻辑控制器以车辆需求功率P_dem和超级电容的荷电状态SoC为输入，将其分别模糊化到模糊域后再通过解模糊，得到分配比例系数u_f作为输出。

在该模糊逻辑控制器中，将车辆需求功率P_dem和超级电容的荷电状态SoC分别模糊化到模糊域I₁∈[0，1]，I₂∈[0，1]：

再采用Takagi-Sugeno-Kang模糊推理***及设定的模糊规则，通过重心去模糊化，计算模糊输出u_f。

在该Q增强学习补偿控制器中，状态空间、动作空间、奖励函数的具体设置如下：

状态空间设计为：

动作空间设计为：

奖励函数设计为：

根据超级电容的瞬时SoC状态设计奖励函数，形式如下：

P_FC＝(u_f+a)P_dem

其中a是Q增强学习补偿控制器输出的补偿动作，u_f+a≤1；

若超级电容的SoC低于SoC阈值，则燃料电池将在其功率范围内提供所有需求功率。

上述SoC阈值可根据需要调整，本发明中优选设为0.45。

1)基于当前时刻状态s_t选择的动作a_t计算t+1时刻的状态s_t+1和奖励值r_t+1，并利用Bellman公式更新t+1时刻的Q值Q_t+1；在选择动作a_t时，在行驶周期T的前一部分时刻(例如前10％时刻)按照概率ξ随机选出动作a_t，其余的时刻根据角定动作a_t，将其添加到Q-Learning模糊能量管理***输出中；

2)如果1)中得到的奖励值r_t+1是表明SoC＞SoC_max或SoC＜SoC_min的值，则当前行驶周期T中的学习过程立即中止，否则使t＝t+1后重复步骤1)，直到行驶周期T结束；根据最终学习完成得到的Q值表，在Q-Learning模糊能量管理***中计算目标函数J，其目标为在满足约束条件下，使得燃料电池的电流脉动最小且能耗最低。

在本发明中，目标函数J可设定如下：

s.t.P_FC+P_SC＝P_dem

0＜P_FC≤40kW

0＜i_FC≤150A

-5kW≤ΔP_FC≤5kW

-30kW≤P_SC≤30kW

-150A≤i_SC≤150A

v_FC≥60V

S46：以S41至S45得到的Q值表为最优初始值，同时为克服按照概率ξ随机选出动作a_t的影响，不断迭代重复步骤S42共Np次，直到完成所有Np次迭代后得到Np个Q值表；

下面将上述方法应用于一个具体实施例中，以展示其技术效果的实现。

实施例

本实施例针对燃料电池和超级电容混合动力车进行能源管理。

其中，燃料电池采用氢氧质子交换膜燃料电池(HO-PEMFC)，它是最典型的一类PEMFC，HO-PEMFC***由阴极，阳极和作为电解质的质子传导膜组成。HO-PEMFC总的输出电压(V_out)推导如下：

V_out＝N₀E_cell-V_act-V_ohm

V_act＝Bln(CI)，V_ohm＝IR_ohm

其中V_act是电化学活化电位损失，V_ohm是欧姆电压，N₀是串联的燃料电池的数量。B和C是用于计算V_act的常数，R_ohm和I分别是等效内阻和FC的输出电流。E_cell表示由能斯特方程计算得到的平衡电位电池，有如下计算：

其中P_H2，P_O2是氢气和氧气的有效压力常数，是每个电池的标准参考电压，T_e是工作环境温度，R_g是气体常数，k_E是温度常数，F是法拉第常数，一阶传导函数E_dcell表示为：

其中λ_e和τ_e分别是恒定系数和总流量的延迟系数。

燃料电池的氢消耗量计算公式如下：

其中M_H2是H2的分子质量，N_cell是电池数量，A_FC为反应的接触面积。为了分析FC的电流波动，计算FC的电流变化率R_I如下：

其中ΔI是在时间Δt内的电流变化。

SC的RC模型可以从制造商的数据表中获得。只要满足负载电阻匹配，SC输出功率就可以最大化，并计算出SC的SoC：

其中v是SC端电压，v_max是SC允许的最大电压。

以FTP-75工况(又称UDDS)、WVUSUB工况、HWFET工况及MANHATTAN工况4种典型循环工况为例，建立车辆运行实时能源管理***。

步骤(1).从Advisor软件中导出车辆在上述工况下的实时功率需求P_dem，一个形式周期即行程时长记为T。

步骤(2)：构建模糊逻辑控制器(FLC)作为主要的能源管理控制器

FLC具有两个输入：需求功率P_dem和SC的SoC，一个输出：模糊EMS分配比例系数u_f。当需求功率为正，且SC的SoC大于0.45，可以确保SC处于安全状态，此时，将执行能量管理控制。如果SC的SoC低于0.45，则燃料电池将在其功率范围内提供车辆运行所需功率。应用下式可将P_dem和SoC转换到模糊域I₁∈[0，1]，I₂∈[0，1]：

其中P_max是车辆运行的最大需求功率，SoC_min和SoC_max分别表示SoC的最小值和最大值。

根据专家经验，在高需求功率和超级电容低SoC情况下，燃料电池将提供尽可能多的功率，而在低功率要求和超级电容高SoC的情况下，燃料电池将提供相对较低的功率，以节省能耗。所设计的模糊规则表如下表1所示。

表1模糊控制器规则

采用Takagi-Sugeno-Kang模糊推理***及其模糊规则，通过重心法解模糊，计算模糊控制器输出：

其中规则表列数r₁为4，规则表行数r₂为3，和/>分别是采样时间t时SoC和P_dem的高斯隶属函数的输出，高斯函数μ(x；σ，c)＝exp(-||x-c||²/2σ²)，c，σ为隶属度函数的中心和宽度，模糊推理系数/>通过应用Mamdani乘积和最大的模糊推理方法得到。

步骤(3)构建Q增强学习补偿输出控制器，具体方法是：

a.设计状态空间。

选择车辆功率需求P_dem和超级电容SoC作为***状态，记作s，对连续状态离散化：

其中P_max表示车辆运行需求功率的最大值，d₁和d₂分别表示P_dem和SoC的离散维度，n₁和n₂代表状态数，离散化之后，P_d∈[1，n₁]，SoC_d∈[1，n₂]为离散化状态空间的索引值。

b.设计动作空间。

选择不同驾驶模式下的补偿输出量作为控制动作，将相同的离散化方法应用于补偿动作a输出变量：

其中d₃是Q增强学习控制器输出a的离散维度，n₃表示输出a的动作数，u_dmax和u_dmin是输出a的最大和最小值，k是动作a的索引值，该值通过最大化当前状态下Q值表获得。

c.设计奖励函数。

根据瞬时SoC状态设计奖励函数形式如下：

其中r_t表示t时刻的奖励回报值，ΔP＝P_dem-P_FC-P_SC，P_SC是SC提供的功率，ΔI是在时间Δt内的燃料电池电流变化。

d.设计迭代学习Q值表策略，即在状态s下，增强学习***依照所设计的策略选择动作a获得的期望回报值。

I.初始化Q值表Q(s_t，a_t)，设置最大学习周期N_p和驾驶周期T。

II.在前10％的驾驶循环中，按照概率ξ随机选出动作a_t，否则将其添加到模糊EMS输出中，计算状态s_t+1和奖励值r_t+1，并利用Bellman公式更新Q_t+1。

III.如果奖励值是-1000，则驾驶周期T中的学习过程将立即中止，否则重复步骤2直到驾驶周期T结束，Q_t+1(s_t，a_t)＝Q_t(s_t，a_t)+η(r_t+1-Q_t(s_t，a_t))就是学习完成的Q值表。

IV.重复步骤I到步骤III直到迭代次数n达到最大值n＝N_p。

迭代求解Q值表的过程属于现有技术，其核心是在状态s下，增强学习控制器依照策略选择动作a获得回报期望值。

Q(s_t，a_t)＝E(r_t+1+γr_t+2+γ²r_t+3+L|s_t，a_t)

其中，γ是折扣因子。用Bellman方程可迭代学习得到最大累积奖励的最优值函数Q^*：

其中第一部分是瞬时回报r_t+1，第二部分是考虑损失因子的下一状态Q(s_t+1，a_t+1)值。通过Bellman方程的迭代过程如下所示：

其中η∈(0，1)是学习速率，该值越大收敛越快，通过增强学习，Q_t将逐渐收敛到最佳值Q^*。

步骤(3)构建Q-Learning模糊能量管理***

结合S1中构建的模糊逻辑控制器和S2中构建的Q增强学习补偿控制器，建立Q-Learning模糊能量管理***。本发明提出的结合Q增强学习的模糊EMS策略的框架如图1所示。

在该EMS***中能量管理策略为：

若车辆需求功率P_dem为正且超级电容的荷电状态SoC大于SoC阈值，则由模糊逻辑控制器配合Q增强学习补偿输出控制器进行能量管理。基于输出的系数(u_f+a)计算不同时刻的燃料电池的输出功率P_FC：

P_FC＝(u_f+a)P_dem

其中a是Q增强学习补偿控制器输出的补偿动作，u_f+a≤1；

若超级电容的SoC低于SoC阈值，则燃料电池将在其自身功率范围内提供所有需求功率。

步骤(4)EMS离线训练

获取车辆在不同工况下行驶的实时功率需求，在各种工况下对Q-Learning模糊能量管理***进行离线训练，使其能对实时功率进行分配。

同时为了解决Q增强学习难以收敛的缺陷，训练过程中需引入遗传算法(GA)来初始化Q值表，实现对步骤(2)中的迭代学习Q值表策略的优化。GA算法的核心介绍如下：

a.个体编码和选择策略确定

Q值表为n₁×n₂×n₃矩阵，假设有N个个体，使用十进制编码形式，第i个个体(C_i)在(0，1)之间随机初始化，将第i个个体的参数代入目标函数，可得第i个个体的目标J_i，使用轮盘赌策略进行选择操作，其概率分布由目标函数确定：

其中f_i＝1/J_i为第i个个体的概率函数值。ξ∈(0，1)是随机数，若满足ξ＜p_i，则第i个个体将被选为父代个体。采用精英保留策略，经过N-1次赌轮盘选择，将产生N个父代个体。

b.交叉和变异操作

此后，在个体C_i和C_i+1之间以概率p_c进行交叉操作，然后产生新的个体C′_i和C′_i+1：

C′_i＝βC_i+(1-β)C_i+1

C′_i+1＝βC_i+1+(1-β)C_i

其中β为(0，1)之间的随机数。为了搜索得到更优的个体，在N个后代中以概率p_m进行变异操作。一旦C_i+1需要变异，其在Q值表中的对应值将在(0，1)之间随机产生。

c.改进Q增强学习算法

Q值表的初始值将通过GA算法优化得到，以减少不同初始化值对Q增强学习的影响。此外，为避免算法过快陷入局部最优值，在前10％的驾驶循环中，以概率ξ随机生成补偿动作，否则，通过最大化Q值函数获得补偿动作，迭代优化Q值表的学习过程。训练过程结束后，将对整个动作进行重新评估：

其中N_p是Q增强学习算法的迭代学习次数，以消除前10％驾驶周期中随机动作的影响。在该学习过程中具有最小R_total的Q值表选为最终的Q_bt。优化Q值表的学习过程重写为：

在本实施例中，在离线训练Q-Learning模糊能量管理***中的Q增强学习补偿控制器时，根据GA算法对Q增强学习策略的Q值表进行初始值优化的过程如下：

1)基于当前时刻状态s_t选择的动作a_t计算t+1时刻的状态s_t+1和奖励值r_t+1，并利用Bellman公式更新t+1时刻的Q值Q_t+1；在选择动作a_t时，在行驶周期T的前一部分时刻按照概率ξ随机选出动作a_t，其余的时刻根据确定动作a_t，将其添加到Q-Learning模糊能量管理***输出中。

2)如果1)中得到的奖励值r_t+1是表明SoC＞SoC_max或SoC＜SoC_min的值，即r_t+1＝-1000，则当前行驶周期T中的学习过程立即中止，否则使t＝t+1后重复步骤1)，直到行驶周期T结束；根据最终学习完成得到的Q值表，在Q-Learning模糊能量管理***中计算目标函数J，其目标为在满足约束条件下，使得燃料电池的电流脉动最小且能耗最低。

本实施例中，设置目标函数J如下：

s.t.P_FC+P_SC＝P_dem

0＜P_FC≤40kW

0＜i_FC≤150A

-5kW≤ΔP_FC≤5kW

-30kW≤P_SC≤30kW

-150A≤i_SC≤150A

v_FC≥60V

其中：T是行驶周期，即离线优化过程中，混合动力汽车驾驶全程的采样时刻数；ΔP_FC是t时刻FC的功率变化，ΔP_FC＝P_FC(t)-P_FC(t-1)；i_FC，i_sC分别是燃料电池和超级电容的电流；ΔI(t)＝i_FC(t)-i_FC(t-1)是t时刻燃料电池的电流变化；ω是权重系数。将上述等式和不等式约束条件作为惩罚函数，将其添加到目标函数J中。

S43：对N个Q值表个体执行赌轮盘选择和精英保留策略，以产生交叉和变异算子的父代。

S44：在执行S43后产生的N个后代中分别以概率P_c和P_m执行交叉操作和变异操作，更新Q值表个体，完成一代进化。

S45：不断重复执行步骤S42至S44，直到达到最大进化代数G，获得当前行驶周期T的Q值表。

S46：以S41至S45得到的Q值表为最优初始值，同时为克服按照概率ξ随机选出动作a_t的影响，不断迭代重复步骤S42共Np次，直到完成所有Np次迭代后得到Np个Q值表；重复步骤S42～S45，直到完成所有Np次迭代，每一次迭代都会产生一个Q值表，由此可以得到Np个Q值表。Np的具体数值可根据需要确定。

步骤(5)最优Q值表Qb确定

在Np个Q值表中，以行驶周期中燃料电池的能耗总和最低为标准，选出最优Q值表Qb。燃油消耗总和的计算方法为：

在后续学习过程中将具有最小R_total的Q值表记为Q_bt，即可根据Bellman方程更新学习过程：

步骤(6)不同工况的车辆在线能量管理

基于步骤(5)中的最优Q值表Qb，利用Q-Learning模糊能量管理***对车辆的燃料电池和超级电容输出功率进行在线调节。不同工况的能量输出可以基于最优Q值表Qb和Q-Learning算法得出的动作a进行调节，燃料电池输出的功率为：

P_FC＝(u_f+a)P_dem

根据上述步骤(1)～(6)给出的GA算法和模糊能源管理控制算法，从ADVISOR获得数据后，在MATLAB中对所设计的EMS进行仿真。表2给出了Q增强学习模糊EMS和GA算法的主要参数，其中大部分数值是通过反复试验得出的。

表2算法主要参数设置

参数类型	设置值	参数类型	设置值	参数类型	设置值
						G	100	n₁	11	ξ	0.01
N	30	n₂	7	[u_dmax，u_dmin]	[0.1，0.6]
						pc	0.9	n₃	11	γ	0.001
p_m	0.1	ε	0.1	η	0.99
						ω	0.1	Np	2000	T	4500

图2到图5显示了测试周期下的实时能量管理结果。图2给出了本发明方法的实时能源管理功率误差分布，误差数量级为10^-12，几乎为0。图3为SC的实时SoC分布，可见其处于安全范围[0.45，0.9]内。

为便于不同能源管理策略进行性能比较，选择另外2种方法进行对比。方法1：Q增强学习EMS且SC的SoC安全范围设置为[0.5，1]。方法2：基于神经网络分类器的模糊EMS，其中神经网络进行实时驾驶模式识别，且模糊EMS参数进行了优化以减少电流波动和H2消耗。在对比测试时，给定了相同的训练和测试数据。图4是车辆运行实时需求功率的能源管理误差对比图。显然，三种方法都可以满足车辆运行所需的功率要求。在这三种方法中，单纯的Q增强学习EMS的误差要大于我们的Q增强学习模糊EMS以及基于神经网络的模糊EMS。图5的SoC分布比较可见，本发明方法SoC相对较低，有利于进行能量回收以及提供更多的超级电容能量，也和表3中，本发明方法消耗氢气最少的结果一致。表3列出了3种方法的统计比较结果，主要比较了燃料电池的电流电压变化量均方值(ΔI，ΔV)、氢气消耗量(H2)、以及功率误差均方值。

表3：三种方法的统计结果

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，步骤如下：

P_FC＝(u_f+a)P_dem

其中a是Q增强学习补偿控制器输出的补偿动作，u_f+a≤1；

2)如果1)中得到的奖励值r_t+1是表明SoC＞SoC_max或SoC<SoC_min的值，则当前行驶周期T中的学习过程立即中止，否则使t＝t+1后重复步骤1)，直到行驶周期T结束；根据最终学习完成得到的Q值表，在Q-Learning模糊能量管理***中计算目标函数J，其目标为在满足约束条件下，使得燃料电池的电流脉动最小且能耗最低；

S46：以S41至S45得到的Q值表为最优初始值，同时为克服按照概率ξ随机选出动作at的影响，不断迭代重复步骤S42，直到完成所有Np次迭代，得到Np个Q值表值；

2.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，所述S1的模糊逻辑控制器中，将车辆需求功率P_dem和超级电容的荷电状态SoC分别模糊化到模糊域I₁∈[0，1]，I₂∈[0，1]：

3.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，所述S2的Q增强学习补偿控制器中，所述状态空间设计为：

4.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，所述S2的Q增强学习补偿控制器中，所述动作空间设计为：

a＝kd₃+u_dmin，

5.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，所述S2的Q增强学习补偿控制器中，所述奖励函数根据超级电容的瞬时SoC状态设计得到，形式如下：

6.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，所述S3中，SoC阈值为0.45。

7.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，所述S42的步骤1)中，在行驶周期T的前10％时刻按照概率ξ随机选出动作a_t。

8.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法，其特征在于，所述S42的步骤2)中，目标函数J设定为：

s.t.P_FC+P_SC＝P_dem

0<P_FC≤40kW

0<i_FC≤150A

-5kW≤ΔP_FC≤5kW

-30kW≤P_SC≤30kW

-150A≤i_SC≤150A

v_FC≥60V