CN111584906B

CN111584906B - 一种基于深度强化学习的燃料电池***的燃料供给方法

Info

Publication number: CN111584906B
Application number: CN202010353990.2A
Authority: CN
Inventors: 周健豪; 廖宇晖; 刘军; 张仁鹏; 薛源; 薛四伍; 顾诚; 孙开培
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-06-27
Anticipated expiration: 2040-04-29
Also published as: CN111584906A

Abstract

本发明实施例公开了一种基于深度强化学习的燃料电池***的燃料供给方法，涉及燃料电池技术领域，能够改善燃料电池的使用效率和寿命。本发明包括：获取燃料电池***的工况数据的样本集合，根据工况数据的样本集合得到功率需求，DDPG控制器的目标为：在燃料电池***输出功率，满足能量控制策略需求功率的同时，保持过氧比在预设范围内，工况预测模型包括：氢气流量控制阀模型、空气压缩机模型和燃料电池***模型；将实际的工况数据输入工况预测模型，得到速度预测序列；利用速度预测序列，得到燃料电池***的实际功率需求，并根据实际功率需求控制燃料电池***的氢气流量阀和空气压缩机。本发明适用于氢燃料电池***。

Description

一种基于深度强化学习的燃料电池***的燃料供给方法

技术领域

本发明涉及燃料电池技术领域，尤其涉及一种基于深度强化学习中的确定性策略梯度(DDPG)的燃料电池***的燃料供给方法。

背景技术

在能源逐渐枯竭的今天，传统的化石燃料载具也在尝试变革，新能源汽车、电驱动飞行器、新能源船舶等应运而生，而氢燃料电池混合动力***，则是其中的一种能源解决方案。

而目前燃料电池***的燃料供给方法，大多是各种智能算法来控制空气压缩机的电压，目的是为了跟随最佳的过氧比。该种控制方法可以较为优秀的保证燃料电池的工作效率和使用寿命。

但是，这种燃料电池***的燃料供给方法也存在一些问题：由于燃料电池***的目的只是跟随最佳过氧比，而由于附件损耗的问题，氢气的供给只是简单的按照一定的比例过量通入，不能够准确及时的满足由能量控制策略分配的燃料电池***的功率需求。因此，需要突破传统方案的桎梏，进一步现多控制量、多目标的控制。

发明内容

本发明的实施例提供一种基于深度强化学习的燃料电池***的燃料供给方法，能够及时准确的满足能量控制策略分配的燃料电池功率需求，且燃料电池***的过氧比能很好的跟随最佳过氧比，改善燃料电池的使用效率和寿命。

为达到上述目的，本发明的实施例采用如下技术方案：

获取燃料电池***的工况数据的样本集合，根据所述工况数据的样本集合得到功率需求，其中，所述工况数据至少包括：速度信息；利用DDPG控制器和所述功率需求，训练工况预测模型，其中，所述DDPG控制器的目标为：在燃料电池***输出功率，满足能量控制策略需求功率的同时，保持过氧比在预设范围内，所述工况预测模型包括：氢气流量控制阀模型、空气压缩机模型和燃料电池***模型；将实际的工况数据输入所述工况预测模型，得到速度预测序列；利用所述速度预测序列，得到所述燃料电池***的实际功率需求，并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机。

本发明实施例，属于燃料电池***燃料供给控制领域，其主要的设计思路包括：建立氢气流量控制阀模型、空气压缩机模型以及燃料电池***模型，建立DDPG控制器，确定DDPG控制器观测量、动作量、程序提前终止条件还有回报函数的参数，并训练基于DDPG的燃料电池***燃料供给模型，通过车速预测神经网络得到未来车速，通过DDPG控制器控制汽车行驶。燃料电池***可以有效的在考虑了附件损耗的前提下，及时准确的满足能量控制策略分配的燃料电池功率需求，且燃料电池***的过氧比能很好的跟随最佳过氧比，改善燃料电池的使用效率和寿命。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的基于DDPG的燃料电池***燃料供给流程图；

图2为本发明实施例提供的氢气供给、空气供给以及燃料电池***模型图；

图3为本发明实施例提供的DDPG控制器参数设置图；

图4为本发明实施例提供的基于DDPG算法的燃料电池***燃料供给模型训练流程图；

图5为本发明实施例提供的DDPG算法更新流程图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明实施例提供一种基于深度强化学习的燃料电池***的燃料供给方法，包括：

S1、获取燃料电池***的工况数据的样本集合，根据所述工况数据的样本集合得到功率需求。

其中，所述工况数据至少包括：速度信息，例如搭载了燃料电池***的车辆的驶速度信息，将其转变为功率需求，并根据预设的能量控制策略，可以得到典型工况的燃料电池***的功率需求，用于模型训练。

S2、利用DDPG控制器和所述功率需求，训练工况预测模型。

其中，所述DDPG控制器的目标为：在燃料电池***输出功率，满足能量控制策略需求功率的同时，保持过氧比在预设范围内，所述工况预测模型包括：氢气流量控制阀模型、空气压缩机模型和燃料电池***模型。

保持过氧比在预设范围内，包括：通过理论计算，得到最佳过氧比的数值，保持燃料电池的实际过氧比与最佳过氧比一致，在实际的自动控制中，保持一致不等于燃料电池的实际过氧比与最佳过氧比的数值始终等同，实际过氧比是在以最佳过氧比为中点的一定范围内波动的，而这个波动的范围则可以称为“预设范围”。

S3、将实际的工况数据输入所述工况预测模型，得到速度预测序列。

S4、利用所述速度预测序列，得到所述燃料电池***的实际功率需求，并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机。

本发明实施例，属于燃料电池***燃料供给控制领域，其主要的设计思路包括：建立氢气流量控制阀模型、空气压缩机模型以及燃料电池***模型，建立DDPG控制器，确定DDPG控制器观测量、动作量、程序提前终止条件还有回报函数的参数，并训练基于DDPG的燃料电池***燃料供给模型，通过车速预测神经网络得到未来车速，通过DDPG控制器控制汽车行驶。采用本发明，燃料电池***可以有效的在考虑了附件损耗的前提下，及时准确的满足能量控制策略分配的燃料电池功率需求，且燃料电池***的过氧比能很好的跟随最佳过氧比，保证燃料电池的使用效率和寿命最佳。

在本实施例中，还包括获取氢气流量控制阀模型：

获取所述氢气流量控制阀的控制输入信号W_fcv＝u_fcvW_fcv,max。

其中，在供给歧管中，认为没有水蒸气或者液态水存在。u_fcv是氢气流量阀的控制电压，范围是0～1。W_fcv,max是喷嘴全开时的质量流量，所述氢气流量控制阀为可变开度喷嘴。

获取氢气在供给歧管中的动态过程

是阳极供给歧管中氢气的压力，/>

是氢气的气体常数，T_sm是供给歧管温度，V_sm是供给歧管的体积，/>

是进入阳极供给管道的氢气质量流，/>

是阳极供给歧管流出的氢气质量流，参数的下角标sm，为供给歧管(Supply manifold)的缩写。

在本实施例中，还包括获取空气压缩机模型：

所述空气压缩机的模型包括：

其中，ω_cp是空气压缩机的转速，下角标cp表示空气压缩机，J_cp是空气压缩机旋转部件的转动惯量，τ_cm是空气压缩机电机的扭矩，τ_cp是空气压缩机输出端的扭矩，P_sm是空气供给歧管的压力，R_a是空气气体常数，a表示空气Air，V_sm是空气供给歧管的容积，T_cp,out是离开空气压缩机的空气温度，W_cp,out是离开空气压缩机的空气质量流，T_sm,out是空气供给歧管的空气温度，W_sm,out是空气供给歧管的质量流。空气压缩机的流量是由输入空气压缩机的电压以及空气供给歧管的压力所决定的，且认为空气压缩机产生的质量流与离开空气压缩机的质量流一致。

所述空气压缩机的扭矩由输入所述空气压缩机的电压进行控制：

其中，u为输入空气压缩机的电压，η_cm为空气压缩机的效率，R_cm为空气压缩机内部电阻，k_t和k_v都表示空气压缩机电机常数，下角标t、v没有特殊含义，仅用于区分两个不同的参数，通过参数的下角标区分的，k_t表示时间相关的常数，k_v表示电压相关的常数。

所述空气压缩机产生的空气质量流为：

其中，ω_c为空气压缩机叶尖速度，下角标c表示Compressor，d_c为空气压缩机直径，W_cp为空气压缩机产生的空气质量流，φ为标准化空气压缩机流量比例，ρ_a为空气密度。

在本实施例中，所述氢气流量阀的质量流为进入阳极供给歧管中的氢气质量流，则

当所述阳极供给歧管流出的氢气质量流，全部进入燃料电池时：

当所述空气压缩机产生的质量流与离开空气压缩机的质量流一致时：W_cp＝W_cp,out。

进入燃料电池阴极的质量流包括氧气流、氮气流和水蒸气流：

其中，/>

是进入燃料电池的水蒸气质量流，/>

是进入燃料电池的氧气质量流，/>

是进入燃料电池阴极的氮气质量流。

进一步的，本实施例中还包括获取燃料电池***模型：燃料电池***的模型主要包括阳极的氢气分压、阴极的氧气和氮气分压还有燃料电池排气歧管处的压力。所述燃料电池***的模型包括：

其中，

是燃料电池阳极的氢气分压，/>

是进入燃料电池的氢气质量流，

是发生化学反应产生电流的氢气质量流，/>

是离开燃料电池阳极部分的氢气质量流，/>

是燃料电池阴极的氧气分压，/>

是发生化学反应产生电流的氧气质量流，

是离开燃料电池阴极的氧气质量流，/>

是燃料电池阴极的氮气分压，/>

是离开燃料电池阴极的氮气质量流，T_st是燃料电池电堆的温度，下角标st表示电堆(Stack)，V_rm是排气歧管容积，下角标rm为Return manifold的缩写，W_ca,out是燃料电池阴极出口质量流，下角标ca表示阴极(Cathode)，W_rm,out是排气歧管出口质量流，P_rm是排气歧管处压力。

在本实施例的优选方案中，所述燃料电池***的最佳的过氧比为2，氧气质量流与氢气质量流的关系为：

下角标react表示反应(React)。其具体的原理在于，由于当过氧比小于1甚至略微大于1的时候，都会造成氧饥饿的现象，损害燃料电池的质子交换膜，所以最佳的过氧比是在2附近随着电流的变化而改变。且认为进入燃料电池的氢气与氧气满足1：2时就会立即反应产生电流，则进入燃料电池的氢气将会全部反应无多余氢气排出，则发生化学反应产生电流的氧气质量流与氢气质量流的关系为：

进一步获取燃料电池***的电压：

其中，V_fc为燃料电池***电压，E为能斯特电压，v_act为活化损失，v_ohm为欧姆损失，v_conc为浓差极化损失，下角标act、ohm、conc，分别表示：活化的(Active)、欧姆(Ohm)、浓差(concentration)。

所述燃料电池***的电流与进入燃料电池的氢气质量的关系为：

所述燃料电池***当前的功率则表示为燃料电池***电压与电流的乘积：P＝V_fcI_st-P_au。

式中P_au为燃料电池附件所消耗的功率。

在本实施例中，在利用DDPG控制器和所述功率需求，训练工况预测模型的过程中，包括：

建立DDPG控制器，并将所述DDPG控制器的目标设置为实际燃料电池***输出功率满足能量控制策略需求功率同时保持最佳过氧比。

通过所述DDPG控制器训练所述燃料电池***的燃料供给模型。

其中，所述最佳过氧比为：进入所述燃料电池的氧气与发生化学反应产生电流的氧气的比例为：

其中，为了保证燃料电池的质子交换膜不受到损坏，且保证最大的燃料电池效率，所述最佳过氧比与电流的关系应维持在：

具体的，对所述DDPG控制器的目标进行设置，包括：定义DDPG控制器中的参数，包括：观测量(observation)、控制量(action)、程序提前终止条件(isdone)和回报函数(reward)。构建所述DDPG控制器的用于模型训练的双层神经网络。其中，所述的双层神经网络具体是指：

先依据策略梯度(Policy Gradient)原理建立双层网络结构评论(Critic)网络和行动(Actor)网络，其中行动(Actor)网络根据输入的状态s可以得到动作的输出a＝μ(s|θ^μ)，评论(Critic)网络通过计算值的函数Q函数Q(s,a|θ^Q)，并根据根据输入的状态s、动作a，可以得到Q值Q(s,a|θ^Q)。同时在评论(Critic)网络和行动(Actor)网络里再建立一个双层网络结构分为实时(Online)网络和目标(Target)网络。在评论(Critic)网络和行动(Actor)网络各自的内部，目标(Target)网络和实时(Online)网络的结构是相同的。

在本实施例中，所述观测量(observation)包括：燃料电池***的需求功率P_ref，燃料电池***实际输出功率P，电池***实际输出功率与燃料电池***需求功率的差值ΔP，燃料电池***实际输出功率P与燃料电池***需求功率的差值的变化率

最佳过氧比

参数下角标中的ref为reference的缩写，"参考"的意思，即最佳过氧比是一个理论计算得到的参考值。当前燃料电池***的过氧比/>

当前燃料电池***的过氧比与最佳过氧比的差值/>

当前燃料电池***的过氧比与最佳过氧比的差值的变化率/>

所述控制量(action)包括：氢气流量阀的控制电压u_fcv，和输入空气压缩机的电压u，其中，u_fcv的下角标中的fcv，为燃料控制阀(Fuel control valve)的缩写。

所述程序提前终止条件(isdone)包括：当燃料电池***的过氧比

时提前终止程序。

所述回报函数(reward)如下：

M_t表示惩罚项，当

的时候，M_t＝1，否则M_t＝0。M_s为奖励项，当/>

的时候，M_s＝1，否则M_s＝0。M_d也是奖励项，当/>

的时候，M_d＝1，否则M_d＝0，M_t、M_s、M_d的下角标t、s、d没有特殊的含义，仅用于区分这三个不同参数。

本实施例中所述的能量控制策略，可以基于具体的应用场景灵活设定，例如：采用市面上正在采用的简单可靠的基于规则的能量控制策略，维持电池的SOC稳定，仅用电池辅助汽车行驶。

本实施例步骤S2中，利用DDPG控制器和所述功率需求，训练工况预测模型，可以理解为：对实时评论(Online Critic)网络和实时行动(Online Actor)网络的参数θ^Q、θ^μ进行随机初始化。通过这两个网络参数θ^Q和θ^μ来初始化目标评论(Target Critic)网络和目标行动(Target Actor)网络的网络参数θ^Q′和θ^μ′，同时建立一个储存空间R作为经验回放(Memory Replay)的储存空间。

初始化完成后，开始进行迭代求解：

通过当前网络加上高斯扰动选择一个动作进行探索，动作a_t＝μ(s|θ^μ)+N_t，其中Nt是一个高斯扰动。

在当前状态s_t下执行动作a_t，得到相应的奖励r_t和下一个状态s_t+1，并且将这个过程形成的元组(s_t,a_t,r_t,s_t+1)储存到经验回放(Memory Replay)空间R中。

从经验回放(Memory Replay)空间R随机选择一个小批量的元组数据，作为实时行动(Online Actor)网络和实时评论(Online Critic)网络的训练数据，用(s_i,a_i,r_i,s_i+1)表示单个数据。s_i为状态，a_i为执行动作，r_i为相应的奖励，s_i+1为下一个状态。

下面是关于评论(Critic)网络和行动(Actor)网络的更新：

先进行实时评论(Online Critic)网络的更新：

将当前的状态s_t输入实时行动(OnlineActor)网络，可以得到当前的动作a_t。将当前的状态s_t和动作a_t输入实时评论(Online Critic)网络可以得到当前的Q值Q(s_t,a_t|θ^Q)。

将下一时刻的状态s_t+1输入目标行动(Target Actor)网络可以得到一个动作a_t′＝μ′(s_t+1|θ^μ′)，将这个动作a_t′和下一时刻的状态s_t+1输入到目标评论(Target Critic)网络可以得到一个Q值Q′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)，将这个Q值乘上一个学习率γ，加上当前的动作获得的奖励，就可以得到目标的Q值y_t：

y_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)

定义实时评论(Online Critic)网络损失(Loss)函数：

其中N为元组数据个数。

通过最小化损失(Loss)函数来更新实时评论(Online Critic)网络。

更新实时评论(Online Critic)网络结束后，再进行实时行动(Online Actor)网络的更新：

计算J关于θ^μ的梯度：

依据策略梯度(Policy Gradient)的原理对实时行动(Online Actor)网络进行更新。

最后利用更新完成的实时评论(Online Critic)网络和实时行动(Online Actor)网络的参数θ^Q和θ^μ对目标评论(Target Critic)网络和目标行动(Target Actor)网络的网络参数θ^Q′和θ^μ′进行更新，更新的模式为逐步的缓慢的更新：

式中：τ为更新率，τ远小于1，由此构建一个收敛的神经网络。

计算在当前氢气与空气过量供给系数下的总回报，当总回报达到设定值且收敛或者达到最大训练步数以后，训练结束。当总回报达到设定值且收敛时，此时氢气流量阀的控制电压以及输入空气压缩机的电压对于燃料电池***的输出功率跟随需求功率还有燃料电池***的过氧比跟随最佳过氧比的效果最好。

本实施例步骤S4中，利用所述速度预测序列，得到所述燃料电池***的实际功率需求，并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机，可以理解为：

先建立神经网络工况预测模型。再通过相关传感器获取汽车的历史车速序列，通过神经网络工况预测模型输出未来车速预测序列。之后，将获取的未来汽车行驶车速作用于当前遵循的能量控制策略，导出燃料电池***功率需求。然后，获取当前时刻车辆状态的相关信息，完成DDPG控制器中observation的数据采集，作用于已训练完成的DDPG控制器，控制氢气流量阀以及空气压缩机输出。

结合具体举例，说明上述实施例在实际应用场景中的实现方式：

图1是基于DDPG的燃料电池***燃料供给方法的流程，按照流程示意图，可以完成对基于DDPG的燃料电池***燃料供给方法的设计：

步骤101，建立氢气流量控制阀模型、空气压缩机模型以及燃料电池***模型。

图2是氢气流量控制阀模型、空气压缩机模型以及燃料电池***的具体模型，其详细的模型状态空间方程如下：

氢气流量控制阀为可变开度喷嘴，其模型在稳态下的控制输入信号的线性方程：

W_fcv＝u_fcvW_fcv,max

式中，u_fcv是氢气流量阀的控制电压，范围是0～1。W_fcv,max是喷嘴全开时的质量流量。

在供给歧管中，认为没有水蒸气或者液态水存在，则氢气在供给歧管中的动态过程为：

式中，

是阳极供给歧管中氢气的压力，/>

是进入阳极供给管道的氢气质量流，/>

是阳极供给歧管流出的氢气质量流。

认为氢气流量阀的质量流为进入阳极供给歧管中的氢气质量流：

认为在阳极供给歧管流出的氢气质量流，全部进入燃料电池。

空气压缩机的模型包括：

式中，ω_cp是空气压缩机的转速，J_cp是空气压缩机旋转部件的转动惯量，τ_cm是空气压缩机电机的扭矩，τ_cp是空气压缩机输出端的扭矩，P_sm是空气供给歧管的压力，R_a是空气气体常数，V_sm是空气供给歧管的容积，T_cp,out是离开空气压缩机的空气温度，W_cp,out是离开空气压缩机的空气质量流，T_sm,out是空气供给歧管的空气温度，W_sm,out是空气供给歧管的质量流。

其中空气压缩机的扭矩由输入空气压缩机的电压进行控制：

式中：u为输入空气压缩机的电压，η_cm为空气压缩机的效率，R_cm为空气压缩机内部电阻。

空气压缩机产生的空气质量流如下：

式中ω_c为空气压缩机叶尖速度，d_c为空气压缩机直径，W_cp为空气压缩机产生的空气质量流，φ为标准化空气压缩机流量比例，ρ_a为空气密度。

认为空气压缩机产生的质量流与离开空气压缩机的质量流一致：

W_cp＝W_cp,out

燃料电池***的模型包括：

是燃料电池阳极的氢气分压，/>

是进入燃料电池的氢气质量流，/>

是发生化学反应产生电流的氢气质量流，/>

是离开燃料电池阳极部分的氢气质量流，/>

是燃料电池阴极的氧气分压，/>

是进入燃料电池的氧气质量流，/>

是发生化学反应产生电流的氧气质量流，/>

是离开燃料电池阴极的氧气质量流，/>

是燃料电池阴极的氮气分压，/>

是进入燃料电池阴极的氮气质量流，/>

是离开燃料电池阴极的氮气质量流，T_st是燃料电池电堆的温度，V_rm是排气歧管容积，W_ca,out是燃料电池阴极出口质量流，W_rm,out是排气歧管出口质量流。

由于当过氧比小于1甚至略微大于1的时候，都会造成氧饥饿的现象，损害燃料电池的质子交换膜，所以最佳的过氧比是在2附近随着电流的变化而改变。

且认为进入燃料电池的氢气与氧气满足1：2时就会立即反应产生电流，则进入燃料电池的氢气将会全部反应无多余氢气排出，则发生化学反应产生电流的氧气质量流与氢气质量流的关系为：

则可以得到燃料电池***的电流是由进入燃料电池的氢气质量流所决定的，有以下关系：

燃料电池***的电压如下：

式中V_fc为燃料电池***电压，E为能斯特电压，v_act为活化损失，v_ohm为欧姆损失，v_conc为浓差极化损失。

则燃料电池***当前的功率可以表示为：

P＝V_fcI_st-P_au

式中P_au为燃料电池附件所消耗的功率。

所述的最佳过氧比具体是指：

进入燃料电池的氧气与发生化学反应产生电流的氧气的比例称为过氧比：

其中为了保证燃料电池的质子交换膜不受到损坏，且保证最大的燃料电池效率，最佳过氧比与电流的关系应保证：

步骤102，利用深度确定性策略梯度(DDPG)算法，建立DDPG控制器，目标为实际燃料电池***输出功率满足能量控制策略需求功率同时保持最佳过氧比。

图3是DDPG控制器参数设置图，请参见图3，所述的DDPG控制器具体是指：

步骤401：定义DDPG控制器中的参数，包括：

观测量(observation)、控制量(action)、程序提前终止条件(isdone)和回报函数(reward)。

步骤402：构建用于模型训练的双层神经网络。

所述的观测量(observation)、控制量(action)、程序提前终止条件(isdone)和回报函数(reward)具体是指：

观测量(observation)包括：燃料电池***的需求功率P_ref，燃料电池***实际输出功率P，电池***实际输出功率与燃料电池***需求功率的差值ΔP，燃料电池***实际输出功率P与燃料电池***需求功率的差值的变化率ΔP，最佳过氧比

当前燃料电池***的过氧比/>

当前燃料电池***的过氧比与最佳过氧比的差值/>

当前燃料电池***的过氧比与最佳过氧比的差值的变化率/>

控制量(action)包括：氢气流量阀的控制电压u_fcv，输入空气压缩机的电压u；

程序提前终止条件(isdone)包括：当燃料电池***的过氧比

时提前终止程序。

所述回报函数(reward)如下：

M_t表示惩罚项，当

的时候，M_t＝1，否则M_t＝0。M_s为奖励项，当/>

的时候，M_s＝1，否则M_s＝0。M_d也是奖励项，当/>

的时候，M_d＝1，否则M_d＝0。

图4是基于DDPG算法的燃料电池***燃料供给模型训练流程图，请参见图4，开始训练之前需要建立神经网络，所述的建立的双层神经网络具体是指：

先依据策略梯度(Policy Gradient)原理建立双层网络结构评论(Critic)网络和行动(Actor)网络，其中行动(Actor)网络根据输入的状态s可以得到动作的输出a＝μ(s|θ^μ)，评论(Critic)网络通过计算值的函数Q函数Q(s,a|θ^Q)，并根据根据输入的状态s、动作a，可以得到Q值Q(s，a|θ^Q)。

同时在评论(Critic)网络和行动(Actor)网络里再建立一个双层网络结构分为实时(Online)网络和目标(Target)网络。在评论(Critic)网络和行动(Actor)网络各自的内部，目标(Target)网络和实时(Online)网络的结构是相同的。

步骤103，获取氢燃料电池混合动力汽车的典型工况行驶速度信息，将其转变为功率需求，并根据预设的能量控制策略，可以得到典型工况的燃料电池***的功率需求，用于模型训练。

获取氢燃料电池混合动力汽车的典型工况行驶速度信息，将其转变为功率需求主要是通过驾驶员模型，将速度信息转变为踩下踏板的行程，从而转变为功率需求

依据的能量控制策略具体是指：

采用市面上正在采用的简单可靠的基于规则的能量控制策略，维持电池的SOC稳定，仅用电池辅助汽车行驶。

步骤104，基于建立好的双层神经网络，训练基于DDPG的燃料电池***燃料供给模型，具体包括：

图4所述的训练神经网络包括：

对实时评论(Online Critic)网络和实时行动(Online Actor)网络的参数θ^Q、θ^μ进行随机初始化。通过这两个网络参数θ^Q和θ^μ来初始化目标评论(Target Critic)网络和目标行动(Target Actor)网络的网络参数θ^Q′和θ^μ′，同时建立一个储存空间R作为经验回放(Memory Replay)的储存空间。

初始化完成后，开始进行迭代求解：

图5是DDPG算法网络更新流程图，请参见图5，关于评论(Critic)网络和行动(Actor)网络的更新如下：

先进行实时评论(Online Critic)网络的更新：

将下一时刻的状态s_t+1输入目标行动(Target Actor)网络可以得到一个动作a_t′＝μ′(s_t+1|θ^μ′)，将这个动作a_t′和下一时刻的状态st+1输入到目标评论(Target Critic)网络可以得到一个Q值Q′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)，将这个Q值乘上一个学习率γ，加上当前的动作获得的奖励，就可以得到目标的Q值y_t：

y_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)

定义实时评论(Online Critic)网络损失(Loss)函数：

其中N为元组数据个数。

通过最小化损失(Loss)函数来更新实时评论(Online Critic)网络。

计算J关于θ^μ的梯度：

步骤105，建立神经网络工况预测模型，通过历史工况对汽车未来行驶工况进行预测，具体包括：

步骤901：建立神经网络工况预测模型。

步骤902：通过相关传感器获取汽车的历史车速序列，通过神经网络工况预测模型输出未来车速预测序列。

步骤903：将获取的未来汽车行驶车速作用于当前遵循的能量控制策略，导出燃料电池***功率需求。

步骤904：获取当前时刻车辆状态的相关信息，完成DDPG控制器中observation的数据采集，作用于已训练完成的DDPG控制器，控制氢气流量阀以及空气压缩机输出。

步骤905：如此重复步骤902至步骤904，直至汽车完成行驶任务。

本发明实施例中，能够进一步实现多控制量、多目标的控制。能够准确及时的在考虑了附件损耗的前提下，满足燃料电池混合电动汽车的能量控制策略分配给的燃料电池***的功率需求，且依旧能够较好的跟随燃料电池***最佳的过氧比。在准确及时的达到所需功率的同时，能够最大限度的提升燃料电池的使用效率和使用寿命。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的燃料电池***的燃料供给方法，其特征在于，包括：

获取燃料电池***的工况数据的样本集合，根据所述工况数据的样本集合得到功率需求，其中，所述工况数据至少包括：速度信息；

利用DDPG控制器和所述功率需求，训练工况预测模型，其中，所述DDPG控制器的目标为：在燃料电池***输出功率，满足能量控制策略需求功率的同时，保持过氧比在预设范围内，所述工况预测模型包括：氢气流量控制阀模型、空气压缩机模型和燃料电池***模型；

将实际的工况数据输入所述工况预测模型，得到速度预测序列；

利用所述速度预测序列，得到所述燃料电池***的实际功率需求，并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机；

还包括获取氢气流量控制阀模型：

获取所述氢气流量控制阀的控制输入信号W_fcv＝u_fcvW_fcv,max，其中，W_fcv表示控制输入信号，u_fcv是氢气流量阀的控制电压，范围是0～1；W_fcv,max是喷嘴全开时的质量流量，所述氢气流量控制阀为可变开度喷嘴；

获取氢气在供给歧管中的动态过程

其中，/>

是阳极供给歧管中氢气的压力，/>

是进入阳极供给管道的氢气质量流，/>

是阳极供给歧管流出的氢气质量流；

还包括获取空气压缩机模型：

所述空气压缩机的模型包括：

其中，ω_cp是空气压缩机的转速，J_cp是空气压缩机旋转部件的转动惯量，τ_cm是空气压缩机电机的扭矩，τ_cp是空气压缩机输出端的扭矩，P_sm是空气供给歧管的压力，R_a是空气气体常数，V_sm是空气供给歧管的容积，T_cp,out是离开空气压缩机的空气温度，W_cp,out是离开空气压缩机的空气质量流，T_sm,out是空气供给歧管的空气温度，W_sm,out是空气供给歧管的质量流；