CN111584906B - 一种基于深度强化学习的燃料电池***的燃料供给方法 - Google Patents
一种基于深度强化学习的燃料电池***的燃料供给方法 Download PDFInfo
- Publication number
- CN111584906B CN111584906B CN202010353990.2A CN202010353990A CN111584906B CN 111584906 B CN111584906 B CN 111584906B CN 202010353990 A CN202010353990 A CN 202010353990A CN 111584906 B CN111584906 B CN 111584906B
- Authority
- CN
- China
- Prior art keywords
- fuel cell
- cell system
- air compressor
- mass flow
- hydrogen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000446 fuel Substances 0.000 title claims abstract description 212
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002787 reinforcement Effects 0.000 title claims abstract description 7
- 239000001257 hydrogen Substances 0.000 claims abstract description 86
- 229910052739 hydrogen Inorganic materials 0.000 claims abstract description 86
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims abstract description 81
- 125000000864 peroxy group Chemical group O(O*)* 0.000 claims abstract description 35
- 238000011217 control strategy Methods 0.000 claims abstract description 18
- 230000009471 action Effects 0.000 claims description 59
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 27
- 239000001301 oxygen Substances 0.000 claims description 27
- 229910052760 oxygen Inorganic materials 0.000 claims description 27
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 26
- 150000002978 peroxides Chemical class 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 229910052757 nitrogen Inorganic materials 0.000 claims description 13
- 239000007789 gas Substances 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 8
- 150000002431 hydrogen Chemical class 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 239000012528 membrane Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000003642 hunger Nutrition 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 230000010287 polarization Effects 0.000 description 2
- 230000037351 starvation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000002803 fossil fuel Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01M—PROCESSES OR MEANS, e.g. BATTERIES, FOR THE DIRECT CONVERSION OF CHEMICAL ENERGY INTO ELECTRICAL ENERGY
- H01M8/00—Fuel cells; Manufacture thereof
- H01M8/04—Auxiliary arrangements, e.g. for control of pressure or for circulation of fluids
- H01M8/04298—Processes for controlling fuel cells or fuel cell systems
- H01M8/04694—Processes for controlling fuel cells or fuel cell systems characterised by variables to be controlled
- H01M8/04746—Pressure; Flow
- H01M8/04753—Pressure; Flow of fuel cell reactants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01M—PROCESSES OR MEANS, e.g. BATTERIES, FOR THE DIRECT CONVERSION OF CHEMICAL ENERGY INTO ELECTRICAL ENERGY
- H01M8/00—Fuel cells; Manufacture thereof
- H01M8/04—Auxiliary arrangements, e.g. for control of pressure or for circulation of fluids
- H01M8/04298—Processes for controlling fuel cells or fuel cell systems
- H01M8/04305—Modeling, demonstration models of fuel cells, e.g. for training purposes
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01M—PROCESSES OR MEANS, e.g. BATTERIES, FOR THE DIRECT CONVERSION OF CHEMICAL ENERGY INTO ELECTRICAL ENERGY
- H01M8/00—Fuel cells; Manufacture thereof
- H01M8/04—Auxiliary arrangements, e.g. for control of pressure or for circulation of fluids
- H01M8/04298—Processes for controlling fuel cells or fuel cell systems
- H01M8/04694—Processes for controlling fuel cells or fuel cell systems characterised by variables to be controlled
- H01M8/04791—Concentration; Density
- H01M8/04798—Concentration; Density of fuel cell reactants
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01M—PROCESSES OR MEANS, e.g. BATTERIES, FOR THE DIRECT CONVERSION OF CHEMICAL ENERGY INTO ELECTRICAL ENERGY
- H01M8/00—Fuel cells; Manufacture thereof
- H01M8/04—Auxiliary arrangements, e.g. for control of pressure or for circulation of fluids
- H01M8/04298—Processes for controlling fuel cells or fuel cell systems
- H01M8/04694—Processes for controlling fuel cells or fuel cell systems characterised by variables to be controlled
- H01M8/04858—Electric variables
- H01M8/04925—Power, energy, capacity or load
- H01M8/0494—Power, energy, capacity or load of fuel cell stacks
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01M—PROCESSES OR MEANS, e.g. BATTERIES, FOR THE DIRECT CONVERSION OF CHEMICAL ENERGY INTO ELECTRICAL ENERGY
- H01M2250/00—Fuel cells for particular applications; Specific features of fuel cell system
- H01M2250/20—Fuel cells in motive systems, e.g. vehicle, ship, plane
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E60/00—Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02E60/30—Hydrogen technology
- Y02E60/50—Fuel cells
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Chemical & Material Sciences (AREA)
- Electrochemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Chemical & Material Sciences (AREA)
- Sustainable Energy (AREA)
- Sustainable Development (AREA)
- Manufacturing & Machinery (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Fuel Cell (AREA)
Abstract
本发明实施例公开了一种基于深度强化学习的燃料电池***的燃料供给方法,涉及燃料电池技术领域,能够改善燃料电池的使用效率和寿命。本发明包括:获取燃料电池***的工况数据的样本集合,根据工况数据的样本集合得到功率需求,DDPG控制器的目标为:在燃料电池***输出功率,满足能量控制策略需求功率的同时,保持过氧比在预设范围内,工况预测模型包括:氢气流量控制阀模型、空气压缩机模型和燃料电池***模型;将实际的工况数据输入工况预测模型,得到速度预测序列;利用速度预测序列,得到燃料电池***的实际功率需求,并根据实际功率需求控制燃料电池***的氢气流量阀和空气压缩机。本发明适用于氢燃料电池***。
Description
技术领域
本发明涉及燃料电池技术领域,尤其涉及一种基于深度强化学习中的确定性策略梯度(DDPG)的燃料电池***的燃料供给方法。
背景技术
在能源逐渐枯竭的今天,传统的化石燃料载具也在尝试变革,新能源汽车、电驱动飞行器、新能源船舶等应运而生,而氢燃料电池混合动力***,则是其中的一种能源解决方案。
而目前燃料电池***的燃料供给方法,大多是各种智能算法来控制空气压缩机的电压,目的是为了跟随最佳的过氧比。该种控制方法可以较为优秀的保证燃料电池的工作效率和使用寿命。
但是,这种燃料电池***的燃料供给方法也存在一些问题:由于燃料电池***的目的只是跟随最佳过氧比,而由于附件损耗的问题,氢气的供给只是简单的按照一定的比例过量通入,不能够准确及时的满足由能量控制策略分配的燃料电池***的功率需求。因此,需要突破传统方案的桎梏,进一步现多控制量、多目标的控制。
发明内容
本发明的实施例提供一种基于深度强化学习的燃料电池***的燃料供给方法,能够及时准确的满足能量控制策略分配的燃料电池功率需求,且燃料电池***的过氧比能很好的跟随最佳过氧比,改善燃料电池的使用效率和寿命。
为达到上述目的,本发明的实施例采用如下技术方案:
获取燃料电池***的工况数据的样本集合,根据所述工况数据的样本集合得到功率需求,其中,所述工况数据至少包括:速度信息;利用DDPG控制器和所述功率需求,训练工况预测模型,其中,所述DDPG控制器的目标为:在燃料电池***输出功率,满足能量控制策略需求功率的同时,保持过氧比在预设范围内,所述工况预测模型包括:氢气流量控制阀模型、空气压缩机模型和燃料电池***模型;将实际的工况数据输入所述工况预测模型,得到速度预测序列;利用所述速度预测序列,得到所述燃料电池***的实际功率需求,并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机。
本发明实施例,属于燃料电池***燃料供给控制领域,其主要的设计思路包括:建立氢气流量控制阀模型、空气压缩机模型以及燃料电池***模型,建立DDPG控制器,确定DDPG控制器观测量、动作量、程序提前终止条件还有回报函数的参数,并训练基于DDPG的燃料电池***燃料供给模型,通过车速预测神经网络得到未来车速,通过DDPG控制器控制汽车行驶。燃料电池***可以有效的在考虑了附件损耗的前提下,及时准确的满足能量控制策略分配的燃料电池功率需求,且燃料电池***的过氧比能很好的跟随最佳过氧比,改善燃料电池的使用效率和寿命。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的基于DDPG的燃料电池***燃料供给流程图;
图2为本发明实施例提供的氢气供给、空气供给以及燃料电池***模型图;
图3为本发明实施例提供的DDPG控制器参数设置图;
图4为本发明实施例提供的基于DDPG算法的燃料电池***燃料供给模型训练流程图;
图5为本发明实施例提供的DDPG算法更新流程图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明实施例提供一种基于深度强化学习的燃料电池***的燃料供给方法,包括:
S1、获取燃料电池***的工况数据的样本集合,根据所述工况数据的样本集合得到功率需求。
其中,所述工况数据至少包括:速度信息,例如搭载了燃料电池***的车辆的驶速度信息,将其转变为功率需求,并根据预设的能量控制策略,可以得到典型工况的燃料电池***的功率需求,用于模型训练。
S2、利用DDPG控制器和所述功率需求,训练工况预测模型。
其中,所述DDPG控制器的目标为:在燃料电池***输出功率,满足能量控制策略需求功率的同时,保持过氧比在预设范围内,所述工况预测模型包括:氢气流量控制阀模型、空气压缩机模型和燃料电池***模型。
保持过氧比在预设范围内,包括:通过理论计算,得到最佳过氧比的数值,保持燃料电池的实际过氧比与最佳过氧比一致,在实际的自动控制中,保持一致不等于燃料电池的实际过氧比与最佳过氧比的数值始终等同,实际过氧比是在以最佳过氧比为中点的一定范围内波动的,而这个波动的范围则可以称为“预设范围”。
S3、将实际的工况数据输入所述工况预测模型,得到速度预测序列。
S4、利用所述速度预测序列,得到所述燃料电池***的实际功率需求,并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机。
本发明实施例,属于燃料电池***燃料供给控制领域,其主要的设计思路包括:建立氢气流量控制阀模型、空气压缩机模型以及燃料电池***模型,建立DDPG控制器,确定DDPG控制器观测量、动作量、程序提前终止条件还有回报函数的参数,并训练基于DDPG的燃料电池***燃料供给模型,通过车速预测神经网络得到未来车速,通过DDPG控制器控制汽车行驶。采用本发明,燃料电池***可以有效的在考虑了附件损耗的前提下,及时准确的满足能量控制策略分配的燃料电池功率需求,且燃料电池***的过氧比能很好的跟随最佳过氧比,保证燃料电池的使用效率和寿命最佳。
在本实施例中,还包括获取氢气流量控制阀模型:
获取所述氢气流量控制阀的控制输入信号Wfcv=ufcvWfcv,max。
其中,在供给歧管中,认为没有水蒸气或者液态水存在。ufcv是氢气流量阀的控制电压,范围是0~1。Wfcv,max是喷嘴全开时的质量流量,所述氢气流量控制阀为可变开度喷嘴。
获取氢气在供给歧管中的动态过程 是阳极供给歧管中氢气的压力,/>是氢气的气体常数,Tsm是供给歧管温度,Vsm是供给歧管的体积,/>是进入阳极供给管道的氢气质量流,/>是阳极供给歧管流出的氢气质量流,参数的下角标sm,为供给歧管(Supply manifold)的缩写。
在本实施例中,还包括获取空气压缩机模型:
所述空气压缩机的模型包括:
其中,ωcp是空气压缩机的转速,下角标cp表示空气压缩机,Jcp是空气压缩机旋转部件的转动惯量,τcm是空气压缩机电机的扭矩,τcp是空气压缩机输出端的扭矩,Psm是空气供给歧管的压力,Ra是空气气体常数,a表示空气Air,Vsm是空气供给歧管的容积,Tcp,out是离开空气压缩机的空气温度,Wcp,out是离开空气压缩机的空气质量流,Tsm,out是空气供给歧管的空气温度,Wsm,out是空气供给歧管的质量流。空气压缩机的流量是由输入空气压缩机的电压以及空气供给歧管的压力所决定的,且认为空气压缩机产生的质量流与离开空气压缩机的质量流一致。
所述空气压缩机的扭矩由输入所述空气压缩机的电压进行控制:其中,u为输入空气压缩机的电压,ηcm为空气压缩机的效率,Rcm为空气压缩机内部电阻,kt和kv都表示空气压缩机电机常数,下角标t、v没有特殊含义,仅用于区分两个不同的参数,通过参数的下角标区分的,kt表示时间相关的常数,kv表示电压相关的常数。
所述空气压缩机产生的空气质量流为:其中,ωc为空气压缩机叶尖速度,下角标c表示Compressor,dc为空气压缩机直径,Wcp为空气压缩机产生的空气质量流,φ为标准化空气压缩机流量比例,ρa为空气密度。
当所述空气压缩机产生的质量流与离开空气压缩机的质量流一致时:Wcp=Wcp,out。
进一步的,本实施例中还包括获取燃料电池***模型:燃料电池***的模型主要包括阳极的氢气分压、阴极的氧气和氮气分压还有燃料电池排气歧管处的压力。所述燃料电池***的模型包括:
其中,是燃料电池阳极的氢气分压,/>是进入燃料电池的氢气质量流,是发生化学反应产生电流的氢气质量流,/>是离开燃料电池阳极部分的氢气质量流,/>是燃料电池阴极的氧气分压,/>是发生化学反应产生电流的氧气质量流,是离开燃料电池阴极的氧气质量流,/>是燃料电池阴极的氮气分压,/>是离开燃料电池阴极的氮气质量流,Tst是燃料电池电堆的温度,下角标st表示电堆(Stack),Vrm是排气歧管容积,下角标rm为Return manifold的缩写,Wca,out是燃料电池阴极出口质量流,下角标ca表示阴极(Cathode),Wrm,out是排气歧管出口质量流,Prm是排气歧管处压力。
在本实施例的优选方案中,所述燃料电池***的最佳的过氧比为2,氧气质量流与氢气质量流的关系为:下角标react表示反应(React)。其具体的原理在于,由于当过氧比小于1甚至略微大于1的时候,都会造成氧饥饿的现象,损害燃料电池的质子交换膜,所以最佳的过氧比是在2附近随着电流的变化而改变。且认为进入燃料电池的氢气与氧气满足1:2时就会立即反应产生电流,则进入燃料电池的氢气将会全部反应无多余氢气排出,则发生化学反应产生电流的氧气质量流与氢气质量流的关系为:
进一步获取燃料电池***的电压:
其中,Vfc为燃料电池***电压,E为能斯特电压,vact为活化损失,vohm为欧姆损失,vconc为浓差极化损失,下角标act、ohm、conc,分别表示:活化的(Active)、欧姆(Ohm)、浓差(concentration)。
所述燃料电池***当前的功率则表示为燃料电池***电压与电流的乘积:P=VfcIst-Pau。
式中Pau为燃料电池附件所消耗的功率。
在本实施例中,在利用DDPG控制器和所述功率需求,训练工况预测模型的过程中,包括:
建立DDPG控制器,并将所述DDPG控制器的目标设置为实际燃料电池***输出功率满足能量控制策略需求功率同时保持最佳过氧比。
通过所述DDPG控制器训练所述燃料电池***的燃料供给模型。
具体的,对所述DDPG控制器的目标进行设置,包括:定义DDPG控制器中的参数,包括:观测量(observation)、控制量(action)、程序提前终止条件(isdone)和回报函数(reward)。构建所述DDPG控制器的用于模型训练的双层神经网络。其中,所述的双层神经网络具体是指:
先依据策略梯度(Policy Gradient)原理建立双层网络结构评论(Critic)网络和行动(Actor)网络,其中行动(Actor)网络根据输入的状态s可以得到动作的输出a=μ(s|θμ),评论(Critic)网络通过计算值的函数Q函数Q(s,a|θQ),并根据根据输入的状态s、动作a,可以得到Q值Q(s,a|θQ)。同时在评论(Critic)网络和行动(Actor)网络里再建立一个双层网络结构分为实时(Online)网络和目标(Target)网络。在评论(Critic)网络和行动(Actor)网络各自的内部,目标(Target)网络和实时(Online)网络的结构是相同的。
在本实施例中,所述观测量(observation)包括:燃料电池***的需求功率Pref,燃料电池***实际输出功率P,电池***实际输出功率与燃料电池***需求功率的差值ΔP,燃料电池***实际输出功率P与燃料电池***需求功率的差值的变化率最佳过氧比参数下角标中的ref为reference的缩写,"参考"的意思,即最佳过氧比是一个理论计算得到的参考值。当前燃料电池***的过氧比/>当前燃料电池***的过氧比与最佳过氧比的差值/>当前燃料电池***的过氧比与最佳过氧比的差值的变化率/>
所述控制量(action)包括:氢气流量阀的控制电压ufcv,和输入空气压缩机的电压u,其中,ufcv的下角标中的fcv,为燃料控制阀(Fuel control valve)的缩写。
所述回报函数(reward)如下:
Mt表示惩罚项,当的时候,Mt=1,否则Mt=0。Ms为奖励项,当/>的时候,Ms=1,否则Ms=0。Md也是奖励项,当/>的时候,Md=1,否则Md=0,Mt、Ms、Md的下角标t、s、d没有特殊的含义,仅用于区分这三个不同参数。
本实施例中所述的能量控制策略,可以基于具体的应用场景灵活设定,例如:采用市面上正在采用的简单可靠的基于规则的能量控制策略,维持电池的SOC稳定,仅用电池辅助汽车行驶。
本实施例步骤S2中,利用DDPG控制器和所述功率需求,训练工况预测模型,可以理解为:对实时评论(Online Critic)网络和实时行动(Online Actor)网络的参数θQ、θμ进行随机初始化。通过这两个网络参数θQ和θμ来初始化目标评论(Target Critic)网络和目标行动(Target Actor)网络的网络参数θQ′和θμ′,同时建立一个储存空间R作为经验回放(Memory Replay)的储存空间。
初始化完成后,开始进行迭代求解:
通过当前网络加上高斯扰动选择一个动作进行探索,动作at=μ(s|θμ)+Nt,其中Nt是一个高斯扰动。
在当前状态st下执行动作at,得到相应的奖励rt和下一个状态st+1,并且将这个过程形成的元组(st,at,rt,st+1)储存到经验回放(Memory Replay)空间R中。
从经验回放(Memory Replay)空间R随机选择一个小批量的元组数据,作为实时行动(Online Actor)网络和实时评论(Online Critic)网络的训练数据,用(si,ai,ri,si+1)表示单个数据。si为状态,ai为执行动作,ri为相应的奖励,si+1为下一个状态。
下面是关于评论(Critic)网络和行动(Actor)网络的更新:
先进行实时评论(Online Critic)网络的更新:
将当前的状态st输入实时行动(OnlineActor)网络,可以得到当前的动作at。将当前的状态st和动作at输入实时评论(Online Critic)网络可以得到当前的Q值Q(st,at|θQ)。
将下一时刻的状态st+1输入目标行动(Target Actor)网络可以得到一个动作at′=μ′(st+1|θμ′),将这个动作at′和下一时刻的状态st+1输入到目标评论(Target Critic)网络可以得到一个Q值Q′(st+1,μ′(st+1|θμ′)|θQ′),将这个Q值乘上一个学习率γ,加上当前的动作获得的奖励,就可以得到目标的Q值yt:
yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
定义实时评论(Online Critic)网络损失(Loss)函数:
其中N为元组数据个数。
通过最小化损失(Loss)函数来更新实时评论(Online Critic)网络。
更新实时评论(Online Critic)网络结束后,再进行实时行动(Online Actor)网络的更新:
计算J关于θμ的梯度:
依据策略梯度(Policy Gradient)的原理对实时行动(Online Actor)网络进行更新。
最后利用更新完成的实时评论(Online Critic)网络和实时行动(Online Actor)网络的参数θQ和θμ对目标评论(Target Critic)网络和目标行动(Target Actor)网络的网络参数θQ′和θμ′进行更新,更新的模式为逐步的缓慢的更新:
式中:τ为更新率,τ远小于1,由此构建一个收敛的神经网络。
计算在当前氢气与空气过量供给系数下的总回报,当总回报达到设定值且收敛或者达到最大训练步数以后,训练结束。当总回报达到设定值且收敛时,此时氢气流量阀的控制电压以及输入空气压缩机的电压对于燃料电池***的输出功率跟随需求功率还有燃料电池***的过氧比跟随最佳过氧比的效果最好。
本实施例步骤S4中,利用所述速度预测序列,得到所述燃料电池***的实际功率需求,并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机,可以理解为:
先建立神经网络工况预测模型。再通过相关传感器获取汽车的历史车速序列,通过神经网络工况预测模型输出未来车速预测序列。之后,将获取的未来汽车行驶车速作用于当前遵循的能量控制策略,导出燃料电池***功率需求。然后,获取当前时刻车辆状态的相关信息,完成DDPG控制器中observation的数据采集,作用于已训练完成的DDPG控制器,控制氢气流量阀以及空气压缩机输出。
结合具体举例,说明上述实施例在实际应用场景中的实现方式:
图1是基于DDPG的燃料电池***燃料供给方法的流程,按照流程示意图,可以完成对基于DDPG的燃料电池***燃料供给方法的设计:
步骤101,建立氢气流量控制阀模型、空气压缩机模型以及燃料电池***模型。
图2是氢气流量控制阀模型、空气压缩机模型以及燃料电池***的具体模型,其详细的模型状态空间方程如下:
氢气流量控制阀为可变开度喷嘴,其模型在稳态下的控制输入信号的线性方程:
Wfcv=ufcvWfcv,max
式中,ufcv是氢气流量阀的控制电压,范围是0~1。Wfcv,max是喷嘴全开时的质量流量。
在供给歧管中,认为没有水蒸气或者液态水存在,则氢气在供给歧管中的动态过程为:
认为氢气流量阀的质量流为进入阳极供给歧管中的氢气质量流:
认为在阳极供给歧管流出的氢气质量流,全部进入燃料电池。
空气压缩机的模型包括:
式中,ωcp是空气压缩机的转速,Jcp是空气压缩机旋转部件的转动惯量,τcm是空气压缩机电机的扭矩,τcp是空气压缩机输出端的扭矩,Psm是空气供给歧管的压力,Ra是空气气体常数,Vsm是空气供给歧管的容积,Tcp,out是离开空气压缩机的空气温度,Wcp,out是离开空气压缩机的空气质量流,Tsm,out是空气供给歧管的空气温度,Wsm,out是空气供给歧管的质量流。
其中空气压缩机的扭矩由输入空气压缩机的电压进行控制:
式中:u为输入空气压缩机的电压,ηcm为空气压缩机的效率,Rcm为空气压缩机内部电阻。
空气压缩机产生的空气质量流如下:
式中ωc为空气压缩机叶尖速度,dc为空气压缩机直径,Wcp为空气压缩机产生的空气质量流,φ为标准化空气压缩机流量比例,ρa为空气密度。
认为空气压缩机产生的质量流与离开空气压缩机的质量流一致:
Wcp=Wcp,out
燃料电池***的模型包括:
是燃料电池阳极的氢气分压,/>是进入燃料电池的氢气质量流,/>是发生化学反应产生电流的氢气质量流,/>是离开燃料电池阳极部分的氢气质量流,/>是燃料电池阴极的氧气分压,/>是进入燃料电池的氧气质量流,/>是发生化学反应产生电流的氧气质量流,/>是离开燃料电池阴极的氧气质量流,/>是燃料电池阴极的氮气分压,/>是进入燃料电池阴极的氮气质量流,/>是离开燃料电池阴极的氮气质量流,Tst是燃料电池电堆的温度,Vrm是排气歧管容积,Wca,out是燃料电池阴极出口质量流,Wrm,out是排气歧管出口质量流。
由于当过氧比小于1甚至略微大于1的时候,都会造成氧饥饿的现象,损害燃料电池的质子交换膜,所以最佳的过氧比是在2附近随着电流的变化而改变。
且认为进入燃料电池的氢气与氧气满足1:2时就会立即反应产生电流,则进入燃料电池的氢气将会全部反应无多余氢气排出,则发生化学反应产生电流的氧气质量流与氢气质量流的关系为:
则可以得到燃料电池***的电流是由进入燃料电池的氢气质量流所决定的,有以下关系:
燃料电池***的电压如下:
式中Vfc为燃料电池***电压,E为能斯特电压,vact为活化损失,vohm为欧姆损失,vconc为浓差极化损失。
则燃料电池***当前的功率可以表示为:
P=VfcIst-Pau
式中Pau为燃料电池附件所消耗的功率。
所述的最佳过氧比具体是指:
进入燃料电池的氧气与发生化学反应产生电流的氧气的比例称为过氧比:
其中为了保证燃料电池的质子交换膜不受到损坏,且保证最大的燃料电池效率,最佳过氧比与电流的关系应保证:
步骤102,利用深度确定性策略梯度(DDPG)算法,建立DDPG控制器,目标为实际燃料电池***输出功率满足能量控制策略需求功率同时保持最佳过氧比。
图3是DDPG控制器参数设置图,请参见图3,所述的DDPG控制器具体是指:
步骤401:定义DDPG控制器中的参数,包括:
观测量(observation)、控制量(action)、程序提前终止条件(isdone)和回报函数(reward)。
步骤402:构建用于模型训练的双层神经网络。
所述的观测量(observation)、控制量(action)、程序提前终止条件(isdone)和回报函数(reward)具体是指:
观测量(observation)包括:燃料电池***的需求功率Pref,燃料电池***实际输出功率P,电池***实际输出功率与燃料电池***需求功率的差值ΔP,燃料电池***实际输出功率P与燃料电池***需求功率的差值的变化率ΔP,最佳过氧比当前燃料电池***的过氧比/>当前燃料电池***的过氧比与最佳过氧比的差值/>当前燃料电池***的过氧比与最佳过氧比的差值的变化率/>
控制量(action)包括:氢气流量阀的控制电压ufcv,输入空气压缩机的电压u;
所述回报函数(reward)如下:
图4是基于DDPG算法的燃料电池***燃料供给模型训练流程图,请参见图4,开始训练之前需要建立神经网络,所述的建立的双层神经网络具体是指:
先依据策略梯度(Policy Gradient)原理建立双层网络结构评论(Critic)网络和行动(Actor)网络,其中行动(Actor)网络根据输入的状态s可以得到动作的输出a=μ(s|θμ),评论(Critic)网络通过计算值的函数Q函数Q(s,a|θQ),并根据根据输入的状态s、动作a,可以得到Q值Q(s,a|θQ)。
同时在评论(Critic)网络和行动(Actor)网络里再建立一个双层网络结构分为实时(Online)网络和目标(Target)网络。在评论(Critic)网络和行动(Actor)网络各自的内部,目标(Target)网络和实时(Online)网络的结构是相同的。
步骤103,获取氢燃料电池混合动力汽车的典型工况行驶速度信息,将其转变为功率需求,并根据预设的能量控制策略,可以得到典型工况的燃料电池***的功率需求,用于模型训练。
获取氢燃料电池混合动力汽车的典型工况行驶速度信息,将其转变为功率需求主要是通过驾驶员模型,将速度信息转变为踩下踏板的行程,从而转变为功率需求
依据的能量控制策略具体是指:
采用市面上正在采用的简单可靠的基于规则的能量控制策略,维持电池的SOC稳定,仅用电池辅助汽车行驶。
步骤104,基于建立好的双层神经网络,训练基于DDPG的燃料电池***燃料供给模型,具体包括:
图4所述的训练神经网络包括:
对实时评论(Online Critic)网络和实时行动(Online Actor)网络的参数θQ、θμ进行随机初始化。通过这两个网络参数θQ和θμ来初始化目标评论(Target Critic)网络和目标行动(Target Actor)网络的网络参数θQ′和θμ′,同时建立一个储存空间R作为经验回放(Memory Replay)的储存空间。
初始化完成后,开始进行迭代求解:
通过当前网络加上高斯扰动选择一个动作进行探索,动作at=μ(s|θμ)+Nt,其中Nt是一个高斯扰动。
在当前状态st下执行动作at,得到相应的奖励rt和下一个状态st+1,并且将这个过程形成的元组(st,at,rt,st+1)储存到经验回放(Memory Replay)空间R中。
从经验回放(Memory Replay)空间R随机选择一个小批量的元组数据,作为实时行动(Online Actor)网络和实时评论(Online Critic)网络的训练数据,用(si,ai,ri,si+1)表示单个数据。si为状态,ai为执行动作,ri为相应的奖励,si+1为下一个状态。
图5是DDPG算法网络更新流程图,请参见图5,关于评论(Critic)网络和行动(Actor)网络的更新如下:
先进行实时评论(Online Critic)网络的更新:
将当前的状态st输入实时行动(OnlineActor)网络,可以得到当前的动作at。将当前的状态st和动作at输入实时评论(Online Critic)网络可以得到当前的Q值Q(st,at|θQ)。
将下一时刻的状态st+1输入目标行动(Target Actor)网络可以得到一个动作at′=μ′(st+1|θμ′),将这个动作at′和下一时刻的状态st+1输入到目标评论(Target Critic)网络可以得到一个Q值Q′(st+1,μ′(st+1|θμ′)|θQ′),将这个Q值乘上一个学习率γ,加上当前的动作获得的奖励,就可以得到目标的Q值yt:
yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
定义实时评论(Online Critic)网络损失(Loss)函数:
其中N为元组数据个数。
通过最小化损失(Loss)函数来更新实时评论(Online Critic)网络。
更新实时评论(Online Critic)网络结束后,再进行实时行动(Online Actor)网络的更新:
计算J关于θμ的梯度:
依据策略梯度(Policy Gradient)的原理对实时行动(Online Actor)网络进行更新。
最后利用更新完成的实时评论(Online Critic)网络和实时行动(Online Actor)网络的参数θQ和θμ对目标评论(Target Critic)网络和目标行动(Target Actor)网络的网络参数θQ′和θμ′进行更新,更新的模式为逐步的缓慢的更新:
式中:τ为更新率,τ远小于1,由此构建一个收敛的神经网络。
计算在当前氢气与空气过量供给系数下的总回报,当总回报达到设定值且收敛或者达到最大训练步数以后,训练结束。当总回报达到设定值且收敛时,此时氢气流量阀的控制电压以及输入空气压缩机的电压对于燃料电池***的输出功率跟随需求功率还有燃料电池***的过氧比跟随最佳过氧比的效果最好。
步骤105,建立神经网络工况预测模型,通过历史工况对汽车未来行驶工况进行预测,具体包括:
步骤901:建立神经网络工况预测模型。
步骤902:通过相关传感器获取汽车的历史车速序列,通过神经网络工况预测模型输出未来车速预测序列。
步骤903:将获取的未来汽车行驶车速作用于当前遵循的能量控制策略,导出燃料电池***功率需求。
步骤904:获取当前时刻车辆状态的相关信息,完成DDPG控制器中observation的数据采集,作用于已训练完成的DDPG控制器,控制氢气流量阀以及空气压缩机输出。
步骤905:如此重复步骤902至步骤904,直至汽车完成行驶任务。
本发明实施例中,能够进一步实现多控制量、多目标的控制。能够准确及时的在考虑了附件损耗的前提下,满足燃料电池混合电动汽车的能量控制策略分配给的燃料电池***的功率需求,且依旧能够较好的跟随燃料电池***最佳的过氧比。在准确及时的达到所需功率的同时,能够最大限度的提升燃料电池的使用效率和使用寿命。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (3)
1.一种基于深度强化学习的燃料电池***的燃料供给方法,其特征在于,包括:
获取燃料电池***的工况数据的样本集合,根据所述工况数据的样本集合得到功率需求,其中,所述工况数据至少包括:速度信息;
利用DDPG控制器和所述功率需求,训练工况预测模型,其中,所述DDPG控制器的目标为:在燃料电池***输出功率,满足能量控制策略需求功率的同时,保持过氧比在预设范围内,所述工况预测模型包括:氢气流量控制阀模型、空气压缩机模型和燃料电池***模型;
将实际的工况数据输入所述工况预测模型,得到速度预测序列;
利用所述速度预测序列,得到所述燃料电池***的实际功率需求,并根据所述实际功率需求控制所述燃料电池***的氢气流量阀和空气压缩机;
还包括获取氢气流量控制阀模型:
获取所述氢气流量控制阀的控制输入信号Wfcv=ufcvWfcv,max,其中,Wfcv表示控制输入信号,ufcv是氢气流量阀的控制电压,范围是0~1;Wfcv,max是喷嘴全开时的质量流量,所述氢气流量控制阀为可变开度喷嘴;
获取氢气在供给歧管中的动态过程其中,/>是阳极供给歧管中氢气的压力,/>是氢气的气体常数,Tsm是供给歧管温度,Vsm是供给歧管的体积,/>是进入阳极供给管道的氢气质量流,/>是阳极供给歧管流出的氢气质量流;
还包括获取空气压缩机模型:
所述空气压缩机的模型包括:
其中,ωcp是空气压缩机的转速,Jcp是空气压缩机旋转部件的转动惯量,τcm是空气压缩机电机的扭矩,τcp是空气压缩机输出端的扭矩,Psm是空气供给歧管的压力,Ra是空气气体常数,Vsm是空气供给歧管的容积,Tcp,out是离开空气压缩机的空气温度,Wcp,out是离开空气压缩机的空气质量流,Tsm,out是空气供给歧管的空气温度,Wsm,out是空气供给歧管的质量流;
当所述空气压缩机产生的质量流与离开空气压缩机的质量流一致时:Wcp=Wcp,out;
进入燃料电池阴极的质量流包括氧气流、氮气流和水蒸气流:其中,Wsm,out表示进入燃料电池阴极的质量流,/>是进入燃料电池的水蒸气质量流,/>是进入燃料电池的氧气质量流,/>是进入燃料电池阴极的氮气质量流;
还包括获取燃料电池***模型:
所述燃料电池***的模型包括:
2.根据权利要求1所述的方法,其特征在于,对所述DDPG控制器的目标进行设置,包括:
定义DDPG控制器中的参数,包括:观测量(observation)、控制量(action)、程序提前终止条件(isdone)和回报函数(reward);
构建所述DDPG控制器的用于模型训练的双层神经网络。
3.根据权利要求2所述的方法,其特征在于,所述观测量(observation)包括:燃料电池***的需求功率Pref,燃料电池***实际输出功率P,电池***实际输出功率与燃料电池***需求功率的差值ΔP,燃料电池***实际输出功率P与燃料电池***需求功率的差值的变化率最佳过氧比/>当前燃料电池***的过氧比/>当前燃料电池***的过氧比与最佳过氧比的差值/>当前燃料电池***的过氧比与最佳过氧比的差值的变化率
所述控制量(action)包括:氢气流量阀的控制电压ufcv,和输入空气压缩机的电压u;
所述回报函数(reward)如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010353990.2A CN111584906B (zh) | 2020-04-29 | 2020-04-29 | 一种基于深度强化学习的燃料电池***的燃料供给方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010353990.2A CN111584906B (zh) | 2020-04-29 | 2020-04-29 | 一种基于深度强化学习的燃料电池***的燃料供给方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111584906A CN111584906A (zh) | 2020-08-25 |
CN111584906B true CN111584906B (zh) | 2023-06-27 |
Family
ID=72111837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010353990.2A Active CN111584906B (zh) | 2020-04-29 | 2020-04-29 | 一种基于深度强化学习的燃料电池***的燃料供给方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111584906B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287463B (zh) * | 2020-11-03 | 2022-02-11 | 重庆大学 | 一种基于深度强化学习算法的燃料电池汽车能量管理方法 |
CN112397747A (zh) * | 2020-11-10 | 2021-02-23 | 一汽解放汽车有限公司 | 用于燃料电池发动机的供气控制方法、车辆及存储介质 |
CN112817240B (zh) * | 2020-12-30 | 2022-03-22 | 西安交通大学 | 一种基于深度强化学习算法的离心压缩机调控方法 |
CN112886039B (zh) * | 2021-01-11 | 2021-11-23 | 清华大学深圳国际研究生院 | 一种基于强化学习的压水堆堆芯自动控制方法 |
CN113314744A (zh) * | 2021-04-18 | 2021-08-27 | 广西大学 | 一种双尺度平行强化学习的质子交换膜燃料电池控制方法 |
CN113782791B (zh) * | 2021-08-02 | 2023-01-10 | 佛山仙湖实验室 | 车用质子交换膜燃料电池功率控制方法和*** |
CN114103971B (zh) * | 2021-11-23 | 2023-10-10 | 北京理工大学 | 一种燃料电池汽车节能驾驶优化方法及装置 |
CN116995268B (zh) * | 2023-06-01 | 2024-03-01 | 佛山仙湖实验室 | 一种质子交换膜燃料电池空气供给***的控制方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109524693B (zh) * | 2018-11-13 | 2021-04-09 | 吉林大学 | 燃料电池空气供给***模型预测控制方法 |
CN110103776B (zh) * | 2019-05-06 | 2022-06-03 | 重庆大学 | 基于智能迭代学习的燃料电池整车功率需求变化预测方法 |
CN110335646B (zh) * | 2019-07-12 | 2022-06-17 | 福州大学 | 基于深度学习-预测控制的车用燃料电池过氢比控制方法 |
CN110414157B (zh) * | 2019-07-31 | 2022-09-09 | 四川嘉垭汽车科技有限公司 | 质子交换膜燃料电池***多目标滑模控制方法 |
-
2020
- 2020-04-29 CN CN202010353990.2A patent/CN111584906B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111584906A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111584906B (zh) | 一种基于深度强化学习的燃料电池***的燃料供给方法 | |
CN109524693B (zh) | 燃料电池空气供给***模型预测控制方法 | |
CN110335646B (zh) | 基于深度学习-预测控制的车用燃料电池过氢比控制方法 | |
CN112072142B (zh) | 一种基于模型预测控制的燃料电池控制方法和*** | |
CN102405150B (zh) | 燃料电池*** | |
CN112036603A (zh) | 一种基于双堆燃料电池的混合储能***能量管理策略 | |
CN102859771B (zh) | 燃料电池*** | |
US9236623B2 (en) | Fuel cell system | |
JP5505024B2 (ja) | 燃料電池自動車及びその制御方法 | |
CN101622746A (zh) | 燃料电池*** | |
WO2006057124A1 (ja) | 燃料電池システムの制御装置 | |
CN113090406B (zh) | 自学习方法、车辆及可读存储介质 | |
CN111736462B (zh) | 一种燃料电池汽车最优氢耗控制方法 | |
CN113002370A (zh) | 一种燃料电池汽车实时能量管理控制方法 | |
CN114347866B (zh) | 一种基于vmd处理的燃料电池能量管理方法 | |
CN116435557A (zh) | 一种基于神经网络的燃料电池热管理方法、装置及*** | |
CN117755163A (zh) | 一种氢燃料电池温度动态变化的能量管理***及方法 | |
CN113745607A (zh) | 一种燃料电池控制方法及*** | |
CN115763908B (zh) | 一种多堆燃料电池***效率优化的分布式控制方法 | |
CN116409216A (zh) | 基于预测的非线性模型控制的燃料电池汽车能量管理方法 | |
CN115692797A (zh) | 一种车用燃料电池水热管理***优化方法 | |
CN113442795B (zh) | 基于分层式mpc的燃料电池混合动力***控制方法 | |
CN113246959B (zh) | 混合动力车辆控制方法、装置和可读存储介质 | |
Quan et al. | A hierarchical predictive strategy-based hydrogen stoichiometry control for automotive fuel cell power system | |
CN118082630B (zh) | 一种用于氢电动汽车的多堆燃料电池混合***能量管理策略及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |