CN112035949B - 一种结合q增强学习的实时模糊能源管理方法 - Google Patents

一种结合q增强学习的实时模糊能源管理方法 Download PDF

Info

Publication number
CN112035949B
CN112035949B CN202010818612.7A CN202010818612A CN112035949B CN 112035949 B CN112035949 B CN 112035949B CN 202010818612 A CN202010818612 A CN 202010818612A CN 112035949 B CN112035949 B CN 112035949B
Authority
CN
China
Prior art keywords
soc
fuzzy
energy management
learning
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010818612.7A
Other languages
English (en)
Other versions
CN112035949A (zh
Inventor
陶吉利
胡业强
白杨
马龙华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN202010818612.7A priority Critical patent/CN112035949B/zh
Publication of CN112035949A publication Critical patent/CN112035949A/zh
Application granted granted Critical
Publication of CN112035949B publication Critical patent/CN112035949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physiology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Feedback Control In General (AREA)
  • Fuel Cell (AREA)

Abstract

本发明公开一种结合Q增强学习的实时模糊能源管理方法,属于自动化技术领域。本发明提出的Q学习控制器通过车辆运行需求功率和超级电容荷电状态来采取行动,即无需提前知道驾驶模式。为了延长燃料电池的寿命并降低其能量消耗,通过遗传算法对Q值表的初始值进行了优化。此外,为了提高环境适应能力,改进了Q学习控制器的学习策略。仿真结果表明,在不同的驾驶条件下,可以减小燃料电池电流波动和能耗,同时超级电容器的荷电状态可以安全地维持在给定范围内。本发明提出的方法相比于神经网络路况识别的自适应模糊能源管理或优化的能源管理方法,融合了学习与规则,进一步改善了对不同驾驶条件的适应性,能同时降低燃料电池能耗和电流波动。

Description

一种结合Q增强学习的实时模糊能源管理方法
技术领域
本发明属于自动化技术领域,涉及一种基于Q增强学习算法和模糊控制的混合电动汽车实时能源管理策略。
背景技术
为改善混合动力车的能源管理性能,现有的能源管理策略通常有两种:基于规则的能源管理策略和基于优化的能源管理策略。前者往往是确定性经验规则或模糊控制规则,而后者通常和先进控制理论及优化算法想结合。基于规则的能源管理策略计算量少易于实现,因此被广泛运用。但该策略较为单一,一般不具有工况自适应性,而且基于规则的策略通常是次优的,其性能在很大程度上取决于专家对规则设计的经验。基于优化的策略能够实现能源管理的最佳控制,需针对各种工况离线完成优化过程。在实时运行过程中则需要先行进行工况识别,再根据相应工况实施控制。实时工况识别过程本身十分复杂,需要特定的工况识别算法。
发明内容
本发明的目的是利用模糊规则能源管理策略的优势,采用Q增强学习算法进行复杂工况的信息反馈,从而无需工况识别,就能实现实时能源管理策略的工况自适应调整和性能优化。与基于车辆运行工况识别的能源管理方法不同,本发明提出了一种基于Q增强学习算法的模糊能源管理策略,可改善能源管理策略对不同驾驶工况的适应性,为克服Q增强学习算法收敛慢、甚至无法收敛等不足,又引入了遗传算法(GA),用来优化Q值表的初始化值,优化目标为降低车辆运行能耗指标,降低主动力源的电流输出脉动,并将超级电容(SC)的荷电状态(SoC)保持在合理范围内,以便SC既能回收制动能量又能提供主动力源辅助能源。
本发明提出了一种基于Q增强学习算法的模糊自适应混合动力车辆实时能源管理控制器。以燃料电池(FC)和超级电容混合动力车为例,基于Q增强学习的自适应模糊能源管理***(EMS)获得了最低的氢气(H2)消耗,并大大减少了燃料电池输出电压和输出电流波动,有利于延长燃料电池使用寿命。
本发明具体采用的技术方案如下:
一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其步骤如下:
S1:构建模糊逻辑控制器,作为燃料电池和超级电容混合动力车的主控制器;所述模糊逻辑控制器以车辆需求功率Pdem和超级电容的荷电状态SoC为输入,将其分别模糊化到模糊域后再通过解模糊,得到分配比例系数uf作为输出;
S2:构建Q增强学习补偿控制器,利用Q增强学习得到的动作对不同驾驶工况下的能源管理策略进行自适应补偿;在Q增强学习补偿控制器中,根据超级电容的SoC和车辆需求功率Pdem设计状态空间,根据燃料电池的输出功率PFC设计动作空间,根据超级电容的SoC状态设计奖励函数,Q增强学习补偿控制器的输出为对不同驾驶工况的补偿动作a;
S3:结合S1中构建的模糊逻辑控制器和S2中构建的Q增强学习补偿控制器,建立Q-Learning模糊能量管理***,在该***中能量管理策略为:
若车辆需求功率Pdem为正且超级电容的荷电状态SoC大于SoC阈值,则由Q-Learning模糊能量管理***进行能量管理,基于输出的系数(uf+a)计算不同时刻的燃料电池的输出功率PFC
PFC=(uf+a)Pdem
其中a是Q增强学习补偿控制器输出的补偿动作,uf+a≤1;
若超级电容的SoC低于SoC阈值,则燃料电池将在其功率范围内提供所有需求功率;
S4:获取车辆在不同工况下行驶的实时功率需求,在各种工况下对Q-Learning模糊能量管理***进行离线训练,使其能对实时功率进行分配;
在离线训练Q-Learning模糊能量管理***中的Q增强学习补偿控制器时,根据遗传算法对Q增强学习策略的Q值表进行初始值优化,具体过程为:
S41:初始化遗传算法的参数,包括最大进化代数G、种群大小N、交叉算子概率Pc和变异算子概率Pm及其权重系数ω,进化代数g初始化为1,当前时刻t初始化为1;同时随机生成N个Q值表个体;
S42:在车辆的一个行驶周期T中,对于每个Q值表个体,执行如下操作:
1)基于当前时刻状态st选择的动作at计算t+1时刻的状态st+1和奖励值rt+1,并利用Bellman公式更新t+1时刻的Q值Qt+1;在选择动作at时,在行驶周期T的前一部分时刻按照概率ξ随机选出动作at,其余的时刻根据确定动作at,将其添加到Q-Learning模糊能量管理***输出中;
2)如果1)中得到的奖励值rt+1是表明SoC>SoCmax或SoC<SoCmin的值,则当前行驶周期T中的学习过程立即中止,否则使t=t+1后重复步骤1),直到行驶周期T结束;根据最终学习完成得到的Q值表,在Q-Learning模糊能量管理***中计算目标函数J,其目标为在满足约束条件下,使得燃料电池的电流脉动最小且能耗最低;
S43:对N个Q值表个体执行赌轮盘选择和精英保留策略,以产生交叉和变异算子的父代;
S44:在执行S43后产生的N个后代中分别以概率Pc和Pm执行交叉操作和变异操作,更新Q值表个体,完成一代进化;
S45:不断重复执行步骤S42至S44,直到达到最大进化代数G,获得当前行驶周期T的Q值表;
S46:以S41至S45得到的Q值表为最优初始值,同时为克服按照概率ξ随机选出动作at的影响,不断迭代重复步骤S42,直到完成所有Np次迭代,得到Np个Q值表;
S5:在Np个Q值表中,以行驶周期中燃料电池的能耗总和最低为标准,选出最优Q值表Qb;
S6:基于S5中的最优Q值表Qb,利用Q-Learning模糊能量管理***对车辆的燃料电池和超级电容输出功率进行在线调节。
作为优选,所述S1的模糊逻辑控制器中,将车辆需求功率Pdem和超级电容的荷电状态SoC分别模糊化到模糊域I1∈[0,1],I2∈[0,1]:
其中Pmax是车辆行驶的最大需求功率,SoCmax和SoCmin分别表示SoC的最小值和最大值;
再采用Takagi-Sugeno-Kang模糊推理***及设定的模糊规则,通过重心法解模糊,计算模糊输出uf
作为优选,所述S1的Q增强学习补偿控制器中,所述状态空间设计为:
选择车辆功率需求Pdem和超级电容的荷电状态SoC作为***状态s,对连续状态进行离散化:
其中:Pd∈[1,n1],SoCd∈[1,n2]为离散化状态空间的索引值,d1和d2分别表示Pdem和SoC的离散维度,n1和n2代表状态数。
作为优选,所述S1的Q增强学习补偿控制器中,所述动作空间设计为:
选择不同驾驶模式下的补偿输出量作为控制动作输出,对连续动作进行离散化:
其中:d3是Q增强学习控制器的补偿动作a的离散维度,n3表示动作a的动作数,udmax和udmin是动作a的最大和最小值,k是动作a的索引值,该值通过当前状态下Q值表最大获得。
作为优选,所述S1的Q增强学习补偿控制器中,所述奖励函数设计为:
根据超级电容的瞬时SoC状态设计奖励函数,形式如下:
其中:rt表示t时刻的奖励回报值,变量Δp=Pdem-PFC-PSC,PSC是超级电容SC提供的功率,ΔI是在时间Δt内的燃料电池电流变化。
作为优选,所述S3中,SoC阈值为0.45。
作为优选,所述S42的步骤1)中,在行驶周期T的前10%时刻按照概率ξ随机选出动作at
作为优选,所述S42的步骤2)中,目标函数J设定为:
s.t.PFC+PSC=Pdem
0<PFC≤40kW
0<iFC≤150A
-5kW≤ΔPFC≤5kW
-30kW≤PSC≤30kW
-150A≤iSC≤150A
vFC≥60V
其中:T是行驶周期,即离线优化过程中,混合动力汽车驾驶全程的采样时刻数;ΔPFC是t时刻FC的功率变化,ΔPFC=PFC(t)-PFC(t-1);iFC,isC分别是燃料电池和超级电容的电流;ΔI(t)=iFC(t)-iFC(t-1)是t时刻燃料电池的电流变化;ω是权重系数。
本发明提出的混合动力车辆运行实时能源管理方法弥补了传统方法的不足,相比传统的基于规则或优化的方法,本发明融合了增强学习和模糊规则,能显著提高能耗经济指标,减少电流波动对燃料电池所造成的影响,同时实现复杂工况下的在线实时能源管理。
附图说明
图1为基于GA和Q增强学习的模糊EMS框架图;
图2为实时需求功率的功率分配及其功率误差图;
图3为超级电容SoC实时分布图;
图4为3种方法的功率误差对比图;
图5为3种方法的超级电容SoC分布对比图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
在本发明中的一个较佳实现方式中,提出了一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其步骤如下:
S1:构建模糊逻辑控制器,作为燃料电池和超级电容混合动力车的主控制器;所述模糊逻辑控制器以车辆需求功率Pdem和超级电容的荷电状态SoC为输入,将其分别模糊化到模糊域后再通过解模糊,得到分配比例系数uf作为输出。
在该模糊逻辑控制器中,将车辆需求功率Pdem和超级电容的荷电状态SoC分别模糊化到模糊域I1∈[0,1],I2∈[0,1]:
其中Pmax是车辆行驶的最大需求功率,SoCmax和SoCmin分别表示SoC的最小值和最大值;
再采用Takagi-Sugeno-Kang模糊推理***及设定的模糊规则,通过重心去模糊化,计算模糊输出uf
S2:构建Q增强学习补偿控制器,利用Q增强学习得到的动作对不同驾驶工况下的能源管理策略进行自适应补偿;在Q增强学习补偿控制器中,根据超级电容的SoC和车辆需求功率Pdem设计状态空间,根据燃料电池的输出功率PFC设计动作空间,根据超级电容的SoC状态设计奖励函数,Q增强学习补偿控制器的输出为对不同驾驶工况的补偿动作a;
在该Q增强学习补偿控制器中,状态空间、动作空间、奖励函数的具体设置如下:
状态空间设计为:
选择车辆功率需求Pdem和超级电容的荷电状态SoC作为***状态s,对连续状态进行离散化:
其中:Pd∈[1,n1],SoCd∈[1,n2]为离散化状态空间的索引值,d1和d2分别表示Pdem和SoC的离散维度,n1和n2代表状态数。
动作空间设计为:
选择不同驾驶模式下的补偿输出量作为控制动作输出,对连续动作进行离散化:
其中:d3是Q增强学习控制器的补偿动作a的离散维度,n3表示动作a的动作数,udmax和udmin是动作a的最大和最小值,k是动作a的索引值,该值通过当前状态下Q值表最大获得。
奖励函数设计为:
根据超级电容的瞬时SoC状态设计奖励函数,形式如下:
其中:rt表示t时刻的奖励回报值,变量ΔP=Pdem-PFC-PSC,PSC是超级电容SC提供的功率,ΔI是在时间Δt内的燃料电池电流变化。
S3:结合S1中构建的模糊逻辑控制器和S2中构建的Q增强学习补偿控制器,建立Q-Learning模糊能量管理***,在该***中能量管理策略为:
若车辆需求功率Pdem为正且超级电容的荷电状态SoC大于SoC阈值,则由Q-Learning模糊能量管理***进行能量管理,基于输出的系数(uf+a)计算不同时刻的燃料电池的输出功率PFC
PFC=(uf+a)Pdem
其中a是Q增强学习补偿控制器输出的补偿动作,uf+a≤1;
若超级电容的SoC低于SoC阈值,则燃料电池将在其功率范围内提供所有需求功率。
上述SoC阈值可根据需要调整,本发明中优选设为0.45。
S4:获取车辆在不同工况下行驶的实时功率需求,在各种工况下对Q-Learning模糊能量管理***进行离线训练,使其能对实时功率进行分配;
在离线训练Q-Learning模糊能量管理***中的Q增强学习补偿控制器时,根据遗传算法对Q增强学习策略的Q值表进行初始值优化,具体过程为:
S41:初始化遗传算法的参数,包括最大进化代数G、种群大小N、交叉算子概率Pc和变异算子概率Pm及其权重系数ω,进化代数g初始化为1,当前时刻t初始化为1;同时随机生成N个Q值表个体;
S42:在车辆的一个行驶周期T中,对于每个Q值表个体,执行如下操作:
1)基于当前时刻状态st选择的动作at计算t+1时刻的状态st+1和奖励值rt+1,并利用Bellman公式更新t+1时刻的Q值Qt+1;在选择动作at时,在行驶周期T的前一部分时刻(例如前10%时刻)按照概率ξ随机选出动作at,其余的时刻根据角定动作at,将其添加到Q-Learning模糊能量管理***输出中;
2)如果1)中得到的奖励值rt+1是表明SoC>SoCmax或SoC<SoCmin的值,则当前行驶周期T中的学习过程立即中止,否则使t=t+1后重复步骤1),直到行驶周期T结束;根据最终学习完成得到的Q值表,在Q-Learning模糊能量管理***中计算目标函数J,其目标为在满足约束条件下,使得燃料电池的电流脉动最小且能耗最低。
在本发明中,目标函数J可设定如下:
s.t.PFC+PSC=Pdem
0<PFC≤40kW
0<iFC≤150A
-5kW≤ΔPFC≤5kW
-30kW≤PSC≤30kW
-150A≤iSC≤150A
vFC≥60V
其中:T是行驶周期,即离线优化过程中,混合动力汽车驾驶全程的采样时刻数;ΔPFC是t时刻FC的功率变化,ΔPFC=PFC(t)-PFC(t-1);iFC,isC分别是燃料电池和超级电容的电流;ΔI(t)=iFC(t)-iFC(t-1)是t时刻燃料电池的电流变化;ω是权重系数。
S43:对N个Q值表个体执行赌轮盘选择和精英保留策略,以产生交叉和变异算子的父代;
S44:在执行S43后产生的N个后代中分别以概率Pc和Pm执行交叉操作和变异操作,更新Q值表个体,完成一代进化;
S45:不断重复执行步骤S42至S44,直到达到最大进化代数G,获得当前行驶周期T的Q值表;
S46:以S41至S45得到的Q值表为最优初始值,同时为克服按照概率ξ随机选出动作at的影响,不断迭代重复步骤S42共Np次,直到完成所有Np次迭代后得到Np个Q值表;
S5:在Np个Q值表中,以行驶周期中燃料电池的能耗总和最低为标准,选出最优Q值表Qb;
S6:基于S5中的最优Q值表Qb,利用Q-Learning模糊能量管理***对车辆的燃料电池和超级电容输出功率进行在线调节。
下面将上述方法应用于一个具体实施例中,以展示其技术效果的实现。
实施例
本实施例针对燃料电池和超级电容混合动力车进行能源管理。
其中,燃料电池采用氢氧质子交换膜燃料电池(HO-PEMFC),它是最典型的一类PEMFC,HO-PEMFC***由阴极,阳极和作为电解质的质子传导膜组成。HO-PEMFC总的输出电压(Vout)推导如下:
Vout=N0Ecell-Vact-Vohm
Vact=Bln(CI),Vohm=IRohm
其中Vact是电化学活化电位损失,Vohm是欧姆电压,N0是串联的燃料电池的数量。B和C是用于计算Vact的常数,Rohm和I分别是等效内阻和FC的输出电流。Ecell表示由能斯特方程计算得到的平衡电位电池,有如下计算:
其中PH2,PO2是氢气和氧气的有效压力常数,是每个电池的标准参考电压,Te是工作环境温度,Rg是气体常数,kE是温度常数,F是法拉第常数,一阶传导函数Edcell表示为:
其中λe和τe分别是恒定系数和总流量的延迟系数。
燃料电池的氢消耗量计算公式如下:
其中MH2是H2的分子质量,Ncell是电池数量,AFC为反应的接触面积。为了分析FC的电流波动,计算FC的电流变化率RI如下:
其中ΔI是在时间Δt内的电流变化。
SC的RC模型可以从制造商的数据表中获得。只要满足负载电阻匹配,SC输出功率就可以最大化,并计算出SC的SoC:
其中v是SC端电压,vmax是SC允许的最大电压。
以FTP-75工况(又称UDDS)、WVUSUB工况、HWFET工况及MANHATTAN工况4种典型循环工况为例,建立车辆运行实时能源管理***。
步骤(1).从Advisor软件中导出车辆在上述工况下的实时功率需求Pdem,一个形式周期即行程时长记为T。
步骤(2):构建模糊逻辑控制器(FLC)作为主要的能源管理控制器
FLC具有两个输入:需求功率Pdem和SC的SoC,一个输出:模糊EMS分配比例系数uf。当需求功率为正,且SC的SoC大于0.45,可以确保SC处于安全状态,此时,将执行能量管理控制。如果SC的SoC低于0.45,则燃料电池将在其功率范围内提供车辆运行所需功率。应用下式可将Pdem和SoC转换到模糊域I1∈[0,1],I2∈[0,1]:
其中Pmax是车辆运行的最大需求功率,SoCmin和SoCmax分别表示SoC的最小值和最大值。
根据专家经验,在高需求功率和超级电容低SoC情况下,燃料电池将提供尽可能多的功率,而在低功率要求和超级电容高SoC的情况下,燃料电池将提供相对较低的功率,以节省能耗。所设计的模糊规则表如下表1所示。
表1模糊控制器规则
采用Takagi-Sugeno-Kang模糊推理***及其模糊规则,通过重心法解模糊,计算模糊控制器输出:
其中规则表列数r1为4,规则表行数r2为3,和/>分别是采样时间t时SoC和Pdem的高斯隶属函数的输出,高斯函数μ(x;σ,c)=exp(-||x-c||2/2σ2),c,σ为隶属度函数的中心和宽度,模糊推理系数/>通过应用Mamdani乘积和最大的模糊推理方法得到。
步骤(3)构建Q增强学习补偿输出控制器,具体方法是:
a.设计状态空间。
选择车辆功率需求Pdem和超级电容SoC作为***状态,记作s,对连续状态离散化:
其中Pmax表示车辆运行需求功率的最大值,d1和d2分别表示Pdem和SoC的离散维度,n1和n2代表状态数,离散化之后,Pd∈[1,n1],SoCd∈[1,n2]为离散化状态空间的索引值。
b.设计动作空间。
选择不同驾驶模式下的补偿输出量作为控制动作,将相同的离散化方法应用于补偿动作a输出变量:
其中d3是Q增强学习控制器输出a的离散维度,n3表示输出a的动作数,udmax和udmin是输出a的最大和最小值,k是动作a的索引值,该值通过最大化当前状态下Q值表获得。
c.设计奖励函数。
根据瞬时SoC状态设计奖励函数形式如下:
其中rt表示t时刻的奖励回报值,ΔP=Pdem-PFC-PSC,PSC是SC提供的功率,ΔI是在时间Δt内的燃料电池电流变化。
d.设计迭代学习Q值表策略,即在状态s下,增强学习***依照所设计的策略选择动作a获得的期望回报值。
I.初始化Q值表Q(st,at),设置最大学习周期Np和驾驶周期T。
II.在前10%的驾驶循环中,按照概率ξ随机选出动作at,否则将其添加到模糊EMS输出中,计算状态st+1和奖励值rt+1,并利用Bellman公式更新Qt+1
III.如果奖励值是-1000,则驾驶周期T中的学习过程将立即中止,否则重复步骤2直到驾驶周期T结束,Qt+1(st,at)=Qt(st,at)+η(rt+1-Qt(st,at))就是学习完成的Q值表。
IV.重复步骤I到步骤III直到迭代次数n达到最大值n=Np
迭代求解Q值表的过程属于现有技术,其核心是在状态s下,增强学习控制器依照策略选择动作a获得回报期望值。
Q(st,at)=E(rt+1+γrt+22rt+3+L|st,at)
其中,γ是折扣因子。用Bellman方程可迭代学习得到最大累积奖励的最优值函数Q*
其中第一部分是瞬时回报rt+1,第二部分是考虑损失因子的下一状态Q(st+1,at+1)值。通过Bellman方程的迭代过程如下所示:
其中η∈(0,1)是学习速率,该值越大收敛越快,通过增强学习,Qt将逐渐收敛到最佳值Q*
步骤(3)构建Q-Learning模糊能量管理***
结合S1中构建的模糊逻辑控制器和S2中构建的Q增强学习补偿控制器,建立Q-Learning模糊能量管理***。本发明提出的结合Q增强学习的模糊EMS策略的框架如图1所示。
在该EMS***中能量管理策略为:
若车辆需求功率Pdem为正且超级电容的荷电状态SoC大于SoC阈值,则由模糊逻辑控制器配合Q增强学习补偿输出控制器进行能量管理。基于输出的系数(uf+a)计算不同时刻的燃料电池的输出功率PFC
PFC=(uf+a)Pdem
其中a是Q增强学习补偿控制器输出的补偿动作,uf+a≤1;
若超级电容的SoC低于SoC阈值,则燃料电池将在其自身功率范围内提供所有需求功率。
步骤(4)EMS离线训练
获取车辆在不同工况下行驶的实时功率需求,在各种工况下对Q-Learning模糊能量管理***进行离线训练,使其能对实时功率进行分配。
同时为了解决Q增强学习难以收敛的缺陷,训练过程中需引入遗传算法(GA)来初始化Q值表,实现对步骤(2)中的迭代学习Q值表策略的优化。GA算法的核心介绍如下:
a.个体编码和选择策略确定
Q值表为n1×n2×n3矩阵,假设有N个个体,使用十进制编码形式,第i个个体(Ci)在(0,1)之间随机初始化,将第i个个体的参数代入目标函数,可得第i个个体的目标Ji,使用轮盘赌策略进行选择操作,其概率分布由目标函数确定:
其中fi=1/Ji为第i个个体的概率函数值。ξ∈(0,1)是随机数,若满足ξ<pi,则第i个个体将被选为父代个体。采用精英保留策略,经过N-1次赌轮盘选择,将产生N个父代个体。
b.交叉和变异操作
此后,在个体Ci和Ci+1之间以概率pc进行交叉操作,然后产生新的个体C′i和C′i+1
C′i=βCi+(1-β)Ci+1
C′i+1=βCi+1+(1-β)Ci
其中β为(0,1)之间的随机数。为了搜索得到更优的个体,在N个后代中以概率pm进行变异操作。一旦Ci+1需要变异,其在Q值表中的对应值将在(0,1)之间随机产生。
c.改进Q增强学习算法
Q值表的初始值将通过GA算法优化得到,以减少不同初始化值对Q增强学习的影响。此外,为避免算法过快陷入局部最优值,在前10%的驾驶循环中,以概率ξ随机生成补偿动作,否则,通过最大化Q值函数获得补偿动作,迭代优化Q值表的学习过程。训练过程结束后,将对整个动作进行重新评估:
其中Np是Q增强学习算法的迭代学习次数,以消除前10%驾驶周期中随机动作的影响。在该学习过程中具有最小Rtotal的Q值表选为最终的Qbt。优化Q值表的学习过程重写为:
在本实施例中,在离线训练Q-Learning模糊能量管理***中的Q增强学习补偿控制器时,根据GA算法对Q增强学习策略的Q值表进行初始值优化的过程如下:
S41:初始化遗传算法的参数,包括最大进化代数G、种群大小N、交叉算子概率Pc和变异算子概率Pm及其权重系数ω,进化代数g初始化为1,当前时刻t初始化为1;同时随机生成N个Q值表个体;
S42:在车辆的一个行驶周期T中,对于每个Q值表个体,执行如下操作:
1)基于当前时刻状态st选择的动作at计算t+1时刻的状态st+1和奖励值rt+1,并利用Bellman公式更新t+1时刻的Q值Qt+1;在选择动作at时,在行驶周期T的前一部分时刻按照概率ξ随机选出动作at,其余的时刻根据确定动作at,将其添加到Q-Learning模糊能量管理***输出中。
2)如果1)中得到的奖励值rt+1是表明SoC>SoCmax或SoC<SoCmin的值,即rt+1=-1000,则当前行驶周期T中的学习过程立即中止,否则使t=t+1后重复步骤1),直到行驶周期T结束;根据最终学习完成得到的Q值表,在Q-Learning模糊能量管理***中计算目标函数J,其目标为在满足约束条件下,使得燃料电池的电流脉动最小且能耗最低。
本实施例中,设置目标函数J如下:
s.t.PFC+PSC=Pdem
0<PFC≤40kW
0<iFC≤150A
-5kW≤ΔPFC≤5kW
-30kW≤PSC≤30kW
-150A≤iSC≤150A
vFC≥60V
其中:T是行驶周期,即离线优化过程中,混合动力汽车驾驶全程的采样时刻数;ΔPFC是t时刻FC的功率变化,ΔPFC=PFC(t)-PFC(t-1);iFC,isC分别是燃料电池和超级电容的电流;ΔI(t)=iFC(t)-iFC(t-1)是t时刻燃料电池的电流变化;ω是权重系数。将上述等式和不等式约束条件作为惩罚函数,将其添加到目标函数J中。
S43:对N个Q值表个体执行赌轮盘选择和精英保留策略,以产生交叉和变异算子的父代。
S44:在执行S43后产生的N个后代中分别以概率Pc和Pm执行交叉操作和变异操作,更新Q值表个体,完成一代进化。
S45:不断重复执行步骤S42至S44,直到达到最大进化代数G,获得当前行驶周期T的Q值表。
S46:以S41至S45得到的Q值表为最优初始值,同时为克服按照概率ξ随机选出动作at的影响,不断迭代重复步骤S42共Np次,直到完成所有Np次迭代后得到Np个Q值表;重复步骤S42~S45,直到完成所有Np次迭代,每一次迭代都会产生一个Q值表,由此可以得到Np个Q值表。Np的具体数值可根据需要确定。
步骤(5)最优Q值表Qb确定
在Np个Q值表中,以行驶周期中燃料电池的能耗总和最低为标准,选出最优Q值表Qb。燃油消耗总和的计算方法为:
在后续学习过程中将具有最小Rtotal的Q值表记为Qbt,即可根据Bellman方程更新学习过程:
步骤(6)不同工况的车辆在线能量管理
基于步骤(5)中的最优Q值表Qb,利用Q-Learning模糊能量管理***对车辆的燃料电池和超级电容输出功率进行在线调节。不同工况的能量输出可以基于最优Q值表Qb和Q-Learning算法得出的动作a进行调节,燃料电池输出的功率为:
PFC=(uf+a)Pdem
根据上述步骤(1)~(6)给出的GA算法和模糊能源管理控制算法,从ADVISOR获得数据后,在MATLAB中对所设计的EMS进行仿真。表2给出了Q增强学习模糊EMS和GA算法的主要参数,其中大部分数值是通过反复试验得出的。
表2算法主要参数设置
参数类型 设置值 参数类型 设置值 参数类型 设置值
G 100 n1 11 ξ 0.01
N 30 n2 7 [udmax,udmin] [0.1,0.6]
pc 0.9 n3 11 γ 0.001
pm 0.1 ε 0.1 η 0.99
ω 0.1 Np 2000 T 4500
图2到图5显示了测试周期下的实时能量管理结果。图2给出了本发明方法的实时能源管理功率误差分布,误差数量级为10-12,几乎为0。图3为SC的实时SoC分布,可见其处于安全范围[0.45,0.9]内。
为便于不同能源管理策略进行性能比较,选择另外2种方法进行对比。方法1:Q增强学习EMS且SC的SoC安全范围设置为[0.5,1]。方法2:基于神经网络分类器的模糊EMS,其中神经网络进行实时驾驶模式识别,且模糊EMS参数进行了优化以减少电流波动和H2消耗。在对比测试时,给定了相同的训练和测试数据。图4是车辆运行实时需求功率的能源管理误差对比图。显然,三种方法都可以满足车辆运行所需的功率要求。在这三种方法中,单纯的Q增强学习EMS的误差要大于我们的Q增强学习模糊EMS以及基于神经网络的模糊EMS。图5的SoC分布比较可见,本发明方法SoC相对较低,有利于进行能量回收以及提供更多的超级电容能量,也和表3中,本发明方法消耗氢气最少的结果一致。表3列出了3种方法的统计比较结果,主要比较了燃料电池的电流电压变化量均方值(ΔI,ΔV)、氢气消耗量(H2)、以及功率误差均方值。
表3:三种方法的统计结果
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,步骤如下:
S1:构建模糊逻辑控制器,作为燃料电池和超级电容混合动力车的主控制器;所述模糊逻辑控制器以车辆需求功率Pdem和超级电容的荷电状态SoC为输入,将其分别模糊化到模糊域后再通过解模糊,得到分配比例系数uf作为输出;
S2:构建Q增强学习补偿控制器,利用Q增强学习得到的动作对不同驾驶工况下的能源管理策略进行自适应补偿;在Q增强学习补偿控制器中,根据超级电容的SoC和车辆需求功率Pdem设计状态空间,根据燃料电池的输出功率PFC设计动作空间,根据超级电容的SoC状态设计奖励函数,Q增强学习补偿控制器的输出为对不同驾驶工况的补偿动作a;
S3:结合S1中构建的模糊逻辑控制器和S2中构建的Q增强学习补偿控制器,建立Q-Learning模糊能量管理***,在该***中能量管理策略为:
若车辆需求功率Pdem为正且超级电容的荷电状态SoC大于SoC阈值,则由Q-Learning模糊能量管理***进行能量管理,基于输出的系数(uf+a)计算不同时刻的燃料电池的输出功率PFC
PFC=(uf+a)Pdem
其中a是Q增强学习补偿控制器输出的补偿动作,uf+a≤1;
若超级电容的SoC低于SoC阈值,则燃料电池将在其功率范围内提供所有需求功率;
S4:获取车辆在不同工况下行驶的实时功率需求,在各种工况下对Q-Learning模糊能量管理***进行离线训练,使其能对实时功率进行分配;
在离线训练Q-Learning模糊能量管理***中的Q增强学习补偿控制器时,根据遗传算法对Q增强学习策略的Q值表进行初始值优化,具体过程为:
S41:初始化遗传算法的参数,包括最大进化代数G、种群大小N、交叉算子概率Pc和变异算子概率Pm及其权重系数ω,进化代数g初始化为1,当前时刻t初始化为1;同时随机生成N个Q值表个体;
S42:在车辆的一个行驶周期T中,对于每个Q值表个体,执行如下操作:
1)基于当前时刻状态st选择的动作at计算t+1时刻的状态st+1和奖励值rt+1,并利用Bellman公式更新t+1时刻的Q值Qt+1;在选择动作at时,在行驶周期T的前一部分时刻按照概率ξ随机选出动作at,其余的时刻根据确定动作at,将其添加到Q-Learning模糊能量管理***输出中;
2)如果1)中得到的奖励值rt+1是表明SoC>SoCmax或SoC<SoCmin的值,则当前行驶周期T中的学习过程立即中止,否则使t=t+1后重复步骤1),直到行驶周期T结束;根据最终学习完成得到的Q值表,在Q-Learning模糊能量管理***中计算目标函数J,其目标为在满足约束条件下,使得燃料电池的电流脉动最小且能耗最低;
S43:对N个Q值表个体执行赌轮盘选择和精英保留策略,以产生交叉和变异算子的父代;
S44:在执行S43后产生的N个后代中分别以概率Pc和Pm执行交叉操作和变异操作,更新Q值表个体,完成一代进化;
S45:不断重复执行步骤S42至S44,直到达到最大进化代数G,获得当前行驶周期T的Q值表;
S46:以S41至S45得到的Q值表为最优初始值,同时为克服按照概率ξ随机选出动作at的影响,不断迭代重复步骤S42,直到完成所有Np次迭代,得到Np个Q值表值;
S5:在Np个Q值表中,以行驶周期中燃料电池的能耗总和最低为标准,选出最优Q值表Qb;
S6:基于S5中的最优Q值表Qb,利用Q-Learning模糊能量管理***对车辆的燃料电池和超级电容输出功率进行在线调节。
2.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,所述S1的模糊逻辑控制器中,将车辆需求功率Pdem和超级电容的荷电状态SoC分别模糊化到模糊域I1∈[0,1],I2∈[0,1]:
其中Pmax是车辆行驶的最大需求功率,SoCmax和SoCmin分别表示SoC的最小值和最大值;
再采用Takagi-Sugeno-Kang模糊推理***及设定的模糊规则,通过重心法解模糊,计算模糊输出uf
3.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,所述S2的Q增强学习补偿控制器中,所述状态空间设计为:
选择车辆功率需求Pdem和超级电容的荷电状态SoC作为***状态s,对连续状态进行离散化:
其中:Pd∈[1,n1],SoCd∈[1,n2]为离散化状态空间的索引值,d1和d2分别表示Pdem和SoC的离散维度,n1和n2代表状态数。
4.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,所述S2的Q增强学习补偿控制器中,所述动作空间设计为:
选择不同驾驶模式下的补偿输出量作为控制动作输出,对连续动作进行离散化:
a=kd3+udmin
其中:d3是Q增强学习控制器的补偿动作a的离散维度,n3表示动作a的动作数,udmax和udmin是动作a的最大和最小值,k是动作a的索引值,该值通过当前状态下Q值表最大获得。
5.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,所述S2的Q增强学习补偿控制器中,所述奖励函数根据超级电容的瞬时SoC状态设计得到,形式如下:
其中:rt表示t时刻的奖励回报值,变量ΔP=Pdem-PFC-PSC,PSC是超级电容SC提供的功率,ΔI是在时间Δt内的燃料电池电流变化。
6.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,所述S3中,SoC阈值为0.45。
7.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,所述S42的步骤1)中,在行驶周期T的前10%时刻按照概率ξ随机选出动作at
8.根据权利要求1所述的基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,所述S42的步骤2)中,目标函数J设定为:
s.t.PFC+PSC=Pdem
0<PFC≤40kW
0<iFC≤150A
-5kW≤ΔPFC≤5kW
-30kW≤PSC≤30kW
-150A≤iSC≤150A
vFC≥60V
其中:T是行驶周期,即离线优化过程中,混合动力汽车驾驶全程的采样时刻数;ΔPFC是t时刻FC的功率变化,ΔPFC=PFC(t)-PFC(t-1);iFC,isC分别是燃料电池和超级电容的电流;ΔI(t)=iFC(t)-iFC(t-1)是t时刻燃料电池的电流变化;ω是权重系数。
CN202010818612.7A 2020-08-14 2020-08-14 一种结合q增强学习的实时模糊能源管理方法 Active CN112035949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010818612.7A CN112035949B (zh) 2020-08-14 2020-08-14 一种结合q增强学习的实时模糊能源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010818612.7A CN112035949B (zh) 2020-08-14 2020-08-14 一种结合q增强学习的实时模糊能源管理方法

Publications (2)

Publication Number Publication Date
CN112035949A CN112035949A (zh) 2020-12-04
CN112035949B true CN112035949B (zh) 2024-02-02

Family

ID=73577303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010818612.7A Active CN112035949B (zh) 2020-08-14 2020-08-14 一种结合q增强学习的实时模糊能源管理方法

Country Status (1)

Country Link
CN (1) CN112035949B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110052B (zh) * 2021-04-15 2022-07-26 浙大宁波理工学院 一种基于神经网络和强化学习的混合能量管理方法
TWI784491B (zh) * 2021-04-21 2022-11-21 力芯智能有限公司 電解過程的自適應模糊控制系統及其方法
CN113609102B (zh) * 2021-08-11 2024-03-19 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法
CN113715805B (zh) * 2021-10-09 2023-01-06 南京天航智能装备研究院有限公司 一种基于工况辨识的规则融合深度强化学习能量管理方法
CN114347812B (zh) * 2022-01-12 2024-01-16 河南科技大学 基于驾驶风格的燃料电池混合动力汽车能量管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128416A1 (en) * 2007-04-19 2008-10-30 The Chinese University Of Hong Kong Energy management for hybrid electric vehicles
CN109552079A (zh) * 2019-01-28 2019-04-02 浙江大学宁波理工学院 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
CN109657194A (zh) * 2018-12-04 2019-04-19 浙江大学宁波理工学院 一种基于Q-learning和规则的混合动力车辆运行实时能源管理方法
CN110021947A (zh) * 2019-04-23 2019-07-16 四川大学 一种基于强化学习的分散式储能电力***的运行优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128416A1 (en) * 2007-04-19 2008-10-30 The Chinese University Of Hong Kong Energy management for hybrid electric vehicles
CN109657194A (zh) * 2018-12-04 2019-04-19 浙江大学宁波理工学院 一种基于Q-learning和规则的混合动力车辆运行实时能源管理方法
CN109552079A (zh) * 2019-01-28 2019-04-02 浙江大学宁波理工学院 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
CN110021947A (zh) * 2019-04-23 2019-07-16 四川大学 一种基于强化学习的分散式储能电力***的运行优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
5G通信大规模天线无线传输技术探讨;白杨鹏程;;***与宽带多媒体(第01期);全文 *

Also Published As

Publication number Publication date
CN112035949A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112035949B (zh) 一种结合q增强学习的实时模糊能源管理方法
Xiong et al. Towards a smarter hybrid energy storage system based on battery and ultracapacitor-A critical review on topology and energy management
Min et al. Genetic algorithm optimized neural network based fuel cell hybrid electric vehicle energy management strategy under start-stop condition
Tang et al. Longevity-conscious energy management strategy of fuel cell hybrid electric Vehicle Based on deep reinforcement learning
Chen et al. Degradation model of proton exchange membrane fuel cell based on a novel hybrid method
Benchouia et al. An adaptive fuzzy logic controller (AFLC) for PEMFC fuel cell
Li et al. A speedy reinforcement learning-based energy management strategy for fuel cell hybrid vehicles considering fuel cell system lifetime
Zhang et al. Energy management strategy for fuel cell vehicles via soft actor-critic-based deep reinforcement learning considering powertrain thermal and durability characteristics
CN111948562B (zh) 一种燃料电池全生命周期监控与评估***
CN108363855B (zh) 一种基于路况识别的燃料电池与超级电容***优化方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN111917134B (zh) 一种基于数据驱动的配电网动态自主重构方法及***
Anbarasu et al. Novel enhancement of energy management in fuel cell hybrid electric vehicle by an advanced dynamic model predictive control
CN110838590B (zh) 一种质子交换膜燃料电池气体供应控制***及方法
CN107516892A (zh) 基于处理有功优化约束条件提高电能质量的方法
Zou et al. A real-time energy management approach with fuel cell and battery competition-synergy control for the fuel cell vehicle
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
Versaci et al. Fuzzy approach for managing renewable energy flows for DC-microgrid with composite PV-WT generators and energy storage system
Sreedharan et al. Mathematical modelling of polymer electrolyte membrane fuel cell and fuzzy-based intelligent controllers for performance enhancement
CN116050461A (zh) 运用卷积神经网络确定模糊控制理论隶属度函数的改进法
CN114611823B (zh) 电-冷-热-气多能需求典型园区的优化调度方法及***
CN115716469A (zh) 一种混合动力***的输出功率分配控制方法
CN115602891A (zh) 基于水活度校正的多堆燃料电池输出功率分配方法及***
Fu et al. A novel online energy management strategy for fuel cell vehicles based on improved random forest regression in multi road modes
Tong et al. Real-time simplified variable domain fuzzy control of PEM fuel cell flow systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant