CN109552079B - 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法 - Google Patents

一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法 Download PDF

Info

Publication number
CN109552079B
CN109552079B CN201910080455.1A CN201910080455A CN109552079B CN 109552079 B CN109552079 B CN 109552079B CN 201910080455 A CN201910080455 A CN 201910080455A CN 109552079 B CN109552079 B CN 109552079B
Authority
CN
China
Prior art keywords
lithium battery
learning
power
super capacitor
energy management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910080455.1A
Other languages
English (en)
Other versions
CN109552079A (zh
Inventor
陶吉利
韩凯
胡远敏
马龙华
张智焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute of Technology of ZJU
Original Assignee
Ningbo Institute of Technology of ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute of Technology of ZJU filed Critical Ningbo Institute of Technology of ZJU
Priority to CN201910080455.1A priority Critical patent/CN109552079B/zh
Publication of CN109552079A publication Critical patent/CN109552079A/zh
Application granted granted Critical
Publication of CN109552079B publication Critical patent/CN109552079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L2240/00Control parameters of input or output; Target parameters
    • B60L2240/40Drive Train control parameters
    • B60L2240/54Drive Train control parameters related to batteries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries

Landscapes

  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Secondary Cells (AREA)

Abstract

本发明公开了一种基于规则与Q‑learning增强学习的电动汽车复合能量管理方法。该方法根据每一时刻车辆的功率需求,锂电池以及超级电容SOC状况来进行能量管理。在基于Q‑learning增强学习的能量管理策略中,能量管理控制器通过观察***状态采取动作,计算每个动作相应的奖励值并且进行实时更新,利用奖励值通过Q‑learning增强学习算法仿真训练得到一种使***损耗功率最小的能量管理策略,最后利用学习得到的能量管理策略进行实时功率分配,同时继续对奖励值进行更新,以适应当前的驾驶条件。该方法在满足所需功率的基础上,可以保持锂电池的电量并延长锂电池的寿命,同时降低***的能量损耗,提高了混合动力***的效率。

Description

一种基于规则与Q-learning增强学习的电动汽车复合能量管 理方法
技术领域
本发明涉及一种基于规则与Q-learning增强学习的电动汽车能量管理方法。
背景技术
当前汽车对不可再生燃料的高度依赖,引起人们对全球环境可持续发展的关注。传统汽车造成的空气污染和资源消耗问题极大地促进了电动汽车的发展。对于电动汽车的储能***,不仅需要足够的能量来长距离行驶,还需要足够的动力来加速、制动、爬坡等。锂电池由于其重量轻、储能大、功率大、无污染等特点既能满足高功率密度又能满足高能量密度的要求,但单独使用锂电池可能导致电池组过热并缩短其寿命。而超级电容具有寿命长和瞬时功率高等优点,可以作为混合储能***的辅助电源。另外,超级电容工作的温度范围广,并且可以完全吸收汽车的制动能量,有效地弥补了锂电池的缺点。所以锂电池与超级电容组合的混合动力***是延长***寿命,满足大顺是功率需求的有效解决方案。因此,如何高效发挥锂电池及超级电容的特点及优势,对二者能量进行优化分配是动力***能量管理的核心和关键。
发明内容
本发明的目的是解决电动汽车车混合动力***的能量分配问题,本文提出了一种基于规则与非线性预测控制的复合能源管理方法,该方法根据每一时刻车辆的功率需求,锂电池以及超级电容SOC状况来进行能量管理。在基于Q-learning增强学习的能量管理策略中,能量管理控制器通过观察***状态采取动作,计算每个动作相应的奖励值并且进行实时更新,利用奖励值通过Q-learning增强学习算法仿真训练得到一种使***损耗功率最小的能量管理策略,最后利用学习得到的能量管理策略进行实时功率分配,同时继续对奖励值进行更新,以适应当前的驾驶条件。试验结果表明,该方法可以保持锂电池的电量并延长锂电池的寿命,同时降低***的能量损耗,提高了混合动力***的效率。
本发明具体采用的技术方案如下:
一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法,在该复合能量管理方法中,将基于Q-learning增强学习的能量管理策略与基于规则的能量管理策略相结合,以完成对混合动力***的能量分配;当汽车进行制动或锂电池与超级电容能量过低时,直接基于规则得到锂电池和超级电容的输出功率;其他情况下,采用基于Q-learning增强学习的能量管理策略,通过Q-learning增强学习策略得到锂电池的输出功率,从而完成能量分配。
基于上述技术方案,本发明还可以提供如下优选方式。
作为优选,电动汽车混合动力***由锂电池和超级电容组成。
作为优选,该方法通过每个时刻汽车运行所需功率Pn、锂电池的SOC以及超级电容的SOC进行锂电池功率Pb与超级电容功率Puc的分配,具体的分配策略如下:
若Pn<0且USOC>USOCH,则使Pb=Pn且Puc=0;
若Pn<0且USOC≤USOCH,则使Pb=0且Puc=Pn
若Pn>0且USOC>USOCL且BSOC>BSOCL,则采用基于Q-learning增强学习的能量管理策略进行功率分配;
若Pn>0且USOC≤USOCL且BSOC>BSOCL,则使Pb=Pn且Puc=0;
若Pn>0且USOC>USOCL且BSOC≤BSOCL,则使Pb=0且Puc=Pn
其中,Pn表示每个时刻汽车运行所需功率,BSOC表示锂电池的SOC,USOC表示超级电容的SOC;USOCH、USOCL分别表示超级电容SOC的上限值、下限值,BSOCL表示锂电池SOC的下限值。
进一步的,所述基于Q-learning增强学习的能量管理策略中,增强学习***接受***状态的输入,并且根据学习得到的策略输出相应的行为动作;***在当前动作作用下,变迁到新的状态,同时得到***对于动作的即时奖励反馈,并且根据即时奖励反馈更新随时间量累计总奖励的价值函数Q;当价值函数收敛时,学习过程结束;所述的增强学习***的目标是学习一个策略,使***选择的动作能够获得的奖赏Q最大;所述策略通过价值函数Q值表体现,Q值表为由状态量和动作量生成的二维数表,并通过锂电池与超级电容的损耗来计算并不断更新;控制器根据当前***所处的状态,在Q值表中选择最大Q值所对应的动作量作为当前最优动作量输出;其中汽车所需功率Pn作为唯一状态量,锂电池的输出功率Pb作为动作量。
进一步的,所述基于Q-learning增强学习的能量管理策略进行功率分配的步骤为:
步骤1).在特定工况下,通过仿真训练学习Q值表,具体计算过程如1.1)~1.6):
1.1).首先对Q表进行初始化,令其为0;令训练周期数为N,每个周期时间长度为T;令训练周期序列数n为1;
1.2).初始化锂电池和超级电容的状态,令时间序列数t=1;
1.3).根据当前时刻锂电池和超级电容各个状态以及所需功率,计算锂电池输出电流同时计算即时奖励反馈并更新Q值表,具体方法如下:
选择汽车所需功率Pn作为唯一状态量;将汽车所需功率通过划分为nums个区间,每个区间代表一个状态,即nums个状态,对于当前的状态Pn有:
Figure BDA0001960216580000031
Figure BDA0001960216580000032
其中,Pnmax表示所需功率的最大值,d1表示状态量每个区间的长度,ns表示状态量对应于Q值表中的序列值;状态量通过序列值ns在Q值表中进行索引;
选择锂电池的输出功率Pb作为动作量,将动作量通过划分为numa个区间,每个区间代表一个动作,即numa个动作,则当前的动作Pb由下式计算:
Figure BDA0001960216580000033
Pb=(na-0.5)·d2
其中,Pbmax表示锂电池功率的最大值,d2表示状态量每个区间的长度,na表示动作量量对应于Q值表中的序列值,通过索引Q值表获得;同时,超级电容输出功率由所需功率减去锂电池输出功率获得;
由价值函数计算得到的二维Q值表的大小为nums×numa;价值函数Q由:即时奖励反馈r和累计奖励两部分组成,其中即时奖励反馈r通过锂电池与超级电容的损耗来表示,具体计算方法为:
r=-(iL(k)2·Ri+ic(k)2·Rc)
其中,iL(k)和ic(k)分别为k时刻的锂电池输出电流和超级电容输出电流;Ri为锂电池内阻,Rc为超级电容内阻;同时,价值函数Q根据下式进行更新:
Figure BDA0001960216580000041
其中,η∈(0,1)为学习速率,γ∈(0,1)为折扣因子;s'和a'分别为状态量s在动作a的作用下得到的下个时刻的状态量与动作量,Q'(s,a)和Q(s,a)分别表示更新后和更新前的价值函数;
1.4).更新锂电池和超级电容的状态;
1.5).令t=t+1,如果t>T,则n=n+1;否则转步骤1.3);
1.6).如果n>N,则结束训练;否则转1.2.
在训练N个周期以后,学习获得一个Q值表;
步骤2).利用规则以及Q值表进行能量的实时分配:在任意工况中,根据每个时刻的功率需求,通过规则以及步骤1)中训练得到的Q值表得到锂电池与超级电容的输出功率,从而完成能量分配;同时在能量分配的过程中,仍然对Q值表进行进一步的修正更新,以适应当前的驾驶条件。
本发明提出的方法根据每一时刻车辆的功率需求,锂电池以及超级电容SOC状况来进行能量管理。该方法根据每一时刻车辆的功率需求,锂电池以及超级电容SOC状况来进行能量管理。在基于Q-learning增强学习的能量管理策略中,能量管理控制器通过观察***状态采取动作,计算每个动作相应的奖励值并且进行实时更新,利用奖励值通过Q-learning增强学习算法仿真训练得到一种使***损耗功率最小的能量管理策略,最后利用学习得到的能量管理策略进行实时功率分配,同时继续对奖励值进行更新,以适应当前的驾驶条件。该方法在满足所需功率的基础上,可以保持锂电池的电量并延长锂电池的寿命,同时降低***的能量损耗,提高了混合动力***的效率。
附图说明
图1为锂电池模型;
图2为超级电容模型;
图3为电动汽车及双向电能转换研究实验平台结构图;
图4为ECE驾驶工况速度图;
图5为ECE驾驶工况下,两种策略中各个数据比较:从左到右从上到下分别为锂电池输出功率,超级电容输出功率,锂电池SOC,超级电容SOC。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
本发明中的基于规则与Q-learning增强学习的电动汽车复合能量管理方法,主要用于对混合动力的电动汽车进行能量分配管理,其混合动力***由锂电池和超级电容组成。通过该方法,可对电动汽车混合动力输出时的锂电池和超级电容的功率进行合理分配,在满足所需功率的基础上,可以保持锂电池的电量并减少***能量的损耗。
在该复合能量管理方法中,将基于Q-learning增强学习的能量管理策略与基于规则的能量管理策略相结合,以完成对混合动力***的能量分配;当汽车进行制动或锂电池与超级电容能量过低时,直接基于规则得到锂电池和超级电容的输出功率;其他情况下,采用基于Q-learning增强学习的能量管理策略,通过Q-learning增强学习策略得到锂电池的输出功率,从而完成能量分配。
电动汽车混合动力***由锂电池和超级电容组成,因此两者各自的输出功率需要进行合理分配。该方法通过每个时刻汽车运行所需功率Pn、锂电池的SOC以及超级电容的SOC进行锂电池功率Pb与超级电容功率Puc的分配,具体的分配策略如下:
若Pn<0且USOC>USOCH,则使Pb=Pn且Puc=0;
若Pn<0且USOC≤USOCH,则使Pb=0且Puc=Pn
若Pn>0且USOC>USOCL且BSOC>BSOCL,则采用基于Q-learning增强学习的能量管理策略进行功率分配;
若Pn>0且USOC≤USOCL且BSOC>BSOCL,则使Pb=Pn且Puc=0;
若Pn>0且USOC>USOCL且BSOC≤BSOCL,则使Pb=0且Puc=Pn
其中,Pn表示每个时刻汽车运行所需功率,BSOC表示锂电池的SOC,USOC表示超级电容的SOC;USOCH、USOCL分别表示超级电容SOC的上限值、下限值,BSOCL表示锂电池SOC的下限值。
在上述策略中,除Pn>0且USOC>USOCL且BSOC>BSOCL的情况属于基于Q-learning增强学习的能量管理策略进行分配外,其余均是基于规则的能量管理策略,直接得到锂电池和超级电容的输出功率。
而在基于Q-learning增强学习的能量管理策略中,增强学习***接受***状态的输入,并且根据学习得到的策略输出相应的行为动作;***在当前动作作用下,变迁到新的状态,同时得到***对于动作的即时奖励反馈,并且根据即时奖励反馈更新随时间量累计总奖励的价值函数Q。当价值函数收敛时,学习过程结束。增强学习***的目标是学习一个策略,使***选择的动作能够获得的奖赏Q最大;而所谓的策略通过价值函数Q值表体现,Q值表为由状态量和动作量生成的二维数表,并通过锂电池与超级电容的损耗来计算并不断更新。控制器根据当前***所处的状态,在Q值表中选择最大Q值所对应的动作量作为当前最优动作量输出;其中汽车所需功率Pn作为唯一状态量,锂电池的输出功率Pb作为动作量。
下面详细介绍基于Q-learning增强学习的能量管理策略进行功率分配的步骤,具体如下:
步骤1).在特定工况下,通过仿真训练学习Q值表,具体计算过程如1.1)~1.6):
1.1).首先对Q表进行初始化,令其为0;令训练周期数为N,每个周期时间长度为T;令训练周期序列数n为1;
1.2).初始化锂电池和超级电容的状态,令时间序列数t=1;
1.3).根据当前时刻锂电池和超级电容各个状态以及所需功率,计算锂电池输出电流同时计算即时奖励反馈并更新Q值表,具体方法如下:
由于Q-learning增强学习策略是在基于规则的能量管理策略基础上进行能量分配的,而在规则中,已将***所需的大部分状态条件给出,所以这里选择汽车所需功率Pn作为唯一状态量;为了将连续的状态量对应于Q值表中,将汽车所需功率通过划分为nums个区间,每个区间代表一个状态,即nums个状态,对于当前的状态Pn有:
Figure BDA0001960216580000061
Figure BDA0001960216580000062
其中,Pnmax表示所需功率的最大值,d1表示状态量每个区间的长度,ns表示状态量对应于Q值表中的序列值;状态量通过序列值ns在Q值表中进行索引;
选择锂电池的输出功率Pb作为动作量,同样地,将动作量通过划分为numa个区间,每个区间代表一个动作,即numa个动作,则当前的动作Pb由下式计算:
Figure BDA0001960216580000071
Pb=(na-0.5)·d2
其中,Pbmax表示锂电池功率的最大值,d2表示状态量每个区间的长度,na表示动作量量对应于Q值表中的序列值,通过索引Q值表获得;同时,超级电容输出功率由所需功率减去锂电池输出功率获得;
由价值函数计算得到的二维Q值表的大小为nums×numa;价值函数Q由:即时奖励反馈r和累计奖励两部分组成,其中即时奖励反馈r通过锂电池与超级电容的损耗来表示,具体计算方法为:
r=-(iL(k)2·Ri+ic(k)2·Rc)
其中,iL(k)和ic(k)分别为k时刻的锂电池输出电流和超级电容输出电流;Ri为锂电池内阻,Rc为超级电容内阻;同时,价值函数Q根据下式进行更新:
Figure BDA0001960216580000072
其中,η∈(0,1)为学习速率,γ∈(0,1)为折扣因子;s'和a'分别为状态量s在动作a的作用下得到的下个时刻的状态量与动作量,Q'(s,a)和Q(s,a)分别表示更新后和更新前的价值函数;
1.4).更新锂电池和超级电容的状态;
1.5).令t=t+1,如果t>T,则n=n+1;否则转步骤1.3);
1.6).如果n>N,则结束训练;否则转1.2.
在训练N个周期以后,学习获得一个Q值表,然后进行步骤2)。
步骤2).利用规则以及Q值表进行能量的实时分配:在任意工况中,根据每个时刻的功率需求,通过规则以及步骤1)中训练得到的Q值表得到锂电池与超级电容的输出功率,从而完成能量分配;同时在能量分配的过程中,仍然对Q值表进行进一步的修正更新,以适应当前的驾驶条件。
下面基于上述方法,结合具体实施例对其技术效果进行进一步展示,部分参数的定义如前所述,不再赘述。
实施例
在电动汽车及双向电能转换研究实验平台上采用该方法利用ECE(EconomicCommission of Europe)驾驶工况进行实验。实验平台结构图如图3所示,整个研究实验平台由工控机1统一管理,工控机1通过CAN网络控制充电机、逆变器、电池管理***以及双向DC/DC变换器,通过以太网与电力测功***工控机2通信,从而电机以及变频器。ECE驾驶工况如图4所示。
在复合能量管理策略中中,将基于Q-learning增强学习的能量管理策略与基于规则的能量管理策略相结合,以完成对混合动力***的能量分配:当汽车进行制动或锂电池与超级电容能量过低时,直接基于规则得到锂电池和超级电容的输出功率;其他情况下,采用基于Q-learning增强学习的能量管理策略,通过Q-learning增强学习策略得到锂电池的输出功率,从而完成能量分配。本实施例中,电动汽车混合动力***由锂电池和超级电容组成。其模型建立如下:
1).锂电池模型:本发明选择一个基于RC网络的电池模型来分析锂电池的动态性能,等效模型如图1所示。该模型包含开路电压Uoc、内阻Ri、和RC网络。其中,RC网络通过扩散电阻RD和扩散电容CD表示电池的动态电压性能。其中,iL表示锂电池输出电流(放电为正,充电为负),Ut表示端电压,UD表示扩散电阻引起的扩散电压。则锂电池动态方程可表示为:
Figure BDA0001960216580000081
Ut=Uoc-UD-iL·Ri
2).超级电容模型:为了分析超级电容的动态性能,可将超级电容视为理想电容与内阻Rc的组合,如图2所示。超级电容的动态方程可表示为:
Uct=Uco-Rc·ic
其中,Uct,Uco分别表示超级电容的端电压与理想电容器两端的电压,ic为超级电容输出电流(放电为正,充电为负)。同时,超级电容SOC(USOC)可表示为:
Figure BDA0001960216580000082
其中,Umax表示超级电容电压最大值。
3):***状态方程:
对于由锂电池和超级电容组成的混合动力***,可将连续时间模型转换为离散状态方程。选取锂电池扩散电压UD(k),锂电池SOC BSOC(k),超级电容SOC USOC(k)作为状态变量,则锂电池和超级电容的状态方程可表示为:
Figure BDA0001960216580000091
Figure BDA0001960216580000092
其中,Qb,Qc分别为锂电池与电容的电荷容量,其值分别为2000Ah,7920C。。
同时,锂电池与超级电容的输出功率计算如下:
Pb(k)=iL(k)·Ut(k)
Puc(k)=ic(k)·Uct(k)
且满足Pn(k)=Pb(k)+Puc(k)
其中,Pb为锂电池输出功率,Puc为超级电容输出功率,Pn表示汽车运行所需功率。锂电池与超级电容各个参数及单位如表1所示。
表1锂电池与超级电容模型参数
Figure BDA0001960216580000093
该方法通过每个时刻汽车运行所需功率Pn、锂电池的SOC以及超级电容的SOC进行锂电池功率Pb与超级电容功率Puc的分配,具体的分配策略如下:
若Pn<0且USOC>USOCH,则使Pb=Pn且Puc=0;
若Pn<0且USOC≤USOCH,则使Pb=0且Puc=Pn
若Pn>0且USOC>USOCL且BSOC>BSOCL,则采用基于Q-learning增强学习的能量管理策略进行功率分配;
若Pn>0且USOC≤USOCL且BSOC>BSOCL,则使Pb=Pn且Puc=0;
若Pn>0且USOC>USOCL且BSOC≤BSOCL,则使Pb=0且Puc=Pn
其中,Pn表示每个时刻汽车运行所需功率,BSOC表示锂电池的SOC,USOC表示超级电容的SOC;USOCH、USOCL分别表示超级电容SOC的上限值、下限值,BSOCL表示锂电池SOC的下限值。
在所述基于Q-learning增强学习的能量管理策略中,增强学习***接受***状态的输入,并且根据学习得到的策略输出相应的行为动作。***在当前动作作用下,变迁到新的状态,同时得到***对于动作的即时奖励反馈,并且根据即时奖励反馈更新随时间量累计总奖励的价值函数Q。当价值函数收敛时,学习过程结束。对于增强学习***来说,其目标是学习一个策略,使***选择的动作能够获得的奖赏Q最大。具体计算方法如下:
1)策略:策略规定了特定状态下***的输出动作。在Q-learning增强学习过程中,策略通过价值函数Q值表体现,Q值表是由状态量和动作量生成的二维数表。控制器根据当前***所处的状态,在Q值表中选择最大Q值所对应的动作量作为当前最优动作量输出。
2)***状态量s:由于Q-learning增强学习策略使在基于规则的能量管理策略基础上进行能量分配的,而在规则中,已将***所需的大部分状态条件给出,所以这里选择汽车所需功率Pn作为唯一状态量。为了将连续的状态量对应于Q值表中,将所需功率通过划分为nums个区间,每个区间代表一个状态,即nums个状态,对于当前的状态Pn有:
Figure BDA0001960216580000101
Figure BDA0001960216580000102
其中,Pnmax表示所需功率的最大值,d1表示状态量每个区间的长度,ns表示状态量对应于Q值表中的序列值。于是状态量可通过序列值ns在Q值表中进行索引。
3)动作量a:选择锂电池的输出功率Pb作为动作量。同样地,将动作量通过划分为numa个区间,每个区间代表一个动作,即numa个动作,则当前的动作Pb可由下式计算:
Figure BDA0001960216580000103
Pb=(na-0.5)·d2
其中,Pbmax表示锂电池功率的最大值,d2表示状态量每个区间的长度,na表示动作量量对应于Q值表中的序列值,可通过索引Q值表获得。同时,超级电容输出功率可由所需功率减去锂电池输出功率获得。
4)价值函数Q:价值函数Q可以评估对于当前状态采取某一动作的好坏。由价值函数计算得到的二维Q值表的大小为nums×numa。价值函数Q由两部分组成:即时奖励反馈r和累计奖励。其中,即时奖励反馈r通过锂电池与超级电容的损耗来表示,具体计算方法为:
r=-(iL(k)2·Ri+ic(k)2·Rc)
其中,iL(k)和ic(k)分别为k时刻的锂电池输出电流和超级电容输出电流;Ri为锂电池内阻,Rc为超级电容内阻。同时,价值函数Q根据下式进行更新:
Figure BDA0001960216580000111
其中,η∈(0,1)为学习速率,γ∈(0,1)为折扣因子。s',a'为状态量s在动作a的作用下得到的下个时刻的状态量与动作量,Q'(s,a)和Q(s,a)分别表示更新后和更新前的价值函数。
综上所述,基于规则与Q-learning增强学习的能量管理策略进行功率分配的操作步骤为:
步骤1).在特定工况下,通过仿真训练学习Q值表;
步骤2).利用规则以及Q值表进行能量的实时分配。在任意工况中,根据每个时刻的功率需求,通过规则以及1)中训练得到的Q值表得到锂电池与超级电容的输出功率,从而完成能量分配。同时在能量分配的过程中,仍然通过公式对Q值表进行进一步的修正更新,以适应当前的驾驶条件。
其中在步骤1)中,仿真训练学习Q值表具体计算过程如下:
1.1).首先对Q值表进行初始化,令其为0。令训练周期数为N,每个周期时间长度为T。令训练周期序列数n为1。
1.2).初始化***状态,令时间序列数t=1;
1.3).根据当前时刻***的各个状态值,通过所述方法得到锂电池输出电流并计算即时奖励反馈同时更新Q值表;
1.4).更新***状态;
1.5).令t=t+1,如果t>T,则n=n+1;否则转1.3);
1.6).如果n>N,则结束训练;否则转1.2).
在训练N个周期以后,可以学习获得一个Q值表。仿真训练过程中各个参数值以及初始状态设定如表2所示:
表2仿真训练参数值及初始状态设定
Figure BDA0001960216580000121
***采用该方法(RQL)进行能量管理之后的锂电池与超级电容的输出同只基于规则的能量管理方法(R-Based)的输出对比如图5所示。由图中可以看出,ECE工况下,采用该方法进行能量管理中的超级电容SOC水平比较低,锂电池SOC水平比较高,说明该方法减少了锂电池的使用,保持了锂电池电量,有助于延长锂电池寿命。同时计算可得,采用该方法***损耗的能量为810.36J,采用基于规则的能量管理方法***需要能量为877.85J,由此可知,该方法可以减少***能量损耗
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (1)

1.一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法,其特征在于:在复合能量管理方法中,将基于Q-learning增强学习的能量管理策略与基于规则的能量管理策略相结合,以完成对混合动力***的能量分配;当汽车进行制动或锂电池与超级电容能量过低时,直接基于规则得到锂电池和超级电容的输出功率;其他情况下,采用基于Q-learning增强学习的能量管理策略,通过Q-learning增强学习策略得到锂电池的输出功率,从而完成能量分配;
电动汽车混合动力***由锂电池和超级电容组成;
该方法通过每个时刻汽车运行所需功率Pn、锂电池的SOC以及超级电容的SOC进行锂电池功率Pb与超级电容功率Puc的分配,具体的分配策略如下:
若Pn<0且USOC>USOCH,则使Pb=Pn且Puc=0;
若Pn<0且USOC≤USOCH,则使Pb=0且Puc=Pn
若Pn>0且USOC>USOCL且BSOC>BSOCL,则采用基于Q-learning增强学习的能量管理策略进行功率分配;
若Pn>0且USOC≤USOCL且BSOC>BSOCL,则使Pb=Pn且Puc=0;
若Pn>0且USOC>USOCL且BSOC≤BSOCL,则使Pb=0且Puc=Pn
其中,Pn表示每个时刻汽车运行所需功率,BSOC表示锂电池的SOC,USOC表示超级电容的SOC;USOCH、USOCL分别表示超级电容SOC的上限值、下限值,BSOCL表示锂电池SOC的下限值;
所述基于Q-learning增强学习的能量管理策略中,增强学习***接受***状态的输入,并且根据学习得到的策略输出相应的行为动作;***在当前动作作用下,变迁到新的状态,同时得到***对于动作的即时奖励反馈,并且根据即时奖励反馈更新随时间量累计总奖励的价值函数Q;当价值函数收敛时,学习过程结束;所述的增强学习***的目标是学习一个策略,使***选择的动作能够获得的奖赏Q最大;所述策略通过价值函数Q值表体现,Q值表为由状态量和动作量生成的二维数表,并通过锂电池与超级电容的能耗来计算并不断更新;控制器根据当前***所处的状态,在Q值表中选择最大Q值所对应的动作量作为当前最优动作量输出;其中汽车所需功率Pn作为唯一状态量,锂电池的输出功率Pb作为动作量;
所述基于Q-learning增强学习的能量管理策略进行功率分配的步骤为:
步骤1).在特定工况下,通过仿真训练学习Q值表,具体计算过程如1.1)~1.6):
1.1).首先对Q表进行初始化,令其为0;令训练周期数为N,每个周期时间长度为T;令训练周期序列数n为1;
1.2).初始化锂电池和超级电容的状态,令时间序列数t=1;
1.3).根据当前时刻锂电池和超级电容各个状态以及所需功率,计算锂电池输出电流同时计算即时奖励反馈并更新Q值表,具体方法如下:
选择汽车所需功率Pn作为唯一状态量;将汽车所需功率通过划分为nums个区间,每个区间代表一个状态,即nums个状态,对于当前的状态Pn有:
Figure FDA0002590875250000021
Figure FDA0002590875250000022
其中,Pnmax表示所需功率的最大值,d1表示状态量每个区间的长度,ns表示状态量对应于Q值表中的序列值;状态量通过序列值ns在Q值表中进行索引;
选择锂电池的输出功率Pb作为动作量,将动作量通过划分为numa个区间,每个区间代表一个动作,即numa个动作,则当前的动作Pb由下式计算:
Figure FDA0002590875250000023
Pb=(na-0.5)·d2
其中,Pbmax表示锂电池功率的最大值,d2表示状态量每个区间的长度,na表示动作量对应于Q值表中的序列值,通过索引Q值表获得;同时,超级电容输出功率由所需功率减去锂电池输出功率获得;
由价值函数计算得到的二维Q值表的大小为nums×numa;价值函数Q由:即时奖励反馈r和累计奖励两部分组成,其中即时奖励反馈r通过锂电池与超级电容的损耗来表示,具体计算方法为:
r=-(iL(k)2·Ri+ic(k)2·Rc)
其中,iL(k)和ic(k)分别为k时刻的锂电池输出电流和超级电容输出电流;Ri为锂电池内阻,Rc为超级电容内阻;同时,价值函数Q根据下式进行更新:
Figure FDA0002590875250000031
其中,η∈(0,1)为学习速率,γ∈(0,1)为折扣因子;s'和a'分别为状态量s在动作a的作用下得到的下个时刻的状态量与动作量,Q'(s,a)和Q(s,a)分别表示更新后和更新前的价值函数;
1.4).更新锂电池和超级电容的状态;
1.5).令t=t+1,如果t>T,则n=n+1;否则转步骤1.3);
1.6).如果n>N,则结束训练;否则转1.2;
在训练N个周期以后,学习获得一个Q值表;
步骤2).在任意工况中,根据每个时刻的功率需求,通过规则以及步骤1)中训练得到的Q值表得到锂电池与超级电容的输出功率,从而完成能量分配;同时在能量分配的过程中,仍然对Q值表进行进一步的修正更新,以适应当前的驾驶条件。
CN201910080455.1A 2019-01-28 2019-01-28 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法 Active CN109552079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910080455.1A CN109552079B (zh) 2019-01-28 2019-01-28 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910080455.1A CN109552079B (zh) 2019-01-28 2019-01-28 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法

Publications (2)

Publication Number Publication Date
CN109552079A CN109552079A (zh) 2019-04-02
CN109552079B true CN109552079B (zh) 2020-10-09

Family

ID=65873876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910080455.1A Active CN109552079B (zh) 2019-01-28 2019-01-28 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法

Country Status (1)

Country Link
CN (1) CN109552079B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210076223A (ko) * 2019-12-13 2021-06-24 현대자동차주식회사 하이브리드 차량 및 그 제어 방법
CN111367172B (zh) * 2020-02-28 2021-09-21 华南理工大学 一种基于逆向深度强化学习的混动***能量管理策略
DE102020107003A1 (de) * 2020-03-13 2021-09-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zur Überwachung eines elektrischen Bordnetzes eines Fahrzeugs
CN112036603B (zh) * 2020-07-28 2024-07-23 南京航空航天大学 一种基于双堆燃料电池的混合储能***能量管理策略
CN112035949B (zh) * 2020-08-14 2024-02-02 浙大宁波理工学院 一种结合q增强学习的实时模糊能源管理方法
CN112757922B (zh) * 2021-01-25 2022-05-03 武汉理工大学 一种车用燃料电池混合动力能量管理方法及***
CN113110052B (zh) * 2021-04-15 2022-07-26 浙大宁波理工学院 一种基于神经网络和强化学习的混合能量管理方法
CN113511082B (zh) * 2021-05-31 2023-06-16 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法
CN114475280A (zh) * 2022-03-01 2022-05-13 武汉理工大学 一种电动汽车混合动力***能量管理方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103490494A (zh) * 2013-09-18 2014-01-01 江苏大学 一种应用于混合动力汽车车载复合电源
CN105416077A (zh) * 2015-12-01 2016-03-23 北京理工大学 一种电动汽车的能量管理***及管理方法
CN106004449A (zh) * 2016-05-18 2016-10-12 江苏大学 一种基于超级电容soc识别故障的蓄电池保护控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103490494A (zh) * 2013-09-18 2014-01-01 江苏大学 一种应用于混合动力汽车车载复合电源
CN105416077A (zh) * 2015-12-01 2016-03-23 北京理工大学 一种电动汽车的能量管理***及管理方法
CN106004449A (zh) * 2016-05-18 2016-10-12 江苏大学 一种基于超级电容soc识别故障的蓄电池保护控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Battery and ultracapacitor in-the-loop approach to validate a real-time;Rui Xiong;《Applied Energy》;20180501;第217卷;第153-165页 *

Also Published As

Publication number Publication date
CN109552079A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109552079B (zh) 一种基于规则与Q-learning增强学习的电动汽车复合能量管理方法
Zhang et al. Experimental study on a semi-active battery-supercapacitor hybrid energy storage system for electric vehicle application
Xiong et al. Towards a smarter hybrid energy storage system based on battery and ultracapacitor-A critical review on topology and energy management
Chen et al. Optimization of sizing and frequency control in battery/supercapacitor hybrid energy storage system for fuel cell ship
Reddy et al. An intelligent power and energy management system for fuel cell/battery hybrid electric vehicle using reinforcement learning
CN109552110B (zh) 基于规则与非线性预测控制的电动汽车复合能量管理方法
CN110126679B (zh) 一种燃料电池最佳工作点的获取方法
Herrera et al. Optimal energy management of a hybrid electric bus with a battery-supercapacitor storage system using genetic algorithm
CN106494328B (zh) 一种基于电功率在线计算的燃油汽车电能控制***及方法
CN108189674A (zh) 一种混合动力有轨电车制动能量回收方法及***
CN105098852A (zh) 电动汽车换电装置及其充电管理方法
CN110294418B (zh) 一种混合动力轮胎式集装箱起重机分布式能量管理方法
Li et al. Energy sources durability energy management for fuel cell hybrid electric bus based on deep reinforcement learning considering future terrain information
CN114347866B (zh) 一种基于vmd处理的燃料电池能量管理方法
Xue et al. Adaptive dynamic programming method for optimal battery management of battery electric vehicle
CN112467717A (zh) 一种基于模糊控制的混合能源***实时负荷分配方法
Jin et al. Energy management strategy of fuzzy logic control for fuel cell truck
Arani et al. Energy management of dual-source propelled electric vehicle using fuzzy controller optimized via genetic algorithm
CN110341537A (zh) 一种基于模型预测控制的车载双向充电机充电控制策略
Zhou et al. Cost-Based Research on Energy Management Strategy of Electric Vehicles Using Hybird Energy Storage System
Usmani et al. Power management for hybrid energy storage system in electric vehicles
Zhang et al. Implementation of a predictive energy management strategy for battery and supercapacitor hybrid energy storage systems of pure electric vehicles
Gadge et al. Fuzzy logic-based energy management system in hybrid electrical vehicle
Liu et al. Multi-objective optimization for energy management of fuel cell hybrid electric vehicles
Li et al. Rule and Q-learning based hybrid energy management for electric vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant