CN115730529B - 基于工况识别的phet能量管理策略生成方法及*** - Google Patents

基于工况识别的phet能量管理策略生成方法及*** Download PDF

Info

Publication number
CN115730529B
CN115730529B CN202211627066.4A CN202211627066A CN115730529B CN 115730529 B CN115730529 B CN 115730529B CN 202211627066 A CN202211627066 A CN 202211627066A CN 115730529 B CN115730529 B CN 115730529B
Authority
CN
China
Prior art keywords
vehicle
neural network
driving
network
working condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211627066.4A
Other languages
English (en)
Other versions
CN115730529A (zh
Inventor
王姝
赵轩
韩琪
谢鹏辉
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202211627066.4A priority Critical patent/CN115730529B/zh
Publication of CN115730529A publication Critical patent/CN115730529A/zh
Application granted granted Critical
Publication of CN115730529B publication Critical patent/CN115730529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

一种基于工况识别的PHET能量管理策略生成方法及***,方法包括:构建车辆在不同运行场景下的典型行驶工况;识别车辆的实时行驶工况;基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学***衡等问题。

Description

基于工况识别的PHET能量管理策略生成方法及***
技术领域
本发明属于新能源汽车设计技术领域,具体涉及一种基于工况识别的PHET能量管理策略生成方法及***。
背景技术
随着新能源汽车产业的迅猛发展,混合动力电动汽车与传统的内燃机汽车相比,能够实现更好的燃油经济性和更低的尾气排放,与纯电动汽车相比又具有更高的续驶里程。尤其对于插电式混合动力汽车而言,相比传统的混合动力汽车,还具有可以通过外接充电器从电网获取电能的优势,增强了对各种不同行驶环境的适应性,故使其在商用车领域受到广泛关注和研究。目前,针对于插电式混合动力重型卡车(PHET)性能优化提升的研究,主要集中在能量管理的控制策略上,随着人工智能技术的发展,基于学习的能量管理策略,特别是深度强化学习(DRL)方法,已成为实时能量管理策略中一种有效的方法。但是,因为深度强化学习计算的复杂性,使得其在实时应用上存在着一定的不足。同时,也因为PHET行驶工况的复杂多变,故对其能量管理策略提出了更高的要求。
目前涉及到的基于深度强化学习的能量管理策略具有以下不足:
1)基于深度强化学***衡。
发明内容
本发明的目的在于提供一种基于工况识别的PHET能量管理策略生成方法及***,能够获得符合行驶场景特征的控制策略,解决现有基于学***衡等问题。
为了实现上述目的,本发明有如下的技术方案:
一种基于工况识别的PHET能量管理策略生成方法,包括以下步骤:
构建车辆在不同运行场景下的典型行驶工况;
识别车辆的实时行驶工况;
基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练,所述的源域为车辆在不同运行场景下的典型行驶工况;
采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略,所述的目标域为车辆的实时行驶工况。
作为一种优选方案,所述构建车辆在不同运行场景下的典型行驶工况具体包括以下步骤:
通过云端大数据或车载OBD采集车辆在不同运行场景下的行驶工况数据;
采用小波分解和重构对行驶工况数据进行预处理,并对预处理后的数据进行运动学分段;
采用主成分分析算法对描述各运动学分段特征的特征参数进行降维处理;
采用SVM和K-means混合分类算法对运动学分段进行分类,在分类完成的基础上,利用马尔科夫链和蒙特卡洛模拟法构建出不同运行场景下的典型行驶工况。
作为一种优选方案,所述识别车辆的实时行驶工况时选用学习向量量化作为工况识别器。
作为一种优选方案,所述识别车辆的实时行驶工况具体包括以下步骤:
通过计算经典特征参数间的皮尔逊相关系数,选取特征参数;
基于车辆在不同运行场景下的典型行驶工况数据,将对应的特征参数进行提取并训练;
通过计算各特征参数间的皮尔逊相关系数来识别车辆的实时行驶工况。
作为一种优选方案,所述将对应的特征参数进行提取并训练的步骤中,采用滑动窗口的方式进行参数提取。
作为一种优选方案,所述通过计算各特征参数间的皮尔逊相关系数来识别车辆的实时行驶工况时,选择以25s作为初始识别视域,并采用滚动叠加的方式,每隔25s对累积历史工况进行汽车行驶工况判断。
作为一种优选方案,所述基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练包括对深度强化学习的状态空间、动作空间及奖励函数进行设计;
状态空间的设计表达式如下:
S={V,acc,SoC,SoH}
式中,V和acc分别为车速及车辆加速度,SoC为电池电荷状态,SoH为电池健康状态;
动作空间的设计表达式如下:
action={Peng|Peng∈[0,172kw]}
式中,Peng为发动机输出功率;
奖励函数的设计表达式如下:
J={α[fuel(t)+elec(t)]+β[SoC(t)-SoCref]2+γ[SoH(t)-SoHref]}
式中,J为能量管理中定义的目标函数,α是油耗的权重,β是电池电量维持的权重,γ是电池退化成本的权重,fuel是燃油消耗量,elec是电能消耗量,SOCref是电池SOC的参考值,SOHref是电池健康状态的参考值。
作为一种优选方案,所述基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练还包括对整车动力总成的各零部件提出相对应的约束;
约束表达式如下:
DDPG算法是一种基于Actor-Critic架构开发的深度强化学习算法,在Actor-networkμ(s|θμ)中输入状态观测量,然后通过神经网络映射到一个确定性行为;Critic-network Q(s|θQ)输入Actor网络采取的动作和当前状态的观测量,用以评估当前动作的优劣好坏;
引入target Actor-networkμ'(s|θμ')和target Critic-network Q'(s|θQ')来估计Q-value:
yt=rt+γQ'(st+1,μ'(st+1μ')|θQ')
训练Critic-network:
从经验池中随机选取经验数据,计算损失函数并更新Critic-network参数,DDPG算法的目标是通过更新网络参数使损失函数的期望最小化,计算的时间差(td)-误差如下式:
其中,L为平均损失,N为mini-batch的固定大小,从经验重播缓冲区随机选择;
对于Actor-networkμ(s|θμ)选取动作的目的是最大化Q-value,进而对参数θμ的更新,应用梯度方法进行数值求解,派生的链式法则如下式:
此外,目标网络μ'和Q'利用时滞更新进行学习,具体表达式如下:
其中,τ为软更新因子,θ和θ'分别为原始网络和目标网络参数;
在保证整车燃油经济性的前提下,使控制器在更小的动作空间内寻找最优解。
作为一种优选方案,所述采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略包括:在给定源域Ms和目标域Mt的基础上,通过迁移学习获取从源域Ms中学习目标域Mt的最优策略π*,实现从源域到目标域的转移,源网络和目标网络都使用相同的DDPG架构。
一种基于工况识别的PHET能量管理策略生成***,包括:
典型工况构建模块,用于构建车辆在不同运行场景下的典型行驶工况;
实时工况识别模块,用于识别车辆的实时行驶工况;
神经网络训练模块,用于基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练,所述的源域为车辆在不同运行场景下的典型行驶工况;
迁移学习模块,用于采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略,所述的目标域为车辆的实时行驶工况。
相较于现有技术,本发明至少具有如下的有益效果:
将行驶工况识别技术和基于迁移学习(TL)的深度确定性策略梯度(DDPG)算法相结合,以此获得符合行驶场景特征的控制策略,在改善PHET综合性能,提升***效率与适应性上具有显著的效果,明显优于现有的基于深度强化学习的能量管理策略。本发明PHET能量管理策略生成方法采用迁移学习(TL)实现了源域(基于数据驱动构建的PHET典型行驶工况)与目标域(基于神经网络工况识别算法所识别出的PHET实时行驶工况)之间能量管理策略的传递,该方法可以加快能量管理策略训练的收敛速度,进而有效的提高了能量管理控制策略的时效性,提升其在应对多变复杂行使工况下的适应性。
附图说明
图1是插电式混合动力汽车总体的能量管理控制框架示意图;
图2是经过小波分解与重构预处理后的行驶参数示意图;
图3是基于马尔科夫链和蒙特卡洛模拟法的流程示意图;
图4是构建的三种典型代表性循环工况示意图:(a)城建;(b)矿用;(c)煤炭;
图5是学习向量化神经网络示意图;
图6是发动机map示意图(包含最佳的等效燃油消耗量曲线);
图7是三种运行场景下三种能量管理策略的发动机输出功率分布情况:(a)场景一;(b)场景二;(c)场景三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员还可以在没有做出创造性劳动的前提下获得其他实施例。
如图1所示,本发明PHET总体的能量管理控制框架分为上下两层,上层是一个基于LVQ的工况识别框架,在已经构建好的PHET行驶工况基础上,通过采集车辆行驶的实时数据,识别出车辆的运行场景。下层是一个基于DDPG算法的深度迁移强化学习的能量管理控制框架,基于上层识别出的汽车实际运行场景,迁移学习技术将对应场景下已经经过深度强化学习(DRL)充分训练的神经网络应用于实际工况,以此来实现在目标工况下当前神经网络以更少的学习轮次收敛这一目标,以便于能量管理策略的快速生成,且保证得到最优性能。本发明基于工况识别的PHET能量管理策略生成方法的实现分为典型行驶工况的构建、车辆实时行驶工况的识别、基于DDPG算法的深度强化学习对各运行场景的代表性工况进行预训练与储存,以及采用迁移学习实现预先训练好的神经网络从源域到目标域的转移这四大步骤。
步骤1:典型行驶工况的构建,具体包括以下步骤:
步骤1.1:通过云端大数据/车载OBD采集车辆在不同应用场景下的行驶工况数据。本发明所研究的PHET的应用场景主要有三类:城建渣土运输车、矿用运输车、煤炭运输车。
步骤1.2:因为采集到的原始数据往往呈现毛刺或突变等情况,所以在构建典型行驶工况前采用小波分解和重构对原始数据进行平滑、降噪处理。经过小波分解和重构预处理后的数据如图2所示。并对预处理后的数据进行运动学分段,分段的标准如下:怠速段(车速<2km/h,-0.15m/s2<加速度<0.15m/s2),加速段(加速度≥0.15m/s2),减速段(加速度≤-0.15m/s2),以及巡航段(车速≥2km/h且-0.15m/s2<加速度<0.15m/s2)。
步骤1.3:采用主成分分析(PCA)算法对描述各运动段特征的特征参数进行降维处理。特征参数的主成分分析结果如表1所示。
表1
主成分 方差 贡献率(%) 累积贡献率(%)
1 5.5762 55.762 55.762
2 2.0218 20.228 75.990
3 1.0112 10.112 86.102
4 0.7913 7.913 94.015
5 0.3975 3.975 97.99
从表1中可以看出,前3个主成分方差均大于1,第四个接近于1且前四个主成分的累计贡献率大于90%,故该四个特征参数基本包含了原始变量的大部分信息。所以选择前四个主成分,即最大速度、最小速度、平均速度和速度标准差来表述行驶片段的运动学特征。
步骤1.4:采用SVM和K-means混合分类算法对运动片段进行分类。在分类完成的基础上,利用马尔科夫链和蒙特卡洛模拟法构建出三种应用场景下的代表性循环工况。基于马尔科夫链和蒙特卡洛模拟法的处理流程如图3所示。构建好的三种典型代表性循环工况的车速-时间关系如图4的(a)、(b)、(c)图所示。
步骤2:汽车实时行驶工况的识别,具体包括以下步骤:
本发明实施例选择数据驱动的方式进行工况识别的建模。
因为学习向量量化(LVQ)在工况识别上具有更高的准确性且实用性强,故发明选用学习向量量化作为工况识别器。学习向量量化神经网络结构如图5所示。LVQ神经网络主要分为竞争层和线性层,在竞争层中,神经网络结合竞争学习和监督学习对输入向量X进行分类,该过程包括两个部分:一个是选择最匹配的神经元,另一个是自适应更新权向量。在线性层中,将竞争层的分类结果传递到用户自定义的目标分类中。对于PHET的行驶场景可分为3类:场景1表示城建渣土运输车,场景2表示矿用运输车,场景3表示煤炭运输车。
步骤2.1:通过计算经典特征参数间的皮尔逊相关系数,选取最大速度、平均速度、速度标准差、平均加速度、平均减速度、加速度标准差、加速比例(加速时间/总时间)、减速比例(减速时间/总时间)、匀速比例(匀速时间/总时间)、怠速比例(怠速时间/总时间)10个特征参数。
各驾驶场景的特征参数具体数值如表2所示。
表2
特征参数 城建 矿用 煤炭
最大车速(km/h) 64.87 65.02 86.00
平均速度(km/h) 18.78 13.80 41.74
速度标准差 21.13 15.70 27.97
平均加速度(m/s2) 0.31 0.38 0.30
平均减速度(m/s2) -0.42 -0.45 -0.46
加速度标准差 0.23 0.27 0.28
加速比例(%) 0.18 0.17 0.25
减速比例(%) 0.12 0.15 0.17
均速比例(%) 0.30 0.27 0.12
怠速比例(%) 0.39 0.40 0.44
步骤2.2:基于步骤1所建立的3种典型驾驶循环代表工况数据,将其对应的特征参数进行提取并训练。在确定训练集时,为提高训练样本个数,本发明采用滑动窗口的方式进行参数提取。由于合成的代表性工况时长有限,单个工况不足以提供足够的训练样本,故将前文建立的工况重复10次串联为代表性工况,选取窗口长度为1800s,以100s为间隔时间,对窗口内的速度区间进行特征参数提取并输入识别器中进行训练。
步骤2.3:通过计算各特征参数间的皮尔逊相关系数来准确识别汽车实时的行使工况。在对实车运行数据进行行驶工况识别时,选择以25s作为初始识别视域,并采用滚动叠加的方式,每隔25s对累积历史工况进行汽车行驶工况判断。因为在最初选择的工况由于时间较短,可能无法反映出整个驾驶循环的特征,但是随着累积时长的增加,工况特征越来越能代表车辆所处的驾驶场景,结合实际情况,以车辆行驶的前1000s内行驶工况识别模块对每次输入累积历史时间判定的驾驶场景所占比例作为此次车辆运行时的所属场景。
步骤3:基于DDPG算法的深度强化学习对各运行场景的代表性工况进行预训练并进行储存,具体包括以下步骤:
采用基于DDPG算法的深度强化学习方法来对源域,即第一部分所构建的3种典型代表性行驶工况数据进行预训练。DDPG的总体算法如下:
步骤3.1:对深度强化学习的状态、动作及奖励进行设计,具体阐述如下:
在状态空间的设计上,本发明实施例不仅将整个***能量的消耗考虑在内,同时也考虑了***能量损耗和电池老化的平衡,因此选择SOC、温度以及考虑电池老化的电池健康状态SOH。整个状态空间如下式(1)所示:
S={V,acc,SoC,SoH} (1)
其中,V和acc分别为车速及车辆加速度,SoC为电池电荷状态,SoH为电池健康状态,这些变量均是表征车辆运行状态的关键参数。
在动作空间的设计上,因为整车能量管理的控制策略目的在于持续控制车辆的机械动力,故将发动机输出功率作为控制变量,具体如下式(2)所示:
action={Peng|Peng∈[0,172kw]} (2)
在能量管理问题的奖励函数(目标函数)设计上,将整车能量消耗、动力电池SOC以及电池退化成本这几个优化目标综合考虑,以此来确定奖励函数,具体表达如下式(3)所示:
J={α[fuel(t)+elec(t)]+β[SoC(t)-SoCref]2+γ[SoH(t)-SoHref]} (3)
其中,J为能量管理中定义的目标函数,α是油耗的权重,β是电池电量维持的权重,γ是电池退化成本的权重,fuel是燃油消耗量,elec是电能消耗量,SOCref是电池SOC的参考值,SOHref是电池健康状态的参考值。
步骤3.2:对整车动力总成的各零部件提出相对应的约束,具体表达如下式(4)所示:
因为DDPG算法是一种基于Actor-Critic架构开发的深度强化学习算法,其中Actor-networkμ(s|θμ)中输入的是状态观测量,然后通过神经网络映射到一个确定性行为。Critic-network Q(s|θQ)输入Actor网络采取的动作和当前状态的观测量,用以评估当前动作的优劣好坏。
步骤3.4:为减少由于采取单个Critic对Q-value进行估计以及单个Actor网络对动作进行选取产生的偏差,引入target Actor-networkμ'(s|θμ')和target Critic-network Q'(s|θQ')来估计Q-value,具体表达如下式(5)所示:
yt=rt+γQ'(st+1,μ'(st+1μ')|θQ') (5)
步骤3.5:训练Critic-network。从经验池中随机选取小批量的经验,计算损失函数并更新Critic-network参数,DDPG的目标是通过更新网络参数使损失函数的期望最小化,计算的时间差(td)-误差如下式(6)所示:
式中,L为平均损失,N为mini-batch的固定大小,随机选择从经验重播缓冲区,对于Actor-networkμ(s|θμ)选取动作的目的是最大化Q-value,进而对参数θμ的更新可应用梯度方法进行数值求解,派生的链式法则如下式(7)所示:
此外,目标网络μ'和Q',利用时滞更新能够极大地提高学习的稳定性,具体表达式如下式(8)所示:
其中,τ为软更新因子,θ和θ'分别为原始网络和目标网络参数。
步骤3.6:在保证整车燃油经济性的前提下,为了有效地降低深度强化学习动作空间维度,使控制器在更小的动作空间内寻找最优解,进而加快强化学习的收敛速度,如图6所示,在发动机的Map图中,构造出最佳燃油消耗率曲线,在发动机工作时,任意发动机功率均对应一个在曲线上的转速转矩对。
步骤4:采用迁移学习实现预先训练好的神经网络从源域到目标域的转移,具体包括以下步骤:
基于神经网络的可转移性,迁移学习技术可以将对应场景下已经充分训练的神经网络应用于实际工况。将深度迁移(DTL)算法与DDPG算法相结合,就可以实现源域与目标域之间能量管理策略的传输。
源域就是步骤1的三个典型驾驶循环代表工况,而目标域就是步骤2由工况识别模块所识别出来的车辆实时驾驶工况。因为源领域和目标领域的驱动循环具有相同的特征空间并且相互关联,所以在给定源域Ms和目标域Mt的基础上,迁移学习可以实现从源域Ms中学习目标域Mt的最优策略μ*,即实现源领域知识向相关目标领域的转移。同时,也因为神经网络中的大部分参数都是相同的,只有输出层的参数需要重新训练,所以,源网络和目标网络都使用相同的DDPG架构。
如上所述,本发明基于工况识别的PHET能量管理策略生成方法,将行使工况识别技术与基于迁移学习的深度强化学习方法结合起来,以此获得符合行驶场景特征的控制策略。
如图7的(a)、(b)、(c)图所示,以基于DP的能量管理策略为基准,整个控制策略的发动机情况位更加接近基于DP的能量管理策略,发动机工作点比例在高功率区间内的占比也均小于没有考虑行驶工况识别的深度强化学习能量管理策略,表明本发明提供的能量管理策略在燃油经济性表现很好,比没有行驶工况识别的DRL能量管理策略有更好的节能效果。
如表3所示,因为在确定DDPG的状态空间和奖励函数时将电池能量消耗与电池健康的动态平衡结合考虑,如果单独从燃油消耗量这一指标来看,本发明所提出的能量管理策略经济性有略微降低,但是将动力电池的衰退成本一起考虑,本发明的控制策略与忽略电池健康策略的DDPG算法相比综合运行成本得到了有效地降低。
表3
最后,如表4所示,采用迁移学习技术,可以使得在神经网络的训练中能够有效的缩短训练周期,收敛的迭代步数降低50%左右,加快了收敛速度,有利于本发明所提出的基于工况识别的能量策略的实时利用,提高了整车控制实施的效率。
表4
表5
本发明基于工况识别的PHET能量管理策略生成方法至少具有如下优点:
(1)提供了一个双层的能量管理框架。上层采用基于学习向量化(LVQ)的工行驶况识别框架,下层采用基于深度确定性策略梯度(DDPG)算法的深度迁移强化学习控制框架,将行驶工况识别技术和基于迁移学习(TL)的深度确定性策略梯度(DDPG)算法相结合,以此获得符合行驶场景特征的控制策略。以基于动态规划(DP)的能量管理策略为基准,与没有考虑行驶工况识别的深度强化学习能量管理策略相比,将行使工况识别和深度强化学习相结合的能量管理策略在发动机工作方面更加接近基于DP的能量管理策略,发动机工作点比例在高功率区间内的占比也均小于没有考虑行驶工况识别的深度强化学习能量管理策略。同时,采用行驶工况识别技术且考虑电池健康状态(SOH)的能量管理策略的电池荷电状态(SOC)轨迹下降趋势更缓且在整个过程中波动较小。表明本发明所提出的能量管理策略可以采用能够反应实际运行场景特点的功率分配策略,在改善PHET综合性能,提升***效率与适应性上具有显著的效果,明显优于现有的基于深度强化学习的能量管理策略。
(2)采用基于数据驱动的方法,首先用SVM和K-means混合分类算法对所收集到的车辆历史运动数据片段进行分类,其后再利用马尔科夫链和蒙特卡洛模拟法构建出反映插电式混合动力货车(PHET)真实运行场景和驾驶行为的典型代表性循环行驶工况。因为所构建的行驶工况数据来源于车辆的真实行驶相关数据,所以基于此构建的行驶工况作为迁移学习的源域,可以为PHET的实际能耗提供更准确的评价依据,使得所提出的能量管理策略具有重要的现实意义。
(3)采用一种基于学***均速度、速度标准差、平均加速度、平均减速度、加速度标准差、加速比例(加速时间/总时间)、减速比例(减速时间/总时间)、匀速比例(匀速时间/总时间)、怠速比例(怠速时间/总时间)。同时在确定训练集时,为提高训练样本个数,本发明采用滑动窗口的方式进行参数提取。通过上述方式可以在保证易用性的前提下,极大的提升实时工况识别的准确性,为后面迁移学习的目标域的呈现提供保障。
(4)下层控制框架采用深度确定性策略梯度(DDPG)算法,本发明的DDPG算法通过采用优先重放经验,在去除样本间的随机性和依赖性的同时,可以提高训练效率以及训练过程的稳定性及模型的鲁棒性。同时在Actor-Network的输出中添加额外的噪声让DDPG算法进行更好的探索和选择正确的动作,通过对比了不同动作噪声对算法性能的影响,本发明采用了Soft-max action noise(SAN)噪声。
(5)在确定DDPG算法的状态空间和奖励函数时。相比于常规的优化算法只考虑整个***能量的消耗,本发明还考虑了电池能量损耗与老化的状态平衡,将电池健康状态(SOH)纳入了状态空间的考虑范围。同时在确定目标函数(奖励函数)时,将电池退化成本与油耗项一起引入优化对象。通过上述方式,更加全面、深入的表征车辆在各个时间段内的运行状态,进一步提高了在该算法下整车的综合表现性能,在降低整车燃油消耗成本、电能消耗成本的同时也降低了电池退化成本。
(6)在保证燃油经济性的前提下,为了有效地降低DDPG算法动作空间的维度,在发动机map图中构造出最佳的燃油消耗率曲线,在发动机运行时,任意发动机功率均对应一个在曲线上的转速转矩对。这样可以使得控制器在在更小的动作空间内寻找最优解,进一步加快强化学习的收敛速度。
(7)采用迁移学习(TL)实现了源域(基于数据驱动构建的PHET典型行驶工况)与目标域(基于LVQ神经网络工况识别算法所识别出PHET实时行驶工况)之间能量管理策略的传递,在源域提供了目标域可访问的先验知识基础上,从源域中学习目标域的最优策略。这样可以加快能量管理策略训练的收敛速度,进而有效的提高了能量管理控制策略的时效性,提升其在应对多变复杂行使工况下的适应性。
本发明的另一实施例还提出一种基于工况识别的PHET能量管理策略生成***,包括:
典型工况构建模块,用于构建车辆在不同运行场景下的典型行驶工况;
实时工况识别模块,用于识别车辆的实时行驶工况;
神经网络训练模块,用于基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练,所述的源域为车辆在不同运行场景下的典型行驶工况;
迁移学习模块,用于采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略,所述的目标域为车辆的实时行驶工况。
本发明另一实施例还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明基于工况识别的PHET能量管理策略生成方法。
示例性的,所述存储器中存储的指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在计算机可读存储介质中,并由所述处理器执行,以完成本发明基于工况识别的PHET能量管理策略生成方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在服务器中的执行过程。
所述电子设备可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述电子设备还可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可以是所述服务器的内部存储单元,例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述模块单元之间的信息交互、执行过程等内容,由于与方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (6)

1.一种基于工况识别的PHET能量管理策略生成方法,其特征在于,包括以下步骤:
构建车辆在不同运行场景下的典型行驶工况;
识别车辆的实时行驶工况;
基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练,所述的源域为车辆在不同运行场景下的典型行驶工况;
采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略,所述的目标域为车辆的实时行驶工况;
所述识别车辆的实时行驶工况具体包括以下步骤:
通过计算经典特征参数间的皮尔逊相关系数,选取特征参数;
基于车辆在不同运行场景下的典型行驶工况数据,将对应的特征参数进行提取并训练;
通过计算各特征参数间的皮尔逊相关系数来识别车辆的实时行驶工况;
所述基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练包括对深度强化学习的状态空间、动作空间及奖励函数进行设计;
状态空间的设计表达式如下:
S={V,acc,SoC,SoH}
式中,V和acc分别为车速及车辆加速度,SoC为电池电荷状态,SoH为电池健康状态;
动作空间的设计表达式如下:
action={PengPeng∈[0,172kw]}
式中,Peng为发动机输出功率;
奖励函数的设计表达式如下:
J={α[fuel(t)+elec+β[SoC(t)-SoCref]2+γ[SoH(t)-SoHref]}
式中,J为能量管理中定义的目标函数,α是油耗的权重,β是电池电量维持的权重,γ是电池退化成本的权重,fuel是燃油消耗量,elec是电能消耗量,SOCref是电池SOC的参考值,SOHref是电池健康状态的参考值;
所述基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练还包括对整车动力总成的各零部件提出相对应的约束;
约束表达式如下:
DDPG算法是一种基于Actor-Critic架构开发的深度强化学习算法,在Actor-networkμ(s|θμ)中输入状态观测量,然后通过神经网络映射到一个确定性行为;Critic-network Q(s|θQ)输入Actor网络采取的动作和当前状态的观测量,用以评估当前动作的优劣好坏;
引入target Actor-networkμ'(s|θμ′)和target Critic-network Q'(s|θQ′)来估计Q-value:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
训练Critic-network:
从经验池中随机选取经验数据,计算损失函数并更新Critic-network参数,DDPG算法的目标是通过更新网络参数使损失函数的期望最小化,计算的时间差(td)-误差如下式:
其中,L为平均损失,N为mini-batch的固定大小,从经验重播缓冲区随机选择;
对于Actor-networkμ(s|θμ)选取动作的目的是最大化Q-value,进而对参数θμ的更新,应用梯度方法进行数值求解,派生的链式法则如下式:
此外,目标网络μ'和Q'利用时滞更新进行学习,具体表达式如下:
其中,τ为软更新因子,θ和θ'分别为原始网络和目标网络参数;
在保证整车燃油经济性的前提下,使控制器在更小的动作空间内寻找最优解;
所述采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略包括:在给定源域Ms和目标域Mt的基础上,通过迁移学习获取从源域Ms中学习目标域Mt的最优策略π*,实现从源域到目标域的转移,源网络和目标网络都使用相同的DDPG架构。
2.根据权利要求1所述基于工况识别的PHET能量管理策略生成方法,其特征在于,所述构建车辆在不同运行场景下的典型行驶工况具体包括以下步骤:
通过云端大数据或车载OBD采集车辆在不同运行场景下的行驶工况数据;
采用小波分解和重构对行驶工况数据进行预处理,并对预处理后的数据进行运动学分段;
采用主成分分析算法对描述各运动学分段特征的特征参数进行降维处理;
采用SVM和K-means混合分类算法对运动学分段进行分类,在分类完成的基础上,利用马尔科夫链和蒙特卡洛模拟法构建出不同运行场景下的典型行驶工况。
3.根据权利要求1所述基于工况识别的PHET能量管理策略生成方法,其特征在于,所述识别车辆的实时行驶工况时选用学习向量量化作为工况识别器。
4.根据权利要求1所述基于工况识别的PHET能量管理策略生成方法,其特征在于,所述将对应的特征参数进行提取并训练的步骤中,采用滑动窗口的方式进行参数提取。
5.根据权利要求1所述基于工况识别的PHET能量管理策略生成方法,其特征在于,所述通过计算各特征参数间的皮尔逊相关系数来识别车辆的实时行驶工况时,选择以25s作为初始识别视域,并采用滚动叠加的方式,每隔25s对累积历史工况进行汽车行驶工况判断。
6.一种基于工况识别的PHET能量管理策略生成***,其特征在于,包括:
典型工况构建模块,用于构建车辆在不同运行场景下的典型行驶工况;
实时工况识别模块,用于识别车辆的实时行驶工况;
神经网络训练模块,用于基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练,所述的源域为车辆在不同运行场景下的典型行驶工况;
迁移学习模块,用于采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略,所述的目标域为车辆的实时行驶工况;
所述识别车辆的实时行驶工况具体包括以下步骤:
通过计算经典特征参数间的皮尔逊相关系数,选取特征参数;
基于车辆在不同运行场景下的典型行驶工况数据,将对应的特征参数进行提取并训练;
通过计算各特征参数间的皮尔逊相关系数来识别车辆的实时行驶工况;
所述基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练包括对深度强化学习的状态空间、动作空间及奖励函数进行设计;
状态空间的设计表达式如下:
S={V,acc,SoC,SoH}
式中,V和acc分别为车速及车辆加速度,SoC为电池电荷状态,SoH为电池健康状态;
动作空间的设计表达式如下:
acion={Peng∈[0,172kw]}
式中,Peng为发动机输出功率;
奖励函数的设计表达式如下:
J={α[fuel(t)+elec(t)]+β[SoC(t)-SoCref]2+γ[SoH(t)-SoHref]}
式中,J为能量管理中定义的目标函数,α是油耗的权重,β是电池电量维持的权重,γ是电池退化成本的权重,fuel是燃油消耗量,elec是电能消耗量,SOCref是电池SOC的参考值,SOHref是电池健康状态的参考值;
所述基于DDPG算法构建神经网络,并对神经网络的源域进行深度强化学习,完成神经网络的训练还包括对整车动力总成的各零部件提出相对应的约束;
约束表达式如下:
DDPG算法是一种基于Actor-Critic架构开发的深度强化学习算法,在Actor-networkμ(s|θμ)中输入状态观测量,然后通过神经网络映射到一个确定性行为;Critic-network Q(s|θQ)输入Actor网络采取的动作和当前状态的观测量,用以评估当前动作的优劣好坏;
引入target Actor-networkμ'(s|θμ′)和target Critic-network Q'(s|θQ′)来估计Q-value:
yt=rt+YQ′(st+1,μ′(st+1μ′)|θQ′)
训练Critic-network:
从经验池中随机选取经验数据,计算损失函数并更新Critic-network参数,DDPG算法的目标是通过更新网络参数使损失函数的期望最小化,计算的时间差(td)-误差如下式:
其中,L为平均损失,N为mini-batch的固定大小,从经验重播缓冲区随机选择;
对于Actor-network μ(s|θμ)选取动作的目的是最大化Q-value,进而对参数θμ的更新,应用梯度方法进行数值求解,派生的链式法则如下式:
此外,目标网络μ'和Q'利用时滞更新进行学习,具体表达式如下:
其中,τ为软更新因子,θ和θ'分别为原始网络和目标网络参数;
在保证整车燃油经济性的前提下,使控制器在更小的动作空间内寻找最优解;
所述采用迁移学习对训练好的神经网络从源域到目标域转移,生成符合行驶场景特征的PHET能量管理策略包括:在给定源域Ms和目标域Mt的基础上,通过迁移学习获取从源域Ms中学习目标域Mt的最优策略π*,实现从源域到目标域的转移,源网络和目标网络都使用相同的DDPG架构。
CN202211627066.4A 2022-12-16 2022-12-16 基于工况识别的phet能量管理策略生成方法及*** Active CN115730529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211627066.4A CN115730529B (zh) 2022-12-16 2022-12-16 基于工况识别的phet能量管理策略生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211627066.4A CN115730529B (zh) 2022-12-16 2022-12-16 基于工况识别的phet能量管理策略生成方法及***

Publications (2)

Publication Number Publication Date
CN115730529A CN115730529A (zh) 2023-03-03
CN115730529B true CN115730529B (zh) 2024-02-27

Family

ID=85301512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211627066.4A Active CN115730529B (zh) 2022-12-16 2022-12-16 基于工况识别的phet能量管理策略生成方法及***

Country Status (1)

Country Link
CN (1) CN115730529B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104071161A (zh) * 2014-04-29 2014-10-01 福州大学 一种插电式混合动力汽车工况识别及能量管控的方法
CN108198425A (zh) * 2018-02-10 2018-06-22 长安大学 一种电动汽车行驶工况的构建方法
CN113051667A (zh) * 2021-03-29 2021-06-29 东南大学 一种混合动力汽车能量管理策略的加速学习方法
CN114969982A (zh) * 2022-06-14 2022-08-30 南京航空航天大学 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法
CN115150787A (zh) * 2022-07-06 2022-10-04 四川大学 基于深度强化学习的能量管理策略包的部署***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7954579B2 (en) * 2008-02-04 2011-06-07 Illinois Institute Of Technology Adaptive control strategy and method for optimizing hybrid electric vehicles

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104071161A (zh) * 2014-04-29 2014-10-01 福州大学 一种插电式混合动力汽车工况识别及能量管控的方法
CN108198425A (zh) * 2018-02-10 2018-06-22 长安大学 一种电动汽车行驶工况的构建方法
CN113051667A (zh) * 2021-03-29 2021-06-29 东南大学 一种混合动力汽车能量管理策略的加速学习方法
CN114969982A (zh) * 2022-06-14 2022-08-30 南京航空航天大学 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法
CN115150787A (zh) * 2022-07-06 2022-10-04 四川大学 基于深度强化学习的能量管理策略包的部署***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
eep Deterministic Policy Gradient Based Energy Management Strategy for Hybrid Electric Tracked Vehicle With Online Updating Mechanism;Z. Ma;IEEE Access;7280-7292 *
基于LVQ工况识别的PHEV控制策略研究;尹安东;姜涛;;车辆与动力技术(02);1-6 *
基于LVQ工况识别的混合动力汽车自适应能量管理控制策略;邓涛;中国机械工程;第27卷(第3期);1-6 *

Also Published As

Publication number Publication date
CN115730529A (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
Lian et al. Cross-type transfer for deep reinforcement learning based hybrid electric vehicle energy management
Liu et al. Optimal power management based on Q-learning and neuro-dynamic programming for plug-in hybrid electric vehicles
Qi et al. Development and evaluation of an evolutionary algorithm-based online energy management system for plug-in hybrid electric vehicles
Lin et al. An ensemble learning velocity prediction-based energy management strategy for a plug-in hybrid electric vehicle considering driving pattern adaptive reference SOC
Sun et al. High robustness energy management strategy of hybrid electric vehicle based on improved soft actor-critic deep reinforcement learning
Qi et al. Generalization ability of hybrid electric vehicle energy management strategy based on reinforcement learning method
Zhang et al. Tackling SOC long-term dynamic for energy management of hybrid electric buses via adaptive policy optimization
Kong et al. A novel torque distribution strategy based on deep recurrent neural network for parallel hybrid electric vehicle
Yang et al. Reinforcement learning-based real-time intelligent energy management for hybrid electric vehicles in a model predictive control framework
CN115107733A (zh) 一种混合动力汽车的能量管理方法及***
Yang et al. Real-time energy management for a hybrid electric vehicle based on heuristic search
Shao et al. Failure detection for motion prediction of autonomous driving: An uncertainty perspective
CN115730529B (zh) 基于工况识别的phet能量管理策略生成方法及***
CN117251705A (zh) 一种每日天然气负荷预测方法
CN117465301A (zh) 基于数据驱动的燃料电池汽车实时能量管理方法
CN116968721A (zh) 一种混合动力汽车预测式能量管理方法、***和存储介质
CN116796821A (zh) 面向3d目标检测算法的高效神经网络架构搜索方法及装置
Zhang et al. SSIT: a sample selection-based incremental model training method for image recognition
CN116523002A (zh) 多源异构数据的动态图生成对抗网络轨迹预测方法和***
CN116106751A (zh) 一种基于Informer的锂离子电池荷电状态估计方法
CN115719478A (zh) 一种独立于无关信息的加速强化学习的端到端自动驾驶方法
Wang et al. Hardware-in-the-loop test for the design of a hybrid electric bus control system
CN113537620A (zh) 基于Markov模型优化和工况识别的车速预测方法
Huang et al. Multi-parameter adaptive online energy management strategy for concrete truck mixers with a novel hybrid powertrain considering vehicle mass

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant