CN113715805A

CN113715805A - 一种基于工况辨识的规则融合深度强化学习能量管理方法

Info

Publication number: CN113715805A
Application number: CN202111177978.1A
Authority: CN
Inventors: ***; 昌诚程; 张自宇; 栾众楷; 赵万忠; 周冠; 文凯
Original assignee: Nanjing Tianhang Intelligent Equipment Research Institute Co ltd; Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing Tianhang Intelligent Equipment Research Institute Co ltd; Nanjing University of Aeronautics and Astronautics
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2021-11-30
Anticipated expiration: 2041-10-09
Also published as: CN113715805B

Abstract

本发明公开了一种基于工况辨识的规则融合深度强化学习能量管理方法。本发明以插电式混合动力汽车为对象建立，采用并联式结构作为发动机和电动机的连接方式建立混合动力***模型，通过选取了8种标准工况建立了工况库，并对其进行了运动学分割，根据所分割的运动学片段对比9个代表性的参数对车辆工况进行分类与辨识，然后对深度Q学习算法中状态、动作、agent和惩罚函数进行设计，之后在三种不同训练工况下对所设计的规则融合的深度强化学习算法进行训练、分配，从而达到能量高效分配和利用的目的，并且算法在训练过程中存在较少的较差样本，训练效率高，混合动力***综合性能高。

Description

一种基于工况辨识的规则融合深度强化学习能量管理方法

技术领域

本发明涉及混合动力***能量管理领域，尤其是涉及一种基于工况辨识的规则融合深度强化学习能量管理方法。

背景技术

在动力电池能量密度和充电速率没有取得重大突破的当下，混合动力技术被认为是是燃油车向纯电动车辆过渡期间内的一种的较为成熟的驱动方式，而插电式混合动力***作为一种较新的驱动形式随着电池技术的发展在近几年得到了较为广泛的应用，与普通混合动力形式不同的是，插电式混合动力***的动力电池不仅可以通过内燃机进行充电，还可以通过充电桩对其进行电能补充，同时兼顾了纯电动汽车低使用成本和燃油车长续驶里程的优势，而能量管理策略是决定混合动力***是否高效的关键部分，其已经成为当下的研究重点之一。

目前混合动力汽车的能量管理策略可大致分为三类：基于规则的能量管策略、基于优化的能量管理策略和基于学习的能量管理策略。其中基于规则的能量管理策略需要较多的实验结果和经验，偏向于组件级的局部优化，无法实现对插电式混合动力***的整体优化控制，并且所设计的规则往往只能针对于特定的工况，工况适应性较差。而基于优化的能量管理策略只能在已知的工况下求解出最优解，不能较好地适用于未知工况，并且全局优化容易产生维数灾难，算法实时性较差，瞬时优化师对模型依赖程度较大，无法保证长时间段的最优分配。基于学习的能量管理策略都没有考虑工况适应性问题，一般都是在标准工况下对算法进行训练，当工况特性产生变化时能量管理策略可能出现能量分配不合理、混合动力***运行效率较低等问题。同时智能算法在训练时将全部动作空间交由机器去探索，并没有融合专家经验所带来的优势，由此导致算法在训练过程中存在较多的较差样本，训练效率较低，并且会导致训练后的能量管理策略在某些情况下控制效果不理想，混合动力***综合性能较低等问题。所以针对上述问题，本发明提出了一种基于工况辨识的规则融合深度强化学习能量管理方法已达到合理分配混合动***能量的目的。

发明内容

本发明所要解决的技术问题是针对背景技术的缺陷，提供一种基于工况辨识的规则融合深度强化学习能量管理方法。解决算法在训练过程中存在较多的较差样本，训练效率较低，并且会导致训练后的能量管理策略在某些情况下控制效果不理想，混合动力***综合性能较低的问题。

本发明为解决上述技术问题采用以下技术方案：

一种基于工况辨识的规则融合深度强化学习能量管理方法，具体包括以下步骤：

步骤1、混合动力***模型建立；

步骤2、工况分类及辨识；

步骤3、规则融合的深度强化学习能量管理策略设计。

进一步的，所述步骤1以插电式混合动力汽车为对象建立，采用并联式结构作为发动机和电动机的连接方式建立混合动力***模型。其中插电式混合动力***由燃油发动机、电动机、车载动力电池、油箱、转矩耦合器、离合器和5档变速箱组成。燃油发动机与转矩耦合器相连接，电动机直接与转矩耦合器一端相连接，转矩耦合器输出端与离合器连接，离合器另一端与5挡变速器连接，之后将动力传输给前桥驱动车辆行驶；

动力电池采用Rint等效电路模型：

式中，I为电池，放电时为正，电流充电时为负；U_ocv为电池的开路电压，可由开路电压试验获得；R为电池内阻，其值随SOC而变化，可通过查表获得；P_bat为电池的功率，当电机转矩T_m为正时，电池处于放电状态，电机转矩T_m为负时，电池处于充电状态；n_m为电机转速；η_bat-d为电池放电效率；η_bat-c为电池充电效率；η_m为电机当前转速转矩下的效率；SOC为电池的荷电状态；△t为采样间隔；Q为电池容量；

不考虑车辆的垂向运动和操作稳定性时，车辆纵向行驶方程为:

式中，Tcon为当前工况所需转矩；ig为当前档位变速器传动比；i0为主减速器传动比；η_T为总传动效率；r为车轮半径；m为整车质量；g为重力加速度；f为滚动阻力系数；θ为道坡道角度；CD为空气阻力系数；A为车辆迎风面积；u为车速；δ为旋转质量换算系数。

车辆转矩耦合器采用三端口两自由度的机械配置，端口1为单向功率输入，端口2和端口3为双向功率输入或输出，端口1连接发动机曲轴，端口2连接电动机输出轴，端口3连接离合器输入端；

矩耦合器各端口转矩与转速的关系为：

式中，T_e为发动机转矩；n_e为发动机转速；T₃为耦合器输出转矩；n₃为耦合器输出转速；i_e为端口1连接发动机曲轴处的传动比，本文取i_e＝1；i_m为端口2的连接电动机输出轴的传动比，一般电机转速较高，需要对其进行减速，本发明i_m取为1.7368；

根据转矩耦合器中发动机和电机的能量流方向可分为3种驱动模式：

(1)联合驱动模式：在此模式下，端口1和端口2为功率输入端，端口3为功率输出端，发动机和电动机共同提供动力驱动车辆行驶，此时电机转矩T_m为正，电池处于放电状态；

(2)纯电驱动模式：在此模式下，端口1无功率输入，端口2为功率输入端，电动机单独驱动车辆，此时电机转矩T_m为正，电池处于放电状态，发动机停机，因为端口1为单向功率输入，所以可实现发动机在动力***上的解耦，从而减小机械损耗；

(3)电机充电模式：在此模式下，车辆的电动机变为发电机，电机转矩T_m为负；并且可根据车辆行驶状态分为驱动状态下充电和非驱动状态下充电。驱动状态下充电时，离合器结合，端口1为功率输入端，端口2和端口3为功率输出端，发动机在提供动力驱动车辆行驶的同时，驱动发电机转动，电池处于充电状态。停车状态下充电时，端口1为功率输入端，端口2为功率输出端，端口3无功率输出，离合器分离，减少变速箱和前桥带来的机械损耗，发动机只提供动力给发电机，对电池进行充电。

进一步的，所述步骤2中车辆工况的运动学片段表示从一次怠速开始到下一次怠速开始这段时间内的汽车行驶状态，其包含一个怠速过程和一个行驶过程，怠速过程中车辆为静止状态，而行驶过程包含了车辆的多次加速、匀速和减速行为。本发明为较为全面建立深度强化学***均车速、平均行驶车速、最高车速、平均加速度、加速占比、减速占比、匀速占比、最大加速度、最大减速度；

各运动学片段中的特征参数可以表征运动学片段的特点，但是每个特征参数并不是独立的，相互之间存在着一定的关系，所以本发明之后利用主成分分析，对运动学片段的特征参数进行降维的同时，尽可能全面地涵盖所有工况特征，降低分类难度的同时提高可信度。具体实现过程如下：

(1)对数据进行标准化：

其中，x_ij表示第i个运动学片段的第j个特征参数；

为样本均值；s_j为标准差。i＝1,2,3,…,n；j＝1,2,3,…,m。

(2)计算Z矩阵的协方差矩阵C

(3)对协方差矩阵C做特征值分解

C＝Q∑Q^-1 (6)

其中，Q为特征值向量组成的矩阵，∑为一个对角阵，对角线上元素为特征值λ₁、λ₂、…、λ_m。

(4)计算各特征向量的贡献率p₁、p₂、…p_m和累计贡献率。

其中，

k＝1,2,…,m。

累计贡献率P_j为前k个主成分贡献率的累加。

(5)将主成分对应的特征向量作为转换矩阵，用数据矩阵乘以转换矩阵，实现主成分映射，得到降维后的对应运动学片段特征参数；

之后使用模糊聚类中的模糊C均值聚类，根据所得的主成分结果对运动学片段进行聚类分析，其流程如下：

(1)设定聚类数目n_c和加权指数b；

(2)初始化各聚类中心m_j

(3)计算当前聚类中心下各样本的隶属度函数：

其中μ_j(x_i)表示为第i个样本对应第j类的隶属度函数。

(4)计算当前隶属度函数下的各类聚类中心：

(5)直至算法收敛或达到最大迭代次数，否则重复(3)、(4)两步。

为确定聚类数目n_c，本文使用L(n_c)函数作为评价指标，其公式如下：

式中，分子表示类间距离之和，分母表示类内间距之和，所以L(n_c)值越大表示分类效果越好。

根据模糊聚类结果，将不同类别的运动学片段组成了3类运动学片段库，之后在3类运动学片段库中各随机抽取出一定数量的运动学片段，并对各类运动学片段进行随机排列，得到训练用的3种工况。

最后使用LVQ神经网络在3中训练工况下对工况类别进行训练辨识，具体步骤如下所示：

(1)对训练用工况1、2、3进行组合，并使用滑窗算法，计算出窗口数据中对应的9种特征参数作为LVQ神经网络的输入，并以工况类别的向量形式作为标签进行训练。

(2)其中窗口数量过长的话，会导致窗口数据中可能包含一种以上的工况数据，从而增加辨识难度。窗口数量过短的话，则工况特征信息不全面，会导致辨识精度下降，从而降低整车的燃油经济性。综合考虑，本文以35s为窗口长度进行滚动提取工况特征参数。

(3)对LVQ神经网络进行训练。所选用的超参数为：LVQ神经竞争层节点数选取为500个，学习率为0.0005，学习函数类型为learnlv1，迭代周期为50次。

(4)验证LVQ神经网络准确性。将验证工况进行长度为35s的滑窗操作，滚动提取出的特征参数作为训练后的LVQ神经网络的输入，并将输出进行索引化操作，得到的验证工况辨识结果。

4、根据权利要求1所述的一种基于工况辨识的规则融合深度强化学习能量管理方法，其特征在于，所述步骤3设计包含状态、动作、agent和惩罚函数，状态空间选取为需求转矩Tr、电池SOC和变速器当前传动比，动作变量选取为发动机输出转矩Te和换挡动作Ag，融合规则的agent设计借鉴了规则类算法进行能量分配的思路，将规则融入深度Q学习的机器中，得到了一种融合规则的深度Q学习算法，提高样本池中有效样本数量，插电式混合动力汽车一般将电池SOC工作区间控制在一定的范围内以保证电池的循环寿命和少量电能储备用于特殊情况，将SOC作为规则控制量，且SOC高效工作范围设置为0.2-0.8；并且将动力***的转矩作为规则控制量；

惩罚函数计算方法为:

其中，b是燃油消耗率，可根据发动机当前转矩和转速从万有特性曲线图中得出；ρ是燃油密度；g是重力加速度；Cf是每升燃油价格；Ce是每kwh电能价格；λ_A是换挡动作值加权系数；λ_p1是较差换挡策略下的惩罚系数；λ_p2是SOC超出使用上下限时的惩罚系数。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

1.在三种不同训练工况下对所设计的规则融合的深度强化学习算法进行训练，得到三种适用于不同工况类别下的深度神经网络net1、net2、net3，以用于混合动力***的能量分配；

2.在实际使用过程中先使用滑窗算法，计算出窗口数据中对应的9种特征参数作为训练好的LVQ神经网络的输入，得到当前的工况类别，再使用对应工况类别训练下的规则融合的深度强化学习算法对混合动力***的能量进行分配，从而达到能量高效分配和利用的目的。

附图说明

图1是插电式混合动力***结构图；

图2是电池Rint等效电路模型；

图3是能量管理策略算法流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明可以以许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。

如图1所示为插电式混合动力***结构图，由燃油发动机、电动机、车载动力电池、油箱、转矩耦合器、离合器和5档变速箱组成。燃油发动机与转矩耦合器相连接，电动机直接与转矩耦合器一端相连接，转矩耦合器输出端与离合器连接，离合器另一端与5挡变速器连接，之后将动力传输给前桥驱动车辆行驶。车型包含了五档变速器，而档位直接涉及到动力***所需转矩，从而影响车辆的动力储备能力，所以本文也将动力***的转矩作为规则控制量。

其中，插电式混合动力汽车发动机是驱动车辆行驶和补充电池电量的动力来源，其重要性是高于电动机的，所以以发动机转矩作为第一级规则控制量，其次以电池的SOC作为第二级规则控制，因为电机转矩较大，动力储备能力较强，所以以电机转矩作为第三级规则控制量。

如图2所示为电池Rint等效电路模型，可得：

式中，I为电池，放电时为正，电流充电时为负；U_ocv为电池的开路电压，可由开路电压试验获得；R为电池内阻，其值随SOC而变化，可通过查表获得；P_bat为电池的功率，当电机转矩T_m为正时，电池处于放电状态，电机转矩T_m为负时，电池处于充电状态；n_m为电机转速；η_bat-d为电池放电效率；η_bat-c为电池充电效率；η_m为电机当前转速转矩下的效率；SOC为电池的荷电状态；△t为采样间隔；Q为电池容量。

如图3所示为能量管理策略算法流程图，

首先对工况中的速度学片段的特征值使用主成分分析进行了降维，并使用模糊聚类对运动学片段进行了分类，再根据分类结果进行工况重组，得到了低速、中速和高速训练工况，并使用LVQ神经网络对工况类型进行训练。之后建立了以发动机转矩、SOC、电机转矩为规则控制变量、驱动模式为输出量的规则，并将其融入深度强化学习的agent中，结合所设计的惩罚函数，在三种工况下分别对规则融合深度强化学习能量管理进行了训练。之后在实际使用过程中，首先对当前运行工况使用滑窗算法提取特征参数，再将其作为训练好的LVQ神经网络的输入，得到当前工况类别，之后根据工况类别选取相应工况训练后的规则融合深度强化学习能量管理策略进行混合动力***的能量分配。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于工况辨识的规则融合深度强化学习能量管理方法，其特征在于，具体包括以下步骤：

步骤1、混合动力***模型建立；

步骤2、工况分类及辨识；

步骤3、规则融合的深度强化学习能量管理策略设计。

2.根据权利要求1所述的一种基于工况辨识的规则融合深度强化学习能量管理方法，其特征在于，所述步骤1以插电式混合动力汽车为对象建立，采用并联式结构作为发动机和电动机的连接方式建立混合动力***模型；其中插电式混合动力***由燃油发动机、电动机、车载动力电池、油箱、转矩耦合器、离合器和5档变速箱组成；燃油发动机与转矩耦合器相连接，电动机直接与转矩耦合器一端相连接，转矩耦合器输出端与离合器连接，离合器另一端与5挡变速器连接，之后将动力传输给前桥驱动车辆行驶；

动力电池采用Rint等效电路模型：

式中，Tcon为当前工况所需转矩；ig为当前档位变速器传动比；i0为主减速器传动比；η_T为总传动效率；r为车轮半径；m为整车质量；g为重力加速度；f为滚动阻力系数；θ为道坡道角度；CD为空气阻力系数；A为车辆迎风面积；u为车速；δ为旋转质量换算系数；

矩耦合器各端口转矩与转速的关系为：

T₃＝i_eT_e+i_mT_m

(1)联合驱动模式：在此模式下，端口1和端口2为功率输入端，端口3为功率输出端，发动机和电动机共同提供动力驱动车辆行驶，此时电机转矩Tm为正，电池处于放电状态；

(2)纯电驱动模式：在此模式下，端口1无功率输入，端口2为功率输入端，电动机单独驱动车辆，此时电机转矩Tm为正，电池处于放电状态，发动机停机，因为端口1为单向功率输入，所以可实现发动机在动力***上的解耦，从而减小机械损耗；

(3)电机充电模式：在此模式下，车辆的电动机变为发电机，电机转矩Tm为负；并且可根据车辆行驶状态分为驱动状态下充电和非驱动状态下充电；驱动状态下充电时，离合器结合，端口1为功率输入端，端口2和端口3为功率输出端，发动机在提供动力驱动车辆行驶的同时，驱动发电机转动，电池处于充电状态；停车状态下充电时，端口1为功率输入端，端口2为功率输出端，端口3无功率输出，离合器分离，减少变速箱和前桥带来的机械损耗，发动机只提供动力给发电机，对电池进行充电。

3.根据权利要求1所述的一种基于工况辨识的规则融合深度强化学***均车速、平均行驶车速、最高车速、平均加速度、加速占比、减速占比、匀速占比、最大加速度、最大减速度；

各运动学片段中的特征参数可以表征运动学片段的特点，但是每个特征参数并不是独立的，相互之间存在着一定的关系，所以本发明之后利用主成分分析，对运动学片段的特征参数进行降维的同时，尽可能全面地涵盖所有工况特征，降低分类难度的同时提高可信度；具体实现过程如下：

(1)对数据进行标准化：

其中，x_ij表示第i个运动学片段的第j个特征参数；

为样本均值；s_j为标准差；i＝1,2,3,…,n；j＝1,2,3,…,m；

(2)计算Z矩阵的协方差矩阵C

(3)对协方差矩阵C做特征值分解

C＝Q∑Q^-1

其中，Q为特征值向量组成的矩阵，∑为一个对角阵，对角线上元素为特征值λ₁、λ₂、…、λ_m；

(4)计算各特征向量的贡献率p₁、p₂、…p_m和累计贡献率；

其中，

累计贡献率P_j为前k个主成分贡献率的累加；

(1)设定聚类数目n_c和加权指数b；

(2)初始化各聚类中心m_j

(3)计算当前聚类中心下各样本的隶属度函数：

其中μ_j(x_i)表示为第i个样本对应第j类的隶属度函数；

(4)计算当前隶属度函数下的各类聚类中心：

(5)直至算法收敛或达到最大迭代次数，否则重复(3)、(4)两步；

式中，分子表示类间距离之和，分母表示类内间距之和，所以L(n_c)值越大表示分类效果越好；

根据模糊聚类结果，将不同类别的运动学片段组成了3类运动学片段库，之后在3类运动学片段库中各随机抽取出一定数量的运动学片段，并对各类运动学片段进行随机排列，得到训练用的3种工况；

(1)对训练用工况1、2、3进行组合，并使用滑窗算法，计算出窗口数据中对应的9种特征参数作为LVQ神经网络的输入，并以工况类别的向量形式作为标签进行训练；

(2)其中窗口数量过长的话，会导致窗口数据中可能包含一种以上的工况数据，从而增加辨识难度；窗口数量过短的话，则工况特征信息不全面，会导致辨识精度下降，从而降低整车的燃油经济性；综合考虑，本文以35s为窗口长度进行滚动提取工况特征参数；

(3)对LVQ神经网络进行训练，所选用的超参数为：LVQ神经竞争层节点数选取为500个，学习率为0.0005，学习函数类型为learnlv1，迭代周期为50次；

(4)验证LVQ神经网络准确性；将验证工况进行长度为35s的滑窗操作，滚动提取出的特征参数作为训练后的LVQ神经网络的输入，并将输出进行索引化操作，得到的验证工况辨识结果。

4.根据权利要求1所述的一种基于工况辨识的规则融合深度强化学习能量管理方法，其特征在于，所述步骤3设计包含状态、动作、agent和惩罚函数，状态空间选取为需求转矩Tr、电池SOC和变速器当前传动比，动作变量选取为发动机输出转矩Te和换挡动作Ag，融合规则的agent设计借鉴了规则类算法进行能量分配的思路，将规则融入深度Q学习的机器中，得到了一种融合规则的深度Q学习算法，提高样本池中有效样本数量，插电式混合动力汽车一般将电池SOC工作区间控制在一定的范围内以保证电池的循环寿命和少量电能储备用于特殊情况，将SOC作为规则控制量，且SOC高效工作范围设置为0.2-0.8；并且将动力***的转矩作为规则控制量；

惩罚函数计算方法为: