CN110406526A

CN110406526A - 基于自适应动态规划的并联混合动力汽车能量管理方法

Info

Publication number: CN110406526A
Application number: CN201910717298.0A
Authority: CN
Inventors: 张冰战; 倪尧尧; 吴俊成; 邱明明
Original assignee: Hefei Polytechnic University
Current assignee: Hefei Polytechnic University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-05

Abstract

本发明公开了一种基于自适应动态规划的并联混合动力汽车能量管理方法，旨在对PHEV几种工作模式中的混合驱动模式进行能量管理优化，包括：根据驾驶员的命令以及车速获得车辆总的需求转矩，由车辆当前状态获得这一时刻电池SOC以及发动机转矩；综合获得的车辆信息，建立基于ADP的并联混合动力汽车能量管理模型；ADP中的执行网络用来近似最优控制策略，评价网络用来近似最优性能指标函数，这两个网络的结合相当于一个智能体能够智能学习并在线响应***的动态变化，使其对网络结构中的参数进行自动调整，对建立的能量管理模型进行求解，得到最优的分配转矩给电机。本发明方法能够实时地将需求转矩合理地、最优地分配给发动机和电机。

Description

基于自适应动态规划的并联混合动力汽车能量管理方法

技术领域

本发明属于并联混合动力汽车能量管理技术领域，涉及了一种基于自适应动态规划的并联混合动力汽车能量管理方法。

背景技术

能量管理策略是实现整车需求能量在发动机和电动机之间分配的关键，PHEV的经济性、动力性与所采用的能量管理策略密切相关。能量管理策略是燃油动力***与电驱动***实现良好结合的纽带，为了最大限度地提高能源效率和减少排放污染，需要高效的能量管理策略实现需求功率在发动机和电动机之间的分配。能量管理的核心就是要解决对期望目标与获取的车辆性能间能量转换的控制。期望的性能指标多表现在降低燃油消耗、减少有害气体排放、增加舒适性和延长电池组寿命等多方面。控制策略的目的就是提高燃油经济性、节能减排并且保证***有较好的性能指标。控制策略决定了在什么时刻、什么样的负载下，内燃机和电动机将怎样被使用。

PHEV的驱动***采用发动机和电动机并联的方式，具有发动机和驱动电机直接向驱动轮提供机械功率的能力。电机既能实现电动机的功能又能实现发电机的功能。PHEV两条驱动路径并联增加了驱动功率从而增强了混合动力汽车的动力性，并联混合动力汽车从发动机到车轮之间的动力传递过程中，除摩擦损耗外，没有机械能-电能-机械能的转换过程，能量转化效率高。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种基于自适应动态规划(Adaptive DynamicProgramming,ADP)的并联混合动力汽车(Parallel Hybrid Electrical Vehicle,PHEV)能量管理方法，其采用一种新型智能算法——自适应动态规划，并将之应用到并联混合动力汽车的能量管理控制中，可以在维持电池SOC的平稳变化和高效区域工作的同时提升PHEV的燃油经济性。

(二)技术方案

基于自适应动态规划的并联混合动力汽车能量管理方法，其特征在于包括如下步骤：

步骤1、根据驾驶员的命令如加速踏板或制动踏板的行程以及车速获得车辆总的需求转矩T，由车辆当前状态获得这一时刻电池荷电状态SOC以及发动机转矩T_e；

步骤2、基于自适应动态规划方法，以维持电池SOC的平稳变化和高效区域工作的同时提升PHEV的燃油经济性为目标建立并联混合动力汽车的能量管理模型；

步骤3、通过自适应动态规划方法中执行网络和评价网络的智能在线学习来对能量管理模型进行求解，得到分配给电机的最优需求转矩，然后再根据总的需求转矩得到分配给发动机的最优需求转矩；具体过程如下：

步骤3.1、初始化评价网络和执行网络的权值；

步骤3.2、将每个采样时刻采集的电池组SOC、整车需求转矩T和发动机当前时刻转矩T_e输入执行网络，执行网络输出为电机需求转矩T_{m_req}；

步骤3.3、将每个采样时刻采集的电池组SOC、整车需求转矩T、发动机当前时刻转矩T_e和执行网络输出的电机需求转矩T_{m_req}作为评价网络的输入，得到代价函数J的近似值

步骤3.4、根据评价网络的权值更新方式，更新评价网络的权值，使其输出的与代价函数J的误差E_c不断逼近0；

步骤3.5、根据执行网络的权值更新方式，更新执行网络的权值；

步骤3.6、更新并记录上述执行网络和评价网络的权值；

循环步骤3.1～3.6，直到近似等于代价函数J，完成最优控制输出T_{m_req}。

所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特征在于：步骤3中，所述代价函数J就是用于找到最优解的目的函数，是自适应动态规划方法运行的关键，定义为：

式中，γ是折扣因子，且0<γ≤1；U为效用函数；自适应动态规划的目的就是选择一个控制序列u(i),i＝k,k+1,…使得定义的代价函数J最小化；

其中，结合SOC定义的二次型效用函数U如下：

U(k)＝x(k)Ax(k)^T+ε(SOC-τ)²；

式中，A为符合此公式矩阵运算的单位矩阵；x是***输入的状态变量；ε是折扣因子；τ是根据车型选取的SOC波动下限。

所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特征在于：所述评价网络的优化目标函数为：

其中，e_c(k)表示评价网络的预测误差；

评价网络的输出值可以通过随着时间最小化以下的误差来实现：

当对于所有的k都有E_c(k)＝0时，上式意味着

显然有，因此，最小化所定义的误差函数，将获得一个训练好的神经网络，该评价网络的输出值是定义的代价函数J的一个估计。

所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特点在于，所述评价网络的权值更新是采用梯度下降法进行的，使：

W_c(k+1)＝W_c(k)+ΔW_c(k)，

其中，

式中，k表示采样周期，W_c代表评价网络的权值，E_c(k)表示评价网络的优化目标函数，l_c(k)表示评价网络的学习率。

所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特点在于，所述执行网络的权值更新方式是通过使用控制信号u(k)，以最小化为目标；具体步骤为：

将每个采样时刻采集的电池组SOC、整车需求转矩T和发动机当前时刻转矩T_e输入执行网络，执行网络输出为电机需求转矩T_{m_req}，并且执行网络的权值更新模型为：

W_a(k+1)＝W_a(k)+ΔW_a(k)，

其中，

式中，W_a表示执行网络的权值，u(k)表示控制变量，l_a(k)表示执行网络的学习率。

所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特点在于：所述执行网络和评价网络均采用BP神经网络也是三层前馈神经网络，网络的训练由正向的计算和反向的误差传播过程组成。

(三)有益效果

本发明提供的基于自适应动态规划的并联混合动力汽车能量管理控制方法，克服了电辅助、逻辑门限等基于规则的控制策略和常规动态规划(DP)等基于优化的控制策略的不足，通过自适应动态规划的方法，利用车辆总的需求转矩T、电池荷电状态SOC和发动机当前转矩T_e为输入，以维持电池SOC的平稳变化和高效区域工作的同时提升PHEV的燃油经济性为目标建立并联混合动力汽车的能量管理模型，其中自适应动态规划中执行网络和评价网络的结合相当于一个智能体(Agent)能够智能学习并在线响应***的动态变化，使其对网络结构中的参数进行自动调整，对本发明所建立的能量管理模型进行求解，得到最优的分配转矩给电机，保证PHEV在不同的行驶工况中都能高效率运行。

附图说明

图1为本发明所述的自适应动态规划示意图。

图2为本发明所述的基于自适应动态规划的并联混合动力汽车能量管理控制策略结构示意图。

图3为本发明所述的自适应动态规划中评价网络的机构示意图。

图4为本发明所述的自适应动态规划中执行网络的机构示意图。

图5为本发明所采用的自适应动态规划算法流程图(ADHDP)。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合附图对本发明做进一步的详细说明。

自适应动态规划(ADP)的思想是利用函数近似结构，来逼近动态规划方程中的性能指标函数和控制策略，以满足最优性原理。从而获得最优控制和最优性能指标函数。其算法的主导就是对控制网络、评价网络和模型网络的选取，通过网络权值的迭代最小化代价函数。其体现了人工智能和控制领域的一个重要发展方向，是对动态规划算法和强化学习算法的综合，具有以上两种算法的优势，既具有动态规划的寻优特性，又具有强化学习的自学习特性。如图1所示，ADP主要由三部分组成：动态***、执行(Action)函数和评价(Critic)函数。每个部分均可由神经网络代替，本发明采用BP神经网络，BP神经网络作为三层前馈神经网络通过对样本的训练来学习研究对象的特征，从而使其拥有联想和预测的能力。其中动态***可以通过神经网络进行建模，执行网络用来近似最优控制策略，评价网络用来近似最优性能指标函数。后两者的组合相当于一个智能体(Agent)，控制/执行(Action)作用于动态***(或者被控对象)在不同阶段产生的奖励/惩罚(Reward/Penalty)来影响评价函数。再利用函数近似结构或者神经网络，实现对执行函数和评价函数的逼近，但是执行函数是在评价函数估计的基础上进行的，也就是必须使评价函数最小。评价函数的参数更新是基于贝尔曼最优原理进行的，这样不但可以减少前向计算时间，还可以在线响应未知***的动态变化，使其对网络结构中的某些参数进行自动调整。

结合图2～图5，本发明提供的基于自适应动态规划的并联混合动力汽车能量管理控制方法，包括如下步骤：

步骤一、根据驾驶员的命令(加速踏板或制动踏板的行程)以及车速获得车辆总的需求转矩T，由车辆当前状态获得这一时刻电池荷电状态SOC以及发动机转矩T_e；

步骤二、基于自适应动态规划方法，以维持电池SOC的平稳变化和高效区域工作的同时提升PHEV的燃油经济性为目标建立并联混合动力汽车的能量管理模型。

在本实施例中，自适应动态规划方法包含了BP神经网络、动态规划算法和强化学习的理论，其来源于时间向前的动态规划方法，通过最优策略、代价或它们的导数的迭代关系不断产生向前的动态规划的通解，目标是克服“维数灾”，并保证随时间收敛到一个近似最优解。ADP具有以下优点：

(1)自适应动态规划有时并不依赖一个精确的被控对象数学模型，并且控制器可以在线“学习”控制。

(2)自适应动态规划可以通过逐次逼近而避免动态规划(DP)的“维数灾”问题。

(3)自适应动态规划并不需要精确的定义***性能指标。

(4)自适应动态规划为解决非线性***控制开辟了一条新的途径。

本发明采用自适应动态规划分类中的一种——执行依赖启发式动态规划(ActionDependent Heuristic Dynamic Programming,ADHDP)，是启发式动态规划(HDP)的执行依赖形式。ADHDP不需要模型网络，仅包含执行网络和评价网络，这两个网络根据实际***的要求可以选择合适的神经网络结构，本发明选择BP(Back Propagation)神经网络。其中，执行网络的输入是***的状态变量x，输出是***当前的控制变量u(k)，它将产生一个最优或者次优的控制序列u(i),i＝k,k+1,…,使得所定义的性能指标函数J(即代价)最小化，代价函数就是用于找到最优解的目的函数，这也是代价函数的作用，它是自适应动态规划方法运行的关键，从某种意义上定义了方法结果的好坏。在ADHDP中状态变量和控制变量都是评价网络的输入，其输出是对代价函数的近似。

步骤三、通过自适应动态规划方法中执行网络和评价网络的智能在线学习来对能量管理模型进行求解，得到分配给电机的最优需求转矩，然后再根据总的需求转矩得到分配给发动机的最优需求转矩。具体过程如下：

(1)初始化评价网络和执行网络的权值；

(2)将每个采样时刻采集的电池组SOC、整车需求转矩T和发动机当前时刻转矩T_e输入执行网络，执行网络输出为电机需求转矩T_{m_req}；

(3)将每个采样时刻采集的电池组SOC、整车需求转矩T、发动机当前时刻转矩T_e和执行网络输出的电机需求转矩T_{m_req}作为评价网络的输入，得到代价函数的近似

(4)根据评价网络的权值更新方式，更新评价网络的权值，使其输出的近似等于代价函数J。

(5)根据执行网络的权值更新方式，更新执行网络的权值；

(6)更新并记录上述执行网络和评价网络的权值；

循环(2)～(6)，直到近似等于代价函数J，完成最优控制输出T_{m_req}。

在步骤三中，评价网络和执行网络的智能在线学习，具体的训练过程如下：

1)评价网络的在线训练过程

评价网络采用三层BP神经网络，4个输入神经元，25个隐藏层神经元和1个输出神经元。评价网络的隐藏层采用双极性sigmoidal函数，输出层采用线性函数purelin。评价网络的训练由两部分组成，一个是正向的计算过程，另一个是更新评价网络权值矩阵的误差反向传播过程。

定义评价网络k阶段的输入向量为inputC(k)，为方便描述此处不带入具体数值。

inputC(k)＝[u₁(k),…,u_m(k),x₁(k),…,x_n(k)]

评价网络的正向计算过程为

式中，c_h1j(k)是评价网络隐藏层第j个节点的输入；c_h2j(k)是评价网络隐藏层第j个节点的输出。

评价网络的训练采用梯度下降法，通过最小化下式定义的误差来实现。

评价网络的权值更新过程推导如下。

①W_c2(隐藏层到输出层的权值矩阵)。

W_c2(k+1)＝W_c2(k)+ΔW_c2(k)

②W_c1(输入层到隐藏层的权值矩阵)。

W_c1(k+1)＝W_c1(k)+ΔW_c1(k)

2)执行网络的在线训练过程

执行网络同样采用三层的BP神经网络，隐藏层神经元数量为20个，神经元采用sigmoidal函数计算，输出层采用purelin线性函数。执行网络的输入是三个状态变量包括电池SOC、整车需求转矩T和发动机当前转矩T_e。执行网络对于ADP算法具有重要作用，每一步的控制律的给出决定于执行网络的计算。

执行网络的训练仍然由正向的计算和反向的误差传播过程组成。同样为方便描述不带入具体数值，其正向计算过程为

式中，a_h1j(k)是执行网络隐藏层第j个节点的输入；a_h2j(k)是执行网络隐藏层第j个节点的输出。

执行网络的训练以最小化为目标。执行网络的训练仍然采用梯度下降法。

执行网络的权值更新过程推导如下。

①W_a2(隐藏层到输出层的权值矩阵)

W_a2(k+1)＝W_a2(k)+ΔW_a2(k)

②(输入层到隐藏层的权值矩阵)

式中，W_a2j:＝W_a2(j,:),W_a2(j,:)是MATLAB中常用的矩阵表示形式，表示矩阵W_a2的第j行。

W_a1(k+1)＝W_a1(k)+ΔW_a1(k)

3)相关网络参数的选取

在ADHDP的执行过程中，相关参数主要包括评价网络和执行网络的隐藏层节点数和学习率，以及折扣因子。现在还没有特定的方法来确定隐藏层节点的数目，在神经网络中，隐藏层神经元的数目一般能够反映对非线性的映射能力，理论上，隐藏层的节点的数量越大，非线性的映射能力越好。但随着神经元数量的变大，学习速率会下降；神经元数目少，相对应得逼近功能会变弱。所以，隐藏层神经元数目的选取需要经过试验实际状态而定。本发明选取执行网络的隐藏层神经元数目为20个，评价网络的隐藏层神经元数目为25个。

学习率是一个大于0小于1的数，学习率越大，其学习速度就越快，但过大的学习率会引起振荡，过小的学习率又使得学习速度太慢，导致训练时间过长。因此，学习率通常随着时间从一个较大的初始值减小到一个较小的值，以加快学习速度且避免振荡。折扣因子通常是一个不大于1的正数，现在也没有特定的方法来确定该值，只能通过试验结果来确定。一般来说，折扣因子越小试验越容易成功，而折扣因子越大控制效果则更好。

4)算法流程图

图5所示为本发明采用的ADHDP算法流程图，采用基于“并联式”训练方法即同时训练执行网络和评价网络对控制***进行策略训练。

Claims

1.基于自适应动态规划的并联混合动力汽车能量管理方法，其特征在于包括如下步骤：

步骤3.1、初始化评价网络和执行网络的权值；

步骤3.6、更新并记录上述执行网络和评价网络的权值；

2.根据权利要求1所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特征在于：步骤3中，所述代价函数J就是用于找到最优解的目的函数，是自适应动态规划方法运行的关键，定义为：

其中，结合SOC定义的二次型效用函数U如下：

U(k)＝x(k)Ax(k)^T+ε(SOC-τ)²；

3.根据权利要求2所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特征在于：所述评价网络的优化目标函数为：

其中，e_c(k)表示评价网络的预测误差；

当对于所有的k都有E_c(k)＝0时，上式意味着

4.根据权利要求3所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特点在于，所述评价网络的权值更新是采用梯度下降法进行的，使：

W_c(k+1)＝W_c(k)+ΔW_c(k)，

其中，

5.根据权利要求4所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特点在于，所述执行网络的权值更新方式是通过使用控制信号u(k)，以最小化为目标；具体步骤为：

W_a(k+1)＝W_a(k)+ΔW_a(k)，

其中，

6.根据权利要求5所述的基于自适应动态规划的并联混合动力汽车能量管理方法，其特点在于：所述执行网络和评价网络均采用BP神经网络也是三层前馈神经网络，网络的训练由正向的计算和反向的误差传播过程组成。