CN112018465B

CN112018465B - 一种多物理场约束的锂离子电池智能快速充电方法

Info

Publication number: CN112018465B
Application number: CN202011087624.3A
Authority: CN
Inventors: 魏中宝; 吴京达; 何洪文; 李建威; 钟浩
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-29
Anticipated expiration: 2040-10-13
Also published as: CN112018465A

Abstract

本发明公开了一种多物理场约束的锂离子电池智能快速充电方法，包括以下步骤：S1.开展锂离子电池测试，建立锂离子电池电热耦合模型和老化模型；S2.定义动作空间和奖励函数，定义优先经验回放池；S3.设定离线训练场景，获取初始时刻状态变量，利用策略网络获取当前状态下的动作变量，并扩大动作选取范围；S4.生成充电动作、电池状态转移、奖励值并记录于经验池，进行DDPG网络的同步更新；S5.循环执行S3‑S4，直至策略网络和价值网络收敛，导出策略网络成为深度强化学习（DRL）快速充电策略；S6.估计强化学习状态空间内的各个变量；S7.确定当前时刻的最优充电动作。本发明兼顾充电速度、电池安全与寿命衰减抑制，训练后策略计算复杂度低，实时应用具有优势。

Description

一种多物理场约束的锂离子电池智能快速充电方法

技术领域

本发明涉及一种多物理场约束的锂离子电池智能快速充电方法，具体是涉及基于多物理场耦合建模与深度强化学习的锂离子电池智能快速充电方法。

背景技术

锂离子电池在电动汽车领域应用最为广泛，其快速充电技术对电动汽车的进一步普及具有重要意义。然而，现阶段快速充电技术依然面临多方面瓶颈，盲目追求充电速度可能引发锂离子电池内部过热、过应力、析锂等过程，严重影响锂离子电池的耐久性与安全性，甚至将直接导致起火、***等灾难性事故。

基于经验的充电方法简单易行，应用广泛，代表性的如恒流-恒压（CCCV）法、多阶段恒流法等，但这类方法鲁棒性差，难以考虑锂离子电池内部多理化过程及其约束意义，难以保证充电的综合最优性。相比而言，基于模型的充电优化控制方法采用等效电路-热耦合模型、电化学机理模型等对锂离子电池内部多物理过程进行描述，并采用模型预测控制（MPC）等优化控制算法实现快速充电，能够有效保证充电的多目标最优性，且具有更高的鲁棒性。但是，这类方法需要对高维、强耦合、非线性问题进行多约束、多目标优化求解，计算复杂度高，在线应用具有挑战性。

综上所述，现阶段仍然缺少一种兼具多约束、多目标最优性与低计算复杂度的锂离子电池快速充电方法。

发明内容

本发明的目的在于克服现有技术的不足，提出一种多物理场约束的锂离子电池智能快速充电方法，通过建立多目标优化问题，采用具有优先级经验重播的改进DDPG算法进行求解，实现遵从离子锂电池理化极限与老化抑制的快速充电，该方法将多约束、多目标最优化求解导致的复杂计算迁移到离线训练环节，从而保证算法的实时性。

本发明的目的是通过以下技术方案来实现的：一种多物理场约束的锂离子电池智能快速充电方法，包括以下步骤：

S1. 开展锂离子电池测试，建立锂离子电池电热耦合模型和老化模型；

S2. 将S1中确定的关键状态归入强化学习状态空间，定义动作空间和奖励函数，搭建深度确定性策略梯度（DDPG）算法的策略网络、价值网络并进行初始化，定义优先经验回放池；

S3. 设定离线训练场景，获取初始时刻状态变量，利用策略网络获取当前状态下的动作变量，采用基于随机变换的噪声探索机制扩大动作选取范围；

S4. 依据S1中电池模型，生成充电动作、电池状态转移、奖励值并记录于经验池，通过选择经验记录进行DDPG网络的同步更新；

S5. 循环执行S3-S4，直至策略网络和价值网络收敛，导出策略网络成为深度强化学习（DRL）快速充电策略；

S6. 实时采集充电电流、端电压、环境温度、电池表面温度，设计基于模型的状态观测器，实时估计强化学习状态空间内的各个变量；

S7. 依据S6中的测量值与估计值，使用S5中训练成熟的DRL控制策略确定当前时刻的最优充电动作。

本发明的有益效果是：本发明能够实现兼顾充电速度、理化极限约束与老化抑制等若干冲突目标的综合最优化，实现具有安全与健康主动意识的快速充电，将多约束、多目标最优化求解导致的复杂计算迁移到离线训练环节，显著降低了在线应用的计算复杂度。

附图说明

图1为本发明的方法流程图。

图2为实施例中锂离子电池的SOC-OCV函数关系。

图3为实施例中锂离子电池的电热耦合模型。

图4为实施例中DDPG-DRL快速充电策略的训练过程。

图5为实施例中所述的DDPG-DRL充电方法与CCCV方法的对比。

图6为实施例中所述的DDPG-DRL充电方法与MPC方法的对比。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种多物理场约束的锂离子电池智能快速充电方法，包括以下步骤：

S1. 开展锂离子电池测试，建立锂离子电池电热耦合模型和老化模型。

在本申请的实施例中，选择锂离子电池端电压、SOC和电芯温度作为状态，开展电池测试，包含SOC-OCV函数关系测试、HPPC阻抗参数测试、热力学测试、老化测试，确定关键模型参数。

建立锂离子电池电热耦合模型，其中电气部分采用二阶RC等效电路模型，状态空间方程为：

式中，t是时间，R _s是欧姆内阻，I和V是电流和端电压，C _n是容量，V _p1和V _p2是极化电压。该实施例中，V _oc与SOC的函数关系采用5阶多项式拟合，拟合结果如图2所示。

热模型采用如下公式描述：

式中，T _s、T _a、T _c和T _f分别是电池表面、内部平均、电芯和环境温度，R _c和R _u是电池内部热阻和电池表面热阻，C _c和C _s分别是电池芯部和表面的等效热容，H是产热率，计算方法为：

式中，E _n表示电化学反应过程中的熵变。本实施例中所用的等效电路模型和热模型相互耦合，如图3所示。

随后建立电池老化模型，基于Arrhenius方程的建立容量损失表达式：

式中，

C _n是容量损失的百分比，B是取决于充放电倍率的指数因子，R是理想气体常数，z幂律因子取值为0.55，Ah是累积安时通量，E _a是活化能（J / mol），定义为：

当C _n下降20%时，电池到达寿命终止条件。因此Ah由下式计算：

定义N为达到达寿命终止条件之前的循环总数，计算方法为：

最后计算多应力下电池健康状态（SOH）的衰减量：

式中，Δt是电流的持续时间。至此完成了锂离子电池的电热耦合建模和老化建模。

S2. 将S1中确定的关键状态归入强化学习状态空间，定义动作空间和奖励函数，搭建深度确定性策略梯度（DDPG）算法的策略网络、价值网络并进行初始化，定义优先经验回放池。所述步骤S2中包括以下子步骤：

S201. 确定锂离子电池快速充电过程中的约束变量，作为状态向量空间s的组成变量，选择充电电流或充电功率作为动作变量a。本实例中，选取荷电状态SoC，电芯温度T _c和端电压V作为约束变量，充电电流cr作为控制动作，状态空间S、时变状态变量s _t、动作空间A和时变动作变量a _t分别定义如下：

其中，下标t代表时刻t，为物理量的时序表达，具体地：

为t时刻锂离子电池荷电状态；

为t时刻锂离子电池电芯温度；

为t时刻端电压；

为充电倍率，是充电电流

的单位；

为t时刻动作变量；

即t时刻充电电流；

该实施例中充电电流上限为6C。

S202. 根据预期控制目标选择奖励函数的参考指标，建立归一化奖励函数。该实施例中，首先定义如下成本函数：

其中，ω ₁, ω ₂, ω ₃, ω ₄和 ω ₅是描述不同目标重要性的权重，C _soc, C _volt,C _heat, C _soh和C _smooth分别用于体现充电时间、过压保护、过热保护、老化抑制和充电电流平稳性，计算方法如下：

式中，SoC _tar表示目标SOC；V _{tar_upp}和V _{tar_low}是端电压的上限值和下限值，T _a,t, T _tar是电池内部温度的实时值和上限值；ΔSoH _t表示执行当前控制动作导致的SOH下降；τ ₁, τ ₂和 τ ₃是转换系数。该实施例中，SoC _tar, V _{tar_upp}, V _{tar_low},和T _tar的取值分别为0.95，3.6V，2.0V和45℃。

基于成本函数J _t建立深度强化学习策略奖励函数r _t：

式中，

为自定义偏差，

为基于sigmoid的归一化函数。

S203. 建立用于策略选择的全连接深度神经网络作为策略网络

，

表示该网络参数；建立用于评估策略价值的全连接深度神经网络作为价值网络Q，

表示该网络参数；对策略网络和价值网络的权重和偏置进行初始化赋值；复制策略网络作为目标策略网络，复制价值网络作为目标价值网络。

该实施例中，采用He初始化方法对策略网络和价值网络参数进行初始化，产生全连接深度神经网络的初始权重和偏置，具体地，产生区间

中均匀分布的权重和偏置，其中fan _in为所需初始化网络层的输入神经元数量。复制

网络的结构和初始参数作为目标策略网络

，记作

，复制q网络的结构和初始参数作为目标价值网络

，记作

。

S204. 选择经验回放池最大容量值，建立经验回放池，用于储存训练过程每一时刻的信息组，该信息组包括：状态变量，动作变量，奖励函数，和状态转移后的状态变量。

S3. 设定离线训练场景，获取初始时刻状态变量，利用策略网络获取当前状态下的动作变量，采用基于随机变换的噪声探索机制扩大动作选取范围。所述步骤S3包括以下子步骤：

S301. 对于当前训练回合数i(初始i= 1)，开启经验储存池，对锂离子电池模型进行状态初始化，设定时间t = 0。

S302. 获取初始时刻状态变量

。将状态变量输入策略网络获得动作变量

，为该动作附加一均值为0，标准差为1倍动作变量定义域的随机噪声。

假设处于状态s，则原本策略网络的输出是固定值a，而增加随机噪声能够将动作变量变为a1=a+噪声1。若下一次重新面临状态s，则对于未更新过的策略网络，其输出仍是固定值a，但增加噪声后a2=a+噪声2。此时，完成了不改变网络的前提下，扩大动作变量选择范围的目的。

S4. 依据S1中电池模型，生成充电动作、电池状态转移、奖励值并记录于经验池，通过选择经验记录进行DDPG网络的同步更新。所述步骤S4包括以下子步骤：

S401. 基于S1中建立的电池模型，输入所选择的当前状态下的动作变量，计算更新状态变量空间和实时奖励函数值，将该时间步长内的a _t，s _t，s _t+1和奖励函数值r _t组成经验元组。

S402. 计算t时刻优先度：

式中，

为折扣因子。

代表策略网络，

代表价值网络；

和

分别代表目标策略网络，和目标价值网络；

和

分别代表策略网络的参数和价值网络的参数；具体地：

代表以

为参数的策略网络，对输入的状态变量

的响应；

代表以

为参数的价值网络，对

时刻输入的状态变量

和动作变量

的响应；

代表以

为参数的目标价值网络，对

时刻输入的状态变量

和动作变量

的响应；

将S401中的经验元组和优先度（rank _t）作为t时刻的数据储存于经验回放池中，表示如下：

其中，

即经验回放池；

S403. 对于D中任一经验d _j，定义其被选择的概率为

，其中

，选择得到的一组经验可以表示为

。

为调整因子，用于调整概率

的具体数值；

S404. 以d _j中数据为依据，进行价值网络、策略网络及其对应目标网络的更新。具体的，确定价值网络q的评估方程：

式中，

为

为索引值的奖励值，

代表选取最大使得

最大化的动作变量

，并生成此价值网络对该选定动作变量和状态变量的响应；

表示最优值函数。随后建立价值网络的更新误差计算公式：

进而确定策略网络

的评估方程：

式中，

表示求取数学期望。依据目标相对于策略网络

的梯度，策略网络

的更新误差为：

S405. 对目标网络

和

采用如下软更新策略：

S406. 将时间t增加1个步长，重新回到S401，S401-S406循环执行直至达到定义的最大持续时间步长t _L(t = t _L)，则结束本回合，该实施例中t _L= 2000s。

S5. 循环执行S3-S4，直至策略网络和价值网络收敛，导出策略网络成为DRL快速充电策略。所述步骤S5中，将训练回合数i增加1，重新回到S3，S3-S4循环执行直至达到回合数上限L，终止并视为收敛，收敛后导出策略网络

即为DRL快速充电策略。该实施例中，L = 50。

至此完成了DRL策略的训练，训练示意图如图4所示。

S6. 实时采集充电电流、端电压、环境温度、电池表面温度，设计基于模型的状态观测器，实时估计强化学习状态空间内的各个变量。所述步骤S6包括以下子步骤：

S601. 采集锂离子电池在充电过程中的电流、端电压、表面温度、环境温度等数据。

S602. 设计基于模型的状态观察器，依据S601中所采集数据，对状态变量空间s中的状态变量进行实时估计。

该实施例中，采用扩展卡尔曼滤波算法进行状态估计。定义u为***输入，x为待观测状态向量，y为可测量的***输出向量，如下所示：

图3所示电热耦合模型可表述为如下离散状态空间方程：

其中，w _k和u _k分别是过程噪声和测量噪声。采用如下步骤实时估计SOC和电芯温度：

初始化

；

状态前验估计：

误差协方差前验估计：

计算卡尔曼增益矩阵：

状态反馈修正：

误差协方差观测反馈修正：

其中，

是卡尔曼增益；I为单位矩阵；Q和R分别为输入、输出测量噪声的协方差矩阵，P是状态估计误差协方差矩阵，

是待观测状态向量在k时刻的后验估计（也是k时刻待观测状态向量的最终估计）。其他相关系数矩阵计算方法为：

定义：

，

，可得下式：

至此完成了待观测向量x的估计，提取其中的SoC、T _c和T _s，结合测量的端电压，即可实现对s _t的更新。

按照上述步骤，通过基于DDPG-DRL的快速充电策略，对电池的充电电流进行实时计算；对充电速度进行奖励，对过电压和过热进行软性惩罚，通过对多个冲突目标进行智能优化，实现具备热安全意识和健康主动意识的快速充电最优控制。

在本专利的实施例中，对所述基于DDPG-DRL的快速充电方法进行验证，并与广泛应用的CCCV方法（包括2C CCCV、4C CCCV、6C CCCV）对比，结果如图5所示，图5中，（a）为不同方法下充电倍率与时间的关系，（b）为不同方法下荷电状态与时间的关系，（c）为不同方法下终端电压与时间的关系，（d）为不同方法下电池核心温度与时间的关系。结果表明所述方法在最大化充电速度的同时保持电池内部平均温度不超过设定的45℃，而传统的CCCV策略难以实现充电速度与过热保护的智能兼顾。

将所述基于DDPG-DRL的快速充电方法与模型预测控制（MPC）方法对比，结果如图6所示，图6中，（a）为不同方法下充电倍率与时间的关系，（b）为不同方法下荷电状态与时间的关系，（c）为不同方法下终端电压与时间的关系，（d）为不同方法下电池核心温度与时间的关系。结果表明两种方法在充电速度和过热保护方面表现相似，均能实现热安全意义下的快速充电控制。

综合对比6C CCCV方法、MPC方法与所述方法的充电速度与1000次充电SOH下降量，结果如表1所示。结果表明，所述方法能达到与MPC方法等同的效果，但在线应用仅包含代数运算，计算复杂度显著低于MPC的高维矩阵运算（三次方等级计算复杂度），实时性能大幅提高；相比之下CCCV方法虽然计算简单，但难以实现最优充电。综合来看，本专利所述基于DDPG-DRL的快速充电策略能兼顾最优性与实时性。

表1 6C CCCV方法、MPC方法与所述方法的充电速度与1000次充电SOH下降量对比

综上所述，本发明通过状态观测器估计电池内部状态，通过建立多目标优化问题，采用具有优先级经验重播的改进DDPG算法进行求解，实现遵从离子锂电池理化极限与老化抑制的快速充电。相较于传统的CCCV充电方法，本发明能够本发明能够实现兼顾充电速度、理化极限约束与老化抑制等若干冲突目标的综合最优化；相较于MPC充电方法，本发明将多约束、多目标最优化求解导致的复杂计算迁移到离线训练环节，在保证优化性能的同时大幅降低了计算复杂度。

以上所述是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应该看作是对其他实施例的排除，而可用于其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种多物理场约束的锂离子电池智能快速充电方法，其特征在于包括以下步骤：

S1.开展锂离子电池测试，建立锂离子电池电热耦合模型和老化模型；

S2.将S1中确定的关键状态归入强化学习状态空间，定义动作空间和奖励函数，搭建深度确定性策略梯度算法的策略网络、价值网络并进行初始化，定义优先经验回放池；

所述步骤S2包括以下子步骤：

S201.确定锂离子电池快速充电过程中的约束变量，作为状态向量空间s的组成变量，选择充电电流或充电功率作为动作变量，作为动作空间A的组成变量；

选取荷电状态SoC，电芯温度T_c和端电压V作为约束变量，充电电流cr作为控制动作，状态空间S、时变状态变量s_t、动作空间A和时变动作变量a_t分别定义如下：

S＝{SoC,T_c,V}

s_t＝[SoC_t,T_c,t,V_t],s_t∈S

A＝{cr|cr∈(0,6C)}

a_t＝cr_t,a_t∈A

其中，下标t代表时刻t，为物理量的时序表达，具体地：

SoC_t为t时刻锂离子电池荷电状态；T_c，t为t时刻锂离子电池电芯温度；V_t为t时刻端电压；C为充电倍率，是充电电流cr的单位；a_t为t时刻动作变量；cr_t即t时刻充电电流；

S202.根据预期控制目标选择奖励函数的参考指标，建立归一化奖励函数；

S203.建立用于策略选择的全连接深度神经网络作为策略网络μ，θ^μ表示策略网络的参数；建立用于评估策略价值的全连接深度神经网络作为价值网络Q，θ^Q表示价值网络的参数；对策略网络和价值网络的权重和偏置进行初始化赋值；复制策略网络作为目标策略网络，复制价值网络作为目标价值网络；

S204.选择经验回放池最大容量值，建立经验回放池，用于储存训练过程每一时刻的信息组，该信息组包括：状态变量，动作变量，奖励函数和状态转移后的状态变量；

S3.设定离线训练场景，获取初始时刻状态变量，利用策略网络获取当前状态下的动作变量，采用基于随机变换的噪声探索机制扩大动作选取范围；

所述步骤S3包括以下子步骤：

S301.对于当前训练回合数i，初始i＝1，开启经验储存池，对锂离子电池模型进行状态初始化，设定时间t＝0；

S302.获取初始时刻状态变量s₀，将状态变量输入策略网络获得动作变量a＝μ(s|θ^μ)，为该动作附加一均值为0，标准差为1倍动作变量定义域的随机噪声；

S4.依据S1中电池模型，生成充电动作、电池状态转移、奖励值并记录于经验池，通过选择经验记录进行深度确定性策略梯度网络的同步更新；

所述步骤S4包括以下子步骤：

S401.基于S1中建立的电池模型，输入所选择的当前状态下的动作变量，计算更新状态变量空间和实时奖励函数值，将时间步长内的a_t，s_t，s_t+1和奖励函数值r_t组成经验元组；

S402.计算t时刻优先度：

L_Q(t)＝[r_t+γQ'(s_t+1,μ(s_t+1)|θ^Q')-Q(s_t,a_t|θ^Q)]²

式中，γ为折扣因子；μ(·)代表策略网络，Q(·)代表价值网络；Q′(·)代表目标价值网络；θ^μ和θ^Q分别代表策略网络的参数和价值网络的参数；具体地：

μ(s|θ^μ)代表以θ^μ为参数的策略网络，对输入的状态变量s的响应；

Q(s_t，a_t|θ^Q)代表以θ^Q为参数的价值网络，对t时刻输入的状态变量s_t和动作变量a_t的响应；

Q′(s_t+1，μ(s_t+1)|θ^Q′)代表以θ^Q′为参数的目标价值网络，对t+1时刻输入的状态变量s_t+1和动作变量μ(s_t+1)的响应；

将S401中的经验元组和优先度ranzk_t作为t时刻的数据储存于经验回放池中，表示如下：

D＝{rank_t,d_t＝[s_t,a_t,r_t,s_t+1]|t＝1,2,...}

其中，D即经验回放池；

S403.对于D中任一经验d_j，定义其被选择的概率为

其中

选择得到的一组经验表示为d_j＝[s_t,a_t,r_t,s_t+1]；α为调整因子，用于调整概率P_j的具体数值；

S404.以d_j中数据为依据，进行价值网络、策略网络及其对应目标网络的更新，具体的，确定价值网络q的评估方程：

式中，r_j表示以j为索引值的奖励值；

代表选取最大使得Q(s_j+1，a_j+1)最大化的动作变量a_j，并生成此价值网络对选定动作变量和状态变量的响应；

随后建立价值网络的更新误差计算公式：

L_Q(j)＝[r_j+γQ'(s_j+1,μ(s_j+1)|θ^Q')-Q(s_j,a_j|θ^Q)]²

进而确定策略网络μ的评估方程：

Φ(θ_μ)＝E[Q(s_j,μ(s_j))]

式中，E(·)表示求取数学期望；依据目标相对于策略网络μ的梯度，策略网络μ的更新误差为：

S405.对目标网络Q'和μ'采用如下软更新策略：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ'←τθ^μ+(1-τ)θ^μ'

S406.将时间t增加1个步长，重新回到S401，S401-S406循环执行直至达到定义的最大持续时间步长t_L，即t＝t_L时，则结束本回合；

S5.循环执行S3-S4，直至策略网络和价值网络收敛，导出策略网络成为深度强化学习快速充电策略；

S6.实时采集充电电流、端电压、环境温度、电池表面温度，设计基于模型的状态观测器，实时估计强化学习状态空间内的各个变量；

S7.依据S6中的测量值与估计值，使用S5中训练成熟的深度强化学习控制策略确定当前时刻的最优充电动作。

2.根据权利要求1所述的一种多物理场约束的锂离子电池智能快速充电方法，其特征在于：所述步骤S1中，建立的电池模型包括电池电热耦合模型和电池老化模型；所述电池电热耦合模型由等效电路模型和热模型相互耦合而成。

3.根据权利要求1所述的一种多物理场约束的锂离子电池智能快速充电方法，其特征在于：所述步骤S5中，将训练回合数i增加1，重新回到S3，循环执行S3-S4直至达到回合数上限L，终止并视为收敛，收敛后导出策略网络μ即为深度强化学习快速充电策略。

4.根据权利要求1所述的一种多物理场约束的锂离子电池智能快速充电方法，其特征在于：所述步骤S6包括以下子步骤：

S601.采集锂离子电池在充电过程中的电流、端电压、表面温度和环境温度数据；

S602.设计基于模型的状态观察器，依据S601中所采集数据，对状态变量空间s中的状态变量进行实时估计。

5.根据权利要求4所述的一种多物理场约束的锂离子电池智能快速充电方法，其特征在于：所述状态观测器包括龙伯格观测器、扩展卡尔曼滤波、无际卡尔曼滤波、粒子滤波、滑膜观测器中的一种。

6.根据权利要求1所述的一种多物理场约束的锂离子电池智能快速充电方法，其特征在于：所述步骤S7中，先依据S6计算更新状态变量空间，然后采用S5中训练所得的深度强化学习快速充电策略，决策确定当前时刻的充电电流或充电功率。