CN109193075B

CN109193075B - 基于强化学习的纯电动汽车动力电池冷却***控制方法

Info

Publication number: CN109193075B
Application number: CN201811135929.XA
Authority: CN
Inventors: 张炳力; 高峰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2020-06-05
Anticipated expiration: 2038-09-28
Also published as: CN109193075A

Abstract

本发明涉及一种基于深度强化学习的纯电动汽车冷却***控制方法，包括：第一步获取纯电动汽车动力电池温度、动力电池工作电流，以及环境温度信息；构建DDPG算法模型，进行强化学习训练，得到一组最优电子水泵PID控制参数；通过PID输入量得出PID控制量，并基于该PID控制量控制电子水泵工作；电子水泵工作改变动力电池冷却***中冷却液的流量，达到动力电池降温的目的，同时将动力电池信息传递给环境感知模块，返回第一步，循环整个流程。本发明将深度强化学习引入PID控制算法中，深度强化学习能较好的跟环境交互，具有自学习功能，适应不确定***的动态特性，因此能适应纯电动汽车运行环境复杂多变的特性，在不同的实际场景下实现在线控制。

Description

基于强化学习的纯电动汽车动力电池冷却***控制方法

技术领域

本发明涉及纯电动汽车热管理技术领域，尤其是一种基于强化学习的纯电动汽车动力电池冷却***控制方法。

背景技术

目前电动汽车采用的冷却电子水泵大多利用开关式的控制方式，这种方法主要是根据目标值设定一个期望的温度值，然后根据这个目标值来设置控制温度的上限值。如果温度超过了这个范围值，电子水泵开启降温，否则不启动，让冷却液在冷却循环中自然冷却。除此之外，还有模糊控制、专家***以及集成智能控制等。

其中，开关式的控制方式主要存在的问题是：会在某些特定的环境中使得电子水泵频繁的开启，严重影响了电子水泵的使用寿命；同时由于电子水泵启动时以最大转速工作，造成大量的功率无效的消耗，运行的成本会大大增加。模糊控制对于难以建立精确模型而可根据经验控制的***的控制效果较好，但存在模糊规则的设计、过于依赖人工设计而无法运用于延时大的***。专家***能较好的利用专家经验知识，但存在知识获取依赖人工以及推理能力较弱的不足。集成智能控制算法根据不同智能控制算法的优点进行结合，但仍无法完全避免结合的智能控制算法本身的不足。

发明内容

本发明的首要目的在于提供一种能适应纯电动汽车运行环境复杂多变的特性，在不同的实际场景下实现在线控制，降低人工设计难度，减小能量损耗的基于强化学习的纯电动汽车动力电池冷却***控制方法。

为实现上述目的，本发明采用了以下技术方案：一种基于强化学习的纯电动汽车动力电池冷却***控制方法，该方法包括下列顺序的步骤：

(1)获取纯电动汽车动力电池温度、动力电池工作电流，以及环境温度信息；

(2)基于纯电动汽车动力电池温度、动力电池工作电流，以及环境温度信息确定状态空间，基于待优化的PID参数构建动作空间，基于动力电池温度与最佳工作温度的温度差以及电子水泵转速加速度的加权平方和确定回报函数，并基于所述状态空间、动作空间和回报函数构建DDPG算法模型；对所构建的DDPG算法模型进行强化学习训练，得到一组最优电子水泵PID控制参数；

(3)通过PID输入量得出PID控制量，并基于该PID控制量控制电子水泵工作；

(4)电子水泵工作改变动力电池冷却***中冷却液的流量，达到动力电池降温的目的，同时将动力电池信息传递给环境感知模块，返回步骤(1)；

所述步骤(2)中构建DDPG算法模型具体是指：

确定DDPG算法状态空间、动作空间和回报函数；

状态空间包含3个元素：动力电池温度、动力电池工作电流和环境温度；

动作空间包含3个PID控制参数，分别为：比例参数K_P、微分参数K_I和积分参数K_D；

回报函数：单次动作的回报r定义为动力电池温度与最佳工作温度的温度差以及电子水泵转速加速度的加权平方和；到目前为止的所有动作的累积总回报定义为：

式中：γ为折扣因子；r_i为单次动作的回报；

为数学期望。

所述步骤(2)中对所构建的DDPG算法模型进行强化学习训练，得到一组最优电子水泵PID控制参数具体是指：

构建评价网络和动作网络，其中评价网络进行Q函数计算得到Q值：Q(s,a|θ^Q)，输入为状态s、动作a，输出为Q函数Q(s,a|θ^Q)，包含3个隐藏层，都是FC全连接网络层；动作网络进行状态s到动作的映射得到a＝μ(s|θ^μ)，输入为状态s，输出为动作a，包含1个隐藏层，采用FC全连接网络层；

评价网络分为Online评价网络和Target评价网络，动作网络分为Online动作网络和Target动作网络；Target评价网络和Online评价网络结构相同，Target动作网络和Online动作网络结构相同；

对Online评价网络和Online动作网络的参数θ^Q、θ^μ进行随机初始化；通过这两个网络参数θ^Q和θ^μ来初始化Target评价网络和Target动作网络的网络参数θ^Q′和θ^μ′，同时开辟一个空间R作为Memory Replay经验回放的储存空间；

初始化完成后，开始进行迭代求解：

通过当前网络加上高斯扰动选择一个动作进行探索，动作a_t＝μ(s|θ^μ)+N_t，其中N_t是一个高斯扰动；

在当前状态s_t下执行动作a_t，得到相应的奖励r_t和下一个状态s_t+1，并且将这个过程形成的元组(s_t,a_t,r_t,s_t+1)储存到Memory Replay空间R中；

从Memory Replay空间R随机选择一个小批量的元组数据，作为Online动作网络和Online评价网络的训练数据，用(s_i,a_i,r_i,s_i+1)表示单个数据；s_i为状态，a_i为执行动作，r_i为相应的奖励，s_i+1为下一个状态；

更新Online评价网络：

定义Online评价网络Loss函数：

其中，y_i为标签：y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)θ^Q′)，N为元组数据个数；

求出Loss函数关于θ^Q的梯度：

通过最小化Loss函数来更新Online评价网络；

更新Online评价网络结束后，再进行Online动作网络的更新：

计算J(θ^μ)的梯度：

依据梯度下降的原则对Online动作网络进行更新；

最后利用更新的Online评价网络和Online动作网络的参数θ^Q和θ^μ对Target评价网络和Target动作网络的网络参数θ^Q′和θ^μ′进行更新：

式中：τ为更新率，τ＜＜1，由此构建一个收敛的神经网络；

计算当前PID控制参数K_P、K_I、K_D下的总回报，当J(θ^μ)达到最小值时，当前的控制策略达到最优；当J(θ^μ)非最小值时，依据策略梯度更新策略，重新选择K_P、K_I、K_D参数，实施控制；循环网络更新流程，即首先更新Online评价网络，再进行Online动作网络的更新，最后利用更新的Online评价网络和Online动作网络的参数θ^Q和θ^μ对Target评价网络和Target动作网络的网络参数θ^Q′和θ^μ′进行更新，使得不同状态下对应的控制策略的总回报J(θ^μ)达到最小值时，此时PID参数K_P、K_I、K_D最优，PID的控制量逼近期望值。

在所述步骤(3)中，采用如下公式计算控制量：

其中K_P，K_I，K_D分别表示比例、微分和积分参数；输入量e(t)为动力电池当前温度与期望温度的差值，控制量u(t)为电子水泵的转速。

由上述技术方案可知，本发明的优点在于：第一，本发明将深度强化学***稳，避免电子水泵频繁启停，延长电子水泵使用寿命，同时尽力避免高转速的情况发生，减小能量损耗。

附图说明

图1本发明的控制方法流程图；

图2管道水头损失特性曲线；

图3评价网络结构图；

图4动作网络结构图；

图5DDPG算法更新流程图。

具体实施方式

如图1所示，一种基于强化学习的纯电动汽车动力电池冷却***控制方法，该方法包括下列顺序的步骤：

(4)电子水泵工作改变动力电池冷却***中冷却液的流量，达到动力电池降温的目的，同时将动力电池信息传递给环境感知模块，返回步骤(1)。通过得到的PID控制量输入相应的PWM波，控制电子水泵工作，使动力电池冷却***中冷却液循环流动，给动力电池降温；同时电池管理***(BMS)采集动力电池的当前电流、温度信息，温度传感器采集空气温度信息。

如图1所示，控制算法模块就是控制电子水泵转速的控制算法即DDPG算法，根据不同的环境状态即动力电池温度、电流、环境温度等，得出一组最佳PID控制参数即K_P，K_I，K_D。环境感知模块即电池管理***、空气温度传感器等，用来采集环境状态信息即动力电池温度、电流、环境温度等，传递给控制算法模块。

在水力学中，水流经过管道时，一定存在管道水头损失，其值为：

∑h＝KQ²

式中：K——代表长度、直径已定的管道的沿程摩阻和局部阻力之和的系数。

如图2所示，纵坐标h_A表示水泵输出流量为Q_A时管道中每单位重量液体所需消耗的能量值，可以看到管道***中，通过的流量增大时，每单位重量液体在整个管道中消耗的能量以平方倍增大。换句话说，当热管理***所需的冷却液相同时，电子水泵以短时间高转速的方式工作比以长时间低转速的方式工作消耗的能量大。本发明采用DDPG算法作为该动力电池冷却***控制算法，用以解决连续的动作空间中的问题。将电子水泵的加速度作为考量因素，在保证动力电池温度要求的同时，使电子水泵的转速趋于平稳，避免电子水泵频繁启停，延长电子水泵使用寿命；同时尽力避免高转速的情况发生，减小能量损耗。

所述步骤(2)中构建DDPG算法模型具体是指：

确定DDPG算法状态空间、动作空间和回报函数；

式中：γ为折扣因子；r_i为单次动作的回报；

为数学期望。

构建评价网络和动作网络，其中评价网络进行Q函数计算得到Q值：Q(s,a|θ^Q)，输入为状态s、动作a，输出为Q函数Q(s,a|θ^Q)，包含3个隐藏层，都是FC全连接网络层，如图3所示；；动作网络进行状态s到动作的映射得到a＝μ(s|θ^μ)，输入为状态s，输出为动作a，包含1个隐藏层，采用FC全连接网络层，如图4所示；

初始化完成后，开始进行迭代求解：

更新Online评价网络，如图5中①所示：

定义Online评价网络Loss函数：

求出Loss函数关于θ^Q的梯度：

通过最小化Loss函数来更新Online评价网络；

更新Online评价网络结束后，再进行Online动作网络的更新，如图5中②所示：

计算J(θ^μ)的梯度：

依据梯度下降的原则对Online动作网络进行更新；

最后利用更新的Online评价网络和Online动作网络的参数θ^Q和θ^μ对Target评价网络和Target动作网络的网络参数θ^Q′和θ^μ′进行更新，如图5中③所示：

计算当前PID控制参数K_P、K_I、K_D下的总回报，当J(θ^μ)达到最小值时，当前的控制策略达到最优；当J(θ^μ)非最小值时，依据策略梯度更新策略，重新选择K_P、K_I、K_D参数，实施控制；循环网络更新流程，即首先更新Online评价网络，再进行Online动作网络的更新，最后利用更新的Online评价网络和Online动作网络的参数θ^Q和θ^μ对Target评价网络和Target动作网络的网络参数θ^Q′和θ^μ′进行更新，使得不同状态下对应的控制策略的总回报J(θ^μ)达到最小值时，此时PID参数K_P、K_I、K_D最优，PID的控制量逼近期望值。期望值是指能够保证动力电池维持在26℃，且转速趋向稳定的电子水泵的转速。所述J(θ^μ)最小值是计算机通过梯度求解的。

在所述步骤(3)中，采用如下公式计算控制量：

综上所述，本发明将深度强化学习引入PID控制算法中，深度强化学习能较好的跟环境交互，具有自学习功能，适应不确定***的动态特性，因此能适应纯电动汽车运行环境复杂多变的特性，在不同的实际场景下实现在线控制。