CN116526617A - 一种基于强化学习的锂电池充电控制方法及装置 - Google Patents

一种基于强化学习的锂电池充电控制方法及装置 Download PDF

Info

Publication number
CN116526617A
CN116526617A CN202310464532.XA CN202310464532A CN116526617A CN 116526617 A CN116526617 A CN 116526617A CN 202310464532 A CN202310464532 A CN 202310464532A CN 116526617 A CN116526617 A CN 116526617A
Authority
CN
China
Prior art keywords
current
value
parameter
lithium battery
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310464532.XA
Other languages
English (en)
Other versions
CN116526617B (zh
Inventor
王锐
周明宗
李建军
莫军
王亚波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unicmicro Guangzhou Co ltd
Original Assignee
Unicmicro Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unicmicro Guangzhou Co ltd filed Critical Unicmicro Guangzhou Co ltd
Priority to CN202310464532.XA priority Critical patent/CN116526617B/zh
Publication of CN116526617A publication Critical patent/CN116526617A/zh
Application granted granted Critical
Publication of CN116526617B publication Critical patent/CN116526617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/007Regulation of charging or discharging current or voltage
    • H02J7/00712Regulation of charging or discharging current or voltage the cycle being controlled or terminated in response to electric parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01MPROCESSES OR MEANS, e.g. BATTERIES, FOR THE DIRECT CONVERSION OF CHEMICAL ENERGY INTO ELECTRICAL ENERGY
    • H01M10/00Secondary cells; Manufacture thereof
    • H01M10/42Methods or arrangements for servicing or maintenance of secondary cells or secondary half-cells
    • H01M10/44Methods for charging or discharging
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/0029Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries with safety or protection devices or circuits
    • H02J7/00304Overcurrent protection
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/0029Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries with safety or protection devices or circuits
    • H02J7/00308Overvoltage protection
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/007Regulation of charging or discharging current or voltage
    • H02J7/00712Regulation of charging or discharging current or voltage the cycle being controlled or terminated in response to electric parameters
    • H02J7/007182Regulation of charging or discharging current or voltage the cycle being controlled or terminated in response to electric parameters in response to battery voltage

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Electrochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Secondary Cells (AREA)

Abstract

本申请属于锂离子电池技术领域,公开了一种基于强化学习的锂电池充电控制方法及装置,该方法包括:步骤S1,获取锂电池的实时电流值和实时电压值;步骤S2,将实时电流值和实时电压值输入到训练好的强化学习神经网络中,得到锂电池对应的脉冲宽度调节量;步骤S3,根据脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,以实现对锂电池的充电控制。本申请能够降低计算脉冲宽度调节量的时间,计算出提高充电工作效率的脉冲宽度调节量,并且避免了输出的脉冲宽度调节量导致充电的电流过流或电压过压,使得锂电池保持在最小功耗,避免了锂电池使用寿命的减少。

Description

一种基于强化学习的锂电池充电控制方法及装置
技术领域
本申请涉及锂离子电池技术领域,尤其涉及一种基于强化学习的锂电池充电控制方法及装置。
背景技术
锂离子电池最适合的充电过程可以分为四个阶段:涓流充电、恒流充电、恒压充电以及充电终止;而控制充电过程的是由脉冲宽度调制波输出控制的锂电池充电电路中的场效应管,即MOS管:MOS管根据接收到的脉冲宽度调制波对充电电路的VDD端的输入进行斩波,获得适合电压后施加在锂电池两端,使得锂电池有电流通过。而现有技术中,通常采用PID算法(Proportional、比例;Integral、积分;Differential、微分)对输入给MOS管的脉冲宽度调制波进行调节,从而控制锂电池的充电过程,PID算法的输入为比例P、微分D、积分I三个变量值,利用公式out=KP*P+KI*I+KD*D计算输出量,一般情况下其中的参数KP、KI、KD都需要经过多次工程实践后由人为设定,不仅耗用时间长,且人为设定的参数一般只能接近最佳参数,导致算法输出结果无法达到最佳。
因此,现有技术中计算脉冲宽度调制波的调节量的方法存在计算时间长,因计算过程中所用参数由人为设定导致计算的调节量不够准确,产生电流过流或电压过压导致锂电池功耗增大、使用寿命减少的问题。
发明内容
本申请提供了一种基于强化学习的锂电池充电控制方法及装置,能够降低计算脉冲宽度调节量的时间,计算出使充电达到最佳工作效率的脉冲宽度调节量。且避免了输出脉冲宽度调节量的不合适导致充电电流过流或电压过压,使锂电池保持在最小功耗,避免了使用寿命的减少。
第一方面,本申请实施例提供了一种基于强化学习的锂电池充电控制方法,该方法包括:
步骤S1,获取锂电池的实时电流值和实时电压值;
步骤S2,将实时电流值和实时电压值输入到训练好的强化学习神经网络中,得到锂电池对应的脉冲宽度调节量;
步骤S3,根据脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,以实现对锂电池的充电控制。
进一步的,该方法还包括:
步骤S11,构建预训练神经网络;
步骤S12,获取预训练神经网络的当前网络参数,根据锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数;
步骤S13,根据当前状态参数、预设当前动作量和当前网络参数得到当前训练值;
步骤S14,将锂电池的下一时刻电流值和下一时刻电压值作为下一时刻状态参数;根据当前网络参数、下一时刻状态参数和预设下一时刻动作量得到下一时刻预测值;
步骤S15,根据当前奖励参数、当前训练值和下一时刻预测值计算收益误差和神经网络梯度;根据神经网络梯度、收益误差和预设学习率更新当前网络参数;
步骤S16,根据预设次数循环执行步骤S12-S15,得到训练好的强化学习神经网络。
进一步的,上述根据锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数,包括:
将当前时刻电流值和当前时刻电压值作为当前状态参数;
计算目标电流值和当前时刻电流值的差值与第一参数的乘积,得到电流奖励参数;
计算目标电压值和当前时刻电压值的差值与第二参数的乘积,得到电压奖励参数;
将电流奖励参数和电压奖励参数相加,得到当前奖励参数。
进一步的,上述根据当前奖励参数、当前训练值和下一时刻预测值计算收益误差和神经网络梯度,包括:
将当前奖励参数、预设自定义变量和下一时刻预测值相加,得到收益值;
将当前训练值减去收益值,得到收益误差;
根据所述收益误差和所述当前训练值计算得到神经网络梯度。
进一步的,上述根据神经网络梯度、收益误差和预设学习率更新当前网络参数,包括:
计算预设学习率、收益误差和神经网络梯度的乘积,令当前网络参数减去乘积得到更新网络参数,将更新网络参数作为当前网络参数。
进一步的,预设学习率大于等于0.01且小于等于0.1,第一参数为0.5,第二参数为0.2。
第二方面,本申请实施例提供了一种基于强化学习的锂电池充电控制装置,该装置包括:
实时值获取模块,用于获取锂电池的实时电流值和实时电压值;
调节量计算模块,用于将实时电流值和实时电压值输入到训练好的强化学习神经网络中,得到锂电池对应的脉冲宽度调节量;
充电控制模块,用于根据脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,以实现对锂电池的充电控制。
进一步的,该装置还包括:
神经网络构建模块,用于构建预训练神经网络;
当前参数确定模块,用于获取预训练神经网络的当前网络参数,根据锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数;
当前训练值获取模块,用于根据当前状态参数、预设当前动作量和当前网络参数得到当前训练值;
下一时刻预测值获取模块,用于将锂电池的下一时刻电流值和下一时刻电压值作为下一时刻状态参数;以及根据当前网络参数、下一时刻状态参数和预设下一时刻动作量得到下一时刻预测值;
网络参数更新模块,用于根据当前奖励参数、当前训练值和下一时刻预测值计算收益误差和神经网络梯度;以及根据神经网络梯度、收益误差和预设学习率更新当前网络参数;
训练模块,用于根据预设次数循环执行当前参数确定模块、当前训练值获取模块、下一时刻预测值获取模块和网络参数更新模块,得到训练好的强化学习神经网络。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时执行如上述任一实施例的一种基于强化学习的锂电池充电控制方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例的一种基于强化学习的锂电池充电控制方法的步骤。
综上,与现有技术相比,本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的一种基于强化学习的锂电池充电控制方法,由训练好的强化学习神经网络根据锂电池的实时电流值和实时电压值计算得出脉冲宽度调节量,根据得出的脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,从而实现了对所述锂电池的充电控制,不仅计算脉冲宽度调节量的时间短,且该算法中强化学习神经网络的矩阵参数是在训练过程中得到的,无需人为设定,能够直接计算出使充电达到最佳工作效率的脉冲宽度调节量。并且本申请以实时电流值和实时电压值作为训练好的强化学习神经网络的输入,避免了输出的脉冲宽度调节量导致充电的电流过流或电压过压,使得锂电池保持在最小功耗,避免了使用寿命的减少。
附图说明
图1为本申请一实施例提供的一种基于强化学习的锂电池充电控制方法的流程图。
图2为本申请一实施例提供的神经网络训练步骤的流程图。
图3为本申请一实施例提供的神经网络梯度计算步骤的流程图。
图4为本申请一实施例提供的一种基于强化学习的锂电池充电控制装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,本申请实施例提供了一种基于强化学习的锂电池充电控制方法,该方法包括:
步骤S1,获取锂电池的实时电流值和实时电压值。
步骤S2,将实时电流值和实时电压值输入到训练好的强化学习神经网络中,得到锂电池对应的脉冲宽度调节量。
其中,强化学习神经网络为DQN(Deep Q-network,指基于深度学习的Q-Learing算法)神经网络,脉冲宽度调节量具体为对输入到充电电路中的PWM信号的占空比的调节。
步骤S3,根据脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,以实现对锂电池的充电控制。
具体地,因为采用的是已经训练好的强化学习神经网络,可以支持将数据输入后,立刻得到输出结果,因此本申请实时向训练好的强化学习神经网络中输入电流值和电压值,通过输出的调节量对PWM信号进行实时的调节,保证锂电池一直处在最佳充电效率的状态下。
本申请实施例提供的一种基于强化学习的锂电池充电控制方法,由训练好的强化学习神经网络根据锂电池的实时电流值和实时电压值计算得出脉冲宽度调节量,根据得出的脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,从而实现了对所述锂电池的充电控制,不仅计算脉冲宽度调节量的时间短,且该算法中强化学习神经网络的矩阵参数是在训练过程中得到的,无需人为设定,能够直接计算出使充电达到最佳工作效率的脉冲宽度调节量。并且本申请以实时电流值和实时电压值作为训练好的强化学习神经网络的输入,避免了输出的脉冲宽度调节量导致充电的电流过流或电压过压,使得锂电池保持在最小功耗,避免了使用寿命的减少。
请参见图2,在一些实施例中,该方法具体还可以包括:
步骤S11,构建预训练神经网络。
其中,预训练神经网络为初始化的DQN神经网络。
步骤S12,获取预训练神经网络的当前网络参数,根据锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数。
其中,当前状态参数可以记为DQN神经网络中的参数S,当前奖励参数记为R,当前网络参数可以记为w。
步骤S13,根据当前状态参数、预设当前动作量和当前网络参数得到当前训练值。
其中,预设当前动作量为PWM调节的动作,指增加PWM占空比、减小PWN占空比或维持占空比不变。将预设当前动作量记为参数A,则A可取值范围为{+1,-1,不变};预设当前动作量可以任意选择,也可以采用贪心算法策略提前设定。
具体地,是将所述当前状态参数和预设当前动作量输入在当前网络参数下的预训练神经网络,得到当前训练值,即当前训练值q=Q(S,A;w)。
步骤S14,将锂电池的下一时刻电流值和下一时刻电压值作为下一时刻状态参数;根据当前网络参数、下一时刻状态参数和预设下一时刻动作量得到下一时刻预测值。
具体地,下一时刻状态参数S’=I_next,U_next;下一时刻预测值q’=Q(S’,A’;w)。
步骤S15,根据当前奖励参数、当前训练值和下一时刻预测值计算收益误差和神经网络梯度;根据神经网络梯度、收益误差和预设学习率更新当前网络参数。
步骤S16,根据预设次数循环执行步骤S12-S15,得到训练好的强化学习神经网络。
其中,预设次数即训练次数,即预训练神经网络的参数更新的次数,由人为设定。
具体地,假设预设次数为50次,本申请可以在训练50次之后,获取测试电流样本和测试电压样本,将其输入训练了50次后的强化学习神经网络中,根据输出的脉冲宽度调节量调节输入至锂电池充电电路的PWM波,查看锂电池的充电效率,看是否达到了最佳值,若未达到,则将强化学习神经网络再次循环训练预设次数,直至测试结果满足最佳充电效率。
上述实施例通过构建预训练神经网络并进行对其训练,训练过程中的参数设置包括了当前时刻电流值、当前时刻电压值、目标电流值和目标电压值等,充分考虑了神经网络的输出结果要避免使电流过流或电压过压的情况,使得训练好的强化学习神经网络计算出的脉冲宽度调节量不会使锂电池的功耗增大,避免了锂电池使用寿命的减少;并且强化学习神经网络的参数是在一次次训练中,通过计算更新的,而非人为主观设定的,保证了最佳调节量的正确计算。
在一些实施例中,上述根据锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数,包括:
将当前时刻电流值和当前时刻电压值作为当前状态参数。
具体地,当前状态参数S=I_now,U_now。
计算目标电流值和当前时刻电流值的差值与第一参数的乘积,得到电流奖励参数。
计算目标电压值和当前时刻电压值的差值与第二参数的乘积,得到电压奖励参数。
将电流奖励参数和电压奖励参数相加,得到当前奖励参数。
具体地,假设第一参数为a,第二参数为b,目标电流值为I_target,目标电压值为U_target,则当前奖励参数R==a×(I_target-I_now)+b×(U_target-U_now)。
上述实施例设置的当前奖励参数,使得将当前奖励参数作为训练输入参数之一的预训练神经网络在训练时,能够考虑到电池过流或电池过压的情况,从而使训练好的强化学习神经网络输出的脉冲宽度调节量不会使锂电池充电时的功耗增大,避免降低锂电池的使用寿命。
请参见图3,在一些实施例中,上述根据当前奖励参数、当前训练值和下一时刻预测值计算收益误差和神经网络梯度,具体可以包括:
步骤S151,将当前奖励参数、预设自定义变量和下一时刻预测值相加,得到收益值。
其中收益值为DQN中的TD target,y(TD target)=R+γ*q’,γ为一个自定义变量。
步骤S152,将当前训练值减去收益值,得到收益误差。
具体地,收益误差=TD误差=q-y(TD target)。
步骤S153,根据收益误差和当前训练值计算得到神经网络梯度。
具体的,其中Q(w)=Q(S,A;w)=q。
在一实施例中,上述根据神经网络梯度、收益误差和预设学习率更新当前网络参数,包括:
计算预设学习率、收益误差和神经网络梯度的乘积,令当前网络参数减去乘积得到更新网络参数,将更新网络参数作为当前网络参数。
具体地,w’=w-α×TD误差×神经网络梯度,其中α为预设学习率;在完成该步骤后,令w=w’,然后再次重复训练步骤。
上述实施例通过采用梯度下降的方法来更新网络参数,目的是为了让q更接近TDtarget,在不断重复上述过程进行网络参数的更新后,得到训练好的强化学习神经网络。
在一些实施例中,预设学习率α大于等于0.01且小于等于0.1,第一参数a可以为0.5,第二参数b可以为0.2。
预设学习率改变的是预训练神经网络在训练时调整的步伐。
对于本实施例中上述步骤的说明,请参见上述各***实施例中对于当前奖励参数以及步骤S151-S153的说明内容,在此不再加以赘述。
请参见图4,本申请另一实施例提供了一种基于强化学习的锂电池充电控制装置,该装置具体可以包括:
实时值获取模块101,用于获取锂电池的实时电流值和实时电压值。
调节量计算模块102,用于将实时电流值和实时电压值输入到训练好的强化学习神经网络中,得到锂电池对应的脉冲宽度调节量。
充电控制模块103,用于根据脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,以实现对锂电池的充电控制。
上述实施例提供的一种基于强化学习的锂电池充电控制装置,由训练好的强化学习神经网络根据锂电池的实时电流值和实时电压值计算得出脉冲宽度调节量,根据得出的脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,从而实现了对所述锂电池的充电控制,不仅计算脉冲宽度调节量的时间短,且该算法中强化学习神经网络的矩阵参数是在训练过程中得到的,无需人为设定,能够直接计算出使充电达到最佳工作效率的脉冲宽度调节量。并且本申请以实时电流值和实时电压值作为训练好的强化学习神经网络的输入,避免了输出的脉冲宽度调节量导致充电的电流过流或电压过压,使得锂电池保持在最小功耗,避免了使用寿命的减少。
在一些实施例中,该装置具体还可以包括:
神经网络构建模块,用于构建预训练神经网络。
当前参数确定模块,用于获取预训练神经网络的当前网络参数,根据锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数。
当前训练值获取模块,用于根据当前状态参数、预设当前动作量和当前网络参数得到当前训练值。
下一时刻预测值获取模块,用于将锂电池的下一时刻电流值和下一时刻电压值作为下一时刻状态参数;以及根据当前网络参数、下一时刻状态参数和预设下一时刻动作量得到下一时刻预测值。
网络参数更新模块,用于根据当前奖励参数、当前训练值和下一时刻预测值计算收益误差和神经网络梯度;以及根据神经网络梯度、收益误差和预设学习率更新当前网络参数。
训练模块,用于根据预设次数循环执行当前参数确定模块、当前训练值获取模块、下一时刻预测值获取模块和网络参数更新模块,得到训练好的强化学习神经网络。
上述实施例通过构建预训练神经网络并进行对其训练,训练过程中的参数设置包括了当前时刻电流值、当前时刻电压值、目标电流值和目标电压值等,充分考虑了神经网络的输出结果要避免使电流过流或电压过压的情况,使得训练好的强化学习神经网络计算出的脉冲宽度调节量不会使锂电池的功耗增大,避免了锂电池使用寿命的减少;并且强化学习神经网络的参数是在一次次训练中,通过计算更新的,而非人为主观设定的,保证了最佳调节量的正确计算。
本实施例中提供的关于一种基于强化学习的锂电池充电控制装置的具体限定,可以参见上文中关于一种基于强化学习的锂电池充电控制方法的实施例,于此不再赘述。上述一种基于强化学习的锂电池充电控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本申请实施例提供了一种计算机设备,该计算机设备可以包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。处计算机程序被处理器执行时,使得处理器执行如上述任一实施例的一种基于强化学习的锂电池充电控制方法的步骤。
本实施例提供的计算机设备的工作过程、工作细节和技术效果,可以参见上文中关于一种基于强化学习的锂电池充电控制方法的实施例,于此不再赘述。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例的一种基于强化学习的锂电池充电控制方法的步骤。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例提供的计算机可读存储介质的工作过程、工作细节和技术效果,可以参见上文中关于一种基于强化学习的锂电池充电控制方法的实施例,于此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于强化学习的锂电池充电控制方法,其特征在于,所述方法包括:
步骤S1,获取锂电池的实时电流值和实时电压值;
步骤S2,将所述实时电流值和所述实时电压值输入到训练好的强化学习神经网络中,得到所述锂电池对应的脉冲宽度调节量;
步骤S3,根据所述脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,以实现对所述锂电池的充电控制。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
步骤S11,构建预训练神经网络;
步骤S12,获取所述预训练神经网络的当前网络参数,根据所述锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数;
步骤S13,根据所述当前状态参数、预设当前动作量和所述当前网络参数得到当前训练值;
步骤S14,将所述锂电池的下一时刻电流值和下一时刻电压值作为下一时刻状态参数;根据所述当前网络参数、所述下一时刻状态参数和预设下一时刻动作量得到下一时刻预测值;
步骤S15,根据所述当前奖励参数、所述当前训练值和所述下一时刻预测值计算收益误差和神经网络梯度;根据所述神经网络梯度、所述收益误差和预设学习率更新所述当前网络参数;
步骤S16,根据预设次数循环执行步骤S12-S15,得到所述训练好的强化学习神经网络。
3.根据权利要求2所述的方法,其特征在于,所述根据所述锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数,包括:
将所述当前时刻电流值和所述当前时刻电压值作为所述当前状态参数;
计算所述目标电流值和所述当前时刻电流值的差值与第一参数的乘积,得到电流奖励参数;
计算所述目标电压值和所述当前时刻电压值的差值与第二参数的乘积,得到电压奖励参数;
将所述电流奖励参数和所述电压奖励参数相加,得到所述当前奖励参数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述当前奖励参数、所述当前训练值和所述下一时刻预测值计算收益误差和神经网络梯度,包括:
将所述当前奖励参数、预设自定义变量和所述下一时刻预测值相加,得到收益值;
将所述当前训练值减去所述收益值,得到所述收益误差;
根据所述收益误差和所述当前训练值计算得到所述神经网络梯度。
5.根据权利要求2所述的方法,其特征在于,所述根据所述神经网络梯度、所述收益误差和预设学习率更新所述当前网络参数,包括:
计算所述预设学习率、所述收益误差和所述神经网络梯度的乘积,令所述当前网络参数减去所述乘积得到更新网络参数,将所述更新网络参数作为所述当前网络参数。
6.根据权利要求3所述的方法,其特征在于,所述预设学习率大于等于0.01且小于等于0.1,所述第一参数为0.5,所述第二参数为0.2。
7.一种基于强化学习的锂电池充电控制装置,其特征在于,所述装置包括:
实时值获取模块,用于获取锂电池的实时电流值和实时电压值;
调节量计算模块,用于将所述实时电流值和所述实时电压值输入到训练好的强化学习神经网络中,得到所述锂电池对应的脉冲宽度调节量;
充电控制模块,用于根据所述脉冲宽度调节量对输入到锂电池充电电路的场效应管中的脉冲宽度调制波进行调节,以实现对所述锂电池的充电控制。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
神经网络构建模块,用于构建预训练神经网络;
当前参数确定模块,用于获取所述预训练神经网络的当前网络参数,根据所述锂电池的当前时刻电流值、当前时刻电压值、目标电流值和目标电压值确定当前状态参数和当前奖励参数;
当前训练值获取模块,用于根据所述当前状态参数、预设当前动作量和所述当前网络参数得到当前训练值;
下一时刻预测值获取模块,用于将所述锂电池的下一时刻电流值和下一时刻电压值作为下一时刻状态参数;以及根据所述当前网络参数、所述下一时刻状态参数和预设下一时刻动作量得到下一时刻预测值;
网络参数更新模块,用于根据所述当前奖励参数、所述当前训练值和所述下一时刻预测值计算收益误差和神经网络梯度;以及根据所述神经网络梯度、所述收益误差和预设学习率更新所述当前网络参数;
训练模块,用于根据预设次数循环执行所述当前参数确定模块、所述当前训练值获取模块、所述下一时刻预测值获取模块和所述网络参数更新模块,得到所述训练好的强化学习神经网络。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
CN202310464532.XA 2023-04-26 2023-04-26 一种基于强化学习的锂电池充电控制方法及装置 Active CN116526617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310464532.XA CN116526617B (zh) 2023-04-26 2023-04-26 一种基于强化学习的锂电池充电控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310464532.XA CN116526617B (zh) 2023-04-26 2023-04-26 一种基于强化学习的锂电池充电控制方法及装置

Publications (2)

Publication Number Publication Date
CN116526617A true CN116526617A (zh) 2023-08-01
CN116526617B CN116526617B (zh) 2024-02-02

Family

ID=87389704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310464532.XA Active CN116526617B (zh) 2023-04-26 2023-04-26 一种基于强化学习的锂电池充电控制方法及装置

Country Status (1)

Country Link
CN (1) CN116526617B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117130419A (zh) * 2023-08-30 2023-11-28 南京普联微电子科技有限公司 一种基于lstm的mos管压差智能调节方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017192278A (ja) * 2016-04-17 2017-10-19 新電元工業株式会社 電力変換装置の制御方法
CN112018465A (zh) * 2020-10-13 2020-12-01 北京理工大学 一种多物理场约束的锂离子电池智能快速充电方法
KR20220099415A (ko) * 2021-01-06 2022-07-13 연세대학교 산학협력단 인공 신경망 기반 배터리 고속 충전 효율 향상 장치 및 방법
CN115632179A (zh) * 2022-12-20 2023-01-20 国网天津市电力公司电力科学研究院 一种锂离子电池智能快速充电方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017192278A (ja) * 2016-04-17 2017-10-19 新電元工業株式会社 電力変換装置の制御方法
CN112018465A (zh) * 2020-10-13 2020-12-01 北京理工大学 一种多物理场约束的锂离子电池智能快速充电方法
KR20220099415A (ko) * 2021-01-06 2022-07-13 연세대학교 산학협력단 인공 신경망 기반 배터리 고속 충전 효율 향상 장치 및 방법
CN115632179A (zh) * 2022-12-20 2023-01-20 国网天津市电力公司电力科学研究院 一种锂离子电池智能快速充电方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAEHONG PARK 等: "A Deep Reinforcement Learning Framework for Fast Charging of Li-Ion Batteries", IEEE TRANSACTIONS ON TRANSPORTATION ELECTRIFICATION, vol. 8, no. 2, pages 2770 - 2784, XP011906441, DOI: 10.1109/TTE.2022.3140316 *
XUEYUAN HAN 等: "Deep Reinforcement Learning Based Fast Charging of Lithium-Ion Batteries with Different Penalty Coefficients", 2022 INTERNATIONAL CONFERENCE ON CYBER-PHYSICAL SOCIAL INTELLIGENCE (ICCSI), pages 250 - 255 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117130419A (zh) * 2023-08-30 2023-11-28 南京普联微电子科技有限公司 一种基于lstm的mos管压差智能调节方法及***
CN117130419B (zh) * 2023-08-30 2024-03-12 南京普联微电子科技有限公司 一种基于lstm的mos管压差智能调节方法及***

Also Published As

Publication number Publication date
CN116526617B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN116526617B (zh) 一种基于强化学习的锂电池充电控制方法及装置
US11326579B2 (en) Adaptive dynamic planning control method and system for energy storage station, and storage medium
CN113037531A (zh) 流量预测方法、装置以及存储介质
CN112183750A (zh) 神经网络模型训练方法、装置、计算机设备及存储介质
CN112948644A (zh) 阀门开度控制方法、装置、计算机设备和存储介质
CN108958037B (zh) 小波模糊大脑情感学习控制方法、装置、设备及存储介质
CN117334969B (zh) 燃料电池工作参数控制方法、用电设备和电子设备
Manrique et al. MPC tracking under time-varying polytopic constraints for real-time applications
Spoljarić et al. Optimization of PID controller in AVR system by using ant lion optimizer algorithm
CN112016702A (zh) 基于迁移学习的医疗数据处理方法、装置、设备及介质
Hu et al. Near-optimality bounds for greedy periodic policies with application to grid-level storage
CN108631368B (zh) 计及储能运行损耗下风储***联合调度的储能配置方法
CN115663833A (zh) 应用于源网荷储一体化的源荷资源调控方法和装置
CN113270882B (zh) 通过储能装置降低配电网网损的方法、装置、设备和介质
WO2024077752A1 (zh) 一种混合储能***充放电状态实时优化控制方法
CN113972655A (zh) 一种源网荷储协同优化控制方法及装置
CN112329995B (zh) 分布式储能集群的优化调度方法、装置和计算机设备
CN117686917A (zh) 一种基于神经网络的电量计算方法及装置
CN117937416A (zh) 配电网可开放容量估算方法及装置
CN110843549B (zh) 电机扭矩的预测方法、装置、电机控制器和存储介质
CN117932337A (zh) 一种基于嵌入式平台训练神经网络的方法及装置
CN116073419A (zh) 一种储能设备充放电状态调整方法、装置和电子设备
CN115276099B (zh) 基于人工智能技术的风电场储能***灵活控制方法和装置
CN115459299B (zh) 低压配电无功调节方法、装置、计算机设备和存储介质
Deossa et al. Integration of economic MPC, energy load and price estimation with Holt Winters models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant