CN115333143A - 基于双神经网络的深度学习多智能体微电网协同控制方法 - Google Patents

基于双神经网络的深度学习多智能体微电网协同控制方法 Download PDF

Info

Publication number
CN115333143A
CN115333143A CN202210797934.7A CN202210797934A CN115333143A CN 115333143 A CN115333143 A CN 115333143A CN 202210797934 A CN202210797934 A CN 202210797934A CN 115333143 A CN115333143 A CN 115333143A
Authority
CN
China
Prior art keywords
agent
value
reinforcement learning
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210797934.7A
Other languages
English (en)
Other versions
CN115333143B (zh
Inventor
马兴明
郎宇宁
杨东海
王佳兴
毛新宇
周义民
张冬
孟庆宇
徐凤霞
仝书林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daqing Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd
State Grid Corp of China SGCC
Qiqihar University
Original Assignee
Daqing Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd
State Grid Corp of China SGCC
Qiqihar University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daqing Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd, State Grid Corp of China SGCC, Qiqihar University filed Critical Daqing Power Supply Co Of State Grid Heilongjiang Electric Power Co ltd
Priority to CN202210797934.7A priority Critical patent/CN115333143B/zh
Publication of CN115333143A publication Critical patent/CN115333143A/zh
Application granted granted Critical
Publication of CN115333143B publication Critical patent/CN115333143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/16Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by adjustment of reactive power
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/24Arrangements for preventing or reducing oscillations of power in networks
    • H02J3/241The oscillation concerning frequency
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种基于双神经网络的深度学习多智能体协同控制方法,包括如下步骤:建立微电网的电压与频率控制模型;设计基于多智能体的深度强化学习框架:构建多智能体的强化学习的环境动作空间与状态空间以及奖励函数的马尔可夫决策过程;设计双神经网络的深度强化学习算法的流程,采用神经网络对定义的强化学习环境进行多次训练以达到奖励值的收敛,训练最优Q值;基于强化学习训练出的Q值,实现分布式电源的频率偏差调节,解决强化学习算法的高估问题以优化多智能体***的稳定性。微电网***进行对各分布式电源的相关操作,完成最优能量管理优化策略选择,实现微电网的协同控制。

Description

基于双神经网络的深度学习多智能体微电网协同控制方法
技术领域
本发明涉及微电网频率控制技术领域,具体说是一种基于双神经网络的深度学习多智能体微电网协同控制方法。
背景技术
随着我国的经济快速发展,能源的消耗也逐年递增。而随着化石能源等非可再生能源的过度开采以及传统发电过程对环境的影响日益严重,我国为响应世界号召,大力发展风能、光能、生物能等可再生能源,不仅为环保作出重要贡献也为新型能源提供发展新方式。
目前,在微电网***中,为了克服传统控制方法的缺陷,引入分布式控制,该策略是基于多智能体***框架实现的,基于分布式发电的多智能体微电网依靠其独特的灵活性,周期短能源利用率高等优点得以广泛应用。如何通过微电网的形式并网运行或者单独运行以带来极高的经济收益,减小发电成本减少能量远距离传输的损耗是目前急需要解决的问题。
发明内容
(一)要解决的技术问题
本发明提供了一种基于双神经网络的深度学习多智能体微电网协同控制方法,以克服现有技术存在的发电成本高,能量损耗大等缺陷。
(二)技术方案
为解决上述问题,本发明提供一种基于双神经网络的深度学习多智能体微电网协同控制方法,包括如下步骤:
步骤S1、建立微电网的电压与频率控制模型;
步骤S2、通过采用深度强化学习框架下的微电网模型进行训练,寻找最优的Q值网络,包括具体步骤:
步骤S21、构建强化学习的环境状态空间:强化学习的环境为微电网***,环境与智能体进行反馈奖励,以及微电网多智能体***控制器的频率偏差状态构成状态空间的可控部分、每次调度的时间信息Δt构成状态空间的时间部分;
步骤S22、构建强化学习的环境动作空间:每次调度智能体频率偏差进行控制;
步骤S23、定义奖励函数:用来引导智能体实现预定微电网优化目标,;
步骤S24、设置储能***后备控制器,使得可调度智能体与储能***的智能体产生的动作不超出***的功率范围;
步骤S3、建立双神经网络深度强化学习算法流程:采用神经网络对步骤S2中定义的强化学习环境进行多次训练以达到奖励值的收敛;
采用神经网络Q(s,a;ω)作为函数逼近器来对Q(s,a)函数进行估计;根据状态和动作的输入经过神经网络分析后得到动作的Q值,并选择最大Q值作为下一步的动作;
深度神经网络的权重ω表示***状态到Q值的映射,定义损失函数Li(ω)来更新神经网络权重ω与对应的Q值:
Lit)=Es[(yt-Q(s,a;ωt))2] 式(4)
其中yt表示为目标函数:
Figure BDA0003736409450000021
通过对损失函数求梯度并执行随机梯度下降,来更新智能体的权重:
Figure BDA0003736409450000022
构建估计网络与目标网络,两个网络结构相同但是参数不同,估计网络值小于目标网络,采用估计网络不断学习迭代来更新网络参数,目标网络一段时间T采用估计网络更新的参数来更新自身的参数,这两个参数一个用来选择动作,一个用来评估当前状态的值,其中,这两个参数分别记为ωt与ωt -
Figure BDA0003736409450000023
Figure BDA0003736409450000031
微电网***中多智能体按照一定概率随机选择动作与环境进行更好的探索反馈,寻找特定状态下使奖励最大化的动作,随着训练次数的不断增加直至完全采用使Q值最大的动作,并最终收敛到最优策略;
步骤S4、基于强化学习训练出的Q值,实现分布式电源的频率偏差调节。
优选的,所述交流微电网以同步发电机控制理论为基础,采用下垂控制方法对微电网的有功功率和无功功率进行调节;
其中:下垂控制的有功功率方法包括:
f=f0-kp(P-P*) 式(1)
式中:f0为额定频率,p*为额定有功功率,kp为下垂系数。
优选的,步骤S24具体包括:
通过马尔可夫决策原理,利用Q表格来存储***状态和动作对应的值函数Q(s,a),即***在某个状态在t时刻st下采取动作at将得到的累计回报Rt可以表示为预期回报,γ表示为折扣因子:
Q(s,a)=E[Rt|st=s,at=a]=E[rt+γQ(st+1,at+1)+γ2(st+2,at+2)+...] 式(2)
在此训练过程中,Q值训练模组以储能装置元组(st,at,rt,st+1)为样本进行训练,st为当前状态,at为当前的动作,rt为执行动作后的即时奖励,st+1为下一个状态,t为时刻,Q函数递推更新策略为:
Figure BDA0003736409450000032
式中α为学习率,γ为折扣因子。
优选的,所述步骤S4包括:
所述采用深度强化学习算法对步骤S2与步骤S3的控制策略微电网的模型进行多次训练,利用深度强化学习算法训练出Q值以优化多智能体***的稳定性;
根据步骤S2的智能体根据自身状态按照一定概率随机选择动作以探索环境,根据自身状态选取奖励最大化的动作,随着训练次数的增加,降低探索概率选择Q值最大的动作,以达到最优收敛策略;
根据步骤S3所述的深度强化学习算法采用优先经验回放的方式存储数据(st,at,rt,st+1)并记录其特征向量,在训练初期智能体随机采取动作以产生足够多的训练数据存储到经验池,记忆单元填满后随机选取数据进行神经网络的参数更新,并在策略训练过程中不断获取新的数据更新相关性较差的数据。
(三)有益效果
本发明提供的基于双神经网络的深度学习多智能体微电网协同控制方法,基于多智能体的微电网***的能量调度面对可再生能源的灵活接入,以及微电网群的能量交换问题时,为保证微电网***的稳定性以及电力调度的成本。
附图说明
图1为本发明实施例基于双神经网络的深度学习多智能体微电网协同控制方法流程图;
图2为微电网与主电网的***模型;
图3为强化学习算法流程图;
图4为强化学习算法奖赏值对比。
具体实施方式
下面结合附图及实施例对本发明进行详细说明如下。
如图1-4所示,本发明提供一种基于双神经网络的深度学习多智能体微电网协同控制方法,包括如下步骤:
步骤S1、建立微电网的电压与频率控制模型;本步骤中,所述的微电网频率控制的方法,是交流微电网以同步发电机控制理论为基础,常常采用下垂控制方法对微电网的有功功率和无功功率进行调节。
一般微电网的分布式电源对应多智能***的各个智能体,通过多层级的能量管理模式,提高可再生能源的消纳能力,提高***的运行效率。
分布式电源的下垂控制有功功率控制方法如下:
f=f0-kp(P-P*) 式(1)
式中:f0为额定频率,p*为额定有功功率,kp为下垂系数;
步骤S2、设计基于多智能体的强化学习框架;
所述的控制策略是通过采用深度强化学习框架下的微电网模型进行训练,寻找最优的Q值网络,包括如下子步骤:
步骤S21、构建强化学习的环境状态空间:强化学习的环境为微电网***,环境与智能体进行反馈奖励,以及微电网多智能体***控制器的频率偏差状态构成状态空间的可控部分、每次调度的时间信息Δt构成状态空间的时间部分;
步骤S22、构建多智能体的强化学习的动作空间:每次调度智能体频率偏差进行控制;
步骤S23、定义奖励函数:用来引导智能体实现预定微电网优化目标;
步骤S24、设置储能***后备控制器:以保证可调度智能体与储能***产生的动作不会超出***的功率范围;
微电网的频率控制目标是通过实施优化分布式电源的频率偏差,将频率偏差离散化,即{Δf1,Δf2,Δf3,...Δfn}对应的环境状态为{s1,s2,s3...sn};
环境状态区间的值会影响控制器的收敛速度与精度,电力***的频率调节范围为50±0.1hz,状态S可以设计为:
Figure BDA0003736409450000051
基于S中的频率分布设置奖励函数为:
Figure BDA0003736409450000052
式中μ1~μ4为奖励因子;
一个智能体做出动作a,对环境造成影响,从而改变状态s,此时环境反馈给智能体一个奖励r,不断如此循环称为马尔可夫决策过程,利用Q表格来存储***状态和动作对应的值函数Q(s,a),即***在某个状态在t时刻st下采取动作at将得到的累计回报Rt,可以表示为预期回报:
Q(s,a)=E[Rt|st=s,at=a]=E[rt+γQ(st+1,at+1)+γ2(st+2,at+2)+...] 式(4)
在此训练过程中,Q值训练模组以储能装置元组(st,at,rt,st+1)为样本进行训练,st为当前状态,at为当前的动作,rt为执行动作后的即时奖励,st+1为下一个状态,t为时刻,Q函数递推更新策略为:
Figure BDA0003736409450000061
式中α为学习率,γ为折扣因子。
步骤S3、设计双神经网络double DQN深度强化学习算法流程:采用神经网络对步骤S2定义的强化学习环境进行多次训练以达到奖励值的收敛;
在一般的强化学习算法中的Q函数的状态、动作具有高维复杂问题,为了解决这个问题可以引入神经网络Q(s,a;ω)作为函数逼近器来对Q(s,a)函数进行估计;根据状态和动作的输入经过神经网络分析后得到动作的Q值,并选择最大Q值作为下一步的动作;
深度神经网络的权重ω表示***状态到Q值的映射,因此需要定义一个损失函数Li(ω)来更新神经网络权重ω与对应的Q值:
Lit)=Es[(yt-Q(s,a;ωt))2]
式(6)
其中yt表示为目标函数:
Figure BDA0003736409450000062
通过对损失函数求梯度并执行随机梯度下降,以此更新智能体的权重:
Figure BDA0003736409450000063
为所述算法性能更加稳定,在此深度学习算法框架的基础上分别构建估计网络与目标网络,两个网络结构相同但是参数不同,估计网络值一般小于目标网络,因此采用估计网络不断学习迭代来更新网络参数,目标网络一段时间T采用估计网络更新的参数来更新自身的参数,这两个参数一个用来选择动作,一个用来评估当前状态的值,这两个参数分别记为ωt与ωt -
Figure BDA0003736409450000064
Figure BDA0003736409450000065
微电网***中多智能体按照一定概率随机选择动作与环境进行更好的探索反馈,寻找一定状态下使奖励最大化的动作,随着训练次数的不断增加直至完全采用使Q值最大的动作,并最终收敛到最优策略。
步骤S4、基于强化学习训练出的Q值,实现分布式电源的频率偏差调节;
所述采用深度强化学习算法对步骤S2、与步骤S3、的控制策略微电网的模型进行多次训练,利用深度强化学习算法训练出Q值解决算法的高估问题以优化多智能体***的稳定性。
微电网***进行对各分布式电源的相关操作完成最优能量管理优化策略选择,从而实现微电网的协同控制。
根据步骤S2所述的double DQN网络的微电网能量调度方法,智能体根据自身状态按照一定概率随机选择动作以探索环境,根据自身状态选取奖励最大化的动作,随着训练次数的增加,最终降低探索概率选择Q值最大的动作,以达到最优收敛策略。
根据步骤S3所述的深度强化学习算法采用优先经验回放的方式存储数据(st,at,rt,st+1)并记录其特征向量,在训练初期智能体随机采取动作以产生足够多的训练数据存储到经验池,记忆单元填满后随机选取数据进行神经网络的参数更新,并在策略训练过程中不断获取新的数据更新相关性较差的数据,以此来避免没有价值的迭代,从而提高收敛速度。
建立微电网的电压与频率控制模型:采用控制电网频率来调节有功功率,电压幅值调节无功功率,实现下垂控制;设计基于多智能体的深度强化学习框架:构建多智能体的强化学习的环境动作空间与状态空间以及奖励函数的马尔可夫决策过程;设计双神经网络的深度强化学习算法的流程,采用神经网络对定义的强化学习环境进行多次训练以达到奖励值的收敛,训练最优Q值;基于强化学习训练出的Q值,实现分布式电源的频率偏差调节,解决强化学习算法的高估问题以优化多智能体***的稳定性。微电网***进行对各分布式电源的相关操作,完成最优能量管理优化策略选择,实现微电网的协同控制。本发明提供的基于双神经网络的深度学习多智能体微电网协同控制方法,基于多智能体的微电网***的能量调度面对可再生能源的灵活接入,以及微电网群的能量交换问题时,为保证微电网***的稳定性以及电力调度的成本。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (4)

1.一种基于双神经网络的深度学习多智能体微电网协同控制方法,其特征在于,包括:
步骤S1、建立微电网的电压与频率控制模型;
步骤S2、通过采用深度强化学习框架下的微电网模型进行训练,寻找最优的Q值网络,包括具体步骤:
步骤S21、构建强化学习的环境状态空间:强化学习的环境为微电网***,环境与智能体进行反馈奖励,以及微电网多智能体***控制器的频率偏差状态构成状态空间的可控部分、每次调度的时间信息Δt构成状态空间的时间部分;
步骤S22、构建强化学习的环境动作空间:每次调度智能体频率偏差进行控制;
步骤S23、定义奖励函数:用来引导智能体实现预定微电网优化目标,;
步骤S24、设置储能***后备控制器,使得可调度智能体与储能***的智能体产生的动作不超出***的功率范围;
步骤S3、建立双神经网络深度强化学习算法流程:采用神经网络对步骤S2中定义的强化学习环境进行多次训练以达到奖励值的收敛;
采用神经网络Q(s,a;ω)作为函数逼近器来对Q(s,a)函数进行估计;根据状态和动作的输入经过神经网络分析后得到动作的Q值,并选择最大Q值作为下一步的动作;
深度神经网络的权重ω表示***状态到Q值的映射,定义损失函数Li(ω)来更新神经网络权重ω与对应的Q值:
Lit)=Es[(yt-Q(s,a;ωt))2] 式(4)
其中yt表示为目标函数:
Figure FDA0003736409440000011
通过对损失函数求梯度并执行随机梯度下降,来更新智能体的权重:
Figure FDA0003736409440000021
构建估计网络与目标网络,两个网络结构相同但是参数不同,估计网络值小于目标网络,采用估计网络不断学习迭代来更新网络参数,目标网络一段时间T采用估计网络更新的参数来更新自身的参数,这两个参数一个用来选择动作,一个用来评估当前状态的值,其中,这两个参数分别记为ωt与ωt -
Figure FDA0003736409440000022
Figure FDA0003736409440000023
微电网***中多智能体按照一定概率随机选择动作与环境进行更好的探索反馈,寻找特定状态下使奖励最大化的动作,随着训练次数的不断增加直至完全采用使Q值最大的动作,并最终收敛到最优策略;
步骤S4、基于强化学习训练出的Q值,实现分布式电源的频率偏差调节。
2.如权利要求1所述的基于双神经网络的深度学习多智能体微电网协同控制方法,其特征在于,所述交流微电网以同步发电机控制理论为基础,采用下垂控制方法对微电网的有功功率和无功功率进行调节;
其中:下垂控制的有功功率方法包括:
f=f0-kp(P-P*) 式(1)
式中:f0为额定频率,p*为额定有功功率,kp为下垂系数。
3.如权利要求1所述的基于双神经网络的深度学习多智能体微电网协同控制方法,其特征在于,步骤S24具体包括:
通过马尔可夫决策原理,利用Q表格来存储***状态和动作对应的值函数Q(s,a),即***在某个状态在t时刻st下采取动作at将得到的累计回报Rt可以表示为预期回报,γ表示为折扣因子:
Q(s,a)=E[Rt|st=s,at=a]=E[rt+γQ(st+1,at+1)+γ2(st+2,at+2)+...] 式(2)
在此训练过程中,Q值训练模组以储能装置元组(st,at,rt,st+1)为样本进行训练,st为当前状态,at为当前的动作,rt为执行动作后的即时奖励,st+1为下一个状态,t为时刻,Q函数递推更新策略为:
Figure FDA0003736409440000031
式中α为学习率,γ为折扣因子。
4.如权利要求1所述的基于双神经网络的深度学习多智能体微电网协同控制方法,其特征在于,所述步骤S4包括:
所述采用深度强化学习算法对步骤S2与步骤S3的控制策略微电网的模型进行多次训练,利用深度强化学习算法训练出Q值以优化多智能体***的稳定性;
根据步骤S2的智能体根据自身状态按照一定概率随机选择动作以探索环境,根据自身状态选取奖励最大化的动作,随着训练次数的增加,降低探索概率选择Q值最大的动作,以达到最优收敛策略;
根据步骤S3所述的深度强化学习算法采用优先经验回放的方式存储数据(st,at,rt,st+1)并记录其特征向量,在训练初期智能体随机采取动作以产生足够多的训练数据存储到经验池,记忆单元填满后随机选取数据进行神经网络的参数更新,并在策略训练过程中不断获取新的数据更新相关性较差的数据。
CN202210797934.7A 2022-07-08 2022-07-08 基于双神经网络的深度学习多智能体微电网协同控制方法 Active CN115333143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210797934.7A CN115333143B (zh) 2022-07-08 2022-07-08 基于双神经网络的深度学习多智能体微电网协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210797934.7A CN115333143B (zh) 2022-07-08 2022-07-08 基于双神经网络的深度学习多智能体微电网协同控制方法

Publications (2)

Publication Number Publication Date
CN115333143A true CN115333143A (zh) 2022-11-11
CN115333143B CN115333143B (zh) 2024-05-07

Family

ID=83917405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210797934.7A Active CN115333143B (zh) 2022-07-08 2022-07-08 基于双神经网络的深度学习多智能体微电网协同控制方法

Country Status (1)

Country Link
CN (1) CN115333143B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115499849A (zh) * 2022-11-16 2022-12-20 国网湖北省电力有限公司信息通信公司 一种无线接入点与可重构智能表面协作方法
CN116307440A (zh) * 2022-11-21 2023-06-23 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116488154A (zh) * 2023-04-17 2023-07-25 海南大学 基于微电网的能源调度方法、***、计算机设备及介质
CN116594358A (zh) * 2023-04-20 2023-08-15 暨南大学 基于强化学习的多层工厂车间调度方法
CN116629128A (zh) * 2023-05-30 2023-08-22 哈尔滨工业大学 一种基于深度强化学习的控制电弧增材成型的方法
CN116934050A (zh) * 2023-08-10 2023-10-24 深圳市思特克电子技术开发有限公司 一种基于强化学习的电力智能调度***
CN117172163A (zh) * 2023-08-15 2023-12-05 重庆西南集成电路设计有限责任公司 幅相控制电路的幅相二维优化方法、***、介质及电子设备
CN117350515A (zh) * 2023-11-21 2024-01-05 安徽大学 一种基于多智能体强化学习的远洋海岛群能量流调度方法
CN117474295A (zh) * 2023-12-26 2024-01-30 长春工业大学 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
CN117578466A (zh) * 2024-01-17 2024-02-20 国网山西省电力公司电力科学研究院 一种基于优势函数分解的电力***暂态稳定预防控制方法
CN117713202A (zh) * 2023-12-15 2024-03-15 嘉兴正弦电气有限公司 基于深度强化学习的分布式电源自适应控制方法及***
CN117764360A (zh) * 2023-12-29 2024-03-26 中海油信息科技有限公司 基于图神经网络的涂料车间智能排程方法
CN117807895A (zh) * 2024-02-28 2024-04-02 中国电建集团昆明勘测设计研究院有限公司 一种基于深度强化学习的磁流变阻尼器控制方法和装置
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及***
CN117973233A (zh) * 2024-03-29 2024-05-03 合肥工业大学 基于深度强化学习的换流器控制模型训练和振荡抑制方法
CN118092195A (zh) * 2024-04-26 2024-05-28 山东工商学院 基于协同训练模型改进iql的多智能体协同控制方法
WO2024113585A1 (zh) * 2022-11-30 2024-06-06 南京邮电大学 一种面向离散制造***的智能交互式决策方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106410808A (zh) * 2016-09-27 2017-02-15 东南大学 通用型包含恒功率和下垂控制的微电网群分布式控制方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111371112A (zh) * 2020-04-15 2020-07-03 苏州科技大学 孤岛微电网异构电池储能***分布式有限时间控制方法
CN111431216A (zh) * 2020-03-18 2020-07-17 国网浙江嘉善县供电有限公司 一种采用q学习的高比例光伏微网无功均分控制方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
US20220004191A1 (en) * 2020-07-01 2022-01-06 Wuhan University Of Technology Usv formation path-following method based on deep reinforcement learning
CN114400704A (zh) * 2022-01-24 2022-04-26 燕山大学 基于双q学习考虑经济调节的孤岛微电网多模式切换策略
CN114421479A (zh) * 2021-11-30 2022-04-29 国网浙江省电力有限公司台州供电公司 交直流微电网群协同互供的电压控制方法
WO2022135066A1 (zh) * 2020-12-25 2022-06-30 南京理工大学 一种基于时序差分的混合流水车间调度方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106410808A (zh) * 2016-09-27 2017-02-15 东南大学 通用型包含恒功率和下垂控制的微电网群分布式控制方法
US20190074691A1 (en) * 2016-09-27 2019-03-07 Southeast University General distributed control method for multi-microgrids with pq control and droop control
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111431216A (zh) * 2020-03-18 2020-07-17 国网浙江嘉善县供电有限公司 一种采用q学习的高比例光伏微网无功均分控制方法
CN111371112A (zh) * 2020-04-15 2020-07-03 苏州科技大学 孤岛微电网异构电池储能***分布式有限时间控制方法
US20220004191A1 (en) * 2020-07-01 2022-01-06 Wuhan University Of Technology Usv formation path-following method based on deep reinforcement learning
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
WO2022135066A1 (zh) * 2020-12-25 2022-06-30 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN114421479A (zh) * 2021-11-30 2022-04-29 国网浙江省电力有限公司台州供电公司 交直流微电网群协同互供的电压控制方法
CN114400704A (zh) * 2022-01-24 2022-04-26 燕山大学 基于双q学习考虑经济调节的孤岛微电网多模式切换策略

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈珺;柳伟;李虎成;李娜;温镇;殷明慧;: "基于强化学习的多微电网分布式二次优化控制", 电力***自动化, no. 05, 5 March 2020 (2020-03-05) *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115499849A (zh) * 2022-11-16 2022-12-20 国网湖北省电力有限公司信息通信公司 一种无线接入点与可重构智能表面协作方法
CN116307440B (zh) * 2022-11-21 2023-11-17 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
CN116307440A (zh) * 2022-11-21 2023-06-23 暨南大学 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用
WO2024113585A1 (zh) * 2022-11-30 2024-06-06 南京邮电大学 一种面向离散制造***的智能交互式决策方法
CN116488154A (zh) * 2023-04-17 2023-07-25 海南大学 基于微电网的能源调度方法、***、计算机设备及介质
CN116594358A (zh) * 2023-04-20 2023-08-15 暨南大学 基于强化学习的多层工厂车间调度方法
CN116594358B (zh) * 2023-04-20 2024-01-02 暨南大学 基于强化学习的多层工厂车间调度方法
CN116629128A (zh) * 2023-05-30 2023-08-22 哈尔滨工业大学 一种基于深度强化学习的控制电弧增材成型的方法
CN116629128B (zh) * 2023-05-30 2024-03-29 哈尔滨工业大学 一种基于深度强化学习的控制电弧增材成型的方法
CN116934050A (zh) * 2023-08-10 2023-10-24 深圳市思特克电子技术开发有限公司 一种基于强化学习的电力智能调度***
CN117172163A (zh) * 2023-08-15 2023-12-05 重庆西南集成电路设计有限责任公司 幅相控制电路的幅相二维优化方法、***、介质及电子设备
CN117172163B (zh) * 2023-08-15 2024-04-12 重庆西南集成电路设计有限责任公司 幅相控制电路的幅相二维优化方法、***、介质及电子设备
CN117350515A (zh) * 2023-11-21 2024-01-05 安徽大学 一种基于多智能体强化学习的远洋海岛群能量流调度方法
CN117350515B (zh) * 2023-11-21 2024-04-05 安徽大学 一种基于多智能体强化学习的远洋海岛群能量流调度方法
CN117713202A (zh) * 2023-12-15 2024-03-15 嘉兴正弦电气有限公司 基于深度强化学习的分布式电源自适应控制方法及***
CN117474295B (zh) * 2023-12-26 2024-04-26 长春工业大学 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
CN117474295A (zh) * 2023-12-26 2024-01-30 长春工业大学 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
CN117764360A (zh) * 2023-12-29 2024-03-26 中海油信息科技有限公司 基于图神经网络的涂料车间智能排程方法
CN117578466B (zh) * 2024-01-17 2024-04-05 国网山西省电力公司电力科学研究院 一种基于优势函数分解的电力***暂态稳定预防控制方法
CN117578466A (zh) * 2024-01-17 2024-02-20 国网山西省电力公司电力科学研究院 一种基于优势函数分解的电力***暂态稳定预防控制方法
CN117807895A (zh) * 2024-02-28 2024-04-02 中国电建集团昆明勘测设计研究院有限公司 一种基于深度强化学习的磁流变阻尼器控制方法和装置
CN117807895B (zh) * 2024-02-28 2024-06-04 中国电建集团昆明勘测设计研究院有限公司 一种基于深度强化学习的磁流变阻尼器控制方法和装置
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及***
CN117808174B (zh) * 2024-03-01 2024-05-28 山东大学 网络攻击下基于强化学习的微电网运行优化方法及***
CN117973233A (zh) * 2024-03-29 2024-05-03 合肥工业大学 基于深度强化学习的换流器控制模型训练和振荡抑制方法
CN118092195A (zh) * 2024-04-26 2024-05-28 山东工商学院 基于协同训练模型改进iql的多智能体协同控制方法

Also Published As

Publication number Publication date
CN115333143B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN115333143A (zh) 基于双神经网络的深度学习多智能体微电网协同控制方法
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN110265991B (zh) 一种直流微电网的分布式协调控制方法
CN114362196A (zh) 一种多时间尺度主动配电网电压控制方法
CN110858718B (zh) 考虑经济性的交流微电网分布式事件驱动的频率控制方法
CN117057553A (zh) 一种基于深度强化学习的家庭能源需求响应优化方法及***
CN116231679A (zh) 一种基于深度强化学习的自适应虚拟同步机控制方法
Rezazadeh et al. A federated DRL approach for smart micro-grid energy control with distributed energy resources
Huangfu et al. Learning-based optimal large-signal stabilization for DC/DC boost converters feeding CPLs via deep reinforcement learning
CN117439184A (zh) 一种基于强化学习的风电场站控制方法及***
CN114400675B (zh) 基于权重均值深度双q网络的主动配电网电压控制方法
CN116979611A (zh) 一种源网荷储分层优化调度方法
CN115860180A (zh) 基于一致性强化学习算法的电网多时间尺度经济调度方法
CN113270869B (zh) 一种含光伏配电网的无功优化方法
Tongyu et al. Based on deep reinforcement learning algorithm, energy storage optimization and loss reduction strategy for distribution network with high proportion of distributed generation
Li et al. Application of Improved Artificial Bee Colony Algorithm in constant pressure water supply system
CN111273545A (zh) 基于多群多选择交流策略的quatre算法的自动寻优控制方法
CN117674160A (zh) 基于多智能体深度强化学习的有源配电网实时电压控制方法
CN117522177B (zh) 一种智能电网稳定性预测方法
Zhou et al. Applications of Reinforcement Learning in Frequency Regulation Control of New Power Systems
CN116436029B (zh) 一种基于深度强化学习的新能源场站频率控制方法
Latani et al. Coordination of PV Smart Inverters for Grid Voltage Regulation
Liu et al. Voltage Control Strategy for Distribution Network Based on Incremental Learning and Knowledge Fusion
Wang et al. Hybrid Energy Storage Control Based on Prediction and Deep Reinforcement Learning Compensation for Wind Power Smoothing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant