CN114400675B - 基于权重均值深度双q网络的主动配电网电压控制方法 - Google Patents

基于权重均值深度双q网络的主动配电网电压控制方法 Download PDF

Info

Publication number
CN114400675B
CN114400675B CN202210074238.3A CN202210074238A CN114400675B CN 114400675 B CN114400675 B CN 114400675B CN 202210074238 A CN202210074238 A CN 202210074238A CN 114400675 B CN114400675 B CN 114400675B
Authority
CN
China
Prior art keywords
value
action
network
state
adjustable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210074238.3A
Other languages
English (en)
Other versions
CN114400675A (zh
Inventor
王杨洋
茆美琴
杜燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210074238.3A priority Critical patent/CN114400675B/zh
Publication of CN114400675A publication Critical patent/CN114400675A/zh
Application granted granted Critical
Publication of CN114400675B publication Critical patent/CN114400675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/16Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by adjustment of reactive power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/14Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • H02J3/322Arrangements for balancing of the load in a network by storage of energy using batteries with converting means the battery being on-board an electric or hybrid vehicle, e.g. vehicle to grid arrangements [V2G], power aggregation, use of the battery for network load balancing, coordinated or cooperative battery charging
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • Y02B70/3225Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/30Reactive power compensation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/16Information or communication technologies improving the operation of electric vehicles
    • Y02T90/167Systems integrating technologies related to power network operation and communication or information technologies for supporting the interoperability of electric or hybrid vehicles, i.e. smartgrids as interface for battery charging of electric vehicles [EV] or hybrid vehicles [HEV]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/222Demand response systems, e.g. load shedding, peak shaving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S30/00Systems supporting specific end-user applications in the sector of transportation
    • Y04S30/10Systems supporting the interoperability of electric or hybrid vehicles
    • Y04S30/14Details associated with the interoperability, e.g. vehicle recognition, authentication, identification or billing

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于权重均值深度双Q网络的主动配电网电压控制方法,应用于配网/微网调压领域的深度强化学习方法将配网/微网的电压分布和电动汽车集群可调节容量/功率作为状态集、可调微源输出功率作为动作集,根据修正后的节点电压波动作为即时奖励进行深度强化学习训练,使得智能体学习在不同电压分布和可调资源环境下的最有利于电压调节的出力动作。本发明方法在奖励目标值的设计中采用权重均值的方法结合了深度Q网络和深度双Q网络的奖励目标值设计的特点,从而避免了深度Q网络奖励目标值被高估以及深度双Q网络中奖励目标值被低估的问题,通过本发明方法可以实现包含电动汽车的电网/微网电压的智能调节。

Description

基于权重均值深度双Q网络的主动配电网电压控制方法
技术领域
本发明涉及一种基于权重均值深度双Q网络(WDDQN)的主动配电网电压调节方法,更具体地说是应用于电动汽车大规模接入配电网和微电网的环境下,由可再生能源输出波动、网络拓扑造成的电压降以及其它原因产生的配网/微网电压波动和越限时的智能电压调节方法。
背景技术
随着可再生能源的不断发展,以及电动汽车的增加。包括可再生能源、分布式发电单元(DG)和储能在内的多种分布式能源大规模接入配网/微网中。然而,如光伏风机等可再生的间歇性和随机性与负荷波动相耦合造成了源荷不匹配问题,并由此产生了电压波动和越限的问题。此外,配网/微网一般属于低压电网,低压线路中线路电抗无法满足远大于电阻的条件,无法忽略有功功率和电压之间的耦合关系。因此,对配网/微网中可调微源的有功功率和无功功率的输出调整都会影响电压分布,所以这一场景下电压控制更为困难。
针对配网/微网压调节问题,存在多种方法,如基于下垂控制的本地控制方法、通过数学优化和智能算法进行分级控制等。但这些方法普遍需要针对多类型微源进行建模后求解,普遍存在建模工作量大、计算量大、在线控制困难、容易陷入局部最优等问题。此外,对于电动汽车参与调压问题,由于电动汽车充电和放电都是有功功率交换,与无功源联合调压时其用于电压调节的模型和算法需要单独设计,优化更为困难。基于此,基于强化学习的电压控制方法得到了关注。如采用Q学习的电压控制,但Q学习中状态集和动作集都是离散且有限的,难以处理规模较大的网络结构。而与深度学习相结合的深度Q学习(DQN)实现了状态集的连续化,但DQN往往存在奖励值高估造成调压动作选择不合理的问题。
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于权重均值深度双Q网络的主动配电网电压控制方法,在奖励目标值的设计中采用权重均值的方法结合深度Q网络和深度双Q网络的奖励目标值设计的特点,以避免深度Q网络奖励目标值被高估以及深度双Q网络中奖励目标值被低估的问题,实现奖励值的合理评估;针对低压配网/微网中电压与有功无功均耦合的问题,采用合理的动作集设计,实现有功微源和无功微源输出功率的共同控制,最终在不同电压分布状态和电动汽车集群可调资源情况时实现可调微源的最优出力。
本发明为解决技术问题采用如下技术方案:
本发明基于权重均值深度双Q网络的主动配电网电压控制方法的特点是包括如下步骤:
步骤1、根据电网内的电压分布和电源可调状况确定状态集S和动作集A,设定即时奖励r,获得由式(1)所表征的在状态s下动作a的奖励函数Q(s,a):
Figure BDA0003483346980000021
式(1)中:
s∈S;a∈A;E()为期望值;γ为学习率;
s’表示在状态s下采取动作a到达的新状态,a’表示在状态s’下采取的新动作;
P(s,s')为状态s转移到新状态s’的概率;
Q(s’,a’)为新状态s’下新动作a’的奖励函数;
步骤2、设计权重均值深度双Q神经网络的网络结构和网络损失函数L(θ):
所述网络结构包含一个输入层、一个输出层和多个隐藏层;
所述输入层以状态集S在当前时刻t的当前状态st为输入,所述当前状态st为状态向量,即状态向量st
所述输出层以当前状态st下当前时刻t动作集A中的所有动作的奖励函数估计值Qt(st,A|θ)为输出,其中,θ是奖励函数估计值的定义参数;
所述多个隐藏层中每个隐藏层包含多个神经元;神经元的激活函数为ReLu;
所述网络损失函数L(θ)由式(2)所表征:
L(θ)=E(yWDDQN-Q(s,a|θ))2              (2)
式(2)中:
Q(s,a|θ)为状态s下动作a的奖励函数估计值;
yWDDQN为奖励目标值,是采用权重均值法由式(3)计算获得:
yWDDQN=r+γ(βQ(s',a*|θ)+(1-β)Q(s',a*|θ-))        (3)
式(3)中:
β为权重;a*为状态s’下当前奖励函数估计值最大时的动作;
Q(s',a*|θ-)为状态s’下动作a*的目标奖励函数值,是以θ-为目标奖励函数值的定义参数;
Q(s',a*|θ)为状态s下动作a*的奖励函数估计值,即当前奖励函数估计值,是以θ为奖励函数值的定义参数;
所述当前奖励函数估计值Q(s',a*|θ)是由所述神经网络输出层输出得到,并在神经网络中不断更新,形成在线网络;
所述目标奖励函数值Q(s',a*|θ-)是由目标网络输出得到,所述目标网络与所述在线网络结构相同,目标网络参数按设定的间隔步数由在线网络复制获得;
所述权重β由式(4)获得:
Figure BDA0003483346980000031
式(4)中:
aL为状态s’下奖励函数估计值最小时的动作;c为调整权重值的超参数;
Q(s',aL-)为状态s’下动作aL的目标奖励函数值,以θ-为目标奖励函数值的定义参数;
步骤3、设计动态ε-greedy策略;
所述动态ε-greedy策略是指在选择动作时,以ε的概率随机选择一个动作,以(1-ε)的概率选择当前奖励值最大的动作,所述ε由式(5)所表征:
Figure BDA0003483346980000032
式(5)中:
δ为调整系数,δ的值是小于1的常数;
Step是步数;X0是探索初始值,其值为正数;ar为状态s下随机选取的动作;
Q(s,ar|θ)为状态s下动作ar的奖励函数估计值,以θ为奖励函数值的定义参数;
Q(s,a*|θ)为状态s下动作a*的奖励函数估计值,以θ为奖励函数值的定义参数;
步骤4、按如下方式实施配网/微网电压控制:
4.1、根据步骤2建立均值深度双Q神经网络,初始化神经网络中的参数θ,初始化记忆集D的容量和采样集采样数目,读取电动汽车可调节功率预测结果,将步数Step置为0;
4.2、读取电网电压和结合电动汽车可调节功率预测结果得到当前状态st
4.3、将当前状态st输入在线网络中获得所有动作的奖励函数估计值Qt(st,A|θ);
4.4、根据按步骤3所获得的动态ε-greedy策略从步骤1中的动作集A中选取当前动作at,并将当前动作输入电网中进行潮流计算,得到新状态st+1
4.5、根据新状态st+1计算获得即时奖励r;
4.6、将{st,at,st+1,r}放入记忆集D中,随后判断记忆集D是否已满;
若记忆集D未满,返回步骤4.2;
若记忆集D已满,进入步骤4.7;
4.7、从记忆集D中采样给在线网络和目标网络,分别计算Q(s,a|θ)和yWDDQN,并计算损失函数L(θ),采用随机梯度下降更新在线网络参数;
4.8、将Step的赋值增加1,每隔固定步数C将在线网络参数复制给目标网络;
4.9、判断Step的值是否为最大;
若Step的值不是最大值,返回步骤4.7;
若Step的值为最大值,由当前在线网络输出奖励值最大的动作,完成强化学习过程,实现电压控制。
本发明基于权重均值深度双Q网络的主动配电网电压控制方法的特点也在于:在所述步骤1中,按如下方式设置对于状态集S、动作集A和即时奖励r:
所述状态集S是所有状态向量的集合,状态向量st为当前时刻t电网内节点电压分布情况和电动汽车集群可***况,由式(6)所表征:
st={U1,t,...,UN,t,...,PEl,t,min,...,PEl,t,max,...,CEl,t,min,...,CEl,t,max,...}  (6)
式(6)中:
以i表征节点,i=1,2,…,N,N为电压调节区域中的节点数;
以Ui,t表征当前时刻t第i个节点的电压幅值;
U1,t为当前时刻t第1个节点的电压幅值,UN,t为当前时刻t第N个节点的电压幅值;
PEl,t,min为第l个电动汽车集群在当前时刻t的可调功率的最小值;
PEl,t,max为第l个电动汽车集群在当前时刻t的可调功率的最大值;
CEl,t,min为第l个电动汽车集群在当前时刻t的可调容量的最小值;
CEl,t,max为第l个电动汽车集群在当前时刻t的可调容量的最大值;
以L表征可调电动汽车集群数,所述状态向量st的元素数目为N+4L;
所述动作集A为所有动作向量的集合,在当前状态st下的动作向量at为可调微源的输出动作,由式(7)所表征;
Figure BDA0003483346980000041
式(7)中:
以j表征可调微源,m为可调微源的总数,j=1,2,…,m;
以k表征可调动作,K为每个单元可调动作的总数,k=0,1,…,K-1
动作集A的元素数目为Km个;
Figure BDA0003483346980000042
表征当前时刻t第j个可调微源的第k个动作;并有:
Figure BDA0003483346980000051
Qj,min为第j个可调微源的可调无功功率的最小值;
Qj,max为第j个可调微源的可调无功功率的最大值;
Pj,t,min为第j个可调微源在当面时刻t的可调有功功率的最小值;
Pj,t,max为第j个可调微源在当面时刻t的可调有功功率的最大值;
所述即时奖励r由式(9)表征;
Figure BDA0003483346980000052
式(9)中:
Ui为节点电压;λi为奖励系数,用于修正即时奖励的大小,并有:
Figure BDA0003483346980000053
所述即时奖励r是以电力***关于电压偏移的相关规定为基础,且优先调度越限的节点。
与已有技术相比,本发明有益效果体现在:
1、本发明在配网/微网调压领域中采用基于权重均值深度双Q网络的主动配电网/微网电压控制方法,有效避免了传统深度Q学习高估奖励目标值,而双Q深度学习低估奖励目标值的问题;更加有效地实现奖励目标值的合理评估,从而确定在不同电压分布状态和电动汽车集群可调资源情况时可调微源的最优出力动作;
2、电动汽车只能进行有功调节,而配网/微网电压与有功无功均耦合,本发明针对电动汽车和其他可调负荷等接入配网/微网的情况,设置相适用的动作集和状态集,从而实现了有效利用多种可调资源进行调压;
3、本发明考虑到管理部门对于电压偏移的规定,设置即时动作奖励函数,实现了在调度资源有限的情况下优先调度偏移较大的节点,极大地有助于防止电压越限。
附图说明
图1为本发明中基于权重均值深度双Q网络的主动配电网电压控制方法流程图;
图2为本发明中神经网络的训练过程;
图3为本发明中测试所用IEEE-33配网拓扑;
图4a为本发明中测试所用配网的可再生能源输出
图4b为本发明中测试所用配网;连接的电动汽车集群可调功率数据;
图5为本发明中测试案例调节前电压分布;
图6为本发明中测试案例中不同算法训练过程;
图7为本发明中测试案例调节后电压分布。
具体实施方法
本发明方法属于深度强化学习方法,深度强化学习是机器学习的一个分支,是强化学习与深度神经网络的结合。深度强化学习最大的特点是在交互中学习,智能体在与环境的交互中根据获得的奖励或惩罚不断的学习知识,更加适应环境。而环境的状态范围即为状态集,智能体的动作范围即为动作集,动作后获得的奖励可分为即时奖励和总体收益,而总体收益由即时奖励获得。因此,对于一个深度强化学习的设计来说,核心之一就是奖励集、动作集和即时奖励的设计。
本实施例中基于权重均值深度双Q网络的主动配电网电压控制方法包括如下步骤:
步骤1、根据电网内的电压分布和电源可调状况确定状态集S和动作集A,设定即时奖励r。
通过状态集、动作集和即时奖励的设计,可以获得状态s下动作a的即时奖励值,但对整个***来说,更为重要的是对状态s下动作a在整个过程能够获得的总体收益是多少,但这一总体收益难以直接获得,因此通过由式(1)对在状态s下动作a的奖励函数Q(s,a)进行表征:
Figure BDA0003483346980000061
式(1)中:
s∈S;a∈A;E()为期望值;γ为学习率,γ通常为小于1的常数;
s’表示在状态s下采取动作a到达的新状态,a’表示在状态s’下采取的新动作;
P(s,s')为状态s转移到新状态s’的概率;
Q(s’,a’)为新状态s’下新动作a’的奖励函数。
步骤2、设计权重均值深度双Q神经网络的网络结构和网络损失函数L(θ):
网络结构包含一个输入层、一个输出层和多个隐藏层;
输入层以状态集S在当前时刻t的当前状态st为输入,当前状态st为状态向量,即状态向量st
输出层以当前状态st下当前时刻t动作集A中的所有动作的奖励函数估计值Qt(st,A|θ)为输出,其中,θ是奖励函数估计值的定义参数;
多个隐藏层中每个隐藏层包含多个神经元;神经元的激活函数为ReLu;
网络损失函数L(θ)由式(2)所表征:
L(θ)=E(yWDDQN-Q(s,a|θ))2                 (2)
式(2)中:
Q(s,a|θ)为状态s下动作a的奖励函数估计值;
yWDDQN为奖励目标值,是采用权重均值法由式(3)计算获得:
yWDDQN=r+γ(βQ(s',a*|θ)+(1-β)Q(s',a*|θ-))     (3)
式(3)中:
β为权重;a*为状态s’下当前奖励函数估计值最大时的动作;
Q(s',a*|θ-)为状态s’下动作a*的目标奖励函数值,是以θ-为目标奖励函数值的定义参数;
Q(s',a*|θ)为状态s下动作a*的奖励函数估计值,即当前奖励函数估计值,是以θ为奖励函数值的定义参数;
当前奖励函数估计值Q(s',a*|θ)是由神经网络输出层输出得到,并在神经网络中不断更新,形成在线网络;
目标奖励函数值Q(s',a*|θ-)是由目标网络输出得到,目标网络与在线网络结构相同,目标网络参数按设定的间隔步数由在线网络复制获得;
权重β由式(4)获得:
Figure BDA0003483346980000071
式(4)中:
aL为状态s’下奖励函数估计值最小时的动作;c为调整权重值的超参数;
Q(s',aL-)为状态s’下动作aL的目标奖励函数值,以θ-为目标奖励函数值的定义参数;
在Q学习中,每一个状态和动作都对应一个奖励函数,在状态和动作增加时,奖励函数会非常多以至于无法计算;因此深度强化学习通过深度神经网络的方法,用奖励函数估计值的形式对真实的奖励函数进行逼近,即Q神经网络;权重均值深度双Q神经网络的网络结构与Q神经网络相似,区别主要是网络损失函数和奖励目标值的设计。
步骤3、设计动态ε-greedy策略;
动态ε-greedy策略是指在选择动作时,以ε的概率随机选择一个动作,以(1-ε)的概率选择当前奖励值最大的动作,ε由式(5)所表征:
Figure BDA0003483346980000081
式(5)中:
δ为调整系数,δ的值是小于1的常数;
Step是步数;X0是探索初始值,其值为正数;ar为状态s下随机选取的动作;
Q(s,ar|θ)为状态s下动作ar的奖励函数估计值,以θ为奖励函数值的定义参数;
Q(s,a*|θ)为状态s下动作a*的奖励函数估计值,以θ为奖励函数值的定义参数;
可以看到,一方面随着迭代次数的增加,ε逐渐变小,可以实现先探索后收敛的目标;另一方面,ε还与奖励值相对大小有关,如果随机选取的奖励值与当前最大奖励值差距小,说明当前获得最大奖励值的动作可能还不够优秀,则ε就会变大,倾向于探索新动作,反之亦然。
步骤4、参见图1,按如下方式实施配网/微网电压控制:
4.1、根据步骤2建立均值深度双Q神经网络,初始化神经网络中的参数θ,初始化记忆集D的容量和采样集采样数目,读取电动汽车可调节功率预测结果,将步数Step置为0;
4.2、读取电网电压和结合电动汽车可调节功率预测结果得到当前状态st
4.3、将当前状态st输入在线网络中获得所有动作的奖励函数估计值Qt(st,A|θ);
4.4、根据按步骤3所获得的动态ε-greedy策略从步骤1中的动作集A中选取当前动作at,并将当前动作输入电网中进行潮流计算,得到新状态st+1
4.5、根据新状态st+1计算获得即时奖励r;
4.6、将{st,at,st+1,r}放入记忆集D中,随后判断记忆集D是否已满;
若记忆集D未满,返回步骤4.2;
若记忆集D已满,进入步骤4.7;
4.7、从记忆集D中采样给在线网络和目标网络,分别计算Q(s,a|θ)和yWDDQN,并计算损失函数L(θ),采用随机梯度下降更新在线网络参数,其过程如图2所示;
4.8、将Step的赋值增加1,每隔固定步数C将在线网络参数复制给目标网络;
4.9、判断Step的值是否为最大;
若Step的值不是最大值,返回步骤4.7;
若Step的值为最大值,由当前在线网络输出奖励值最大的动作,完成强化学习过程,实现电压控制。
具体实施中,在步骤1中是按如下方式设置对于状态集S、动作集A和即时奖励r:
状态集S是所有状态向量的集合,状态向量st为当前时刻t电网内节点电压分布情况和电动汽车集群可***况,由式(6)所表征:
st={U1,t,...,UN,t,...,PEl,t,min,...,PEl,t,max,...,CEl,t,min,...,CEl,t,max,...}   (6)
式(6)中:
以i表征节点,i=1,2,…,N,N为电压调节区域中的节点数;
以Ui,t表征当前时刻t第i个节点的电压幅值;
U1,t为当前时刻t第1个节点的电压幅值,UN,t为当前时刻t第N个节点的电压幅值;
PEl,t,min为第l个电动汽车集群在当前时刻t的可调功率的最小值;
PEl,t,max为第l个电动汽车集群在当前时刻t的可调功率的最大值;
CEl,t,min为第l个电动汽车集群在当前时刻t的可调容量的最小值;
CEl,t,max为第l个电动汽车集群在当前时刻t的可调容量的最大值;
以L表征可调电动汽车集群数,状态向量st的元素数目为N+4L;
动作集A为所有动作向量的集合,在当前状态st下的动作向量at为可调微源的输出动作,由式(7)所表征;
Figure BDA0003483346980000091
式(7)中:
以j表征可调微源,m为可调微源的总数,j=1,2,…,m;
以k表征可调动作,K为每个单元可调动作的总数,k=0,1,…,K-1
动作集A的元素数目为Km个;
Figure BDA0003483346980000092
表征当前时刻t第j个可调微源的第k个动作;并有:
Figure BDA0003483346980000093
Qj,min为第j个可调微源的可调无功功率的最小值;
Qj,max为第j个可调微源的可调无功功率的最大值;
Pj,t,min为第j个可调微源在当面时刻t的可调有功功率的最小值;
Pj,t,max为第j个可调微源在当面时刻t的可调有功功率的最大值;
即时奖励r由式(9)表征;
Figure BDA0003483346980000101
式(9)中:
Ui为节点电压;λi为奖励系数,用于修正即时奖励的大小,并有:
Figure BDA0003483346980000102
即时奖励r是以电力***关于电压偏移的相关规定为基础,且优先调度越限的节点。
本发明中将无功源在调度中最大功率和最小功率视为不变,而有功源的可调功率是变化的。无功源包括电容器、静止无功补偿器和同步发电机;有功源包括电动汽车集群、储能单元、温控负荷和微型燃气轮机。
本发明基于权重均值深度双Q网络方法将电网的节点电压和电动汽车可调节情况作为状态集、可调微源无功和有功输出作为动作集,将修正后的电压波动作为奖励值进行深度强化学习训练,使得智能体学会在不同电网和可调资源环境下的最有利于电压调节的出力动作。
参见图3,采用改进的IEEE33节点的配网***进行测试。在***中的8、15、25三个节点分别接入额定功率2.5MW的光伏、3MW的风机和2.5MW的光伏。风机和光伏的日出力情况如图4a所示。由于光伏和风机出力的波动,以及配网本身的电压降造成***电压波动和越限,图5中1号节点为平衡节点;在配网***中按如下步骤实现配网电压控制:
步骤a、确定状态集S和动作集A,设定即时奖励r。
电压调节区域中节点的数目N为33,l为2,共35个状态集,将无功源在调度中最大功率和最小功率视为不变,而有功源如电动汽车其可调功率是变化的,可调微源情况如表1:
表1
Figure BDA0003483346980000103
汇总:动作集中K取8,m为3,则一共有512个动作组合。
步骤b、建立均值深度双Q神经网络,隐藏层为2,每个隐藏层神经元为48,激活函数为ReLu;调整权重值的超参数c取为1。
步骤c、设计动态ε-greedy(Epsilon-Greedy)策略,其调整系数δ取为0.99,迭代次数为i,探索初始值X0取为106
步骤d、按如下过程实施配网/微网电压控制,如图1所示:
步骤d1、根据步骤b建立均值深度双Q神经网络,初始化神经网络中的参数θ,初始化记忆集D的容量为10000和采样集采样数目为96,读取电动汽车可调节功率预测结果,将步数Step置为0;
步骤d2、读取电网电压和结合电动汽车可调节功率预测结果得到当前状态st
步骤d3、将当前状态st输入在线网络中获得所有动作的奖励函数估计值Qt(st,A|θ);
步骤d4、根据按步骤C所获得的动态ε-greedy策略从步骤a中的动作集A中选取当前动作at,并将当前动作输入电网中进行潮流计算,得到新状态st+1
步骤d5、根据新状态st+1计算获得即时奖励r;
步骤d6、将{st,at,st+1,r}放入记忆集D中,并判断记忆集D是否已满;
若记忆集D未满,返回步骤d2;若记忆集D已满,进入步骤d7;
步骤d7、从记忆集D中采样给在线网络和目标网络,分别计算Q(s,a|θ)和yWDDQN,并计算损失函数L(θ),采用随机梯度下降更新在线网络参数,其过程如图2;
步骤d8、将Step的赋值增加1,每隔固定步数C,取C为100,将在线网络参数复制给目标网络;
步骤d9、判断Step的值是否为最大;
若Step的值不是最大值,返回步骤4.7;
若Step的值为最大值,由当前在线网络输出奖励值最大的动作,完成强化学习过程,实现电压控制。本实施实例中取Step的值的最大值为30000。
图6中示意了本发明方法(WDDQN)和传统深度Q学***均奖励对比,图6可见,随着训练的进行,两种方法的效果都在逐渐上升,并最终达到稳定。但WDDQN的稳定值要大于DQN,DQN陷入了局部最优。实验结果表明,本发明相对于DQN可以更好的选取动作值。
将训练后的智能体用于配网电压控制的结果如图7所示,相比于图5中调节前电压分布,图7中的配网电压范围从调节前的[0.926,1.073]变为了调节后的[0.951,1.046],此时配网全天电压均在国家标准要求的范围[0.95,1.05]之内。同时,采用式(11)表示电压偏移量:
Figure BDA0003483346980000111
控制前后电压偏移量从调节前的0.0412降低为调节后的0.0152,本发明方法能够有效进行配网电压控制。

Claims (2)

1.一种基于权重均值深度双Q网络的主动配电网电压控制方法,其特征是包括如下步骤:
步骤1、根据电网内的电压分布和电源可调状况确定状态集S和动作集A,设定即时奖励r,获得由式(1)所表征的在状态s下动作a的奖励函数Q(s,a):
Figure FDA0003483346970000011
式(1)中:
s∈S;a∈A;E()为期望值;γ为学习率;
s’表示在状态s下采取动作a到达的新状态,a’表示在状态s’下采取的新动作;
P(s,s')为状态s转移到新状态s’的概率;
Q(s’,a’)为新状态s’下新动作a’的奖励函数;
步骤2、设计权重均值深度双Q神经网络的网络结构和网络损失函数L(θ):
所述网络结构包含一个输入层、一个输出层和多个隐藏层;
所述输入层以状态集S在当前时刻t的当前状态st为输入,所述当前状态st为状态向量,即状态向量st
所述输出层以当前状态st下当前时刻t动作集A中的所有动作的奖励函数估计值Qt(st,A|θ)为输出,其中,θ是奖励函数估计值的定义参数;
所述多个隐藏层中每个隐藏层包含多个神经元;神经元的激活函数为ReLu;
所述网络损失函数L(θ)由式(2)所表征:
L(θ)=E(yWDDQN-Q(s,a|θ))2            (2)
式(2)中:
Q(s,a|θ)为状态s下动作a的奖励函数估计值;
yWDDQN为奖励目标值,是采用权重均值法由式(3)计算获得:
yWDDQN=r+γ(βQ(s',a*|θ)+(1-β)Q(s',a*|θ-))        (3)
式(3)中:
β为权重;a*为状态s’下当前奖励函数估计值最大时的动作;
Q(s',a*|θ-)为状态s’下动作a*的目标奖励函数值,是以θ-为目标奖励函数值的定义参数;
Q(s',a*|θ)为状态s下动作a*的奖励函数估计值,即当前奖励函数估计值,是以θ为奖励函数值的定义参数;
所述当前奖励函数估计值Q(s',a*|θ)是由所述神经网络输出层输出得到,并在神经网络中不断更新,形成在线网络;
所述目标奖励函数值Q(s',a*|θ-)是由目标网络输出得到,所述目标网络与所述在线网络结构相同,目标网络参数按设定的间隔步数由在线网络复制获得;
所述权重β由式(4)获得:
Figure FDA0003483346970000021
式(4)中:
aL为状态s’下奖励函数估计值最小时的动作;c为调整权重值的超参数;
Q(s',aL-)为状态s’下动作aL的目标奖励函数值,以θ-为目标奖励函数值的定义参数;
步骤3、设计动态ε-greedy策略;
所述动态ε-greedy策略是指在选择动作时,以ε的概率随机选择一个动作,以(1-ε)的概率选择当前奖励值最大的动作,所述ε由式(5)所表征:
Figure FDA0003483346970000022
式(5)中:
δ为调整系数,δ的值是小于1的常数;
Step是步数;X0是探索初始值,其值为正数;ar为状态s下随机选取的动作;
Q(s,ar|θ)为状态s下动作ar的奖励函数估计值,以θ为奖励函数值的定义参数;
Q(s,a*|θ)为状态s下动作a*的奖励函数估计值,以θ为奖励函数值的定义参数;
步骤4、按如下方式实施配网/微网电压控制:
4.1、根据步骤2建立均值深度双Q神经网络,初始化神经网络中的参数θ,初始化记忆集D的容量和采样集采样数目,读取电动汽车可调节功率预测结果,将步数Step置为0;
4.2、读取电网电压和结合电动汽车可调节功率预测结果得到当前状态st
4.3、将当前状态st输入在线网络中获得所有动作的奖励函数估计值Qt(st,A|θ);
4.4、根据按步骤3所获得的动态ε-greedy策略从步骤1中的动作集A中选取当前动作at,并将当前动作输入电网中进行潮流计算,得到新状态st+1
4.5、根据新状态st+1计算获得即时奖励r;
4.6、将{st,at,st+1,r}放入记忆集D中,随后判断记忆集D是否已满;
若记忆集D未满,返回步骤4.2;
若记忆集D已满,进入步骤4.7;
4.7、从记忆集D中采样给在线网络和目标网络,分别计算Q(s,a|θ)和yWDDQN,并计算损失函数L(θ),采用随机梯度下降更新在线网络参数;
4.8、将Step的赋值增加1,每隔固定步数C将在线网络参数复制给目标网络;
4.9、判断Step的值是否为最大;
若Step的值不是最大值,返回步骤4.7;
若Step的值为最大值,由当前在线网络输出奖励值最大的动作,完成强化学习过程,实现电压控制。
2.根据权利要求1所述的基于权重均值深度双Q网络的主动配电网电压控制方法,其特征是:在所述步骤1中,按如下方式设置对于状态集S、动作集A和即时奖励r:
所述状态集S是所有状态向量的集合,状态向量st为当前时刻t电网内节点电压分布情况和电动汽车集群可***况,由式(6)所表征:
st={U1,t,...,UN,t,...,PEl,t,min,...,PEl,t,max,...,CEl,t,min,...,CEl,t,max,...}      (6)
式(6)中:
以i表征节点,i=1,2,…,N,N为电压调节区域中的节点数;
以Ui,t表征当前时刻t第i个节点的电压幅值;
U1,t为当前时刻t第1个节点的电压幅值,UN,t为当前时刻t第N个节点的电压幅值;
PEl,t,min为第l个电动汽车集群在当前时刻t的可调功率的最小值;
PEl,t,max为第l个电动汽车集群在当前时刻t的可调功率的最大值;
CEl,t,min为第l个电动汽车集群在当前时刻t的可调容量的最小值;
CEl,t,max为第l个电动汽车集群在当前时刻t的可调容量的最大值;
以L表征可调电动汽车集群数,所述状态向量st的元素数目为N+4L;
所述动作集A为所有动作向量的集合,在当前状态st下的动作向量at为可调微源的输出动作,由式(7)所表征;
Figure FDA0003483346970000031
式(7)中:
以j表征可调微源,m为可调微源的总数,j=1,2,…,m;
以k表征可调动作,K为每个单元可调动作的总数,k=0,1,…,K-1
动作集A的元素数目为Km个;
Figure FDA0003483346970000032
表征当前时刻t第j个可调微源的第k个动作;并有:
Figure FDA0003483346970000041
Qj,min为第j个可调微源的可调无功功率的最小值;
Qj,max为第j个可调微源的可调无功功率的最大值;
Pj,t,min为第j个可调微源在当面时刻t的可调有功功率的最小值;
Pj,t,max为第j个可调微源在当面时刻t的可调有功功率的最大值;
所述即时奖励r由式(9)表征;
Figure FDA0003483346970000042
式(9)中:
Ui为节点电压;λi为奖励系数,用于修正即时奖励的大小,并有:
Figure FDA0003483346970000043
所述即时奖励r是以电力***关于电压偏移的相关规定为基础,且优先调度越限的节点。
CN202210074238.3A 2022-01-21 2022-01-21 基于权重均值深度双q网络的主动配电网电压控制方法 Active CN114400675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210074238.3A CN114400675B (zh) 2022-01-21 2022-01-21 基于权重均值深度双q网络的主动配电网电压控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210074238.3A CN114400675B (zh) 2022-01-21 2022-01-21 基于权重均值深度双q网络的主动配电网电压控制方法

Publications (2)

Publication Number Publication Date
CN114400675A CN114400675A (zh) 2022-04-26
CN114400675B true CN114400675B (zh) 2023-04-07

Family

ID=81233698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210074238.3A Active CN114400675B (zh) 2022-01-21 2022-01-21 基于权重均值深度双q网络的主动配电网电压控制方法

Country Status (1)

Country Link
CN (1) CN114400675B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116599061B (zh) * 2023-07-18 2023-10-24 国网浙江省电力有限公司宁波供电公司 一种基于强化学习的电网运行控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning
CN111478326B (zh) * 2020-05-12 2021-09-03 南方电网科学研究院有限责任公司 基于无模型强化学习的综合能源能量优化方法及装置
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN113036772B (zh) * 2021-05-11 2022-07-19 国网江苏省电力有限公司南京供电分公司 一种基于深度强化学习的配电网拓扑电压调节方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法

Also Published As

Publication number Publication date
CN114400675A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN112186743B (zh) 一种基于深度强化学习的动态电力***经济调度方法
CN105846461B (zh) 一种大规模储能电站自适应动态规划的控制方法和***
CN114362196B (zh) 一种多时间尺度主动配电网电压控制方法
CN109256810B (zh) 考虑风机出力不确定成本的多目标优化方法
CN109034587B (zh) 一种协调多种可控单元的主动配电***优化调度方法
CN110165714B (zh) 基于极限动态规划算法的微电网一体化调度与控制方法、计算机可读存储介质
CN112507614A (zh) 一种分布式电源高渗透率地区电网综合优化方法
CN113300380B (zh) 一种基于负荷曲线分段的配电网无功优化补偿方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及***
CN108539797A (zh) 一种考虑经济性的孤岛微电网二次频率和电压控制方法
Yin et al. Hybrid multi-agent emotional deep Q network for generation control of multi-area integrated energy systems
CN117057491B (zh) 基于mpc与储能***结合的农村地区电力供应优化管理方法
CN113675890A (zh) 基于td3的新能源微电网优化方法
CN114400675B (zh) 基于权重均值深度双q网络的主动配电网电压控制方法
CN114566971A (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
CN113224769A (zh) 考虑光伏多状态调节的多时间尺度配电网电压优化方法
CN115795992A (zh) 一种基于运行态势虚拟推演的园区能源互联网在线调度方法
Liu et al. An AGC dynamic optimization method based on proximal policy optimization
CN110289643B (zh) 一种拒识深度微分动态规划实时发电调度与控制算法
CN113240072A (zh) 一种用于直流微电网集群的基于深度学习的预测方法
Du et al. Deep reinforcement learning for adaptive frequency control of island microgrid considering control performance and economy
Kang et al. Power flow coordination optimization control method for power system with DG based on DRL
CN117713202B (zh) 基于深度强化学习的分布式电源自适应控制方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant