CN115360768A - 基于muzero和深度强化学习的电力调度方法、装置及存储介质 - Google Patents

基于muzero和深度强化学习的电力调度方法、装置及存储介质 Download PDF

Info

Publication number
CN115360768A
CN115360768A CN202210988636.6A CN202210988636A CN115360768A CN 115360768 A CN115360768 A CN 115360768A CN 202210988636 A CN202210988636 A CN 202210988636A CN 115360768 A CN115360768 A CN 115360768A
Authority
CN
China
Prior art keywords
power
muzero
reinforcement learning
power system
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210988636.6A
Other languages
English (en)
Inventor
赵敏彤
郇嘉嘉
黄欣
何春庚
蓝晓东
刘嘉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202210988636.6A priority Critical patent/CN115360768A/zh
Publication of CN115360768A publication Critical patent/CN115360768A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Water Supply & Treatment (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于muzero和深度强化学习的电力调度方法、装置及存储介质。该方法通过从电力***获取实时电力数据,将所述实时电力数据输入至所述基于muzero的深度强化学习模型,输出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;所述基于muzero的深度强化学习模型根据电力***环境模型训练得到,所述电力***环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励;根据所述各分布式电力资源的功率对所述电力***的各分布式电力资源进行调度,并使所述电力***达到所述联络功率的要求。本发明技术方案提高了电力***对分布式电力资源的调度效率,减少了电力资源的浪费。

Description

基于muzero和深度强化学习的电力调度方法、装置及存储 介质
技术领域
本发明涉及电力调度技术领域,尤其涉及一种基于muzero和深度强化学习的电力调度方法、装置及存储介质。
背景技术
储能作为满足节能减排需要与适配可再生能源消纳的设备,其规划与运行将引入时段耦合约束,储能状态转移的建模与实时出力的求解也不得不考虑相邻时段的发电与荷电状态,因此以储能为主要消纳载体的方式使得新能源消纳业务变成复杂的多阶段优化决策问题。问题的精准建模与求解难度大,同时要求决策快速并尽可能地消纳风光,以满足实时调度需求,这对求解问题的模型提出了很高的要求。
传统决策方案如随机规划、鲁棒优化等,在降低***运行成本与考虑极端恶劣场景下的可行决策方面具有一定的优势,然而上述传统方法在解决可再生能源以及电负荷导致的随机多场景问题时,存在计算量大、计算精度低、决策方案过于保守等缺点。因此,为解决复杂运行调度问题并满足可再生能源的消纳要求,研究人员急需引入新的决策方法。
随着人工智能技术兴起和发展,强化学习(Reinforcement Learning)作为解决序贯决策问题的重要技术,通过与环境交互试错,在持续学习中更新价值评判和策略选择,成为解决序贯决策问题行之有效的技术,特别是深度神经网络与强化学习结合后的深度强化学习模型(Deep Reinforcement Learning,DRL),具有更好的自适应学习能力和解决非凸非线性问题的优化决策能力,其为处理复杂电力***运行调度问题提供了新的思路。然而目前许多仅基于单一的神经网络的DRL方法在提取***状态与输出策略方面存在精度低等不足,对模型性能也要求较高,难以准确把握包括源荷波动性在内的***不确定性状态,难以精准全消纳风光等新能源。
发明内容
本发明提供一种基于muzero和深度强化学习的电力调度方法、装置及存储介质,提高了电力***对分布式电力资源的调度效率,减少了电力资源的浪费。
本发明一实施例提供一种基于muzero和深度强化学习的电力调度方法,包括以下步骤:
从电力***获取实时电力数据,将所述实时电力数据输入至所述基于muzero的深度强化学习模型,输出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;所述基于muzero的深度强化学习模型根据电力***环境模型训练得到,所述电力***环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励;
根据所述各分布式电力资源的功率对所述电力***的各分布式电力资源进行调度,并使所述电力***达到所述联络功率的要求。
进一步的,建立所述电力***环境模型具体为:根据电力***的全时段运行成本、上级电网联络效益和碳排放成本得到所述电力***环境模型的目标函数,并使所述电力***环境模型满足电力***安全运行的约束条件。
进一步的,根据以下步骤对所述基于muzero的深度强化学习模型进行训练:
将所述电力***的历史电力数据输入至所述基于muzero的深度强化学习模型,所述基于muzero的深度强化学习模型决策出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;
所述电力***环境模型根据决策出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率,计算所述电力***的目标成本并将所述目标成本作为决策奖励反馈至所述基于muzero的深度强化学习模型;
所述基于muzero的深度强化学习模型根据所述目标成本对决策动作进行评判,并根据所述目标成本调整下一次的决策动作直至所述基于muzero的深度强化学习模型收敛。
进一步的,所述满足电力***安全运行的约束条件,具体为:满足电力***的潮流方程约束、功率平衡约束、电压安全稳定约束和储能运行安全约束。
进一步的,输出各分布式电力资源的功率,具体包括:风电输出功率、光伏输出功率、传统机组输出功率、储能输入功率和储能输出功率。
进一步的,根据第一神经网络、第二神经网络和第三神经网络构建所述基于muzero的深度强化学习模型;
所述第一神经网络为表征网络,用于对输入所述深度强化学习模型的电力***的电力数据进行编码;
所述第二神经网络为动态网络,用于根据当前时刻的电力***状态决策出第一动作,并根据所述第一动作获得下一个时刻的电力***状态和获得采取所述第一动作后的即时奖励;
所述第三神经网络为预测网络,用于获取当前时刻下的当前状态的控制策略与价值函数。
进一步的,所述电力***环境模型的目标函数具体为:
Figure BDA0003802990570000031
式中,Fsystem,tk表示在tk时刻所述电力***的运行成本,Ftrans,tk表示在tk时刻所述电力***与上级电网的联络效益,Fcarbon,tk表示在tk时刻所述电力***的碳排放成本,T表示调度时段。
进一步的,所述电力数据包括电负荷功率特性、风电出力上限、光伏出力上限、传统机组出力、储能soc、分时电价和时间断面。
本发明另一实施例提供了一种基于muzero和深度强化学习的电力调度装置,包括电力资源功率决策模块和电力资源调度模块;
所述电力资源功率决策模块用于从电力***获取实时电力数据,将所述实时电力数据输入至所述基于muzero的深度强化学习模型,输出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;所述基于muzero的深度强化学习模型根据电力***环境模型训练得到,所述电力***环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励;
所述电力资源调度模块用于根据所述各分布式电力资源的功率对所述电力***的各分布式电力资源进行调度,并使所述电力***达到所述联络功率的要求。
本发明另一实施例提供了一种可读存储介质,所述可读存储介质包括存储的计算机程序,所述计算机程序执行时,控制所述可读存储介质所在的设备执行本发明任意一项方法项实施例所述的基于muzero和深度强化学习的电力调度方法。
本发明的实施例,具有如下有益效果:
本发明提供了一种基于muzero和深度强化学***和精度,进而提高了电力***对分布式电力资源的调度效率,减少了电力资源的浪费,解决了针对实时调度业务上的新能源消纳不足的问题。
附图说明
图1是本发明一实施例提供的基于muzero和深度强化学习的电力调度方法的流程示意图;
图2是本发明一实施例提供的基于muzero和深度强化学习的电力调度装置的结构示意图;
图3是本发明一实施例提供的基于muzero和深度强化学习的电力调度方法的电力***的结构示意图;
图4是本发明一实施例提供的基于muzero的深度强化学习模型的训练流程示意图;
图5是本发明一实施例提供的基于muzero的深度强化学习模型的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供的一种基于muzero和深度强化学习的电力调度方法,包括以下步骤:
步骤S101:从电力***获取实时电力数据,将所述实时电力数据输入至所述基于muzero的深度强化学习模型,输出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;所述基于muzero的深度强化学习模型根据电力***环境模型训练得到,所述电力***环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励。如图3所示,所述电力***包括风电站、光电站、传统机组和储能电站。从所述电力***获取实时电力数据,所述实时电力数据包括电负荷功率特性、风电出力上限、光伏出力上限、传统机组出力、储能soc、分时电价和时间断面,所述电力数据反映了所述电力***的状态信息。所述输出各分布式电力资源的功率,具体包括:风电输出功率、光伏输出功率、传统机组输出功率、储能输入功率和储能输出功率。
建立电力***环境模型时,根据电力***的全时段运行成本、上级电网联络效益和碳排放成本得到所述电力***环境模型的目标函数,并使所述电力***环境模型满足电力***安全运行的约束条件,所述满足电力***安全运行的约束条件包括满足电力***的潮流方程约束、功率平衡约束、电压安全稳定约束和储能运行安全约束。具体的,本发明考虑电力***动态能量管理,兼顾不同调度时刻的时间耦合,在满足***安全运行的约束下,根据电力***全时段的运行成本、上级电网联络效益和碳排放成本得到所述电力***环境模型的目标函数:
Figure BDA0003802990570000061
式中,Fsystem,tk表示在tk时刻所述电力***的运行成本,Ftrans,tk表示在tk时刻所述电力***与上级电网的联络效益,Fcarbon,tk表示在tk时刻所述电力***的碳排放成本,T表示调度时段。
作为其中一种实施例,根据以下公式计算所述电力***的运行成本Fsystem
Figure BDA0003802990570000062
式中,ai,bi,ci为传统机组耗量特性曲线参数;δ为弃风弃光成本系数,为充分消纳新能源,系数δ远大于其它电源的成本特性系数;Ce(tk)为tk时刻储能出力的分时电价系数,C(tk)表示损耗成本系数,Δt为调度时间断面间隔(时间断面是指电力***进行电力调度的动作时刻,如:早上8点、早上8.15;时间断面间隔是指两个动作时刻之间的时段,如:15分钟);Pmt,it为节点i发电机组在tk时刻的有功功率,Ppv,i,t为节点i在tk时刻光伏的有功功率,Pess,i,t为节点i在tk时刻储能的有功功率,
Figure BDA0003802990570000063
为线路i在tk时刻的线路损耗。
作为其中一种实施例,根据以下公式计算所述电力***与上级电网的联络效益Ftrans
Figure BDA0003802990570000071
式中,Ce1(tk)和Ce2(tk)分别表示上级电网实时购电价格和售电价格,Ptrans,tk为与上级电网的传输功率,当Ptrans,tk为正时,电力***向上级电网购电,反之则售电。
作为其中一种实施例,根据以下公式计算所述电力***的碳排放成本Fcarbon
Figure BDA0003802990570000072
式中,Ccarbon为碳排放成本系数。
所述电力***环境模型反馈给所述基于muzero的深度强化学习模型的奖励为所述目标函数的负值:
Figure BDA0003802990570000073
所述基于muzero的深度强化学习模型以最大化全时段的累积奖励方式持续学习最优策略。如图5所示,在训练阶段,所述基于muzero的深度强化学习模型与所述电力***环境模型不断交互,获取各个调度时刻的电力***状态(即图5中的状态感知)并生成决策动作(对应图5中的输出策略),所述电力***环境模型计算所述基于muzero的深度强化学习模型的决策动作带来的奖励值(对应图5中的反馈奖励)并反馈给基于muzero的深度强化学习模型,基于muzero的深度强化学习模型利用梯度下降法更新模型参数以达到最大化回合奖励。在应用阶段,针对各个实时调度任务,基于muzero的深度强化学习模型仅需从获取当前时刻下电力***状态信息(即电力数据),直接输出最优调度决策。
作为其中一种实施例,所述满足电力***安全运行的约束条件,具体为:满足电力***的潮流方程约束、功率平衡约束、电压安全稳定约束和储能运行安全约束。
作为其中一种实施例,所述电力***的潮流约束,具体为:
Figure BDA0003802990570000081
Figure BDA0003802990570000082
式中,Pmt,i,t和Qmt,i,t为分别为节点i发电机组在tk时刻的有功功率和无功功率;Pload,i,t和Qload,i,t分别为节点i在tk时刻的有功负荷和无功负荷;Pwt,i,t、Ppv,i,t和Pess,i,t分别为节点i在tk时刻的风电、光伏和储能的有功功率;Ui,t为节点i的电压模值;θij,t为两节点间的相角差;Gij和Bij分别是节点i、j之间的电导和电纳。
作为其中一种实施例,所述功率平衡约束,具体为:
Figure BDA0003802990570000083
式中,
Figure BDA0003802990570000084
为线路i在tk时刻的线路损耗;
Figure BDA0003802990570000085
为在tk时刻的与上级电网间的传输功率(即联络功率)。
作为其中一种实施例,所述电压安全稳定约束,具体为:
vi,min<vi<vi,max
式中,vi,max,vi,min分别代表节点i处安全稳定电压上下限,一般分别设置为0.95vN与1.05vN,vN为额定电压。
作为其中一种实施例,所述储能运行安全约束具体为:
Figure BDA0003802990570000086
式中:Eess,i为节点i处储能的容量,Sess,i,max,Pess,i,max,Qess,i,max分别为节点i处储能的容量上限、有功功率上限和无功功率上限,Socess,i,max和Socess,i,min分别为储能荷电状态的上限和下限,ηc和ηd分别为储能的充电效率和放电效率。
作为其中一种实施例,如图4所示,根据第一神经网络、第二神经网络和第三神经网络构建所述基于muzero的深度强化学习模型;
所述第一神经网络为表征网络(对应图4中的表示网络),用于对输入所述深度强化学习模型的电力***的电力数据进行编码;
所述第二神经网络为动态网络,用于根据当前时刻的电力***状态决策出第一动作,并根据所述第一动作获得下一个时刻的电力***状态和获得采取所述第一动作后的即时奖励;
所述第三神经网络为预测网络,用于根据当前时刻的当前状态生成控制策略和价值。
优选的,所述表征网络hθ、动态网络gα和预测网络fω的表达式为:
Figure BDA0003802990570000091
Figure BDA0003802990570000092
Figure BDA0003802990570000093
式中,θ表示所述表征网络的权重;α表示所述动态网络的权重;ω表示所述预测网络的权重,(s1,...st)表示所述电力***的历史与实时电力数据,其中,s1为历史电力数据,st为实时电力数据。上标k表示第k个训练轮次的变量。
Figure BDA0003802990570000094
表示内部状态,所述内部状态为依据历史与实时电力数据编码的,能适配于神经网络的输入,所述内部状态通过所述表征网络得到。P表示控制策略、v表示价值和r表示即时奖励。
所述基于muzero的深度强化学习模型进行决策时,所述预测网络根据所述表征网络编码后的内部状态创建根节点,通过迭代执行N次模拟来构建搜索树,最后根据根节点的子节点的访问频率可以确定需要决策的动作的最佳输出功率,并在下一个时间步骤中利用动态网络实现状态转移,重复上述优化过程。此外,动态网络可以根据当前状态和执行的动作直接计算出下一个内部状态。
所述基于muzero的深度强化学习模型是一种将muzero的蒙特卡罗树搜索(MCTS)规划方法与自学习的神经网络模型相结合的模型,其通过引入一个由三组神经网络构成的学习模型来提高MCTS的性能,并在决策时不断探索可行解和根据训练过程中的五元组<S,A,P,r,γ>计算损失函数以反向更新模型参数,最终探索到最优解(即最优决策动作)。
作为其中一种实施例,所述基于muzero的深度强化学习模型的状态空间为:
S={Pload,|load|,Ppv,|pv|,max,Pwt,|wt|,max,Pmt,|mt|,Socess,|ess|,a,t} (14)
式中,Pload,|load|、Ppv,|pv|,max、Pwt,|wt|,max、Pmt,|mt|,、Socess,|ess|、a和t分别为电负荷功率特性、风电出力上限、光伏出力上限、传统机组出力、储能soc、分时电价、时间断面。
所述基于muzero的深度强化学习模型的动作空间为:
A={amt,|mt|,aess,|ess|,apv,|pv|,awt,|wt|} (15)
式中,amt,|mt|、aess,|ess|、apv,|pv|和awt,|wt|分别表示模型输出的实时传统机组出力增量、储能出力增量、风电出力和光伏出力,amt,|mt|、aess,|ess|、apv,|pv|和awt,|wt|的取值范围为[-1,1]。在设置深度强化学习模型的时候,已经规定了神经网络输出的为[-1,1]的值,再根据各电力资源的特性将神经网络输出的值转换为实际出力。
依据各电源爬坡约束不同,模型创新性地提出针对不同电源决策其出力变化量或实时出力。对于传统机组和储能soc需考虑时间耦合约束,决策其出力变化量为:
Figure BDA0003802990570000101
式中,k表示传统机组或储能soc,Uk,|k|,tk和Dk,|k|,tk分别为在tk时刻传统机组或储能soc允许爬坡上限和下限。
由于可再生能源实时出力需被严格限制在超短期精准预测出力上限的范围内,因此,设计夹层函数规范所述基于muzero的深度强化学习模型决策新能源出力,决策可再生能源的实时出力为:
Pl,|l|,t=al,|l|,tPl,|l|,max (17)
式中,l表示可再生能源,如风电或光伏,Pl,|l|,t表示可再生能源的实时出力。
考虑各电力资源的出力上下限约束,所述基于muzero的深度强化学习模型的动作幅值的约束条件为:
P*,|*|min≤P*,|*|,t≤P*,|*|,max (18)
式中,P*,|*|,max和P*,|*|,min表示各决策对象的有功功率上限和有功功率下限。
作为其中一种实施例,根据以下步骤对所述基于muzero的深度强化学习模型进行训练:
步骤S1011:将所述电力***的历史电力数据输入至所述基于muzero的深度强化学习模型,所述基于muzero的深度强化学习模型决策出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;
步骤S1012:所述电力***环境模型根据决策出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率,计算所述电力***的目标成本并将所述目标成本作为决策奖励反馈至所述基于muzero的深度强化学习模型;
步骤S1013:所述基于muzero的深度强化学习模型根据所述目标成本对决策动作进行评判,并根据所述目标成本调整下一次的决策动作直至所述基于muzero的深度强化学习模型收敛。
步骤S102:根据所述各分布式电力资源的功率对所述电力***的各分布式电力资源进行调度,并使所述电力***达到所述联络功率的要求。具体的,根据输出风电输出功率、光伏输出功率、传统机组输出功率和储能输入输出功率进行调度,并使所述电力***达到所述联络功率的要求。
本发明针对实时调度业务上的新能源消纳不足的问题,通过将深度学***衡约束下,保障高渗透率新能源的全消纳,并且通过储能、与上级电网联络等手段消纳风光的同时,确保***的稳定运行。本发明通过离线时训练基于muzero的深度强化学习模型,模型通过不断的“试错”学习探索各个调度时刻下的包括传统机组、储能与上级电网联络在内的出力,满足每个时刻的新能源消纳需求,可以根据环境的当前状态随着时间向前做出每个调度时段的最优决策。本发明实现了以经济效益最大的方式消纳新能源,提高了与上级电网的耦合互补能力和电力***的新能源消纳能力。
在上述发明实施例的基础上,本发明对应提供了装置项实施例,如图2所示;
本发明另一实施例提供了一种基于muzero和深度强化学习的电力调度装置,包括电力资源功率决策模块和电力资源调度模块;
所述电力资源功率决策模块用于从电力***获取实时电力数据,将所述实时电力数据输入至所述基于muzero的深度强化学习模型,输出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;所述基于muzero的深度强化学习模型根据电力***环境模型训练得到,所述电力***环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励;
所述电力资源调度模块用于根据所述各分布式电力资源的功率对所述电力***的各分布式电力资源进行调度,并使所述电力***达到所述联络功率的要求。
为描述的方便和简洁,本发明装置项实施例包括上述基于muzero和深度强化学习的电力调度方法实施例中的全部实施方式,此处不再赘述。
在上述发明项实施例的基础上,本发明对应提供了可读存储介质项实施例;本发明另一实施例提供了一种可读存储介质,所述可读存储介质包括存储的计算机程序,所述计算机程序执行时,控制所述可读存储介质所在的设备执行如本发明任意一项方法项实施例所述的基于muzero和深度强化学习的电力调度方法。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质(即上述可读存储介质)中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (10)

1.一种基于muzero和深度强化学习的电力调度方法,其特征在于,包括以下步骤:
从电力***获取实时电力数据,将所述实时电力数据输入至所述基于muzero的深度强化学习模型,输出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;所述基于muzero的深度强化学习模型根据电力***环境模型训练得到,所述电力***环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励;
根据所述各分布式电力资源的功率对所述电力***的各分布式电力资源进行调度,并使所述电力***达到所述联络功率的要求。
2.根据权利要求1所述的基于muzero和深度强化学习的电力调度方法,其特征在于,建立所述电力***环境模型具体为:根据电力***的全时段运行成本、上级电网联络效益和碳排放成本得到所述电力***环境模型的目标函数,并使所述电力***环境模型满足电力***安全运行的约束条件。
3.根据权利要求2所述的基于muzero和深度强化学习的电力调度方法,其特征在于,根据以下步骤对所述基于muzero的深度强化学习模型进行训练:
将所述电力***的历史电力数据输入至所述基于muzero的深度强化学习模型,所述基于muzero的深度强化学习模型决策出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;
所述电力***环境模型根据决策出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率,计算所述电力***的目标成本并将所述目标成本作为决策奖励反馈至所述基于muzero的深度强化学习模型;
所述基于muzero的深度强化学习模型根据所述目标成本对决策动作进行评判,并根据所述目标成本调整下一次的决策动作直至所述基于muzero的深度强化学习模型收敛。
4.根据权利要求3所述的基于muzero和深度强化学***衡约束、电压安全稳定约束和储能运行安全约束。
5.根据权利要求4所述的基于muzero和深度强化学习的电力调度方法,其特征在于,输出各分布式电力资源的功率,具体包括:风电输出功率、光伏输出功率、传统机组输出功率、储能输入功率和储能输出功率。
6.根据权利要求5所述的基于muzero和深度强化学习的电力调度方法,其特征在于,根据第一神经网络、第二神经网络和第三神经网络构建所述基于muzero的深度强化学习模型;
所述第一神经网络为表征网络,用于对输入所述深度强化学习模型的电力***的电力数据进行编码;
所述第二神经网络为动态网络,用于根据当前时刻的电力***状态决策出第一动作,并根据所述第一动作获得下一个时刻的电力***状态和获得采取所述第一动作后的即时奖励;
所述第三神经网络为预测网络,用于根据当前时刻的当前状态生成控制策略和价值。
7.根据权利要求6所述的基于muzero和深度强化学习的电力调度方法,其特征在于,所述电力***环境模型的目标函数具体为:
Figure FDA0003802990560000021
式中,Fsystem,tk表示在tk时刻所述电力***的运行成本,Ftrans,tk表示在tk时刻所述电力***与上级电网的联络效益,Fcarbon,tk表示在tk时刻所述电力***的碳排放成本,T表示调度时段。
8.根据权利要求1至7任一项所述的基于muzero和深度强化学习的电力调度方法,其特征在于,所述电力数据包括电负荷功率特性、风电出力上限、光伏出力上限、传统机组出力、储能soc、分时电价和时间断面。
9.一种基于muzero和深度强化学习的电力调度装置,其特征在于,包括电力资源功率决策模块和电力资源调度模块;
所述电力资源功率决策模块用于从电力***获取实时电力数据,将所述实时电力数据输入至所述基于muzero的深度强化学习模型,输出各分布式电力资源的功率,以及所述电力***与上级电网的联络功率;所述基于muzero的深度强化学习模型根据电力***环境模型训练得到,所述电力***环境模型用于向所述基于muzero的深度强化学习模型反馈决策奖励;
所述电力资源调度模块用于根据所述各分布式电力资源的功率对所述电力***的各分布式电力资源进行调度,并使所述电力***达到所述联络功率的要求。
10.一种可读存储介质,其特征在于,所述可读存储介质包括存储的计算机程序,所述计算机程序执行时,控制所述可读存储介质所在的设备执行如权利要求1至8中任意一项所述的基于muzero和深度强化学习的电力调度方法。
CN202210988636.6A 2022-08-17 2022-08-17 基于muzero和深度强化学习的电力调度方法、装置及存储介质 Pending CN115360768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210988636.6A CN115360768A (zh) 2022-08-17 2022-08-17 基于muzero和深度强化学习的电力调度方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210988636.6A CN115360768A (zh) 2022-08-17 2022-08-17 基于muzero和深度强化学习的电力调度方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115360768A true CN115360768A (zh) 2022-11-18

Family

ID=84003189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210988636.6A Pending CN115360768A (zh) 2022-08-17 2022-08-17 基于muzero和深度强化学习的电力调度方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115360768A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117335439A (zh) * 2023-11-30 2024-01-02 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117335439A (zh) * 2023-11-30 2024-01-02 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及***
CN117335439B (zh) * 2023-11-30 2024-02-27 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及***

Similar Documents

Publication Publication Date Title
Luo et al. Short‐term operational planning framework for virtual power plants with high renewable penetrations
CN112039069B (zh) 一种配电网储能与柔性开关的双层协同规划方法及***
Cai et al. A fuzzy adaptive chaotic ant swarm optimization for economic dispatch
Tang et al. Study on day-ahead optimal economic operation of active distribution networks based on Kriging model assisted particle swarm optimization with constraint handling techniques
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、***及装置
CN112636396B (zh) 光伏配电网控制方法及终端
CN105896575B (zh) 基于自适应动态规划的百兆瓦储能功率控制方法及***
US20220393467A1 (en) Method and system for energy scheduling of shared energy storage considering degradation cost of energy storage
CN114358520B (zh) 一种电力***经济调度决策的方法、***、装置及介质
CN116207739B (zh) 配电网优化调度方法、装置、计算机设备和存储介质
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN115313519A (zh) 一种配电网储能优化配置方法、装置、设备及存储介质
CN116454914A (zh) 一种多类型资源复合调频模型的构建方法及装置
CN115360768A (zh) 基于muzero和深度强化学习的电力调度方法、装置及存储介质
Dou et al. Double‐deck optimal schedule of micro‐grid based on demand‐side response
CN114036825A (zh) 多虚拟电厂的协同优化调度方法、装置、设备及存储介质
CN115864611A (zh) 储能电池安全储能管理方法、***、设备及存储介质
CN115549137A (zh) 分布式电网调控***及调控方法
CN114418232A (zh) 储能***运行优化方法、***、服务器及存储介质
CN116054270A (zh) 电网调度优化方法、装置和非易失性存储介质
Niu et al. A novel social-environmental-economic dispatch model for thermal/wind power generation and application
An et al. Optimal scheduling for charging and discharging of electric vehicles based on deep reinforcement learning
CN116454927A (zh) 基于共享储能的电网两阶段在线调度方法、***及设备
CN113298329A (zh) 训练、策略生成方法、***、计算机装置及存储介质
Luo et al. Real-time distributed dispatch strategy for distribution transformer supply zone cluster based on cloud-edge collaboration architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination