CN115345380A - 一种基于人工智能的新能源消纳电力调度方法 - Google Patents

一种基于人工智能的新能源消纳电力调度方法 Download PDF

Info

Publication number
CN115345380A
CN115345380A CN202211062806.4A CN202211062806A CN115345380A CN 115345380 A CN115345380 A CN 115345380A CN 202211062806 A CN202211062806 A CN 202211062806A CN 115345380 A CN115345380 A CN 115345380A
Authority
CN
China
Prior art keywords
power
network
active
actor
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211062806.4A
Other languages
English (en)
Inventor
郭骏
郭磊
张勇
宁剑
郭万舒
李敏
王艺博
陈茂源
胡满
喻乐
訾鹏
刘健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Grid Co Ltd
Original Assignee
North China Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Grid Co Ltd filed Critical North China Grid Co Ltd
Priority to CN202211062806.4A priority Critical patent/CN115345380A/zh
Publication of CN115345380A publication Critical patent/CN115345380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/007Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
    • H02J3/0075Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Power Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于人工智能的新能源消纳电力调度方法,该方法包括:将电网有功最优潮流控制构建为电力***的有功优化调度在线模型,基于深度强化学习框架的PPO算法,训练有功优化调度在线模型;所述有功优化调度在线模型的深度强化学习框架包括状态、动作和奖励;根据实时电网运行数据进行在线决策,以智能体的奖励最大化为目的进行更新优化,得到最小化发电成本。本发明通过设计“状体——动作——奖励”的交互训练框架,得到了电力***有功优化调度在线模型,可以实时做出发电机最优出力控制,在满足电力***运行约束的条件下,降低***发电机出力成本。

Description

一种基于人工智能的新能源消纳电力调度方法
技术领域
本发明涉及电力调度技术领域,具体涉及一种基于人工智能的新能源消纳电力调度方法。
背景技术
近年来,随着我国电力事业的快速发展,风电、光伏等可再生能源的接入比例不断提高,新能源在电力***总发电量中所占的比例也越来越大。新能源的波动性会给电力***的安全可靠运行带来巨大挑战,这对电力***的实时有功优化调度有更高的要求。通过合理的调度手段可以提高电力***对波动新能源的接纳能力,保证电力***安全可靠经济运行。
电力***经济调度的目标就是在充分满足电网安全运营约束下,调整各个发电机的有功出力,最小化发电机出力成本。现代电力***的有功优调度往往包含了多个不同的变量、多个约束,是一个典型的非线性、高维度问题。然而传统的调度模型在一定程度上求解速度较慢,且随着电力***规模的增大以及新能源的渗透,传统求解方法模型具有一定的误差,无法满足现在新型电力***下的控制需求。在对于传统电力***中的有功调度优化研究中,常用的计算方法可以分为三类:数学方法、规划算法、启发式算法。这些方法存在计算速度慢、易陷入局部最优、依赖于模型与预测数据等问题。随着配电网规模的增加、电力电子器件数量的增多以及新能源的渗透,使得传统方法求解有功优化调度问题的复杂度大大提高,不再适用于在线控制的有功优化调度。具体而言,传统求解有功优化调度的方法在实现收敛方面具有时间紧迫性,尤其当***规模越来越大以及新能源发电占比的逐渐提高,同时,传统思路根据当前时间断面的状态通过模型来求出最优解,但是无法解决连续时间断面下的最优控制。
近年来,人工智能、数据驱动相关技术的推进,使得基于人工智能的优化方法在电力***中得到了广泛应用。电力***有功优化调度问题可以建模成一个给定电力负荷值,寻找最优发电机功率组合的序贯决策问题。深度强化学习算法结合了深度学习优秀的表征能力和强化学习优秀的决策能力,在解决连续的状态、动作空间时表现出了良好的能力,因此,行业内急需研发一种采用深度强化学习来解决经济调度的方法。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种能促进新能源消纳的基于人工智能的新能源消纳电力调度方法。
本发明的目的通过以下的技术方案实现:
一种基于人工智能的新能源消纳电力调度方法包括:
S1,将电网有功最优潮流控制构建为电力***的有功优化调度在线模型,
S2,基于深度强化学习框架的PPO算法,对电力***有功优化调度在线模型的智能体通过与环境的交互逐渐改进自己的行动来获得最大的奖赏,以训练有功优化调度在线模型;所述有功优化调度在线模型的深度强化学习框架包括状态、动作和奖励;
S3,有功优化调度在线模型根据实时电网运行数据进行在线决策,以智能体的奖励最大化为目的进行更新优化,得到最小化发电成本。
优选地,所述PPO算法包括一个Critic_network和两个Actor network,两个Actornetwork分别为Old_actor and New_actor。
优选地,在一个Episode中,智能体首先利用现有的有功优化调度策略Pi与环境进行互动获得一个Batch(批次)的数据,待获得一个完整的Batch数据后,Actor_network和Critic_network开始对完整的Batch数据进行学习。
优选地,所述Actor_network和Critic_network开始对完整的Batch数据进行学习包括:Critic network通过有功优化调度在线模型神经网络来计算状态价值,Actornetwork利用所述状态价值迭代更新策略函数的参数,进而选择动作并得到反馈和新的状态,Critic network使用反馈和新的状态更新神经网络参数,并使用新的网络参数来帮Actor network计算更准确的状态/动作价值。
优选地,在每次Episode中,智能体都会与环境进行交互,并将获得的状态、动作、奖励作为一个元组存入经验池中。
优选地,在策略函数更新时,利用KL散度的方式限制策略更新的步长。
优选地,通过重要性采样的方式获取每个动作的相对权重,
Figure BDA0003826956860000031
将f(x)对于分布p分布的期望值转换成相对于另一个分布q的期望值,实现数据的重复利用。
优选地,所述的基于人工智能的新能源消纳电力调度方法具体包括如下步骤:
S11,将初始化构建的环境中的状态信息输入到Actor_newnetwork,得到代表动作分布的均值mu和方差sigma,构建一个正态分布然后对动作进行采样;
S12,采样得到的Action输入到环境中得到奖励以及下一步的状态,然后存储在经验池((st,at,rt,st+1),然后对下一步的状态st+1执行步骤S11,直至获得一个完整的Batch数据后,执行步骤S13;
S13,将状态输入Critic_network得到状态价值,计算奖励,得到所有状态的价值计算优势估计函数
Figure BDA0003826956860000041
S14,根据计算所得的优势函数并进行均方根之后所得的loss反向传播更新Critic_network的参数;
S15,将经验池的s和a分别输入到Actor_new和Actor_old得到正态分布N1和N2以及P1和P2,计算Important sampling的比例P2/P1,通过计算比例P2/P1并且采用KL散度的方式来衡量确保动作分布差别小于M,M>0;
S16,根据计算所得的优势函数并进行均方根之后所得的loss更新Actor_network的参数,并计算更准确的状态/动作价值,计算公式如下:
Figure BDA0003826956860000042
其中π(at|st)为在当前状态下采取动作a的概率。
优选地,基于马尔可夫决策过程将电网有功最优潮流控制构建为电力***的有功优化调度在线模型。
优选地,所述有功优化调度在线模型的深度强化学习框架还包括:状态转移以及折扣因子。
本发明相对于现有技术具有如下优点:
本发明根据实时的电网状态,采用人工智能的方法对电力***有功进行优化控制,对电力***进行合理的经济调度,在满足电力***基本约束的条件下使得电力***运行成本最小,具体为:
(1)通过设计“状体——动作——奖励”的交互训练框架,得到了电力***有功优化调度在线模型,尤其是在面对大规模高比例新能源电力***时,可以实时做出发电机最优出力控制,在满足电力***运行约束的条件下,降低***发电机出力成本。
(2)改善了Policy Gradient算法对步长敏感的问题,在多个训练步骤实现小批量的更新,引入经验池提高了数据的利用率且能适用于连续动作空间的场景。
(3)该方法在深度强化学***下的最优潮流计算问题做了环境建模。同时整体设计了最优潮流计算自动调整模型的训练方案且训练得到了最终模型。通过仿真实验证明,所用方法能够在不同负荷水平下自动给出电网最优潮流计算调整方案,且能保证***内平衡机有功出力在额定范围内,发电机出力成本也维持在一个较低水平。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于人工智能的新能源消纳电力调度方法的流程示意图。
图2为本发明的环境初始化图。
图3为本发明的PPO算法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参见图1-图3,一种基于人工智能的新能源消纳电力调度方法包括:
S1,将电网有功最优潮流控制构建为电力***的有功优化调度在线模型,在本实施例,基于马尔可夫决策过程将电网有功最优潮流控制构建为电力***的有功优化调度在线模型。
S2,基于深度强化学习框架的PPO算法,对电力***有功优化调度在线模型的智能体通过与环境的交互逐渐改进自己的行动来获得最大的奖赏:高比例新能源融入的电网总运行成本最小,以训练有功优化调度在线模型;所述有功优化调度在线模型的深度强化学习框架包括状态、动作、奖励、状态转移以及折扣因子;智能体是与电网环境交互的实体。
其中,所述PPO算法包括一个Critic_network和两个Actor network,两个Actornetwork分别为Old_actor and New_actor。在一个Episode中,Agent(智能体)首先利用现有的有功优化调度策略Pi与环境进行互动获得一个Batch(批次)的数据,在这个过程中Actor和Critic网络是不会被优化的。待获得一个完整的Batch数据后,Actor_network和Critic_network开始对完整的Batch数据进行学习。
具体地,所述Actor_network和Critic_network开始对完整的Batch数据进行学习包括:Critic network通过有功优化调度在线模型神经网络来计算状态价值,Actornetwork利用所述状态价值迭代更新策略函数的参数,进而选择动作并得到反馈和新的状态,Critic network使用反馈和新的状态更新神经网络参数,并使用新的网络参数来帮Actor network计算更准确的状态/动作价值。在训练时改善了基础的基于策略的PolicyGradient算法对步长敏感的问题,可以在多个训练步骤实现小批量的更新。在求解速度以及求解精度上与传统方法相比较有一定程度的提高。
在本实施例,在每次Episode中,智能体都会与环境进行交互,并将获得的状态、动作、奖励作为一个元组存入经验池中,在经验池的元组满足一定数量时开始训练有功优化调度在线模型。
在本实施例,在策略函数更新时,利用KL散度的方式限制策略更新的步长。在策略函数(自身神经网络)更新时,为了防止前后两个策略函数的分布相差太大,利用KL散度的方式限制策略更新的步长。
在本实施例,了充分利用历史数据并体现出每个动作的真实的权重,通过重要性采样的方式获取每个动作的相对权重,
Figure BDA0003826956860000061
对于一个服从概率p分布的变量x,要估计x的函数值f(x)的期望,由于未知p的分布,因此从一个已知的分布q中进行采样,将f(x)对于分布p分布的期望值转换成相对于另一个分布q的期望值,可以实现数据的重复利用。
S3,有功优化调度在线模型根据实时电网运行数据进行在线决策,以智能体的奖励最大化为目的进行更新优化,得到最小化发电成本。在线决策即通过电网实时运行数据,实时计算电网有功控制策略。
本公开提供了一种可以对电力***有功进行合理分配使得电力***运行成本最小的方法。基于深度强化学习的框架对智能体神经网络进行训练,实现对电力***有功优化调度的实时控制。
图2为本发明的环境初始化图。如图2所示,在仿真的过程中先初始化环境,采用pandapower来对环境进行构建并读取数据,数据中考虑了新能源的占比以及其他一些计算潮流所必需的数据。智能体目标是使机组运行成本最小化,奖励最大化因此将成本用二次函数的形式表示并加以一定的保证电网安全运行的约束条件,同时考虑了电网中的不确定的随即断线的情况。
面对高比例新能源的波动性以及环境的不确定性,利用深度强化学习方法来搜索发电成本最小的最优运行条件。所提出的基于DRL的方法是调度问题一种较好的方法。图3为本发明的PPO算法流程图。如图3所示,将状态输入到Actor—New网络得到代表动作的正态分布的两个值:mu和sigma。对动作进行采样与环境交互得到奖励以及下一个状态,此过程进行循环后进行存储。将循环之后最后一步得到的状态以及存储的所有状态输入critic网络计算价值,反向传播来更新网络参数。所述的基于人工智能的新能源消纳电力调度方法具体包括如下步骤:
S11,将环境信息S输入到Actor_new网络,得到代表动作分布的均值mu和方差sigma,构建一个正态分布然后对动作进行采样,实现了用网络求解连续动作型问题。
S12,采样得到的Action输入到环境中得到奖励以及下一步的状态,然后存储在经验池((st,at,rt,st+1),然后对下一步的状态st+1执行步骤S11,直至获得一个完整的Batch数据后,执行步骤S13;
S13,将状态输入Critic_network得到状态价值,计算奖励,得到所有状态的价值计算优势估计函数
Figure BDA0003826956860000081
S14,根据计算所得的优势函数并进行均方根之后所得的loss反向传播更新Critic_network的参数;
S15,将经验池的s和a分别输入到Actor_new和Actor_old得到正态分布N1和N2以及P1和P2,计算Important sampling的比例P2/P1,通过计算比例P2/P1并且采用KL散度的方式来衡量确保动作分布差别不能太大(小于M,M>0);步骤S15实现了重要性采样并且采用KL散度来衡量分布。当KL[πoldθ]>βhighKLtarget,增加β,不鼓励参数θ的大幅度更新。
S16,根据计算所得的优势函数并进行均方根之后所得的更新Actor_network的参数,并计算更准确的状态/动作价值,计算公式如下:
Figure BDA0003826956860000082
其中π(at|st)为在当前状态下采取动作a的概率。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于人工智能的新能源消纳电力调度方法,其特征在于,包括:
S1,将电网有功最优潮流控制构建为电力***的有功优化调度在线模型,
S2,基于深度强化学习框架的PPO算法,对电力***有功优化调度在线模型的智能体通过与环境的交互逐渐改进自己的行动来获得最大的奖赏,以训练有功优化调度在线模型;所述有功优化调度在线模型的深度强化学习框架包括状态、动作和奖励;
S3,有功优化调度在线模型根据实时电网运行数据进行在线决策,以智能体的奖励最大化为目的进行更新优化,得到最小化发电成本。
2.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法,其特征在于,所述PPO算法包括一个Critic_network和两个Actor network,两个Actor network分别为Old_actor and New_actor。
3.根据权利要求2所述的基于人工智能的新能源消纳电力调度方法,其特征在于,在一个Episode中,智能体首先利用现有的有功优化调度策略Pi与环境进行互动获得一个Batch的数据,待获得一个完整的Batch数据后,Actor_network和Critic_network开始对完整的Batch数据进行学习。
4.根据权利要求3所述的基于人工智能的新能源消纳电力调度方法,其特征在于,所述Actor_network和Critic_network开始对完整的Batch数据进行学习包括:Critic network通过有功优化调度在线模型神经网络来计算状态价值,Actor network利用所述状态价值迭代更新自身神经网络的参数,进而选择动作并得到反馈和新的状态,Critic network使用反馈和新的状态更新神经网络参数,并使用新的网络参数来帮Actor network计算更准确的状态/动作价值。
5.根据权利要求4所述的基于人工智能的新能源消纳电力调度方法,其特征在于,在每次Episode中,智能体都会与环境进行交互,并将获得的状态、动作、奖励作为一个元组存入经验池中。
6.根据权利要求4所述的基于人工智能的新能源消纳电力调度方法,其特征在于,在策略函数更新时,利用KL散度的方式限制策略更新的步长。
7.根据权利要求4所述的基于人工智能的新能源消纳电力调度方法,其特征在于,通过重要性采样的方式获取每个动作的相对权重,
Figure FDA0003826956850000021
将f(x)对于分布p分布的期望值转换成相对于另一个分布q的期望值,实现数据的重复利用。
8.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法,其特征在于,所述的基于人工智能的新能源消纳电力调度方法具体包括如下步骤:
S11,将初始化构建的环境中的状态信息输入到Actor_newnetwork,得到代表动作分布的均值mu和方差sigma,构建一个正态分布然后对动作进行采样;
S12,采样得到的Action输入到环境中得到奖励以及下一步的状态,然后存储在经验池((st,at,rt,st+1),然后对下一步的状态st+1执行步骤S11,直至获得一个完整的Batch数据后,执行步骤S13;
S13,将状态输入Critic_network得到状态价值,计算奖励,得到所有状态的价值计算优势估计函数
Figure FDA0003826956850000022
S14,根据计算所得的优势函数并进行均方根之后所得的loss反向传播更新Critic_network的参数;
S15,将经验池的s和a分别输入到Actor_new和Actor_old得到正态分布N1和N2以及P1和P2,计算Important sampling的比例P2/P1,通过计算比例P2/P1并且采用KL散度的方式来衡量确保动作分布差别小于M,M>0;
S16,根据计算所得的优势函数并进行均方根之后所得的loss更新Actor_network的参数,并计算更准确的状态/动作价值,计算公式如下:
Figure FDA0003826956850000031
其中π(at|st)为在当前状态下采取动作a的概率。
9.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法,其特征在于,基于马尔可夫决策过程将电网有功最优潮流控制构建为电力***的有功优化调度在线模型。
10.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法,其特征在于,所述有功优化调度在线模型的深度强化学习框架还包括:状态转移以及折扣因子。
CN202211062806.4A 2022-09-01 2022-09-01 一种基于人工智能的新能源消纳电力调度方法 Pending CN115345380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211062806.4A CN115345380A (zh) 2022-09-01 2022-09-01 一种基于人工智能的新能源消纳电力调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211062806.4A CN115345380A (zh) 2022-09-01 2022-09-01 一种基于人工智能的新能源消纳电力调度方法

Publications (1)

Publication Number Publication Date
CN115345380A true CN115345380A (zh) 2022-11-15

Family

ID=83955053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211062806.4A Pending CN115345380A (zh) 2022-09-01 2022-09-01 一种基于人工智能的新能源消纳电力调度方法

Country Status (1)

Country Link
CN (1) CN115345380A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738874A (zh) * 2023-05-12 2023-09-12 珠江水利委员会珠江水利科学研究院 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法
CN117335414A (zh) * 2023-11-24 2024-01-02 杭州鸿晟电力设计咨询有限公司 一种电力***交流最优潮流决策方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738874A (zh) * 2023-05-12 2023-09-12 珠江水利委员会珠江水利科学研究院 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法
CN116738874B (zh) * 2023-05-12 2024-01-23 珠江水利委员会珠江水利科学研究院 基于Multi-Agent PPO强化学习的闸泵群联合优化调度方法
CN117335414A (zh) * 2023-11-24 2024-01-02 杭州鸿晟电力设计咨询有限公司 一种电力***交流最优潮流决策方法、装置、设备及介质
CN117335414B (zh) * 2023-11-24 2024-02-27 杭州鸿晟电力设计咨询有限公司 一种电力***交流最优潮流决策方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN110854932B (zh) 一种交直流配电网多时间尺度优化调度方法及***
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
Song et al. Energy capture efficiency enhancement of wind turbines via stochastic model predictive yaw control based on intelligent scenarios generation
CN114725936A (zh) 基于多智能体深度强化学习的配电网优化方法
CN112507614B (zh) 一种分布式电源高渗透率地区电网综合优化方法
CN113363998A (zh) 一种基于多智能体深度强化学习的配电网电压控制方法
US20230344242A1 (en) Method for automatic adjustment of power grid operation mode base on reinforcement learning
CN115293052A (zh) 电力***有功潮流在线优化控制方法、存储介质和装置
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及***
CN114566971A (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
CN115795992A (zh) 一种基于运行态势虚拟推演的园区能源互联网在线调度方法
CN117375097A (zh) 基于多代理协调控制策略与强化学习的光伏协调自治方法
CN117833263A (zh) 一种基于ddpg的新能源电网电压控制方法及***
CN117277346A (zh) 一种基于多智能体***的储能调频方法、装置及设备
CN117239764A (zh) 基于多智能体强化学习的配电网两阶段电压控制方法
CN111799820A (zh) 一种电力***双层智能混合零星云储能对抗调控方法
CN115912367A (zh) 一种基于深度强化学习的电力***运行方式智能生成方法
CN116865270A (zh) 一种含嵌入式直流的柔性互联配电网优化调度方法及***
CN115360768A (zh) 基于muzero和深度强化学习的电力调度方法、装置及存储介质
CN115133540A (zh) 一种配电网无模型的实时电压控制方法
CN116454927A (zh) 基于共享储能的电网两阶段在线调度方法、***及设备
CN114048576A (zh) 一种稳定电网输电断面潮流的储能***智能化控制方法
Tongyu et al. Based on deep reinforcement learning algorithm, energy storage optimization and loss reduction strategy for distribution network with high proportion of distributed generation
TWI847733B (zh) 利用深度q網路優化電力系統發電機組調度的方法及系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination