CN115345380A

CN115345380A - 一种基于人工智能的新能源消纳电力调度方法

Info

Publication number: CN115345380A
Application number: CN202211062806.4A
Authority: CN
Inventors: 郭骏; 郭磊; 张勇; 宁剑; 郭万舒; 李敏; 王艺博; 陈茂源; 胡满; 喻乐; 訾鹏; 刘健
Original assignee: North China Grid Co Ltd
Current assignee: North China Grid Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-11-15

Abstract

本发明公开了一种基于人工智能的新能源消纳电力调度方法，该方法包括：将电网有功最优潮流控制构建为电力***的有功优化调度在线模型，基于深度强化学习框架的PPO算法，训练有功优化调度在线模型；所述有功优化调度在线模型的深度强化学习框架包括状态、动作和奖励；根据实时电网运行数据进行在线决策，以智能体的奖励最大化为目的进行更新优化，得到最小化发电成本。本发明通过设计“状体——动作——奖励”的交互训练框架，得到了电力***有功优化调度在线模型，可以实时做出发电机最优出力控制，在满足电力***运行约束的条件下，降低***发电机出力成本。

Description

一种基于人工智能的新能源消纳电力调度方法

技术领域

本发明涉及电力调度技术领域，具体涉及一种基于人工智能的新能源消纳电力调度方法。

背景技术

近年来，随着我国电力事业的快速发展，风电、光伏等可再生能源的接入比例不断提高，新能源在电力***总发电量中所占的比例也越来越大。新能源的波动性会给电力***的安全可靠运行带来巨大挑战，这对电力***的实时有功优化调度有更高的要求。通过合理的调度手段可以提高电力***对波动新能源的接纳能力，保证电力***安全可靠经济运行。

电力***经济调度的目标就是在充分满足电网安全运营约束下，调整各个发电机的有功出力，最小化发电机出力成本。现代电力***的有功优调度往往包含了多个不同的变量、多个约束，是一个典型的非线性、高维度问题。然而传统的调度模型在一定程度上求解速度较慢，且随着电力***规模的增大以及新能源的渗透，传统求解方法模型具有一定的误差，无法满足现在新型电力***下的控制需求。在对于传统电力***中的有功调度优化研究中，常用的计算方法可以分为三类：数学方法、规划算法、启发式算法。这些方法存在计算速度慢、易陷入局部最优、依赖于模型与预测数据等问题。随着配电网规模的增加、电力电子器件数量的增多以及新能源的渗透，使得传统方法求解有功优化调度问题的复杂度大大提高，不再适用于在线控制的有功优化调度。具体而言，传统求解有功优化调度的方法在实现收敛方面具有时间紧迫性，尤其当***规模越来越大以及新能源发电占比的逐渐提高，同时，传统思路根据当前时间断面的状态通过模型来求出最优解，但是无法解决连续时间断面下的最优控制。

近年来，人工智能、数据驱动相关技术的推进，使得基于人工智能的优化方法在电力***中得到了广泛应用。电力***有功优化调度问题可以建模成一个给定电力负荷值，寻找最优发电机功率组合的序贯决策问题。深度强化学习算法结合了深度学习优秀的表征能力和强化学习优秀的决策能力，在解决连续的状态、动作空间时表现出了良好的能力，因此，行业内急需研发一种采用深度强化学习来解决经济调度的方法。

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了一种能促进新能源消纳的基于人工智能的新能源消纳电力调度方法。

本发明的目的通过以下的技术方案实现：

一种基于人工智能的新能源消纳电力调度方法包括：

S1，将电网有功最优潮流控制构建为电力***的有功优化调度在线模型，

S2，基于深度强化学习框架的PPO算法，对电力***有功优化调度在线模型的智能体通过与环境的交互逐渐改进自己的行动来获得最大的奖赏，以训练有功优化调度在线模型；所述有功优化调度在线模型的深度强化学习框架包括状态、动作和奖励；

S3，有功优化调度在线模型根据实时电网运行数据进行在线决策，以智能体的奖励最大化为目的进行更新优化，得到最小化发电成本。

优选地，所述PPO算法包括一个Critic_network和两个Actor network，两个Actornetwork分别为Old_actor and New_actor。

优选地，在一个Episode中，智能体首先利用现有的有功优化调度策略Pi与环境进行互动获得一个Batch(批次)的数据，待获得一个完整的Batch数据后，Actor_network和Critic_network开始对完整的Batch数据进行学习。

优选地，所述Actor_network和Critic_network开始对完整的Batch数据进行学习包括：Critic network通过有功优化调度在线模型神经网络来计算状态价值,Actornetwork利用所述状态价值迭代更新策略函数的参数，进而选择动作并得到反馈和新的状态，Critic network使用反馈和新的状态更新神经网络参数,并使用新的网络参数来帮Actor network计算更准确的状态/动作价值。

优选地，在每次Episode中，智能体都会与环境进行交互，并将获得的状态、动作、奖励作为一个元组存入经验池中。

优选地，在策略函数更新时，利用KL散度的方式限制策略更新的步长。

优选地，通过重要性采样的方式获取每个动作的相对权重，

将f(x)对于分布p分布的期望值转换成相对于另一个分布q的期望值，实现数据的重复利用。

优选地，所述的基于人工智能的新能源消纳电力调度方法具体包括如下步骤：

S11，将初始化构建的环境中的状态信息输入到Actor_newnetwork，得到代表动作分布的均值mu和方差sigma，构建一个正态分布然后对动作进行采样；

S12，采样得到的Action输入到环境中得到奖励以及下一步的状态，然后存储在经验池((s_t,a_t,r_t,s_t+1),然后对下一步的状态s_t+1执行步骤S11，直至获得一个完整的Batch数据后，执行步骤S13；

S13，将状态输入Critic_network得到状态价值，计算奖励，得到所有状态的价值计算优势估计函数

S14，根据计算所得的优势函数并进行均方根之后所得的loss反向传播更新Critic_network的参数；

S15，将经验池的s和a分别输入到Actor_new和Actor_old得到正态分布N1和N2以及P1和P2，计算Important sampling的比例P2/P1，通过计算比例P2/P1并且采用KL散度的方式来衡量确保动作分布差别小于M,M＞0；

S16，根据计算所得的优势函数并进行均方根之后所得的loss更新Actor_network的参数，并计算更准确的状态/动作价值，计算公式如下：

其中π(a_t|s_t)为在当前状态下采取动作a的概率。

优选地，基于马尔可夫决策过程将电网有功最优潮流控制构建为电力***的有功优化调度在线模型。

优选地，所述有功优化调度在线模型的深度强化学习框架还包括：状态转移以及折扣因子。

本发明相对于现有技术具有如下优点：

本发明根据实时的电网状态，采用人工智能的方法对电力***有功进行优化控制，对电力***进行合理的经济调度，在满足电力***基本约束的条件下使得电力***运行成本最小，具体为：

(1)通过设计“状体——动作——奖励”的交互训练框架，得到了电力***有功优化调度在线模型，尤其是在面对大规模高比例新能源电力***时，可以实时做出发电机最优出力控制，在满足电力***运行约束的条件下，降低***发电机出力成本。

(2)改善了Policy Gradient算法对步长敏感的问题，在多个训练步骤实现小批量的更新，引入经验池提高了数据的利用率且能适用于连续动作空间的场景。

(3)该方法在深度强化学***下的最优潮流计算问题做了环境建模。同时整体设计了最优潮流计算自动调整模型的训练方案且训练得到了最终模型。通过仿真实验证明，所用方法能够在不同负荷水平下自动给出电网最优潮流计算调整方案，且能保证***内平衡机有功出力在额定范围内，发电机出力成本也维持在一个较低水平。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于人工智能的新能源消纳电力调度方法的流程示意图。

图2为本发明的环境初始化图。

图3为本发明的PPO算法流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参见图1-图3，一种基于人工智能的新能源消纳电力调度方法包括：

S1，将电网有功最优潮流控制构建为电力***的有功优化调度在线模型，在本实施例，基于马尔可夫决策过程将电网有功最优潮流控制构建为电力***的有功优化调度在线模型。

S2，基于深度强化学习框架的PPO算法，对电力***有功优化调度在线模型的智能体通过与环境的交互逐渐改进自己的行动来获得最大的奖赏：高比例新能源融入的电网总运行成本最小，以训练有功优化调度在线模型；所述有功优化调度在线模型的深度强化学习框架包括状态、动作、奖励、状态转移以及折扣因子；智能体是与电网环境交互的实体。

其中，所述PPO算法包括一个Critic_network和两个Actor network，两个Actornetwork分别为Old_actor and New_actor。在一个Episode中，Agent(智能体)首先利用现有的有功优化调度策略Pi与环境进行互动获得一个Batch(批次)的数据，在这个过程中Actor和Critic网络是不会被优化的。待获得一个完整的Batch数据后，Actor_network和Critic_network开始对完整的Batch数据进行学习。

具体地，所述Actor_network和Critic_network开始对完整的Batch数据进行学习包括：Critic network通过有功优化调度在线模型神经网络来计算状态价值,Actornetwork利用所述状态价值迭代更新策略函数的参数，进而选择动作并得到反馈和新的状态，Critic network使用反馈和新的状态更新神经网络参数,并使用新的网络参数来帮Actor network计算更准确的状态/动作价值。在训练时改善了基础的基于策略的PolicyGradient算法对步长敏感的问题，可以在多个训练步骤实现小批量的更新。在求解速度以及求解精度上与传统方法相比较有一定程度的提高。

在本实施例，在每次Episode中，智能体都会与环境进行交互，并将获得的状态、动作、奖励作为一个元组存入经验池中，在经验池的元组满足一定数量时开始训练有功优化调度在线模型。

在本实施例，在策略函数更新时，利用KL散度的方式限制策略更新的步长。在策略函数(自身神经网络)更新时，为了防止前后两个策略函数的分布相差太大，利用KL散度的方式限制策略更新的步长。

在本实施例，了充分利用历史数据并体现出每个动作的真实的权重，通过重要性采样的方式获取每个动作的相对权重，

对于一个服从概率p分布的变量x，要估计x的函数值f(x)的期望，由于未知p的分布，因此从一个已知的分布q中进行采样，将f(x)对于分布p分布的期望值转换成相对于另一个分布q的期望值，可以实现数据的重复利用。

S3，有功优化调度在线模型根据实时电网运行数据进行在线决策，以智能体的奖励最大化为目的进行更新优化，得到最小化发电成本。在线决策即通过电网实时运行数据，实时计算电网有功控制策略。

本公开提供了一种可以对电力***有功进行合理分配使得电力***运行成本最小的方法。基于深度强化学习的框架对智能体神经网络进行训练，实现对电力***有功优化调度的实时控制。

图2为本发明的环境初始化图。如图2所示，在仿真的过程中先初始化环境，采用pandapower来对环境进行构建并读取数据，数据中考虑了新能源的占比以及其他一些计算潮流所必需的数据。智能体目标是使机组运行成本最小化，奖励最大化因此将成本用二次函数的形式表示并加以一定的保证电网安全运行的约束条件，同时考虑了电网中的不确定的随即断线的情况。

面对高比例新能源的波动性以及环境的不确定性，利用深度强化学习方法来搜索发电成本最小的最优运行条件。所提出的基于DRL的方法是调度问题一种较好的方法。图3为本发明的PPO算法流程图。如图3所示，将状态输入到Actor—New网络得到代表动作的正态分布的两个值：mu和sigma。对动作进行采样与环境交互得到奖励以及下一个状态，此过程进行循环后进行存储。将循环之后最后一步得到的状态以及存储的所有状态输入critic网络计算价值，反向传播来更新网络参数。所述的基于人工智能的新能源消纳电力调度方法具体包括如下步骤：

S11，将环境信息S输入到Actor_new网络，得到代表动作分布的均值mu和方差sigma，构建一个正态分布然后对动作进行采样，实现了用网络求解连续动作型问题。

S15，将经验池的s和a分别输入到Actor_new和Actor_old得到正态分布N1和N2以及P1和P2，计算Important sampling的比例P2/P1，通过计算比例P2/P1并且采用KL散度的方式来衡量确保动作分布差别不能太大(小于M,M＞0)；步骤S15实现了重要性采样并且采用KL散度来衡量分布。当KL[π_old|π_θ]>β_highKL_target，增加β，不鼓励参数θ的大幅度更新。

S16，根据计算所得的优势函数并进行均方根之后所得的更新Actor_network的参数，并计算更准确的状态/动作价值，计算公式如下：

其中π(a_t|s_t)为在当前状态下采取动作a的概率。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的新能源消纳电力调度方法，其特征在于，包括：

2.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法，其特征在于，所述PPO算法包括一个Critic_network和两个Actor network，两个Actor network分别为Old_actor and New_actor。

3.根据权利要求2所述的基于人工智能的新能源消纳电力调度方法，其特征在于，在一个Episode中，智能体首先利用现有的有功优化调度策略Pi与环境进行互动获得一个Batch的数据，待获得一个完整的Batch数据后，Actor_network和Critic_network开始对完整的Batch数据进行学习。

4.根据权利要求3所述的基于人工智能的新能源消纳电力调度方法，其特征在于，所述Actor_network和Critic_network开始对完整的Batch数据进行学习包括：Critic network通过有功优化调度在线模型神经网络来计算状态价值,Actor network利用所述状态价值迭代更新自身神经网络的参数，进而选择动作并得到反馈和新的状态，Critic network使用反馈和新的状态更新神经网络参数,并使用新的网络参数来帮Actor network计算更准确的状态/动作价值。

5.根据权利要求4所述的基于人工智能的新能源消纳电力调度方法，其特征在于，在每次Episode中，智能体都会与环境进行交互，并将获得的状态、动作、奖励作为一个元组存入经验池中。

6.根据权利要求4所述的基于人工智能的新能源消纳电力调度方法，其特征在于，在策略函数更新时，利用KL散度的方式限制策略更新的步长。

7.根据权利要求4所述的基于人工智能的新能源消纳电力调度方法，其特征在于，通过重要性采样的方式获取每个动作的相对权重，

8.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法，其特征在于，所述的基于人工智能的新能源消纳电力调度方法具体包括如下步骤：

其中π(a_t|s_t)为在当前状态下采取动作a的概率。

9.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法，其特征在于，基于马尔可夫决策过程将电网有功最优潮流控制构建为电力***的有功优化调度在线模型。

10.根据权利要求1所述的基于人工智能的新能源消纳电力调度方法，其特征在于，所述有功优化调度在线模型的深度强化学习框架还包括：状态转移以及折扣因子。