CN114048968A

CN114048968A - 一种电网关键断面实时阻塞调整方法、装置及介质

Info

Publication number: CN114048968A
Application number: CN202111250009.4A
Authority: CN
Inventors: 崔艳林; 蔡新雷; 喻振帆; 林旭; 梁梓均; 傅伟豪; 周煜捷; 王乃啸
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-15

Abstract

本发明公开了一种电网关键断面实时阻塞调整方法、装置及介质，所述方法包括：构建实时阻塞调整奖励函数；再根据所述实时阻塞调整奖励函数、实时阻塞调整环境变量集和实时阻塞调整动作空间，对实时阻塞调整智能体的动作决策函数进行动态更新；结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率。采用本发明提供电网关键断面实时阻塞调整方法、装置、介质及终端设备实施例，实现了实际运行到调整策略的闭环控制，避免了基于超短期新能源预测调整方法所存在的决策流程长等问题，有效提升了决策效率。

Description

一种电网关键断面实时阻塞调整方法、装置及介质

技术领域

本发明涉及电网调度运行领域，尤其涉及一种电网关键断面实时阻塞调整方法、装置及介质。

背景技术

大电网关键断面实时阻塞调整是电网调度运行领域的重要技术问题，该问题的本质要求是通过调整AGC机组发电出力在短时间内调整关键断面潮流，确保潮流不越限。随着风电、光伏等新能源快速发展，电网承受的不确定性影响显著增加，关键断面实时阻塞调整的难度也在增大，体现在新能源预测偏差较大，随机波动性强，导致受其影响的关键断面潮流波动大，要求实时阻塞调整决策必须更加高效、准确。

当前大电网关键断面实时阻塞调整主要采用基于超短期新能源预测的优化调度方法。目前的调整方法主要包括超短期新能源功率预测、实时阻塞调整优化建模两个步骤。由于当前电网调度运行中气象数据普遍不具备实时更新条件，超短期新能源功率预测主要是根据新能源实时功率及日前功率预测曲线，开展滚动更新预测。实时阻塞调整优化建模则是根据电网潮流转移分布特性，以调整经济性最佳为优化目标，构建AGC机组发电出力调整优化模型，通过对模型的求解，计算得到关键断面实时阻塞调整策略。

但是目前的实时阻塞调整方法存在两个方面关键问题：(1)决策流程较长，效率不高。当前所采用的基于超短期新能源预测的优化调度方法主要包括超短期新能源功率预测、实时阻塞调整优化建模两个步骤，实际运行状态并不是直接用于调整策略制定，而是优先用于预测分析，造成整体流程较长。而且由于电网潮流分布本质上是高度非线性问题，实时阻塞调整优化模型一般为非线性规划问题，求解效率难以保证。(2)决策结果与实际执行效果未闭环反馈，控制有效性难以保证。当前的实时阻塞调整方法调整策略制定与实际执行并没有形成闭环，策略执行效果并没有用于改进策略制定方法。因此，上述调整方法有效性依赖于实时阻塞调整优化模型的准确性，如果遇到电网特殊运行方式，控制有效性难以保证。

发明内容

本发明实施例提供一种电网关键断面实时阻塞调整方法、装置及介质，考虑实际执行周期内越限时间设计奖励函数，构建实时阻塞调整智能体，实现了实际运行到调整策略的闭环控制，避免了基于超短期新能源预测调整方法所存在的决策流程长等问题，有效提升了决策效率。

为实现上述目的，本申请实施例的第一方面提供了电网关键断面实时阻塞调整方法，所述方法包括：

构建实时阻塞调整环境变量集和实时阻塞调整动作空间；所述实时阻塞调整环境变量集是指实时阻塞调整智能体进行决策时所依据的外部环境特征指标集；所述实时阻塞调整动作空间是指起对作用的自动发电控制AGC机组发电出力指令规范化处理后的结果集合；

根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数；

根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新；

结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率。

在第一方面的一种可能的实现方式中，所述构建实时阻塞调整环境变量集，具体包括：

根据电网运行状况选取对电网关键断面实时阻塞调整造成影响的电网运行特征变量；

对所述电网运行特征变量进行规范化处理和无量纲化处理，得到实时阻塞调整环境变量集。

在第一方面的一种可能的实现方式中，所述电网运行特征变量包括当前时刻统调负荷、当前时刻新能源功率、当前时刻关键断面潮流、下一决策时刻预测统调负荷、下一决策时刻预测新能源功率和下一决策时刻预测关键断面潮流。

在第一方面的一种可能的实现方式中，所述构建实时阻塞调整动作空间，具体包括：

将潮流转移分布因子数值超过预设分布限值的所述AGC机组纳入起作用的多个所述AGC机组；

对起作用的多个所述AGC机组发电出力指令进行无量纲化处理和离散化处理，得到实时阻塞调整动作空间。

在第一方面的一种可能的实现方式中，所述对起作用的多个AGC机组发电出力指令进行无量纲化处理，具体包括：

将各AGC机组当前时刻的发电出力指令数值和各AGC机组该时刻的发电出力计划值的多个比值作为无量纲化结果。

在第一方面的一种可能的实现方式中，所述根据实际越限时间值和多个所述 AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数，具体包括：

将决策时段范围内的实际越限时间值和起作用的多个所述AGC机组发电出力指令调整幅度值和值的相加值的相反数作为实时阻塞调整奖励函数的函数值。

在第一方面的一种可能的实现方式中，所述根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新，具体包括：

根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，构建状态动作关系函数；

根据所述实时阻塞调整智能体与环境之间的交互，动态更新所述状态动作关系函数；

以所述状态动作关系函数的最大值作为所述实时阻塞调整智能体的动作决策函数的函数值。

在第一方面的一种可能的实现方式中，所述结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率，具体包括：

对智能体应用阶段所需要的电网实际环境变量进行规范化处理，并将规范化处理后的所述电网实际环境变量输入所述实时阻塞调整智能体的动作决策函数，得到AGC机组发电出力指令离散值；

将所述AGC机组发电出力指令离散值进行反规范化处理，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率。

本申请实施例的第二方面提供了一种电网关键断面实时阻塞调整装置，包括：

变量集合模块，用于构建实时阻塞调整环境变量集和实时阻塞调整动作空间；所述实时阻塞调整环境变量集是指实时阻塞调整智能体进行决策时所依据的外部环境特征指标集；所述实时阻塞调整动作空间是指起对作用的自动发电控制 AGC机组发电出力指令规范化处理后的结果集合；

奖励函数模块，用于根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数；

决策函数模块，用于根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新；

调整模块，用于结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率。

本申请实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的电网关键断面实时阻塞调整方法。

本申请实施例的第四方面提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的基于统计分析的5G宏基站优化调度方法。

相比于现有技术，本发明实施例提供的电网关键断面实时阻塞调整方法、装置及介质，构建实时阻塞调整环境变量集和实时阻塞调整动作空间；然后根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数；再根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新。

由于在设计奖励函数充分考虑到实际执行周期内越限时间，保证***运行安全性。再基于奖励函数构建实时阻塞调整智能体，根据所述实时阻塞调整智能体与环境之间的交互，动态更新所述状态动作关系函数；再以所述状态动作关系函数的最大值作为所述实时阻塞调整智能体的动作决策函数的函数值，实现了实际运行到调整策略的闭环控制，动作决策函数更新的过程反映了调整策略的闭环控制更新过程。采用本发明实施例，将电网实际运行状态直接用于调整策略制定，避免了基于超短期新能源预测调整方法所存在的决策流程长等问题，有效提升了决策效率，且决策结果与实际执行效果形成闭环反馈，对关键断面实时阻塞的控制精度也得到了提高。

附图说明

图1是本发明一实施例提供的一种电网关键断面实时阻塞调整方法的流程示意图；

图2是本发明一实施例提供的一种电网关键断面实时阻塞调整装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明一实施例提供了一种电网关键断面实时阻塞调整方法，所述方法包括：

S10、构建实时阻塞调整环境变量集和实时阻塞调整动作空间；所述实时阻塞调整环境变量集是指实时阻塞调整智能体进行决策时所依据的外部环境特征指标集；所述实时阻塞调整动作空间是指起对作用的自动发电控制AGC机组发电出力指令规范化处理后的结果集合。

S11、根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数。

S12、根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新。

S13、结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率。

需要说明的是，实时阻塞调整环境变量是指强化学习中智能体决策所依据的外部环境特征指标。为确定实时阻塞调整环境变量，S10中相关技术特征的任务包括确定环境变量指标，环境变量指标规范化处理，构建环境变量集合三方面内容。实时阻塞调整动作空间是指实时阻塞调整智能体所能采用的动作集合。构建动作集合的目的是根据AGC机组与关键断面的潮流转移分布因子，辨识起作用 AGC机组，并构建实时阻塞调整动作空间。S10中相关技术特征包括起作用AGC 机组辨识、AGC机组动作规范化处理，构建动作空间三个任务。

而实时阻塞调整奖励函数是指强化学习智能体根据实际执行效果对执行策略调整所依据的函数。大电网关键断面实时阻塞调整智能体的奖励函数设计，既需要考虑实际越限时间，也需要考虑起作用AGC机组发电出力指令调整幅度。其中实际越限时间反映了断面阻塞调整安全性，而起作用AGC机组发电出力指令调整幅度则反映了断面阻塞调整经济性。

实时阻塞调整智能体是一种免模型的机器学习算法，智能体训练过程中根据智能体与环境之间的交互，动态更新状态-动作函数，实现对智能体动作策略等更新。S12是对实时阻塞调整智能体的训练过程。

最后，在S13中利用训练完成的实时阻塞调整智能体对大电网关键断面实时阻塞进行调整。该步骤包括电网实际环境变量规范化、阻塞调整策略输出、AGC 机组发电出力指令离散值反规范化三个任务。所谓规范化、反规范化本质上是将连续变量与离散变量相互转化的过程，规范化是将连续变量转化为离散变量，反之则是反规范化。大电网关键断面实时阻塞调整所处理的潮流、出力等均为连续变量。而实时阻塞调整智能体只能处理离散数据问题。因此在智能体训练过程中需要采用规范化处理方式将连续变量转化为离散变量，而应用期间所输出的控制信号依然是离散变量，需要将其转化为连续变量才能满足实际应用需要。

示例性地，所述构建实时阻塞调整环境变量集，具体包括：

S101、根据电网运行状况选取对电网关键断面实时阻塞调整造成影响的电网运行特征变量。

S102、对所述电网运行特征变量进行规范化处理和无量纲化处理，得到实时阻塞调整环境变量集。

示例性地，所述电网运行特征变量包括当前时刻统调负荷、当前时刻新能源功率、当前时刻关键断面潮流、下一决策时刻预测统调负荷、下一决策时刻预测新能源功率和下一决策时刻预测关键断面潮流。

优选的，实时阻塞调整环境变量指标需要选取对大电网关键断面实时阻塞调整影响最大的电网运行特征变量，由于强化学习智能体训练过程中当环境变量过多时训练效果将显著下降，本专利选取当前时刻t统调负荷

当前时刻t新能源功率

当前时刻t关键断面潮流

下一决策时刻t+ΔT预测统调负荷

下一决策时刻t+ΔT预测新能源功率

下一决策时刻t+ΔT预测关键断面潮流

上述六项环境变量指标中，当前时刻t统调负荷

当前时刻t新能源功率

当前时刻t关键断面潮流

来源于电网运行实时运行采集数据，可由能量管理***直接输出，下一决策时刻t+ΔT预测统调负荷

下一决策时刻t+ΔT 预测新能源功率

下一决策时刻t+ΔT预测关键断面潮流

来源于日内滚动计划，也可由能量管理***直接输出。

实时阻塞调整环境变量指标规范化处理是指采用无量纲化、离散化方法将上述属于连续数据类型的环境变量指标转化为离散数据类型的过程。

优选的，上述指标无量纲化均以该指标当前时刻预测值为标杆，则实时阻塞调整环境变量无量纲化公式可表示为：

式(1)中，

依次为当前时刻t统调负荷

当前时刻t新能源功率

当前时刻t关键断面潮流

下一决策时刻t+ΔT预测统调负荷

下一决策时刻t+ΔT预测新能源功率

下一决策时刻t+ΔT预测关键断面潮流

无量纲化结果，

依次为统调负荷、新能源功率、关键断面潮流在当前时刻t的预测值。

在实际应用中，考虑到我国当前日内滚动负荷预测准确率已达到98％以上，新能源功率预测准确率已达到85％以上，关键断面潮流裕度一般为10％，离散化过程规定正、反向超过上述预测偏差和裕度范围的无量纲化数值取值分别为0和 10，而在上述预测偏差和裕度范围内采用线性离散方式，将其转化为1至9之间的正整数，则上述环境变量指标无量纲化数值进一步离散化公式可表示为：

需要说明的是，离散化的数值范围划分基于两个方面考虑：其一，离散化过程所涉及的负荷预测、新能源预测、关键断面潮流分布并没有对称分布等规律，这一特点决定了公式里面离散化结果取值小于1情况划分了9个层级(0-9)，而离散化结果取值大于1却只划分了1各层级(10)的划分方式并不会影响结果；其二，离散化结果与强化学***均方式离散处理为1-9。

如前文所述，我国当前日内滚动负荷预测准确率已达到98％以上，新能源功率预测准确率已达到85％以上，关键断面潮流裕度一般为10％，意味着对于以上三项指标取值基本处于±2％、±15％、±10％范围内。根据其取值范围特征将γ_I％分别设置为2％、15％、10％，能保证离散化后数据质量。

实时阻塞调整环境变量集合即是将上述规范化处理的环境变量指标构成集合的过程，环境变量集可表示为

其中

依次为当前时刻t统调负荷

当前时刻t新能源功率

当前时刻t关键断面潮流

下一决策时刻t+ΔT预测统调负荷

下一决策时刻t+ΔT预测新能源功率

下一决策时刻t+ΔT预测关键断面潮流

离散化结果。

示例性地，所述构建实时阻塞调整动作空间，具体包括：

S103、将潮流转移分布因子数值超过预设分布限值的所述AGC机组纳入起作用的多个所述AGC机组。

S104、对起作用的多个所述AGC机组发电出力指令进行无量纲化处理和离散化处理，得到实时阻塞调整动作空间。

一般而言，起作用AGC机组辨识依据AGC机组与关键断面的潮流转移分布因子数值大小，潮流转移分布因子数值超过限值的AGC机组纳入起作用AGC机组范畴，判定公式可表示为：

|D_g,s|≥D^set (3)

式(3)中，D_g,s为AGC机组g与关键断面s的潮流转移分布因子，D^set为判定限值，| |表示取其绝对值。

示例性地，所述对起作用的多个AGC机组发电出力指令进行无量纲化处理，具体包括：

AGC机组发电出力指令无量纲化均以该机组发电出力计划为量纲，则AGC机组发电出力指令无量纲化公式可表示为：

式(4)中，

分别为AGC机组g当前时刻t的发电出力指令数值和无量纲化结果，

为该AGC机组该时刻的发电出力计划值。

优选的，AGC机组发电出力指令离散化是在其AGC响应范围内将AGC机组发电出力无量纲化结果以线性离散方式，转换为-4至4之间整数的过程，离散化公式可表示为：

由于实时阻塞调整智能体只能解决离散数值问题，而本申请中所处理的大电网关键断面实时阻塞调整问题中潮流、出力等物理量均为连续变量，为此必须将离散化。式(5)即是本专利所提出的离散化公式。离散化过程中本专利采用平均分布离散法，将变量变化范围平均对应到一个离散数值上。而离散数值范围则受限于实时阻塞调整智能体的数据处理能力，一般最大离散数值为10-11，本发明实施例从中选取了9个。

式(5)中，

为AGC机组g当前时刻t的发电出力指令离散化结果，

分别为AGC机组g当前时刻t响应范围上、下限值对应的无量纲化结果，

为AGC机组g响应范围无量纲化结果，也即

与

之差。

优选的，构建实时阻塞调整动作空间是将起作用AGC机组发电出力指令规范化处理结果所构建的集合，可表示为

其中

依次为起作用AGC机组发电出力指令规范化处理结果，N为起作用AGC机组台数。

示例性地，所述根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数，具体包括：

考虑实时越限时间的实时阻塞调整奖励函数可表示为：

R也即奖励函数，是强化学习智能体提升执行策略的依据，实时阻塞调整智能体训练的过程本质上就是不断寻找奖励函数最大化的过程。在本申请所涉及的大电网关键断面实时阻塞调整方法目标是控制策略能够保证在下一个运行周期内断面越限时间最小，且对AGC机组发电出力调整幅度最小。越限时间最小是系统运行安全性的表现；而AGC机组发电出力调整幅度最小是***运行经济性的表现。考虑到以上两方面目标均是最小化，而奖励函数训练中目标是最大化，为此在两项目标前增加一个“负”号取相反数。

式(6)中，R为考虑实时越限时间的实时阻塞调整奖励函数，t^lim为决策时段范围ΔT内的实际越限时间，

为起作用AGC机组发电出力指令调整幅度

示例性地，所述根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新，具体包括：

S120、根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，构建状态动作关系函数。

S121、根据所述实时阻塞调整智能体与环境之间的交互，动态更新所述状态动作关系函数。

S122、以所述状态动作关系函数的最大值作为所述实时阻塞调整智能体的动作决策函数的函数值。

优选的，状态动作关系函数更新公式可表示为：

Q(s,a)＝Q(s,a)+α(R+γQ(s',a')-Q(s,a)) (7)

式(7)中，Q(s,a)为状态-动作函数，s为环境变量，

a为动作空间，

s'、a'分别为为训练过程中迭代前的环境变量和动作空间取值，α为更新步长，一般取值为0.1；γ为奖励折扣，一般取值为0.5。

需要说明的是，根据状态动作关系函数更新智能体决策策略的过程实际上是以状态动作关系函数最大值替代当前决策策略的过程，可表示为：

π(s)＝arg maxQ(s,a) (8)

式(8)中，π(s)为智能体在环境变量s下的决策策略，arg maxQ(s,a)为取所有环境变量下动作空间预计最大的动作策略。

示例性地，所述结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率，具体包括：

S130、对智能体应用阶段所需要的电网实际环境变量进行规范化处理，并将规范化处理后的所述电网实际环境变量输入所述实时阻塞调整智能体的动作决策函数，得到AGC机组发电出力指令离散值。

S131、将所述AGC机组发电出力指令离散值进行反规范化处理，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率。

电网实际环境变量规范化是根据实际运行中电网运行数据，获取环境变量，并对其进行规范化处理的过程。参考步骤一中的环境变量规范化步骤，获取当前时刻t统调负荷

当前时刻t新能源功率

当前时刻t关键断面潮流

下一决策时刻t+ΔT预测统调负荷

下一决策时刻t+ΔT预测新能源功率

下一决策时刻t+ΔT预测关键断面潮流

当前时刻t统调负荷预测值

当前时刻t新能源功率预测

当前时刻t关键断面潮流预测值

参照式(1)-(2) 即可计算得到智能体应用阶段所需要的电网实际环境变量s。

优选的，利用已完成训练的实时阻塞调整智能体根据电网实际环境变量直接输出AGC机组发电出力指令，公式为：

a＝π(s) (9)

需要说明的是，所述AGC机组发电出力指令离散值可否理解成机组发电功率离散值。

由于阻塞调整策略输出的动作为AGC机组发电出力指令离散化结果，为满足实际调整需要，应对其进行反规范化处理，即将其转化为发电出力数值，反规范化处理公式可表示为：

式(10)中，

即为AGC机组g时刻t的发电出力指令。

相比于现有技术，上述实施例提供的电网关键断面实时阻塞调整方法，构建实时阻塞调整环境变量集和实时阻塞调整动作空间；然后根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数；再根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新。

请参见图2，本申请实施例的第二方面提供了一种电网关键断面实时阻塞调整装置，包括：变量集合模块20、奖励函数模块21、决策函数模块22和调整模块23。

变量集合模块20，用于构建实时阻塞调整环境变量集和实时阻塞调整动作空间；所述实时阻塞调整环境变量集是指实时阻塞调整智能体进行决策时所依据的外部环境特征指标集；所述实时阻塞调整动作空间是指起对作用的自动发电控制 AGC机组发电出力指令规范化处理后的结果集合。

奖励函数模块21，用于根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数。

决策函数模块22，用于根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新。

调整模块23，用于结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率。

相比于现有技术，本发明实施例提供的电网关键断面实时阻塞调整装置，构建实时阻塞调整环境变量集和实时阻塞调整动作空间；然后根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数；再根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序)，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器也可以是任何常规的处理器，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器主要包括程序存储区和数据存储区，其中，程序存储区可存储操作***、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital， SD)卡和闪存卡(Flash Card)等，或所述存储器也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，上述终端设备仅仅是示例，并不构成对终端设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种电网关键断面实时阻塞调整方法，其特征在于，包括：

构建实时阻塞调整环境变量集和实时阻塞调整动作空间；所述实时阻塞调整环境变量集是指实时阻塞调整智能体进行决策时所依据的外部环境特征指标集；所述实时阻塞调整动作空间是指起潮流转移作用的自动发电控制AGC机组发电出力指令规范化处理后的结果集合；

根据实际越限时间值和多个所述AGC机组的发电出力指令调整幅度值，构建实时阻塞调整奖励函数；

2.如权利要求1所述的电网关键断面实时阻塞调整方法，其特征在于，所述构建实时阻塞调整环境变量集，包括：

3.如权利要求2所述的电网关键断面实时阻塞调整方法，其特征在于，所述电网运行特征变量包括当前时刻统调负荷、当前时刻新能源功率、当前时刻关键断面潮流、下一决策时刻预测统调负荷、下一决策时刻预测新能源功率和下一决策时刻预测关键断面潮流。

4.如权利要求1所述的电网关键断面实时阻塞调整方法，其特征在于，所述构建实时阻塞调整动作空间，具体包括：

5.如权利要求4所述的电网关键断面实时阻塞调整方法，其特征在于，所述对起作用的多个AGC机组发电出力指令进行无量纲化处理，具体包括：

6.如权利要求1所述的电网关键断面实时阻塞调整方法，其特征在于，所述根据实际越限时间值和多个所述AGC机组发电出力指令调整幅度值，构建实时阻塞调整奖励函数，具体包括：

7.如权利要求1所述的电网关键断面实时阻塞调整方法，其特征在于，所述根据所述实时阻塞调整奖励函数、所述实时阻塞调整环境变量集和所述实时阻塞调整动作空间，对所述实时阻塞调整智能体的动作决策函数进行动态更新，具体包括：

8.如权利要求1所述的电网关键断面实时阻塞调整方法，其特征在于，所述结合所述动作决策函数和电网实际环境变量，得到实时阻塞调整值，并根据所述实时阻塞调整值调整所述AGC机组的发电功率，具体包括：

9.一种电网关键断面实时阻塞调整装置，其特征在于，包括：

变量集合模块，用于构建实时阻塞调整环境变量集和实时阻塞调整动作空间；所述实时阻塞调整环境变量集是指实时阻塞调整智能体进行决策时所依据的外部环境特征指标集；所述实时阻塞调整动作空间是指起对作用的自动发电控制AGC机组发电出力指令规范化处理后的结果集合；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～8任一项所述的电网关键断面实时阻塞调整方法。