CN115588998A

CN115588998A - 一种基于图强化学习的配电网电压无功优化方法

Info

Publication number: CN115588998A
Application number: CN202211269015.9A
Authority: CN
Inventors: 洪芦诚; 吴明贺; 王逸飞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-01-10

Abstract

本公开属于电力***自动化和计算机技术领域，公开了一种基于图强化学习的配电网电压无功优化方法，首先将无功电压优化问题建模为一个马尔科夫决策过程，并使用无模型的深度强化学习方法进行求解；然后发明了一种基于图神经网络的近端策略优化算法，该算法通过嵌入图卷积网络来提高强化学习智能体对配电网图数据的感知能力；最后本发明以改进的IEEE33测试***开展算例分析，验证了所提方法的有效性和相比其他方法的优势，结果同时表明，基于图神经网络训练的强化学习智能体在配电网拓扑发生变化时仍表现出较好的性能。

Description

一种基于图强化学习的配电网电压无功优化方法

技术领域

本公开属于电力***自动化和计算机技术领域，具体涉及一种基于图强化学习的配电网电压无功优化方法。

背景技术

在“碳达峰，碳中和”的背景下，我国分布式发电的规模不断扩大。据能源局统计，截止2021年底分布式光伏的装机容量达到1.075亿千瓦，约占全部并网光伏容量的三分之一。高比例光伏(photovoltaics，PV)的渗透会给配电网的稳定运行带来一定的挑战，具体表现在有功损耗增加、节点电压越限、离散调压设备抽头频繁变动导致的寿命下降等等。同时由于依赖天气的PV发电具有间歇性和波动性，也给问题的求解增加了复杂性和不确定性。因此，需要一种有效的电压无功优化(Volt/VAR optimization，VVO)方法来应对上述挑战。

通常情况，VVO任务可以被描述为一个混合整数非线性规划问题，其变量一般代表电压调节设备的离散动作和无功补偿设备的连续动作。目前的研究热衷于通过预测的方式或者使用随机概率函数来表征PV的不确定性。比如使用模型预测控制方法来求解高比例的分布式电源高渗透时的VVO问题；或者使用随机规划模型，然后再将该模型转换成一个确定性的混合整数二次规划模型并使用商业求解器进行求解。与随机规划不同，鲁棒优化方法构造了一个不确定性集，并在最坏的情况下获得解，结果通常是保守的，也有研究使用这种鲁棒优化模型制定了VVO任务，然后通过一种乘法器交替方向法进行求解。然而，上述基于模型预测的方法是不准确的，虽然传统的数学优化方法可以求得高质量的解，但是其计算负担过大，最佳指令不能在规定的时间内下发给设备。这些特点阻碍了基于模型的方法在未来配电***运行中的发展和实施。

目前越来越多的研究都建议使用DRL方法解决配电网中的VVO问题，并证明了这种无模型方法的优越性。有些研究使用了单智能体的DRL模型，将配电网的无功优化问题建模为一个马尔科夫决策过程(Markovian decision process,MDP)。比如采用行动者-评论家(Actor-Critic,AC)的算法把最小化网损和设备的动作成本作为优化目标，以离散无功调节设备的投切指令为控制变量进行VVO的求解；或者采用静止无功补偿器(static varcompensators，SVC)和PV附带的逆变器对配电网进行无功补偿，并使用软行动者-评论家(soft Actor-Critic,SAC)算法为智能体指定独特的价值和策略模型。另外一些研究将VVO问题描述为一个马尔科夫博弈模型并使用多智能体强化学习算法进行求解。然而在现存的大部分关于DRL求解VVO问题的研究中，电力***中的电气量以向量的形式输入到神经网络来训练DRL智能体。但是电力***中的稳态数据是包含节点、边的电气量和拓扑连接关系的图数据结构，把这样的图数据以向量的形式输入神经网络来进行训练，会大大降低DRL智能体对配电网结构的感知能力，训练好的智能体在配电网拓扑发生变化时性能会大大降低，也无法拓展到其他的配电网上。

发明内容

为了提升DRL智能体对配电网图数据的感知能力，本发明提出了一个将DRL和GCN相结合的框架来解决PV高渗透配电网的电压控制问题，并证明了基于图神经网络训练的DRL模型具有较强的可扩展性。

本公开的目的可以通过以下技术方案实现：一种基于图强化学习的配电网电压无功优化方法，包括以下步骤：

构建配电网的电压无功优化(VVO)的数学模型，VVO的数学模型包括目标函数、潮流计算的等式约束和运行过程中的不等式约束；

将构建的VVO数学模型转换成一个马尔科夫决策过程(MDP)模型；

提出一种基于图卷积神经网络的近端策略优化(GCN-PPO)算法来求解MDP模型，GCN-PPO算法为强化学习智能体定义了独特的策略(Actor)和价值(Critic)网络，GCN-PPO算法将图卷积层融入到由多层感知机神经网络构成的隐藏层中，感知配电网中节点、边的电气量和拓扑连接关系组成的图数据结构；

使用真实的配电网历史运行数据对GCN-PPO算法的智能体进行离线训练，在此过程中强化学习智能体通过不断和仿真环境互动来捕捉历史数据中光伏(PV)和负荷的间歇性和波动性；

离线训练完成后，对训练好的智能体模型进行保存，然后验证智能体模型有效性和在配电网拓扑变化时的可拓展性。

优选的，所述构建配电网的VVO数学模型，PV高渗透配电网中的不确定量包括PV的有功出力P_PV、负荷的有功功率P_L和负荷的无功功率Q_L，在执行OPF时的控制变量为SVC的无功输出Q_SVC和PV逆变器的无功输出Q_PV；无功优化的目标是最小化配电网的有功功率损耗，下式展示了t时刻的优化目标：

式中，T是所优化的时间段；N是配电网节点数；F是在时间段T内的总网损成本；P_loss(t)是配电网t时刻的网络损耗；C_p是网损成本系数，G_ij是导纳矩阵的实部；V_e,i(t)和V_f,i(t)是t时刻内i节点电压的实部和虚部；V_e,j(t)和V_f,j(t)是t时刻内j节点电压的实部和虚部；

优选的，VVO的数学模型约束条件包括：潮流计算的等式约束和不等式约束以及调压设备运行容量约束，其表达式如下：

P_i(t)＝P_L,i(t)-P_PV,i(t)i∈N

Q_i(t)＝Q_L,i(t)-Q_SVC,i(t)-Q_PV,i(t)i∈N

V_min＜V_i(t)＜V_max i∈N

上式中，G_ij是导纳矩阵的实部；B_ij是导纳矩阵的虚部；P_i(t)和Q_i(t)是t时刻节点i有功功率和无功功率的净注入量；V_e,i(t)和V_f,i(t)是t时刻内i节点电压的实部和虚部；V_e,j(t)和V_f,j(t)是t时刻内j节点电压的实部和虚部；V_i(t)是t时刻节点的电压幅值；Vmax和Vmin是节点电压上下限，分别设置为1.05和0.95；

Q_SVC,min≤Q_SVC,i(t)≤Q_SVC,max

Q_PV,min(t)≤Q_PV,i(t)≤Q_PV,max(t)

Q_SVC,max和Q_SVC,min为SVC的容量上下限，Q_PV,max(t)和Q_PV,min(t)为t时刻PV的无功容量上下限；Q_SVC,i(t)和Q_PV,i(t)为t时刻SVC和PV的无功输出值；

所述PV逆变器设有冗余的额定容量，并在最大功率点跟踪模式下运行；

所述PV逆变器的无功功率控制范围由PV的额定装机容量S_PV和当前的有功输出P_PV(t)决定，其范围为：

优选的，所述将VVO数学模型转换成一个MDP模型，GCN-PPO框架下VVO的状态空间、动作空间、奖励函数和状态转移过程表示如下：

状态空间：将向量x_i＝(P_i(t),Q_i(t),V_i(t))作为t时刻节点i的特征值，分别为节点i的有功功率和无功功率的净注入量以及电压幅值，并假设每个节点的特征都被观测到；在GCN-PPO框架中，特征矩阵和连接矩阵被作为状态量输入图卷积神经网络中；t时刻的状态空间表示为：s_t＝(X_t,A_t)，X是所有节点特征组成的特征矩阵，A是配电***所有线路的连接关系；

动作空间：智能体的的动作包括了配电网中所有无功调节设备的无功输出，假设有m个SVC和n个PV逆变器，则a_t＝{Q_SVC,i(t),Q_PV,j(t)}，i∈n，j∈m；

奖励函数：将电压越限作为惩罚项加入奖励函数来使智能体在学习的过程中执行电压安全约束，t时刻的奖励函数为：r_t＝C_pP_loss(t)+Cv，其中Cv为电压越限惩罚系数；

状态转移过程：在每个时间步t内，智能体观测当前的状态s_t，然后根据s_t做出当下的动作a_t，最后获得一个奖励值r_t并根据P得到下一时刻的状态s_t+1；智能体的目标就是通过以上过程寻找一个最大化累计期望回报∑^N _t＝0γ^tr(s_t,a_t)的策略。

优选的，GCN-PPO算法：近端策略优化算法是在信任域策略优化(TRPO)的基础上改进得来的；信任域策略优化算法使用库尔贝克-莱布朗散度约束策略网络，优化目标和约束如下式所示：

式中，

表示新旧策略的比率，

为更新前的旧策略，θ为策略参数；KL散度被称作相对熵，用来衡量概率分布之间的差异，δ表示置信度，用于限制策略的更新幅度；

为期望，表示在有限样本上的经验平均，

表示在策略π_θ下t决策步的优势函数估计值；由于在每次策略更新中计算KL散度的计算成本非常高，因此PPO算法采用了截断函数代替KL散度约束，既保证了TRPO的算法稳定性，又降低了计算成本；使用了截断函数的PPO的目标函数表示为：

式中，clip(·)为截断函数，将新旧策略的变化控制在[1-ε,1+ε]内，ε为截断常数用来设定策略更新的范围。

优选的，GCN-PPO算法在多层感知机前面增加图卷积层，所使用的策略(Actor)网络架构由两个图卷积层和三个多层感知机层组成，每一层均附带一个ReLU激活函数，并使用求和池化函数将图卷积层的输出在相邻的节点上聚合起来，然后传递给多层感知机层输出一个策略；定义值函数的价值(Critic)网络的架构和Actor网络大致相同，主要的区别是在Critic网络的架构图卷积层后面加了一个全局求和池函数。

优选的，使用真实的配电网历史运行数据对提出GCN-PPO算法的智能体进行训练，在这个过程中Actor网络和Critic的网络的参数不断被更新，每回合训练结束后将网络参数保存，然后根据训练完的Actor模型来实时执行VVO。

一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个所述程序被一个或多个所述处理器执行，使得一个或多个所述处理器实现如上述所述的基于图强化学习的配电网电压无功优化方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述所述的基于图强化学习的配电网电压无功优化方法。

本公开的有益效果：

相比基于模型的传统数学优化方法，本发明所提出的图强化学习方法不需要准确的配电网模型，它可以从历史数据中捕获***的动态特性以及PV和负荷的间歇性和波动性，同时训练好的DRL智能体可以实时的做出决策来应对PV的快速波动，大大减小了计算的负担。

相比基本的DRL算法，本发明所提出的GCN-PPO算法在Actor和Critic网络的多层感知机前面融入了图卷积神经网络，这样就聚合了相邻配电网节点的信息以及连接关系，使得训练好的智能体可以在配电网拓扑发生变化时依然保持了良好的性能。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为基于GCN-PPO算法的VVO流程图；

图3为夏至日和冬至日的PV以及负荷的出力曲线；

图4为训练过程中的奖励值和电压越限次数；

图5为3种方法在测试集上的网损对比；

图6为三个拓扑变换场景下的电压越限次数对比。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

一种基于图强化学习的配电网电压无功优化方法，

步骤1：构建配电网的VVO数学模型

配电网的VVO可以被描述为一个最优潮流(Optimal Power Flow,OPF)问题，即在一定的约束条件下优化电力潮流中的目标值。配电***在运行时通常呈现径向的网络拓扑，本发明将其表示为一个树形图G，这里G＝(Δ,Ε)，Δ和Ε分别代表配电网所有节点和线路的集合，对于有N个节点的配电网来说，节点

本发明考虑的PV高渗透配电网中的不确定量包括PV的有功出力P_PV、负荷的有功功率P_L和负荷的无功功率Q_L，在执行OPF时的控制变量为SVC的无功输出Q_SVC和PV逆变器的无功输出Q_PV。下面将阐述VVO的优化目标和约束条件。

本发明中无功优化的目标是最小化配电网的有功功率损耗，式(1)展示了t时刻的优化目标，其网损的计算如式(2)所示。

式中，T是所要优化的时间段；N是配电网的节点数；F是在时间段T内的总网损成本；P_loss(t)是配电网t时刻的网络损耗；C_p是网损成本系数，G_ij是导纳矩阵的实部；V_e,i(t)和V_f,i(t)是t时刻内i节点电压的实部和虚部；V_e,j(t)和V_f,j(t)是t时刻内j节点电压的实部和虚部；

本发明VVO的约束条件大致可以分为三类：潮流计算的等式约束和不等式约束以及调压设备运行容量约束，其表达式如下：

P_i(t)＝P_L,i(t)-P_PV,i(t)i∈N (4)

Q_i(t)＝Q_L,i(t)-Q_SVC,i(t)-Q_PV,i(t)i∈N (6)

V_min＜V_i(t)＜V_max i∈N (7)

上式中，G_ij是导纳矩阵的实部；B_ij是导纳矩阵的虚部；P_i(t)和Q_i(t)是t时刻节点i有功功率和无功功率的净注入量；V_e,i(t)和V_f,i(t)是t时刻内i节点电压的实部和虚部；V_e,j(t)和V_f,j(t)是t时刻内j节点电压的实部和虚部；V_i(t)是t时刻节点的电压幅值；V_max和V_min是节点电压上下限，分别设置为1.05和0.95；

Q_SVC,min≤Q_SVC,i(t)≤Q_SVC,max (8)

Q_PV,min(t)≤Q_PV,i(t)≤Q_PV,max(t) (9)

公式(8)和(9)为SVC和PV逆变器进行无功调节时的调节范围；Q_SVC,min和Q_SVC,max为SVC的容量上下限；考虑到安全性，PV逆变器通常设有冗余的额定容量，并在最大功率点跟踪模式下运行。因此逆变器的无功功率控制范围可以由PV的额定装机容量S_PV和当前的有功输出P_PV(t)决定，其范围为：

步骤2：我们将步骤1的VVO模型转换成一个马尔科夫决策过程，本发明的GCN-PPO框架下VVO的状态空间、动作空间、奖励函数和状态转移过程可表示如下：

1)状态空间

我们将向量x_i＝(P_i(t),Q_i(t),V_i(t))作为t时刻节点i的特征值，分别为节点i的有功功率和无功功率的净注入量以及电压幅值，并假设每个节点的特征都可以被观测到。在本发明的GCN-PPO框架中，特征矩阵和连接矩阵被作为状态量输入图卷积神经网络中。t时刻的状态空间可以表示为：s_t＝(X_t,A_t)，X是所有节点特征组成的特征矩阵(X的维度为3×N)，A是配电***所有线路的连接关系。

2)动作空间

智能体的的动作包括了配电网中所有无功调节设备的无功输出，假设有m个SVC和n个PV逆变器，则a_t＝{Q_SVC,i(t),Q_PV,j(t)}，i∈n，j∈m。

3)奖励函数

本发明将电压越限作为惩罚项加入奖励函数来使智能体在学习的过程中执行电压安全约束，t时刻的奖励函数为：r_t＝C_pP_loss(t)+Cv，其中Cv为电压越限惩罚系数。

4)状态转移过程

在每个时间步t内，智能体观测当前的状态s_t，然后根据s_t做出当下的动作a_t，最后获得一个奖励值r_t并根据P得到下一时刻的状态s_t+1。智能体的目标就是通过以上过程寻找一个最大化累计期望回报∑^N _t＝0γ^tr(s_t,a_t)的策略。

步骤3：针对步骤1，2提出的模型，本发明提出了一种GCN-PPO算法。

近端策略优化(proximal policy optimization,PPO)算法是在信任域策略优化的基础上改进得来的。TRPO算法使用库尔贝克-莱布朗(Kullback-Leibler,KL)散度约束策略网络使其更新的策略接近于旧策略，其优化目标和约束如式(10)和式(11)所示：

式中，

表示新旧策略的比率，

为更新前的旧策略，θ为策略参数；KL散度也可以被称作相对熵，用来衡量概率分布之间的差异，δ表示置信度，用于限制策略的更新幅度；

为期望，表示在有限样本上的经验平均，

表示在策略π_θ下t决策步的优势函数估计值。由于在每次策略更新中计算KL散度的计算成本非常高，因此PPO算法采用了截断函数代替KL散度约束，既保证了TRPO的算法稳定性，又降低了计算成本。使用了截断函数的PPO的目标函数可以表示为：

本发明提出的GCN-PPO算法在多层感知机(Multi-Layer Perception,MLP)神经网络前面增加了图卷积层，提高了PPO智能体对图数据的感知能力。所使用的Actor网络架构由两个图卷积层和三个MLP层组成，每一层均附带一个ReLU激活函数，并使用求和池化函数将图卷积层的输出在相邻的节点上聚合起来，然后传递给MLP层输出一个策略。定义值函数的Critic网络的架构和Actor网络大致相同，主要的区别是在其图卷积层后面加了一个全局求和池函数，这样使得价值函数能够聚合图中所有节点的信息，从而计算整个网络的估计值。

步骤4：使用真实的配电网历史运行数据对步骤3提出GCN-PPO算法的智能体进行训练，整个训练流程如图2所示。在这个过程中Actor网络和Critic的网络的参数不断被更新，每回合训练结束后将网络参数保存，然后根据训练完的Actor模型来实时执行VVO。

Actor网络是将状态s_t映射到动作a_t的策略函数，其参数θ通常根据梯度下降来更新。为了提高数据的效率，防止策略变化过大，我们引入截断函数并使用式(12)来更新参数θ和θ_old。式(12)中的

为优势函数，其表达式为式(13)：

式(13)也代表了时序差分误差，它表示在状态s_t下执行动作a_t的优势大于所有动作的预期奖励值。由于r(s_t,a_t)是即时奖励，式(13)可以被参数化为Critic网络来逐步更新其参数，所以优势函数的参数μ可以通过最小化式(14)中的L(μ)来更新：

y_t＝r(s_t,a_t)+γV(s_t+1) (15)

训练和更新的具体流程如表1所示，其主要流程可以被表述为：首先Actor网络的参数θ和θ_old以及Critic网络的参数μ被随机初始化，其中旧策略的参数θ_old从新策略那里复制得来。在训练过程中，我们将智能体和电力***环境互动一天作为一个回合T，由于我们使用的历史数据的间隔是3分钟，因此将每次互动作为一个时间步t(T＝480t)。在每一个回合T内，智能体先和环境互动480步来形成一组旧策略，在每一更新步t内，Actor根据当前的状态s_t做出相应的动作a_t，然后得到一个奖励r_t并将状态转移到s_t+1。然后使用式(13)计算优势估计值，当Actor完成T步的交互时，Actor网络的参数θ通过式(16)来更新。

式中，

是Actor网络的学习率；同时我们可以多次使用T步内收集的历史经验来更新参数θ。同样，Critic网络的参数可以通过式(17)更新。

式中，

是Critic网络的学习率。每一个回合T更新完后，将策略网络的参数赋给旧策略：θ_old←θ。

表1 GCN-PPO算法的训练流程

步骤5：在步骤4训练完成后，对训练好的智能体模型进行保存，然后验证其有效性和在配电网拓扑变化时的可拓展性。

本发明使用图2中的IEEE 33节点测试***验证了所提方法的有效性，该测试***有33个节点，37条线路(其中包括32条常闭线路和5条常开线路)。在仿真阶段，测试***使用Python中的PyPower工具包来进行潮流计算，所有DRL智能体的设计和训练由PyTorch工具包在配备16GB内存和2.50GHz Intel(R)Core(TM)i7-11700的计算机上完成。

测试***中的4台PV分别被安装在节点13、22、25、33处，其装机容量分别为0.8MW、1.2MW、1.5MW和0.5MW。2台SVC分别被安装在7和18节点，其无功补偿容量都是1Mvar。本发明使用云南省某地区两年的分布式PV出力实测数据和负荷实测数据来训练DRL智能体，PV和负荷数据的出力间隔为3分钟，因此智能体将从240000(500×480)组数据中捕获问题的不确定性以及环境的动态特性。同时选取夏至日和冬至日两天的数据作为测试集来观测训练的效果，这两个典型日的PV和负荷数据如图3所示。

在离线训练阶段，DRL智能体被训练了500回合，每回合训练480步，电压限制设置为0.95～1.05，若电压越限则受到相应惩罚。若在训练过程中潮流不收敛，则返回终止指令。Actor网络和Critic网络的超参数以及奖励函数的权重设计如表2所示。

表2算法的超参数设置

为了验证所提GCN-PPO算法的有效性，将所提算法与不使用图神经网络的PPO算法进行了比较。两种算法的Actor网络和Critic网络使用同样的设计和超参数，并在相同的IEEE-33节点测试***上训练500个回合，训练的回合累计奖励值和电压越限次数如图4所示。由于基于DRL算法的随机性，我们使用不同的随机种子对每个算法进行三次仿真实验，训练结果的平均值和误差界在图4中以实线和填充区表示。

在训练刚开始时，随机初始化的参数使智能体表现出了较低的性能，具体表现为电压越限严重，此时智能体所做的动作是错误的。随着训练的进行，智能体在奖励值的指导下开始从经验中学习正确的策略，同时根据损失函数提供的梯度，Critic网络的参数不断被优化，loss也不断减小。在训练达到200回合后，智能体已经可以做出正确动作，此时奖励值和loss开始收敛，电压每回合越限的次数也趋近于0。从图4中可以看出，GCN-PPO收敛后的性能要略优于PPO算法，但是训练期间GCN-PPO算法奖励值的波动较大，不如PPO算法稳定。

为了进一步证明所提GCN-PPO算法在进行VVO时的优势，将训练好的模型在测试集上进行测试，并与集中式控制的OPF算法和基于启发式的粒子群优化算法(particle swarmoptimization,PSO)进行了对比。图5展示了三种算法在夏至日和冬至日测试集上的有功损耗对比。集中式的OPF是在精确的电网参数和数据下通过大量计算得出的优化结果，因此它具有最佳VVO性能。本文的GCN-PPO算法表现出与OPF相似的性能，且在满足电压约束的条件下GCN-PPO在夏至日和冬至日测试集上的平均网损相比PSO算法下降了37kW和16.2kW。

为了验证所提算法在配电网拓扑发生变化时的可扩展性，本发明将训练完成的GCN-PPO和PPO智能体模型进行保存，并随机抽取10天的PV和负荷运行数据在所设计的3个场景上进行了测试。为了模拟故障维修时的情景，我们将闭合联络开关和打开分段开关作为一组拓扑变换的方式。并根据拓扑变换的程度设计了3个场景，1)场景1是闭合12和22节点间的联络开关，打开10和11节点的分段开关；2)场景2是闭合12和22、8和21、25和29节点之间的联络开关，然后打开10和11、4和5、6和26节点之间的分段开关；3)闭合12和22、8和21、25和29、9和15、18和33节点之间的联络开关，然后打开10和11、4和5、6和26、8和9、30和31节点之间的分段开关。

图6展示了三个场景下GCN-PPO算法和PPO算法在10天中的电压越限次数。从图中我们可以看出，普通的PPO智能体在训练过程中由于没有考虑拓扑的连接关系，随着配电网拓扑的变化程度不断加大，其电压违规率不断增大。而所提GCN-PPO智能体在拓扑变化较大的情况下，依然具备良好的电压控制性能。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解，本公开不受上述实施例的限制，上述实施例和说明书中描述的只是说明本公开的原理，在不脱离本公开精神和范围的前提下，本公开还会有各种变化和改进，这些变化和改进都落入要求保护的本公开范围内容。

Claims

1.一种基于图强化学习的配电网电压无功优化方法，其特征在于，包括以下步骤：构建配电网的电压无功优化(VVO)的数学模型，VVO的数学模型包括目标函数、潮流计算的等式约束和运行过程中的不等式约束；

2.根据权利要求1所述的一种基于图强化学习的配电网电压无功优化方法，其特征在于：所述构建配电网的VVO数学模型，PV高渗透配电网中的不确定量包括PV的有功出力P_PV、负荷的有功功率P_L和负荷的无功功率Q_L，在执行OPF时的控制变量为SVC的无功输出Q_SVC和PV逆变器的无功输出Q_PV；无功优化的目标是最小化配电网的有功功率损耗，下式展示了t时刻的优化目标：

式中，T是所优化的时间段；N是配电网节点数；F是在时间段T内的总网损成本；P_loss(t)是配电网t时刻的网络损耗；C_p是网损成本系数，G_ij是导纳矩阵的实部；V_e,i(t)和V_f,i(t)是t时刻内i节点电压的实部和虚部；V_e,j(t)和V_f,j(t)是t时刻内j节点电压的实部和虚部。

3.根据权利要求2所述的一种基于图强化学习的配电网电压无功优化方法，其特征在于：所述VVO的数学模型约束条件包括：潮流计算的等式约束和不等式约束以及调压设备运行容量约束，其表达式如下：

P_i(t)＝P_L,i(t)-P_PV,i(t) i∈N

Q_i(t)＝Q_L,i(t)-Q_SVC,i(t)-Q_PV,i(t) i∈N

V_min＜V_i(t)＜V_max i∈N

上式中，G_ij是导纳矩阵的实部；B_ij是导纳矩阵的虚部；P_i(t)和Q_i(t)是t时刻节点i有功功率和无功功率的净注入量；V_e,i(t)和V_f,i(t)是t时刻内i节点电压的实部和虚部；V_e,j(t)和V_f,j(t)是t时刻内j节点电压的实部和虚部；V_i(t)是t时刻节点的电压幅值。

4.根据权利要求3所述的一种基于图强化学习的配电网电压无功优化方法，其特征在于：所述V_max和V_min是节点电压上下限，分别设置为1.05和0.95；

Q_SVC,min≤Q_SVC,i(t)≤Q_SVC,max

Q_PV,min(t)≤Q_PV,i(t)≤Q_PV,max(t)

5.根据权利要求1所述的一种基于图强化学习的配电网电压无功优化方法，其特征在于：所述将VVO数学模型转换成一个MDP模型，GCN-PPO框架下VVO的状态空间、动作空间、奖励函数和状态转移过程表示如下：

6.根据权利要求1所述的一种基于图强化学习的配电网电压无功优化方法，其特征在于：所述GCN-PPO算法：近端策略优化算法是在信任域策略优化(TRPO)的基础上改进得来的；信任域策略优化算法使用库尔贝克-莱布朗散度约束策略网络，优化目标和约束如下式所示：

式中，

表示新旧策略的比率，

为期望，表示在有限样本上的经验平均，

7.根据权利要求8所述的一种基于图强化学习的配电网电压无功优化方法，其特征在于：所述GCN-PPO算法在多层感知机前面增加图卷积层，所使用的策略(Actor)网络架构由两个图卷积层和三个多层感知机层组成，每一层均附带一个ReLU激活函数，并使用求和池化函数将图卷积层的输出在相邻的节点上聚合起来，然后传递给多层感知机层输出一个策略；定义值函数的价值(Critic)网络的架构和Actor网络大致相同，主要的区别是在Critic网络的架构图卷积层后面加了一个全局求和池函数。

8.根据权利要求1所述的一种基于图强化学习的配电网电压无功优化方法，其特征在于：使用真实的配电网历史运行数据对提出GCN-PPO算法的智能体进行训练，在这个过程中Actor网络和Critic的网络的参数不断被更新，每回合训练结束后将网络参数保存，然后根据训练完的Actor模型来实时执行VVO。

9.一种设备，其特征在于，所述设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-8中任意一项所述的基于图强化学习的配电网电压无功优化方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-8中任意一项所述的基于图强化学习的配电网电压无功优化方法。