CN112149347A

CN112149347A - 基于深度强化学习的配电网负荷转供方法

Info

Publication number: CN112149347A
Application number: CN202010974175.8A
Authority: CN
Inventors: 张沛; 宋秉睿; 李家腾; 吕晓茜; 孟祥飞
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-29
Anticipated expiration: 2040-09-16
Also published as: CN112149347B

Abstract

本发明提供了一种基于深度强化学习的配电网负荷转供方法。该方法包括：配电网发生故障，开始负荷转供；将配电网的实时状态信息输入到智能体，计算出动作评价向量，基于动作评价向量根据动作策略选取相应的动作；智能体对配电网执行所述动作，对配电网的动作及动作后的状态进行评价,根据约束条件与目标函数计算奖励Reward，根据奖励Reward和结束规则确定Done的值，对智能体进行参数更新；依据结束标志位判断是否结束序列动作。本申请的方法利用深度强化学习来提高配电网的故障应急恢复能力与可靠性，基于深度强化学习的配电网负荷转供算法避免了故障时的大量运算与电网仿真迭代，提高了负荷转供的速度，使配电网具有更高的可靠性。

Description

基于深度强化学习的配电网负荷转供方法

技术领域

本发明涉及配电网故障处理技术领域，尤其涉及一种基于深度强化学习的配电网负荷转供方法。

背景技术

随着我国国民经济的快速发展，尤其是第三产业的用电规模逐渐扩大，中小型用户与居民用电比例逐渐增加，电力负荷的结构出现了一些变化，配电网节点数大量增加，线路也越来越长，结构愈加复杂，故障的几率相应增大。因此配电网在发生故障后，可以通过调整网络开关的开合状态来切除线路故障，隔离故障并转移故障影响区内负荷，以减少故障影响范围，从而总体提高电网运行的经济性和安全性。

目前，国内外许多学者对负荷转供提出的方法基本可以分成以下几类：启发式算法、数学优化法、专家***法和人工智能算法。上述算法均可获得可行的转供方案输出，但均存在一定的缺陷。

如基于直观或经验构造，模拟思维逻辑的启发式算法，它根据联络开关的剩余容量，失电区域的位置划分，尝试用简单的操作，试图一次提供解决方案，方案的最优性很难达到，极易陷入局部最优解，得到解的优劣非常依赖于网络的初始状态，这种方法虽然不需要太多次的潮流计算，在目前各种算法中实时性相对较好，但依然需要进行多次潮流求解对解决方案进行选择，其依然不能满足配电网负荷转供的实时性要求。

将配电网重构问题用简化数学模型进行描述的数学优化算法，如最优流模式法，将每一条环路合上再打开电流最小的刀闸，当配电网络结构庞大、复杂和维数大时，需要不停反复计算直到趋于稳定，会出现“组合***”的问题；其对于电网仿真过程的优化使求解过程出现许多不确定性因素，对最终结果的准确性影响较大。由于数学优化方法比较简单，不能很好地兼顾复杂的大电网，而且其计算是从局部到整体，极易陷入局部最优解，其计算过程也需要消耗大量时间，造成过长的停电时间，无法满足配电网负荷转供的实时性要求。

专家***法能够自动生成恢复故障需要操作的方案并保存在库中，实时性好，适用性广，可应用于网络较大时的方案求解。但专家***的只是库的建立和集成费时费力，且实际中故障种类多种多样，无法记录包括全部情况。

传统的人工智能算法主要有一些随机搜索算法与有监督学习算法。随机搜索算法如禁忌搜索算法、粒子群搜索算法、遗传算法计算次数多，计算量大，求解时间较长，可能出现最优解或者不收敛的情况，无法很好兼顾求解速度与全局最优解。有监督学习算法如神经网络法需要建立在以往经验上进行学习，在样本充足的情况下容易找到全局中最优解，但是在缺少有标签数据的情况下难以获得较好的训练结果。这类方法属于在故障发生以后，获得故障信息基础上的搜索最优解的方法，中间需要进行大量的迭代计算与潮流求解，初始解如果距离最优解较远，将消耗大量时间寻找最优解，也无法在短时间内为***提供较优的解决方案。

发明内容

本发明的实施例提供了一种基于深度强化学习的配电网负荷转供方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于深度强化学习的配电网负荷转供方法，包括：

步骤1、初始化主神经网络Q(S，A，ω，α，β)和与主神经网络Q的网络结构完全一样的目标网络T(S，A，ω^*，α^*，β^*)，初始化经验经验池R、折扣因子γ、学习率L_r、目标网络更新频率N_replace、抽样数量N_batch，设置结束状态的标志位Done＝0，所述主神经网络Q、目标网络T和经验池构成配电网的智能体；

步骤2、配电网发生故障，开始负荷转供；

步骤3、读取配电网的实时状态信息，将配电网的实时状态信息输入到主所述智能体，所述智能体根据配电网的实时状态信息计算出每个动作的评价值；

步骤4、所述智能体基于每个动作的评价值根据动作策略选取相应的动作；

步骤5、智能体对配电网执行所述动作，得到动作后配电网的状态S′，对配电网的动作及动作后的状态进行评价,根据约束条件与目标函数计算奖励Reward，根据奖励Reward和结束规则确定Done的值，完成一次配电网开关动作后，将本次配电网开关动作作为经验样本e＝(s，a，r，s′)存储在经验池R中；

步骤6、从经验池R中随机采样所述抽样数量N_batch个经验样本，根据采样的经验样本利用所述折扣因子γ计算目标值，基于所述目标值和学习率L_r通过最小化损失函数对主神经网络Q(S，A，ω，α，β)中的参数ω，α，β进行更新；

步骤7、当主神经网络经过N_replace次更新后，使用主神经网络Q的参数ω，α，β对目标网络T的参数ω^*，α^*，β^*进行更新：

步骤8、依据结束标志位Done判断是否结束序列动作，Done＝0，返回步骤4；Done＝1，退出循环，本次配电网的负荷转供过程处理结束。

优选地，所述的步骤1还包括：

定义配电网负荷转供操作中的***状态空间、动作空间以及奖励函数，智能体与配电网环境交互由数组[S，A，P(s，s′)，R(s，a)，Done]表示，其中S表示配电网可能的状态所构成的状态空间，A表示可能的动作集合，P(s，s′)表示从配电网状态s转移到s′的转移概率，R(s，a)是在状态s时采取了a动作，触发了相关的奖励，其被反馈给智能体，Done为结束状态的标志位，智能体主动选择终止本次决策或由于违反约束条件而被环境终止继续操作时，Done被设置为1，正常决策步骤时，Done保持为0；

状态空间被定义为一个数组S＝[V，I，SW，F]，V是电压向量组，其用来表示配电网中各个节点处所有相位的电压值，V_in为第i个节点的第n个相位的电压值；I为电流向量组，其用来表示配电网中所有线路中各个相位的电流值，I_in为第i条线路的第n个相位的电流值；SW为配电网中所有开关的状态值向量，SW_i为第i个开关的状态，为0表示打开，为1表示闭合；F为表示配电网线路故障状态的向量，F_i为编号为i的线路的故障状态，0表示正常，1表示发生故障。

优选地，所述的步骤1还包括：

所述智能体采用Dueling-DQN算法，所述Dueling-DQN算法利用深度神经网络进行计算，所述用深度神经网络包括主神经网络Q和目标网络T，所述主神经网络Q和目标网络T包括：公共隐藏层、价值函数V和优势函数B；

价值函数V与优势函数B的公共隐藏层采用了2层神经网络，用来提取输入状态量的特征，第一层有30*N_feature个神经元，其中N_feature为输入状态量的个数，所有神经元直接接受状态数据的全连接输入，并添加了偏置bias，激活函数为Relu函数；第二层与第一层进行全连接，也有30*N_feature个神经元；

所述智能体采用Dueling-DQN算法对所述主神经网络Q和目标网络T的输出结果进行计算，计算出每个动作的的评价值。

优选地，所述的步骤3中的读取配电网的实时状态信息，将配电网的实时状态信息输入到主所述智能体，所述智能体根据配电网的实时状态信息计算出每个动作的评价值，包括：

所述主神经网络Q和目标网络T中的价值函数V与状态S有关，与动作A无关，其为一个标量，记做V(S，ω，α),优势函数B同时与状态状态S和动作A有关，其为长度为动作数量的一个向量，记为B(S，A，w，β),智能体的价值函数表示为：

Q(S，A，ω，α，β)＝V(S，ω，α)+B(S，A，ω，β)

其中，ω是公共部分的网络参数，而α是价值函数独有部分的网络参数，而β是优势函数独有部分的网络参数，最终Q网络的输出由价格函数网络的输出和优势函数网络的输出线性组合得到；

对优势函数部分做了中心化的处理，实际使用的组合公式如下：

其中

表示所有动作的集合，

即求该集合中元素的个数，使用上式计算得到的Q(S，A，ω，α，β)为一个长度为动作数的向量，其中的每个元素代表该状态S下每个动作的评价值。

优选地，所述的步骤4中的所述智能体基于每个动作的评价值根据动作策略选取相应的动作，包括：

智能体基于动作评价向量根据动作策略选取相应的动作，在非探索模式选择最优动作，该最优动作为评价值Q最高的动作；在探索模式则采取ε-greedy随机贪婪策略，即取随机数x，若x＜ε，则选择评价值Q最高的动作作为本次动作；若x＞ε则从所有动作中选择一个随机动作，所述ε为设定的参数。

优选地，所述的步骤5中的所述智能体对配电网执行所述动作，包括：

所述动作A为一个数字，其范围为0～2N_switch的整数，当动作A为2N_switch时，代表不采取任何操作并退出，本次决策结束；当动作A为0～2N_switch-1时，对动作A作如下计算：

x＝A％2

其中x为A除以2得到的余数，该式的含义如下：

每次动作为对一个开关进行操作或者直接退出，如果退出则本次决策结束。

优选地，所述的步骤5中的得到动作后配电网的状态S′，对配电网的动作及动作后的状态进行评价,根据约束条件与目标函数计算奖励Reward，根据奖励Reward和结束规则确定Done的值，包括：

设置配电网的约束条件包括：

电压保持在偏差为±7％的容许范围内，对于超出该范围的电压，设置电压惩罚值P_Volt＝-10，并设置结束标志Done为1；对于未超出该范围的电压，设置电压惩罚值P_Volt＝0；

当线路与变压器的通过电流大于其极限值时，设置电流惩罚值P_Lim＝-10，并设置结束标志Done为1；对于未超出大于其极限值的电流，设置电流惩罚值P_Lim＝0；

设置智能体的环网惩罚P_Loop为：

设置智能体的无效动作惩罚P_Act为：

设置配电网的目标函数包括：

根据损失负荷的比例设置负荷损失评价值E_Loadloss：

其中，L_loss为失电损失负荷值，L_total为整个电力***负荷总量，计算得到的E_Loadloss值在-2～2之间；

对开关的动作次数的评价值E_Num：

其中，A_Num本次决策发生变化的开关总数量，L_Num为开关总数量，计算得到的E_Num值在-1～1之间。

对配电网的线损情况的评估值E_Loss：

其中，Line为未停电线路总数，I_i为第i条线路的实际电流，R_i为第i条线路与变压器的电阻，S为全网总功率；

对于电压未超出±7％范围的节点，线路的电压偏移程度评价值E_Vot：

其中，N为未停电节点总数量，pu_i为节点i的电压标幺值；

环境给出的奖励函数由以上各评价值的总和构成，即Reward：

Reward＝P_Volt+P_Lim+P_Loop+P_Act+E_Loadloss+E_Num+E_Loss+E_Vot。

优选地，所述的步骤6中的从经验池R中随机采样所述抽样数量N_batch个经验样本，根据采样的经验样本利用所述折扣因子γ计算目标值，基于所述目标值和学习率L_r通过最小化损失函数对主神经网络Q(S，A，ω，α，β)中的参数ω，α，β进行更新，包括：

从经验池R中随机采样N_batch个经验样本e_i＝(s_i，a_i，r_i，s′_i)，N_batch＝20，计算目标值

通过最小化损失函数

对主神经网络Q(S，A，ω，α，β)中的参数ω，α，β进行更新，以RMSProp算法求参数的更新程度，学习率L_r为0.1，对主神经网络Q的一次更新代表了一次智能体的学习过程。

由上述本发明的实施例提供的技术方案可以看出，本申请的方法利用深度强化学习来提高配电网的故障应急恢复能力与可靠性，基于深度强化学习的配电网负荷转供算法避免了故障时的大量运算与电网仿真迭代，提高了负荷转供的速度，使配电网具有更高的可靠性。采用强化学习的算法，通过训练与经验学习，在发生故障时，无需消耗大量时间进行仿真计算分析，直接通过分析实时运行大数据而进行负荷转供决策，可以以更快给出更好的转供策略。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种负荷转供决策到强化学习的映射关系示意图；

图2为本申请实施例提供的一种神经网络的结构图；

图3为本发明实施例提供的一种基于深度强化学习的配电网负荷转供方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

由于配电网的建设存在一定程度的滞后，电力设备的容量等裕度偏小，加大了配电网负荷转供的难度，各类突发断电故障需要及时提出转供方案,因此对算法的运算速度以及适用性有更高的要求,而已有算法均存在一定的局限性。现有算法大多在故障发生后进行临时仿真计算分析，很少使用配网运行实时信息大数据，消耗时间较长；或者采取简化仿真过程的方法以加快计算速度，但这样很难兼顾很好的配网运行安全性与经济性。

本发明实施例采用强化学习的算法，通过训练与经验学习，在发生故障时，无需消耗大量时间进行仿真计算分析，直接通过分析实时运行大数据而进行负荷转供决策，可以以更快给出更好的转供策略。

以配电网的实时状态信息为输入数据，智能体采用深度强化学习Dueling-DQN算法进行决策并选择动作，动作后转移至新的状态，用约束条件与目标函数对该动作进行评价，并对智能体进行奖励或惩罚，当通过一系列操作完成转供时，停止操作得到最终操作策略。

图1是本申请实施例提供的一种负荷转供决策到强化学习的映射关系示意图,下面结合图1对配电网环境与智能体的交互关系进行详细说明。

首先需要定义强化学习中的环境，即配电网负荷转供操作中的***状态空间、动作空间以及奖励函数。智能体与配电网环境交互由数组[S，A，P(s，s′)，R(s，a)，Done]表示，其中S表示配电网可能的状态所构成的状态空间，A表示可能的动作集合，P(s，s′)表示从配电网状态s转移到s′的转移概率，R(s，a)是在状态s时采取了a动作，触发了相关的奖励，其被反馈给智能体。Done为结束状态的标志位，智能体主动选择终止本次决策或由于违反约束条件而被环境终止继续操作时，Done被设置为1，正常决策步骤时，Done保持为0。

A.状态空间

B.动作空间

面对实时变化的配电网，强化学习的智能体需要在配电网中对开关进行相应的操作，控制配电网的状态。智能体可以根据当前的配电网状态以及奖励函数决定如何执行下一步的动作。动作空间A为一个数字，其范围为0～2N_switch的整数，当动作A为2N_switch时，代表不采取任何操作并退出，本次决策结束；当动作A为0～2N_switch-1时，对A作如下计算：

x＝A％2

其中x为A除以2得到的余数，该式的含义如下：

C.奖励函数

智能体对环境配电网采取已选择的动作后，会得到环境对于本次动作的评价，本发明将此评价作为智能体的奖励。奖励的主要分为约束条件部分与目标函数部分，使操作能够在保证正常配电网运行的条件下实现最经济运行成本。

(1)约束条件：

对配电网的操作控制首先要考虑配电网的安全运行与用户用电安全，转供后配电线路各节点的电压、电流质量满足要求，电压应保持在偏差为±7％的容许范围内，对于超出该范围的电压，予以高惩罚P_Volt，并设置结束标志Done为1。

当传输容量超过线路与变压器的极限值时，电力设备将无法保证正常运转，易引发二次故障，因此，本发明取线路与变压器的通过电流与其极限值进行比较，如果超越极限通过电流，视为设备传输容量越限，予以高惩罚P_Lim，并设置结束标志Done为1。

当智能体进行操作后在配电网中出现环网时，可以作为中间过渡状态短时间出现，但不允许作为长期运行状态出现，因此环网惩罚P_Loop应当考虑动作状态。

当智能体采取无效的操作时，如对已经闭合的开关执行闭合动作时，或者对已经打开的开关进行打开动作时，以及对故障打开线路进行动作时，该动作视为无效，给予无效动作惩罚P_Act。

(2)目标函数：

在动作能够满足约束的条件下，尽可能地恢复下游失电区域的正常供电，因此，根据损失负荷的比例设置负荷损失评价值E_Loadloss。

其中，L_loss为失电损失负荷值，L_total为整个电力***负荷总量，计算得到的E_Loadloss值在-2～2之间。

开关的动作都要对开关的寿命产生影响，开关动作中可能存在部分开关需要人员手动操作，当动作次数过多时，不仅扩大操作失误的概率，用户供电的恢复时间也可能无法满足要求，而且还会使得中压配电网的结构变化过大，在故障消除或检修结束后，给配电网恢复至原运行方式增加更多的难度。因此应该尽量减少对开关的频繁操作，减少开关动作而引起的操作费用，E_Num对动作次数的评价值。

其中，A_Num本次决策发生变化的开关总数量，L_Num为开关总数量。计算得到的E_Num值在-1～1之间。

考虑到配电网的经济运行，在完成动作后，需要对配电网的线损情况进行评估，评估使用带电线路的阻抗模型，E_Loss为线损评价值。

其中，Line为未停电线路总数，I_i为第i条线路的实际电流，R_i为第i条线路与变压器的电阻，S为全网总功率。公式右端为计算得到的近似线损率，由于配电网及基层线损率往往在5％～12％之间，为使E_Loss的值能保持在近似-1～0处，因此将线损率放大-10倍作为线损评价值。

对于电压未超出±7％范围的节点，用E_Vot评价值衡量其电压偏移程度，以保证转供后的配电网具备较好的电压质量。

其中，N为未停电节点总数量，pu_i为节点i的电压标幺值，由于右侧公式计算得到的结果小于0.07，且大部分电压值偏离不超过0.05，因此为使E_Vot的值能保持在近似-1～0处，将其放大20倍。

环境给出的奖励函数由以上各评价值的总和构成，即Reward。

Reward＝P_Volt+P_Lim+P_Loop+P_Act+E_Loadloss+E_Num+E_Loss+E_Vot

D.结束条件

如果动作造成电压越限或设备传输容量越限，该动作回合会被强制结束，视为动作失败，结束标志Done＝1；如果动作以后的配电网恢复了全部无故障区域的负荷，而且没有电压越限或设备传输容量越限的情况，该动作回合会被环境判断为已经完成转供，当前回合自动结束，结束标志Done＝1；但特殊情况下如某些联络线容量不足的情况下，需要通过切除无故障失电负荷以保证供电质量，或者存在多处故障导致无法进行转供，此时环境无法通过恢复所有非故障负荷判断转供是否完成，在智能体认为当前状态没有更好的动作时，智能体可以自行选择结束当前回合并退出，结束标志Done＝1。除此之外的其他情况，Done＝0，以使智能体继续执行动作。

本发明实施例提供的一种基于深度强化学习的配电网负荷转供方法的处理流程图如图3所示，包括如下的处理步骤：

步骤1、初始化主神经网络Q的参数ω，α，β与目标网络T的参数ω^*，α^*，β^*，初始化经验经验池R、折扣因子γ、学习率L_r、目标网络更新频率N_replace、抽样数量N_batch，Done＝0。

初始化阶段，除了初始化主神经网络Q(S，A，ω，α，β)外，还需要另一个与Q网络结构完全一样的目标网络T(S，A，ω^*，α^*，β^*)，该网络的作用主要是用来求误差以供主神经网络进行学习。

步骤2、配电网发生故障，开始负荷转供。

步骤3、读取配电网节点电压标幺值、线路电流、开关开合状态、开关故障状态等实时状态信息，经过处理后得到状态向量S，并输入主神经网络Q，智能体通过DuelingDQN算法计算出动作评价向量。

本发明实施例中的基于深度强化学习的配电网负荷转供方法中的智能体的可以采用Deep Q Network及其进化算法DoubleDQN、DuelingDQN，经过比较及测试，DuelingDQN算法在负荷转供的决策过程中表现最优，因此本发明将介绍使用DuelingDQN算法的强化学习智能体模型。

DuelingDQN算法使用深度神经网络对获得Q-learning中所有动作的Q值，其深度神经网络部分具备对动作进行评价以及训练学习的能力，其神经网络结构如图2所示。

本发明的DuelingDQN算法中的深度神经网络部分中，价值函数V与优势函数A的公共隐藏层采用了2层神经网络，用来提取输入状态量的特征，第一层有30*N_feature个神经元，其中N_feature为输入状态量的个数，所有神经元直接接受状态数据的全连接输入，并添加了偏置(bias)，激活函数为Relu函数；第二层与第一层进行全连接，与第一层结构类似有30*N_feature个神经元。

价值函数神经网络与优势函数神经网络各有2层，第一层与分别公共隐藏层的输出进行全连接，有30*N_feature个神经元，并添加了偏置，激活函数为Relu函数；价值函数V的第二层有1个神经元，与第一层进行全连接，有偏置但没有激活函数，直接输出结果。优势函数A第二层与第一层进行全连接，有N_action个神经元，同样直接输出结果，最后利用上式对两神经网络的输出结果进行计算得到最终Q值。

DuelingDQN对于DQN算法的优化体现在，Dueling DQN考虑将Q网络分成两部分，第一部分是仅仅与状态S有关，与具体要采用的动作A无关，这部分我们叫做价值函数(ValueFunction)部分，其为一个标量，记做V(S，ω，α),第二部分同时与状态状态S和动作A有关，这部分叫做优势函数(Advantage Function)部分,其为长度为动作数量的一个向量，记为B(S，A，w，β),那么最终每个动作的评价值的计算公式为：

Q(S，A，ω，α，β)＝V(S，ω，α)+B(S，A，ω，β)

其中，ω是公共部分的网络参数，而α是价值函数独有部分的网络参数，而β是优势函数独有部分的网络参数。最终Q网络的输出由价格函数网络的输出和优势函数网络的输出线性组合得到，可以直接评价本次的动作价值，但是这个式子无法辨识最终输出里面V(S，ω，α)和B(S，A，ω，β)各自的作用，为了体现这种可辨识性(identifiability)，对优势函数部分做了中心化的处理，实际使用的组合公式如下：

其中

表示所有动作的集合，

即求该集合中元素的个数，式子右侧用原向量A全部减去了向量的元素平均值，得到新的优势函数A。使用上式计算得到的Q(S，A，ω，α，β)为一个长度为动作数的向量，其中的每个元素代表该状态S下每个动作的评价值。

与主神经网络Q结构相同的目标网络T的作用是为了克服样本的随机波动性导致训练过程中的震荡问题，使用两个结构相同但是参数不同的深度神经网络T与Q，Q网络有最新的参数，在每次学习时都要进行更新，而T网络在经过N_replace次动作后，T网络才进行一次更新。

步骤4、智能体基于动作评价向量根据动作策略选取相应的动作，非探索模式选择最优动作，即评价值Q最高的动作；探索模式则依据ε-greedy选择最优动作或随机动作a。

在训练中的智能体中，为了使智能体具备跳出局部最优解，进行全局探索的能力，采取ε-greedy随机贪婪策略，即取随机数x，若x＜ε，则选择评价值Q最高的动作作为本次动作；若x＞ε则从所有动作中选择一个随机动作。并且ε随着训练的回合数不断增加，训练次数足够多时，深度神经网络中的参数几乎不再发生变化，此时ε为1，每次都选择最佳动作。

步骤5、环境执行该动作，得到动作后状态S′，对动作及动作后的状态进行评价,根据约束条件与目标函数计算奖励Reward，由结束规则确定Done的值，完成一次配电网开关动作后，将本次配电网开关动作作为经验样本e＝(s，a，r，s′)存储在经验池R中。

步骤6、从经验池R中随机采样N_batch个经验样本e_i＝(s_i，a_i，r_i，s′_i)，通常N_batch＝20，计算目标值

通过最小化损失函数

对主神经网络Q(S，A，ω，α，β)中的参数ω，α，β进行更新，以RMSProp算法求参数的更新程度，该算法的参数学习率L_r决定了参数更新的程度，即神经网络的学习速度，其值通常为为0.001，对主神经网络Q的一次更新代表了一次智能体的学习过程。

步骤7、每当主神经网络经过N_replace次更新时，通常N_replace＝200，使用主神经网络Q的参数ω，α，β对目标网络T的参数ω^*，α^*，β^*进行更新：

ω^*，α^*，β^*←ω，α，β

步骤8、依据结束标志位Done对是否结束序列动作进行判断。Done＝0，返回步骤4；Done＝1，退出循环，本次负荷转供决策结束，进入下一步。

以上为一次单步动作，而一次完整的负荷转供很可能由多次具有先后顺序的开关动作组成。所以依据结束标志位Done对是否结束序列动作进行判断。若Done＝0，代表该配电网还需要继续动作以完成转供，则重新读取配电网实时运行信息，将新的状态量输入Q网络重新进行计算，进入下一个动作决策过程；若Done＝1，本次动作决策停止，

步骤9、等待下次配电网发生故障，进入新的负荷转供决策过程,转到步骤2。

综上所述，本申请提供一种基于深度强化学习的配电网负荷转供方法,采用了配电网的实时运行数据来进行负荷转供决策，利用深度强化学习来提高配电网的故障应急恢复能力与可靠性，在保证配电网安全稳定运行、用户用电安全的条件下，最大限度的达到了电压质量、配电网操作与运行的经济性的多方面最优。同时基于深度强化学习的配电网负荷转供算法避免了故障时的大量运算与电网仿真迭代，提高了负荷转供的速度，减短了非故障区域停电的时间，使配电网具有更高的可靠性。

本发明使用强化学习算法为Dueling-DQN算法，相对于Q学习算法、DQN算法等常用的强化学习算法，对配电网的状态特征识别更加精确，能够达到更加准确的负荷转供决策方案。

本发明实施例通过本发明通过强化学习人工智能算法，获得运行配电网的实时信息分析用于负荷转供决策，能够在短时间内给出最佳的控制策略。采用强化学习的算法，通过训练与经验学习，在发生故障时，无需消耗大量时间进行仿真计算分析，直接通过分析实时运行大数据而进行负荷转供决策，可以以更快给出更好的转供策略。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。