CN112614009B

CN112614009B - 一种基于深度期望q-学习的电网能量管理方法及***

Info

Publication number: CN112614009B
Application number: CN202011418334.2A
Authority: CN
Inventors: 陈振; 韩晓言; 丁理杰; 魏巍
Original assignee: Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-08-25
Anticipated expiration: 2040-12-07
Also published as: CN112614009A

Abstract

本发明公开基于双‑深度期望Q‑学习网络算法的电网能量管理方法及***，首先基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布；将光伏出力的概率分布输入基于双‑深度期望Q‑学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略；***依据光伏发电出力策略运行各光伏出力设备运用；本发明将微电网经济调度问题模拟为马尔可夫决策过程，将目标函数和约束条件映射成强化学习的奖惩函数，利用其学习和与环境交互的能力获得最优决策，借助贝叶斯神经网络对学习环境中光伏发电出力的不确定性建模在马尔科夫决策过程中适当考虑状态随机转移，显著提高算法的收敛速度。

Description

一种基于深度期望Q-学习的电网能量管理方法及***

技术领域

本发明涉及电网能量管理***技术领域，具体涉及一种基于深度期望Q-学习的电网能量管理方法及***。

背景技术

随着可再生能源发电技术的发展，光伏等分布式电源在电力***中的渗透率不断提高，为电力***安全和经济运行带来了问题甚至挑战。受气候等周围环境因素的影响，光伏等分布式电源出力的不确定性和时变性，对调度计划的制定带来了困难。如何对光伏出力的不确定性进行适当建模和高效求解是一个值得研究的重要问题。

在不确定性建模方面，目前常用方法主要有随机模型、模糊模型、区间数模型和机会约束模型。随机模型的拟合效果受限于所选分布函数的种类；区间数模型通过引入区间数来描述不确定性集合，规避极端条件下的风险，但所求策略较为保守，牺牲了***运行的经济性；机会约束模型通过将不确定性的调度模型转化成确定性优化问题，力图在最小化风险与最大化经济效益之间取得平衡。

考虑到不确定性优化模型求解相当复杂，一般将非线性优化模型线性化后再求解，目前常用方法包括混合整数规划，动态规划，随机线性规划，改进微分进化算法，飞蛾扑火算法等。经典优化算法难以求得该类非线性优化模型的全局最优解，而启发式优化算法一般耗时很长。在此背景下，针对光伏发电高渗透率的微电网，需要对光伏发电出力进行更为精准的建模并寻求高效的求解算法。

深度强化学习作为人工智能技术的一个迅速发展的分支，其通过与环境交互、反馈学习不断改进策略,可以自动适应不确定性因素的变化。与传统算法相比，深度强化学习算法不需要依赖明确的目标函数，代之以奖励函数对决策行为进行评价，能够根据不同的运行要求和优化目标给出相应的控制方案和优化策略，实现实时决策。

发明内容

为实现光伏出力的不确定性的适当建模和高效求解，本发明基于深度期望Q强化学习算法，提出一种电网能量管理方法及***，实现微电网实时能量和经济调度。

本发明通过下述技术方案实现：

本方案提供一种基于双-深度期望Q-学习网络算法的电网能量管理方法，包括以下步骤：

S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布；

S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略；

S3.依据光伏发电出力策略运行各光伏出力设备。

进一步优化方案为，基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为：

T1.仅考虑储能***作为可控资源，以日运行成本最低为目标函数并满足微网运行约束，建立电网能量管理模型；

T2.将T1中电网能量管理模型建模为马尔可夫决策过程；

T3.基于光伏出力的概率分布，考虑状态转移的随机过程，在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法，求解马尔可夫决策过程；

T4.设定合理参数保证神经网络学习过程收敛，训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。

进一步优化方案为，S1中基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为：

S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理；

S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层，将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模；

S13.经过多次模型训练后得到预测点的光伏出力概率分布。

进一步优化方案为，T1中以日运行成本最低的目标函数为：日运行成本为调度周期内购电成本和储能***运行成本之和，表示为：

式中：T为调度时段数；x_t为t时段需要与主电网交换的电量，x_t＞0表示从主电网购电，反之向主电网卖电；c_b,t/c_g,t表示t时段从主电网买/和向主电网卖电的价格；τ_t为t时段储能***的运行成本，|·|⁺为取正函数。

进一步优化方案为，T1中微网运行约束包括：功率平衡约束条件、储能***运行约束条件和调度周期内电池状态约束。

进一步优化方案为，T2中马尔可夫决策过程具体建模过程包括：

考虑***变量的多样性和必要性构建状态空间；

考虑储能***的充放电和向电网买卖电量的动作以保证***内部的功率平衡来构建动作空间；

将目标函数映射为奖励决策函数；

折扣率在计算时取固定值0.9；

状态转移概率表现为下一状态的光伏出力的概率。

进一步优化方案为，步骤T3具体方法为：

在强化学习Q-学习算法的基础上引入经验回放机制，保存每次与环境交互得到的奖励与状态更新情况，当神经网络参数收敛后，获得近似的Q值；利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算；

在双深度Q学习网络的基础上提出双-深度期望Q-学习网络算法，将贝叶斯神经网络和深度强化学习结合起来，通过将状态转移的随机过程用贝叶斯神经网络表示，利用随机状态中Q期望值来更新Q网络。

进一步优化方案为，利用随机状态中Q期望值来更新Q网络具体过程为：

首先，在估计Q网络中选择储能***调度策略；

然后，在目标Q网络中更新Q值；

简化模型，将概率密度函数离散化。

进一步优化方案为，T4中设定合理参数保证神经网络学习过程收敛时，需要考虑经验回放池、探索率和学习率。

本发明还提供一种基于双-深度期望Q-学习网络算法的电网能量管理***，包括：

概率分布获取装置基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布；

第一建模装置仅考虑储能***作为可控资源，以日运行成本最低为目标函数并满足微网运行约束，建立电网能量管理模型；

第二建模装置电网能量管理模型建模为马尔可夫决策过程；

求解装置考虑状态转移的随机过程，在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法，求解马尔可夫决策过程；

模型训练装置设定合理参数保证神经网络学习过程收敛，训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型；

电网能量管理***基于双-深度期望Q-学习网络算法的电网能量管理模型得到的光伏发电出力策略控制各光伏出力设备。

本发明原理：

一、基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布；

贝叶斯神经网络可根据较小的数据量得到较为稳定的预测模型，不会出现过拟合问题；同时，其概率层的神经元的权重与偏置服从一定的概率分布，具备描述不确定性变量的能力。基于贝叶斯神经网络的光伏出力预测，需要对多种影响因素进行分析,影响光伏出力的因素有多种类型，本步骤对其分类建模：

(1)决定性因素

光照辐射强度是影响光伏出力的决定性因素。光伏出力可用下式求取。

P^PV＝φAη

式中：φ为光照辐射强度；A为光伏阵列总面积；η为光电转换效率；A和η为光伏面板固定参数。

(2)持续性影响因素

持续性影响因素指可在较长时间内对光伏出力产生影响的温度、相对湿度、风速等。这些因素对光伏出力的影响所覆盖时段常大于调度区间，因此从历史数据挖掘其对光伏出力的影响。因这类数据较为复杂，特征维度较高，与光伏出力之间关系不是线性的，直接输入会加大神经网络训练难度，需经过回归分析模块和特征提取模块对数据进行预处理。首先，计算它们与光伏出力的皮尔森系数，确定温度、风速、相对湿度与光伏出力的相互依赖的定量关系。之后，由于预测的时间间隔决定了持续性影响因素与光伏出力的相关系数，因此通过对历史数据的学习，得到不同时段的温度、相对湿度、风速与光伏发电出力的相关系数。最后，通过深度全连接神经层将这些多维特征映射到低维中，在降低模型复杂度、提升训练效率的同时也保证特征的完整性。

(3)突发性影响因素

突发性影响因素可以在较短时间内对光伏出力产生影响，如雾霾、运动云层等。该类因素对光伏出力影响所覆盖时段一般小于调度时段。突发性影响因素对光伏出力的影响只会体现在相邻时段之间，即预测点的光伏出力与预测点之前时刻光伏的出力值存在一定关系，且预测点的光伏出力与预测点上一时段的光伏出力相关性最高。因此将预测点的前一时刻的出力数据输入到贝叶斯神经网络中，从而避免多时段输入造成的数据冗余。

将经过回归分析处理后的温度、风速和相对湿度数据输入到深度全连接层实现特征提取和数据降维，将最大光伏出力预测结果与提取的特征同时输入到深度全连接层，与预测点前一时段的光伏出力共同作为贝叶斯神经网络的概率层输入。

二、仅考虑储能***作为可控资源，以日运行成本最低为目标函数并满足微网运行约束，建立电网能量管理模型；

如图3所示，微电网中的可控设备一般包括储能***、可控负荷、参与调度的电动汽车等。本发明侧重研究基于深度强化学习的微网随机调度的建模与求解，因而仅考虑储能***作为可控资源。对于包含其他可控设备的场景，只需在本发明模型的基础上改变马尔可夫决策过程中动作的维数即可：

(1)目标函数

以日运行成本最低为目标函数，求取微电网的能量管理策略。日运行成本为调度周期内购电成本和储能***运行成本之和，可如下定义：

式中：T为调度时段数；x_t为t时段需要与主电网交换的电量，x_t＞0表示从主电网购电，反之向主电网卖电；c_b,t/c_g,t表示t时段从主电网买/和向主电网卖电的价格；τ_t为t时段储能***的运行成本。|·|⁺为取正函数。

(2)约束条件

1)功率平衡约束

x_t-P_t ^L+P_t ^PV-P_t ^ESS＝0

式中：P_t ^PV为t时刻光伏的发电出力，为随机变量；P_t ^ESS为t时刻储能电池的功率，当P_t ^ESS＞0表示储能***充电，反之为放电；P_t ^L为t时刻的负荷功率。

2)储能***运行约束

β_min＜β_t＜β_max

β_t+1＝β_t+η_cP_t ^chΔt-P_t ^dis/η_dΔt

式中：β_t代表储能***在t时刻的荷电状态，β_min和β_max分别代表储能***荷电状态允许的最小值与最大值；P_t ^ch和P_t ^dis分别表示储能***的充放电功率；η_c和η_d分别表示储能***的充放电效率；和/>分别表示储能***充放电功率的最大值。

受储能***使用寿命衰减和容量衰减的影响，在优化调度过程需要考虑储能***的度电成本。度电成本是对储能***全生命周期内的成本和发电量进行平准化后计算得到的储能成本。定义储能***运行时的度电成本为λ，则t时段储能***的运行成本可表示为：

τ_t＝λ|P_t ^ESS|

3)调度周期内电池状态约束

β₀＝β_T

式中：β_T是储能***在调度周期末的荷电状态，β₀为调度周期开始的荷电状态。

本模型面向小型微电网，如附图2所示，所有用电设备由同一条配网馈线供电，地理位置较近，因而不需考虑电力潮流约束。

本模型由于光伏出力为不确定性变量，目标函数应为期望值，综上相应的随机优化模型可以表述为：

三、将电网能量管理模型建模为马尔可夫决策过程；

采用深度强化学习算法求解经济调度模型时，首先需要将电网能量管理模型建模为马尔可夫决策过程：

(1)状态空间

状态即可观测变量。在构建状态空间时，同时考虑***变量的多样性和必要性，t时刻的状态包括微电网中储能***的荷电状态，实时负荷功率，实时的光伏发电功率和下一时刻光伏出力的预测值。具有不确定性的光伏下一时段出力功率由贝叶斯神经网络输出的概率分布表示，t时刻状态可表示为：{β_t,P_t ^PV,P_t ^L}

(2)动作空间

动作即可调整变量。在本发明模型中，通过储能***的充放电和向电网买卖电量的动作来保证***内部的功率平衡。其中主网对微电网起支撑作用以保证微电网内部能量平衡，因此无需在动作中表示，则t时刻动作可表示为：

式中前n个元素和后n个元素分别表示储能***放电和充电。

(3)奖励

在深度强化学习中，将优化目标映射为奖励决策函数。根据电网能量管理模型建模的目标函数，t时刻奖励设定如下：

式中：表示从/向电网购/售电的奖励，/>为储能***的运行奖励。

可表示为：/>

储能***的奖励包括运行成本为τ_t和违背运行约束的惩罚υ_t，对于荷电状态约束设置违规惩罚项υ_t，定义如下：υ_t(s∈ψ,P_t ^ESS)＝-δ*|P_t ^ESS|

式中：δ表示惩罚的单位成本，可用一个较大的数表示。ψ为***运行时的违规状态的集合，主要包括储能***荷电状态越限。在时段t，违规状态可表示为：

Δβ＞β_max-β_t

Δβ＞β_t-β_min

其中Δβ＝η_c|P_t ^ESS|⁺Δt+|-P_t ^ESS|⁺/η_dΔt。

对于调度周期内电池状态约束，如果在周期末电池状态与初始状态不相等时，设置一个较大的惩罚数Γ。t时段电池运行奖励可表示为：

一个调度周期内的奖励可表示为：

(4)状态转移概率和折扣率

马尔科夫决策过程中，折扣率是对未来奖励的关注度，在计算时取固定值0.9。在状态s并选择动作a后，下一状态的储能***荷电状态可由储能***运行约束获得，实时负荷功率可直接读取，状态转移概率可表现为下一状态的光伏出力的概率。

四、考虑状态转移的随机过程，在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法，求解马尔可夫决策过程；

无模型的强化学习算法根据智能体与环境交互获得单一固定的状态转移过程，忽略了学习环境中状态转移的随机问题。当强化学习的状态变量中包含不确定因素时，忽略状态的随机转移会影响深度强化学习算法的收敛速度，因此本发明提出了双-深度期望Q-学习网络算法。双-深度期望Q-学习网络算法将贝叶斯神经网络和深度强化学习结合起来，通过将状态转移的随机过程用贝叶斯神经网络表示，利用随机状态中Q期望值来更新Q网络。算法的流程如附图4所示；

(1)强化学习中Q-学习算法

学习主体基于状态s，用ε-贪婪法，选择动作a，得到奖励r(s,a)，进入状态s'后更新状态s下的价值函数Q(s,a)，可表述如下：

式中:ε为探索概率，γ为衰减因子。

(2)双深度Q学习网络(double deep Q network,DDQN)算法

通过引入经验回放机制，保存每次与环境交互得到的奖励与状态更新情况，当神经网络参数收敛后，获得近似的Q值，由于Q值往往被高估，因此利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算，避免过估计现象。

具体算法可表述如下：

Q(s,a；θ_t)＝r(s,a)+γ*Q(s',a；θ_t)

式中：θ_e为估计Q网络的参数，θ_t是目标Q网络的参数。每训练一定步数，将估计Q网络的参数传递给目标Q网络，即：θ_t←θ_e

(3)双-深度期望Q-学习网络(double deep expected Q network,DDEQN)算法

在DDQN的基础上提出DDEQN算法，将贝叶斯神经网络和深度强化学习结合起来，通过将状态转移的随机过程用贝叶斯神经网络表示，利用随机状态中Q期望值来更新Q网络。

首先，在估计Q网络中选择储能***调度策略：

然后，在目标Q网络中更新Q值，计算公式为：

Q(s,a；θ_t)＝r(s,a)+γ*E(Q(s',a；θ_t))

式中E(Q(s',a；θ_t))为下一状态s'选择动作a的目标Q值的期望。在t时段，贝叶斯神经网络预测下一时段的光伏出力，其概率密度函数为ρ(s')，则E(Q(s',a；θ_t))可表示为：

简化模型，将概率密度函数离散化。对贝叶斯神经网络的预测结果进行抽样，根据得到的最大、小值划分2m个区间。用区间左侧值表示该区间的预测值。经多次抽样后，估计到每个区间的概率，将期望Q表示为：

这样，动作和价值函数可改写为：

五、设定合理参数保证神经网络学习过程收敛，训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。

神经网络训练过程中经验回放池，探索率和学习率都会影响神经网络的收敛性能，因此必须合理设定参数以保证神经网络学习过程收敛。

(1)经验回放池：经验回放主要避免经验数据的相关性，从以往的状态转移集合中随机采样进行训练。在训练过程中，本发明模型的动作集合较多，应该设置较大的经验回放池，以满足小批量训练时，随机抽样动作集合的多样性与全面性。

(2)探索率：ε-贪婪法中固定的ε会导致神经网络训练后期不收敛。本发明设定ε随着训练次数逐渐减小，来探索环境，以达到较好收敛效果。

(3)学习率：学习率过大会导致过拟合现象，反之会使收敛速度较慢甚至停滞。因此必须通过多次尝试设定合适学习率。目标Q网络的参数由估计Q网络复制获得，因而也应设定合适的复制频率来避免过估计问题。

最后基于双-深度期望Q-学习网络算法的电网能量管理模型中得到的光伏发电出力策略控制各光伏出力设备的运行。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明提出一种基于双-深度期望Q-学习网络算法的电网能量管理方法及***，将微电网经济调度问题模拟为马尔可夫决策过程，将目标函数和约束条件映射成强化学习的奖惩函数，利用其学习和与环境交互的能力，实现实时最优决策；借助贝叶斯神经网络对学习环境中光伏发电出力的不确定性建模，在马尔科夫决策过程中适当考虑状态随机转移，显著提高了算法的收敛速度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1是本发明方法流程图；

图2是基于贝叶斯神经网络的光伏出力预测流程示意图；

图3是微电网***组成示意图；

图4是算法的神经网络训练流程图；

图5是园区光伏出力曲线图；

图6是园区负荷曲线图；

图7是典型日园区光伏出力与负荷情况曲线图；

图8是不同天气光伏出力的预测结果与实际值对比图；

图9为模式一与模式二收敛行为对比；

图10为三种模式下的储能***的荷电状态图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，一种基于双-深度期望Q-学习网络算法的电网能量管理方法，包括以下步骤：

S3.依据光伏发电出力策略运行各光伏出力设备。

T2.将T1中电网能量管理模型建模为马尔可夫决策过程；

S13.经过多次模型训练后得到预测点的光伏出力概率分布。

考虑***变量的多样性和必要性构建状态空间；

将目标函数映射为奖励决策函数；

折扣率在计算时取固定值0.9；

状态转移概率表现为下一状态的光伏出力的概率。

进一步优化方案为，步骤T3具体方法为：

首先，在估计Q网络中选择储能***调度策略；

然后，在目标Q网络中更新Q值；

简化模型，将概率密度函数离散化。

实施例2

本实施例提供一种基于双-深度期望Q-学习网络算法的电网能量管理***，包括：

第二建模装置电网能量管理模型建模为马尔可夫决策过程；

实施例3

以某小型产业园某年5月到12月的光伏出力和园区总负荷为基础数据为例，来解释本发明的实际应用。

假设该工业园区光伏出力和负荷功率如附图5和附图6、7所示，其他参数列于表1。

表1储能***参数

经过多次尝试，设定DDEQN算法中经验回放机制的样本存储量为4800，每次小批量采样规模为600；初始探索率为0.1，最终探索率为0.001，探索步数为24000；学习率取0.001；每训练10次更新一次目标Q网络参数。

使用Python语言并调用PyTorch包编写贝叶斯神经网络光伏发电出力预测程序，基于TensorFlow框架编写DDEQN算法程序，优化算法选用可以自适应改变学习率的Adam算法，具有更快的收敛速度和更好的收敛效果。计算机硬件条件为Core i7-8550U，RAM 8GB。贝叶斯神经网络训练步数为10000次，训练时长为22h，DDEQN算法神经网络训练步数为70000次，训练用时49h。

(1)贝叶斯神经网络训练结果

在贝叶斯神经网络中，用于特征提取的全连接层神经元为30，下一全连接层神经元为50，概率层神经元为55。选择7月10日(晴天)和9月6日(雨天)两天来验证预测结果。

由图8可得，贝叶斯神经网络有很高的预测精度。在晴天时，贝叶斯神经网络预测均值与实际值基本相等，且95％的置信度区间较小，预测精度较高；在雨天时，由于周围环境因素的复杂多变，贝叶斯神经网络的预测值在6:00点时误差较大，但在其余时刻仍然有较高精度。虽然预测精度与晴天相比有所下降，但预测值的变化完全符合实际出力的变化趋势，且预测误差在可接受范围内。

(2)DDEQN算法的有效性验证

设计以下三种模式来对比分析：

模式一：采用DDQN算法，考虑光伏出力的不确定性，随机抽取贝叶斯神经网络的预测结果作为输入来训练深度神经网络；

模式二：采用DDEQN算法，即本发明提出算法；

模式三：基于场景法的考虑光伏出力不确定性的随机优化算法。

调度周期为一天，分为24个时段。一个调度周期内的光伏出力与负荷需求见附录D。在训练神经网络的过程中，采取两步训练法，首先对单个时段进行动作寻优训练，再对一个调度周期整体训练，这样可有效的提高算法收敛速度。

在每一次训练后对神经网络进行测试，将一个调度周期中最优动作所对应的Q值进行累加，并归一化处理，用以表征神经网络的收敛程度。定义Θ为收敛率，则第i步训练后神经网络的收敛率可表示为：

式中Q^*为神经网络收敛后的累积Q值。

为考察所提方法的收敛性能，还需预先确定Q^*。经多次试验，模式一与模式二经过70000步的训练后均能收敛，故令Q^*为训练70000步时的调度周期内最优动作所对应的Q值的累加。

模式一与模式二的训练结果如图9所示：

在收敛率Θ达到0.995时，认为该神经网络收敛。由图2可得，模式二在训练35000步时收敛，而模式一则在训练67000步左右时收敛。可见本发明所提DDEQN具有更好的收敛性能。

(3)与随机优化算法的对比

为模拟光伏发电出力的不确定性，采用贝叶斯神经网络抽样10000个场景，作为随机优化模型中光伏出力的场景集合。为形成对比，随机优化算法与深度强化学习算法中储能***的充放电功率一致。由表2可知，相对于随机优化算法，深度强化学习算法能更好地适应光伏出力的不确定性，优化结果更有经济性。此外，与传统DDQN算法相比，本发明提出的DDEQN算法取得了更低的运行成本，这主要是因为DDEQN算法有更好的收敛性能所致。

表2不同模式的经济性对比结果

为进一步分析比较深度强化学习算法与随机优化算法的经济性，对三种模式在一个调度周期内储能***的充放电策略与荷电状态进行比较。对比结果如图10所示。

在图10中，0到3代表储能***放电的四个档位，4代表储能***不动作，5到8代表储能***充电的四个档位。由图10可知，DDQN算法与DDEQN算法的储能***动作非常接近，这是因为本发明所提的DDEQN算法是在DDQN算法的基础上对状态转移进行建模以加快算法收敛速度，两者必然会收敛到同一点。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度期望Q-学习的电网能量管理方法，其特征在于，包括以下步骤：

基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为：

S13.经过多次模型训练后得到预测点的光伏出力概率分布；

S3.***依据光伏发电出力策略运行各光伏出力设备；

基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为：

T1.仅考虑储能***作为可控资源，以日运行成本最低为目标函数并满足微网运行约束，建立电网能量管理模型；T1中以日运行成本最低的目标函数为：日运行成本为调度周期内购电成本和储能***运行成本之和，表示为：

式中：T为调度时段数；x_t为t时段需要与主电网交换的电量，x_t＞0表示从主电网购电，反之向主电网卖电；c_b,t表示t时段从主电网买电的价格；c_g,t表示t时段向主电网卖电的价格；τ_t为t时段储能***的运行成本，|·|⁺为取正函数；

所述微网运行约束包括：功率平衡约束条件、储能***运行约束条件和调度周期内电池状态约束

T2.将T1中电网能量管理模型建模为马尔可夫决策过程；

马尔可夫决策过程具体建模过程包括：

考虑***变量的多样性和必要性构建状态空间；

将目标函数映射为奖励决策函数；

折扣率在计算时取固定值0.9；

状态转移概率表现为下一状态的光伏出力的概率；

2.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法，其特征在于，步骤T3具体方法为：

3.根据权利要求2所述的一种基于深度期望Q-学习的电网能量管理方法，其特征在于，利用随机状态中Q期望值来更新Q网络具体过程为：

首先，在估计Q网络中选择储能***调度策略；

然后，在目标Q网络中更新Q值；

简化模型，将概率密度函数离散化。

4.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法，其特征在于，T4中设定合理参数保证神经网络学习过程收敛时，需要考虑经验回放池、探索率和学习率。

5.一种基于深度期望Q-学习的电网能量管理***，其特征在于，用于实现权利要求1-4任意一项所述的基于深度期望Q-学习的电网能量管理方法，包括：

第二建模装置电网能量管理模型建模为马尔可夫决策过程；