CN116345450A

CN116345450A - 一种基于深度强化学习的风光水互补***智能调度方法

Info

Publication number: CN116345450A
Application number: CN202310469309.4A
Authority: CN
Inventors: 葛远裕; 谢俊; 段佳南; 邢单玺; 徐志诚; 金永天; 周翠玉
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-06-27

Abstract

本发明公开了一种基于深度强化学习的风光水互补***智能调度方法，步骤如下：建立风光水互补***优化调度模型；根据建立的风光水互补***优化调度模型，将风光水互补***优化调度问题转换为马尔可夫决策过程；搭建基于双延迟深度确定性策略梯度算法的风光水互补***智能调度模型；采用历史数据训练风光水互补***智能调度模型，基于训练好的调度模型，对风光水互补***进行智能调度。本发明提出的方法能够自适应风光出力未来的不确定性，提高风光水互补***发电收益，并且能够快速地给出风光水互补***的调度结果。

Description

一种基于深度强化学习的风光水互补***智能调度方法

技术领域

本发明涉及风光水互补***，特别是一种基于深度强化学习的风光水互补***智能调度方法。

背景技术

近年来，能源危机迅速蔓延全球，环境污染问题日趋严重，寻找化石能源替代方案迫在眉睫。为推动能源结构转型，减少碳排放量，清洁高效的可再生能源受到了广泛关注。

风能和太阳能具有较强的波动性、间歇性，若直接将这两种新能源发电输送到电网，将直接威胁着电网的安全稳定运行。水能是一种经济、高效的可再生能源，水力发电具有调节范围广、能源储存容量大的特点。将水电与风力发电、光伏发电结合，组成多能互补发电***，利用水电的灵活调度能力，补偿风电和光伏发电的功率变化，有效促进了新能源的消纳。

目前风光水互补***研究中，在处理风、光等不确定性时，主要采用随机优化和鲁棒优化方法，随机优化方法倾向于一种统计上的预期结果，具有一定的风险，当出现较大的预测误差时，可能难以保证***的安全运行。鲁棒优化的结果往往过于保守，给出的优化结果通常是面向最坏的运行情况。这些方法对风光不确定性的描述往往与实际存在着较大的差异，降低了优化结果在实际执行时的可行性。其次，针对风光水互补***优化调度求解，广泛使用的算法有混合整数线性规划、遗传算法、粒子群算法等。这些算法求解速度慢，易陷入局部最优，难以快速地得到有效的风光水互补***优化调度结果。

发明内容

发明目的：本发明的目的是提供一种基于深度强化学习的风光水互补***智能调度方法，从而自适应风光出力未来的不确定性，并提高风光水互补***发电收益。

技术方案：本发明所述的一种基于深度强化学习的风光水互补***智能调度方法，包括以下步骤：

(1)建立风光水互补***优化调度模型。

步骤(1)中所述的风光水互补***优化调度模型包括目标函数和约束条件。

所述目标函数为：

P_t ^A＝P_t ^W,for+P_t ^S,for+P_t ^H

式中，T是日前调度周期长度；P_t ^A为t时刻风光水互补***计划总出力；

分别为t时刻水电站预留的向上备用容量和向下备用容量；β₁、β₂分别为风光水互补***发电收益系数和备用容量成本系数；P_t ^W,for为t时刻风电出力日前预测值；P_t ^S,for为t时刻光伏出力日前预测值；P_t ^H为t时刻日前水电计划出力。

所述约束条件包括水电站出力约束、水电站发电流量约束、水电站出库流量约束、水量平衡约束、水库蓄水量约束，具体如下：

水电站出力约束：

式中，

为j水电站在t时刻的出力；k_j,n(n＝1,2,…,6)为j水电站的能量转换系数；Q_j,t为j水电站在t时刻的发电流量；V_j,t为j水电站在t时刻的水库容量；/>

分别为j水电站在t时刻预留的向上备用容量和向下备用容量；/>

分别是j水电站在t时刻出力的上限和下限。

水电站发电流量约束：

Q_j,min≤Q_j,t≤Q_j,max

式中，Q_j,min、Q_j,max分别是j水电站发电流量的下限和上限；

水电站出库流量约束：

式中，

为j水电站在t时刻的出库流量；/>

分别是j水电站出库流量的下限和上限；S_j,t为j水电站在t时刻的弃水流量。

水量平衡约束：

式中，V_j,t+1为j水电站在t+1时刻的水库容量；

为j水电站在t时刻的入库流量；Δt为调度时间间隔；U_j为j水电站直接上游水电站的集合；/>

为k水电站在t时刻的出库流量；q_j,t为j水电站在t时刻的天然来水量。

水库蓄水量约束：

V_j,min≤V_j,t≤V_j,max

|V_j,end-V_j,start|≤ΔV_j

式中，V_j,min、V_j,max分别是j水电站蓄水量的下限和上限；V_j,end、V_j,start分别是j水电站调度结束蓄水量和调度初始蓄水量；ΔV_j表示j水电站蓄水量在调度周期内的最大变化。

(2)根据步骤(1)建立的风光水互补***优化调度模型，将风光水互补***优化调度问题转换为马尔可夫决策过程。

步骤(2)中所述的马尔可夫决策过程包括状态、动作和奖励函数的建立，具体如下：

状态建立：t时刻的状态s_t包括风电出力、光伏出力、负荷需求、梯级水电天然来水量、梯级水电水库水量和调度时刻，即：

式中，

分别是t-1/4和t-1/2时刻的风电出力日前预测值；

分别是t-1/4和t-1/2时刻的光伏出力日前预测值；q_t是包含每个梯级水电站天然来水的集合；V_t是包含每个梯级水电站水库水量的集合。

动作建立：t时刻的动作a_t包括梯级水电站发电流量、梯级水电站弃水流量、梯级水电站预留的向上备用容量和向下备用容量，即：

式中，

是包含每个梯级水电站发电流量的集合；S_t是包含每个梯级水电站弃水流量的集合；/>

分别是包含每个梯级水电站预留的向上备用容量和向下备用容量的集合。

奖励函数建立：t时刻的奖励r_t包括风光水互补***日收益、备用不能平衡不确定性的惩罚和违反约束条件的惩罚，即：

P_t ^err＝P_t ^W,act-P_t ^W,for+P_t ^S,act-P_t ^S,for

式中，C_t是t时刻风光水互补***日收益；b₁、b₂、b₃是各分量的权重系数；

是t时刻备用不能平衡不确定性的惩罚；/>

是t时刻违反约束条件的惩罚；P_t ^err是t时刻风电和光伏预测误差之和；P_t ^W,act、P_t ^S,act分别是t时刻风电和光伏实际出力。

(3)搭建基于双延迟深度确定性策略梯度算法的风光水互补***智能调度模型。

步骤(3)中所述的风光水互补***智能调度模型包括3组不同的神经网络，具体如下：

第一组是包括两个结构相同的网络，分别是具有参数θ_π的Actor网络和具有参数θ_π′的Actor目标网络；

第二组是包括两个结构相同的网络，分别是具有参数

的Critic网络1和具有参数/>

的Critic目标网络1；

第三组是包括两个结构相同的网络，分别是具有参数

的Critic网络2和具有参数/>

的Critic目标网络2。

(4)采用历史数据训练风光水互补***智能调度模型，基于训练好的调度模型，对风光水互补***进行智能调度。

所述步骤(4)中，采用历史数据训练风光水互补***智能调度模型的步骤具体为：

(4.1)设置基于双延迟深度确定性策略梯度算法的风光水互补***智能调度模型的总迭代次数M，确定调度周期长度T。

(4.2)初始化Actor网络、Critic网络1和Critic网络2参数，令目标网络参数

θ_π′＝θ_π，初始化经验回放池D，设置当前迭代次数m为1。

(4.3)判断m是否大于M，若m大于M，则结束训练，否则设置当前调度时段t＝1，令m＝m+1，初始化状态s_t。

(4.4)判断t是否大于T，若t大于T，则返回步骤(4.3)，否则将状态s_t输入到Actor网络，并叠加随机高斯噪声输出动作a_t。

(4.5)将动作a_t与风光水互补调度环境交互，获取奖励r_t和下一时刻状态s_t+1。

(4.6)将样本(s_t,a_t,r_t,s_t+1)存储到经验回放池D。

(4.7)从经验回放池D中选择N个样本，计算下一动作a_t′₊₁。

(4.8)判断t是否等于T，若t等于T，则令累积奖励y＝r_t，否者将s_t+1和a_t′₊₁输入到Critic目标网络1和Critic目标网络2中，选取Critic目标网络1和Critic目标网络2中最小的输出值计算累积奖励y。

(4.9)根据累积奖励y和Critic网络输出值，采用最小化损失函数更新两个Critic网络参数，采用梯度下降法更新Actor网络参数，更新采用软更新方式更新三个目标网络参数，令t＝t+1，返回步骤(4.4)。

一种基于深度强化学习的风光水互补***智能调度***，所述***采用上述的一种基于深度强化学习的风光水互补***智能调度方法，包括以下模块：

第一处理模块：用于建立风光水互补***优化调度模型；

第二处理模块：用于将风光水互补***优化调度问题转换为马尔可夫决策过程；

第三处理模块：用于搭建基于双延迟深度确定性策略梯度算法的风光水互补***智能调度模型；

第四处理模块：用于训练风光水互补***智能调度模型，并基于训练好的调度模型，对风光水互补***进行智能调度。

一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的一种基于深度强化学习的风光水互补***智能调度方法。

一种计算机设备，包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种基于深度强化学习的风光水互补***智能调度方法。

有益效果：与现有技术相比，本发明具有如下优点：

1、本发明基于历史数据训练后，能够自适应风光出力未来的不确定性，提高了风光水互补***发电收益；

2、本发明相比于传统的遗传算法具有决策时间短的优点，能够快速地给出风光水互补***的调度结果。

附图说明

图1是本发明所述方法的步骤流程图；

图2是风光水互补出力过程图；

图3是梯级水电站出力过程图；

图4是水电站对风光预测不确定的平衡图。

具体实施方式

下面结合附图对本发明的技术方案进一步说明。

在本实施例中，风光水互补***由风电、光伏发电和梯级水电构成；其中，风电装机容量为300MW，光伏发电装机容量为400MW，梯级水电站由四座水电站组成。

如图1所示，一种基于深度强化学习的风光水互补***智能调度方法，包括以下步骤：

(1)建立风光水互补***优化调度模型；

在风电、光伏出力的不确定下，为保证互补发电***日收益最大，目标函数建立为：

P_t ^A＝P_t ^W,for+P_t ^S,for+P_t ^H

为了保证风光水多能互补***安全稳定运行，调度模型需要满足一些约束条件，包括水电站出力约束、水电站发电流量约束、水电站出库流量约束、水量平衡约束、水库蓄水量约束，具体如下：

水电站出力约束：

式中，

分别是j水电站在t时刻出力的上限和下限。

水电站发电流量约束：

Q_j,min≤Q_j,t≤Q_j,max

式中，Q_j,min、Q_j,max分别是j水电站发电流量的下限和上限。

水电站出库流量约束：

式中，

为j水电站在t时刻的出库流量；/>

水量平衡约束：

式中，V_j,t+1为j水电站在t+1时刻的水库容量；

为k水电站在t时刻的出库流量；q_j,t为j水电站在t时刻的天然来水量；

水库蓄水量约束：

V_j,min≤V_j,t≤V_j,max

|V_j,end-V_j,start|≤ΔV_j

(2)根据步骤(1)建立的风光水互补***优化调度模型，将风光水互补***优化调度问题转换为马尔可夫决策过程，这包括状态、动作和奖励函数的建立，具体如下：

式中，

分别是t时刻前15分钟和30分钟的风电出力日前预测值；

分别是t时刻前15分钟和30分钟的光伏出力日前预测值；q_t是包含每个梯级水电站天然来水的集合；V_t是包含每个梯级水电站水库水量的集合。

式中，

奖励函数建立：奖励t时刻的奖励r_t包括风光水互补***日收益、备用不能平衡不确定性的惩罚和违反约束条件的惩罚，即：

P_t ^err＝P_t ^W,act-P_t ^W,for+P_t ^S,act-P_t ^S,for

是t时刻备用不能平衡不确定性的惩罚；/>

(3)搭建基于双延迟深度确定性策略梯度(Twin Delayed Deep DeterministicPolicy Gradient，TD3)算法的风光水互补***智能调度模型，该模型一共采用了3组不同的神经网络，分别是Actor网络、Critic网络1、Critic网络2和与之相对应的目标网络。其中，Actor网络主要是根据状态输出动作，负责策略的制定，而Critic网络主要是根据状态和动作输出Q值，负责策略的评估。3组神经网络具体如下：

第二组是包括两个结构相同的网络，分别是具有参数

的Critic网络1和具有参数/>

的Critic目标网络1；

第三组是包括两个结构相同的网络，分别是具有参数

的Critic网络2和具有参数/>

的Critic目标网络2。

(4)采用历史数据训练风光水互补***智能调度模型。历史数据包含风电出力、光伏出力、负荷和梯级水电站天然来水数据，数据间隔为1小时，一天24个小时为一个调度周期。采用360天历史数据训练风光水互补***智能调度模型，基于训练好的调度模型，对风光水互补***进行智能调度。风光水互补***智能调度模型训练步骤如下：

(4.1)设置基于TD3算法的风光水互补***智能调度模型的总迭代次数M，确定调度周期长度T；

θ_π′＝θ_π，初始化经验回放池D，设置当前迭代次数m为1；

(4.3)判断m是否大于M，若m大于M，则结束训练，否则设置当前调度时段t＝1，令m＝m+1，初始化状态s_t；

(4.4)判断t是否大于T，若t大于T，则返回步骤(4.3)，否则将状态s_t输入到Actor网络，并叠加随机高斯噪声输出动作a_t；

(4.5)将动作a_t与风光水互补调度环境交互，获取奖励r_t和下一时刻状态s_t+1；

(4.6)将样本(s_t,a_t,r_t,s_t+1)存储到经验回放池D；

(4.7)从经验回放池D中选择N个样本，计算下一动作a_t′₊₁；

(4.8)判断t是否等于T，若t等于T，则令累积奖励y＝r_t，否者将s_t+1和a_t′₊₁输入到Critic目标网络1和Critic目标网络2中，选取Critic目标网络1和Critic目标网络2中最小的输出值计算累积奖励y；

为了验证本发明调度方法的有效性，我们选取360天训练集外的一天数据进行测试。训练好的智能调度模型根据输入的测试数据输出风光水互补调度结果，包括各个水电站计划出力、各个水电站提供的上、下备用量。风光水互补出力结果如图2所示，风光具有较强的不确定，调度梯级水电可以为***提供更加平滑的出力曲线，增加***收益。

梯级水电站各个水电站出力如图3所示，智能调度模型能够充分利用各个水电站的出力特点，协调好各个电站出力和上下备用容量。在4个水电站中，水电站4位于最下游，有着较多的来水且发电效率高，提供了最大的出力，上下备用主要由其它3个水电站提供。

为了应对风光出力日前预测误差，智能调度模型制定了各个水电站的上下备用计划。基于360天数据的训练，智能调度模型能够较好的学***衡风光预测不确定，保障互补***发电计划的执行。

另采用遗传算法(GA)进行了对比分析。对于风光预测不确定性，采用确定性调度方法，按照预测值的10％制定上下备用，对比结果如表1所示。

表1TD3与GA算法对比

在调度收益方面，TD3算法相较于GA调度收益增加了10437.2，能够给互补***带来更好的收益。在备用不平衡量方面，TD3算法比GA算法少了194.48MW，TD3算法通过对历史数据集的学习，能够自适应风光预测不确定性。在求解时间方面，TD3算法远小于GA算法的决策时间，这是由于TD3算法基于训练集数据，花费大量的时间进行探索，寻找制定最佳调度策略的经验，一旦训练完成，可以根据输入数据，快速输出调度结果。