CN115360741A

CN115360741A - 现货场景下基于深度强化学习的风储灵活控制方法和装置

Info

Publication number: CN115360741A
Application number: CN202211290036.9A
Authority: CN
Inventors: 孙财新; 孔金良; 郭小江; 杨宁; 潘霄峰; 李鹏飞; 王鸿策
Original assignee: Huaneng Clean Energy Research Institute; Huaneng New Energy Co Ltd Shanxi Branch
Current assignee: Huaneng Clean Energy Research Institute; Huaneng New Energy Co Ltd Shanxi Branch
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2022-11-18

Abstract

本申请提出了一种现货场景下基于深度强化学习的风储灵活控制方法和装置，涉及风电储能控制技术领域，其中，该方法包括：获取风电信息数据；根据风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；根据目标函数和风储约束条件，构建储能灵活控制模型；基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率；采用滚动优化方法周期性更新储能***充放电功率。本申请通过将储能控制决策嵌入深度强化学习方法中，具有一定的先进性和稳定性，能够辅助风电厂实时有效控制储能***充放电功率，提高风电可控性。

Description

现货场景下基于深度强化学习的风储灵活控制方法和装置

技术领域

本申请涉及风电储能控制技术领域，尤其涉及一种现货场景下基于深度强化学习的风储灵活控制方法和装置。

背景技术

随着新能源的大力发展，风电装机容量比例不断提高，在电力现货市场场景下，风电参与现货市场进行交易已是必然趋势，并且部分现货市场试点省份已经制订相关市场规则，风电企业已经参与现货市场进行交易。但是，由于风电出力具有不确定性、难预测性，导致预测功率与实发功率普遍存在偏差，进而使风电企业参与现货市场时普遍产生偏差回收损失，直接影响风电企业市场收益。所以，风电企业可以配置一定规模的储能***，利用储能***来调节整个风电场的实发功率，进而减少预测功率与实发功率的偏差，最终实现减损增益的目标。

储能***响应速度快，可以在一定程度上有效调节风电场的实发功率，那么，在现货市场场景下，如何控制储能***，必须结合现货市场价格信号：当现货价格较低时，通过充电可以减少风储联合输出功率；当现货价格较高时，通过放电可以增大风储联合输出功率。然而，储能***的控制属于实时控制，具有很高的实时性要求，并且要综合考虑多种边界因素，及进行一定的数据计算，因此很难依靠人工经验完成储能***的实时控制。所以，如何通过人工智能技术实现储能***自动控制，并且达到最大化的减损增益的目标，是一个亟待解决的问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种现货场景下基于深度强化学习的风储灵活控制方法，解决了现有方法过度依赖于机理模型设计，缺乏先进性的技术问题，通过将储能控制决策嵌入深度强化学习方法中，具有一定的先进性和稳定性，能够辅助风电厂实时有效控制储能***充放电功率，提高风电可控性。

本申请的第二个目的在于提出一种现货场景下基于深度强化学习的风储灵活控制装置。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种现货场景下基于深度强化学习的风储灵活控制方法，包括：获取风电信息数据，其中，风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；根据风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；根据目标函数和风储约束条件，构建储能灵活控制模型；基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率；采用滚动优化方法周期性更新储能***充放电功率。

可选地，在本申请的一个实施例中，中长期合约数据包括中长期合约加权电价和中长期合约分时电量；

日前出清数据包括：日前出清电量、基数电量和标杆电价；

现货电价预测数据包括：日前电价预测数据和实时电价预测数据；

风电场预测功率数据包括：超短期风功率预测数据和短期风功率预测数据；

风电场实发功率数据包括：风电场实发功率。

可选地，在本申请的一个实施例中，在以风储现货结算收益最大化为目标构建目标函数之前，还包括：

获取现货结算收入和超额获利回收损失；

根据现货结算收入和超额获利回收损失计算风储现货结算收益。

可选地，在本申请的一个实施例中，风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。

可选地，在本申请的一个实施例中，基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率，包括：

采用策略网络和评价网络进行计算，将储能电池荷电状态作为策略网络的当前状态，将储能充放电功率动作作为策略网络的的动作，将预设时段的即时回报作为强化学习的奖惩函数；

基于当前状态、动作和强化学习的奖惩函数，采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。

可选地，在本申请的一个实施例中，评价网络包括第一评价网络和第二评价网络，基于当前状态、动作和强化学习的奖惩函数，采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解，包括：

采用第一评价网络和第二评价网络对策略网络的动作值函数进行估计，并使用二者之中的较小值作为第一估计值；

采用策略目标网络和评价目标网络，根据预设目标函数计算第二估计值，其中，策略目标网络的结构与策略网络的结构相同，评价目标网络的结构与评价网络的结构相同；

根据第一估计值和第二估计值对评价网络的参数进行更新，并在评价网络的更新次数达到预设次数时，对策略网络和策略目标网络的参数进行更新。

可选地，在本申请的一个实施例中，在采用滚动优化方法周期性更新储能***充放电功率之后，还包括：

根据储能***充放电功率生成充放电序列曲线，并根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***，以根据充放电功率指令对储能***进行充放电控制。

为达上述目的，本申请第二方面实施例提出了一种现货场景下基于深度强化学习的风储灵活控制装置，包括：

获取模块，用于获取风电信息数据，其中，风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；

第一构建模块，用于根据风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；

第二构建模块，用于根据目标函数和风储约束条件，构建储能灵活控制模型；

求解模块，用于基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率；

优化模块，用于采用滚动优化方法周期性更新储能***充放电功率。

可选地，在本申请的一个实施例中，还包括：

生成模块，用于根据储能***充放电功率生成充放电序列曲线；

控制模块，用于根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***，以根据充放电功率指令对储能***进行充放电控制。

为了实现上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行一种现货场景下基于深度强化学习的风储灵活控制方法。

本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法、装置和非临时性计算机可读存储介质，解决了现有方法过度依赖于机理模型设计，缺乏先进性的技术问题，通过将储能控制决策嵌入深度强化学习方法中，具有一定的先进性和稳定性，能够辅助风电厂实时有效控制储能***充放电功率，提高风电可控性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种现货场景下基于深度强化学习的风储灵活控制方法的流程图；

图2为本申请实施例二所提供的一种现货场景下基于深度强化学习的风储灵活控制装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

目前，现有技术通过引入风电功率预测周期模型，采用超前控制策略平抑短期风电功率波动。在满足自身运行约束的条件下，通过短期风电预测值来确定储能电池当前时刻的充放电状态及充放电功率，并采用滚动优化方法周期性更新储能电池充放电功率，将风储联合功率波动尽量控制在限定波动率内以获得更好的平滑效果。但是现有技术普遍以MPC（Multimedia Personal Computer，多媒体个人电脑）、鲁棒控制为主，过度依赖于机理模型设计，缺乏先进性，并且其核心目标是为了平抑风功率波动，未考虑风电场参与现货市场交易带来的市场损失及收益情况。

本申请在综合考虑中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据的基础上，采用一种新型的人工智能前沿技术深度强化学习，考虑风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能SOC（State of Charge，电池荷电状态）约束、储能末时段的SOC约束等约束条件，为储能***提供实时控制的充放电功率策略，解决了现有方法过度依赖于机理模型设计，缺乏先进性的技术问题，通过将储能控制决策嵌入深度强化学习方法中，具有一定的先进性和稳定性，能够辅助风电厂实时有效控制储能***充放电功率，提高风电可控性，并且实现风电场在现货市场场景下达到减损增益的经济性优化目标。

其中，深度强化学习（Deep Reinforcement Learning，DRL）是一种具有先进性的、智能化的、以数据驱动的决策问题求解方法，具有如下特点：（1）具有自适应性和从历史数据中学习的能力；（2）能够在复杂环境下学习到较好的控制策略。因此，针对考虑不确定性因素和复杂非线性模型的储能***优化运行问题，DRL的上述特点使得其在学习储能充放电策略中具有很大的应用潜力。

下面参考附图描述本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法和装置。

图1为本申请实施例一所提供的一种现货场景下基于深度强化学习的风储灵活控制方法的流程图。

如图1所示，该现货场景下基于深度强化学习的风储灵活控制方法包括以下步骤：

步骤101，获取风电信息数据，其中，风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；

步骤102，根据风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；

步骤103，根据目标函数和风储约束条件，构建储能灵活控制模型；

步骤104，基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率；

步骤105，采用滚动优化方法周期性更新储能***充放电功率。

本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法，通过获取风电信息数据，其中，风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；根据风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；根据目标函数和风储约束条件，构建储能灵活控制模型；基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率；采用滚动优化方法周期性更新储能***充放电功率。由此，能够解决现有方法过度依赖于机理模型设计，缺乏先进性的技术问题，通过将储能控制决策嵌入深度强化学习方法中，具有一定的先进性和稳定性，能够辅助风电厂实时有效控制储能***充放电功率，提高风电可控性。

本申请包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能SOC约束、储能末时段的SOC约束，以风储参与现货交易博取的现货收益最大化为目标函数，构建建立灵活控制风电储能策略模型，并采用深度强化学习进行求解，将储能控制决策嵌入深度强化学习方法中，具有一定的先进性和稳定性，能够辅助风电厂实时有效控制储能***充放电功率，提高风电可控性和经济效益。

进一步地，在本申请实施例中，中长期合约数据包括中长期合约加权电价和中长期合约分时电量；

日前出清数据包括：日前出清电量、基数电量和标杆电价；

风电场实发功率数据包括：风电场实发功率。

本申请风电信息数据包括中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据，具体数据及其来源，如表一所示：

表一

进一步地，在本申请实施例中，在以风储现货结算收益最大化为目标构建目标函数之前，还包括：

获取现货结算收入和超额获利回收损失；

本申请主要考虑现货结算收入、超额获利回收损失两个方面，最终以现货结算收益最大化作为目标函数，其中，现货结算收益=现货结算收入-超额获利回收损失；

本申请的现货结算收入表示为：

其中，

为t时刻的现货结算收入，

为t时刻基数电量对应的电价，也称为标杆电价，

为t时刻基数电量，

为t时刻的中长期合约加权电价，

为t时刻的中长期合约总电量，

为t时刻的日前出清电量，

为t时刻的现货日前电价预测数据，

为t时刻的实发电量，进行储能控制决策时，实发电量未知，此处采用超短期功率预测数据和储能***充放电策略联合后折合成对应的电量，作为实发电量，

为t时刻的现货实时电价预测数据；

本申请的超额获利回收损失分为两种情况进行计算，其中，

当

且

，即风储联合输出功率对应的电量少于日前出清电量所允许的偏差下限且标杆价格大于实时价格时，其中偏差

的部分产生超额获利回收损失，此时超额获利回收损失表示为：

其中，

为超额获利回收损失，

为t时刻的日前出清电量，

为允许的新能源偏差比例上限，

为t时刻的实发电量，

为t时刻基数电量，

为t时刻的现货日前电价预测数据，

为t时刻的现货实时电价预测数据；

如果t时段的日前出清电量

低于风储联合输出功率对应的电量

，储能***可能需要充电。

当

且

，即风储联合输出功率对应的电量高于日前出清电量所允许的偏差上限且价格小于实时价格时，其中偏差

其中，

为超额获利回收损失，

为允许的新能源偏差比例上限，

为t时刻的实发电量，

为t时刻的日前出清电量，

为t时刻基数电量，

为t时刻的现货日前电价预测数据，

为t时刻的现货实时电价预测数据；

t时段总体的超额获利回收损失

表示为：

本申请的t时段风储现货结算收益表示为：

其中，

为t时刻的现货结算收益，

为t时刻的现货结算收入，

为t时刻的超额获利回收损失；

所有时段现货总体结算收益如下：

进一步地，在本申请实施例中，风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。

本申请的风储联合输出功率，等于风电场实发功率减去储能***充放电功率，风储联合输出功率等式约束表示为：

其中，

为风储联合输出功率，

为风电场实发功率，

为储能***充放电功率。当

时，表示储能***充电，当

时，表示储能***放电；

其中，储能***充电表示风电场的多余发电量被存储利用，风电场实际发电量减小；储能***放电表示释放部分电池电量，使得风电场实际发电量增加。

将风储联合输出功率折合成电量，建立风储联合输出电量等式约束，风储联合输出电量等式约束表示为：

其中，

为t时刻的实发电量，

为风储联合输出功率，

为储能控制时间间隔；

储能充放电功率约束表示为：

其中，

为储能***额定功率，

为储能***充放电功率；

储能SOC约束表示为：

其中，SOC表示在充放电过程中，储能***当前时刻剩余的容量，

为t时段储能的SOC，

、

分别为t时段储能的最大、最小SOC，

储能电池的SOC转换表示为：

其中，

为t+1时段储能***的剩余容量，

为t时段储能***的剩余容量，

为储能***充放电功率，

为储能控制时间间隔（默认为0.25小时），

为储能电池衰减前的最大容量，

和

分别为t时段储能电池的充电和放电效率；

为保证储能能够在下一个控制周期正常工作，应使得末时段储能动作之后的 SOC为给定值，储能末时段SOC约束表示为：

其中，

为一天内储能控制的最后一个时刻（即T时刻），

为一天内储能控制的第一个时刻。

进一步地，在本申请实施例中，基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率，包括：

采用策略网络和评价网络进行计算，将储能储能电池荷电状态作为策略网络的当前状态，将储能充放电功率动作作为策略网络的动作，将预设时段的即时回报作为强化学习的奖惩函数；

下面详细说明本申请采用深度强化学习技术进行储能灵活控制模型求解：

对于任意t时段，状态空间由日前电价、实时电价、风电场发电功率、储能***SOC共同构成，其中，状态空间表示为：

其中，

为t时段的状态，

为t时刻的日前电价，

为t时刻的实时电价，

为t时段的风电场实发功率，

为t时段储能的SOC，

将储能出力设置为动作空间，通过储能充放电功率约束条件限制动作空间，其中，动作空间表示为：

其中，

为t时段的储能出力动作，

为储能***额定功率，

为储能***充放电功率；

奖惩函数决定环境对某一时段储能充放电动作的即时回报，其影响强化学习智能体对动作的选择。奖惩函数由收益奖励、约束条件惩罚组成，其中，奖惩函数表示为：

其中，

为t时段的即时回报，

为各部分奖惩的权重系数，且均为正数，

为t时段的收益奖励，

为t时刻储能***SOC上下限惩罚，

为储能末时段SOC惩罚；

其中，收益奖励表示为：

其中，

为t时段的收益奖励，

为t时刻的现货结算收益；

约束条件惩罚包括SOC上下限惩罚和储能末时段SOC惩罚，

其中，由于储能动作对下一时段的最大可用容量有影响，不能直接限定动作范围，因此对使得

超出上、下限的动作进行惩罚，SOC上下限惩罚表示为：

其中，

为t时刻储能***SOC上下限惩罚，

为t时刻的储能出力动作，

为t时刻储能***的容量，

为t+1时刻的最小容量限制，

为t+1时刻储能***的容量，

为t+1时刻的最大容量限制，

为t时刻的充电转换效率，

为t时刻的放电转换效率，

为储能控制时间间隔。

根据储能末时段的SOC约束得到储能末时段SOC惩罚根据，表示为：

其中，

为储能末时段SOC惩罚，

为一天内储能控制的最后一个时刻（即T时刻），

为一天内储能控制的第一个时刻，T为一天内储能控制的最大时刻数。

本申请采用演员评论家（Actor-Critic，AC）网络进行计算，将储能SOC作为actor网络当前状态

，将储能充放电功率动作作为actor网络动作

，将t时段的即时回报

作为强化学习的奖惩函数。

强化学习智能体（Agent）根据当前状态

，按照策略从动作空间中选择动作

，并根据奖惩函数获取即时奖励

。

本申请考虑一个学习任务共有T个时段，从t时段到学习任务结束的累积奖赏

为：

其中，

为折扣因子，决定未来奖赏对累积奖赏的影响，

为未来时刻与当前时刻的时间差值，

为储能***在基于i时段的储能状态

、i时段的储能出力动作

情况下的即时奖励。

强化学习目标函数J是寻找最优策略

使智能体在T内的期望累积奖赏最大，即：

其中，E为数学期望，

为i时刻的储能***的容量状态，

为i时刻的储能***充放电动作对应的功率，

为某策略下的状态转移概率分布，

作为整个学习任务的累积奖赏。

状态-动作值函数

表示在策略

下产生的长期回收期望，表示为：

其中，E为数学期望，

为i时刻的储能***充放电动作对应的功率，

为t时段到学习任务结束的累积奖赏，

为t时段的状态，

为t时段的储能出力动作。

状态-动作值函数的贝尔曼方程表示为：

其中，

为基于t时段的储能状态

、t时段的储能出力动作

情况下的收益期望值，

为t时段的即时回报，

为折扣因子，决定未来奖赏对累积奖赏的影响，E为数学期望，

为t+1时段的储能出力动作，

为基于t+1时段的储能状态

、t时段的储能出力动作

情况下的收益期望值。

贝尔曼方程的作用，是将储能控制决策按照时间或空间分成多个阶段，每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题。

本申请中，采用actor网络拟合状态和动作的映射关系，避免动作空间离散化，采用critic网络对

值函数进行拟合，评估actor网络的策略，使输出动作逼近最优解。其中，actor网络根据某一充放电策略将当前状态映射到某指定动作，表示为：

其中，

为t时段的储能出力动作，

为状态-动作映射关系的拟合函数，

为actor网络参数，N为噪声。

actor网络通过策略梯度更新网络参数，表示为：

其中，

为基于actor网络参数

的策略梯度，J为强化学习目标函数，E为数学期望，

为i时刻的储能***的容量状态，

为i时刻的储能***充放电动作对应的功率，

为某一随机策略，

为基于actor网络参数

的策略梯度，

为critic网络评估的拟合函数，

为储能出力动作，

为状态-动作映射关系的拟合函数，

为actor网络参数。

critic网络通过强化学习目标函数J对在状态

下选择的动作

进行评价，通过最小化损失函数更新网络参数。损失函数

为：

其中，E为数学期望，

为i时刻的储能***的容量状态，

为t时段的储能出力动作，

为某一随机策略，

为t时段的即时回报，

为t时段的

值估计，

为在critic网络参数

的前提下、基于t时段的储能状态

、t时段的储能出力动作

的收益期望值。

本申请采用双延迟深度确定性策略梯度TD3进行储能灵活控制策略的求解计算。双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradient)算法在AC框架的基础上改善了critic网络

过高估计的问题。

进一步地，在本申请实施例中，评价网络包括第一评价网络和第二评价网络，基于当前状态、动作和强化学习的奖惩函数，采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解，包括：

双延迟深度确定性策略梯度TD3 算法采用2个critic网络

和

对actor的动作值函数进行估计，并使用二者之中的较小值作为估计值，如下所示。

其中，

为t时段的

值估计，

为t时段的即时回报，

为折扣因子，决定未来奖赏对累积奖赏的影响，

为t+1时刻储能SOC状态，

为在储能状态

情况下的critic 目标网络参数值，

为第i个 critic 网络的拟合函数，

为噪声，作用是平滑

值估计。

同时为提高算法的稳定性和收敛性，TD3采用actor目标网络( target network)和critic目标网络，结构分别与actor网络和critic网络相同。在进行

值估计时采用目标函数，即：

其中，

为TD3在t时段的

值估计，

为t时段的即时回报，

为折扣因子，决定未来奖赏对累积奖赏的影响，

为t+1时刻储能SOC状态，

为 actor 目标网络，

为 critic 目标网络，

为噪声，作用是平滑

值估计。

目标网络采用软更新 (soft update)的方式使得参数缓慢变化，提高算法稳定性。软更新方式为：

其中，

为actor目标网络软更新后参数，

为actor网络参数，

为critic目标网络软更新后参数，

为critic网络参数，

为软更新系数，

。

TD3算法在critic网络进行一定次数的更新后，再更新actor网络和目标网络的参数，延迟过高估计误差的传播，有利于将网络中的错误最小化。

进一步地，在本申请实施例中，在采用滚动优化方法周期性更新储能***充放电功率之后，还包括：

本申请考通过虑未来一段时间内的中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据共5大类据边界，采用强化学习领域中的演员评论家模型框架针对储能灵活控制策略模型进行求解，自学习、自适应、智能化地完成对历史数据的学习、总结，进而得到经济性最优的充放电序列曲线，并将该序列中的下一点充放电功率指令下发给储能***执行。

在进行储能优化决策时，在未来一段时间段内，如果某些时刻实时电价预测较高，则储能***倾向于提前充电，以博取更多收益；如果某些时刻实时电价预测较低，则储能***倾向于提前放电，以挽回一些损失。站在储能实时控制视角下，储能控制整体采用滚动优化方法，向前滚动实时执行超前模式储能的充放电运行控制策略，把比较周期内各阶段以及下一个时期的预先安排有机地衔接起来，滚动优化下个时刻所在周期内所有时刻的充放电策略，但实际只调整下个时刻的充放电策略，下个时刻以最新的实际数据优化未来时刻的策略，不断滚动优化修正实际充放电策略。

如图2所示，该现货场景下基于深度强化学习的风储灵活控制装置，包括：

获取模块10，用于获取风电信息数据，其中，风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；

第一构建模块20，用于根据风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；

第二构建模块30，用于根据目标函数和风储约束条件，构建储能灵活控制模型；

求解模块40，用于基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率；

优化模块50，用于采用滚动优化方法周期性更新储能***充放电功率。

本申请实施例的现货场景下基于深度强化学习的风储灵活控制装置，包括获取模块，用于获取风电信息数据，其中，风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；第一构建模块，用于根据风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；第二构建模块，用于根据目标函数和风储约束条件，构建储能灵活控制模型；求解模块，用于基于深度强化学习对储能灵活控制模型进行求解，得到储能***充放电功率；优化模块，用于采用滚动优化方法周期性更新储能***充放电功率。由此，能够解决现有方法过度依赖于机理模型设计，缺乏先进性的技术问题，通过将储能控制决策嵌入深度强化学习方法中，具有一定的先进性和稳定性，能够辅助风电厂实时有效控制储能***充放电功率，提高风电可控性。

进一步地，在本申请实施例中，还包括：

为了实现上述实施例，本申请还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的现货场景下基于深度强化学习的风储灵活控制方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种现货场景下基于深度强化学习的风储灵活控制方法，其特征在于，包括以下步骤：

获取风电信息数据，其中，所述风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；

根据所述风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；

根据所述目标函数和所述风储约束条件，构建储能灵活控制模型；

基于深度强化学习对所述储能灵活控制模型进行求解，得到储能***充放电功率；

采用滚动优化方法周期性更新所述储能***充放电功率。

2.如权利要求1所述的方法，其特征在于，所述中长期合约数据包括中长期合约加权电价和中长期合约分时电量；

所述日前出清数据包括：日前出清电量、基数电量和标杆电价；

所述现货电价预测数据包括：日前电价预测数据和实时电价预测数据；

所述风电场预测功率数据包括：超短期风功率预测数据和短期风功率预测数据；

所述风电场实发功率数据包括：风电场实发功率。

3.如权利要求1所述的方法，其特征在于，在所述以风储现货结算收益最大化为目标构建目标函数之前，还包括：

获取现货结算收入和超额获利回收损失；

根据所述现货结算收入和超额获利回收损失计算风储现货结算收益。

4.如权利要求1所述的方法，其特征在于，所述风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。

5.如权利要求1所述的方法，其特征在于，所述基于深度强化学习对所述储能灵活控制模型进行求解，得到储能***充放电功率，包括：

采用策略网络和评价网络进行计算，将储能电池荷电状态作为所述策略网络的当前状态，将储能充放电功率动作作为所述策略网络的动作，将预设时段的即时回报作为强化学习的奖惩函数；

基于所述当前状态、所述动作和所述强化学习的奖惩函数，采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。

6.如权利要求5所述的方法，其特征在于，所述评价网络包括第一评价网络和第二评价网络，所述基于所述当前状态、所述动作和所述强化学习的奖惩函数，采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解，包括：

采用所述第一评价网络和第二评价网络对所述策略网络的动作值函数进行估计，并使用二者之中的较小值作为第一估计值；

采用策略目标网络和评价目标网络，根据预设目标函数计算第二估计值，其中，所述策略目标网络的结构与所述策略网络的结构相同，所述评价目标网络的结构与所述评价网络的结构相同；

根据所述第一估计值和所述第二估计值对所述评价网络的参数进行更新，并在所述评价网络的更新次数达到预设次数时，对所述策略网络和所述策略目标网络的参数进行更新。

7.如权利要求1所述的方法，其特征在于，在所述采用滚动优化方法周期性更新所述储能***充放电功率之后，还包括：

根据所述储能***充放电功率生成充放电序列曲线，并根据所述充放电序列曲线将下一时刻的充放电功率指令下发给储能***，以根据所述充放电功率指令对所述储能***进行充放电控制。

8.一种现货场景下基于深度强化学习的风储灵活控制装置，其特征在于，包括：

获取模块，用于获取风电信息数据，其中，所述风电信息数据包括：中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据；

第一构建模块，用于根据所述风电信息数据，以风储现货结算收益最大化为目标构建目标函数，并构建风储约束条件；

第二构建模块，用于根据所述目标函数和所述风储约束条件，构建储能灵活控制模型；

求解模块，用于基于深度强化学习对所述储能灵活控制模型进行求解，得到储能***充放电功率；

优化模块，用于采用滚动优化方法周期性更新所述储能***充放电功率。

9.如权利要求8所述的装置，其特征在于，还包括：

生成模块，用于根据所述储能***充放电功率生成充放电序列曲线；

控制模块，用于根据所述充放电序列曲线将下一时刻的充放电功率指令下发给储能***，以根据所述充放电功率指令对所述储能***进行充放电控制。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。