CN115360741A - 现货场景下基于深度强化学习的风储灵活控制方法和装置 - Google Patents

现货场景下基于深度强化学习的风储灵活控制方法和装置 Download PDF

Info

Publication number
CN115360741A
CN115360741A CN202211290036.9A CN202211290036A CN115360741A CN 115360741 A CN115360741 A CN 115360741A CN 202211290036 A CN202211290036 A CN 202211290036A CN 115360741 A CN115360741 A CN 115360741A
Authority
CN
China
Prior art keywords
energy storage
wind
power
charging
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211290036.9A
Other languages
English (en)
Inventor
孙财新
孔金良
郭小江
杨宁
潘霄峰
李鹏飞
王鸿策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Clean Energy Research Institute
Huaneng New Energy Co Ltd Shanxi Branch
Original Assignee
Huaneng Clean Energy Research Institute
Huaneng New Energy Co Ltd Shanxi Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Clean Energy Research Institute, Huaneng New Energy Co Ltd Shanxi Branch filed Critical Huaneng Clean Energy Research Institute
Priority to CN202211290036.9A priority Critical patent/CN115360741A/zh
Publication of CN115360741A publication Critical patent/CN115360741A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/76Power conversion electric or electronic aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请提出了一种现货场景下基于深度强化学习的风储灵活控制方法和装置,涉及风电储能控制技术领域,其中,该方法包括:获取风电信息数据;根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;根据目标函数和风储约束条件,构建储能灵活控制模型;基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;采用滚动优化方法周期性更新储能***充放电功率。本申请通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。

Description

现货场景下基于深度强化学习的风储灵活控制方法和装置
技术领域
本申请涉及风电储能控制技术领域,尤其涉及一种现货场景下基于深度强化学习的风储灵活控制方法和装置。
背景技术
随着新能源的大力发展,风电装机容量比例不断提高,在电力现货市场场景下,风电参与现货市场进行交易已是必然趋势,并且部分现货市场试点省份已经制订相关市场规则,风电企业已经参与现货市场进行交易。但是,由于风电出力具有不确定性、难预测性,导致预测功率与实发功率普遍存在偏差,进而使风电企业参与现货市场时普遍产生偏差回收损失,直接影响风电企业市场收益。所以,风电企业可以配置一定规模的储能***,利用储能***来调节整个风电场的实发功率,进而减少预测功率与实发功率的偏差,最终实现减损增益的目标。
储能***响应速度快,可以在一定程度上有效调节风电场的实发功率,那么,在现货市场场景下,如何控制储能***,必须结合现货市场价格信号:当现货价格较低时,通过充电可以减少风储联合输出功率;当现货价格较高时,通过放电可以增大风储联合输出功率。然而,储能***的控制属于实时控制,具有很高的实时性要求,并且要综合考虑多种边界因素,及进行一定的数据计算,因此很难依靠人工经验完成储能***的实时控制。所以,如何通过人工智能技术实现储能***自动控制,并且达到最大化的减损增益的目标,是一个亟待解决的问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种现货场景下基于深度强化学习的风储灵活控制方法,解决了现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
本申请的第二个目的在于提出一种现货场景下基于深度强化学习的风储灵活控制装置。
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种现货场景下基于深度强化学习的风储灵活控制方法,包括:获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;根据目标函数和风储约束条件,构建储能灵活控制模型;基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;采用滚动优化方法周期性更新储能***充放电功率。
可选地,在本申请的一个实施例中,中长期合约数据包括中长期合约加权电价和中长期合约分时电量;
日前出清数据包括:日前出清电量、基数电量和标杆电价;
现货电价预测数据包括:日前电价预测数据和实时电价预测数据;
风电场预测功率数据包括:超短期风功率预测数据和短期风功率预测数据;
风电场实发功率数据包括:风电场实发功率。
可选地,在本申请的一个实施例中,在以风储现货结算收益最大化为目标构建目标函数之前,还包括:
获取现货结算收入和超额获利回收损失;
根据现货结算收入和超额获利回收损失计算风储现货结算收益。
可选地,在本申请的一个实施例中,风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。
可选地,在本申请的一个实施例中,基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率,包括:
采用策略网络和评价网络进行计算,将储能电池荷电状态作为策略网络的当前状态,将储能充放电功率动作作为策略网络的的动作,将预设时段的即时回报作为强化学习的奖惩函数;
基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。
可选地,在本申请的一个实施例中,评价网络包括第一评价网络和第二评价网络,基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解,包括:
采用第一评价网络和第二评价网络对策略网络的动作值函数进行估计,并使用二者之中的较小值作为第一估计值;
采用策略目标网络和评价目标网络,根据预设目标函数计算第二估计值,其中,策略目标网络的结构与策略网络的结构相同,评价目标网络的结构与评价网络的结构相同;
根据第一估计值和第二估计值对评价网络的参数进行更新,并在评价网络的更新次数达到预设次数时,对策略网络和策略目标网络的参数进行更新。
可选地,在本申请的一个实施例中,在采用滚动优化方法周期性更新储能***充放电功率之后,还包括:
根据储能***充放电功率生成充放电序列曲线,并根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
为达上述目的,本申请第二方面实施例提出了一种现货场景下基于深度强化学习的风储灵活控制装置,包括:
获取模块,用于获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
第一构建模块,用于根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
第二构建模块,用于根据目标函数和风储约束条件,构建储能灵活控制模型;
求解模块,用于基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;
优化模块,用于采用滚动优化方法周期性更新储能***充放电功率。
可选地,在本申请的一个实施例中,还包括:
生成模块,用于根据储能***充放电功率生成充放电序列曲线;
控制模块,用于根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
为了实现上述目的,本申请第三方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种现货场景下基于深度强化学习的风储灵活控制方法。
本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法、装置和非临时性计算机可读存储介质,解决了现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种现货场景下基于深度强化学习的风储灵活控制方法的流程图;
图2为本申请实施例二所提供的一种现货场景下基于深度强化学习的风储灵活控制装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
目前,现有技术通过引入风电功率预测周期模型,采用超前控制策略平抑短期风电功率波动。在满足自身运行约束的条件下,通过短期风电预测值来确定储能电池当前时刻的充放电状态及充放电功率,并采用滚动优化方法周期性更新储能电池充放电功率,将风储联合功率波动尽量控制在限定波动率内以获得更好的平滑效果。但是现有技术普遍以MPC(Multimedia Personal Computer,多媒体个人电脑)、鲁棒控制为主,过度依赖于机理模型设计,缺乏先进性,并且其核心目标是为了平抑风功率波动,未考虑风电场参与现货市场交易带来的市场损失及收益情况。
本申请在综合考虑中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据的基础上,采用一种新型的人工智能前沿技术深度强化学习,考虑风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能SOC(State of Charge,电池荷电状态)约束、储能末时段的SOC约束等约束条件,为储能***提供实时控制的充放电功率策略,解决了现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性,并且实现风电场在现货市场场景下达到减损增益的经济性优化目标。
其中,深度强化学习(Deep Reinforcement Learning,DRL)是一种具有先进性的、智能化的、以数据驱动的决策问题求解方法,具有如下特点:(1)具有自适应性和从历史数据中学习的能力;(2)能够在复杂环境下学习到较好的控制策略。因此,针对考虑不确定性因素和复杂非线性模型的储能***优化运行问题,DRL的上述特点使得其在学习储能充放电策略中具有很大的应用潜力。
下面参考附图描述本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法和装置。
图1为本申请实施例一所提供的一种现货场景下基于深度强化学习的风储灵活控制方法的流程图。
如图1所示,该现货场景下基于深度强化学习的风储灵活控制方法包括以下步骤:
步骤101,获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
步骤102,根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
步骤103,根据目标函数和风储约束条件,构建储能灵活控制模型;
步骤104,基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;
步骤105,采用滚动优化方法周期性更新储能***充放电功率。
本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法,通过获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;根据目标函数和风储约束条件,构建储能灵活控制模型;基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;采用滚动优化方法周期性更新储能***充放电功率。由此,能够解决现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
本申请包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能SOC约束、储能末时段的SOC约束,以风储参与现货交易博取的现货收益最大化为目标函数,构建建立灵活控制风电储能策略模型,并采用深度强化学习进行求解,将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性和经济效益。
进一步地,在本申请实施例中,中长期合约数据包括中长期合约加权电价和中长期合约分时电量;
日前出清数据包括:日前出清电量、基数电量和标杆电价;
现货电价预测数据包括:日前电价预测数据和实时电价预测数据;
风电场预测功率数据包括:超短期风功率预测数据和短期风功率预测数据;
风电场实发功率数据包括:风电场实发功率。
本申请风电信息数据包括中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据,具体数据及其来源,如表一所示:
Figure 260291DEST_PATH_IMAGE001
表一
进一步地,在本申请实施例中,在以风储现货结算收益最大化为目标构建目标函数之前,还包括:
获取现货结算收入和超额获利回收损失;
根据现货结算收入和超额获利回收损失计算风储现货结算收益。
本申请主要考虑现货结算收入、超额获利回收损失两个方面,最终以现货结算收益最大化作为目标函数,其中,现货结算收益=现货结算收入-超额获利回收损失;
本申请的现货结算收入表示为:
Figure 350607DEST_PATH_IMAGE002
其中,
Figure 532190DEST_PATH_IMAGE003
为t时刻的现货结算收入,
Figure 987442DEST_PATH_IMAGE004
为t时刻基数电量对应的电价,也称为标杆电价,
Figure 949582DEST_PATH_IMAGE005
为t时刻基数电量,
Figure 515692DEST_PATH_IMAGE006
为t时刻的中长期合约加权电价,
Figure 551781DEST_PATH_IMAGE007
为t时刻的中长期合约总电量,
Figure 240252DEST_PATH_IMAGE008
为t时刻的日前出清电量,
Figure 361791DEST_PATH_IMAGE009
为t时刻的现货日前电价预测数据,
Figure 731593DEST_PATH_IMAGE010
为t时刻的实发电量,进行储能控制决策时,实发电量未知,此处采用超短期功率预测数据和储能***充放电策略联合后折合成对应的电量,作为实发电量,
Figure 887768DEST_PATH_IMAGE011
为t时刻的现货实时电价预测数据;
本申请的超额获利回收损失分为两种情况进行计算,其中,
Figure 747139DEST_PATH_IMAGE012
Figure 355975DEST_PATH_IMAGE013
,即风储联合输出功率对应的电量少于日前出清电量所允许的偏差下限且标杆价格大于实时价格时,其中偏差
Figure 263888DEST_PATH_IMAGE014
的部分产生超额获利回收损失,此时超额获利回收损失表示为:
Figure 274570DEST_PATH_IMAGE015
其中,
Figure 307772DEST_PATH_IMAGE016
为超额获利回收损失,
Figure 403904DEST_PATH_IMAGE017
为t时刻的日前出清电量,
Figure 115508DEST_PATH_IMAGE018
为允许的新能源偏差比例上限,
Figure 246275DEST_PATH_IMAGE019
为t时刻的实发电量,
Figure 447450DEST_PATH_IMAGE020
为t时刻基数电量,
Figure 765298DEST_PATH_IMAGE021
为t时刻的现货日前电价预测数据,
Figure 280593DEST_PATH_IMAGE022
为t时刻的现货实时电价预测数据;
如果t时段的日前出清电量
Figure 265867DEST_PATH_IMAGE023
低于风储联合输出功率对应的电量
Figure 575626DEST_PATH_IMAGE024
,储能***可能需要充电。
Figure 443087DEST_PATH_IMAGE025
Figure 496494DEST_PATH_IMAGE026
,即风储联合输出功率对应的电量高于日前出清电量所允许的偏差上限且价格小于实时价格时,其中偏差
Figure 336274DEST_PATH_IMAGE027
的部分产生超额获利回收损失,此时超额获利回收损失表示为:
Figure 816934DEST_PATH_IMAGE028
其中,
Figure 437271DEST_PATH_IMAGE029
为超额获利回收损失,
Figure 28790DEST_PATH_IMAGE018
为允许的新能源偏差比例上限,
Figure 988655DEST_PATH_IMAGE024
为t时刻的实发电量,
Figure 640216DEST_PATH_IMAGE023
为t时刻的日前出清电量,
Figure 419954DEST_PATH_IMAGE020
为t时刻基数电量,
Figure 877480DEST_PATH_IMAGE021
为t时刻的现货日前电价预测数据,
Figure 691852DEST_PATH_IMAGE022
为t时刻的现货实时电价预测数据;
t时段总体的超额获利回收损失
Figure 514315DEST_PATH_IMAGE030
表示为:
Figure 781348DEST_PATH_IMAGE031
本申请的t时段风储现货结算收益表示为:
Figure 980248DEST_PATH_IMAGE032
其中,
Figure 711444DEST_PATH_IMAGE033
为t时刻的现货结算收益,
Figure 704807DEST_PATH_IMAGE034
为t时刻的现货结算收入,
Figure 459137DEST_PATH_IMAGE035
为t时刻的超额获利回收损失;
所有时段现货总体结算收益如下:
Figure 461728DEST_PATH_IMAGE036
进一步地,在本申请实施例中,风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。
本申请的风储联合输出功率,等于风电场实发功率减去储能***充放电功率,风储联合输出功率等式约束表示为:
Figure 47430DEST_PATH_IMAGE037
其中,
Figure 211695DEST_PATH_IMAGE038
为风储联合输出功率,
Figure 453321DEST_PATH_IMAGE039
为风电场实发功率,
Figure 994023DEST_PATH_IMAGE040
为储能***充放电功率。当
Figure 371915DEST_PATH_IMAGE041
时,表示储能***充电,当
Figure 34978DEST_PATH_IMAGE042
时,表示储能***放电;
其中,储能***充电表示风电场的多余发电量被存储利用,风电场实际发电量减小;储能***放电表示释放部分电池电量,使得风电场实际发电量增加。
将风储联合输出功率折合成电量,建立风储联合输出电量等式约束,风储联合输出电量等式约束表示为:
Figure 498320DEST_PATH_IMAGE043
其中,
Figure 842714DEST_PATH_IMAGE044
为t时刻的实发电量,
Figure 75112DEST_PATH_IMAGE038
为风储联合输出功率,
Figure 846759DEST_PATH_IMAGE045
为储能控制时间间隔;
储能充放电功率约束表示为:
Figure 862644DEST_PATH_IMAGE046
其中,
Figure 745149DEST_PATH_IMAGE047
为储能***额定功率,
Figure 97633DEST_PATH_IMAGE048
为储能***充放电功率;
储能SOC约束表示为:
Figure 40181DEST_PATH_IMAGE049
其中,SOC表示在充放电过程中,储能***当前时刻剩余的容量,
Figure 540433DEST_PATH_IMAGE050
为t时段储能的SOC,
Figure 226629DEST_PATH_IMAGE051
Figure 433619DEST_PATH_IMAGE052
分别为t时段储能的最大、最小SOC,
储能电池的SOC转换表示为:
Figure 547069DEST_PATH_IMAGE053
其中,
Figure 472300DEST_PATH_IMAGE054
为t+1时段储能***的剩余容量,
Figure 758924DEST_PATH_IMAGE050
为t时段储能***的剩余容量,
Figure 86001DEST_PATH_IMAGE040
为储能***充放电功率,
Figure 104772DEST_PATH_IMAGE055
为储能控制时间间隔(默认为0.25小时),
Figure 517299DEST_PATH_IMAGE056
为储能电池衰减前的最大容量,
Figure 545298DEST_PATH_IMAGE057
Figure 789197DEST_PATH_IMAGE058
分别为t时段储能电池的充电和放电效率;
为保证储能能够在下一个控制周期正常工作,应使得末时段储能动作之后的 SOC为给定值,储能末时段SOC约束表示为:
Figure 244449DEST_PATH_IMAGE059
其中,
Figure 878693DEST_PATH_IMAGE060
为一天内储能控制的最后一个时刻(即T时刻),
Figure 444804DEST_PATH_IMAGE061
为一天内储能控制的第一个时刻。
进一步地,在本申请实施例中,基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率,包括:
采用策略网络和评价网络进行计算,将储能储能电池荷电状态作为策略网络的当前状态,将储能充放电功率动作作为策略网络的动作,将预设时段的即时回报作为强化学习的奖惩函数;
基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。
下面详细说明本申请采用深度强化学习技术进行储能灵活控制模型求解:
对于任意t时段,状态空间由日前电价、实时电价、风电场发电功率、储能***SOC共同构成,其中,状态空间表示为:
Figure 808789DEST_PATH_IMAGE062
其中,
Figure 434942DEST_PATH_IMAGE063
为t时段的状态,
Figure 556482DEST_PATH_IMAGE064
为t时刻的日前电价,
Figure 926284DEST_PATH_IMAGE022
为t时刻的实时电价,
Figure 82458DEST_PATH_IMAGE065
为t时段的风电场实发功率,
Figure 941830DEST_PATH_IMAGE050
为t时段储能的SOC,
将储能出力设置为动作空间,通过储能充放电功率约束条件限制动作空间,其中,动作空间表示为:
Figure 550666DEST_PATH_IMAGE066
其中,
Figure 458579DEST_PATH_IMAGE067
为t时段的储能出力动作,
Figure 469260DEST_PATH_IMAGE068
为储能***额定功率,
Figure 437216DEST_PATH_IMAGE040
为储能***充放电功率;
奖惩函数决定环境对某一时段储能充放电动作的即时回报,其影响强化学习智能体对动作的选择。奖惩函数由收益奖励、约束条件惩罚组成,其中,奖惩函数表示为:
Figure 595665DEST_PATH_IMAGE069
其中,
Figure 307269DEST_PATH_IMAGE070
为t时段的即时回报,
Figure 172457DEST_PATH_IMAGE071
为各部分奖惩的权重系数,且均为正数,
Figure 311314DEST_PATH_IMAGE072
为t时段的收益奖励,
Figure 894743DEST_PATH_IMAGE073
为t时刻储能***SOC上下限惩罚,
Figure 472354DEST_PATH_IMAGE074
为储能末时段SOC惩罚;
其中,收益奖励表示为:
Figure 192049DEST_PATH_IMAGE075
其中,
Figure 501807DEST_PATH_IMAGE072
为t时段的收益奖励,
Figure 572532DEST_PATH_IMAGE076
为t时刻的现货结算收益;
约束条件惩罚包括SOC上下限惩罚和储能末时段SOC惩罚,
其中,由于储能动作对下一时段的最大可用容量有影响,不能直接限定动作范围,因此对使得
Figure 625938DEST_PATH_IMAGE054
超出上、下限的动作进行惩罚,SOC上下限惩罚表示为:
Figure 519246DEST_PATH_IMAGE077
其中,
Figure 999906DEST_PATH_IMAGE073
为t时刻储能***SOC上下限惩罚,
Figure 557926DEST_PATH_IMAGE067
为t时刻的储能出力动作,
Figure 149445DEST_PATH_IMAGE050
为t时刻储能***的容量,
Figure 906048DEST_PATH_IMAGE078
为t+1时刻的最小容量限制,
Figure 823188DEST_PATH_IMAGE054
为t+1时刻储能***的容量,
Figure 602926DEST_PATH_IMAGE079
为t+1时刻的最大容量限制,
Figure 998135DEST_PATH_IMAGE057
为t时刻的充电转换效率,
Figure 812507DEST_PATH_IMAGE058
为t时刻的放电转换效率,
Figure 697286DEST_PATH_IMAGE080
为储能控制时间间隔。
根据储能末时段的SOC约束得到储能末时段SOC惩罚根据,表示为:
Figure 964320DEST_PATH_IMAGE081
其中,
Figure 163220DEST_PATH_IMAGE082
为储能末时段SOC惩罚,
Figure 832099DEST_PATH_IMAGE060
为一天内储能控制的最后一个时刻(即T时刻),
Figure 825462DEST_PATH_IMAGE061
为一天内储能控制的第一个时刻,T为一天内储能控制的最大时刻数。
本申请采用演员评论家(Actor-Critic,AC)网络进行计算,将储能SOC作为actor网络当前状态
Figure 642109DEST_PATH_IMAGE083
,将储能充放电功率动作作为actor网络动作
Figure 379121DEST_PATH_IMAGE067
,将t时段的即时回报
Figure 902506DEST_PATH_IMAGE084
作为强化学习的奖惩函数。
强化学习智能体(Agent)根据当前状态
Figure 332350DEST_PATH_IMAGE085
,按照策略从动作空间中选择动作
Figure 636293DEST_PATH_IMAGE086
,并根据奖惩函数获取即时奖励
Figure 911416DEST_PATH_IMAGE087
本申请考虑一个学习任务共有T个时段,从t时段到学习任务结束的累积奖赏
Figure 554887DEST_PATH_IMAGE088
为:
Figure 890053DEST_PATH_IMAGE089
其中,
Figure 618975DEST_PATH_IMAGE090
为折扣因子,决定未来奖赏对累积奖赏的影响,
Figure 760106DEST_PATH_IMAGE091
为未来时刻与当前时刻的时间差值,
Figure 258084DEST_PATH_IMAGE092
为储能***在基于i时段的储能状态
Figure 29731DEST_PATH_IMAGE093
、i时段的储能出力动作
Figure 980369DEST_PATH_IMAGE094
情况下的即时奖励。
强化学习目标函数J是寻找最优策略
Figure 925191DEST_PATH_IMAGE095
使智能体在T内的期望累积奖赏最大,即:
Figure 277675DEST_PATH_IMAGE096
其中,E为数学期望,
Figure 282540DEST_PATH_IMAGE093
为i时刻的储能***的容量状态,
Figure 848038DEST_PATH_IMAGE094
为i时刻的储能***充放电动作对应的功率,
Figure 330972DEST_PATH_IMAGE097
为某策略下的状态转移概率分布,
Figure 803542DEST_PATH_IMAGE098
作为整个学习任务的累积奖赏。
状态-动作值函数
Figure 979308DEST_PATH_IMAGE099
表示在策略
Figure 966856DEST_PATH_IMAGE095
下产生的长期回收期望,表示为:
Figure 253481DEST_PATH_IMAGE100
其中,E为数学期望,
Figure 314978DEST_PATH_IMAGE094
为i时刻的储能***充放电动作对应的功率,
Figure 599329DEST_PATH_IMAGE088
为t时段到学习任务结束的累积奖赏,
Figure 74172DEST_PATH_IMAGE063
为t时段的状态,
Figure 102171DEST_PATH_IMAGE067
为t时段的储能出力动作。
状态-动作值函数的贝尔曼方程表示为:
Figure 411317DEST_PATH_IMAGE101
其中,
Figure 663307DEST_PATH_IMAGE099
为基于t时段的储能状态
Figure 625447DEST_PATH_IMAGE085
、t时段的储能出力动作
Figure 253874DEST_PATH_IMAGE086
情况下的收益期望值,
Figure 680176DEST_PATH_IMAGE070
为t时段的即时回报,
Figure 40751DEST_PATH_IMAGE090
为折扣因子,决定未来奖赏对累积奖赏的影响,E为数学期望,
Figure 552503DEST_PATH_IMAGE102
为t+1时段的储能出力动作,
Figure 987551DEST_PATH_IMAGE103
为基于t+1时段的储能状态
Figure 940464DEST_PATH_IMAGE104
、t时段的储能出力动作
Figure 737519DEST_PATH_IMAGE067
情况下的收益期望值。
贝尔曼方程的作用,是将储能控制决策按照时间或空间分成多个阶段,每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题。
本申请中,采用actor网络拟合状态和动作的映射关系,避免动作空间离散化,采用critic网络对
Figure 346355DEST_PATH_IMAGE105
值函数进行拟合,评估actor网络的策略,使输出动作逼近最优解。其中,actor网络根据某一充放电策略将当前状态映射到某指定动作,表示为:
Figure 519847DEST_PATH_IMAGE106
其中,
Figure 530528DEST_PATH_IMAGE067
为t时段的储能出力动作,
Figure 560801DEST_PATH_IMAGE107
为状态-动作映射关系的拟合函数,
Figure 656933DEST_PATH_IMAGE108
为actor网络参数,N为噪声。
actor网络通过策略梯度更新网络参数,表示为:
Figure 368537DEST_PATH_IMAGE109
其中,
Figure 233725DEST_PATH_IMAGE110
为基于actor网络参数
Figure 434899DEST_PATH_IMAGE108
的策略梯度,J为强化学习目标函数,E为数学期望,
Figure 18327DEST_PATH_IMAGE093
为i时刻的储能***的容量状态,
Figure 268043DEST_PATH_IMAGE094
为i时刻的储能***充放电动作对应的功率,
Figure 253317DEST_PATH_IMAGE111
为某一随机策略,
Figure 563075DEST_PATH_IMAGE112
为基于actor网络参数
Figure 696116DEST_PATH_IMAGE113
的策略梯度,
Figure 749523DEST_PATH_IMAGE114
为critic网络评估的拟合函数,
Figure 589303DEST_PATH_IMAGE115
为储能出力动作,
Figure 69963DEST_PATH_IMAGE116
为状态-动作映射关系的拟合函数,
Figure 362404DEST_PATH_IMAGE108
为actor网络参数。
critic网络通过强化学习目标函数J对在状态
Figure 281818DEST_PATH_IMAGE085
下选择的动作
Figure 976105DEST_PATH_IMAGE086
进行评价,通过最小化损失函数更新网络参数。损失函数
Figure 627666DEST_PATH_IMAGE117
为:
Figure 735299DEST_PATH_IMAGE118
其中,E为数学期望,
Figure 130509DEST_PATH_IMAGE093
为i时刻的储能***的容量状态,
Figure 679302DEST_PATH_IMAGE086
为t时段的储能出力动作,
Figure 767343DEST_PATH_IMAGE111
为某一随机策略,
Figure 96694DEST_PATH_IMAGE070
为t时段的即时回报,
Figure 295594DEST_PATH_IMAGE119
为t时段的
Figure 698893DEST_PATH_IMAGE120
值估计,
Figure 34802DEST_PATH_IMAGE121
为在critic网络参数
Figure 851448DEST_PATH_IMAGE122
的前提下、基于t时段的储能状态
Figure 775410DEST_PATH_IMAGE123
、t时段的储能出力动作
Figure 361113DEST_PATH_IMAGE067
的收益期望值。
本申请采用双延迟深度确定性策略梯度TD3进行储能灵活控制策略的求解计算。双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradient)算法在AC框架的基础上改善了critic网络
Figure 980837DEST_PATH_IMAGE124
过高估计的问题。
进一步地,在本申请实施例中,评价网络包括第一评价网络和第二评价网络,基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解,包括:
采用第一评价网络和第二评价网络对策略网络的动作值函数进行估计,并使用二者之中的较小值作为第一估计值;
采用策略目标网络和评价目标网络,根据预设目标函数计算第二估计值,其中,策略目标网络的结构与策略网络的结构相同,评价目标网络的结构与评价网络的结构相同;
根据第一估计值和第二估计值对评价网络的参数进行更新,并在评价网络的更新次数达到预设次数时,对策略网络和策略目标网络的参数进行更新。
双延迟深度确定性策略梯度TD3 算法采用2个critic网络
Figure 268468DEST_PATH_IMAGE125
Figure 809171DEST_PATH_IMAGE126
对actor的动作值函数进行估计,并使用二者之中的较小值作为估计值,如下所示。
Figure 514959DEST_PATH_IMAGE127
其中,
Figure 912442DEST_PATH_IMAGE119
为t时段的
Figure 641363DEST_PATH_IMAGE120
值估计,
Figure 720178DEST_PATH_IMAGE070
为t时段的即时回报,
Figure 283402DEST_PATH_IMAGE090
为折扣因子,决定未来奖赏对累积奖赏的影响,
Figure 851786DEST_PATH_IMAGE128
为t+1时刻储能SOC状态,
Figure 130321DEST_PATH_IMAGE129
为在储能状态
Figure 12826DEST_PATH_IMAGE130
情况下的critic 目标网络参数值,
Figure 365310DEST_PATH_IMAGE131
为第i个 critic 网络的拟合函数,
Figure 307859DEST_PATH_IMAGE132
为噪声,作用是平滑
Figure 808110DEST_PATH_IMAGE105
值估计。
同时为提高算法的稳定性和收敛性,TD3采用actor目标网络( target network)和critic目标网络,结构分别与actor网络和critic网络相同。在进行
Figure 228727DEST_PATH_IMAGE120
值估计时采用目标函数,即:
Figure 701297DEST_PATH_IMAGE133
其中,
Figure 549167DEST_PATH_IMAGE134
为TD3在t时段的
Figure 474398DEST_PATH_IMAGE120
值估计,
Figure 761023DEST_PATH_IMAGE070
为t时段的即时回报,
Figure 88099DEST_PATH_IMAGE135
为折扣因子,决定未来奖赏对累积奖赏的影响,
Figure 372450DEST_PATH_IMAGE128
为t+1时刻储能SOC状态,
Figure 784976DEST_PATH_IMAGE136
为 actor 目标网络,
Figure 547396DEST_PATH_IMAGE137
为 critic 目标网络,
Figure 791295DEST_PATH_IMAGE132
为噪声,作用是平滑
Figure 246548DEST_PATH_IMAGE120
值估计。
目标网络采用软更新 (soft update)的方式使得参数缓慢变化,提高算法稳定性。软更新方式为:
Figure 146370DEST_PATH_IMAGE138
其中,
Figure 712481DEST_PATH_IMAGE139
为actor目标网络软更新后参数,
Figure 748570DEST_PATH_IMAGE108
为actor网络参数,
Figure 437040DEST_PATH_IMAGE140
为critic目标网络软更新后参数,
Figure 824159DEST_PATH_IMAGE141
为critic网络参数,
Figure 928382DEST_PATH_IMAGE142
为软更新系数,
Figure 84557DEST_PATH_IMAGE143
TD3算法在critic网络进行一定次数的更新后,再更新actor网络和目标网络的参数,延迟过高估计误差的传播,有利于将网络中的错误最小化。
进一步地,在本申请实施例中,在采用滚动优化方法周期性更新储能***充放电功率之后,还包括:
根据储能***充放电功率生成充放电序列曲线,并根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
本申请考通过虑未来一段时间内的中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据共5大类据边界,采用强化学习领域中的演员评论家模型框架针对储能灵活控制策略模型进行求解,自学习、自适应、智能化地完成对历史数据的学习、总结,进而得到经济性最优的充放电序列曲线,并将该序列中的下一点充放电功率指令下发给储能***执行。
在进行储能优化决策时,在未来一段时间段内,如果某些时刻实时电价预测较高,则储能***倾向于提前充电,以博取更多收益;如果某些时刻实时电价预测较低,则储能***倾向于提前放电,以挽回一些损失。站在储能实时控制视角下,储能控制整体采用滚动优化方法,向前滚动实时执行超前模式储能的充放电运行控制策略,把比较周期内各阶段以及下一个时期的预先安排有机地衔接起来,滚动优化下个时刻所在周期内所有时刻的充放电策略,但实际只调整下个时刻的充放电策略,下个时刻以最新的实际数据优化未来时刻的策略,不断滚动优化修正实际充放电策略。
图2为本申请实施例二所提供的一种现货场景下基于深度强化学习的风储灵活控制装置的结构示意图。
如图2所示,该现货场景下基于深度强化学习的风储灵活控制装置,包括:
获取模块10,用于获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
第一构建模块20,用于根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
第二构建模块30,用于根据目标函数和风储约束条件,构建储能灵活控制模型;
求解模块40,用于基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;
优化模块50,用于采用滚动优化方法周期性更新储能***充放电功率。
本申请实施例的现货场景下基于深度强化学习的风储灵活控制装置,包括获取模块,用于获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;第一构建模块,用于根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;第二构建模块,用于根据目标函数和风储约束条件,构建储能灵活控制模型;求解模块,用于基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;优化模块,用于采用滚动优化方法周期性更新储能***充放电功率。由此,能够解决现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
进一步地,在本申请实施例中,还包括:
生成模块,用于根据储能***充放电功率生成充放电序列曲线;
控制模块,用于根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的现货场景下基于深度强化学习的风储灵活控制方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种现货场景下基于深度强化学习的风储灵活控制方法,其特征在于,包括以下步骤:
获取风电信息数据,其中,所述风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
根据所述风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
根据所述目标函数和所述风储约束条件,构建储能灵活控制模型;
基于深度强化学习对所述储能灵活控制模型进行求解,得到储能***充放电功率;
采用滚动优化方法周期性更新所述储能***充放电功率。
2.如权利要求1所述的方法,其特征在于,所述中长期合约数据包括中长期合约加权电价和中长期合约分时电量;
所述日前出清数据包括:日前出清电量、基数电量和标杆电价;
所述现货电价预测数据包括:日前电价预测数据和实时电价预测数据;
所述风电场预测功率数据包括:超短期风功率预测数据和短期风功率预测数据;
所述风电场实发功率数据包括:风电场实发功率。
3.如权利要求1所述的方法,其特征在于,在所述以风储现货结算收益最大化为目标构建目标函数之前,还包括:
获取现货结算收入和超额获利回收损失;
根据所述现货结算收入和超额获利回收损失计算风储现货结算收益。
4.如权利要求1所述的方法,其特征在于,所述风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。
5.如权利要求1所述的方法,其特征在于,所述基于深度强化学习对所述储能灵活控制模型进行求解,得到储能***充放电功率,包括:
采用策略网络和评价网络进行计算,将储能电池荷电状态作为所述策略网络的当前状态,将储能充放电功率动作作为所述策略网络的动作,将预设时段的即时回报作为强化学习的奖惩函数;
基于所述当前状态、所述动作和所述强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。
6.如权利要求5所述的方法,其特征在于,所述评价网络包括第一评价网络和第二评价网络,所述基于所述当前状态、所述动作和所述强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解,包括:
采用所述第一评价网络和第二评价网络对所述策略网络的动作值函数进行估计,并使用二者之中的较小值作为第一估计值;
采用策略目标网络和评价目标网络,根据预设目标函数计算第二估计值,其中,所述策略目标网络的结构与所述策略网络的结构相同,所述评价目标网络的结构与所述评价网络的结构相同;
根据所述第一估计值和所述第二估计值对所述评价网络的参数进行更新,并在所述评价网络的更新次数达到预设次数时,对所述策略网络和所述策略目标网络的参数进行更新。
7.如权利要求1所述的方法,其特征在于,在所述采用滚动优化方法周期性更新所述储能***充放电功率之后,还包括:
根据所述储能***充放电功率生成充放电序列曲线,并根据所述充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据所述充放电功率指令对所述储能***进行充放电控制。
8.一种现货场景下基于深度强化学习的风储灵活控制装置,其特征在于,包括:
获取模块,用于获取风电信息数据,其中,所述风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
第一构建模块,用于根据所述风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
第二构建模块,用于根据所述目标函数和所述风储约束条件,构建储能灵活控制模型;
求解模块,用于基于深度强化学习对所述储能灵活控制模型进行求解,得到储能***充放电功率;
优化模块,用于采用滚动优化方法周期性更新所述储能***充放电功率。
9.如权利要求8所述的装置,其特征在于,还包括:
生成模块,用于根据所述储能***充放电功率生成充放电序列曲线;
控制模块,用于根据所述充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据所述充放电功率指令对所述储能***进行充放电控制。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202211290036.9A 2022-10-20 2022-10-20 现货场景下基于深度强化学习的风储灵活控制方法和装置 Pending CN115360741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211290036.9A CN115360741A (zh) 2022-10-20 2022-10-20 现货场景下基于深度强化学习的风储灵活控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211290036.9A CN115360741A (zh) 2022-10-20 2022-10-20 现货场景下基于深度强化学习的风储灵活控制方法和装置

Publications (1)

Publication Number Publication Date
CN115360741A true CN115360741A (zh) 2022-11-18

Family

ID=84008067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211290036.9A Pending CN115360741A (zh) 2022-10-20 2022-10-20 现货场景下基于深度强化学习的风储灵活控制方法和装置

Country Status (1)

Country Link
CN (1) CN115360741A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117318553A (zh) * 2023-09-29 2023-12-29 曲阜师范大学 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082422A1 (en) * 2018-09-12 2020-03-12 Mitsubishi Electric Research Laboratories, Inc. Day-Ahead Joint Generation Scheduling and Bidding Optimization for Power Plants
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN113095715A (zh) * 2021-04-29 2021-07-09 福州大学 基于深度强化学习的含氢储能微网优化运行方法
CN113794199A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种考虑电力市场波动的风电储能***最大收益优化方法
CN114154718A (zh) * 2021-12-03 2022-03-08 国网福建省电力有限公司经济技术研究院 基于储能技术特性的风储联合***日前优化调度方法
CN114362196A (zh) * 2022-03-21 2022-04-15 南京邮电大学 一种多时间尺度主动配电网电压控制方法
CN114725936A (zh) * 2022-04-21 2022-07-08 电子科技大学 基于多智能体深度强化学习的配电网优化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082422A1 (en) * 2018-09-12 2020-03-12 Mitsubishi Electric Research Laboratories, Inc. Day-Ahead Joint Generation Scheduling and Bidding Optimization for Power Plants
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN113095715A (zh) * 2021-04-29 2021-07-09 福州大学 基于深度强化学习的含氢储能微网优化运行方法
CN113794199A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种考虑电力市场波动的风电储能***最大收益优化方法
CN114154718A (zh) * 2021-12-03 2022-03-08 国网福建省电力有限公司经济技术研究院 基于储能技术特性的风储联合***日前优化调度方法
CN114362196A (zh) * 2022-03-21 2022-04-15 南京邮电大学 一种多时间尺度主动配电网电压控制方法
CN114725936A (zh) * 2022-04-21 2022-07-08 电子科技大学 基于多智能体深度强化学习的配电网优化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117318553A (zh) * 2023-09-29 2023-12-29 曲阜师范大学 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法
CN117318553B (zh) * 2023-09-29 2024-03-26 曲阜师范大学 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法

Similar Documents

Publication Publication Date Title
Yang et al. A deep reinforcement learning method for managing wind farm uncertainties through energy storage system control and external reserve purchasing
Ding et al. Rolling optimization of wind farm and energy storage system in electricity markets
CN112488362A (zh) 一种协调电动汽车参与辅助服务市场的储能优化配置方法
CN115102202B (zh) 基于滚动式实时电价预测的储能控制方法
CN112529257B (zh) 一种计及agc信号影响的储能电站联合优化方法及***
CN115360741A (zh) 现货场景下基于深度强化学习的风储灵活控制方法和装置
CN111553750A (zh) 一种计及电价不确定性和损耗成本的储能竞价策略方法
CN115496603A (zh) 基于人工智能技术的电力市场新能源日前交易决策方法
CN115511634A (zh) 基于结算收入的电力市场新能源日前交易决策方法和装置
Rezaeimozafar et al. A hybrid heuristic-reinforcement learning-based real-time control model for residential behind-the-meter PV-battery systems
CN117291304A (zh) 电动汽车充放电可调节能力预测方法、装置、设备及介质
CN116663709A (zh) 一种基于强化解码器的电力负荷多步预测方法和装置
CN115001002B (zh) 一种求解储能参与削峰填谷的优化调度方法和***
CN112926811A (zh) 一种考虑可再生能源消纳责任权重的负荷聚合商购电方法
CN112865235B (zh) 电池控制方法、电子设备及存储介质
CN115764936A (zh) 电网储能配置的优化方法、装置、设备及存储介质
CN115276099B (zh) 基于人工智能技术的风电场储能***灵活控制方法和装置
CN115378006A (zh) 现货场景下多目标的风储灵活控制方法和装置
CN117863969B (zh) 一种考虑电池损耗的电动汽车充放电控制方法及***
CN116128543B (zh) 一种售电公司负荷申报与出清的综合模拟运行方法及***
CN116307449A (zh) 一种风电储能站实时调控方法与***
CN115659595A (zh) 基于人工智能的新能源场站的储能控制方法及装置
CN117060424A (zh) 需量控制方法、模型的训练方法、储能***及介质
CN117593028A (zh) 风力发电场输出电量的预测方法及***
CN115659656A (zh) 基于蒙特卡洛风电场储能功率预测时间窗选择方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221118

RJ01 Rejection of invention patent application after publication