CN115360741A - 现货场景下基于深度强化学习的风储灵活控制方法和装置 - Google Patents
现货场景下基于深度强化学习的风储灵活控制方法和装置 Download PDFInfo
- Publication number
- CN115360741A CN115360741A CN202211290036.9A CN202211290036A CN115360741A CN 115360741 A CN115360741 A CN 115360741A CN 202211290036 A CN202211290036 A CN 202211290036A CN 115360741 A CN115360741 A CN 115360741A
- Authority
- CN
- China
- Prior art keywords
- energy storage
- wind
- power
- charging
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000002787 reinforcement Effects 0.000 title claims abstract description 56
- 238000004146 energy storage Methods 0.000 claims abstract description 196
- 238000007599 discharging Methods 0.000 claims abstract description 77
- 230000006870 function Effects 0.000 claims abstract description 62
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 238000005096 rolling process Methods 0.000 claims abstract description 16
- 230000005611 electricity Effects 0.000 claims description 53
- 230000009471 action Effects 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 39
- 238000010248 power generation Methods 0.000 claims description 19
- 238000011084 recovery Methods 0.000 claims description 16
- 230000007774 longterm Effects 0.000 claims description 12
- 238000011217 control strategy Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000000352 storage cell Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/008—Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/28—The renewable source being wind energy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/76—Power conversion electric or electronic aspects
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本申请提出了一种现货场景下基于深度强化学习的风储灵活控制方法和装置,涉及风电储能控制技术领域,其中,该方法包括:获取风电信息数据;根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;根据目标函数和风储约束条件,构建储能灵活控制模型;基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;采用滚动优化方法周期性更新储能***充放电功率。本申请通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
Description
技术领域
本申请涉及风电储能控制技术领域,尤其涉及一种现货场景下基于深度强化学习的风储灵活控制方法和装置。
背景技术
随着新能源的大力发展,风电装机容量比例不断提高,在电力现货市场场景下,风电参与现货市场进行交易已是必然趋势,并且部分现货市场试点省份已经制订相关市场规则,风电企业已经参与现货市场进行交易。但是,由于风电出力具有不确定性、难预测性,导致预测功率与实发功率普遍存在偏差,进而使风电企业参与现货市场时普遍产生偏差回收损失,直接影响风电企业市场收益。所以,风电企业可以配置一定规模的储能***,利用储能***来调节整个风电场的实发功率,进而减少预测功率与实发功率的偏差,最终实现减损增益的目标。
储能***响应速度快,可以在一定程度上有效调节风电场的实发功率,那么,在现货市场场景下,如何控制储能***,必须结合现货市场价格信号:当现货价格较低时,通过充电可以减少风储联合输出功率;当现货价格较高时,通过放电可以增大风储联合输出功率。然而,储能***的控制属于实时控制,具有很高的实时性要求,并且要综合考虑多种边界因素,及进行一定的数据计算,因此很难依靠人工经验完成储能***的实时控制。所以,如何通过人工智能技术实现储能***自动控制,并且达到最大化的减损增益的目标,是一个亟待解决的问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种现货场景下基于深度强化学习的风储灵活控制方法,解决了现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
本申请的第二个目的在于提出一种现货场景下基于深度强化学习的风储灵活控制装置。
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种现货场景下基于深度强化学习的风储灵活控制方法,包括:获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;根据目标函数和风储约束条件,构建储能灵活控制模型;基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;采用滚动优化方法周期性更新储能***充放电功率。
可选地,在本申请的一个实施例中,中长期合约数据包括中长期合约加权电价和中长期合约分时电量;
日前出清数据包括:日前出清电量、基数电量和标杆电价;
现货电价预测数据包括:日前电价预测数据和实时电价预测数据;
风电场预测功率数据包括:超短期风功率预测数据和短期风功率预测数据;
风电场实发功率数据包括:风电场实发功率。
可选地,在本申请的一个实施例中,在以风储现货结算收益最大化为目标构建目标函数之前,还包括:
获取现货结算收入和超额获利回收损失;
根据现货结算收入和超额获利回收损失计算风储现货结算收益。
可选地,在本申请的一个实施例中,风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。
可选地,在本申请的一个实施例中,基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率,包括:
采用策略网络和评价网络进行计算,将储能电池荷电状态作为策略网络的当前状态,将储能充放电功率动作作为策略网络的的动作,将预设时段的即时回报作为强化学习的奖惩函数;
基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。
可选地,在本申请的一个实施例中,评价网络包括第一评价网络和第二评价网络,基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解,包括:
采用第一评价网络和第二评价网络对策略网络的动作值函数进行估计,并使用二者之中的较小值作为第一估计值;
采用策略目标网络和评价目标网络,根据预设目标函数计算第二估计值,其中,策略目标网络的结构与策略网络的结构相同,评价目标网络的结构与评价网络的结构相同;
根据第一估计值和第二估计值对评价网络的参数进行更新,并在评价网络的更新次数达到预设次数时,对策略网络和策略目标网络的参数进行更新。
可选地,在本申请的一个实施例中,在采用滚动优化方法周期性更新储能***充放电功率之后,还包括:
根据储能***充放电功率生成充放电序列曲线,并根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
为达上述目的,本申请第二方面实施例提出了一种现货场景下基于深度强化学习的风储灵活控制装置,包括:
获取模块,用于获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
第一构建模块,用于根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
第二构建模块,用于根据目标函数和风储约束条件,构建储能灵活控制模型;
求解模块,用于基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;
优化模块,用于采用滚动优化方法周期性更新储能***充放电功率。
可选地,在本申请的一个实施例中,还包括:
生成模块,用于根据储能***充放电功率生成充放电序列曲线;
控制模块,用于根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
为了实现上述目的,本申请第三方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种现货场景下基于深度强化学习的风储灵活控制方法。
本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法、装置和非临时性计算机可读存储介质,解决了现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种现货场景下基于深度强化学习的风储灵活控制方法的流程图;
图2为本申请实施例二所提供的一种现货场景下基于深度强化学习的风储灵活控制装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
目前,现有技术通过引入风电功率预测周期模型,采用超前控制策略平抑短期风电功率波动。在满足自身运行约束的条件下,通过短期风电预测值来确定储能电池当前时刻的充放电状态及充放电功率,并采用滚动优化方法周期性更新储能电池充放电功率,将风储联合功率波动尽量控制在限定波动率内以获得更好的平滑效果。但是现有技术普遍以MPC(Multimedia Personal Computer,多媒体个人电脑)、鲁棒控制为主,过度依赖于机理模型设计,缺乏先进性,并且其核心目标是为了平抑风功率波动,未考虑风电场参与现货市场交易带来的市场损失及收益情况。
本申请在综合考虑中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据的基础上,采用一种新型的人工智能前沿技术深度强化学习,考虑风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能SOC(State of Charge,电池荷电状态)约束、储能末时段的SOC约束等约束条件,为储能***提供实时控制的充放电功率策略,解决了现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性,并且实现风电场在现货市场场景下达到减损增益的经济性优化目标。
其中,深度强化学习(Deep Reinforcement Learning,DRL)是一种具有先进性的、智能化的、以数据驱动的决策问题求解方法,具有如下特点:(1)具有自适应性和从历史数据中学习的能力;(2)能够在复杂环境下学习到较好的控制策略。因此,针对考虑不确定性因素和复杂非线性模型的储能***优化运行问题,DRL的上述特点使得其在学习储能充放电策略中具有很大的应用潜力。
下面参考附图描述本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法和装置。
图1为本申请实施例一所提供的一种现货场景下基于深度强化学习的风储灵活控制方法的流程图。
如图1所示,该现货场景下基于深度强化学习的风储灵活控制方法包括以下步骤:
步骤101,获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
步骤102,根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
步骤103,根据目标函数和风储约束条件,构建储能灵活控制模型;
步骤104,基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;
步骤105,采用滚动优化方法周期性更新储能***充放电功率。
本申请实施例的现货场景下基于深度强化学习的风储灵活控制方法,通过获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;根据目标函数和风储约束条件,构建储能灵活控制模型;基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;采用滚动优化方法周期性更新储能***充放电功率。由此,能够解决现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
本申请包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能SOC约束、储能末时段的SOC约束,以风储参与现货交易博取的现货收益最大化为目标函数,构建建立灵活控制风电储能策略模型,并采用深度强化学习进行求解,将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性和经济效益。
进一步地,在本申请实施例中,中长期合约数据包括中长期合约加权电价和中长期合约分时电量;
日前出清数据包括:日前出清电量、基数电量和标杆电价;
现货电价预测数据包括:日前电价预测数据和实时电价预测数据;
风电场预测功率数据包括:超短期风功率预测数据和短期风功率预测数据;
风电场实发功率数据包括:风电场实发功率。
本申请风电信息数据包括中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据,具体数据及其来源,如表一所示:
表一
进一步地,在本申请实施例中,在以风储现货结算收益最大化为目标构建目标函数之前,还包括:
获取现货结算收入和超额获利回收损失;
根据现货结算收入和超额获利回收损失计算风储现货结算收益。
本申请主要考虑现货结算收入、超额获利回收损失两个方面,最终以现货结算收益最大化作为目标函数,其中,现货结算收益=现货结算收入-超额获利回收损失;
本申请的现货结算收入表示为:
其中,为t时刻的现货结算收入,为t时刻基数电量对应的电价,也称为标杆电价,为t时刻基数电量,为t时刻的中长期合约加权电价,为t时刻的中长期合约总电量,为t时刻的日前出清电量,为t时刻的现货日前电价预测数据,为t时刻的实发电量,进行储能控制决策时,实发电量未知,此处采用超短期功率预测数据和储能***充放电策略联合后折合成对应的电量,作为实发电量,为t时刻的现货实时电价预测数据;
本申请的超额获利回收损失分为两种情况进行计算,其中,
本申请的t时段风储现货结算收益表示为:
所有时段现货总体结算收益如下:
进一步地,在本申请实施例中,风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。
本申请的风储联合输出功率,等于风电场实发功率减去储能***充放电功率,风储联合输出功率等式约束表示为:
其中,储能***充电表示风电场的多余发电量被存储利用,风电场实际发电量减小;储能***放电表示释放部分电池电量,使得风电场实际发电量增加。
将风储联合输出功率折合成电量,建立风储联合输出电量等式约束,风储联合输出电量等式约束表示为:
储能充放电功率约束表示为:
储能SOC约束表示为:
储能电池的SOC转换表示为:
其中,为t+1时段储能***的剩余容量,为t时段储能***的剩余容量,为储能***充放电功率,为储能控制时间间隔(默认为0.25小时),为储能电池衰减前的最大容量,和分别为t时段储能电池的充电和放电效率;
为保证储能能够在下一个控制周期正常工作,应使得末时段储能动作之后的 SOC为给定值,储能末时段SOC约束表示为:
进一步地,在本申请实施例中,基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率,包括:
采用策略网络和评价网络进行计算,将储能储能电池荷电状态作为策略网络的当前状态,将储能充放电功率动作作为策略网络的动作,将预设时段的即时回报作为强化学习的奖惩函数;
基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。
下面详细说明本申请采用深度强化学习技术进行储能灵活控制模型求解:
对于任意t时段,状态空间由日前电价、实时电价、风电场发电功率、储能***SOC共同构成,其中,状态空间表示为:
将储能出力设置为动作空间,通过储能充放电功率约束条件限制动作空间,其中,动作空间表示为:
奖惩函数决定环境对某一时段储能充放电动作的即时回报,其影响强化学习智能体对动作的选择。奖惩函数由收益奖励、约束条件惩罚组成,其中,奖惩函数表示为:
其中,收益奖励表示为:
约束条件惩罚包括SOC上下限惩罚和储能末时段SOC惩罚,
其中,为t时刻储能***SOC上下限惩罚,为t时刻的储能出力动作,为t时刻储能***的容量,为t+1时刻的最小容量限制,为t+1时刻储能***的容量,为t+1时刻的最大容量限制,为t时刻的充电转换效率,为t时刻的放电转换效率,为储能控制时间间隔。
根据储能末时段的SOC约束得到储能末时段SOC惩罚根据,表示为:
状态-动作值函数的贝尔曼方程表示为:
其中,为基于t时段的储能状态、t时段的储能出力动作情况下的收益期望值,为t时段的即时回报,为折扣因子,决定未来奖赏对累积奖赏的影响,E为数学期望,为t+1时段的储能出力动作,为基于t+1时段的储能状态、t时段的储能出力动作情况下的收益期望值。
贝尔曼方程的作用,是将储能控制决策按照时间或空间分成多个阶段,每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题。
本申请中,采用actor网络拟合状态和动作的映射关系,避免动作空间离散化,采用critic网络对值函数进行拟合,评估actor网络的策略,使输出动作逼近最优解。其中,actor网络根据某一充放电策略将当前状态映射到某指定动作,表示为:
actor网络通过策略梯度更新网络参数,表示为:
其中,为基于actor网络参数的策略梯度,J为强化学习目标函数,E为数学期望,为i时刻的储能***的容量状态,为i时刻的储能***充放电动作对应的功率,为某一随机策略,为基于actor网络参数的策略梯度,为critic网络评估的拟合函数,为储能出力动作,为状态-动作映射关系的拟合函数,为actor网络参数。
其中,E为数学期望,为i时刻的储能***的容量状态,为t时段的储能出力动作,为某一随机策略,为t时段的即时回报,为t时段的值估计,为在critic网络参数的前提下、基于t时段的储能状态、t时段的储能出力动作的收益期望值。
本申请采用双延迟深度确定性策略梯度TD3进行储能灵活控制策略的求解计算。双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradient)算法在AC框架的基础上改善了critic网络过高估计的问题。
进一步地,在本申请实施例中,评价网络包括第一评价网络和第二评价网络,基于当前状态、动作和强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解,包括:
采用第一评价网络和第二评价网络对策略网络的动作值函数进行估计,并使用二者之中的较小值作为第一估计值;
采用策略目标网络和评价目标网络,根据预设目标函数计算第二估计值,其中,策略目标网络的结构与策略网络的结构相同,评价目标网络的结构与评价网络的结构相同;
根据第一估计值和第二估计值对评价网络的参数进行更新,并在评价网络的更新次数达到预设次数时,对策略网络和策略目标网络的参数进行更新。
其中,为t时段的值估计,为t时段的即时回报,为折扣因子,决定未来奖赏对累积奖赏的影响,为t+1时刻储能SOC状态,为在储能状态情况下的critic 目标网络参数值,为第i个 critic 网络的拟合函数,为噪声,作用是平滑值估计。
其中,为TD3在t时段的值估计,为t时段的即时回报,为折扣因子,决定未来奖赏对累积奖赏的影响,为t+1时刻储能SOC状态,为 actor 目标网络,为 critic 目标网络,为噪声,作用是平滑值估计。
目标网络采用软更新 (soft update)的方式使得参数缓慢变化,提高算法稳定性。软更新方式为:
TD3算法在critic网络进行一定次数的更新后,再更新actor网络和目标网络的参数,延迟过高估计误差的传播,有利于将网络中的错误最小化。
进一步地,在本申请实施例中,在采用滚动优化方法周期性更新储能***充放电功率之后,还包括:
根据储能***充放电功率生成充放电序列曲线,并根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
本申请考通过虑未来一段时间内的中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据共5大类据边界,采用强化学习领域中的演员评论家模型框架针对储能灵活控制策略模型进行求解,自学习、自适应、智能化地完成对历史数据的学习、总结,进而得到经济性最优的充放电序列曲线,并将该序列中的下一点充放电功率指令下发给储能***执行。
在进行储能优化决策时,在未来一段时间段内,如果某些时刻实时电价预测较高,则储能***倾向于提前充电,以博取更多收益;如果某些时刻实时电价预测较低,则储能***倾向于提前放电,以挽回一些损失。站在储能实时控制视角下,储能控制整体采用滚动优化方法,向前滚动实时执行超前模式储能的充放电运行控制策略,把比较周期内各阶段以及下一个时期的预先安排有机地衔接起来,滚动优化下个时刻所在周期内所有时刻的充放电策略,但实际只调整下个时刻的充放电策略,下个时刻以最新的实际数据优化未来时刻的策略,不断滚动优化修正实际充放电策略。
图2为本申请实施例二所提供的一种现货场景下基于深度强化学习的风储灵活控制装置的结构示意图。
如图2所示,该现货场景下基于深度强化学习的风储灵活控制装置,包括:
获取模块10,用于获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
第一构建模块20,用于根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
第二构建模块30,用于根据目标函数和风储约束条件,构建储能灵活控制模型;
求解模块40,用于基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;
优化模块50,用于采用滚动优化方法周期性更新储能***充放电功率。
本申请实施例的现货场景下基于深度强化学习的风储灵活控制装置,包括获取模块,用于获取风电信息数据,其中,风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;第一构建模块,用于根据风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;第二构建模块,用于根据目标函数和风储约束条件,构建储能灵活控制模型;求解模块,用于基于深度强化学习对储能灵活控制模型进行求解,得到储能***充放电功率;优化模块,用于采用滚动优化方法周期性更新储能***充放电功率。由此,能够解决现有方法过度依赖于机理模型设计,缺乏先进性的技术问题,通过将储能控制决策嵌入深度强化学习方法中,具有一定的先进性和稳定性,能够辅助风电厂实时有效控制储能***充放电功率,提高风电可控性。
进一步地,在本申请实施例中,还包括:
生成模块,用于根据储能***充放电功率生成充放电序列曲线;
控制模块,用于根据充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据充放电功率指令对储能***进行充放电控制。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的现货场景下基于深度强化学习的风储灵活控制方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种现货场景下基于深度强化学习的风储灵活控制方法,其特征在于,包括以下步骤:
获取风电信息数据,其中,所述风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
根据所述风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
根据所述目标函数和所述风储约束条件,构建储能灵活控制模型;
基于深度强化学习对所述储能灵活控制模型进行求解,得到储能***充放电功率;
采用滚动优化方法周期性更新所述储能***充放电功率。
2.如权利要求1所述的方法,其特征在于,所述中长期合约数据包括中长期合约加权电价和中长期合约分时电量;
所述日前出清数据包括:日前出清电量、基数电量和标杆电价;
所述现货电价预测数据包括:日前电价预测数据和实时电价预测数据;
所述风电场预测功率数据包括:超短期风功率预测数据和短期风功率预测数据;
所述风电场实发功率数据包括:风电场实发功率。
3.如权利要求1所述的方法,其特征在于,在所述以风储现货结算收益最大化为目标构建目标函数之前,还包括:
获取现货结算收入和超额获利回收损失;
根据所述现货结算收入和超额获利回收损失计算风储现货结算收益。
4.如权利要求1所述的方法,其特征在于,所述风储约束条件至少包括风储联合输出功率等式约束、风储联合输出电量等式约束、储能充放电功率约束、储能电池荷电状态约束和储能末时段电池荷电状态约束中的一种。
5.如权利要求1所述的方法,其特征在于,所述基于深度强化学习对所述储能灵活控制模型进行求解,得到储能***充放电功率,包括:
采用策略网络和评价网络进行计算,将储能电池荷电状态作为所述策略网络的当前状态,将储能充放电功率动作作为所述策略网络的动作,将预设时段的即时回报作为强化学习的奖惩函数;
基于所述当前状态、所述动作和所述强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解。
6.如权利要求5所述的方法,其特征在于,所述评价网络包括第一评价网络和第二评价网络,所述基于所述当前状态、所述动作和所述强化学习的奖惩函数,采用双延迟深度确定性策略梯度进行储能灵活控制策略的求解,包括:
采用所述第一评价网络和第二评价网络对所述策略网络的动作值函数进行估计,并使用二者之中的较小值作为第一估计值;
采用策略目标网络和评价目标网络,根据预设目标函数计算第二估计值,其中,所述策略目标网络的结构与所述策略网络的结构相同,所述评价目标网络的结构与所述评价网络的结构相同;
根据所述第一估计值和所述第二估计值对所述评价网络的参数进行更新,并在所述评价网络的更新次数达到预设次数时,对所述策略网络和所述策略目标网络的参数进行更新。
7.如权利要求1所述的方法,其特征在于,在所述采用滚动优化方法周期性更新所述储能***充放电功率之后,还包括:
根据所述储能***充放电功率生成充放电序列曲线,并根据所述充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据所述充放电功率指令对所述储能***进行充放电控制。
8.一种现货场景下基于深度强化学习的风储灵活控制装置,其特征在于,包括:
获取模块,用于获取风电信息数据,其中,所述风电信息数据包括:中长期合约数据、日前出清数据、现货电价预测数据、风电场预测功率数据、风电场实发功率数据;
第一构建模块,用于根据所述风电信息数据,以风储现货结算收益最大化为目标构建目标函数,并构建风储约束条件;
第二构建模块,用于根据所述目标函数和所述风储约束条件,构建储能灵活控制模型;
求解模块,用于基于深度强化学习对所述储能灵活控制模型进行求解,得到储能***充放电功率;
优化模块,用于采用滚动优化方法周期性更新所述储能***充放电功率。
9.如权利要求8所述的装置,其特征在于,还包括:
生成模块,用于根据所述储能***充放电功率生成充放电序列曲线;
控制模块,用于根据所述充放电序列曲线将下一时刻的充放电功率指令下发给储能***,以根据所述充放电功率指令对所述储能***进行充放电控制。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211290036.9A CN115360741A (zh) | 2022-10-20 | 2022-10-20 | 现货场景下基于深度强化学习的风储灵活控制方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211290036.9A CN115360741A (zh) | 2022-10-20 | 2022-10-20 | 现货场景下基于深度强化学习的风储灵活控制方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115360741A true CN115360741A (zh) | 2022-11-18 |
Family
ID=84008067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211290036.9A Pending CN115360741A (zh) | 2022-10-20 | 2022-10-20 | 现货场景下基于深度强化学习的风储灵活控制方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115360741A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117318553A (zh) * | 2023-09-29 | 2023-12-29 | 曲阜师范大学 | 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200082422A1 (en) * | 2018-09-12 | 2020-03-12 | Mitsubishi Electric Research Laboratories, Inc. | Day-Ahead Joint Generation Scheduling and Bidding Optimization for Power Plants |
CN112117760A (zh) * | 2020-08-13 | 2020-12-22 | 国网浙江省电力有限公司台州供电公司 | 基于双q值网络深度强化学习的微电网能量调度方法 |
CN113095715A (zh) * | 2021-04-29 | 2021-07-09 | 福州大学 | 基于深度强化学习的含氢储能微网优化运行方法 |
CN113794199A (zh) * | 2021-08-26 | 2021-12-14 | 电子科技大学 | 一种考虑电力市场波动的风电储能***最大收益优化方法 |
CN114154718A (zh) * | 2021-12-03 | 2022-03-08 | 国网福建省电力有限公司经济技术研究院 | 基于储能技术特性的风储联合***日前优化调度方法 |
CN114362196A (zh) * | 2022-03-21 | 2022-04-15 | 南京邮电大学 | 一种多时间尺度主动配电网电压控制方法 |
CN114725936A (zh) * | 2022-04-21 | 2022-07-08 | 电子科技大学 | 基于多智能体深度强化学习的配电网优化方法 |
-
2022
- 2022-10-20 CN CN202211290036.9A patent/CN115360741A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200082422A1 (en) * | 2018-09-12 | 2020-03-12 | Mitsubishi Electric Research Laboratories, Inc. | Day-Ahead Joint Generation Scheduling and Bidding Optimization for Power Plants |
CN112117760A (zh) * | 2020-08-13 | 2020-12-22 | 国网浙江省电力有限公司台州供电公司 | 基于双q值网络深度强化学习的微电网能量调度方法 |
CN113095715A (zh) * | 2021-04-29 | 2021-07-09 | 福州大学 | 基于深度强化学习的含氢储能微网优化运行方法 |
CN113794199A (zh) * | 2021-08-26 | 2021-12-14 | 电子科技大学 | 一种考虑电力市场波动的风电储能***最大收益优化方法 |
CN114154718A (zh) * | 2021-12-03 | 2022-03-08 | 国网福建省电力有限公司经济技术研究院 | 基于储能技术特性的风储联合***日前优化调度方法 |
CN114362196A (zh) * | 2022-03-21 | 2022-04-15 | 南京邮电大学 | 一种多时间尺度主动配电网电压控制方法 |
CN114725936A (zh) * | 2022-04-21 | 2022-07-08 | 电子科技大学 | 基于多智能体深度强化学习的配电网优化方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117318553A (zh) * | 2023-09-29 | 2023-12-29 | 曲阜师范大学 | 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法 |
CN117318553B (zh) * | 2023-09-29 | 2024-03-26 | 曲阜师范大学 | 基于td3和维也纳整流器的低风速永磁直驱风电机组控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | A deep reinforcement learning method for managing wind farm uncertainties through energy storage system control and external reserve purchasing | |
Ding et al. | Rolling optimization of wind farm and energy storage system in electricity markets | |
CN112488362A (zh) | 一种协调电动汽车参与辅助服务市场的储能优化配置方法 | |
CN115102202B (zh) | 基于滚动式实时电价预测的储能控制方法 | |
CN112529257B (zh) | 一种计及agc信号影响的储能电站联合优化方法及*** | |
CN115360741A (zh) | 现货场景下基于深度强化学习的风储灵活控制方法和装置 | |
CN111553750A (zh) | 一种计及电价不确定性和损耗成本的储能竞价策略方法 | |
CN115496603A (zh) | 基于人工智能技术的电力市场新能源日前交易决策方法 | |
CN115511634A (zh) | 基于结算收入的电力市场新能源日前交易决策方法和装置 | |
Rezaeimozafar et al. | A hybrid heuristic-reinforcement learning-based real-time control model for residential behind-the-meter PV-battery systems | |
CN117291304A (zh) | 电动汽车充放电可调节能力预测方法、装置、设备及介质 | |
CN116663709A (zh) | 一种基于强化解码器的电力负荷多步预测方法和装置 | |
CN115001002B (zh) | 一种求解储能参与削峰填谷的优化调度方法和*** | |
CN112926811A (zh) | 一种考虑可再生能源消纳责任权重的负荷聚合商购电方法 | |
CN112865235B (zh) | 电池控制方法、电子设备及存储介质 | |
CN115764936A (zh) | 电网储能配置的优化方法、装置、设备及存储介质 | |
CN115276099B (zh) | 基于人工智能技术的风电场储能***灵活控制方法和装置 | |
CN115378006A (zh) | 现货场景下多目标的风储灵活控制方法和装置 | |
CN117863969B (zh) | 一种考虑电池损耗的电动汽车充放电控制方法及*** | |
CN116128543B (zh) | 一种售电公司负荷申报与出清的综合模拟运行方法及*** | |
CN116307449A (zh) | 一种风电储能站实时调控方法与*** | |
CN115659595A (zh) | 基于人工智能的新能源场站的储能控制方法及装置 | |
CN117060424A (zh) | 需量控制方法、模型的训练方法、储能***及介质 | |
CN117593028A (zh) | 风力发电场输出电量的预测方法及*** | |
CN115659656A (zh) | 基于蒙特卡洛风电场储能功率预测时间窗选择方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221118 |
|
RJ01 | Rejection of invention patent application after publication |