CN115001002B - 一种求解储能参与削峰填谷的优化调度方法和*** - Google Patents

一种求解储能参与削峰填谷的优化调度方法和*** Download PDF

Info

Publication number
CN115001002B
CN115001002B CN202210916196.3A CN202210916196A CN115001002B CN 115001002 B CN115001002 B CN 115001002B CN 202210916196 A CN202210916196 A CN 202210916196A CN 115001002 B CN115001002 B CN 115001002B
Authority
CN
China
Prior art keywords
energy storage
value
network
strategy
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210916196.3A
Other languages
English (en)
Other versions
CN115001002A (zh
Inventor
陈显超
张杰明
高宜凡
陈展尘
王辉
梁妍陟
仲卫
程林晖
钟榜
褚裕谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202210916196.3A priority Critical patent/CN115001002B/zh
Publication of CN115001002A publication Critical patent/CN115001002A/zh
Application granted granted Critical
Publication of CN115001002B publication Critical patent/CN115001002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Power Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种求解储能参与削峰填谷的优化调度方法和***,包括设置参数化的深度Q值网络,利用负荷历史数据以及对应时刻储能的功率出率对参数化的深度Q值网络进行训练,训练过程中利用信赖域优化模型对控制策略的更新次数做出限制,从而快速准确的获取最优策略,以便在当前条件下实现储能的优化调度控制。本发明利用信赖域‑强化学习,在连续控制中,对策略更新的大小做出限制,每次更新的时候不大幅度地改变分布的形态,使收益满足调递增收敛性,能够在线修正优化结果,并且考虑到充放电约束,达到最优的削峰填谷控制功能。

Description

一种求解储能参与削峰填谷的优化调度方法和***
技术领域
本发明属于电网调度技术领域,具体涉及一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法和***。
背景技术
大规模电池储能***通过在负荷高峰时放电,在负荷低谷时充电,可以实现对负荷的削峰填谷功能。电网公司利用储能削峰填谷,能够推迟设备容量升级,提高设备利用率,节省设备更新的费用;电力用户利用储能削峰填谷,可以利用峰谷电价差获得经济效益。如何利用有限的电池容量达到最优的削峰填谷效果,并满足一组约束条件的限制,需要借助于优化算法来实现。
求解储能***充放电策略的经典优化算法包括梯度类算法和动态规划算法。梯度类算法无法处理不连续的约束条件,对初值的依赖性强。采用动态规划算法则可以在模型中考虑不连续、非线性的约束,且方便使用计算机求解。但是当大规模储能并网和高随机性的负荷存在时,这两类方法均存在精度和计算效率的问题,同时这两类方法基于精确的物理模型,这在实际问题里难以保证建模的准确度。
发明内容
有鉴于此,本发明旨在解决当大规模储能并网和高随机性的负荷存在时,求解储能***充放电策略的经典优化算法均存在精度和计算效率的问题且难以保证建模的准确度的问题。
为了解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供了一种求解储能参与削峰填谷的优化调度方法,包括如下步骤:
设置参数化深度Q值网络,参数化深度Q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略;
获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度Q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件
Figure 813452DEST_PATH_IMAGE001
时,结束训练,其中
Figure 958125DEST_PATH_IMAGE002
表示流形上的信赖域约束,
Figure 71575DEST_PATH_IMAGE003
表示利用网络参数
Figure 433024DEST_PATH_IMAGE004
参数化的控制策略
Figure 657331DEST_PATH_IMAGE005
Figure 922091DEST_PATH_IMAGE006
表示约束限值,
Figure 940862DEST_PATH_IMAGE007
Figure 291072DEST_PATH_IMAGE008
表示网络参数
Figure 319071DEST_PATH_IMAGE004
的更新次数;
获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度Q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
进一步地,参数化深度Q值网络具体包括:储能策略神经网络和储能状态价值神经网络;
储能策略神经网络是根据近似状态-动作储能Q-Value网络
Figure 438337DEST_PATH_IMAGE009
设置而成的,对应的网络参数为
Figure 893589DEST_PATH_IMAGE004
所述储能状态价值神经网络是根据近似状态储能Q-Value网络
Figure 964051DEST_PATH_IMAGE010
设置而成的,对应的网络参数为
Figure 467844DEST_PATH_IMAGE011
其中,
Figure 769513DEST_PATH_IMAGE012
表示状态,
Figure 333349DEST_PATH_IMAGE013
表示动作,
Figure 454889DEST_PATH_IMAGE014
表示时刻,
Figure 762374DEST_PATH_IMAGE005
表示储能控制策略,
Figure 354767DEST_PATH_IMAGE015
表示状态
Figure 89505DEST_PATH_IMAGE016
下,当采取动作
Figure 636024DEST_PATH_IMAGE017
时对应的价值,
Figure 481620DEST_PATH_IMAGE018
表示状态
Figure 492301DEST_PATH_IMAGE016
下,对所有可能的动作
Figure 902335DEST_PATH_IMAGE013
而言的期望价值,
Figure 936150DEST_PATH_IMAGE019
表示回报,
Figure 647754DEST_PATH_IMAGE020
表示折扣因子。
进一步地,信赖域优化模型具体为:
Figure 450625DEST_PATH_IMAGE021
式中,
Figure 589482DEST_PATH_IMAGE022
表示更新前的控制策略,
Figure 110593DEST_PATH_IMAGE003
表示按网络参数
Figure 625888DEST_PATH_IMAGE004
更新后的控制策略,
Figure 781801DEST_PATH_IMAGE023
表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,
Figure 91560DEST_PATH_IMAGE024
表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件。
进一步地,对参数化深度Q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件
Figure 99967DEST_PATH_IMAGE001
时,结束训练,具体包括:
以所述初始状态为起始状态,以控制策略
Figure 91057DEST_PATH_IMAGE025
对储能进行
Figure 930837DEST_PATH_IMAGE026
次控制,得到策略状态-动作轨迹
Figure 349180DEST_PATH_IMAGE027
,其中
Figure 907200DEST_PATH_IMAGE005
为所述储能策略神经网络的输出结果,
Figure 934937DEST_PATH_IMAGE028
为储能策略网络的参数,
Figure 629223DEST_PATH_IMAGE029
为第
Figure 484047DEST_PATH_IMAGE007
轮策略状态-动作轨迹,
Figure 263784DEST_PATH_IMAGE030
为第
Figure 596676DEST_PATH_IMAGE031
个轨迹且
Figure 411048DEST_PATH_IMAGE032
Figure 171194DEST_PATH_IMAGE033
为时刻
Figure 874445DEST_PATH_IMAGE014
的第
Figure 73346DEST_PATH_IMAGE031
个轨迹状态和动作向量;
对于
Figure 679908DEST_PATH_IMAGE029
中每一步
Figure 673271DEST_PATH_IMAGE014
,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数
Figure 365284DEST_PATH_IMAGE034
以及利用所述储能状态价值神经网络计算对应步的状态价值函数
Figure 39979DEST_PATH_IMAGE035
,其中
Figure 563364DEST_PATH_IMAGE036
是所述储能状态价值神经网络的参数;
对于
Figure 423567DEST_PATH_IMAGE029
中每一步
Figure 665193DEST_PATH_IMAGE014
,基于所述动作-状态价值函数和所述状态价值函数计算优势函数
Figure 877999DEST_PATH_IMAGE037
Figure 459153DEST_PATH_IMAGE038
基于所述优势函数估计策略梯度
Figure 794320DEST_PATH_IMAGE039
Figure 460924DEST_PATH_IMAGE040
,其中,
Figure 539739DEST_PATH_IMAGE041
表示负荷和储能的总控制轮数;
Figure 473935DEST_PATH_IMAGE042
表示所述储能策略神经网络在
Figure 245582DEST_PATH_IMAGE028
处的梯度;
基于所述策略梯度计算所述储能策略神经网络对
Figure 133903DEST_PATH_IMAGE028
的二阶偏导
Figure 16408DEST_PATH_IMAGE043
Figure 306575DEST_PATH_IMAGE044
,其中
Figure 249124DEST_PATH_IMAGE045
为辅助变量,无实际物理意义;
令迭代下标
Figure 624741DEST_PATH_IMAGE046
,依次更新所述储能策略神经网络的网络参数为
Figure 45358DEST_PATH_IMAGE047
Figure 954146DEST_PATH_IMAGE048
,其中
Figure 5279DEST_PATH_IMAGE049
表示所述储能策略神经网络步长的最大回溯次数;
对所述储能状态价值神经网络,以
Figure 930510DEST_PATH_IMAGE050
为标签,采用随机梯度下降算法更新参数为
Figure 92501DEST_PATH_IMAGE051
Figure 153998DEST_PATH_IMAGE052
,其中
Figure 376032DEST_PATH_IMAGE053
为所述储能状态价值神经网络损失函数
Figure 788558DEST_PATH_IMAGE054
对网络参数
Figure 252775DEST_PATH_IMAGE036
的梯度,
Figure 434358DEST_PATH_IMAGE055
重复进行上述步骤,直至满足条件
Figure 561714DEST_PATH_IMAGE056
以及
Figure 399220DEST_PATH_IMAGE057
时,结束训练。
进一步地,最小化负荷曲线的方差的表达式具体如下:
Figure 965331DEST_PATH_IMAGE058
式中,
Figure 204682DEST_PATH_IMAGE059
为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第
Figure 565256DEST_PATH_IMAGE060
Figure 394453DEST_PATH_IMAGE061
)个负荷数据;
Figure 764254DEST_PATH_IMAGE062
为时刻
Figure 592533DEST_PATH_IMAGE031
的负荷,为已知量,且
Figure 327271DEST_PATH_IMAGE063
时为实际负荷,
Figure 936107DEST_PATH_IMAGE064
时为预测负荷;
Figure 47282DEST_PATH_IMAGE065
为时刻
Figure 57964DEST_PATH_IMAGE031
到时刻
Figure 462138DEST_PATH_IMAGE066
之间BES的输出功率,电池充电为正,放电为负,且
Figure 558270DEST_PATH_IMAGE067
时为已知量,
Figure 207557DEST_PATH_IMAGE068
时为控制变量。
第二方面,本发明提供了一种求解储能参与削峰填谷的优化调度***,包括:
设置单元,用于设置参数化深度Q值网络,参数化深度Q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略;
训练单元,用于获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度Q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件
Figure 72745DEST_PATH_IMAGE001
时,结束训练,其中
Figure 149285DEST_PATH_IMAGE002
表示流形上的信赖域约束,
Figure 732713DEST_PATH_IMAGE003
表示利用网络参数
Figure 920112DEST_PATH_IMAGE004
参数化的控制策略
Figure 905386DEST_PATH_IMAGE005
Figure 651363DEST_PATH_IMAGE006
表示约束限值,
Figure 722087DEST_PATH_IMAGE007
Figure 713176DEST_PATH_IMAGE008
表示网络参数
Figure 490640DEST_PATH_IMAGE004
的更新次数;
控制单元,用于获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度Q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
进一步地,参数化深度Q值网络具体包括:储能策略神经网络和储能状态价值神经网络;
储能策略神经网络是根据近似状态-动作储能Q-Value网络
Figure 971300DEST_PATH_IMAGE009
设置而成的,对应的网络参数为
Figure 201424DEST_PATH_IMAGE004
所述储能状态价值神经网络是根据近似状态储能Q-Value网络
Figure 58521DEST_PATH_IMAGE010
设置而成的,对应的网络参数为
Figure 189026DEST_PATH_IMAGE011
其中,
Figure 840587DEST_PATH_IMAGE012
表示状态,
Figure 823587DEST_PATH_IMAGE013
表示动作,
Figure 218796DEST_PATH_IMAGE014
表示时刻,
Figure 705272DEST_PATH_IMAGE005
表示储能控制策略,
Figure 793314DEST_PATH_IMAGE015
表示状态
Figure 998030DEST_PATH_IMAGE016
下,当采取动作
Figure 196930DEST_PATH_IMAGE017
时对应的价值,
Figure 54026DEST_PATH_IMAGE018
表示状态
Figure 312969DEST_PATH_IMAGE016
下,对所有可能的动作
Figure 4982DEST_PATH_IMAGE013
而言的期望价值,
Figure 741994DEST_PATH_IMAGE019
表示回报,
Figure 203062DEST_PATH_IMAGE020
表示折扣因子。
进一步地,信赖域优化模型具体为:
Figure 632906DEST_PATH_IMAGE021
式中,
Figure 546636DEST_PATH_IMAGE022
表示更新前的控制策略,
Figure 87338DEST_PATH_IMAGE003
表示按网络参数
Figure 167028DEST_PATH_IMAGE004
更新后的控制策略,
Figure 439877DEST_PATH_IMAGE023
表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,
Figure 168799DEST_PATH_IMAGE024
表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件。
进一步地,训练单元对参数化深度Q值网络进行迭代训练并更新网络参数的过程具体包括:
以所述初始状态为起始状态,以控制策略
Figure 185296DEST_PATH_IMAGE025
对储能进行
Figure 683274DEST_PATH_IMAGE026
次控制,得到策略状态-动作轨迹
Figure 127025DEST_PATH_IMAGE027
,其中
Figure 343242DEST_PATH_IMAGE005
为所述储能策略神经网络的输出结果,
Figure 661966DEST_PATH_IMAGE028
为储能策略网络的参数,
Figure 14450DEST_PATH_IMAGE029
为第
Figure 894681DEST_PATH_IMAGE007
轮策略状态-动作轨迹,
Figure 332616DEST_PATH_IMAGE030
为第
Figure 690916DEST_PATH_IMAGE031
个轨迹且
Figure 163485DEST_PATH_IMAGE032
Figure 949039DEST_PATH_IMAGE033
为时刻
Figure 874270DEST_PATH_IMAGE014
的第
Figure 534796DEST_PATH_IMAGE031
个轨迹状态和动作向量;
对于
Figure 799555DEST_PATH_IMAGE029
中每一步
Figure 83906DEST_PATH_IMAGE014
,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数
Figure 434116DEST_PATH_IMAGE034
以及利用所述储能状态价值神经网络计算对应步的状态价值函数
Figure 196535DEST_PATH_IMAGE035
,其中
Figure 315801DEST_PATH_IMAGE036
是所述储能状态价值神经网络的参数;
对于
Figure 771053DEST_PATH_IMAGE029
中每一步
Figure 112954DEST_PATH_IMAGE014
,基于所述动作-状态价值函数和所述状态价值函数计算优势函数
Figure 616747DEST_PATH_IMAGE037
Figure 652837DEST_PATH_IMAGE038
基于所述优势函数估计策略梯度
Figure 216673DEST_PATH_IMAGE039
Figure 603792DEST_PATH_IMAGE040
,其中,
Figure 645697DEST_PATH_IMAGE041
表示负荷和储能的总控制轮数;
Figure 801872DEST_PATH_IMAGE042
表示所述储能策略神经网络在
Figure 35145DEST_PATH_IMAGE028
处的梯度;
基于所述策略梯度计算所述储能策略神经网络对
Figure 643981DEST_PATH_IMAGE028
的二阶偏导
Figure 755157DEST_PATH_IMAGE043
Figure 765838DEST_PATH_IMAGE044
,其中
Figure 671477DEST_PATH_IMAGE045
为辅助变量,无实际物理意义;
令迭代下标
Figure 705292DEST_PATH_IMAGE046
,依次更新所述储能策略神经网络的网络参数为
Figure 151317DEST_PATH_IMAGE047
Figure 718302DEST_PATH_IMAGE048
,其中
Figure 857159DEST_PATH_IMAGE049
表示所述储能策略神经网络步长的最大回溯次数;
对所述储能状态价值神经网络,以
Figure 378271DEST_PATH_IMAGE050
为标签,采用随机梯度下降算法更新参数为
Figure 627986DEST_PATH_IMAGE051
Figure 550943DEST_PATH_IMAGE052
,其中
Figure 860702DEST_PATH_IMAGE053
为所述储能状态价值神经网络损失函数
Figure 869109DEST_PATH_IMAGE069
对网络参数
Figure 358734DEST_PATH_IMAGE036
的梯度,
Figure 198514DEST_PATH_IMAGE055
重复进行上述步骤,直至满足条件
Figure 616857DEST_PATH_IMAGE056
以及
Figure 909298DEST_PATH_IMAGE057
时,结束训练。
进一步地,最小化负荷曲线的方差的表达式具体如下:
Figure 704079DEST_PATH_IMAGE058
式中,
Figure 398365DEST_PATH_IMAGE059
为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第
Figure 987610DEST_PATH_IMAGE060
Figure 32926DEST_PATH_IMAGE061
)个负荷数据;
Figure 858494DEST_PATH_IMAGE062
为时刻
Figure 407287DEST_PATH_IMAGE031
的负荷,为已知量,且
Figure 433012DEST_PATH_IMAGE063
时为实际负荷,
Figure 700045DEST_PATH_IMAGE064
时为预测负荷;
Figure 571049DEST_PATH_IMAGE065
为时刻
Figure 177611DEST_PATH_IMAGE031
到时刻
Figure 436554DEST_PATH_IMAGE066
之间BES的输出功率,电池充电为正,放电为负,且
Figure 361522DEST_PATH_IMAGE067
时为已知量,
Figure 364114DEST_PATH_IMAGE068
时为控制变量。
综上,本发明提供了一种求解储能参与削峰填谷的优化调度方法和***,包括设置参数化的深度Q值网络,利用负荷历史数据以及对应时刻储能的功率出率对参数化的深度Q值网络进行训练,训练过程中利用信赖域优化模型对控制策略的更新次数做出限制,从而快速准确的获取最优策略,以便在当前条件下实现储能的优化调度控制。本发明利用信赖域-强化学习,在连续控制中,对策略更新的大小做出限制,每次更新的时候不大幅度地改变分布的形态,使收益满足调递增收敛性,能够在线修正优化结果,并且考虑到充放电约束,达到最优的削峰填谷控制功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种求解储能参与削峰填谷的优化调度方法的流程示意图;
图2为本发明实施例提供的信赖域-强化学习的参数更新过程;
图3为本发明实施例提供的储能策略神经网络的示意图;
图4为本发明实施例提供的储能状态价值神经网络的示意图;
图5为本发明实施例提供的网络训练流程图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
大规模电池储能***通过在负荷高峰时放电,在负荷低谷时充电,可以实现对负荷的削峰填谷功能。电网公司利用储能削峰填谷,能够推迟设备容量升级,提高设备利用率,节省设备更新的费用;电力用户利用储能削峰填谷,可以利用峰谷电价差获得经济效益。如何利用有限的电池容量达到最优的削峰填谷效果,并满足一组约束条件的限制,需要借助于优化算法来实现。
求解储能***充放电策略的经典优化算法包括梯度类算法和动态规划算法。梯度类算法无法处理不连续的约束条件,对初值的依赖性强。采用动态规划算法则可以在模型中考虑不连续、非线性的约束,且方便使用计算机求解。但这当大规模储能并网和高随机性的负荷存在时,这两类方法均存在精度和计算效率的问题,同时这两类方法基于精确的物理模型,这在实际问题里难以保证建模的准确度。
传统的基于策略梯度的强化学习方法让深度神经网络在控制任务中取得了明显进步。但是用策略梯度的方法取得好的结果也有一些难度,因为这类方法对迭代步骤数非常敏感:如果选得太小,训练过程非常缓慢;如果选得太大,反馈信号就会淹没在噪声中,甚至有可能让模型表现雪崩式地下降。这类方法的采样效率也经常很低,学习简单的任务就需要百万级至十亿级的总迭代次数。
基于此,本发明提出了一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法和***。
以下对本发明的一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法进行详细的介绍。
请参阅图1,本实施例提供一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法。
以下首先对基于信赖域-强化学习求解储能参与削峰填谷的优化调度的设计思路进行详细说明,如下:
信赖域-强化学习(Trust Region Policy Optimization,TRPO)是通过在连续控制中,对策略更新的大小做出限制,每次更新的时候不大幅度地改变分布的形态,使收益满足调递增收敛性,能够在线修正优化结果。
由于储能的充放电功率可以快速、灵活地改变,不需要考虑爬坡速率约束。忽略电池组的内部损耗,可以将电池看做恒压源模型。若储能***的拥有者为电力用户,在市场电价体系下,用户的目标为最大化储能***给用户带来的经济利益;若储能***的拥有者为电网,为了减少常规发电机组的开停机次数以及旋转备用的容量,电网的目标为负荷曲线尽量平坦。在数学上,方差可以反映随机变量偏离其均值的程度,负荷的方差可以反映负荷曲线的平坦程度。因此本实施例选取最小化负荷曲线的方差作为目标函数:
Figure 825182DEST_PATH_IMAGE058
式中,
Figure 989447DEST_PATH_IMAGE059
为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第
Figure 168756DEST_PATH_IMAGE060
Figure 709458DEST_PATH_IMAGE061
)个负荷数据;
Figure 25033DEST_PATH_IMAGE062
为时刻
Figure 625779DEST_PATH_IMAGE031
的负荷,为已知量,且
Figure 525339DEST_PATH_IMAGE063
时为实际负荷,
Figure 869733DEST_PATH_IMAGE064
时为预测负荷;
Figure 305394DEST_PATH_IMAGE065
为时刻
Figure 749144DEST_PATH_IMAGE031
到时刻
Figure 965362DEST_PATH_IMAGE066
之间BES的输出功率,电池充电为正,放电为负,且
Figure 785551DEST_PATH_IMAGE067
时为已知量,
Figure 574253DEST_PATH_IMAGE068
时为控制变量。
如下依次对本方案的各各项参数进行说明。本实施例的实时优化包含以下几类约束条件。
1、电池容量约束
各时刻的电池电量不超出电池容量的上下限:
Figure 251222DEST_PATH_IMAGE070
式中:
Figure 626839DEST_PATH_IMAGE071
Figure 250719DEST_PATH_IMAGE072
分别为电池剩余电量的下限和上限;
Figure 457709DEST_PATH_IMAGE073
为时刻
Figure 508842DEST_PATH_IMAGE031
电池的电量,
Figure 434073DEST_PATH_IMAGE063
时为已知量,
Figure 100458DEST_PATH_IMAGE064
时为状态变量。
在线计算时,当前时刻的电量
Figure 427534DEST_PATH_IMAGE074
为初值,
Figure 649568DEST_PATH_IMAGE059
时刻的电量
Figure 796516DEST_PATH_IMAGE075
为终值。忽略电池的损耗后,电池在
Figure 762198DEST_PATH_IMAGE076
时间内减少的电量与这段时间内输出的电量相等:
Figure 943780DEST_PATH_IMAGE077
式中:
Figure 336716DEST_PATH_IMAGE076
为相邻负荷数据的间隔时间;
Figure 236538DEST_PATH_IMAGE078
Figure 238867DEST_PATH_IMAGE079
分别为电池剩余电量的初值和终值。
2、功率约束
由于电力电子变流器(PCS)及电池本体的限制,电池各时刻的输出功率不能超过功率的上下限:
Figure 212640DEST_PATH_IMAGE080
式中:
Figure 838793DEST_PATH_IMAGE081
为最大充放电功率限值。
本实施例将上述优化问题转化成一个马尔科夫序列决策模型模型,主要包含状态空间、动作空间和回报函数。
为叙述方便,首先说明本实施例中使用较多的符号:
3、
Figure 898016DEST_PATH_IMAGE012
:状态空间,本实施例中状态空间指的是储能当前的输出功率
Figure 267817DEST_PATH_IMAGE074
和负荷预测值
Figure 361675DEST_PATH_IMAGE082
Figure 158730DEST_PATH_IMAGE083
:动作空间,本实施例中动作空间指的是储能的未来时刻的充放电功率;
Figure 203784DEST_PATH_IMAGE084
Figure 111697DEST_PATH_IMAGE085
转移概率分布,这里转移概率分布是确定的,故设置为1。
4、
Figure 60062DEST_PATH_IMAGE019
Figure 965701DEST_PATH_IMAGE086
奖励函数,本实施例中奖励函数为:
Figure 61833DEST_PATH_IMAGE087
其中
Figure 711120DEST_PATH_IMAGE088
为负荷波动的方差最小目标函数,
Figure 841887DEST_PATH_IMAGE089
是保证电量位于其对应上下限范围内,
Figure 416963DEST_PATH_IMAGE065
是为了保证充放电功率位于其对应上下限内,
Figure 672494DEST_PATH_IMAGE090
是为了保证充放电电量-功率平衡。
5、
Figure 187789DEST_PATH_IMAGE091
Figure 110746DEST_PATH_IMAGE086
初始状态
Figure 420505DEST_PATH_IMAGE092
的概率分布,本实施例
Figure 163333DEST_PATH_IMAGE091
的分布为标准正态分布。
6、
Figure 216739DEST_PATH_IMAGE093
折扣因子,本专利采用保守策略,取
Figure 510316DEST_PATH_IMAGE094
7、
Figure 990976DEST_PATH_IMAGE005
Figure 486679DEST_PATH_IMAGE095
随机策略,本专利指储能的充放电功率对应的概率。
8、
Figure 15881DEST_PATH_IMAGE096
期望折扣回报:
Figure 975746DEST_PATH_IMAGE097
其中:
Figure 564991DEST_PATH_IMAGE098
Figure 344728DEST_PATH_IMAGE099
是采样轨迹的时刻索引,
Figure 176155DEST_PATH_IMAGE100
是表示求均值算子。
9、状态-动作储能Q-Value网络:
Figure 990528DEST_PATH_IMAGE101
其物理意义是,状态
Figure 750673DEST_PATH_IMAGE016
下,当采取动作
Figure 17706DEST_PATH_IMAGE017
时对应的价值。
10、储能Q-Value网络:
Figure 154290DEST_PATH_IMAGE102
其物理意义是,状态
Figure 760852DEST_PATH_IMAGE016
下,对所有可能动作
Figure 754215DEST_PATH_IMAGE013
而言的期望价值。
11、优势函数:
Figure 944763DEST_PATH_IMAGE103
其物理意义是,状态
Figure 947354DEST_PATH_IMAGE016
下,选择某一个动作对应的价值,和对于所有可能动作的期望价值的差,这里
Figure 408422DEST_PATH_IMAGE104
基于上述说明对本方案的设计思路进行说明。本方案的出发点为每一次对策略
Figure 572688DEST_PATH_IMAGE005
的更新,可以使得
Figure 751996DEST_PATH_IMAGE096
单调增大,故将
Figure 292699DEST_PATH_IMAGE096
的表达式写成如下形式:
Figure 608274DEST_PATH_IMAGE105
其中
Figure 209019DEST_PATH_IMAGE106
为待求的函数,其必须满足
Figure 108580DEST_PATH_IMAGE107
,其目的是为了保证
Figure 452974DEST_PATH_IMAGE096
单调增加。
Figure 623055DEST_PATH_IMAGE108
重新定义
Figure 394702DEST_PATH_IMAGE096
Figure 283023DEST_PATH_IMAGE109
这里
Figure 165529DEST_PATH_IMAGE110
Figure 455696DEST_PATH_IMAGE005
是任意的两个控制策略,可以看到我们成功的把对策略进行评价的折扣回报函数
Figure 840322DEST_PATH_IMAGE111
转换成由优势函数进行评价的形式,于是要考虑这一项何时为正,为正时则要对策略进行更新。但这一表达式并没有给出太多信息,我们来把其中的状态
Figure 278256DEST_PATH_IMAGE112
显式的表现出来:
Figure 902136DEST_PATH_IMAGE113
调整各项的位置:
Figure 109126DEST_PATH_IMAGE114
定义折扣状态访问概率:
Figure 160259DEST_PATH_IMAGE115
其物理意义是在策略
Figure 85489DEST_PATH_IMAGE005
下,带有折扣因子的访问到状态
Figure 247480DEST_PATH_IMAGE012
的概率(没有归一化),此时
Figure 574557DEST_PATH_IMAGE116
为:
Figure 29546DEST_PATH_IMAGE117
从这个式子可以看出,对于一个新策略
Figure 442073DEST_PATH_IMAGE110
如何判断其是否为更优的策略。就是对于在新策略
Figure 407755DEST_PATH_IMAGE110
下,对所有可能到达的状态
Figure 527021DEST_PATH_IMAGE012
,考察其期望优势值,若有:
Figure 982273DEST_PATH_IMAGE118
则说明
Figure 554200DEST_PATH_IMAGE110
为更优的策略,在所考察的状态
Figure 120310DEST_PATH_IMAGE012
处,依据下式更新策略:
Figure 858197DEST_PATH_IMAGE119
直到对于所有
Figure 484350DEST_PATH_IMAGE110
下可能到达的状态
Figure 543573DEST_PATH_IMAGE012
,和状态
Figure 913375DEST_PATH_IMAGE012
下所有可能采取的动作
Figure 7233DEST_PATH_IMAGE013
都不再有正的
Figure 804287DEST_PATH_IMAGE108
,则说明收敛到最优策略。
进一步的,为了加速计算过程,尤其是园区负荷,光伏,储能在控制每个控制后期内的最优控制能力不会变化很大,且每次训练变动的幅度并不会特别大,此处考虑忽略折扣状态访问概率因策略更新而产生的变化,用
Figure 350806DEST_PATH_IMAGE120
替代
Figure 694938DEST_PATH_IMAGE121
,此时则有:
Figure 643302DEST_PATH_IMAGE122
对于强化学习来说,可以采用采用参数向量
Figure 611258DEST_PATH_IMAGE004
可来参数化的控制策略
Figure 645073DEST_PATH_IMAGE005
Figure 356677DEST_PATH_IMAGE123
,可以证明:
Figure 159548DEST_PATH_IMAGE124
其中:
Figure 298406DEST_PATH_IMAGE022
为当前的参数化控制策略,
Figure 312192DEST_PATH_IMAGE125
为更新后的参数化控制策略。
Figure 765171DEST_PATH_IMAGE126
这里
Figure 484865DEST_PATH_IMAGE127
Figure 732307DEST_PATH_IMAGE022
Figure 803031DEST_PATH_IMAGE125
的第
Figure 794121DEST_PATH_IMAGE031
个元素。
Figure 633901DEST_PATH_IMAGE128
的计算表达式如下:
Figure 550779DEST_PATH_IMAGE129
为了和后面算法中符号统一,同时为了叙述方便,此处简单改写下标记为如下形式:
Figure 46482DEST_PATH_IMAGE124
这里
Figure 638000DEST_PATH_IMAGE130
表示当前策略,以
Figure 269970DEST_PATH_IMAGE131
表示更新后的策略,这是一个以
Figure 187111DEST_PATH_IMAGE005
为变量的不等式,可以利用这一不等关系对参数化的策略函数进行更新。
Figure 904531DEST_PATH_IMAGE132
根据Majorize-Minimize优化原理,本实施例在每一步最大化
Figure 299740DEST_PATH_IMAGE133
更新控制策略
Figure 550331DEST_PATH_IMAGE005
,进而可以逐步增加期望折扣回报
Figure 372793DEST_PATH_IMAGE096
为了最大化
Figure 577509DEST_PATH_IMAGE134
,本方案采用信赖域型方法优化模型:
Figure 714093DEST_PATH_IMAGE135
信赖域的想法是体现在流形上的信赖域约束
Figure 382971DEST_PATH_IMAGE024
,这个约束是施加于所有状态的,要对每一个状态进行考察,其类似优化理论里的欧式空间信赖域约束。
以下讨论根据采样值计算上述优化问题中目标函数:
Figure 314018DEST_PATH_IMAGE136
对于
Figure 68348DEST_PATH_IMAGE137
,采用样本均值替代:即
Figure 241578DEST_PATH_IMAGE138
这里
Figure 764963DEST_PATH_IMAGE139
为在参数
Figure 132491DEST_PATH_IMAGE140
下的状态的概率分布。
对于
Figure 374116DEST_PATH_IMAGE141
一项,可采用重要性采样估计,令
Figure 586923DEST_PATH_IMAGE142
表示采样分布,则对第
Figure 230394DEST_PATH_IMAGE060
个状态
Figure 503243DEST_PATH_IMAGE074
而言,该项可通过如下重要性采样估计:
Figure 232165DEST_PATH_IMAGE143
考虑到
Figure 753057DEST_PATH_IMAGE144
具有较高的计算复杂度,本方案用
Figure 251034DEST_PATH_IMAGE145
替代。
所以上述信赖域问题的最终计算形式为:
Figure 960364DEST_PATH_IMAGE146
综上所述,本实施例的一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法的实施步骤如下:
S100:设置参数化深度Q值网络,参数化深度Q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略。
本实施例的设置流程如下:
步骤1:将储能控制区间分别离散成10个等分区间,每个区间的步长为
Figure 848686DEST_PATH_IMAGE147
步骤2:设置近似状态-动作储能Q-Value网络
Figure 731191DEST_PATH_IMAGE101
对应的储能策略神经网络:
Figure 21358DEST_PATH_IMAGE148
Figure 963906DEST_PATH_IMAGE015
对应的参数为
Figure 838059DEST_PATH_IMAGE004
步骤3:设置近似状态储能Q-Value网络
Figure 258676DEST_PATH_IMAGE102
对应的储能状态价值神经网络:
Figure 668929DEST_PATH_IMAGE149
Figure 782379DEST_PATH_IMAGE018
对应的参数为
Figure 645292DEST_PATH_IMAGE011
S200:获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度Q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件
Figure 869600DEST_PATH_IMAGE150
时,结束训练,其中
Figure 868780DEST_PATH_IMAGE151
表示流形上的信赖域约束,
Figure 589349DEST_PATH_IMAGE003
表示利用网络参数
Figure 1876DEST_PATH_IMAGE004
参数化的控制策略
Figure 967558DEST_PATH_IMAGE005
Figure 149141DEST_PATH_IMAGE006
表示约束限值(图1中该条件未示出)。
本实施例中,对参数化深度Q值网络进行迭代训练的具体过程如下:
步骤1:假定园区有功的初始分布为标准正态分布
Figure 276497DEST_PATH_IMAGE091
,获取园区负荷历史有功值和预测值以及对应时刻储能功率出力
Figure 176320DEST_PATH_IMAGE092
步骤2:设置参数
Figure 680113DEST_PATH_IMAGE006
=0.9,步长最大回溯次数
Figure 418000DEST_PATH_IMAGE049
步骤3:初始化策略参数
Figure 778574DEST_PATH_IMAGE152
和储能Q-Value网络参数
Figure 103376DEST_PATH_IMAGE153
步骤4:令
Figure 473178DEST_PATH_IMAGE007
=0,1,2,…,依次执行如下步骤:
1)以
Figure 301456DEST_PATH_IMAGE092
为起始状态,以控制策略
Figure 98511DEST_PATH_IMAGE025
对储能
Figure 645030DEST_PATH_IMAGE026
次控制,得到轨迹
Figure 818522DEST_PATH_IMAGE154
,这里
Figure 283000DEST_PATH_IMAGE155
表示第
Figure 250956DEST_PATH_IMAGE031
个轨迹,
Figure 284771DEST_PATH_IMAGE156
为时刻
Figure 996375DEST_PATH_IMAGE014
的第
Figure 799246DEST_PATH_IMAGE031
个轨迹状态和动作向量,
Figure 875787DEST_PATH_IMAGE005
为储能策略网络的输出结果,
Figure 459215DEST_PATH_IMAGE028
为储能策略网络的参数,
Figure 145149DEST_PATH_IMAGE029
为第
Figure 130422DEST_PATH_IMAGE007
轮策略状态-动作轨迹;
2)对
Figure 377864DEST_PATH_IMAGE029
中每一步
Figure 448588DEST_PATH_IMAGE014
,记录其对应的的回报
Figure 439678DEST_PATH_IMAGE157
,这里
Figure 279458DEST_PATH_IMAGE157
为储能-负荷调控收益;
3) 对
Figure 697801DEST_PATH_IMAGE029
中每一步
Figure 426460DEST_PATH_IMAGE014
,利用动作-状态神经网络计算对应步的动作-状态价值函数
Figure 283558DEST_PATH_IMAGE015
4)对
Figure 915528DEST_PATH_IMAGE029
中每一步
Figure 567089DEST_PATH_IMAGE014
,利用储能Q-Value网络计算对应步的储能Q-Value网络
Figure 550088DEST_PATH_IMAGE035
,其中
Figure 945297DEST_PATH_IMAGE036
是储能Q-Value网络的参数;
5)对
Figure 431774DEST_PATH_IMAGE029
中每一步
Figure 519815DEST_PATH_IMAGE014
,计算优势函数
Figure 223067DEST_PATH_IMAGE037
Figure 421967DEST_PATH_IMAGE038
6)估计策略梯度
Figure 762950DEST_PATH_IMAGE158
这里
Figure 21893DEST_PATH_IMAGE039
为策略梯度,
Figure 713905DEST_PATH_IMAGE041
表示负荷和储能的总控制轮数;
Figure 450917DEST_PATH_IMAGE042
表示储能策略网络在
Figure 911985DEST_PATH_IMAGE028
处的梯度;
7)计算储能策略网络对
Figure 783907DEST_PATH_IMAGE004
的二阶偏导
Figure 759954DEST_PATH_IMAGE159
8)求解如下方程组:
Figure 238339DEST_PATH_IMAGE044
这里
Figure 881810DEST_PATH_IMAGE045
为辅助变量,无实际物理意义;
9)令迭代下标
Figure 154660DEST_PATH_IMAGE046
,依次更新储能策略网络参数:
Figure 883581DEST_PATH_IMAGE160
如果
Figure 900079DEST_PATH_IMAGE047
能保证降低储能策略网络损失的时候,满足
Figure 834275DEST_PATH_IMAGE150
的条件,则更新储能策略网络参数过程结束;否则继续执行步骤9;
10)对储能Q-Value网络,以
Figure 340342DEST_PATH_IMAGE050
为标签,采用随机梯度下降算法更新参数:
Figure 494243DEST_PATH_IMAGE052
这里
Figure 376749DEST_PATH_IMAGE053
为储能Q-Value网络损失函数
Figure 666916DEST_PATH_IMAGE161
对网络参数
Figure 609464DEST_PATH_IMAGE036
的梯度,
Figure 985081DEST_PATH_IMAGE055
11)重复1)~10),直至储能Q-Value网络参数
Figure 405699DEST_PATH_IMAGE057
,储能策略网络参数
Figure 314486DEST_PATH_IMAGE056
,训练结束。
如图2所示,图2为信赖域-强化学习的参数更新过程,箭头所示方向为保证降低储能策略网络损失或随机梯度下降的方向,对应圆圈为参数在该次更新下的取值范围。在每次更新参数时,其更新的范围随着更新次数越来越小,从而在有限的次数内实现网络参数的更新。
图3和图4分别为储能策略神经网络和储能状态价值神经网络的示意图。其中,储能策略神经网络的输入包括负荷预测值、当前负荷以及当前储能充放电功率,经隐含层操作后,输出为未来储能充放电功率状态对应的概率;储能状态价值神经网络的输入包括负荷预测值、当前负荷以及当前储能充放电功率,经隐含层操作后,输出为未来储能充放电功率状态对应的Q值。
图5则给出了参数化深度Q值网络训练的流程简图。其中,训练过程基于对优势函数的更新,储能策略神经网络通过信赖域的方法实现参数更新,储能Q-Value网络则通过随机梯度下降的方法更新网络参数。
S300:获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度Q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
基于训练好的参数化深度Q值网络,本实施例实现优化调度的实时控制步骤如下:
步骤1:获取当前负荷有功值和储能出力
Figure 162357DEST_PATH_IMAGE012
步骤2:将
Figure 25271DEST_PATH_IMAGE012
输入储能策略网络;
步骤2:选择储能策略网络十个输出结果最大的值对应的策略
Figure 187262DEST_PATH_IMAGE162
步骤3:将
Figure 514338DEST_PATH_IMAGE162
下发至储能子站控制器。
本实施例提供了一种求解储能参与削峰填谷的优化调度方法,包括设置参数化的深度Q值网络,利用负荷历史数据以及对应时刻储能的功率出率对参数化的深度Q值网络进行训练,训练过程中利用信赖域优化模型对控制策略的更新次数做出限制,从而快速准确的获取最优策略,以便在当前条件下实现储能的优化调度控制。本发明利用信赖域-强化学习,在连续控制中,对策略更新的大小做出限制,每次更新的时候不大幅度地改变分布的形态,使收益满足调递增收敛性,能够在线修正优化结果,并且考虑到充放电约束,达到最优的削峰填谷控制功能。
以上是对本发明的一种求解储能参与削峰填谷的优化调度方法的一个实施例进行的详细介绍,以下将对本发明的一种求解储能参与削峰填谷的优化调度***的实施例进行详细的介绍。
本实施例提供了一种求解储能参与削峰填谷的优化调度***,包括:
设置单元,用于设置参数化深度Q值网络,参数化深度Q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略;
训练单元,用于获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度Q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件
Figure 736372DEST_PATH_IMAGE001
时,结束训练,其中
Figure 585117DEST_PATH_IMAGE002
表示流形上的信赖域约束,
Figure 285219DEST_PATH_IMAGE003
表示利用网络参数
Figure 404485DEST_PATH_IMAGE004
参数化的控制策略
Figure 859737DEST_PATH_IMAGE005
Figure 697243DEST_PATH_IMAGE006
表示约束限值;
控制单元,用于获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度Q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
其中,参数化深度Q值网络具体包括:储能策略神经网络和储能状态价值神经网络;
储能策略神经网络是根据近似状态-动作储能Q-Value网络
Figure 263354DEST_PATH_IMAGE009
设置而成的,对应的网络参数为
Figure 729802DEST_PATH_IMAGE004
所述储能状态价值神经网络是根据近似状态储能Q-Value网络
Figure 293638DEST_PATH_IMAGE010
设置而成的,对应的网络参数为
Figure 680757DEST_PATH_IMAGE011
其中,
Figure 722663DEST_PATH_IMAGE012
表示状态,
Figure 878838DEST_PATH_IMAGE013
表示动作,
Figure 613575DEST_PATH_IMAGE014
表示时刻,
Figure 222411DEST_PATH_IMAGE005
表示储能控制策略,
Figure 832122DEST_PATH_IMAGE015
表示状态
Figure 780486DEST_PATH_IMAGE016
下,当采取动作
Figure 748442DEST_PATH_IMAGE017
时对应的价值,
Figure 782257DEST_PATH_IMAGE018
表示状态
Figure 228282DEST_PATH_IMAGE016
下,对所有可能的动作
Figure 296732DEST_PATH_IMAGE013
而言的期望价值,
Figure 435590DEST_PATH_IMAGE019
表示回报,
Figure 455236DEST_PATH_IMAGE020
表示折扣因子。
另外,信赖域优化模型具体为:
Figure 642635DEST_PATH_IMAGE021
式中,
Figure 627908DEST_PATH_IMAGE022
表示更新前的控制策略,
Figure 875350DEST_PATH_IMAGE003
表示按网络参数
Figure 946074DEST_PATH_IMAGE004
更新后的控制策略,
Figure 937164DEST_PATH_IMAGE023
表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,
Figure 776944DEST_PATH_IMAGE024
表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件。
进一步地,训练单元对参数化深度Q值网络进行迭代训练并更新网络参数的过程具体包括:
以所述初始状态为起始状态,以控制策略
Figure 693822DEST_PATH_IMAGE025
对储能进行
Figure 923946DEST_PATH_IMAGE026
次控制,得到策略状态-动作轨迹
Figure 781044DEST_PATH_IMAGE027
,其中
Figure 413014DEST_PATH_IMAGE005
为所述储能策略神经网络的输出结果,
Figure 64575DEST_PATH_IMAGE028
为储能策略网络的参数,
Figure 47574DEST_PATH_IMAGE029
为第
Figure 442784DEST_PATH_IMAGE007
轮策略状态-动作轨迹,
Figure 433654DEST_PATH_IMAGE030
为第
Figure 459379DEST_PATH_IMAGE031
个轨迹且
Figure 726412DEST_PATH_IMAGE032
Figure 597416DEST_PATH_IMAGE033
为时刻
Figure 266295DEST_PATH_IMAGE014
的第
Figure 462921DEST_PATH_IMAGE031
个轨迹状态和动作向量;
对于
Figure 951671DEST_PATH_IMAGE029
中每一步
Figure 390481DEST_PATH_IMAGE014
,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数
Figure 913866DEST_PATH_IMAGE034
以及利用所述储能状态价值神经网络计算对应步的状态价值函数
Figure 15814DEST_PATH_IMAGE035
,其中
Figure 257440DEST_PATH_IMAGE036
是所述储能状态价值神经网络的参数;
对于
Figure 735826DEST_PATH_IMAGE029
中每一步
Figure 113717DEST_PATH_IMAGE014
,基于所述动作-状态价值函数和所述状态价值函数计算优势函数
Figure 652146DEST_PATH_IMAGE037
Figure 551707DEST_PATH_IMAGE038
基于所述优势函数估计策略梯度
Figure 896100DEST_PATH_IMAGE039
Figure 331761DEST_PATH_IMAGE040
,其中,
Figure 837829DEST_PATH_IMAGE041
表示负荷和储能的总控制轮数;
Figure 991729DEST_PATH_IMAGE042
表示所述储能策略神经网络在
Figure 811918DEST_PATH_IMAGE028
处的梯度;
基于所述策略梯度计算所述储能策略神经网络对
Figure 164402DEST_PATH_IMAGE028
的二阶偏导
Figure 277589DEST_PATH_IMAGE043
Figure 715524DEST_PATH_IMAGE044
,其中
Figure 339403DEST_PATH_IMAGE045
为辅助变量,无实际物理意义;
令迭代下标
Figure 484076DEST_PATH_IMAGE046
,依次更新所述储能策略神经网络的网络参数为
Figure 597526DEST_PATH_IMAGE047
Figure 460440DEST_PATH_IMAGE048
,其中
Figure 684748DEST_PATH_IMAGE049
表示所述储能策略神经网络步长的最大回溯次数;
对所述储能状态价值神经网络,以
Figure 465620DEST_PATH_IMAGE050
为标签,采用随机梯度下降算法更新参数为
Figure 749971DEST_PATH_IMAGE051
Figure 834602DEST_PATH_IMAGE052
,其中
Figure 800284DEST_PATH_IMAGE053
为所述储能状态价值神经网络损失函数
Figure 981866DEST_PATH_IMAGE054
对网络参数
Figure 374802DEST_PATH_IMAGE036
的梯度,
Figure 274624DEST_PATH_IMAGE055
重复进行上述步骤,直至满足条件
Figure 276953DEST_PATH_IMAGE056
以及
Figure 250725DEST_PATH_IMAGE057
时,结束训练。
进一步地,本实施例的最小化负荷曲线的方差的表达式具体如下:
Figure 876879DEST_PATH_IMAGE058
式中,
Figure 936102DEST_PATH_IMAGE059
为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第
Figure 305903DEST_PATH_IMAGE060
Figure 399761DEST_PATH_IMAGE061
)个负荷数据;
Figure 196816DEST_PATH_IMAGE062
为时刻
Figure 241870DEST_PATH_IMAGE031
的负荷,为已知量,且
Figure 149783DEST_PATH_IMAGE063
时为实际负荷,
Figure 98148DEST_PATH_IMAGE064
时为预测负荷;
Figure 66104DEST_PATH_IMAGE065
为时刻
Figure 99919DEST_PATH_IMAGE031
到时刻
Figure 749206DEST_PATH_IMAGE066
之间BES的输出功率,电池充电为正,放电为负,且
Figure 879973DEST_PATH_IMAGE067
时为已知量,
Figure 455048DEST_PATH_IMAGE068
时为控制变量。
需要说明的是,本实施例提供的一种求解储能参与削峰填谷的优化调度***用于实现前述实施例提供的优化调度方法,各单元的具体设置均以完整实现该方法为准,在此不再赘述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种求解储能参与削峰填谷的优化调度方法,其特征在于,包括如下步骤:
设置参数化深度Q值网络,所述参数化深度Q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略,所述参数化深度Q值网络具体包括:储能策略神经网络和储能状态价值神经网络;
所述储能策略神经网络是根据近似状态-动作储能Q-Value网络
Figure 167707DEST_PATH_IMAGE001
设置而成的,对应的网络参数为
Figure 603122DEST_PATH_IMAGE002
所述储能状态价值神经网络是根据近似状态储能Q-Value网络
Figure 427859DEST_PATH_IMAGE003
设置而成的,对应的网络参数为
Figure 671758DEST_PATH_IMAGE004
其中,
Figure 251644DEST_PATH_IMAGE005
表示状态,
Figure 213784DEST_PATH_IMAGE006
表示动作,
Figure 842211DEST_PATH_IMAGE007
表示时刻,
Figure 940617DEST_PATH_IMAGE008
表示储能控制策略,
Figure 629088DEST_PATH_IMAGE009
表示状态
Figure 78523DEST_PATH_IMAGE010
下,当采取动作
Figure 245063DEST_PATH_IMAGE011
时对应的价值,
Figure 463554DEST_PATH_IMAGE012
表示状态
Figure 447560DEST_PATH_IMAGE010
下,对所有可能的动作
Figure 181029DEST_PATH_IMAGE006
而言的期望价值,
Figure 416839DEST_PATH_IMAGE013
表示回报,
Figure 489837DEST_PATH_IMAGE014
表示折扣因子;
获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对所述参数化深度Q值网络进行迭代训练并更新所述网络参数,利用信赖域优化模型对所述网络参数的更新次数进行控制,满足条件
Figure 520110DEST_PATH_IMAGE015
时,结束训练,其中
Figure 678559DEST_PATH_IMAGE016
表示流形上的信赖域约束,
Figure 124583DEST_PATH_IMAGE017
表示利用网络参数
Figure 317667DEST_PATH_IMAGE002
参数化的控制策略
Figure 518842DEST_PATH_IMAGE008
Figure 164587DEST_PATH_IMAGE018
表示约束限值,
Figure 414302DEST_PATH_IMAGE019
Figure 461893DEST_PATH_IMAGE020
表示网络参数
Figure 833968DEST_PATH_IMAGE002
的更新次数,所述信赖域优化模型具体为:
Figure 967009DEST_PATH_IMAGE021
式中,
Figure 82733DEST_PATH_IMAGE022
表示更新前的控制策略,
Figure 922513DEST_PATH_IMAGE017
表示按网络参数
Figure 465490DEST_PATH_IMAGE002
更新后的控制策略,
Figure 820248DEST_PATH_IMAGE023
表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,
Figure 739662DEST_PATH_IMAGE024
表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件;对所述参数化深度Q值网络进行迭代训练并更新所述网络参数,利用信赖域优化模型对所述网络参数的更新次数进行控制,满足条件
Figure 433949DEST_PATH_IMAGE025
时,结束训练,具体包括:
以所述初始状态为起始状态,以控制策略
Figure 147827DEST_PATH_IMAGE026
对储能进行
Figure 255460DEST_PATH_IMAGE027
次控制,得到策略状态-动作轨迹
Figure 775303DEST_PATH_IMAGE028
,其中
Figure 386413DEST_PATH_IMAGE008
为所述储能策略神经网络的输出结果,
Figure 474455DEST_PATH_IMAGE029
为储能策略网络的参数,
Figure 803805DEST_PATH_IMAGE030
为第
Figure 799443DEST_PATH_IMAGE019
轮策略状态-动作轨迹,
Figure 530638DEST_PATH_IMAGE031
为第
Figure 851898DEST_PATH_IMAGE032
个轨迹且
Figure 402965DEST_PATH_IMAGE033
Figure 467873DEST_PATH_IMAGE034
为时刻
Figure 991259DEST_PATH_IMAGE007
的第
Figure 217841DEST_PATH_IMAGE032
个轨迹状态和动作向量;
对于
Figure 521783DEST_PATH_IMAGE030
中每一步
Figure 124803DEST_PATH_IMAGE007
,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数
Figure 565011DEST_PATH_IMAGE035
以及利用所述储能状态价值神经网络计算对应步的状态价值函数
Figure 228074DEST_PATH_IMAGE036
,其中
Figure 691416DEST_PATH_IMAGE037
是所述储能状态价值神经网络的参数;
对于
Figure 98127DEST_PATH_IMAGE030
中每一步
Figure 658421DEST_PATH_IMAGE007
,基于所述动作-状态价值函数和所述状态价值函数计算优势函数
Figure 226806DEST_PATH_IMAGE038
Figure 505340DEST_PATH_IMAGE039
基于所述优势函数估计策略梯度
Figure 387846DEST_PATH_IMAGE040
Figure 802646DEST_PATH_IMAGE041
,其中,
Figure 541932DEST_PATH_IMAGE042
表示负荷和储能的总控制轮数;
Figure 42184DEST_PATH_IMAGE043
表示所述储能策略神经网络在
Figure 728380DEST_PATH_IMAGE029
处的梯度;
基于所述策略梯度计算所述储能策略神经网络对
Figure 997687DEST_PATH_IMAGE029
的二阶偏导
Figure 173454DEST_PATH_IMAGE044
Figure 161001DEST_PATH_IMAGE045
,其中
Figure 509943DEST_PATH_IMAGE046
为辅助变量,无实际物理意义;
令迭代下标
Figure 961653DEST_PATH_IMAGE047
,依次更新所述储能策略神经网络的网络参数为
Figure 394075DEST_PATH_IMAGE048
Figure 603339DEST_PATH_IMAGE049
,其中
Figure 693655DEST_PATH_IMAGE050
表示所述储能策略神经网络步长的最大回溯次数;
对所述储能状态价值神经网络,以
Figure 937555DEST_PATH_IMAGE051
为标签,采用随机梯度下降算法更新参数为
Figure 455124DEST_PATH_IMAGE052
Figure 417264DEST_PATH_IMAGE053
,其中
Figure 45691DEST_PATH_IMAGE054
为所述储能状态价值神经网络损失函数
Figure 144097DEST_PATH_IMAGE055
对网络参数
Figure 770250DEST_PATH_IMAGE037
的梯度,
Figure 954107DEST_PATH_IMAGE056
重复进行上述步骤,直至满足条件
Figure 386225DEST_PATH_IMAGE057
以及
Figure 604717DEST_PATH_IMAGE058
时,结束训练;
获取当前负荷有功值和储能功率出力并输入至训练好的所述参数化深度Q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
2.根据权利要求1所述的求解储能参与削峰填谷的优化调度方法,其特征在于,所述最小化负荷曲线的方差的表达式具体如下:
Figure 464089DEST_PATH_IMAGE059
式中,
Figure 135242DEST_PATH_IMAGE060
为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第
Figure 43155DEST_PATH_IMAGE061
Figure 116153DEST_PATH_IMAGE062
)个负荷数据;
Figure 146426DEST_PATH_IMAGE063
为时刻
Figure 304875DEST_PATH_IMAGE032
的负荷,为已知量,且
Figure 78796DEST_PATH_IMAGE064
时为实际负荷,
Figure 271880DEST_PATH_IMAGE065
时为预测负荷;
Figure 473054DEST_PATH_IMAGE066
为时刻
Figure 853220DEST_PATH_IMAGE032
到时刻
Figure 430831DEST_PATH_IMAGE067
之间BES的输出功率,电池充电为正,放电为负,且
Figure 478422DEST_PATH_IMAGE068
时为已知量,
Figure 850497DEST_PATH_IMAGE069
时为控制变量。
3.一种求解储能参与削峰填谷的优化调度***,其特征在于,包括:
设置单元,用于设置参数化深度Q值网络,所述参数化深度Q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略,所述参数化深度Q值网络具体包括:储能策略神经网络和储能状态价值神经网络;
所述储能策略神经网络是根据近似状态-动作储能Q-Value网络
Figure 780276DEST_PATH_IMAGE070
设置而成的,对应的网络参数为
Figure 896000DEST_PATH_IMAGE002
所述储能状态价值神经网络是根据近似状态储能Q-Value网络
Figure 798097DEST_PATH_IMAGE071
设置而成的,对应的网络参数为
Figure 465707DEST_PATH_IMAGE004
其中,
Figure 86044DEST_PATH_IMAGE005
表示状态,
Figure 677563DEST_PATH_IMAGE006
表示动作,
Figure 699745DEST_PATH_IMAGE007
表示时刻,
Figure 413623DEST_PATH_IMAGE008
表示储能控制策略,
Figure 255678DEST_PATH_IMAGE072
表示状态
Figure 713204DEST_PATH_IMAGE010
下,当采取动作
Figure 589893DEST_PATH_IMAGE011
时对应的价值,
Figure 412355DEST_PATH_IMAGE012
表示状态
Figure 741705DEST_PATH_IMAGE010
下,对所有可能的动作
Figure 2923DEST_PATH_IMAGE006
而言的期望价值,
Figure 734118DEST_PATH_IMAGE013
表示回报,
Figure 727482DEST_PATH_IMAGE014
表示折扣因子;
训练单元,用于获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对所述参数化深度Q值网络进行迭代训练并更新所述网络参数,利用信赖域优化模型对所述网络参数的更新次数进行控制,满足条件
Figure 544128DEST_PATH_IMAGE073
时,结束训练,其中
Figure 609036DEST_PATH_IMAGE074
表示流形上的信赖域约束,
Figure 194738DEST_PATH_IMAGE017
表示利用网络参数
Figure 421320DEST_PATH_IMAGE002
参数化的控制策略
Figure 725263DEST_PATH_IMAGE008
Figure 328282DEST_PATH_IMAGE018
表示约束限值,
Figure 768491DEST_PATH_IMAGE019
Figure 369237DEST_PATH_IMAGE020
表示网络参数
Figure 894896DEST_PATH_IMAGE002
的更新次数,所述信赖域优化模型具体为:
Figure 301606DEST_PATH_IMAGE075
式中,
Figure 596322DEST_PATH_IMAGE022
表示更新前的控制策略,
Figure 367968DEST_PATH_IMAGE017
表示按网络参数
Figure 380924DEST_PATH_IMAGE002
更新后的控制策略,
Figure 325746DEST_PATH_IMAGE023
表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,
Figure 678230DEST_PATH_IMAGE024
表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件;所述训练单元对所述参数化深度Q值网络进行迭代训练并更新所述网络参数的过程具体包括:
以所述初始状态为起始状态,以控制策略
Figure 683095DEST_PATH_IMAGE026
对储能进行
Figure 183347DEST_PATH_IMAGE027
次控制,得到策略状态-动作轨迹
Figure 869543DEST_PATH_IMAGE028
,其中
Figure 138850DEST_PATH_IMAGE008
为所述储能策略神经网络的输出结果,
Figure 314617DEST_PATH_IMAGE029
为储能策略网络的参数,
Figure 302164DEST_PATH_IMAGE030
为第
Figure 526472DEST_PATH_IMAGE019
轮策略状态-动作轨迹,
Figure 915865DEST_PATH_IMAGE031
为第
Figure 996954DEST_PATH_IMAGE032
个轨迹且
Figure 471797DEST_PATH_IMAGE076
Figure 562113DEST_PATH_IMAGE077
为时刻
Figure 806013DEST_PATH_IMAGE007
的第
Figure 261265DEST_PATH_IMAGE032
个轨迹状态和动作向量;
对于
Figure 957825DEST_PATH_IMAGE030
中每一步
Figure 586253DEST_PATH_IMAGE007
,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数
Figure 950238DEST_PATH_IMAGE035
以及利用所述储能状态价值神经网络计算对应步的状态价值函数
Figure 576391DEST_PATH_IMAGE036
,其中
Figure 783686DEST_PATH_IMAGE037
是所述储能状态价值神经网络的参数;
对于
Figure 215804DEST_PATH_IMAGE030
中每一步
Figure 434296DEST_PATH_IMAGE007
,基于所述动作-状态价值函数和所述状态价值函数计算优势函数
Figure 231350DEST_PATH_IMAGE038
Figure 902503DEST_PATH_IMAGE039
基于所述优势函数估计策略梯度
Figure 872733DEST_PATH_IMAGE040
Figure 945731DEST_PATH_IMAGE078
,其中,
Figure 976004DEST_PATH_IMAGE042
表示负荷和储能的总控制轮数;
Figure 134453DEST_PATH_IMAGE043
表示所述储能策略神经网络在
Figure 846057DEST_PATH_IMAGE029
处的梯度;
基于所述策略梯度计算所述储能策略神经网络对
Figure 773562DEST_PATH_IMAGE029
的二阶偏导
Figure 974736DEST_PATH_IMAGE044
Figure 558164DEST_PATH_IMAGE045
,其中
Figure 135776DEST_PATH_IMAGE046
为辅助变量,无实际物理意义;
令迭代下标
Figure 917787DEST_PATH_IMAGE047
,依次更新所述储能策略神经网络的网络参数为
Figure 289863DEST_PATH_IMAGE048
Figure 360587DEST_PATH_IMAGE079
,其中
Figure 476310DEST_PATH_IMAGE050
表示所述储能策略神经网络步长的最大回溯次数;
对所述储能状态价值神经网络,以
Figure 378407DEST_PATH_IMAGE051
为标签,采用随机梯度下降算法更新参数为
Figure 921384DEST_PATH_IMAGE052
Figure 479405DEST_PATH_IMAGE053
,其中
Figure 133240DEST_PATH_IMAGE054
为所述储能状态价值神经网络损失函数
Figure 952160DEST_PATH_IMAGE055
对网络参数
Figure 869300DEST_PATH_IMAGE037
的梯度,
Figure 711355DEST_PATH_IMAGE056
重复进行上述步骤,直至满足条件
Figure 168881DEST_PATH_IMAGE057
以及
Figure 45570DEST_PATH_IMAGE058
时,结束训练;
控制单元,用于获取当前负荷有功值和储能功率出力并输入至训练好的所述参数化深度Q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
4.根据权利要求3所述的求解储能参与削峰填谷的优化调度***,其特征在于,所述最小化负荷曲线的方差的表达式具体如下:
Figure 930349DEST_PATH_IMAGE080
式中,
Figure 259699DEST_PATH_IMAGE060
为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第
Figure 458600DEST_PATH_IMAGE061
Figure 189795DEST_PATH_IMAGE062
)个负荷数据;
Figure 245476DEST_PATH_IMAGE063
为时刻
Figure 62122DEST_PATH_IMAGE032
的负荷,为已知量,且
Figure 861451DEST_PATH_IMAGE064
时为实际负荷,
Figure 384836DEST_PATH_IMAGE065
时为预测负荷;
Figure 876997DEST_PATH_IMAGE066
为时刻
Figure 180940DEST_PATH_IMAGE032
到时刻
Figure 518380DEST_PATH_IMAGE067
之间BES的输出功率,电池充电为正,放电为负,且
Figure 161851DEST_PATH_IMAGE068
时为已知量,
Figure 559334DEST_PATH_IMAGE069
时为控制变量。
CN202210916196.3A 2022-08-01 2022-08-01 一种求解储能参与削峰填谷的优化调度方法和*** Active CN115001002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210916196.3A CN115001002B (zh) 2022-08-01 2022-08-01 一种求解储能参与削峰填谷的优化调度方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210916196.3A CN115001002B (zh) 2022-08-01 2022-08-01 一种求解储能参与削峰填谷的优化调度方法和***

Publications (2)

Publication Number Publication Date
CN115001002A CN115001002A (zh) 2022-09-02
CN115001002B true CN115001002B (zh) 2022-12-30

Family

ID=83021019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210916196.3A Active CN115001002B (zh) 2022-08-01 2022-08-01 一种求解储能参与削峰填谷的优化调度方法和***

Country Status (1)

Country Link
CN (1) CN115001002B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116826816B (zh) * 2023-08-30 2023-11-10 湖南大学 考虑电能质量分级治理的储能有功-无功协调复用方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN113242469A (zh) * 2021-04-21 2021-08-10 南京大学 一种自适应视频传输配置方法和***
CN113572157A (zh) * 2021-07-27 2021-10-29 东南大学 一种基于近端策略优化的用户实时自治能量管理优化方法
CN114630299A (zh) * 2022-03-08 2022-06-14 南京理工大学 一种基于深度强化学习的信息年龄可感知资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220164657A1 (en) * 2020-11-25 2022-05-26 Chevron U.S.A. Inc. Deep reinforcement learning for field development planning optimization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN113242469A (zh) * 2021-04-21 2021-08-10 南京大学 一种自适应视频传输配置方法和***
CN113572157A (zh) * 2021-07-27 2021-10-29 东南大学 一种基于近端策略优化的用户实时自治能量管理优化方法
CN114630299A (zh) * 2022-03-08 2022-06-14 南京理工大学 一种基于深度强化学习的信息年龄可感知资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
应对新能源预测偏差不确定性的电力***动态经济调度研究;吕晓茜;《中国优秀硕士学位论文全文数据库-工程科技II辑》;20220228;29-30 *

Also Published As

Publication number Publication date
CN115001002A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及***
CN110059844B (zh) 基于集合经验模态分解和lstm的储能装置控制方法
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
Jasmin et al. Reinforcement learning approaches to economic dispatch problem
Zhou et al. Reinforcement learning-based scheduling strategy for energy storage in microgrid
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、***及装置
CN117277357B (zh) 采用液流电池的新型火电储能调频方法、***及电子设备
CN111367349A (zh) 一种基于预测模型的光伏mppt控制方法及***
CN112213945B (zh) 电动汽车参与微网群调频的改进鲁棒预测控制方法和***
CN114784823A (zh) 基于深度确定性策略梯度的微电网频率控制方法及***
CN115001002B (zh) 一种求解储能参与削峰填谷的优化调度方法和***
CN116629461B (zh) 一种主动配电网分布式优化方法、***、设备及存储介质
CN115986839A (zh) 一种风-水-火综合能源***的智能调度方法及***
CN111313449A (zh) 一种基于机器学习的集群电动汽车功率优化管理方法
Harrold et al. Battery control in a smart energy network using double dueling deep q-networks
CN114123256B (zh) 一种适应随机优化决策的分布式储能配置方法及***
CN111516702B (zh) 一种混合动力车辆在线实时分层能量管理方法和***
CN116865343B (zh) 分布式光伏配电网的无模型自适应控制方法、装置及介质
CN111799820B (zh) 一种电力***双层智能混合零星云储能对抗调控方法
CN116436003B (zh) 主动配电网风险约束备用优化方法、***、介质及设备
CN114048576B (zh) 一种稳定电网输电断面潮流的储能***智能化控制方法
CN114298429A (zh) 一种配电网动案辅助决策方法、***、装置和存储介质
CN115544856A (zh) 一种电热综合能源***日前优化调度方法
Bizjak et al. Time series prediction for EMS with machine learning
CN113298329A (zh) 训练、策略生成方法、***、计算机装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant