CN117154845A - 一种基于生成式决策模型的电网运行调整方法 - Google Patents

一种基于生成式决策模型的电网运行调整方法 Download PDF

Info

Publication number
CN117154845A
CN117154845A CN202311103915.0A CN202311103915A CN117154845A CN 117154845 A CN117154845 A CN 117154845A CN 202311103915 A CN202311103915 A CN 202311103915A CN 117154845 A CN117154845 A CN 117154845A
Authority
CN
China
Prior art keywords
model
power grid
strategy
decision
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311103915.0A
Other languages
English (en)
Inventor
周号益
朱天晨
仇越
孙庆赟
姜春阳
李建欣
胡春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202311103915.0A priority Critical patent/CN117154845A/zh
Publication of CN117154845A publication Critical patent/CN117154845A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/04Power grid distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Power Engineering (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Geometry (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明实现了一种基于生成式决策模型的电网运行调整方法。选取Transformer模型作为因果自注意力机制的决策模型,基于因果自注意力机制构建电网智能决策方法框架,采用构建电网调度模型,设计奖励分配模型和策略模型两个部分,输出当前时刻的动作实现实时生成电网***的调度策略;构建电网仿真环境模块模拟电网的实际运行情况;在此基础上,通过双层优化算法对策略网络和奖励分配网络进行高效交替的更新优化。最终实现通过输入来自电网环境的状态和奖励反馈,高效实时生成电网***的功率调整和拓扑调整方案,辅助人类专家进行调度决策,实现电网***的安全稳定运行,降低调度决策成本和能源损耗。

Description

一种基于生成式决策模型的电网运行调整方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于生成式决策模型的电网运行调整方法。
背景技术
电网是一个将电力从生产端(发电站)输送到消费端(楼房、工厂等)的互连***。电网***的稳定运行是一个动态平衡的过程,在这个过程中存在频繁、剧烈且难以预测的供需变化以及极端天气、设备故障等异常事件,需要介入外部手段进行调控,以避免电力***的失衡造成停电事件引发甚至安全事故,对社会经济和公共安全造成严重影响。
传统的电力***调度方法主要包括基于专家经验的人工调控方法,以及基于数学模型的建立和求解方法。然而随着以电网规模扩大和能源结构转变为特点的新型电力***的兴起和不断发展,电网***的运行调度任务呈现出决策维度扩展,决策难度升级的特点,基于专家经验驱动和数学模型驱动的传统方法由于专业知识有限、可扩展性差、动态优化困难等问题而受到限制,不适用于复杂的新型电力***调度决策场景。
基于数据驱动的智能电网调度方法随着大数据和人工智能技术的发展而逐步兴起,为电网运行决策提供新范式,是信息时代背景下完成电力***数智化转型的一块重要拼图。强化学***决策,随着大数据和人工智能技术的发展,强化学习与深度学习技术融合在围棋、电子游戏和机器人控制等复杂连续的决策任务中展现出超过人类专家的强大能力。因此,强化学习相关技术将是今后数据驱动电网***调度决策的主流方法。
现有的基于强化学习的电网***调度方法主要可以分为基于专家示例的行为克隆方法和奖励驱动的在线强化学习方法。前者通过智能体模仿高质量的专家电网***决策调度示例来学习调度策略。然而该方法忽略了专家示例中存在的不谬误会对智能体的学习产生误导,同时专家示例无法保证全面性,因为实际调度任务往往存在专家示例没有涉及的情况,而对专家策略的盲目克隆无法保证智能体对于未知情况的可迁移性。后者则通过智能体与电网仿真环境交互,以不断探索与试错的方式从环境的奖励反馈中来学习电网调度策略。然而该方法高度依赖来自电网环境的密集的奖励信号反馈,然而对于高度复杂的新型电力***,调度决策产生的影响往往存在“滞后性”和“非及时性”,从而导致奖励信号的延迟性和稀疏性,进而造成智能体学习效率低下,甚至在策略和调度目标之间建立错误的关联。例如一次调度失误造成的严重影响,可能需要经过多轮仿真后导致潮流不收敛或是大规模断线停电才会被暴露。
综上所述,目前需要设计电网调度***的新方法,以解决专家示例的谬误性、非全面性问题以及电网环境奖励信号反馈的延迟性、稀疏性问题。
Decision Transformer以GPT-2(Transformer类模型的一种)模型作为决策网络,通过注意力机制建立环境状态、调度策略和奖励反馈序列之间的深层关联,这种基于序列建模的新型强化学习建模方式为解决新型电网调度的***任务提供了新的思路。
大多基于手工特征或者传统机器学习的方法,在准确度上有很大的提升空间。
现有的基于强化学习的电网***调度决策方法存在许多缺陷和不足。
第一,许多在线强化学习方法都依赖智能体与电网***频繁的交互以进行试错式学习,这种方式通常导致模型训练效率低下,且需要高昂成本和技术力搭建电网***仿真环境以支持模型的训练;
第二,由于新型电力***的不稳定性和电力需求的不可预测性,基于探索和交互的学习方式还会导致模型策略梯度的方差较大,进而导致学习曲线震荡,收敛缓慢,降低学习效率。
第三,强化学习方法通常高度依赖来自电网环境的密集的奖励信号反馈,然而对于高度复杂的新型电力***,调度决策产生的影响往往存在“滞后性”和“非及时性”,从而导致奖励信号的延迟性和稀疏性,进而造成智能体学习效率低下,甚至在策略和调度目标之间建立错误的关联。例如一次调度失误造成的严重影响,可能需要经过多轮仿真后导致潮流不收敛或是大规模断线停电才会被暴露。
发明内容
为此,本发明首先提出一种基于生成式决策模型的电网运行调整方法,选取Transformer模型作为因果自注意力机制的决策模型,基于因果自注意力机制构建电网智能决策方法框架,采用构建电网调度模型,设计奖励分配模型和策略模型两个部分,借助奖励分配网络对奖励信号进行自适应重分配,策略模型接收奖励修正后的序列作为输入,并输出当前时刻的动作At,实现实时生成电网***的调度策略;具体而言,所述电网在线调度策略包括功率调度策略和拓扑调度策略,其中功率调度策略主要包括对***中的火电、新能源等发电机组的功率的调节、对储能设备充放能功率的调节以及对可调负载功率的调节,拓扑调度策略则主要包括电网***中各线路的断开和连接的决策,以及变电站中各支线与母线的连接的决策;构建电网仿真环境模块模拟电网的实际运行情况,接收动作At作为功率和拓扑的调整调度策略,并考虑电力需求变化和环境随机因素的影响,根据底层潮流收敛原理仿真计算得到下一步状态St+1以及电网环境的奖励rt+1,如此往复进行直到电网调度任务的结束;在此基础上,通过双层优化算法对策略网络和奖励分配网络进行高效交替的更新优化。
所述奖励分配模型输入为某一时刻电网环境的状态St和动作At,输出为模型该状态下采取该策略所分配的奖励ft。通过输入历史多步状态序列(St-L,......,St-2,St-1)和动作序列(At-L,......,At-2,At-1)得到该序列下的重构奖励分配方案(ft-L,......,ft-2,ft-1),并由此计算新的目标奖励经过奖励分配网络修正后的序列作为Transformer策略模型的输入序列。
所述策略模型接收经过奖励分配网络后的奖励修正序列并借助自注意力机制构建的电网调度策略与电网状态、目标奖励之间的内在联系推理出下一步合理的电网调度调整方案At,其具体实现方式为:
(3)计算嵌入向量:首先模型将输入序列映射为嵌入空间下的电网信息序列X,由此在经过映射后的嵌入空间下来统一表示电网***的状态、动作和奖励信息,以及计算它们之间的联系:X=(x1,x2,......),xk=Ex(I),/>
(4)计算注意力:Transformer策略网络采用GPT-2模型结构,其通过将多个Decoder结构堆叠,形成多层结构,其中每一个Decoder由带掩码的多头自注意力层、前馈神经网络组成,且每层的输出都进行残差连接和层归一化处理,其注意力原理如下所示,其中Q、K、V分别为电网信息序列X的query、key、vector子向量,WQ、WK、Wv则分别为生层三个子向量的线性变换矩阵,M为掩码矩阵,其作用是计算电网信息序列注意力权重时掩盖掉未来的信息,从而实现“因果”机制,dk为key子向量的维度,其作用是对注意力权重进行标准化处理:
Q=XWQ
K=XWK
y=XWV
同时采用多头机制,通过多个注意力头来计算多个注意力的方式,不同的注意力头从不同的特征和角度建模电网信息序列之间的关联,如时域空间和频域空间的关联等,从而更好地捕捉电网信息中的细节和复杂性。
所述双层优化算法的具体实现方式为:
对于模型的训练,采样电网实际运行调度场景中的状态Sreal、奖励rreal和动作Areal组成的数据示例对模型进行离线训练,并计算策略模型输出的动作预测值Apred和数据实例中的动作真实值Areal之间的误差作为策略模型的损失函数:
之后将数据集按照一定比例分为训练集和验证集,并如下修正策略模型和奖励分配模型的损失函数:
其中,和/>分别为策略模型在验证集和测试集上的误差,φ和θ分别为策略模型和奖励分配模型的参数,Γ为决策序列的总长度,λ为正则项的权重因子,为提高模型的训练效率,通过如下方法对外层优化目标进行近似替代:
(1)通过一步梯度近似对外层优化目标进行近似替代:
(2)通过链式求导法则对一阶梯度进行展开:
(3)通过泰勒展开对一阶梯度和二阶梯度的向量积进一步替换:
本发明所要实现的技术效果在于:
通过输入来自电网环境的状态和奖励反馈,高效实时生成电网***的功率调整和拓扑调整方案,辅助人类专家进行调度决策,实现电网***的安全稳定运行,降低调度决策成本和能源损耗。
具体而言具有如下优点:
1.以基于因果自注意力的Transformer模型作为决策网络,建立电网环境状态、调度策略和奖励反馈之间的深层关联和长序列依赖,从而克服新型电力***的不稳定性和电力需求波动性等非稳态挑战。
2.基于离线数据驱动模型训练,避免了在线训练过程对电网环境交互的高度依赖,以更高效稳定的方式探索电网***的调度策略。
3.通过奖励分配网络对电网***延迟滞后的奖励信号进行自适应重分配,以更合理的奖励分布重构电网环境延迟稀疏的奖励反馈,辅助策略模型学习和决策,优化策略模型的学习效率。
4.通过设计双层优化算法对调度策略问题和奖励分配问题进行解耦,以保证策略模型和奖励分配模型训练的高效性。
附图说明
图1基于因果自注意力模型的电网智能决策方法框架;
图2奖励分配网络;
图3Transformer策略网络结构;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种基于生成式决策模型的电网运行调整方法。基于因果自注意力机制构建策略模型,并借助奖励分配网络对奖励信号进行自适应重分配。在此基础上,通过双层优化算法对策略网络和奖励分配网络进行高效交替的更新优化。
选取Transformer模型作为我们因果自注意力机制的决策模型。Transformer模型是一种基于注意力机制的神经网络模型,其通过多头自注意力机制来学习输入序列中不同位置之间的关系,从而实现对序列的建模和预测。Transformer模型最初由用于机器翻译等自然语言处理任务,随后在计算机视觉、语音识别等领域也取得了显著的成果。Tmasformer模型因为其基于自注意力的序列建模机制,对于长决策序列处理具有天然优势,因而在长时空依赖的连续电网***调度决策任务中具有极大潜力。
基于因果自注意力模型的电网智能决策方法框架
本发明采用的框架如图1所示,其包括电网调度模型和电网仿真环境两大模块,前者负责实时生成电网***的调度策略,而后者则模拟电网的实际运行情况,根据调度策略和随机事件实时进行仿真计算。电网调度模型和电网仿真环境的相互作用主要围绕状态、动作和奖励三个概念展开。
(1)状态:在电力***调度任务中,状态定义为S=(X,T),其中其中X为属性状态,表示电网***中发电机、负载、储能以及网线等各元件的有功功率P,无功功率Q,电压V等各项属性,还包括网线损耗、电机维修、停机故障等其他信;T表示电网***某一时刻的拓扑结构;
(2)动作:在电力***调度任务中,动作表示对电网***的一次定量的调度策略,其表示为A=(ΔP,ΔT),其中ΔP表示对电网***各单元功率的调整,ΔT表示对电网***拓扑结构的调整;
(3)奖励:在电网仿真环境中,我们基于电网***的运行状态,综合环保、经济、安全等多个方面,以奖励这种数值反馈的形式对调度策略进行综合性的实时评估。本***的奖励函数定义如下,其中ra到re分别代表线路越线惩罚、新能源消纳奖励、机组运行成本惩罚、平衡机组越限惩罚、无功功率越限惩罚以及结点电压越线惩罚,其中惩罚代表该项奖励为负值,而aa到ae代表各项奖励的权重系数。
r=aara+abrb+acrc+adrd+adrd+aere
在实际运行调度过程中,本模型通过与电网仿真环境连续交互来实现电网***的实时调度,并以(Rt,St,At)“奖励-状态-动作”三元组的形式保留当前及历史多步的信息序列,其中St、At分别代表t时刻的状态和动作,Rt=Rt-1-rt-1表示t时刻的目标奖励。任意t时刻,电网调度模型接收电网仿真环境在当前时刻的状态St以及电网环境的奖励rt,并将其并入历史多步信息序列中,新序列τt=(Rt-L,St-L,At-L,......,Rt-1,St-1,At-1,Rt,St)将作为电网调度模型t时刻的输入,其中L表示决策模型的历史多步列长度,Rt=Rt-1-rt-1表示t时刻的目标奖励。
电网调度模型主要分为奖励分配模型和策略模型两个部分,其中奖励分配网络通过对历史序列中的奖励信号进行重分配来修正奖励信号和优化奖励的分布,并得到重分布后的奖励修正序列 策略网络接收奖励修正后的序列/>作为输入,并输出当前时刻的动作At。电网仿真环境接收动作At作为功率和拓扑的调整策略,并考虑电力需求变化和环境随机因素的影响,根据底层潮流收敛原理仿真计算得到下一步状态St+1以及电网环境的奖励rt+1,如此往复进行直到电网调度任务的结束。
奖励分配网络
本发明的奖励分配网络主要负责对历史多步序列中来自电网环境的稀疏延迟的奖励信号进行重分配,从而为策略网络提供修正后的奖励信号输入。
如图2所示,奖励分配网络的输入为某一时刻电网环境的状态St和动作At,输出为模型该状态下采取该策略所分配的奖励ft。通过输入历史多步状态序列(St-L,......,St-2,St-1)和动作序列(At-L,......,At-2,At-1)得到该序列下的重构奖励分配方案(ft-L,......,ft-2,ft-1),并由此计算新的目标奖励经过奖励分配网络修正后的序列作为Transformer策略模型的输入序列。
Transformer策略网络
本发明的策略网络接收经过奖励分配网络后的奖励修正序列并借助自注意力机制构建的电网调度策略与电网状态、目标奖励之间的内在联系推理出下一步合理的电网调度调整方案At,其具体原理如下。
(5)计算嵌入向量:首先模型将输入序列映射为嵌入空间下的电网信息序列X,由此在经过映射后的嵌入空间下来统一表示电网***的状态、动作和奖励信息,以及计算它们之间的联系。
(6)计算注意力:本发明的Transformer策略网络采用GPT-2模型结构,其通过将多个Decoder结构堆叠,形成了如图3所示的多层结构,其中每一个Decoder由带掩码的多头自注意力层(Masked Multi-Head Self-Attention)、前馈神经网络(Feed Forward Network)组成,且每层的输出都进行残差连接(Residual Connections)和层归一化(LayerNormalization)处理。
本模型的注意力原理如下公式所示,其中Q、K、V分别为电网信息序列X的query、key、vector子向量,WQ、WK、WV则分别为生层三个子向量的线性变换矩阵。M为掩码矩阵,其作用是计算电网信息序列注意力权重时掩盖掉未来的信息,从而实现“因果”机制。dk为key子向量的维度,其作用是对注意力权重进行标准化处理。
Q=XWQ
K=XWK
y=XWV
同时本模型采用多头机制,通过多个注意力头来计算多个注意力的方式,不同的注意力头从不同的特征和角度建模电网信息序列之间的关联,如时域空间和频域空间的关联等,从而更好地捕捉电网信息中的细节和复杂性。
双层优化算法
对于模型的训练,采样电网实际运行调度场景中的状态Sreal、奖励rreal和动作Areal组成的数据示例对模型进行离线训练,并计算策略模型输出的动作预测值Apred和数据实例中的动作真实值Areal之间的误差作为策略模型的损失函数:
为了保证策略网络和奖励分配网络的高效交替训练和更新,我们设计了双层优化算法来解耦调度策略问题和奖励分配问题。具体而言,我们将数据集按照一定比例分为训练集和验证集,并如下修正策略模型和奖励分配模型的损失函数:
其中,和/>分别为策略模型在验证集和测试集上的误差,φ和θ分别为策略模型和奖励分配模型的参数,Γ为决策序列的总长度,λ为正则项的权重因子。为提高模型的训练效率,我们通过如下方法对外层优化目标进行近似替代:
(1)我们通过一步梯度近似对外层优化目标进行近似替代:
(2)通过链式求导法则对一阶梯度进行展开:
(3)通过泰勒展开对一阶梯度和二阶梯度的向量积进一步替换:

Claims (4)

1.一种基于生成式决策模型的电网运行调整方法,其特征在于:选取Transformer模型作为因果自注意力机制的决策模型,基于因果自注意力机制构建电网智能决策方法框架,采用构建电网调度模型,设计奖励分配模型和策略模型两个部分,借助奖励分配网络对奖励信号进行自适应重分配,策略模型接收奖励修正后的序列τ`t作为输入,并输出当前时刻的动作At,实现实时生成电网***的在线调度策略;具体而言,所述电网在线调度策略包括功率调度策略和拓扑调度策略,其中功率调度策略主要包括对***中的不同发电机组的功率的调节、对储能设备充放能功率的调节以及对可调负载功率的调节,拓扑调度策略则主要包括电网***中各线路的断开和连接的决策,以及变电站中各支线与母线的连接的决策;构建电网仿真环境模块模拟电网的实际运行情况,接收动作At作为功率和拓扑的在线调度策略,并考虑电力需求变化和环境随机因素的影响,根据底层潮流收敛原理仿真计算得到下一步状态St+1以及电网环境的奖励rt+1,如此往复进行直到电网调度任务的结束;在此基础上,通过双层优化算法对策略网络和奖励分配网络进行高效交替的更新优化,最终实现电网***中各线路的断开和连接的决策、能源功率调节和调度策略决策,以及变电站中各支线与母线的连接的决策。
2.如权利要求1所述的一种基于生成式决策模型的电网运行调整方法,其特征在于:所述奖励分配模型输入为某一时刻电网环境的状态St和动作At,输出为模型该状态下采取该策略所分配的奖励ft,通过输入历史多步状态序列(St-L,……,St-2,St-1)和动作序列(At-L,……,At-2,At-1)得到该序列下的重构奖励分配方案(ft-L,……,ft-2,ft-1),并由此计算新的目标奖励R`t、=Rt-1-ft-1,经过奖励分配网络修正后的序列τ`t=(R`t-L,St-L,At-L,……,R`t-1,St-1,At-1,R`t、,St)作为Transformer策略模型的输入序列。
3.如权利要求2所述的一种基于生成式决策模型的电网运行调整方法,其特征在于:所述策略模型接收经过奖励分配网络后的奖励修正序列τ`t,并借助自注意力机制构建的电网调度策略与电网状态、目标奖励之间的内在联系推理出下一步合理的电网调度调整方案At,其具体实现方式为:
(1)计算嵌入向量:首先模型将输入序列τ`t映射为嵌入空间下的电网信息序列X,由此在经过映射后的嵌入空间下来统一表示电网***的状态、动作和奖励信息,以及计算它们之间的联系:X=(x1,x2,……),xk=Ex(I),I∈τ`t
(2)计算注意力:Transformer策略网络采用GPT-2模型结构,其通过将多个Decoder结构堆叠,形成多层结构,其中每一个Decoder由带掩码的多头自注意力层、前馈神经网络组成,且每层的输出都进行残差连接和层归一化处理,其注意力原理如下所示,其中Q、K、V分别为电网信息序列X的query、key、vector子向量,WQ、WK、WV则分别为生层三个子向量的线性变换矩阵,M为掩码矩阵,其作用是计算电网信息序列注意力权重时掩盖掉未来的信息,从而实现“因果”机制,dk为key子向量的维度,其作用是对注意力权重进行标准化处理:
Q=XWQ
K=XWK
V=XWV
同时采用多头机制,通过多个注意力头来计算多个注意力的方式,不同的注意力头从不同的特征和角度建模电网信息序列之间的关联,如时域空间和频域空间的关联等,从而更好地捕捉电网信息中的细节和复杂性。
4.如权利要求3所述的一种基于生成式决策模型的电网运行调整方法,其特征在于:所述双层优化算法的具体实现方式为:
对于模型的训练,采样电网实际运行调度场景中的状态Sreal、奖励rreal和动作Areal组成的数据示例对模型进行离线训练,并计算策略模型输出的动作预测值Apred和数据实例中的动作真实值Areal之间的误差作为策略模型的损失函数:
之后将数据集按照一定比例分为训练集和验证集,并如下修正策略模型和奖励分配模型的损失函数:
其中,和/>分别为策略模型在验证集和测试集上的误差,φ和θ分别为策略模型和奖励分配模型的参数,Γ为决策序列的总长度,λ为正则项的权重因子,为提高模型的训练效率,通过如下方法对外层优化目标进行近似替代:
(1)通过一步梯度近似对外层优化目标进行近似替代:
(2)通过链式求导法则对一阶梯度进行展开:
(3)通过泰勒展开对一阶梯度和二阶梯度的向量积进一步替换:
CN202311103915.0A 2023-08-30 2023-08-30 一种基于生成式决策模型的电网运行调整方法 Pending CN117154845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311103915.0A CN117154845A (zh) 2023-08-30 2023-08-30 一种基于生成式决策模型的电网运行调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311103915.0A CN117154845A (zh) 2023-08-30 2023-08-30 一种基于生成式决策模型的电网运行调整方法

Publications (1)

Publication Number Publication Date
CN117154845A true CN117154845A (zh) 2023-12-01

Family

ID=88911319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311103915.0A Pending CN117154845A (zh) 2023-08-30 2023-08-30 一种基于生成式决策模型的电网运行调整方法

Country Status (1)

Country Link
CN (1) CN117154845A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117973233A (zh) * 2024-03-29 2024-05-03 合肥工业大学 基于深度强化学习的换流器控制模型训练和振荡抑制方法
CN118037968A (zh) * 2023-12-27 2024-05-14 南京南瑞水利水电科技有限公司 一种基于虚幻引擎的水电gis态势仿真推演方法和***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118037968A (zh) * 2023-12-27 2024-05-14 南京南瑞水利水电科技有限公司 一种基于虚幻引擎的水电gis态势仿真推演方法和***
CN117973233A (zh) * 2024-03-29 2024-05-03 合肥工业大学 基于深度强化学习的换流器控制模型训练和振荡抑制方法

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN114118375B (zh) 一种基于时序图Transformer的连续动态网络表征学习方法
CN110264012B (zh) 基于经验模态分解的可再生能源功率组合预测方法及***
CN114362187B (zh) 一种基于多智能体深度强化学习的有源配电网协同调压方法及***
CN117154845A (zh) 一种基于生成式决策模型的电网运行调整方法
CN113141012B (zh) 电网潮流调控决策推理方法
CN115940294B (zh) 多级电网实时调度策略调整方法、***、设备及存储介质
CN111917134B (zh) 一种基于数据驱动的配电网动态自主重构方法及***
CN112651519A (zh) 一种基于深度学习理论的二次设备故障定位方法及***
Chen et al. A multivariate grey RBF hybrid model for residual useful life prediction of industrial equipment based on state data
Abiyev Fuzzy wavelet neural network for prediction of electricity consumption
CN114707613B (zh) 基于分层的深度策略梯度网络的电网调控方法
CN116300755A (zh) 基于mpc的含储热的供热***双层优化调度方法及装置
Huang et al. Short-term tie-line power prediction based on CNN-LSTM
Li et al. Multiagent deep meta reinforcement learning for sea computing-based energy management of interconnected grids considering renewable energy sources in sustainable cities
CN112101651B (zh) 电能源网络协调控制方法、***及信息数据处理终端
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
Chiaberge et al. Mixing fuzzy, neural and genetic algorithms in an integrated design environment for intelligent controllers
CN114298429A (zh) 一种配电网动案辅助决策方法、***、装置和存储介质
CN114372418A (zh) 一种风电功率时空态势描述模型建立方法
Qin et al. Data-based reinforcement learning with application to wind turbine pitch control
Obert et al. Efficient distributed energy resource voltage control using ensemble deep reinforcement learning
CN117220318B (zh) 电网数字化驱动控制方法及***
Kang et al. Power flow coordination optimization control method for power system with DG based on DRL
Mahmudh et al. Improved Extreme Learning Machine Power Load Forecasting Based on Firefly Optimization Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination