CN114841595A - 一种基于深度强化算法的水电站厂内实时优化调度方法 - Google Patents

一种基于深度强化算法的水电站厂内实时优化调度方法 Download PDF

Info

Publication number
CN114841595A
CN114841595A CN202210548151.5A CN202210548151A CN114841595A CN 114841595 A CN114841595 A CN 114841595A CN 202210548151 A CN202210548151 A CN 202210548151A CN 114841595 A CN114841595 A CN 114841595A
Authority
CN
China
Prior art keywords
real
time
state
hydropower station
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210548151.5A
Other languages
English (en)
Inventor
谢俊
包长玉
潘学萍
郑源
潘虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210548151.5A priority Critical patent/CN114841595A/zh
Publication of CN114841595A publication Critical patent/CN114841595A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Educational Administration (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化算法的水电站厂内实时优化调度方法,用于求解水电站厂内实时优化调度。水电站厂内实时优化调度是调整日前发电计划的重要环节,是电力***经济运行问题中的一个重要问题。本发明针对电网负荷预测与日前发电计划偏差量的最优调整展开研究,首先将水电站厂内实时调度问题转换为马尔科夫决策过程,然后应用Deep Q‑Learning深度强化学习算法对其求解,最后,得到水电站厂内实时滚动运行策略,运用于实际的水电站厂内实时调度策略的制定。本发明基于数据驱动的思路,能有效解决水电站厂内实时优化调度问题,且在应对突发情况时也有很好的鲁棒性。

Description

一种基于深度强化算法的水电站厂内实时优化调度方法
技术领域
本发明属于电力调度领域,具体涉及一种基于深度强化学习算法的水电站厂内实时优化调度方法。
背景技术
现有研究大多侧重于实时优化调度和出力优化配置的建模,较少考虑预测不准确造成的水电机组负荷分配偏差的调整问题。但由于实际生产运行中实时负荷与计划负荷在调度日内会不可避免的存在偏差,影响电网的安全稳定运行。因此,研究电网负荷调节的实时响应是不可避免的,也是非常重要的。事实上从长期来看,水电站实时调度也具有一定的重复性,所积累的历史决策方案对于水电机组实时偏差量决策也具有指导意义。而随着人工智能技术的发展,基于数据驱动的深度强化学习算法可以使智能体通过与环境进行交互,快速且准确地对负荷偏差量做出反应,在求解水电站厂内实时优化调度问题时比常规算法更具优势。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于深度强化学习算法的水电站厂内实时调度决策方法,用于解决水电站厂内实时优化运行问题。
为了实现上述技术目的,本发明的技术方案为:
一种基于深度强化算法的水电站厂内实时优化调度方法,包括以下步骤:
(1)根据水电站厂内实时优化运行情况构建数学模型;
(2)根据步骤(1)构建的数学模型,将水电站厂内实时调度问题转换为马尔科夫决策过程;
(3)应用深度强化学习算法Deep Q-Learning对马尔科夫决策过程求解,
得到水电站厂内实时滚动运行策略。
优选地,所述步骤(1)具体包括:
根据水电机组优化运行准则,调整给定的水电机组日前发电计划,目标函
数为:
Figure BDA0003650011750000021
式中,ΔQ为调度时段15min内所有运行水电机组的总耗水量偏差;N为所有水电机组数;ΔQi为水电机组i在15min调度时段内的耗水量偏差;水电机组的耗量特性函数Qi=f(Pi,Hi):水电机组流量Qi为水电机组i在调度时段内的平均出力Pi与平均水头Hi的非线性函数;具体表示如下:
Qi=f(Pi,Hi)
式中,f为水电机组的耗量特性函数;
当水电机组出力实时调整量为ΔPi时,相应的调节耗水量ΔQi表示如下:
ΔQi=f(ΔPi,Hi)
结合实时运行的变量为水电机组出力和耗水量的偏差量制定功率偏差平衡约束、各机组出力约束、各机组流量约束和各机组运行时的振动区约束,具体表示如下:
功率偏差平衡约束具体表示为:
Figure BDA0003650011750000022
式中,ΔPi为水电机组i出力实时调整量,ΔPL为15min调度时段内的***总负荷与日前出力计划的偏差;
机组出力约束具体表示为:
Pi,min≤Pi±ΔPi≤Pi,max
式中,Pi,max、Pi,min分别为水电机组i的出力上、下限;
机组流量约束具体表示为:
Qi,min≤Qi±ΔQi≤Qi,max
式中,Qi,max、Qi,min分别表示水电机组i发电流量的上、下限;
机组气蚀振动区约束具体表示为:
(Pi+ΔPi-Pzi,max)(Pi+ΔPi-Pzi,min)≥0
式中,Pzi,max、Pzi,min分别为水电机组i运行时的振动气蚀区上、下限。优选地,所述步骤(2)中马尔科夫决策过程结合强化学习和水电站实时优化调度问题的主要特征,针对强化学习算法中的智能体、状态集合S、动作集A、和奖励矩阵R进行定义,构建一个学习过程,所述智能体为水电站的调度员或者自动发电控制***,从环境中学习选择行动,以最大化未来的回报;将区间[0,5%Pi,max]的负荷偏差量分成K份作为状态集合S,Pi,max表示最大出力;动作集A为水电站各机组离散的出力偏差量集合{ΔPi};根据水电机组的相关参数及状态集合S和动作集合A,确定奖励矩阵中的元素值rt(st,st+1,at),即当前时段的状态st采取任一动作at更新到下一时段的状态st+1所获得的奖励值。
优选地,步骤(3)中深度强化学习算法Deep Q-Learning的参数初始化设置包括以下步骤:
31)随机初始化一个状态s,初始化经验记忆池D,并设置其容量为N;
32)构建Q网络和目标Q网络,Q网络权值θ随机初始化,令目标Q网络权值θ-=θ;
33)初始化步长因子α,折扣因子γ;
34)初始化迭代训练次数M。
优选地,所述步骤(3)中深度强化学习算法具体包括以下步骤:
321)根据ε-greedy策略选择一个动作a;
322)执行该动作a,得到即时奖励r、下一状态s'和终止状态done;
将{s,a,r,s',done}作为一组批量数据保存到经验记忆池D;
324)判断经验记忆池D中的批量数据是否大于等于N:
当D中批量数据大于等于N时,在D中随机抽取m个批量数据作为训练样本,m=32;
将所有训练样本的s'作为Q网络的输入值,得到状态s'下每个动作的Q值:
Figure BDA0003650011750000041
式中,Q(st,at)是在状态st下执行动作at的Q值,
Figure BDA0003650011750000042
是在状态st下执行动作at能够获得的预期奖励,计算出Q值相对应目标Q网络的target_Q值;
对Q值与target_Q值应用梯度下降算法训练Q网络,每隔C步更新一次目
标Q网络,即令θ-=θ;
325)当D中批量数据小于N时,判断是否为终止状态:
①如果是终止状态,则寻找下一个初始化状态s继续进行以上步骤;
②如果不是终止状态,则将当前状态s转化为新的下一状态s'重复循环以上步骤。
采用上述技术方案带来的有益效果:
本发明将数据驱动型DQN算法应用于水电站厂内实时优化调度问题,并通过不同算法对比了DQN算法在日前出力计划和机组组合确定的情况下进行实时决策时的有效性,具体如下:
1)基于DQN算法训练出来的智能体可以依照累积奖励的大小,在随机环境中根据日前出力计划和实时负荷偏差来决定各机组的最优偏差量调整,以满足环境的实时变化。当智能体在面对未知的环境时,会依据其学习到的先验知识对机组偏差量进行多次调整,直至当前状态为最终状态。
2)根据预测偏差,本发明所提供的算法与GA算法相比,偏差耗水量有显著减少,即DQN算法所做出的决策比GA算法更优,且DQN算法的在线决策时间远小于GA算法。
附图说明
图1是强化学习过程示意图;
图2是DQN值函数逼近网络图;
图3是RL优化决策与控制框架图;
图4是基于深度强化学习的水电站实时优化运行总体架构图;
图5是DQN算法平均奖励变化曲线图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明采用的技术方案为基于深度强化学习算法的水电站厂内实时优化调度方法,主要包括三个步骤:
1)水电站厂内实时优化运行问题的数学描述;
2)根据步骤1)给出的数学模型,将水电站厂内实时调度问题转换为马尔科夫决策过程;
3)应用Deep Q-Learning(DQN)深度强化学习算法对其求解,得到水电站厂内实时滚动运行策略。
在对水电站的实时发电计划进行调整时,需要实时滚动更新电站的日前发电计划,时间间隔设为15分钟,调度期为从当前调度时刻至当日24点。
根据水电机组优化运行准则,应在满足安全运行的前提下,针对实时负荷偏差量,微调给定的水电机组日前发电计划使得所消耗的偏差耗水量最小,其目标函数为:
Figure BDA0003650011750000051
式中,ΔQ为调度时段15min内所有运行机组的总耗水量偏差;N为所有水电机组数;ΔQi为机组i在15min调度时段内的耗水量偏差。
水电机组的耗量特性Qi可以表示为机组i在调度时段内的平均出力Pi与平均水头Hi的非线性函数,即:
Qi=f(Pi,Hi) (2)
当机组出力实时调整量为ΔPi时,相应的调节耗水量ΔQi为:
ΔQi=f(ΔPi,Hi) (3)
水电站实时运行的约束条件与经济运行类似,但实时运行的变量为水电机组出力和耗水量的偏差量,也考虑4个方面,即出力偏差平衡约束、各机组出力约束、各机组流量约束和各机组运行时的振动区约束等。
1)功率平衡约束
Figure BDA0003650011750000061
式中,ΔPL为15min时段内的***总负荷偏差。
2)机组出力约束
Pi,min≤Pi±ΔPi≤Pi,max (5)
式中,Pi,max、Pi,min分别为机组i的出力上下限。
3)机组流量约束
Qi,min≤Qi±ΔQi≤Qi,max (6)
式中,Qi,max、Qi,min分别表示机组i发电流量的上下限。
4)机组气蚀振动区约束
水电机组在运行时应尽量避开汽蚀振动运行区,即
(Pi+ΔPi-Pzi,max)(Pi+ΔPi-Pzi,min)≥0 (7)
式中,Pzi,max、Pzi,min分别为机组i运行时的振动气蚀区上下限,机组运行时应尽量避开这一运行区[Pzi,min,Pzi,max]。
由于实时调度要求机组快速且准确地对负荷偏差量做出反应,所以本发明利用基于数据驱动的算法进行分析研究。受行为主义心理学的启发,强化学习(RL)是一种基于模拟仿真的优化方法,通过与包含所有其他活跃智能体的环境进行交互,利用相互作用的智能体去寻找某一智能体的最优或接近最优的策略。基于这种进化计算方法,训练智能体通过与环境的交互来采取最优或接近最优的行为。与监督学习方法要求外部监督者提供示例策略不同,基于RL的学习过程通过一个动态环境的交互和分析早期决策的反馈来进行。
强化学习(RL)基本框架主要由环境和智能体两部分组成,如图1所示。智能体以接受长期奖励值最大为目标,依据某种策略选定一个动作并作用于环境,最终决定遇到每一种状态时应该采取何种动作。RL的目的就是***从环境到行为映射的学习,以使目标值函数最优。
建立基于强化学习理论的水电站实时优化调度模型时,需结合强化学习和水电站实时优化调度问题的主要特征,并针对强化学习算法中的状态集合S、动作集A、和奖励矩阵R进行合理定义。首先,状态集合S定义为从0到最大出力Pi,max的5%的K个离散的负荷偏差量,因此每一个时段状态集合S中的元素可分作K个状态;其次,动作集A为水电站各机组离散的若干个出力偏差量集合{ΔPi};最后再根据水电机组的相关参数及状态集合S和动作集合A中各元素值,确定奖励矩阵中的元素值rt(st,st+1,at),即当前时段的状态st采取任一动作at更新到下一时段的状态st+1所获得的奖励值。
深度学习(DL)是一种基于人工神经网络的特征提取优化方法,它由一系列的非线性单元来实现输入与输出的直接映射关系。下层的输出作为上层输入,依据反向传播算法进行训练,自动地从海量数据中挖掘出有用的特征信息。作为一种数据驱动的方法,它克服了人工提取特征的过刚性问题,考虑了复杂的环境因素,有助于解决非线性问题。
深度强化学习(DRL)将DL和RL相结合,引入神经网络以端到端的方式直接表达和优化价值函数、策略或环境模型。DRL可以充分利用高维原始输入数据进行模式提取和模型构建;此外,它还可以作为策略控制的基础。与传统的强化学习相比,深度强化学习克服了无法处理高维大规模的问题。
Q-learnig是强化学习中最常用的方法,在Q-learnig算法中,每个状态-动作对的Q值(每个状态下选择的每个动作的值)存储在一张表格中,称作Q表,并通过随机梯度下降方法进行更新。
Figure BDA0003650011750000081
式中,Q(st,at)是在状态st下执行动作at的Q值,α是步长控制因子,
Figure BDA0003650011750000082
是通过在状态st下执行动作at可以获得的预期奖励,γ是折扣因子。但在高维空间中,智能体的遍历速度太慢,无法分别学习各个状态的值。当状态空间或动作空间处于高维时,Q-learning算法变得不现实。为了克服这个问题,有学者提出了值函数逼近法。通过调整参数θ,使函数基于一定策略逼近值函数,如式(9)所示。
Q(st,at,θ)≈Q(st,at)(9)
通过这种方法,任务转化为求解目标函数中的参数θ:
Figure BDA0003650011750000083
式中,L表示目标函数,E表示期望;
采用随机梯度下降法逐步更新参数θ,使得目标函数收敛到最小值。
如图2所示,DQN的值函数利用神经网络逼近,参数θ为神经网络中每层的网络权重,与表格型Q-learning算法不同的是,DQN对值函数的更新步更新的是参数θ,而不是Q表,参数更新公式如下:
Figure BDA0003650011750000084
式中,θt+1表示下次迭代待更新参数;θt表示本次迭代更新参数;
Figure BDA0003650011750000085
表示梯度。
这样,DQN值函数的更新过程则转变为了监督学习的一次更新过程。
DQN对Q-learning算法的改进主要体现在三个方面:
1)利用深度神经网络逼近值函数;
2)利用经验回放训练强化学习的学习过程;
3)单独设置目标Q网络用于计算TD偏差;
其算法伪代码如表1所示:
表1
Figure BDA0003650011750000091
RL或DRL的主要优点是模型能从离线环境中学习,并能适应动态环境。在使用离线数据对模型进行完全训练后,可以在实时环境中在线利用该模型。在决策和控制中应用的算法的实现框架如图3所示。
该框架包括两个部分:训练部分和执行部分。训练部分是本发明的主要研究内容。训练部分监督知识的学习,执行部分将学到的知识付诸实践,以便在实时的物理环境中做出优化决策。如果发生紧急情况,智能体将与新环境进行交互。通过行为的调整,智能体逐渐增加获得的报酬,恢复优化效果。
如上所述,智能体、环境、奖励和动作是强化学习的四个基本部分。此外,还将根据这四个部分对算法实现的细节进行说明,总体架构如图4所示。
通过一个学习过程,智能体找出一组能够影响环境的最优行为。智能体必须能够产生建模者定义的可容许的行为集合中包含的任何行为(例如,水电机组的发电流量的不同),并能够感知其行动的反馈。反馈是智能体改进其决策的唯一指导。环境由智能体可以访问的一组状态定义。学习的目的是为了找出每种状态下的最优行为。例如在水电站实时优化运行中,智能体可以是做出调整机组出力的调度员,日前调度计划和实时负荷的偏差量可以看作是环境。在这种情况下,学习的目标是根据运行目标(如水电利润最大化,预期耗水量最小化等)和约束(如机组出力约束、发电流量上下限约束等)找到给定实时偏差量下最佳的机组调整出力策略。
1)智能体
水电站的调度员或者自动发电控制***可以看作是一个智能体,从环境中学习选择行动,以最大化未来的回报。在水电站实时优化运行中,利用该智能体可以实现发电机组出力的调整,在上述算法设计中,优化决策高度依赖于环境和奖励。
2)环境
水电站实时优化运行中的环境是指动态的水电机组出力偏差量。每15分钟实时调整一次,也即状态改变一次。环境由智能体可以访问的一组状态定义。学习的目的就是为了找出每个水电机组出力偏差量下的最优出力调整量,使得水电机组的耗水量最小。
3)奖励
奖励或反馈是强化学习算法的关键。通常可以通过一个合理的价值函数引导智能体向“正确的方向”前进,本发明价值函数的设置主要基于式(3)。此外,由于价值函数是耗水量的最小化,所以在考虑智能体得到的回报时设计为价值函数的相反数。该策略的目标是智能体获得的奖励越大,在水电站实时优化中机组所耗水量就越少。智能体通过获得奖励,一步一步向目标函数靠近,具体如下式所示。
Figure BDA0003650011750000101
4)动作
智能体所做出的动作可定义为运行中的水电机组所做出的出力调整量ΔPi,这些动作要受到机组出力上下限、负荷平衡约束和振动气蚀区约束的限制。
实施例
本发明将以上提出的基于DQN算法的水电站厂内实时调度方法应用于上述4台机组的水电站实例,进行水电站厂内实时优化运行问题的求解。
1)深度强化学习算法主要基于深度神经网络构建,所以网络结构直接决定了算法的性能。本文算例中的神经网络,建立了三个隐藏层,分别设置神经元个数为128、128、250,两个整流线性单元relu和一个sigmoid函数作为神经网络的激活函数。DQN深度强化学习算法的超参数如表2所示。
表2
参数 数值
迭代训练次数M 5000
步长因子α 0.01
折扣因子γ 0.95
经验记忆池容量N 20000
训练频率n 5
训练批次数m 32
本发明选取该水电站一周15min级数据作为神经网络的训练样本,首先根据机组组合对训练样本进行分类预处理,为保证训练效果,应用DQN算法对智能体训练5000次,不同机组组合下每一次训练所对应的平均奖励变化曲线如图5所示。
当设置迭代训练次数M为5000次时,智能体均能可靠收敛,这表明智能体通过学习逐渐适应环境,并获得更多回报,一开始有很多随机选择,经过多次迭代,智能体学会选择接近优化目标的收敛趋势和可能性,DQN算法取得了良好的训练效果。不同机组组合下训练效果不同,四台机组运行时的调节耗水量要小于两台机组和三台机组运行时的调节耗水量,但不同机组组合情况下收敛效果大致相同,均在迭代2800次左右达到其最优解。
2)智能体在所搭建的实时调度环境中训练完成后,便可以根据实时状态(负荷曲线与日前发电计划的实时出力偏差量),来决策水电机组的出力微调量。为验证智能体在随机环境下运行的有效性,本发明选取某日负荷曲线和水电机组日前出力,并叠加随机负荷偏差量模拟随机变化的调度环境,最大负荷偏差量按5%Pi,max考虑。针对时段1、时段7和时段13随机偏差进行5次决策,结果如表3所示。
表3
Figure BDA0003650011750000121
在日前机组组合确定的情况下,智能体可以依照累积奖励的大小,在随机环境中根据日前出力计划和实时负荷偏差来决定各机组的最优偏差量调整,以满足环境的实时变化。
3)为验证智能体在应对突发情况时的有效性,人为设置时段1内某时刻偏差量ΔPL=7MW,观察智能体在未知环境下所做出的决策,结果如表4所示。
表4
调整次数 剩余偏差量/MW 机组1 机组2 机组3 机组4
第一次调整 2 0.12 0.85 4.03 0
第二次调整 0 1.51 0.21 0.26 0.02
当智能体在面对未知的环境时,会依据其学习到的先验知识对机组偏差量进行多次调整,直至当前状态为最终状态,即剩余偏差量为0MW。此外,当智能体在与该环境交互过程中逐渐适应未知环境后,会将其作为学习到的知识保存起来,以改进自身策略,应对未知环境的变化,从而完成智能体的自我学习和自我进化。
4)分析DQN算法在解决水电站厂内实时调度问题时的高效性,本发明采用遗传算法(GA)与之对比。在日前出力计划和机组组合确定的情况下,设置预测偏差,分别应用DQN算法和GA算法对单时段实时调度进行求解,对比两种算法的耗水量大小和求解时间如表5和表6所示。
表5
求解算法 偏差量/MW 机组1 机组2 机组3 机组4 偏差耗水量/3600m<sup>3</sup>
GA 5 2.1 0 0 2.9 43.89
DQN 5 4.26 0 0 0.74 6.19
GA 5 0.322 1.9 2.67 0.107 21.917
DQN 5 0.12 0.85 4.03 0 4.862
GA 3 0.1166 0 0 2.8834 55.144
DQN 3 2.87 0 0 0.13 2.6314
表6
求解算法 训练时间/s 决策时间/s
GA 12.627
DQN 167.324 0.233
在日前出力计划和机组组合一定的情况下,根据预测偏差,DQN算法调整机组出力后,偏差耗水量比GA算法有显著减少,也即DQN算法所做出的决策更优,这是因为DQN算法是数据驱动型算法,它可以通过与当前环境的交互,在自己的记忆库中迅速搜索最优的决策出力偏差,而遗传算法解算时则需要依赖于种群的规模和质量以及遗传变异等操作,增加了问题的复杂度和求解时间。DQN算法的训练时间远大于其决策时间,因此在实际应用过程中,可以采用离线训练、在线决策的模式,从而可以避免大数据训练过程对决策效率的影响。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种基于深度强化算法的水电站厂内实时优化调度方法,其特征在于,包括以下步骤:
(1)根据水电站厂内实时优化运行情况构建数学模型;
(2)根据步骤(1)构建的数学模型,将水电站厂内实时调度问题转换为马尔科夫决策过程;
(3)应用深度强化学习算法Deep Q-Learning对马尔科夫决策过程求解,得到水电站厂内实时滚动运行策略。
2.根据权利要求1所述一种基于深度强化算法的水电站厂内实时优化调度方法,其特征在于,所述步骤(1)具体包括:
根据水电机组优化运行准则,调整给定的水电机组日前发电计划,目标函数为:
Figure FDA0003650011740000011
式中,ΔQ为调度时段15min内所有运行水电机组的总耗水量偏差;N为所有水电机组数;ΔQi为水电机组i在15min调度时段内的耗水量偏差;水电机组的耗量特性函数Qi=f(Pi,Hi):水电机组流量Qi为水电机组i在调度时段内的平均出力Pi与平均水头Hi的非线性函数;具体表示如下:
Qi=f(Pi,Hi)
式中,f为水电机组的耗量特性函数;
当水电机组出力实时调整量为ΔPi时,相应的调节耗水量ΔQi表示如下:
ΔQi=f(ΔPi,Hi)
结合实时运行的变量为水电机组出力和耗水量的偏差量制定功率偏差平衡约束、各机组出力约束、各机组流量约束和各机组运行时的振动区约束,具体表示如下:
功率偏差平衡约束具体表示为:
Figure FDA0003650011740000021
式中,ΔPi为水电机组i出力实时调整量,ΔPL为15min调度时段内的***总负荷与日前出力计划的偏差;
机组出力约束具体表示为:
Pi,min≤Pi±ΔPi≤Pi,max
式中,Pi,max、Pi,min分别为水电机组i的出力上、下限;
机组流量约束具体表示为:
Qi,min≤Qi±ΔQi≤Qi,max
式中,Qi,max、Qi,min分别表示水电机组i发电流量的上、下限;
机组气蚀振动区约束具体表示为:
(Pi+ΔPi-Pzi,max)(Pi+ΔPi-Pzi,min)≥0
式中,Pzi,max、Pzi,min分别为水电机组i运行时的振动气蚀区上、下限。
3.根据权利要求2所述一种基于深度强化算法的水电站厂内实时优化调度方法,其特征在于,所述步骤(2)中马尔科夫决策过程结合强化学习和水电站实时优化调度问题的主要特征,针对强化学习算法中的智能体、状态集合S、动作集A、和奖励矩阵R进行定义,构建一个学习过程,所述智能体为水电站的调度员或者自动发电控制***,从环境中学习选择行动,以最大化未来的回报;将区间[0,5%Pi,max]的负荷偏差量分成K份作为状态集合S,Pi,max表示最大出力;动作集A为水电站各机组离散的出力偏差量集合{ΔPi};根据水电机组的相关参数及状态集合S和动作集合A,确定奖励矩阵中的元素值rt(st,st+1,at),即当前时段的状态st采取任一动作at更新到下一时段的状态st+1所获得的奖励值。
4.根据权利要求1所述一种基于深度强化算法的水电站厂内实时优化调度方法,其特征在于,步骤(3)中深度强化学习算法Deep Q-Learning的参数初始化设置包括以下步骤:
31)随机初始化一个状态s,初始化经验记忆池D,并设置其容量为N;
32)构建Q网络和目标Q网络,Q网络权值θ随机初始化,令目标Q网络权值θ-=θ;
33)初始化步长因子α,折扣因子γ;
34)初始化迭代训练次数M。
5.根据权利要求4所述一种基于深度强化算法的水电站厂内实时优化调度方法,其特征在于,所述步骤(3)中深度强化学习算法具体包括以下步骤:
321)根据ε-greedy策略选择一个动作a;
322)执行该动作a,得到即时奖励r、下一状态s'和终止状态done;
将{s,a,r,s',done}作为一组批量数据保存到经验记忆池D;
324)判断经验记忆池D中的批量数据是否大于等于N:
当D中批量数据大于等于N时,在D中随机抽取m个批量数据作为训练样本,m=32;
将所有训练样本的s'作为Q网络的输入值,得到状态s'下每个动作的Q值:
Figure FDA0003650011740000041
式中,Q(st,at)是在状态st下执行动作at的Q值,
Figure FDA0003650011740000042
是在状态st下执行动作at能够获得的预期奖励,计算出Q值相对应目标Q网络的target_Q值;
对Q值与target_Q值应用梯度下降算法训练Q网络,每隔C步更新一次目标Q网络,即令θ-=θ;
325)当D中批量数据小于N时,判断是否为终止状态:
①如果是终止状态,则寻找下一个初始化状态s继续进行以上步骤;
②如果不是终止状态,则将当前状态s转化为新的下一状态s'重复循环以上步骤。
CN202210548151.5A 2022-05-18 2022-05-18 一种基于深度强化算法的水电站厂内实时优化调度方法 Pending CN114841595A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210548151.5A CN114841595A (zh) 2022-05-18 2022-05-18 一种基于深度强化算法的水电站厂内实时优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210548151.5A CN114841595A (zh) 2022-05-18 2022-05-18 一种基于深度强化算法的水电站厂内实时优化调度方法

Publications (1)

Publication Number Publication Date
CN114841595A true CN114841595A (zh) 2022-08-02

Family

ID=82569781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210548151.5A Pending CN114841595A (zh) 2022-05-18 2022-05-18 一种基于深度强化算法的水电站厂内实时优化调度方法

Country Status (1)

Country Link
CN (1) CN114841595A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132089A (zh) * 2023-10-27 2023-11-28 邯郸欣和电力建设有限公司 用电策略优化调度方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132089A (zh) * 2023-10-27 2023-11-28 邯郸欣和电力建设有限公司 用电策略优化调度方法及装置
CN117132089B (zh) * 2023-10-27 2024-03-08 邯郸欣和电力建设有限公司 用电策略优化调度方法及装置

Similar Documents

Publication Publication Date Title
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
CN113363997B (zh) 基于多时间尺度多智能体深度强化学习无功电压控制方法
Pan et al. A comparison of neural network backpropagation algorithms for electricity load forecasting
CN113363998B (zh) 一种基于多智能体深度强化学习的配电网电压控制方法
CN103729695A (zh) 基于粒子群和bp神经网络的短期电力负荷预测方法
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、***及装置
CN114362187B (zh) 一种基于多智能体深度强化学习的有源配电网协同调压方法及***
CN110826774A (zh) 母线负荷预测方法、装置、计算机设备及存储介质
CN112012875B (zh) 一种水轮机调节***pid控制参数的优化方法
CN115293052A (zh) 电力***有功潮流在线优化控制方法、存储介质和装置
Han et al. Lightweight actor-critic generative adversarial networks for real-time smart generation control of microgrids
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN114841595A (zh) 一种基于深度强化算法的水电站厂内实时优化调度方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN115795992A (zh) 一种基于运行态势虚拟推演的园区能源互联网在线调度方法
Li et al. Data‐driven cooperative load frequency control method for microgrids using effective exploration‐distributed multi‐agent deep reinforcement learning
Wei et al. A combination forecasting method of grey neural network based on genetic algorithm
CN111799820B (zh) 一种电力***双层智能混合零星云储能对抗调控方法
Sarangi et al. Short term load forecasting using artificial neural network: a comparison with genetic algorithm implementation
CN117833263A (zh) 一种基于ddpg的新能源电网电压控制方法及***
CN116722541A (zh) 一种基于卷积神经网络的电力***负荷预测方法及装置
CN116451880A (zh) 一种基于混合学习的分布式能源优化调度方法及装置
CN116300755A (zh) 基于mpc的含储热的供热***双层优化调度方法及装置
CN110289643B (zh) 一种拒识深度微分动态规划实时发电调度与控制算法
CN118199078A (zh) 一种适用于不可观配电网的鲁棒强化学习无功优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination