CN117052596A - 基于深度强化学习的风机偏航控制方法及*** - Google Patents

基于深度强化学习的风机偏航控制方法及*** Download PDF

Info

Publication number
CN117052596A
CN117052596A CN202310919076.3A CN202310919076A CN117052596A CN 117052596 A CN117052596 A CN 117052596A CN 202310919076 A CN202310919076 A CN 202310919076A CN 117052596 A CN117052596 A CN 117052596A
Authority
CN
China
Prior art keywords
action
target
yaw control
value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310919076.3A
Other languages
English (en)
Inventor
祝金涛
朱俊杰
李遥宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Fujian Energy Development Co ltd Clean Energy Branch
Huaneng Clean Energy Research Institute
Huaneng Power International Inc
Original Assignee
Huaneng Fujian Energy Development Co ltd Clean Energy Branch
Huaneng Clean Energy Research Institute
Huaneng Power International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Fujian Energy Development Co ltd Clean Energy Branch, Huaneng Clean Energy Research Institute, Huaneng Power International Inc filed Critical Huaneng Fujian Energy Development Co ltd Clean Energy Branch
Priority to CN202310919076.3A priority Critical patent/CN117052596A/zh
Publication of CN117052596A publication Critical patent/CN117052596A/zh
Pending legal-status Critical Current

Links

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F03MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
    • F03DWIND MOTORS
    • F03D7/00Controlling wind motors 
    • F03D7/02Controlling wind motors  the wind motors having rotation axis substantially parallel to the air flow entering the rotor
    • F03D7/04Automatic control; Regulation
    • F03D7/042Automatic control; Regulation by means of an electrical or electronic controller
    • F03D7/043Automatic control; Regulation by means of an electrical or electronic controller characterised by the type of control logic
    • F03D7/046Automatic control; Regulation by means of an electrical or electronic controller characterised by the type of control logic with learning or adaptive control, e.g. self-tuning, fuzzy logic or neural network
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F03MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
    • F03DWIND MOTORS
    • F03D7/00Controlling wind motors 
    • F03D7/02Controlling wind motors  the wind motors having rotation axis substantially parallel to the air flow entering the rotor
    • F03D7/0204Controlling wind motors  the wind motors having rotation axis substantially parallel to the air flow entering the rotor for orientation in relation to wind direction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05BINDEXING SCHEME RELATING TO WIND, SPRING, WEIGHT, INERTIA OR LIKE MOTORS, TO MACHINES OR ENGINES FOR LIQUIDS COVERED BY SUBCLASSES F03B, F03D AND F03G
    • F05B2260/00Function
    • F05B2260/84Modelling or simulation
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05BINDEXING SCHEME RELATING TO WIND, SPRING, WEIGHT, INERTIA OR LIKE MOTORS, TO MACHINES OR ENGINES FOR LIQUIDS COVERED BY SUBCLASSES F03B, F03D AND F03G
    • F05B2270/00Control
    • F05B2270/70Type of control algorithm
    • F05B2270/709Type of control algorithm with neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/72Wind turbines with rotation axis in wind direction

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Sustainable Development (AREA)
  • Sustainable Energy (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Wind Motors (AREA)

Abstract

本申请提出了一种基于深度强化学习的风机偏航控制方法及***,该方法包括:将风电机组在不同时刻下的偏航角度数据和状态参数作为训练数据;构建用于表示状态‑动作值函数的深度神经网络,基于训练数据通过深度强化学习算法对深度神经网络进行训练,获得用于输出偏航控制动作的目标神经网络;通过当前时刻下的实时环境信息更新状态参数,将更新后的状态参数输入目标神经网络进行迭代训练,并获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作;根据目标偏航控制动作调整风电机组在所述当前时刻下的偏航角度。该方法实现了风机偏航控制的自主学习和环境变化的自适应,提高风机偏航控制的的准确性和可靠性。

Description

基于深度强化学习的风机偏航控制方法及***
技术领域
本申请涉及风电机组控制技术领域,尤其涉及一种基于深度强化学习的风机偏航控制方法及***。
背景技术
目前,通过风力发电机组进行风力发电成为供电体系中的一个重要组成部分。在风电机组实际运行过程中,需要对风电机组进行偏航控制,即当风速矢量的方向变化时,使风轮偏转,能够快速平稳地对准风向,以便风轮获得最大的风能。
相关技术中,在进行风机偏航控制时,传统的风机偏航***通常是采用比例、积分和微分(PID)控制算法来控制偏航角度。然而,由于风电机组的运行环境较为复杂,当风电机组所处的外部环境条件发生变化时,上述相关技术中的PID控制算法可能无法满足控制要求,输出的偏航控制结果存在偏差,导致风机不能够实现最优的风能转换效率。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于深度强化学习的风机偏航控制方法,该方法基于深度强化学习的方式进行风机偏航控制,具有自主学习和适应能力,提高了风机偏航控制的的准确性和可靠性,从而能够有效地提高风机的发电效率。
本申请的第二个目的在于提出一种基于深度强化学习的风机偏航控制***;
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请的第一方面实施例在于提出一种基于深度强化学习的风机偏航控制方法,该方法包括以下步骤:
获取风电机组在不同时刻下的偏航角度数据和状态参数,将所述偏航角度数据和所述状态参数作为训练数据;
构建用于表示状态-动作值函数的深度神经网络,基于所述训练数据通过深度强化学习算法对所述深度神经网络进行训练,获得用于输出偏航控制动作的目标神经网络;
通过当前时刻下的实时环境信息更新状态参数,将更新后的状态参数输入所述目标神经网络进行迭代训练,并获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作;
根据所述目标偏航控制动作调整所述风电机组在所述当前时刻下的偏航角度。
可选地,在本申请的一个实施例中,所述深度强化学习算法包括:Q-learning算法,所述基于所述训练数据通过深度强化学习算法对所述深度神经网络进行训练,包括:对于当前的状态参数,在每个时间步下选择一个目标动作;计算执行每个所述目标动作后的奖励函数的值,统计全部的时间步对应的奖励函数的值;比较所述全部的时间步对应的奖励函数的值,将最大的奖励函数的值对应的目标动作为所述当前的状态参数下的目标偏航控制动作。
可选地,在本申请的一个实施例中,所述计算执行每个所述目标动作后的奖励函数的值,包括:获取执行所述目标动作之前所述风电机组的第一发电功率以及执行所述目标动作之后所述风电机组的第二发电功率;根据所述第一发电功率和所述第二发电功率计算所述风电机组的实际发电功率的变化量,根据所述变化量计算所述目标动作对应的奖励函数的值。
可选地,在本申请的一个实施例中,所述目标动作包括:增大或减小所述风电机组的偏航角度,所述在每个时间步下选择一个目标动作,包括:基于当前的状态-动作值函数的值,选择累积回报值最大的动作作为当前时间步的目标动作;在所述获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作之后,还包括:基于所述目标偏航控制动作对应的奖励函数的值,更新执行所述目标偏航控制动作之后的所述状态-动作值函数的值。
可选地,在本申请的一个实施例中,通过以下公式更新所述状态-动作值函数的值:
Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmax Q(s_t+1,a)-Q(s_t,a_t)]
其中,s表示状态,t表示时间步,a表示选择的目标偏航控制动作,α是学习率,γ是折扣因子,γ表示未来奖励的折扣程度,r_t是奖励函数的值,Q(s_t,a_t)表示当前状态-动作对的原始值。
可选地,在本申请的一个实施例中,所述状态参数,包括:所述风电机组所处环境下的风速和风向,以及所述风电机组的转速和发电功率。
为达上述目的,本申请的第二方面实施例还提出了一种基于深度强化学习的风机偏航控制***,包括以下模块:
获取模块,用于获取风电机组在不同时刻下的偏航角度数据和状态参数,将所述偏航角度数据和所述状态参数作为训练数据;
训练模块,用于构建用于表示状态-动作值函数的深度神经网络,基于所述训练数据通过深度强化学习算法对所述深度神经网络进行训练,获得用于输出偏航控制动作的目标神经网络;
更新模块,用于通过当前时刻下的实时环境信息更新状态参数,将更新后的状态参数输入所述目标神经网络进行迭代训练,并获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作;
控制模块,用于根据所述目标偏航控制动作调整所述风电机组在所述当前时刻下的偏航角度。
可选地,在本申请的一个实施例中,所述训练模块,具体用于:对于当前的状态参数,在每个时间步下选择一个目标动作;依次计算执行每个所述目标动作后的奖励函数的值,统计全部的时间步对应的奖励函数的值;比较所述全部的时间步对应的奖励函数的值,将最大的奖励函数的值对应的目标动作为所述当前的状态参数下的目标偏航控制动作。
可选地,在本申请的一个实施例中,所述训练模块,具体用于:获取执行所述目标动作之前所述风电机组的第一发电功率以及执行所述目标动作之后所述风电机组的第二发电功率;根据所述第一发电功率和所述第二发电功率计算所述风电机组的实际发电功率的变化量,根据所述变化量计算所述目标动作对应的奖励函数的值。
为了实现上述实施例,本申请第三方面实施例还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的基于深度强化学习的风机偏航控制方法。
本申请的实施例提供的技术方案至少带来以下有益效果:本申请基于深度强化学习的方式进行风机偏航控制,具有自主学习和适应能力,在实际运行中,可以根据当前的风速、偏航角度和发电功率等状态参数,通过Q-learning算法训练后的深度神经网络选择最优的偏航角度调整动作,以实现更加精准的自适应控制。同时,在风电机组所处的外部环境条件发生变化时,还可以通过实时更新输入的状态参数来适应环境变化,获得当前环境状态下所需的风机偏航控制动作。由此,本申请提高了风机偏航控制的的准确性、可靠性和适应性,从而能够获得最优的风能转换效率,有效地提高风机的发电效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提出的一种基于深度强化学习的风机偏航控制方法的流程图;
图2为本申请实施例提出的一种具体的风机偏航控制***的结构示意图;
图3为本申请实施例提出的一种深度神经网络的训练过程的流程图;
图4为本申请实施例提出的一种具体的基于深度强化学习的风机偏航控制方法的流程图;
图5为本申请实施例提出的一种基于深度强化学习的风机偏航控制***的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例所提出的一种基于深度强化学习的风机偏航控制方法、***。
图1为本申请实施例提出的一种基于深度强化学习的风机偏航控制方法的流程图,如图1所示,该方法包括以下步骤:
步骤S101:获取风电机组在不同时刻下的偏航角度数据和状态参数,将偏航角度数据和状态参数作为训练数据。
具体的,本申请先收集与风电机组的偏航控制相关的数据,将收集的数据作为后续进行深度强化学习训练过程中的训练数据,收集的数据包括偏航角度数据和状态参数。其中,偏航角度数据包括风电机组在不同时刻下当时已采取的偏航角度,状态参数包括风电机组所处环境的环境状态参数以及风电机组运行中自身的运行状态参数。
在本申请一个实施例中,收集的状态参数,包括:风电机组所处环境下的风速和风向,以及风电机组的转速和发电功率。在本申请实施例中进行数据收集时,可以调取预先存储的风电机组的历史记录数据,比如,风机控制***的存储器中存储的风机在不同时刻下的转速和当时的风速,也可以在训练阶段中选取一个时段在实际运行中进行数据采集。
需要说明的是,在本申请的基于深度强化学习的风机偏航控制方法,可以由本申请一个实施例中提出的一种风机偏航控制***执行,该风机偏航控制***可以设置在风电机组中进行偏航控制。图2为本申请实施例提出的一种具体的风机偏航控制***的结构示意图,如图2所示,该***包括数据检测设备10、控制器20和执行器30。其中,控制器20用于存储并执行本申请实施例的基于深度强化学习的风机偏航控制方法。数据检测设备10包括各种类型的传感器单元,用于采集数据,比如,通过其中的偏航角度传感器采集风机当前的偏航角度,以及通过风速传感器采集当前环境下的风速等级等。
步骤S102:构建用于表示状态-动作值函数的深度神经网络,基于训练数据通过深度强化学习算法对深度神经网络进行训练,获得用于输出偏航控制动作的目标神经网络。
其中,状态-动作值函数(简称Q函数)可近似视为一个表格或神经网络,其输入是当前的状态参数,输出是每个可选动作的值。
在本申请中,通过构建深度神经网络表示Q函数,并通过深度强化学习算法对Q函数进行学习和优化(在本申请实施例中对构建的深度神经网络进行训练和优化,可简化描述为对Q函数进行训练和优化),其中,可以根据实际偏航控制的需要确定构建的深度神经网络的类型,比如,可以构建深度前馈网络(DFF)、长/短期记忆网络(LSTM)或循环神经网络(RNN)等,本申请不做限制。
即,本申请中Q函数输入的是当前的状态参数,比如上述实施例中采集的风速、风向、转速和发电功率等,输出的是一个时间步的偏航角度,由此,可以通过训练后的目标神经网络在获取当前时刻下的状态参数后,输出对应的偏航控制动作以进行偏航控制。
在本申请一个实施例中,可以通过Q-learning算法对构建的深度神经网络进行强化学习,即对状态-动作值函数Q进行训练以实现自适应控制。
其中,Q-learning算法是一种基于强化学习的算法,用于在未知环境下学习最优策略。该算法通过建立状态-动作值函数Q来实现学习。该Q函数表示在状态s下采取动作a所能获得的期望累积回报,即Q(s,a)。具体来说,Q-learning算法通过迭代更新Q函数的值来学习最优策略,以实现最大化回报的目标。即,Q-learning算法的主要目的是进行值迭代,更新状态-动作值函数的Q值,在训练过程中,需要估算每一个状态下每一种选择的Q值,而每一个时刻的Q值和当前得到的立即回报以及下一个时刻的Q值相关。
具体而言,在训练过程中,可以由图2中的控制器20在获取训练数据中的一组状态数据后,在该状态数据下的每个时间步选择一个动作,如增大或减小偏航角度,然后观察状态变化并计算奖励函数的值,奖励函数可以根据风机运行的具体情况确定计算方法。
为了更加清楚的说明本申请通过Q-learning算法进行深度训练的具体实现过程,下面以在本申请一个实施例中提出一种具体的训练流程进行示例性说明,图3为本申请实施例提出的一种深度神经网络的训练过程的流程图,如图3所示,该方法包括以下步骤:
步骤S301,对于当前的状态参数,在每个时间步下选择一个目标动作。
需要说明的是,对于Q函数,每一次训练输入的是当前状态下的一组状态参数,每输入一次状态次数,可以确定当前状态参数下的最优动作,因此,在训练过程每从训练数据中获取一组状态参数则进行一轮训练,本实施例的训练方法用于对其中的一轮训练过程进行说明。
具体的,对于每输入的一组状态参数,需要计算该状态参数下多个时间步的动作值,在本申请实施例中,执行的目标动作包括:增大或减小风电机组的偏航角度,而动作值即具体调整的角度值,进而后续可以根据每个动作值计算出对应的奖励函数值。在Q-learning算法中,控制器20可以在每个时间步选择一个目标动作,具体的从多个可能的动作中选出本时间步执行的目标动作的行动策略可以根据实际控制需求确定。举例而言,可以应用ε-greedy策略,或者不确定优先搜索策略(Optimismin Face of Uncertainty)中的一种,比如,置信区间上界算法(Upper Confidence Bound,简称UCB)等。
在本申请一个实施例中,每个时间步下选择一个目标动作,包括:基于当前的状态-动作值函数的值,选择累积回报值最大的动作作为当前时间步的目标动作。具体而言,控制器20可以根据当前的Q函数来选择动作,即可以通过以下公式从所有可能的动作中选择一个最优的动作:
a_t=argmax Q(s_t,a)
其中,a_t是在时间步t选择的动作,Q(s_t,a)表示在状态s_t下选择动作a所能获得的累积回报。
步骤S302,计算执行每个目标动作后的奖励函数的值,统计全部的时间步对应的奖励函数的值。
具体的,在每个时间步t,控制器20会观察当前状态s_t和选择的目标动作a_t,然后执行该目标动作并观察环境的反馈。反馈通常表示为一个奖励信号r_t,可以根据实际应用场景确定计算方式。即,每个时间步通过预处理只选择一个动作执行,每调整一次偏航角度,则计算一次对应的奖励函数的值,并记录该状态下的全部时间步中每个时间步对应的奖励函数的值。
在本申请一个实施例中,针对风电机组的偏航控制而言,可以通过以下方式计算奖励函数的值。先获取执行目标动作之前风电机组的第一发电功率以及执行目标动作之后风电机组的第二发电功率;再根据第一发电功率和第二发电功率计算风电机组的实际发电功率的变化量,根据变化量计算目标动作对应的奖励函数的值。即,本实施例根据风电机组执行该动作之前和之后实际发电功率的增加或降低,来定义该动作的奖励函数。
步骤S303,比较全部的时间步对应的奖励函数的值,将最大的奖励函数的值对应的目标动作为当前的状态参数下的目标偏航控制动作。
具体的,控制器20比较各个时间步对应的奖励函数的值,选择最优的目标动作值,将该最优的目标动作为当前输入的状态参数下的目标偏航控制动作。
步骤S304,基于目标偏航控制动作对应的奖励函数的值,更新执行目标偏航控制动作之后的状态-动作值函数的值。
具体的,在确定当前状态参数下的最优动作时,同时会计算出该状态s下采取目标偏航控制动作a所能获得的期望累积回报,即Q(s,a)即控制器20利用观察到的状态、动作和奖励信号来更新状态-动作值函数Q的值。
在本申请一个实施例中,可以通过以下公式更新状态-动作值函数的值:
Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmax Q(s_t+1,a)-Q(s_t,a_t)]
其中,s表示状态,t表示时间步,a表示选择的目标偏航控制动作,α是学习率,γ是折扣因子,γ表示未来奖励的折扣程度,r_t是奖励函数的值,Q(s_t,a_t)表示当前状态-动作对的原始值。
其中,更新公式中右边的第一项表示当前状态-动作对的原始值;第二项表示当前奖励和未来奖励的和,减去当前状态-动作对的原始值,即第二项是一个误差项,用于调整Q值的更新方向。
由此,Q-learning算法通过不断迭代更新Q函数的值来学习最优策略。在每个时间步t,控制器使用当前的Q函数来选择动作,并且在接下来的时间步中,将会根据新的状态和反馈信息更新Q函数的值。通过不断迭代更新Q函数,最终控制器可以找到最优的状态-动作值函数Q,从而实现最大化回报的目标。
需要说明的是,在训练阶段进行多回合的训练,每个回合的训练中进行多步的学习,通过重复上述步骤S301至步骤S304的过程,对基于Q函数中选择目标动作的行动策略进行训练,并根据确定的偏航控制动作不断更新Q值,直至Q值不断收敛到一个相对稳定的值,则可视为初步的深度神经网络训练结束,深度神经网络输出的目标偏航控制动作的精确度在允许的范围内,可用于进行后续实际的偏航控制。从而获得了用于输出偏航控制动作的目标神经网络。
步骤S103:通过当前时刻下的实时环境信息更新状态参数,将更新后的状态参数输入目标神经网络进行迭代训练,并获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作。
需要说明的是,对于风机的偏航控制而言,由于风机周围的环境信息不断变化,且状态参数中包含多种参数,所以状态参数存在无限种组合。在实际进行风机偏航控制时,是根据实时环境信息不断优化深度神经网络。
具体的,根据当前时刻下的实时环境信息输入一组新的状态参数,并按照步骤S102中的方式再次训练目标神经网络,迭代修正上述的函数Q(s,a)公式中的相关参数值和持续优化动作选择策略,包括根据当前奖励函数的值更新执行目标偏航控制动作之后的状态-动作值函数Q的值等,此处不再赘述。在本轮训练后,可以获取更新后的目标神经网络输出的当前时刻下的目标偏航控制动作。
进而,当环境信息再次发生变换时,状态参数又发生了变化,则在输入新的状态参数后再次重复上述训练过程,迭代修正Q(s,a)和动作选择策略。由此,通过更新后的状态参数对目标神经网络进行迭代训练,可以使状态-动作值函数Q越来越优,深度神经网络输出的目标偏航控制动作的精确性越来越高,实现针对环境变化的自主学习和自适应。
步骤S104:根据目标偏航控制动作调整风电机组在当前时刻下的偏航角度。
具体的,获取目标神经网络输出的当前时刻下实时环境信息对应的目标偏航控制动作后,执行该目标偏航控制动作,对风电机组的偏航角度进行调整,增大或减小相应的角度至目标偏航控制的动作值。
在本申请一个实施例中,可以由图2中的控制器20控制执行器30执行目标偏航控制动作,执行器30可以包括偏航电机和偏航制动器等设备,控制位于风电机组的风轮后方的两舵轮旋转,并通过齿轮传动***使风轮偏转等。
由此,可以使风电机组的风轮重新对准实时环境下的风向,提高风机的发电效率。
综上所述,本申请实施例的基于深度强化学习的风机偏航控制方法,基于深度强化学习的方式进行风机偏航控制,具有自主学习和适应能力,在实际运行中,可以根据当前的风速、偏航角度和发电功率等状态参数,通过Q-learning算法训练后的深度神经网络选择最优的偏航角度调整动作,以实现更加精准的自适应控制。同时,在风电机组所处的外部环境条件发生变化时,还可以通过实时更新输入的状态参数来适应环境变化,获得当前环境状态下所需的风机偏航控制动作。由此,该方法提高了风机偏航控制的的准确性、可靠性和适应性,从而能够获得最优的风能转换效率,有效地提高风机的发电效率。
为了更加清楚地说明本申请实施例基于深度强化学习的风机偏航控制方法的处理流程,下面以一个具体的风机偏航控制方法实施例进行详细说明。图4为本申请实施例提出的一种具体的基于深度强化学习的风机偏航控制方法的流程图。
如图4所示,该方法包括以下步骤:
步骤S401,收集数据。
在本步骤中,通过偏航角度传感器获取当前偏航角度,以及其他类型的传感器获取与风机控制相关的状态参数(比如风速、转速、发电功率等)。
步骤S402,定义状态-动作值函数Q。
步骤S403,训练模型。
在本步骤中,使用深度神经网络来表示状态-动作值函数Q,然后通过Q-learning算法进行强化学习,对状态-动作值函数Q进行训练。
步骤S404,更新Q函数。
在本步骤中,根据实时环境信息和历史数据更新状态-动作值函数Q,以适应变化的外部环境。从而帮助***更快地适应不同的工作环境和风力条件。
步骤S405,选择最优动作。
在本步骤中,根据奖励函数R选择最优的动作,即最优的偏航角度调整,以实现自适应控制。从而帮助***在各种条件下实现最大化发电功率。
可以理解的是,上述步骤S401至步骤S403可视为深度神经网络的训练阶段,在初步完成训练后,根据实时偏航控制中获取的环境信息更新Q函数,即执行步骤S404,并根据实时环境信息进行迭代训练,不断优化Q函数。
由此,该方法可以根据实时环境信息和历史数据不断学习和优化,从而实现更加精准的自适应控制。需要说明的是,本实施例的方法中各步骤的具体实现方式可参照上述实施例的相关描述,实现原理类似,此处不再赘述。
为了实现上述实施例,本申请还提出了一种基于深度强化学习的风机偏航控制***,图5为本申请实施例提出的一种基于深度强化学习的风机偏航控制的结构示意图,如图5所示,该***包括获取模块100、训练模块200、更新模块300和控制模块400。
其中,获取模块100,用于获取风电机组在不同时刻下的偏航角度数据和状态参数,将偏航角度数据和状态参数作为训练数据。
训练模块200,用于构建用于表示状态-动作值函数的深度神经网络,基于所训练数据通过深度强化学习算法对深度神经网络进行训练,获得用于输出偏航控制动作的目标神经网络。
更新模块300,用于通过当前时刻下的实时环境信息更新状态参数,将更新后的状态参数输入目标神经网络进行迭代训练,并获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作。
控制模块400,用于根据目标偏航控制动作调整风电机组在当前时刻下的偏航角度。
可选地,在本申请的一个实施例中,训练模块200,具体用于:对于当前的状态参数,在每个时间步下选择一个目标动作;依次计算执行每个目标动作后的奖励函数的值,统计全部的时间步对应的奖励函数的值;比较全部的时间步对应的奖励函数的值,将最大的奖励函数的值对应的目标动作为当前的状态参数下的目标偏航控制动作。
可选地,在本申请的一个实施例中,训练模块200,具体用于:获取执行目标动作之前风电机组的第一发电功率以及执行目标动作之后风电机组的第二发电功率;根据第一发电功率和第二发电功率计算风电机组的实际发电功率的变化量,根据变化量计算目标动作对应的奖励函数的值。
可选地,在本申请的一个实施例中,训练模块200,还用于:基于当前的状态-动作值函数的值,选择累积回报值最大的动作作为当前时间步的目标动作;更新模块300,具体用于:基于目标偏航控制动作对应的奖励函数的值,更新执行目标偏航控制动作之后的状态-动作值函数的值。
可选地,在本申请的一个实施例中,训练模块200具体用于通过以下公式更新所述状态-动作值函数的值:
Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmax Q(s_t+1,a)-Q(s_t,a_t)]
其中,s表示状态,t表示时间步,a表示选择的目标偏航控制动作,α是学习率,γ是折扣因子,γ表示未来奖励的折扣程度,r_t是奖励函数的值,Q(s_t,a_t)表示当前状态-动作对的原始值
可选地,在本申请的一个实施例中,获取模块100获取的状态参数,包括:风电机组所处环境下的风速和风向,以及风电机组的转速和发电功率。
需要说明的是,前述对基于深度强化学习的风机偏航控制方法的实施例的解释说明也适用于该实施例的***,此处不再赘述
综上所述,本申请实施例的基于深度强化学习的风机偏航控制***,基于深度强化学习的方式进行风机偏航控制,具有自主学习和适应能力,在实际运行中,可以根据当前的风速、偏航角度和发电功率等状态参数,通过Q-learning算法训练后的深度神经网络选择最优的偏航角度调整动作,以实现更加精准的自适应控制。同时,在风电机组所处的外部环境条件发生变化时,还可以通过实时更新输入的状态参数来适应环境变化,获得当前环境状态下所需的风机偏航控制动作。由此,该***提高了风机偏航控制的的准确性、可靠性和适应性,从而能够获得最优的风能转换效率,有效地提高风机的发电效率。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述实施例中任一所述的基于深度强化学习的风机偏航控制方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于深度强化学习的风机偏航控制方法,其特征在于,包括以下步骤:
获取风电机组在不同时刻下的偏航角度数据和状态参数,将所述偏航角度数据和所述状态参数作为训练数据;
构建用于表示状态-动作值函数的深度神经网络,基于所述训练数据通过深度强化学习算法对所述深度神经网络进行训练,获得用于输出偏航控制动作的目标神经网络;
通过当前时刻下的实时环境信息更新状态参数,将更新后的状态参数输入所述目标神经网络进行迭代训练,并获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作;
根据所述目标偏航控制动作调整所述风电机组在所述当前时刻下的偏航角度。
2.根据权利要求1所述的风机偏航控制方法,其特征在于,所述深度强化学习算法包括:Q-learning算法,所述基于所述训练数据通过深度强化学习算法对所述深度神经网络进行训练,包括:
对于当前的状态参数,在每个时间步下选择一个目标动作;
计算执行每个所述目标动作后的奖励函数的值,统计全部的时间步对应的奖励函数的值;
比较所述全部的时间步对应的奖励函数的值,将最大的奖励函数的值对应的目标动作为所述当前的状态参数下的目标偏航控制动作。
3.根据权利要求2所述的风机偏航控制方法,其特征在于,所述计算执行每个所述目标动作后的奖励函数的值,包括:
获取执行所述目标动作之前所述风电机组的第一发电功率以及执行所述目标动作之后所述风电机组的第二发电功率;
根据所述第一发电功率和所述第二发电功率计算所述风电机组的实际发电功率的变化量,根据所述变化量计算所述目标动作对应的奖励函数的值。
4.根据权利要求2所述的风机偏航控制方法,其特征在于,所述目标动作包括:增大或减小所述风电机组的偏航角度,所述在每个时间步下选择一个目标动作,包括:
基于当前的状态-动作值函数的值,选择累积回报值最大的动作作为当前时间步的目标动作;
在所述获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作之后,还包括:
基于所述目标偏航控制动作对应的奖励函数的值,更新执行所述目标偏航控制动作之后的所述状态-动作值函数的值。
5.根据权利要求2所述的风机偏航控制方法,其特征在于,通过以下公式更新所述状态-动作值函数的值:
Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmax Q(s_t+1,a)-Q(s_t,a_t)]
其中,s表示状态,t表示时间步,a表示选择的目标偏航控制动作,α是学习率,γ是折扣因子,γ表示未来奖励的折扣程度,r_t是奖励函数的值,Q(s_t,a_t)表示当前状态-动作对的原始值。
6.根据权利要求1所述的风机偏航控制方法,其特征在于,所述状态参数,包括:所述风电机组所处环境下的风速和风向,以及所述风电机组的转速和发电功率。
7.一种基于深度强化学习的风机偏航控制***,其特征在于,包括:
获取模块,用于获取风电机组在不同时刻下的偏航角度数据和状态参数,将所述偏航角度数据和所述状态参数作为训练数据;
训练模块,用于构建用于表示状态-动作值函数的深度神经网络,基于所述训练数据通过深度强化学习算法对所述深度神经网络进行训练,获得用于输出偏航控制动作的目标神经网络;
更新模块,用于通过当前时刻下的实时环境信息更新状态参数,将更新后的状态参数输入所述目标神经网络进行迭代训练,并获取本轮训练后的目标神经网络输出的当前时刻下的目标偏航控制动作;
控制模块,用于根据所述目标偏航控制动作调整所述风电机组在所述当前时刻下的偏航角度。
8.根据权利要求7所述的风机偏航控制***,其特征在于,所述训练模块,具体用于:
对于当前的状态参数,在每个时间步下选择一个目标动作;
依次计算执行每个所述目标动作后的奖励函数的值,统计全部的时间步对应的奖励函数的值;
比较所述全部的时间步对应的奖励函数的值,将最大的奖励函数的值对应的目标动作为所述当前的状态参数下的目标偏航控制动作。
9.根据权利要求8所述的风机偏航控制***,其特征在于,所述训练模块,具体用于:
获取执行所述目标动作之前所述风电机组的第一发电功率以及执行所述目标动作之后所述风电机组的第二发电功率;
根据所述第一发电功率和所述第二发电功率计算所述风电机组的实际发电功率的变化量,根据所述变化量计算所述目标动作对应的奖励函数的值。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的基于深度强化学习的风机偏航控制方法。
CN202310919076.3A 2023-07-25 2023-07-25 基于深度强化学习的风机偏航控制方法及*** Pending CN117052596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310919076.3A CN117052596A (zh) 2023-07-25 2023-07-25 基于深度强化学习的风机偏航控制方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310919076.3A CN117052596A (zh) 2023-07-25 2023-07-25 基于深度强化学习的风机偏航控制方法及***

Publications (1)

Publication Number Publication Date
CN117052596A true CN117052596A (zh) 2023-11-14

Family

ID=88658055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310919076.3A Pending CN117052596A (zh) 2023-07-25 2023-07-25 基于深度强化学习的风机偏航控制方法及***

Country Status (1)

Country Link
CN (1) CN117052596A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117905637A (zh) * 2024-01-25 2024-04-19 德州隆达空调设备集团有限公司 基于多传感数据的风机动态调节方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117905637A (zh) * 2024-01-25 2024-04-19 德州隆达空调设备集团有限公司 基于多传感数据的风机动态调节方法及***

Similar Documents

Publication Publication Date Title
JP6774637B2 (ja) 制御装置及び制御方法
CN117052596A (zh) 基于深度强化学习的风机偏航控制方法及***
US11009837B2 (en) Machine learning device that adjusts controller gain in a servo control apparatus
CN112292642B (zh) 用于控制技术***的控制装置和用于配置控制装置的方法
CN1963702A (zh) 电动机控制装置的自动调整法及装置
JP6908144B1 (ja) 自動操縦ロボットの制御装置及び制御方法
CN111608868A (zh) 风力发电***最大功率跟踪自适应鲁棒控制***及方法
CN109441723B (zh) 风力发电机组启机控制方法、装置、存储介质
CN116873631A (zh) 一种基于gdl卷材涂布生产线的自动纠偏***及方法
CN116665808A (zh) 基于邻域粗糙集与模糊神经网络的NOx排放预测方法及设备
CN113759708B (zh) ***的优化控制方法、装置和电子设备
CN116123028A (zh) 风电场级mppt预测模型控制方法和装置
CN116788783A (zh) 一种基于模糊控制算法的带式输送机纠偏控制方法及***
CN114070165B (zh) 一种电机驱动方法、***、装置及介质
US11720069B2 (en) Method for the computer-aided control of a technical system, more particularly a power generation installation
CN113090456A (zh) 一种在大风条件下风电机组桨距角控制方法、***和设备
CN113482853B (zh) 一种偏航控制方法、***、电子设备及储存介质
CN111749847A (zh) 一种风力发电机桨距在线控制方法、***和设备
Liu et al. Model-free and model-based time-optimal control of a badminton robot
CN109823199A (zh) 一种电动机的转速调整方法、装置、可读存储介质及机动车
CN114114923B (zh) 控制参数的确定方法、确定装置、压缩机***和存储介质
Deng et al. Dynamic fuzzy Q-learning and control of mobile robots
US20230067320A1 (en) Controller for controlling a technical system, and method for configuring the controller
WO2021245916A1 (ja) サーボ制御装置
CN117989054B (zh) 一种国产化风机智能控制方法、***和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination