CN113868961A

CN113868961A - 一种基于自适应值迭代核电***的功率跟踪控制方法

Info

Publication number: CN113868961A
Application number: CN202111212919.3A
Authority: CN
Inventors: 仲伟峰; 王蒙轩; 关钧陶
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2021-12-31

Abstract

本发明公开了一种基于自适应动态规划值迭代的核电***功率跟踪控制方法，包括：相关参数初始化；开启全局迭代，初始化评价网络权值，利用自适应动态规划值迭代算法训练评价网络，修正评价网络权值，其中评价网络用来近似跟踪误差值函数，并利用该评价网络评测当前误差控制策略的性能；通过执行流程选择最优跟踪误差控制策略，修正执行网络权值，更新一次全局迭代的成本；更新跟踪误差值函数和误差控制律，以获得最优解；判断当前是否满足收敛精度，若否，则返回全局迭代，否则根据最优跟踪误差值函数获得最优跟踪控制策略，跟踪到期望工况点。由此，本发明可以不断地学习、调整策略跟踪到期望工况点。

Description

一种基于自适应值迭代核电***的功率跟踪控制方法

技术领域

本发明实施例涉及核电机组功率控制技术领域，尤其是涉及一种基于自适应值迭代核电***的功率跟踪控制方法。

背景技术

近年来，由于煤炭燃烧发电，引发的温室效应、空气污染情况日益严重，其资源储备量也在逐年减少。核能作为一种清洁能源，具有无污染、运输成本低廉的优势，开始广泛受到各国关注，并加以应用普及到发电行业中来。核电***的安全性也一直受到各界关注，因此其功率的调控问题成为了焦点。一个稳定、安全、高效的核电机组功率跟踪控制方法对整个核电工业显得尤为重要。

有鉴于此，特提出本发明。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的一种基于自适应值迭代核电***的功率跟踪控制方法。

为了实现上述目的，根据本发明的一个方面，提供了以下技术方案：

一种基于自适应值迭代核电***的功率跟踪控制方法，所述方法包括：

S1：初始化参数；

S2：开启全局迭代，根据迭代控制序列更新迭代跟踪过误差值函数，以获得最优跟踪误差值函数；

S3：利用自适应动态规划值迭代算法训练评价网络，修正评价网络的权值；

S4：利用最优跟踪误差值函数得到最优误差控制策略，修正执行网络的权值，更新一次全局迭代成本；

S5：判断当前全局迭代是否满足收敛精度，如果满足收敛精度，根据最优跟踪误差值函数获得最优误差控制策略，若否则返回迭代。

与现有技术相比，上述技术方案至少具有以下有益效果：

本发明实施例通过神经网络构建的基于自适应动态规划算法的自学习功率跟踪控制器，能够通过实时的操作而不断地学习、调整和适应不同的核电功率状态，能够跟踪不同核电机组的工况点。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1为根据一示例性实施例示出的核电***模型示意图；

图2为根据一示例性实施例示出的基于积分强化的核电机组功率跟踪控制方法的流程示意图。

具体实施方式

为了更清楚地说明本发明的目的、技术方案和优点，以下结合具体实例，并参照附图，对本发明作进一步的详细说明。

自适应动态规划自20世纪80年代由Paul J.Werbos提出以来，得到了快速的发展。它主要是用来解决动态规划中的“维度灾难”问题，其具体解决方法是通过多次迭代优化求解。近年来，自适应动态规划算法在求解最优控制方面展现出巨大的优势。自适应动态规划方法一般使用控制器-评价器(actor-critic)结构和神经网络，用来逼近误差值函数和误差控制策略，采用迭代的方法逐步逼近方程解析解，最终收敛到最优跟踪误差值函数和最优跟踪误差控制策略。

自适应动态规划方法利用函数近似结构(如：神经网络)逼近动态规划方程中的跟踪误差值函数和误差控制策略以满足最优化原理，从而获得***最优控制和最优跟踪误差值函数。自适应动态规划结构主要包括动态***、控制网络和评价网络。评价网络用于近似最优代价函数，并给出评价指导执行网络产生最优控制。执行网络输出作用于动态***后通过动态***不同阶段产生的奖励/惩罚来影响评价网络，知道执行网络更新控制策略，使得总体代价(即奖励/惩罚的总和)达到最优。

自适应动态规划值迭代方法不依赖***模型，而是基于实时产生的***状态和相应的控制动作来调整控制器和评价器神经网络的权重。最终，自适应动态规划值迭代方法能够在线运行并使得控制器和评价器神经网络最终迭代收敛到最优误差控制策略和最优跟踪误差值函数。特别适用于线性或非线性离散***的在线求解最优控制问题。

图1为本发明实施例应用的核电***示意图，其示意性地示出了核电***反应传热模型图。该核电***由一个反应堆、两个冷却堆组成。其中，Q仅代表热量传递，对核电***模型并无实际含义。本核电***共包含五个***状态，Power percentage表示***的发电功率百分比(其满负载发电功率为2500MW)；Delayed neural concentration 表示核电***反应釜内部缓发中子的相对浓度；Reactor core Temperature为核电***反应堆堆芯平均温度(同时我们也可以用T_f表示)；Coolant outlet Temperature表示核电***内部冷却剂的平均温度；Reactor coefficient表示核电***由控制棒上下移动引起的反应性变化。该***仅由控制棒的反应速度作为控制信号，当控制棒以一定速度上下移动时，其反应堆堆芯内部反应会随之变化。控制棒向上移动且速度越快，反应越激烈。控制棒向下移动，则反之。

如图2所示，本发明实施例提供一种基于自适应动态规划值迭代的核电***功率跟踪控制方法，该方法可以包括步骤S1只步骤S5。

S1：所述初始化参数包括：：核电***参数、全局训练步长、时间常数、收敛精度以及目标参数；其中，所述核电***参数为核电的功率模型***参数，该模型包括五个***输入输出状态。

其核电功率***模型主要有堆芯内部中子反应方程，反应堆的两个温度反馈模型，控制棒的反应性方程。在反应堆特性研究中，多采用控制棒控制的方法。因为控制棒具有很强的中子吸收能力，而且移动速度易于控制，操作方便，对反应性控制的准确性高控制棒对反应性的影响可以通过两种方式来体现：位置的变化和速度的变化。

此外还需要进行对初始功率工况点与期望功率工况点的选取。同时还要对以下参数进行初始化：全局训练时间步长、局部迭代时间步长、神经网络结构(诸如输入节点数量、隐层节点数量和输出层节点数量)、神经网络权重。

示例地，设置评价网络的结构为5-15-1，其中5为评价网络的输入节点数量，15为评价网络隐层节点数量，1为评价网络输出层节点数量，隐层节点数量可根据经验进行调整以获得最佳的逼近效果，并且定义收敛精度为1.0×10^-2。同样的，设置执行网络的结构为5-5-1，并且定义收敛精度为1.0×10^-2，其中，5为评价网络的输入节点数量， 5为评价网络隐层节点数量，1为评价网络输出层节点数量。

在执行阶段，本发明实施例使用简化的有限维控制变量，即设定有限的、确定的核电功率工况点进行跟踪。

在实际应用中，初始工况点与期望工况点的选取可根据实际需求设定，其中核电机组的功率模型及参数设定也需要具有实际意义。

S2：进行全局训练时，根据迭代控制序列更新迭代跟踪误差值函数，以获得最优性跟踪误差值函数；

具体地，根据控制器的自适应动态规划值迭代方法要求，需要对评价网络进行权值初始化工作。

作为示例，在综合考虑了权值收敛速度与稳定性的情况下，在全局迭代之内，确定评价网络和执行网络的权值W_C、W_A在(-0.01，0.01) 范围内随机初始化(采用随机方式进行初始化)得到。其中，W_C为评价网络的输入层节点与隐层节点之间的权值；W_A为执行网络的隐层节点与输出层节点之间的权值。

利用自适应动态规划值迭代算法训练评价网络：评价网络的输入值包括：核电机组工作点的五个状态x(t)、核电机组期望工作点的五个状态x_d(t)、核电机组跟踪误差控制策略u_e(t)，输出值是跟踪误差值函数V_e(t)。其中，V_e(t)值函数简称为V函数。最优跟踪误差控制策略 u_e(t)由根据评价网络得到的跟踪误差值函数近似而得到。

评价网络的权值初始化在全局迭代之内进行。优选地，可以在每次全局迭代开始时重新进行权值的初始化，从而在保证评价网络稳定性与收敛速度的基础上更好地保证评价网络的收敛，以便尽快找到核电***的功率最优跟踪控制策略。

在执行阶段，评价网络的输入数据为核电机组的五个状态输出 x(t)与期望功率点x_d(t)的差值x_e(t)和根据训练后的评价网络得到的最优跟踪误差控制策略u_e(t)。评价网络的输出数据为跟踪误差值函数 V_e(t)。

根据Bellman方程，利用评价网络下一时刻的输出V_e(t+T)与效用函数U(t)计算得到当前时刻的输出数据V_e(t)，计算公式如下：

利用全局迭代误差控制律

来更新全局迭代V_e函数。

下面举例详细说明获得最优跟踪误差值函数的过程。

设t时刻，x(t)为该时刻核电机组的五个输入输出状态，x_d(t)为期望功率点，我们有***跟踪误差x_e(t)，u_e(t)为跟踪误差控制策略；其误差控制***可以定义为：

x_e(t+1)＝f(x(t)-x_d(t),u_e(t),t)

其中f可由核电机组功率模型推导而出。定义效用函数如下所示：

U(t)＝α[x_e(t)]²+β[u_e(t)]²

其中，α与β为常数；u_e(t)为核电功率机组在当前时间控制律与期望工作控制律的差值。效用函数U(t)表示t时刻核电机组当前工况点与期望工况点差值和控制棒控制律的效用总和。

我们给定效用函数一个新的形式：

其中，Q和R分别为正定矩阵，我们的全局跟踪误差值函数可以定义为：

其

满足Hamilton-Jacobi-Bellman equation方程，如下：

其最优跟踪误差控制律可表示为：

我们得到新的Hamilton-Jacobi-Bellman equation方程，如下所示：

定义其误差跟踪值函数更新式子如下：

其中，i＝0,1,2,…，则误差跟踪控制律可以由下式得到：

当i→∞，

会收敛于最优值。

S3：利用自适应动态规划值迭代算法训练评价网络，修正所述评价网络的权值，并利用所述最优跟踪误差值函数得到最优误差控制策略；

训练迭代的目标就是获得最优的

其跟踪误差值函数更新规则为：

最优误差控制律更新规则如下：

当i→∞时，

会收敛于最优值

然后，更新评价网络的权值，以逼近最优跟踪值函数。其中，更新规则如下：

W_C＝-(X^TX)^-1(X^TY)

其中，▽σ为评价网络的权重向量偏差，X为评价网络的权重向量内积差值，Y为评价网络近似的目标近似值，W_C为评价网络的权值。

具体地，在完成跟踪误差值函数评价后后，更新迭代跟踪误差值函数和误差控制律，以获得最优跟踪误差值函数和最优误差控制策略。

然后，更新执行网络的权值，以逼近最优跟踪误差控制器。其中，更新规则如下：

W_A＝-(X^TX)^-1(X^TY)

其中，▽σ为执行网络的权重向量偏差，X为执行网络的权重向量内积差值，Y为执行网络近似的目标近似值，W_A为评价网络的权值。

由于跟踪误差控制策略和跟踪误差值函数是随着控制器、评价器神经网络的权重而改变的，所以，调整控制器、评价器神经网络的权重意味着误差控制策略和跟踪误差值函数的更新。在执行阶段，将有限的控制变量代入由评价网络近似的最优跟踪误差值函数

最优误差控制策略是根据评价网络得到的跟踪误差值函数近似得到的，选择使最优跟踪误差值函数最小的控制变量作为最优误差控制策略：

评价网络用来近似最优跟踪值函数，并利用该评价网络权值评测当核电控制棒***的性能，通过执行流程选择最优误差控制策略，最小化全局训练的跟踪误差总成本。

总成本的计算需要将最优跟踪误差控制策略

代入实际模型，这里由于效用函数U(x_e,u_e)的定义依赖于实际模型，所以总成本可近似为最终得到的最优跟踪误差值函数

确定当前迭代次数是否达到迭代阈值，若是，则终止训练，跟踪到期望工况点，如果尚未完成，则执行步骤S2。

本实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述，但是，上述实施例的说明仅适用于帮助理解本发明实施例的原理；同时，对于本领域技术人员来说，依据本发明实施例，在具体实施方式以及应用范围之内均会做出改变。

需要说明的是，本文中涉及到的流程图不仅仅局限于本文所示的形式，其还可以进行划分和/或组合。

需要说明的是：附图中的标记和文字只是为了更清楚地说明本发明，不视为对本发明保护范围的不当限定。

本发明并不限于上述实施方式，在不背离本发明实质内容的情况下，本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的保护范围。

Claims

1.一种基于自适应值迭代的核电***功率跟踪控制方法，其特征在于，所述方法包括：

S1：初始化参数；

2.根据权利要求1所述的方法，其特征在于，在所述步骤S1中，所述初始化参数包括：核电***参数、全局训练步长、时间常数、收敛精度以及目标参数；其中，所述核电***参数为核电的功率模型***参数，该模型包括五个***输入输出状态。

3.根据权利要求2所述的方法，其特征在于，设置所述评价网络的结构为5-15-1，并且定义收敛精度为1.0×10^-2，其中，5为评价网络的输入节点数量，15为评价网络隐层节点数量，1为评价网络输出层节点数量。设置执行网络的结构为5-5-1，并且定义收敛精度为1.0×10^-2，其中，5为评价网络的输入节点数量，5为评价网络隐层节点数量，1为评价网络输出层节点数量。

4.根据权利要求1所述的方法，其特征在于，所述步骤S2还包括：在范围内采用随机方式进行评价网络的权值初始化。

5.根据权利要求1所述的方法，其特征在于，在所述步骤S3中，所述评价网络的输入数据包括核电机组的5个工作状态x(t)与期望功率的工作状态点x_d(t)的跟踪误差值x_e(t)，和核电功率控制棒的跟踪控制策略u_e(t)；所述评价网络的输出数据包括：跟踪误差值函数V_e(t)；

根据Bellman方程，利用所述评价网络下一时刻的输出V_e(t+1)与效用函数U(t)，并通过以下公式计算当前时刻的输出数据V_e(t)：

其中，x_e(t)为核电机组的5个工作状态x(t)与期望功率的工作状态点x_d(t)的跟踪误差值x_e(t)；效用函数U(t)表示t时刻跟踪误差值x_e(t)和核电功率控制棒的跟踪控制策略u_e(t)的效用总和。

6.根据权利要求5所述的方法，其特征在于，所述效用函数U(t)的计算公式为：

U(t)＝α[x_e(t)]²+β[u_e(t)]²

其中，α与β为常数；u_e(t)为核电功率机组在当前时间控制律与期望工作控制律的差值。

7.根据权利要求1所述的方法，其特征在于，在所述步骤S3中，所述评价网络的执行阶段的输入数据包括被控核电机组的相对功率系数、缓发中子相对浓度、反应堆堆芯平均温度、冷却剂的平均温度和控制棒的反应性；所述评价网络的执行阶段的输出数据包括最优跟踪误差值函数，该值函数可以用来得到最优跟踪误差控制策略，其中，所述最优跟踪控制策略由执行网络近似并输出。

8.根据权利要求1所述的方法，其特征在于，在所述步骤S3中，所述评价以及执行网络的更新规则如下：

W_CA＝-(X^TX)^-1(X^TY)

其中，▽σ为评价-执行网络的权重向量偏差，X为评价网络的权重向量内积差值，Y为评价-执行网络近似的目标近似值，W_CA为评价网络的权值。