CN112180996A - 一种基于强化学习的液位容错控制方法 - Google Patents

一种基于强化学习的液位容错控制方法 Download PDF

Info

Publication number
CN112180996A
CN112180996A CN202010947314.8A CN202010947314A CN112180996A CN 112180996 A CN112180996 A CN 112180996A CN 202010947314 A CN202010947314 A CN 202010947314A CN 112180996 A CN112180996 A CN 112180996A
Authority
CN
China
Prior art keywords
liquid level
fault
output
weight
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010947314.8A
Other languages
English (en)
Inventor
张大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010947314.8A priority Critical patent/CN112180996A/zh
Publication of CN112180996A publication Critical patent/CN112180996A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D9/00Level control, e.g. controlling quantity of material stored in vessel
    • G05D9/12Level control, e.g. controlling quantity of material stored in vessel characterised by the use of electric means

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于强化学习的液位容错控制***,是用于多容水箱***的容错控制,所需要的前提条件仅仅是检测到发生了故障,而无需进一步对故障进行诊断,这个前提条件在故障检测与诊断中是比较容易实现的,目前有很多成熟的方法,如PCA、贝叶斯决策等。另外,评价动作结构主要是采用人工神经网络来说实现的,而神经网络具有很好的鲁棒性,能够有效的克服噪声的影响。本发明可以在没有训练样本的情况下直接利用所采集的数据进行控制,从而实现容器液位达到无故障情况时的相同指标。本发明的方法获得的控制量是一种***发生故障时的最优控制量,是***发生故障时在最大程度上所能达到的性能指标。

Description

一种基于强化学习的液位容错控制方法
技术领域
本发明涉及一种液位容错控制方法。特别是涉及一种基于强化学习的液位容错控制方法。
背景技术
在工农业生长中,常常需要对容器的液位进行控制,比如自动控制水箱、水池、水槽、锅炉等荣次的储水量,单个容器的水位控制已有大量成熟的产品直接应用,但工业生产中(结晶器液位)控制,常常面临多个容器通过阀门连通的情况,通过对阀门开度的调节保持不同容器的设定高度,从而保证了容器中的液相反应具有较高的效率,然而由于传感器精度下降所带来的检测信号偏差,阀门控制器的性能下降以及由于密闭失效造成的罐内液体泄漏常常造成了液位偏离原有设定值,从而降低了液相反应效率,通常采用的方法是容错控制。
多容器连接通过连接阀的开度调整使得各个容器的高度保持在设定位置,但由于传感器精度下降所带来的检测信号偏差,阀门控制器的性能下降以及由于密闭失效造成的罐内液体泄漏常常造成了液位偏离原有设定值。
在传统的基于数据驱动的各类人工智能方法中,需要事先采用样本数据来进行训练,但由于故障发生的时间不确定性和故障类型的随机性,难以获得足够的有效故障数据作为训练样本。
发明内容
本发明所要解决的技术问题是,提供一种通过调整流量,使得各个容器的液位即使在故障情况下也能保持在无故障情况下的高度的基于强化学习的液位容错控制方法。
本发明所采用的技术方案是:一种基于强化学习的液位容错控制***,其特征在于,是用于多容水箱***的容错控制,包括:用于分别采集每个水箱在不同时刻的液位信息的信息采集单元,用于根据接收信息采集单元输出的k时刻所有水箱的液位信息和变频器的控制信息来预测k+1时刻所有水箱的液位信息的无故障模型,用于根据分别接收信息采集单元输出的k时刻和k+1时刻所有水箱的液位信息,分别估计出k时刻和k+1时刻所应的控制变频器的控制变量的总体价值V(k)和V(k+1)的评价网络,用于根据分别接收信息采集单元输出的k+1时刻所有水箱的液位信息、以及无故障模型输出的预测k+1时刻所有水箱的液位信息评估出阶段价值R(k)的阶段价值评估单元,用于根据分别接收的阶段价值评估单元输出的阶段价值以及评价网络输出的总体价值V(k)和V(k+1)输出用于权值更新的适应度函数的偏差估计单元,用于根据接收偏差估计单元输出的适应度函数对评价网络进行权值更新的权值更新单元,所述评价网络根据接收权值更新单元输出的所有更新后的权值,输出与变频器的控制量u(k)有关的权值,用于根据接收评价网络输出的与变频器的控制量u(k)有关的权值以及信息采集单元输出的k时刻所有水箱的液位信息进行迭代更新得到最优控制变量对多容水箱***的变频器进行控制的动作网络。
本发明的一种基于强化学习的液位容错控制方法,具有如下优点:
1、本发明的方法不用提前对故障类型和部位进行诊断和定位,直接采用数据驱动的方法对容器液位进行容错控制。
2、本发明的方法克服了传统人工智能方法需要足够训练样本而实际***很难获得这些样本数据之间的矛盾,可以在没有训练样本的情况下直接利用所采集的数据进行控制,从而实现容器液位达到无故障情况时的相同指标。
3、本发明的方法获得的控制量是一种***发生故障时的最优控制量,是***发生故障时在最大程度上所能达到的性能指标。
附图说明
图1是本发明一种基于强化学习的液位容错控制方法的控制结构示意图;
图2是本发明中评价神经网络示意图;
图3是本发明中动作神经网络示意图;
图4是本发明实施例中三容***结构示意图;
图5是本发明实施例执行器输出偏差故障场景中T3的液体高度图;
图6是本发明实施例执行器输出偏差故障场景中各个状态的演变图;
图7是本发明实施例执行器输出偏差故障场景中控制变量图;
图8是本发明实施例执行器卡死故障场景中T3的液体高度图;
图9是本发明实施例执行器卡死故障场景中各个状态的演变图;
图10是本发明实施例执行器卡死故障场景中控制变量图;
图11是本发明实施例潜水泵1开度类似卡死故障降至30%时T3的液体高度图;
图12是本发明实施例潜水泵1开度类似卡死故障降至30%时各个状态的演变图;
图13是本发明实施例潜水泵1开度类似卡死故障降至30%时控制变量图;
图14是本发明实施例泄漏故障情景中T3的液体高度图;
图15是本发明实施例泄漏故障情景中各个状态的演变图;
图16是本发明实施例泄漏故障情景中控制变量图。
具体实施方式
下面结合实施例和附图对本发明的一种基于强化学习的液位容错控制方法做出详细说明。
如图1所示,本发明的一种基于强化学习的液位容错控制***,是用于多容水箱***的容错控制,包括:用于分别采集每个水箱在不同时刻的液位信息的信息采集单元1,用于根据接收信息采集单元1输出的k时刻所有水箱的液位信息和变频器的控制信息来预测k+1时刻所有水箱的液位信息的无故障模型3,用于根据分别接收信息采集单元1输出的k时刻和k+1时刻所有水箱的液位信息,分别估计出k时刻和k+1时刻所应的控制变频器的控制变量的总体价值V(k)和V(k+1)的评价网络2,用于根据分别接收信息采集单元1输出的k+1时刻所有水箱的液位信息、以及无故障模型3输出的预测k+1时刻所有水箱的液位信息评估出阶段价值R(k)的阶段价值评估单元4,用于根据分别接收的阶段价值评估单元4输出的阶段价值以及评价网络2输出的总体价值V(k)和V(k+1)输出用于权值更新的适应度函数的偏差估计单元5,用于根据接收偏差估计单元5输出的适应度函数对评价网络2进行权值更新的权值更新单元6,所述评价网络2根据接收权值更新单元6输出的所有更新后的权值,输出与变频器的控制量u(k)有关的权值,用于根据接收评价网络2输出的与变频器的控制量u(k)有关的权值以及信息采集单元1输出的k时刻所有水箱的液位信息进行迭代更新得到最优控制变量对多容水箱***的变频器进行控制的动作网络7。其中,
1)所述的信息采集单元1输出的k时刻所有水箱的液位信息表示为x(k),k+1时刻所有水箱的液位信息表示为x(k+1)。
2)所述的无故障模型3表示如下:
Figure BDA0002675735050000031
Figure BDA0002675735050000032
Figure BDA0002675735050000033
Figure BDA0002675735050000034
式中,x1,x2,x3和xn分别为水箱T1、水箱T2、水箱T3和水箱Tn的液位信息,S1,S2,S3,和Sn分别是水箱T1、水箱T2、水箱T3和水箱Tn的截面积,g是重力加速度,参数
Figure BDA0002675735050000035
参数
Figure BDA0002675735050000036
参数
Figure BDA0002675735050000037
参数
Figure BDA0002675735050000038
参数
Figure BDA0002675735050000039
式中,R12是水箱1和水箱2之间的流动阻力,R32是水箱3和水箱2之间的流动阻力,R43是水箱4和水箱3之间的流动阻力,Rn-1,n是水箱n-1和水箱n之间的流动阻力,Rn为水箱Tn的排水阻力,ρ为液体密度;
Figure BDA00026757350500000310
Q1和Q2是潜水泵1和潜水泵2的流量。
3)所述的评价网络2如图2所示,包括依次全连接的输入层、隐含层和输出层,其中,所述的输入层具有n+2个神经元,所述的隐含层具有2n个神经元,输出层具有1个神经元。
4)所述的阶段价值评估单元4是由如下公式构成:
Figure BDA00026757350500000311
式中,R(k)为阶段价值;x(k+1)为k+1时刻所有水箱的液位信息;xr(k+1)为无故障模型(3)输出的预测k+1时刻所有水箱的液位信息。
5)所述的偏差估计单元5是由如下公式构成:
TE=V(k)-R(k)+γV(k+1)
式中,TE为偏差;V(k)和V(k+1)分别为k时刻和k+1时刻所应的控制变频器的控制变量的总体价值;R(k)为阶段价值;γ为折扣因子。
6)所述的权值更新单元6包括:
(1)将评价网络2中输入层与隐含层的权值Wc1,以及隐含层与输出层的权值Wc2用相应的粒子位置表示,随机选取粒子初始值;
(2)根据如下公式,计算每个粒子的适应度函数:
Figure BDA0002675735050000041
式中,FF(z(k))为第i个粒子第p次迭代时的适应度函数;V(k)和V(k+1)分别为k时刻和k+1时刻所应的控制变频器的控制变量的总体价值;R(k)为阶段价值;γ为折扣因子;X(k)为k时刻所有水箱的液位信息x(k)和变频器的控制信息u(k)的组合;
(3)根据适应度函数值,按如下公式获得当前粒子群的最佳位置pbest和整个粒子群所经历的最佳位置gbest,并更新pbest,gbest
Figure BDA0002675735050000042
Figure BDA0002675735050000043
式中,i为粒子序号,m为粒子个数;p为迭代次数;
(4)根据如下粒子群算法的基本迭代公式更新粒子移动速度vi和粒子的位置zi
Figure BDA0002675735050000044
Figure BDA0002675735050000045
式中,z表示粒子位置,v表示粒子速度,ω是惯性重量,c1和c2是加速常数,rand1和rand2是在[0,1]之间独立生成的两个随机数,pbest是当前粒子群的最佳位置,gbest是整个粒子群所经历的最佳位置,(p)表示迭代次数;
(5)重复步骤(2)到步骤(4)直到收敛,记录当前粒子群的最佳位置gbest1
(6)重新分配随机数为[0,1]的粒子,得到新的适应度函数值;
(7)重复(2)到步骤(4)直到收敛,并记录当前粒子群的最佳位置gbest2
(8)如果最佳位置gbest2优于最佳位置gbest1,则用最佳位置gbest2替代最佳位置gbest1,否则保持最佳位置gbest1不变;
(9)重复(2)到步骤(8),直到找不到更好的最优位置,得到最终位置gbest1
(10)粒子在gbest1处的位置是评判网络Wc1和Wc2的解。
7)所述的动作网络7如图3所示,包括有依次全连接的输入层、隐含层和输出层,其中,所述的输入层具有n个神经元,所述的隐含层具有n+3个神经元,输出层具有2个神经元,输入层与隐含层之间的权值为Wa1,隐含层与输出层之间的权值为Wa2
8)所述动作网络7的权值变化为
ΔWa2=l·Wc2·[sout,c(1-sout,c)]·Wc1,u·sout,a
ΔWa1=l·Wc2·[sout,c(1-sout,c)]·Wc1,u·Wa2·[sout,a(1-sout,a)]·x(k)
式中,l为学习率,Wc2表示评价网络2中隐藏层与输出层之间的权值,sout,c和sout,a分别是评价网络2和动作网络7中的非线性函数的输出;Wc1,u为评价网络2隐含层对与变频器的控制量u(k)有关的权值,Wa2为动作网络7中隐藏层与输出层的权值,x(k)是k时刻所有水箱的液位信息,Wc1,u、Wc2、sout,c,sout,a和Wa2均从评价网络和动作网络中获得;
根据如下公式更新动作网络的权值Wa1和Wa2
Wa1’=Wa1+ΔWa1
Wa2’=Wa2+ΔWa2
式中,Wa1’和Wa2’为动作网络7中更新后的输入层与隐含层之间的权值以及隐藏层与输出层之间的权值。
下面给出实验验证
以一个三容***为实验平台,验证了所提出的方法。三容***由水箱T1、T2、T3、流量Q1、Q2由数字控制器控制的潜水泵1、潜水泵2、连接阀CV1、CV2、CV3、泄漏阀LV1、LV2、LV3和管道组成。每个水箱T1、T2和T3的液位信息可通过液位计分别获得。三个水箱T1、T2和T3具有相同尺寸的管道连接。***在开启连接阀和关闭泄漏阀的情况下工作。因此,储水池内的液体通过连接阀CV3流入水箱,并通过潜水泵1、潜水泵2重新进入罐体内。通过手动调节连接阀CV1、CV2、CV3和泄漏阀LV1、LV2、LV3的开度,可以改变水箱间流动阻力。潜水泵1、潜水泵2分别由单独的变频器控制。潜水泵1、潜水泵2的流量由其转速决定,转速由单独的变频器控制。控制器输出为变频器控制信号0-5V。通过附加实验,得到了泵流量与频率控制信号之间的关系。之后,为了清晰起见,我们省略了变频器,以泵流量代替转速作为被控对象的控制变量。结构如图4所示。
下式给出了三容***的无故障模型
Figure BDA0002675735050000051
Figure BDA0002675735050000052
Figure BDA0002675735050000053
式中,各个变量的含义与前面相同。
我们对潜水泵1采用PID控制器,使潜水泵2保持在50%开度(软通道控制信号0-5V的中间信号2.5V),实现了在无故障的情况下将液位保持在T3的目标。我们称这种稳定性为无故障的标准状态。当故障发生时,具有两个输出(潜水泵1和潜水泵2的流量)的FTC控制器将取代以前的控制器(潜水泵1的PID和潜水泵2的50%固定开度)。我们的目标是通过分别控制潜水泵1和潜水泵2的流量来保持T3中的参考液位。
A、执行器输出偏差故障场景
在无故障情况下,通过改变潜水泵流量与频率控制信号之间的关系来模拟潜水泵1的执行器故障,与连接控制器输出的初始值相比,这种变化使得通量增加/减少。通过这种方法,可以用软方法得到执行器的输出偏差故障,防止真正的执行器损坏。取样100后,发生潜水泵1执行器故障,故障为流量大于其初始设定值为12L/min(根据泵流量与频率控制信号的关系换算)。T3的液相高度、状态演化和控制变量如图5、图6和图7所示。
第一条曲线和第二条曲线分别代表没有采用FTC和采用FTC时的情况。图6显示无故障状态下的状态x1、x2和x3在故障发生前保持稳定,T3的液体高度保持在参考水平(图5)。当故障发生在样本100时,状态x1将上升,因为T1的流量更多,而状态x2、x3也将上升,因为在没有采用FTC的情况下耦合。但经过一个过渡过程后,T3的液位高度从10cm到15cm将进入另一个稳定状态。采用3-10-2的前向神经网络,按程序1设计了FTC控制器。训练集选取100个数据,采用Levenberg-Marquardt算法进行训练。训练良好的神经网络被用作FTC。该算法明显地恢复了T3的液相高度。
关于控制变量的更多解释将在图7的基础上给出。在图7中,水平坐标是采样时间,而纵向坐标是泵的流量。纵向坐标的标度零点表示泵在标准状态下的流量。我们使用标度零代替实际流量,因为在无故障的情况下,标准状态将随T3的参考水平而变化。负的意思是更少的流量,正的意思是更多的流量比标准状态下的无故障。第一条曲线和第二条曲线分别代表没有采用FTC和采用FTC时的流量。可以看出,泵1将减少流量,以对执行器反应更多输出故障。另一方面,泵2也将降低输出,以使T3液体高度保持在参考水平。
B、执行器卡死故障场景
取样100后,泵1在60%开度时出现卡滞故障(变频器控制信号0-5V的信号3V,表示泵1因失去控制而受到冲击)。图8、图9和图10分别是T3的液体高度、状态演变和控制变量。
从图9的第一条曲线可以看出,如果跟随控制对象,在发生卡滞故障后,T1、T2和T3的液位会缓慢升高(响应于设备的特性)。图10显示了有FTC(第二条曲线)和没有FTC(第一条曲线)的控制变量。由于泵1堵塞,失去调节功能,第一条和第二条曲线重合。泵2通过停止输送流量一段时间以释放积聚物来反映此故障。然后它将提供稳定的流量以维持T3的水平。图8显示,在FTC的控制下,T3的液体高度可以保持无故障(红色曲线)的高度。
泵1开度类似卡死故障降至30%(变频器控制信号0-5V信号1.5V),无法维持液位上升。T3的状态演变、液体高度和控制变量如图12、图11和图13所示。第一条曲线表示没有FTC的情况,第二条曲线表示有FTC的状态演化。从图13可以看出,与60%的断块张开相比,释放流的强度更低,时间更短。由于稳定性的不同,第一条曲线和第二条曲线之间也出现了偏差。
C、泄漏故障情景
我们还通过部分打开T3油箱的LV2造成流量泄漏故障。如图14所示,如果实施无故障控制(如第一条曲线所示),由于流量泄漏,T3中的液体高度将从9cm降低至7cm。图14的第二条曲线显示了在采用FTC下T3的液体高度趋势。可以看到T3中的液体高度由于FTC的作用将保持在无故障的水平。状态演化和控制变量如图15和图16所示。

Claims (9)

1.一种基于强化学习的液位容错控制***,其特征在于,是用于多容水箱***的容错控制,包括:用于分别采集每个水箱在不同时刻的液位信息的信息采集单元(1),用于根据接收信息采集单元(1)输出的k时刻所有水箱的液位信息和变频器的控制信息来预测k+1时刻所有水箱的液位信息的无故障模型(3),用于根据分别接收信息采集单元(1)输出的k时刻和k+1时刻所有水箱的液位信息,分别估计出k时刻和k+1时刻所应的控制变频器的控制变量的总体价值V(k)和V(k+1)的评价网络(2),用于根据分别接收信息采集单元(1)输出的k+1时刻所有水箱的液位信息、以及无故障模型(3)输出的预测k+1时刻所有水箱的液位信息评估出阶段价值R(k)的阶段价值评估单元(4),用于根据分别接收的阶段价值评估单元(4)输出的阶段价值以及评价网络(2)输出的总体价值V(k)和V(k+1)输出用于权值更新的适应度函数的偏差估计单元(5),用于根据接收偏差估计单元(5)输出的适应度函数对评价网络(2)进行权值更新的权值更新单元(6),所述评价网络(2)根据接收权值更新单元(6)输出的所有更新后的权值,输出与变频器的控制量u(k)有关的权值,用于根据接收评价网络(2)输出的与变频器的控制量u(k)有关的权值以及信息采集单元(1)输出的k时刻所有水箱的液位信息进行迭代更新得到最优控制变量对多容水箱***的变频器进行控制的动作网络(7)。
2.根据权利要求1所述的一种基于强化学习的液位容错控制方法,其特征在于,所述的信息采集单元(1)输出的k时刻所有水箱的液位信息表示为x(k),k+1时刻所有水箱的液位信息表示为x(k+1)。
3.根据权利要求1所述的一种基于强化学习的液位容错控制方法,其特征在于,所述的无故障模型(3)表示如下:
Figure FDA0002675735040000011
Figure FDA0002675735040000012
Figure FDA0002675735040000013
Figure FDA0002675735040000014
式中,x1,x2,x3和xn分别为水箱T1、水箱T2、水箱T3和水箱Tn的液位信息,S1,S2,S3,和Sn分别是水箱T1、水箱T2、水箱T3和水箱Tn的截面积,g是重力加速度,参数
Figure FDA0002675735040000015
参数
Figure FDA0002675735040000016
参数
Figure FDA0002675735040000017
参数
Figure FDA0002675735040000018
参数
Figure FDA0002675735040000019
式中,R12是水箱1和水箱2之间的流动阻力,R32是水箱3和水箱2之间的流动阻力,R43是水箱4和水箱3之间的流动阻力,Rn-1,n是水箱n-1和水箱n之间的流动阻力,Rn为水箱Tn的排水阻力,ρ为液体密度;
Figure FDA0002675735040000021
Q1和Q2是潜水泵1和潜水泵2的流量。
4.根据权利要求1所述的一种基于强化学习的液位容错控制方法,其特征在于,所述的评价网络(2)包括依次全连接的输入层、隐含层和输出层,其中,所述的输入层具有n+2个神经元,所述的隐含层具有2n个神经元,输出层具有1个神经元。
5.根据权利要求1所述的一种基于强化学习的液位容错控制方法,其特征在于,所述的阶段价值评估单元(4)是由如下公式构成:
Figure FDA0002675735040000022
式中,R(k)为阶段价值;x(k+1)为k+1时刻所有水箱的液位信息;xr(k+1)为无故障模型(3)输出的预测k+1时刻所有水箱的液位信息。
6.根据权利要求1所述的一种基于强化学习的液位容错控制方法,其特征在于,所述的偏差估计单元(5)是由如下公式构成:
TE=V(k)-R(k)+γV(k+1)
式中,TE为偏差;V(k)和V(k+1)分别为k时刻和k+1时刻所应的控制变频器的控制变量的总体价值;R(k)为阶段价值;γ为折扣因子。
7.根据权利要求1所述的一种基于强化学习的液位容错控制方法,其特征在于,所述的权值更新单元(6)包括:
1)将评价网络(2)中输入层与隐含层的权值Wc1,以及隐含层与输出层的权值Wc2用相应的粒子位置表示,随机选取粒子初始值;
2)根据如下公式,计算每个粒子的适应度函数:
Figure FDA0002675735040000023
式中,FF(z(k))为第i个粒子第p次迭代时的适应度函数;V(k)和V(k+1)分别为k时刻和k+1时刻所应的控制变频器的控制变量的总体价值;R(k)为阶段价值;γ为折扣因子;x(k)为k时刻所有水箱的液位信息x(k)和变频器的控制信息u(k)的组合;
3)根据适应度函数值,按如下公式获得当前粒子群的最佳位置pbest和整个粒子群所经历的最佳位置gbest,并更新pbest,gbest
Figure FDA0002675735040000024
Figure FDA0002675735040000025
式中,i为粒子序号,m为粒子个数;p为迭代次数;
4)根据如下粒子群算法的基本迭代公式更新粒子移动速度vi和粒子的位置zi
Figure FDA0002675735040000026
Figure FDA0002675735040000027
式中,z表示粒子位置,v表示粒子速度,ω是惯性重量,c1和c2是加速常数,rand1和rand2是在[0,1]之间独立生成的两个随机数,Pbest是当前粒子群的最佳位置,gbest是整个粒子群所经历的最佳位置,(p)表示迭代次数;
5)重复步骤2)到步骤4)直到收敛,记录当前粒子群的最佳位置gbest1
6)重新分配随机数为[0,1]的粒子,得到新的适应度函数值;
7)重复步骤2到4直到收敛,并记录当前粒子群的最佳位置gbest2
8)如果最佳位置gbest2优于最佳位置gbest1,则用最佳位置gbest2替代最佳位置gbest1,否则保持最佳位置gbest1不变;
9)重复步骤2)到步骤8),直到找不到更好的最优位置,得到最终位置gbest1
10)粒子在gbest1处的位置是评判网络Wc1和Wc2的解。
8.根据权利要求1所述的一种基于强化学习的液位容错控制方法,其特征在于,所述的动作网络(7)包括有依次全连接的输入层、隐含层和输出层,其中,所述的输入层具有n个神经元,所述的隐含层具有n+3个神经元,输出层具有2个神经元,输入层与隐含层之间的权值为Wa1,隐含层与输出层之间的权值为Wa2
9.根据权利要求1或8所述的一种基于强化学习的液位容错控制方法,其特征在于,所述动作网络(7)的权值变化为
ΔWa2=l·Wc2·[sout,c(1-sout,c)]·Wc1,u·sout,a
ΔWa1=l·Wc2·[sout,c(1-sout,c)]·Wc1,u·Wa2·[sout,a(1-sout,a)]·x(k)
式中,l为学习率,Wc2表示评价网络(2)中隐藏层与输出层之间的权值,sout,c和sout,a分别是评价网络(2)和动作网络(7)中的非线性函数的输出;Wc1,u为评价网络(2)隐含层对与变频器的控制量u(k)有关的权值,Wa2为动作网络(7)中隐藏层与输出层的权值,x(k)是k时刻所有水箱的液位信息,Wc1,u、Wc2、sout,c,sout,a和Wa2均从评价网络和动作网络中获得;
根据如下公式更新动作网络的权值Wa1和Wa2
Wa1’=Wa1+ΔWa1
Wa2’=Wa2+ΔWa2
式中,Wa1’和Wa2’为动作网络(7)中更新后的输入层与隐含层之间的权值以及隐藏层与输出层之间的权值。
CN202010947314.8A 2020-09-10 2020-09-10 一种基于强化学习的液位容错控制方法 Pending CN112180996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010947314.8A CN112180996A (zh) 2020-09-10 2020-09-10 一种基于强化学习的液位容错控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010947314.8A CN112180996A (zh) 2020-09-10 2020-09-10 一种基于强化学习的液位容错控制方法

Publications (1)

Publication Number Publication Date
CN112180996A true CN112180996A (zh) 2021-01-05

Family

ID=73921803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010947314.8A Pending CN112180996A (zh) 2020-09-10 2020-09-10 一种基于强化学习的液位容错控制方法

Country Status (1)

Country Link
CN (1) CN112180996A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046359A1 (en) * 2000-03-16 2002-04-18 Boden Scott T. Method and apparatus for secure and fault tolerant data storage
CN1471627A (zh) * 2000-10-26 2004-01-28 �Ʒ� 利用多模型状态估计器的容错液体测量***
CN1737423A (zh) * 2005-08-10 2006-02-22 东北大学 基于Internet网的锅炉传感器故障诊断和容错一体化方法及装置
CN109635864A (zh) * 2018-12-06 2019-04-16 佛山科学技术学院 一种基于数据的容错控制方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046359A1 (en) * 2000-03-16 2002-04-18 Boden Scott T. Method and apparatus for secure and fault tolerant data storage
CN1471627A (zh) * 2000-10-26 2004-01-28 �Ʒ� 利用多模型状态估计器的容错液体测量***
CN1737423A (zh) * 2005-08-10 2006-02-22 东北大学 基于Internet网的锅炉传感器故障诊断和容错一体化方法及装置
CN109635864A (zh) * 2018-12-06 2019-04-16 佛山科学技术学院 一种基于数据的容错控制方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张大鹏: "Fault Tolerant Control Using Reinforcement Learning and Particle Swarm Optimization", 《IEEE ACCESS》, 9 September 2020 (2020-09-09), pages 2 - 5 *

Similar Documents

Publication Publication Date Title
Van Overloop Model predictive control on open water systems
CN110347155B (zh) 一种智能车辆自动驾驶控制方法及***
CN109879410A (zh) 一种污水处理曝气控制***
CN101871782B (zh) 基于set2fnn的gps/mems-ins组合导航***定位误差预测方法
CN110806759A (zh) 一种基于深度强化学习的飞行器航线跟踪方法
US6721647B1 (en) Method for evaluation of a genetic algorithm
CN109724657A (zh) 基于改进的Elman神经网络的水表流量计量方法和***
CN111507530B (zh) 基于分数阶动量梯度下降的rbf神经网络船舶交通流预测方法
CN111679577B (zh) 一种高速列车的速度跟踪控制方法和自动驾驶控制***
CN113916329A (zh) 基于神经网络的天然气流量计检定装置及检定方法
CN112180996A (zh) 一种基于强化学习的液位容错控制方法
CN117369286B (zh) 一种海洋平台动力定位控制方法
CN114548311A (zh) 基于人工智能的液压设备智能控制***
Marcu et al. Neural observer schemes for robust detection and isolation of process faults
CN114519291A (zh) 工况监测和控制模型建立方法及其应用方法和装置
Hallouzi et al. Multiple model estimation: A convex model formulation
CN113326632A (zh) 一种反推水库入库流量过程的优化修正方法
JPH04211859A (ja) 異常認知方法
CN117231599B (zh) 基于pid的液压执行机构驱动力控制方法
CN110187633A (zh) 一种面向汽车底盘测功机的bp~rnn变速积分pid算法
Chalupa et al. Modeling of hydraulic control valves
CN116105071B (zh) 一种超临界二氧化碳管道安全泄放***和控制方法
Babuska et al. Particle filtering for on-line estimation of overflow losses in a hopper dredger
Rato et al. Multimodel based fault tolerant control of the 3-tank system
Meseguer et al. Fault-Tolerant Model Predictive Control Applied to Integrated Urban Drainage and Sanitation Systems for Environmental Protection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210105