CN108008627A - 一种并行优化的强化学习自适应pid控制方法 - Google Patents
一种并行优化的强化学习自适应pid控制方法 Download PDFInfo
- Publication number
- CN108008627A CN108008627A CN201711325553.4A CN201711325553A CN108008627A CN 108008627 A CN108008627 A CN 108008627A CN 201711325553 A CN201711325553 A CN 201711325553A CN 108008627 A CN108008627 A CN 108008627A
- Authority
- CN
- China
- Prior art keywords
- pid
- parameter
- output
- control
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 title claims abstract description 12
- 230000002787 reinforcement Effects 0.000 title claims abstract description 6
- 230000006870 function Effects 0.000 claims abstract description 27
- 230000005540 biological transmission Effects 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 8
- 230000002490 cerebral effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims description 2
- 238000012800 visualization Methods 0.000 claims description 2
- 230000003252 repetitive effect Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 3
- 230000004044 response Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 8
- 238000001824 photoionisation detection Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B11/00—Automatic controllers
- G05B11/01—Automatic controllers electric
- G05B11/36—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
- G05B11/42—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公布了一种并行优化的强化学习自适应PID控制方法,其特征在于包括以下步骤:步骤S1:运用matlab软件,通过零阶保持器法将传递函数离散化,初始化控制器参数和M个控制线程进行并行学习;步骤S2:定义输入信号传递给S1中的传递函数,计算输出值,将输入与输出信号的差值作为控制算法的输入向量;步骤S3:将输入向量传递给改进的自适应PID控制器进行训练,迭代N次后得到训练好的模型;步骤S4:使用训练好的模型进行控制测试,记录输入、输出信号,PID参数的变化值;步骤S5:可视化测试数据,控制效果对比。该发明较好地解决了以往自适应PID存在的问题,利用A3C学习的多线程并行学习的特性,提高了算法的稳定性和学习效率。
Description
技术领域
本发明涉及一种自适应PID控制方法,属于控制类技术领域,具体地说是一种基于并行优化的执行器评价器的改进的自适应PID(比例-积分-微分)控制算法。
背景技术
PID(Proportional/Integral/Differential;比例/积分/微分)控制***,是一种线性控制器,依据偏差原理进行控制的,由于它的原理简单、鲁棒性强、整定简单以及不需要得到对象的精确数学模型等优点,已成为工业控制中最常用的一种控制***。在PID控制***参数整定的工程实践中,特别是关于线性、时不变、弱时滞***的PID控制参数整定的工程实践中,传统整定方法取得了丰富的经验,并得到广泛的应用。然而在实际工业过程控制工程实践中,许多被控制对象具有时变不确定性、纯滞后等特征,控制过程机理较复杂;在噪声、负载扰动等因素的影响下,过程参数、甚至模型结构,均会发生变化。由此要求在PID参数能够实现在线调整以满足实时控制的要求。此种情况下,传统参数整定方法则难以满足工程实践的要求,显现出很大的局限性。
自适应PID控制技术是解决此类问题的一种有效途径。自适应PID控制模型吸取了自适应控制思想和常规PID控制器两者的优点。首先,它是自适应控制器,具有自动辨识被控过程、自动整定控制器参数、能够适应被控过程参数变化等优点;其次,又具有常规PID控制器结构简单、鲁棒性好、可靠性高等优点。由于具有此种优势,使其成为工程实践中的一种理想的工业过程控制装置。自适应PID控制被提出后,便受到了广泛学者的研究,相继提出了模糊自适应PID控制器,神经网络自适应PID控制器,Actor-Critic自适应PID控制器。
例如文献1:刘国荣,阳宪惠.模糊自适应PID控制器[J].控制与决策,1995(6).中提出了基于模糊规则的自适应PID控制器,其主要思想是:当***给定突变、出现状态干扰或结构干扰时,其瞬态响应可以分为9种情况,当在每个采样时刻获得了***响应后,就可以根据此时刻***响应偏离给定的情况及变化趋势,依据已有的***控制知识,运用模糊控制方法,适当加大控制力度或减小控制力度,以扼制响应朝偏离给定的方向变化,使输出尽快趋于给定。但是这种控制方法需要专业人员的经验和参数优化才能控制复杂的***,模糊规则设定的不准确控制效果则达不到满意的效果。
文献2廖芳芳,肖建.基于BP神经网络PID参数自整定的研究[J].***仿真学报,2005提出了基于BP神经网络的自适应PID控制,其控制思想是:神经网络辨识器将控制偏差传回到神经网络自身神经元,从而修正其自身权值,对象的设定输入和对象的实际输出的偏差通过辨识器后反向传播给神经网络控制器,其利用误差信号对网络权值进行修正,经过多次学习,便能逐渐跟上***的变化。该方法一般采用监督学习进行参数优化,但是教师信号难以获取。
文献3陈学松,杨宜民.基于执行器-评价器学习的自适应PID控制[J].控制理论与应用,2011提出了一种Actor-Critic结构的自适应PID控制。该控制思想为:利用AC学习的无模型在线学习能力,对PID参数进行自适应调整,采用一个RBF网络同时实现Actor的策略函数和Critic的值函数学习,解决了传统PID控制器不易在线实时整定参数的不足,且具有响应速度自适应能力强等优点。但是AC学习结构本身的不稳定性往往导致算法难以收敛。
专利CN201510492758公布了一种执行机构自适应PID控制方法,该控制方法结合了专家PID控制器和模糊PID控制器并且分别与执行机构连接,执行机构根据当前状态信息以及期望信息选择专家PID控制器或者模糊PID控制器,这种控制器虽然可以减小超调量,具有控制精度高的特点,但是这种控制器仍然需要专业人员的大量先验知识,来决策控制器的使用。
发明内容
本发明目的:针对自适应PID控制的特点,提出了基于并行优化的执行器评价器学习的自适应PID控制(A3C)的方法,用于工业中对***的控制。该发明较好地解决了以往自适应PID存在的问题,利用A3C学习的多线程并行学习的特性,提高了算法的稳定性和学习效率。基于A3C的自适应PID控制器具有响应速度快,自适应能力强,抗干扰能力强等优点。
基于并行优化的执行器评价器学习的自适应PID控制方法,包括以下步骤:
步骤S1:运用MATLAB(MATLAB,美国MathWorks公司出品的商业数学软件)软件,定义一个被控制***的任意阶连续传递函数,通过零阶保持器法将其离散化,得到一个自定义时间间隔的离散化传递函数,初始化控制器参数和M个控制线程进行并行学习,其中参数主要包括BP神经网络参数和PID控制环境参数,每一个线程为一个独立的控制Agent;
步骤S2:在步骤S1,初始化BP神经网权值参数和PID控制器的控制对象后,定义一个离散的输入信号RIN,将离散后的输入信号按照定义的时间间隔依次传入离散化后的传递函数,计算出传递函数的输出值,并把输入与输出信号的差值作为A3C自适应PID控制算法的输入向量x(t);
步骤S3:把步骤S2中得到的输入向量x(t)传入到搭建好的A3C自适应PID控制***进行迭代训练,迭代N次后得到训练好的模型;
步骤S31:计算当前误差e(t)、一次误差Δe(t)、二次误差Δe2(t)作为算法的输入向量x(t)=[e(t),Δe(t),Δ2e(t)]T,并用sigmod函数对其归一化;
步骤S32:将输入向量传递给每一个线程的Actor网络,并得到PID新的参数。Actor网络并不是直接输出PID的参数值而是输出PID三个参数的高斯分布的均值和方差,通过三个参数的高斯分布估计出三个参数值,o=1,2,3时,输出层输出的是PID参数的均值,o=4,5,6时,输出的是PID参数的方差。其中Actor网络是一个BP神经网络共3层:第1层为输入层,第2层为隐藏层的输入
隐藏层的输出hok(t)=min(max(hik(t),0),6)k=1,2,3…20
第3层为输出层,输出层的输入
输出层的输出
步骤S33:新的PID参数赋给控制器,得到控制输出,计算出控制误差,根据环境奖励函数R(t)计算出奖励值。R(t)=α1r1(t)+α2r2(t) 到下一个状态的向量值x′(t);
步骤S34:将奖励函数R(t),当前状态向量x(t),下一个状态向量x′(t)传递给Critic网络,Critic网络结构与Actor网络结构类似,区别在于输出结点只有一个。Critic网络主要输出状态值并计算TD误差,δTD=r(t)+γV(St+1,Wv′)-V(St,Wv′);
步骤S35:在计算出TD误差后,A3C结构中的每个Actor-Critic网络并不会直接更新自身的网络权值,而是用自身的梯度去更新中央大脑(Global-net)存储的Actor-Critic网络参数,更新方式为Wv=Wv+αcdWv,其中Wa为中央大脑存储的Actor网络权值,W′a为每个AC结构的Actor网络的权值,Wv为中央大脑存储的Critic网络权值,W′v表示每个AC结构的Critic网络权值,αa为Actor的学习率,αc为Critic的学习率,在更新之后中央大脑会传递给每个AC结构一个最新参数;
步骤S36:以上为完成一次训练过程,循环迭代N次,退出训练,保存模型。
步骤S4:使用训练好的模型进行控制测试,记录下输入信号,输出信号,PID参数的变化值;
步骤S41:使用步骤S1定义好的输入信号,传递到训练好的奖励函数最高的线程的控制模型;
步骤S42:S41后计算出当前、一次、二次误差作为输入向量,输入到选择好的控制模型,与训练过程不同的是,只需要Actor网络输出的PID参数调整量,并把调整后的PID参数传递给控制器,得到控制器的输出;
步骤S43:保存步骤S42得到的输入信号,输出信号,以及PID参数变化值。
步骤S5:使用Matlab可视化步骤S4得到的实验数据其中包括控制器的输入信号,输出信号,PID参数的变化值,并与模糊自适应PID控制,AC-PID自适应PID控制进行控制效果对比。
附图说明
附图1为本发明的处理流程示意图。
附图2为改进的自适应PID控制器结构图
附图3为采用跃阶信号作为输入信号,改进后的控制器的输出信号
附图4为改进后控制器的控制量
附图5为改进自适应PID控制器的控制误差
附图6为A3C自适应PID控制器的参数调整曲线
附图7为改进后控制器与模糊,AC结构自适应PID控制器的比较
附图8不同控制器控制实验对比与分析
具体实施方式
下面结合附图1-5,运用MATLAB软件,对本发明作进一步的描述:基于并行优化的执行器评价器学习的自适应PID控制,具体实施方案包括如下步骤,步骤如图1所示:
(1)参数初始化。被控制***选为一个三阶传递函数,离散时间设为0.001s,采用Z变化离散化后的传递函数为:yourt(k)=-den(2)yourt(k-1)-den(3)yourt(k-2)-den(4)yourt(k-1)+num(2)u(k-1)+num(3)u(k-2)+num(4)u(k-3),输入信号为值等于1.0的跃阶信号,单次训练步数为1000步,时间为1.0s,初始化4个线程代表4个独立的自适应PID控制器,进行训练。
(2)计算输入向量。t=0时e(t)=rin(0)-yourt(0)=1.0;e(t-1)=0;e(t-2)=0输入向量x(t)=[e(t),Δe(t),Δ2e(t)]T其中e(t)=rin-yourt=1.0Δe(t)=e(t)-e(t-1)=1.0Δ2e(t)=e(t)-2*e(t-1)+e(t-2)=1.0;计算的x(t)=[1.0,1.0,1.0]T经过sigmod函数归一化得最终的输入向量为x[t]=[0.73,0.73,0.73]T。
(3)训练模型。改进的自适应PID控制器结构如图2所示,在计算出状态向量后,首先把状态向量传递给Actor网络,Actor网络输出P,I,D三个参数的均值μ和方差σ,根据高斯采样得出P,I,D的实际参数值,把新的参数值赋给增量式PID控制器,控制器根据误差和新的PID参数计算控制量u(t)
u(t)=u(t-1)+Δu(t)=u(t-1)+KI(t)e(t)+KP(t)Δe(t)+KD(t)Δ2e(t)
控制量作用的离散后的传递函数,按照(1)的过程计算下一时刻t+1的输出信号值yourt(t+1)、误差值、状态向量。此外,环境奖励函数根据误差计算出控制Agent的奖励值,奖励函数如下:
R(t)=α1r1(t)+α2r2(t)
其中α1=0.6,α2=0.4,e(t)=0.001
奖励函数是强化学习的重要组成部分,在得到奖励值后,把奖励值和下一时刻的状态向量传递给Critic网络,Critic网络输出t和t+1时刻的状态值,并计算出TD误差,计算公式如下:δTD=r(t)+γV(St+1,Wv′)-V(St,Wv′),Wv′为Critic网络权值。因为线程的运算速度不是同步的,所以每个控制器不固定顺序得对图2中的Global Net中存储的Actor网络和Critic网络参数进行更新,更新公式为: 其中Wa为中央大脑存储的Actor网络权值,W′a为每个AC结构的Actor网络的权值,Wv为中央大脑存储的Critic网络权值,W′v表示每个AC结构的Critic网络权值,αa=0.001为Actor的学习率,αc=0.01为Critic的学习率,在此已完成一次的训练,迭代3000次后,算法即可到达稳定的状态。
(4)采集实验数据。使用训练好的控制器模型,因为设定了4个线程进行控制训练,在控制测试的时候选取累计奖励最高的线程作为测试控制器。按照(1)中设定的控制参数进行控制测试,控制时长为1s,即进行1000次控制。按照(2)中的计算方式,计算状态向量,并且传入已经训练好的模型,在控制测试过程中,Critic网络不再起作用,Actor输出P,I,D参数值,在控制测试的过程中,把yourt,rin,u,P,I,D值保存用于可视化分析。
(5)数据可视化。将(4)中保存的数据利用matlab软件可视化工具,可视化分析:如附图3所示,附图3表示yourt的输出值,控制器可以在不到0.2s的时间内达到稳定状态并且具有很快的调节能力。附图4为控制器的控制量的输出信号,从图可得控制器可以很快的达到稳定的状态。附图5为控制器的控制误差,其中控制误差等于输入信号量减去输出信号量。附图6为控制器P,I,D参数的变化情况,可以看出在达到稳定之前3个参数存在着不同程度的调整,在***稳定后,参数则不再变化。使用相同的控制对象和输入信号,对模糊自适应PID控制器和Actor-Critic自适应pid控制器进行实验对比,三种控制器的信号输出对比图可见附图7,详细控制分析可见附图8,如图8所示,本发明的控制器在不需要太多专业人员先验知识的同时,与模糊PID控制器同样有着较小的超调量但是响应速度更快,在比AC-PID控制器具有更快的学习速度的同时,超调量和响应速度都占有很大的优势。
本发明的目的是解决以往自适应PID控制器存在的问题,模糊自适应PID以及专家自适应PID控制器需要大量专业人员的相关知识,神经网络自适应PID控制器的教师信号难以获取,但是因为A3C学习结构是强化学习的一种学习算法,无需模型在线学习的能力不需要太多专业人员的先验知识和教师信号从而解决了模糊,专家自适应PID控制器和神经网络自适应PID控制器存在的问题。又因为该学习算法在CPU多线程并行学***提高了AC-PID控制器的学习速率,并有着更好的控制效果。具体控制效果比较可见附图7,附图7为选用的三种控制器:模糊PID控制器,AC-PID控制器以及本发明的A3C-PID控制器进行相同参数下的控制比较,详细控制分析可见附图8:本发明的控制器在不需要太多专业人员先验知识的同时,与模糊PID控制器同样有着较小的超调量但是响应速度更快,在比AC-PID控制器具有更快的学习速度的同时,超调量和响应速度都占有很大的优势。
本发明不局限于上述具体实施方式,根据上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,本发明还可以做出其它多种形式的等效修改、替换或变更,均属于本发明的保护范围。
Claims (3)
1.一种并行优化的强化学习自适应PID控制方法,其特征在于包括以下步骤:
步骤S1:运用MATLAB软件,定义一个被控制***的任意阶连续传递函数,通过零阶保持器法将其离散化,得到一个自定义时间间隔的离散化传递函数,初始化控制器参数和M个控制线程进行并行学习,其中参数主要包括BP神经网络参数和PID控制环境参数,每一个线程为一个独立的控制Agent;
步骤S2:初始化BP神经网权值参数和PID控制器的控制对象后,定义一个离散的输入信号RIN,将离散后的输入信号按照定义的时间间隔依次传入离散化后的传递函数,计算出传递函数的输出值,并把输入与输出信号的差值作为A3C自适应PID控制算法的输入向量x(t);
步骤S3:把步骤S2中得到的输入向量x(t)传入到搭建好的A3C自适应PID控制***进行迭代训练,迭代N次后得到训练好的模型;
步骤S4:使用训练好的模型进行控制测试,记录下输入信号,输出信号,PID参数的变化值;
步骤S5:使用Matlab可视化步骤S4得到的实验数据其中包括控制器的输入信号,输出信号,PID参数的变化值,并与模糊自适应PID控制,AC-PID自适应PID控制进行控制效果对比。
2.根据权利要求书所述的一种并行优化的强化学习自适应PID控制方法,其特征在于步骤S3包括以下步骤:
步骤S31:计算当前误差e(t)、一次误差Δe(t)、二次误差Δe2(t)作为算法的输入向量x(t)=[e(t),Δe(t),Δ2e(t)]T,并用sigmod函数对其归一化;
步骤S32:将输入向量传递给每一个线程的Actor网络,并得到PID新的参数。Actor网络并不是直接输出PID的参数值而是输出PID三个参数的高斯分布的均值和方差,通过三个参数的高斯分布估计出三个参数值,o=1,2,3时,输出层输出的是PID参数的均值,o=4,5,6时,输出的是PID参数的方差,其中Actor网络是一个BP神经网络共3层:第1层为输入层,第2层为隐藏层的输入
隐藏层的输出hok(t)=min(max(hik(t),0),6)k=1,2,3…20,
第3层为输出层,输出层的输入
输出层的输出
步骤S33:新的PID参数赋给控制器,得到控制输出,计算出控制误差,根据环境奖励函数R(t)计算出奖励值,R(t)=α1r1(t)+α2r2(t), 到下一个状态的向量值x′(t);
步骤S34:将奖励函数R(t),当前状态向量x(t),下一个状态向量x′(t)传递给Critic网络,Critic网络结构与Actor网络结构类似,区别在于输出结点只有一个,Critic网络主要输出状态值并计算TD误差,δTD=r(t)+γV(St+1,Wv′)-V(St,Wv′);
步骤S35:在计算出TD误差后,A3C结构中的每个Actor-Critic网络并不会直接更新自身的网络权值,而是用自身的梯度去更新中央大脑(Global-net)存储的Actor-Critic网络参数,更新方式为Wa=Wa+αadWa,Wv=Wv+αcdWv,其中Wa为中央大脑存储的Actor网络权值,W′a为每个AC结构的Actor网络的权值,Wv为中央大脑存储的Critic网络权值,W′v表示每个AC结构的Critic网络权值,αa为Actor的学习率,αc为Critic的学习率,在更新之后中央大脑会传递给每个AC结构一个最新参数;
步骤S36:以上为完成一次训练过程,循环迭代N次,退出训练,保存模型。
3.根据权利要求书所述的一种并行优化的强化学习自适应PID控制方法,其特征在于步骤S4包括以下步骤:
步骤S41:使用步骤S1定义好的输入信号,传递到训练好的奖励函数最高的线程的控制模型;
步骤S42:S41后计算出当前、一次、二次误差作为输入向量,输入到选择好的控制模型,与训练过程不同的是,只需要Actor网络输出的PID参数调整量,并把调整后的PID参数传递给控制器,得到控制器的输出;
步骤S43:保存步骤S42得到的输入信号,输出信号,以及PID参数变化值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711325553.4A CN108008627B (zh) | 2017-12-13 | 2017-12-13 | 一种并行优化的强化学习自适应pid控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711325553.4A CN108008627B (zh) | 2017-12-13 | 2017-12-13 | 一种并行优化的强化学习自适应pid控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108008627A true CN108008627A (zh) | 2018-05-08 |
CN108008627B CN108008627B (zh) | 2022-10-28 |
Family
ID=62058629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711325553.4A Active CN108008627B (zh) | 2017-12-13 | 2017-12-13 | 一种并行优化的强化学习自适应pid控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108008627B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346138A (zh) * | 2017-06-16 | 2017-11-14 | 武汉理工大学 | 一种基于增强学习算法的无人船侧向控制方法 |
CN108803348A (zh) * | 2018-08-03 | 2018-11-13 | 北京深度奇点科技有限公司 | 一种pid参数的优化方法及pid参数的优化装置 |
CN109063823A (zh) * | 2018-07-24 | 2018-12-21 | 北京工业大学 | 一种智能体探索3d迷宫的批a3c强化学习方法 |
CN109521669A (zh) * | 2018-11-12 | 2019-03-26 | 中国航空工业集团公司北京航空精密机械研究所 | 一种基于强化学习的转台控制参数自整定方法 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN110308655A (zh) * | 2019-07-02 | 2019-10-08 | 西安交通大学 | 一种基于a3c算法的伺服***补偿方法 |
CN110376879A (zh) * | 2019-08-16 | 2019-10-25 | 哈尔滨工业大学(深圳) | 一种基于神经网络的pid型迭代学习控制方法 |
CN111079936A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111856920A (zh) * | 2020-07-24 | 2020-10-30 | 重庆红江机械有限责任公司 | 一种基于a3c-pid的自适应轨压调节方法及存储介质 |
CN112162861A (zh) * | 2020-09-29 | 2021-01-01 | 广州虎牙科技有限公司 | 线程分配方法、装置、计算机设备及存储介质 |
CN112631120A (zh) * | 2019-10-09 | 2021-04-09 | Oppo广东移动通信有限公司 | Pid控制方法、装置和视频编解码*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102588129A (zh) * | 2012-02-07 | 2012-07-18 | 上海艾铭思汽车控制***有限公司 | 高压共轨柴油机氮氧化物和颗粒排放的优化协同控制方法 |
-
2017
- 2017-12-13 CN CN201711325553.4A patent/CN108008627B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102588129A (zh) * | 2012-02-07 | 2012-07-18 | 上海艾铭思汽车控制***有限公司 | 高压共轨柴油机氮氧化物和颗粒排放的优化协同控制方法 |
Non-Patent Citations (5)
Title |
---|
WANG XUE-SONG等: "A Proposal of Adaptive PID Controller Based on Reinforcement Learning", 《JOURNAL OF CHINA UNIVERSITY OF MINING & TECHNOLOGY》 * |
张超等: "基于AC-PID控制器的焊接机器人仿真", 《焊接技术》 * |
林小峰等: "多目标执行依赖启发式动态规划励磁控制", 《电力***及其自动化学报》 * |
陈学松: "强化学习及其在机器人***中的应用研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
陈学松等: "基于执行器-评价器学习的自适应PID控制", 《控制理论与应用》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346138B (zh) * | 2017-06-16 | 2020-05-05 | 武汉理工大学 | 一种基于增强学习算法的无人船侧向控制方法 |
CN107346138A (zh) * | 2017-06-16 | 2017-11-14 | 武汉理工大学 | 一种基于增强学习算法的无人船侧向控制方法 |
CN109063823A (zh) * | 2018-07-24 | 2018-12-21 | 北京工业大学 | 一种智能体探索3d迷宫的批a3c强化学习方法 |
CN109063823B (zh) * | 2018-07-24 | 2022-06-07 | 北京工业大学 | 一种智能体探索3d迷宫的批a3c强化学习方法 |
CN108803348A (zh) * | 2018-08-03 | 2018-11-13 | 北京深度奇点科技有限公司 | 一种pid参数的优化方法及pid参数的优化装置 |
CN108803348B (zh) * | 2018-08-03 | 2021-07-13 | 北京深度奇点科技有限公司 | 一种pid参数的优化方法及pid参数的优化装置 |
CN109521669A (zh) * | 2018-11-12 | 2019-03-26 | 中国航空工业集团公司北京航空精密机械研究所 | 一种基于强化学习的转台控制参数自整定方法 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN109696830B (zh) * | 2019-01-31 | 2021-12-03 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN110308655A (zh) * | 2019-07-02 | 2019-10-08 | 西安交通大学 | 一种基于a3c算法的伺服***补偿方法 |
CN110376879A (zh) * | 2019-08-16 | 2019-10-25 | 哈尔滨工业大学(深圳) | 一种基于神经网络的pid型迭代学习控制方法 |
CN112631120A (zh) * | 2019-10-09 | 2021-04-09 | Oppo广东移动通信有限公司 | Pid控制方法、装置和视频编解码*** |
WO2021068748A1 (zh) * | 2019-10-09 | 2021-04-15 | Oppo广东移动通信有限公司 | Pid控制方法、装置和视频编解码*** |
CN112631120B (zh) * | 2019-10-09 | 2022-05-17 | Oppo广东移动通信有限公司 | Pid控制方法、装置和视频编解码*** |
CN111079936A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111079936B (zh) * | 2019-11-06 | 2023-03-14 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111856920A (zh) * | 2020-07-24 | 2020-10-30 | 重庆红江机械有限责任公司 | 一种基于a3c-pid的自适应轨压调节方法及存储介质 |
CN112162861A (zh) * | 2020-09-29 | 2021-01-01 | 广州虎牙科技有限公司 | 线程分配方法、装置、计算机设备及存储介质 |
CN112162861B (zh) * | 2020-09-29 | 2024-04-19 | 广州虎牙科技有限公司 | 线程分配方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108008627B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108008627A (zh) | 一种并行优化的强化学习自适应pid控制方法 | |
Ahamed et al. | A reinforcement learning approach to automatic generation control | |
CN108284442B (zh) | 一种基于模糊神经网络的机械臂柔性关节控制方法 | |
Wang | Intelligent critic control with robustness guarantee of disturbed nonlinear plants | |
DE69717987T2 (de) | Methode und vorrichtung zur simulation von dynamischen und stationären prädiktions-, regelungs- und otpimierungsverfahren | |
Song et al. | Neural-network-based synchronous iteration learning method for multi-player zero-sum games | |
Kiumarsi et al. | Optimal control of nonlinear discrete time-varying systems using a new neural network approximation structure | |
Koryakovskiy et al. | Model-plant mismatch compensation using reinforcement learning | |
Radac et al. | Three-level hierarchical model-free learning approach to trajectory tracking control | |
CN110134165B (zh) | 一种用于环境监测与控制的强化学习方法及*** | |
EP3704550B1 (en) | Generation of a control system for a target system | |
CN101390024A (zh) | 运转控制方法、运转控制装置和运转控制*** | |
Song et al. | Online optimal event-triggered H∞ control for nonlinear systems with constrained state and input | |
Li et al. | Training a robust reinforcement learning controller for the uncertain system based on policy gradient method | |
Ding et al. | Dynamical Cournot game with bounded rationality and time delay for marginal profit | |
Agarwal et al. | A regret minimization approach to iterative learning control | |
CN115167102A (zh) | 一种基于并行优势动作评价的强化学习自适应pid控制方法 | |
CN105867138A (zh) | 一种基于pid控制器的稳定平台控制方法及装置 | |
Kumar et al. | Lyapunov stability-based control and identification of nonlinear dynamical systems using adaptive dynamic programming | |
Wang et al. | Asynchronous learning for actor–critic neural networks and synchronous triggering for multiplayer system | |
Bayramoglu et al. | Time-varying sliding-coefficient-based decoupled terminal sliding-mode control for a class of fourth-order systems | |
Hager et al. | Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design | |
Eqra et al. | A novel adaptive multi-critic based separated-states neuro-fuzzy controller: Architecture and application to chaos control | |
Gupta et al. | Modified grey wolf optimised adaptive super-twisting sliding mode control of rotary inverted pendulum system | |
CN105279978B (zh) | 交叉***通信号控制方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |