CN117130277B - 基于安全强化学习的高超声速飞行器零和博弈方法 - Google Patents

基于安全强化学习的高超声速飞行器零和博弈方法 Download PDF

Info

Publication number
CN117130277B
CN117130277B CN202311179430.XA CN202311179430A CN117130277B CN 117130277 B CN117130277 B CN 117130277B CN 202311179430 A CN202311179430 A CN 202311179430A CN 117130277 B CN117130277 B CN 117130277B
Authority
CN
China
Prior art keywords
network
disturbance
function
evaluation
zero
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311179430.XA
Other languages
English (en)
Other versions
CN117130277A (zh
Inventor
程玉虎
史蕾
王雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202311179430.XA priority Critical patent/CN117130277B/zh
Publication of CN117130277A publication Critical patent/CN117130277A/zh
Application granted granted Critical
Publication of CN117130277B publication Critical patent/CN117130277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明适用于飞行器控制技术领域,提供了利用安全强化学习方法解决高超声速飞行器的零和博弈方法,所述方法包括:首先,建立高超声速飞行器纵向动力学模型,并化简为一般的仿射非线性***模型;其次,提出了一种基于障碍函数的***变换,将全状态安全约束问题转化为无约束零和博弈问题;然后,采用安全强化学习方法在执行‑评价‑扰动框架下学习零和博弈问题的最优控制策略和最差扰动策略;最后,采用梯度下降法和经验回放技术来更新网络权值并对闭环***中所有信号进行稳定性分析,本发明能在高超声速飞行器飞行的过程中保证状态的安全性。

Description

基于安全强化学习的高超声速飞行器零和博弈方法
技术领域
本发明属于计算机技术领域,尤其涉及基于安全强化学习的高超声速飞行器零和博弈方法。
背景技术
在可预见的未来,空间资源的开发和保护具有至关重要的战略意义。近年来,高超声速飞行器由于其在飞行速度、突防能力和成本效益方面对民用和军事应用的重要意义而引起了相当大的关注。飞行器的关键技术之一是控制器的设计,其设计直接影响飞行器的飞行性能。与传统飞机不同的是,超燃冲压发动机的使用和发动机-机身一体化的结构使得高超声速飞行器的推进***和气动***之间具有很强的耦合性。此外,***的强非线性、气动参数的不确定性和静态不稳定性等特点对控制器的设计提出了巨大的挑战。近几十年来,人们对高超声速飞行器的飞行控制设计进行了各种有效的研究,主要有PID控制、滑模控制、反演控制、动态逆设计、智能控制等。值得一提的是,任何实际的高超声速飞行器的控制设计都不应该忽视高超声速飞行器的安全方面,比如全状态约束。
考虑到高超声速飞行和超燃冲压发动机机动性能的物理约束,实际飞行状态变量既有下限约束,也有上限约束,违反这些约束可能会降低***性能,甚至危及飞行安全。因此,为了保证飞行安全,在高超声速飞行器控制器设计过程中应进一步考虑全状态约束。
另一方面,在实际应用中,仅考虑闭环稳定性仍然是不够的,不能忽略最优性的讨论。最优控制理论的核心是非线性***的哈密尔顿-雅可比-贝尔曼方程或哈密尔顿-雅可比-埃萨克斯方程,它们是最优性条件的充要条件。然而,由于固有的非线性,用解析方法求解上述方程是非常困难的。因此,强化学习用来解决这个难题,以在线的方式逼近非线性哈密尔顿-雅可比方程的解。博弈论和H解依赖于求解哈密尔顿-雅可比-艾萨克斯方程。从极大极小优化问题的观点来看,H控制问题可以表述为二人零和博弈,其中控制输入是一个最小化的玩家,而扰动是一个最大化的玩家。
发明内容
本发明实施例的目的在于提供一种通用的数据文件批量智能处理方法,旨在解决上述背景技术中提出的问题。
本发明的基于安全强化学习的高超声速飞行器零和博弈方法,包括如下具体步骤:
步骤1:建立高超声速飞行器纵向动力学模型;
步骤2:将高超声速飞行器纵向动力学模型化简为仿射非线性***模型;
步骤3:基于障碍函数的***变换,将高超声速飞行器纵向动力学的全状态安全约束问题转化为无约束零和博弈问题;
步骤4:采用安全强化学习方法在执行-评价-扰动框架下学习零和博弈问题的最优控制策略和最差扰动策略;
步骤5:采用了梯度下降法和经验回放技术更新网络权值并对闭环***中所有信号进行稳定性分析。
进一步的,步骤1中建立高超声速飞行器纵向动力学模型为:
其中,V,h,γ,α,Q分别表示飞行器的速度,高度,航迹角,攻角以及俯仰角速度,m为飞行器质量,Iyy为转动惯量,g为重力加速度,ζi为阻尼比,ωi为柔性模态频率,ηi为第i个弯曲模态的振幅,L,D,T,M,Ni分别表示升力,阻力,推力,俯仰力矩,广义弹性力,表达式为:
其中,S,zT,/>为飞行动压,参考面积,推力力臂,平均空气动力弦长。并且(2)式中的参数拟合形式为
其中,Φ,δe分别为燃料当量比,升降舵偏转角,皆为***的输入。为升力系数,/>为阻力系数,/>为力矩系数,/>为推力系数。
进一步的,步骤2中将高超声速飞行器纵向动力学模型化简为一般的仿射非线性***模型,具体为:将高超声速飞行器纵向动力学模型分解为速度子***与高度子***,并进一步化简为一般的仿射非线性***模型。
将速度子***化简为:
其中,
其中,ΔV表示速度子***中气动系数的不确定性和外部干扰所引起的扰动,
将高度子***化简为:
其中,
其中,Δγ,Δα,ΔQ表示高度子***中气动系数的不确定性和外部干扰所引起的扰动;
不失一般性,速度子***和高度子***可以归纳为仿射非线性***模型,如下:
其中,对于速度子***,x=xV=V是速度子***的状态;u=Φ是速度子***的控制输入;d=dV是集中扰动;f(x)=fV和g(x)=gV是李普希兹连续函数。
对于高度子***,x=[xh,xγ,xα,xQ]T=[h,γ,α,Q]T是高度子***的状态;u=δe是高度子***的控制输入;f(x)=[fh(x),fγ(x),fα(x),fQ(x)]T=[Vγ,fγ+gγα,fα+gαQ,fQ]T和g(x)=[gh(x),gγ(x),gα(x),gQ(x)]T=[0,0,0,gQ]T是李普希兹连续函数;d=[0,dγ,dα,dQ]T是集中扰动。
进一步的,步骤3中提出一种基于障碍函数的***变换,将高超声速飞行器纵向动力学的全状态安全约束问题转化为无约束优化问题,具体如下:
将高超声速飞行器纵向动力学的全状态约束在安全区域内,即具有全状态约束的高超声速飞行器的安全控制问题,描述如下:
问题1:考虑仿射非线性***模型(3),状态x=[x1,...,xn]T满足下列约束
xi∈(si,Si),i=1,...,n, (4)
其中,si<0,Si>0,找到策略u:Rn→Rm,使得对仿射非线性***模型(3)具有小于或等于γ的L2增益,即
其中,U(x,u)是正定函数。
在此基础上,提出了基于障碍函数的***变换,将给出的具有非对称的全状态约束的安全控制问题转化为无约束稳定性问题,具体描述如下:
定义1(障碍函数):定义在(s0,S0)上的函数ζ(•)是障碍函数;如果有
其中,s0和S0是满足s0<0<S0的两个常数,此外,障碍函数在区间(s0,S0)上是可逆的,即
并有
考虑仿射非线性***模型(3),定义基于障碍函数的状态转换如下:
那么,
根据定义1,下式成立
其中,
因此,变换后的变量δ=[δ1,...,δn]T所满足的动力学可表示为
其中,F(δ)=[F1(δ),...,Fn(δ)]T,G(δ)=[0,...,0,gn(δ)]T,K(δ)=[K1(δ),...,Kn(δ)]T.
假设1:动力学***(7)满足:
1)F(δ)是李普希兹的,F(0)=0,对δ∈Ωδ,存在常数fm使得||F(δ)||≤fm||δ||,其中,Ωδ是包含原点的紧集;
2)G(δ)和K(δ)在Ωδ上是有界的,即存在常数bg和bK使得||G(δ)||≤bg,||K(δ)||≤bK
3)在紧集Ωδ上,动力学***(7)是可控的。
在前述中,引入障碍函数,将高超声速飞行器的仿射非线性***模型(3)转化为等价动力学***(7),下面,考虑问题1中的干扰衰减,引入零和微分对策框架。对于控制策略为u,扰动策略为d,
考虑下面的代价函数:
其中,为奖励函数,Q(δ)=δTQδ,Q和R是对称正定矩阵。问题2:对于控制策略为u,扰动策略为d的动力学***(7),找到所述零和博弈问题的纳什均衡(u*,d*)。
定义哈密尔顿量为:
其中,是梯度向量;
然后,对代价函数V(δ)求导得到贝尔曼方程为
根据博弈论,扰动衰减问题等价于求解如下二人零和博弈
二人零和博弈有唯一解若纳什条件成立
最优性的平稳条件为
则可得最优控制策略u*和最差扰动策略d*分别为
其中,(u*,d*)表示零和博弈的纳什均衡。
将纳什均衡(u*,d*)代入到贝尔曼方程中,得到哈密尔顿-雅可比-埃萨克斯方程
假设2:性能函数(8)满足零状态可观测性。
问题1和问题2等价的条件由以下引理给出。
引理1:若假设1和假设2成立,并且控制策略(u*,d*)解决***(7)的问题2,则有以下结论成立:
1)只要***(3)的初始状态x0∈(si,Si),i=1,...,n,闭环***(3)就满足安全区域。
2)若性能函数U(x,u)设计为U(x,u)=Q(δ)+uTRu,则可以保证扰动衰减条件(5)成立。
证明:
1)基于假设1和假设2,存在一个正定的连续可微的最优代价函数V*(δ)。根据(8)有也就是/>如果***(3)的初始状态满足(4),则V*(δ(0))是有界的,因此V*(δ(t))也是有界的。此外,由障碍函数的性质可以推出xi(t)∈(si,Si),i=1,...,n,t≥0。因此,给定(u*,d*),问题1的全状态约束是满足的。
2)考虑基于障碍函数的状态转换(6),假设xi∈(si,Si),状态δ=[ζ1(x1),...,ζn(xn)]T的所有元素都有界。注意到,最优代价函数V*和纳什均衡(u*,d*)满足贝尔曼方程(9),即
因此,若U(x,u)=Q(δ)+uTRu,有证毕。
进一步的,步骤4中通过应用评价-执行-扰动框架实现在线安全强化学习方法来学习最优控制策略和最差扰动策略,
首先,评价网络:
求解哈密尔顿-雅可比-埃萨克斯方程的最初步骤是通过采用如下评价网络近似最优代价函数和最优代价函数梯度:
其中,ωc∈Rl是理想的评价权值,σc(δ):Ωδ→Rl是激活函数,l是隐藏层的神经元数,εc(δ)是评价网络逼近误差,
给定最优控制策略u*,最差扰动策略d*和(10)中的代价函数近似,贝尔曼方程可以用理想评价权值ωc表示为
其中,φ是N维向量表示为
贝尔曼方程残差可表示为
根据代价函数梯度近似(11)可以看出,代价函数梯度近似误差构成了贝尔曼近似误差ξ,即:
最优代价函数V*(δ)的最佳近似值由理想评价权值ωc决定,但是ωc是未知的,设为ωc的估计值,评价网络的输出及其梯度可表示为
然后,对于一个给定的控制策略u,哈密尔顿量近似误差描述为
定义评价网络的权重估计误差为结合贝尔曼近似误差ξ与哈密尔顿近似误差ec,有/>策略评估过程可以通过调整评价权值/>来最小化下面平方误差函数:
为了使得当时,ec→ξ,采用以下梯度下降算法作为评价网络的权值更新律
其中,αc>0为评价网络的学习率。
注意到,上述更新律依赖持续激励条件,但是通常很难验证持续激励条件。为了放宽持续激励条件,采用了经验回放技术。经验回放技术的思想是基于存储或者重新编码的过去数据。收集过去时刻tk的数据φ(tk),其中,k=1,...,p,p是一个正常数。定义在时刻tk的近似误差为
那么,评价权值更新律变为
其次,执行网络:
由于最优控制策略和最差扰动策略由最优代价函数梯度决定,因此,考虑自适应评价网络权值/>的代价函数梯度近似,那么最优控制策略和最差扰动策略可表示为:
为了保证李雅普诺夫意义上的稳定性,控制策略和扰动策略分别用如下执行网络和扰动网络来表示
其中,ωu和ωd分别为未知理想执行网络和扰动网络的权值向量,σu和σd分别为执行网络和扰动网络的激活函数,εu和εd分别为执行网络和扰动网络的重构误差,设和/>分别为ωu和ωd的估计值,估计误差记为/>和/>由此,近似控制策略和扰动策略可表示为/>和/>
执行网络和扰动网络的学习规则由下面的误差信号决定
ea=ua(δ)-uc(δ),ed=da(δ)-dc(δ).
执行网络和扰动网络的目标是使下列目标函数最小化
利用梯度下降算法,可以得到执行网络和扰动网络的权值更新律为
进一步的,步骤5中采用了梯度下降法和经验回放技术来更新网络权值并对闭环***中所有信号进行稳定性分析,具体如下:
条件1:设Ξ=[φ(t1),φ(t2),...,φ(tp)]为记录的数据矩阵,则Ξ所包含的线性无关元素的个数与式(12)中基的维数相等,即,rank(Ξ)=l.
定理1:设u为任意给定的容许控制策略,控制策略由评价网络(14)和经验回放更新律(17)评估。那么,在条件1下,评价权值近似误差是一致最终有界的。
证明:给定(16),的动力学方程可以表示为
其中,
考虑如下李雅普诺夫函数
对Lc求偏导,得
在条件1下,可以保证Υ2>0。另外,注意到
因此,是负定的,若/>然后,评价权值近似误差/>收敛于集合因此,评价权值近似误差/>是一致最终有界的。证毕。
假设3:激活函数σc,σu,σd,近似误差εc,εu,εd,理想权值ωc,ωu,ωd,近似误差梯度激活函数梯度/>以及残差ξ是范数有界的:
||σc||≤bσcm,||σu||≤bσum,||σd||≤bσdm,||εc||≤εcm,||εu||≤εum,||εd||≤εdm
||ωc||≤ωcm,||ωu||≤ωum,||ωd||≤ωdm||ξ||≤bξ.
定理2:考虑***(7),评价网络、执行网络、扰动网络的权值更新律分别由(17)、(22)、(23)表示,之后,***状态δ和权值估计误差是一致最终有界的。
证明:考虑下面的李雅普诺夫函数
L(t)=V*(δ)+Lc(t)+Lu(t)+Ld(t),
其中,
对V*(δ)求偏导,得
根据(20)和(21),(25)式可重写为
根据贝尔曼方程,可得
将(27)代入(26),得到
根据假设3,有
应用杨氏不等式,可得
其中,
对Lc求偏导,得
对Lu求偏导,得
根据(22)得到,
应用杨氏不等式,得到
对Ld求偏导,得
根据(23)得到,
应用杨氏不等式,得到
最后,结合(30),(31),(32)和(33)可得
其中,
因此,
并且有下列不等式成立
因此,状态δ和权值估计误差是一致最终有界的。证毕。
本发明针对带有全状态约束和外部干扰的高超声速飞行器的零和博弈问题,提出了安全强化学习方法,主要有益效果在于:
1、这是一种基于计算智能的在线学习控制方案,将学习和适应能力融合到飞行控制器中;
2、该方法可以在保证***稳定的同时,能不违反设定的全状态的约束范围;
3、该方法设计的权值更新律使得权值的收敛更稳定,并且收敛速度更快。
附图说明
图1是基于安全强化学习的高超声速飞行器零和博弈方法问题的主流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,基于安全强化学习解决高超声速飞行器的零和博弈问题,首先,建立高超声速飞行器纵向动力学模型,并化简为一般的仿射非线性***模型。其次,提出了一种基于障碍函数的***变换,将全状态安全约束问题转化为无约束零和博弈问题。然后,采用安全强化学习方法在执行-评价-扰动框架下学习零和博弈问题的最优控制策略和最差扰动策略。最后,采用了梯度下降法和经验回放技术来更新网络权值并对闭环***中所有信号进行稳定性分析。
所述方法包括如下具体步骤:
步骤1,建立高超声速飞行器纵向动力学模型。
其中,V,h,γ,α,Q分别表示飞行器的速度,高度,航迹角,攻角以及俯仰角速度,m为飞行器质量,Iyy为转动惯量,g为重力加速度,ζi为阻尼比,ωi为柔性模态频率,ηi为第i个弯曲模态的振幅,L,D,T,M,Ni分别表示升力,阻力,推力,俯仰力矩,广义弹性力,表达式为:
/>
其中,S,zT,/>为飞行动压,参考面积,推力力臂,平均空气动力弦长,并且(2)式中的参数拟合形式为
其中,Φ,δe分别为燃料当量比,升降舵偏转角,皆为***的输入,为升力系数,/>为阻力系数,/>为力矩系数,/>为推力系数。
步骤2,将高超声速飞行器纵向动力学模型化简为一般的仿射非线性***模型。
将高超声速飞行器纵向动力学模型分解为速度子***与高度子***,并进一步化简为一般的仿射非线性***模型。
将速度子***化简为:
其中,
其中,ΔV表示速度子***中气动系数的不确定性和外部干扰所引起的扰动,
将高度子***化简为:
其中,
/>
其中,Δγ,Δα,ΔQ表示高度子***中气动系数的不确定性和外部干扰所引起的扰动;
不失一般性,速度子***和高度子***可以归纳为仿射非线性***模型,如下:
其中,对于速度子***,x=xV=V是速度子***的状态;u=Φ是速度子***的控制输入;d=dV是集中扰动;f(x)=fV和g(x)=gV是李普希兹连续函数。
对于高度子***,x=[xh,xγ,xα,xQ]T=[h,γ,α,Q]T是高度子***的状态;u=δe是高度子***的控制输入;f(x)=[fh(x),fγ(x),fα(x),fQ(x)]T=[Vγ,fγ+gγα,fα+gαQ,fQ]T和g(x)=[gh(x),gγ(x),gα(x),gQ(x)]T=[0,0,0,gQ]T是李普希兹连续函数;d=[0,dγ,dα,dQ]T是集中扰动。
步骤3,提出一种基于障碍函数的***变换,将高超声速飞行器纵向动力学的全状态安全约束问题转化为无约束优化问题。
将高超声速飞行器纵向动力学的全状态约束在安全区域内,即具有全状态约束的高超声速飞行器的安全控制问题,描述如下:
问题1:考虑仿射非线性***模型(3),状态x=[x1,...,xn]T满足下列约束
xi∈(si,Si),i=1,...,n, (4)
其中,si<0,Si>0,找到策略u:Rn→Rm,使得对仿射非线性***模型(3)具有小于或等于γ的L2增益,即
其中,U(x,u)是正定函数。
在此基础上,提出了基于障碍函数的***变换,将给出的具有非对称的全状态约束的安全控制问题转化为无约束稳定性问题,具体描述如下:
定义1(障碍函数):定义在(s0,S0)上的函数ζ(·)是障碍函数,如果有
其中,s0和S0是满足s0<0<S0的两个常数,此外,障碍函数在区间(s0,S0)上是可逆的,即
并有/>
考虑仿射非线性***模型(3),定义基于障碍函数的状态转换如下:
那么,
根据定义1,下式成立
其中,
因此,变换后的变量δ=[δ1,...,δn]T所满足的动力学可表示为
其中,F(δ)=[F1(δ),...,Fn(δ)]T,G(δ)=[0,...,0,gn(δ)]T,K(δ)=[K1(δ),...,Kn(δ)]T.
假设1:动力学***(7)满足:
1)F(δ)是李普希兹的,F(0)=0,对δ∈Ωδ,存在常数fm使得||F(δ)||≤fm||δ||,其中,Ωδ是包含原点的紧集;
2)G(δ)和K(δ)在Ωδ上是有界的,即存在常数bg和bK使得||G(δ)||≤bg,||K(δ)||≤bK
3)在紧集Ωδ上,动力学***(7)是可控的。
在前述中,引入障碍函数,将高超声速飞行器的仿射非线性***模型(3)转化为等价动力学***(7),下面,考虑问题1中的干扰衰减,引入零和微分对策框架。对于控制策略为u,扰动策略为d,
考虑下面的代价函数:
其中,为奖励函数,Q(δ)=δTQδ,Q和R是对称正定矩阵。问题2:对于控制策略为u,扰动策略为d的动力学***(7),找到所述零和博弈问题的纳什均衡(u*,d*)。
定义哈密尔顿量为:
其中,是梯度向量;
然后,对代价函数V(δ)求导得到贝尔曼方程为
根据博弈论,扰动衰减问题等于求解如下二人零和博弈
二人零和博弈有唯一解若纳什条件成立
最优性的平稳条件为
则可得最优控制策略u*和最差扰动策略d*分别为
其中,(u*,d*)表示零和博弈的纳什均衡。
将纳什均衡(u*,d*)代入到贝尔曼方程中,得到哈密尔顿-雅可比-埃萨克斯方程
假设2:性能函数(8)满足零状态可观测性。
问题1和问题2等价的条件由以下引理给出。
引理1:若假设1和假设2成立,并且控制策略(u*,d*)解决***(7)的问题2,则有以下结论成立:
1)只要***(3)的初始状态x0∈(si,Si),i=1,...,n,闭环***(3)就满足安全区域。
2)若性能函数U(x,u)设计为U(x,u)=Q(δ)+uTRu,则可以保证扰动衰减条件(5)成立。
证明:
1)基于假设1和假设2,存在一个正定的连续可微的最优代价函数V*(δ)。根据(8)有也就是/>如果***(3)的初始状态满足(4),则V*(δ(0))是有界的,因此V*(δ(t))也是有界的。此外,由障碍函数的性质可以推出xi(t)∈(si,Si),i=1,...,n,t≥0。因此,给定(u*,d*),问题1的全状态约束是满足的。
2)考虑基于障碍函数的状态转换(6),假设xi∈(si,Si),状态δ=[ζ1(x1),...,ζn(xn)]T的所有元素都有界。注意到,最优代价函数V*和纳什均衡(u*,d*)满足贝尔曼方程(9),即
因此,若U(x,u)=Q(δ)+uTRu,有证毕。
步骤4,通过应用评价-执行-扰动框架实现在线安全强化学习方法来学习最优控制策略和最差扰动策略,
首先,评价网络:
求解哈密尔顿-雅可比-埃萨克斯方程的最初步骤是通过采用如下评价网络近似最优代价函数和最优代价函数梯度:
其中,ωc∈Rl是理想的评价权值,σc(δ):Ωδ→Rl是激活函数,l是隐藏层的神经元数,εc(δ)是评价网络逼近误差,
给定最优控制策略u*,最差扰动策略d*和(10)中的代价函数近似,贝尔曼方程可以用理想评价权值ωc表示为
其中,φ是N维向量表示为
贝尔曼方程残差可表示为
根据代价函数梯度近似(11)可以看出,代价函数梯度近似误差构成了贝尔曼近似误差ξ,即:
最优代价函数V*(δ)的最佳近似值由理想评价权值ωc决定,但是ωc是未知的,设为ωc的估计值,评价网络的输出及其梯度可表示为
然后,对于一个给定的控制策略u,哈密尔顿量近似误差描述为
定义评价网络的权重估计误差为结合贝尔曼近似误差ξ与哈密尔顿近似误差ec,有/>策略评估过程可以通过调整评价权值/>来最小化下面平方误差函数:
为了使得当时,ec→ξ,采用以下梯度下降算法作为评价网络的权值更新律
其中,αc>0为评价网络的学习率。
注意到,上述更新律依赖持续激励条件,但是通常很难验证持续激励条件。为了放宽持续激励条件,采用了经验回放技术。经验回放技术的思想是基于存储或者重新编码的过去数据。收集过去时刻tk的数据φ(tk),其中,k=1,...,p,p是一个正常数。定义在时刻tk的近似误差为
那么,评价权值更新律变为
其次,执行网络:
由于最优控制策略和最差扰动策略由最优代价函数梯度决定,因此,考虑自适应评价网络权值/>的代价函数梯度近似,那么最优控制策略和最差扰动策略可表示为:
为了保证李雅普诺夫意义上的稳定性,控制策略和扰动策略分别用如下执行网络和扰动网络来表示
其中,ωu和ωd分别为未知理想执行网络和扰动网络的权值向量,σu和σd分别为执行网络和扰动网络的激活函数,εu和εd分别为执行网络和扰动网络的重构误差,设和/>分别为ωu和ωd的估计值,估计误差记为/>和/>由此,近似控制策略和扰动策略可表示为/>和/>
执行网络和扰动网络的学习规则由下面的误差信号决定
ea=ua(δ)-uc(δ),ed=da(δ)-dc(δ).
执行网络和扰动网络的目标是使下列目标函数最小化
利用梯度下降算法,可以得到执行网络和扰动网络的权值更新律为
/>
步骤5,采用了梯度下降法和经验回放技术来更新网络权值并对闭环***中所有信号进行稳定性分析。
条件1:设Ξ=[φ(t1),φ(t2),...,φ(tp)]为记录的数据矩阵,则Ξ所包含的线性无关元素的个数与式(12)中基的维数相等,即,rank(Ξ)=l。
定理1:设u为任意给定的容许控制策略,控制策略由评价网络(14)和经验回放更新律(17)评估。那么,在条件1下,评价权值近似误差是一致最终有界的。
证明:给定(16),的动力学方程可以表示为
其中,
考虑如下李雅普诺夫函数
对Lc求偏导,得
在条件1下,可以保证γ2>0。另外,注意到
因此,是负定的,若/>然后,评价权值近似误差/>收敛于集合/>因此,评价权值近似误差/>是一致最终有界的。证毕。
假设3:激活函数σc,σu,σd,近似误差εc,εu,εd,理想权值ωc,ωu,ωd,近似误差梯度激活函数梯度/>以及残差ξ是范数有界的:
||σc||≤bσcm,||σu||≤bσum,||σd||≤bσdm,||εc||≤εcm,||εu||≤εum,||εd||≤εdm
||ωc||≤ωcm,||ωu||≤ωum,||ωd||≤ωdmξ||ξ||≤bξ.
定理2:考虑***(7),评价网络、执行网络、扰动网络的权值更新律分别由(17)、(22)、(23)表示,之后,***状态δ和权值估计误差是一致最终有界的。
证明:考虑下面的李雅普诺夫函数
L(t)=V*(δ)+Lc(t)+Lu(t)+Ld(t),
其中,
对V*(δ)求偏导,得
根据(20)和(21),(25)式可重写为
根据贝尔曼方程,可得
将(27)代入(26),得到
根据假设3,有
应用杨氏不等式,可得
其中,
对Lc求偏导,得
对Lu求偏导,得
根据(22)得到,
应用杨氏不等式,得到
对Ld求偏导,得
根据(23)得到,
应用杨氏不等式,得到
最后,结合(30),(31),(32)和(33)可得
其中,
因此,
并且有下列不等式成立
因此,状态δ和权值估计误差是一致最终有界的。证毕。
为了能够加载上述方法和***能够顺利运行,该***除了包括上述各种模块之外,还可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线、处理器和存储器等。
所称处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述***的控制中心,利用各种接口和线路连接各个部分。
本应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述方法包括:
步骤1:建立高超声速飞行器纵向动力学模型为:
其中,V,h,γ,α,Q分别表示飞行器的速度,高度,航迹角,攻角以及俯仰角速度,m为飞行器质量,Iyy为转动惯量,g为重力加速度,ζi为阻尼比,ωi为柔性模态频率,ηi为第i个弯曲模态的振幅,L,D,T,M,Ni分别表示升力,阻力,推力,俯仰力矩,广义弹性力,表达式为:
其中,S,zT,/>为飞行动压,参考面积,推力力臂,平均空气动力弦长,并且式(2)中的参数拟合形式为
其中,Φ,δe分别为燃料当量比,升降舵偏转角,皆为***的输入,为升力系数,/>为阻力系数,/>为力矩系数,/>为推力系数;
步骤2:将高超声速飞行器纵向动力学模型化简为仿射非线性***模型;
具体为,将高超声速飞行器纵向动力学模型分解为速度子***与高度子***,并进一步化简为仿射非线性***模型,包括:
将速度子***化简为:
其中,
其中,ΔV表示速度子***中气动系数的不确定性和外部干扰所引起的扰动,
将高度子***化简为:
其中,
gα=1,/>
其中,Δγ,Δα,ΔQ表示高度子***中气动系数的不确定性和外部干扰所引起的扰动;
不失一般性,速度子***和高度子***归纳为仿射非线性***模型,如下:
其中,对于速度子***,x=xV=V是速度子***的状态;u=Φ是速度子***的控制输入;d=dV是集中扰动;f(x)=fV和g(x)=gV是李普希兹连续函数;
对于高度子***,x=[xh,xγ,xα,xQ]T=[h,γ,α,Q]T是高度子***的状态;u=δe是高度子***的控制输入;f(x)=[fh(x),fγ(x),fα(x),fQ(x)]T=[Vγ,fγ+gγα,fα+gαQ,fQ]T和g(x)=[gh(x),gγ(x),gα(x),gQ(x)]T=[0,0,0,gQ]T是李普希兹连续函数;d=[0,dγ,dα,dQ]T是集中扰动;
步骤3:基于障碍函数的***变换,将高超声速飞行器纵向动力学的全状态安全约束问题转化为无约束零和博弈问题;
步骤4:采用安全强化学习方法在执行-评价-扰动框架下学习所述零和博弈问题的最优控制策略和最差扰动策略;
步骤5:采用了梯度下降法和经验回放技术更新网络权值并对闭环***中所有信号进行稳定性分析。
2.根据权利要求1所述基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述步骤3中,将高超声速飞行器纵向动力学的全状态约束在安全区域内,即具有全状态约束的高超声速飞行器的安全控制问题,描述如下:
问题1:考虑仿射非线性***模型(3),状态x=[x1,...,xn]T满足下列约束
xi∈(si,Si),i=1,...,n, (4)
其中,si<0,Si>0,找到策略u:Rn→Rm,使得对仿射非线性***模型(3)具有小于或等于γ的L2增益,即
其中,U(x,u)是正定函数;
在此基础上,提出了基于障碍函数的***变换,将给出的具有非对称的全状态约束的安全控制问题转化为无约束稳定性问题,具体描述如下:
定义1,障碍函数:定义在(s0,S0)上的函数ζ(·)是障碍函数,如果有
其中,s0和S0是满足s0<0<S0的两个常数,此外,障碍函数在区间(s0,S0)上是可逆的,即
并有
考虑仿射非线性***模型(3),定义基于障碍函数的状态转换如下:
那么,
根据定义1,下式成立
其中,
因此,变换后的变量δ=[δ1,...,δn]T所满足的动力学表示为
其中,F(δ)=[F1(δ),...,Fn(δ)]T,G(δ)=[0,...,0,gn(δ)]T,K(δ)=[K1(δ),...,Kn(δ)]T.
假设1:动力学***(7)满足:
1)F(δ)是李普希兹的,F(0)=0,对δ∈Ωδ,存在常数fm使得||F(δ)||≤fm||δ||,其中,Ωδ是包含原点的紧集;
2)G(δ)和K(δ)在Ωδ上是有界的,即存在常数bg和bK使得||G(δ)||≤bg,||K(δ)||≤bK
3)在紧集Ωδ上,动力学***(7)是可控的;
在前述中,引入障碍函数,将高超声速飞行器的仿射非线性***模型(3)转化为等价动力学***(7),下面,考虑问题1中的干扰衰减,引入零和微分对策框架;对于控制策略为u,扰动策略为d,考虑下面的代价函数:
其中,为奖励函数,Q(δ)=δTQδ,Q和R是对称正定矩阵;
问题2:对于控制策略为u,扰动策略为d的动力学***(7),找到所述零和博弈问题的纳什均衡(u*,d*);
定义哈密尔顿量为:
其中,是梯度向量;
然后,对代价函数V(δ)求导得到贝尔曼方程为
根据博弈论,扰动衰减问题等价于求解如下二人零和博弈
二人零和博弈有唯一解若纳什条件成立
最优性的平稳条件为
则得到最优控制策略u*和最差扰动策略d*分别为
其中,(u*,d*)表示零和博弈的纳什均衡;
将纳什均衡(u*,d*)代入到贝尔曼方程中,得到哈密尔顿-雅可比-埃萨克斯方程
假设2:性能函数(8)满足零状态可观测性。
3.根据权利要求2所述基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述步骤4中,通过应用评价-执行-扰动框架实现在线安全强化学习方法来学习最优控制策略和最差扰动策略,
首先,评价网络:
求解哈密尔顿-雅可比-埃萨克斯方程的最初步骤是通过采用如下评价网络近似最优代价函数和最优代价函数梯度:
其中,ωc∈Rl是理想的评价权值,σc(δ):Ωδ→Rl是激活函数,l是隐藏层的神经元数,εc(δ)是评价网络逼近误差,
给定最优控制策略u*,最差扰动策略d*和(10)中的代价函数近似,贝尔曼方程用理想评价权值ωc表示为
其中,φ是N维向量表示为
贝尔曼方程残差表示为
根据代价函数梯度近似(11)看出,代价函数梯度近似误差构成了贝尔曼近似误差ξ,即:
最优代价函数V*(δ)的最佳近似值由理想评价权值ωc决定,但是ωc是未知的,设为ωc的估计值,评价网络的输出及其梯度表示为
然后,对于一个给定的控制策略u,哈密尔顿量近似误差描述为
定义评价网络的权重估计误差为结合贝尔曼近似误差ξ与哈密尔顿近似误差ec,有/>策略评估过程通过调整评价权值/>来最小化下面平方误差函数:
为了使得当时,ec→ξ,采用以下梯度下降算法作为评价网络的权值更新律
其中,αc>0为评价网络的学习率;
注意到,上述更新律依赖持续激励条件,但是通常很难验证持续激励条件;为了放宽持续激励条件,采用了经验回放技术;所述经验回放技术的思想是基于存储或者重新编码的过去数据;收集过去时刻tk的数据φ(tk),其中,k=1,...,p,p是一个正常数;定义在时刻tk的近似误差为那么,评价权值更新律变为
其次,执行网络:
由于最优控制策略和最差扰动策略由最优代价函数梯度决定,因此,考虑自适应评价网络权值/>的代价函数梯度近似,那么最优控制策略和最差扰动策略表示为:
为了保证李雅普诺夫意义上的稳定性,控制策略和扰动策略分别用如下执行网络和扰动网络来表示
其中,ωu和ωd分别为未知理想执行网络和扰动网络的权值向量,σu和σd分别为执行网络和扰动网络的激活函数,εu和εd分别为执行网络和扰动网络的重构误差,设和/>分别为ωu和ωd的估计值,估计误差记为/>和/>由此,近似控制策略和扰动策略表示为/>和/>
执行网络和扰动网络的学习规则由下面的误差信号决定
ea=ua(δ)-uc(δ),ed=da(δ)-dc(δ).
执行网络和扰动网络的目标是使下列目标函数最小化
利用梯度下降算法,得到执行网络和扰动网络的权值更新律为
4.根据权利要求3所述基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述步骤5中,采用了梯度下降法和经验回放技术来更新网络权值并对闭环***中所有信号进行稳定性分析;
条件1:设Ξ=[φ(t1),φ(t2),...,φ(tp)]为记录的数据矩阵,则Ξ所包含的线性无关元素的个数与式(12)中基的维数相等,即,rank(Ξ)=l;
定理1:设u为任意给定的容许控制策略,控制策略由评价网络(14)和经验回放更新律(16)评估;那么,在条件1下,评价权值近似误差是一致最终有界的;
假设3:激活函数σc,σu,σd,近似误差εc,εu,εd,理想权值ωc,ωu,ωd,近似误差梯度激活函数梯度/>以及残差ξ是范数有界的:
||σc||≤bσcm,||σu||≤bσum,||σd||≤bσdm,||εc||≤εcm,||εu||≤εum,||εd||≤εdm
||ωc||≤ωcm,||ωu||≤ωum,||ωd||≤ωdm||ξ||≤bξ.
定理2:考虑动力学***(7),评价网络、执行网络、扰动网络的权值更新律分别由(16)、(21)、(22)表示,之后,***状态δ和权值估计误差是一致最终有界的。
CN202311179430.XA 2023-09-13 2023-09-13 基于安全强化学习的高超声速飞行器零和博弈方法 Active CN117130277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311179430.XA CN117130277B (zh) 2023-09-13 2023-09-13 基于安全强化学习的高超声速飞行器零和博弈方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311179430.XA CN117130277B (zh) 2023-09-13 2023-09-13 基于安全强化学习的高超声速飞行器零和博弈方法

Publications (2)

Publication Number Publication Date
CN117130277A CN117130277A (zh) 2023-11-28
CN117130277B true CN117130277B (zh) 2024-05-10

Family

ID=88859942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311179430.XA Active CN117130277B (zh) 2023-09-13 2023-09-13 基于安全强化学习的高超声速飞行器零和博弈方法

Country Status (1)

Country Link
CN (1) CN117130277B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106842912A (zh) * 2016-11-30 2017-06-13 南京航空航天大学 高超声速机动飞行抗舵面饱和鲁棒控制方法
CN111831002A (zh) * 2020-07-10 2020-10-27 中国人民解放军海军工程大学 一种基于预设性能的超高声速飞行器姿态控制方法
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放***箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN114815888A (zh) * 2022-04-28 2022-07-29 哈尔滨工业大学 一种仿射形式的制导控制一体化控制方法
CN115981149A (zh) * 2022-12-09 2023-04-18 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN116009594A (zh) * 2023-03-27 2023-04-25 合肥工业大学 一种基于零和博弈的高超声速飞行器状态约束容错控制方法
CN116610136A (zh) * 2023-06-19 2023-08-18 南京理工大学 基于数据驱动技术的高超声速飞行器姿态容错控制方法
CN116736723A (zh) * 2023-07-13 2023-09-12 浙江大学 一种气动热影响下的弹性高超声速飞行器建模和模糊自适应滑模控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106842912A (zh) * 2016-11-30 2017-06-13 南京航空航天大学 高超声速机动飞行抗舵面饱和鲁棒控制方法
CN111831002A (zh) * 2020-07-10 2020-10-27 中国人民解放军海军工程大学 一种基于预设性能的超高声速飞行器姿态控制方法
CN114815888A (zh) * 2022-04-28 2022-07-29 哈尔滨工业大学 一种仿射形式的制导控制一体化控制方法
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放***箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115981149A (zh) * 2022-12-09 2023-04-18 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN116009594A (zh) * 2023-03-27 2023-04-25 合肥工业大学 一种基于零和博弈的高超声速飞行器状态约束容错控制方法
CN116610136A (zh) * 2023-06-19 2023-08-18 南京理工大学 基于数据驱动技术的高超声速飞行器姿态容错控制方法
CN116736723A (zh) * 2023-07-13 2023-09-12 浙江大学 一种气动热影响下的弹性高超声速飞行器建模和模糊自适应滑模控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Reinforcement Learning based Optimal Tracking Control for Hypersonic Flight Vehicle: A Model Free Approach;Xiaoxiang Hu et.al;2022 IEEE 20th International Conference on Industrial Informatics (INDIN);第711-717页 *
考虑约束的高超声速飞行器制导与控制一体化设计;唐建等;宇航学报;第43卷(第05期);第649-664页 *
融合强化学习和进化算法的高超声速飞行器航迹规划;池海红等;控制理论与应用;第39卷(第05期);第847-856页 *

Also Published As

Publication number Publication date
CN117130277A (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN105182743B (zh) 一种基于鲁棒h无穷的变增益解耦控制方法
Liu et al. Barrier Lyapunov function based reinforcement learning control for air-breathing hypersonic vehicle with variable geometry inlet
CN112987567B (zh) 非线性***的固定时间自适应神经网络滑模控制方法
Yan et al. Extended state observer‐based sliding mode fault‐tolerant control for unmanned autonomous helicopter with wind gusts
Chu et al. Motion control of unmanned underwater vehicles via deep imitation reinforcement learning algorithm
Jin et al. Robust adaptive neural network-based compensation control of a class of quadrotor aircrafts
CN111650830A (zh) 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法
Xu et al. Intelligent control of flexible hypersonic flight dynamics with input dead zone using singular perturbation decomposition
CN111007724A (zh) 一种基于区间ii型模糊神经网络的高超音速飞行器指定性能量化跟踪控制方法
Qiu et al. Robust path‐following control based on trajectory linearization control for unmanned surface vehicle with uncertainty of model and actuator saturation
Wang et al. Intelligent control of air-breathing hypersonic vehicles subject to path and angle-of-attack constraints
Wang et al. Robust adaptive control of hypersonic flight vehicle with aero-servo-elastic effect
Liu et al. Robust controller design for uncertain delayed systems and its applications to hypersonic vehicles
Hong et al. Physics-guided neural network and GPU-accelerated nonlinear model predictive control for quadcopter
CN115981149B (zh) 基于安全强化学习的高超声速飞行器最优控制方法
CN117130277B (zh) 基于安全强化学习的高超声速飞行器零和博弈方法
Hu et al. Robust model predictive control for hypersonic vehicle with state‐dependent input constraints and parameter uncertainty
Zhou et al. UAV based adaptive trajectory tracking control with input saturation and unknown time‐varying disturbances
Han et al. Robust approximate optimal control for air‐breathing hypersonic vehicle
Wu et al. Elman Neural Network‐Based Direct Lift Automatic Carrier Landing Nonsingular Terminal Sliding Mode Fault‐Tolerant Control System Design
Ma et al. Trajectory tracking control for autonomous underwater vehicle with disturbances and input saturation based on contraction theory
Hu et al. Neural network-based robust control for hypersonic flight vehicle with uncertainty modelling
CN116736692A (zh) 一种具有延迟状态约束的四旋翼无人机滑模容错控制方法
Gruner et al. Recursively feasible model predictive control using latent force models applied to disturbed quadcopters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant