CN111190429B - 一种基于强化学习的无人机主动容错控制方法 - Google Patents

一种基于强化学习的无人机主动容错控制方法 Download PDF

Info

Publication number
CN111190429B
CN111190429B CN202010030358.4A CN202010030358A CN111190429B CN 111190429 B CN111190429 B CN 111190429B CN 202010030358 A CN202010030358 A CN 202010030358A CN 111190429 B CN111190429 B CN 111190429B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
fault
current
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010030358.4A
Other languages
English (en)
Other versions
CN111190429A (zh
Inventor
任坚
刘剑慰
杨蒲
葛志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010030358.4A priority Critical patent/CN111190429B/zh
Publication of CN111190429A publication Critical patent/CN111190429A/zh
Application granted granted Critical
Publication of CN111190429B publication Critical patent/CN111190429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习的无人机主动容错控制方法,具体包括两个阶段,前期离线训练阶段:通过采集无人机运行时产生的历史姿态与控制器输出的数据,对强化学习的容错控制器的评价网络进行训练更新,而本发明中评价网络采用遗传算法优化极限学习机进行优化,提升了训练速度和训练精度;***运行与在线训练阶段:在无人机运行过程中,利用强化学习评价网络进行实时在线更新,在无人机主动容错控制过程中通过在线更新实现强化学习容错控制器的自我学习和自我完善,并通过动态扩容更新算法实现极限学习机的实时在线更新。本发明采用增量式策略对强化学习方法进行优化,实现对最优容错控制策略的渐近逼近,能够更好实现无人机的容错控制。

Description

一种基于强化学习的无人机主动容错控制方法
技术领域
本发明涉及一种基于强化学习的无人机主动容错控制方法,具体涉及一种基于极限学习机和增量式策略强化学习的无人机主动容错控制方法,属于无人机主动容错控制技术领域。
背景技术
随着航空航天技术的不断发展,飞行控制***的规模变得越来越庞大,***的复杂度也不断地增加。在飞行控制***不断进步的同时,***的稳定性也面临着巨大的挑战。任何类型的故障都可以导致***性能的折损甚至是瘫痪,造成控制***的不稳定,从而带来巨大的损失。因此,如何减小甚至是消除***故障所带来的危险是一个值得研究的问题,为了克服传感器、执行器和其他部件的故障,国内外学者们在故障诊断与容错控制这一研究方向上做出了很多的努力。
近年来的研究工作大多聚焦在***控制器的设计上,大多采用基于模型的方法对***控制器进行重构,而由于科学技术的发展,飞行控制***的复杂度越来越庞大,这也为对飞控***的数学建模带来了巨大的挑战,由于基于模型的方法能够成功实现的前提是对***的精准建模,所以随着控制***越来越复杂,基于模型的方法的局限性也体现了出来。由于基于数据方法的较高工程应用价值,最近几年也引来了越来越多业界的关注,而强化学习作为一种控制方法,并且基于数据,具有较高的研究价值。
目前,强化学习主要应用在最优控制理论领域,而将强化学习算法应用于无人机的主动容错控制中的研究成果仍然较少。
发明内容
本发明所要解决的技术问题是:提供一种基于强化学习的无人机主动容错控制方法,解决了现有技术存在的譬如数学建模的精确性会大大影响容错效果以及传统确定性策略强化学习对于容错控制效果欠佳等问题,具有较强的实时性和适应性。
本发明为解决上述技术问题采用以下技术方案:
一种基于强化学习的无人机主动容错控制方法,包括如下步骤:
步骤1,建立无人机动力学模型,对无人机进行故障注入,得到故障情况下的无人机飞行器故障模型;
步骤2,定义五种不同的增量式策略,包括无补偿动作、补偿执行器故障的正向动作、补偿执行器故障的负向动作、补偿传感器故障的正向动作、补偿传感器故障的负向动作,依次用一种增量式策略遍历无人机飞行器故障模型,并通过传感器采集每种增量式策略下的无人机姿态数据;
步骤3,利用无人机姿态数据对基于遗传算法-极限学习机的强化学习评价网络进行训练,得到训练好的强化学习评价网络;
步骤4,根据步骤2无补偿动作策略遍历无人机飞行器故障模型时,采集到的无人机姿态数据对状态转移预测网络进行训练,得到训练好的状态转移预测网络;
步骤5,设置训练数据集为空,在无人机飞行控制***运行过程中,每个采样周期采集一次姿态角数据Sk,将五种不同的增量式策略分别与姿态角数据Sk组成输入数据输入到当前强化学习评价网络,得到当前姿态角下采取各个不同的增量式策略分别对应的奖励值;
步骤6,根据不同的增量式策略对应的奖励值结合ε-Greedy策略选择当前姿态角下最优的增量式策略并执行该策略,得到***即时回报值Q(Scurrent,Acurrent);
步骤7,根据当前姿态角数据和当前状态转移预测网络,预测下一个采样周期的姿态角,得到下一个采样周期姿态角预测值;
步骤8,对下一个采样周期姿态角预测值重复步骤5和步骤6,得到下一个采样周期对应的最优的增量式策略,以及***即时回报值Q(Snext,Anext),计算需要更新的奖励值
Figure BDA0002364081710000021
步骤9,将当前姿态角数据Sk、当前姿态角下最优的增量式策略、需要更新的奖励值
Figure BDA0002364081710000031
作为新的数据样本,扩容到当前训练数据集中,利用当前训练数据集对当前强化学习评价网络进行更新;
步骤10,对于每个采样周期,重复步骤5-步骤9,直至完成飞行任务。
作为本发明的一种优选方案,步骤1所述故障情况下的无人机飞行器故障模型,具体为:
Figure BDA0002364081710000032
其中,x∈R4×1为***的状态变量,
Figure BDA0002364081710000033
θ为俯仰角变量,
Figure BDA0002364081710000034
为滚转角变量,
Figure BDA0002364081710000035
Figure BDA0002364081710000036
的导数,
Figure BDA0002364081710000037
Figure BDA0002364081710000038
的积分,u为控制输入,A、B、C、D均为***矩阵,y为控制***的输出,φ(t-t1)fa(t)、φ(t-t2)Ffs(t)分别表示飞行控制***中的执行器故障、传感器故障,fa(t)为未知的执行器故障偏置值,Ffs(t)为未知的传感器故障偏置值,φ(t-tf)为故障产生时间函数,且
Figure BDA0002364081710000039
tf为飞行控制***中的未知故障产生的时间,t表示时间。
作为本发明的一种优选方案,所述步骤3的具体过程为:
步骤31,将步骤2采集的无人机姿态数据,按照时间序列顺序进行排序,组成训练样本集;
步骤32,基于遗传算法-极限学习机的强化学习评价网络包括单个隐藏层,通过遗传算法创建极限学习机隐藏层参数的随机参数种群,利用适应度函数对随机参数种群进行淘汰,将剩余随机参数种群经过遗传算法的遗传、交叉、变异操作,重复上述淘汰-遗传-交叉-变异过程,直至适应度函数达到最优值,从而得到训练好的强化学习评价网络。
作为本发明的一种优选方案,步骤8所述更新的奖励值
Figure BDA00023640817100000310
计算公式为:
Figure BDA00023640817100000311
其中,Q(Scurrent,Acurrent)表示当前姿态角Sk下执行最优的增量式策略得到的***即时回报值,λ表示折扣因子,0<λ<1,Q(Snext,Anext)表示下一个姿态角Snext下执行最优的增量式策略得到的***即时回报值。
作为本发明的一种优选方案,步骤9所述更新的具体方法为:通过遗传算法优化极限学习机求取Moore-Penrose广义逆的训练算法,更新当前强化学习评价网络。
作为本发明的一种优选方案,步骤7所述当前状态转移预测网络,每隔10个采样周期更新一次,若当前采样周期要更新状态转移预测网络,则更新时采用的训练数据为当前采样周期采集的姿态角数据以及当前采样周期的前9个采样周期采集的姿态角数据。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明通过强化学习控制器,采用评价网络对***产生的实时数据进行特征的提取,从而获取故障信息并基于此做出对***控制器的调整;相比于传统的基于模型的容错控制方法,本发明是一种基于数据的主动容错控制方法,突破了复杂***建模困难的局限,并且通过对数据特征的提取替代了故障检测子***,简化了控制器的设计。
2、本发明对于不确定性故障的前提,提出了增量型策略的强化学习控制器,改进了传统强化学习算法中采用确定性的固定策略的局限,从而实现对当前所产生故障***的最优容错策略的逼近。
3、本发明通过状态转移预测网络进行下一步状态的预估,实现了连续控制***的实时策略网络的更新。
4、本发明通过遗传算法-极限学习机模型优化强化学习的评价网络,相较于传统的强化学习方法,进行优化过后,强化学习模型对于数据提取特征的能力大大加强。
5、本发明对于极限学习机模型的在线更新,提出动态扩容更新算法,利用极限学习机更新训练的快速性,实现了强化学习评价网络的快速在线更新。
附图说明
图1是本发明控制方法的流程示意图。
图2是本发明强化学习主动容错控制器结构图。
图3是本发明强化学习评价网络训练过程流程图。
图4是本发明极限学习网络模型动态扩容更新算法示意图。
图5是本发明实施例在执行器故障情况下主动容错控制器的容错控制效果。
图6是本发明实施例在传感器故障情况下主动容错控制器的容错控制效果。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1和图2所示,本发明一种基于强化学习的无人机主动容错控制方法,其步骤包括:
步骤S1、前期离线训练阶段:建立无人机动力学模型,通过采集无人机运行时产生的历史姿态与控制器输出的数据,对强化学习的容错控制器的评价网络进行训练更新,而本发明中评价网络采用遗传算法优化极限学习机进行优化,提升了训练速度和训练精度。
步骤S2、***运行与在线训练阶段:在无人机运行过程中,利用强化学习评价网络进行实时在线更新,在无人机主动容错控制过程中通过在线更新实现强化学习容错控制器的自我学习和自我完善,并通过动态扩容更新算法实现极限学习机的实时在线更新。本发明采用增量式策略对强化学习方法进行优化,实现对最优容错控制策略的渐近逼近,能够更好实现无人机的容错控制。
步骤S1前期离线训练阶段的具体实现步骤如下:
步骤S11、建立无人机的动力学模型;考虑无人机以恒定速度在高空飞行,动力学模型使用简化的三自由度模型描述。本发明实施例采用的是南京航空航天大学“先进飞行器导航、控制与健康管理”工信部重点实验室的飞行器故障诊断实验平台,建立的故障情况下的无人机飞行器故障模型如下所示:
Figure BDA0002364081710000051
其中,x∈R4×1为***的状态,
Figure BDA0002364081710000052
θ为俯仰角变量,
Figure BDA0002364081710000053
为滚转角变量,u=[u1 u2 u3 u4]T为控制输入,A∈R4×4,B∈R4×1,C∈R1×4,D∈R1×1为***矩阵,y∈R为控制***的输出,φ(t-t1)fa(t)、φ(t-t2)Ffs(t)分别表示飞行控制***中的执行器故障和传感器故障,其中fa(t)为未知的执行器故障偏置值,Ffs(t)为未知的传感器故障的偏置值,其中F∈R1×4,fs(t)∈R4×1,φ(t-tf)定义为故障产生时间定义函数如下所示:
Figure BDA0002364081710000061
其中tf为飞行控制***中的未知故障产生的时间,在所建模型中通过φ(t-tf)函数表示***的突发性故障(在时间tf之后故障产生)。对于***矩阵具体表示如下:
Figure BDA0002364081710000062
C=[0 1 0 0]D=0
步骤S12、通过建立的数学模型对无人机控制***中的运行数据进行采集,通过对无人机进行故障注入,在无人机正常运行和发生故障情况下运行时通过传感器对数据进行采集,具体的数据标签为姿态欧拉角数据、容错策略的编号和控制***的实际输出,将采集到的数据作为评价网络的训练数据。选取的数据是从控制***中选出的能够反应控制***运行状态的变量,它能够反应***当前的运行状况,容错控制器通过***状态抽取有用的特征,将其作为容错控制器进行决策的重要依据。将容错控制***状态定义为飞行控制***的姿态角:
Figure BDA0002364081710000063
其中,S为数据集的标签属性,其中n为策略动作的编号,将采集到的数据作为评价网络的训练数据。
步骤S13、通过极限学习机方法对强化学习Q-learning算法进行优化,强化学习容错控制器的评价网络为含有单个隐藏层的三层极限学习机网络,具体结构如图3所示。
步骤S14、根据采集的运行数据,对已经构建的极限学习机网络进行离线训练更新,并通过遗传算法对极限学习机网络进行优化。过程为:
步骤S141、将采集得到的训练数据样本按照时间序列顺序组成训练数据样本集合。
步骤S142、通过遗传算法创建极限学习机隐藏层参数的随机参数种群,通过遗传算法过程的遗传、交叉、变异通过适应度函数ffitness进行种群的优化,在经过一定的迭代次数后,当适应度函数达到最优值后不再变化后,便训练得到准确度最高的评价网络模型。其中适应度函数ffitness表示如下:
Figure BDA0002364081710000071
式中,yi表示第i个样本期望输出值,yi′表示第i个样本输入模型后实际的输出值。在经过一定的迭代次数后,当适应度函数达到最优值后不再变化后,便训练得到准确度最高的评价网络模型。
在前期离线训练阶段,通过步骤141进行训练数据的构建,对于极限学习机算法,通过求取线性方程中的Moore-Penrose广义逆进行输出层权值的更新,对于遗传算法优化极限学习机模型的训练流程,首先随机初始一定规模的隐藏层随机参数样本,然后对种群内的各个样本进行训练,并求取各个样本的误差作为遗传算法的适应度函数,然后根据每个个体的适应度函数进行淘汰,然后对淘汰后留下的个体进行交叉、变异等操作,在进行交叉、变异等操作后,继续进行下一步样本训练,然后依照上述操作继续迭代,具体的训练流程如图3所示。
定义一个历史经验四元组(Sk,Ak,Rk,Sk+1),其中Sk为无人机飞行器控制***当前状态值,Ak为无人机飞行器控制***当前状态下所做出的容错策略动作,Rk为无人机飞行器当前状态下采取的动作Ak所获得的回报值,Sk+1为无人机飞行器控制***当前状态下采取动作Ak后无人机飞行器控制***达到的下一步状态值。而在强化学习评价网络训练更新的过程中,需要通过Sk和Ak求得Sk+1进而更新Sk,Ak下的Q函数:Q(Sk,Ak),本发明通过状态转移预测网络来实现对Sk+1的预测。
通过遗传算法对极限学***方和的倒数,算法目标是最大化自适应函数,从而实现误差的最小化;对于极限学习机网络隐含层节点数为128。
步骤S2***运行与在线训练阶段的具体实现步骤如下:
步骤S21、将采集无人机的数据按照时间序列排序后组成输入为Sk,输出为Sk+1的训练样本,按照时间递进的顺序组成训练数据样本集合。
步骤S22、通过BP神经网络对步骤S21所得到的训练数据样本集合进行训练。
无人机飞行控制***运行状态,当状态转移预测网络训练完毕之后,控制***将基于增量式策略的强化学习方法进行容错跟踪控制,在此过程中,通过每一步的决策与即时奖励值对评价网路进行在线更新,其中即时奖励值得评判标准为控制***期望输出与实际输出得误差绝对值,定义奖励函数J(St),具体函数形式如下:
Figure BDA0002364081710000081
其中γ为折扣因子,满足0<γ≤1;而U(St-j,At-j)为强化学习算法的效用函数,具体函数形式如下:
U(St,At)=Q(St,At)
而Q(St,At)函数得数学形式为:
Q(St,At)=|y(t,At)-yd(t)|
其中t为***运行时间,y(t,At)为***当前时刻下所作出决策At后控制***得到的实际输出,yd(t)为当前时刻下期望的控制***输出。
步骤S23、强化学习智能体,即本发明中的强化学习主动容错控制器,在无人机飞行器控制***运行过程中通过传感器采集到的姿态角、执行器电流电压等数据来判断当前***是否发生故障,若发生故障,评价网络对于当前状态和策略动作集合中的每个动作对应的奖励值会发生改变,其中策略动作集合的数学表达形式为:
Ω={Λ12345}
其中Λa为***中可选的第a个配置方案,a=1,2,3,4,5。在具体应用实施例中,采用增量式策略实现对最优容错控制策略的渐近逼近,每个时刻容错控制器所做出的策略将叠加到当前策略信号中,对于本发明的应用实施例中,定义以下五种增量式策略:
1、***正常时所做出的动作:Λ1=[0 0 0 0]
2、补偿执行器故障的正向动作:Λ2=+[0 0.0002 0 0]
3、补偿执行器故障的负向动作:Λ3=-[0 0.0002 0 0]
4、补偿传感器故障的正向动作:Λ4=+[0 0 0.0002 0]
5、补偿传感器故障的负向动作:Λ5=-[0 0 0.0002 0]
步骤S24、评价网络通过控制***当前的运行状态值Sk与策略动作集合中每个增量式策略动作作为模型输入,通过模型输出结合ε-Greedy策略进行动作的选择,紧接着通过评价网络所做出的增量式的策略动作叠加到现有动作当中并作用于当前的控制信号实现容错。
通过动态扩容更新算法实现极限学习机网络的在线更新,此方法无需通过类似梯度下降的算法对当前的样本误差进行前馈传递,通过对于训练数据的直接扩充,并利用极限学习机更新算法的快速性,实现在线的快速更新,具体步骤如图4所示。
对于强化学习的更新过程,首先初始化Q-learning评价网络,神经网络随机初始化参数,神经网络的输入数据为***的状态和当前采取的动作序号,输出为当前状态与在此状态下采取动作所获得reward奖励值U(Scurrent,Acurrent)。
接下来采集到当前状态St:以ε的概率在所有动作集合中随机选择动作,以(1-ε)的概率选择使reward值(在本文中就是***的实际输出与期望输出之间的误差)最大化的动作At=argmaxQ(St),记当前的状态St和动作At值所得的奖励为U(Scurrent,Acurrent)。
步骤S25、在强化学习主动容错控制器决策模块给出容错策略后,对当前状态和所作出策略的奖励值函数进行求取,通过当前的立即回报值Q(Scurrent,Acurrent)加上折扣后的历史值
Figure BDA0002364081710000091
得到累计折扣回报值,更新后的奖励值的数学表达形式为:
Figure BDA0002364081710000092
Figure BDA0002364081710000093
为当前评价网络下状态输出的回报值。
步骤S26、将当前状态值、采取的策略动作编号和步骤S25所获得的
Figure BDA0002364081710000094
作为新的数据样本,扩容到现有的训练数据集合中。
步骤S27、通过遗传算法优化极限学习机求取Moore-Penrose广义逆的训练算法,获得最新的训练模型。
步骤S28、对于每个采样周期,重复上述过程,直至完成飞行任务。
通过控制***历史运行的数据对状态转移预测网络进行隔代更新,用来通过当前的状态和动作值来预测下一个状态值。为了降低处理器的压力,保证***的快速性情况下,在不影响容错控制器做出准确判断的前提下,通过每隔10个采样周期,进行一次状态转移预测网络的更新。
为验证本发明容错控制的效果,应用南京航空航天大学“先进飞行器导航、控制与健康管理”工信部重点实验室的飞行器故障诊断实验平台进行验证实验,当对实验平台注入执行器故障时,***姿态在产生偏差后通过基于极限学***台注入传感器故障时,无人机飞行器的输出残差误差如图6所示。
从仿真结果可以得出,当无人机飞行器在飞行过程中产生了执行器故障或者传感器故障的情况下,本发明所设计的基于极限学习机和增量式策略强化学习的无人机主动容错控制方法能够在运行过程中无需依靠***模型便能进行很好的容错效果,并且能够实现在线的自我学习与更新。本发明对于产生故障的无人机飞行器的容错控制具有重要的适用参考价值。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (4)

1.一种基于强化学习的无人机主动容错控制方法,其特征在于,包括如下步骤:
步骤1,建立无人机动力学模型,对无人机进行故障注入,得到故障情况下的无人机飞行器故障模型;
所述故障情况下的无人机飞行器故障模型,具体为:
Figure FDA0003199526190000011
其中,x∈R4×1为***的状态变量,
Figure FDA0003199526190000012
θ为俯仰角变量,
Figure FDA0003199526190000013
为滚转角变量,
Figure FDA0003199526190000014
Figure FDA0003199526190000015
的导数,
Figure FDA0003199526190000016
Figure FDA0003199526190000017
的积分,u为控制输入,A、B、C、D均为***矩阵,y为控制***的输出,φ(t-t1)fa(t)、φ(t-t2)Ffs(t)分别表示飞行控制***中的执行器故障、传感器故障,fa(t)为未知的执行器故障偏置值,Ffs(t)为未知的传感器故障偏置值,φ(t-tf)为故障产生时间函数,且
Figure FDA0003199526190000018
tf为飞行控制***中的未知故障产生的时间,t表示时间;
步骤2,定义五种不同的增量式策略,包括无补偿动作、补偿执行器故障的正向动作、补偿执行器故障的负向动作、补偿传感器故障的正向动作、补偿传感器故障的负向动作,依次用一种增量式策略遍历无人机飞行器故障模型,并通过传感器采集每种增量式策略下的无人机姿态数据;
步骤3,利用无人机姿态数据对基于遗传算法-极限学习机的强化学习评价网络进行训练,得到训练好的强化学习评价网络;
步骤4,根据步骤2无补偿动作策略遍历无人机飞行器故障模型时,采集到的无人机姿态数据对状态转移预测网络进行训练,得到训练好的状态转移预测网络;
步骤5,设置训练数据集为空,在无人机飞行控制***运行过程中,每个采样周期采集一次姿态角数据Sk,将五种不同的增量式策略分别与姿态角数据Sk组成输入数据输入到当前强化学习评价网络,得到当前姿态角下采取各个不同的增量式策略分别对应的奖励值;
步骤6,根据不同的增量式策略对应的奖励值结合ε-Greedy策略选择当前姿态角下最优的增量式策略并执行该策略,得到***即时回报值Q(Scurrent,Acurrent);
步骤7,根据当前姿态角数据和当前状态转移预测网络,预测下一个采样周期的姿态角,得到下一个采样周期姿态角预测值;
步骤8,对下一个采样周期姿态角预测值重复步骤5和步骤6,得到下一个采样周期对应的最优的增量式策略,以及***即时回报值Q(Snext,Anext),计算需要更新的奖励值
Figure FDA0003199526190000021
所述更新的奖励值
Figure FDA0003199526190000022
计算公式为:
Figure FDA0003199526190000023
其中,Q(Scurrent,Acurrent)表示当前姿态角Sk下执行最优的增量式策略得到的***即时回报值,λ表示折扣因子,0<λ<1,Q(Snext,Anext)表示下一个姿态角Snext下执行最优的增量式策略得到的***即时回报值;
步骤9,将当前姿态角数据Sk、当前姿态角下最优的增量式策略、需要更新的奖励值
Figure FDA0003199526190000024
作为新的数据样本,扩容到当前训练数据集中,利用当前训练数据集对当前强化学习评价网络进行更新;
步骤10,对于每个采样周期,重复步骤5-步骤9,直至完成飞行任务。
2.根据权利要求1所述基于强化学习的无人机主动容错控制方法,其特征在于,所述步骤3的具体过程为:
步骤31,将步骤2采集的无人机姿态数据,按照时间序列顺序进行排序,组成训练样本集;
步骤32,基于遗传算法-极限学习机的强化学习评价网络包括单个隐藏层,通过遗传算法创建极限学习机隐藏层参数的随机参数种群,利用适应度函数对随机参数种群进行淘汰,将剩余随机参数种群经过遗传算法的遗传、交叉、变异操作,重复上述淘汰-遗传-交叉-变异过程,直至适应度函数达到最优值,从而得到训练好的强化学习评价网络。
3.根据权利要求1所述基于强化学习的无人机主动容错控制方法,其特征在于,步骤9所述更新的具体方法为:通过遗传算法优化极限学习机求取Moore-Penrose广义逆的训练算法,更新当前强化学习评价网络。
4.根据权利要求1所述基于强化学习的无人机主动容错控制方法,其特征在于,步骤7所述当前状态转移预测网络,每隔10个采样周期更新一次,若当前采样周期要更新状态转移预测网络,则更新时采用的训练数据为当前采样周期采集的姿态角数据以及当前采样周期的前9个采样周期采集的姿态角数据。
CN202010030358.4A 2020-01-13 2020-01-13 一种基于强化学习的无人机主动容错控制方法 Active CN111190429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010030358.4A CN111190429B (zh) 2020-01-13 2020-01-13 一种基于强化学习的无人机主动容错控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010030358.4A CN111190429B (zh) 2020-01-13 2020-01-13 一种基于强化学习的无人机主动容错控制方法

Publications (2)

Publication Number Publication Date
CN111190429A CN111190429A (zh) 2020-05-22
CN111190429B true CN111190429B (zh) 2022-03-18

Family

ID=70708146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010030358.4A Active CN111190429B (zh) 2020-01-13 2020-01-13 一种基于强化学习的无人机主动容错控制方法

Country Status (1)

Country Link
CN (1) CN111190429B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111679579B (zh) * 2020-06-10 2021-10-12 南京航空航天大学 针对传感器和执行器故障***的滑模预测容错控制方法
CN111783250A (zh) * 2020-07-03 2020-10-16 上海航天控制技术研究所 柔性机器人末端抵达控制方法、电子设备和存储介质
CN112180960B (zh) * 2020-09-29 2021-09-14 西北工业大学 一种面向执行器故障的无人机容错飞行方法及飞行***
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN114153640B (zh) * 2021-11-26 2024-05-31 哈尔滨工程大学 一种基于深度强化学习的***容错策略方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104914851A (zh) * 2015-05-21 2015-09-16 北京航空航天大学 一种基于深度学习的飞机旋转作动器驱动装置自适应故障检测方法
CN105915294A (zh) * 2016-06-20 2016-08-31 中国人民解放军军械工程学院 无人机机载发射机故障预测方法和***
CN107316046A (zh) * 2017-03-09 2017-11-03 河北工业大学 一种基于增量补偿动态自适应增强的故障诊断方法
CN107315892A (zh) * 2017-08-10 2017-11-03 北京交通大学 一种基于极限学习机的轴承故障诊断方法
CN108256173A (zh) * 2017-12-27 2018-07-06 南京航空航天大学 一种航空发动机动态过程的气路故障诊断方法及***
CN109001982A (zh) * 2018-10-19 2018-12-14 西安交通大学 一种非线性***自适应神经容错控制方法
CN109408552A (zh) * 2018-08-08 2019-03-01 南京航空航天大学 基于lstm-ae深度学习框架的民机***故障监测与识别方法
CN109799802A (zh) * 2018-12-06 2019-05-24 郑州大学 一种分子量分布控制中传感器故障诊断与容错控制方法
KR20190064111A (ko) * 2017-11-30 2019-06-10 한국에너지기술연구원 폴트 톨러런트 기능을 포함하는 에너지관리시스템 및 에너지관리방법
CN110244689A (zh) * 2019-06-11 2019-09-17 哈尔滨工程大学 一种基于判别性特征学习方法的auv自适应故障诊断方法
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628491B2 (en) * 2016-11-09 2020-04-21 Cognitive Scale, Inc. Cognitive session graphs including blockchains

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104914851A (zh) * 2015-05-21 2015-09-16 北京航空航天大学 一种基于深度学习的飞机旋转作动器驱动装置自适应故障检测方法
CN105915294A (zh) * 2016-06-20 2016-08-31 中国人民解放军军械工程学院 无人机机载发射机故障预测方法和***
CN107316046A (zh) * 2017-03-09 2017-11-03 河北工业大学 一种基于增量补偿动态自适应增强的故障诊断方法
CN107315892A (zh) * 2017-08-10 2017-11-03 北京交通大学 一种基于极限学习机的轴承故障诊断方法
KR20190064111A (ko) * 2017-11-30 2019-06-10 한국에너지기술연구원 폴트 톨러런트 기능을 포함하는 에너지관리시스템 및 에너지관리방법
CN108256173A (zh) * 2017-12-27 2018-07-06 南京航空航天大学 一种航空发动机动态过程的气路故障诊断方法及***
CN109408552A (zh) * 2018-08-08 2019-03-01 南京航空航天大学 基于lstm-ae深度学习框架的民机***故障监测与识别方法
CN109001982A (zh) * 2018-10-19 2018-12-14 西安交通大学 一种非线性***自适应神经容错控制方法
CN109799802A (zh) * 2018-12-06 2019-05-24 郑州大学 一种分子量分布控制中传感器故障诊断与容错控制方法
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法
CN110244689A (zh) * 2019-06-11 2019-09-17 哈尔滨工程大学 一种基于判别性特征学习方法的auv自适应故障诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A New Method for Fault Tolerant Control through Q-Learning;Changsheng Hua等;《IFAC-PapersOnLine》;20181231;第51卷(第24期);第38-45页 *
基于增益调度PID的四旋翼无人机主动容错控制;蒋银行等;《山东科技大学学报(自然科学版)》;20170430;第36卷(第4期);第31-37页 *
基于强化学习和蚁群算法的WSN节点故障诊断;常峰等;《计算机测量与控制》;20150331;第23卷(第3期);第755-758页 *

Also Published As

Publication number Publication date
CN111190429A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111190429B (zh) 一种基于强化学习的无人机主动容错控制方法
CN110222371B (zh) 基于贝叶斯和神经网络的发动机剩余寿命在线预测方法
Wang et al. Neural-network-based fault-tolerant control of unknown nonlinear systems
CN112439794B (zh) 一种基于lstm的热轧弯辊力预测方法
CN112947385B (zh) 一种基于改进Transformer模型的飞行器故障诊断方法和***
Cen et al. A gray-box neural network-based model identification and fault estimation scheme for nonlinear dynamic systems
CN114692310B (zh) 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法
Xie et al. A novel deep belief network and extreme learning machine based performance degradation prediction method for proton exchange membrane fuel cell
Nasser et al. A hybrid of convolutional neural network and long short-term memory network approach to predictive maintenance
CN112393934A (zh) 基于稀疏自编码与极限学习机的风电机组故障诊断方法
Ma et al. Deep auto-encoder observer multiple-model fast aircraft actuator fault diagnosis algorithm
CN112146879A (zh) 一种滚动轴承故障智能诊断方法及其***
CN115972211A (zh) 基于模型不确定性与行为先验的控制策略离线训练方法
Precup et al. A survey on fuzzy control for mechatronics applications
Tirovolas et al. Introducing fuzzy cognitive map for predicting engine’s health status
Wu et al. Ensemble recurrent neural network-based residual useful life prognostics of aircraft engines
CN114880767B (zh) 一种基于注意力机制Dense-GRU网络的航空发动机剩余使用寿命预测方法
Long et al. A data fusion fault diagnosis method based on LSTM and DWT for satellite reaction flywheel
Liu et al. Aero-Engines Remaining Useful Life Prognostics Based on Multi-Hierarchical Gated Recurrent Graph Convolutional Network
Vladov et al. Control and diagnostics of TV3-117 aircraft engine technical state in flight modes using the matrix method for calculating dynamic recurrent neural networks
CN113821012B (zh) 一种用于变工况卫星姿态控制***的故障诊断方法
Jiang et al. The prognostic method of engine gas path based-on convolutional neural network
Mao et al. Fault Diagnosis for Underactuated Surface Vessel
Zhou et al. A health status estimation method based on interpretable neural network observer for HVs
Lu et al. Helicopter sizing based on genetic algorithm optimized neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant