CN118131649A - 变展长飞行器在气动不确定性下的智能变形决策方法 - Google Patents

变展长飞行器在气动不确定性下的智能变形决策方法 Download PDF

Info

Publication number
CN118131649A
CN118131649A CN202410573284.7A CN202410573284A CN118131649A CN 118131649 A CN118131649 A CN 118131649A CN 202410573284 A CN202410573284 A CN 202410573284A CN 118131649 A CN118131649 A CN 118131649A
Authority
CN
China
Prior art keywords
aircraft
variable
expressed
deformation
uncertainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410573284.7A
Other languages
English (en)
Inventor
郭宗易
郭建国
曹诗苑
周军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Research Institute of Northwestern Polytechnical University
Original Assignee
Ningbo Research Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Research Institute of Northwestern Polytechnical University filed Critical Ningbo Research Institute of Northwestern Polytechnical University
Priority to CN202410573284.7A priority Critical patent/CN118131649A/zh
Publication of CN118131649A publication Critical patent/CN118131649A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明涉及变展长飞行器在气动不确定性下的智能变形决策方法,采用主动考虑实际飞行过程中存在的气动不确定性,采用一阶马尔科夫决策对气动参数不确定性进行描述,并基于卡尔曼滤波算法对气动参数摄动进行估计和矫正,然后采用深度确定性策略梯度算法对变展长飞行器进行训练,使得变展长飞行器在面对复杂飞行环境时无需人为干预或离线数据库就能做出相应的变形决策,使变展长飞行器滑翔阶段在气动不确定性的情况下实现飞行性能的提升。

Description

变展长飞行器在气动不确定性下的智能变形决策方法
技术领域
本发明涉及飞行器控制领域,具体而言,涉及一种变展长飞行器在气动不确定性下的智能变形决策方法。
背景技术
传统飞行器在飞行高度、速度和机动性等方面存在一定的局限性,难以适应复杂多变的飞行环境。因此,研究开发一种能够实现变形飞行的飞行器成为当前的热点之一。变形飞行器具有在飞行中可以改变形态、适应不同飞行环境的能力,能够大幅提升飞行器的适航性和机动性,为人类探索未知领域、执行复杂任务提供了全新的可能性。在多种变形方案设计中,伸缩机翼方式提供了大尺度的变形方式,能够显著改变飞行器运动特性,并且变形机构设计简单可靠,易于工程实现因此广泛应用于变形飞行器的总体设计。
目前关于变形飞行器控制的文献大多都是在外界给定的变形指令输入前提下开展飞行器的飞行控制与变形机构协调的控制问题,较少有方法给出变形指令生成策略。研究变形决策问题,尤其是智能变形决策,即飞行器具有自主变形决策能力,是为了提高飞行器在复杂环境下的适应性和灵活性。
传统变形决策方法在面对复杂飞行环境时往往需要人为干预或是离线数据库才能做出相应的变形决策,这限制了飞行器的应用范围和效率,并且无法主动考虑实际飞行过程中不可避免的气动不确定性。
发明内容
本发明要解决的技术问题是如何主动考虑飞行器在滑翔阶段气动不确定性的影响因素下提供有效的智能变形策略,为克服以上现有技术的缺陷,本发明提供一种变展长飞行器在气动不确定性下的智能变形决策方法。
本发明提供一种变展长飞行器在气动不确定性下的智能变形决策方法,包括:
步骤1.基于多刚体动力学建模方法和牛顿欧拉法,建立两侧机翼对称且连续伸缩的变展长飞行器的三自由度运行模型;
步骤2.基于变展长飞行器的三自由度运行模块,采用一阶马尔科夫决策对气动参数不确定性进行描述,得到扩维后的***方程;接着根据加速度计采集的视加速度构建量测方程,并设计基于扩展卡尔曼滤波的气动参数在线矫正方法,得到气动参数摄动估计值和升阻比的估计值;
步骤3.以最大化升阻比为变形决策性能指标,搭建变展长飞行器滑翔阶段的强化学习模型,采用深度确定性策略梯度算法对训练强化学习模型,得到变展长飞行器在滑翔阶段的变形策略;
步骤4.利用MATLAB验证变展长智能体在气动参数不确定性情况下变形策略的有效性。
与现有技术相比,本发明方法具有以下优点:针对变展长飞行器处于滑翔阶段,主动考虑气动不确定性因素的影响,设计气动参数的在线矫正方法,然后从提升飞行器滑升阻比的角度出发设计智能变形决策方法,使变展长飞行器滑翔阶段在气动不确定性的情况下实现飞行性能的提升。
在一种可能的实施方式中,所述步骤1建立的变展长飞行器的三自由度运行模型表达式为:
式中,依次表示为变展长飞行器的飞行速度、航迹倾角和航迹偏角;/>依次表示升力、阻力和侧力;/>表示为重力加速度在半速度坐标系下的投影;表示为变形附加力在半速度坐标系下的投影;
其中,关于升力、阻力/>和侧力/>的计算公式为:
式中,表示动压,/>表示变展长飞行器在机翼未变形时的参考面积;/>表示为升力、阻力和侧力的等效气动力系数,其计算公式为:
上式中,表示舵偏;/>表示参考面积变化视作变形率/>的函数,变形率/>定位为机翼移展的归一化参数,/>,/>表示为机翼翼展,/>表示为翼展的最小值,/>表示为翼展的最大值;/>分别表示马赫数、攻角、侧滑角;
关于重力加速度的计算公式为:
式中,表示为地球引力常数;/>表示为地球半径;/>表示为飞行器到地心的矢径;
关于变形附件力在体坐标系下的计算公式为:
式中,表示为飞行器三轴旋转角速度;/>表示为变形机翼质心相对于机身质心的矢径。
在一种可能的实施方式中,所述步骤2中基于变展长飞行器的三自由度运行模块,采用一阶马尔科夫决策对气动参数不确定性进行描述,得到扩维后的***方程表示为:
式中,分别表示阻力系数的摄动、升力系数的摄动;为***状态噪声。
在一种可能的实施方式中,所述步骤2中加速度计采集的视加速度构建量测方程表示为:
式中,为加速度计量测噪声。
在一种可能的实施方式中,所述步骤2中设计基于扩展卡尔曼滤波的气动参数在线矫正方法包括:
首先,构建扩展卡尔曼滤波的***方程和量测方程:
式中,***状态,量测状态/>
其次,基于扩展卡尔曼滤波的***方程进行状态估计:
式中,为状态转移矩阵,其中/>为***方程的雅可比矩阵;/>为***噪声矩阵;/>表示第/>步状态估计,/>表示积分,/>表示采样时刻/>;/>表示状态向量的协方差阵;
接着,更新第步的状态估计:
式中,表示为量测方程的雅可比矩阵,/>表示为量测噪声矩阵;
然后,根据扩展卡尔曼滤波算法的状态估计结果,计算得到升阻比的估计值:
式中,分别表示为扩展卡尔曼滤波算法估算得到的阻力系数的摄动估计值和升力系数的摄动估计值。
在一种可能的实施方式中,所述步骤3以最大化升阻比为变形决策性能指标的表达式为:
式中,,/>表示为折扣因子;/>表示为升阻比与飞行器能达到的升阻比极大值的误差;/>为设定的奖励函数;
所述步骤3中搭建变展长飞行器滑翔阶段的强化学习模型,具体包括:
首先,设定动作空间、观测空间观测空间/>和奖励函数/>;其中:
动作空间为变展长飞行器的期望变形率,动作空间/>的设计为:
观测空间设计为:
式中,
式中,,其中,/>为预设的奖励函数的第一项和第二项的权重;/>表示为升阻比的预期效果阈值,/>表示为升阻比的最低容忍阈值;
其次,所述强化学习模型包括评价网络、动作网络/>、目标评价网络/>和目标动作网络/>,所述评价网络/>为以观测空间/>和动作空间/>作为输入,以动作价值函数作为输出的深度神经网络,动作网络/>为使用一个具有观察输入和一个动作输出的深度神经网络。
在一种可能的实施方式中,所述步骤3中采用深度确定性策略梯度算法对训练强化学习模型具体包括:
步骤301.随机初始化评价网络和动作网络/>的权重/>和/>;初始化目标评价网络/>和目标动作网络/>,并进行权重传递/>,/>;初始化经验回放池/>
步骤302. 初始化动作探索的一个随机进程,获得初始观测状态/>
步骤303. 根据目前的策略和探索噪声生成动作,/>表示探索噪声;/>表示目前的策略;
执行动作,获得下一个观测状态/>和奖励/>
收集初始观测状态、动作、奖励以及下一个观测状态存入经验回放池/>
从经验回放池随机抽取小样本数据/>,/>表示当前迭代训练轮次;
计算Q值:
通过最小化损失函数来更新评价网络:
使用策略梯度来更新动作网络:
更新目标评价网络和目标动作网络:
步骤304、,判断/>是否满足/>,/>表示单次训练的仿真时长,若是,则返回步骤303,若否,则计算平均回报,绘制平均回报曲线,根据平均回报判断是否达到变形决策性能指标,若是,则进入步骤4,若否,则/>,判断/>是否满足/>,M表示预设的迭代训练轮次总数。
本发明方法在面对复杂飞行环境时,主动考虑实际飞行过程中存在的气动不确定性,采用一阶马尔科夫决策对气动参数不确定性进行描述,并基于卡尔曼滤波算法对气动参数摄动进行估计和矫正,然后采用深度确定性策略梯度算法对变展长飞行器进行训练,使得变展长飞行器在面对复杂飞行环境时无需人为干预或离线数据库就能做出相应的变形决策,使变展长飞行器滑翔阶段在气动不确定性的情况下实现飞行性能的提升。
附图说明
图1为本发明变展长飞行器智能决策方法设计流程图;
图2为本发明智能变形决策控制一体化训练结果图;
图3为本发明智能变形决策输出结果图;
图4为本发明变展长飞行器升阻比真实值和升阻比估计值的对比图。
具体实施方式
首先,本领域技术人员应当理解的是,这些实施方式仅仅用于解释本申请实施例的技术原理,并非旨在限制本申请实施例的保护范围。本领域技术人员可以根据需要对其作出调整,以便适应具体的应用场合。
在本申请实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请实施例中的具体含义。
在本申请实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
下面结合附图和具体实施例对本申请作进一步详细说明。
如图1所示的一种变展长飞行器在气动不确定性下的智能变形决策方法,包括:
步骤1.基于多刚体动力学建模方法和牛顿欧拉法,建立两侧机翼对称且连续伸缩的变展长飞行器的三自由度运行模型;三自由度运行模型表示为:
式中,依次表示为变展长飞行器的飞行速度、航迹倾角和航迹偏角;/>依次表示升力、阻力和侧力;/>表示为重力加速度在半速度坐标系下的投影;表示为变形附加力在半速度坐标系下的投影;
其中,关于升力、阻力/>和侧力/>的计算公式为:
式中,表示动压,/>表示变展长飞行器在机翼未变形时的参考面积;/>表示为升力、阻力和侧力的等效气动力系数,其计算公式为:
上式中,表示舵偏;/>表示参考面积变化视作变形率/>的函数,变形率/>定位为机翼移展的归一化参数,/>,/>表示为机翼翼展,/>表示为翼展的最小值,/>表示为翼展的最大值;/>分别表示马赫数、攻角、侧滑角;
关于重力加速度的计算公式为:
式中,表示为地球引力常数;/>表示为地球半径;/>表示为飞行器到地心的矢径;
关于变形附件力在体坐标系下的计算公式为:
式中,表示为飞行器三轴旋转角速度;/>表示为变形机翼质心相对于机身质心的矢径。
步骤2.基于变展长飞行器的三自由度运行模块,采用一阶马尔科夫决策对气动参数不确定性进行描述,得到扩维后的***方程;接着根据加速度计采集的视加速度构建量测方程,并设计基于扩展卡尔曼滤波的气动参数在线矫正方法,得到气动参数摄动估计值和升阻比的估计值;其中:
扩维后的***方程表示为:
式中,分别表示阻力系数的摄动、升力系数的摄动;为***状态噪声;
加速度计采集的视加速度构建量测方程表示为:
式中,为加速度计量测噪声;
扩展卡尔曼滤波的***方程和量测方程表示为:
式中,***状态,量测状态/>
其次,基于扩展卡尔曼滤波的***方程进行状态估计:
式中,为状态转移矩阵,其中/>为***方程的雅可比矩阵;/>为***噪声矩阵;/>表示第/>步状态估计,/>表示积分,/>表示采样时刻/>;/>表示状态向量的协方差阵;
接着,更新第步的状态估计:
式中,表示为量测方程的雅可比矩阵,/>表示为量测噪声矩阵;
然后,根据扩展卡尔曼滤波算法的状态估计结果,计算得到升阻比的估计值:
式中,分别表示为扩展卡尔曼滤波算法估算得到的阻力系数的摄动估计值和升力系数的摄动估计值。
步骤3.首先,以最大化升阻比为变形决策性能指标:
式中,,/>表示为折扣因子;/>表示为升阻比与飞行器能达到的升阻比极大值的误差;/>为设定的奖励函数;
接着,搭建变展长飞行器滑翔阶段的强化学习模型;包括:
设定动作空间、观测空间观测空间/>和奖励函数/>;其中:
本具体实施例中动作空间采用位置式指令的形式,即所述动作空间/>为变展长飞行器的期望变形率,动作空间/>的设计为:
观测空间设计:
根据变形决策性能指标,观测空间需要包含升阻比误差,即升阻比在线估计值与飞行器在任何状态时能达到的极大值的差值;本具体实施例考虑到升阻比与姿态角存在直接关系,则升阻比的变化趋势与姿态角变化趋势相关,并且升阻比主要与俯仰通道的姿态相关,为此,本具体实施例的观测空间/>还包括攻角和俯仰角的速度,观测空间/>的初步设计为:
进一步考虑飞行器具有的惯性,本具体实施例在观测空间引入历史五个周期的状态数据,表示为:
在后期采用深度确定性策略梯度算法对训练中,将上述状态量归一化至[0,1]中;
奖励函数的表达式为:/>
式中,,其中,/>为预设的奖励函数的第一项和第二项的权重;/>表示为升阻比的预期效果阈值,/>表示为升阻比的最低容忍阈值;
其次,所述强化学习模型包括评价网络、动作网络/>、目标评价网络/>和目标动作网络/>,所述评价网络/>为以观测空间/>和动作空间/>作为输入、以动作价值函数作为输出的深度神经网络,动作网络/>为使用一个具有观察输入和一个动作输出的深度神经网络;
然后,采用深度确定性策略梯度算法对训练强化学习模型,得到变展长飞行器在滑翔阶段的变形策略;具体包括:
步骤301.随机初始化评价网络和动作网络/>的权重/>和/>;初始化目标评价网络/>和目标动作网络/>,并进行权重传递/>,/>;初始化经验回放池/>
步骤302. 初始化动作探索的一个随机进程,获得初始观测状态/>
步骤303. 根据目前的策略和探索噪声生成动作,/>表示探索噪声;/>表示目前的策略;
执行动作,获得下一个观测状态/>和奖励/>
收集初始观测状态、动作、奖励以及下一个观测状态存入经验回放池/>
从经验回放池随机抽取小样本数据/>,/>表示当前迭代训练轮次;
计算Q值:
通过最小化损失函数来更新评价网络:
使用策略梯度来更新动作网络:
更新目标评价网络和目标动作网络:
步骤304、,判断/>是否满足/>,/>表示单次训练的仿真时长,若是,则返回步骤303,若否,则计算平均回报,绘制平均回报曲线,根据平均回报判断是否达到变形决策性能指标,若是,则进入步骤4,若否,则/>,判断/>是否满足/>,M表示预设的迭代训练轮次总数。
步骤4.利用MATLAB验证变展长智能体在气动参数不确定性情况下变形策略的有效性,验证结果如图4所示,飞行器升阻比真实值的变化结果和升阻比估计值的变化结果,智能变形决策能够有效提高升阻比,并且采用的气动参数矫正方法基本能给出有效的实时升阻比有效结果。
所述步骤304中根据平均回报判断是否达到变形决策性能指标,具体看平均回报曲线的变化,如图2所示,第0.5S开始加入智能变形决策;在深度确定性策略梯度智能体训练过程中平均回报曲线的变化;在第0.5S就加入智能变形决策后,从图3能够看到变展长飞行器的变形率的变化结果。
本发明方法在面对复杂飞行环境时,主动考虑实际飞行过程中存在的气动不确定性,采用一阶马尔科夫决策对气动参数不确定性进行描述,并基于卡尔曼滤波算法对气动参数摄动进行估计和矫正,然后采用深度确定性策略梯度算法对变展长飞行器进行训练,使得变展长飞行器在面对复杂飞行环境时无需人为干预或离线数据库就能做出相应的变形决策,使变展长飞行器滑翔阶段在气动不确定性的情况下实现飞行性能的提升。在本申请实施例的描述中,需要说明的是,在本申请的描述中,术语“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或构件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,参考术语“一个实施例”、“一些实施例”、“在本实施例中”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、机构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、机构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,包括:
步骤1.基于多刚体动力学建模方法和牛顿欧拉法,建立两侧机翼对称且连续伸缩的变展长飞行器的三自由度运行模型;
步骤2.基于变展长飞行器的三自由度运行模块,采用一阶马尔科夫决策对气动参数不确定性进行描述,得到扩维后的***方程;接着根据加速度计采集的视加速度构建量测方程,并设计基于扩展卡尔曼滤波的气动参数在线矫正方法,得到气动参数摄动估计值和升阻比的估计值;
步骤3.以最大化升阻比为变形决策性能指标,搭建变展长飞行器滑翔阶段的强化学习模型,采用深度确定性策略梯度算法对训练强化学习模型,得到变展长飞行器在滑翔阶段的变形策略;
步骤4.利用MATLAB验证变展长智能体在气动参数不确定性情况下变形策略的有效性。
2.根据权利要求1所述的变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,所述步骤1建立的变展长飞行器的三自由度运行模型表达式为:
式中,依次表示为变展长飞行器的飞行速度、航迹倾角和航迹偏角;/>依次表示升力、阻力和侧力;/>表示为重力加速度在半速度坐标系下的投影;/>表示为变形附加力在半速度坐标系下的投影;
其中,关于升力、阻力/>和侧力/>的计算公式为:
式中,表示动压,/>表示变展长飞行器在机翼未变形时的参考面积;/>表示为升力、阻力和侧力的等效气动力系数,其计算公式为:
上式中,表示舵偏;/>表示参考面积变化视作变形率/>的函数,变形率/>定位为机翼移展的归一化参数,/>,/>表示为机翼翼展,/>表示为翼展的最小值,表示为翼展的最大值;/>分别表示马赫数、攻角、侧滑角;
关于重力加速度的计算公式为:
式中,表示为地球引力常数;/>表示为地球半径;/>表示为飞行器到地心的矢径;
关于变形附件力在体坐标系下的计算公式为:
式中,表示为飞行器三轴旋转角速度;/>表示为变形机翼质心相对于机身质心的矢径。
3.根据权利要求2所述的变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,所述步骤2中基于变展长飞行器的三自由度运行模块,采用一阶马尔科夫决策对气动参数不确定性进行描述,得到扩维后的***方程表示为:
式中,分别表示阻力系数的摄动、升力系数的摄动;为***状态噪声。
4.根据权利要求3所述的变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,所述步骤2中加速度计采集的视加速度构建量测方程表示为:
式中,为加速度计量测噪声。
5.根据权利要求4所述的变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,所述步骤2中设计基于扩展卡尔曼滤波的气动参数在线矫正方法包括:
首先,构建扩展卡尔曼滤波的***方程和量测方程:
式中,***状态,量测状态/>
其次,基于扩展卡尔曼滤波的***方程进行状态估计:
式中,为状态转移矩阵,其中/>为***方程的雅可比矩阵;为***噪声矩阵;/>表示第/>步状态估计,/>表示积分,/>表示采样时刻/>;/>表示状态向量的协方差阵;
接着,更新第步的状态估计:
式中,表示为量测方程的雅可比矩阵,/>表示为量测噪声矩阵;
然后,根据扩展卡尔曼滤波算法的状态估计结果,计算得到升阻比的估计值:
式中,分别表示为扩展卡尔曼滤波算法估算得到的阻力系数的摄动估计值和升力系数的摄动估计值。
6.根据权利要求5所述的变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,所述步骤3以最大化升阻比为变形决策性能指标的表达式为:
式中,,/>表示为折扣因子;/>表示为升阻比与飞行器能达到的升阻比极大值的误差;/>为设定的奖励函数;
所述步骤3中搭建变展长飞行器滑翔阶段的强化学习模型,具体包括:
首先,设定动作空间、观测空间观测空间/>和奖励函数/>;其中:
动作空间为变展长飞行器的期望变形率,动作空间/>的设计为:
观测空间设计为:
式中,
奖励函数的表达式为:/>
式中,,其中,/>为预设的奖励函数的第一项和第二项的权重;/>表示为升阻比的预期效果阈值,/>表示为升阻比的最低容忍阈值;
其次,所述强化学习模型包括评价网络、动作网络/>、目标评价网络/>和目标动作网络/>,所述评价网络/>为以观测空间/>和动作空间/>作为输入、以动作价值函数作为输出的深度神经网络,动作网络/>为使用一个具有观察输入和一个动作输出的深度神经网络。
7.根据权利要求6所述的变展长飞行器在气动不确定性下的智能变形决策方法,其特征在于,所述步骤3中采用深度确定性策略梯度算法对训练强化学习模型具体包括:
步骤301.随机初始化评价网络和动作网络/>的权重/>和/>;初始化目标评价网络/>和目标动作网络/>,并进行权重传递/>,/>;初始化经验回放池
步骤302. 初始化动作探索的一个随机进程,获得初始观测状态/>
步骤303. 根据目前的策略和探索噪声生成动作,/>;/>表示探索噪声;/>表示目前的策略;
执行动作,获得下一个观测状态/>和奖励/>
收集初始观测状态、动作、奖励以及下一个观测状态存入经验回放池/>
从经验回放池随机抽取小样本数据/>,/>表示当前迭代训练轮次;
计算Q值:
通过最小化损失函数来更新评价网络:
使用策略梯度来更新动作网络:
更新目标评价网络和目标动作网络:
步骤304、,判断/>是否满足/>,/>表示单次训练的仿真时长,若是,则返回步骤303,若否,则计算平均回报,绘制平均回报曲线,根据平均回报判断是否达到变形决策性能指标,若是,则进入步骤4,若否,则/>,判断/>是否满足/>,M表示预设的迭代训练轮次总数。
CN202410573284.7A 2024-05-10 2024-05-10 变展长飞行器在气动不确定性下的智能变形决策方法 Pending CN118131649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410573284.7A CN118131649A (zh) 2024-05-10 2024-05-10 变展长飞行器在气动不确定性下的智能变形决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410573284.7A CN118131649A (zh) 2024-05-10 2024-05-10 变展长飞行器在气动不确定性下的智能变形决策方法

Publications (1)

Publication Number Publication Date
CN118131649A true CN118131649A (zh) 2024-06-04

Family

ID=91239342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410573284.7A Pending CN118131649A (zh) 2024-05-10 2024-05-10 变展长飞行器在气动不确定性下的智能变形决策方法

Country Status (1)

Country Link
CN (1) CN118131649A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
US20200086972A1 (en) * 2018-09-17 2020-03-19 UAVOS Holdings Limited Method for controlling an aircraft, and an aircraft (variants)
CN114036628A (zh) * 2021-02-14 2022-02-11 西北工业大学 变体飞行器翼展与控制策略协同设计方法
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放***箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115924104A (zh) * 2023-02-08 2023-04-07 北方工业大学 一种基于多段式可伸缩机翼的飞行器气动设计方法
CN116300992A (zh) * 2022-11-23 2023-06-23 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于l1自适应动态逆的变体飞行器控制方法
CN117268391A (zh) * 2023-09-08 2023-12-22 中山大学 一种基于目标分层架构的变形飞行器智能规划方法及***
CN117518836A (zh) * 2024-01-04 2024-02-06 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200086972A1 (en) * 2018-09-17 2020-03-19 UAVOS Holdings Limited Method for controlling an aircraft, and an aircraft (variants)
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN114036628A (zh) * 2021-02-14 2022-02-11 西北工业大学 变体飞行器翼展与控制策略协同设计方法
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放***箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN116300992A (zh) * 2022-11-23 2023-06-23 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于l1自适应动态逆的变体飞行器控制方法
CN115924104A (zh) * 2023-02-08 2023-04-07 北方工业大学 一种基于多段式可伸缩机翼的飞行器气动设计方法
CN117268391A (zh) * 2023-09-08 2023-12-22 中山大学 一种基于目标分层架构的变形飞行器智能规划方法及***
CN117518836A (zh) * 2024-01-04 2024-02-06 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵志刚;李伟杰;沈作军;: "基于迭代滤波的上升段不确定参数辨识", 飞行力学, no. 03, 10 February 2018 (2018-02-10) *

Similar Documents

Publication Publication Date Title
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN111538241B (zh) 一种平流层飞艇水平轨迹智能控制方法
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN114253296B (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN108595756B (zh) 大包线飞行干扰估计的方法及装置
CN114578861B (zh) 一种利用阵风环境的无人机飞行控制策略设计方法
CN109145451A (zh) 一种高速滑翔飞行器的运动行为识别与航迹估计方法
CN112683261B (zh) 一种基于速度预测的无人机鲁棒性导航方法
CN109858137A (zh) 一种基于可学习扩展卡尔曼滤波的复杂机动飞行器航迹估计方法
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、***、电子设备及介质
CN114462293B (zh) 一种高超声速目标中长期轨迹预测方法
CN114675673B (zh) 一种空中动目标追踪方法及***
Zanon et al. Control of dual-airfoil airborne wind energy systems based on nonlinear mpc and mhe
CN116187199A (zh) 融合智能技术的非定常气动力建模方法
CN117518836B (zh) 变体飞行器鲁棒深度强化学习制导控制一体化方法
CN105654053B (zh) 基于改进约束ekf算法的动态振荡信号参数辨识方法
CN116991074B (zh) 一种智能权重下的近距空战机动决策优化方法
CN118131649A (zh) 变展长飞行器在气动不确定性下的智能变形决策方法
CN117610466A (zh) 基于模型预测静态规划算法的炮弹分段气动参数辨识方法
Powers et al. Artificial lumbered flight for autonomous soaring
CN113989327B (zh) 一种基于卷积神经网络粒子滤波算法的单uuv目标状态估计方法
Guan et al. A new integrated navigation system for the indoor unmanned aerial vehicles (UAVs) based on the neural network predictive compensation
CN115185187A (zh) 一种基于二型椭球型模糊神经网络的机械臂有限时间跟踪控制方法
Pokhrel et al. Extremum Seeking in Nature: Examination of Soaring Birds Flights Maneuver
Gavrilovic et al. Performance improvement of small UAVs through energy-harvesting within atmospheric gusts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination