CN109343341A - 一种基于深度强化学习的运载火箭垂直回收智能控制方法 - Google Patents

一种基于深度强化学习的运载火箭垂直回收智能控制方法 Download PDF

Info

Publication number
CN109343341A
CN109343341A CN201811393548.1A CN201811393548A CN109343341A CN 109343341 A CN109343341 A CN 109343341A CN 201811393548 A CN201811393548 A CN 201811393548A CN 109343341 A CN109343341 A CN 109343341A
Authority
CN
China
Prior art keywords
neural network
carrier rocket
rocket
state
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811393548.1A
Other languages
English (en)
Other versions
CN109343341B (zh
Inventor
郜诗佳
谭浪
王德意
柳嘉润
李博睿
巩庆海
杨业
姬晓琴
翟雯婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Beijing Aerospace Automatic Control Research Institute
Original Assignee
China Academy of Launch Vehicle Technology CALT
Beijing Aerospace Automatic Control Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT, Beijing Aerospace Automatic Control Research Institute filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201811393548.1A priority Critical patent/CN109343341B/zh
Publication of CN109343341A publication Critical patent/CN109343341A/zh
Application granted granted Critical
Publication of CN109343341B publication Critical patent/CN109343341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度强化学***台。

Description

一种基于深度强化学习的运载火箭垂直回收智能控制方法
技术领域
本发明涉及一种基于深度强化学习的运载火箭垂直回收控制方法,适用于运载火箭制导与控制领域。
背景技术
标准的强化学习框架,是一个智能体在离散时间内不停的与它所处的环境进行交互,主要由奖惩反馈函数、值函数、策略选择以及交互环境四个要素组成。如图2所示。
智能体与环境交互的过程如下:(1)智能体(Agent)感知当前的环境状态(state);(2)根据当前的状态和奖赏值(reward),智能体选择一个动作(action)并执行该动作;(3)当智能体所选择的动作作用于环境时,环境转移到新状态,并给出新的奖赏;(4)智能体根据环境反馈的奖赏值,计算回报值(return),并将回报值作为更新内部策略的依据。
假设一个离散时间序列t=0,1,2,3,...。在每一时刻t,只能体从环境中接收一个状态st。定义at表示智能体在时刻t采取的行为。在下一时刻,at作为智能体行为的结果,然后接收数值回报并移动到新状态st+1,在每一时刻,智能体完成从状态到每种可能行为的选择概率之间的映射。该映射关系称为智能体策略,记为πt,则πt(s,a)为st=s时刻at=a的概率。强化学习方法具体反映了智能体如何根据其经验改变策略,使得长期运行过程中接收的回报总量达到最大化。
对于单独的基于策略,或者基于价值(Q,V)的深度强化学习,其使用都受到一些局限性,效果也不尽相同。而Actor-Critic就是结合两者优势所提出的一种新的形式,在近一两年被广泛的使用,且表现出了极好的效果。
Actor-Critic整体结构如图3所示,具体分为两个网络,一个是Actor网络,即策略网络,利用策略梯度更新,一个Critic网络,即价值网络,如DQN,首先利用Actor网络的策略输出不断的与环境进行交互,获得回报,计算每个状态的价值,然后将其做为标签更新Critic网络,使网络对当前状态的评价越来越准确,然后使用Critic网络的输出代替总回报,计算策略梯度,更新策略网络,使得策略越来越准确。
2016年,OpenAI在Actor-Critic网络基础上提出的一种解决PolicyGradient不好确定Learning rate(或者Step size)问题的算法,即近端策略优化算法(Proximal PolicyOptimization,PPO),以下简称PPO算法。因为如果step size过大,学出来的Policy会一直乱动,不会收敛,但如果Step Size太小,完成训练则需要很长时间。PPO则利用New Policy和Old Policy的比例,限制了New Policy的更新幅度,让Policy Gradient对稍微大点的Step size不那么敏感。
优势函数At是动作值函数相对于值函数的优势。若动作值函数比值函数大,幅值为正,沿着轨迹增大的方向更新;PPO是一套Actor-Critic结构,Actor最大化J_PPO,Critic最大化L_BL。Critic的损失函数是减小TDerror。而Actor的是在oldPolicy上根据Advantage(TDerror)修改new Policy,advantage大的时候,修改幅度大,让new Policy更可能发生。而且附加了一个KL Penalty,如果new Policy和old Policy相差太多,KLdivergence则越大,Learning rate越大,难收敛。
每次通过PPO更新Actor和Critic时,需将当前策略的参数复制给旧的策略,这就是策略更新。Critic和Actor的内部结构是神经网络。Actor使用了正态分布输出动作。
当前国内外有通过凸优化方法实现运载火箭的垂直回收的案例。凸优化法是利用松弛或线性化等方法,将非凸的轨迹规划问题进行无损凸化,得到与原问题等价的凸优化问题,然后求解凸NLP问题。由于凸优化问题的局部最优解就是全局最优解这一良好的性质,因此对具有复杂多约束的航天器轨迹规划问题,若能将非凸问题转化为与原问题等价的凸优化问题,就能够迅速收敛到其全局最优解。该方法的能够保证问题的收敛性,但对于很多非凸约束能否进行无损凸化还需要进一步讨论与研究。而基于深度强化学习的智能控制方法则不受凸约束的限制。
此外,现今的航天器轨道规划方向主要是以地面指挥为主,也就是以人为主。在这样的大前提下,运载火箭轨道规划与控制十分依赖于人工,任何人工的失误都可能带来巨大的损失。因此,早日实现智能轨道规划对航天事业的发展有巨大帮助。
发明内容
本发明的目的在于:克服现有技术的不足,提出了一种基于深度强化学习的运载火箭垂直回收智能控制方法,首先研究深度强化学习PPO算法,设计面向运载火箭垂直回收的深度强化学习程序,使用神经网络拟合环境和智能体行为(火箭姿态控制)间的映射关系,并对其进行训练,使得运载火箭能够使用训练好的神经网络自主可控回收。
本发明采用的技术方案为:
一种基于深度强化学习的运载火箭垂直回收方法,步骤如下:
(1)搭建运载火箭垂直回收仿真模型;
(2)基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
(3)根据深度强化学习算法,搭建神经网络;
(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证;
(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
所述步骤(1)搭建的运载火箭垂直回收仿真模型,具体为:
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
目标相对坐标系的定义为:
以目标点OT为坐标原点,OTYT与目标点当地重力方向相反,OTXT轴与OTYT轴垂直并指向起飞点方向,OTZT与OTXT轴、OTYT轴构成右手坐标系,目标相对坐标系OTXTYTZT随地球自转而旋转。
所述步骤(2)中状态空间、动作空间、状态转移方程以及回报函数,具体为:
状态空间:
S=[X Y Z Vx Vy Vz ax ay az θ ω α A B]T
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,[ax,ay,az]为推力加速度,α为角加速度,ω为角速度,θ为姿态角,A为着陆指示,B为坏腿指示,A、B取值为1或-1;
动作空间是指基于控制信息,决定该时刻增加或减少推力的大小和方向,将其表示为:
U=[Fx Fy Fz F1 δ]T
其中,Fx,Fy,Fz为主推力F在x,y,z三个维度的分解,F1为控制力,δ为推力摆角;
状态转移方程:
回报函数:
其中,Pfuel为能量消耗,s为距离目标回收位置的直线距离,V为火箭的速度,为火箭姿态角的绝对值,为加速度大小。
所述步骤(3)深度强化学习算法为基于Actor-Critic架构的PPO算法。
所述步骤(3)搭建神经网络,具体为:
基于Actor-Critic算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.95,折扣因子设为0.98。
所述步骤(4)基于步所述运载火箭垂直回收仿真模型、状态空间、动作空间以及状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st
(4.3)运载火箭垂直回收仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的火箭状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型。
所述步骤(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收,具体是指:仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量,运载火箭根据上述控制量修正自身姿态和轨迹,实现垂直回收。
一种基于所述运载火箭垂直回收方法实现的垂直回收智能控制***,包括:
模型搭建模块:用于搭建运载火箭垂直回收仿真模型;
马尔科夫决策模块:用于基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
神经网络创建模块:用于根据深度强化学习算法,搭建神经网络;
训练模块:用于基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
仿真验证模块:用于调用训练好的神经网络模型进行仿真验证;
控制模块:用于根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
所述模型搭建模块搭建的运载火箭垂直回收仿真模型,具体为:
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
本发明与现有技术相比带来的有益效果为:
(1)本发明首先研究深度强化学习PPO算法,设计面向运载火箭垂直回收的深度强化学习程序,使用神经网络拟合环境和智能体行为(火箭控制)间的映射关系,并对其进行训练,使得运载火箭能够使用训练好的神经网络自主可控回收
(2)本发明研究建立运载火箭的动力学模型以及运动方程,应用深度强化学习等方法开展运载火箭轨道自主规划模型的设计与训练,实现快速轨道自主规划,大幅提升运载火箭针对典型场景的自主化、自适应能力。
(3)本发明研究建立仿真环境,探索应用深度强化学习等方法开展运载火箭轨道自主规划与智能控制的途径与方法,通过构造面向深度强化学习的仿真环境模型,利用深度强化学习算法的训练,不断提升算法效率,实现快速轨道自主规划与智能控制,大幅提升航天飞行器针对典型场景的自主化、自适应智能控制能力。
附图说明
图1为本方法方法流程图
图2为强化学习原理图;
图3为Actor-Critic框架图;
图4为航天器决策网络算法框架图;
图5为航天器策略估值网络;
图6为策略网络损失函数;
图7为估值网络损失函数;
图8为距离目标点直线距离曲线图;
图9为主推力曲线图。
具体实施方式
本发明提出一种基于深度强化学习的运载火箭垂直回收智能控制方法,研究实现运载火箭自主智能控制的方法。主要研究解决利用智能控制实现运载火箭垂直回收姿态控制和轨迹规划问题。
本发明首先建立运载火箭垂直回收仿真模型,并建立相应的马尔科夫决策过程,包括状态空间、动作空间、状态转移方程、回报函数,采用基于策略梯度的深度强化学习算法,同时借鉴Alphago的“决策网络+估值网络”设计思路,设计航天飞行器的决策网络和对决策行为评价的估值网络。决策网络通过输入当前航天器状态,以目标状态作为回报,指导航天器形成智能决策;估值网络以当前环境状态、决策网络的输出(即采取的行为)和预估下一时刻的状态为输入,输出当前采取的行为的价值,一次来衡量行为的好坏程度,从而对决策网络的参数进行更新,估值网络通过输出的价值来构造损失函数,从而对网络参数进行更新。得到训练好的模型,输出有效的回收控制策略用以实现对运载火箭的垂直回收智能控制。
如图1所示,本发明提出了一种基于深度强化学习的运载火箭垂直回收方法,步骤如下:
(1)搭建运载火箭垂直回收仿真模型;
建立火箭的动力学模型
对火箭所受的各种力进行分析,建立飞行器复杂力场环境下的运动及动力学模型,为后续研究奠定模型基础。
具体为:
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
目标相对坐标系的定义为:
以目标点OT为坐标原点,OTYT与目标点当地重力方向相反,OTXT轴与OTYT轴垂直并指向起飞点方向,OTZT与OTXT轴、OTYT轴构成右手坐标系,目标相对坐标系OTXTYTZT随地球自转而旋转。
(2)图2所示为强化学习基本框架图。基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
具体为:
状态空间:
S=[X Y Z Vx Vy Vz ax ay az θ ω α A B]T
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,[ax,ay,az]为推力加速度,α为角加速度,ω为角速度,θ为姿态角,A为着陆指示,B为坏腿指示,A、B取值为1或-1;
动作空间是指基于控制信息,决定该时刻增加或减少推力的大小和方向,将其表示为:
U=[Fx Fy Fz F1 δ]T
其中,Fx,Fy,Fz为主推力F在目标相对坐标系下x,y,z三个维度的分解,F1为控制力,δ为推力摆角;
状态转移方程:
回报函数:
其中,Pfuel为能量消耗,s为距离目标回收位置的直线距离,V为火箭的速度,为火箭姿态角的绝对值,为加速度大小。
回报函数包括:i)当达到回收地点时,回报为正值;ii)发生碰撞坏腿,回报为一个负值;iii)任务规定时间内未到达回收地点,给予一个负数回报;iv)每过一段时间给予一个负数回报,以保证在较短时间内完成任务;v)每消耗单位能量,给予负回报。
(3)根据深度强化学习算法,搭建神经网络;深度强化学习算法为基于Actor-Critic架构的PPO算法。
本方法采用深度强化学习中经典的Actor-Critic架构,其基本网络结构如图3所示。Actor-Critic结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法。状态输入到神经网络后,对参数进行更新,Actor网络输出Action,即动作概率;Critic输出计算出的Q-value值,即TD-error。
搭建神经网络,具体为:
基于Actor-Critic算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.95,折扣因子设为0.98。
损失函数基于所采用的深度强化学习算法,估值网络主要根据该时刻回报信息更新对每个状态-动作对的评价(Q),而策略网络主要根据评价网络更新动作(策略),从而使得每次所选择的策略始终朝着评价大的方向前进。
决策网络输入的是环境当前的状态,包括运载火箭的位置、速度、姿态角等参数,输出运载火箭应采取的策略;估值网络输入当前和下一时刻状态,分别输出相应的Q值,并根据环境反馈的回报设计损失函数用于对决策网络和估值网络进行更新,具体网络结构如图4和图5所示:
(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
具体为:
(4.1)随机初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st
(4.3)运载火箭垂直回收仿真模型根据策略网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的火箭状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)基于(4.3)得到的优势函数,根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5);
(4.7)保存训练好的神经网络模型。
(5)调用训练好的神经网络模型进行仿真验证;
更进一步的,本发明基于上述运载火箭垂直回收方法还实现了一种垂直回收智能控制***,包括:
模型搭建模块:用于搭建运载火箭垂直回收仿真模型;
马尔科夫决策模块:用于基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
神经网络创建模块:用于根据深度强化学习算法,搭建神经网络;
训练模块:用于基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
仿真验证模块:用于调用训练好的神经网络模型进行仿真验证;
控制模块:用于根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
某次仿真的策略网络损失函数收敛结果如图6所示,估值网络损失函数收敛结果如图7所示。由图6、图7可知,损失函数得以收敛。运载火箭仿真模型距离目标回收点的距离如图8所示,最终到达了目标点实现了垂直回收。图9所示为主推力的大小变化情况。通过仿真得到的结果可知,运载火箭以趋于0的速率垂直降落在目标点,完成了垂直回收的智能控制,神经网络损失函数得以收敛,输出了有效可行的回收控制策略。
(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。具体是指:仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量,运载火箭根据上述控制量修正自身姿态和轨迹,实现垂直回收。
本发明首先研究深度强化学习PPO算法,设计面向运载火箭垂直回收的深度强化学习程序,使用神经网络拟合环境和智能体行为(火箭控制)间的映射关系,并对其进行训练,使得运载火箭能够使用训练好的神经网络自主可控回收。另外,本发明研究建立运载火箭的动力学模型以及运动方程,应用深度强化学习等方法开展运载火箭轨道自主规划模型的设计与训练,实现快速轨道自主规划,大幅提升运载火箭针对典型场景的自主化、自适应能力。

Claims (10)

1.一种基于深度强化学习的运载火箭垂直回收方法,其特征在于步骤如下:
(1)搭建运载火箭垂直回收仿真模型;
(2)基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
(3)根据深度强化学习算法,搭建神经网络;
(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证;
(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
2.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:
所述步骤(1)搭建的运载火箭垂直回收仿真模型,具体为:
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
3.根据权利要求2所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:
目标相对坐标系的定义为:
以目标点OT为坐标原点,OTYT与目标点当地重力方向相反,OTXT轴与OTYT轴垂直并指向起飞点方向,OTZT与OTXT轴、OTYT轴构成右
手坐标系,目标相对坐标系OTXTYTZT随地球自转而旋转。
4.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(2)中状态空间、动作空间、状态转移方程以及回报函数,具体为:
状态空间:
S=[X Y Z Vx Vy Vz ax ay az θ ω α A B]T
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,[ax,ay,az]为推力加速度,α为角加速度,ω为角速度,θ为姿态角,A为着陆指示,B为坏腿指示,A、B取值为1或-1;
动作空间是指基于控制信息,决定该时刻增加或减少推力的大小和方向,将其表示为:
U=[Fx Fy Fz F1 δ]T
其中,Fx,Fy,Fz为主推力F在x,y,z三个维度的分解,F1为控制力,δ为推力摆角;
状态转移方程:
回报函数:
其中,Pfuel为能量消耗,s为距离目标回收位置的直线距离,V为火箭的速度,为火箭姿态角的绝对值,为加速度大小。
5.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(3)深度强化学习算法为基于Actor-Critic架构的PPO算法。
6.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(3)搭建神经网络,具体为:
基于Actor-Critic算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.95,折扣因子设为0.98。
7.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(4)基于步所述运载火箭垂直回收仿真模型、状态空间、动作空间以及状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st
(4.3)运载火箭垂直回收仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的火箭状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型。
8.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收,具体是指:仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量,运载火箭根据上述控制量修正自身姿态和轨迹,实现垂直回收。
9.一种基于权利要求1-8中任一项所述运载火箭垂直回收方法实现的垂直回收智能控制***,其特征在于包括:
模型搭建模块:用于搭建运载火箭垂直回收仿真模型;
马尔科夫决策模块:用于基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
神经网络创建模块:用于根据深度强化学习算法,搭建神经网络;
训练模块:用于基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
仿真验证模块:用于调用训练好的神经网络模型进行仿真验证;
控制模块:用于根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
10.根据权利要求9所述的运载火箭垂直回收***,其特征在于:
所述模型搭建模块搭建的运载火箭垂直回收仿真模型,具体为:
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
CN201811393548.1A 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法 Active CN109343341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811393548.1A CN109343341B (zh) 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811393548.1A CN109343341B (zh) 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法

Publications (2)

Publication Number Publication Date
CN109343341A true CN109343341A (zh) 2019-02-15
CN109343341B CN109343341B (zh) 2021-10-01

Family

ID=65316649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811393548.1A Active CN109343341B (zh) 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法

Country Status (1)

Country Link
CN (1) CN109343341B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241322A (zh) * 2018-01-16 2018-07-03 电子科技大学 一种fpga互联资源的优化配置生成方法
CN109669354A (zh) * 2018-11-19 2019-04-23 北京理工大学 状态空间下快速高效的航天器自主任务规划修复方法
CN109977534A (zh) * 2019-03-22 2019-07-05 清华大学 基于强化学习的电路参数优化方法及***
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110297423A (zh) * 2019-05-27 2019-10-01 北京航天自动控制研究所 一种飞行器长期在轨多模智能集成***
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110531622A (zh) * 2019-09-05 2019-12-03 沈阳航空航天大学 一种基于径向基神经网络的固体火箭发动机推力控制方法
CN110620536A (zh) * 2019-10-24 2019-12-27 安徽大学 一种电动汽车异步电机关键参数标定方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN110837231A (zh) * 2019-11-15 2020-02-25 清华大学 在环仿真方法、装置及控制平台
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN111397448A (zh) * 2020-03-13 2020-07-10 北京星际荣耀空间科技有限公司 姿控参数自适应调节方法、装置、电子设备及存储介质
CN111596677A (zh) * 2020-05-07 2020-08-28 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及***
CN111917642A (zh) * 2020-07-14 2020-11-10 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN112069903A (zh) * 2020-08-07 2020-12-11 之江实验室 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN112278334A (zh) * 2020-11-06 2021-01-29 北京登火汇智科技有限公司 用于控制火箭的着陆过程的方法
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112800546A (zh) * 2021-01-29 2021-05-14 清华大学 一种火箭垂直回收状态可控性分析方法和装置
CN112937918A (zh) * 2021-02-05 2021-06-11 南京航空航天大学 一种基于强化学习的多约束下的卫星姿态机动规划方法
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和***
CN113298255A (zh) * 2021-06-11 2021-08-24 浙江工业大学 基于神经元覆盖率的深度强化学习鲁棒训练方法和装置
CN113504723A (zh) * 2021-07-05 2021-10-15 北京航空航天大学 一种基于逆强化学习的运载火箭减载控制方法
CN113885549A (zh) * 2021-11-23 2022-01-04 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN114020001A (zh) * 2021-12-17 2022-02-08 中国科学院国家空间科学中心 基于深度确定性策略梯度学习的火星无人机智能控制方法
CN114435631A (zh) * 2022-02-17 2022-05-06 广州大学 一种航天器自主控制***
CN114692310A (zh) * 2022-04-14 2022-07-01 北京理工大学 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法
CN115291504A (zh) * 2022-05-30 2022-11-04 国家超级计算无锡中心 基于末端误差的火箭子级回收着陆段动力下降制导方法
CN115524964A (zh) * 2022-08-12 2022-12-27 中山大学 一种基于强化学习的火箭着陆实时鲁棒制导方法及***
CN116663438A (zh) * 2023-08-02 2023-08-29 中科星图测控技术股份有限公司 一种基于神经网络反向获取临近空间目标轨迹外推的方法
CN117521535A (zh) * 2024-01-08 2024-02-06 东方空间(江苏)航天动力有限公司 一种基于dqn的运载火箭航迹规划方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007182182A (ja) * 2006-01-10 2007-07-19 Ihi Aerospace Co Ltd 高速で帰還する帰還部材の回収方法及び回収装置
US8006936B1 (en) * 2006-05-31 2011-08-30 Farr Iii Warren W Parachute deployment control
CN106354901A (zh) * 2016-08-12 2017-01-25 北京宇航***工程研究所 一种运载火箭质量特性及动力学关键参数在线辨识方法
CN107544262A (zh) * 2017-10-27 2018-01-05 南京工业大学 一种运载火箭自适应精确回收控制方法
CN107966156A (zh) * 2017-11-24 2018-04-27 北京宇航***工程研究所 一种适用于运载火箭垂直回收段的制导律设计方法
CN108646555A (zh) * 2018-05-07 2018-10-12 中国人民解放军国防科技大学 基于航天器回收***空投试验数据的参数辨识方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007182182A (ja) * 2006-01-10 2007-07-19 Ihi Aerospace Co Ltd 高速で帰還する帰還部材の回収方法及び回収装置
US8006936B1 (en) * 2006-05-31 2011-08-30 Farr Iii Warren W Parachute deployment control
CN106354901A (zh) * 2016-08-12 2017-01-25 北京宇航***工程研究所 一种运载火箭质量特性及动力学关键参数在线辨识方法
CN107544262A (zh) * 2017-10-27 2018-01-05 南京工业大学 一种运载火箭自适应精确回收控制方法
CN107966156A (zh) * 2017-11-24 2018-04-27 北京宇航***工程研究所 一种适用于运载火箭垂直回收段的制导律设计方法
CN108646555A (zh) * 2018-05-07 2018-10-12 中国人民解放军国防科技大学 基于航天器回收***空投试验数据的参数辨识方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高朝辉 等: "垂直返回重复使用运载火箭技术分析", 《宇航学报》 *

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241322A (zh) * 2018-01-16 2018-07-03 电子科技大学 一种fpga互联资源的优化配置生成方法
CN108241322B (zh) * 2018-01-16 2020-08-04 电子科技大学 一种fpga互联资源的优化配置生成方法
CN109669354A (zh) * 2018-11-19 2019-04-23 北京理工大学 状态空间下快速高效的航天器自主任务规划修复方法
CN109977534A (zh) * 2019-03-22 2019-07-05 清华大学 基于强化学习的电路参数优化方法及***
CN110297423A (zh) * 2019-05-27 2019-10-01 北京航天自动控制研究所 一种飞行器长期在轨多模智能集成***
CN110297423B (zh) * 2019-05-27 2022-08-12 北京航天自动控制研究所 一种飞行器长期在轨多模智能集成***
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110195660B (zh) * 2019-06-19 2020-04-21 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
WO2021017227A1 (zh) * 2019-07-30 2021-02-04 北京邮电大学 无人机轨迹优化方法、装置及存储介质
CN110531622A (zh) * 2019-09-05 2019-12-03 沈阳航空航天大学 一种基于径向基神经网络的固体火箭发动机推力控制方法
CN110531622B (zh) * 2019-09-05 2022-04-05 沈阳航空航天大学 一种基于径向基神经网络的固体火箭发动机推力控制方法
CN110620536A (zh) * 2019-10-24 2019-12-27 安徽大学 一种电动汽车异步电机关键参数标定方法
CN110620536B (zh) * 2019-10-24 2021-03-02 安徽大学 一种电动汽车异步电机关键参数标定方法
CN110837231A (zh) * 2019-11-15 2020-02-25 清华大学 在环仿真方法、装置及控制平台
CN110781614B (zh) * 2019-12-06 2024-03-22 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN110781614A (zh) * 2019-12-06 2020-02-11 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN111397448A (zh) * 2020-03-13 2020-07-10 北京星际荣耀空间科技有限公司 姿控参数自适应调节方法、装置、电子设备及存储介质
CN111397448B (zh) * 2020-03-13 2021-08-17 北京星际荣耀空间科技股份有限公司 姿控参数自适应调节方法、装置、电子设备及存储介质
CN111596677B (zh) * 2020-05-07 2021-11-30 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及***
CN111596677A (zh) * 2020-05-07 2020-08-28 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及***
CN111917642B (zh) * 2020-07-14 2021-04-27 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN111917642A (zh) * 2020-07-14 2020-11-10 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN112069903B (zh) * 2020-08-07 2023-12-22 之江实验室 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN112069903A (zh) * 2020-08-07 2020-12-11 之江实验室 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN112278334A (zh) * 2020-11-06 2021-01-29 北京登火汇智科技有限公司 用于控制火箭的着陆过程的方法
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112800546A (zh) * 2021-01-29 2021-05-14 清华大学 一种火箭垂直回收状态可控性分析方法和装置
CN112800546B (zh) * 2021-01-29 2022-07-01 清华大学 一种火箭垂直回收状态可控性分析方法和装置
CN112937918A (zh) * 2021-02-05 2021-06-11 南京航空航天大学 一种基于强化学习的多约束下的卫星姿态机动规划方法
CN113031642B (zh) * 2021-05-24 2021-08-10 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和***
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和***
CN113298255A (zh) * 2021-06-11 2021-08-24 浙江工业大学 基于神经元覆盖率的深度强化学习鲁棒训练方法和装置
CN113298255B (zh) * 2021-06-11 2024-03-15 浙江工业大学 基于神经元覆盖率的深度强化学习鲁棒训练方法和装置
CN113504723A (zh) * 2021-07-05 2021-10-15 北京航空航天大学 一种基于逆强化学习的运载火箭减载控制方法
CN113504723B (zh) * 2021-07-05 2023-11-28 北京航空航天大学 一种基于逆强化学习的运载火箭减载控制方法
CN113885549B (zh) * 2021-11-23 2023-11-21 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN113885549A (zh) * 2021-11-23 2022-01-04 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN114020001A (zh) * 2021-12-17 2022-02-08 中国科学院国家空间科学中心 基于深度确定性策略梯度学习的火星无人机智能控制方法
CN114435631B (zh) * 2022-02-17 2023-08-04 广州大学 一种航天器自主控制***
CN114435631A (zh) * 2022-02-17 2022-05-06 广州大学 一种航天器自主控制***
CN114692310A (zh) * 2022-04-14 2022-07-01 北京理工大学 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法
CN114692310B (zh) * 2022-04-14 2024-07-09 北京理工大学 一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法
CN115291504A (zh) * 2022-05-30 2022-11-04 国家超级计算无锡中心 基于末端误差的火箭子级回收着陆段动力下降制导方法
CN115291504B (zh) * 2022-05-30 2024-06-25 国家超级计算无锡中心 基于末端误差的火箭子级回收着陆段动力下降制导方法
CN115524964A (zh) * 2022-08-12 2022-12-27 中山大学 一种基于强化学习的火箭着陆实时鲁棒制导方法及***
CN116663438B (zh) * 2023-08-02 2023-10-27 中科星图测控技术股份有限公司 一种基于神经网络反向获取临近空间目标轨迹外推的方法
CN116663438A (zh) * 2023-08-02 2023-08-29 中科星图测控技术股份有限公司 一种基于神经网络反向获取临近空间目标轨迹外推的方法
CN117521535A (zh) * 2024-01-08 2024-02-06 东方空间(江苏)航天动力有限公司 一种基于dqn的运载火箭航迹规划方法
CN117521535B (zh) * 2024-01-08 2024-03-12 东方空间(江苏)航天动力有限公司 一种基于dqn的运载火箭航迹规划方法

Also Published As

Publication number Publication date
CN109343341B (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN109343341A (zh) 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN102819264B (zh) 移动机器人路径规划q学习初始化方法
CN112162564B (zh) 基于模仿学习和强化学习算法的无人机飞行控制方法
CN109625333A (zh) 一种基于深度增强学习的空间非合作目标捕获方法
CN109669475A (zh) 基于人工蜂群算法的多无人机三维编队重构方法
CN114253296B (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN109901603B (zh) 一种输入时延下多空间飞行器姿态协同控制方法
CN112141369B (zh) 一种航天器平移靠拢段自主交会对接的决策与控制方法
CN111159489B (zh) 一种搜索方法
CN110309909A (zh) 一种高速大范围机动目标轨迹的智能实时预测方法
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、***、电子设备及介质
Zheng et al. A study of aero-engine control method based on deep reinforcement learning
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策***
Li et al. Improved Q-learning based route planning method for UAVs in unknown environment
Dong et al. Trial input method and own-aircraft state prediction in autonomous air combat
Zijian et al. Imaginary filtered hindsight experience replay for UAV tracking dynamic targets in large-scale unknown environments
CN118034373A (zh) 一种平流层飞艇环境最优智能区域驻留控制方法及***
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及***
CN115903885B (zh) 一种基于任务牵引的蜂群Agent模型的无人机飞控方法
CN115357051B (zh) 变形与机动一体化的规避与突防方法
Xian et al. An Intelligent Attitude Control Method for UAV Based on DDPG Algorithm
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
Huang et al. An Improved Q-Learning Algorithm for Path Planning
Zhou et al. Intelligent Control of Manipulator Based on Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant