CN112947592B - 一种基于强化学习的再入飞行器轨迹规划方法 - Google Patents
一种基于强化学习的再入飞行器轨迹规划方法 Download PDFInfo
- Publication number
- CN112947592B CN112947592B CN202110339389.2A CN202110339389A CN112947592B CN 112947592 B CN112947592 B CN 112947592B CN 202110339389 A CN202110339389 A CN 202110339389A CN 112947592 B CN112947592 B CN 112947592B
- Authority
- CN
- China
- Prior art keywords
- aircraft
- fly zone
- state quantity
- target point
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 19
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 238000011217 control strategy Methods 0.000 claims abstract description 8
- 238000004088 simulation Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- CLOMYZFHNHFSIQ-UHFFFAOYSA-N clonixin Chemical compound CC1=C(Cl)C=CC=C1NC1=NC=CC=C1C(O)=O CLOMYZFHNHFSIQ-UHFFFAOYSA-N 0.000 claims 1
- 230000009471 action Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/12—Target-seeking control
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其具体步骤如下:步骤一、建立飞行器运动模型;步骤二、设置该方法的状态量,设计奖励函数;步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略。通过以上步骤,本发明解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务;本发明所述方法科学,工艺性好,具有广阔推广应用价值。
Description
技术领域
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,属于航空航天技术中的轨迹规划领域。
背景技术
高超声速飞行器再入轨迹规划是一个多约束、强非线性的最优控制问题,目前应用最为广泛的是数值解法。但由于问题的高度复杂性,采用离散化和参数寻优的算法需要进行大量的迭代计算,在现有的计算资源条件下求解耗时较长。而高超声速飞行器作为一种快速有效的打击武器,在实际应用时会面临复杂的战场条件,如禁飞区突防、拦截、任务变更重构等,因此有必要对飞行器进行智能轨迹规划算法研究,使得飞行器具有实时进行自主轨迹重规划的能力,以应对瞬息万变的战场环境。考虑采用强化学习算法进行自主轨迹规划,是因为强化学习具有离线探索环境,在线给出策略的能力。通过离线进行大量的仿真,得到一套具有适应任务环境的动作选择策略,在具体应用时,只需知道当前状态即可得到合适的动作,从而使得飞行器得到可行的轨迹。
综上所述,智能轨迹规划方法相比于传统数值优化方法,具有快速性和应对突发情况的优势。本发明基于强化学习算法,对高超声速再入飞行器进行轨迹规划。该方法具有一定独创性。
发明内容
(一)本发明的目的
本发明的目的是提供一种基于强化学习的再入飞行器智能轨迹规划方法,用以实现飞行器的禁飞区规避和目标到达任务,解决初始状态偏差和禁飞区变更的问题。
(二)技术方案
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其具体步骤如下:
步骤一、建立飞行器运动模型;
根据再入飞行器的动力学特性,在仿真软件中建立质心运动方程,设置禁飞区和目标点位置,选取控制量;
步骤二、设置该方法的状态量,设计奖励函数;
根据飞行器当前位置和禁飞区以及目标点的位置,设计飞行器反馈给强化学习的状态量,由状态量的值设计奖励函数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;
将步骤二中的状态量作为强化学习的输入变量,利用设置的奖励函数,采用近端策略优化方法对控制量进行寻优,使得期望回报最大化;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略;
将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
通过以上步骤,本发明解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务。
其中,在步骤一中所述的“建立飞行器运动模型”,其具体作法如下:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
其中,r为地心距,是飞行器所在位置与地心的距离,θ和φ分别为飞行器的经度和纬度,V为飞行器相对地球的速度,γ为飞行路径角,表示飞行器的速度方向与水平面的夹角,ψ为航向角,表示飞行器的速度方向在水平面的投影与正东方向的夹角;m为飞行器的质量,α和σ分别表示攻角和倾侧角,攻角剖面由速度决定,横侧向由倾侧角控制,倾侧角大小和方向由该方法策略给出,变化区间设置为[σmin,σmax],σmin和σmax分别为倾侧角的最小值和最大值;飞行器的飞行状态量为x=[r,θ,φ,V,γ,ψ],控制量为u=σ。
其中,在步骤二中所述的“强化学习”,是指强化学习方法中的近端策略优化方法,通过在策略空间直接进行策略搜索来得到最佳策略,采用基于梯度优化的方法直接对策略进行寻优,此为公知技术;
其中,在步骤二中所述的“设置该方法的状态量”,是指通过飞行器当前的飞行状态量值,推导得到的当前位置与禁飞区和目标点的相对位置关系,其具体作法如下:
飞行器位置示意图如图2所示,将禁飞区和目标点表示在经纬度图中;飞行器当前位置和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为与飞行器当前航向角ψ(与正北方向夹角)之差为沿着飞行器速度轴,当禁飞区在飞行器左边时,为负,反之为正;飞行器当前位置和目标点之间的大圆弧为OT;环境反馈给强化学习的状态量设定为ΔR=OA-rzone、OT,其中rzone为以弧度表示的禁飞区半径;
其中,在步骤二中所述的“设计奖励函数”,是指由环境反馈给该方法的状态量表示的函数,可称之为奖励信号或强化信号,飞行器根据当前状态做出动作之后,环境会反馈一个奖励,用来更新网络参数,其具体作法如下:
若当前飞行器未进入禁飞区,则不惩罚,若飞行器进入禁飞区,则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径(弧度表示)之差乘以扩大因子作为惩罚值;针对目标点的惩罚策略为,将飞行器与目标点的连线对应的大圆弧度作为惩罚值,每一回合的后8%步惩罚系数扩大10倍;由于策略的优劣取决于长期执行这一策略后得到的累积奖赏,因此为了使飞行器最终能够到达目标点,避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况,奖励的设置原则为在飞行过程中主要考虑禁飞区的规避,而每一回合快结束时主要考虑目标点的到达,奖励函数写为如下形式:
reward=ωmin(0,ΔR)-ω1OT (2)
其中reward表示奖励值,ω为禁飞区惩罚系数,ω1为目标点惩罚系数。
其中,在步骤三中所述的“交互训练”,是指强化学习方法根据当前状态量输出动作,飞行器执行此动作后进入下一状态,得到相应奖励,更新网络参数,然后不断重复以上过程,直到达到设定的训练次数,此为公知技术。
其中,在步骤四中所述的“神经网络模型”,是指拟合得到的输入输出间的函数关系,通过近端策略优化方法对其权重进行调整,为公知技术;
其中,在步骤四中所述的“计算控制策略”,其具体作法如下:
经过若干次和环境的交互训练,得到可用的策略网络模型,对该网络进行评估;将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算控制量的变化策略,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
对于初始条件改变和禁飞区位置变更的情况,在仿真环境中改变相应参数,然后将飞行器的状态量输入神经网络中,计算控制量,进行飞行器的运动仿真。
(三)本发明的优点及功效
本发明的优点及功效在于:
(1)本发明提出了一种基于强化学习的再入飞行器轨迹规划方法,解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务;
(2)本发明所述方法科学,工艺性好,具有广阔推广应用价值。
附图说明
图1是本发明所述方法流程图。
图2是飞行器位置示意图。
图3是飞行器奖励函数随训练次数变化图。
图4是经度-纬度曲线图。
图5是高度-时间曲线图。
图6是速度-时间曲线图。
图7是更改初始条件后的经度-纬度曲线图。
图8是更改禁飞区位置后的经度-纬度曲线图。
图中序号、符号、代号说明如下:
具体实施方式
下面将结合附图和实施案例对本发明作进一步的详细说明。
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其流程图如图1所示,它包括以下几个步骤:
步骤一、建立飞行器运动模型:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
其中,r为地心距,是飞行器所在位置与地心的距离,θ和φ分别为飞行器的经度和纬度,V为飞行器相对地球的速度,γ为飞行路径角,表示飞行器的速度方向与水平面的夹角,ψ为航向角,表示飞行器的速度方向在水平面的投影与正东方向的夹角;m为飞行器的质量,α和σ分别表示攻角和倾侧角,攻角剖面由速度决定,横侧向由倾侧角控制,倾侧角大小和方向由该方法策略给出,变化区间设置为[σmin,σmax],σmin和σmax分别为倾侧角的最小值和最大值;飞行器的飞行状态量为x=[r,θ,φ,V,γ,ψ],控制量为u=σ;
升力和阻力表达式如下:
其中升力系数CL和阻力系数CD是关于攻角α和马赫数Ma的函数,S为飞行器的参考面积,ρ为大气密度,根据标准大气表拟合得到的公式,由当前飞行高度计算得到;
飞行器在再入过程中可能会遇到由于军事和地理因素所产生的禁飞区,此时轨迹规划必须考虑对禁飞区的规避,确保飞行器能够安全地飞抵目标点;将禁飞区视为无限高的圆柱形状,用经度θc和纬度φc表示禁飞区的圆心位置,d表示半径,禁飞区不等式约束如下:
(θ-θc)2+(φ-φc)2≥d2 (5)
其中θc和φc分别为禁飞区圆心的经度和纬度,d为禁飞区半径,以弧度为单位;目标点经纬度表示为(θT,φT);
步骤二、设置该方法的状态量,设计奖励函数:
飞行器位置示意图如图2所示,将禁飞区和目标点表示在经纬度图中;飞行器当前位置和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为与飞行器当前航向角ψ(与正北方向夹角)之差为沿着飞行器速度轴,当禁飞区在飞行器左边时,为负,反之为正;飞行器当前位置和目标点之间的大圆弧为OT;环境反馈的状态量设定为ΔR=OA-rzone、OT,其中rzone为以弧度表示的禁飞区半径;
奖励函数的设置如下:
若当前飞行器未进入禁飞区,则不惩罚,若飞行器进入禁飞区,则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径(弧度表示)之差乘以扩大因子作为惩罚值;针对目标点的惩罚策略为,将飞行器与目标点的连线对应的大圆弧度作为惩罚值,每一回合的后8%步惩罚系数扩大10倍;由于策略的优劣取决于长期执行这一策略后得到的累积奖赏,因此为了使飞行器最终能够到达目标点,避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况,奖励的设置原则为在飞行过程中主要考虑禁飞区的规避,而每一回合快结束时主要考虑目标点的到达,奖励函数写为如下形式:
reward=ωmin(0,ΔR)-ω1OT (6)
其中reward表示奖励值,ω为禁飞区惩罚系数,ω1为目标点惩罚系数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练:
近端策略优化方法采用两个分布,并引入相对熵保证两个分布之间的差值较小;策略接受状态,输出动作概率分布,在动作概率分布中采样动作,执行动作,得到回报,跳到下一个状态;策略收集到数据并进行学习,然后更新策略;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略:
经过若干次和环境的交互训练,得到可用的策略网络模型,对该网络进行评估;将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
对于初始条件改变和禁飞区位置变更的情况,在仿真环境中改变相应参数,然后将飞行器的状态量输入神经网络中,计算控制量,进行飞行器的运动仿真。
仿真案例:
本案例仅作为方法演示,并非实际飞行任务;仿真平台为基于OPENAI公司的开源强化学习标准程序Baselines的改进版Stable Baselines,开发语言为python3.6,飞行器运动环境在MATLAB2018b中编写,对飞行器的禁飞区规避和目标到达任务进行训练,飞行器再入初始高度为80公里,初始速度为6000米每秒,初始经度为0度,初始纬度为0度,初始飞行路径角为0度,初始航向角为40度;设置三个禁飞区,其经纬度分别为(24°,20°)、(65°,37°)和(40°,40°),禁飞区半径为0.0471弧度;
经过2000000次和环境的交互训练,得到可用的策略网络模型,对该网络进行评估;图3为奖励函数值随训练步数的变化情况,在训练次数达到1800000时,奖励函数值趋于收敛;将训练完成的网络用于飞行器运动仿真模型中,图4为经度-纬度曲线图;图5为高度-时间曲线图,图6为速度-时间曲线图,图7为初始高度和飞行路径角分别改为75公里和0.5度时,用神经网络输出的控制策略进行飞行仿真,得到的经度-纬度曲线;图8为禁飞区位置改为(24°,30°)、(75°,37°)和(40°,40°)时,用神经网络输出的控制策略进行飞行仿真,得到的经度-纬度曲线;
仿真案例验证了本发明一种基于强化学习的再入飞行器轨迹规划方法能够实现飞行器的禁飞区规避和目标到达任务,并且适用于飞行器初始状态偏差和禁飞区变更的情况。
Claims (3)
1.一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:其具体步骤如下:
步骤一、建立飞行器运动模型;
根据再入飞行器的动力学特性,在仿真软件中建立质心运动方程,设置禁飞区和目标点位置,选取控制量;
步骤二、设置该方法的状态量,设计奖励函数;
根据飞行器当前位置和禁飞区以及目标点的位置,设计飞行器反馈给强化学习的状态量,由状态量的值设计奖励函数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;
建立神经网络模型,将步骤二中的状态量作为神经网络模型的输入变量,利用设置的奖励函数,采用近端策略优化方法对控制量进行寻优,使得期望回报最大化;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略;
将训练得到的神经网络模型保存,在仿真环境中给出初始状态量作为神经网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
其中,在步骤二中所述的设置该方法的状态量,是指通过飞行器当前的飞行状态量值,推导得到的当前位置与禁飞区和目标点的相对位置关系,其具体作法如下:
当前位置和禁飞区圆心之间的大圆弧为OA,OA与正北方向夹角为与飞行器当前航向角ψ即与正北方向夹角之差为沿着飞行器速度轴,当禁飞区在飞行器左边时,为负,反之为正;飞行器当前位置和目标点之间的大圆弧为OT;环境反馈给强化学习的状态量设定为ΔR、OT,其中,ΔR=OA-rzone,rzone为以弧度表示的禁飞区半径;
其中,在步骤二中所述的设计奖励函数,是指由环境反馈给该方法的状态量表示的函数,能称之为奖励信号及强化信号,飞行器根据当前状态做出动作之后,环境会反馈一个奖励,用来更新神经网络模型参数,其具体作法如下:
若当前飞行器未进入禁飞区,则不惩罚,若飞行器进入禁飞区,则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径之差乘以扩大因子作为惩罚值;针对目标点的惩罚策略为,将飞行器与目标点的连线对应的大圆弧度作为惩罚值,每一回合的后8%步惩罚系数扩大10倍;由于策略的优劣取决于长期执行这一策略后得到的累积奖赏,因此为了使飞行器最终能够到达目标点,避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况,奖励的设置原则为在飞行过程中主要考虑禁飞区的规避,而每一回合快结束时主要考虑目标点的到达,奖励函数写为如下形式:
reward=ωmin(0,ΔR)-ω1OT (2)
其中reward表示奖励值,ω为禁飞区惩罚系数,ω1为目标点惩罚系数。
2.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:在步骤一中所述的建立飞行器运动模型,其具体作法如下:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
其中,r为地心距,是飞行器所在位置与地心的距离,θ和φ分别为飞行器的经度和纬度,V为飞行器相对地球的速度,γ为飞行路径角,表示飞行器的速度方向与水平面的夹角,ψ为航向角,表示飞行器的速度方向在水平面的投影与正东方向的夹角;m为飞行器的质量,α和σ分别表示攻角和倾侧角,攻角剖面由速度决定,横侧向由倾侧角控制,倾侧角大小和方向由算法策略给出,变化区间设置为[σmin,σmax],σmin和σmax分别为倾侧角的最小值和最大值;飞行器的飞行状态量为x=[r,θ,φ,V,γ,ψ],控制量为u=σ。
3.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法,其特征在于:在步骤四中所述的计算控制策略,其具体作法如下:
经过多次和环境的交互训练,得到能用的神经网络模型,对神经网络模型进行评估;将训练得到的神经网络模型保存,在仿真环境中给出初始状态量作为神经网络模型的输入,实时计算控制量的变化策略,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
对于初始条件改变和禁飞区位置变更的情况,在仿真环境中改变相应参数,然后将飞行器的状态量输入神经网络模型中,计算控制量,进行飞行器的运动仿真。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339389.2A CN112947592B (zh) | 2021-03-30 | 2021-03-30 | 一种基于强化学习的再入飞行器轨迹规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339389.2A CN112947592B (zh) | 2021-03-30 | 2021-03-30 | 一种基于强化学习的再入飞行器轨迹规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112947592A CN112947592A (zh) | 2021-06-11 |
CN112947592B true CN112947592B (zh) | 2022-06-10 |
Family
ID=76230505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110339389.2A Active CN112947592B (zh) | 2021-03-30 | 2021-03-30 | 一种基于强化学习的再入飞行器轨迹规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112947592B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113504723B (zh) * | 2021-07-05 | 2023-11-28 | 北京航空航天大学 | 一种基于逆强化学习的运载火箭减载控制方法 |
CN113671825B (zh) * | 2021-07-07 | 2023-09-08 | 西北工业大学 | 一种基于强化学习的机动智能决策规避导弹方法 |
CN114115350B (zh) * | 2021-12-02 | 2024-05-10 | 清华大学 | 飞行器的控制方法、装置及设备 |
CN114371724A (zh) * | 2021-12-03 | 2022-04-19 | 中国人民解放军海军航空大学 | 一种飞行器的避障方法及*** |
CN114253296B (zh) * | 2021-12-22 | 2024-06-07 | 中国人民解放军国防科技大学 | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 |
CN115328196B (zh) * | 2022-08-05 | 2024-06-14 | 北京航空航天大学 | 一种基于学习的飞行器实时航路点决策-轨迹规划方法 |
CN115220478B (zh) * | 2022-08-16 | 2024-05-31 | 哈尔滨逐宇航天科技有限责任公司 | 一种基于集群进化强化学习的飞行器路径规划方法 |
CN116307331B (zh) * | 2023-05-15 | 2023-08-04 | 北京航空航天大学 | 航空器轨迹的规划方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110928329A (zh) * | 2019-12-24 | 2020-03-27 | 北京空间技术研制试验中心 | 一种基于深度q学习算法的多飞行器航迹规划方法 |
CN111783358A (zh) * | 2020-07-02 | 2020-10-16 | 哈尔滨工业大学 | 一种基于贝叶斯估计的高超速飞行器长期轨迹预报方法 |
CN112162567A (zh) * | 2020-09-09 | 2021-01-01 | 北京航空航天大学 | 一种适用于飞行器在线禁飞区规避制导方法 |
CN112256061A (zh) * | 2020-10-30 | 2021-01-22 | 北京航空航天大学 | 复杂环境及任务约束下的高超声速飞行器再入制导方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11467591B2 (en) * | 2019-05-15 | 2022-10-11 | Baidu Usa Llc | Online agent using reinforcement learning to plan an open space trajectory for autonomous vehicles |
-
2021
- 2021-03-30 CN CN202110339389.2A patent/CN112947592B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110928329A (zh) * | 2019-12-24 | 2020-03-27 | 北京空间技术研制试验中心 | 一种基于深度q学习算法的多飞行器航迹规划方法 |
CN111783358A (zh) * | 2020-07-02 | 2020-10-16 | 哈尔滨工业大学 | 一种基于贝叶斯估计的高超速飞行器长期轨迹预报方法 |
CN112162567A (zh) * | 2020-09-09 | 2021-01-01 | 北京航空航天大学 | 一种适用于飞行器在线禁飞区规避制导方法 |
CN112256061A (zh) * | 2020-10-30 | 2021-01-22 | 北京航空航天大学 | 复杂环境及任务约束下的高超声速飞行器再入制导方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112947592A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN111351488B (zh) | 飞行器智能轨迹重构再入制导方法 | |
US11727812B2 (en) | Airplane flight path planning method and device based on the pigeon-inspired optimization | |
Li et al. | Stochastic gradient particle swarm optimization based entry trajectory rapid planning for hypersonic glide vehicles | |
Duan et al. | Imperialist competitive algorithm optimized artificial neural networks for UCAV global path planning | |
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
Duan et al. | Non-linear dual-mode receding horizon control for multiple unmanned air vehicles formation flight based on chaotic particle swarm optimisation | |
Li et al. | A Multi-UCAV cooperative occupation method based on weapon engagement zones for beyond-visual-range air combat | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及*** | |
CN104850009A (zh) | 一种基于捕食逃逸鸽群优化的多无人飞行器编队协调控制方法 | |
US20210325891A1 (en) | Graph construction and execution ml techniques | |
CN114840020A (zh) | 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法 | |
CN113467241B (zh) | 凸曲率着陆轨迹燃耗优化方法 | |
Jiang et al. | Realizing midcourse penetration with deep reinforcement learning | |
CN114967721A (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
Lei et al. | Moving time UCAV maneuver decision based on the dynamic relational weight algorithm and trajectory prediction | |
Wu et al. | Multi-phase trajectory optimization for an aerial-aquatic vehicle considering the influence of navigation error | |
Li et al. | Improved Q-learning based route planning method for UAVs in unknown environment | |
Wu et al. | Learning-based interfered fluid avoidance guidance for hypersonic reentry vehicles with multiple constraints | |
Kang et al. | Air-to-air combat tactical decision method based on SIRMs fuzzy logic and improved genetic algorithm | |
Xia et al. | Prescribed intelligent elliptical pursuing by UAVs: A reinforcement learning policy | |
Shi et al. | Leader-Follower Formation Control for Fixed-Wing UAVs using Deep Reinforcement Learning | |
Zhu et al. | Multi-constrained intelligent gliding guidance via optimal control and DQN | |
Yang et al. | Autonomous control of UAV trajectory based on RHC-Radau method in complex penetration combat environment | |
Li et al. | A path planning for one UAV based on geometric algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |