CN112947592B

CN112947592B - 一种基于强化学习的再入飞行器轨迹规划方法

Info

Publication number: CN112947592B
Application number: CN202110339389.2A
Authority: CN
Inventors: 张冉; 侯忻宜; 李惠峰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-06-10
Anticipated expiration: 2041-03-30
Also published as: CN112947592A

Abstract

本发明提供一种基于强化学习的再入飞行器轨迹规划方法，其具体步骤如下：步骤一、建立飞行器运动模型；步骤二、设置该方法的状态量，设计奖励函数；步骤三、根据步骤二中的状态量和奖励函数，采用强化学习进行交互训练；步骤四、根据步骤三中训练得到的神经网络模型，计算控制策略。通过以上步骤，本发明解决了初始状态偏差和禁飞区变更的问题，实现了飞行器的禁飞区规避和目标到达任务；本发明所述方法科学，工艺性好，具有广阔推广应用价值。

Description

一种基于强化学习的再入飞行器轨迹规划方法

技术领域

本发明提供一种基于强化学习的再入飞行器轨迹规划方法，属于航空航天技术中的轨迹规划领域。

背景技术

高超声速飞行器再入轨迹规划是一个多约束、强非线性的最优控制问题，目前应用最为广泛的是数值解法。但由于问题的高度复杂性，采用离散化和参数寻优的算法需要进行大量的迭代计算，在现有的计算资源条件下求解耗时较长。而高超声速飞行器作为一种快速有效的打击武器，在实际应用时会面临复杂的战场条件，如禁飞区突防、拦截、任务变更重构等，因此有必要对飞行器进行智能轨迹规划算法研究，使得飞行器具有实时进行自主轨迹重规划的能力，以应对瞬息万变的战场环境。考虑采用强化学习算法进行自主轨迹规划，是因为强化学习具有离线探索环境，在线给出策略的能力。通过离线进行大量的仿真，得到一套具有适应任务环境的动作选择策略，在具体应用时，只需知道当前状态即可得到合适的动作，从而使得飞行器得到可行的轨迹。

综上所述，智能轨迹规划方法相比于传统数值优化方法，具有快速性和应对突发情况的优势。本发明基于强化学习算法，对高超声速再入飞行器进行轨迹规划。该方法具有一定独创性。

发明内容

(一)本发明的目的

本发明的目的是提供一种基于强化学习的再入飞行器智能轨迹规划方法，用以实现飞行器的禁飞区规避和目标到达任务，解决初始状态偏差和禁飞区变更的问题。

(二)技术方案

本发明提供一种基于强化学习的再入飞行器轨迹规划方法，其具体步骤如下：

步骤一、建立飞行器运动模型；

根据再入飞行器的动力学特性，在仿真软件中建立质心运动方程，设置禁飞区和目标点位置，选取控制量；

步骤二、设置该方法的状态量，设计奖励函数；

根据飞行器当前位置和禁飞区以及目标点的位置，设计飞行器反馈给强化学习的状态量，由状态量的值设计奖励函数；

步骤三、根据步骤二中的状态量和奖励函数，采用强化学习进行交互训练；

将步骤二中的状态量作为强化学习的输入变量，利用设置的奖励函数，采用近端策略优化方法对控制量进行寻优，使得期望回报最大化；

步骤四、根据步骤三中训练得到的神经网络模型，计算控制策略；

将训练得到的神经网络保存，在仿真环境中给出初始状态量作为网络模型的输入，实时计算所需控制量，输出到仿真环境中控制飞行器运动一段时间，得到下一时刻的状态量，重复以上过程，直到飞行器到达目标点；

通过以上步骤，本发明解决了初始状态偏差和禁飞区变更的问题，实现了飞行器的禁飞区规避和目标到达任务。

其中，在步骤一中所述的“建立飞行器运动模型”，其具体作法如下：

将地球视为均质圆球，考虑地球曲率的影响，并且假设地球无自转，建立飞行器的三自由度质心运动模型，飞行器的运动方程如下：

其中，r为地心距，是飞行器所在位置与地心的距离，θ和φ分别为飞行器的经度和纬度，V为飞行器相对地球的速度，γ为飞行路径角，表示飞行器的速度方向与水平面的夹角，ψ为航向角，表示飞行器的速度方向在水平面的投影与正东方向的夹角；m为飞行器的质量，α和σ分别表示攻角和倾侧角，攻角剖面由速度决定，横侧向由倾侧角控制，倾侧角大小和方向由该方法策略给出，变化区间设置为[σ_min,σ_max]，σ_min和σ_max分别为倾侧角的最小值和最大值；飞行器的飞行状态量为x＝[r,θ,φ,V,γ,ψ]，控制量为u＝σ。

其中，在步骤二中所述的“强化学习”，是指强化学习方法中的近端策略优化方法，通过在策略空间直接进行策略搜索来得到最佳策略，采用基于梯度优化的方法直接对策略进行寻优，此为公知技术；

其中，在步骤二中所述的“设置该方法的状态量”，是指通过飞行器当前的飞行状态量值，推导得到的当前位置与禁飞区和目标点的相对位置关系，其具体作法如下：

飞行器位置示意图如图2所示，将禁飞区和目标点表示在经纬度图中；飞行器当前位置和禁飞区圆心之间的大圆弧为OA，OA与正北方向夹角为

与飞行器当前航向角ψ(与正北方向夹角)之差为

沿着飞行器速度轴，当禁飞区在飞行器左边时，

为负，反之为正；飞行器当前位置和目标点之间的大圆弧为OT；环境反馈给强化学习的状态量设定为ΔR＝OA-r_zone、

OT，其中r_zone为以弧度表示的禁飞区半径；

其中，在步骤二中所述的“设计奖励函数”，是指由环境反馈给该方法的状态量表示的函数，可称之为奖励信号或强化信号，飞行器根据当前状态做出动作之后，环境会反馈一个奖励，用来更新网络参数，其具体作法如下：

若当前飞行器未进入禁飞区，则不惩罚，若飞行器进入禁飞区，则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径(弧度表示)之差乘以扩大因子作为惩罚值；针对目标点的惩罚策略为，将飞行器与目标点的连线对应的大圆弧度作为惩罚值，每一回合的后8％步惩罚系数扩大10倍；由于策略的优劣取决于长期执行这一策略后得到的累积奖赏，因此为了使飞行器最终能够到达目标点，避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况，奖励的设置原则为在飞行过程中主要考虑禁飞区的规避，而每一回合快结束时主要考虑目标点的到达，奖励函数写为如下形式：

reward＝ωmin(0,ΔR)-ω₁OT (2)

其中reward表示奖励值，ω为禁飞区惩罚系数，ω₁为目标点惩罚系数。

其中，在步骤三中所述的“交互训练”，是指强化学习方法根据当前状态量输出动作，飞行器执行此动作后进入下一状态，得到相应奖励，更新网络参数，然后不断重复以上过程，直到达到设定的训练次数，此为公知技术。

其中，在步骤四中所述的“神经网络模型”，是指拟合得到的输入输出间的函数关系，通过近端策略优化方法对其权重进行调整，为公知技术；

其中，在步骤四中所述的“计算控制策略”，其具体作法如下：

经过若干次和环境的交互训练，得到可用的策略网络模型，对该网络进行评估；将训练得到的神经网络保存，在仿真环境中给出初始状态量作为网络模型的输入，实时计算控制量的变化策略，输出到仿真环境中控制飞行器运动一段时间，得到下一时刻的状态量，重复以上过程，直到飞行器到达目标点；

对于初始条件改变和禁飞区位置变更的情况，在仿真环境中改变相应参数，然后将飞行器的状态量输入神经网络中，计算控制量，进行飞行器的运动仿真。

(三)本发明的优点及功效

本发明的优点及功效在于：

(1)本发明提出了一种基于强化学习的再入飞行器轨迹规划方法，解决了初始状态偏差和禁飞区变更的问题，实现了飞行器的禁飞区规避和目标到达任务；

(2)本发明所述方法科学，工艺性好，具有广阔推广应用价值。

附图说明

图1是本发明所述方法流程图。

图2是飞行器位置示意图。

图3是飞行器奖励函数随训练次数变化图。

图4是经度-纬度曲线图。

图5是高度-时间曲线图。

图6是速度-时间曲线图。

图7是更改初始条件后的经度-纬度曲线图。

图8是更改禁飞区位置后的经度-纬度曲线图。

图中序号、符号、代号说明如下：

图2中，O_E为地球中心，T为目标点，飞行器当前位置为O，和禁飞区圆心之间的大圆弧为OA，OA与正北方向夹角为

飞行器当前航向角为ψ(与正北方向夹角)；飞行器速度矢量为v，r_zone为以弧度表示的禁飞区半径；

具体实施方式

下面将结合附图和实施案例对本发明作进一步的详细说明。

本发明提供一种基于强化学习的再入飞行器轨迹规划方法，其流程图如图1所示，它包括以下几个步骤：

步骤一、建立飞行器运动模型：

其中，r为地心距，是飞行器所在位置与地心的距离，θ和φ分别为飞行器的经度和纬度，V为飞行器相对地球的速度，γ为飞行路径角，表示飞行器的速度方向与水平面的夹角，ψ为航向角，表示飞行器的速度方向在水平面的投影与正东方向的夹角；m为飞行器的质量，α和σ分别表示攻角和倾侧角，攻角剖面由速度决定，横侧向由倾侧角控制，倾侧角大小和方向由该方法策略给出，变化区间设置为[σ_min,σ_max]，σ_min和σ_max分别为倾侧角的最小值和最大值；飞行器的飞行状态量为x＝[r,θ,φ,V,γ,ψ]，控制量为u＝σ；

升力和阻力表达式如下：

其中升力系数C_L和阻力系数C_D是关于攻角α和马赫数Ma的函数，S为飞行器的参考面积，ρ为大气密度，根据标准大气表拟合得到的公式，由当前飞行高度计算得到；

飞行器在再入过程中可能会遇到由于军事和地理因素所产生的禁飞区，此时轨迹规划必须考虑对禁飞区的规避，确保飞行器能够安全地飞抵目标点；将禁飞区视为无限高的圆柱形状，用经度θ_c和纬度φ_c表示禁飞区的圆心位置，d表示半径，禁飞区不等式约束如下：

(θ-θ_c)²+(φ-φ_c)²≥d² (5)

其中θ_c和φ_c分别为禁飞区圆心的经度和纬度，d为禁飞区半径，以弧度为单位；目标点经纬度表示为(θ_T,φ_T)；

步骤二、设置该方法的状态量，设计奖励函数：

与飞行器当前航向角ψ(与正北方向夹角)之差为

沿着飞行器速度轴，当禁飞区在飞行器左边时，

为负，反之为正；飞行器当前位置和目标点之间的大圆弧为OT；环境反馈的状态量设定为ΔR＝OA-r_zone、

OT，其中r_zone为以弧度表示的禁飞区半径；

奖励函数的设置如下：

reward＝ωmin(0,ΔR)-ω₁OT (6)

其中reward表示奖励值，ω为禁飞区惩罚系数，ω₁为目标点惩罚系数；

步骤三、根据步骤二中的状态量和奖励函数，采用强化学习进行交互训练：

建立神经网络模型，将步骤二中的状态量ΔR、

和OT作为网络的输入变量，利用设置的奖励函数，采用近端策略优化方法对控制量进行寻优，使得该方法最大化期望回报；

近端策略优化方法采用两个分布，并引入相对熵保证两个分布之间的差值较小；策略接受状态，输出动作概率分布，在动作概率分布中采样动作，执行动作，得到回报，跳到下一个状态；策略收集到数据并进行学习，然后更新策略；

步骤四、根据步骤三中训练得到的神经网络模型，计算控制策略：

经过若干次和环境的交互训练，得到可用的策略网络模型，对该网络进行评估；将训练得到的神经网络保存，在仿真环境中给出初始状态量作为网络模型的输入，实时计算所需控制量，输出到仿真环境中控制飞行器运动一段时间，得到下一时刻的状态量，重复以上过程，直到飞行器到达目标点；

仿真案例：

本案例仅作为方法演示，并非实际飞行任务；仿真平台为基于OPENAI公司的开源强化学习标准程序Baselines的改进版Stable Baselines，开发语言为python3.6，飞行器运动环境在MATLAB2018b中编写，对飞行器的禁飞区规避和目标到达任务进行训练，飞行器再入初始高度为80公里，初始速度为6000米每秒，初始经度为0度，初始纬度为0度，初始飞行路径角为0度，初始航向角为40度；设置三个禁飞区，其经纬度分别为(24°,20°)、(65°,37°)和(40°,40°)，禁飞区半径为0.0471弧度；

经过2000000次和环境的交互训练，得到可用的策略网络模型，对该网络进行评估；图3为奖励函数值随训练步数的变化情况，在训练次数达到1800000时，奖励函数值趋于收敛；将训练完成的网络用于飞行器运动仿真模型中，图4为经度-纬度曲线图；图5为高度-时间曲线图，图6为速度-时间曲线图，图7为初始高度和飞行路径角分别改为75公里和0.5度时，用神经网络输出的控制策略进行飞行仿真，得到的经度-纬度曲线；图8为禁飞区位置改为(24°,30°)、(75°,37°)和(40°,40°)时，用神经网络输出的控制策略进行飞行仿真，得到的经度-纬度曲线；

仿真案例验证了本发明一种基于强化学习的再入飞行器轨迹规划方法能够实现飞行器的禁飞区规避和目标到达任务，并且适用于飞行器初始状态偏差和禁飞区变更的情况。

Claims

1.一种基于强化学习的再入飞行器轨迹规划方法，其特征在于：其具体步骤如下：

步骤一、建立飞行器运动模型；

步骤二、设置该方法的状态量，设计奖励函数；

建立神经网络模型，将步骤二中的状态量作为神经网络模型的输入变量，利用设置的奖励函数，采用近端策略优化方法对控制量进行寻优，使得期望回报最大化；

将训练得到的神经网络模型保存，在仿真环境中给出初始状态量作为神经网络模型的输入，实时计算所需控制量，输出到仿真环境中控制飞行器运动一段时间，得到下一时刻的状态量，重复以上过程，直到飞行器到达目标点；

其中，在步骤二中所述的设置该方法的状态量，是指通过飞行器当前的飞行状态量值，推导得到的当前位置与禁飞区和目标点的相对位置关系，其具体作法如下：

当前位置和禁飞区圆心之间的大圆弧为OA，OA与正北方向夹角为

与飞行器当前航向角ψ即与正北方向夹角之差为

沿着飞行器速度轴，当禁飞区在飞行器左边时，

为负，反之为正；飞行器当前位置和目标点之间的大圆弧为OT；环境反馈给强化学习的状态量设定为ΔR、

OT，其中，ΔR＝OA-r_zone，r_zone为以弧度表示的禁飞区半径；

其中，在步骤二中所述的设计奖励函数，是指由环境反馈给该方法的状态量表示的函数，能称之为奖励信号及强化信号，飞行器根据当前状态做出动作之后，环境会反馈一个奖励，用来更新神经网络模型参数，其具体作法如下：

若当前飞行器未进入禁飞区，则不惩罚，若飞行器进入禁飞区，则将飞行器与禁飞区圆心的连线所对应的大圆弧度与禁飞区半径之差乘以扩大因子作为惩罚值；针对目标点的惩罚策略为，将飞行器与目标点的连线对应的大圆弧度作为惩罚值，每一回合的后8％步惩罚系数扩大10倍；由于策略的优劣取决于长期执行这一策略后得到的累积奖赏，因此为了使飞行器最终能够到达目标点，避免出现在飞行途中目标点到达和禁飞区规避任务之间难以决策的情况，奖励的设置原则为在飞行过程中主要考虑禁飞区的规避，而每一回合快结束时主要考虑目标点的到达，奖励函数写为如下形式：

reward＝ωmin(0,ΔR)-ω₁OT (2)

2.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法，其特征在于：在步骤一中所述的建立飞行器运动模型，其具体作法如下：

其中，r为地心距，是飞行器所在位置与地心的距离，θ和φ分别为飞行器的经度和纬度，V为飞行器相对地球的速度，γ为飞行路径角，表示飞行器的速度方向与水平面的夹角，ψ为航向角，表示飞行器的速度方向在水平面的投影与正东方向的夹角；m为飞行器的质量，α和σ分别表示攻角和倾侧角，攻角剖面由速度决定，横侧向由倾侧角控制，倾侧角大小和方向由算法策略给出，变化区间设置为[σ_min,σ_max]，σ_min和σ_max分别为倾侧角的最小值和最大值；飞行器的飞行状态量为x＝[r,θ,φ,V,γ,ψ]，控制量为u＝σ。

3.根据权利要求1所述的一种基于强化学习的再入飞行器轨迹规划方法，其特征在于：在步骤四中所述的计算控制策略，其具体作法如下：

经过多次和环境的交互训练，得到能用的神经网络模型，对神经网络模型进行评估；将训练得到的神经网络模型保存，在仿真环境中给出初始状态量作为神经网络模型的输入，实时计算控制量的变化策略，输出到仿真环境中控制飞行器运动一段时间，得到下一时刻的状态量，重复以上过程，直到飞行器到达目标点；

对于初始条件改变和禁飞区位置变更的情况，在仿真环境中改变相应参数，然后将飞行器的状态量输入神经网络模型中，计算控制量，进行飞行器的运动仿真。