CN116702903A

CN116702903A - 一种基于深度强化学习的航天器集群博弈智能决策方法

Info

Publication number: CN116702903A
Application number: CN202310480732.4A
Authority: CN
Inventors: 余卫倬; 岳晓奎; 刘闯; 黄盘兴
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-09-05

Abstract

本发明公开了一种基于深度强化学习的航天器集群博弈智能决策方法，包括：S1、对航天器集群博弈进行数学描述，构建己方航天器和目标航天器的追逃模型，建立相对运动动力学模型；S2、根据航天器集群博弈的特点，设计不同的奖励函数来区分航天器间合作或非合作博弈关系，设计全局、局部奖励引导集群协作完成任务；S3、将元学习算法与深度强化学习算法相结合，设计一种对不同空间任务具有强适应性的决策算法；S4、根据步骤S2和S3中设计的航天器集群智能决策算法进行训练，对训练好的决策网络进行测试。本发明针对目标的特征，自主生成利用己方数量优势的博弈策略，有效解决在非合作目标部分信息未知且策略不明的情况下己方航天器的决策问题。

Description

一种基于深度强化学习的航天器集群博弈智能决策方法

技术领域

本发明属于航空航天技术领域，具体涉及一种基于深度强化学习的航天器集群博弈智能决策方法。

背景技术

随着航天器智能化程度不断增加，航天器技术在传统轨道博弈与任务分配技术的基础上，逐渐朝着智能决策、协同工作的方向发展。太空环境日益复杂，失效航天器和太空垃圾的数量也越来越多，这些都会对在轨驻留航天器构成潜在威胁，若其运行轨道靠近高价值航天器轨道，就有产生碰撞风险。对于这些非合作目标带来的潜在威胁，传统轨道博弈技术能应对部分确定性场景，但是在强不确定性博弈态势中就显得能力不足，对其清除任务的核心在于航天器安全、精准抵达非合作目标附近，但面临多源复杂干扰、信息不完备等不利因素。

以微分对策、最优控制等为代表的传统博弈控制方法难以解决上述问题，需要提出新型智能决策方法来推动集群博弈技术的发展。结合博弈论和马尔可夫决策过程，深度强化学习能够在多源复杂干扰、信息不完备等不利因素下处理合作和非完全合作***智能决策问题，在机器人控制与规划领域已经取得一定研究成果。但神经网络复杂参数带来的不确定性，容易导致算法收敛性和适应性差的问题，需要在深度强化学习的基础上加以改进，以提高算法的收敛性和适应性，从而为航天器集群博弈领域提供一种可行的智能决策方法。

发明内容

本发明所要解决的技术问题是，在非合作目标部分信息未知、目标具有自主决策能力的情况下，设计一种算法，根据己方航天器数量以及机动能力制定出能利用己方优势的博弈方案。基于本发明设计的算法框架，在目标航天器机动策略未知的情况下，训练完成后的航天器集群能够自主协同完成对目标的追捕。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度强化学习的航天器集群博弈智能决策方法，包括以下步骤：

S1、基于博弈论对航天器集群博弈进行数学描述，构建己方航天器和目标航天器的追逃模型，基于二体轨道运动方程，建立相对运动动力学模型；

S2、根据航天器集群博弈的特点，设计不同的奖励函数来区分航天器间合作或非合作博弈关系，设计全局、局部奖励引导航天器集群协作完成任务；

S3、将元学习算法与深度强化学习算法相结合，设计一种对不同空间任务具有强适应性的智能决策算法；

S4、根据步骤S2和步骤S3中设计的航天器集群智能决策算法进行训练，并对训练好的决策网络随机设计初始状态，进行测试。

本发明的有益效果是：本发明通过构建己方航天器集群与目标航天器的博弈模型，考虑在椭圆轨道附近的航天器相对运动，将多智能体强化学习方法引入到航天器博弈模型，设计与实际任务相契合的奖励函数，以引导航天器在训练过程中收敛，从而克服了在非合作目标部分信息未知、策略不明时己方航天器控制策略效率不高的问题，实现了在不同情形下，算法生成控制策略的有效性。

进一步地，所述步骤S1包括以下步骤：

S101、基于博弈论知识，结合空间任务场景对博弈要素进行定义，引入纳什均衡解来描述博弈双方的最佳博弈策略；

S102、基于二体轨道动力学，忽略摄动因素，考虑虚拟主航天器在椭圆轨道上运行的情况，建立T-H方程来描述航天器的相对运动。

上述进一步方案的有益效果是：以航天器和目标航天器为博弈的参与者，对各自的目标函数进行设计，再考虑以椭圆轨道上运行的虚拟航天器为参考，建立相对运动模型。

再进一步地，所述步骤S101中双方博弈策略的数学模型如下：

其中，J为参与者的价值函数，表达式为：min是求最小值函数，r_E表示目标航天器的地心矢径，/>表示己方航天器的地心矢径，v_E表示目标航天器的速度，/>表示己方航天器的速度，u_E表示目标航天器的控制输入，/>表示己方航天器的控制输入，N表示己方航天器的数量。

上述进一步方案的有益效果是：本方案通过对双方的博弈策略进行建模，使用纳什均衡解对双方的最优策略进行解释，为深度强化学习方法学习到结果提供了理论支撑。

再进一步地，所述步骤S102中航天器相对运动动力学模型如下：

其中，为位置的归一化坐标，f为真近点角，/>和/>分别是u对自变量f的二阶、一阶导数，/>和/>分别是v对自变量f的二阶、一阶导数，/>是w对自变量f的二阶导数，R_ref为参考航天器的地心矢径，e为参考主航天器的轨道偏心率，a_u,a_v,a_w为航天器施加的主动控制加速度。

上述进一步方案的有益效果是：本方案从二体动力学出发，建立了双方航天器相对于运行在椭圆轨道上的虚拟参考航天器的相对运动动力学模型，精确描述了的状态，为强化学习算法提供输入。

再进一步地，所述步骤S2包括以下步骤：

S201、对己方航天器追捕目标航天器成功与否的判定标准进行定义，同时考虑航天器位置与速度约束；

S202、针对多智能体强化学习算法中的全局评论家网络设计全局奖励设计；

S203、结合每个航天器的任务目标，针对每个智能体的评论家网络设计局部奖励设计。

上述进一步方案的有益效果是：本方案航天器追捕的任务特点进行奖励函数塑造，分别设计了全局和局部两种奖励函数。

再进一步地，所述步骤S201中针对航天器集群追逃任务成功完成的判定条件定义如下：

其中，min是求最小值函数，R_pi是己方航天器的位置，R_e是目标航天器的位置，R_d是据不同任务定义的距离阈值，V_pi是己方航天器的速度，V_e是目标航天器的速度，V_d是据不同任务定义的速度阈值，N表示己方航天器的数量。

上述进一步方案的有益效果是：通过上述公式实现对于航天器追捕目标时是否成功判定条件的量化定义。

再进一步地，所述步骤S202中针对航天器集群的全局奖励表达式如下：

其中，m为全局奖励系数，.min.是求最小值函数，u_pi为己方航天器在X方向的归一化坐标，v_pi为己方航天器在Y方向的归一化坐标，w_pi为己方航天器在Z方向的归一化坐标，u_e为目标航天器在X方向的归一化坐标，v_e为目标航天器在Y方向的归一化坐标，w_e为目标航天器在Z方向的归一化坐标，N表示己方航天器的数量。

上述进一步方案的有益效果是：本发明通过设计全局奖励函数，引导己方航天器整体向着靠近目标的方向运动，加速训练收敛。

再进一步地，所述步骤S203中针对单个航天器的局部奖励的设计如下：

基于S201中定义的捕获条件，设计己方航天器的奖励函数，己方航天器的目标是在避免碰撞和成功追捕的条件下，优化消耗的燃料和博弈的时间。目标航天器根据零和博弈特点，目标函数与己方航天器相反，故在此重点分析己方航天器的奖励函数设置。在环境交互训练中，将奖励函数划分为以下几部分：

任务完成奖励：己方航天器成功捕获目标航天器后，将获得奖励R_p1，并且此回合的训练结束：

其中，min是求最小值函数，r_pi为己方航天器的位置，r_e为目标航天器的位置，r_th为捕获成功阈值，N表示己方航天器的数量。

引导性奖励：由于只通过完成目标奖励(R_p1)容易造成稀疏奖励无法收敛，因此加入引导性奖励R_p2，当这一时刻追捕航天器与逃逸航天器间的距离相比于上一时刻在减小，就给予奖励，从而引导着追捕航天器接近逃逸航天器：

其中，(r_pi-r_e)_before为前一时刻己方航天器与目标航天器的距离，(r_pi-r_e)_now为当前时刻己方航天器与目标航天器的距离。

时间惩罚：为了让己方航天器尽快追上目标航天器，引入时间惩罚R_p3，在博弈过程中，追捕花费时间越长，惩罚越大：

R_p3＝a×ln(t+1)

其中，a是惩罚系数，t是时间。

燃料消耗惩罚：在博弈过程中，己方航天器会消耗燃料，为了引导航天器学习到节省燃料的追捕策略，引入燃料消耗惩罚：

其中，Δv为速度增量。

碰撞惩罚：考虑到集群航天器在追捕过程中需满足避免碰撞的约束：

其中，min是求最小值函数，r_pi为己方航天器的位置，r_e为目标航天器的位置，r_th'为防碰撞安全阈值，N表示己方航天器的数量。

综上，己方航天器的奖励设计为：

Reward_p＝β₁·R_p1+β₂·R_p2+β₃·R_p3+β₄·R_p4+β₅·R_p5

其中，β₁,β₂,β₃,β₄,β₅为各奖励的权重系数，可根据具体任务调整大小。

上述进一步方案的有益效果是：本发明通过考虑多方面约束设计局部奖励函数，避免了航天器因稀疏奖励设置而出现无法收敛的情况，极大程度上契合了航天器执行任务时的实际要求。

再进一步地，所述步骤S3包括以下步骤：

S301、采用元强化学习与深度强化学习方式相结合的方式设计航天器集群智能决策算法网络框架；

S302、根据S301中的航天器集群智能决策算法设计算法细节与训练流程。

上述进一步方案的有益效果是：本方案根据多智能体强化学习算法设计航天器的智能控制策略网络，并设计训练流程。

再进一步地，所述步骤S4中对训练好的策略网络进行测试，具体内容为：将训练好的网络放到航天器集群博弈任务中去，选定几种具有代表性的初始条件作为网络输入，测试网络对于不同情况的普适性和有效性。

上述进一步方案的有益效果是：通过不同任务场景的测试，验证了算法的普适性与有效性。

附图说明

图1为本发明的方法流程图；

图2为本发明中的算法程序流程图；

图3为本发明中的算法网络架构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图对本发明做进一步详细描述：

如图1所示，本发明提供一种基于深度强化学习的航天器集群博弈智能决策方法，有效地实现航天器集群的智能决策与控制。该方法包括以下步骤：

S1、基于博弈论对航天器集群博弈进行数学描述，构建己方航天器和目标航天器的追逃模型，基于二体轨道运动方程，建立相对运动动力学模型：

S102、基于二体轨道动力学，忽略摄动因素，考虑虚拟主航天器在椭圆轨道上运行的情况，建立T-H方程来描述航天器的相对运动；

考虑在太空中，己方航天器与非合作目标的博弈场景，非合作目标的机动能力、控制策略均未知。根据目标的运动信息预测其意图，制定博弈策略，即选择采用一追一还是多追一的方式。基于博弈论知识对双方的博弈过程进行建模：

己方航天器和目标航天器共同构成博弈参与者，博弈状态包括参与者的位置和速度：策略集合：/>在双方博弈过程中，追捕者需要学习最优策略来追捕和捕获逃跑者，而逃跑者也需要不断学习最优策略来躲避和远离追捕者。双方的博弈构成了零和微分博弈问题。但需要追赶者之间协调合作才能完成一定的博弈目的，每个追赶者相当于一个合作博弈问题。通过对博弈模型的建模，用数学模型来表达双方的博弈策略。双方博弈策略的数学模型如下：

在空间航天器集群博弈过程中，忽略摄动因素，航天器满足二体轨道动力学。在轨道坐标系中，假设己方航天器绕着一个虚拟参考航天器运行。虚拟参考航天器的轨道为椭圆轨道，虚拟参考航天器与非合作目标的相对距离远小于参考航天器的轨道半径。由于航天器在相对轨道坐标系中运动，动力学模型忽略了高阶小量。那么航天器的相对运动可以用T-H方程来描述：

其中，为位置的归一化坐标，自变量为真近点角f，/>和/>分别是u对自变量f的二阶、一阶导数，/>和/>分别是v对自变量f的二阶、一阶导数，/>是w对自变量f的二阶导数，R_ref为参考航天器的地心矢径，e为参考主航天器的轨道偏心率，a_u,a_v,a_w为航天器施加的主动控制加速度。

接下来对航天器的推力加速度进行限制：

||a_i||≤a_{i_max}

式中：a_i为第颗航天器的推力加速度；a_{i_max}为第i颗航天器的推力加速度幅值。基于实际情况而言，一般追捕航天器的推力加速度幅值是一样的，当逃逸航天器数量少于追捕航天器时，考虑到博弈平衡，其推力加速度幅值应大于追捕航天器的。

考虑到航天器的避免碰撞的约束和最大可通信范围，因此需要限制航天器的机动范围：

r_{i_min}≤r_i≤r_{i_max}

其中，r_{i_min}是机动范围最小值，r_i是航天器的位置，r_{i_max}是机动范围最大值。

首先，对航天器追捕成功进行定义，同时考虑航天器位置与速度约束，则有如下追捕成功的判定条件：

对于航天器集群的协同追捕博弈策略训练，全局奖励考虑航天器集群的任务目标，即追求最快让航天器集群中某一颗航天器完成追捕捕获任务；局部奖励中完成对子航天器的避碰控制和任务目标控制。这样的全局奖励函数和局部奖励i函数相结合的方式，会很快引导航天器的决策网络更新到较优参数。

全局奖励用于引导追捕航天器整体向着靠近目标的方向运动，具体表达式如下：

其中，m为全局奖励系数，min是求最小值函数，u_pi为己方航天器在X方向的归一化坐标，v_pi为己方航天器在Y方向的归一化坐标，w_pi为己方航天器在Z方向的归一化坐标，u_e为目标航天器在X方向的归一化坐标，v_e为目标航天器在Y方向的归一化坐标，w_e为目标航天器在Z方向的归一化坐标，N表示己方航天器的数量。

基于S201中定义的捕获条件，设计己方航天器的局部奖励函数，己方航天器的目标是在避免碰撞和成功追捕的条件下，优化消耗的燃料和博弈的时间。目标航天器根据零和博弈特点，目标函数与己方航天器相反，故在此重点分析己方航天器的奖励函数设置。在环境交互训练中，将奖励函数划分为以下几部分：

R_p3＝a×ln(t+1)

其中，a是惩罚系数，t是时间。

R_p4＝-||Δv||₂

其中，Δv为速度增量。

综上，己方航天器的奖励设计为：

Reward_p＝β₁·R_p1+β₂·R_p2+β₃·R_p3+β₄·R_p4+β₅·R_p5

S3、将元学习算法与深度强化学习算法相结合，设计一种对不同空间任务具有强适应性的智能决策算法：

S302、根据航天器集群智能决策算法设计训练流程。

元强化学习与深度强化学习相结合是指，在深度强化学习的基础上，通过设计的参数更新规则训练出元基本参数，从而提高算法对不同空间任务的适应性。将一个复杂的任务分解为由多个基本元任务构成的基本元任务集合T＝{T₁,T₂,…,T_j}，其中T_j为第j个基本元任务，每个元任务都对应一个经验回放池，依次对T_j进行训练得到能够适应每个子任务的策略，最终获得学习整体任务的元初始参数。

算法考虑有N个智能体(分别对应N个航天器)，每个智能体对应有自己的策略网络，策略网络的输出就是对应智能体的采取的动作。算法采用“集中式训练-分布式执行”的框架，在进行集中训练时，各个智能体利用观测信息通过决策网络后进行策略输出对应的动作a(π_i)，同时每个智能体利用一个能够接收全局信息(包含对手的状态和动作信息)的评价网络，对智能体决策网络的输出进行评估，得到每一个智能体输出动作对应的值函数Q_i。智能体的决策网络接收该评价信号，进行自身策略π_i的调整和优化。通过这种间接更新的方式，每一个智能体的Actor网络虽然接收局部观测信息输出动作，但是在全局的评价网络评价校正下，每一个智能体的策略都是将其他智能体考虑在内的全局最优策略。因此，在训练完毕最后执行的时候，智能体仅通过局部观测信息，而不需要其他智能体的策略就能够输出考虑到全局的策略动作，以此达到了分散执行时整体最优的效果。这种方式在通信条件受限的航天器集群博弈任务中，有着重要作用，算法架构图如图2所示。

初始化智能体状态和网络参数，智能体通过与环境的交互更新状态，按照多智能体强化学***均回报稳定在一定范围内不再上升时，停止训练，保存模型，训练流程图如图3所示。

S4、根据步骤S2和步骤S3中设计的航天器集群智能决策算法进行训练，并对训练好的决策网络进行测试。

具体的，通过追逃博弈智能控制策略网络的训练得到追逃双方航天器的各自的策略网络Actor，设定几组航天器初始位置与速度信息作为测试的起始状态，进行测试，航天器通过自身携带的感知设备获取对环境的观测信息作为策略网络Actor的输入，输出为航天器所要采取的控制策略，最后通过燃料、时间、是否成功完成等指标来评价算法的测试效果。

本发明实施例提出的一种基于深度强化学习的航天器集群博弈智能决策方法，通过将元强化学习与深度强化学习相结合的方式，实现了航天器集群博弈问题中的集群智能决策。所提出的方法可以在非合作目标部分信息未知、策略不明，航天器燃料受限、推力受限的情形下，实现对目标的精确接近与抓捕，且具有强适应性和良好的收敛性。经训练，在不同任务情形下，航天器集群能有效利用己方数量优势，生成不同的智能策略与行为。

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度强化学习的航天器集群博弈智能决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的航天器集群博弈智能决策方法，其特征在于，所述步骤S1包括以下内容：

基于博弈论知识，结合空间任务场景对博弈要素进行定义，引入纳什均衡解来描述博弈双方的最佳博弈策略，基于二体轨道动力学，忽略摄动因素，考虑虚拟主航天器在椭圆轨道上运行的情况，建立T-H方程来描述航天器的相对运动。

3.根据权利要求1所述的一种基于深度强化学习的航天器集群博弈智能决策方法，其特征在于，所述步骤S2包括以下步骤：

S203、结合子航天器的任务目标，针对每个智能体的评论家网络设计局部奖励设计。

4.根据权利要求3所述的基于深度强化学习的多航天器智能决策方法，其特征在于，所述步骤S201中判定条件为：

其中，min是求最小值函数，R_pi是己方航天器的位置，R_e是目标航天器的位置，R_d是据不同任务定义的距离阈值，V_pi是己方航天器的速度，V_e是目标航天器的速度，R_d是据不同任务定义的速度阈值，N表示己方航天器的数量。

5.根据权利要求3所述的基于深度强化学习的多航天器智能决策方法，其特征在于，所述步骤S202中全局奖励设计为：

6.根据权利要求1所述的一种基于深度强化学习的航天器集群博弈智能决策方法，其特征在于，所述步骤S3包括以下步骤：

S302、根据航天器集群智能决策算法设计训练流程。

7.根据权利要求1所述的一种基于深度强化学习的航天器集群博弈智能决策方法，其特征在于，所述步骤S4具体内容为：将训练好的网络放到航天器集群博弈任务中去，选定几种具有代表性的初始条件作为网络输入，测试网络对于不同情况的普适性和有效性。