CN111596677B

CN111596677B - 一种基于在线学习的航天器临近操作自主控制方法及***

Info

Publication number: CN111596677B
Application number: CN202010375578.0A
Authority: CN
Inventors: 胡庆雷; 杨昊旸; 郑建英; 郭雷
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2021-11-30
Anticipated expiration: 2040-05-07
Also published as: CN111596677A

Abstract

本发明涉及一种基于在线学习的航天器临近操作自主控制方法及***，针对航天器在近临近操作任务中所存在的视线场约束、接近走廊约束以及控制性能实时在线优化等实际工程问题，提出一种基于在线学习的临近操作自主控制技术的方法；本发明包括以下步骤：首先，基于对偶四元数建立航天器的位姿一体化动力学模型，并利用对偶四元数将位姿运动约束刻画为不等式形式；其次，面向航天器临近操作自主控制的任务需求，基于对偶四元数的性质设计在线学习控制的回报函数。最后，在对偶四元数的框架下，设计在线学习方法，使得控制器能从一个简单的控制策略，利用在线数据逐步提升为一个次优控制器，以提升航天器的任务执行能力。

Description

一种基于在线学习的航天器临近操作自主控制方法及***

技术领域

本发明涉及一种基于在线学习的航天器临近操作自主控制方法及***，主要应用于航天器交会对接、在轨补给维护、协同配合等任务，属于航天器控制技术领域。

背景技术

随着航天技术的高速发展，航天器在轨任务的多样性和复杂性日益提高，任务载体逐渐由单集成大航天器***向多航天器***扩展，任务类型也由传统的观测、通讯等基本任务，衍生出了以航天器临近操作问题为代表的新兴在轨任务。航天器临近操作控制技术衍生于交会对接、在轨维护补给等在内的重要任务场景。由于飞行安全、载荷特性和任务需求等因素，在轨航天器经常需要满足各类运动约束。一方面，由于任务中的目标航天器有的具有一些外张型载荷，出于安全考虑，追踪星的运动轨迹一般会被限制在一个以对接口为轴心的锥形区域内，这一运动约束常被称为接近走廊约束。另一方面，为完成交会对接任务，追踪星需要具备实时测量其与目标星间的相对运动状态的能力。但是，由于这类光学载荷通常只具有有限的视场范围，追踪航天器的姿态需要被有效控制以使得目标星一直处于这个有限视场内，称之为视场约束。另外，考虑到航天器携带燃料有限，任务的时效性等因素，航天器的运动控制具有时效和经济的综合最优效应也是未来航天器控制***设计中的一个非常关键因素。所以研究在位姿约束条件下的航天器的控制性能优化问题就显得尤为重要。

在国内外的相关研究中，解决此类任务相关的问题主要立足于两个方面，一方面是基于人工势能函数的运动控制，另一方面是基于求解最优问题的进行路径的运动轨迹设计。前者虽然能很好的解决在运动过程中的轨迹规避问题，但是其缺乏优化性能指标的功能。后者虽然能兼顾约束规避和控制性能的优化，然而求解优化问题需要的时效都不能满足航天任务的需求。因此，现有的航天器临近操作自主控制方法存在难以保证同时保证运动约束性能优化以及计算时效的情况。

发明内容

本发明的目的在于解决航天器临近操作自主控制任务中由于光学载荷以及航天器本体结构造成的六自由度运动约束问题，本发明提供一种基于在线学习的航天器临近操作自主控制方法及设备，通过设计与任务功能相关的回报函数，并利用在线数据设计控制器的实时学习律，解决了航天器临近操作任务中的六自由度运动约束问题，在保证满足运动约束的条件下，通过实时学习自主改进优化控制器的性能，提升了控制***的航天器控制***的任务执行能力。

本发明提供一种基于在线学习的航天器临近操作自主控制方法，(1)根据航天器临近操作任务的位姿动力学特性基于对偶四元数建立动力学模型，并在对偶四元数的框架下刻画临近操作任务中的位姿运动学约束；

(2)根据航天器临近操作任务的需求设计相应的在线学习中的回报函数；

(3)根据(1)的动力学模型和(2)中的回报函数基于对偶四元数框架设计利用在线数据设计学习控制方法。

具体实现步骤如下：

第一步建立航天器临近操作任务的位姿动力学模型如下：

其中，

表示被控航天器与目标航天器的相对位姿，

为其相对时间的导数，

为对偶四元数的集合，

为对偶四元数乘法，被控航天器与目标航天器的相对对偶角速度、被控航天器相对于惯性参考系的对偶角速度以及目标航天器相对于惯性参考系的对偶角速度分别表述为

和

为

相对时间的导数，

表示由力f^b和力矩τ^b组成的对偶控制输入，

表示对偶惯量矩阵由转动惯量J_b和质量组成m_b，I₃为三阶单位矩阵，ε为对偶单元其满足性质ε≠0，ε²＝0。上式中

基于对偶四元数的性质刻画接近走廊约束和视线场约束。由于任务中的目标航天器有时具有较大的空间规模和一些外张型载荷，故出于安全考虑，追踪星的运动轨迹通常被限制在一个以对接口为轴心的圆锥包络内。可以通过对偶四元数的形式刻画为：

式中，

c_path表示目标航天器对接口方向的单位方向向量，

表示关于c_path的叉乘矩阵，θ表示约束轴心包络圆锥的半锥角，o表示对偶数的内积运算。另外，由于任务中的被控航天器上搭载由测量相对位姿的导航载荷，其姿态需要被有效控制以使得目标航天器一直处于这个圆锥视场内，这类约束可被称为视线场约束，具体可以通过对偶数四元数的形式刻画为：

式中，

c_sight表示被控航天器载荷方向的单位方向向量，

表示关于c_sight的叉乘矩阵，α表示约束载荷视线场约束圆锥的半锥角。

第二步，设计航天器临近操作任务的回报函数。在航天器临近操作任务中，控制的最终目标是使得被控航天器到达期望的位置和姿态，所以期望状态回报函数可以设计为：

其中，

表示单位对偶四元数，

Q_q和Q_ω分别表示位姿和速度的权重矩阵。在航天器临近操作任务中的约束即为被控航天器不期望达到的位置和姿态。在此，位置约束回报函数设计为：

式中，c₁为第一步中的接近走廊约束不等式左侧部分，β₁为位置约束权重因子。类似的，姿态约束回报函数设计为：

式中，c₂为第一步中的视线场约束不等式左侧部分，β₂为姿态约束权重因子。综上所述，总的回报函数设计为：

γ＝γ_state+γ_path+γ_sight

基于上式所设计的回报函数，可以对航天器的自主控制的结果给与相应的回报，以满足航天器临近操作任务的需求。

第三步，设计基于在线学习的航天器临近操作自主控制方法，在线学习控制策略设计如下：

(1)所设计的控制器为：

其中，

航天器的运动状态可以集成表示为

表示基底函数，w_est表示对应的估计权重向量，

表示关于对偶向量

的偏导数运算。

(2)控制器中权重向量的学习律为：

其中，μ₁和μ₂为大于零系数，t_k1和t_k2为采样时间节点，

为贝尔曼误差，

为最佳权重向量w与估计权重向量之差，

辅助变量用于在线数据的采集，具体设计为：

Ψ(t,t_k2,t_k1)＝ψ₁(t_k2,t_k1)w_est+ψ₂(t_k2t_k1)

其中，学习辅助变量ψ₁(t,t_k1),ψ₂(t,t_k1)分别设计为，

式中，k>0为调节参数，t_k1和t_k2为学习时间节点，其关系应满足

利用以上步骤可以实现约束条件下在实时学习的控制器设计，可以保证航天器在临近操作任务中运动轨迹安全的前提下根据在线数据实时提升航天器的控制性能。

本发明还提供一种基于在线学习的航天器临近操作自主控制***，包括评判网络、回报网络、学习器、控制器以及航天器相对位姿动力学模型，使用基于在线学习的航天器临近操作自主控制方法，航天器由控制器执行控制任务，并由评判网络和回报网络采集数据对控制性能进行评估，同时学习器通过评估结果进行网络权重的实时学习，将控制参数更新到控制器中，实现在线性能提升。

本发明是一种基于在线学习的航天器临近操作自主控制方法，与现有技术相比的优点在于：

(1)基于对偶四元数的汇报函数设计，实现了航天器临近操作过程中位置和姿态的运动规避，保证了任务的安全执行。

(2)与基于人工势能函数的方法相比，本方案使用基于在线学习控制的方法不仅能够实现约束区域的规避，还能有效地提升了控制性能，提升了控制***的经济性以及任务执行力。

(3)与基于求解优化问题的方法相比，本方法的实现是在线实时的，通过实时采集数据并更新控制器的权重参数，实现控制器的在线学***台的需求，具有很强的可实现性。

附图说明

图1为基于在线学习的航天器临近操作自主控制***原理框图；

图2为本发明的一种基于在线学习的航天器临近操作自主控制方法流程框图；

具体实施方式

图1为本发明所述的基于在线学习的航天器临近操作自主控制***原理框图，上述***由评判网络、回报网络、学习器、控制器以及航天器相对位姿动力学模型几部分组成。首先，航天器由初始控制器执行控制任务，并由评判网络和回报网络采集数据对控制性能进行评估，同时学习器通过评估结果进行网络权重的实时学习，将控制参数更新到控制器中，以实现在线性能提升。

如图2所示，本发明的一种基于在线学习的航天器临近操作自主控制方法步骤为：首先建立考虑位姿运动约束的航天器临近操作任务的位姿动力学模型；然后针对任务需求，进行回报函数的设计；最后进行控制器的设计以及在线学习律的设计；具体实施步骤如下：

第一步建立航天器临近操作任务的位姿动力学模型如下：

其中，

表示被控航天器与目标航天器的相对位姿，

为其相对时间的导数，

为对偶四元数的集合，

为对偶四元数乘法，对偶惯量矩阵设为

被控航天器与目标航天器的相对对偶角速度、被控航天器相对于惯性参考系的对偶角速度以及目标航天器相对于惯性参考系的对偶角速度分别表述为

和

为

相对时间的导数，

表示由力f^b和力矩τ^b组成的对偶控制输入m_b，I₃为三阶单位矩阵，ε为对偶单元其满足性质ε≠0，ε²＝0，上式中

被控航天器和目标航天器的对偶角速度的初值分别为

相对位姿的初值选为

式中，

c_path表示目标航天器对接口方向的单位方向向量，设置值为[1 0 0]^T，

表示关于c_path的叉乘矩阵，θ表示约束轴心包络圆锥的半锥角，设置值为30deg，o表示对偶数的内积运算。另外，由于任务中的被控航天器上搭载由测量相对位姿的导航载荷，其姿态需要被有效控制以使得目标航天器一直处于这个圆锥视场内，这类约束可被称为视线场约束，具体可以通过对偶数四元数的形式刻画为：

式中，

c_sight表示被控航天器载荷方向的单位方向向量，设置值为[-1 0 0]^T，

表示关于c_sight的叉乘矩阵，α表示约束载荷视线场约束圆锥的半锥角，设置值为30deg。

其中，

表示单位对偶四元数，

Q_q和Q_ω分别表示位姿和速度的权重矩阵，设置值分别为Q_q＝0.1I₄和Q_ω＝2I₄。在航天器临近操作任务中的约束即为被控航天器不期望达到的位置和姿态。在此，位置约束回报函数设计为：

式中，c₁为第一步中的接近走廊约束不等式左侧部分，β₁为位置约束权重因子，设置值为10。类似的，姿态约束回报函数设计为：

式中，c₂为第一步中的视线场约束不等式左侧部分，β₂为姿态约束权重因子，设置值为10。综上所述，总的回报函数可以设计为：

γ＝γ_state+γ_path+γ_sight

(1)所设计的控制器为：

其中，

航天器的运动状态可以集成表示为

表示基底函数，设计为

w_est表示对应的估计权重向量初始值选为w_est(0)＝[0.2,0.2,0.2,5,5,5]^T，

表示关于对偶向量

的偏导数运算。

(2)控制器中权重向量的学习律为：

其中，μ₁和μ₂为大于零系数，t_k1＝0和t_k2＝2为采样时间节点，

为贝尔曼误差，

为最佳权重向量w与估计权重向量之差，

辅助变量用于在线数据的采集，具体设计为：

Ψ(t,t_k2,t_k1)＝ψ₁(t_k2,t_k1)w_est+ψ₂(t_k2t_k1)

其中，学习辅助变量ψ₁(t,t_k1),ψ₂(t,t_k1)分别设计为，

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于在线学习的航天器临近操作自主控制方法，其特征在于，包括以下步骤：

(1)根据航天器临近操作任务的位姿动力学特性基于对偶四元数建立动力学模型，并在对偶四元数的框架下刻画临近操作任务中的位姿运动学约束；

(3)根据步骤(1)的动力学模型和步骤(2)中的回报函数基于对偶四元数框架设计利用在线数据设计学习控制方法；

建立步骤(1)中航天器临近操作任务的位姿动力学模型为：

其中，

表示被控航天器与目标航天器的相对位姿，

为

相对时间的导数，

为对偶四元数的集合，

和

为

相对时间的导数，

表示由力f^b和力矩τ^b组成的对偶控制输入，

表示对偶惯量矩阵由转动惯量J_b和质量m_b组成，I₃为三阶单位矩阵，ε为对偶单元其满足性质ε≠0，ε²＝0，上式中

步骤(1)中所述的临近操作任务中的位姿运动学约束具体包括接近走廊约束和视线场约束；

所述接近走廊约束是指由于任务中的目标航天器有时具有较大的空间规模和一些外张型载荷，出于安全考虑，被控航天器的运动轨迹通常被限制在一个以对接口为轴心的圆锥包络内，通过对偶四元数的形式刻画为：

式中，

c_path表示目标航天器对接口方向的单位方向向量，

表示关于c_path的叉乘矩阵，θ表示约束轴心包络圆锥的半锥角，

表示对偶数的内积运算；

所述视线场约束是指任务中的被控航天器上搭载有测量相对位姿的导航载荷，被控航天器姿态需要被有效控制以使得目标航天器一直处于这个圆锥视场内，其姿态通过对偶数四元数的形式刻画为：

式中，

c_sight表示被控航天器载荷方向的单位方向向量，

表示关于c_sight的叉乘矩阵，α表示约束载荷视线场约束圆锥的半锥角；

所述步骤(2)中，航天器临近操作任务的回报函数具体设计为期望状态回报函数、姿态约束回报函数以及位置约束回报函数三个部分；回报函数设计的基本思想是：对期望运动状态给予高回报，对不期望的运动状态给予低回报，在航天器临近操作任务中，控制的最终目标是使得被控航天器到达期望的位置和姿态；所述期望状态回报函数为：

其中，

表示单位对偶四元数，

Q_q和Q_ω分别表示位姿和速度的权重矩阵；

所述位置约束回报函数为：

式中，c₁为接近走廊约束不等式左侧部分，β₁为位置约束权重因子；

所述姿态约束回报函数为：

式中，c₂为视线场约束不等式左侧部分，β₂为姿态约束权重因子；

总的回报函数为：

γ＝γ_state+γ_path+γ_sight

基于上式的回报函数，可以对航天器的自主控制的结果给与相应的回报，以满足航天器临近操作任务的需求；

所述步骤(3)中，在线学习控制策略如下：

(1)所设计的控制器为：

其中，

航天器的运动状态可以集成表示为

表示基底函数，w_est表示对应的估计权重向量，

表示关于对偶向量

的偏导数运算；

(2)控制器中权重向量的学习律为：

其中，μ₁和μ₂为大于零系数，t_k1和t_k2为采样时间节点，

为贝尔曼误差，

为最佳权重向量w与估计权重向量之差，

辅助变量用于在线数据的采集，设计为：

Ψ(t,t_k2,t_k1)＝ψ₁(t,t_k1)w_est+ψ₂(t,t_k1)

其中，学习辅助变量ψ₁(t,t_k1),ψ₂(t,t_k1)分别设计为，

式中，k＞0为调节参数，t_k1和t_k2为学习时间节点，其关系应满足

2.一种基于在线学习的航天器临近操作自主控制***，其特征在于：包括评判网络、回报网络、学习器、控制器以及航天器相对位姿动力学模型，使用权利要求1所述的方法，航天器由控制器执行控制任务，并由评判网络和回报网络采集数据对控制性能进行评估，同时学习器通过评估结果进行网络权重的实时学习，将控制参数更新到控制器中，实现在线性能提升。