CN111637895B - 一种基于q学习的导航观测目标选取方法 - Google Patents

一种基于q学习的导航观测目标选取方法 Download PDF

Info

Publication number
CN111637895B
CN111637895B CN202010393983.5A CN202010393983A CN111637895B CN 111637895 B CN111637895 B CN 111637895B CN 202010393983 A CN202010393983 A CN 202010393983A CN 111637895 B CN111637895 B CN 111637895B
Authority
CN
China
Prior art keywords
navigation
target
state
space
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010393983.5A
Other languages
English (en)
Other versions
CN111637895A (zh
Inventor
熊凯
郭建新
石恒
魏春岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN202010393983.5A priority Critical patent/CN111637895B/zh
Publication of CN111637895A publication Critical patent/CN111637895A/zh
Application granted granted Critical
Publication of CN111637895B publication Critical patent/CN111637895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/24Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for cosmonautical navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/02Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by astronomical means

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)

Abstract

本发明一种基于Q学习的导航观测目标选取方法。首先,面向不同观测区域设置Q学习的状态空间,基于导航滤波器的测量新息计算Q函数,根据Q函数选择敏感器的观测区域;进而,针对各个备选空间目标,利用测量新息的统计值建立目标评价函数,根据目标评价函数,在观测区域中选择用于导航的空间目标;随着学习过程的进行,敏感器将自适应地选择有助于改善滤波估计精度的目标进行观测。本项专利的主要技术内容可用于空间目标视线方向测量自主导航***中,能够在部分空间目标先验信息不准确的情况下实现观测目标的优化选取,保障航天器自主导航精度,有助于提升导航***应对测量模型不确定性的能力,改善空间***对环境变化的适应性。

Description

一种基于Q学习的导航观测目标选取方法
技术领域
本发明属于航天器自主导航技术领域。
背景技术
在基于视线(LOS)方向测量的航天器自主导航***中,以安装在航天器上的星相机作为导航敏感器,获取已知空间目标的单位视线矢量信息,进而,结合轨道动力学模型,通过扩展卡尔曼滤波(EKF)处理LOS方向观测量,估计航天器的绝对位置和速度矢量。
导航观测目标选取是基于视线方向测量的航天器自主导航中的重要环节。航天器上的星相机通过对空间目标和背景恒星的照相观测,获取惯性系中空间目标的视线方向观测量。受到星相机视场大小的限制(如1°×1°),在同一时刻往往仅能观测一个空间目标。实际应用过程中,可将星相机安装在指向机构上,使得星相机可以在不同时刻指向不同空间目标进行观测。
观测目标选取方法对导航***的性能具有重要影响。选择适当的空间目标进行观测,有助于改善航天器的定位估计精度。在以往研究中,对于自主导航***中观测目标的选取,典型方法包括基于CRB(Cramer-Rao bound)的方法和基于FIM(Fisher informationmatrix)的方法等。上述方法的共性问题在于,CRLB或FIM的计算仅依赖于事先建立的导航***模型,要求有关候选空间目标位置的先验知识是准确的;在个别空间目标先验知识不准确的情况下,选择上述目标相当于在***中引入了测量模型不确定性,将造成EKF滤波器性能下降,进而影响到最终的自主导航精度。
本发明针对上述问题,提出一种基于Q学习的导航观测目标选取方法。Q学习是强化学习的重要实现方式之一,基本思路为:智能体通过与未知环境的反复交互,搜索最佳的动作选择策略,使得通过环境反馈得到的累积奖赏最大化。该方法适用于先验知识不完备情况下导航观测目标的选取。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供一种基于Q学习的导航观测目标选取方法,解决了空间目标先验知识不准确导致的测量模型不确定性影响导航***性能的问题,能够自适应地完成观测目标优化选取,改善导航滤波器的性能。
本发明的技术方案是:一种基于Q学习的导航观测目标选取方法,步骤如下:
(1)对基于扩展卡尔曼滤波的导航滤波器进行初始化,为滤波器分配初始滤波估计值,设置测量信息统计值的初始值;
(2)基于不同的观测区域,设置Q学习中的状态空间S和用于描述状态转移的动作空间A;
(3)对于状态空间S和动作空间A中的各个元素,设置Q函数的初始值,随机选择状态s∈S,作为状态的初始值;
(4)针对各个候选空间目标,设置目标评价函数Ui(m)的初始值;
(5)根据Q函数选择动作a∈A,相应地,状态由s转移到s′,状态s和s′对应不同的观测区域;
(6)根据步骤(5)选择的观测区域,基于目标评价函数选择观测目标;
(7)通过星相机对根据步骤(6)选择的目标进行观测,通过导航滤波器处理空间目标视线方向观测量,得到导航滤波器的滤波估计值和测量新息;
(8)根据步骤(7)得到的导航滤波器的测量新息计算奖赏;
(9)根据步骤(8)得到的奖赏,利用时序差分方法更新Q函数;
(10)根据步骤(8)得到的奖赏更新目标评价函数,对状态进行重置;
(11)将步骤(5)到步骤(10)进行重复迭代,获得最佳观测目标序列,从而完成基于Q学习的导航观测目标选取。
所述步骤(1)中,对基于EKF的导航滤波器进行初始化的方法为:将导航滤波器的初始滤波估计值设置为
Figure BDA0002486974380000032
所述
Figure BDA0002486974380000033
根据有关航天器轨道运动的先验知识获得;
所述设置测量信息统计值初始值的方法为Py←0
其中,Py表示测量信息统计值。
所述步骤(2)中,对Q学习中的状态空间S和动作空间A进行设置的方法为:状态空间S为多个状态的集合,动作空间A为多个动作的集合;将可见天区划分为不同的观测区域,状态空间S中的各个状态对应可见天区中的特定观测区域,动作空间A中的各个动作表示从当前状态转移到相邻状态,或停留在当前状态。
所述步骤(3)中,设置Q函数初始值的方法为:对于任何状态s∈S和动作a∈A,设置
Q0(s,a)←0
其中,Q0(s,a)表示对于状态s和动作a,Q函数的初始值。
所述步骤(4)中,设置目标评价函数的方法为:对于m=1,2,…,M,设置
U0(m)←0
其中,M为候选空间目标总数,U0(m)表示对于第m个空间目标,目标评价函数的初始值。
所述步骤(5)中,根据Q函数选择动作的方法为:
a=arg maxaQk(s,a)
其中,Qk(s,a)表示k时刻的Q函数,上式表示选择使Q函数最大的动作。
所述步骤(6)中,根据目标评价函数选择观测目标的方法为:
Figure BDA0002486974380000031
其中,Uk(m)表示k时刻的目标评价函数,Ωs′表示对应状态s'的观测区域,上式表示在观测区域中选择使目标评价函数最大的空间目标进行观测。
所述步骤(7)中,通过导航滤波器处理空间目标视线方向观测量的方法为:
Figure BDA0002486974380000041
Figure BDA0002486974380000042
Figure BDA0002486974380000043
其中,
Figure BDA0002486974380000044
表示k时刻的滤波预测值,根据前一时刻的滤波估计值
Figure BDA0002486974380000045
预测得到,
Figure BDA0002486974380000046
为状态转移函数,
Figure BDA0002486974380000047
为测量新息,ym,k为第m个空间目标的视线方向观测量,可通过航天器上配置的星相机观测得到,
Figure BDA0002486974380000048
为对应观测目标m的测量函数,
Figure BDA0002486974380000049
Figure BDA00024869743800000410
可根据事先建立的导航***模型得到,
Figure BDA00024869743800000411
表示k时刻的滤波估计值,Kk表示滤波增益阵,可根据事先建立的导航***模型和前一时刻的滤波估计值计算得到。
所述步骤(8)中,根据导航滤波器的测量新息计算奖赏的方法为:
Figure BDA00024869743800000412
Figure BDA00024869743800000413
其中,R(s,a)表示对于状态s和动作a的奖赏。
所述步骤(9)中,利用时序差分方法更新Q函数的方法为:
Qk+1(s,a)←(1-α)Qk(s,a)+α[R(s,a)+γmaxa′Qk(s′,a′)]
其中,Qk(s,a)表示k时刻的Q函数,0≤α<1为事先设定的学习速率,0<γ≤1为事先设定的折扣因子,符号maxa′Qk(s′,a′)表示对于给定的状态s′,Q函数的最大值。
所述步骤(10)中,根据奖赏更新目标评价函数的方法为:
Uk+1(m)←(1-α)Uk(m)+αR(s,a)
其中,Uk(m)表示k时刻第m个目标的目标评价函数;对状态进行重置的方法为:
s←s′。
本发明与现有技术相比的优点在于:
(1)在有关空间目标位置的先验知识不准确的情况下,基于传统CRLB或FIM选择得到的观测目标会引入测量模型不确定性,从而导致导航滤波算法性能下降。针对上述问题,充分发挥Q学习方法在未知环境探索和复杂问题决策方面的优势,提出一种基于Q学习的导航观测目标选取方法。
(2)面向不同观测区域设置Q学习的状态空间,基于导航滤波器的测量新息建立Q函数,根据Q函数选择星相机的观测区域;进而,针对各个候选空间目标,利用测量新息的统计值建立目标评价函数,根据目标评价函数在观测区域中选择最佳目标进行观测。随着学习过程的进行,通过迭代计算,***将选择品质较高(受模型不确定性影响较小,有助于改善滤波估计精度)的目标进行观测。
(3)所述方法能够充分利用导航滤波器测量新息数据中包含的反映各个候选空间目标优劣的征兆信息,在空间目标先验知识不完备的情况下,自适应地完成观测目标的优化选取,保障基于视线方向测量的航天器自主导航精度。
附图说明
图1为星相机对空间目标进行照相观测的示意图;
图2为本发明流程图;
图3为Q学习中的状态空间划分示意图;
图4为实施例中航天器与候选空间目标示意图;
图5为本发明所述方法与随机观测目标选取、基于CRB的观测目标选取方法的仿真精度对比曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行进一步的详细描述。
本项专利的主要技术内容是给出了一种基于Q学习的导航观测目标选取方法。星相机通过对空间目标和背景恒星的照相观测,获取惯性系中空间目标的视线方向观测量的方法如图1所示。在有关空间目标位置的先验知识存在不确定性的情况下,将Q学习方法用于导航观测目标的优化选取,通过与应用环境的交互获得奖赏,基于奖赏对Q函数和目标评价函数进行迭代更新,根据Q函数和目标评价函数,自适应地选取星相机在各个观测时段的观测目标。该方法有助于提升导航***克服测量模型不确定性影响的能力,从而改善导航滤波器的性能。
如图2所示,本发明所述方法步骤如下。
(1)对基于扩展卡尔曼滤波(EKF)的导航滤波器进行初始化,为滤波器分配初始滤波估计值,设置测量新息统计值的初始值;对基于EKF的导航滤波器进行初始化的方法为:将导航滤波器的初始滤波估计值设置为
Figure BDA0002486974380000061
可根据有关航天器轨道运动的先验知识获得。设置测量新息统计值初始值的方法为
Py←0
其中,Py表示测量新息统计值。
(2)基于不同的观测区域,设置Q学习中的状态空间S和用于描述状态转移的动作空间A;对Q学习中的状态空间S和动作空间A进行设置的方法为:状态空间S为多个状态的集合,动作空间A为多个动作的集合;将可见天区划分为不同的观测区域,状态空间S中的各个状态对应可见天区中的特定观测区域,动作空间A中的各个动作表示从当前状态转移到相邻状态,或停留在当前状态。
(3)对于状态空间S和动作空间A中的各个元素,设置Q函数的初始值,随机选择状态s∈S,作为状态的初始值;所述步骤(3)中,设置Q函数初始值的方法为:对于任何状态s∈S和动作a∈A,设置
Q0(s,a)←0
其中,Q0(s,a)表示对于状态s和动作a,Q函数的初始值。
(4)针对各个备选空间目标,设置目标评价函数Ui(m)的初始值;设置目标评价函数的方法为:对于m=1,2,…,M,设置
U0(m)←0
其中,M为候选空间目标总数,U0(m)表示对于第m个空间目标,目标评价函数的初始值。
(5)根据Q函数选择动作a∈A,相应地,状态由s转移到s′,对应特定的观测区域;根据Q函数选择动作的方法为:
a=arg maxaQk(s,a)
其中,Qk(s,a)表示k时刻的Q函数,上式表示选择使Q函数最大的动作。
(6)根据步骤(5)选择的观测区域,根据目标评价函数选择观测目标;根据目标评价函数选择观测目标的方法为:
Figure BDA0002486974380000071
其中,Uk(m)表示k时刻的目标评价函数,Ωs′表示对应状态s'的观测区域,上式表示在观测区域中选择使目标评价函数最大的空间目标进行观测。
(7)通过星相机对根据步骤(6)选择的目标进行观测,通过导航滤波器处理空间目标视线方向观测量,得到导航滤波器的滤波估计值和测量新息;通过导航滤波器处理空间目标视线方向观测量的方法为:
Figure BDA0002486974380000072
Figure BDA0002486974380000073
Figure BDA0002486974380000074
其中,
Figure BDA0002486974380000075
表示k时刻的滤波预测值,根据前一时刻的滤波估计值
Figure BDA0002486974380000076
预测得到,
Figure BDA0002486974380000077
为状态转移函数,
Figure BDA0002486974380000078
为测量新息,ym,k为第m个空间目标的视线方向观测量,可通过航天器上配置的星相机观测得到,
Figure BDA0002486974380000079
为对应观测目标m的测量函数,
Figure BDA00024869743800000710
Figure BDA00024869743800000711
可根据事先建立的导航***模型得到,
Figure BDA00024869743800000712
表示k时刻的滤波估计值,Kk表示滤波增益阵,可根据事先建立的导航***模型和前一时刻的滤波估计值计算得到。
(8)根据步骤(7)得到的导航滤波器的测量新息计算奖赏;根据导航滤波器的测量新息计算奖赏的方法为:
Figure BDA00024869743800000713
Figure BDA0002486974380000081
其中,R(s,a)表示对于状态s和动作a的奖赏。
(9)根据步骤(8)得到的奖赏,利用时序差分方法更新Q函数;利用时序差分方法更新Q函数的方法为:
Qk+1(s,a)←(1-α)Qk(s,a)+α[R(s,a)+γmaxa′Qk(s′,a′)]
其中,Qk(s,a)表示k时刻的Q函数,0≤α<1为事先设定的学习速率,0<γ≤1为事先设定的折扣因子,符号maxa′Qk(s′,a′)表示对于给定的状态s′,Q函数的最大值。
(10)根据步骤(8)得到的奖赏更新目标评价函数,对状态进行重置;根据奖赏更新目标评价函数的方法为:
Uk+1(m)←(1-α)Uk(m)+αR(s,a)
其中,Uk(m)表示k时刻第m个目标的目标评价函数;对状态进行重置的方法为:
s←s′
(11)将步骤(5)到步骤(10)进行重复迭代,获得最佳观测目标序列,从而完成基于Q学习的导航观测目标选取。
本发明给出如下实施例:
以在地球轨道上飞行的航天器为例,通过仿真实例验证本发明所述方法的有效性。基于视线方向测量的航天器自主导航***示意图如图3所示,图中Observer表示实施自主导航的航天器,BD1-BD24表示候选空间目标。假定航天器在半长轴7471km,轨道倾角63.4°的近圆轨道上运行,通过安装在航天器上的星相机对北斗(BD)导航卫星进行LOS方向测量,候选空间目标均匀分布在3个轨道面上,总数M=24。假设用于星间LOS方向测量的星相机测量精度为0.5",数据更新率为0.1Hz,仿真时间约为航天器的6个轨道周期。为了在仿真中体现空间目标先验知识不准确导致的测量模型不确定性影响,假设特定空间目标的定位误差为1km。
在Q学习方法中,用于表述不同观测区域的状态空间示意图如图4所示,图中各个网格表示状态空间中的各个状态,本实施例中状态空间由7个状态构成,分别对应特定的观测区域;网格之间的箭头表示状态转移的方向,即动作空间中的各个动作。学习过程中,选择学习速率α=0.1,折扣因子γ=0.9。
相对于传统导航观测目标选取方法,本发明所述方法的主要优势体现在:对空间目标先验知识不准确导致的测量模型不确定性不敏感。针对基于视线方向测量的航天器自主导航***开展仿真研究,在考虑特定候选观测目标先验位置信息不准确的情况下,通过统计导航滤波器的位置估计误差均方根来评估观测目标选取方法的性能。
本发明所述方法、随机观测目标选取,以及基于CRB的观测目标选取方法的仿真精度对比曲线如图5所示。图中横坐标表示仿真时间,单位为航天器的一个轨道周期,纵坐标表示航天器的三轴位置估计误差均方根,单位为m。图中符号random、CRB和Q-learning分别表示通过随机观测目标选取、基于CRB的观测目标选取,以及基于Q学习的导航观测目标选取得到的导航***位置估计误差曲线。本实施例仿真结果表明,将本发明所述方法用于航天器自主导航,实现的导航精度优于传统观测目标选取方法。
本项专利的主要技术内容可用于空间目标视线方向测量自主导航***方案论证,能够在部分空间目标先验信息不准确的情况下实现星相机观测目标的优化选取,保障自主导航精度,有助于提升导航***应对测量模型不确定性的能力,改善空间***对环境变化的适应性。
本发明未详细说明部分属本领域技术人员公知常识。

Claims (11)

1.一种基于Q学习的导航观测目标选取方法,其特征在于步骤如下:
(1)对基于扩展卡尔曼滤波的导航滤波器进行初始化,为滤波器分配初始滤波估计值,设置测量信息统计值的初始值;
(2)基于不同的观测区域,设置Q学习中的状态空间S和用于描述状态转移的动作空间A;
(3)对于状态空间S和动作空间A中的各个元素,设置Q函数的初始值,随机选择状态s∈S,作为状态的初始值;
(4)针对各个候选空间目标,设置目标评价函数Ui(m)的初始值;
(5)根据Q函数选择动作a∈A,相应地,状态由s转移到s′,状态s和s′对应不同的观测区域;
(6)根据步骤(5)选择的观测区域,基于目标评价函数选择观测目标;
(7)通过星相机对根据步骤(6)选择的目标进行观测,通过导航滤波器处理空间目标视线方向观测量,得到导航滤波器的滤波估计值和测量新息;
(8)根据步骤(7)得到的导航滤波器的测量新息计算奖赏;
(9)根据步骤(8)得到的奖赏,利用时序差分方法更新Q函数;
(10)根据步骤(8)得到的奖赏更新目标评价函数,对状态进行重置;
(11)将步骤(5)到步骤(10)进行重复迭代,获得最佳观测目标序列,从而完成基于Q学习的导航观测目标选取。
2.根据权利要求1所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(1)中,对基于EKF的导航滤波器进行初始化的方法为:将导航滤波器的初始滤波估计值设置为
Figure FDA0003205261740000011
所述
Figure FDA0003205261740000012
根据有关航天器轨道运动的先验知识获得;
所述设置测量信息统计值初始值的方法为
Py←0
其中,Py表示测量信息统计值。
3.根据权利要求2所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(2)中,对Q学习中的状态空间S和动作空间A进行设置的方法为:状态空间S为多个状态的集合,动作空间A为多个动作的集合;将可见天区划分为不同的观测区域,状态空间S中的各个状态对应可见天区中的特定观测区域,动作空间A中的各个动作表示从当前状态转移到相邻状态,或停留在当前状态。
4.根据权利要求3所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(3)中,设置Q函数初始值的方法为:对于任何状态s∈S和动作a∈A,设置
Q0(s,a)←0
其中,Q0(s,a)表示对于状态s和动作a,Q函数的初始值。
5.根据权利要求4所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(4)中,设置目标评价函数的方法为:对于m=1,2,…,M,设置
U0(m)←0
其中,M为候选空间目标总数,U0(m)表示对于第m个空间目标,目标评价函数的初始值。
6.根据权利要求5所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(5)中,根据Q函数选择动作的方法为:
a=arg maxaQk(s,a)
其中,Qk(s,a)表示k时刻的Q函数,上式表示选择使Q函数最大的动作。
7.根据权利要求6所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(6)中,根据目标评价函数选择观测目标的方法为:
Figure FDA0003205261740000021
其中,Uk(m)表示k时刻的目标评价函数,Ωs′表示对应状态s'的观测区域,上式表示在观测区域中选择使目标评价函数最大的空间目标进行观测。
8.根据权利要求7所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(7)中,通过导航滤波器处理空间目标视线方向观测量的方法为:
Figure FDA0003205261740000031
Figure FDA0003205261740000032
Figure FDA0003205261740000033
其中,
Figure FDA0003205261740000034
表示k时刻的滤波预测值,根据前一时刻的滤波估计值
Figure FDA0003205261740000035
预测得到,
Figure FDA0003205261740000036
为状态转移函数,
Figure FDA0003205261740000037
为测量新息,ym,k为第m个空间目标的视线方向观测量,通过航天器上配置的星相机观测得到,
Figure FDA0003205261740000038
为对应观测目标m的测量函数,
Figure FDA0003205261740000039
Figure FDA00032052617400000310
根据事先建立的导航***模型得到,
Figure FDA00032052617400000311
表示k时刻的滤波估计值,Kk表示滤波增益阵,根据事先建立的导航***模型和前一时刻的滤波估计值计算得到。
9.根据权利要求8所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(8)中,根据导航滤波器的测量新息计算奖赏的方法为:
Figure FDA00032052617400000312
Figure FDA00032052617400000313
其中,R(s,a)表示对于状态s和动作a的奖赏。
10.根据权利要求9所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(9)中,利用时序差分方法更新Q函数的方法为:
Qk+1(s,a)←(1-α)Qk(s,a)+α[R(s,a)+γmaxa′Qk(s′,a′)]
其中,Qk(s,a)表示k时刻的Q函数,0≤α<1为事先设定的学习速率,0<γ≤1为事先设定的折扣因子,符号maxa′Qk(s′,a′)表示对于给定的状态s′,Q函数的最大值。
11.根据权利要求10所述的一种基于Q学习的导航观测目标选取方法,其特征在于:所述步骤(10)中,根据奖赏更新目标评价函数的方法为:
Uk+1(m)←(1-α)Uk(m)+αR(s,a)
其中,Uk(m)表示k时刻第m个目标的目标评价函数;对状态进行重置的方法为:
s←s′。
CN202010393983.5A 2020-05-11 2020-05-11 一种基于q学习的导航观测目标选取方法 Active CN111637895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393983.5A CN111637895B (zh) 2020-05-11 2020-05-11 一种基于q学习的导航观测目标选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393983.5A CN111637895B (zh) 2020-05-11 2020-05-11 一种基于q学习的导航观测目标选取方法

Publications (2)

Publication Number Publication Date
CN111637895A CN111637895A (zh) 2020-09-08
CN111637895B true CN111637895B (zh) 2021-10-01

Family

ID=72327602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393983.5A Active CN111637895B (zh) 2020-05-11 2020-05-11 一种基于q学习的导航观测目标选取方法

Country Status (1)

Country Link
CN (1) CN111637895B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115479605A (zh) * 2022-08-24 2022-12-16 北京控制工程研究所 基于空间目标定向观测的高空长航时无人机自主导航方法
CN115355915B (zh) * 2022-10-19 2023-04-07 中国人民解放军国防科技大学 一种卫星方向矢量导航的观星序列规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110095123A (zh) * 2019-05-31 2019-08-06 北京理工大学 不规则小天体表面路标观测信息评价优化方法
JP2019185785A (ja) * 2018-04-13 2019-10-24 コリア インスティテュート オブ オーシャン サイエンス テクノロジー 機械学習を用いた船舶の損失航跡データ推定システム
CN110727968A (zh) * 2019-09-19 2020-01-24 北京控制工程研究所 一种基于强化学习的导航滤波器参数优化方法
CN110779531A (zh) * 2019-09-16 2020-02-11 北京航空航天大学 一种天基仅测角差分进化一次精确定轨方法
CN111024072A (zh) * 2019-12-27 2020-04-17 浙江大学 一种基于深度学习的卫星地图辅助导航定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185785A (ja) * 2018-04-13 2019-10-24 コリア インスティテュート オブ オーシャン サイエンス テクノロジー 機械学習を用いた船舶の損失航跡データ推定システム
CN110095123A (zh) * 2019-05-31 2019-08-06 北京理工大学 不规则小天体表面路标观测信息评价优化方法
CN110779531A (zh) * 2019-09-16 2020-02-11 北京航空航天大学 一种天基仅测角差分进化一次精确定轨方法
CN110727968A (zh) * 2019-09-19 2020-01-24 北京控制工程研究所 一种基于强化学习的导航滤波器参数优化方法
CN111024072A (zh) * 2019-12-27 2020-04-17 浙江大学 一种基于深度学习的卫星地图辅助导航定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
深空自主光学导航观测小行星选取方法研究;张晓文等;《宇航学报》;20090531;第30卷(第3期);第947-952页 *
火星探测器自主导航方法研究;马鹏斌;《中国优秀博硕士学位论文全文数据库(博士) 工程科技Ⅱ辑》;20200415(第4期);第C031-5页 *

Also Published As

Publication number Publication date
CN111637895A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN101344391B (zh) 基于全功能太阳罗盘的月球车位姿自主确定方法
CN106990426B (zh) 一种导航方法和导航装置
CN108827310B (zh) 一种船用星敏感器辅助陀螺仪在线标定方法
CN111156987B (zh) 基于残差补偿多速率ckf的惯性/天文组合导航方法
Zhang et al. Navigation with IMU/GPS/digital compass with unscented Kalman filter
CN103913181B (zh) 一种基于参数辨识的机载分布式pos传递对准方法
CN111637895B (zh) 一种基于q学习的导航观测目标选取方法
CN106772524B (zh) 一种基于秩滤波的农业机器人组合导航信息融合方法
CN102156478B (zh) 一种基于蚁群Unscented粒子滤波算法的组合定姿方法
CN105136164B (zh) 考虑卫星综合运动的凝视成像仿真及质量评估方法及装置
CN102168981A (zh) 一种深空探测器火星捕获段自主天文导航方法
CN111027204B (zh) 航天发射光、雷、遥与导航卫星测量数据融合处理方法
US20120203519A1 (en) Method for calculating a navigation phase in a navigation system involving terrain correlation
US11465782B2 (en) Systems and methods for autonomous deorbiting of a spacecraft
CN108613674A (zh) 一种基于自适应差分进化bp神经网络的姿态误差抑制方法
CN112161632B (zh) 一种基于相对位置矢量测量的卫星编队初始定位方法
CN114689047B (zh) 基于深度学习的组合导航方法、装置、***及存储介质
Goppert et al. Invariant Kalman filter application to optical flow based visual odometry for UAVs
CN116105730A (zh) 基于合作目标卫星甚短弧观测的仅测角光学组合导航方法
JP4719658B2 (ja) 衛星観測計画プログラム及び衛星観測計画作成装置
CN111323020B (zh) 一种基于火星边缘及中心多矢量观测的自主定轨方法
CN115618749B (zh) 一种大型无人机实时定位的误差补偿方法
Glavine et al. Gps integrated inertial navigation system using interactive multiple model extended kalman filtering
Mahdi et al. Imu-error estimation and cancellation using anfis for improved UAV navigation
Bao et al. Adaptive attitude determination of bionic polarization integrated navigation system based on reinforcement learning strategy.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant