CN117332229B - 面向故障诊断的星间交互信息优选方法 - Google Patents

面向故障诊断的星间交互信息优选方法 Download PDF

Info

Publication number
CN117332229B
CN117332229B CN202311259350.5A CN202311259350A CN117332229B CN 117332229 B CN117332229 B CN 117332229B CN 202311259350 A CN202311259350 A CN 202311259350A CN 117332229 B CN117332229 B CN 117332229B
Authority
CN
China
Prior art keywords
satellite
network
fault diagnosis
diagnosis
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311259350.5A
Other languages
English (en)
Other versions
CN117332229A (zh
Inventor
张秀云
冷嘉俊
宗群
刘文静
刘达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202311259350.5A priority Critical patent/CN117332229B/zh
Publication of CN117332229A publication Critical patent/CN117332229A/zh
Application granted granted Critical
Publication of CN117332229B publication Critical patent/CN117332229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开了面向故障诊断的星间交互信息优选方法,包括首先考虑“主星‑从星”的编队构型,确定每颗卫星的邻居信息,建立卫星真实动力学模型,从而构建卫星故障模型;然后搭建基于Pointer网络的星间交互信息优选网络和基于强化学习的故障诊断模型,以故障诊断网络的诊断率最大为目标,迭代更新pointer网络,确定最优交互对象及交互内容选择,即“向哪个邻居要哪些数据”;最后,在在线应用阶段,基于Pointer网络获得的星间最优交互信息,仅采用故障诊断网络即可保证诊断效率最高。本发明采用上述面向故障诊断的星间交互信息优选方法,用于减轻星间信息交互的通信压力,同时使故障诊断结果最优。

Description

面向故障诊断的星间交互信息优选方法
技术领域
本发明涉及星群卫星故障诊断和组合优化的技术领域,尤其涉及一种面向故障诊断的星间交互信息优选方法。
背景技术
随着空天技术的迅速发展,卫星技术对人类社会发挥了越来越重要的作用。其中小卫星群,因其具有灵活性高、成本低、体积小等优势,能够保持一定队形,协同完成任务,可以更好地提高工作效率。卫星群因其低成本、良好性能、高可靠性和强适应性等特点,已成为国内外研究的热门领域。但由于卫星长时间处于环境恶劣的太空中,导致卫星元器件可靠性降低,从而产生故障,而有效的在轨故障诊断***可以实时检测运行状况,避免意外发生。随着任务需求不断增加,星群参与卫星数量也在增多,导致传感器数量和故障种类越来越多,对星群的故障诊断更具难度。
考虑星群中单个卫星配置相对较为简单,导致信息冗余度较低,故障诊断能力有限。若要提高诊断能力,需要借助其它邻居卫星的相关信息,利用强化学习方法实现多星协同诊断。但是由于星间通信资源受限,卫星之间的大量数据共享难以实现。因此,针对星间交互信息优选问题,以交互最少的信息实现卫星的故障诊断,考虑到Pointer网络在解决组合优化类问题方面具有优势,搭建基于Pointer网络的星间交互信息选择网络,以故障诊断率最大为目标,通过对整个星群卫星敏感器测量信息进行不断迭代处理分析,确定最优交互对象及交互内容,即“管哪个邻居要哪些数据”可以实现卫星故障诊断,从而有效减少星间通信压力。
发明内容
本发明的目的是提供一种面向故障诊断的星间交互信息优选方法,针对星群故障诊断技术需求,通过考虑在编队中卫星之间的相对位置和星敏等测量信息,利用邻居卫星信息实现星群智能故障诊断,并使用pointer网络进行故障信息优选,减小星间通信压力,同时使故障诊断结果最优。
为实现上述目的,本发明提供了一种面向故障诊断的星间交互信息优选方法,具体步骤如下:
S1、建立卫星运动学模型和姿态模型,确定故障类型;
S2、建立卫星故障信息优选模型,设计基于Actor-Critic的智能求解框架,即确定星间交互信息优选网络模型的状态集、动作集、立即收益值以及折扣因子各个要素,并进行对优选算法的在线训练;
S3、建立卫星故障诊断模型,设计基于深度强化学习的故障诊断算法,确定故障诊断算法的状态集、动作集、立即收益值以及折扣因子各个要素,并进行离线训练。
进一步的,在步骤S1建立卫星运动学模型和姿态模型,确定故障类型中,卫星姿态模型采用四元数描述卫星姿态,姿态测量传感器是陀螺仪、星敏传感器和反作用飞轮。
进一步的,在步骤S1建立卫星运动学模型和姿态模型,确定故障类型中,根据卫星编队执行任务中的通讯需要,在主星-从星的构型基础上使不同邻居卫星之间建立通信,确定不同卫星的邻居信息。
进一步的,在步骤S2建立卫星故障信息优选模型中,包括建立面向故障诊断的马尔科夫决策过程和星间交互信息优选网络架构建立及训练。
进一步的,建立面向故障诊断的马尔科夫决策过程,确定星间交互信息优选网络模型的状态集、动作集、立即收益值以及折扣因子。
进一步的,星间交互信息优选网络由Actor网络及Critic网络组成,其中Actor网络基于Pointer网络搭建,该网络输入为各卫星的各敏感器测量信息,输出为敏感器信息能够使故障诊断率最高的卫星,即完成星间交互信息优选。
进一步的,在步骤S3建立卫星故障诊断模型中,包括马尔科夫故障诊断模型建立和故障诊断网络搭建及离线经验学习。
进一步的,诊断网络为全连接层神经网络,对于每一个航天器,网络层数为4层,包括1层输入层,2层隐藏层和1层输出层,输入节点个数为当前卫星观测状态集合和动作集合的维度;由于诊断网络输出为当前观测状态集合下第i个航天器执行当前动作可能获得的平均累计总收益,则输出节点个数为1。
进一步的,诊断网络的离散训练步骤如下:
步骤1:初始化经验回放池,容量为N,用于存储训练的样本;
步骤2:初始化诊断网络,随机初始化权重参数w;
步骤3:初始化目标网络的网络结构以及权重w′=w;
步骤4:从第1回合卫星故障诊断到第M回合卫星故障诊断:
a.根据经验判断卫星是否故障a;
b.得到判断a后的立即收益并输入下一时刻卫星经验状态数据s′;
c.将存入到经验回放池中;
d.若经验充足,随机从经验回放池抽取E个样本数据若经验不充足,则执行b步骤;
e.计算诊断网络的目标值如下式所示;
式中,q(sj+1,aj+1,w-)为目标网络的输出;
f.把的值做为方差,并采用随机梯度下降法更新诊断网络的权值参数w,学习率为lr;
g.每步骤c后更新目标网络的权值参数w-=w;
通过上述更新步骤离线更新诊断网络的网络权值参数,获得可用于在线故障诊断的诊断网络。
因此,本发明采用上述一种面向故障诊断的星间交互信息优选方法,有如下有益效果:
(1)本发明针对星群卫星故障诊断问题,考虑诊断准确率要求和通信资源约束,提出面向故障诊断的星间交互信息优选方法,构建了马尔科夫决策过程,将邻居卫星远端敏感器信息进行优选,实现对卫星自身故障的有效诊断,确定不同卫星邻居故障信息,大大减轻通讯压力。
(2)本发明使用智能方法(深度Q学习算法)进行故障诊断,采用混合专家经验回放的算法,充分利用历史故障数据进行离线训练,避免陷入局部极小,自动向诊断结果收益更大的方向更新,同时将诊断网络获得的收益反馈到信息优选网络,以诊断准确率最高为目标更新优选网络,在线应用过程中便不再依赖专家经验,基于Pointer网络获得的星间最优交互信息就能实现快速智能故障诊断。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1是面向故障诊断的星间交互信息优选方法的方案框图;
图2是面向故障诊断的星间交互信息优选方法的陀螺安装结构图;
图3是本发明面向故障诊断的星间交互信息优选方法的网络架构图;
图4是本发明面向故障诊断的星间交互信息优选方法的Pointer网络的工作流程;
图5本发明面向故障诊断的星间交互信息优选方法的基于深度Q学习的诊断网络结构图;
图6本发明面向故障诊断的星间交互信息优选方法的诊断准确率曲线图;
图7本发明面向故障诊断的星间交互信息优选方法的损失函数曲线图;
图8本发明面向故障诊断的星间交互信息优选方法的诊断总收益曲线图;
图9本发明面向故障诊断的星间交互信息优选方法的优选信息数量变化曲线图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
本发明提出了一种面向故障诊断的星间交互信息优选方法,并针对故障诊断的需求建立卫星故障模型,构建了信息优选和故障诊断的强化学习算法,最终在虚拟环境下验证了故障诊断技术的有效性。
S1、建立卫星运动学模型和姿态模型,确定故障类型。
首先,针对在轨航天器运行中可能发生的故障,需要进行航天器的轨道及姿态描述,包括卫星编队相对运动学模型和卫星姿态模型。其中卫星运动学模型主要考虑卫星轨道基线漂移故障影响,卫星姿态模型考虑外界扰动对刚体航天器产生姿态测量误差,采用四元数描述卫星姿态,姿态测量传感器主要是陀螺仪、星敏传感器和反作用飞轮。然后,考虑卫星编队执行任务中的通讯需要,在主星-从星的构型基础上使不同邻居卫星之间建立通信,确定不同卫星的邻居信息。
S2、建立卫星故障信息优选模型,设计基于Actor-Critic的智能求解框架,即确定星间交互信息优选网络模型的状态集等各个要素并实现对优选算法的在线训练。
首先,考虑单个卫星配置相对较为简单,传感器信息有限,传统的单星级诊断难以实现准确的故障诊断,卫星除了考虑自身位置、星敏及执行机构信息外,还需要利用邻居卫星的远端敏感器信息进行协同诊断,但是由于星间通信资源受限,卫星之间的大量数据共享难以实现,本发明基于故障模型建立面向信息优选的马尔科夫决策模型,确定状态集、动作集、立即收益值以及折扣因子;然后构建星间交互信息优选网络模型并进行训练,通过对整个星群卫星传感器测量信息进行不断迭代处理分析,基于注意力机制输出最优交互对象及交互内容选择,用故障诊断网络的准确率来评判优选信息的好坏程度,更新信息优选网络,即完成“向哪个邻居要哪些数据”。
S3、建立卫星故障诊断模型,设计基于深度强化学习的故障诊断算法,确定故障诊断算法的状态集等各个要素并进行离线训练。
通过前一部分对卫星故障信息进行优选之后,信息优选网络的参数也被确定下来,此时优选网络输出的信息作为故障诊断网络的输入,首先为马尔科夫故障诊断模型的建立,优选信息作为状态集,确定动作集、立即收益值以及折扣因子;然后是诊断网络的搭建,基于深度Q网络的深度强化学习故障诊断方法可以实现网络自调整,自动向诊断结果收益更大的方向更新,算法的收敛速度和准确性要比传统深度学习方法更好,基于深度Q学习的深度强化学习算法包括当前诊断网络和目标诊断网络,两个网络都使用全连接神经网络结构。最后对搭建的网络进行离线训练,完成网络参数的训练。
实施例1
本发明以小卫星星群为研究对象,提出面向故障诊断的星间交互信息优选方法,总体算法结构如图1所示,包括信息优选模型和故障诊断模型。本发明首先考虑星群“主星-从星”的编队结构,确定每颗卫星的邻居信息,建立卫星真实动力学模型,从而构建卫星故障模型;然后搭建基于Pointer网络的星间交互信息优选网络,和基于强化学习的故障诊断模型,以故障诊断网络的诊断率最大为目标,迭代更新pointer网络,确定最优交互对象及交互内容选择,即“向哪个邻居要哪些数据”,从而有效减少星间通信压力;最后,在在线应用阶段,基于Pointer网络获得的星间最优交互信息,利用故障诊断网络即可保证诊断效率最高。具体实现过程如下:
1.步骤S1的实施方式:卫星故障模型建立
(1)卫星编队相对运动学模型
在主星质心轨道坐标系中,两颗卫星的相对动力学模型为:
其中,x,y,z为卫星相对位置,n为主星的轨道角速率,μ为标准引力参数,rL为主星在地心惯性坐标系中的位置矢量,ux,uy,uz为从星相对主星的控制加速度。
若主星的轨道为圆轨道,则可以得到主星为圆轨道时的相对运动方程为
考虑卫星轨道基线漂移故障影响,则故障影响下的卫星相对模型为:
其中,fx,fy,fz为基线漂移故障。
(2)卫星姿态模型
目前,常用的姿态描述方法主要有欧拉角描述法、修正Rodrigues参数法(MRP)以及单位四元数法。本报告中采用单位四元数法进行刚体航天器的姿态描述,对其介绍如下:
基于四元数法的姿态描述来源于刚体运动学定理,刚体绕固定点的任一位移,可绕通过此点的某一轴转动一个角度得到,于是利用该定轴和转动的角度描述旋转前后的相对姿态。具体而言,四元数是具有四个元素的超复数,单位四元数(Unit Quaternion)定义如下:
其中q0∈R表示标量部分,qv=[q1 q2 q3]T∈R3表示四元数的向量部分,θ表示旋转的角度,e=[ex ey ez]T表示旋转轴方向单位矢量。单位四元数满足如下约束方程:
目前,常用的姿态描述方法主要有欧拉角描述法、修正Rodrigues参数法(MRP)以及单位四元数法。其中,单位四元数姿态描述法克服了空间飞行器姿态的奇异问题,并且公式易于推导应用。在此采用单位四元数法进行刚体航天器的姿态描述。
采用单位四元数q=[q0,q1,q2,q3]T进行卫星姿态描述,则考虑外界扰动的刚体航天器姿态模型为:
其中,q为航天器本体坐标系Fb相对于惯性坐标系FI的姿态四元数在Fb中的投影,定义其中/>分别表示单位四元数的标量部分和向量部分;ω=[ω123]T为航天器本体坐标系Fb相对于惯性坐标系FI的角速度在Fb中的投影;J∈R3×3为航天器的转动惯量矩阵;u=[u1,u2,u3]T为航天器所需控制力矩;d为航天器受到的有界干扰力矩,包括重力梯度力矩、气动力矩、太阳光压力矩和地磁力矩等。对x×定义为:
本发明考虑采用速率陀螺和星敏感器的姿态确定***。不失一般性,本发明考虑三正交一斜装构型的陀螺组件,其安装结构如图2所示。从图2可以看出,三正交一斜装构型的陀螺组件共有X,Y,Z,S,4个轴,每个轴上均安装了一个陀螺。设X-S,,Y-S,Z-S之间的夹角分别为α12和α3,则图2中三正交一斜装构型的陀螺组件具有如下的测量方程:
其中,ωgi(t)(i=1,…,4)为第i个陀螺的测量输出。
考虑卫星长期运行于恶劣的空间环境中,在卫星实际运行过程中星上部件难免发生故障。考虑卫星陀螺出现故障,则式中的测量方程变为:
其中,fgi(t)(i=1,…,4)表示第i个陀螺出现故障,H为陀螺组件的安装矩阵,表示为:
不失一般性,本发明选取α1=α2=α3=54.73°,则此时H的值为:
同样,卫星的执行机构由三正交一斜装的反作用飞轮组成,同理于上述陀螺故障,故障影响下的执行机构输出表示为:
其中,uai(t)(i=1,…,4)为第i个飞轮的测量值,fai(t)(i=1,…,4)为第i个飞轮发生的故障。
此外,考虑星敏感器测量故障影响,则星敏感器的实际测量输出为:
其中,qsi(t)(i=1,…,4)为星敏感器实际测量输出,fsi(t)(i=1,…,4)为星敏第i个方向发生的故障。
2.步骤S2的实施方式:基于pointer网络的星间交互信息优选
(1)建立面向故障诊断的马尔科夫决策过程
考虑以上故障,假设整个卫星星群编队由N颗卫星组成,针对卫星i,为对其进行故障诊断的交互信息优选,即确定从哪些卫星获得哪些信息来完成自身故障诊断,首先建立马尔科夫信息优选模型。
将卫星的故障诊断问题,总结为随机博弈模型,各个符号的含义如下:
1)状态集S
为诊断卫星i的执行机构故障,以其邻居卫星的远端敏感器信息作为状态集,表示为:
S={satellitej_q;satellitej_ω;satellitej_fa} (14)
其中,satellitej_q=[satellitej_q0,satellitej_q1,satellitej_q2,satellitej_q3]为卫星j四元数信息,satellitej_ω=[satellitejx,satellitejy,satellitejz]为卫星j的姿态角速度信息,satellitej_fa=[satellitej_fa1,satellitej_fa2,satellitej_fa3,satellitej_fa4]为卫星j的飞轮输出信息。
2)动作集A
要诊断卫星i的故障,需要利用哪颗卫星的哪些信息作为动作a:
a={satellite0_sj,…,satelliten_sj} (15)
其中,satelliten表示卫星n,sj表示卫星传感器获得的状态信息pj,vjjj,fj中的某一个,satelliten_sj则表示需要利用卫星n的sj信息。
3)立即收益值
星间信息交互信息优选网络以卫星故障诊断率最高为最终目标,以此建立奖惩机制,确定单步规划获得的收益值,而本发明中故障诊断是由建立的故障诊断网络实现的,故立即收益值设置为诊断网络的输出与标签共同获得的故障诊断率。
4)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度。当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,将未来收益和当前收益看得同等重要。
通过对随机博弈模型符号的定义,每个卫星对邻居故障信息的优选过程可描述为:各卫星根据获得的邻居卫星姿态角、角速度等组成的状态s(t),确定动作集ai(t)输出需要卫星的哪些信息,并获得相应的立即收益值重复该过程直到达成形成期望的故障诊断的准确率的目标。
(2)星间交互信息优选网络架构建立及训练
针对面向故障诊断的星间交互信息优选问题,以交互最少的信息实现卫星的故障诊断,为实现最大故障诊断率下的星间交互信息优选,本发明建立了基于Actor-Critic的智能求解框架,将Pointer网络作为Actor网络,通过对整个星群卫星传感器测量信息进行不断迭代处理分析,基于注意力机制输出最优交互对象及交互内容选择,即“向哪个邻居要哪些数据”,从而有效减少星间通信压力,且该网络在卫星数量及信息输入变化时也可实现交互信息优选,满足“即插即用”的需求;而Critic网络则用于指导Actor网络的训练,诊断网络则负责给出Actor网络的立即收益值,最终利用Pointer网络输出的星间交互信息进行卫星的故障诊断,评价是否能够实现诊断,最终实现诊断率最大的目标。基于Pointer网络的星间交互信息优选网络架构示意图如图3所示。
星间交互信息优选网络由Actor网络及Critic网络组成,其中Actor网络基于Pointer网络搭建,该网络输入为各卫星的各敏感器测量信息,输出为选择哪几颗卫星的哪些敏感器信息能够保证故障诊断率最高,即完成星间交互信息优选。Pointer网络具体工作流程如图4所示:首先基于网络输入信息(各卫星的各敏感器测量信息),基于卷积神经网络组成的Encoder环节进行数据特征提取,通过对整个星群卫星敏感器测量信息进行不断迭代处理分析,其次在Decoder环节采取了基于注意力机制的手段,用一个可变长的对齐向量at从输入中抽取信息,at代表输入序列中每个元素的注意力权重。换句话说,at描述了输入数据在下一个decoding步中多大程度上是相关的,假设是输入i的embedding,ht是RNN单元在decoding步t的记忆状态。那么对应输出的概率分布计算方式如下:
其中,Va,Wa,Vc,Wc是可学习参数矩阵,Wa用于将输入序列元素和当前时间步的记忆状态ht结合起来,Va用于将结果映射到注意力权重向量at,ct代表上下文向量,用来捕捉当前时间步t的输入序列信息,以便生成下一个时间步的输出,Wc用于将上下文向量ct与输入序列元素/>结合起来,Vc用于将结果映射到条件概率分布的形式,P(yt+1|Yt,Xt)为条件概率,表示在给定前一个时间步的输出序列Yt和输入序列Xt的情况下,生成下一个时间步的输出Yt+1的概率。pointer网络的输出则依据对应的概率分布,指向概率最大的输入,从而输出最优交互对象及交互内容选择,即“管哪个邻居要哪些数据”。值得一提的是,该网络在卫星数量及信息输入变化时也可实现交互信息优选,满足“即插即用”的需求。星间交互信息优选网络架构中的Critic网络的输入为星间交互信息选择结果,并采用双网络结构来近似未来累计收益,避免过估计问题。
基于以上搭建的星间交互信息优选网络架构,展开网络模型训练。***采用Adam优化器进行Critic网络权值的更新,使得Actor网络在有限经验的基础上进行离线学习。因此,Critic网络的权值训练是重中之重。在传统强化学习方法上,考虑到故障诊断离散动作的特点,借鉴DQN算法来训练Critic网络的网络权值。在Q值中使用均方差来定义目标函数即损失函数,如式所示。若用Critic网络的输出值Qφ(st)来近似则需要使损失函数的值最小。
而Actor网络的损失函数则为
其中πθ为Actor网络参数,R(st,at,st+1)为获得的立即收益值,Q1(st),Q2(st)为Critic网络中的两个独立估计的Q值,使用两个Critic网络可以减少估计误差。
3.步骤S3的实施方式:基于深度强化学习的诊断模型训练
(1)马尔科夫故障诊断模型建立
在单星级卫星故障诊断中,考虑卫星基线漂移故障,陀螺故障以及飞轮故障等几种故障影响,为进行单星级故障诊断网络的搭建,首先需要建立马尔科夫故障诊断模型,其中马尔科夫决策过程的状态,可选行动,立即收益值和折扣因子定义如下:
1)状态集S
对于第i颗卫星,i∈[1,N],将t时刻自身的位置pi、速度vi、姿态角θi、角速度wi、飞轮的执行机构的输出信息fi作为状态量s,即:
s=(pi,vii,wi,fi)∈S (19)
2)动作集A
诊断卫星是否有故障作为动作a:
A={a1,a2...aN} (21)
其中,ai是对卫星i是否故障的判断,ai=0是没有故障,ai=1是基线漂移故障,ai=2是飞轮1的故障,ai=3是飞轮2的故障,ai=4是飞轮3的故障,ai=5是飞轮4的故障,ai=6陀螺1的故障,ai=7陀螺2的故障,ai=8陀螺3的故障,ai=9陀螺4的故障。
3)立即收益值
对于单步诊断,当与标记信息相符时获得观测收益,当与标记信息不相符时收益为-1。
其中,是此时的收益值,在卫星的状态为s时做出判断a,如果与标记相符收益值为1,与标记不符收益值为-1。
4)折扣因子γ
γ表示未来收益值相对于当前收益值的重要程度。当γ=0时,相当于只考虑当前收益不考虑未来收益,γ=1时,则表示将未来收益和当前收益看得同等重要。由于故障诊断的特点,当前收益要比未来收益更为重要,因此这里选取折扣因子γ=0.1。
(2)故障诊断网络搭建及离线经验学习
强化学习是在动态变化的环境中学习合适的决策策略,然后采取一系列的行动来达到期望的目标。与传统的深度学习方法进行故障诊断相比,基于深度Q网络的深度强化学习故障诊断方法可以实现网络自调整,自动向诊断结果收益更大的方向更新,算法的收敛速度和准确性要比传统深度学习方法更好,算法结构如图5所示。
基于深度Q网络的智能算法只包括当前诊断网络与目标诊断网络。当前诊断网络的的作用在于评估诊断结果,目标诊断网络作用为输出下一步的Q值,与当前诊断网络形成误差函数,指导当前诊断网络的更新。
卫星通过自身状态,得到使当前诊断网络输出最大的动作argmaxa q(s,a,w),同时将得到的经验储存到经验池中,并在训练时在经验池中随机抽取经验进行学习,利用误差函数对当前诊断网络的参数进行更新,每隔一段时间将当前诊断网络的参数复制给目标诊断网络。
其中本发明的当前诊断网络与目标诊断网络为第i个卫星的中心式评价值的近似值,表示在当前卫星的观测状态集合下,第i个航天器对自身的诊断结果可能获得的平均总收益值。本文设计的诊断网络为全连接层神经网络,对于每一个航天器,网络层数为4层,包括1层输入层,2层隐藏层和1层输出层,输入节点个数为当前卫星观测状态集合和动作集合的维度;由于诊断网络输出为当前观测状态集合下第i个航天器执行当前动作可能获得的平均累计总收益,因此,输出节点个数为1。
(3)离线经验学习
诊断网络采用Adam优化器进行诊断网络权值的更新,使得诊断网络在有限经验的基础上进行离线学习。因此,诊断网络的权值训练是重中之重。在传统强化学习方法上,考虑到故障诊断离散动作的特点,借鉴DQN算法来训练诊断网络的网络权值。在Q值中使用均方差来定义目标函数即损失函数,如式所示。若用诊断网络的输出值q(s,a,w)来近似q*,则需要使是损失函数的值最小。
L(w)=E[(q*-q(s,a,w))2] (23)
结合贝尔曼最优方程:可得到诊断网络的权值更新公式如式所示:
式中,称为目标q值,q(s,a,w)称为当前q值。
由于训练网络所用的经验数据之间具有相关性,DeepMind的创始人Hassabis利用人的海马体在睡觉时候把一天的记忆重放给大脑皮层这一机制,构造了神经网络的训练方法:经验回放(experience replay)。将大量经历数据以的形式存储到回放记忆网络中,然后随机抽取一些样本数据作为输入进行训练,从而打乱其中的相关性。此外,若同时用诊断网络输出目标q值与当前q值,也会导致数据之间的相关性。针对这一问题,设计目标网络用以输出目标q值,与诊断网络的权值更新方式不同,目标诊断网络的网络参数w′是每经过C步后复制当前诊断网络w得到的。因此,诊断网络的网络权重更新公式变为:
诊断网络的离散训练步骤如下:
步骤1:初始化经验回放池(容量为N),用于存储训练的样本。
步骤2:初始化诊断网络,随机初始化权重参数w,
步骤3:初始化目标网络的网络结构以及权重w′=w
步骤4:从第1回合卫星故障诊断到第M回合卫星故障诊断:
a.根据经验判断卫星是否故障a。
b.得到判断a后的立即收益并输入下一时刻卫星经验状态数据s′。
c.将存入到经验回放池中。
d.若经验充足,随机从经验回放池抽取E个样本数据若经验不充足,则执行b步骤。
e.计算诊断网络的目标值如式所示。
式中,q(sj+1,aj+1,w-)为目标网络的输出。
f.把的值做为方差,并采用随机梯度下降法更新诊断网络的权值参数w,学习率为lr。
g.每C步后更新目标网络的权值参数w-=w。
通过上述更新步骤离线更新诊断网络的网络权值参数,获得可用于在线故障诊断的诊断网络。
实施例2
仿真设置:为了验证本发明提出的面向故障诊断的星间交互信息优选算法的有效性,在Unity中进行仿真环境设计,使用Python语言进行算法设计,主要仿真过程如下:
参数设置
以12颗从星、一颗主星为实验对象,其中主星飞行的椭圆轨道半长轴ac=7162977m,轨道偏心率ec=0.0004262,真近点角θ=0.35。每颗卫星的质量为50kg。通过Unity虚拟环境给卫星注入故障,通过Unity与Python的信息交互进行故障诊断,并且把诊断结果反馈到UI面板。其中,经验数据池大小为20000,当经验池故障数据存储满后,开始迭代学习,每轮学习1000次,学习率lr=0.01,batch_size=256,greedypolicyε=0.85。
仿真结果
每颗卫星首先收集故障信息,当经验池故障数据存储满后开始迭代学习,更新故障诊断网络,当诊断网络准确率足够高后开始训练优选网络,确定优选信息数量,初始值为状态集所有观测值的数量,然后不断减少,此时,固定诊断网络的参数,则优选信息的好坏直接影响故障诊断准确率,通过诊断网络的收益值对优选网络更新,重复这一过程,直到优选信息数量少到不足以正确诊断故障,则上一轮更新的优选信息能够实现以交互最少的信息实现卫星的故障诊断。
本发明采用基于pointer网络的信息优选方法和基于深度Q网络相结合的方式,进行卫星故障诊断,训练结果如图6-图9所示,图6是故障诊断算法训练准确率,可以看出诊断准确率在90%左右,通过信息优选能够判断故障类别,随者优选信息越来越少,训练的次数在不断增加,知道所选信息不足以进行诊断,诊断率下降到80%。图7为信息优选actor网络的损失函数变化曲线,可以看出本算法能够收敛。图8为卫星训练时的总收益,由故障诊断网络给出,为信息优选网络更新提供依据。图9是优选信息的数量,可以看出,最后故障信息减少为4个的时候不能满足准确率要求,确定上一回合信息优选网络的参数,选择5个故障信息进行诊断,即可得到最终的诊断网络,满足利用最少的星间交互信息进行诊断的要求。
因此,本发明采用上述面向故障诊断的星间交互信息优选方法,针对星群故障诊断技术需求,通过考虑在编队中卫星之间的相对位置和星敏等测量信息,利用邻居卫星信息实现星群智能故障诊断,并使用pointer网络进行故障信息优选,减小星间通信压力,同时使故障诊断结果最优。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (3)

1.面向故障诊断的星间交互信息优选方法,其特征在于,具体步骤如下:
S1、建立卫星运动学模型和姿态模型,确定故障类型;
S2、建立卫星故障信息优选模型,设计基于Actor-Critic的智能求解框架,即确定星间交互信息优选网络模型的状态集、动作集、立即收益值以及折扣因子各个要素,并进行对优选算法的在线训练;
在步骤S2建立卫星故障信息优选模型中,包括面向故障诊断的马尔科夫决策过程建立和星间交互信息优选网络架构建立及训练;
建立面向故障诊断的马尔科夫决策过程,确定星间交互信息优选网络模型的状态集、动作集、立即收益值以及折扣因子;
星间交互信息优选网络由Actor网络及Critic网络组成,其中Actor网络基于Pointer网络搭建,该网络输入为各卫星的各敏感器测量信息,输出为敏感器信息能够使故障诊断率最高的卫星,即完成星间交互信息优选;
S3、建立卫星故障诊断模型,设计基于深度强化学习的故障诊断算法,确定故障诊断算法的状态集、动作集、立即收益值以及折扣因子各个要素,并进行离线训练;
建立卫星故障诊断模型中,包括马尔科夫故障诊断模型建立和故障诊断网络搭建及离线经验学习;
诊断网络为全连接层神经网络,对于每一个航天器,网络层数为4层,包括1层输入层,2层隐藏层和1层输出层,输入节点个数为当前卫星观测状态集合和动作集合的维度;由于诊断网络输出为当前观测状态集合下第i个航天器执行当前动作可能获得的平均累计总收益,则输出节点个数为1;
诊断网络的离散训练步骤如下:
步骤1:初始化经验回放池,容量为N,用于存储训练的样本;
步骤2:初始化诊断网络,随机初始化权重参数w;
步骤3:初始化目标网络的网络结构以及权重w′=w;
步骤4:从第1回合卫星故障诊断到第M回合卫星故障诊断:
a.根据经验判断卫星是否故障a;
b.得到判断a后的立即收益并输入下一时刻卫星经验状态数据s′;
c.将存入到经验回放池中;
d.若经验充足,随机从经验回放池抽取E个样本数据若经验不充足,则执行b步骤;
e.计算诊断网络的目标值如下式(26)所示;
式中,q(sj+1,aj+1,w-)为目标网络的输出;
f.把的值做为方差,并采用随机梯度下降法更新诊断网络的权值参数w,学习率为lr;
g.每步骤c后更新目标网络的权值参数w-=w;
通过上述更新步骤离线更新诊断网络的网络权值参数,获得可用于在线故障诊断的诊断网络。
2.根据权利要求1所述的面向故障诊断的星间交互信息优选方法,其特征在于:在步骤S1建立卫星运动学模型和姿态模型,确定故障类型中,卫星姿态模型采用四元数描述卫星姿态,姿态测量传感器是陀螺仪、星敏传感器和反作用飞轮。
3.根据权利要求1所述的面向故障诊断的星间交互信息优选方法,其特征在于:在步骤S1建立卫星运动学模型和姿态模型,确定故障类型中,根据卫星编队执行任务中的通讯需要,在主星-从星的构型基础上使不同邻居卫星之间建立通信,确定不同卫星的邻居信息。
CN202311259350.5A 2023-09-27 2023-09-27 面向故障诊断的星间交互信息优选方法 Active CN117332229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311259350.5A CN117332229B (zh) 2023-09-27 2023-09-27 面向故障诊断的星间交互信息优选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311259350.5A CN117332229B (zh) 2023-09-27 2023-09-27 面向故障诊断的星间交互信息优选方法

Publications (2)

Publication Number Publication Date
CN117332229A CN117332229A (zh) 2024-01-02
CN117332229B true CN117332229B (zh) 2024-05-10

Family

ID=89276578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311259350.5A Active CN117332229B (zh) 2023-09-27 2023-09-27 面向故障诊断的星间交互信息优选方法

Country Status (1)

Country Link
CN (1) CN117332229B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160107478A (ko) * 2015-03-04 2016-09-19 국방과학연구소 위성 궤도력 고장 검출을 위한 위성 선정방법, 위성 궤도력 고장 검출 방법 및 장치
CN112347104A (zh) * 2020-11-06 2021-02-09 中国人民大学 一种基于深度强化学习的列存储布局优化方法
CN113051815A (zh) * 2021-03-18 2021-06-29 浙江大学 一种基于独立指针网络的敏捷成像卫星任务规划方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160107478A (ko) * 2015-03-04 2016-09-19 국방과학연구소 위성 궤도력 고장 검출을 위한 위성 선정방법, 위성 궤도력 고장 검출 방법 및 장치
CN112347104A (zh) * 2020-11-06 2021-02-09 中国人民大学 一种基于深度强化学习的列存储布局优化方法
CN113051815A (zh) * 2021-03-18 2021-06-29 浙江大学 一种基于独立指针网络的敏捷成像卫星任务规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
卫星编队自主规划与控制方法研究;杨希成;中国优秀硕士学位论文全文数据库;20230215;28-33 *
基于强化学习的5G网络切片虚拟网络功能迁移算法;唐仑 等;电子与信息学报;20200331;第42卷(第03期);669-677 *
基于深度迁移学习的航天器故障诊断;唐艺璠 等;空间控制技术与应用;20210630;第47卷(第03期);57-63 *
基于联邦学习的星群故障诊断;张秀云 等;空间控制技术与应用;20230831;第49卷(第04期);50-58 *

Also Published As

Publication number Publication date
CN117332229A (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
Lin et al. Data-based fault tolerant control for affine nonlinear systems through particle swarm optimized neural networks
CN110046800B (zh) 面向空间目标协同观测的卫星集群构形调整规划方法
CN108717572B (zh) 基于结构化神经网络的成像任务可调度性预测方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN109948852B (zh) 一种敏捷卫星的同轨多点目标成像任务规划方法
CN112119404A (zh) 样本高效的强化学习
Chan et al. Autonomous imaging and mapping of small bodies using deep reinforcement learning
CN109496305A (zh) 连续动作空间上的纳什均衡策略及社交网络舆论演变模型
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN111898728A (zh) 一种基于多Agent强化学习的团队机器人决策方法
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及***
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN111950873A (zh) 基于深度强化学习的卫星实时引导任务规划方法及***
CN104571088B (zh) 基于故障可诊断性约束的卫星控制***多目标优化方法
Xiang et al. An effective memetic algorithm for UAV routing and orientation under uncertain navigation environments
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
CN109375642B (zh) 一种无人机节能控制方法
CN117332229B (zh) 面向故障诊断的星间交互信息优选方法
Tillerson Coordination and control of a multiple spacecraft using convex optimization techniques
CN115826594B (zh) 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法
CN116692027A (zh) 基于深度强化学习的卫星探索控制***及方法
CN114371634B (zh) 一种基于多级事后经验回放的无人机作战模拟仿真方法
CN113821057B (zh) 一种基于强化学习的行星软着陆控制方法及***和存储介质
Nguyen et al. Apprenticeship bootstrapping
Geng et al. Impulsive guidance of optimal pursuit with conical imaging zone for the evader

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant