CN117851169A

CN117851169A - 分布式综合任务处理***健康管理方法

Info

Publication number: CN117851169A
Application number: CN202311832393.8A
Authority: CN
Inventors: 丰生磊; 李成文; 张伟栋; 王纯委; 余松涛; 陆鑫
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-04-09

Abstract

本发明的分布式综合任务处理***健康管理方法，包括***级、次***级和节点级，其中，节点级负责各处理节点的健康管理，搜集电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息，并通过交换网络上报至次***级健康管理***。次***级负责次***级健康管理，接收节点级上传的健康信息，将故障信息、健康状态预测结果通过交换网络上报***管理级健康管理***，并屏蔽抖动故障。***级负责全***健康管理，接收次***级上传的健康信息，作出综合判断，实时监控全***健康状态，诊断***发生故障的原因，迅速作出决策，有效提升任务***的可靠性、安全性以及***的任务处理能力。

Description

分布式综合任务处理***健康管理方法

技术领域

本发明涉及机载分布式综合模块化体系结构的技术领域，尤其涉及一种分布式综合任务处理***健康管理方法。

背景技术

随着嵌入式***的迅速发展，为了适应***任务日益增多的趋势，分布式综合任务处理***的复杂性也逐步提高。在高复杂性的背景下，***的健康管理难度也急剧增加，而传统的健康管理方法主要依靠FMECA以及***的自检结果来对故障信息进行定位，其缺点：

1、将软件故障和硬件故障混在一起，无法快速定位故障，排故周期长；

2、只是对已经发生的故障进行上报，无法根据已有的数据进行故障预测。

发明内容

有鉴于此，本发明提供的分布式综合任务处理***健康管理方法，对各类故障信息做出快速处理以及进行故障预测，以缓减现阶段任务***处理故障的压力，提高任务***的处理能力和可靠性，满足高性能、高安全飞机***对任务处理***的需求。

一种分布式综合任务处理***健康管理方法，包括节点级健康管理***、次***级健康管理***和***级健康管理***，节点级健康管理***配置有多个处理节点，其中，

所述节点级健康管理***用于各处理节点的健康管理，包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息，并通过交换网络上报至所述次***级健康管理***；

所述次***级健康管理***接收节点级上传的健康信息，将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至***级健康管理***，屏蔽抖动故障；

所述***级健康管理***接收次***级健康管理***上传的健康信息，作出综合判断，实时监控全***健康状态，诊断***发生故障的原因，并作出决策。

有益效果

相较于传统健康管理***，对故障信息进行软硬件分类，便于快速排故，并且，传统健康管理***只是上报已经发生的故障，本发明不仅上报已发生的故障，还能根据健康信息预测潜在的故障，及传统健康管理***在发现抖动的故障后，会一直通知处理机处理该故障，影响处理机执行其他任务。为不影响处理机工作，本发明在次***级健康管理***中设置故障连续出现次数阈值，超过该阈值后，次***级健康管理***屏蔽该故障，不会再将该故障上报***级健康管理***。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是分布式综合任务处理***健康管理***架构。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践方面。

参见图1所示的分布式综合任务处理***健康管理方法，包括节点级健康管理***、次***级健康管理***和***级健康管理***，简称“节点级”、“次***级”和“***级”，节点级健康管理***配置有多个处理节点，每个节点作为处理器，其中，

节点级健康管理***用于各处理节点的健康管理，包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息，并通过交换网络上报至次***级健康管理***。例如，双余度管理***作为次***级健康管理***，一般，包括两个次***级节点。当节点级在启动或者运行过程中，其电压、内存、电源、部分重要元器件以及应用层软件运行工作状态异常时，节点级健康管理***将该异常发送至次***级健康管理***，次***级健康管理***将接收到的异常信息分为硬件类和应用软件类，将异常信息进行综合处理后，发送至***级健康管理***。***级健康管理***根据接收到的故障信息，在极短的时间内作出决策，同时也将该决策与故障记录在本地NVRAM或者其他非易失性存储***中；

次***级健康管理***用于次***级健康管理，接收节点级上传的健康信息，将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至***级健康管理***，屏蔽抖动故障；

***级健康管理***用于机载的任务处理***全***健康管理，接收次***级健康管理***上传的健康信息，作出综合判断，实时监控全***健康状态，诊断***发生故障的原因，并作出决策，从而有效提升任务***的可靠性、安全性以及***的任务处理能力。

作为本案所提供的具体实施方式，***级健康管理***驻留的处理机分为根节点、次根节点和子节点，根节点的数量为两个，且互为热备份，其中，

***级健康管理***驻留的处理机的根节点在功能单元中属于独立电路，不占用功能单元处理资源，两个根节点之间设置通信链路，任意一个***级健康管理***驻留的处理机作为主根节点，用于接收健康信息并发送处理后的决策信息，另一个处理机作为从根节点，只接收健康信息并处理且不对外发送，若主根节点发生故障时，从根节点被配置获取控制权，代替主根节点工作。

进一步，次***级健康管理***驻留的处理机为次根节点，且数量为两个，在功能单元中属于独立电路，不占用功能单元处理资源，两个次根节点之间设置通信链路，互为热备份，其中的一个次***级健康管理***驻留的次根节点作为主次根节点，接收健康信息并发送处理后的信息，另一个次根节点作为从次根节点，只接收健康信息并处理且不对外发送，若主次根节点发生故障时，从根节点被配置获取控制权，代替主根节点工作，并且，节点级健康管理***驻留的处理机为子节点，在功能单元中属于独立电路，不占用功能单元处理资源。

进一步的，***级健康管理***的根节点、次根节点以及子节点分别由独立电源供电，上电次序先于***的功能电路。

作为本案所提供的具体实施方式，节点级健康管理***的子节点负责对功能单元的电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息进行监控，当出现故障时，将故障信息上报给次***级健康管理***，并且，响应来自***级健康管理***下发的健康信息查询请求，自动向高层级的健康管理***上报健康信息。

除根据收到的故障信息作出处理决策外，***级健康管理***还会通过交换网络周期性下发健康信息上报指令，各节点级健康管理***收到指令后，将自身节点的健康信息上报至次***级健康管理***。次***级健康管理***分析收到的信息，判断是否有潜在的故障、即将发生的故障或者跳变的故障，若有以上前两类故障，则将该健康信息上报至***级健康管理***，若无，则不上报；若有跳变故障，该故障不停被上报至***级健康管理***，***级健康管理***不停响应该故障，影响其他任务进程，所以在次***级健康管理***设置阈值，当同一故障连续出现次数超过该阈值，则屏蔽该故障，同时告知故障的对应节点停止运行。

参见图1，包括***级、次***级和节点级。其中，节点级负责各处理节点的健康管理，搜集电源、内存、处理器、FC节点、重点芯片/模块、温度的健康状态，并通过交换网络上报次***级健康管理***。次***级负责次***级健康管理，接收节点级上传的健康信息，将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报***管理级健康管理***，屏蔽抖动故障。***级健康管理***负责全***健康管理，接收次***级上传的健康信息，作出综合判断，实时监控全***健康状态，诊断***发生故障的原因，迅速作出决策，有效提升任务***的可靠性、安全性以及***的任务处理能力。

各层级的健康管理***驻留在相应层级的处理机上。节点级健康管理***驻留在节点机上，负责节点机的电源、内存、处理器、FC、温度以及相关重要应用软件运行状态的检测，并将检测结果上报至次***级健康管理***。次级管理***分别驻留在两个相同的处理机B1/B2上，两个处理机为次根节点，两个次根节点之间设置通信链路，互为备份。其中的一个次根节点作为主次根节点，接收节点级***管理发来的健康信息并发送处理后的决策信息至***级健康管理***。另一个根节点作为从次根节点，接收节点级***管理发来的健康信息并处理，但不对外发送，若主次根节点发生故障，从次根节点夺权后代替主次根节点工作。***级管理***分别驻留在两个相同的处理机A1/A2上，该两个处理机为根节点，两个根节点之间设置通信链路，互为备份。其中的一个根节点作为主根节点，接收健康信息并发送处理后的决策信息。另一个根节点作为从根节点，只接收健康信息并处理，但不对外发送，若主根节点发生故障，从根节点夺权后代替主根节点工作。

当节点机在启动或者运行过程中，其电压、内存、电源、部分重要元器件以及应用层软件运行工作状态异常时，节点级健康管理***将该异常发送至次***级健康管理***，次***级健康管理***将接收到的异常信息分为硬件类和应用软件类，将异常信息进行综合处理后，发送至***级健康管理***。***级健康管理***根据接收到的故障信息，在极短的时间内作出决策，同时也将该决策与故障记录在本地NVRAM或者其他非易失性存储***中。

本发明的健康管理***独立于***功能电路，节省功能电路处理资源，使用独立的供电电源，并在上电后先于***功能电路启动。对故障信息进行软硬件区分，明确故障排查方向，减少故障排查消耗时间，协助***尽可能快得恢复工作；同时对故障外的健康信息进行汇总预测，筛选出潜在的故障风险；同时，针对抖动故障，设置抖动次数阈值，当该故障连续抖动次数超过阈值后，强制屏蔽该故障，不允许该故障将***拖死，影响***正常运行。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种分布式综合任务处理***健康管理方法，其特征在于，包括节点级健康管理***、次***级健康管理***和***级健康管理***，节点级健康管理***配置有多个处理节点，其中，

2.根据权利要求1所述的分布式综合任务处理***健康管理方法，其特征在于，所述***级健康管理***驻留的处理机分为根节点、次根节点和子节点，根节点的数量为两个，且互为热备份，其中，

所述***级健康管理***驻留的处理机的根节点在功能单元中属于独立电路，不占用功能单元处理资源，两个根节点之间设置通信链路，任意一个所述***级健康管理***驻留的处理机作为主根节点，用于接收健康信息并发送处理后的决策信息，另一个处理机作为从根节点，只接收健康信息并处理且不对外发送，若主根节点发生故障时，从根节点被配置获取控制权，代替主根节点工作。

3.根据权利要求2所述的分布式综合任务处理***健康管理方法，其特征在于，所述次***级健康管理***驻留的处理机为次根节点，且数量为两个，在功能单元中属于独立电路，不占用功能单元处理资源，两个次根节点之间设置通信链路，互为热备份，其中的一个所述次***级健康管理***驻留的次根节点作为主次根节点，接收健康信息并发送处理后的信息，另一个次根节点作为从次根节点，只接收健康信息并处理且不对外发送，若主次根节点发生故障时，从根节点被配置获取控制权，代替主根节点工作。

4.根据权利要求3所述的分布式综合任务处理***健康管理方法，其特征在于，所述节点级健康管理***驻留的处理机为子节点，在功能单元中属于独立电路，不占用功能单元处理资源。

5.根据权利要求4所述的分布式综合任务处理***健康管理方法，其特征在于，所述***级健康管理***的根节点、次根节点以及子节点分别由独立电源供电，上电次序先于***的功能电路。

6.根据权利要求5所述的分布式综合任务处理***健康管理方法，其特征在于，所述节点级健康管理***的子节点负责对功能单元的电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息进行监控，当出现故障时，将故障信息上报给次***级健康管理***，并且，响应来自***级健康管理***下发的健康信息查询请求，自动向高层级的健康管理***上报健康信息。