CN117851169A - 分布式综合任务处理***健康管理方法 - Google Patents

分布式综合任务处理***健康管理方法 Download PDF

Info

Publication number
CN117851169A
CN117851169A CN202311832393.8A CN202311832393A CN117851169A CN 117851169 A CN117851169 A CN 117851169A CN 202311832393 A CN202311832393 A CN 202311832393A CN 117851169 A CN117851169 A CN 117851169A
Authority
CN
China
Prior art keywords
health management
level
management system
node
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311832393.8A
Other languages
English (en)
Inventor
丰生磊
李成文
张伟栋
王纯委
余松涛
陆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN202311832393.8A priority Critical patent/CN117851169A/zh
Publication of CN117851169A publication Critical patent/CN117851169A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3013Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is an embedded system, i.e. a combination of hardware and software dedicated to perform a certain function in mobile devices, printers, automotive or aircraft systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0736Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
    • G06F11/0739Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function in a data processing system embedded in automotive or aircraft systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明的分布式综合任务处理***健康管理方法,包括***级、次***级和节点级,其中,节点级负责各处理节点的健康管理,搜集电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息,并通过交换网络上报至次***级健康管理***。次***级负责次***级健康管理,接收节点级上传的健康信息,将故障信息、健康状态预测结果通过交换网络上报***管理级健康管理***,并屏蔽抖动故障。***级负责全***健康管理,接收次***级上传的健康信息,作出综合判断,实时监控全***健康状态,诊断***发生故障的原因,迅速作出决策,有效提升任务***的可靠性、安全性以及***的任务处理能力。

Description

分布式综合任务处理***健康管理方法
技术领域
本发明涉及机载分布式综合模块化体系结构的技术领域,尤其涉及一种分布式综合任务处理***健康管理方法。
背景技术
随着嵌入式***的迅速发展,为了适应***任务日益增多的趋势,分布式综合任务处理***的复杂性也逐步提高。在高复杂性的背景下,***的健康管理难度也急剧增加,而传统的健康管理方法主要依靠FMECA以及***的自检结果来对故障信息进行定位,其缺点:
1、将软件故障和硬件故障混在一起,无法快速定位故障,排故周期长;
2、只是对已经发生的故障进行上报,无法根据已有的数据进行故障预测。
发明内容
有鉴于此,本发明提供的分布式综合任务处理***健康管理方法,对各类故障信息做出快速处理以及进行故障预测,以缓减现阶段任务***处理故障的压力,提高任务***的处理能力和可靠性,满足高性能、高安全飞机***对任务处理***的需求。
一种分布式综合任务处理***健康管理方法,包括节点级健康管理***、次***级健康管理***和***级健康管理***,节点级健康管理***配置有多个处理节点,其中,
所述节点级健康管理***用于各处理节点的健康管理,包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息,并通过交换网络上报至所述次***级健康管理***;
所述次***级健康管理***接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至***级健康管理***,屏蔽抖动故障;
所述***级健康管理***接收次***级健康管理***上传的健康信息,作出综合判断,实时监控全***健康状态,诊断***发生故障的原因,并作出决策。
有益效果
相较于传统健康管理***,对故障信息进行软硬件分类,便于快速排故,并且,传统健康管理***只是上报已经发生的故障,本发明不仅上报已发生的故障,还能根据健康信息预测潜在的故障,及传统健康管理***在发现抖动的故障后,会一直通知处理机处理该故障,影响处理机执行其他任务。为不影响处理机工作,本发明在次***级健康管理***中设置故障连续出现次数阈值,超过该阈值后,次***级健康管理***屏蔽该故障,不会再将该故障上报***级健康管理***。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是分布式综合任务处理***健康管理***架构。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践方面。
参见图1所示的分布式综合任务处理***健康管理方法,包括节点级健康管理***、次***级健康管理***和***级健康管理***,简称“节点级”、“次***级”和“***级”,节点级健康管理***配置有多个处理节点,每个节点作为处理器,其中,
节点级健康管理***用于各处理节点的健康管理,包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息,并通过交换网络上报至次***级健康管理***。例如,双余度管理***作为次***级健康管理***,一般,包括两个次***级节点。当节点级在启动或者运行过程中,其电压、内存、电源、部分重要元器件以及应用层软件运行工作状态异常时,节点级健康管理***将该异常发送至次***级健康管理***,次***级健康管理***将接收到的异常信息分为硬件类和应用软件类,将异常信息进行综合处理后,发送至***级健康管理***。***级健康管理***根据接收到的故障信息,在极短的时间内作出决策,同时也将该决策与故障记录在本地NVRAM或者其他非易失性存储***中;
次***级健康管理***用于次***级健康管理,接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至***级健康管理***,屏蔽抖动故障;
***级健康管理***用于机载的任务处理***全***健康管理,接收次***级健康管理***上传的健康信息,作出综合判断,实时监控全***健康状态,诊断***发生故障的原因,并作出决策,从而有效提升任务***的可靠性、安全性以及***的任务处理能力。
作为本案所提供的具体实施方式,***级健康管理***驻留的处理机分为根节点、次根节点和子节点,根节点的数量为两个,且互为热备份,其中,
***级健康管理***驻留的处理机的根节点在功能单元中属于独立电路,不占用功能单元处理资源,两个根节点之间设置通信链路,任意一个***级健康管理***驻留的处理机作为主根节点,用于接收健康信息并发送处理后的决策信息,另一个处理机作为从根节点,只接收健康信息并处理且不对外发送,若主根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作。
进一步,次***级健康管理***驻留的处理机为次根节点,且数量为两个,在功能单元中属于独立电路,不占用功能单元处理资源,两个次根节点之间设置通信链路,互为热备份,其中的一个次***级健康管理***驻留的次根节点作为主次根节点,接收健康信息并发送处理后的信息,另一个次根节点作为从次根节点,只接收健康信息并处理且不对外发送,若主次根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作,并且,节点级健康管理***驻留的处理机为子节点,在功能单元中属于独立电路,不占用功能单元处理资源。
进一步的,***级健康管理***的根节点、次根节点以及子节点分别由独立电源供电,上电次序先于***的功能电路。
作为本案所提供的具体实施方式,节点级健康管理***的子节点负责对功能单元的电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息进行监控,当出现故障时,将故障信息上报给次***级健康管理***,并且,响应来自***级健康管理***下发的健康信息查询请求,自动向高层级的健康管理***上报健康信息。
除根据收到的故障信息作出处理决策外,***级健康管理***还会通过交换网络周期性下发健康信息上报指令,各节点级健康管理***收到指令后,将自身节点的健康信息上报至次***级健康管理***。次***级健康管理***分析收到的信息,判断是否有潜在的故障、即将发生的故障或者跳变的故障,若有以上前两类故障,则将该健康信息上报至***级健康管理***,若无,则不上报;若有跳变故障,该故障不停被上报至***级健康管理***,***级健康管理***不停响应该故障,影响其他任务进程,所以在次***级健康管理***设置阈值,当同一故障连续出现次数超过该阈值,则屏蔽该故障,同时告知故障的对应节点停止运行。
参见图1,包括***级、次***级和节点级。其中,节点级负责各处理节点的健康管理,搜集电源、内存、处理器、FC节点、重点芯片/模块、温度的健康状态,并通过交换网络上报次***级健康管理***。次***级负责次***级健康管理,接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报***管理级健康管理***,屏蔽抖动故障。***级健康管理***负责全***健康管理,接收次***级上传的健康信息,作出综合判断,实时监控全***健康状态,诊断***发生故障的原因,迅速作出决策,有效提升任务***的可靠性、安全性以及***的任务处理能力。
各层级的健康管理***驻留在相应层级的处理机上。节点级健康管理***驻留在节点机上,负责节点机的电源、内存、处理器、FC、温度以及相关重要应用软件运行状态的检测,并将检测结果上报至次***级健康管理***。次级管理***分别驻留在两个相同的处理机B1/B2上,两个处理机为次根节点,两个次根节点之间设置通信链路,互为备份。其中的一个次根节点作为主次根节点,接收节点级***管理发来的健康信息并发送处理后的决策信息至***级健康管理***。另一个根节点作为从次根节点,接收节点级***管理发来的健康信息并处理,但不对外发送,若主次根节点发生故障,从次根节点夺权后代替主次根节点工作。***级管理***分别驻留在两个相同的处理机A1/A2上,该两个处理机为根节点,两个根节点之间设置通信链路,互为备份。其中的一个根节点作为主根节点,接收健康信息并发送处理后的决策信息。另一个根节点作为从根节点,只接收健康信息并处理,但不对外发送,若主根节点发生故障,从根节点夺权后代替主根节点工作。
当节点机在启动或者运行过程中,其电压、内存、电源、部分重要元器件以及应用层软件运行工作状态异常时,节点级健康管理***将该异常发送至次***级健康管理***,次***级健康管理***将接收到的异常信息分为硬件类和应用软件类,将异常信息进行综合处理后,发送至***级健康管理***。***级健康管理***根据接收到的故障信息,在极短的时间内作出决策,同时也将该决策与故障记录在本地NVRAM或者其他非易失性存储***中。
本发明的健康管理***独立于***功能电路,节省功能电路处理资源,使用独立的供电电源,并在上电后先于***功能电路启动。对故障信息进行软硬件区分,明确故障排查方向,减少故障排查消耗时间,协助***尽可能快得恢复工作;同时对故障外的健康信息进行汇总预测,筛选出潜在的故障风险;同时,针对抖动故障,设置抖动次数阈值,当该故障连续抖动次数超过阈值后,强制屏蔽该故障,不允许该故障将***拖死,影响***正常运行。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种分布式综合任务处理***健康管理方法,其特征在于,包括节点级健康管理***、次***级健康管理***和***级健康管理***,节点级健康管理***配置有多个处理节点,其中,
所述节点级健康管理***用于各处理节点的健康管理,包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息,并通过交换网络上报至所述次***级健康管理***;
所述次***级健康管理***接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至***级健康管理***,屏蔽抖动故障;
所述***级健康管理***接收次***级健康管理***上传的健康信息,作出综合判断,实时监控全***健康状态,诊断***发生故障的原因,并作出决策。
2.根据权利要求1所述的分布式综合任务处理***健康管理方法,其特征在于,所述***级健康管理***驻留的处理机分为根节点、次根节点和子节点,根节点的数量为两个,且互为热备份,其中,
所述***级健康管理***驻留的处理机的根节点在功能单元中属于独立电路,不占用功能单元处理资源,两个根节点之间设置通信链路,任意一个所述***级健康管理***驻留的处理机作为主根节点,用于接收健康信息并发送处理后的决策信息,另一个处理机作为从根节点,只接收健康信息并处理且不对外发送,若主根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作。
3.根据权利要求2所述的分布式综合任务处理***健康管理方法,其特征在于,所述次***级健康管理***驻留的处理机为次根节点,且数量为两个,在功能单元中属于独立电路,不占用功能单元处理资源,两个次根节点之间设置通信链路,互为热备份,其中的一个所述次***级健康管理***驻留的次根节点作为主次根节点,接收健康信息并发送处理后的信息,另一个次根节点作为从次根节点,只接收健康信息并处理且不对外发送,若主次根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作。
4.根据权利要求3所述的分布式综合任务处理***健康管理方法,其特征在于,所述节点级健康管理***驻留的处理机为子节点,在功能单元中属于独立电路,不占用功能单元处理资源。
5.根据权利要求4所述的分布式综合任务处理***健康管理方法,其特征在于,所述***级健康管理***的根节点、次根节点以及子节点分别由独立电源供电,上电次序先于***的功能电路。
6.根据权利要求5所述的分布式综合任务处理***健康管理方法,其特征在于,所述节点级健康管理***的子节点负责对功能单元的电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息进行监控,当出现故障时,将故障信息上报给次***级健康管理***,并且,响应来自***级健康管理***下发的健康信息查询请求,自动向高层级的健康管理***上报健康信息。
CN202311832393.8A 2023-12-27 2023-12-27 分布式综合任务处理***健康管理方法 Pending CN117851169A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311832393.8A CN117851169A (zh) 2023-12-27 2023-12-27 分布式综合任务处理***健康管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311832393.8A CN117851169A (zh) 2023-12-27 2023-12-27 分布式综合任务处理***健康管理方法

Publications (1)

Publication Number Publication Date
CN117851169A true CN117851169A (zh) 2024-04-09

Family

ID=90539495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311832393.8A Pending CN117851169A (zh) 2023-12-27 2023-12-27 分布式综合任务处理***健康管理方法

Country Status (1)

Country Link
CN (1) CN117851169A (zh)

Similar Documents

Publication Publication Date Title
CN110798375B (zh) 一种增强容器集群高可用性的监控方法、***及终端设备
CN103607297B (zh) 一种计算机集群***的故障处理方法
CN103544092B (zh) 一种基于arinc653标准机载电子设备健康监控***
CN104360868B (zh) 一种大型飞机综合处理平台中的多级故障管理方法
CN105550053A (zh) 一种提升可用性的监控对容错***余度管理方法
CN104731670B (zh) 一种面向卫星的轮换式星载计算机容错***
US20040003078A1 (en) Component management framework for high availability and related methods
CN110955571A (zh) 面向车规级芯片功能安全的故障管理***
JP2008097164A (ja) 複数の機能要素から構成されるシステムの故障監視方法
WO2002054255A1 (en) A method for managing faults in a computer system environment
CN103425545A (zh) 一种多处理器服务器的***容错方法
CN113194029B (zh) 自动识别和隔离服务网格边车故障的方法、***、介质和设备
CN108769170A (zh) 一种集群网络故障自检***及方法
US20220301367A1 (en) Hot standby fault processing system, method for vehicle and vehicle for adopting same
US20040078732A1 (en) SMP computer system having a distributed error reporting structure
CN103995759B (zh) 基于核内外协同的高可用计算机***故障处理方法及装置
DE102020114844B4 (de) Systeme, vorrichtungen und verfahren für steuerungsvorrichtungen, die fehlerereignisse behandeln
CN117851169A (zh) 分布式综合任务处理***健康管理方法
CN112201378A (zh) 基于核电厂dcs平台的热备切换方法、***、终端及介质
CN110633176B (zh) 工作***切换方法、立方星和切换装置
US20080008166A1 (en) Method of detecting defective module and signal processing apparatus
CN106444700A (zh) 一种汽车监控主机与定位模块的故障判断方法
CN112447201A (zh) 一种适用于sram型fpga产品的***级空间单粒子防护方法
CN112751688A (zh) 一种otn设备的流控处理方法、电子设备及存储介质
Jia et al. Application and design of PHM in aircraft’s integrated modular mission system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination