CN112882901B - 一种分布式处理***健康状态智能监控器 - Google Patents

一种分布式处理***健康状态智能监控器 Download PDF

Info

Publication number
CN112882901B
CN112882901B CN202110243326.7A CN202110243326A CN112882901B CN 112882901 B CN112882901 B CN 112882901B CN 202110243326 A CN202110243326 A CN 202110243326A CN 112882901 B CN112882901 B CN 112882901B
Authority
CN
China
Prior art keywords
health monitoring
health
node
functional module
network switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110243326.7A
Other languages
English (en)
Other versions
CN112882901A (zh
Inventor
李成文
韩强
张伟栋
陈国�
丰生磊
赵子杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN202110243326.7A priority Critical patent/CN112882901B/zh
Publication of CN112882901A publication Critical patent/CN112882901A/zh
Application granted granted Critical
Publication of CN112882901B publication Critical patent/CN112882901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式处理***健康状态智能监控器,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点的数量与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对所述健康监控数据进行分析决策,诊断***故障的原因,在尽可能短的时间内重新恢复工作。实现分布式处理***的电源、CPU、内存、固存等各个部件的工作状态进行实时监控,协助***管理器迅速诊断***故障的原因,有效提升***测试性、维护性和保障性,同时大大提高***任务处理能力。

Description

一种分布式处理***健康状态智能监控器
技术领域
本发明是属于嵌入式计算机***设计技术领域,具体涉及一种分布式处理***健康状态智能监控器。
背景技术
机载嵌入式***的设备种类和数量越来越多,处理***越来越复杂,***的健康状况监控也越来越困难,传统方法仅仅依靠主处理器BIT测试无法对问题准确定位,而且直接影响主处理器的任务处理功能,降低了***处理资源运行效率。
发明内容
本发明的目的是提供一种分布式处理***健康状态智能监控器,用以满足高性能飞机***对处理设备测试性、维护性、可靠性的需求。
为了实现上述任务,本发明采用以下技术方案:
一种分布式处理***健康状态智能监控器,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点的数量与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对所述健康监控数据进行分析决策,诊断***故障的原因,在尽可能短的时间内重新恢复工作。
进一步地,所述健康监控数据网络交换机实现监控数据交换,数据网络为FC、AFDX或以太网,网络通信速率不低于1Gbps。
进一步地,所述处理机包括子节点与根节点;根节点有两个,根节点在物理上为位于功能模块内的两个独立电路,并相互构成双备份;两个根节点之间始终保持一个通信连接,一个为活动根节点,另一个为备份根节点;活动根节点监视包括自己和备份根节点所在功能模块在内的所有功能模块的健康状态,检测功能模块的掉电和拔出,报告事件给对应的监控管理节点,并接收监控管理节点的控制指令执行适当的操作进行功能模块的任务调度,防止***故障。
进一步地,所述两个根节点数据链路的物理承载是两条I2C总线。
进一步地,所述子节点是位于功能模块内的一个独立的电路单元,子节点用于其所在功能模块中的传感器数据、CPU状态数据、自检数据收集和上传功能,读取模块插槽号和设备号,并控制功能模块的上下电以及复位。
进一步地,所述子节点中微控制器运行模块功能软件,负责接收外部根节点的命令,将传感器数据以及CPU、软件状态数据上传;子节点的监测过程及内容包括:上电前槽位检测,若检测正确,则功能模块正常上电,若检测不正确,则进行上报,功能模块不能正常供电;功能模块的上电、复位控制;电压、关键电路电流、温度检测;核心器件运行状态检测,包括CPU、交换芯片、存储器;关键应用的运行状态检测;交换芯片端口上下线状态检测。
进一步地,子节点监控功能模块的电压、温度并通过通用串行总线从CPU获取模块工作状态;
当功能模块电压、温度或工作状态不正常时,子节点发送告警到根节点,同时响应根节点的查询命令将本模块的电压、温度及工作状态等信息上报给根节点,根节点通过网络接收来自监控管理节点的查询请求,并向各功能模块子节点下发温度、电压、工作状态等查询请求,自动向监控管理节点上报***告警信息同时记录***工作日志。
进一步地,所述监控管理节点、根节点、子节点分别使用独立的电源供电,且先于分布式处理***的功能电路上电。
与现有技术相比,本发明具有以下技术特点:
针对复杂环境对嵌入式***更强烈的需求,本发明提出一种分布式处理***健康状态智能监控器,实现分布式处理***的电源、CPU、内存、固存等各个部件的工作状态进行实时监控,协助***管理器迅速诊断***故障的原因,在尽可能短的时间内重新恢复工作,有效提升***测试性、维护性和保障性,同时大大提高***任务处理能力。
附图说明
图1是分布式处理***健康状态智能监控器;
图2是处理机内容监控器功能结构。
具体实施方式
参见图1,本发明提出的一种分布式处理***健康状态智能监控器,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点根据***需要可以设置多个并与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对所述健康监控数据进行分析决策,迅速诊断***故障的原因,在尽可能短的时间内重新恢复工作。其中,健康监控数据网络交换机,实现监控数据交换,数据网络可以为FC、AFDX、以太网等,网络通信速率不低于1Gbps。
如图2所示,所述处理机包括子节点与根节点。根节点有两个,根节点在物理上为位于功能模块内的两个独立电路,并相互构成双备份;两个根节点之间始终保持一个通信连接,一个为活动根节点,另一个为备份根节点;活动根节点监视包括自己和备份根节点所在功能模块在内的所有功能模块的健康状态,检测功能模块的掉电和拔出,报告事件给对应的监控管理节点,并接收监控管理节点的控制指令执行适当的操作进行功能模块的任务调度,防止***故障;两个根节点数据链路的物理承载是两条I2C总线。所述功能模块为处理机中实现某功能的模块,例如计算模块、输出模块等。
子节点也是位于功能模块内的一个独立的电路单元,采用独立电源进行供电;子节点主要负责其所在功能模块中的传感器数据、CPU状态数据、自检数据收集和上传功能,读取模块插槽号和设备号,并控制功能模块的上下电以及复位。子节点中微控制器运行模块功能软件,负责接收外部根节点的命令,将传感器数据以及CPU、软件状态数据上传。子节点的监测过程及内容包括:上电前槽位检测,若检测正确,则功能模块正常上电,若检测不正确,则进行上报,功能模块不能正常供电;功能模块的上电、复位控制;电压、关键电路电流、温度检测;核心器件运行状态检测,包括CPU、交换芯片、存储器等;关键应用的运行状态检测;交换芯片端口上下线状态检测。
监控管理节点、根节点、子节点分别使用独立的电源供电,且先于分布式处理***的功能电路上电。子节点监控功能模块电压、温度并通过通用串行总线从CPU获取模块工作状态。当功能模块电压、温度或工作状态不正常时,子节点发送告警到根节点;同时响应根节点的查询命令将本模块的电压、温度及工作状态等信息上报给根节点,根节点可以通过网络接收来自监控管理节点的查询请求,并向各功能模块子节点下发温度、电压、工作状态等查询请求,自动向监控管理节点上报***告警信息同时记录***工作日志。
本发明的智能监控器独立于功能部件,自动运行,节省处理资源,提高***任务处理能力,解决复杂处理***的健康状况监控信息不充分、问题定位不精确的难题,能够协助***管理器迅速诊断***故障,在尽可能短的时间内重新恢复工作,有效提升***测试性、维护性和保障性。
以上实施例仅用于说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行同等替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (4)

1.一种分布式处理***健康状态智能监控器,其特征在于,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点的数量与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对健康监控数据进行分析决策,诊断***故障的原因;
所述处理机包括子节点与根节点;根节点有两个,根节点在物理上为位于功能模块内的两个独立电路,并相互构成双备份;两个根节点之间始终保持一个通信连接,一个为活动根节点,另一个为备份根节点;活动根节点监视所有功能模块的健康状态,所监视的功能模块包括活动根节点及其对应的备份根节点所在的功能模块;检测功能模块的掉电和拔出,报告事件给对应的监控管理节点,并接收监控管理节点的控制指令执行相应的操作进行功能模块的任务调度;
所述子节点是位于功能模块内的一个独立的电路单元,子节点用于其所在功能模块中的传感器数据、CPU状态数据、自检数据的收集和上传,读取功能模块插槽号和设备号,并控制功能模块的上下电以及复位;
所述子节点中的微控制器运行模块功能软件,负责接收外部根节点的命令,将传感器数据以及CPU状态数据、软件状态数据上传;子节点的监测过程及内容包括:上电前槽位检测,若检测正确,则功能模块正常上电,若检测不正确,则进行上报,此时功能模块不能正常供电;功能模块的上电、复位控制;电压、关键电路电流、温度检测;核心器件运行状态检测,包括CPU、交换芯片、存储器;关键应用的运行状态检测;交换芯片端口上下线状态检测;
所述子节点监控功能模块的电压、温度并通过通用串行总线从CPU获取模块工作状态;
当功能模块电压、温度或工作状态不正常时,子节点发送告警到根节点,同时响应根节点的查询命令将本模块的电压、温度及工作状态信息上报给根节点,根节点通过网络接收来自监控管理节点的查询请求,并向各功能模块的子节点下发温度、电压、工作状态查询请求,自动向监控管理节点上报***告警信息同时记录***工作日志。
2.根据权利要求1所述的分布式处理***健康状态智能监控器,其特征在于,所述健康监控数据网络交换机实现监控数据交换,数据网络为FC、AFDX或以太网,网络通信速率不低于1Gbps。
3.根据权利要求1所述的分布式处理***健康状态智能监控器,其特征在于,所述两个根节点数据链路的物理承载是两条I2C总线。
4.根据权利要求1所述的分布式处理***健康状态智能监控器,其特征在于,所述监控管理节点、根节点、子节点分别使用独立的电源供电,且先于分布式处理***的功能电路上电。
CN202110243326.7A 2021-03-04 2021-03-04 一种分布式处理***健康状态智能监控器 Active CN112882901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110243326.7A CN112882901B (zh) 2021-03-04 2021-03-04 一种分布式处理***健康状态智能监控器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110243326.7A CN112882901B (zh) 2021-03-04 2021-03-04 一种分布式处理***健康状态智能监控器

Publications (2)

Publication Number Publication Date
CN112882901A CN112882901A (zh) 2021-06-01
CN112882901B true CN112882901B (zh) 2024-06-18

Family

ID=76055397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110243326.7A Active CN112882901B (zh) 2021-03-04 2021-03-04 一种分布式处理***健康状态智能监控器

Country Status (1)

Country Link
CN (1) CN112882901B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010379B (zh) * 2021-03-09 2024-03-15 爱瑟福信息科技(上海)有限公司 电子设备监控***
CN113722012A (zh) * 2021-09-07 2021-11-30 超越科技股份有限公司 一种国产的***级管理***
CN114172829B (zh) * 2022-02-10 2022-08-12 统信软件技术有限公司 一种服务器健康监测方法、***及计算设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109698775A (zh) * 2018-11-21 2019-04-30 中国航空工业集团公司洛阳电光设备研究所 一种基于实时状态检测的双机冗余备份***
CN111880997A (zh) * 2020-07-29 2020-11-03 曙光信息产业(北京)有限公司 一种分布式监控***、监控方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2750517B1 (fr) * 1996-06-27 1998-08-14 Bull Sa Procede de surveillance d'une pluralite de types d'objets d'une pluralite de noeuds a partir d'un noeud d'administration dans un systeme informatique
US9063966B2 (en) * 2013-02-01 2015-06-23 International Business Machines Corporation Selective monitoring of archive and backup storage
GB2514833A (en) * 2013-06-07 2014-12-10 Ibm Portable computer monitoring
US9348573B2 (en) * 2013-12-02 2016-05-24 Qbase, LLC Installation and fault handling in a distributed system utilizing supervisor and dependency manager nodes
CN106126407B (zh) * 2016-06-22 2018-07-17 西安交通大学 一种针对分布式存储***的性能监控调优***及方法
CN109144802A (zh) * 2018-09-12 2019-01-04 杭州智享新电科技有限公司 物联网模块健康管理诊断方法
US10880434B2 (en) * 2018-11-05 2020-12-29 Nice Ltd Method and system for creating a fragmented video recording of events on a screen using serverless computing
CN110011829B (zh) * 2019-02-28 2021-11-19 西南电子技术研究所(中国电子科技集团公司第十研究所) 综合机载任务***健康管理子***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109698775A (zh) * 2018-11-21 2019-04-30 中国航空工业集团公司洛阳电光设备研究所 一种基于实时状态检测的双机冗余备份***
CN111880997A (zh) * 2020-07-29 2020-11-03 曙光信息产业(北京)有限公司 一种分布式监控***、监控方法及装置

Also Published As

Publication number Publication date
CN112882901A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112882901B (zh) 一种分布式处理***健康状态智能监控器
US8996924B2 (en) Monitoring device, monitoring system and monitoring method
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和***
US20020152425A1 (en) Distributed restart in a multiple processor system
EP2093934B1 (en) System, device, equipment and method for monitoring management
CN111831488B (zh) 具有安全等级设计的tcms-mpu控制单元
CN103544092A (zh) 一种基于arinc653标准机载电子设备健康监控体系
EP3306422B1 (en) Arithmetic device and control apparatus
CN103853622A (zh) 一种互为备份的双余度控制方法
CN109240851A (zh) 一种自主式实现批量bmc自恢复的方法及***
CN105760241A (zh) 一种内存数据导出方法和***
CN108633129A (zh) 一种led尾灯电路的故障监测***及监测处理方法
CN100538647C (zh) 多核处理器的业务流处理方法及多核处理器
CN100498733C (zh) 一种实现计算机故障报警控制的方法
CN116126772A (zh) 一种应用于arm服务器的uart串口管理***及方法
CN106407081B (zh) 一种机箱管理***及服务器
CN111984471B (zh) 一种机柜电源bmc冗余管理***及方法
CN208063515U (zh) 一种led尾灯电路的故障监测***
CN103995759A (zh) 基于核内外协同的高可用计算机***故障处理方法及装置
CN114153189B (zh) 一种自动驾驶控制器安全诊断及保护方法、***及存储装置
CN111880999B (zh) 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法
CN101741654B (zh) 操作***的监控装置与方法
Hughes-Fenchel A flexible clustered approach to high availability
CN111026611A (zh) 一种服务器散热控制方法及***
CN108388488A (zh) 一种智能平台管理***及故障处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant