CN112882901B - 一种分布式处理***健康状态智能监控器 - Google Patents
一种分布式处理***健康状态智能监控器 Download PDFInfo
- Publication number
- CN112882901B CN112882901B CN202110243326.7A CN202110243326A CN112882901B CN 112882901 B CN112882901 B CN 112882901B CN 202110243326 A CN202110243326 A CN 202110243326A CN 112882901 B CN112882901 B CN 112882901B
- Authority
- CN
- China
- Prior art keywords
- health monitoring
- health
- node
- functional module
- network switch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000036541 health Effects 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 238000012544 monitoring process Methods 0.000 claims abstract description 81
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 230000003862 health status Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 239000007787 solid Substances 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种分布式处理***健康状态智能监控器,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点的数量与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对所述健康监控数据进行分析决策,诊断***故障的原因,在尽可能短的时间内重新恢复工作。实现分布式处理***的电源、CPU、内存、固存等各个部件的工作状态进行实时监控,协助***管理器迅速诊断***故障的原因,有效提升***测试性、维护性和保障性,同时大大提高***任务处理能力。
Description
技术领域
本发明是属于嵌入式计算机***设计技术领域,具体涉及一种分布式处理***健康状态智能监控器。
背景技术
机载嵌入式***的设备种类和数量越来越多,处理***越来越复杂,***的健康状况监控也越来越困难,传统方法仅仅依靠主处理器BIT测试无法对问题准确定位,而且直接影响主处理器的任务处理功能,降低了***处理资源运行效率。
发明内容
本发明的目的是提供一种分布式处理***健康状态智能监控器,用以满足高性能飞机***对处理设备测试性、维护性、可靠性的需求。
为了实现上述任务,本发明采用以下技术方案:
一种分布式处理***健康状态智能监控器,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点的数量与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对所述健康监控数据进行分析决策,诊断***故障的原因,在尽可能短的时间内重新恢复工作。
进一步地,所述健康监控数据网络交换机实现监控数据交换,数据网络为FC、AFDX或以太网,网络通信速率不低于1Gbps。
进一步地,所述处理机包括子节点与根节点;根节点有两个,根节点在物理上为位于功能模块内的两个独立电路,并相互构成双备份;两个根节点之间始终保持一个通信连接,一个为活动根节点,另一个为备份根节点;活动根节点监视包括自己和备份根节点所在功能模块在内的所有功能模块的健康状态,检测功能模块的掉电和拔出,报告事件给对应的监控管理节点,并接收监控管理节点的控制指令执行适当的操作进行功能模块的任务调度,防止***故障。
进一步地,所述两个根节点数据链路的物理承载是两条I2C总线。
进一步地,所述子节点是位于功能模块内的一个独立的电路单元,子节点用于其所在功能模块中的传感器数据、CPU状态数据、自检数据收集和上传功能,读取模块插槽号和设备号,并控制功能模块的上下电以及复位。
进一步地,所述子节点中微控制器运行模块功能软件,负责接收外部根节点的命令,将传感器数据以及CPU、软件状态数据上传;子节点的监测过程及内容包括:上电前槽位检测,若检测正确,则功能模块正常上电,若检测不正确,则进行上报,功能模块不能正常供电;功能模块的上电、复位控制;电压、关键电路电流、温度检测;核心器件运行状态检测,包括CPU、交换芯片、存储器;关键应用的运行状态检测;交换芯片端口上下线状态检测。
进一步地,子节点监控功能模块的电压、温度并通过通用串行总线从CPU获取模块工作状态;
当功能模块电压、温度或工作状态不正常时,子节点发送告警到根节点,同时响应根节点的查询命令将本模块的电压、温度及工作状态等信息上报给根节点,根节点通过网络接收来自监控管理节点的查询请求,并向各功能模块子节点下发温度、电压、工作状态等查询请求,自动向监控管理节点上报***告警信息同时记录***工作日志。
进一步地,所述监控管理节点、根节点、子节点分别使用独立的电源供电,且先于分布式处理***的功能电路上电。
与现有技术相比,本发明具有以下技术特点:
针对复杂环境对嵌入式***更强烈的需求,本发明提出一种分布式处理***健康状态智能监控器,实现分布式处理***的电源、CPU、内存、固存等各个部件的工作状态进行实时监控,协助***管理器迅速诊断***故障的原因,在尽可能短的时间内重新恢复工作,有效提升***测试性、维护性和保障性,同时大大提高***任务处理能力。
附图说明
图1是分布式处理***健康状态智能监控器;
图2是处理机内容监控器功能结构。
具体实施方式
参见图1,本发明提出的一种分布式处理***健康状态智能监控器,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点根据***需要可以设置多个并与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对所述健康监控数据进行分析决策,迅速诊断***故障的原因,在尽可能短的时间内重新恢复工作。其中,健康监控数据网络交换机,实现监控数据交换,数据网络可以为FC、AFDX、以太网等,网络通信速率不低于1Gbps。
如图2所示,所述处理机包括子节点与根节点。根节点有两个,根节点在物理上为位于功能模块内的两个独立电路,并相互构成双备份;两个根节点之间始终保持一个通信连接,一个为活动根节点,另一个为备份根节点;活动根节点监视包括自己和备份根节点所在功能模块在内的所有功能模块的健康状态,检测功能模块的掉电和拔出,报告事件给对应的监控管理节点,并接收监控管理节点的控制指令执行适当的操作进行功能模块的任务调度,防止***故障;两个根节点数据链路的物理承载是两条I2C总线。所述功能模块为处理机中实现某功能的模块,例如计算模块、输出模块等。
子节点也是位于功能模块内的一个独立的电路单元,采用独立电源进行供电;子节点主要负责其所在功能模块中的传感器数据、CPU状态数据、自检数据收集和上传功能,读取模块插槽号和设备号,并控制功能模块的上下电以及复位。子节点中微控制器运行模块功能软件,负责接收外部根节点的命令,将传感器数据以及CPU、软件状态数据上传。子节点的监测过程及内容包括:上电前槽位检测,若检测正确,则功能模块正常上电,若检测不正确,则进行上报,功能模块不能正常供电;功能模块的上电、复位控制;电压、关键电路电流、温度检测;核心器件运行状态检测,包括CPU、交换芯片、存储器等;关键应用的运行状态检测;交换芯片端口上下线状态检测。
监控管理节点、根节点、子节点分别使用独立的电源供电,且先于分布式处理***的功能电路上电。子节点监控功能模块电压、温度并通过通用串行总线从CPU获取模块工作状态。当功能模块电压、温度或工作状态不正常时,子节点发送告警到根节点;同时响应根节点的查询命令将本模块的电压、温度及工作状态等信息上报给根节点,根节点可以通过网络接收来自监控管理节点的查询请求,并向各功能模块子节点下发温度、电压、工作状态等查询请求,自动向监控管理节点上报***告警信息同时记录***工作日志。
本发明的智能监控器独立于功能部件,自动运行,节省处理资源,提高***任务处理能力,解决复杂处理***的健康状况监控信息不充分、问题定位不精确的难题,能够协助***管理器迅速诊断***故障,在尽可能短的时间内重新恢复工作,有效提升***测试性、维护性和保障性。
以上实施例仅用于说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行同等替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (4)
1.一种分布式处理***健康状态智能监控器,其特征在于,包括监控管理节点、健康监控数据网络交换机、健康监控服务器;其中,监控管理节点的数量与被监控的处理机对应,每个监控管理节点对相应处理机内部各种功能模块的健康状态信息进行收集,并通过数据通信网络经过健康监控数据网络交换机向健康监控服务器传送信息,健康监控服务器对健康监控数据进行分析决策,诊断***故障的原因;
所述处理机包括子节点与根节点;根节点有两个,根节点在物理上为位于功能模块内的两个独立电路,并相互构成双备份;两个根节点之间始终保持一个通信连接,一个为活动根节点,另一个为备份根节点;活动根节点监视所有功能模块的健康状态,所监视的功能模块包括活动根节点及其对应的备份根节点所在的功能模块;检测功能模块的掉电和拔出,报告事件给对应的监控管理节点,并接收监控管理节点的控制指令执行相应的操作进行功能模块的任务调度;
所述子节点是位于功能模块内的一个独立的电路单元,子节点用于其所在功能模块中的传感器数据、CPU状态数据、自检数据的收集和上传,读取功能模块插槽号和设备号,并控制功能模块的上下电以及复位;
所述子节点中的微控制器运行模块功能软件,负责接收外部根节点的命令,将传感器数据以及CPU状态数据、软件状态数据上传;子节点的监测过程及内容包括:上电前槽位检测,若检测正确,则功能模块正常上电,若检测不正确,则进行上报,此时功能模块不能正常供电;功能模块的上电、复位控制;电压、关键电路电流、温度检测;核心器件运行状态检测,包括CPU、交换芯片、存储器;关键应用的运行状态检测;交换芯片端口上下线状态检测;
所述子节点监控功能模块的电压、温度并通过通用串行总线从CPU获取模块工作状态;
当功能模块电压、温度或工作状态不正常时,子节点发送告警到根节点,同时响应根节点的查询命令将本模块的电压、温度及工作状态信息上报给根节点,根节点通过网络接收来自监控管理节点的查询请求,并向各功能模块的子节点下发温度、电压、工作状态查询请求,自动向监控管理节点上报***告警信息同时记录***工作日志。
2.根据权利要求1所述的分布式处理***健康状态智能监控器,其特征在于,所述健康监控数据网络交换机实现监控数据交换,数据网络为FC、AFDX或以太网,网络通信速率不低于1Gbps。
3.根据权利要求1所述的分布式处理***健康状态智能监控器,其特征在于,所述两个根节点数据链路的物理承载是两条I2C总线。
4.根据权利要求1所述的分布式处理***健康状态智能监控器,其特征在于,所述监控管理节点、根节点、子节点分别使用独立的电源供电,且先于分布式处理***的功能电路上电。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110243326.7A CN112882901B (zh) | 2021-03-04 | 2021-03-04 | 一种分布式处理***健康状态智能监控器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110243326.7A CN112882901B (zh) | 2021-03-04 | 2021-03-04 | 一种分布式处理***健康状态智能监控器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112882901A CN112882901A (zh) | 2021-06-01 |
CN112882901B true CN112882901B (zh) | 2024-06-18 |
Family
ID=76055397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110243326.7A Active CN112882901B (zh) | 2021-03-04 | 2021-03-04 | 一种分布式处理***健康状态智能监控器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112882901B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010379B (zh) * | 2021-03-09 | 2024-03-15 | 爱瑟福信息科技(上海)有限公司 | 电子设备监控*** |
CN113722012A (zh) * | 2021-09-07 | 2021-11-30 | 超越科技股份有限公司 | 一种国产的***级管理*** |
CN114172829B (zh) * | 2022-02-10 | 2022-08-12 | 统信软件技术有限公司 | 一种服务器健康监测方法、***及计算设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109698775A (zh) * | 2018-11-21 | 2019-04-30 | 中国航空工业集团公司洛阳电光设备研究所 | 一种基于实时状态检测的双机冗余备份*** |
CN111880997A (zh) * | 2020-07-29 | 2020-11-03 | 曙光信息产业(北京)有限公司 | 一种分布式监控***、监控方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2750517B1 (fr) * | 1996-06-27 | 1998-08-14 | Bull Sa | Procede de surveillance d'une pluralite de types d'objets d'une pluralite de noeuds a partir d'un noeud d'administration dans un systeme informatique |
US9063966B2 (en) * | 2013-02-01 | 2015-06-23 | International Business Machines Corporation | Selective monitoring of archive and backup storage |
GB2514833A (en) * | 2013-06-07 | 2014-12-10 | Ibm | Portable computer monitoring |
US9348573B2 (en) * | 2013-12-02 | 2016-05-24 | Qbase, LLC | Installation and fault handling in a distributed system utilizing supervisor and dependency manager nodes |
CN106126407B (zh) * | 2016-06-22 | 2018-07-17 | 西安交通大学 | 一种针对分布式存储***的性能监控调优***及方法 |
CN109144802A (zh) * | 2018-09-12 | 2019-01-04 | 杭州智享新电科技有限公司 | 物联网模块健康管理诊断方法 |
US10880434B2 (en) * | 2018-11-05 | 2020-12-29 | Nice Ltd | Method and system for creating a fragmented video recording of events on a screen using serverless computing |
CN110011829B (zh) * | 2019-02-28 | 2021-11-19 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 综合机载任务***健康管理子*** |
-
2021
- 2021-03-04 CN CN202110243326.7A patent/CN112882901B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109698775A (zh) * | 2018-11-21 | 2019-04-30 | 中国航空工业集团公司洛阳电光设备研究所 | 一种基于实时状态检测的双机冗余备份*** |
CN111880997A (zh) * | 2020-07-29 | 2020-11-03 | 曙光信息产业(北京)有限公司 | 一种分布式监控***、监控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112882901A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112882901B (zh) | 一种分布式处理***健康状态智能监控器 | |
US8996924B2 (en) | Monitoring device, monitoring system and monitoring method | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和*** | |
US20020152425A1 (en) | Distributed restart in a multiple processor system | |
EP2093934B1 (en) | System, device, equipment and method for monitoring management | |
CN111831488B (zh) | 具有安全等级设计的tcms-mpu控制单元 | |
CN103544092A (zh) | 一种基于arinc653标准机载电子设备健康监控体系 | |
EP3306422B1 (en) | Arithmetic device and control apparatus | |
CN103853622A (zh) | 一种互为备份的双余度控制方法 | |
CN109240851A (zh) | 一种自主式实现批量bmc自恢复的方法及*** | |
CN105760241A (zh) | 一种内存数据导出方法和*** | |
CN108633129A (zh) | 一种led尾灯电路的故障监测***及监测处理方法 | |
CN100538647C (zh) | 多核处理器的业务流处理方法及多核处理器 | |
CN100498733C (zh) | 一种实现计算机故障报警控制的方法 | |
CN116126772A (zh) | 一种应用于arm服务器的uart串口管理***及方法 | |
CN106407081B (zh) | 一种机箱管理***及服务器 | |
CN111984471B (zh) | 一种机柜电源bmc冗余管理***及方法 | |
CN208063515U (zh) | 一种led尾灯电路的故障监测*** | |
CN103995759A (zh) | 基于核内外协同的高可用计算机***故障处理方法及装置 | |
CN114153189B (zh) | 一种自动驾驶控制器安全诊断及保护方法、***及存储装置 | |
CN111880999B (zh) | 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法 | |
CN101741654B (zh) | 操作***的监控装置与方法 | |
Hughes-Fenchel | A flexible clustered approach to high availability | |
CN111026611A (zh) | 一种服务器散热控制方法及*** | |
CN108388488A (zh) | 一种智能平台管理***及故障处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |