CN108388488A - 一种智能平台管理***及故障处理方法 - Google Patents

一种智能平台管理***及故障处理方法 Download PDF

Info

Publication number
CN108388488A
CN108388488A CN201810470099.XA CN201810470099A CN108388488A CN 108388488 A CN108388488 A CN 108388488A CN 201810470099 A CN201810470099 A CN 201810470099A CN 108388488 A CN108388488 A CN 108388488A
Authority
CN
China
Prior art keywords
bcm
fault
type
failure
master control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810470099.XA
Other languages
English (en)
Inventor
韩霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Haixun Digital Technology Co Ltd
Original Assignee
Beijing Zhongke Haixun Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Haixun Digital Technology Co Ltd filed Critical Beijing Zhongke Haixun Digital Technology Co Ltd
Priority to CN201810470099.XA priority Critical patent/CN108388488A/zh
Publication of CN108388488A publication Critical patent/CN108388488A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种对IPMI***进行故障检测及故障处理的方法,具体包括以下步骤:步骤1,在基板中加入电源管理控制冗余设计;步骤2,在机箱每个基板BCM中加入定时故障检测程序;步骤3,进行错误类型判定,所述错误类型包括基板BCM错误和主控BCM错误;步骤4,进行故障类型判定,所述故障类型包括功能性故障和非功能性故障;步骤5,根据错误类型和故障类型处理故障,若故障类型为非功能性故障,则正常工作并向主控单元发出警告;若发生功能性故障,则根据步骤3中检测的错误类型进行处理。

Description

一种智能平台管理***及故障处理方法
技术领域
本发明涉及一种智能平台管理***及故障处理方法,尤其是一种关于IPMI***发生故障的新型接管式检测处理方法。
背景技术
IPMI(智能平台管理接口)是一种开放标准的硬件管理接口规格,定义了嵌入式管理子***进行通信的特定方式。IPMI信息通过基板管理控制器(Board ManagementController,BMC)进行交流。使用低级硬件智能管理而不使用操作***进行管理。
目前,机箱中的板卡上使用的IPMI的一种处理模型为多个基板管理控制器(BMC)汇总到一个总体控制器,也可以称之为机箱管理控制器(Chassis ManagementController,CMC)上,然后由这个总控单元进行整理汇集,转发。机箱管理控制器本质上其实也是BMC,一般为独立的一种板卡或者独立于其他所需要控制的板卡的一种模块。这种方式于机箱内部采用I2C或SPI总线通信,稳定可靠,主控单元向上位机通过串口或网络发送信息。
但若板卡上BMC出现故障或总控单元(CMC)出现故障,导致硬件健康信息采集的失败或者数据传输的失败,最严重就是硬件上电断电的失败,没有一套相对来说智能的处理解决方案,仅仅是依靠报警提示出现故障,对于发生故障后的处理处于被动接收的状态。
发明内容
为了克服IPMI***板卡BCM单元发生故障后被动处理的不足及可能存在人为处理的不及时导致的危险,本发明提供一种故障检测及接管解决方法,该方法能快速检测到基板BCM出现的故障并在 BCM单元发生致命错误故障的时候自动进行***的接管,从而避免被动处理故障的不及时性而导致的后果。
一种IPMI***,包括机箱,机箱内安装多个基板及一个机箱管理控制器,每块基板包括一个基板管理控制器,所述多个基板管理控制器通过总线汇总连接到所述机箱管理控制器,其特征在于,控制上电的IO口芯片为两套。
具体的,所述IO口芯片一套为正常工作设计,一套为备用,正常情况下备用芯片上电IO为输入状态。两套中采取门电路,电源使能若为低电平有效,使得只有一套为低输出有效,若两套都为输出低电平则输出高电平使得电源不使能。
一种应用于上述IPMI***板卡故障检测及接管解决方法,包括以下步骤:
步骤1,在基板中加入电源管理控制冗余设计。
具体将控制上电的IO口芯片设计为两套,一套为正常工作设计,一套为备用,正常情况下备用芯片上电IO为输入状态。两套中采取门电路,电源使能若为低电平有效,使得只有一套为低输出有效,若两套都为输出低电平则输出高电平使得电源不使能。
步骤2,在机箱每个基板BCM中加入定时故障检测程序。
现有的BCM单元一般为单片机,单片机的优势在于功耗小,***独立,但相对应的处理能力下降,而单片机中程序代码架构一般分为带操作***的如FreeRTOS,以及不带操作***的“裸机”程序(main 函数中死循环方式)。在带有操作***的BCM控制单元中,我们可以独立创建一个线程用来作为定时故障检测,而在“裸机”程序中我们可以在死循环中加入定时故障检测。
优选地,定时故障检测分为两部分,一部分为硬件检测,另一部分为心跳信息检测。
硬件检测,主要指检测关键硬件的应答状态,来判断对这个硬件或芯片的读、写是否有效,例如单片机通过SPI等BUS可以检测到对应PHY芯片的寄存器状态,若寄存器值与设定或者默认值不同则认为出现错误,但错误并不是故障,此刻程序会进行判断硬件设备功能是否正常,此刻会通过机箱内部BUS进行与总控单元进行通信,告知总控单元。
心跳信息检测指规定每隔一段时间,每一个基板BCM给主控 BCM发送心跳信息,其中包含各功能模块是否正常的信息,同时主控BCM给基板BCM回复ACK应答。
步骤3,进行错误类型判定,错误类型包括基板BCM错误和主控BCM错误。错误类型主要跟据硬件检测或者心跳信息检测中地址信息进行判断。进行硬件检测时,如检测出故障的关键硬件位于基板 BCM则为基板BCM错误,如检测出故障的关键硬件位于主控BCM,则为主控BCM错误。
步骤4,进行故障类型判定,故障类型包括功能性故障和非功能性故障。判定故障类型的方法:通过SPI等BUS可以检测到对应PHY 芯片的寄存器状态,若寄存器值与设定或者默认值不同则认为出现错误,但错误并不是故障,此刻程序会进行判断硬件设备功能是否正常,并通过机箱内部BUS进行与总控单元进行通信,告知总控单元。
步骤5,根据错误类型和故障类型处理故障,若故障类型为非功能性故障,则正常工作并向主控单元发出警告;若发生功能性故障,则根据步骤3中检测到不同的错误类型进行处理。所述非功能性故障包括日志,数据传输等;而功能性故障包括上电、断电、温度阈值报警等。
进一步地,发生功能性故障时,若发生主控BCM错误则发出警告并选取新主控BCM,若发生基板BCM故障,则判断是否为电源模块故障。若电源模块故障,则切换冗余模块,若冗余模块不正常则主控BCM控制底板掉电。若不是电源故障,则判断是否为可接管模块,若可接管则由其余BCM接管功能,若不可接管,判断是否为传感器功能故障,若为传感器功能故障则计算中排除该传感器信息,否则停止该功能并发出警告。
通信等中间设备故障:若出错误的为通信等中间设备,则出现错误的BCM与总控BCM进行相应错误设备功能的测试,例如若分管网络的一些芯片电路出现错误信息,则由出现错误的BCM发送网络包至总控BCM,总控BCM若能收到网络包,则进行校验和的计算,检查包是否完整。否则就判定此芯片出现故障,错误信息提交至主控 BCM,然后切换传输方式如I2C、UART、SPI等。
单板功能硬件故障:若为单板功能硬件例如FLASH、EEPROM、传感器等,则对这些芯片进行读写测试。FLASH、EEPROM芯片则由本身BCM测试写入和读取值是否相同,传感器可以读取传感信息这个值是否处于芯片允许理论值范围之内。
但其中最关键的控制电源的芯片电路则只测试是否有应答 (ACK),寄存器的值的测试,若有应答,读写值无问题,则说明此芯片电路仅状态参数出现错误,主控BCM记录此问题,在下次断电开机进行复位操作,测试功能。
若没有问题(除电源管理)则告知出现错误的BCM此错误可以忽略,***不受影响。但电源管理不管出现任何错误都会记录,在下次开机进行检测,若下一次开机失败,则电源管理模块出现问题的基板上的BCM进行切换冗余管理模块进行控制。
如果出现功能性问题,若FLASH或EEPROM等存储介质出现故障,则通知总控单元BCM进行报警,然后由BCM进行分配机箱内其余基板的BCM进行远程接管,即通过内部总线或网络将需要记录的内容发送至无故障的BCM中,由此BCM进行记录。若传感器等实时采集健康状态的芯片出现故障,则排除此故障传感器值的判定,此传感器为无效,任何与之有关的计算都将其排除。
若出现不正常的功能,可以由其他BCM接管,或排除故障模块的干扰等等,具体处理模式可以根据功能处理,传输功能故障可以切换通信方式,监测功能故障可以排除故障模块,控制功能故障可以设计冗余设计,记录功能故障可以由其余BCM接管。
若心跳信息一般可以通过内部总线通信,若内部总线出现故障,则通过网络发送,若都发生故障,则检索之前心跳信息中有无“失联“BCM的关于电源管理模块的错误信息,如果没有,则报警;如果有,则控制底板短短,报警。
BCM定时检测故障功能适用于不管是普通的基板BCM还是主控BCM,若主控BCM出现功能性故障,则通过机箱总线或网络发出主控BCM故障信息,此时其余BCM会进行一个“投票机制”选出接管此主控BCM功能的BCM。
“投票机制”基于板卡BCM的负载均衡进行动态判断,此时所有板卡进入“主控BCM故障”这一个模式,由每个BCM进行自我负载的检测,即单片机测试自己运行速度的检测,具有操作***的可以通过判断所有线程所有代码的多次执行时间得出平均值,而“裸机”程序可以判断死循环内多次的执行时间得出平均值,此刻所有BCM 进行通信,由固定的最小槽位的板卡BCM进行仲裁,得出负载最小的基板BCM接管主控BCM的功能。
本发明的有益效果是,可以在IPMI***中某一或几个BCM 发生故障时快速进行自我智能的判断,选择解决方式,最大限度保护机箱板卡的安全性,除此之外主控BCM的故障通过负载均衡的判断选择最优的基板BCM进行接管,保证机箱IPMI***的功能完整性。
附图说明
为了使本发明的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
图1机箱IPMI架构图
图2故障处理流程图
具体实施方式
一种IPMI***,包括机箱,机箱内安装多个基板及一个机箱管理控制器,每块基板包括一个基板管理控制器,所述多个基板管理控制器通过总线汇总连接到所述机箱管理控制器,其特征在于,控制上电的IO口芯片为两套。
如上所述一种IPMI***,其特征在于,所述IO口芯片一套为正常工作设置,一套为备用,正常情况下备用芯片上电IO为输入状态,两套中采取门电路,电源使能若为低电平有效,使得只有一套为低输出有效,若两套都为输出低电平则输出高电平使得电源不使能。
一种对上述IPMI***进行故障检测及故障处理的方法,具体包括以下步骤:
步骤1,在基板中加入电源管理控制冗余设计;
步骤2,在机箱每个基板BCM中加入定时故障检测程序;
步骤3,进行错误类型判定,所述错误类型包括基板BCM错误和主控BCM错误;
步骤4,进行故障类型判定,所述故障类型包括功能性故障和非功能性故障;
步骤5,根据错误类型和故障类型处理故障,若故障类型为非功能性故障,则正常工作并向主控单元发出警告;若发生功能性故障,则根据步骤3中检测的错误类型进行处理。
一种如上述方法进行故障检测及故障处理的方法,其特征在于,所述步骤3中错误类型主要跟据硬件检测或者心跳信息检测中地址信息进行判断,进行硬件检测时,如检测出故障的关键硬件位于基板 BCM则为基板BCM错误,如检测出故障的关键硬件位于主控BCM,则为主控BCM错误。
一种如上述方法进行故障检测及故障处理的方法,其特征在于,所述步骤4中判定故障类型的方法为:通过SPI等BUS检测到对应 PHY芯片的寄存器状态,若寄存器值与设定或者默认值不同则认为出现错误。
一种如上述方法进行故障检测及故障处理的方法,其特征在于,所述步骤5中若故障类型为非功能性故障,则正常工作并向主控单元发出警告;若发生功能性故障,则根据步骤3中检测到不同的错误类型进行处理,所述非功能性故障包括日志,数据传输等;而功能性故障包括上电、断电、温度阈值报警等。
一种如上述方法进行故障检测及故障处理的方法,其特征在于,所述步骤5中若判断发生功能性故障时,若发生主控BCM错误则发出警告并选取新主控BCM,若发生基板BCM故障,则判断是否为电源模块故障,若电源模块故障,则切换冗余模块,若冗余模块不正常则主控BCM控制底板掉电,若不是电源故障,则判断是否为可接管模块,若可接管则由其余BCM接管功能,若不可接管,判断是否为传感器功能故障,若为传感器功能故障则计算中排除该传感器信息,否则停止该功能并发出警告。
一种如上述方法进行故障检测及故障处理的方法,其特征在于,所述步骤5中若主控BCM出现功能性故障,则通过机箱总线或网络发出主控BCM故障信息,此时其余BCM通过投票机制选出接管此主控BCM功能的BCM,具体包括:基于板卡BCM的负载均衡进行动态判断,此时所有板卡进入“主控BCM故障”这一个模式,由每个BCM进行自我负载的检测,具有操作***的通过判断所有线程所有代码的多次执行时间得出平均值,而“裸机”程序通过判断死循环内多次的执行时间得出平均值,此刻所有BCM进行通信,由固定的最小槽位的板卡BCM进行仲裁,得出负载最小的基板BCM接管主控BCM的功能。

Claims (8)

1.一种IPMI***,包括机箱,机箱内安装多个基板及一个机箱管理控制器,每块基板包括一个基板管理控制器,所述多个基板管理控制器通过总线汇总连接到所述机箱管理控制器,其特征在于,控制上电的IO口芯片为两套。
2.一种IPMI***,其特征在于,所述IO口芯片一套为正常工作设置,一套为备用,正常情况下备用芯片上电IO为输入状态,两套中采取门电路,电源使能若为低电平有效,使得只有一套为低输出有效,若两套都为输出低电平则输出高电平使得电源不使能。
3.一种对权利要求2中IPMI***进行故障检测及故障处理的方法,具体包括以下步骤:
步骤1,在基板中加入电源管理控制冗余设计;
步骤2,在机箱每个基板BCM中加入定时故障检测程序;
步骤3,进行错误类型判定,所述错误类型包括基板BCM错误和主控BCM错误;
步骤4,进行故障类型判定,所述故障类型包括功能性故障和非功能性故障;
步骤5,根据错误类型和故障类型处理故障,若故障类型为非功能性故障,则正常工作并向主控单元发出警告;若发生功能性故障,则根据步骤3中检测的错误类型进行处理。
4.一种如权利要求3所述进行故障检测及故障处理的方法,其特征在于,所述步骤3中错误类型主要跟据硬件检测或者心跳信息检测中地址信息进行判断,进行硬件检测时,如检测出故障的关键硬件位于基板BCM则为基板BCM错误,如检测出故障的关键硬件位于主控BCM,则为主控BCM错误。
5.一种如权利要求4所述进行故障检测及故障处理的方法,其特征在于,所述步骤4中判定故障类型的方法为:通过SPI等BUS检测到对应PHY芯片的寄存器状态,若寄存器值与设定或者默认值不同则认为出现错误。
6.一种如权利要求5所述进行故障检测及故障处理的方法,其特征在于,所述步骤5中若故障类型为非功能性故障,则正常工作并向主控单元发出警告;若发生功能性故障,则根据步骤3中检测到不同的错误类型进行处理,所述非功能性故障包括日志,数据传输等;而功能性故障包括上电、断电、温度阈值报警等。
7.一种如权利要求6所述进行故障检测及故障处理的方法,其特征在于,所述步骤5中若判断发生功能性故障时,若发生主控BCM错误则发出警告并选取新主控BCM,若发生基板BCM故障,则判断是否为电源模块故障,若电源模块故障,则切换冗余模块,若冗余模块不正常则主控BCM控制底板掉电,若不是电源故障,则判断是否为可接管模块,若可接管则由其余BCM接管功能,若不可接管,判断是否为传感器功能故障,若为传感器功能故障则计算中排除该传感器信息,否则停止该功能并发出警告。
8.一种如权利要求6所述进行故障检测及故障处理的方法,其特征在于,所述步骤5中若主控BCM出现功能性故障,则通过机箱总线或网络发出主控BCM故障信息,此时其余BCM通过投票机制选出接管此主控BCM功能的BCM,具体包括:基于板卡BCM的负载均衡进行动态判断,此时所有板卡进入“主控BCM故障”这一个模式,由每个BCM进行自我负载的检测,具有操作***的通过判断所有线程所有代码的多次执行时间得出平均值,而“裸机”程序通过判断死循环内多次的执行时间得出平均值,此刻所有BCM进行通信,由固定的最小槽位的板卡BCM进行仲裁,得出负载最小的基板BCM接管主控BCM的功能。
CN201810470099.XA 2018-05-16 2018-05-16 一种智能平台管理***及故障处理方法 Pending CN108388488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810470099.XA CN108388488A (zh) 2018-05-16 2018-05-16 一种智能平台管理***及故障处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810470099.XA CN108388488A (zh) 2018-05-16 2018-05-16 一种智能平台管理***及故障处理方法

Publications (1)

Publication Number Publication Date
CN108388488A true CN108388488A (zh) 2018-08-10

Family

ID=63071889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810470099.XA Pending CN108388488A (zh) 2018-05-16 2018-05-16 一种智能平台管理***及故障处理方法

Country Status (1)

Country Link
CN (1) CN108388488A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035497A (zh) * 2021-10-26 2022-02-11 江西五十铃汽车有限公司 一种适用于汽车涂装厂面漆烘干炉的应急切换控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035497A (zh) * 2021-10-26 2022-02-11 江西五十铃汽车有限公司 一种适用于汽车涂装厂面漆烘干炉的应急切换控制方法

Similar Documents

Publication Publication Date Title
CN106055438B (zh) 一种快速定位主板上内存条异常的方法及***
CN103544092B (zh) 一种基于arinc653标准机载电子设备健康监控***
US20070234123A1 (en) Method for detecting switching failure
EP3627323B1 (en) Automatic diagnostic mode
CN108304299A (zh) 服务器上电状态监测***及方法、计算机存储器及设备
JPS61131108A (ja) 電源制御スイツチングシステム
CN104320308B (zh) 一种服务器异常检测的方法及装置
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN106936616A (zh) 备份通信方法和装置
CN111581043A (zh) 服务器功耗的监控方法、装置和服务器
CN101379470A (zh) 对冷却模块进行潜在故障检查的方法
CN110445638A (zh) 一种交换机***故障保护方法及装置
CN112882901B (zh) 一种分布式处理***健康状态智能监控器
CN105760241A (zh) 一种内存数据导出方法和***
CN108363477A (zh) 服务器上电状态监测***及方法、计算机存储器及设备
CN101494564B (zh) 一种电源监控装置及单板热备份的实现方法
CN111488050B (zh) 一种电源监控方法、***及服务器
CN108388488A (zh) 一种智能平台管理***及故障处理方法
CN113791937A (zh) 一种数据同步冗余***及其控制方法
CN109003646A (zh) 一种数据处理方法及单片机
CN109597389A (zh) 一种嵌入式控制***的测试***
CN105740191A (zh) AXIe仪器模块智能平台管理控制装置及控制方法
CN105280966A (zh) 多个电池单元感测板通信丧失的探测诊断
CN115934446A (zh) 一种自检方法、服务器、设备和存储介质
CN115728665A (zh) 一种电源故障检测电路、方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180810

WD01 Invention patent application deemed withdrawn after publication