CN111488050A - 一种电源监控方法、***及服务器 - Google Patents

一种电源监控方法、***及服务器 Download PDF

Info

Publication number
CN111488050A
CN111488050A CN202010300845.8A CN202010300845A CN111488050A CN 111488050 A CN111488050 A CN 111488050A CN 202010300845 A CN202010300845 A CN 202010300845A CN 111488050 A CN111488050 A CN 111488050A
Authority
CN
China
Prior art keywords
power supply
monitoring device
fault
monitoring
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010300845.8A
Other languages
English (en)
Other versions
CN111488050B (zh
Inventor
滕学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010300845.8A priority Critical patent/CN111488050B/zh
Publication of CN111488050A publication Critical patent/CN111488050A/zh
Application granted granted Critical
Publication of CN111488050B publication Critical patent/CN111488050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种电源监控方法,检测电源和用于监控电源的工作状况的监控装置之间的通信链路是否中断;若未中断,则确定监控装置的电源故障报警有效;若中断,则确定监控装置的电源故障报警无效,并复位电源和监控装置的通信端口及二者之间的通信总线,以修复二者之间的通信链路。可见,本申请在监控装置与电源通信中断时,确定监控装置误报警,并修复监控装置与电源之间的通信链路,从而避免因监控装置与电源通信中断导致的误报警问题。本发明还公开了一种电源监控***及服务器,与上述电源监控方法具有相同的有益效果。

Description

一种电源监控方法、***及服务器
技术领域
本发明涉及电源监控领域,特别是涉及一种电源监控方法、***及服务器。
背景技术
数据中心的服务器承担着数据计算、存储的重要作用,一旦服务器的电源发生故障,服务器会宕机,这种情况易造成服务器的数据丢失。目前,为了避免因电源故障而导致的数据丢失情况,会为服务器配置由两个完全一样的电源组成的电源***,并为电源***配置用于监控两电源工作状况的监控装置,当监控装置监控到一个电源出现故障时,转由另一个电源接管供电工作,以继续保障服务器的正常运转。但是,在监控装置与电源通信过程中,可能会因电磁干扰导致二者握手失败、通信中断,此时监控装置无法执行对电源的监控,会进行电源故障报警,从而存在误报警问题。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种电源监控方法、***及服务器,在监控装置与电源通信中断时,确定监控装置误报警,并修复监控装置与电源之间的通信链路,从而避免因监控装置与电源通信中断导致的误报警问题。
为解决上述技术问题,本发明提供了一种电源监控方法,包括:
检测电源和与所述电源直连且用于监控所述电源的工作状况的监控装置之间的通信链路是否中断;
若否,则确定所述监控装置的电源故障报警有效;
若是,则确定所述监控装置的电源故障报警无效,并复位所述电源和所述监控装置的通信端口及二者之间的通信总线,以修复所述通信链路。
优选地,所述电源监控方法还包括:
预先建立用于存储电源故障信息的寄存器的地址与其所存储的电源故障信息之间的地址信息对应关系;
在分析所述电源的运行参数信息得到所述电源的实际故障信息之后,根据所述地址信息对应关系确定与所述实际故障信息对应的目标地址,并将所述目标地址对应的目标寄存器写入预设故障值,供所述监控装置读取。
优选地,所述运行参数信息包括所述电源的输入输出参数信息和所述电源内部关键元器件的运行参数信息;
且所述电源监控方法还包括:
在分析出所述电源的实际故障信息时,记录所述电源的故障分析情况;
周期性获取所述电源的当前运行参数信息,并结合历史记录的故障分析情况预测所述电源的未来故障情况。
优选地,所述电源监控方法还包括:
预先建立用于根据电源故障信息查找电源故障类型及故障处理方式的索引关系对应表;
在分析所述电源的运行参数信息得到所述电源的实际故障信息之后,根据所述索引关系对应表查找到所述实际故障信息对应的电源故障类型及故障处理方式。
优选地,所述电源监控方法还包括:
当查找到的故障处理方式为升级固件方式时,触发所述电源中用于固件升级的芯片进行在线固件升级。
优选地,所述芯片包括第一芯片核和第二芯片核;
相应的,所述触发所述电源中用于固件升级的芯片进行在线固件升级的过程,包括:
检测预指定执行固件升级操作的第一芯片核是否故障;
若否,则触发所述第一芯片核执行固件升级操作;
若是,则触发所述第二芯片核执行固件升级操作。
为解决上述技术问题,本发明还提供了一种电源监控***,包括:
设于电源内的第一通信抗容错模块,用于在检测电源和与所述电源直连且用于监控所述电源的工作状况的监控装置之间的通信链路中断时,复位所述电源的通信端口;
设于所述监控装置内的第二通信抗容错模块,用于检测所述电源和所述监控装置之间的通信链路是否中断,若否,则确定所述监控装置的电源故障报警有效;若是,则确定所述监控装置的电源故障报警无效,并复位所述监控装置的通信端口及与所述电源之间的通信总线,以修复所述通信链路。
优选地,所述电源监控***还包括:
设于所述电源内、用于存储电源故障信息的寄存器;
设于所述电源内的故障处理模块,用于预先建立所述寄存器的地址与其所存储的电源故障信息之间的地址信息对应关系;在分析所述电源的运行参数信息得到所述电源的实际故障信息之后,根据所述地址信息对应关系确定与所述实际故障信息对应的目标地址,并将所述目标地址对应的目标寄存器写入预设故障值,供所述监控装置读取。
为解决上述技术问题,本发明还提供了一种服务器,包括电源和与所述电源直连且用于监控所述电源的工作状况的监控装置;其中,所述电源采用上述任一种电源监控方法进行监控。
优选地,所述监控装置具体为所述服务器内的BMC。
本发明提供了一种电源监控方法,检测电源和用于监控电源的工作状况的监控装置之间的通信链路是否中断;若未中断,则确定监控装置的电源故障报警有效;若中断,则确定监控装置的电源故障报警无效,并复位电源和监控装置的通信端口及二者之间的通信总线,以修复二者之间的通信链路。可见,本申请在监控装置与电源通信中断时,确定监控装置误报警,并修复监控装置与电源之间的通信链路,从而避免因监控装置与电源通信中断导致的误报警问题。
本发明还提供了一种电源监控***及服务器,与上述电源监控方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电源监控方法的流程图;
图2为本发明实施例提供的一种在Intel芯片拓扑结构下的电源监控示意图;
图3为本发明实施例提供的一种改进后的电源监控示意图;
图4为本发明实施例提供的一种电源故障的监控示意图。
具体实施方式
本发明的核心是提供一种电源监控方法、***及服务器,在监控装置与电源通信中断时,确定监控装置误报警,并修复监控装置与电源之间的通信链路,从而避免因监控装置与电源通信中断导致的误报警问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种电源监控方法的流程图。
该电源监控方法包括:
步骤S1:检测电源和与电源直连且用于监控电源的工作状况的监控装置之间的通信链路是否中断;若否,则执行步骤S2;若是,则执行步骤S3。
步骤S2:确定监控装置的电源故障报警有效。
步骤S3:确定监控装置的电源故障报警无效,并复位电源和监控装置的通信端口及二者之间的通信总线,以修复通信链路。
具体地,请参照图2,图2为本发明实施例提供的一种在Intel芯片拓扑结构下的电源监控示意图。在监控电源的过程中,首先Intel芯片组芯片ME(Management Engine,管理引擎)通过I2C总线读取电源的信息,然后监控装置(如BMC(Baseboard ManagementController,基板管理控制器)作为监控装置)通过另一路I2C总线从ME内部读取电源的信息,以保证监控装置实时监控电源的信息,在此过程中ME起桥接作用。当服务器处于S5状态时(服务器主板状态之一,S5代表主板AC已经上电但是没有开机),ME是不能正常工作的;当服务器进入S0状态后(服务器主板状态之一,S0代表主板已经开机),ME才开始正常工作;当服务器从S5状态进入S0状态时,主板开机信号会同时给到监控装置和PCH(PlatformControllerHub,集成南桥),监控装置在收到此信号之后会去监控电源的信息,PCH在收到此信号之后会控制服务器开机;在此过程中,会概率性的存在监控装置扫描监控电源的信息时,ME还没有正常工作的情形,导致监控装置和ME之间无法通信,监控装置在侦测到无法通信之后会记录电源故障并报警,然而这种“误”报警并不是真正的“故障”,会给运维人员带来很大的工作量。
为解决上述问题,本申请的电源和用于监控电源的工作状况的监控装置之间采用直连拓扑设计,如图3所示,即监控装置在任何状态下都是直接与电源通信,没有中间环节,从而有效解决了因中间环节导致的“误”报警问题。
此外,考虑到在监控装置与电源通信的过程中,可能会因电磁干扰导致二者握手失败、通信中断,此时监控装置无法执行对电源的监控,会进行电源故障报警,从而存在误报警问题,所以本申请采用的技术手段为:
检测电源和监控装置之间的通信链路是否中断,若二者之间的通信链路未中断,说明监控装置不是因与电源的通信中断发生的电源故障报警,则确定监控装置的电源故障报警有效;若二者之间的通信链路中断,说明监控装置是因与电源的通信中断发生的电源故障报警,则确定监控装置的电源故障报警无效,即确定监控装置因与电源的通信中断而存在误报警问题,并进行监控装置与电源之间的通信修复。
监控装置与电源之间的通信修复操作具体为:在电源内设置第一通信抗容错模块,第一通信抗容错模块检测电源是否与监控装置通信中断,若通信中断,则复位电源的通信端口,以恢复电源自身的通信端口;若通信未中断,则不执行电源通信端口的复位操作。同理,在监控装置内设置第二通信抗容错模块,第二通信抗容错模块检测监控装置是否与电源通信中断,若通信中断,则复位监控装置的通信端口,以恢复监控装置自身的通信端口;同时,第二通信抗容错模块复位监控装置与电源之间的通信总线,以修复通信链路;若通信未中断,则不执行装置通信端口及通信总线的复位操作。
更具体地,第一通信抗容错模块检测电源与监控装置通信中断的方式:对监控装置轮询电源的时间进行记录,如果监控装置15个轮询周期(监控装置通常一秒轮询一次电源,则15个轮询周期即为15秒)没有来访问电源,则确定电源与监控装置的通信中断,执行复位电源的通信端口的操作,从而保证在电源与监控装置通信的过程中,解决因电源自身的通信端口出现故障而及时恢复的问题。第二通信抗容错模块检测监控装置与电源通信中断的方式:周期性侦测并识别出监控装置不响应电源通信时,则确定监控装置与电源的通信中断,执行复位监控装置的通信端口的操作,从而保证在监控装置与电源通信的过程中,解决因监控装置自身的通信端口出现故障而及时恢复的问题。此外,第二通信抗容错模块在通信过程中,侦测到PEC(Parity Check,奇偶校验)传输错误时,也会执行复位监控装置的通信端口的操作。第二通信抗容错模块复位监控装置与电源之间的通信总线的方式:向电源重新传输监控装置与电源建立通信的信号(9个clock)。
本发明提供了一种电源监控方法,检测电源和用于监控电源的工作状况的监控装置之间的通信链路是否中断;若未中断,则确定监控装置的电源故障报警有效;若中断,则确定监控装置的电源故障报警无效,并复位电源和监控装置的通信端口及二者之间的通信总线,以修复二者之间的通信链路。可见,本申请在监控装置与电源通信中断时,确定监控装置误报警,并修复监控装置与电源之间的通信链路,从而避免因监控装置与电源通信中断导致的误报警问题。
在上述实施例的基础上:
作为一种可选的实施例,电源监控方法还包括:
预先建立用于存储电源故障信息的寄存器的地址与其所存储的电源故障信息之间的地址信息对应关系;
在分析电源的运行参数信息得到电源的实际故障信息之后,根据地址信息对应关系确定与实际故障信息对应的目标地址,并将目标地址对应的目标寄存器写入预设故障值,供监控装置读取。
需要说明的是,本申请的预设是提前设置好的,只需要设置一次,除非根据实际情况需要修改,否则不需要重新设置。
进一步地,本申请还可提前建立用于存储电源故障信息的寄存器的地址与其所存储的电源故障信息之间的对应关系(简称地址信息对应关系,可以以表格形式体现),即地址信息对应关系表征了用于存储电源故障信息的寄存器中每个寄存器具体存储的是电源的哪种故障信息(如OVP过压故障、UVP欠压故障)。基于此,本申请在分析电源的运行参数信息得到电源的实际故障信息之后,可根据所建立的地址信息对应关系确定与得到的实际故障信息对应的目标地址,即用于存储得到的实际故障信息的目标寄存器的地址,然后基于目标寄存器的地址,将预设故障值写入目标寄存器中,表示电源存在与实际故障信息对应的故障。与此同时,监控装置可与电源交互,以读取电源内寄存器中的存储信息,从而根据寄存器中的存储信息确定电源的故障情况。
更具体地,请参照图4,图4为本发明实施例提供的一种电源故障的监控示意图。监控装置监控电源故障的具体方式为:在电源内设有故障处理模块和用于存储电源故障信息的寄存器,其中,故障处理模块预先建立寄存器的地址与其所存储的电源故障信息之间的地址信息对应关系,在分析电源的运行参数信息得到电源的实际故障信息之后,根据地址信息对应关系确定与实际故障信息对应的目标地址,并将目标地址对应的目标寄存器写入预设故障值,供监控装置读取。
作为一种可选的实施例,运行参数信息包括电源的输入输出参数信息和电源内部关键元器件的运行参数信息;
且电源监控方法还包括:
在分析出电源的实际故障信息时,记录电源的故障分析情况;
周期性获取电源的当前运行参数信息,并结合历史记录的故障分析情况预测电源的未来故障情况。
进一步地,本申请分析电源的运行参数信息得到电源的实际故障信息,具体分析的是电源的输入输出参数信息和电源内部关键元器件的运行参数信息,其中,分析电源的输入输出参数信息得到的是电源外在显性的故障,分析电源内部关键元器件的运行参数信息得到的是电源内在结构的故障,如电源内部关键元器件的电压、电流、温度全方位的故障和超标信息。
基于此,本申请可在分析出电源的实际故障信息时,记录电源的故障分析情况,作为后续预判电源故障的依据。而且,本申请周期性获取电源的当前运行参数信息,并结合历史记录的故障分析情况预测电源未来的故障情况。
更具体地,故障处理模块分析电源的运行参数信息得到电源的实际故障信息,并记录电源的故障分析日志,且将电源的故障分析日志发送至监控装置保存。监控装置从故障处理模块周期轮询电源的当前运行参数信息,并结合历史保存的故障分析日志预测电源未来的故障情况。
作为一种可选的实施例,电源监控方法还包括:
预先建立用于根据电源故障信息查找电源故障类型及故障处理方式的索引关系对应表;
在分析电源的运行参数信息得到电源的实际故障信息之后,根据索引关系对应表查找到实际故障信息对应的电源故障类型及故障处理方式。
进一步地,本申请还可提前建立用于根据电源故障信息查找电源故障类型及故障处理方式的索引关系对应表,即索引关系对应表表征了任一种电源故障信息对应的电源故障类型及故障处理方式。基于此,本申请在分析电源的运行参数信息得到电源的实际故障信息之后,可根据索引关系对应表查找到得到的实际故障信息对应的电源故障类型及故障处理方式。
更具体地,故障处理模块分析电源的运行参数信息得到电源的实际故障信息,并将实际故障信息发送至监控装置(如BMC)。BMC提前存储索引关系对应表,在接收到实际故障信息之后,根据索引关系对应表查找到得到的实际故障信息对应的电源故障类型及故障处理方式。针对运维人员来说,远程访问BMC WEB界面就可以知道故障类型及对当前的故障如何处理,从而节省了维护费用。
作为一种可选的实施例,电源监控方法还包括:
当查找到的故障处理方式为升级固件方式时,触发电源中用于固件升级的芯片进行在线固件升级。
进一步地,若电源当前的故障信息对应的故障处理方式为升级固件方式,则通过升级电源固件的方式消除电源当前的故障。现有的***升级方式为:离线电源升级,即把电源从***中拿出,用治具板、电脑、烧录器、USB(Universal Serial Bus,通用串行总线)线缆、USB转化头、PMBus(PowerManagement Bus,电源管理总线)线缆组成的工具,逐台线下给电源进行固件升级,比较繁琐。而本申请采用的是在线升级,具体是监控装置向电源下发升级指令,以触发电源中用于固件升级的芯片进行在线固件升级,比较简便。
作为一种可选的实施例,芯片包括第一芯片核和第二芯片核;
相应的,触发电源中用于固件升级的芯片进行在线固件升级的过程,包括:
检测预指定执行固件升级操作的第一芯片核是否故障;
若否,则触发第一芯片核执行固件升级操作;
若是,则触发第二芯片核执行固件升级操作。
具体地,本申请的用于固件升级的芯片采用双核芯片,即有两个芯片核互为镜像保证,如果一个芯片核故障,有另一个芯片核可以继续执行固件升级操作,能确保电源固件在线有效升级成功,同时还可以防止***在固件升级的过程中因异常(如中断、干扰、错码、在升级过程中突然掉电等异常情况)而导致升级失败,进而导致***崩溃的情况发生。
本申请还提供了一种电源监控***,包括:
设于电源内的第一通信抗容错模块,用于在检测电源和与电源直连且用于监控电源的工作状况的监控装置之间的通信链路中断时,复位电源的通信端口;
设于监控装置内的第二通信抗容错模块,用于检测电源和监控装置之间的通信链路是否中断,若否,则确定监控装置的电源故障报警有效;若是,则确定监控装置的电源故障报警无效,并复位监控装置的通信端口及与电源之间的通信总线,以修复通信链路。
作为一种可选的实施例,电源监控***还包括:
设于电源内、用于存储电源故障信息的寄存器;
设于电源内的故障处理模块,用于预先建立寄存器的地址与其所存储的电源故障信息之间的地址信息对应关系;在分析电源的运行参数信息得到电源的实际故障信息之后,根据地址信息对应关系确定与实际故障信息对应的目标地址,并将目标地址对应的目标寄存器写入预设故障值,供监控装置读取。
本申请提供的电源监控***的介绍请参考上述电源监控方法的实施例,本申请在此不再赘述。
本申请还提供了一种服务器,包括电源和与电源直连且用于监控电源的工作状况的监控装置;其中,电源采用上述任一种电源监控方法进行监控。
作为一种可选的实施例,监控装置具体为服务器内的BMC。
本申请提供的服务器的介绍请参考上述电源监控方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种电源监控方法,其特征在于,包括:
检测电源和与所述电源直连且用于监控所述电源的工作状况的监控装置之间的通信链路是否中断;
若否,则确定所述监控装置的电源故障报警有效;
若是,则确定所述监控装置的电源故障报警无效,并复位所述电源和所述监控装置的通信端口及二者之间的通信总线,以修复所述通信链路。
2.如权利要求1所述的电源监控方法,其特征在于,所述电源监控方法还包括:
预先建立用于存储电源故障信息的寄存器的地址与其所存储的电源故障信息之间的地址信息对应关系;
在分析所述电源的运行参数信息得到所述电源的实际故障信息之后,根据所述地址信息对应关系确定与所述实际故障信息对应的目标地址,并将所述目标地址对应的目标寄存器写入预设故障值,供所述监控装置读取。
3.如权利要求2所述的电源监控方法,其特征在于,所述运行参数信息包括所述电源的输入输出参数信息和所述电源内部关键元器件的运行参数信息;
且所述电源监控方法还包括:
在分析出所述电源的实际故障信息时,记录所述电源的故障分析情况;
周期性获取所述电源的当前运行参数信息,并结合历史记录的故障分析情况预测所述电源的未来故障情况。
4.如权利要求1所述的电源监控方法,其特征在于,所述电源监控方法还包括:
预先建立用于根据电源故障信息查找电源故障类型及故障处理方式的索引关系对应表;
在分析所述电源的运行参数信息得到所述电源的实际故障信息之后,根据所述索引关系对应表查找到所述实际故障信息对应的电源故障类型及故障处理方式。
5.如权利要求4所述的电源监控方法,其特征在于,所述电源监控方法还包括:
当查找到的故障处理方式为升级固件方式时,触发所述电源中用于固件升级的芯片进行在线固件升级。
6.如权利要求5所述的电源监控方法,其特征在于,所述芯片包括第一芯片核和第二芯片核;
相应的,所述触发所述电源中用于固件升级的芯片进行在线固件升级的过程,包括:
检测预指定执行固件升级操作的第一芯片核是否故障;
若否,则触发所述第一芯片核执行固件升级操作;
若是,则触发所述第二芯片核执行固件升级操作。
7.一种电源监控***,其特征在于,包括:
设于电源内的第一通信抗容错模块,用于在检测电源和与所述电源直连且用于监控所述电源的工作状况的监控装置之间的通信链路中断时,复位所述电源的通信端口;
设于所述监控装置内的第二通信抗容错模块,用于检测所述电源和所述监控装置之间的通信链路是否中断,若否,则确定所述监控装置的电源故障报警有效;若是,则确定所述监控装置的电源故障报警无效,并复位所述监控装置的通信端口及与所述电源之间的通信总线,以修复所述通信链路。
8.如权利要求7所述的电源监控***,其特征在于,所述电源监控***还包括:
设于所述电源内、用于存储电源故障信息的寄存器;
设于所述电源内的故障处理模块,用于预先建立所述寄存器的地址与其所存储的电源故障信息之间的地址信息对应关系;在分析所述电源的运行参数信息得到所述电源的实际故障信息之后,根据所述地址信息对应关系确定与所述实际故障信息对应的目标地址,并将所述目标地址对应的目标寄存器写入预设故障值,供所述监控装置读取。
9.一种服务器,其特征在于,包括电源和与所述电源直连且用于监控所述电源的工作状况的监控装置;其中,所述电源采用如权利要求1-6任一项所述的电源监控方法进行监控。
10.如权利要求9所述的服务器,其特征在于,所述监控装置具体为所述服务器内的BMC。
CN202010300845.8A 2020-04-16 2020-04-16 一种电源监控方法、***及服务器 Active CN111488050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010300845.8A CN111488050B (zh) 2020-04-16 2020-04-16 一种电源监控方法、***及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010300845.8A CN111488050B (zh) 2020-04-16 2020-04-16 一种电源监控方法、***及服务器

Publications (2)

Publication Number Publication Date
CN111488050A true CN111488050A (zh) 2020-08-04
CN111488050B CN111488050B (zh) 2022-04-22

Family

ID=71791756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010300845.8A Active CN111488050B (zh) 2020-04-16 2020-04-16 一种电源监控方法、***及服务器

Country Status (1)

Country Link
CN (1) CN111488050B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113625696A (zh) * 2021-08-31 2021-11-09 东风商用车有限公司 车载控制器过流保护的安全处理方法及***
CN117527478A (zh) * 2024-01-05 2024-02-06 西安图为电气技术有限公司 一种用于电源模块的监控***及电源模块管理***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685582A (zh) * 2002-11-12 2005-10-19 大动力有限公司 用于控制负载点调节器的***和方法
CN101102377A (zh) * 2007-07-24 2008-01-09 北京意科通信技术有限责任公司 一种通信电源运行管理以及预警***以及方法
CN102624584A (zh) * 2012-03-01 2012-08-01 中兴通讯股份有限公司 链路检测方法及装置
CN103792923A (zh) * 2014-02-14 2014-05-14 浪潮电子信息产业股份有限公司 一种采用数字芯片侦测和控制主板各组电源的方法
CN104656531A (zh) * 2015-01-16 2015-05-27 张泽 一种智能设备的监控方法和装置
US20150268310A1 (en) * 2014-03-24 2015-09-24 International Business Machines Corporation Method and system for managing power faults
CN105897491A (zh) * 2016-06-24 2016-08-24 努比亚技术有限公司 一种过滤无效监控报警信息的方法及其装置
CN106292986A (zh) * 2016-08-08 2017-01-04 浪潮电子信息产业股份有限公司 一种服务器电源psu故障确定方法及装置
CN106712287A (zh) * 2016-11-21 2017-05-24 国家电网公司 一种智能变电站智能告警分析***
CN106788712A (zh) * 2017-01-11 2017-05-31 山西恒海创盈科技有限公司 电力光缆在线智能监测***
CN108399116A (zh) * 2018-03-02 2018-08-14 郑州云海信息技术有限公司 一种服务器上电状态监测***及方法
CN109885151A (zh) * 2019-01-31 2019-06-14 郑州云海信息技术有限公司 一种服务器电源监控方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685582A (zh) * 2002-11-12 2005-10-19 大动力有限公司 用于控制负载点调节器的***和方法
CN101102377A (zh) * 2007-07-24 2008-01-09 北京意科通信技术有限责任公司 一种通信电源运行管理以及预警***以及方法
CN102624584A (zh) * 2012-03-01 2012-08-01 中兴通讯股份有限公司 链路检测方法及装置
CN103792923A (zh) * 2014-02-14 2014-05-14 浪潮电子信息产业股份有限公司 一种采用数字芯片侦测和控制主板各组电源的方法
US20150268310A1 (en) * 2014-03-24 2015-09-24 International Business Machines Corporation Method and system for managing power faults
CN104656531A (zh) * 2015-01-16 2015-05-27 张泽 一种智能设备的监控方法和装置
CN105897491A (zh) * 2016-06-24 2016-08-24 努比亚技术有限公司 一种过滤无效监控报警信息的方法及其装置
CN106292986A (zh) * 2016-08-08 2017-01-04 浪潮电子信息产业股份有限公司 一种服务器电源psu故障确定方法及装置
CN106712287A (zh) * 2016-11-21 2017-05-24 国家电网公司 一种智能变电站智能告警分析***
CN106788712A (zh) * 2017-01-11 2017-05-31 山西恒海创盈科技有限公司 电力光缆在线智能监测***
CN108399116A (zh) * 2018-03-02 2018-08-14 郑州云海信息技术有限公司 一种服务器上电状态监测***及方法
CN109885151A (zh) * 2019-01-31 2019-06-14 郑州云海信息技术有限公司 一种服务器电源监控方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113625696A (zh) * 2021-08-31 2021-11-09 东风商用车有限公司 车载控制器过流保护的安全处理方法及***
CN117527478A (zh) * 2024-01-05 2024-02-06 西安图为电气技术有限公司 一种用于电源模块的监控***及电源模块管理***

Also Published As

Publication number Publication date
CN111488050B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN111324192A (zh) 一种***板卡电源检测方法、装置、设备及存储介质
US7589624B2 (en) Component unit monitoring system and component unit monitoring method
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和***
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
JP2001325124A (ja) 計算機、システム管理支援装置及び管理方法
CN111488050B (zh) 一种电源监控方法、***及服务器
TW201119173A (en) Method of using power supply to execute remote monitoring of an electronic system
CN110032465A (zh) 一种bmc重启日志记录方法和装置
CN116126772A (zh) 一种应用于arm服务器的uart串口管理***及方法
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、***及介质
CN116775141A (zh) 异常检测方法、装置、计算机设备及存储介质
CN114816022A (zh) 一种服务器电源异常监控方法、***及存储介质
CN116225812B (zh) 基板管理控制器***运行方法、装置、设备及存储介质
CN115562900B (zh) Amd服务器***安装断电处理方法、装置、设备及介质
CN115728665A (zh) 一种电源故障检测电路、方法及***
CN115470056A (zh) 服务器硬件上电启动故障排查方法、***、装置及介质
CN100369009C (zh) 使用***管理中断信号的监控***及方法
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
CN111414274A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN114884021B (zh) 一种供电电路的供电控制方法及相关组件
CN111416721A (zh) 运用于数据中心的机柜异常状态的远端排除方法
CN108388488A (zh) 一种智能平台管理***及故障处理方法
CN113836035B (zh) 电池管理***测试方法、装置及电子设备
CN117573455B (zh) 一种pcie设备检测***、方法、装置及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant