CN114816022B - 一种服务器电源异常监控方法、***及存储介质 - Google Patents

一种服务器电源异常监控方法、***及存储介质 Download PDF

Info

Publication number
CN114816022B
CN114816022B CN202210463541.2A CN202210463541A CN114816022B CN 114816022 B CN114816022 B CN 114816022B CN 202210463541 A CN202210463541 A CN 202210463541A CN 114816022 B CN114816022 B CN 114816022B
Authority
CN
China
Prior art keywords
power
abnormal
bmc
server
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210463541.2A
Other languages
English (en)
Other versions
CN114816022A (zh
Inventor
于淏宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210463541.2A priority Critical patent/CN114816022B/zh
Publication of CN114816022A publication Critical patent/CN114816022A/zh
Application granted granted Critical
Publication of CN114816022B publication Critical patent/CN114816022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种服务器电源异常监控方法、***及存储介质,涉及计算机的技术领域。所述方法包括:启动服务器,按照上电时序开始上电;服务器启动过程中,CPLD持续监控服务器上电状态;当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;根据BMC的启动状态确定所述上电异常信息的存储位置。本发明能够在发生异常时记录电源状态,以便后续快速分析定位问题原因。

Description

一种服务器电源异常监控方法、***及存储介质
技术领域
本发明涉及计算机的技术领域,具体涉及一种服务器电源异常监控方法、***及存储介质。
背景技术
在大数据时代,数据中心承载海量的运算数据,所部署的服务器密度越来越大,对服务器的稳定性和可靠性的要求不断提高。因服务器需要24小时不间断运作,随着使用时间的增长,会导致服务器出现故障的因素也在不断增多。当部署在数据中心内的服务器发生异常掉电故障时,需要将当前电源状态记录下来以便后续供工程师进行分析,快速定位故障原因。所以,制定一个快速、准确并稳定的故障记录机制是本领域技术人员亟待解决的技术问题。
如图1所述,现有技术中采用的故障检测和记录机制是基于CPLD(复杂可编程逻辑器件)和BMC(基板管理控制器)来搭配实现的。服务器的关键电源信号会通过硬件接到CPLD,在开机时由CPLD按照事先设计好的上电时序依次拉高或拉低,以完成服务器开机上电流程。在服务器开机和运行过程中,CPLD会持续监控接进来的电源信号状态,其中包括CPU(中央处理器)、PSU(电源供应器)、DIMM(双列直插式存储模块)、智能网卡(OCP)等设备的EN、PWRGD、Alert等信号。如图1所示,并将实时状态通过i2c总线上报给BMC。出现异常时,技术人员可以根据BMC记录的日志定位故障原因。但是在上述监控过程中,存在以下问题:
(1)在上电开机过程若出现异常,如某一个关键信号电源信号上电超时或异常掉电,CPLD可以检测到异常但由于此时BMC可能尚未成功启动或者仍处于启动过程中,无法接收CPLD上报的异常状态,使得异常原因无法被记录。如果此次故障是概率性出现就会导致后续定位故障原因十分困难;
(2)在服务器运行过程中,部分电信号出现异常后会导致BMC挂死,进而导致无法记录异常;
(3)部分客户会要求出现异常掉电后立刻关机以保护设备,这就造成出现异常后BMC尚未从CPLD中获取到各电源信号状态,服务器就已经关机掉电使得BMC无法记录异常。
发明内容
为了解决上述背景技术中提到的至少一个问题,本发明提供了一种服务器电源异常监控方法、***及存储介质,CPLD能够在发生异常时记录电源状态,以便后续快速分析定位问题原因。
本发明实施例提供的具体技术方案如下:
第一方面,一种服务器电源异常监控方法,所述方法包括:
启动服务器,按照上电时序开始上电;
服务器启动过程中,CPLD持续监控服务器上电状态;
当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;
根据BMC的启动状态确定所述上电异常信息的存储位置。
进一步的,所述根据BMC的启动状态确定所述异常信息的存储位置,包括:
若BMC已启动,则将所述上电异常信息存储于第一存储模块,以供所述BMC读取并定位故障原因;
若BMC未启动,则将所述上电异常信息存储于第一闪存模块,以供所述BMC启动完成后读取并定位故障原因。
进一步的,还包括:
若所述上电状态未出现异常,则将所述上电状态数据存储于第二存储模块中,待BMC启动后从第二存储模块读取所述上电状态数据并校验是否存在异常。
进一步的,所述方法还包括:
服务器开机完成后,CPLD持续监控服务器异常掉电信息;
根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置。
进一步的,所述根据所述异常掉电信息对BMC的影响确定所述掉电异常信息的存储位置,包括:
若所述异常掉电信息不会导致所述BMC挂死,则将所述异常掉电信息记录于第三存储模块中,以供所述BMC读取并定位故障原因;
若所述异常掉电信息会导致所述BMC挂死,则将所述异常掉电信息同时存储于所述第三存储模块和第二闪存模块中,以供所述BMC启动完成后读取并定位故障原因。
进一步的,若所述异常掉电信息不会导致所述BMC挂死,则将所述异常掉电信息记录于第三存储模块后,还包括:
通过所述BMC读取所述异常掉电信息并且发出清除指令;
以供所述CPLD根据清除指令清除所述第三存储模块中的所述异常掉电信息以及关闭服务器。
进一步的,还包括:
若未出现所述异常掉电信息,则将服务器开机后数据存储于第二存储模块中,待BMC启动后从第二存储模块读取所述服务器开机后数据并校验是否存在异常。
第二方面,提供一种服务器电源异常监控***,所述***包括:
控制模块,所述控制模块用于启动服务器,按照上电时序开始上电;
上电监控模块,所述上电监控模块用于服务器启动过程中,CPLD持续监控服务器上电状态,当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态,并且根据BMC的启动状态确定所述上电异常信息的存储位置;
运行监控模块,所述运行监控模块用于在服务器开机完成后,CPLD持续监控服务器异常掉电信息,并且根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置。
第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
启动服务器,按照上电时序开始上电;
服务器启动过程中,CPLD持续监控服务器上电状态;
当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;
根据BMC的启动状态确定所述上电异常信息的存储位置。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
启动服务器,按照上电时序开始上电;
服务器启动过程中,CPLD持续监控服务器上电状态;
当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;
根据BMC的启动状态确定所述上电异常信息的存储位置。
本发明实施例具有如下有益效果:
1.本发明中通过CPLD对服务器电源进行监控,当在上电过程中出现上电异常以及在服务器开机后出现异常掉电时,通过将异常的服务器状态数据记录在CPLD中,待BMC重启后,从CPLD中读取到这些异常数据,并定位故障原因,从而防止发生由于BMC未启动或者仍处于启动过程中,导致异常数据没有被记录的情况,降低复现问题所需要的时间,提高定位故障原因和处理故障的效率;
2.上电过程中BMC未启动,或者服务器运行过程中出现异常掉电时导致BMC挂死,此时CPLD将异常状态数据记录于第一闪存模块和第二闪存模块中,由于第一闪存模块和第二闪存模块的非易失性,以便服务器断电重启后,BMC从UFM中读取异常数据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是用于体现背景技术中的故障检测的示意图;
图2是用于体现本申请中的监控方法的整体结构示意图;
图3是用于体现本申请中的监控方法的具体流程示意图
图4是用于体现本申请中的计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在大数据时代,数据中心承载海量的运算数据,所部署的服务器密度越来越大,对服务器的稳定性和可靠性的要求不断提高。因服务器需要24小时不间断运作,随着使用时间的增长,会导致服务器出现故障的因素也在不断增多。当部署在数据中心内的服务器发生异常掉电故障时,需要将当前电源状态记录下来以便后续供工程师进行分析,快速定位故障原因。所以,制定一个快速、准确并稳定的故障记录机制是本领域技术人员亟待解决的技术问题。现有的监控过程中,存在以下问题:在上电开机过程若出现异常,如某一个关键信号电源信号上电超时或异常掉电,CPLD可以检测到异常但由于此时BMC可能尚未成功启动或者仍处于启动过程中,无法接收CPLD上报的异常状态,使得异常原因无法被记录。如果此次故障是概率性出现就会导致后续定位故障原因十分困难;在服务器运行过程中,部分电信号出现异常后会导致BMC挂死,进而导致无法记录异常;部分客户会要求出现异常掉电后立刻关机以保护设备,这就造成出现异常后BMC尚未从CPLD中获取到各电源信号状态,服务器就已经关机掉电使得BMC无法记录异常。基于以上问题,本申请提出了一种种服务器电源异常监控方法、***及存储介质,能够在发生异常时记录电源状态,以便后续快速分析定位问题原因。
实施例一
一种服务器电源异常监控方法,如图2和3所示,包括以下步骤:
步骤S1:启动服务器,按照上电时序开始上电;服务器启动过程中,CPLD持续监控服务器上电状态;。
服务器的关键电源信号会通过硬件依次连接到CPLD上,服务器开机时,由CPLD按照预先设计好的上电时序依次拉高或拉低,以完成服务器开机上电流程,具体的,服务器中的CPU的EN信号和PG信号接入CPLD中;PSU上的PWROK信号和PG信号接入CPLD中;DIMM上的PWRGD信号接入CPLD中;OCP上的EN信号和PWRGD信号接入CPLD中,CPLD会持续监控接入的电源信号状态,并记录相关的数据。
步骤S2:当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;根据BMC的启动状态确定所述上电异常信息的存储位置。
当上电状态出现异常时,具体的上电过程中出现上电超时或者异常掉电时,CPLD根据BMC的心跳信号判断BMC是否启动;若BMC已经启动,则将上电异常信息记录于第一存储模块中,待BMC启动后,BMC通过i2C总线读取第一存储模块中的上电异常信息,待读取完成后,CPLD控制服务器掉电关机,实现对服务器的断电保护。其中,第一存储模块包括但不限于FIFO模块,第一存储模块设置在CPLD中。
此时,第一存储模块中存储的数据至少包括:发生上电异常前的电源状态数据、发生上电异常瞬间的电源状态数据、发生上电异常后的第一预设时间段内的电源状态数据,CPLD可以根据第一存储模块中的数据判断出现异常的位置,以确定故障问题原因。具体的,第一预设时间段为1~200微秒中的任意时间段。
若BMC未启动,则将上电异常信息记录于第一闪存模块中。其中,第一闪存模块包括但不限于UFM模块,第一闪存模块设置在CPLD中,对服务器进行断电重启,待服务器断电重启后且BMC启动后,BMC从UFM中读取上电异常信息,并分析定位故障原因。
若上电状态未出现异常,则将上电状态数据存储于第二存储模块中,待BMC启动后,BMC通过i2C总线读取第二存储模块中的服务器状态数据,并校验上电过程是否存在异常,以判断服务器电源的状态。其中,第二存储模块包括但不限于FIFO模块,FIFO设置在CPLD中。
上电过程顺利完成后,服务器开始运行,当运行过程中出现异常时,开始进行以下步骤。
步骤S3:服务器开机完成后,CPLD持续监控服务器异常掉电信息;根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置。
若服务器运行状态出现异常,具体的可能出现异常掉电时,CPLD接收异常掉电信息,异常掉电信息包括异常信号,并判断异常掉电信息是否会导致BMC挂死;若异常信号不会导致BMC挂死,则将异常掉电信息录于第三存储模块中;其中,第三存储模块包括但不限于FIFO模块,而且此时FIFO模块中记录的数据至少包括:发生运行异常前的电源状态数据、发生运行异常瞬间的电源状态数据、发生运行异常后的第二预设时间段内的电源状态数据。
此时,BMC通过i2C总线读取到运行异常的服务器状态数据,并发出清除指令,CPLD接收清除指令,并执行清除第三存储模块中的运行异常的服务器状态数据操作和关闭服务器操作,以实现对服务器的掉电保护。
若异常信号会导致BMC挂死,则将异常掉电信息同时记录于第三存储模块和第二闪存模块中以待BMC启动完成后读取并定位故障原因。具体的,CPLD将异常掉电信息录于UFM中,对服务器进行断电重启,待服务器断电重启后且BMC启动后,BMC从UFM中读取异常掉电信息,并分析定位故障原因。
若服务器运行过程中未出现异常掉电信息,则将服务器开机后数据存储于第二存储模块中,待BMC启动后从第二存储模块读取服务器开机后数据并校验是否存在异常。
通过以上设置,利用CPLD中的第一存储模块、第二存储模块、第三存储模块、第一闪存模块以及第二闪存模块对上电和运行状态中的异常状态进行暂存,使得技术人员再BMC恢复以后利用该信息快速定位故障原因,降低复现问题所需要的时间,提高定位故障原因的效率。
实施例二
对应上述实施例,本申请提供了一种服务器电源异常监控***,所述***包括:
控制模块,控制模块用于启动服务器,按照上电时序开始上电;
上电监控模块,上电监控模块用于服务器启动过程中,CPLD持续监控服务器上电状态,当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态,并且根据BMC的启动状态确定上电异常信息的存储位置;
运行监控模块,运行监控模块用于在服务器开机完成后,CPLD持续监控服务器异常掉电信息,并且根据异常掉电信息对BMC的影响确定异常掉电信息的存储位置;
第一校验模块,第一校验模块用于在上电状态未出现异常时,则将上电状态数据存储于第二存储模块中,待BMC启动后从第二存储模块读取上电状态数据并校验是否存在异常;
第二校验模块,第二校验模块用于在未出现异常掉电信息时,则将服务器开机后数据存储于第二存储模块中,待BMC启动后从第二存储模块读取服务器开机后数据并校验是否存在异常。
在一个较佳的实施例中,上电监控模块还用于在上电状态出现异常时,CPLD根据BMC的心跳信号判断BMC是否启动;若BMC已经启动,则将上电异常信息记录于第一存储模块中,待BMC启动后,BMC通过i2C总线读取第一存储模块中的上电异常信息,待读取完成后,CPLD控制服务器掉电关机,实现对服务器的断电保护。若BMC未启动,则将上电异常信息记录于第一闪存模块中。其中,第一闪存模块包括但不限于UFM模块,第一闪存模块设置在CPLD中,对服务器进行断电重启,待服务器断电重启后且BMC启动后,BMC从UFM中读取上电异常信息,并分析定位故障原因。
在一个较佳的实施例中的,若上电状态未出现异常,则将上电状态数据存储于第二存储模块中,待BMC启动后,BMC通过i2C总线读取第二存储模块中的服务器状态数据,并校验上电过程是否存在异常,以判断服务器电源的状态。其中,第二存储模块包括但不限于FIFO模块,FIFO设置在CPLD中。
在一个较佳的实施例中,第一存储模块中存储的数据至少包括:第一存储模块中存储的数据至少包括:发生上电异常前的电源状态数据、发生上电异常瞬间的电源状态数据、发生上电异常后的第一预设时间段内的电源状态数据,CPLD可以根据第一存储模块中的数据判断出现异常的位置,以确定故障问题原因。
在一个较佳的实施例中,运行监控模块还用于在运行状态出现异常时,判断异常信号是否导致BMC挂死;若异常信号不会导致BMC挂死,则将异常掉电信息录于第三存储模块中;BMC通过i2C总线读取到异常掉电信息,并发出清除指令,CPLD接收清除指令,并执行清除第三存储模块中的运行异常的服务器状态数据操作和关闭服务器操作,以实现对服务器的掉电保护。若异常信号会导致BMC挂死,则将运行异常的服务器状态数据同时记录于第三存储模块和第二闪存模块中以待BMC启动完成后读取并定位故障原因。CPLD将异常掉电信息录于UFM中,对服务器进行断电重启,待服务器断电重启后且BMC启动后,BMC从UFM中读取异常掉电信息,并分析定位故障原因。
在一个较佳的实施例中,此时第三存储模块中记录的数据至少包括:发生运行异常前的电源状态数据、发生运行异常瞬间的电源状态数据、发生运行异常后的第二预设时间段内的电源状态数据。
实施例三
提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤101:启动服务器,按照上电时序开始上电;;
步骤102:服务器启动过程中,CPLD持续监控服务器上电状态;
步骤103:当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;
根据BMC的启动状态确定所述上电异常信息的存储位置;
步骤104:服务器开机完成后,CPLD持续监控服务器异常掉电信息;
根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置。
在一个较佳的实施例中,步骤103中还包括上电状态出现异常时,判断BMC是否启动;若BMC启动,则将启动异常信息记录于第一存储模块中,并在待BMC启动后,BMC通过i2C总线读取第一存储模块中的上电异常信息定位故障原因,待读取完成后,CPLD控制服务器掉电关机,实现对服务器的断电保护。
若BMC未启动,则将上电异常信息记录于第一闪存模块中,对服务器进行断电重启,待服务器断电重启后且BMC启动后,BMC从UFM中读取上电异常信息,并分析定位故障原因。
在一个较佳的实施例中,步骤104还包括在服务器开机完成后,当运行状态出现异常时,判断异常掉电信息是否导致BMC挂死;若异常掉电信息不会导致BMC挂死,则将异常掉电信息录于第三存储模块中;BMC通过i2C总线读取到异常掉电信息,并发出清除指令,CPLD接收清除指令,并执行清除第三存储模块中的运行异常的服务器状态数据操作和关闭服务器操作,以实现对服务器的掉电保护。
若异常掉电信息会导致BMC挂死,则将运行异常的服务器状态数据同时记录于第三存储模块和第二闪存模块中。CPLD将异常掉电信息录于UFM中,对服务器进行断电重启,待服务器断电重启后且BMC启动后,BMC从UFM中读取运行异常的服务器状态数据,并分析定位故障原因。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括闪存模块存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储上电过程和运行过程中的异常数据。
该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种服务器电源异常监控方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例四
在一个本实施例中,提供了一种种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤201:启动服务器,按照上电时序开始上电;
步骤202:服务器启动过程中,CPLD持续监控服务器上电状态;
步骤203:当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;
根据BMC的启动状态确定所述上电异常信息的存储位置;
步骤204:服务器开机完成后,CPLD持续监控服务器异常掉电信息;
根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种服务器电源异常监控方法,其特征在于,所述方法包括:
启动服务器,按照上电时序开始上电;
服务器启动过程中,CPLD持续监控服务器上电状态;
当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态;
根据BMC的启动状态确定所述上电异常信息的存储位置;
其中,所述根据BMC的启动状态确定所述异常信息的存储位置,具体包括:
若BMC已启动,则将所述上电异常信息存储于第一存储模块,以供所述BMC读取并定位故障原因;若BMC未启动,则将所述上电异常信息存储于第一闪存模块,以供所述BMC启动完成后读取并定位故障原因;
其中,第一存储模块存储的数据至少包括:发生上电异常前的电源状态数据、发生上电异常瞬间的电源状态数据以及发生上电异常后的第一预设时间段内的电源状态数据;
服务器开机完成后,CPLD持续监控服务器异常掉电信息;根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置;
其中,根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置具体包括:
若所述异常掉电信息不会导致所述BMC挂死,则将所述异常掉电信息记录于第三存储模块中,以供所述BMC读取并定位故障原因;
若所述异常掉电信息会导致所述BMC挂死,则将所述异常掉电信息同时存储于所述第三存储模块和第二闪存模块中,以待所述BMC启动完成后读取并定位故障原因。
2.根据权利要求1所述的服务器电源异常监控方法,其特征在于,还包括:
若所述上电状态未出现异常,则将所述上电状态数据存储于第二存储模块中,待BMC启动后从第二存储模块读取所述上电状态数据并校验是否存在异常。
3.根据权利要求1所述的服务器电源异常监控方法,其特征在于,若所述异常掉电信息不会导致所述BMC挂死,则将所述异常掉电信息记录于第三存储模块后,还包括:
通过所述BMC读取所述异常掉电信息并且发出清除指令;
以供所述CPLD根据清除指令清除所述第三存储模块中的所述异常掉电信息以及关闭服务器。
4.根据权利要求3所述的服务器电源异常监控方法,其特征在于,还包括:
若未出现所述异常掉电信息,则将服务器开机后数据存储于第二存储模块中,待BMC启动后从第二存储模块读取所述服务器开机后数据并校验是否存在异常。
5.一种服务器电源异常监控***,其特征在于,所述***包括:
控制模块,所述控制模块用于启动服务器,按照上电时序开始上电;
上电监控模块,所述上电监控模块用于服务器启动过程中,CPLD持续监控服务器上电状态,当上电状态出现异常时,记录上电异常信息并检测BMC的启动状态,并且根据BMC的启动状态确定所述上电异常信息的存储位置;
运行监控模块,所述运行监控模块用于在服务器开机完成后,CPLD持续监控服务器异常掉电信息,并且根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置;
其中,所述运行监控模块用于若BMC已启动,则将所述上电异常信息存储于第一存储模块,以供所述BMC读取并定位故障原因;若BMC未启动,则将所述上电异常信息存储于第一闪存模块,以供所述BMC启动完成后读取并定位故障原因;
其中,第一存储模块存储的数据至少包括:发生上电异常前的电源状态数据、发生上电异常瞬间的电源状态数据以及发生上电异常后的第一预设时间段内的电源状态数据;
运行监控模块还用于服务器开机完成后,CPLD持续监控服务器异常掉电信息;根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置;
其中,根据所述异常掉电信息对BMC的影响确定所述异常掉电信息的存储位置具体包括:若所述异常掉电信息不会导致所述BMC挂死,则将所述异常掉电信息记录于第三存储模块中,以供所述BMC读取并定位故障原因;若所述异常掉电信息会导致所述BMC挂死,则将所述异常掉电信息同时存储于所述第三存储模块和第二闪存模块中,以待所述BMC启动完成后读取并定位故障原因。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~4中任一项所述的方法的步骤。
CN202210463541.2A 2022-04-28 2022-04-28 一种服务器电源异常监控方法、***及存储介质 Active CN114816022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210463541.2A CN114816022B (zh) 2022-04-28 2022-04-28 一种服务器电源异常监控方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210463541.2A CN114816022B (zh) 2022-04-28 2022-04-28 一种服务器电源异常监控方法、***及存储介质

Publications (2)

Publication Number Publication Date
CN114816022A CN114816022A (zh) 2022-07-29
CN114816022B true CN114816022B (zh) 2023-08-04

Family

ID=82509324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210463541.2A Active CN114816022B (zh) 2022-04-28 2022-04-28 一种服务器电源异常监控方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN114816022B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149548B (zh) * 2023-09-07 2024-04-26 上海合芯数字科技有限公司 服务器***时序测量方法、装置、电子设备及存储介质
CN117008704B (zh) * 2023-09-27 2023-12-01 天固信息安全***(深圳)有限公司 基于ec或cpld的控制方法、装置、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066356A (zh) * 2017-05-17 2017-08-18 郑州云海信息技术有限公司 一种服务器bmc配置数据的存储方法
CN108304299A (zh) * 2018-03-02 2018-07-20 郑州云海信息技术有限公司 服务器上电状态监测***及方法、计算机存储器及设备
CN111258405A (zh) * 2020-01-18 2020-06-09 苏州浪潮智能科技有限公司 一种服务器主板防烧***及方法
CN112948185A (zh) * 2021-02-26 2021-06-11 浪潮电子信息产业股份有限公司 一种服务器散热方法、装置及相关组件
WO2022078013A1 (zh) * 2020-10-16 2022-04-21 苏州浪潮智能科技有限公司 一种服务器掉电检测的方法、***、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201417536A (zh) * 2012-10-24 2014-05-01 Hon Hai Prec Ind Co Ltd 伺服器自動管理方法及系統

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066356A (zh) * 2017-05-17 2017-08-18 郑州云海信息技术有限公司 一种服务器bmc配置数据的存储方法
CN108304299A (zh) * 2018-03-02 2018-07-20 郑州云海信息技术有限公司 服务器上电状态监测***及方法、计算机存储器及设备
CN111258405A (zh) * 2020-01-18 2020-06-09 苏州浪潮智能科技有限公司 一种服务器主板防烧***及方法
WO2022078013A1 (zh) * 2020-10-16 2022-04-21 苏州浪潮智能科技有限公司 一种服务器掉电检测的方法、***、设备及介质
CN112948185A (zh) * 2021-02-26 2021-06-11 浪潮电子信息产业股份有限公司 一种服务器散热方法、装置及相关组件

Also Published As

Publication number Publication date
CN114816022A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114816022B (zh) 一种服务器电源异常监控方法、***及存储介质
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及***
CN110609778A (zh) 一种保存服务器宕机日志的方法及***
CN103631685A (zh) 故障自检***及方法
CN110445638B (zh) 一种交换机***故障保护方法及装置
CN104320308A (zh) 一种服务器异常检测的方法及装置
CN110457907B (zh) 一种固件程序检测方法和装置
CN116820820A (zh) 服务器故障监测方法及***
CN116775141A (zh) 异常检测方法、装置、计算机设备及存储介质
US11263083B1 (en) Method and apparatus for selective boot-up in computing devices
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
CN112463516A (zh) 一种收集并验证bmc日志完整性的方法、***
CN116501705A (zh) 基于ras的内存信息收集解析方法、***、设备及介质
CN111400153A (zh) 一种串口日志的启动方法、装置和计算机可读存储介质
CN115098291A (zh) 一种***重启原因记录的方法、***、存储介质及设备
US20100162082A1 (en) Control device, storage apparatus and controlling method
CN113608603A (zh) 一种修复PCIe故障设备的方法、***、设备和存储介质
CN109491872B (zh) 一种内存监管方法、装置和计算机可读存储介质
CN117112273A (zh) 一种故障状态管控方法、装置、设备及介质
CN118193466A (zh) 日志管理方法、装置、存储介质及嵌入式设备
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
CN115639969B (zh) 一种存储盘主备切换方法、装置、计算机设备
CN117687821A (zh) 高速缓冲存储器坏块的处理方法、装置和电子设备
CN109815064B (zh) 节点隔离方法、装置、节点设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant