CN114816822A

CN114816822A - 一种基于内存故障的服务器管理方法、装置以及***

Info

Publication number: CN114816822A
Application number: CN202210490851.3A
Authority: CN
Inventors: 张伟进; 李瑞杰; 张云霞; 马竹茂; 沈健; 汪玲
Original assignee: Baode Computer System Co ltd
Current assignee: Baode Computer System Co ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-07-29

Abstract

本申请公开了一种基于内存故障的服务器管理方法、装置以及***，用于减少网络资源浪费。本申请方法包括：当基本输入输出***BIOS根据内存训练结果确定存在目标内存条发生故障时，接收所述BIOS发送的目标内存条信息，并且中央处理器CPU根据停机指令停止工作，所述内存训练结果为所述CPU对内存条进行训练后向所述BIOS发送的训练结果，所述目标内存条信息为发生故障的目标内存条的信息，所述停机指令为所述BIOS向所述CPU发送的停止工作的指令；根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽；当确定所述目标内存槽已关闭时，向所述CPU发送重启指令，以使得所述CPU根据所述重启指令重新启动。

Description

一种基于内存故障的服务器管理方法、装置以及***

技术领域

本申请涉及服务器技术领域，尤其涉及一种基于内存故障的服务器管理方法、装置以及***。

背景技术

服务器是一种为客户端计算机提供各种服务的高可用性计算机，它在网络操作***的控制下，将与其相连的硬盘、磁带、打印机以及各种专用通讯设备提供给网络上的客户站点共享，也能为网络用户提供集中计算、信息发表及数据管理等服务。它的高性能主要体现在高速度的运算能力、长时间的可靠运行、强大的外部数据吞吐能力等方面。

由于服务器需要实时地对服务请求作出响应，因此服务器运行的连续性就显得尤为重要，而服务器在持续运行的过程中会受运行时长的影响而不可避免地发生内存故障。目前服务器对内存故障进行检测和维修的方法为：在基本输入输出***(BIOS，BasicInput Output System)阶段，由中央处理器(CPU，Central Processing Unit)对内存进行训练，若训练失败,则会跳到错误警告代码,通过蜂鸣器发出内存错误警告信号以提醒维保人员进行故障排除。

但是，在维保人员进行故障排除的过程中，服务器会进入停止状态，直到运维人员把故障排除并重新开机后，服务器才能投入使用。而由于维保人员进行故障排除的时间是无法确定的，这就会导致在故障排除的过程中，服务器无法对服务请求作出响应，从而造成网络资源浪费。

发明内容

本申请提供了一种基于内存故障的服务器管理方法、装置以及***，能够减少网络资源浪费。

本申请第一方面提供了一种基于内存故障的服务器管理方法，包括：

当BIOS根据内存训练结果确定存在目标内存条发生故障时，接收所述BIOS发送的目标内存条信息，并且CPU根据停机指令停止工作，所述内存训练结果为所述CPU对内存条进行训练后向所述BIOS发送的训练结果，所述目标内存条信息为发生故障的目标内存条的信息，所述停机指令为所述BIOS向所述CPU发送的停止工作的指令；

根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽；

当确定所述目标内存槽已关闭时，向所述CPU发送重启指令，以使得所述CPU根据所述重启指令重新启动。

可选的，所述根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽包括：

对所述目标内存条信息进行解析；

根据已解析的所述目标内存条信息确定所述目标内存条对应的目标内存槽；

关闭所述目标内存槽。

可选的，所述关闭所述目标内存槽包括：

降低与所述目标内存槽连接的通用输入输出引脚(GPIO,General Purpose InputOutput)的输出电平，以使得所述目标内存槽的输出缓存工作电压VDDQ断路,当所述目标内存槽的VDDQ断路时，表示所述目标内存槽已关闭。

可选的，所述向所述CPU发送重启指令包括：

通过智能平台接口(IPMI,Intelligent Platform Management Interface)命令向所述CPU发送重启指令。

可选的，所述接收所述BIOS发送的目标内存条信息包括：

接收所述BIOS通过串口重定向发送的目标内存条信息。

本申请第二方面提供了一种基于内存故障的服务器管理装置，其包括：

接收单元，用于当BIOS根据内存训练结果确定存在目标内存条发生故障时，接收所述BIOS发送的目标内存条信息，并且CPU根据停机指令停止工作，所述内存训练结果为所述CPU对内存条进行训练后向所述BIOS发送的训练结果，所述目标内存条信息为发生故障的目标内存条的信息，所述停机指令为所述BIOS向所述CPU发送的停止工作的指令；

关闭单元，用于根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽；

发送单元，用于当确定所述目标内存槽已关闭时，向所述CPU发送重启指令，以使得所述CPU根据所述重启指令重新启动。

可选的，所述关闭单元具体用于：

对所述目标内存条信息进行解析；

关闭所述目标内存槽。

可选的，所述关闭单元具体用于：

对所述目标内存条信息进行解析；

降低与所述目标内存槽连接的通用输入输出引脚GPIO的输出电平，以使得所述目标内存槽的VDDQ断路，当所述目标内存槽的VDDQ断路时，表示所述目标内存槽已关闭。

可选的，所述发送单元具体用于：

当确定所述目标内存槽已关闭时，通过IPMI命令向所述CPU发送重启指令，以使得所述CPU根据所述重启指令重新启动。

可选的，所述接收单元具体用于：

当BIOS根据内存训练结果确定存在目标内存条发生故障时，接收所述BIOS通过串口重定向发送的目标内存条信息，并且CPU根据停机指令停止工作，所述内存训练结果为所述CPU对内存条进行训练后向所述BIOS发送的训练结果，所述目标内存条信息为发生故障的目标内存条的信息，所述停机指令为所述BIOS向所述CPU发送的停止工作的指令。

本申请第三方面提供了一种基于内存故障的服务器管理***，包括：

中央处理器，存储器，输入输出接口，有线或无线网络接口以及电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行第一方面以及第一方面的可选方式中的任意一种所述的方式。

本申请第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行第一方面以及第一方面的可选方式中的任意一种所述的方式。

从以上技术方案可以看出，本申请具有以下效果：

当基本输入输出***BIOS根据内存训练结果确定存在目标内存条发生故障时，接收BIOS发送的目标内存条信息，并且中央处理器CPU根据停机指令停止工作，该内存训练结果为CPU对内存条进行训练后向BIOS发送的训练结果，该目标内存条信息为发生故障的目标内存条的信息，该停机指令为BIOS向CPU发送的停止工作的指令；根据目标内存条信息关闭目标内存条所对应的目标内存槽；当确定目标内存槽已关闭时，向CPU发送重启指令，以使得CPU根据重启指令重新启动。通过这样，可以在内存发生故障时，对发生故障的目标内存条所对应的目标内存槽进行屏蔽，并向CPU发送重启指令。而由于发生故障的内存条被隔离，因此CPU重启后只对正常运行的内存条进行内存训练，此时服务器可以正常启动，从而可以在故障排除的过程中，减少因服务器无法正常运行而造成的网络资源浪费。

附图说明

图1为本申请中基于内存故障的服务器管理方法的一个实施例示意图；

图2为本申请中基于内存故障的服务器管理方法的另一个实施例示意图；

图3为本申请中基于内存故障的服务器管理装置的一个实施例示意图；

图4为本申请中基于内存故障的服务器管理装置的另一个实施例示意图；

图5为本申请中基于内存故障的服务器管理***的一个实施例示意图。

具体实施方式

本申请提供了一种基于内存故障的服务器管理方法、装置以及***，用于减少网络资源浪费。

本申请描述的一种基于内存故障的服务器管理方法应用于服务器的运行管理中，当内存发生故障时，对发生故障的内存进行屏蔽后再重启CPU，使得在维保人员在进行故障排除的过程中服务器可以继续运行。

本申请描述的基于内存故障的服务器管理方法应用于基板管理控制器(BMC,Baseboard Management Controller)上执行实现。

请参阅图1所示，本申请中基于内存故障的服务器管理方法的一个实施例包括：

101、当BIOS根据内存训练结果确定存在目标内存条发生故障时，BMC接收BIOS发送的目标内存条信息，并且中央处理器CPU根据停机指令停止工作，该内存训练结果为CPU对内存条进行训练后向BIOS发送的训练结果，该目标内存条信息为发生故障的目标内存条的信息，该停机指令为BIOS向CPU发送的停止工作的指令；

本实施例，服务器在运行时，会先进入BIOS进行开机自检，BIOS是一种非易失性固件，用于在开机启动过程中执行硬件初始化，并为操作***和程序提供运行时服务，BIOS可以实现中断服务程序、***设置程序、上电自检、***启动自举程序等功能。在BIOS自检的过程中由CPU对内存进行训练以检测当前所有内存是否可用，在CUP训练完成后，CPU将内存训练结果发送至BIOS。当BIOS接收到该内存训练结果时，BIOS对该内存训练结果进行分析，判断其是否存在目标内存条发生故障，若否，则对内存控制器进行内存参数配置，此时开机自检成功，服务器启动；若是，则BIOS向BMC发送已发生故障的目标内存条信息，BMC接收该目标内存条信息，与此同时，BIOS向CPU发送停机指令以使得CPU停止工作。在BIOS向CPU发送停机指令的同时，BIOS通过蜂鸣器发送内存故障报警信号，以使得维保人员可以根据该内存故障报警信号进行内存故障排除。

102、BMC根据目标内存条信息关闭目标内存条所对应的目标内存槽；

本实施例中，当BMC接收到BIOS发送的目标内存条信息时，BMC根据该目标内存条信息确定目标内存条所对应的目标内存槽，并将该目标内存槽关闭，使得发生故障的目标内存条在内存训练过程中无法被识别。例如：A内存条插在A内存槽上，当A内存条发生故障时，BMC停止向A内存槽供电，从而使得A内存槽关闭。

103、当确定目标内存槽已关闭时，BMC向CPU发送重启指令，以使得CPU根据重启指令重新启动。

本实施例中，在BMC关闭目标内存槽后，BMC向CPU发送重启指令，CPU在接收到该重启指令后重新启动开机自检流程。在重新启动开机自检的过程中，首先对内存控制器寄存器进行初始化，然后扫描可用的内存槽，由于目标内存槽被关闭，因此CPU无法识别目标内存槽上已发生故障的目标内存条，此时扫描到的所有内存槽上的内存条均为可用的。在内存槽扫描完成后，通过***管理总线(SMBUS,System Management Bus)读取内存配置串行检测(SPD,Serial Presence Detect)信息，SPD是一组关于内存模组的配置信息，例如：电压、位宽以及操作时序等信息。最后CPU根据该SPD信息对除目标内存条外的所有可以内存条进行内存训练，内存训练成功后，对内存控制器进行内存参数配置，内存初始化完成，此时开机自检成功，服务器在目标内存条故障期间可以正常运行。

本实施例中，当BIOS根据内存训练结果确定存在目标内存条发生故障时，BMC接收BIOS发送的目标内存条信息，并且CPU根据停机指令停止工作，该内存训练结果为CPU对内存条进行训练后向BIOS发送的训练结果，该目标内存条信息为发生故障的目标内存条的信息，该停机指令为BIOS向CPU发送的停止工作的指令；BMC根据目标内存条信息关闭目标内存条所对应的目标内存槽；当确定目标内存槽已关闭时，BMC向CPU发送重启指令，以使得CPU根据重启指令重新启动。通过这样，可以在内存发生故障时，由BMC对发生故障的目标内存条所对应的目标内存槽进行屏蔽，并向CPU发送重启指令。而由于发生故障的内存条被隔离，因此CPU重启后只对正常运行的内存条进行内存训练，此时服务器可以正常启动，从而可以在故障排除的过程中，减少因服务器无法正常运行而造成的网络资源浪费。

请参阅图2所示，本申请中基于内存故障的服务器管理方法的另一个实施例包括：

201、当基本输入输出***BIOS根据内存训练结果确定存在目标内存条发生故障时，BMC接收BIOS通过串口重定向发送的目标内存条信息，并且中央处理器CPU根据停机指令停止工作，该内存训练结果为CPU对内存条进行训练后向BIOS发送的训练结果，该目标内存条信息为发生故障的目标内存条的信息，该停机指令为BIOS向CPU发送的停止工作的指令；

可选的，本实施例中，BIOS可以将调试端口重定向至BMC的串行端口中，BIOS的调试端口通过复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)与BMC的串行端口连接。CPU在完成内存训练后将内存训练结果发送至BIOS，若内存训练结果中存在目标内存条，该目标内存条为发生故障的内存条，则BIOS将该目标内存条的目标内存条信息通过调试端口发送出去，在经过CPLD提供的数据传输路径后，由BMC的串行端口接收该目标内存条信息。通过这样，可以为目标内存条信息的传输提供安全和方便的通道。

202、BMC对目标内存条信息进行解析；

203、BMC根据已解析的目标内存条信息确定目标内存条对应的目标内存槽；

204、BMC降低与目标内存槽连接的GPIO的输出电平，以使得目标内存槽的VDDQ断路，当目标内存槽的VDDQ断路时，表示目标内存槽已关闭；

可选的，本实施例中，当BMC接收到目标内存条信息时，可以对该目标内存条信息进行解析，得到与目标内存条关联的标识身份信息，该标识身份信息包含有：目标内存条的工作频率、工作电压、容量或者列地址带宽，具体此处不做限定。BMC根据解析得到的标识身份信息确定目标内存条对应的目标内存槽以及与该目标内存槽连接的GPIO，该目标内存槽为与目标内存条连接的内存插槽。BMC可以通过降低该GPIO的输出电平以使得目标内存槽的VDDQ断路，从而使目标内存槽断电。当目标内存槽断电时，与目标内存槽连接的目标内存条无法重新被CPU检测到，从而可以在内存训练过程中实现故障内存条的隔离。通过这样，可以实现目标内存槽的精准识别以及快速关闭。

205、当确定目标内存槽已关闭时，BMC通过IPMI命令向CPU发送重启指令，以使得CPU根据重启指令重新启动。

可选的，本实施例中，当确定目标内存槽已关闭时，BMC可以通过IPMI命令向CPU发送重启指令。IPMI是一种开放标准的硬件管理接口规格，它定义了嵌入式管理子***进行通信的特定方法。IPMI的核心是一个专用控制器，其并不依赖于服务器的处理器、BIOS或操作***来工作，独立性强，是一个单独在***内运行的无代理管理子***，只要有BMC与IPMI固件其便可开始工作，其在工作时，所有的IPMI功能都是向BMC发送命令来完成的。

本实施例中，可以在内存发生故障时，由BMC对发生故障的目标内存条所对应的目标内存槽进行屏蔽，并向CPU发送重启指令。而由于发生故障的内存条被隔离，因此CPU重启后只对正常运行的内存条进行内存训练，此时服务器可以正常启动，从而可以在故障排除的过程中，减少因服务器无法正常运行而造成的网络资源浪费。BMC接收BIOS通过串口重定向发送的目标内存条信息，可以为目标内存条信息的传输提供安全和方便的通道。BMC通过解析接收到的目标内存条信息来确定目标内存槽，并通过降低该GPIO的输出电平以使得目标内存槽的VDDQ断路，从而使目标内存槽断电，可以实现目标内存槽的精准识别以及快速关闭。BMC通过IPMI命令向CPU发送重启指令，可以使CPU安全、稳定地接收到BMC发送的重启指令。

请参阅图3所示，本申请中基于内存故障的服务器管理装置的一个实施例包括：

接收单元301，用于当BIOS根据内存训练结果确定存在目标内存条发生故障时，接收BIOS发送的目标内存条信息，并且CPU根据停机指令停止工作，该内存训练结果为CPU对内存条进行训练后向BIOS发送的训练结果，该目标内存条信息为发生故障的目标内存条的信息，该停机指令为BIOS向CPU发送的停止工作的指令；

关闭单元302，用于根据目标内存条信息关闭目标内存条所对应的目标内存槽；

发送单元303，用于当确定目标内存槽已关闭时，向CPU发送重启指令，以使得CPU根据重启指令重新启动。

本实施例中，当BIOS根据内存训练结果确定存在目标内存条发生故障时，接收单元301接收BIOS发送的目标内存条信息，并且CPU根据停机指令停止工作，该内存训练结果为CPU对内存条进行训练后向BIOS发送的训练结果，该目标内存条信息为发生故障的目标内存条的信息，该停机指令为BIOS向CPU发送的停止工作的指令；关闭单元302根据目标内存条信息关闭目标内存条所对应的目标内存槽；当确定目标内存槽已关闭时，发送单元303向CPU发送重启指令，以使得CPU根据重启指令重新启动。通过这样，可以在内存发生故障时，由BMC对发生故障的目标内存条所对应的目标内存槽进行屏蔽，并向CPU发送重启指令。而由于发生故障的内存条被隔离，因此CPU重启后只对正常运行的内存条进行内存训练，此时服务器可以正常启动，从而可以在故障排除的过程中，减少因服务器无法正常运行而造成的网络资源浪费。

请参阅图4所示，本申请中基于内存故障的服务器管理装置的另一个实施例包括：

接收单元401，具体用于当BIOS根据内存训练结果确定存在目标内存条发生故障时，接收BIOS通过串口重定向发送的目标内存条信息，并且CPU根据停机指令停止工作，该内存训练结果为CPU对内存条进行训练后向BIOS发送的训练结果，该目标内存条信息为发生故障的目标内存条的信息，该停机指令为BIOS向CPU发送的停止工作的指令；

关闭单元402，具体用于对目标内存条信息进行解析；根据已解析的目标内存条信息确定目标内存条对应的目标内存槽；关闭目标内存槽；

该关闭单元402，还可以具体用于对目标内存条信息进行解析；根据已解析的目标内存条信息确定目标内存条对应的目标内存槽；降低与目标内存槽连接的通用输入输出引脚GPIO的输出电平，以使得目标内存槽的VDDQ断路，当目标内存槽的VDDQ断路时，表示目标内存槽已关闭；

发送单元403，具体用于当确定目标内存槽已关闭时，通过IPMI命令向CPU发送重启指令，以使得CPU根据重启指令重新启动。

本实施例中，各单元的功能与前述图2所示实施例中的步骤201至205的功能类似，此处不再进行赘述。

请参阅图5所示，本申请中基于内存故障的服务器管理***的一个实施例包括：

中央处理器502，存储器501，输入输出接口503，有线或无线网络接口504以及电源505；

存储器501为短暂存储存储器或持久存储存储器；

中央处理器502配置为与存储器501通信，并执行存储器501中的指令操作以执行前述图1至图2所示实施例中的步骤。

本申请提供了一种计算机可读存储介质，包括指令，当该指令在计算机上运行时，使得计算机执行前述图1至图2所示实施例中的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于内存故障的服务器管理方法，其特征在于，包括：

当基本输入输出***BIOS根据内存训练结果确定存在目标内存条发生故障时，接收所述BIOS发送的目标内存条信息，并且中央处理器CPU根据停机指令停止工作，所述内存训练结果为所述CPU对内存条进行训练后向所述BIOS发送的训练结果，所述目标内存条信息为发生故障的目标内存条的信息，所述停机指令为所述BIOS向所述CPU发送的停止工作的指令；

2.根据权利要求1中所述的服务器管理方法，其特征在于，所述根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽包括：

对所述目标内存条信息进行解析；

关闭所述目标内存槽。

3.根据权利要求2中所述的服务器管理方法，其特征在于，所述关闭所述目标内存槽包括：

降低与所述目标内存槽连接的通用输入输出引脚GPIO的输出电平，以使得所述目标内存槽的输出缓存工作电压VDDQ断路,当所述目标内存槽的VDDQ断路时，表示所述目标内存槽已关闭。

4.根据权利要求1中所述的服务器管理方法，其特征在于，所述向所述CPU发送重启指令包括：

通过智能平台接口IPMI命令向所述CPU发送重启指令。

5.根据权利要求1至4中任一项所述的服务器管理方法，其特征在于，所述接收所述BIOS发送的目标内存条信息包括：

接收所述BIOS通过串口重定向发送的目标内存条信息。

6.一种基于内存故障的服务器管理装置，其特征在于，包括：

7.根据权利要求6中所述基于内存故障的服务器管理装置，其特征在于，所述关闭单元具体用于：

对所述目标内存条信息进行解析；

关闭所述目标内存槽。

8.根据权利要求7中所述基于内存故障的服务器管理装置，其特征在于，所述关闭单元具体用于：

对所述目标内存条信息进行解析；

9.一种基于内存故障的服务器管理***，其特征在于，包括：

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行权利要求1至5中任意一项所述的方法。

10.一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至5中任意一项所述的方法。