CN117707884A - 一种监控电源管理芯片的方法、***、设备和介质 - Google Patents

一种监控电源管理芯片的方法、***、设备和介质 Download PDF

Info

Publication number
CN117707884A
CN117707884A CN202311610857.0A CN202311610857A CN117707884A CN 117707884 A CN117707884 A CN 117707884A CN 202311610857 A CN202311610857 A CN 202311610857A CN 117707884 A CN117707884 A CN 117707884A
Authority
CN
China
Prior art keywords
power management
management chip
information
current
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311610857.0A
Other languages
English (en)
Inventor
毕文鹏
李道童
艾山彬
孙秀强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311610857.0A priority Critical patent/CN117707884A/zh
Publication of CN117707884A publication Critical patent/CN117707884A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种监控电源管理芯片的方法、***、设备和介质。所述方法包括:接收服务器上电信息;将所述电源管理芯片配置为非写保护模式;通过基本输入输出***轮询所述非易失性寄存器,获得第一电源管理信息,其中,所述第一电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;根据所述第一电源管理信息判断所述电源管理芯片是否发生故障;响应于所述电源管理芯片发生故障,通过基本输入输出***将所述电源管理芯片的通道关闭。采用本方法能够精准检测到发生故障的电源管理芯片,并且避免当服务器在正常运行时,电源管理芯片发生故障后服务器无法正常开机的情况。

Description

一种监控电源管理芯片的方法、***、设备和介质
技术领域
本申请涉及内存监控技术领域,特别是涉及一种监控电源管理芯片的方法、***、设备和介质。
背景技术
DDR5(Double Data Rate 5,第五代双倍数据率随机存取存储器技术)内存电源之前是由主板上单独的内存供电电路来提供的,目前通过将电源管理芯片集成到内存中,对DDR5内存进行电源管理和监控。
PECI over MCTP(Platform Environment Control Interface over ManagementComponent Transport Protocol,一种将PECI协议封装在MCTP协议之上的通信协议),PECIover MCTP允许通过管理组件传输协议在PCI Express总线上进行PECI命令的传输和执行。通过PECI over MCTP,管理者可以通过PCI Express总线对处理器和其他硬件组件进行监控和管理,包括获取其温度、电压、频率等信息,以及配置和控制其运行状态。PECI overMCTP提供了一种统一的管理接口,使得不同厂商的处理器和硬件组件可以遵循同样的通信协议进行管理。这样可以简化***管理的复杂性,并提高***的互操作性和可扩展性。PECIover MCTP底层硬件是PCIE协议,所以速率比PECI单总线速度快的多,并且有更高的带宽。
当前Intel平台的硬件设计,都是每四个双列直插式存储模块的电源状态信号通过线的方式连接到复杂可编程逻辑器件,复杂可编程逻辑器件连接到基板管理控制器,这样基板管理控制器可以检测到内存的电源状态信号。当内存正常时候,内存的电源状态信号为高;当电源管理芯片发生故障时,基板管理控制器可以监测到内存的电源状态信号被拉低。但是,基板管理控制器并不能准确知道具体是哪一个双列直插式存储模块的电源管理芯片发生了故障。
并且当服务器在正常运行时候,如果某个电源管理芯片发生故障,此时服务器会立马关机,如果此时再发送命令或者手动去按电源键开机,由于电源状态信号处于电源故障状态,服务器是无法正常开机。
基于此本专利提出了一种能够精准检测到发生故障的电源管理芯片,并且避免当服务器在正常运行时,电源管理芯片发生故障后服务器无法正常开机的情况的监控电源管理芯片的方法、***、设备和介质。
发明内容
基于此,有必要针对上述技术问题,提供一种能够精准检测到发生故障的电源管理芯片,并且避免当电源管理芯片发生故障后服务器无法正常开机的问题的监控电源管理芯片的方法、***、设备和介质。
第一方面,提供一种监控电源管理芯片的方法,应用于监控电源管理芯片的***,所述电源管理芯片包括非易失性寄存器,所述方法包括:
步骤10:接收服务器上电信息,将所述电源管理芯片配置为非写保护模式;
步骤20:通过基本输入输出***轮询所述非易失性寄存器,获得第一电源管理信息,其中,所述第一电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤30:根据所述第一电源管理信息判断所述电源管理芯片是否发生故障;
步骤40:响应于所述电源管理芯片发生故障,将所述第一电源管理信息传输至基板管理控制器,通过所述基板管理控制器生成日志并告警;
步骤401:获取所述电源管理芯片所在内存模块的通道信息,其中,所述通道信息表示所述内存模块与所述基本输入输出***的连接信息,所述内存模块通过一根串行总线与所述基本输入输出***的连接;
步骤402:根据所述通道信息,通过所述基本输入输出***将所述内存模块的故障通道关闭。
在其中一个实施例中,根据所述第一电源管理信息判断所述电源管理芯片是否发生故障,包括:
步骤410:响应于所述电源管理芯片未发生故障,通过基本输入输出***将所述内存模块正常上电,对所述内存模块进行初始化;
步骤420:响应于所述内存模块初始化完成,将所述电源管理芯片配置为写保护模式;
步骤430:通过基本输入输出***轮询所述非易失性寄存器,获得第二电源管理信息,其中,所述第二电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤440:根据所述第二电源管理信息判断所述电源管理芯片是否发生故障;
步骤4501:响应于所述电源管理芯片未发生故障,进入服务器自检程序;
步骤4502:响应于所述服务器自检完成,通过基板管理控制器对所述电源管理芯片进行监控。
在其中一个实施例中,所述方法还包括:
通过所述基板管理控制器检测所述服务器是否自检完成;
响应于通用输入输出引脚为高电平,确认所述服务器自检完成;
响应于通用输入输出引脚为低电平,确认所述服务器自检未完成。
在其中一个实施例中,根据所述第二电源管理信息判断所述电源管理芯片是否发生故障,包括:
步骤4510:响应于所述电源管理芯片发生故障,将所述第二电源管理信息传输至所述基板管理控制器,并通过所述基板管理控制器生成日志并告警,重复步骤401至步骤402;
步骤4520:通过所述基板管理控制器重启所述服务器,重复步骤10至步骤4520。
在其中一个实施例中,通过基板管理控制器对所述电源管理芯片进行监控,包括:
接收所述基板管理控制器发送的获取命令;
通过中央处理器轮询所述电源管理芯片,获得所述电源管理芯片的当前电压值、当前电流值以及当前温度值;
将所述当前电压值、当前电流值以及当前温度值分别与电压阈值、电流阈值以及温度阈值进行比较,获得电压比较结果、电流比较结果以及温度比较结果;
根据所述电压比较结果、电流比较结果以及温度比较结果,判断是否生成告警信息;
响应于所述电压比较结果为所述当前电压值大于所述电压阈值,和/或所述电流比较结果为所述当前电流值大于所述电流阈值,和/或所述温度比较结果为所述当前温度值大于所述温度阈值,生成告警信息;
其中,所述告警信息包括电压告警信息、电流告警信息以及温度告警信息。
在其中一个实施例中,所述非易失性寄存器包括状态寄存器,所述状态寄存器包括周期状态寄存器和错误记录寄存器。
在其中一个实施例中,所述方法还包括:
基于通讯协议,所述基板管理控制器向所述中央处理器发送获取命令,其中,所述通讯协议允许通过管理组件传输协议在高速串行计算机扩展总线上进行获取命令的传输和执行。
第二方面,提供了一种监控电源管理芯片的***,包括中央处理器、集成南桥、基板管理控制器以及内存模块,所述中央处理器托管基本输入输出***,所述内存模块包括集线器、温度传感器、电源管理芯片以及寄存器时钟驱动器,
所述温度传感器、电源管理芯片以及寄存器时钟驱动器分别通过所述集线器与所述中央处理器连接;
所述集成南桥的第一端与所述中央处理器连接,所述集成南桥的第二端与所述基板管理控制器的第一端连接;
所述基板管理控制器的第二端与所述中央处理器连接。
第三方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如上述第一方面任意一项所述方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,执行如上述第一方面任意一项所述方法的步骤。
上述监控电源管理芯片的方法,应用于监控电源管理芯片的***,通过基本输入输出***直接对单个内存模块的电源管理芯片进行监控,将发生故障的电源管理芯片所在的内存模块的通道关闭,避免在服务器开机过程中,基板管理控制器通过复杂可编程逻辑器件对多个电源管理芯片进行监控时,无法识别出故障电源管理芯片的具***置,以及避免当服务器在正常运行时,电源管理芯片发生故障后服务器无法正常开机的情况。
附图说明
图1为一个实施例中监控电源管理芯片的方法的流程示意图;
图2为一个实施例中监控电源管理芯片的***的连接示意图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例一
在一个实施例中,如图1所示,提供了一种监控电源管理芯片的方法,应用于监控电源管理芯片的***,所述电源管理芯片包括非易失性寄存器,所述方法包括:
步骤10:接收服务器上电信息,将所述电源管理芯片配置为非写保护模式;
步骤20:通过基本输入输出***轮询所述非易失性寄存器,获得第一电源管理信息,其中,所述第一电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤30:根据所述第一电源管理信息判断所述电源管理芯片是否发生故障;
步骤40:响应于所述电源管理芯片发生故障,将所述第一电源管理信息传输至基板管理控制器,通过所述基板管理控制器生成日志并告警;
步骤401:获取所述电源管理芯片所在内存模块的通道信息,其中,所述通道信息表示所述内存模块与所述基本输入输出***的连接信息,所述内存模块通过一根串行总线与所述基本输入输出***的连接;
步骤402:根据所述通道信息,通过所述基本输入输出***将所述内存模块的故障通道关闭。
具体地,电源管理芯片的非易失性寄存器可以设置在内存模块中,将内存模块的通道关闭后,可以更换故障的电源管理芯片,通过基本输入输出***将非易失性寄存器中的电源状态信号设置为表示电源正常状态的信号,通过中央处理器中的电压调节器使更换后的内存模块重新上电。
具体地,通过基本输入输出***将故障的电源管理芯片的错误信息发送给基板管理控制器,基板管理控制器收到后生成日志并告警。
具体地,在监控电源管理芯片的***中,通过基本输入输出***直接对单个电源管理芯片进行监控,将故障的电源管理芯片的通道关闭,避免在服务器开机过程中,基板管理控制器通过复杂可编程逻辑器件对多个电源管理芯片进行监控时,无法识别出故障电源管理芯片的具***置,以及避免当服务器在正常运行时,电源管理芯片发生故障后服务器无法正常开机的情况。
在一个实施例中,根据所述第一电源管理信息判断所述电源管理芯片是否发生故障,包括:
步骤410:响应于所述电源管理芯片未发生故障,通过基本输入输出***将所述内存模块正常上电,对所述内存模块进行初始化;
步骤420:响应于所述内存模块初始化完成,将所述电源管理芯片配置为写保护模式;
步骤430:通过基本输入输出***轮询所述非易失性寄存器,获得第二电源管理信息,其中,所述第二电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤440:根据所述第二电源管理信息判断所述电源管理芯片是否发生故障;
步骤4501:响应于所述电源管理芯片未发生故障,进入服务器自检程序;
步骤4502:响应于所述服务器自检完成,通过基板管理控制器对所述电源管理芯片进行监控。
具体地,在内存模块完成初始化后,对电源管理芯片进行第二次轮询,使得发生故障的电源管理芯片所在的内存模块在开机过程中被基本输入输出***屏蔽,进一步避免当服务器在正常运行时,电源管理芯片发生故障后服务器无法正常开机的情况。
在一个实施例中,所述方法还包括:
通过所述基板管理控制器检测所述服务器是否自检完成;
响应于通用输入输出引脚为高电平,确认所述服务器自检完成;
响应于通用输入输出引脚为低电平,确认所述服务器自检未完成。
具体地,通过基板管理控制器检测通用输入输出引脚,根据通用输入输出引脚是高电平还是低电平,确认服务器是否自检完成,以便后续通过基本管理控制器监控电源管理芯片。
具体地,该通用输入输出引脚默认设置为低电平,当自检完成之后,基本输入输出***将此通用输入输出引脚设置为高电平,作为服务器自检完成的标志。当基本输入输出***检测到通用输入输出引脚为高电平时,确认自检完成。
在一个实施例中,根据所述第二电源管理信息判断所述电源管理芯片是否发生故障,包括:
步骤4510:响应于所述电源管理芯片发生故障,将所述第二电源管理信息传输至所述基板管理控制器,并通过所述基板管理控制器生成日志并告警,重复步骤401至步骤402;
步骤4520:通过所述基板管理控制器重启所述服务器,重复步骤10至步骤4520。具体地,在服务器开机过程中,若第二次轮询时电源管理芯片发生故障,将故障的内存模块的通道关闭,并通过基板管理控制器重启服务器,重复第一次轮询和第二次轮询的步骤,使得发生故障的电源管理芯片在开机过程中被基本输入输出***屏蔽,避免当服务器在正常运行时,电源管理芯片发生故障后服务器无法正常开机的情况。
在一个实施例中,通过基板管理控制器对所述电源管理芯片进行监控,包括:
接收所述基板管理控制器发送的获取命令;
通过中央处理器轮询所述电源管理芯片,获得所述电源管理芯片的当前电压值、当前电流值以及当前温度值;
将所述当前电压值、当前电流值以及当前温度值分别与电压阈值、电流阈值以及温度阈值进行比较,获得电压比较结果、电流比较结果以及温度比较结果;
根据所述电压比较结果、电流比较结果以及温度比较结果,判断是否生成告警信息;
响应于所述电压比较结果为所述当前电压值大于所述电压阈值,和/或所述电流比较结果为所述当前电流值大于所述电流阈值,和/或所述温度比较结果为所述当前温度值大于所述温度阈值,生成告警信息;
其中,所述告警信息包括电压告警信息、电流告警信息以及温度告警信息。
具体地,基板管理控制器给中央处理器发送获取命令,将获得的当前电压值、电流值和温度值分别与非易失性寄存器中的电压阈值、电流阈值和温度阈值进行比较,判断是否生成告警信息和提示信息,便于找到电源管理芯片的故障原因,以及避免当服务器正常运行时,电源管理芯片发生故障,服务器关机后需要手动上电的情况。
在一个实施例中,所述非易失性寄存器包括状态寄存器,所述状态寄存器包括周期状态寄存器和错误记录寄存器。
具体地,错误记录寄存器记录每个断电序列的电源管理芯片状态,由于故障而自行生成关闭命令时,电源管理芯片会自行写入该寄存器,错误记录寄存器将在断电周期更新;周期状态寄存器会以特定频率动态更新,表示此时的电源管理芯片内部各模块电流、电压、温度等状态。
在一个实施例中,所述方法还包括:
基于通讯协议,通过所述基板管理控制器给所述中央处理器发送获取命令,其中,所述通讯协议允许通过管理组件传输协议在高速串行计算机扩展总线上进行获取命令的传输和执行。
具体地,基板管理控制器周期性地通过PECI over MCTP给中央处理器发送该获取命令。
具体地,基板管理控制器通过PECI over MCTP与中央处理器通信这种方式,无需额外在硬件上设计I3C(Improved Inter-Integrated Circuit,一种串行总线接口)电路连接基板管理控制器和内存,节约成本,速度上也能达到实时监控的标准。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
在一个实施例中,如图2所示,提供了一种监控电源管理芯片的***,包括中央处理器、集成南桥、基板管理控制器以及内存模块,所述中央处理器托管基本输入输出***,所述内存模块包括集线器、温度传感器、电源管理芯片以及寄存器时钟驱动器,
所述温度传感器、电源管理芯片以及寄存器时钟驱动器分别通过所述集线器与所述中央处理器连接;
所述集成南桥的第一端与所述中央处理器连接,所述集成南桥的第二端与所述基板管理控制器的第一端连接;
所述基板管理控制器的第二端与所述中央处理器连接。
具体地,温度传感器、电源管理芯片以及寄存器时钟驱动器分别通过本地I3C连接到集线器,集线器通过I3C总线与复用器连接。复用器一端与中央处理器连接,另一端与基板管理控制器连接。复用器的设备选择引脚与复杂可编程逻辑器件连接,这样所有本地双列直插式存储模块的设备都作为I3C总线上的终端设备可见。
具体地,所述集成南桥的第一端通过直接媒体接口与所述中央处理器连接,直接媒体接口的硬件底层也是PCIE总线;所述集成南桥的第二端通过PCIE总线与所述基板管理控制器的第一端连接;所述基板管理控制器的第二端通过PECI总线与所述中央处理器连接。
具体地,基板管理控制器通过PECI over MCTP的方式,通过集成南桥给中央处理器发送PECI命令读写寄存器,让中央处理器去访问电源管理芯片;中央处理器读取完电源管理芯片的相关数据后,再通过PECI总线传回给基板管理控制器。
实施例三
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤10:接收服务器上电信息,将所述电源管理芯片配置为非写保护模式;
步骤20:通过基本输入输出***轮询所述非易失性寄存器,获得第一电源管理信息,其中,所述第一电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤30:根据所述第一电源管理信息判断所述电源管理芯片是否发生故障;
步骤40:响应于所述电源管理芯片发生故障,将所述第一电源管理信息传输至基板管理控制器,通过所述基板管理控制器生成日志并告警;
步骤401:获取所述电源管理芯片所在内存模块的通道信息,其中,所述通道信息表示所述内存模块与所述基本输入输出***的连接信息,所述内存模块通过一根串行总线与所述基本输入输出***的连接;
步骤402:根据所述通道信息,通过所述基本输入输出***将所述内存模块的故障通道关闭。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
步骤410:响应于所述电源管理芯片未发生故障,通过基本输入输出***将所述内存模块正常上电,对所述内存模块进行初始化;
步骤420:响应于所述内存模块初始化完成,将所述电源管理芯片配置为写保护模式;
步骤430:通过基本输入输出***轮询所述非易失性寄存器,获得第二电源管理信息,其中,所述第二电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤440:根据所述第二电源管理信息判断所述电源管理芯片是否发生故障;
步骤4501:响应于所述电源管理芯片未发生故障,进入服务器自检程序;
步骤4502:响应于所述服务器自检完成,通过基板管理控制器对所述电源管理芯片进行监控。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
通过所述基板管理控制器检测所述服务器是否自检完成;
响应于通用输入输出引脚为高电平,确认所述服务器自检完成;
响应于通用输入输出引脚为低电平,确认所述服务器自检未完成。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
步骤4510:响应于所述电源管理芯片发生故障,将所述第二电源管理信息传输至所述基板管理控制器,并通过所述基板管理控制器生成日志并告警,重复步骤401至步骤402;
步骤4520:通过所述基板管理控制器重启所述服务器,重复步骤10至步骤4520。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
接收所述基板管理控制器发送的获取命令;
通过中央处理器轮询所述电源管理芯片,获得所述电源管理芯片的当前电压值、当前电流值以及当前温度值;
将所述当前电压值、当前电流值以及当前温度值分别与电压阈值、电流阈值以及温度阈值进行比较,获得电压比较结果、电流比较结果以及温度比较结果;
根据所述电压比较结果、电流比较结果以及温度比较结果,判断是否生成告警信息;
响应于所述电压比较结果为所述当前电压值大于所述电压阈值,和/或所述电流比较结果为所述当前电流值大于所述电流阈值,和/或所述温度比较结果为所述当前温度值大于所述温度阈值,生成告警信息;
其中,所述告警信息包括电压告警信息、电流告警信息以及温度告警信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述非易失性寄存器包括状态寄存器,所述状态寄存器包括周期状态寄存器和错误记录寄存器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于通讯协议,通过所述基板管理控制器给所述中央处理器发送获取命令,其中,所述通讯协议允许通过管理组件传输协议在高速串行计算机扩展总线上进行获取命令的传输和执行。
所述程序指令在被所述一个或多个处理器读取执行时,还可以执行与上述方法实施例中的各个步骤对应的操作,可以参考上文中的描述,此处不再赘述。参考图3,其示例性的展示出了计算机设备的架构,具体可以包括处理器310,视频显示适配器311,磁盘驱动器312,输入/输出接口313,网络接口314,以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320之间可以通过通信总线330进行通信连接。
其中,处理器310可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器320可以采用只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、静态存储设备,动态存储设备等形式实现。存储器320可以存储用于控制计算机设备300运行的操作***321,用于控制计算机设备300的低级别操作的基本输入输出***(BIOS)322。另外,还可以存储网页浏览器323,数据存储管理324,以及图标字体处理***325等等。上述图标字体处理***325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。
输入/输出接口313用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口314用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线330包括一通路,在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320)之间传输信息。
另外,该计算机设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述计算机设备300仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,存储器320,总线330等,但是在具体实施过程中,该计算机设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
实施例四
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤10:接收服务器上电信息,将所述电源管理芯片配置为非写保护模式;
步骤20:通过基本输入输出***轮询所述非易失性寄存器,获得第一电源管理信息,其中,所述第一电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤30:根据所述第一电源管理信息判断所述电源管理芯片是否发生故障;
步骤40:响应于所述电源管理芯片发生故障,将所述第一电源管理信息传输至基板管理控制器,通过所述基板管理控制器生成日志并告警;
步骤401:获取所述电源管理芯片所在内存模块的通道信息,其中,所述通道信息表示所述内存模块与所述基本输入输出***的连接信息,所述内存模块通过一根串行总线与所述基本输入输出***的连接;
步骤402:根据所述通道信息,通过所述基本输入输出***将所述内存模块的故障通道关闭。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
步骤410:响应于所述电源管理芯片未发生故障,通过基本输入输出***将所述内存模块正常上电,对所述内存模块进行初始化;
步骤420:响应于所述内存模块初始化完成,将所述电源管理芯片配置为写保护模式;
步骤430:通过基本输入输出***轮询所述非易失性寄存器,获得第二电源管理信息,其中,所述第二电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤440:根据所述第二电源管理信息判断所述电源管理芯片是否发生故障;
步骤4501:响应于所述电源管理芯片未发生故障,进入服务器自检程序;
步骤4502:响应于所述服务器自检完成,通过基板管理控制器对所述电源管理芯片进行监控。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过所述基板管理控制器检测所述服务器是否自检完成;
响应于通用输入输出引脚为高电平,确认所述服务器自检完成;
响应于通用输入输出引脚为低电平,确认所述服务器自检未完成。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
步骤4510:响应于所述电源管理芯片发生故障,将所述第二电源管理信息传输至所述基板管理控制器,并通过所述基板管理控制器生成日志并告警,重复步骤401至步骤402;
步骤4520:通过所述基板管理控制器重启所述服务器,重复步骤10至步骤4520。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
接收所述基板管理控制器发送的获取命令;
通过中央处理器轮询所述电源管理芯片,获得所述电源管理芯片的当前电压值、当前电流值以及当前温度值;
将所述当前电压值、当前电流值以及当前温度值分别与电压阈值、电流阈值以及温度阈值进行比较,获得电压比较结果、电流比较结果以及温度比较结果;
根据所述电压比较结果、电流比较结果以及温度比较结果,判断是否生成告警信息;
响应于所述电压比较结果为所述当前电压值大于所述电压阈值,和/或所述电流比较结果为所述当前电流值大于所述电流阈值,和/或所述温度比较结果为所述当前温度值大于所述温度阈值,生成告警信息;
其中,所述告警信息包括电压告警信息、电流告警信息以及温度告警信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述非易失性寄存器包括状态寄存器,所述状态寄存器包括周期状态寄存器和错误记录寄存器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于通讯协议,通过所述基板管理控制器给所述中央处理器发送获取命令,其中,所述通讯协议允许通过管理组件传输协议在高速串行计算机扩展总线上进行获取命令的传输和执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种监控电源管理芯片的方法,应用于监控电源管理芯片的***,所述电源管理芯片包括非易失性寄存器,其特征在于,所述方法包括:
步骤10:接收服务器上电信息,将所述电源管理芯片配置为非写保护模式;
步骤20:通过基本输入输出***轮询所述非易失性寄存器,获得第一电源管理信息,其中,所述第一电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤30:根据所述第一电源管理信息判断所述电源管理芯片是否发生故障;
步骤40:响应于所述电源管理芯片发生故障,将所述第一电源管理信息传输至基板管理控制器,通过所述基板管理控制器生成日志并告警;
步骤401:获取所述电源管理芯片所在内存模块的通道信息,其中,所述通道信息表示所述内存模块与所述基本输入输出***的连接信息,所述内存模块通过一根串行总线与所述基本输入输出***的连接;
步骤402:根据所述通道信息,通过所述基本输入输出***将所述内存模块的故障通道关闭。
2.根据权利要求1所述方法,其特征在于,根据所述第一电源管理信息判断所述电源管理芯片是否发生故障,包括:
步骤410:响应于所述电源管理芯片未发生故障,通过基本输入输出***将所述内存模块正常上电,对所述内存模块进行初始化;
步骤420:响应于所述内存模块初始化完成,将所述电源管理芯片配置为写保护模式;
步骤430:通过基本输入输出***轮询所述非易失性寄存器,获得第二电源管理信息,其中,所述第二电源管理信息包括用于确认所述电源管理芯片发生故障的错误信息;
步骤440:根据所述第二电源管理信息判断所述电源管理芯片是否发生故障;
步骤4501:响应于所述电源管理芯片未发生故障,进入服务器自检程序;
步骤4502:响应于所述服务器自检完成,通过基板管理控制器对所述电源管理芯片进行监控。
3.根据权利要求2所述方法,其特征在于,所述方法还包括:
通过所述基板管理控制器检测所述服务器是否自检完成;
响应于通用输入输出引脚为高电平,确认所述服务器自检完成;
响应于通用输入输出引脚为低电平,确认所述服务器自检未完成。
4.根据权利要求2所述方法,其特征在于,根据所述第二电源管理信息判断所述电源管理芯片是否发生故障,包括:
步骤4510:响应于所述电源管理芯片发生故障,将所述第二电源管理信息传输至所述基板管理控制器,并通过所述基板管理控制器生成日志并告警,重复步骤401至步骤402;
步骤4520:通过所述基板管理控制器重启所述服务器,重复步骤10至步骤4520。
5.根据权利要求2所述方法,其特征在于,通过基板管理控制器对所述电源管理芯片进行监控,包括:
接收所述基板管理控制器发送的获取命令;
通过中央处理器轮询所述电源管理芯片,获得所述电源管理芯片的当前电压值、当前电流值以及当前温度值;
将所述当前电压值、当前电流值以及当前温度值分别与电压阈值、电流阈值以及温度阈值进行比较,获得电压比较结果、电流比较结果以及温度比较结果;
根据所述电压比较结果、电流比较结果以及温度比较结果,判断是否生成告警信息;
响应于所述电压比较结果为所述当前电压值大于所述电压阈值,和/或所述电流比较结果为所述当前电流值大于所述电流阈值,和/或所述温度比较结果为所述当前温度值大于所述温度阈值,生成告警信息;
其中,所述告警信息包括电压告警信息、电流告警信息以及温度告警信息。
6.根据权利要求1-5任一项所述方法,其特征在于,所述非易失性寄存器包括状态寄存器,所述状态寄存器包括周期状态寄存器和错误记录寄存器。
7.根据权利要求5所述方法,其特征在于,所述方法还包括:
基于通讯协议,所述基板管理控制器向所述中央处理器发送获取命令,其中,所述通讯协议允许通过管理组件传输协议在高速串行计算机扩展总线上进行获取命令的传输和执行。
8.一种监控电源管理芯片的***,其特征在于,包括中央处理器、集成南桥、基板管理控制器以及内存模块,所述中央处理器托管基本输入输出***,所述内存模块包括集线器、温度传感器、电源管理芯片以及寄存器时钟驱动器,
所述温度传感器、电源管理芯片以及寄存器时钟驱动器分别通过所述集线器与所述中央处理器连接;
所述集成南桥的第一端与所述中央处理器连接,所述集成南桥的第二端与所述基板管理控制器的第一端连接;
所述基板管理控制器的第二端与所述中央处理器连接。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202311610857.0A 2023-11-29 2023-11-29 一种监控电源管理芯片的方法、***、设备和介质 Pending CN117707884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311610857.0A CN117707884A (zh) 2023-11-29 2023-11-29 一种监控电源管理芯片的方法、***、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311610857.0A CN117707884A (zh) 2023-11-29 2023-11-29 一种监控电源管理芯片的方法、***、设备和介质

Publications (1)

Publication Number Publication Date
CN117707884A true CN117707884A (zh) 2024-03-15

Family

ID=90161553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311610857.0A Pending CN117707884A (zh) 2023-11-29 2023-11-29 一种监控电源管理芯片的方法、***、设备和介质

Country Status (1)

Country Link
CN (1) CN117707884A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992270A (zh) * 2024-03-29 2024-05-07 苏州元脑智能科技有限公司 一种内存资源管理***、方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992270A (zh) * 2024-03-29 2024-05-07 苏州元脑智能科技有限公司 一种内存资源管理***、方法、装置、设备及存储介质
CN117992270B (zh) * 2024-03-29 2024-05-31 苏州元脑智能科技有限公司 一种内存资源管理***、方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10606725B2 (en) Monitor peripheral device based on imported data
US9946600B2 (en) Method of detecting power reset of a server, a baseboard management controller, and a server
US10296434B2 (en) Bus hang detection and find out
US20140068350A1 (en) Self-checking system and method using same
JP6864718B2 (ja) ハイブリッド電源のシステム及び方法
US9250920B2 (en) Initializing processor cores in a multiprocessor system
CN117707884A (zh) 一种监控电源管理芯片的方法、***、设备和介质
CN104320308A (zh) 一种服务器异常检测的方法及装置
US10235185B2 (en) Computer and controlling method thereof
US10762029B2 (en) Electronic apparatus and detection method using the same
CN115314416B (zh) 网卡状态自动检测方法、装置、电子设备及存储介质
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、***及介质
CN104239174A (zh) Bmc远程调试***及方法
CN112667483B (zh) 用于服务器主板的内存信息读取装置、方法及服务器
US11354259B1 (en) Computer system configurations based on accessing data elements presented by baseboard management controllers
CN111198832B (zh) 一种处理方法和电子设备
CN210721440U (zh) 一种pcie卡异常恢复装置及pcie卡、pcie扩展***
CN114564334B (zh) 一种mrpc数据处理方法、***及相关组件
JP2013109722A (ja) コンピュータ、コンピュータシステム、および障害情報管理方法
US11593209B2 (en) Targeted repair of hardware components in a computing device
CN107632917B (zh) 服务器***及其温度监控方法
CN111124804B (zh) 测试方法和装置
CN117950346A (zh) 硬件处理器***监测方法、装置、设备及存储介质
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
TWI654518B (zh) 錯誤狀態儲存方法及伺服器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination