CN107092334A - 一种服务器电源装置故障定位的方法 - Google Patents

一种服务器电源装置故障定位的方法 Download PDF

Info

Publication number
CN107092334A
CN107092334A CN201710267112.7A CN201710267112A CN107092334A CN 107092334 A CN107092334 A CN 107092334A CN 201710267112 A CN201710267112 A CN 201710267112A CN 107092334 A CN107092334 A CN 107092334A
Authority
CN
China
Prior art keywords
information
supply unit
groove position
power supply
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710267112.7A
Other languages
English (en)
Inventor
孙海鹏
孙连震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Big Data Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Big Data Research Co Ltd filed Critical Guangdong Inspur Big Data Research Co Ltd
Priority to CN201710267112.7A priority Critical patent/CN107092334A/zh
Publication of CN107092334A publication Critical patent/CN107092334A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种服务器电源装置故障定位的方法,包括以下步骤:首先获取当前服务器支持的电源数量和电源装置槽位信息;获取电源装置的信息,该信息包括固定信息和实时信息;根据获取的电源装置的信息对应到步骤一中获取的相关信息,得到该电源装置的槽位信息,当检测到电源装置出现故障时,及时定位电源装置对应的槽位。该一种服务器电源装置故障定位的方法与现有技术相比,不需要增加额外的预算,不需增加额外的操作,经济实用,可有效提高服务器电源装置故障诊断的效率和准确性,实用性强,易于实现,易于推广。

Description

一种服务器电源装置故障定位的方法
技术领域
本发明涉及计算机服务器技术领域,具体地说是一种实用性强、服务器电源装置故障定位的方法。
背景技术
在当前服务器的生产阶段和售后客服都需要诊断工具来检测产品质量和发现产品故障,以往的电源装置测试,只能检测出服务器上电源装置的厂商,序列号,型号,当前状态,当前电压,电流等信息,而此时电源装置位于服务器的机壳内,无法查看标签上的序列号等信息,也就无法将故障信息定位到具体的电源装置上,难以分辨出是哪一个电源装置发生了故障,影响诊断和维修的效率。基于这种问题,我们发明了一种服务器电源装置故障定位的方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、服务器电源装置故障定位的方法。
一种服务器电源装置故障定位的方法,包括以下步骤:
一、首先获取当前服务器支持的电源数量和电源装置槽位信息;
二、获取电源装置的信息,该信息包括固定信息和实时信息;
三、根据获取的电源装置的信息对应到步骤一中获取的相关信息,得到该电源装置的槽位信息,当检测到电源装置出现故障时,及时定位电源装置对应的槽位。
所述步骤一通过读取SMBIOS信息来确定服务器所支持的电源数量和槽位名称信息;获取当前连接电源的个数和所在槽位,并检查每一个槽位上的电源的固定信息,该固定信息包括厂商、序列号、型号、槽位名称。
基于SMBIOS 3.0规范标准,Type 39的offset 05h处保存槽位名称字符串的索引,offset 07h处保存厂商名称字符串的索引,offset 08h处保存序列号字符串的索引,步骤一通过读取内存中SMBIOS的内容,得到当前槽位的名称,电源是否在位,在位的电源的厂商及序列号信息,具体为:读取内存中SMBIOS的内容;找到type=39的SMBIOS表的入口地址;解析槽位名称、设备名称、厂商名称、序列号名称和状态信息。
所述步骤二中电源装置信息通过向BMC发送IPMI指令,读取并检查电源装置的固定信息和实时信息。
固定信息和实时信息包括厂商、序列号、当前温度、当前输入电压、当前输入电流、当前输出电压、当前输出电流、当前状态。
步骤二中获取电源装置实时信息通过读取传感器数据获得,传感器通过I2C总线连接BMC,从而通过IPMI发送指令,读取这些传感器的值。
在IPMI命令中,设置电源装置的NetFn为0x3A,设置访问电源信息的CMD值为0x71,设置Req1为当前电源装置索引值,发送指令后,解析返回的字节,该返回的字节为传感器数据。
所述返回的字节是指传感器返回的在位信息、状态信息、温度信息、电流信息、电压信息、功率信息。
解析传感器数据后,获得当前电源在位状态、厂商名称、序列号、实时信息,即当前输入、输出、电压、电流、功率、温度信息。
在步骤三中,根据IPMI指令获取的序列号对应到SMBIOS中的电源装置序列号,得到当前电源装置所在的槽位名称,将检测到的电源装置的实时信息对应到具体的槽位上,若从实时信息检测到异常,即可立即提示哪个槽位上的电源装置发生了故障。
本发明的一种服务器电源装置故障定位的方法,具有以下优点:
该发明的一种服务器电源装置故障定位的方法,首先获取服务器所支持的电源装置数目,和每个电源装置槽位名称,然后获取电源装置的实时电压电流信息,最后根据序列号确定此电源装置所在的槽位,这种方法不需要增加额外的预算,不需增加额外的操作,经济实用,可有效提高服务器电源装置故障诊断的效率和准确性,适用于生产阶段的质量检测和售后客服的故障紧急处理等场景,实用性强,易于实现,易于推广。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种服务器电源装置故障定位的方法,能有效的对电源装置进行测试,并将故障定位到物理槽位,主要包括三个方面:首先,通过读取SMBIOS信息,确定服务器所支持的电源数量和槽位名称信息,获取当前连接电源的个数和所在槽位,并检查每一个槽位上的电源的固定信息,包括厂商,序列号,型号,槽位名称等。其次,通过向BMC发送IPMI指令,读取并检查电源装置的固定信息和实时信息,包括厂商,序列号,当前温度,当前输入电压,当前输入电流,当前输出电压,当前输出电流,当前状态。最后,将根据IPMI指令获取的序列号对应到SMBIOS中的电源装置序列号,得到当前电源装置所在的槽位名称,此时,即可将检测到的电源装置的实时信息对应到具体的槽位上,若从实时信息检测到异常,即可立即提示哪个槽位上的电源装置发生了故障。通过此方法,可迅速准确的定位产生故障的电源装置。
具体的,在上述三个步骤中,获取电源装置槽位名称的过程为:
不同的服务器所支持的电源装置数目会有所不同,其槽位的名称也会因服务器型号不同而产生差异。要准确的获取当前服务器的槽位名称信息,就要访问SMBIOS中保存的电源装置信息。根据SMBIOS 3.0的规范标准可知,Type 39的offset 05h处保存的是槽位名称字符串的索引,同时,offset 07h处保存的是厂商名称字符串的索引,offset 08h处保存的是序列号字符串的索引,这样,通过读内存中SMBIOS的内容,可得到当前槽位的名称,电源是否在位,在位的电源的厂商及序列号等信息。
获取电源装置实时信息的过程为:
电源装置的实时信息包括当前温度,当前输入电压,当前输入电流,当前输出电压,当前输出电流,当前状态等,这些信息需要通过读取相关传感器数据获得。传感器通过I2C总线连接BMC,因此,可以通过IPMI发送指令,读取这些传感器的值。在IPMI命令中,设置NetFn为0x3A,设置CMD为0x71,设置Req1为当前电源装置索引值,发送指令后,解析返回的字节,可获得当前电源在位状态,厂商名称,序列号,和实时信息:当前输入、输出、电压、电流、功率,温度等信息。
根据序列号定位的过程为:
电源装置的序列号可分别由SMBIOS和IPMI获得,将SMBIOS中获得的信息(包括槽位名称,序列号等)和经IPMI获得的信息(包括序列号,当前温度和输入输出电压电流数据等)通过序列号连接,即可获得带电源槽位名称的电源装置详细信息,若实时信息中含有异常数据,即可立即根据所在槽位名称定位到具体的电源装置。
进一步的,本发明的三个步骤执行过程为:
一、读SMBIOS中电源装置信息。
1 在内存中找SMBIOS的entry point;
2 找type=39的SMBIOS表的入口地址;
3 解析槽位名称;
4 解析设备名称;
5 解析厂商名称;
6 解析序列号名称;
7 解析状态信息。
二、使用IPMI读电源装置相关传感器值。
1 设置电源装置的NetFn值;
2 设置访问电源信息的CMD值;
3 设置访问电源信息的Req值;
4 发送指令并接受返回值;
5 解析在位信息;
6 解析状态信息;
7 解析温度信息;
8 解析电流信息;
9 解析电压信息;
10解析功率信息。
三、将槽位信息与实时信息连接。
1 在步骤一生成的信息中寻找序列号;
2 在步骤二生成的信息中寻找序列号;
3 匹配序列号是否相等,若相同则将槽位信息与实时信息合并。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上对本发明所提供的一种服务器电源装置故障定位的方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种服务器电源装置故障定位的方法,其特征在于,包括以下步骤:
一、首先获取当前服务器支持的电源数量和电源装置槽位信息;
二、获取电源装置的信息,该信息包括固定信息和实时信息;
三、根据获取的电源装置的信息对应到步骤一中获取的相关信息,得到该电源装置的槽位信息,当检测到电源装置出现故障时,及时定位电源装置对应的槽位。
2.根据权利要求1所述的一种服务器电源装置故障定位的方法,其特征在于,所述步骤一通过读取SMBIOS信息来确定服务器所支持的电源数量和槽位名称信息;获取当前连接电源的个数和所在槽位,并检查每一个槽位上的电源的固定信息,该固定信息包括厂商、序列号、型号、槽位名称。
3.根据权利要求2所述的一种服务器电源装置故障定位的方法,其特征在于,基于SMBIOS 3.0规范标准,Type 39的offset 05h处保存槽位名称字符串的索引,offset 07h处保存厂商名称字符串的索引,offset 08h处保存序列号字符串的索引,步骤一通过读取内存中SMBIOS的内容,得到当前槽位的名称,电源是否在位,在位的电源的厂商及序列号信息,具体为:读取内存中SMBIOS的内容;找到type=39的SMBIOS表的入口地址;解析槽位名称、设备名称、厂商名称、序列号名称和状态信息。
4.根据权利要求2所述的一种服务器电源装置故障定位的方法,其特征在于,所述步骤二中电源装置信息通过向BMC发送IPMI指令,读取并检查电源装置的固定信息和实时信息。
5.根据权利要求4所述的一种服务器电源装置故障定位的方法,其特征在于,固定信息和实时信息包括厂商、序列号、当前温度、当前输入电压、当前输入电流、当前输出电压、当前输出电流、当前状态。
6.根据权利要求4或5所述的一种服务器电源装置故障定位的方法,其特征在于,步骤二中获取电源装置实时信息通过读取传感器数据获得,传感器通过I2C总线连接BMC,从而通过IPMI发送指令,读取这些传感器的值。
7.根据权利要求6所述的一种服务器电源装置故障定位的方法,其特征在于,在IPMI命令中,设置电源装置的NetFn为0x3A,设置访问电源信息的CMD值为0x71,设置Req1为当前电源装置索引值,发送指令后,解析返回的字节,该返回的字节为传感器数据。
8.根据权利要求7所述的一种服务器电源装置故障定位的方法,其特征在于,所述返回的字节是指传感器返回的在位信息、状态信息、温度信息、电流信息、电压信息、功率信息。
9.根据权利要求8所述的一种服务器电源装置故障定位的方法,其特征在于,解析传感器数据后,获得当前电源在位状态、厂商名称、序列号、实时信息,即当前输入、输出、电压、电流、功率、温度信息。
10.根据权利要求9所述的一种服务器电源装置故障定位的方法,其特征在于,在步骤三中,根据IPMI指令获取的序列号对应到SMBIOS中的电源装置序列号,得到当前电源装置所在的槽位名称,将检测到的电源装置的实时信息对应到具体的槽位上,若从实时信息检测到异常,即可立即提示哪个槽位上的电源装置发生了故障。
CN201710267112.7A 2017-04-21 2017-04-21 一种服务器电源装置故障定位的方法 Pending CN107092334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710267112.7A CN107092334A (zh) 2017-04-21 2017-04-21 一种服务器电源装置故障定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710267112.7A CN107092334A (zh) 2017-04-21 2017-04-21 一种服务器电源装置故障定位的方法

Publications (1)

Publication Number Publication Date
CN107092334A true CN107092334A (zh) 2017-08-25

Family

ID=59636955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710267112.7A Pending CN107092334A (zh) 2017-04-21 2017-04-21 一种服务器电源装置故障定位的方法

Country Status (1)

Country Link
CN (1) CN107092334A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488205A (zh) * 2018-10-24 2019-11-22 新华三技术有限公司 一种故障识别装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991629A (zh) * 2015-07-10 2015-10-21 英业达科技有限公司 电源失效侦测***与其方法
CN106020804A (zh) * 2016-05-12 2016-10-12 浪潮电子信息产业股份有限公司 一种自动更新dmi电源信息的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991629A (zh) * 2015-07-10 2015-10-21 英业达科技有限公司 电源失效侦测***与其方法
CN106020804A (zh) * 2016-05-12 2016-10-12 浪潮电子信息产业股份有限公司 一种自动更新dmi电源信息的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DISTRIBUTED MANAGEMENT TASK FORCE, INC. (DMTF): "《System Management BIOS (SMBIOS) Reference Specification Version 3.1.1》", 12 January 2017 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488205A (zh) * 2018-10-24 2019-11-22 新华三技术有限公司 一种故障识别装置
US11719757B2 (en) 2018-10-24 2023-08-08 New H3C Technologies Co., Ltd. Fault recognition

Similar Documents

Publication Publication Date Title
CN105554007B (zh) 一种web异常检测方法和装置
CN103853639B (zh) 自测试***和用于自测试功能逻辑模块的方法
CN108092854B (zh) 基于iec61375协议的列车级以太网设备的测试方法及装置
CN103116621B (zh) 检测计算机硬件温度的方法、***及识别硬件型号的方法
CN106294040B (zh) 光模块状态信息的获取方法和装置
CN106570984B (zh) 支持多种韦根格式的***验证方法、装置及***
CN103793428B (zh) 网页摘要信息的生成方法和装置
CN104182548B (zh) 网页更新处理方法及装置
CN106407059A (zh) 一种服务器节点测试***及方法
CN111400189A (zh) 代码覆盖率监测方法、装置、电子设备及存储介质
CN106126368A (zh) 一种linux下内存故障地址解析的方法
CN112087462A (zh) 一种工控***的漏洞检测方法和装置
CN208140901U (zh) 一种服务器电源实时监控装置
CN104969083B (zh) 用于动态扫描调度的***
CN107423171A (zh) 基于pcie标准的插槽式功能扩展卡的检测方法及装置
CN110324081A (zh) 分布式多节点协同的光纤布拉格光栅传感器故障定位方法
WO2016062154A1 (zh) 信息采集方法及装置、通信***
CN107092334A (zh) 一种服务器电源装置故障定位的方法
CN107145426A (zh) 一种bmc 测试me状态异常的方法
CN108600690A (zh) 基于图像识别的仪表盘抄表方法及***、存储介质及服务器
CN107247505A (zh) 一种易于查看的云服务器电源blackbox设计方法
CN208334539U (zh) 户表验收防串户排查装置
CN106680755A (zh) 特高压全光纤电流互感器温度循环试验装置及其试验方法
CN108957215A (zh) 户表验收防串户排查装置及排查方法
CN108875374A (zh) 基于文档节点类型的恶意pdf检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170825

RJ01 Rejection of invention patent application after publication