CN107577553A - 一种用来定位因供电异常导致无法开机问题的方法及*** - Google Patents

一种用来定位因供电异常导致无法开机问题的方法及*** Download PDF

Info

Publication number
CN107577553A
CN107577553A CN201710908341.2A CN201710908341A CN107577553A CN 107577553 A CN107577553 A CN 107577553A CN 201710908341 A CN201710908341 A CN 201710908341A CN 107577553 A CN107577553 A CN 107577553A
Authority
CN
China
Prior art keywords
voltage conversion
conversion chip
bmc
power supply
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710908341.2A
Other languages
English (en)
Inventor
曹先帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710908341.2A priority Critical patent/CN107577553A/zh
Publication of CN107577553A publication Critical patent/CN107577553A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Power Sources (AREA)

Abstract

本发明公开了一种用来定位因供电异常导致无法开机问题的方法及***,在开机阶段通过增加BMC对各组电压转换芯片PG信号的信息收集,保证服务器出现开机上电异常情况时,通过读取BMC日志定位到最先出现问题的供电模块,进而分析出问题原因,找到解决方法。本发明的一种用来定位因供电异常导致无法开机问题的方法及***和现有技术相比,根据在服务器开机阶段因供电问题导致无法正常开机时,通过BMC日志中收集到的各组供电芯片发出的PG信号状态,定位出最先出现异常的供电模块,进而做出分析,找出相应的解决措施,提高研发工作效率,避免出现批量问题导致影响扩大。

Description

一种用来定位因供电异常导致无法开机问题的方法及***
技术领域
本发明涉及服务器架构技术领域,具体地说是一种用来定位因供电异常导致无法开机问题的方法及***。
背景技术
在云计算、大数据时代,海量的数据需要存储和计算,数据中心的服务器部署密度越来越大。在数据量暴增的时代,数据时时刻刻都在被分类存储和计算,这就对数据中心服务器的长期稳定性和可靠性要求越来越高。服务器在产品设计研发阶段,存在的问题是最多的,也是最复杂的,尤其是因供电异常导致无法开机问题一直以来都是问题定位和解决耗费时间最长的。在产品开发初期能够尽快解决各种问题,可有效减小产品开发周期,降低研发成本。
现有的服务器架构中,在开机时序上通过各组供电转换芯片发出PG信号按照逻辑顺序来控制每一组供电模块的上电顺序,BMC只负责在开机后收集各供电模块是否出现异常的信息,不会在开机阶段精确记录PG信号状态。
发明内容
本发明的技术任务是提供一种用来定位因供电异常导致无法开机问题的方法及***。
本发明的技术任务是按以下方式实现的:
一种用来定位因供电异常导致无法开机问题的方法,包括,
在开机阶段通过增加BMC对各组电压转换芯片PG信号的信息收集,保证服务器出现开机上电异常情况时,通过读取BMC日志定位到最先出现问题的供电模块,进而分析出问题原因,找到解决方法。
该用来定位因供电异常导致无法开机问题的方法的操作步骤如下:
步骤1)对BMC增加在开机阶段对各组电压转换芯片PG信息收集的功能;
步骤2)利用各电压转换芯片内部寄存器具有记录PG状态信息的功能,通过BMC读取电压转换芯片内部寄存器地址的方法收集电压转换芯片的寄存器信息,准确记录开机阶段每组电压模块PG信号状态;
步骤3)当开机阶段出现供电问题导致无法开机时,通过读取BMC日志,找到在时序上最靠前的PG为低电平的供电模块,即可定位出导致无法开机的故障供电模块,进行针对性复现实验和分析,最终找到解决方法。
所述的BMC读取电压转换芯片内部寄存器地址的方法,操作如下:
每个电压转换芯片有一个访问地址,电压转换芯片给每个功能pin设置一个地址,BMC访问此电压转换芯片的PG信息时,直接访问电压转换芯片的访问地址的前两位,电压转换芯片内部功能pin的地址为访问地址的后六位,两者组合成的地址就是BMC直接要访问的PG信息。
所述的PG电平状态时刻被电压转换芯片的寄存器记录下来,BMC一直循环主动读取各电压转换芯片的寄存器信息的变化,并做实时记录,作为log呈现给工作人员。
所述的log记录保存设定周期,每个周期之后会将之前的log依次覆盖。
所述的log记录保存设定周期,所述的周期为20-60天。
一种用来定位因供电异常导致无法开机问题的***,包括,电源、BMC以及多个电压转换芯片;
所述的电源通过导线与多个电压转换芯片串联连接,所述的BMC通过导线与每一个电压转换芯片分别连接。
所述的BMC增加在开机阶段对各组电压转换芯片PG信息收集的功能。
所述的BMC用于循环主动读取各电压转换芯片的寄存器信息的变化。
所述的每一个电压转换芯片有一个访问地址,电压转换芯片给每个功能pin设置一个地址。
本发明的一种用来定位因供电异常导致无法开机问题的方法及***和现有技术相比,根据在服务器开机阶段因供电问题导致无法正常开机时,通过BMC日志中收集到的各组供电芯片发出的PG信号状态,定位出最先出现异常的供电模块,进而做出分析,找出相应的解决措施,提高研发工作效率,避免出现批量问题导致影响扩大。
附图说明
附图1为BMC增加对每组电压转换芯片的PG信号信息收集示意图。
具体实施方式
实施例1:
一种用来定位因供电异常导致无法开机问题的***,包括,电源、BMC以及多个电压转换芯片;
所述的电源通过导线与多个电压转换芯片串联连接,所述的BMC通过导线与每一个电压转换芯片分别连接。
所述的BMC增加在开机阶段对各组电压转换芯片PG信息收集的功能。
所述的BMC用于循环主动读取各电压转换芯片的寄存器信息的变化。
所述的每一个电压转换芯片有一个访问地址,电压转换芯片给每个功能pin设置一个地址。
实施例2:
一种用来定位因供电异常导致无法开机问题的方法,操作步骤如下:
步骤1)对BMC增加在开机阶段对各组电压转换芯片PG信息收集的功能;
步骤2)利用各电压转换芯片内部寄存器具有记录PG状态信息的功能,通过BMC读取电压转换芯片内部寄存器地址的方法收集电压转换芯片的寄存器信息,准确记录开机阶段每组电压模块PG信号状态;
所述的BMC读取电压转换芯片内部寄存器地址的方法,操作如下:
每个电压转换芯片有一个访问地址,电压转换芯片给每个功能pin设置一个地址,BMC访问此电压转换芯片的PG信息时,直接访问电压转换芯片的访问地址的前两位,电压转换芯片内部功能pin的地址为访问地址的后六位,两者组合成的地址就是BMC直接要访问的PG信息。
例如:12V转5V的电压转换芯片address地址为10,芯片的powergood地址为100100,BMC访问此芯片的powergood信息时,会直接访问10100100,即芯片address为8位访问地址的前两位,芯片内部功能pin的地址为8位访问地址的后6位,两者组合成的8位地址10100100就是BMC直接要访问的powergood信息。
步骤3)当开机阶段出现供电问题导致无法开机时,通过读取BMC日志,找到在时序上最靠前的PG为低电平的供电模块,即可定位出导致无法开机的故障供电模块,进行针对性复现实验和分析,最终找到解决方法。
所述的PG电平状态时刻被电压转换芯片的寄存器记录下来,BMC一直循环主动读取各电压转换芯片的寄存器信息的变化,并做实时记录,作为log呈现给工作人员;所述的log记录保存设定20、30或60天为一个周期,每个周期之后会将之前的log依次覆盖。
名词解释:
BMC:baseboard management controller,基板管理控制器;
PG:power good,供电正常。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (10)

1.一种用来定位因供电异常导致无法开机问题的方法,其特征在于,包括,
在开机阶段通过增加BMC对各组电压转换芯片PG信号的信息收集,保证服务器出现开机上电异常情况时,通过读取BMC日志定位到最先出现问题的供电模块,进而分析出问题原因,找到解决方法。
2.根据权利要求1所述的方法,其特征在于,该方法的操作步骤如下:
步骤1)对BMC增加在开机阶段对各组电压转换芯片PG信息收集的功能;
步骤2)利用各电压转换芯片内部寄存器具有记录PG状态信息的功能,通过BMC读取电压转换芯片内部寄存器地址的方法收集电压转换芯片的寄存器信息,准确记录开机阶段每组电压模块PG信号状态;
步骤3)当开机阶段出现供电问题导致无法开机时,通过读取BMC日志,找到在时序上最靠前的PG为低电平的供电模块,即可定位出导致无法开机的故障供电模块,进行针对性复现实验和分析,最终找到解决方法。
3.根据权利要求2所述的方法,其特征在于,所述的BMC读取电压转换芯片内部寄存器地址的方法,操作如下:
每个电压转换芯片有一个访问地址,电压转换芯片给每个功能pin设置一个地址,BMC访问此电压转换芯片的PG信息时,直接访问电压转换芯片的访问地址的前两位,电压转换芯片内部功能pin的地址为访问地址的后六位,两者组合成的地址就是BMC直接要访问的PG信息。
4.根据权利要求2所述的方法,其特征在于,所述的PG电平状态时刻被电压转换芯片的寄存器记录下来,BMC一直循环主动读取各电压转换芯片的寄存器信息的变化,并做实时记录,作为log呈现给工作人员。
5.根据权利要求4所述的方法,其特征在于,所述的log记录保存设定周期,每个周期之后会将之前的log依次覆盖。
6.根据权利要求5所述的方法,其特征在于,所述的log记录保存设定周期,所述的周期为20-60天。
7.一种用来定位因供电异常导致无法开机问题的***,其特征在于,包括,电源、BMC以及多个电压转换芯片;
所述的电源通过导线与多个电压转换芯片串联连接,所述的BMC通过导线与每一个电压转换芯片分别连接。
8.根据权利要求7所述的***,其特征在于,所述的BMC增加在开机阶段对各组电压转换芯片PG信息收集的功能。
9.根据权利要求7或8所述的***,其特征在于,所述的BMC用于循环主动读取各电压转换芯片的寄存器信息的变化。
10.根据权利要求7所述的***,其特征在于,所述的每一个电压转换芯片有一个访问地址,电压转换芯片给每个功能pin设置一个地址。
CN201710908341.2A 2017-09-29 2017-09-29 一种用来定位因供电异常导致无法开机问题的方法及*** Pending CN107577553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710908341.2A CN107577553A (zh) 2017-09-29 2017-09-29 一种用来定位因供电异常导致无法开机问题的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710908341.2A CN107577553A (zh) 2017-09-29 2017-09-29 一种用来定位因供电异常导致无法开机问题的方法及***

Publications (1)

Publication Number Publication Date
CN107577553A true CN107577553A (zh) 2018-01-12

Family

ID=61038773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710908341.2A Pending CN107577553A (zh) 2017-09-29 2017-09-29 一种用来定位因供电异常导致无法开机问题的方法及***

Country Status (1)

Country Link
CN (1) CN107577553A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120137179A1 (en) * 2010-11-30 2012-05-31 Inventec Corporation Processing system for monitoring power-on self-test information
CN103605596A (zh) * 2013-11-13 2014-02-26 曙光信息产业(北京)有限公司 用于atca刀片上的fpga芯片与bmc芯片协同电源管理***和方法
CN103792923A (zh) * 2014-02-14 2014-05-14 浪潮电子信息产业股份有限公司 一种采用数字芯片侦测和控制主板各组电源的方法
CN104850485A (zh) * 2015-05-25 2015-08-19 深圳国鑫恒宇技术有限公司 一种基于bmc远程诊断服务器开机故障的方法及***
CN105824388A (zh) * 2016-04-05 2016-08-03 浪潮电子信息产业股份有限公司 一种上电/掉电的检测方法、装置和***
CN106527646A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种基于pmbus总线的主板电源管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120137179A1 (en) * 2010-11-30 2012-05-31 Inventec Corporation Processing system for monitoring power-on self-test information
CN103605596A (zh) * 2013-11-13 2014-02-26 曙光信息产业(北京)有限公司 用于atca刀片上的fpga芯片与bmc芯片协同电源管理***和方法
CN103792923A (zh) * 2014-02-14 2014-05-14 浪潮电子信息产业股份有限公司 一种采用数字芯片侦测和控制主板各组电源的方法
CN104850485A (zh) * 2015-05-25 2015-08-19 深圳国鑫恒宇技术有限公司 一种基于bmc远程诊断服务器开机故障的方法及***
CN105824388A (zh) * 2016-04-05 2016-08-03 浪潮电子信息产业股份有限公司 一种上电/掉电的检测方法、装置和***
CN106527646A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种基于pmbus总线的主板电源管理方法

Similar Documents

Publication Publication Date Title
CN101494573B (zh) 一种故障的诊断方法、***和设备
CN111258830B (zh) 一种服务器功耗对比测试***及方法
CN107526664A (zh) 一种服务器异常掉电快速定位方法和装置
CN115083510B (zh) 固态硬盘测试方法、装置、存储介质、电源及电子设备
US20110179324A1 (en) Testing apparatus and method for analyzing a memory module operating within an application system
CN111653307A (zh) 固态硬盘的数据完整性检测方法、***、设备及存储介质
CN105700999A (zh) 记录处理器操作的方法及***
CN112579382A (zh) 一种NVMe固态硬盘坏块解析方法、装置、终端及存储介质
US20090064189A1 (en) Ontology driven contextual mediation
CN107807870B (zh) 一种存储服务器主板掉电保护功能的测试方法和***
CN107577553A (zh) 一种用来定位因供电异常导致无法开机问题的方法及***
CN103809051A (zh) 开关矩阵、自动测试***及其中的开关矩阵的检测方法
CN108647124A (zh) 一种存储跳变信号的方法及其装置
CN101751283B (zh) 虚拟机监视器,虚拟机***及客户操作***状态获取方法
CN101471792B (zh) 模组化服务器及其处理器模组与mac地址的管理方法
CN107436826B (zh) 一种冷数据处理方法及终端
CN102541705A (zh) 计算机的测试方法和工装板
CN113742166B (zh) 一种服务器***器件日志记录方法、装置及***
CN109343985A (zh) 一种数据处理方法、装置及存储介质
CN109783268A (zh) Ssd全***固件检错方法、装置、计算机设备和存储介质
CN104166046A (zh) 瞬态信号的处理方法及***
CN116662042A (zh) 内存装置及其工作方法、计算机可读存储介质及设备
CN112486785B (zh) 一种服务器定位宕机阶段的方法、***、终端及存储介质
CN115033283A (zh) 一种事件记录方法及电子设备
US20110258492A1 (en) Device for testing serial interface

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180112