CN113886307A - Bmc模块、服务器主板、bmc模块的热维护方法及*** - Google Patents

Bmc模块、服务器主板、bmc模块的热维护方法及*** Download PDF

Info

Publication number
CN113886307A
CN113886307A CN202111161915.7A CN202111161915A CN113886307A CN 113886307 A CN113886307 A CN 113886307A CN 202111161915 A CN202111161915 A CN 202111161915A CN 113886307 A CN113886307 A CN 113886307A
Authority
CN
China
Prior art keywords
bmc module
bmc
module
server
isolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111161915.7A
Other languages
English (en)
Inventor
郑龙
张胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111161915.7A priority Critical patent/CN113886307A/zh
Publication of CN113886307A publication Critical patent/CN113886307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例提供一种服务器管理***,包括:服务器主板和与所述服务器主板独立设置的底板管理控制器BMC模块;所述BMC模块和所述服务器主板,分别通过其第一接口和第二接口,二者可插拔地连接;所述BMC模块设置有电源缓启动电路,用于支持所述BMC模块相对所述服务器主板热插拔时的电源保护;所述服务器主板设置有信号隔离电路,用于支持所述BMC模块相对所述服务器主板热插拔时的信号隔离。

Description

BMC模块、服务器主板、BMC模块的热维护方法及***
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种底板管理控制器BMC模块,一种服务器主板,一种服务器管理***,一种底板管理控制器BMC模块的热维护方法及***。
背景技术
BMC(baseboard management controller,底板管理控制器)在服务器***中用于对服务器风扇、电源、设备在位情况进行监控及管理,BMC与CPU有数据交互。
目前,若BMC发生故障,则需要停止业务并对整台服务器下线进行维护,导致维护周期长,成本高。基于此,本说明书实施例开拓性地提出一种不影响业务的BMC在线热维护方案。
发明内容
本说明书一个或多个实施例描述了底板管理控制器BMC模块、服务器主板、服务器管理***、BMC模块的在线热维护方法及***,通过对BMC模块化,使其与服务器主板独立设置,可热插拔的连接,从而实现针对BMC模块的不影响业务的在线热维护。
根据第一方面,提供一种BMC模块,与服务器主板独立设置,所述BMC模块包括:第一接口,用于与服务器主板可插拔地连接;电源缓启动电路,用于支持所述BMC模块相对所述服务器主板热插拔时的电源保护。
根据第二方面,提供一种服务器主板,包括:第二接口,用于与独立设置的BMC模块可插拔地连接;信号隔离电路,用于支持所述BMC模块相对所述服务器主板热插拔时的信号隔离。
根据第三方面,提供一种服务器管理***,包括:服务器主板和与所述服务器主板独立设置的BMC模块;所述BMC模块和所述服务器主板,分别通过其第一接口和第二接口,二者可插拔地连接;所述BMC模块设置有电源缓启动电路,用于支持所述BMC模块相对所述服务器主板热插拔时的电源保护;所述服务器主板设置有信号隔离电路,用于支持所述BMC模块相对所述服务器主板热插拔时的信号隔离。
在一个实施例中,所述***还包括:板间连接器,用于通过分别连接所述第一接口和第二接口,连接所述BMC模块和所述服务器主板。
根据第四方面,提供一种BMC模块的在线热维护方法,所述BMC模块与服务器主板可插拔地连接;所述方法包括:复杂可编程逻辑器件CPLD在监测到BMC模块运行异常后,向基本输入输出***BIOS发送第一通知;所述BIOS***根据所述第一通知,记录BMC模块异常事件,并在针对BMC模块进行故障隔离和/或告警屏蔽后,向所述CPLD器件发送隔离完成标志;所述CPLD器件根据所述隔离完成标志,提示维护人员所述BMC模块可拔除。
在一个实施例中,复杂可编程逻辑器件CPLD在监测到BMC模块运行异常后,向基本输入输出***BIOS发送第一通知,包括:所述CPLD器件监测到BMC模块运行异常后,复位所述BMC模块;所述CPLD器件在监测到所述BMC模块运行仍然异常的情况下,向所述BIOS***发送所述第一通知。
在一个实施例中,所述服务器主板中设置信号隔离电路;其中,针对BMC模块进行故障隔离和/或告警屏蔽,包括:通过控制所述信号隔离电路,断开所述服务器主板中信号电路与所述BMC模块中信号电路之间的连接。
在一个实施例中,所述BIOS***还根据所述第一通知,将所述BMC模块在带内管理***中的状态更新为故障,和/或可拔除。
在一个实施例中,所述CPLD器件根据所述隔离完成标志,提示维护人员所述BMC模块可拔除,包括:所述CPLD器件根据所述隔离完成标志,通过点亮指示灯进行所述提示。
在一个实施例中,在所述CPLD器件根据所述隔离完成标志,提示维护人员所述BMC模块可拔除之后,所述方法还包括:所述CPLD器件在监测到BMC模块恢复正常运行后,向所述BIOS***发送第二通知;所述BIOS***根据所述第二通知,解除所述故障隔离和/或告警屏蔽。
在一个具体的实施例中,所述服务器主板中设置信号隔离电路;其中,解除所述故障隔离和/或告警屏蔽,包括:通过控制所述信号隔离电路,恢复所述服务器主板中信号电路与所述BMC模块中信号电路之间的连接。
在一个实施例中,所述CPLD器件通过监测所述BMC模块的心跳信号,判断所述BMC模块是否正常运行。
根据第五方面,提供一种BMC模块的热维护***,所述BMC模块与服务器主板可插拔地连接,所述***包括:复杂可编程逻辑器件CPLD,用于在监测到BMC模块运行异常后,向基本输入输出***BIOS发送第一通知;所述BIOS***,用于根据所述第一通知,记录BMC模块异常事件,并在针对BMC模块进行故障隔离和/或告警屏蔽后,向所述CPLD器件发送隔离完成标志;所述CPLD器件,还用于根据所述隔离完成标志,提示维护人员所述BMC模块可拔除。
根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序在计算机中执行时,令计算机执行上述第四方面提供的方法。
根据第七方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第四方面提供的方法。
综上,对于单纯复位BMC无法解决的硬件故障,通过采用本说明书实施例披露的软硬件结合实现BMC模块热插拔的一系列流程,做到故障隔离,无需对服务器进行下电即可快速进行BMC模块的更换操作,更换后自动恢复BMC模块的正常运行,对业务运行无影响。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的BMC模块的结构示意图;
图2示出根据一个实施例的服务器主板的结构示意图;
图3示出根据一个实施例的服务器管理***的结构示意图;
图4示出根据一个实施例的实现BMC模块在线热维护的多方交互示意图;
图5示出根据一个实施例的BMC模块的热维护***的结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
目前,BMC被集成在服务器主板中,在BMC小***故障后,可以通过长按UID(unitidentification light)按钮对BMC进行复位,但是,若故障为硬件故障,则复位BMC无法解除故障,仍需要对业务进行迁移,并对服务器整机下电后进行维护,这种维护方式周期长,成本高。
基于此,本说明书实施例开拓性地提出一种不影响业务的BMC在线热维护方案。此方案包括硬件实现部分和软件实现部分。在硬件实现部分,对BMC模块化,使其与服务器主板独立设置,可热插拔的连接。具体,下面从BMC模块、服务器主板和包括二者的服务器管理***,三个角度,介绍硬件实现部分的方案。
图1示出根据一个实施例的BMC模块的结构示意图,该BMC模块与服务器主板独立设置。需说明,本说明书实施例披露的BMC模块可以指代各种对服务器进行带外管理的管理单元,其名称包括但不限于服务器管理板、服务器管理模块、服务器管理单元。
如图1所示,BMC模块100包括第一接口110,用于与服务器主板可插拔地连接;需理解,此连接可以是直接连接,也可以是经由连接器的间接连接;并且,第一接口110的数量可以是一个或多个;可插拔意味着BMC模块与服务器主板之间可拆卸式连接,BMC模块可以***服务器主板也可以从中拔出。
BMC模块100还包括电源缓启动电路120,用于支持BMC模块100相对服务器主板热插拔时的电源保护。具体,当BMC模块100相对服务器主板进行***或拔除时,其上设置的电源缓启动电路120可以将服务器电源母线上的瞬态浪涌电流限制在一个较低的水平,同时也不会造成整个服务器电压下降,避免了插拔过程给服务器电源带来的危害,从而实现电源热插拔。
在一个实施例中,电源缓启动电路120被实现为电压斜率型。在另一个实施例中,电源缓启动电路120被实现为电流斜率型。需说明,电压斜率型缓启动电路结构简单,但是其输出电流的变化受负载阻抗的影响较大,电流斜率型缓启动电路的输出电流变化不受负载影响,但是电路结构复杂,由此,可以按照实际需求将电源缓启动电路120实现为电压斜率型或电流斜率型。另一方面,可以使用MOS管来设计缓启动电路,MOS管有导通阻抗Rds低和驱动简单的特点,在周围加上少量元器件就可以构成缓慢启动电路;通常情况下,在正电源中用PMOS,在负电源中使用NMOS。
需理解,电源缓启动电路120连接到BMC模块供电电路,并且,BMC模块还包括信号电路等其他常规电路。
以上,对独立模块化的BMC进行介绍。
图2示出根据一个实施例的服务器主板的结构示意图,如图2所示,服务器主板200包括第二接口210,用于与上述独立设置的BMC模块100可插拔地连接;需说明,此连接可以是直接连接,也可以是经由连接器的间接连接;并且,第二接口210的数量可以是一个或多个。
服务器主板200还包括信号隔离电路220,用于支持BMC模块100相对服务器主板200热插拔时的信号隔离。具体,当BMC模块100***服务器主板200或从服务器主板200中拔除时,信号隔离电路220的设置实现将主板信号电路的信号线上的瞬变电压限制在合理水平,从而维持服务器的正常通信。需说明,信号隔离电路220,需要根据服务器主板200的主板信号电路中传输的信号种类(如高速信号或低速信号)等进行适应性设计;此外,示例性地,信号隔离电路220可以通过在服务器主板200的信号电路中串联缓冲器(buffer)来实现。
需理解,服务器主板还包括主板供电电路等其他常规电路。
并且,BMC模块还包括信号电路等其他常规电路。
以上,对可以与独立设置的BMC模块进行可插拔连接的服务器主板进行介绍。
图3示出根据一个实施例的服务器管理***的结构示意图,如图3所示,服务器管理***300包括上述BMC模块100和服务器主板200。
BMC模块100与服务器主板200,分别通过其第一接口110和第二接口210(图3中未示出第一接口和第二接口,可参见图1和图2),进行可插拔地连接。在一个实施例中,服务器管理***300中还包括板间连接器310,用于通过分别连接第一接口和第二接口,连接BMC模块100和服务器主板200。在一个具体的实施例中,板间连接器310包括第三接口和第四接口(图3中未示出),板间连接器310和BMC模块100通过第一接口100和第三接口可插拔连接,板间连接器310和服务器主板200通过第二接口210和第四接口可插拔连接。如此,利用板件连接器310可以实现BMC模块100和服务器主板200之间的可插拔连接。
BMC模块100设置有电源缓启动电路120,缓启动电路120可以导通BMC模块供电电路和主板供电电路,用于实现BMC模块100相对服务器主板200进行热插拔时的电源保护。
服务器主板200设置有信号隔离电路220,信号隔离电路220可以控制服务器主板200和BMC模块100之间信号的导通和关断,从而实现BMC模块100相对服务器主板200热插拔时的信号隔离。
需说明,对于电源缓启动电路120和信号隔离电路220的描述,还可以参见前述实施例中的相关介绍,在此不作赘述。
以上,对上述方案的硬件实现部分进行介绍。通过对BMC进行独立模块化,将负责带外管理的硬件电路集中到一块单板上模块化设计,并且,对服务器主板进行适应性设计,从而在BMC故障后,可以免拆箱、免下电进行更换。此外需理解,图1、图2和图3仅对服务器主板、BMC模块以及包括二者的服务器管理***进行示意性呈现,对其在实际应用中的形状、样式不作限制。
基于硬件部分的设计,可以实现方案的软件部分。图4示出根据一个实施例的实现BMC模块在线热维护的多方交互示意图,其中多方包括与服务器主板独立设置的BMC模块,固化在服务器主板中芯片(通常为ROM芯片)上的BIOS(Basic Input Output System,基本输入输出***),以及CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)。需说明,上述CPLD器件包括集成在BMC模块和服务器主板中的相关器件。
如图4所示,所述多方交互包括以下步骤:
步骤S410,CPLD器件监测到BMC模块运行异常。在一个实施例中,CPLD器件可以通过监控BMC模块的心跳信号,判断BMC模块是否异常。进一步,在持续监测到BMC模块按照预先约定的时间间隔(例如1s)发送的心跳信号的情况下,判定BMC模块正常运行;否则,在超出预定时间间隔仍未接收到BMC模块发送的心跳信号的情况下,判定BMC模块运行异常。
步骤S420,CPLD器件向基本输入输出***BIOS发送第一通知。
需说明,在一个实施例中,在步骤S410之后和步骤S420之前,上述交互过程还可以包括步骤S412,CPLD器件复位上述BMC模块,进一步,在复位BMC模块后,若在步骤S414,CPLD器件监测到BMC模块运行仍然异常,则执行上述步骤S420,否则,继续检测BMC模块的心跳信号。
上述第一通知指示BMC模块运行异常。基于此,在步骤S430,BIOS***根据该第一通知,记录BMC模块异常事件。需理解,可以将BMC异常事件归入异常记录,保存在BIOS***的日志文件中,以便后续的调用和分析。
本步骤中,BIOS***还根据第一通知,针对BMC模块进行故障隔离和告警屏蔽。在一个实施例中,BIOS***可以停止针对BMC模块的信号采集,过滤针对BMC模块的故障信号和告警信号,从而实现故障隔离和告警屏蔽。在一个实施例中,服务器主板中设置有上述信号隔离电路,基于此,BIOS***通过控制此信号隔离电路,断开服务器主板中信号电路与BMC信号电路之间的连接,防止后续BMC模块被拔除造成信号电路中产生瞬变电压,影响***正常通信。
另一方面,在一个实施例中,本步骤中还可以包括:BIOS***将BMC模块在带内管理***中的状态更新为故障,和/或,可拔除。需理解,服务器带内管理是指在业务层面OS(operating system)下对服务器设备进行管理,通过对BMC模块状态进行更新,以供相关业务进行查询。
进一步,在一种实施方式中,BIOS***在针对BMC模块进行故障隔离和/或告警屏蔽后,在步骤S440,向CPLD器件发送隔离完成标志。并且,在步骤S450,CPLD器件根据该隔离完成标志,提示维护人员BMC模块可拔除。在一个实施例中,CPLD器件通过点亮指示灯的方式,提示维护人员BMC模块可拔除。需理解,该指示灯可以帮助定位到对应的BMC模块。在另一个实施例中,CPLD器件还可以通过语音进行提示。如此,使得维护人员可以根据提示,更换故障的BMC模块。
在另一种实施方式中,BIOS***将BMC模块在带内管理***中的状态更新为可拔除,相应,CPLD器件通过带内查询到BMC模块状态为可拔除后,提示维护人员BMC模块可拔除。
根据另一方面的实施例,在步骤S450之后,上述交互过程还可以包括:步骤S460,CPLD器件监测到BMC模块正常运行。在一个实施例中,CPLD根据BMC在位状态对其心跳信号进行检测,检测到心跳信号恢复正常,从而判定BMC模块正常运行。
进一步,CPLD器件在步骤S470,向BIOS***发送第二通知,指示BMC模块恢复正常运行,从而BIOS***在步骤S480,解除故障隔离和/或告警屏蔽。在一个实施例中,BIOS***可以恢复针对BMC模块的信号采集,从而解除故障隔离和告警屏蔽。在一个实施例中,服务器主板中设置有上述信号隔离电路,基于此,BIOS***通过控制此信号隔离电路,恢复服务器主板中信号电路与BMC信号电路之间的连接,从而恢复与BMC模块相关的正常通信。
以上,对方案的软件实现部分进行介绍。通过CPLD监控BMC模块的运行状态,BMC模块异常时,CPLD可以通知BIOS进行故障隔离,并在隔离完成后通知维护人员进行BMC模块的更换操作,更换后***自动恢复运行。
综上,对于单纯复位BMC无法解决的硬件故障,通过采用本说明书实施例披露的软硬件结合实现BMC模块热插拔的一系列流程,做到故障隔离,无需对服务器进行下电即可快速进行BMC模块的更换操作,更换后自动恢复BMC模块的正常运行,对业务运行无影响。
与上述在线热维护的多方交互相对应的,本说明书实施例还披露一种在线热维护***。图5示出根据一个实施例的BMC模块的热维护***的结构示意图,其中BMC模块与服务器主板可插拔地连接。如图5所示,所述***500包括:
复杂可编程逻辑器件CPLD,用于在监测到BMC模块运行异常后,向基本输入输出***BIOS发送第一通知;所述BIOS***,用于根据所述第一通知,记录BMC模块异常事件,并在针对BMC模块进行故障隔离和/或告警屏蔽后,向所述CPLD器件发送隔离完成标志;所述CPLD器件,还用于根据所述隔离完成标志,提示维护人员所述BMC模块可拔除。
在一个实施例中,所述CPLD器件具体用于:在监测到BMC模块运行异常后,复位所述BMC模块;在监测到所述BMC模块运行仍然异常的情况下,向所述BIOS***发送所述第一通知。
在一个实施例中,服务器主板中设置信号隔离电路,所述BIOS***用于针对BMC模块进行故障隔离和/或告警屏蔽,具体包括:通过控制所述信号隔离电路,断开所述服务器主板中信号电路与所述BMC模块中信号电路之间的连接。
在一个实施例中,所述BIOS***还用于:根据所述第一通知,将所述BMC模块在带内管理***中的状态更新为故障,和/或可拔除。
在一个实施例中,所述CPLD器件具体用于:根据所述隔离完成标志,通过点亮指示灯提示维护人员所述BMC模块可拔除。
在一个实施例中,所述CPLD器件还用于:在监测到BMC模块恢复正常运行后,向所述BIOS***发送第二通知;所述BIOS***还用于:根据所述第二通知,解除所述故障隔离和/或告警屏蔽。
进一步,在一个具体的实施例中,所述服务器主板中设置信号隔离电路;其中,所述BIOS***用于解除所述故障隔离和/或告警屏蔽,具体包括:通过控制所述信号隔离电路,恢复所述服务器主板中信号电路与所述BMC模块中信号电路之间的连接。
在一个实施例中,所述CPLD器件具体用于:通过监测所述BMC模块的心跳信号,判断所述BMC模块是否正常运行。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图4所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,该存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图4所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (13)

1.一种底板管理控制器BMC模块,与服务器主板独立设置,所述BMC模块包括:
第一接口,用于与服务器主板可插拔地连接;
电源缓启动电路,用于支持所述BMC模块相对所述服务器主板热插拔时的电源保护。
2.一种服务器主板,包括:
第二接口,用于与独立设置的底板管理控制器BMC模块可插拔地连接;
信号隔离电路,用于支持所述BMC模块相对所述服务器主板热插拔时的信号隔离。
3.一种服务器管理***,包括:服务器主板和与所述服务器主板独立设置的底板管理控制器BMC模块;
所述BMC模块和所述服务器主板,分别通过其第一接口和第二接口,二者可插拔地连接;
所述BMC模块设置有电源缓启动电路,用于支持所述BMC模块相对所述服务器主板热插拔时的电源保护;
所述服务器主板设置有信号隔离电路,用于支持所述BMC模块相对所述服务器主板热插拔时的信号隔离。
4.根据权利要求3所述的***,还包括:
板间连接器,用于通过分别连接所述第一接口和第二接口,连接所述BMC模块和所述服务器主板。
5.一种底板管理控制器BMC模块的热维护方法,所述BMC模块与服务器主板可插拔地连接;所述方法包括:
复杂可编程逻辑器件CPLD在监测到BMC模块运行异常后,向基本输入输出***BIOS发送第一通知;
所述BIOS***根据所述第一通知,记录BMC模块异常事件,并在针对BMC模块进行故障隔离和/或告警屏蔽后,向所述CPLD器件发送隔离完成标志;
所述CPLD器件根据所述隔离完成标志,提示维护人员所述BMC模块可拔除。
6.根据权利要求5所述的方法,其中,复杂可编程逻辑器件CPLD在监测到BMC模块运行异常后,向基本输入输出***BIOS发送第一通知,包括:
所述CPLD器件监测到BMC模块运行异常后,复位所述BMC模块;
所述CPLD器件在监测到所述BMC模块运行仍然异常的情况下,向所述BIOS***发送所述第一通知。
7.根据权利要求5所述的方法,其中,所述服务器主板中设置信号隔离电路;其中,针对BMC模块进行故障隔离和/或告警屏蔽,包括:
通过控制所述信号隔离电路,断开所述服务器主板中信号电路与所述BMC模块中信号电路之间的连接。
8.根据权利要求5所述的方法,其中,所述BIOS***还根据所述第一通知,将所述BMC模块在带内管理***中的状态更新为故障,和/或可拔除。
9.根据权利要求5所述的方法,其中,所述CPLD器件根据所述隔离完成标志,提示维护人员所述BMC模块可拔除,包括:
所述CPLD器件根据所述隔离完成标志,通过点亮指示灯进行所述提示。
10.根据权利要求5所述的方法,其中,在所述CPLD器件根据所述隔离完成标志,提示维护人员所述BMC模块可拔除之后,所述方法还包括:
所述CPLD器件在监测到BMC模块恢复正常运行后,向所述BIOS***发送第二通知;
所述BIOS***根据所述第二通知,解除所述故障隔离和/或告警屏蔽。
11.根据权利要求10所述的方法,其中,所述服务器主板中设置信号隔离电路;其中,解除所述故障隔离和/或告警屏蔽,包括:
通过控制所述信号隔离电路,恢复所述服务器主板中信号电路与所述BMC模块中信号电路之间的连接。
12.根据权利要求5所述的方法,其中,所述CPLD器件通过监测所述BMC模块的心跳信号,判断所述BMC模块是否正常运行。
13.一种底板管理控制器BMC模块的热维护***,所述BMC模块与服务器主板可插拔地连接,所述***包括:
复杂可编程逻辑器件CPLD,用于在监测到BMC模块运行异常后,向基本输入输出***BIOS发送第一通知;
所述BIOS***,用于根据所述第一通知,记录BMC模块异常事件,并在针对BMC模块进行故障隔离和/或告警屏蔽后,向所述CPLD器件发送隔离完成标志;
所述CPLD器件,还用于根据所述隔离完成标志,提示维护人员所述BMC模块可拔除。
CN202111161915.7A 2021-09-30 2021-09-30 Bmc模块、服务器主板、bmc模块的热维护方法及*** Pending CN113886307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111161915.7A CN113886307A (zh) 2021-09-30 2021-09-30 Bmc模块、服务器主板、bmc模块的热维护方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111161915.7A CN113886307A (zh) 2021-09-30 2021-09-30 Bmc模块、服务器主板、bmc模块的热维护方法及***

Publications (1)

Publication Number Publication Date
CN113886307A true CN113886307A (zh) 2022-01-04

Family

ID=79004910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111161915.7A Pending CN113886307A (zh) 2021-09-30 2021-09-30 Bmc模块、服务器主板、bmc模块的热维护方法及***

Country Status (1)

Country Link
CN (1) CN113886307A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182483A1 (en) * 2002-03-08 2003-09-25 Hawkins Peter A. System management controller negotiation protocol
CN101963949A (zh) * 2010-10-11 2011-02-02 北京星网锐捷网络技术有限公司 热插拔实现方法、热插拔***及板卡
CN201804320U (zh) * 2010-08-20 2011-04-20 环达电脑(上海)有限公司 热插拔式bmc升级模块
CN102325081A (zh) * 2011-07-15 2012-01-18 福建星网锐捷网络有限公司 热插拔隔离方法、装置及主控板
US20140344431A1 (en) * 2013-05-16 2014-11-20 Aspeed Technology Inc. Baseboard management system architecture
CN104169905A (zh) * 2012-03-28 2014-11-26 英特尔公司 可配置和容错的基板管理控制器安排
CN109117404A (zh) * 2018-07-17 2019-01-01 深圳市同泰怡信息技术有限公司 一种可热插拔的服务器bbu装置
CN109471770A (zh) * 2018-09-11 2019-03-15 华为技术有限公司 一种***管理方法和装置
CN113204466A (zh) * 2021-04-29 2021-08-03 山东英信计算机技术有限公司 一种过温保护方法和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182483A1 (en) * 2002-03-08 2003-09-25 Hawkins Peter A. System management controller negotiation protocol
CN201804320U (zh) * 2010-08-20 2011-04-20 环达电脑(上海)有限公司 热插拔式bmc升级模块
CN101963949A (zh) * 2010-10-11 2011-02-02 北京星网锐捷网络技术有限公司 热插拔实现方法、热插拔***及板卡
CN102325081A (zh) * 2011-07-15 2012-01-18 福建星网锐捷网络有限公司 热插拔隔离方法、装置及主控板
CN104169905A (zh) * 2012-03-28 2014-11-26 英特尔公司 可配置和容错的基板管理控制器安排
US20140344431A1 (en) * 2013-05-16 2014-11-20 Aspeed Technology Inc. Baseboard management system architecture
CN109117404A (zh) * 2018-07-17 2019-01-01 深圳市同泰怡信息技术有限公司 一种可热插拔的服务器bbu装置
CN109471770A (zh) * 2018-09-11 2019-03-15 华为技术有限公司 一种***管理方法和装置
CN113204466A (zh) * 2021-04-29 2021-08-03 山东英信计算机技术有限公司 一种过温保护方法和电子设备

Similar Documents

Publication Publication Date Title
USRE39855E1 (en) Power management strategy to support hot swapping of system blades during run time
EP0373773B1 (en) Disengaging electrical circuit boards from power-supply units
US20160073541A1 (en) Separated server back plane
CN111399879A (zh) 一种cpld的固件升级***和方法
CN115686935A (zh) 数据备份方法、计算机设备及存储介质
US7490252B2 (en) Abnormal power interruption internal circuitry protection method and system for computer platform
CN113886307A (zh) Bmc模块、服务器主板、bmc模块的热维护方法及***
CN117559357A (zh) 服务器电源保护方法、***及装置
CN218824636U (zh) 一种用于服务器硬盘背板的电源检测装置
BRPI0613779A2 (pt) protetor de segmento de barramento de campo modular
CN115098294B (zh) 异常事件的处理方法、电子设备及管理终端
CN116540856A (zh) 一种供电模块故障恢复后更正状态的装置、方法和服务器
CN111984471A (zh) 一种机柜电源bmc冗余管理***及方法
CN111858148A (zh) 一种PCIE Switch芯片配置文件恢复***及方法
US6801973B2 (en) Hot swap circuit module
US6415391B1 (en) Control method and system for resetting backup data
US20070204088A1 (en) Modularized circuit board bus connection control method and system
CN111209143B (zh) 嵌入式***的恢复方法、装置、嵌入式设备及存储介质
CN111708426A (zh) 一种服务器及其供电保护电路
CN112463707A (zh) 一种i2c链路管理***及方法
US7263569B1 (en) Method and system for distributing power in a computer system
CN114116315B (zh) 一种应用于工业信息安全主板的usb失效恢复方法及***
CN214151684U (zh) 带有监控功能的主板组件及其***
CN211148841U (zh) 一种DC Cycle测试装置
JPH11175206A (ja) 周辺機器接続装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40065675

Country of ref document: HK