CN104169905A - 可配置和容错的基板管理控制器安排 - Google Patents

可配置和容错的基板管理控制器安排 Download PDF

Info

Publication number
CN104169905A
CN104169905A CN201280071730.XA CN201280071730A CN104169905A CN 104169905 A CN104169905 A CN 104169905A CN 201280071730 A CN201280071730 A CN 201280071730A CN 104169905 A CN104169905 A CN 104169905A
Authority
CN
China
Prior art keywords
bmc
controller
role
node
except
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280071730.XA
Other languages
English (en)
Other versions
CN104169905B (zh
Inventor
D·理查德森
B·肯尼迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Priority to CN201711408176.0A priority Critical patent/CN107977299B/zh
Publication of CN104169905A publication Critical patent/CN104169905A/zh
Application granted granted Critical
Publication of CN104169905B publication Critical patent/CN104169905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

***和方法利用多节点***中的可配置容错基板管理控制器(BMC)安排。在一个示例中,该方法可包括将该多个BMC的第一BMC指定为主BMC的角色、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的BMC充当该主BMC的角色。

Description

可配置和容错的基板管理控制器安排
背景
技术领域
实施例总体上涉及减轻多节点服务器***中的故障的影响。更具体而言,实施例涉及利用多节点服务器中的基板管理控制器(BMC)安排。
讨论
服务器***可利用包含多个节点的单个机架。这些服务器***可利用与节点分离的机架管理控制器以便集中地管理***资源。然而,如果机架管理控制器出故障,整个***的操作会出故障。因此,实现可配置和容错的服务器***实施例可以是有益的。
附图简要说明
通过阅读以下说明书和所附权利要求书并且通过参考以下附图,本发明实施例的各种优点将对本领域普通技术人员变得明显,在附图中:
图1是根据本发明的实施例的实现可配置和容错的基板管理控制器安排的计算***的示例的框图;以及
图2是根据本发明的实施例的利用可配置和容错的基板管理控制器安排的方法的示例的流程图。
详细描述
现在转向图1,示出利用可配置和容错的基板管理控制器安排的计算***10的框图。计算***10可包括(除其他事项之外)机架100、第一节点服务器200、第二节点服务器300、第三节点服务器400、输入/输出(I/O)扩展器600。计算***10可耦合到网络1100。
机架100可包括第一节点101、第二节点102、和第三节点103。节点101、102、103可以是包括一个或多个组件的任何可替换单元。这些组件的示例包括(除其他事项之外)硬盘驱动器、基板、侧板、或对接板。
机架100还可包括第一风扇105、第二风扇106、和第三风扇107。风扇105、106、107可用于使机架100内的组件冷却。机架还可包括电源104。电源104可用于为机架100内的各组件供电。如在此所使用的,风扇105、106、107和电源104可以是***资源的示例。其他***资源可包括硬盘驱动器、传感器、硬盘驱动器和存储背板。
第一节点服务器200可以是被配置成用于监控、管理、支持、和控制第一节点101的操作的多个方面的计算机服务器***。类似地,第二节点服务器300和第三节点服务器400可被配置成用于分别监控、管理、支持、和控制第二节点102和第三节点103的操作的多个方面。
第一节点服务器200可包括第一节点存储器组件201、第一节点固件组件202、和第一节点处理组件203。类似地,第二节点服务器300可包括第二节点存储器组件301、第二节点固件组件302、和第二节点处理组件303。同样,第三节点服务器400可包括第三节点存储器组件401、第三节点固件组件402、和第三节点处理组件403。
第一节点存储器组件201可包括第一节点服务器应用204,其可被配置成用于(除其他事项之外)监控、管理、支持、和控制第一节点101的操作的多个方面。类似地,第二节点存储器组件301可包括第二节点服务器应用304,可相对于第二节点102类似地利用该第二节点服务器应用。同样,第三节点存储器组件401可包括第三节点服务器应用404,可相对于第三节点103类似地利用该第三节点服务器应用。
第一节点服务器200可包括第一节点BMC 205,其可被配置成用于监控、管理、支持、和控制多节点***的操作的多个方面。在本实施例中,除其他事项之外,其可被配置成用于监控、管理、支持、和控制其相关联的节点(第一节点101)的操作的多个方面。
例如,第一节点BMC 205可被配置成用于(除其他事项之外)传递与第一节点101的操作相关的信息(例如,功率水平、温度读数、和电压电平信息)。附加地,第一节点BMC 205还可被配置成用于促进第一节点101与被配置成用于监控、管理、支持、和控制第一节点101的操作的任何实体(例如,第一节点服务器应用204)之间的接口连接。第二节点BMC 305可被配置成用于相对于第二节点102类似地操作。同样,第三节点BMC 405可被配置成用于相对于第三节点103类似地操作。
第一节点BMC 205可包括第一节点BMC固件组件206。类似地,第二节点BMC 305可包括第二节点BMC固件组件306。同样,第三节点BMC可包括第三节点BMC存储器组件406,其中,第三节点BMC存储器组件406可包括第三节点BMC软件应用407。第一节点BMC固件组件206、第二节点BMC固件组件306、和第三节点BMC软件应用407可被配置成用于(除其他事项之外)通过经由电源管理总线500向电源104传输指令将电源指引到机架100。
I/O扩展器600可以是(除其他事项之外)可允许BMC(例如,第一节点BMC 205)检测计算***10内是否存在节点(例如,第一节点101)。I/O扩展器600可通过节点间BMC总线700耦合到第一节点BMC 205、第二节点BMC 305、和第三节点BMC 405。
网络1100可通过第一网络接口800、第二网络接口900、和第三网络接口1000分别耦合到第一节点BMC 205、第二节点BMC 305、和第三节点BMC 405。这些网络接口可用于(除其他事项之外)远程地配置计算***10的各组件。
在本发明的实施例中,任何耦合BMC可承担多节点***的“主”BMC的角色。一旦BMC已经被指定为主,所指定的主BMC可充当***内的所有耦合节点(包括其相关联的节点)的主BMC。换言之,主BMC可相对于多节点***的操作充当中央接口。当指定了主BMC时,多节点***内的任何其他BMC可承担“从”的角色。
可由主BMC实现的节点的操作的多个方面的示例可包括但不限于监控***组件的多个方面(例如,温度、功率)、管理(例如,向***组件传输相关有关数据)***组件、支持(例如,获得和安装固件和软件更新)、和控制(例如,指引***资源的配置)***组件。通过单个主BMC实现这些方面可(除其他事项之外)降低***拥塞(例如,通信总线上的业务量)以及避免冗余(例如,在安装软件更新时)。
在本发明的实施例中,算法可被配置成用于指定主BMC。该算法可尤其确定将初始地指定哪个BMC作为主、或者一旦当前主BMC可能不再可用就将哪个BMC指定作为新主。当前的主BMC可能出于各种原因不再可用,各种原因包括***组件的故障、移除(例如,物理移除)、或指示。实际上,如将更详细地描述的,***组件诸如固件组件(例如,第一节点BMC固件组件206)或软件应用(例如,第三节点BMC软件应用407)可初始地执行主BMC、从当前主BMC移除主状态、以及指定新的主BMC等等。
在某些实施例中,算法可基于节点标识号指定主BMC。例如,一个这种算法可基于最低标识号指定主BMC。这样,在图1中描述的实施例中,这种算法可首先将第一节点BMC 206指定为主BMC,然后是第二节点BMC 207,以此类推。
在本发明的实施例中,主BMC可由各种装置指定和配置。例如,主BMC可由BMC固件组件(例如,第一节点固件组件202)或通过执行软件应用(例如,第一节点服务器应用204)来指定和配置。
在其他实施例中,可通过由任何耦合节点附属的主机接口使用应用配置BMC。这种应用的示例可以是设置实用程序,如基本输入输出***(BIOS)。
还可通过远程连接配置BMC。例如,网络(诸如网络1100)可使用网络接口(例如,第一网络接口800)来远程地(例如,通过以太网、局域网(LAN)等等)指定和配置主BMC。
主BMC可传输有关主BMC对主状态的所有权的信息(例如,配置信息、设置信息),以便促进将主BMC的角色传输给另一个BMC,如果需要的话。这样,例如,如果第一节点BMC 205被指定为主,其可周期性地将信息传输给从BMC(例如,第二节点BMC 305、第三节点BMC 405),以便促进(未来)将主的角色传输给从。
图1中描绘的框的安排和编号可不旨在暗示操作顺序从而排除其他可能性。本领域普通技术人员将认识到能够对***和方法进行各种修改和改动。
例如,在图1中描述的实施例中,一个BMC(例如,BMC 206)可主要地附属有一个节点(例如,节点101)。这无需是这种情况。本发明的其他实施例可允许单个BMC监控、管理、支持、以及控制多于一个节点。
现在转向图2,示出了根据本发明的一个实施例的使用可配置和容错的基板管理控制器安排的示例性方法的流程图。该方法可被实现为存储在使用电路技术(诸如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术或其任意组合)的固定功能硬件中的可配置逻辑(诸如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)、)中的机器或计算机可读存储介质(诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪存等等)中的逻辑指令集。例如,可用一种或多种编程语言的任意组合编写用于执行该方法中所示的操作的计算机程序代码,包括面向对象的编程语言,诸如C++等等,以及常规程序编程语言,诸如“C”编程语言或类似的编程语言。
在本实施例中,在第二节点BMC(诸如第二节点BMC 305(图1))和第三节点BMC(诸如第三节点BMC 405(图1))之后,第一节点BMC(诸如第一节点BMC 205(图1))可上线。第一节点BMC可具有标识号1,第二节点可具有标识号2,以此类推。
该方法可在处理框2000开始。在处理框2010,第二节点BMC和第三节点BMC可上线。在处理框2020,第二节点BMC和第三节点BMC可通过I/O扩展器(诸如I/O扩展器600(图1))检测彼此的存在。在处理框2030,由第二节点BMC的BMC固件组件(诸如第二节点BMC固件组件306(图1))实现的算法可基于最低节点标识号确定第二节点BMC应当承担主BMC状态的角色。具有更高节点标识号的第三节点BMC可作为从BMC运行。
在处理框2040,第一节点BMC可上线。在处理框2050,第一节点BMC的BMC固件组件(诸如第一节点BMC固件组件206(图1))可基于最低标识号(即,1)确定其应当声明主BMC状态。在处理框2060,第一节点BMC可传输消息以便通知其可承担主BMC的角色。
在处理框2070,仍以主角色运行的第二节点BMC可向第一节点BMC传输指示其将放弃主BMC的角色的响应。该消息还可包括与第二节点BMC作为主BMC的角色有关的信息(例如,***资源配置、***状态信息等等)。在处理框2080,第一节点BMC可开始超时周期从而允许任何***组件反对其承担主BMC的角色。
在处理框2090,在超时周期在没有任何反对的情况下过去之后,第一节点BMC可从第二节点BMC承担主BMC的角色。在处理框2100,第一节点BMC可在超时周期内传输通信(例如,***状态信息)以便指示可完成其承担主BMC的角色。在处理框2110,第一节点BMC可周期性地传输有关第一节点BMC对主状态的所有权的信息(例如,配置信息、设置信息),以便促进转移主BMC的角色等等,如果需要的话。
在处理框2120,第一节点BMC可能出故障(例如,由于固件故障)。在处理框2130,在第一节点BMC在超时周期内不能发送出消息之后,其他耦合节点中的至少一个可确定当前主BMC(即,第一节点BMC)可能不再工作,并且确定哪个节点应当是新的主BMC。在这种情况下,第二节点BMC的BMC固件组件可确定第二节点BMC应当承担主角色(即,基于最低标识号)。
在处理框2140,第二节点BMC可声明主BMC状态。在处理框2150,第二节点BMC可访问主要由第一节点BMC传输的有关第一节点BMC对主状态的所有权的信息,以便促进其承担主BMC的角色。在处理框2160,第二节点BMC可承担主BMC的角色。在处理框2170,该过程可结束。
图2中描绘的处理框的顺序和编号不旨在暗示操作顺序从而排除其他可能性。本领域普通技术人员将认识到能够对***和方法进行各种修改和改动。
例如,在上述实施例中,算法可实现BMC固件组件基于最低节点标识号声明主BMC状态(即,处理框2020)。然而,不一定是这种情况。在其他实施例中,具有更低标识号的BMC可仅在当前主BMC出故障之后被指定为主BMC。
同样,在上述实施例中,第二节点BMC可向第一节点BMC传输指示其放弃主BMC的角色的响应(即,处理框2070)。然而,不一定是这种情况。在其他实施例中,在发送这种消息之前,第二节点BMC可首先指示其“忙碌”(例如,在电源更新中间)。如果第二节点BMC指示其可能忙碌,请求第一节点BMC可周期性地重新发送其承担主BMC的角色的请求,直至其成功。
实施例因此可提供在多节点***中使用可配置和容错的基板管理控制器(BMC)安排的方法,包括检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC之外的BMC指定为从BMC的角色。该方法还可包括由该第一BMC传输有关该第一BMC作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。此外,该方法还可包括由除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息来承担主BMC的角色。
在一个示例中,该方法可包括实施超时周期以便允许反对该指定除该第一BMC以外的该BMC充当该主BMC的角色。
在一个示例中,该主BMC的角色包括相对于该多节点***的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
在另一个示例中,基于算法确定以下的至少一项:指定该多个BMC中的第一BMC充当主BMC的角色;以及指定除该多个BMC中的该第一BMC以外的BMC充当从BMC的角色。
在另一个示例中,该算法确定是由固件组件和软件应用中的至少一项进行的。
在又一个示例中,该算法确定使用标识号。
在一个示例中,由于***组件的故障、物理移除、和指示中的一项,该第一BMC不再充当该主BMC的角色。
在又一个示例中,该第一BMC和除该第一BMC以外的该BMC中的至少一个通过网络接口被远程地配置。
在一个示例中,该第一BMC被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
在仍另一个示例中,该第一BMC被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
实施例还可包括至少一种机器可读介质,包括多个指令,响应于在计算设备上被执行,该多个指令致使该计算设备执行上述方法的任何示例。实施例还可包括一种用于利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的装置,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的BMC。实施例还可包括一种用于利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的***,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的BMC。
又一个实施例可提供一种利用多节点***中的可配置和容错的基板管理控制器安排的方法,包括指定多个控制器中的第一控制器作为主控制器的角色、以及指定除该第一控制器之外的控制器作为从控制器的角色、确定该第一控制器不再充当该主控制器的角色、以及通过除该第一控制器之外的该控制器承担该主控制器的角色。
在一个示例中,该方法可包括由该第一控制器传输与该第一控制器作为主控制器的角色相关的信息。
在一个示例中,该方法可包括指定除该第一控制器以外的该控制器充当该主控制器的角色。
在仍另一个示例中,该方法可包括由该除该第一控制器以外的该控制器利用与该第一控制器充当主控制器的角色相关的信息以便承担该主控制器的角色。
在一个示例中,该方法可包括实施超时周期以便允许反对该指定该除该第一控制器以外的该控制器充当该主控制器的角色。
在仍另一个示例中,该主控制器的角色包括相对于该多节点***的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
在仍另一个示例中,基于算法确定以下的至少一项:指定该多个控制器中的第一控制器充当主控制器的角色;以及指定除该多个控制器中的该第一控制器以外的控制器充当从控制器的角色。
在一个示例中,该算法确定是由固件组件和软件应用中的至少一项进行的。
在仍另一个示例中,该算法确定使用标识号。
在一个示例中,由于***组件的故障、物理移除、和指示中的一项,该第一控制器不再充当该主控制器的角色。
在仍另一个示例中,该第一控制器和除该第一控制器以外的该控制器中的至少一个通过网络接口被远程地配置。
在一个示例中,该第一控制器被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
在另一个示例中,该第一控制器被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
实施例还可包括至少一种机器可读介质,包括用于利用多节点***中的可配置和容错的控制器安排的多个指令,响应于在计算设备上被执行,该多个指令致使所述计算设备执行上述方法的任何示例。实施例还可包括一种用于利用多节点***中的可配置和容错的控制器的装置,包括:处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的控制器。
实施例还可包括一种用于利用多节点***中的可配置和容错的控制器安排的***,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的控制器。
仍另一个实施例可包括至少一种计算机可读存储介质,包括用于使用多节点***中的可配置和容错的基板管理控制器(BMC)安排的指令集。如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从BMC的角色。如果被执行,该指令集还通过该第一BMC传输有关该第一BMC作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息承担该主BMC的角色。
另一个实施例可包括一种用于使用多节点***中的可配置和容错的基板管理控制器(BMC)安排的装置,包括:处理组件、包括第一应用的存储器组件、以及包括包含指令集的计算机可读存储介质的BMC。如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从BMC的角色、以及由该第一BMC传输有关该第一BMC作为主BMC的信息。如果被执行,该指令集还确定该第一BMC可不再充当该主BMC的角色以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息承担该主BMC的角色。
仍另一个实施例还可包括一种用于利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的***,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及BMC。该BMC可包括计算机可读存储介质,包括指令集,如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从BMC的角色。如果被执行,该指令集还通过该第一BMC传输有关该第一BMC作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息承担主BMC的角色。
对获得本公开的益处的本领域普通技术人员将明显的是可在不脱离在此描述的实施例的更宽泛精神和范围的情况下对这些实施例做出各种修改和变化。因此,将以说明性而不是限制性的意义对待说明书和附图。
本领域普通技术人员将从前述说明中认识到本发明实施例的大量技术可以用不同的形式实现。因此,尽管已经结合其具体示例描述了本发明实施例,本方面实施例的真实范围不应当被如此限制,因为当学习附图、说明书和以下权利要求书时,其他修改将对本领域普通技术人员变得明显。
附加地,在某些附图中,可用线路表示信号导线。某些线路可能更粗以用于指示更多组成信号路径,具有号码标签以指示组成信号路径的数量,和/或在一个或多个端部具有箭头以指示主信息流方向。然而,这不应当以限制性的方式解释。而是,这种附加细节可结合一个或多个示例性实施例使用,以便促进更容易地理解。任何所表示的信号线(不管是否具有附加信息)可实际上包括一个或多个信号,该一个或多个信号可在多个方向上传播并且可用任意合适类型的信号方案实现,例如用差分对、光纤线路、和/或单端线路实现的数字或模拟线路。
已经给出示例大小/模型/值/范围,尽管本发明实施例不限于此。随着制造技术(例如,光刻法)日益成熟,所期望的是可制造具有更小大小的设备。附加地,为了简单地展示和讨论,并且为了不混淆本发明实施例的某些方面,可以或可以不在附图中展示公知的电/地连接和其他组件。进一步地,可以用框图的形式示出安排,以便避免混淆本发明实施例,并且还鉴于以下事实:针对这种框图安排的实现方式的详情高度地取决于将在其中实现实施例的平台,即,这些详情应当在本领域普通技术人员的范围内。当列出特定细节以便描述本发明的示例实施例时,对于本领域普通技术人员而言应当明显的是本发明实施例可在不具有或具有这些特定细节的变体的情况下实践。因此,本说明书应当被认为是展示性的而不是限制性的。
术语“耦合”可在此用于指代有关组件之间的任何类型的关系(直接的或间接的)并且可应用到电、机械、流体、光、电磁、机电或其他连接。附加地,术语“第一”、“第二”等等可在此仅用于方便讨论并且不带有任何特定的时间或时间顺序的意义,除非另外指明。
已经详细地参照具体实施例仅通过举例而非通过限制示出和描述了本发明的实施例的若干特征和方面。本领域普通技术人员将认识到对所公开的实施例的可替代的实现方式和各种修改在本公开的范围和设想内。因此,旨在认为本发明仅由所附权利要求书的范围限制。

Claims (29)

1.一种利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的方法,包括
检测多个BMC;
将所述多个BMC中的第一BMC指定为主BMC的角色,以及将除所述第一BMC以外的BMC指定为从BMC的角色;
由所述第一BMC传输与作为主BMC的所述第一BMC角色相关的信息;
确定所述第一BMC不再充当所述主BMC的角色;
指定除所述第一BMC以外的所述BMC充当所述主BMC的角色;
由除所述第一BMC以外的所述BMC承担所述主BMC的角色;
由除所述第一BMC以外的所述BMC利用与所述第一BMC作为主BMC的角色相关的所述信息以承担所述主BMC的角色。
2.如权利要求1所述的方法,包括实施超时周期以便允许反对所述指定除所述第一BMC以外的所述BMC充当所述主BMC的角色。
3.如权利要求1所述的方法,其中,所述主BMC的角色包括相对于所述多节点***的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
4.如权利要求1所述的方法,其中,基于算法确定以下的至少一项:所述指定所述多个BMC中的第一BMC充当主BMC的角色;以及所述指定除所述多个BMC中的所述第一BMC以外的BMC充当从BMC的角色。
5.如权利要求4所述的方法,其中,所述算法确定是由固件组件和软件应用中的至少一项进行的。
6.如权利要求4所述的方法,其中,所述算法确定利用标识号。
7.如权利要求1所述的方法,其中,由于***组件的故障、物理移除、和指示中的一项,所述第一BMC不再充当所述主BMC的角色。
8.如权利要求1所述的方法,其中,所述第一BMC和除所述第一BMC以外的所述BMC中的至少一个通过网络接口被远程地配置。
9.如权利要求1所述的方法,其中,所述第一BMC被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
10.如权利要求1所述的方法,其中,所述第一BMC被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
11.包括利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的多个指令的至少一种机器可读方法,响应于在计算设备上被执行,所述指令致使所述计算设备执行根据权利要求1至10中任一项所述的方法。
12.一种利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的装置,包括
处理组件;
存储器组件,包括第一应用;以及
BMC,被配置成用于执行权利要求1至10中任一项所述的方法。
13.一种利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的***,包括:
机架,包括多个节点和电源;以及
节点服务器,包括:
处理组件;
存储器组件,包括第一应用;以及
BMC,被配置成用于执行权利要求1至10中任一项所述的方法。
14.一种利用多节点***中的可配置和容错的基板管理控制器(BMC)安排的方法,包括:
将多个控制器中的第一控制器指定为主控制器的角色,以及将除所述第一控制器以外的控制器指定为从控制器的角色;
确定所述第一控制器不再充当所述主控制器的角色;以及
由除所述第一控制器以外的所述控制器承担所述主控制器的角色。
15.如权利要求14所述的方法,进一步包括由所述第一控制器传输与所述第一控制器作为主控制器的角色相关的信息。
16.如权利要求14所述的方法,进一步包括指定除第一控制器以外的所述控制器充当所述主控制器的角色。
17.如权利要求14所述的方法,进一步包括由除所述第一控制器以外的所述控制器利用与所述第一控制器作为主控制器的角色相关的信息承担所述主控制器的角色。
18.如权利要求16所述的方法,包括实施超时周期以便允许反对所述指定所述除所述第一控制器以外的所述控制器充当所述主控制器的角色。
19.如权利要求14所述的方法,其中,所述主控制器的角色包括相对于所述多节点***的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
20.如权利要求16所述的方法,其中,基于算法确定以下的至少一项:所述指定所述多个控制器中的第一控制器充当主控制器的角色;以及所述指定除所述多个控制器中的所述第一控制器以外的控制器充当从控制器的角色。
21.如权利要求20所述的方法,其中,所述算法确定是由固件组件和软件应用中的至少一项进行的。
22.如权利要求20所述的方法,其中,所述算法确定利用标识号。
23.如权利要求14所述的方法,其中,由于***组件的故障、物理移除、和指示中的一项,所述第一控制器不再充当所述主控制器的角色。
24.如权利要求14所述的方法,其中,所述第一控制器和除所述第一控制器以外的所述控制器中的至少一个通过网络接口被远程地配置。
25.如权利要求14所述的方法,其中,所述第一控制器被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
26.如权利要求14所述的方法,其中,所述第一控制器被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
27.包括利用多节点***中的可配置和容错的控制器安排的多个指令的至少一种机器可读方法,响应于在计算设备上被执行,所述指令致使所述计算设备执行根据权利要求14至26中任一项所述的方法。
28.一种利用多节点***中的可配置和容错的控制器的装置,包括:
处理组件;
存储器组件,包括第一应用;以及
控制器,被配置成用于执行权利要求14至26中任一项所述的方法。
29.一种利用多节点***中的可配置和容错的控制器安排的***,包括:
机架,包括多个节点和电源;以及
节点服务器,包括:
处理组件;
存储器组件,包括第一应用;以及
控制器,被配置成用于执行权利要求14至26中任一项所述的方法。
CN201280071730.XA 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法、装置和*** Active CN104169905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711408176.0A CN107977299B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/030958 WO2013147767A1 (en) 2012-03-28 2012-03-28 Configurable and fault-tolerant baseboard management controller arrangement

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201711408176.0A Division CN107977299B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及***

Publications (2)

Publication Number Publication Date
CN104169905A true CN104169905A (zh) 2014-11-26
CN104169905B CN104169905B (zh) 2019-06-11

Family

ID=49260833

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201280071730.XA Active CN104169905B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法、装置和***
CN201711408176.0A Active CN107977299B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及***

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201711408176.0A Active CN107977299B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及***

Country Status (4)

Country Link
US (1) US9772912B2 (zh)
CN (2) CN104169905B (zh)
DE (1) DE112012006150T5 (zh)
WO (1) WO2013147767A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107769960A (zh) * 2017-09-07 2018-03-06 郑州云海信息技术有限公司 一种基于can总线的bmc管理架构
CN111984471A (zh) * 2020-08-14 2020-11-24 苏州浪潮智能科技有限公司 一种机柜电源bmc冗余管理***及方法
CN113886307A (zh) * 2021-09-30 2022-01-04 阿里巴巴(中国)有限公司 Bmc模块、服务器主板、bmc模块的热维护方法及***

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9772912B2 (en) 2012-03-28 2017-09-26 Intel Corporation Configurable and fault-tolerant baseboard management controller arrangement
JP6303405B2 (ja) * 2013-11-01 2018-04-04 富士通株式会社 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
CN104679635A (zh) * 2013-11-29 2015-06-03 鸿富锦精密电子(天津)有限公司 服务器监控电路
US9998359B2 (en) 2013-12-18 2018-06-12 Mellanox Technologies, Ltd. Simultaneous operation of remote management and link aggregation
US9619243B2 (en) * 2013-12-19 2017-04-11 American Megatrends, Inc. Synchronous BMC configuration and operation within cluster of BMC
US10148746B2 (en) 2014-01-28 2018-12-04 Mellanox Technologies, Ltd. Multi-host network interface controller with host management
US9804937B2 (en) * 2014-09-08 2017-10-31 Quanta Computer Inc. Backup backplane management control in a server rack system
US9729440B2 (en) 2015-02-22 2017-08-08 Mellanox Technologies, Ltd. Differentiating among multiple management control instances using IP addresses
US9985820B2 (en) 2015-02-22 2018-05-29 Mellanox Technologies, Ltd. Differentiating among multiple management control instances using addresses
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
US11055080B2 (en) 2016-01-13 2021-07-06 Hewlett Packard Enterprise Development Lp Serial bootloading of power supplies
US10303568B2 (en) * 2017-02-10 2019-05-28 Dell Products L.P. Systems and methods for high availability of management controllers
US10827005B2 (en) * 2017-03-01 2020-11-03 Dell Products L.P. Systems and methods of group automation for multi-chassis management
US10979497B2 (en) * 2018-07-19 2021-04-13 Cisco Technology, Inc. Multi-node discovery and master election process for chassis management
US11012306B2 (en) * 2018-09-21 2021-05-18 Cisco Technology, Inc. Autonomous datacenter management plane
US10896142B2 (en) 2019-03-29 2021-01-19 Intel Corporation Non-volatile memory out-of-band management interface for all host processor power states
US11853771B1 (en) 2019-09-24 2023-12-26 Amazon Technologies, Inc. Offload card based virtualization of a pre-assembled computer system integrated into a server for a virtualization service
US11113046B1 (en) * 2019-09-24 2021-09-07 Amazon Technologies, Inc. Integration and remote control of a pre-assembled computer system into a server for a virtualization service
US11424997B2 (en) * 2019-12-10 2022-08-23 Dell Products L.P. Secured network management domain access system
CN113835770B (zh) * 2021-11-30 2022-02-18 四川华鲲振宇智能科技有限责任公司 一种服务器管理模块在线更换方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6889248B1 (en) * 2000-04-12 2005-05-03 Sun Microsystems, Inc. Automatically configuring a server into a master or slave server based on its relative position in a server network
CN1773461A (zh) * 2004-11-12 2006-05-17 国际商业机器公司 处理结构故障的方法和***
CN101324877A (zh) * 2007-06-14 2008-12-17 国际商业机器公司 通过处理器构造连接的处理器卡的多节点配置的***和制造方法
CN101663650A (zh) * 2007-04-20 2010-03-03 国际商业机器公司 用于适配卡故障转移的设备、***和方法
US20110010584A1 (en) * 2009-07-07 2011-01-13 International Business Machines Corporation Diagnosis of and Response to Failure at Reset in a Data Processing System
US20110153798A1 (en) * 2009-12-22 2011-06-23 Groenendaal Johan Van De Method and apparatus for providing a remotely managed expandable computer system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625750B1 (en) * 1999-11-16 2003-09-23 Emc Corporation Hardware and software failover services for a file server
US7058703B2 (en) * 2002-03-08 2006-06-06 Intel Corporation System management controller (SMC) negotiation protocol for determining the operational mode of SMCs
CN1327341C (zh) * 2004-01-13 2007-07-18 英业达股份有限公司 基板管理控制器的固件自动配置***及方法
US8868790B2 (en) * 2004-02-13 2014-10-21 Oracle International Corporation Processor-memory module performance acceleration in fabric-backplane enterprise servers
TWI261751B (en) * 2005-06-13 2006-09-11 Quanta Comp Inc Mis-configuration detection methods and devices for blade systems
US8023434B2 (en) * 2007-09-18 2011-09-20 International Business Machines Corporation Arrangements for auto-merging and auto-partitioning processing components
JP4659062B2 (ja) 2008-04-23 2011-03-30 株式会社日立製作所 フェイルオーバ方法、プログラム、管理サーバおよびフェイルオーバシステム
CN102201959A (zh) * 2010-03-26 2011-09-28 英业达股份有限公司 基板管理控制器的网络接口***
US9772912B2 (en) 2012-03-28 2017-09-26 Intel Corporation Configurable and fault-tolerant baseboard management controller arrangement

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6889248B1 (en) * 2000-04-12 2005-05-03 Sun Microsystems, Inc. Automatically configuring a server into a master or slave server based on its relative position in a server network
CN1773461A (zh) * 2004-11-12 2006-05-17 国际商业机器公司 处理结构故障的方法和***
CN101663650A (zh) * 2007-04-20 2010-03-03 国际商业机器公司 用于适配卡故障转移的设备、***和方法
CN101324877A (zh) * 2007-06-14 2008-12-17 国际商业机器公司 通过处理器构造连接的处理器卡的多节点配置的***和制造方法
US20110010584A1 (en) * 2009-07-07 2011-01-13 International Business Machines Corporation Diagnosis of and Response to Failure at Reset in a Data Processing System
US20110153798A1 (en) * 2009-12-22 2011-06-23 Groenendaal Johan Van De Method and apparatus for providing a remotely managed expandable computer system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107769960A (zh) * 2017-09-07 2018-03-06 郑州云海信息技术有限公司 一种基于can总线的bmc管理架构
CN107769960B (zh) * 2017-09-07 2020-11-27 苏州浪潮智能科技有限公司 一种基于can总线的bmc管理架构
CN111984471A (zh) * 2020-08-14 2020-11-24 苏州浪潮智能科技有限公司 一种机柜电源bmc冗余管理***及方法
CN111984471B (zh) * 2020-08-14 2022-11-25 苏州浪潮智能科技有限公司 一种机柜电源bmc冗余管理***及方法
CN113886307A (zh) * 2021-09-30 2022-01-04 阿里巴巴(中国)有限公司 Bmc模块、服务器主板、bmc模块的热维护方法及***

Also Published As

Publication number Publication date
CN107977299B (zh) 2022-01-25
CN107977299A (zh) 2018-05-01
US20140229758A1 (en) 2014-08-14
DE112012006150T5 (de) 2015-01-08
CN104169905B (zh) 2019-06-11
US9772912B2 (en) 2017-09-26
WO2013147767A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
CN104169905A (zh) 可配置和容错的基板管理控制器安排
CN106603265B (zh) 管理方法、网络装置以及非暂态计算机可读介质
US20160196194A1 (en) Automatic hardware recovery system
CN105721357A (zh) 交换设备、***部件互连高速***及其初始化方法
US9143338B2 (en) Position discovery by detecting irregularities in a network topology
US20170279622A1 (en) Data determination apparatus, data determination method, and computer readable medium
US8397053B2 (en) Multi-motherboard server system
CN103995575A (zh) 一种服务器启动方法和服务器
CN106155970B (zh) 自动硬件恢复方法及自动硬件恢复***
CN103649923B (zh) 一种numa***内存镜像配置方法、解除方法、***和主节点
CN204425370U (zh) 一种fc交换机监控电路
US9928206B2 (en) Dedicated LAN interface per IPMI instance on a multiple baseboard management controller (BMC) system with single physical network interface
CN105807722A (zh) 具备内部寄存器自复位功能的数值控制***
CN102289402A (zh) 一种基于物理多分区计算机体系结构的监控管理方法
CN105897471A (zh) 一种带外管理***及方法
CN109062753A (zh) 一种硬盘监控***以及监控方法
CN109388526A (zh) 一种控制电路及复位操作的方法
CN106852188A (zh) 基于通用串行总线的数据交互方法和通用串行总线设备
CN102253845B (zh) 服务器***
CN105009086B (zh) 一种实现处理器切换的方法、计算机和切换装置
US20160156518A1 (en) Server for automatically switching sharing-network
CN102147640A (zh) 一种具有多个主板的服务器
CN103092735A (zh) 节点状态更新方法
US9990309B2 (en) Universal controller to support remote monitoring of system and/or machine health
CN109032754A (zh) 提高通信路径可靠性的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant