WO2022078519A1

WO2022078519A1 - 一种计算机设备和管理方法

Info

Publication number: WO2022078519A1
Application number: PCT/CN2021/124249
Authority: WO
Inventors: 刘兴森; 宋铜铃; 牛元君; 李安
Original assignee: 华为技术有限公司
Priority date: 2020-10-16
Filing date: 2021-10-16
Publication date: 2022-04-21
Also published as: US20230244550A1; EP4213017A4; EP4213017A1; CN114385319A

Abstract

一种计算机设备（200）和管理方法。计算机设备（200）包括：机框公共部件和多个业务节点（209a，209b，209c，209d），每个业务节点（209a，209b，209c，209d）包括主板管理控制器BMC（215），BMC（215）与机框公共部件相连；多个业务节点（209a，209b，209c，209d）中的任意一个业务节点（209a，209b，209c，209d）的BMC（215）当处于主状态的时候可以管理机框公共部件和所有业务节点（209a，209b，209c，209d）。该计算设备（200）通过使用业务节点（209a，209b，209c，209d），而不是独立的管理节点，对整个计算机设备（200）进行管理，从而有效的提高了计算机设备（200）的集成度，节省开发工作，降低计算机设备（200）的开发成本。

Description

一种计算机设备和管理方法

技术领域

本发明涉及计算机领域，尤其涉及一种计算机设备和管理方法。

背景技术

传统计算机设备，例如先进电信计算架构(Advanced Telecommunications Computing Architecture，ATCA)形态的计算机设备，设置有形态不一样的独立的业务节点和管理节点的槽位，业务节点用于处理客户业务，管理节点负责管理机框公共部件，例如风扇和电源，还用于监控机框内所有节点的状态。

然而，随着现在计算机设备的集成度越来越高，机框向小型化演进，对机框的空间利用效率的要求大大提高，但是负责计算机设备管理的管理节点仍然占用专用的独立空间，计算机设备的空间利用率无法进一步提高。另外，现在，多节点计算机设备的机框的硬件形态多样化，不同机框的管理节点不能做到形态统一，每种管理节点需要单独开发，导致计算机设备的软件和硬件开发和维护成本大大增加。

发明内容

本申请提供了一种计算机设备管理的方法和***，利用业务节点代替管理节点去管理计算机设备的技术方案，使用业务节点代替管理节点，对计算机设备进行管理，可以有效的提高计算机设备的集成度，省去管理节点的开发工作。

第一方面，本申请提供了一种计算机设备，该计算机设备包括：机框公共部件和多个业务节点，每个业务节点包括：主板管理控制器(Baseboard Management Controller，BMC)，BMC与机框公共部件相连。通过业务节点的BMC和机框公共部件直接相连，业务节点可以对机框公共部件进行直接管理操作，省去独立的管理节点，计算机设备的空间利用率大大提高，且省去了独立开发管理节点产生的工作。

一种可行的实现方式中，多个业务节点中的任意一个业务节点的BMC用于当处于主状态的时候管理机框公共部件。只有处于主状态的业务节点的BMC，才有权限对机框公共部件进行管理，能够有效防止多个业务节点同时管理机框公共部件可能产生的操作冲突。

一种可行的实现方式中，多个业务节点中的任意一个业务节点的BMC还用于当处于主状态的时候管理多个业务节点。处于主状态的业务节点还可以管理所有的业务节点，保证处于主状态的业务节点可以管理整个计算机设备，实现整个计算机设备的管理工作。

一种可行的实现方式中，每个业务节点的BMC还用于运行第一管理子模块和第二管理子模块，第一管理子模块用于管理运行本业务节点；第二管理子模块的状态包括：工作状态和待机状态；当第二管理子模块处于工作状态的时候，第二管理子模块用于管理机框公共部件和除本业务节点以外的其他业务节点。

一种可行的实现方式中，当运行的第二管理子模块处于工作状态，本业务节点的BMC处于主状态；当运行的第二管理子模块处于待机状态的时候，本业务节点的BMC处于从状态。

一种可行的实现方式中，多个业务节点中任意两个业务节点的BMC之间相连，多个业务中的任意一个业务节点用于被用户接入以管理计算机设备。该技术方案可以保证当业务节点的状态发生变化的时候，用户不用到现场去重新插拔线缆到新的处于主状态的业务节点的接口上才能对计算机设备进行管理。

一种可行的实现方式中，每个业务节点还包括逻辑电路，多个业务节点中任意两个业务节点的逻辑电路之间相连，逻辑电路用于获取多个业务节点的状态信息。逻辑电路可以快速处理状态相关的电信号，并得到状态信息，持续刷新状态信息，任意两个业务节点的逻辑电路之间相连，可以保证任意两个业务节点的状态信息快速同步。

一种可行的实现方式中，逻辑电路，包括：复杂可编程逻辑器件(complex programmable logic device，CPLD)，局域网交换器件或控制器局域网电路(Controller Area Network，CAN)电路。

一种可行的实现方式中，多个业务节点中两个业务节点的逻辑电路之间相连的方式包括：全互连，或总线互连。

一种可行的实现方式中，多个业务节点还用于当多个业务节点中没有业务节点的BMC处于主状态的时候，根据选主原则，选出一个业务节点的BMC进入主状态。通过选主原则，快速选出一个业务节点的BMC进入主状态，对计算机设备进行管理，防止因为缺少管理操作导致计算机设备工作异常。

一种可行的实现方式中，多个业务节点还用于，当处于主状态的BMC属于的业务节点出现异常的时候，或处于主状态的业务节点的BMC申请状态切换的时候，根据选主原则，选出一个业务节点的BMC进入主状态。通过该技术方案，可以处于主状态的业务节点无法继续执行管理操作的时候，有其他的业务节点能快速的接替管理任务，保证计算机设备的业务正常运行。

第二方面，本申请提供了一种计算机设备的管理方法，该计算机设备包括：机框公共部件和多个业务节点，每个业务节点包括：主板管理控制器BMC，BMC与机框公共部件相连。管理方法包括：当处于主状态的时候，多个业务节点中的任意一个业务节点的BMC管理机框公共部件。通过业务节点的BMC和机框公共部件直接相连，业务节点可以对机框公共部件进行直接管理操作，省去独立的管理节点，计算机设备的空间利用率大大提高，且省去了独立开发管理节点产生的工作。只有处于主状态的业务节点的BMC，才有权限对机框公共部件进行管理，能够有效防止多个业务节点同时管理机框公共部件可能产生的操作冲突。

一种可行的实现方式中，当处于主状态的时候，多个业务节点中的任意一个业务节点的BMC还管理多个业务节点。处于主状态的业务节点还可以管理所有的业务节点，保证处于主状态的业务节点可以管理整个计算机设备，实现整个计算机设备的管理工作。

一种可行的实现方式中，每个业务节点的BMC还运行第一管理子模块和第二管理子模块，第一管理子模块管理本业务节点；第二管理子模块的状态包括：工作状态和待机状态；当第二管理子模块处于工作状态的时候，第二管理子模块管理机框公共部件和除本业务节点以外的其他业务节点。

一种可行的实现方式中，当第二管理子模块处于工作状态，本业务节点的BMC处于主状态；当第二管理子模块处于待机状态的时候，本业务节点的BMC处于从状态。

一种可行的实现方式中，多个业务节点中任意两个业务节点的BMC之间相连，通过多个业务中的任意一个业务节点接入以管理计算机设备。该技术方案可以保证当业务节点的状态发生变化的时候，用户不用到现场去重新插拔线缆到新的处于主状态的业务节点的接口上才能对计算机设备进行管理。

一种可行的实现方式中，每个业务节点还包括逻辑电路，多个业务节点中任意两个业务节点的逻辑电路之间相连，逻辑电路获取多个业务节点的状态信息。逻辑电路可以快速处理状态相关的电信号，并得到状态信息，持续刷新状态信息，任意两个业务节点的逻辑电路之间相连，可以保证任意两个业务节点的状态信息快速同步。

一种可行的实现方式中，当多个业务节点中没有业务节点的BMC处于主状态的时候，根据选主原则，选出一个业务节点的BMC进入主状态。通过选主原则，快速选出一个业务节点的BMC进入主状态，对计算机设备进行管理，防止因为缺少管理操作导致计算机设备工作异常。

一种可行的实现方式中，当处于主状态的BMC属于的业务节点出现异常的时候，或处于主状态的业务节点的BMC申请状态切换的时候，根据选主原则，选出一个业务节点的BMC进入主状态。通过该技术方案，可以处于主状态的业务节点无法继续执行管理操作的时候，有其他的业务节点能快速的接替管理任务，保证计算机设备的业务正常运行。

一种可行的实现方式中，选主原则包括：进行投票统计，得票最多的一个业务节点进入主状态；得票一样多的时候，槽位号最小的一个业务节点进入主状态。

第三方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当计算机可读存储介质中的计算机指令被计算机设备执行时，使得计算机设备执行第二方面中任一可行的实现方式中的方法，或者使得计算机设备实现第一方面中任一种可行的实现方式中的计算机设备的功能。

附图说明

图1为现有技术的计算机设备结构示意图；

图2为本申请实施例的一种计算机设备的结构示意图；

图3为本申请实施例的一种计算机设备访问的结构示意图；

图4为本申请实施例的另一种计算机设备访问的结构示意图；

图5为本申请实施例的业务节点主状态和从状态之间切换的流程示意图；

图6为本申请实施例的计算机设备中业务节点状态信息周期性检测方法的流程图；

图7为本申请实施例的仲裁选择主状态的业务节点的方法的流程图；

图8为本申请实施例的一种跟随投票结构的示意图；

图9为本申请实施例的一种跟随投票方法的流程图。

具体实施方式

在计算机设备管理领域，如何去高效准确管理一个计算机设备，保证客户运行在计算机设备上的业务不受影响一直是一个比较重要的问题，ATCA形态的计算机设备，是现有管理架构的计算机设备，该形态的计算机设备主要是包括有单独的两个管理节点，互为主备。管理节点对所有节点和机框公共部件进行管理。如图1所示为一种ATCA形态的计算机设备的结构示意图，以图1为例，计算机设备100有4个业务节点110a、110b、110c和110d。每个业务节点硬件结构上均相同，以业务节点110a所示，其包括有一个逻辑电路112和一个BMC114。逻辑电路112用于检测本节点指示状态的电压信号和总线信号，获取本节点的状态信息，和BMC 114之间进行通信，接收和传递该状态信息，BMC 114根据逻辑电路的检测结果，以及BMC 114对本节点的直接检测结果，获取本节点的状态信息，对本节点进行管理。当管理节点107处于主状态时，管理节点109处于备状态。BMC 114会将本节点110a的管理信息通过背板116传递给管理节点107，同理其他业务节点的BMC也会通过背板116将本节点的管理信息传递给管理节点107。另外，作为机框公共部件，风扇模块101，电源模块103，机框107等，处于主状态的管理节点107也会去获取机框公共部件的状态信息，并对这些机框公共部件进行管理。例如根据计算机设备100的温度信息，对风扇模块101的风速进行调速，根据计算机设备100功耗信息，对电源模块103的供电功率进行调整等等。

管理节点107和管理节点109互为主备关系，当管理节点107处于主状态的时候，管理节点107拥有对整个计算机设备100的管理权限，此时，管理节点109处于备状态，没有对整个计算机设备100的管理权限。但是，当管理节点107出现异常等问题的时候，管理节点109升为主状态，以代替管理节点107，对计算机设备进行管理。

管理节点107和109拥有独立的硬件形态，和业务节点110a、110b、110c、110d不相同，并且管理节点107和109独立占有了机框116中的两个槽位，这样导致计算机设备100的集成度和空间利用率无低。单独开发和维护管理节点，增加了成本。

因此，本申请提出了一种可行的技术方案，如图2所示，为本申请一个实施例的计算机设备200的结构示意图，计算机设备200有4个业务节点209a、209b、209c、209d，背板207，风扇模块201，电源模块203和机框205，但是没有了独立的管理节点。

每个业务节点的硬件结构是相同的，以业务节点209a为例，其包括硬件电路217，BMC215，和CPU 219。当BMC 215上电启动后，会运行第一管理子模块211和第二管理子模块213。

其中BMC 215通过背板207，会和所有其他业务节点以及机框公共部件相连，包括风扇模块201、电源模块203和机框205等等。这里相连的意思是指，总线直接相连。通过总线直接相连，BMC 215能够对整个计算机设备200的所有节点和所有部件进行直接的信息搜集、状态检查和管理操作等。可以理解总线直接相连并不排除总线上可能出现的驱动芯片和选路电路等，包括这些芯片和电路的总线连接，也是总线直接相连。

逻辑电路217用于检测并获取本业务节点209a的状态信息，并通过全互连的方式，和所有其他业务节点，例如209b，209c，209d的逻辑电路相连，并能够获取所有其他业务节点的状态信息，状态信息包括：主从状态信息，在位信息，健康状态信息，心跳信息、仲裁投票信息等等。通过全互连的方式，保证所有业务节点中的任意两个业务节点的逻辑电路能够进行直接通信，交换各个业务节点的状态信息。

可以理解，除了全互连的方式，还可以采用总线的方式，保证任意两个业务节点的逻辑电路直接相连，进行直接通信，交换状态信息。

逻辑电路217的实现方式有多种，一种可行的方式是CPLD，还有其他可行的方式包括：局域网交换器LAN switch芯片，或者CAN电路。

当BMC 215在上电启动后运行第一管理子模块211和第二管理子模块213，其中第一管理子模块213用于管理本业务节点，而第二管理子模块211用于管理除去本业务节点以外的其他业务节点以及所有机框公共部件。

逻辑电路217通过总线和BMC 215相连，和BMC 215进行通信，交换节点状态信息和管理操作指令。

容易理解，业务节点209a的硬件结构内还包括存储介质等硬件部件和部分总线等，未在图2中体现。

业务节点209a、209b、209c、209d的硬件结构相同，都具有对整个计算机设备200进行管理的能力。但是只有在其中一个业务节点的BMC启动运行后，处于主状态的时候，才可以对整个计算机设备200进行管理操作。而其他业务节点的BMC处于从状态，从状态代表着不能对整个计算机设备200进行管理操作。从状态还代表着当处于主状态的业务节点不能继续执行管理操作的时候，处于从状态的业务节点作为备份，转换成主状态，然后对整个计算机设备200进行管理操作，后面会此进行详细讲解。

以业务节点209a处于主状态，其他三个业务节点处于从状态为例，BMC 215处于主状态的时候，第二管理子模块211处于工作状态，工作状态是指正在对机框公共部件和其他业务节点进行管理。而其他三个业务节点的BMC处于从状态，它们的第二管理子模块处于待机状态，而待机状态是指第二管理模块没有对机框公共部件和其他业务节点进行管理。

需要进一步说明的是，本申请的技术方案不仅限于本实施例中的第一管理子模块和第二管理子模块的划分方式，另一种可行的实施例中，BMC上电启动后，可以运行三个子模块，第一管理子模块对本节点进行管理，第二管理子模块对机框公共部件进行管理，第三管理子模块对其他业务节点进行管理。容易想到的是，这种功能划分不限于上述的两种方案，在此不一一举例。

可以理解，图2所述实施例中业务节点的数量是以4个业务节点为例，但是在其他实施例中，业务节点的数量可以是任意数量。另外风扇模块的数量和电源模块的数量也不做限定，可以是任意数量。一些计算机设备的部件，在本实施例的计算机设备200并没有给出，例如交换节点，接口模块等等，容易理解计算机设备200也同样包括这些节点和部件。

上述的业务节点，用来处理客户业务。业务节点可以是刀片服务器节点、机架服务器节点，也可以是交换节点、存储节点、计算节点等等。机框公共部件是包括机框、电源模块、风扇模块、接口模块等等的提供机框公共资源的部件。进一步说明，当业务节点是机架服务器节点的时候，则不再需要背板，将每个业务节点相连，可以通过线缆将每个机架服务器节点进行连接。

需要进一步解释的是，当业务节点的BMC处于主状态等效为该业务节点处于主状态，当业务节点的BMC处于从状态的时候，该业务节点处于从状态。

图2中所示的计算机设备200可以是刀片服务器设备，也可以是包括多个交换节点的交换设备，或者是含有多个存储节点的存储设备等等。

图3给出用户对计算机设备200进行访问管理的结构示意图300，BMC 215上电后运行第一管理模块213和第二管理模块211，其中第二管理模块211对其他业务节点308和机框公共部件306进行管理，第一管理模块213对本业务节点310进行管理。而用户通过接入BMC215的交互接口302，可对整个计算机设备200进行管理。其中交互接口302可以是：简单网络管理协议(Simple Network Management Protocol，SNMP),鲑鱼RedFish,智能平台管理接口(Intelligent Platform Management Interface,IPMI),网站Website和命令行界面(command-line interface，CLI)等等。

如果计算机有管理节点，用户可以通过线缆接入管理节点，对计算机设备进行管理。管理节点只有主管理节点和备管理节点，将两个管理节点都接入后，即使管理节点的主备状态出现倒换，也不需要重新插拔线缆，还是可以远程访问计算机设备，对计算机设备进行管理。但是当计算机设备去除掉管理节点之后，业务节点的数量通常多余2个。例如在图2所示的计算机设备200中，业务节点的数量是4个，用户通过线缆同时接入这么多的业务节点并不是一个高效的解决方案。本申请实施例提供了一种可行的解决方案，如图4所示，以两个业务节点为例，两个业务节点的BMC 410a和410b相连，当BMC 410b启动运行，并处于主状态的时候，运行的第一管理模块404b对本业务节点408b进行管理。需要说明的是本业务节点是指BMC所属于的业务节点。运行的第二管理模块406b对其他业务节点412和机框公共部件414进行管理，执行管理操作，获取管理信息。其中其他业务节点412包括BMC 410a属于的业务节点。此时用户仍旧接入的是交互接口402a，但是因为BMC 410a和410b相连,因此，用户可以通过402a访问BMC 410b，并访问计算机设备200的管理信息，对计算机设备200进行管理操作。需要进一步解释，图4中所示的十字416，是指处于待机状态的第二管理模块406a此时不对其他业务节点412和机框公共部件414进行管理。第一管理模块404a对BMC 402a所属的本业务节点408a进行管理。因为用户不是直接接入到BMC 410b，因此BMC 410b的交互接口402b此时可以处于空闲状态。

因此，通过上述实施例提供的技术方案，当计算机设备200的业务节点有多个的时候，用户可以接入其中任意一个业务节点，从而能够访问并管理整个计算机设备200。该技术方案可以有效的防止业务节点状态变化的时候，需要人工的去重新插拔用户访问的线缆到处于主状态的业务节点的问题。

业务节点的状态会随实际情况发生变化，从主状态进入到从状态，或者从从状态进入到主状态。图5所示为本申请实施例的业务节点的状态发生变化，从而切换的流程示意图。当所有的业务节点处于从状态，而没有业务节点处于主状态的时候，或处于主状态的业务节点出现故障，健康状态有问题的时候，所有业务节点或除故障节点外其他所有业务节点对该状态进行核查，当经过核查时间T2后，进入仲裁状态，经过仲裁时间T1和核查时间T3后，各个业务节点进入到对应的状态，其中一个业务节点进入到主状态，而其他业务节点进入到从状态。或者第二种场景下，处于主状态的业务节点申请降为从状态，则所有业务节点或除申请降从的业务节点外其他所有业务节点对该状态进行核查，经过核查时间T2后，进入仲裁状态，经过仲裁时间T1和核查时间T3后，各个业务节点进入到对应的状态，其中一个业务节点进入到主状态，而其他业务节点进入到从状态。需要进一步说明的是，故障的业务节点无法进入主状态，但是申请降从的业务节点，经过仲裁仍旧可以进入到主状态。另外，需要解释的是，降从是指降为从状态。

为了防止处于主状态的业务节点出现故障，而其他处于从状态的业务节点，没有及时的发现，并仲裁选出新的业务节点进入主状态，本申请实施例提供了一种可行的技术方案，如图6所示。每个业务节点会对本业务节点和其他业务节点的状态信息进行实时扫描，及时更新并同步所有节点的状态信息。本节点的扫描步骤如下所示：

依据流程步骤S602，扫描开始；

依据流程步骤S604，在时长为T2的时间段内，对业务节点状态信息进行多次扫描和核查；

依据流程步骤S606，获取处于主状态的业务节点的状态信息，并进行判断，是否是异常，或是否申请降从，如果判断结果是异常或申请降从，则跳转到步骤S608，如果判断结果是正常或没有申请降从，则跳转到步骤S612；上述业务节点异常，是指业务节点不能正常工作，不能实现管理操作。

依据流程步骤S608，当处于主状态的业务节点的状态信息显示该业务节点异常或申请降从，则所有业务节点或除异常和申请降从业务节点外其他所有业务节点进入仲裁状态；

依据流程步骤S610，进入仲裁状态的业务节点完成仲裁操作，本节点获取仲裁结果；

依据流程步骤S612，维持本节点的硬件心跳，以通知其他业务节点，本节点的健康状态；

依据流程步骤S614，更新本节点的状态信息，本节点依据仲裁结果，保持为从状态，或者进入主状态。并返回到步骤S604，进行下一个阶段时长为T2的扫描和核查操作中。

通过上述实时反复扫描所有节点的状态信息的技术方案，从而监控所有业务节点的工作情况，达到保证计算机设备有一个正常工作的处于主状态的业务节点存在，保障用户的业务正常运行。

接下来，对仲裁过程和仲裁方法做进一步的解释，仲裁的目的是，选出一个业务节点进入主状态，对整个计算机设备进行管理。如图7所示，为本申请实施例提供的一种仲裁选择业务节点进入主状态的方法流程图。

依据流程步骤S702，对进入仲裁状态的业务节点开始进行仲裁；

依据流程步骤S704，按照选择原则，每个业务节点或每个进入仲裁状态的业务节点进行投票，然后统计票数，并同步票数到每个进入仲裁状态的业务节点上。当任意一个业务节点的票数是最高的时候，则该业务节点进入到主状态，进入主状态表示该业务节点对整个计算机设备进行管理。当有多个业务节点的票数是相同的时候，则判定这些票数相同的业务节点的槽位号，选择其中槽位号最小的一个业务节点进入主状态，对整个计算机设备进行管理。这里槽位号是本领域中常用概念，是代表一个节点或一个模块或一个部件等在计算机设备中的具体物理位置的标号数，从小到大，不重复的一个标号数。

依据流程步骤S706，根据选主原则投票的结果，更新每个业务节点或每个进入仲裁状态的业务节点的状态信息。

依据流程步骤S708，在时长为T1的时间段内，进行多次的按照选主原则进行投票的操作，并对投票结果，以及每个业务节点或每个进入仲裁状态的业务节点的状态信息进行核查，这样做的目的是为了反复确认选主结果，防止有噪声的发声。在一个T1时间段内的核查操作，算作一次核查操作。

依据流程步骤S710，当核查的次数超过预设的一个数值N的时候，则跳转到流程步骤S712；当核查次数没有超过该预设的数值N的时候，则跳转到流程步骤S704，其中N是一个正整数；

依据流程步骤S712，仲裁操作和流程完成，最终确定一个业务节点进入主状态。

通过上述方法，可以准确和稳定的选出一个进入主状态的业务节点，但是投票过程中，可能会出现一些异常情况，例如一些节点之间的通信链路出现问题，无法将自身的状态信息同步到每个业务节点，所以，当这种场景出现后，需要有跟票机制，来解决这种场景下无法获取其他业务节点状态信息的问题，以保证这些业务节点仍旧有能力对其他业务节点进行投票。

图8为描述了本申请实施例的一种跟随投票结构的示意图，例如，有三个业务节点X、Y、Z，当业务节点X和业务节点Y之间的链路发生故障，业务节点X无法获取业务节点Y的状态信息，因此业务节点X也就按照常规方法投票给业务节点Y。因此这个场景下，业务节点Y的状态信息可以通过业务节点Z传递给业务节点X，这样X就有能力对业务Y进行投票，并将投票结果通过业务节点Z，同步给业务节点Y。容易理解，在拥有更多业务节点的计算机设备中，出现更多的链路故障的场景下，依然可以通过中间节点和中间节点之间的链路通信，将每个业务节点的状态信息传递给每个业务节点，并将每个业务节点的投票结果同样的道理同步给每个业务节点。

进一步解释，图9描述了本申请实施例的一种跟随投票方法的流程图，对跟票机制进行详细描述。

依据流程步骤S902，业务节点X跟票流程开始。

依据流程步骤S904，业务节点Y满足选主原则，为上文中已对选主原则进行详细描述，这里不做赘述。

依据流程步骤S906，判断业务节点Y是否不在位。如果业务节点X检测到无法直接获取业务节点Y的状态信息，判断结果是业务节点不在位，则跳转步骤到S908；如果业务节点X检测到直接获取业务节点Y的状态信息，判断结果是业务节点在位，则跳转步骤到S912。

依据流程步骤S908，检查已经投票给业务节点Y的业务节点Z是否工作正常，如果是，则跳到流程步骤S912，如果否，则跳到流程步骤S910。需要进一步解释的是当检查到业务节点Z不是工作正常的时候，已经投给业务节点Y的票为无效。

依据流程步骤S910，因为业务节点Z有异常，则业务节点X无法判断业务节点Y的状态信息，因此业务节点X拒绝投票给业务节点Y。

依据流程步骤S912，因为业务节点Z工作正常，业务节点X可以获取和判断业务节点Y的状态信息，因此业务节点X同意投票给业务节点Y。

依据流程步骤S914，当业务节点X同意或拒绝投票给业务节点Y后，业务节点X的跟票流程结束。

通过上述技术方案，可以有效的避免部分业务节点的状态信息和投票结果无法直接传递给每个业务节点的时候，通过中间业务节点，例如本实施例中业务节点Z是业务节点X和业务节点Y的中间节点，将这些业务节点的状态信息和投票结果通过间接的方法传给每个业务节点。

应该理解，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的模块的计算机指令，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质可以为可读取的非易失性存储介质，包括：移动硬盘、只读存储器(英文：Read-Only Memory，简称ROM)、随机存取存储器(英文：Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离权力要求的保护范围。

Claims

一种计算机设备，其特征在于，所述计算机设备包括：机框公共部件和多个业务节点，每个业务节点包括：主板管理控制器BMC，所述BMC与所述机框公共部件相连。
根据权利要求1所述计算机设备，其特征在于，所述多个业务节点中的任意一个业务节点的BMC用于当处于主状态的时候管理机框公共部件。
根据权利要求2所述计算机设备，其特征在于，所述多个业务节点中的任意一个业务节点的BMC还用于当处于所述主状态的时候管理所述多个业务节点。
根据权利要求1-3任一项所述计算机设备，其特征在于，每个业务节点的BMC还用于运行第一管理子模块和第二管理子模块，

所述第一管理子模块用于管理运行本业务节点；

所述第二管理子模块的状态包括：工作状态和待机状态；

当所述第二管理子模块处于所述工作状态的时候，所述第二管理子模块用于管理所述机框公共部件和除所述本业务节点以外的其他业务节点。
根据权利要求4所述计算机设备，其特征在于，当运行的所述第二管理子模块处于所述工作状态，所述本业务节点的BMC处于所述主状态；当运行的所述第二管理子模块处于所述待机状态的时候，所述本业务节点的BMC处于从状态。
根据权利要求1-5任一项所述计算机设备，其特征在于，所述多个业务节点中任意两个业务节点的BMC之间相连，所述多个业务中的任意一个业务节点用于被用户接入以管理所述计算机设备。
根据权利要求1-6任一项所述计算机设备，其特征在于，每个业务节点还包括逻辑电路，所述多个业务节点中任意两个业务节点的所述逻辑电路之间相连，所述逻辑电路用于获取所述多个业务节点的状态信息。
根据权利要求7所述计算机设备，其特征在于，所述逻辑电路，包括：复杂可编程逻辑器件CPLD，局域网交换器件或控制器局域网电路CAN电路。
根据权利要求8所述计算机设备，其特征在于，所述多个业务节点中任意两个业务节点的所述逻辑电路之间相连的方式包括：全互连，或总线互连。
根据权利要求2-9任一项所述计算机设备，其特征在于，所述多个业务节点还用于当所述多个业务节点中没有业务节点的BMC处于所述主状态的时候，根据选主原则，选出一个业务节点的BMC进入所述主状态。
根据权利要求2-9任一项所述计算机设备，其特征在于，所述多个业务节点还用于，当处于所述主状态的BMC属于的业务节点出现异常的时候，或处于所述主状态的业务节点的BMC申请状态切换的时候，根据选主原则，选出一个业务节点的BMC进入所述主状态。
一种计算机设备的管理方法，其特征在于，所述计算机设备包括：机框公共部件和多个业务节点，

每个业务节点包括：主板管理控制器BMC，所述BMC与所述机框公共部件相连；

所述管理方法包括：当处于主状态的时候，所述多个业务节点中的任意一个业务节点的BMC管理机框公共部件。
根据权利要求12所述计算机设备的管理方法，其特征在于，当处于所述主状态的时候，所述多个业务节点中的任意一个业务节点的BMC还管理所述多个业务节点。
根据权利要求12-13任一项所述计算机设备的管理方法，其特征在于，每个业务节点的BMC还运行第一管理子模块和第二管理子模块，

所述第一管理子模块管理本业务节点；

所述第二管理子模块的状态包括：工作状态和待机状态；

当所述第二管理子模块处于所述工作状态的时候，所述第二管理子模块管理所述机框公共部件和除所述本业务节点以外的其他业务节点。
根据权利要求14所述计算机设备的管理方法，其特征在于，当所述第二管理子模块处于所述工作状态，所述本业务节点的BMC处于所述主状态；当所述第二管理子模块处于所述待机状态的时候，所述本业务节点的BMC处于从状态。
根据权利要求12-15任一项所述计算机设备的管理方法，其特征在于，所述多个业务节点中任意两个业务节点的BMC之间相连，通过所述多个业务中的任意一个业务节点接入以管理所述计算机设备。
根据权利要求12-16任一项所述计算机设备的管理方法，其特征在于，每个业务节点还包括逻辑电路，所述多个业务节点中任意两个业务节点的所述逻辑电路之间相连，所述逻辑电路获取所述多个业务节点的状态信息。
根据权利要求12-17任一项所述计算机设备的管理方法，其特征在于，当所述多个业务节点中没有业务节点的BMC处于所述主状态的时候，根据选主原则，选出一个业务节点的BMC进入所述主状态。
根据权利要求12-17任一项所述计算机设备的管理方法，其特征在于，当处于所述主状态的BMC属于的业务节点出现异常的时候，或处于所述主状态的业务节点的BMC申请状态切换的时候，根据选主原则，选出一个业务节点的BMC进入所述主状态。
根据权利要求18-19任一项所述计算机设备的管理方法，其特征在于，所述选主原则包括：进行投票统计，得票最多的一个业务节点进入所述主状态；得票一样多的时候，槽位号最小的一个业务节点进入所述主状态。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机可读存储介质中的计算机指令被计算机设备执行时，使得所述计算机设备执行所述权利要求12-20中任一项权利要求所述的方法，或者使得所述计算机设备实现所述权利要求1-11任一项权利要求所述的计算机设备的功能。