CN106657355A

CN106657355A - 一种集群管理方法及设备

Info

Publication number: CN106657355A
Application number: CN201611245816.6A
Authority: CN
Inventors: 李虎
Original assignee: Beijing Huawei Digital Technologies Co Ltd
Current assignee: Beijing Huawei Digital Technologies Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-10
Anticipated expiration: 2036-12-29
Also published as: CN106657355B

Abstract

一种集群管理方法及设备，所述方法应用于集群，所述集群包括主设备和从设备，所述方法包括：当所述主设备与所述从设备之间的协议通道故障后，所述从设备转换为主设备角色；所述从设备将集群检测报文通过数据通道发送给所述主设备；在接收所述主设备发送的集群应答报文后，所述从设备根据所述集群应答消息退出所述集群；所述从设备关闭所述从设备的端口。通过采用本方案，能够避免主设备和从设备的BGP反复震荡的现象。

Description

一种集群管理方法及设备

技术领域

本发明涉及虚拟集群技术领域，尤其涉及一种集群管理方法及设备。

背景技术

虚机集群技术能够减少运营成本、扩大单节点端口数量等，目前在路由器产品上应用越来越多；如企业网场景(例如广电、招商银行、泰国PEA、英国UK等)。使用虚拟集群技术时，在一个集群中的主设备和从设备之间的协议通道故障后，则会存在双主设备的情况。

由于出现双主设备，这两个主设备都会与当前所处的集群上下行设备建立边界网关协议(英文全称：Border Gateway Protocol，英文简称：BGP)邻居，从而出现BGP协议反复震荡现象，并且会影响到组网的路由震荡，导致节点的流量无法正常转发。

发明内容

本发明提供了一种集群管理方法及设备，能够解决现有技术中主设备和从设备的BGP协议反复震荡的问题。

第一方面提供一种集群管理方法，该方法可应用于集群，集群是指通过协议将一组相互独立的、通过网络互联的计算机，它们构成了一个组网，并以单一***的模式加以管理。集群内的各设备之间能共享资源、分担费用、共用信道设备及服务等。所述集群包括一个主设备和至少一个从设备，主设备是指用于控制其所在的集群。从设备是用于采集数据。主设备和从设备都可与其上下行通信连接的各设备之间进行流量转发等操作。在协议通道正常时，主设备的设备角色为主设备角色，从设备的设备角色为从设备角色。该方法包括：

当所述主设备与所述从设备之间的协议通道故障后，所述从设备转换为主设备角色，然后所述从设备将集群检测报文通过数据通道发送给所述主设备，在接收所述主设备发送的集群应答报文后，即可确定其所在的集群已被集散，那么，该从设备可根据所述集群应答消息退出所述集群。

在退出其所在的集群后，所述从设备关闭所述从设备的端口。其中，关闭的端口包括ge0/0/0、环回接口(loopback)、虚拟局域网接口vlanif)、业务口等。

与现有机制相比，本发明中，在协议通道故障后，转化为主设备角色的从设备将集群检测报文通过数据通道发送给所述主设备，然后在接收到主设备发送的集群应答报文后，强制关闭从设备的端口，从而隔离原从设备。不对原主设备进行任何处理，原主设备与原主设备的上下行设备之间的协议依旧可以建立，从而可以继续转发原来的业务数据，这样就不会影响到原主设备的流量转发，避免主设备和从设备的BGP反复震荡的现象。

在一些可能的设计中，所述集群检测报文包括第一集群检测字段，所述集群应答报文包括第二集群检测字段。

其中，所述第一集群检测字段包括第一指示位、第二指示位和第三指示位，所述第一集群检测字段中的第一指示位用于指示发送所述集群检测检测报文的从设备在所述协议通道故障之前的设备角色，所述第一集群检测字段中的第二指示位指示发送所述集群检测检测报文的从设备在所述协议通道故障之后的设备角色，所述第一集群检测字段中的第三指示位指示从设备申请关闭从设备的端口。

所述第二集群检测字段均包括第一指示位、第二指示位和第三指示位，所述第二集群检测字段中的第一指示位用于指示发送所述集群应答报文的主设备在所述协议通道故障之前的设备角色，所述第二集群检测字段中的第二指示位指示发送所述集群应答报文的主设备在所述协议通道故障之后的设备角色，所述第二集群检测字段中的第三指示位指示同意从设备关闭从设备的端口。

在一些可能的设计中，当所述集群中包括两个以上的从设备，且主设备与至少一个从设备之间的协议通道故障时，所述方法还包括：

所述至少两个以上的从设备中与所述主设备之间的协议通道故障的从设备接收所述主设备发送的集群检测报文，并向所述主设备返回集群应答报文，以使所述主设备关闭所述主设备的端口。

例如，当主设备和至少一个从设备之间的协议通道故障后，若当前主设备的数量小于所述集群***中的从设备的数量，则可由原来的主设备发送集群检测报文给各从设备中转换为主设备的从设备，原来的主设备down。转换为主设备角色的各从设备接收所述主设备发送的集群检测报文后，会向所述主设备返回集群应答报文，从而使得原来的主设备认为该集群已解散，并关闭主设备的各端口。

若主设备的数量与所述集群***中的从设备的数量相等，主设备与从设备之间的协议通道故障时，则一般情况下优先由从设备发送集群检测报文，原来的主设备返回集群应答报文，从设备在收到主设备返回的集群应答报文后关闭自身的端口。在其他实施方式中，也可由主设备向从设备发送集群检测报文，然后在收到从设备返回的集群应答报文后关闭自身的端口，具体本发明不作限定，只要能够避免BGP反复震荡，保证节点之间的流量正常转发即可。

在一些可能的设计中，当所述从设备与所述主设备之间的协议通道故障恢复后，当前设备角色为主设备角色的从设备恢复到从设备角色；

所述从设备开启所述从设备的端口，从设备既可自动解除各端口的down状态，还可通过命令行手动解除各端口的down状态。

在一些可能的设计中，在所述从设备关闭所述从设备的端口之后，所述方法还包括：

所述从设备将所述从设备的每个关闭的端口的端口状态配置为down状态，以便所述从设备与所述主设备之间的协议通道故障恢复后，当前设备角色为主设备角色的从设备恢复到从设备角色，然后，所述从设备开启所述从设备的端口。本发明中，从设备既可自动解除各端口的down状态，又可通过命令行手动解除各端口的down状态。

本发明第二方面提供一种集群设备，具有实现对应于上述第一方面提供的集群管理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，集群设备应用于集群，所述集群包括主设备和从设备，所述集群设备包括：

处理模块，用于当所述主设备与所述从设备之间的协议通道故障后，将所述从设备转换为主设备角色；

收发模块，用于将集群检测报文通过数据通道发送给所述主设备；

所述处理模块还用于在通过所述收发模块接收所述主设备发送的集群应答报文后，根据所述集群应答消息退出所述集群；并关闭所述从设备的端口。

可选的，所述集群检测报文包括第一集群检测字段，所述集群应答报文包括第二集群检测字段。

在一些可能的设计中，所述第一集群检测字段包括第一指示位、第二指示位和第三指示位，所述第一集群检测字段中的第一指示位用于指示发送所述集群检测检测报文的从设备在所述协议通道故障之前的设备角色，所述第一集群检测字段中的第二指示位指示发送所述集群检测检测报文的从设备在所述协议通道故障之后的设备角色，所述第一集群检测字段中的第三指示位指示从设备申请关闭从设备的端口。

在一些可能的设计中，所述第二集群检测字段包括第一指示位、第二指示位和第三指示位，所述第二集群检测字段中的第一指示位用于指示发送所述集群应答报文的主设备在所述协议通道故障之前的设备角色，所述第二集群检测字段中的第二指示位指示发送所述集群应答报文的主设备在所述协议通道故障之后的设备角色，所述第二集群检测字段中的第三指示位指示同意从设备关闭从设备的端口。

在一些可能的设计中，当所述集群中包括两个以上的从设备时，所述收发模块还用于：

接收所述主设备发送的集群检测报文，并向所述主设备返回集群应答报文，以使所述主设备关闭所述主设备的端口。

在一些可能的设计中，所述处理模块还用于：

当所述从设备与所述主设备之间的协议通道故障恢复后，将所述从设备当前的主设备角色恢复到从设备角色；

开启所述从设备的端口。

在一些可能的设计中，所述处理模块在所述从设备关闭所述从设备的端口之后，还用于：

将所述从设备的每个关闭的端口的端口状态配置为down状态。

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行以下操作：

当所述主设备与所述从设备之间的协议通道故障后，将所述从设备转换为主设备角色；

通过收发器将集群检测报文通过数据通道发送给所述主设备；

在通过所述收发器接收所述主设备发送的集群应答报文后，根据所述集群应答消息退出所述集群；并关闭所述从设备的端口。

相较于现有技术，本发明提供的方案中，在协议通道故障后，转化为主设备角色的从设备将集群检测报文通过数据通道发送给所述主设备，然后在接收到主设备发送的集群应答报文后，强制关闭从设备的端口，从而隔离原从设备。不对原主设备进行任何处理，原主设备与原主设备的上下行设备之间的协议依旧可以建立，从而可以继续转发原来的业务数据，这样就不会影响到原主设备的流量转发，避免主设备和从设备的BGP协议反复震荡的现象。由此可见，这样既保证了该节点有一台设备可用，并且对当前网络的影响极小。

附图说明

图1为本实施例中集群的一种网络拓扑结构的示意图；

图2为本实施例中集群管理方法的一种流程示意图；

图3为本实施例中集群管理方法的另一种流程示意图；

图4为本实施例中集群设备的一种结构示意图；

图5为本实施例中执行上述集群管理方法的实体装置的一种结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本文中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个***中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本文中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本发明实施例方案的目的。

本发明实施例提供了一种集群管理方法及设备，主要用于虚拟集群技术领域，例如应用于集群***，能够避免主设备和从设备的BGP协议反复震荡，保证节点的流量正常转发。以下进行详细说明。

本发明中的集群是指通过协议将一组相互独立的、通过网络互联的计算机，它们构成了一个组网，并以单一***的模式加以管理。集群内的各设备之间能共享资源、分担费用、共用信道设备及服务等，可以是虚拟机群，虚拟集群是由多个单机框组成的一台逻辑单一的核心路由器。集群可包括一个主设备和至少一个从设备，主设备和从设备都可布局在机框中。主设备是指用于控制其所在的集群。从设备是用于采集数据。主设备和从设备都可与其上下行通信连接的各设备之间进行流量转发等操作。如图1所示，图1为集群的一种网络拓扑结构示意图，主设备(设备A)和从设备(设备B)通过协议部署在同一个组网中，各自的物理位置不受限制。图1中，设备C和设备D为该集群的上下行设备，也就是BGP邻居。

主设备和从设备之间存在协议通道和数据通道，协议通道是指在集群机框之间，通过主控板接口通信连接的通信链路，协议通道可用于传递集群内的协议报文。数据通道是指集群机框之间，通过业务控板接口通信连接的链路，数据通道可用于传递虚拟集群框间数据报文。

由于在协议通道故障后，从设备可能会转换为主设备的角色，从而导致出现一个集群中出现两个以上的主设备的现象，同时，协议通道故障的设备会退出故障前所在的集群，由于出现两个以上的主设备，所以会导致主设备的BGP邻居设备的BGP反复震荡，进而导致流量反复中断，无法保证流量的正常转发。为解决上述技术问题，本发明实施例主要提供以下技术方案：

从设备转化为主设备角色后，从设备将集群检测报文通过数据通道发送给原主设备，然后在接收到原主设备发送的集群应答报文后，强制关闭从设备的端口，从而隔离该从设备。

通过以上技术方案，能够避免出现两个以上的主设备时导致BGP协议反复震荡的问题，也能够保证各节点的流量正常转发。

请参照图2，以下对本发明提供一种集群管理方法进行举例说明，所述方法应用于集群，所述集群包括主设备和从设备，主设备与从设备之间存在协议通道和数据通道，在一个集群中，从设备的个数可以包括一个以上，在协议通道正常情况下，一个集群中仅有一个主设备。所述方法包括：

101、当所述主设备与所述从设备之间的协议通道故障后，所述从设备转换为主设备角色。

102、所述从设备将集群检测报文通过数据通道发送给所述主设备。

其中，所述集群检测报文包括第一集群检测字段。所述第一集群检测字段包括第一指示位、第二指示位和第三指示位，所述第一集群检测字段中的第一指示位用于指示发送所述集群检测检测报文的从设备在所述协议通道故障之前的设备角色，所述第一集群检测字段中的第二指示位指示发送所述集群检测检测报文的从设备在所述协议通道故障之后的设备角色，所述第一集群检测字段中的第三指示位指示从设备申请关闭从设备的端口。

在一些应用场景中，上述集群检测报文可采用统一链路层管理(英文全称：Consolidated LinkLayer Management，英文简称：CLM)/光纤链路层管理(英文全称：FiberLinkLayer Management，英文简称：FLM)链路层协议的扩展，增加第一集群检测字段，该第一集群检测字段占用2字节，定义格式如下：前1-2位为第一指示位，用于表示集群设备在协议通道故障之前的设备角色，其中01表示从设备角色(slave)，10表示主设备角色(master)。第3-4位为第二指示位，用于表示集群设备当前的设备角色，其中01表示从设备角色(slave)，10表示主设备角色(master)。第5-6位表示是否申请down，其中01表示申请down。例如，在集群检测报文中，第一集群检测字段可显示为01100100 00000000。

103、所述主设备接收到上述集群检测报文后，向所述从设备发送集群应答报文。

其中，所述集群应答报文包括第二集群检测字段。所述第二集群检测字段均包括第一指示位、第二指示位和第三指示位，所述第二集群检测字段中的第一指示位用于指示发送所述集群应答报文的主设备在所述协议通道故障之前的设备角色，所述第二集群检测字段中的第二指示位指示发送所述集群应答报文的主设备在所述协议通道故障之后的设备角色，所述第二集群检测字段中的第三指示位指示同意从设备关闭从设备的端口。

相应的，上述集群应答报文也可采用CLM/FLM链路层协议的扩展，增加第二集群检测字段，该第二集群检测字段占用2字节，定义格式如下：前1-2位表示第一指示位，用于表示集群设备在协议通道故障之前的设备角色，其中01表示从设备角色(slave)，10表示主设备角色(master)。第3-4位表示第二指示位，用于表示集群设备当前的设备角色，其中01表示从设备角色(slave)，10表示主设备角色(master)。5-6位表示是否申请down，其中10表示同意down。例如，在集群应答报文中，第二集群检测字段可显示为10101100 00000000。

对于上述集群检测报文和上述集群应答报文，二者的通信格式可以是如下表1中的一种，也可以是在下表1的基础上变形得到，具体本发明不作限定。

表1

上述表1中的各元素的具体含义可参考下表2。

表2

表2中，CMD是指集群多框检测(英文全称：cluster-chassis multi-userdetection，英文简称：CMD)，可用于检测解集群的协议，CMD为集群检测报文或集群应答报文的一种具体实施方式，还可以有其他的名称，具体本发明不作限定。

104、在接收所述主设备发送的集群应答报文后，所述从设备根据所述集群应答消息退出所述集群。

105、所述从设备关闭所述从设备的端口。

其中，关闭的端口包括ge0/0/0、环回接口(loopback)、虚拟局域网接口(英文全称：virtual local area network interface，英文简称：vlanif)、业务口等。在关闭从设备的各端口后，从设备还可以将所述从设备的每个关闭的端口的端口状态配置为down状态，以便所述从设备与所述主设备之间的协议通道故障恢复后，当前设备角色为主设备角色的从设备恢复到从设备角色，然后，所述从设备开启所述从设备的端口。本发明中，从设备既可自动解除各端口的down状态，又可通过命令行手动解除各端口的down状态。

与现有机制相比，本发明实施例中，在协议通道故障后，转化为主设备角色的从设备将集群检测报文通过数据通道发送给所述主设备，然后在接收到主设备发送的集群应答报文后，强制关闭从设备的端口，从而隔离原从设备。不对原主设备进行任何处理，原主设备与原主设备的上下行设备之间的协议依旧可以建立，从而可以继续转发原来的业务数据，这样就不会影响到原主设备的流量转发，避免主设备和从设备的BGP反复震荡的现象。

换句话说，在检测到两个以上的主设备时，可通过强制关闭其中原从设备的端口的方式，隔离原从设备。在上述步骤104和步骤105中，不对原主设备进行任何处理，原主设备可以继续转发原来的业务数据，这样就不会影响到原主设备的流量转发。由此可见，这样既保证了该节点有一台设备可用，并且对当前网络的影响极小。同时，还可以通过联动BFD的特性，进一步将出现两个以上的主设备对网络所带来的影响降到毫秒级。

可选的，在一些发明实施例中，当集群中包括两个以上的从设备时，在主设备与至少一个从设备之间的协议通道故障。由于原从设备数量多于原主设备，那么，这种情况下，还可设置如下规则：

可由主设备向集群中的各从设备(包括转化为主设备角色的从设备，和/或，仍然为从设备角色的从设备)发送集群检测报文。各从设备接收所述主设备发送的集群检测报文，并向所述主设备返回集群应答报文，使得原来的主设备认为该集群已解散，并关闭主设备的各端口(与前述部分关闭从设备的端口相同或类似)。

需要说明的是，当集群中的主设备与从设备的数目相同时，若主设备与从设备之间的协议通道故障，则一般情况下优先由从设备向主设备发送集群检测报文，然后，从设备在收到主设备返回的集群应答报文后关闭自身的端口。在其他实施方式中，也可由主设备向从设备发送集群检测报文，然后在收到从设备返回的集群应答报文后关闭自身的端口，具体本发明不作限定，只要能够避免BGP反复震荡，保证节点之间的流量正常转发即可。

为便于理解，下面举一具体应用场景对本发明的集群管理方法进行举例说明：如图3所示，集群包括一个主机框(Master)和一个从机框(Slave)，在二者之间建立了协议通道(通过#17端口和#18端口连接)和数据通道(例如通过#11端口和#12端口连接)。在协议通道故障后，Slave通过数据通道向Master发送集群检测报文，然后Master向Slave返回集群应答报文。在Slave收到该集群应答报文后，认为该集群已解散，则会关闭其端口，并退出该集群。

以上对本发明中一种集群管理方法进行说明，以下对执行上述集群管理方法的集群设备进行描述。

一、参照图4，对集群设备40进行说明，所述集群设备应用于集群，所述集群包括主设备和从设备，所述集群设备40包括：

处理模块401，用于当所述主设备与所述从设备之间的协议通道故障后，将所述从设备转换为主设备角色；

收发模块402，用于将集群检测报文通过数据通道发送给所述主设备；

所述处理模块401还用于在通过所述收发模块402接收所述主设备发送的集群应答报文后，根据所述集群应答消息退出所述集群；并关闭所述从设备的端口。

本发明实施例中，在协议通道故障后，处理模块401将从设备转化为主设备角色，收发模块402将集群检测报文通过数据通道发送给所述主设备，然后在接收到主设备发送的集群应答报文后，处理模块401强制关闭从设备的端口，从而隔离原从设备。不对原主设备进行任何处理，原主设备可以继续转发原来的业务数据，这样就不会影响到原主设备的流量转发，避免主设备和从设备的BGP反复震荡的现象。由此可见，这样既保证了该节点有一台设备可用，并且对当前网络的影响极小。

可选的，在一些发明实施例中，所述第一集群检测字段包括第一指示位、第二指示位和第三指示位，所述第一集群检测字段中的第一指示位用于指示发送所述集群检测检测报文的从设备在所述协议通道故障之前的设备角色，所述第一集群检测字段中的第二指示位指示发送所述集群检测检测报文的从设备在所述协议通道故障之后的设备角色，所述第一集群检测字段中的第三指示位指示从设备申请关闭从设备的端口。

可选的，在一些发明实施例中，所述第二集群检测字段包括第一指示位、第二指示位和第三指示位，所述第二集群检测字段中的第一指示位用于指示发送所述集群应答报文的主设备在所述协议通道故障之前的设备角色，所述第二集群检测字段中的第二指示位指示发送所述集群应答报文的主设备在所述协议通道故障之后的设备角色，所述第二集群检测字段中的第三指示位指示同意从设备关闭从设备的端口。

可选的，在一些发明实施例中，当所述集群中包括两个以上的从设备时，所述收发模块402还用于：

可选的，在一些发明实施例中，所述处理模块401还用于：

开启所述从设备的端口。

可选的，在一些发明实施例中，所述处理模块401在所述从设备关闭所述从设备的端口之后，还用于：

将所述从设备的每个关闭的端口的端口状态配置为down状态。

需要说明的是，在本发明图4所对应的实施例中的收发模块对应的实体设备可以为收发器，处理模块对应的实体设备可以为处理器。图4所示的装置可以具有如图5所示的结构，当其中一种装置具有如图5所示的结构时，图5中的处理器和收发器实现前述对应该装置的装置实施例提供的处理模块和收发模块相同或相似的功能，图5中的存储器存储处理器执行上述集群管理方法时需要调用的程序代码。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文简称：ROM)、随机存取存储器(英文全称：Random Access Memory，英文简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种集群管理方法，其特征在于，所述方法应用于集群，所述集群包括主设备和从设备，所述方法包括：

当所述主设备与所述从设备之间的协议通道故障后，所述从设备转换为主设备角色；

所述从设备将集群检测报文通过数据通道发送给所述主设备；

在接收所述主设备发送的集群应答报文后，所述从设备根据所述集群应答消息退出所述集群；

所述从设备关闭所述从设备的端口。

2.根据权利要求1所述的方法，其特征在于，所述集群检测报文包括第一集群检测字段，所述集群应答报文包括第二集群检测字段。

3.根据权利要求2所述的方法，其特征在于，所述第一集群检测字段包括第一指示位、第二指示位和第三指示位，所述第一集群检测字段中的第一指示位用于指示发送所述集群检测检测报文的从设备在所述协议通道故障之前的设备角色，所述第一集群检测字段中的第二指示位指示发送所述集群检测检测报文的从设备在所述协议通道故障之后的设备角色，所述第一集群检测字段中的第三指示位指示从设备申请关闭从设备的端口。

4.根据权利要求2或3所述的方法，其特征在于，所述第二集群检测字段包括第一指示位、第二指示位和第三指示位，所述第二集群检测字段中的第一指示位用于指示发送所述集群应答报文的主设备在所述协议通道故障之前的设备角色，所述第二集群检测字段中的第二指示位指示发送所述集群应答报文的主设备在所述协议通道故障之后的设备角色，所述第二集群检测字段中的第三指示位指示同意从设备关闭从设备的端口。

5.根据权利要求1-4任一所述的方法，其特征在于，当所述集群中包括两个以上的从设备时，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述从设备与所述主设备之间的协议通道故障恢复后，当前设备角色为主设备角色的从设备恢复到从设备角色；

所述从设备开启所述从设备的端口。

7.根据权利要求1所述的方法，其特征在于，在所述从设备关闭所述从设备的端口之后，所述方法还包括：

所述从设备将所述从设备的每个关闭的端口的端口状态配置为down状态。

8.一种集群设备，其特征在于，所述集群设备应用于集群，所述集群包括主设备和从设备，所述集群设备包括：

9.根据权利要求8所述的集群设备，其特征在于，所述集群检测报文包括第一集群检测字段，所述集群应答报文包括第二集群检测字段。

10.根据权利要求9所述的集群设备，其特征在于，所述第一集群检测字段包括第一指示位、第二指示位和第三指示位，所述第一集群检测字段中的第一指示位用于指示发送所述集群检测检测报文的从设备在所述协议通道故障之前的设备角色，所述第一集群检测字段中的第二指示位指示发送所述集群检测检测报文的从设备在所述协议通道故障之后的设备角色，所述第一集群检测字段中的第三指示位指示从设备申请关闭从设备的端口。

11.根据权利要求9或10所述的集群设备，其特征在于，所述第二集群检测字段包括第一指示位、第二指示位和第三指示位，所述第二集群检测字段中的第一指示位用于指示发送所述集群应答报文的主设备在所述协议通道故障之前的设备角色，所述第二集群检测字段中的第二指示位指示发送所述集群应答报文的主设备在所述协议通道故障之后的设备角色，所述第二集群检测字段中的第三指示位指示同意从设备关闭从设备的端口。

12.根据权利要求8-11任一所述的集群设备，其特征在于，当所述集群中包括两个以上的从设备时，所述收发模块还用于：

13.根据权利要求8所述的集群设备，其特征在于，所述处理模块还用于：

开启所述从设备的端口。

14.根据权利要求8所述的集群设备，其特征在于，所述处理模块在所述从设备关闭所述从设备的端口之后，还用于：

将所述从设备的每个关闭的端口的端口状态配置为down状态。