CN109729111B

CN109729111B - 用于管理分布式***的方法、设备和计算机程序产品

Info

Publication number: CN109729111B
Application number: CN201711025186.6A
Authority: CN
Inventors: 崔嵬; 赵军平; 陈欢; 刘赞
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2021-10-08
Anticipated expiration: 2037-10-27
Also published as: US10979286B2; CN109729111A; US20190173739A1

Abstract

本公开的实施例涉及用于管理分布式***的方法、设备和计算机程序产品。一种方法包括由分布式***中的多个节点中的主节点向多个节点中的多个从节点发送心跳消息，多个节点被划分到一个或多个分区中。该方法还包括响应于从多个从节点中的一部分从节点接收到针对心跳消息的响应，确定一个或多个分区的相应状态。此外，该方法还包括至少基于一个或多个分区的相应状态，确定多个从节点中的第一从节点的状态，主节点未接收到来自第一从节点的针对心跳消息的响应。

Description

用于管理分布式***的方法、设备和计算机程序产品

技术领域

本公开的实施例总体涉及分布式存储领域，具体涉及用于管理分布式***的方法、设备和计算机程序产品。

背景技术

在分布式存储***中，通常利用诸如PAXOS算法或者复制与容错(RAFT)算法的一致性算法来实现关键数据的存储。一致性算法允许多个节点作为一个集群协同工作，并且当其中的若干节点发生故障时集群仍然能够正常工作。例如，PAXOS/RAFT算法能够提供一致的、自我维护的、基于对等复制的键值(KV)数据库服务，并且能够容忍集群中不超过半数的节点发生故障。通过利用这样的高容错算法，许多不可靠或者低可靠性的***能够被用于存储关键数据。然而，传统上用于确保数据一致性的算法在某些情况下会导致***性能的降低。

发明内容

本公开的实施例提供了用于管理分布式***的方法、设备和计算机程序产品。

在本公开的第一方面，提供了一种用于管理分布式***的方法。该方法包括由分布式***中的多个节点中的主节点向多个节点中的多个从节点发送心跳消息，多个节点被划分到一个或多个分区中。该方法还包括响应于从多个从节点中的一部分从节点接收到针对心跳消息的响应，确定一个或多个分区的相应状态。此外，该方法还包括至少基于一个或多个分区的相应状态，确定多个从节点中的第一从节点的状态，主节点未接收到来自第一从节点的针对心跳消息的响应。

在本公开的第二方面，提供了一种用于管理分布式***的设备。该设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得设备执行动作，该动作包括：向分布式***中的多个节点中的多个从节点发送心跳消息，该设备被包括在多个节点中的主节点中，并且多个节点被划分到一个或多个分区中；响应于从多个从节点中的一部分从节点接收到针对心跳消息的响应，确定一个或多个分区的相应状态；以及至少基于一个或多个分区的相应状态，确定多个从节点中的第一从节点的状态，该设备未接收到来自第一从节点的所述心跳消息的响应。

在本公开的第三方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令。该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了分布式***100的示意性框图；

图2示出了分布式***100中的节点被划分成多个分区的示意图；

图3示出了根据本公开的实施例的***300的示意性框图；

图4示出了根据本公开的实施例的用于管理分布式***的方法400的流程图；

图5示出了根据本公开的实施例的用于转换节点状态的状态机500的示意图；以及

图6示出了可以用来实施本公开内容的实施例的示例设备600的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本文中所使用的术语“节点”可以包括物理主机、服务器、虚拟机、容器、或者运行在上述实体中的代码片段等。

出于说明的目的，以下将结合K-RAFT算法来详细描述本公开的实施例。然而，应当理解，这不暗示对本公开的范围的任何限制。本公开的原理和方法也可以被应用于已知或将要开发的其他的一致性算法中。为了便于理解，以下首先简要介绍RAFT算法和K-RAFT算法的基本原理。

为讨论方便之目的，在介绍RAFT算法之前，首先介绍“一致性(consensus)”这一概念。一致性指代多个节点在状态上达成一致。在分布式***中，因为各种意外可能，有些节点可能会崩溃或变得不可靠，因而不能与其他节点达成一致状态。因此，需要一致性协议来确保容错性，也即当***中的若干节点发生故障时***仍然能够正常工作。

为了以容错方式达成一致，RAFT算法不要求所有节点都达成一致状态，只要超过半数的节点达成一致即可。在RAFT算法中，在任何时刻任一节点可以扮演三种角色之一：领导者(leader)、追随者(follower)和候选者(candidate)。领导者负责处理与客户端的交互、日志(如以下描述的，在此所述的“日志”表示对分布式***的操作请求)的同步管理、与追随者保持联系等。追随者作为被动节点响应领导者的日志同步请求、响应候选者的投票请求等。候选者负责选举投票。在RAFT算法刚启动时，所有节点都是追随者。然后，一个节点从追随者状态转换为候选者状态并且发起选举。当该节点获得多数节点的投票时，其从候选者状态转换为领导者状态。

当领导者选举出来以后，其可以开始负责客户端的请求。所有事务(更新操作)请求都经由领导者来处理。这些事务或操作请求也被称为“日志”。为了保证节点的一致性，当接收到客户端的日志(事务请求)后，首先将该日志条目记录在本地的日志空间中。然后领导者通过广播心跳消息将该日志条目同步给所有追随者。当追随者接收到日志条目时，将该日志条目记录在本地的日志空间中，然后向领导者发送确认消息。当领导者接收到大多数追随者的确认消息后将该日志条目提交到本地存储设备中，并且向客户端发送响应。领导者将在下个心跳消息中通知所有追随者将该日志条目提交到各自的本地存储设备中。

如果在上述过程中发生了网络分区或者网络通信故障(以下也被称为“隔离”)，使得领导者不能访问大多数追随者，则领导者只能正常更新它能访问的那些追随者。大多数追随者因为失去了领导者，因此他们将重新选举一个候选者作为领导者。如果此时网络故障恢复，则原领导者就变成追随者。此外，在网络故障期间原领导者执行的任何更新操作都将被回滚，并且接受新领导者的更新。

由于RAFT算法不支持诸如故障节点自动替换等自动重配功能，其至多能够容忍不超过半数的节点发生故障。K-RAFT算法作为RAFT算法的改进模型，通过将***中的节点划分为两组并且支持两组节点之间的降级/升级操作而实现自动重配功能。以下结合图1所示的分布式***来说明K-RAFT算法的原理。

图1示出了分布式***100的示意图。如图1所示，***100可以包括N个节点110-1、110-2……110-N(统称为“节点110”，其中N为自然数)。N个节点可以被划分为两组：选举组120和备用组130。

如图1所示，N个节点中的K个节点可以被划分到选举组120中。K通常是远小于N的奇数。在图1中，K等于5。选举组120中的K个节点可以按照传统RAFT算法操作。如图1所示，例如，选举组120中的节点110-3充当领导者，而节点110-1、110-2、110-4和110-5充当追随者。剩余的N-K个节点可以被逻辑地划分到备用组130中。备用组130中的节点仍然与选举组120中的节点保持心跳联系。当在选举组120中检测到故障节点时，备用组130中的健康节点(例如，能够响应心跳消息的节点)可以被选择并升级成为选举组120中的成员，从而维持***的足够冗余度。相应地，故障节点可以从选举组120被踢除(也称为“降级”)。

由于支持自动重配功能，K-RAFT算法至多能够容忍N-2个节点发生故障。然而，K-RAFT算法不能够很好地适应多个子网的情况。

图2示出了如图1所示的选举组120中的节点被划分成多个子网的示意图。如图2所示，例如节点110-1被划分到子网210中，而节点110-2、110-3、110-4和110-5被划分到子网220中。当子网210和220之间的中继设备212或213(例如，交换机或者路由器等)发生故障时，节点110-1可能无法响应来自节点110-3的心跳消息，从而导致节点110-1从选举组120中被踢除。相应地，备用组130中的一个健康节点可以被选择以加入到选举组120中来维持***的足够冗余度。当子网之间的中继设备反复发生故障时，上述踢除和加入操作将反复发生，从而导致大量的数据更新和数据同步的操作，使得***性能下降。

此外，在分布式***中的多个节点被划分到多个子网的情况下，由于隔离的发生可能导致节点被丢失的情况。例如，故障节点恢复之后可能由于无法获得当前分布式***中最新的节点列表而无法与其他节点取得联系从而回到分布式***中。在单个网络的情况下，可以通过向所有节点广播当前***中最新的节点列表来避免节点丢失的情况。然而，该方法不适用于存在多个子网的情况。此外，一些传统方案利用单独的外部服务来跟踪***中的所有成员节点的状态，然而这种集中式外部服务可能导致***的可用性下降。

本公开的示例实施例提出了一种用于管理分布式***的方案。该方案在实现自动重配功能时考虑到节点所在的子网的状态，从而能够避免由于子网间的短暂隔离而造成的不必要的节点替换操作。相应地，在节点替换操作期间的数据迁移能够被避免，由此提高***性能。该方案能够实现具有更少的环境限制的自愈模型，例如，其能够更好地适应于存在多个子网的环境。此外，本公开的示例实施例能够实现去中心化的节点发现，从而避免在多子网环境下利用单独的外部服务跟踪***中的所有成员节点的状态而造成的***可用性下降的问题。

图3示出了根据本公开的实施例的分布式***300的框图。如图3所示，***300可以包括M个节点310-1、310-2……310-M(统称为“节点310”，其中M为自然数)。应当理解，如图3所示的分布式***300的结构和功能仅用于示例的目的，而不暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的结构和/或功能中。

如图3所示，M个节点可以被划分为两组：一致性决策组320和备用组330。M个节点中的P个节点可以被划分到一致性决策组320中。在一些实施例中，P可以是远小于M的奇数。例如，在图3中，P等于5。与图1类似，一致性决策组320中的P个节点可以按照传统RAFT算法操作，并且P个节点可以被配置有关于分布式***300中的全部节点的成员信息(例如，节点列表)。在一些实施例中，一致性决策组320中的节点310-4可以充当主节点(例如，RAFT算法中的领导者)，而节点310-1、310-2、310-3和310-5可以充当从节点(例如，RAFT算法中的追随者)。剩余的M-P个节点可以被逻辑地划分到备用组330中。在一些实施例中，备用组330中的节点可以与一致性决策组320中的节点保持心跳联系。当在一致性决策组320中检测到故障节点并且满足特定条件时，备用组330中的健康节点可以被选择以升级成为一致性决策组320中的成员，故障节点可以相应地从一致性决策组320被踢除。

图4示出了根据本公开的实施例的用于管理分布式***的方法400的流程图。以下将结合图3来详细描述方法400。例如，方法400可以由如图3所示的主节点310-4来执行。应当理解的是，方法400还可以包括未示出的附加步骤和/或可以省略所示出的步骤，本公开的范围在此方面不受限制。

在框410，分布式***300中的一致性决策组320中的主节点310-4可以向一致性决策组320中的多个从节点310-1、310-2、310-3和310-5发送心跳消息。例如，节点310-1、310-2、……310-5可以被划分到一个或多个分区(例如，一个或多个子网)中。附加地或者备选地，主节点310-4也可以向备用组330中的节点发送心跳消息，以使得一致性决策组320与备用组330之前保持联系。

在一些实施例中，在构建分布式***300时，节点310中的每个节点需要被注册到与分布式***300相关联的节点列表中。在传统方案中，注册程序通常仅需要新加入节点的IP地址，并且因此节点列表可以利用节点的IP地址列表来表示。例如，假设节点310-1、310-2……310-N的IP地址分别为IP 1、IP 2……IP N，则节点列表可以被表示为：<IP 1，IP2，……IP N>。在本公开的一些实施例中，为了能够获得节点所在的分区信息，在节点被注册到与分布式***300相关联的节点列表中时，注册程序除了要求节点的IP地址之外还要求与该节点有关的连接信息。例如，与该节点有关的连接信息可以包括与该节点相关联的子网掩码的长度(例如，比特数)、子网掩码本身或者网关地址等。假设与节点310-1、310-2……310-N相关联的连接信息分别被表示为参数1、参数2……参数N，则相应地与分布式***300相关联的节点列表可以被扩展为：<(IP 1，参数1)，(IP 2，参数2)……(IP N，参数N)>。

在一些实施例中，节点310中的每个节点可以被预先配置与分布式***300相关联的节点列表，并且该节点列表可以在后续操作中被更新。例如，主节点可以在心跳消息中向其他节点发送当前最新节点列表。通过节点列表中所包含的与每个节点有关的连接信息，主节点310-4可以预先确定一致性决策组320中的多个从节点中的每个从节点所在的分区。

在框420，主节点310-4响应于从一致性决策组320中的一部分从节点接收到针对心跳消息的响应，确定多个从节点310-1、310-2、310-3和310-5所在的一个或多个分区的相应状态。出于说明的目的，在此假设主节点310-4能够接收到来自从节点310-2、310-3和310-5的响应，而未能接收到来自从节点310-1的响应。

在一些实施例中，主节点310-4可以基于从一部分从节点(例如，节点310-2、310-3和310-5)接收到的响应，确定该一部分从节点所在的至少一个分区。例如，从一部分从节点中的每个从节点接收到的响应可以包括与该从节点有关的连接信息。与该从节点有关的连接信息可以包括例如与该从节点相关联的子网掩码的长度(例如，比特数)、子网掩码本身或者网关地址等。因此，主节点310-4可以基于与该从节点有关的连接信息来确定该从节点所在的分区。

附加地或者备选地，一些实施例中，主节点310-4可以被预先配置有与分布式***300相关联的节点列表。也即，主节点310-4可以预先确定多个从节点中的每个从节点所在的分区。当主节点310-4从一部分从节点接收到的针对心跳消息的响应时，主节点310-4可以确定该一部分从节点所在的至少一个分区。

在一些实施例中，当主节点310-4已经确定响应心跳消息的一部分从节点所在的至少一个分区时，主节点310-4可以将该至少一个分区的相应状态确定为有效状态。该有效状态可以指示至少一个分区与一致性决策组320中超过预定数目的节点未隔离。例如，预定数目为一致性决策组320中的节点数目的一半。也即，有效状态可以指示至少一个分区与一致性决策组320中超过半数的节点未隔离。

以此方式，当一个分区中至少有一个从节点能够响应于主节点发送的心跳消息时，该分区可以被认为是有效的。

在框430，主节点310-4至少基于所确定的一个或多个分区的相应状态，确定多个从节点中的至少一个从节点的状态。

在一些实施例中，至少一个从节点可以包括未能从其接收到针对心跳消息的响应的从节点(例如，从节点310-1)。在下文中，未能从其接收到针对心跳消息的响应的从节点也被称为“第一从节点”。

在一些实施例中，主节点310-4可以预先获得一致性决策组320中的所有节点的列表。此外，在框420处，主节点310-4可以确定响应心跳消息的至少一部分从节点(例如，节点310-2、310-3和310-5)。因此，主节点310-4可以确定未能响应心跳消息的第一从节点(例如，节点310-1)。

在一些实施例中，当主节点310-4确定从节点310-1位于处于有效状态的至少一个分区中时，主节点310-4可以将节点310-1的状态确定为未隔离状态(以下也称为“第一状态”)。未隔离状态可以指示从节点310-1与一致性决策组320中超过预定数目的节点未隔离。也即，未隔离状态指示了从节点310-1未响应心跳消息的原因并非是网络分区或者网络故障，而很有可能是从节点310-1本身存在故障。

在一些实施例中，当从节点310-1处于第一状态时，主节点310-4可以进一步确定从节点310-1处于第一状态的持续时间(以下也被称为“第一持续时间”)。例如，主节点310-4可以周期性地向一致性决策组320中的多个从节点发送心跳消息，并且统计从节点310-1连续地处于未隔离状态(也即，未能响应心跳消息且位于处于有效状态的分区中)的次数。例如，第一持续时间可以利用该次数被表示。当第一持续时间超过预定阈值(以下也被称为“第一阈值”)时，主节点310-4可以将从节点310-1的状态确定为故障状态。

在一些实施例中，当主节点310-4确定从节点310-1在处于有效状态的至少一个分区之外时，主节点310-4可以将节点310-1的状态确定为隔离状态(以下也称为“第二状态”)。隔离状态可以指示从节点310-1与一致性决策组320中超过预定数目的节点隔离。也即，隔离状态指示了从节点310-1未响应心跳消息的原因可能是网络分区或者网络故障，而非从节点310-1本身存在故障。

在一些实施例中，当从节点310-1处于故障状态时，主节点310-4可以进一步确定从节点310-1处于故障状态的持续时间。例如，当从节点310-1处于故障状态的持续时间超过预定阈值(以下也称为“第二阈值”)时，主节点310-4可以将节点310-1标记为待降级，以将节点310-1从一致性决策组320踢除。相应地，备用组330中的健康节点可以被选择以加入到一致性决策组320中。

附加地或者备选地，在一些实施例中，由主节点310-4至少基于所确定的一个或多个分区的相应状态来确定其状态的至少一个从节点还可以包括能够从其接收到针对心跳消息的响应的从节点(例如，节点310-2)。在下文中，能够从其接收到针对心跳消息的响应的从节点也被称为“第二从节点”。

在一些实施例中，从节点310-2之前处于故障状态并且未被标记为待降级(也即，处于故障状态的持续时间未超过第二阈值)。在本轮心跳消息的通信中，主节点310-4从之前处于故障状态的节点310-2接收到针对心跳消息的响应，并由此确定节点310-2处于有效分区(也即，处于有效状态的分区)中。在此情况下，主节点310-4可以将从节点310-2的状态从故障状态变为隔离状态，以指示从节点310-2的恢复可能由于子网间的中继设备不稳定造成。

在一些实施例中，从节点310-2之前处于故障状态并且被标记为待降级。在本轮心跳消息的通信中，主节点310-4从之前处于故障状态的节点310-2接收到针对心跳消息的响应，并由此确定节点310-2处于有效分区中。在此情况下，主节点310-4可以将从节点310-2的状态从故障状态变为备用状态。也即，从节点310-2成为备用组330中的成员。

基于以上描述可以看出，本公开的实施例能够基于未响应心跳消息的节点所在的子网状态来推断该节点未响应心跳消息的原因。也即，本公开的实施例能够确定该节点未响应心跳消息是由于分区隔离导致还是节点本身的故障导致。当确定该节点未响应心跳消息是由于分区隔离导致(也即，处于“隔离状态”)时，该节点不会被踢除。当确定该节点未响应心跳消息肯定不由分区隔离导致(也即，处于“未隔离状态”)时，才会触发踢除该节点的相关操作。以此方式，本公开的实施例能够避免由于子网间的短暂隔离而造成的不必要的节点替换操作。相应地，在节点替换操作期间的数据迁移能够被避免，由此提高***性能。

此外，在另一些实施例中，如果主节点310-4在框410之后未能收到来自任何节点的针对的心跳消息的响应，则主节点310-4可以将其自身的状态确定为不可跟踪状态，其指示主节点310-4可能已被丢失(也即，与分布式***300中的所有其他节点失去联系)。针对不可跟踪状态的节点的处理将在下文中被进一步详细描述。

根据本公开的实施例的上述节点状态转换可以利用状态机来表示。例如，图5示出了根据本公开的实施例的用于转换节点状态的状态机500的示意图。

如图5所示，状态机500可以包括五种状态：备用状态510、隔离状态520、未隔离状态530、故障状态540和不可跟踪状态550。如图3所示的分布式***300中的节点310中的每个节点可以处于上述五种状态之一。应当理解，如图5所示的状态机500所涉及的各种状态以及各种状态之间的转换条件仅用于示例的目的，而不暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的状态机中。此外，还应当理解，本公开的实施例可以与RAFT算法和/或K-RAFT算法中的操作相结合。然而，出于简化说明的目的，RAFT算法和K-RAFT算法中的操作在此不再赘述。

如图5所示，例如当一致性决策组320中的节点处于故障状态540的时间超过第二阈值时，备用组330中处于备用状态510的节点(例如，节点310-6)可以被选择(例如，经由一致性决策组320中的节点投票)以成为一致性决策组320的成员(条件513)。因此，节点310-6的状态从备用状态510转换为未隔离状态530。

当之前处于未隔离状态530的节点310-6未能响应于来自主节点的心跳消息但是处于有效分区时，节点310-6将继续处于未隔离状态530。当节点310-6处于未隔离状态530的第一持续时间超过第一阈值时(条件534)，节点310-6的状态从未隔离状态530转换为故障状态540。相反，当之前处于未隔离状态530的节点310-6能够响应于来自主节点的心跳消息时，第一持续时间将被清零，此时不发生状态转换。当之前处于未隔离状态530的节点310-6未能响应于来自主节点的心跳消息并且在有效分区之外时(条件532)，节点310-6的状态从未隔离状态530转换为隔离状态520。

当之前处于隔离状态520的节点310-6处于有效分区之内或者能够响应于来自主节点的心跳消息时(条件523)，节点310-6的状态从隔离状态520转换为未隔离状态530。当之前处于隔离状态520的节点310-6继续在有效分区之外并且未能响应于来自主节点的心跳消息时，节点310-6将继续处于隔离状态520(条件522)。

当之前处于故障状态540的节点310-6能够响应于来自主节点的心跳消息并且节点310-6处于故障状态540的第二持续时间不超过第二阈值时(条件542)，节点310-6的状态从故障状态540转换为隔离状态520。当之前处于故障状态540的节点310-6能够响应于来自主节点的心跳消息并且节点310-6处于故障状态540的第二持续时间超过第二阈值时(条件541)，节点310-6的状态从故障状态540转换为备用状态510。

在一些实施例中，当节点310中的主节点向其他节点发送心跳消息但是未能接收到来自任何节点的响应时(条件515)；或者当节点310中的从节点失去与主节点的联系从而发起针对主节点的新一轮选举，但是又未能接收到来自任何节点的投票时(条件525)，未能接收到来自任何节点的响应的主节点或者从节点的状态将被转换为不可跟踪状态550，其指示该节点可能被丢失。

为了能够发现丢失节点，本公开的实施例支持一种去中心化的节点发现方案。

在一些实施例中，当将分布式***中的多个节点划分到多个分区中时，可以针对每个分区分配特定于分区的IP地址。与注册到节点列表中的节点IP地址不同，该特定于分区的IP地址最初不由该分区中的任何节点占有，而用于由该分区中的所有节点公平竞争。成功竞争到该特定于分区的IP地址的节点将不参与RAFT算法中的选举操作，而仅充当分区级的节点发现中的网关(以下也称为“网关节点”)。因此，即使占用该特定于分区的IP地址的节点改变也不会导致任何的数据迁移以及由此引起的***性能下降。

在一些实施例中，外部发现服务可以被用于分区级的节点发现。外部发现服务可以是特定节点或者运行在特定节点上的特定服务。例如，外部发现服务可以针对各个特定于分区的IP地址来发现网关节点。外部发现服务可以从所发现的网关节点中的每个网关节点处获得由该网关节点保存的节点列表。外部发现服务可以通过将所获得的所有节点列表进行同步，以获得当前分布式***中的所有节点的列表。

当分布式***中的节点处于不可跟踪状态550时，该节点可以首先确定在其网络分区内是否存在占用特定于分区的IP地址的网关节点。例如，该节点可以尝试与该特定于分区的IP地址进行联系。如果能够获得响应，则该节点可以向该网关节点通知在其被丢失前所保留的最近节点列表，使得外部服务能够通过从网关节点获得节点列表来发现该节点。如果未能获得响应，则该节点可以竞争占用该特定于分区的IP地址，并且将在其被丢失前所保留的最近节点列表通知给外部发现服务。以此方式，如图5所示，当外部发现服务发现处于不可跟踪状态550的节点时(条件551)，该节点的状态从不可跟踪状态550转换为备用状态510。

通过以上描述可以看出，本公开的实施例能够实现去中心化的节点发现方案。该方案在解决多子网环境中的节点丢失问题的同时不会导致不必要的数据迁移以及由此引起的***性能下降，从而能够确保***可用性。

综上所述，本公开的示例实施例提出了一种用于管理分布式***的方案。该方案在实现自动重配功能时考虑到节点所在的子网的状态，从而能够避免由于子网间的短暂隔离而造成的不必要的节点替换操作。相应地，在节点替换操作期间的数据迁移能够被避免，由此提高***性能。该方案能够实现具有更少的环境限制的自愈模型，例如，其能够更好地适应于存在多个子网的环境。此外，本公开的示例实施例能够实现去中心化的节点发现，从而避免在多子网环境下利用单独的外部服务跟踪***中的所有成员节点的状态而造成的***可用性下降的问题。鉴于本公开的实施例的各种特征和优势，本公开的实施例能够被广泛地应用于各种分布式应用和/或***中，包括但不限于云存储、区块链、混合收敛***以及各种其他现代分布式应用等等。

图6示出了可以用来实施本公开内容的实施例的示例设备600的示意性框图。例如，如图3所示的分布式***300中的节点310可以由设备600实施。如图所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法400，可由处理单元601执行。例如，在一些实施例中，方法400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序被加载到RAM 603并由CPU 601执行时，可以执行上文描述的方法400的一个或多个动作。

本公开可以是方法、装置、***和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于管理分布式***（300）的方法，所述方法包括：

由所述分布式***（300）中的多个节点（320）中的主节点（310-4）向所述多个节点（320）中的多个从节点（310-1，310-2，310-3，310-5）发送心跳消息，所述多个节点（320）被划分到一个或多个分区中；

响应于从所述多个从节点（310-1，310-2，310-3，310-5）中的一部分从节点（310-2，310-3，310-5）接收到针对所述心跳消息的响应，确定所述一个或多个分区的相应状态；以及

至少基于所述一个或多个分区的相应状态，确定所述多个从节点（310-1，310-2，310-3，310-5）中的第一从节点（310-1）的状态，所述主节点（310-4）未接收到来自所述第一从节点（310-1）的针对所述心跳消息的响应，

其中确定所述一个或多个分区的相应状态包括：

基于从所述一部分从节点（310-2，310-3，310-5）接收到的所述响应，确定所述一部分从节点（310-2，310-3，310-5）所在的至少一个分区；以及

将所述至少一个分区的相应状态确定为有效状态，其指示所述至少一个分区与所述多个节点（320）中超过预定数目的节点未隔离；以及

其中至少基于所述一个或多个分区的相应状态，确定所述多个从节点中的第一从节点的状态包括：

将所述至少一个分区的相应状态确定为有效状态，尽管所述主节点未接收到来自所述第一从节点的针对所述心跳消息的响应，至少暂时将所述第一从节点维持在指定状态，以便临时阻止从包括所述主节点的一致性决策组中剔除所述第一从节点。

2.根据权利要求1所述的方法，其中从所述一部分从节点（310-2，310-3，310-5）接收到的所述响应包括与所述至少一个分区有关的第一信息，并且确定所述至少一个分区包括：

基于所述第一信息来确定所述至少一个分区，所述第一信息包括以下至少一项：与子网掩码有关的第二信息以及网关地址。

3.根据权利要求1所述的方法，其中确定所述第一从节点（310-1）的所述状态包括：

响应于确定所述第一从节点（310-1）位于所述至少一个分区中，将所述第一从节点的所述状态确定为第一状态，其指示所述第一从节点（310-1）与所述多个节点（320）中超过所述预定数目的节点未隔离。

4.根据权利要求3所述的方法，其中确定所述第一从节点（310-1）的所述状态还包括：

响应于确定所述第一从节点（310-1）处于所述第一状态的第一持续时间超过第一阈值，将所述第一从节点（310-1）的所述状态确定为故障状态。

5.根据权利要求3所述的方法，其中确定所述第一从节点（310-1）的所述状态包括：

响应于确定所述第一从节点（310-1）在所述至少一个分区之外，将所述第一从节点（310-1）的所述状态确定为第二状态，其指示所述第一从节点（310-1）与所述多个节点（320）中超过所述预定数目的节点隔离。

6.根据权利要求5所述的方法，其中所述一部分从节点（310-2，310-3，310-5）包括之前处于所述故障状态的第二从节点（310-2），并且所述方法还包括：

响应于所述第二从节点（310-2）处于故障状态的第二持续时间不超过第二阈值，将所述第二从节点（310-2）的状态确定为所述第二状态。

7.根据权利要求6所述的方法，其中所述分布式***（300）还包括处于备用状态的至少一个节点（330）以用于替换所述多个节点（320）中的故障节点，并且所述方法还包括：

利用所述至少一个节点（330）来替换所述多个从节点（320）中处于所述故障状态的持续时间超过所述第二阈值的从节点。

8.根据权利要求7所述的方法，还包括：

响应于所述第二持续时间超过所述第二阈值，将所述第二从节点（310-2）的所述状态确定为所述备用状态。

9.一种电子设备（600），所述设备（600）包括：

至少一个处理单元（601）；

至少一个存储器（602，603），所述至少一个存储器（602，603）被耦合到所述至少一个处理单元（601）并且存储用于由所述至少一个处理单元（601）执行的指令，所述指令当由所述至少一个处理单元（601）执行时，使得所述设备（600）执行动作，所述动作包括：

向分布式***（300）中的多个节点（320）中的多个从节点（310-1，310-2，310-3，310-5）发送心跳消息，所述设备（600）被包括在所述多个节点（320）中的主节点（310-4）中，并且所述多个节点（310-1，310-2，310-3，310-5）被划分到一个或多个分区中；

至少基于所述一个或多个分区的相应状态，确定所述多个从节点（310-1，310-2，310-3，310-5）中的第一从节点（310-1）的状态，所述设备（600）未接收到来自所述第一从节点（310-1）的针对所述心跳消息的响应，

其中确定所述一个或多个分区的相应状态包括：

10.根据权利要求9所述的设备（600），其中从所述一部分从节点（310-2，310-3，310-5）接收到的所述响应包括与所述至少一个分区有关的第一信息，并且确定所述至少一个分区包括：

11.根据权利要求9所述的设备（600），其中确定所述第一从节点（310-1）的所述状态包括：

12.根据权利要求11所述的设备（600），其中确定所述第一从节点（310-1）的所述状态还包括：

13.根据权利要求11所述的设备（600），其中确定所述第一从节点（310-1）的所述状态包括：

14.根据权利要求13所述的设备（600），其中所述一部分从节点（310-2，310-3，310-5）包括之前处于故障状态的第二从节点（310-2），并且所述动作还包括：

响应于所述第二从节点（310-2）处于所述故障状态的第二持续时间不超过第二阈值，将所述第二从节点（310-2）的状态确定为所述第二状态。

15.根据权利要求14所述的设备（600），其中所述分布式***（300）还包括处于备用状态的至少一个节点（330）以用于替换所述多个节点（320）中的故障节点，并且所述动作还包括：

16.根据权利要求15所述的设备（600），其中所述动作还包括：

17.一种非瞬态计算机存储介质，包括存储在其上的机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1-8中的任一项所述的方法。