CN114064414A

CN114064414A - 一种高可用的集群状态监控方法及***

Info

Publication number: CN114064414A
Application number: CN202111413336.7A
Authority: CN
Inventors: 高鸣飞
Original assignee: SmartX Inc
Current assignee: SmartX Inc
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-18

Abstract

本发明实施例公开了一种高可用的集群状态监控方法和***，包括：利用投票选举机制为集群中的服务器节点分配角色，其中，角色包括用于运行监控服务的主节点和用于转发监控数据查询请求的从节点；主节点挂载来自网络文件***的数据路径，并在挂载成功后启动监控服务，将监控样本数据写入数据路径进行存储；判断集群的运行状态是否发生改变，若发生改变，则启动监控服务的生命周期管理，通过迁移主节点和监控服务使集群监控***保持高可用状态。本发明能够有效避免集群发生单点故障情况下的监控数据丢失，实现数据和监控服务的快速转移，保障多种状态下的***高可用性，资源占用少，应用前景广泛。

Description

一种高可用的集群状态监控方法及***

技术领域

本发明涉及集群状态监控技术领域，尤其涉及一种高可用的集群状态监控方法及***。

背景技术

集群状态监控***是一种将集群内各节点的各监控指标(包括性能指标、资源利用率指标、异常信息等)采集到监控***中，并根据设定的告警规则来触发告警，并提供数据查询服务的一种技术架构。具体实现方式上，一般是在集群中的“胖节点”(通常是人为指定的计算资源及存储资源充裕的节点)上启动一个监控服务实例，该服务负责采集集群中各节点的各监控指标到本机上，以本地存储的方式对外提供数据查询服务、生成告警信息。

如图1所示，示出了一种实现监控***的***架构，该***架构中的所有服务器组成一个集群，集群中的每一个服务器都可以称为节点。其中设置了监控服务，该监控服务部署在其中一个节点上(通常是人为指定的计算资源及存储资源充裕的节点)，监控***在实现时，通常在每个节点上开启exporter暴露出可被抓取的监控指标数据，由部署有监控服务的节点定时拉取集群中各节点(包括自身)暴露出的性能指标，并存储在本地磁盘中，监控服务通过检索本地文件，对外提供数据查询服务，并根据设定的告警规则发出告警信息。

现有的集群状态监控***基于单节点和本地存储，监控服务本身仅关注将获取到的数据如何进行高效的存储、查询。由于是单节点服务，将面临以下问题：

1)监控服务与数据只存储在集群的一个节点上，导致监控***面临单点故障的问题，且没有故障转移方案。这样一来，监控服务节点(即监控服务所在节点)的不可用会导致集群监控数据的丢失与对集群健康状态的检测；

2)由于监控服务的内存占用量较大、采集的监控样本数据较多，导致同时在多节点上部署监控服务会面临数据冗余与内存资源占用过多，发生集群存储资源和内存资源不足的问题；

因此，针对现有技术方案中的上述缺陷，急需设计并提供一种监控***的高可用方法及***以解决上述技术缺点。

发明内容

有鉴于此，本发明实施例提出一种高可用的集群状态监控方法及***。

本发明的一实施例提出一种高可用的集群状态监控方法，包括：

利用投票选举机制为集群中的服务器节点分配角色，其中，所述角色包括用于运行监控服务的主节点和用于转发监控数据查询请求的从节点；

所述主节点挂载来自网络文件***的数据路径，并在挂载成功后启动监控服务，将监控样本数据写入所述数据路径进行存储；

判断所述集群的运行状态是否发生改变，若发生改变，则启动监控服务的生命周期管理，通过迁移主节点和监控服务使集群监控***保持高可用状态。

示范性地，所述“所述主节点挂载来自网络文件***的数据路径，并在挂载成功后启动监控服务，将监控样本数据写入所述数据路径进行存储”包括：

所述主节点持有全局锁，并检查自身的监控服务是否正在运行；

若没有运行，所述主节点挂载来自网络文件***的数据路径，其中，所述网络文件***为NFS；

启动监控服务，将监控样本数据写入所述数据路径进行存储，并将监控实例信息和心跳信息周期性地发送至分布式数据库。

示范性地，所述全局锁有且仅有一个，“由所述主节点持有全局锁”包括：

所述主节点将自身IP信息写入分布式数据库的认证服务中以使所述主节点有资格向所述分布式数据库发送心跳信息。

示范性地，所述集群的运行状态包括正常运行状态、集群重启状态和主节点服务器故障状态。

示范性地，所述“判断所述集群的运行状态是否发生改变，若发生改变，则启动监控服务的生命周期管理”包括：

判断所述集群的运行状态是否发生重启或者主节点服务器故障；

若发生主节点服务器故障，则利用所述投票选举机制重新在集群中选出新主节点代替发生故障的原主节点，由所述新主节点启动监控服务，并更新分布式数据库中的监控实例信息和心跳信息；

若发生重启，则利用所述投票选举机制重新为集群中的服务器节点分配主、从角色，并由重新分配的主节点完成数据存储路径挂载和监控服务运行。

示范性地，所述“若发生主节点服务器故障，则利用所述投票选举机制重新在集群中选出新主节点代替发生故障的原主节点，并由所述新主节点启动监控服务，并更新分布式数据库中的监控实例信息和心跳信息”包括：

分布式数据库判断原主节点的心跳信息是否更新；

若不再更新，则所述分布式数据库删除所述原主节点的监控实例信息；

利用所述投票选举机制重新在集群中选出新主节点；

由所述新主节点持有全局锁，并判断所述分布式数据库中是否存在监控实例信息；

若不存在，则所述新主节点以网络文件***的形式挂载数据存储路径，在自身启动监控服务，并周期性更新所述分布式数据库中的监控实例信息和心跳信息。

示范性地，所述新主节点周期性判断所述分布式数据库中的监控实例信息是否属于自身，若不属于自身，则停止自身运行的监控服务和数据路径的挂载，并释放全局锁，等待下一个新主节点的接管。

示范性地，所述从节点接收所述监控数据查询请求，并转发至所述主节点，所述主节点根据所述监控数据查询请求访问所述网络文件***数据路径上的数据，并将所述数据返回。

示范性地，所述投票选举机制为Zookeeper内部选举机制。

本发明的又一实施例提出一种高可用的集群状态监控***，包括：

角色分配单元，用于利用投票选举机制为集群中的服务器节点分配角色，其中，所述角色包括用于运行监控服务的主节点和用于转发监控数据查询请求的从节点；

数据存储单元，用于使所述主节点挂载来自网络文件***的数据路径，并在挂载成功后启动监控服务，将监控样本数据写入所述数据路径进行存储；

监控服务生命周期管理单元，用于判断所述集群的运行状态是否发生改变，若发生改变，则启动监控服务的生命周期管理，通过迁移主节点和监控服务使集群监控***保持高可用状态。

本发明的又一实施例提出一种终端，包括：处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施上述的超融合***的数据分配方法。

本发明的再一实施例提出一种计算机可读存储介质，其存储有计算机程序，在所述计算机程序被执行时，实施根据上述的一种超融合***的数据分配方法。

本发明实施例提出的方法首先通过集群的主从选举机制，为集群中各节点分配角色，然后根据分配的角色，将监控服务运行在主节点上，从节点会将所有收到的请求转发至主节点，实现了资源合理分配前提下的监控数据的查询；然后，使用网络文件***存储监控数据，实现故障发生时的数据快速迁移；同时，在集群状态变化的情况下，利用监控服务的生命周期管理，实现集群故障、重启等状态下监控***依然高可用的方法。本发明能够有效避免集群发生单点故障情况下的监控数据丢失，实现数据和监控服务的快速转移，保障多种状态下的***高可用性，资源占用少，应用前景广泛。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了现有技术中监控***的***架构示意图；

图2示出了本发明实施例的一种高可用的集群状态监控方法流程图；

图3示出了本发明实施例的步骤S102方法流程图；

图4示出了本发明实施例的步骤S103方法流程图；

图5示出了本发明实施例的监控服务生命周期管理方法流程图；

图6示出了本发明实施例的一种高可用的集群状态监控***示意图。

主要元件符号说明：

10-角色分配单元；20-数据存储单元；30-监控服务生命周期管理单元。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

现有技术的集群状态监控***如图1所示，一般是在集群中的胖节点上启动一个监控服务实例，该服务负责采集集群中各节点的各监控指标到本机上，以本地存储的方式对外提供数据查询服务、生成告警信息。为克服现有技术受单点故障影响大，内存占用量大的不足，本发明实施例提出了一种高可用的集群状态监控方法及***，能够有效避免集群发生单点故障情况下的监控数据丢失，实现数据和监控服务的快速转移，保障多种状态下的***高可用性，资源占用少，应用前景广泛。

实施例1

参照图2，一种高可用的集群状态监控方法包括：

步骤S101，利用投票选举机制为集群中的服务器节点分配角色，其中，角色包括用于运行监控服务的主节点和用于转发监控数据查询请求的从节点。这里，投票选举机制可以为Zookeeper内部选举机制。从节点接收监控数据查询请求，并转发至主节点，主节点根据监控数据查询请求访问网络文件***数据路径上的数据，并将数据返回。

步骤S102，主节点挂载来自网络文件***的数据路径，并在挂载成功后启动监控服务，将监控样本数据写入所述数据路径进行存储。

步骤S103，判断集群的运行状态是否发生改变。若发生改变，则执行步骤S1031，启动监控服务的生命周期管理，通过迁移主节点和监控服务使集群监控***保持高可用状态。若未发生改变，则执行步骤S1032，保持当前主、从节点状态。这里，集群的运行状态包括正常运行状态、集群重启状态和主节点服务器故障状态。主节点迁移时将伴随着监控服务一起进行监控服务应用的迁移

具体地，本发明实施例利用集群***的主从选举机制，通过调用开源项目Zookeeper接口，使用Zookeeper内的投票选举机制为集群中各节点分配角色(主节点、从节点)，监控服务会运行在主节点上，并随着主节点的变更而迁移，从节点会将收到的监控数据查询请求转发至主节点，从而实现了资源合理分配前提下的监控数据的查询。

本发明实施例步骤S102中提供的监控数据存储方式，相较于现有方案，本方案通过使用高性能的网络文件***(NFS)，实现故障发生时的数据快速迁移。使用上述高性能的网络文件***，可以将数据按需挂载到相应的主节点上，主节点在尝试拉起监控服务之前，会尝试挂载来自NFS的数据路径，挂载成功后再启动监控服务。监控服务会将拉取到的监控样本数据写入该路径中，当主节点发生故障或主节点变更时，该数据路径会自动从NFS上取消挂载，并随着新的主节点监控服务的启动而挂载到新的主节点上，从而在集群发生单点故障的情况依旧能够保护好相关的历史监控数据。

主节点将负责管理监控服务的生命周期，其负责在自身节点上启动监控服务，并定时检测监控服务的健康状态。当监控服务状态异常时，主节点会不断尝试重复拉起监控服务，直到监控服务恢复正常状态。在监控服务运行时，主节点也会周期性探测监控服务的运行状态，并将心跳信息存入分布式数据库中。

下面将对各步骤进行更为详尽的阐述。

具体地，如图3所示，步骤S102包括：

步骤S201，主节点持有全局锁，并检查自身的监控服务是否正在运行。这里，主节点将自身IP信息写入分布式数据库的认证服务中以使所述主节点有资格向所述分布式数据库发送心跳信息。并且，全局锁只有持有者可以释放，非持有节点不得释放或抢占该全局锁。

步骤S202，若没有运行，主节点挂载来自网络文件***的数据路径，其中，网络文件***为NFS。

步骤S203，启动监控服务，将监控样本数据写入数据路径进行存储，并将监控实例信息和心跳信息周期性地发送至分布式数据库。

具体地，如图4所示，步骤S103包括：

步骤S301，判断集群的运行状态是否发生重启或主节点服务器故障。

步骤S3021，若发生主节点服务器故障，则利用投票选举机制重新在集群中选出新主节点代替发生故障的原主节点，由新主节点启动监控服务，并更新分布式数据库中的监控实例信息和心跳信息。这里，心跳信息反映了监控服务实例运行在哪个host上、运行状态是否健康(如果没有在运行则停止更新心跳信息)。

步骤S3022，若发生重启，则利用投票选举机制重新为集群中的服务器节点分配主、从角色，并由重新分配的主节点完成数据存储路径挂载和监控服务运行。这里，主要是由分布式数据库来判断原主节点的心跳信息是否更新。若不再更新，则分布式数据库删除所述原主节点的监控实例信息，利用投票选举机制重新在集群中选出新主节点，由新主节点持有全局锁，并判断分布式数据库中是否存在监控实例信息。由于分布式数据库已删除所述原主节点的监控实例信息，因此一般分布式数据库中的监控实例信息将不存在，此时新主节点以网络文件***的形式挂载数据存储路径，之后在自身启动监控服务，并周期性更新分布式数据库中的监控实例信息和心跳信息。

本发明实施例以集群中的主节点发生故障为例，对上述步骤进行进一步阐述。在发生主节点故障后，主从选举机制会通过Zookeeper接口保证在集群中选出新的主节点，此时监控服务应发生故障转移。由于原主节点已经故障，分布式数据库中监控服务的实例信息持有者(原主节点)将不再更新心跳信息，超过2分钟后该实例信息被分布式数据库自动删除，这样可以防止因原主节点宕机导致的死锁问题。新主节点会去读取数据库中的信息，当检测发现分布式数据库中不存在监控服务实例信息，代表当前集群中没运行监控服务，则将在自身启动监控服务，并更新分布式数据库中监控服务的实例信息和心跳信息，以此实现主节点转移时的监控服务转移。

考虑有可能存在其他若干种可能导致主节点变更，例如人工变更主节点等，若主节点发现分布式数据库中的实例信息不属于自己，将会立即停止自身的监控服务，等待新的主节点接管和更新。节点更新后，监控数据将以网络文件***(NFS)的形式重新挂载到新主节点上，以实现监控数据的快速转移。

关于步骤S103的具体实现如图5所示。

首先，每个主、从节点会定期(间隔10秒钟)执行该生命周期监控循环，在循环中，每个节点会首先尝试获取分布式数据库中的监控服务状态实例，当监控服务状态实例不存在时，会尝试向分布式数据库中***监控实例信息，该信息主要包括4部分：(1)当前运行监控服务实例的节点host信息，也就是持有全局锁的节点，创建时默认为空；(2)全局锁创建的时间；(3)全局锁心跳时间，当该值超过2分钟未更新时，数据库会将其删除；(4)上次启动监控实例的时间。

然后，当监控服务状态实例在分布式数据库中存在后，分布式数据库会定期检查心跳信息是否超过2分钟没有更新，如果没有更新的话，该条监控服务实例就会被数据库删除。当监控服务状态实例在分布式数据库中存在后，节点会通过调用Zookeeper接口检查当前节点是否为主节点。如果是主节点的话，会尝试持有全局锁(也就是将running_host写为自身ip信息)，如果持有者不是主节点的话，则退出循环等待下一次执行。如果持有者为主节点的话，则主节点会检查自身的监控服务是否正在运行，如果没有在运行则会尝试挂载NFS上的监控数据路径，并启动监控服务实例，最后更新心跳信息。

若当前节点不是主节点，则会检查自身是否在运行监控服务，如果正在运行的话，则会停止自身监控服务实例并停止挂载NFS数据路径；然后会检查实例持有者是否为自身，如果是自身的话，代表发生了主节点变更，且当前节点为旧主节点，所以需要释放该全局锁，释放方式是将runing_host置空，这样新的主节点就可以持有该全局锁了，持有方式是主节点将running_host写为自身的ip信息。因此，只有ip为running_host中对应ip的节点才能修改数据库中的心跳信息，其他ip是无法修改的。新主节点周期性判断所述分布式数据库中的监控实例信息是否属于自身，若不属于自身，则停止自身运行的监控服务和数据路径的挂载，并等待全局锁的释放(由原主节点释放，或超过2分钟未更新心跳的全局锁也会被分布式数据库释放)。需要说明的是，通常可以利用分布式数据库中的心跳信息作为全局锁，只有持有全局锁的节点才能运行监控服务。

通过上述方式，当集群中发生故障转移时，每个节点会通过监控服务的生命周期监控机制来将监控服务安全快速地转移到新的主节点上，监控数据通过NFS动态挂载数据路径的方式，实现了监控***的高可用和快速故障转移。

本发明实施例首先通过集群的主从选举机制，为集群中各节点分配角色，然后根据分配的角色，将监控服务运行在主节点上，从节点会将所有收到的请求转发至主节点；主节点将监控服务的实例信息与心跳信息存储至分布式数据库并保持定时同步，同时对外提供监控数据查询服务；在监控服务启动前从网络文件***上挂载数据存储路径，以达到数据快速转移的目的；最后，当集群中主节点发生故障时，集群会选取新的主节点，并更新数据库中监控服务的实例信息和心跳信息，在新的主节点上启动监控服务，并能够从网络文件***中挂载监控数据，从而达到集群监控***的高可用目的，能够在避免启动多监控服务实例、避免数据冗余的情况下，提高集群监控***的可用性和质量。

实施例2

如图6所示，一种高可用的集群状态监控***包括：

角色分配单元10，用于利用投票选举机制为集群中的服务器节点分配角色，其中，所述角色包括用于运行监控服务的主节点和用于转发监控数据查询请求的从节点；

数据存储单元20，用于使所述主节点挂载来自网络文件***的数据路径，并在挂载成功后启动监控服务，将监控样本数据写入所述数据路径进行存储；

监控服务生命周期管理单元30，用于判断所述集群的运行状态是否发生改变，若发生改变，则启动监控服务的生命周期管理，通过迁移主节点和监控服务使集群监控***保持高可用状态。

可以理解，上述的高可用的集群状态监控***对应于实施例1的高可用的集群状态监控方法。实施例1中的任何可选项也适用于本实施例，这里不再详述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种高可用的集群状态监控方法，其特征在于，包括：

2.根据权利要求1所述的高可用的集群状态监控方法，其特征在于，所述“所述主节点挂载来自网络文件***的数据路径，并在挂载成功后启动监控服务，将监控样本数据写入所述数据路径进行存储”包括：

3.根据权利要求2所述的高可用的集群状态监控方法，其特征在于，所述全局锁有且仅有一个，“由所述主节点持有全局锁”包括：

4.根据权利要求1所述的高可用的集群状态监控方法，其特征在于，所述集群的运行状态包括正常运行状态、集群重启状态和主节点服务器故障状态。

5.根据权利要求3所述的高可用的集群状态监控方法，其特征在于，所述“判断所述集群的运行状态是否发生改变，若发生改变，则启动监控服务的生命周期管理”包括：

判断所述集群的运行状态是否发生重启或主节点服务器故障；

6.根据权利要求4所述的高可用的集群状态监控方法，其特征在于，所述“若发生主节点服务器故障，则利用所述投票选举机制重新在集群中选出新主节点代替发生故障的原主节点，并由所述新主节点启动监控服务，并更新分布式数据库中的监控实例信息和心跳信息”包括：

分布式数据库判断原主节点的心跳信息是否更新；

利用所述投票选举机制重新在集群中选出新主节点；

7.根据权利要求5所述的高可用的集群状态监控方法，其特征在于，所述新主节点周期性判断所述分布式数据库中的监控实例信息是否属于自身，若不属于自身，则停止自身运行的监控服务和数据路径的挂载，并等待全局锁的释放。

8.根据权利要求1所述的高可用的集群状态监控方法，其特征在于，所述从节点接收所述监控数据查询请求，并转发至所述主节点，所述主节点根据所述监控数据查询请求访问所述网络文件***数据路径上的数据，并将所述数据返回。

9.根据权利要求1所述的高可用的集群状态监控方法，其特征在于，所述投票选举机制为Zookeeper内部选举机制。

10.一种高可用的集群状态监控***，其特征在于，包括：