CN110545197B

CN110545197B - 节点状态监控方法及装置

Info

Publication number: CN110545197B
Application number: CN201810532541.7A
Authority: CN
Inventors: 胡君怡
Original assignee: Hangzhou Hikvision System Technology Co Ltd
Current assignee: Hangzhou Hikvision System Technology Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2022-09-09
Anticipated expiration: 2038-05-29
Also published as: CN110545197A

Abstract

本发明公开了一种节点状态监控方法及装置，属于计算机应用领域。所述方法包括：当第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定第二监控节点发生故障，所述第二监控节点为所述至少两个监控节点中对至少一个服务节点进行状态监控的节点；第一监控节点获取所述至少一个服务节点的状态；所述第一监控节点更新状态记录表中所述至少一个服务节点的状态。本发明通过配置至少两个监控节点，如果当前提供状态监控服务的监控节点发送故障，则该至少两个监控节点中的另一监控节点及时接管该监控服务，对至少一个服务节点的状态进行监控，避免了单个监控节点发生单点故障导致无法提供监控服务的问题，提高了状态监控的稳定性。

Description

节点状态监控方法及装置

技术领域

本发明涉及计算机应用领域，尤其涉及一种节点状态监控方法及装置。

背景技术

云存储***是指将网络中大量不同的存储设备集合起来协同工作，共同对外提供数据存储和业务访问的***。云存储***中可以包括多个服务节点，这些服务节点的状态对整体服务质量有着决定性影响，如何对这些服务节点的状态进行监控显得尤为重要。

目前，***通过一个监控节点对多个服务节点的状态进行监控，该多个服务节点以预定周期向监控节点发送状态信息，监控节点根据接收到的状态信息，更新这些服务节点的状态。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

上述方法通过一个监控节点对多个服务节点进行状态监控，监控节点对应的服务器一旦发生宕机，即发生单点故障，无法对多个服务节点进行状态监控，状态监控的稳定差。

发明内容

本发明实施例提供了一种节点状态监控方法及装置，可以解决相关技术状态监控的稳定差的问题。所述技术方案如下：

第一方面，提供了一种节点状态监控方法，应用于至少两个监控节点中的第一监控节点，所述方法包括：

当所述第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定所述第二监控节点发生故障，所述第二监控节点为所述至少两个监控节点中对至少一个服务节点进行状态监控的节点；

所述第一监控节点获取所述至少一个服务节点的状态；

所述第一监控节点更新状态记录表中所述至少一个服务节点的状态，所述状态记录表记录在所述至少两个监控节点对应的共享数据库中；

其中，所述至少两个监控节点对外提供同一个虚拟IP地址，使得所述至少两个监控节点中正在进行状态监控的节点，从所述虚拟IP地址获取到所述至少一个服务节点发送的状态信息。

在一种可能实现方式中，所述第一监控节点获取所述至少一个服务节点的状态，包括：

所述第一监控节点获取第一服务节点在第二周期内发送的心跳信息，所述心跳信息用于指示所述第一服务节点的服务状态为在线状态，所述第一服务节点为所述至少一个服务节点中的任一服务节点，所述在线状态表示可提供服务；

所述第一监控节点获取所述第一服务节点在第三周期内发送的上报信息，所述上报信息用于指示所述第一服务节点的各项运行状态，所述第二周期小于所述第三周期。

在一种可能实现方式中，所述方法还包括：

当所述第一监控节点在下一个第二周期内未获取到所述第一服务节点发送的心跳信息时，将所述第一服务节点的服务状态从在线状态修改为不在线状态，所述不在线状态表示不可提供服务。

在一种可能实现方式中，所述将所述第一服务节点的服务状态从在线状态修改为不在线状态之后，所述方法还包括：

当所述第一监控节点获取到所述第一服务节点发送的上报信息时，将所述第一服务节点的服务状态从不在线状态修改为在线状态；或，

当所述第一监控节点获取到所述第一服务节点发送的心跳信息时，将所述第一服务节点的服务状态从不在线状态修改为在线状态；或，

当所述第一监控节点获取到所述第一服务节点发送的登录请求时，将所述第一服务节点的服务状态从不在线状态修改为在线状态。

在一种可能实现方式中，所述方法还包括：

当所述第一监控节点确定所述至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，所述运维节点用于处理所述告警信息。

在一种可能实现方式中，所述当所述第一监控节点确定所述至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，包括：

当所述第一监控节点确定第二服务节点的服务状态从在线状态切换为不在线状态时，向所述运维节点发送所述第二服务节点的下线告警信息，所述第二服务节点为所述至少一个服务节点中的任一服务节点；或，

当所述第一监控节点确定所述第二服务节点的服务状态从不在线状态切换为在线状态时，向所述运维节点发送所述第二服务节点的上线告警信息；或，

当所述第一监控节点确定所述第二服务节点的任一项运行状态的状态值满足状态告警条件时，向所述运维节点发送所述第二服务节点的状态告警信息；或，

当所述第一监控节点确定所述至少一个服务节点的整体剩余存储容量占整体总存储容量的百分比满足容量告警条件时，向运维节点发送集群容量告警信息。

在一种可能实现方式中，所述方法还包括：

当所述第一监控节点接收到登录请求时，对所述登录请求对应的服务节点进行状态监控，将所述登录请求对应的服务节点添加到所述至少一个服务节点对应的集群中；

当所述第一监控节点接收到登出请求时，停止对所述登出请求对应的服务节点的状态进行监控，将所述登出请求对应的服务节点从所述至少一个服务节点对应的集群中删除。

在一种可能实现方式中，所述停止对所述登出请求对应的服务节点的状态进行监控，包括：

所述第一监控节点从状态记录表中，删除所述登出请求对应的服务节点的服务状态和运行状态。

第二方面，提供了一种节点状态监控装置，应用于至少两个监控节点中的第一监控节点，所述装置包括：

确定模块，用于当所述第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定所述第二监控节点发生故障，所述第二监控节点为所述至少两个监控节点中对至少一个服务节点进行状态监控的节点；

获取模块，用于所述第一监控节点获取所述至少一个服务节点的状态；

更新模块，用于所述第一监控节点更新状态记录表中所述至少一个服务节点的状态，所述状态记录表记录在所述至少两个监控节点对应的共享数据库中；

在一种可能实现方式中，所述获取模块用于：

在一种可能实现方式中，所述更新模块用于当所述第一监控节点在下一个第二周期内未获取到所述第一服务节点发送的心跳信息时，将所述第一服务节点的服务状态从在线状态修改为不在线状态，所述不在线状态表示不可提供服务。

在一种可能实现方式中，所述更新模块用于当所述第一监控节点获取到所述第一服务节点发送的上报信息时，将所述第一服务节点的服务状态从不在线状态修改为在线状态；或，

所述更新模块用于当所述第一监控节点获取到所述第一服务节点发送的心跳信息时，将所述第一服务节点的服务状态从不在线状态修改为在线状态；或，

所述更新模块用于当所述第一监控节点获取到所述第一服务节点发送的登录请求时，将所述第一服务节点的服务状态从不在线状态修改为在线状态。

在一种可能实现方式中，所述装置还包括：

发送模块，用于当所述第一监控节点确定所述至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，所述运维节点用于处理所述告警信息。

在一种可能实现方式中，所述发送模块用于当所述第一监控节点确定第二服务节点的服务状态从在线状态切换为不在线状态时，向所述运维节点发送所述第二服务节点的下线告警信息，所述第二服务节点为所述至少一个服务节点中的任一服务节点；或，

所述发送模块用于当所述第一监控节点确定所述第二服务节点的服务状态从不在线状态切换为在线状态时，向所述运维节点发送所述第二服务节点的上线告警信息；或，

所述发送模块用于当所述第一监控节点确定所述第二服务节点的任一项运行状态的状态值满足状态告警条件时，向所述运维节点发送所述第二服务节点的状态告警信息；或，

所述发送模块用于当所述第一监控节点确定所述至少一个服务节点的整体剩余存储容量占整体总存储容量的百分比满足容量告警条件时，向运维节点发送集群容量告警信息。

在一种可能实现方式中，所述装置还包括：

添加模块，用于当所述第一监控节点接收到登录请求时，对所述登录请求对应的服务节点进行状态监控，将所述登录请求对应的服务节点添加到所述至少一个服务节点对应的集群中；

删除模块，用于当所述第一监控节点接收到登出请求时，停止对所述登出请求对应的服务节点的状态进行监控，将所述登出请求对应的服务节点从所述至少一个服务节点对应的集群中删除。

在一种可能实现方式中，所述删除模块用于所述第一监控节点从状态记录表中，删除所述登出请求对应的服务节点的服务状态和运行状态。

第三方面，提供了一种节点状态监控***，其特征在于，所述***包括至少两个监控节点和至少一个服务节点，所述至少两个监控节点包括第一监控节点和第二监控节点，

所述第一监控节点用于当在第一周期内未接收到第二监控节点发送的心跳信息时，确定所述第二监控节点发生故障，所述第二监控节点为所述至少两个监控节点中对至少一个服务节点进行状态监控的节点；

所述第一监控节点还用于获取所述至少一个服务节点的状态；

所述第一监控节点还用于所述第一监控节点更新状态记录表中所述至少一个服务节点的状态，所述状态记录表记录在所述至少两个监控节点对应的共享数据库中；

第四方面，提供了一种计算机设备，包括处理器和存储器；所述存储器，用于存放至少一条指令；所述处理器，用于执行所述存储器上所存放的至少一条指令，实现第一方面任一项实现方式所述的方法步骤。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有至少一条指令，所述至少一条指令被处理器执行时实现第一方面任一项实现方式所述的方法步骤。

本发明实施例提供的技术方案带来的有益效果是：

通过配置至少两个监控节点，如果当前提供状态监控服务的监控节点发送故障，则该至少两个监控节点中的另一监控节点及时接管该监控服务，对至少一个服务节点的状态进行监控，避免了单个监控节点发生单点故障导致无法提供监控服务的问题，提高了状态监控的稳定性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种节点状态监控***的示意图；

图2是本发明实施例提供的一种节点状态监控方法的流程图；

图3是本发明实施例提供的一种节点状态监控方法的流程图；

图4是本发明实施例提供的一种节点状态监控装置的结构示意图；

图5是本发明实施例提供的一种节点状态监控装置的结构示意图；

图6是本发明实施例提供的一种节点状态监控装置的结构示意图；

图7本发明实施例提供的一种计算机设备700结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种节点状态监控***的示意图，该节点状态监控***可以包括至少两个监控节点(如第一监控节点和第二监控节点)和至少一个服务节点(如服务节点1、第二服务节点2、……、服务节点N)，还可以包括客户端节点和运维节点。

其中，至少两个监控节点用于对至少一个服务节点状态进行监控，并为客户端节点提供对外服务，如查询一个或至少一个服务节点的状态的服务。如果只有第一监控节点和第二监控节点两个监控节点，则这两个监控节点可以组成一个监控节点组，如果有两个以上的监控节点，则这些监控节点可以组成一个监控节点集群。该至少两个监控节点之间通过共享数据库同步信息，至少两个监控节点对外提供一个虚拟IP(Internet Protocol，网络协议)地址，同一时间只有一个监控节点对外提供服务，如果该监控节点发生宕机，则其他监控节点立即接管服务，也即是，替代当前宕机的监控节点来对外提供服务。

至少一个服务节点用于提供数据的存储和提取服务，当然，还可以提供数据的分发服务。客户端节点用于通过向监控节点发送查询请求的方式，来获取一个或至少一个服务节点的状态。运维节点用于接收监控节点发送的告警信息，并将告警信息提供给运维人员，使得运维人员可以对告警信息进行处理。

需要说明的是，上述各个监控节点、服务节点、运维节点和客户端节点可以对应各个单独的计算机设备，也可以对应同一计算机设备，如上述各个节点可以是运行于同一计算机设备上的各个虚拟机。本发明实施例对各个节点本身的物理实现方式不做限定，只要能实现这些节点的功能即可。

图2是本发明实施例提供的一种节点状态监控方法的流程图。该方法应用于至少两个监控节点中的第一监控节点，参见图2，该方法包括：

201、当该第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定该第二监控节点发生故障，该第二监控节点为该至少两个监控节点中对至少一个服务节点进行状态监控的节点。

202、该第一监控节点获取该至少一个服务节点的状态。

203、该第一监控节点更新状态记录表中该至少一个服务节点的状态，该状态记录表记录在该至少两个监控节点对应的共享数据库中。

其中，该至少两个监控节点对外提供同一个虚拟IP地址，使得该至少两个监控节点中正在进行状态监控的节点，从该虚拟IP地址获取到该至少一个服务节点发送的状态信息。

本发明实施例提供的方法，通过配置至少两个监控节点，如果当前提供状态监控服务的监控节点发送故障，则该至少两个监控节点中的另一监控节点及时接管该监控服务，对至少一个服务节点的状态进行监控，避免了单个监控节点发生单点故障导致无法提供监控服务的问题，提高了状态监控的稳定性。

在一种可能实现方式中，该第一监控节点获取该至少一个服务节点的状态，包括：

该第一监控节点获取第一服务节点在第二周期内发送的心跳信息，该心跳信息用于指示该第一服务节点的服务状态为在线状态，该第一服务节点为该至少一个服务节点中的任一服务节点，该在线状态表示可提供服务；

该第一监控节点获取该第一服务节点在第三周期内发送的上报信息，该上报信息用于指示该第一服务节点的各项运行状态，该第二周期小于该第三周期。

在一种可能实现方式中，该方法还包括：

当该第一监控节点在下一个第二周期内未获取到该第一服务节点发送的心跳信息时，将该第一服务节点的服务状态从在线状态修改为不在线状态，该不在线状态表示不可提供服务。

在一种可能实现方式中，该将该第一服务节点的服务状态从在线状态修改为不在线状态之后，该方法还包括：

当该第一监控节点获取到该第一服务节点发送的上报信息时，将该第一服务节点的服务状态从不在线状态修改为在线状态；或，

当该第一监控节点获取到该第一服务节点发送的心跳信息时，将该第一服务节点的服务状态从不在线状态修改为在线状态；或，

当该第一监控节点获取到该第一服务节点发送的登录请求时，将该第一服务节点的服务状态从不在线状态修改为在线状态。

在一种可能实现方式中，该方法还包括：

当该第一监控节点确定该至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，该运维节点用于处理该告警信息。

在一种可能实现方式中，该当该第一监控节点确定该至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，包括：

当该第一监控节点确定第二服务节点的服务状态从在线状态切换为不在线状态时，向该运维节点发送该第二服务节点的下线告警信息，该第二服务节点为该至少一个服务节点中的任一服务节点；或，

当该第一监控节点确定该第二服务节点的服务状态从不在线状态切换为在线状态时，向该运维节点发送该第二服务节点的上线告警信息；或，

当该第一监控节点确定该第二服务节点的任一项运行状态的状态值满足状态告警条件时，向该运维节点发送该第二服务节点的状态告警信息；或，

当该第一监控节点确定该至少一个服务节点的整体剩余存储容量占整体总存储容量的百分比满足容量告警条件时，向运维节点发送集群容量告警信息。

在一种可能实现方式中，该方法还包括：

当该第一监控节点接收到登录请求时，对该登录请求对应的服务节点进行状态监控，将该登录请求对应的服务节点添加到该至少一个服务节点对应的集群中；

当该第一监控节点接收到登出请求时，停止对该登出请求对应的服务节点的状态进行监控，将该登出请求对应的服务节点从该至少一个服务节点对应的集群中删除。

在一种可能实现方式中，该停止对该登出请求对应的服务节点的状态进行监控，包括：

该第一监控节点从状态记录表中，删除该登出请求对应的服务节点的服务状态和运行状态。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图3是本发明实施例提供的一种节点状态监控方法的流程图。参见图3，该方法包括：

301、当该第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定该第二监控节点发生故障，该第二监控节点为该至少两个监控节点中对至少一个服务节点进行状态监控的节点。

本发明实施例中，对于该至少两个服务节点中的任一服务节点，如第一服务节点，当该第一服务节点启动时，该第一服务节点可以读取配置项，该配置项中记录了包括该至少两个监控节点的虚拟IP地址和端口信息(如端口号)。进而，该第一服务节点可以根据该虚拟IP地址和端口信息，自动登录到当前正在对外提供服务的监控节点，该监控节点对外提供的服务包括对至少一个服务节点进行状态监控。

以当前处于服务状态的监控节点为第二监控节点为例，该第一服务节点可以根据该虚拟IP地址，向该第二监控节点发送登录请求，该登录请求中可以携带该服务节点的ID(Identify，身份标识)、监控节点的虚拟IP地址和端口信息。当接收到该登录请求时，该第二监控节点可以对该第一服务节点的ID进行记录。该第一服务节点的ID可以作为该第一监控节点用于区分不同服务节点的标识信息。该第一服务节点的ID用于唯一标识该服务节点，该第一服务节点的ID可以是该第一服务节点所在服务器的硬件ID标识，也可以是该第一服务节点的IP地址和端口信息。例如，第二监控节点可以建立用于记录至少一个服务节点的状态的状态记录表，该状态记录表的主键为服务节点的ID，也即是，用每个服务节点的ID来唯一标识状态记录中每个服务节点的状态。该状态记录表可以记录在该至少两个监控节点对应的共享数据库中，该至少两个监控节点可以通过该共享数据库实现状态记录表的共享。

在一种可能实现方式中，该至少一个服务节点的状态包括服务状态和运行状态，该服务状态用于指示该至少一个服务节点是否可提供服务，该运行状态用于指示该至少一个服务节点的运行情况。其中，该服务状态可以包括在线状态和不在线状态，该在线状态表示可提供服务，该不在线状态表示不可提供服务。该运行状态可以包括CPU占用百分比、内存占用百分比、网络IO(Input Out，进口出口)百分比、节点总存储容量和节点剩余存储容量中至少一项。其中，CPU占用百分比是指CPU占用量占总CPU的百分比，内存占用百分比是指内存占用量占总内存的百分比，网络IO百分比是指出口流量占进口流量的百分比。通过监控服务节点的服务状态，可以得知服务节点的在线情况，从而确定该服务节点是否可以对外提供存储服务；通过监控服务节点的运行状态，可以得知服务节点的运行情况，从而保证服务节点可以良好的运行。

相应地，该第二监控节点可以在状态记录表中记录该第一服务节点的ID，除了记录该第一服务节点的ID以外，该第二监控节点还可以在状态记录表中该第一服务节点的ID对应的位置，将该第一服务节点的服务状态记录为在线状态。

需要说明的是，第一服务节点在登录第二监控节点后，第二监控节点在接收到第一服务节点的登录请求后，可以对该第一服务节点执行加入集群操作，将该第一服务节点添加到该第二监控节点对应集群中，也即是，将该第一服务节点的存储容量计入集群的节点总存储容量中，使得第一服务节点的存储容量可以被该集群所使用，从而对外提供存储服务。

本发明实施例中，在第二监控节点对至少一个服务节点进行状态监控的过程中，第二监控节点会向第一监控节点发送心跳信息，使得第一监控节点根据该心跳信息得知该第二监控节点处于在线状态，也即是，第二监控节点正在对外提供服务，如对至少一个服务节点进行状态监控。其中，第二监控节点向第一监控节点发送心跳信息的周期为第一周期。而如果第二监控节点发生故障，如第二监控节点宕机，则第二监控节点不会向第一监控节点发送心跳信息，导致第一监控节点不会接收到第二监控节点的心跳信息。因此，如果第一监控节点在一个第一周期内没有接收到第二监控节点发送的心跳信息时，第一监控节点可以确定第二监控节点发送故障。其中，心跳信息可以是一条预先设定好读取规则的二进制信息。

需要说明的是，该第一监控节点可以是至少两个监控节点中，除第二监控节点以外的任一监控节点。如果***中仅配置有两个监控节点，则该第一监控节点是另一监控节点。如果***中仅配置有两个以上的监控节点，则该第一监控节点可以是***按照预设接管策略选择的监控节点，例如，该预设接管策略可以是随机选择的策略，也可以是性能优先的策略，还可以是按照预设顺序选择的策略，本发明实施例对此不做限定。

302、该第一监控节点获取该至少一个服务节点的状态。

本发明实施例中，包括该第一监控节点和第二监控节点的至少两个监控节点对外提供同一个虚拟IP地址，使得该至少两个监控节点中正在对至少一个服务节点进行状态监控的节点，从该虚拟IP地址获取到该至少一个服务节点发送的状态信息。例如，当第二监控节点对该至少一个服务节点进行状态监控时，该第二监控节点可以获取到该至少一个服务节点的状态，当第二监控节点宕机后，由第一监控节点对该至少一个服务节点的状态进行监控，相应地，该第一监控节点可以从该虚拟IP地址获取该至少一个服务节点的状态。

在一种可能实现方式中，该第一监控节点获取该至少一个服务节点的状态，包括：该第一监控节点获取第一服务节点在第二周期内发送的心跳信息，该心跳信息用于指示该第一服务节点的服务状态为在线状态，该第一服务节点为该至少一个服务节点中的任一服务节点；该第一监控节点获取该第一服务节点在第三周期内发送的上报信息，该上报信息用于指示该第一服务节点的各项运行状态。考虑到服务节点在短时间段内的运行状态一般不会发生太大变化，如果过于频繁的上报运行状态，只会增加监控节点的压力，而服务节点的服务状态一旦发生改变，则会对整个集群对外提供存储服务的能力造成很大的影响，相比于运行状态，第一监控节点需要更及时的获知服务节点的服务状态，因此，该第二周期可以小于该第三周期。

至少一个服务节点中的每一个服务节点均设置有两个周期，一个是发送心跳信息的周期，如第二周期，另一个是发送上报信息的周期，如第三周期。其中，第二周期可以根据是否需要及时更新服务节点的服务状态进行设置，对服务状态及时更新的需求越大，第二周期越大，该第二周期一般可以设置为2-5s。不同服务节点的第二周期可以相同，服务节点侧和监控节点侧均可以存储该第二周期。第三周期可以根据服务节点的运行状态需要更新的频率以及监控节点的负载能力进行设置，运行状态需要更新的频率越大、监控节点的负载能力越大，则该第三周期越大，该第三周期一般设置为10s-1min。不同服务节点的第三周期可以不同，各个服务节点可以采用各自的第三周期向监控节点发送上报信息，从而实现运行状态的上报。

相应地，登录成功的至少一个服务节点中的每一个服务节点，如第一服务节点，可以采用第二周期为发送心跳信息的周期，每到达一个第二周期，则向第一监控节点发送心跳信息。例如，第一服务节点可以向监控节点对外提供的虚拟IP地址发生该心跳信息，使得第一监控节点可以从该虚拟IP地址获取到该心跳信息，从而得知该第一服务节点的服务状态为在线状态。在一种可能实现方式中，当该第一监控节点在下一个第二周期内未获取到该第一服务节点发送的心跳信息时，将该第一服务节点的服务状态从在线状态修改为不在线状态。由于第一服务节点向第一监控节点发送心跳信息的周期为第二周期，如果第一服务节点发送故障，如第一服务节点宕机，则该第一服务节点不会向第一监控节点发送心跳信息，导致第一监控节点不会接收到该服务节点的心跳信息。因此，如果第一监控节点在一个第一周期内没有接收到第一服务节点发送的心跳信息时，第一监控节点可以确定第一服务节点发送故障，并及时将状态记录表中该第一服务节点的服务状态修改为不在线状态，直到该第一监控节点再次获知该第一服务节点恢复在线状态时，将状态记录表中该第一服务节点的服务状态修改为在线状态。

例如，当该第一监控节点获取到该第一服务节点发送的上报信息时，将该第一服务节点的服务状态从不在线状态修改为在线状态；或，当该第一监控节点获取到该第一服务节点发送的心跳信息时，将该第一服务节点的服务状态从不在线状态修改为在线状态；或，当该第一监控节点获取到该第一服务节点发送的登录请求时，将该第一服务节点的服务状态从不在线状态修改为在线状态。通过心跳信息的上报，使得监控节点可以得知并更新服务节点的服务状态，保证了服务状态更新的及时性。

除了心跳信息的上报，第一服务节点还可以采用第三周期为发送上报信息的周期，每达到一个第三周期，则向第一监控节点发送上报信息。例如，第一服务节点可以向监控节点对外提供的虚拟IP地址发生该上报信息，使得第一监控节点可以从该虚拟IP地址获取到该上报信息，从而得知该第一服务节点的运行状态，并根据获取到的该第一服务节点的上报信息，及时更新状态记录表中该第一服务节点的运行状态。该上报信息可以由第一服务节点根据其当前的运行状态自行生成，本发明实施例对该上报信息的具体生成方式不做限定。

通过运行状态的上报，使得监控节点可以得知服务节点当前的运行情况，通过增加一条心跳链路，使得第一监控节点可以根据该心跳链路及时感知服务节点在线状态。当服务节点发生故障导致宕机时，第一监控节点也能迅速判断服务节点的服务状态，同时不影响运行状态上报的周期。

303、该第一监控节点更新状态记录表中该至少一个服务节点的状态，该状态记录表记录在该至少两个监控节点对应的共享数据库中。

本发明实施例中，第一监控节点在获取到该至少一个服务节点中任一服务节点的状态时，可以根据获取到的该服务节点的状态更新状态记录表。例如，当第一监控节点获取到第一服务节点的心跳信息时，可以确认状态记录表中该第一服务节点的服务状态，如果服务状态为在线状态，则可以不进行修改，如果服务状态为不在线状态，则可以将该第一服务节点的服务状态从不在线状态修改为在线状态。当第一监控节点获取到第一服务节点的上报信息时，可以根据获取到的上报信息，更新状态记录表中该第一服务节点的各项运行状态。

上述步骤301至步骤303是当第二监控节点发生故障时，第一监控节点及时接管对至少一个服务节点的监控服务的过程，这种监控节点的高可用模式避免了监控节点发生单点故障时，***无法对至少一个服务节点进行状态监控的问题，提高了状态监控的稳定性。

需要说明的是，第一监控节点还可以对外提供查询服务，例如，客户端节点可以向第一监控节点发送查询请求，该查询请求用于查询一个或至少一个服务节点的状态。当第一监控节点接收到该查询请求时，可以从状态记录表中获取该一个或至少一个服务节点的状态，并将这些状态以查询响应的方式反馈给客户端节点。

304、当该第一监控节点确定该至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，该运维节点用于处理该告警信息。

本发明实施例中，至少一个服务节点和至少两个监控节点所在集群还可以配置有运维节点，该运维节点从监控节点获取服务节点的告警信息，并提供给运维人员，使得运维人员可以及时掌握服务节点的状态，从而确定是否需要对服务节点进行检修。相应地，第一监控节点可以在至少一个服务节点中任一服务节点的状态满足预设条件时，向运维节点发出告警。

在一种可能实现方式中，以第二服务节点为例，第二服务节点为该至少一个服务节点中的任一服务节点，第一监控节点向运维节点发送告警信息可以包括以下几种情况：

第一种情况、当该第一监控节点确定第二服务节点的服务状态从在线状态切换为不在线状态时，向该运维节点发送该第二服务节点的下线告警信息。例如，该下线告警信息中可以包括该第二服务节点的ID以及该第二节点当前的服务状态(不在线状态)。

第二种情况、当该第一监控节点确定该第二服务节点的服务状态从不在线状态切换为在线状态时，向该运维节点发送该第二服务节点的上线告警信息。例如，该下线告警信息中可以包括该第二服务节点的ID以及该第二节点当前的服务状态(在线状态)。

上述两种情况是对第二服务节点的服务状态进行告警，通过在第二服务节点的服务状态发生变化时向运维节点进行告警，使得运维人员可以得知该第二服务节点当前是处于在线状态还是不在线状态。

第三种情况、当该第一监控节点确定该第二服务节点的任一项运行状态的状态值满足状态告警条件时，向该运维节点发送该第二服务节点的状态告警信息。

在一种可能实现方式中，第一监控节点可以在每个检测周期内，可以将该第二服务节点的每项运行状态的状态值与阈值列表进行对比，该阈值列表包括该每项运行状态对应的阈值。其中，该阈值列表包括CPU占用百分比阈值、内存占用百分比阈值、网络IO百分比阈值、节点剩余存储容量占节点总存储容量的百分比阈值中至少一项。其中，CPU占用百分比阈值、内存占用百分比阈值和网络IO百分比阈值是允许的最大值，也即是，第二服务节点的CPU占用百分比、内存占用百分比和网络IO百分比不能大于它们对应的阈值。当第二服务节点的CPU占用百分比大于CPU占用百分比阈值，或，内存占用百分比大于内存占用百分比阈值，或，网络IO百分比大于网络IO百分比阈值时，则认为该第二服务节点的状态满足状态告警条件。

其中，节点剩余存储容量占节点总存储容量的百分比阈值是允许的最小值，也即是，第二服务节点的节点剩余存储容量占节点总存储容量的百分比不能小于其对应的阈值。当第二服务节点的节点剩余存储容量占节点总存储容量的百分比小于其对应的阈值时，则第一监控节点可以确定该第二服务节点的状态满足状态告警条件。

例如，在一个检测周期内，第二服务节点的节点剩余存储容量为19TB、该第二服务节点的节点总存储容量为100TB，也即是，节点剩余存储容量占节点总存储容量的百分比为19％，如果阈值列表中节点剩余存储容量占节点总存储容量的百分比的阈值为20％，则表示第二服务节点的状态满足预设条件，第一监控节点可以向运维节点发送第一服务节点存储容量不足的告警信息。

通过设定检测周期，定时将服务节点的各项运行状态与阈值列表中对应的阈值进行对比，从而可以在运行状态异常时，及时进行告警。

第四种情况、当该第一监控节点确定该至少一个服务节点的整体剩余存储容量占整体总存储容量的百分比满足容量告警条件时，向运维节点发送集群容量告警信息。其中，整体剩余存储容量是指至少一个服务节点的剩余存储容量之和，整体总存储容量是指至少一个服务节点的总存储容量之和。

阈值列表中还可以包括整体剩余存储容量占整体总存储容量的百分比阈值，该阈值是允许的最小值。相应地，容量告警条件是指整体剩余存储容量占整体总存储容量的百分比小于该阈值，第一监控节点可以根据已经加入集群的各个服务节点的节点剩余存储容量和节点总存储容量，计算整个集群的整体剩余存储容量和整体总存储容量，并计算该整体剩余存储容量占整体总存储容量的百分比，当该百分比小于整体剩余存储容量占整体总存储容量的百分比阈值时，第一监控节点可以确定满足容量告警条件，发送集群容量告警信息。通过在整个集群的剩余存储容量不足时进行告警，可以使得运维人员及时得知整个集群可对外提供的存储容量不足，因而采取相应措施来处理该存储容量不足的问题。

通过在服务节点的状态满足上述任一种情况时，向运维节点进行告警，使得运维人员及时得知各个服务节点的状态信息，从而在必要时采取相应措施进行处理。

需要说明的是，该步骤304为可选步骤，也即是，本发明实施例可以仅包括上述步骤301至上述步骤303。在上述步骤301至步骤304中，当第二监控节点发生故障时，第一监控节点对至少一个服务节点的状态进行监控，并在适当时机进行告警。上述方案采用预先设定阈值列表的方式，对集群的服务节点的各项状态信息进行监控，当任意一项超过阈值时即进行告警，同时，当服务节点的服务状态发生改变时，也进行告警。这种告警方式的粒度细化，使得监控节点的监控机制更加可靠，从而对服务节点的状态进行更好的监控。

上述过程中集群中仅包括该至少一个服务节点，实际上，为了便于集群进行扩容和缩容，该集群中可以接入新的服务节点，也可以删减已有的服务节点。例如，当有新的服务节点想要接入该集群时，该服务节点可以进行登录操作，如该服务节点可以向第一监控节点发送登录请求，过程与步骤301中第一服务节点发送登录请求同理。

在一种可能实现方式中，当该第一监控节点接收到登录请求时，对该登录请求对应的服务节点进行状态监控，将该登录请求对应的服务节点添加到该至少一个服务节点对应的集群中。服务节点登录到第一监控节点后，可以向第一监控节点发送心跳信息和上报信息等，使得第一监控节点可以获取到该服务节点的状态，并对状态记录表进行更新，具体过程与上述步骤302至步骤303同理，此处不再赘述。

需要说明的是，第一监控节点在接收到该服务节点的登录请求后，可以对该服务节点执行加入集群操作，该过程与步骤301中第二监控节点对第一服务节点执行加入集群操作同理，此处不再赘述。

当然，当集群中的至少一个服务节点想要退出该集群时，该服务节点可以进行登出操作，如该服务节点可以向第一监控节点发送登出请求，当该第一监控节点接收到登出请求时，停止对该登出请求对应的服务节点的状态进行监控，例如，第一监控节点可以从状态记录表中，删除该登出请求对应的服务节点的服务状态和运行状态。当然，第一监控节点在接收到登出请求时，还可以该登出请求对应的服务节点执行退出集群操作，也即是，将该登出请求对应的服务节点从该至少一个服务节点对应的集群中删除，此时，该登出请求对应的服务节点的存储容量将不再计入集群的节点总存储容量中。

当然，第一监控节点也可以主动对至少一个服务节点中的任一服务节点执行退出集群操作，也即在执行退出集群操作，再对该服务节点执行登出操作，登出成功后，删除状态记录表中该服务节点的状态。该退出该集群的服务节点后续可以继续登录该第一监控节点，或者其他集群的监控节点进行存储服务。本发明实施例对此不做限定。

本发明实施例提供的方案可以应用于云存储业务中加速接入集群的场景，本方案中的服务节点可以进行登录操作和登出操作，监控节点可以对服务节点执行加入集群操作和退出集群操作。这种方式便于集群进行扩容和缩容管理，为云存储集群的管理提供了容量的伸缩性。本发明实施例提供了一种用于云存储业务中对服务节点进行监控和管理的方案，事实上该方案适用于任何分布式集群中对服务节点(存储节点)的监控管理，并使分布式集群中的所有服务节点能够获取到当前集群中其他节点的状态，便于后续实现负载均衡、数据分发、数据读写等业务。

图4是本发明实施例提供的一种节点状态监控装置的结构示意图。参照图4，该装置包括：

确定模块401，用于当该第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定该第二监控节点发生故障，该第二监控节点为该至少两个监控节点中对至少一个服务节点进行状态监控的节点；

获取模块402，用于该第一监控节点获取该至少一个服务节点的状态；

更新模块403，用于该第一监控节点更新状态记录表中该至少一个服务节点的状态，该状态记录表记录在该至少两个监控节点对应的共享数据库中；

在一种可能实现方式中，该获取模块402用于：

在一种可能实现方式中，该更新模块403用于当该第一监控节点在下一个第二周期内未获取到该第一服务节点发送的心跳信息时，将该第一服务节点的服务状态从在线状态修改为不在线状态，该不在线状态表示不可提供服务。

在一种可能实现方式中，该更新模块403用于当该第一监控节点获取到该第一服务节点发送的上报信息时，将该第一服务节点的服务状态从不在线状态修改为在线状态；或，

该更新模块403用于当该第一监控节点获取到该第一服务节点发送的心跳信息时，将该第一服务节点的服务状态从不在线状态修改为在线状态；或，

该更新模块403用于当该第一监控节点获取到该第一服务节点发送的登录请求时，将该第一服务节点的服务状态从不在线状态修改为在线状态。

在一种可能实现方式中，参见图5，该装置还包括：

发送模块404，用于当该第一监控节点确定该至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，该运维节点用于处理该告警信息。

在一种可能实现方式中，该发送模块404用于当该第一监控节点确定第二服务节点的服务状态从在线状态切换为不在线状态时，向该运维节点发送该第二服务节点的下线告警信息，该第二服务节点为该至少一个服务节点中的任一服务节点；或，

该发送模块404用于当该第一监控节点确定该第二服务节点的服务状态从不在线状态切换为在线状态时，向该运维节点发送该第二服务节点的上线告警信息；或，

该发送模块404用于当该第一监控节点确定该第二服务节点的任一项运行状态的状态值满足状态告警条件时，向该运维节点发送该第二服务节点的状态告警信息；或，

该发送模块404用于当该第一监控节点确定该至少一个服务节点的整体剩余存储容量占整体总存储容量的百分比满足容量告警条件时，向运维节点发送集群容量告警信息。

在一种可能实现方式中，参见图6，该装置还包括：

添加模块405，用于当该第一监控节点接收到登录请求时，对该登录请求对应的服务节点进行状态监控，将该登录请求对应的服务节点添加到该至少一个服务节点对应的集群中；

删除模块406，用于当该第一监控节点接收到登出请求时，停止对该登出请求对应的服务节点的状态进行监控，将该登出请求对应的服务节点从该至少一个服务节点对应的集群中删除。

在一种可能实现方式中，该删除模块406用于该第一监控节点从状态记录表中，删除该登出请求对应的服务节点的服务状态和运行状态。

本发明实施例提供的装置，通过配置至少两个监控节点，如果当前提供状态监控服务的监控节点发送故障，则该至少两个监控节点中的另一监控节点及时接管该监控服务，对至少一个服务节点的状态进行监控，避免了单个监控节点发生单点故障导致无法提供监控服务的问题，提高了状态监控的稳定性。

需要说明的是：上述实施例提供的节点状态监控装置在节点状态时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的节点状态监控装置与节点状态监控方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种存储有至少一条指令的计算机可读存储介质，例如存储有至少一条指令的存储器，上述至少一条指令被处理器执行时实现上述实施例中的节点状态监控方法。例如，所述计算机可读存储介质可以是只读内存(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种节点状态监控方法，其特征在于，应用于至少两个监控节点中的第一监控节点，所述方法包括：

当所述第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定所述第二监控节点发生故障，所述第二监控节点为所述至少两个监控节点中对至少一个服务节点进行状态监控的节点，同一时间只有一个监控节点对所述至少一个服务节点进行状态监控；

所述第一监控节点获取所述至少一个服务节点的状态；

当所述第一监控节点接收到客户端节点的查询请求时，从所述状态记录表中获取所述查询请求对应的目标服务节点的状态，将所述目标服务节点的状态以查询响应的方式反馈给所述客户端节点；

其中，所述至少两个监控节点对外提供同一个虚拟网络协议IP地址，使得所述至少两个监控节点中正在进行状态监控的节点，从所述虚拟IP地址获取到所述至少一个服务节点发送的状态信息。

2.根据权利要求1所述的方法，其特征在于，所述第一监控节点获取所述至少一个服务节点的状态，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一服务节点的服务状态从在线状态修改为不在线状态之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述当所述第一监控节点确定所述至少一个服务节点的状态满足预设条件时，向运维节点发送告警信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种节点状态监控装置，其特征在于，应用于至少两个监控节点中的第一监控节点，所述装置包括：

确定模块，用于当所述第一监控节点在第一周期内未接收到第二监控节点发送的心跳信息时，确定所述第二监控节点发生故障，所述第二监控节点为所述至少两个监控节点中对至少一个服务节点进行状态监控的节点，同一时间只有一个监控节点对所述至少一个服务节点进行状态监控；

更新模块，用于所述第一监控节点更新状态记录表中所述至少一个服务节点的状态，所述状态记录表记录在所述至少两个监控节点对应的共享数据库中；当所述第一监控节点接收到客户端节点的查询请求时，从所述状态记录表中获取所述查询请求对应的目标服务节点的状态，将所述目标服务节点的状态以查询响应的方式反馈给所述客户端节点；

9.根据权利要求8所述的装置，其特征在于，所述获取模块用于：

10.根据权利要求9所述的装置，其特征在于，所述更新模块用于当所述第一监控节点在下一个第二周期内未获取到所述第一服务节点发送的心跳信息时，将所述第一服务节点的服务状态从在线状态修改为不在线状态，所述不在线状态表示不可提供服务。

11.根据权利要求10所述的装置，其特征在于，

所述更新模块用于当所述第一监控节点获取到所述第一服务节点发送的上报信息时，将所述第一服务节点的服务状态从不在线状态修改为在线状态；或，

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，

所述发送模块用于当所述第一监控节点确定第二服务节点的服务状态从在线状态切换为不在线状态时，向所述运维节点发送所述第二服务节点的下线告警信息，所述第二服务节点为所述至少一个服务节点中的任一服务节点；或，

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

15.一种节点状态监控***，其特征在于，所述***包括至少两个监控节点和至少一个服务节点，所述至少两个监控节点包括第一监控节点和第二监控节点，

所述第一监控节点用于当在第一周期内未接收到第二监控节点发送的心跳信息时，确定所述第二监控节点发生故障，所述第二监控节点为所述至少两个监控节点中对至少一个服务节点进行状态监控的节点，同一时间只有一个监控节点对所述至少一个服务节点进行状态监控；

所述第一监控节点还用于当接收到客户端节点的查询请求时，从所述状态记录表中获取所述查询请求对应的目标服务节点的状态，将所述目标服务节点的状态以查询响应的方式反馈给所述客户端节点；

16.一种计算机设备，其特征在于，包括处理器和存储器；所述存储器，用于存放至少一条指令；所述处理器，用于执行所述存储器上所存放的至少一条指令，实现权利要求1-7任一项所述的方法步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有至少一条指令，所述至少一条指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。