CN112181660A

CN112181660A - 一种基于服务器集群的高可用方法

Info

Publication number: CN112181660A
Application number: CN202011083292.1A
Authority: CN
Inventors: 赵博颖; 申玉京; 谭智敏; 詹少博
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-05

Abstract

本发明涉及一种基于服务器集群的高可用方法，其中，包括：当服务器集群中存在某节点出现故障进行应急切换时，首先选择当前集群中空闲可用的节点作为接管节点，接管节点通知出现故障的节点停止其所有应用服务，并释放资源，同时接管节点在获得被释放的资源后启动故障节点上运行的应用服务，释放的资源包括共享存储设备以及IP地址，以避免故障节点与接管节点同时使用产生冲突；当故障发生时，故障节点实时将数据库实例和业务访问数据库的服务路由切换到接管节点；故障解除时，将原故障节点加入到可用序列中，将数据实时备份到接管节点，达到数据库数据完全自愈。

Description

一种基于服务器集群的高可用方法

技术领域

本发明涉及服务器集群技术领域，特别是涉及一种基于服务器集群的高可用实现方法。

背景技术

服务器集群中处理核心任务的节点一旦出现故障，会导致数据链的断裂，信息的丢失，极有可能造成灾难性的后果。为保证平台不间断提供服务，保障信息安全，本发明提出一种高可用管理方法。主要用于对平台内所有计算节点的协同管理，解决由于单个计算或控制单元失效引起的***故障。可实现对各个节点的关键业务、运行状态进行监测，对服务故障进行恢复，必要时基于冗余的计算和控制单元，进行主备节点的业务迁移，从而提高业务***的稳定性、可用性、负载均衡能力，提升***对软硬件故障的容错能力。

发明内容

本发明的目的在于提供一种基于服务器集群的高可用方法，用于解决上述业务***的高可用性与不间断性已经成为计算机等诸多领域亟需解决的关键问题。。

本发明一种基于服务器集群的高可用方法，其中，包括：当服务器集群中存在某节点出现故障进行应急切换时，首先选择当前集群中空闲可用的节点作为接管节点，接管节点通知出现故障的节点停止其所有应用服务，并释放资源，同时接管节点在获得被释放的资源后启动故障节点上运行的应用服务，释放的资源包括共享存储设备以及IP地址，以避免故障节点与接管节点同时使用产生冲突；当故障发生时，故障节点实时将数据库实例和业务访问数据库的服务路由切换到接管节点；故障解除时，将原故障节点加入到可用序列中，将数据实时备份到接管节点，达到数据库数据完全自愈。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，定期将节点或应用的实时状态信息作为心跳信号通过心跳网络传递给所有节点，各节点若在一定时间内未收到某节点的心跳信号，则认为该某节点发生故障。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，包括三种节点状态检测机制，检查通信状态的ping机制、报告资源状态的register机制以及可由用户定制脚本的health check机制。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，接管节点通过STONITH设备让故障节点重新启动以释放资源。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，心跳信号中的状态信息，包括应用服务状态、节点到外网络的连通性、操作***状态以及资源占用情况，用于判定节点是否正常以及应用切换时选择接管节点。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，在心跳信号传输时，进行加密和认证。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，当确定一个提供服务的节点故障或失效时，将根据既定策略将故障节点上应用切换到另一个节点上继续提供服务。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，***最下一层是心跳层，服务器集群中各个节点之间实时互相监测，心跳层组件发送心跳信息及资料，向上层发布自己的工作状态；中间层是应用分配层，负责对***运行的应用进行管理调度，应用分配层每一个动作都通过***应用管理，最上层是应用层，通过shell脚本方式实现应用的启动、停止以及监测控制。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，中间层包括应用管理、信息基准以及调度策略组件，应用管理负责对节点上运行的应用进行管理调度；信息基准用于存储集群配置、状态、节点、资源以及限制条件；调度策略提供了节点的故障迁移策略，包括定向策略以及负载均衡策略。

根据本发明的基于服务器集群的高可用方法的一实施例，其中，通过自定义的应用代理脚本对应用服务监测。

本发明服务器集群对平台的高可用性以及可靠性存在很高的需求，基于此，本发明提出一种基于三层体系架构的通用高可用实现方法。主要步骤包括：构建高可用集群***的体系结构；基于三种检测机制实现节点的故障监测；基于资源隔离机制实现节点的故障切换；基于数据库实时同步机制实现数据的高可用。

附图说明

图1为高可用集群***分层结构图；

图2为数据库高可用结构图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明中为高可用***的实现设计了一个分层结构，见图1所示，最下一层是心跳层，服务器集群中各个节点之间实时互相监测，确保第一时间获取节点或服务的故障状态，这一层包含的组件发送心跳信息及其资料，来向上层发布自己的工作状态。第二层是应用分配层，主要由应用管理、信息基准、调度策略等组件构成，负责对***运行的应用进行管理调度。应用分配层的每一个动作都通过***应用管理，它是保持***信息的基础。第三层是应用层，主要是一些应用代理，这里通过shell脚本方式实现应用的启动、停止以及监测控制。

本发明中通过心跳机制进行故障监测。高可用***定期将节点或应用的实时状态信息作为心跳信号通过心跳网络传递给其它所有节点，其它节点若在一定时间内未收到该节点的心跳信号，则认为该节点发生故障。为提高故障监测的准确性与快速性，提出以下优化措施：

提供了三种节点状态检测机制：检查通信状态的ping机制、报告资源状态的register机制以及可由用户定制脚本的health check机制。同时通过自定义的应用代理脚本实现对应用服务的监测。

为减少误警的情况出现，心跳信号中增加多种状态信息，包括应用服务状态、节点到外网络的连通性、操作***状态、资源占用情况等，这些可用于判定节点是否正常以及应用切换时选择接管节点的依据。

为保证节点间通信安全，在心跳信号传输时，采用加密、认证等机制，防止重要数据被窃取，避免未经授权的节点加入到高可用***中或未经授权的节点状态信息影响到节点的切换。

当确定一个提供服务的节点故障或失效时，高可用***将根据既定策略将故障节点上应用自动透明地切换到另一个节点上继续提供服务。本发明在故障切换实现中提出以下改进策略：

接管节点首先通知当前节点停止其所有应用服务、释放资源，接管节点在获得被释放的资源后才能启动服务，释放的资源主要包括共享存储设备、IP地址等，从而避免两个节点同时使用产生冲突；接管节点通过STONITH设备让故障节点重新启动以释放资源，STONITH是一种用于给服务器节点提供电源的智能电源设备，可通过串口线或网线向STONITH设备发出断开或复位指令来控制节点的电源；

为防止故障节点资源无法挂起、释放，引入资源隔离机制，接管节点通过智能电源设备让故障节点重新启动以释放资源。

本发明针对数据高可用的需求提供数据库实时同步机制，业务***产生的业务数据在入库的同时，数据实时地备份到其它节点。数据库实时同步机制见图2所示。当故障发生时，服务器节点实时将数据库实例和业务访问数据库的服务路由切换到备份节点；故障解除时，***自动将故障恢复节点加入到可用序列中，同时将数据实时备份到故障备份节点，最终达到数据库数据完全自愈。

本发明并针对目前高可用***中普遍存在的虚警情况、通信安全、资源迁移等问题，提出几种改进策略：基于三种检测机制的故障监测、基于资源隔离机制的故障切换、基于数据库实时同步机制的数据高可用等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于服务器集群的高可用方法，其特征在于，包括：

当服务器集群中存在某节点出现故障进行应急切换时，首先选择当前集群中空闲可用的节点作为接管节点，接管节点通知出现故障的节点停止其所有应用服务，并释放资源，同时接管节点在获得被释放的资源后启动故障节点上运行的应用服务，释放的资源包括共享存储设备以及IP地址，以避免故障节点与接管节点同时使用产生冲突；

当故障发生时，故障节点实时将数据库实例和业务访问数据库的服务路由切换到接管节点；故障解除时，将原故障节点加入到可用序列中，将数据实时备份到接管节点，达到数据库数据完全自愈。

2.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，定期将节点或应用的实时状态信息作为心跳信号通过心跳网络传递给所有节点，各节点若在一定时间内未收到某节点的心跳信号，则认为该某节点发生故障。

3.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，包括三种节点状态检测机制，检查通信状态的ping机制、报告资源状态的register机制以及可由用户定制脚本的health check机制。

4.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，接管节点通过STONITH设备让故障节点重新启动以释放资源。

5.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，心跳信号中的状态信息，包括应用服务状态、节点到外网络的连通性、操作***状态以及资源占用情况，用于判定节点是否正常以及应用切换时选择接管节点。

6.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，在心跳信号传输时，进行加密和认证。

7.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，当确定一个提供服务的节点故障或失效时，将根据既定策略将故障节点上应用切换到另一个节点上继续提供服务。

8.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，***最下一层是心跳层，服务器集群中各个节点之间实时互相监测，心跳层组件发送心跳信息及资料，向上层发布自己的工作状态；中间层是应用分配层，负责对***运行的应用进行管理调度，应用分配层每一个动作都通过***应用管理，最上层是应用层，通过shell脚本方式实现应用的启动、停止以及监测控制。

9.如权利要求8所述的基于服务器集群的高可用方法，其特征在于，中间层包括应用管理、信息基准以及调度策略组件，应用管理负责对节点上运行的应用进行管理调度；信息基准用于存储集群配置、状态、节点、资源以及限制条件；调度策略提供了节点的故障迁移策略，包括定向策略以及负载均衡策略。

10.如权利要求1所述的基于服务器集群的高可用方法，其特征在于，通过自定义的应用代理脚本对应用服务监测。