CN110784350A

CN110784350A - 一种实时可用集群管理***的设计方法

Info

Publication number: CN110784350A
Application number: CN201911022253.8A
Authority: CN
Inventors: 詹少博
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-02-11
Anticipated expiration: 2039-10-25
Also published as: CN110784350B

Abstract

本发明涉及一种实时高可用集群管理***的设计方法，涉及高可用集群管理技术领域。本发明设计的实时高可用集群管理***运行于实时操作***，支持可视化配置，实现资源隔离、动态重构、应用迁移；提供高可用保障支持，实现计算节点的应用高可用；内部集成分布式内存数据管理，通过多副本冗余机制，实现关键数据的同步。该***实现了将软件和硬件解绑，提升硬件资源利用率，在软硬件故障发生时，自动将业务应用迁移到可用设备上，实现故障自屏蔽，保证不间断服务。

Description

一种实时可用集群管理***的设计方法

技术领域

本发明涉及高可用集群管理技术领域，具体涉及一种实时高可用集群管理***的设计方法。

背景技术

随着技术的发展，传统的通过人工方式逐一检查物理设备和业务应用的管理方式已经不再适用，其主要不足包括以下几点：

业务应用和物理设备越来越多，业务应用和物理设备的组合方式也多种多样，手动记录业务应用部署情况、逐一登录到物理设备管理特定的业务***启停的是一种低效的服务管理方式，造成了大量的时间和精力消耗。

随着业务应用和物理设备的增多，软硬件故障出现的频率也线性增长。特别对由多个业务应用组成的一个大型***，软硬件故障出现时，排查并解决问题会是一个长周期的工作，无法应付科研任务日益迫切的要求。

同时软硬件故障不仅会造成业务应用无法正常工作，还有可能造成数据的永久性丢失，造成无法完全恢复的情况，无法满足真实的业务需求。

高可用集群管理***能够解决上述问题，它具有如下特点：

1)支持应用与硬件解耦

通过无入侵的方式，将应用与硬件解耦，在不影响业务流程的条件下，支持业务应用可以在多台物理设备上迁移。

2)支持不间断服务

为业务应用提供高可用保障，保障业务***不受软硬件故障影响，做到故障自屏蔽

3)支持服务监控管理

支持全方位可视化的应用服务启停管理、网络管理、调度管理以及资源监控

4)支持数据高可用

支持数据冗余备份，故障发生时自动抗毁，故障恢复后能够自愈。

目前，高可用集群管理***的部署环境均为非实时***，并且通过内部集成分布式文件***，通过多副本冗余机制，实现文件高可用；提供数据库实时同步，实现关键数据的抗毁容灾。基于文件***的访问由于访问速度和访问方式受限不能满足实时***要求，数据库依赖于文件***，因此，非实时***上的高可用集群管理不能用于实时***。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种实时高可用集群管理***。

(二)技术方案

为了解决上述技术问题，本发明提供了一种实时高可用集群管理***的设计方法，该***运行于计算节点和管理节点，设计为用于对计算节点上运行的用户应用进行高可用管理。

优选地，所述实时高可用集群管理***设计为包括数据通信模块和应用管理模块，数据通信模块用于提供计算节点和管理节点的FC通信、千兆以太网通信数据支持，应用管理模块用于对计算节点和管理节点进行数据分发管理，还用于对计算节点和管理节点之间的交互控制进行管理。

优选地，所述数据通信模块设计为由驱动模块组成，所述驱动模块提供了FC驱动、网卡驱动以及通信协议，通过创建内存数据队列将两种通信数据进行融合存储，实现以统一的虚拟通信设备的方式对数据进行发送接收通信。

优选地，所述应用管理模块设计为包括数据同步模块、监控模块、加载模块、管理模块和人机交互模块；

所述数据同步模块设计为用于提供一种数据实时同步机制，任务***产生的任务数据保存在本地数据库的同时，通过网络上传到管理节点，管理节点分发至计算节点，实现数据实时备份，当故障发生时，集成计算组合实时地将数据库实例和任务访问数据库的服务路由切换到备份节点；故障解除后，自动将故障恢复节点加入到可用序列中，同时将数据实时备份到故障恢复节点，最终达到数据正常不间断同步的效果，工作过程中，主应用和备应用同时运行，只有主应用能够对外发送数据，备应用不能对外发送数据；同时主、备应用都能够接收外部数据，外部数据同时发送给主、备应用；主应用能够将关键数据备份到所有计算节点，用于同步控制流程和数据；

所述监控模块设计为用于对外提供状态监控功能，该监控模块运行于各计算节点，与管理节点之间进行通信，它用于周期性地获取***中各个计算节点的硬件资源状态、应用工作状态、模块自检信息，并将监控信息组成心跳报文周期发送给管理节点；

所述加载模块运行于各计算节点，具体采用以下设计实现：

a)启动时读取脚本配置文件信息，加载.out应用；

b)接收管理节点传输的.out应用，以进程的形式加载运行应用，根据管理节点分配的cpu核指定任务运行，将应用存储在电子盘，并将加载应用信息在配置文件里更新；

c)运行完成后向管理节点发送加载完成信息；

d)接收管理节点传输的vxworks映像文件，并存储在电子盘引导分区；

所述管理模块运行于管理节点，通过与各计算节点之间相互通信对主、备应用进行管理，并对人机交互信息进行响应；

所述人机交互模块设计为用于为用户提供计算节点管理信息显示功能。

优选地，所述监控模块具体采用如下设计实现：

a)周期性地监控计算节点上运行的各应用的状态，组成心跳报文向管理节点发送；

b)周期性监控计算节点运行硬件环境资源的在位状态以及FC、以太网通信状态，组成心跳报文向管理节点发送，监测周期以5毫秒为单位，可设置；

c)接收管理节点发送的资源监控查询，CPU利用率、CPU温度、内存容量、电子盘容量以及各应用运行状态、应用占用资源情况，并组成报文反馈给管理节点；

d)接收管理节点发送的自检结果查询，将计算节点设备开机自检结果发送给管理节点；

e)实时获取管理节点发送的切换信息，备应用切换成主应用，进行对外通信，主应用被删除后重新创建启动，启动后的为备应用；

f)提供API接口获取当前运行的应用的工作状态：为主应用或备应用。

优选地，所述管理模块具体采用以下设计实现：

a)模块初始化：向计算节点发送开机自检监控信息后接收自检信息，获取各计算节点设备状态，对故障状态的计算节点报警，进行相应的处理，并将设备状态信息发送给信息记录任务进行记录；

b)和人机交互模块交互任务：接收人机交互信息，包括提交应用信息、更新映像信息、监控信息等，并将信息发送给信息处理任务进行处理；

c)信息处理任务：对提交的应用信息进行处理，应用信息中指定主、备应用所在计算节点，则按申请信息进行部署，没有指定的则向计算节点发送CPU、内存、电子盘等资源监控查询信息，获取信息后选取资源占用最少的计算节点作为主、备应用运行节点，并将配置信息发送给相应的计算节点，同时将计算节点资源占用信息，以及新分配的主、备应用运行信息发送给信息记录任务；对更新映像信息进行处理，向待更新计算节点发送映像文件；

d)切换处理任务：周期性获取计算节点、主、备应用心跳信息，当超过2个周期没有接收到心跳或心跳报文中计算节点硬件状态为故障时，判断计算节点出现故障，对故障计算节点进行报警，并根据其余计算节点当前资源占用情况将故障节点上运行的应用迁移到资源充足的计算节点上；当心跳报文中主应用状态为故障或挂起时，判断主应用出现故障，向备应用发送切换指令，使备应用切换为主应用，并向主应用所在节点发送切换指令，使主应用删除重启后成为备应用，同时将切换后的计算节点信息、主、备应用信息发送给信息记录任务，主、备应用的切换时间为一个心跳周期的时间；

e)信息记录任务：接收计算节点状态信息、资源信息，以及之上运行的主、备应用信息，并记录在电子盘上，形成日志；

优选地，所述人机交互模块具体用于通过图形数据提供每个时刻各个节点CPU使用情况、内存使用情况、网络流量信息、磁盘使用情况。

优选地，所述监控计算节点上运行的各应用的状态时，监测周期以5毫秒为单位，可设置。

优选地，所述运行硬件环境资源包括以太网卡、电子盘、FC。

优选地，所述各应用运行状态包括正常、故障、挂起。

(三)有益效果

本发明设计的实时高可用集群管理***运行于实时操作***，支持可视化配置，实现资源隔离、动态重构、应用迁移；提供高可用保障支持，实现计算节点的应用高可用；内部集成分布式内存数据管理，通过多副本冗余机制，实现关键数据的同步。该***实现了将软件和硬件解绑，提升硬件资源利用率，在软硬件故障发生时，自动将业务应用迁移到可用设备上，实现故障自屏蔽，保证不间断服务。

附图说明

图1为本发明设计的实时高可用集群管理***架构图；

图2为本发明设计的实时高可用集群管理***运行场景图；

图3为本发明设计的实时高可用集群管理***数据流图；

图4为本发明设计的实时高可用集群管理***组成结构图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

多个应用软件以进程方式运行，一个进程实现一个应用，一个计算节点上最多支持4个应用，每个应用分配一个CPU核运行，应用在CPU核和内存上实现了物理隔离。

管理节点独立于计算节点，单独运行管理软件，和计算节点驻留的软件之间进行信息交互，对计算节点及其上运行的各种应用既能够自动进行状态监控、热切换，也能够通过根据配置文件静态实现调度、切换，同时支持人机交互，灵活性高，在运行过程中用户可以对应用进行启动、停止实现动态迁移，并能够可视化监控当前各节点及应用状态；计算节点驻留的软件仅实现状态采集和执行管理命令，占用资源较少，设计相对简单，主要资源可用于执行各种应用。

本发明的实时高可用集群管理***采用分布式内存数据管理机制实现数据的共享、存储和备份，通过网络将数据在不同的计算节点上进行多副本冗余存储，在每个计算节点的用户内存空间分配与计算节点应用数量相同的空间，空间的数量和容量大小可配置，各计算节点应用的数据更新时能够同步备份到所有计算节点上与该应用相对应的数据存储空间，为保证计算节点数据的一致性，备份数据顺序为先完成其他计算节点的数据备份，再向本计算节点进行数据备份工作。

对计算节点上的应用进行监控，出现故障时需要进行切换，接管后的应用软件从本计算节点的用户空间相应地址读取该应用的最新数据实现应用同步；应用进行动态迁移时也同样从相应的地址读取最新数据实现同步迁移。

一个计算节点上的多个应用需要同时访问通信设备时，需要给每个应用分配一个虚拟通信设备，应用的访问对象是虚拟通信设备，由虚拟通信设备将通信数据存入内存数据队列，由集群管理***将数据从队列中取出后通过物理通信设备发送出去，物理通信设备接收到数据后存入队列，集群管理***取出数据后送入对应的虚拟通信设备，由虚拟通信设备接收数据。

如图1所示，给出了实时高可用集群管理***架构图，实时高可用集群管理***运行于计算节点和管理节点，用于对计算节点上运行的用户应用进行高可用管理，实时高可用集群管理***包括数据通信模块和应用管理模块。数据通信模块用于提供计算节点和管理节点的FC通信、千兆以太网通信数据支持，应用管理模块用于对计算节点和管理节点进行数据分发管理，还用于对计算节点和管理节点之间的交互控制进行管理，计算节点和管理节点共同组成了实时高可用集群管理***的运行硬件平台。

图2给出了实时高可用集群管理***运行场景图，应用管理模块通过可视化界面和API接口与用户应用进行交互，数据通信模块包括FC网络和千兆以太网络两种通信方式。应用管理模块对计算节点的数据分发管理具体是通过对数据通信模块数据的分发控制对计算节点进行管理。

图3提供了实时高可用集群管理***数据流图，用户提交应用，配置资源属性后，根据CPU负载情况自动在计算节点上分配主、备应用，并进行数据同步，使得主应用能够进行对外通信，备应用仅实现被动接收，主、备应用均向管理节点发送应用心跳报文，计算节点向管理节点发送硬件资源心跳报文，由管理节点对应用和计算节点进行监控；当监控到主应用异常时，能够切换到备应用上，同步数据后进行连续对外通信，实现应用的高可用；当监控到计算节点异常时，管理节点进行报警提示，由人操作将故障计算节点上运行的应用迁移到其他正常计算节点上；通过人机交互界面也能够实现静态应用部署，通过配置将主、备应用分配在指定的计算节点，实现高可用；

API调用接口包括虚拟通信设备接口、数据同步接口、应用状态监控接口；虚拟通信设备接口支持一个计算节点上多个应用的网络通信，数据同步接口支持应用之间跨计算节点进行同步，应用状态监控接口能够获取任意计算节点主要硬件资源状态信息以及应用运行状态信息。

数据通信模块通过通信设备虚拟化实现了多个虚拟通信设备对应一个物理通信设备，使多个应用同时访问一个网络设备成为可能；通过识别主、备应用，实现主应用能够发送、接收数据，备应用仅能被动接收数据。

图4实时高可用集群管理***组成结构图给出了***模块组成，其中数据通信模块由驱动模块组成；应用管理模块包括数据同步模块、监控模块、加载模块、管理模块和人机交互模块。

驱动模块提供了FC驱动、网卡驱动以及通信协议，通过创建内存数据队列将两种通信数据进行融合存储，实现以统一的虚拟通信设备的方式对数据进行发送接收通信

数据同步模块提供了一种数据实时同步机制，任务***产生的任务数据保存在本地数据库的同时，通过网络上传到管理节点，管理节点分发至计算节点，实现数据实时备份，当故障发生时，集成计算组合实时地将数据库实例和任务访问数据库的服务路由切换到备份节点；故障解除后，自动将故障恢复节点加入到可用序列中，同时将数据实时备份到故障恢复节点，最终达到数据正常不间断同步的效果，工作过程中，主应用和备应用同时运行，只有主应用能够对外发送数据，备应用不能对外发送数据；同时主、备应用都能够接收外部数据，外部数据同时发送给主、备应用；主应用能够将关键数据备份到所有计算节点，用于同步控制流程和数据。

监控模块用于对外提供全方位的状态监控功能，该监控模块运行于各计算节点，和管理节点之间进行通信，它用于周期性地获取***中各个计算节点的硬件资源状态、应用工作状态、模块自检信息，并将监控信息组成心跳报文周期发送给管理节点，具体采用如下设计实现：

g)周期性地监控计算节点上运行的各应用的状态，组成心跳报文向管理节点发送，状态信息由应用和***提供，监测周期以5毫秒为单位，可设置；

h)周期性监控计算节点运行硬件环境资源(以太网卡、电子盘、FC等)的在位状态以及FC、以太网通信状态，组成心跳报文向管理节点发送，监测周期以5毫秒为单位，可设置；

i)接收管理节点发送的资源监控查询，CPU利用率、CPU温度、内存容量、电子盘容量以及各应用运行状态(正常、故障、挂起)、应用占用资源情况，并组成报文反馈给管理节点；

j)接收管理节点发送的自检结果查询，将计算节点设备开机自检结果发送给管理节点；

k)实时获取管理节点发送的切换信息，备应用切换成主应用，进行对外通信，主应用被删除后重新创建启动，启动后的为备应用；

l)提供API接口获取当前运行的应用的工作状态：为主应用或备应用。

加载模块运行于各计算节点，具体采用以下设计实现：

e)启动时读取脚本配置文件信息，加载.out应用；

f)接收管理节点传输的.out应用，以进程的形式加载运行应用，根据管理节点分配的cpu核指定任务运行，将应用存储在电子盘，并将加载应用信息在配置文件里更新；

g)运行完成后向管理节点发送加载完成信息；

h)接收管理节点传输的vxworks映像文件,并存储在电子盘引导分区。

管理模块运行于管理节点，通过与各计算节点之间相互通信对主、备应用进行管理，并对人机交互信息进行响应，具体采用以下设计实现：

f)模块初始化：向计算节点发送开机自检监控信息后接收自检信息，获取各计算节点设备状态，对故障状态的计算节点报警，进行相应的处理，并将设备状态信息发送给信息记录任务进行记录；

g)和人机交互模块交互任务：接收人机交互信息，包括提交应用信息、更新映像信息、监控信息等，并将信息发送给信息处理任务进行处理；

h)信息处理任务：对提交的应用信息进行处理，应用信息中指定主、备应用所在计算节点，则按申请信息进行部署，没有指定的则向计算节点发送CPU、内存、电子盘等资源监控查询信息，获取信息后选取资源占用最少的计算节点作为主、备应用运行节点，并将配置信息发送给相应的计算节点，同时将计算节点资源占用信息，以及新分配的主、备应用运行信息发送给信息记录任务；对更新映像信息进行处理，向待更新计算节点发送映像文件；

i)切换处理任务：周期性获取计算节点、主、备应用心跳信息，当超过2个周期没有接收到心跳或心跳报文中计算节点硬件状态为故障时，判断计算节点出现故障，对故障计算节点进行报警，并根据其余计算节点当前资源占用情况将故障节点上运行的应用迁移到资源充足的计算节点上；当心跳报文中主应用状态为故障或挂起时，判断主应用出现故障，向备应用发送切换指令，使备应用切换为主应用，并向主应用所在节点发送切换指令，使主应用删除重启后成为备应用，同时将切换后的计算节点信息、主、备应用信息发送给信息记录任务，主、备应用的切换时间为一个心跳周期的时间；

j)信息记录任务：接收计算节点状态信息、资源信息，以及之上运行的主、备应用信息，并记录在电子盘上，形成日志；

人机交互模块用于为用户提供计算节点管理信息显示功能。用户可根据人机交互模块的可视化界面直观地了解到整个***中各个节点的运行状态，同时通过图形数据提供每个时刻各个节点CPU使用情况、内存使用情况、网络流量信息、磁盘使用情况等详细信息，便于用户对***整体状态的掌握。

综上，本发明所提出的基于实时***的高可用集群管理的设计实现，通过设备虚拟化技术和数据同步技术在实时操作***上实现了高可用集群管理，应用切换、数据迁移、故障感知等性能指标均满足实时***要求。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种实时高可用集群管理***的设计方法，其特征在于，该***运行于计算节点和管理节点，设计为用于对计算节点上运行的用户应用进行高可用管理。

2.如权利要求1所述的方法，其特征在于，所述实时高可用集群管理***设计为包括数据通信模块和应用管理模块，数据通信模块用于提供计算节点和管理节点的FC通信、千兆以太网通信数据支持，应用管理模块用于对计算节点和管理节点进行数据分发管理，还用于对计算节点和管理节点之间的交互控制进行管理。

3.如权利要求2所述的方法，其特征在于，所述数据通信模块设计为由驱动模块组成，所述驱动模块提供了FC驱动、网卡驱动以及通信协议，通过创建内存数据队列将两种通信数据进行融合存储，实现以统一的虚拟通信设备的方式对数据进行发送接收通信。

4.如权利要求3所述的方法，其特征在于，所述应用管理模块设计为包括数据同步模块、监控模块、加载模块、管理模块和人机交互模块；

所述加载模块运行于各计算节点，具体采用以下设计实现：

a)启动时读取脚本配置文件信息，加载.out应用；

c)运行完成后向管理节点发送加载完成信息；

5.如权利要求4所述的方法，其特征在于，所述监控模块具体采用如下设计实现：

6.如权利要求5所述的方法，其特征在于，所述管理模块具体采用以下设计实现：

e)信息记录任务：接收计算节点状态信息、资源信息，以及之上运行的主、备应用信息，并记录在电子盘上，形成日志。

7.如权利要求6所述的方法，其特征在于，所述人机交互模块具体用于通过图形数据提供每个时刻各个节点CPU使用情况、内存使用情况、网络流量信息、磁盘使用情况。

8.如权利要求5所述的方法，其特征在于，所述监控计算节点上运行的各应用的状态时，监测周期以5毫秒为单位，可设置。

9.如权利要求5所述的方法，其特征在于，所述运行硬件环境资源包括以太网卡、电子盘、FC。

10.如权利要求5所述的方法，其特征在于，所述各应用运行状态包括正常、故障、挂起。