CN103763155A

CN103763155A - 分布式云存储***多服务心跳监测方法

Info

Publication number: CN103763155A
Application number: CN201410035664.1A
Authority: CN
Inventors: 李东辉; 胡建; 吴小志; 朱广新; 方方; 茹萌; 钱琳; 庞恒茂; 程聪; 缪静文
Original assignee: State Grid Corp of China SGCC; State Grid Shanghai Electric Power Co Ltd; Nanjing NARI Group Corp
Current assignee: State Grid Corp of China SGCC; State Grid Shanghai Electric Power Co Ltd; Nanjing NARI Group Corp
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2014-04-30

Abstract

本发明提出了分布式云存储***多服务心跳监测方法，该方法包括节点心跳监测与服务心跳监测两部分；节点心跳监测方法监测节点健康状况，判断节点是否发生故障，如果发生了故障需要通过投票机制选出切换或者重启的方法，完成节点的切换或者重启；服务心跳监测方法定期监测各服务的运行状态；多服务心跳监测方法在高并发读写操作的环境下检测分布式环境节点健康状态，通过线程不断的扫描服务完成自重启服务，以及建立虚ip的方式快速切换服务，保障***的可靠性以及数据的安全性。本发明方法能够有效达到分布式***中每个节点宕机或服务异常的快速检测与重新启动，有效提高分布式文件***的安全性与可靠性，为分布式云存储的企业级应用提供了解决途径。

Description

分布式云存储***多服务心跳监测方法

技术领域

本发明属于计算机网络通信技术领域，具体指的是分布式云存储***多服务心跳监测方法。

背景技术

随着互联网经济的快速发展，社会生产生活的各个领域产生了大量非结构化的数据。面对这些大数据***性的增长，企业以及IT从业者倍感数据存储的压力。大规模分布式云存储***具有海量的存储空间，并支持灵活扩展、高性能访问的文件共享存储平台，对较大数据量和高并发访问的应用提供高效、易用、安全、可靠的服务。

现有的云存储技术往往着眼于提升分布式存储***本身的性能，而忽略了节点宕机和***异常引起的服务中断和数据丢失，这将会给用户带来巨大的损失。当业务处理需要信息***提供7*24小时不间断服务时，对云存储技术的高可用性提出了严峻的挑战。多服务心跳监测通过对云存储中增加心跳监测，及时的处理故障服务，保证了对其内部各个服务的不间断服务。

云存储^[1]是在云计算基础上衍生和发展出来的一种新型的存储模型。它将服务器集群、并行网格计算以及分布式文件***等功能进行整合，将网络中各种不同种类的存储设备通过分布式软件***集成起来，协同工作，共同对外提供数据存储和业务访问功能的一个***。

其主要设计诉求为：弹性扩展存储容量以及存取性能；保证数据的安全性，节约存储空间；打破应对高并发读写需求带来的性能瓶颈；保障数据的机密性，不允许非法用户截取、还原数据。

分布式文件***是指文件***管理的物理存储资源不直接连接在本地节点上，而是通过计算机网络与各个节点相连，并对外提供统一的访问接口。目前主流的分布式文件***为：

(1)HDFS:HDFS是Google File System的开源实现，在处理海量的大数据方面有与生俱来的优势，将它部署在低廉的硬件上，可以提供高传输率来快速访问应用程序的数据。如图2所示，HDFS把节点分为NameNode和DataNode。NameNode是唯一的，程序与之通信获取存取位置信息，然后从DataNode上存取文件。

(2)GlusterFS是一个开源的分布式文件***，其凭借着极强的可扩展能力，能够支持PB级存储容量和处理数千客户端并发操作。GlusterFS借助网络将物理分布的存储资源融合在一起，使用独立的全局命名空间来管理数据结构。因此，GlusterFS是具有高可扩展性、高吞吐、高可用性、高可扩展性的分布式文件***。

(3)MogileFS是一个分布式文件存储解决方案，它不需要特殊的核心组件、无单点故障、自动的文件复制、超过RAID的数据可靠性、传输中立，无特殊协议、简单的命名空间等等优点，但其非通用的API设计以及不便的人机交互模式影响了其广泛应用。

(4)MooseFs是一款网络分布式文件***，它把数据分布在多台服务器上，但以用户的角度来看，MFS***只是一块硬盘。MFS可以提供像unix文件***一样的服务，其中包含了层级结构，存取文件属性，创建特殊的文件，符号链接，硬链接等操作。操作简单、易用，其架构采用了主节点与日志节点的结构消除了单点故障。

分布式文件***高可用方案：

(1)HDFS提供的一种叫做BackupNode的主节点高可用方案，它可以为NameNode提供热备节点，减少服务恢复时间。其主要原理为：通过同步更新机制，在Backup Node节点中保存一份与NameNode完全一致的内存镜像，并且当NameNode无法提供服务时，能够自动接替，对外提供服务。但随着文件规模的不断扩大，HA的机制恢复耗时越来越长，这对于需要提供24*7服务的应用***来说是难以接受的。

(2)GlusterFs无元数据服务器设计的好处是没有单点故障，能够有效解决元数据同步的难点问题。它的负面影响是，数据一致问题更加复杂，同时客户端也会相应承担更多的工作，增加了客户端的负载。因此，GlusterFS不可能满足所有的存储需求，其在高可用性上的设计浪费了大量的存储空间以及计算资源，使得该***的使用者们不能有效利用宝贵的磁盘空间。

(3)MogileFS利用数据库用来存放元数据，并采用基于事件的主进程消息总线来管理所有来自于客户端的交互，同时将请求负载平衡到每个节点中，从而形成一个高可用性(HA)的环境以防止单点失败。

(4)MooseFS提供了master与metalogger节点两种服务，metalogger节点每隔24小时从主节点下载元数据日志到本地磁盘，当主节点宕机，metalogger节点将最近一小时的日志与元数据进行合并以恢复元数据，同时启动主节点服务来持续提供服务。其弊端也很明显，当最近一小时的并发读写频繁的时候，元数据日志合并需要耗费大量的时间，主备节点切换也会出现服务终止的现象。

分布式云存储以分布式文件***为基础，形成多种文件共享虚拟存储空间的存储技术。由于每种分布式***都有其特殊的网络拓扑结构以及复杂的网络传输机制，因此如何保障每个分布式节点的高可用性成为摆在分布式***研究人员面前的一道难题。传统分布式文件***的高可用机制主要分为两种：第一是主备节点结构：这种结构的分布式文件***会定时同步元数据日志或将元数据日志放到共享存储、数据库等存储介质中。当主节点宕机时，备用节点会读取、合并当前日志到元数据，恢复分布式***服务。但随着数据量以及数据操作的不断增多，主备节点的切换速度越来越慢，严重影响服务的持续提供。第二是无元数据节点结构：这种结构的分布式***将每个节点看成是地位平等的节点，每个节点都存储元数据与数据块，这样无论分布式环境中的任一节点宕机都不会影响整个文件***对外提供服务。这种方案同样有不能回避的问题，数据一致性需要更大的开销来维持。

发明内容

本发明的目的在于克服现有技术的不足，提出分布式云存储***多服务心跳监测方法。本发明在高并发读写操作的环境下，检测分布式环境下节点健康状态以及快速切换服务，保障***的可靠性以及数据的安全性，从根本上解决分布式***的可靠性问题。

为达到上述目的，本发明所采用的技术方案是：

分布式云存储***多服务心跳监测方法，包括节点心跳监测与服务心跳监测两部分，对于节点，分为三类，分解为管理节点，备份管理节点和其他节点。管理节点是来管理收集其他节点的运行状态。备份管理节点是做为管理节点的备份。节点心跳是管理服务器节点要时刻知道***中其他节点的运行健康状态使用的一种监测并维护健康状态的手段。同样，服务心跳是agent服务要知道其他服务的运行健康状态的一种监测并维护健康状态的手段，下面具体介绍了两种方法：

A，节点心跳监测，具体过程如下：

步骤A-1，在各个节点（包括管理节点，备份管理节点，其他节点）同时启动Mon服务和Agent服务；

步骤A-2，Agent服务向管理服务器主节点报告***信息，并由Collector服务通过共享内存进行交互；

步骤A-3，Mon进程监测节点健康状况并将磁盘心跳写入共享存储NAS；

步骤A-4，判断节点是否发生故障，如果在一段时间之后，管理服务器主节点没有收到节点报告的***信息，则认为节点故障；

B，服务心跳监测，具体过程如下：

步骤B-1，定期监测各服务的运行状态，若不存在故障，则将各服务的运行状态写入共享内存；

步骤B-2，Mon服务获取服务列表，读取服务心跳信息，通过概率阈值判断是否存在故障；若存在故障则重启服务向上级节点报告故障信息；

步骤B-3，由管理服务调用Collector进程保存故障信息。

本发明的有益效果是：本发明提出了分布式云存储***多服务心跳监测方法，该方法包括节点心跳监测与服务心跳监测两部分；节点心跳监测方法监测节点健康状况，判断节点是否发生故障，如果发生了故障需要通过投票机制选出切换或者重启的方法，完成节点的切换或者重启；服务心跳监测方法定期监测各服务的运行状态；多服务心跳监测方法在高并发读写操作的环境下检测分布式环境节点健康状态，通过线程不断的扫描服务完成自重启服务，以及建立虚ip的方式快速切换服务，保障***的可靠性以及数据的安全性。本发明方法能够有效达到分布式***中每个节点宕机或服务异常的快速检测与重新启动，有效提高分布式文件***的安全性与可靠性，为分布式云存储的企业级应用提供了解决途径。

附图说明

图1是节点监测算法流程示意图。

图2是多服务心跳监测算法流程示意图。

图3是主备切换试验。

图4是主节点恢复试验。

图5是数据节点检测恢复试验。

具体实施方式

下面结合附图对本发明提出的分布式云存储***多服务心跳监测方法进行详细说明：

分布式***常常需要检测某一个节点机器的状态，以确定其是否可以正常工作。常用的分布式部署会有两种方式：中心化和去中心化。中心化架构类似于星型架构，比如HDFS的架构，集群中会有单独一个主服务器（如HDFS中的NameNode）和多个从服务器（如HDFS中的DataNode）。一般这种架构，主服务器来管理所有从服务器的状态，所有从服务器的状态信息会在主服务器中保存，而从服务器之间一般不会知道彼此的存在。而去中心化的构架中，没有主次之分，所有的服务器都是平等的，也就是说每个服务器都知道彼此的存在，一般每台服务器上都保存所有服务器的列表。

心跳检测是一种分布式***故障检测方法。下面结合附图对本发明的技术方案做进一步的详细说明：

多服务心跳监测算法分为节点心跳监测与服务心跳监测两部分：

1、节点心跳监测算法描述如下：

(1)在所有节点同时启动MON服务和Agent服务。

(2)Agent服务不断向管理服务器主节点报告***信息，并由Collector服务与共享内存进行交互。

(3)MON进程会不断监测节点健康状况并将磁盘心跳写入共享存储NAS。

(4)最后，由其他节点监控程序来仲裁节点是否发生故障。如果在一段时间之后，管理服务器主节点没有收到其他节点报告的***信息，则认为该节点故障（排除网络导致的故障）。

如图1所示为节点监测算法流程示意图。

多服务心跳监测算法的另一部分为服务心跳监测。

2、服务心跳监测算法

服务心跳监测算法描述如下：

(5)心跳维护线程定期监测各服务的运行状态，若不存在故障将其写入共享内存

(6)MON服务获取服务列表，读取服务心跳信息，通过概率阈值判断其是否存在故障

(7)若存在故障则重启服务向上级节点报告故障信息

(8)最后，由Admin服务调用Collector进程保存故障信息

如图2所示为多服务心跳监测算法流程示意图。

仿真实验：

***可用性Ava表示***正常提供服务的时间占总运行时间的百分比，公式表示如下。

Ava=MTTF/(MTTF+MTTR)

其中MTTF为***平均正常运行时间，MTTR为***平均修复时间

串行分布式***可用性为每个节点之间的可靠性与其它节点无关，但任何节点发生故障时整个***不可用。

令在时间[t,t+T]时间内节点i正常工作的概率为p_i，n为分布式***中节点的数目，则整个分布式***在此时间间隔内正常工作的概率为p，公式表示为：

p = Π_{i = 1}^{n} p_{i} \approx Π_{i = 1}^{n} \frac{{MTTF}_{i}}{{MTTF}_{i} + {MTTR}_{i}}

并行分布式***可用性为每个节点互相独立，只有当所有节点失效整个***才会失效。

令在[t,t+T]时间内节点i正常工作的概率为p_i，则整个分布式***在此时间间隔内正常工作的概率为

公式表示为：

\tilde{p} = Π_{i = 1}^{n} (1 - p_{i}) \approx 1 - Π_{i = 1}^{n} (1 - \frac{{MTTF}_{i}}{{MTTF}_{i} + {MTTR}_{i}})

本文描述的高可用方案提供串-并行可用性，令第k个节点正常工作的概率为p_ik，则混合***正常工作概率为：

p^{''} = Π_{t = l}^{n} (1 - Π_{k = 1}^{m_{l}} (1 - p_{lk})) \approx Π_{t = l}^{n} (1 - Π_{k = l}^{m_{l}} (1 - \frac{{MTTF}_{lk}}{{MTTF}_{lk} + {MTTR}_{lk}}))

可知混合分布式***的正常工作概率为：

p≤p″≤p

对两侧取极限得：

p^{''} = \lim (\max (p, \tilde{p}))

因此当采用无单点故障的并行分布式***正常运行概率为99.99%时，采用节点高可用与主节点高可用的混合分布式文件***的正常运行极限概率也为99.99%

采用12台dellR720PC服务器，硬件配置如下：Intel E26002路32核，主频2.7GHZ，主节点128G内存，数据节点24G内存，数据节点均为6块15KSAS硬盘raid5，操作***为Red hat6.1。存储***为双控IBM小型中端存储，每节点双千兆网口绑定。分布式***由2个主节点，10个数据节点组成。测试程序清单如下：

(1)javascript读、写程序

(2)loadrunner压力源

(3)nmon监测工具

(4)UCARP虚拟IP工具

(5)测试用bash脚本

(6)高可用算法程序

实验性能分析

本节选取Moosefs作为基准测试分布式文件***，从主备切换时间、主节点重新恢复时间、数据节点服务断开检测恢复时间、高负载读写并发***可用性三方面来评估本文中的分布式云存储高可用框架对原生算法高可用功能的提升，并进行对比分析。

(1)主备切换时间(Standby to host time)：由loadrunner服务器分别并发产生100、200、300、400、500个读写请求（比例为60%读，40%写），四个客户端并发读写分布式文件***，突然将主节点电源切断，观察并记录服务停止时间。

如图3所示为主节点与备用节点的切换试验，从图中可以看出随着并发读写数量的不断增长，其服务的中断时间不断增长，在300-400个读写请求之间，服务中断时间显著增长。但500并发读写请求时，服务的中断时间在30s以内，完全符合企业级***可靠性指标。

(2)主节点重新恢复时间：由loadrunner服务器分别并发产生100、200、300、400、500个读写请求（比例为60%读，40%写），四个客户端并发读写分布式文件***，主节点重新启用主服务，备用节点从主服务切换到备用服务，观察并记录恢复时间。从图4中可知主节点恢复时间也同样符合企业级应用标准。

(3)数据节点服务断开检测恢复时间：由loadrunner服务器分别并发产生100、200、300、400、500个读写请求（比例为60%读，40%写），四个客户端并发读写分布式文件***，断开一个数据节点，观察并记录检测恢复时间。由图5中可以看出检测恢复的时间在毫秒级，基本可实现数据节点服务的平滑迁移恢复。

(4)高负载读写并发***可用性:由loadrunner服务器分别并发随机产生读写请求（比例为60%读，40%写），四个客户端并发读写分布式文件***，观察并记录6个月内的***服务正常可用性。

本发明针对人为造成的同样时间、同样故障频率，高可用框架***与原生***在最初的一个月并没有太大差别。但随着测试时间的变长，数据量的不断增长，高可用框架的***可用性远高于原生***。

Claims

1.分布式云存储***多服务心跳监测方法，其特征在于，所述方法分布式云存储***中的节点分为三类，分别为管理节点、备份管理节点和其他节点；所述管理节点收集其他节点的运行状态，所述备份管理节点作为管理节点的备份；所述心跳监测包括节点心跳监测与服务心跳监测，具体描述如下：

A，节点心跳监测，具体过程如下：

步骤A-1，在所有节点同时启动Mon服务和Agent服务；

步骤A-2，Agent服务向管理节点报告***信息，并由Collector服务通过共享内存进行交互；

步骤A-3，Mon进程监测节点健康状况并将磁盘心跳写入共享内存；

步骤A-4，判断节点是否发生故障，如果指定时间内，管理节点没有收到节点报告的***信息，则认为节点故障；

B，服务心跳监测，具体过程如下：

步骤B-2，Mon服务获取服务列表，读取服务心跳信息，通过概率阈值判断是否存在故障；若存在故障则重启服务向管理节点报告故障信息；

步骤B-3，由管理服务调用Collector进程保存故障信息。

2.根据权利要求1所述的分布式云存储***多服务心跳监测方法，其特征在于，所述节点心跳是所述管理节点监测***中其他节点的运行健康状态，监测并维护健康状态的手段。

3.根据权利要求1所述的分布式云存储***多服务心跳监测方法，其特征在于，所述服务心跳是agent服务监测其它服务的运行健康状态，监测并维护健康状态的手段。

4.根据权利要求1所述的分布式云存储***多服务心跳监测方法，其特征在于，步骤A-1中，所述所有节点是指管理节点、备份管理节点和其他节点。