CN103763155A - 分布式云存储***多服务心跳监测方法 - Google Patents

分布式云存储***多服务心跳监测方法 Download PDF

Info

Publication number
CN103763155A
CN103763155A CN201410035664.1A CN201410035664A CN103763155A CN 103763155 A CN103763155 A CN 103763155A CN 201410035664 A CN201410035664 A CN 201410035664A CN 103763155 A CN103763155 A CN 103763155A
Authority
CN
China
Prior art keywords
service
node
heartbeat
cloud storage
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410035664.1A
Other languages
English (en)
Inventor
李东辉
胡建
吴小志
朱广新
方方
茹萌
钱琳
庞恒茂
程聪
缪静文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Shanghai Electric Power Co Ltd
Nanjing NARI Group Corp
Original Assignee
State Grid Corp of China SGCC
State Grid Shanghai Electric Power Co Ltd
Nanjing NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Shanghai Electric Power Co Ltd, Nanjing NARI Group Corp filed Critical State Grid Corp of China SGCC
Priority to CN201410035664.1A priority Critical patent/CN103763155A/zh
Publication of CN103763155A publication Critical patent/CN103763155A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了分布式云存储***多服务心跳监测方法,该方法包括节点心跳监测与服务心跳监测两部分;节点心跳监测方法监测节点健康状况,判断节点是否发生故障,如果发生了故障需要通过投票机制选出切换或者重启的方法,完成节点的切换或者重启;服务心跳监测方法定期监测各服务的运行状态;多服务心跳监测方法在高并发读写操作的环境下检测分布式环境节点健康状态,通过线程不断的扫描服务完成自重启服务,以及建立虚ip的方式快速切换服务,保障***的可靠性以及数据的安全性。本发明方法能够有效达到分布式***中每个节点宕机或服务异常的快速检测与重新启动,有效提高分布式文件***的安全性与可靠性,为分布式云存储的企业级应用提供了解决途径。

Description

分布式云存储***多服务心跳监测方法
技术领域
本发明属于计算机网络通信技术领域,具体指的是分布式云存储***多服务心跳监测方法。
背景技术
随着互联网经济的快速发展,社会生产生活的各个领域产生了大量非结构化的数据。面对这些大数据***性的增长,企业以及IT从业者倍感数据存储的压力。大规模分布式云存储***具有海量的存储空间,并支持灵活扩展、高性能访问的文件共享存储平台,对较大数据量和高并发访问的应用提供高效、易用、安全、可靠的服务。
现有的云存储技术往往着眼于提升分布式存储***本身的性能,而忽略了节点宕机和***异常引起的服务中断和数据丢失,这将会给用户带来巨大的损失。当业务处理需要信息***提供7*24小时不间断服务时,对云存储技术的高可用性提出了严峻的挑战。多服务心跳监测通过对云存储中增加心跳监测,及时的处理故障服务,保证了对其内部各个服务的不间断服务。
云存储[1]是在云计算基础上衍生和发展出来的一种新型的存储模型。它将服务器集群、并行网格计算以及分布式文件***等功能进行整合,将网络中各种不同种类的存储设备通过分布式软件***集成起来,协同工作,共同对外提供数据存储和业务访问功能的一个***。
其主要设计诉求为:弹性扩展存储容量以及存取性能;保证数据的安全性,节约存储空间;打破应对高并发读写需求带来的性能瓶颈;保障数据的机密性,不允许非法用户截取、还原数据。
分布式文件***是指文件***管理的物理存储资源不直接连接在本地节点上,而是通过计算机网络与各个节点相连,并对外提供统一的访问接口。目前主流的分布式文件***为:
(1)HDFS:HDFS是Google File System的开源实现,在处理海量的大数据方面有与生俱来的优势,将它部署在低廉的硬件上,可以提供高传输率来快速访问应用程序的数据。如图2所示,HDFS把节点分为NameNode和DataNode。NameNode是唯一的,程序与之通信获取存取位置信息,然后从DataNode上存取文件。
(2)GlusterFS是一个开源的分布式文件***,其凭借着极强的可扩展能力,能够支持PB级存储容量和处理数千客户端并发操作。GlusterFS借助网络将物理分布的存储资源融合在一起,使用独立的全局命名空间来管理数据结构。因此,GlusterFS是具有高可扩展性、高吞吐、高可用性、高可扩展性的分布式文件***。
(3)MogileFS是一个分布式文件存储解决方案,它不需要特殊的核心组件、无单点故障、自动的文件复制、超过RAID的数据可靠性、传输中立,无特殊协议、简单的命名空间等等优点,但其非通用的API设计以及不便的人机交互模式影响了其广泛应用。
(4)MooseFs是一款网络分布式文件***,它把数据分布在多台服务器上,但以用户的角度来看,MFS***只是一块硬盘。MFS可以提供像unix文件***一样的服务,其中包含了层级结构,存取文件属性,创建特殊的文件,符号链接,硬链接等操作。操作简单、易用,其架构采用了主节点与日志节点的结构消除了单点故障。
分布式文件***高可用方案:
(1)HDFS提供的一种叫做BackupNode的主节点高可用方案,它可以为NameNode提供热备节点,减少服务恢复时间。其主要原理为:通过同步更新机制,在Backup Node节点中保存一份与NameNode完全一致的内存镜像,并且当NameNode无法提供服务时,能够自动接替,对外提供服务。但随着文件规模的不断扩大,HA的机制恢复耗时越来越长,这对于需要提供24*7服务的应用***来说是难以接受的。
(2)GlusterFs无元数据服务器设计的好处是没有单点故障,能够有效解决元数据同步的难点问题。它的负面影响是,数据一致问题更加复杂,同时客户端也会相应承担更多的工作,增加了客户端的负载。因此,GlusterFS不可能满足所有的存储需求,其在高可用性上的设计浪费了大量的存储空间以及计算资源,使得该***的使用者们不能有效利用宝贵的磁盘空间。
(3)MogileFS利用数据库用来存放元数据,并采用基于事件的主进程消息总线来管理所有来自于客户端的交互,同时将请求负载平衡到每个节点中,从而形成一个高可用性(HA)的环境以防止单点失败。
(4)MooseFS提供了master与metalogger节点两种服务,metalogger节点每隔24小时从主节点下载元数据日志到本地磁盘,当主节点宕机,metalogger节点将最近一小时的日志与元数据进行合并以恢复元数据,同时启动主节点服务来持续提供服务。其弊端也很明显,当最近一小时的并发读写频繁的时候,元数据日志合并需要耗费大量的时间,主备节点切换也会出现服务终止的现象。
分布式云存储以分布式文件***为基础,形成多种文件共享虚拟存储空间的存储技术。由于每种分布式***都有其特殊的网络拓扑结构以及复杂的网络传输机制,因此如何保障每个分布式节点的高可用性成为摆在分布式***研究人员面前的一道难题。传统分布式文件***的高可用机制主要分为两种:第一是主备节点结构:这种结构的分布式文件***会定时同步元数据日志或将元数据日志放到共享存储、数据库等存储介质中。当主节点宕机时,备用节点会读取、合并当前日志到元数据,恢复分布式***服务。但随着数据量以及数据操作的不断增多,主备节点的切换速度越来越慢,严重影响服务的持续提供。第二是无元数据节点结构:这种结构的分布式***将每个节点看成是地位平等的节点,每个节点都存储元数据与数据块,这样无论分布式环境中的任一节点宕机都不会影响整个文件***对外提供服务。这种方案同样有不能回避的问题,数据一致性需要更大的开销来维持。
发明内容
本发明的目的在于克服现有技术的不足,提出分布式云存储***多服务心跳监测方法。本发明在高并发读写操作的环境下,检测分布式环境下节点健康状态以及快速切换服务,保障***的可靠性以及数据的安全性,从根本上解决分布式***的可靠性问题。
为达到上述目的,本发明所采用的技术方案是:
分布式云存储***多服务心跳监测方法,包括节点心跳监测与服务心跳监测两部分,对于节点,分为三类,分解为管理节点,备份管理节点和其他节点。管理节点是来管理收集其他节点的运行状态。备份管理节点是做为管理节点的备份。节点心跳是管理服务器节点要时刻知道***中其他节点的运行健康状态使用的一种监测并维护健康状态的手段。同样,服务心跳是agent服务要知道其他服务的运行健康状态的一种监测并维护健康状态的手段,下面具体介绍了两种方法:
A,节点心跳监测,具体过程如下:
步骤A-1,在各个节点(包括管理节点,备份管理节点,其他节点)同时启动Mon服务和Agent服务;
步骤A-2,Agent服务向管理服务器主节点报告***信息,并由Collector服务通过共享内存进行交互;
步骤A-3,Mon进程监测节点健康状况并将磁盘心跳写入共享存储NAS;
步骤A-4,判断节点是否发生故障,如果在一段时间之后,管理服务器主节点没有收到节点报告的***信息,则认为节点故障;
B,服务心跳监测,具体过程如下:
步骤B-1,定期监测各服务的运行状态,若不存在故障,则将各服务的运行状态写入共享内存;
步骤B-2,Mon服务获取服务列表,读取服务心跳信息,通过概率阈值判断是否存在故障;若存在故障则重启服务向上级节点报告故障信息;
步骤B-3,由管理服务调用Collector进程保存故障信息。
本发明的有益效果是:本发明提出了分布式云存储***多服务心跳监测方法,该方法包括节点心跳监测与服务心跳监测两部分;节点心跳监测方法监测节点健康状况,判断节点是否发生故障,如果发生了故障需要通过投票机制选出切换或者重启的方法,完成节点的切换或者重启;服务心跳监测方法定期监测各服务的运行状态;多服务心跳监测方法在高并发读写操作的环境下检测分布式环境节点健康状态,通过线程不断的扫描服务完成自重启服务,以及建立虚ip的方式快速切换服务,保障***的可靠性以及数据的安全性。本发明方法能够有效达到分布式***中每个节点宕机或服务异常的快速检测与重新启动,有效提高分布式文件***的安全性与可靠性,为分布式云存储的企业级应用提供了解决途径。
附图说明
图1是节点监测算法流程示意图。
图2是多服务心跳监测算法流程示意图。
图3是主备切换试验。
图4是主节点恢复试验。
图5是数据节点检测恢复试验。
具体实施方式
下面结合附图对本发明提出的分布式云存储***多服务心跳监测方法进行详细说明:
分布式***常常需要检测某一个节点机器的状态,以确定其是否可以正常工作。常用的分布式部署会有两种方式:中心化和去中心化。中心化架构类似于星型架构,比如HDFS的架构,集群中会有单独一个主服务器(如HDFS中的NameNode)和多个从服务器(如HDFS中的DataNode)。一般这种架构,主服务器来管理所有从服务器的状态,所有从服务器的状态信息会在主服务器中保存,而从服务器之间一般不会知道彼此的存在。而去中心化的构架中,没有主次之分,所有的服务器都是平等的,也就是说每个服务器都知道彼此的存在,一般每台服务器上都保存所有服务器的列表。
心跳检测是一种分布式***故障检测方法。下面结合附图对本发明的技术方案做进一步的详细说明:
多服务心跳监测算法分为节点心跳监测与服务心跳监测两部分:
1、节点心跳监测算法描述如下:
(1)在所有节点同时启动MON服务和Agent服务。
(2)Agent服务不断向管理服务器主节点报告***信息,并由Collector服务与共享内存进行交互。
(3)MON进程会不断监测节点健康状况并将磁盘心跳写入共享存储NAS。
(4)最后,由其他节点监控程序来仲裁节点是否发生故障。如果在一段时间之后,管理服务器主节点没有收到其他节点报告的***信息,则认为该节点故障(排除网络导致的故障)。
如图1所示为节点监测算法流程示意图。
多服务心跳监测算法的另一部分为服务心跳监测。
2、服务心跳监测算法
服务心跳监测算法描述如下:
(5)心跳维护线程定期监测各服务的运行状态,若不存在故障将其写入共享内存
(6)MON服务获取服务列表,读取服务心跳信息,通过概率阈值判断其是否存在故障
(7)若存在故障则重启服务向上级节点报告故障信息
(8)最后,由Admin服务调用Collector进程保存故障信息
如图2所示为多服务心跳监测算法流程示意图。
仿真实验:
***可用性Ava表示***正常提供服务的时间占总运行时间的百分比,公式表示如下。
Ava=MTTF/(MTTF+MTTR)
其中MTTF为***平均正常运行时间,MTTR为***平均修复时间
串行分布式***可用性为每个节点之间的可靠性与其它节点无关,但任何节点发生故障时整个***不可用。
令在时间[t,t+T]时间内节点i正常工作的概率为pi,n为分布式***中节点的数目,则整个分布式***在此时间间隔内正常工作的概率为p,公式表示为:
p = Π i = 1 n p i ≈ Π i = 1 n MTTF i MTTF i + MTTR i
并行分布式***可用性为每个节点互相独立,只有当所有节点失效整个***才会失效。
令在[t,t+T]时间内节点i正常工作的概率为pi,则整个分布式***在此时间间隔内正常工作的概率为
Figure BDA0000461560170000062
公式表示为:
p ~ = Π i = 1 n ( 1 - p i ) ≈ 1 - Π i = 1 n ( 1 - MTTF i MTTF i + MTTR i )
本文描述的高可用方案提供串-并行可用性,令第k个节点正常工作的概率为pik,则混合***正常工作概率为:
p ′ ′ = Π t = l n ( 1 - Π k = 1 m l ( 1 - p lk ) ) ≈ Π t = l n ( 1 - Π k = l m l ( 1 - MTTF lk MTTF lk + MTTR lk ) )
可知混合分布式***的正常工作概率为:
p≤p″≤p
对两侧取极限得:
p ′ ′ = lim ( max ( p , p ~ ) )
因此当采用无单点故障的并行分布式***正常运行概率为99.99%时,采用节点高可用与主节点高可用的混合分布式文件***的正常运行极限概率也为99.99%
采用12台dellR720PC服务器,硬件配置如下:Intel E26002路32核,主频2.7GHZ,主节点128G内存,数据节点24G内存,数据节点均为6块15KSAS硬盘raid5,操作***为Red hat6.1。存储***为双控IBM小型中端存储,每节点双千兆网口绑定。分布式***由2个主节点,10个数据节点组成。测试程序清单如下:
(1)javascript读、写程序
(2)loadrunner压力源
(3)nmon监测工具
(4)UCARP虚拟IP工具
(5)测试用bash脚本
(6)高可用算法程序
实验性能分析
本节选取Moosefs作为基准测试分布式文件***,从主备切换时间、主节点重新恢复时间、数据节点服务断开检测恢复时间、高负载读写并发***可用性三方面来评估本文中的分布式云存储高可用框架对原生算法高可用功能的提升,并进行对比分析。
(1)主备切换时间(Standby to host time):由loadrunner服务器分别并发产生100、200、300、400、500个读写请求(比例为60%读,40%写),四个客户端并发读写分布式文件***,突然将主节点电源切断,观察并记录服务停止时间。
如图3所示为主节点与备用节点的切换试验,从图中可以看出随着并发读写数量的不断增长,其服务的中断时间不断增长,在300-400个读写请求之间,服务中断时间显著增长。但500并发读写请求时,服务的中断时间在30s以内,完全符合企业级***可靠性指标。
(2)主节点重新恢复时间:由loadrunner服务器分别并发产生100、200、300、400、500个读写请求(比例为60%读,40%写),四个客户端并发读写分布式文件***,主节点重新启用主服务,备用节点从主服务切换到备用服务,观察并记录恢复时间。从图4中可知主节点恢复时间也同样符合企业级应用标准。
(3)数据节点服务断开检测恢复时间:由loadrunner服务器分别并发产生100、200、300、400、500个读写请求(比例为60%读,40%写),四个客户端并发读写分布式文件***,断开一个数据节点,观察并记录检测恢复时间。由图5中可以看出检测恢复的时间在毫秒级,基本可实现数据节点服务的平滑迁移恢复。
(4)高负载读写并发***可用性:由loadrunner服务器分别并发随机产生读写请求(比例为60%读,40%写),四个客户端并发读写分布式文件***,观察并记录6个月内的***服务正常可用性。
本发明针对人为造成的同样时间、同样故障频率,高可用框架***与原生***在最初的一个月并没有太大差别。但随着测试时间的变长,数据量的不断增长,高可用框架的***可用性远高于原生***。

Claims (4)

1.分布式云存储***多服务心跳监测方法,其特征在于,所述方法分布式云存储***中的节点分为三类,分别为管理节点、备份管理节点和其他节点;所述管理节点收集其他节点的运行状态,所述备份管理节点作为管理节点的备份;所述心跳监测包括节点心跳监测与服务心跳监测,具体描述如下:
A,节点心跳监测,具体过程如下:
步骤A-1,在所有节点同时启动Mon服务和Agent服务;
步骤A-2,Agent服务向管理节点报告***信息,并由Collector服务通过共享内存进行交互;
步骤A-3,Mon进程监测节点健康状况并将磁盘心跳写入共享内存;
步骤A-4,判断节点是否发生故障,如果指定时间内,管理节点没有收到节点报告的***信息,则认为节点故障;
B,服务心跳监测,具体过程如下:
步骤B-1,定期监测各服务的运行状态,若不存在故障,则将各服务的运行状态写入共享内存;
步骤B-2,Mon服务获取服务列表,读取服务心跳信息,通过概率阈值判断是否存在故障;若存在故障则重启服务向管理节点报告故障信息;
步骤B-3,由管理服务调用Collector进程保存故障信息。
2.根据权利要求1所述的分布式云存储***多服务心跳监测方法,其特征在于,所述节点心跳是所述管理节点监测***中其他节点的运行健康状态,监测并维护健康状态的手段。
3.根据权利要求1所述的分布式云存储***多服务心跳监测方法,其特征在于,所述服务心跳是agent服务监测其它服务的运行健康状态,监测并维护健康状态的手段。
4.根据权利要求1所述的分布式云存储***多服务心跳监测方法,其特征在于,步骤A-1中,所述所有节点是指管理节点、备份管理节点和其他节点。
CN201410035664.1A 2014-01-24 2014-01-24 分布式云存储***多服务心跳监测方法 Pending CN103763155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410035664.1A CN103763155A (zh) 2014-01-24 2014-01-24 分布式云存储***多服务心跳监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410035664.1A CN103763155A (zh) 2014-01-24 2014-01-24 分布式云存储***多服务心跳监测方法

Publications (1)

Publication Number Publication Date
CN103763155A true CN103763155A (zh) 2014-04-30

Family

ID=50530318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410035664.1A Pending CN103763155A (zh) 2014-01-24 2014-01-24 分布式云存储***多服务心跳监测方法

Country Status (1)

Country Link
CN (1) CN103763155A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199694A (zh) * 2014-08-27 2014-12-10 山东超越数控电子有限公司 一种基于pxe的操作***自动安装与恢复方法
CN104216803A (zh) * 2014-09-29 2014-12-17 北京奇艺世纪科技有限公司 一种退服节点的数据备份方法及装置
WO2015196692A1 (zh) * 2014-06-24 2015-12-30 中兴通讯股份有限公司 一种云计算***以及云计算***的处理方法和装置
CN106059795A (zh) * 2016-05-16 2016-10-26 乐视控股(北京)有限公司 Web***服务监测和切换方法及装置
CN106156086A (zh) * 2015-03-31 2016-11-23 西门子公司 Hadoop平台***及其主节点日志备份方法
CN106302618A (zh) * 2015-06-11 2017-01-04 阿里巴巴集团控股有限公司 远程控制方法、远程服务器、管理设备和终端
CN106533798A (zh) * 2016-12-15 2017-03-22 北京小米移动软件有限公司 检测方法和装置
CN106789941A (zh) * 2016-11-30 2017-05-31 国电南瑞科技股份有限公司 一种数据库及***应用心跳统一管理的实现方法
CN106936662A (zh) * 2015-12-31 2017-07-07 杭州华为数字技术有限公司 一种实现心跳机制的方法、装置及***
CN107465762A (zh) * 2017-09-14 2017-12-12 郑州云海信息技术有限公司 一种分布式存储***的测试方法及***
CN107612719A (zh) * 2017-08-29 2018-01-19 深圳市盛路物联通讯技术有限公司 物联网接入点的数据备份方法及装置
CN108270634A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种心跳探测的方法及***
CN109271347A (zh) * 2018-09-04 2019-01-25 郑州云海信息技术有限公司 一种分布式文件***存储单元的启动方法、装置及设备
CN109361525A (zh) * 2018-10-25 2019-02-19 珠海派诺科技股份有限公司 重启分布式部署多服务的方法、装置、控制终端及介质
CN109491786A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种基于云平台的任务处理方法和装置
CN109510730A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 分布式***及其监控方法、装置、电子设备及存储介质
CN110417586A (zh) * 2019-07-18 2019-11-05 新华三大数据技术有限公司 服务监控方法、服务节点、服务器及计算机可读存储介质
CN110431533A (zh) * 2016-12-30 2019-11-08 华为技术有限公司 故障恢复的方法、设备和***
CN110764940A (zh) * 2018-07-26 2020-02-07 北京国双科技有限公司 分布式***服务异常的处理方法及装置
CN110968259A (zh) * 2018-09-30 2020-04-07 武汉斗鱼网络科技有限公司 分步式对象存储***、对象储存方法及存储介质
CN111510338A (zh) * 2020-03-09 2020-08-07 苏州浪潮智能科技有限公司 一种分布式块存储网络亚健康测试方法、装置及存储介质
CN112131185A (zh) * 2020-09-22 2020-12-25 江苏安超云软件有限公司 一种超融合分布式存储节点内服务高可用方法及装置
CN112328421A (zh) * 2020-11-05 2021-02-05 腾讯科技(深圳)有限公司 一种***故障处理方法、装置、计算机设备和存储介质
CN113485648A (zh) * 2021-07-14 2021-10-08 华能吉林发电有限公司 基于云平台的存储资源控制***
CN113590712A (zh) * 2021-07-22 2021-11-02 中共四川省委组织部 一种分布式数据库的管理方法、***、设备、存储介质
CN113626098A (zh) * 2021-07-21 2021-11-09 长沙理工大学 一种基于信息交互的数据节点动态配置方法
CN113760607A (zh) * 2021-08-31 2021-12-07 云尖信息技术有限公司 一种双bmc主备和数据同步方法
CN114461141A (zh) * 2021-12-30 2022-05-10 苏州浪潮智能科技有限公司 一种etcd***、节点仲裁方法及***
CN114785811A (zh) * 2022-04-19 2022-07-22 纳贤信息科技(深圳)有限公司 一种实现无中心化集群的方法
CN114817075A (zh) * 2022-06-21 2022-07-29 远江盛邦(北京)网络安全科技股份有限公司 一种进程间心跳检测方法及装置
CN116614521A (zh) * 2023-07-18 2023-08-18 中移(苏州)软件技术有限公司 对接服务方法及***、分布式文件***及双活节点
CN116881984A (zh) * 2023-09-08 2023-10-13 云筑信息科技(成都)有限公司 一种数据监测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储***及其实现方法
CN102387048A (zh) * 2011-10-25 2012-03-21 中兴通讯股份有限公司 一种用于分布式文件***的监控方法及分布式文件***
CN103117901A (zh) * 2013-02-01 2013-05-22 华为技术有限公司 一种分布式心跳检测方法、装置及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储***及其实现方法
CN102387048A (zh) * 2011-10-25 2012-03-21 中兴通讯股份有限公司 一种用于分布式文件***的监控方法及分布式文件***
CN103117901A (zh) * 2013-02-01 2013-05-22 华为技术有限公司 一种分布式心跳检测方法、装置及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李东辉等: "分布式云存储高可用框架研究", 《计算机与数字工程》 *

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323271B (zh) * 2014-06-24 2020-04-24 中兴通讯股份有限公司 一种云计算***以及云计算***的处理方法和装置
WO2015196692A1 (zh) * 2014-06-24 2015-12-30 中兴通讯股份有限公司 一种云计算***以及云计算***的处理方法和装置
CN105323271A (zh) * 2014-06-24 2016-02-10 中兴通讯股份有限公司 一种云计算***以及云计算***的处理方法和装置
CN104199694A (zh) * 2014-08-27 2014-12-10 山东超越数控电子有限公司 一种基于pxe的操作***自动安装与恢复方法
CN104216803A (zh) * 2014-09-29 2014-12-17 北京奇艺世纪科技有限公司 一种退服节点的数据备份方法及装置
CN106156086A (zh) * 2015-03-31 2016-11-23 西门子公司 Hadoop平台***及其主节点日志备份方法
CN106302618A (zh) * 2015-06-11 2017-01-04 阿里巴巴集团控股有限公司 远程控制方法、远程服务器、管理设备和终端
CN106936662A (zh) * 2015-12-31 2017-07-07 杭州华为数字技术有限公司 一种实现心跳机制的方法、装置及***
US11128718B2 (en) 2015-12-31 2021-09-21 Huawei Technologies Co., Ltd. Method, apparatus, and system for implementing heartbeat mechanism
CN106936662B (zh) * 2015-12-31 2020-01-31 杭州华为数字技术有限公司 一种实现心跳机制的方法、装置及***
CN106059795A (zh) * 2016-05-16 2016-10-26 乐视控股(北京)有限公司 Web***服务监测和切换方法及装置
CN106789941A (zh) * 2016-11-30 2017-05-31 国电南瑞科技股份有限公司 一种数据库及***应用心跳统一管理的实现方法
CN106789941B (zh) * 2016-11-30 2019-12-03 国电南瑞科技股份有限公司 一种数据库及***应用心跳统一管理的实现方法
CN106533798A (zh) * 2016-12-15 2017-03-22 北京小米移动软件有限公司 检测方法和装置
CN106533798B (zh) * 2016-12-15 2019-09-20 北京小米移动软件有限公司 检测方法和装置
CN108270634A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种心跳探测的方法及***
CN110431533B (zh) * 2016-12-30 2021-09-14 华为技术有限公司 故障恢复的方法、设备和***
CN110431533A (zh) * 2016-12-30 2019-11-08 华为技术有限公司 故障恢复的方法、设备和***
US11102084B2 (en) 2016-12-30 2021-08-24 Huawei Technologies Co., Ltd. Fault rectification method, device, and system
CN108270634B (zh) * 2016-12-30 2021-08-24 中移(苏州)软件技术有限公司 一种心跳探测的方法及***
CN107612719B (zh) * 2017-08-29 2021-03-19 深圳市盛路物联通讯技术有限公司 物联网接入点的数据备份方法及装置
CN107612719A (zh) * 2017-08-29 2018-01-19 深圳市盛路物联通讯技术有限公司 物联网接入点的数据备份方法及装置
CN107465762A (zh) * 2017-09-14 2017-12-12 郑州云海信息技术有限公司 一种分布式存储***的测试方法及***
CN107465762B (zh) * 2017-09-14 2020-12-04 郑州云海信息技术有限公司 一种分布式存储***的测试方法及***
CN109510730A (zh) * 2017-09-15 2019-03-22 阿里巴巴集团控股有限公司 分布式***及其监控方法、装置、电子设备及存储介质
CN109510730B (zh) * 2017-09-15 2022-04-26 阿里巴巴集团控股有限公司 分布式***及其监控方法、装置、电子设备及存储介质
CN110764940A (zh) * 2018-07-26 2020-02-07 北京国双科技有限公司 分布式***服务异常的处理方法及装置
CN109271347B (zh) * 2018-09-04 2022-04-22 郑州云海信息技术有限公司 一种分布式文件***存储单元的启动方法、装置及设备
CN109271347A (zh) * 2018-09-04 2019-01-25 郑州云海信息技术有限公司 一种分布式文件***存储单元的启动方法、装置及设备
CN110968259A (zh) * 2018-09-30 2020-04-07 武汉斗鱼网络科技有限公司 分步式对象存储***、对象储存方法及存储介质
CN109361525A (zh) * 2018-10-25 2019-02-19 珠海派诺科技股份有限公司 重启分布式部署多服务的方法、装置、控制终端及介质
CN109491786A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种基于云平台的任务处理方法和装置
CN110417586A (zh) * 2019-07-18 2019-11-05 新华三大数据技术有限公司 服务监控方法、服务节点、服务器及计算机可读存储介质
CN110417586B (zh) * 2019-07-18 2022-04-08 新华三大数据技术有限公司 服务监控方法、服务节点、服务器及计算机可读存储介质
CN111510338A (zh) * 2020-03-09 2020-08-07 苏州浪潮智能科技有限公司 一种分布式块存储网络亚健康测试方法、装置及存储介质
CN111510338B (zh) * 2020-03-09 2022-04-26 苏州浪潮智能科技有限公司 一种分布式块存储网络亚健康测试方法、装置及存储介质
CN112131185A (zh) * 2020-09-22 2020-12-25 江苏安超云软件有限公司 一种超融合分布式存储节点内服务高可用方法及装置
CN112131185B (zh) * 2020-09-22 2022-08-02 江苏安超云软件有限公司 一种超融合分布式存储节点内服务高可用方法及装置
CN112328421A (zh) * 2020-11-05 2021-02-05 腾讯科技(深圳)有限公司 一种***故障处理方法、装置、计算机设备和存储介质
CN113485648A (zh) * 2021-07-14 2021-10-08 华能吉林发电有限公司 基于云平台的存储资源控制***
CN113626098A (zh) * 2021-07-21 2021-11-09 长沙理工大学 一种基于信息交互的数据节点动态配置方法
CN113626098B (zh) * 2021-07-21 2024-05-03 长沙理工大学 一种基于信息交互的数据节点动态配置方法
CN113590712A (zh) * 2021-07-22 2021-11-02 中共四川省委组织部 一种分布式数据库的管理方法、***、设备、存储介质
CN113760607A (zh) * 2021-08-31 2021-12-07 云尖信息技术有限公司 一种双bmc主备和数据同步方法
CN114461141B (zh) * 2021-12-30 2023-08-18 苏州浪潮智能科技有限公司 一种etcd***、节点仲裁方法及***
CN114461141A (zh) * 2021-12-30 2022-05-10 苏州浪潮智能科技有限公司 一种etcd***、节点仲裁方法及***
CN114785811A (zh) * 2022-04-19 2022-07-22 纳贤信息科技(深圳)有限公司 一种实现无中心化集群的方法
CN114817075B (zh) * 2022-06-21 2022-09-13 远江盛邦(北京)网络安全科技股份有限公司 一种进程间心跳检测方法及装置
CN114817075A (zh) * 2022-06-21 2022-07-29 远江盛邦(北京)网络安全科技股份有限公司 一种进程间心跳检测方法及装置
CN116614521A (zh) * 2023-07-18 2023-08-18 中移(苏州)软件技术有限公司 对接服务方法及***、分布式文件***及双活节点
CN116614521B (zh) * 2023-07-18 2023-10-13 中移(苏州)软件技术有限公司 对接服务方法及***、分布式文件***及双活节点
CN116881984A (zh) * 2023-09-08 2023-10-13 云筑信息科技(成都)有限公司 一种数据监测方法
CN116881984B (zh) * 2023-09-08 2024-02-23 云筑信息科技(成都)有限公司 一种数据监测方法

Similar Documents

Publication Publication Date Title
CN103763155A (zh) 分布式云存储***多服务心跳监测方法
US10713135B2 (en) Data disaster recovery method, device and system
CN103268318B (zh) 一种强一致性的分布式键值数据库***及其读写方法
CN105959151B (zh) 一种高可用的流式处理***及方法
CN101706805B (zh) 对象存储方法及其***
CN106850260A (zh) 一种虚拟化资源管理平台的部署方法和装置
CN103457775B (zh) 一种基于角色的高可用虚拟机池化管理***
JP2004334574A (ja) ストレージの運用管理プログラム、運用管理方法及び管理計算機
KR20060117505A (ko) 비공유 공간 데이터베이스 클러스터에서 확장성 해싱을이용한 클러스터 로그 기반의 회복 방법
CN103152414A (zh) 一种基于云计算的高可用***及其实现方法
CN102394914A (zh) 集群脑裂处理方法和装置
WO2012145963A1 (zh) 数据管理***及方法
CN105871603A (zh) 一种基于内存数据网格的实时流式数据处理失效恢复***及方法
WO2012097588A1 (zh) 数据存储方法、设备和***
CN105493474A (zh) 用于支持用于同步分布式数据网格中的数据的分区级别日志的***及方法
CN102902615A (zh) 一种Lustre并行文件***错误报警方法及其***
CN108600316A (zh) 云存储服务的数据管理方法、***及设备
CN104298574A (zh) 一种数据高速存储处理***
CN103384266A (zh) 一种基于文件级实时同步的Parastor200管理节点高可用方法
CN108512753B (zh) 一种集群文件***中消息传输的方法及装置
CN105827678A (zh) 一种基于高可用架构下的通信方法和节点
US9367413B2 (en) Detecting data loss during site switchover
CN111800484A (zh) 机动边缘信息服务***的服务抗毁接替方法
CN112887367B (zh) 实现分布式集群高可用的方法、***及计算机可读介质
WO2015196692A1 (zh) 一种云计算***以及云计算***的处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140430

WD01 Invention patent application deemed withdrawn after publication