CN103327105A - hadoop***中从属节点服务自动恢复方法 - Google Patents

hadoop***中从属节点服务自动恢复方法 Download PDF

Info

Publication number
CN103327105A
CN103327105A CN2013102581245A CN201310258124A CN103327105A CN 103327105 A CN103327105 A CN 103327105A CN 2013102581245 A CN2013102581245 A CN 2013102581245A CN 201310258124 A CN201310258124 A CN 201310258124A CN 103327105 A CN103327105 A CN 103327105A
Authority
CN
China
Prior art keywords
node
slave node
service
namespaceid
main controlled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102581245A
Other languages
English (en)
Other versions
CN103327105B (zh
Inventor
井淑明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING OPZOON TECHNOLOGY Co Ltd
Original Assignee
BEIJING OPZOON TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING OPZOON TECHNOLOGY Co Ltd filed Critical BEIJING OPZOON TECHNOLOGY Co Ltd
Priority to CN201310258124.5A priority Critical patent/CN103327105B/zh
Publication of CN103327105A publication Critical patent/CN103327105A/zh
Application granted granted Critical
Publication of CN103327105B publication Critical patent/CN103327105B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种Hadoop***中从属节点服务自动恢复的方法,该方法包括:在节点集群中部署Gluster分布式文件存储***,提供存储空间;在主控节点上挂载所述存储空间,配置主控节点,并完成hadoop***的建立,所述配置包括:将所述主控节点的数据存储在所述存储空间;从属节点恢复服务,包括:将所述存储有主控节点数据的存储空间挂载到所述从属节点本地,并查看所述从属节点本地的namespaceID与所述存储空间中的namespaceID是否相同,若不同则将从属节点本地的namespaceID修改为存储空间的namespaceID,从属节点启动服务。通过本发明完成了从属节点在故障后服务的自动恢复,避免了人为查找和更改工作,降低人为操作失误的风险和人力成本的投入。

Description

hadoop***中从属节点服务自动恢复方法
技术领域
本发明涉及计算机分布式计算领域,特别涉及一种Hadoop***中从属节点服务自动恢复方法。
背景技术
Hadoop是一个能够让用户轻松架设和使用的分布式计算平台,Hadoop分布式文件***(HDFS)被设计成适合运行在通用硬件上的分布式文件***,具有高效性、高扩展性、高容错性,可移植性等优点。因此hadoop是架设大型数据中心的最佳选择。hadoop存在唯一的主控节点(也称为namenode)和多个从属节点,主控节点负责管理文件***名称空间和控制外部客户机的访问,并将任务分配给从属节点去执行。传统的Hadoop分布式集群的架设和启动过程:1、首先是启动一个节点作为主控节点,并将主控节点的数据存储在本地;2、启动其他节点作为从属节点,从属节点启动后,主动联系主控节点进行注册和信息同步,建立起hadoop分布式文件***。
在主控节点和从属节点的本地数据中,都存储着一个全局的namespaceID,在从属节点联系主控节点时,只有namespaceID与主控节点的namespaceID一致,从属节点才能加入Hadoop***中,提供服务。在实际应用中,从属节点的服务器由于断电等异常情况导致重启,重启后经常会出现所存储的namespaceID和主控节点的namespaceID不一致,导致本节点不能加入hadoop***中,从而不能够恢复从属节点的服务,往往恢复的手段是管理员找到所有异常的节点,手动的改变从属节点的namespaceID与主控节点一致,由于hadoop应用的场景多是大型的数据中心,排查和更改都是一个繁重的工作,且引入了人为操作失误的风险。
发明内容
(一)所要解决的技术问题
针对上述问题,本发明提供了一种Hadoop***中从属节点服务自动恢复方法,避免了人为操作失误的风险。
(二)技术方案
本发明提供一种hadoop***中从属节点服务自动恢复方法,该方法包括:
S1、在节点集群中部署Gluster分布式文件存储***,提供存储空间;
S2、在主控节点上挂载所述存储空间,配置主控节点,并完成hadoop***的建立,所述配置包括:将所述主控节点的数据存储在所述存储空间;
S3、从属节点恢复服务,包括:将所述存储有主控节点数据的存储空间挂载到所述从属节点本地,并查看所述从属节点本地的namespaceID与所述存储空间中的namespaceID是否相同,若不同则将从属节点本地的namespaceID修改为存储空间的namespaceID,从属节点启动服务。
其中,还包括步骤S4:从属节点服务恢复后卸载挂载在从属节点的所述存储有主控节点数据的存储空间。
其中,所述步骤S1包括:
任意选择集群中的3个节点,在每个节点上启动Gluster服务器服务,该服务将所在节点上的部分磁盘提供出来,结合构成Gluster分布式文件存储***的存储空间;在每个节点上部署Gluster客户端服务。
(三)有益效果
本发明提供了一种Hadoop***中从属节点服务自动恢复方法,通过使用Gluster分布式文件存储***,令主控节点的数据可一直不断写入挂载的存储空间中,利用Gluster***,并不需要额外架设存储设备,只需在原有的节点上启动一些服务,部署成本基本为0,并且Gluster的访问很灵活;通过将Gluster***的存储空间临时挂载在从属节点本地,查看全局namespaceID是否相同,不同则修改,再启动恢复从属节点服务,该恢复过程完全自动控制,避免了人为查找和更改工作,降低人为操作失误的风险和人力成本的投入。
附图说明
图1为本发明方法提供的步骤流程图。
具体实施方式
本发明提供了一种hadoop***中从属节点服务自动恢复方法,本发明中的节点指的是物理服务器,节点集群即是服务器集群,在所有的节点中选择一个启动hadoop***的主控(即master)的服务,这台就是主控节点,其他节点启动hadoop***的从属(slave)服务,称为从属节点,这样就构成了一个hadoop服务的节点集群。如图1所示该方法步骤流程为:
S1、在节点集群中部署Gluster分布式文件存储***,提供存储空间;
Gluster分布式文件存储***即Gluster***,任意选择集群中的3个节点,在每个节点上启动Gluster服务器(Gluster server)服务,该服务将其所在节点上的部分磁盘提供出来,三个节点提供的磁盘结合在一起构成Gluster***的存储空间(volume);
在节点集群中每个节点上部署Gluster客户端(Gluster client)服务,令每个节点都可以将Gluster***的volume挂载到本地,并访问和修改volume上存储的内容,且访问方式灵活。
S2、在主控节点上挂载所述存储空间,配置主控节点,并完成hadoop***的建立,所述配置包括:将所述主控节点的数据存储在所述存储空间;
对主控节点来说,挂载volume后,一直保持挂载,并配置hadoop***主控服务的数据的存放位置为volume的挂载点,这样hadoop***的主控服务数据(包括namespaceID)不断的写入volume中。
在第一次安装部署从属节点时,由于从属节点还没有数据,所以直接启动从属节点服务,从属节点自动与主控节点联系,并加入hadoop分布***中,完成hadoop***的建立。
S3、从属节点恢复服务,包括:将所述存储有主控节点数据的存储空间挂载到所述从属节点本地,并查看所述从属节点本地的namespaceID与所述存储空间中的namespaceID是否相同,若不同则将从属节点本地的namespaceID修改为存储空间的namespaceID,从属节点启动服务
从属节点发生故障如物理机宕机等,导致从属节点失去服务能力。当物理机重启后从属节点要重启恢复服务,从属节点在启动服务之前都会执行:从属节点挂载volume,得到主控节点写入的namespaceID,并和自己本地的namespaceID比较,如果和自己的不一样,就把自己的改成主控节点的namespaceID,然后再启动服务,若查看一致,则从属节点直接启动服务,即从属节点主动联系主控节点进行注册和信息同步,加入Hadoop***。
本发明在每次从属节点因故重新启动时,都主动的和主控节点进行同步namespaceID,使从属节点的namespaceID和主控节点保持一致,从而避免从属节点不能回复服务能力;且恢复过程中完全由程序自动控制,降低人为操作失误的风险和人力成本的投入;
同时Gluster***提供了自动备份的机制,即在主控节点挂载了volume,向其中写入数据时,实际在组成此volume的三个Gluster server的节点上都备份了写入的数据,所以其中一台节点发生故障,不会导致数据丢失,增强了主控节点的安全性。
其中,还包括步骤S4、从属节点服务恢复后卸载挂载在从属节点的所述存储有主控节点数据的存储空间。
从属节点恢复服务后,挂载的存储空间失去作用,故将其卸载。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (3)

1.一种hadoop***中从属节点服务自动恢复方法,其特征在于,该方法包括:
S1、在节点集群中部署Gluster分布式文件存储***,提供存储空间;
S2、在主控节点上挂载所述存储空间,配置主控节点,并完成hadoop***的建立,所述配置包括:将所述主控节点的数据存储在所述存储空间;
S3、从属节点恢复服务,包括:将所述存储有主控节点数据的存储空间挂载到所述从属节点本地,并查看所述从属节点本地的namespaceID与所述存储空间中的namespaceID是否相同,若不同则将从属节点本地的namespaceID修改为存储空间的namespaceID,从属节点启动服务。
2.如权利要求1所述方法,其特征在于,还包括步骤S4:从属节点服务恢复后卸载挂载在从属节点的所述存储有主控节点数据的存储空间。
3.如权利要求1所述方法,其特征在于,所述步骤S1包括:
任意选择集群中的3个节点,在每个节点上启动Gluster服务器服务,该服务将所在节点上的部分磁盘提供出来,结合构成Gluster分布式文件存储***的存储空间;在每个节点上部署Gluster客户端服务。
CN201310258124.5A 2013-06-26 2013-06-26 hadoop***中从属节点服务自动恢复方法 Expired - Fee Related CN103327105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310258124.5A CN103327105B (zh) 2013-06-26 2013-06-26 hadoop***中从属节点服务自动恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310258124.5A CN103327105B (zh) 2013-06-26 2013-06-26 hadoop***中从属节点服务自动恢复方法

Publications (2)

Publication Number Publication Date
CN103327105A true CN103327105A (zh) 2013-09-25
CN103327105B CN103327105B (zh) 2016-09-07

Family

ID=49195626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310258124.5A Expired - Fee Related CN103327105B (zh) 2013-06-26 2013-06-26 hadoop***中从属节点服务自动恢复方法

Country Status (1)

Country Link
CN (1) CN103327105B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986789A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种实现基于nfs的hadoop ha集群中nfs节点双机冗余的方法
CN111382137A (zh) * 2020-03-16 2020-07-07 上海英方软件股份有限公司 一种Hadoop集群文件备份***及方法
CN114020357A (zh) * 2021-11-04 2022-02-08 湖北美和易思教育科技有限公司 namenode节点的启动方法、装置、***及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161294A1 (en) * 2009-12-30 2011-06-30 Sun Microsystems, Inc. Method for determining whether to dynamically replicate data
CN102737130A (zh) * 2012-06-21 2012-10-17 广州从兴电子开发有限公司 处理hdfs元数据的方法及***
CN103167035A (zh) * 2013-03-15 2013-06-19 汉柏科技有限公司 HDFS中NameNode单点失效的解决方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161294A1 (en) * 2009-12-30 2011-06-30 Sun Microsystems, Inc. Method for determining whether to dynamically replicate data
CN102737130A (zh) * 2012-06-21 2012-10-17 广州从兴电子开发有限公司 处理hdfs元数据的方法及***
CN103167035A (zh) * 2013-03-15 2013-06-19 汉柏科技有限公司 HDFS中NameNode单点失效的解决方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986789A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种实现基于nfs的hadoop ha集群中nfs节点双机冗余的方法
CN111382137A (zh) * 2020-03-16 2020-07-07 上海英方软件股份有限公司 一种Hadoop集群文件备份***及方法
CN114020357A (zh) * 2021-11-04 2022-02-08 湖北美和易思教育科技有限公司 namenode节点的启动方法、装置、***及介质
CN114020357B (zh) * 2021-11-04 2024-05-03 湖北美和易思教育科技有限公司 namenode节点的启动方法、装置、***及介质

Also Published As

Publication number Publication date
CN103327105B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
US9727429B1 (en) Method and system for immediate recovery of replicated virtual machines
US9201736B1 (en) Methods and apparatus for recovery of complex assets in distributed information processing systems
US10565071B2 (en) Smart data replication recoverer
CN109189860A (zh) 一种基于Kubernetes***的MySQL主备增量同步方法
CN103176831A (zh) 一种虚拟机***及其管理方法
WO2016078529A1 (zh) 业务处理方法、装置及***
US9525733B2 (en) Method and system for data synchronization
CN105915391B (zh) 基于单阶段提交并具备自恢复功能的分布式键值存储方法
EP2542976B1 (en) Method and apparatus of backing-up subversion repository
CN102937955A (zh) 一种基于MySQL双存储引擎的内存数据库实现方法
CN103488721A (zh) 主备板的数据库双向同步方法和***
CN110995871A (zh) 一种实现kv存储服务高可用的方法
CN103327105A (zh) hadoop***中从属节点服务自动恢复方法
CN111078352A (zh) 一种基于kvm虚拟化***的双机热备部署方法及***
CN106502830B (zh) 一种基于Btrfs文件***的***备份还原方法
CN107179934B (zh) 云计算环境中虚拟机自动还原的方法和***
CN113297173B (zh) 分布式数据库集群管理方法及装置、电子设备
CN113986450A (zh) 一种虚拟机备份方法及装置
CN117763046A (zh) 集群间数据同步的方法、装置、设备及存储介质
CN105323271B (zh) 一种云计算***以及云计算***的处理方法和装置
CN111984474B (zh) 一种双控集群故障恢复的方法、***及设备
CN113438111A (zh) 基于Raft分布式恢复RabbitMQ网络分区的方法及应用
CN110532134B (zh) Nas数据备份容灾方法及装置
CN105868052A (zh) 一种异地容灾备份处理方法及装置
CN111680040A (zh) 数据表处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907

Termination date: 20180626

CF01 Termination of patent right due to non-payment of annual fee