CN103327105A

CN103327105A - hadoop***中从属节点服务自动恢复方法

Info

Publication number: CN103327105A
Application number: CN2013102581245A
Authority: CN
Inventors: 井淑明
Original assignee: BEIJING OPZOON TECHNOLOGY Co Ltd
Current assignee: BEIJING OPZOON TECHNOLOGY Co Ltd
Priority date: 2013-06-26
Filing date: 2013-06-26
Publication date: 2013-09-25
Anticipated expiration: 2033-06-26
Also published as: CN103327105B

Abstract

本发明提供一种Hadoop***中从属节点服务自动恢复的方法，该方法包括：在节点集群中部署Gluster分布式文件存储***，提供存储空间；在主控节点上挂载所述存储空间，配置主控节点，并完成hadoop***的建立，所述配置包括：将所述主控节点的数据存储在所述存储空间；从属节点恢复服务，包括：将所述存储有主控节点数据的存储空间挂载到所述从属节点本地，并查看所述从属节点本地的namespaceID与所述存储空间中的namespaceID是否相同，若不同则将从属节点本地的namespaceID修改为存储空间的namespaceID，从属节点启动服务。通过本发明完成了从属节点在故障后服务的自动恢复，避免了人为查找和更改工作，降低人为操作失误的风险和人力成本的投入。

Description

hadoop***中从属节点服务自动恢复方法

技术领域

本发明涉及计算机分布式计算领域，特别涉及一种Hadoop***中从属节点服务自动恢复方法。

背景技术

Hadoop是一个能够让用户轻松架设和使用的分布式计算平台，Hadoop分布式文件***(HDFS)被设计成适合运行在通用硬件上的分布式文件***，具有高效性、高扩展性、高容错性，可移植性等优点。因此hadoop是架设大型数据中心的最佳选择。hadoop存在唯一的主控节点(也称为namenode)和多个从属节点，主控节点负责管理文件***名称空间和控制外部客户机的访问，并将任务分配给从属节点去执行。传统的Hadoop分布式集群的架设和启动过程：1、首先是启动一个节点作为主控节点，并将主控节点的数据存储在本地；2、启动其他节点作为从属节点，从属节点启动后，主动联系主控节点进行注册和信息同步，建立起hadoop分布式文件***。

在主控节点和从属节点的本地数据中，都存储着一个全局的namespaceID，在从属节点联系主控节点时，只有namespaceID与主控节点的namespaceID一致，从属节点才能加入Hadoop***中，提供服务。在实际应用中，从属节点的服务器由于断电等异常情况导致重启，重启后经常会出现所存储的namespaceID和主控节点的namespaceID不一致，导致本节点不能加入hadoop***中，从而不能够恢复从属节点的服务，往往恢复的手段是管理员找到所有异常的节点，手动的改变从属节点的namespaceID与主控节点一致，由于hadoop应用的场景多是大型的数据中心，排查和更改都是一个繁重的工作，且引入了人为操作失误的风险。

发明内容

(一)所要解决的技术问题

针对上述问题，本发明提供了一种Hadoop***中从属节点服务自动恢复方法，避免了人为操作失误的风险。

(二)技术方案

本发明提供一种hadoop***中从属节点服务自动恢复方法，该方法包括：

S1、在节点集群中部署Gluster分布式文件存储***，提供存储空间；

S2、在主控节点上挂载所述存储空间，配置主控节点，并完成hadoop***的建立，所述配置包括：将所述主控节点的数据存储在所述存储空间；

S3、从属节点恢复服务，包括：将所述存储有主控节点数据的存储空间挂载到所述从属节点本地，并查看所述从属节点本地的namespaceID与所述存储空间中的namespaceID是否相同，若不同则将从属节点本地的namespaceID修改为存储空间的namespaceID，从属节点启动服务。

其中，还包括步骤S4：从属节点服务恢复后卸载挂载在从属节点的所述存储有主控节点数据的存储空间。

其中，所述步骤S1包括：

任意选择集群中的3个节点，在每个节点上启动Gluster服务器服务，该服务将所在节点上的部分磁盘提供出来，结合构成Gluster分布式文件存储***的存储空间；在每个节点上部署Gluster客户端服务。

(三)有益效果

本发明提供了一种Hadoop***中从属节点服务自动恢复方法，通过使用Gluster分布式文件存储***，令主控节点的数据可一直不断写入挂载的存储空间中，利用Gluster***，并不需要额外架设存储设备，只需在原有的节点上启动一些服务，部署成本基本为0，并且Gluster的访问很灵活；通过将Gluster***的存储空间临时挂载在从属节点本地，查看全局namespaceID是否相同，不同则修改，再启动恢复从属节点服务，该恢复过程完全自动控制，避免了人为查找和更改工作，降低人为操作失误的风险和人力成本的投入。

附图说明

图1为本发明方法提供的步骤流程图。

具体实施方式

本发明提供了一种hadoop***中从属节点服务自动恢复方法，本发明中的节点指的是物理服务器，节点集群即是服务器集群，在所有的节点中选择一个启动hadoop***的主控(即master)的服务，这台就是主控节点，其他节点启动hadoop***的从属(slave)服务，称为从属节点，这样就构成了一个hadoop服务的节点集群。如图1所示该方法步骤流程为：

Gluster分布式文件存储***即Gluster***，任意选择集群中的3个节点，在每个节点上启动Gluster服务器(Gluster server)服务，该服务将其所在节点上的部分磁盘提供出来，三个节点提供的磁盘结合在一起构成Gluster***的存储空间(volume)；

在节点集群中每个节点上部署Gluster客户端(Gluster client)服务，令每个节点都可以将Gluster***的volume挂载到本地，并访问和修改volume上存储的内容，且访问方式灵活。

对主控节点来说，挂载volume后，一直保持挂载，并配置hadoop***主控服务的数据的存放位置为volume的挂载点，这样hadoop***的主控服务数据(包括namespaceID)不断的写入volume中。

在第一次安装部署从属节点时，由于从属节点还没有数据，所以直接启动从属节点服务，从属节点自动与主控节点联系，并加入hadoop分布***中，完成hadoop***的建立。

S3、从属节点恢复服务，包括：将所述存储有主控节点数据的存储空间挂载到所述从属节点本地，并查看所述从属节点本地的namespaceID与所述存储空间中的namespaceID是否相同，若不同则将从属节点本地的namespaceID修改为存储空间的namespaceID，从属节点启动服务

从属节点发生故障如物理机宕机等，导致从属节点失去服务能力。当物理机重启后从属节点要重启恢复服务，从属节点在启动服务之前都会执行：从属节点挂载volume，得到主控节点写入的namespaceID，并和自己本地的namespaceID比较，如果和自己的不一样，就把自己的改成主控节点的namespaceID，然后再启动服务，若查看一致，则从属节点直接启动服务，即从属节点主动联系主控节点进行注册和信息同步，加入Hadoop***。

本发明在每次从属节点因故重新启动时，都主动的和主控节点进行同步namespaceID，使从属节点的namespaceID和主控节点保持一致，从而避免从属节点不能回复服务能力；且恢复过程中完全由程序自动控制，降低人为操作失误的风险和人力成本的投入；

同时Gluster***提供了自动备份的机制，即在主控节点挂载了volume，向其中写入数据时，实际在组成此volume的三个Gluster server的节点上都备份了写入的数据，所以其中一台节点发生故障，不会导致数据丢失，增强了主控节点的安全性。

其中，还包括步骤S4、从属节点服务恢复后卸载挂载在从属节点的所述存储有主控节点数据的存储空间。

从属节点恢复服务后，挂载的存储空间失去作用，故将其卸载。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种hadoop***中从属节点服务自动恢复方法，其特征在于，该方法包括：

2.如权利要求1所述方法，其特征在于，还包括步骤S4：从属节点服务恢复后卸载挂载在从属节点的所述存储有主控节点数据的存储空间。

3.如权利要求1所述方法，其特征在于，所述步骤S1包括：