CN104572357A

CN104572357A - 一种用于hdfs***的备份和恢复方法

Info

Publication number: CN104572357A
Application number: CN201410841786.XA
Authority: CN
Inventors: 余宏亮; 王钰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2015-04-29

Abstract

本发明公开了一种用于HDFS***的备份和恢复方法，包括如下步骤：向备份服务器传送备份数据的步骤：输入备份命令，生成一次全备份；检测HDFS***行为，并定时生成增量备份；将增量备份多线程传输至备份服务器；从备份服务器获取备份数据的步骤：指定文件恢复选项参数；按文件恢复选项参数从备份服务器下载备份数据。本发明在数据块备份过程中，通过校验哈希值寻找相同数据块来减少网络传输；在一个全新的任意台机器组成的HDFS***上进行任意版本的数据恢复；在备份服务器支持版本浏览以及最新版本备份的完整查看等功能，可以实现高效的分布式文件***备份和恢复。

Description

一种用于HDFS***的备份和恢复方法

技术领域

本发明涉及一种用于HDFS***的备份和恢复方法，属于数据处理技术领域。

背景技术

随着大数据时代的到来，数据信息日益重要，数据保护问题日渐突出，各种灾难性事件给用户敲醒很多警钟。数据保护、数据的容灾是非常重要的话题。

据统计，导致***灾难的原因分布比例一般为:硬件故障占44％、人为错误占32％、软件故障占14％、病毒影响占7％、自然灾难占3％。数据容灾***，就是为计算机信息***提供的一个能应付各种灾难的环境。当计算机***在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时，容灾***将保证用户数据的安全性。甚至，一个更加完善的容灾***，还能提供不间断的应用服务。

HDFS(Hadoop distributed filesystem，Hadoop分布式文件***)被设计成适合运行在通用硬件上的分布式文件***。它和现有的分布式文件***有很多共同点。但同时，它和其他的分布式文件***的区别也是很明显的。HDFS是一个高度容错性的***，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

随着HDFS的使用越来越普遍，如何把HDFS中的大量数据快速准确地备份到远端服务器，并且能够在指定的集群上迅速恢复成为了一个显著问题。要解决这个问题，需要考虑的速度取决于数据结构的设计、增量生成速度、传输速度和并行度、数据删冗程度等各种因素。

发明内容

本发明要解决的技术问题是：实现HDFS的快速备份和恢复。

为实现上述的发明目的，本发明提供了一种用于HDFS***的备份和恢复方法，包括如下步骤：

向备份服务器传送备份数据的步骤：

输入备份命令，生成一次全备份；

检测HDFS***行为，并定时生成增量备份；

将增量备份传输至备份服务器；

从备份服务器获取备份数据的步骤：

指定文件恢复选项参数；

按文件恢复选项参数从备份服务器下载备份数据。

其中较优地，所述输入备份命令，生成一次全备份的步骤具体包括：

在配置文件中进行配置，输入备份命令，进行一次全备份；

建立日志文件；

将HDFS元数据序列化，并将序列化后的文件和日志文件并传输至备份服务器；

生成所有数据块的列表；

通过心跳机制向备份服务器传输所有数据块列表中的数据。

其中较优地，所述配置文件包括：备份服务器的地址和备份时间间隔。

其中较优地，所述检测HDFS***行为，并定时生成增量备份的步骤具体包括：

检测HDFS***行为并记录元数据的改变；

将生成的数据增量记录到发生变化的数据块列表。

其中较优地，所述数据增量中包括数据块编号、时间戳和数据块的长度。

其中较优地，所述将增量备份多线程传输至备份服务器的步骤包括：

启动定时服务，并定时生成空日志文件，将旧的日志文件传输至备份服务器；

将发生改变的数据块列表通过心跳机制分配调度给相应的数据节点；

数据节点向服务器传输数据块。

其中较优地，所述数据节点向服务器传输数据块的步骤具体包括：

将要传输的数据拆切割为若干数据包；

询问备份服务器是否有切割完的数据包；

向服务器传输备份服务器中没有的数据包。

其中较优地，所述询问备份服务器是否有切割完的数据包还包括：

对每个数据块生成数据块的MD5码；

向备份服务器发送每个数据块的MD5码，并判断当前数据块的MD5码是否存在。

其中较优地，所述备份服务器中备份端的内存中有所有数据块的MD5码的列表。

其中较优地，所述恢复选项参数具体包括：

要恢复的文件***的备份文件标识、数据节点的总个数、数据节点的编号。

本发明提供的用于HDFS***的备份和恢复方法，在一个全新的任意台机器组成的HDFS***上进行任意版本的数据恢复；在备份服务器支持版本浏览以及最新版本备份的完整查看等功能，可以实现高效的分布式文件***备份和恢复。

附图说明

图1是本发明实施例中的用于HDFS的分布式文件***备份和恢复步骤流程图；

图2是本发明本发明实施例中的用于HDFS将增量备份多线程传给备份服务器示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1、图2所示，首先，本发明提供的用于HDFS***的备份和恢复方法应用于本地文件***HDFS和备份服务器的备份***中。本地文件***HDFS，在Apache HDFS基础上进行修改，添加文件内容改变检测、增量备份存储、备份加密传输、文件内容恢复等功能。远端备份服务器安装一个HDFS用于存储大量的备份数据，引入HDFS库文件，具有备份保存、备份合并、传输删冗以及为本地文件***提供服务的接口。

如图1、图2所示，本发明提供一种用于HDFS***的备份和恢复方法，包括向备份服务器传送备份数据的步骤和从备份服务器获取备份数据的步骤，具体包括向备份服务器传送备份数据的步骤：输入备份命令，生成一次全备份；检测HDFS***行为，并定时生成增量备份；将增量备份多线程传输至备份服务器；从备份服务器获取备份数据的步骤：指定文件恢复选项参数；按文件恢复选项参数从备份服务器下载备份数据。下面对本发明展开详细的说明。

首先，介绍向备份服务器传送备份数据的步骤。

S1：输入备份命令，生成一次全备份。具体包括：在配置文件中输入备份命令，HDFS***执行备份命令。配置文件优选是hdfs-backup.xml。配置文件存放于$HADOOP/etc/hadoop/hdfs-backup.xml,需要配置备份服务器的地址端口和备份的时间间隔。配置完成以后HDFS***执行备份命令。在全备份完毕后建立日志文件。日志文件包括记录HDFS***元数据改变的数据变化日志FSEditLog和记录记录HDFS***元数据改变和块数据改变的备份日志FSBackuplog。将HDFS元数据序列化，并将序列化后的文件FSImage和日志文件并传输至备份服务器；HDFS***生成所有数据块的列表，HDFS***通过心跳机制通知数据节点向备份服务器传输所有数据块列表中的数据block。

HDFS***通过心跳机制通知数据节点向备份服务器传输所有数据块列表中的数据的步骤具体包括：名字节点NameNode通过下一次心跳包回复给数据节点DataNode发送BlockBackupCommand命令，数据节点DataNode传输相应地数据块列表中的数据block给备份服务器。

S2：检测HDFS***行为，并定时生成增量备份。具体包括：检测HDFS***行为并记录元数据的改变。HDFS***行为优选由名字节点NameNode实时监测。将生成数据的增量记录到发生变化的数据块列表。将新生成数据的增量写入备份日志FSBackuplog中。备份日志FSBackuplog记录发生变化的数据块的列表。文件***备份需要有唯一的标识，使用HDFS的备份文件标识block pool id作为该文件***的标识符；文件***标识符是全局唯一的一个字符串；每次生成增量备份时，由NameNode以***时间作为该版本的版本号；传输增量备份时，需要制定文件***标识符和版本号。将发生改变的数据块列表分配调度给相应的数据节点。具体地，关于增量备份生成速度，备份由备份日志FSBackuplog和数据块组成，在每一次文件***发生改变时，都会把发生的改变写入增量中。生成备份时，只需要新建文件来存储新一版本的增量，旧版本的增量可以直接被处理并传输至备份服务器。

S3：将增量备份多线程传输给服务器。启动定时服务，并定时生成空日志文件，将旧的日志文件传输至备份服务器；定时服务优选由名字节点NameNode启动。名字节点NameNode定时生成新的备份日志FSBackuplog文件，并将旧的备份日志FSBackuplog文件传输至服务器。名字节点NameNode将发生改变的数据块列表分配调度给相应的数据节点DataNode，通过心跳回复发送命令，由每个数据节点DataNode各自将实际的块数据传送给备份服务器。具体地:将要传输的数据拆切割为若干数据包；询问备份服务器是否有切割完的数据包；向服务器传输备份服务器中没有的数据包。数据节点DataNode将要传输的数据块切割为4K大小的数据包；对每个数据块生成数据块的MD5码并询问备份服务器是否已经有该数据块；数据节点DataNode将一个数据块的所有MD5码发送给备份服务器服务器，询问备份服务器服务器是否已经在本地具有该数据块。若备份服务器没有与当前MD5码对应的数据块，则对当前的数据块进行加密传输。备份服务器用一个HDFS进行数据存储，在内存中保持一个本地所有的4K文件块的MD5码的列表，支持实时高效查询。备份服务器将查询结果返回给HDFS。HDFS收到备份服务器的回复之后，把备份服务器没有的4K数据块，通过DES Coder加密传输到备份服务器服务器。备份服务器通过socket收到数据块之后通过DES Decoder解密，把数据块写入相应地位置。

备份服务器在接收到完整版本的备份之后，将增量备份合并到所保存的全备份中，生成最新的全备份，写入本地HDFS文件***，为了支持本地最新版本备份的查看。

其次，介绍从备份服务器获取备份数据的步骤。

HDFS文件***重新安装后，首先执行名字节点NameNode的格式化format操作；启动文件分布***dfs脚本，指定命令行中执行命令时的选项recoverFromBackup(不可与其他选项一同使用)，参数为想要恢复的文件***的备份文件标识block pool id以及数据节点DataNode的个数，默认版本号为最新版本；(此时也同样需要配置hdfs-backup.xml文件)；名字节点NameNode启动之后，从备份服务器下载最新版本的序列化后的文件FSImage存放入指定文件夹中，并从本地载入元数据，之后以正常方式启动；数据节点DataNode启动时以正常方式启动，在数据节点DataNode向名字节点NameNode注册时，如果名字节点NameNode是以-recoverFromBackup方式启动的，则在注册的返回信息中添加恢复命令，包括备份文件标识block poolid、版本号、数据节点DataNode的总个数、该数据节点DataNode的数据节点的编号index，数据节点DataNode通过这些信息从备份服务器下载指定的数据块block数据，并写入本地文件***。

具体地，关于增量备份的一致性，数据节点DataNode上的block的长度并不存储在元数据中，每个数据块block长度和位置信息都是在***启动时动态地由数据节点DataNode告知名字节点NameNode。除此之外，数据块block的时间戳发生改变(即数据块block内容增加)、新增加数据块block的事件都会告知名字节点NameNode。所以由名字节点NameNode监控所有元数据以及数据的行为，可以保证一致性。

增量备份实时传走，对于元数据增量备份日志FSBackuplog，存于文件中，生成增量备份时会新建文件备份日志FSBackuplog_new，旧的备份日志FSBackuplog不会再被写入，专门用一个线程传输到备份服务器。对于数据块增量，其中记载了所有发生改变的数据块block的编号、时间戳和长度。由于分布式文件***HDFS的特点：已经写入的内容不会发生改变，只能在block后面增加内容，对于每个数据块block都是如此。所以有备份生成时的block的长度length，即使传走时数据块block内容已经发生了改变，需要的长度的内容是不变的，所以可以保证传走的正确性。

从备份服务器恢复文件时首先由名字节点NameNode从备份服务器下载最新版本的元数据。载入元数据之后名字节点NameNode就已经可以正常启动，只是处于安全模式，该模式下，用户可以看到文件***的目录结构，但是无法读取文件数据，或对文件***做出修改。这时，集群中的每个数据节点都在从备份服务器下载block数据，把负载压力分散在每个数据节点，提高了传输速度，以及整个集群的负载均衡能力。

本发明公开用于HDFS的分布式文件***备份和恢复方法，在HDFS的应用场景中，需要定时将HDFS分布式文件***中的数据增量备份到远端服务器，并在任意的空的HDFS文件***中恢复指定版本的所有数据。分布式文件***备份和恢复的速度取决于数据结构的设计、增量生成速度、传输速度和并行度、数据删冗程度等因素。本发明通过修改HDFS的2.3.0版本的源代码，实现了可配置的备份服务器地址和备份时间间隔；可以在任意时刻输入备份命令开始进行备份；以指定的时间间隔进行快速地、不影响文件***正常运行的增量备份；在数据块备份过程中，通过校验哈希值寻找相同数据块来减少网络传输；在一个全新的任意台机器组成的HDFS***上进行任意版本的数据恢复；在备份服务器支持版本浏览以及最新版本备份的完整查看等功能，可以实现高效的分布式文件***备份和恢复。

本发明提出的用于HDFS的分布式文件***备份和恢复方法，实现HDFS的快速备份和恢复，其备份传输的结构如图2所示，根据分析，在HDFS这种大容量的分布式文件***的备份和恢复中，备份和恢复的速度是***的一个重要指标，备份速度受到网络传输速度的影响。

本发明为了加快备份的传输速度，使用DataNode多线程传输；并且为了保证安全，使用加密传输。首先名字节点NameNode整理需要传输到备份服务器的数据块信息，安排数据块与数据节点DataNode的对应关系，通过心跳包的恢复命令每个DataNode发送相应的数据块给备份服务器。

备份数据由FSBackuplog和数据块组成，在每一次文件***发生改变时，都会把发生的改变写入增量中。生成备份时，只需要新建文件来存储新一版本的增量，旧版本的增量可以直接被处理并传输出去。关于增量备份的一致性，数据节点DataNode上数据块block的长度并不存储在元数据中，每个数据块block长度和位置信息都是在***启动时动态地由数据节点DataNode告知名字节点NameNode。除此之外，数据块block的时间戳发生改变(即block内容增加)、新增加block的事件都会告知名字节点NameNode。所以由名字节点NameNode监控所有元数据以及数据的行为，可以保证一致性。

对于元数据增量FSBackuplog，存于文件中，生成增量备份时会新建文件备份日志FSBackuplog_new，旧的备份日志FSBackuplog不会再被写入，专门用一个线程传输到备份服务器。对于数据块增量，其中记载了所有发生改变的block的编号、时间戳和长度。由于HDFS的特点：已经写入的内容不会发生改变，只能在数据块block后面增加内容，对于每个数据块block都是如此。所以有备份生成时的数据块block的长度length，即使传走时数据块block内容已经发生了改变，需要的长度的内容是不变的，所以可以保证传走的正确性。

数据恢复时首先由名字节点NameNode从备份服务器下载最新版本的元数据，载入元数据之后名字节点NameNode就已经可以正常启动，只是处于安全模式，该模式下，用户可以看到文件***的目录结构，但是无法读取文件数据，或对文件***做出修改。这时，集群中的每个数据节点都在从备份服务器下载数据块block数据，把负载压力分散在每个数据节点，提高了传输速度，以及整个集群的负载均衡能力。

本发明公开用于HDFS的分布式文件***备份和恢复方法，在分布式文件***HDFS的应用场景中，需要定时将分布式文件***HDFS中的数据增量备份到远端服务器，并在任意的空的分布式文件***HDFS中恢复指定版本的所有数据。分布式文件***HDFS备份和恢复的速度取决于数据结构的设计、增量生成速度、传输速度和并行度、数据删冗程度等因素。本发明通过修改分布式文件***HDFS的2.3.0版本的源代码，实现了可配置的备份服务器地址和备份时间间隔；可以在任意时刻输入备份命令开始进行备份；以指定的时间间隔进行快速地、不影响文件***正常运行的增量备份；在数据块备份过程中，通过校验哈希值寻找相同数据块来减少网络传输；在一个全新的任意台机器组成的分布式文件***HDFS上进行任意版本的数据恢复；在备份服务器支持版本浏览以及最新版本备份的完整查看等功能，可以实现高效的分布式文件***备份和恢复。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种用于HDFS***的备份和恢复方法，其特征在于，包括如下步骤：

向备份服务器传送备份数据的步骤：

输入备份命令，生成一次全备份；

检测HDFS***行为，并定时生成增量备份；

将增量备份传输至备份服务器；

从备份服务器获取备份数据的步骤：

指定文件恢复选项参数；

按文件恢复选项参数从备份服务器下载备份数据。

2.如权利要求1所述的备份和恢复方法，其特征在于：所述输入备份命令，生成一次全备份的步骤具体包括：

在配置文件中进行配置，输入备份命令，进行一次全备份；

建立日志文件；

生成所有数据块的列表；

通过心跳机制向备份服务器传输所有数据块列表中的数据。

3.如权利要求1所述的备份和恢复方法，其特征在于：所述配置文件包括：备份服务器的地址和备份时间间隔。

4.如权利要求1所述的备份和恢复方法，其特征在于：所述检测HDFS***行为，并定时生成增量备份的步骤具体包括：

检测HDFS***行为并记录元数据的改变；

将生成的数据增量记录到发生变化的数据块列表。

5.如权利要求1所述的备份和恢复方法，其特征在于：所述数据增量中包括数据块编号、时间戳和数据块的长度。

6.如权利要求1所述的备份和恢复方法，其特征在于：所述将增量备份多线程传输至备份服务器的步骤包括：

数据节点向服务器传输数据块。

7.如权利要求6所述的备份和恢复方法，其特征在于：所述数据节点向服务器传输数据块的步骤具体包括：

将要传输的数据拆切割为若干数据包；

询问备份服务器是否有切割完的数据包；

向服务器传输备份服务器中没有的数据包。

8.如权利要求7所述的备份和恢复方法，其特征在于：所述询问备份服务器是否有切割完的数据包还包括：

对每个数据块生成数据块的MD5码；

9.如权利要求8所述的备份和恢复方法，其特征在于：所述备份服务器中备份端的内存中有所有数据块的MD5码的列表。

10.如权利要求1所述的备份和恢复方法，其特征在于：所述恢复选项参数具体包括：