CN112214357B

CN112214357B - 一种hdfs数据备份恢复***及备份恢复方法

Info

Publication number: CN112214357B
Application number: CN202011188471.1A
Authority: CN
Inventors: 朱拓之
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-12-30
Anticipated expiration: 2040-10-30
Also published as: CN112214357A

Abstract

本发明涉及一种HDFS数据备份恢复***及备份恢复方法，该***中，HDSF单元内HDFS客户端对应与代理客户端连接，多个代理客户端共同与虚拟客户端连接，虚拟客户端与备份服务器连接，多个代理客户端还与备份服务器连接，备份服务器内设有存储介质，备份服务器用于创建备份恢复任务，与代理客户端进行数据交互，对存储介质进行数据管理；虚拟客户端用于将备份恢复任务定位至与多个代理客户端；代理客户端用于执行备份恢复任务，以读取备份对象或写入恢复对象；HDFS客户端用于接收和响应代理客户端的读取或写入操作。与现有技术相比，本发明能够支持多种备份需求和恢复需求，能够对备份数据进行有效管理，且能通过并发执行任务提高备份恢复效率。

Description

一种HDFS数据备份恢复***及备份恢复方法

技术领域

本发明涉及数据备份恢复技术领域，尤其是涉及一种HDFS数据备份恢复***及备份恢复方法。

背景技术

FusionInsight HD是一个分布式数据处理***，对外提供大容量的数据存储、查询和分析能力，HDFS(Hadoop Distributed File System，Hadoop分布式文件***)是FusionInsight HD的底层存储，为上层应用提供高容错和高吞吐量的存储支持。怎样高效地保证FusionInsight HD的日常数据安全、以及在重大操作的时候保证***出现异常或未达到预期结果时可以及时进行数据恢复，将业务的影响降低到最低，已经成为了当前HDFS应用的任务之重。

现有的HDFS备份方案都是基于HDFS提供的快照技术，将备份数据保留在HDFS文件***中或者保存至外部存储中，这种方式存在以下缺点：

1、无法有效管理和利用备份数据；

2、在某些场景下只支持完全备份，且无法根据用户需求进行选择性恢复；

3、当存在多个备份或恢复对象时，备份恢复效率较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种HDFS数据备份恢复***及备份恢复方法，以实现有效管理备份数据、支持多种备份需求以及恢复需求、提高备份恢复效率的目的。

本发明的目的可以通过以下技术方案来实现：一种HDFS数据备份恢复***，包括设置有多个HDFS客户端的HDFS单元，多个HDFS客户端分别对应与多个代理客户端相互连接，多个代理客户端共同与虚拟客户端相互连接，所述虚拟客户端与备份服务器相互连接，多个代理客户端还分别与备份服务器相互连接，所述备份服务器内设置有用于存储备份数据的存储介质，所述备份服务器用于创建备份恢复任务，与代理客户端进行数据交互，以及对存储介质进行数据管理；

所述虚拟客户端用于将备份恢复任务定位至与其连接的多个代理客户端；

所述代理客户端用于执行备份恢复任务，以读取HDFS备份对象或写入HDFS恢复对象；

所述HDFS客户端用于接收和响应代理客户端提供的读取或写入操作。

进一步地，所述HDFS客户端与代理客户端均位于同一台设备上。

一种HDFS数据备份方法，包括以下步骤：

A1、根据用户选择的需要保护的数据源、备份高级参数和备份类型，由备份服务器发起备份任务，并将对应的备份指令发送给与虚拟客户端连接的多个代理客户端；

A2、多个代理客户端分别从对应的HDFS客户端获取HDFS当前时间；

A3、多个代理客户端根据接收的备份指令，确认备份模式；

A4、根据备份模式，多个代理客户端分别通过对应的HDFS客户端获取备份时间对象，并将HDFS当前时间点信息传输给备份服务器、写入存储介质中；

A5、各代理客户端通过分析备份任务中的数据源，产生备份对象列表；

A6、根据备份对象列表，各代理客户端分别依次判断各备份对象是否有被备份过、是否被过滤、是否为增量数据；

A7、各代理客户端将判断为增量数据的备份对象传输给对应的HDFS客户端，以读取该备份对象的文件块，并传输给备份服务器、写入存储介质中，同时存储对应的HDFS连接信息和时间点副本完整标记信息，以完成备份任务。

进一步地，所述步骤A1中需要保护的数据源具体为HDFS文件或目录。

进一步地，所述步骤A4具体包括以下步骤：

A41、若发起的是全量备份任务，则执行步骤A44；

A42、若发起的是增量备份任务或永久增量备份任务，则代理客户端根据备份任务，从备份服务器查询已有时间点类型，若查找到全备时间点，且全备时间点和HDFS当前时间之间的时间点副本是完整的，则执行步骤A44，否则将备份类型转为全量备份，之后执行步骤A44；

A43、若发起的是差异备份，则代理客户端根据备份任务，从备份服务器查询已有时间点类型，若最近时间为全备时间点，且时间点副本是完整的，则执行步骤A44，否则将备份类型转为全量备份，之后执行步骤A44；

A44、备份时间对象，将HDFS当前时间点信息传输给备份服务器、写入存储介质中。

进一步地，所述步骤A6具体是将备份对象通过负载均衡器，以判断该备份对象是否已被备份过；

将备份对象通过文件过滤器，以判断该备份对象是否被过滤。

进一步地，所述步骤A7具体包括以下步骤：

A71、代理客户端将备份对象传递给HDFS客户端，已读取该备份对象的文件块，并将该文件块传输给备份服务器、写入存储介质中；

A72、若备份对象成功备份，则标记时间点副本为完整，否则标记时间点副本为不完整；

A73、当备份对象列表中所有备份对象均完成备份及时间点副本标记操作后，将备份对象对应的HDFS连接信息以及时间点副本完整标记信息同时进行存储，以完成备份任务。

一种HDFS数据恢复方法，包括以下步骤：

B1、根据用户选择的恢复时间、恢复数据和恢复位置，由备份服务器发起恢复任务，并将对应的恢复指令发送给与虚拟客户端连接的多个代理客户端；

B2、多个代理客户端根据接收的恢复指令，通过解析参数，确定时间的可用性以及需要恢复的数据信息；

B3、各代理客户端通过分析恢复任务中的数据源，产生恢复对象列表；

B4、根据恢复对象列表，各代理客户端分别依次判断各恢复对象是否有被恢复过、是否被过滤；

B5、通过数据解析和新路径合成，得到恢复数据，各代理客户端将恢复数据传输给HDFS客户端，以完成恢复任务。

进一步地，所述步骤B4具体是将恢复对象通过负载均衡器，以判断该恢复对象是否已被备份过；

将恢复对象通过文件过滤器，以判断该恢复对象是否被过滤。

进一步地，所述步骤B5具体包括以下步骤：

B51、通过数据解析得到需要恢复的数据文件名；

B52、根据设定的恢复任务，若恢复任务中要求恢复到新路径，则将新路径与需要恢复的数据文件名拼接合成为恢复数据，否则将需要恢复的数据文件名作为恢复数据；

B53、各代理客户端将对应的恢复数据传输给HDFS客户端，根据覆盖规则将恢复数据写入HDFS，以完成恢复任务。

与现有技术相比，本发明具有以下优点：

一、本发明通过设置备份服务器，利用备份服务器管理所有的资源，包括虚拟客户端、代理客户端、存储介质，由备份服务器负责创建备份任务，下发备份/恢复指令给代理客户端，接收代理客户端返回的数据，和存储介质交互，读取/写入数据以及管理存储介质中的数据，从而实现对备份任务和备份数据进行有效、周期性管理的目的。

二、本发明将虚拟客户端与多个代理客户端相互连接，通过虚拟客户端将备份服务器创建的备份恢复任务定位分配给多个代理客户端，从而支持多客户端的并发备份/恢复，减少备份/恢复窗口，有效提升备份/恢复效率。

三、本发明通过获取备份对象的最后修改时间和HDFS当前时间，结合已经备份的时间点，不仅能提供全量备份，还能提供增量备份、差异备份和永久增量备份，从而实现支持多种备份需求的目的。

四、本发明在备份数据时去除文件路径，只备份文件名及备份对象属性，在恢复数据时只需拼接恢复路径和文件名，即可恢复出文件内容和文件属性，保证恢复后文件属性与备份时一致，使得恢复数据时能够支持原位置、异位置、原机、异机甚至异文件***的恢复。

附图说明

图1为本发明的***结构示意图；

图2为本发明的数据备份流程示意图；

图3为本发明的数据恢复流程示意图；

图4为实施例中代理客户端的安装流程；

图5为实施例中虚拟客户端的创建流程；

图6为实施例中数据备份的过程示意图；

图7为实施例中数据恢复的过程示意图；

图中标记说明：1、HDFS单元，11、HDFS客户端，2、代理客户端，3、虚拟客户端，4、备份服务器，41、存储介质。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种HDFS数据备份恢复***，包括设置有多个HDFS客户端11的HDFS单元1，多个HDFS客户端11分别对应与多个代理客户端2相互连接，多个代理客户端2共同与虚拟客户端3相互连接，虚拟客户端3与备份服务器4相互连接，多个代理客户端2还分别与备份服务器4相互连接，备份服务器4内设置有用于存储备份数据的存储介质41，备份服务器4用于创建备份恢复任务，与代理客户端2进行数据交互，以及对存储介质41进行数据管理；

虚拟客户端3用于将备份恢复任务定位至与其连接的多个代理客户端2；

代理客户端2用于执行备份恢复任务，以读取HDFS备份对象或写入HDFS恢复对象；

HDFS客户端11用于接收和响应代理客户端2提供的读取或写入操作；

其中，HDFS客户端11与代理客户端2均位于同一台设备上。

具体的，备份服务器4作为备份软件的管理控制台，用于管理所有的资源，包括虚拟客户端3、代理客户端2和存储介质41，负责创建备份任务，下发备份/恢复指令给代理客户端2，接收代理客户端2返回的数据，和存储介质41交互，读取/写入数据，清除存储介质41中过期数据，通过在备份服务器中设置副本保留策略，比如副本数、保留时间、对超过设定的副本自动进行清除，以此提供备份存储空间的利用率，也可以手动将不需要的副本删除；

存储介质41是备份软件的数据存储单元，用于存储备份数据；

虚拟客户端3是一组物理的代理客户端的集合，能够保证备份/恢复任务的多客户端并发执行，虚拟客户端3用于发起备份和恢复任务，相当于备份任务恢复任务关联的虚拟客户端，管理整个任务的发起，以及执行结果，通过虚拟客户端3去找到对应的代理客户端2发起任务，任务的交互是代理客户端2自己同备份服务器4进行交互；

代理客户端2作为备份软件在客户端上的代理，负责和备份服务器4交互，接受和响应备份服务器4下达的命令，并且将执行结果返回备份服务器4；和HDFS客户端11交互，读取HDFS备份对象，写入HDFS恢复对象；

HDFS客户端11则基于FusionInsight HD提供的Hadoop client来实现，和代理客户端2处于同一台设备，接收和响应代理客户端2提供的读取/写入操作，将对应操作转发给HDFS，并将HDFS的响应返回给代理客户端2。

将上述***应用于实际，其数据备份过程如图2所示，包括以下步骤：

A1、根据用户选择的需要保护的数据源(HDFS文件或目录)、备份高级参数和备份类型，由备份服务器发起备份任务，并将对应的备份指令发送给与虚拟客户端连接的多个代理客户端；

A3、多个代理客户端根据接收的备份指令，确认备份模式；

A4、根据备份模式，多个代理客户端分别通过对应的HDFS客户端获取备份时间对象，并将HDFS当前时间点信息传输给备份服务器、写入存储介质中，具体的：

A41、若发起的是全量备份任务，则执行步骤A44；

A44、备份时间对象，将HDFS当前时间点信息传输给备份服务器、写入存储介质中；

A6、根据备份对象列表，各代理客户端分别依次判断各备份对象是否有被备份过、是否被过滤、是否为增量数据，其中，具体是将备份对象通过负载均衡器，以判断该备份对象是否已被备份过；

将备份对象通过文件过滤器，以判断该备份对象是否被过滤；

A7、各代理客户端将判断为增量数据的备份对象传输给对应的HDFS客户端，以读取该备份对象的文件块，并传输给备份服务器、写入存储介质中，同时存储对应的HDFS连接信息和时间点副本完整标记信息，以完成备份任务，具体的：

将上述***应用于实际，其数据恢复过程如图3所示，包括以下步骤：

B4、根据恢复对象列表，各代理客户端分别依次判断各恢复对象是否有被恢复过、是否被过滤，同样的，将恢复对象通过负载均衡器，以判断该恢复对象是否已被备份过；

将恢复对象通过文件过滤器，以判断该恢复对象是否被过滤；

B5、通过数据解析和新路径合成，得到恢复数据，各代理客户端将恢复数据传输给HDFS客户端，以完成恢复任务，具体的：

B51、通过数据解析得到需要恢复的数据文件名；

本发明中，整个备份恢复***由代理客户端、存储介质、备份服务器、HDFS客户端组成，HDFS单元和备份服务之间通过TCP/IP协议进程传输。

备份/恢复任务执行结果，由虚拟客户端关联的所有代理客户端所决定，当所有代理客户端都失败，任务才失败，否则任务为成功或者部分成功。

为构建备份恢复***，需要安装代理客户端，并创建虚拟客户端，其中，代理客户端的安装如图4所示，虚拟客户端的创建如图5所示，备份恢复具体执行流程分别如图6和图7所示，HDFS客户端和代理客户端处于同一台机器，需要预先安装FusionInsight HD配套提供的Hadoop client，对于HDFS集群NameNode的ip必须是主NameNode的ip，单机namenode必须处于active模式，用户需具有相应的客户端代理的管理权限、具有相应的存储介质使用权限，且必须对需要备份的HDFS配置正确的NamenNode IP用户名、Kerberos等信息。

如图4所示，在代理客户端安装的时候，必须选择支持FusionInsight HD选项：

1、用户开始执行安装客户端程序；

2、选择支持FusionInsight HD安装选项；

3、输入Hadoop Client和component_env_C_example脚本位置；

4、执行步骤3提供的参数，生成环境变量文件，执行步骤5；

5、安装完成，成功则支持FusionInsight HD HDFS备份，失败则不支持FusionInsight HD HDFS备份。

如图5所示，虚拟客户端创建流程如下：

1、创建虚拟客户端，输入NameNode ip，用户名，执行步骤2；

2、选择需要绑定的物理客户端，设置每个客户端的kerbTicketCachePath，执行步骤3；

3、提交参数，执行步骤4；

4、校验参数的合法性，连接HDFS，如果校验通过，执行步骤5，否则步骤6；

5、创建成功；

6、创建失败，提示错误。

如图6所示，备份流程如下：

1、用户选择需要保护的数据源(HDFS文件或者目录)，选择备份高级参数和备份类型，并发起备份，将备份指令发往虚拟客户端绑定的备份代理客户端；

2、每个备份代理获取HDFS当前时间，执行步骤3；

3、每个备份代理收到备份指令，确认备份类型：

3.1如果发起的是全备执行步骤4；

3.2如果发起的是增量备份，备份代理根据任务参数，查询备份服务中已有时间点类型，如果找到全备时间点，并且全备时间点和当前时间之间的时间点副本是完整的，则执行步骤4，否则将备份类型转为全量备份，执行步骤4；

3.3如果发起的是差异备份，备份代理根据任务参数，查询备份服务中已有时间点类型，如果最近时间为完备时间点并且是时间点副本是完整的，则执行步骤4，否则将备份类型转为全量备份，执行步骤4；

3.4如果发起的永久备份，执行3.2步骤，；

4、备份时间对象，将时间点信息写入存储介质中，执行步骤5；

5、数据源分析，产生备份对象列表，执行步骤6；

6、备份对象通过负载均衡器(多客户端并发情况下)和文件过滤器(开启文件过滤的情况下)，执行步骤7，否则执行步骤5；

7、备份对象，如果是增量备份，判断对象是否可以有增量数据，如果可以增量，执行步骤8，否则回到步骤5；

8、将备份对象传递给HDFS Client，通过HDFS读取备份对象的文件块，并写入备份存储，执行步骤9；

9、如果备份对象成功备份，标记副本为完整，执行步骤5，否则标记为不完整副本执行步骤11；

10、所有备份对象都完成备份，则执行步骤11；

11、存储特殊元数据(HDFS连接信息)以及副本完整性，当前备份代理客户端任务结束。

如图7所示，恢复流程如下：

1、用户选择需要恢复的时间和恢复文件或者目录，选择恢复位置，发起恢复；

2、代理客户端收到恢复指令，解析参数，确定时间的可用性和需要恢复的数据信息，执行步骤3；

3、开启数据源读取器，分析数据源，产生恢复对象，执行步骤4；

4、生成恢复对象列表，依次取出备份对象，执行步骤5；

5、恢复对象通过负载均衡器(多客户端并发情况下)和文件过滤器(开启文件过滤的情况下)判断，如果通过则执行步骤6，否则执行步骤4；

6、根据恢复目的地类别，新的路径合成，进行数据恢复，执行步骤7，本实施例中，恢复目的地类别包括HDFS文件***和Linux文件***下的extx；

7、代理客户端将数据发HDFS Clinet，HDFS client根据覆盖规则将数据写入HDFS，写入成功则执行步骤5，失败执行步骤8；

8、当前代理客户端恢复任务结束。

综上所述，本发明基于HDFS提供的JNI接口数据，能够提供完全备份、增量备份、差异备份和永久增量，由于不使用快照技术，因此能够灵活地配置备份对象，在实际应用中，还可提供web的方式，一键式配置备份任务和备份存储，摆脱命令行、复杂目的地配置的，避免了复杂的配置操作，且能提供多种恢复选择。

Claims

1.一种HDFS数据备份恢复***，其特征在于，包括设置有多个HDFS客户端(11)的HDFS单元(1)，多个HDFS客户端(11)分别对应与多个代理客户端(2)相互连接，所述HDFS客户端(11)与代理客户端(2)均位于同一台设备上，多个代理客户端(2)共同与虚拟客户端(3)相互连接，所述虚拟客户端(3)与备份服务器(4)相互连接，多个代理客户端(2)还分别与备份服务器(4)相互连接，所述备份服务器(4)内设置有用于存储备份数据的存储介质(41)，所述备份服务器(4)用于创建备份恢复任务，与代理客户端(2)进行数据交互，以及对存储介质(41)进行数据管理；

所述虚拟客户端(3)用于将备份恢复任务定位至与其连接的多个代理客户端(2)；

所述代理客户端(2)用于执行备份恢复任务，以读取HDFS备份对象或写入HDFS恢复对象；

所述HDFS客户端(11)用于接收和响应代理客户端(2)提供的读取或写入操作；

应用上述***，实现一种HDFS数据备份方法，包括以下步骤：

A3、多个代理客户端根据接收的备份指令，确认备份模式；

A7、各代理客户端将判断为增量数据的备份对象传输给对应的HDFS客户端，以读取该备份对象的文件块，并传输给备份服务器、写入存储介质中，同时存储对应的HDFS连接信息和时间点副本完整标记信息，以完成备份任务；

所述步骤A4具体包括以下步骤：

A41、若发起的是全量备份任务，则执行步骤A44；

2.根据权利要求1所述的一种HDFS数据备份恢复***，其特征在于，所述步骤A1中需要保护的数据源具体为HDFS文件或目录。

3.根据权利要求1所述的一种HDFS数据备份恢复***，其特征在于，所述步骤A6具体是将备份对象通过负载均衡器，以判断该备份对象是否已被备份过；

4.根据权利要求1所述的一种HDFS数据备份恢复***，其特征在于，所述步骤A7具体包括以下步骤：

5.一种应用权利要求1所述***的HDFS数据恢复方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的一种HDFS数据恢复方法，其特征在于，所述步骤B4具体是将恢复对象通过负载均衡器，以判断该恢复对象是否已被备份过；

7.根据权利要求5所述的一种HDFS数据恢复方法，其特征在于，所述步骤B5具体包括以下步骤：

B51、通过数据解析得到需要恢复的数据文件名；