CN108984345B - 一种基于虚拟共享目录的大数据备份方法 - Google Patents

一种基于虚拟共享目录的大数据备份方法 Download PDF

Info

Publication number
CN108984345B
CN108984345B CN201810776448.0A CN201810776448A CN108984345B CN 108984345 B CN108984345 B CN 108984345B CN 201810776448 A CN201810776448 A CN 201810776448A CN 108984345 B CN108984345 B CN 108984345B
Authority
CN
China
Prior art keywords
data
big data
backup
medium
nfs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810776448.0A
Other languages
English (en)
Other versions
CN108984345A (zh
Inventor
匙凯
于富东
胡建华
杨林
崔明阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Jlu Communication Design Institute Co ltd
Original Assignee
Jilin Jlu Communication Design Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Jlu Communication Design Institute Co ltd filed Critical Jilin Jlu Communication Design Institute Co ltd
Priority to CN201810776448.0A priority Critical patent/CN108984345B/zh
Publication of CN108984345A publication Critical patent/CN108984345A/zh
Application granted granted Critical
Publication of CN108984345B publication Critical patent/CN108984345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于虚拟共享目录的大数据备份方法,属于数据备份技术领域,本发明通过在介质服务器上的本地存储,对外提供文件共享协议接口,将建一个虚拟的共享目录,如将该接口提供给需要备份的大数据平台A,那么大数据平台A需要备份时,则在本地挂载该分区,即可得到该虚拟目录的共享权,备份完毕后,断开分区,该分区即可回退到介质服务器,同时向另外的一个存储类服务器提供共享目录服务,通过文件复制,非常简明的实现了大数据文件的备份。

Description

一种基于虚拟共享目录的大数据备份方法
技术领域
本发明属于数据备份技术领域,特别是涉及到一种提升大数据备份效率的大数据备份方法。
背景技术
大数据时代数据的价值更加关键,运行在大数据上的数据的安全性需要的以保障,那么就需要一种较快速、较通用的备份技术来实现各类大数据平台数据备份,并保证备份效率和兼容性。
目前,针对于大数据平台 数据备份的方法一般遵循如下架构,该架构包括如下几部分:备份代理(即agent)、介质服务器、存储介质。
具体实现的细节上可大致分为如下两种:
(1)客户端agent
Figure 846951DEST_PATH_IMAGE002
HTTP
Figure 410698DEST_PATH_IMAGE002
介质服务器
Figure 190435DEST_PATH_IMAGE002
ISCSI
Figure 585644DEST_PATH_IMAGE002
存储介质
备份代理安装在待备份端的大数据主机上,将备份数据收集起来,通过网络HTTP协议将数据传输到介质服务器上,介质服务往往单独部署,收集来自于各个备份agent的数据,进行去重和压缩后,通过ISCSI接口将数据传输存储到存储介质上(如disk)。
(2)客户端agent
Figure 462333DEST_PATH_IMAGE002
HTTP
Figure 284796DEST_PATH_IMAGE002
介质服务器
Figure 551829DEST_PATH_IMAGE002
HTTP
Figure 813046DEST_PATH_IMAGE002
存储介质
备份代理安装在待备份端的大数据主机上,将备份数据收集起来,通过网络HTTP协议将数据传输到介质服务器上,介质服务单独部署,收集来自于各个备份agent的数据,进行去重和压缩后,通过HTTP接口将数据传输存储到存储介质上(如object storage)。
现有技术(1)中,针对于不同的备份对象都需要对应的采集客户端,并且需要agent将数据从真实数据源(如hadoop namenode),传输到本地一个暂存目录(该主机上),而后再将该目录下的数据通过切块处理(如每次一个64K数据块),继而每个数据块通过HTTP协议传输到介质服务器端,介质服务器接收后,经过一系列的去重和压缩处理后,将通过ISCSI协议将数据通过FC网络传输到专门的存储介质中(如disk),整个过程数据经过4个关键的耗时步骤(即agent本地暂存、本地切换、网络传输到介质服务器、介质服务器网络传输到存储介质),数据备份的效率难以得到保证,而且过多的环节也增大了***的运行风险。
相比技术(1),不同的是,在数据传输到介质服务器的之后,并非将数据直接通过ISCSI协议传输到存储介质,而是通过HTTP协议再次切块,将数据通过HTTP协议传到对象存储中(object storage中),技术(2)相比技术(1)来说仅仅是后端内存储协议不同,整体的存储效率和风险并没有有效的规避,同时针对于多类型大数据平台的采集同样需要开发对应的客户端代理agent,备份***的复杂性和兼容性仍然没有得到提升。因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种基于虚拟共享目录的大数据备份方法,提升了异构大数据平台下的数据备份***的兼容性,并且简化了大数据平台备份***的备份过程以及提升备份效率。
一种基于虚拟共享目录的大数据备份方法,其特征是:包括以下步骤:
步骤一、建立一个包括大数据平台、备份介质层、介质服务层以及存储介质的虚拟共享数据存储备份***;
步骤二、大数据平台向***发起备份需求,备份介质层将网络文件介质NFS agent远程挂载在大数据平台上,为大数据平台提供一个基于网络文件NFS协议的虚拟共享目录,将数据暂存到NFS agent的内部目录;
步骤三、备份介质层提供的NFS agent完成暂存后,断开虚拟共享链接,大数据平台的数据归属于备份介质层;
步骤四、备份介质层进行数据处理后,将NFS agent发送至存储介质,大数据平台的数据在存储介质中保留;
步骤五、大数据平台发起恢复数据请求,备份介质层对应在存储介质上的数据,通过NFS agent建立一个共享虚拟目录,发送至介质服务层;
步骤六、通过介质服务层,将NFS agent再次挂载到大数据平台,大数据平台获得数据的文件级别访问权限;
步骤七、大数据平台将数据恢复到生产环境中,进行数据的恢复操作,基于虚拟共享目录的大数据备份完成。
所述存储介质为真实存储数据的实体终端设备,内部可自动分区,用于同时备份一个以上大数据平台的数据存储。
所述备份介质层用于NFS agent对应的数据接收层与存储介质进行适配,进行数据暂存和处理。
通过上述设计方案,本发明可以带来如下有益效果:一种基于虚拟共享目录的大数据备份方法,提升了异构大数据平台下的数据备份***的兼容性,并且简化了大数据平台备份***的备份过程以及提升备份效率。
本发明可以带来如下进一步有益效果:本发明通过两次远程挂载实现虚拟共享目录的创建,简化了现有备份软件多次处理传输带来的复杂性,并提高了备份恢复的效率。
本发明的远程挂载技术采用NFS协议支持,通用的文件协议,可以适配各类大数据平台,无需传统备份软件多类客户端的,提高了大数据平台数据备份的兼容性。
附图说明
以下结合附图和具体实施方式对本发明作进一步的说明:
图1为本发明一种基于虚拟共享目录的大数据备份方法流程示意框图。
具体实施方式
一种基于虚拟共享目录的大数据备份方法,其特征是:包括以下步骤:
步骤一、建立一个包括大数据平台、备份介质层、介质服务层以及存储介质的虚拟共享数据存储备份***;
步骤二、大数据平台向***发起备份需求,备份介质层将网络文件介质NFS agent远程挂载在大数据平台上,为大数据平台提供一个基于网络文件NFS协议的虚拟共享目录,将数据暂存到NFS agent的内部目录;
步骤三、备份介质层提供的NFS agent完成暂存后,断开虚拟共享链接,大数据平台的数据归属于备份介质层;
步骤四、备份介质层进行数据处理后,将NFS agent发送至存储介质,大数据平台的数据在存储介质中保留;即在存储介质上通过远程挂载方式提供虚拟共享目录,至此则实现了备份数据在存储介质的落盘持久化,即共享目录作为存储,在存储介质处保留,且当此时其他大数据平台需要备份时,则在存储介质处划分新的分区,用于新备份数据的存储;
步骤五、大数据平台发起恢复数据请求,备份介质层对应在存储介质上的数据,通过NFS agent建立一个共享虚拟目录,发送至介质服务层;
步骤六、通过介质服务层,将NFS agent再次挂载到大数据平台,大数据平台获得数据的文件级别访问权限;
步骤七、大数据平台将数据恢复到生产环境中,进行数据的恢复操作,基于虚拟共享目录的大数据备份完成。
本发明通过在介质服务器上的本地存储,对外提供文件共享协议接口,将建一个虚拟的共享目录,如将该接口提供给需要备份的大数据平台A,那么大数据平台A需要备份时,则在本地挂载该分区,即可得到该虚拟目录的共享权,备份完毕后,断开分区,该分区即可回退到介质服务器,同时向另外的一个存储类服务器提供共享目录服务,通过文件复制,非常简明的实现了大数据文件的备份。
恢复的过程和备份正好相反,只不过是两次数据共享的顺序不同而已。

Claims (3)

1.一种基于虚拟共享目录的大数据备份方法,其特征是:包括以下步骤,
步骤一、建立一个包括大数据平台、备份介质层、介质服务层以及存储介质的虚拟共享数据存储备份***;
步骤二、大数据平台向***发起备份需求,备份介质层将网络文件介质NFS agent远程挂载在大数据平台上,为大数据平台提供一个基于网络文件NFS协议的虚拟共享目录,将数据暂存到NFS agent的内部目录;
步骤三、备份介质层提供的NFS agent完成暂存后,断开虚拟共享链接,大数据平台的数据归属于备份介质层;
步骤四、备份介质层进行数据处理后,将NFS agent发送至存储介质,大数据平台的数据在存储介质中保留;
步骤五、大数据平台发起恢复数据请求,备份介质层对应在存储介质上的数据,通过NFS agent建立一个共享虚拟目录,发送至介质服务层;
步骤六、通过介质服务层,将NFS agent再次挂载到大数据平台,大数据平台获得数据的文件级别访问权限;
步骤七、大数据平台将数据恢复到生产环境中,进行数据的恢复操作,基于虚拟共享目录的大数据备份完成。
2.根据权利要求1所述的一种基于虚拟共享目录的大数据备份方法,其特征是:所述存储介质为真实存储数据的磁盘,内部可自动分区,用于同时备份一个以上大数据平台的数据存储。
3.根据权利要求1所述的一种基于虚拟共享目录的大数据备份方法,其特征是:所述备份介质层用于NFS agent对应的数据接收层与存储介质进行适配,进行数据暂存和处理。
CN201810776448.0A 2018-07-11 2018-07-11 一种基于虚拟共享目录的大数据备份方法 Active CN108984345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810776448.0A CN108984345B (zh) 2018-07-11 2018-07-11 一种基于虚拟共享目录的大数据备份方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810776448.0A CN108984345B (zh) 2018-07-11 2018-07-11 一种基于虚拟共享目录的大数据备份方法

Publications (2)

Publication Number Publication Date
CN108984345A CN108984345A (zh) 2018-12-11
CN108984345B true CN108984345B (zh) 2020-06-23

Family

ID=64548399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810776448.0A Active CN108984345B (zh) 2018-07-11 2018-07-11 一种基于虚拟共享目录的大数据备份方法

Country Status (1)

Country Link
CN (1) CN108984345B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111399984A (zh) * 2020-03-19 2020-07-10 上海英方软件股份有限公司 一种基于虚拟机备份数据的文件恢复方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1554055A (zh) * 2001-07-23 2004-12-08 �Ƚ�΢װ�ù�˾ 高可用性集群虚拟服务器***
CN102375955A (zh) * 2010-08-17 2012-03-14 伊姆西公司 网络文件***联合命名空间内文件加锁的***与方法
US8429140B1 (en) * 2010-11-03 2013-04-23 Netapp. Inc. System and method for representing application objects in standardized form for policy management
US8655851B2 (en) * 2011-04-08 2014-02-18 Symantec Corporation Method and system for performing a clean file lock recovery during a network filesystem server migration or failover
CN103761168A (zh) * 2014-01-26 2014-04-30 上海爱数软件有限公司 一种基于nfs卷挂载备份虚拟机的方法
CN104461776A (zh) * 2014-11-26 2015-03-25 上海爱数软件有限公司 基于CDP和iSCSI虚拟磁盘技术的应用容灾方法
CN105224256A (zh) * 2015-10-13 2016-01-06 浪潮(北京)电子信息产业有限公司 一种存储***
CN105740052A (zh) * 2016-01-28 2016-07-06 浪潮(北京)电子信息产业有限公司 非共享存储的虚拟机在线迁移的方法、装置及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103638B1 (en) * 2002-09-04 2006-09-05 Veritas Operating Corporation Mechanism to re-export NFS client mount points from nodes in a cluster
US8694469B2 (en) * 2009-12-28 2014-04-08 Riverbed Technology, Inc. Cloud synthetic backups
US10108687B2 (en) * 2015-01-21 2018-10-23 Commvault Systems, Inc. Database protection using block-level mapping
CN105468476B (zh) * 2015-11-18 2019-03-08 盛趣信息技术(上海)有限公司 基于hdfs的数据灾备***
CN106250270B (zh) * 2016-07-28 2019-05-21 广东奥飞数据科技股份有限公司 一种云计算平台下的数据备份方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1554055A (zh) * 2001-07-23 2004-12-08 �Ƚ�΢װ�ù�˾ 高可用性集群虚拟服务器***
CN102375955A (zh) * 2010-08-17 2012-03-14 伊姆西公司 网络文件***联合命名空间内文件加锁的***与方法
US8429140B1 (en) * 2010-11-03 2013-04-23 Netapp. Inc. System and method for representing application objects in standardized form for policy management
US8655851B2 (en) * 2011-04-08 2014-02-18 Symantec Corporation Method and system for performing a clean file lock recovery during a network filesystem server migration or failover
CN103761168A (zh) * 2014-01-26 2014-04-30 上海爱数软件有限公司 一种基于nfs卷挂载备份虚拟机的方法
CN104461776A (zh) * 2014-11-26 2015-03-25 上海爱数软件有限公司 基于CDP和iSCSI虚拟磁盘技术的应用容灾方法
CN105224256A (zh) * 2015-10-13 2016-01-06 浪潮(北京)电子信息产业有限公司 一种存储***
CN105740052A (zh) * 2016-01-28 2016-07-06 浪潮(北京)电子信息产业有限公司 非共享存储的虚拟机在线迁移的方法、装置及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NetBackup Disk Based Data Protection Options;Alex Davies;《eval.symantec.com/enterprise/white_papers》;20090430;全文 *
基于虚拟化技术的三级存储方案研究与实现;韩雪;《万方数据知识服务平台》;20150730;全文 *

Also Published As

Publication number Publication date
CN108984345A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108255641B (zh) 一种基于云平台的cdp容灾方法
CN106250270B (zh) 一种云计算平台下的数据备份方法
CN107256182B (zh) 一种数据库还原的方法及设备
CN107526626B (zh) 一种基于CRIU的Docker容器热迁移方法及***
CN103875229B (zh) 异步复制方法、装置与***
CN112084098A (zh) 资源监控***及工作方法
US11921597B2 (en) Cross-platform replication
CN106302806B (zh) 一种数据同步方法、***、同步获取方法及相关装置
CN106294585A (zh) 一种云计算平台下的存储方法
US10534796B1 (en) Maintaining an active-active cloud across different types of cloud storage services
CN101808127B (zh) 数据备份方法、***和服务器
CN109976941B (zh) 一种数据恢复方法和装置
US20070294310A1 (en) Method and apparatus for storing and recovering fixed content
CN105446831A (zh) 一种结合SAN的Server-Free备份方法
US8315986B1 (en) Restore optimization
US11768624B2 (en) Resilient implementation of client file operations and replication
CN103780417A (zh) 一种基于云硬盘的数据库故障转移方法及装置
CN104035837A (zh) 一种在线备份同/异构UNIX/Linux主机的方法
CN108710550B (zh) 一种用于公安交管稽查布控***的双数据中心容灾***
CN114185484A (zh) 一种文档存储集群化的方法、装置、设备和介质
CN108984345B (zh) 一种基于虚拟共享目录的大数据备份方法
CN105323271B (zh) 一种云计算***以及云计算***的处理方法和装置
US20080270832A1 (en) Efficiently re-starting and recovering synchronization operations between a client and server
CN108429813B (zh) 云存储服务的容灾方法、***及终端
CN112199329B (zh) 基于堡垒机的双机运维数据归档清理方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant