CN105487942A - 一种基于重复数据删除的备份与远程复制方法 - Google Patents

一种基于重复数据删除的备份与远程复制方法 Download PDF

Info

Publication number
CN105487942A
CN105487942A CN201510856874.1A CN201510856874A CN105487942A CN 105487942 A CN105487942 A CN 105487942A CN 201510856874 A CN201510856874 A CN 201510856874A CN 105487942 A CN105487942 A CN 105487942A
Authority
CN
China
Prior art keywords
data
backup
finger print
print information
remote copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510856874.1A
Other languages
English (en)
Inventor
周丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eisoo Information Technology Co Ltd
Original Assignee
Shanghai Eisoo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eisoo Information Technology Co Ltd filed Critical Shanghai Eisoo Information Technology Co Ltd
Priority to CN201510856874.1A priority Critical patent/CN105487942A/zh
Publication of CN105487942A publication Critical patent/CN105487942A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于重复数据删除的备份与远程复制方法,包括以下步骤:A)利用源端块级重删技术做备份;B)直接利用备份后的数据和指纹,继续利用源端块级重删技术做远程复制,将数据复制到异地。与现有技术相比,本发明具有达到快速对本地的数据进行备份与远程复制,节省本地、异地存储空间、减少本地网络传输数据量、降低远程带宽需求以及加快备份与远程复制速度的效果,降低数据丢失的风险。

Description

一种基于重复数据删除的备份与远程复制方法
技术领域
本发明涉属于计算机数据保护技术领域,涉及数据备份、重复数据删除及远程复制技术,尤其是涉及一种基于重复数据删除的备份与远程复制方法。
背景技术
随着互联网的发展,数据爆发式增长,数据量越来越大,企业对数据的依赖也越来越强,没有了数据,许多企业的业务就无法进行。如何有效的保护数据,成为企业关注的重要议题。
对数据进行保护,最直接的办法就是本地备份,但是面对越来越大数据,备份时带宽的压力、备份时间、存储空间等问题,如何才能有效的解决?且本地备份,在天灾等不可抗力因素下,数据依然有丢失的风险,所以,将备份的数据复制到异地保存,能极大的降低数据丢失的风险。越来越多的大企业,总部都要求将各地分公司的备份数据复制到总部统一管理,这种情况下,存储空间、带宽限制、远程复制时间等问题就更加明显了,大量的备份数据,有限的带宽,对远程复制是一种挑战。
研究发现,应用***所保存的数据中高达60%是冗余的,因此,将重复数据删除技术应用到备份及远程复制,能大量的减少备份与远程复制的数据,解决备份与远程复制的存储空间问题、带宽问题及备份时间、远程复制时间等问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于重复数据删除的备份与远程复制方法,以达到快速对本地的数据进行备份与远程复制,节省本地、异地存储空间、减少本地网络传输数据量、降低远程带宽需求以及加快备份与远程复制速度的效果,降低数据丢失的风险。
本发明的目的可以通过以下技术方案来实现:
一种基于重复数据删除的备份与远程复制方法,其特征在于,包括以下步骤:
A)利用源端块级重删技术做备份;
B)直接利用备份后的数据和指纹,继续利用源端块级重删技术做远程复制,将数据复制到异地,达到快速备份与远程复制的目的。
所述的利用源端块级重删技术做备份具体为:
A1)读取要备份的数据;
A2)对读取的数据进行变长或者定长的分块;
A3)计算数据块的指纹;
A4)在本地缓存中查询是否存在此指纹信息,如果此指纹信息存在,此数据块为重复的数据,直接执行步骤A6),如果此指纹信息不存在,继续到备份服务器上去查询,如果存在,将指纹信息保存到本地缓存后执行步骤A6),如果不存在,此数据不是重复的数据,执行步骤A5);
A5)将数据块和指纹一起发送到备份服务器,备份服务器将数据块的指纹信息记录到指纹库中,之后在本地将指纹信息保存到本地指纹缓存中,并执行步骤A6);
A6)将数据块的索引信息发送到备份服务器,至此,一个数据块处理完成,继续按相同的方式处理其它数据块,以及还未读取的数据,直至所有要备份的数据处理完成。
对于定长切块重复率高的数据采用定长分块方式,对于变长分块重复率高的数据采用变长分块方式。
所述的利用源端块级重删技术做远程复制具体为:
B1)读取数据库及其指纹信息;
B2)在本地缓存中查询是否存在此指纹信息,如果此指纹信息存在,此数据块为重复的数据,直接执行步骤B4),如果此指纹信息不存在,继续到备份服务器上去查询,如果存在,将指纹信息保存到本地缓存后执行步骤B4),如果不存在,此数据不是重复的数据,执行步骤B3);
B3)将数据块和指纹一起发送到备份服务器,备份服务器将数据块的指纹信息记录到指纹库中,之后在本地将指纹信息保存到本地指纹缓存中,并执行步骤B4);
B4)将数据块的索引信息发送到备份服务器,至此,一个数据块处理完成,继续按相同的方式处理其它数据块,以及还未读取的数据,直至所有数据处理完成。
在备份的基础上,对数据进行远程复制,由于备份之后数据已经是数据块了,不用再进行数据分块,而指纹信息也已经保存在指纹库中,指纹也不需要再计算。
与现有技术相比,本发明巧妙的将重复数据删除技术、备份与远程复制结合起来,避免了在远程复制过程中的数据切块与指纹计算,减少了CPU资源消耗,网络资源消耗,大幅提升备份与远程复制的性能。
附图说明
图1为本发明源端块级重删的备份流程图;
图2为本发明源端块级重删的远程复制流程图;
图3为本发明实施方案部署图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
重复数据删除,简称重删,按数据处理的粒度,可分为文件级重删与块级重删,按分块的方法,可分为定长分块重删和变长分块重删,按照数据处理位置,可分为源端重删和目的端重删。对于备份与远程复制,适合源端重删,可以减少网络传输的数据量,节省带宽,从重删比来看,块级重删效果更好。
该发明是在源端块级重删的基础上,将备份与远程复制有效的结合起来,先利用源端块级重删技术做备份,之后直接利用备份后的数据和指纹,继续利用源端块级重删技术做远程复制,将数据复制到异地,达到快速备份与远程复制的目的。
为了更清楚的描述此发明,先解释下利用源端块级重删的备份,备份流程图见图1,步骤如下:
1)读取要备份的数据。
2)对读取的数据进行变长或者定长的分块,有些数据定长切块重复率高,有的数据变长分块重复率高,视具体情况选择定长或变长分块。
3)计算数据块的指纹,指纹及数据块的hash值。
4)在本地缓存中查询是否存在此指纹信息,如果此指纹信息存在,此数据块就是重复的数据,如果此指纹信息不存在,暂时还不能判断够否重复,需要继续到备份服务器上去查询,如果存在,此数据块是重复的数据,如果不存在,此数据不是重复的数据。
5)如果不重复,需要将数据块和指纹一起发送到备份服务器,备份服务器将数据块的指纹信息记录到指纹库中,之后在本地将指纹信息保存到本地指纹缓存中。
6)将数据块的索引信息发送到备份服务器,至此,一个数据块处理完成,继续按相同的方式处理其它数据块,以及还未读取的数据,直至所有要备份的数据处理完成。
在此备份的基础上,对数据进行远程复制,远程复制流程图见图2,由于备份之后数据已经是数据块了,所以不用再进行数据分块,而指纹信息也已经保存在指纹库中,指纹也不需要再计算,这样就大量的减少了备份服务器上计算资源的消耗,而后面的步骤和备份是一样,可以直接重用。
实施方案举例
A、B两地有数据需要备份,并且需要复制到C统一管理。实施方案部署图见图3:A、B两地在局域网内分别部署一台备份服务器,将应用服务器的数据利用源端块级重删备份到备份服务器上,在C地再部署一台备份服务器,将A、B备份服务器上的备份数据再次利用源端块级重删,去掉A、B两地的重复数据后,远程复制到C地的备份服务器上。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种基于重复数据删除的备份与远程复制方法,其特征在于,包括以下步骤:
A)利用源端块级重删技术做备份;
B)直接利用备份后的数据和指纹,继续利用源端块级重删技术做远程复制,将数据复制到异地,达到快速备份与远程复制的目的。
2.根据权利要求1所述的备份与远程复制方法,其特征在于,所述的利用源端块级重删技术做备份具体为:
A1)读取要备份的数据;
A2)对读取的数据进行变长或者定长的分块;
A3)计算数据块的指纹;
A4)在本地缓存中查询是否存在此指纹信息,如果此指纹信息存在,此数据块为重复的数据,直接执行步骤A6),如果此指纹信息不存在,继续到备份服务器上去查询,如果存在,将指纹信息保存到本地缓存后执行步骤A6),如果不存在,此数据不是重复的数据,执行步骤A5);
A5)将数据块和指纹一起发送到备份服务器,备份服务器将数据块的指纹信息记录到指纹库中,之后在本地将指纹信息保存到本地指纹缓存中,并执行步骤A6);
A6)将数据块的索引信息发送到备份服务器,至此,一个数据块处理完成,继续按相同的方式处理其它数据块,以及还未读取的数据,直至所有要备份的数据处理完成。
3.根据权利要求2所述的备份与远程复制方法,其特征在于,对于定长切块重复率高的数据采用定长分块方式,对于变长分块重复率高的数据采用变长分块方式。
4.根据权利要求1所述的备份与远程复制方法,其特征在于,所述的利用源端块级重删技术做远程复制具体为:
B1)读取数据库及其指纹信息;
B2)在本地缓存中查询是否存在此指纹信息,如果此指纹信息存在,此数据块为重复的数据,直接执行步骤B4),如果此指纹信息不存在,继续到备份服务器上去查询,如果存在,将指纹信息保存到本地缓存后执行步骤B4),如果不存在,此数据不是重复的数据,执行步骤B3);
B3)将数据块和指纹一起发送到备份服务器,备份服务器将数据块的指纹信息记录到指纹库中,之后在本地将指纹信息保存到本地指纹缓存中,并执行步骤B4);
B4)将数据块的索引信息发送到备份服务器,至此,一个数据块处理完成,继续按相同的方式处理其它数据块,以及还未读取的数据,直至所有数据处理完成。
5.根据权利要求1或4所述的备份与远程复制方法,其特征在于,在备份的基础上,对数据进行远程复制,由于备份之后数据已经是数据块了,不用再进行数据分块,而指纹信息也已经保存在指纹库中,指纹也不需要再计算。
CN201510856874.1A 2015-11-30 2015-11-30 一种基于重复数据删除的备份与远程复制方法 Pending CN105487942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510856874.1A CN105487942A (zh) 2015-11-30 2015-11-30 一种基于重复数据删除的备份与远程复制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510856874.1A CN105487942A (zh) 2015-11-30 2015-11-30 一种基于重复数据删除的备份与远程复制方法

Publications (1)

Publication Number Publication Date
CN105487942A true CN105487942A (zh) 2016-04-13

Family

ID=55674935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510856874.1A Pending CN105487942A (zh) 2015-11-30 2015-11-30 一种基于重复数据删除的备份与远程复制方法

Country Status (1)

Country Link
CN (1) CN105487942A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713489A (zh) * 2017-01-17 2017-05-24 郑州云海信息技术有限公司 一种基于重删的同步远程复制***及方法
CN106843760A (zh) * 2017-01-17 2017-06-13 郑州云海信息技术有限公司 一种基于重删的异步远程复制***及方法
CN107766179A (zh) * 2017-11-06 2018-03-06 郑州云海信息技术有限公司 一种基于源数据重删的备份方法、装置、及存储介质
CN109144773A (zh) * 2017-06-27 2019-01-04 华为技术有限公司 数据备份的方法、装置及设备
CN110399249A (zh) * 2019-06-04 2019-11-01 腾讯科技(北京)有限公司 一种数据容灾方法及相关装置
CN111026327A (zh) * 2019-10-22 2020-04-17 苏州浪潮智能科技有限公司 一种基于重删的磁带归档***及方法
CN111159125A (zh) * 2019-12-27 2020-05-15 柏科数据技术(深圳)股份有限公司 一种用于数据存储及数据灾备的块重删技术
CN111459928A (zh) * 2020-03-27 2020-07-28 上海爱数信息技术股份有限公司 应用于集群范围内数据备份场景的数据去重方法及应用
CN112698990A (zh) * 2021-01-04 2021-04-23 浪潮云信息技术股份公司 一种备份数据时在线删除重复数据的方法
CN113050891A (zh) * 2021-03-26 2021-06-29 杭州宏杉科技股份有限公司 重删数据保护方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387976A (zh) * 2008-11-07 2009-03-18 清华大学 一种基于数据差异的逻辑卷快速同步方法
WO2011075610A1 (en) * 2009-12-16 2011-06-23 Renew Data Corp. System and method for creating a de-duplicated data set
CN102510340A (zh) * 2011-10-11 2012-06-20 浪潮电子信息产业股份有限公司 利用普通Internet网络实现异地快速备份的方法
CN103593264A (zh) * 2013-11-28 2014-02-19 中国南方电网有限责任公司超高压输电公司南宁局 远距离广域网络容灾备份***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387976A (zh) * 2008-11-07 2009-03-18 清华大学 一种基于数据差异的逻辑卷快速同步方法
WO2011075610A1 (en) * 2009-12-16 2011-06-23 Renew Data Corp. System and method for creating a de-duplicated data set
CN102510340A (zh) * 2011-10-11 2012-06-20 浪潮电子信息产业股份有限公司 利用普通Internet网络实现异地快速备份的方法
CN103593264A (zh) * 2013-11-28 2014-02-19 中国南方电网有限责任公司超高压输电公司南宁局 远距离广域网络容灾备份***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冉禄纯: "基于源端重复数据删除的文件备份***设计与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843760A (zh) * 2017-01-17 2017-06-13 郑州云海信息技术有限公司 一种基于重删的异步远程复制***及方法
CN106713489A (zh) * 2017-01-17 2017-05-24 郑州云海信息技术有限公司 一种基于重删的同步远程复制***及方法
CN109144773A (zh) * 2017-06-27 2019-01-04 华为技术有限公司 数据备份的方法、装置及设备
CN107766179A (zh) * 2017-11-06 2018-03-06 郑州云海信息技术有限公司 一种基于源数据重删的备份方法、装置、及存储介质
CN110399249A (zh) * 2019-06-04 2019-11-01 腾讯科技(北京)有限公司 一种数据容灾方法及相关装置
CN111026327B (zh) * 2019-10-22 2022-12-23 苏州浪潮智能科技有限公司 一种基于重删的磁带归档***及方法
CN111026327A (zh) * 2019-10-22 2020-04-17 苏州浪潮智能科技有限公司 一种基于重删的磁带归档***及方法
CN111159125A (zh) * 2019-12-27 2020-05-15 柏科数据技术(深圳)股份有限公司 一种用于数据存储及数据灾备的块重删技术
CN111159125B (zh) * 2019-12-27 2023-05-23 柏科数据技术(深圳)股份有限公司 一种用于数据存储及数据灾备的块重删技术
CN111459928A (zh) * 2020-03-27 2020-07-28 上海爱数信息技术股份有限公司 应用于集群范围内数据备份场景的数据去重方法及应用
CN111459928B (zh) * 2020-03-27 2023-07-07 上海爱数信息技术股份有限公司 应用于集群范围内数据备份场景的数据去重方法及应用
CN112698990A (zh) * 2021-01-04 2021-04-23 浪潮云信息技术股份公司 一种备份数据时在线删除重复数据的方法
CN113050891A (zh) * 2021-03-26 2021-06-29 杭州宏杉科技股份有限公司 重删数据保护方法及装置
CN113050891B (zh) * 2021-03-26 2022-02-25 杭州宏杉科技股份有限公司 重删数据保护方法及装置

Similar Documents

Publication Publication Date Title
CN105487942A (zh) 一种基于重复数据删除的备份与远程复制方法
US20190026192A1 (en) Backing up data to cloud data storage while maintaining storage efficiency
US11681660B2 (en) Global deduplication
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
CN101989929B (zh) 容灾数据备份的方法及***
US8683156B2 (en) Format-preserving deduplication of data
US8165221B2 (en) System and method for sampling based elimination of duplicate data
CN104866430B (zh) 结合主从备份和纠删码的内存计算***高可用优化方法
CN104932841A (zh) 一种云存储***中节约型重复数据删除方法
US9002800B1 (en) Archive and backup virtualization
US20140164330A1 (en) Pruning previously-allocated free blocks from a synthetic backup
CN102819615A (zh) 一种基于应用快照的数据库持续数据保护方法
CN107885619A (zh) 一种数据精简去重和镜像异地备份保护的方法及***
CN103838645B (zh) 一种基于哈希的远程差异合成备份实现方法
CN105095027A (zh) 一种数据备份方法及装置
CN104461773A (zh) 一种虚拟机备份去重的方法
CN105493080A (zh) 基于上下文感知的重复数据删除的方法和装置
US11669545B2 (en) Any point in time replication to the cloud
CN104679746A (zh) 去重复数据的恢复方法及装置
WO2023197937A1 (zh) 数据处理方法及其装置、存储介质、计算机程序产品
US10339010B1 (en) Systems and methods for synchronization of backup copies
CN104281412A (zh) 一种在数据存储前去除重复数据的方法
US11163748B1 (en) Fingerprint backward compatibility in deduplication backup systems
CN105468733A (zh) 一种基于源端数据重删的卷复制方法
CN112346907B (zh) 一种基于异构对象存储的数据备份恢复方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413

RJ01 Rejection of invention patent application after publication