CN104010042A - 一种云服务的重复数据删除的备份机制 - Google Patents

一种云服务的重复数据删除的备份机制 Download PDF

Info

Publication number
CN104010042A
CN104010042A CN201410254499.9A CN201410254499A CN104010042A CN 104010042 A CN104010042 A CN 104010042A CN 201410254499 A CN201410254499 A CN 201410254499A CN 104010042 A CN104010042 A CN 104010042A
Authority
CN
China
Prior art keywords
file
data
cloud
saved
cloud service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410254499.9A
Other languages
English (en)
Inventor
于建彬
付丽莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410254499.9A priority Critical patent/CN104010042A/zh
Publication of CN104010042A publication Critical patent/CN104010042A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种云服务的重复数据删除的备份机制,属于云存储服务数据备份领域,主要是将数据重删机制在云服务端进行,数据统一保存到云存储池中,客户个人文件夹中只放置文件指针。极大地缓解数据上传所占用的带宽压力,减轻云存储服务器进行数据重删的负载的同时,节约了存储的成本费用的开销。

Description

一种云服务的重复数据删除的备份机制
 
技术领域   
    本发明涉及云存储服务领域,具体涉及一种云服务的重复数据备份机制,可以极大地减轻云存储服务器的负载,缓解网络带宽压力,更大提高云存储磁盘的空间利用率及磁盘的使用寿命。
背景技术
云服务是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。云服务指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。
通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储***。
随着云服务的不断发展,越来越多的企业和个人将数据保存到云上。然而随着用户与数据的不断增加,数据的重复率越来越高,数据不断擦除与重写速度越来越快,造成了云存储资源利用率降低,磁盘寿命损耗严重,且极大地占用了网络带宽。部分云服务提供商在云存储***上使用了数据重删机制,但是随着数据量的不断增加,数据重删校验对云存储***的负载也变得越来越大。
发明内容
在调查中发现,重删技术可以有效的节约磁盘空间的占用率,通过对备份数据进行hash校验,此校验值与数据库中以往备份过的数据若匹配,则证明此数据内容已经备份过,此时确认该数据为重复数据,不需要再次备份只是记录该数据的存储位置的一个指针,当需要数据恢复时,此部分内容就能够成功恢复回来。这样可以大量节约因为重复数据造成的磁盘或磁带空间的浪费,有效的节约存储空间,从而降低硬件成本。
本发明提出一种云服务的重复数据删除的备份机制,主要是将数据重删机制在云服务端进行,数据统一保存到云存储池中,客户个人文件夹中只放置文件指针。
具体实现机制如下:
    1)云服务客户端软件具备数据校验功能,当软件接收到文件备份请求时,首先会进行文件校验,得出文件Hash码,然后将Hash码发送至云存储***;
    2)云存储***会在接收到客户端软件发送的Hash码后,在***已备份文件档案中查询文件是否已有备份。如果文件已有备份,则不再重复上传,仅将文件指针保存至云个人空间,并提示用户备份完成;
    3)如果文件没有备份过,则进行文件上传,将文件上传至资源池。等文件上传完成后,云存储***会对文件进行校验,验证文件完整性。如文件完整,则将包括文件Hash码、文件地址、文件大小等文件信息保存至已备份文件档案,并将文件指针保存至云个人空间,然后提示用户备份完成;如果文件不完整,则删除文件,进行文件上传。
通过步骤1)、2)实现数据在云服务客户端的数据校验,可以极大地缓解数据上传所占用的带宽压力,减轻云存储服务器进行数据重删的负载。
通过步骤3)数据保存至存储池,而不是直接保存至个人空间,可以有效保证数据的连续性,提高磁盘使用寿命。
进一步的,数据统一保存到云存储池中,客户个人文件夹中只放置文件指针,其特征在于数据仅存储到存储池,客户个人文件夹中仅放置文件指针。客户数据的下载是通过指针连接的文件;如果同一文件被多个客户备份时,客户的删除操作仅仅删除指向文件的指针。
该云服务端应具备数据校验功能,云服务端包括专用客户端软件、浏览器插件等。
数据校验功能包括但不限于哈希校验方式。
本发明的有益效果是:
    在一些客户的备份数据中,比如客户的邮件***备份,往往同一份邮件有几十个人需要备份,这就产生了大量的重复性数据,重复数据占用大量的存储空间,通过数据在云服务客户端的数据校验,可以极大地缓解数据上传所占用的带宽压力,减轻云存储服务器进行数据重删的负载的同时,节约了存储的成本费用的开销。
 通过将数据保存至存储池,而不是直接保存至个人空间,可以有效保证数据的连续性,提高磁盘使用寿命。
附图说明
附图1是本发明的数据备份流程图示图;
附图2是本发明的云服务数据备份模型。
具体实施方式
下面根据附图对本发明作进一步详细说明,具体实现机制如下:
如图1所示,
    步骤1:在云服务客户端上收集到客户需要备份的数据;
    步骤2:云服务客户端软件具备数据校验功能,当软件接收到文件备份请求时,首先会对文件进行校验,得出文件Hash码,然后将Hash码发送至云存储***;因hash码的数据量只有几个KB,所以不会占用太多云存储***到备份客户端之间的带宽;
    步骤3:云存储***会在接收到客户端软件发送的Hash码后,在***已备份文件档案中查询文件是否已有备份,此校验值与数据库中以往备份过的数据产生的hash值进行比对,若校验值匹配则证明此数据内容已经备份过,此时确认该数据为重复数据,不需要再次备份只是记录该数据的存储位置的一个指针,并提示用户备份成功。当需要数据恢复时,此部分内容就能够成功恢复回来。这样可以大量节约因为重复数据造成的磁盘或磁带空间的浪费,有效的节约存储空间,从而降低硬件成本。
如果文件没有备份过,则进行文件上传,将文件上传至资源池。等文件上传完成后,云存储***会对文件进行校验,验证文件完整性。如文件完整,则将包括文件Hash码、文件地址、文件大小等文件信息保存至已备份文件档案,并将文件指针保存至云个人空间,然后提示用户备份完成;如果文件不完整,则删除文件,进行文件上传。
通过步骤2)、3)实现数据在云服务客户端的数据校验,可以极大地缓解数据上传所占用的带宽压力,减轻云存储服务器进行数据重删的负载。
通过步骤3)数据保存至存储池,而不是直接保存至个人空间,可以有效保证数据的连续性,提高磁盘使用寿命。

Claims (6)

1.一种云服务的重复数据删除的备份机制,其特征在于将数据重删机制在云服务端进行,数据统一保存到云存储池中,客户个人文件夹中只放置文件指针。
2.根据权利要求1所述的备份机制,其特征在于
   具体实现机制如下:
   1)云服务客户端软件具备数据校验功能,当软件接收到文件备份请求时,首先会进行文件校验,得出文件Hash码,然后将Hash码发送至云存储***;
   2)云存储***会在接收到客户端软件发送的Hash码后,在***已备份文件档案中查询文件是否已有备份;如果文件已有备份,则不再重复上传,仅将文件指针保存至云个人空间,并提示用户备份完成;
   3)如果文件没有备份过,则进行文件上传,将文件上传至资源池;等文件上
传完成后,云存储***会对文件进行校验,验证文件完整性;如文件完整,则将包括文件Hash码、文件地址、文件大小等文件信息保存至已备份文件档案,并将文件指针保存至云个人空间,然后提示用户备份完成;如果文件不完整,则删除文件,进行文件上传。
3.根据权利要求1所述的备份机制,其特征在于通过步骤3)数据保存至存储池,而不是直接保存至个人空间。
4.根据权利要求1所述的备份机制,其特征在于云服务端应具备数据校验功能,云服务端包括专用客户端软件、浏览器插件等。
5.根据权利要求4所述的备份机制,其特征在于数据校验功能包括但不限于哈希校验方式。
6.根据权利要求2所述的备份机制,其特征在于客户数据的下载是通过指针连接的文件;如果同一文件被多个客户备份时,客户的删除操作仅仅删除指向文件的指针。
CN201410254499.9A 2014-06-10 2014-06-10 一种云服务的重复数据删除的备份机制 Pending CN104010042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410254499.9A CN104010042A (zh) 2014-06-10 2014-06-10 一种云服务的重复数据删除的备份机制

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410254499.9A CN104010042A (zh) 2014-06-10 2014-06-10 一种云服务的重复数据删除的备份机制

Publications (1)

Publication Number Publication Date
CN104010042A true CN104010042A (zh) 2014-08-27

Family

ID=51370533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410254499.9A Pending CN104010042A (zh) 2014-06-10 2014-06-10 一种云服务的重复数据删除的备份机制

Country Status (1)

Country Link
CN (1) CN104010042A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104994069A (zh) * 2015-05-25 2015-10-21 南京信息工程大学 基于数据重复性验证的云存储数据完整性证明方法
CN106055271A (zh) * 2016-05-17 2016-10-26 浪潮(北京)电子信息产业有限公司 一种基于云计算的重复数据去重选择方法及装置
CN106453663A (zh) * 2016-12-13 2017-02-22 宁夏凯速德科技有限公司 改进的基于云服务的存储扩容方法及装置
CN109309706A (zh) * 2017-07-27 2019-02-05 Emc知识产权控股有限公司 在云局域网上的存储***之间共享预先计算的指纹和数据块的方法和***
CN109660611A (zh) * 2018-12-10 2019-04-19 浪潮(北京)电子信息产业有限公司 一种云备份的数据存储方法及存储***的数据云备份方法
CN111026327A (zh) * 2019-10-22 2020-04-17 苏州浪潮智能科技有限公司 一种基于重删的磁带归档***及方法
CN113050891A (zh) * 2021-03-26 2021-06-29 杭州宏杉科技股份有限公司 重删数据保护方法及装置
CN114138554A (zh) * 2021-11-22 2022-03-04 深圳市远飞网络科技有限公司 无线ap配置信息备份及***恢复控制***
US11461269B2 (en) 2017-07-21 2022-10-04 EMC IP Holding Company Metadata separated container format

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法
CN102156727A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种采用双指纹哈希校验的重复数据删除方法
US20120144448A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Data Store Including a File Location Attribute
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除***及其处理方法
CN103051671A (zh) * 2012-11-22 2013-04-17 浪潮电子信息产业股份有限公司 一种集群文件***重复数据删除方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法
US20120144448A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Data Store Including a File Location Attribute
CN102156727A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种采用双指纹哈希校验的重复数据删除方法
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除***及其处理方法
CN103051671A (zh) * 2012-11-22 2013-04-17 浪潮电子信息产业股份有限公司 一种集群文件***重复数据删除方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
宋雨等: ""基于云存储的重复数据删除架构的研究与设计"", 《计算机***应用》 *
杨天明: ""网络备份中重复数据删除技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 *
沈瑞清: ""云存储中避免重复数据存储机制研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
胡盼盼: ""在线重复数据删除技术的研究与实现"", <中国优秀硕士学位论文全文数据库 信息科技辑> *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104994069B (zh) * 2015-05-25 2019-01-01 南京信息工程大学 基于数据重复性验证的云存储数据完整性证明方法
CN104994069A (zh) * 2015-05-25 2015-10-21 南京信息工程大学 基于数据重复性验证的云存储数据完整性证明方法
CN106055271A (zh) * 2016-05-17 2016-10-26 浪潮(北京)电子信息产业有限公司 一种基于云计算的重复数据去重选择方法及装置
CN106055271B (zh) * 2016-05-17 2019-01-25 浪潮(北京)电子信息产业有限公司 一种基于云计算的重复数据去重选择方法及装置
CN106453663B (zh) * 2016-12-13 2019-10-22 河北思达歌数据科技投资有限公司 改进的基于云服务的存储扩容方法及装置
CN106453663A (zh) * 2016-12-13 2017-02-22 宁夏凯速德科技有限公司 改进的基于云服务的存储扩容方法及装置
US11461269B2 (en) 2017-07-21 2022-10-04 EMC IP Holding Company Metadata separated container format
CN109309706B (zh) * 2017-07-27 2022-03-04 Emc知识产权控股有限公司 在云局域网的存储***间共享指纹和数据块的方法和***
CN109309706A (zh) * 2017-07-27 2019-02-05 Emc知识产权控股有限公司 在云局域网上的存储***之间共享预先计算的指纹和数据块的方法和***
CN109660611B (zh) * 2018-12-10 2021-08-31 浪潮(北京)电子信息产业有限公司 一种云备份的数据存储方法及存储***的数据云备份方法
CN109660611A (zh) * 2018-12-10 2019-04-19 浪潮(北京)电子信息产业有限公司 一种云备份的数据存储方法及存储***的数据云备份方法
CN111026327A (zh) * 2019-10-22 2020-04-17 苏州浪潮智能科技有限公司 一种基于重删的磁带归档***及方法
CN111026327B (zh) * 2019-10-22 2022-12-23 苏州浪潮智能科技有限公司 一种基于重删的磁带归档***及方法
CN113050891A (zh) * 2021-03-26 2021-06-29 杭州宏杉科技股份有限公司 重删数据保护方法及装置
CN113050891B (zh) * 2021-03-26 2022-02-25 杭州宏杉科技股份有限公司 重删数据保护方法及装置
CN114138554A (zh) * 2021-11-22 2022-03-04 深圳市远飞网络科技有限公司 无线ap配置信息备份及***恢复控制***

Similar Documents

Publication Publication Date Title
CN104010042A (zh) 一种云服务的重复数据删除的备份机制
US9223789B1 (en) Range retrievals from archived data objects according to a predefined hash tree schema
US8650159B1 (en) Systems and methods for managing data in cloud storage using deduplication techniques
US10915247B2 (en) Efficient data management through compressed data interfaces
US10180953B2 (en) Receiver-side data deduplication in data systems
US9928210B1 (en) Constrained backup image defragmentation optimization within deduplication system
RU2598991C2 (ru) Восстановление данных клиента при перемещениях данных клиента
US20140330795A1 (en) Optimizing restoration of deduplicated data
CN103608783A (zh) 用于备份应用的存储体系结构
CN102456059A (zh) 重复数据删除的处理***
CN103095843A (zh) 一种基于版本矢量的数据备份方法及客户端
CN103714123A (zh) 企业云存储分块对象重复数据删除和重组版本控制方法
CN103067480A (zh) 一种网盘的同步方法及***
CN103227818A (zh) 终端、服务器、文件传输方法、文件存储管理***和方法
CN110636141A (zh) 基于云雾协同的多云存储***及其管理方法
CN103064637A (zh) 一种网盘的缓存同步方法及***
US10747458B2 (en) Methods and systems for improving efficiency in cloud-as-backup tier
CN103116615A (zh) 一种基于版本矢量的数据索引方法及服务器
US11803309B2 (en) Selective compression and encryption for data replication
CN110109617A (zh) 一种加密重复数据删除***中的高效元数据管理方法
CN105487942A (zh) 一种基于重复数据删除的备份与远程复制方法
CN103067479A (zh) 一种基于文件冷热的网盘同步方法及***
CN103118104A (zh) 一种基于版本矢量的数据还原方法及服务器
CN103019891A (zh) 一种还原被删除文件的方法及***
CN105653209A (zh) 一种对象存储数据传输方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140827