CN103914522A - 一种应用于云存储重复数据删除的数据块合并方法 - Google Patents

一种应用于云存储重复数据删除的数据块合并方法 Download PDF

Info

Publication number
CN103914522A
CN103914522A CN201410104776.8A CN201410104776A CN103914522A CN 103914522 A CN103914522 A CN 103914522A CN 201410104776 A CN201410104776 A CN 201410104776A CN 103914522 A CN103914522 A CN 103914522A
Authority
CN
China
Prior art keywords
data
block
sub
data block
merging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410104776.8A
Other languages
English (en)
Inventor
李玉军
罗四维
侯孟书
牛新征
詹思瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410104776.8A priority Critical patent/CN103914522A/zh
Publication of CN103914522A publication Critical patent/CN103914522A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应用于云存储重复数据删除的数据块合并方法,它包括以下步骤:S1:将需要存储的文件分割成一系列连续的子数据块;S2:计算每个子数据块的数字摘要,作为该子数据块的编号;S3:设置子数据块合并的最小合并块数和最大合并块数,对于新数据块,先将其分组合并,最后将所有数据块存储;对于旧数据块,建立该子数据块与已存储或已备份数据块之间映射,然后对这些子数据块进行分组合并,最后将合并后的数据块予以删除。本发明通过子数据块合并减少了合并数据块过程中的开销,减少了调用哈希比对的频率,加快了数据删除的速度,提高了数据删除***的性能。

Description

一种应用于云存储重复数据删除的数据块合并方法
技术领域
本发明涉及一种应用于云存储重复数据删除的数据块合并方法。
背景技术
云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件***等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个***。 当云计算***运算和处理的核心是大量数据的存储和管理时,云计算***中就需要配置大量的存储设备,那么云计算***就转变成为一个云存储***,所以云存储是一个以数据存储和管理为核心的云计算***。
随着云计算的发展,云存储技术通过集群应用、虚拟化技术、分布式文件***等功能将网络中大量各种不同类型的存储设备集合起来协同工作,缓解了老式数据中心的存储压力。  另外,重复数据删除技术是一种缩减存储空间减少网络传输量的技术,随着云的广泛应用也势必会发展应用于云存储中,这两种技术结合将会给IT存储业带来实际效益。
重复数据删除技术是一种数据缩减技术,通常用于基于磁盘的备份***,旨在减少存储***中使用的存储容量,它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块,重复的数据块用指示符取代。高度冗余的数据集从数据重复删除技术的获益极大;用户可以实现10比1至50比1的缩减比。而且,重复数据删除技术可以允许用户的不同站点之间进行高效、经济的备份数据复制。
备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
重复数据删除技术支持在已有的磁盘设备上存储更多的备份数据。因此采用“重复数据删除”技术可以增加保存备份数据的时间,减少数据中心的消耗,降低成本。如果删除重复数据后再通过WAN发送,那么就能够节省大量的带宽,并且可以取代磁带实现网上离线备份。重复数据删除技术唯一的缺点是备份速度变慢。
目前,执行重复数据删除的基本方法有三种。第一种是基于散列(hash)的方法,Data Domain、飞康、昆腾的DXi系列设备都是采用SHA-1, MD-5 等类似的算法将这些进行备份的数据流断成块并且为每个数据块生成一个散列(hash)。如果新数据块的散列(hash)与备份设备上散列索引中的一个散列匹配,表明该数据已经被备份,设备只更新它的表,以说明在这个新位置上也存在该数据;第二种方法是基于内容识别的重复删除,这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件***的元数据识别文件;然后与其数据存储库中的其它版本进行逐字节地比较,找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件;第三种方法是Diligent Technologies,它像基于散列(hash)的产品那样将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似,然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。
按照部署位置的不同,重复数据删除可分为源端重复数据删除和目标端重复数据删除。源端重复数据删除是先删除重复数据,再将数据传到备份设备。目标端重复数据删除是先将数据传到备份设备,存储时再删除重复数据。
按照检查重复数据的算法不同,重复数据删除可以分为对象/文件级和块级的重复数据删除。对象级的重复数据删除保证文件不重复。块级重复数据删除则将文件分成数据块进行比较。
根据应用场合的不同,可以分为通用型重复数据删除***和专用型重复数据删除***。通用型重复数据删除***是指厂商提供通用的重复数据删除产品,而不是和特定虚拟磁带库或备份设备相联系。专用型重复数据删除***是和特定虚拟磁带或备份设备相联系,一般采取目标端重复数删除方式。
随着云计算日益发展,云存储和备份服务渐渐地被工业界和学术界所重视。在云存储中,数据量每天以指数型地增长,这也给数据中心的存储***和设备带来了巨大的冲击和挑战。而数据删除技术则能够有效地减少存储***的负担,提高网络的带宽利用率,节约消耗。
而如今的数据删除技术多是针对各种大小的数据块,并将各种子数据块合并为大型数据块从而来提高存储容量和带宽利用率,但是鲜有人考虑到合并数据块过程中的开销。
发明内容
本发明的目的在于克服现有技术的不足,提出一种应用于云存储重复数据删除的数据块合并方法,能够避免不必要的子数据块合并,减少合并数据块过程中的开销,降低调用哈希比对的频率,并且加快整个数据删除程序的运行速度,提高整个数据删除程序的性能。
本发明的目的是通过以下技术方案来实现的:一种应用于云存储重复数据删除的数据块合并方法,它包括以下步骤:
S1:使用数据块分块算法将需要存储的文件分割成一系列连续的子数据块;
S2:计算每个子数据块的数字摘要,并将该数字摘要标记为该子数据块的编号,该编号为判断是否有同样的子数据块已经备份或者已经存储的标志;
S3:设置子数据块合并的最小合并块数和最大合并块数,随后对已编号的子数据块进行编号匹配查找,若没有找到匹配的编号,表明该子数据块之前未存储或未备份,将该子数据块标识为新数据块,对于新数据块,先将其按照最小合并块数与最大合并块数之间的任意数值进行分组合并,最后将所有已合并的新数据块和剩余的数量小于最小合并块数的散子数据块存储;若找到匹配的编号,表明该子数据块已经存储或已经备份,则将该子数据块标识为旧数据块,对于旧数据块,建立该子数据块与已存储或已备份数据块之间映射,然后按照1到最大合并块数之间的任意数值对这些子数据块进行分组合并,最后将合并后的数据块予以删除。
所述的数字摘要算法包括MD5或SHA系列算法。
所述的最大合并块数为8
所述的最小合并块数为最大块数的一半,即数值为4
所述的数据块分块算法为基于文件内容切分的CDC算法,CDC算法是一种变长分块算法,它应用数据指纹将文件分割成长度大小不等的分块,数据指纹即为数据块的哈希值,相当于数据块的编号。与定长分块算法不同,它是基于文件内容进行数据块切分的,因此数据块大小是可变化的。算法执行过程中,CDC使用一个固定大小的滑动窗口对文件数据计算数据指纹。如果指纹满足某个条件,如当它的值模特定的整数等于预先设定的数时,则把窗口位置作为块的边界。CDC算法可能会出现病态现象,如指纹条件不能满足,块边界不能确定,导致数据块过大。Fingerdiff算法对数据块合并过程进行了优化,规定了数据块合并的最大块数,虽然这种优化策略能够避免一定的合并过程,但是由于没有限定数据块合并的最小块数,导致合并过程较多,开销较大,影响了整体的重复数据删除效率。算法实现中对数据块的大小进行限定,根据目前实际运行情况以及常见的参数设置设定合并数据块上限,并用数学关系将下限与设定的上限值关联,以解决这种问题。
本发明的有益效果是:设置了合并子数据块最小以及最大数量,通过避免不必要的子数据块合并减少了合并数据块过程中的开销,减少了调用哈希比对的频率,并且加快了整个数据删除程序的运行速度,提高了整个数据删除程序的性能。 
附图说明
图1为本发明程序流程图;
图2为本发明所用到的CDC算法流程图;
图3为本发明所涉及的Fingerdiff算法分块流程图;
图4为本发明所涉及的Fingerdiff算法合并数据块流程图;
图5为本发明提出的MMCA算法分块流程图;
图6为本发明所提出的MMCA算法合并数据块流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种应用于云存储重复数据删除的数据块合并方法,它包括以下步骤:
S1:使用数据块分块算法将需要存储的文件分割成一系列连续的子数据块;
S2:计算每个子数据块的数字摘要,并将该数字摘要标记为该子数据块的编号,该编号为判断是否有同样的子数据块已经备份或者已经存储的标志;
S3:设置子数据块合并的最小合并块数和最大合并块数,随后对已编号的子数据块进行编号匹配查找,若没有找到匹配的编号,表明该子数据块之前未存储或未备份,将该子数据块标识为新数据块,对于新数据块,先将其按照最小合并块数与最大合并块数之间的任意数值进行分组合并,最后将所有已合并的新数据块和剩余的数量小于最小合并块数的散子数据块存储;若找到匹配的编号,表明该子数据块已经存储或已经备份,则将该子数据块标识为旧数据块,对于旧数据块,建立该子数据块与已存储或已备份数据块之间映射,然后按照1到最大合并块数之间的任意数值对这些子数据块进行分组合并,最后将合并后的数据块予以删除。
所述的数字摘要算法包括MD5或SHA系列算法。
所述的最大合并块数为8
所述的最小合并块数为最大块数的一半,即数值为4
所述的数据块分块算法为基于文件内容切分的CDC算法,CDC算法是一种变长分块算法,它应用数据指纹将文件分割成长度大小不等的分块,数据指纹即为数据块的哈希值,相当于数据块的编号。与定长分块算法不同,它是基于文件内容进行数据块切分的,因此数据块大小是可变化的。算法执行过程中,CDC使用一个固定大小的滑动窗口对文件数据计算数据指纹。如果指纹满足某个条件,如当它的值模特定的整数等于预先设定的数时,则把窗口位置作为块的边界。CDC算法可能会出现病态现象,如指纹条件不能满足,块边界不能确定,导致数据块过大。算法实现中可以对数据块的大小进行限定,设定上下限,以解决这种问题。根据实际部署运行情况以及效率分析,将数据块合并过程中最大数据块的数目设定为8时重复数据删除的性能较好。同时将数据块的最小合并数值设定为最大数值的一半,即为4。利用数学关系将最小、最大数据块合并数目进行关联,便于动态反映数据块的合并过程,减少不必要的数据块合并,从而降低数据块合并开销,提高云存储重复数据删除的整体性能和效率。
下面通过举例阐述本方法与现有的Fingerdiff方法的区别。
Fingerdiff方法:如图3所示,在得到目标文件后,首先使用CDC算法将文件分成了16个连续的子数据块,记为c1到c16,所有的子数据块都被编号,且被标记为新数据块,然后通过Fingerdiff算法将16个子数据块合并为2个大数据块SC1和SC2,且均被标记为新数据块,最后将这2个新数据块都存入存储***。
如图4所示,当之前的文件部分被修改之后(c3、c4、c7到c10均被修改),再次进入存储***,依然先使用CDC算法将文件分成16个连续的子数据块,记为c1’到c16’,与之前相比只有c3’、c4’、c7’到c10’被修改,然后通过Fingerdiff算法进行子数据块合并,而这次合并之后产生了5个大数据块,SC1’、SC2’、SC3’、SC4’、SC5’,其中由c3’和c4’合并而成的SC3’和由c7’到c10’合并而成的SC4’为修改过后的数据,被标记为新数据块,其余被标记为旧数据块,最后将新数据块存入存储***,将旧数据块删除。
本发明所提出的方法MMCA算法:假设所设定的最大子数据块合并个数为8,最小子数据块合并个数为4,最佳数据块大小为1KB。
如图5所示,在一个全新的文件要存入存储***时,操作流程与Fingerdiff算法是完全相同的,在此不再赘述。
如图6所示,当文件部分被修改之后(所修改部分也与之前相同),再次存入存储***,依然先使用CDC算法将文件分成16个连续的子数据块,记为c1’到c16’,然后通过MMCA算法进行子数据块合并,可以看到合并之后产生了4个大数据块,SC1’、SC2’、SC3’、SC4’,而由于数量未达到最小数据块合并个数,c3’和c4’未进行合并被完整地保留了下来,这里即是MMCA算法与Fingerdiff算法最大的不同,随后c3’和c4’,SC4’被标记为新数据,存入存储***,其余数据进行删除。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种应用于云存储重复数据删除的数据块合并方法,其特征在于:它包括以下步骤:
S1:使用数据块分块算法将需要存储的文件分割成一系列连续的子数据块;
S2:计算每个子数据块的数字摘要,并将该数字摘要标记为该子数据块的编号,该编号为判断是否有同样的子数据块已经备份或者已经存储的标志;
S3:设置子数据块合并的最小合并块数和最大合并块数,随后对已编号的子数据块进行编号匹配查找,若没有找到匹配的编号,表明该子数据块之前未存储或未备份,将该子数据块标识为新数据块,对于新数据块,先将其按照最小合并块数与最大合并块数之间的任意数值进行分组合并,最后将所有已合并的新数据块和剩余的数量小于最小合并块数的散子数据块存储;若找到匹配的编号,表明该子数据块已经存储或已经备份,则将该子数据块标识为旧数据块,对于旧数据块,建立该子数据块与已存储或已备份数据块之间映射,然后按照1到最大合并块数之间的任意数值对这些子数据块进行分组合并,最后将合并后的数据块予以删除。
2.根据权利要求1所述的一种应用于云存储重复数据删除的数据块合并方法,其特征在于:所述的数据块分块算法为基于文件内容切分的CDC算法。
3.根据权利要求1所述的一种应用于云存储重复数据删除的数据块合并方法,其特征在于:所述的数字摘要算法包括MD5或SHA系列算法。
4.根据权利要求1所述的一种应用于云存储重复数据删除的数据块合并方法,其特征在于:所述的最大合并块数为8。
5.根据权利要求1所述的一种应用于云存储重复数据删除的数据块合并方法,其特征在于:所述的最小合并块数为最大块数的一半,即数值为4。
CN201410104776.8A 2014-03-20 2014-03-20 一种应用于云存储重复数据删除的数据块合并方法 Pending CN103914522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410104776.8A CN103914522A (zh) 2014-03-20 2014-03-20 一种应用于云存储重复数据删除的数据块合并方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410104776.8A CN103914522A (zh) 2014-03-20 2014-03-20 一种应用于云存储重复数据删除的数据块合并方法

Publications (1)

Publication Number Publication Date
CN103914522A true CN103914522A (zh) 2014-07-09

Family

ID=51040202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410104776.8A Pending CN103914522A (zh) 2014-03-20 2014-03-20 一种应用于云存储重复数据删除的数据块合并方法

Country Status (1)

Country Link
CN (1) CN103914522A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268091A (zh) * 2014-09-19 2015-01-07 深圳市心讯网络科技有限公司 文件储存方法和文件修改方法
CN104317676A (zh) * 2014-11-21 2015-01-28 四川智诚天逸科技有限公司 一种数据备份容灾方法
CN105022593A (zh) * 2015-08-18 2015-11-04 南京大学 一种基于数据压缩和数据去冗协同的存储优化方法
CN105787037A (zh) * 2016-02-25 2016-07-20 浪潮(北京)电子信息产业有限公司 一种重复数据的删除方法及装置
CN105787008A (zh) * 2016-02-23 2016-07-20 浪潮通用软件有限公司 一种大数据量的数据去重清洗方法
CN105988890A (zh) * 2015-01-29 2016-10-05 阿里巴巴集团控股有限公司 信息的备份方法及装置
CN106537321A (zh) * 2015-05-27 2017-03-22 华为技术有限公司 存取文件的方法、装置和存储***
CN108153771A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种提高大数据队列处理效率的方法和***
WO2018205689A1 (zh) * 2017-05-10 2018-11-15 华为技术有限公司 合并文件的方法、存储装置、存储设备和存储介质
CN109309706A (zh) * 2017-07-27 2019-02-05 Emc知识产权控股有限公司 在云局域网上的存储***之间共享预先计算的指纹和数据块的方法和***
CN109783494A (zh) * 2018-12-29 2019-05-21 深圳云天励飞技术有限公司 数据存储方法及相关装置
CN110968575A (zh) * 2018-09-30 2020-04-07 南京工程学院 一种大数据处理***的去重方法
CN111506271A (zh) * 2020-06-29 2020-08-07 南京鹏云网络科技有限公司 数据段单元传输差异化管理方法和分布式块存储***
CN111522791A (zh) * 2020-04-30 2020-08-11 电子科技大学 一种分布式文件重复数据删除***及方法
CN112019605A (zh) * 2020-08-13 2020-12-01 上海哔哩哔哩科技有限公司 数据流的数据分发方法和***
CN113032340A (zh) * 2019-12-24 2021-06-25 阿里巴巴集团控股有限公司 数据文件的合并方法、装置、存储介质及处理器
CN113220505A (zh) * 2021-05-26 2021-08-06 成都易我科技开发有限责任公司 备份镜像数据的管理方法、装置、***及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102185889A (zh) * 2011-03-28 2011-09-14 北京邮电大学 基于iSCSI的重复数据删除方法
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和***及存储装置
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102185889A (zh) * 2011-03-28 2011-09-14 北京邮电大学 基于iSCSI的重复数据删除方法
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和***及存储装置
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOBBARJUNG D R,ETC.: "Improving Duplicate Elimination in Storage Systems", 《ACM TRANSACTIONS ON STORAGE》 *
SIWEI LUO ETC.: "A novel chunk coalescing algorithm for data deduplication in cloud storage", 《APPLIED ELECTRICAL ENGINEERING AND COMPUTING TECHNOLOGIES (AEECT), 2013 IEEE JORDAN CONFERENCE ON. IEEE》 *
付印金等: "重复数据删除关键技术研究进展", 《计算机研究与发展》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268091A (zh) * 2014-09-19 2015-01-07 深圳市心讯网络科技有限公司 文件储存方法和文件修改方法
CN104268091B (zh) * 2014-09-19 2016-02-24 盛杰 文件储存方法和文件修改方法
CN104317676A (zh) * 2014-11-21 2015-01-28 四川智诚天逸科技有限公司 一种数据备份容灾方法
CN105988890A (zh) * 2015-01-29 2016-10-05 阿里巴巴集团控股有限公司 信息的备份方法及装置
CN105988890B (zh) * 2015-01-29 2020-01-17 阿里巴巴集团控股有限公司 信息的备份方法及装置
US10846265B2 (en) 2015-05-27 2020-11-24 Huawei Technologies Co., Ltd. Method and apparatus for accessing file, and storage system
CN106537321A (zh) * 2015-05-27 2017-03-22 华为技术有限公司 存取文件的方法、装置和存储***
CN106537321B (zh) * 2015-05-27 2020-04-28 华为技术有限公司 存取文件的方法、装置和存储***
CN105022593A (zh) * 2015-08-18 2015-11-04 南京大学 一种基于数据压缩和数据去冗协同的存储优化方法
CN105022593B (zh) * 2015-08-18 2017-09-26 南京大学 一种基于数据压缩和数据去冗协同的存储优化方法
CN105787008A (zh) * 2016-02-23 2016-07-20 浪潮通用软件有限公司 一种大数据量的数据去重清洗方法
CN105787037B (zh) * 2016-02-25 2019-03-15 浪潮(北京)电子信息产业有限公司 一种重复数据的删除方法及装置
CN105787037A (zh) * 2016-02-25 2016-07-20 浪潮(北京)电子信息产业有限公司 一种重复数据的删除方法及装置
CN108153771A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种提高大数据队列处理效率的方法和***
WO2018205689A1 (zh) * 2017-05-10 2018-11-15 华为技术有限公司 合并文件的方法、存储装置、存储设备和存储介质
CN109309706A (zh) * 2017-07-27 2019-02-05 Emc知识产权控股有限公司 在云局域网上的存储***之间共享预先计算的指纹和数据块的方法和***
CN109309706B (zh) * 2017-07-27 2022-03-04 Emc知识产权控股有限公司 在云局域网的存储***间共享指纹和数据块的方法和***
CN110968575A (zh) * 2018-09-30 2020-04-07 南京工程学院 一种大数据处理***的去重方法
CN110968575B (zh) * 2018-09-30 2023-06-06 南京工程学院 一种大数据处理***的去重方法
CN109783494A (zh) * 2018-12-29 2019-05-21 深圳云天励飞技术有限公司 数据存储方法及相关装置
CN113032340A (zh) * 2019-12-24 2021-06-25 阿里巴巴集团控股有限公司 数据文件的合并方法、装置、存储介质及处理器
CN113032340B (zh) * 2019-12-24 2024-05-14 阿里巴巴集团控股有限公司 数据文件的合并方法、装置、存储介质及处理器
CN111522791A (zh) * 2020-04-30 2020-08-11 电子科技大学 一种分布式文件重复数据删除***及方法
CN111522791B (zh) * 2020-04-30 2023-05-30 电子科技大学 一种分布式文件重复数据删除***及方法
CN111506271A (zh) * 2020-06-29 2020-08-07 南京鹏云网络科技有限公司 数据段单元传输差异化管理方法和分布式块存储***
CN112019605A (zh) * 2020-08-13 2020-12-01 上海哔哩哔哩科技有限公司 数据流的数据分发方法和***
CN113220505A (zh) * 2021-05-26 2021-08-06 成都易我科技开发有限责任公司 备份镜像数据的管理方法、装置、***及存储介质

Similar Documents

Publication Publication Date Title
CN103914522A (zh) 一种应用于云存储重复数据删除的数据块合并方法
US10761758B2 (en) Data aware deduplication object storage (DADOS)
CN104978151B (zh) 基于应用感知的重复数据删除存储***中的数据重构方法
CN105718548B (zh) 基于去重复存储***中用于可扩展引用管理的***和方法
CN106933503B (zh) 在基于哈希的存储***中从异步到同步复制的一致转变
US10178174B2 (en) Migrating data in response to changes in hardware or workloads at a data store
CN111008185B (zh) 一种数据共享方法、***及设备
US9043540B2 (en) Systems and methods for tracking block ownership
CN101777017B (zh) 一种连续数据保护***的快速恢复方法
US11093387B1 (en) Garbage collection based on transmission object models
Manogar et al. A study on data deduplication techniques for optimized storage
CN103098035A (zh) 存储***
WO2017020576A1 (zh) 一种键值存储***中文件压实的方法和装置
Zou et al. The dilemma between deduplication and locality: Can both be achieved?
WO2021073635A1 (zh) 一种数据存储方法及装置
JP2018538600A (ja) データ準備のためのシグニチャベースのキャッシュ最適化
CN110968554A (zh) 一种基于文件链分块的区块链存储方法、存储***及存储介质
CN104360914A (zh) 增量快照方法和装置
CN109144406A (zh) 分布式存储***中元数据存储方法、***及存储介质
CN113535670B (zh) 一种虚拟化资源镜像存储***及其实现方法
JP6598997B2 (ja) データ準備のためのキャッシュ最適化
CN103473258A (zh) 云存储文件***
CN105493080A (zh) 基于上下文感知的重复数据删除的方法和装置
Kumar et al. Bucket based data deduplication technique for big data storage system
US9678972B2 (en) Packing deduplicated data in a self-contained deduplicated repository

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140709

RJ01 Rejection of invention patent application after publication