CN102222085A - 一种基于相似性与局部性结合的重复数据删除方法 - Google Patents

一种基于相似性与局部性结合的重复数据删除方法 Download PDF

Info

Publication number
CN102222085A
CN102222085A CN 201110127695 CN201110127695A CN102222085A CN 102222085 A CN102222085 A CN 102222085A CN 201110127695 CN201110127695 CN 201110127695 CN 201110127695 A CN201110127695 A CN 201110127695A CN 102222085 A CN102222085 A CN 102222085A
Authority
CN
China
Prior art keywords
data
fingerprint
similarity
locality
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110127695
Other languages
English (en)
Other versions
CN102222085B (zh
Inventor
冯丹
夏文
华宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2011101276956A priority Critical patent/CN102222085B/zh
Publication of CN102222085A publication Critical patent/CN102222085A/zh
Application granted granted Critical
Publication of CN102222085B publication Critical patent/CN102222085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种重复数删除方法,该方法将数据的相似性与局部性相结合,***内存开销少且重复数据删除效率高。该方法首先对数据流中的文件进行分块、分组,确定每个数据组的相似性单元及代表指纹,并将代表指纹保存在内存中;然后遍历所有数据组,进行相似性判断,确定哪些数据组完全为重复数据,哪些数据组存在非重复数据。若数据组中存在非重复数据,还可以继续进行局部性判断,进一步确定该数据组内哪些数据为重复数据。该方法只保存代表指纹到内存,大大减少了内存开销;通过对数据流局部性的挖掘并缓存数据的局部性到内存中,可以在相似性判断后进行补充,能够找到更多的重复数据,同时可以避免频繁的访问磁盘索引,提高内存的利用率。

Description

一种基于相似性与局部性结合的重复数据删除方法
技术领域
本发明属于计算机存储领域,具体涉及一种基于相似性与局部性结合的重复数据删除方法。
背景技术
近年来,随着计算机技术和网络的发展普及,全球的数据信息存储量呈***式增长的趋势。虽然存储设备的售价一直在不停的下降,但也远远赶不上数据扩张增长的速度。重复数据删除(Data Deduplication)作为一种通过大规模地有效地消除冗余数据的技术,成为了近年来存储***研究的热点。重复数据删除不仅能够大量的节省了存储空间提供存储***性能,而且通过避免冗余数据传输而节省了网络带宽。重复数据删除的兴起源于存储市场中的大量数据备份和归档的需求,而需求带动了研发与产品化,IBM、HP、EMC这些存储大公司都瞄准了重复数据删除市场,开发出了一系列的重复数据删除产品。尤其在2009年,EMC以21亿美元重金收购了重复数据删除企业Data Domain,这更是体现了重复数据删除在存储***中的重要性和热点关注度,并以此为标志拉开了重复数据删除进入存储领域主流技术的大幕。
简单来讲,目前新兴的重复数据删除就是一种通过大规模地有效地消除冗余数据,从而降低数据存储成本的重要技术。举例来说:现在某核心部门有20GB的数据需要每天备份,那么一年就需要备份7300GB,事实上每天修改的数据不到1GB,每天备份的数据都存在着大量的重复的冗余的数据。而传统的备份存储技术不能识别备份数据中的冗余数据,因而会备份大量的重复数据,无端浪费了网络带宽和存储空间,降低了数据备份和归档的存储效率率。随着备份次数的增多和备份数据量的迅猛增长,存储***中的冗余数据越来越多,消耗在冗余数据上的存储和管理资源会成倍增长。而重复数据删除技术正好迎合了这一需求,通过抑制数据存储的增长速度从而降低了数据存储管理开销和提高了存储资源利用率。
但是随着重复数据删除技术的发展,重复数据删除技术也面临诸多的挑战。在小规模的重复数据删除***中,所有的指纹索引信息可以存储在内存里,可使用普通的Hash表进行处理。但是,在海量信息存储***中,这些指纹的数据量会变得异常庞大,所以只能放在磁盘上,这也就成为重复数据删除的潜在的巨大的性能瓶颈。我们假设存在这样一个重复数据删除***,它采用了平均8KB的块大小和SHA-1哈希指纹算法,16TB的备份数据则产生了40GB的数据指纹。内存中显然装不下这40GB的指纹,这写指纹需要放入磁盘中存储并索引。众所周知,磁盘访问速度远远低于内存访问速度,这使得重复数据删除中的指纹查找非常缓慢。也就是说,每输入一个数据块,都需要遍历整个磁盘指纹索引,这严重影响了重复数据删除的吞吐率。近几年来,重复数据删除的研究工作都围绕于这方面的问题展开,以期可以寻求更好的解决方案,减少重复数据删除索引的内存开销,提高重复数据删除的可扩展性。
由此可见,研究高效的重复数据删除机制,对于提高数据存储效率,降低企业的数据存储成本,提高企业经济效益具有重要意义。
发明内容
本发明的目的在于提供一种基于相似性与局部性结合的重复数据删除方法,该方法通过将数据的相似性与局部性的结合来进行重复数据删除,***内存开销少且重复数据删除效率高。
本发明提供的基于相似性与局部性结合的重复数据删除方法,包括以下步骤:
(1)对数据流中的文件进行分块,得到多个数据块;
(2)计算每个数据块的数据块指纹;
(3)对所有数据块进行分组,得到多个数据组;确定每个数据组的相似性单元及代表指纹,在内存中保存代表指纹;其中,将连续的数据块集合作为一个数据组,每个数据组的大小与标准文件的大小相同,所述相似性单元是指数据组中所有数据块的指纹集合,代表指纹是指相似性单元中前缀最小的数据块指纹;
(4)选取一个数据组,判断内存中是否存在与该数据组的代表指纹相同的已有指纹,若有,则该数据组的相似性单元与已有指纹所代表的相似性单元相似,进入(5);若没有,转入(6);
(5)判断该数据组的相似性单元与已有指纹所代表的相似性单元是否完全相同,如果是,则该数据组的所有数据均为重复数据,转入(7);如果否,则将与已有指纹所代表的相似性单元所在的局部性单元读入内存,其中局部性单元是指多个连续相似性单元的集合,进入(6);
(6)对所述数据组进行局部性判断,局部性判断包括下述子步骤:
(a)选择所述数据组中的一个数据块,判断该数据块的指纹是否在内存中有记录,若有,则该数据块为重复数据块,进入(c);若没有,则该数据块为新数据块,进入(b);
(b)将新数据块写入磁盘;
(c)重复步骤(a)-(b),遍历所述数据组中的所有数据块;
(7)重复步骤(4)-(6),遍历步骤(3)中划分的所有数据组。
本发明具有如下有益效果:
1、本发明提出的重复数据删除方法,采用一种新颖的相似性判断方法,避免了相似性单元的所有指纹都放入内存中,而仅仅只需要保存代表指纹到内存即可,大大减少了内存开销;比如***设定一个相似性单元平均2MB大小,发置重复数据删除平均分块大小8KB,每个指纹的索引开销60B,那么重复数据删除1TB的数据,就只需要30MB的内存开销,仅仅使用了以前的全局内存索引表方案1/250的内存开销。
2、本发明提出的重复数据删除方法,在进行相似性判断后,还可以采用一种局部性判断方法,通过对存储***中的备份数据流局部性的挖掘并缓存数据的局部性到内存中,可以在相似性判断后进行补充和加强,从而能够找到更多的重复数据;而且因为数据流的局部性缓存到了内存中,可以避免频繁的访问磁盘索引,提高内存的利用率。
3、本发明提出的重复数据删除方法内存开销少、重复数据删除效率高并且吞吐率高,还可以应用在除备份领域之外的场合,比如主存储***中等。
附图说明
图1为本发明的***结构图;
图2为本发明的重复数据删除服务器结构图;
图3为本发明的相似性判断方法结构图;
图4为本发明的局部性工作原理图;
图5为本发明的***运行流程图。
具体实施方式
下面结合附图及实施例进一步说明本发明的重复数据删除方法。
本发明所述的数据删除方法将待备份数据流分块、分组后,利用每组数据块的指纹集合构建相似性单元,选择相似性单元的代表指纹,即选择相似性单元中指纹值前缀最小的指纹,将代表指纹放入内存中,作为重复数据删除的关键值索引,进行相似性判断。
因为如果两个相似性单元所代表的数据块集合有很多重复数据块,其代表指纹相等的概率等于他们拥有共同指纹的比例,所以本发明所述的相似性判断方法是基于相似性概率的,数据的相似性程度越大,相似指纹越有效。
本发明数据分组的依据可以是预先设定的标准文件大小,标准文件的大小可以由用户自己根据应用场合设计。设M为本发明中标准文件的大小,若M值越大,则重复数据删除的相似性粒度越大,那么相似性索引的内存开销越小,但是删除的重复数据也会随之变小,反之亦然。设定标准文件大小M之后将待备份数据流中的文件分成三部分,即大文件、小文件和中间文件。其中小文件是指小于或者等于M/4大小的文件;大文件是指大于或者等于3M/2大小的文件;介于M/4~3M/2大小区间的文件认为是中间文件。
对于小文件,选取多个连续的小文件的数据块集合,构成一个数据组,该集合的大小与M近似相等,该数据组包含的指纹集合为相似性单元;
对于大文件,截取M值大小的数据块集合,构成一个数据组,该数据组包含的指纹集合为相似性单元;对于大文件末尾的数据块大小不足M值的,可以与其他数据块组合,构成一个数据组;
对于中间文件,可截取M值大小的数据块集合或选择多个连续的数据块集合构成一个数据组,只要该集合的大小与M近似相等,该数据组包含的指纹集合为相似性单元。
存储***中的数据流的局部性是指,当文件A、B、C曾经序列出现时,那么下次出现文件A时,文件B和C很有可能会紧随后面。本发明采用局部性来补充相似性判断的不足,例如对于前后备份的文件序列A1、B1、C1和A2、B2、C2,采用相似性判断方法确定出文件B1和B2相似,那么A1和A2潜在相似(即使相似性判断方法认为这两个文件不相似),C1和C2也潜在相似,这样就有可能发现更多潜在的重复数据。
本发明将多个连续的相似性单元称为局部性单元,并保存在磁盘外存中。这样对于两个局部性单元只要他们中有一个相似性单元是相似的,就可以认定这两个局部性单元是相似的,这样避免了相似性判断方法大量遗漏重复数据的可能性。局部性单元包含的相似性单元个数可以设置为128个,也可以根据重复数据删除的应用场合适当的调整个数,个数越多,挖掘的局部性越多,发现的重复数据也就越多,但是随着相似性单元个数的增加也会导致重复数据删除吞吐率下降。
下面结合备份***加以说明本发明的重复数据删除方法,备份***如图1所示,主要包括四个功能组件,即文件代理、存储服务器、备份服务器和重复数据删除服务器。
文件代理安装在***客户端,提供用户备份一与恢复的接口,同时也提供了重复数据删除的预处理过程:数据分块、计算哈希指纹、数据分组,构建相似性单元等。
备份服务器负责协调全局的数据备份和恢复操作,集中管理和指挥文件代理端和存储服务器;备份服务器维护了一个备份文件元数据的数据库信息库,以便于单个文件的检索。
存储服务器主要负责存储和管理备份数据,存储服务器可以部署在多个存储节点上而且提供快速、可靠和安全的备份恢复数据服务。
重复数据删除服务器主要负责存储和查找所有的数据块指纹,存储服务器主要包括了相似性处理模块、局部性处理模块、相似性哈希表、局部性缓存和局部性哈希表等,如图2所示。相似性处理模块将数据块指纹分成相对平等而且独立的集合,从每个数据块指纹中提取相似性特征,即相似性单元的代表指纹。局部性处理模块将多个连续相似性单元保存到一个局部性单元中,以便于局部性判断方法读取和缓存数据流局部信息到内存的读缓存中,如图3所示。相似性哈希表是将所有的相似性单元的关键值信息存储到内存的哈希表,相似性单元的关键值信息一般包括相似性单元ID、局部性单元ID、相似性单元代表指纹和相似性单元哈希摘要值等。局部性缓存是当输入数据流的相似性单元S1通过哈希表查找到相似的相似性单元S2的时候,***会缓存相似性单元S2所在的局部性单元到内存读缓存中,这样内存就缓存了相似性单元S2的局部性信息。局部性缓存又包括了内存读缓存和内存写缓存。如图4所示,对于相似性算法执行结束后,局部性算法就是对于那些没有找到与其相似的相似性单元的数据组,查找潜在的可能被漏掉的重复数据。局部性哈希表,是针对读入缓存的局部性单元的数据块指纹建立索引,便于快速查询具体的数据块指纹是否重复。在该备份***中,采用本发明所述的重复数据删除方法,包括以下步骤:
(1)对数据流中的文件进行分块,得到多个数据块;
在文件分块过程中,本发明适用于定长分块和变长分块,对分块算法没有要求,对分块大小也不做要求,2KB~256KB都可以,本实施例采用平均分块大小8KB。
(2)计算每个数据块的数据块指纹;
数据块指纹的计算可以采用各种哈希摘要算法,本实施例采用SHA-1,也可以采用其他抗冲突能力更强的哈希摘要算法。
(3)对多个数据块进行分组,该分组大小的区间可以为512KB~16MB,本实施例采用的分组的大小为2MB,即将连续的多个数据块作为一个数据组,且该数据组的大小为2MB,得到多个数据组;确定每个数据组的相似性单元及代表指纹,在内存中保存该代表指纹;
(4)选取一个数据组,判断内存中是否存在与该数据组的代表指纹相同的已有指纹,即在内存的相似性哈希表中查找,若有,则该数据组的相似性单元与已有指纹所代表的相似性单元相似,进入(5);若没有,则该数据组没有找到与其相似性单元相似的已有相似性单元,该数据组中存在非重复数据,转入(6);
(5)判断该数据组对应的相似性单元与已有指纹所对应的相似性单元是否完全相同,如果是,则该数据组的所有数据为重复数据,转入(7);如果否,则该数据组没有找到与其相似性单元相似的已有相似性单元,该数据组中存在非重复数据,则将与已有指纹所代表的相似性单元所在的局部性单元读入内存,即将该局部性单元从磁盘中读取到内存读缓存中,并且将该局部性单元的指纹建立一个哈希表来建立指纹索引查找,这个哈希表即为局部性哈希表;如果内存已满,则以先进先出算法(FIFO)淘汰旧的局部性单元,进入(6);
(6)进一步采用局部性判断方法对所述数据组进行重复数据删除,局部性判断方法包含以下子步骤:
(a)选择该数据组中的一个数据块,判断该数据块的指纹是否在内存中有记录,即在局部性哈希表中查找,若有,则该数据块为重复数据块,读取与该数据块重复的数据块的位置信息,进入(c);若没有,则该数据块为新数据块,进入(b);
(b)将新数据块写入磁盘,保存该数据块的存储位置信息,并且更新输入的相似性单元的关键值信息到内存的相似性哈希表中;如果写缓存已经满,则将写缓存从内存写入磁盘;
(c)重复步骤(a)-(b),遍历该数据组中的所有数据块;
在步骤(c)之后或者在步骤(5)中判断出数据组中的所有数据为重复数据之后,还可以将该数据组的相似性单元,组装成新的局部性单元到内存的写缓存中,并且更新该相似性单元的关键值信息到内存的相似性哈希表中;如果新的局部性单元已经写满,则写入写缓存中,这里局部性单元可以设定为容纳16~1024个相似性单元不等,本实施例采用局部性单元容纳128个相似性单元。这样在步骤(5)中判断出数据组中存在非重复数据后,再首先判断内存中是否有与已有指纹所代表的相似性单元所在的局部性单元,如果没有,则读取局部性单元;如果有,则不需要读取。
(7)重复步骤(4)-(6),遍历步骤(3)中划分的所有数据组。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方式实施本发明,因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护的范围。

Claims (1)

1.一种基于相似性与局部性结合的重复数据删除方法,包括以下步骤:
(1)对数据流中的文件进行分块,得到多个数据块;
(2)计算每个数据块的数据块指纹;
(3)对所有数据块进行分组,得到多个数据组;确定每个数据组的相似性单元及代表指纹,在内存中保存代表指纹;其中,将连续的数据块集合作为一个数据组,每个数据组的大小与标准文件的大小相同,所述相似性单元是指数据组中所有数据块的指纹集合,代表指纹是指相似性单元中前缀最小的数据块指纹; 
(4)选取一个数据组,判断内存中是否存在与该数据组的代表指纹相同的已有指纹,若有,则该数据组的相似性单元与已有指纹所代表的相似性单元相似,进入(5);若没有,转入(6);
(5)判断该数据组的相似性单元与已有指纹所代表的相似性单元是否完全相同,如果是,则该数据组的所有数据均为重复数据,转入(7);如果否,则将与已有指纹所代表的相似性单元所在的局部性单元读入内存,其中局部性单元是指多个连续相似性单元的集合,进入(6);
(6)对所述数据组进行局部性判断,局部性判断包括下述子步骤:
(a)选择所述数据组中的一个数据块,判断该数据块的指纹是否在内存中有记录,若有,则该数据块为重复数据块,进入(c);若没有,则该数据块为新数据块,进入(b); 
(b)将新数据块写入磁盘;
(c)重复步骤(a)-(b),遍历所述数据组中的所有数据块;
(7)重复步骤(4)-(6),遍历步骤(3)中划分的所有数据组。
CN2011101276956A 2011-05-17 2011-05-17 一种基于相似性与局部性结合的重复数据删除方法 Active CN102222085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101276956A CN102222085B (zh) 2011-05-17 2011-05-17 一种基于相似性与局部性结合的重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101276956A CN102222085B (zh) 2011-05-17 2011-05-17 一种基于相似性与局部性结合的重复数据删除方法

Publications (2)

Publication Number Publication Date
CN102222085A true CN102222085A (zh) 2011-10-19
CN102222085B CN102222085B (zh) 2012-08-22

Family

ID=44778637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101276956A Active CN102222085B (zh) 2011-05-17 2011-05-17 一种基于相似性与局部性结合的重复数据删除方法

Country Status (1)

Country Link
CN (1) CN102222085B (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
CN102831222A (zh) * 2012-08-24 2012-12-19 华中科技大学 一种基于重复数据删除的差量压缩方法
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置
CN103020174A (zh) * 2012-11-28 2013-04-03 华为技术有限公司 相似性分析方法、装置及***
CN103049263A (zh) * 2012-12-12 2013-04-17 华中科技大学 一种基于相似性的文件分类方法
WO2013075668A1 (zh) * 2011-11-25 2013-05-30 华为技术有限公司 重复数据删除方法和装置
CN103345449A (zh) * 2013-06-19 2013-10-09 暨南大学 一种面向重复数据删除技术的指纹预取方法及***
CN103403717A (zh) * 2013-01-09 2013-11-20 华为技术有限公司 一种数据处理方法及装置
CN103514247A (zh) * 2012-06-19 2014-01-15 国际商业机器公司 将去除了重复的数据打包到有限大小容器中的方法和***
CN103544275A (zh) * 2013-10-22 2014-01-29 华为技术有限公司 一种处理数据的方法及装置
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置
WO2014078990A1 (zh) * 2012-11-20 2014-05-30 华为技术有限公司 数据存储方法、数据存储装置及数据存储***
US8760956B1 (en) 2012-12-28 2014-06-24 Huawei Technologies Co., Ltd. Data processing method and apparatus
CN104050057A (zh) * 2014-06-06 2014-09-17 华中科技大学 一种历史感知的数据去重碎片消除方法与***
WO2014206242A1 (en) * 2013-06-25 2014-12-31 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
US8935222B2 (en) 2013-01-02 2015-01-13 International Business Machines Corporation Optimizing a partition in data deduplication
CN104298680A (zh) * 2013-07-18 2015-01-21 腾讯科技(深圳)有限公司 数据统计方法及数据统计装置
CN105022741A (zh) * 2014-04-23 2015-11-04 苏宁云商集团股份有限公司 压缩方法和***以及云存储方法和***
CN105069111A (zh) * 2015-08-10 2015-11-18 广东工业大学 云存储中基于相似性的数据块级数据去重方法
CN105630834A (zh) * 2014-11-07 2016-06-01 中兴通讯股份有限公司 一种实现重复数据删除的方法及装置
CN105718430A (zh) * 2016-01-13 2016-06-29 湖南工业大学 一种基于分组最小值作为指纹计算相似度的方法
CN105786651A (zh) * 2016-02-29 2016-07-20 北京航空航天大学 一种面向备份任务的重复数据删除方法
CN105988890A (zh) * 2015-01-29 2016-10-05 阿里巴巴集团控股有限公司 信息的备份方法及装置
CN103959259B (zh) * 2012-11-20 2016-11-30 华为技术有限公司 数据存储方法、数据存储装置及数据存储***
CN106293525A (zh) * 2016-08-05 2017-01-04 上海交通大学 一种提高缓存使用效率的方法及***
CN107273536A (zh) * 2017-06-30 2017-10-20 郑州云海信息技术有限公司 一种重复数据确定方法、***及分布式存储***
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置
CN109240605A (zh) * 2018-08-17 2019-01-18 华中科技大学 一种基于3d堆叠内存的快速重复数据块识别方法
CN109716658A (zh) * 2016-12-15 2019-05-03 华为技术有限公司 一种基于相似性的重复数据删除方法和***
CN110569245A (zh) * 2019-09-10 2019-12-13 天津理工大学 重复数据删除***中基于强化学习的指纹索引预取方法
WO2020037511A1 (zh) * 2018-08-21 2020-02-27 华为技术有限公司 数据存储及获取方法和装置
CN111104377A (zh) * 2018-10-26 2020-05-05 伊姆西Ip控股有限责任公司 文件管理的方法、电子设备和计算机可读存储介质
CN111338581A (zh) * 2020-03-27 2020-06-26 尹兵 基于云计算的数据存储方法、装置、云服务器及***
CN111352617A (zh) * 2020-03-16 2020-06-30 山东省物化探勘查院 一种基于Fortran语言的磁法数据辅助整理方法
CN111522502A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 数据去重方法、装置、电子设备及计算机可读存储介质
CN111796969A (zh) * 2020-05-29 2020-10-20 湖北工业大学 一种数据差量压缩检测方法、计算机设备和存储介质
WO2021082928A1 (zh) * 2019-11-01 2021-05-06 华为技术有限公司 数据缩减的方法、装置、计算设备和存储介质
CN115543979A (zh) * 2022-09-29 2022-12-30 广州鼎甲计算机科技有限公司 重复数据的删除方法、装置、设备、存储介质和程序产品
CN115828115A (zh) * 2023-02-16 2023-03-21 北京圣芯诺科技有限公司 数据一致性评估方法、装置、电子设备以及程序产品
CN117667788A (zh) * 2024-01-30 2024-03-08 苏州元脑智能科技有限公司 数据的交互方法、计算机***、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重***
US20100094879A1 (en) * 2007-03-30 2010-04-15 Stuart Donnelly Method of detecting and responding to changes in the online community's interests in real time
CN101882141A (zh) * 2009-05-08 2010-11-10 北京众志和达信息技术有限公司 一种实现重复数据数据删除的方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094879A1 (en) * 2007-03-30 2010-04-15 Stuart Donnelly Method of detecting and responding to changes in the online community's interests in real time
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重***
CN101882141A (zh) * 2009-05-08 2010-11-10 北京众志和达信息技术有限公司 一种实现重复数据数据删除的方法和***

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN103150260B (zh) * 2011-11-25 2016-06-08 华为数字技术(成都)有限公司 重复数据删除方法和装置
WO2013075668A1 (zh) * 2011-11-25 2013-05-30 华为技术有限公司 重复数据删除方法和装置
CN103150260A (zh) * 2011-11-25 2013-06-12 华为数字技术(成都)有限公司 重复数据删除方法和装置
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
CN102722450B (zh) * 2012-05-25 2015-01-14 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
US9880771B2 (en) 2012-06-19 2018-01-30 International Business Machines Corporation Packing deduplicated data into finite-sized containers
US11079953B2 (en) 2012-06-19 2021-08-03 International Business Machines Corporation Packing deduplicated data into finite-sized containers
CN103514247A (zh) * 2012-06-19 2014-01-15 国际商业机器公司 将去除了重复的数据打包到有限大小容器中的方法和***
CN102831222B (zh) * 2012-08-24 2014-12-31 华中科技大学 一种基于重复数据删除的差量压缩方法
CN102831222A (zh) * 2012-08-24 2012-12-19 华中科技大学 一种基于重复数据删除的差量压缩方法
CN103959259B (zh) * 2012-11-20 2016-11-30 华为技术有限公司 数据存储方法、数据存储装置及数据存储***
WO2014078990A1 (zh) * 2012-11-20 2014-05-30 华为技术有限公司 数据存储方法、数据存储装置及数据存储***
CN103959259A (zh) * 2012-11-20 2014-07-30 华为技术有限公司 数据存储方法、数据存储装置及数据存储***
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置
CN103020174B (zh) * 2012-11-28 2016-01-06 华为技术有限公司 相似性分析方法、装置及***
CN103020174A (zh) * 2012-11-28 2013-04-03 华为技术有限公司 相似性分析方法、装置及***
US9575984B2 (en) 2012-11-28 2017-02-21 Huawei Technologies Co., Ltd. Similarity analysis method, apparatus, and system
US9372867B2 (en) 2012-11-28 2016-06-21 Huawei Technologies Co., Ltd. Similarity analysis method, apparatus, and system
CN103049263B (zh) * 2012-12-12 2015-06-10 华中科技大学 一种基于相似性的文件分类方法
CN103049263A (zh) * 2012-12-12 2013-04-17 华中科技大学 一种基于相似性的文件分类方法
CN102982180B (zh) * 2012-12-18 2016-08-03 华为技术有限公司 数据存储方法及设备
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
US10877680B2 (en) 2012-12-28 2020-12-29 Huawei Technologies Co., Ltd. Data processing method and apparatus
WO2014101130A1 (zh) * 2012-12-28 2014-07-03 华为技术有限公司 数据处理方法及装置
US8760956B1 (en) 2012-12-28 2014-06-24 Huawei Technologies Co., Ltd. Data processing method and apparatus
US8935222B2 (en) 2013-01-02 2015-01-13 International Business Machines Corporation Optimizing a partition in data deduplication
US9626374B2 (en) 2013-01-02 2017-04-18 International Business Machines Corporation Optimizing a partition in data deduplication
WO2014107845A1 (zh) * 2013-01-09 2014-07-17 华为技术有限公司 一种数据处理方法及装置
CN103403717A (zh) * 2013-01-09 2013-11-20 华为技术有限公司 一种数据处理方法及装置
CN103403717B (zh) * 2013-01-09 2016-11-30 华为技术有限公司 一种数据处理方法及装置
CN103345449A (zh) * 2013-06-19 2013-10-09 暨南大学 一种面向重复数据删除技术的指纹预取方法及***
CN103345449B (zh) * 2013-06-19 2016-12-28 暨南大学 一种面向重复数据删除技术的指纹预取方法及***
US10268715B2 (en) 2013-06-25 2019-04-23 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
WO2014206242A1 (en) * 2013-06-25 2014-12-31 Tencent Technology (Shenzhen) Company Limited Systems and methods for data processing
CN104298680B (zh) * 2013-07-18 2019-01-11 腾讯科技(深圳)有限公司 数据统计方法及数据统计装置
US10353883B2 (en) 2013-07-18 2019-07-16 Tencent Technology (Shenzhen) Company Limited Method, device and storage medium for providing data statistics
CN104298680A (zh) * 2013-07-18 2015-01-21 腾讯科技(深圳)有限公司 数据统计方法及数据统计装置
CN103544275A (zh) * 2013-10-22 2014-01-29 华为技术有限公司 一种处理数据的方法及装置
CN103617260B (zh) * 2013-11-29 2017-01-11 华为技术有限公司 重复数据删除的索引生成方法及装置
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置
CN105022741B (zh) * 2014-04-23 2018-09-28 苏宁易购集团股份有限公司 压缩方法和***以及云存储方法和***
CN105022741A (zh) * 2014-04-23 2015-11-04 苏宁云商集团股份有限公司 压缩方法和***以及云存储方法和***
CN104050057A (zh) * 2014-06-06 2014-09-17 华中科技大学 一种历史感知的数据去重碎片消除方法与***
CN105630834A (zh) * 2014-11-07 2016-06-01 中兴通讯股份有限公司 一种实现重复数据删除的方法及装置
CN105988890A (zh) * 2015-01-29 2016-10-05 阿里巴巴集团控股有限公司 信息的备份方法及装置
CN105988890B (zh) * 2015-01-29 2020-01-17 阿里巴巴集团控股有限公司 信息的备份方法及装置
CN105069111A (zh) * 2015-08-10 2015-11-18 广东工业大学 云存储中基于相似性的数据块级数据去重方法
CN105069111B (zh) * 2015-08-10 2018-09-18 广东工业大学 云存储中基于相似性的数据块级数据去重方法
CN105718430A (zh) * 2016-01-13 2016-06-29 湖南工业大学 一种基于分组最小值作为指纹计算相似度的方法
CN105718430B (zh) * 2016-01-13 2018-05-04 湖南工业大学 一种基于分组最小值作为指纹计算相似度的方法
CN105786651B (zh) * 2016-02-29 2018-12-04 北京航空航天大学 一种面向备份任务的重复数据删除方法
CN105786651A (zh) * 2016-02-29 2016-07-20 北京航空航天大学 一种面向备份任务的重复数据删除方法
CN106293525B (zh) * 2016-08-05 2019-06-28 上海交通大学 一种提高缓存使用效率的方法及***
CN106293525A (zh) * 2016-08-05 2017-01-04 上海交通大学 一种提高缓存使用效率的方法及***
CN109716658A (zh) * 2016-12-15 2019-05-03 华为技术有限公司 一种基于相似性的重复数据删除方法和***
US11514666B2 (en) 2016-12-15 2022-11-29 Huawei Technologies Co., Ltd. Method and system of similarity-based deduplication
CN109716658B (zh) * 2016-12-15 2021-08-20 华为技术有限公司 一种基于相似性的重复数据删除方法和***
CN107273536A (zh) * 2017-06-30 2017-10-20 郑州云海信息技术有限公司 一种重复数据确定方法、***及分布式存储***
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置
CN108090125B (zh) * 2017-11-14 2021-05-25 西北工业大学 一种非查询式的重复数据删除方法及装置
CN109240605A (zh) * 2018-08-17 2019-01-18 华中科技大学 一种基于3d堆叠内存的快速重复数据块识别方法
JP2021534505A (ja) * 2018-08-21 2021-12-09 華為技術有限公司Huawei Technologies Co., Ltd. データ記憶方法、データ取得方法、及び機器
JP7108784B2 (ja) 2018-08-21 2022-07-28 華為技術有限公司 データ記憶方法、データ取得方法、及び機器
US11960467B2 (en) 2018-08-21 2024-04-16 Huawei Technologies Co., Ltd. Data storage method, data obtaining method, and apparatus
WO2020037511A1 (zh) * 2018-08-21 2020-02-27 华为技术有限公司 数据存储及获取方法和装置
CN111104377B (zh) * 2018-10-26 2023-09-12 伊姆西Ip控股有限责任公司 文件管理的方法、电子设备和计算机可读存储介质
CN111104377A (zh) * 2018-10-26 2020-05-05 伊姆西Ip控股有限责任公司 文件管理的方法、电子设备和计算机可读存储介质
CN111522502A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 数据去重方法、装置、电子设备及计算机可读存储介质
CN110569245A (zh) * 2019-09-10 2019-12-13 天津理工大学 重复数据删除***中基于强化学习的指纹索引预取方法
WO2021082928A1 (zh) * 2019-11-01 2021-05-06 华为技术有限公司 数据缩减的方法、装置、计算设备和存储介质
CN111352617A (zh) * 2020-03-16 2020-06-30 山东省物化探勘查院 一种基于Fortran语言的磁法数据辅助整理方法
CN111338581A (zh) * 2020-03-27 2020-06-26 尹兵 基于云计算的数据存储方法、装置、云服务器及***
CN111338581B (zh) * 2020-03-27 2020-11-17 上海天天基金销售有限公司 基于云计算的数据存储方法、装置、云服务器及***
CN111796969A (zh) * 2020-05-29 2020-10-20 湖北工业大学 一种数据差量压缩检测方法、计算机设备和存储介质
CN115543979A (zh) * 2022-09-29 2022-12-30 广州鼎甲计算机科技有限公司 重复数据的删除方法、装置、设备、存储介质和程序产品
CN115543979B (zh) * 2022-09-29 2023-08-08 广州鼎甲计算机科技有限公司 重复数据的删除方法、装置、设备、存储介质和程序产品
CN115828115A (zh) * 2023-02-16 2023-03-21 北京圣芯诺科技有限公司 数据一致性评估方法、装置、电子设备以及程序产品
CN117667788A (zh) * 2024-01-30 2024-03-08 苏州元脑智能科技有限公司 数据的交互方法、计算机***、电子设备和存储介质
CN117667788B (zh) * 2024-01-30 2024-04-19 苏州元脑智能科技有限公司 数据的交互方法、计算机***、电子设备和存储介质

Also Published As

Publication number Publication date
CN102222085B (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
CN102831222B (zh) 一种基于重复数据删除的差量压缩方法
CN104932956B (zh) 一种面向大数据的云容灾备份方法
CN103020315B (zh) 一种基于主从分布式文件***的海量小文件存储方法
CN101963982B (zh) 基于位置敏感哈希的删冗存储***元数据管理方法
Nam et al. Assuring demanded read performance of data deduplication storage with backup datasets
CN102663086B (zh) 一种数据块索引的检索方法
CN101866359B (zh) 一种机群文件***中的小文件存储和访问方法
CN101777017B (zh) 一种连续数据保护***的快速恢复方法
CN110825748A (zh) 利用差异化索引机制的高性能和易扩展的键值存储方法
CN105242881A (zh) 分布式存储***及其数据读写方法
CN102323958A (zh) 重复数据删除方法
CN102915278A (zh) 重复数据删除方法
CN103080910A (zh) 存储***
CN104156380A (zh) 一种分布式存储器哈希索引方法及***
CN107391306A (zh) 一种异构数据库备份文件恢复方法
CN103098035A (zh) 存储***
CN102142032B (zh) 一种分布式文件***的数据读写方法及***
Zou et al. The dilemma between deduplication and locality: Can both be achieved?
CN103916459A (zh) 一种大数据归档存储***
CN104462389A (zh) 基于分级存储的分布式文件***实现方法
Park et al. A lookahead read cache: improving read performance for deduplication backup storage
Wildani et al. Semantic data placement for power management in archival storage
CN103198119A (zh) 一种快速查找具有相同重复数据删除标识的所有链接文件的方法
CN104050057B (zh) 一种历史感知的数据去重碎片消除方法与***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant