CN103870514A - 重复数据删除方法和装置 - Google Patents

重复数据删除方法和装置 Download PDF

Info

Publication number
CN103870514A
CN103870514A CN201210552244.1A CN201210552244A CN103870514A CN 103870514 A CN103870514 A CN 103870514A CN 201210552244 A CN201210552244 A CN 201210552244A CN 103870514 A CN103870514 A CN 103870514A
Authority
CN
China
Prior art keywords
data
file
hash table
fingerprint
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210552244.1A
Other languages
English (en)
Other versions
CN103870514B (zh
Inventor
祁蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bowen School Dabeiwang Town Yongnian District Handan City
Guangdong Gaohang Intellectual Property Operation Co ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210552244.1A priority Critical patent/CN103870514B/zh
Priority to PCT/CN2013/084542 priority patent/WO2014094479A1/zh
Publication of CN103870514A publication Critical patent/CN103870514A/zh
Application granted granted Critical
Publication of CN103870514B publication Critical patent/CN103870514B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明实施例提供一种重复数据删除方法和装置,包括:将待处理文件划分成至少两个数据块;计算所述待处理文件中各数据块的数据指纹;根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。本发明实施例的重复数据删除方法和装置,通过使用热点哈希表进行去重操作,降低了文件数据块的重复率,提高了文件存储的空间利用率。

Description

重复数据删除方法和装置
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种重复数据删除方法和装置。
背景技术
重复数据删除技术,简称去重操作,是目前主流的一种存储技术,通过检索文件中重复的数据,消除冗余数据,从而提高存储***的效率,缩减存储空间,节约成本。
现有技术中,通常将待处理文件划分为多个较小的中间文件。针对每个中间文件的各数据块,计算其数据指纹并进行比对,将不重复出现的唯一数据块的哈希指纹存储在哈希表中,进而通过检索哈希表中的数据指纹,获取数据块重复率,将重复的数据块删除。
但由于现有技术中常用的哈希指纹算法,例如MD5算法,计算获得的数据指纹是128位,若待处理文件比较大,则唯一数据块较多,哈希表就会占用大量内存,影响备份效率。若将大文件分为小的中间文件,然后进行重复数据删除,当一个中间文件完成去重操作后,该中间文件的哈希表会清空,当下一个中间文件进行重复数据删除时,会生成新的哈希表。这样又缺少了中间文件之间重复数据块的筛选,增加了待处理文件中数据块的重复率,从而影响文件的空间节约率。
发明内容
本发明实施例提供一种重复数据删除方法和装置,以降低文件的数据块重复率,提高文件存储的空间利用率。
本发明实施例一方面提供一种重复数据删除方法,包括:
将待处理文件划分成至少两个数据块;
计算所述待处理文件中各数据块的数据指纹;
根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。
在第一方面的第一种可能的实施方式中,在计算所述待处理文件中各数据块的数据指纹之后,还包括:
根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表。
结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表包括:
在计算所述待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;
将出现次数达到设定门限值的数据指纹写入热点哈希表中。
结合第一方面,在第一方面的第三种可能的实施方式中,将待处理文件划分成至少两个数据块包括:将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块;
则计算所述待处理文件中各数据块的数据指纹之后,还包括:
根据每个所述中间文件中各数据块的数据指纹,更新所述中间文件对应的哈希表;
根据所述中间文件的哈希表对所述中间文件进行去重操作;
在所述中间文件的去重处理完成后,清空所述中间文件对应的哈希表。
结合第一方面的第三种可能的实施方式,在第一方面的第四种可能的实施方式中,根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作包括:
在根据所述中间文件的哈希表对所述中间文件进行去重操作之前,根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;
当匹配不一致时,触发所述根据所述中间文件的哈希表对所述中间文件进行的去重操作。
结合第一方面的第三种可能的实施方式或第一方面的第四种可能的实施方式,在第一方面的第五种可能实施方式中,根据所述中间文件的哈希表对所述中间文件进行去重操作包括:
根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
结合第一方面到第一方面的第四种实施方式,在第一方面的第六种可能实施方式中,计算所述待处理文件中各数据块的数据指纹之前,还包括:对各数据块进行压缩。
本发明实施例另一方面提供一种重复数据删除装置,包括:
数据块划分模块,用于将待处理文件划分成至少两个数据块;
计算模块,用于计算所述待处理文件中各数据块的数据指纹;
第一去重模块,用于根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。
在第二方面的第一种可能的实施方式中,上述重复数据删除装置还包括:
热点哈希表更新模块,用于在计算所述待处理文件中各数据块的数据指纹之后,根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表。
结合第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式中,所述热点哈希表更新模块包括:
统计单元,用于在计算所述待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;
写入单元,用于将出现次数达到设定门限值的数据指纹写入热点哈希表中。
结合第二方面,在第二方面的第三种可能的实施方式中,数据块划分模块具体用于将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块;
所述装置还包括:
更新模块,用于在计算所述待处理文件中各数据块的数据指纹之后,根据每个所述中间文件中各数据块的数据指纹,更新所述中间文件对应的哈希表;
第二去重模块,用于根据所述中间文件的哈希表对所述中间文件进行去重操作;
清空模块,用于在所述中间文件的去重处理完成后,清空所述中间文件对应的哈希表。
结合第二方面的第三种可能的实施方式,在第二方面的第四种可能的实施方式中,所述第一去重模块包括:
第一匹配单元,用于在根据所述中间文件的哈希表对所述中间文件进行去重操作之前,根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;
第一删除单元,用于当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;
触发单元,用于当匹配不一致时,触发所述第二去重模块根据所述中间文件的哈希表对所述中间文件进行的去重操作。
结合第二方面的第三种可能的实施方式或第二方面的第四种可能的实施方式,在第二方面的第五种可能实施方式中,所述第二去重模块包括:
第二匹配单元,用于根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;
比较删除单元,用于当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
结合第二方面到第二方面的第四种实施方式,在第二方面的第六种可能实施方式中,上述重复数据删除装置还包括:
压缩模块,用于在计算所述待处理文件中各数据块的数据指纹之前,对各数据块进行压缩。
本发明实施例的重复数据删除方法和装置,通过使用热点哈希表进行去重操作,使得对待处理文件的去重操作可以考虑重复出现次数较高的数据指纹,特别是能够考虑在多个文件中重复出现的数据指纹,能够在存储过程中降低文件数据块的重复率,提高文件存储的空间利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明重复数据删除方法实施例一的流程图;
图2为本发明重复数据删除方法实施例二的流程图;
图3为本发明重复数据删除方法实施例三的流程图;
图4为本发明重复数据删除装置实施例一的结构示意图;
图5为本发明重复数据删除装置实施例二的结构示意图;
图6为本发明重复数据删除装置实施例三的结构示意图;
图7为本发明重复数据删除装置实施例四的加密设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明重复数据删除方法实施例一的流程图,如图1所示,本实施例的方法可以包括:
步骤101、将待处理文件划分成至少两个数据块。
本步骤中,待处理文件指的是一次存储动作下包括的所有文件,可以是单文件、多文件、单个卷及多虚拟数据等。此外,可根据待处理文件的内容或者备份场景选择划分方法,常用的划分方法如定长划分、滑块划分等。一般的,定长划分是最简捷的方法,性能比较高,适合用于将稳定的文件划分成数据块。
步骤102、计算所述待处理文件中各数据块的数据指纹。
本步骤中,对数据块进行计算获取数据指纹的方法有很多,一般的,MD5和SHA1算法计算所得的数据指纹的碰撞几率比较小,因此,本实施例中可以采用MD5算法或SHA1算法计算待处理文件中各数据块的数据指纹。
步骤103、根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作。
本步骤中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。其中,该至少一个文件可以指当前待处理的文件,也可以指获取到该热点哈希表的其它文件,例如,已经处理过的历史文件,或者是历史文件和当前待处理文件二者的结合。
本实施例的重复数据删除方法,通过使用热点哈希表进行去重操作,使得对待处理文件的去重操作可以考虑重复出现次数较高的数据指纹,特别是能够考虑在多个文件中重复出现的数据指纹,能够在存储过程中降低文件数据块的重复率,提高文件存储的空间利用率。此外,热点哈希表区别于一般的哈希表,并非存储唯一数据块的数据指纹,而是仅存储重复次数高的数据指纹,因此其数据量规模较小,可减小对内存的占用。
下面采用几个具体的实施例,对图1所示方法实施例的技术方案进行详细说明。
图2为本发明重复数据删除方法实施例二的流程图,如图2所示,本实施例是针对热点哈希表已作为模版存储在内存的情况下的重复数据删除方法,本实施例的方法可以包括:
步骤201、将待处理文件划分成至少两个数据块。
本步骤中,采用定长划分或滑块划分的方法将待处理文件划分成至少两个数据块。一般的,若***规定的数据块过大,则会影响处理效率,优选的,在***中规定每个数据块大小为64K。对于待处理文件,可以直接将该待处理文件划分成至少两个数据块;或者,将该待处理文件划分成至少两个数据块包括:将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块。
本实施例将以将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块的重复数据删除方法为例进行详细说明,直接将该待处理文件划分成至少两个数据块的重复数据删除方法与之类同,在此不再赘述。
步骤202、对各数据块进行压缩。
本步骤中,可以借助压缩工具对步骤201中划分的至少两个数据块进行压缩,下述步骤都在该压缩格式下进行,以便进一步减少存储空间。
步骤203、读入已存储的热点哈希表。
本步骤中,由于本实施例是针对热点哈希表已作为模版存储在内存的情况下的重复数据删除方法,因此,在初始化哈希表之前先读入已存储的热点哈希表。
步骤204、初始化哈希表。
本步骤中,初始化哈希表具体为:新建哈希表,即,定义针对每个中间文件的哈希表。
本实施例中,定义至少两个中间文件之中的一个中间文件的哈希表。具体地,将哈希表的头部信息、待存储文件大小、数据块大小、偏移量等信息存储在该新建的哈希表中。其中,哈希表的头部信息包括该文件的基本信息,如文件大小、文件名、文件格式等;偏移量表示数据块在磁盘上的具***置信息。
步骤205、计算待处理文件中各数据块的数据指纹。
本步骤中,采用MD5算法或SHA1算法计算待处理文件中当前中间文件的各数据块的数据指纹。
步骤206、根据中间文件中各数据块的数据指纹,更新中间文件对应的哈希表。
本步骤中,将中间文件中各数据块的数据指纹与当前哈希表中存储的数据指纹进行比较,若中间文件中数据块的数据指纹与当前哈希表中存储的数据指纹不一致,则将该数据指纹存储在该哈希表中,以便最终将唯一数据块的数据指纹保存在哈希表中。
步骤207、根据待处理文件中数据指纹的重复出现次数,更新热点哈希表。
本步骤为可选步骤,其中,根据待处理文件中数据指纹的重复出现次数,更新热点哈希表,具体可以是仅基于待处理文件的数据指纹出现次数进行更新,也可以是基于历史文件和待处理文件中统计的数据指纹出现次数,对相同数据指纹的出现次数进行累计,以更新热点哈希表。
本实施例中,根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表包括:
在计算所述待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;
将出现次数达到设定门限值的数据指纹写入热点哈希表中。
具体地,上述待处理文件即为当前中间文件,设定门限值可根据经验设定。或者,也可以将各数据指纹依照出现的次数排序,然后提取出现次数高的数据指纹并写入热点哈希表中,以便更新作为模版存储在内存中的原热点哈希表。
步骤208、根据各数据块的数据指纹和热点哈希表中的数据指纹对待处理文件的数据块进行去重操作。
本步骤中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。其中,该至少一个文件可以指当前待处理的文件,也可以指获取到该热点哈希表的其它文件,例如,已经处理过的历史文件,或者是历史文件和当前待处理文件二者的结合。
具体地,根据各数据块的数据指纹和热点哈希表中的数据指纹对待处理文件的数据块进行去重操作包括:
根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;
当匹配不一致时,触发所述根据所述中间文件的哈希表对所述中间文件进行的去重操作。
一般的,当数据块生成的数据指纹相同时,要考虑碰撞问题,即不同数据块生成相同数据指纹的场景,因此,通过对数据块进行字节比较,最终确认数据块内容是否完全相同,即是否是重复数据块。具体地,当中间文件的一个数据块的数据指纹与热点哈希表的数据指纹匹配一致时,对该数据块和热点哈希表中该数据指纹的对应的数据块进行字节比较,若比较一致,则删除该数据块,若比较不一致,则对该数据块的数据指纹添加标识,使其区别于热点哈希表中的数据指纹,并将带有标识的数据指纹写入哈希表中。其中,对数据指纹添加标识可以对数据指纹增加一个字段或采用其他标识。本步骤中的去重操作指的是将数据指纹和热点哈希表的数据指纹匹配一致并且字节比较一致的数据块删除。
步骤209、根据中间文件的哈希表对中间文件进行去重操作,生成新的文件。
本步骤中,生成的新的文件即为备份文件。根据中间文件的哈希表对所述中间文件进行去重操作包括:
根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
一般的,当数据块生成的数据指纹相同时,要考虑碰撞问题,即不同数据块生成相同数据指纹的场景,因此,通过对数据块进行字节比较,最终确认数据块内容是否完全相同,即是否是重复数据块。具体地,当中间文件的一个数据块的数据指纹与中间文件的哈希表的数据指纹匹配一致时,对该数据块和哈希表中该数据指纹的对应的数据块进行字节比较,若比较一致,则删除该数据块,若比较不一致,则对该数据块的数据指纹添加标识,使其区别于哈希表中的数据指纹,并将带有标识的数据指纹写入哈希表中。其中,对数据指纹添加标识可以对数据指纹增加一个字段或采用其他标识。
此外,当中间文件的一个数据块的数据指纹与中间文件的哈希表的数据指纹匹配不一致时,将该数据块的数据指纹写入中间文件的哈希表中。
一般的,步骤205至步骤209循环进行,直至中间文件去重完成。
步骤210、在中间文件的去重处理完成后,清空中间文件对应的哈希表。
本步骤中,在当前中间文件去重处理完成后,清空当前中间文件对应的哈希表,然后从步骤204开始对两个中间文件中的另一个中间文件进行相同流程的去重处理。
本实施例的重复数据删除方法,通过采用热点哈希表增加了数据块内部及文件之间重复数据的对比,将热点哈希表和哈希表相结合进行去重操作,使得对待处理文件的去重操作可以考虑重复出现次数较高的数据指纹,特别是能够考虑在多个文件中重复出现的数据指纹,能够在存储过程中降低文件数据块的重复率,提高文件存储的空间利用率;此外,热点哈希表区别于一般的哈希表,并非存储唯一数据块的数据指纹,而是仅存储重复次数高的数据指纹,因此其数据量规模较小,可减小对内存的占用;通过对数据块的压缩处理进一步减少了存储空间;通过将重复出现次数达到设定门限值的数据指纹写入热点哈希表中,达到更新热点哈希表的目的;通过对具有相同数据指纹的数据块进行字节比较,实现准确判定重复数据块的目的。
图3为本发明重复数据删除方法实施例三的流程图,如图3所示,本实施例与图2所示实施例的区别在于热点哈希表未作为模版存储在内存中,而是需要在处理过程中同时生成热点哈希表,本实施例的方法可以包括:
步骤301、将待处理文件划分成至少两个数据块。
本步骤中,采用定长划分或滑块划分的方法将待处理文件划分成至少两个数据块。一般的,若***规定的数据块过大,则会影响处理效率,优选的,在***中规定每个数据块大小为64K。对于待处理文件,可以直接将该待处理文件划分成至少两个数据块;或者,将该待处理文件划分成至少两个数据块包括:将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块。
本实施例将以将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块的重复数据删除方法为例进行详细说明,直接将该待处理文件划分成至少两个数据块的重复数据删除方法与之类同,在此不再赘述。
步骤302、对各数据块进行压缩。
本步骤中,可以借助压缩工具对步骤301中划分的至少两个数据块进行压缩,下述步骤都在该压缩格式下进行,以便进一步减少存储空间。
步骤303、初始化热点哈希表。
本步骤中,由于本实施例是针对热点哈希表未作为模版存储在内存中,而是需要在处理过程中同时生成热点哈希表的情况,因此,初始化热点哈希表具体为:新建热点哈希表,即定义待处理文件的热点哈希表。
具体地,定义待处理文件的热点哈希表,即,将热点哈希表的头部信息、待存储文件大小、数据块大小、偏移量等信息存储在该新建的热点哈希表中。其中,热点哈希表的头部信息包括该文件的基本信息,如文件大小、文件名、文件格式等;偏移量表示数据块在磁盘上的具***置信息。
步骤304、初始化哈希表。
本步骤中,初始化哈希表具体为:新建哈希表,即,定义针对每个中间文件的哈希表。
本实施例中,定义至少两个中间文件之中的一个中间文件的哈希表。具体地,将哈希表的头部信息、待存储文件大小、数据块大小、偏移量等信息存储在该新建的哈希表中。其中,哈希表的头部信息包括该文件的基本信息,如文件大小、文件名、文件格式等;偏移量表示数据块在磁盘上的具***置信息。
步骤305、计算待处理文件中各数据块的数据指纹。
本步骤中,采用MD5算法或SHA1算法计算待处理文件中当前中间文件的各数据块的数据指纹。
步骤306、根据中间文件中各数据块的数据指纹,更新中间文件对应的哈希表。
本步骤中,将中间文件中各数据块的数据指纹与当前哈希表中存储的数据指纹进行比较,若中间文件中数据块的数据指纹与当前哈希表中存储的数据指纹不一致,则将该数据指纹存储在该哈希表中,以便最终将唯一数据块的数据指纹保存在哈希表中。
步骤307、根据待处理文件中数据指纹的重复出现次数,更新热点哈希表。
本步骤中,可有通过查询哈希表,将数据指纹所指向的重复数据块的个数大于阀值的数据指纹写入热点哈希表中;或者在计算待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;将出现次数达到设定门限值的数据指纹写入热点哈希表中。
具体地,通过查询哈希表获得热点哈希表具体为:根据经验确定阀值,然后,若哈希表中的某个数据指纹指向重复数据块的个数大于该阀值,则***将该数据指纹写入热点哈希表中,则热点哈希表就存入了热点数据块所对应的数据指纹,该热点哈希表存储在内存中,可应用在后续文件的重复数据删除操作中。此外,也可通过数据指纹出现次数获得热点哈希表。并将该热点哈希表作为模版存储在内存中。
步骤308、根据各数据块的数据指纹和热点哈希表中的数据指纹对待处理文件的数据块进行去重操作。
本步骤中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。其中,该至少一个文件指当前待处理的文件。
具体地,根据各数据块的数据指纹和热点哈希表中的数据指纹对待处理文件的数据块进行去重操作包括:
根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;
当匹配不一致时,触发所述根据所述中间文件的哈希表对所述中间文件进行的去重操作。
一般的,当数据块生成的数据指纹相同时,要考虑碰撞问题,即不同数据块生成相同数据指纹的场景,因此,通过对数据块进行字节比较,最终确认数据块内容是否完全相同,即是否是重复数据块。具体地,当中间文件的一个数据块的数据指纹与热点哈希表的数据指纹匹配一致时,对该数据块和热点哈希表中该数据指纹的对应的数据块进行字节比较,若比较一致,则删除该数据块,若比较不一致,则对该数据块的数据指纹添加标识,使其区别于热点哈希表中的数据指纹,并将带有标识的数据指纹写入哈希表中。其中,对数据指纹添加标识可以对数据指纹增加一个字段或采用其他标识。本步骤中的去重操作指的是将数据指纹和热点哈希表的数据指纹匹配一致并且字节比较一致的数据块删除。
步骤309、根据中间文件的哈希表对中间文件进行去重操作,生成新的文件。
本步骤中,生成的新的文件即为备份文件。根据中间文件的哈希表对所述中间文件进行去重操作包括:
根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
一般的,当数据块生成的数据指纹相同时,要考虑碰撞问题,即不同数据块生成相同数据指纹的场景,因此,通过对数据块进行字节比较,最终确认数据块内容是否完全相同,即是否是重复数据块。具体地,当中间文件的一个数据块的数据指纹与中间文件的哈希表的数据指纹匹配一致时,对该数据块和哈希表中该数据指纹的对应的数据块进行字节比较,若比较一致,则删除该数据块,若比较不一致,则对该数据块的数据指纹添加标识,使其区别于哈希表中的数据指纹,并将带有标识的数据指纹写入哈希表中。其中,对数据指纹添加标识可以对数据指纹增加一个字段或采用其他标识。
此外,当中间文件的一个数据块的数据指纹与中间文件的哈希表的数据指纹匹配不一致时,将该数据块的数据指纹写入中间文件的哈希表中。
一般的,步骤305至步骤309循环进行,直至中间文件去重完成。
步骤310、在中间文件的去重处理完成后,清空中间文件对应的哈希表。
本步骤中,在当前中间文件去重处理完成后,清空当前中间文件对应的哈希表,此时,对于两个中间文件中的另一个中间文件进行去重处理时,相当于本发明重复数据删除方法实施例二中针对热点哈希表已作为模版存储在内存的情况下的重复数据删除方法,因此,可采用实施例二中所述流程进行去重处理,在此不再赘述。
本实施例的重复数据删除方法,在进行重复数据删除的同时生成热点哈希表,然后通过采用热点哈希表增加了数据块内部及文件之间重复数据的对比,将热点哈希表和哈希表相结合进行去重操作,使得对待处理文件的去重操作可以考虑重复出现次数较高的数据指纹,特别是能够考虑在多个文件中重复出现的数据指纹,能够在存储过程中降低文件数据块的重复率,提高文件存储的空间利用率;此外,热点哈希表区别于一般的哈希表,并非存储唯一数据块的数据指纹,而是仅存储重复次数高的数据指纹,因此其数据量规模较小,可减小对内存的占用;通过对数据块的压缩处理进一步减少了存储空间;通过将数据指纹所指向的重复数据块的个数大于阀值的数据指纹或重复出现次数达到设定门限值的数据指纹写入热点哈希表中,达到更新热点哈希表的目的;通过对具有相同数据指纹的数据块进行字节比较,实现准确判定重复数据块的目的。
相应的,利用本发明实施例的重复数据删除技术备份的数据,在恢复数据时,可以根据恢复文件的特性,提取备份的热点数据,恢复时将热点数据存入内存及缓存中,提高恢复数据的效率。
图4为本发明重复数据删除装置实施例一的结构示意图,如图4所示,本实施例的装置可以包括:数据块划分模块11、计算模块12和第一去重模块13。其中,数据块划分模块11,用于将待处理文件划分成至少两个数据块;计算模块12用于计算所述待处理文件中各数据块的数据指纹;第一去重模块13,用于根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本发明重复数据删除装置实施例二的结构示意图,如图5所示,本实施例的装置在图4所示装置结构的基础上,进一步地,还可以包括:热点哈希表更新模块14、压缩模块15、更新模块16、第二去重模块17和清空模块18。其中,数据块划分模块11具体用于将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块;热点哈希表更新模块14用于在计算所述待处理文件中各数据块的数据指纹之后,根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表;压缩模块15用于在计算所述待处理文件中各数据块的数据指纹之前,对各数据块进行压缩;更新模块16用于在计算所述待处理文件中各数据块的数据指纹之后,根据每个所述中间文件中各数据块的数据指纹,更新所述中间文件对应的哈希表;第二去重模块17用于根据所述中间文件的哈希表对所述中间文件进行去重操作;清空模块18用于在所述中间文件的去重处理完成后,清空所述中间文件对应的哈希表。
本实施例的装置,可以用于执行图2或图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明重复数据删除装置实施例三的结构示意图,如图6所示,本实施例的装置在图5所示装置结构的基础上,进一步地,热点哈希表更新模块14可以包括:统计单元141和写入单元142。其中,统计单元141用于在计算所述待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;写入单元142,用于将出现次数达到设定门限值的数据指纹写入热点哈希表中。
第一去重模块13可以包括:第一匹配单元131、第一删除单元132和触发单元133。其中,第一匹配单元131,用于在根据所述中间文件的哈希表对所述中间文件进行去重操作之前,根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;第一删除单元132,用于当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;触发单元133,用于当匹配不一致时,触发所述第二去重模块根据所述中间文件的哈希表对所述中间文件进行的去重操作。
第二去重模块17可以包括:第二匹配单元171和比较删除单元172。其中,第二匹配单元171,用于根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;比较删除单元172,用于当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
本实施例的装置,可以用于执行图2或图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例提供的重复数据删除方法和装置,可以应用于备份批量文件中,通过采用热点哈希表增加了数据块内部及文件之间重复数据的对比,提高了文件的空间节省率。同时本发明实施例也适用于前端重复数据删除及后端重复数据删除,本地数据备份及远程数据备份,以及虚拟化环境中。在虚拟化环境中,对批量虚拟机进行全量和增量备份。例如,对于桌面云***,由于它所管理的虚拟机的操作***及应用软件有很多相同文件,应用热点哈希表能快速并有效的对批量虚拟机进行全量备份,并且会大大提高文件的空间节省率。
图7为本发明重复数据删除装置实施例四的加密设备的装置结构示意图。本发明具体实施例并不对所述网络设备的具体实现做限定。如图7所示,本实施例的加密设备包括处理器(processor)2101、通信接口(CommunicationsInterface)2102、存储器(memory)2103以及总线2104。
其中,处理器2101、通信接口2102、存储器2103通过总线2104完成相互间的通信;通信接口2102,用于与其他设备进行通信;处理器2101,用于执行程序A。
具体地,程序A可以包括程序代码,所述程序代码包括计算机操作指令。
处理器2101可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specifc Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器2103,用于存放程序A。存储器2103可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。程序A具体可以包括:
将待处理文件划分成至少两个数据块;
计算所述待处理文件中各数据块的数据指纹;
根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。
上述程序A,优选的是在计算所述待处理文件中各数据块的数据指纹之后,还包括:根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表。
上述程序A,优选的是根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表包括:
在计算所述待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;
将出现次数达到设定门限值的数据指纹写入热点哈希表中。
上述程序A,优选的是将待处理文件划分成至少两个数据块包括:将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块;
则计算所述待处理文件中各数据块的数据指纹之后,还包括:
根据每个所述中间文件中各数据块的数据指纹,更新所述中间文件对应的哈希表;
根据所述中间文件的哈希表对所述中间文件进行去重操作;
在所述中间文件的去重处理完成后,清空所述中间文件对应的哈希表。
上述程序A,优选的是根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作包括:
在根据所述中间文件的哈希表对所述中间文件进行去重操作之前,根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;
当匹配不一致时,触发所述根据所述中间文件的哈希表对所述中间文件进行的去重操作。
上述程序A,优选的是根据所述中间文件的哈希表对所述中间文件进行去重操作包括:
根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
上述程序A,优选的是计算所述待处理文件中各数据块的数据指纹之前,还包括:对各数据块进行压缩。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种重复数据删除方法,其特征在于,包括:
将待处理文件划分成至少两个数据块;
计算所述待处理文件中各数据块的数据指纹;
根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。
2.根据权利要求1所述的重复数据删除方法,其特征在于,在计算所述待处理文件中各数据块的数据指纹之后,还包括:
根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表。
3.根据权利要求2所述的重复数据删除方法,其特征在于,根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表包括:
在计算所述待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;
将出现次数达到设定门限值的数据指纹写入热点哈希表中。
4.根据权利要求1所述的重复数据删除方法,其特征在于:
将待处理文件划分成至少两个数据块包括:将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块;
则计算所述待处理文件中各数据块的数据指纹之后,还包括:
根据每个所述中间文件中各数据块的数据指纹,更新所述中间文件对应的哈希表;
根据所述中间文件的哈希表对所述中间文件进行去重操作;
在所述中间文件的去重处理完成后,清空所述中间文件对应的哈希表。
5.根据权利要求4所述的重复数据删除方法,其特征在于,根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作包括:
在根据所述中间文件的哈希表对所述中间文件进行去重操作之前,根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;
当匹配不一致时,触发所述根据所述中间文件的哈希表对所述中间文件进行的去重操作。
6.根据权利要求4或5所述的重复数据删除方法,其特征在于,根据所述中间文件的哈希表对所述中间文件进行去重操作包括:
根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;
当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
7.根据权利要求1-5任一所述的重复数据删除方法,其特征在于,计算所述待处理文件中各数据块的数据指纹之前,还包括:对各数据块进行压缩。
8.一种重复数据删除装置,其特征在于,包括:
数据块划分模块,用于将待处理文件划分成至少两个数据块;
计算模块,用于计算所述待处理文件中各数据块的数据指纹;
第一去重模块,用于根据各数据块的数据指纹和热点哈希表中的数据指纹对所述待处理文件的数据块进行去重操作,其中,所述热点哈希表中的数据指纹为在至少一个文件中重复出现次数达到设定门限值的数据指纹。
9.根据权利要求8所述的装置,其特征在于,还包括:
热点哈希表更新模块,用于在计算所述待处理文件中各数据块的数据指纹之后,根据所述待处理文件中数据指纹重复出现的次数,更新所述热点哈希表。
10.根据权利要求9所述的装置,其特征在于,所述热点哈希表更新模块包括:
统计单元,用于在计算所述待处理文件中各数据块的数据指纹之后,或在计算每个数据块的数据指纹之后,统计各数据指纹的出现次数;
写入单元,用于将出现次数达到设定门限值的数据指纹写入热点哈希表中。
11.根据权利要求8所述的重复数据删除装置,其特征在于:
数据块划分模块具体用于将待处理文件划分成至少两个中间文件,将每个中间文件划分成至少两个数据块;
所述装置还包括:
更新模块,用于在计算所述待处理文件中各数据块的数据指纹之后,根据每个所述中间文件中各数据块的数据指纹,更新所述中间文件对应的哈希表;
第二去重模块,用于根据所述中间文件的哈希表对所述中间文件进行去重操作;
清空模块,用于在所述中间文件的去重处理完成后,清空所述中间文件对应的哈希表。
12.根据权利要求11所述的重复数据删除装置,其特征在于,所述第一去重模块包括:
第一匹配单元,用于在根据所述中间文件的哈希表对所述中间文件进行去重操作之前,根据所述中间文件每个数据块的数据指纹,在所述热点哈希表的数据指纹中进行匹配;
第一删除单元,用于当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块;
触发单元,用于当匹配不一致时,触发所述第二去重模块根据所述中间文件的哈希表对所述中间文件进行的去重操作。
13.根据权利要求11或12所述的重复数据删除装置,其特征在于,所述第二去重模块包括:
第二匹配单元,用于根据所述中间文件每个数据块的数据指纹,在所述中间文件的哈希表的数据指纹中进行匹配;
比较删除单元,用于当匹配一致时,对所述数据块与匹配一致数据指纹所对应的数据块进行字节比较,若比较一致,则删除所述数据块。
14.根据权利要求8或12所述的重复数据删除装置,其特征在于,还包括:
压缩模块,用于在计算所述待处理文件中各数据块的数据指纹之前,对各数据块进行压缩。
CN201210552244.1A 2012-12-18 2012-12-18 重复数据删除方法和装置 Expired - Fee Related CN103870514B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210552244.1A CN103870514B (zh) 2012-12-18 2012-12-18 重复数据删除方法和装置
PCT/CN2013/084542 WO2014094479A1 (zh) 2012-12-18 2013-09-27 重复数据删除方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210552244.1A CN103870514B (zh) 2012-12-18 2012-12-18 重复数据删除方法和装置

Publications (2)

Publication Number Publication Date
CN103870514A true CN103870514A (zh) 2014-06-18
CN103870514B CN103870514B (zh) 2018-03-09

Family

ID=50909055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210552244.1A Expired - Fee Related CN103870514B (zh) 2012-12-18 2012-12-18 重复数据删除方法和装置

Country Status (2)

Country Link
CN (1) CN103870514B (zh)
WO (1) WO2014094479A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077380A (zh) * 2014-06-26 2014-10-01 深圳信息职业技术学院 一种重复数据删除方法、装置及***
CN104317823A (zh) * 2014-09-30 2015-01-28 北京合力思腾科技股份有限公司 一种利用数据指纹进行数据检测的方法
CN104407982A (zh) * 2014-11-19 2015-03-11 湖南国科微电子有限公司 一种ssd盘片垃圾回收方法
CN105488144A (zh) * 2015-11-25 2016-04-13 四川诚品电子商务有限公司 商品评论信息中重复信息处理方法
CN105931278A (zh) * 2015-02-28 2016-09-07 阿尔特拉公司 用于二维块比特流压缩和解压的方法和装置
CN106610790A (zh) * 2015-10-26 2017-05-03 华为技术有限公司 一种重复数据删除方法及装置
CN106990914A (zh) * 2017-02-17 2017-07-28 深圳市中博睿存信息技术有限公司 数据删除方法及装置
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
CN108228083A (zh) * 2016-12-21 2018-06-29 伊姆西Ip控股有限责任公司 用于数据去重的方法和设备
CN108984123A (zh) * 2018-07-12 2018-12-11 郑州云海信息技术有限公司 一种重复数据删除方法和装置
CN110096483A (zh) * 2019-05-08 2019-08-06 北京奇艺世纪科技有限公司 一种重复文件检测方法、终端和服务器
CN110109617A (zh) * 2019-04-22 2019-08-09 电子科技大学 一种加密重复数据删除***中的高效元数据管理方法
CN110618789A (zh) * 2019-08-14 2019-12-27 华为技术有限公司 一种重复数据的删除方法及装置
CN109885574B (zh) * 2019-02-22 2020-05-05 广州荔支网络技术有限公司 一种数据查询方法及装置
CN111198857A (zh) * 2018-10-31 2020-05-26 深信服科技股份有限公司 一种基于全闪存阵列的数据压缩方法及***
CN112470140A (zh) * 2018-06-06 2021-03-09 吴英全 基于块的重复数据删除
CN112559452A (zh) * 2020-12-11 2021-03-26 北京云宽志业网络技术有限公司 数据去重处理方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241615A (zh) * 2016-12-23 2018-07-03 中国电信股份有限公司 数据去重方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079034A (zh) * 2006-07-10 2007-11-28 腾讯科技(深圳)有限公司 消除文件存储***中冗余文件的***及方法
US20100235333A1 (en) * 2009-03-16 2010-09-16 International Business Machines Corporation Apparatus and method to sequentially deduplicate data
CN102385554A (zh) * 2011-10-28 2012-03-21 华中科技大学 重复数据删除***的优化方法
CN102629247A (zh) * 2011-12-31 2012-08-08 成都市华为赛门铁克科技有限公司 一种数据处理方法、装置和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102741800B (zh) * 2009-09-18 2015-11-25 株式会社日立制作所 删除复制数据的存储***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079034A (zh) * 2006-07-10 2007-11-28 腾讯科技(深圳)有限公司 消除文件存储***中冗余文件的***及方法
US20100235333A1 (en) * 2009-03-16 2010-09-16 International Business Machines Corporation Apparatus and method to sequentially deduplicate data
CN102385554A (zh) * 2011-10-28 2012-03-21 华中科技大学 重复数据删除***的优化方法
CN102629247A (zh) * 2011-12-31 2012-08-08 成都市华为赛门铁克科技有限公司 一种数据处理方法、装置和***

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077380B (zh) * 2014-06-26 2017-07-18 深圳信息职业技术学院 一种重复数据删除方法、装置及***
CN104077380A (zh) * 2014-06-26 2014-10-01 深圳信息职业技术学院 一种重复数据删除方法、装置及***
CN104317823A (zh) * 2014-09-30 2015-01-28 北京合力思腾科技股份有限公司 一种利用数据指纹进行数据检测的方法
CN104317823B (zh) * 2014-09-30 2016-03-16 北京艾秀信安科技有限公司 一种利用数据指纹进行数据检测的方法
CN104407982B (zh) * 2014-11-19 2018-09-21 湖南国科微电子股份有限公司 一种ssd盘片垃圾回收方法
CN104407982A (zh) * 2014-11-19 2015-03-11 湖南国科微电子有限公司 一种ssd盘片垃圾回收方法
CN105931278A (zh) * 2015-02-28 2016-09-07 阿尔特拉公司 用于二维块比特流压缩和解压的方法和装置
CN106610790B (zh) * 2015-10-26 2020-01-03 华为技术有限公司 一种重复数据删除方法及装置
CN106610790A (zh) * 2015-10-26 2017-05-03 华为技术有限公司 一种重复数据删除方法及装置
CN105488144A (zh) * 2015-11-25 2016-04-13 四川诚品电子商务有限公司 商品评论信息中重复信息处理方法
CN108228083A (zh) * 2016-12-21 2018-06-29 伊姆西Ip控股有限责任公司 用于数据去重的方法和设备
US10936560B2 (en) 2016-12-21 2021-03-02 EMC IP Holding Company LLC Methods and devices for data de-duplication
CN106990914A (zh) * 2017-02-17 2017-07-28 深圳市中博睿存信息技术有限公司 数据删除方法及装置
CN106990914B (zh) * 2017-02-17 2020-06-12 北京同有飞骥科技股份有限公司 数据删除方法及装置
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
CN107391034B (zh) * 2017-07-07 2019-05-10 华中科技大学 一种基于局部性优化的重复数据检测方法
CN112470140A (zh) * 2018-06-06 2021-03-09 吴英全 基于块的重复数据删除
CN108984123A (zh) * 2018-07-12 2018-12-11 郑州云海信息技术有限公司 一种重复数据删除方法和装置
CN111198857A (zh) * 2018-10-31 2020-05-26 深信服科技股份有限公司 一种基于全闪存阵列的数据压缩方法及***
CN109885574B (zh) * 2019-02-22 2020-05-05 广州荔支网络技术有限公司 一种数据查询方法及装置
CN110109617B (zh) * 2019-04-22 2020-05-12 电子科技大学 一种加密重复数据删除***中的高效元数据管理方法
CN110109617A (zh) * 2019-04-22 2019-08-09 电子科技大学 一种加密重复数据删除***中的高效元数据管理方法
CN110096483A (zh) * 2019-05-08 2019-08-06 北京奇艺世纪科技有限公司 一种重复文件检测方法、终端和服务器
CN110096483B (zh) * 2019-05-08 2021-04-30 北京奇艺世纪科技有限公司 一种重复文件检测方法、终端和服务器
CN110618789A (zh) * 2019-08-14 2019-12-27 华为技术有限公司 一种重复数据的删除方法及装置
CN112559452A (zh) * 2020-12-11 2021-03-26 北京云宽志业网络技术有限公司 数据去重处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103870514B (zh) 2018-03-09
WO2014094479A1 (zh) 2014-06-26

Similar Documents

Publication Publication Date Title
CN103870514A (zh) 重复数据删除方法和装置
CN108427538B (zh) 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
CN103154950B (zh) 重复数据删除方法及装置
US9377959B2 (en) Data storage method and apparatus
US8108446B1 (en) Methods and systems for managing deduplicated data using unilateral referencing
CN102629258B (zh) 重复数据删除方法和装置
TWI515561B (zh) 使用快閃記憶體之頁結構的資料樹儲存方法、系統以及電腦產品
US9619334B2 (en) System and method for merging continuous volume snapshots
CN107481762B (zh) 一种固态硬盘的trim处理方法及装置
EP3316150B1 (en) Method and apparatus for file compaction in key-value storage system
CN102479245B (zh) 数据区块的切分方法
CN111125033B (zh) 一种基于全闪存阵列的空间回收方法及***
CN107850983B (zh) 计算机***、存储装置和数据的管理方法
WO2021073635A1 (zh) 一种数据存储方法及装置
WO2021082422A1 (zh) 一种存储***空间回收的兼容处理方法、***及设备
CN105243027A (zh) 在存储设备中存储数据的方法和存储控制器
CN104462388B (zh) 一种基于级联式存储介质的冗余数据清理方法
CN112612576B (zh) 虚拟机备份方法、装置、电子设备及存储介质
CN105493080B (zh) 基于上下文感知的重复数据删除的方法和装置
CN104408126B (zh) 一种数据库的持久化写入方法、装置和***
CN104572492A (zh) 一种烧录数据到fat32分区的方法和装置
EP3477462B1 (en) Tenant aware, variable length, deduplication of stored data
CN106528703A (zh) 一种重复删除的模式切换方法及装置
CN102495838B (zh) 数据处理方法及装置
CN105260423A (zh) 电子名片去重方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191210

Address after: 057150 West Street, dabeiwang Town, Yongnian District, Handan City, Hebei Province

Patentee after: Bowen school, dabeiwang Town, Yongnian District, Handan City

Address before: 510000 unit 2414-2416, building, No. five, No. 371, Tianhe District, Guangdong, China

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Effective date of registration: 20191210

Address after: 510000 unit 2414-2416, building, No. five, No. 371, Tianhe District, Guangdong, China

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180309

CF01 Termination of patent right due to non-payment of annual fee