CN103177111B - 重复数据删除***及其删除方法 - Google Patents

重复数据删除***及其删除方法 Download PDF

Info

Publication number
CN103177111B
CN103177111B CN201310109231.1A CN201310109231A CN103177111B CN 103177111 B CN103177111 B CN 103177111B CN 201310109231 A CN201310109231 A CN 201310109231A CN 103177111 B CN103177111 B CN 103177111B
Authority
CN
China
Prior art keywords
data block
file
correcting
eleting codes
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310109231.1A
Other languages
English (en)
Other versions
CN103177111A (zh
Inventor
王磊
任振刚
黑新宏
高阔
费蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201310109231.1A priority Critical patent/CN103177111B/zh
Publication of CN103177111A publication Critical patent/CN103177111A/zh
Application granted granted Critical
Publication of CN103177111B publication Critical patent/CN103177111B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

重复数据删除***及其删除方法,为分布式架构,主要由客户端、管理服务器和存储节点服务器组成;客户端主要用于接收用户保存文件/还原文件请求、切分文件/组合文件;管理服务器的主要功能有指纹值比对、维护指纹库、纠删码编码和数据压缩;存储节点服务器主要负责存储压缩后的数据块;客户端与管理服务器端、管理服务器与存储节点服务器端均通过局域网相连。用户通过客户端保存和还原文件。本发明对切分数据块进行纠删码编码和数据压缩,将压缩后的数据块分散存储到不同的存储节点服务器,一旦部分存储节点发生故障,可利用剩余存储节点中保存的数据进行文件还原,不仅提高了重复数据删除***的可靠性,而且减少了存储空间的浪费。

Description

重复数据删除***及其删除方法
技术领域
本发明属于重复数据删除技术领域,涉及分布式存储技术领域,特别涉及一种基于数据压缩与纠删码技术的重复数据删除***;本发明还涉及这种重复数据删除***的删除方法。
背景技术
随着全球信息化的高速发展,公司、企业和组织中的数据中心正面临着越来越大的数据量和高速数据增长的挑战,研究表明大数据时代已经来临,大数据有四个特点,其中最显著的特点是数据体量巨大,有报告指出,2011年全世界创建和复制的数据量超过了1.8ZB(1.8万亿GB),在五年之间增长了9倍。研究发现企业中保存的数据中有高达60%是重复的,而且随着时间的推移将会越来越多,大量重复数据的存在不仅浪费了存储空间,而且给数据的处理速度和计算的准确性带来很大挑战。为了减少存储***中的大量重复数据,近年来重复数据删除技术已经成为研究的热点。
重复数据删除技术是一种可将重复数据标准化为单个共享数据对象以提高存储容量效率的技术。它是一种数据缩减技术,主要应用于基于磁盘的备份、容灾和归档存储***中,可对存储容量进行有效优化。现有的重复数据删除***,其流程参见图1:首先将要存储的文件用切分算法分割成一组数据块,对切分出的每个数据块进行指纹计算,然后以指纹值为关键字在指纹库中查找,如果找到匹配的指纹值说明此数据块为重复数据块,仅存储此数据块的索引号,否则表示此数据块是一个新数据块,对此数据块进行存储并创建相应元信息。
在上述现有的重复数据删除***中,数据块被***中多个文件共享,甚至是被所有文件共同使用,如果某个数据块丢失或发生错误会影响到多个文件还原,这样就降低了重复数据删除***的可靠性,虽然可以将数据块进行冗余备份,将每个数据块复制到多个存储节点中,一旦其中某个存储节点出现问题,可以利用其余存储节点中的数据块,但是这样对存储空间是一种严重浪费。
发明内容
本发明的目的在于提供一种重复数据删除***,解决现有技术存在的如果某个数据块丢失或发生错误会影响到多个文件还原,可靠性较差的问题。
本发明的另一个目的在于提供上述重复数据删除***的删除方法。
本发明的目的是这样实现的,重复数据删除***,为分布式架构,主要由客户端、管理服务器和存储节点服务器组成;客户端主要用于接收用户保存文件/还原文件请求、切分文件/组合文件;管理服务器的主要功能有指纹值比对、维护指纹库、纠删码编码和数据压缩;存储节点服务器主要负责存储压缩后的数据块;客户端与管理服务器端、管理服务器与存储节点服务器端均通过局域网相连。
本发明的特点还在于:
管理服务器主要由指纹库、文件索引库和压缩数据块索引库三部分组成;
指纹库用来记录***中所有数据块的指纹值,其结构由FingerPrint、ReferenceCount组成,其中FingerPrint为指纹值,ReferenceCount记录此指纹值的数据块被共享的次数,初始值为1;
文件索引库记录组成文件的数据块指纹值,以及数据块的顺序;
压缩数据块索引库用来记录每个压缩数据块的信息,其结构由DatablockName、IpAddress、SavePath、DataBlockLength、FingerPrint、ReferenceCount组成;其中DatablockName表示数据块名称,IpAddress表示保存数据块服务器的IP地址,SavePath表示保存数据块的目录,DataBlockLength表示数据块的长度,FingerPrint为数据块的指纹值,ReferenceCount记录此数据块被共享的次数,初始值为1,其与指纹库中相同指纹值的ReferenceCount字段值相等。
客户端安装于用户的个人电脑上。
本发明的另一个目的是这样实现的,上述重复数据删除***的删除方法,用户通过客户端保存和还原文件。
其特点还在于:
保存文件时,客户端对用户输入的文件进行数据切分产生切分数据块,对每个切分数据块进行指纹计算,将计算出的指纹值发送到管理服务器;管理服务器接收到指纹值后,首先到指纹库中查找是否存在相同指纹值,如果存在相同指纹值,说明此数据块已经保存,通知客户端不需要发送数据块,否则说明此数据块是一个新数据块,通知客户端将数据块发送到管理服务器,管理服务器收到数据块后,对数据块进行纠删码编码,事先根据存储节点服务器的个数设置好纠删码需要的基本数据块个数和校验数据块个数,纠删码编码完成后对每个纠删码数据块进行数据压缩,将压缩后的纠删码数据块发送到存储节点服务器保存。
还原文件时,通过客户端将欲还原的文件名发送到管理服务器,管理服务器到文件数据块索引库中查找保存数据块索引的文件,根据文件中记录的索引位置,到数据块纠删码索引库中查找保存纠删码索引的文件,根据索引文件中记录的纠删码数据块保存位置,到各个存储节点服务器提取压缩后的纠删码数据块,对其进行解压缩,根据纠删码算法重构出切分数据块,最后将切分数据块还原为原始的文件。
保存文件的流程如下:
步骤1:文件切分,将欲保存的文件上传到客户端,客户端用固定尺寸分块算法切分文件,产生临时切分数据块;
步骤2:计算指纹值,客户端利用MD5算法计算切分数据块的指纹值;
步骤3:HASH查找,把计算出的指纹值发送到管理服务器,管理服务器以指纹值为关键字用HASH函数到指纹库中进行查找,如果找到相同指纹值说明此数据块已经保存,更新指纹库中的ReferenceCount字段,将其值加1,保存其索引到切分索引文件,通知客户端不用发送数据块,否则说明此数据块为一个新数据块,保存其索引,并通知客户端发送数据块,对其进行后续计算;
步骤3:纠删码编码,用ReedSolomon纠删码编码对新切分数据块进行编码,产生纠删码数据块和纠删码索引文件;
步骤4:压缩数据,用Huffman压缩算法对纠删码数据块进行压缩;
步骤5:保存,将压缩数据块发送到存储节点服务器保存;
重复步骤1到步骤5,直到文件处理完毕;
还原文件的流程如下:
步骤1:提取数据块索引,用客户端将还原文件请求发送到管理服务器,管理服务器到文件索引库中查找保存文件切分数据块索引的文件;如果没有找到提示无法还原文件,否则继续;
步骤2:提取纠删码索引,管理服务器根据切分数据块索引文件中记录的索引位置,到纠删码数据块索引库中查找纠删码索引文件;如果没有找到则提示纠删码数据块丢失,无法还原文件,否则继续;
步骤3:提取纠删码数据块,根据纠删码索引文件中记录的IpAddress、SavePath两个字段到存储节点服务器中提取压缩后的纠删码数据块;
步骤4:解压缩,对提取出的压缩数据块解压缩,产生纠删码数据块;
步骤5:判断是否满足重构条件,根据ReedSolomon纠删码解码原理判断解压出的纠删码数据块是否满足重构条件,如果不满足,提示纠删码数据块丢失过多,无法重构,否则继续进行;
步骤6:重构数据块,利用ReedSolomon纠删码解码原理将解压后的纠删码数据块重构为切分数据块;
步骤7:还原文件,将切分数据块中的数据发送给客户端,客户端将其保存到文件中;
重复步骤1到步骤6,直到数据块索引文件中的数据处理完毕,最后客户端将还原的文件呈现给用户。
本发明具有如下有益效果:
1、本发明重复数据删除***可靠性高。本发明用纠删码技术对切分数据块进行编码,将编码后的纠删码数据块分散存储到不同的存储节点,如果部分存储节点出现故障,可以用剩余的存储节点中的纠删码数据块重构出原始切分数据块。相比于将所有数据块都保存在某一存储节点,本发明提高了重复数据删除***的可靠性。
2、本发明重复数据删除***减少了存储空间的浪费。本发明纠删码编码时为了数据块重构会新增几个校验块,编码完成后的纠删码数据块总存储容量相对于原始的切分数据块增加了一部分存储空间,在此基础上对纠删码数据块进行数据压缩,从一定程度上降低了存储空间的浪费。
3、本发明将纠删码与数据压缩技术引入重复数据删除***中,不仅提高了重复数据删除***的可靠性,而且减少了存储空间的浪费。
4、本发明重复数据删除***删除方法,对切分数据块进行纠删码编码和数据压缩,将压缩后的数据块分散存储到不同的存储节点服务器,一旦部分存储节点发生故障,可利用剩余存储节点中保存的数据进行文件还原,相比于现有技术,本发明不仅提高了重复数据删除的可靠性,而且减少了存储空间的浪费。
附图说明
图1是现有的重复数据删除***流程图;
图2是本发明重复数据删除***结构示意图;
图3是纠删码原理图;
图4是本发明的重复数据删除***删除方法流程图。
具体实施方式
下面结合具体实施方式和附图对本发明作进一步详细的说明。
重复数据删除技术的核心功能是在存储数据时,比较欲存储数据和存储***中已经保存的数据,如果存在相同数据,说明此数据已经保存,过滤掉这部分数据,通过指针引用这部分数据,反之,保存数据。按照消重粒度重复数据删除技术可分为文件级和数据块级,数据块级别消重粒度更小,提供更高的数据消重率。本发明采用数据块级别消重算法。
数据分块算法主要有三种:固定大小分块算法、变长切分算法和滑动块切分算法。固定大小分块算法是用预先定义好的块大小进行文件切分。变长切分算法是一种基于文件内容的切分算法,切分出的数据块大小是变化的,使用一个固定大小的滑动窗口对文件数据块计算指纹值,如果指纹值满足某个条件,比如其对某个特定的数值取模计算等于预先设定的数时,把窗口位置做为块的边界。滑动块切分算法结合了固定大小块切分算法和变长切分算法的优点,其数据块大小确定,对定长数据块先计算弱校验值,如果匹配再计算强校验值,两者都匹配认为这是一个数据块边界。本发明使用固定大小分块算法。
在重复数据删除***中,数据块被存储***中所有文件共享,如果某个数据块丢失或发生错误会导致多个文件无法还原,基于此引入纠删码技术,纠删码是一种前向纠错(ForwardErrorCorrecting,FEC)技术,近年来广泛应用于信息处理的各个领域。一个(m,n)纠删码是把m个数据源片段编码为n(n>m)个数据片段,用这n个数据片段中的任意x(x≥m)个即可重构出原来的m个源数据片段,纠删码原理如图3所示,纠删码主要分为4类:ReedSolomonCodes,ParityArrayCodes,Parity-checkCodes,LDPCCodes。本发明使用的是ReedSolomonCodes技术。
在本发明中保存切分数据块时,先对数据块进行纠删码编码,将编码后的数据块保存到不同的存储节点。文件还原时,如果部分存储节点出现故障或发生错误,可以用剩余存储节点中的纠删码数据块重构出原始数据块,进而还原出原始文件。
在对数据块进行(m,n)纠删码编码时,首先将数据块平均切分成m个数据块,然后将m个数据块编码为n(n>m)个数据块,增加了(n-m)个校验数据块,则编码后的数据块存储容量是初始数据块容量的n/m(n/m>1)倍,增加了一部分存储空间。为了解决此问题本文在纠删码技术的基础上将数据压缩技术引入重复数据删除***中。
数据压缩(DataCompression)是在数据处理时采用压缩一定数据的存储空间或在一定空间内增加数据存储量的技术。通常采用消除数据间隙、空字段、冗余信息以及不必要数据的方法缩短记录或块的长度,目的是提高计算机存储空间的利用率。数据压缩分为无损压缩和有损压缩两种。常用的无损压缩方法有:Huffman编码、算术编码、游程长度编码和Fano-Shannon编码等。常用的有损压缩方法有:预测编码、变换编码和混合编码等。本发明使用无损压缩中的Huffman压缩。
Huffman压缩是比较流行的一种无损压缩方法,其理论基础是Huffman编码,Huffman编码依据信息出现的频率构造前缀编码Huffman树,达到编码长度最短的目标。基于此,Huffman压缩文件的流程为:
1)读取文件各字节,统计各字节出现的频率;
2)为每个字节指定一个只包含一个节点的二叉树,并以该字节的频率作为二叉树的权;
3)选取两棵权最小的树合并成一棵带有新的根节点的树,其左右子树分别是选取的两棵树,新树的权为左右子树的权重之和;
4)重复上面的步骤,直到只剩下最后一棵树;
5)树中每个非叶节点的左指针分配“0”,右指针分配“1”,由此,从根出发可得各字节的哈夫曼编码;
6)将Huffman树信息和各字节的编码信息保存到压缩文件中。
保存文件时,纠删码编码完成后,利用Huffman压缩算法压缩纠删码数据块,然后将压缩后的数据块分别发送到不同的存储节点保存。还原文件时,将数据块从存储节点中提取出来,用Huffman解压缩算法解压出纠删码数据块。
图2所示为本发明基于数据压缩与纠删码技术的重复数据删除***组成结构图,***主要包括客户端、管理服务器和存储节点服务器,***主要的功能集中于管理服务器上。管理服务器主要有三部分组成:指纹库、文件索引库和压缩数据块索引库。
指纹库用来记录***中所有数据块的指纹值,其结构由<FingerPrint、ReferenceCount>组成,其中FingerPrint为指纹值,ReferenceCount记录此指纹值的数据块被共享的次数,初始值为1。指纹库查找采用Hash查找算法,以指纹值字符串为关键字计算其存储位置,冲突解决方法采用线性探测法。
文件索引库记录组成文件的数据块指纹值,以及数据块的顺序。
压缩数据块索引库用来记录每个压缩数据块的信息,其结构由<DatablockName、IpAddress、SavePath、DataBlockLength、FingerPrint、ReferenceCount>组成。其中DatablockName表示数据块名称,IpAddress表示保存数据块服务器的IP地址,SavePath表示保存数据块的目录,DataBlockLength表示数据块的长度,FingerPrint为数据块的指纹值,ReferenceCount字段记录此数据块被共享的次数,初始值为1,其与指纹库中相同指纹值的ReferenceCount字段值相等。
上述压缩数据块索引库中的ReferenceCount字段用于文件删除时判断数据块被共享的次数。当用户删除***中保存的某个文件时,需要删除组成此文件的数据块。但是由于数据块并不是被一个文件私有,如果不加判断直接删除数据块,可能会造成某些文件无法还原。为了避免这种情况发生,删除数据块时需要查看数据块索引库中的ReferenceCount字段,如果此字段的值为1说明此数据块只被此文件使用,可以删除,如果此字段的值大于1,不能删除此数据块,将此字段值减1。这样就保证了不会因为某个数据块被删除而使其他文件无法还原。
图4为基于数据压缩与纠删码技术的重复数据删除***流程图。为便于讲解其流程首先定义几个词语:
定义1切分数据块:对文件应用一定的切分算法后产生的数据块。
定义2纠删码数据块:对切分数据块进行纠删码编码后产生的数据块。
定义3压缩数据块:对纠删码数据块应用压缩算法后产生的数据块。
定义4切分索引文件:文件切分时产生的索引文件,用来记录文件包含的所有数据块索引。
定义5纠删码索引文件:纠删码编码时产生的索引文件,用来记录切分数据块编码后所有数据块的索引。
保存文件的流程如下:
步骤1:文件切分。将欲保存的文件上传到客户端,客户端用固定尺寸分块算法切分文件,产生临时切分数据块。
步骤2:计算指纹值。客户端利用MD5算法计算切分数据块的指纹值。
步骤3:HASH查找。把计算出的指纹值发送到管理服务器,管理服务器以指纹值为关键字用HASH函数到指纹库中进行查找,如果找到相同指纹值说明此数据块已经保存,更新指纹库中的ReferenceCount字段,将其值加1,保存其索引到切分索引文件,通知客户端不用发送数据块,否则说明此数据块为一个新数据块,保存其索引,并通知客户端发送数据块,对其进行后续计算。
步骤4:纠删码编码。用ReedSolomon纠删码编码对新切分数据块进行编码,产生纠删码数据块和纠删码索引文件。
步骤5:压缩数据。用Huffman压缩算法对纠删码数据块进行压缩。
步骤6:保存。将压缩数据块发送到存储节点服务器保存,重复步骤1到步骤5,直到文件处理完毕。
还原文件的流程如下:
步骤1:提取数据块索引。用客户端将还原文件请求发送到管理服务器,管理服务器到文件索引库中查找保存文件切分数据块索引的文件。如果没有找到提示无法还原文件,否则继续。
步骤2:提取纠删码索引。管理服务器根据切分数据块索引文件中记录的索引位置,到纠删码数据块索引库中查找纠删码索引文件。如果没有找到则提示纠删码数据块丢失,无法还原文件,否则继续。
步骤3:提取纠删码数据块。根据纠删码索引文件中记录的IpAddress、SavePath两个字段到存储节点服务器中提取压缩后的纠删码数据块。
步骤4:解压缩。对提取出的压缩数据块解压缩,产生纠删码数据块。
步骤5:判断是否满足重构条件。根据ReedSolomon纠删码解码原理判断解压出的纠删码数据块是否满足重构条件,如果不满足,提示纠删码数据块丢失过多,无法重构,否则继续进行。
步骤6:重构数据块。利用ReedSolomon纠删码解码原理将解压后的纠删码数据块重构为切分数据块。
步骤7:还原文件。将切分数据块中的数据发送给客户端,客户端将其保存到文件中,重复步骤1到步骤6,直到数据块索引文件中的数据处理完毕。最后客户端将还原的文件呈现给用户。
本发明提出的基于数据压缩和纠删码技术的重复数据删除***架构,对切分数据块进行纠删码编码和数据压缩,将压缩后的数据块分散存储到不同的存储节点服务器,一旦部分存储节点发生故障,可利用剩余存储节点中保存的数据进行文件还原,本发明提出的架构不仅提高了重复数据删除***的可靠性,而且减少了存储空间的浪费。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可以根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.重复数据删除***,其特征在于:为分布式架构,主要由客户端、管理服务器和存储节点服务器组成;客户端主要用于接收用户保存文件/还原文件请求、切分文件/组合文件;管理服务器的主要功能有指纹值比对、维护指纹库、纠删码编码和数据压缩;存储节点服务器主要负责存储压缩后的数据块;客户端与管理服务器端、管理服务器与存储节点服务器端均通过局域网相连;
其中,管理服务器主要由指纹库、文件索引库和压缩数据块索引库三部分组成;
指纹库用来记录***中所有数据块的指纹值,其结构由FingerPrint、ReferenceCount组成,其中FingerPrint为指纹值,ReferenceCount记录此指纹值的数据块被共享的次数,初始值为1;
文件索引库记录组成文件的数据块指纹值,以及数据块的顺序;
压缩数据块索引库用来记录每个压缩数据块的信息,其结构由DatablockName、IpAddress、SavePath、DataBlockLength、FingerPrint、ReferenceCount组成;其中DatablockName表示数据块名称,IpAddress表示保存数据块服务器的IP地址,SavePath表示保存数据块的目录,DataBlockLength表示数据块的长度,FingerPrint为数据块的指纹值,ReferenceCount记录此数据块被共享的次数,初始值为1,其与指纹库中相同指纹值的ReferenceCount字段值相等。
2.如权利要求1所述的重复数据删除***,其特征在于:客户端安装于用户的个人电脑上。
3.如权利要求1或2所述的重复数据删除***的删除方法,其特征在于:用户通过客户端保存和还原文件;
其中,保存文件时,客户端对用户输入的文件进行数据切分产生切分数据块,对每个切分数据块进行指纹计算,将计算出的指纹值发送到管理服务器;管理服务器接收到指纹值后,首先到指纹库中查找是否存在相同指纹值,如果存在相同指纹值,说明此数据块已经保存,通知客户端不需要发送数据块,否则说明此数据块是一个新数据块,通知客户端将数据块发送到管理服务器,管理服务器收到数据块后,对数据块进行纠删码编码,事先根据存储节点服务器的个数设置好纠删码需要的基本数据块个数和校验数据块个数,纠删码编码完成后对每个纠删码数据块进行数据压缩,将压缩后的纠删码数据块发送到存储节点服务器保存;
其中,还原文件时,通过客户端将欲还原的文件名发送到管理服务器,管理服务器到文件数据块索引库中查找保存数据块索引的文件,根据文件中记录的索引位置,到数据块纠删码索引库中查找保存纠删码索引的文件,根据索引文件中记录的纠删码数据块保存位置,到各个存储节点服务器提取压缩后的纠删码数据块,对其进行解压缩,根据纠删码算法重构出切分数据块,最后将切分数据块还原为原始的文件;
保存文件的流程如下:
步骤1:文件切分,将欲保存的文件上传到客户端,客户端用固定尺寸分块算法切分文件,产生临时切分数据块;
步骤2:计算指纹值,客户端利用MD5算法计算切分数据块的指纹值;
步骤3:HASH查找,把计算出的指纹值发送到管理服务器,管理服务器以指纹值为关键字用HASH函数到指纹库中进行查找,如果找到相同指纹值说明此数据块已经保存,更新指纹库中的ReferenceCount字段,将其值加1,保存其索引到切分索引文件,通知客户端不用发送数据块,否则说明此数据块为一个新数据块,保存其索引,并通知客户端发送数据块,对其进行后续计算;
步骤4:纠删码编码,用ReedSolomon纠删码编码对新切分数据块进行编码,产生纠删码数据块和纠删码索引文件;
步骤5:压缩数据,用Huffman压缩算法对纠删码数据块进行压缩;
步骤6:保存,将压缩数据块发送到存储节点服务器保存;
重复步骤1到步骤6,直到文件处理完毕;
还原文件的流程如下:
步骤1:提取数据块索引,用客户端将还原文件请求发送到管理服务器,管理服务器到文件索引库中查找保存文件切分数据块索引的文件;如果没有找到提示无法还原文件,否则继续;
步骤2:提取纠删码索引,管理服务器根据切分数据块索引文件中记录的索引位置,到纠删码数据块索引库中查找纠删码索引文件;如果没有找到则提示纠删码数据块丢失,无法还原文件,否则继续;
步骤3:提取纠删码数据块,根据纠删码索引文件中记录的IpAddress、SavePath两个字段到存储节点服务器中提取压缩后的纠删码数据块;
步骤4:解压缩,对提取出的压缩数据块解压缩,产生纠删码数据块;
步骤5:判断是否满足重构条件,根据ReedSolomon纠删码解码原理判断解压出的纠删码数据块是否满足重构条件,如果不满足,提示纠删码数据块丢失过多,无法重构,否则继续进行;
步骤6:重构数据块,利用ReedSolomon纠删码解码原理将解压后的纠删码数据块重构为切分数据块;
步骤7:还原文件,将切分数据块中的数据发送给客户端,客户端将其保存到文件中;
重复步骤1到步骤6,直到数据块索引文件中的数据处理完毕,最后客户端将还原的文件呈现给用户。
CN201310109231.1A 2013-03-29 2013-03-29 重复数据删除***及其删除方法 Expired - Fee Related CN103177111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310109231.1A CN103177111B (zh) 2013-03-29 2013-03-29 重复数据删除***及其删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310109231.1A CN103177111B (zh) 2013-03-29 2013-03-29 重复数据删除***及其删除方法

Publications (2)

Publication Number Publication Date
CN103177111A CN103177111A (zh) 2013-06-26
CN103177111B true CN103177111B (zh) 2016-02-24

Family

ID=48636972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310109231.1A Expired - Fee Related CN103177111B (zh) 2013-03-29 2013-03-29 重复数据删除***及其删除方法

Country Status (1)

Country Link
CN (1) CN103177111B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473298B (zh) * 2013-09-04 2017-01-11 华为技术有限公司 数据归档方法和装置以及存储***
EP3015999A4 (en) 2013-09-29 2016-08-17 Huawei Tech Co Ltd METHOD OF PROCESSING DATA, SYSTEM AND CLIENT
CN103593264B (zh) * 2013-11-28 2017-07-07 中国南方电网有限责任公司超高压输电公司南宁局 远距离广域网络容灾备份***及方法
CN104765693B (zh) * 2014-01-06 2018-03-27 国际商业机器公司 一种用于存储数据的方法、装置和***
CN104484126B (zh) * 2014-11-13 2017-06-13 华中科技大学 一种基于纠删码的数据安全删除方法和***
CN104572987B (zh) * 2015-01-04 2017-12-22 浙江大学 一种通过压缩提高简易再生码存储效率的方法和***
US20160253096A1 (en) * 2015-02-28 2016-09-01 Altera Corporation Methods and apparatus for two-dimensional block bit-stream compression and decompression
CN104793902A (zh) * 2015-04-17 2015-07-22 北京赛思信安技术有限公司 一种重复数据删除***数据存取方法
CN105389387B (zh) * 2015-12-11 2018-12-14 上海爱数信息技术股份有限公司 一种基于压缩的重复数据删除性能及重删率提升的方法和***
CN105610921B (zh) * 2015-12-23 2018-09-07 华中科技大学 一种集群下基于数据缓存的纠删码归档方法
CN105677238A (zh) * 2015-12-28 2016-06-15 国云科技股份有限公司 一种基于分布式存储重复数据删除的虚拟机***盘的方法
CN105763600B (zh) * 2016-01-29 2019-06-18 华南理工大学 一种Cache支持的粒通信***及其粒通信方法
CN105912622A (zh) * 2016-04-05 2016-08-31 重庆大学 一种针对无损压缩文件的数据去重方法
CN106527986A (zh) * 2016-11-03 2017-03-22 北京百度网讯科技有限公司 用于存储数据的方法和装置
CN106713422A (zh) * 2016-12-05 2017-05-24 广州因特信息科技有限公司 一种基于互联网异地快速传输数据的实现方法及***
JP6876247B2 (ja) * 2017-03-09 2021-05-26 コニカミノルタ株式会社 画像形成装置
CN107066601A (zh) * 2017-04-20 2017-08-18 北京古盘创世科技发展有限公司 文件对比管理方法及***
CN107066624B (zh) * 2017-05-15 2020-07-28 成都优孚达信息技术有限公司 数据离线存储方法
CN109725836B (zh) * 2017-10-30 2021-11-26 普天信息技术有限公司 用户上下文压缩方法及装置
CN108052649A (zh) * 2017-12-26 2018-05-18 广州泼墨神网络科技有限公司 一种分布式文件***的数据管理方法及其***
CN110389857B (zh) * 2018-04-20 2023-04-21 伊姆西Ip控股有限责任公司 数据备份的方法、设备和非瞬态计算机存储介质
CN109040173A (zh) * 2018-06-21 2018-12-18 佛山科学技术学院 一种政务大数据的可靠储存方法及装置
CN110908589B (zh) * 2018-09-14 2023-06-27 阿里巴巴集团控股有限公司 数据文件的处理方法、装置、***和存储介质
CN109522283B (zh) * 2018-10-30 2021-09-21 深圳先进技术研究院 一种重复数据删除方法及***
CN109213738B (zh) * 2018-11-20 2022-01-25 武汉理工光科股份有限公司 一种云存储文件级重复数据删除检索***及方法
CN111177092A (zh) * 2019-12-09 2020-05-19 成都信息工程大学 一种基于纠删码的重复数据删除方法及装置
CN111522791B (zh) * 2020-04-30 2023-05-30 电子科技大学 一种分布式文件重复数据删除***及方法
CN112069510B (zh) * 2020-07-24 2024-01-30 北京思特奇信息技术股份有限公司 一种数据加密排重方法
CN111881425A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 图片版权认证方法、装置及存储介质
CN112380196B (zh) * 2020-10-28 2023-03-21 安擎(天津)计算机有限公司 一种用于数据压缩传输的服务器
CN113472691A (zh) * 2021-06-16 2021-10-01 安阳师范学院 一种基于消息队列和纠删码的海量时序数据异地归档方法
CN113270120B (zh) * 2021-07-16 2022-02-18 北京金山云网络技术有限公司 数据压缩方法及装置
CN113612829A (zh) * 2021-07-27 2021-11-05 安阳师范学院 一种高密度海量数据异地归档方法
WO2023070462A1 (zh) * 2021-10-28 2023-05-04 华为技术有限公司 一种文件去重方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777056A (zh) * 2009-12-31 2010-07-14 成都市华为赛门铁克科技有限公司 数据存储方法及设备
CN102200936A (zh) * 2011-05-11 2011-09-28 杨钧 适用于云存储的智能配置存储备份方法
CN102594899A (zh) * 2011-12-31 2012-07-18 成都市华为赛门铁克科技有限公司 一种存储服务方法以及应用该方法的存储服务器
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除***及其处理方法
WO2013030893A1 (en) * 2011-08-31 2013-03-07 Hitachi, Ltd. Computer system and data access control method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8307177B2 (en) * 2008-09-05 2012-11-06 Commvault Systems, Inc. Systems and methods for management of virtualization data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777056A (zh) * 2009-12-31 2010-07-14 成都市华为赛门铁克科技有限公司 数据存储方法及设备
CN102200936A (zh) * 2011-05-11 2011-09-28 杨钧 适用于云存储的智能配置存储备份方法
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除***及其处理方法
WO2013030893A1 (en) * 2011-08-31 2013-03-07 Hitachi, Ltd. Computer system and data access control method
CN102594899A (zh) * 2011-12-31 2012-07-18 成都市华为赛门铁克科技有限公司 一种存储服务方法以及应用该方法的存储服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于在线重复数据消除的海量数据处理关键技术研究;王灿;《中国博士学位论文全文数据库》;20121215;第30-32页 *

Also Published As

Publication number Publication date
CN103177111A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
CN103177111B (zh) 重复数据删除***及其删除方法
US9880746B1 (en) Method to increase random I/O performance with low memory overheads
CN102246137B (zh) 身份副本删除之后的delta压缩
JP6596102B2 (ja) コンテンツ連想シーブに存在している基本データエレメントからデータを導出することによるデータの無損失削減
US11954373B2 (en) Data structure storage and data management
EP2940598B1 (en) Data object processing method and device
US9367448B1 (en) Method and system for determining data integrity for garbage collection of data storage systems
US9424185B1 (en) Method and system for garbage collection of data storage systems
Xu et al. Online deduplication for databases
CN110741637B (zh) 简化视频数据的方法、计算机可读存储介质和电子装置
CN101968796B (zh) 一种双向并发执行的文件级可变长数据分块方法
CN113535706A (zh) 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN108415671B (zh) 一种面向绿色云计算的重复数据删除方法及***
JP6726690B2 (ja) 基本データシーブを用いて無損失削減されたデータに対する多次元検索、コンテンツ連想的な取出し、ならびにキーワードベースの検索および取出しの実行
US9665590B2 (en) Bitmap compression for fast searches and updates
CN108475508B (zh) 音频数据和保存在块处理存储***中的数据的简化
US9087086B1 (en) Method and system for handling object boundaries of a data stream to optimize deduplication
JP2023525791A (ja) 基本データシーブを使用して無損失削減されたデータの効率的な取出しのための基本データの局所性の利用
Xu et al. Reducing replication bandwidth for distributed document databases
Nielsen et al. Minervafs: A user-space file system for generalised deduplication:(practical experience report)
CN112416879A (zh) 一种基于ntfs文件***的块级数据去重方法
Goel et al. A Detailed Review of Data Deduplication Approaches in the Cloud and Key Challenges
Xu et al. Similarity-based Deduplication for Databases
Xu Online Deduplication for Distributed Databases
CN117193649A (zh) 实现重删的方法及相应的存储设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160224

Termination date: 20210329