CN103955530A - 一种在线重复数据删除***的数据重建优化方法 - Google Patents

一种在线重复数据删除***的数据重建优化方法 Download PDF

Info

Publication number
CN103955530A
CN103955530A CN201410198679.XA CN201410198679A CN103955530A CN 103955530 A CN103955530 A CN 103955530A CN 201410198679 A CN201410198679 A CN 201410198679A CN 103955530 A CN103955530 A CN 103955530A
Authority
CN
China
Prior art keywords
data
file
duplicate removal
data block
removal bag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410198679.XA
Other languages
English (en)
Other versions
CN103955530B (zh
Inventor
邓玉辉
岑大慰
黄战
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Hong Kong And Macao Qingchuang Technology Guangzhou Co ltd
Guangzhou Jinan University Science Park Management Co ltd
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201410198679.XA priority Critical patent/CN103955530B/zh
Publication of CN103955530A publication Critical patent/CN103955530A/zh
Application granted granted Critical
Publication of CN103955530B publication Critical patent/CN103955530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种在线重复数据删除***的数据重建优化方法,一方面针对数据的存储,通过冗余检测、削减重复的数据,利用有限的空间资源存储和管理更多的数据;另一方面,本发明的***模型通过调度和重排去重后的数据块的分布,将常用的文件数据块预取到去重包中数据片段的前端,将随机离散分布的数据块和相应的指纹数据聚合在去重包中存储,以减少文件数据恢复过程中磁盘上的寻道时间,从而提高在线重复数据删除***的数据重建性能,提高***响应时间和数据恢复效率。

Description

一种在线重复数据删除***的数据重建优化方法
技术领域
本发明涉及了一种在线重复数据删除***的数据重建优化方法,更具体的说涉及了基于文件的访问频度进行去重包中数据块重排的技术和去重包中数据块的寻址、恢复与重构的技术。
背景技术
随着网络和各种平台***的不断发展,现代社会成为了数据的海洋。每天沟通人们生活的各种身份信息、网站交互产生的浏览信息、各种电子商务的订单数据、学习研究和办公的文档数据等等,每个电脑用户既是数据的生产者,也是数据的消费者。信息处理***每天需要面对和处理庞大的数据源。在海量数据的面前,如何有效存储和管理,挖掘数据中有用的信息成为了现代化智能技术的热点。数据的有效存储归根结底就是利用同样的空间资源存储更多的数据量。其中涉及的操作可以很多,但作用于数据本身的方法就是数据压缩和冗余数据删除。针对数据本身的去重和压缩技术是最直接,也是目前运用最广的研究领域。
重复数据删除技术在工业界和学术界有着多年的应用和研究基础。从该技术的发展来看,模型框架不变的都是进行数据的比对,消除重复的数据片段,建立元数据维护,其中去重率和时间效率是该技术关注的重点。从初始文件到去重后数据的生成,再到数据还原为初始文件,关注的重点不同,重复数据删除技术在其本身存储运用层面以外,得到不同程度的扩充。
纵观数据压缩和数据去重,无论哪种处理手段,需要进行数据的处理、信息的挖掘离不开的都是将存储处理后的文件数据进行恢复。除此之外,存储***只是用于大数据的保存,客户端需要请求访问,或者***服务器需要进行数据验证和比较时,都要将***的文件数据从存储介质中恢复出来。这样一来,文件恢复成为了数据处理的另一关键技术点。有效的文件恢复技术能快速地响应***的请求,提高***计算和处理大数据的能力。
发明内容
本发明的目的是实现一种在线重复数据删除***的数据重建优化方法,处理的对象是经过重复数据删除之后的数据包,去重后的数据在去重包中的分布直接影响***响应客户端的应答时间,通过优化存储结构,***可以更实时地反馈用户的访问请求。
本发明的目的通过以下的技术方案实现:
一种在线重复数据删除***的数据重建优化方法,包括下述步骤:
(1)、在线重复数据删除***对初始文件进行数据去重之后,生成去重包,去重***响应用户对基于文件级别的数据的访问请求,通过文件恢复实现用户的存储访问,在线重复数据删除***会在一段预设定长度的时间内统计去重包中各个文件的访问次数,将访问频度高于一定值的文件归类为常用文件集,访问频度低于该临界值的文件归为非常用文件集,然后执行步骤(2)操作;
(2)、暂停重复数据删除***的数据访问请求,进行基于文件级别的数据块重排,常用文件过滤器根据步骤(1)得到的常用文件集对去重包中的文件实体进行分流处理;处理过程是:按照去重包中初始文件的排列顺序,逐个读取去重包中的文件实体,比较文件实体记录对应文件的元数据信息段的文件名和文件类型,如果该文件名存在于步骤(1)生成的常用文件集中,则执行步骤(3)操作;
(3)、读取文件实体的唯一数据块编号区,根据数据块映射规则,找到每个对应编号的唯一数据块在去重包中的存放位置,将对应的唯一数据块写入到将要恢复的文件中,并且把文件实体中的最后一个唯一数据块也写入到要恢复的文件中,如果步骤(2)全部完成之后,则执行步骤(4),否则继续返回执行步骤(2);
(4)、将常用集中的文件重新进行数据块切分和指纹计算,并生成新的逻辑数据块单元和文件描述元信息,将新生成的数据信息写入到新的去重包中,然后执行步骤(5)操作;
(5)、将旧的去重包中的非常用文件集对应的唯一数据块进行基于文件级别的数据恢复,将非常用文件集中文件追加到新的去重包中,放到新的去重包中数据片段的后端,完成后删除旧的去重包;
(6)、新生成的去重包中的数据分布是基于对常用文件所包含的数据块和文件元数据的预取和集中,重复数据删除***恢复响应用户对数据访问的请求。
优选的,步骤(2)中,进行基于文件重排数据块的前提步骤是找到将单个文件所包含的全部数据块,将对应的数据块作统一的调度,查找文件相应的数据块之前需要对去重包中的文件进行恢复,文件恢复是一个读取数据块和写入文件的过程,通过读取去重包中各个文件实体包含的文件元数据信息和数据块信息,恢复初始的文件数据;基于文件级别的数据块重排,不但将唯一数据块集中预取到去重包中的数据片段的前端,而且数据块指纹和逻辑数据块等相关的描述信息也一并预取到相应数据片段的前端。
优选的,步骤(2)中,所述常用文件过滤器用于实现文件数据块分布管理,通过改变文件进入重复数据删除***的顺序,实现基于常用文件集的数据块重排,文件过滤器首先将去重包中的文件按***文件的顺序进行扫描,当扫描到的文件在常用文件集时,就直接进行文件所对应的数据块、指纹、逻辑数据和文件实体的检索,检索过程包括数据块的寻址和恢复,以及新去重包中数据区的写入,所有文件都扫描完毕之后,剩下的不在常用文件集中的文件就按原有顺序排列在去重包中常用文件集的数据片段之后。
优选的,步骤(3)中,数据块在去重包中的存储格式是一个副本,多个索引,数据块的寻址单位是字节,去重包中唯一数据块的物理信息记录在对应的逻辑数据块中,每个逻辑数据块的大小相同,唯一数据块的编号从0开始,依次递增。
优选的,数据块寻址包括两个映射过程,首先,根据文件实体中数据块的编号找到对应的逻辑数据块,因为每个逻辑块的大小都相同,寻址的运算过程是:数据块的编号乘以逻辑块的大小,然后就得出对应逻辑数据块的物理地址;然后,第二次寻址是根据读出的逻辑数据块中记录的唯一数据块的物理位移和块大小,找到相应的数据块,数据块的寻址和物理映射实际上是“索引—唯一数据块”的转换。
优选的,文件过滤器对去重包中初始文件数据基于常用文件集筛选恢复之后,需要重新将文件包含的数据块和对应的元数据存储到去重包中,具体步骤是进行文件切分、指纹生成、建立维护数据,***切分文件后,对数据块的处理是先计算数据块的hash值,接着进行hash比较,最后就是对去重后的数据进行存储,***的存储管理模块对新的唯一数据块的处理过程是一个可并发执行的调度。
优选的,数据恢复是针对单个文件内包含的所有唯一数据块、逻辑数据块、数据块指纹和文件元数据的统一恢复。
优选的,将经过重复数据删除技术处理之后的文件所包含的数据块处理过程分为四个并行处理的线程:唯一数据块存储、逻辑数据块存储、数据块指纹存储和文件元数据存储,线程运用的编程机制是openMP。
优选的,常用文件过滤器扫描去重包中的文件是按初始文件进入重复数据删除***的时间顺序,逐个比较去重包中文件实体的文件名是否存在于常用文件集,对访问频度不同的文件分流处理。
优选的,改变重复数据删除***的去重包中的初始文件按文件进入***的时间顺序离散分布的特征,重新将去重包中的数据内容包括唯一数据块、逻辑数据块、数据块指纹和文件元数据按文件的访问频度,以单个文件为基本单位统一集中调度到去重包中相应数据片段的前端。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于常用文件的数据重排,以文件为处理单位,对单个文件内所包含的所有数据块和数据块相对应的数据信息进行统一调度和分配,这与用户层面的访问请求内容和方式一致。
(2)本发明对常用文件和非常用文件的数据进行分流,将常用的文件数据集中预取到去重包中的数据片段前端,节省***对文件实体寻找的时间开销。
(3)文件恢复终止机制,本发明基于常用文件重排后的去重包中对文件恢复的过程加入终止判断,即当文件集中所有文件都从数据包中恢复出来之后,***不再扫描去重包中的其他文件实体。这可以节省不必要的文件检索时间。
附图说明
图1为本发明***模型结构示意图;
图2为本发明基于文件重排数据块的工作流示意图;
图3为本发明去重包中数据块映射与寻址示意图;
图4为本发明数据流存储结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明一种在线重复数据删除***的数据重建优化方法,应用的场景模型是在线的重复数据删除***,包括服务器端和客户端两部分:
客户端主要实现的功能是对文件进行切块,计算数据块的hash值,存储hash值,并作为该数据块的指纹。通过比较各个数据块的指纹,判断该数据块是不是重复的块,***只存储唯一的数据块,并记录各个数据块的ID。每个文件会建立一个文件实体,文件实体用于保存原文件的元数据,包括文件名、数据块数量、数据块ID大小、最后一个数据块的大小和一组唯一数据块的编号,以及文件的最后一个数据块(由于这个数据块大小通常比正常数据块小,重复概率非常小,所以单独存储)。唯一数据块、数据块指纹、所有的文件实体会保存在一个去重包,去重包中数据以文件的形式发送到服务器端。
服务器解析去重包中的数据,并保存唯一数据块、数据块指纹表、逻辑数据和文件实体,基于文件重排数据块的工作区间就是服务器上的这四类数据的读和写。基于文件重排是通过重新组织去重包中数据的先后顺序,以获得***更优的文件检索和恢复时间效率。
为了更清晰地阐明本发明的具体实施模型,以下结合基于文件重排数据块的工作流示意图(图2)、去重包中数据块映射与寻址示意图(图3)和数据流存储结构示意图(图4)再作详细分析。
如图2所示,***对文件进行重排分为两个阶段。第一个阶段是文件恢复,处理的对象是去重包。基于文件的数据恢复,首先,读取去重包中的文件实体,文件实体包含了相应文件对应的唯一数据块的编号;然后,根据数据块编号找到对应的逻辑数据块,读取逻辑数据块的位移和大小信息,找到去重包中的唯一数据块;最后,基于文件实体的数据块排列顺序,将唯一数据块写入到对应的文件中。第二个阶段是文件重排,文件重排有三个顺序执行的模块。(1)文件过滤器,(2)数据块切分,(3)数据块处理,各部分的功能围绕的处理单位都是文件,数据处理的基本单位是数据块。
如图3所示,文件过滤器将常用文件集中的数据以文件为基本单位进行检索,文件在去重包中的检索是根据文件实体进行相应的数据块寻址和操作的。数据块在去重包中的存储格式是一个副本,多个索引。所以在重复数据删除***中,需要建立数据块的逻辑描述信息,以方便不同文件之间共享唯一数据块的索引建立。数据块的寻址单位是字节,去重包中唯一数据块的物理信息记录在对应的逻辑数据块中。每个逻辑数据块的大小相同,唯一数据块的编号从0开始,依次递增。数据块寻址包括两个映射过程,首先,根据文件实体中数据块的编号找到对应的逻辑数据块,因为每个逻辑块的大小都相同,寻址的运算过程是:数据块的编号乘以逻辑块的大小,然后就得出对应逻辑数据块的物理地址。然后,第二次寻址是根据读出的逻辑数据块中记录的唯一数据块的物理位移和块大小,找到相应的数据块。数据块的寻址和物理映射实际上是“索引—唯一数据块”的转换。
如图4所示,文件过滤器对去重包中初始文件数据基于常用文件集筛选恢复之后,需要重新将文件包含的数据块和对应的元数据存储到去重包中。具体步骤是进行文件切分、指纹生成、建立维护数据。***切分文件后,对数据块的处理是先计算数据块的hash值,接着进行hash比较,最后就是对去重后的数据进行存储。***的存储管理模块对新的唯一数据块的处理过程是一个可并发执行的调度。为了提高数据块的处理效率,本发明提出的模型用Open MP多线程技术将存储过程分为四个并发执行的线程:hash值***hash表、唯一数据块处理、逻辑数据块处理和元数据处理。因为每个线程在去重包中的不同位置写入数据,所以并发的存储管理不但能提高***的输出效率,而且一定程度上维护了数据的独立性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种在线重复数据删除***的数据重建优化方法,其特征在于,包括下述步骤:
(1)、在线重复数据删除***对初始文件进行数据去重之后,生成去重包,去重***响应用户对基于文件级别的数据的访问请求,通过文件恢复实现用户的存储访问,在线重复数据删除***会在一段预设定长度的时间内统计去重包中各个文件的访问次数,将访问频度高于一定值的文件归类为常用文件集,访问频度低于该临界值的文件归为非常用文件集,然后执行步骤(2)操作;
(2)、暂停重复数据删除***的数据访问请求,进行基于文件级别的数据块重排,常用文件过滤器根据步骤(1)得到的常用文件集对去重包中的文件实体进行分流处理;处理过程是:按照去重包中初始文件的排列顺序,逐个读取去重包中的文件实体,比较文件实体记录对应文件的元数据信息段的文件名和文件类型,如果该文件名存在于步骤(1)生成的常用文件集中,则执行步骤(3)操作;
(3)、读取文件实体的唯一数据块编号区,根据数据块映射规则,找到每个对应编号的唯一数据块在去重包中的存放位置,将对应的唯一数据块写入到将要恢复的文件中,并且把文件实体中的最后一个唯一数据块也写入到要恢复的文件中,如果步骤(2)全部完成之后,则执行步骤(4),否则继续返回执行步骤(2);
(4)、将常用集中的文件重新进行数据块切分和指纹计算,并生成新的逻辑数据块单元和文件描述元信息,将新生成的数据信息写入到新的去重包中,然后执行步骤(5)操作;
(5)、将旧的去重包中的非常用文件集对应的唯一数据块进行基于文件级别的数据恢复,将非常用文件集中文件追加到新的去重包中,放到新的去重包中数据片段的后端,完成后删除旧的去重包;
(6)、新生成的去重包中的数据分布是基于对常用文件所包含的数据块和文件元数据的预取和集中,重复数据删除***恢复响应用户对数据访问的请求。
2.根据权利要求1所述的在线重复数据删除***的数据重建优化方法,其特征在于,步骤(2)中,进行基于文件重排数据块的前提步骤是找到将单个文件所包含的全部数据块,将对应的数据块作统一的调度,查找文件相应的数据块之前需要对去重包中的文件进行恢复,文件恢复是一个读取数据块和写入文件的过程,通过读取去重包中各个文件实体包含的文件元数据信息和数据块信息,恢复初始的文件数据;基于文件级别的数据块重排,不但将唯一数据块集中预取到去重包中的数据片段的前端,而且数据块指纹和逻辑数据块相关的描述信息也一并预取到相应数据片段的前端。
3.根据权利要求1所述的在线重复数据删除***的数据重建优化方法,其特征在于,步骤(2)中,所述常用文件过滤器用于实现文件数据块分布管理,通过改变文件进入重复数据删除***的顺序,实现基于常用文件集的数据块重排,文件过滤器首先将去重包中的文件按***文件的顺序进行扫描,当扫描到的文件在常用文件集时,就直接进行文件所对应的数据块、指纹、逻辑数据和文件实体的检索,检索过程包括数据块的寻址和恢复,以及新去重包中数据区的写入,所有文件都扫描完毕之后,剩下的不在常用文件集中的文件就按原有顺序排列在去重包中常用文件集的数据片段之后。
4.根据权利要求1所述的在线重复数据删除***的数据重建优化方法,其特征在于,步骤(3)中,数据块在去重包中的存储格式是一个副本,多个索引,数据块的寻址单位是字节,去重包中唯一数据块的物理信息记录在对应的逻辑数据块中,每个逻辑数据块的大小相同,唯一数据块的编号从0开始,依次递增。
5.根据权利要求4所述的在线重复数据删除***的数据重建优化方法,其特征在于,数据块寻址包括两个映射过程,首先,根据文件实体中数据块的编号找到对应的逻辑数据块,因为每个逻辑块的大小都相同,寻址的运算过程是:数据块的编号乘以逻辑块的大小,然后就得出对应逻辑数据块的物理地址;然后,第二次寻址是根据读出的逻辑数据块中记录的唯一数据块的物理位移和块大小,找到相应的数据块,数据块的寻址和物理映射实际上是“索引—唯一数据块”的转换。
6.根据权利要求1所述的在线重复数据删除***的数据重建优化方法,其特征在于,文件过滤器对去重包中初始文件数据基于常用文件集筛选恢复之后,需要重新将文件包含的数据块和对应的元数据存储到去重包中,具体步骤是进行文件切分、指纹生成、建立维护数据,***切分文件后,对数据块的处理是先计算数据块的hash值,接着进行hash比较,最后就是对去重后的数据进行存储,***的存储管理模块对新的唯一数据块的处理过程是一个可并发执行的调度。
7.根据权利要求1所述的在线重复数据删除***的数据重建优化方法,其特征在于,文件恢复是针对单个文件内包含的所有唯一数据块、逻辑数据块、数据块指纹和文件元数据的统一恢复。
8.根据权利要求1所述的在线重复数据删除***的数据重建优化方法,其特征在于:将经过重复数据删除技术处理之后的文件所包含的数据块处理过程分为四个并行处理的线程:唯一数据块存储、逻辑数据块存储、数据块指纹存储和文件元数据存储,线程运用的编程机制是openMP。
9.根据权利要求3所述的在线重复数据删除***的数据重建优化方法,其特征在于,常用文件过滤器扫描去重包中的文件是按初始文件进入重复数据删除***的时间顺序,逐个比较去重包中文件实体的文件名是否存在于常用文件集,对访问频度不同的文件分流处理。
10.根据权利要求1所述的在线重复数据删除***的数据访问优化的方法,其特征在于,改变重复数据删除***的去重包中的初始文件按文件进入***的时间顺序离散分布的特征,重新将去重包中的数据内容包括唯一数据块、逻辑数据块、数据块指纹和文件元数据按文件的访问频度,以单个文件为基本单位统一集中调度到去重包中相应数据片段的前端。
CN201410198679.XA 2014-05-12 2014-05-12 一种在线重复数据删除***的数据重建优化方法 Active CN103955530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410198679.XA CN103955530B (zh) 2014-05-12 2014-05-12 一种在线重复数据删除***的数据重建优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410198679.XA CN103955530B (zh) 2014-05-12 2014-05-12 一种在线重复数据删除***的数据重建优化方法

Publications (2)

Publication Number Publication Date
CN103955530A true CN103955530A (zh) 2014-07-30
CN103955530B CN103955530B (zh) 2017-02-22

Family

ID=51332805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410198679.XA Active CN103955530B (zh) 2014-05-12 2014-05-12 一种在线重复数据删除***的数据重建优化方法

Country Status (1)

Country Link
CN (1) CN103955530B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630689A (zh) * 2014-10-30 2016-06-01 曙光信息产业股份有限公司 一种分布式存储***中加速数据重建的方法
CN105930101A (zh) * 2016-05-04 2016-09-07 中国人民解放军国防科学技术大学 一种基于闪存固态盘的弱指纹重复数据删除机制
CN106569745A (zh) * 2016-10-25 2017-04-19 暨南大学 一种内存过载下面向重复数据删除的内存优化***
CN106844480A (zh) * 2016-12-23 2017-06-13 航天星图科技(北京)有限公司 一种清洗比对入库方法
CN108762679A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种在线ddp与离线ddp相结合的方法及其相关装置
CN108874315A (zh) * 2018-06-01 2018-11-23 暨南大学 一种在线数据去重文件***数据访问性能优化方法
CN109196457A (zh) * 2016-04-11 2019-01-11 慧与发展有限责任合伙企业 发送去冗余数据和修复代理
CN109558066A (zh) * 2017-09-26 2019-04-02 华为技术有限公司 存储***中恢复元数据的方法和装置
CN110083309A (zh) * 2019-04-11 2019-08-02 重庆大学 共享数据块处理方法、***及可读存储介质
CN110457163A (zh) * 2019-07-05 2019-11-15 苏州元核云技术有限公司 一种分布式块存储的数据恢复方法、装置及存储介质
CN111338581A (zh) * 2020-03-27 2020-06-26 尹兵 基于云计算的数据存储方法、装置、云服务器及***
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警***及方法
WO2022193447A1 (zh) * 2021-03-17 2022-09-22 网宿科技股份有限公司 数据报文去重与传输方法、电子设备及存储介质
WO2023000915A1 (en) * 2021-07-21 2023-01-26 Huawei Technologies Co., Ltd. Method and apparatus for replicating a target file between devices
CN117055805A (zh) * 2023-07-05 2023-11-14 中国人民解放军国防科技大学 基于分布式存储的kv删除优化方法、***、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
US20100205389A1 (en) * 2009-02-06 2010-08-12 International Business Machines Corporation Backup of deduplicated data
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件***缓存方法
US20130086009A1 (en) * 2011-09-29 2013-04-04 International Business Machines Corporation Method and system for data deduplication
CN103473278A (zh) * 2013-08-28 2013-12-25 苏州天永备网络科技有限公司 一种重复数据处理技术
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
US20100205389A1 (en) * 2009-02-06 2010-08-12 International Business Machines Corporation Backup of deduplicated data
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件***缓存方法
US20130086009A1 (en) * 2011-09-29 2013-04-04 International Business Machines Corporation Method and system for data deduplication
CN103473278A (zh) * 2013-08-28 2013-12-25 苏州天永备网络科技有限公司 一种重复数据处理技术
CN103617260A (zh) * 2013-11-29 2014-03-05 华为技术有限公司 重复数据删除的索引生成方法及装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630689A (zh) * 2014-10-30 2016-06-01 曙光信息产业股份有限公司 一种分布式存储***中加速数据重建的方法
CN105630689B (zh) * 2014-10-30 2018-11-27 曙光信息产业股份有限公司 一种分布式存储***中加速数据重建的方法
CN109196457A (zh) * 2016-04-11 2019-01-11 慧与发展有限责任合伙企业 发送去冗余数据和修复代理
CN105930101A (zh) * 2016-05-04 2016-09-07 中国人民解放军国防科学技术大学 一种基于闪存固态盘的弱指纹重复数据删除机制
CN106569745A (zh) * 2016-10-25 2017-04-19 暨南大学 一种内存过载下面向重复数据删除的内存优化***
CN106569745B (zh) * 2016-10-25 2019-07-19 暨南大学 一种内存过载下面向重复数据删除的内存优化***
CN106844480A (zh) * 2016-12-23 2017-06-13 航天星图科技(北京)有限公司 一种清洗比对入库方法
CN106844480B (zh) * 2016-12-23 2019-03-15 中科星图股份有限公司 一种清洗比对入库方法
CN109558066A (zh) * 2017-09-26 2019-04-02 华为技术有限公司 存储***中恢复元数据的方法和装置
CN108762679B (zh) * 2018-05-30 2021-06-29 郑州云海信息技术有限公司 一种在线ddp与离线ddp相结合的方法及其相关装置
CN108762679A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种在线ddp与离线ddp相结合的方法及其相关装置
CN108874315A (zh) * 2018-06-01 2018-11-23 暨南大学 一种在线数据去重文件***数据访问性能优化方法
CN110083309A (zh) * 2019-04-11 2019-08-02 重庆大学 共享数据块处理方法、***及可读存储介质
CN110457163A (zh) * 2019-07-05 2019-11-15 苏州元核云技术有限公司 一种分布式块存储的数据恢复方法、装置及存储介质
CN110457163B (zh) * 2019-07-05 2022-05-03 苏州元核云技术有限公司 一种分布式块存储的数据恢复方法、装置及存储介质
CN111338581A (zh) * 2020-03-27 2020-06-26 尹兵 基于云计算的数据存储方法、装置、云服务器及***
WO2022193447A1 (zh) * 2021-03-17 2022-09-22 网宿科技股份有限公司 数据报文去重与传输方法、电子设备及存储介质
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警***及方法
CN113434751B (zh) * 2021-07-14 2023-06-02 国际关系学院 一种网络热点人工智能预警***及方法
WO2023000915A1 (en) * 2021-07-21 2023-01-26 Huawei Technologies Co., Ltd. Method and apparatus for replicating a target file between devices
CN117055805A (zh) * 2023-07-05 2023-11-14 中国人民解放军国防科技大学 基于分布式存储的kv删除优化方法、***、设备及介质

Also Published As

Publication number Publication date
CN103955530B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN103955530B (zh) 一种在线重复数据删除***的数据重建优化方法
CN106662981B (zh) 存储设备、程序和信息处理方法
US8631052B1 (en) Efficient content meta-data collection and trace generation from deduplicated storage
US11093466B2 (en) Incremental out-of-place updates for index structures
Shilane et al. Wan-optimized replication of backup datasets using stream-informed delta compression
CN101676855B (zh) 可变动的辅助存储***和方法
CN103116661B (zh) 一种数据库的数据处理方法
Ng et al. Revdedup: A reverse deduplication storage system optimized for reads to latest backups
US8667032B1 (en) Efficient content meta-data collection and trace generation from deduplicated storage
CN103562914B (zh) 节约资源型扩展文件***
Xia et al. Similarity and locality based indexing for high performance data deduplication
CN101777017B (zh) 一种连续数据保护***的快速恢复方法
Xia et al. DARE: A deduplication-aware resemblance detection and elimination scheme for data reduction with low overheads
Liu et al. ADMAD: Application-driven metadata aware de-duplication archival storage system
CN106649676B (zh) 一种基于hdfs存储文件的去重方法及装置
CN103098035A (zh) 存储***
CN105069048A (zh) 一种小文件存储方法、查询方法和装置
Strzelczak et al. Concurrent Deletion in a Distributed {Content-Addressable} Storage System with Global Deduplication
US11422721B2 (en) Data storage scheme switching in a distributed data storage system
CN106874399B (zh) 一种联网备份***及备份方法
Zhang et al. Improving restore performance for in-line backup system combining deduplication and delta compression
CN105493080B (zh) 基于上下文感知的重复数据删除的方法和装置
CN104050057B (zh) 一种历史感知的数据去重碎片消除方法与***
Tan et al. Improving restore performance in deduplication-based backup systems via a fine-grained defragmentation approach
Kumar et al. Bucket based data deduplication technique for big data storage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201211

Address after: 510632 No. 601, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou

Patentee after: Guangzhou Jinan University Science Park Management Co.,Ltd.

Address before: 510632 No. 601, Whampoa Avenue, Guangzhou, Guangdong

Patentee before: Jinan University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210125

Address after: 241, 2nd floor, No.35, Huajing Road, Huajing new town, 105 Zhongshan Avenue, Tianhe District, Guangzhou, Guangdong 510000

Patentee after: Guangdong, Hong Kong and Macao QingChuang Technology (Guangzhou) Co.,Ltd.

Patentee after: Guangzhou Jinan University Science Park Management Co.,Ltd.

Address before: 510632 No. 601, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou

Patentee before: Guangzhou Jinan University Science Park Management Co.,Ltd.