CN103873506A - 存储集群中的数据块去重***及方法 - Google Patents

存储集群中的数据块去重***及方法 Download PDF

Info

Publication number
CN103873506A
CN103873506A CN201210534073.XA CN201210534073A CN103873506A CN 103873506 A CN103873506 A CN 103873506A CN 201210534073 A CN201210534073 A CN 201210534073A CN 103873506 A CN103873506 A CN 103873506A
Authority
CN
China
Prior art keywords
data block
server
file
storage
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210534073.XA
Other languages
English (en)
Inventor
柴智权
李大鹏
林海洪
李忠一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN201210534073.XA priority Critical patent/CN103873506A/zh
Priority to TW101148552A priority patent/TWI477981B/zh
Priority to US14/065,490 priority patent/US9552161B2/en
Publication of CN103873506A publication Critical patent/CN103873506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种存储集群中的数据块去重方法,包括:监视存储集群中各服务器内每个存储区的存储容量;当有服务器中存储区的存储容量达到预设去重值时,获取该服务器的哈希数据库中的所有记录,并通知存储集群中其他服务器上传其哈希数据库的记录;确定哈希数据库间所有相同的哈希值,并由此确定重复数据块;根据重复数据块的存储指针找出剩余空间最大的存储区,将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器;及删除包含该重复数据块的其他存储区中的该重复数据块。本发明还提供一种存储集群中的数据块去重***。利用本发明可有效地节省服务器的存储空间。

Description

存储集群中的数据块去重***及方法
技术领域
本发明涉及一种云端技术,尤其涉及一种通过云端技术去除存储集群中的重复数据块的***及方法。
背景技术
在分布式云存储中,一台服务器可能会有多个存储区。当其中某台服务器的存储区中存储了一个文件的某个数据块,而该服务器的其他存储区或存储集群中的另一台服务器的存储区中也存储了该数据块时,会导致相同数据块被重复存储,存储空间被过多浪费。
发明内容
鉴于以上内容,有必要提供一种存储集群中的数据块去重***,能够合理分配数据块的存储区。
还有必要提供两种存储集群中的数据块去重方法,能够合理分配数据块的存储区。
第一种,所述存储集群中的数据块去重***,应用于一台电子设备中,该电子设备通过网络连接一个存储集群中的多台服务器,该方法包括:监视步骤,监视存储集群中各服务器内每个存储区的存储容量;获取步骤,当有服务器中存储区的存储容量达到预设去重值时,获取该服务器的哈希数据库中的所有记录,并通知存储集群中其他服务器上传其哈希数据库的记录;分析步骤一,确定哈希数据库间所有相同的哈希值,并由此确定重复数据块;分析步骤二,根据重复数据块的存储指针找出剩余空间最大的存储区,将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器;及去重步骤,删除包含该重复数据块的其他存储区中的该重复数据块。
第二种,所述存储集群中的数据块去重方法,应用于一台电子设备中,该电子设备通过网络连接一个存储集群中的多台服务器,该方法包括:监视步骤,监视存储集群中各服务器内每个存储区的存储容量;获取步骤,当有服务器中存储区的存储容量达到预设去重值时,获取该服务器的哈希数据库中的所有记录,并通知存储集群中其他服务器上传其哈希数据库的记录;分析步骤一,确定哈希数据库间所有相同的哈希值,并由此确定重复数据块;分析步骤二,根据重复数据块的存储指针找出剩余空间最大的存储区,将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器;及去重步骤,删除包含该重复数据块的其他存储区中的该重复数据块。
所述存储集群中的数据块去重方法,应用于一台电子设备中,该电子设备通过网络连接一个存储集群中的多台服务器,该方法包括:在各哈希数据库中写入一个触发事件,当哈希数据库的记录总数达到该触发事件中设置的数量时,触发该哈希数据库将所有记录上传至所述电子设备中;所述电子设备通知存储集群中的其他服务器上传其哈希数据库的记录,确定哈希数据库间所有相同的哈希值,并由此确定重复数据块;所述电子设备根据重复数据块的存储指针找出剩余空间最大的存储区,将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器,及删除包含该重复数据块的其他存储区中的该重复数据块。
相较于现有技术,所述存储集群中的数据块去重***及方法,能够快速地查找出存储集群中的重复数据块,删除重复数据块,保留一份该重复数据块,并合理分配所保留的重复数据块的存储区。
附图说明
图1是本发明存储集群中的数据块去重***较佳实施例的运行环境示意图。
图2是图1中数据库分析器的主要组成示意图。
图3是本发明存储集群中的数据块去重方法较佳实施例的作业流程图。
图4以示意图的形式举例说明本发明的去重方法。
图5是本发明用户于客户端下载存储服务器中文件的作业流程图。
主要元件符号说明
数据库分析器 1
服务器 3
哈希数据库 30
存储设备 10
处理设备 12
存储集群中的数据块去重*** 100
监视模块 1000
获取模块 1002
分析模块 1004
去重模块 1006
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
如图1所示,是本发明存储集群中的数据块去重***较佳实施例的运行环境示意图。该存储集群中的数据块去重***100运行于一个数据库分析器1中,该数据库分析器1通过网络连接一个存储集群。该存储集群是一个分布式的服务器集群,其中有多台服务器3。所述数据库分析器1可以为计算机、手机、掌上电脑等能安装软件的电子设备。
本实施例中,一台或多台服务器3共用一个哈希数据库30。例如,A服务器3、B服务器3和C服务器3共用一个M哈希数据库30,A服务器3、B服务器3和C服务器3中的文件信息均存储在M哈希数据库30中。D服务器3单独用一个N哈希数据库30,D服务器3中的文件信息存储在该N哈希数据库30中。其中,所述哈希数据库30可以为内置于某个服务器3中的数据库,也可以为外置的数据库。例如,哈希数据库30内置于A服务器3,并被A服务器3、B服务器3和C服务器3共用。
所述文件信息包括文件的名称和文件的属性。每个文件对应一个哈希列表,及每个文件对应一个哈希值。为了节省存储空间、避免重复存储,本实施例中的文件由数据块组成。哈希列表中记录了文件多个数据块的名称、各数据块的哈希值及数据块的分割顺序。本实施例中,所述数据块的名称可依据数据块的哈希值来命名。
另外,所述存储集群中的存储器3还可以通过网络连接一个或多个客户端(图中未示出)。
如图2所示,是图1中数据库分析器1的主要组成示意图。该数据库分析器1主要包括存储设备10和至少一台处理设备12。
所述存储设备10用于存储所述存储集群中的数据块去重***100的计算机程序化代码。该存储设备10可以为数据库分析器1内置的存储器,也可以为数据库分析器1外接的存储器。
处理设备12用于执行所述存储集群中的数据块去重***100的计算机程序代码,实现存储集群中的数据块去重。此处,去重指的是去掉重复的数据块,保留一份该数据块,以避免重复存储,占用存储空间。
所述存储集群中的数据块去重***100包括监视模块1000、获取模块1002、分析模块1004和去重模块1006。本发明所称的模块是完成一特定功能的计算机程序段,比程序更适合于描述软件在计算机中的执行过程,因此在本发明以下对软件描述都以模块描述。
所述监视模块1000用于监视存储集群中各服务器3内每个存储区的存储容量。本实施例中,每个服务器3的存储空间可以被分成一个或多个存储区。
当有服务器3中存储区的存储容量达到预设去重值时,例如A服务器3中存储区A的存储容量达到所述预设去重值时,所述获取模块1002用于获取该服务器3(如A服务器3)的哈希数据库30中的所有记录,并通知存储集群中其他服务器3上传其哈希数据库30的记录。该记录包括哈希数据库30中所有哈希列表中的内容。
在此需要说明的是,由于存在多个服务器3共用一个哈希数据库30的情况,因此,当获取模块1002获取了某个哈希数据库30(如A服务器3、B服务器3和C服务器3共用一个M哈希数据库30)中的所有记录时,所通知的服务器3中不包括共用该哈希数据库30的服务器。例如,A服务器3、B服务器3和C服务器3共用M哈希数据库30,该M哈希数据库30为内置于A服务器3的数据库,当获取模块1002获取了该M哈希数据库30中的所有记录后,会通知所述存储集群中除了该A服务器3、B服务器3和C服务器3之外的所有服务器3,内置了哈希数据库30的服务器3会将其哈希数据库30中的所有记录上传至数据库分析器1,获取模块1002接收所上传的记录。
所述分析模块1004用于确定哈希数据库30间所有相同的哈希值,并由此确定重复数据块。需要说明的是,重复数据块实质为内容相同的数据块,相同的哈希值也有可能存在同一个哈希数据库30中。
例如,所述分析模块1004经比较确定M哈希数据库30中有相同的哈希值,且M哈希数据库30中还有哈希值与N哈希数据库30中的哈希值相同,则确定M哈希数据库30对应的服务器3中存储了重复数据块,且M哈希数据库30对应的服务器3和N哈希数据库30对应的服务器3中有重复数据块被存储。例如,分析模块1004确定M哈希数据库30对应的A服务器3中存储了相同的数据块,N哈希数据库30对应的D服务器3中也存储了与A服务器3所存储的数据块相同的数据块。如图4所示,A服务器3的存储区A和存储区B中有重复数据块b,D服务器3的存储区N与A服务器3的存储区A有重复数据块a和c。
所述分析模块1004还用于根据重复数据块的存储指针找出剩余空间最大的存储区,并将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器3。
具体地,所述分析模块1004找出存储了重复数据块的存储区中谁的剩余空间最大,并将该剩余空间最大的存储区的编号、该存储区所在的服务器3等信息发送给其他包含该重复数据块的服务器3。
如图4所示,存储区A和存储区B中有重复数据块b,存储区B的剩余空间比存储区A的剩余空间大,因此,分析模块1004将数据块b于存储区B的存储指针发送给存储区A所在的服务器3。存储区A与存储区N有重复数据块a和c,存储区N的剩余空间比存储区A的剩余空间大,因此,分析模块1004将数据块a和c于D服务器存储区N的存储指针发送给存储区A所在的服务器3。
去重模块1006用于利用上述发送的存储指针更新该重复数据块于各哈希数据库30中的记录,并删除包含该重复数据块的其他存储区中的该重复数据块,即保留剩余空间最大的存储区中所存储的该重复数据块。例如,去重模块1006将数据块a和c的存储指针(如该存储指针为“数据块a和c存于D服务器的存储区N中)更新至A服务器存储区A对应的M哈希数据库30中,及将数据块b的存储指针(如该存储指针为“数据块b存于A服务器的存储区B中)更新至A服务器存储区B对应的M哈希数据库30中。去重模块1006删除图4中A服务器存储区A内的数据块a、b和c。
如图3所示,是本发明存储集群中的数据块去重方法较佳实施例的作业流程图。
步骤S100,监视模块1000监视存储集群中各服务器3内每个存储区的存储容量,并于步骤S102中判断是否有存储区达到预设去重值。
当判断结果为没有存储区的存储容量达到预设去重值时,流程返回至步骤S100。
当有存储区的存储容量达到预设去重值时,例如A服务器3中存储区A的存储容量达到所述预设去重值时,步骤S104,获取模块1002获取该服务器3(如A服务器3)的哈希数据库30中的所有记录,并通知存储集群中其他服务器3上传其哈希数据库30的记录。该记录包括哈希数据库30中所有哈希列表中的内容。
步骤S106,分析模块1004确定哈希数据库30间所有相同的哈希值,并由此确定重复数据块。需要说明的是,重复数据块实质为内容相同的数据块,相同的哈希值也有可能存在同一个哈希数据库30中。
步骤S108,所述分析模块1004根据重复数据块的存储指针找出剩余空间最大的存储区,并将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器3。
在其他实施例中,还可以在各哈希数据库30中写入一个触发事件来触发哈希数据库30上传记录至数据库分析器1。具体地,当某个哈希数据库30中的记录总数达到触发事件中设置的数量时,触发该哈希数据库30将所有记录上传至所述数据库分析器1中,同时,所述数据库分析器1通知存储集群中的其他服务器3上传其哈希数据库30中的记录。
如图4所示,存储区A和存储区B中有重复数据块b,存储区B的剩余空间比存储区A的剩余空间大,因此,分析模块1004将数据块b于存储区B的存储指针发送给存储区A所在的服务器3。
步骤S110,去重模块1006利用上述发送的存储指针更新该重复数据块于各哈希数据库30中的记录,并删除包含该重复数据块的其他存储区中的该重复数据块,即保留剩余空间最大的存储区中所存储的该重复数据块。例如,去重模块1006将数据块b的存储指针(如该存储指针为“数据块b存于A服务器的存储区B中”)更新至存储区B对应的M哈希数据库30中,并删除图4中存储区A内的数据块b。
如图5所示,是本发明用户于客户端下载服务器3中文件的作业流程图。
步骤S200,客户端根据要下载的文件的存储指针从对应的服务器3中获取文件各数据块的哈希值与存储指针。具体地,每个文件都有一个存储指针,该存储指针由文件多个数据块的存储指针组成。文件各数据块的哈希值是从服务器3的哈希数据库30中获取。
步骤S202,根据该文件各数据块的存储指针从相应的存储区下载数据块。
步骤S204,校验各数据块的哈希值与从哈希数据库30的哈希列表中获取的相应数据块的哈希值是否相同。
当校验结果为不同时,流程返回至步骤S200,重新获取哈希值及重新下载数据块。
当校验结果为相同时,步骤S206,客户端将通过校验的数据块写入临时存储区中,按照所述数据块的分割顺序将上述通过校验的数据块进行排序组合,生成文件。
步骤S208,校验组合后文件的哈希值与上传到服务器3之前文件的哈希值是否相同。
当校验结果为相同时,于步骤S210,将通过校验的文件返回给客户端的用户。当校验结果为不同时,流程返回至步骤S200。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种存储集群中的数据块去重方法,应用于一台电子设备中,该电子设备通过网络连接一个存储集群中的多台服务器,其特征在于,该方法包括:
监视步骤,监视存储集群中各服务器内每个存储区的存储容量;
获取步骤,当有服务器中存储区的存储容量达到预设去重值时,获取该服务器的哈希数据库中的所有记录,并通知存储集群中其他服务器上传其哈希数据库的记录;
分析步骤一,确定哈希数据库间所有相同的哈希值,并由此确定重复数据块;
分析步骤二,根据重复数据块的存储指针找出剩余空间最大的存储区,将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器;及
去重步骤,删除包含该重复数据块的其他存储区中的该重复数据块。
2.如权利要求1所述的存储集群中的数据块去重方法,其特征在于,所述去重步骤还包括:
利用所发送的存储指针更新该重复数据块于各哈希数据库中的记录。
3.如权利要求1所述的存储集群中的数据块去重方法,其特征在于,所述存储集群中的多台服务器通过网络连接一个或多个客户端,当用户需要通过客户端从服务器下载文件时,所述客户端执行以下步骤:
根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值;
根据各数据块的存储指针从相应的存储区下载各数据块;
校验各数据块的哈希值与从哈希数据库中获取的相应数据块的哈希值是否相同;
当校验结果为不相同时,返回上述根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值的步骤,当校验结果为相同时,将通过校验的数据块写入临时存储区中;
按照所述数据块的分割顺序将上述通过校验的数据块进行排序组合,生成文件;及
校验组合后文件的哈希值与上传到服务器之前文件的哈希值是否相同,当校验结果为相同时,将通过校验的文件返回给客户端的用户,当校验结果为不相同时,返回上述根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值的步骤。
4.一种存储集群中的数据块去重***,运行于一台电子设备中,该电子设备通过网络连接一个存储集群中的多台服务器,其特征在于,该***包括:
监视模块,用于监视存储集群中各服务器内每个存储区的存储容量;
获取模块,用于当有服务器中存储区的存储容量达到预设去重值时,获取该服务器的哈希数据库中的所有记录,并通知存储集群中其他服务器上传其哈希数据库的记录;
分析模块,用于确定哈希数据库间所有相同的哈希值,并由此确定重复数据块,根据重复数据块的存储指针找出剩余空间最大的存储区,将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器;及
去重模块,用于删除包含该重复数据块的其他存储区中的该重复数据块。
5.如权利要求4所述的存储集群中的数据块去重***,其特征在于,所述去重模块还用于:
利用所发送的存储指针更新该重复数据块于各哈希数据库中的记录。
6.如权利要求4所述的存储集群中的数据块去重***,其特征在于,所述存储集群中的多台服务器通过网络连接一个或多个客户端,当用户需要通过客户端从服务器下载文件时,所述客户端用于:
根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值;
根据各数据块的存储指针从相应的存储区下载各数据块;
校验各数据块的哈希值与从哈希数据库中获取的相应数据块的哈希值是否相同;
当校验结果为不相同时,返回上述根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值的步骤,当校验结果为相同时,将通过校验的数据块写入临时存储区中;
按照所述数据块的分割顺序将上述通过校验的数据块进行排序组合,生成文件;及
校验组合后文件的哈希值与客户端上传的文件的哈希值是否相同,当校验结果为相同时,将通过校验的文件返回给客户端的用户,当校验结果为不相同时,返回上述根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值的步骤。
7.一种存储集群中的数据块去重方法,应用于一台电子设备中,该电子设备通过网络连接一个存储集群中的多台服务器,其特征在于,该方法包括:
在各服务器的哈希数据库中写入一个触发事件,当哈希数据库的记录总数达到该触发事件中设置的数量时,触发该哈希数据库将所有记录上传至所述电子设备中;
所述电子设备通知存储集群中的其他服务器上传其哈希数据库的记录,确定哈希数据库间所有相同的哈希值,并由此确定重复数据块;
所述电子设备根据重复数据块的存储指针找出剩余空间最大的存储区,将重复数据块在该存储区内的存储指针发送给包含该重复数据块的其他存储区所在的服务器,及删除包含该重复数据块的其他存储区中的该重复数据块。
8.如权利要求7所述的存储集群中的数据块去重方法,其特征在于,该方法还包括:
利用所发送的存储指针更新该重复数据块于各哈希数据库中的记录。
9.如权利要求7所述的存储集群中的数据块去重方法,其特征在于,所述存储集群中的多台服务器通过网络连接一个或多个客户端,当用户需要通过客户端从服务器下载文件时,所述客户端执行以下步骤:
根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值;
根据各数据块的存储指针从相应的存储区下载各数据块;
校验各数据块的哈希值与从哈希数据库中获取的相应数据块的哈希值是否相同;
当校验结果为相同时,将通过校验的数据块写入临时存储区中;
按照所述数据块的分割顺序将上述通过校验的数据块进行排序组合,生成文件;及
校验组合后文件的哈希值与上传到服务器之前文件的哈希值是否相同,当校验结果为相同时,将通过校验的文件返回给客户端的用户。
10.如权利要求9所述的存储集群中的数据块去重方法,其特征在于,在用户通过客户端从服务器下载文件过程中,数据块的哈希值校验结果为不相同,或者文件的哈希值校验结果为不相同时,返回上述根据文件的存储指针从对应的服务器中获取文件各数据块的哈希值的步骤。
CN201210534073.XA 2012-12-12 2012-12-12 存储集群中的数据块去重***及方法 Pending CN103873506A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210534073.XA CN103873506A (zh) 2012-12-12 2012-12-12 存储集群中的数据块去重***及方法
TW101148552A TWI477981B (zh) 2012-12-12 2012-12-20 儲存集群中的資料塊去重系統及方法
US14/065,490 US9552161B2 (en) 2012-12-12 2013-10-29 Repetitive data block deleting system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210534073.XA CN103873506A (zh) 2012-12-12 2012-12-12 存储集群中的数据块去重***及方法

Publications (1)

Publication Number Publication Date
CN103873506A true CN103873506A (zh) 2014-06-18

Family

ID=50882109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210534073.XA Pending CN103873506A (zh) 2012-12-12 2012-12-12 存储集群中的数据块去重***及方法

Country Status (3)

Country Link
US (1) US9552161B2 (zh)
CN (1) CN103873506A (zh)
TW (1) TWI477981B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储***中重复冗余数据的高效去重方法
CN106487937A (zh) * 2016-12-30 2017-03-08 郑州云海信息技术有限公司 一种云存储***文件去重方法及***
CN107402725A (zh) * 2017-03-20 2017-11-28 威盛电子股份有限公司 非易失性存储装置及其数据去重复方法
CN107870922A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 一种用于数据去重的方法、设备和***
CN108073521A (zh) * 2016-11-11 2018-05-25 深圳市创梦天地科技有限公司 一种数据去重的方法和***
CN108241639A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据去重方法
CN108427538A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
CN108563649A (zh) * 2017-12-12 2018-09-21 南京富士通南大软件技术有限公司 基于GlusterFS分布式文件***的离线去重方法
CN109257519A (zh) * 2017-07-12 2019-01-22 京瓷办公信息***株式会社 图像读取装置和图像读取方法
CN109828968A (zh) * 2019-02-19 2019-05-31 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN110191187A (zh) * 2019-06-04 2019-08-30 湖北五五互联科技有限公司 Cdn服务器数据管理方法、设备及计算机可读存储介质
CN112889021A (zh) * 2019-07-23 2021-06-01 华为技术有限公司 重复数据删除的设备、***和方法
CN112988684A (zh) * 2021-03-15 2021-06-18 浪潮云信息技术股份公司 一种基于哈希算法电子公文数据的提取和去重方法及***
CN114138756A (zh) * 2020-09-03 2022-03-04 金篆信科有限责任公司 数据去重方法、节点及计算机可读存储介质
CN114265551A (zh) * 2021-12-02 2022-04-01 阿里巴巴(中国)有限公司 存储集群中的数据处理方法、存储集群、存储节点及设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462106A (zh) * 2013-09-17 2015-03-25 鸿富锦精密工业(深圳)有限公司 数据更新方法及***
CN105955675B (zh) * 2016-06-22 2018-11-09 南京邮电大学 一种用于去中心云环境的重复数据删除***及方法
CN108280048B (zh) * 2017-01-05 2021-06-15 腾讯科技(深圳)有限公司 信息处理方法和装置
CN107817950B (zh) * 2017-10-31 2021-07-23 新华三技术有限公司 一种数据处理方法及装置
US11025600B1 (en) * 2017-11-08 2021-06-01 Massachusetts Institute Of Technology System for de-duplicating network coded distributed storage and related techniques
CN108009025A (zh) * 2017-12-13 2018-05-08 北京小米移动软件有限公司 数据存储方法及装置
WO2020223103A1 (en) * 2019-04-30 2020-11-05 Clumio, Inc. Deduplication in a cloud-based data protection service

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005141A1 (en) * 2006-06-29 2008-01-03 Ling Zheng System and method for retrieving and using block fingerprints for data deduplication
CN102385554A (zh) * 2011-10-28 2012-03-21 华中科技大学 重复数据删除***的优化方法
CN102591909A (zh) * 2011-01-14 2012-07-18 赛门铁克公司 在去重复存储***中提供增强的可扩展性的***及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189781A (ja) * 2000-12-20 2002-07-05 Ricoh Co Ltd 物流業務管理方法、物流業務管理システム及び記録媒体
TW200614017A (en) * 2004-10-26 2006-05-01 Via Tech Inc Instantaneous integrated system and method of heterogeneous databases
CN100547555C (zh) * 2007-12-10 2009-10-07 华中科技大学 一种基于指纹的数据备份***
US20100332401A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud storage environment, including automatically selecting among multiple cloud storage sites
CN101917396B (zh) * 2010-06-25 2013-06-19 清华大学 一种网络文件***中数据的实时去重和传输方法
US8930648B1 (en) * 2012-05-23 2015-01-06 Netapp, Inc. Distributed deduplication using global chunk data structure and epochs
US9251186B2 (en) * 2012-06-13 2016-02-02 Commvault Systems, Inc. Backup using a client-side signature repository in a networked storage system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005141A1 (en) * 2006-06-29 2008-01-03 Ling Zheng System and method for retrieving and using block fingerprints for data deduplication
CN102591909A (zh) * 2011-01-14 2012-07-18 赛门铁克公司 在去重复存储***中提供增强的可扩展性的***及方法
CN102385554A (zh) * 2011-10-28 2012-03-21 华中科技大学 重复数据删除***的优化方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储***中重复冗余数据的高效去重方法
CN105487818B (zh) * 2015-11-27 2018-11-09 清华大学 针对云存储***中重复冗余数据的高效去重方法
CN107870922A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 一种用于数据去重的方法、设备和***
CN107870922B (zh) * 2016-09-23 2022-02-22 伊姆西Ip控股有限责任公司 一种用于数据去重的方法、设备和***
CN108073521B (zh) * 2016-11-11 2021-10-08 深圳市创梦天地科技有限公司 一种数据去重的方法和***
CN108073521A (zh) * 2016-11-11 2018-05-25 深圳市创梦天地科技有限公司 一种数据去重的方法和***
CN108241639A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据去重方法
CN108241639B (zh) * 2016-12-23 2019-07-23 中科星图股份有限公司 一种数据去重方法
CN106487937A (zh) * 2016-12-30 2017-03-08 郑州云海信息技术有限公司 一种云存储***文件去重方法及***
CN107402725A (zh) * 2017-03-20 2017-11-28 威盛电子股份有限公司 非易失性存储装置及其数据去重复方法
CN107402725B (zh) * 2017-03-20 2020-08-25 威盛电子股份有限公司 非易失性存储装置及其数据去重复方法
CN109257519A (zh) * 2017-07-12 2019-01-22 京瓷办公信息***株式会社 图像读取装置和图像读取方法
CN109257519B (zh) * 2017-07-12 2019-12-31 京瓷办公信息***株式会社 图像读取装置和图像读取方法
CN108563649A (zh) * 2017-12-12 2018-09-21 南京富士通南大软件技术有限公司 基于GlusterFS分布式文件***的离线去重方法
CN108563649B (zh) * 2017-12-12 2021-12-07 南京富士通南大软件技术有限公司 基于GlusterFS分布式文件***的离线去重方法
CN108427538A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
CN109828968B (zh) * 2019-02-19 2021-12-21 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN109828968A (zh) * 2019-02-19 2019-05-31 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN110191187A (zh) * 2019-06-04 2019-08-30 湖北五五互联科技有限公司 Cdn服务器数据管理方法、设备及计算机可读存储介质
CN112889021A (zh) * 2019-07-23 2021-06-01 华为技术有限公司 重复数据删除的设备、***和方法
CN112889021B (zh) * 2019-07-23 2023-11-28 华为技术有限公司 重复数据删除的设备、***和方法
CN114138756A (zh) * 2020-09-03 2022-03-04 金篆信科有限责任公司 数据去重方法、节点及计算机可读存储介质
CN114138756B (zh) * 2020-09-03 2023-03-24 金篆信科有限责任公司 数据去重方法、节点及计算机可读存储介质
CN112988684A (zh) * 2021-03-15 2021-06-18 浪潮云信息技术股份公司 一种基于哈希算法电子公文数据的提取和去重方法及***
CN114265551A (zh) * 2021-12-02 2022-04-01 阿里巴巴(中国)有限公司 存储集群中的数据处理方法、存储集群、存储节点及设备
CN114265551B (zh) * 2021-12-02 2023-10-20 阿里巴巴(中国)有限公司 存储集群中的数据处理方法、存储集群、存储节点及设备

Also Published As

Publication number Publication date
US20140164339A1 (en) 2014-06-12
TW201423424A (zh) 2014-06-16
TWI477981B (zh) 2015-03-21
US9552161B2 (en) 2017-01-24

Similar Documents

Publication Publication Date Title
CN103873506A (zh) 存储集群中的数据块去重***及方法
CN103873503A (zh) 数据块备份***及方法
CN103873504A (zh) 数据分块存储至分布式服务器的***及方法
JP6419319B2 (ja) 共有フォルダ及び共有ファイルの同期
CN103873438A (zh) 压缩包上传去重***及方法
CN107508718B (zh) 日志采集***、日志采集单元以及日志采集方法
US9600389B2 (en) Generating performance and capacity statistics
CN103226593A (zh) 一种文件***的管理方法及其文件存储终端
CN112506870B (zh) 数据仓库增量更新方法、装置及计算机设备
WO2013090365A1 (en) System and method for monitoring and managing data center resources in real time incorporating manageability subsystem
CN111708743A (zh) 文件存储管理方法、文件管理客户端及文件存储管理***
CN109597574B (zh) 分布式数据存储方法、服务器及可读存储介质
CN105893542A (zh) 一种云存储***中的冷数据文件重分布方法及***
CN103823807A (zh) 一种去除重复数据的方法、装置及***
JP2018511861A (ja) 分散データベースにおけるデータブロックを処理する方法およびデバイス
CN107330017A (zh) 一种基于主题实例的电力海量数据存储和查询统计分析方法及其***
CN112162912A (zh) 一种云资源监控方法及***
US20120323924A1 (en) Method and system for a multiple database repository
US9875249B1 (en) Reducing database fragmentation
CN100357943C (zh) 一种检查机群文件***中垃圾文件的方法
CN113055213B (zh) 告警信息管理方法、告警信息管理***及服务器
CN111240890A (zh) 数据处理方法、快照处理方法、装置及计算设备
CN102819570B (zh) 一种数据访问方法、装置及***
CN108197323A (zh) 应用于分布式***地图数据处理方法
CN115525603A (zh) 存储统计方法、装置、计算机可读存储介质与ai设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618

WD01 Invention patent application deemed withdrawn after publication