CN106293525A - 一种提高缓存使用效率的方法及*** - Google Patents

一种提高缓存使用效率的方法及*** Download PDF

Info

Publication number
CN106293525A
CN106293525A CN201610637529.3A CN201610637529A CN106293525A CN 106293525 A CN106293525 A CN 106293525A CN 201610637529 A CN201610637529 A CN 201610637529A CN 106293525 A CN106293525 A CN 106293525A
Authority
CN
China
Prior art keywords
block
fingerprint
data
container
temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610637529.3A
Other languages
English (en)
Other versions
CN106293525B (zh
Inventor
吴晨涛
过敏意
高鸿源
冯博
谭超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610637529.3A priority Critical patent/CN106293525B/zh
Publication of CN106293525A publication Critical patent/CN106293525A/zh
Application granted granted Critical
Publication of CN106293525B publication Critical patent/CN106293525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • G06F3/0676Magnetic disk device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提高缓存使用效率的方法及***,该方法包括:给定一个数值作为分块长度的大小;读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;计算获得每个数据块的指纹;检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,则增加其热度,而减小其他不相同的数据块的热度,通过本发明,能够用较少的内存尽可能多地节约磁盘空间,减少数据的冗余。

Description

一种提高缓存使用效率的方法及***
技术领域
本发明涉及一种提高缓存使用效率的方法及***,特别是涉及一种提高备份***中重复数据删除缓存使用效率的方法。
背景技术
重复数据删除是一种将重复数据仅存储一份、从而节约磁盘空间的技术。它的方法是在重复分块的索引和其在磁盘中实际位置之间创造一种映射,可以分为以下几类:
1.文件重删和块重删
对于每一个文件,我们使用某个哈希函数计算它的指纹(fingerprint)。当发生哈希冲突时,意味着存在相同的文件。这种方法易于实施,但缺点是重删率相对较低。当两个大文件之间只有一个比特不同时,这两个文件就会被认为是不相同的,从而存储两份,造成大量的空间浪费。
为了解决上述问题,块重删技术应运而生。它弱化了文件的概念,把一个数据块作为重删的基本单位。根据方法的不同,分块可以是定长也可以是变长。定长分块基本为几个KB,很容易处理和管理。但另一方面,如果在块的头部***或删除一个比特,后续所有的分块都会改变。利用Rabin Fingerprints的变长分块可以解决这个问题。在分块时,只有当遇到匹配的数据样式时才对分块进行截断。这样头部的改变就不会影响后续的分块。然而变长的分块由于在管理上有一定困难,实际情况中采用的并不多。
2.实时重删和后处理重删
实时重删需要处理器在遇到写入操作的时候就进行分块和计算指纹的操作,有一定的时间开销,对写入性能会产生一定影响。有时候我们可以借助外部装置来辅助计算,以适应诸如在固态硬盘这样的高速写入环境。
目前在备份***领域已经存在一些重删方法,包括Zhu的布隆过滤器(BloomFilter)方法、Extreme Binning和Sparse Indexing等,但是它们在重删效率和内存占用方面存在一些问题。布隆过滤器方法可以让之前排除没有出现过的分块,从而免去检查它们重复性的开销;但是如果重删率较高或分块较多时,布隆过滤器将很容易被通过,丧失其意义。Extreme Binning利用文件来组织容器,把文件头部的分块作为索引。但是如果文件的头部分块不同,文件将会被归为不同的容器,大大减少重删的效率。Sparse Indexing方法根据指纹结尾的余数来对指纹进行分组,并选取一些最可能被重删的容器到内存中进行重删操作。然而在容器重删效率低时,这些大量的容器会占用较高的内存。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种提高备份***中重复数据删除缓存使用效率的方法,其能够用较少的内存尽可能多地节约磁盘空间,减少数据的冗余。
为达上述及其它目的,本发明提出一种提高缓存使用效率的方法,包括如下步骤:
步骤一,给定一个数值作为分块长度的大小;
步骤二,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
步骤三,计算获得每个数据块的指纹;
步骤四,检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,则增加其热度,而减小其他不相同的数据块的热度。
进一步地,若数据块的指纹不符合指定的特征,把该数据块作为一般块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度。
进一步地,于步骤三中,使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹。
进一步地,于步骤四中,可根据指纹的余数确定被选中的分块,通过设定余数的大小,控制被选中的块比例。
进一步地,于步骤四中,选取一个取样参数N,检查每个数据块的指纹,当指纹的末尾N位皆为零时,把该数据块作为索引块。
进一步地,于步骤四中,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器。
进一步地,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块。
进一步地,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
为达到上述目的,本发明还提供一种提高缓存使用效率的***,包括:
分块模块,给定一个数值作为分块长度的大小,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
指纹计算模块,用于计算获得每个数据块的指纹;
判断模块,用于检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,若数据块的指纹不符合指定的特征,把该数据块作为一般块;
索引块重删模块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度;
一般块重删模块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度。
进一步地,该***还包括除冷模块,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
与现有技术相比,本发明一种提高缓存使用效率的方法及***利用数据块的指纹特征建立索引,并对冷数据块进行实时清理,通过局部性增加了重复数据删除率,去除了冷数据对内存的不必要占用,增加了搜索效率,通过线性构建索引块表和容器,提高了磁盘的I/O性能。
附图说明
图1为本发明一种提高缓存使用效率的方法的步骤流程图;
图2为一典型的实时块重复数据删除***的流程图;
图3为本发明具体实施例在进行重复数据删除时的流程图;
图4(a)为LRU算法示意图;
图4(b)为本发明具体例子的示意图;
图5为本发明一种提高缓存使用效率的***的***架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种提高缓存使用效率的方法的步骤流程图。如图1所示,本发明一种提高缓存使用效率的方法,用于提高备份***中重复数据删除缓存的使用效率,包括如下步骤:
步骤101,给定一个数值作为分块长度的大小,一般为几KB到几MB不等。
步骤102,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块。
步骤103,使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹。
步骤104,检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度。在本发明中,可根据指纹的余数确定被选中的分块,通过设定余数的大小,控制被选中的块比例。
较佳地,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器。
步骤105,若数据块的指纹不符合指定的特征,把该数据块作为一般块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度。
较佳地,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块。
取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
图2为一典型的实时块重复数据删除***的流程图,图3为本发明具体实施例在进行重复数据删除时的流程图。以下将配合图2及图3进一步说明本发明:
步骤S1,指纹分块:如同图2的「分块模块」所显示的,给定一个数值作为分块长度的大小,一般为几KB到几MB不等,且一般为2的幂次,比如4KB、64KB等。读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹;
步骤S2,判断零块:如同图3的「判零模块」所显示的,选取一个取样参数N,检查数据块的指纹,当指纹的末尾N位皆为零时,称该数据块为零块,把该数据块作为索引块;
步骤S3,重删索引块:如同图3的「零块表」所显示的,对于每一个索引块,检查内存中的零块表中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度;
进一步地,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器;
步骤S4,重删一般块:若数据块的指纹不符合后N为全为零的特征,把该数据块成为非零块,作为一般块处理。如同图3中的「容器」所显示的,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度;
步骤S5,去除冷块:若处理的数据块为索引块,且发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块;若处理的数据块是一般块,则在取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。如同图3中的「除冷模块」所显示的,先前容器中指纹为「0x764A」的数据块被发现重复,其热度由3变成11,增加了8(一个可变更的预先设定值);而指纹为「0x5B21」数据块原先热度为1,由于未被命中,其热度降为0,被标记为冷块,将不会在下次重删操作中被比较。
图4(a)为LRU算法示意图,图4(b)为本发明具体例子的示意图。图4(a)和图4(b)提供了一个例子,说明本发明利用指纹特征和传统LRU方法进行重删时的优越性。新数据块中的数值为数据块的指纹,这里选取取样参数为2,则指纹后两位为0时,该数据块为索引块。于是,图中指纹为0和4的块成为索引块。
当第(1)个数据块「4」作为索引块被读取时,它对应的容器被创建,将后续第(2)和第(3)个数据块「3」放入容器;
第(4)个数据块依然为「4」,和上一个索引块相同,于是容器不变,继续读取第(5)个数据块「2」,放入容器中;
第(6)个数据块「0」也为索引块,且不在零块表中出现,于是将其放入缓存,并新建一个其对应的容器,将原来的容器写回磁盘,而第(7)个数据块「1」将被放在「0」的容器中;
第(8)个数据块「4」为索引块,且在零块表中存在,则将「0」的容器写入,读入「4」的容器(已含有「2」和「3」);
第(9)和第(10)个数据块到来时,在容器中已经存在它们的重复块,从而原本未命中的缓存被命中了。
根据局部性原理,上述例子在实际应用中经常出现。
图5为本发明一种提高缓存使用效率的***的***架构图。如图5所示,本发明一种提高缓存使用效率的***,包括:分块模块501、指纹计算模块502、判断模块503、索引块重删模块504以及一般块重删模块505。
分块模块501,给定一个数值作为分块长度的大小,一般为几KB到几MB不等,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;指纹计算模块502,使用MD5哈希算法计算每个数据块的128位哈希值,作为该数据块的指纹;判断模块503,用于检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,若数据块的指纹不符合指定的特征,把该数据块作为一般块;索引块重删模块504,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度,较佳地,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器;一般块重删模块505,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度。
较佳地,本发明一种提高缓存使用效率的***还包括除冷模块,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
综上所述,本发明一种提高缓存使用效率的方法及***利用数据块的指纹特征建立索引,并对冷数据块进行实时清理,通过局部性增加了重复数据删除率,去除了冷数据对内存的不必要占用,增加了搜索效率,通过线性构建索引块表和容器,提高了磁盘的I/O性能。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种提高缓存使用效率的方法,包括如下步骤:
步骤一,给定一个数值作为分块长度的大小;
步骤二,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
步骤三,计算获得每个数据块的指纹;
步骤四,检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,则增加其热度,而减小其他不相同的数据块的热度。
2.如权利要求1所述的一种提高缓存使用效率的方法,其特征在于:若数据块的指纹不符合指定的特征,把该数据块作为一般块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度。
3.如权利要求2所述的一种提高缓存使用效率的方法,其特征在于:于步骤三中,使用MD5哈希算法计算数据块的128位哈希值,作为该数据块的指纹。
4.如权利要求3所述的一种提高缓存使用效率的方法,其特征在于:于步骤四中,可根据指纹的余数确定被选中的分块,通过设定余数的大小,控制被选中的块比例。
5.如权利要求4所述的一种提高缓存使用效率的方法,其特征在于:于步骤四中,选取一个取样参数N,检查每个数据块的指纹,当指纹的末尾N位皆为零时,把该数据块作为索引块。
6.如权利要求5所述的一种提高缓存使用效率的方法,其特征在于:于步骤四中,若该索引块和上一次读取到的索引块不同,且该索引块的容器已经含有内容,将原索引块的容器写回磁盘,把新的索引块的容器读入内存,若找不到新的索引块的容器,则为其创建一个新的容器。
7.如权利要求6所述的一种提高缓存使用效率的方法,其特征在于:若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块。
8.如权利要求7所述的一种提高缓存使用效率的方法,其特征在于:取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
9.一种提高缓存使用效率的***,包括:
分块模块,给定一个数值作为分块长度的大小,读取写入的数据流,每读到一个分块长度大小的数据,将其截断,做成一个数据块;
指纹计算模块,用于计算获得每个数据块的指纹;
判断模块,用于检查数据块的指纹,当指纹符合某一个指定的特征时,把该数据块作为索引块,若数据块的指纹不符合指定的特征,把该数据块作为一般块;
索引块重删模块,对于每一个索引块,检查内存中是否已经存在与其指纹完全相同的数据块,若不存在,将其指纹保存在内存中,赋予其初始热度,并建立一个其所属的容器,若已存在,增加其热度,而减小其他不相同的数据块的热度;
一般块重删模块,对于每一个一般块,检查目前在内存中的容器中的所有一般块,是否存在一个数据块与该一般块相同,若不存在,令该一般块取代一个原本存在于容器中且热度较低的数据块,或附加到容器尾部,并赋予其初始热度,若存在,增加那个相同的数据块的热度,而减小其他不相同的数据块的热度。
10.如权利要求9所述的一种提高缓存使用效率的***,其特征在于:该***还包括除冷模块,若发现存在索引块的热度低于阈值,将其标记为冷块,若冷索引块的数量高于阈值,清理内存中所有的冷索引块,取代或更新热度的操作完成后,若发现容器中存在热度低于阈值的一般块,将其标记为冷块,若冷一般块数量高于阈值,清理该容器中所有的冷一般块。
CN201610637529.3A 2016-08-05 2016-08-05 一种提高缓存使用效率的方法及*** Active CN106293525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610637529.3A CN106293525B (zh) 2016-08-05 2016-08-05 一种提高缓存使用效率的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610637529.3A CN106293525B (zh) 2016-08-05 2016-08-05 一种提高缓存使用效率的方法及***

Publications (2)

Publication Number Publication Date
CN106293525A true CN106293525A (zh) 2017-01-04
CN106293525B CN106293525B (zh) 2019-06-28

Family

ID=57665906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610637529.3A Active CN106293525B (zh) 2016-08-05 2016-08-05 一种提高缓存使用效率的方法及***

Country Status (1)

Country Link
CN (1) CN106293525B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
CN108664217A (zh) * 2018-04-04 2018-10-16 安徽大学 一种降低固态盘存储***写性能抖动的缓存方法及***
CN108984574A (zh) * 2017-06-05 2018-12-11 北京嘀嘀无限科技发展有限公司 数据处理方法及装置
CN109933279A (zh) * 2017-12-19 2019-06-25 中国科学院声学研究所 一种支持混合存储***的内容过滤方法
CN110413235A (zh) * 2019-07-26 2019-11-05 华中科技大学 一种面向ssd去重的数据分配方法及***
CN110944040A (zh) * 2019-10-31 2020-03-31 浙江工商大学 一种数据压缩过程中的编码方法
CN111090389A (zh) * 2019-10-31 2020-05-01 苏州浪潮智能科技有限公司 一种缓存空间的释放方法、设备以及存储介质
CN111629378A (zh) * 2020-06-05 2020-09-04 上海创蓝文化传播有限公司 一种基于布隆过滤器拦截风险短信的方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156753A (zh) * 2011-04-29 2011-08-17 中国人民解放军国防科学技术大学 面向固态硬盘文件***的数据页缓存方法
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN103473150A (zh) * 2013-08-28 2013-12-25 华中科技大学 一种用于数据去重***中的碎片重写方法
CN103502957A (zh) * 2012-12-28 2014-01-08 华为技术有限公司 数据处理方法及装置
CN103678158A (zh) * 2013-12-26 2014-03-26 中国科学院信息工程研究所 一种数据布局优化方法及***
CN104331525A (zh) * 2014-12-01 2015-02-04 国家计算机网络与信息安全管理中心 基于重复数据删除的共享方法
CN105069111A (zh) * 2015-08-10 2015-11-18 广东工业大学 云存储中基于相似性的数据块级数据去重方法
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储***中重复冗余数据的高效去重方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156753A (zh) * 2011-04-29 2011-08-17 中国人民解放军国防科学技术大学 面向固态硬盘文件***的数据页缓存方法
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN103502957A (zh) * 2012-12-28 2014-01-08 华为技术有限公司 数据处理方法及装置
US20140258625A1 (en) * 2012-12-28 2014-09-11 Huawei Technologies Co., Ltd. Data processing method and apparatus
CN103473150A (zh) * 2013-08-28 2013-12-25 华中科技大学 一种用于数据去重***中的碎片重写方法
CN103678158A (zh) * 2013-12-26 2014-03-26 中国科学院信息工程研究所 一种数据布局优化方法及***
CN104331525A (zh) * 2014-12-01 2015-02-04 国家计算机网络与信息安全管理中心 基于重复数据删除的共享方法
CN105069111A (zh) * 2015-08-10 2015-11-18 广东工业大学 云存储中基于相似性的数据块级数据去重方法
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储***中重复冗余数据的高效去重方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984574A (zh) * 2017-06-05 2018-12-11 北京嘀嘀无限科技发展有限公司 数据处理方法及装置
CN107391034B (zh) * 2017-07-07 2019-05-10 华中科技大学 一种基于局部性优化的重复数据检测方法
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
CN109933279B (zh) * 2017-12-19 2021-01-22 中国科学院声学研究所 一种支持混合存储***的内容过滤方法
CN109933279A (zh) * 2017-12-19 2019-06-25 中国科学院声学研究所 一种支持混合存储***的内容过滤方法
CN108664217A (zh) * 2018-04-04 2018-10-16 安徽大学 一种降低固态盘存储***写性能抖动的缓存方法及***
CN108664217B (zh) * 2018-04-04 2021-07-13 安徽大学 一种降低固态盘存储***写性能抖动的缓存方法及***
CN110413235A (zh) * 2019-07-26 2019-11-05 华中科技大学 一种面向ssd去重的数据分配方法及***
CN110413235B (zh) * 2019-07-26 2020-07-24 华中科技大学 一种面向ssd去重的数据分配方法及***
CN110944040A (zh) * 2019-10-31 2020-03-31 浙江工商大学 一种数据压缩过程中的编码方法
CN111090389B (zh) * 2019-10-31 2021-06-29 苏州浪潮智能科技有限公司 一种缓存空间的释放方法、设备以及存储介质
CN111090389A (zh) * 2019-10-31 2020-05-01 苏州浪潮智能科技有限公司 一种缓存空间的释放方法、设备以及存储介质
CN111629378A (zh) * 2020-06-05 2020-09-04 上海创蓝文化传播有限公司 一种基于布隆过滤器拦截风险短信的方法及装置

Also Published As

Publication number Publication date
CN106293525B (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN106293525A (zh) 一种提高缓存使用效率的方法及***
CN104978151B (zh) 基于应用感知的重复数据删除存储***中的数据重构方法
CN105630955B (zh) 一种高效动态的数据集合成员管理方法
CN103488709B (zh) 一种索引建立方法及***、检索方法及***
CN106201916B (zh) 一种面向ssd的非易失缓存方法
CN103514210B (zh) 小文件处理方法及装置
CN103324699B (zh) 一种适应大数据应用的快速重复数据删除方法
CN106227794B (zh) 时态图数据中动态属性数据的存储方法和装置
CN109445702B (zh) 一种块级数据去重存储***
CN107302561B (zh) 一种云存储***中热点数据副本放置方法
CN103140840B (zh) 数据管理的方法及装置
EP3316150B1 (en) Method and apparatus for file compaction in key-value storage system
CN107045531A (zh) 一种优化hdfs小文件存取的***及方法
CN105980992B (zh) 一种存储***、识别数据块稳定性的方法以及装置
CN103970875B (zh) 一种并行重复数据删除方法和***
CN103678158B (zh) 一种数据布局优化方法及***
CN104516677B (zh) 磁盘数据读写方法及磁盘存储装置
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
WO2016070529A1 (zh) 一种实现重复数据删除的方法及装置
CN106599040A (zh) 一种面向云存储的分层索引方法与检索方法
CN104750432B (zh) 一种数据存储方法及装置
CN107526550A (zh) 一种基于日志结构合并树的两阶段合并方法
CN106406759A (zh) 一种数据存储方法及装置
CN104951403B (zh) 一种低开销且无差错的冷热数据识别方法
CN105243027A (zh) 在存储设备中存储数据的方法和存储控制器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant