CN106611035A - 一种云存储中重复数据删除的检索算法 - Google Patents

一种云存储中重复数据删除的检索算法 Download PDF

Info

Publication number
CN106611035A
CN106611035A CN201610411080.9A CN201610411080A CN106611035A CN 106611035 A CN106611035 A CN 106611035A CN 201610411080 A CN201610411080 A CN 201610411080A CN 106611035 A CN106611035 A CN 106611035A
Authority
CN
China
Prior art keywords
file
data
cloud storage
similarity
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610411080.9A
Other languages
English (en)
Inventor
范勇
胡成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yonglian Information Technology Co Ltd
Original Assignee
Sichuan Yonglian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yonglian Information Technology Co Ltd filed Critical Sichuan Yonglian Information Technology Co Ltd
Priority to CN201610411080.9A priority Critical patent/CN106611035A/zh
Publication of CN106611035A publication Critical patent/CN106611035A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种云存储中重复数据删除的检索算法,要进行重复数据的删除,首先要检索出新写入文件在整个存储***中与哪一个文件相似,并且达到阈值;然后在对两个文件进行精确对比,舍弃重复的数据,只保留不同的数据和索引信息。采用抽样的方式,随机抽取一定量的文件指纹数据,考虑抽样方法与抽样数量,结合样本相似度构建文件重复率函数,通过重复率阈值设定,对冗余文件进行舍弃,从而达到重复文件删除,节省存入空间,方法具有计算速度快,删除率高的特性,比较适用于大数据和云存储环境中。

Description

一种云存储中重复数据删除的检索算法
技术领域
计算机存储、云存储中重复数据的删除及检索
背景技术
随着信息技术和网络技术的发展,大数据与海量数据已经成为数据中心的主要业务,而重复数据删除与压缩是可以节约大量数据存储的技术。只有备份还不够;重复数据删除与压缩即将成为主存储的必备功能。重复数据删除是一种压缩技术,通过识别重复内容,进行去重,并在对应的存储位置留下指针来最小化数据量;这个指针通过给定大小的数据模式进行哈希创建。目前只有少数主存储阵列提供重复数据删除作为产品的附加功能;对于租用云空间的用户来说,大量重复数据充斥在云空间内,不仅对检索造成麻烦,还浪费了宝贵的云资源,产生额外开销,据报道,只有不到5%的磁盘阵列真正支持在线重复数据删除与压缩,通过数据去重节约的空间十分可观。要进行重复数据的删除,首先要检索出新写入文件在整个存储***中与哪一个文件相似,从而输出相似度,已决定是否进行精细对比,这种做法对***的开销极大,同时随着存储空间内文件的增加,运算将越来越耗时,不利于大量文件的周转,而且,仅仅用相似度作为判断依据是有缺陷的,因为相似度还会受到抽样方法和抽样大小的影响。为解决这种需求,本发明提出一种云存储中重复数据删除的检索算法,解决了抽样对相似度的影响。
发明内容
针对重复数据在云空间中,对检索造成麻烦,还浪费了宝贵的云资源,产生额外开销以及为了解决抽样对相似度的影响,本发明提出了一种云存储中重复数据删除的检索算法。
本发明为了实现上述目的所采用的技术方案:对存储空间内的文件进行分块,并随机抽取部分数据块作为样本,对样本数据进行哈希,提取指纹特征,计算不同文件样本之间的相似度,相似度结合抽样大小,建立***文件之间重复率函数,通过重复率设定的阈值来判断文件之间的重复情况,选取对比文件,对其余文件冗余的数据块进行删除处理,建立索引并进行存储,在提取文件时候依据索引和对比文件,重构出数据。
本发明的有益效果:本发明对***开销较小,运行时间短,并且维持较高的重复删除率。更适用于大量数据存储和云存储环境下使用。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下是本发明技术方案的具体计算步骤过程:
步骤1.指纹数据值得是文件分块后,对每一个文件块哈希,对应的哈希值即为指纹。
步骤2.计算不同文件样本之间的相似度,其具体求解过程如下:
设在存储空间中有文件P将他们按照字长分为n个文件块,对每一个文件块进行哈希,输出哈希值的集合AP,AP=(aP1,aP2,…,aPn);同理,对于文件Q则有:AQ=(aQ1,aQ2,…,aQn)
如果:APi=aQi,表示两个文件块相同,那么在文件P/Q中,具有相同块的数量可以表示为:∑imin(APi,aQi)两个文件的总块数为:∑imax(APi,aQi),那么令r表示两个文件之间的相似度,则:
但是,如果这样去判定,在大数据环境和云存储环境下,明显是不可行的,因为计算量太大,引起的***开销大,而且耗时长。
所以在相似度的计算上,本发明采用抽样处理:在文件P哈希值的集合AP=(aP1,aP2,…,aPn),随机抽取u个样本放入集合U中UP=(aP1,aP2,…,aPu),1<u<n,对文件Q做同样处理,可以得到样本的相似度为:
步骤3.相似度结合抽样大小,建立***文件之间重复率函数,其具体求解过程如下:
由于抽样计算,***的运算时间和占用率都大为缩小,但是r并不能准确表示表示文件Q,P之间的相似性。由此,文件P在分为n个文件块,哈希后得到n个哈希值,也就是n个文件指纹,设m表示冗余块,k是从n个文件指纹中抽取出来的样品文件指纹数,当从文件块中抽取一定数目的哈希时,有概率(c)抽取到冗余块,那么抽取到冗余数据块的概率符合离散型随机变量分布规律,故抽取到冗余块的期望(E)为:
由此可得样本冗余度为t:
抽样样本相似度r:
在理想状态下,抽样数目最大可以等于文件总数,此时冗余度和相似度为
所以,而文件之间的重复率f(k,r),则有:
f(k,r)=E/m=(2k·r)/((r+1)·m)
在本发明方法中,是以文件为单位抽样的,分别从每个文件中抽取部分块的哈希指纹以实现相似度检测,在运行实际中,数据集中每个文件的大小不同,假设***中共有l个文件在对第j个文件进行抽样的时候则有:
fj(k,rj)=E/m=(2k·rj)/((rj+1)·mj)
所以,对于整个***则有:
其中,1≤j≤l
步骤4.通过重复率设定的阈值来判断文件之间的重复情况以及通过对比文件来重构数据,其具体描述过程如下:
***文件之间重复率函数计算的是写入文件与存储空间内的文件或者是存储空间内文件之间的重复率,重复率越大,则说明两个文件之间的冗余越多。
在初次运行程序时候,会在存储空间所有文件之间进行一次对比,设定一个重复率的阈值δ,0≤δ≤1,对于两两重复率值都大于δ的,则认为几个文件之间重复率大,需要进行删重处理,选取其中一个文件作为基准文件,然后对其他文件遍历所有指纹块,快速找出冗余块,重复的数据直接舍弃,只记录下索引信息。在首次运行时候,受文件的多少影响,首次运行时间花费大于后续写入文件。
后续写入新文件时候,只需要抽样查找新文件与***中文件的指纹信息,计算重复性,在与某个文件的f值大于δ时候停下,然后精确对比,舍弃新写入文件的冗余部分,只将索引信息和不同的信息块上传至云空间或者其他存储空间。
提取信息的时候,只需要根据索引文件和对比文件,快速恢复文件。

Claims (5)

1.一种云存储中重复数据删除的检索算法,该方法涉及计算机存储、云存储中
重复数据的删除及检索领域,其特征是,包括如下步骤,
步骤1.先对存储空间内的文件进行分块,并随机抽取部分数据块作为样本,对样本数据进行哈希,提取指纹特征
步骤2.计算不同文件样本之间的相似度
步骤3.相似度结合抽样大小,建立***文件之间重复率函数
步骤4. 根据阔值判定文件重复率以及通过文件对比来达到重构数据的目的。
2.根据权利要求1中所述的一种云存储中重复数据删除的检索算法,其特征是,所述的步骤1中提取指纹特征,指纹数据值是文件分块后,对每一个文件块哈希,对应的哈希值即为指纹。
3.根据权利要求1中所述的一种云存储中重复数据删除的检索算法,其特征是,
所述的步骤2中计算不同文件样本之间的相似度,其具体求解过程如下:
设在存储空间中有文件P将他们按照字长分为n个文件块,对每一个文件块进行哈希,输出哈希值的集合;同理,对于文件Q则有:如果:,表示两个文件块相同,那么在文件P/Q中,具有相同块的数量可以表示为:两个文件的总块数为:,那么令r表示两个文件之间的相似度,则:
但是,如果这样去判定,在大数据环境和云存储环境下,明显是不可行的,因为计算量太大,引起的***开销大,而且耗时长
所以在相似度的计算上,本发明采用抽样处理:在文件P哈希值的集合
,随机抽取u个样本放入集合U中
,1<u<n,对文件Q做同样处理,可以得到样本的相似度为:
4.根据权利要求1中所述的一种云存储中重复数据删除的检索算法,其特征是,
所述的步骤3中建立***文件之间重复率函数为:
其中,表示重复率,其值是第j个文件的样品相似度,m表示冗余块,k是从n个文件指纹中抽取出来的样品文件指纹数。
5.根据权利要求1中所述一种云存储中重复数据删除的检索算法,其特征是,所
述的步骤4中根据阔值判定文件重复率以及通过文件对比来达到重构数据的目的,其具体描述过程如下:
设定一个重复率的阈值,对于两两重复率值都大于的,选取其中一个文件作为基准文件,然后对其它文件遍历所有指纹块,快速找出冗余块,重复的数据直接舍弃,只记录下索引信息;后续写入新文件时候,抽样查找新文件与***中文件的指纹信息,计算重复率,在与某个文件的值大于时候停下,然后精确对比,舍弃新写入文件的冗余部分,只将索引信息和不同的信息块上传至云空间或者其他存储空间。
CN201610411080.9A 2016-06-12 2016-06-12 一种云存储中重复数据删除的检索算法 Pending CN106611035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610411080.9A CN106611035A (zh) 2016-06-12 2016-06-12 一种云存储中重复数据删除的检索算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610411080.9A CN106611035A (zh) 2016-06-12 2016-06-12 一种云存储中重复数据删除的检索算法

Publications (1)

Publication Number Publication Date
CN106611035A true CN106611035A (zh) 2017-05-03

Family

ID=58615045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610411080.9A Pending CN106611035A (zh) 2016-06-12 2016-06-12 一种云存储中重复数据删除的检索算法

Country Status (1)

Country Link
CN (1) CN106611035A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256003A (zh) * 2017-12-29 2018-07-06 天津南大通用数据技术股份有限公司 一种根据分析数据重复率提高union运算效率的方法
CN108280628A (zh) * 2018-02-01 2018-07-13 泰康保险集团股份有限公司 基于区块链技术的核赔方法、装置、介质及电子设备
CN109165202A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种多源异构大数据的预处理方法
CN110134547A (zh) * 2019-04-28 2019-08-16 平安科技(深圳)有限公司 一种基于中间件的重复数据删除方法和相关装置
CN111522502A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 数据去重方法、装置、电子设备及计算机可读存储介质
CN112181584A (zh) * 2019-07-02 2021-01-05 国际商业机器公司 优化用于容器仓库的镜像重构
CN112667144A (zh) * 2019-10-16 2021-04-16 北京白山耘科技有限公司 数据块构建及比较方法、装置、介质及设备
CN113064556A (zh) * 2021-04-29 2021-07-02 山东英信计算机技术有限公司 一种bios的数据存储方法、装置、设备及存储介质
WO2021226875A1 (en) * 2020-05-13 2021-11-18 Paypal, Inc. Customized data scanning in heterogeneous data storage environment
CN113672170A (zh) * 2021-07-23 2021-11-19 复旦大学附属肿瘤医院 一种冗余数据标记及去除方法
CN113849807A (zh) * 2021-08-18 2021-12-28 北京市大数据中心 基于私有云的数据安全开放沙箱
CN114138414A (zh) * 2021-12-02 2022-03-04 国汽大有时空科技(安庆)有限公司 一种容器镜像的增量压缩方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714123A (zh) * 2013-12-06 2014-04-09 西安工程大学 企业云存储分块对象重复数据删除和重组版本控制方法
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储***中重复冗余数据的高效去重方法
US9336260B2 (en) * 2013-10-16 2016-05-10 Netapp, Inc. Technique for global deduplication across datacenters with minimal coordination

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336260B2 (en) * 2013-10-16 2016-05-10 Netapp, Inc. Technique for global deduplication across datacenters with minimal coordination
CN103714123A (zh) * 2013-12-06 2014-04-09 西安工程大学 企业云存储分块对象重复数据删除和重组版本控制方法
CN105487818A (zh) * 2015-11-27 2016-04-13 清华大学 针对云存储***中重复冗余数据的高效去重方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨磊等: "云存储中一种基于文件相似度的抽样重删索引算法", 《小型微型计算机***》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256003A (zh) * 2017-12-29 2018-07-06 天津南大通用数据技术股份有限公司 一种根据分析数据重复率提高union运算效率的方法
CN108280628A (zh) * 2018-02-01 2018-07-13 泰康保险集团股份有限公司 基于区块链技术的核赔方法、装置、介质及电子设备
CN109165202A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种多源异构大数据的预处理方法
CN111522502B (zh) * 2019-02-01 2022-04-29 阿里巴巴集团控股有限公司 数据去重方法、装置、电子设备及计算机可读存储介质
CN111522502A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 数据去重方法、装置、电子设备及计算机可读存储介质
CN110134547A (zh) * 2019-04-28 2019-08-16 平安科技(深圳)有限公司 一种基于中间件的重复数据删除方法和相关装置
CN110134547B (zh) * 2019-04-28 2023-08-18 平安科技(深圳)有限公司 一种基于中间件的重复数据删除方法和相关装置
CN112181584A (zh) * 2019-07-02 2021-01-05 国际商业机器公司 优化用于容器仓库的镜像重构
CN112667144A (zh) * 2019-10-16 2021-04-16 北京白山耘科技有限公司 数据块构建及比较方法、装置、介质及设备
WO2021226875A1 (en) * 2020-05-13 2021-11-18 Paypal, Inc. Customized data scanning in heterogeneous data storage environment
US11755571B2 (en) 2020-05-13 2023-09-12 Paypal, Inc. Customized data scanning in a heterogeneous data storage environment
CN113064556A (zh) * 2021-04-29 2021-07-02 山东英信计算机技术有限公司 一种bios的数据存储方法、装置、设备及存储介质
CN113672170A (zh) * 2021-07-23 2021-11-19 复旦大学附属肿瘤医院 一种冗余数据标记及去除方法
CN113849807A (zh) * 2021-08-18 2021-12-28 北京市大数据中心 基于私有云的数据安全开放沙箱
CN114138414A (zh) * 2021-12-02 2022-03-04 国汽大有时空科技(安庆)有限公司 一种容器镜像的增量压缩方法及***
CN114138414B (zh) * 2021-12-02 2023-08-15 国汽大有时空科技(安庆)有限公司 一种容器镜像的增量压缩方法及***

Similar Documents

Publication Publication Date Title
CN106611035A (zh) 一种云存储中重复数据删除的检索算法
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
US10346257B2 (en) Method and device for deduplicating web page
US8782011B2 (en) System and method for scalable reference management in a deduplication based storage system
US10579661B2 (en) System and method for machine learning and classifying data
CN101963982B (zh) 基于位置敏感哈希的删冗存储***元数据管理方法
CN103970722B (zh) 一种文本内容去重的方法
CN102323958A (zh) 重复数据删除方法
CN103345496A (zh) 多媒体信息检索方法和***
CN105069111A (zh) 云存储中基于相似性的数据块级数据去重方法
CN108804661B (zh) 一种云存储***中基于模糊聚类的重复数据删除方法
CN103150260A (zh) 重复数据删除方法和装置
CN105511812A (zh) 一种存储***大数据优化方法及装置
CN102469142A (zh) 重复数据删除程序的数据传输方法
CN110569245A (zh) 重复数据删除***中基于强化学习的指纹索引预取方法
CN106020722A (zh) 一种云存储***的重复数据去重方法、装置及***
US9256669B2 (en) Stochastic document clustering using rare features
CN114281989B (zh) 基于文本相似度的数据去重方法、装置及存储介质和服务器
CN104391961A (zh) 千万级小文件数据的一种读写解决策略
CN106776795A (zh) 基于Hbase数据库的数据写入方法及装置
CN103049263A (zh) 一种基于相似性的文件分类方法
CN105515586B (zh) 一种快速差量压缩方法
CN102722450A (zh) 一种基于位置敏感哈希的删冗块设备存储方法
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN102479211B (zh) 基于数据库的海量数据处理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503

WD01 Invention patent application deemed withdrawn after publication