CN108804661B - 一种云存储***中基于模糊聚类的重复数据删除方法 - Google Patents

一种云存储***中基于模糊聚类的重复数据删除方法 Download PDF

Info

Publication number
CN108804661B
CN108804661B CN201810587507.XA CN201810587507A CN108804661B CN 108804661 B CN108804661 B CN 108804661B CN 201810587507 A CN201810587507 A CN 201810587507A CN 108804661 B CN108804661 B CN 108804661B
Authority
CN
China
Prior art keywords
file
fingerprints
cluster
fingerprint
repeated data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810587507.XA
Other languages
English (en)
Other versions
CN108804661A (zh
Inventor
龙赛琴
刘子浩
曾令斌
周思恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201810587507.XA priority Critical patent/CN108804661B/zh
Publication of CN108804661A publication Critical patent/CN108804661A/zh
Application granted granted Critical
Publication of CN108804661B publication Critical patent/CN108804661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提出了一种云存储***中基于模糊聚类的重复数据删除方法。本发明步骤:首先,对来自客户端待存储的文件,确定其文件类型;其次,构建初始聚类中心;然后,依次计算待存储文件的数据指纹集合与各聚类中心的隶属度;最后,按照隶属度的高低,选择合适的聚类,将文件的各数据块指纹与该聚类中所有的数据块指纹进行精确比对,舍弃指纹相同的数据块,只留下重复数据块的索引信息和非重复数据块,从而达到删除重复数据的目的,并更新聚类中心。本发明对文件的数据块指纹采取抽样处理,考虑抽样的数量,结合样本的相似度构建隶属度函数。本发明具有计算速度快的优点,有更少的指纹比对量,适用于云存储***。

Description

一种云存储***中基于模糊聚类的重复数据删除方法
技术领域
本发明主要涉及到计算机存储领域,特别涉及到一种云存储***中基于模糊聚类的重复数据删除方法。
背景技术
目前全球的数字化浪潮带来了海量的数据信息,人类社会已经进入了信息化和大数据时代。据IDC预计,到2020年,人类所产生的数据量将超过40ZB。云存储***作为当下最热门的存储数据的***,在储存海量数据时,将会出现很多重复数据,有的***中数据重复率高达70%~80%。因此需要重复数据删除技术来删除冗余数据,以减少储存空间的占用,节约网络带宽,同时减少数据中心的储存花费和日常能耗。
与其它的存储***不同的是,云存储***中存储的数据类型多样,例如邮件服务器(Mail),虚拟机映像(VM),Web服务器(Web)数据集,照片集(照片),音乐库(音频)等等,但是不同数据类型间的冗余数据很少。
发明内容
针对重复数据在云存储***中,对检索造成的麻烦,但同时不同类型文件间冗余量可以忽略不计。本发明公开了一种云存储***中基于模糊聚类的重复数据删除方法。
本发明为了实现上述目的所采用的技术方案:对存储空间的文件按类型进行分类,然后分块,对数据块进行哈希计算,提取指纹特征。构建初始聚类中心,分别计算待存储文件与各个聚类中心的隶属度,根据文件隶属度选择适合的聚类,通过数据块指纹比对来达到删除重复数据的目的,并更新聚类中心。
与现有技术相比,本方法的优点在于:
本发明具有计算速度快的优点,有更少的指纹比对量,同时提高了***的可拓展性。
附图说明
图1是本发明的流程图。
具体实施方式
如图1所示,本发明技术方案的具体步骤为:
步骤1、对来自客户端待存储的文件,确定其文件类型,其特征所述的确定文件类型还应包括以下步骤:
根据待存储文件的头部信息,可以确定文件的类型。如通过UltraEdit得到的jpg文件的文件头为FFD8FF,xml文件的文件头为3C3F786D6C。
步骤2、构建初始聚类中心,其特征在于所述的构建初始聚类中心的方法还应包括以下步骤:
设存储空间的文件可按文件类型划分为c类,对于每类文件都随机地选取至少f个文件,对选取的文件进行分块,计算每个数据块的指纹。
例如,对于类型为i的文件组可以得到它的指纹集合p={p1,p2,......,pl},随机地选取指纹集合p中的m个数据块指纹作为聚类i的聚类中心,up={p1,p2,......,pm},并记录集合p中所有数据块指纹的出现次数k,删除集合p中的重复数据块,只留下重复数据块的索引信息和非重复数据块,在每删除一个重复数据块的同时,给数据块的出现次数k加1。
依次对c个指纹集合进行处理,得到c个独立的聚类中心。
步骤3、根据步骤1中得到的文件类型和步骤2中得到的聚类中心。其特征所描述的计算待存储文件与各个聚类中心的隶属度的过程还应包含以下步骤:
1)设存储空间有待存储文件s,对文件s进行分块,计算各数据块的指纹,得到文件s的所有数据块的指纹集合,Sp={sp1,sp2,......,spn}。
2)为了简便计算,本发明对文件指纹集合采取抽样处理,在得到的文件s指纹集合Sp中,随机地选取t个数据块指纹,组成样本集合vp={sp1,sp2,......,spt}。
3)选择与文件s具有相同类型的聚类,计算文件s与各个聚类中心的相似度,例如,聚类中心i和文
件s的样本相似度为:
Figure BDA0001686570730000021
但是使用抽样的样本集合计算的相似度代表整个文件的相似度并不准确。
假设文件与聚类中心的冗余块有b个,抽到冗余块的概率为q,样本抽样的数量t是那么抽到冗余块的概率符合离散型随机变量的分布规律,可得抽到冗余块的期望为E:
Figure BDA0001686570730000031
抽样样本的相似度r为:
Figure BDA0001686570730000034
则文件s与聚类i的重复率有Ri
Figure BDA0001686570730000032
其中ri表示文件s的样本与聚类中心i的相似度。
4)计算文件s与各个聚类的隶属度,例如文件s与聚类i的隶属度为:
Figure BDA0001686570730000033
步骤4、根据得到的隶属度,文件与某个聚类的隶属度越接近1,则说明文件s属于该聚类的程度越高,并且文件s与该聚类的重复数据块越多。按照隶属度的高低,依次比对文件与各个聚类中的所有指纹数据,删除重复数据块,并更新聚类中心,只留下索引信息和非重复数据块。其特征所描述的聚类的选择以及聚类中心更新的方法还应该包括以下步骤:
1)设定一个隶属度阈值δ,0<δ<1。对于隶属度小于阈值δ的聚类,文件将不再进行数据指纹的比对,若待存储的文件对所有聚类的隶属度都小于δ,则保存该文件,再随机地选取m个指纹,将其作为新的聚类中心。
2)按待存储文件s与各个聚类中心的隶属度A(s)值由高到低,依次与各个聚类中心中的所有指纹数据进行比对,只留下重复数据块的索引信息和非重复数据块,在每删除一个重复数据块的同时,给该数据块的出现次数k加1。
3)查找完所有符合条件的聚类以后,将文件中剩余的非重复数据块指纹存入隶属度最高的聚类中。
4)在存储了文件以后,对各个进行了重复数据块删除的聚类,按k值由大到小,依次选取m个数据块指纹作为新的聚类中心。当聚类中具有相同k值的数据块指纹超过m个时,则随机选取m个数据块指纹,将其作为新的聚类中心。

Claims (2)

1.一种云存储***中基于模糊聚类的重复数据删除方法,所述方法至少包含以下几个步骤:
(1)、依据文件集合代表指纹出现频率,构建初始聚类中心;
(2)、计算待存储文件的指纹集合与各聚类中心的隶属度;
(3)、根据步骤(2)中计算的隶属度的高低,选择合适的聚类,通过数据块的指纹比对来删除指纹相同的重复数据,并更新聚类中心,
所述步骤(1)依据文件集合代表指纹出现频率,构建初始聚类中心至少还包括以下步骤:
1.1)设云存储***中的文件可按文件类型划分为c类,对于每类文件都随机地选取至少f个文
件;
1.2)对选取的文件进行分块并计算出每个数据块的指纹,得到c个指纹集合;
1.3)依次对c个指纹集合进行处理,得到c个独立的聚类中心;
所述步骤(3)根据步骤(2)中计算的隶属度的高低,选择合适的聚类,通过数据块的指纹比对来删除指纹相同的重复数据,并更新聚类中心,至少还包括以下步骤:
3.1)设定一个阈值,按待存储文件与各个聚类中心的隶属度值由高到低,依次与各个聚类中所有指纹数据进行比对,只留下重复数据块的索引信息和非重复的数据块,在每删除一个重复数据块的同时,给该数据块的出现次数k加1;
3.2)若文件s对所有聚类中心的隶属度都低于阈值则保存文件的所有数据块,再随机地选择该文件指纹集合中的m个数据块指纹作为新的聚类中心;
3.3)对于隶属度低于阈值的聚类,文件将不再进行去重处理,并将文件中未删除的剩余数据块存入隶属度最高的聚类中;
3.4)在删除重复数据块以后,对各个进行了重复数据块删除的聚类,按k值由大到小,依次选取m个数据块指纹作为新的聚类中心。
2.根据权利要求1中所述的一种云存储***中基于模糊聚类的重复数据删除方法,其特征在于,所述步骤(2)中计算待存储文件与各个聚类中心的隶属度的过程,至少还包括如下步骤:
2.1)设存储空间有待存储文件s,对文件s进行分块,计算各数据块的指纹,得到文件s的指纹集合Sp
2.2)选择与文件s具有相同类型的聚类,计算待存储文件的指纹集合与各聚类中心的隶属度,文件s与聚类中心i的隶属度的计算公式为:
在计算隶属度的过程中,为了减少计算量,本发明对文件s采取抽样处理,即在文件s的指纹集合中随机抽取t个指纹作为样本;其中ri是待存储文件s的样本与第i个聚类中心的相似度,b为冗余块数,t为抽取的数据块指纹数,m为聚类中心中的指纹数。
CN201810587507.XA 2018-06-06 2018-06-06 一种云存储***中基于模糊聚类的重复数据删除方法 Active CN108804661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810587507.XA CN108804661B (zh) 2018-06-06 2018-06-06 一种云存储***中基于模糊聚类的重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810587507.XA CN108804661B (zh) 2018-06-06 2018-06-06 一种云存储***中基于模糊聚类的重复数据删除方法

Publications (2)

Publication Number Publication Date
CN108804661A CN108804661A (zh) 2018-11-13
CN108804661B true CN108804661B (zh) 2023-04-28

Family

ID=64087907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810587507.XA Active CN108804661B (zh) 2018-06-06 2018-06-06 一种云存储***中基于模糊聚类的重复数据删除方法

Country Status (1)

Country Link
CN (1) CN108804661B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110908972B (zh) * 2019-11-19 2022-09-02 加和(北京)信息科技有限公司 一种日志数据预处理方法、装置、电子设备和存储介质
CN111478938B (zh) * 2020-02-29 2022-02-22 新华三信息安全技术有限公司 一种数据冗余消除方法及装置
CN112435512B (zh) * 2020-11-12 2023-01-24 郑州大学 一种轨道交通运输仿真培训的语音行为考核评价方法
CN112329717B (zh) * 2020-11-25 2023-08-01 中国人民解放军国防科技大学 一种面向海量数据相似度检测的指纹高速缓存方法
CN117435135B (zh) * 2023-10-27 2024-04-02 广州鼎甲计算机科技有限公司 关于重复数据删除的存储空间回收的方法、装置和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544275A (zh) * 2013-10-22 2014-01-29 华为技术有限公司 一种处理数据的方法及装置
CN107169522A (zh) * 2017-05-26 2017-09-15 同济大学 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法
CN107633444A (zh) * 2017-08-29 2018-01-26 南京理工大学紫金学院 基于信息熵与模糊c均值聚类的推荐***噪声过滤方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392403B2 (en) * 2009-09-18 2013-03-05 Microsoft Corporation Management of data and computation in data centers
US8954458B2 (en) * 2011-07-11 2015-02-10 Aol Inc. Systems and methods for providing a content item database and identifying content items
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US10324802B2 (en) * 2015-05-01 2019-06-18 Ashish Govind Khurange Methods and systems of a dedupe storage network for image management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544275A (zh) * 2013-10-22 2014-01-29 华为技术有限公司 一种处理数据的方法及装置
CN107169522A (zh) * 2017-05-26 2017-09-15 同济大学 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法
CN107633444A (zh) * 2017-08-29 2018-01-26 南京理工大学紫金学院 基于信息熵与模糊c均值聚类的推荐***噪声过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
相似聚类的二级索引重复数据删除算法;王青松等;《小型微型计算机***》;20171215(第12期);第2页第2章到第4页第4章 *

Also Published As

Publication number Publication date
CN108804661A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804661B (zh) 一种云存储***中基于模糊聚类的重复数据删除方法
CN105069111B (zh) 云存储中基于相似性的数据块级数据去重方法
EP2256934B1 (en) Method and apparatus for content-aware and adaptive deduplication
US7797265B2 (en) Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
US7433869B2 (en) Method and apparatus for document clustering and document sketching
Singh et al. Probabilistic data structures for big data analytics: A comprehensive review
US10579661B2 (en) System and method for machine learning and classifying data
US20240022648A1 (en) Systems and methods for data deduplication by generating similarity metrics using sketch computation
EP2742446B1 (en) A system and method to store video fingerprints on distributed nodes in cloud systems
CN113535706B (zh) 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN108763295B (zh) 一种基于深度学习的视频近似拷贝检索算法
CN106611035A (zh) 一种云存储中重复数据删除的检索算法
CN110569245A (zh) 重复数据删除***中基于强化学习的指纹索引预取方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
WO2023272851A1 (zh) 异常数据检测方法、装置、设备及存储介质
Moia et al. Similarity digest search: A survey and comparative analysis of strategies to perform known file filtering using approximate matching
US20220156233A1 (en) Systems and methods for sketch computation
WO2023000915A1 (en) Method and apparatus for replicating a target file between devices
CN114281989B (zh) 基于文本相似度的数据去重方法、装置及存储介质和服务器
Li et al. Fast distributed video deduplication via locality-sensitive hashing with similarity ranking
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN116821053B (zh) 数据上报方法、装置、计算机设备和存储介质
Singhal et al. A Novel approach of data deduplication for distributed storage
CN114610960A (zh) 基于item2vec和向量聚类的实时推荐方法
Sharma et al. File-level Deduplication by using text files–Hive integration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant