CN108804661B

CN108804661B - 一种云存储***中基于模糊聚类的重复数据删除方法

Info

Publication number: CN108804661B
Application number: CN201810587507.XA
Authority: CN
Inventors: 龙赛琴; 刘子浩; 曾令斌; 周思恒
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2023-04-28
Anticipated expiration: 2038-06-06
Also published as: CN108804661A

Abstract

本发明提出了一种云存储***中基于模糊聚类的重复数据删除方法。本发明步骤：首先，对来自客户端待存储的文件，确定其文件类型；其次，构建初始聚类中心；然后，依次计算待存储文件的数据指纹集合与各聚类中心的隶属度；最后，按照隶属度的高低，选择合适的聚类，将文件的各数据块指纹与该聚类中所有的数据块指纹进行精确比对，舍弃指纹相同的数据块，只留下重复数据块的索引信息和非重复数据块，从而达到删除重复数据的目的，并更新聚类中心。本发明对文件的数据块指纹采取抽样处理，考虑抽样的数量，结合样本的相似度构建隶属度函数。本发明具有计算速度快的优点，有更少的指纹比对量，适用于云存储***。

Description

一种云存储***中基于模糊聚类的重复数据删除方法

技术领域

本发明主要涉及到计算机存储领域，特别涉及到一种云存储***中基于模糊聚类的重复数据删除方法。

背景技术

目前全球的数字化浪潮带来了海量的数据信息，人类社会已经进入了信息化和大数据时代。据IDC预计，到2020年，人类所产生的数据量将超过40ZB。云存储***作为当下最热门的存储数据的***，在储存海量数据时，将会出现很多重复数据，有的***中数据重复率高达70％～80％。因此需要重复数据删除技术来删除冗余数据，以减少储存空间的占用，节约网络带宽，同时减少数据中心的储存花费和日常能耗。

与其它的存储***不同的是，云存储***中存储的数据类型多样，例如邮件服务器(Mail)，虚拟机映像(VM)，Web服务器(Web)数据集，照片集(照片)，音乐库(音频)等等，但是不同数据类型间的冗余数据很少。

发明内容

针对重复数据在云存储***中，对检索造成的麻烦，但同时不同类型文件间冗余量可以忽略不计。本发明公开了一种云存储***中基于模糊聚类的重复数据删除方法。

本发明为了实现上述目的所采用的技术方案：对存储空间的文件按类型进行分类，然后分块，对数据块进行哈希计算，提取指纹特征。构建初始聚类中心，分别计算待存储文件与各个聚类中心的隶属度，根据文件隶属度选择适合的聚类，通过数据块指纹比对来达到删除重复数据的目的，并更新聚类中心。

与现有技术相比，本方法的优点在于：

本发明具有计算速度快的优点，有更少的指纹比对量，同时提高了***的可拓展性。

附图说明

图1是本发明的流程图。

具体实施方式

如图1所示，本发明技术方案的具体步骤为：

步骤1、对来自客户端待存储的文件，确定其文件类型，其特征所述的确定文件类型还应包括以下步骤：

根据待存储文件的头部信息，可以确定文件的类型。如通过UltraEdit得到的jpg文件的文件头为FFD8FF，xml文件的文件头为3C3F786D6C。

步骤2、构建初始聚类中心，其特征在于所述的构建初始聚类中心的方法还应包括以下步骤：

设存储空间的文件可按文件类型划分为c类，对于每类文件都随机地选取至少f个文件，对选取的文件进行分块，计算每个数据块的指纹。

例如，对于类型为i的文件组可以得到它的指纹集合p＝{p₁,p₂,......,p_l}，随机地选取指纹集合p中的m个数据块指纹作为聚类i的聚类中心，u_p＝{p₁,p₂,......,p_m}，并记录集合p中所有数据块指纹的出现次数k，删除集合p中的重复数据块，只留下重复数据块的索引信息和非重复数据块，在每删除一个重复数据块的同时，给数据块的出现次数k加1。

依次对c个指纹集合进行处理，得到c个独立的聚类中心。

步骤3、根据步骤1中得到的文件类型和步骤2中得到的聚类中心。其特征所描述的计算待存储文件与各个聚类中心的隶属度的过程还应包含以下步骤：

1)设存储空间有待存储文件s，对文件s进行分块，计算各数据块的指纹，得到文件s的所有数据块的指纹集合，Sp＝{sp₁,sp₂,......,sp_n}。

2)为了简便计算，本发明对文件指纹集合采取抽样处理，在得到的文件s指纹集合Sp中，随机地选取t个数据块指纹，组成样本集合v_p＝{sp₁,sp₂,......,sp_t}。

3)选择与文件s具有相同类型的聚类，计算文件s与各个聚类中心的相似度，例如，聚类中心i和文

件s的样本相似度为：

但是使用抽样的样本集合计算的相似度代表整个文件的相似度并不准确。

假设文件与聚类中心的冗余块有b个，抽到冗余块的概率为q，样本抽样的数量t是那么抽到冗余块的概率符合离散型随机变量的分布规律，可得抽到冗余块的期望为E：

抽样样本的相似度r为：

则文件s与聚类i的重复率有R_i：

其中r_i表示文件s的样本与聚类中心i的相似度。

4)计算文件s与各个聚类的隶属度，例如文件s与聚类i的隶属度为：

步骤4、根据得到的隶属度，文件与某个聚类的隶属度越接近1，则说明文件s属于该聚类的程度越高，并且文件s与该聚类的重复数据块越多。按照隶属度的高低，依次比对文件与各个聚类中的所有指纹数据，删除重复数据块，并更新聚类中心，只留下索引信息和非重复数据块。其特征所描述的聚类的选择以及聚类中心更新的方法还应该包括以下步骤：

1)设定一个隶属度阈值δ，0＜δ＜1。对于隶属度小于阈值δ的聚类，文件将不再进行数据指纹的比对，若待存储的文件对所有聚类的隶属度都小于δ，则保存该文件，再随机地选取m个指纹，将其作为新的聚类中心。

2)按待存储文件s与各个聚类中心的隶属度A(s)值由高到低，依次与各个聚类中心中的所有指纹数据进行比对，只留下重复数据块的索引信息和非重复数据块，在每删除一个重复数据块的同时，给该数据块的出现次数k加1。

3)查找完所有符合条件的聚类以后，将文件中剩余的非重复数据块指纹存入隶属度最高的聚类中。

4)在存储了文件以后，对各个进行了重复数据块删除的聚类，按k值由大到小，依次选取m个数据块指纹作为新的聚类中心。当聚类中具有相同k值的数据块指纹超过m个时，则随机选取m个数据块指纹，将其作为新的聚类中心。

Claims

1.一种云存储***中基于模糊聚类的重复数据删除方法，所述方法至少包含以下几个步骤：

(1)、依据文件集合代表指纹出现频率，构建初始聚类中心；

(2)、计算待存储文件的指纹集合与各聚类中心的隶属度；

(3)、根据步骤(2)中计算的隶属度的高低，选择合适的聚类，通过数据块的指纹比对来删除指纹相同的重复数据，并更新聚类中心，

所述步骤(1)依据文件集合代表指纹出现频率，构建初始聚类中心至少还包括以下步骤：

1.1)设云存储***中的文件可按文件类型划分为c类，对于每类文件都随机地选取至少f个文

件；

1.2)对选取的文件进行分块并计算出每个数据块的指纹，得到c个指纹集合；

1.3)依次对c个指纹集合进行处理，得到c个独立的聚类中心;

所述步骤(3)根据步骤(2)中计算的隶属度的高低，选择合适的聚类，通过数据块的指纹比对来删除指纹相同的重复数据，并更新聚类中心，至少还包括以下步骤：

3.1)设定一个阈值，按待存储文件与各个聚类中心的隶属度值由高到低，依次与各个聚类中所有指纹数据进行比对，只留下重复数据块的索引信息和非重复的数据块，在每删除一个重复数据块的同时，给该数据块的出现次数k加1；

3.2)若文件s对所有聚类中心的隶属度都低于阈值则保存文件的所有数据块，再随机地选择该文件指纹集合中的m个数据块指纹作为新的聚类中心；

3.3)对于隶属度低于阈值的聚类，文件将不再进行去重处理，并将文件中未删除的剩余数据块存入隶属度最高的聚类中；

3.4)在删除重复数据块以后，对各个进行了重复数据块删除的聚类，按k值由大到小，依次选取m个数据块指纹作为新的聚类中心。

2.根据权利要求1中所述的一种云存储***中基于模糊聚类的重复数据删除方法，其特征在于，所述步骤(2)中计算待存储文件与各个聚类中心的隶属度的过程，至少还包括如下步骤：

2.1)设存储空间有待存储文件s，对文件s进行分块，计算各数据块的指纹，得到文件s的指纹集合S_p；

2.2)选择与文件s具有相同类型的聚类，计算待存储文件的指纹集合与各聚类中心的隶属度，文件s与聚类中心i的隶属度的计算公式为：

在计算隶属度的过程中，为了减少计算量，本发明对文件s采取抽样处理，即在文件s的指纹集合中随机抽取t个指纹作为样本；其中r_i是待存储文件s的样本与第i个聚类中心的相似度，b为冗余块数，t为抽取的数据块指纹数，m为聚类中心中的指纹数。