CN110618790A

CN110618790A - 基于重复数据删除的雾存储数据去冗余方法

Info

Publication number: CN110618790A
Application number: CN201910841588.6A
Authority: CN
Inventors: 温蜜; 陈思佳; 李晋国; 陈珊; 吴佳乐; 徐健; 郭帅; 王轩楷; 李孟特
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-27
Anticipated expiration: 2039-09-06
Also published as: CN110618790B

Abstract

本发明涉及一种基于重复数据删除的雾存储数据去冗余方法，针对雾节点中访问频率较高的数据，在内存中构建索引表，每个索引值对应的红黑树作为存储数据指纹的结构，减少磁盘与内存间的I/O，提高查询速度；利用循环冗余码(CRC)技术判断具有相同数据指纹的数据块是否重复，并将冲突数据块用链表结构存储在指纹节点中，解决计算数据指纹时产生的hash冲突问题；在内存中持久化保存指纹表，分为内存某一时刻的映射文件和记录更新的日志文件，防止***的突然崩溃；提出符合雾节点实际情况的数据去冗余方案，在对通讯效率要求较高的网络中，减少磁盘I/O，提高指纹查询速度。

Description

基于重复数据删除的雾存储数据去冗余方法

技术领域

本发明涉及一种数据存储技术，特别涉及一种基于重复数据删除的雾存储数据去冗余方法。

背景技术

当今社会数字化信息呈***式增长，数据量的剧增和泛滥对数据存储管理技术提出了巨大的挑战，如何高效的管理和存储数据已成为研究热点。微软和EMC生产的主存储***和二级存储***中，分别有50％和85％的冗余数据，随着时间的推移，冗余数据的比例成倍上升，企业在存储这些数据上所需要的开销也会增长。于是技术人员将目标转向容量更大，成本更低廉的云存储***。云存储采取的是数据外包模式，许多云服务提供商为了降低成本，将数据中心建立在低成本的偏远地区。当云服务器距离客户较远时，必然会增加数据传输延迟。传输过程中的重复数据也会占用大量的网络带宽，造成数据中心和移动端的I/O瓶颈。据最新研究结果显示，在各类云存储产品中数据的重复率达到60％，庞大的重复数据对云中心去重同样造成很大压力。为了解决现存的云存储重复数据问题，提出一种新的体系结构“雾计算”，其主要思想是将一些数据中心的任务迁移到边缘服务器，从而快速响应底层设备的需求，减少用户响应时间，降低时延。虽然雾节点分担了云中心的任务，但数据重复问题仍未解决。

对于重复数据删除问题，很多研究在进行。大多数学者是将数据流进行分块，分块的方式有多种：可变大小的分块(CDC)、固定大小的分块(fixed-size partion)以及两者的混合，即滑动分块(sliding block)。根据哈希函数(MD-5或SHA-1)计算每个数据块的hash值(我们称之为指纹)，与已有指纹表中的指纹进行对比，判断是否为重复数据块。这一系列的指纹查询操作会导致指纹表在内存中的随机读取，每次读取都存在磁盘访问，从而增加输入和输出(I/O)。

虽然许多学者研究了云数据中心的去重问题，但雾计算这一方面却没有涉及。大部分学者选择使用布隆过滤器(Bloom Filter)判断指纹是否存在，其好处在于在查找指纹是否重复时可以避免不必要的磁盘I/O，同时Bloom Filter占用空间小，所以广泛应用于备份、分布式文件***和web代理。但是，Bloom Filter存在假阳性，即返回的结果不一定正确，存在概率性。Min J等人提出了利用B+树在磁盘的数据存储结构，但在数据量庞大的情况下，磁盘数据分区随机在内存读取，造成不必要的I/O读取。数据指纹是数据块计算hash的结果，可能会产生hash冲突，造成判断失误。所以，如何在保证判断数据指纹是否存在的情况下加快查询速度，减少磁盘I/O显得尤为重要。

发明内容

本发明是针对目前雾节点存在的数据重复的问题，提出了一种基于重复数据删除的雾存储数据去冗余方法，与其他方案的磁盘构建指纹表相比，将搜索频繁的数据指纹表全部置于内存中，保证了查询效率，减少了不必要了磁盘IO，避免网络延迟。并且，利用CRC技术解决了hash冲突问题，保证指纹查询的准确性。***容灾方面，使用日志文件和映射文件分别记录指纹表结构及更新信息，保证在***崩溃重启后，构建新的指纹表。

本发明的技术方案为：一种基于重复数据删除的雾存储数据去冗余方法，具体包括如下步骤：

1)、移动终端向雾节点的雾管理员提出查询或存储请求；

2)、雾管理员查看雾进程日志管理服务器的统计内容，包括虚拟机资源占用表和服务或请求进程表；

3)、当查看结果为雾节点可用容量满足移动终端请求时，雾计算或存储服务器会处理请求，对传入雾节点的数据流进行去重并存储或查询；

对传入雾节点的数据流进行去重并存储或查询具体步骤：

3.1)传入数据流分块：

移动端传入雾节点的数据传入雾计算或存储服务器中，将数据流进行等长分块；3.2)计算数据块指纹：

选择生成指纹较小的MD5算法，将分块后的数据块进行hash计算，得到每个数据块的指纹，存入指纹表，作为每个数据块的元数据存储在内存中；3.3)计算索引值：

将一次hash计算得到的指纹进行二次hash，得到整数索引，映射到固定大小的索引表中，每个索引值都对应多个指纹，红黑树作为指纹的数据存储结构，得到的索引表作为元数据存储在内存中；

3.4)内存中持久化保存指纹表：

指纹表原有的数据信息通过映射的方式写入磁盘中的映射文件，在对数据指纹表做更改前，将数据指纹的***操作信息写入磁盘中的日志文件；一旦***发生崩溃，内存中的内容消失；此时将磁盘中的映射文件和日志文件中内容合并，重新生成指纹表和索引表构成新的数据结构存入内存中；清空磁盘两个文件之前的内容，内存中新生成的指纹表数据重新映射到映射文件中，日志文件重新记录下一次的数据变更；

3.5)指纹查询：

雾节点服务器内存中保存完整的指纹表，非重复数据块置于磁盘中；当判断数据指纹是否重复时，直接在内存中进行查询，无需磁盘反复I/O读取；若指纹表中没有相同指纹，即为非重复数据块指纹，***指纹表中；若指纹表中存在相同指纹，将该指纹的数据块与指纹表中相同指纹对应的数据块的循环冗余码CRC进行比较，如果不同，判断该数据块为非重复数据块，保存在该指纹的数据块链表中；如果CRC也相同，判断该数据块为重复数据块，删除并返回该数据块的地址指针。

4)、当查看结果为雾节点可用容量满足移动终端请求时，雾计算或存储服务器会处理请求，同时雾管理员更新当前任务处理进程，雾进程日志管理服务器会更新该雾节点的资源占用表和虚拟机的可用容量；若查看结果为雾节点只能处理部分请求，则委托云中心将剩余请求分配给其他的雾节点处理，该任务由第三方云服务器完成。

本发明的有益效果在于：本发明基于重复数据删除的雾存储数据去冗余方法，针对雾节点中访问频率较高的数据，在内存中构建索引表，每个索引值对应的红黑树作为存储数据指纹的结构，减少磁盘与内存间的I/O，提高查询速度；利用循环冗余码(CRC)技术判断具有相同数据指纹的数据块是否重复，并将冲突数据块用链表结构存储在指纹节点中，解决计算数据指纹时产生的hash冲突问题；在内存中持久化保存指纹表，分为内存某一时刻的映射文件和记录更新的日志文件，防止***的突然崩溃；提出符合雾节点实际情况的数据去冗余方案，在对通讯效率要求较高的网络中，减少磁盘I/O，提高指纹查询速度。

附图说明

图1为本发明基于重复数据删除的雾存储数据去冗余***示意图；

图2为本发明基于重复数据删除的雾存储数据去冗余方法流程图；

图3为本发明方法中指纹表生成示意图；

图4为本发明方法中指纹的数据存储结构示意图；

图5为本发明方法中指纹查询存储示意图。

具体实施方式

如图1所示基于重复数据删除的雾存储数据去冗余***示意图，***分为：移动终端区、雾计算区和远端云计算区，雾计算区和远端云计算区也叫雾节点和云节点。

1、移动终端区：移动可连接局域网络设备，如手机、电脑、平板电脑、智能手表等。

2、雾计算区：考虑到轻量级移动设备的有限存储空间和计算能力，雾计算区接收来自移动终端区移动设备的请求/服务，处理和存储无需放在云端的少部分访问频繁的数据。每个雾计算区由雾管理员(Fog Manager)、进程日志管理服务器(Services LoggingServer)、雾计算服务器(Fog Computing Server)和雾存储服务器(Fog Storage Server)四部分构成。

3、远端云计算区：大规模虚拟化的计算机集群，接收来自雾计算区的请求/服务。当雾计算区没有可用虚拟机容量处理终端区的请求服务时，会将服务委托给云中心。云数据中心将请求分配给有足够容量完成服务的其他雾节点服务器。作为***的上层结构，其成员功能与雾计算区大致相同。但云数据中心作为由大量服务器聚合而成的高可靠性、高拓展性的资源共享池，其接收到的用户请求远超于小规模的雾节点。故云节点还包括了第三方云服务器。

雾(云)管理员：接收来自移动终端发送的请求，查询所在雾节点的日志进程管理器，通过当前的任务进程以及可用的虚拟机容量分配请求服务。若当前虚拟机容量不足，保留部分任务，和云管理员进行通讯，将剩余任务分配给其他雾节点，保证任务同步进行。

雾(云)进程日志管理服务器：负责记录和管理当前雾节点中的任务进程和可用虚拟机容量。其内部存储着两个重要的列表，分别是虚拟机资源占用表和服务(请求)进程表。虚拟机资源占用表用来记录虚拟机的容量以及当前可用容量。服务(请求)进程表用来记录当前正在处理的服务列表以及所在位置。

雾(云)计算(存储)服务器：负责接收来自雾(云)管理员发送的请求(服务)，处理后将结果返回给雾(云)管理员。

第三方云服务器：负责协作云管理员以及雾管理员完成虚拟机容量的查询和任务分配。根据任务的大小以及每个雾节点的虚拟机容量，在任务请求较大的情况下，需要对任务进行分块，在多个雾节点中共同完成。

如图2所示本发明基于重复数据删除的雾存储数据去冗余方法，具体包括如下步骤：

S1、移动终端向雾节点的雾管理员提出查询(存储)请求。

S2、雾管理员查看雾进程日志管理服务器的统计内容，包括虚拟机资源占用表和服务(请求)进程表；

S21：虚拟机资源占用表记录了当前雾节点虚拟机序号、服务ID、各雾节点及云节点的进程百分比和预计完成时间；

S22：服务(请求)进程表记录了当前雾节点虚拟机序号、服务ID、各雾节点及云节点的进程百分比、预计完成时间以及IP地址。

步骤S3、当查看结果为雾节点可用容量满足移动终端请求时，雾计算(存储)服务器会处理请求，对传入雾节点的数据流进行去重并存储(查询)；

步骤S4、当查看结果为雾节点可用容量满足移动终端请求时，雾计算(存储)服务器会处理请求，同时雾管理员更新当前任务处理进程，雾进程日志管理服务器会更新该雾节点的资源占用表和虚拟机的可用容量；若查看结果为雾节点只能处理部分请求，则委托云中心将剩余请求分配给其他的雾节点处理，该任务由第三方云服务器完成。

如图3、4、5所示，步骤S3的具体实现为：

1、传入数据流分块

移动端传入雾节点的数据传入雾(云)计算(存储)服务器中，将数据流进行等长分块。

2、计算数据块指纹

选择生成指纹较小的MD5算法，将分块后的数据块进行hash计算，得到每个数据块的指纹，送入指纹表，如图3所示。作为每个数据块的元数据存储在内存中。

3、计算索引值

将一次hash得到的指纹进行二次hash，得到索引值(整数)，映射到固定大小的索引表中，每个索引值都对应多个指纹，红黑树(RBTree)作为指纹的数据存储结构，如图4所示，得到的索引表作为元数据存储在内存中。与其他在内存中的数据结构相比，具有较低的时间复杂度。

4、内存中持久化保存指纹表

如图5所示，为了保证数据结构在内存中的持久性，防止操作***在崩溃状况下内存中数据消失，指纹表原有的数据信息通过映射的方式写入映射文件，在对数据指纹表做更改前，将数据指纹的***操作信息写入日志文件。由于日志是立即持久化的，可以作为恢复其他所有持久化结构的可靠来源。一旦***发生崩溃，内存中的内容消失。此时将磁盘中的映射文件和日志文件中内容合并，重新生成指纹表和索引表存入内存中，即指纹表和索引表。清空两个文件之前的内容，文件合并后的指纹表映射到映射文件中，日志文件重新记录下一次的数据变更。为数据提供容灾保障。

5、指纹查询过程

雾节点服务器内存中保存完整的指纹表，非重复数据块置于磁盘中。当判断数据指纹是否重复时，可以直接在内存中进行查询，无需磁盘反复I/O读取。若指纹表中没有相同指纹，即为非重复数据块指纹，***指纹表中。若指纹表中存在相同指纹，将该指纹的数据块与指纹表中相同指纹对应的数据块的循环冗余码(CRC)进行比较，如果不同，判断该数据块为非重复数据块，保存在该指纹的数据块链表中(链表中保存的是指纹相同的不同数据块)；如果CRC也相同，判断该数据块为重复数据块，删除并返回该数据块的地址指针。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于重复数据删除的雾存储数据去冗余方法，其特征在于，具体包括如下步骤：

1)、移动终端向雾节点的雾管理员提出查询或存储请求；

对传入雾节点的数据流进行去重并存储或查询具体步骤：

3.1)传入数据流分块：

移动端传入雾节点的数据传入雾计算或存储服务器中，将数据流进行等长分块；

3.2)计算数据块指纹：

选择生成指纹较小的MD5算法，将分块后的数据块进行hash计算，得到每个数据块的指纹，存入指纹表，作为每个数据块的元数据存储在内存中；

3.3)计算索引值：

3.4)内存中持久化保存指纹表：

3.5)指纹查询：