CN103902410B

CN103902410B - 云存储***的数据备份加速方法

Info

Publication number: CN103902410B
Application number: CN201410124427.2A
Authority: CN
Inventors: 赵晓南; 张晓�; 李战怀; 曾雷杰
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2016-10-05
Anticipated expiration: 2034-03-28
Also published as: CN103902410A

Abstract

本发明公开了一种云存储***的数据备份加速方法，用于解决现有云存储***的数据备份方法效率低的技术问题。技术方案是在数据中心利用网络爬虫程序定期从其他网络节点上下载数据并按块计算数据的哈希值，在数据备份之前，根据哈希值对客户端数据进行重复数据删除处理；在备份过程中，通过哈希值的比较，在数据中心已有数据和云端数据中查找与客户端重复的数据，进一步压缩需要从客户端复制到数据中心的数据量，利用数据中心的高带宽和云端数据的共享性，在客户端向数据中心备份数据的同时，从云端的网络节点向数据中心进行数据备份，使指定用户同数据中心之间通过网络传输的数据量降到最低，进而加速数据备份并有效地提高了数据中心的存储利用率。

Description

云存储***的数据备份加速方法

技术领域

本发明涉及一种云存储***的数据备份方法，特别是涉及一种云存储***的数据备份加速方法。

背景技术

随着个人数据量的增长，数据的容灾备份日益重要。日常生活中，灾难可能随时发生，断电，火灾、水灾，甚至是硬盘驱动器故障，都会使本地存储的所有数据遭受灭顶之灾。因此，用户需要选择远程备份或者将文件副本存在云存储中，使他们的数据免受灾难。在线备份服务基于互联网，可以对选定的文件自动备份。这些文件存储在云中，可以在任意时刻，任意地点，任意终端进行访问。用户的工作环境呈现出混合多样、跨平台甚至跨地域的特点。例如，某些用户有在不同的时间段在不同的地点采用不同的方式（包括手机，笔记本和平板电脑等）收发同一个账户的邮件，或是访问、编辑同一个文件等等。

针对这一需求，为用户提供“云备份”服务的产品有不少，其中有针对特定数据类型的，如用于手机通讯录同步的，又如针对文本文件和图像文件（照片）备份和同步的；也有不限定备份对象，直接提供存储空间的类型的，例如dropbox，百度网盘等。但是，这些产品基本都是直接将用户数据打包上传至服务器，受限于客户端的接入带宽，备份性能较差。本发明提出一种方法，针对数据中心带宽远高于客户端接入带宽的情况，充分利用数据中心的高带宽，从Internet上其他位置获取数据加快备份速度。

在用户进行数据备份时，传统的数据备份技术会将所有需要备份的数据依次通过网络传输至数据中心。在备份的过程中，用户端的接入带宽是主要的瓶颈，以备份30GB的数据为例，在4Mbps的接入速度且不考虑其他因素影响的情况下，数据备份需要近18小时。如果在此期间用户还有其他使用网络的应用，备份时间会进一步加长。另外，由于带宽被备份应用占用，工作的效率将受到明显的影响。由于云数据中心服务对象多为个人用户，不同用户所备份的数据间存在一定的重复率，但是传统的备份方式并未针对这种情况进行优化处理，因此造成了传输带宽和存储空间的浪费。

事实上，仔细分析云存储环境下的备份方式以及终端用户的数据，会发现在这类应用场景中有如下的特点：1）用户备份的数据来源比较多样，相当一部分是来自互联网的公共资源，如音乐，视频，图片等。而且这类数据往往是只读的，用户很少会对这些数据进行编辑，即使编辑也是极少量的改动；2）用户数据改动范围具有局部性的特点，在一段时间内被改动的数据相对集中，分布的范围较小；3）数据中心具有较高的网络带宽，可以保证充分利用用户端带宽的基础上从其他站点获取数据。

现有的备份方式并不能适应当前应用环境的特点，在复制管理的质量和效率上都有改善的空间。

发明内容

为了解决云存储***的数据备份方法效率低的技术问题，本发明提供一种云存储***的数据备份加速方法。该方法在数据中心利用网络爬虫程序定期从其他网络节点上下载数据并按块计算数据的哈希值，通过对客户端和数据中心各个数据块以相同的方法计算哈希值；在进行数据备份之前根据这些哈希值对客户端数据进行重复数据删除处理；在备份过程中，通过哈希值的比较，在数据中心已有数据和云端数据中查找与客户端重复的数据，进一步压缩需要从客户端复制到数据中心的数据量，同时根据对比的结果，利用数据中心的高带宽和云端数据的共享性，在客户端向数据中心备份数据的同时，从云端的网络节点向数据中心进行数据备份，使指定用户同数据中心之间通过网络传输的数据量降到最低，进而加速数据备份并有效地提高数据中心的存储利用率。

本发明解决其技术问题所采用的技术方案是：一种云存储***的数据备份加速方法，其特点是采用以下步骤：

步骤一、确定***中各个节点和子***所承担的角色，并根据角色的不同，安装相应的功能组件，以配合角色完成备份过程中的对应处理。

步骤二、在源端首次发出备份请求之前，进行特征码预处理。

（1）源端处理。首先，特征码管理组件对源端的数据分块进行哈希值的计算并生成哈希表，根据该表与自身的匹配查找，对源端的数据进行重删处理，即将重复出现的哈希值用指向第一次出现该哈希值的数据块的位置信息进行替换，同时对数据本身存储和对应的元数据也做相应的处理。然后，将完成重删处理的哈希表传送到目标端的特征码管理组件，该表即为源端哈希表。

（2）目标端处理。目标端对本数据中心内部的数据进行哈希值计算，生成目标端的全局哈希表，表中保存做重删处理后的最终结果。将该全局哈希表同源端哈希表进行比较，把哈希值匹配的项目集中起来，生成本地哈希表，并在源端、目标端的数据发生修改、删除等变化时加以维护。

（3）云端处理。目标端在完成***初始化后，利用空闲的计算资源和带宽，定期由备份服务中的数据获取功能组件采用网络爬虫的方法根据一定的规则在云端获取数据信息并计算相应的哈希值，将相应的云端位置、源端和云端哈希值的映射关系等数据备份所必需的基本信息收集后传回目标端。爬虫程序获取的各个数据块的哈希值信息记录，若***中的忽略列表不为空，则先在该表中查找，若找到匹配的项目，则停止当前数据块信息记录的处理，取下一条记录进行处理；否则与目标端的全局哈希表中的项目进行比较，当一个数据块的哈希值找到匹配的项目时，将相应的信息存入一个忽略列表，否则存入网络哈希表。若网络爬虫程序在不同的网络站点上获得了相同的数据哈希值信息，则根据优先原则选择2-3个最优的结果保存到网络哈希表中。

步骤三、当源端发出备份请求时，源端组件先根据所有需要备份的数据块的各条哈希值信息记录生成源端的原始备份计划表，并发送到目标端；目标端的特征码管理组件将原始备份计划表中的记录逐条在对应的网络哈希表和本地哈希表中进行查找，根据查找结果进行相应的处理并生成实际备份计划表。实际备份计划表中有三个级别的子表，在未进行查找前，所有数据块的哈希值信息记录都存入第一级表中，其余两个子表均为空。在匹配查找的过程中，如果数据块A的哈希值记录在网络哈希表中找到匹配的记录，则将A对应的哈希值记录从第一级子表中删除，同时从网络哈希表中将相应的哈希值记录复制到第二级子表中，并将此条记录从网络哈希表中删除；类似的若A的哈希值信息记录在本地哈希表中找到匹配的项目，则将该数据块的哈希值记录从第一级子表中删除，将本地哈希表中对应的哈希值记录复制到第三级子表中，并删除本地哈希表中对应的信息记录。查找过程结束后，实际备份计划表的第一级子表中的内容全部来自原始备份计划表，第二级子表中的内容来自网络哈希表，第三级子表的内容来自本地哈希表。

步骤四、数据复制处理。目标端备份管理服务将根据备份计划表实施具体的数据复制处理。第一步，处理第一级子表。根据表中记录将每个数据块从源端复制到目标端，当完成一块数据的复制时，将实际备份计划表中对应的哈希值信息记录删除，并将该数据块复制后的相应信息存入第三级子表，同时更新目标端的全局哈希表。第二步，处理第二级子表。根据表中记录将每个数据块从云端的网站复制到目标端，每当完成一块数据的复制时，将对应的信息记录从备份计划表中删除并在忽略列表加以保存，然后将该数据块复制后的相应信息存入第三级子表并同时更新全局哈希表。在第三级子表中的哈希值信息记录表明对应的数据块已经在目标端，不需要再做数据复制处理。

步骤五、差分备份处理。在完成初次处理的全备份后，***将按照一定的时间间隔进行定期的差分备份。差分备份的备份计划表是在两次备份处理的间隔中由每一次的源端数据更新触发的哈希表更新直接更新至实际备份计划表积累产生的。

本发明的有益效果是：该方法在数据中心利用网络爬虫程序定期从其他网络节点上下载数据并按块计算数据的哈希值，通过对客户端和数据中心各个数据块以相同的方法计算哈希值；在进行数据备份之前根据这些哈希值对客户端数据进行重复数据删除处理；在备份过程中，通过哈希值的比较，在数据中心已有数据和云端数据中查找与客户端重复的数据，进一步压缩需要从客户端复制到数据中心的数据量，同时根据对比的结果，利用数据中心的高带宽和云端数据的共享性，在客户端向数据中心备份数据的同时，从云端的网络节点向数据中心进行数据备份，使指定用户同数据中心之间通过网络传输的数据量降到最低，进而加速数据备份并有效地提高了数据中心的存储利用率。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明方法备份***的应用环境示意图。

图2是本发明方法的哈希表结构示意图。

图3是本发明方法特征码管理模块所涉及的全部哈希表集合示意图。

图4是本发明方法备份处理过程中的哈希表维护示意图。

具体实施方式

参照图1-4。

在本发明中，将备份***中的对象根据分工的不同分为不同的角色，提供特征码管理、备份管理和数据获取等几部分组件，在备份处理过程中，这些组件针对不同的角色进行相应的处理，按分工部署在各个角色中的不同的组件相互协调配合，共同完成备份处理的整个过程。

***中的对象所承担的角色有源端、目标端和云端三类。

源端：有数据备份需求的终端用户，是数据的实际使用者，多数情况下可能是个人用户。与目标端直接建立网络通信通路。

目标端：为源端提供备份服务的数据中心，一般在为源端提供备份服务所需要的存储资源的同时，一般还为源端以及其他终端用户提供计算服务。

云端：数据中心的扩展部分，一般为可以对外提供数据下载或者数据共享服务的网络站点。一般情况下，在备份过程中不需要同源端进行直接的数据交互。

***中的备份服务包括特征码管理，备份管理和数据获取等。

特征码管理：特征码是用于唯一标识每个数据块的指纹信息。本发明中是根据常用的哈希算法计算各个数据块的哈希值，特征码管理在三源端和目标端中都要用到，但是根据备份处理的需要，在不同角色中所实现的处理内容存在一定的差异。主要包括哈希值生成，同一角色自身的哈希表匹配和不同角色之间的哈希表匹配，哈希表的创建，哈希表的修改、拆分、合并以及删除等维护处理。

备份管理：负责源端与目标端、目标端和云端之间备份过程的控制和管理。包括备份计划的生成、备份过程的控制以及数据传输过程的控制等。

数据获取管理：在目标端进行数据备份前，由目标端利用网络爬虫程序根据满足终端用户的应用习惯、使用偏好等预定义的选择条件从云端获取数据类型和范围等符合条件数据的哈希值信息，并反馈给目标端，然后与特征码管理组件配合完成在云端查找可以替代源端进行数据备份的数据源的处理。

本发明云存储***的数据备份加速方法具体步骤如下：

步骤一、初始化备份***的环境。确定***中各个节点和子***所承担的角色，并根据角色的不同，安装相应的功能组件，以配合角色完成备份过程中的对应处理。

在本部分，将对本发明的实施方案中一些关键细节的具体方法进行说明。

1.备份服务中的并发处理。

一般，在实际的备份***中，源端对象很可能存在多个，目标端会面临同时处理多个终端用户的备份请求的情况。因此，在本发明的备份管理中，目标端将针对每一个源端对象创建一个专门的进程，处理对应的特征码管理和备份请求等。同时，对应不同的源端对象的源数据有各自独立的一组哈希表，但全局哈希表、忽略列表和网络哈希表仅在目标端保存一份，分别由各自对应的进程负责管理和维护。

2.哈希表的计算和维护。具体内容和步骤如下：

①在***初始化处理时，先对源端设置标志位BackFlag，并置值为0，表示对应的源端未进行过数据备份；在源端、目标端和云端这三类对象计算哈希值时，规定统一的分块长度，采用相同的哈希值算法，分别计算哈希值，生成对应的哈希表，在哈希表中所有项目的“引用次数”字段统一置为1。

②源端在哈希表初始化生成完毕后进行重删处理，当在哈希表中数据块A和数据块B对应的哈希值信息记录中的哈希值相同时，数据块B对应哈希值信息记录的“起始地址”字段，将记录数据块A在哈希表中对应的哈希值记录的“块号”字段的值。同时，数据块B的“引用次数”字段置值为0，数据块A的“引用次数”字段的值要+1。

③目标端获取到云端数据块的哈希值信息记录时，先在忽略列表中查找是否有匹配的记录，如果找到则停止对当前记录的处理，进入下一条哈希值信息记录的处理，否则便继续到全局哈希表中查找，如果找到匹配的哈希值记录，则将对应的信息存入忽略列表，若未找到匹配的记录则将当前的哈希值信息存入网络哈希表。

④在源端数据发生更新时，根据BackFlag值的不同分三种情况处理。

当BackFlag=0时，说明***尚未进行过首次备份，首先更新源端哈希表，然后在网络哈希表和本地哈希表中查找对应数据块的哈希值记录，如果找到则将找到的哈希值记录从所在的表中删除；

当BackFlag=1时，则说明***正在实施备份处理，将对应数据块的哈希值记录的信息更新到实际备份计划表的第一级子表中。当该数据块信息在更新处理前并不在第一级子表中，则需要继续在第二级子表中查找匹配的数据块的哈希值信息记录，若找到则将该表和网络哈希表中对应的哈希值记录删除，否则需到第三级子表中继续查找，如果找到，将该表和本地哈希表中对应的哈希值记录删除。

当BackFlag=2时，说明***至少完成了首次备份，先将对应数据块的哈希值在网络哈希表中查找，如果找到对应的哈希值信息记录，则将网络哈希表中对应的哈希值信息记录复制到实际备份计划表的第二级子表中并删除网络哈希表中对应的那条记录，否则将哈希值信息记录直接更新到实际备份计划表的第一级子表中。

⑤当源端发出备份请求时，将BackFlag的值置为1。

⑥根据实际备份计划表，实施数据复制。

备份计划表中的三级子表，对应着数据复制的不同优先级。哈希值信息存储在第一级子表中的数据块处于最高的备份优先级，因为这些数据仅在源端存在，必须从源端复制到目标端。当源端的一个数据块A的复制处理完成时，将A对应的哈希值信息记录在第一级子表中删除，同时将数据块A在目标端的位置、哈希值等信息更新到第三级子表中，并同时更新全局哈希表。

当第一级子表中对应的数据块全部复制完成时，开始处理第二级子表中对应的数据块。若第二级子表不为空时，对表中每条记录逐次进行如下处理：

第一步，在开始复制前，根据数据块的哈希值记录中的云端位置信息，重新计算该云端数据源的哈希值，如果结果与更新计划表中记录的哈希值一致，说明云端数据与源端数据一致，直接从该云端节点复制对应的数据块，复制成功后转入第三步。如果不一致且该哈希值记录中还有另一云端位置信息，则针对下一个云端数据重复本步处理，否则进入第二步；

第二步，返回原始备份计划表，根据相应的信息记录，从源端复制对应的数据块并在数据复制完成后，进入第三步；

第三步，将对应的哈希值信息记录在第二级子表中删除，同时将该数据块在目标端的位置、哈希值等相关信息更新到第三级子表中，并将该数据块的哈希值信息备份到忽略列表中，同时更新全局哈希表。当第二级子表中所有的记录处理完成时，将BackFlag值置为2，备份处理结束。

Claims

1.一种云存储***的数据备份加速方法，其特征在于包括以下步骤：

步骤一、确定***中各个节点和子***所承担的角色，并根据角色的不同，安装相应的功能组件，以配合角色完成备份过程中的对应处理；

步骤二、在源端首次发出备份请求之前，进行特征码预处理；

(1)源端处理；首先，特征码管理组件对源端的数据分块进行哈希值的计算并生成哈希表，根据该表与自身的匹配查找，对源端的数据进行重删处理；在匹配查找的过程中，将重复出现的哈希值用指向第一次出现该哈希值的数据块的位置信息进行替换，同时对数据本身存储和对应的元数据也做相应的处理；然后，将完成重删处理的哈希表传送到目标端的特征码管理组件，传送到目标端且完成重删的哈希表即为源端哈希表；

(2)目标端处理；目标端对本数据中心内部的数据进行哈希值计算，生成目标端的全局哈希表，表中保存做重删处理后的最终结果；将该全局哈希表同源端哈希表进行比较，把哈希值匹配的项目集中起来，生成本地哈希表，并在源端、目标端的数据发生修改、删除等变化时加以维护；

(3)云端处理；目标端在完成***初始化后，利用空闲的计算资源和带宽，定期由备份服务中的数据获取功能组件采用网络爬虫的方法根据一定的规则在云端获取数据信息并计算相应的哈希值，将相应的云端位置、源端和云端哈希值的映射关系等数据备份所必需的基本信息收集后传回目标端；目标端对在云端通过爬虫程序获取的各个数据块的哈希值信息记录进行匹配查找，若***中的忽略列表不为空，则先在忽略列表中查找，若找到匹配的项目，则停止当前数据块信息记录的处理，取下一条记录进行处理；否则与目标端的全局哈希表中的项目进行比较，当一个数据块的哈希值找到匹配的项目时，将相应的信息存入一个忽略列表，否则存入网络哈希表；若网络爬虫程序在不同的网络站点上获得了相同的数据哈希值信息，则根据优先原则选择2-3个最优的结果保存到网络哈希表中；

步骤三、当源端发出备份请求时，源端组件先根据所有需要备份的数据块的各条哈希值信息记录生成源端的原始备份计划表，并发送到目标端；目标端的特征码管理组件将原始备份计划表中的记录逐条在对应的网络哈希表和本地哈希表中进行查找，根据查找结果进行相应的处理并生成实际备份计划表；实际备份计划表中有三个级别的子表，在未进行查找前，所有数据块的哈希值信息记录都存入第一级子表中，其余两个子表均为空；在匹配查找的过程中，如果数据块A的哈希值记录在网络哈希表中找到匹配的记录，则将A对应的哈希值记录从第一级子表中删除，同时从网络哈希表中将相应的哈希值记录复制到第二级子表中，并将此条记录从网络哈希表中删除；类似的若A的哈希值信息记录在本地哈希表中找到匹配的项目，则将该数据块的哈希值记录从第一级子表中删除，将本地哈希表中对应的哈希值记录复制到第三级子表中，并删除本地哈希表中对应的信息记录；查找过程结束后，实际备份计划表的第一级子表中的内容全部来自原始备份计划表，第二级子表中的内容来自网络哈希表，第三级子表的内容来自本地哈希表；

步骤四、数据复制处理；目标端备份管理服务将根据实际备份计划表实施具体的数据复制处理；第一步，处理第一级子表；根据第一级子表中记录将每个数据块从源端复制到目标端，当完成一块数据的复制时，将实际备份计划表中对应的哈希值信息记录删除，并将该数据块复制后的相应信息存入第三级子表，同时更新目标端的全局哈希表；第二步，处理第二级子表；根据第二级子表中记录将每个数据块从云端的网站复制到目标端，每当完成一块数据的复制时，将对应的信息记录从实际备份计划表中删除并在忽略列表加以保存，然后将该数据块复制后的相应信息存入第三级子表并同时更新全局哈希表；在第三级子表中的哈希值信息记录表明对应的数据块已经在目标端，不需要再做数据复制处理；

步骤五、差分备份处理；在完成初次处理的全备份后，***将按照一定的时间间隔进行定期的差分备份；差分备份的备份计划表是在两次备份处理的间隔中由每一次的源端数据更新触发的哈希表更新直接更新至实际备份计划表积累产生的。