CN101477487B

CN101477487B - 多次增量文件的备份方法和恢复方法

Info

Publication number: CN101477487B
Application number: CN2009100459543A
Authority: CN
Inventors: 张漳; 顾夏申; 邹恒明
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2009-01-22
Filing date: 2009-01-22
Publication date: 2010-09-29
Anticipated expiration: 2029-01-22
Also published as: CN101477487A

Abstract

一种计算机技术领域的多次增量文件的备份方法和恢复方法，其中备份方法为：扫描历史备份，决定是否备份及备份方式；打开所有增量备份的索引文件和内容文件，以及完全备份文件，以备读取；根据多次增量备份的索引文件，建立索引网络；根据索引网络，从头到尾逐块读出分块的内容到内存；每读出一个分块，都和新源文件的对应位置作比较，逐块生成新的增量备份的索引文件，并对其中不匹配的部分生成新的增量备份的内容文件；在读下一个分块内容之前，先释放这个分块所占的内存；恢复方法部分前期工作仅包括扫描历史备份；另外每读出一个分块，都写入恢复文件，其他步骤与备份部分相同。本发明加快了备份和恢复速度，节约运算时间、减少备份空间。

Description

多次增量文件的备份方法和恢复方法

技术领域

本发明涉及一种计算机技术领域的文件备份方法和恢复方法，具体是一种多次增量文件的备份方法和恢复方法。

背景技术

在当今的信息化、网络化社会里，计算机在工作和生活中扮演着极其重要的角色。越来越多的企业、商家、政府机关和个人通过计算机来获取信息、处理信息，同时将最重要的信息以数据文件的形式保存在计算机中。一旦这些重要的数据发生灾难，将会导致一个企业停止运转，如果数据丢失还有可能使一个企业面临破产。由此，人们开始关注如何来确保数据的完好，而数据备份则是最重要的解决方案。

经对现有技术的文献检索发现，申请号为200610001299.8的中国专利，名称为“数据恢复方法”，该专利需要本地与远程之间进行完整的文件交换，从而产生了大量的网络传输，在延长了数据恢复时间的同时还带来了传输安全隐患，更重要的是，反复存储同一文件的不同版本(但这些不同版本的大部分内容是相同的)，会导致大量的存储空间浪费。这表明需要一种“增量备份”的技术，使得只需备份同一文件不同版本之间的差异，从而减少网络开销和存储开销。

经检索还发现，申请号为200610116303.5的中国专利，名称为“计算机网络数据备份中文件匹配的方法”，该专利在每次备份时生成并传输一个增量备份到远程进行合成，尽管生成一次增量备份比较容易，但对于多次增量来说，这项技术有如下三个不足之处：

(1)逻辑上，一个增量备份是“最新版本备份的文件”和“当前的文件”之间的差异，所以要生成增量备份，必须首先存在这两个文件，才能算出差异。但是，由于增量备份的方式并不存储每个版本的完整的源文件，因此“最新版本备份的文件”并不直接存在，该源文件必须首先被恢复出来。这导致，要做备份，首先要做一次恢复，这是一种时间的浪费；

(2)为了保证恢复时的速度，每次备份必须进行合成，而合成以后就等于每个版本的备份都包含了所有历史上的增量备份信息，仍然浪费存储空间(同时，合成的动作也浪费了运算时间)。极端情况下，浪费的存储空间和每次都备份完整文件一样多。换言之，这并不是真正的多次增量，只是一系列的单次增量而已；

(3)如果不进行合成，则恢复时就极其缓慢，只要历史上有多少个增量备份版本，就要生成多少次中间文件，随着备份的版本越多，恢复会变得越来越慢。

发明内容

本发明的目的在于克服上述现有技术中的不足，提出了一种多次增量文件的备份方法和恢复方法，使其支持多次增量，能够在增量备份前，不必先恢复，从而大大加快备份速度；增量备份后，不必进行合成，从而大大节约运算时间、减少备份空间；恢复时，不必生成任何中间文件，从而大大加快恢复速度。

本发明是通过如下技术方案实现的：

本发明所涉及的多次增量文件的备份方法，包括如下步骤：

步骤一，前期工作：扫描历史备份，决定是否备份及备份方式；

步骤二，打开所有增量备份的索引文件和内容文件，以及第一次备份时直接拷贝的完全备份文件，以备读取；

步骤三，根据多次增量备份的索引文件，建立索引网络；

步骤四，根据索引网络，从头到尾逐块读出最新一次备份的每个分块的内容到内存；

步骤五，每读出一个分块，都和最新版本的源文件的对应位置作比较，逐块生成新的增量备份的索引文件，并对其中不匹配的部分生成新的增量备份的内容文件，然后，在读下一个分块内容之前，先释放这个分块所占的内存；

步骤六，后期工作：释放索引网络的内存空间，释放缓冲区内存空间，关闭所有文件。

本发明所涉及的多次增量文件的恢复方法，包括如下步骤：

步骤一，前期工作：扫描历史备份；

步骤二，打开所有增量备份的索引文件和内容文件，以及完全备份文件，以备读取；

步骤三，根据多次增量备份的索引文件，建立索引网络；

步骤五，每读出一个分块，都写入恢复文件，该恢复文件就是最终得到的恢复结果，在读下一个分块之前，释放这个块的内存；

步骤一中所述扫描历史备份，决定是否备份及备份方式，包括如下步骤：

①扫描寻找源文件的所有历史备份(即：在存放备份的目录下列举所有文件)，找到该源文件最初的完全备份和之后的所有增量备份，并将所有增量备份存入一个链表；

②取出其中最后一次备份(可能为完全备份或增量备份)，比较该备份文件和需要备份的源文件的修改日期，如果最后一次备份文件的日期较新，则放弃备份，否则进入步骤③；

③如果该文件以前从未做过备份，则此次执行完全备份，即直接拷贝该文件。

步骤三中所述的根据多次增量备份的索引文件，建立索引网络，包括如下具体步骤：

①构造第一条索引链：将最初的索引文件中的各分块信息逐块读出，并在内存中按顺序构成一个链表，其中匹配块指向最初的完全备份文件中的存放位置，非匹配块指向该索引文件对应的增量内容文件中的存放位置，并在构造链表的过程中，计算每一块所处的位置，每一块的“位置”的起始点是该一块前面的所有块的大小之和，通过累加前面所有块的大小，得到本块的位置；

②构造第二条到最后一条索引链：按从老到新的顺序读剩下的索引文件，对于每个索引文件，都把其中的分块信息构造成一条链表；同时，匹配块指向前一完整文件中的存放位置，不匹配块指向本索引对应的增量内容文件中的存放位置，并计算该块在该版本完整文件中的位置(通过累加前面所有块的大小，得到本块的位置)；

③连接相邻两条链：对于所有相邻的两条链，称前面一条为旧链，后面一条为新链。对于新链的每一个匹配块，都指向旧链中对应的依赖块，具体方法为，通过步骤②中得到的匹配块指向前一完整文件中的存放位置，在旧链中搜寻那一个块的位置范围覆盖了这个位置，位置范围是该块在自己版本的完整文件中的[起始位置，起始位置+块长度]之间的范围，这个覆盖了对应位置的块即为对应的依赖块。这样，就形成了索引网络。

步骤四中所述的根据索引网络，从头到尾逐块读出分块的内容到内存，包括如下具体步骤：

①要恢复一个块，首先检查这个块的类型，如果是不匹配块，则直接从对应的增量内容文件中的相应位置读出；如果是匹配块，则转到步骤②；

②通过索引网络找到该块的依赖块，读这个依赖块，如果依赖块是不匹配块，则从依赖块对应的增量内容文件中读出。如果依赖块是匹配块，则继续向依赖块的依赖块追溯，直到遇到不匹配块，或者遇到最老的索引文件链中的匹配块。这是一个递归过程；

③如果读取的依赖块长度未达到本块的需要，则在索引链中搜寻依赖块的下一个块继续读取，直到读出的总长度达到该块的要求。这样，就读到了任意一个块的内容。

步骤五中所述逐块生成新的增量备份的索引文件，并对其中不匹配的部分生成新的增量备份的内容文件，具体如下：如已经有旧文件的备份，则形成从旧文件变到新文件的增量备份，比较新、旧两个文件的内容，当发现任何新增、删除、修改的内容时，就把它们作为“分块”的边界，比较完毕后，新、旧文件都被分成多个分块，凡是未修改的块，都是匹配的块；凡是增、删、改过的块，都是不匹配的块，新建一个索引文件、一个增量内容文件，其中索引文件里记下新文件每个分块的信息，分块的信息包括位置、长度、是否匹配，对于位置信息，如果是匹配的块，则记录块在旧文件中的位置；如果是不匹配的块，则记录块在增量内容文件中的位置，增量内容文件里记下每个不匹配块的内容。

步骤五中所述的每读出一个分块，都写入恢复文件，具体如下：在恢复的时候，读入索引文件，根据对每个块的描述，读入块的内容并写入恢复文件中，如果是匹配块，则在旧文件中读取；如果是不匹配块，则在增量内容文件中读取，就恢复了新文件。但没有完整的旧文件，因此方法是通过索引网络分块读出旧文件的内容。

多次增量文件的恢复方法的前期工作仅包括扫描历史备份，另外每读出一个分块，都写入恢复文件，其他步骤与备份方法相同。

与现有技术相比，本发明具有以下优点：

(1)增量备份前，不必先恢复，从而大大加快备份速度。增量备份需要用最近一次备份的完整源文件和新的源文件进行比较，但多次增量时，最近一次备份的是增量备份文件(含增量内容文件和索引文件)，而不是完整源文件。现有技术不得不首先恢复出一个完整源文件用于比较。但本发明使用多次增量索引文件生成索引网络，利用索引网络，可以不必恢复完整的源文件，就能读取完整源文件中任何一块内容，从而避免了恢复源文件这一步。现有技术如果在备份时做合成，则此时需要一次恢复的时间；如果在备份是不做合成，则此时需要恢复的次数和增量备份的次数一样多；

(2)增量备份后，不必进行合成，从而大大节约运算时间、减少备份空间。现有技术需要合成，合成操作至少需要恢复一次源文件的时间；本发明避免了合成，不需要任何时间。合成出的文件大小约为历史上所有增量文件的总和，假设每次备份的内容文件大约相等，设为n，共备份k次，则现有技术约需要k(k+1)n/2的存储空间；本发明避免了合成，总共只需要kn的存储空间，只占现有技术所需空间的2/(k+1)；

(3)恢复时，不必生成任何中间文件，从而大大加快恢复速度。现有技术的恢复必须基于一个旧的完整源文件和一个增量备份，对于多次增量，例如n次增量，现有技术不得不首先用最老的源文件和第1个增量备份恢复出第1个中间文件，再用第1个中间文件和第2个增量备份恢复出第2个中间文件……以此类推，直到得到第n-1个中间文件，最后用第n-1个中间文件和第n个增量备份恢复出最终的源文件。本发明利用索引网络可以直接定位并读取任何一个版本的增量备份(或最老的源文件备份)中的内容，因此完全避免了任何中间文件的产生。现有技术需要恢复n次文件的时间，而本发明只需恢复1次文件的时间。

附图说明

图1是本发明的实施例中单次增量备份的工作原理图；

图2是本发明多次备份、恢复的工作流程图；

图3是本发明多次增量备份工作原理图；

图4是本发明多次增量恢复工作原理图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，下面首先说明实施例单次增量备份的原理。

当需要备份的文件被修改后，就从旧文件变成了新文件。假设已经有旧文件的备份，现在要得到从旧文件变到新文件的增量备份。比较新、旧两个文件的内容，当发现任何新增、删除、修改的内容时，就把它们作为“分块”的边界。比较完毕后，新、旧文件都被分成多个分块。凡是未修改的块，都是匹配的块；凡是增、删、改过的块，都是不匹配的块。新建一个索引文件、一个增量内容文件，其中索引文件里记下新文件每个分块的信息(包括位置、长度、是否匹配。对于“位置”这一信息来说，如果是匹配的块，则记录块在旧文件中的位置；如果是不匹配的块，则记录块在增量内容文件中的位置)，增量内容文件里记下每个不匹配块的内容。在恢复的时候，读入索引文件，根据对每个块的描述，读入块的内容并写入恢复文件中(如果是匹配块，则在旧文件中读取；如果是不匹配块，则在增量内容文件中读取)，就恢复了新文件。

以图1中的具体数据为例，旧文件内容为“10 20 30 40 50 60 70 80 90”，新文件内容为“10 40 50 60 61 62 63 70 85 86 90”。比较这两个文件的内容，根据这两个文件发生变化(新增、删除、修改)的边界，可以把它们分块，旧文件被分为“10”、“20 30”、“40 50 60”、“70”、“80”、“90”这些块，新文件被分为“10”、“40 50 60”、“61 62 63”、“70”、“85 86”、“90”这些块。其中，“10”、“40 50 60”、“70”、“90”这四块，新文件和旧文件相同，所以就是匹配块，它们无需写入增量内容文件中。“61 62 63”和“85 86”两块只有新文件有，旧文件没有，所以它们是不匹配块，需要被写入增量内容文件中。旧文件中其他的块在新文件中不复存在，就是删除的块，对它们无需任何处理。无论是匹配块还是不匹配块，它们的信息都要写入索引文件中，这些信息包括：是否匹配块、位置(如果是匹配块，则指在旧文件中的位置；如果是不匹配块，则指在增量内容文件中的位置)、长度(例如，块“10”长度为1，块“61 62 63”长度为3)。这就完成了备份。恢复时，读出索引文件中每块的信息，信息指出了从哪个文件寻找块的内容(若是匹配块，则在旧文件中寻找；若是不匹配块，则在增量内容文件中寻找)、从文件的哪个位置寻找块的内容(“位置”信息指出了这一点)、块的内容有多长(“长度”信息指出了这一点)。使用这些信息，把每一块的内容读出来，按顺序写入一个文件，即恢复成功。

如图2所示，本实施例涉及多次增量文件的备份方法和恢复方法两部分，其中，多次增量文件的备份方法包括如下步骤：

步骤一，扫描历史备份，决定是否备份及备份方式；

步骤三，根据多次增量备份的索引文件，建立索引网络；

步骤五，每读出一个分块，都和新源文件的对应位置作比较，逐块生成新的增量备份的索引文件，并对其中不匹配的部分生成新的增量备份的内容文件，然后，在读下一个分块内容之前，先释放这个分块所占的内存；

步骤六，释放索引网络的内存空间，释放缓冲区内存空间，关闭所有文件。

多次增量文件的恢复方法包括如下步骤：

步骤一，扫描历史备份；

步骤三，根据多次增量备份的索引文件，建立索引网络；

所述扫描历史备份，决定是否备份及备份方式，包括如下步骤：

如图3、图4所示，本实施例涉及多次增量文件的备份方法和恢复方法所述根据多次增量备份的索引文件，建立索引网络，包括如下步骤：

如图3、图4所示，本实施例涉及多次增量文件的备份方法和恢复方法所述根据索引网络，从头到尾逐块读出分块的内容到内存，包括如下具体步骤：

③如果读取的依赖块长度未达到本快的需要，则在索引链中搜寻依赖块的下一个块继续读取，直到读出的总长度达到该块的要求。这样，就读到了任意一个块的内容。

备份方法的步骤五中，所述逐块生成新的增量备份的索引文件，并对其中不匹配的部分生成新的增量备份的内容文件，具体如下：如已经有旧文件的备份，则形成从旧文件变到新文件的增量备份，比较新、旧两个文件的内容，当发现任何新增、删除、修改的内容时，就把它们作为“分块”的边界，比较完毕后，新、旧文件都被分成多个分块，凡是未修改的块，都是匹配的块；凡是增、删、改过的块，都是不匹配的块，新建一个索引文件、一个增量内容文件，其中索引文件里记下新文件每个分块的信息，分块的信息包括位置、长度、是否匹配，对于位置信息，如果是匹配的块，则记录块在旧文件中的位置；如果是不匹配的块，则记录块在增量内容文件中的位置，增量内容文件里记下每个不匹配块的内容。

如图4所示，恢复方法的步骤五中，所述每读出一个分块，都写入恢复文件，具体如下：在恢复的时候，读入索引文件，根据对每个块的描述，读入块的内容并写入恢复文件中，如果是匹配块，则在旧文件中读取；如果是不匹配块，则在增量内容文件中读取，就恢复了新文件。但没有完整的旧文件，因此方法是通过索引网络分块读出旧文件的内容。

本实施例在增量备份前避免了先恢复，从而大大加快备份速度；在增量备份后避免了进行合成，从而大大节约运算时间、减少备份空间；在恢复时，避免了生成任何中间文件，从而大大加快恢复速度。

Claims

1.一种多次增量文件的备份方法，其特征在于，包括如下步骤：

步骤一，扫描历史备份，决定是否备份及备份方式；

步骤三，根据多次增量备份获得的多个索引文件，建立索引网络，包括如下步骤：

①构造第一条索引文件链：将最初的索引文件中的各分块信息逐块读出，并在内存中按顺序构成一个链表，其中匹配块指向最初的完全备份文件中的存放位置，非匹配块指向该索引文件对应的增量备份的内容文件中的存放位置，并在构造链表的过程中，计算每一块所处的位置，每一块的位置的起始点是该一块前面的所有块的大小之和，通过累加前面所有块的大小，得到本块的位置；

②构造第二条到最后一条索引文件链：按从老到新的顺序读剩下的索引文件，对于每个索引文件，都把其中的分块信息构造成一条链表；同时，匹配块指向前一源文件中的存放位置，不匹配块指向本索引对应的增量备份的内容文件中的存放位置，并计算该块在该版本的源文件中的位置；

③连接相邻两条链：对于所有相邻的两条链，称前面一条为旧链，后面一条为新链，对于新链的每一个匹配块，都指向旧链中对应的依赖块，具体方法为，通过步骤②中得到的匹配块指向前一源文件中的存放位置，在旧链中搜寻哪一个块的位置范围覆盖了这个位置，位置范围是该块在自己版本的源文件中的[起始位置，起始位置+块长度]之间的范围，这个覆盖了对应位置的块即为对应的依赖块，就此形成了索引网络；

步骤四，根据索引网络，从头到尾逐块读出最新一次备份的每个分块的内容到内存，同时每读出一个分块，都和最新版本的源文件的对应位置作比较，逐块生成新的增量备份的索引文件，并对其中不匹配的部分生成新的增量备份的内容文件，然后，在读下一个分块内容之前，先释放这个分块所占的内存；

步骤五，释放索引网络的内存空间，释放缓冲区内存空间，关闭所有文件。

2.根据权利要求1所述的多次增量文件的备份方法，其特征是，步骤一中

①扫描寻找源文件的所有历史备份，找到该源文件最初的完全备份文件和之后的所有增量备份，并将所有增量备份存入一个链表；

②取出其中最后一次备份，比较该备份文件和需要备份的源文件的修改日期，如果最后一次备份文件的日期较新，则放弃备份，否则进入步骤③；

3.根据权利要求1所述的多次增量文件的备份方法，其特征是，步骤四中根据索引网络，从头到尾逐块读出分块的内容到内存，包括如下步骤：

①要恢复一个块，首先检查这个块的类型，如果是不匹配块，则直接从对应的增量备份的内容文件中的相应位置读出；如果是匹配块，则转到步骤②；

②通过索引网络找到该块的依赖块，读这个依赖块，如果依赖块是不匹配块，则从依赖块对应的增量备份的内容文件中读出，如果依赖块是匹配块，则继续向依赖块的依赖块追溯，直到遇到不匹配块，或者遇到最老的索引文件链中的匹配块；

③如果读取的依赖块长度未达到本块的需要，则在索引文件链中搜寻依赖块的下一个块继续读取，直到读出的总长度达到该块的要求。

4.根据权利要求1所述的多次增量文件的备份方法，其特征是，步骤四中逐块生成新的增量备份的索引文件，并对其中不匹配的部分生成新的增量备份的内容文件，具体如下：如已经有源文件的备份，则形成从源文件变到新文件的增量备份，比较新文件和源文件的内容，当发现任何新增、删除、修改的内容时，就把它们作为“分块”的边界，比较完毕后，新文件和源文件都被分成多个分块，凡是未修改的块，都是匹配的块；凡是增、删、改过的块，都是不匹配的块，新建一个索引文件、一个增量备份的内容文件，其中索引文件里记下新文件每个分块的信息，分块的信息包括位置、长度、是否匹配，对于位置信息，如果是匹配的块，则记录块在源文件中的位置；如果是不匹配的块，则记录块在增量备份的内容文件中的位置，增量备份的内容文件里记下每个不匹配块的内容。

5.一种多次增量文件的恢复方法，其特征在于，包括如下步骤：

步骤一，扫描历史备份；

步骤四，根据索引网络，从头到尾逐块读出最新一次备份的每个分块的内容到内存，同时每读出一个分块，都写入恢复文件，该恢复文件就是最终得到的恢复结果，在读下一个分块之前，释放这个块的内存；

6.根据权利要求5所述的多次增量文件的恢复方法，其特征是，步骤四中根据索引网络，从头到尾逐块读出分块的内容到内存，包括如下步骤：

7.根据权利要求5所述的多次增量文件的恢复方法，其特征是，步骤四中，每读出一个分块，都写入恢复文件，是指：在恢复的时候，读入索引文件，根据对每个块的描述，读入块的内容并写入恢复文件中，如果是匹配块，则在源文件中读取；如果是不匹配块，则在增量备份的内容文件中读取，就恢复了新文件。