CN101236525A

CN101236525A - 文件存储、读取、删除及复制方法及其相关***

Info

Publication number: CN101236525A
Application number: CNA2008100042564A
Authority: CN
Inventors: 祁小满
Original assignee: UIT STORAGE TECHNOLOGY (SHENZHEN) Co Ltd
Current assignee: UIT STORAGE TECHNOLOGY (SHENZHEN) Co Ltd
Priority date: 2008-01-24
Filing date: 2008-01-24
Publication date: 2008-08-06

Abstract

本发明公开了一种文件存储方法，针对每一个待存储文件执行：将该文件划分数据块，针对每一划分出的数据块执行：根据该数据块内容计算该数据块的唯一标识；在存储数据块唯一标识的第一存储区域中，检索是否存在该计算出的唯一标识，如果存在，将该计算出的唯一标识存储在与第三存储区域中与该待存储文件对应的文件中；否则将该计算出的唯一标识存储在所述第一存储区域中，以及将该数据块与该计算出的唯一标识对应存储在所述第二存储区域中，并将该计算出的唯一标识存储在所述第三存储区域中与该待存储文件对应的文件中。本发明还公开了一种读取、删除及复制方法及其相关***。本发明节约存储文件的存储空间，减少传输文件时所占用的网络带宽资源。

Description

文件存储、读取、删除及复制方法及其相关***

技术领域

本发明涉及数据存储技术领域，更具体的，涉及一种文件存储、读取、删除及复制方法及其相关***。

背景技术

目前在数据存储技术领域，对于每一个待存储的文件都分别进行单独存储，而不关心不同文件，或同一文件的不同部分中是否存在相同内容的数据。

如图1所示，为现有技术中传统的文件存储方案示意图，图中文件1、文件2和文件3分别由3个数据块组成，其中图案相同的数据块代表内容相同的数据块，可见传统的文件存储方案根本不关心不同文件，或同一文件的不同部分中是否存在内容相同的数据，而是针对每个文件分别进行单独存储。

由此可见，按照传统的文件存储方案，如果针对每个文件分别进行单独存储，而忽略不同文件，或同一文件的不同部分中相同的数据内容，这样存储过多的相同数据内容势必会浪费物理存储空间。

此外，在一般情况下，通过网络传输文件时，也不会考虑不同文件，或同一文件的不同部分中相同的数据内容，这样传输过多的相同数据内容势必也会浪费网络带宽资源。

发明内容

本发明提供一种文件存储方法及其***，以节约存储文件的物理存储空间，以及减少传输文件时所占用的网络带宽资源。

本发明提供了一种文件存储方法，包括针对每一个待存储文件执行：

将该文件划分数据块，针对每一划分出的数据块执行：

根据该数据块内容计算该数据块的唯一标识；

在存储数据块唯一标识的第一存储区域中，检索是否存在该计算出的唯一标识，如果存在，将该计算出的唯一标识存储在第三存储区域中与该待存储文件对应的文件中；否则

将该计算出的唯一标识存储在所述第一存储区域中，以及将该数据块与该计算出的唯一标识对应存储在所述第二存储区域中，并将该计算出的唯一标识存储在所述第三存储区域中与该待存储文件对应的文件中。

本发明方法还包括：

将该数据块存储在第二存储区域中时，配置该数据块的初始引用值为1；

以及在检索到第一存储区域中已经存在该计算出的唯一标识时，将所述第二存储区域中存储的与该计算出的唯一标识对应的数据块的当前引用值加1。

对应的，本发明还提供了一种文件读取方法，包括：

针对待读取文件中存储的每一个数据块唯一标识，执行：

根据该唯一标识，在所述第二存储区域中检索对应的数据块，以及

读取出检索到的数据块；

将针对所述待读取文件中存储的每一个数据块唯一标识，读取出的各个数据块依次组合，作为读取出的文件。

对应的，本发明还提供了一种文件删除方法，包括：

针对待删除文件中存储的每一个数据块唯一标识，执行：

查看检索到的数据块的当前引用值是等于1还是大于1，如果等于1，删除该检索到的数据块；

如果大于1，继续保存该检索到的数据块，并将检索到的数据块的当前引用值减1；

删除该待删除文件。

对应的，本发明还提供了一种文件复制方法，包括：

将被复制文件中存储的每一个数据块唯一标识，复制到复制文件中，以及针对复制文件中的每一个数据块唯一标识，执行：

将检索到的数据块的当前引用值加1。

相应的，本发明还提供了一种文件存储***，包括：块划分单元，用于对待存储文件划分数据块；标识计算单元，用于根据划分出的数据块内容，计算数据块的唯一标识；标识检索单元，用于在存储数据块唯一标识的第一存储区域中，检索是否存在计算出的唯一标识；第一存储单元，用于在检索结果为存在时，将计算出的唯一标识存储在第三存储区域中与该待存储文件对应的文件中；第二存储单元，用于在检索结果为不存在时，将计算出的唯一标识存储在所述第一存储区域中，以及将数据块与计算出的唯一标识对应存储在所述第二存储区域中，并将计算出的唯一标识存储在所述第三存储区域中与该待存储文件对应的文件中。

所述***还包括：初始值配置单元，用于在第二存储单元将数据块存储在第二存储区域中时，配置该存储的数据块的初始引用值为1；初始值累加单元，用于在标识检索单元检索到第一存储区域中已经存在计算出的唯一标识时，将所述第二存储区域中存储的与计算出的唯一标识对应的数据块的当前引用值加1。

对应的，本发明还提供了一种文件读取***，包括：数据块检索单元，用于针对待读取文件中存储的每一个数据块唯一标识，在所述第二存储区域中检索对应的数据块，以及读取单元，用于读取出检索到的数据块；组合单元，用于将针对所述待读取文件中存储的每一个数据块唯一标识，读取出的各个数据块依次组合，作为读取出的文件。

对应的，本发明还提供了一种文件删除***，包括：数据块检索单元，用于针对待删除文件中存储的每一个数据块唯一标识，在所述第二存储区域中检索对应的数据块，以及查看单元，用于查看检索到的数据块的当前引用值是等于1还是大于1；数据块删除单元，用于在查看结果为等于1时，删除检索到的数据块；引用值递减单元，用于在查看结果为大于1时，继续保存该检索到的数据块，并将检索到的数据块的当前引用值减1；文件删除单元，用于删除待删除文件。

对应的，本发明还提供了一种文件复制***，包括：标识复制单元，用于将被复制文件中存储的每一个数据块唯一标识，复制到复制文件中，以及数据块检索单元，用于针对复制文件中的每一个数据块唯一标识，在所述第二存储区域中检索对应的数据块；引用值递增单元，用于将检索到的数据块的当前引用值加1。

本发明文件存储方案通过将文件划分成一个或多个小的数据块，对于内容相同的数据块在物理存储空间中仅存储一次，这样就可以节约存储文件所占用的物理存储空间，并减少传输文件时所占用的网络带宽资源。

附图说明

下面将结合各个附图对本发明具体实施方式进行详细的阐述，其中在各个附图中：

图1为现有技术中传统的文件存储方案示意图；

图2为本发明方案提出的数据块数据结构示意图；

图3为本发明文件存储方法的具体存储过程示意图；

图4为在上述图3的基础上，进而存储第二个文件后的存储过程示意图；

图5为采用本发明文件存储方法后，文件的存储结构示意图；

图6为针对图1实施例，使用本发明方案进行文件存储后的存储示意图；

图7为分别按照现有传统方式和本发明方式进行一周数据备份的示意图；

图8为分别按照传统文件存储方式和本发明文件存储方式，存储文件的结构示意图；

图9为采用本发明文件存储方案后进行文件传输的示意图；

图10为基于本发明提出的文件存储方案提出的文件读取方法流程图；

图11为基于本发明提出的文件存储方案提出的文件删除方法流程图；

图12为基于本发明提出的文件存储方案提出的文件复制方法流程图；

图13为本发明文件存储***的具体组成结构框图；

图14为本发明文件读取***的具体组成结构框图；

图15为本发明文件删除***的具体组成结构框图；

图16为本发明文件复制***的具体组成结构框图。

具体实施方式

本发明文件存储方案的设计思想是：按照一定的策略将待存储文件划分成一个或多个小的数据块，对于内容相同的数据块在物理存储空间中只存储一次，从而节约存储文件的存储空间，以及减少传输文件时所占用的网络带宽资源。而之所以将较大的文件划分成较小的数据块，是为了最大限度的得到更多内容重复的数据块，达到更好的节约存储空间的效果。

按照本发明实施例文件存储方法，针对每一个待存储文件执行的具体流程如下：

将该待存储文件划分成数据块，其中可以将该待存储文件划分为长度相等的数据块，也可以将该待存储文件划分为长度不等的数据块；针对每一个划分出的数据块执行如下处理：

根据该数据块内容计算该数据块的唯一标识，较佳地可以基于哈希算法来计算该数据块的唯一标识；

在存储数据块唯一标识的第一存储区域中，检索是否存在该计算出的唯一标识，如果存在，忽略存储该数据块，直接将该唯一标识存储在第三存储区域中与该待存储文件对应的文件中；否则

将该计算出的唯一标识存储在第一存储区域中，以及将该数据块与该计算出的唯一标识对应存储在第二存储区域中，并将该唯一标识存储在第

三存储区域中与该待存储文件对应的文件中。

此外，为了便于后续的文件读取、删除、复制等操作，在将该数据块存储在第二存储区域中时，配置该数据块的初始引用值为1；以及在检索到第一存储区域中已经存在了该计算出的唯一标识时，将第二存储区域中存储的与该计算出的唯一标识对应的数据块的当前引用值加1。

根据本发明方案的上述实现过程，下述实施例将数据块唯一标识称之为指纹(fingerprint)，用于存储数据块唯一标识的第一存储区域称之为快速指纹索引表存储区域进行说明。

本发明方案对文件进行划分数据块处理，其划分出的数据块是一种数据结构，是数据的存储单元，它是以文件的形式存储在传统文件***中一类文件。如图2所示，为本发明方案提出的数据块数据结构示意图，其中：

fingerprint：指纹，用以唯一识别一个数据块。

LinkedCounter：引用值，表示一个数据块被多个文件共享的次数，即该数据块被多个文件引用的次数。

Blob：数据块的实际内容，其内容可以是一个文件的全部，也可以是文件的一部分，但不允许将多个文件的内容存储在同一个数据块中。

当***接收到一个文件后，按预定义的块划分规则将该文件分割成更小的数据块，然后用哈希(SHA1)算法为每个数据块生成一个能唯一标识其内容的标识符，称之为指纹。之所以使用SHA1算法计算每一个数据块的指纹信息，具体理由如下：

i)SHA1函数具有很强的抗冲突性，其冲突机率为2^-160即10^-48，统计结果表明，任意两个分别为M1、M2的输入具有完全相同的散列值的概率为10-^10～-24，接近于零，比人类指纹的重复概率10^-10～-19还要小5个数量级，所以使用该算法为不同内容的数据块生成相同指纹的可能性极小。

ii)SHA1函数具有很强的雪崩效应，即当输入数值的一个bit发生变化后，散列结果中将有一半以上的bit改变，能识别出内容的微小改变。

iii)另外，如果输入数值M1与M2完全相同，则有SHA1(M1)与SHA1(M2)的散列值也完全相同，符合根据指纹进行内容识别的要求。

iv)SHA1的时间复杂度为线性，T(n)＝O(n)，数据块大小对指纹的产生效率没有影响。

其中快速指纹索引表存储区域中存储有一张快速指纹索引表，该表中存储有***中所有的数据块指纹信息，第二存储区域中存储有针对各个文件划分出的数据块内容。如图3所示，为本发明文件存储方法的具体存储过程示意图，假设***首先接收到一个文件A，按照预设划分规则将其拆分为数据块a、b、c和d四个数据块。先针对数据块a计算出其指纹信息为Fa，查看快速指纹索引表中是否存在该指纹，查看结果为不存在，则将该计算出的指纹信息Fa存储在快速指纹索引表中，并将该指纹信息Fa和数据块a对应存储在用于存储数据块内容的第二存储区域中，并将数据块a的引用值置为初始值1，然后将该计算出的指纹信息Fa存储在第三存储区域(即文件存储区域)中与文件A对应的文件A’中。再次针对数据块b计算出其指纹信息为Fb，查看快速指纹索引表中是否存在该指纹，查看结果为不存在，则将该计算出的指纹信息Fb存储在快速指纹索引表中，并将该指纹信息Fb和数据块b对应存储在第二存储区域中，并将数据块b的引用值置为初始值1，然后将该计算出的指纹信息Fb存储在文件A’中。依次类推，如果数据块a、b、c和d都不存在内容重叠，则针对文件A的最终存储结果如图3所示。

如图4所示，为在上述图3的基础上，进而存储第二个文件后的存储过程示意图，后续***接收到一个文件B，按照预设划分规则将其拆分为数据块a、e和x，首先针对数据块a计算出其指纹信息为Fa，查看快速指纹索引表中是否存在该指纹，查看结果为存在，则忽略将该计算出的指纹信息Fa和数据块a对应存储在第二存储区域中，并在第二存储区域中将数据块a的引用值加1处理，然后将该计算出的指纹信息Fa存储在文件存储区域中与文件B对应的文件B’中。依次类推，针对数据块e和x分别进行上述存储处理，则针对文件B的最终存储结果如图4所示。

在传统的文件存储***中，文件中的数据是独占的，即数据只能属于某个文件，其它文件均无法访问或共享这个文件中的某些数据。而采用本发明文件存储方案后，存储文件中将不包含文件的实际内容，其实际内容将由一组数据块指纹组成，同一数据块可以被多个文件引用，并且对于内容相同的数据块在***中只会被存储一次，从而节约了物理存储空间。如图5所示，为采用本发明文件存储方法后，文件的存储结构示意图。

按照本发明提出的文件存储方法，下面列举几个实施例以对本发明技术方案的有益效果进行详尽说明。

实施例1：

以上述背景技术中图1所示的实施例为例来说明，采用本发明文件存储方案后，对于文件1、文件2和文件3中内容相同的数据块可以仅存储一次，因此在存储介质中对文件1、文件2和文件3进行存储的示意图如图6所示。可见相对于图1使用传统方式存储文件，存储空间节约了很多。

实施例2：

如图7所示，为分别按照现有传统方式和本发明方式进行一周数据备份的示意图，可见按照现有技术的传统存储方式，从周2至周7之间每天都要存储以前内容相同的数据块，因此导致存储空间极大的浪费，而采用本发明文件存储方案，从周2至周7之间每天只需要存储以前没有存储过的数据块，对于已由前几天存储过的数据块将不再重复存储，因此较好的节约了存储空间。

实施例3：

如图8所示，为分别按照传统文件存储方式和本发明文件存储方式，存储文件的结构示意图，可见按照传统存储方式，相同内容的数据块将重复存储，每个数据块被对应的文件专用，因此存储文件A和B，需要存储7个数据块。而采用本发明文件存储方案，相同内容的数据块仅被存储一次，一个数据块可被多个文件共享，因此存储文件A和B，才需要存储4个数据块。

实施例4：

如图9所示，为采用本发明文件存储方案后进行文件传输的示意图，可见对于内容相同的数据块，在网络中仅需要传输一次，无需象传统存储技术一样对于不同文件中的相同内容要进行重复传输，因此较好的节约了网络传输资源。

如图10所示，为基于本发明提出的文件存储方案，而提出的文件读取方法流程图，其中具体实现过程如下：

步骤101，获取待读取文件中存储的第一条指纹记录；

步骤102，判断是否已经读到指纹记录的结尾处，如果是执行步骤106，否则执行步骤103；

步骤103，根据读取的该指纹记录，在第二存储区域中检索对应的数据块；

步骤104，读取出检索到的数据块，并将其添加到要输出的数据流中；

步骤105，获取待读取文件中存储的下一条指纹记录，然后回至步骤102继续执行；

步骤106，输出整个文件的数据流。

如图11所示，为基于本发明提出的文件存储方案，而提出的文件删除方法流程图，其中具体实现过程如下：

步骤111，获取待删除文件中的第一条指纹记录；

步骤112，判断是否已经读到指纹记录的结尾处，如果是执行步骤118，否则执行步骤113；

步骤113，根据读取的该指纹记录，在第二存储区域中检索对应的数据块；

步骤114，判断检索到的数据块的当前引用值是等于1还是大于1；若等于1执行步骤115，若大于1执行步骤116；

步骤115，删除该检索到的数据块，然后执行步骤117；

步骤116，将该检索到的数据块的当前引用值减1处理，然后执行步骤117；

步骤117，获取待读取文件中存储的下一条指纹记录，然后回至步骤112继续执行；

步骤118，删除该待删除文件。

如图12所示，为基于本发明提出的文件存储方案，而提出的文件复制方法流程图，其中具体实现过程如下：

步骤121，将被复制文件中存储的每一条指纹记录，复制到复制文件中；

步骤122，获取复制文件中存储的第一条指纹记录；

步骤123，判断是否已经读到指纹记录的结尾处，如果是则结束；否则执行步骤124；

步骤124，根据读取的该指纹记录，在第二存储区域中检索对应的数据块；

步骤125，将该检索到的数据块的当前引用值加1处理；

步骤126，获取复制文件中存储的下一条指纹记录，然后回至步骤123继续执行。

对应的，本发明实施例还提供了一种文件存储***，如图13所示，为本发明文件存储***的具体组成结构框图，其中块划分单元130，用于对待存储文件划分数据块；标识计算单元131，用于根据划分出的数据块内容，计算数据块的唯一标识；标识检索单元132，用于在存储数据块唯一标识的第一存储区域133中，检索是否存在计算出的唯一标识；第一存储单元134，用于在检索结果为存在时，忽略将数据块与计算出的唯一标识对应存储在用于存储数据块的第二存储区域135中，直接将计算出的唯一标识存储在第三存储区域139中与该待存储文件对应的文件中；初始值累加单元136，用于在标识检索单元132检索到第一存储区域133中已经存在计算出的唯一标识时，将所述第二存储区域135中存储的与计算出的唯一标识对应的数据块的当前引用值加1。第二存储单元137，用于在检索结果为不存在时，将计算出的唯一标识存储在所述第一存储区域133中，以及将数据块与计算出的唯一标识对应存储在所述第二存储区域135中，并将计算出的唯一标识存储在所述第三存储区域139中与该待存储文件对应的文件中；初始值配置单元138，用于在第二存储单元将数据块存储在第二存储区域135中时，配置该存储的数据块的初始引用值为1。

其中上述第一存储区域133中存储有针对所有存储文件划分出的数据块的唯一标识信息，第二存储区域135中存储有针对所有文件的数据块信息，第三存储区域139中存储有每个存储文件的信息，其中每个存储文件中包含针对该文件的数据块唯一标识信息。

对应的，本发明实施例还提供了一种文件读取***，如图14所示，为本发明文件读取***的具体组成结构框图，其中数据块检索单元140，用于针对待读取文件中存储的每一个数据块唯一标识，在第二存储区域141中检索对应的数据块，以及读取单元142，用于读取出检索到的数据块；组合单元143，用于将针对所述待读取文件中存储的每一个数据块唯一标识，读取出的各个数据块依次组合，作为读取出的文件。

对应的，本发明实施例还提供了一种文件删除***，如图15所示，为本发明文件删除***的具体组成结构框图，其中数据块检索单元150，用于针对待删除文件中存储的每一个数据块唯一标识，在第二存储区域151中检索对应的数据块，以及查看单元152，用于查看检索到的数据块的当前引用值是等于1还是大于1；数据块删除单元153，用于在查看结果为等于1时，删除检索到的数据块；引用值递减单元154，用于在查看结果为大于1时，继续保存该检索到的数据块，并将检索到的数据块的当前引用值减1；文件删除单元155，用于在针对待删除文件中存储的每一个数据块唯一标识分别执行完成上述处理后，删除该待删除文件。

对应的，本发明实施例还提供了一种文件复制***，如图16所示，为本发明文件复制***的具体组成结构框图，其中标识复制单元160，用于将被复制文件中存储的每一个数据块唯一标识，复制到复制文件中，以及数据块检索单元161，用于针对复制文件中的每一个数据块唯一标识，在第二存储区域162中检索对应的数据块；引用值递增单元163，用于将检索到的数据块的当前引用值加1。

采用本发明文件存储方案后，由于***中不再存在内容相同的数据(以数据块为单位)，这就意味着相同的存储容量能存储更多的数据，因此节约了硬件成本及其它如能耗、管理等相关成本。此外由于存储数据所需容量减少，使得数据在基于网络进行远程传输时所消耗的带宽资源更少，时间窗口更小，这点在容灾***中意义十分重大。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种文件存储方法，其特征在于，包括：

针对每一个待存储文件执行：

将该文件划分数据块，针对每一划分出的数据块执行：

根据该数据块内容计算该数据块的唯一标识；

2、如权利要求1所述的方法，其特征在于，还包括：

3、如权利要求1所述的方法，其特征在于，将该文件划分为长度相等的数据块；或

将该文件划分为长度不等的数据块。

4、如权利要求1所述的方法，其特征在于，基于哈希算法计算该数据块的唯一标识。

5、一种基于权利要求1文件存储方法的文件读取方法，其特征在于，包括：

针对待读取文件中存储的每一个数据块唯一标识，执行：

根据该唯一标识，在所述第二存储区域中检索对应的数据块，以及读取出检索到的数据块；

6、一种基于权利要求2文件存储方法的文件删除方法，其特征在于，包括：

针对待删除文件中存储的每一个数据块唯一标识，执行：

删除该待删除文件。

7、一种基于权利要求2文件存储方法的文件复制方法，其特征在于，包括：

将被复制文件中存储的每一个数据块唯一标识，复制到复制文件中，以及

针对复制文件中的每一个数据块唯一标识，执行：

将检索到的数据块的当前引用值加1。

8、一种文件存储***，其特征在于，包括：

块划分单元，用于对待存储文件划分数据块；

标识计算单元，用于根据划分出的数据块内容，计算数据块的唯一标识；

标识检索单元，用于在存储数据块唯一标识的第一存储区域中，检索是否存在计算出的唯一标识；

第一存储单元，用于在检索结果为存在时，将计算出的唯一标识存储在第三存储区域中与该待存储文件对应的文件中；

第二存储单元，用于在检索结果为不存在时，将计算出的唯一标识存储在所述第一存储区域中，以及将数据块与计算出的唯一标识对应存储在所述第二存储区域中，并将计算出的唯一标识存储在所述第三存储区域中与该待存储文件对应的文件中。

9、如权利要求8所述的***，其特征在于，还包括：

初始值配置单元，用于在第二存储单元将数据块存储在第二存储区域中时，配置该存储的数据块的初始引用值为1；

初始值累加单元，用于在标识检索单元检索到第一存储区域中已经存在计算出的唯一标识时，将所述第二存储区域中存储的与计算出的唯一标识对应的数据块的当前引用值加1。

10、一种基于权利要求9文件存储***的文件读取***，其特征在于，包括：

数据块检索单元，用于针对待读取文件中存储的每一个数据块唯一标识，在所述第二存储区域中检索对应的数据块，以及

读取单元，用于读取出检索到的数据块；

组合单元，用于将针对所述待读取文件中存储的每一个数据块唯一标识，读取出的各个数据块依次组合，作为读取出的文件。

11、一种基于权利要求9文件存储***的文件删除***，其特征在于，包括：

数据块检索单元，用于针对待删除文件中存储的每一个数据块唯一标识，在所述第二存储区域中检索对应的数据块，以及

查看单元，用于查看检索到的数据块的当前引用值是等于1还是大于1；

数据块删除单元，用于在查看结果为等于1时，删除检索到的数据块；

引用值递减单元，用于在查看结果为大于1时，继续保存该检索到的数据块，并将检索到的数据块的当前引用值减1；

文件删除单元，用于删除待删除文件。

12、一种基于权利要求9文件存储***的文件复制***，其特征在于，包括：

标识复制单元，用于将被复制文件中存储的每一个数据块唯一标识，复制到复制文件中，以及

数据块检索单元，用于针对复制文件中的每一个数据块唯一标识，在所述第二存储区域中检索对应的数据块；

引用值递增单元，用于将检索到的数据块的当前引用值加1。