CN112149026A

CN112149026A - 基于web端的分布式数据存储***

Info

Publication number: CN112149026A
Application number: CN202011125393.0A
Authority: CN
Inventors: 岳国军; 李颐
Original assignee: Beijing Tianhua Xinghang Technology Co ltd
Current assignee: Beijing Tianhua Xinghang Technology Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2020-12-29
Anticipated expiration: 2040-10-20
Also published as: CN112149026B

Abstract

本发明涉及一种基于web端的分布式数据存储***，包括处理器和存储有计算机程序的存储器，n组容器文件CF＝{CF₁，CF₂，......，CF_n}和web端；当计算机程序被处理器执行时，实现以下步骤：步骤S10、获取待存储的文件大小Fsize0；步骤S20、将Fsize0与Q相比较，若Fsize0<＝Q，则根据Fsize0从所述CF中选择目标容器文件组CF_x，判断CF_x中的所有k个容器文件的剩余连续空间是否都小于Fsize0，若是，则在内存中创建CF_x对应的第k+1个容器文件作为目标容器CF_xy，此时，y＝k+1,否则，从CF_x选择目标容器CF_xy，此时，y＝1,2…k，将待存储的文件存储到CF_xy中；步骤S30、获取CF_xy的剩余存储空间，若CF_xy的剩余存储空间为0，则将CF_xy作为一个文件进行分布式存储，释放CF_xy的存储空间。本发明提高了具有低频访问特点的小文件的存储效率。

Description

基于web端的分布式数据存储***

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于web端的分布式数据存储***。

背景技术

人工智能、物联网、传感器网络、科学实验等应用中均会产生大量数据，这些数据种类繁多，大小不一，不仅包括海量的大文件(大于预设的文件大小阈值Q)，也包括海量的小文件(小于预设的文件大小阈值Q)。特别是小文件的数量将达到千万级、亿级甚至十亿、百亿级。海量小文件体量庞大，但目前的分布式文件***大都是匹配大文件场景的，对于海量小文件情况下，存储处理性能极差。

文件存储***用于进行文件的读和写。分布式文件存储***中，小文件如何进行读和写的优化，一直是研究的热点。但是现有的用于小文件存储的文件存储***通常是兼顾文件的读和写的性能设计。但是，对于具有低频访问特点的小文件的存储，应该关注写性能，而不需要同时兼顾读性能，若同时兼顾两者，会导致文件存储效率低。因此，如何提高具有低频访问特点的小文件的存储效率成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种基于web端的分布式数据存储***，提高了具有低频访问特点的小文件的存储效率。

本发明提供了一种基于web端的分布式数据存储***，包括处理器和存储有计算机程序的存储器，n组容器文件CF＝{CF₁，CF₂，......，CF_n}和web端，其中，CF_i为第i组容器文件，i＝1,2…n，每组容器文件包括一个或多个容器文件，CF_i＝(CF_i1，CF_i2，......)，每组容器文件CF_i对应的CF_ij都相同,j＝1,2…；所述CF_i的存储为顺序存储，所述CF_i为易失性文件，当CF_ij被小文件填充满后，将所述CF_ij中当前存储的数据存储到非易失性存储介质上；所有CF_ij的存储空间均为固定值S，不同的CF_i对应的CF_ij的存储空间具有不同的原子存储块，所述原子存储块为CF_i的最小存储空间，所述CFi的原子存储块的存储空间为A_i，A_i/A_i+1＝固定值，i的取值从1到n-1；所述web端用于接收用户输入的S、A_i和预设的文件大小阈值Q的具体数值来配置所述S、Q和A_i；

当所述计算机程序被处理器执行时，实现以下步骤：

步骤S10、获取待存储的文件大小Fsize0；

步骤S20、将Fsize0与Q相比较，若Fsize0<＝Q，则根据Fsize0从所述CF中选择目标容器文件组CF_x，判断CF_x中的所有k个容器文件的剩余连续空间是否都小于Fsize0，若是，则在内存中创建CF_x对应的第k+1个容器文件作为目标容器CF_xy，此时，y＝k+1,否则，从CF_x选择目标容器CF_xy，此时，y＝1,2…k，将所述待存储的文件存储到CF_xy中；

步骤S30、获取CF_xy的剩余存储空间，若所述CF_xy的剩余存储空间为0，则将CF_xy作为一个文件进行分布式存储，释放所述CF_xy的存储空间。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种分布式数据存储***可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明提高了具有低频访问特点的小文件的存储效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供的分布式数据存储***示意图；

图2为本发明一实施例提供的基于web端的分布式数据存储***示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种分布式数据存储***的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种分布式数据存储***，包括处理器和存储有计算机程序的存储器，n组容器文件CF＝{CF₁，CF₂，......，CF_n}，其中，CF_i为第i组容器文件，i＝1,2…n，每组容器文件包括一个或多个容器文件，CF_i＝(CF_i1，CF_i2，......)，每组容器文件CF_i对应的CF_ij都相同,j＝1,2…；所述CF_i的存储为顺序存储，所述CF_i为易失性文件(例如，内存文件)，当CF_ij被文件填充满后，将所述CF_ij中当前存储的数据存储到非易失性存储介质上(例如，硬盘上)；所有CF_ij的存储空间均为固定值S，例如S均为64M，但可以理解的是，也可以是其他容量。不同的CF_i对应的CF_ij的存储空间具有不同的原子存储块，所述原子存储块为CF_i的最小存储空间，例如CFi的原子存储块为16K，那么当文件大小为1K时，存储到CFi中也需要占用16K的空间。所述CF_i的原子存储块的存储空间为A_i，A_i/A_i+1＝固定值，例如A_i/A_i+1＝2，i的取值从1到n-1；显然，从A1-An，存储的效率逐渐降低，文件头所需的空间逐渐增加。作为一种实施例，所述CF_n中包括一个容器文件。容器文件(containerfile)是指具有固定大小的，能够聚集小文件的文件，作为一种示例，所述Q为1M，即文件大小高于1M的文件为大文件，文件阈值大于1M的文件为小文件。

当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

步骤S100、获取待存储的文件大小Fsize0。

步骤S200、将Fsize0与预设的文件大小阈值Q相比较，若Fsize0<＝Q，则根据Fsize0从所述CF中选择目标容器文件组CF_xy，将所述待存储的文件存储到CF_xy中；

步骤S300、获取CF_xy的剩余存储空间，若所述CF_xy的剩余存储空间为0，则将CF_xy作为一个文件进行分布式存储，释放所述CF_xy的存储空间。

本发明实施例提高了具有低频访问特点的小文件的存储效率，所述具有低频访问特点是指预设时间段内访问频率低于预设访问阈值，优选的，预设时间段为1个月，预设访问阈值为0，所述访问是指文件更新和文件删除。

在更加详细地讨论示例性实施例之前应当说明的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

作为一种实施例，所述方法还包括S400、如果Fsize0>Q，则将所述待存储的文件进行分布式存储。即文件为大文件时，直接采用现有的分布式存储技术进行分布式存储，在此不再赘述。

作为一种实施例，所述步骤S200包括：

步骤S210、遍历A_i，若

则x＝i，i的取值范围为1到n，否则，执行步骤S220；

通过执行步骤S210，可以保证每个CF_i都能够执行到S400，向上取整为以An为原子单元的向上取整，例如An为1K，那么不足1K的取整为1K；若An为2K，那么不足2K的取整为2K；若An为512k，那么不足512的取整为512k。

步骤S220、获取

2^LEN2并进行对比，若

则x＝1，否则，执行步骤S230，其中，LEN_i表示CF_ij对应的长度位数，LEN_ij<＝log₂(Q/A_i)；

步骤S230、遍历CF_i，若

i的取值从2...n-1，则执行步骤S240；

步骤S240、若[A_i-1-mod(Fsize0/A_i-1)]<＝[mod(Fsize0/A_i-1)-A_i]，则x＝i-1，否则x＝i。

通过步骤S210-步骤S240可以从CF中确定目标容器文件组CF_x，且可以确保ADDi+LENi的长度为定长，而不是变长，例如16个bit，这样任何一个文件都可以使用16bit，就能够确定在CF中的所有块。定长在存储器***中，比变长的便于处理和管理，从而提高了文件存储效率，从CF中确定目标容器文件组CF后，接下来要在CF_x中确定目标容器文件CF_xy。

作为一种实施例，所述CF_i除了包括存储空间外还包括文件头(file header)，所述文件头包括存储在CF_i中的小文件的文件ID，对应文件ID在CFi中的地址和长度，从而能够根据地址和长度定位小文件存在在连续的原子存储块中。优选的，所述文件ID经过md5处理，从而具有相同的长度且保密。所述文件头还包括原子存储块状态向量U＝(u1，u2，...，u_S/Ai),其中，当原子存储块没有存储文件时，u_j＝0，反之u_j＝1。可以理解的是，当释放所述CF_xy的存储空间时，CF_xy变成了空的文件，将U设置为0。

所述步骤S200还包括步骤S250、根据CF_x中每个容器文件对应的所述原子存储块状态向量U以及Fsize0，从所述CF_x中确定CF_xy，将所述待存储的文件存储到CF_xy中。

作为一种优选实施例，S/A1＝2的整数幂，Q/A1＝2的整数幂，Ai/Ai+1＝2的整数幂。例如，S＝64M＝2²⁶，A1＝32K＝2¹⁵，S/A1＝2¹¹，Ai/Ai+1＝2。显然，地址的位数ADDi＝log₂(S/Ai)。优选的，长度的位数LENi被设置为不会超过log₂(Q/Ai)。，这样设置可以使得S/Ai均为2的整数幂，这样能够使得小文件存储时，存储和查询等相关的处理都以二进制位操作的命令被执行，从而提高处理效率。例如，在分布式数据存储***中，***中在运算的时候，除法可以变为减法，例如前述地址位数ADD1＝log₂(S/A1)＝指数S-指数A1＝26-15，从而提高运算速度。但可以理解的是，S/A1、Q/A1＝2、Ai/Ai+1不是2的整数幂也可以，运算时执行除法即可。

为了便于与用户交互，进一步根据用户的需求提高文件存储的效率，作为上述实施例的一种变形，本发明实施例还提供了一种基于web端的分布式数据存储***，除了上述分布式数据存储***的组成以外，还包括web端，所述web端用于接收用户输入的S、A_i和预设的文件大小阈值Q的具体数值来配置所述S、Q和A_i，例如，在web端设置一个配置页面用来接收用户输入的数据。

当所述计算机程序被处理器执行时，实现以下步骤，如图2所示：

步骤S10、获取待存储的文件大小Fsize0；

作为一种实施例，所述web端还用于向用户(尤其是admin用户)可视化呈现CF_i的容器文件数量，当所述计算机程序被处理器执行时，还实现下步骤S400、实时监测CF_i的容器文件数量，当某个CF_i的容器文件数量超过预设的数量阈值D时，说明D个CF_ij均出现了基本饱和的情况，这时候新的待存储的数据因为过大还无法进入到CF_i中，因此向用户报警。

作为一种实施例，所述步骤S20中，所述根据Fsize0从所述CF中选择目标容器文件组CF_x，包括：

步骤S201、遍历A_i，若

则x＝i，i的取值范围为1到n，否则，执行步骤S202；

步骤S202、获取

2^LEN2并进行对比，若

则x＝1，否则，执行步骤S203，其中，LEN_i表示CF_ij对应的长度位数，LEN_ij<＝log₂(Q/A_i)；

步骤S203、遍历CFi，若

i的取值从2...n-1，则执行步骤S204；

步骤S204、若[A_i-1-mod(Fsize0/A_i-1)]<＝[mod(Fsize0/A_i-1)-A_i]，则x＝i-1，否则x＝i。

作为一种实施例，所述目标容器文件组CFx＝(CF_x1，CF_x2，......，CF_xk)中，每个容器文件对应的剩余存储空间分别为B1，B2，...，Bk，所述步骤S20中，所述从CF_x选择目标容器CF_xy，包括：

步骤S211、遍历B1到Bk，如果

那么y＝j,否则，即B1到Bk中都不等于

执行S212；

通过执行步骤S211能够较为快速的填充满CF_xj，从而使得容器文件被存储到非易失性存储器，释放内存空间。

步骤S212、获取B1，B2，...，Bk的最大值max(B1，B2，...，Bk)以及A_x×2^LENx并进行对比，若max(B1，B2，...，Bk)>A_x×2^LENx，则将max(B1，B2，...，Bk)对应的容器文件确定为目标容器CF_xy，否则，执行S213；

通过执行步骤S212使得CFx在存储任何一个小文件时，都不会填充满，所以使之提高下次存储小文件时能够填充满的可能性，从而提高文件存储效率。

步骤S213、遍历Bp，p＝1,2…k，获取B1，B2，...，Bk中大于

且相同数量最多的BK对应的容器文件确定为目标容器CF_xy。

通过执行步骤S213，使的填充小文件后的B1，B2，...，Bk，在下次填充小文件时，具有更高的填充满的可能性,从而提高文件存储效率。

作为一种示例，所述步骤S20还包括步骤S21、获取容器文件对应的原子存储块状态向量中连续为0的最大个数作为该容器文件对应的剩余存储空间。

本发明实施例所述***均提高了具有低频访问特点的小文件的存储效率。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于web端的分布式数据存储***，其特征在于，包括处理器和存储有计算机程序的存储器，n组容器文件CF＝{CF₁，CF₂，......，CF_n}和web端，其中，CF_i为第i组容器文件，i＝1,2…n，每组容器文件包括一个或多个容器文件，CF_i＝(CF_i1，CF_i2，......)，每组容器文件CF_i对应的CF_ij都相同,j＝1,2…；所述CF_i的存储为顺序存储，所述CF_i为易失性文件，当CF_ij被小文件填充满后，将所述CF_ij中当前存储的数据存储到非易失性存储介质上；所有CF_ij的存储空间均为固定值S，不同的CF_i对应的CF_ij的存储空间具有不同的原子存储块，所述原子存储块为CF_i的最小存储空间，所述CFi的原子存储块的存储空间为A_i，A_i/A_i+1＝固定值，i的取值从1到n-1；所述web端用于接收用户输入的S、A_i和预设的文件大小阈值Q的具体数值来配置所述S、Q和A_i；

当所述计算机程序被处理器执行时，实现以下步骤：

步骤S10、获取待存储的文件大小Fsize0；