CN112416880A

CN112416880A - 一种基于实时归并的海量小文件存储性能优化方法及装置

Info

Publication number: CN112416880A
Application number: CN202110090701.9A
Authority: CN
Inventors: 杨鹏; 杨波
Original assignee: Nanjing Qunding Technology Co ltd
Current assignee: Nanjing Qunding Technology Co ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-02-26

Abstract

本发明提出了一种基于实时归并的海量小文件存储性能优化方法及装置，涉及计算机存储领域。其中包括一种基于实时归并的海量小文件存储性能优化方法及装置：接收客户端发送的文件数据存储请求，将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中；其中，所述待存储文件为大文件时存放到所述HDD存储资源池，所述待存储文件为小文件时存放到所述SSD存储资源池，在文件索引池中存放该文件的元数据信息；根据所述元数据信息生成文件的全局唯一标识key。本发明能够提升小文件写入速度，并且实现对海量小文件的合理存储。

Description

一种基于实时归并的海量小文件存储性能优化方法及装置

技术领域

本发明涉及计算机存储领域，具体而言，涉及一种基于实时归并的海量小文件存储性能优化方法及装置。

背景技术

伴随互联网、物联网、云计算、大数据等行业的迅速发展，音视频、图片、日志等各类文件数量均呈现指数型增长，终端设备需要不间断的上传大量文件，其中1M以下小文件的数量往往会达到百万级、千万级甚至亿级，此类文件被定义为海量小文件。海量小文件对终端设备的写入性能要求较高，对读取性能要求较低，如何对海量小文件进行合理存储对当前大数据时代可持续发展意义重大。

传统的文件存储***主要基于树状目录层级结构，可扩展性有限。并且，海量小文件会导致目录树深度增大，严重影响了目录树的均衡效率，当出现大规模并发时，访问性能有限。此外，当前存储小文件一般使用的是HDD磁盘。因此，目前需要一种能够解决现有文件存储目录树不适合大规模文件存储以及HDD磁盘小文件存储效率低的问题。

发明内容

本发明的目的在于提供一种基于实时归并的海量小文件存储性能优化方法，其能够实现对海量小文件的合理存储，并且提高小文件的存储效率。

本发明的另一目的在于提供一种基于实时归并的海量小文件存储性能优化方装置，其能够实现对海量小文件的合理存储，提高大量用户并发访问时的访问效率。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种基于实时归并的海量小文件存储性能优化方法，包括S1：接收客户端发送的文件数据存储请求，将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中；

其中，上述待存储文件为大文件时存放到上述HDD存储资源池，上述待存储文件为小文件时存放到上述SSD存储资源池，在文件索引池中存放该文件的元数据信息；根据上述元数据信息生成文件的全局唯一标识key；

S2：设定小文件归并数量的阈值和归并字节总数的阈值，当SSD存储资源池中存放上述小文件的上述归并数量或者上述字节总数超出阈值时，实时触发服务器的文档归并流程，服务器后台提取已有的上述小文件的内容归并成一个大文件，将上述大文件存储至上述HDD存储资源池；

S3：上述小文件归并归档后，根据标识key映射到文件索引池中的元数据信息增加数据定位信息；

S4：更新完上述小文件的上述元数据信息后，删除上述SSD数据池中被归并的上述小文件；

S5：服务器接收客户端发送的上述文件数据访问请求，如果上述元数据信息中不存在上述数据定位信息，则根据上述元数据信息解析出上述标识key，通过上述标识key从上述SSD存储资源池中访问对应的文件内容；如果上述元数据信息存在上述数据定位信息，根据上述数据定位信息从上述HDD存储资源池中找到上述小文件归并后的上述大文件，再从上述大文件中提取上述小文件的文件内容。

第二方面，本申请实施例提供一种基于实时归并的海量小文件存储性能优化装置，包括：

数据请求接收模块：用于接收客户端发送的文件数据写入或者访问请求；

文件数据分层存储模块：根据接收到的待存储文件元数据信息生成唯一身份标识key，以及与key对应的文件内容数据值value；以1M字节数为分界线将文件划分为大文件和小文件，大文件对应的value值写入HDD存储资源池，小文件对应的value值写入SSD存储资源池；

小文件数据归并模块：设定小文件归并流程的触发条件，即小文件数量阈值和小文件字节总数阈值；当SSD存储资源池内的小文件数量或者字节数超出阈值时，会实时触发服务器文档归并流程，将资源池内小文件归并成一个大文件并写入HDD存储资源池；其中小文件归并流程的触发条件中，小文件数量上限阈值不得超过SSD存储资源池的最大并发访问量，小文件字节数上限阈值不得超过SSD存储资源池存储空间大小；

小文件数据更新模块：根据被归并小文件的key值映射到对应元数据，添加数据定位信息，包括文件归并后的大文件的名称、路径、小文件在大文件中的位置偏移量和大小中的任意一项或多项；

小文件原数据删除模块：小文件被归并归档且成功更新元数据信息后，再将其原文件数据从SSD存储资源池删除，以确保文件数据的可靠性与安全性，并且能够及时释放SSD存储资源池存储空间；

文件数据读取模块：根据数据访问请求信息提出文件元数据信息并生成key，根据key标识从资源池读取文件内容，其中：大文件直接从HDD存储资源池读取；未被归并的小文件直接从SSD存储资源池读取；已被归并的小文件则需根据key映射到该文件在索引池中对应元数据，提取出数据定位信息，找到其被归并的大文件并从中提取相应位置的小文件内容。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

针对第一方面：本发明的目的在于提供一种基于实时归并的海量小文件存储性能优化方法，根据接收到的客户端文件存储请求信息，选用对象存储的方式对文件进行分层存储，从而将较大容量的大文件直接写入HDD存储资源池，将较小容量的小文件写入SSD存储资源池，实现了利用不同存储方式读取不同容量的文件，能够提高小容量文件的读取效率，并且通过HDD存储资源池便于快速读取和统一管理大容量文件。当小文件积累到固定数量或者字节数时，后台提取SSD存储资源池内小文件归并成大文件写入HDD存储资源池，保障客户端的正常使用。最后删除SSD存储资源池中归并后的原小文件数据，不影响文件的访问性能，同时释放出SSD存储资源池的存储空间，使之得到高效循环利用，降低了成本需求。本发明能够实现对海量小文件的合理存储，解决了现有文件存储目录树不适合大规模文件存储的问题，并且提高了小文件的存储效率，从而解决了利用HDD磁盘小文件存在的存储效率低问题。

针对第二方面：本发明的目的在于提供一种基于实时归并的海量小文件存储性能优化装置，其工作原理与有益效果与第一方面相同，在此不必重复描述。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种基于实时归并的海量小文件存储性能优化方法的流程示意图；

图2为本发明实施例一种基于实时归并的海量小文件存储性能优化方法的原理示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1所示为本申请实施例提供的一种基于实时归并的海量小文件存储性能优化方法的流程示意图。基于实时归并的海量小文件存储性能优化方法，包括S1：服务器接收客户端发送的文件数据存储请求，将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中；

步骤S1中，上述待存储文件为大文件时存放到上述HDD存储资源池，上述待存储文件为小文件时存放到上述SSD存储资源池，在文件索引池中存放该文件的元数据信息；根据上述元数据信息生成文件的全局唯一标识key。

详细的，服务器接收客户端通过网络发送的文件数据存储请求，并将待存储文件通过对象存储的方式分成写入不同资源池。详细的，待存储文件为大容量文件时写入HDD存储资源池，否则写入SSD存储资源池。并且利用HDD存储资源池和SSD存储资源池的文件索引池存放待存储文件的元数据信息，并根据元数据信息生成不同文件的标识key,从而可以利用key索引到唯一的文件。

详细的，可以根据待存储文件的文件内容生成与标识key对应元数据信息的值value，标识key和value一一映射，通过标识key可直接访问到对应文件内容数据。

S2：设定小文件归并数量的阈值和归并字节总数的阈值，当SSD存储资源池中存放上述小文件的上述归并数量或者上述字节总数超出阈值时，实时触发服务器的文档归并流程，服务器后台提取已有的上述小文件的内容归并成一个大文件，将上述大文件存储至上述HDD存储资源池。

详细的，步骤S2中：设定小文件归并数量的阈值和字节总数的阈值，从而当SSD存储资源池中存放的小文件的数量或者字节总数其中任意一个达到相应阈值时，触发服务器的文档归并流程，即服务器提取SSD存储资源池中的小文件的内容，并归并成大文件，归并后的大文件存储至HDD存储资源池。

S3：上述小文件归并归档后，根据标识key映射到文件索引池中的元数据信息增加数据定位信息。

详细的，小文件在归并存储后，小文件的标识key映射到文件索引池中对应的元数据信息增加元数据信息中小文件的数据定位信息，便于通过数据定位信息进行查找。

S4：更新完上述小文件的上述元数据信息后，删除上述SSD数据池中被归并的上述小文件。

详细的，将数据定位信息添加到元数据信息后，删除小文件的内容数据，从而释放SSD数据池的存储空间。

S5：服务器接收客户端发送的上述文件数据访问请求，如果上述元数据信息中不存在上述数据定位信息，则根据上述元数据信息解析出上述标识key，通过上述标识key从上述SSD存储资源池中访问对应的文件内容；如果上述元数据信息存在上述数据定位信息，说明该文件是已被归并归档的小文件，需根据上述数据定位信息从上述HDD存储资源池中找到上述小文件归并后的上述大文件，再从上述大文件中相应位置提取上述小文件的文件内容。

详细的，通过服务器接收客户端的文件数据访问请求，服务器通过文件数据访问请求获得待访问的数据定位信息，如果文件数据访问请求存在数据定位信息，则根据数据定位信息解析出标识key，从而通过标识key从SSD存储资源池中访问对应的文件内容。其中，根据标识key映射到文件索引池中的元数据信息生成数据定位信息，从而根据数据定位信息获取元数据信息，并通过元数据信息从上述HDD存储资源池中找到上述小文件归并后的大文件，再从大文件中提取对应的文件内容。当文件数据访问请求不存在数据定位信息时，则直接通过访问请求获取SSD数据池中对应的文件内容。

在本发明的一些实施例中，上述步骤S1中包含：上述元数据信息包括文件身份标识号、文件生成的时间节点、文件大小和文件类型中的任意一项或多项。

详细的，步骤S1中的元数据信息包括小文件的文件身份标识号、文件生成的时间节点、文件大小和文件类型中的任意一项或多项。从而通过元数据信息获得标识key对应的文件内容。

在本发明的一些实施例中，上述步骤S1中包含：根据上述待存储文件的上述元数据信息，按“身份标识号+文件生成时间”拼接字符串生成文件的上述标识key。

详细的，步骤S1中的标识key通过身份标识号和文件生成时间组合而成，并且通过标识key获取元数据信息，从而映射到文件内容的值value。

在本发明的一些实施例中，上述步骤S1中包含：设置文件的分层字节数的阈值，当上述待存储文件的上述分层字节数大于阈值时，判定上述待存储文件为大文件，否则判定上述待存储文件为小文件。

详细的，服务器通过设置文件的分层字节数的阈值，从而当待存储文件的分层字节数大于阈值时，判定待存储文件为大文件，否则为小文件。根据待存储文件为大文件或小文件将待存储文件分层写入SSD存储资源池或HDD存储资源池中。

在本发明的一些实施例中，设置文件的上述分层字节数阈值为1M。从而根据分层存储的多个小文件进行进一步归并，便于根据数据定位信息查找文件内容。

在本发明的一些实施例中，上述步骤S1中包含：根据文件内容生成与上述标识key对应的value；上述标识key的value一一映射；在上述HDD存储资源池或上述SSD存储资源池存放该文件的文件内容value。

详细的，根据设置的分层字节数阈值判断待存储文件为大容量还是小容量，从而根据文件内容生成标识key对应映射的value，从而利用不同类型的标识key将文件内容分层存入对应位置的存储资源池中。

在本发明的一些实施例中，上述步骤S2中包括，设定上述小文件归并数量的阈值为500个，上述归并字节总数的阈值为100M。

详细的，步骤S2中设定小文件归并数量的阈值为500个，字节总数的阈值为100M容量，从而根据阈值判断小文件是否需要归并成大文件。

在本发明的一些实施例中，上述步骤S2中包括，将上述大文件采用EC模式持久化存储至上述HDD存储资源池。

详细的，步骤S2中利用电子通讯的方式存储大文件，从而提高大文件的存储的稳定性。

在本发明的一些实施例中，上述步骤S3中包括，上述数据定位信息包括上述小文件归并后的上述大文件的名称、路径、上述小文件在上述大文件中的位置偏移量和大小中的任意一项或多项。

详细的，数据定位信息包括小文件归并后的数据信息，包括存储的大文件名称、路径、上述小文件在上述大文件中的位置偏移量和大小中的任意一项或多项，便于通过标识key映射到的元数据信息进行查找。

实施例2

请参阅图2，图2所示为本申请实施例提供的一种基于实时归并的海量小文件存储性能优化装置的原理示意图。一种基于实时归并的海量小文件存储性能优化装置，包括：

上述实施例与实施例1的原理及有益效果相同，在此不必重复描述。

可以理解，图1~2所示的流程或结构仅为示意，基于实时归并的海量小文件存储性能优化方法或装置还可包括比图1/2中所示更多或者更少的组件，或者具有与图1/2所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于实时归并的海量小文件存储性能优化方法及装置：

本申请实施例根据接收到的客户端文件存储请求信息，选用对象存储的方式对文件进行分层存储，从而将较大容量的大文件直接写入HDD存储资源池，将较小容量的小文件写入SSD存储资源池，实现了利用不同存储方式读取不同容量的文件，能够提高小容量文件的读取效率，并且通过HDD存储资源池便于快速读取和统一管理大容量文件。当小文件积累到固定数量或者字节数时，后台提取SSD存储资源池内小文件归并成大文件写入HDD存储资源池，保障客户端的正常使用。最后删除SSD存储资源池中归并后的原小文件数据，不影响文件的访问性能，同时释放出SSD存储资源池的存储空间，使之得到高效循环利用，降低了成本需求。本发明能够实现对海量小文件的合理存储，解决了现有文件存储目录树不适合大规模文件存储的问题，并且提高了小文件的存储效率，从而解决了利用HDD磁盘小文件存在的存储效率低问题。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于实时归并的海量小文件存储性能优化方法，其特征在于，包括S1：接收客户端发送的文件数据存储请求，将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中；

其中，所述待存储文件为大文件时存放到所述HDD存储资源池，所述待存储文件为小文件时存放到所述SSD存储资源池，在文件索引池中存放该文件的元数据信息；根据所述元数据信息生成文件的全局唯一标识key；

S2：设定小文件归并数量的阈值和归并字节总数的阈值，当SSD存储资源池中存放所述小文件的所述归并数量或者所述字节总数超出阈值时，实时触发服务器的文档归并流程，服务器后台提取已有的所述小文件的内容归并成一个大文件，将所述大文件存储至所述HDD存储资源池；

S3：所述小文件归并归档后，根据标识key映射到文件索引池中的元数据信息增加数据定位信息；

S4：更新完所述小文件的所述元数据信息后，删除所述SSD数据池中被归并的所述小文件；

S5：服务器接收客户端发送的所述文件数据访问请求，如果所述元数据信息中不存在所述数据定位信息，则根据所述元数据信息解析出所述标识key，通过所述标识key从所述SSD存储资源池中访问对应的文件内容；如果所述元数据信息存在所述数据定位信息，根据所述数据定位信息从所述HDD存储资源池中找到所述小文件归并后的所述大文件，再从所述大文件中提取所述小文件的文件内容。

2.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，步骤S1中包含：所述元数据信息包括文件身份标识号、文件生成的时间节点、文件大小和文件类型中的任意一项或多项。

3.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，步骤S1中包含：根据所述待存储文件的所述元数据信息，按“身份标识号+文件生成时间”拼接字符串生成文件的所述标识key。

4.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，步骤S1中包含：设置文件的分层字节数的阈值，当所述待存储文件的所述分层字节数大于阈值时，判定所述待存储文件为大文件，否则判定所述待存储文件为小文件。

5.如权利要求4所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，设置文件的所述分层字节数阈值为1M。

6.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，步骤S1中包含：根据文件内容生成与所述标识key对应的value；所述标识key的value一一映射，通过所述标识key可直接访问到对应文件内容数据；在所述HDD存储资源池或所述SSD存储资源池存放该文件的文件内容value。

7.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，步骤S2中包括，设定所述小文件归并数量的阈值为500个，所述归并字节总数的阈值为100M。

8.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，步骤S2中包括，将所述大文件采用EC模式持久化存储至所述HDD存储资源池。

9.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法，其特征在于，步骤S3中包括，所述数据定位信息包括所述小文件归并后的所述大文件的名称、路径、所述小文件在所述大文件中的位置偏移量和大小中的任意一项或多项。

10.一种基于实时归并的海量小文件存储性能优化装置，其特征在于，包括：

小文件原数据删除模块：小文件被归并归档且成功更新元数据信息后，再将其原文件数据从SSD存储资源池删除；