CN112416880A - 一种基于实时归并的海量小文件存储性能优化方法及装置 - Google Patents

一种基于实时归并的海量小文件存储性能优化方法及装置 Download PDF

Info

Publication number
CN112416880A
CN112416880A CN202110090701.9A CN202110090701A CN112416880A CN 112416880 A CN112416880 A CN 112416880A CN 202110090701 A CN202110090701 A CN 202110090701A CN 112416880 A CN112416880 A CN 112416880A
Authority
CN
China
Prior art keywords
file
small
resource pool
small files
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110090701.9A
Other languages
English (en)
Inventor
杨鹏
杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Qunding Technology Co ltd
Original Assignee
Nanjing Qunding Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Qunding Technology Co ltd filed Critical Nanjing Qunding Technology Co ltd
Priority to CN202110090701.9A priority Critical patent/CN112416880A/zh
Publication of CN112416880A publication Critical patent/CN112416880A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于实时归并的海量小文件存储性能优化方法及装置,涉及计算机存储领域。其中包括一种基于实时归并的海量小文件存储性能优化方法及装置:接收客户端发送的文件数据存储请求,将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中;其中,所述待存储文件为大文件时存放到所述HDD存储资源池,所述待存储文件为小文件时存放到所述SSD存储资源池,在文件索引池中存放该文件的元数据信息;根据所述元数据信息生成文件的全局唯一标识key。本发明能够提升小文件写入速度,并且实现对海量小文件的合理存储。

Description

一种基于实时归并的海量小文件存储性能优化方法及装置
技术领域
本发明涉及计算机存储领域,具体而言,涉及一种基于实时归并的海量小文件存储性能优化方法及装置。
背景技术
伴随互联网、物联网、云计算、大数据等行业的迅速发展,音视频、图片、日志等各类文件数量均呈现指数型增长,终端设备需要不间断的上传大量文件,其中1M以下小文件的数量往往会达到百万级、千万级甚至亿级,此类文件被定义为海量小文件。海量小文件对终端设备的写入性能要求较高,对读取性能要求较低,如何对海量小文件进行合理存储对当前大数据时代可持续发展意义重大。
传统的文件存储***主要基于树状目录层级结构,可扩展性有限。并且,海量小文件会导致目录树深度增大,严重影响了目录树的均衡效率,当出现大规模并发时,访问性能有限。此外,当前存储小文件一般使用的是HDD磁盘。因此,目前需要一种能够解决现有文件存储目录树不适合大规模文件存储以及HDD磁盘小文件存储效率低的问题。
发明内容
本发明的目的在于提供一种基于实时归并的海量小文件存储性能优化方法,其能够实现对海量小文件的合理存储,并且提高小文件的存储效率。
本发明的另一目的在于提供一种基于实时归并的海量小文件存储性能优化方装置,其能够实现对海量小文件的合理存储,提高大量用户并发访问时的访问效率。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种基于实时归并的海量小文件存储性能优化方法,包括S1:接收客户端发送的文件数据存储请求,将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中;
其中,上述待存储文件为大文件时存放到上述HDD存储资源池,上述待存储文件为小文件时存放到上述SSD存储资源池,在文件索引池中存放该文件的元数据信息;根据上述元数据信息生成文件的全局唯一标识key;
S2:设定小文件归并数量的阈值和归并字节总数的阈值,当SSD存储资源池中存放上述小文件的上述归并数量或者上述字节总数超出阈值时,实时触发服务器的文档归并流程,服务器后台提取已有的上述小文件的内容归并成一个大文件,将上述大文件存储至上述HDD存储资源池;
S3:上述小文件归并归档后,根据标识key映射到文件索引池中的元数据信息增加数据定位信息;
S4:更新完上述小文件的上述元数据信息后,删除上述SSD数据池中被归并的上述小文件;
S5:服务器接收客户端发送的上述文件数据访问请求,如果上述元数据信息中不存在上述数据定位信息,则根据上述元数据信息解析出上述标识key,通过上述标识key从上述SSD存储资源池中访问对应的文件内容;如果上述元数据信息存在上述数据定位信息,根据上述数据定位信息从上述HDD存储资源池中找到上述小文件归并后的上述大文件,再从上述大文件中提取上述小文件的文件内容。
第二方面,本申请实施例提供一种基于实时归并的海量小文件存储性能优化装置,包括:
数据请求接收模块:用于接收客户端发送的文件数据写入或者访问请求;
文件数据分层存储模块:根据接收到的待存储文件元数据信息生成唯一身份标识key,以及与key对应的文件内容数据值value;以1M字节数为分界线将文件划分为大文件和小文件,大文件对应的value值写入HDD存储资源池,小文件对应的value值写入SSD存储资源池;
小文件数据归并模块:设定小文件归并流程的触发条件,即小文件数量阈值和小文件字节总数阈值;当SSD存储资源池内的小文件数量或者字节数超出阈值时,会实时触发服务器文档归并流程,将资源池内小文件归并成一个大文件并写入HDD存储资源池;其中小文件归并流程的触发条件中,小文件数量上限阈值不得超过SSD存储资源池的最大并发访问量,小文件字节数上限阈值不得超过SSD存储资源池存储空间大小;
小文件数据更新模块:根据被归并小文件的key值映射到对应元数据,添加数据定位信息,包括文件归并后的大文件的名称、路径、小文件在大文件中的位置偏移量和大小中的任意一项或多项;
小文件原数据删除模块:小文件被归并归档且成功更新元数据信息后,再将其原文件数据从SSD存储资源池删除,以确保文件数据的可靠性与安全性,并且能够及时释放SSD存储资源池存储空间;
文件数据读取模块:根据数据访问请求信息提出文件元数据信息并生成key,根据key标识从资源池读取文件内容,其中:大文件直接从HDD存储资源池读取;未被归并的小文件直接从SSD存储资源池读取;已被归并的小文件则需根据key映射到该文件在索引池中对应元数据,提取出数据定位信息,找到其被归并的大文件并从中提取相应位置的小文件内容。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
针对第一方面:本发明的目的在于提供一种基于实时归并的海量小文件存储性能优化方法,根据接收到的客户端文件存储请求信息,选用对象存储的方式对文件进行分层存储,从而将较大容量的大文件直接写入HDD存储资源池,将较小容量的小文件写入SSD存储资源池,实现了利用不同存储方式读取不同容量的文件,能够提高小容量文件的读取效率,并且通过HDD存储资源池便于快速读取和统一管理大容量文件。当小文件积累到固定数量或者字节数时,后台提取SSD存储资源池内小文件归并成大文件写入HDD存储资源池,保障客户端的正常使用。最后删除SSD存储资源池中归并后的原小文件数据,不影响文件的访问性能,同时释放出SSD存储资源池的存储空间,使之得到高效循环利用,降低了成本需求。本发明能够实现对海量小文件的合理存储,解决了现有文件存储目录树不适合大规模文件存储的问题,并且提高了小文件的存储效率,从而解决了利用HDD磁盘小文件存在的存储效率低问题。
针对第二方面:本发明的目的在于提供一种基于实时归并的海量小文件存储性能优化装置,其工作原理与有益效果与第一方面相同,在此不必重复描述。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一种基于实时归并的海量小文件存储性能优化方法的流程示意图;
图2为本发明实施例一种基于实时归并的海量小文件存储性能优化方法的原理示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
实施例1
请参阅图1,图1所示为本申请实施例提供的一种基于实时归并的海量小文件存储性能优化方法的流程示意图。基于实时归并的海量小文件存储性能优化方法,包括S1:服务器接收客户端发送的文件数据存储请求,将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中;
步骤S1中,上述待存储文件为大文件时存放到上述HDD存储资源池,上述待存储文件为小文件时存放到上述SSD存储资源池,在文件索引池中存放该文件的元数据信息;根据上述元数据信息生成文件的全局唯一标识key。
详细的,服务器接收客户端通过网络发送的文件数据存储请求,并将待存储文件通过对象存储的方式分成写入不同资源池。详细的,待存储文件为大容量文件时写入HDD存储资源池,否则写入SSD存储资源池。并且利用HDD存储资源池和SSD存储资源池的文件索引池存放待存储文件的元数据信息,并根据元数据信息生成不同文件的标识key,从而可以利用key索引到唯一的文件。
详细的,可以根据待存储文件的文件内容生成与标识key对应元数据信息的值value,标识key和value一一映射,通过标识key可直接访问到对应文件内容数据。
S2:设定小文件归并数量的阈值和归并字节总数的阈值,当SSD存储资源池中存放上述小文件的上述归并数量或者上述字节总数超出阈值时,实时触发服务器的文档归并流程,服务器后台提取已有的上述小文件的内容归并成一个大文件,将上述大文件存储至上述HDD存储资源池。
详细的,步骤S2中:设定小文件归并数量的阈值和字节总数的阈值,从而当SSD存储资源池中存放的小文件的数量或者字节总数其中任意一个达到相应阈值时,触发服务器的文档归并流程,即服务器提取SSD存储资源池中的小文件的内容,并归并成大文件,归并后的大文件存储至HDD存储资源池。
S3:上述小文件归并归档后,根据标识key映射到文件索引池中的元数据信息增加数据定位信息。
详细的,小文件在归并存储后,小文件的标识key映射到文件索引池中对应的元数据信息增加元数据信息中小文件的数据定位信息,便于通过数据定位信息进行查找。
S4:更新完上述小文件的上述元数据信息后,删除上述SSD数据池中被归并的上述小文件。
详细的,将数据定位信息添加到元数据信息后,删除小文件的内容数据,从而释放SSD数据池的存储空间。
S5:服务器接收客户端发送的上述文件数据访问请求,如果上述元数据信息中不存在上述数据定位信息,则根据上述元数据信息解析出上述标识key,通过上述标识key从上述SSD存储资源池中访问对应的文件内容;如果上述元数据信息存在上述数据定位信息,说明该文件是已被归并归档的小文件,需根据上述数据定位信息从上述HDD存储资源池中找到上述小文件归并后的上述大文件,再从上述大文件中相应位置提取上述小文件的文件内容。
详细的,通过服务器接收客户端的文件数据访问请求,服务器通过文件数据访问请求获得待访问的数据定位信息,如果文件数据访问请求存在数据定位信息,则根据数据定位信息解析出标识key,从而通过标识key从SSD存储资源池中访问对应的文件内容。其中,根据标识key映射到文件索引池中的元数据信息生成数据定位信息,从而根据数据定位信息获取元数据信息,并通过元数据信息从上述HDD存储资源池中找到上述小文件归并后的大文件,再从大文件中提取对应的文件内容。当文件数据访问请求不存在数据定位信息时,则直接通过访问请求获取SSD数据池中对应的文件内容。
在本发明的一些实施例中,上述步骤S1中包含:上述元数据信息包括文件身份标识号、文件生成的时间节点、文件大小和文件类型中的任意一项或多项。
详细的,步骤S1中的元数据信息包括小文件的文件身份标识号、文件生成的时间节点、文件大小和文件类型中的任意一项或多项。从而通过元数据信息获得标识key对应的文件内容。
在本发明的一些实施例中,上述步骤S1中包含:根据上述待存储文件的上述元数据信息,按“身份标识号+文件生成时间”拼接字符串生成文件的上述标识key。
详细的,步骤S1中的标识key通过身份标识号和文件生成时间组合而成,并且通过标识key获取元数据信息,从而映射到文件内容的值value。
在本发明的一些实施例中,上述步骤S1中包含:设置文件的分层字节数的阈值,当上述待存储文件的上述分层字节数大于阈值时,判定上述待存储文件为大文件,否则判定上述待存储文件为小文件。
详细的,服务器通过设置文件的分层字节数的阈值,从而当待存储文件的分层字节数大于阈值时,判定待存储文件为大文件,否则为小文件。根据待存储文件为大文件或小文件将待存储文件分层写入SSD存储资源池或HDD存储资源池中。
在本发明的一些实施例中,设置文件的上述分层字节数阈值为1M。从而根据分层存储的多个小文件进行进一步归并,便于根据数据定位信息查找文件内容。
在本发明的一些实施例中,上述步骤S1中包含:根据文件内容生成与上述标识key对应的value;上述标识key的value一一映射;在上述HDD存储资源池或上述SSD存储资源池存放该文件的文件内容value。
详细的,根据设置的分层字节数阈值判断待存储文件为大容量还是小容量,从而根据文件内容生成标识key对应映射的value,从而利用不同类型的标识key将文件内容分层存入对应位置的存储资源池中。
在本发明的一些实施例中,上述步骤S2中包括,设定上述小文件归并数量的阈值为500个,上述归并字节总数的阈值为100M。
详细的,步骤S2中设定小文件归并数量的阈值为500个,字节总数的阈值为100M容量,从而根据阈值判断小文件是否需要归并成大文件。
在本发明的一些实施例中,上述步骤S2中包括,将上述大文件采用EC模式持久化存储至上述HDD存储资源池。
详细的,步骤S2中利用电子通讯的方式存储大文件,从而提高大文件的存储的稳定性。
在本发明的一些实施例中,上述步骤S3中包括,上述数据定位信息包括上述小文件归并后的上述大文件的名称、路径、上述小文件在上述大文件中的位置偏移量和大小中的任意一项或多项。
详细的,数据定位信息包括小文件归并后的数据信息,包括存储的大文件名称、路径、上述小文件在上述大文件中的位置偏移量和大小中的任意一项或多项,便于通过标识key映射到的元数据信息进行查找。
实施例2
请参阅图2,图2所示为本申请实施例提供的一种基于实时归并的海量小文件存储性能优化装置的原理示意图。一种基于实时归并的海量小文件存储性能优化装置,包括:
数据请求接收模块:用于接收客户端发送的文件数据写入或者访问请求;
文件数据分层存储模块:根据接收到的待存储文件元数据信息生成唯一身份标识key,以及与key对应的文件内容数据值value;以1M字节数为分界线将文件划分为大文件和小文件,大文件对应的value值写入HDD存储资源池,小文件对应的value值写入SSD存储资源池;
小文件数据归并模块:设定小文件归并流程的触发条件,即小文件数量阈值和小文件字节总数阈值;当SSD存储资源池内的小文件数量或者字节数超出阈值时,会实时触发服务器文档归并流程,将资源池内小文件归并成一个大文件并写入HDD存储资源池;其中小文件归并流程的触发条件中,小文件数量上限阈值不得超过SSD存储资源池的最大并发访问量,小文件字节数上限阈值不得超过SSD存储资源池存储空间大小;
小文件数据更新模块:根据被归并小文件的key值映射到对应元数据,添加数据定位信息,包括文件归并后的大文件的名称、路径、小文件在大文件中的位置偏移量和大小中的任意一项或多项;
小文件原数据删除模块:小文件被归并归档且成功更新元数据信息后,再将其原文件数据从SSD存储资源池删除,以确保文件数据的可靠性与安全性,并且能够及时释放SSD存储资源池存储空间;
文件数据读取模块:根据数据访问请求信息提出文件元数据信息并生成key,根据key标识从资源池读取文件内容,其中:大文件直接从HDD存储资源池读取;未被归并的小文件直接从SSD存储资源池读取;已被归并的小文件则需根据key映射到该文件在索引池中对应元数据,提取出数据定位信息,找到其被归并的大文件并从中提取相应位置的小文件内容。
上述实施例与实施例1的原理及有益效果相同,在此不必重复描述。
可以理解,图1~2所示的流程或结构仅为示意,基于实时归并的海量小文件存储性能优化方法或装置还可包括比图1/2中所示更多或者更少的组件,或者具有与图1/2所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请实施例提供的一种基于实时归并的海量小文件存储性能优化方法及装置:
本申请实施例根据接收到的客户端文件存储请求信息,选用对象存储的方式对文件进行分层存储,从而将较大容量的大文件直接写入HDD存储资源池,将较小容量的小文件写入SSD存储资源池,实现了利用不同存储方式读取不同容量的文件,能够提高小容量文件的读取效率,并且通过HDD存储资源池便于快速读取和统一管理大容量文件。当小文件积累到固定数量或者字节数时,后台提取SSD存储资源池内小文件归并成大文件写入HDD存储资源池,保障客户端的正常使用。最后删除SSD存储资源池中归并后的原小文件数据,不影响文件的访问性能,同时释放出SSD存储资源池的存储空间,使之得到高效循环利用,降低了成本需求。本发明能够实现对海量小文件的合理存储,解决了现有文件存储目录树不适合大规模文件存储的问题,并且提高了小文件的存储效率,从而解决了利用HDD磁盘小文件存在的存储效率低问题。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于实时归并的海量小文件存储性能优化方法,其特征在于,包括S1:接收客户端发送的文件数据存储请求,将待存储文件通过对象存储的方式分层写入SSD、HDD存储资源池中;
其中,所述待存储文件为大文件时存放到所述HDD存储资源池,所述待存储文件为小文件时存放到所述SSD存储资源池,在文件索引池中存放该文件的元数据信息;根据所述元数据信息生成文件的全局唯一标识key;
S2:设定小文件归并数量的阈值和归并字节总数的阈值,当SSD存储资源池中存放所述小文件的所述归并数量或者所述字节总数超出阈值时,实时触发服务器的文档归并流程,服务器后台提取已有的所述小文件的内容归并成一个大文件,将所述大文件存储至所述HDD存储资源池;
S3:所述小文件归并归档后,根据标识key映射到文件索引池中的元数据信息增加数据定位信息;
S4:更新完所述小文件的所述元数据信息后,删除所述SSD数据池中被归并的所述小文件;
S5:服务器接收客户端发送的所述文件数据访问请求,如果所述元数据信息中不存在所述数据定位信息,则根据所述元数据信息解析出所述标识key,通过所述标识key从所述SSD存储资源池中访问对应的文件内容;如果所述元数据信息存在所述数据定位信息,根据所述数据定位信息从所述HDD存储资源池中找到所述小文件归并后的所述大文件,再从所述大文件中提取所述小文件的文件内容。
2.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:所述元数据信息包括文件身份标识号、文件生成的时间节点、文件大小和文件类型中的任意一项或多项。
3.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:根据所述待存储文件的所述元数据信息,按“身份标识号+文件生成时间”拼接字符串生成文件的所述标识key。
4.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:设置文件的分层字节数的阈值,当所述待存储文件的所述分层字节数大于阈值时,判定所述待存储文件为大文件,否则判定所述待存储文件为小文件。
5.如权利要求4所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,设置文件的所述分层字节数阈值为1M。
6.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S1中包含:根据文件内容生成与所述标识key对应的value;所述标识key的value一一映射,通过所述标识key可直接访问到对应文件内容数据;在所述HDD存储资源池或所述SSD存储资源池存放该文件的文件内容value。
7.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S2中包括,设定所述小文件归并数量的阈值为500个,所述归并字节总数的阈值为100M。
8.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S2中包括,将所述大文件采用EC模式持久化存储至所述HDD存储资源池。
9.如权利要求1所述一种基于实时归并的海量小文件存储性能优化方法,其特征在于,步骤S3中包括,所述数据定位信息包括所述小文件归并后的所述大文件的名称、路径、所述小文件在所述大文件中的位置偏移量和大小中的任意一项或多项。
10.一种基于实时归并的海量小文件存储性能优化装置,其特征在于,包括:
数据请求接收模块:用于接收客户端发送的文件数据写入或者访问请求;
文件数据分层存储模块:根据接收到的待存储文件元数据信息生成唯一身份标识key,以及与key对应的文件内容数据值value;以1M字节数为分界线将文件划分为大文件和小文件,大文件对应的value值写入HDD存储资源池,小文件对应的value值写入SSD存储资源池;
小文件数据归并模块:设定小文件归并流程的触发条件,即小文件数量阈值和小文件字节总数阈值;当SSD存储资源池内的小文件数量或者字节数超出阈值时,会实时触发服务器文档归并流程,将资源池内小文件归并成一个大文件并写入HDD存储资源池;其中小文件归并流程的触发条件中,小文件数量上限阈值不得超过SSD存储资源池的最大并发访问量,小文件字节数上限阈值不得超过SSD存储资源池存储空间大小;
小文件数据更新模块:根据被归并小文件的key值映射到对应元数据,添加数据定位信息,包括文件归并后的大文件的名称、路径、小文件在大文件中的位置偏移量和大小中的任意一项或多项;
小文件原数据删除模块:小文件被归并归档且成功更新元数据信息后,再将其原文件数据从SSD存储资源池删除;
文件数据读取模块:根据数据访问请求信息提出文件元数据信息并生成key,根据key标识从资源池读取文件内容,其中:大文件直接从HDD存储资源池读取;未被归并的小文件直接从SSD存储资源池读取;已被归并的小文件则需根据key映射到该文件在索引池中对应元数据,提取出数据定位信息,找到其被归并的大文件并从中提取相应位置的小文件内容。
CN202110090701.9A 2021-01-22 2021-01-22 一种基于实时归并的海量小文件存储性能优化方法及装置 Pending CN112416880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110090701.9A CN112416880A (zh) 2021-01-22 2021-01-22 一种基于实时归并的海量小文件存储性能优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110090701.9A CN112416880A (zh) 2021-01-22 2021-01-22 一种基于实时归并的海量小文件存储性能优化方法及装置

Publications (1)

Publication Number Publication Date
CN112416880A true CN112416880A (zh) 2021-02-26

Family

ID=74783213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110090701.9A Pending CN112416880A (zh) 2021-01-22 2021-01-22 一种基于实时归并的海量小文件存储性能优化方法及装置

Country Status (1)

Country Link
CN (1) CN112416880A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064843A (zh) * 2021-03-24 2021-07-02 深圳市时创意电子有限公司 一种固态硬盘的制造方法与固态硬盘
CN114647379A (zh) * 2022-02-17 2022-06-21 北京京东振世信息技术有限公司 文件存储方法、装置、电子设备和计算机可读介质
CN115981570A (zh) * 2023-01-10 2023-04-18 创云融达信息技术(天津)股份有限公司 一种基于kv数据库的分布式对象存储方法和***
CN117648297A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 基于对象存储小文件离线合并方法、***、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090128A (zh) * 2017-11-16 2018-05-29 北京奇艺世纪科技有限公司 一种合并存储空间回收方法、装置及电子设备
CN108287869A (zh) * 2017-12-20 2018-07-17 江苏省公用信息有限公司 一种基于快速存储设备的海量小文件解决方法
CN110147203A (zh) * 2019-05-16 2019-08-20 北京金山云网络技术有限公司 一种文件管理方法、装置、电子设备及存储介质
CN110888837A (zh) * 2019-11-15 2020-03-17 星辰天合(北京)数据科技有限公司 对象存储小文件归并方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090128A (zh) * 2017-11-16 2018-05-29 北京奇艺世纪科技有限公司 一种合并存储空间回收方法、装置及电子设备
CN108287869A (zh) * 2017-12-20 2018-07-17 江苏省公用信息有限公司 一种基于快速存储设备的海量小文件解决方法
CN110147203A (zh) * 2019-05-16 2019-08-20 北京金山云网络技术有限公司 一种文件管理方法、装置、电子设备及存储介质
CN110888837A (zh) * 2019-11-15 2020-03-17 星辰天合(北京)数据科技有限公司 对象存储小文件归并方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064843A (zh) * 2021-03-24 2021-07-02 深圳市时创意电子有限公司 一种固态硬盘的制造方法与固态硬盘
CN114647379A (zh) * 2022-02-17 2022-06-21 北京京东振世信息技术有限公司 文件存储方法、装置、电子设备和计算机可读介质
CN115981570A (zh) * 2023-01-10 2023-04-18 创云融达信息技术(天津)股份有限公司 一种基于kv数据库的分布式对象存储方法和***
CN115981570B (zh) * 2023-01-10 2023-12-29 创云融达信息技术(天津)股份有限公司 一种基于kv数据库的分布式对象存储方法和***
CN117648297A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 基于对象存储小文件离线合并方法、***、设备及介质
CN117648297B (zh) * 2024-01-30 2024-06-11 中国人民解放军国防科技大学 基于对象存储小文件离线合并方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN112416880A (zh) 一种基于实时归并的海量小文件存储性能优化方法及装置
US10331641B2 (en) Hash database configuration method and apparatus
CN106874348B (zh) 文件存储和索引方法、装置及读取文件的方法
CN108776682B (zh) 基于对象存储的随机读写对象的方法和***
CN111324665B (zh) 一种日志回放方法及装置
CN110888837B (zh) 对象存储小文件归并方法及装置
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN110109873B (zh) 一种用于消息队列的文件管理方法
TW201413479A (zh) 郵件索引建立方法及系統,郵件搜尋方法及系統
WO2014110940A1 (en) A method, apparatus and system for storing, reading the directory index
CN112965939A (zh) 一种文件合并方法、装置和设备
CN115114232A (zh) 一种历史版本对象列举方法、装置及其介质
CN112597348A (zh) 一种大数据存储优化的方法及装置
CN112511629B (zh) 一种mpt结构的账户树的数据压缩方法及***
CN111158606B (zh) 存储方法、装置、计算机设备和存储介质
CN111625617A (zh) 一种数据索引方法、装置及计算机可读存储介质
CN114416676A (zh) 数据处理方法、装置、设备和存储介质
CN114416741A (zh) 基于多级索引的kv数据写入读取方法、装置及存储介质
CN114265828A (zh) 行迁移消除方法、装置、计算机设备和存储介质
US10997144B2 (en) Reducing write amplification in buffer trees
CN113419687A (zh) 一种对象存储方法、***、设备及存储介质
CN111782150A (zh) 一种基于对象存储的多桶存储***及方法
CN111538804A (zh) 一种基于HBase的图数据处理方法和设备
CN118132520B (zh) 存储***文件处理方法、电子设备、存储介质及程序产品
CN117493284B (zh) 文件存储方法、文件读取方法、文件存储和读取***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226