CN106776967A - 基于时序聚合算法的海量小文件实时存储方法及装置 - Google Patents

基于时序聚合算法的海量小文件实时存储方法及装置 Download PDF

Info

Publication number
CN106776967A
CN106776967A CN201611104325.XA CN201611104325A CN106776967A CN 106776967 A CN106776967 A CN 106776967A CN 201611104325 A CN201611104325 A CN 201611104325A CN 106776967 A CN106776967 A CN 106776967A
Authority
CN
China
Prior art keywords
file
queue
small documents
data
filename
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611104325.XA
Other languages
English (en)
Other versions
CN106776967B (zh
Inventor
朱东杰
张凯
赵奇隆
杜海文
曲荣宁
顾天凯
逄志弘
毛尉茜
李亚
彭暄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weihai Han Bao Network Technology Co Ltd
Harbin Institute of Technology Weihai
Original Assignee
Weihai Han Bao Network Technology Co Ltd
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weihai Han Bao Network Technology Co Ltd, Harbin Institute of Technology Weihai filed Critical Weihai Han Bao Network Technology Co Ltd
Priority to CN201611104325.XA priority Critical patent/CN106776967B/zh
Publication of CN106776967A publication Critical patent/CN106776967A/zh
Application granted granted Critical
Publication of CN106776967B publication Critical patent/CN106776967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于时序聚合算法的海量小文件实时存储方法及装置,其解决了现有分布式文件***用于海量小文件时存在的存储效率低的技术问题,其采用数据聚合策略以数据的时间特性定义聚合空间,完成时序数据合并存储,通过将随机写转化为顺序写,本发明可广泛应用于海量小文件的存储。

Description

基于时序聚合算法的海量小文件实时存储方法及装置
技术领域
本发明涉及一种文件存储方法及装置,特别是涉及一种基于时序聚合算法的海量小文件实时存储方法及装置。
背景技术
现有的分布式文件***,包括底层的本地文件***,主要应用于大文件的处理,针对海量小文件,在元数据管理、数据布局及缓存管理等过程实现方面造成存储性能的大幅降低,具体表现为:
(1)元数据管理低效。分布式文件***在设计上侧重于大尺寸文件高聚合带宽。就本地磁盘的文件***而言,访问一个文件需要经过至少三次独立的访问,包括目录项、索引结点和数据。并发访问小文件带来大量低效的随机访问。同时,由于单个目录元数据组织能力低效,大量的小文件通常采用多级目录组织存储。随着目录层次的深入,文件的访问效率进一步下降。而对于分布式文件***而言,大量的小文件存储将产生过多的元数据,加大了主控服务元数据管理的资源消耗,增大了主控服务器负载。
(2)数据布局低效。磁盘文件***通常以块作为磁盘数据的组织单位并通过索引节点索引文件的数据块。在存储数据时文件***往往优先考虑大文件读写带宽。在进行大文件写入时,文件的数据块会被***尽可能的连续分配,使文件的多个数据块间具有很好的空间局部性。而在进行小文件写入时,***消耗大量索引节点,同时使数据块分配更加分散无序。由于数据块随机分布在磁盘上的不同物理位置,磁盘碎片化严重,造成存储空间的浪费。
(3)缓存管理低效。在分布式存储服务器端Cache设计中,大量小文件的随机性访问导致过低的Cache命中率,造成小文件访问额外的开销。而客户端Cache的有效性往往局限于所在本地机器。当用户从不同终端读取同一文件时需将数据拷贝到本地客户端缓存中并且当Cache中数据存在更新时,需通知所有缓存了该数据的客户端进行数据更新或无效化。
发明内容
本发明就是为了解决现有分布式文件***用于海量小文件时存在的存储效率低的技术问题,提供一种存储效率高的基于时序聚合算法的海量小文件实时存储方法及装置。
本发明的有益效果是:基于时序队列的数据聚合,采用时序数据聚合策略将小文件批量写入合并文件,减少索引结点的消耗并将随机写转化为顺序写,提高数据的存储效率。同时,可建立二级索引机制用于聚合数据中小文件的读取,将索引信息逻辑分割将部分负载分配给存储节点,减小代理节点的负载压力,索引维护代价更低。
本发明在Swift海量小文件对象存储***中增加数据聚合存储方法,在数据量如表1中是得到的性能对比如图5和图6所示。本发明较现有海量小文件存储方法的性能具有显著提升。
表1是实验基本数据
附图说明
图1是基于时序聚合算法的海量小文件实时存储方法的总体架构图;
图2是海量小文件实时存储***的示意图;
图3是聚合数据读取流程图;
图4是聚合数据读取流程图;
图5是本发明较Swift原始方法写入性能对比结果;
图6是本发明较Swift原始方法数据读取时间对比结果。
附图中符号说明:
10.时序数据聚合存储模块;20.二级索引机制数据读取模块;11.数据预处理模块;12.数据逻辑聚合模块;13.数据物理映射模块;14.数据物理聚合模块。
具体实施方式
在具体介绍本发明的具体实施例之前,首先对一些概念解释如下:
对象存储(Object-based Storage)是一种以对象形式管理数据的分布式存储架构。小文件对象通常指文件大小在5MB以下的文件。聚合空间是一种逻辑概念,在小文件对象聚合时,聚合空间内的文件会进行聚合,并以一个或者多个数据文件形式存储在分布式文件***中。
MD5加密算法:MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致,是计算机广泛使用的杂凑算法之一。该算法具备如下特性:1、压缩性:任意长度的数据,算出的MD5值长度都是固定的。2、容易计算:从原数据计算出MD5值很容易。3、抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。4、强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。
一致性哈希算法:一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法。
布鲁姆过滤器(英语:Bloom Filter)是1970年由布鲁姆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布鲁姆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。
如图1和2所示,海量小文件实时存储装置包括时序数据聚合存储模块10和二级索引机制数据读取模块20,时序数据聚合存储模块10包括数据预处理模块11、数据逻辑聚合模块12、数据物理映射模块13、数据物理聚合模块14。
数据预处理模块11,使用分布式***进行数据的时序处理,分布式***分为代理节点和存储节点,代理节点作为数据相关操作的控制节点,存储节点作为数据的实际存储节点。在代理节点中,***根据文件的时间先后顺序进行文件对象逻辑上的排序,在存储节点中进行文件的物理排序,形成时序数据队列。
数据逻辑聚合模块12,用于时序数据队列到相应聚合空间的逻辑分配。在该发明中,聚合空间是一种逻辑概念,小文件聚合即是聚合空间内的文件聚合,并以一个或者多个数据文件形式存储在分布式文件***中。聚合空间的唯一标识名为合并文件名(MobjName)。聚合空间具有三种状态,分别以#、*、&三种符号表示,分别代表聚合空间的初始状态、维持状态以及释放状态。聚合空间的状态包含三个状态参数:空间文件数,空间累计大小,空间累计存在时间。状态参数达到阀值时,代理节点将通过重置形式释放原有聚合空间,重新生成聚合空间的合并文件名(MobjName)。聚合空间的初始状态代表聚合空间正在进行小文件对象聚合,维持状态代表聚合空间内文件已经聚合完成维持稳定状态,释放状态代表聚合空间状态参数达到阀值释放原有聚合空间时刻的状态。具体过程是:
(1)在代理节点中,进行已逻辑排序的小文件到合并文件的逻辑聚处理,并得到合并文件名作为该聚合空间的唯一标识,合并文件名由代理节点中***当前时间使用MD5加密算法生成。
(2)代理节点进行小文件对象的语义标注,语义标注由合并文件名、聚合空间状态标记、合并文件中小文件顺序的偏移量组成。
数据物理映射模块13,用于在存储节点中相应聚合空间到物理存储分区的逻辑分配。具体过程是:
(1)***代理节点根据一致性哈希算法生成映射信息,映射信息由小文件名(ObjName),合并文件名(MobjName),生成时间(TimeStamp),物理设备编号(DeviceId),物理分区编号(PartitionId)组成。代理节点将映射信息存储到映射信息数据库(如MySQL数据库)中,该信息将作为文件查询的一级索引。
(2)代理节点将标注过的小文件名的存储请求转发到存储节点,由存储节点完成数据物理聚合存储操作。
数据物理聚合模块14,用于指定分区的聚合空间数据在对应存储节点进行存储操作。在存储节点中,采用文件队列模式进行文件存储,文件队列是文件存放的一种形式,它具有FIFO的特征,可用于海量小文件时序排列后的存储。具体过程是:
(1)在存储节点中,根据合并文件名(MobjName)生成文件队列,合并文件名作为队列的唯一标识。此时,该文件队列是以该合并文件名为标识的聚合空间的物理存储层的表现形式。根据小文件名(ObjName)中的语义标注分配到相应队列,标注中的合并文件名是文件分配指定队列的依据。
(2)当小文件的标注中状态标记为初始状态时,将物理数据层海量小文件信息加入队列,同时写入磁盘。
(3)当标注中状态标记为维持状态时,队列不发生变化。
(4)当标记为释放状态时,将文件加入队列后把队列内容批量写入磁盘并重置队列状态信息。同时进行新队列的生成以及数据的重新分配操作。存储节点和代理节点的状态信息的阈值一致,保证合并文件正常写入磁盘。通过限定合并文件大小和包含文件个数,一定程度上减少文件访问的I/0次数,提高读取速率。
二级索引机制数据读取模块20用于数据的读取,如图5所示,具体过程是:
(1)通过查询数据映射信息,找到合并文件名,通过一致性哈希映射找到相应的存储节点。
(2)通过BoomFilter注册已写入磁盘的队列文件,将无效的磁盘读取请求屏蔽,同时将读取操作转为内存数据查找。
(3)通过对合并文件的访问,以其扩展属性中局部索引为指导,将相应偏移量下的数据进行读取。
海量小文件实时存储方法如下:
步骤1:在代理节点中,***根据文件的时间先后顺序进行文件对象逻辑上的排序,在存储节点中进行文件的物理排序,形成时序数据队列。
步骤2:在代理节点中,进行已逻辑排序的小文件到合并文件的逻辑聚处理,并得到合并文件名作为该聚合空间的唯一标识,合并文件名由代理节点中***当前时间使用MD5加密算法生成。
步骤3:代理节点进行小文件对象的语义标注,语义标注由合并文件名,聚合空间状态标记,合并文件中小文件顺序的偏移量组成。
步骤4:***代理节点根据一致性哈希算法生成映射信息,映射信息由小文件名(ObjName),合并文件名(MobjName),生成时间(TimeStamp),物理设备编号(DeviceId),物理分区编号(PartitionId)组成。代理节点将映射信息存储到映射信息数据库(如MySQL数据库)中,该信息将作为文件查询的一级索引。
步骤5:代理节点将标注过的小文件名的存储请求转发到存储节点,由存储节点完成数据物理聚合存储操作。
步骤6:在存储节点中,根据合并文件名(MobjName)生成文件队列,合并文件名作为队列的唯一标识。此时,该文件队列是以该合并文件名为标识的聚合空间的物理存储层的表现形式。根据小文件名(ObjName)中的语义标注分配到相应队列,标注中的合并文件名是文件分配指定队列的依据。当小文件的标注中状态标记为初始状态时,将物理数据层海量小文件信息加入队列,同时写入磁盘。当标注中状态标记为维持状态时,队列不发生变化。当标记为释放状态时,将文件加入队列后把队列内容批量写入磁盘并重置队列状态信息。同时进行新队列的生成以及数据的重新分配操作。存储节点和代理节点的状态信息的阈值一致,保证合并文件正常写入磁盘。
如图3所示,海量小文件聚合存储读取方法如下:
步骤1:通过查询数据映射信息,找到合并文件名,通过Ring的一致性哈希映射找到相应的存储节点。
步骤2:通过计数BoomFilter注册已写入磁盘的队列文件,将无效的磁盘读取请求屏蔽,同时将读取操作转为内存数据查找。
步骤3:通过对合并文件的访问,以其扩展属性中局部索引为指导,将相应偏移量下的数据进行读取。
海量小文件聚合存储读取方法是:通过文件大小读取阀值K判断是否使用索引查找,如果需要就进行索引查找,如果不是就直接读取文件。进行索引查找时候根据文件名得到一级索引,通过BoomFilter过滤判断之后确定是否可以进行二级索引查找,查找到之后根据二级索引读取文件,否则通过判断文件是否存在于内存中,然后通过内存读取或者返回未查找到的错误信息。
如图4所示,具体算法如下
步骤S601,开始。
步骤S602,输入需要读取的文件名objName,设置文件大小阈值K。
步骤S603,判断objName文件的大小是否大于K,如果大于K,进入步骤S612,否则进入步骤S604。
步骤S604,通过查询数据映射信息,找到合并文件名MobjName,得到一级索引。
步骤S605,通过BoomFilter过滤,如果过滤成功,进入步骤S606,否则进入步骤S609。
步骤S606,根据MobjName和objName找到二级索引。
步骤S607,根据所得到的二级索引读取文件。
步骤S608,结束。
步骤S609,判断文件是否在内存中,如果在内存中,则进入步骤S610,否则进入步骤S611。
步骤S610,从内存中读取文件,进入步骤S611。
步骤S611,返回未查找到的错误信息“not found”,进入步骤S608。
步骤S612,直接读取文件,进入步骤S608。
以上所述仅对本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。

Claims (7)

1.一种基于时序聚合算法的海量小文件实时存储方法,其特征是包括以下步骤:
(1)使用分布式***进行数据的时序处理,在代理节点中,根据文件的时间先后顺序进行文件对象逻辑上的排序,在存储节点中进行文件的物理排序,形成时序数据队列;
(2)将时序数据队列进行逻辑分配到相应聚合空间;
(3)在存储节点中相应聚合空间到物理存储分区的逻辑分配;
(4)指定分区的聚合空间数据在对应存储节点进行存储操作。
2.根据权利要求1所述的基于时序聚合算法的海量小文件实时存储方法,其特征在于,所述海量小文件实时存储方法的具体步骤包括:
(1)在代理节点中,根据文件的时间先后顺序进行文件对象逻辑上的排序,在存储节点中进行文件的物理排序,形成时序数据队列;
(2)在代理节点中,进行已逻辑排序的小文件到合并文件的逻辑聚处理,并得到合并文件名作为该聚合空间的唯一标识,合并文件名由代理节点中***当前时间使用MD5加密算法生成;
(3)代理节点进行小文件对象的语义标注包括,语义标注由合并文件名、聚合空间状态标记和合并文件中小文件顺序的偏移量组成;
(4)***代理节点根据一致性哈希算法生成映射信息,映射信息由小文件名、合并文件名、生成时间、物理设备编号、物理分区编号组成;代理节点将映射信息存储到映射信息数据库中;
(5)代理节点将标注过的小文件名的存储请求转发到存储节点,由存储节点完成数据物理聚合存储操作;
(6)在存储节点中,根据合并文件名生成文件队列,合并文件名作为队列的唯一标识,根据小文件名中的语义标注分配到相应队列,标注中的合并文件名是文件分配指定队列的依据,当小文件的标注中状态标记为初始状态时,将物理数据层海量小文件信息加入队列,同时写入磁盘;当标注中状态标记为维持状态时,队列不发生变化;当标记为释放状态时,将文件加入队列后把队列内容批量写入磁盘并重置队列状态信息。
3.根据权利要求2所述的基于时序聚合算法的海量小文件实时存储方法,其特征在于,读取已经完成存储操作的小文件的过程包括以下步骤:
步骤S601,开始;
步骤S602,输入需要读取的文件名objName,设置文件大小阈值K;
步骤S603,判断objName文件的大小是否大于K,如果大于K,进入步骤S612,否则进入步骤S604;
步骤S604,通过查询数据映射信息,找到合并文件名MobjName,得到一级索引;
步骤S605,通过BoomFilter过滤,如果过滤成功,进入步骤S606,否则进入步骤S609;
步骤S606,根据MobjName和objName找到二级索引;
步骤S607,根据所得到的二级索引读取文件;
步骤S608,结束;
步骤S609,判断文件是否在内存中,如果在内存中,则进入步骤S610,否则进入步骤S611;
步骤S610,从内存中读取文件,进入步骤S611;
步骤S611,返回未查找到的错误信息,进入步骤S608;
步骤S612,直接读取文件,进入步骤S608。
4.一种基于时序聚合算法的海量小文件实时存储装置,其特征是,包括:
数据预处理模块,被配置为,使用分布式***进行数据的时序处理,在代理节点中,根据文件的时间先后顺序进行文件对象逻辑上的排序,在存储节点中进行文件的物理排序,形成时序数据队列;
数据逻辑聚合模块,被配置为,对时序数据队列到相应聚合空间的逻辑分配;
数据物理映射模块,被配置为,在存储节点中相应聚合空间到物理存储分区的逻辑分配;
数据物理聚合模块,被配置为,指定分区的聚合空间数据在对应存储节点进行存储操作。
5.根据权利要求4所述的基于时序聚合算法的海量小文件实时存储装置,其特征是,所述数据逻辑聚合模块被配置为:
在代理节点中,进行已逻辑排序的小文件到合并文件的逻辑聚处理,并得到合并文件名作为该聚合空间的唯一标识,合并文件名由代理节点中***当前时间使用MD5加密算法生成;
代理节点进行小文件对象的语义标注,语义标注由合并文件名、聚合空间状态标记和合并文件中小文件顺序的偏移量组成。
6.根据权利要求5所述的基于时序聚合算法的海量小文件实时存储装置,其特征是,所述数据物理映射模块,被配置为:
代理节点根据一致性哈希算法生成映射信息,映射信息由小文件名、合并文件名、生成时间、物理设备编号、物理分区编号组成;代理节点将映射信息存储到映射信息数据库中;
代理节点将标注过的小文件名的存储请求转发到存储节点,由存储节点完成数据物理聚合存储操作。
7.根据权利要求6所述的基于时序聚合算法的海量小文件实时存储装置,其特征是,所述数据物理聚合模块,被配置为:
在存储节点中,根据合并文件名生成文件队列,合并文件名作为队列的唯一标识,根据小文件名中的语义标注分配到相应队列,标注中的合并文件名是文件分配指定队列的依据;
当小文件的标注中状态标记为初始状态时,将物理数据层海量小文件信息加入队列,同时写入磁盘;
当标注中状态标记为维持状态时,队列不发生变化;
当标记为释放状态时,将文件加入队列后把队列内容批量写入磁盘并重置队列状态信息,同时进行新队列的生成以及数据的重新分配操作。
CN201611104325.XA 2016-12-05 2016-12-05 基于时序聚合算法的海量小文件实时存储方法及装置 Active CN106776967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611104325.XA CN106776967B (zh) 2016-12-05 2016-12-05 基于时序聚合算法的海量小文件实时存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611104325.XA CN106776967B (zh) 2016-12-05 2016-12-05 基于时序聚合算法的海量小文件实时存储方法及装置

Publications (2)

Publication Number Publication Date
CN106776967A true CN106776967A (zh) 2017-05-31
CN106776967B CN106776967B (zh) 2020-03-27

Family

ID=58874047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611104325.XA Active CN106776967B (zh) 2016-12-05 2016-12-05 基于时序聚合算法的海量小文件实时存储方法及装置

Country Status (1)

Country Link
CN (1) CN106776967B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229427A (zh) * 2017-06-22 2017-10-03 上海七牛信息技术有限公司 一种文件存储方法、***及计算机存储介质
CN108572792A (zh) * 2017-06-13 2018-09-25 北京金山云网络技术有限公司 数据存储方法、装置、电子设备及计算机可读存储介质
CN109164980A (zh) * 2018-08-03 2019-01-08 北京涛思数据科技有限公司 一种时序数据的聚合优化处理方法
CN109407985A (zh) * 2018-10-15 2019-03-01 郑州云海信息技术有限公司 一种数据管理的方法以及相关装置
CN109767274A (zh) * 2018-12-05 2019-05-17 航天信息股份有限公司 一种对海量***数据进行关联存储的方法及***
CN110659250A (zh) * 2018-06-13 2020-01-07 中国电信股份有限公司 文件处理方法和***
CN110928835A (zh) * 2019-10-12 2020-03-27 虏克电梯有限公司 基于海量存储的新型文件存储***和方法
CN110968272A (zh) * 2019-12-16 2020-04-07 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及***
CN111176574A (zh) * 2019-12-27 2020-05-19 浪潮电子信息产业股份有限公司 一种小文件存储方法、装置、设备及介质
CN111290706A (zh) * 2020-01-15 2020-06-16 哈尔滨工业大学 一种基于布隆过滤器的双层读写磨损均衡方法
CN112269764A (zh) * 2020-10-23 2021-01-26 北京浪潮数据技术有限公司 一种文件聚合方法、装置、设备及可读存储介质
CN112286867A (zh) * 2020-10-27 2021-01-29 山东鼎滏软件科技有限公司 油气田时序数据存储方法、查询方法及其装置、存储介质
CN112422404A (zh) * 2020-10-19 2021-02-26 上海哔哩哔哩科技有限公司 消息处理方法及***
CN112632347A (zh) * 2021-01-14 2021-04-09 加和(北京)信息科技有限公司 数据筛选控制方法及装置、非易失性存储介质
CN113177024A (zh) * 2021-06-29 2021-07-27 南京烽火星空通信发展有限公司 一种海量数据场景下的数据全局合并方法
WO2021150165A1 (en) * 2020-01-20 2021-07-29 Envision Digital International Pte. Ltd. Method and apparatus for managing and controlling resource, device and storage medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191330A1 (en) * 2008-08-25 2013-07-25 International Business Machines Corporation Reducing contention and messaging traffic in a distributed shared caching for clustered file systems
CN103559229A (zh) * 2013-10-22 2014-02-05 西安电子科技大学 基于MapFile的小文件管理服务SFMS***及其使用方法
CN104391930A (zh) * 2014-11-21 2015-03-04 用友软件股份有限公司 分布式文件存储装置和方法
US20150289118A1 (en) * 2014-04-08 2015-10-08 Nexomni, Llc System and method for multi-frame message exchange between personal mobile devices
CN104978351A (zh) * 2014-04-09 2015-10-14 中国电信股份有限公司 海量小文件备份方法与云存储网关
CN105843841A (zh) * 2016-03-07 2016-08-10 青岛理工大学 一种小文件存储方法和***
CN105956183A (zh) * 2016-05-30 2016-09-21 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191330A1 (en) * 2008-08-25 2013-07-25 International Business Machines Corporation Reducing contention and messaging traffic in a distributed shared caching for clustered file systems
CN103559229A (zh) * 2013-10-22 2014-02-05 西安电子科技大学 基于MapFile的小文件管理服务SFMS***及其使用方法
US20150289118A1 (en) * 2014-04-08 2015-10-08 Nexomni, Llc System and method for multi-frame message exchange between personal mobile devices
CN104978351A (zh) * 2014-04-09 2015-10-14 中国电信股份有限公司 海量小文件备份方法与云存储网关
CN104391930A (zh) * 2014-11-21 2015-03-04 用友软件股份有限公司 分布式文件存储装置和方法
CN105843841A (zh) * 2016-03-07 2016-08-10 青岛理工大学 一种小文件存储方法和***
CN105956183A (zh) * 2016-05-30 2016-09-21 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾鑫等: "数字标准平台中海量时空小文件合并策略研究", 《数字标准平台中海量时空小文件合并策略研究 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572792A (zh) * 2017-06-13 2018-09-25 北京金山云网络技术有限公司 数据存储方法、装置、电子设备及计算机可读存储介质
CN107229427B (zh) * 2017-06-22 2019-10-18 上海七牛信息技术有限公司 一种文件存储方法、***及计算机存储介质
CN107229427A (zh) * 2017-06-22 2017-10-03 上海七牛信息技术有限公司 一种文件存储方法、***及计算机存储介质
CN110659250B (zh) * 2018-06-13 2022-02-22 中国电信股份有限公司 文件处理方法和***
CN110659250A (zh) * 2018-06-13 2020-01-07 中国电信股份有限公司 文件处理方法和***
CN109164980B (zh) * 2018-08-03 2024-02-02 北京涛思数据科技有限公司 一种时序数据的聚合优化处理方法
CN109164980A (zh) * 2018-08-03 2019-01-08 北京涛思数据科技有限公司 一种时序数据的聚合优化处理方法
CN109407985B (zh) * 2018-10-15 2022-02-18 郑州云海信息技术有限公司 一种数据管理的方法以及相关装置
CN109407985A (zh) * 2018-10-15 2019-03-01 郑州云海信息技术有限公司 一种数据管理的方法以及相关装置
CN109767274A (zh) * 2018-12-05 2019-05-17 航天信息股份有限公司 一种对海量***数据进行关联存储的方法及***
CN109767274B (zh) * 2018-12-05 2023-04-25 航天信息股份有限公司 一种对海量***数据进行关联存储的方法及***
CN110928835A (zh) * 2019-10-12 2020-03-27 虏克电梯有限公司 基于海量存储的新型文件存储***和方法
CN110968272A (zh) * 2019-12-16 2020-04-07 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及***
CN110968272B (zh) * 2019-12-16 2021-01-01 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及***
CN111176574B (zh) * 2019-12-27 2022-03-22 浪潮电子信息产业股份有限公司 一种小文件存储方法、装置、设备及介质
CN111176574A (zh) * 2019-12-27 2020-05-19 浪潮电子信息产业股份有限公司 一种小文件存储方法、装置、设备及介质
CN111290706B (zh) * 2020-01-15 2023-03-31 哈尔滨工业大学 一种基于布隆过滤器的双层读写磨损均衡方法
CN111290706A (zh) * 2020-01-15 2020-06-16 哈尔滨工业大学 一种基于布隆过滤器的双层读写磨损均衡方法
US11954133B2 (en) 2020-01-20 2024-04-09 Envision Digital International Pte. Ltd. Method and apparatus for managing and controlling resource, device and storage medium
WO2021150165A1 (en) * 2020-01-20 2021-07-29 Envision Digital International Pte. Ltd. Method and apparatus for managing and controlling resource, device and storage medium
CN112422404A (zh) * 2020-10-19 2021-02-26 上海哔哩哔哩科技有限公司 消息处理方法及***
CN112422404B (zh) * 2020-10-19 2022-08-19 上海哔哩哔哩科技有限公司 消息处理方法及***
CN112269764A (zh) * 2020-10-23 2021-01-26 北京浪潮数据技术有限公司 一种文件聚合方法、装置、设备及可读存储介质
CN112286867B (zh) * 2020-10-27 2022-03-01 山东鼎滏软件科技有限公司 油气田时序数据存储方法、查询方法及其装置、存储介质
CN112286867A (zh) * 2020-10-27 2021-01-29 山东鼎滏软件科技有限公司 油气田时序数据存储方法、查询方法及其装置、存储介质
CN112632347B (zh) * 2021-01-14 2024-01-23 加和(北京)信息科技有限公司 数据筛选控制方法及装置、非易失性存储介质
CN112632347A (zh) * 2021-01-14 2021-04-09 加和(北京)信息科技有限公司 数据筛选控制方法及装置、非易失性存储介质
CN113177024A (zh) * 2021-06-29 2021-07-27 南京烽火星空通信发展有限公司 一种海量数据场景下的数据全局合并方法

Also Published As

Publication number Publication date
CN106776967B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN106776967A (zh) 基于时序聚合算法的海量小文件实时存储方法及装置
KR102266756B1 (ko) Kvs 트리
US11238098B2 (en) Heterogenous key-value sets in tree database
CN105205014B (zh) 一种数据存储方法和装置
CN105989129B (zh) 实时数据统计方法和装置
US20160350302A1 (en) Dynamically splitting a range of a node in a distributed hash table
GB2595615A (en) Managing data objects for graph-based data structures
CN104063487B (zh) 基于关系型数据库及k‑d树索引的文件数据管理方法
CN109656958B (zh) 数据查询方法以及***
CN105117417A (zh) 一种读优化的内存数据库Trie树索引方法
CN103530387A (zh) 一种hdfs针对小文件的改进方法
EP2821924A1 (en) Method, device and system for querying data index
CN109522283A (zh) 一种重复数据删除方法及***
CN110399096A (zh) 分布式文件***元数据缓存重删的方法、装置以及设备
CN109460406A (zh) 一种数据处理方法及装置
US20130262400A1 (en) Data index query method, apparatus and system
CN110633261A (zh) 一种图片存储方法、图片查询方法及装置
EP2940587A1 (en) Computer, control device for computer system, and recording medium
JP7505252B2 (ja) ファイルサーバ、重複排除システム、処理方法、プログラム
US20130332465A1 (en) Database management device and database management method
JP6006740B2 (ja) インデックス管理装置
CN109150537B (zh) 一种基于动态Bloom Filter的文件所有权证明方法
Li et al. Cluster-based distributed dynamic cuckoo filter system for Redis
KR20220110226A (ko) 고빈도 액세스 버킷 세트와 저빈도 액세스 버킷 세트를 갖는 해시 테이블을 사용하는 시스템 및 방법
CN113835613A (zh) 一种文件读取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant