CN109634914B - 一种对讲语音小文件整存散分和分叉检索的优化方法 - Google Patents

一种对讲语音小文件整存散分和分叉检索的优化方法 Download PDF

Info

Publication number
CN109634914B
CN109634914B CN201811390509.6A CN201811390509A CN109634914B CN 109634914 B CN109634914 B CN 109634914B CN 201811390509 A CN201811390509 A CN 201811390509A CN 109634914 B CN109634914 B CN 109634914B
Authority
CN
China
Prior art keywords
files
talkback voice
talkback
small
small files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811390509.6A
Other languages
English (en)
Other versions
CN109634914A (zh
Inventor
方国栋
张育钊
袁科
刘昊天
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201811390509.6A priority Critical patent/CN109634914B/zh
Publication of CN109634914A publication Critical patent/CN109634914A/zh
Application granted granted Critical
Publication of CN109634914B publication Critical patent/CN109634914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种对讲语音小文件整存散分和分叉检索的优化方法,包括将对讲语音小文件进行归类;根据文件大小对每一类对讲语音小文件进行顺序排序;对于每一类对讲语音小文件,均按照排序顺序选择HDFS块空间整数倍所能容纳的最大文件个数,并对选择的对讲语音小文件进行合并存储;为选择后剩余的对讲语音小文件设置分类等级,并按设置的分类等级来对剩余的对讲语音小文件进行分类,且对分类后的对讲语音小文件进行合并存储;对存储后的合并文件建立分叉索引机制,并记录合并文件中各个对讲语音小文件的信息。本发明优点:可减少块空间数量,并达到减少NameNode维护元数据时内存占用过高的目的;可减少元数据信息的空间大小,加快读取速率。

Description

一种对讲语音小文件整存散分和分叉检索的优化方法
技术领域
本发明涉及分布式文件***性能优化领域,特别涉及一种对讲语音小文件整存散分和分叉检索的优化方法。
背景技术
随着互联网技术的高速发展,通信行业也发生了巨大的变化。基于IP的网络对讲机应用越来越广泛,用户频繁的使用对讲机也使得对讲语音小文件量越来越大,如何有效的管理这些对讲语音小文件,成为了网络对讲机提供商所面临亟待解决的问题。
Hadoop分布式文件***(英文名:Hadoop Distributed File System,HDFS),是Apache开源组织的一个分布式计算框架Hadoop的核心组成部分,以Google公司的GFS(Google File System)为原型,采用Java开源实现,为各大机构和公司架设云存储解决方案提供了参考。一经问世,就得到了广泛的应用,包括FaceBook,Yahoo,阿里巴巴,腾讯和百度等互联网公司均利用HDFS存储海量数据。其设计之初就是为了能在廉价的商业服务器上稳定的运行,并且,它还具有容错性高,可扩展性好等优点。
HDFS采用了主从式架构,由一个NameNode节点和大量的DataNode节点组成,其中,NameNode是HDFS的核心,其工作是维护文件的元数据信息,并协调管理所有DataNode节点,DataNode则用于实际文件的存储。在Hadoop集群启动之后,所有的元数据信息都会被加载到NameNode内存中。客户端访问HDFS时,首先需要向NameNode节点获取相关文件的元数据信息,然后根据这些元数据信息找到实际存储文件的DataNode,最后通过DataNode获取客户端所请求的文件。
HDFS这种主从架构存在以下几个问题,一、由于每个文件对应一个元数据信息,每个元数据信息所占空间大约为150字节,所以,随着HDFS存储的小文件数量增加,NameNode所要维护的元数据信息也会急剧增加,NameNode空间被大量消耗,但NameNode的内存空间是有限的,所以最终会导致NameNode的性能瓶颈。二、每次写小文件,都要向NameNode节点请求数据块的分配,每次读小文件,也要向NameNode节点请求元数据信息,因此频繁的进行数据读写,会导致NameNode节点的性能降低,甚至会导致网络泛洪。三、每个小文件的文件大小都比较小,而每次在传输实际文件的时候都要经历文件元数据信息的请求、定位数据块位置、客户端和DataNode建立连接三个步骤,因此,可能存在小文件读写的时间比网络连接建立的时间短,从而降低了HDFS的效率。
发明内容
本发明要解决的技术问题,在于提供一种对讲语音小文件整存散分和分叉检索的优化方法,通过该方法来解决目前HDFS在存储大量小文件时所造成的NameNode节点内存占用过高和读写小文件时所造成的性能下降等问题。
本发明是这样实现的:一种对讲语音小文件整存散分和分叉检索的优化方法,所述方法包括如下步骤:
步骤S1、将对讲语音小文件进行归类;
步骤S2、归类完成后,根据文件大小对每一类对讲语音小文件进行顺序排序;
步骤S3、对于每一类对讲语音小文件,均按照排序顺序选择HDFS块空间整数倍所能容纳的最大文件个数,并对选择的对讲语音小文件进行合并存储到HDFS块空间中;
步骤S4、为选择后剩余的对讲语音小文件设置分类等级,并按照设置的分类等级来对剩余的对讲语音小文件进行分类,且对分类后的对讲语音小文件进行合并存储;
步骤S5、对存储后的合并文件建立分叉索引机制,并记录合并文件中各个对讲语音小文件的信息。
进一步地,所述步骤S1具体包括:
步骤S11、在对讲语音发起者上传对讲语音小文件时,对讲语音服务器根据发起者信息,将所有属于该发起者的对讲语音小文件均放置到一指定文件夹下;
步骤S12、根据发起者信息,将每一发起者的指定文件夹均单独标记为一类。
进一步地,所述指定文件夹均以发起者名称进行命名。
进一步地,所述步骤S2具体为:
归类完成后,对于每一指定文件夹,均遍历该指定文件夹下所有的对讲语音小文件,并按照从大到小的顺序对同一指定文件夹下所有的对讲语音小文件进行排序。
进一步地,在所述步骤S4中,所述为选择后剩余的对讲语音小文件设置分类等级具体为:
根据各发起者之间的关系,为选择后剩余的对讲语音小文件设置三个分类等级,且对每个分类等级均设定一个优先级,其中,三个分类等级按照优先级从高到低依次为:具有群组关系的对讲语音小文件、时间段相同的对讲语音小文件以及其它对讲语音小文件。
进一步地,在所述步骤S4中,所述对分类后的对讲语音小文件进行合并存储具体包括:
步骤B11、创建缓存区;
步骤B12、将具有群组关系的对讲语音小文件填充到缓存区中,并判断缓存区是否已无法再填充下一个具有群组关系的对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B13;如果否,则直接进入步骤B13;
步骤B13、判断是否已填充完具有群组关系的对讲语音小文件,如果是,则进入步骤B14;如果否,则返回步骤B12;
步骤B14、往缓存区中填充时间段相同的对讲语音小文件,并判断缓存区是否已无法再填充下一个时间段相同的对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B15;如果否,则直接进入步骤B15;
步骤B15、判断是否已填充完时间段相同的对讲语音小文件,如果是,则进入步骤B16;如果否,则返回步骤B14;
步骤B16、往缓存区中填充其它对讲语音小文件,并判断缓存区是否已无法再填充下一个其它对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B17;如果否,则直接进入步骤B17;
步骤B17、判断是否已填充完其它对讲语音小文件,如果是,则进入步骤B18;如果否,则返回步骤B16;
步骤B18、将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区。
进一步地,所述步骤S5具体为:
使用哈希表结构来保存各个对讲语音小文件的元数据信息,且在哈希表结构中,键为对讲语音小文件名称信息的哈希值,键的结构为<用户名|文件名>;值为对讲语音小文件的元数据信息;其中,对于按照排序顺序选择的对讲语音小文件,元数据信息包括小文件所属范围、起始位置以及长度;对于选择后剩余的对讲语音小文件,元数据信息包括小文件所属范围、散分合并后的文件名、起始位置以及长度。
本发明具有如下优点:
1、在原始HDFS块管理方式上,通过小文件合并来减少块空间的浪费,并加入整合散分策略,以此来规避边缘文件对块空间的浪费。具体实现方式是:按照发起者及其关系来对小文件进行整合和散分,即先将属于同一发起者的文件进行合并,然后再将超出块空间整数倍的小文件按发起者之间的关系进行分类合并。通过上述这种方式可减少块空间数量,并达到减少NameNode维护元数据时内存占用过高的目的。
2、通过建立分叉索引机制,针对不同的文件使用不同的分类方法,可减少元数据信息的空间大小,同时加快读取速率。具体实现方式是:记录小文件的所属范围、起始位置以及长度。这种方式对于用户来说十分便捷、简单,只需要部署软件即可完成相关功能,可便于推广使用。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明实现的原理框图。
图2为本发明一种对讲语音小文件整存散分和分叉检索的优化方法的执行流程图。
图3为本发明中对对讲语音小文件进行归类的示意图。
图4为本发明中对对讲语音小文件进行排序的示意图。
图5为本发明中对讲语音小文件的元数据信息结构与对讲语音小文件之间的对应关系图。
图6为本发明中整合方式存储结构的示意图。
图7为本发明中散分方式存储结构的示意图。
具体实施方式
请重点参照图1至图7所示,本发明一种对讲语音小文件整存散分和分叉检索的优化方法的较佳实施例,所述方法包括如下步骤:
步骤S1、将对讲语音小文件进行归类;
在本具体实施例中,所述步骤S1具体包括:
步骤S11、在对讲语音发起者上传对讲语音小文件时,对讲语音服务器根据发起者信息,将所有属于该发起者的对讲语音小文件均放置到一指定文件夹下;
步骤S12、根据发起者信息,将每一发起者的指定文件夹均单独标记为一类,也就是说,在具体进行归类时,是以发起者来作为归类标准。
如图3所示,例如,发起者A和发起者B均上传了6个对讲语音小文件,在对讲语音服务器接收到发起者A和发起者B上传的对讲语音小文件后,就将发起者A所对应的6个对讲语音小文件存储在发起者A对应的指定文件夹的目录下,将发起者B所对应的6个对讲语音小文件存储在发起者B对应的指定文件夹的目录下。
所述指定文件夹均以发起者名称进行命名。由于语音对讲时主要分为发起者和接收者,所以使用发起者来进行命名,并作为归类标准,一方面是可以确保归类规则清晰,另一方面是可以根据发起者信息来快速定位所要访问的小文件位置,以加快访问对讲语音小文件的效率。
步骤S2、归类完成后,根据文件大小对每一类对讲语音小文件进行顺序排序;
在本具体实施例中,所述步骤S2具体为:
归类完成后,对于每一指定文件夹,均遍历该指定文件夹下所有的对讲语音小文件,并按照从大到小的顺序对同一指定文件夹下所有的对讲语音小文件进行排序。在具体实施时,可以统一由一个排序模块来对同一指定文件夹下所有的对讲语音小文件进行排序。
如图4所示,例如,在发起者A的指定文件夹中存储有6个对讲语音小文件,且文件的大小顺序是:对讲文件1>对讲文件2>对讲文件3>对讲文件4>对讲文件5>对讲文件6,那么,排序模块就按照对讲文件1、对讲文件2、对讲文件3、对讲文件4、对讲文件5、对讲文件6的顺序进行排序。
步骤S3、对于每一类对讲语音小文件,均按照排序顺序选择HDFS块空间整数倍所能容纳的最大文件个数,并对选择的对讲语音小文件进行合并存储到HDFS块空间中;也就是说,本发明在具体实施时,对于每一类对讲语音小文件都先采取整合方式存储,即按照从大到小的顺序来选择总和最接近HDFS块空间整数倍(HDFS中每一个块空间大小都是固定的,由于在具体进行存储时,通常都需要占用多个块空间,因此,需要选取块空间的整数倍)的对讲语音小文件,并将这部分对讲语音小文件整合存储到HDFS块空间中。
例如,从图4中可以看出,HDFS块空间整数倍所能够容纳的只有对讲文件1~对讲文件5,那么,就将对讲文件1~对讲文件5以整合方式存储到HDFS块空间中,而对讲文件6则交给散分模块进行处理;此时,如果选择将对讲文件1交给散分模块进行处理,那将会降低内存的占用率,因为各对讲语音小文件是按照从大到小的顺序排序的,所以可以得出:
File1.Size≥File6.Size (1)
根据式(1)可以进一步得出:
Figure BDA0001873936860000071
在具体实施时,由于用户的对讲时间存在有非常大的随机性,所以式(1)和式(2)中等于成立的概率很低,因此,采用以上这种方式来存储对讲语音小文件,可以实现最大化利用块空间。
步骤S4、为选择后剩余的对讲语音小文件设置分类等级,并按照设置的分类等级来对剩余的对讲语音小文件进行分类,且对分类后的对讲语音小文件进行合并存储;在具体实施时,可以统一由一个散分模块来对选择后各分散的对讲语音小文件来进行处理。
在所述步骤S4中,所述为选择后剩余的对讲语音小文件设置分类等级具体为:
根据各发起者之间的关系,为选择后剩余的对讲语音小文件设置三个分类等级,且对每个分类等级均设定一个优先级,其中,三个分类等级按照优先级从高到低依次为:具有群组关系的对讲语音小文件、时间段相同的对讲语音小文件以及其它对讲语音小文件。
在所述步骤S4中,所述对分类后的对讲语音小文件进行合并存储具体包括:
步骤B11、创建缓存区;
步骤B12、将具有群组关系的对讲语音小文件填充到缓存区中,并判断缓存区是否已无法再填充下一个具有群组关系的对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B13;如果否,则直接进入步骤B13;
步骤B13、判断是否已填充完具有群组关系的对讲语音小文件,如果是,则进入步骤B14;如果否,则返回步骤B12;
步骤B14、往缓存区中填充时间段相同的对讲语音小文件,并判断缓存区是否已无法再填充下一个时间段相同的对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B15;如果否,则直接进入步骤B15;
步骤B15、判断是否已填充完时间段相同的对讲语音小文件,如果是,则进入步骤B16;如果否,则返回步骤B14;
步骤B16、往缓存区中填充其它对讲语音小文件,并判断缓存区是否已无法再填充下一个其它对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B17;如果否,则直接进入步骤B17;
步骤B17、判断是否已填充完其它对讲语音小文件,如果是,则进入步骤B18;如果否,则返回步骤B16;
步骤B18、将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区。
本发明使用散分的方式来合并选择后剩余的对讲语音小文件是为了减少块空间的占用,以通过减少块空间的浪费来降低NameNode内存的占用。
步骤S5、对存储后的合并文件建立分叉索引机制,并记录合并文件中各个对讲语音小文件的信息。
所述步骤S5具体为:
使用哈希表结构HashMap来保存各个对讲语音小文件的元数据信息,哈希表结构的结构为<键,值>,即<Key,Value>,且在哈希表结构HashMap中,键(Key)为对讲语音小文件名称信息的哈希值(HashCode值),键(Key)的结构为<用户名|文件名>;值(Value)为对讲语音小文件的元数据信息;
其中,对于按照排序顺序选择的对讲语音小文件(即以整合方式存储的对讲语音小文件,Scope为Whole),元数据信息包括小文件所属范围(Scope)、起始位置(Offset)以及长度(Length),如图6所示;对于选择后剩余的对讲语音小文件(即以散分方式存储的对讲语音小文件,Scope为Apart),元数据信息包括小文件所属范围(Scope)、散分合并后的文件名(MergeFileName)、起始位置(Offset)以及长度(Length),如图7所示。
通过采用上述整合方式存储结构和散分方式存储结构来存储对讲语音小文件,使得当客户端(即访问者)在访问对讲语音小文件时,可以先根据键(Key)来从哈希表结构HashMap中获取对讲语音小文件的Scope(小文件所属范围)信息,且在得到返回值后,如果是以整合方式合并的对讲语音小文件,则直接通过键(Key)中的用户名和值(Value)中的起始位置(Offset)和长度(Length)到指定的文件中读取对应的对讲语音小文件;如果是以散分方式合并的对讲语音小文件,则根据散分合并后的文件名(MergeFileName)、起始位置(Offset)和长度(Length)到指定的文件中读取对应的小文件,如图5所示。读取小文件时,直接使用HDFSAPI。
综上所述,本发明具有如下优点:
1、在原始HDFS块管理方式上,通过小文件合并来减少块空间的浪费,并加入整合散分策略,以此来规避边缘文件对块空间的浪费。具体实现方式是:按照发起者及其关系来对小文件进行整合和散分,即先将属于同一发起者的文件进行合并,然后再将超出块空间整数倍的小文件按发起者之间的关系进行分类合并。通过上述这种方式可减少块空间数量,并达到减少NameNode维护元数据时内存占用过高的目的。
2、通过建立分叉索引机制,针对不同的文件使用不同的分类方法,可减少元数据信息的空间大小,同时加快读取速率。具体实现方式是:记录小文件的所属范围、起始位置以及长度。这种方式对于用户来说十分便捷、简单,只需要部署软件即可完成相关功能,可便于推广使用。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.一种对讲语音小文件整存散分和分叉检索的优化方法,其特征在于:所述方法包括如下步骤:
步骤S1、将对讲语音小文件进行归类;
步骤S2、归类完成后,根据文件大小对每一类对讲语音小文件进行顺序排序;
步骤S3、对于每一类对讲语音小文件,均按照排序顺序选择HDFS块空间整数倍所能容纳的最大文件个数,并对选择的对讲语音小文件进行合并存储到HDFS块空间中;
步骤S4、为选择后剩余的对讲语音小文件设置分类等级,并按照设置的分类等级来对剩余的对讲语音小文件进行分类,且对分类后的对讲语音小文件进行合并存储;
步骤S5、对存储后的合并文件建立分叉索引机制,并记录合并文件中各个对讲语音小文件的信息;
在所述步骤S4中,所述对分类后的对讲语音小文件进行合并存储具体包括:
步骤B11、创建缓存区;
步骤B12、将具有群组关系的对讲语音小文件填充到缓存区中,并判断缓存区是否已无法再填充下一个具有群组关系的对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B13;如果否,则直接进入步骤B13;
步骤B13、判断是否已填充完具有群组关系的对讲语音小文件,如果是,则进入步骤B14;如果否,则返回步骤B12;
步骤B14、往缓存区中填充时间段相同的对讲语音小文件,并判断缓存区是否已无法再填充下一个时间段相同的对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B15;如果否,则直接进入步骤B15;
步骤B15、判断是否已填充完时间段相同的对讲语音小文件,如果是,则进入步骤B16;如果否,则返回步骤B14;
步骤B16、往缓存区中填充其它对讲语音小文件,并判断缓存区是否已无法再填充下一个其它对讲语音小文件,如果是,则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区,并进入步骤B17;如果否,则直接进入步骤B17;
步骤B17、判断是否已填充完其它对讲语音小文件,如果是,则进入步骤B18;如果否,则返回步骤B16;
步骤B18、将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中,且清空缓存区。
2.根据权利要求1所述的一种对讲语音小文件整存散分和分叉检索的优化方法,其特征在于:所述步骤S1具体包括:
步骤S11、在对讲语音发起者上传对讲语音小文件时,对讲语音服务器根据发起者信息,将所有属于该发起者的对讲语音小文件均放置到一指定文件夹下;
步骤S12、根据发起者信息,将每一发起者的指定文件夹均单独标记为一类。
3.根据权利要求2所述的一种对讲语音小文件整存散分和分叉检索的优化方法,其特征在于:所述指定文件夹均以发起者名称进行命名。
4.根据权利要求2所述的一种对讲语音小文件整存散分和分叉检索的优化方法,其特征在于:所述步骤S2具体为:
归类完成后,对于每一指定文件夹,均遍历该指定文件夹下所有的对讲语音小文件,并按照从大到小的顺序对同一指定文件夹下所有的对讲语音小文件进行排序。
5.根据权利要求1所述的一种对讲语音小文件整存散分和分叉检索的优化方法,其特征在于:在所述步骤S4中,所述为选择后剩余的对讲语音小文件设置分类等级具体为:
根据各发起者之间的关系,为选择后剩余的对讲语音小文件设置三个分类等级,且对每个分类等级均设定一个优先级,其中,三个分类等级按照优先级从高到低依次为:具有群组关系的对讲语音小文件、时间段相同的对讲语音小文件以及其它对讲语音小文件。
6.根据权利要求1所述的一种对讲语音小文件整存散分和分叉检索的优化方法,其特征在于:所述步骤S5具体为:
使用哈希表结构来保存各个对讲语音小文件的元数据信息,且在哈希表结构中,键为对讲语音小文件名称信息的哈希值,键的结构为<用户名|文件名>;值为对讲语音小文件的元数据信息;其中,对于按照排序顺序选择的对讲语音小文件,元数据信息包括小文件所属范围、起始位置以及长度;对于选择后剩余的对讲语音小文件,元数据信息包括小文件所属范围、散分合并后的文件名、起始位置以及长度。
CN201811390509.6A 2018-11-21 2018-11-21 一种对讲语音小文件整存散分和分叉检索的优化方法 Active CN109634914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811390509.6A CN109634914B (zh) 2018-11-21 2018-11-21 一种对讲语音小文件整存散分和分叉检索的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811390509.6A CN109634914B (zh) 2018-11-21 2018-11-21 一种对讲语音小文件整存散分和分叉检索的优化方法

Publications (2)

Publication Number Publication Date
CN109634914A CN109634914A (zh) 2019-04-16
CN109634914B true CN109634914B (zh) 2021-11-30

Family

ID=66068643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811390509.6A Active CN109634914B (zh) 2018-11-21 2018-11-21 一种对讲语音小文件整存散分和分叉检索的优化方法

Country Status (1)

Country Link
CN (1) CN109634914B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112235422B (zh) * 2020-12-11 2021-03-30 浙江大华技术股份有限公司 数据处理方法、装置、计算机可读存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820717A (zh) * 2015-05-22 2015-08-05 国网智能电网研究院 一种海量小文件存储及管理方法和***
CN105631010A (zh) * 2015-12-29 2016-06-01 成都康赛信息技术有限公司 一种基于hdfs小文件存储的优化方法
CN107103095A (zh) * 2017-05-19 2017-08-29 成都四象联创科技有限公司 基于高性能网络架构的数据计算方法
CN108710639A (zh) * 2018-04-17 2018-10-26 桂林电子科技大学 一种基于Ceph的海量小文件存取优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016130858A1 (en) * 2015-02-11 2016-08-18 Skytree, Inc. User interface for unified data science platform including management of models, experiments, data sets, projects, actions, reports and features

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820717A (zh) * 2015-05-22 2015-08-05 国网智能电网研究院 一种海量小文件存储及管理方法和***
CN105631010A (zh) * 2015-12-29 2016-06-01 成都康赛信息技术有限公司 一种基于hdfs小文件存储的优化方法
CN107103095A (zh) * 2017-05-19 2017-08-29 成都四象联创科技有限公司 基于高性能网络架构的数据计算方法
CN108710639A (zh) * 2018-04-17 2018-10-26 桂林电子科技大学 一种基于Ceph的海量小文件存取优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种面向HDFS中海量小文件的存取优化方法;顾玉宛等;《计算机应用研究》;20170831;第34卷(第8期);全文 *

Also Published As

Publication number Publication date
CN109634914A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
AU2014212780B2 (en) Data stream splitting for low-latency data access
US10581957B2 (en) Multi-level data staging for low latency data access
CN106776967B (zh) 基于时序聚合算法的海量小文件实时存储方法及装置
CN102332029B (zh) 一种基于Hadoop 的海量可归类小文件关联存储方法
US8838595B2 (en) Operating on objects stored in a distributed database
US9020892B2 (en) Efficient metadata storage
EP3223165A1 (en) File processing method, system and server-clustered system for cloud storage
CN105933376A (zh) 一种数据操作方法,服务器及存储***
US10482062B1 (en) Independent evictions from datastore accelerator fleet nodes
CN109766318B (zh) 文件读取方法及装置
US11151081B1 (en) Data tiering service with cold tier indexing
CN109767274B (zh) 一种对海量***数据进行关联存储的方法及***
US20220253419A1 (en) Multi-record index structure for key-value stores
CN103559229A (zh) 基于MapFile的小文件管理服务SFMS***及其使用方法
US11496562B1 (en) Method and system for accessing digital object in human-cyber-physical environment
CN112965939A (zh) 一种文件合并方法、装置和设备
CN116661705A (zh) 基于kafka的数据管理方法、***、电子设备及存储介质
CN107408239B (zh) 通过多个邮箱在通信应用中进行海量数据管理的架构
CN114116612B (zh) 一种基于b+树索引归档文件的存取方法
CN109634914B (zh) 一种对讲语音小文件整存散分和分叉检索的优化方法
US10146833B1 (en) Write-back techniques at datastore accelerators
US9898614B1 (en) Implicit prioritization to rate-limit secondary index creation for an online table
CN110109866B (zh) 一种文件***目录的管理方法及设备
US9578120B1 (en) Messaging with key-value persistence
EP2765517A2 (en) Data stream splitting for low-latency data access

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant