CN109634914B

CN109634914B - 一种对讲语音小文件整存散分和分叉检索的优化方法

Info

Publication number: CN109634914B
Application number: CN201811390509.6A
Authority: CN
Inventors: 方国栋; 张育钊; 袁科; 刘昊天; 张鑫
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2021-11-30
Anticipated expiration: 2038-11-21
Also published as: CN109634914A

Abstract

本发明提供一种对讲语音小文件整存散分和分叉检索的优化方法，包括将对讲语音小文件进行归类；根据文件大小对每一类对讲语音小文件进行顺序排序；对于每一类对讲语音小文件，均按照排序顺序选择HDFS块空间整数倍所能容纳的最大文件个数，并对选择的对讲语音小文件进行合并存储；为选择后剩余的对讲语音小文件设置分类等级，并按设置的分类等级来对剩余的对讲语音小文件进行分类，且对分类后的对讲语音小文件进行合并存储；对存储后的合并文件建立分叉索引机制，并记录合并文件中各个对讲语音小文件的信息。本发明优点：可减少块空间数量，并达到减少NameNode维护元数据时内存占用过高的目的；可减少元数据信息的空间大小，加快读取速率。

Description

一种对讲语音小文件整存散分和分叉检索的优化方法

技术领域

本发明涉及分布式文件***性能优化领域，特别涉及一种对讲语音小文件整存散分和分叉检索的优化方法。

背景技术

随着互联网技术的高速发展，通信行业也发生了巨大的变化。基于IP的网络对讲机应用越来越广泛，用户频繁的使用对讲机也使得对讲语音小文件量越来越大，如何有效的管理这些对讲语音小文件，成为了网络对讲机提供商所面临亟待解决的问题。

Hadoop分布式文件***(英文名：Hadoop Distributed File System,HDFS)，是Apache开源组织的一个分布式计算框架Hadoop的核心组成部分，以Google公司的GFS(Google File System)为原型，采用Java开源实现，为各大机构和公司架设云存储解决方案提供了参考。一经问世，就得到了广泛的应用，包括FaceBook，Yahoo，阿里巴巴，腾讯和百度等互联网公司均利用HDFS存储海量数据。其设计之初就是为了能在廉价的商业服务器上稳定的运行，并且，它还具有容错性高，可扩展性好等优点。

HDFS采用了主从式架构，由一个NameNode节点和大量的DataNode节点组成，其中，NameNode是HDFS的核心，其工作是维护文件的元数据信息，并协调管理所有DataNode节点，DataNode则用于实际文件的存储。在Hadoop集群启动之后，所有的元数据信息都会被加载到NameNode内存中。客户端访问HDFS时，首先需要向NameNode节点获取相关文件的元数据信息，然后根据这些元数据信息找到实际存储文件的DataNode，最后通过DataNode获取客户端所请求的文件。

HDFS这种主从架构存在以下几个问题，一、由于每个文件对应一个元数据信息，每个元数据信息所占空间大约为150字节，所以，随着HDFS存储的小文件数量增加，NameNode所要维护的元数据信息也会急剧增加，NameNode空间被大量消耗，但NameNode的内存空间是有限的，所以最终会导致NameNode的性能瓶颈。二、每次写小文件，都要向NameNode节点请求数据块的分配，每次读小文件，也要向NameNode节点请求元数据信息，因此频繁的进行数据读写，会导致NameNode节点的性能降低，甚至会导致网络泛洪。三、每个小文件的文件大小都比较小，而每次在传输实际文件的时候都要经历文件元数据信息的请求、定位数据块位置、客户端和DataNode建立连接三个步骤，因此，可能存在小文件读写的时间比网络连接建立的时间短，从而降低了HDFS的效率。

发明内容

本发明要解决的技术问题，在于提供一种对讲语音小文件整存散分和分叉检索的优化方法，通过该方法来解决目前HDFS在存储大量小文件时所造成的NameNode节点内存占用过高和读写小文件时所造成的性能下降等问题。

本发明是这样实现的：一种对讲语音小文件整存散分和分叉检索的优化方法，所述方法包括如下步骤：

步骤S1、将对讲语音小文件进行归类；

步骤S2、归类完成后，根据文件大小对每一类对讲语音小文件进行顺序排序；

步骤S3、对于每一类对讲语音小文件，均按照排序顺序选择HDFS块空间整数倍所能容纳的最大文件个数，并对选择的对讲语音小文件进行合并存储到HDFS块空间中；

步骤S4、为选择后剩余的对讲语音小文件设置分类等级，并按照设置的分类等级来对剩余的对讲语音小文件进行分类，且对分类后的对讲语音小文件进行合并存储；

步骤S5、对存储后的合并文件建立分叉索引机制，并记录合并文件中各个对讲语音小文件的信息。

进一步地，所述步骤S1具体包括：

步骤S11、在对讲语音发起者上传对讲语音小文件时，对讲语音服务器根据发起者信息，将所有属于该发起者的对讲语音小文件均放置到一指定文件夹下；

步骤S12、根据发起者信息，将每一发起者的指定文件夹均单独标记为一类。

进一步地，所述指定文件夹均以发起者名称进行命名。

进一步地，所述步骤S2具体为：

归类完成后，对于每一指定文件夹，均遍历该指定文件夹下所有的对讲语音小文件，并按照从大到小的顺序对同一指定文件夹下所有的对讲语音小文件进行排序。

进一步地，在所述步骤S4中，所述为选择后剩余的对讲语音小文件设置分类等级具体为：

根据各发起者之间的关系，为选择后剩余的对讲语音小文件设置三个分类等级，且对每个分类等级均设定一个优先级，其中，三个分类等级按照优先级从高到低依次为：具有群组关系的对讲语音小文件、时间段相同的对讲语音小文件以及其它对讲语音小文件。

进一步地，在所述步骤S4中，所述对分类后的对讲语音小文件进行合并存储具体包括：

步骤B11、创建缓存区；

步骤B12、将具有群组关系的对讲语音小文件填充到缓存区中，并判断缓存区是否已无法再填充下一个具有群组关系的对讲语音小文件，如果是，则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中，且清空缓存区，并进入步骤B13；如果否，则直接进入步骤B13；

步骤B13、判断是否已填充完具有群组关系的对讲语音小文件，如果是，则进入步骤B14；如果否，则返回步骤B12；

步骤B14、往缓存区中填充时间段相同的对讲语音小文件，并判断缓存区是否已无法再填充下一个时间段相同的对讲语音小文件，如果是，则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中，且清空缓存区，并进入步骤B15；如果否，则直接进入步骤B15；

步骤B15、判断是否已填充完时间段相同的对讲语音小文件，如果是，则进入步骤B16；如果否，则返回步骤B14；

步骤B16、往缓存区中填充其它对讲语音小文件，并判断缓存区是否已无法再填充下一个其它对讲语音小文件，如果是，则直接将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中，且清空缓存区，并进入步骤B17；如果否，则直接进入步骤B17；

步骤B17、判断是否已填充完其它对讲语音小文件，如果是，则进入步骤B18；如果否，则返回步骤B16；

步骤B18、将已填充到缓存区中的对讲语音小文件存储到HDFS块空间中，且清空缓存区。

进一步地，所述步骤S5具体为：

使用哈希表结构来保存各个对讲语音小文件的元数据信息，且在哈希表结构中，键为对讲语音小文件名称信息的哈希值，键的结构为<用户名|文件名>；值为对讲语音小文件的元数据信息；其中，对于按照排序顺序选择的对讲语音小文件，元数据信息包括小文件所属范围、起始位置以及长度；对于选择后剩余的对讲语音小文件，元数据信息包括小文件所属范围、散分合并后的文件名、起始位置以及长度。

本发明具有如下优点：

1、在原始HDFS块管理方式上，通过小文件合并来减少块空间的浪费，并加入整合散分策略，以此来规避边缘文件对块空间的浪费。具体实现方式是：按照发起者及其关系来对小文件进行整合和散分，即先将属于同一发起者的文件进行合并，然后再将超出块空间整数倍的小文件按发起者之间的关系进行分类合并。通过上述这种方式可减少块空间数量，并达到减少NameNode维护元数据时内存占用过高的目的。

2、通过建立分叉索引机制，针对不同的文件使用不同的分类方法，可减少元数据信息的空间大小，同时加快读取速率。具体实现方式是：记录小文件的所属范围、起始位置以及长度。这种方式对于用户来说十分便捷、简单，只需要部署软件即可完成相关功能，可便于推广使用。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实现的原理框图。

图2为本发明一种对讲语音小文件整存散分和分叉检索的优化方法的执行流程图。

图3为本发明中对对讲语音小文件进行归类的示意图。

图4为本发明中对对讲语音小文件进行排序的示意图。

图5为本发明中对讲语音小文件的元数据信息结构与对讲语音小文件之间的对应关系图。

图6为本发明中整合方式存储结构的示意图。

图7为本发明中散分方式存储结构的示意图。

具体实施方式

请重点参照图1至图7所示，本发明一种对讲语音小文件整存散分和分叉检索的优化方法的较佳实施例，所述方法包括如下步骤：

步骤S1、将对讲语音小文件进行归类；

在本具体实施例中，所述步骤S1具体包括：

步骤S12、根据发起者信息，将每一发起者的指定文件夹均单独标记为一类，也就是说，在具体进行归类时，是以发起者来作为归类标准。

如图3所示，例如，发起者A和发起者B均上传了6个对讲语音小文件，在对讲语音服务器接收到发起者A和发起者B上传的对讲语音小文件后，就将发起者A所对应的6个对讲语音小文件存储在发起者A对应的指定文件夹的目录下，将发起者B所对应的6个对讲语音小文件存储在发起者B对应的指定文件夹的目录下。

所述指定文件夹均以发起者名称进行命名。由于语音对讲时主要分为发起者和接收者，所以使用发起者来进行命名，并作为归类标准，一方面是可以确保归类规则清晰，另一方面是可以根据发起者信息来快速定位所要访问的小文件位置，以加快访问对讲语音小文件的效率。

在本具体实施例中，所述步骤S2具体为：

归类完成后，对于每一指定文件夹，均遍历该指定文件夹下所有的对讲语音小文件，并按照从大到小的顺序对同一指定文件夹下所有的对讲语音小文件进行排序。在具体实施时，可以统一由一个排序模块来对同一指定文件夹下所有的对讲语音小文件进行排序。

如图4所示，例如，在发起者A的指定文件夹中存储有6个对讲语音小文件，且文件的大小顺序是：对讲文件1＞对讲文件2＞对讲文件3＞对讲文件4＞对讲文件5＞对讲文件6，那么，排序模块就按照对讲文件1、对讲文件2、对讲文件3、对讲文件4、对讲文件5、对讲文件6的顺序进行排序。

步骤S3、对于每一类对讲语音小文件，均按照排序顺序选择HDFS块空间整数倍所能容纳的最大文件个数，并对选择的对讲语音小文件进行合并存储到HDFS块空间中；也就是说，本发明在具体实施时，对于每一类对讲语音小文件都先采取整合方式存储，即按照从大到小的顺序来选择总和最接近HDFS块空间整数倍(HDFS中每一个块空间大小都是固定的，由于在具体进行存储时，通常都需要占用多个块空间，因此，需要选取块空间的整数倍)的对讲语音小文件，并将这部分对讲语音小文件整合存储到HDFS块空间中。

例如，从图4中可以看出，HDFS块空间整数倍所能够容纳的只有对讲文件1～对讲文件5，那么，就将对讲文件1～对讲文件5以整合方式存储到HDFS块空间中，而对讲文件6则交给散分模块进行处理；此时，如果选择将对讲文件1交给散分模块进行处理，那将会降低内存的占用率，因为各对讲语音小文件是按照从大到小的顺序排序的，所以可以得出：

File1.Size≥File6.Size (1)

根据式(1)可以进一步得出：

在具体实施时，由于用户的对讲时间存在有非常大的随机性，所以式(1)和式(2)中等于成立的概率很低，因此，采用以上这种方式来存储对讲语音小文件，可以实现最大化利用块空间。

步骤S4、为选择后剩余的对讲语音小文件设置分类等级，并按照设置的分类等级来对剩余的对讲语音小文件进行分类，且对分类后的对讲语音小文件进行合并存储；在具体实施时，可以统一由一个散分模块来对选择后各分散的对讲语音小文件来进行处理。

在所述步骤S4中，所述为选择后剩余的对讲语音小文件设置分类等级具体为：

在所述步骤S4中，所述对分类后的对讲语音小文件进行合并存储具体包括：

步骤B11、创建缓存区；

本发明使用散分的方式来合并选择后剩余的对讲语音小文件是为了减少块空间的占用，以通过减少块空间的浪费来降低NameNode内存的占用。

所述步骤S5具体为：

使用哈希表结构HashMap来保存各个对讲语音小文件的元数据信息，哈希表结构的结构为<键，值>，即<Key，Value>，且在哈希表结构HashMap中，键(Key)为对讲语音小文件名称信息的哈希值(HashCode值)，键(Key)的结构为<用户名|文件名>；值(Value)为对讲语音小文件的元数据信息；

其中，对于按照排序顺序选择的对讲语音小文件(即以整合方式存储的对讲语音小文件，Scope为Whole)，元数据信息包括小文件所属范围(Scope)、起始位置(Offset)以及长度(Length)，如图6所示；对于选择后剩余的对讲语音小文件(即以散分方式存储的对讲语音小文件，Scope为Apart)，元数据信息包括小文件所属范围(Scope)、散分合并后的文件名(MergeFileName)、起始位置(Offset)以及长度(Length)，如图7所示。

通过采用上述整合方式存储结构和散分方式存储结构来存储对讲语音小文件，使得当客户端(即访问者)在访问对讲语音小文件时，可以先根据键(Key)来从哈希表结构HashMap中获取对讲语音小文件的Scope(小文件所属范围)信息，且在得到返回值后，如果是以整合方式合并的对讲语音小文件，则直接通过键(Key)中的用户名和值(Value)中的起始位置(Offset)和长度(Length)到指定的文件中读取对应的对讲语音小文件；如果是以散分方式合并的对讲语音小文件，则根据散分合并后的文件名(MergeFileName)、起始位置(Offset)和长度(Length)到指定的文件中读取对应的小文件，如图5所示。读取小文件时，直接使用HDFSAPI。

综上所述，本发明具有如下优点：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种对讲语音小文件整存散分和分叉检索的优化方法，其特征在于：所述方法包括如下步骤：

步骤S1、将对讲语音小文件进行归类；

步骤S5、对存储后的合并文件建立分叉索引机制，并记录合并文件中各个对讲语音小文件的信息；

步骤B11、创建缓存区；

2.根据权利要求1所述的一种对讲语音小文件整存散分和分叉检索的优化方法，其特征在于：所述步骤S1具体包括：

3.根据权利要求2所述的一种对讲语音小文件整存散分和分叉检索的优化方法，其特征在于：所述指定文件夹均以发起者名称进行命名。

4.根据权利要求2所述的一种对讲语音小文件整存散分和分叉检索的优化方法，其特征在于：所述步骤S2具体为：

5.根据权利要求1所述的一种对讲语音小文件整存散分和分叉检索的优化方法，其特征在于：在所述步骤S4中，所述为选择后剩余的对讲语音小文件设置分类等级具体为：

6.根据权利要求1所述的一种对讲语音小文件整存散分和分叉检索的优化方法，其特征在于：所述步骤S5具体为：