CN105718538B

CN105718538B - 一种分布式文件的自适应压缩方法及

Info

Publication number: CN105718538B
Application number: CN201610030950.8A
Authority: CN
Inventors: 查礼; 王锐坚; 王超
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2016-01-18
Filing date: 2016-01-18
Publication date: 2019-05-14
Anticipated expiration: 2036-01-18
Also published as: CN105718538A

Abstract

本发明提出一种分布式文件***的自适应压缩方法及***，涉及分布式***文件压缩领域，该方法包括步设置压缩文件格式，形成压缩数据流，所述压缩数据流由头部信息与多个数据块组成，其中所述头部信息用于判断所述压缩数据流是否已经过压缩；接收所述待压缩文件，将所述待压缩文件按照所述压缩文件格式将所述待压缩文件进行压缩生成所述压缩数据流；设置索引文件，其中所述索引文件由多个记录组成，每条记录维护所述压缩数据流中数据的数据信息，所述索引文件用于快速定位所述压缩数据流。本发明能够提高压缩效率，节省压缩时间。

Description

一种分布式文件***的自适应压缩方法及***

技术领域

本发明涉及分布式***文件压缩领域，特别涉及一种分布式文件***的自适应压缩方法及***。

背景技术

随着数据时代的到来，互联网所处理的数据量日益增大，为了达到高可靠性，当前的分布式文件***一般采用多副本的策略，在大规模机群中，这会带来不可忽略的巨额存储开销，同时，对于分布式文件***之上的***或应用，如分布式数据库、分布式数据仓库、MapReduce框架或其它应用，也有可能会产生冗余数据，这样，会使得数据的膨胀率更高，I/O性能成为***的瓶颈日益明显，现有的分布式文件***难以同时满足高性能、高可靠性和低存储开销的需求。

通过对分布式文件***上应用的类型进行分析可以知道，这些应用使用或产生的大部分数据是文本信息，特别是离线或在线分析***中的数据基本都是文本，而文本本身是一种高度可压缩的数据，因此通过引入一种快速的数据压缩方法，可以有效降低数据的存储开销，提高磁盘和网络I/O的有效带宽，从而提高应用的吞吐量。

对于分布式***自带的压缩机制，只能在启动时配置特定的某种压缩算法，在***运行过程中，cpu使用率，网络带宽实时动态变化，只是配置单一的压缩算法无法达到最优的***吞吐量，并且对于某些已经压缩过的数据也进行压缩，会使***的吞吐量下降，在分布式文件***中采用透明压缩的有以下两个，如下所示：

BlobSeer，BlobSeer在文件***层次对上层应用透明地压缩文件，在写入数据的时候对每个文件块进行压缩，为了能适应不同的负载，在压缩文件块之前会提取部分数据进行抽样压缩以此来预测整个文件块的压缩比，从而判断压缩是否有益，实验结果表明在分布式文件***上实现透明压缩能节省40％空间，但整体吞吐率有明显下降，因为压缩占用了过多的CPU资源，但是实验结果并没有揭示在不同的环境中(比如CPU、磁盘性能或网络带宽配置不同)压缩算法对***吞吐率的影响，而且仅测试了LZO和BZIP2两种压缩算法，虽然可以配置不同的压缩算法，却不能自动选择较优的压缩算法来适应不同的工作负载；

百度透明压缩，百度的透明压缩存储在HDFS添加了三种角色：压缩服务、调度器和块访问层，该项工作采用离线压缩方式，压缩服务会定时去向调度器请求任务，然后对文件块进行压缩，而命名空间节点(Namenode)对这个压缩过程并不知情，该工作采用离线压缩的优点是实现简单，能充分利用数据节点(Datanode)的计算能力，但数据在网络中传输的开销并没有变化，而本发明希望把数据压缩转移到客户端，采用实时在线压缩的方式，减少在网络中传输的数据量，以此来提高***的吞吐率。

自适应压缩模型早已被发明用来加速数据的流动，其也可以被用来提高***的吞吐量，现有的自适应压缩模型主要有以下两种：AdOC，AdOC(AdaptiveOnline Compression)是一种自适应实时数据压缩算法，主要用于网络传输场景，使用多线程的方法。一个线程用于压缩数据块，数据块压缩后放入发送队列中，一个线程用于发送队列中的数据块，允许压缩和网络传输重叠。该算法根据发送队列中的拥塞情况来实时调整压缩等级，使压缩效果能适应当前网络和计算资源的变化。AdOC假设更高的压缩等级能达到更好的压缩效果，但对于冗余程度不高的数据来说，压缩数据只会徒然增加压缩的时间。并且这个工作只使用了zlib一种压缩算法，通过调整压缩等级来改变压缩速度和压缩比；

ACE，ACE(Adaptive Compression Environment)是一个自适应压缩***，自动并透明地在传输过程中应用压缩技术来提高网络传输的性能，与本文的工作很相似。ACE使用NWS(Network Weather Service)[Wolski98]来预测CPU和网络性能，并配合其它的估计方法来预测32KB大小数据块的压缩、解压缩和传输时间。ACE能根据数据的产生速度自动地在流水线模型和顺序模型间切换，两种模型都基于各自的策略来决定应用何种压缩算法或不压缩，ACE支持的压缩算法有bzip、zlib和lzo。

通过对现有的透明压缩机制和自适应压缩模型的对比发现，没有一种自适应压缩模型是在分布式文件***中使用的，有的压缩模型虽然可能可以适用于分布式文件***，但是借助第三方软件获得相关资源信息，***负载重，而现有的在分布式文件***中使用的透明压缩机制，又不具备自动选择最优的压缩算法的能力。

一发明提供了一种自适应数据压缩和解压缩的方法和***及存储装置，该方法的步骤为：(1)压缩：根据存储***设定的压缩率目标、存储控制器的负载情况为需要压缩的数据段自适应选择对应的数据压缩算法、参数进行数据压缩；(2)解压缩：获取需要解压缩数据段的压缩算法、参数，并使用与所获得的压缩算法、参数对应的解压缩算法为相应的数据段解压缩。该***为用来实施上述方法的***。该存储装置包括存储控制器和存储介质，所述存储控制器包括上述自适应数据压缩和解压缩***。该发明能够根据存储***预设压缩率、存储控制器负载情况，自适应选择对应压缩算法和压缩参数，既能满足存储***的压缩率要求又能减少存储控制器负载，从而大大提高存储***性能，但该发明只能通过预设压缩率的方式来选择对应压缩算法，而本发明方法和技术形成的***可以根据计算场景和数据类型自主选择最优压缩算法，最优压缩算法可能是压缩率最高的算法，也可能是压缩速率最高的压缩算法。

发明内容

针对现有技术的不足，本发明提出一种分布式文件***的自适应压缩方法及***。

本发明提出一种分布式文件***的自适应压缩方法，包括：

步骤1，设置压缩文件格式，形成压缩数据流，所述压缩数据流由头部信息与多个数据块组成，其中所述头部信息用于判断所述压缩数据流是否已经过压缩；

步骤2，接收待压缩文件，将所述待压缩文件按照所述压缩文件格式将所述待压缩文件进行压缩生成所述压缩数据流；

步骤3，设置索引文件，其中所述索引文件由多个记录组成，每条记录维护所述压缩数据流中数据的数据信息，所述索引文件用于快速定位所述压缩数据流。

所述的分布式文件***的自适应压缩方法，所述数据信息包括所述待压缩文件的位置、所述待压缩文件在压缩文件中的位置、所述待压缩文件的大小。

所述的分布式文件***的自适应压缩方法，所述步骤3包括获取客户端的写请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述客户端传输待压缩数据给所述数据节点，通过自适应压缩理论模型获取最优压缩算法，选择最优压缩算法后，将所述待压缩数据进行压缩，生成所述压缩数据流，将所述压缩数据流发送给所述数据节点。

所述的分布式文件***的自适应压缩方法，所述自适应压缩理论模型为

|CR×R-TR|,CR＞TR且R＜0.8

R为各压缩算法之间的压缩比，CR为各压缩算法之间的压缩速率，TR数据传输速率。

所述的分布式文件***的自适应压缩方法，所述步骤3还包括获取客户端的读请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述数据节点传输所述压缩数据流给所述客户端，根据所述压缩数据流的所述头部信息，将所述压缩数据流进行解压缩，所述数据节点将解压缩后的数据传输给所述客户端。

本发明还提出一种分布式文件***的自适应压缩***，包括：

设置压缩文件格式模块，用于设置压缩文件格式，形成压缩数据流，所述压缩数据流由头部信息与多个数据块组成，其中所述头部信息用于判断所述压缩数据流是否已经过压缩；

压缩模块，用于接收待压缩文件，将所述待压缩文件按照所述压缩文件格式将所述待压缩文件进行压缩生成所述压缩数据流；

设置索引文件模块，用于设置索引文件，其中所述索引文件由多个记录组成，每条记录维护所述压缩数据流中数据的数据信息，所述索引文件用于快速定位所述压缩数据流。

所述的分布式文件***的自适应压缩***，所述数据信息包括所述待压缩文件的位置、所述待压缩文件在压缩文件中的位置、所述待压缩文件的大小。

所述的分布式文件***的自适应压缩***，所述压缩模块包括获取客户端的写请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述客户端传输待压缩数据给所述数据节点，通过自适应压缩理论模型获取最优压缩算法，选择最优压缩算法后，将所述待压缩数据进行压缩，生成所述压缩数据流，将所述压缩数据流发送给所述数据节点。

所述的分布式文件***的自适应压缩***，所述自适应压缩理论模型为

|CR×R-TR|,CR＞TR且R＜0.8

所述的分布式文件***的自适应压缩***，所述压缩模块还包括获取客户端的读请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述数据节点传输所述压缩数据流给所述客户端，根据所述压缩数据流的所述头部信息，将所述压缩数据流进行解压缩，所述数据节点将解压缩后的数据传输给所述客户端。

由以上方案可知，本发明的优点在于：

本发明的测试中选择了对比自适应压缩理论压缩模型和不同压缩算法以及原始的文件***的在不同集群条件，不同的文件上的写吞吐量，如图1，图2，图3所示，可以看到本发明的自适应压缩理论模型在测试过程中几乎都达到了最优的吞吐量，具有非常好的适应性，平均来看，基于预测的自适应压缩模型比配置了zlib压缩算法的文件***的吞吐量高21％，比配置了quicklz的高27％，比配置了snappy的高47％，比原始的文件***高了247％。

附图说明

图1是本发明的基于预测的自适应压缩模型与配置压缩算法的分布式文件***的在不同并发度吞吐量对比图；

图2是本发明的基于预测的自适应压缩模型与配置压缩算法的分布式文件***的在具有不同压缩比的文件上吞吐量对比图；

图3是本发明的基于预测的自适应压缩模型与配置压缩算法的分布式文件***的在不同压缩比的文件上的吞吐量对比图；

图4是本发明分布式文件***基于预测的自适应压缩模型的流式透明压缩技术的***结构示意图；

图5是本发明基于自适应压缩模型的流式透明压缩技术的总流程图。

图6为本发明方法流程图；

图7为本发明***结构图。

具体实施方式

以下为本发明整体步骤，如下所示：

如图6所示，本发明提出一种分布式文件***的自适应压缩方法，包括：

步骤2，接收所述待压缩文件，将所述待压缩文件按照所述压缩文件格式将所述待压缩文件进行压缩生成所述压缩数据流；

所述数据信息包括所述待压缩文件的位置、所述待压缩文件在压缩文件中的位置、所述待压缩文件的大小。

所述步骤3包括获取客户端的写请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述客户端传输待压缩数据给所述数据节点，通过自适应压缩理论模型获取最优压缩算法，选择最优压缩算法后，将所述待压缩数据进行压缩，生成所述压缩数据流，将所述压缩数据流发送给所述数据节点。

所述自适应压缩理论模型为

|CR×R-TR|,CR＞TR且R＜0.8

所述步骤3还包括获取客户端的读请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述数据节点传输所述压缩数据流给所述客户端，根据所述压缩数据流的所述头部信息，将所述压缩数据流进行解压缩，所述数据节点将解压缩后的数据传输给所述客户端。

如图7所示，本发明还提出一种分布式文件***的自适应压缩***，包括：

压缩模块，用于接收待压缩流，将所述待压缩文件按照所述压缩文件格式将所述待压缩文件进行压缩生成所述压缩数据流；

所述压缩模块包括获取客户端的写请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述客户端传输待压缩数据给所述数据节点，通过自适应压缩理论模型获取最优压缩算法，选择最优压缩算法后，将所述待压缩数据进行压缩，生成所述压缩数据流，将所述压缩数据流发送给所述数据节点。

所述自适应压缩理论模型为

|CR×R-TR|,CR＞TR且R＜0.8

所述压缩模块还包括获取客户端的读请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述数据节点传输所述压缩数据流给所述客户端，根据所述压缩数据流的所述头部信息，将所述压缩数据流进行解压缩，所述数据节点将解压缩后的数据传输给所述客户端。

以下为本发明实施例，如图5所示为本发明工作的总流程图

本发明采用基于预测的自适应压缩理论模型(Prediction-based AdaptiveCompression Model,PACM)来指导完成数据压缩。自适应压缩模型根据压缩算法之间以及内在的特性，再加上一些历史数据来指导压缩。通过该理论模型可以自动选择最优的算法对数据进行压缩，***负载小，灵活性高，适应性好。

本发明设计了一个索引文件来快速定位被压缩数据所在位置。一个索引文件由多个记录(Record)组成，每条记录维护着原始文件中一批数据的信息，包括原文件中的位置、压缩文件中的位置以及原始数据的大小。通过该索引文件能快速定位压缩过的数据所在位置，提供对随机读的支持。

本发明设计了压缩文件格式来管理压缩文件。压缩数据流由头部信息(Header)和多个数据块组成。头部信息用来判断数据流是否经过压缩。而数据块由三部分组成：头部、压缩数据、尾部，其中头部包含数据块原始大小和压缩后的大小等信息，压缩数据是被压缩后的数据，尾部包含数据块在原始数据流中和压缩数据流中的位置。本发明通过压缩文件格式实现了支持高效的定位(seek)和跳过(skip)操作，对压缩数据的读性能有很大的提升的技术效果。

本发明对上层***提供了一个基于自适应压缩理论模型的流式压缩器，上层应用可利用压缩器创建输入流或输出流，用以封装原有的输入流或输出流。在流式压缩器中实现了自适应压缩理论模型，压缩解压缩对用户完全透明，无论是写入或者读取数据，都可以提高磁盘和网络的I/O的有效带宽。

本发明采用基于预测的自适应压缩理论模型(Prediction-based AdaptiveCompression Model,PACM)来指导完成数据压缩。自适应压缩模型根据压缩算法之间以及内在的特性，再加上一些历史数据来指导压缩。

本发明设计了一个索引文件来快速定位被压缩数据所在位置。一个索引文件由多个记录(Record)组成，每条记录维护着原始文件中一批数据的信息，包括原文件中的位置、压缩文件中的位置以及原始数据的大小。

本发明设计了压缩文件格式来管理压缩文件。压缩数据流由头部信息(Header)和多个数据块组成。头部信息用来判断数据流是否经过压缩，而数据块由三部分组成：头部、压缩数据、尾部，其中头部包含数据块原始大小和压缩后的大小等信息，压缩数据是被压缩后的数据，尾部包含数据块在原始数据流中和压缩数据流中的位置。

本发明支持高效的定位(seek)和跳过(skip)操作，对压缩数据的读性能有很大的提升。

以下为本发明实施例，如下所示：

基于Apache HDFS实现基于自适应压缩模型的流式透明压缩原型，HDFS为GoogleGFS的开源实现，是Hadoop生态圈各项目的基础。

基于自适应压缩模型的流式透明压缩原型采用hadoop-0.20.2作为代码基础，采用Java语言实现

基于自适应压缩模型的流式透明压缩原型的***结构如图4所示。HDFS之上的应用使用HDFS客户端来写入或读取文件，默认情况下，每个文件被分成大小为64MB的数据块，这些数据块存储在不同的数据节点上，每个数据块有3个副本，而基于自适应压缩模型的流式透明压缩器位于客户端和数据节点之间，客户写入数据时，数据先经过压缩再发送到数据节点；客户读取数据时，先将从数据节点读取的数据进行解压缩后再返回给客户端，本发明的方法具体实施流程图如图4所示，主要考虑2个情况：

情况1：写请求时

如图4所示，步骤1是从客户端(Client)来了新的写请求，步骤2是命名空间节点(Namenode)告知文件所在的数据节点(Datanode)，步骤3是客户端和数据节点通信，客户端传输数据给数据节点，步骤4是本发明的基于预测的自适应压缩理论模型根据实验观测到的不同压缩算法之间在压缩比(R)、压缩速率(CR)之间存在的线性关系，求得对于同一数据块不同压缩算法的R、CR的值，并根据历史数据估计传输速率(TR)，当使得以下表达式最小化时采用的算法即最优压缩算法。

|CR×R-TR|,CR＞TR且R＜0.8

选择最优的算法后，截获客户端的输出流(OutpuStream),将客户端写入的数据进行压缩。步骤5是将压缩过的数据发送给数据节点(Datanode)。

情况2：读请求时

如图4所示，步骤1是从客户端(Client)来了新的写请求，步骤2是命名空间节点(Namenode)告知文件所在的数据节点(Datanode)，步骤3是客户端和数据节点通信，数据节点传输数据给客户端，步骤4是本发明的基于预测的自适应压缩理论模型根据数据的头部信息，截获客户端的输入流(InputStream)，将从数据节点读取的压缩数据流进行解压缩，步骤5是将解压缩后的数据传输给客户端。

Claims

1.一种分布式文件***的自适应压缩方法，其特征在于，包括：

步骤3，设置索引文件，其中所述索引文件由多个记录组成，每条记录维护所述压缩数据流中数据的数据信息，所述索引文件用于快速定位所述压缩数据流；

其中所述步骤2包括获取客户端的写请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述客户端传输待压缩数据给所述数据节点，通过自适应压缩理论模型获取最优压缩算法，选择最优压缩算法后，将所述待压缩数据进行压缩，生成所述压缩数据流，将所述压缩数据流发送给所述数据节点；

所述自适应压缩理论模型为

|CR×R-TR|,CR＞TR且R＜0.8

2.如权利要求1所述的分布式文件***的自适应压缩方法，其特征在于，所述数据信息包括所述待压缩文件的位置、所述待压缩文件在压缩文件中的位置、所述待压缩文件的大小。

3.一种分布式文件***的自适应压缩***，其特征在于，包括：

压缩模块，用于接收待压缩流文件，将所述待压缩文件按照所述压缩文件格式将所述待压缩文件进行压缩生成所述压缩数据流；

设置索引文件模块，用于设置索引文件，其中所述索引文件由多个记录组成，每条记录维护所述压缩数据流中数据的数据信息，所述索引文件用于快速定位所述压缩数据流；

其中所述压缩模块包括获取客户端的写请求，所述分布式文件***的命名空间节点告知所述待压缩文件所在的数据节点，所述客户端与数据节点通信，所述客户端传输待压缩数据给所述数据节点，通过自适应压缩理论模型获取最优压缩算法，选择最优压缩算法后，将所述待压缩数据进行压缩，生成所述压缩数据流，将所述压缩数据流发送给所述数据节点；

所述自适应压缩理论模型为

|CR×R-TR|,CR＞TR且R＜0.8

4.如权利要求3所述的分布式文件***的自适应压缩***，其特征在于，所述数据信息包括所述待压缩文件的位置、所述待压缩文件在压缩文件中的位置、所述待压缩文件的大小。