CN112241396B

CN112241396B - 基于Spark的对Delta进行小文件合并的方法及***

Info

Publication number: CN112241396B
Application number: CN202011159512.4A
Authority: CN
Inventors: 周永进; 刘传涛; 张晖; 高传集
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2023-05-23
Anticipated expiration: 2040-10-27
Also published as: CN112241396A

Abstract

本发明公开了一种基于Spark的对Delta进行小文件合并的方法及***，属于大数据存储与计算应用领域，本发明要解决的技术问题为如何将Spark与Delta相结合，实现对小文件的快速定位并合并，采用的技术方案为：该方法具体如下：S1、使用Spark读取DeltaLog文件，分析DeltaLog获取每一个数据文件的元数据信息；S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数；S3、对文件做统计操作，根据统计信息生成描述合并的元数据信息CompactionMetadata；S4、Spark根据合并元数据信息以及文件合并策略，判断文件是否需要合并：①、若是，则确定其合并规则，并执行步骤S5；②、若否，则退出；S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量。

Description

基于Spark的对Delta进行小文件合并的方法及***

技术领域

本发明涉及大数据存储与计算应用领域，具体地说是一种基于Spark的对Delta进行小文件合并的方法及***。

背景技术

大数据战略是指把大数据作为基础性战略资源，全面实施促进大数据发展行动，加快推动数据资源共享开放和开发应用，助力产业转型升级和社会治理创新。那么未来最贵的资源必定是数据，如何采集、存储和计算数据成为了当前热点话题，Delta和Spark分别作为当前大数据领域内存储和计算使用最多的技术，引起了工业界的广泛关注。

Spark是基于内存的分布式计算框架，并且对Hadoop生态***有高度的支持，比如支持从HDFS、Hbase、Hive等分布式文件***读取数据。而且Spark目前发展非常迅速，支持的持久层框架越来越多，并且随着SparkSQL的出现，通过SparkSQL直接访问Hive更加方便，数据开发人员直接用SQL语句便可以做数据分析，降低了Spark和大数据开发难度。但是Hive要面临一个问题，Spark无法访问Hive的事务表，那么Hive将无法对历史数据进行行级别的更新和删除。

Delta作为最新开源的一项存储中间层框架，可以提供ACID事务，可以确保多个并发读写时的数据完整性；提供数据版本管理功能，提供时间漫游历史版本数据读取；提供数据***、更新、删除等功能，填补了传统HIVE表不支持更新删除的缺陷；而且Delta时基于Spark开发的，因此完全兼容Spark API。

所以，Spark+Delta的存储与计算服务组合，势必当前以及未来一段时间内的主流技术。不过，Delta目前还有一些不足，即，如果每次数据***或者更新的数据比较少时，那么Delta会生成一个小文件，那么这种小文件比较多时，就会影响HDFS的文件管理效率，并降低Spark读取Delta数据的效率，因此Delta小文件是目前一个比较重要的问题。

Delta在不断***、更新以及删除操作时，会在对应的HDFS上形成源源不断的小文件，这些小文件会增大HDFS的管理能力以及降低Spark的计算能力的。主要应用在***从传统关系数据库向大数据平台切换，或者随着业务量的增大，传统数据库因为历史数据不断增加，无法满足对数据的处理性能，需要把数据转移至Delta中，使用Spark作为计算引擎的场景。相比于HIVE来讲，Delta提供了基于HDFS的大数据的更新与删除功能，但是由于Delta本身为实现更新的设计的限制，数据的不断***会生成大量的小文件。

故如何将Spark与Delta相结合，实现对小文件的快速定位并合并，即将Delta表中存放在HDFS上的小文件合并为较大的文件，以减轻HDFS的文件管理压力，并提高分布式计算引擎读取数据效率是目前亟待解决的问题。

发明内容

本发明的技术任务是提供一种基于Spark的对Delta进行小文件合并的方法及***，来解决如何将Spark与Delta相结合，实现对小文件的快速定位并合并，即将Delta表中存放在HDFS上的小文件合并为较大的文件，以减轻HDFS的文件管理压力，并提高分布式计算引擎读取数据效率的问题。

本发明的技术任务是按以下方式实现的，一种基于Spark的对Delta进行小文件合并的方法，该方法具体如下：

S1、使用Spark读取DeltaLog文件，分析DeltaLog获取每一个数据文件的元数据信息；

S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数；

S3、对文件做统计操作，根据统计信息生成描述合并的元数据信息CompactionMetadata；

S4、Spark根据合并元数据信息以及文件合并策略，判断文件是否需要合并：

①、若是，则确定其合并规则，并执行步骤S5；

②、若否，则退出；

S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量。

作为优选，所述元数据信息包括文件的绝对路径和文件的大小。

作为优选，当文件为分区表时，具体如下：

(1)、按照分区目录分组；

(2)、对同一组下的文件做统计操作；

(3)、根据统计信息生成描述合并的元数据信息CompactionMetadata；

(4)、Spark根据合并元数据信息及合并策略，判断当前目录下的文件是否需要合并：

①、若否，则退出；

②、若是，则执行步骤(5)；

(5)、Spark根据合并规则，合并该目录的小文件。

作为优选，所述步骤S1中使用Spark读取DeltaLog文件，分析DeltaLog获取每一个数据文件的元数据信息具体如下：

S101、Spark从DeltaLog中读取表当前版本的Log日志的流程；

S102、从Log日志文件中获取到每个文件的绝对路径以及该文件的存储大小；

S103、根据每个文件的大小以及合并规则对目录下划分为“小文件”和“大文件”两种；

S104、统计出小文件的数量与以及全部文件的数量，形成合并元数据CompactionMetadata。

作为优选，所述步骤S4中判断文件是否需要合并的原则是默认小文件数量占比大于20％。

更优地，所述合并策略采用repartition或者coalesce的合并算法。

一种基于Spark的对Delta进行小文件合并的***，该***包括，

获取模块，用于通过DeltaLog获取当前表以及目录的文件绝对路径以及大小；具体为Deltalog获取到当前snapshot的所有文件，并记录每一个文件的绝对路径、文件大小以及记录时间；

分区模块，用于通过Spark按照绝对路径获取分区，实现了根据路径分隔符分区信息，并通过Spark根据分区获取当前分区CompactionMetadata，实现了把DeltaLog信息转为合并元数据信息；

选择模块，用于通过Spark根据CompactionMetadata选择合并算法并合并，Spark根据当前目录实际大小以及合并后的文件数据量提供不同的合并算法；

合并模块，用于基于表名和路径两种方式合并小文件。

作为优选，基于表名和路径两种方式合并小文件具体如下：

①、根据注册在HIVE中的Delta表名作为入口合并；

②、根据Delta表的存储的路径作为入口合并。

一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上述的基于Spark的对Delta进行小文件合并的方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如上述的基于Spark的对Delta进行小文件合并的法。

本发明的基于Spark的对Delta进行小文件合并的方法及***具有以下优点：

(一)本发明充分利用DeltaLog记录数据文件大小的特点，利用Spark可以对文件数据重新合并的能力，减少文件数量，增加文件大小，解决在大数据存储与计算中，由于小文件过多给分布式文件***带来得管理压力以及Spark读取Delta表数据时，增加单任务读取数据量的问题，提高读取效率；

(二)本发明利用DeltaLog记录文件位置以及文件大小的能力，以及Spark快速合并文件的特点，快读定位到小文件并对其合并，解决了Delta小批量不断***和更新的情况下，带来的小文件问题；保证了Delta数据的***、更新和删除操作，并相对于HIVE，Spark对Delta的计算能力几乎没收到影响。

设计合理、结构简单、易于加工、体积小、使用方便、一物多用等特点，因而，具有很好的推广使用价值。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于Spark的对Delta进行小文件合并的方法的流程框图；

附图2为基于Spark的对Delta进行小文件合并的***的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于Spark的对Delta进行小文件合并的方法及***作以下详细地说明。

实施例1：

如附图1所示，本发明的基于Spark的对Delta进行小文件合并的方法，该方法具体如下：

①、若是，则确定其合并规则，并执行步骤S5；

②、若否，则退出；

其中，元数据信息包括文件的绝对路径和文件的大小。

当文件为分区表时，具体如下：

(1)、按照分区目录分组；

(2)、对同一组下的文件做统计操作；

①、若否，则退出；

②、若是，则执行步骤(5)；

(5)、Spark根据合并规则，合并该目录的小文件。

本实施例中步骤S1中使用Spark读取DeltaLog文件，分析DeltaLog获取每一个数据文件的元数据信息具体如下：

S101、Spark从DeltaLog中读取表当前版本的Log日志的流程；

关键代码如下：

本实施例中Spark通过该表或者分区的CompactionMetadata，来分析该表或分区是否需要进行小文件合并，默认如果为小文件数量占比大于20％，则认为需要合并；关键代码如下：

本实施例中Spark根据该表或者分区的CompactionMetadata，来确定合并后的文件个数以及选择最高效的合并算法repartition或者coalesce；关键代码如下：

本实施例中Spark把从新合并后的数据以替换的方式重新写回原表或原分区，关键代码如下：

实施例2：

如附图2所示，本发明的基于Spark的对Delta进行小文件合并的***，该***包括，

分区模块，用于通过Spark按照绝对路径获取分区，实现了根据路径分隔符分区信息，并通过Spark根据分区获取当前分区CompactionMetadata，实现了把DeltaLog信息转为合并元数据信息；关键代码如下：

关键代码如下：

合并模块，用于基于表名和路径两种方式合并小文件。

本实施例中基于表名和路径两种方式合并小文件具体如下：

①、根据注册在HIVE中的Delta表名作为入口合并；

②、根据Delta表的存储的路径作为入口合并。

关键代码如下：

public void optimizeTable(SparkSession spark,String database,Stringtable)；

public void optimizeTable(SparkSession spark,String basePath)。

实施例3：

本发明实施例还提供了一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如任一实施例中的基于Spark的对Delta进行小文件合并方法。

实施例4：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于Spark的对Delta进行小文件合并方法。具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于SPARK的对DELTA进行小文件合并的方法及***M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于Spark的对Delta进行小文件合并的方法，其特征在于，该方法具体如下：

S1、使用Spark读取DeltaLog文件，分析DeltaLog获取每一个数据文件的元数据信息；具体如下：

S101、Spark从DeltaLog中读取表当前版本的Log日志的流程；

S104、统计出小文件的数量与以及全部文件的数量，形成合并元数据CompactionMetadata；

①、若是，则确定其合并规则，并执行步骤S5；

②、若否，则退出；

S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量；

其中，当文件为分区表时，具体如下：

(1)、按照分区目录分组；

(2)、对同一组下的文件做统计操作；

①、若否，则退出；

②、若是，则执行步骤(5)；

(5)、Spark根据合并规则，合并该目录的小文件。

2.根据权利要求1所述的基于Spark的对Delta进行小文件合并的方法，其特征在于，所述元数据信息包括文件的绝对路径和文件的大小。

3.根据权利要求1所述的基于Spark的对Delta进行小文件合并的方法，其特征在于，所述步骤S4中判断文件是否需要合并的原则是默认小文件数量占比大于20％。

4.根据权利要求1-3中任一所述的基于Spark的对Delta进行小文件合并的方法，其特征在于，所述合并策略采用repartition或者coalesce的合并算法。

5.一种基于Spark的对Delta进行小文件合并的***，其特征在于，该***包括，

合并模块，用于基于表名和路径两种方式合并小文件；

其中，基于表名和路径两种方式合并小文件具体如下：

①、根据注册在HIVE中的Delta表名作为入口合并；

②、根据Delta表的存储的路径作为入口合并。

6.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至4任一项所述的基于Spark的对Delta进行小文件合并的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如权利要求1至4中所述的基于Spark的对Delta进行小文件合并的法。