CN111625218B

CN111625218B - 一种自定义库开发的大数据处理方法及***

Info

Publication number: CN111625218B
Application number: CN202010407340.1A
Authority: CN
Inventors: 胡鹏; 傅苗; 匡岳锋; 贺群雄; 曹林
Original assignee: China Power Industry Internet Co ltd
Current assignee: China Power Industry Internet Co ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2024-01-09
Anticipated expiration: 2040-05-14
Also published as: CN111625218A

Abstract

本发明公开了一种自定义库开发的大数据处理方法及***，该方法包括：搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，定义自定义库开发的接口；进行自定义库开发，实现自定义库开发的接口协议，编写与数据处理应用中的数据处理业务逻辑相关的处理代码，输出Jar包；配置相应的自定义库信息，包括自定义库的顺序及每个自定义库的实现类的全类名；将配置的所有自定义库注册到数据处理应用中，并广播到各分布式计算节点；将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。支持根据不同业务逻辑开发相应的数据处理应用，数据处理应用之间可以相互组合，重复使用，从而实现对实时流式数据和离线批量数据一体化处理。

Description

一种自定义库开发的大数据处理方法及***

技术领域

本发明涉及数据处理技术领域，具体是一种自定义库开发的大数据处理方法及***。

背景技术

移动互联网、社交网络和电子商务极大的扩展了互联网应用的疆界和领域，随着互联网应用的高速发展以及业务持续增长和延伸，我们可收集获取的数据规模在不断增长，这些数据具有数据总量大，数据结构多样化，数据增长率高等特点，是典型的大数据。另一方面，用户在使用这些互联网应用时会持续不断地向服务器请求服务，过程中会产生一系列实时的流式数据。如何高效的处理历史存量大数据和实时增量流式数据，成为现阶段大数据处理领域新的研究方向。

现有技术在处理存量或增量数据时，采用并行云计算开发的ETL工具、基于MapReduce开发的流式数据处理框架、通过实现开源计算框架底层计算原理开发的大数据处理***等，这些都会带来开发难度大，工作量大，技术门槛高等一系列问题。同时基于MapReduce技术框架开发的数据处理***存在性能不高、处理效率低等问题。

而且，现有技术中对于大数据环境中两类数据：存量数据和增量数据是单独一套***来处理，没有进行整合，导致相同数据处理业务逻辑需要针对两类数据场景需要进行重复开发；不支持动态配置数据处理逻辑，存在扩展难，复用率低等问题。

发明内容

针对上述现有技术中的一项或多项问题，本发明提供一种自定义库开发的大数据处理方法及***，支持根据不同业务逻辑开发相应的数据处理应用，数据处理应用之间可以相互组合，重复使用，从而实现对实时流式数据和离线批量数据一体化处理。

为实现上述目的，本发明提供一种自定义库开发的大数据处理方法，包括如下步骤：

步骤1，搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，以及定义自定义库开发的接口；

步骤2，进行自定义库开发，实现自定义库开发的接口协议，编写与数据处理应用中的数据处理业务逻辑相关的处理代码，输出Jar包；

步骤3，根据数据处理应用中的数据处理业务配置相应的自定义库信息，包括自定义库的顺序及每个自定义库的实现类的全类名；

步骤4，将配置的所有自定义库注册到数据处理应用中，并广播到各分布式计算节点；

步骤5，将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务。

进一步优选的，步骤1中，所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，具体为：

基于Spark平台编写流式计算和批处理计算的数据接入代码，包括：

初始化SparkConf，设置相关基础参数；

传入SparkConf，创建Spark应用程序的入口SparkContext；

对于流式计算，通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext，然后基于StreamingContext可以创建与第三方***之间的数据接入方式；

对于批处理计算，通过SparkContext对接本机文件***或分布式文件***HDFS。

进一步优选的，步骤2具体包括：

根据自定义库开发模板新建一个工程，编写类实现步骤1中定义的自定义库开发的接口，在实现的方法体里面编写与数据处理应用中的数据处理业务逻辑相关的处理代码；

利用Maven工具将工程打成Jar包。

进一步优选的，步骤4具体包括：

步骤4.1，根据步骤3中配置的所有自定义库的信息，遵循配置信息中的序号依次将自定义库注册到数据处理应用中，其中，注册方法采用的是Java反射机制，通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序；

步骤4.2，通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点，保证作业在Spark集群中能成功进行分布式并行计算。

进一步优选的，步骤5中，所述将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务，具体为：

通过打包工具将数据处理应用打成Jar包形式，将Jar包上传到Spark集群中的节点上，然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。

为实现上述目的，本发明还提供一种自定义库开发的大数据处理***，包括：

数据接入模块，用于从第三方***或分布式文件***中获取实时增量流数据、离线存量数据，并配置相关控制参数；

数据预处理模块，与数据接入模块通信相连，，用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式；

自定义库管理模块，与数据预处理模块通信相连，用于根据数据处理业务配置相应的自定义库，如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发，并存储和集中管理；

数据处理模块，与自定义库管理模块通信相连，用于管理各自定义库处理后的数据，将配置的所有自定义库按照顺序形成一条作业线，从而像流水线一样完成对数据预处理模块输出数据的处理；

数据输出模块，与数据处理模块通信相连，用于将数据处理模块处理完的数据输出到其他***。

本发明提供的一种自定义库开发的大数据处理方法及***具有如下有益效果：

1.处理效率高：本发明中的自定义库开发的大数据处理方法及***基于开源计算框架Spark搭建，处理效率和性能方面更优；

2.兼容性高：本发明中的自定义库开发的大数据处理方法及***能兼容大数据环境中的两类数据即存量数据和增量数据，做到统一处理；

3.拓展性强：本发明中的自定义库开发的大数据处理方法及***支持动态配置和开发自定义库，实现对相同数据处理业务逻辑的自定义库的复用，以及通过多个自定义库的组合形成数据处理作业线，减少了开发人员工作量，增强了***的扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例中自定义库开发的大数据处理***的结构示意图；

图2为本发明实施例中自定义库开发的大数据处理方法的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示为本实施例公开的一种自定义库开发的大数据处理***，其包括数据接入模块、数据预处理模块、自定义库管理模块、数据处理模块与数据输出模块，具体的：

数据接入模块用于从第三方***或分布式文件***中获取实时增量流数据、离线存量数据，并配置相关控制参数；

数据预处理模块与数据接入模块通信相连，用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式；

自定义库管理模块与数据预处理模块通信相连，用于根据数据处理业务配置相应的自定义库，如果没有则根据提供的开发方法实现处理逻辑完成自定义库开发，并存储和集中管理；

数据处理模块与自定义库管理模块通信相连，用于管理各自定义库处理后的数据，将配置的所有自定义库按照顺序形成一条作业线，从而像流水线一样完成对数据预处理模块输出数据的处理；

数据输出模块与数据处理模块通信相连，用于将数据处理模块处理完的数据输出到其他***，如消息中间件(Kafka)、关系型数据库(MySQL、Oracle)、非关系型数据库(HBase、Redis)、分布式文件***(HDFS)等。

基于图1所示的自定义库开发的大数据处理***，本实施例还公开了一种自定义库开发的大数据处理方法，参考图2，其具体包括如下步骤：

步骤1，搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，以及定义自定义库开发的接口，其具体实现过程如下：

步骤1.1，搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，具体为：

步骤1.1.1，初始化SparkConf，设置相关基础参数；

步骤1.1.2，传入SparkConf，创建Spark应用程序的入口SparkContext；

步骤1.1.3，对于流式计算，通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext，然后基于StreamingContext可以创建与Kafka、Flume等第三方***之间的数据接入方式，接入的数据结构为Discretized Streams(DStreams)，它表示连续的数据流，可以是从源接收到的输入数据流，也可以是通过转换输入流生成的经过处理的数据流。在内部，DStream由一系列连续的RDDs表示，RDD是Spark对不可变的分布式数据集的抽象；

步骤1.1.4，对于批处理计算，通过SparkContext对接本机文件***或分布式文件***HDFS等，接入的数据结构同样为RDD。

步骤1.2，定义自定义开发库接口，实现开发出的自定义库能兼容流式计算和批处理计算两种计算类型。由于流式计算和批处理计算接入的数据结构都是RDD，因此，定义自定义开发库接口的传入参数为RDD，返回参数类型也为RDD。

步骤2，进行自定义库开发，实现自定义库开发的接口协议，编写与数据处理应用中的数据处理业务逻辑相关的处理代码，输出Jar包，其具体实现过程如下：

利用Maven工具将工程打成Jar包。

步骤3，根据数据处理应用中的数据处理业务配置相应的自定义库信息，包括自定义库的顺序及每个自定义库的实现类的全类名，具体的：

先分析此数据处理应用中的数据处理业务逻辑，根据现有开发的自定义库分解成一个个细粒度的处理任务，如果之前没有开发的，回到步骤2，待开发完再回到步骤3。每个细粒度的处理任务其实就对应于每个开发的自定义库，也就是步骤2中输出的Jar包，在配置自定义库信息时，需要配置两个信息，一是该库在这个应用场景的数据处理中的先后顺序，如果是第一个进行处理则配置序号1，以此类推；二是该库在步骤2中实现接口协议的类的全类名即包名+类名。这些配置信息可以存储在关系型数据库中，也可以以文件方式存储在服务器中等。

步骤4，将配置的所有自定义库注册到数据处理应用中，并广播到各分布式计算节点，其具体实现过程如下：

步骤5，将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务，具体为：

通过打包工具将数据处理应用打成Jar包形式，将Jar包上传到Spark集群中的节点上，然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。例如，该工程打成Jar包的文件名为data_process.jar，并且应用的入口即全类名为com.data.process.MainSpark，此应用在步骤4中配置了多个自定义库，库文件名为a_def.jar、b_def.jar等，spark-submit提交命令为：

spark-submit--deploy-mode yarn-cluster--jars a_def.jar,b_def.jar--class com.data.process.MainSparkdata_process.jar

上述spark-submit提交命令的几个参数是必须的，其他性能参数可根据需要添加但不是必须的。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种自定义库开发的大数据处理方法，其特征在于，包括如下步骤：

步骤1，搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，以及定义自定义库开发的接口；

步骤2，进行自定义库开发，实现自定义库开发的接口协议，编写与数据处理应用中的数据处理业务逻辑相关的处理代码，输出Jar包；

步骤5，将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务；

步骤1中，所述搭建基于开源计算框架Spark兼容流计算和批处理的应用流程，具体为：

基于Spark平台编写流式计算和批处理计算的数据接入代码，包括：

初始化SparkConf，设置相关基础参数；

传入SparkConf，创建Spark应用程序的入口SparkContext；

对于流式计算，通过传入SparkContext和设置包括时间窗口长度在内的参数创建StreamingContext，然后基于StreamingContext可以创建与第三方***之间的数据接入方式，接入的数据结构为Discretized Streams，它表示连续的数据流，可以是从源接收到的输入数据流，也可以是通过转换输入流生成的经过处理的数据流；在内部，DStream由一系列连续的RDDs表示；

对于批处理计算，通过SparkContext对接本机文件***或分布式文件***HDFS，接入的数据结构同样为RDD；

定义自定义开发库接口，实现开发出的自定义库能兼容流式计算和批处理计算两种计算类型，由于流式计算和批处理计算接入的数据结构都是RDD，因此，定义自定义开发库接口的传入参数为RDD，返回参数类型也为RDD；

步骤2具体包括：

利用Maven工具将工程打成Jar包；

步骤3具体包括：

先分析此数据处理应用中的数据处理业务逻辑，根据现有开发的自定义库分解成一个个细粒度的处理任务，如果之前没有开发的，回到步骤2，待开发完再回到步骤3；每个细粒度的处理任务其实就对应于每个开发的自定义库，也就是步骤2中输出的Jar包，在配置自定义库信息时，需要配置两个信息，一是该自定义库在这个应用场景的数据处理中的先后顺序，如果是第一个进行处理则配置序号1，以此类推；二是该自定义库在步骤2中实现接口协议的类的全类名即包名+类名；

步骤4具体包括：

步骤4.1，根据步骤3中配置的所有自定义库的信息，遵循配置信息中的序号依次将自定义库注册到数据处理应用中，其中，注册方法采用的是Java反射机制，通过ClassForName方法将配置信息中的全类名反射出一个类并存储在Array数组中保证其顺序；

步骤4.2，通过Spark中的广播器将步骤4.1中构建的Array数组广播到Spark集群中执行作业的各节点，保证作业在Spark集群中能成功进行分布式并行计算。

2.根据权利要求1所述自定义库开发的大数据处理方法，其特征在于，步骤5中，所述将数据处理应用打成Jar包并提交到Spark中分布式并行执行数据处理任务，具体为：

通过打包工具将数据处理应用打成Jar包形式，将Jar包上传到Spark集群中的节点上，然后使用spark-submit命令提交应用到Spark集群中执行数据处理任务。

3.一种自定义库开发的大数据处理***，其特征在于，用于权利要求1或2所述的自定义库开发的大数据处理方法，所述***包括：

数据预处理模块，与数据接入模块通信相连，用于将数据接入模块中接入的数据按照配置的数据源格式信息处理成开源计算框架Spark适用的DataFrame数据格式；