CN105912636A

CN105912636A - 一种基于Map/Reduce的ETL数据处理方法和装置

Info

Publication number: CN105912636A
Application number: CN201610216839.8A
Authority: CN
Inventors: 张洋; 胡博
Original assignee: Kingdee Software China Co Ltd
Current assignee: Kingdee Software China Co Ltd
Priority date: 2016-04-08
Filing date: 2016-04-08
Publication date: 2016-08-31
Anticipated expiration: 2036-04-08
Also published as: CN105912636B

Abstract

本申请公开了一种基于Map/Reduce的ETL数据处理方法和装置。该方提取各个数据源应用的共性数据，区分各个数据源应用的差异数据，并通过Map/Reduce的并行数据处理能力对各数据源应用的共性数据和差异数据进行过滤清洗，生成预定义格式的数据，然后进行转储。这种发明较之现有的机制，既可以保证各个应用在用户行为收集上的个性化需求，同时将数据转换为预定义格式也保证了对数据分析的需求，并且可以进行高速进行脏数据的清洗，提高了数据处理效率。

Description

一种基于Map/Reduce的ETL数据处理方法和装置

技术领域

本申请涉及计算机领域，更具体地说，涉及一种基于Map/Reduce的ETL数据处理方法和装置

背景技术

ETL作为构建数据仓库的重要一环，其是一个将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程，其具体流程为用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据格式，将数据加载到数据仓库中去。

在现有的ETL数据处理中，由于接入ETL的数据源应用往往不止一个，而不同的数据源应用需要记录的数据不同，因而现有的ETL数据处理方案中需要为每个数据源应用分别制定相应的任务流程去处理，导致其数据处理效率低。

发明内容

有鉴于此，本申请提供一种基于Map/Reduce的ETL数据处理方法和装置，采用Map/Reduce任务流程对各个数据源应用的数据进行并行处理，提高了数据处理效率。

为了实现上述目的，现提出的方案如下：

一种基于Map/Reduce的ETL数据处理方法，包括：

获取各个数据源应用当天上传的原始数据；

对所述原始数据进行划分，并从中提取所述各个数据源应用之间的共性数据以及差异数据；

基于预设的Map/Reduce架构对所述共性数据和所述差异数据进行ETL处理。

优选的，所述基于预设的Map/Reduce架构对所述共性数据和所述差异数据进行ETL处理，包括：Map阶段数据处理以及Reduce阶段数据处理；

其中，所述Map阶段数据处理包括：

获取所述各个数据源应用的元数据信息；

根据所述元数据信息对所述共性数据和所述差异数据进行校验；

其中，若校验失败，则判断所述元数据信息中是否包含与校验失败的所述共性数据和所述差异数据相对应的默认值，若存在则将校验失败的所述共性数据和所述差异时间设置为对应的所述默认值；

根据所述元数据信息中各个字段的排列顺序对校验后的所述共性数据和所述差异数据进行排列，输出所述共性数据和所述差异数据，并记录所述共性数据的主键以及所述差异数据的主键；

所述Reduce阶段数据处理包括：

确定具有相同主键的共性数据，以及具有相同主键的差异数据；

采用同一reduce函数对具有相同主键的共性数据进行重复数据清理操作；

采用同一reduce函数对具有相同主键的差异数据进行重复数据清理操作；

将所述共性数据存入共性数据仓库，将所述差异数据存入差异仓库。

优选的，所述获取各个数据源应用当天上传的原始数据，包括：

将所述各个数据源应用上传的原始数据存在不同的文件中，并根据上传时间对所述文件进行命名；

根据所述文件的命名，获取所述各个数据源应用当前上传的原始数据。

优选的，所述根据所述元数据信息对所述共性数据和所述差异数据进行校验，包括：

获取所述共性数据中数据分析所需的通用字段，以及所述差异数据中数据分析所需的差异字段；

根据所述元数据信息对所述共性数据的通用字段和所述差异数据的差异字段进行校验。

一种基于Map/Reduce的ETL数据处理装置，包括：

数据采集单元，用于获取各个数据源应用当天上传的原始数据；

数据划分单元，用于对所述原始数据进行划分，确定所述各个数据源应用之间的共性数据以及差异数据；

数据处理单元，用于基于预设的Map/Reduce架构对所述共性数据和所述差异数据进行ETL处理。

优选的，所述数据处理单元，包括Map数据处理子单元以及Reduce数据处理子单元；

其中所述Map数据处理子单元包括：

信息采集模块，用于获取所述各个数据源应用的元数据信息；

校验模块，用于根据所述元数据信息对所述共性数据和所述差异数据进行校验；

数据整合模块，用于根据所述元数据信息中各个字段的排列顺序对校验后的所述共性数据和所述差异数据进行排列，输出所述共性数据和所述差异数据，并记录所述共性数据的主键以及所述差异数据的主键；

所述Reduce数据处理子单元包括：

数据分类模块，用于确定具有相同主键的共性数据，以及具有相同主键的差异数据；

重复数据清理模块，用于采用同一reduce函数对具有相同主键的共性数据进行重复数据清理操作，以及采用同一reduce函数对具有相同主键的差异数据进行重复数据清理操作；

存储模块，用于将所述共性数据存入共性数据仓库，将所述差异数据存入差异仓库。

优选的，所述数据采集单元包括：

存储子单元，用于将各个数据源应用上传的原始数据存在不同的文件中，并根据上传时间对所述文件进行命名；

数据筛选子单元，用于根据所述文件的命名，获取各个数据源应用当前上传的原始数据。

优选的，所述校验模块包括：

字段采集子模块，用于获取所述共性数据中数据分析所需的通用字段，以及所述差异数据中数据分析所需的差异字段；

字段校验子模块，用于根据所述元数据信息对所述共性数据的通用字段和所述差异数据的差异字段进行校验。

经由上述技术方案可知，本申请公开了一种基于Map/Reduce的ETL数据处理方法和装置。该方提取各个数据源应用的共性数据和差异数据，并通过Map/Reduce的并行数据处理能力对各数据源应用的共性数据和差异数据进行过滤清洗，生成预定义格式的数据，然后进行转储。这种发明较之现有的机制，既可以保证各个应用在用户行为收集上的个性化需求，同时将数据转换为预定义格式也保证了对数据分析的需求，并且可以进行高速进行脏数据的清洗，提高了数据处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明一个实施例公开的一种基于Map/Reduce的ETL数据处理方法的流程示意图；

图2示出了本发明另一个实施例公开的一种基于Map/Reduce的ETL数据处理方法的流程示意图；

图3示出了本发明另一个实施例公开的一种基于Map/Reduce的ETL数据处理装置的结构示意图；

图4示出了本发明另一个实施例公开的一种基于Map/Reduce的ETL数据处理装置中数据处理单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1示出了本发明一个实施例公开的一种基于Map/Reduce的ETL数据处理方法的流程示意图。

由图1可知，该方法包括：

S11：获取各个数据源应用当天上传的原始数据。

可选的，首先将各个数据源应用的原始数据上传到HDFS(HadoopDistributed File System，分布式文件***)的不同文件中，并要求以每次上传原始数据时间对该文件进行命名。

进而，根据存储原始数据的文件的命名获取当天上传的原始数据，以免除大量历史数据流入，浪费计算资源，减短任务执行时间。

S12：对所述原始数据进行划分，确定所述各个数据源应用之间的共性数据以及差异数据。

S13：基于预设的Map/Reduce架构对所述共性数据和所述差异数据进行ETL处理。

本申请公开了一种基于Map/Reduce的ETL数据处理方法和装置。通过Map/Reduce的并行数据处理能力对各个数据源应用上传的原始数据进行预处理，提取共性、区分差异，分别进行过滤清洗生成标准格式的平台性日志然后进行转储。这种发明较之现有的机制，既可以保证各个应用在用户行为收集上的个性化需求，也保证了平台性全局日志分析的需求，并且可以进行高速进行脏数据的清洗，提高了数据处理效率。

参见图2示出了本发明另一个实施例公开的一种基于Map/Reduce的ETL数据处理方法的流程示意图。

由图2可知，该方法具体包括：

S21：获取各个数据源应用当天上传的原始数据。

S22：对所述原始数据进行划分，确定所述各个数据源应用之间的共性数据以及差异数据。

S23：开启Map任务流程，并行对所述共性数据和所述差异数据进行格式化处理。

具体包括：从原始数据中提取平台分析所需的通用字段和差异字段。然而根据预先录入的元数据信息分别对共性数据的通用字段以及差异数据的差异字段进行校验。对于校验失败的共性数据和差异数据，如果元数据信息中包含该共性数据和该差异数据对应的默认值，则利用该默认值替代校验失败的共性数据和差异数据，否则将校验失败的共性数据和差异数据删除。

继而，根据元数据信息中各个字段的排列顺序将校验后的共性数据和差异数据分布排列汽车，并加以前缀区分共性数据和差异数据，从而得到可以被hive数据库分析的格式化数据，并依此数据作为Map阶段的输出value。同时，根据元数据信息，记录该共性数据和差异数据的各自的主键，作为Map阶段的输出key。

S24：开启Reduce任务流程，对所述共性数据和所述差异数据进行销重处理。

根据Map/Reduce的执行原理，Map阶段输出的数据经过shuffle阶段后，具有相同key的数据会进入同一Reduce中进行处理。以相同key进入同一Reduce函数中的value一定是重复的，只输出一条即可。利用上述方法本发明将共性数据和差异数据的主键作为key，利用主键的唯一性，将具有相同主键的共性数据，以及相同主键的差异数据代入同一Reduce函数中，从而对共性数据和差异数据进行销重处理。

根据Map阶段对数据加入的用于区分共性数据和差异数据的前缀字段，将共性数据存入共性数据仓库，将差异数据分别存入不同的差异数据仓库中。

参加图3示出了本发明另一个实施例公开的一种基于Map/Reduce的ETL数据处理装置的结构示意图。

由图3可知，该装置包括：数据采集单元1、数据划分单元2以及数据处理单元3。

其中，数据采集单元1用于获取各个数据源应用当天上传的原始数据，并将采集到的原始数据发送至数据划分单元2中。

可选的，该数据采集单元1具体包括：存储子单元11以及数据筛选子单元12。

其中，存储子单元11，用于将各个数据源应用上传的原始数据存在不同的文件中，并根据上传时间对所述文件进行命名；

数据筛选子单元12，用于根据所述文件的命名，获取各个数据源应用当前上传的原始数据。

数据划分单元2接收数据采集单元发送的各个数据源应用当天的原始数据，并对原始数据进行划分，从而确定所述各个数据源应用之间的共性数据以及差异数据。

进而，数据处理单元3基于Map/Reduce架构对所述共性数据和所述差异数据进行ETL处理。

可选的，该数据处理单元具体包括：Map数据处理子单元31以及Reduce数据处理子单元32。

参见图4示出了本发明另一个实施例公开的一种基于Map/Reduce的ETL数据处理装置的数据处理单元的结构示意图。

在本实施例中，该装置的数据划分单元具体包括：Map数据处理子单元31以及Reduce数据处理子单元32。

其中，该Map数据处理子单元31包括：信息采集模块311、校验模块312以及数据整合模块313。

信息采集模块311用于获取所述各个数据源应用的元数据信息。

校验模块312用于根据所述元数据信息对所述共性数据和所述差异数据进行校验。

可选的，该校验模块包括：字段采集子模块以及字段校验子模块。

字段采集子模块，用于获取所述共性数据中数据分析所需的通用字段，以及所述差异数据中数据分析所需的差异字段。

需要说明的是，对于校验失败的数据，则进一步判断所述元数据信息中是否包含与校验失败的所述共性数据和所述差异数据相对应的默认值，若存在则将校验失败的所述共性数据和所述差异时间设置为对应的所述默认值。

数据整合模块313用于根据所述元数据信息中各个字段的排列顺序对校验后的所述共性数据和所述差异数据进行排列，输出所述共性数据和所述差异数据，并记录所述共性数据的主键以及所述差异数据的主键。

所述Reduce数据处理子单元32包括：

数据分类模块321，用于确定具有相同主键的共性数据，以及具有相同主键的差异数据。

重复数据清理模块322，用于采用同一reduce函数对具有相同主键的共性数据进行重复数据清理操作，以及采用同一reduce函数对具有相同主键的差异数据进行重复数据清理操作。

存储模块323，用于将所述共性数据存入共性数据仓库，将所述差异数据存入差异仓库。

需要说明的是该装置实施例与方法实施例相对应，其执行过程和执行原理相同，在此不作赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于Map/Reduce的ETL数据处理方法，其特征在于，包括：

获取各个数据源应用当天上传的原始数据；

2.根据权利要求1所述的方法，其特征在于，所述基于预设的Map/Reduce架构对所述共性数据和所述差异数据进行ETL处理，包括：Map阶段数据处理以及Reduce阶段数据处理；

其中，所述Map阶段数据处理包括：

获取所述各个数据源应用的元数据信息；

所述Reduce阶段数据处理包括：

3.根据权利要求1所述的方法，其特征在于，所述获取各个数据源应用当天上传的原始数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述元数据信息对所述共性数据和所述差异数据进行校验，包括：

5.一种基于Map/Reduce的ETL数据处理装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述数据处理单元，包括Map数据处理子单元以及Reduce数据处理子单元；

其中所述Map数据处理子单元包括：

所述Reduce数据处理子单元包括：

7.根据权利要求5所述的装置，其特征在于，所述数据采集单元包括：

8.根据权利要求6所述的装置，其特征在于，所述校验模块包括：