CN110879812A

CN110879812A - 一种电商平台中基于spark的数据同步方法

Info

Publication number: CN110879812A
Application number: CN201911138971.1A
Authority: CN
Inventors: 张秀超
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-13
Anticipated expiration: 2039-11-20
Also published as: CN110879812B

Abstract

本发明提供一种电商平台中基于spark的数据同步方法，属于于数据处理技术领域，Mysql作为电商平台中的关系型数据库的源数据实时产生增量数据，通过ETL工具读取mysql的binlog日志获取增量数据并标注数据存放于hbase中。设置同步规则定时通过spark把标注的数据从hbase同步到hive中。解决电商平台中多个***之间的业务数据同步问题。

Description

一种电商平台中基于spark的数据同步方法

技术领域

本发明涉及数据处理技术，尤其涉及一种电商平台中基于spark的数据同步方法。

背景技术

在当前互联网电商平台中必然会涉及多个***，***之间的数据同步尤为重要，各部门对业务数据的需求不同时，比如对数据进行分析或者报表展示，数据需要从当前的业务库迁移到相应的目标库。对于数据分析，通常是通过ETL工具抽取到目标库，但是对于大数据平台数据湖中例如hive对删除操作不友好。

DB2数据库的增量进行增量同步，同步策略过于单一没有弹性伸缩设计，数据同步失败的补救错误不足。

从电商平台到大数据平台数据同步，因为涉及历史数据的更新(或删除)，如果选择HIVE作为唯一存储组件，需要启动HIVE事务表机制，但是缺点是HIVE事务表在更新(或删除)操作上性能差，而且无法使用SPARK读取事务表数据做计算；如果选择HBASE作为唯一存储组件，优点是可以利用HBASE更新(或删除)，但是缺点是SPARK读取HBASE表数据做计算，其性能远低于HIVE，无法满足汇总计算的时间要求

发明内容

为了解决以上技术问题，本发明提出了一种电商平台中基于spark的数据同步方法，应用于电商平台关系数据库中的业务数据同步到大数据平台中，多用于海量数据的同步，适用于数据准确性较高的***并为后续基于大数据平台做多维度汇总计算提供海量数据。解决电商平台中多个***之间的业务数据同步问题。

本发明可以从电商平台中的业务库例如mysql每天实时产生的增量数据同步到大数据平台中，然后在大数据平台对数据进行加工、萃取、汇总、计算。

本发明的技术方案是：

一种电商平台中基于spark的数据同步方法，由Hbase作为增量表，存中间增量数据，Hive存昨天(包含昨天)同步之前的全量数据，通过SPARK把HBASE库增量数据同步至HIVE库然后在进行业务汇总计算、日结。

进一步的，

涉及组件有MYSQL、NIFI、HBASE、HIVE以及SPARK。

Mysql作为电商平台中的关系型数据库的源数据实时产生增量数据，通过ETL工具读取mysql的binlog日志获取增量数据并标注数据存放于hbase中。设置同步规则定时通过spark把标注的数据从hbase同步到hive中。

设置同步规则定时通过spark把标注的数据从hbase同步到hive中。

具体步骤如下：

1)、获取增量数据；NIFI从MYSQL抽取数据写入HBASE表，并为每条记录增加“OPT_TIME”和“OPT_TYPE”字段；

2)、设置同步规则；Hbase增量数据同步到hive中，如果hive表中涉及的分区有更新需要先truncate该分区在***最新的数据，白天同步近三天的关键数据；晚上同步七天的数据；周末在同步其他数据；

3)、SPARK把HBASE的增量数据同步至HIVE。

进一步的，

“OPT_TIME”表示更新时间，格式为“yyyyMMddHHmmss”；

“OPT_TYPE”表示数据更新类型，包含三种：“INSERT”、“UPDATE”和“DELETE”；

进一步的，

Spark根据“OPT_TIME”字段读取增量数据increDF，并根据“OPT_TYPE”字段把数据分为deleteDF、updateDF和insertDF三种数据集。

进一步的，

从increDF中获取涉及更新的分区partitionLists，Spark读取HIVE分区partitionLists中的数据hiveDF；

根据联合主键把hiveDF中deleteDF、updateDF删掉，然后把hiveDF与updateDF和insertDF合并。

进一步的，TRUNCATE HIVE表分区partitionLists的数据，然后把hiveDF***HIVE中；

最后根据主键把HBASE表中increDF数删除。

该数据同步可以独立运行，不依赖与其他***。

关系型数据库中的数据同步到大数据平台中，通过该***可以将电商平台多个***的数据接入到大数据平台中。

数据同步通过Hbase作为中间存储库，通过设置同步策略调用spark程序，快速高效的同步到大数据平台中。

本发明的有益效果是

电商平台关系数据库中的数据同步更新至大数据平台hive中进行汇总计算，既保证了数据的准确性，同时数据同步的性能和效率也比较高。

附图说明

图1是电商平台数据同步到大数据平台流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

该方法涉及组件有MYSQL、NIFI、HBASE、HIVE以及SPARK。

MYSQL：电商平台业务库。

NIFI：数据抽取和回写。

HBASE：创建增量表，存中间增量数据。

HIVE：存昨天(包含昨天)之前的全量数据。

SPARK：HBASE库增量数据同步至HIVE库。

具体步骤如下：

1、获取增量数据。NIFI从MYSQL抽取数据写入HBASE表，并为每条记录增加“OPT_TIME”和“OPT_TYPE”字段。“OPT_TIME”表示更新时间，格式为“yyyyMMddHHmmss”比如“201910180423”；“OPT_TYPE”表示数据更新类型，包含三种：“INSERT”、“UPDATE”和“DELETE”。

2、设置同步规则。基于当前的方法，Hbase增量数据同步到hive中，如果hive表中涉及的分区有更新需要先truncate该分区在***最新的数据，对于当前业务中延迟提交数据时长发生造成，每次同步hive的分区很多，造成同步的时间过长。设置同步规则，可以白天同步近三天的关键数据。晚上同步七天的数据。周末在业务不忙时同步其他数据保证数据的一致性。

3、SPARK把HBASE的增量数据同步至HIVE。具体方法：Spark根据“OPT_TIME”字段读取增量数据increDF，并根据“OPT_TYPE”字段把数据分为deleteDF、updateDF和insertDF三种数据集。从increDF中获取涉及更新的分区partitionLists，Spark读取HIVE分区partitionLists中的数据hiveDF。根据联合主键把hiveDF中deleteDF、updateDF删掉，然后把hiveDF与updateDF和insertDF合并。TRUNCATE HIVE表分区partitionLists的数据，然后把hiveDF***HIVE中。最后根据主键把HBASE表中increDF数删除。

本发明应用于电商平台关系数据库中的业务数据同步到大数据平台中，多用于海量数据的同步，适用于数据准确性较高的***并为后续基于大数据平台做多维度汇总计算提供海量数据。本***解决上述电商平台中，多个***之间的业务数据同步问题。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种电商平台中基于spark的数据同步方法，其特征在于，

由Hbase作为增量表，存中间增量数据，Hive存昨天(包含昨天)同步之前的全量数据，通过SPARK把HBASE库增量数据同步至HIVE库然后在进行业务汇总计算、日结。

2.根据权利要求1所述的方法，其特征在于，

Mysql作为电商平台中的关系型数据库的源数据实时产生增量数据，通过ETL工具读取mysql的binlog日志获取增量数据并标注数据存放于hbase中。

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

具体步骤如下：

3)、SPARK把HBASE的增量数据同步至HIVE。

5.根据权利要求4所述的方法，其特征在于，

“OPT_TIME”表示更新时间，格式为“yyyyMMddHHmmss”；

“OPT_TYPE”表示数据更新类型，包含三种：“INSERT”、“UPDATE”和“DELETE”。

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

TRUNCATE HIVE表分区partitionLists的数据，然后把hiveDF***HIVE中；

最后根据主键把HBASE表中increDF数删除。