CN116644136A

CN116644136A - 一种增量和全量数据的数据采集方法、装置、设备及介质

Info

Publication number: CN116644136A
Application number: CN202310628980.9A
Authority: CN
Inventors: 张家星; 黄雅男; 金鸣; 丁一斐
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-25

Abstract

本申请公开了一种增量和全量数据的数据采集方法、装置、设备及介质，可应用于大数据领域或金融领域。利用Sqoop工具实现关系型数据库的全量数据批量汇聚，利用Flume实现非关系型数据如日志数据的实时收集，集成全量数据采集和增量数据采集到一套实时数据采集***中，在银行若干个不同类型的数据源(关系型数据库和业务***服务器)和统一数据湖之间构建一个完备的数据采集通道，实现便捷、高效、稳定且低成本的数据传输，打破全量采集和增量采集之间的独立性，将传统的离线数据采集和实时数据采集进行合并，有效提高大数据平台的***整体运行效率，降低人力资源成本，改善业务人员的使用体验。

Description

一种增量和全量数据的数据采集方法、装置、设备及介质

技术领域

本申请涉及大数据领域，特别涉及一种增量和全量数据的数据采集方法、装置、设备及介质。

背景技术

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合，大数据技术起源于互联网，目前已被广泛地应用在各个领域，包括金融、电信、医疗等。银行拥有多年的数据积累，且银行的数据相对来说价值密度更高，目前银行已开始尝试利用大数据技术驱动业务运营，但是如何准确、快速且全面的从各个数据源获取关系型数据和非关系型数据，采集全量数据和增量数据，成为了银行业必须解决的关键问题。

银行的海量数据通常统一存储在Hadoop集群构建的数据湖中，目前具备一定的数据传输工具实现业务***数据源和Hadoop之间的数据迁移，但是整体的数据传输效率有待提升，缺少一个高效、高性能、高扩展性且便捷、稳定的数据采集***，以同时满足关系型数据和非关系型数据的实时采集。

目前，现有技术中的数据采集存在以下缺点，传统的数据迁移过程繁琐，整体性能不足；对于关系型数据库中的变化数据和非关系型数据库中的日志数据采集实时性不足，难以高效、快速且稳定的收集数据；批量数据的全量采集和增量数据实时采集完全独立，基础资源和人力资源消耗成本大。

发明内容

有鉴于此，本申请的目的在于提供一种增量和全量数据的数据采集方法、装置、设备及介质，有效提高大数据平台的***整体运行效率，降低人力资源成本，改善业务人员的使用体验。其具体方案如下：

一方面，本申请提供了一种增量和全量数据的数据采集方法，包括：

在关系型数据库中存储有关系型数据时，利用Sqoop工具周期性采集预设时间段内的第一关系型数据，并同步到Hadoop集群构建的数据湖中；

在业务***服务器中存储有非关系型数据时，利用Flume工具实时采集第一预设时刻下的所述非关系型数据，并同步到所述数据湖中；所述非关系型数据包括日志数据。

另一方面，本申请实施例还提供了增量和全量数据的数据采集装置，包括：

第一采集单元，用于在关系型数据库中存储有关系型数据时，利用Sqoop工具周期性采集预设时间段内的第一关系型数据，并同步到Hadoop集群构建的数据湖中；

第二采集单元，用于在业务***服务器中存储有非关系型数据时，利用Flume工具实时采集第一预设时刻下的所述非关系型数据，并同步到所述数据湖中；所述非关系型数据包括日志数据。

另一方面，本申请实施例还提供了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行所述的增量和全量数据的数据采集方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行所述的增量和全量数据的数据采集方法。

本申请实施例提供了一种增量和全量数据的数据采集方法、装置、设备及介质，在关系型数据库中存储有关系型数据时，利用Sqoop工具周期性采集预设时间段内的第一关系型数据，并同步到Hadoop集群构建的数据湖中，从而完成全量数据的采集；在业务***服务器中存储有非关系型数据时，利用Flume工具实时采集第一预设时刻下的非关系型数据，并同步到数据湖中，从而完成增量数据的采集，其中非关系型数据包括日志数据。可见，在本申请实施例中，对于关系型数据和非关系型数据分别利用合适的工具进行数据采集，利用Sqoop工具实现关系型数据库的全量数据批量汇聚，利用Flume实现非关系型数据如日志数据的实时收集，集成全量数据采集和增量数据采集到一套实时数据采集***中，在银行若干个不同类型的数据源(关系型数据库和业务***服务器)和统一数据湖之间构建一个完备的数据采集通道，实现便捷、高效、稳定且低成本的数据传输，打破全量采集和增量采集之间的独立性，将传统的离线数据采集和实时数据采集进行合并，有效提高大数据平台的***整体运行效率，降低人力资源成本，改善业务人员的使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请实施例提供的一种增量和全量数据的数据采集方法的流程示意图；

图2为本申请实施例提供的一种数据采集***架构图；

图3为本申请实施例提供的一种大数据平台架构示意图；

图4为本申请实施例提供的一种增量和全量数据的数据采集装置的结构框图；

图5为本申请实施例提供的一种计算机设备的结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

为了便于理解，下面结合附图对本申请实施例提供的一种增量和全量数据的数据采集方法、装置、设备及介质进行详细的说明。

参考图1所示，为本申请实施例提供的一种增量和全量数据的数据采集方法的流程示意图，该方法可以包括以下步骤。

S101，在关系型数据库中存储有关系型数据时，利用Sqoop工具周期性采集预设时间段内的第一关系型数据，并同步到Hadoop集群构建的数据湖中。

在本申请实施例中，该方法可以应用于一套实时数据采集***中，既可以实现全量数据的采集，也能实现增量数据的采集。该***可以将业务***数据源中数据同步至数据湖中，业务***数据源包括关系型数据库和业务***服务器。该***包括全量数据采集模块和增量数据采集模块，全量数据采集模块可以执行S101步骤，增量数据采集模块可以执行S102步骤。

具体地，关系型数据库中存储的数据为关系型数据，关系型数据库包括MySQL、Oracle或TDSQL数据库。全量数据为一段时间内的全部数据，在对关系型数据进行全量数据采集时，可以利用Sqoop工具周期性采集预设时间段的第一关系型数据，并同步至Hadoop集群构建的数据湖中。即通过全量数据采集模块利用Sqoop工具定期获取关系型数据库特定时间段的全量数据，并同步到数据湖的Hadoop集群中。数据湖为用于统一存储公司数据的大数据平台，通常由Hadoop集群搭建而成。

也就是说，在全量数据采集时，可以利用批量数据传输工具实现关系型数据库和Hadoop集群间的数据导入，全量数据采集利用Hadoop生态下的Sqoop工具实现。Sqoop采用插拔式Connector架构，Connector是与特定数据源相关的组件，可以负责对数据源中的数据进行抽取与加载，具备高性能、自动类型转换、自动传播元信息等特点。

S102，在业务***服务器中存储有非关系型数据时，利用Flume工具实时采集第一预设时刻下的非关系型数据，并同步到数据湖中；非关系型数据包括日志数据。

在本申请实施例中，非关系型数据包括网页、视频、图片或日志数据等，日志数据一般存储在业务***服务器上。业务***服务器中存储有非关系型数据，可以利用Flume工具实时采集第一预设时刻下的非关系型数据，并同步至数据湖中，从而实现增量数据的采集。

具体地，对于日志等非关系型数据，利用Flume工具对不同数据源的海量数据进行高效收集、聚合、移动，最终也统一存储到Hadoop集群构建的数据湖中。Flume是一个高效的流式数据收集***，具备良好的扩展性、伸缩性和容错性等特点，它采用插拔式软件架构，其数据流是由一系列称为Agent的组件构成，每个Agent内部由Source、Channel和Sink模块化组件构成，用户可根据实际应用场景直接选择使用，也可根据自身需求定制实现。

这样，对于关系型数据和非关系型数据分别利用合适的工具进行数据采集，利用Sqoop工具实现关系型数据库的全量数据批量汇聚，利用Flume实现非关系型数据如日志数据的实时收集，集成全量数据采集和增量数据采集到一套实时数据采集***中，在银行若干个不同类型的数据源(关系型数据库和业务***服务器)和统一数据湖之间构建一个完备的数据采集通道，实现便捷、高效、稳定且低成本的数据传输，打破全量采集和增量采集之间的独立性，将传统的离线数据采集和实时数据采集进行合并，有效提高大数据平台的***整体运行效率，降低人力资源成本，改善业务人员的使用体验。

在本申请实施例中，增量数据的采集，一方面包括对非关系型数据进行采集，从业务服务器各位置实时收集日志数据，并传输到Hadoop集群中，即S102，实现行内数据的统一汇聚和统一存储。另一方面还包括对关系型数据进行采集，即从关系型数据库中实时获取变化数据，并实时传输到Hadoop集群中。

具体地，在关系型数据库中存储有关系型数据时，可以对关系型数据进行增量数据的采集，也就是说，对于关系型数据既进行全量数据的采集，也进行增量数据的采集，从多方面进行数据采集，提高数据采集的多样性，为后续数据处理提供多维度方面的数据。

在对关系型数据进行增量数据的采集时，可以采用CDC的方式，即可以利用Canal工具采集第二预设时刻下的第二关系型数据，将第二关系型数据利用Kafka工具同步至数据湖中，其中，所述第二关系型数据为从历史时刻至所述第二预设时刻的时间段内发生更新的关系型数据；所述历史时刻为上一次利用所述Canal工具从关系型数据库中采集关系型数据的时刻，即第二预设时刻相对于上一次采集时对应的历史时刻的增量数据。Canal工具具备高性能、轻量级、便捷易用等特点。

在开发过程中最难的是针对关系型数据库中动态变化的增量数据的实时收集，如果构建一个实时的数据采集通道，需要在较小的资源消耗情况下尽可能的及时、稳定、全面的获取数据库变化数据。

参考图2所示，为本申请实施例提供的一种数据采集***架构图，行内数据(业务***数据源)包括关系型数据和非关系型数据，数据采集***可以进行全量数据采集和增量数据采集，对于关系型数据，在进行全量数据采集时，可以通过Sqoop工具将第一关系型数据传输至数据湖中，在进行增量数据采集时，可以捕获变更数据(第二关系型数据)，通过Canal工具和Kafka工具同步至数据湖中，对于非关系型数据，可以通过Flume工具将日志数据(非关系型数据)传输至数据湖中。

在一种可能的实现方式中，在关系型数据库中存储有关系型数据时，利用Canal工具采集第二预设时刻下的第二关系型数据，可以具体为，在关系型数据库中存储有关系型数据时，利用Canal工具获取关系型数据库的binlog信息；根据binlog信息，通过Canal工具采集第二预设时刻下的第二关系型数据。

具体地，增量数据采集模块针对关系型数据库时刻变化的增量数据，利用Canal工具先通过获取数据库的binlog信息进而捕获增量数据，然后利用Kafka将数据实时传输至数据湖的Hadoop集群中，从而能够更精确的获取到第二关系型数据，提高数据采集的准确性。

具体地，Canal工具的主要定位是基于数据库增量日志解析情况，提供增量数据订阅和消费，其原理是通过模拟数据库的主备复制协议，接收主数据库产生的binlog，进而捕获更新数据。

在本申请实施例中，数据湖可以实现数据的统一存储，对于数据的加工可以传输至数据仓库中进行，从而提高数据加工质量，降低数据湖的数据处理压力。

具体地，可以将数据湖中的第一关系型数据和非关系型数据传输至数据仓库，在数据仓库中按照预设指标对所述第一关系型数据和所述非关系型数据进行分类处理，得到处理后的第一关系型数据和非关系型数据，然后将处理后的第一关系型数据和非关系型数据传输至数据湖中进行存储。也就是说，数据仓库可获取数据湖中的数据，经过模型设计、指标加工等处理后继续传输至数据湖中存储，统一由数据湖对下游***提供数据支持服务。

在本申请实施例中，可以通过应用程序编程接口(Application ProgrammingInterface，API)获取第一关系型数据和非关系型数据，以便进行报表加工。具体地，后线应用可以通过API调用数据湖提供的数据服务能力，进行后续的报表加工处理等操作。

参考图3所示，为本申请实施例提供的一种大数据平台架构示意图，数据湖和数据仓库之间可以进行数据传输，数据仓库可以根据预设指标进行数据加工，得到具有不同指标的数据，比如指标1、指标2和指标3。在数据湖和后线应用之间可以通过API进行数据传输，以便后线应用可以得到不同的报表1、报表2和报表3。

在本申请实施例中，可以汇聚全量数据和增量数据，定期通过全量数据采集的方式即Sqoop工具覆盖增量数据，利用全量数据更正或补充增量数据，从而保证数据质量，避免实时采集过程中遗漏数据。

在本申请实施例中，根据银行对行内不同数据源、不同类型数据统一、快速汇聚的需求，结合大数据业界新兴组件Sqoop、Canal、Flume和Kafka等，提出了一种集成增全量方式的实时数据采集***，使用一套***就能全面、实时的获取关系型数据库中的批量日增数据和动态变化数据以及不同数据源的日志数据，实现行内关系型、非关系型数据离线、实时采集的统一。

本申请实施例提供了一种增量和全量数据的数据采集方法，在关系型数据库中存储有关系型数据时，利用Sqoop工具周期性采集预设时间段内的第一关系型数据，并同步到Hadoop集群构建的数据湖中，从而完成全量数据的采集；在业务***服务器中存储有非关系型数据时，利用Flume工具实时采集第一预设时刻下的非关系型数据，并同步到数据湖中，从而完成增量数据的采集，其中非关系型数据包括日志数据。可见，在本申请实施例中，对于关系型数据和非关系型数据分别利用合适的工具进行数据采集，利用Sqoop工具实现关系型数据库的全量数据批量汇聚，利用Flume实现非关系型数据如日志数据的实时收集，集成全量数据采集和增量数据采集到一套实时数据采集***中，在银行若干个不同类型的数据源(关系型数据库和业务***服务器)和统一数据湖之间构建一个完备的数据采集通道，实现便捷、高效、稳定且低成本的数据传输，打破全量采集和增量采集之间的独立性，将传统的离线数据采集和实时数据采集进行合并，有效提高大数据平台的***整体运行效率，降低人力资源成本，改善业务人员的使用体验。

基于以上增量和全量数据的数据采集方法，本申请实施例还提供了一种增量和全量数据的数据采集装置，参考图4所示，为本申请实施例提供的一种增量和全量数据的数据采集装置的结构框图，该装置可以包括：

第一采集单元201，用于在关系型数据库中存储有关系型数据时，利用Sqoop工具周期性采集预设时间段内的第一关系型数据，并同步到Hadoop集群构建的数据湖中；

第二采集单元202，用于在业务***服务器中存储有非关系型数据时，利用Flume工具实时采集第一预设时刻下的所述非关系型数据，并同步到所述数据湖中；所述非关系型数据包括日志数据。

具体地，所述装置还包括：

第三采集单元，用于在关系型数据库中存储有关系型数据时，利用Canal工具采集第二预设时刻下的第二关系型数据；所述第二关系型数据为从历史时刻至所述第二预设时刻的时间段内发生更新的关系型数据；所述历史时刻为上一次利用所述Canal工具从所述关系型数据库中采集关系型数据的时刻；

同步单元，用于将所述第二关系型数据利用Kafka工具同步至所述数据湖中。

具体地，所述第三采集单元，用于：

在关系型数据库中存储有关系型数据时，利用Canal工具获取所述关系型数据库的binlog信息；

根据所述binlog信息，通过所述Canal工具采集第二预设时刻下的第二关系型数据。

具体地，所述装置还包括：

第一传输单元，用于将所述数据湖中的所述第一关系型数据和所述非关系型数据传输至数据仓库；

分类单元，用于在所述数据仓库中按照预设指标对所述第一关系型数据和所述非关系型数据进行分类处理，得到处理后的第一关系型数据和非关系型数据；

第二传输单元，用于将处理后的第一关系型数据和非关系型数据传输至所述数据湖中。

具体地，所述装置还包括：

获取单元，应用通过应用程序编程接口获取所述第一关系型数据和所述非关系型数据，以便进行报表加工。

本申请实施例提供了一种增量和全量数据的数据采集装置，第一采集单元，用于在关系型数据库中存储有关系型数据时，利用Sqoop工具周期性采集预设时间段内的第一关系型数据，并同步到Hadoop集群构建的数据湖中；第二采集单元，用于在业务***服务器中存储有非关系型数据时，利用Flume工具实时采集第一预设时刻下的所述非关系型数据，并同步到所述数据湖中；所述非关系型数据包括日志数据。对于关系型数据和非关系型数据分别利用合适的工具进行数据采集，利用Sqoop工具实现关系型数据库的全量数据批量汇聚，利用Flume实现非关系型数据如日志数据的实时收集，集成全量数据采集和增量数据采集到一套实时数据采集***中，在银行若干个不同类型的数据源(关系型数据库和业务***服务器)和统一数据湖之间构建一个完备的数据采集通道，实现便捷、高效、稳定且低成本的数据传输，打破全量采集和增量采集之间的独立性，将传统的离线数据采集和实时数据采集进行合并，有效提高大数据平台的***整体运行效率，降低人力资源成本，改善业务人员的使用体验。

又一方面，本申请实施例提供了一种计算机设备，参见图5，该图示出了本申请实施例提供的一种计算机设备的结构图，所述设备包括处理器310以及存储器320：

所述存储器310用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器320用于根据所述程序代码中的指令执行上述实施例提供的增量和全量数据的数据采集方法。

该计算机设备可以包括终端设备或服务器，前述的增量和全量数据的数据采集装置可以配置在该计算机设备中。

又一方面，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述实施例提供的增量和全量数据的数据采集方法。

另外，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的增量和全量数据的数据采集方法。

需要说明的是，本发明提供的一种增量和全量数据的数据采集方法、装置、设备及介质可用于大数据领域或金融领域。上述仅为示例，并不对本发明提供的一种增量和全量数据的数据采集方法、装置、设备及介质的应用领域进行限定。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：Read-only Memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅是本申请的优选实施方式，虽然本申请已以较佳实施例披露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种增量和全量数据的数据采集方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述关系型数据库中存储有所述关系型数据时，利用Canal工具采集第二预设时刻下的第二关系型数据；所述第二关系型数据为从历史时刻至所述第二预设时刻的时间段内发生更新的关系型数据；所述历史时刻为上一次利用所述Canal工具从所述关系型数据库中采集关系型数据的时刻；

将所述第二关系型数据利用Kafka工具同步至所述数据湖中。

3.根据权利要求2所述的方法，其特征在于，所述在所述关系型数据库中存储有所述关系型数据时，利用Canal工具采集第二预设时刻下的第二关系型数据，包括：

在所述关系型数据库中存储有所述关系型数据时，利用所述Canal工具获取所述关系型数据库的binlog信息；

根据所述binlog信息，通过所述Canal工具采集所述第二预设时刻下的所述第二关系型数据。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述数据湖中的所述第一关系型数据和所述非关系型数据传输至数据仓库；

在所述数据仓库中按照预设指标对所述第一关系型数据和所述非关系型数据进行分类处理，得到处理后的第一关系型数据和非关系型数据；

将处理后的第一关系型数据和非关系型数据传输至所述数据湖中。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述方法还包括：

通过应用程序编程接口获取所述第一关系型数据和所述非关系型数据，以便进行报表加工。

6.一种增量和全量数据的数据采集装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第三采集单元，用于在所述关系型数据库中存储有所述关系型数据时，利用Canal工具采集第二预设时刻下的第二关系型数据；所述第二关系型数据为从历史时刻至所述第二预设时刻的时间段内发生更新的关系型数据；所述历史时刻为上一次利用所述Canal工具从所述关系型数据库中采集关系型数据的时刻；

8.根据权利要求7所述的装置，其特征在于，所述第三采集单元，用于：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5中任意一项所述的增量和全量数据的数据采集方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-5中任意一项所述的增量和全量数据的数据采集方法。