CN113836235A

CN113836235A - 基于数据中台的数据处理方法及其相关设备

Info

Publication number: CN113836235A
Application number: CN202111151763.2A
Authority: CN
Inventors: 郭飞
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-24
Anticipated expiration: 2041-09-29
Also published as: CN113836235B

Abstract

本申请属于大数据领域和人工智能技术领域，涉及基于数据中台的数据处理方法，数据中台包括：Kafka***以及Hadoop***，该方法主要包括以下步骤：通过Kafka***处理实时数据，得到实时数据计算结果；将实时数据计算结果入库数据湖，以实现实时数据计算结果的持久离线化；通过Hadoop***将离线数据入库数据湖；通过Hadoop***处理数据湖内的离线数据，得到离线数据计算结果，其中，实时数据计算结果和离线数据计算结果应用于访问模块。本申请还提供相关设备。此外，本申请还涉及区块链技术，实时数据计算结果和离线数据计算结果可存储于区块链中。本申请能够将Kafka***和Hadoop***进行整合，在发挥各自的优势的同时又通过其他***弥补自身的缺点。

Description

基于数据中台的数据处理方法及其相关设备

技术领域

本申请涉及大数据技术领域和人工智能技术领域，尤其涉及一种基于数据中台的数据处理方法、装置、计算机设备及存储介质。

背景技术

随着互联网的发展，企业业务***增多，数据来源各种各样，经营所需的数据需求高频且多样，但是数据***复杂、无法同步处理离线数据与实时数据，数据分析速度、数据准确一致性难保障，战略决策与数据化运营受阻，因此迫切需要构建一个兼具离线数据处理计算、应用服务能力以及实时数据处理计算、应用服务能力的数据中台。

发明内容

本申请实施例的目的在于提出一种基于数据中台的数据处理方法、装置、计算机设备及存储介质，能够解决现有技术中的无法同步处理离线数据与实时数据的问题。

为了解决上述技术问题，本申请实施例提供一种基于数据中台的数据处理方法，采用了如下的技术方案：数据中台包括：Kafka***以及Hadoop***，Kafka***与Hadoop***均与数据湖建立连接；方法主要包括以下步骤：通过Kafka***处理实时数据，得到实时数据计算结果；将实时数据计算结果入库数据湖，以实现实时数据计算结果的持久离线化；通过Hadoop***将离线数据入库数据湖；通过Hadoop***处理数据湖内的离线数据，得到离线数据计算结果，其中，实时数据计算结果和离线数据计算结果应用于访问模块。

进一步的，Kafka***中设有至少一种数据交换工具，通过Kafka***处理实时数据，得到实时数据计算结果的步骤，包括：通过数据交换工具从实时数据源中获取实时数据，并将实时数据同步存储至Kafka***的操作数据存储器中；基于Flink SQL处理Kafka***的操作数据存储器中的实时数据，得到实时数据计算结果；将实时数据计算结果存储至Kafka***的结果层中。

进一步的，基于Flink SQL处理Kafka***的操作数据存储器中的实时数据，得到实时数据计算结果的具体步骤包括：获取步骤，获取Kafka***的操作数据存储器中的实时数据，并发送至SQL任务提交平台；编写步骤，在 SQL任务提交平台中编写SQL语句对Kafka***的操作数据存储器中的实时数据进行标准化的映射，并在SQL语句中定义数据源表、数据目标表，并为实时数据选择UDF函数；处理步骤，SQL任务提交平台将编写好的SQL语句提交至Flink集群，Flink集群对SQL语句进行解析获得UDF函数、数据源表和数据目标表，Flink集群基于UDF函数、数据源表和数据目标表进行数据处理，得到实时数据计算结果。

进一步的，将实时数据计算结果入库数据湖，并实现实时数据计算结果的持久离线化的步骤，包括：基于Flink对实时数据计算结果进行异步处理，并持久化存储至Hbase中；通过datax将Hbase中的实时数据计算结果同步到数据湖中，以实现实时数据计算结果的持久离线化。

进一步的，Hadoop***中设有至少一种数据交换工具，通过Hadoop***将离线数据入库数据湖的步骤，包括：通过数据交换工具从离线数据源中获取离线数据，并将离线数据同步存储至数据湖中。

进一步的，通过Hadoop***处理数据湖内的离线数据，得到离线数据计算结果的步骤，包括：将数据湖中的离线数据进行ETL调度后，执行SQL处理逻辑，得到第一SQL脚本，其中将第一SQL脚本存储至操作数据存储器；将操作数据存储器中的第一SQL脚本进行数据治理后得到第二SQL脚本，并将第二SQL脚本存储至数据仓库中；对第一SQL脚本和/或第二SQL脚本进行ETL调度后，执行SQL处理逻辑，得到离线数据计算结果，并将离线数据计算结果存储至数据集市。

进一步的，将操作数据存储器中的第一SQL脚本进行数据治理后得到第二SQL脚本，并将第二SQL脚本存储至数据仓库中的步骤包括：对操作数据存储器中的第一SQL脚本进行预处理，预处理包括数据标注；根据各第一SQL 脚本对应的数据标签，配置具有多种计算粒度和多种运算规则的指标集，其中，指标集中每个指标对应一个或多个数据标签；根据指标集中各指标，生成多条计算任务，其中，计算任务包括离线计算任务；执行各计算任务，以根据各指标对应的计算粒度和运算规则，对各指标对应数据标签的第一SQL 脚本进行计算，得到第二SQL脚本；根据预置数据存储规则，对第二SQL脚本分类存储到数据仓库中。

为了解决上述技术问题，本申请实施例还提供一种数据处理装置，数据处理装置：获取模块，用于获取实时数据和离线数据；数据中台模块，包括Kafka***以及Hadoop***，Kafka***与Hadoop***均与数据湖建立连接； Kafka***，用于处理实时数据，得到实时数据计算结果；导入模块，用于将实时数据计算结果入库数据湖，并实现实时数据计算结果的持久离线化； Hadoop***，用于将离线数据入库数据湖，并处理数据湖内的离线数据，得到离线数据计算结果；访问模块，用于访问实时数据计算结果和离线数据计算结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现上述任一项的基于数据中台的数据处理方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任一项的基于数据中台的数据处理方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请提供了一种基于数据中台的数据处理方法、装置、计算机设备及存储介质，将Kafka***处理得到的实时数据计算结果入库数据湖，通过 Hadoop***将离线数据入库数据湖，并处理离线数据，得到离线数据计算结果，本申请将Kafka***和Hadoop***进行整合，利用Hadoop***处理离线数据，利用Kafka***处理实时数据，进而得到存储于数据湖内的离线数据计算结果和实时数据计算结果，在发挥各自***的优势的同时又通过其他***弥补自身的缺点。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是本申请基于数据中台的数据处理方法一实施方式的流程示意图；

图3是图2中步骤S10的一种具体实施方式的流程图；

图4是图3中步骤S12的一种具体实施方式的流程图；

图5是图2中步骤S20的一种具体实施方式的流程图；

图6是图2中步骤S30的一种具体实施方式的流程图；

图7是图2中步骤S40的一种具体实施方式的流程图；

图8是图7中步骤S42的一种具体实施方式的流程图；

图9是本申请数据处理装置的一个实施例的结构示意图；

图10是本申请的一实施例中Kafka***模块821的示意图；

图11是本申请的计算机设备的一个实施例的基本结构框图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器 (Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、 103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于数据中台的数据处理方法一般由服务器/终端设备执行，相应地，数据处理装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于数据中台的数据处理方法的一个实施例的流程图。数据中台包括：Kafka***以及Hadoop***，Kafka***与Hadoop***均与数据湖建立有线连接或者无线连接。需要指出的是，上述无线连接可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体而言，数据中台是数据应用开发门户，具有闭环涵盖数据应用开发全流程，完整覆盖离线计算、实时计算应用等功能。

Kafka***(分布式发布订阅消息***)具有高吞吐量、持久化、多副本备份、横向扩展能力的优点，它可以处理动作流数据。Kafka***可应用于日志收集，如通过Kafka***从不同的数据源收集实时数据。Kafka***还可应用于实时数据的跟踪。Kafka***每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition。consumer group对partition进行 consume操作，即使在廉价的商用机器上也能做到单机支持每秒100k条消息的传输，因此通过Kafka***推送接口能够快速的将源表数据传输到有序的数据湖中。

Hadoop***是一个分布式***基础架构平台，其能够利用集群进行高速分布式运算和存储。该Hadoop***可以理解为具有较快的数据挖掘分析能力的数据库，其具有大数据的分析能力。Hadoop***还提供了分布式文件*** (HDFS)及分布式数据库(HBase)用来管理节点上的分布式数据。利用 Hadoop***及MapReduce编程思想来实现海量数据的计算和存储，并且将 HDFS分布式文件***和HBase分布式数据库很好的融入到分布式计算***中，从而实现海量数据处理的并行性和高效性，并且得以实现很好的处理大规模数据的能力。

数据湖的概念最初是由大数据厂商提出的，表面上看，数据都是承载在基于可向外扩展的HDFS分布式文件***廉价存储硬件之上的。但数据量越大，越需要各种不同种类的存储。最终，所有的企业数据都可以被认为是大数据，但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起，另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的，并且可以为用户提供越来越多的实时分析。数据湖架构面向多数据源的信息存储，包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。

如图2，本申请的基于数据中台的数据处理方法，包括以下步骤：

步骤S10，通过Kafka***处理实时数据，得到实时数据计算结果。

在本实施例中，基于数据中台的数据处理方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式获取预配置的外部数据库中的实时数据。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee 连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

可选地，Kafka***中设有至少一种数据交换工具，数据交换工具包括： Canal、OGG、Flume中的至少一种。请进一步结合图3，图3为本申请步骤 S10一实施方式的流程示意图，如图3，步骤S10进一步包括如下子步骤：

步骤S11：通过数据交换工具从实时数据源中获取实时数据，并将实时数据同步存储至Kafka***的操作数据存储器(Operational Data Store，ODS) 中。

在本申请实施例中，存在有两类数据库，分别为一个本地的业务***数据库和预配置的外部数据库，其中预配置的外部数据库中存储有多种类型的实时数据，而本地的业务***数据库中存储有离线数据。

可选地，实时数据源为预配置的外部数据库。在本申请实施例中，一个外部数据库可能存储有多种格式的实时数据源文件，例如文本格式实时数据源文件、JSON格式实时数据源文件、CSV格式实时数据源文件以及 sequenceFiles格式实时数据源文件等。每一个实时数据源文件存储有多条实时数据，以及这些实时数据对应的数据类型，其中数据类型可以是：合同金额、合同时间、折损费以及滞纳金等，而各个数据类型对应的实时数据则是这些数据类型对应的具体的值，例如。合同金额为1000万，则数据为“1000万”，数据类型为“合同金额”。

在具体实施方式中，Kafka***可以通过Canal、OGG、Flume中的至少一种，从不同的预配置的外部数据库中获取实时数据，并将实时数据同步存储至Kafka***的操作数据存储器中。其中，实时数据以与实时数据源同构的形式存储至Kafka***的操作数据存储器中。

步骤S12：基于Flink SQL处理Kafka***的操作数据存储器中的实时数据，得到实时数据计算结果。

Flink SQL是Flink实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准SQL语义的开发语言。

请进一步结合图4，图4为本申请步骤S12一实施方式的流程示意图，如图4，步骤S12进一步包括如下子步骤：

步骤S121：获取Kafka***的操作数据存储器中的实时数据，并发送至 SQL任务提交平台。

步骤S122：在SQL任务提交平台中编写SQL语句对Kafka***的操作数据存储器中的实时数据进行标准化的映射，并在SQL语句中定义数据源表、数据目标表，并为实时数据选择UDF函数。

在具体实施方式中，选择的合适UDF函数用于对数据字段进行清洗、校验、去重、归一化、比对、标识等动作。本申请构建的SQL语句(也称为SQL 任务)提交平台为一个WEB应用，这样方便用户这样可以联网便可以进行数据的处理，且WEB的界面统一，方便用户的使用，提高了用户体验。

步骤S123：SQL任务提交平台将编写好的SQL语句提交至Flink集群， Flink集群对SQL语句进行解析获得UDF函数、数据源表和数据目标表，Flink 集群基于UDF函数、数据源表和数据目标表进行数据处理，得到实时数据计算结果。

上述技术方案中，基于Flink SQL实时处理Kafka***的操作数据存储器中的实时数据，使得用户可以以较少的SQL代码代替大量的Java代码的编写，操作界面友好，方便非专业的工作人员进行数据处理，提高了用户体验。

在一个实施例中，Flink集群对SQL语句进行解析的操作为：Flink集群采用apachecalcite解析SQL语句，通过SQL Parser解析SQL语句，并基于正则表达式判定SQL语句的类型，并通过JavaCC将SQL语句解析成AST语法树SqlNode，并且结合元数据验证SQL语句是否符合规范。通过对解析出来的语法树SqlNode再进行解析获得UDF函数、数据源表和数据目标表的集合。

在一个实施例中，Flink集群基于UDF函数、数据源表和数据目标表进行数据处理的操作为：对获得的UDF函数集合进行遍历，通过class.forName方法动态加载class对象注册到Flink Table Environment，使用Scalar Functions 对字段进行数据清洗、数据校验、数据去重、数据归一化、数据比对和数据标识。对获得的源表集合进行遍历，然后根据解析出来的field字段和type类型转换成Flink Table可识别的InternalType类型然后注册到Flink Table Environment，通过Flink Table Environment执行sqlQuery获得FlinkTable结果集，通过Flink Table Environment将Flink Table结果集转换成FlinkDataStream，得到实时数据计算结果。

步骤S13，将实时数据计算结果存储至Kafka***的结果层中。

步骤S20，将实时数据计算结果入库数据湖，以实现实时数据计算结果的持久离线化。

请进一步结合图5，图5为本申请步骤S20一实施方式的流程示意图，如图5，步骤S20进一步包括如下子步骤：

步骤S21：基于Flink对实时数据计算结果进行异步处理，并持久化存储至Hbase中。

异步持久化技术是一种高效的持久化方法，其核心是异步执行持久化过程。本步骤采用流计算引擎Flink，将实时数据计算结果异步写入Hbase中，保证实时数据计算结果的准确性和可靠性。

其中，HBase(Hadoop Database，Hadoop数据库)是一个开源，分布式，可横向扩充的，一致的，低时延的，随机访问的非关系型数据库，HBase构建在HDFS(HadoopDistributed File System，Hadoop分布式文件***)之上，用于对海量数据随机、实时的访问。

步骤S22：通过datax将Hbase中的实时数据计算结果同步到数据湖中，以实现实时数据计算结果的持久离线化。

在该种技术方案中，datax是开源的离线数据同步工具/平台，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、Phoenix、 OTS、ODPS等各种数据源之间高效的数据同步功能。datax本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，datax框架可以支持任意数据源类型的数据同步工作。同时datax插件体系作为一套生态***，每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

步骤S30：通过Hadoop***将离线数据入库数据湖。

请进一步结合图6，图6为本申请步骤S30一实施方式的流程示意图，如图6，步骤S30进一步包括如下子步骤：

步骤S31：通过数据交换工具从离线数据源中获取离线数据。

可选地，Hadoop***中设有至少一种数据交换工具，数据交换工具包括： Datax、Sqoop、Embulk、Flume、文件加载工具中的至少一种。

可选地，离线数据源为预配置的业务***数据库。

在具体实施方式中，可以在调度平台中将离线数据的同步配置成任务，也可以定时进行离线数据的同步，也可以在数据源的离线数据准备好后触发离线数据的同步。

步骤S32：将离线数据同步存储至数据湖中。

构建数据湖，在数据湖中构建原始数据池及多个分类数据池，分别设置每个分类数据池的处理规则和保存策略。其中，根据离线数据的使用需求考虑数据保存策略，保存多久取决于数据湖中历史数据的使用需求情况。在满足资源与管理要求的情况下可以长期保留。

可选地，通过数据交换工具从离线数据源中获取离线数据，以增量或者全量的形式将离线数据同步存储至数据湖中。其中，离线数据以与离线数据源同构的形式存储在数据湖中。

可以理解的是，在步骤S30实现实时数据计算结果的持久离线化之后，可以将数据湖内的实时数据计算结果看作数据湖内的离线数据。

步骤S40，通过Hadoop***处理数据湖内的离线数据，得到离线数据计算结果。

请进一步结合图7，图7为本申请步骤S40一实施方式的流程示意图，如图7，步骤S40进一步包括如下子步骤：

步骤S41：将数据湖中的离线数据进行ETL调度后，执行SQL处理逻辑，得到第一SQL脚本，其中将第一SQL脚本存储至操作数据存储器。

操作数据存储器(Operational Data Store，ODS)介于数据库((Database， DB)和数据仓库(Data Warehouse，DW)之间，操作数据存储器可以按照主题提供集成的、可变的当前数据的集合，操作数据存储器的数据源可以来自数据库，也可以接入其他的数据接收***接收外来数据。操作数据存储器可以根据数据仓库的要求为数据仓库提供指定数据，可以认为是数据仓库的数据过渡区。

数据提取、转换和加载(Extraction-Transformation-Loading，ETL)调度是指将分散的离线数据进行数据清洗和集成后加载到操作数据存储器中，能够为联机分析处理和数据挖掘提供决策支持和数据支持。

通过读取离线数据，并执行SQL处理逻辑，以生成第一SQL脚本。具体地，预先编写有一个perl脚本，将离线数据复制到文本文件中，并执行上述perl脚本，则可以自动生成表字典对应的表结构，基于上述表结构进行转换得到对应的SQL脚本，即上述第一SQL脚本，将第一SQL脚本加载到操作数据存储器中。

步骤S42：将操作数据存储器中的第一SQL脚本进行数据治理后得到第二SQL脚本，并将第二SQL脚本存储至数据仓库中。

数据仓库更多地是面向运用，数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化 (Time Variant)的数据集合。

请进一步结合图8，图8为本申请步骤S42一实施方式的流程示意图，如图8，步骤S42进一步包括如下子步骤：

S421：对操作数据存储器中的第一SQL脚本进行预处理，预处理包括数据标注。

S422：根据各第一SQL脚本对应的数据标签，配置具有多种计算粒度和多种运算规则的指标集，其中，指标集中每个指标对应一个或多个数据标签。

S423：根据指标集中各指标，生成多条计算任务，其中，计算任务包括离线计算任务。

S424：执行各计算任务，以根据各指标对应的计算粒度和运算规则，对各指标对应数据标签的第一SQL脚本进行计算，得到第二SQL脚本。

S425：根据预置数据存储规则，对第二SQL脚本分类存储到数据仓库中。

上述技术方案中，先对第一SQL脚本进行数据标注，不同数据使用不同的数据标签，然后再根据各第一SQL脚本的数据标签，配置具有多种计算粒度和多种运算规则的指标集，然后再根据配置的各指标，生成对应的计算任务并运行，从而得到第二SQL脚本。本发明采用数据标注对第一SQL脚本进行管理，使得繁多的指标不再无序、单一，管理更加方便高效。

步骤S43：对第一SQL脚本和/或第二SQL脚本进行ETL调度后，执行 SQL处理逻辑，得到离线数据计算结果，并将离线数据计算结果存储至数据集市。

其中，前述实施例中的实时数据计算结果和所述离线数据计算结果应用于访问模块。

为了支持具体的应用，将离线数据计算结果从数据集市同步到报表应用库或者分析应用库中，供应用程序或者应用库直接访问使用。数据应用方可以使用工具访问应用库使用离线数据计算结果。此外，可以通过实时计算结果数据的消息队列，进行消息订阅、，实时查询实时计算结果数据，满足应用需求。其中，Kafka***本身就能实现消息订阅等功能。同样使用SQL脚本和调度工具，进行实时计算结果数据的处理同步。

需要强调的是，为进一步保证上述实时数据计算结果和离线数据计算结果的私密和安全性，上述实时数据计算结果和离线数据计算结果还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请提供了一种基于数据中台的数据处理方法，将Kafka***处理得到的实时数据计算结果入库数据湖，并将数据湖中的实时数据计算结果导入 Hadoop***，通过Hadoop***处理离线数据，得到离线数据计算结果，本申请将Kafka***和Hadoop***进行整合，利用Hadoop***处理离线数据，利用Kafka***处理实时数据，进而得到存储于Hadoop***内的离线数据计算结果和实时数据计算结果，在发挥各自***的优势的同时又通过其他***弥补自身的缺点。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体 (Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图9，作为对上述图2所示方法的实现，本申请提供了一种数据处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图9所示，本实施例的数据处理装置900包括：获取模块910、数据中台模块920、导入模块930以及访问模块940。数据中台模块920包括Kafka ***模块921以及Hadoop***模块922，Kafka***模块921与Hadoop***模块922均与数据湖建立连接。其中：

获取模块910用于获取实时数据和离线数据。

Kafka***模块921用于处理实时数据，得到实时数据计算结果。

导入模块930用于将实时数据计算结果入库数据湖，并实现实时数据计算结果的持久离线化。

Hadoop***模块922用于将离线数据入库数据湖，并处理数据湖内的离线数据，得到离线数据计算结果。

访问模块940用于访问实时数据计算结果和离线数据计算结果。

本申请将Kafka***处理得到的实时数据计算结果入库数据湖，通过 Hadoop***将离线数据入库数据湖，并处理离线数据，得到离线数据计算结果，本申请将Kafka***和Hadoop***进行整合，利用Hadoop***处理离线数据，利用Kafka***处理实时数据，进而得到存储于数据湖内的离线数据计算结果和实时数据计算结果，在发挥各自***的优势的同时又通过其他***弥补自身的缺点。

在本实施例的一些可选的实现方式中，Kafka***模块921进一步用于通过数据交换工具从实时数据源中获取实时数据，并将实时数据同步存储至 Kafka***的操作数据存储器中；基于Flink SQL处理Kafka***的操作数据存储器中的实时数据，得到实时数据计算结果；将实时数据计算结果存储至 Kafka***的结果层中。

参阅图10，为Kafka***模块921一种具体实施方式的结构示意图，Kafka ***模块921包括获取子模块9211、编写子模块9212以及处理子模块9213。其中，获取子模块9211用于获取Kafka***的操作数据存储器中的实时数据，并发送至SQL任务提交平台。编写子模块9212用于在SQL任务提交平台中编写SQL语句对实时数据进行标准化的映射，并在SQL语句中定义数据源表、数据目标表，并为实时数据选择UDF函数。处理子模块9213用于在SQL任务提交平台将编写好的SQL语句提交至Flink集群，Flink集群对SQL语句进行解析获得UDF函数、数据源表和数据目标表，Flink集群基于UDF函数、数据源表和数据目标表进行数据处理，得到实时数据计算结果。

在本实施例的一些可选的实现方式中，导入模块930用于基于Flink对实时数据计算结果进行异步处理，并持久化存储至Hbase中；通过datax将Hbase 中的实时数据计算结果同步到数据湖中，以实现实时数据计算结果的持久离线化。

在本实施例的一些可选的实现方式中，Hadoop***模块922用于通过数据交换工具从离线数据源中获取离线数据，并将离线数据同步存储至数据湖中。

在本实施例的一些可选的实现方式中，Hadoop***模块922用于将数据湖中的离线数据进行ETL调度后，执行SQL处理逻辑，得到第一SQL脚本，其中将第一SQL脚本存储至操作数据存储器；将操作数据存储器中的第一 SQL脚本进行数据治理后得到第二SQL脚本，并将第二SQL脚本存储至数据仓库中；对第一SQL脚本和/或第二SQL脚本进行ETL调度后，执行SQL 处理逻辑，得到离线数据计算结果，并将离线数据计算结果存储至数据集市。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图 11，图11为本实施例计算机设备基本结构框图。

计算机设备10包括通过***总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器61至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器61可以是计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，存储器61也可以是计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD) 卡，闪存卡(Flash Card)等。当然，存储器61还可以既包括计算机设备6 的内部存储单元也包括其外部存储设备。本实施例中，存储器61通常用于存储安装于计算机设备6的操作***和各类应用软件，例如基于数据中台的数据处理方法的计算机可读指令等。此外，存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器62在一些实施例中可以是中央处理器(Central Processing Unit， CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62 通常用于控制计算机设备6的总体操作。本实施例中，处理器62用于运行存储器61中存储的计算机可读指令或者处理数据，例如运行基于数据中台的数据处理方法的计算机可读指令。

网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在计算机设备6与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可读指令，计算机可读指令可被至少一个处理器执行，以使至少一个处理器执行如上述的基于数据中台的数据处理方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储至一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于数据中台的数据处理方法，其特征在于，所述数据中台包括：Kafka***以及Hadoop***，所述Kafka***与所述Hadoop***均与数据湖建立连接；所述方法包括：

通过所述Kafka***处理实时数据，得到实时数据计算结果；

将所述实时数据计算结果入库数据湖，以实现所述实时数据计算结果的持久离线化；

通过所述Hadoop***将离线数据入库所述数据湖；

通过所述Hadoop***处理所述数据湖内的离线数据，得到离线数据计算结果，其中，所述实时数据计算结果和所述离线数据计算结果应用于访问模块。

2.根据权利要求1所述的数据处理方法，其特征在于，所述Kafka***中设有至少一种数据交换工具，所述通过所述Kafka***处理实时数据，得到实时数据计算结果的步骤，包括：

通过所述数据交换工具从实时数据源中获取所述实时数据，并将所述实时数据同步存储至所述Kafka***的操作数据存储器中；

基于Flink SQL处理所述Kafka***的操作数据存储器中的实时数据，得到所述实时数据计算结果；

将所述实时数据计算结果存储至所述Kafka***的结果层中。

3.根据权利要求2所述的数据处理方法，其特征在于，

所述基于Flink SQL处理所述Kafka***的操作数据存储器中的所述实时数据，得到所述实时数据计算结果的具体步骤包括：

将所述Kafka***的操作数据存储器中的实时数据发送至SQL任务提交平台；

在SQL任务提交平台中编写SQL语句对所述Kafka***的操作数据存储器中的实时数据进行标准化的映射，并在SQL语句中定义数据源表、数据目标表，并为所述实时数据选择UDF函数；

SQL任务提交平台将编写好的SQL语句提交至Flink集群，Flink集群对所述SQL语句进行解析获得UDF函数、数据源表和数据目标表，所述Flink集群基于UDF函数、数据源表和数据目标表进行数据处理，得到所述实时数据计算结果。

4.根据权利要求1所述的数据处理方法，其特征在于，所述将所述实时数据计算结果入库数据湖，并实现所述实时数据计算结果的持久离线化的步骤，包括：

基于Flink对所述实时数据计算结果进行异步处理，并持久化存储至Hbase中；

通过datax将所述Hbase中的实时数据计算结果同步到所述数据湖中，以实现所述实时数据计算结果的持久离线化。

5.根据权利要求1所述的数据处理方法，其特征在于，所述Hadoop***中设有至少一种数据交换工具，所述通过所述Hadoop***将离线数据入库所述数据湖的步骤，包括：

通过所述数据交换工具从离线数据源中获取所述离线数据，并将所述离线数据同步存储至所述数据湖中。

6.根据权利要求1所述的数据处理方法，其特征在于，所述通过所述Hadoop***处理所述数据湖内的离线数据，得到离线数据计算结果的步骤，包括：

将所述数据湖中的所述离线数据进行ETL调度后，执行SQL处理逻辑，得到第一SQL脚本，其中将所述第一SQL脚本存储至操作数据存储器；

将操作数据存储器中的所述第一SQL脚本进行数据治理后得到第二SQL脚本，并将第二SQL脚本存储至数据仓库中；

对所述第一SQL脚本和/或所述第二SQL脚本进行ETL调度后，执行SQL处理逻辑，得到所述离线数据计算结果，并将所述离线数据计算结果存储至数据集市。

7.根据权利要求6所述的数据处理方法，其特征在于，所述将操作数据存储器中的所述第一SQL脚本进行数据治理后得到第二SQL脚本，并将第二SQL脚本存储至数据仓库中的步骤包括：

对所述操作数据存储器中的所述第一SQL脚本进行预处理，所述预处理包括数据标注；

根据各所述第一SQL脚本对应的数据标签，配置具有多种计算粒度和多种运算规则的指标集，其中，所述指标集中每个指标对应一个或多个数据标签；

根据所述指标集中各所述指标，生成多条计算任务，其中，所述计算任务包括离线计算任务；

执行各所述计算任务，以根据各所述指标对应的计算粒度和运算规则，对各所述指标对应数据标签的所述第一SQL脚本进行计算，得到所述第二SQL脚本；

根据预置数据存储规则，对第二SQL脚本分类存储到数据仓库中。

8.一种数据处理装置，其特征在于，所述数据处理装置：

获取模块，用于获取实时数据和离线数据；

数据中台模块，包括Kafka***以及Hadoop***，所述Kafka***与所述Hadoop***均与数据湖建立连接；

所述Kafka***，用于处理实时数据，得到实时数据计算结果；

导入模块，用于将所述实时数据计算结果入库数据湖，并实现所述实时数据计算结果的持久离线化；

所述Hadoop***，用于将离线数据入库所述数据湖，并处理所述数据湖内的离线数据，得到离线数据计算结果；

访问模块，用于访问所述实时数据计算结果和所述离线数据计算结果。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于数据中台的数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于数据中台的数据处理方法的步骤。