CN114265883B

CN114265883B - 一种实时数据治理的方法、设备、存储介质

Info

Publication number: CN114265883B
Application number: CN202111610777.6A
Authority: CN
Inventors: 赵子墨; 罗森; 李照川; 孙永超; 李沅泽
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-06-14
Anticipated expiration: 2041-12-27
Also published as: CN114265883A

Abstract

本申请公开了一种实时数据治理的方法、设备、存储介质，该方法包括：将采集的数据放入消息队列的第一话题中，通过流式计算引擎的第一作业模块对所述第一话题中的数据进行数据清洗，根据固定的逻辑筛选后标记主题标签和时间戳；将所述标记主题标签和时间戳的数据存储到所述消息队列的第二话题中；通过流式计算引擎的第二作业模块将所述第二话题中的数据按照所述主题标签***到主题数据库中；将所述主题数据库中的数据同步到预先搭建的Hive数据仓库中；通过流式计算引擎的第三作业模块根据所述Hive数据仓库中的数据生成数据血缘关系图谱。

Description

一种实时数据治理的方法、设备、存储介质

技术领域

本申请涉及数据处理领域，尤其涉及一种实时数据处理的方法、设备、存储介质。

背景技术

目前埋点数据、网关日志、物联网设备信号数据、线上业务数据等越来越多，但是这些数据由人工处理成本高、效率低、时间长，而且通过人工处理一旦发生错误将会为数据带来不可挽回的损失。

因此，需要一种能够快速、有效而准确的治理这些数据的方案，能够充分利用这些数据做商业智能、用户画像、数据挖掘与预测，对研发、运营、决策、市场都起着至关重要的意义。

发明内容

本申请提供了一种实时数据治理的方法、设备、存储介质，解决了人工治理数据效率低、时间长、成本高的技术问题。

一种实时数据治理的方法，包括：

将采集的数据放入消息队列的第一话题中，通过流式计算引擎的第一作业模块对所述第一话题中的数据进行数据清洗，根据固定的逻辑筛选后标记主题标签和时间戳；

将所述标记主题标签和时间戳的数据存储到所述消息队列的第二话题中；

通过流式计算引擎的第二作业模块将所述第二话题中的数据按照所述主题标签***到主题数据库中；

将所述主题数据库中的数据同步到预先搭建的Hive数据仓库中；

通过流式计算引擎的第三作业模块根据所述Hive数据仓库中的数据生成数据血缘关系图谱。

在本申请的一种实施例中，通过流式计算引擎对所述第一话题中的数据进行数据清洗，具体包括：根据设定的阈值范围，对不在所述阈值范围内的数据进行过滤；根据现有字段与自然逻辑对过滤出的在所述阈值范围内的数据中的缺失值进行补全；根据预先定义的数据长度与类型对补全缺失值后的数据进行过滤；将根据预先定义的数据长度与类型过滤的数据匹配正则表达式，对字段中的噪音数据、乱码数据进行过滤；对过滤掉所述噪音数据、乱码数据后的数据添加数据编号，对所述数据标记主题标签和时间戳。

在本申请的一种实施例中，所述通过流式计算引擎的第二作业模块将所述第二话题中的数据按照所述主题标签***到主题数据库中，具体包括：将所述第二话题中键值对格式的数据转换为标准逗号分割格式的数据，并按照指定的主题标签区分数据流向；按照所述数据流向，依次将所述标准逗号分割格式的数据***到主题数据库中，并对***到所述主题数据库中的数据打上第二层标签；对无法***到所述数据库中的数据统一汇总添加原因，放入脏数据表中。

在本申请的一种实施例中，将无法***到所述数据库中的数据放入脏数据表中之后，所述方法还包括：通过自研程序根据集成的Neo4j操作类，查询主题数据库；对在所述数据清洗阶段添加同一数据编号的数据，按照不同时期的标签，生成数据血缘关系图谱；根据所述数据血缘关系图谱展示数据的来源、所有者、清洗规则与数据层级。

在本申请的一种实施例中，通过流式计算引擎的第三作业模块根据所述Hive数据仓库中的数据生成数据血缘关系图谱，具体包括：通过Filebeat采集所述Hive数据仓库的日志数据到所述消息队列的第三话题中；通过所述流式计算引擎中的第三作业模块将所述Hive数据仓库的日志数据导入到Neo4j中，生成数据血缘关系图谱进行展示；其中，所述数据血缘关系图谱包括数据流向与应用层级关系，数据库、表、字段从属血缘关系两种展示方式。

在本申请的一种实施例中，将采集的数据放入消息队列的第一话题中，具体包括：通过流式计算引擎读取目标数据库的增量数据，将所述增量数据放入所述消息队列的第一话题中；采集本地文件的日志数据，将所述日志数据统一转换成json格式，输出到所述第一话题中；通过Python的xlrd模块读取Excel表格内的数据放入所述第一话题中。

在本申请的一种实施例中，将无法***到所述数据库中的数据放入脏数据表中之后，所述方法还包括：通过自研程序将所述脏数据表中的数据按照所述主题标签进行分类，根据自定义模板将分类后的脏数据表中的数据填充进数据质量报告中。

在本申请的一种实施例中，在采集数据之前，所述方法还包括：

在服务器中搭建Flink、Kafka、Neo4j、Hive和自研程序，构建实时计算环境。

一种实时数据治理的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

一种非易失性存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请提供了一种实时数据治理的方法、设备、存储介质，至少包括以下有益效果：通过将维度与结构相对固定的数据进行快速的清洗转换加工，能够节省数据处理的时间与人力成本，提高数据入库的效率与准确性；通过对数据进行整个生命周期的监管，在数据流转的每一步自动打上的标签，对数据的质量很好的把控，对用户也更加清晰。通过将数据清洗的逻辑都集成到Flink中，便于后期逻辑的灵活修改，利用Flink+Kafka的组合，实现了实时快速的数据处理，使数据入库延迟时间大大降低；通过根据标签对数据进行管理，能够自动生成标准的数据质量报告和数据血缘关系，使数据质量控制与元数据管理有更形象的展示。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种实时数据治理的方法的步骤示意图；

图2为本申请实施例提供的实时数据治理的方法的流程示意图；

图3为本申请实施例提供的形成数据血缘关系图的示例图；

图4为本申请实施例提供的一种实时数据治理的设备组成示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例对本申请进行清楚、完整的描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前埋点数据、网关日志、物联网(Internet of Things，IoT)设备信号数据、线上业务数据等越来越多，快速、有效而准确的治理这些数据，充分利用这些数据做商业智能(Business Intelligence，BI)、用户画像、挖掘与预测，对研发、运营、决策、市场都起着至关重要的意义。使用流式计算引擎Flink与消息队列Kafka在lambda架构上构建实时数仓，可以专业且高效的进行数据治理工作。lambda架构是一个实时大数据处理框架，具有高容错、低延时和可扩展等特点。下面进行具体说明。

图1为本申请实施例提供的一种实时数据治理的方法的步骤示意图，可以包括以下步骤：

S101：将采集的数据放入消息队列的第一话题Topic A中，通过流式计算引擎的第一作业模块Job A对第一话题Topic A中的数据进行数据清洗，根据固定的逻辑筛选后标记主题标签和时间戳。

在本申请的一种实施例中，在采集数据之前，在服务器中搭建Flink、Kafka、Neo4j、Hive和自研程序，构建实时计算环境。Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理。Flink是完全支持流处理，也就是说作为流处理看待时输入数据流是无界的。

Kafka是一个分布式、高吞吐量、高扩展性的消息队列***。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。

Neo4j是一个高性能的NoSQL图形数据库，它将结构化数据存储在网络上而不是表中。在Neo4j中，一个节点可以有一个以上的标签，从现实世界的角度去看，一个标签可以认为节点的某个类别，比如BOOK、MOVIE等等。节点是指一个实实在在的对象，这个对象可以有好多的标签，表示对象的种类，也可以有好多的属性，描述其特征，节点与节点之间还可以形成多个有方向(或者没有方向)的关系。

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据抽取转化加载(Extract-Transform-Load，ETL)，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，它允许熟悉SQL的用户查询数据。

在本申请的一种实施例中，如图2所示，通过流式计算引擎Flink读取目标数据库的增量数据，将增量数据放入消息队列的第一话题Topic A中；采集本地文件的日志数据，将日志数据统一转换成json格式，输出到第一话题Topic A中，本地文件是文本文件；通过Python的xlrd模块读取Excel文件内的数据放入第一话题Topic A中，Excel文件内的数据为特定表结构。

在本申请的一种实施例中，将消息队列Kafka第一话题Topic A中的数据根据设定的阈值范围，对不在阈值范围内的数据进行过滤，例如人口年龄阈值为0-150，不在此阈值内的数据会被过滤；根据现有字段与自然逻辑对过滤出的在阈值范围内的数据中的缺失值进行补全，例如根据身份证号补全性别与年龄，根据手机号补全归属地等；根据预先定义的数据长度与类型对补全缺失值后的数据进行过滤，例如手机号码最大长度为11位，大于11位的过滤掉或是截取前11位等；将根据预先定义的数据长度与类型过滤的数据匹配正则表达式，对字段中的噪音数据、乱码数据进行过滤；对过滤掉噪音数据、乱码数据后的数据添加数据编号，对数据标记主题标签和时间戳，为后期管理与关联做准备工作。

S102：将标记主题标签和时间戳的数据存储到消息队列的第二话题Topic B中。

S103：通过流式计算引擎的第二作业模块Job B将第二话题Topic B中的数据按照主题标签***到主题数据库中。

在本申请的一种实施例中，流式计算引擎的第二作业模块Job B将第二话题TopicB中键值对格式的数据等其他格式的数据转换为标准逗号分割格式的数据，并按照指定的主题标签区分数据流向；按照数据流向，依次将标准逗号分割格式的数据***到主题数据库中，并对***到主题数据库中的数据打上第二层标签，方便数据血缘分析；对无法***到数据库中的数据统一汇总添加原因，放入脏数据表中。

在本申请的一种实施例中，一条数据在治理的每个步骤都会被打一个标签，这个标签代表着数据的状态，一条数据有多少标签，就代表着数据经历了多少个步骤，编号是这条数据的唯一标识，标签通过编号进行关联来做血缘关系，每一条数据都会走出一条或者多条血缘关系，数据会在不同时期，不同状态都可能存在，因为这条数据中间可能会被切分，分到不同的数据库表当中，虽然落到不同的表中，但是他们的编号是相同的，代表他们的源头是同一个数据；标签记录了这条数据从哪里采集上来，经过了几道清洗，所有者是谁，谁来用它。

标签代码的具体样例如下：

在本申请的一种实施例中，将无法***到数据库中的数据放入脏数据表中之后，通过自研程序根据集成的Neo4j操作类，查询主题数据库；对在数据清洗阶段添加同一数据编号的数据，按照不同时期的标签，生成数据血缘关系图谱；根据数据血缘关系图谱展示数据的来源、所有者、清洗规则与数据层级。具体逻辑如图3所示，展示了数据的流向和层级。

在本申请的一种实施例中，将无法***到数据库中的数据放入脏数据表中之后，通过自研程序将脏数据表中的数据按照主题标签进行分类，根据自定义模板将分类后的脏数据表中的数据填充进数据质量报告中。

S104：将主题数据库中的数据同步到预先搭建的Hive数据仓库中。

S105：通过流式计算引擎的第三作业模块Job C根据Hive数据仓库中的数据生成数据血缘关系图谱。

在本申请的一种实施例中，通过文件采集器Filebeat采集Hive数据仓库的日志数据到消息队列的第三话题Topic C中；通过流式计算引擎中的第三作业模块Job C将Hive数据仓库的日志数据导入到Neo4j中，生成数据血缘关系图谱进行展示；其中，数据血缘关系图谱包括数据流向与应用层级关系，数据库、表、字段从属血缘关系两种展示方式。

具体地，通过使用Hive为数据存储介质，用于数据汇总层存储。以Hive2.5.3为例：在Hive安装目录下的Hive-site.xml文件中添加hooks参数开启LineageLogger功能，可用于生成数据处理过程中的血缘关系日志。使用Filebeat将日志收集到Kafka中，在Flink中集成py2neo的Graph模块，将日志数据处理后导入Neo4j中进行展示。

以上为本申请实施例提供的一种实时数据治理的方法，基于同样的发明思路，本申请实施例还提供了相应的一种实时数据治理的设备，如图4所示。

本实施例提供了一种实时数据治理的设备，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

将采集的数据放入消息队列的第一话题Topic A中，通过流式计算引擎的第一作业模块Job A对第一话题Topic A中的数据进行数据清洗，根据固定的逻辑筛选后标记主题标签和时间戳；

将标记主题标签和时间戳的数据存储到消息队列的第二话题Topic B中；

通过流式计算引擎的第二作业模块Job B将第二话题Topic B中的数据按照主题标签***到主题数据库中；

将主题数据库中的数据同步到预先搭建的Hive数据仓库中；

通过流式计算引擎的第三作业模块Job C根据Hive数据仓库中的数据生成数据血缘关系图谱。

基于同样的思路，本申请的一些实施例还提供了上述方法对应的介质。

本申请的一些实施例提供的一种实时数据治理的存储介质，存储有计算机可执行指令，计算机可执行指令设置为：

将主题数据库中的数据同步到预先搭建的Hive数据仓库中；

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的方法和介质与方法是一一对应的，因此，方法和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述方法和介质的有益技术效果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程方法商品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程方法商品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程方法商品或者方法中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种实时数据治理的方法，其特征在于，包括：

通过流式计算引擎的第三作业模块根据所述Hive数据仓库中的数据生成数据血缘关系图谱；

所述通过流式计算引擎的第二作业模块将所述第二话题中的数据按照所述主题标签***到主题数据库中，具体包括：

将所述第二话题中键值对格式的数据转换为标准逗号分割格式的数据，并按照指定的主题标签区分数据流向；

按照所述数据流向，依次将所述标准逗号分割格式的数据***到主题数据库中，并对***到所述主题数据库中的数据打上第二层标签；

对无法***到所述数据库中的数据统一汇总添加原因，放入脏数据表中；

将无法***到所述数据库中的数据放入脏数据表中之后，所述方法还包括：

通过自研程序根据集成的Neo4j操作类，查询主题数据库；

对在所述数据清洗阶段添加同一数据编号的数据，按照不同时期的标签，生成数据血缘关系图谱；

根据所述数据血缘关系图谱展示数据的来源、所有者、清洗规则与数据层级；

通过流式计算引擎的第三作业模块根据所述Hive数据仓库中的数据生成数据血缘关系图谱，具体包括：

通过Filebeat采集所述Hive数据仓库的日志数据到所述消息队列的第三话题中；

通过所述流式计算引擎中的第三作业模块将所述Hive数据仓库的日志数据导入到Neo4j中，生成数据血缘关系图谱进行展示；

其中，所述数据血缘关系图谱包括数据流向与应用层级关系，数据库、表、字段从属血缘关系两种展示方式。

2.根据权利要求1所述的方法，其特征在于，通过流式计算引擎对所述第一话题中的数据进行数据清洗，具体包括：

根据设定的阈值范围，对不在所述阈值范围内的数据进行过滤；

根据现有字段与自然逻辑对过滤出的在所述阈值范围内的数据中的缺失值进行补全；

根据预先定义的数据长度与类型对补全缺失值后的数据进行过滤；

将根据预先定义的数据长度与类型过滤的数据匹配正则表达式，对字段中的噪音数据、乱码数据进行过滤；

对过滤掉所述噪音数据、乱码数据后的数据添加数据编号，对所述数据标记主题标签和时间戳。

3.根据权利要求1所述的方法，其特征在于，将采集的数据放入消息队列的第一话题中，具体包括：

通过流式计算引擎读取目标数据库的增量数据，将所述增量数据放入所述消息队列的第一话题中；

采集本地文件的日志数据，将所述日志数据统一转换成json格式，输出到所述第一话题中；

通过Python的xlrd模块读取Excel表格内的数据放入所述第一话题中。

4.根据权利要求1所述的方法，其特征在于，将无法***到所述数据库中的数据放入脏数据表中之后，所述方法还包括：

通过自研程序将所述脏数据表中的数据按照所述主题标签进行分类，根据自定义模板将分类后的脏数据表中的数据填充进数据质量报告中。

5.根据权利要求1所述的方法，其特征在于，在采集数据之前，所述方法还包括：

6.一种实时数据治理的设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

将无法***到所述数据库中的数据放入脏数据表中之后，还包括：

通过自研程序根据集成的Neo4j操作类，查询主题数据库；

7.一种非易失性存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

通过自研程序根据集成的Neo4j操作类，查询主题数据库；