CN117076742A

CN117076742A - 数据血缘追踪方法、装置及电子设备

Info

Publication number: CN117076742A
Application number: CN202311034552.XA
Authority: CN
Inventors: 肖云鹤; 刘亚军; 张俊; 代庆国
Original assignee: Beijing Xinge Technology Co ltd
Current assignee: Beijing Xinge Technology Co ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-17

Abstract

本申请涉及一种数据血缘追踪方法、装置及电子设备，属于数据安全技术领域，本申请的方法包括，获取目标数据库的元数据，并根据元数据的层级维度对元数据进行标记处理，得到标记数据，其中，层级维度包括库、表和字段；对发送给目标数据库的每一操作语句进行解析处理，基于解析结果和标记数据构建生成目标数据库的数据流日志，数据流日志承载有表征目标数据库中数据流向信息的记录数据；基于数据流日志对目标数据进行数据血缘追踪。本申请的技术方案，可有效实现字段级别的数据血缘追踪，基于具体的解析配置，实现对不同数据库类型的有效适配。

Description

数据血缘追踪方法、装置及电子设备

技术领域

本申请属于数据安全技术领域，具体涉及一种数据血缘追踪方法、装置及电子设备。

背景技术

血缘追踪(或者说血缘分析)是一种技术手段，其用于实现对数据处理过程的全面追踪，从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。当前环境下，各企业的数据在企业内部以及和其他企业交互的过程中，数据库会产生新的数据，数据也会进行流转，融合，清除等。基于这样的应用实际，数据血缘即从表的产生、到表经由一系列动作后形成的新表的过程链，以及和这个表有直接或间接关系的关联数据组成的关系图谱。进行数据分析时，要实现对数据来源、数据成因等的溯源分析都离不开对表与表，表字段与表字段的血缘关系分析。

当前血缘追踪实现方式，主要包括调度器反向推导、计算引擎***提供的血缘追踪接口等；调度器反向推导的实现方式可行度较高，代价较低，但是无法精准到字段级别的数据追踪；而大数据计算引擎(如HIVE)提供的血缘追踪接口可以做到字段级别，但是定制化太强，不适合其他的数据库类型实现。

因此，在常见的数据库类型应用场景中，如何提供一种可进行数据字段级别的数据血缘追踪方法成为了一个亟待解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种数据血缘追踪方法、装置及电子设备，以及解决如何在常见的数据库类型应用场景中，实现数据字段级别的数据血缘追踪的技术问题。

为实现以上目的，本申请采用如下技术方案：

第一方面，

本申请提供一种数据血缘追踪方法，该方法包括：

获取目标数据库的元数据，并根据元数据的层级维度对所述元数据进行标记处理，得到标记数据，其中，所述层级维度包括库、表和字段；

对发送给所述目标数据库的每一操作语句进行解析处理，基于解析结果和所述标记数据构建生成所述目标数据库的数据流日志，所述数据流日志承载有表征目标数据库中数据流向信息的记录数据；

基于所述数据流日志对目标数据进行数据血缘追踪。

可选地，所述获取目标数据库的元数据，并根据元数据的层级维度对所述元数据进行标记处理，得到标记数据，，包括：

加载所述目标数据库的驱动，通过JDBC接口获取目标数据库的所述元数据；

根据元数据的层级维度对所述元数据进行标记处理，并将得到的所述标记数据进行入库；

其中，所述元数据的类别包括：catalog,schema,table,column。

可选地，所述操作语句为sql语句；所述对发送给所述目标数据库的每一操作语句进行解析处理，基于解析结果和所述标记数据构建生成所述目标数据库的数据流日志，包括：

调用通用Sql解析器对每一所述sql语句进行解析，生成语句所对应的抽象语法树；

根据所述抽象语法树确定语句所对应的执行动作，并基于所述标记数据对所述执行动作进行数据操作解析，得到相应语句所对应的数据操作；

对各所述sql语句所对应的数据操作进行汇集分类，基于汇集分类结果根据语句的时序先后构建所述数据流日志。

可选地，所述通用Sql解析器包括Druid解析器、anltr4解析器。

可选地，所述记录数据包括元数据变更记录数据；所述基于所述数据流日志对目标数据进行数据血缘追踪，具体包括：

将所述元数据变更记录数据所承载的元数据变更记录信息按时间先后进行排序处理，得到各层级维度数据的数据处理链路，并根据所述数据处理链路构建用于数据血缘追踪的数据处理链路集；

根据所述数据处理链路集，对所述目标数据进行查询匹配，获取所述目标数据的元数据及相关其他元数据的依赖关系，得到所述目标数据的数据血缘关系图谱。

可选地，所述基于所述数据流日志对目标数据进行数据血缘追踪，还包括：

根据所述数据处理链路集，对所述目标数据进行查询匹配，获取所述目标数据从开始状态到当前状态的迭代信息，得到所述目标数据的溯源地图。

第二方面，

本申请提供一种数据血缘追踪装置，该数据血缘追踪装置包括：

标记处理模块，用于获取目标数据库的元数据，并根据元数据的层级维度对所述元数据进行标记处理，得到标记数据，其中，所述层级维度包括库、表和字段；

解析构建模块，用于对发送给所述目标数据库的每一数据库操作语句进行解析处理，基于解析结果和所述标记数据构建生成所述目标数据库的数据流日志，所述数据流日志承载有表征目标数据库中数据流向信息的记录数据；

追踪实现模块，用于基于所述数据流日志对目标数据进行数据血缘追踪。

第三方面，

本申请提供一种电子设备，包括：

存储器，其上存储有可执行程序；

处理器，用于执行所述存储器中的所述可执行程序，以实现上述所述方法的步骤。

本申请采用以上技术方案，至少具备以下有益效果：

本申请的数据血缘追踪方法包括如下步骤，获取目标数据库的元数据，并并根据元数据的层级维度对进行标记处理，得到标记数据，其中，层级维度包括库、表和字段；对发送给目标数据库的每一操作语句进行解析处理，基于解析结果和标记数据构建生成目标数据库的数据流日志，数据流日志承载有表征目标数据库中数据流向信息的记录数据；基于数据流日志对目标数据进行数据血缘追踪。本申请的技术方案，采用具体的配置，在实现过程中可对目标数据库的元数据进行最小层级维度为字段的标记处理，并结合对每一操作语句的解析处理来构建表征目标数据库数据流向的数据流日志，进而基于构建的数据流日志对目标数据进行数据血缘追踪，该种方式可以有效实现字段级别的数据血缘追踪，且实现中可基于目标数据库的类型进行具体的解析配置，从而实现对不同数据库类型的有效适配。

本发明的其他优点、目标，和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请一个实施例提供的数据血缘追踪方法的流程示意图；

图2为本申请另一个实施例提供的数据血缘追踪方法的实现配置示意说明图；

图3为本申请一个实施例提供的数据血缘追踪装置的结构示意图；

图4为本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

如背景技术中所述，当前血缘追踪实现方式，主要包括调度器反向推导、计算引擎***提供的血缘追踪接口等；调度器反向推导的实现方式可行度较高，代价较低，但是无法精准到字段级别的数据追踪；而大数据计算引擎(如HIVE)提供的血缘追踪接口可以做到字段级别，但是定制化太强，不适合其他的数据库类型实现。此外，对于非数据库数据，还有采用数据特征识别或者人工识别判断数据的血缘关系，这种方式对业务要求较高，其实现需基于具体业务变化而动态判研调整，局限性太强。

针对于此，本申请提出一种数据血缘追踪方法，以解决如何在常见的数据库类型应用场景中，实现数据字段级别的数据血缘追踪的技术问题。

如图1所示，在一实施例中，本申请提出的数据血缘追踪方法，包括：

步骤S110，获取目标数据库的元数据，并根据元数据的层级维度对元数据的进行标记处理，得到标记数据，其中，层级维度包括库、表和字段；

这里的目标数据库，指实际应用场景中的业务数据库，举例而言，如一学籍管理***，其后台所采用MySQL数据库；

这里的标记处理，指对获取的元数据信息的一种规范化的标记整理，例如标记一个t1表的a字段可使用”/10.10.10.10:3306/mysql/mysql01/t1/a”，标记一个库mysql可使用“/10.10.10.10:3306/mysql/”，标记一个schema(介于库和表中间的层级)mysql01可使用“/10.10.10.10:3306/mysql/mysql01”标记一个表t1可使用“/10.10.10.10:3306/mysql/mysql01/t1”等；

该步骤中，通过标记处理便于后续实现不同层次的元数据的血缘查找，举例而言，查找t1表的血缘关系只需要查找/10.10.10.10:3306/mysql/mysql01/t1为前缀的数据，在效率上比整体标记会高很多，具体的，这里的标记最小层级维度为字段，这样在后续可实现字段级别的数据血缘追踪。

在步骤S110之后，如图2所示，进行步骤S120，对发送给目标数据库的每一操作语句(例如，该实施例中操作语句为sql语句)进行解析处理，基于解析结果和标记数据构建生成目标数据库的数据流日志，数据流日志承载有表征目标数据库中数据流向信息的记录数据；

这里需要说明的是，步骤S110在实际实现中是一个静态过程，即针对具体场景中的业务数据库执行一次即可，而相对的，步骤S120是一个动态过程，其要针对发送给目标数据库的每一操作语句进行解析，并进而基于解析结果(一定时间阶段内的解析结果)和标记数据构建数据流日志；

具体的，该实施例中，对发送给目标数据库的每一操作语句进行解析处理，基于解析结果和标记数据构建生成目标数据库的数据流日志，包括：

调用通用Sql解析器对每一sql语句进行解析，生成语句所对应的抽象语法树(ASTAST，Abstract Syntax Tree)，举例而言，这里的通用Sql解析器可采用Druid解析器、anltr4解析器或其他类型解析器；

根据抽象语法树确定语句所对应的执行动作(举例而言，这里执行动作的类别包括:drop、del、add、update等)，并基于步骤S110中得到的标记数据对执行动作进行数据操作解析，得到相应语句所对应的数据操作；

需要说明的是，本申请中的数据操作是指数据对象与执行动作的一种组合，举例而言，数据操作的类别包括：增加字段列，删除字段列，创建表，删除表等；例如：语句ALTERTABLE user ADD account INT NULL COMMENT'账号'，最终会解析成一增加字段的操作；

如此对一定时间阶段内的语句处理后，对各操作语句所对应的数据操作进行汇集分类，基于汇集分类结果根据语句的时序先后构建数据流日志，构建的数据流日志中含有元数据变更数据，标记变更数据等。

得到数据流日志后，就可进行步骤S130，基于数据流日志对目标数据进行数据血缘追踪。

具体的，在该实施例中，将数据流日志中元数据变更数据所承载的元数据变更记录信息按时间先后进行排序处理，得到各层级维度数据的数据处理链路，并根据得到的数据处理链路构建用于数据血缘追踪的数据处理链路集；

举例而言，例如：实际中的数据库操作为，将A表的column1字段***到B表上记为column1，现在将B表的column1字段删除，然后将C表column1的字段数据***到B表上记为column1，并且将column1的数据也***进去。这个中间一共有三个步骤，数据流日志中记录了每一个步骤的元数据变更信息，将变更信息梳理成先后顺序就是数据的处理链路了。

得到数据处理链路集后，根据数据处理链路集，对目标数据进行查询匹配，获取目标数据的元数据及相关其他元数据的依赖关系，得到目标数据的数据血缘关系图谱，该数据血缘关系图谱展现了目标数据库的元数据和其它元数据关联关系，是实际数据血缘追踪应用的一种常用需求。

这里继续前文的举例，实际中最终的B表的column1字段和C表的column1字段相同，且数据来源相同，就可以得到基于字段的一个简单的关系网，B-column1-C，表示这个字段在B,C中是等价的，相当于是同一个字段，也就是column1的父节点是B,C的关系；如此，显然这种血缘关系图谱可以反映字段和表，字段和字段，表和表，数据库和数据库的关系。

本申请的技术方案，采用具体的配置，在实现过程中对目标数据库的元数据进行最小层级维度为字段的标记处理，并结合对每一操作语句的解析处理来构建表征目标数据库数据流向的数据流日志，进而基于构建的数据流日志对目标数据进行数据血缘追踪，该种方式可以有效实现字段级别的数据血缘追踪，且实现中可基于目标数据库的类型进行具体的解析配置，从而实现对不同数据库类型的有效适配。

为便于理解本申请的技术方案，下面以另一实施例对本申请的技术方案进行介绍说明。

如图2所示，为该实施例中数据血缘追踪方法的实现配置示意说明图。

该实施例中，如图2所示，应用场景中业务***包括应用前端、应用服务器和业务数据库(业务数据库可采用mysql,oracle,sqlserver,hive,db2,h2等)，用户通过访问部署在应用服务器的应用前端实现具体业务操作流程，业务流程过程中，业务数据库来实现对相关业务数据的数据支撑管理。

为实现本申请的技术方案，在现有业务***架构中，添加分析服务器和分析数据库；

基于对分析服务器的具体配置，首先获取目标数据库(图2中业务数据库)的元数据并进行标记处理，得到标记数据，并进行入库(到分析数据库)；

具体的，在该实施例的实现中，加载目标数据库的驱动，通过JDBC接口获取目标数据库的元数据，根据元数据层级维度对元数据进行标记处理，并将得到的标记数据进行入库，其中，元数据的类别包括：catalog,schema,table,column等。

之后如图2所示，基于对分析服务器的具体配置，实现对发送给业务数据库的数据库操作语句进行过滤监听，并对发送给目标数据库的每一操作语句进行解析处理，基于解析结果和标记数据构建生成目标数据库的数据流日志，并将数据流日志入库(入分析数据库)，该解析、构建过程已在前文进行了介绍，这里就不再赘述了。

在得到数据流日志后，就可基于数据流日志对目标数据进行数据血缘追踪了，具体的，该实施例中，在前文实施例的基础上，数据血缘追踪的实现还包括：

根据数据处理链路集，对目标数据(用户具体输入的)进行查询匹配，基于数据标记的变更记录，获取目标数据从开始状态到当前状态的迭代信息，得到目标数据的溯源地图，容易理解的，基于实际的追踪业务需求，这里得到的溯源地图也可进行入库(入分析数据库)。

且需要说明的是，这里的溯源地图侧重于展示元数据的自身变化过程，而前文实施例中提到的数据血缘关系图谱则侧重于元数据和其它元数据的关联关系。

该实施例中，采用JDBC标准通用的接口获取元数据信息，适配了常用的数据库，而不是局限于指定的数据库类型，更适合实际应用中的推广；另外针对元数据采用分层标记，便于不同层级的数据血缘的关系图谱的展现，可以按照不同的层级进行分类；使用Sql解析来实现数据流转，数据流向映射，将这个处理过程转化成直观的关系型数据呈现，进行在追踪实现中，可根据元数据的变化，元数据的变更记录生成数据血缘的关系图谱，根据元数据的变更记录形成的链路以及元数据标记的变更记录，聚合生成数据血缘的溯源地图，有效实现找到目标数据在任何一个过程中的变化。

图3为本申请一个实施例提供的数据血缘追踪装置的结构示意图，如图3所示，该数据血缘追踪装置300包括：

标记处理模块301，用于获取目标数据库的元数据，并根据元数据的层级维度对元数据行标记处理，得到标记数据，其中，维度维度包括库、表和字段；

解析构建模块302，用于对发送给目标数据库的每一数据库操作语句进行解析处理，基于解析结果和标记数据构建生成目标数据库的数据流日志，数据流日志承载有表征目标数据库中数据流向信息的记录数据；

追踪实现模块303，用于基于数据流日志对目标数据进行数据血缘追踪。

关于上述相关实施例中的数据血缘追踪装置300，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4为本申请一个实施例提供的电子设备的结构示意图，如图4所示，该电子设备400包括：

存储器401，其上存储有可执行程序；

处理器402，用于执行存储器401中的可执行程序，以实现上述方法的步骤。

关于上述实施例中的电子设备400，其处理器402执行存储器401中的程序的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种数据血缘追踪方法，其特征在于，包括：

基于所述数据流日志对目标数据进行数据血缘追踪。

2.根据权利要求1所述的方法，其特征在于，所述获取目标数据库的元数据，并根据元数据的层级维度对所述元数据进行标记处理，得到标记数据，包括：

其中，所述元数据的类别包括：catalog,schema,table,column。

3.根据权利要求2所述的数据血缘追踪方法，其特征在于，所述操作语句为sql语句；所述对发送给所述目标数据库的每一操作语句进行解析处理，基于解析结果和所述标记数据构建生成所述目标数据库的数据流日志，包括：

4.根据权利要求3所述的数据血缘追踪方法，其特征在于，所述通用Sql解析器包括Druid解析器、anltr4解析器。

5.根据权利要求1所述的数据血缘追踪方法，其特征在于，所述记录数据包括元数据变更记录数据；所述基于所述数据流日志对目标数据进行数据血缘追踪，具体包括：

6.根据权利要求5所述的数据血缘追踪方法，其特征在于，所述基于所述数据流日志对目标数据进行数据血缘追踪，还包括：

7.一种数据血缘追踪装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

存储器，其上存储有可执行程序；

处理器，用于执行所述存储器中的所述可执行程序，以实现权利要求1-6中任一项所述方法的步骤。