CN113868253B

CN113868253B - 一种数据关系捕获及大数据关系树构建方法

Info

Publication number: CN113868253B
Application number: CN202111142241.6A
Authority: CN
Inventors: 方佩; 李国民; 全威; 蔡希; 杨凯; 曾学俊
Original assignee: China Comservice Enrising Information Technology Co Ltd
Current assignee: China Comservice Enrising Information Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-04-23
Anticipated expiration: 2041-09-28
Also published as: CN113868253A

Abstract

本发明公开了一种数据关系捕获及大数据关系树构建方法，涉及大数据处理领域，其技术要点是：将关系性数据和非关系性数据集成获取数据血缘的元数据，对元数据进行定义，基于定义的元数据创建实体；执行SQL语言触发变更组件进行元数据实体变更，捕获钩子自动捕获变更信息生成元数据变更细节，对元数据变更细节进行解析生成单***的数据血缘谱系图；将数据血缘谱系图存储至图数据库，并通过私钥进行加密，将加密数据通过消息队列同步到数据血缘交换空间，进而构建跨***的大数据血缘关系树。本发明从单应用***数据血缘同步上报到跨***血缘最终同步下发，形成血缘关系树从数据获取、跨应用***血缘计算、血缘树构建到下发的完整闭环。

Description

一种数据关系捕获及大数据关系树构建方法

技术领域

本发明涉及大数据处理领域，更具体地说，它涉及一种数据关系捕获及大数据关系树构建方法。

背景技术

数据血缘揭示了数据的生命周期——旨在展示数据从产生到结束的完整链路。数据血缘记录了数据产生、加工、流转、最终消亡的过程。包括数据在此过程中经历的所有转换——如何转换、发生了什么变化以及原因。

在现在大数据的环境下，许多数据之间的血缘关系是不清楚，而且即使有血缘，也只是***内部的，未对数据之间的血缘关系进行自动捕获，未实现***与***之间的数据血缘关系。

因此，如何研究设计跨***的数据血缘关系树是目前亟需解决的问题。

发明内容

本发明所解决的技术问题是未对数据之间的血缘关系进行自动铺获，未实现***与***之间的数据血缘关系，本发明的目的是提供一种数据关系捕获及大数据关系树构建方法，本发明在执行过程通过捕获钩子自动捕获数据之间的血缘关系。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种数据关系捕获及大数据关系树构建方法，包括以下步骤：

将关系性数据和非关系性数据集成获取数据血缘的元数据，对元数据进行定义，基于定义的元数据创建实体；

执行SQL语言触发变更组件进行元数据实体变更，捕获钩子自动捕获变更信息生成元数据变更细节，对所述元数据变更细节进行解析生成单***的数据血缘谱系图；

将数据血缘谱系图存储至图数据库，并通过私钥进行加密，将加密数据通过消息队列同步到数据血缘交换空间，进而构建跨***的大数据血缘关系树。

本发明通过执行SQL语言触发变更组件进行元数据实体变更，捕获钩子自动捕获变更信息生成元数据变更细节，根据变更细节生成单***的数据血缘关系谱系图，将数据血缘谱系图存储至图数据库，通过私钥对其进行加密，将加密数据通过消息队列同步到数据血缘交换空间进行同步交换并进行解密，最终构建跨***的大数据血缘关系树。

进一步的，元数据定义包括对元数据进行别名、分类及标签，其中，通过别名生成元数据的类型，通过标签与分类将元数据相互关联或将元数据和数据资产关联，按不同的分类对元数据进行管理，按分类的层次表达元数据的业务范围，通过标签和分类传播数据血缘依赖。

进一步的，元数据根据类型进行建模并表示为实体，类型通过“name”唯一标识，每个类型有一个元类型，实体是类型的特定值或特定列，实体由唯一标识符标识。

进一步的，元数据实体变更包括对元数据进行创建/变更/删除操作对元数据实体进行变更。

进一步的，通过不同类型的捕获钩子自动捕获元数据的创建/更新/删除操作生成元数据变更细节的输出列和一组输入列或输入表，将输出列和一组输入列或输入表相关联生成数据血缘依赖谱系图，并将元数据变更细节信息内容推送至消息队列进行元数据的更新；其中，信息内容包括实体创建信息、实体更新信息、实体删除信息、字段创建信息、字段更新信息及字段删除信息。

进一步的，数据血缘谱系图的依赖类型包括简单依赖、表达式和脚本，其中，简单依赖，输出列具有与输入列相同的值，表达式，输出列在运行时由输入列上的表达式转换，脚本，输出列由用户提供的脚本转换。

进一步的，将数据血缘依赖谱系图通过图形引擎持久化并生成索引，并将索引存储在搜索引擎中，搜索引擎对数据血缘关系进行深度挖掘，生成数据间的潜在联系。

进一步的，构建跨***的企业级数据血缘树的具体步骤如下：

各应用***在血缘交换空间申请公私钥，私钥由***持有，公钥由血缘交换空间保留，用于数据解密时使用；

各应用***通过自有私密钥将数据血缘谱系图进行加密，实时将加密数据通过消息队列同步到血缘交换空间；

血缘交换空间采用对应***的公钥对单个***的血缘谱系数据进行解密，再根据当前最新的各个***的血缘谱系数据，进行实时计算，打通并完善***间数据血缘关系，进而绘制大数据血缘关系树。

进一步的，血缘交换空间将更新后的跨应用级的数据血缘树进行私钥加密后，通过消息队列同步到生态中各应用***持有血缘交换空间公钥的***，进行解密获得整个生态中的大数据血缘树，进而获得整个生态中所有应用***持有完整的跨***的大数据关系血缘树。

与现有技术相比，本发明具有以下有益效果：

1.本发明自动化数据血缘捕获：通过执行过程自动化捕获数据血缘关系，通过深度挖掘分析识别缺失值、异常值和其他数据异常实现自动化数据质量分析。

2.本发明跨***间血缘构建：从单应用血缘同步上报到跨***血缘最终同步下发，形成一个企业的血缘关系树从数据获取、跨应用血缘计算、血缘树构建到下发的完整闭环。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例提供的数据血缘关系构建流程图；

图2为本发明实施例提供的***内血缘谱系图构建流程图；

图3为本发明实施例提供的跨***血缘关系树构建流程图；

图4为本发明实施例提供的捕获钩子自动捕获的流程图；

图5为本发明实施例提供的数据血缘深度挖掘流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

需说明的是，当部件被称为“固定于”或“设置于”另一个部件，它可以直接在另一个部件上或者间接在该另一个部件上。当一个部件被称为是“连接于”另一个部件，它可以是直接或者间接连接至该另一个部件上。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例

现在大数据的环境下，很多数据的血缘关系是不清楚，而且即使有血缘，也只是***内部的，这个解决的问题主是，一个是对数据的血缘关系自动捕获，把***内部的血缘做细，然后再结合多个外部***，实现多个***之间的数据血缘关系树构建。

如图1所示，本实施例提供一种数据关系捕获及大数据关系树构建方法，包括以下步骤：

S1，将关系性数据和非关系性数据集成获取数据血缘的元数据，对元数据进行定义，基于定义的元数据创建实体；

S2，执行SQL语言触发变更组件进行元数据实体变更，捕获钩子自动捕获变更信息生成元数据变更细节，对元数据变更细节进行解析生成单***的数据血缘谱系图；

S3，将数据血缘谱系图存储至图数据库，并通过私钥进行加密，将加密数据通过消息队列同步到数据血缘交换空间，进而构建跨***的大数据血缘关系树。

具体的，本发明包括三个部分内容，步骤S1为元数据管理，步骤S2为元数据智能捕获更新，并生成数据血缘谱系图，步骤S3为单***向数据血缘交换空间同步血缘谱系图，进而构建跨***的大数据血缘树。元数据管理包括元数据集成、为元数据设置分类、标签及别名等。其中，集成的数据包括mysql、oracel、hive及hbase等其余数据，通过数据集成将已有数据集成到***。

优选地，元数据定义包括对元数据进行别名、分类及标签，其中，通过别名生成元数据的类型，通过标签与分类将元数据相互关联或将元数据和数据资产关联，按不同的分类对元数据进行管理，按分类的层次表达元数据的业务范围，通过标签和分类传播数据血缘依赖。

具体的，允许用户为元数据定义业务标签和业务分类。标签和分类通过元数据关联到库、表、列等资产，别名对元数据的类型进行标识。

优选地，元数据根据类型进行建模并表示为实体，类型通过“name”唯一标识，每个类型有一个元类型，实体是类型的特定值或特定列，实体由唯一标识符标识。

具体的，类型***为管理的元数据对象定义模型。所有元数据都使用类型进行建模，并表示为实体。类型：类型通过"name"唯一标识，每个类型有一个元类型，元类型包括：原始元类型、枚举元类型、集合元类型和复合元类型。

此外，实体和分类类型可以从其他类型扩展。实体：实体是类型的特定值或特定列，比如表就是一个实体。实体由唯一标识符(GUID)标识。此唯一标识符由服务器在定义对象时生成，并在实体的整个生命周期内保持不变。在任何时候，都可以使用其GUID访问此特定实体。元数据定义主要是对元数据进行抽象，方便统一管理各种不同类型的元数据源。标识符的定义保证元数据的唯一性。

优选地，元数据实体变更包括对元数据进行创建/变更/删除操作对元数据实体进行变更。

优选地，通过不同类型的捕获钩子自动捕获元数据的创建/更新/删除操作生成元数据变更细节的输出列和一组输入列或输入表，将输出列和一组输入列或输入表相关联生成数据血缘依赖谱系图，并将元数据变更细节信息内容推送至消息队列进行元数据的更新；其中，信息内容包括实体创建信息、实体更新信息、实体删除信息、字段创建信息、字段更新信息及字段删除信息。

具体的，铺获钩子可铺获到以下数据操作，创建数据库、创建表或视图，按选择方式创建表、数据的加载、数据的导入或导出，DMLs(***)，改变数据库，alter table，数据的年龄视图等

优选地，数据血缘谱系图的依赖类型包括简单依赖、表达式和脚本，其中，简单依赖，输出列具有与输入列相同的值，表达式，输出列在运行时由输入列上的表达式转换，脚本，输出列由用户提供的脚本转换。

优选地，将数据血缘依赖谱系图通过图形引擎持久化并生成索引，并将索引存储在搜索引擎中，搜索引擎对数据血缘关系进行深度挖掘，生成数据间的潜在联系。

具体的，如图5所示，图5为数据血缘深度挖掘流程图，通过深度挖掘分析识别缺失值、异常值和其他数据异常实现自动化数据质量分析。通过深度挖掘分析揭示数据在其生命周期中是如何演变的，它来自哪里，并预见将因未来变化而受到影响的资产。通过深度挖掘分析自动确保从为敏感的列派生的每个表或列都继承相同的分类和安全控制。

优选地，构建跨***的企业级数据血缘树的具体步骤如下：

优选地，血缘交换空间将更新后的跨应用级的数据血缘树进行私钥加密后，通过消息队列同步到生态中各应用***持有血缘交换空间公钥的***，进行解密获得整个生态中的大数据血缘树，进而获得整个生态中所有应用***持有完整的跨***的大数据关系血缘树。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及说明，对本发明进行进一步详细说明：本发明包括三个部分内容，第一部分为元数据管理，第二部分为元数据智能捕获更新，第三部分为单***向数据血缘交换空间同步血缘谱系图，进而构建跨***的大数据血缘树，整体流程如图2、图3及图4所示，步骤1：元数据集成。首先可以手工组册元数据或则直接导入已有的元数据(比如Hive元数据)，如图4所示，假设有两条元数据id，name并创建模型T1。

如图2所示，元数据管理如下：元数据对象导入***中，对导入后的元数据对象进行分类、打标签及别名等，对定义后的元数据创建实体，对实体进行变更。步骤2：执行SQL触发元数据变更，假如执行“create table t2 as select id,name from T1”，数据加工及血缘构建。假设执行一条数据处理脚本比如“create table t2 as select id,name fromT1”此时自动化捕获钩子开始捕获血缘，通过捕获钩子对元数据变更细节，变更细节包括：数据库的创建或变更，表或视图的创建或变更，传入数据，对变更细节及时解析生成数据血缘谱系图，将数据血缘谱系图存储在数据库中，然后数据库构建搜索引擎，在搜索引擎中加入挖掘组件，基于挖掘组件对数据血缘谱系图进行深度挖掘，生成更多不相关数据之间的关系。与此同时元数据变更信息通过消息队列通知更新元数据，信息内容包括实体创建信息、实体更新信息、实体删除信息、字段创建信息、字段更新信息、字段删除信息。

步骤3，经过步骤1到步骤2的数据血缘关系构建以及存储后。如图3所示，通过私钥加密，即时将加密数据通过消息队列同步到血缘交换空间，

血缘交换空间采用对应***公钥对单个***的血缘谱系数据进行解密，再整合当前最新的各个***的血缘谱系数据，进行实时计算，打通并更新***间血缘关系，进而绘制企业级大数据血缘树。

血缘交换空间将构建好的跨应用级的数据血缘树进行私钥加密后，通过消息队列，同步给生态中各应用***，持有血缘交换空间公钥的***，即可解密获得整个生态中的大数据血缘关系树。

综上所述，通过对执行过程的捕获以后生成数据血缘关系图，各应用***将血缘谱系图加密同步到血缘交换空间，血缘交换空间通过实时计算、分析，构建最新的跨***血缘关系树，并加密下发，整个过程从上报到最终下发，展示了一个完整的数据血缘从单***捕获到跨***应用实施方案。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据关系捕获及大数据关系树构建方法，其特征在于，包括以下步骤：

将关系性数据和非关系性数据集成获取数据血缘的元数据，对元数据进行定义，基于定义的元数据创建实体；其中，元数据定义包括对元数据进行别名、分类及标签，其中，通过别名生成元数据的类型，通过标签与分类将元数据相互关联或将元数据和数据资产关联，按不同的分类对元数据进行管理，按分类的层次表达元数据的业务范围，通过标签和分类传播数据血缘依赖；元数据根据类型进行建模并表示为实体，类型通过name唯一标识，每个类型有一个元类型，实体是类型的特定值或特定列，实体由唯一标识符标识；

执行SQL语言触发变更组件进行元数据实体变更，捕获钩子自动捕获变更信息生成元数据变更细节，对所述元数据变更细节进行解析生成单***的数据血缘谱系图；其中，元数据实体变更包括对元数据进行创建/变更/删除操作；通过不同类型的捕获钩子自动捕获元数据的创建/更新/删除操作生成元数据变更细节的输出列和一组输入列或输入表，将输出列和一组输入列或输入表相关联生成数据血缘依赖谱系图，并将元数据变更细节信息内容推送至消息队列进行元数据的更新；其中，信息内容包括实体创建信息、实体更新信息、实体删除信息、字段创建信息、字段更新信息及字段删除信息；

将数据血缘谱系图存储至图数据库，并通过私钥进行加密，将加密数据通过消息队列同步到数据血缘交换空间，进而构建跨***的大数据血缘关系树；其中，构建跨***的大数据血缘关系树的具体步骤如下：各应用***在血缘交换空间申请公私钥，私钥由***持有，公钥由血缘交换空间保留，用于数据解密时使用；各应用***通过自有私密钥将数据血缘谱系图进行加密，实时将加密数据通过消息队列同步到血缘交换空间；血缘交换空间采用对应***的公钥对单个***的血缘谱系数据进行解密，再根据当前最新的各个***的血缘谱系数据，进行实时计算，打通并完善***间数据血缘关系，进而绘制大数据血缘关系树。

2.根据权利要求1所述的一种数据关系捕获及大数据关系树构建方法，其特征在于，数据血缘谱系图的依赖类型包括简单依赖、表达式和脚本，其中，简单依赖，输出列具有与输入列相同的值，表达式，输出列在运行时由输入列上的表达式转换，脚本，输出列由用户提供的脚本转换。

3.根据权利要求2所述的一种数据关系捕获及大数据关系树构建方法，其特征在于，将数据血缘依赖谱系图通过图形引擎持久化并生成索引，并将索引存储在搜索引擎中，搜索引擎对数据血缘关系进行深度挖掘，生成数据间的潜在联系。

4.根据权利要求1所述的一种数据关系捕获及大数据关系树构建方法，其特征在于，血缘交换空间将更新后的跨应用级的数据血缘树进行私钥加密后，通过消息队列同步到生态中各应用***持有血缘交换空间公钥的***，进行解密获得整个生态中的大数据血缘树，进而获得整个生态中所有应用***持有完整的跨***的大数据关系血缘树。