CN111767320A

CN111767320A - 数据血缘关系确定方法及装置

Info

Publication number: CN111767320A
Application number: CN202010602215.6A
Authority: CN
Inventors: 毛福林; 赵船畯; 高秀昕; 邵雪飞; 杨华; 郭强; 兰若倩; 温真真; 刘雅
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-13
Anticipated expiration: 2040-06-29
Also published as: CN111767320B

Abstract

本发明提供一种数据血缘关系确定方法及装置，该方法包括：根据***间的数据流转关系，确定使用源***的下游***；根据源***与下游***的业务数据，计算源***表与下游***表的相似度指数；根据源***表与下游***表的相似度指数，确定源***表与下游***表之间的调用关系，调用源***表的下游***表为源***表的调用表；根据源***表与调用表的业务数据，计算源***表字段与调用表字段的相似度指数；根据源***表字段与调用表字段的相似度指数，确定源***表字段与调用表字段之间的调用关系；根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系，确定***间数据血缘关系。本方案可提高数据血缘关系的准确度。

Description

数据血缘关系确定方法及装置

技术领域

本发明涉及数据分析技术领域，更具体地说，涉及一种数据血缘关系确定方法及装置。

背景技术

当前企业内部***众多，数据关系复杂，如何定位数据的血缘关系已经成为数据治理平台中通常最为关心话题。数据血缘关系通常分为***内数据血缘关系和***间数据血缘关系。

***间的数据血缘关系，通常需要各个***负责人，通过手工方式维护其上游***或者下游***的***信息以及相应表结构信息。而且企业内部存在众多存量***，***之间的调用关系复杂，***上线多年，负责人员流动大，梳理***间的血缘关系需要对整个上下游***具有较强的分析能力，使得维护人员工作量繁重、效率低下。

发明内容

本发明实施例提供一种数据血缘关系确定方法，用以提高数据血缘关系的准确度，降低人员维护成本，提升工作效率，该方法包括：

根据***间的数据流转关系，确定使用源***的下游***；

根据源***与下游***的业务数据，计算源***表与下游***表的相似度指数；

根据源***表与下游***表的相似度指数，确定源***表与下游***表之间的调用关系，其中，调用源***表的下游***表为源***表的调用表；

根据源***表与调用表的业务数据，计算源***表字段与调用表字段的相似度指数；

根据源***表字段与调用表字段的相似度指数，确定源***表字段与调用表字段之间的调用关系；

根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系，确定***间数据血缘关系。

本发明实施例提供一种数据血缘关系确定装置，用以提高数据血缘关系的准确度，降低人员维护成本，提升工作效率，该装置包括：

数据流转平台，用于根据***间的数据流转关系，确定使用源***的下游***；

表数据相似度分析模块，用于根据源***与下游***的业务数据，计算源***表与下游***表的相似度指数；

表调用关系确定模块，用于根据源***表与下游***表的相似度指数，确定源***表与下游***表之间的调用关系，其中，调用源***表的下游***表为源***表的调用表；

字段数据相似度分析模块，用于根据源***表与调用表的业务数据，计算源***表字段与调用表字段的相似度指数；

字段调用关系确定模块，用于根据源***表字段与调用表字段的相似度指数，确定源***表字段与调用表字段之间的调用关系；

***间数据血缘关系确定模块，用于根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系，确定***间数据血缘关系。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明实施例中，通过获取***间的数据流转关系，确定使用源***的下游***；通过相似度算法，分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数，利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系，进而确定***间数据血缘关系，相较于现有技术通过人工维护***间的数据血缘关系的方式，提高了计算速度，提升数据治理速度，同时节省了计算所耗费的资源。通过相似度算法，计算相似度指数，还可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度，进而提高数据血缘关系的准确度，减少了人员维护的成本，提升了工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中数据血缘关系确定方法的流程示意图；

图2为本发明实施例中通过SimHash相似度算法确定源***表与下游***表的相似度指数的示意图；

图3为本发明实施例中通过SimHash相似度算法确定源***表字段与调用表字段的相似度指数的示意图；

图4为本发明实施例中图1所示的数据血缘关系确定方法的具体实例图；

图5为本发明实施例中数据血缘关系确定装置的结构示意图；

图6为本发明实施例中图5所示的数据血缘关系确定装置的具体实例图；

图7为本发明实施例中图6所示的数据血缘关系确定装置的另一具体实例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种数据血缘关系确定方法，用以数据提高血缘关系的准确度，降低人员维护成本，提升工作效率。图1为本发明实施例中数据血缘关系确定方法的流程示意图。如图1所示，本发明实施例中数据血缘关系确定方法可以包括：

步骤101，根据***间的数据流转关系，确定使用源***的下游***；

步骤102，根据源***与下游***的业务数据，计算源***表与下游***表的相似度指数；

步骤103，根据源***表与下游***表的相似度指数，确定源***表与下游***表之间的调用关系，其中，调用源***表的下游***表为源***表的调用表；

步骤104，根据源***表与调用表的业务数据，计算源***表字段与调用表字段的相似度指数；

步骤105，根据源***表字段与调用表字段的相似度指数，确定源***表字段与调用表字段之间的调用关系；

步骤106，根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系，确定***间数据血缘关系。

由图1所示流程可以得知，本发明实施例中，通过获取***间的数据流转关系，确定使用源***的下游***；通过相似度算法，分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数，利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系，进而确定***间数据血缘关系，相较于现有技术通过人工维护***间的数据血缘关系的方式，提高了计算速度，提升数据治理速度，同时节省了计算所耗费的资源。通过相似度算法，计算相似度指数，还可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度，进而提高数据血缘关系的准确度，减少了人员维护的成本，提升了工作效率。

具体实施时，首先根据***间的数据流转关系，确定使用源***的下游***。

实施例中，可以通过数据流转平台，获取***间的数据流转关系，然后根据***间的数据流转关系，确定使用源***的下游***。

实施例中，可以通过数据流转平台定时推送的源***与下游***的订阅关系，获取***间的流转关系。实施例中，当数据流转平台内新增源***时，可通过数据流转平台获取新增的订阅关系，从而获取新增的***间的数据流转关系。实施例中，数据流转平台可以根据流转关系获取源***的下传数据及下游***的订阅数据，所述下传数据包含源***的业务数据，所述订阅数据包含下游***的业务数据。

具体实施时，在确定使用源***的下游***后，可以根据源***与下游***的业务数据，计算源***表与下游***表的相似度指数。

实施例中，可以根据源***与下游***的业务数据，确定源***表与下游***表的SimHash签名；根据源***表与下游***表的SimHash签名，计算源***表与下游***表的海明距离；根据源***表与下游***表的海明距离，确定源***表与下游***表的相似度指数。

如图2所示，图2为本发明实施例中通过SimHash相似度算法确定源***表与下游***表的相似度指数的示意图。实施例中，可以根据SimHash相似度算法计算源***表与下游***表、源***表字段与调用表字段之间的相似度指数。SimHash相似度算法通过计算确定向量的SimHash签名；通过计算两个签名的海明距离，根据海明距离判断数据的相似度，其中，海明距离越小，相似度越高。通常，对于64位的SimHash签名而言，当海明距离在3以内时，即可认为相似度较高。实施例中，还可以对表、表字段进行分词处理，通过提取表、表字段的特征向量，使得相似度指数可以更加准确。

相较于SimHash相似度算法，雅可比相似度算法在海量维度数据集下，时间和空间复杂度都非常大；余弦相似度算法由于基于向量运算，计算相对复杂，且在文本相对较少时，可能会因为一两个关键词的波动而对结果产生影响。因此本发明采用SimHash相似度算法，使用较快速的数据相似度计算方法，可以节省计算所耗费的资源。

通过使用数据相似度计算方法，确定相似度指数的方式，可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度，进而提高数据血缘关系的准确度，减少了人员维护的成本，提升了工作效率。

具体实施时，可以根据源***表与下游***表的相似度指数，确定源***表与下游***表之间的调用关系，其中，调用源***表的下游***表为源***表的调用表。

实施例中，若源***表与下游***表的相似度指数大于预设阈值，可以对源***表字段和调用表字段进行匹配，确定源***表字段和调用表字段之间的调用关系。

实施例中，若源***表与下游***表的相似度指数不大于预设阈值，则可以通过建立源***表和下游***表的聚类模型，获得源***表和下游***表之间的聚类模型预测的结果；然后根据源***表和下游***表之间的聚类模型预测的结果，获得源***表和下游***表之间的调用关系。

通过分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数，利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系，可以完全避免人工干预，提升数据治理速度。

具体实施时，可以根据源***表与调用表的业务数据，计算源***表字段与调用表字段的相似度指数。

如图3所示，图3为本发明实施例中通过SimHash相似度算法确定源***表字段与调用表字段的相似度指数的示意图。

实施例中，可以根据源***表与调用表的业务数据，确定源***表字段与调用表字段的SimHash签名；根据源***表字段与调用表字段的SimHash签名，计算源***表字段与调用表字段的海明距离；根据源***表字段与调用表字段的海明距离，确定源***表字段与调用表字段的相似度指数。

具体实施时，可以根据源***表字段与调用表字段的相似度指数，确定源***表字段与调用表字段之间的调用关系。

实施例中，若源***表字段和调用表字段的相似度指数大于预设阈值，可以对源***表字段和调用表字段进行匹配，确定源***表字段和调用表字段的之间调用关系。

实施例中，若源***表字段和调用表字段的相似度指数不大于预设阈值，可以发出匹配源***表字段和调用表字段之间的调用关系的请求消息。实施例中，开发人员可以接收匹配源***表字段和调用表字段之间的调用关系的请求消息，对无法自动进行匹配的字段进行人工匹配，进而确定源***表字段和调用表字段的之间调用关系。

具体实施时，可以根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系，确定***间数据血缘关系。

图4为本发明实施例中图1所示的数据血缘关系确定方法的具体实例图，如图4所示，实施例中，本发明所述的数据血缘关系确定方法还可以包括：

步骤401，分析源***与下游***的元数据，确定***内部表的字段之间的调用关系；

步骤402，根据***内部表的字段之间的调用关系，确定***内部数据血缘关系；

步骤403，根据***内部数据血缘关系和***间数据血缘关系，建立***总体数据血缘关系。

通过结合分析元数据确定的***内部血缘关系，可以建立完整的***总体数据血缘关系，为数据治理提供了便利。

本发明实施例中还提供了一种数据血缘关系确定装置，如下面的实施例所述。由于该装置解决问题的原理与数据血缘关系确定方法相似，因此该装置的实施可以参见数据血缘关系确定方法的实施，重复之处不再赘述。

图5为本发明实施例中数据血缘关系确定装置的结构示意图，如图5所示，本发明所述数据血缘关系确定装置可以包括：

数据流转平台501，用于根据***间的数据流转关系，确定使用源***的下游***；

表数据相似度分析模块502，用于根据源***与下游***的业务数据，计算源***表与下游***表的相似度指数；

表调用关系确定模块503，用于根据源***表与下游***表的相似度指数，确定源***表与下游***表之间的调用关系，其中，调用源***表的下游***表为源***表的调用表；

字段数据相似度分析模块504，用于根据源***表与调用表的业务数据，计算源***表字段与调用表字段的相似度指数；

字段调用关系确定模块505，用于根据源***表字段与调用表字段的相似度指数，确定源***表字段与调用表字段之间的调用关系；

***间数据血缘关系确定模块506，用于根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系，确定***间数据血缘关系。

实施例中，表数据相似度分析模块502具体可以用于：

根据源***与下游***的业务数据，确定源***表与下游***表的SimHash签名；

根据源***表与下游***表的SimHash签名，计算源***表与下游***表的海明距离；

根据源***表与下游***表的海明距离，确定源***表与下游***表的相似度指数。

实施例中，表调用关系确定模块503具体可以用于：

若源***表与下游***表的相似度指数大于预设阈值，对源***表与下游***表进行匹配，确定源***表与下游***表之间的调用关系；

若源***表与下游***表的相似度指数不大于预设阈值，则通过建立源***表和下游***表的聚类模型，获得源***表和下游***表之间的聚类模型预测的结果；

根据源***表和下游***表之间的聚类模型预测的结果，确定源***表和下游***表之间的调用关系。

实施例中，字段数据相似度分析模块504具体可以用于：

根据源***表与调用表的业务数据，确定源***表字段与调用表字段的SimHash签名；

根据源***表字段与调用表字段的SimHash签名，计算源***表字段与调用表字段的海明距离；

根据源***表字段与调用表字段的海明距离，确定源***表字段与调用表字段的相似度指数。

实施例中，字段调用关系确定模块505具体可以用于：

若源***表字段和调用表字段的相似度指数大于预设阈值，对源***表字段和调用表字段进行匹配，确定源***表字段和调用表字段之间的调用关系；

若源***表字段和调用表字段的相似度指数不大于预设阈值，发出匹配源***表字段和调用表字段之间的调用关系的请求消息。

图6为本发明实施例中图5所示的数据血缘关系确定装置的具体实例图，如图6所示，实施例中，本发明所述数据血缘关系确定装置还可以包括：

元数据分析模块601，用于分析源***与下游***的元数据，确定***内部表的字段之间的调用关系；

***总体数据血缘关系确定模块602，用于根据***内部表的字段之间的调用关系，确定***内部数据血缘关系；根据***内部数据血缘关系和***间数据血缘关系，建立***总体数据血缘关系。

图7为本发明实施例中图6所示的数据血缘关系确定装置的另一具体实例图。如图7所示，实施例中，本发明所述的数据血缘关系确定装置还可以包括：

数据存储平台701，用于存储各个源***及下游***的元数据、业务数据，数据血缘关系等数据。

数据分析平台702，用于提供源***表与下游***表之间、源***表字段与调用表字段之间的相似度计算能力，同时，可以提供源***表与下游***表之间的聚类分析结果以辅助分析源***表与下游***表之间的调用关系。数据存储平台701和数据分析平台702也可包括于图5所示装置中。

其中，数据流转平台501还可以用于，将获取的各个源***的下传数据、各个下游***的订阅数据以及流转关系，传输至数据存储平台701进行存储。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据血缘关系确定方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述数据血缘关系确定方法的计算机程序。

综上所述，本发明实施例中，通过获取***间的数据流转关系，确定使用源***的下游***；通过相似度算法，分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数，利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系，进而确定***间数据血缘关系，相较于现有技术通过人工维护***间的数据血缘关系的方式，提高了计算速度，提升数据治理速度，同时节省了计算所耗费的资源。通过相似度算法，计算相似度指数，还可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度，进而提高数据血缘关系的准确度，减少了人员维护的成本，提升了工作效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据血缘关系确定方法，其特征在于，包括：

根据***间的数据流转关系，确定使用源***的下游***；

2.如权利要求1所述的方法，其特征在于，根据源***与下游***的业务数据，计算源***表与下游***表的相似度指数，包括：

3.如权利要求1所述的方法，其特征在于，根据源***表与下游***表的相似度指数，确定源***表与下游***表之间的调用关系，包括：

4.如权利要求1所述的方法，其特征在于，根据源***表与调用表的业务数据，计算源***表字段与调用表字段的相似度指数，包括：

5.如权利要求1所述的方法，其特征在于，根据源***表字段和调用表字段的相似度指数，确定源***表字段和调用表字段之间的调用关系，包括：

6.如权利要求1所述的方法，其特征在于，还包括：

分析源***与下游***的元数据，确定***内部表的字段之间的调用关系；

根据***内部表的字段之间的调用关系，确定***内部数据血缘关系；

根据***内部数据血缘关系和***间数据血缘关系，建立***总体数据血缘关系。

7.一种数据血缘关系确定装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述表数据相似度分析模块具体用于：

9.如权利要求7所述的装置，其特征在于，所述表调用关系确定模块具体用于：

10.如权利要求7所述的装置，其特征在于，所述字段数据相似度分析模块具体用于：

11.如权利要求7所述的装置，其特征在于，所述字段调用关系确定模块具体用于：

12.如权利要求7所述的装置，其特征在于，还包括：

元数据分析模块，用于分析源***与下游***的元数据，确定***内部表的字段之间的调用关系；

***总体数据血缘关系确定模块，用于根据***内部表的字段之间的调用关系，确定***内部数据血缘关系；根据***内部数据血缘关系和***间数据血缘关系，建立***总体数据血缘关系。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述数据血缘关系确定方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至6任一项所述数据血缘关系确定方法的计算机程序。