CN111767320A - 数据血缘关系确定方法及装置 - Google Patents

数据血缘关系确定方法及装置 Download PDF

Info

Publication number
CN111767320A
CN111767320A CN202010602215.6A CN202010602215A CN111767320A CN 111767320 A CN111767320 A CN 111767320A CN 202010602215 A CN202010602215 A CN 202010602215A CN 111767320 A CN111767320 A CN 111767320A
Authority
CN
China
Prior art keywords
source system
field
system table
call
downstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010602215.6A
Other languages
English (en)
Other versions
CN111767320B (zh
Inventor
毛福林
赵船畯
高秀昕
邵雪飞
杨华
郭强
兰若倩
温真真
刘雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010602215.6A priority Critical patent/CN111767320B/zh
Publication of CN111767320A publication Critical patent/CN111767320A/zh
Application granted granted Critical
Publication of CN111767320B publication Critical patent/CN111767320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据血缘关系确定方法及装置,该方法包括:根据***间的数据流转关系,确定使用源***的下游***;根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数;根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,调用源***表的下游***表为源***表的调用表;根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数;根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系;根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。本方案可提高数据血缘关系的准确度。

Description

数据血缘关系确定方法及装置
技术领域
本发明涉及数据分析技术领域,更具体地说,涉及一种数据血缘关系确定方法及装置。
背景技术
当前企业内部***众多,数据关系复杂,如何定位数据的血缘关系已经成为数据治理平台中通常最为关心话题。数据血缘关系通常分为***内数据血缘关系和***间数据血缘关系。
***间的数据血缘关系,通常需要各个***负责人,通过手工方式维护其上游***或者下游***的***信息以及相应表结构信息。而且企业内部存在众多存量***,***之间的调用关系复杂,***上线多年,负责人员流动大,梳理***间的血缘关系需要对整个上下游***具有较强的分析能力,使得维护人员工作量繁重、效率低下。
发明内容
本发明实施例提供一种数据血缘关系确定方法,用以提高数据血缘关系的准确度,降低人员维护成本,提升工作效率,该方法包括:
根据***间的数据流转关系,确定使用源***的下游***;
根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数;
根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,其中,调用源***表的下游***表为源***表的调用表;
根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数;
根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系;
根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。
本发明实施例提供一种数据血缘关系确定装置,用以提高数据血缘关系的准确度,降低人员维护成本,提升工作效率,该装置包括:
数据流转平台,用于根据***间的数据流转关系,确定使用源***的下游***;
表数据相似度分析模块,用于根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数;
表调用关系确定模块,用于根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,其中,调用源***表的下游***表为源***表的调用表;
字段数据相似度分析模块,用于根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数;
字段调用关系确定模块,用于根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系;
***间数据血缘关系确定模块,用于根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明实施例中,通过获取***间的数据流转关系,确定使用源***的下游***;通过相似度算法,分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数,利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系,进而确定***间数据血缘关系,相较于现有技术通过人工维护***间的数据血缘关系的方式,提高了计算速度,提升数据治理速度,同时节省了计算所耗费的资源。通过相似度算法,计算相似度指数,还可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度,进而提高数据血缘关系的准确度,减少了人员维护的成本,提升了工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中数据血缘关系确定方法的流程示意图;
图2为本发明实施例中通过SimHash相似度算法确定源***表与下游***表的相似度指数的示意图;
图3为本发明实施例中通过SimHash相似度算法确定源***表字段与调用表字段的相似度指数的示意图;
图4为本发明实施例中图1所示的数据血缘关系确定方法的具体实例图;
图5为本发明实施例中数据血缘关系确定装置的结构示意图;
图6为本发明实施例中图5所示的数据血缘关系确定装置的具体实例图;
图7为本发明实施例中图6所示的数据血缘关系确定装置的另一具体实例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据血缘关系确定方法,用以数据提高血缘关系的准确度,降低人员维护成本,提升工作效率。图1为本发明实施例中数据血缘关系确定方法的流程示意图。如图1所示,本发明实施例中数据血缘关系确定方法可以包括:
步骤101,根据***间的数据流转关系,确定使用源***的下游***;
步骤102,根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数;
步骤103,根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,其中,调用源***表的下游***表为源***表的调用表;
步骤104,根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数;
步骤105,根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系;
步骤106,根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。
由图1所示流程可以得知,本发明实施例中,通过获取***间的数据流转关系,确定使用源***的下游***;通过相似度算法,分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数,利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系,进而确定***间数据血缘关系,相较于现有技术通过人工维护***间的数据血缘关系的方式,提高了计算速度,提升数据治理速度,同时节省了计算所耗费的资源。通过相似度算法,计算相似度指数,还可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度,进而提高数据血缘关系的准确度,减少了人员维护的成本,提升了工作效率。
具体实施时,首先根据***间的数据流转关系,确定使用源***的下游***。
实施例中,可以通过数据流转平台,获取***间的数据流转关系,然后根据***间的数据流转关系,确定使用源***的下游***。
实施例中,可以通过数据流转平台定时推送的源***与下游***的订阅关系,获取***间的流转关系。实施例中,当数据流转平台内新增源***时,可通过数据流转平台获取新增的订阅关系,从而获取新增的***间的数据流转关系。实施例中,数据流转平台可以根据流转关系获取源***的下传数据及下游***的订阅数据,所述下传数据包含源***的业务数据,所述订阅数据包含下游***的业务数据。
具体实施时,在确定使用源***的下游***后,可以根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数。
实施例中,可以根据源***与下游***的业务数据,确定源***表与下游***表的SimHash签名;根据源***表与下游***表的SimHash签名,计算源***表与下游***表的海明距离;根据源***表与下游***表的海明距离,确定源***表与下游***表的相似度指数。
如图2所示,图2为本发明实施例中通过SimHash相似度算法确定源***表与下游***表的相似度指数的示意图。实施例中,可以根据SimHash相似度算法计算源***表与下游***表、源***表字段与调用表字段之间的相似度指数。SimHash相似度算法通过计算确定向量的SimHash签名;通过计算两个签名的海明距离,根据海明距离判断数据的相似度,其中,海明距离越小,相似度越高。通常,对于64位的SimHash签名而言,当海明距离在3以内时,即可认为相似度较高。实施例中,还可以对表、表字段进行分词处理,通过提取表、表字段的特征向量,使得相似度指数可以更加准确。
相较于SimHash相似度算法,雅可比相似度算法在海量维度数据集下,时间和空间复杂度都非常大;余弦相似度算法由于基于向量运算,计算相对复杂,且在文本相对较少时,可能会因为一两个关键词的波动而对结果产生影响。因此本发明采用SimHash相似度算法,使用较快速的数据相似度计算方法,可以节省计算所耗费的资源。
通过使用数据相似度计算方法,确定相似度指数的方式,可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度,进而提高数据血缘关系的准确度,减少了人员维护的成本,提升了工作效率。
具体实施时,可以根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,其中,调用源***表的下游***表为源***表的调用表。
实施例中,若源***表与下游***表的相似度指数大于预设阈值,可以对源***表字段和调用表字段进行匹配,确定源***表字段和调用表字段之间的调用关系。
实施例中,若源***表与下游***表的相似度指数不大于预设阈值,则可以通过建立源***表和下游***表的聚类模型,获得源***表和下游***表之间的聚类模型预测的结果;然后根据源***表和下游***表之间的聚类模型预测的结果,获得源***表和下游***表之间的调用关系。
通过分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数,利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系,可以完全避免人工干预,提升数据治理速度。
具体实施时,可以根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数。
如图3所示,图3为本发明实施例中通过SimHash相似度算法确定源***表字段与调用表字段的相似度指数的示意图。
实施例中,可以根据源***表与调用表的业务数据,确定源***表字段与调用表字段的SimHash签名;根据源***表字段与调用表字段的SimHash签名,计算源***表字段与调用表字段的海明距离;根据源***表字段与调用表字段的海明距离,确定源***表字段与调用表字段的相似度指数。
具体实施时,可以根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系。
实施例中,若源***表字段和调用表字段的相似度指数大于预设阈值,可以对源***表字段和调用表字段进行匹配,确定源***表字段和调用表字段的之间调用关系。
实施例中,若源***表字段和调用表字段的相似度指数不大于预设阈值,可以发出匹配源***表字段和调用表字段之间的调用关系的请求消息。实施例中,开发人员可以接收匹配源***表字段和调用表字段之间的调用关系的请求消息,对无法自动进行匹配的字段进行人工匹配,进而确定源***表字段和调用表字段的之间调用关系。
具体实施时,可以根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。
图4为本发明实施例中图1所示的数据血缘关系确定方法的具体实例图,如图4所示,实施例中,本发明所述的数据血缘关系确定方法还可以包括:
步骤401,分析源***与下游***的元数据,确定***内部表的字段之间的调用关系;
步骤402,根据***内部表的字段之间的调用关系,确定***内部数据血缘关系;
步骤403,根据***内部数据血缘关系和***间数据血缘关系,建立***总体数据血缘关系。
通过结合分析元数据确定的***内部血缘关系,可以建立完整的***总体数据血缘关系,为数据治理提供了便利。
本发明实施例中还提供了一种数据血缘关系确定装置,如下面的实施例所述。由于该装置解决问题的原理与数据血缘关系确定方法相似,因此该装置的实施可以参见数据血缘关系确定方法的实施,重复之处不再赘述。
图5为本发明实施例中数据血缘关系确定装置的结构示意图,如图5所示,本发明所述数据血缘关系确定装置可以包括:
数据流转平台501,用于根据***间的数据流转关系,确定使用源***的下游***;
表数据相似度分析模块502,用于根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数;
表调用关系确定模块503,用于根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,其中,调用源***表的下游***表为源***表的调用表;
字段数据相似度分析模块504,用于根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数;
字段调用关系确定模块505,用于根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系;
***间数据血缘关系确定模块506,用于根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。
实施例中,表数据相似度分析模块502具体可以用于:
根据源***与下游***的业务数据,确定源***表与下游***表的SimHash签名;
根据源***表与下游***表的SimHash签名,计算源***表与下游***表的海明距离;
根据源***表与下游***表的海明距离,确定源***表与下游***表的相似度指数。
实施例中,表调用关系确定模块503具体可以用于:
若源***表与下游***表的相似度指数大于预设阈值,对源***表与下游***表进行匹配,确定源***表与下游***表之间的调用关系;
若源***表与下游***表的相似度指数不大于预设阈值,则通过建立源***表和下游***表的聚类模型,获得源***表和下游***表之间的聚类模型预测的结果;
根据源***表和下游***表之间的聚类模型预测的结果,确定源***表和下游***表之间的调用关系。
实施例中,字段数据相似度分析模块504具体可以用于:
根据源***表与调用表的业务数据,确定源***表字段与调用表字段的SimHash签名;
根据源***表字段与调用表字段的SimHash签名,计算源***表字段与调用表字段的海明距离;
根据源***表字段与调用表字段的海明距离,确定源***表字段与调用表字段的相似度指数。
实施例中,字段调用关系确定模块505具体可以用于:
若源***表字段和调用表字段的相似度指数大于预设阈值,对源***表字段和调用表字段进行匹配,确定源***表字段和调用表字段之间的调用关系;
若源***表字段和调用表字段的相似度指数不大于预设阈值,发出匹配源***表字段和调用表字段之间的调用关系的请求消息。
图6为本发明实施例中图5所示的数据血缘关系确定装置的具体实例图,如图6所示,实施例中,本发明所述数据血缘关系确定装置还可以包括:
元数据分析模块601,用于分析源***与下游***的元数据,确定***内部表的字段之间的调用关系;
***总体数据血缘关系确定模块602,用于根据***内部表的字段之间的调用关系,确定***内部数据血缘关系;根据***内部数据血缘关系和***间数据血缘关系,建立***总体数据血缘关系。
图7为本发明实施例中图6所示的数据血缘关系确定装置的另一具体实例图。如图7所示,实施例中,本发明所述的数据血缘关系确定装置还可以包括:
数据存储平台701,用于存储各个源***及下游***的元数据、业务数据,数据血缘关系等数据。
数据分析平台702,用于提供源***表与下游***表之间、源***表字段与调用表字段之间的相似度计算能力,同时,可以提供源***表与下游***表之间的聚类分析结果以辅助分析源***表与下游***表之间的调用关系。数据存储平台701和数据分析平台702也可包括于图5所示装置中。
其中,数据流转平台501还可以用于,将获取的各个源***的下传数据、各个下游***的订阅数据以及流转关系,传输至数据存储平台701进行存储。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据血缘关系确定方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述数据血缘关系确定方法的计算机程序。
综上所述,本发明实施例中,通过获取***间的数据流转关系,确定使用源***的下游***;通过相似度算法,分别计算源***表与下游***表、源***表字段与调用表字段的相似度指数,利用相似度指数确定源***表与下游***表之间、源***表字段与调用表字段之间的调用关系,进而确定***间数据血缘关系,相较于现有技术通过人工维护***间的数据血缘关系的方式,提高了计算速度,提升数据治理速度,同时节省了计算所耗费的资源。通过相似度算法,计算相似度指数,还可以提高获得的源***表与下游***表之间、源***表字段与调用表字段之间的调用关系的匹配精度,进而提高数据血缘关系的准确度,减少了人员维护的成本,提升了工作效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数据血缘关系确定方法,其特征在于,包括:
根据***间的数据流转关系,确定使用源***的下游***;
根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数;
根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,其中,调用源***表的下游***表为源***表的调用表;
根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数;
根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系;
根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。
2.如权利要求1所述的方法,其特征在于,根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数,包括:
根据源***与下游***的业务数据,确定源***表与下游***表的SimHash签名;
根据源***表与下游***表的SimHash签名,计算源***表与下游***表的海明距离;
根据源***表与下游***表的海明距离,确定源***表与下游***表的相似度指数。
3.如权利要求1所述的方法,其特征在于,根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,包括:
若源***表与下游***表的相似度指数大于预设阈值,对源***表与下游***表进行匹配,确定源***表与下游***表之间的调用关系;
若源***表与下游***表的相似度指数不大于预设阈值,则通过建立源***表和下游***表的聚类模型,获得源***表和下游***表之间的聚类模型预测的结果;
根据源***表和下游***表之间的聚类模型预测的结果,确定源***表和下游***表之间的调用关系。
4.如权利要求1所述的方法,其特征在于,根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数,包括:
根据源***表与调用表的业务数据,确定源***表字段与调用表字段的SimHash签名;
根据源***表字段与调用表字段的SimHash签名,计算源***表字段与调用表字段的海明距离;
根据源***表字段与调用表字段的海明距离,确定源***表字段与调用表字段的相似度指数。
5.如权利要求1所述的方法,其特征在于,根据源***表字段和调用表字段的相似度指数,确定源***表字段和调用表字段之间的调用关系,包括:
若源***表字段和调用表字段的相似度指数大于预设阈值,对源***表字段和调用表字段进行匹配,确定源***表字段和调用表字段之间的调用关系;
若源***表字段和调用表字段的相似度指数不大于预设阈值,发出匹配源***表字段和调用表字段之间的调用关系的请求消息。
6.如权利要求1所述的方法,其特征在于,还包括:
分析源***与下游***的元数据,确定***内部表的字段之间的调用关系;
根据***内部表的字段之间的调用关系,确定***内部数据血缘关系;
根据***内部数据血缘关系和***间数据血缘关系,建立***总体数据血缘关系。
7.一种数据血缘关系确定装置,其特征在于,包括:
数据流转平台,用于根据***间的数据流转关系,确定使用源***的下游***;
表数据相似度分析模块,用于根据源***与下游***的业务数据,计算源***表与下游***表的相似度指数;
表调用关系确定模块,用于根据源***表与下游***表的相似度指数,确定源***表与下游***表之间的调用关系,其中,调用源***表的下游***表为源***表的调用表;
字段数据相似度分析模块,用于根据源***表与调用表的业务数据,计算源***表字段与调用表字段的相似度指数;
字段调用关系确定模块,用于根据源***表字段与调用表字段的相似度指数,确定源***表字段与调用表字段之间的调用关系;
***间数据血缘关系确定模块,用于根据源***表与下游***表之间的调用关系、源***表字段与调用表字段之间的调用关系,确定***间数据血缘关系。
8.如权利要求7所述的装置,其特征在于,所述表数据相似度分析模块具体用于:
根据源***与下游***的业务数据,确定源***表与下游***表的SimHash签名;
根据源***表与下游***表的SimHash签名,计算源***表与下游***表的海明距离;
根据源***表与下游***表的海明距离,确定源***表与下游***表的相似度指数。
9.如权利要求7所述的装置,其特征在于,所述表调用关系确定模块具体用于:
若源***表与下游***表的相似度指数大于预设阈值,对源***表与下游***表进行匹配,确定源***表与下游***表之间的调用关系;
若源***表与下游***表的相似度指数不大于预设阈值,则通过建立源***表和下游***表的聚类模型,获得源***表和下游***表之间的聚类模型预测的结果;
根据源***表和下游***表之间的聚类模型预测的结果,确定源***表和下游***表之间的调用关系。
10.如权利要求7所述的装置,其特征在于,所述字段数据相似度分析模块具体用于:
根据源***表与调用表的业务数据,确定源***表字段与调用表字段的SimHash签名;
根据源***表字段与调用表字段的SimHash签名,计算源***表字段与调用表字段的海明距离;
根据源***表字段与调用表字段的海明距离,确定源***表字段与调用表字段的相似度指数。
11.如权利要求7所述的装置,其特征在于,所述字段调用关系确定模块具体用于:
若源***表字段和调用表字段的相似度指数大于预设阈值,对源***表字段和调用表字段进行匹配,确定源***表字段和调用表字段之间的调用关系;
若源***表字段和调用表字段的相似度指数不大于预设阈值,发出匹配源***表字段和调用表字段之间的调用关系的请求消息。
12.如权利要求7所述的装置,其特征在于,还包括:
元数据分析模块,用于分析源***与下游***的元数据,确定***内部表的字段之间的调用关系;
***总体数据血缘关系确定模块,用于根据***内部表的字段之间的调用关系,确定***内部数据血缘关系;根据***内部数据血缘关系和***间数据血缘关系,建立***总体数据血缘关系。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述数据血缘关系确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一项所述数据血缘关系确定方法的计算机程序。
CN202010602215.6A 2020-06-29 2020-06-29 数据血缘关系确定方法及装置 Active CN111767320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010602215.6A CN111767320B (zh) 2020-06-29 2020-06-29 数据血缘关系确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010602215.6A CN111767320B (zh) 2020-06-29 2020-06-29 数据血缘关系确定方法及装置

Publications (2)

Publication Number Publication Date
CN111767320A true CN111767320A (zh) 2020-10-13
CN111767320B CN111767320B (zh) 2023-08-18

Family

ID=72722524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010602215.6A Active CN111767320B (zh) 2020-06-29 2020-06-29 数据血缘关系确定方法及装置

Country Status (1)

Country Link
CN (1) CN111767320B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN112860811A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN113282678A (zh) * 2021-03-30 2021-08-20 杭州数梦工场科技有限公司 数据血缘关系展示方法及装置
CN115145919A (zh) * 2022-06-30 2022-10-04 中冶赛迪信息技术(重庆)有限公司 一种业务***间数据血缘生成方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017170459A1 (ja) * 2016-03-31 2017-10-05 スマートインサイト株式会社 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN107766376A (zh) * 2016-08-19 2018-03-06 华为技术有限公司 数据对齐方法及装置
CN108595614A (zh) * 2018-04-20 2018-09-28 成都智信电子技术有限公司 应用于his***的数据表映射方法
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置
CN109614433A (zh) * 2018-12-13 2019-04-12 杭州数梦工场科技有限公司 业务***间数据血缘的识别方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017170459A1 (ja) * 2016-03-31 2017-10-05 スマートインサイト株式会社 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN107766376A (zh) * 2016-08-19 2018-03-06 华为技术有限公司 数据对齐方法及装置
CN108932268A (zh) * 2017-05-26 2018-12-04 华为软件技术有限公司 数据处理方法及装置
CN108595614A (zh) * 2018-04-20 2018-09-28 成都智信电子技术有限公司 应用于his***的数据表映射方法
CN109614433A (zh) * 2018-12-13 2019-04-12 杭州数梦工场科技有限公司 业务***间数据血缘的识别方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN112711591B (zh) * 2020-12-31 2021-10-08 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN112860811A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN112860811B (zh) * 2021-02-05 2023-07-18 北京百度网讯科技有限公司 数据血缘关系的确定方法、装置、电子设备和存储介质
CN113282678A (zh) * 2021-03-30 2021-08-20 杭州数梦工场科技有限公司 数据血缘关系展示方法及装置
CN115145919A (zh) * 2022-06-30 2022-10-04 中冶赛迪信息技术(重庆)有限公司 一种业务***间数据血缘生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111767320B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111767320B (zh) 数据血缘关系确定方法及装置
CN112711705B (zh) 舆情数据处理方法、设备及存储介质
US20200387743A1 (en) Similarity Analysis Using Enhanced MinHash
US11023625B2 (en) Computational accelerator architecture for change control in model-based system engineering
CN107977504B (zh) 一种非对称堆芯燃料管理计算方法、装置及终端设备
CN112115105A (zh) 一种业务处理方法、装置及设备
CN111159127A (zh) 一种基于Apriori算法的日志分析的方法及装置
CN114691356A (zh) 数据并行处理方法、装置、计算机设备及可读存储介质
CN112148713B (zh) 异构数据库之间数据迁移方法及装置
US20150248467A1 (en) Real-time calculation, storage, and retrieval of information change
CN113094154A (zh) 一种基于阿里云的大数据处理方法及***
CN112037003A (zh) 文件对账处理方法及装置
CN111026736A (zh) 数据血缘管理方法及装置、数据血缘解析方法及装置
CN116303820A (zh) 标签生成方法、装置、计算机设备及介质
CN111159213A (zh) 一种数据查询方法、装置、***和存储介质
CN115269654A (zh) 一种数据缓存补充方法、装置、设备及介质
CN109829016B (zh) 一种数据同步方法及装置
CN112052341A (zh) 知识图谱剪枝方法及装置
CN111400370A (zh) 数据流通中的数据监控方法及装置、存储介质、服务器
CN112000478A (zh) 作业运行资源分配方法及装置
CN106970923B (zh) 话题检测的方法和装置
US11689432B1 (en) Feedback prioritization system
Wang et al. Hadoop Performance Tuning based on Parameter Optimization
CN108009019B (zh) 分布式数据定位实例的方法、客户端及分布式计算***
CN115905196A (zh) 应用***间差异数据重做的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant