CN109739894B - 补充元数据描述的方法、装置、设备及存储介质 - Google Patents

补充元数据描述的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109739894B
CN109739894B CN201910014080.9A CN201910014080A CN109739894B CN 109739894 B CN109739894 B CN 109739894B CN 201910014080 A CN201910014080 A CN 201910014080A CN 109739894 B CN109739894 B CN 109739894B
Authority
CN
China
Prior art keywords
metadata
field
description
target
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910014080.9A
Other languages
English (en)
Other versions
CN109739894A (zh
Inventor
司东华
陈文浩
周可
兰冲
杨东方
罗迎宣
沈蓉
王惠平
敖林
郭腾达
覃娆
张玲
张志杰
汪亚男
邱毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910014080.9A priority Critical patent/CN109739894B/zh
Publication of CN109739894A publication Critical patent/CN109739894A/zh
Application granted granted Critical
Publication of CN109739894B publication Critical patent/CN109739894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种补充元数据描述的方法,该方法包括:获取预先保存的来源于各源数据库的全量元数据;对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;根据所述血缘图谱确定所述目标表的上游表;分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述。本发明还公开了一种补充元数据描述的装置、设备和一种存储介质。本发明实现了在补充元数据描述的过程中,减少人工干预,降低人工成本,提高整体的工作效率。

Description

补充元数据描述的方法、装置、设备及存储介质
技术领域
本发明涉及数据治理技术领域,尤其涉及补充元数据描述的方法、装置、设备及存储介质。
背景技术
元数据是用于描述数据的数据,元数据的字段描述信息是指描述元数据数据库中字段含义的信息,该信息能够辅助数据使用方更好地理解数据。在大数据平台中,有时会存在因各种原因没有创建元数据的字段描述信息的情况,这会导致第三方用数的时候无法有效理解数据,造成困扰。
现有的补充元数据字段描述主要的方案,基本是由相关开发人员进行人工参与补充,具体包括两种方案:1)开发人员通过脚本修改源数据库中的元数据描述信息,然后通过元数据管理***采集、处理后展示给用数据方。这种方案需要重新修改源数据库表结构,会增大开发过程风险,成本较高,效果较慢。2)基于元数据管理***,在元数据管理***中新增元数据管理模块,支持针对元数据层级的描述编辑与修改。这种方案不需要重新走开发流程,对现有的源***数据库无影响,然而其整个过程仍是由人工参与介入整个描述补充,人工成本高且工作效率较低。
发明内容
本发明的主要目的在于提出一种补充元数据描述的方法、装置、设备及存储介质,旨在实现在补充元数据描述的过程中,减少人工干预,降低人工成本,提高整体的工作效率。
为实现上述目的,本发明提供一种补充元数据描述的方法,所述补充元数据描述的方法包括如下步骤:
获取预先保存的来源于各源数据库的全量元数据;
对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;
从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;
根据所述血缘图谱确定所述目标表的上游表;
分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述。
优选地,所述获取预先保存的来源于各源数据库的全量元数据的步骤之前,还包括:
从预设的源数据库中拉取元数据;
将拉取到的所述元数据保存至预设的元数据资源库中。
优选地,所述对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱的步骤包括:
获取所述全量元数据的数据表类型,所述数据表类型包括大数据平台数据表和传统关系型数据表;
调用预设的血缘钩子函数以获取不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系;
调用预设的图数据库引擎,将获取到的所述不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系构建成血缘图谱。
优选地,所述分析所述上游表中的元数据字段与所述目标字段的相似度的步骤包括:
对所述上游表中的元数据字段进行去重处理;
从去重处理后的所述元数据字段中剔除预设的无效字段,得到待分析的元数据字段集;
根据预设算法,分别计算所述元数据字段集中的每个字段与所述目标字段的相似度。
优选地,所述根据预设算法,分别计算所述元数据字段集中的每个字段与所述目标字段的相似度的步骤包括:
根据编辑距离算法,分别计算所述元数据字段集中的每个字段转换成所述目标字段所需的最少编辑操作次数;
根据所述最少编辑操作次数计算所述元数据字段集中的每个字段与所述目标字段的相似度。
优选地,所述根据所述相似度对所述目标字段进行补充描述的步骤包括:
从所述元数据字段集中确定与所述目标字段的相似度最高的字段;
获取所述与所述目标字段的相似度最高的字段的字段描述信息,将所述与所述目标字段的相似度最高的字段的字段描述信息作为所述目标字段的补充描述。
优选地,所述根据所述相似度对所述目标字段进行补充描述的步骤包括:
按照所述相似度由高到低的顺序,将所述元数据字段集中的字段进行排列,得到所述目标字段的补充描述选择列表;
当接收到用户基于所述补充描述选择列表触发的选择指令时,确定用户所选择的字段;
获取用户所选择的字段的字段描述信息,将所述用户所选择的字段的字段描述信息作为所述目标字段的补充描述。
此外,为实现上述目的,本发明还提供一种补充元数据描述的装置,所述补充元数据描述的装置包括:
第一获取模块,用于获取预先保存的来源于各源数据库的全量元数据;
构建模块,用于对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;
第二获取模块,用于从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;
确定模块,用于根据所述血缘图谱确定所述目标表的上游表;
补充描述模块,用于分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述。
此外,为实现上述目的,本发明还提供一种补充元数据描述的设备,所述补充元数据描述的设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的补充元数据描述的程序,所述补充元数据描述的程序被所述处理器执行时实现如上所述的补充元数据描述的方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有补充元数据描述的程序,所述补充元数据描述的程序被处理器执行时实现如上所述的补充元数据描述的方法的步骤。
本发明获取预先保存的来源于各源数据库的全量元数据;对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;根据所述血缘图谱确定所述目标表的上游表;分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述。这种方式相比于现有技术,实现了根据不同数据表之间的血缘关系为目标字段自动补充元数据描述,从而减少了人工干预,降低了成本,提高了整体的工作效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明补充元数据描述的方法第一实施例的流程示意图;
图3为本发明实施例中元数据管理***从源数据库中拉取元数据的示意图;
图4为图2中步骤S20的细化步骤示意图;
图5为本发明实施例中目标表和上游表之间的关系示意图;
图6为对图5目标表table1中的目标字段Cust_name进行相似度分析的分析结果示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例补充元数据描述的设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及补充元数据描述的程序。
在图1所示的设备中,网络接口1004主要用于连接数据使用方,与数据使用方进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的补充元数据描述的程序,并执行下述补充元数据描述的方法各实施例中的操作。
基于上述硬件结构,提出本发明补充元数据描述的方法各个实施例。
参照图2,图2为本发明补充元数据描述的方法第一实施例的流程示意图,所述方法包括:
步骤S10,获取预先保存的来源于各源数据库的全量元数据;
本实施例补充元数据描述的方法应用于大数据平台上的元数据管理***,该元数据管理***搭载于上述补充元数据描述的设备上,其主要用于从源数据库采集元数据,并将采集到的元数据提供给元数据应用,供数据使用方使用。
在元数据管理***中,预先保存有来源于各源数据库的全量元数据。上述步骤S10之前,可以包括:从预设的源数据库中拉取元数据;将拉取到的所述元数据保存至预设的元数据资源库中,以便于后续在元数据资源库中获取预先保存的来源于各源数据库的全量元数据。
参照图3,图3为本发明实施例中元数据管理***从源数据库中拉取元数据的示意图。其中,元数据管理***包括元数据采集模块和元数据资源库,源数据库包括大数据平台数据库(如Hive、Hbase等)和分布式传统关系型数据库(如MySQL,Oracle等)。元数据采集模块可以通过ETL(Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程)定期从大数据平台数据库和传统关系型数据库中拉取元数据,然后将拉取到的元数据保存至元数据资源库中。
需要说明的是,从源数据库中拉取到的元数据包括但不限于用于描述源***(指各源数据库对应的***)的数据库集群信息、数据库信息、数据表信息以及字段信息的元数据。其中,源***的数据库集群信息可以包括集群编码、集群类型、数据源类型、所在逻辑网络区域、所在物理网络区域、IP地址、网络端口等;源***的数据库信息可以包括数据库ID、数据库名、数据源类型、集群编码、库描述信息、开发负责人等;源***的数据表信息可以包括表ID、表名称、库ID、库名称、表描述、开发负责人、修改时间等;源***的字段信息可以包括字段ID、字段名称、表名称、顺序号、数据类型、长度、是否可为空、是否索引、是否分区、字段描述等。
在本实施例中,首先获取预先保存的来源于各源数据库的全量元数据,具体地,可以从上述元数据资源库中获取预先保存的来源于各源数据库的全量元数据。
步骤S20,对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;
全量元数据包括若干不同的数据表,该步骤中,对全量元数据进行数据血缘分析,是指分析数据表之间的数据关系,包括表中数据的来源(上游血缘)和数据流向(下游血缘),最终,构建为全量元数据的不同数据表之间的血缘图谱。
具体地,参照图4,图4为图2中步骤S20的细化步骤示意图。上述步骤S20可以进一步包括:
步骤S21,获取所述全量元数据的数据表类型,所述数据表类型包括大数据平台数据表和传统关系型数据表;
步骤S22,调用预设的血缘钩子函数以获取不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系;
步骤S23,调用预设的图数据库引擎,将获取到的所述不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系构建成血缘图谱。
具体实施时,首先获取全量元数据的数据表类型,该数据表类型可以包括来源于大数据平台数据库的大数据平台数据表和来源于传统关系型数据库的传统关系型数据表。
然后,调用预设的血缘钩子函数(Lineage Hook)以获取不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系。目前实现数据流转加工主要通过Hive(基于Hadoop的一个数据仓库工具),Spark(一种通用的大数据快速处理引擎)以及Sqoop(一个用于在Hadoop和关系数据库服务器之间传输数据的工具)三种方式,因此捕获血缘主要可以通过解析hive sql、spark sql和sqoop执行过程实现:
a)Hive Lineage Hook。Hive的血缘钩子函数,通过异步捕获Hive执行SQL(Structured Query Language,结构化查询语言)语句,调用自主实现的Hive执行行为分析API(Application Programming Interface,应用程序编程接口)得到SQL的输入数据信息、输出数据信息、以及关联的任务信息;
b)Spark-SQL Lineage Hook。Spark的血缘钩子函数,通过异步获取Spark-SQL执行的SQL语句,调用自主实现的Spark SQL执行行为分析API得到SQL的输入数据信息、输出数据信息、以及关联的任务信息;
c)Sqoop Lineage Hook。Sqoop的血缘钩子函数,通过异步捕获Sqoop的执行命令,分析Sqoop执行命令的参数,得到执行命令的输入数据和输出数据相关信息、以及关联的任务的信息。
Hive和Spark-SQL对应的Lineage Hook用来捕获不同的大数据平台数据表之间的血缘关系,可选通过其中一个或者两个血缘钩子函数获取血缘关系,Sqoop Lineage Hook用来捕获大数据平台数据表与传统关系型数据表之间的血缘关系。在本实施例中,在通过上述各个血缘钩子函数获取到血缘关系之后,还可以通过大数据平台的定时调度***定期触发大数据平台的数据计算组件(MapReduce)来加工每日获取的血缘数据,加工的数据最终存储在Hive表中,其中,加工得到的每条血缘信息包含有:源表、目标表等信息,记录的格式可以为:srcTable[源表],dstTable[目标表],extral_info[关联信息])。
之后,由元数据管理***调用预设的图数据库引擎,将获取到的不同的大数据平台数据表之间的血缘关系,以及大数据平台数据表与传统关系型数据表之间的血缘关系构建成血缘图谱。构建过程为:一条血缘信息的目标表,可以作为其他血缘信息的源表,从而形成一条完整的血缘关系链,不同的血缘关系链,形成完整的血缘关系图,即血缘图谱。
步骤S30,从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;
该步骤中,从上述全量元数据中获取待补充描述的目标字段,具体地,元数据管理***可以定期,或在接收到用户的抓取指令时,从预先保存的全量元数据中抓取未描述的字段,或描述为乱码的字段作为待补充描述的目标字段,然后,确定目标字段所属的数据表作为目标表。
步骤S40,根据所述血缘图谱确定所述目标表的上游表;
该步骤中,根据上述构建的血缘图谱确定目标表的上游表,即所有包含目标表的数据来源的数据表。由于数据表的上游血缘和此表中的字段元数据有较为密切的关系,一般来说数据含义不会因为数据转移发生变更,因此针对某些没有描述的字段元数据,可以利用其上游的血缘关系做字段元数据描述的推荐补充。
步骤S50,分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述。
上游表中一般包括若干个元数据字段,该步骤中,分析上游表中的每个元数据字段与目标字段的相似度,然后根据相似度对目标字段进行补充描述。比如,可以获取上游表中与目标字段相似度最高的字段的字段信息,将该字段信息作为目标字段的补充描述,或者,获取上游表中与目标字段相似度大于或等于预设阈值的若干个字段的字段信息推荐给用户,由用户从这若干个字段信息中选取一个字段信息作为目标字段的补充描述,具体实施时可灵选择不同的补充描述方式。这种通过字段相似度对目标字段进行补充描述的方式,补充描述的准确率较高,且无需开发人员全程参与描述,只需做最后的确认即可,大大提高了整体的工作效率。
本实施例获取预先保存的来源于各源数据库的全量元数据;对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;根据所述血缘图谱确定所述目标表的上游表;分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述。这种方式相比于现有技术,实现了根据不同数据表之间的血缘关系为目标字段自动补充元数据描述,从而减少了人工干预,降低了成本,提高了整体的工作效率。
进一步地,基于本发明补充元数据描述的方法第一实施例,提出本发明补充元数据描述的方法第二实施例。
在本实施例中,所述分析所述上游表中的元数据字段与所述目标字段的相似度的步骤可以包括:对所述上游表中的元数据字段进行去重处理;从去重处理后的所述元数据字段中剔除预设的无效字段,得到待分析的元数据字段集;根据预设算法,分别计算所述元数据字段集中的每个字段与所述目标字段的相似度。
本实施例中,考虑到上游表中的元数据字段可能重复,比如一个字段可能同时存在于多个数据表中,为提高计算效率,可以先对上游表中的元数据字段进行去重处理。具体地,参照图5,图5为本发明实施例中目标表和上游表之间的关系示意图。其中table1为目标表,其中包含目标字段Cust_name,table2-table6为table1的上游表,table4和table6中都包括ID,因此可以去重仅保留一个ID字段。
然后,从去重处理后的元数据字段中剔除预设的无效字段,比如id、field、mark等常用却无实际业务含义的字段,最终得到一个待分析的元数据字段集。之后,根据预设算法,分别计算该元数据字段集中的每个字段与目标字段的相似度。
在一实施方式中,所述根据预设算法,分别计算所述元数据字段集中的每个字段与所述目标字段的相似度的步骤可以包括:根据编辑距离算法,分别计算所述元数据字段集中的每个字段转换成所述目标字段所需的最少编辑操作次数;根据所述最少编辑操作次数计算所述元数据字段集中的每个字段与所述目标字段的相似度。
具体地,相似性分析算法采用Levenshtein Distance(编辑距离)算法,该算法是指取两个字符串由一个转成另一个所需的最少编辑操作次数(编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符),编辑距离越小,两个字符串的相似度越大。本实施例中,可以根据编辑距离算法,分别计算元数据字段集中的每个字段转换成目标字段所需的最少编辑操作次数,然后根据最少编辑操作次数计算元数据字段集中的每个字段与目标字段的相似度。
当然,具体实施时也可以采用其他算法计算元数据字段集中的每个字段与目标字段的相似度,本实施例对此不作限定。
参照图6,图6为对图5目标表table1中的目标字段Cust_name进行相似度分析的分析结果示意图。通过相似度分析,可以得到元数据字段集中的Cust_name、Custname、c_name、prod_name、Prod_code和telephone与目标字段Cust_name的相似度分别为1、0.89,0.67,0.56,0.22,0.11。
在计算得到相似度之后,再根据相似度对目标字段进行补充描述。
在一实施方式中,所述根据所述相似度对所述目标字段进行补充描述的步骤包括:从所述元数据字段集中确定与所述目标字段的相似度最高的字段;获取所述与所述目标字段的相似度最高的字段的字段描述信息,将所述与所述目标字段的相似度最高的字段的字段描述信息作为所述目标字段的补充描述。
比如,在图6中可以取与目标字段Cust_name的相似度最高的字段Cust_name,并从对应的上游表中获取Cust_name的字段描述信息,将该字段描述信息作为目标字段Cust_name的补充描述。这种方式实现了补充描述信息的快速匹配。
在另一实施方式中,所述根据所述相似度对所述目标字段进行补充描述的步骤包括:按照所述相似度由高到低的顺序,将所述元数据字段集中的字段进行排列,得到所述目标字段的补充描述选择列表;当接收到用户基于所述补充描述选择列表触发的选择指令时,确定用户所选择的字段;获取用户所选择的字段的字段描述信息,将所述用户所选择的字段的字段描述信息作为所述目标字段的补充描述。
比如,图6中元数据字段集中的字段按照相似度由高到低的顺序排列,此时可将该补充描述选择列表展示给前端用户,由用户从中选择一个字段,然后,从对应的上游表中获取用户所选择的字段的字段描述信息,将该字段描述信息作为目标字段的补充描述。通过这种方式,实现了用户对补充描述信息的灵活选择,提高了对元数据进行补充描述的灵活性。
本发明还提供一种补充元数据描述的装置。本发明实施例补充元数据描述的装置包括:
第一获取模块,用于获取预先保存的来源于各源数据库的全量元数据;
构建模块,用于对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;
第二获取模块,用于从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;
确定模块,用于根据所述血缘图谱确定所述目标表的上游表;
补充描述模块,用于分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述。
进一步地,所述补充元数据描述的装置还包括:
拉取模块,用于从预设的源数据库中拉取元数据;
保存模块,用于将拉取到的所述元数据保存至预设的元数据资源库中。
进一步地,所述构建模块包括:
获取单元,用于获取所述全量元数据的数据表类型,所述数据表类型包括大数据平台数据表和传统关系型数据表;
第一调用单元,用于调用预设的血缘钩子函数以获取不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系;
第二调用单元,用于调用预设的图数据库引擎,将获取到的所述不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系构建成血缘图谱。
进一步地,所述补充描述模块还用于:
对所述上游表中的元数据字段进行去重处理;
从去重处理后的所述元数据字段中剔除预设的无效字段,得到待分析的元数据字段集;
根据预设算法,分别计算所述元数据字段集中的每个字段与所述目标字段的相似度。
进一步地,所述补充描述模块还用于:
根据编辑距离算法,分别计算所述元数据字段集中的每个字段转换成所述目标字段所需的最少编辑操作次数;
根据所述最少编辑操作次数计算所述元数据字段集中的每个字段与所述目标字段的相似度。
进一步地,所述补充描述模块还用于:
从所述元数据字段集中确定与所述目标字段的相似度最高的字段;
获取所述与所述目标字段的相似度最高的字段的字段描述信息,将所述与所述目标字段的相似度最高的字段的字段描述信息作为所述目标字段的补充描述。
进一步地,所述补充描述模块还用于:
按照所述相似度由高到低的顺序,将所述元数据字段集中的字段进行排列,得到所述目标字段的补充描述选择列表;
当接收到用户基于所述补充描述选择列表触发的选择指令时,确定用户所选择的字段;
获取用户所选择的字段的字段描述信息,将所述用户所选择的字段的字段描述信息作为所述目标字段的补充描述。
上述各程序模块所执行的操作可参照本发明补充元数据描述的方法实施例,此处不再赘述。
本发明还提供一种存储介质。
本发明存储介质上存储有补充元数据描述的程序,所述补充元数据描述的程序被处理器执行时实现如上所述的补充元数据描述的方法的步骤。
其中,在所述处理器上运行的补充元数据描述的程序被执行时所实现的方法可参照本发明补充元数据描述的方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种补充元数据描述的方法,其特征在于,所述补充元数据描述的方法包括如下步骤:
获取预先保存的来源于各源数据库的全量元数据;
对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;
从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;
根据所述血缘图谱确定所述目标表的上游表;
分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述;
所述对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱的步骤包括:
获取所述全量元数据的数据表类型,所述数据表类型包括大数据平台数据表和传统关系型数据表;
调用预设的血缘钩子函数以获取不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系;
调用预设的图数据库引擎,将获取到的所述不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系构建成血缘图谱。
2.如权利要求1所述的补充元数据描述的方法,其特征在于,所述获取预先保存的来源于各源数据库的全量元数据的步骤之前,还包括:
从预设的源数据库中拉取元数据;
将拉取到的所述元数据保存至预设的元数据资源库中。
3.如权利要求1至2中任一项所述的补充元数据描述的方法,其特征在于,所述分析所述上游表中的元数据字段与所述目标字段的相似度的步骤包括:
对所述上游表中的元数据字段进行去重处理;
从去重处理后的所述元数据字段中剔除预设的无效字段,得到待分析的元数据字段集;
根据预设算法,分别计算所述元数据字段集中的每个字段与所述目标字段的相似度。
4.如权利要求3所述的补充元数据描述的方法,其特征在于,所述根据预设算法,分别计算所述元数据字段集中的每个字段与所述目标字段的相似度的步骤包括:
根据编辑距离算法,分别计算所述元数据字段集中的每个字段转换成所述目标字段所需的最少编辑操作次数;
根据所述最少编辑操作次数计算所述元数据字段集中的每个字段与所述目标字段的相似度。
5.如权利要求3所述的补充元数据描述的方法,其特征在于,所述根据所述相似度对所述目标字段进行补充描述的步骤包括:
从所述元数据字段集中确定与所述目标字段的相似度最高的字段;
获取所述与所述目标字段的相似度最高的字段的字段描述信息,将所述与所述目标字段的相似度最高的字段的字段描述信息作为所述目标字段的补充描述。
6.如权利要求3所述的补充元数据描述的方法,其特征在于,所述根据所述相似度对所述目标字段进行补充描述的步骤包括:
按照所述相似度由高到低的顺序,将所述元数据字段集中的字段进行排列,得到所述目标字段的补充描述选择列表;
当接收到用户基于所述补充描述选择列表触发的选择指令时,确定用户所选择的字段;
获取用户所选择的字段的字段描述信息,将所述用户所选择的字段的字段描述信息作为所述目标字段的补充描述。
7.一种补充元数据描述的装置,其特征在于,所述补充元数据描述的装置包括:
第一获取模块,用于获取预先保存的来源于各源数据库的全量元数据;
构建模块,用于对所述全量元数据进行数据血缘分析,以构建所述全量元数据的不同数据表之间的血缘图谱;
第二获取模块,用于从所述全量元数据中获取待补充描述的目标字段,并确定所述目标字段所属的目标表;
确定模块,用于根据所述血缘图谱确定所述目标表的上游表;
补充描述模块,用于分析所述上游表中的元数据字段与所述目标字段的相似度,根据所述相似度对所述目标字段进行补充描述;
所述构建模块包括:
获取单元,用于获取所述全量元数据的数据表类型,所述数据表类型包括大数据平台数据表和传统关系型数据表;
第一调用单元,用于调用预设的血缘钩子函数以获取不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系;
第二调用单元,用于调用预设的图数据库引擎,将获取到的所述不同的大数据平台数据表之间的血缘关系,以及所述大数据平台数据表与所述传统关系型数据表之间的血缘关系构建成血缘图谱。
8.一种补充元数据描述的设备,其特征在于,所述补充元数据描述的设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的补充元数据描述的程序,所述补充元数据描述的程序被所述处理器执行时实现如权利要求1至6中任一项所述的补充元数据描述的方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有补充元数据描述的程序,所述补充元数据描述的程序被处理器执行时实现如权利要求1至6中任一项所述的补充元数据描述的方法的步骤。
CN201910014080.9A 2019-01-04 2019-01-04 补充元数据描述的方法、装置、设备及存储介质 Active CN109739894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910014080.9A CN109739894B (zh) 2019-01-04 2019-01-04 补充元数据描述的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910014080.9A CN109739894B (zh) 2019-01-04 2019-01-04 补充元数据描述的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109739894A CN109739894A (zh) 2019-05-10
CN109739894B true CN109739894B (zh) 2022-12-09

Family

ID=66363782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910014080.9A Active CN109739894B (zh) 2019-01-04 2019-01-04 补充元数据描述的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109739894B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347882A (zh) * 2019-06-27 2019-10-18 北京明略软件***有限公司 数据的血缘分析方法及装置、存储介质和电子装置
CN110442604B (zh) * 2019-07-11 2022-03-11 新华三大数据技术有限公司 数据流向查询方法、抽取方法、处理方法及相关装置
CN110399423A (zh) * 2019-07-24 2019-11-01 北京明略软件***有限公司 元数据血缘关系的处理方法及装置、存储介质和电子装置
CN110647564B (zh) * 2019-08-14 2023-11-24 中国平安财产保险股份有限公司 Hive建表方法、电子装置及计算机可读存储介质
CN110827934B (zh) * 2019-08-19 2023-03-28 医渡云(北京)技术有限公司 一种crf的监查方法及装置
CN112395287A (zh) * 2019-08-19 2021-02-23 北京国双科技有限公司 表格分类方法、表格创建方法、装置、设备和介质
CN111046242B (zh) * 2019-11-27 2023-09-26 支付宝(杭州)信息技术有限公司 数据处理方法、装置、设备及介质
CN112988698A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 一种数据处理方法以及装置
CN110968592B (zh) * 2019-12-06 2023-11-21 深圳前海环融联易信息科技服务有限公司 元数据采集方法、装置、计算机设备及计算机可读存储介质
CN111026736B (zh) * 2019-12-13 2024-03-12 中盈优创资讯科技有限公司 数据血缘管理方法及装置、数据血缘解析方法及装置
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN111782629B (zh) * 2020-06-23 2024-05-17 京东科技控股股份有限公司 一种特征加工脚本生成方法及装置
CN111488363B (zh) * 2020-06-28 2020-10-02 平安国际智慧城市科技股份有限公司 数据处理方法、装置、电子设备及介质
CN112100201B (zh) * 2020-09-30 2024-02-06 东莞盟大集团有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112328599A (zh) * 2020-11-12 2021-02-05 杭州数梦工场科技有限公司 基于元数据的字段血缘分析方法及装置
CN114691786A (zh) * 2020-12-30 2022-07-01 中兴通讯股份有限公司 数据血缘关系的确定方法及装置、存储介质、电子装置
CN112711591B (zh) * 2020-12-31 2021-10-08 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN114840563B (zh) * 2021-02-01 2024-05-03 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN112817984B (zh) * 2021-02-22 2023-10-20 杭州数梦工场科技有限公司 数据处理方法及装置、数据来源获取方法及装置
CN113111636B (zh) * 2021-05-17 2024-04-12 京东科技控股股份有限公司 一种数据唯一性标准认定方法和装置
CN113626438B (zh) * 2021-08-12 2024-04-30 深圳平安智汇企业信息管理有限公司 一种数据表管理的方法、装置、计算机设备及存储介质
CN116484084B (zh) * 2023-06-21 2023-11-17 广州信安数据有限公司 基于应用信息挖掘的元数据血缘分析方法、介质及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104169912A (zh) * 2012-03-27 2014-11-26 株式会社东芝 信息处理终端和方法,以及信息管理设备和方法
CN104424269A (zh) * 2013-08-30 2015-03-18 中国电信股份有限公司 数据血统分析方法与装置
CN105787051A (zh) * 2016-02-26 2016-07-20 广州品唯软件有限公司 一种基于元数据模型的分析方法及装置
CN106709024A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 基于血缘分析进行数据表溯源的方法及装置
CN108197182A (zh) * 2017-12-25 2018-06-22 百味云科技股份有限公司 一种数据图谱分析***以及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104169912A (zh) * 2012-03-27 2014-11-26 株式会社东芝 信息处理终端和方法,以及信息管理设备和方法
CN104424269A (zh) * 2013-08-30 2015-03-18 中国电信股份有限公司 数据血统分析方法与装置
CN105787051A (zh) * 2016-02-26 2016-07-20 广州品唯软件有限公司 一种基于元数据模型的分析方法及装置
CN106709024A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 基于血缘分析进行数据表溯源的方法及装置
CN108197182A (zh) * 2017-12-25 2018-06-22 百味云科技股份有限公司 一种数据图谱分析***以及方法

Also Published As

Publication number Publication date
CN109739894A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109739894B (zh) 补充元数据描述的方法、装置、设备及存储介质
CN110908997B (zh) 数据血缘构建方法、装置、服务器及可读存储介质
CN107784026B (zh) 一种etl数据处理方法及装置
JP5298117B2 (ja) 分散コンピューティングにおけるデータマージング
US10102039B2 (en) Converting a hybrid flow
EP3343411A1 (en) Sql auditing method and apparatus, server and storage device
CN109376196B (zh) 一种redo日志批量同步方法及装置
CN107506383B (zh) 一种审计数据处理方法和计算机设备
CN108829884B (zh) 数据映射方法及装置
CN106557307B (zh) 业务数据的处理方法及处理***
CN110851511A (zh) 数据同步的方法及装置
CN109471893B (zh) 网络数据的查询方法、设备及计算机可读存储介质
CN111008020A (zh) 将逻辑表达式解析为通用查询语句的方法
KR20150017052A (ko) 워크플로우의 실행 방법 및 시스템
CN111159268B (zh) 一种ETL流程在Spark集群中运行的方法和装置
CN113268500A (zh) 业务处理方法、装置及电子设备
CN113051460A (zh) 基于Elasticsearch的数据检索方法、***、电子设备及存储介质
CN115470191A (zh) 数据库更新***、方法及相应计算机设备和存储介质
CN113901021A (zh) 用于多版本数据库的升级脚本生成方法、装置与电子设备
CN113535481A (zh) 数据的回溯方法、装置和非易失性计算机可读存储介质
CN110188106B (zh) 一种数据管理方法和装置
CN114385173A (zh) 编译方法、装置、设备及存储介质
CN116775599A (zh) 数据迁移方法、装置、电子设备、存储介质
CN112835932B (zh) 业务表的批量处理方法及装置、非易失性存储介质
US11681721B2 (en) Systems and methods for spark lineage data capture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant