CN109710703A - 一种血缘关系网络的生成方法及装置 - Google Patents

一种血缘关系网络的生成方法及装置 Download PDF

Info

Publication number
CN109710703A
CN109710703A CN201910005435.8A CN201910005435A CN109710703A CN 109710703 A CN109710703 A CN 109710703A CN 201910005435 A CN201910005435 A CN 201910005435A CN 109710703 A CN109710703 A CN 109710703A
Authority
CN
China
Prior art keywords
metadata
goal task
database
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910005435.8A
Other languages
English (en)
Inventor
方圆
姜严
李恩贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SF Intra City Technology Co Ltd
Original Assignee
Beijing SF Intra City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SF Intra City Technology Co Ltd filed Critical Beijing SF Intra City Technology Co Ltd
Priority to CN201910005435.8A priority Critical patent/CN109710703A/zh
Publication of CN109710703A publication Critical patent/CN109710703A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据处理技术领域,具体而言,涉及一种血缘关系网络的生成方法及装置。其中,该方法包括:获取目标任务的任务信息和与目标任务相对应的数据库的元数据;基于任务信息,确定目标任务对应的语法树;基于语法树和元数据,生成数据库中数据之间的血缘关系网络。采用这种方式,本申请实施例通过获取的目标任务的任务信息,可以确定目标任务对应的语法树,进而基于语法树和获取的元数据,可以生成数据库中数据之间的血缘关系网络,不仅可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘。

Description

一种血缘关系网络的生成方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种血缘关系网络的生成方法及装置。
背景技术
元数据管理***就是建立一套行之有效的规范以及该规范的管控体系,实现从管理到查询到综合分析的全面管控。具体地,元数据管理***可以用于元数据的展示、分析数据的血缘关系、追溯数据的传递过程以及数据演化逻辑等,通过数据的血缘关系,可以更好地管理数据库表,当上游的表结构发生变更时,能利用血缘关系得到对下游表结构的影响,进而可以提升数据的可维护性。
但是,目前的元数据管理***只能分析数据表之间的血缘关系,对于追踪字段之间的血缘关系以及同步数据之间的依赖关系还存在困难。
发明内容
有鉴于此,本申请实施例的目的在于提供一种血缘关系网络的生成方法及装置,可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘。
主要包括以下几个方面:
第一方面,本申请实施例提供了一种血缘关系网络的生成方法,所述方法包括:
获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据;
基于所述任务信息,确定所述目标任务对应的语法树;
基于所述语法树和所述元数据,生成所述数据库中数据之间的血缘关系网络。
在一些实施例中,所述获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据之后,还包括:
将所述元数据的数据信息转换成标准格式;
其中,所述数据信息包括以下信息中的至少一种:所述元数据所属的集群信息;所述元数据所属的数据库信息;所述元数据所属的表存储架构关系信息;所述元数据所属的表结构信息;所述元数据所属的字段信息;所述元数据所属的索引信息。
在一些实施例中,所述基于所述任务信息,确定所述目标任务对应的语法树,包括:
基于所述任务信息,确定所述目标任务对应的文本语句;
基于所述文本语句,确定所述目标任务对应的语法树。
在一些实施例中,所述任务信息包括以下信息中的至少一种:
所述目标任务的调度时间;所述目标任务相对应的数据库中的元数据的对应关系;所述目标任务的调度方式;所述目标任务的任务内容。
在一些实施例中,所述基于所述语法树和所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络,包括:
将所述元数据进行分段,得到分段后的所述元数据;
根据所述语法树中的节点信息和分段后的的所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络。
在一些实施例中,所述数据库包括源数据库和目标数据库;
所述节点信息包括以下信息中的至少一种:源数据库中每个元数据所属的库名;源数据库中每个元数据所属的表名;源数据库中每个元数据所属的字段名;目标数据库中每个元数据所属的库名;目标数据库中每个元数据所属表名;目标数据库中每个元数据所属字段名;
其中,所述元数据是来自所述源数据库和所述目标数据库中的数据。
第二方面,本申请实施例提供了一种血缘关系网络的生成装置,所述装置包括:
获取模块,用于获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据;
确定模块,用于基于所述任务信息,确定所述目标任务对应的语法树;
生成模块,用于基于所述语法树和所述元数据,生成所述数据库中数据之间的血缘关系网络。
在一些实施例中,所述装置还包括:
处理模块,用于将所述元数据的数据信息转换成标准格式;
其中,所述数据信息包括以下信息中的至少一种:所述元数据所属的集群信息;所述元数据所属的数据库信息;所述元数据所属的表存储架构关系信息;所述元数据所属的表结构信息;所述元数据所属的字段信息;所述元数据所属的索引信息。
在一些实施例中,所述确定模块,具体用于根据以下步骤确定所述目标任务对应的语法树:
基于所述任务信息,确定所述目标任务对应的文本语句;
基于所述文本语句,确定所述目标任务对应的语法树。
在一些实施例中,所述任务信息包括以下信息中的至少一种:
所述目标任务的调度时间;所述目标任务相对应的数据库中的元数据的对应关系;所述目标任务的调度方式;所述目标任务的任务内容。
在一些实施例中,所述生成模块,具体用于根据以下步骤生成所述数据库中数据之间的血缘关系网络:
将所述元数据进行分段,得到分段后的所述元数据;
根据所述语法树中的节点信息和分段后的的所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络。
在一些实施例中,所述数据库包括源数据库和目标数据库;
所述节点信息包括以下信息中的至少一种:源数据库中每个元数据所属的库名;源数据库中每个元数据所属的表名;源数据库中每个元数据所属的字段名;目标数据库中每个元数据所属的库名;目标数据库中每个元数据所属表名;目标数据库中每个元数据所属字段名;
其中,所述元数据是来自所述源数据库和所述目标数据库中的数据。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面或第一方面任一种可能的实施方式中所述的血缘关系网络的生成方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面任一种可能的实施方式中所述的血缘关系网络的生成方法的步骤。
基于上述任一方面,本申请实施例提供的血缘关系网络的生成方案,通过获取的目标任务的任务信息,可以确定目标任务对应的语法树,进而基于语法树和获取的元数据,可以生成数据库中数据之间的血缘关系网络,不仅可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种血缘关系网络的生成方法的流程图;
图2示出了本申请实施例所提供的一种血缘关系网络的生成方法的流程图;
图3示出了本申请实施例所提供的一种血缘关系网络的生成装置的功能模块图之一;
图4示出了本申请实施例所提供的一种血缘关系网络的生成装置的功能模块图之二;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请方案可以通过元数据管理***实施,为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“血缘关系网络的生成”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机存储介质可以应用于任何需要生成血缘关系网络的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的方法生成血缘关系网络的方案均在本申请保护范围内。
随着经营分析***规模不断扩大,***所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息,但也同时提高了***的数据管理难度。元数据管理解决的问题就是如何把业务***中的数据分门别类地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质量监控提供基础素材。具体地,元数据管理***可以用于元数据的展示、分析数据的血缘关系、追溯数据的传递过程以及数据演化逻辑等,通过数据的血缘关系,可以更好地管理数据库表,当上游的表结构发生变更时,能利用血缘关系得到对下游表结构的影响,进而可以提升数据的可维护性。
值得注意的是,在本申请之前,目前的元数据管理***只能分析数据表之间的血缘关系,对于追踪字段之间的血缘关系以及同步数据之间的依赖关系还存在困难。
针对上述问题,本申请实施例提供的血缘关系网络的生成方法及装置,通过获取的目标任务的任务信息,可以确定目标任务对应的语法树,进而基于语法树和获取的元数据,可以生成数据库中数据之间的血缘关系网络,不仅可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘。
为便于对本申请进行理解,下面结合具体实施例对本申请提供的技术方案进行详细说明。
参见图1所示,执行所述血缘关系网络的生成方法的设备可以是元数据管理***,下面从执行主体为元数据管理***的角度,对本申请实施例一所提供的血缘关系网络的生成方法加以说明。本申请实施例提供的一种血缘关系网络的生成方法的包括以下步骤:
S101:获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据。
在具体实施中,可以每隔预设时间周期或实时从数据调度平台中获取目标任务的任务信息,可以从与目标任务相对应的数据库中获取元数据。例如,目标任务为将在线集群的数据传输至离线集群,并对传输至离线集群的数据进行计算并产生离线结果表,则与该目标任务相对应的数据库为在线集群的数据库和离线集群的数据库。
其中,预设时间周期由工作人员根据实际需要在元数据管理***中进行设置,也可以采用元数据管理***默认的采集周期,还可以通过元数据管理***来更改预设时间周期。
需要说明的是,数据调度平台用于提交各种数据处理任务(目标任务)。
另外,元数据(Metadata),又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
S102:基于所述任务信息,确定所述目标任务对应的语法树。
在具体实施中,可以对目标任务的任务信息进行解析,得到该目标任务对应的语法树。
这里,语法树是句子结构的图形表示,它代表了句子的推导结果,有利于理解句子语法结构的层次,简单说,语法树就是按照某一规则进行推导时所形成的树。
S103:基于所述语法树和所述元数据,生成所述数据库中数据之间的血缘关系网络。
在具体实施中,在得到目标任务对应的语法树之后,将该目标任务对应的语法树与该目标任务相对应的数据库的元数据进行关联,并将元数据之间的血缘关系用表结构进行存储,进而可以生成数据库中数据之间的血缘关系网络。
本申请实施例提供的血缘关系网络的生成方法,通过获取的目标任务的任务信息,可以确定目标任务对应的语法树,进而基于语法树和获取的元数据,可以生成数据库中数据之间的血缘关系网络,不仅可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘。
一种可能的实施方式中,参见图2所示,本申请实施例提供了一种血缘关系网络的生成方法的流程图,该方法包括以下步骤:
S201:获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据。
在具体实施中,可以对目标任务的任务信息进行解析,得到该目标任务对应的语法树。
S202:将所述元数据的数据信息转换成标准格式。
这里,所述数据信息包括以下信息中的至少一种:所述元数据所属的集群信息;所述元数据所属的数据库信息;所述元数据所属的表存储架构关系信息;所述元数据所属的表结构信息;所述元数据所属的字段信息;所述元数据所属的索引信息。
在具体实施中,为了便于对数据库中元数据之间进行血缘分析,需要同步数据库的元数据,即将元数据处理成可供血缘分析的数据格式,具体地,将元数据的所属的集群信息、数据库信息、表存储架构关系信息、表结构信息、字段信息以及索引信息等信息进行同步。
S203:基于所述任务信息,确定所述目标任务对应的语法树。
在具体实施中,可以对目标任务的任务信息进行解析,得到该目标任务对应的语法树。
S204:基于所述语法树和所述元数据,生成所述数据库中数据之间的血缘关系网络。
在具体实施中,在得到目标任务对应的语法树之后,将该目标任务对应的语法树与该目标任务相对应的数据库的元数据进行关联,并将元数据之间的血缘关系用表结构进行存储,进而可以生成数据库中数据之间的血缘关系网络。
本申请实施例,通过获取的目标任务的任务信息,可以确定目标任务对应的语法树,进而基于语法树和获取的经过同步处理的元数据,可以生成数据库中数据之间的血缘关系网络,不仅可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘。
一种可能的实施方式中,S203中所述基于所述任务信息,确定所述目标任务对应的语法树,包括以下步骤:
步骤一:基于所述任务信息,确定所述目标任务对应的文本语句;
在具体实施中,在获取到目标任务的任务信息之后,对该任务信息进行信息提取,提取出该目标任务使用的文本语句,其中文本语句可以为SQL语句。
这里,SQL语句即结构化查询语言(Structured Query Language),简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库***。
步骤二:基于所述文本语句,确定所述目标任务对应的语法树。
在具体实施中,使用元数据管理***中数据仓库工具(Hive)自带的语法树构建函数,实现对目标任务使用的SQL语句进行处理后得到的该目标任务对应的语法树,每一条SQL语句可以对应确定一个语法树,多条SQL语句可以确定多个语法树。
这里,Hive语法树构建函数可以提供对SQL进行语法树解析的功能。
本申请实施例,通过目标任务对应的任务信息,可以确定该目标任务使用的核心SQL语句,进而通过该SQL语句,可以确定该目标任务对应的语法树,进而还可以通过数据仓库工具对该语法树进行解析,可以得到字段间的血缘关系。
一种可能的实施方式中,所述任务信息包括以下信息中的至少一种:
所述目标任务的调度时间;所述目标任务相对应的数据库中的元数据的对应关系;所述目标任务的调度方式;所述目标任务的任务内容。
这里,数据调度平台中存储了目标任务对应的任务信息,例如目标任务为对传输到离线集群的数据进行计算并产出离线的结果表,目标任务对应的任务信息为结果表的信息,包括目标任务的调度时间、依赖关系、调度方式、任务详情、调度详情等内容,可以通过提取任务详情,从中抽取计算过程使用的核心SQL语句并进行存储。
一种可能的实施方式中,S204中所述基于所述语法树和所述元数据,生成所述数据库中数据之间的血缘关系网络,包括以下步骤:
步骤a:将所述元数据进行分段,得到分段后的所述元数据;
步骤b:根据所述语法树中的节点信息和分段后的的所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络。
在具体实施中,将语法树的节点信息和经过处理得到的字段粒度的元数据的所有字段信息进行关联,并将各字段之间的血缘关系用表结构存储起来,可以构建出完整的血缘关系网络。
这里,以与目标任务相对应的数据库为在线集群下的数据库为例,其中,在线集群下的数据库中包括各种数据表,而各数据表中有详细字段信息,可以将该数据库中数据的元数据进行处理成字段粒度,具体地,可以将每一个字段梳理成一条数据库信息,并将此字段的数据类型、注释、所属表、所属数据库、所属集群等内容分别用一个字段存储,供后续使用。
一种可能的实施方式中,所述数据库包括源数据库和目标数据库;
所述节点信息包括以下信息中的至少一种:源数据库中每个元数据所属的库名;源数据库中每个元数据所属的表名;源数据库中每个元数据所属的字段名;目标数据库中每个元数据所属的库名;目标数据库中每个元数据所属表名;目标数据库中每个元数据所属字段名;
其中,所述元数据是来自所述源数据库和所述目标数据库中的数据。
这里,与目标任务相对应的数据库包括源数据库和目标数据库,例如,目标任务为将在线集群的数据传输至离线集群,并对传输至离线集群的数据进行计算并产生离线结果表,则与该源数据库为在线集群的数据库和目标数据库为离线集群的数据库。
还需要说明的是,通过对语法树中的关键节点进行解析,可以得到SQL语句的源数据所属的库名、表名、字段名,目标数据所属的库名、表名、字段名。例如:通过找到TOK_CREATETABLE、TOK_TAB关键节点,并分析子节点,可以找到目标数据的库名、表名,通过找到TOK_TABREF关键节点,并分析子节点,找到源数据的库名、表名等。
本申请实施例,通过数据仓库工具对语法树进行解析,可以得到字段间的血缘关系;通过定期同步源数据库的元数据和目标数据库的元数据,并从数据平台调度中获取目标任务的任务信息,可以同步源数据库中元数据和目标数据库中元数据的依赖关系。
一种具体的实施方式中,研发同学甲对项目A做了一些复杂的离线数据统计工作,他通过数据调度平台提交各种数据处理的目标任务,目标任务如:将数据从在线集群传输到离线集群,并对传输到离线集群的数据进行计算产出离线的结果表等。
本申请提供的元数据管理***,首先,通过定期获取数据调度平台中的目标任务的任务信息,以及在线、离线库元数据;进一步地,将任务信息、在线元数据和离线元数据同步到***中;再进一步地,通过对同步到的任务信息进行预处理得到目标任务使用的核心SQL语句,并进行存储;再进一步地,通过对同步的在线元数据、离线元数据对进行处理,得到当前在线库和离线库的所有表的元数据得数据信息,并将该数据信息处理到字段粒度,每个字段存储为一条数据。本***利用自带的语法树构建函数实现对得到的核心SQL语句进行的解析,得到目标任务对应的语法树,并对语法树进行语法分析,结合元数据预处理后的字段粒度的元数据信息,生成的最终的血缘关系网络。
这样,当研发或产品同学乙希望知道结果表中某字段是从那些源表的字段得到的,可以直接利用血缘网络得到血缘关系,而不必通过多方沟通知道计算逻辑。
这样,当研发同学丙接到了新的业务需求后,需要改变某在线字段的类型,但字段类型改变可能影响其他同学的离线数据统计工作,他希望知道目前此字段的使用情况,可以直接利用血缘网络得到血缘关系,自行评估影响,而不必多方沟通,找到所有做过离线数据统计工作的同学,询问是否使用了此字段。
这样,当项目A下线后,研发同学丁需要清理此项目的数据库表,在线库表随着业务下线可以直接清理,但还需要评估是否还有其他离线库表依赖相关在线库表,此时通过血缘网络得到血缘关系,找到所有下游依赖,逐步清理相应的数据调度任务和下游离线表即可。
基于同一申请构思,本申请实施例还提供了一种与血缘关系网络的生成方法对应的血缘关系网络的生成装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例中的血缘关系网络的生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图3所示,为本申请实施例提供的一种血缘关系网络的生成装置300的功能模块图之一,装置300包括:
获取模块310,用于获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据;
确定模块320,用于基于所述任务信息,确定所述目标任务对应的语法树;
生成模块330,用于基于所述语法树和所述元数据,生成所述数据库中数据之间的血缘关系网络。
一种可能的实施方式中,参见图4所示,为本申请实施例提供的一种血缘关系网络的生成装置300的功能模块图之二,装置300还包括:
处理模块340,用于将所述元数据的数据信息转换成标准格式;
其中,所述数据信息包括以下信息中的至少一种:所述元数据所属的集群信息;所述元数据所属的数据库信息;所述元数据所属的表存储架构关系信息;所述元数据所属的表结构信息;所述元数据所属的字段信息;所述元数据所属的索引信息。
一种可能的实施方式中,所述确定模块320,具体用于根据以下步骤确定所述目标任务对应的语法树:
基于所述任务信息,确定所述目标任务对应的文本语句;
基于所述文本语句,确定所述目标任务对应的语法树。
一种可能的实施方式中,所述任务信息包括以下信息中的至少一种:
所述目标任务的调度时间;所述目标任务相对应的数据库中的元数据的对应关系;所述目标任务的调度方式;所述目标任务的任务内容。
一种可能的实施方式中,所述生成模块330,具体用于根据以下步骤生成所述数据库中数据之间的血缘关系网络:
将所述元数据进行分段,得到分段后的所述元数据;
根据所述语法树中的节点信息和分段后的的所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络。
一种可能的实施方式中,所述数据库包括源数据库和目标数据库;
所述节点信息包括以下信息中的至少一种:
源数据库中每个元数据所属的库名;源数据库中每个元数据所属的表名;源数据库中每个元数据所属的字段名;目标数据库中每个元数据所属的库名;目标数据库中每个元数据所属表名;目标数据库中每个元数据所属字段名;
其中,所述元数据是来自所述源数据库和所述目标数据库中的数据。
本申请实施例提供的血缘关系网络的生成300,通过获取模块310获取的目标任务的任务信息,可以通过确定模块320确定目标任务对应的语法树,进而基于语法树和获取的元数据,可以通过生成模块330生成数据库中数据之间的血缘关系网络,不仅可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘。
基于同一申请构思,参见图5所示,为本申请实施例提供的一种电子设备500的结构示意图,包括:处理器510、存储器520、和总线530。其中,存储器520存储有处理器510可执行的机器可读指令,当电子设备500运行时,处理器510与存储器520之间通过总线530通信,该机器可读指令被处理器510执行时执行以下指令:
获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据;
基于所述任务信息,确定所述目标任务对应的语法树;
基于所述语法树和所述元数据,生成所述数据库中数据之间的血缘关系网络。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述实施例中提供的血缘关系网络的生成方法的步骤。
具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等,所述存储介质上的计算机程序被运行时,能够执行上述血缘关系网络的生成方法,不仅可以分析数据库中数据之间的血缘关系,还可以追踪到它们之间的字段血缘,并且可以同步数据之间的依赖关系。
基于同一申请构思,本申请实施例还提供了一种计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行上述血缘关系网络的生成方法的步骤,具体实现可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种血缘关系网络的生成方法,其特征在于,所述方法包括:
获取目标任务的任务信息和与所述目标任务相对应的数据库中的元数据;
基于所述任务信息,确定所述目标任务对应的语法树;
基于所述语法树和所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络。
2.根据权利要求1所述的方法,其特征在于,所述获取目标任务的任务信息和与所述目标任务相对应的数据库中的元数据之后,还包括:
将所述元数据的数据信息转换成标准格式;
其中,所述数据信息包括以下信息中的至少一种:所述元数据所属的集群信息;所述元数据所属的数据库信息;所述元数据所属的表存储架构关系信息;所述元数据所属的表结构信息;所述元数据所属的字段信息;所述元数据所属的索引信息。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述任务信息,确定所述目标任务对应的语法树,包括:
基于所述任务信息,确定所述目标任务对应的文本语句;
基于所述文本语句,确定所述目标任务对应的语法树。
4.根据权利要求1至3任一所述的方法,其特征在于,所述任务信息包括以下信息中的至少一种:
所述目标任务的调度时间;所述目标任务相对应的数据库中的元数据的对应关系;所述目标任务的调度方式;所述目标任务的任务内容。
5.根据权利要求1所述的方法,其特征在于,所述基于所述语法树和所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络,包括:
将所述元数据进行分段,得到分段后的所述元数据;
根据所述语法树中的节点信息和分段后的的所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络。
6.根据权利要求5所述的方法,其特征在于,所述数据库包括源数据库和目标数据库;
所述节点信息包括以下信息中的至少一种:源数据库中每个元数据所属的库名;源数据库中每个元数据所属的表名;源数据库中每个元数据所属的字段名;目标数据库中每个元数据所属的库名;目标数据库中每个元数据所属表名;目标数据库中每个元数据所属字段名;
其中,所述元数据是来自所述源数据库和所述目标数据库中的数据。
7.一种血缘关系网络的生成装置,其特征在于,所述装置包括:
获取模块,用于获取目标任务的任务信息和与所述目标任务相对应的数据库的元数据;
确定模块,用于基于所述任务信息,确定所述目标任务对应的语法树;
生成模块,用于基于所述语法树和所述元数据,生成与所述目标任务相对应的所述元数据之间的血缘关系网络。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
处理模块,用于将所述元数据的数据信息转换成标准格式;
其中,所述数据信息包括以下信息中的至少一种:所述元数据所属的集群信息;所述元数据所属的数据库信息;所述元数据所属的表存储架构关系信息;所述元数据所属的表结构信息;所述元数据所属的字段信息;所述元数据所属的索引信息。
9.根据权利要求7或8所述的装置,其特征在于,所述确定模块,具体用于根据以下步骤确定所述目标任务对应的语法树:
基于所述任务信息,确定所述目标任务对应的文本语句;
基于所述文本语句,确定所述目标任务对应的语法树。
10.根据权利要求7至9任一所述的装置,其特征在于,所述任务信息包括以下信息中的至少一种:
所述目标任务的调度时间;所述目标任务相对应的数据库中的元数据的对应关系;所述目标任务的调度方式;所述目标任务的任务内容。
CN201910005435.8A 2019-01-03 2019-01-03 一种血缘关系网络的生成方法及装置 Pending CN109710703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910005435.8A CN109710703A (zh) 2019-01-03 2019-01-03 一种血缘关系网络的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910005435.8A CN109710703A (zh) 2019-01-03 2019-01-03 一种血缘关系网络的生成方法及装置

Publications (1)

Publication Number Publication Date
CN109710703A true CN109710703A (zh) 2019-05-03

Family

ID=66260637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910005435.8A Pending CN109710703A (zh) 2019-01-03 2019-01-03 一种血缘关系网络的生成方法及装置

Country Status (1)

Country Link
CN (1) CN109710703A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362579A (zh) * 2019-07-19 2019-10-22 联想(北京)有限公司 一种信息处理方法和电子设备
CN110727677A (zh) * 2019-09-19 2020-01-24 上海数禾信息科技有限公司 数据仓库内表格的血缘关系追溯的方法和装置
CN110807026A (zh) * 2019-10-24 2020-02-18 北京中科捷信信息技术有限公司 一种用于分析金融大数据血缘关系的自动化捕获***
CN111008192A (zh) * 2019-11-14 2020-04-14 泰康保险集团股份有限公司 一种数据管理方法、装置、设备及介质
CN111090665A (zh) * 2019-11-15 2020-05-01 广东数果科技有限公司 一种数据任务调度方法及调度***
CN111143390A (zh) * 2019-12-30 2020-05-12 北京每日优鲜电子商务有限公司 更新元数据的方法及装置
CN111597255A (zh) * 2020-04-29 2020-08-28 北京金山云网络技术有限公司 数据灾备处理方法、装置、电子设备及存储介质
CN112433888A (zh) * 2020-12-02 2021-03-02 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN112463978A (zh) * 2020-11-13 2021-03-09 上海逸迅信息科技有限公司 一种数据血缘关系的生成方法和设备
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN113220800A (zh) * 2021-05-17 2021-08-06 上海合合信息科技股份有限公司 基于antlr的数据字段血缘分析方法及装置
CN113486024A (zh) * 2021-07-27 2021-10-08 中国银行股份有限公司 数据字典信息的传输方法及装置、存储介质及电子设备
CN113486050A (zh) * 2021-09-08 2021-10-08 北京轻松筹信息技术有限公司 报表生成的方法、装置、电子设备和可读存储介质
CN113760866A (zh) * 2021-08-30 2021-12-07 中国铁道科学研究院集团有限公司电子计算技术研究所 建模辅助装置和方法
CN117290355A (zh) * 2023-08-29 2023-12-26 云启智慧科技有限公司 一种元数据地图构建***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186541A (zh) * 2011-12-27 2013-07-03 阿里巴巴集团控股有限公司 一种映射关系生成方法及装置
CN104216888A (zh) * 2013-05-30 2014-12-17 中国电信股份有限公司 数据处理任务关系设置方法及***
CN104424269A (zh) * 2013-08-30 2015-03-18 中国电信股份有限公司 数据血统分析方法与装置
CN104899314A (zh) * 2015-06-17 2015-09-09 北京京东尚科信息技术有限公司 一种数据仓库的血统分析方法和装置
US20170300558A1 (en) * 2014-01-16 2017-10-19 Massachusetts Institute Of Technology Method And Systems For Enhanced Ontology Assisted Querying Of Data Stores
CN107644073A (zh) * 2017-09-18 2018-01-30 广东中标数据科技股份有限公司 一种基于深度优先遍历的字段血缘分析方法、***及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186541A (zh) * 2011-12-27 2013-07-03 阿里巴巴集团控股有限公司 一种映射关系生成方法及装置
CN104216888A (zh) * 2013-05-30 2014-12-17 中国电信股份有限公司 数据处理任务关系设置方法及***
CN104424269A (zh) * 2013-08-30 2015-03-18 中国电信股份有限公司 数据血统分析方法与装置
US20170300558A1 (en) * 2014-01-16 2017-10-19 Massachusetts Institute Of Technology Method And Systems For Enhanced Ontology Assisted Querying Of Data Stores
CN104899314A (zh) * 2015-06-17 2015-09-09 北京京东尚科信息技术有限公司 一种数据仓库的血统分析方法和装置
CN107644073A (zh) * 2017-09-18 2018-01-30 广东中标数据科技股份有限公司 一种基于深度优先遍历的字段血缘分析方法、***及装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362579A (zh) * 2019-07-19 2019-10-22 联想(北京)有限公司 一种信息处理方法和电子设备
CN110727677B (zh) * 2019-09-19 2022-12-30 上海数禾信息科技有限公司 数据仓库内表格的血缘关系追溯的方法和装置
CN110727677A (zh) * 2019-09-19 2020-01-24 上海数禾信息科技有限公司 数据仓库内表格的血缘关系追溯的方法和装置
CN110807026A (zh) * 2019-10-24 2020-02-18 北京中科捷信信息技术有限公司 一种用于分析金融大数据血缘关系的自动化捕获***
CN111008192A (zh) * 2019-11-14 2020-04-14 泰康保险集团股份有限公司 一种数据管理方法、装置、设备及介质
CN111008192B (zh) * 2019-11-14 2023-06-02 泰康保险集团股份有限公司 一种数据管理方法、装置、设备及介质
CN111090665A (zh) * 2019-11-15 2020-05-01 广东数果科技有限公司 一种数据任务调度方法及调度***
CN111143390A (zh) * 2019-12-30 2020-05-12 北京每日优鲜电子商务有限公司 更新元数据的方法及装置
CN111597255A (zh) * 2020-04-29 2020-08-28 北京金山云网络技术有限公司 数据灾备处理方法、装置、电子设备及存储介质
CN112463978A (zh) * 2020-11-13 2021-03-09 上海逸迅信息科技有限公司 一种数据血缘关系的生成方法和设备
CN112433888A (zh) * 2020-12-02 2021-03-02 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN112433888B (zh) * 2020-12-02 2023-06-30 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN113220800B (zh) * 2021-05-17 2023-11-10 上海合合信息科技股份有限公司 基于antlr的数据字段血缘分析方法及装置
CN113220800A (zh) * 2021-05-17 2021-08-06 上海合合信息科技股份有限公司 基于antlr的数据字段血缘分析方法及装置
CN113486024A (zh) * 2021-07-27 2021-10-08 中国银行股份有限公司 数据字典信息的传输方法及装置、存储介质及电子设备
CN113486024B (zh) * 2021-07-27 2024-04-09 中国银行股份有限公司 数据字典信息的传输方法及装置、存储介质及电子设备
CN113760866A (zh) * 2021-08-30 2021-12-07 中国铁道科学研究院集团有限公司电子计算技术研究所 建模辅助装置和方法
CN113486050A (zh) * 2021-09-08 2021-10-08 北京轻松筹信息技术有限公司 报表生成的方法、装置、电子设备和可读存储介质
CN117290355A (zh) * 2023-08-29 2023-12-26 云启智慧科技有限公司 一种元数据地图构建***
CN117290355B (zh) * 2023-08-29 2024-05-14 云启智慧科技有限公司 一种元数据地图构建***

Similar Documents

Publication Publication Date Title
CN109710703A (zh) 一种血缘关系网络的生成方法及装置
Inel et al. Crowdtruth: Machine-human computation framework for harnessing disagreement in gathering annotated data
KR20210038860A (ko) 의도 추천 방법, 장치, 기기 및 저장매체
CN109033387A (zh) 一种融合多源数据的物联网搜索***、方法及存储介质
CN102164186B (zh) 一种实现云搜索服务的方法及***
CN109344170B (zh) 流数据处理方法、***、电子设备及可读存储介质
CN106790718A (zh) 服务调用链路分析方法及***
CN112527848B (zh) 基于多数据源的报表数据查询方法、装置、***及存储介质
CN111339071A (zh) 一种多源异构数据的处理方法及装置
CN109582289B (zh) 规则引擎中规则流的处理方法、***、存储介质和处理器
Nasridinov et al. A decision tree-based classification model for crime prediction
CN103635886B (zh) 信息处理***、数据管理方法、信息处理设备及其控制方法
CN110019713A (zh) 基于意图理解的数据检索方法和装置、设备及存储介质
CN107291745A (zh) 一种数据指标的管理方法及装置
CN108287889B (zh) 一种基于弹性表模型的多源异构数据存储方法和***
CN107704620A (zh) 一种档案管理的方法、装置、设备和存储介质
CN111143390A (zh) 更新元数据的方法及装置
CN101495978B (zh) 减少总线连接的消费者和产生者之间的消息流
CN113450796B (zh) 语音报表生成方法、装置、设备及存储介质
CN111914859A (zh) 一种服务复用方法、计算设备及计算机可读存储介质
CN106599244B (zh) 通用的原始日志清洗装置及方法
CN110275798A (zh) 区块链数据处理方法、装置、服务器及存储介质
US8856152B2 (en) Apparatus and method for visualizing data
CN115269862A (zh) 一种基于知识图谱的电力问答与可视化***
CN111680337B (zh) Pdm***产品设计需求信息获取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503

RJ01 Rejection of invention patent application after publication