CN113360496B

CN113360496B - 一种构建元数据标签库的方法及装置

Info

Publication number: CN113360496B
Application number: CN202110578763.4A
Authority: CN
Inventors: 崔维平; 孙艺新; 郑厚清; 王智敏; 王程; 贾德香; 王玓; 李心达; 陈�光; 高洪达; 刘睿; 于灏; 刘素蔚; 陈睿欣; 颜拥; 姚影; 雷涛; 赵琳; 叶文广; 齐媛媛
Original assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd; State Grid Energy Research Institute Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd; State Grid Energy Research Institute Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2024-05-14
Anticipated expiration: 2041-05-26
Also published as: CN113360496A

Abstract

本申请涉及一种构建元数据标签库的方法、装置、计算机设备和计算机可读存储介质，所述方法包括：获取多个元数据实体；根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；所述维度标签用于指示所述元数据实体与另一元数据实体之间关系的维度；根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系；根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。采用本方法，将反应元数据实体关联关系的维度包含到数据资产标签体系中，能够完整的获取各种元数据实体及各元数据实体对应的血缘关系，从而构建完整的元数据标签体系。

Description

一种构建元数据标签库的方法及装置

技术领域

本申请涉及大数据管理技术领域，特别是涉及一种构建元数据标签库的方法及装置。

背景技术

数据资产的概念边界随着数据管理技术的变化不断拓展，在大数据阶段，随着分布式存储、分布式计算以及多种人工智能技术的应用，结构化数据之外的数据也被纳入到数据资产的范畴，数据资产边界拓展到了海量的标签库、企业级知识图谱、文档、图片、视频等内容。目前，大型企业的数据资产的存在形式已从“数据库+数据仓库”升级到大数据资源库。在管理数据资产，挖掘、实现和输出数据资产价值时，一项重要的基础工作就是建立数据资产标签库。

在数据资产管理中，元数据管理是基础，它不仅有自己独特的管理需求、管理特点、技术实现方式，而且对数据使用支持、数据开发支持，以及数据质量管理、数据价值管理都有直接的影响和作用。元数据标签，是元数据管理的一个重要实现方式和承载方式，它主要应用在以下方面：数据分类和数据分级、数据血缘关系、数据质量传递分析、数据价值分析和判断、数据探查和联邦访问、数据组织和融合。

在数据资产中，存在着复杂的数据依赖关系和血缘关系，这种关系是很难通过关系型数据库来反映的。传统的数据标签生成方式，只是基于关系型数据库中的实体属性值的计算得到，当涉及到实体间的关系属性时，只能通过人工方式或规则计算方式获得少量、局部的实体关系属性信息，因此无法获得全网完整的实体关系信息，所以无法构建完整的元数据标签体系。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种构建元数据标签库的方法，用于实现元数据标签的自动化批量计算和自动打标。

第一方面，本申请提供了一种构建元数据标签库的方法，包括：

获取多个元数据实体；

根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；所述维度标签用于指示所述元数据实体与另一元数据实体之间关系的维度；

根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系；

根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。

作为本发明实施例一种可选的实施方式，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：

根据各元数据实体的血缘关系，获取各元数据实体的被引用次数、被引用频率和引用者权重；

根据所述被引用次数、被引用频率和所述引用者权重，获取各元数据实体的活跃度标签。

根据各元数据实体的血缘关系，获取各元数据实体的中心度、中介度以及紧密度中的一个或多个；

根据所述中心度、中介度以及紧密度中的一个或多个，获取各元数据实体的影响力标签。

对所述多个元数据实体进行聚类分析，获取聚类结果；

根据所述聚类结果，获取各元数据实体的影响力标签。

作为本发明实施例一种可选的实施方式，根据每个元数据实体的血缘关系，针对每个元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，还包括：

根据各所述元数据实体的血缘关系，获取各元数据实体之间的相似程度的计算结果；

根据各元数据实体之间的相似程度的计算结果，获取各元数据实体的相似标签。

作为本发明实施例一种可选的实施方式，在根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签之前，所述方法还包括：

通过解析数据字典、解析SQL语句、解析数据库、解析审计日志中的一种或多种方式，获取所述多个元数据实体之间的关系。

作为本发明实施例一种可选的实施方式，所述方法还包括：

以各元数据实体为顶点、各元数据实体对应的血缘关系中元数据实体与其他元数据实体的关系为边，生成关系图谱；

将所述关系图谱保存到所述图数据库中。

第二方面，本申请提供了一种构建元数据标签库的装置，包括：

获取元数据实体模块，用于获取多个元数据实体；

第一获取模块，用于根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；所述维度标签用于指示所述元数据实体与另一元数据实体之间关系的维度；

第二获取模块，用于根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系；

第三获取模块，用于根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。

对所述多个元数据实体进行聚类分析，获取聚类结果；

根据所述聚类结果，获取各元数据实体的影响力标签。

作为本发明实施例一种可选的实施方式，根据每个元数据实体的血缘关系，针对每个元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：

作为本发明实施例一种可选的实施方式，所述方法还包括：

将所述关系图谱保存到所述图数据库中。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行上述第一方面或第一方面的任一实施方式所述的构建元数据标签库的方法。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行上述第一方面或第一方面的任一实施方式所述的构建元数据标签库的方法。

本申请提供的技术方案与现有技术相比具有如下优点：

本申请提供的构建元数据标签库的方法，首先获取多个元数据实体；然后根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；再根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系；最后根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。由于上述方法将元数据实体的关系数据化，与传统的数据标签生成方式相比，将反应元数据实体关联关系的维度包含到数据资产标签体系中，能够完整的获取各种元数据实体及各元数据实体对应的血缘关系，从而构建完整的元数据标签体系。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中构建元数据标签库的方法的流程示意图；

图2为一个实施例中元数据实体之间的关系的存储方式示意图；

图3为一个实施例中计算机设备的构建元数据标签库的装置的结构示意图；

图4为一个实施例中计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面将对本申请的方案进行进一步描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但本申请还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本申请的一部分实施例，而不是全部的实施例。

专业术语释义：

数据标签是梳理数据资产的重要手段，一方面数据资产管理者可以通过数据标签来补充和扩展数据的分类分级管理，丰富对数据特征和属性的表达，另一方面，数据资产的使用者可以通过数据标签快速找到自己所需的数据。

大数据标签：当数据资源为大数据时，数据标签便进化为大数据标签，它与传统的企业数据标签相比有以下不同：

(1)出发点不同：传统企业标签更多从企业业务角度出发；而大数据标签理论上要面向每一类有打标价值和打标可行性的数据ID。

(2)数据挖掘方法不同：传统企业标签更多依靠经验进行相关维度组合和阈值设定；而大数据标签更多通过数据模型进行维度筛选和阈值设定。

(3)标签的管理不同：传统企业标签的管理一般不会自成体系进行管理；而大数据标签则强调全生命周期管理和动态管理。

(4)标签的支撑应用不同：传统企业标签的应用也更多基于经验，例如从产品角度出发，通过标签找出该产品的潜在打标客户，然后通过相关渠道触点进行产品推广；而大数据标签则更多基于对场景化的深度理解进行，强调得出某类数据ID的画像，适配出解决方案、信息、渠道、价值等整合方案。

血缘分析是一种技术手段，用于对数据处理过程的全面追踪，从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。血缘分析目的：根据集成的数据库或视图，通过血缘追踪，获得结果数据的来源信息；更新数据时能够反映原始数据库的变化，查看数据在数据流中变化过程。

血缘分析是对数据对象内在关系的一种映射，同时还结合了时间顺序、递次关系也能够反映出一定的相关性和它的前因后果。因此应用的范围可以说非常广泛，也是数据资产治理的核心利器。

本申请实施例提供了一种构建元数据标签库的方法、装置、电子设备、计算机可读存储介质以及程序产品。该方法通过获取多个元数据实体，将反应元数据实体关联关系的维度包含到数据资产标签体系中，再根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。在获取活跃度标签、影响力标签以及相似标签的过程中，将人工智能建模的手段引入打标签工作中，因此能够弥补人工打标签效率低、成本高、周期长的不足。

在一个实施例中，本申请实施例提供了一种构建元数据标签库的方法。如图1所示，该构建元数据标签库的方法包括以下步骤：

S101、获取多个元数据实体。

其中，获取元数据实体，在操作方式上分为自动采集和手动采集两种。

具体的，自动采集是指自动的、定时的完成采集任务。采集任务为自动调度的工作单元，为元数据的采集提供自动化的、周期性的，或指定某个时间触发的机制。支持通过界面来维护任务，如查询、新增、修改、删除，可以配置任务自动执行的时间、状态。示例性的，在获得数据源的连接权限后，自动收集元数据。其中，数据源类型可以包括：传统数据库，比如Oracle(Oracle Database，一种关系型数据库管理***)、MYSQL(一种关系型数据库管理***)、DB2(IBM DB2，一种关系型数据库管理***)、Informix(Informix是IBM公司出品的关系数据库管理***)、MariaDB(MariaDB数据库管理***)、Sybase(关系型数据库***)等。手动采集是指选择本地文件上传到服务器来手动采集元数据。相对于自动采集，手动采集功能属于手工方式实时采集保存在本地文件中的元数据信息，如保存在excel文件中的元数据。

进一步，连接到数据库之后，将存储元数据的文件读取到解析平台上。示例性的，如果是数据字典，包含表名、字段名、数据类型、数据存储过程等描述语言数据的表，此类型的表是规范的，具有统一的格式。不同类型的数据库会用不同的解析器将表名、字段名、数据类型、数据存储过程等描述语言数据的表解析成图数据库中的节点。同时，提供采集日志信息的查看，检查采集是否成功。查看采集日志可以查询到采集任务的如下信息：开始时间、任务状态、结束时间、过程日志，采集的数量等。

元数据采集完成后，存储在数据库中，支撑包括元数据统计、查询、血缘分析、影响性分析、数据资产地图等元数据应用。

S102、根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签。

其中，所述维度标签用于指示所述元数据实体与另一元数据实体之间关系的维度。

S103、根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系。

其中，血缘关系，就是在数据溯源的过程中找到相关数据之间的联系。大数据血缘是指数据产生的链路，即，数据的来源以及数据经历了哪些过程和阶段。通过不同层级的血缘关系，可以清楚的了解数据的迁移流转，根据各元数据实体对应的维度标签，可以得到一个元数据实体与另一个元数据实体之间关系的维度，也就是，获取到两个元数据实体有几层血缘关系。

将反应元数据关联关系的维度包含到数据资产标签体系中，能够完整地自动获取各种元数据节点和关系，为自动化构建完整的数据图谱提供了保障。其中，数据资产标签是从多个不同角度对资产的描述，一个标签可以标注到不同的资产上，而一个资产也可以同时被标注多个不同的标签，数据资产标签也可以以分组或目录的形式进行归类管理。因此，标签体系的构建应该考虑对数据资产进行查询、盘点、推荐等不同的应用角度。例如，数据安全管理，可以从数据安全级别角度来定义标签目录和标签，并标注到各类资产上，标注完成后就可以从不同的标签体系中，查找数据资产。也可以考虑从业务条线、数据生命周期等角度来定义标签目录体系。

S104、根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。

在一个实施例中，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各元数据实体的血缘关系，获取各元数据实体的被引用次数、被引用频率和引用者权重；根据所述被引用次数、被引用频率和所述引用者权重，获取各元数据实体的活跃度标签。

具体的，针对元数据活跃度标签，设置活跃度计算规则，包含被引用次数、被引用频率和所述引用者权重。

在一个实施例中，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各元数据实体的血缘关系，获取各元数据实体的中心度、中介度以及紧密度中的一个或多个；根据所述中心度、中介度以及紧密度中的一个或多个，获取各元数据实体的影响力标签。

其中，中心度，是衡量节点重要程度的度量指标。衡量中心度有三个最基本的维度：度中心度、中介中心度、特征向量中心度。在网络分析中刻画节点中心性的最直接度量指标。一个节点的节点度越大，则这个节点的度中心性越高，该节点在网络中就越重要。

度中心度：一个节点与其他很多节点发生直接联系，这个节点就处于中心地位。即节点的关系越广，相邻节点越多，这个节点也就越重要。

中介中心度，即间接中心性，指某节点出现在其他节点之间的最短路径的个数。即这个节点相当于一个闸，和它相连的节点想得到其他节点都得经过它。

紧密中心性：即紧密度，反映某一节点与其他节点之间的接近程度。如果一个节点离其他节点越近，那么它传播信息的时候就不需要依赖其他节点。一个节点到网络中各点的距离都很短，那么这个节点就不会受制于其他节点。

节点是图数据库的概念，就是库、表、字段、视图等；关系就是库、表之间的关系，表间关系，库间关系等。在数据库的设计过程中，节点就相当于实体。实体在数据库中往往指某类事物的集合。实体可以是具体的人、事、物；也可以是抽象的概念、联系。

由于上述中心度、中介度以及紧密度均是表征元数据实体在网络中的重要性，因此，在不同应用场景下，可使用不同的判断依据，在本实施例当中不做具体限制。除此之外，还有一种计算网络中节点重要性排序的方法，即PageRank算法。

PageRank，即网页排名，是最早Google用于对网页进行排序的算法，通过将链接看成投票来指示网页的重要程度。PageRank的计算过程并不复杂：在首轮迭代开始前，所有顶点将自己的PageRank值设为1；每轮迭代中，每个顶点向所有邻居贡献自己当前PageRank值除以出边数作为投票，然后将收到的所有来自邻居的投票累加起来作为新的PageRank值；如此往复，直到所有顶点的PageRank值在相邻两轮之间的变化达到某个阈值为止。PageRank将网页作为顶点，网页之间的超链接作为边，整个互联网可以建模成一个非常巨大的图。搜索引擎在返回结果时，除了需要考虑网页内容与关键词的相关程度，还需要考虑网页本身的质量。

在一个实施例中，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：对所述多个元数据实体进行聚类分析，获取聚类结果；根据所述聚类结果，获取各元数据实体的影响力标签。

其中，聚类是机器学习中一种重要的无监督算法，它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性，而不同类别的数据点则具有不相同的属性。

在本实施例中，可以采用密度聚类或社团聚类的方法获取聚类结果。

其中，密度聚类从样本密度的角度进行考察样本之间的可连接性，并由可连接样本不断扩展直至获得最终的聚类结果。

基于谱分析的社团发现算法：利用图的邻接矩阵和对角矩阵将图用特定矩阵表示出来，如图的拉普拉斯矩阵L＝D-W，D为以每个节点的度为对角元的对角矩阵，W为图的邻接矩阵。将节点对应的矩阵特征分量看作空间坐标，将网络中的节点映射到多维特征向量空间中，用传统的聚类方法将节点聚类成社团。

在一个实施例中，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，根据各所述元数据实体的血缘关系，获取各元数据实体之间的相似程度的计算结果；根据各元数据实体之间的相似程度的计算结果，获取各元数据实体的相似标签。

示例性的，在本实施例中，采用相似度算法建模，获取各元数据实体之间的相似程度的计算结果。在目前的自然语言处理、数据挖掘以及机器学习中，相似性度量算法是一种比较常用的算法，是文本计算的基础。相似性度量有助于帮助开发者发现数据关联性，其核心点在于两个方面：第一方面是数据的特征表示，第二方面是集合之间的表示方法。

本实施例在获取元数据实体各标签的过程中采用人工智能建模的手段，因此能够弥补人工打标签效率低、成本高、周期长的不足。

在一个实施例中，在根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签之前，通过解析数据字典、解析SQL语句、解析数据库、解析审计日志中的一种或多种方式，获取所述多个元数据实体之间的关系。

具体地，其一为通过访问数据库的数据字典表，获取数据库中用户权限信息，以及基本表中的表名、字段名、数据类型、主键、外键等信息，将所有基本表和数据项定义为数据图谱中的实体，并构建库/表关系、表/字段关系和表间外键关系，以及用户和数据间关系。

其中，表，即对一个表的有关属性的设定。在关系型数据库中，表的另一个名称叫“关系”。

数据类型为数据按照数据结构分类，具有相同数据结构的数据属于同一类，即同一类数据称为一个数据类型。示例性的，在MYSQL关系型数据库管理***中，数据类型主要有三种：文本、数字以及日期/时间类型。

视图，是根据某种条件从一个或多个基表(实际存放数据的表)，即，临时存储的数据所构成的表，非真实表，其本质上只是一个select语句。

存储过程是在大型数据库***中，一组为了完成特定功能的SQL语句集，存储在数据库中，经过第一次编译后，再次调用时不需要再次编译，用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来调用存储过程。

关系，一个关系对应通常说的是一张表。

主键，表中经常有一个列或多列的组合，其值能唯一地标识表中的每一行。

外键，设定一个表中的某个字段的值，必须来源于另一个表的某个主键字段的值。

其二为，通过SQL语句解析数据流的来源、去向和处理过程，从而构建表间存储过程关系、表间函数关系、表/字段间函数关系和表间视图关系。

其三为，通过Schema解析获取表、列、数据类型、视图、存储过程、关系、主键、外键等信息，补充数据字典解析结果和SQL语句解析结果，获取更全面的元数据关联关系。

其四为，通过解析审计日志获取用户访问库、表、字段之间的关系以及视图的时间和频次信息。

具体地，在数据资产中，用户访问某个库、表、字段的频次越高，访问部门越重要的，说明这条数据的重要性越高，打元数据标签时，需要此项信息作为其中一种打标签的依据。

在一个实施例中，以各元数据实体为顶点、各元数据实体对应的血缘关系中元数据实体与其他元数据实体的关系为边，生成关系图谱；将所述关系图谱保存到所述图数据库中。

其中，图，是用于表示对象之间关联关系的一种抽象数据结构，使用顶点和边进行描述，顶点表示对象，边表示对象之间的关系。即，用图描述的数据为图数据。

图数据库提供了高效的关联查询。在用图数据库存储的数据图谱中，可以通过查询实体的边和其边上的标签来快速地获取与其相联系的另一实体，省去了复杂的各种表格的关联操作，关系查询更加便捷，效率显著提高。

数据图谱是基于图数据库和全部元数据信息所构建出来的元数据关系图谱，它所包含的实体就是库、表、字段等元数据实体，以及访问者、所有者等管理实体，它所包含的关系则是元数据实体之间的关系，例如外键关系、Schema关系、血缘关系，以及元数据实体和数据访问者之间的关系等。

示例性的，参照图2所示，将获取的实体和关系数据以邻接矩阵形式存储，将邻接矩阵按行进行切分，并存储到大数据平台的各个物理节点上。其中，第一行和第一列均表征实体，除此之外，其他数据就表示这两个实体之间有没有关系，两个实体之间有关系就是“1”，两个实体之间没有关系就是“0”，在邻接矩阵中可以直接计算一度关系。

具体的，每个存储在大数据平台的物理节点上的切分矩阵，其每一行会连续存储在文件***上的数据块中，为了节省空间，其中的“0”值不进行存储，而是通过位置标记的方式标注。

通过给定的主实体，在其所对应的切分矩阵的集群物理节点上找到其对应的行并获取与其有1层关系的关联实体，通过集群节点之间的消息传递，将关联实体值传递到其对应的矩阵行所在的物理节点上找到第2层关系，依次类推，直到找出与主实体按指定层级的所有关联实体。

应用本申请实施例，首先获取多个元数据实体；然后根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；再根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系；最后根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。由于上述方法将元数据实体的关系数据化，与传统的数据标签生成方式相比，将反应元数据实体关联关系的维度包含到数据资产标签体系中，能够完整的获取各种元数据实体及各元数据实体对应的血缘关系，从而构建完整的元数据标签体系。

在一个实施例中，如图3所示，提供了构建元数据标签库的装置，所述装置包括：

获取元数据实体模块301，用于获取多个元数据实体。

第一获取模块302，用于根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；所述维度标签用于指示所述元数据实体与另一元数据实体之间关系的维度。

第二获取模块303，用于根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系。

第三获取模块304，用于根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。

作为本发明实施例一种可选的实施方式，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各元数据实体的血缘关系，获取各元数据实体的被引用次数、被引用频率和引用者权重；根据所述被引用次数、被引用频率和所述引用者权重，获取各元数据实体的活跃度标签。

作为本发明实施例一种可选的实施方式，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各元数据实体的血缘关系，获取各元数据实体的中心度、中介度以及紧密度中的一个或多个；根据所述中心度、中介度以及紧密度中的一个或多个，获取各元数据实体的影响力标签。

作为本发明实施例一种可选的实施方式，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：对所述多个元数据实体进行聚类分析，获取聚类结果；根据所述聚类结果，获取各元数据实体的影响力标签。

作为本发明实施例一种可选的实施方式，根据每个元数据实体的血缘关系，针对每个元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各所述元数据实体的血缘关系，获取各元数据实体之间的相似程度的计算结果；根据各元数据实体之间的相似程度的计算结果，获取各元数据实体的相似标签。

作为本发明实施例一种可选的实施方式，在根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签之前，所述方法还包括：通过解析数据字典、解析SQL语句、解析数据库、解析审计日志中的一种或多种方式，获取所述多个元数据实体之间的关系。

作为本发明实施例一种可选的实施方式，所述方法还包括：以各元数据实体为顶点、各元数据实体对应的血缘关系中元数据实体与其他元数据实体的关系为边，生成关系图谱；将所述关系图谱保存到所述图数据库中。

关于构建元数据标签库装置的具体限定可以参见上文中对于构建元数据标签库的方法的限定，在此不再赘述。上述构建元数据标签库装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储与计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，所述计算机设备可以是笔记本电脑，其内部结构图可以如图4所示。所述计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，所述计算机设备的处理器用于提供计算和控制能力。所述计算机设备的存储器包括非易失性存储介质、内存储器。所述非易失性存储介质存储有操作***和计算机程序。所述内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。所述计算机程序被处理器执行时以实现构建元数据标签库的方法。所述计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，所述计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的构建元数据标签库的装置可以实现为一种计算机的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该计算机设备的构建元数据标签库装置的各个程序模块，比如，图3所示的获取元数据实体模块、第一获取模块、第二获取模块以及第三获取模块。各个程序模块构成的计算机程序使得处理器执行本说明书描述的本申请各个实施例的计算机设备的构建元数据标签库的方法中的步骤。

例如，图4所示的计算机设备可以通过如图3所示的计算机设备的构建元数据标签库装置中的获取元数据实体模块执行步骤S101。计算机设备可通过第一获取模块执行步骤S102。计算机设备可通过第二获取模块执行步骤S103。计算机设备可通过第三获取模块执行步骤S104。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取多个元数据实体；根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；所述维度标签用于指示所述元数据实体与另一元数据实体之间关系的维度；根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系；根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各元数据实体的血缘关系，获取各元数据实体的被引用次数、被引用频率和引用者权重；根据所述被引用次数、被引用频率和所述引用者权重，获取各元数据实体的活跃度标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各元数据实体的血缘关系，获取各元数据实体的中心度、中介度以及紧密度中的一个或多个；根据所述中心度、中介度以及紧密度中的一个或多个，获取各元数据实体的影响力标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：对所述多个元数据实体进行聚类分析，获取聚类结果；根据所述聚类结果，获取各元数据实体的影响力标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据每个元数据实体的血缘关系，针对每个元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：根据各所述元数据实体的血缘关系，获取各元数据实体之间的相似程度的计算结果；根据各元数据实体之间的相似程度的计算结果，获取各元数据实体的相似标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签之前，通过解析数据字典、解析SQL语句、解析数据库、解析审计日志中的一种或多种方式，获取所述多个元数据实体之间的关系。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：以各元数据实体为顶点、各元数据实体对应的血缘关系中元数据实体与其他元数据实体的关系为边，生成关系图谱；将所述关系图谱保存到所述图数据库中。

在一个实施例中，提供可一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取多个元数据实体；根据所述多个元数据实体之间的关系，获取各元数据实体对应的维度标签；所述维度标签用于指示所述元数据实体与另一元数据实体之间关系的维度；根据各元数据实体对应的维度标签，获取各元数据实体对应的血缘关系；根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：以各元数据实体为顶点、各元数据实体对应的血缘关系中元数据实体与其他元数据实体的关系为边，生成关系图谱，将所述关系图谱保存到所述图数据库中。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述是实例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括ROM(Read-Only Memory，只读存储器)、磁带、软盘、闪存或光存储器等。易失性存储器可包括RAM(Random AccessMemory，随机存取存储器)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，比如SRAM(Static Random Access Memory，静态随机存取存储器)和DRAM(DynamicRandom Access Memory，动态随机存取存储器)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种构建元数据标签库的方法，其特征在于，所述方法包括：

获取多个元数据实体；

通过解析数据字典、解析SQL语句、解析数据库、解析审计日志中的一种或多种方式，获取所述多个元数据实体之间的关系；

根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签；其中，所述影响力标签根据所述元数据实体聚类分析的聚类结果获取。

2.根据权利要求1所述的方法，其特征在于，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：

对所述多个元数据实体进行聚类分析，获取聚类结果；

根据所述聚类结果，获取各元数据实体的影响力标签。

5.根据权利要求1所述的方法，其特征在于，根据每个元数据实体的血缘关系，针对每个元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

将所述关系图谱保存到图数据库中。

7.一种构建元数据标签库的装置，其特征在于，所述装置包括：

获取元数据实体模块，用于获取多个元数据实体；

获取关系模块，用于通过解析数据字典、解析SQL语句、解析数据库、解析审计日志中的一种或多种方式，获取所述多个元数据实体之间的关系；

第三获取模块，用于根据各元数据实体的血缘关系，针对各元数据实体获取并添加活跃度标签、影响力标签以及相似标签中的至少一个标签；其中，所述影响力标签根据所述元数据实体聚类分析的聚类结果获取。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的构建元数据标签库的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的构建元数据标签库的方法。