CN115238009A

CN115238009A - 基于血缘分析的元数据管理方法、装置、设备及存储介质

Info

Publication number: CN115238009A
Application number: CN202210938163.9A
Authority: CN
Inventors: 龚官岱
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-10-25

Abstract

本申请公开了一种基于血缘分析的元数据管理方法、装置、设备及存储介质，属于人工智能技术领域。本申请通过获取待处理数据对应的元数据描述，根据元数据描述进行血缘分析，得到待处理数据的血缘信息，根据血缘信息进行数据划分，得到血缘数据集，将血缘数据集输入到预先训练好的数据分类模型，得到数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系，根据映射关系和元数据描述构建待处理数据的数据地图，根据数据地图对待处理数据进行数据管理。此外，本申请还涉及区块链技术，待处理数据可存储于区块链中。本申请结合数据的血缘信息和元数据描述来对待处理数据进行分类管理，提高数据管理的可靠性，进而提升数据利用价值。

Description

基于血缘分析的元数据管理方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种基于血缘分析的元数据管理方法、装置、设备及存储介质。

背景技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程，但是在实际数据管理过程中，很多数据的存储、处理、应用都不是完全符合企业管理办法，甚至对于一中小些企业来说甚至没有完整的数据管理办法，因此造成企业取数难、用数难、分析难等问题，从而影响企业整体的运营、管理、经营效率。

当前市面上的数据资产管理平台只体现了数据展示的功能，然而对于深层次的问题，例如数据治理、数据质量监控、数据标准管理没有一个完整的解决方案。以公司数据表元数据管理为例，当前数据表元数据管理存在以下问题：由于没有对数据表进行深层次分析，导致数据监控只停留在监控数据表上的数据，而元数据管理层面的数据信息没有得到有效的展示和处理，当数据表对应的元数据出现异常时，开发人员无法及时了解异常原因，从而无法及时处理数据异常。

发明内容

本申请实施例的目的在于提出一种基于血缘分析的元数据管理方法、装置、计算机设备及存储介质，以解决现有数据资产管理方案存在的数据监控只停留在监控数据表上的数据，当数据表对应的元数据出现异常时，开发人员无法及时了解异常原因和及时处理数据异常的技术问题。

为了解决上述技术问题，本申请实施例提供一种基于血缘分析的元数据管理方法，采用了如下所述的技术方案：

一种基于血缘分析的元数据管理方法，包括：

从预设数据表中获取待处理数据，以及获取各个待处理数据对应的元数据描述，得到第一元数据描述；

根据第一元数据描述对待处理数据进行血缘分析，得到待处理数据的血缘信息；

根据待处理数据的血缘信息对待处理数据进行数据划分，得到血缘数据集；

将血缘数据集输入到预先训练好的数据分类模型，得到待处理数据的数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系；

根据数据分类结果中各个待处理数据之间的映射关系和各个待处理数据对应的元数据描述构建待处理数据的数据地图；

根据数据地图对待处理数据进行数据管理。

进一步地，根据第一元数据描述对待处理数据进行血缘分析，得到待处理数据的血缘信息，具体包括：

将携带第一元数据描述的待处理数据转化为SQL代码的脚本文件；

从SQL代码的脚本文件提取得到规则化的SQL语句，并将SQL语句转换成抽象语法树；

遍历抽象语法树，获取抽象语法树中所有树节点的逻辑关系；

基于所有树节点的逻辑关系得到待处理数据的血缘信息。

进一步地，树节点包括根节点和叶子节点，遍历抽象语法树，获取抽象语法树中所有树节点的逻辑关系，具体包括：

从根节点开始向下遍历抽象语法树，直至抽象语法树最底层的叶子节点；

抽取所有相邻树节点之间的逻辑关系，得到抽象语法树中所有树节点的逻辑关系。

进一步地，数据分类模型包括编码层和解码层，将血缘数据集输入到预先训练好的数据分类模型，得到待处理数据的数据分类结果，具体包括：

对血缘数据集中的待处理数据进行特征提取和特征向量转化，得到数据特征向量；

通过数据分类模型的编码层对数据特征向量进行编码，得到数据编码向量；

对数据编码向量进行空间映射，得到待处理数据的空间映射结果；

通过数据分类模型的解码层对待处理数据的空间映射结果进行解码，得到待处理数据的数据分类结果。

进一步地，在将血缘数据集输入到预先训练好的数据分类模型，得到待处理数据的数据分类结果之前，还包括：

从预设数据库中获取样本数据，以及获取各个样本数据对应的元数据描述，得到第二元数据描述；

根据第二元数据描述对样本数据进行血缘分析，得到样本数据的血缘信息；

根据样本数据的血缘信息对样本数据的进行数据划分，得到样本血缘数据集；

将样本血缘数据集导入预设的transformer预训练模型，其中，transformer预训练模型包括编码层和解码层；

对样本血缘数据集中的样本数据进行特征提取和特征向量转化，得到样本特征向量；

通过transformer预训练模型的编码层对样本特征向量进行编码，得到样本编码向量；

对样本编码向量进行空间映射，得到样本数据的空间映射结果；

通过transformer预训练模型的解码层对样本数据的空间映射结果进行解码，得到样本数据的数据分类结果；

基于样本数据的数据分类结果对transformer预训练模型进行迭代更新，得到训练好的数据分类模型。

进一步地，基于样本数据的数据分类结果对transformer预训练模型进行迭代更新，得到训练好的数据分类模型，具体包括：

获取transformer预训练模型的损失函数；

基于损失函数计算数据分类结果和预设标准分类结果之间的相对误差，得到分类误差；

在transformer预训练模型中传递分类误差，并将分类误差与预设误差阈值比对；

若分类误差大于预设误差阈值，则对transformer预训练模型进行迭代更新，直至模型拟合，得到训练好的数据分类模型。

进一步地，根据数据分类结果中各个待处理数据之间的映射关系和各个待处理数据对应的元数据描述构建待处理数据的数据地图，具体包括：

根据数据分类结果中各个待处理数据之间的映射关系绘制初始数据地图；

在初始数据地图添加各个待处理数据对应的元数据描述，形成待处理数据的数据地图。

为了解决上述技术问题，本申请实施例还提供一种基于血缘分析的元数据管理装置，采用了如下所述的技术方案：

一种基于血缘分析的元数据管理装置，包括：

数据获取模块，用于从预设数据表中获取待处理数据，以及获取各个待处理数据对应的元数据描述，得到第一元数据描述；

第一分析模块，用于根据第一元数据描述对待处理数据进行血缘分析，得到待处理数据的血缘信息；

第一划分模块，用于根据待处理数据的血缘信息对待处理数据进行数据划分，得到血缘数据集；

数据分类模块，用于将血缘数据集输入到预先训练好的数据分类模型，得到待处理数据的数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系；

数据汇总模块，用于根据数据分类结果中各个待处理数据之间的映射关系和各个待处理数据对应的元数据描述构建待处理数据的数据地图；

数据管理模块，用于根据数据地图对待处理数据进行数据管理。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述任一项所述的基于血缘分析的元数据管理方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述中任一项所述的基于血缘分析的元数据管理方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种基于血缘分析的元数据管理方法、装置、设备及存储介质，属于人工智能技术领域。本申请通过获取待处理数据对应的元数据描述，根据元数据描述进行血缘分析，得到待处理数据的血缘信息，根据血缘信息进行数据划分，得到血缘数据集，将血缘数据集输入到预先训练好的数据分类模型，得到数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系，根据映射关系和元数据描述构建待处理数据的数据地图，根据数据地图对待处理数据进行数据管理。本申请结合数据的血缘信息和元数据描述来对待处理数据简单初分类，并一步通过训练好的数据分类模型对待处理数据进行数据分类管理，提高数据管理的可靠性，进而提升数据利用价值。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性***架构图；

图2示出了根据本申请的基于血缘分析的元数据管理方法的一个实施例的流程图；

图3示出了根据本申请的基于血缘分析的元数据管理装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的基于血缘分析的元数据管理方法一般由服务器执行，相应地，基于血缘分析的元数据管理装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于血缘分析的元数据管理方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。所述的基于血缘分析的元数据管理方法，包括以下步骤：

S201，从预设数据表中获取待处理数据，以及获取各个待处理数据对应的元数据描述，得到第一元数据描述。

其中，元数据(Metadata)，又称中介数据、中继数据，为描述数据的数据(dataabout data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据是描述信息资源或数据等对象的数据，其使用目的在于：识别资源；评价资源；追踪资源在使用过程中的变化；实现简单高效地管理大量网络化数据；实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。

具体的，预设数据表中存储有待处理数据及待处理数据对应的元数据描述，服务器预设数据表中获取多个待处理数据，同时获取各个待处理数据对应的元数据描述，得到第一元数据描述。例如，服务器在数据表中获取待处理数据为“XX重疾险保额为50万”，其中，“50万”表征数据本身，“XX重疾险保额”表征数据应的元数据描述。

S202，根据第一元数据描述对待处理数据进行血缘分析，得到待处理数据的血缘信息。

其中，通过借鉴人类社会中的血缘关系来表达数据之间的这种关系，称之为数据的血缘关系，据的血缘关系包含了一些特有的特征：数据的归属性(数据所属组织或个人)，数据的来源多样性(相同数据来源不止一个)，数据的可追溯性(数据从产生到消亡的整个过程)，数据的层次性(数据的分类、归纳、总结形成了数据层次)等，分析数据的血缘关系被称为血缘分析。

具体的，服务器通过将携带元数据描述的待处理数据转化为SQL语句，并将SQL语句转换成抽象语法树，通过抽象语法树的叶节点来表征待处理数据之间的血缘关系，服务器通过遍历抽象语法树，获取抽象语法树中所有树节点的逻辑关系，获取抽象语法树中所有树节点的逻辑关系。

S203，根据待处理数据的血缘信息对待处理数据进行数据划分，得到血缘数据集。

具体的，服务器根据待处理数据的血缘信息对待处理数据进行数据划分，得到血缘数据集。在本申请具体的实施例中，将具有血缘关系的待处理数据划分到同一个数据集合中，当所有待处理数据均完成划分后，得到多个血缘数据集。

S204，将血缘数据集输入到预先训练好的数据分类模型，得到待处理数据的数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系。

其中，数据分类模型基于transformer预训练模型训练得到，transformer预训练模型是一种基于encoder-decoder结构的模型，其编码器和解码器均是由注意力模块和前项神经网络构成，是第一个用纯attention搭建的模型，不仅计算速度更快，在翻译任务上获得了更好的结果。Transformer最初是作为机器翻译的序列到序列模型提出的，而后来的研究表明，基于Transformer的预训练模型(PTM)在各项任务中都有最优的表现。因此，Transformer已成为NLP领域的首选架构，尤其是PTM。除了语言相关的应用，Transformer还被用于CV、音频处理，甚至是化学和生命科学。

具体的，服务器预先基于transformer预训练模型训练得到一个数据分类模型，在进行数据分类时，将血缘数据集输入到预先训练好的数据分类模型，可以直接得到待处理数据的数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系。

需要说明的是，在使用数据分类模型处理血缘数据集时，在对血缘数据集中的待处理数据进行特征提取和特征编码后，将编码特征映射到同一特征空间，可以得到不同血缘数据集中待处理数据之间的关系，根据得到不同血缘数据集中待处理数据之间的关系进一步对待处理数据进行分类。

S205，根据数据分类结果中各个待处理数据之间的映射关系和各个待处理数据对应的元数据描述构建待处理数据的数据地图。

其中，数据地图是在元数据基础上提供的企业数据目录管理模块，涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能，数据地图的存在可以更好地查找、理解和使用数据。

具体的，服务器根据数据分类结果中各个待处理数据之间的映射关系构建一个初始数据地图，并在初始数据地图添加各个待处理数据对应的元数据描述，形成待处理数据的数据地图，数据地图方便开发人员更加直观地了解每一个待处理数据的数据信息，

S206，根据数据地图对待处理数据进行数据管理。

具体的，服务器根据数据地图对待处理数据进行数据管理，例如，当需要更改待处理数据时，服务器接收数据更改指令，并解析数据更改指令，得到数据更改字段和元数据描述更改字段，并根据数据更改字段和元数据描述更改字段对数据地图中的待处理数据和元数据描述进行适应性修改。

在本实施例中，基于血缘分析的元数据管理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收数据更改指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在上述实施例中，本申请通过结合数据的血缘信息和元数据描述来对待处理数据简单初分类，并一步通过训练好的数据分类模型对待处理数据进行数据分类管理，提高数据管理的可靠性，进而提升数据利用价值。

基于所有树节点的逻辑关系得到待处理数据的血缘信息。

具体的，服务器将携带第一元数据描述的待处理数据转化为SQL代码，组合SQL代码形成SQL脚本文件，从SQL代码的脚本文件提取得到规则化的SQL语句，并将SQL语句转换成抽象语法树，遍历抽象语法树，获取抽象语法树中所有树节点的逻辑关系，基于所有树节点的逻辑关系得到待处理数据的血缘信息。

在本申请另一种具体的实施例中，待处理数据也可以是以SQL代码的形式预先存储在预设数据库中，此时服务器之间获取SQL代码的形式的待处理数据，并完成将SQL语句转换成抽象语法树，遍历抽象语法树，获取抽象语法树中所有树节点的逻辑关系，基于所有树节点的逻辑关系得到待处理数据的血缘信息。

具体的，树节点包括一个根节点和多个叶子节点，服务器从根节点开始向下遍历抽象语法树，直至抽象语法树最底层的叶子节点，抽取所有相邻树节点之间的逻辑关系，得到抽象语法树中所有树节点的逻辑关系。

需要额外说明的是，在得到待处理数据的血缘信息之后，还需要对血缘信息进行验证，在血缘信息验证时，服务器从最底层的叶子节点反向遍历整个抽象语法树，得到反向逻辑关系，通过比对抽象语法树中所有树节点的逻辑关系和反向逻辑关系来对血缘信息进行验证，当血缘信息验证通过后，输出验证通过的血缘信息。

具体的，数据分类模型包括编码层和解码层，服务器将血缘数据集输入到预先训练好的数据分类模型后，先对血缘数据集中的待处理数据进行特征提取和特征向量转化，得到数据特征向量，然后通过数据分类模型的编码层对数据特征向量进行编码，得到数据编码向量，对数据编码向量进行空间映射，将从不同血缘数据集中提取到的数据特征映射要同一特征空间，得到待处理数据的空间映射结果，通过数据分类模型的解码层对待处理数据的空间映射结果进行解码，得到待处理数据的数据分类结果。

具体的，在进行数据分类之前，需要预先训练一个数据分类模型，本申请的数据分类模型基于transformer预训练模型训练得到。服务器从预设数据库中获取样本数据，以及获取各个样本数据对应的元数据描述，得到第二元数据描述，根据第二元数据描述对样本数据进行血缘分析，得到样本数据的血缘信息，根据样本数据的血缘信息对样本数据的进行数据划分，得到样本血缘数据集，将样本血缘数据集导入预设的transformer预训练模型，其中，transformer预训练模型包括编码层和解码层，对样本血缘数据集中的样本数据进行特征提取和特征向量转化，得到样本特征向量，通过transformer预训练模型的编码层对样本特征向量进行编码，得到样本编码向量，对样本编码向量进行空间映射，得到样本数据的空间映射结果，将从不同样本血缘数据集中提取到的样本数据特征映射要同一特征空间，通过transformer预训练模型的解码层对样本数据的空间映射结果进行解码，得到样本数据的数据分类结果，基于样本数据的数据分类结果对transformer预训练模型进行迭代更新，得到训练好的数据分类模型。

需要说明的是，transformer预训练模型还包括自注意力层self-attention和Softmax函数层。其中，自注意力层self-attention集中特征，以便降低计算复杂度，在标准的self-attention机制中，每个token都需要attend所有其他的token。然而据观察，对于经过训练的Transformer，学习到的attention矩阵A在大多数数据点上通常非常稀疏。因此，可以通过结合结构偏差来限制每个查询attend的查询键对的数量来降低计算复杂度。Softmax是一种激活函数，它可以将一个数值向量归一化为一个概率分布向量，且各个概率之和为1。Softmax函数可以用来作为神经网络的最后一层，用于多分类问题的输出，Softmax层常常和交叉熵损失函数一起结合使用。

获取transformer预训练模型的损失函数；

具体的，服务器通过获取transformer预训练模型的损失函数，基于损失函数计算数据分类结果和预设标准分类结果之间的相对误差，得到分类误差，并基于反向传播算法在transformer预训练模型中传递分类误差，并将分类误差与预设误差阈值比对，若分类误差大于预设误差阈值，则对transformer预训练模型进行迭代更新，直至模型拟合，得到训练好的数据分类模型。

具体的，服务器先根据数据分类结果中各个待处理数据之间的映射关系绘制初始数据地图，然后在初始数据地图添加各个待处理数据对应的元数据描述，形成待处理数据的数据地图，数据地图方便开发人员更加直观地了解每一个待处理数据的数据信息。

在上述实施例中，本申请公开了一种基于血缘分析的元数据管理方法，属于人工智能技术领域。本申请通过获取待处理数据对应的元数据描述，根据元数据描述进行血缘分析，得到待处理数据的血缘信息，根据血缘信息进行数据划分，得到血缘数据集，将血缘数据集输入到预先训练好的数据分类模型，得到数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系，根据映射关系和元数据描述构建待处理数据的数据地图，根据数据地图对待处理数据进行数据管理。本申请结合数据的血缘信息和元数据描述来对待处理数据简单初分类，并一步通过训练好的数据分类模型对待处理数据进行数据分类管理，提高数据管理的可靠性，进而提升数据利用价值。

需要强调的是，为进一步保证上述待处理数据的私密和安全性，上述待处理数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于血缘分析的元数据管理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于血缘分析的元数据管理装置300包括：

数据获取模块301，用于从预设数据表中获取待处理数据，以及获取各个待处理数据对应的元数据描述，得到第一元数据描述；

第一分析模块302，用于根据第一元数据描述对待处理数据进行血缘分析，得到待处理数据的血缘信息；

第一划分模块303，用于根据待处理数据的血缘信息对待处理数据进行数据划分，得到血缘数据集；

数据分类模块304，用于将血缘数据集输入到预先训练好的数据分类模型，得到待处理数据的数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系；

数据汇总模块305，用于根据数据分类结果中各个待处理数据之间的映射关系和各个待处理数据对应的元数据描述构建待处理数据的数据地图；

数据管理模块306，用于根据数据地图对待处理数据进行数据管理。

进一步地，第一分析模块302具体包括：

代码转换单元，用于将携带第一元数据描述的待处理数据转化为SQL代码的脚本文件；

语法树构建单元，用于从SQL代码的脚本文件提取得到规则化的SQL语句，并将SQL语句转换成抽象语法树；

关系抽象单元，用于遍历抽象语法树，获取抽象语法树中所有树节点的逻辑关系；

血缘信息获取单元，用于基于所有树节点的逻辑关系得到待处理数据的血缘信息。

进一步地，关系抽象单元具体包括：

遍历子单元，用于从根节点开始向下遍历抽象语法树，直至抽象语法树最底层的叶子节点；

关系抽象子单元，用于抽取所有相邻树节点之间的逻辑关系，得到抽象语法树中所有树节点的逻辑关系。

进一步地，数据分类模型包括编码层和解码层，数据分类模块304具体包括：

特征处理单元，用于对血缘数据集中的待处理数据进行特征提取和特征向量转化，得到数据特征向量；

编码单元，用于通过数据分类模型的编码层对数据特征向量进行编码，得到数据编码向量；

空间映射单元，用于对数据编码向量进行空间映射，得到待处理数据的空间映射结果；

解码单元，用于通过数据分类模型的解码层对待处理数据的空间映射结果进行解码，得到待处理数据的数据分类结果。

进一步地，该基于血缘分析的元数据管理装置300还包括：

样本获取模块，用于从预设数据库中获取样本数据，以及获取各个样本数据对应的元数据描述，得到第二元数据描述；

第二分析模块，用于根据第二元数据描述对样本数据进行血缘分析，得到样本数据的血缘信息；

第二划分模块，用于根据样本数据的血缘信息对样本数据的进行数据划分，得到样本血缘数据集；

样本导入模块，用于将样本血缘数据集导入预设的transformer预训练模型，其中，transformer预训练模型包括编码层和解码层；

样本处理模块，用于对样本血缘数据集中的样本数据进行特征提取和特征向量转化，得到样本特征向量；

样本编码模块，用于通过transformer预训练模型的编码层对样本特征向量进行编码，得到样本编码向量；

样本映射模块，用于对样本编码向量进行空间映射，得到样本数据的空间映射结果；

样本解码模块，用于通过transformer预训练模型的解码层对样本数据的空间映射结果进行解码，得到样本数据的数据分类结果；

模型迭代模块，用于基于样本数据的数据分类结果对transformer预训练模型进行迭代更新，得到训练好的数据分类模型。

进一步地，模型迭代模块具体包括：

损失函数获取单元，用于获取transformer预训练模型的损失函数；

分类误差计算单元，用于基于损失函数计算数据分类结果和预设标准分类结果之间的相对误差，得到分类误差；

误差比对单元，用于在transformer预训练模型中传递分类误差，并将分类误差与预设误差阈值比对；

模型迭代单元，用于当分类误差大于预设误差阈值时，对transformer预训练模型进行迭代更新，直至模型拟合，得到训练好的数据分类模型。

进一步地，数据汇总模块305具体包括：

初始图绘制单元，用于根据数据分类结果中各个待处理数据之间的映射关系绘制初始数据地图；

元数据描述添加单元，用于在初始数据地图添加各个待处理数据对应的元数据描述，形成待处理数据的数据地图。

在上述实施例中，本申请公开了一种基于血缘分析的元数据管理装置，属于人工智能技术领域。本申请通过获取待处理数据对应的元数据描述，根据元数据描述进行血缘分析，得到待处理数据的血缘信息，根据血缘信息进行数据划分，得到血缘数据集，将血缘数据集输入到预先训练好的数据分类模型，得到数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系，根据映射关系和元数据描述构建待处理数据的数据地图，根据数据地图对待处理数据进行数据管理。本申请结合数据的血缘信息和元数据描述来对待处理数据简单初分类，并一步通过训练好的数据分类模型对待处理数据进行数据分类管理，提高数据管理的可靠性，进而提升数据利用价值。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如基于血缘分析的元数据管理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述基于血缘分析的元数据管理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请公开了一种计算机设备，属于人工智能技术领域。本申请通过获取待处理数据对应的元数据描述，根据元数据描述进行血缘分析，得到待处理数据的血缘信息，根据血缘信息进行数据划分，得到血缘数据集，将血缘数据集输入到预先训练好的数据分类模型，得到数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系，根据映射关系和元数据描述构建待处理数据的数据地图，根据数据地图对待处理数据进行数据管理。本申请结合数据的血缘信息和元数据描述来对待处理数据简单初分类，并一步通过训练好的数据分类模型对待处理数据进行数据分类管理，提高数据管理的可靠性，进而提升数据利用价值。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于血缘分析的元数据管理方法的步骤。

本申请公开了一种存储介质，属于人工智能技术领域。本申请通过获取待处理数据对应的元数据描述，根据元数据描述进行血缘分析，得到待处理数据的血缘信息，根据血缘信息进行数据划分，得到血缘数据集，将血缘数据集输入到预先训练好的数据分类模型，得到数据分类结果，其中，数据分类结果记录有各个待处理数据之间的映射关系，根据映射关系和元数据描述构建待处理数据的数据地图，根据数据地图对待处理数据进行数据管理。本申请结合数据的血缘信息和元数据描述来对待处理数据简单初分类，并一步通过训练好的数据分类模型对待处理数据进行数据分类管理，提高数据管理的可靠性，进而提升数据利用价值。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于血缘分析的元数据管理方法，其特征在于，包括：

从预设数据表中获取待处理数据，以及获取各个所述待处理数据对应的元数据描述，得到第一元数据描述；

根据所述第一元数据描述对所述待处理数据进行血缘分析，得到所述待处理数据的血缘信息；

根据所述待处理数据的血缘信息对所述待处理数据进行数据划分，得到血缘数据集；

将所述血缘数据集输入到预先训练好的数据分类模型，得到所述待处理数据的数据分类结果，其中，所述数据分类结果记录有各个所述待处理数据之间的映射关系；

根据所述数据分类结果中各个所述待处理数据之间的映射关系和各个所述待处理数据对应的元数据描述构建所述待处理数据的数据地图；

根据所述数据地图对所述待处理数据进行数据管理。

2.如权利要求1所述的基于血缘分析的元数据管理方法，其特征在于，所述根据所述第一元数据描述对所述待处理数据进行血缘分析，得到所述待处理数据的血缘信息，具体包括：

将携带所述第一元数据描述的待处理数据转化为SQL代码的脚本文件；

从所述SQL代码的脚本文件提取得到规则化的SQL语句，并将所述SQL语句转换成抽象语法树；

遍历所述抽象语法树，获取所述抽象语法树中所有树节点的逻辑关系；

基于所有树节点的逻辑关系得到所述待处理数据的血缘信息。

3.如权利要求2所述的基于血缘分析的元数据管理方法，其特征在于，所述树节点包括根节点和叶子节点，所述遍历所述抽象语法树，获取所述抽象语法树中所有树节点的逻辑关系，具体包括：

从所述根节点开始向下遍历所述抽象语法树，直至所述抽象语法树最底层的叶子节点；

抽取所有相邻树节点之间的逻辑关系，得到所述抽象语法树中所有树节点的逻辑关系。

4.如权利要求1所述的基于血缘分析的元数据管理方法，其特征在于，数据分类模型包括编码层和解码层，将所述血缘数据集输入到预先训练好的数据分类模型，得到所述待处理数据的数据分类结果，具体包括：

对所述血缘数据集中的待处理数据进行特征提取和特征向量转化，得到数据特征向量；

通过所述数据分类模型的编码层对所述数据特征向量进行编码，得到数据编码向量；

对所述数据编码向量进行空间映射，得到所述待处理数据的空间映射结果；

通过所述数据分类模型的解码层对所述待处理数据的空间映射结果进行解码，得到所述待处理数据的数据分类结果。

5.如权利要求1所述的基于血缘分析的元数据管理方法，其特征在于，在所述将所述血缘数据集输入到预先训练好的数据分类模型，得到所述待处理数据的数据分类结果之前，还包括：

从预设数据库中获取样本数据，以及获取各个所述样本数据对应的元数据描述，得到第二元数据描述；

根据所述第二元数据描述对所述样本数据进行血缘分析，得到所述样本数据的血缘信息；

根据所述样本数据的血缘信息对所述样本数据的进行数据划分，得到样本血缘数据集；

将所述样本血缘数据集导入预设的transformer预训练模型，其中，所述transformer预训练模型包括编码层和解码层；

对所述样本血缘数据集中的样本数据进行特征提取和特征向量转化，得到样本特征向量；

通过所述transformer预训练模型的编码层对所述样本特征向量进行编码，得到样本编码向量；

对所述样本编码向量进行空间映射，得到所述样本数据的空间映射结果；

通过所述transformer预训练模型的解码层对所述样本数据的空间映射结果进行解码，得到所述样本数据的数据分类结果；

基于所述样本数据的数据分类结果对所述所述transformer预训练模型进行迭代更新，得到训练好的数据分类模型。

6.如权利要求5所述的基于血缘分析的元数据管理方法，其特征在于，基于所述样本数据的数据分类结果对所述所述transformer预训练模型进行迭代更新，得到训练好的数据分类模型，具体包括：

获取所述transformer预训练模型的损失函数；

基于所述损失函数计算所述数据分类结果和预设标准分类结果之间的相对误差，得到分类误差；

在所述transformer预训练模型中传递所述分类误差，并将所述分类误差与预设误差阈值比对；

若所述分类误差大于预设误差阈值，则对所述transformer预训练模型进行迭代更新，直至模型拟合，得到训练好的数据分类模型。

7.如权利要求1至6任意一项所述的基于血缘分析的元数据管理方法，其特征在于，根据所述数据分类结果中各个所述待处理数据之间的映射关系和各个所述待处理数据对应的元数据描述构建所述待处理数据的数据地图，具体包括：

根据所述数据分类结果中各个所述待处理数据之间的映射关系绘制初始数据地图；

在所述初始数据地图添加各个所述待处理数据对应的元数据描述，形成所述待处理数据的数据地图。

8.一种基于血缘分析的元数据管理装置，其特征在于，包括：

数据获取模块，用于从预设数据表中获取待处理数据，以及获取各个所述待处理数据对应的元数据描述，得到第一元数据描述；

第一分析模块，用于根据所述第一元数据描述对所述待处理数据进行血缘分析，得到所述待处理数据的血缘信息；

第一划分模块，用于根据所述待处理数据的血缘信息对所述待处理数据进行数据划分，得到血缘数据集；

数据分类模块，用于将所述血缘数据集输入到预先训练好的数据分类模型，得到所述待处理数据的数据分类结果，其中，所述数据分类结果记录有各个所述待处理数据之间的映射关系；

数据汇总模块，用于根据所述数据分类结果中各个所述待处理数据之间的映射关系和各个所述待处理数据对应的元数据描述构建所述待处理数据的数据地图；

数据管理模块，用于根据所述数据地图对所述待处理数据进行数据管理。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于血缘分析的元数据管理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于血缘分析的元数据管理方法的步骤。