CN117313683A - 元数据处理方法、装置、服务器及存储介质 - Google Patents

元数据处理方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN117313683A
CN117313683A CN202311524393.1A CN202311524393A CN117313683A CN 117313683 A CN117313683 A CN 117313683A CN 202311524393 A CN202311524393 A CN 202311524393A CN 117313683 A CN117313683 A CN 117313683A
Authority
CN
China
Prior art keywords
metadata
field
category
description information
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311524393.1A
Other languages
English (en)
Inventor
李晓娟
贾玉武
周莉
秦宏伟
桑海岩
李大中
宋雨伦
倪明鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202311524393.1A priority Critical patent/CN117313683A/zh
Publication of CN117313683A publication Critical patent/CN117313683A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种元数据处理方法、装置、服务器及存储介质。该方法包括:接收数据终端发送的多个元数据,其中多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息;获取每个字段描述信息对应的字段关键词,以得到多个字段关键词;获取每个表名对应的表关键词,以得到多个表关键词;根据多个表关键词和多个字段关键词,设置多个类别规则;根据多个类别规则,获取每个字段描述信息的类别标签;根据每个字段描述信息、每个字段描述信息对应的字段名称和每个字段描述信息的类别标签,获取三元组格式的元数据;根据多个三元组格式的元数据,得到元数据分类模型。本申请的方法,提高了元数据分类分级的效率。

Description

元数据处理方法、装置、服务器及存储介质
技术领域
本申请涉及大数据技术领域,尤其涉及一种元数据处理方法、装置、服务器及存储介质。
背景技术
随着数字化和信息化建设的发展,企业每天都在产生海量的数据。然而,巨大的数据量和非结构化的数据类型使数据管理复杂性进一步复杂化,增加了元数据识别和分类的难度。
目前,现有技术中,主要通过将元数据导出到适当格式的文件,然后使用相应的数据处理工具或脚本对导出的数据进行处理,实现元数据的分类分级。
然而,元数据普遍具有命名不规则和不统一的问题,使得这种方法需要投入大量的人力,浪费人力资源,从而增加时间成本,降低元数据分类分级的效率。
发明内容
本申请提供一种元数据处理方法、装置、服务器及存储介质,用以解决元数据分类分级效率低的技术问题。
第一方面,本申请提供一种元数据处理方法,包括:
接收数据终端发送的多个元数据,其中所述多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息。
获取每个字段描述信息对应的字段关键词,以得到多个字段关键词。
获取每个表名对应的表关键词,以得到多个表关键词。
根据所述多个表关键词和所述多个字段关键词,设置多个类别规则。
根据所述多个类别规则,获取所述每个字段描述信息的类别标签。
根据所述每个字段描述信息、所述每个字段描述信息对应的所述字段名称和所述每个字段描述信息的类别标签,获取三元组格式的元数据,以得到多个三元组格式的元数据。
根据所述多个三元组格式的元数据,得到元数据分类模型,其中所述元数据分类模型用于对待分类元数据进行分类。
可选地,如上所述的方法,所述获取每个字段描述信息对应的字段关键词,包括:采用分词方法和关键词提取方法,获取所述每个字段描述信息对应的字段关键词。
可选地,如上所述的方法,所述每个表名关联一个中文表名和一个英文表名;相应地,所述获取每个表名对应的表关键词,包括:将中文表名和英文表名进行拼接,得到所述表名;采用分词方法和关键词提取方法,获取所述每个表名对应的表关键词。
可选地,如上所述的方法,所述根据所述多个表关键词和所述多个字段关键词,设置多个类别规则,包括:根据每个表关键词,得到每个表名中的多个字段关键词;设置每个字段关键词对应的类别规则,以得到所述多个类别规则。
可选地,如上所述的方法,所述根据所述多个三元组格式的元数据,得到元数据分类模型,包括:将所述多个三元组格式的元数据,确定为样本数据;其中所述样本数据包括训练集、验证集和测试集;构建深度学习网络模型,将所述训练集输入至所述深度学习网络模型进行训练,得到初始的元数据分类模型;根据所述验证集,对所述初始的元数据分类模型进行调参,得到训练好的元数据分类模型;根据所述测试集,对所述训练好的元数据分类模型进行测试,确定所述元数据分类模型。
可选地,如上所述的方法,还包括:获取任一字段名称和所述任一字段名称对应的字段描述信息;根据所述任一字段名称和所述任一字段名称对应的字段描述信息,获取二元组格式的元数据,并将所述二元组格式的元数据确定为所述待分类元数据;将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别。
可选地,如上所述的方法,所述将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别之后,还包括:将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果;接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核通过,则根据类别和级别映射表,得到所述元数据类别对应的元数据级别。
可选地,如上所述的方法,所述将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果之后,还包括:接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核不通过,则将所述待分类元数据发送至所述用户终端,以使所述用户终端根据所述待分类元数据,得到所述元数据类别;接收所述用户终端发送的所述元数据类别;根据所述元数据类别和所述二元组格式的元数据,得到所述三元组格式的元数据;将所述三元组格式的元数据,确定为新增样本数据;当所述新增样本数据满足预设条件时,根据所述新增样本数据,对所述元数据分类模型进行优化,得到优化后的元数据分类模型;其中所述优化后的元数据分类模型用于对所述待分类元数据进行分类。
第二方面,本申请提供一种元数据处理装置,包括:
接收模块,用于接收数据终端发送的多个元数据,其中所述多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息。
第一获取模块,用于获取每个字段描述信息对应的字段关键词,以得到多个字段关键词。
第二获取模块,用于获取每个表名对应的表关键词,以得到多个表关键词。
设置模块,用于根据所述多个表关键词和所述多个字段关键词,设置多个类别规则。
第三获取模块,用于根据所述多个类别规则,获取所述每个字段描述信息的类别标签。
第四获取模块,用于根据所述每个字段描述信息、所述每个字段描述信息对应的所述字段名称和所述每个字段描述信息的类别标签,获取三元组格式的元数据,以得到多个三元组格式的元数据。
第五获取模块,用于根据所述多个三元组格式的元数据,得到元数据分类模型,其中所述元数据分类模型用于对待分类元数据进行分类。
第三方面,本申请提供一种服务器,包括:
至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的元数据处理方法。
第四方面,本申请提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的元数据处理方法。
本申请提供的元数据处理方法、装置、服务器及存储介质,通过获取每个元数据中的表名对应的表关键词和字段描述信息对应的关键词,设置多个类别规则,根据类别规则获取每个字段描述信息的标签类别;以及根据每个字段名称、每个字段描述信息和每个字段描述信息的类别标签,获得多个三元组格式的元数据,构建并训练元数据分类模型。避免了因元数据命名不规则和不统一,导致投入大量的人力,浪费人力资源,增加时间成本问题,提高了元数据分类的效率,从而也提高了元数据分级的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的元数据处理***的场景示意图;
图2为本申请一个实施例提供的元数据处理方法的流程示意图;
图3为本申请另一实施例提供的元数据处理方法的流程示意图;
图4为本申请实施例提供的元数据处理装置的结构示意图;
图5为本申请实施例提供的服务器的硬件结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
随着数字化和信息化建设的发展,企业每天都在产生海量的数据。然而,巨大的数据量和非结构化的数据类型使数据管理复杂性进一步复杂化,增加了元数据识别和分类的难度。目前,现有技术中,主要通过将元数据导出到适当格式的文件,然后使用相应的数据处理工具或脚本对导出的数据进行处理,实现元数据的分类分级。然而,元数据普遍具有命名不规则和不统一的问题,使得这种方法需要投入大量的人力,浪费人力资源,从而增加时间成本,降低元数据分类分级的效率。
为了解决以上技术问题,本申请实施例提出以下技术思路:考虑到元数据普遍具有命名不规则和不统一的问题,需要投入大量的人力,浪费人力资源,从而增加时间成本,降低元数据分类分级的效率。发明人想到了根据每个元数据中的表名对应的表关键词和字段描述信息对应的关键词,设置类别规则,根据类别规则获取每个字段描述信息的类别标签;根据每个字段名称、每个字段描述信息和每个字段描述信息的类别标签,获得多个三元组格式的元数据,构建并训练元数据分类模型。避免了因元数据命名不规则和不统一,导致投入大量的人力,浪费人力资源,增加时间成本问题,提高了元数据分类分级的效率。
本申请提供的元数据处理方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的元数据处理的应用场景示意图。如图1所示,该应用场景包括:数据终端101、服务器102和显示终端103。
其中,数据终端101,可以是计算机或终端设备。
服务器102,可以是一台服务器,也可是多台服务器组成的集群。
平台设备103,可以显示终端等。
参考图1,数据终端101将多个元数据发送至服务器102;服务器102对多个元数据进行一系列处理,构建元数据分类模型;元数据分类模型用于对待分类元数据进行分类,并将元数据类别发送至显示终端103进行显示。
图2为本申请一个实施例提供的元数据处理方法的流程示意图,本实施例的执行主体可以为图1实施例中的服务器102,也可以是有类似功能的其他服务器,本实施例此处不做特别限制。如图2所示,该方法包括:
S201:接收数据终端发送的多个元数据,其中多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息。
其中,元数据包括:数据库中的数据库名称、数据库描述、表名、表描述、字段名称、字段描述、字段类型和字段最大长度等信息。
在本实施例中,获取元数据后,需要进行一些数据清洗操作,包括但不限于:去除重复数据、处理缺失值、数据类型转换和标准化等。
S202:获取每个字段描述信息对应的字段关键词,以得到多个字段关键词。
具体地,采用分词方法和关键词提取方法,获取每个字段描述信息对应的字段关键词。
在本实施例中,采用自然语言处理中的分词技术,将字段描述信息拆成单个的词,在分词的基础上,采用关键词提取技术,从字段描述信息中提取关键词。
可选地,分词技术可以为HanLP分词,也可以为空格分词。关键词提取技术可以为TF-IDF,也可以为TextRank。
S203:获取每个表名对应的表关键词,以得到多个表关键词。
其中,每个表名关联一个中文表名和一个英文表名。
其中,表名为表描述信息。
具体地,将中文表名和英文表名进行拼接,得到表名;采用分词方法和关键词提取方法,获取每个表名对应的表关键词。
S204:根据多个表关键词和多个字段关键词,设置多个类别规则。
具体地,根据每个表关键词,得到每个表名中的多个字段关键词;设置每个字段关键词对应的类别规则,以得到多个类别规则。
具体地,通过匹配每个字段关键词与数据库中表的元数据或实际表结构,确定每个字段描述信息所在的表名,以得到每个表名中的多个字段描述信息对应的字段关键词,这可能涉及到关键词匹配或模式匹配。
在本实施例中,根据多个字段关键词,为每个字段关键词制定规则。可选地,这些规则可以是基于内容的,也可以是基于模式的。
S205:根据多个类别规则,获取每个字段描述信息的类别标签。
具体地,通过制定的规则,对每个字段描述信息和字段名称进行匹配,若匹配成功,则为该字段描述信息和字段名称添加相应的类别标签。
S206:根据每个字段描述信息、每个字段描述信息对应的字段名称和每个字段描述信息的类别标签,获取三元组格式的元数据,以得到多个三元组格式的元数据。
示例性地,三元组格式的元数据为<类别标签,字段名称,字段描述>,其中字段描述可以为空。
S207:根据多个三元组格式的元数据,得到元数据分类模型,其中元数据分类模型用于对待分类元数据进行分类。
具体地,步骤S207包括S2071~S2074:
S2071:将多个三元组格式的元数据,确定为样本数据;其中样本数据包括训练集、验证集和测试集。
其中,在机器学习中,一般将数据划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型的超参数,测试集用于评估模型的性能。
可选地,按照一定比例的元数据作为训练集和验证集,剩余的元数据作为测试集。示例性地,选择60%的样本数据作为训练集,20%的样本数据作为验证集,20%的样本数据作为测试集。
S2072:构建深度学习网络模型,将训练集输入至深度学习网络模型进行训练,得到初始的元数据分类模型。
具体地,构建深度学习网络的结构。这可能包括选择合适的卷积层、池化层、全连接层等,以及每层的参数设置。将训练集输入到深度学习网络模型中,通过求损失函数的梯度并更新参数来优化模型,得到初始的元数据分类模型。
S2073:根据验证集,对初始的元数据分类模型进行调参,得到训练好的元数据分类模型。
具体地,使用验证集评估模型的性能。如果模型的性能没有改善,可以通过调整超参数以尝试改善模型的性能。
S2074:根据测试集,对训练好的元数据分类模型进行测试,确定元数据分类模型。
具体地,用测试集对训练好的元数据分类模型进行测试,评估和确定元数据分类模型。
综上可知,本实施例中,通过获取每个元数据中的表名对应的表关键词和字段描述信息对应的关键词,设置多个类别规则,根据类别规则获取每个字段描述信息的标签类别;以及根据每个字段名称、每个字段描述信息和每个字段描述信息的类别标签,获得多个三元组格式的元数据,构建并训练元数据分类模型。避免了因元数据命名不规则和不统一,导致投入大量的人力,浪费人力资源,增加时间成本问题,提高了元数据分类的效率,从而也提高了元数据分级的效率。
图3为本申请另一实施例提供的元数据处理方法的流程示意图,本实施例的执行主体可以为图1实施例中的服务器102,也可以是有类似功能的其他服务器,本实施例此处不做特别限制,本实施例重点介绍通过元数据分类模型对待分类元数据进行分类,以及获取元数据级别的过程。如图3所示,该方法包括:
S301:获取任一字段名称和任一字段名称对应的字段描述信息。
S302:根据任一字段名称和任一字段名称对应的字段描述信息,获取二元组格式的元数据,并将二元组格式的元数据确定为待分类元数据。
示例性地,二元组格式的元数据为<字段名称,字段描述>。
S303:将待分类元数据输入至元数据分类模型,以输出待分类元数据的元数据类别。
具体地,将<字段名称,字段描述>输入至元数据分类模型进行预测,得到元数据对应的类别。
S304:将元数据类别发送至用户终端,以使用户终端对元数据类别进行审核,得到审核结果。
其中,每个用户终端关联一个审核人员。
具体地,审核人员审核元数据类别是否正确。
S305:接收用户终端发送的审核结果,若判定审核结果为审核通过,则根据类别和级别映射表,得到元数据类别对应的元数据级别。
其中,类别和级别映射表指的是一个将元数据类别映射到相应级别的表格或映射关系。
S306:接收用户终端发送的审核结果,若判定审核结果为审核不通过,则将待分类元数据发送至用户终端,以使用户终端根据待分类元数据,得到元数据类别。
具体地,若审核不通过,则需要审核人员给出元数据的真实类别。
S307:接收用户终端发送的元数据类别。
S308:根据元数据类别和二元组格式的元数据,得到三元组格式的元数据。
根据元数据类别和<字段名称,字段描述>二元组格式的元数据,得到<类别标签,字段名称,字段描述>三元组格式的元数据。
S309:将三元组格式的元数据,确定为新增样本数据。
S310:当新增样本数据满足预设条件时,根据新增样本数据,对元数据分类模型进行优化,得到优化后的元数据分类模型;其中优化后的元数据分类模型用于对待分类元数据进行分类。
具体地,若新增样本数据超过预设阈值或者迭代时间间隔超过预设时间,将新增样本数据合并至样本数据,对元数据分类模型进行优化,得到优化后的元数据分类模型。
综上可知,本实施例中,若元数据的审核结果为审核不通过,则获取元数据类别;将审核不通过的二元组格式的元数据转换为三元组格式的元数据,并确定为新增样本数据,对元数据分类模型进行优化,得到优化后的元数据分类模型,进一步提高了元数据分类模型的准确性。
图4为本申请实施例提供的元数据处理装置的结构示意图。如图4所示,该元数据处理装置包括:接收模块401、第一获取模块402、第二获取模块403、设置模块404、第三获取模块405、第四获取模块406以及第五获取模块407。
接收模块401,用于接收数据终端发送的多个元数据,其中所述多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息。
第一获取模块402,用于获取每个字段描述信息对应的字段关键词,以得到多个字段关键词。
第二获取模块403,用于获取每个表名对应的表关键词,以得到多个表关键词。
设置模块404,用于根据所述多个表关键词和所述多个字段关键词,设置多个类别规则。
第三获取模块405,用于根据所述多个类别规则,获取所述每个字段描述信息的类别标签。
第四获取模块406,用于根据所述每个字段描述信息、所述每个字段描述信息对应的所述字段名称和所述每个字段描述信息的类别标签,获取三元组格式的元数据,以得到多个三元组格式的元数据。
第五获取模块407,用于根据所述多个三元组格式的元数据,得到元数据分类模型,其中所述元数据分类模型用于对待分类元数据进行分类。
可选地,如上所述的方法,所述第一获取模块402,具体用于:采用分词方法和关键词提取方法,获取所述每个字段描述信息对应的字段关键词。
可选地,如上所述的方法,所述每个表名关联一个中文表名和一个英文表名;相应地,所述第二获取模块403,具体用于:将中文表名和英文表名进行拼接,得到所述表名;采用分词方法和关键词提取方法,获取所述每个表名对应的表关键词。
可选地,如上所述的方法,所述设置模块,具体用于:根据每个表关键词,得到每个表名中的多个字段关键词;设置每个字段关键词对应的类别规则,以得到所述多个类别规则。
可选地,如上所述的方法,所述第五获取模块407,具体用于:将所述多个三元组格式的元数据,确定为样本数据;其中所述样本数据包括训练集、验证集和测试集;构建深度学习网络模型,将所述训练集输入至所述深度学习网络模型进行训练,得到初始的元数据分类模型;根据所述验证集,对所述初始的元数据分类模型进行调参,得到训练好的元数据分类模型;根据所述测试集,对所述训练好的元数据分类模型进行测试,确定所述元数据分类模型。
可选地,如上所述的方法,所述装置还包括:输入模块408,用于获取任一字段名称和所述任一字段名称对应的字段描述信息;根据所述任一字段名称和所述任一字段名称对应的字段描述信息,获取二元组格式的元数据,并将所述二元组格式的元数据确定为所述待分类元数据;将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别。
可选地,如上所述的方法,所述装置还包括:发送模块409,用于将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果;接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核通过,则根据类别和级别映射表,得到所述元数据类别对应的元数据级别。
可选地,如上所述的方法,所述装置还包括:优化模块410,用于接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核不通过,则将所述待分类元数据发送至所述用户终端,以使所述用户终端根据所述待分类元数据,得到所述元数据类别;接收所述用户终端发送的所述元数据类别;根据所述元数据类别和所述二元组格式的元数据,得到所述三元组格式的元数据;将所述三元组格式的元数据,确定为新增样本数据;当所述新增样本数据满足预设条件时,根据所述新增样本数据,对所述元数据分类模型进行优化,得到优化后的元数据分类模型;其中所述优化后的元数据分类模型用于对所述待分类元数据进行分类。
图5为本申请实施例提供的服务器的硬件结构示意图。如图5所示,本实施例的服务器包括:至少一个处理器501和存储器502;存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上的元数据处理方法。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。
当存储器502独立设置时,该服务器还包括总线503,用于连接所述存储器502和处理器501。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的元数据处理方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,其存储在计算机存储介质中,至少一个处理器可以从计算机存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现如上的元数据处理方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
进一步需要说明的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解,上述的装置实施例仅是示意性的,本申请的装置还可通过其它的方式实现。例如,上述实施例中单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个***,或一些特征可以忽略或不执行。
另外,若无特别说明,在本申请各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,处理器可以是任何适当的硬件处理器,比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明,存储单元可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(ResistiveRandom Access Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。
集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (11)

1.一种元数据处理方法,其特征在于,应用于服务器,包括:
接收数据终端发送的多个元数据,其中所述多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息;
获取每个字段描述信息对应的字段关键词,以得到多个字段关键词;
获取每个表名对应的表关键词,以得到多个表关键词;
根据所述多个表关键词和所述多个字段关键词,设置多个类别规则;
根据所述多个类别规则,获取所述每个字段描述信息的类别标签;
根据所述每个字段描述信息、所述每个字段描述信息对应的所述字段名称和所述每个字段描述信息的类别标签,获取三元组格式的元数据,以得到多个三元组格式的元数据;
根据所述多个三元组格式的元数据,得到元数据分类模型,其中所述元数据分类模型用于对待分类元数据进行分类。
2.根据权利要求1所述的方法,其特征在于,所述获取每个字段描述信息对应的字段关键词,包括:
采用分词方法和关键词提取方法,获取所述每个字段描述信息对应的字段关键词。
3.根据权利要求1所述的方法,其特征在于,所述每个表名关联一个中文表名和一个英文表名;
相应地,所述获取每个表名对应的表关键词,包括:
将中文表名和英文表名进行拼接,得到所述表名;
采用分词方法和关键词提取方法,获取所述每个表名对应的表关键词。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个表关键词和所述多个字段关键词,设置多个类别规则,包括:
根据每个表关键词,得到每个表名中的多个字段关键词;
设置每个字段关键词对应的类别规则,以得到所述多个类别规则。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述多个三元组格式的元数据,得到元数据分类模型,包括:
将所述多个三元组格式的元数据,确定为样本数据;其中所述样本数据包括训练集、验证集和测试集;
构建深度学习网络模型,将所述训练集输入至所述深度学习网络模型进行训练,得到初始的元数据分类模型;
根据所述验证集,对所述初始的元数据分类模型进行调参,得到训练好的元数据分类模型;
根据所述测试集,对所述训练好的元数据分类模型进行测试,确定所述元数据分类模型。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取任一字段名称和所述任一字段名称对应的字段描述信息;
根据所述任一字段名称和所述任一字段名称对应的字段描述信息,获取二元组格式的元数据,并将所述二元组格式的元数据确定为所述待分类元数据;
将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别。
7.根据权利要求6所述的方法,其特征在于,所述将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别之后,还包括:
将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果;
接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核通过,则根据类别和级别映射表,得到所述元数据类别对应的元数据级别。
8.根据权利要求7所述的方法,其特征在于,所述将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果之后,还包括:
接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核不通过,则将所述待分类元数据发送至所述用户终端,以使所述用户终端根据所述待分类元数据,得到所述元数据类别;
接收所述用户终端发送的所述元数据类别;
根据所述元数据类别和所述二元组格式的元数据,得到所述三元组格式的元数据;
将所述三元组格式的元数据,确定为新增样本数据;
当所述新增样本数据满足预设条件时,根据所述新增样本数据,对所述元数据分类模型进行优化,得到优化后的元数据分类模型;其中所述优化后的元数据分类模型用于对所述待分类元数据进行分类。
9.一种元数据处理装置,其特征在于,应用于服务器,包括:
接收模块,用于接收数据终端发送的多个元数据,其中所述多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息;
第一获取模块,用于获取每个字段描述信息对应的字段关键词,以得到多个字段关键词;
第二获取模块,用于获取每个表名对应的表关键词,以得到多个表关键词;
设置模块,用于根据所述多个表关键词和所述多个字段关键词,设置多个类别规则;
第三获取模块,用于根据所述多个类别规则,获取所述每个字段描述信息的类别标签;
第四获取模块,用于根据所述每个字段描述信息、所述每个字段描述信息对应的所述字段名称和所述每个字段描述信息的类别标签,获取三元组格式的元数据,以得到多个三元组格式的元数据;
第五获取模块,用于根据所述多个三元组格式的元数据,得到元数据分类模型,其中所述元数据分类模型用于对待分类元数据进行分类。
10.一种服务器,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-8任一项所述的元数据处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-8任一项所述的元数据处理方法。
CN202311524393.1A 2023-11-15 2023-11-15 元数据处理方法、装置、服务器及存储介质 Pending CN117313683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311524393.1A CN117313683A (zh) 2023-11-15 2023-11-15 元数据处理方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311524393.1A CN117313683A (zh) 2023-11-15 2023-11-15 元数据处理方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN117313683A true CN117313683A (zh) 2023-12-29

Family

ID=89242965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311524393.1A Pending CN117313683A (zh) 2023-11-15 2023-11-15 元数据处理方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN117313683A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556050A (zh) * 2024-01-12 2024-02-13 长春吉大正元信息技术股份有限公司 数据分类分级方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556050A (zh) * 2024-01-12 2024-02-13 长春吉大正元信息技术股份有限公司 数据分类分级方法、装置、电子设备及存储介质
CN117556050B (zh) * 2024-01-12 2024-04-12 长春吉大正元信息技术股份有限公司 数据分类分级方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN103793422B (zh) 基于增强星型模型的立方体元数据及查询语句生成
US20160162794A1 (en) Decision tree data structures generated to determine metrics for child nodes
CN104063314B (zh) 一种测试数据自动生成装置及方法
WO2022154897A1 (en) Classifier assistance using domain-trained embedding
CN117313683A (zh) 元数据处理方法、装置、服务器及存储介质
CN103885966A (zh) 电子商务交易平台中的问答交互方法和***
KR102576320B1 (ko) 딥러닝 기반 생성형 ai 시스템의 학습용 데이터셋 증폭장치 및 그 방법
CN115344504B (zh) 基于需求规格说明书的软件测试用例自动生成方法及工具
US20220269820A1 (en) Artificial intelligence based data redaction of documents
CN111539612B (zh) 一种风险分类模型的训练方法和***
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及***
US20220004532A1 (en) Generation of realistic mock data
CN114329455B (zh) 基于异构图嵌入的用户异常行为检测方法及装置
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
CN115170874A (zh) 一种基于解耦蒸馏损失的自蒸馏实现方法
CN110472659A (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN110929085B (zh) 基于元语义分解的电力客服留言生成模型样本处理***及方法
CN116860583A (zh) 数据库的性能优化方法、装置、存储介质及电子设备
CN116187299B (zh) 一种科技项目文本数据检定评价方法、***及介质
CN117235366B (zh) 基于内容关联性的协同推荐方法及***
CN113987309B (zh) 个人隐私数据识别方法、装置、计算机设备及存储介质
CN115858634B (zh) 一种问卷信息处理方法
US11398161B1 (en) Systems and methods for detecting unusually frequent exactly matching and nearly matching test responses
CN117520548A (zh) 元数据处理方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination