CN115495541B - 语料数据库、语料数据库的维护方法、装置、设备和介质 - Google Patents

语料数据库、语料数据库的维护方法、装置、设备和介质 Download PDF

Info

Publication number
CN115495541B
CN115495541B CN202211443162.3A CN202211443162A CN115495541B CN 115495541 B CN115495541 B CN 115495541B CN 202211443162 A CN202211443162 A CN 202211443162A CN 115495541 B CN115495541 B CN 115495541B
Authority
CN
China
Prior art keywords
data
data set
task
unit
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211443162.3A
Other languages
English (en)
Other versions
CN115495541A (zh
Inventor
林余楚
古树桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyi Information Technology Zhuhai Co ltd
Original Assignee
Shenyi Information Technology Zhuhai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyi Information Technology Zhuhai Co ltd filed Critical Shenyi Information Technology Zhuhai Co ltd
Priority to CN202211443162.3A priority Critical patent/CN115495541B/zh
Publication of CN115495541A publication Critical patent/CN115495541A/zh
Application granted granted Critical
Publication of CN115495541B publication Critical patent/CN115495541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语料数据库、语料数据库的维护方法、装置、设备和介质,包括:对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定基础数据集的应用类型,维度为预先设置好的,应用类型包括通用性型和特定任务型;基于应用类型,对基础数据集进行聚合操作,得到基础数据集对应的训练任务;根据训练任务,采用预训练语言模型对基础数据集进行分析训练,得到目标数据集;在接收到数据交互指令时,采用各个目标数据集进行数据交互,实现通过对写入的基础数据集进行分析聚合和交互,使得写入数据集对于各种任务具有较强适应性,提高数据集的质量。

Description

语料数据库、语料数据库的维护方法、装置、设备和介质
技术领域
本发明自然语言处理技术领域,尤其涉及一种语料数据库、语料数据库的维护方法、装置、设备和介质。
背景技术
随着机器学习依赖于数据,而数据大多数由技术员收集和处理已发挥其人工智能行业中的价值。但大多数现有数据处理工具都倾向关于现有的数据之上,而不是如何解释和操纵数据。这种过度关注已有数据去进行数据处理的方法会消耗很大成本,是一种被动的方式。
解释数据是指该工具为适应原有数据的语法、特征等信息,在该份数据上制作的工具(例如规则分析、数据标注、分类器)都只能适应该份数据。这些工具大多数是由数据创建者以自己技术去生产,而没有使用到相应的自然语言处理技术。导致失去自然语言处理先验知识的前提下,分析后的数据信息往往不能被机器学习而使用。操纵数据是指该工具以原数据制作的工具因为上述提到丢失了自然语言处理知识的解释分析方法,生产的数据不能主动适应机器学习的训练方式,給模型训练造成影响。
这种方法不仅降低了总体开发效率,令项目开发集中于数据处理操作而不是实质性的改良、创造机器学习、人工智能算法开发;还不利于资源复用性,例如数据创建者为节约数据处理操作的开发成本,往往采用不考虑语种特点,混淆语种去进行数据预处理,让后续实际项目花费大量资源去进行数据标准化操作。
发明内容
本发明实施例提供一种语料数据库、语料数据库的维护方法、装置、计算机设备和存储介质,以提高自然语言数据集的质量。
为了解决上述技术问题,本申请实施例提供一种语料数据库,所述语料数据库包括数据分析模块和数据交互模块;
所述数据分析模块包括基础表达单元、数据表、嵌入表达单元、偏差分析单元、聚类预测单元和提示学习单元,其中,
所述基础表达单元,用于解析数据的基本信息;所述嵌入表达单元,用于通过模型将数据分层嵌入,并投影到多维,以可视化视图浏览数据集特征;所述偏差分析单元,用于根据参考数据集进行数据误差检查;所述聚类预测单元,用于预测数据集的标签,所述数据集的标签包括分类任务、文本生成任务、语音模型概率任务和结构化预测任务;所述提示学习单元用于预测数据集的性能和指标的输出分数,以提示后续任务的机器学习方法;
所述数据交互模块包括数据标准化单元、数据编辑器、预处理任务单元、数据增强单元和结果反馈单元,其中,
所述预处理任务单元用于通过预处理模型进行自然语言处理任务,以提供用于任务执行的数据集;所述数据增强单元,用于对数据集进行数据补全和增广。
可选地,对于给定的数据集,采用所述基础表达单元、所述数据表、所述嵌入表达单元、所述偏差分析单元、所述聚类预测单元、所述提示学习单元、所述数据标准化单元、所述数据编辑器、所述预处理任务单元、所述数据增强单元和所述结果反馈中的任意一个模块单元进行单独处理,或者,结合两个或以上的模块单元全量进行处理。
为了解决上述技术问题,本申请实施例提供一种语料数据库的维护方法,所述语料数据库的维护方法包括:
对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定所述基础数据集的应用类型,所述维度为预先设置好的,所述应用类型包括通用性型和特定任务型;
基于所述应用类型,对所述基础数据集进行聚合操作,得到所述基础数据集对应的训练任务;
根据所述训练任务,采用预训练语言模型对所述基础数据集进行分析训练,得到目标数据集;
在接收到数据交互指令时,采用各个所述目标数据集进行数据交互。
可选地,在所述对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定所述基础数据集的应用类型之后,并且,在所述基于所述应用类型,对所述基础数据进行聚合操作,得到所述基础数据集对应的训练任务之前,所述方法还包括:
对所述基础数据集进行偏倚分析,所述偏倚分析包括随机误差偏倚计算和***偏倚计算;其中,
所述随机误差偏倚计算基于统计学方法进行估计,以确保抽样算法中随机化原则的完全实施;
所述***偏倚计算将确定数据领域适应性的方向,采用预设标签评估偏倚的大小,并基于所述偏倚的大小,采用对照组数据集的信息进行匹配和筛选,所述对照组数据集为预先根据***偏倚计算方法所生成。
可选地,所述数据交互指令包括数据预处理、数据增强和数据搜索。
可选地,所述数据交互指令为数据增强,所述在接收到数据交互指令时,采用各个所述目标数据集进行数据交互包括:
将所述目标数据集进行预处理后,得到标准数据集;
采用参考数据集的不同数据偏差扰动,对所述标准数据集进行鲁棒性测试;
若所述标准数据集通过鲁棒性测试,则采用预设的数据增广方式进行数据增强处理,其中,所述预设的数据增广方式包括:命名体识别替换、掩码操作和无监督一致性替换。
可选地,所述数据交互指令为数据搜索,所述在接收到数据交互指令时,采用各个所述目标数据集进行数据交互包括:
接收查询语句;
通过自然语言任务处理的方式,从所述查询语句中抽取特定词项,或者,使用布尔匹配,通过修正扩展的方式补充所述查询语句,获取用户意图;
根据所述特定词项或者所述用户意图,对各个所述目标数据集进行匹配查询匹配,将匹配成功的文档作为目标文档,并采用聚类的方式,获取与目标文档同一类别的文档,作为参考文档,将所述参考文档和所述目标文档作为搜索结果;
或者,
将所述特定词项/所述用户意图和所述目标数据集都进行向量化,根据两者交叉特征构建匹配模型并分配模拟参数,通过机器学习方法进行匹配度进行打分,得到检索和排序结果。
为了解决上述技术问题,本申请实施例提供一种语料数据库的维护装置,所述语料数据库的维护装置包括:
数据集分析模块,对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定所述基础数据集的应用类型,所述维度为预先设置好的,所述应用类型包括通用性型和特定任务型;
任务确定模块,用于基于所述应用类型,对所述基础数据集进行聚合操作,得到所述基础数据集对应的训练任务;
数据训练模块,用于根据所述训练任务,采用预训练语言模型对所述基础数据集进行分析训练,得到目标数据集;
数据集交互模块,用于在接收到数据交互指令时,采用各个所述目标数据集进行数据交互。
可选地,所述语料数据库的维护装置还包括:
偏倚分析模块,用于对所述基础数据集进行偏倚分析,所述偏倚分析包括随机误差偏倚计算和***偏倚计算;其中,
所述随机误差偏倚计算基于统计学方法进行估计,以确保抽样算法中随机化原则的完全实施;
所述***偏倚计算将确定数据领域适应性的方向,采用预设标签评估偏倚的大小,并基于所述偏倚的大小,采用对照组数据集的信息进行匹配和筛选,所述对照组数据集为预先根据***偏倚计算方法所生成。
可选地,所述数据交互指令为数据增强,所述数据集交互模块包括:
数据预处理单元,用于将所述目标数据集进行预处理后,得到标准数据集;
鲁棒性测试单元,用于采用参考数据集的不同数据偏差扰动,对所述标准数据集进行鲁棒性测试;
数据增广单元,用于若所述标准数据集通过鲁棒性测试,则采用预设的数据增广方式进行数据增强处理,其中,所述预设的数据增广方式包括:命名体识别替换、掩码操作和无监督一致性替换。
可选地,所述数据交互指令为数据搜索,所述数据集交互模块包括:
接收单元,用于接收查询语句;
数据提取单元,用于通过自然语言任务处理的方式,从所述查询语句中抽取特定词项,或者,使用布尔匹配,通过修正扩展的方式补充所述查询语句,获取用户意图;
第一搜索单元,用于根据所述特定词项或者所述用户意图,对各个所述目标数据集进行匹配查询匹配,将匹配成功的文档作为目标文档,并采用聚类的方式,获取与目标文档同一类别的文档,作为参考文档,将所述参考文档和所述目标文档作为搜索结果;或者,
第二搜索单元,用于将所述特定词项/所述用户意图和所述目标数据集都进行向量化,根据两者交叉特征构建匹配模型并分配模拟参数,通过机器学习方法进行匹配度进行打分,得到检索和排序结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语料数据库的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语料数据库的步骤。
本发明实施例提供的语料数据库、语料数据库的维护方法、装置、计算机设备及存储介质,通过对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定基础数据集的应用类型,维度为预先设置好的,应用类型包括通用性型和特定任务型;基于应用类型,对基础数据集进行聚合操作,得到基础数据集对应的训练任务;根据训练任务,采用预训练语言模型对基础数据集进行分析训练,得到目标数据集;在接收到数据交互指令时,采用各个目标数据集进行数据交互,实现通过对写入的基础数据集进行分析聚合和交互,使得写入数据集对于各种任务具有较强适应性,提高写入数据集的数据质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2是本申请的语料数据库的一个实施例的示意图;
图3是本申请的语料数据库的维护方法的一个实施例的流程图;
图4是根据本申请的语料数据库的维护装置的一个实施例的结构示意图;
图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的语料数据库维护方法由服务器执行,相应地,语料数据库、语料数据库的维护装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用***。
请参阅图2,图2示出本发明实施例提供的一种语料数据库,该语料数据库应用于图1中的服务端,包括数据分析模块和数据交互模块;
数据分析模块包括基础表达单元、数据表、嵌入表达单元、偏差分析单元、聚类预测单元和提示学习单元,其中,
基础表达单元,用于解析数据的基本信息;嵌入表达单元,用于通过模型将数据分层嵌入,并投影到多维,以可视化视图浏览数据集特征;偏差分析单元,用于根据参考数据集进行数据误差检查;聚类预测单元,用于预测数据集的标签,数据集的标签包括分类任务、文本生成任务、语音模型概率任务和结构化预测任务;提示学习单元用于预测数据集的性能和指标的输出分数,以提示后续任务的机器学习方法;
数据交互模块包括数据标准化单元、数据编辑器、预处理任务单元、数据增强单元和结果反馈单元,其中,
预处理任务单元用于通过预处理模型进行自然语言处理任务,以提供用于任务执行的数据集;数据增强单元,用于对数据集进行数据补全和增广。
可选地,对于给定的数据集,采用基础表达单元、数据表、嵌入表达单元、偏差分析单元、聚类预测单元、提示学习单元、数据标准化单元、数据编辑器、预处理任务单元、数据增强单元和结果反馈中的任意一个模块单元进行单独处理,或者,结合两个或以上的模块单元全量进行处理。
可选地地,数据交互模块还包括数据标准化单元和数据编辑器单元,数据标准化单元用于对数据集进行基本清洗杂质、噪音数据流程,和结构化数据表示,数据编辑器用于对选定数据的可编辑详细信息。
本实施例中,基于数据分析模块构建集成自然语言处理知识的分析库,数据交互模块构建集成自然语言处理知识的交互库,分析库和交互库的设计,专注于对数据外信息的高层次总结,而不是只关注单次数据集本身,并进行仔细的、可重复性分析和操作。从全局性数据集信息出发,不过度关注数据集本身可以提高研究代码的质量和复用性,提高开发效率。并且该框架融合自然语言处理知识,在数据分析、交互过程中为深度学习提供一定量的知识,提高数据集的价值。
需要说明的是,现有大量工具包支持各种自然语言处理任务的数据处理,其目的都为构建一个可组合的自然语言处理数据处理过程工作流变得更加容易。以自然语言处理工具包(Natural Language Toolkit, NLTK)做为例子来说,NLTK是一套由编程语言编写用于统计自然语言处理的库和程序,为数据处理操作提供了词性研究、相似词识别和检索、分类任务、语义解释、指标评测应用。该工具可作为分析、交互库中的扩展模块以引申和适配未来数据集的处理需求,以增加可拓展性,并容许现在和未来的分析和处理语言的语料库、科学计算库、数据可视化2D绘图库和网络结构函数库融入到该库中。
请参阅图3,图3示出本发明实施例提供的一种语料数据库的维护方法,以该方法应用在图2中的语料数据库为例进行说明,详述如下:
S201:对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定基础数据集的应用类型,维度为预先设置好的,应用类型包括通用性型和特定任务型。
其中,细粒度分析是指进行不同维度的进行细粒度分析,即是可以将使用中的数据集在每个样本级或数据集级上执行分析。分析该样本是否为通用的样本级的文本长度或语料库级的平均长度,或为用于特定任务(例如文章摘要压缩)的数据集合平均值。接着,该分析方法不仅设计了丰富的样本级和数据集级特性,还将在数据库中计算和储存这些信息以便于浏览。
S202:基于应用类型,对基础数据集进行聚合操作,得到基础数据集对应的训练任务。
其中,聚合操作是用于计算语料库级的统计方法,针对自然语言处理主要任务进行聚合、标签分布进行分析该数据集是否为自然语言生成或自然语言推理等主要任务。
可选地,步骤S201之后,并且,步骤S202之前,也即,在对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定基础数据集的应用类型之后,并且,在基于应用类型,对基础数据进行聚合操作,得到基础数据集对应的训练任务之前,该方法还包括:
对基础数据集进行偏倚分析,偏倚分析包括随机误差偏倚计算和***偏倚计算;其中,
随机误差偏倚计算基于统计学方法进行估计,以确保抽样算法中随机化原则的完全实施;
***偏倚计算将确定数据领域适应性的方向,采用预设标签评估偏倚的大小,并基于偏倚的大小,采用对照组数据集的信息进行匹配和筛选,对照组数据集为预先根据***偏倚计算方法所生成。
数据偏倚是指大量测量数值(参考数据集的数值)的平均值与写入数据的真实值的差异,建立一个数据偏倚分析的统一分析方法可以更有效地识别或预防数据偏差问题。数据差异将影响着自然语言处理各个环节所产生的***误差,这种误差是在实际应用中无法避免的。本实施例中,以自然语言处理一个任务看待偏倚分析,一个数据集中偏倚问题会导致数据信息与该数据适应领域的不符,影响了后续处理的精准程度。通过本实施例中的语料数据库,采用分析、交互库中内工具为每个样本预先计算其特征,以识别数据潜在信息。这种计算方式可分为随机误差偏倚计算和***偏倚计算。随机偏倚计算严格遵守统计学方法进行估计,以确保抽样算法中随机化原则的完全实施;***偏倚计算将确定数据领域适应性的方向,以特定标签估量偏倚的大小与该分析方法所生成对照组数据集信息进行匹配和筛选。通过偏倚分析,该专利方案为模型训练筛选了更精确的数据集,以便设计更健壮的***。
S203:根据训练任务,采用预训练语言模型对基础数据集进行分析训练,得到目标数据集。
本实施例中,采用基于提示的学习,也即,利用预训练语言模型,令数据分析过程中定义提示模式。提示模式涵盖了许多方面,例如特征、元数据、属性甚至预测数据集性能。以不同的预训练模式设置,设计出帮助数据创建者给数据增添信息的方法。
其中,预训练语言模型是NLP中的核心之一,在pretrain-finetune这一阶段的NLP发展中发挥着举足轻重的作用。预训练语言模型的无监督训练属性,使其非常容易获取海量训练样本,并且训练好的语言模型包含很多语义语法知识,对于下游任务的效果会有非常明显的提升。
预训练语言模型要从词向量说起。词向量利用文本数据,构造出词之间的共现关系,一般将在一句话中共现的词作为正样本,随机负采样构造负样本,采用CBOW或Skip-Gram的方式进行训练,以此达到让经常共现的词,能够具有相似向量化表示。其本质是NLP中的一个先验:频繁在文本中共现的两个词,往往语义是相近的。然而,词向量的问题也比较明显,同一个词在不同的语境中,含义往往是不同的,而词向量对于某一个词只能生成一个固定的向量,无法结合语境上下文信息进行调整。预训练语言模型直接把预训练好的模型在下游任务上finetune,对于不同任务采用不同的输入或输出层改造,让下游任务更贴近上游预训练模型。值得一提的是,在后续的prompt等优化中,又将下游任务向上游任务的贴近更近了一步,即将下游任务的输入和输出逻辑也进行变化去适应上游任务。
常见的预训练语言模型包括但不限于:ELMo、GPT、Bert、GPT系列等。
S204:在接收到数据交互指令时,采用各个目标数据集进行数据交互。
可选地,数据交互指令包括数据预处理、数据增强和数据搜索。
其中,数据预处理是深度学习和机器学习模型训练中不可或缺的一步,数据集的质量将直接影响模型学习。
可选地,数据交互指令为数据增强,在接收到数据交互指令时,采用各个目标数据集进行数据交互包括:
将目标数据集进行预处理后,得到标准数据集;
采用参考数据集的不同数据偏差扰动,对标准数据集进行鲁棒性测试;
若标准数据集通过鲁棒性测试,则采用预设的数据增广方式进行数据增强处理,其中,预设的数据增广方式包括:命名体识别替换、掩码操作和无监督一致性替换。
其中,命名体识别替换是从非结构化文本中分类和定位命名实体的子任务,其过程是从非结构化文本表达式中产生专有名词标注信息的命名实体表达式,并由机器算法如之信息相符的命名实体进行替换以此达到数据增强的效果。
掩码操作是使用预训练模型在预处理操作中随机遮盖特定词语来扩充文本,让模型训练学习根据上下文预测掩盖后的词语以此令模型避免出现过度学习、令模型鲁棒性更佳的效果。
无监督一致性替换是由信息检索与文本挖掘的加权技术获取在数据集中特征信息较少的单词,因为这些单词不能给模型训练提供信息,因此可以在不影响数据集的基本真值的情况下替换单词,来减少无用信息。
本实施例中,数据交互前应当设计一套符合工程和自然语言处理知识的数据操作流程,其包含以下流程:
数据预处理:预处理过程包含通用的函数功能,例如大小限制、正则表达、数据过滤等基础操作。为提升预处理能够以全局性且不丢失信息的方式,数据预处理操作中将使用计算给定文本的样本级特征的工具,以此升级和改良通用函数的功能。
数据增强:首先将上述数据分析方法解释后的数据集进行对抗性评估——数据创建者指定参考数据集,测试预处理后数据集样本和参考数据集样本的不同数据偏差扰动来测试该份预处理后数据集的鲁棒性;之后构建增强数据集可进行对原始数据集的编辑操作,例如命名体识别替换,掩码操作,无监督一致性替换的任务。该专利的数据分析、交互库提供统一的数据交互接口,数据创建者可以轻松地选用与数据集适合的任务以增加数据集的价值。
数据搜索:数据搜索采用自然语言的研究思想进行描述,使用检索***通过语义匹配寻找训练集中特定信息,即依赖分词、命名体识别等自然语言任务抽取特定词项;或使用布尔匹配,通过修正、扩展等方式补充数据创建者的查询语句从而理解用户意图,查询到目标文档时使用聚类方法将同一类别文档也返回结果,从而提高召回率;或使用数据相似度计算,将数据集和目标查询数据都进行向量化两者交叉特征表示作为特征,构建合适的模型并分配模拟参数,通过机器学习方法到潜在函数,进行两种数据的匹配度进行打分,从而获取检索和排序结果。
可选地,数据交互指令为数据搜索,在接收到数据交互指令时,采用各个目标数据集进行数据交互包括:
接收查询语句;
通过自然语言任务处理的方式,从查询语句中抽取特定词项,或者,使用布尔匹配,通过修正扩展的方式补充查询语句,获取用户意图;
根据特定词项或者用户意图,对各个目标数据集进行匹配查询匹配,将匹配成功的文档作为目标文档,并采用聚类的方式,获取与目标文档同一类别的文档,作为参考文档,将参考文档和目标文档作为搜索结果;
或者,
将特定词项/用户意图和目标数据集都进行向量化,根据两者交叉特征构建匹配模型并分配模拟参数,通过机器学习方法进行匹配度进行打分,得到检索和排序结果。
本实施例中,对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定基础数据集的应用类型,维度为预先设置好的,应用类型包括通用性型和特定任务型;基于应用类型,对基础数据集进行聚合操作,得到基础数据集对应的训练任务;根据训练任务,采用预训练语言模型对基础数据集进行分析训练,得到目标数据集;在接收到数据交互指令时,采用各个目标数据集进行数据交互,实现通过对写入的基础数据集进行分析聚合和交互,使得写入数据集对于各种任务具有较强适应性,提高写入数据集的数据质量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图4示出与上述实施例语料数据库一一对应的语料数据库的维护装置的原理框图。如图4所示,该语料数据库的维护装置包括数据集分析模块31、任务确定模块32、数据训练模块33和数据集交互模块34。各功能模块详细说明如下:
数据集分析模块31,用于对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定基础数据集的应用类型,维度为预先设置好的,应用类型包括通用性型和特定任务型;
任务确定模块32,用于基于应用类型,对基础数据集进行聚合操作,得到基础数据集对应的训练任务;
数据训练模块33,用于根据训练任务,采用预训练语言模型对基础数据集进行分析训练,得到目标数据集;
数据集交互模块34,用于在接收到数据交互指令时,采用各个目标数据集进行数据交互。
可选地,语料数据库的维护装置还包括:
偏倚分析模块,用于对基础数据集进行偏倚分析,偏倚分析包括随机误差偏倚计算和***偏倚计算;其中,
随机误差偏倚计算基于统计学方法进行估计,以确保抽样算法中随机化原则的完全实施;
***偏倚计算将确定数据领域适应性的方向,采用预设标签评估偏倚的大小,并基于偏倚的大小,采用对照组数据集的信息进行匹配和筛选,对照组数据集为预先根据***偏倚计算方法所生成。
可选地,数据交互指令为数据增强,数据集交互模块34包括:
数据预处理单元,用于将目标数据集进行预处理后,得到标准数据集;
鲁棒性测试单元,用于采用参考数据集的不同数据偏差扰动,对标准数据集进行鲁棒性测试;
数据增广单元,用于若标准数据集通过鲁棒性测试,则采用预设的数据增广方式进行数据增强处理,其中,预设的数据增广方式包括:命名体识别替换、掩码操作和无监督一致性替换。
可选地,数据交互指令为数据搜索,数据集交互模块34包括:
接收单元,用于接收查询语句;
数据提取单元,用于通过自然语言任务处理的方式,从查询语句中抽取特定词项,或者,使用布尔匹配,通过修正扩展的方式补充查询语句,获取用户意图;
第一搜索单元,用于根据特定词项或者用户意图,对各个目标数据集进行匹配查询匹配,将匹配成功的文档作为目标文档,并采用聚类的方式,获取与目标文档同一类别的文档,作为参考文档,将参考文档和目标文档作为搜索结果;或者,
第二搜索单元,用于将特定词项/用户意图和目标数据集都进行向量化,根据两者交叉特征构建匹配模型并分配模拟参数,通过机器学习方法进行匹配度进行打分,得到检索和排序结果。
关于语料数据库的维护装置的具体限定可以参见上文中对于语料数据库的限定,在此不再赘述。上述语料数据库的维护装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行语料数据库的维护方法的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语料数据库的维护方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (8)

1.一种语料数据库的维护方法,其特征在于,应用于语料数据库,所述语料数据库包括数据分析模块和数据交互模块;所述数据分析模块包括基础表达单元、数据表、嵌入表达单元、偏差分析单元、聚类预测单元和提示学习单元,其中,所述基础表达单元,用于解析数据的基本信息;所述嵌入表达单元,用于通过模型将数据分层嵌入,并投影到多维,以可视化视图浏览数据集特征;所述偏差分析单元,用于根据参考数据集进行数据误差检查;所述聚类预测单元,用于预测数据集的标签,所述数据集的标签包括分类任务、文本生成任务、语音模型概率任务和结构化预测任务;所述提示学习单元用于预测数据集的性能和指标的输出分数,以提示后续任务的机器学习方法;所述数据交互模块包括数据标准化单元、数据编辑器、预处理任务单元、数据增强单元和结果反馈单元,其中,所述预处理任务单元用于通过预处理模型进行自然语言处理任务,以提供用于任务执行的数据集;所述数据增强单元,用于对数据集进行数据补全和增广;
所述语料数据库的维护方法包括:
对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定所述基础数据集的应用类型,所述维度为预先设置好的,所述应用类型包括通用性型和特定任务型;
基于所述应用类型,对所述基础数据集进行聚合操作,得到所述基础数据集对应的训练任务;
根据所述训练任务,采用预训练语言模型对所述基础数据集进行分析训练,得到目标数据集;
在接收到数据交互指令时,采用各个所述目标数据集进行数据交互。
2.如权利要求1所述的语料数据库的维护方法,其特征在于,在所述对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定所述基础数据集的应用类型之后,并且,在所述基于所述应用类型,对所述基础数据进行聚合操作,得到所述基础数据集对应的训练任务之前,所述方法还包括:
对所述基础数据集进行偏倚分析,所述偏倚分析包括随机误差偏倚计算和***偏倚计算;其中,
所述随机误差偏倚计算基于统计学方法进行估计,以确保抽样算法中随机化原则的完全实施;
所述***偏倚计算将确定数据领域适应性的方向,采用预设标签评估偏倚的大小,并基于所述偏倚的大小,采用对照组数据集的信息进行匹配和筛选,所述对照组数据集为预先根据***偏倚计算方法所生成。
3.如权利要求1或2任一项所述的语料数据库的维护方法,其特征在于,所述数据交互指令包括数据预处理、数据增强和数据搜索。
4.如权利要求3所述的语料数据库的维护方法,其特征在于,所述数据交互指令为数据增强,所述在接收到数据交互指令时,采用各个所述目标数据集进行数据交互包括:
将所述目标数据集进行预处理后,得到标准数据集;
采用参考数据集的不同数据偏差扰动,对所述标准数据集进行鲁棒性测试;
若所述标准数据集通过鲁棒性测试,则采用预设的数据增广方式进行数据增强处理,其中,所述预设的数据增广方式包括:命名体识别替换、掩码操作和无监督一致性替换。
5.如权利要求3所述的语料数据库的维护方法,其特征在于,所述数据交互指令为数据搜索,所述在接收到数据交互指令时,采用各个所述目标数据集进行数据交互包括:
接收查询语句;
通过自然语言任务处理的方式,从所述查询语句中抽取特定词项,或者,使用布尔匹配,通过修正扩展的方式补充所述查询语句,获取用户意图;
根据所述特定词项或者所述用户意图,对各个所述目标数据集进行匹配查询匹配,将匹配成功的文档作为目标文档,并采用聚类的方式,获取与目标文档同一类别的文档,作为参考文档,将所述参考文档和所述目标文档作为搜索结果;
或者,
将所述特定词项和所述目标数据集都进行向量化,或者,将所述用户意图和所述目标数据集都进行向量化,根据两者交叉特征构建匹配模型并分配模拟参数,通过机器学习方法进行匹配度进行打分,得到检索和排序结果。
6.一种语料数据库的维护装置,其特征在于,应用于语料数据库,所述语料数据库包括数据分析模块和数据交互模块;所述数据分析模块包括基础表达单元、数据表、嵌入表达单元、偏差分析单元、聚类预测单元和提示学习单元,其中,所述基础表达单元,用于解析数据的基本信息;所述嵌入表达单元,用于通过模型将数据分层嵌入,并投影到多维,以可视化视图浏览数据集特征;所述偏差分析单元,用于根据参考数据集进行数据误差检查;所述聚类预测单元,用于预测数据集的标签,所述数据集的标签包括分类任务、文本生成任务、语音模型概率任务和结构化预测任务;所述提示学习单元用于预测数据集的性能和指标的输出分数,以提示后续任务的机器学习方法;所述数据交互模块包括数据标准化单元、数据编辑器、预处理任务单元、数据增强单元和结果反馈单元,其中,所述预处理任务单元用于通过预处理模型进行自然语言处理任务,以提供用于任务执行的数据集;所述数据增强单元,用于对数据集进行数据补全和增广;
所述语料数据库的维护装置包括:
数据集分析模块,对写入到语料数据库的基础数据集从不同维度进行细粒度分析,确定所述基础数据集的应用类型,所述维度为预先设置好的,所述应用类型包括通用性型和特定任务型;
任务确定模块,用于基于所述应用类型,对所述基础数据集进行聚合操作,得到所述基础数据集对应的训练任务;
数据训练模块,用于根据所述训练任务,采用预训练语言模型对所述基础数据集进行分析训练,得到目标数据集;
数据集交互模块,用于在接收到数据交互指令时,采用各个所述目标数据集进行数据交互。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的语料数据库的维护方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的语料数据库的维护方法。
CN202211443162.3A 2022-11-18 2022-11-18 语料数据库、语料数据库的维护方法、装置、设备和介质 Active CN115495541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211443162.3A CN115495541B (zh) 2022-11-18 2022-11-18 语料数据库、语料数据库的维护方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211443162.3A CN115495541B (zh) 2022-11-18 2022-11-18 语料数据库、语料数据库的维护方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN115495541A CN115495541A (zh) 2022-12-20
CN115495541B true CN115495541B (zh) 2023-04-07

Family

ID=85116186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211443162.3A Active CN115495541B (zh) 2022-11-18 2022-11-18 语料数据库、语料数据库的维护方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115495541B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781611A (zh) * 2022-04-21 2022-07-22 润联软件***(深圳)有限公司 自然语言处理方法、语言模型训练方法及其相关设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766540B (zh) * 2018-12-10 2022-05-03 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
KR102039138B1 (ko) * 2019-04-02 2019-10-31 주식회사 루닛 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치
CN111695674B (zh) * 2020-05-14 2024-04-09 平安科技(深圳)有限公司 联邦学习方法、装置、计算机设备及可读存储介质
CN113435582B (zh) * 2021-06-30 2023-05-30 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN115249043A (zh) * 2022-07-26 2022-10-28 江苏保旺达软件技术有限公司 数据分析方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781611A (zh) * 2022-04-21 2022-07-22 润联软件***(深圳)有限公司 自然语言处理方法、语言模型训练方法及其相关设备

Also Published As

Publication number Publication date
CN115495541A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN110232114A (zh) 语句意图识别方法、装置及计算机可读存储介质
CN110489555A (zh) 一种结合类词信息的语言模型预训练方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111814465A (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN114881035A (zh) 训练数据的增广方法、装置、设备和存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN117807482B (zh) 海关报关单的分类方法、装置、设备及存储介质
CN110309252B (zh) 一种自然语言处理方法及装置
CN113901836A (zh) 基于上下文语义的词义消歧方法、装置及相关设备
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN114742058B (zh) 一种命名实体抽取方法、装置、计算机设备及存储介质
CN114385819B (zh) 环境司法领域本体构建方法、装置及相关设备
CN115495541B (zh) 语料数据库、语料数据库的维护方法、装置、设备和介质
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114091451A (zh) 一种文本分类方法、装置、设备及存储介质
CN112287215A (zh) 一种智能就业推荐方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant