CN114330339A - 文本处理方法、计算机可读存储介质及计算机设备 - Google Patents

文本处理方法、计算机可读存储介质及计算机设备 Download PDF

Info

Publication number
CN114330339A
CN114330339A CN202210200416.2A CN202210200416A CN114330339A CN 114330339 A CN114330339 A CN 114330339A CN 202210200416 A CN202210200416 A CN 202210200416A CN 114330339 A CN114330339 A CN 114330339A
Authority
CN
China
Prior art keywords
text
target
sample
target word
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210200416.2A
Other languages
English (en)
Other versions
CN114330339B (zh
Inventor
王存翔
罗福莉
李炎洋
许润昕
黄松芳
黄非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210200416.2A priority Critical patent/CN114330339B/zh
Publication of CN114330339A publication Critical patent/CN114330339A/zh
Application granted granted Critical
Publication of CN114330339B publication Critical patent/CN114330339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本处理方法、计算机可读存储介质及计算机设备。其中,该方法包括:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。本发明解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。

Description

文本处理方法、计算机可读存储介质及计算机设备
技术领域
本发明涉及文本处理技术领域,具体而言,涉及一种文本处理方法、计算机可读存储介质及计算机设备。
背景技术
预训练语言模型(Pre-trained language models, PLM)用于从文本中获取通用知识。
相关技术中,用于对文本进行处理的预训练语言模型有多种,包括:预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)、RoBERTa和生成式预训练模型(Generate Pre-Training Model,GPT),等等。这些预训练语言模型虽然能够大幅度提高许多自然语言处理任务的性能,但存在预训练语言模型在文本中知识学习能力差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法、计算机可读存储介质及计算机设备,以至少解决相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:获取多组样本数据,其中,所述多组样本数据包括样本文本;对所述样本文本中的第一目标词添加掩码,得到目标文本;从所述样本文本中查找到第二目标词;对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重;采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选地,在从所述样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,所述多组验证数据包括验证文本;基于所述多组验证数据包括的验证文本,确定所述第二目标词。
可选地,所述基于所述多组验证数据包括的验证文本,确定所述第二目标词包括:对所述多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计所述多个分词的出现次数;基于所述多个分词的出现次数,确定候选目标词;基于所述候选目标词,确定所述第二目标词。
可选地,所述基于所述候选目标词,确定所述第二目标词包括:在所述多组验证数据包括的所述验证文本中对所述候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对所述验证目标文本进行预测,得到第一预测结果,并基于所述多组验证数据对应的第一预测结果,统计所述多组验证数据的第一准确率;采用所述预定转换器模型对所述验证文本进行预测,得到第二预测结果,并基于所述多组验证数据对应的第二预测结果,统计所述多组验证数据的第二准确率;基于所述第一准确率和所述第二准确率,确定所述第二目标词。
可选地,所述基于所述第一准确率和所述第二准确率,确定所述第二目标词,包括:比较所述第一准确率和所述第二准确率,并在所述第一准确率高于所述第二准确率的情况下,确定所述候选目标词为所述第二目标词。
可选地,所述对所述样本文本所包括的分词标注识别权重包括:基于所述样本文本以及所述第二目标词,构建可视化矩阵,其中,所述可视化矩阵中的行和列均为所述样本文本所包括的分词,所述可视化矩阵中的元素用于标识所述元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识所述元素所在列对应的分词对所在行对应分词的识别权重。
可选地,所述第二目标词的识别权重为零,所述可视化矩阵的对角线上元素的识别权重非零。
根据本发明实施例的另一个方面,提供了一种文本处理方法,包括:接收目标文本;将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其它分词的可见性。
根据本发明实施例的另一个方面,提供了一种文本处理方法,包括:在交互界面上显示数据输入控件;响应于所述数据输入控件,接收多组样本数据,其中,所述多组样本数据包括样本文本;在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模型训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重。
根据本发明实施例的另一个方面,提供了一种文本处理装置,包括:第一获取模块,用于获取多组样本数据,其中,所述多组样本数据包括样本文本;第一添加模块,用于对所述样本文本中的第一目标词添加掩码,得到目标文本;第一查找模块,用于从所述样本文本中查找到第二目标词;第一标注模块,用于对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重;第一训练模块,用于采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
根据本发明实施例的另一个方面,提供了一种文本处理装置,包括:第一接收模块,用于接收目标文本;第一处理模块,用于将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其它分词的可见性。
根据本发明实施例的另一个方面,提供了一种文本处理装置,包括:第一显示模块,用于在交互界面上显示数据输入控件;第二接收模块,用于响应于所述数据输入控件,接收多组样本数据,其中,所述多组样本数据包括样本文本;第二显示模块,用于在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;第三显示模块,用于在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;第四显示模块,用于响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模块训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其它分词的识别权重。
根据本发明实施例的另一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的文本处理方法。
根据本发明实施例的另一个方面,提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行上述任意一项所述的文本处理方法。
在本发明实施例中,通过获取包括样本文本的多组样本数据,对样本文本中的第一目标词添加掩码,得到目标文本,并从样本文本中查找得到第二目标词,对样本文本中包括第二目标词的各分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重,然后使用对第一目标词进行掩码处理后的目标文本以及样本文本所包括分词的识别权重进行机器训练,获取目标转换器模型。在进行机器训练的过程中,由于用于训练的样本文本包括分词的识别权重,而样本文本中第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重,所以在训练的过程中,第二目标词对除第二目标词之外的其他分词注意力影响较小,甚至忽略不可见,这相当于对样本文本进行了去噪声处理,通过去除样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例一种用于实现文本处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种可选的文本处理方法的流程图;
图3是根据本发明实施例的另一种可选的文本处理方法的流程图;
图4是根据本发明实施例的又一种可选的文本处理方法的流程图;
图5是根据本发明实施方式的一种可选的文本处理方法的流程图;
图6是根据本发明实施方式的可视化矩阵的结构示意图;
图7是根据本发明实施例的一种可选的文本处理装置的结构框图;
图8是根据本发明实施例的另一种可选的文本处理装置的结构框图;
图9是根据本发明实施例的又一种可选的文本处理装置的结构框图;
图10是根据本发明实施例的一种计算机设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
自注意力(self-attention)模型,一种以文本词汇之间关联为基础的序列建模模型。
Transformer(转换器模型),一种基于自注意力的序列建模模型。
Softmax函数,归一化函数,用于将模型处理结果以权重的形式展现出来。
注意力掩码(Attention Mask),在自注意力操作中,设置为mask的位置的字符对其他位置的字符不可见。
实施例1
根据本发明实施例,还提供了一种文本处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个处理器(图中采用102a、102b,……,102n来示出,处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备中的部件的类型。
此处需要说明的是,在一些实施例中,上述图1所示的计算机设备具有触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。在一些实施例中,上述图1所示的计算机设备具有图像用户界面(GUI),用户可以通过触摸屏表面上的手指接触和/或手势来与GUI进行人机交互,此处的人机交互功能可选的包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或计算机可读存储介质中。
在上述运行环境下,本申请提供了如图2所示的一种可选的文本处理处理方法的流程图。图2是根据本发明实施例1的文本处理处理方法的流程图。如图2所示,本申请实施例所提供的文本处理方法可以通过如下步骤实现:
步骤S202,获取多组样本数据,其中,多组样本数据包括样本文本。
步骤S204,对样本文本中的第一目标词添加掩码,得到目标文本。
步骤S206,从样本文本中查找到第二目标词。
步骤S208,对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其它分词的识别权重。
步骤S210,采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
需要明白的是,样本文本包括的分词为对文本数据进行分词处理处理所得到的字、词语、词组,等等。例如,在文本数据“Guy-Lussac discovered that in waterhydrogen was present in twice the amount of oxygen”中,对该文本数据进行分词处理,所得到的分词包括: “Guy-Lussac”、“discovered”、“that”、“in”、“water”、“hydrogen”、“was”、“present”、“in”、“twice”、“the”、“amount”、“of”、“oxygen”。又例如,在文本数据“乔治出生在纽约这个美丽的城市”,该文本中的分词包括“乔治”、“出生在”、“纽约”、“这个”、“美丽的”、“城市”。
相关技术中,有两种方法可用来增强预训练语言模型。一种是引入结构化知识库,另一种是引入知识型的非结构化知识库。与结构化知识库相比,非结构化知识库更容易获取和构建,且非结构化知识库的格式更自由,其表达复杂知识的能力更强。但非结构化知识库中通常存在很多噪声,也有很多非知识型的内容,导致模型把过多的注意力放在了和知识不相关的内容上,使模型并不能很好的在文本中学习知识。
在本可选实施例中,第二目标词的识别权重小于样本文本中除第二目标词之外的其他分词的识别权重,则在使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练时,样本文本中第二目标词对除第二目标词之外的其他分词注意力影响较小,甚至忽略不可见,这相当于对样本文本进行了去噪声处理,去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
在一些可选实施例中,第二目标词可以为多个,第二目标词的识别权重为零。在在进行机器训练的过重中,样本文本多个第二目标词对除多个第二目标词之外的其他分词不可见,由此提高了模型的知识学习能力以及模型在训练时的知识学习效率。
在一些可选实施例中,在从样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,多组验证数据包括验证文本;基于多组验证数据包括的验证文本,确定第二目标词。通过多组验证数据包括的验证文本确定第二目标词,提高了第二目标词的准确性,提高了模型在训练时的知识学习效率。
在一些可选实施例中,基于多组验证数据包括的验证文本,确定第二目标词的方法可包括:对多组验证数据包括的验证文本分别进行分词处理,得到多个分词,分别统计多个分词的出现次数;基于多个分词的出现次数,确定候选目标词;基于候选目标词,确定第二目标词。
需要明白的是,在文本数据中,连词、定冠词等词出现的次数通常比较高,而这些词对文本有用信息的贡献较小。在本可选实施例中,通过分词的出现次数确定候选目标词,可以大概率的将诸如连词、定冠词等对文本有用信息贡献较小的词确定为候选目标词,然后基于候选目标词确定第二目标词,由此提高了确定第二目标词的准确性。根据统计次数确定候选目标词,再由候选目标词确定第二目标词,方法简单,提高了确定第二目标词的效率。
在一些可选实施例中,确定第二目标词的方法可包括:在多组验证数据包括的验证文本中对候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对验证目标文本进行预测,得到第一预测结果,并基于多组验证数据对应的第一预测结果,统计多组验证数据的第一准确率;采用预定转换器模型对验证文本进行预测,得到第二预测结果,并基于多组验证数据对应的第二预测结果,统计多组验证数据的第二准确率;基于第一准确率和第二准确率,确定第二目标词。由此,提高了确定第二目标词的准确性。
在一些可选实施例中,得到第一准确率的方法包括:将目标文本中的候选目标词设定为不可见并可视化矩阵,采用预定转换器模型对验证目标文本进行预测得到第一预测结果,并基于多组验证数据对应的第一预测结果得到第一准确率。得到第二准确率的方法包括:将目标文本中的各分词均设定为可见并构建可视化矩阵,采用预定转换器模型对验证目标文本进行预测得到第二预测结果,并基于多组验证数据对应的第二预测结果得到第二准确率。
在一些可选实施例中,基于第一准确率和第二准确率确定第二目标词的方法可包括:比较第一准确率和第二准确率,并在第一准确率高于第二准确率的情况下,确定候选目标词为第二目标词。在第一准确率高于第二准确率的情况下,说明将候选词目标词设定为不可见时统计得到的预测结果的正确率更高,将该候选词设定为不可见更有利,所以应该将该候选词设定为识别权重较小的第二目标词。根据第一准确率和第二准确率的对比结果确定第二目标词,提高了确定第二目标词的准确性和处理效率。
在一些可选实施例中,对样本文本所包括的分词标注识别权重的方法可包括:基于样本文本以及第二目标词,构建可视化矩阵,其中,可视化矩阵中的行和列均为样本文本所包括的分词,可视化矩阵中的元素用于标识元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识元素所在列对应的分词对所在行对应分词的识别权重。通过可视化矩阵对样本文本中的各分词进行识别权重标识,然后根据目标文本以及样本文本所包含的分词的识别权重进行机器训练,提高了处理效率和准确性,并提高了模型的知识学习能力。
在一个可选实施例中,将第二目标词的识别权重设定为零,将可视化矩阵的对角线上元素的识别权重设定为非零。由此构建的可视化矩阵中,第二目标词对应的列中除对角线位置外的其他位置的识别权重均为零。基于该可视化矩阵样本文本中的各分词进行识别权重标识,然后根据目标文本以及样本文本所包含的分词的识别权重进行机器训练,提高了处理效率和准确性,并提高了模型的知识学习能力。
图3是根据本发明实施例提供的另一种可选的文本处理方法的流程图,参照图3所示,文本处理方法可包括如下步骤:
步骤S302,接收目标文本;
步骤S304,将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本,对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其它分词的可见性。
在本可选实施例中,通过如下样本进行机器训练得到目标转换模型:样本文本、加入掩码的目标文本,以及样本文本对应的用于标识对样本文本所包括的分词进行识别时其他分词的可见性的可视化矩阵。提高了模型的知识学习能力以及模型在训练时的知识学习效率,使得用得到的目标转换器模型对目标文本进行识别时,得到的识别结果也是更为准确的。有效地解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
图4是根据本发明实施例提供的另一种可选的文本处理方法的流程图,参照图4所示,文本处理方法可包括如下步骤:
步骤S402,在交互界面上显示数据输入控件;
步骤S404,响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;
步骤S406,在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;
步骤S408,在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;
步骤S410,响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其它分词的识别权重。
在本可选实施例中,通过交互界面上显示的数据输入控件接收多组包括样本文本的样本数据,并在交互界面上在样本文本中的第一目标词添加掩码后所得到的目标文本,以及从样本文本中查找得到的第二目标词,响应于对模型训练控件的操作,获取模型训练结果,并将获取的结果在交互界面上显示。该方法提高了模型的知识学习能力以及模型在训练时的知识学习效率,而且能够直观地知晓模型的训练过程和逻辑,有效地解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
基于上述实施例及可选实施例,提供了一种可选实施方式,下面具体说明。
相关技术中,如何为预训练语言模型学习更多知识仍然是一个未解决的问题。而在闭卷式问答(Closes-book QA)和知识图谱推理(Knowledge Graph Reasoning)等密集型任务中,更难提高预训练语言模型知识学习能力。
鉴于此,在本公开实施方式中,提供了一种文本处理方法,通过对第一样本文本中的第一目标词进行掩码操作获取目标文本,确定第二目标词并将第二目标词的识别权重设定为小于样本文本中除第二目标词之外的其他分词的识别权重,然后使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练,因为样本文本中第二目标词的识别权重低,第二目标词对除第二目标词之外的其他分词不可见,由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
图5是根据本发明实施方式的一种可选的文本处理方法的流程图。参照图5所示,文本处理方法包括如下步骤:
获取输入文本。将输入文本标记为词语(相当于上述实施例中的分词)集合T={
Figure DEST_PATH_IMAGE001
,
Figure 87254DEST_PATH_IMAGE002
, ...,
Figure DEST_PATH_IMAGE003
},其中,T为词语集合,
Figure 477784DEST_PATH_IMAGE001
,
Figure 352199DEST_PATH_IMAGE002
, ...,
Figure 728953DEST_PATH_IMAGE003
分别表示第1,2,…,
Figure 5214DEST_PATH_IMAGE004
个词语。
确定第一目标词,对第一目标词添加掩码,获取掩码后的输入文本(相当于上述实施例中的目标文本)。例如,词语集合T中的第
Figure DEST_PATH_IMAGE005
个位置的词语和第
Figure 301066DEST_PATH_IMAGE006
个位置的词语为第一目标词,则为其添加特殊字符<mask>。其中,确定第一目标词的方法可包括:根据经验数据进行人工确定。
对于一个基于转换器模型(Transformer模型)的预训练语言模型,对于模型的第
Figure DEST_PATH_IMAGE007
层,将其输入的向量
Figure 866040DEST_PATH_IMAGE008
设定为
Figure DEST_PATH_IMAGE009
={
Figure 171119DEST_PATH_IMAGE010
,
Figure DEST_PATH_IMAGE011
, ...,
Figure 505148DEST_PATH_IMAGE012
},其中,
Figure 909585DEST_PATH_IMAGE010
,
Figure 820909DEST_PATH_IMAGE011
, ...,
Figure 336204DEST_PATH_IMAGE012
分别为第1.2…
Figure 524740DEST_PATH_IMAGE004
个输入数据。则第
Figure 427974DEST_PATH_IMAGE007
层第
Figure DEST_PATH_IMAGE013
个注意力头输出
Figure 967540DEST_PATH_IMAGE014
为:
Figure 20946DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
为向量组
Figure 722711DEST_PATH_IMAGE018
和方阵组
Figure DEST_PATH_IMAGE019
的维度。其中,
Figure 672212DEST_PATH_IMAGE019
=
Figure 292549DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
Figure 618488DEST_PATH_IMAGE022
为第
Figure 578354DEST_PATH_IMAGE013
个注意力头的Query值和Key值。
需要明白的是,转换器模型的核心为自注意力机制(self-attention),自注意力机制是指利用输入样本自身的关系构建注意力模型。在自注意力机制中引入了如下三个元素:Query、Key、Value。
以第
Figure 557811DEST_PATH_IMAGE013
个注意力头为例,其Query值
Figure 603128DEST_PATH_IMAGE021
、Key值
Figure 263916DEST_PATH_IMAGE022
、Value值
Figure DEST_PATH_IMAGE023
可以用如下公式表示:
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE029
其中,
Figure 78288DEST_PATH_IMAGE030
是第
Figure 431909DEST_PATH_IMAGE007
层的输入,
Figure DEST_PATH_IMAGE031
表示
Figure 292418DEST_PATH_IMAGE032
维度的实数矩阵,n表示输入文本的序列长度,
Figure DEST_PATH_IMAGE033
分别是注意力头
Figure 960160DEST_PATH_IMAGE013
的Query值、Key值和Value值的投影矩阵。
Figure 691355DEST_PATH_IMAGE007
层的输出(同时也为第
Figure 419140DEST_PATH_IMAGE007
+1层的输入)
Figure 439049DEST_PATH_IMAGE034
为:
Figure 503957DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
为映射矩阵,
Figure 496183DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
表示
Figure 519503DEST_PATH_IMAGE040
维度的实数矩阵,
Figure DEST_PATH_IMAGE041
表示第p层注意力头的个数,
Figure 761128DEST_PATH_IMAGE042
表示隐藏态(hidden states)的维度,
Figure DEST_PATH_IMAGE043
分别表示第p层第
Figure 770673DEST_PATH_IMAGE044
个注意力头的输出,Concat为向量的拼接操作。
输入文本T在进行词向量映射后作为第一层的输入,标记为
Figure DEST_PATH_IMAGE045
其中,将第
Figure DEST_PATH_IMAGE047
个位置的词语和第
Figure 207952DEST_PATH_IMAGE048
个位置的词语作为为第一目标词,对其进行了掩码操作。则对于第
Figure DEST_PATH_IMAGE049
个位置和第
Figure 136593DEST_PATH_IMAGE048
个位置被掩码的词语,其在
Figure 131094DEST_PATH_IMAGE050
层(最后一层)对应位置的输出分别为
Figure DEST_PATH_IMAGE051
Figure 678750DEST_PATH_IMAGE052
,对该两个输出进行投影操作,可得到第
Figure DEST_PATH_IMAGE053
个位置的词语的预测值
Figure 770203DEST_PATH_IMAGE054
,以及第
Figure 479533DEST_PATH_IMAGE048
个位置的词语的预测值
Figure DEST_PATH_IMAGE055
Figure 289226DEST_PATH_IMAGE054
Figure 437311DEST_PATH_IMAGE056
分别表示为:
Figure 993057DEST_PATH_IMAGE058
Figure 201184DEST_PATH_IMAGE060
其中,
Figure DEST_PATH_IMAGE061
为词表数据,
Figure 232594DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
表示维度为
Figure 856474DEST_PATH_IMAGE064
的实数矩阵,
Figure DEST_PATH_IMAGE065
表示词表长度。
Figure 922519DEST_PATH_IMAGE066
与第i个位置的词语
Figure DEST_PATH_IMAGE067
相同,则我们认为模型对
Figure 239231DEST_PATH_IMAGE067
预测正确,否则为失败,对第j个位置的词语
Figure 430040DEST_PATH_IMAGE068
同理。
利用模型找到有害词,根据输入文本和有害词构建可视化矩阵。
以输入文本为“Canarian islands are located off the coast of Africa”为例,对可视化矩阵的构建进行说明。
输入文本T={
Figure 982244DEST_PATH_IMAGE001
,
Figure 574900DEST_PATH_IMAGE002
, ...,
Figure DEST_PATH_IMAGE069
}中的各元素分别为“Canarian”、“islands”、“are”、“located”、“off”、“the”、“coast”、“of”、“Africa”。
设定一个
Figure 328092DEST_PATH_IMAGE070
的矩阵
Figure DEST_PATH_IMAGE071
,将矩阵
Figure 334094DEST_PATH_IMAGE071
中每个位置元素的初始值设定为1。其中,不可见词为“are”和“the”,则对于矩阵
Figure 299776DEST_PATH_IMAGE071
,可将“are”和“the”对应的列的元素的值设定为0。需要明白的是,矩阵
Figure 746938DEST_PATH_IMAGE071
中各位置元素的值为对应元素的识别权重。
将矩阵
Figure 202190DEST_PATH_IMAGE071
的对角线位置元素的值设定为1,由此获取与输入文本为“Canarianislands are located off the coast of Africa”对应的可视化矩阵(VisibilityMatrix),该可视化矩阵的示意图如图6所示,在图6中颜色较深的位置的元素的值为1,颜色较浅的位置的元素的值为0。在该输入文本中,“are”和“the”的元素的值(相当于上述实施例中的识别权重值)为0,“are”和“the”对除“are”和“the”之外的词语不可见,但“are”和“the”对其自身可见,“are”和“the”相当于输入文本“Canarian islands are located offthe coast of Africa”中的有害词。
可视化矩阵在转换器模型的自注意力机制中的作用如下所示:
对于一个机遇转换器模型的预训练语言模型,对于其中的第
Figure 698418DEST_PATH_IMAGE007
层,可将其输入向量
Figure 467791DEST_PATH_IMAGE072
标记为:
Figure DEST_PATH_IMAGE073
在不计入可视化矩阵时,第
Figure 97356DEST_PATH_IMAGE007
层第
Figure 989088DEST_PATH_IMAGE013
个注意力头输出
Figure 579470DEST_PATH_IMAGE014
为:
Figure 949271DEST_PATH_IMAGE074
在计入可视化矩阵时,模型第
Figure 433342DEST_PATH_IMAGE007
层第
Figure 495976DEST_PATH_IMAGE013
个注意力头输出
Figure 308074DEST_PATH_IMAGE014
变为:
Figure 747146DEST_PATH_IMAGE076
其中,
Figure DEST_PATH_IMAGE077
表示可视化矩阵。
需要明白的是,输入文本中第i个位置的词语对应矩阵中第i行和第i列,输入文本中第j个位置的词语对应矩阵中第j行和第j列。在模型训练的过程中,以
Figure 351302DEST_PATH_IMAGE078
表示矩阵,
Figure DEST_PATH_IMAGE079
Figure 522521DEST_PATH_IMAGE080
表示
Figure 884232DEST_PATH_IMAGE070
维度的实数矩阵,
Figure DEST_PATH_IMAGE081
表示矩阵
Figure 923732DEST_PATH_IMAGE078
中第i行第j列的元素值。当输入文本中第i个位置的词语不可见第j个词语,则
Figure 257761DEST_PATH_IMAGE082
,对应的可视化矩阵
Figure DEST_PATH_IMAGE083
中第i行第j列的元素值
Figure 990094DEST_PATH_IMAGE084
=0。当输入文本中第i个词语可见第j个词语,则
Figure DEST_PATH_IMAGE085
,对应的可视化矩阵
Figure 42364DEST_PATH_IMAGE083
中第i行第j列的元素值
Figure 557659DEST_PATH_IMAGE084
=1。
利用模型找到有害词的方法包括如下步骤:
对输入文本进行分词处理,由此获取分词处理后的一组分词。
统计个分词出现的次数,对于出现次数大于设定次数阈值
Figure 870828DEST_PATH_IMAGE086
的分词,将其作为候选目标词,并将各候选目标词放入候选目标词集合
Figure DEST_PATH_IMAGE087
中。
在输入文本中加入特殊标识符<s>、</s>> 、<pad>,并将第一目标词设置为特殊字符<mask>。
设置一个空集合
Figure 649428DEST_PATH_IMAGE088
用于存放有害词。其中,有害词指的是相对于其他分词不可见的分词,相当于上述实施例中的第二目标词。
以输入文本“Canarian islands are located off the coast of africa”为例,对有害词进行说明,其中的“are”和“the”为有害词,有害词对文本数据有用信息的影响不大,且会影响模型知识学习的效率和训练的效率,通过将其识别权重设定为0,使其对其他的分词不可见。
构造一个元素全是1的可视化矩阵,并让模型对一组验证文本进行预测,得到一组预测结果,统计该一组预测结果中预测正确的个数和错误的个数,由此获取预测的正确率
Figure DEST_PATH_IMAGE089
(相当于上述实施例中的第二准确率)。
对于候选目标词集合
Figure 313628DEST_PATH_IMAGE087
中的各个候选目标词,将其设定为不可见(识别权重设定为0),然后获取预测的正确率
Figure 632614DEST_PATH_IMAGE090
(相当于上述实施例中的第一准确率)。
如果
Figure 675656DEST_PATH_IMAGE090
>
Figure 421895DEST_PATH_IMAGE089
,则认为该候选目标词为有害词,将其加入集合
Figure 62740DEST_PATH_IMAGE088
中。
对候选目标词集合
Figure 185417DEST_PATH_IMAGE087
中的各候选目标词均进行有害词判定,由此获取输入文本中的所有有害词(相当于上述实施例中的第二目标值)。
现有技术中的注意力掩码(Attention Mask)策略只对输入文本中的<pad>进行注意力掩码,无法让模型对知识相关的内容有针对性的进行学习。现有技术中的掩码矩阵(Mask Matrix),是先对输入文本中的某些字符进行掩码并将其标记为特殊标识符<mask>,然后让这些<mask>标识符对应的字符不被其他字符关注对,即这些<mask>标识符对应的字符对其他字符不可见。现有技术中的掩码矩阵(Mask Matrix)依赖于事先进行的输入掩码操作,并且这个掩码操作通常是随机的,无法加强模型对知识的学习,且<mask>标识符对应的字符对自身也不可见。
在一个例子中,分别使用没有预训练的RoBERTa模型(A Robustly OptimizedBERT Pre-training Approach,鲁棒优化的BERT预训练模型)、利用随机掩码进行训练的RoBERTa-Cont模型(A Robustly Optimized BERT Pre-training Approach-Cont,鲁棒优化的连续BERT预训练模型)、利用掩码和可视化矩阵进行训练的RoBERTa-Cont-VM模型(本申请的方案),对名为LAMA SQuAD、LAMA Google RE、Closed-book QA、KG Reasoning的任务进行正确率测试。
其中,RoBERTa模型、RoBERTa-Cont模型均为预训练语言模型。
其中,LAMA SQuAD是LAMA从SQuAD的开发集中挑选的305个具有单个单词或词语(token)答案且上下文不敏感的问题。LAMA Google RE是LAMA对一些已有的NLP数据集的整合,包含了Goole RE中的三种实体关系知识,这三种实体关系包括出生地、死亡地和出生日期。Closed-book QA是指闭卷问答。KG Reasoning,即Knowledge Graph Reasoning(知识图谱推理)。LAMA SQuAD、LAMA Google RE、Closed-book QA和KG Reasoning均为知识密集型任务。
测试结果如表1所示。
表1
LAMA SQuAD LAMA Google RE Closed-book QA KG Reasoning
RoBERTa 16.4 24.6 0.0 2.6
RoBERTa-Cont 33.6 58.4 37.9 28.1
RoBERTa-Cont-VM 38.5 62.8 43.8 29.7
其中,参照表1所示,本申请的方案在LAMA SQuAD、LAMA Google RE、Closed-bookQA、KG Reasoning任务中分别取得了38.5%、62.8%、43.10%和29.7%的正确率,比RoBERTa-Cont模型在四种任务中的正确率分别对应提高了4.9%、4.4%、5.9%和1.6%,比RoBERTa-Cont模型在四种任务中的正确率分别对应提高了22.1%、38.2%、43.8%和27.1%。由此可知,本申请在文本任务中的正确率更高。
在上述可选实施例中,提出了可见性矩阵机制,用于帮助预训练语言模型在没有标注数据的情况下,从非结构化知识库中更好的学习知识。相对于现有技术中的注意力掩码策略,上述可选实施例通过实现搜索有害词,让这些对模型知识学习有害的有害词都对其他分词不可见,这相当于进一步去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。在去除样本文本中非知识型内容的过程中,不需要对对样本文本做任何标注信息。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率。且通过将可视化矩阵对角线位置元素的标识权重设定为1,实现了让有害词对自身可见。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本处理方法的装置,图7是根据本发明实施例提供的一种可选的文本处理装置的结构框图,如图7所示,该装置包括:第一获取模块702,第一添加模块704,第一查找模块706,第一标注模块708和第一训练模块710,下面分别说明。
第一获取模块702,用于获取多组样本数据,其中,多组样本数据包括样本文本;第一添加模块704,连接于上述第一获取模块702,用于对样本文本中的第一目标词添加掩码,得到目标文本;第一查找模块706,连接于上述第一添加模块704,用于从样本文本中查找到第二目标词;第一标注模块708,连接于上述第一查找模块706,用于对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;第一训练模块710,连接于上述第一标注模块708,用于采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
此处需要说明的是,上述第一获取模块702、第一添加模块704、第一查找模块706、第一标注模块708、第一训练模块710对应于实施例1中的步骤S202至步骤S210,各模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
图8是根据本发明实施例的另一种可选的文本处理方法装置的结构框图,如图8所示,装置包括:第一接收模块802和第一处理模块804,下面对该装置进行说明。
第一接收模块802,用于接收目标文本;第一处理模块804,连接于上述第一接收模块802,用于将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其他分词的可见性。
此处需要说明的是,上述第一接收模块802、第一处理模块804对应于实施例1中的步骤S302至步骤S304,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
图9是根据本发明实施例的又一种可选的文本处理装置的结构框图,如图9所示,该装置包括:第一显示模块902,第二接收模块904,第二显示模块906,第三显示模块908和第四显示模块910,下面对该装置进行说明。
第一显示模块902,用于在交互界面上显示数据输入控件;第二接收模块904,连接于上述第一显示模块902,用于响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;第二显示模块906,连接于上述第二接收模块904,用于在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;第三显示模块908,连接于上述第二显示模块906,用于在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;第四显示模块910,连接于上述第三显示模块908,用于响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重。
此处需要说明的是,上述第一显示模块902、第二接收模块904、第二显示模块906、第三显示模块908和第四显示模块910分别对应于实施例1中的步骤S402至步骤S410,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
本可选实施例提供的文本处理方法装置,可用于实现上述文本处理方法,通过分别获取多个通道的选路得分,根据多个通道的选路得分,从多个通道中选择目标通道,基于目标通道的运营商切换策略,对通道中用于接收通道中第一节点传输的多个运营商的流量的第二节点所接收的多个运营商的流量进行均衡处理,解决了相关技术中各个边缘节点均通过中转节点进行回源调度所造成的带宽费用昂贵,以及中转节点负载过大,超出中转节点处理能力的问题。
实施例3
本发明的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的文本处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:从样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,多组验证数据包括验证文本;基于多组验证数据包括的验证文本,确定第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于多组验证数据包括的验证文本,确定第二目标词,包括:对多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计多个分词的出现次数;基于多个分词的出现次数,确定候选目标词;基于候选目标词,确定第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于候选目标词,确定第二目标词,包括:在多组验证数据包括的验证文本中对候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对验证目标文本进行预测,得到第一预测结果,并基于多组验证数据对应的第一预测结果,统计多组验证数据的第一准确率;采用预定转换器模型对验证文本进行预测,得到第二预测结果,并基于多组验证数据对应的第二预测结果,统计多组验证数据的第二准确率;基于第一准确率和第二准确率,确定第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于第一准确率和第二准确率,确定第二目标词,包括:比较第一准确率和第二准确率,并在第一准确率高于第二准确率的情况下,确定候选目标词为第二目标词。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:对样本文本所包括的分词标注识别权重包括:基于样本文本以及第二目标词,构建可视化矩阵,其中,可视化矩阵中的行和列均为样本文本所包括的分词,可视化矩阵中的元素用于标识元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识元素所在列对应的分词对所在行对应分词的识别权重。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:第二目标词的识别权重为零,可视化矩阵的对角线上的元素的识别权重非零。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:接收目标文本;将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其他分词的可见性。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在交互界面上显示数据输入控件;响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重。
在本发明实施例中,计算机可读存储介质包括存储的程序,在程序运行时控制计算机可读存储介质在设备执行文本处理方法,通过第二目标词的识别权重小于样本文本中除第二目标词之外的其他分词的识别权重,则在使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练时,样本文本中第二目标词对除第二目标词之外的其他分词不可见,这相当于对样本文本进行了去噪处理,去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
本发明的实施例可以提供一种计算机设备,该计算机设备可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机设备可以执行应用程序的文本处理方法中以下步骤的程序代码:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选地,图10是根据本发明实施例的一种计算机设备的结构框图。如图10所示,该计算机设备可以包括:一个或多个(图中仅示出一个)处理器1002、存储器1004等。
其中,存储器1004可用于存储软件程序以及模块,如本发明实施例中的文本处理方法和装置对应的程序指令/模块,处理器1002通过运行存储在存储器1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理方法。存储器1004可包括高速随机存储器1004,还可以包括非易失性存储器1004,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器1004。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器1004,这些远程存储器1004可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器1002可以通过传输装置调用存储器1004存储的信息及应用程序,以执行下述步骤:获取多组样本数据,其中,多组样本数据包括样本文本;对样本文本中的第一目标词添加掩码,得到目标文本;从样本文本中查找到第二目标词;对样本文本所包括的分词标注识别权重,其中,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重;采用目标文本以及样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
可选的,上述处理器1002还可以执行如下步骤的程序代码:从样本文本中查找到第二目标词之前,还包括:获取多组验证数据,其中,多组验证数据包括验证文本;基于多组验证数据包括的验证文本,确定第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:基于多组验证数据包括的验证文本,确定第二目标词,包括:对多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;分别统计多个分词的出现次数;基于多个分词的出现次数,确定候选目标词;基于候选目标词,确定第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:基于候选目标词,确定第二目标词,包括:在多组验证数据包括的验证文本中对候选目标词进行掩码操作,得到验证目标文本;采用预定转换器模型对验证目标文本进行预测,得到第一预测结果,并基于多组验证数据对应的第一预测结果,统计多组验证数据的第一准确率;采用预定转换器模型对验证文本进行预测,得到第二预测结果,并基于多组验证数据对应的第二预测结果,统计多组验证数据的第二准确率;基于第一准确率和第二准确率,确定第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:基于第一准确率和第二准确率,确定第二目标词,包括:比较第一准确率和第二准确率,并在第一准确率高于第二准确率的情况下,确定候选目标词为第二目标词。
可选的,上述处理器1002还可以执行如下步骤的程序代码:对样本文本所包括的分词标注识别权重包括:基于样本文本以及第二目标词,构建可视化矩阵,其中,可视化矩阵中的行和列均为样本文本所包括的分词,可视化矩阵中的元素用于标识元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识元素所在列对应的分词对所在行对应分词的识别权重。
可选的,上述处理器1002还可以执行如下步骤的程序代码:第二目标词的识别权重为零,可视化矩阵的对角线上的元素的识别权重非零。
可选的,上述处理器1002还可以执行如下步骤的程序代码:接收目标文本;将目标文本输入目标转换器模型,得到目标文本的识别结果,其中,目标转换器模型采用多组样本数据进行训练得到,多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及样本文本对应的可视化矩阵,可视化矩阵用于标识对样本文本所包括的分词进行识别时其他分词的可见性。
可选的,上述处理器1002还可以执行如下步骤的程序代码:在交互界面上显示数据输入控件;响应于数据输入控件,接收多组样本数据,其中,多组样本数据包括样本文本;在交互界面上显示目标文本,其中,目标文本为对样本文本中的第一目标词添加掩码后得到的;在交互界面上对从样本文本中查找到的第二目标词进行高亮显示;响应于对模型训练控件的操作,在交互界面上显示模型训练结果,其中,模型训练结果用于标识目标转换器模型,目标转换器模型采用目标文本以及样本文本所包括的分词的识别权重进行机器训练得到,第二目标词的识别权重小于除第二目标词之外的其他分词的识别权重。
处理器1002可以通过传输装置调用存储器1004存储的信息及应用程序,以执行下述步骤:在交互界面上显示显示选路控件;响应于对选路控件的操作,在交互界面上显示多个通道的选路得分,其中,多个通道为多个第一节点到第二节点的通道,第二节点接收从多个第一节点传输的多个运营商的流量;在交互界面上突出显示目标通道,其中,目标通道为基于多个通道的选路得分从多个通道中选择得到的;在交互界面上显示文本处理结果,其中,文本处理结果基于目标通道的运营商切换策略,对第二节点接收的多个运营商的流量进行均衡处理得到。
在本发明实施例中,提供了一种文本处理方法,第二目标词的识别权重小于样本文本中除第二目标词之外的其他分词的识别权重,则在使用包括进行掩码处理的目标文本以及样本文本所包括分词的识别权重进行机器训练时,样本文本中第二目标词对除第二目标词之外的其他分词注意力影响较小,甚至忽略不可见,这相当于对样本文本进行了去噪声处理,去除了样本文本中非知识型的内容,使模型可以把注意力放在和知识相关的内容上。由此提高了模型的知识学习能力以及模型在训练时的知识学习效率,解决了相关技术中预训练语言模型在文本中知识学习能力差的技术问题。
本领域普通技术人员可以理解,图10所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,计算机可读存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种文本处理方法,其特征在于,包括:
获取多组样本数据,其中,所述多组样本数据包括样本文本;
对所述样本文本中的第一目标词添加掩码,得到目标文本;
从所述样本文本中查找到第二目标词;
对所述样本文本所包括的分词标注识别权重,其中,所述第二目标词的识别权重小于除所述第二目标词之外的其他分词的识别权重;
采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练,得到目标转换器模型。
2.根据权利要求1所述的方法,其特征在于,从所述样本文本中查找到第二目标词之前,还包括:
获取多组验证数据,其中,所述多组验证数据包括验证文本;
基于所述多组验证数据包括的验证文本,确定所述第二目标词。
3.根据权利要求2所述的方法,其特征在于,基于所述多组验证数据包括的验证文本,确定所述第二目标词,包括:
对所述多组验证数据所包括的验证文本分别进行分词处理,得到多个分词;
分别统计所述多个分词的出现次数;
基于所述多个分词的出现次数,确定候选目标词;
基于所述候选目标词,确定所述第二目标词。
4.根据权利要求3所述的方法,其特征在于,所述基于所述候选目标词,确定所述第二目标词,包括:
在所述多组验证数据包括的所述验证文本中对所述候选目标词进行掩码操作,得到验证目标文本;
采用预定转换器模型对所述验证目标文本进行预测,得到第一预测结果,并基于所述多组验证数据对应的第一预测结果,统计所述多组验证数据的第一准确率;
采用所述预定转换器模型对所述验证文本进行预测,得到第二预测结果,并基于所述多组验证数据对应的第二预测结果,统计所述多组验证数据的第二准确率;
基于所述第一准确率和第二准确率,确定所述第二目标词。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一准确率和第二准确率,确定所述第二目标词,包括:
比较所述第一准确率和所述第二准确率,并在所述第一准确率高于所述第二准确率的情况下,确定所述候选目标词为所述第二目标词。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述对所述样本文本所包括的分词标注识别权重包括:
基于所述样本文本以及所述第二目标词,构建可视化矩阵,其中,所述可视化矩阵中的行和列均为所述样本文本所包括的分词,所述可视化矩阵中的元素用于标识所述元素所在行对应的分词对所在列对应分词的识别权重,或者用于标识所述元素所在列对应的分词对所在行对应分词的识别权重。
7.根据权利要求6所述的方法,其特征在于,所述第二目标词的识别权重为零,所述可视化矩阵的对角线上的元素的识别权重非零。
8.一种文本处理方法,其特征在于,包括:
接收目标文本;
将所述目标文本输入目标转换器模型,得到所述目标文本的识别结果,其中,所述目标转换器模型采用多组样本数据进行训练得到,所述多组样本数据包括:样本文本、对样本文本加入掩码的目标文本,以及所述样本文本对应的可视化矩阵,所述可视化矩阵用于标识对所述样本文本所包括的分词进行识别时其他分词的可见性。
9.一种文本处理方法,其特征在于,包括:
在交互界面上显示数据输入控件;
响应于所述数据输入控件,接收多组样本数据,其中,所述多组样本数据包括样本文本;
在所述交互界面上显示目标文本,其中,所述目标文本为对所述样本文本中的第一目标词添加掩码后得到的;
在所述交互界面上对从所述样本文本中查找到的第二目标词进行高亮显示;
响应于对模型训练控件的操作,在所述交互界面上显示模型训练结果,其中,所述模型训练结果用于标识目标转换器模型,所述目标转换器模型采用所述目标文本以及所述样本文本所包括的分词的识别权重进行机器训练得到,所述第二目标词的识别权重小于除所述第二目标词之外的其他分词的识别权重。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的文本处理方法。
11.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至9中任意一项所述的文本处理方法。
CN202210200416.2A 2022-03-03 2022-03-03 文本处理方法、计算机可读存储介质及计算机设备 Active CN114330339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210200416.2A CN114330339B (zh) 2022-03-03 2022-03-03 文本处理方法、计算机可读存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210200416.2A CN114330339B (zh) 2022-03-03 2022-03-03 文本处理方法、计算机可读存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN114330339A true CN114330339A (zh) 2022-04-12
CN114330339B CN114330339B (zh) 2022-06-24

Family

ID=81029840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210200416.2A Active CN114330339B (zh) 2022-03-03 2022-03-03 文本处理方法、计算机可读存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114330339B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与***
US20200143250A1 (en) * 2018-11-06 2020-05-07 Electronics And Telecommunications Research Institute Method and apparatus for compressing/decompressing deep learning model
CN111680145A (zh) * 2020-06-10 2020-09-18 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN112307777A (zh) * 2020-09-27 2021-02-02 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法及***
CN112800239A (zh) * 2021-01-22 2021-05-14 中信银行股份有限公司 意图识别模型训练方法、意图识别方法及装置
CN113361698A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 神经网络模型的处理方法和装置、数据处理方法和装置
CN113553864A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 翻译模型的训练方法、装置、电子设备及存储介质
US20210374334A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for training language model, electronic device and readable storage medium
CN113987162A (zh) * 2021-09-28 2022-01-28 润联智慧科技(西安)有限公司 文本摘要的生成方法、装置及计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与***
US20200143250A1 (en) * 2018-11-06 2020-05-07 Electronics And Telecommunications Research Institute Method and apparatus for compressing/decompressing deep learning model
CN113361698A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 神经网络模型的处理方法和装置、数据处理方法和装置
US20210374334A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for training language model, electronic device and readable storage medium
CN111680145A (zh) * 2020-06-10 2020-09-18 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN112307777A (zh) * 2020-09-27 2021-02-02 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法及***
CN112800239A (zh) * 2021-01-22 2021-05-14 中信银行股份有限公司 意图识别模型训练方法、意图识别方法及装置
CN113553864A (zh) * 2021-06-30 2021-10-26 北京百度网讯科技有限公司 翻译模型的训练方法、装置、电子设备及存储介质
CN113987162A (zh) * 2021-09-28 2022-01-28 润联智慧科技(西安)有限公司 文本摘要的生成方法、装置及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU W: "K-bert:Enabling language representation with knowledge graph", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLLIGENCE》 *
孙毅: "自然语言预训练模型知识增强方法综述", 《中文信息学报》 *

Also Published As

Publication number Publication date
CN114330339B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
WO2020199600A1 (zh) 情感极性分析方法及相关装置
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN115168592B (zh) 基于方面类别的语句情感分析方法、装置以及设备
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN113032520A (zh) 信息分析方法及装置、电子设备和计算机可读存储介质
CN111079433B (zh) 一种事件抽取方法、装置及电子设备
CN110532562B (zh) 神经网络训练方法、成语误用检测方法、装置和电子设备
CN115588193A (zh) 基于图注意力神经网络与视觉关系的视觉问答方法及装置
CN115129862A (zh) 语句实体处理方法、装置、计算机设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN111274813A (zh) 语言序列标注方法、装置存储介质及计算机设备
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN114330339B (zh) 文本处理方法、计算机可读存储介质及计算机设备
CN115905865A (zh) 文本合并判断模型的训练方法和文本合并判断方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant