CN114357974B - 相似样本语料的生成方法、装置、电子设备及存储介质 - Google Patents

相似样本语料的生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114357974B
CN114357974B CN202111622743.9A CN202111622743A CN114357974B CN 114357974 B CN114357974 B CN 114357974B CN 202111622743 A CN202111622743 A CN 202111622743A CN 114357974 B CN114357974 B CN 114357974B
Authority
CN
China
Prior art keywords
target
fusion result
model
text
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111622743.9A
Other languages
English (en)
Other versions
CN114357974A (zh
Inventor
张阳
漆骏锋
胡伯良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haitai Fangyuan High Technology Co Ltd
Original Assignee
Beijing Haitai Fangyuan High Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haitai Fangyuan High Technology Co Ltd filed Critical Beijing Haitai Fangyuan High Technology Co Ltd
Priority to CN202111622743.9A priority Critical patent/CN114357974B/zh
Publication of CN114357974A publication Critical patent/CN114357974A/zh
Application granted granted Critical
Publication of CN114357974B publication Critical patent/CN114357974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请涉及数据处理领域,尤其涉及一种相似样本语料的生成方法、装置、电子设备及存储介质,解决相似样本语料的生成过程复杂,以及难以生成有效相似样本语料的问题,方法为:获取目标领域的一个第一种子语句,以及其他领域中的各个第二种子语句,将第一种子语句输入添加噪音扰动的各个预训练模型,获得各个第一融合结果,以及获取根据各个第二种子语句确定的各个第二融合结果,再根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。这样,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。

Description

相似样本语料的生成方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种相似样本语料的生成方法、装置、电子设备及存储介质。
背景技术
随着机器学习技术的普遍应用,人们能够通过机器学习的方式,针对垂直领域中,不同领域下的文本分别构建相应的文本相似模型,以处理诸如文本相似任务、查重任务,以及检索任务。因此,为了实现对文本相似模型的训练,通常需要针对性的构建相似样本语料,其中,相似样本语料中包括相似正样本语料以及相似负样本语料。
目前,在针对不同领域下的文本相似模型,分别生成相应的相似样本语料时,通常借助于人工制定的生成规则,直接在原始相似样本语料中执行内容删除、内容替换,以及调换位置等操作,生成相似样本语料。
然而,现有的训练语料生成方式中,由于训练语料的生成质量直接依赖于生成规则制定的合理性,需要的人工干预程度高,因而语料样本的生成过程复杂,实现难度大,且能够生成的相似样本语料数量非常有限。另外,考虑到内容替换本身就需要借助于文本相似模型,因而在无法基于有效的相似样本语料实现对文本相似模型的训练的情况下,无法采用内容替换的方式,生成有效的相似样本语料。
有鉴于此,需要一种新的相似样本语料的生成方法,以解决上述问题。
发明内容
本申请实施例提供一种相似样本语料的生成方法、装置、电子设备及存储介质,用以解决现有技术中存在的相似样本语料的生成过程复杂,以及难以生成有效相似样本语料的问题。
本申请实施例提供的具体技术方案如下:
第一方面,提出一种相似样本语料的生成方法,应用于目标领域的相似样本语料生成过程中,包括:
获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词;
构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果;
在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果;
根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。
可选的,所述获取目标领域的第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,包括:
获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本;
将所述第一候选文本和第二候选文本处理为指定的编码格式,并对指定的编码格式的所述第一候选文本和第二候选文本,分别进行降噪处理和非法字符清理处理;
按照指定字符从处理后的第一候选文本中拆分得到一个第一种子语句,并按照所述指定字符从处理后的第二候选文本中拆分得到各个第二种子语句。
可选的,所述获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本,包括:
获取已训练的文本领域分类模型,其中,所述文本领域分类模型是基于各个领域的文本样本训练得到的;
将获取的各个候选文本分别输入所述文本领域分类模型中,获得所述各个所述候选文本各自对应的分类结果,并将归属于目标领域的候选文本作为第一候选文本,以及将不归属于所述目标领域的候选文本作为第二候选文本。
可选的,所述构建各个包括多层编码网络的预训练模型,包括:
获取一个包含多层编码网络的参考模型,确定所述参考模型中各层编码网络的注意力头数,以及各层编码网络中神经元的失活概率;
通过调整所述参考模型中编码网络的注意力头数,以及神经元的失活概率,构建各个包括多层编码网络的预训练模型。
可选的,在各个预训练模型中添加噪音扰动时,针对各个预训练模型,分别执行以下操作中的任意一项或组合:
基于配置的各个第一扰动因子,分别对各层编码网络的输入数据进行处理;
基于配置的各个第二扰动因子,分别对各层编码网络的模型参数进行处理;
基于配置的第三扰动因子,对反向传播时计算得到的梯度参数进行处理;
采用预设的各个第一噪音函数,分别对各层编码网络的输入数据进行处理;
采用预设的各个第二噪音函数,分别对各层编码网络的模型参数行处理;
采用预设的第三噪音函数,对反向传播时计算得到的梯度参数进行处理。
可选的,所述获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果,包括:
针对所述添加噪音扰动的各个预训练模型,分别执行以下操作:
确定一个添加噪音扰动的预训练模型中,归属于预设第一类层级的至少一个目标层级编码网络,并获得各个目标层级编码网络的输出向量;
将各个输出向量中各个相同位置的元素进行加权求和,得到对应的第一融合结果。
可选的,所述根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料,包括:
在各个第一融合结果中确定一个目标第一融合结果,并将所述目标第一融合结果,分别与所述各个第一融合结果中除所述目标第一融合结果外的,各个其他第一融合结果进行组合,得到各组相似正样本语料;
将所述目标第一融合结果,分别与各个第二融合结果进行组合,得到各组相似负样本语料。
第二方面,提出一种相似样本语料的生成装置,应用于目标领域的相似样本语料生成过程中,包括:
获取单元,用于获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词;
构建单元,用于构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果;
确定单元,用于在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果;
生成单元,用于根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。
可选的,所述获取目标领域的第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句时,所述获取单元用于:
获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本;
将所述第一候选文本和第二候选文本处理为指定的编码格式,并对指定的编码格式的所述第一候选文本和第二候选文本,分别进行降噪处理和非法字符清理处理;
按照指定字符从处理后的第一候选文本中拆分得到一个第一种子语句,并按照所述指定字符从处理后的第二候选文本中拆分得到各个第二种子语句。
可选的,所述获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本时,所述获取单元用于:
获取已训练的文本领域分类模型,其中,所述文本领域分类模型是基于各个领域的文本样本训练得到的;
将获取的各个候选文本分别输入所述文本领域分类模型中,获得所述各个所述候选文本各自对应的分类结果,并将归属于目标领域的候选文本作为第一候选文本,以及将不归属于所述目标领域的候选文本作为第二候选文本。
可选的,所述构建各个包括多层编码网络的预训练模型时,所述构建单元用于:
获取一个包含多层编码网络的参考模型,确定所述参考模型中各层编码网络的注意力头数,以及各层编码网络中神经元的失活概率;
通过调整所述参考模型中编码网络的注意力头数,以及神经元的失活概率,构建各个包括多层编码网络的预训练模型。
可选的,在各个预训练模型中添加噪音扰动时,所述构建单元针对各个预训练模型,分别执行以下操作中的任意一项或组合:
基于配置的各个第一扰动因子,分别对各层编码网络的输入数据进行处理;
基于配置的各个第二扰动因子,分别对各层编码网络的模型参数进行处理;
基于配置的第三扰动因子,对反向传播时计算得到的梯度参数进行处理;
采用预设的各个第一噪音函数,分别对各层编码网络的输入数据进行处理;
采用预设的各个第二噪音函数,分别对各层编码网络的模型参数行处理;
采用预设的第三噪音函数,对反向传播时计算得到的梯度参数进行处理。
可选的,所述获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果时,所述构建单元用于:
针对所述添加噪音扰动的各个预训练模型,分别执行以下操作:
确定一个添加噪音扰动的预训练模型中,归属于预设第一类层级的至少一个目标层级编码网络,并获得各个目标层级编码网络的输出向量;
将各个输出向量中各个相同位置的元素进行加权求和,得到对应的第一融合结果。
可选的,所述根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料时,所述生成单元用于:
在各个第一融合结果中确定一个目标第一融合结果,并将所述目标第一融合结果,分别与所述各个第一融合结果中除所述目标第一融合结果外的,各个其他第一融合结果进行组合,得到各组相似正样本语料;
将所述目标第一融合结果,分别与各个第二融合结果进行组合,得到各组相似负样本语料。
第三方面,提出一种计算机可读的电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现上述第一方面中任一项所述的方法。
第四方面,提出一种存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如上述第一方面中任一项所述的方法。
本申请有益效果如下:
本申请针对性的提出一种相似样本语料的生成方法、装置、电子设备及存储介质,本申请所提出的技术方案中,获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词,再构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果,然后在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果,再根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。
这样,在生成目标领域的相似样本语料时,将目标领域的第一种子语句,分别输入添加噪音扰动的各个预训练模型中,使得对应第一种子语句生成的各个第一融合结果中不同程度的融合了各样的噪声,使得生成的相似正样本语料组中,保证相似样本语料间相似性的同时,也保证了相似样本语料间的差异性,与此同时,在生成相似负样本语料时,采用从各个预训练模型中确定的至少一个目标预训练模型,基于不同领域的各个第二种子语句,生成对应的相似负样本语料,使得生成的相似负样本语料组中的相似负样本语料具有明显的语义差异性,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。
附图说明
图1为本申请实施例中相似样本语料的生成流程示意图;
图2为本申请实施例中相似样本语料的生成装置的逻辑结构示意图;
图3为应用本申请实施例的一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够在除了这里图示或描述的那些以外的顺序实施。
相关技术下,为了针对不同领域中的文本,实现诸如文本相似匹配任务、查重任务,或者,检索任务,通常借助于机器学习技术,根据得到的文本相似模型实现处理,因此,获得能够对文本相似模型进行训练的相似样本语料显得至关重要。
相关技术下,在针对性地生成相似样本语料时,通常借助于人工制定的生成规则,直接对原始相似样本语料中执行内容删除、调整内容位置等操作,或者,采用通用的同义词替换的方式,替换原始相似样本语料中的部分内容,生成相似样本语料。
然而,由于不同领域的文本本身存在很大的差异性,因而直接采用通用的同义词替换得到的相似样本语料,可能无法实现在对应的领域内语义相似,故无法获得有效的训练样本,与此同时,由于样本语料的生成质量直接依赖于生成规则制定的合理性,故在生成样本语料的过程中人工干预程度高,因而样本语料的生成过程复杂,实现难度大,且能够生成的相似样本语料数量非常有限。
针对现有技术中存在的相似样本语料的生成过程复杂,以及难以生成有效相似样本语料的问题,本申请针对性的提出一种相似样本语料的生成方法、装置、电子设备及存储介质,本申请所提出的技术方案中,获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词,再构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果,然后在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果,再根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。
这样,在生成目标领域的相似样本语料时,将目标领域的第一种子语句,分别输入添加噪音扰动的各个预训练模型中,使得对应第一种子语句生成的各个第一融合结果中不同程度的融合了各样的噪声,使得生成的相似正样本语料组中,保证相似样本语料间相似性的同时,也保证了相似样本语料间的差异性,与此同时,在生成相似负样本语料时,采用从各个预训练模型中确定的至少一个目标预训练模型,基于不同领域的各个第二种子语句,生成对应的相似负样本语料,使得生成的相似负样本语料组中的相似负样本语料具有明显的语义差异性,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。
下面结合附图,对本申请优选的实施例进行进一步详细说明:
参阅图1所示,其为本申请实施例中相似样本语料的生成流程示意图,下面结合附图1,对本申请实施例中相似样本语料的生成流程进行说明:
需要说明的是,本申请实施例中,用于生成相似样本语料的处理设备可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。还可以是桌面计算机、移动电话、移动电脑、平板电脑等电子设备。
考虑到垂直领域间的文本差异,当意图采用深度学习模型,处理目标领域下的文本时,如,采用文本相似模型,或者,采用其他模型处理与文本相似任务相关的其他任务之前,需要对应所述目标领域,针对性地生成符合训练需要的相似正样本语料和相似负样本语料,其中,本申请中的相似正样本语料是由彼此语义相似的样本语料组成的,相似负样本语料是由彼此语义不相似的样本语料构成的,所述垂直领域划分了不同的业务场景,如,教育领域、科学领域、车联网领域,以及医学领域等。
步骤101:处理设备获取目标领域的一个第一种子语句,以及获取除所述目标领域外的其他领域中的各个第二种子语句。
本申请实施例中,在生成相似样本语料前需要构建种子语句,其中,所述种子语句中具体包括目标领域下的第一种子语句,以及除所述目标领域外的其他领域中的第二种子语句,所述种子语句中包括其归属的领域内的实体名词,使得借助于种子语句就能够确定其归属的领域,本申请在获取第二种子语句时,满足第二种子语句归属的领域不是所述目标领域即可,不对所述第二种子语句的归属领域进行具体限制。
例如,假设目标领域为医学领域,那么,对应的种子语句中可能包括诸如“XX疾病”、“XX诊疗方法”、“XX血液指标”等名词。
处理设备在根据目标领域以及其他领域的候选文本,分别构建对应的种子语句时,为了将文本处理为能够识别的形式,需要对获得的候选文本进行预处理,先后实现统一候选文本的编码格式、降噪、清除所述候选文本中的非法字符,以及按照指定字符拆分为语句形式的操作。
具体的,所述处理设备获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本,再将所述第一候选文本和第二候选文本处理为指定的编码格式,并对指定的编码格式的所述第一候选文本和第二候选文本,分别进行降噪处理和非法字符清理处理,然后按照指定字符从处理后的第一候选文本中拆分得到一个第一种子语句,并按照所述指定字符从处理后的第二候选文本中拆分得到各个第二种子语句。
本申请实施例中,所述处理设备在获取目标领域中的第一候选文本,以及获取其他领域的第二候选文本时,处理设备可以灵活的从各样的文本源中获得候选文本,具体的,所述处理设备可以从期刊、论文,以及发布或发表的其他文本中获取候选文本,或者,所述处理设备可以采用网络爬虫从各个相关网站中爬取候选文本。
本申请实施例中,处理设备在确定目标领域下的第一候选文本,以及确定除所述目标领域外的,其他领域中的第二候选文本时,可以采用以下两种方式:
方式一、基于领域区分性强的文本,生成第一候选样本和第二候选样本。
具体的,处理设备可以直接获取目标领域中发表的学术性期刊或者与所述目标领域强相关的文本,作为第一候选文本,与此同时,从除所述目标领域外的其他领域中,获取发表的学术性期刊或与确定的其他领域强相关的文本,作为第二候选文本。
例如,假设目标领域为医疗领域,则可以获取医生的处方单、医学检测报告、医药相关的期刊中的文本,生成第一候选文本,那么第二候选文本可以选择车联网领域中的发展报告,通信领域中的交互协议,生成第二候选文本。
方式二、采用文本领域分类模型,对文本内容进行分类,将对应目标领域的文本作为第一候选文本,以及将对应其他领域的文本作为第二候选文本。
具体的,处理设备可以获取已训练的文本领域分类模型,其中,所述文本领域分类模型是基于各个领域的文本样本训练得到的,再将获取的各个候选文本分别输入所述文本领域分类模型中,获得所述各个所述候选文本各自对应的分类结果,并将归属于目标领域的候选文本作为第一候选文本,以及将不归属于所述目标领域的候选文本作为第二候选文本。
本申请实施例中,文本领域分类模型具体可以是基于BERT模型构建的文本分类模型,其中,
所述文本分类模型中包括BERT输入层、BERT编码层、BERT输出层,以及全连接分类层。
BERT输入层:能够获得输入语料的嵌入表示,具体的嵌入表示基于以下三方面的向量化内容所确定:字符向量化(Token Embeddings),字符位置向量化(PositionEmbeddings),以及字符所属片段编码(Segment Embeddings)。
Bert编码层:根据实际的处理需要,可以设置包括12层的编码网络,每层编码网络分别对应多头注意力,根据处理需要,设置多层编码网络中神经元的失活概率(Dropout),并实现编码归一化。
例如,设置每层的注意力头数为12,设置神经元失活概率(Dropout)为0.1。
Bert输出层:用于按需输出样本最终编码结果,或者按层输出样本各位置编码结果。
全连接分类层,能够设置分类类别总数,接收Bert输出层的输出结果,通过线性全连接结构,输出最终的分类结果。本申请实施例中,可以根据实际处理需要设置多分类任务,如,分类类别设置为20。
本申请实施例中,根据实际处理需要,构建基于BERT模型的文本分类模型后,基于训练得到的文本分类模型完成文本分类,或者,可以直接采用目前已有的其他结构的文本分类模型完成文本分类。
在基于BERT模型构建文本分类模型的情况下,处理设备可以针对性的采用目标领域和其他各个领域内的样本文本,对文本分类模型进行针对性训练。
具体的,将从包括目标领域在内的各个领域中获得的文本,作为样本文本,并将各个样本文本各自对应的领域作为标签,生成各个训练样本,并基于所述各个训练样本对构建的文本分类模型进行多轮迭代训练,直至满足预设的收敛条件为止,其中,所述收敛条件可以是损失值连续设定值的次数达到设定门限值,所述设定值和所述设定门限值根据实际的处理需要设置,本申请在此不做过多限制。
在一次训练过程中,具体可以执行以下操作:将样本文本输入文本分类模型,得到领域分类结果,再根据所述领域分类结果与对应的标签之间的差异,采用交叉熵损失函数计算文本分类模型的损失值,并借助于所述损失值反向传播,调整所述文本分类模型的模型参数。
所述处理设备可以基于训练完成的文本分类模型,实现对文本归属领域的分类。
例如,处理设备可以采用训练完成的文本分类模型,对获得的文本内容进行分类,进而将分类结果为目标领域的文本确定为第一候选文本,以及将分类结果为其他领域的文本确定为第二候选文本。
这样,借助于文本分类模型,在获取文本时无需考虑文本归属的领域性,与此同时,能够兼顾现今多领域交叉融合的情况下,文本内容通常兼具各个领域内的内容的问题,使得能够有效区分文本对应的领域,为后续获得有效的种子语句提供依据。
进一步的,本申请实施例中,考虑到从不同途径中获取的文本内容可能具有不同的编码格式,故处理设备需要将第一候选文本和第二候选文本处理为能够处理的编码格式,与此同时,考虑到获取的文本中可能包括对文本处理存在干扰的内容,如,与文字格式和排版方式相关的描述信息,故需要进一步的对所述第一候选文本和第二候选文本进行降噪处理。
另外,所述处理设备考虑到自身的处理能力有限,通常可以预先选择能够识别的字符集合,使得不在所述字符集合中的字符都被列为非法字符,进而需要从获得的所述第一候选文本和第二候选文本中清理出所述非法字符,以避免非法字符对正常的文本处理过程造成干扰,在完成一系列的降噪和清理操作后,从能够处理的所述第一候选文本和第二候选文本中,按照指定字符拆分出第一种子语句和各个第二种子语句。
例如,假设处理设备获取的,第一候选文本中包括文本1、文本2,以及文本3,且文本1采用GBK的编码格式,文本2采用UTF-8的编码格式,以及文本3采用GB2312的编码格式,在确定能够处理GBK格式的文本的情况下,处理设备需要将文本2的编码格式,由UTF-8处理为GBK,以及处理设备需要将文本3的编码格式,由GB2312,处理为GBK。
又例如,假设处理设备选择的可识别字符为“中文”,那么所述处理设备将无法识别非中文的字符,因而为了避免在后续的处理过程中出现乱码,故需要清理候选文本中的非中文字符。
需要说明的是,对文本进行编码格式转换、降噪,以及非法字符清理,是本领域的常规技术,本申请在此将不做具体说明。
另外,本申请实施例中,在根据指定字符从第一候选文本和第二候选文本中拆分出种子语句时,通常会拆分出大量的第一种子语句和大量的第二种子语句,而本申请实施例中,为了便于描述相似样本语料的生成方式,相关的描述中将仅以获取目标领域的一个第一种子语句为例,对基于一个第一种子语句生成的各组相似正样本语料和各组相似负样本语料的过程进行说明,在实际处理过程中,本申请可以根据实际的处理需要,针对各个第一种子语句分别生成相关的各组相似正样本语料和相似负样本语料,相关的实现原理与基于一个第一种子语句生成的原理相同,本申请将不再赘述。
这样,借助于统一编码格式、对文本内容降噪,以及去除文本内容中非法字符的方式,能够根据实际的处理需要将获得的文本整理为内容合规的形式,辅助提高了样本语料的生成效率,一定程度上保证了生成的样本语料的有效性。
步骤102:处理设备构建各个包括多层编码网络的预训练模型,并将第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果。
本申请实施例中,处理设备在构建多个包括多层编码网络的预训练模型时,可以获取一个包含多层编码网络的参考模型,再确定所述参考模型中各层编码网络的注意力头数,以及各层编码网络中神经元的失活概率,进而通过调整所述参考模型中编码网络的注意力头数,以及神经元的失活概率,构建各个包括多层编码网络的预训练模型。
具体的,所述处理设备可以选用一种指定结构的BERT模型作为参考模型,并通过调整BERT模型结构和参数,得到各个预训练模型,其中,调整的模型结构是指BERT模型中编码层中注意力的头数(head),调整的参数具体是指注意力失活概率(attention dropout)的取值,获得的各个预训练模型的数目根据实际的处理需要设置,本申请不做具体限制。
参阅表1所示,其示意了申请实施例中参考模型和基于参考模型调整得到的其他模型,BERT的编码层数为12层,各层编码层的注意力头数为6,且注意力失活概率为0.1,即表1中模型标号M1所示意的模型,那么,在参考模型M1的基础上,可以仅对注意力失活概率进行调整,得到模型2,或者,可以仅对注意力头数进行调整,得到模型2,又或者,可以对注意力头数和注意力失活概率进行同时调整,得到模型3。
表1
模型标号 Head attention_dropout
参考模型 M1 6 0.1
模型1 M2 6 0.15
模型2 M3 12 0.1
模型3 M4 12 0.15
需要说明的是,本申请一些可能的实施例中,所述处理设备获得的各个预训练模型中,可能包括选定的参考模型,如表1所示意的模型标号M1-M4对应的模型,作为各个预训练模型,本申请另一些可能的实施例中,所述处理设备获得的各个预训练模型中,可能不包括选定的参考模型,如表1所示意的模型标号M2-M4对应的模型,作为各个预训练模型。
这样,通过构建的结构和参数存在差异的各个预训练模型,能够为差异性地针对一个第一种子语句生成各组相似正样本语料,提供处理依据。
本申请实施例中,所述处理设备为了增加根据同一第一种子语句生成的各个第一融合结果之间的差异性,避免后续采用根据各个第一融合结果,生成的相似正样本语料进行模型训练时,造成模型的过拟合,故处理设备需要在获得的各个预训练模型中添加噪音扰动。
所述处理设备分别在所述各个预训练模型中添加噪音扰动时,具体可以采用线性变换的方式,借助于配置的扰动因子,在一个预训练模型中添加噪音扰动,并可以根据实际处理需要,单独或结合使用噪音函数,在一个预训练模型中添加噪音扰动。
具体的,所述处理设备可以通过线性变换的方式,分别借助于配置的扰动因子,在一个预训练模型的不同处理阶段,针对预训练模型中的不同阶段的处理结果添加噪音扰动;另外,所述处理设备可以采用噪音函数,作用于一个预训练模型的不同处理阶段,以实现针对性地对预训练模型中不同阶段的处理结果添加噪音扰动。
基于上述提出的添加噪声扰动的方式,实际添加噪音扰动时可以采用以下至少一种或组合的处理手段,实现噪音扰动的添加。
处理手段1、处理设备基于配置的各个第一扰动因子,分别对各层编码网络的输入数据进行处理。
本申请实施例中,处理设备可以对预训练模型中各个编码层的输入数据添加扰动。
具体的,所述处理设备可以采用如下公式,得到添加噪声的一层编码网络的输入数据:
En=μ*E
其中,E为向量形式的输入数据,μ为第一扰动因子,μ对应的取值区间为[0.85,1],En为添加噪声后的输入数据。
需要说明的是,本申请实施中,可以针对各个编码层的输入数据,采用相同的第一扰动因子进行处理,或者,可以根据实际的处理需要,针对所述各个编码层的输入数据,分别采用不同的第一扰动因子进行处理,本申请对此不做具体限制。
处理手段2、处理设备基于配置的各个第二扰动因子,分别对各层编码网络的模型参数进行处理。
本申请实施例中,处理设备可以对预训练模型中各层编码网络的模型参数添加扰动。
具体的,所述处理设备可以采用如下公式,得到添加噪声的模型参数:
Wn=φ*W
其中,Wn为添加扰动后的一层编码网络中的模型参数,φ为第二扰动因子,φ对应的取值区间为[0.70,1],W为一层编码网络中的模型参数。
需要说明的是,本申请实施中,可以针对各个编码层的模型参数,采用相同的第二扰动因子进行处理,或者,可以根据实际的处理需要,针对所述各个编码层的模型参数,分别采用不同的第二扰动因子进行处理,本申请对此不做具体限制。
处理手段3、处理设备基于配置的第三扰动因子,对反向传播时计算得到的梯度参数进行处理。
本申请实施例中,处理设备可以采用如下公式,对反向传播时计算得到的梯度参数添加扰动:
Gn=θ*G
其中,Gn为添加扰动后的梯度参数,第三扰动因子为θ,其对应的取值范围是[0.9,1],G为反向传播过程中计算得到的梯度参数。
需要说明的是,梯度参数的计算过程是本领域的常规技术,本申请在此不做具体说明。
这样,借助于处理手段1-3中配置的扰动因子,能够为预训练模型添加噪音扰动,使得后序在预训练模型的预训练过程中,能够得到存在差异的各个第一融合结果,避免采用基于第一融合结果构建的相似样本语料进行其他模型的训练时,造成其他模型的过拟合。
处理手段4、处理设备采用预设的各个第一噪音函数,分别对各层编码网络的输入数据进行处理。
具体的,处理设备可以将高斯噪音函数作为第一噪音函数,采用如下公式实现对一层编码网络的输入数据的处理:
En=E+θ*N(a,b)
其中,En为添加有噪音扰动的一层编码网络的输入向量,E为所述一层编码网络的输入向量,N(a,b)是高斯噪音函数,a是E的均值,b是E的方差,θ为系数,取值根据实际处理需要设置,如取值为0.05。
需要说明的是,本申请实施中,为了描述各组正样本语料与各组负样本语料的生成,故以将一个第一种子语句输入各个预训练模型为例进行说明,而在实际的处理过程中,在对预训练模型进行一批迭代训练的过程中,通常同时输入多个输入第一种子语句,因此,预训练模型能够同时针对输入的各个第一种子语句,分别得到在一层编码网络中的输入向量,使得能够计算各个位置的元素均值和方差,进而将各个位置的元素均值和方差,作为高斯噪声函数中的参数。
与此同时,可以针对各个编码层的输入数据,采用相同的第一噪音函数进行处理,或者,可以根据实际的处理需要,针对所述各个编码层的输入数据,分别采用不同的基于不同系数θ确定的第一噪音函数进行处理,本申请对此不做具体限制。
处理手段5、处理设备采用预设的各个第二噪音函数,分别对各层编码网络的模型参数行处理。
具体的,处理设备可以将高斯噪音函数作为第二噪音函数,采用如下公式实现对一层编码网络的模型参数进行处理:
Wn=W+β*N(c,d)
其中,Wn为添加噪声干扰的一层编码网络中的模型参数,W为所述一层编码网络中的模型参数,β为系数,取值根据实际处理需要设置,如取值为0.05,N(c,d)是第二噪音函数,c是W的均值,d是W的方差。
需要说明的是,本申请实施中,处理手段B所提出的添加噪音扰动的方式,可以应用于第一轮训练以后,基于先前各批次的训练轮次中,对应一层编码网络中相同模型参数确定的取值,计算各个模型参数的均值和方差,并将各个模型参数的均值和方差,高斯噪音函数中的参数。
与此同时,可以针对各个编码层的模型参数,采用相同的第二噪音函数进行处理,或者,可以根据实际的处理需要,针对所述各个编码层的模型参数,分别采用不同的基于不同系数β确定的第二噪音函数进行处理,本申请对此不做具体限制。
处理手段6、处理设备采用预设的第三噪音函数,对反向传播时计算得到的梯度参数进行处理。
具体的,处理设备可以将高斯噪音函数作为第三噪音函数,采用如下公式,对反向传播时计算得到的梯度参数添加扰动:
Gn=G+γ*N(e,f)
其中,Gn为添加扰动后的梯度参数,G为反向传播时计算到的梯度参数,N(e,f)是第三噪音函数,e是G的均值,f是G的方差,γ为系数,取值根据实际处理需要设置,如取值为0.05。
这样,借助于处理手段4-6中采用的处理方式,处理设备可以在各个预训练模型的训练过程中,调用噪音函数,可选择性地对输入数据、模型参数,或者输入数据和模型参数进行动态干扰,实现噪音的叠加处理,增加后续获得的各个第一融合结果之间的差异性。
本申请实施例中,在确定添加噪音扰动的各个预训练模型后,所述处理设备可以将获取的目标领域的一个第一种子语句,输入添加噪音扰动的各个预训练模型中,并获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果。
具体的,所述处理设备获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果时。所述处理设备针对所述添加噪音扰动的各个预训练模型,分别执行以下操作:确定一个添加噪音扰动的预训练模型中,归属于预设第一类层级的至少一个目标层级编码网络,并获得各个目标层级编码网络的输出向量,再将各个输出向量中各个相同位置的元素进行加权求和,得到对应的第一融合结果。
需要说明的是,本申请实施例中,所述处理设备可以根据实际处理需要,预设第一类层级,其中,所述第一类层级中包括指定的各层编码网络的编号,另外,所述第一类层级中约束的编码网络的层数,以及具体的编号根据实际的处理需要确定,本申请在此不做具体限制。
另外,本申请实施例中,处理设备针对所述第一类层级中的各层编码网络的输出向量,预先设置有对应的权重参数,且所述第一类层级中的各层编码网络对应的权重参数和为1,其中,对应添加噪音扰动的各个预训练模型,设置的权重参数根据实际需要设定,如,可设置为相同或者不同,本申请不做具体限制。
例如,假设预设的第一类层级具体为第3层、第6层、第9层,以及第12层,以一个添加噪音扰动的预训练模型生成对应的一个第一融合结果的过程为例,处理设备将第一种子语句输入所述预训练模型后,获得所述添加噪音扰动的预训练模型中第3、6、9,以及12层的输出向量,假设根据实际处理需要为各个层级的输出向量分别配置权重参数为0.25,则根据配置的权重参数,对各个输出向量进行加权求和,得到第一融合结果。
这样,在采用第一种子语句对添加噪音扰动的预训练模型,进行无监督预训练的过程中,处理设备能够获得添加噪音扰动的各个预训练模型,根据相同的第一种子语句生成的各个第一融合结果,并保证各个第一融合结果之间存在差异性。
步骤103:处理设备在各个预训练模型中确定目标预训练模型,并将各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果。
具体的,处理设备在各个预训练模型中,确定用于生成第二融合结果的目标训练模型,其中,所述处理设备可以在各个预训练模型中,任意选择预训练模型作为目标预训练模型,确定的目标训练模型的数目根据实际处理需要设置,具体可能是一个或多个,本申请不做具体限制,以下的描述中仅以确定一个目标预训练模型为例进行说明。
本申请实施例中,考虑到后续生成相似负样本语料时,需要结合第一融合结果和各个第二融合结果进行组成生成,因而在确定所述第一融合结果对应的添加噪音扰动的预训练模型后,可以将所述添加噪音扰动的预训练模型对应的预训练模型作为目标预训练模型,使得生成的各组相似负样本语料中是基于相同的模型结构生成的,也使得后续对其他模型进行训练时,能够使所述其他模型更专注于学习相似负样本语料之间的语义差异。
进一步的,处理设备将获得的各个第二种子语句,分别输入目标预训练模型中,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果。
具体的,所述处理设备将一个第二种子语句输入目标预训练模型后,分别执行以下操作:确定目标预训练模型中,归属于预设第二类层级的至少一个目标层级编码网络,获得各个目标层级编码网络的输出向量,再将各个输出向量中各个相同位置的元素进行加权求和,得到对应的第二融合结果。
需要说明的是,本申请实施例中,所述处理设备可以根据实际处理需要,预设第二类层级,其中,所述第二类层级中包括指定的各层编码网络的编号,所述第二类层级中约束的编码网络的层数,以及具体的编号根据实际的处理需要确定,本申请在此不做具体限制。
例如,假设预设的第二类层级具体为第3层、第6层、第9层,以及第12层,处理设备将一个第二种子语句输入目标预训练模型后,获得所述目标预训练模型中第3、6、9,以及12层的输出向量,假设根据实际处理需要为各个层级的输出向量分别配置权重参数为0.25,那么则根据配置的权重参数,对各个输出向量进行加权求和,得到第二融合结果。
这样,能够借助于同种结构的预训练模型,生成由于构建相似负样本语料的第一融合结果和第二融合结果。
步骤104:处理设备根据各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。
本申请实施例中,处理设备在各个第一融合结果中确定一个目标第一融合结果,并将所述目标第一融合结果,分别与所述各个第一融合结果中除所述目标第一融合结果外的,各个其他第一融合结果进行组合,得到各组相似正样本语料,以及将所述目标第一融合结果,分别与各个第二融合结果进行组合,得到各组相似负样本语料。
例如,假设存在4个预训练模型,分别为M1-M4,根据一个第一种子语句Si,添加噪音扰动的M1生成的第一融合结果为Vi1;添加噪音扰动的M2生成的第一融合结果为Vi2;添加噪音扰动的M3生成的第一融合结果为Vi3,以及添加噪音扰动的M4生成的第一融合结果为Vi4,那么,可以从M1-M4中任选一个预训练模型,假设选中M1,那么,Vi1为目标第一融合结果构建的各组相似正样本语料为:{Vi1,Vi2}、{Vi1,Vi3},以及{Vi1,Vi4}。
又例如,将目标第一融合结果对应的预训练模型M1作为目标预训练模型,基于各个第二种子语句,假设为,第二种子语句Sj1-Sj5,那么目标预训练模型对应第二种子语句Sj1-Sj5分别生成的第二融合结果为,Nj1-Nj5,那么生成的各组相似负样本语料分别为:{Vi1,Nj1}、{Vi1,Nj2}、{Vi1,Nj3}、{Vi1,Nj4},以及{Vi1,Nj5}。
这样,将添加噪音扰动的各个预训练模型,基于一个第一种子语句中的各个融合结果,组合生成相似正样本语料,并将同一预训练模型基于不同领域的种子语句生成的融合结果,组合生成相似负样本语料,使得生成的相似负样本语料组中的相似负样本语料具有明显的语义差异性,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。
综上,在预训练模型为BERT模型的情况下,本申请的技术方案,可以理解为,搭建不同结构的各个BERT模型后,在各个添加扰动的BERT模型,基于第一种子语句进行无监督的预训练过程中,分别根据指定各层级的输出向量,加权生成第一融合结果,各个第一融合结果能够生成各组相似正样本语料,与此同时,在所述各个BERT模型中,任选一个用于生成相似负样本语料的BERT模型,并在选择的BERT模型分别基于第二种子语句,进行无监督的预训练过程中,分别根据指定各层级的输出向量,加权生成对相应的第二融合结果,并将第一融合结果与第二融合结果组合生成各组相似负样本语料。
基于同一发明构思,参阅图2所示,其为本申请实施例中相似样本语料的生成装置的逻辑结构示意图,相似样本语料的生成装置200中包括,获取单元201,构建单元202,确定单元203,生成单元204,其中,
获取单元201,用于获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词;
构建单元202,用于构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果;
确定单元203,用于在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果;
生成单元204,用于根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。
可选的,所述获取目标领域的第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句时,所述获取单元201用于:
获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本;
将所述第一候选文本和第二候选文本处理为指定的编码格式,并对指定的编码格式的所述第一候选文本和第二候选文本,分别进行降噪处理和非法字符清理处理;
按照指定字符从处理后的第一候选文本中拆分得到一个第一种子语句,并按照所述指定字符从处理后的第二候选文本中拆分得到各个第二种子语句。
可选的,所述获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本时,所述获取单元201用于:
获取已训练的文本领域分类模型,其中,所述文本领域分类模型是基于各个领域的文本样本训练得到的;
将获取的各个候选文本分别输入所述文本领域分类模型中,获得所述各个所述候选文本各自对应的分类结果,并将归属于目标领域的候选文本作为第一候选文本,以及将不归属于所述目标领域的候选文本作为第二候选文本。
可选的,所述构建各个包括多层编码网络的预训练模型时,所述构建单元202用于:
获取一个包含多层编码网络的参考模型,确定所述参考模型中各层编码网络的注意力头数,以及各层编码网络中神经元的失活概率;
通过调整所述参考模型中编码网络的注意力头数,以及神经元的失活概率,构建各个包括多层编码网络的预训练模型。
可选的,在各个预训练模型中添加噪音扰动时,所述构建单元202针对各个预训练模型,分别执行以下操作中的任意一项或组合:
基于配置的各个第一扰动因子,分别对各层编码网络的输入数据进行处理;
基于配置的各个第二扰动因子,分别对各层编码网络的模型参数进行处理;
基于配置的第三扰动因子,对反向传播时计算得到的梯度参数进行处理;
采用预设的各个第一噪音函数,分别对各层编码网络的输入数据进行处理;
采用预设的各个第二噪音函数,分别对各层编码网络的模型参数行处理;
采用预设的第三噪音函数,对反向传播时计算得到的梯度参数进行处理。
可选的,所述获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果时,所述构建单元202用于:
针对所述添加噪音扰动的各个预训练模型,分别执行以下操作:
确定一个添加噪音扰动的预训练模型中,归属于预设第一类层级的至少一个目标层级编码网络,并获得各个目标层级编码网络的输出向量;
将各个输出向量中各个相同位置的元素进行加权求和,得到对应的第一融合结果。
可选的,所述根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料时,所述生成单元204用于:
在各个第一融合结果中确定一个目标第一融合结果,并将所述目标第一融合结果,分别与所述各个第一融合结果中除所述目标第一融合结果外的,各个其他第一融合结果进行组合,得到各组相似正样本语料;
将所述目标第一融合结果,分别与各个第二融合结果进行组合,得到各组相似负样本语料。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,参阅图3所示,其为应用本申请实施例的一种电子设备的一个硬件组成结构示意图,电子设备300可以至少包括处理器301、以及存储器302。其中,存储器302存储有程序代码,当程序代码被处理器301执行时,使得处理器301执行上述任意一种相似样本语料的生成步骤。
在一些可能的实施方式中,根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的相似样本语料的生成步骤。例如,处理器可以执行如图1中所示的步骤。
基于同一发明构思,本申请实施例中基于相似样本语料的生成的实施例中提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述相似样本语料的生成方法。
综上所述,本申请针对性的提出一种相似样本语料的生成方法、装置、电子设备及存储介质,本申请所提出的技术方案中,获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词,再构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果,然后在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果,再根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料。
这样,在生成目标领域的相似样本语料时,将目标领域的第一种子语句,分别输入添加噪音扰动的各个预训练模型中,使得对应第一种子语句生成的各个第一融合结果中不同程度的融合了各样的噪声,使得生成的相似正样本语料组中,保证相似样本语料间相似性的同时,也保证了相似样本语料间的差异性,与此同时,在生成相似负样本语料时,采用从各个预训练模型中确定的至少一个目标预训练模型,基于不同领域的各个第二种子语句,生成对应的相似负样本语料,使得生成的相似负样本语料组中的相似负样本语料具有明显的语义差异性,不仅简化了相似样本语料的生成过程,还提高了相似样本语料的生成效率,而且能够生成有效的相似样本语料。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种相似样本语料的生成方法,其特征在于,应用于目标领域的相似样本语料生成过程中,包括:
获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词;
构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果;
在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果;
根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料;
所述获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果,包括:
针对所述添加噪音扰动的各个预训练模型,分别执行以下操作:
确定一个添加噪音扰动的预训练模型中,归属于预设第一类层级的至少一个目标层级编码网络,并获得各个目标层级编码网络的输出向量;将各个输出向量中各个相同位置的元素进行加权求和,得到对应的第一融合结果;
所述根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料,包括:
在各个第一融合结果中确定一个目标第一融合结果,并将所述目标第一融合结果,分别与所述各个第一融合结果中除所述目标第一融合结果外的,各个其他第一融合结果进行组合,得到各组相似正样本语料;将所述目标第一融合结果,分别与各个第二融合结果进行组合,得到各组相似负样本语料。
2.如权利要求1所述的方法,其特征在于,所述获取目标领域的第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,包括:
获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本;
将所述第一候选文本和第二候选文本处理为指定的编码格式,并对指定的编码格式的所述第一候选文本和第二候选文本,分别进行降噪处理和非法字符清理处理;
按照指定字符从处理后的第一候选文本中拆分得到一个第一种子语句,并按照所述指定字符从处理后的第二候选文本中拆分得到各个第二种子语句。
3.如权利要求2所述的方法,其特征在于,所述获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本,包括:
获取已训练的文本领域分类模型,其中,所述文本领域分类模型是基于各个领域的文本样本训练得到的;
将获取的各个候选文本分别输入所述文本领域分类模型中,获得所述各个所述候选文本各自对应的分类结果,并将归属于目标领域的候选文本作为第一候选文本,以及将不归属于所述目标领域的候选文本作为第二候选文本。
4.如权利要求1所述的方法,其特征在于,所述构建各个包括多层编码网络的预训练模型,包括:
获取一个包含多层编码网络的参考模型,确定所述参考模型中各层编码网络的注意力头数,以及各层编码网络中神经元的失活概率;
通过调整所述参考模型中编码网络的注意力头数,以及神经元的失活概率,构建各个包括多层编码网络的预训练模型。
5.如权利要求1所述的方法,其特征在于,在各个预训练模型中添加噪音扰动时,针对各个预训练模型,分别执行以下操作中的任意一项或组合:
基于配置的各个第一扰动因子,分别对各层编码网络的输入数据进行处理;
基于配置的各个第二扰动因子,分别对各层编码网络的模型参数进行处理;
基于配置的第三扰动因子,对反向传播时计算得到的梯度参数进行处理;
采用预设的各个第一噪音函数,分别对各层编码网络的输入数据进行处理;
采用预设的各个第二噪音函数,分别对各层编码网络的模型参数行处理;
采用预设的第三噪音函数,对反向传播时计算得到的梯度参数进行处理。
6.一种相似样本语料的生成装置,其特征在于,应用于目标领域的相似样本语料生成过程中,包括:
获取单元,用于获取目标领域的一个第一种子语句,以及获取除所述目标领域外的,其他领域中的各个第二种子语句,种子语句中包含其归属的领域内的实体名词;
构建单元,用于构建各个包括多层编码网络的预训练模型,并将所述第一种子语句输入添加噪音扰动的各个预训练模型,获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果;
确定单元,用于在各个预训练模型中确定目标预训练模型,并将所述各个第二种子语句分别输入所述目标预训练模型,分别获得根据所述目标预训练模型中,归属于预设第二类层级的编码网络的输出向量,确定的第二融合结果;
生成单元,用于根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料;
其中,所述获得根据所述添加噪音扰动的各个预训练模型中,归属于预设第一类层级的编码网络的输出向量,确定的各个第一融合结果时,所述构建单元用于:
针对所述添加噪音扰动的各个预训练模型,分别执行以下操作:
确定一个添加噪音扰动的预训练模型中,归属于预设第一类层级的至少一个目标层级编码网络,并获得各个目标层级编码网络的输出向量;将各个输出向量中各个相同位置的元素进行加权求和,得到对应的第一融合结果;
所述根据所述各个第一融合结果,生成各组相似正样本语料,以及根据所述各个第一融合结果和各个第二融合结果,生成各组相似负样本语料时,所述生成单元用于:在各个第一融合结果中确定一个目标第一融合结果,并将所述目标第一融合结果,分别与所述各个第一融合结果中除所述目标第一融合结果外的,各个其他第一融合结果进行组合,得到各组相似正样本语料;将所述目标第一融合结果,分别与各个第二融合结果进行组合,得到各组相似负样本语料。
7.如权利要求6所述的装置,其特征在于,所述获取目标领域的第一种子语句,以及取除所述目标领域外的,其他领域中的各个第二种子语句时,所述获取单元用于:
获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本;
将所述第一候选文本和第二候选文本处理为指定的编码格式,并对指定的编码格式的所述第一候选文本和第二候选文本,分别进行降噪处理和非法字符清理处理;
按照指定字符从处理后的第一候选文本中拆分得到一个第一种子语句,并按照所述指定字符从处理后的第二候选文本中拆分得到各个第二种子语句。
8.如权利要求7所述的装置,其特征在于,所述获取目标领域的第一候选文本,以及获取除所述目标领域外的,其他领域中的第二候选文本时,所述获取单元用于:
获取已训练的文本领域分类模型,其中,所述文本领域分类模型是基于各个领域的文本样本训练得到的;
将获取的各个候选文本分别输入所述文本领域分类模型中,获得所述各个所述候选文本各自对应的分类结果,并将归属于目标领域的候选文本作为第一候选文本,以及将不归属于所述目标领域的候选文本作为第二候选文本。
9.如权利要求6所述的装置,其特征在于,所述构建各个包括多层编码网络的预训练模型时,所述构建单元用于:
获取一个包含多层编码网络的参考模型,确定所述参考模型中各层编码网络的注意力头数,以及各层编码网络中神经元的失活概率;
通过调整所述参考模型中编码网络的注意力头数,以及神经元的失活概率,构建各个包括多层编码网络的预训练模型。
10.如权利要求6所述的装置,其特征在于,在各个预训练模型中添加噪音扰动时,所述构建单元针对各个预训练模型,分别执行以下操作中的任意一项或组合:
基于配置的各个第一扰动因子,分别对各层编码网络的输入数据进行处理;
基于配置的各个第二扰动因子,分别对各层编码网络的模型参数进行处理;
基于配置的第三扰动因子,对反向传播时计算得到的梯度参数进行处理;
采用预设的各个第一噪音函数,分别对各层编码网络的输入数据进行处理;
采用预设的各个第二噪音函数,分别对各层编码网络的模型参数行处理;
采用预设的第三噪音函数,对反向传播时计算得到的梯度参数进行处理。
11.一种计算机可读的电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现如权利要求1至5中任一项所述的方法。
12.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如权利要求1至5中任一项所述的方法。
CN202111622743.9A 2021-12-28 2021-12-28 相似样本语料的生成方法、装置、电子设备及存储介质 Active CN114357974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111622743.9A CN114357974B (zh) 2021-12-28 2021-12-28 相似样本语料的生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111622743.9A CN114357974B (zh) 2021-12-28 2021-12-28 相似样本语料的生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114357974A CN114357974A (zh) 2022-04-15
CN114357974B true CN114357974B (zh) 2022-09-23

Family

ID=81104265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111622743.9A Active CN114357974B (zh) 2021-12-28 2021-12-28 相似样本语料的生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114357974B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997374B2 (en) * 2019-03-22 2021-05-04 Fortia Financial Solutions Generation of natural language text from structured data using a fusion model
CN110991520B (zh) * 2019-11-29 2023-05-02 汉海信息技术(上海)有限公司 一种生成训练样本的方法以及装置
CN111680494B (zh) * 2020-04-27 2023-05-12 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN111709247B (zh) * 2020-05-20 2023-04-07 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
CN112990290A (zh) * 2021-03-10 2021-06-18 平安科技(深圳)有限公司 样本数据的生成方法、装置、设备和存储介质
CN113807074A (zh) * 2021-03-12 2021-12-17 京东科技控股股份有限公司 基于预训练语言模型的相似语句生成方法和装置
CN113434136B (zh) * 2021-06-30 2024-03-05 平安科技(深圳)有限公司 代码生成方法、装置、电子设备及存储介质
CN113722441B (zh) * 2021-08-31 2023-09-05 平安银行股份有限公司 一种相似文本的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114357974A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN111444709B (zh) 文本分类方法、装置、存储介质及设备
Sarma et al. Domain adapted word embeddings for improved sentiment classification
Chen et al. Predicting microblog sentiments via weakly supervised multimodal deep learning
Du et al. Convolution-based neural attention with applications to sentiment classification
Santhoshkumar et al. Earlier detection of rumors in online social networks using certainty-factor-based convolutional neural networks
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
Yaghoobzadeh et al. Corpus-level fine-grained entity typing
Tan et al. Improving aspect-based sentiment analysis via aligning aspect embedding
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
Abishek et al. An enhanced deep learning model for duplicate question pairs recognition
Lei et al. A novel CNN-based method for question classification in intelligent question answering
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
Liang et al. Profiling users for question answering communities via flow-based constrained co-embedding model
Zeng et al. Socialized word embeddings.
Irissappane et al. Leveraging GPT-2 for classifying spam reviews with limited labeled data via adversarial training
Lee et al. A light bug triage framework for applying large pre-trained language model
Liu et al. Identifying experts in community question answering website based on graph convolutional neural network
Kaur et al. Sentiment analysis based on deep learning approaches
Baloglu et al. Assessment of supervised learning algorithms for irony detection in online social media
Saini et al. On multimodal microblog summarization
Chan et al. Optimization of language models by word computing
Kour et al. AI assisted attention mechanism for hybrid neural model to assess online attitudes about COVID-19
CN114357974B (zh) 相似样本语料的生成方法、装置、电子设备及存储介质
Ling Coronavirus public sentiment analysis with BERT deep learning
CN112948561B (zh) 一种问答知识库自动扩建的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant