CN115129866A

CN115129866A - 训练文本生成方法、模型训练方法、装置及电子设备

Info

Publication number: CN115129866A
Application number: CN202210535272.6A
Authority: CN
Inventors: 王丽; 宋有伟; 张林箭; 张聪; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-30

Abstract

本申请公开了一种训练文本生成方法、模型训练方法、文本识别方法、装置电子设备及计算机可读存储介质，其中，训练文本用于对待训练模型进行训练，以得到文本识别模型，训练文本生成方法包括：获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；根据所述输出文本确定训练文本。本申请通过基于引导的文本生成模型自动生成输出文本，从而确定出训练文本，可以更加快速、高效地得到训练文本。

Description

训练文本生成方法、模型训练方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，具体涉及一种训练文本生成方法、模型训练方法、装置及电子设备。

背景技术

互联网是人们生活、工作的重要工具，随着互联网开放程度越来越大，互联网上充斥着大量不适合展示给用户的敏感文本，例如，用户的网络留言、用户在聊天软件上的对话信息、对话机器人回复的信息等。为了营造绿色聊天环境，需要提前识别并过滤掉这些敏感文本。

相关技术中，可以使用文本识别模型来识别出敏感文本。然而，文本识别模型需要预先通过大量不同表述的敏感文本进行训练，由于目前互联网上很难搜集到大批量的敏感文本，而人工编写敏感文本效率很低，且人工编写数量有限，因此，如何快速、高效地获取到训练文本以训练文本识别模型是需要解决的问题。

发明内容

本申请提供了一种训练文本生成方法、模型训练方法、文本识别方法、装置电子设备及计算机可读存储介质，能够更快速、高效地获取到训练文本，以便于训练文本识别模型。具体方案如下：

第一方面，本申请提供了一种训练文本生成方法，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述方法包括：

获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；

将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；

根据所述输出文本确定训练文本。

可选地，在所述将所述引导文本输入基于引导的文本生成模型中之前，所述方法还包括：

获取提问文本；

所述将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本语义属性相一致的输出文本，包括：

将所述提问文本和所述引导文本输入基于引导的对话生成模型中，得到用于回复所述提问文本、且与所述引导文本语义属性相一致的输出文本。

可选地，所述输出文本包括多条；

所述根据所述输出文本确定训练文本，包括：

从多条所述输出文本中确定训练文本。

可选地，所述从多条所述输出文本中确定训练文本，包括：

通过第一策略确定训练文本，所述第一策略包括：从多条所述输出文本中选择包含至少一个预设关键词的文本作为训练文本，所述预设关键词与所述目标文本的语义属性相一致；

或者，通过第二策略确定训练文本，所述第二策略包括：从多条所述输出文本中选择第一条文本或随机选择一条文本作为训练文本。

可选地，选择所述第一策略确定所述训练文本的概率为第一预设概率，选择所述第二策略确定所述训练文本的概率为第二预设概率，所述第一预设概率大于所述第二预设概率，且所述第一预设概率与所述第二预设概率之和为1。

可选地，所述第一预设概率的范围可以为0.7～0.9，所述第二预设概率的范围可以为0.1～0.3。

可选地，所述引导文本包括至少一个引导词，每一所述引导词与所述目标文本的语义属性相一致；

所述预设关键词包括：各所述引导词。

可选地，所述预设关键词还包括：各第一目标词，所述第一目标词为任意一条所述输出文本中包含的、与所述目标文本语义属性相一致、且与各所述引导词均不同的词。

可选地，所述第一策略还包括：当多条所述输出文本均未包含任一所述预设关键词时，选择多条所述输出文本中的第一条以确定训练文本。

可选地，所述正例文本的语义属性为语义敏感的文本，所述目标文本的语义属性为语义敏感的文本，所述文本识别模型用于对对话生成模型所生成的文本进行识别。

第二方面，本申请实施例还提供了一种文本识别模型的训练方法，包括：

获取训练样本，所述训练样本包括正例样本和负例样本，所述正例样本对应的文本包括：通过第一方面任一项所述的训练文本生成方法所生成的训练文本；

使用所述训练样本对待训练模型进行训练，得到文本识别模型。

可选地，所述训练方法还包括：

获取第一文本，所述第一文本为所述文本识别模型识别错误的文本，所述识别错误的文本的实际语义属性与所述文本识别模型对所述识别错误的文本所识别出的语义属性不同；

对所述第一文本进行标注，得到第一样本；

使用所述第一样本对所述文本识别模型进行优化训练。

可选地，在所述使用所述第一样本对所述文本识别模型进行优化训练之前，所述训练方法还包括：

获取第二文本，所述第二文本中包含第二目标词，且所述第二文本与所述第一文本所表达的语义属性相反，所述第二目标词为所述第一文本中包含的、与所述目标文本所表达的语义属性相一致的词；

对所述第二文本进行标注，得到第二样本，所述第二样本与所述第一样本的标注信息相反；

所述使用所述第一样本对所述文本识别模型进行优化训练，包括：

使用所述第一样本和所述第二样本对所述文本识别模型进行优化训练。

可选地，所述训练样本包括回复样本以及问答拼接样本；

所述回复样本中正例样本对应的文本包括：通过第一方面中通过将所述提问文本和所述引导文本输入基于引导的对话生成模型中的方式确定出的训练文本；

所述问答拼接样本对应的文本为拼接文本，所述拼接文本包括：将提问文本与对应于该提问文本的回复文本进行拼接后形成的文本。

第三方面，本申请实施例还提供了一种文本识别方法，其特征在于，包括：

获取待识别文本；

将所述待识别文本输入文本识别模型中，得到对所述待识别文本的识别结果，其中，所述文本识别模型是通过第一方面中任一项所述的训练方法进行训练得到的。

可选地，所述待识别文本为对话生成模型所生成的文本；

或者，所述待识别文本为将用户的提问文本以及对话生成模型所生成的文本进行拼接后形成的文本，其中，所述文本识别模型是通过第二方面所述的模型训练方法中，当训练样本包括回复样本以及问答拼接样本时的模型训练方法进行训练得到的。

第四方面，本申请还提供了一种训练文本生成装置，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述装置包括：

信息获取单元，用于获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；

文本生成单元，用于将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；

文本确定单元，用于根据所述输出文本确定训练文本。

可选地，所述装置还包括：

第一文本获取单元，用于获取提问文本；

所述文本生成单元，具体用于：将所述提问文本和所述引导文本输入基于引导的对话生成模型中，得到用于回复所述提问文本、且与所述引导文本语义属性相一致的输出文本。

可选地，所述输出文本包括多条；

文本确定单元具体用于：从多条所述输出文本中确定训练文本。

可选地，文本确定单元具体用于：

所述预设关键词包括：各所述引导词。

第五方面，本申请实施例还提供了一种文本识别模型的训练装置，包括：

样本获取单元，用于获取训练样本，所述训练样本包括正例样本和负例样本，所述正例样本对应的文本包括：通过第四方面任一项所述的训练文本生成装置所生成的训练文本；

模型训练单元，用于使用所述训练样本对待训练模型进行训练，得到文本识别模型。

可选地，所述训练装置还包括：

第二文本获取单元，用于获取第一文本，所述第一文本为所述文本识别模型识别错误的文本，所述识别错误的文本的实际语义属性与所述文本识别模型对所述识别错误的文本所识别出的语义属性不同；

样本标注单元，用于对所述第一文本进行标注，得到第一样本；

模型优化单元，用于使用所述第一样本对所述文本识别模型进行优化训练。

可选地，所述第二文本获取单元还用于：

所述样本标注单元还用于：对所述第二文本进行标注，得到第二样本，所述第二样本与所述第一样本的标注信息相反；

所述模型优化单元具体用于：使用所述第一样本和所述第二样本对所述文本识别模型进行优化训练。

可选地，所述训练样本包括回复样本以及问答拼接样本；

第六方面，本申请实施例还提供了一种文本识别装置，包括：

第三文本获取单元，用于获取待识别文本；

文本识别单元，用于将所述待识别文本输入文本识别模型中，得到对所述待识别文本的识别结果，其中，所述文本识别模型是通过第五方面任一项所述的训练装置进行训练得到的。

可选地，所述待识别文本为对话生成模型所生成的文本；

或者，所述待识别文本为将用户的提问文本以及对话生成模型所生成的文本进行拼接后形成的文本，其中，所述文本识别模型是通过第一方面所述的训练方法当训练样本包括回复样本以及问答拼接样本时进行训练得到的。

第七方面，本申请实施例还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储数据处理程序，该电子设备通电并通过所述处理器运行该程序后，执行如第一方面任一项所述的方法。

第八方面，本申请实施例还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储数据处理程序，该电子设备通电并通过所述处理器运行该程序后，执行如第二方面任一项所述的方法。

第九方面，本申请实施例还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储数据处理程序，该电子设备通电并通过所述处理器运行该程序后，执行如第三方面任一项所述的方法。

第十方面，本申请实施例还提供了一种计算机可读存储介质，存储有数据处理程序，该程序被处理器运行，执行如第一方面任一项所述的方法。

第十一方面，本申请实施例还提供了一种计算机可读存储介质，存储有数据处理程序，该程序被处理器运行，执行如第二方面任一项所述的方法。

第十二方面，本申请实施例还提供了一种计算机可读存储介质，存储有数据处理程序，该程序被处理器运行，执行如第三方面任一项所述的方法。

与现有技术相比，本申请具有以下优点：

本申请提供的训练文本的生成方法，将引导文本输入基于引导的文本生成模型中后，能够得到与引导文本语义属性相一致的输出文本，由于引导文本与目标文本语义属性相一致，目标文本为文本识别模型识别出的正例文本，所以，得到的输出文本也与文本识别模型用于识别出的正例文本的语义属性相一致，这样，根据得到的输出文本所确定的训练文本能够作为正例样本文本，以用于对待训练模型进行训练。

本申请通过基于引导的文本生成模型自动生成输出文本，从而确定出训练文本，可以更加快速、高效地得到训练文本，且由于文本生成模型能够生成丰富多样的输出文本，所以根据输出文本所确定的训练文本的多样性也更好，从而能够提高训练得到的文本识别模型的识别准确度，使得文本识别模型能够更准确地识别出正例文本。

附图说明

图1是本申请实施例提供的训练文本生成方法的流程图；

图2是本申请实施例提供的训练文本生成方法的另一例的流程图；

图3是本申请实施例提供的文本识别模型训练方法的流程图；

图4是本申请实施例提供的文本识别模型训练方法的另一例的流程图；

图5是本申请实施例提供的训练文本生成装置的单元框图；

图6是本申请实施例提供的用于实现训练文本生成方法的电子设备的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

智能聊天技术能够对用户提出的问题自动回复，其在电商或公共服务等领域的智能客服、聊天机器

人、游戏闲聊等领域中应用非常广泛。

针对用户的问题，智能聊天设备可以从预存的问答数据库中检索出与用户问题相对应的回复内容。由于问答数据库中所存储的问题有限，对于问答数据库中未存储的问题，这种方式无法给出相应回复，导致不能较好地与用户进行更为流畅的问答，所回复的内容也比较单一，用户体验不佳。

随着深度学习的发展，智能聊天场景逐渐开始使用对话生成模型来回复用户的问题，使得回复内容的多样性得到很大提升，并且还支持连贯的多轮聊天，用户的使用体验更好。

但是，对话生成模型通常是基于海量的样本数据训练得到的，这些样本数据中难免包含一些敏感文本，例如，包含谩骂、暴力等敏感文本，因此，对话生成模型会学到这些敏感文本的表述，导致对话生成模型可能会生成敏感文本而回复给用户。为了营造绿色聊天环境，需要提前识别并过滤掉生成的敏感文本。

相关技术中，可以通过基于字或词的方式来过滤敏感文本。比如，直接过滤掉包含“做”、“你娘”、“你生的”等敏感词的文本，如智能对话设备回复“我想和你做”就会被直接过滤掉。由于包含“做”这个字的文本大部分都不是敏感文本，如“做饭”、“做家务”、“做运动”等，因此，还会设立一个白名单表，不过滤在白名单表中的文本。比如将“做家务”放到白名单表中，那么智能对话设备回复“今天我在家做家务”就不会被过滤掉。

但是，由于敏感词的数量十分巨大，而所罗列敏感词数量有限，因此，会遗漏很多敏感文本，导致很多敏感的输出文本无法被过滤。其次，由于白名单也是罗列不尽的，因此会过滤掉很多正常文本，导致对话的质量下降。此外，这种方式只可以过滤掉显示出现敏感词的文本，无法过滤掉不包含敏感词但语义敏感的文本，比如“我想要你”。

相关技术中，还可以通过基于正则表达式的方式来过滤敏感文本。比如，当智能对话设备的人设是一个儿童时，智能对话设备回复的文本若表达自己要生孩子或者有孩子是敏感文本。这种情况下，正则表达式可以为“生.*个.*孩子”或“有.*个.*孩子”，其中“.”匹配除了换行符以外的任意字符，“*”表示匹配前面0个或多个字符。当智能对话设备回复“猫妈妈生了2个孩子”、“你生了1个孩子”时，都会因为匹配上正则表达式“生.*个.*孩子”而被过滤掉。

但是，由于无法穷尽所有的敏感正则表达式，导致很多敏感文本无法被识别出来。另外，也会误杀很多正常的文本，比如上述“猫妈妈生了2个孩子”会被误杀。另外，正则表达式的方式也只能过滤掉与正则表达式相匹配的文本，无法过滤掉与正则表达式不匹配的隐式敏感文本。

为了提高敏感文本的识别准确率，可以使用识别模型来识别敏感文本，其中，识别模型为深度模型。然而，识别模型需要预先通过大量不同表述的敏感文本作为样本进行训练，由于目前互联网上很难搜集到大批量的敏感文本，而人工编写敏感文本的数量和多样性是有限的，因此，如何高效地获取到大量的训练文本(例如敏感文本)是需要解决的问题。

为了更快速、高效地获取到大量的训练文本，本申请提供了一种训练文本生成方法、文本识别模型训练方法、文本识别方法以及与各方法相对应的装置、电子设备、以及计算机可读存储介质，以下提供实施例对上述方法、装置、电子设备以及计算机可读存储介质进行详细说明。

本申请第一实施例提供了一种训练文本生成方法，该训练文本用于对待训练模型进行训练，以得到文本识别模型。本申请实施例中，训练文本生成方法的执行主体为电子设备，该电子设备可以为台式电脑、笔记本电脑、平板电脑、服务器、手机等任意具有数据处理能力的电子设备。

上述待训练模型可以包括bert模型、卷积神经网络、逻辑回归模型、K-近邻(K-NearestNeighbor，KNN)模型、逻辑回归模型、二分类模型中的至少一种，也可以为其他任意的深度学习模型。

上述文本识别模型能够确定出待识别文本为正例文本还是负例文本，上述文本识别模型也可以理解为文本分类模型。上述文本识别模型可以用于对中文文本进行识别，也可以对英文、法文、德文等外文文本进行识别。

正例文本指的是文本识别模型需要识别出的文本，例如，文本识别模型用于识别出包含地名的文本，那么包含地名的文本为正例文本，不包含地名的文本为负例文本，文本识别模型用于识别出敏感语义的文本，那么，敏感语义的文本为正例文本，非敏感语义的文本为负例文本。

如图1所示，本申请实施例提供的训练文本生成方法包括以下步骤 S110～S130。

步骤S110：获取引导文本。

上述引导文本与目标文本的语义属性相一致，该目标文本为文本识别模型识别出的正例文本。

上述引导文本可以是一段或多段文本、一句或多句文本、一个或多个词语，该词语可以是单字词，也可以是双字词或者多字词，引导文本也可以是其他形式的文本。本申请实施例中，可以是人工设定好引导文本后输入电子设备内，电子设备获取人工输入的引导文本；或者，也可以是电子设备根据目标文本自动确定引导文本，例如，电子设备可以自动识别目标文本的语义属性，并根据目标文本的语义属性确定出与该语义属性相一致的引导文本。

上述引导文本可以是中文文本或中文词，也可以为英文、德文等外文文本或外文词。

目标文本的语义属性，可以理解为目标文本的语义所属于的类型。具体的，目标文本的语义属性可以是语义敏感文本、涉密文本、科普文本、学术文本、医疗知识文本中的至少一种，目标文本的语义属性也可以是其他具体的语义属性，本领域技术人员可以根据文本识别模型需要识别出的正例文本的语义属性确定目标文本的语义属性，本申请不限定目标文本的具体语义属性。

例如，若文本识别模型用于识别出语义敏感文本，则引导文本的语义属性可以为敏感文本，若训练后的文本识别模型用于识别出涉密文本，则引导文本的语义属性可以为涉密文本。

可选地，上述敏感文本可以包括暴力文本、涉黄文本、语言攻击文本或者其他不健康的文本。

举例说明，若文本识别模型识别出的正例文本为暴力、涉黄、谩骂等敏感属性的文本，则引导文本可以包括一个或多个具有暴力、涉黄、谩骂等敏感语义属性的单字词或多字词。

引导文本包含的各个单字词或多字词可以称为引导词，即引导文本包含一个或多个引导词，每一引导词与目标文本的语义属性相一致。当引导文本包含一个或多个引导词时，由于引导词较短，其语义更容易被获取到，因此，当引导文本包含引导词时，更便于基于引导的文本生成模型生成与引导词的语义属性一致的文本。

引导文本包含的引导词的数量范围可以为5～15个，例如，引导文本包含的引导词的数量为5个、8个、10个、12个、15个等。引导词的数量不宜过多或过少，过多会使得基于引导的文本生成模型的运算复杂度过高，从而影响输出文本的输出效率，甚至运算错误而无法得到输出文本，过少会使得输出文本与目标文本的语义属性差别较大。

引导词可以作为前缀文本，前缀文本是指在每次进行训练文本生成方法时均不变的词，前缀文本的语义更稳定、引导性更强。也就是说，对于生成同一语义属性的训练样本而言，在每次通过本申请提供的训练文本生成方法进行文本生成时，前缀文本均不变，以使得每次得到的训练文本均与前缀文本的语义属性一致。

步骤S120：将引导文本输入基于引导的文本生成模型中，得到与引导文本的语义属性相一致的输出文本。

上述基于引导的文本生成模型为预先训练好的模型。本申请实施例中，可以基于引导样本以及与引导样本对应的文本样本对ELMO、OpenAIGPT、BERT 或OpenAIGPT-2等神经网络模型等深度模型进行训练，从而得到基于引导的文本生成模型。其中，引导样本和文本样本可以从小说、剧本、杂志或期刊上的文章等资料上获取并标注，本领域技术人员可以根据常规的模型训练方法训练得到基于引导的文本生成模型，本申请不再详述。

步骤S130：根据上述输出文本确定训练文本。

步骤S130中，可以直接将输出文本确定为训练文本，也可以根据输出文本进行语句扩展，得到与输出文本语义属性相一致的扩展文本，将输出文本和扩展文本确定为训练样本，或者，也可以根据输出文本通过其他方式确定出训练文本。

本申请实施例中，由于引导文本与文本识别模型识别出的正例文本的语义属性相一致，当得到的输出文本与引导文本的语义属性相一致时，根据输出文本确定出的样本文本与文本识别模型用于识别出的正例文本的语义属性也相一致。

例如，当引导文本的语义属性为谩骂属性的文本时，输出文本的语义属性也为谩骂属性的文本，根据输出文本确定出的训练文本的语义属性也为谩骂属性的文本，因此训练文本能够作为正例样本对应的文本而对待训练模型进行训练，从而使得训练得到的文本识别模型能够识别出谩骂属性的文本，谩骂属性的文本即正例文本。

在一种实施方式中，如图2所示，在步骤S120之前，还可以包括以下步骤 S140。

步骤S140：获取提问文本。

步骤S120可以按以下步骤S121实现。

步骤S121：将上述提问文本和上述引导文本输入基于引导的对话生成模型中，得到用于回复上述提问文本、且与上述引导文本语义属性相一致的输出文本。

上述提问文本通过小说片段、台词剧本、社交媒体聊天记录等得到。提问文本充当的是用户提问的文本。提问文本可以是“请问几点了”、“公司地址在哪”等询问式文本，提问文本也可以说“祝你开心”、“我们是好朋友”、“天气不错”等闲聊式文本。提问文本可以是一句文本，也可以是多句文本。

提问文本可以是用户输入电子设备内的文本，也可以是电子设备从存储的文本库里选择得到的文本。

本实施方式中，步骤S120中的文本生成模型即为步骤S121中的对话生成模型。

上述基于引导的对话生成模型可以基于提问样本、引导样本、以及与引导样本和提问样本对应的回复样本对深度模型进行训练，从而得到基于引导的文本生成模型。其中，提问样本、引导样本和回复样本可以从小说、台词剧本、社交媒体的聊天数据等资料上获取并标注，本领域技术人员可以根据常规的模型训练方法训练得到基于引导的文本对话模型，本申请不再详述。

本实施方式通过基于引导的对话生成模型生成输出文本，该输出文本由于是对提问文本的回复，所以，输出文本与智能聊天设备自动回复的内容更一致，这样，根据输出文本确定出训练文本后，基于训练文本所训练的文本识别模型更适合于对智能聊天设备自动生成的聊天信息进行识别，也更适合于对智能聊天设备通过对话生成模型所生成的回复文本进行识别。这样，当智能聊天设备通过对话生成模型生成了谩骂、暴力等不健康的敏感文本时，文本识别模型能够更准确地识别出对话生成模型所生成的敏感文本。

可选地，基于引导的对话生成模型得出的输出文本可以包括一条，这种情况下，可以将该条输出文本确定为训练样本。

在一种实施方式中，上述输出文本可以包括多条，步骤S130可以按以下步骤S131实现：从多条输出文本中确定训练文本。

输出文本包括多条，即通过基于引导的文本生成模型得到多条输出文本。

可选地，如图2所示，可以按以下步骤S131a从多条输出文本中确定训练文本。

步骤S131a：从多条输出文本中选择包含至少一个预设关键词的文本确定为训练文本。

本申请实施例中，可以将步骤S131a中确定训练文本的方式确定为第一策略。

上述预设关键词的语义属性与目标文本的语义属性相一致。上述预设关键词可以为用户输入的词，预设关键词可以包括一个或者多个。例如，当文本识别模型识别出的正例文本为语义敏感的文本时，预设关键词可以包括：呻吟、揍、交、暴打等语义敏感的词。

当多条输出文本中存在多于一条包含预设关键词的文本，可以将各包含预设关键词的输出文本均确定为训练文本，也可以将各包含预设关键词的输出文本中的第一条确定为训练文本，或者将包含的预设关键词数量最多的输出文本确定为训练文本。

本实施例中，由于预设关键词与文本生成模型识别出的正例文本的语义属性一致，因此，包含预设关键词的输出文本与文本生成模型识别出的正例文本的语义属性更容易相一致，这样，以包含预设关键词的输出文本作为训练文本，能够使得训练得到的文本识别模型识别出正例文本的准确度更高。

可选地，如图2所示，也可以按以下步骤S131b或者步骤S131c从多条输出文本中确定训练文本。

步骤S131b：从多条输出文本中选择第一条确定为训练文本。

本申请实施例中，可以将步骤S131b中确定训练文本的方式作为第二策略。

由于多条输出文本中的第一条通常与引导文本的匹配程度更高，因此，选择第一条输出文本作为训练文本对待训练模型进行训练，能够使得训练得到的文本识别模型识别出正例文本的准确度更高。

步骤S131c：从多条输出文本中随机选择一条文本确定为训练文本。

本实施方式中，也可以将各条输出文本均确定为训练文本，或者，可以将各输出文本进行显示，以便于用户从各输出文本中进行选择，再将用户所选择的文本确定为训练文本。本申请不具体限定从多条输出文本中确定训练文本的方式。

本实施方式中，由于基于语义的文本模型得出的输出文本包括多条，这样，可以从多条输出文本中灵活确定出与目标文本的语义属性更一致的输出文本作为训练文本，从而使得确定出的训练文本与目标文本的语义属性更一致，使得通过训练文本确定出的文本识别模型能够更准确地识别出正例文本。

在一种实施方式中，如图2所示，选择上述第一策略确定训练文本的概率为第一预设概率，选择上述第二策略确定训练文本的概率为第二预设概率，第一预设概率大于第二预设概率，且第一预设概率与第二预设概率之和为1。

也就是说，本实施方式以第一预设概率选择上述第一策略确定训练文本，以第二预设概率选择上述第二策略确定训练文本。

第一预设概率大于第二预设概率，可以是第一预设概率、第二预设概率分别为0.8、0.2，也可以是第一预设概率、第二预设概率分别为0.9、0.1，也可以是第一预设概率、第二预设概率分别为0.6、0.4等，第一预设概率大于第二预设概率、且二者之和为1即可，本申请不限定两个概率的具体值。

在一个具体实施例中，第一预设概率的范围可以为0.7～0.9，第二预设概率的范围可以为0.1～0.3。例如，第一预设概率、第二预设概率分别为0.7、0.3，第一预设概率、第二预设概率分别为0.8、0.2，第一预设概率、第二预设概率分别为0.9、0.1。也就是说，第一预设概率相对于第二预设概率之间的差距比较大。通常来说，包含预设关键词的输出文本与目标文本语义属性一致的概率比不包含预设关键词但与目标文本的语义属性一致的概率大的比较多，因此，第一预设概率比第二预设概率大的程度比较多，这样，既可以更大程度地使得到的训练文本与目标文本的语义属性一致，也可以使得到的训练文本的多样性更好，从而使通过训练文本训练出的文本识别模型能够更准确地识别出更多样的正例文本。

由于预设关键词数量有限，各预设关键词很难包含所有与目标文本的语义属性相一致的词，因此，即使输出文本不包含任何的预设关键词，该输出文本也有可能与目标文本的语义属性一致。由于第一条输出文本与目标文本语义属性相一致的概率是比较大的，因此，无论第一条输出文本是否包含预设关键词，该第一条输出文本也有可能与目标文本的语义属性相一致，本实施例以较小的第二预设概率选择第一条输出文本作为训练文本，可以增加不包含预设关键词、但与目标文本的语义属性相一致的训练文本，使得训练文本的多样性更好，从而使得训练后的文本识别模型可以识别出更多样的正例文本。

当输出文本包含预设关键词时，说明该输出文本与目标文本的语义属性相一致的概率很大，因此，以较大的第一预设概率将包含至少一个预设关键词的输出文本确定为训练文本，可以使得确定出的训练文本与目标文本的语义属性更一致，从而使得通过训练文本训练得到的文本识别模型能够更准确地识别出正例文本。

上述预设关键词可以包括各个上述引导词。由于引导文本包含的引导词与目标文本的语义相一致，所以，直接将各引导词确定为预设关键词，快速得到预设关键词。

在一个具体实施例中，上述预设关键词还可以包括各第一目标词，第一目标词为任意一条输出文本中包含的、与目标文本语义属性相一致、且与各引导词均不同的词。

本实施例中，可以将多条输出文本进行显示，以使用户能够查看各条输出文本。用户查看各条输出文本后，能够从各条输出文本中找出与目标文本语义属性相一致、且与各引导词均不同的词，并将找出的词输入电子设备，这样，电子设备能够获取到用户找出并输入的词。

由于输出文本是基于引导文本生成的，因此，输出文本很大概率与目标文本语义属性一致，所以，输出文本中含有与目标文本语义属性一致的词的概率也很大，这样，从输出文本中很可能筛选出与目标文本语义属性一致、且与各引导词均不同的词。

由于引导词的数量有限，所以根据输出文本是否包含引导词来确定输出文本是否为训练文本，可能会过滤掉一些包含其他与目标文本语义一致的词的文本。本实施例中将第一目标词确定为预设关键词，即对预设关键词进行了补充，预设关键词更加丰富多样，这样，不容易漏掉输出文本中与目标文本一致的文本，使得训练样本更多样丰富。

在一个具体实施例中，步骤S131a之后，还可以包括以下步骤S131c。

步骤S131c：当多条输出文本中的每一条文本均未包含任一预设关键词时，将多条输出文本中的第一条确定为训练样本。

本申请实施例中，可以将步骤S131a和步骤S131c确定训练文本的方式共同确定为第一策略。

本实施例能够提高获取到的与目标文本的语义属性一致的文本的数量。

本申请实施例中，用户可以将步骤S110～步骤S130进行多次，每次进行时的引导文本均与文本生成模型识别出的正例文本的语义属性一致，但每次进行时的引导文本不完全相同，例如，每次进行时的引导文本可以部分不相同，也可以完全不相同，这样，通过执行多次训练文本生成方法，可以得到更多不相同的训练文本。通过训练文本训练后的文本识别模型可以用于识别谩骂、黄色等敏感文本。可见，通过本申请提供的方法能够生成多样的训练文本。

如图3所示，本申请第二实施例提供了一种文本识别模型的训练方法，该方法包括以下步骤S510～步骤S520。

步骤S510：获取训练样本。

上述训练样本包括正例样本和负样本，正例样本对应的文本包括：通过第一实施例中任一项所述的训练文本生成方法所生成的训练文本。

本申请实施例中，可以将通过第一实施例中任一项所述的训练文本生成方法所生成的训练文本标记为正例样本，从而得到正例样本。

上述负例样本对应的文本可以从小说、杂志、网页等资料中获取。负例样本对应的文本与正例样本对应的文本的语义属性相反。例如，正例样本对应的文本为语义敏感的文本，则负例样本对应的文本为语义不敏感的文本，正例样本对应的文本为包含人名的文本，则负例样本对应的文本为不包含人名的文本。

当文本识别模型用于识别出对话生成模型生成的文本是否是敏感文本时，上述正例样本对应的文本还可以包括：从历史聊天信息中被过滤掉的敏感文本中确定的第三文本。例如，对于智能聊天***来说，其可能已经运行了一段时间，运行过程中已经通过基于正则表达式的过滤方式、基于字或词的过滤方式等方式过滤了一部分文本，这些被过滤掉的文本为敏感文本的概率是非常大的，因此，从这些被过滤掉的敏感文本中可以快速获取到大量的敏感文本。

具体的，可以人工从上述被过滤掉的敏感文本中进行选择敏感的第三文本，电子设备将人工所选择的第三文本确定为正例样本对应的文本，并将第三文本标记文正例样本。

上述正例样本对应的文本还可以包括：从历史聊天信息中未被过滤掉的文本中确定的第四文本。历史聊天信息中未被过滤掉的文本也可能包含敏感文本，所以，可以人工从上述未被过滤掉的文本中选择出敏感的第四文本，电子设备将人工选择的第四文本确定为正例样本对应的文本，并将第四文本标记文正例样本。

通过以上方式可以快速得到大量的正例样本。

当文本识别模型用于识别出对话生成模型生成的文本是否是敏感文本时，上述负例样本对应的文本可以包括：从历史聊天信息中未被过滤掉的文本中确定的文本。由于历史聊天信息中非敏感的文本占比更大，数量更多，因此，从未被过滤掉的文本中确定的文本基本上都为非敏感文本，这样，可以方便地得到大量的非敏感文本，即负例样本对应的文本。电子设备可以将负例样本对应的文本标记为负例样本。

步骤S520：使用上述训练样本对待训练模型进行训练，得到文本识别模型。

待训练模型的具体类型可以参考第一实施例的描述，此处不再赘述。

本申请实施例中，可以将正例样本对应的文本、负例样本对应的文本输入待训练模型进行编码，并用二分类器来对编码后的文本进行分类，分类结果为正例文本(例如敏感文本、包含人名的文本)或负例文本(例如非敏感文本、不包含人名的文本)，将得到的分类结果与正、负例样本对应的文本自身的标记信息进行比较，从而调整待训练模型的各个参数。

训练过程中，损失函数可以为通用的二分类交叉熵损失函数。

本申请实施例中，待训练模型可以包括文本编码模型和二分类模型。

本申请提供的文本识别模型的训练方法由于采用了第一实施例所述的训练文本生成方法生成正例样本对应的文本，因此，具有与第一实施例相对应的有益效果，此处不再赘述。

在一中实施方式中，如图4所示，所述训练方法还可以包括以下步骤 S530～S540。

步骤S530：获取第一文本，并对第一文本进行标注，得到第一样本。

第一文本为文本识别模型识别错误的文本，所述识别错误的文本的实际语义属性与所述文本识别模型对所述识别错误的文本所识别出的语义属性不同。例如，“曹操是三国时期的历史人物”这句话的实际语义属性是非敏感的语义，而文本识别模型对这句话识别出的语义属性是敏感的语义，则这句话为文本识别模型识别错误的文本。

步骤S540：使用第一样本对文本识别模型进行优化训练。

具体的，第一文本为训练后的文本识别模型在执行文本识别的过程中识别错误的文本，本申请可以人工对文本识别模型识别后的文本进行检查，以发现识别错的文本。

本申请中，可以人工对上述第一文本进行标注，例如，标注为正例样本或负例样本。

本实施方式中，可以按预设的时间间隔对文本识别模型进行优化训练，预设的时间间隔可以是一个月、两个月或者其他时间间隔。或者，也可以响应与用户触发的优化指令而对文本识别模型进行优化训练。

本实施方式使用被文本识别模型识别错误的文本对文本识别模型进行优化训练，可以进一步提高文本识别模型的识别准确率。

在一个具体实施例中，如图4所示，在上述使用第一样本对文本识别模型进行优化训练的步骤之前，上述训练方法还可以包括以下步骤S550。

步骤S550：获取第二文本，并对第二文本进行标注，得到第二样本。

其中，第二文本中包含第二目标词，且第二文本与第一文本所表达的语义属性相反，第二目标词为第一文本中包含的、与目标文本所表达的语义属性相一致的词。第二样本与第一样本的标注信息相反。

上述步骤S540可以按以下步骤S541实现。

步骤S541：使用第一样本和第二样本对所述文本识别模型进行优化训练。

本实施例中，可以人工确定第二样本，并将第二样本输入电子设备，从而使电子设备获取到该第二样本。

例如，对于文本识别模型用于识别出敏感文本的场景，文本识别模型预测错误的第一文本为“曹操是三个有名的人物”，文本识别模型将其预测为敏感文本，但该第一文本实际为非敏感文本，因此将“曹操是三个有名的人物”标记为敏感文本，即标记为正例样本，第一文本中包含的与目标文本所表达的语义属性相一致的词为“操”，即“操”为第二目标词，则包含“操”、且与“曹操是三个有名的人物”这一非敏感文本的语义属性相反的第二文本可以为“你想怎么操”，该第二文本为敏感文本，其与第一文本的语义属性相反，则将“你想怎么操”标记为非敏感文本，即标记为负例样本。

由于“曹操是三个有名的人物”中包含语义敏感的词“操”，所以文本识别模型将该句识别为敏感文本。本实施例将“曹操是三个有名的人物”标记为非敏感文本对模型优化训练时，容易使模型认为包含“操”的文本为非敏感文本，这种情况下，为了避免模型过拟合到某些字词上，可以增加一些与第一样本标注信息相反、且包含第二目标词“操”的第二样本，通过第一样本和第二样本共同对模型进行优化训练，更好地避免了模型过拟合到某些词上的现象，提高了模型识别的准确度。

在一种实施方式中，上述训练样本可以包括回复样本以及问答拼接样本。

回复样本中正例样本对应的文本包括：通过上述基于引导的对话生成模型生成的文本；问答拼接样本对应的文本为拼接文本，拼接文本包括：将提问文本与对应于该提问文本的回复文本进行拼接后形成的文本。

本实施方式中，回复样本中正例样本对应的文本还可以包括：从智能聊天设备中获取的回复文本、从小说或剧本的对白中确定的回复文本等。

回复样本中负例样本对应的文本可以包括：从小说、剧本、网络文章等资源中确定的文本，回复样本中负例样本对应的文本还可以包括：通过对话生成模型所生成的文本。

用户可以人工对回复样本中的正例样本和负例样本进行标注。

本实施方式中，回复样本对应的文本用于表示对用户提问的问题所做的答复。

上述拼接文本能够反映用户的问题与回复者的回复进行拼接后的信息。

可以人工从小说、剧本、网络文章等资源中获取对白信息，再从这些对白信息中获取提问文本和对应于该提问文本的回复文本。

或者，也可以通过对话生成模型生成与提问文本对应的回复文本，并将该提问文本与对话生成模型生成的文本确定为回复文本。

例如，提问文本为“你想我吗”，回复文本为“我想你”，则拼接文本可以为“你想我吗，我想你”。

由于有些用户可能会刻意聊一些敏感话题，这个时候如果单独识别聊天设备回复的文本，其可能并不是敏感文本，但是将用户的问题和智能回复设备的回复连起来看可能就是敏感文本。如用户提问为“你想要我吗”，聊天设备回复为“嗯，我要”，回复文本“嗯，我要”并不是敏感文本，但“你想要我吗，嗯，我要”为敏感文本。本实施例将问答拼接样本作为训练样本，使得训练得到的文本识别模型能够用于对问答拼接文本进行识别，从而使得文本识别模型的适用范围更广，能够识别出的目标文本的类型更多。

第二实施例中，主要对与第一实施例不同的部分进行了解释说明，与第一实施例相同或相似部分的内容不再赘述。

本申请第三实施例提供了一种文本识别方法，包括以下步骤：

获取待识别文本；

将上述待识别文本输入文本识别模型中，得到对待识别文本的识别结果。

其中，上述文本识别模型是通过第二实施例中任一项所述的训练方法进行训练得到的。

上述待识别文本可以为对话生成模型所生成的文本。

上述待识别文本也可以为将用户的提问文本以及对话生成模型所生成的文本进行拼接后形成的文本。这种情况下，训练文本识别模型的训练样本包括上述回复样本以及上述问答拼接样本。

上述待识别文本也可以为网络留言、聊天工具上的对话信息、网络文章中的文本等，本申请不限定待识别文本的具体内容。

现有技术的方法包括敏感词识别法与基于规则的识别法，使用本申请提供的文本识别方法能够很好地对隐晦敏感文本进行识别，且不容易出现误判现象，对敏感文本的识别准确率更高。

本第三实施例的文本识别方法中的文本识别模型由于采用了第二实施例所提供的方法训练得到，因此，该实施例具有与第二实施例相似的有益效果，此处不再赘述。

第三实施例中，主要对与第一实施例、第二实施例不同的部分进行了解释说明，与第一实施例、第二实施例相同或相似部分的内容不再赘述。

如图5所示，本申请第四实施例还提供了一种训练文本生成装置，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述装置包括：

信息获取单元810，用于获取引导文本，所述引导文本与目标文本的语义属性相一致，所述目标文本为所述文本识别模型识别出的正例文本；

文本生成单元820，用于将所述引导文本输入基于引导的文本生成模型中，得到与所述引导文本的语义属性相一致的输出文本；

文本确定单元830，用于根据所述输出文本确定训练文本。

可选地，所述装置还包括：

第一文本获取单元，用于获取提问文本；

可选地，所述输出文本包括多条；

可选地，文本确定单元具体用于：

所述预设关键词包括：各所述引导词。

本申请第五实施例还提供了一种文本识别模型的训练装置，包括：

样本获取单元，用于获取训练样本，所述训练样本包括正例样本和负例样本，所述正例样本对应的文本包括：通过第四实施例中任一项所述的训练文本生成装置所生成的训练文本；

可选地，所述训练装置还包括：

可选地，所述第二文本获取单元还用于：

可选地，所述训练样本包括回复样本以及问答拼接样本；

所述回复样本中正例样本对应的文本包括：通过第一实施例中通过将提问文本和引导文本输入基于引导的对话生成模型中的方式确定出的训练文本；

本申请第六实施例还提供了一种文本识别装置，包括：

第三文本获取单元，用于获取待识别文本；

文本识别单元，用于将所述待识别文本输入文本识别模型中，得到对所述待识别文本的识别结果，其中，所述文本识别模型是通过第五实施例中任一项所述的训练装置进行训练得到的。

可选地，所述待识别文本为对话生成模型所生成的文本；

或者，所述待识别文本为将用户的提问文本以及对话生成模型所生成的文本进行拼接后形成的文本，其中，所述文本识别模型是通过第一实施例中当训练样本包括回复样本以及问答拼接样本时所述的训练方法进行训练得到的。

与本申请第一实施例提供的训练文本生成方法相对应的，本申请第七实施例还提供了一种用于生成训练文本的电子设备。如图6所示，所述电子设备包括：处理器901；以及存储器902，用于存储训练文本生成方法的程序，该设备通电并通过所述处理器运行该数据变更响应方法的程序后，执行如下步骤：

根据所述输出文本确定训练文本。

与本申请第二实施例提供的文本识别模型的训练方法相对应的，本申请第八实施例还提供了一种用于训练文本识别模型的电子设备。所述电子设备包括：处理器；以及存储器，用于存储文本识别模型的训练方法的程序，该设备通电并通过所述处理器运行该文本识别模型的训练方法的程序后，执行如下步骤：

获取训练样本，所述训练样本包括正例样本和负例样本，所述正例样本对应的文本包括：通过第一实施例中任一项所述的训练文本生成方法所生成的训练文本；

与本申请第三实施例提供的文本识别方法相对应的，本申请第九实施例还提供了一种用于对文本进行识别的电子设备。所述电子设备包括：处理器；以及存储器，用于存储文本识别方法的程序，该设备通电并通过所述处理器运行该文本识别方法的程序后，执行如下步骤：

获取待识别文本；

将所述待识别文本输入文本识别模型中，得到对所述待识别文本的识别结果，其中，所述文本识别模型是通过第二实施例中任一项所述的训练方法进行训练得到的。

与本申请第一实施例提供的训练文本生成方法相对应的，本申请第十实施例提供一种计算机可读存储介质，存储有训练文本生成方法的程序，该程序被处理器运行，执行下述步骤：

根据所述输出文本确定训练文本。

需要说明的是，对于本申请第四实施例至第十实施例中提供的装置、电子设备及计算机可读存储介质实施例，详细描述可以参考对本申请第一实施例至第三实施例的相关描述，这里不再赘述。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他属性的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种训练文本生成方法，其特征在于，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述方法包括：

根据所述输出文本确定训练文本。

2.根据权利要求1所述的方法，其特征在于，在所述将所述引导文本输入基于引导的文本生成模型中之前，所述方法还包括：

获取提问文本；

3.根据权利要求2所述的方法，其特征在于，所述输出文本包括多条；

所述根据所述输出文本确定训练文本，包括：

从多条所述输出文本中确定训练文本。

4.根据权利要求3所述的方法，其特征在于，所述从多条所述输出文本中确定训练文本，包括：

5.根据权利要求4所述的方法，其特征在于，选择所述第一策略确定所述训练文本的概率为第一预设概率，选择所述第二策略确定所述训练文本的概率为第二预设概率，所述第一预设概率大于所述第二预设概率，且所述第一预设概率与所述第二预设概率之和为1。

6.根据权利要求4所述的方法，其特征在于，所述引导文本包括至少一个引导词，每一所述引导词与所述目标文本的语义属性相一致；

所述预设关键词包括：各所述引导词。

7.根据权利要求6所述的方法，其特征在于，所述预设关键词还包括：各第一目标词，所述第一目标词为与所述目标文本语义属性相一致、且与各所述引导词均不同的词。

8.根据权利要求4所述的方法，其特征在于，所述第一策略还包括：当多条所述输出文本均未包含任一所述预设关键词时，选择多条所述输出文本中的第一条以确定训练文本。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述正例文本的语义属性为语义敏感的文本，所述目标文本的语义属性为语义敏感的文本，所述文本识别模型用于对对话生成模型所生成的文本进行识别。

10.一种文本识别模型的训练方法，其特征在于，包括：

获取训练样本，所述训练样本包括正例样本和负例样本，所述正例样本对应的文本包括：通过权利要求1至9中任一项所述的训练文本生成方法所生成的训练文本；

11.根据权利要求10所述的训练方法，其特征在于，所述训练方法还包括：

对所述第一文本进行标注，得到第一样本；

使用所述第一样本对所述文本识别模型进行优化训练。

12.根据权利要求11所述的训练方法，其特征在于，在所述使用所述第一样本对所述文本识别模型进行优化训练之前，所述训练方法还包括：

获取第二文本，所述第二文本中包含第二目标词，且所述第二文本与所述第一文本的语义属性相反，所述第二目标词为所述第一文本中包含的、与所述目标文本所表达的语义属性相一致的词；

13.根据权利要求10至12任一项所述的训练方法，其特征在于，所述训练样本包括回复样本以及问答拼接样本；

所述回复样本中正例样本对应的文本包括：通过权利要求2至8中任一项所述训练文本生成方法生成的文本；

14.一种文本识别方法，其特征在于，包括：

获取待识别文本；

将所述待识别文本输入文本识别模型中，得到对所述待识别文本的识别结果，其中，所述文本识别模型是通过权利要求10至13中任一项所述的训练方法进行训练得到的。

15.根据权利要求14所述的文本识别方法，其特征在于，所述待识别文本为对话生成模型所生成的文本；

或者，所述待识别文本为将用户的提问文本以及对话生成模型所生成的文本进行拼接后形成的文本，其中，所述文本识别模型是通过权利要求13所述的训练方法进行训练得到的。

16.一种训练文本生成装置，其特征在于，所述训练文本用于对待训练模型进行训练，以得到文本识别模型，所述装置包括：

文本确定单元，用于根据所述输出文本确定训练文本。

17.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储数据处理程序，该电子设备通电并通过所述处理器运行该程序后，执行如权利要求1-15中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，存储有数据处理程序，该程序被处理器运行，执行如权利要求1-15中任一项所述的方法。