CN117973402B

CN117973402B - 文本转换的预处理方法和装置、存储介质及电子设备

Info

Publication number: CN117973402B
Application number: CN202410387525.9A
Authority: CN
Inventors: 王思嘉; 吴建伟; 郑仲富; 卿佳; 梁有宁; 刘海龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-06-11
Anticipated expiration: 2044-04-01
Also published as: CN117973402A

Abstract

本申请公开了一种文本转换的预处理方法和装置、存储介质及电子设备。其中，该方法包括：从目标应用的应用数据中获取初始样本文本集合；从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本；从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本；从初始样本文本集合中剔除第一组样本文本和第二组样本文本中的第一子组样本文本，得到第三组样本文本；将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集；利用正样本集和负样本集进行训练，得到文本转换模型。本申请解决了相关技术中在文本转换的预处理过程中出现的准确率较低的技术问题。

Description

文本转换的预处理方法和装置、存储介质及电子设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种文本转换的预处理方法和装置、存储介质及电子设备。

背景技术

在对目标应用的应用数据进行文本内容的转换过程中，通常会利用一些完成训练的机器模型来辅助快速完成转换。例如，以翻译为例，机器机器翻译模型会将源语种的数据直接转化为其他语种的数据，例如，将在不同国家发布的目标应用中的配置数据或者交互数据，从中文翻译成对应国家的官方使用语言。

仍以翻译为例，为了提升机器机器翻译模型的性能，通常会从翻译配置表中提取出应用运行过程中生成的历史翻译数据，并利用历史翻译数据对机器机器翻译模型进行训练，通过在训练过程中对机器机器翻译模型的结构参数进行不断调整，以提高机器机器翻译模型的准确性。

然而，由于机器机器翻译模型自身性能的局限性，历史翻译数据中可能会存在诸如译文与原文含义不一致、异常符号等情况，也即输入机器机器翻译模型的训练样本数据中掺杂了大量脏数据。在输入模型的训练样本数据不准确的情况下，使得迭代训练所输出的翻译结果的准确性也随之降低。换言之，相关技术所提供的文本转换的预处理方法存在处理准确率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本转换的预处理方法和装置、存储介质及电子设备，以至少解决在文本转换的预处理过程中出现的准确率较低的技术问题。

根据本申请实施例的一个方面，提供了一种文本转换的预处理方法，包括：从目标应用的应用数据中获取初始样本文本集合，其中，初始样本文本集合中的每对样本文本包括源语种的源样本文本和目标语种的目标样本文本，目标样本文本是基于源样本文本的文本内容进行内容转换后得到的；从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，其中，符号配置条件用于指示样本文本的文本内容所包含的符号的格式要求；从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，其中，第二组样本文本包括第一子组样本文本和第二子组样本文本，第一子组样本文本中的第i个样本文本与第二子组样本文本中的第j个样本文本之间的文本相似度大于预设阈值，文本相似度用于指示第i个样本文本和第j个样本文本之间的内容相似程度，i、j为大于或等于1的正整数；从初始样本文本集合中剔除第一组样本文本和第二组样本文本中的第一子组样本文本，得到第三组样本文本；将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集；利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型。

可选地，上述从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，包括：将初始样本文本集合中的源样本文本划分为F对源样本文本，其中，F为大于或等于2的正整数；确定每对源样本文本中的两个源样本文本之间的文本相似度，得到F个文本相似度，其中，文本相似度包括F对源样本文本中的每对源样本文本之间的文本相似度，F为大于或等于1的正整数；从F个文本相似度中确定出文本相似度大于预设阈值的M对源样本文本，其中，M为大于或等于1、且小于或等于F的正整数；根据M对源样本文本，确定第一子组样本文本；将M对源样本文本中除第一子组样本文本之外的剩余样本文本确定为第二子组样本文本。

可选地，上述确定每对源样本文本中的两个源样本文本之间的文本相似度，得到F个文本相似度，包括：通过以下步骤确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，其中，k为大于或等于1、且小于或等于F的正整数：根据第一源样本文本，确定第一词语序列，其中，第一词语序列中的第s个词语与前一个相邻词语中的最后一个字符相同，第一词语序列包括字符数量均为N的Q个词语，N为大于或等于预设值的正整数，s为大于或等于2、且小于或等于Q的正整数；根据第二源样本文本，确定第二词语序列，其中，第二词语序列中的第t个词语与前一个相邻词语中的最后一个字符相同，第二词语序列包括字符数量均为N的R个词语，Q、R为大于或等于2的正整数，t为大于或等于2、且小于或等于R的正整数；根据第一词语序列和第二词语序列，确定第k个文本相似度，其中，F个文本相似度包括第k个文本相似度。

可选地，上述根据第一词语序列和第二词语序列，确定第k个文本相似度，包括：根据第一词语序列和第二词语序列，确定目标词语序列，其中，目标词语序列是对第一词语序列和第二词语序列中的词语进行去重后再拼接得到的词语序列，目标词语序列包括W个词语，W为大于或等于2、且小于或等于目标词语数量之和的正整数，目标词语数量之和是第一词语序列的词语数量与第二词语序列的词语数量的和；根据第一词语序列和目标词语序列，确定第一词频向量，其中，第一词频向量中的元素用于表示第一词语序列中的词语是否出现在目标词语序列中；根据第二词语序列和目标词语序列，确定第二词频向量，其中，第二词频向量中的元素用于表示第二词语序列中的词语是否出现在目标词语序列中；根据第一词频向量和第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度。

可选地，上述根据第一词语序列和目标词语序列，确定第一词频向量，包括：在W个词语中包括第一词语序列中的第一部分词语的情况下，将目标词语序列中与第一部分词语对应的位置上置1，得到维度为1×W的第一词频向量。

可选地，上述根据第二词语序列和目标词语序列，确定第二词频向量，包括：在W个词语中包括第二词语序列中的第二部分词语的情况下，将目标词语序列中与第二部分词语对应的位置上置1，得到维度为1×W的第二词频向量。

可选地，上述根据第一词频向量和第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，包括：确定第一词频向量和第二词频向量之间的余弦相似度，并将余弦相似度确定为第k个文本相似度。

可选地，上述从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，包括：从初始样本文本集合中查找包含异常字符的样本文本，得到第一类样本文本，其中，初始样本文本集合包括第一类样本文本，第一类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；从初始样本文本集合中查找样本文本的语种是除源语种和目标语种之外的语种的第二类样本文本，其中，初始样本文本集合包括第二类样本文本，第二类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；从初始样本文本集合中查找文本内容为空值的第三类样本文本，其中，第一组样本文本包括第一类样本文本、第二类样本文本和第三类样本文本；其中，符号配置条件包括以下至少之一：样本文本中未出现异常符号、样本文本的语种包括源语种和目标语种、样本文本的文本内容不包含空值。

可选地，在利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型之前，上述方法还包括：通过将正样本集和负样本集输入预处理模型，得到目标预处理模型，其中，目标预处理模型是用于识别正样本集和负样本集中的样本文本的类别的模型。

可选地，上述通过将正样本集和负样本集输入预处理模型，得到目标预处理模型，包括：将正样本集中的正样本转化为第一多维向量，其中，第一多维向量包括第一类别信息和正样本的语义信息，第一类别信息表示样本文本的类别为正样本；将负样本集中的负样本转化为第二多维向量，其中，第二多维向量包括第二类别信息和负样本的语义信息，第二类别信息表示样本文本的类别为负样本；将第一多维向量和第二多维向量输入预处理模型，得到一组预测概率，其中，一组预测概率包括表示正样本集合的正样本的类别属于第一类别信息和第二类别信息的预测概率，以及表示述负样本集中的负样本的类别属于第一类别信息和第二类别信息的预测概率；根据一组预测概率、正样本的第一类别信息和负样本的第二类别信息，确定目标损失函数；在目标损失函数的取值满足收敛条件的情况下，停止训练，得到目标预处理模型。

可选地，上述从目标应用的应用数据中获取初始样本文本集合，包括：将目标应用在历史运行周期内生成的历史文本集合、预先配置的原始文本集合以及关联文本集合确定为初始样本文本集合，其中，原始文本集合包括在目标应用的配置表中预先定义的文本，关联文本集合是与目标应用的功能及类别相同的其他应用在运行过程中生成的文本集合。

根据本申请实施例的又一方面，还提供了一种文本转换的预处理装置，包括：第一获取单元，用于从目标应用的应用数据中获取初始样本文本集合，其中，初始样本文本集合中的每对样本文本包括源语种的源样本文本和目标语种的目标样本文本，目标样本文本是基于源样本文本的文本内容进行内容转换后得到的；第一处理单元，用于从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，其中，符号配置条件用于指示样本文本的文本内容所包含的符号的格式要求；第二处理单元，用于从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，其中，第二组样本文本包括第一子组样本文本和第二子组样本文本，第一子组样本文本中的第i个样本文本与第二子组样本文本中的第j个样本文本之间的文本相似度大于预设阈值，文本相似度用于指示第i个样本文本和第j个样本文本之间的内容相似程度，i、j为大于或等于1的正整数；第三处理单元，用于从初始样本文本集合中剔除第一组样本文本和第二组样本文本中的第一子组样本文本，得到第三组样本文本；第四处理单元，用于将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集；训练单元，用于利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序用于被电子设备运行时执行上述文本转换的预处理方法。

根据本申请实施例的又一方面，还提供了一种计算机程序产品，包括计算机程序该计算机程序被处理器执行时实现上述方法的步骤。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过计算机程序执行上述文本转换的预处理方法。

采用上述方式，通过判断初始样本文本集合中的样本文本是否满足符号配置条件，将包含异常符号的样本文本从初始样本文本集合中剔除；通过确定出文本相似度大于预设阈值的第二组样本文本，剔除初始样本文本集合中的重复样本文本，然后利用剔除异常样本文本后的样本集对文本转换模型进行训练，从而提高文本转换模型的结果的准确性。换句话说，通过预先设置的判断条件，对初始样本文本集合中的异常样本文本进行清洗，确保了输入文本转换模型的样本文本的准确性，实现了提高文本转换的预处理结果的准确性的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是根据本申请实施例的一种可选的文本转换的预处理方法的应用场景的示意图。

图2是根据本申请实施例的一种可选的文本转换的预处理方法的流程图。

图3是利用清洗后的样本文本训练前和训练后得到的机器翻译模型的翻译质量的对比示意图。

图4是根据本申请实施例的一种可选的文本转换的预处理方法的整体示意图。

图5是根据本申请实施例的一种可选的相似样本文本的示例。

图6是根据文本相似度确定第二组样本文本的实施例1。

图7是根据文本相似度确定第二组样本文本的实施例2。

图8是计算两个源样本文本之间的文本相似度的示意图。

图9是根据本申请实施例的一种可选的对相似样本文本进行去重处理的示意图。

图10是根据本申请实施例的一种可选的包含异常符号的样本文本的示例。

图11是根据本申请实施例的另一种可选的包含异常符号的样本文本的示例。

图12是确定不满足符号配置条件的第一组样本文本的流程图。

图13是利用预处理后的正样本集和负样本集对BERT判别模型进行训练的流程图。

图14是对正样本集和负样本集进行格式转换的示意图。

图15是将格式转换后的数据输入BERT判别模型的线性分类层的实现代码。

图16是利用清洗后的样本文本对BERT判别模型进行训练的流程图。

图17是根据本申请实施例的一种可选的文本转换的预处理装置的结构示意图。

图18是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中的技术方案在实施过程中会遵循法律规定，在按照实施例中的技术方案执行操作时，所使用的数据不会涉及用户隐私，在确保操作过程是合规合法的同时，保证了数据的安全性。

另外，当本申请以上实施例运用到具体产品或技术中时，需要获取用户许可或同意，且相关数据的收集、使用和处理需要遵守相关国家或地区的相关规定和标准。

名词解释：

语料库：游戏专有名词的项目内部限定翻译内容，如排位、积分等。

根据本申请实施例的一个方面，提供了一种文本转换的预处理方法。作为一种可选的实施方式，上述文本转换的预处理方法可以但不限于应用于如图1所示的应用场景。在如图1所示的应用场景中，目标终端102可以但不限于通过网络104与服务器106进行通信，服务器106可以但不限于对数据库108执行操作，例如，写数据操作或读数据操作。上述目标终端102可以但不限包括人机交互屏幕、处理器及存储器。上述人机交互屏幕可以但不限于用于显示在目标终端102上的目标应用的页面、源样本文本等。上述处理器可以但不限于用于响应上述人机交互操作，执行对应的操作，或者，生成对应的指令，并将生成的指令发送给服务器106。上述存储器用于存储相关处理数据，如第一组样本文本、初始样本文本集合和第三组样本文本等。

可选地，在本实施例中，上述目标终端可以是配置有目标客户端的终端，可以包括但不限于以下至少之一：手机（如Android手机、iOS手机等）、笔记本电脑、平板电脑、掌上电脑、MID（Mobile Internet Devices，移动互联网设备）、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。

本申请实施例中的技术方案可以但不限于应用于文本机器翻译模型的输入数据的预处理（例如，数据清洗）、将普通语言的文本转换为代码语言的转换模型的输入数据的清洗以及将白话文转化成特定垂直领域的专业术语的机器模型的输入数据的清洗等。

为了解决上述文本转换的预处理过程中出现的处理准确率较低的问题，本申请实施例中提出了一种文本转换的预处理方法，图2是根据本申请实施例的文本转换的预处理方法的流程图，该流程包括如下步骤S202~步骤S212。

需要说明的是，步骤S202~步骤S212所示的文本转换的预处理方法可以但不限于由电子设备执行，其中，电子设备可以但不限于是如图 1所示的目标终端或服务器。

步骤S202，从目标应用的应用数据中获取初始样本文本集合，其中，初始样本文本集合中的每对样本文本包括源语种的源样本文本和目标语种的目标样本文本，目标样本文本是基于源样本文本的文本内容进行内容转换后得到的。

步骤S204，从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，其中，符号配置条件用于指示样本文本的文本内容所包含的符号的格式要求。

步骤S206，从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，其中，第二组样本文本包括第一子组样本文本和第二子组样本文本，第一子组样本文本中的第i个样本文本与第二子组样本文本中的第j个样本文本之间的文本相似度大于预设阈值，文本相似度用于指示第i个样本文本和第j个样本文本之间的内容相似程度，i、j为大于或等于1的正整数。

步骤S208，从初始样本文本集合中剔除第一组样本文本和第二组样本文本中的第一子组样本文本，得到第三组样本文本。

步骤S210，将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集。

步骤S212，利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型。

为了便于理解上述文本转换的预处理方法，在本申请实施例中，均以游戏应用中的机器翻译模型的数据清洗为例，对上述文本转换的预处理方法进行解释说明。

其中，游戏应用中的机器翻译模型可以但不限于是内置在游戏应用中、用于将游戏应用中的源语种的文本数据转换为目标语种的目标文本数据，例如，将游戏应用的配置表中的文本从中文翻译为英文，例如，如图3所示。

如图3中（a）所示，由于机器翻译模型自身的局限性，翻译后的英文文本并不能完整且准确地表示中文文本中的文本内容所表示的语义信息。因此，需要确保机器翻译模型输出的翻译结果的准确性。

通常情况下，主要通过对模型训练过程中对模型结构中的结构参数进行调优，从而提升机器翻译模型的性能，并且从图3中（b）所示的翻译结果来看，调整后的机器翻译模型的翻译质量有了明显提升。

相关技术中，通常会从翻译配置表中提取出游戏应用运行过程中生成的历史翻译数据，利用历史翻译数据，对机器翻译模型进行训练，通过在训练过程中对机器翻译模型的结构参数进行不断调整，从而提高机器翻译模型的准确性。

但由于历史翻译数据中可能会存在诸如原文与译文含义不一致、异常符号等情况，这也就意味着输入机器翻译模型的训练数据中可能会掺杂不同程度的脏数据（例如，异常符号、重复数据等），如果不将这些脏数据从历史翻译数据中清理出来，那么必然会造成模型训练时间过长、训练效果不佳的问题。

为了解决上述文本，本申请实施例中提出了一种文本转换的预处理方法，该方法的处理过程如图4所示。

如图4所示，用于执行上述文本转换的预处理方法的***包括数据源提取模块和数据源清洗模块和数据源清洗模块，其中，数据源提取模块用于从游戏内配置翻译表中提取历史翻译数据（历史周期内运行目标应用生成的数据），以及从游戏内的语料表中提取对应的数据信息。

从游戏内配置翻译表中提取到的历史翻译数据通常为长文本，例如，用于描述技能的文本；从游戏内的语料表中提取到的数据通常为短文本，例如，项目开发人员预先定义号的词组，排位、积分等。

为了进一步丰富数据，在数据源提取模块中还增加了语境数据爬取逻辑，用于获取与目标应用相关或类似的其他游戏应用的数据。

数据源清洗模块内部包括以下3种算法，下面分别对3种算法进行简单介绍。

（1）第一种算法，主要是对包含各种明显的异常数据进行处理，例如，包括空值、特殊符号类型的翻译、非目标语种的翻译、项目内部测试用的文案翻译的处理。

（2）第二种算法，是通过N-gram进行词频统计后进行余弦相似度的一个算法，过滤掉相似样本文本，例如，过滤掉相似语句。

（3）第三种算法，是通过将清洗后的数据以及通过Bleurt算法归类出来的差数据，送入分类模型进行训练，得到的多分类训练模型，然后在验证集上反复进行验证、调优，最终形成的一个打分逻辑正常的多分类模型。下面会结合具体实施例对上述3种算法分别进行描述。

在通过上述数据源提取模块获取到初始样本文本集合后，利用上述第一种算法，从初始样本文本集合中查找不满足符号配置条件的第一组样本文本，例如，包含特殊字符的样本文本、不满足命名规则的样本文本以及语种不规范的样本文本等。

利用上述第三种算法，从初始样本文本集合中查找相似度大于预设阈值的第二组样本文本，并将查找到的第二组样本文本中的样本文本确定为相似文本，然后对相似文本进行去重处理。

对经过去重处理后的数据进行分类，例如，将利用第二种算法和第三种算法查找到的样本文本确定为负样本集，将清洗后的初始样本文本集合中剩余样本文本作为正样本集，利用正样本集和负样本集，对文本转换模型（又可以被理解为机器翻译模型）进行训练，得到目标文本转换模型。

需要说明的是，上述机器翻译模型仅为一种示例，并不对其进行限定，例如，还可以是将普通语言的文本转换为代码语言的文本格式转换模型、将白话文转换为特定垂直领域的专业术语的语言转换模型等。

下面以文本转换模型为文本格式转换模型为例，对上述文本转换的预处理方法的实现过程进行描述。

获取初始样本文本集合，其中，初始样本文本集合中的每对样本文本包括源格式的源样本文本和目标格式的目标样本文本，目标样本文本是基于源样本文本的文本内容转换后得到的。

从初始样本文本集合中确定出不满足字符格式要求的第一组样本文本，其中，字符格式要求用于指示样本文本所包含的字符的排列规则和字符类型。

从初始样本文本集合中确定不文本相似度大于预设阈值的第二组样本文本，其中，第二组样本文本包括第一子组样本文本和第二子组样本文本，第一子组样本文本中的第i个样本文本和第二子组样本文本中的第j个样本文本之间的文本相似度大于预设阈值，i、j为大于或等于1的正整数。

从初始样本文本集合中剔除第一组样本文本和第一子组样本文本，得到第三组样本文本。

将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集。

利用正样本集和负样本集进行训练，得到用于将源格式的源样本文本转换为目标格式的目标样本文本的文本格式转换模型。

采用上述方法，通过判断初始样本文本集合中的样本文本是否满足符号配置条件，将包含异常符号的样本文本从初始样本文本集合中剔除；通过确定出文本相似度大于预设阈值的第二组样本文本，剔除初始样本文本集合中的重复样本文本，然后利用剔除异常样本文本后的样本集对文本转换模型进行训练，从而提高文本转换模型的结果的准确性。换句话说，通过预先设置的判断条件，对初始样本文本集合中的异常样本文本进行清洗，确保了输入文本转换模型的样本文本的准确性，实现了提高文本转换的预处理结果的准确性的技术效果。

容易理解的是，之所以对上述相似样本文本进行去重处理，是因为当出现源样本文本（例如，中文原文）几乎一致的2组数据，而机器翻译模型输出的翻译结果存在较大差异的情况下，这样的数据对模型训练来说是非常致命伤害的，会让模型学习的知识陷入自我混乱，机器翻译模型会不知道哪个词才是模型应该正确预测的内容，因此，在利用这样的数据源训练时，例如，如图5所示，假设利用机器翻译模型去翻译“斗破山河”，最后可能会输出一个与“斗破山河”的原始语义毫无关联的英文文本。

其中，之所以翻译结果会存在较差差异，可能是历史翻译员不同导致的翻译结果不同，所以导致了中文相近的两个语句，输出的两个英文语句之间存在较大差异。

为了实现对样本文本的去重处理，本申请实施例中采用N-gram算法以及余弦相似度进行重复数据的处理，其中，N-gram是一种基于种基于统计语言模型的算法，又被称为一阶马尔科夫链，其基本思想是将文本里面的内容按照字节进行大小为N个滑动窗口操作，形成长度为N的字节片段序列，每个字节片段称为gram，对所有的gram的出现的频度进行统计，并且按照事先设定号的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。下面结合具体实施例对N-gram算法的实现过程进行描述。

作为一种可选的示例，上述从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，包括：将初始样本文本集合中的源样本文本划分为F对源样本文本，其中，F为大于或等于2的正整数；确定每对源样本文本中的两个源样本文本之间的文本相似度，得到F个文本相似度，其中，文本相似度包括F个源样本文本中的每个源样本文本与剩余F-1个源样本文本之间的文本相似度，F为大于或等于1的正整数；从F个文本相似度中确定出文本相似度大于预设阈值的M对源样本文本，其中，M为大于或等于1、且小于或等于F的正整数；根据M对源样本文本，确定第一子组样本文本；将M对源样本文本中除第一子组样本文本之外的剩余样本文本确定为第二子组样本文本。

在本申请实施例中，初始样本文本集合中的文本是成对出现，例如，以源语种为中文、目标语种为英语为例，每个文本均包括一个中文文本和英语文本。

假设采用遍历的方法，将初始样本文本集合中的源样本文本（例如，所有的中文语句）划分为两两成对的F对文本，然后计算F对源样本文本中的每对源样本文本所包含的两个源样本文本之间的文本相似度，得到F个文本相似度。

从F对源样本文本中查找到文本相似度大于预设阈值的M对源样本文本，然后根据M对源样本文本，确定第一子组样本文本，并将M对源样本文本中除第一子组样本文本之外的剩余样本文本确定为第二子组样本文本。

举例来说，如图6所示，假设初始样本文本集合中共有10对样本文本，且每对样本文本均包括一个源样本文本（例如，中文语句1）和一个目标样本文本（例如，英文语句1）。

通过遍历的方法，将10个中文语句中的中文语句两两配对，得到5对中文语句，其中，每对中文语句中的两个中文语句的内容可能部分相同或语义相近，然后通过计算5对中文语句中的每对中文语句之间的文本相似度，确定出有3对中文语句之间的文本相似度大于预设阈值，例如，图6所示的中文语句1和中文语句2、中文语句3和中文语句4、中文语句5和中文语句6等。

那么将中文语句1和中文语句2确定为重复语句，同样地，将中文语句3和中文语句4、中文语句5和中文语句6也分别确定为重复语句。为了避免重复数据对模型训练造成的干扰，对重复数据进行去重处理。

具体地，删除文本相似度大于预设阈值的一对源样本文本中的第二个源样本文本（例如，中文语句1为第一个源样本文本、中文语句2为第二个源样本文本）、同时删除与第二个源样本文本对应的第二个目标样本文本，例如，删除中文语句2和英文语句2、中文语句4和英文语句4等。

作为另一种可选的示例，除了根据源样本文本之间的文本相似度，来确定重复样本文本之外，还可以根据源样本文本之间的第一文本相似度和目标样本文本之间的第二文本相似度来共同确定重复样本文本，具体包括：将初始样本文本集合中的源样本文本划分为F对源样本文本，并将初始样本文本集合中的目标样本文本划分为F对目标样本文本，其中，F为大于或等于2的正整数；确定每对源样本文本中的两个源样本文本之间的第一文本相似度，得到F个第一文本相似度，其中，第一文本相似度包括F对源样本文本中的每对源样本文本之间的文本相似度，F为大于或等于1的正整数；确定每对目标样本文本中的两个目标样本文本之间的第二文本相似度，得到F个第二文本相似度，其中，第二文本相似度包括F对目标样本文本中的每对目标样本文本之间的文本相似度；在第i对源样本文本之间的第一文本相似度大于第一预设阈值、且第j对目标样本文本之间的第二文本相似度小于或等于第二预设阈值的情况下，将第i对源样本文本确定为重复样本文本，其中，第i对目标样本文本是利用文本转换模型将源语种的第i对源样本文本转换为目标语种的一对目标样本文本，i、j为大于或等于1、且小于或等于F的正整数。

在根据上述方法确定重复样本文本后，从初始样本文本集合中剔除重复样本文本中的其中一个样本文本。

举例来说，如图7所示，假设初始样本文本集合中共有10对样本文本，且每对样本文本均包括一个源样本文本（例如，中文语句1）和一个目标样本文本（例如，英文语句1）。

通过遍历的方法，将10个中文语句中的中文语句两两配对，得到5对中文语句，将10个英文语句中的英文语句两两配对，得到5对英文语句，判断中文语句1和中文语句2之间的第一文本相似度、以及英文语句1和英文语句2之间的第二文本相似度。

在第一文本相似度大于第一预设阈值、且第二文本相似度值小于或等于第二预设阈值的情况下，将中文语句1和中文语句2确定为重复语句，并删除中文语句2和英文语句2。

按照同样的方法，确定中文语句3和中文语句4、中文语句5和中文语句6等各对语句之间的文本相似度，从而确定出重复样本文本，并删除对应的样本文本。

通过采用上述方式对输入文本转换模型的样本数据进行去重处理，减少了样本数量，简化了模型训练的复杂度，提高了模型性能。

作为一种可选的实现方式，上述确定每对源样本文本中的两个源样本文本之间的文本相似度，得到F个文本相似度，包括：通过以下步骤确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，其中，F对源样本文本包括第k对源样本文本，k为大于或等于1、且小于或等于F的正整数：根据第一源样本文本，确定第一词语序列，其中，第一词语序列中的第s个词语与前一个相邻词语中的最后一个字符相同，第一词语序列包括字符数量均为N的Q个词语，N为大于或等于预设值的正整数，s为大于或等于2、且小于或等于Q的正整数；根据第二源样本文本，确定第二词语序列，其中，第二词语序列中的第t个词语与前一个相邻词语中的最后一个字符相同，第二词语序列包括字符数量均为N的R个词语，Q、R为大于或等于2的正整数，t为大于或等于2、且小于或等于R的正整数；根据第一词语序列和第二词语序列，确定第k个文本相似度，其中，F个文本相似度包括第k个文本相似度。

在本申请实施例中，主要采用N-gram算法以及余弦相似度来确定重复样本文本，具体可以参考图8所示的示例，假设第一源样本文本为“我喜欢吃苹果”、第二源样本文本为“我喜欢吃香蕉”，那么在将N-gram算法中的N设置为2的情况下，那么对“我喜欢吃苹果”进行2-gram的切分，得到如图8所示的5个gram片段分别为“我喜”、“喜欢”、“欢吃”、“吃苹”和“苹果”，从而得到第一词语序列；同样地，对“我喜欢吃香蕉”进行2-gram的切分，得到如图8所示的第二词语序列。

根据第一词语序列和第二词语序列，确定第一源样本文本“我喜欢吃苹果”和第二源样本文本“我喜欢吃香蕉”之间的文本相似度。

作为一种可选的示例，上述根据第一词语序列和第二词语序列，确定第k个文本相似度，包括：根据第一词语序列和第二词语序列，确定目标词语序列，其中，目标词语序列是对第一词语序列和第二词语序列中的词语进行去重后再拼接得到的词语序列，目标词语序列包括W个词语，W为大于或等于2、且小于或等于目标词语数量之和的正整数，目标词语数量之和是第一词语序列的词语数量与第二词语序列的词语数量的和；根据第一词语序列和目标词语序列，确定第一词频向量，其中，第一词频向量中的元素用于表示第一词语序列中的词语是否出现在目标词语序列中；根据第二词语序列和目标词语序列，确定第二词频向量，其中，第二词频向量中的元素用于表示第二词语序列中的词语是否出现在目标词语序列中；根据第一词频向量和第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度。

如图8所示，确定第一词语序列和第二词语序列中存在相同的词语“我喜”、“喜欢”、“欢吃”，那么保留其中一个词语，然后对第一词语序列和第二词语序列进行拼接，得到目标词语序列。

作为一种可选的示例，上述根据第一词语序列和目标词语序列，确定第一词频向量，包括：在W个词语中包括第一词语序列中的第一部分词语的情况下，将目标词语序列中与第一部分词语对应的位置上置1，得到维度为1×W的第一词频向量。

对于第一词语序列来说，将每个gram片段作为一个维度，按照位置顺序，依次判断每个位置上的词语是否出现在目标词语序列中，如果出现在目标词语序列中，则将目标词语序列中相应位置上的元素的取值置1；否则将该位置上的元素的取值置0。

例如，对于目标词语序列中的第一个词语“我喜”来说，第一词语序列中也包括相同的词语“我喜”，那么将目标词语序列中的第一个词语所在的位置上的元素值置1；对于目标词语序列中的第二个词语“喜欢”来说，第一词语序列中也包括相同的词语“喜欢”，那么将目标词语序列中的第二个词语所在的位置上的元素值置1；依次类推，将目标词语序列中的第3~5个词语所在位置上的元素也分别置1。

但对于目标词语序列中的第6个词语所在的位置上的词语“吃香”，并未出现在第一词语序列中，那么将目标词语序列中的第6个词语所在位置上的元素置0；同样地，将那么将目标词语序列中的第7个词语所在位置上的元素置也0。

那么根据上述目标词语序列中每个位置上的元素的取值，得到第一词语向量[1,1,1,1,1,0,0]。

作为一种可选的示例，上述根据第二词语序列和目标词语序列，确定第二词频向量，包括：在W个词语中包括第二词语序列中的第二部分词语的情况下，将目标词语序列中与第二部分词语对应的位置上置1，得到维度为1×W的第二词频向量。

如图8所示，按照与上述确定第一词频向量相同的方法，依次将目标词语序列中“我喜”、“喜欢”、“欢吃”、“吃香”、“香蕉”等位置上的元素取值置1，剩余位置上的元素取值置0，得到第二词频向量[1,1,1,0,0,1,1]。

作为一种可选的实现方式，上述根据第一词频向量和第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，包括：确定第一词频向量和第二词频向量之间的余弦相似度，并将余弦相似度确定为第k个文本相似度。

在确定两个句子的词频向量后，计算第一词频向量和第二词频向量之间的余弦相似度，具体通过以下公式（1）：

其中，A和B分别表示第一词频向量和第二词频向量，表示两个词频向量的点积，/>和/>分别表示向量A和B的范数（即模长），余弦相似度通常用来表达两个向量在向量空间的相似程度。

具体地，第一源样本文本（语句1）和第二源样本文本（语句2）之间的余弦相似度的计算过程和计算结果如图8所示。

其中，余弦相似度的值越接近1，表示语句1与语句2越相似；值越接近0，表示语句1与语句2越不相似。经过经验数据表示，当余弦相似度大于0.9的时候，确定两句话几乎一致，可以进行去重，也即仅保留其中一个。

对于上述实施例中提到的两个数据，采用N-gram的词频向量化计算得到的余弦相似度是1，表示两个数据是表达完全一致的两句话，那么就会自动过滤掉其中一条数据。

从余弦相似度的原理可以看出上述计算文本相似度的方法更多的是倾向于找到整句话的原文（源语种的文本）包括词汇、排序的使用上都几乎一致的文案。在机器翻译模型的数据源清洗的应用场景中，使用上述文本相似度的计算方法处理后的数据符合我们的使用预期，具体可以参考图9所示的对重复数据的过滤的具体实施例。

结合上述实施例中的描述，在使用数据清洗的方法对输入机器翻译模型的输入数据进行预处理过程中，不仅会将包含异常符号的数据去除掉，还会将重复数据进行过滤，下面结合具体实施例对如何去除初始样本文本中带有异常符号的数据进行描述。

作为一种可选的示例，上述从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，包括：从初始样本文本集合中查找包含异常字符的样本文本，得到第一类样本文本，其中，初始样本文本集合包括第一类样本文本，第一类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；从初始样本文本集合中查找样本文本的语种是除源语种和目标语种之外的语种的第二类样本文本，其中，初始样本文本集合包括第二类样本文本，第二类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；从初始样本文本集合中查找文本内容为空值的第三类样本文本，其中，第一组样本文本包括第一类样本文本、第二类样本文本和第三类样本文本；其中，符号配置条件包括以下至少之一：样本文本中未出现异常符号、样本文本的语种包括源语种和目标语种、样本文本的文本内容不包含空值。

在对如何对不满足符号配置条件的样本文本进行预处理之前，先对脏数据的预处理过程以及常见的脏数据进行简单介绍。

在本申请实施例中，可以但不限于通过以下方式之一确定输入数据为脏数据。

（1）输入数据为冗余数据。

例如，重复出现的语句、相似度大于预设阈值的语句等。

（2）输入数据为错误数据。

例如，语句不通顺、不符合语法规则的句子或者表达不完整的语句等。

（3）输入数据为异常符号或异常字符、输入数据包含异常符号或包含异常字符等。

例如，输入数据包含不符合***要求的符号或标识、***默认的的数据字段不规范的数据或者没有成对出现的括号等。

（4）数据为空值。

在一个可选的实施例中，可以但不限于通过如图12所示的方式对输入数据中所包含的脏数据进行预处理，具体可参考以下步骤S1202~S1212。

S1202，判断原文中是否包含测试字符。

例如，是否包含[ex]、“DNT”、“测试”等项目规定的不会外发文案的特殊标识符，如果包含，则将该部分数据直接保存至负样本池，这是因为此类数据是不会被后续训练应用到的数据。

其中，原文又可以被理解为初始样本文本集合中的源语种的源样本文本。

S1204，判断原文和翻译是否和目标语种相同。

例如，假设原文的源语种为中文、翻译的目标语种为英文，如果原文中不包含中文，或者翻译中包含非英语的其他语种的内容，则确定此类数据为脏数据，不可用于模型训练，同时将此数据保存至负样本池。

其中，翻译可以但不限于被理解为是利用文本转换模型（机器翻译模型）对源样本文本进行翻译后得到的目标语种的目标样本文本。

S1206，判断翻译是否为空。

如果翻译为空，则执行步骤S1210；否则，执行步骤S1208。

S1208，判断句子是否为纯符号。

如果是，则直接将数据保存至负样本池；否则，执行步骤S1212。

显然，如果判断结果是句子是纯符号类型的文本，则该文本为不可用数据，也不会进行训练。

S1210，调用目标应用内置的AI翻译模型进行补充翻译，并将补齐后的翻译和原文保存至正样本池，用于后续的训练。

S1212，最后进行简单的成对符号匹配，如果判断原文中有成对括号，而翻译文本中不涉及成对括号，则确定这组数据也是符号层面的脏数据，进入负样本池。

需要说明的是，经过以上清洗后仍然正确的数据进正样本池。

在一个具体的实施例中，常见的脏数据主要包括以下几种。

（1）当数据集中混入了部分特殊字符时这一类型的数据对机器翻译模型的调优没有任何作用，具体可以参考如图10中（a）所示。

（2）当数据集中混入了部分特殊标识时，将这一类型的数据也定义为脏数据，具体可以参考如图10中（b）所示，当标识中包含项目特殊规则定义的诸如[ex]、[DNT]、测试字样等时，确定该数据为脏数据。

其中，[ex]可以但不限于被理解为该数据不在目标应用的版本管控范围内，换句话说，带有[ex]标识的数据在一段时间内是不会被使用到的数据；[DNT]可以但不限于被理解为对该数据的原文暂时不做翻译，也即数据样本对中的目标样本为空，此类数据对于模型训练过程来说毫无意义。

（3）当数据中包括除源语种和目标语种之外的其他语种的数据时，确定该数据的语种不符合规范，并将该数据确定为脏数据，如图10中（c）和（d）。

（4）当数据中掺杂有异常符号时，将数据确定为脏数据，如图11中（a）所示。

（5）当数据中包含空值的情况下，将其确定为脏数据，如图11中（b）所示。

通过上述对不满足符号配置条件的异常数据进行清洗，有效减少了初始样本文本集合中的数据，例如，从最初的11万的原始数据清理到6万条的纯净数据，清除掉了将近50%的脏数据，有效减少了模型训练的数据量，降低了资源占用。

同时在利用清洗后的数据对模型进行训练时减少了模型的训练时长，例如，一个14B参数量级的基座模型，从训练时长为一周可以压缩至2天。

作为一种可选的示例，在利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型之前，上述方法还包括：通过将正样本集和负样本集输入预处理模型，得到目标预处理模型，其中，目标预处理模型是用于识别正样本集和负样本集中的样本文本的类别的模型。

在利用上述方法对初始样本文本集合中的异常样本进行清洗后，为了验证清洗后的数据的准确性，本申请实施例中还引入了预处理模型，该预处理模型可以但不限于辅助进行文本正确与否的分类，例如，适合做二分类任务的BERT模型。

作为一种可选的示例，上述通过将正样本集和负样本集输入预处理模型，得到目标预处理模型，包括：将正样本集中的正样本转化为第一多维向量，其中，第一多维向量包括第一类别信息和正样本的语义信息，第一类别信息表示样本文本的类别为正样本；将负样本集中的负样本转化为第二多维向量，其中，第二多维向量包括第二类别信息和负样本的语义信息，第二类别信息表示样本文本的类别为负样本；将第一多维向量和第二多维向量输入预处理模型，得到一组预测概率，其中，一组预测概率包括表示正样本集合的正样本的类别属于第一类别信息和第二类别信息的预测概率，以及表示述负样本集中的负样本的类别属于第一类别信息和第二类别信息的预测概率；根据一组预测概率、正样本的第一类别信息和负样本的第二类别信息，确定目标损失函数；在目标损失函数的取值满足收敛条件的情况下，停止训练，得到目标预处理模型。

下面结合图13对利用上述清洗后分类得到的正样本集和负样本集，对预处理模型进行训练的过程进行描述。

S1302，数据准备。

在经过上述异常数据的清洗以及重复数据的过滤之后，得到正样本集合负样本集，对过滤后的数据进行整理，得到如图14所示的表格，其中，整理的目的主要是使得数据源具备category（类别）信息，例如，有问题的语句其分类信息定义为bad case，没有问题的语句其分类信息定义为good case。

S1304，通过BERT模型的tokenlizer分词器，对每个数据做分词。

S1306，将分词后的数据转换成BERT模型要求的数据格式。

例如，在分词后的词语序列前后增加字符[CLS]和空字符[SEP]等用于做BERT的判别式任务的语义向量信息的存储。

在一个具体的实施例中，对于句子I will watch Memento tonight，通过分词器后，会变成I,will, watch, memento,tonight，增加了[CLS]和空字符[SEP后变成'[CLS] Iwill watch Memento tonight [SEP]'，其中，[CLS]用于描述上述句子语义表示上述句子的类别信息。

S1308，将上述转换格式后的数据输入BERT模型的网络层，进行学习，得到模型输出output。

S1310，将[CLS]填充描述句子语义的一个多维向量。

该多维向量中包括两部分，第一部分用于描述上述句子语义信息，第二部分为表示上述句子的类别信息。

S1310，将上述多维向量输入BERT模型的线性分类层，得到该句话属于每个分类的预测概率。

具体通过图15的代码段落，当预设的类别数量为2时，模型输出的结果为当前输入模型的样本为正样本或负样本的预测概率，例如，I like eat apples分类为bad的概率为0.9，当经验值是大于0.9时，则认为这个原始数据归属于某个分类，反之则不属于。

在经过以上的BERT判别式任务微调后，就生成了一个具备能够进行文本正确与否的这样的一个模型。在后续的工作中，就把这个判别模型应用在辅助目标应用做翻译是否属于脏数据的判断中。具体流程如图16所示。

S1602，数据源采集。

作为一种可选的示例，数据源采集的方式包括：将目标应用在历史运行周期内生成的历史文本集合、预先配置的原始文本集合以及关联文本集合确定为初始样本文本集合，其中，原始文本集合包括在目标应用的配置表中预先定义的文本，关联文本集合是与目标应用的功能及类别相同的其他应用在运行过程中生成的文本集合。

如图4所示，通过数据源提取模块从游戏内配置翻译表中提取历史翻译数据（历史周期内运行目标应用生成的数据），以及从游戏内的语料表中提取对应的数据信息。

历史文本集合包括但不限于是从游戏内配置翻译表中提取到的历史翻译数据，通常为长文本，例如，用于描述技能的文本；原始文本集合包括但不限于从游戏内的语料表中提取到的数据通常为短文本，例如，项目开发人员预先定义号的词组，排位、积分等。

关联文本集合包括但不限于是利用语境数据爬取逻辑从与目标应用相关或类似的其他游戏应用中获取到的数据，例如，目标应用为射击类游戏应用，那么从同类型的射击类游戏应用运行过程中生成的数据即为关联文本集合。

S1604，数据清洗。

通常分为两部分：（1）对于脏数据的清洗，例如，包含异常符号、空值或非语种的文本进行清洗；（2）对于重复数据进行去重处理。

上述两部分数据的处理过程可以参考上述实施例中的描述，此处不再赘述。

S1606，利用清洗后分类得到正样本集合负样本集，对BERT判别模型进行训练。

训练的过程可以参考上述实施例中的描述，此处不再赘述。

S1608，根据BERT模型的训练结果，确定上述数据清洗后的文本的类别的准确性。

在通过上述实施例的方式进行数据源采集、清洗的过程后，将所有样本文本区分成正样本和负样本，然后将这两部分样本，输入上述微调后的BERT分类任务判别模型中，进行辅助判断正样本中是否会出现错误语句，以及负样本是否都是问题语句等。

换句话说，为了提升文本转换模型的性能，在利用上述实施例中的方法对初始样本文本集合中的异常文本进行清洗、并对重复文本进行过滤后，得到正样本集和负样本集，然后通过将正样本集和负样本集输入预处理模型，辅助判断上述正样本集和负样本集中的样本是否准确，并利用BERT判别式模型处理后的样本集作为文本转换模型的训练数据，不仅减少了模型训练数据的数量、减少了模型微调的成本，而且确保了训练数据的准确性。换句话说，通过提升输入文本转换模型的数据的纯净度，提升训练后的文本转换模型的性能，从而提升文本转换模型的准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的又一个方面，还提供了如图17所示的一种文本转换的预处理装置，该装置包括：第一获取单元1702，用于从目标应用的应用数据中获取初始样本文本集合，其中，初始样本文本集合中的每对样本文本包括源语种的源样本文本和目标语种的目标样本文本，目标样本文本是基于源样本文本的文本内容进行内容转换后得到的；第一处理单元1704，用于从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，其中，符号配置条件用于指示样本文本的文本内容所包含的符号的格式要求；第二处理单元1706，用于从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，其中，第二组样本文本包括第一子组样本文本和第二子组样本文本，第一子组样本文本中的第i个样本文本与第二子组样本文本中的第j个样本文本之间的文本相似度大于预设阈值，文本相似度用于指示第i个样本文本和第j个样本文本之间的内容相似程度，i、j为大于或等于1的正整数；第三处理单元1708，用于从初始样本文本集合中剔除第一组样本文本和第二组样本文本中的第一子组样本文本，得到第三组样本文本；第四处理单元1710，用于将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集；训练单元1712，用于利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型。

可选地，上述第二处理单元1706，包括：第一处理模块，用于将初始样本文本集合中的源样本文本划分为F对源样本文本，其中，F为大于或等于2的正整数；第二处理模块，用于确定每对源样本文本中的两个源样本文本之间的文本相似度，得到F个文本相似度，其中，文本相似度包括F对源样本文本中的每对源样本文本之间的文本相似度，F为大于或等于1的正整数；第三处理模块，用于从F个文本相似度中确定出文本相似度大于预设阈值的M对源样本文本，其中，M为大于或等于1、且小于或等于F的正整数；第四处理模块，用于根据M对源样本文本，确定第一子组样本文本；第五处理模块，用于将M对源样本文本中除第一子组样本文本之外的剩余样本文本确定为第二子组样本文本。

可选地，上述第二处理模块，包括：第一处理子模块，用于通过以下步骤确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，其中，F对源样本文本包括第k对源样本文本，k为大于或等于1、且小于或等于F的正整数：根据第一源样本文本，确定第一词语序列，其中，第一词语序列中的第s个词语与前一个相邻词语中的最后一个字符相同，第一词语序列包括字符数量均为N的Q个词语，N为大于或等于预设值的正整数，s为大于或等于2、且小于或等于Q的正整数；根据第二源样本文本，确定第二词语序列，其中，第二词语序列中的第t个词语与前一个相邻词语中的最后一个字符相同，第二词语序列包括字符数量均为N的R个词语，Q、R为大于或等于2的正整数，t为大于或等于2、且小于或等于R的正整数；根据第一词语序列和第二词语序列，确定第k个文本相似度，其中，F个文本相似度包括第k个文本相似度。

可选地，上述第二处理模块，包括：第二处理子模块，用于根据第一词语序列和第二词语序列，确定目标词语序列，其中，目标词语序列是对第一词语序列和第二词语序列中的词语进行去重后再拼接得到的词语序列，目标词语序列包括W个词语，W为大于或等于2、且小于或等于目标词语数量之和的正整数，目标词语数量之和是第一词语序列的词语数量与第二词语序列的词语数量的和；第三处理子模块，用于根据第一词语序列和目标词语序列，确定第一词频向量，其中，第一词频向量中的元素用于表示第一词语序列中的词语是否出现在目标词语序列中；第四处理子模块，用于根据第二词语序列和目标词语序列，确定第二词频向量，其中，第二词频向量中的元素用于表示第二词语序列中的词语是否出现在目标词语序列中；第五处理子模块，用于根据第一词频向量和第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度。

可选地，上述第二处理模块，包括：第六处理子模块，用于在W个词语中包括第一词语序列中的第一部分词语的情况下，将目标词语序列中与第一部分词语对应的位置上置1，得到维度为1×W的第一词频向量。

可选地，上述第二处理模块，包括：第七处理子模块，用于在W个词语中包括第二词语序列中的第二部分词语的情况下，将目标词语序列中与第二部分词语对应的位置上置1，得到维度为1×W的第二词频向量。

可选地，上述第二处理模块，包括：第八处理子模块，用于确定第一词频向量和第二词频向量之间的余弦相似度，并将余弦相似度确定为第k个文本相似度。

可选地，上述第一处理单元1704，包括：第一查找模块，用于从初始样本文本集合中查找包含异常字符的样本文本，得到第一类样本文本，其中，初始样本文本集合包括第一类样本文本，第一类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；第二查找模块，用于从初始样本文本集合中查找样本文本的语种是除源语种和目标语种之外的语种的第二类样本文本，其中，初始样本文本集合包括第二类样本文本，第二类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；第三查找模块，用于从初始样本文本集合中查找文本内容为空值的第三类样本文本，其中，第一组样本文本包括第一类样本文本、第二类样本文本和第三类样本文本；其中，符号配置条件包括以下至少之一：样本文本中未出现异常符号、样本文本的语种包括源语种和目标语种、样本文本的文本内容不包含空值。

可选地，上述装置还包括：第五处理单元，用于通过将正样本集和负样本集输入预处理模型，得到目标预处理模型，其中，目标预处理模型是用于识别正样本集和负样本集中的样本文本的类别的模型。

可选地，上述第五处理单元，包括：第六处理模块，用于将正样本集中的正样本转化为第一多维向量，其中，第一多维向量包括第一类别信息和正样本的语义信息，第一类别信息表示样本文本的类别为正样本；第七处理模块，用于将负样本集中的负样本转化为第二多维向量，其中，第二多维向量包括第二类别信息和负样本的语义信息，第二类别信息表示样本文本的类别为负样本；第八处理模块，用于将第一多维向量和第二多维向量输入预处理模型，得到一组预测概率，其中，一组预测概率包括表示正样本集合的正样本的类别属于第一类别信息和第二类别信息的预测概率，以及表示述负样本集中的负样本的类别属于第一类别信息和第二类别信息的预测概率；第八处理模块，用于根据一组预测概率、正样本的第一类别信息和负样本的第二类别信息，确定目标损失函数；第九处理模块，用于在目标损失函数的取值满足收敛条件的情况下，停止训练，得到目标预处理模型。

可选地，上述第一获取单元1702，包括：第十处理模块，用于将目标应用在历史运行周期内生成的历史文本集合、预先配置的原始文本集合以及关联文本集合确定为初始样本文本集合，其中，原始文本集合包括在目标应用的配置表中预先定义的文本，关联文本集合是与目标应用的功能及类别相同的其他应用在运行过程中生成的文本集合。

通过将上述装置应用于通过判断初始样本文本集合中的样本文本是否满足符号配置条件，将包含异常符号的样本文本从初始样本文本集合中剔除；通过确定出文本相似度大于预设阈值的第二组样本文本，剔除初始样本文本集合中的重复样本文本，然后利用剔除异常样本文本后的样本集对文本转换模型进行训练，从而提高文本转换模型的结果的准确性。换句话说，通过预先设置的判断条件，对初始样本文本集合中的异常样本文本进行清洗，确保了输入文本转换模型的样本文本的准确性，实现了提高文本转换的预处理结果的准确性的技术效果。

需要说明的是，这里的文本转换的预处理装置的实施例可以参考上述文本转换的预处理方法的实施例，这里不再赘述。

根据本申请实施例的又一个方面，还提供了一种用于实施上述文本转换的预处理方法的电子设备，该电子设备可以是图1所示的目标终端或服务器。本实施例以该电子设备为目标终端为例来说明。如图18所示，该电子设备包括存储器1802和处理器1804，该存储器1802中存储有计算机程序，该处理器1804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤S1~S5。

S1，从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，其中，符号配置条件用于指示样本文本的文本内容所包含的符号的格式要求。

S2，从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，其中，第二组样本文本包括第一子组样本文本和第二子组样本文本，第一子组样本文本中的第i个样本文本与第二子组样本文本中的第j个样本文本之间的文本相似度大于预设阈值，文本相似度用于指示第i个样本文本和第j个样本文本之间的内容相似程度，i、j为大于或等于1的正整数。

S3，从初始样本文本集合中剔除第一组样本文本和第二组样本文本中的第一子组样本文本，得到第三组样本文本。

S4，将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集。

S5，利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型。

可选地，本领域普通技术人员可以理解，图18所示的结构仅为示意，图18其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图18中所示更多或者更少的组件（如网络接口等），或者具有与图18所示不同的配置。

其中，存储器1802可用于存储软件程序以及模块，如本申请实施例中的文本转换的预处理方法和装置对应的程序指令/模块，处理器1804通过运行存储在存储器1802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本转换的预处理方法。存储器1802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1802可进一步包括相对于处理器1804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1802具体可以但不限于用于存储初始样本文本集合、第一组样本文本和第二组样本文本等。作为一种示例，如图18所示，上述存储器1802中可以但不限于包括上述文本转换的预处理装置中的第一获取单元1702、第一处理单元1704、第二处理单元1706、第三处理单元1708、第四处理单元1710和训练单元1712。此外，还可以包括但不限于上述文本转换的预处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1806包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1806为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1808，用于显示上述场景画面和目标对象列表；和连接总线1810，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述目标终端或者服务器可以是一个分布式***中的一个节点，其中，该分布式***可以为区块链***，该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中，节点之间可以组成点到点的网络，任意形式的计算设备，比如服务器、目标终端等电子设备都可以通过加入该点到点的网络而成为该区块链***中的一个节点。

根据本申请的又一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述服务器校验处理等方面各种可选实现方式中提供的文本转换的预处理方法，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤S1~S5的计算机程序。

可选地，在本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令目标终端相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本转换的预处理方法，其特征在于，包括：

从目标应用的应用数据中获取初始样本文本集合，其中，所述初始样本文本集合中的每对样本文本包括源语种的源样本文本和目标语种的目标样本文本，所述目标样本文本是基于所述源样本文本的文本内容进行内容转换后得到的；

从所述初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，其中，所述符号配置条件用于指示所述样本文本的文本内容所包含的符号的格式要求；

从所述初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，其中，所述第二组样本文本包括第一子组样本文本和第二子组样本文本，所述第一子组样本文本中的第i个样本文本与所述第二子组样本文本中的第j个样本文本之间的所述文本相似度大于所述预设阈值，所述文本相似度用于指示所述第i个样本文本和所述第j个样本文本之间的内容相似程度，i、j为大于或等于1的正整数；

从所述初始样本文本集合中剔除所述第一组样本文本和所述第二组样本文本中的所述第一子组样本文本，得到第三组样本文本；

将所述第三组样本文本确定为正样本集，并将所述第一组样本文本和所述第一子组样本文本确定为负样本集；

利用所述正样本集和所述负样本集进行训练，得到用于将所述源语种的源样本文本转换为所述目标语种的目标样本文本的文本转换模型。

2.根据权利要求1所述的方法，其特征在于，所述从所述初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，包括：

将所述初始样本文本集合中的所述源样本文本划分为F对源样本文本，其中，F为大于或等于2的正整数；

确定每对源样本文本中的两个源样本文本之间的所述文本相似度，得到F个文本相似度，其中，所述文本相似度包括所述F对源样本文本中的每对源样本文本之间的所述文本相似度，F为大于或等于1的正整数；

从所述F个文本相似度中确定出所述文本相似度大于所述预设阈值的M对源样本文本，其中，M为大于或等于1、且小于或等于F的正整数；

根据所述M对源样本文本，确定所述第一子组样本文本；

将所述M对源样本文本中除所述第一子组样本文本之外的剩余样本文本确定为所述第二子组样本文本。

3.根据权利要求2所述的方法，其特征在于，所述确定每对源样本文本中的两个源样本文本之间的所述文本相似度，得到F个文本相似度，包括：

通过以下步骤确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，其中，所述F对源样本文本包括所述第k对源样本文本，k为大于或等于1、且小于或等于F的正整数：

根据所述第一源样本文本，确定第一词语序列，其中，所述第一词语序列中的第s个词语与前一个相邻词语中的最后一个字符相同，所述第一词语序列包括字符数量均为N的Q个词语，N为大于或等于预设值的正整数，s为大于或等于2、且小于或等于Q的正整数；

根据所述第二源样本文本，确定第二词语序列，其中，所述第二词语序列中的第t个词语与前一个相邻词语中的最后一个字符相同，所述第二词语序列包括字符数量均为N的R个词语，Q、R为大于或等于2的正整数，t为大于或等于2、且小于或等于R的正整数；

根据所述第一词语序列和所述第二词语序列，确定所述第k个文本相似度，其中，所述F个文本相似度包括所述第k个文本相似度。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一词语序列和所述第二词语序列，确定所述第k个文本相似度，包括：

根据所述第一词语序列和所述第二词语序列，确定目标词语序列，其中，所述目标词语序列是对所述第一词语序列和所述第二词语序列中的词语进行去重后再拼接得到的词语序列，所述目标词语序列包括W个词语，W为大于或等于2、且小于或等于目标词语数量之和的正整数，所述目标词语数量之和是所述第一词语序列的词语数量与所述第二词语序列的词语数量的和；

根据所述第一词语序列和所述目标词语序列，确定第一词频向量，其中，所述第一词频向量中的元素用于表示所述第一词语序列中的词语是否出现在所述目标词语序列中；

根据所述第二词语序列和所述目标词语序列，确定第二词频向量，其中，所述第二词频向量中的元素用于表示所述第二词语序列中的词语是否出现在所述目标词语序列中；

根据所述第一词频向量和所述第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的所述第k个文本相似度。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一词语序列和所述目标词语序列，确定第一词频向量，包括：

在所述W个词语中包括所述第一词语序列中的第一部分词语的情况下，将所述目标词语序列中与所述第一部分词语对应的位置上置1，得到维度为1×W的所述第一词频向量。

6.根据权利要求4所述的方法，其特征在于，所述根据所述第二词语序列和所述目标词语序列，确定第二词频向量，包括：

在所述W个词语中包括所述第二词语序列中的第二部分词语的情况下，将所述目标词语序列中与所述第二部分词语对应的位置上置1，得到维度为1×W的所述第二词频向量。

7.根据权利要求4所述的方法，其特征在于，所述根据所述第一词频向量和所述第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的所述第k个文本相似度，包括：

确定所述第一词频向量和所述第二词频向量之间的余弦相似度，并将所述余弦相似度确定为所述第k个文本相似度。

8.根据权利要求1所述的方法，其特征在于，所述从所述初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，包括：

从所述初始样本文本集合中查找包含异常字符的样本文本，得到第一类样本文本，其中，所述初始样本文本集合包括所述第一类样本文本，所述第一类样本文本中的每对文本包括所述源语种的源样本文本和所述目标语种的目标样本文本；

从所述初始样本文本集合中查找样本文本的语种是除所述源语种和所述目标语种之外的语种的第二类样本文本，其中，所述初始样本文本集合包括所述第二类样本文本，所述第二类样本文本中的每对文本包括所述源语种的源样本文本和所述目标语种的目标样本文本；

从所述初始样本文本集合中查找文本内容为空值的第三类样本文本，其中，所述第一组样本文本包括所述第一类样本文本、所述第二类样本文本和所述第三类样本文本；

其中，所述符号配置条件包括以下至少之一：所述样本文本中未出现异常符号、所述样本文本的语种包括所述源语种和所述目标语种、所述样本文本的文本内容不包含空值。

9.根据权利要求1至8中任一项所述的方法，其特征在于，在所述利用所述正样本集和所述负样本集进行训练，得到用于将所述源语种的源样本文本转换为所述目标语种的目标样本文本的文本转换模型之前，所述方法还包括：

通过将所述正样本集和所述负样本集输入预处理模型，得到目标预处理模型，其中，所述目标预处理模型是用于识别所述正样本集和所述负样本集中的样本文本的类别的模型。

10.根据权利要求9所述的方法，其特征在于，所述通过将所述正样本集和所述负样本集输入预处理模型，得到目标预处理模型，包括：

将所述正样本集中的正样本转化为第一多维向量，其中，所述第一多维向量包括第一类别信息和所述正样本的语义信息，所述第一类别信息表示所述样本文本的类别为正样本；

将所述负样本集中的负样本转化为第二多维向量，其中，所述第二多维向量包括第二类别信息和所述负样本的语义信息，所述第二类别信息表示所述样本文本的类别为负样本；

将所述第一多维向量和所述第二多维向量输入所述预处理模型，得到一组预测概率，其中，所述一组预测概率包括表示所述正样本集合的所述正样本的类别属于所述第一类别信息和所述第二类别信息的预测概率，以及表示述所述负样本集中的所述负样本的类别属于所述第一类别信息和所述第二类别信息的预测概率；

根据所述一组预测概率、所述正样本的所述第一类别信息和所述负样本的所述第二类别信息，确定目标损失函数；

在所述目标损失函数的取值满足收敛条件的情况下，停止训练，得到所述目标预处理模型。

11.根据权利要求1至8中任一项所述的方法，其特征在于，所述从目标应用的应用数据中获取初始样本文本集合，包括：

将所述目标应用在历史运行周期内生成的历史文本集合、预先配置的原始文本集合以及关联文本集合确定为所述初始样本文本集合，其中，所述原始文本集合包括在所述目标应用的配置表中预先定义的文本，所述关联文本集合是与所述目标应用的功能及类别相同的其他应用在运行过程中生成的文本集合。

12.一种文本转换的预处理装置，其特征在于，包括：

第一获取单元，用于从目标应用的应用数据中获取初始样本文本集合，其中，所述初始样本文本集合中的每对样本文本包括源语种的源样本文本和目标语种的目标样本文本，所述目标样本文本是基于所述源样本文本的文本内容进行内容转换后得到的；

第一处理单元，用于从所述初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，其中，所述符号配置条件用于指示所述样本文本的文本内容所包含的符号的格式要求；

第二处理单元，用于从所述初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，其中，所述第二组样本文本包括第一子组样本文本和第二子组样本文本，所述第一子组样本文本中的第i个样本文本与所述第二子组样本文本中的第j个样本文本之间的所述文本相似度大于所述预设阈值，所述文本相似度用于指示所述第i个样本文本和所述第j个样本文本之间的内容相似程度，i、j为大于或等于1的正整数；

第三处理单元，用于从所述初始样本文本集合中剔除所述第一组样本文本和所述第二组样本文本中的所述第一子组样本文本，得到第三组样本文本；

第四处理单元，用于将所述第三组样本文本确定为正样本集，并将所述第一组样本文本和所述第一子组样本文本确定为负样本集；

训练单元，用于利用所述正样本集和所述负样本集进行训练，得到用于将所述源语种的源样本文本转换为所述目标语种的目标样本文本的文本转换模型。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至11任一项中所述的方法。

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至11任一项中所述方法的步骤。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。