CN113590803A

CN113590803A - 一种数据处理方法、装置、存储介质和计算机设备

Info

Publication number: CN113590803A
Application number: CN202110209713.9A
Authority: CN
Inventors: 丁亮; 曹雨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-11-02

Abstract

本申请实施例公开了一种数据处理方法，通过获取源样本和标签样本对应的词汇集合；获取目标词汇及其近义词，并计算出目标词汇及其近义词之间的相似分数；将词汇集合中的词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词进行向量混合得到混合词向量；将混合词向量替换对应的目标词汇的词向量并输入至预设模型中进行训练；生成混合标签，获取混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异，根据差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。以此提升数据处理的效率，提高训练后的模型输出的多样性。

Description

一种数据处理方法、装置、存储介质和计算机设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种数据处理方法、装置、存储介质和计算机设备。

背景技术

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机技术以及人工智能技术的发展，人们对自然语言处理技术的要求也不断提高，然而，在语言训练模型中，由于训练数据不足导致训练数据多样性低，而且不同训练数据之间的语义往往差距也比较大，很难学习到相近语义之间的回复，降低了模型的输出的多样性。因此，利用数据增强来提高训练性能是非常必要的。

在目前的现有技术中，往往通过单纯增加样本的数量来进行数据增强，一方面增加的样本会导致训练时间增长，另外一方面，即使增加了多个比较相似的样本，但是由于随机采样的原因也很难在同一个批(batch)内进行训练，导致数据增强效果较差，训练得到的模型输出多样性较差。

发明内容

本申请实施例提供一种数据处理方法、装置、存储介质和计算机设备。可以提升数据处理的效率，提高训练后的模型输出的多样性。

便捷不同配置环境下的数据转换，提高数据配置的效率。

一种数据处理方法，包括：

获取源样本和标签样本对应的词汇集合；

获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数，所述目标词汇为从所述词汇集合中选取的至少一个词汇；

将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据所述相似分数进行向量混合，得到目标词汇的混合词向量；

将所述混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；

生成混合标签，获取所述混合标签的词概率分布和所述预设模型输出的混合标签的词预测概率分布之间的差异，根据所述差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。

相应的，本申请实施例提供一种数据处理装置，包括：

分词单元，用于获取源样本和标签样本对应的词汇集合；

获取单元，用于获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数，所述目标词汇为从所述词汇集合中选取的至少一个词汇；

混合单元，用于将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据所述相似分数进行向量混合，得到目标词汇的混合词向量；

替换单元，用于将所述混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；

训练单元，用于生成混合标签，获取所述混合标签的词概率分布和所述预设模型输出的混合标签的词预测概率分布之间的差异，根据所述差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。

在一实施例中，所述混合单元，包括：

转化子单元，用于通过预设模型的词嵌入层将词汇集合中的每一词汇和对应的近义词转化为词向量集合；

计算子单元，用于根据所述相似分数得到目标词汇和对应的近义词的词向量的权重；

混合子单元，用于根据所述权重对目标词汇和对应的近义词的词向量进行加权混合，得到目标词汇的混合词向量。

在一实施例中，所述计算子单元，用于：

将目标词汇和对应的近义词的相似分数进行累加，得到目标词汇的总分数；

计算目标词汇和对应的近义词的相似分数和所述总分数的比值，得到目标词汇和对应的近义词的权重。

在一实施例中，所述训练单元，包括：

确定子单元，用于根据所述标签样本的词汇集合确定预设模型的目标标签；

构建子单元，用于根据所述标签样本的词汇集合中目标词汇的目标近义词和所述目标近义词对应的相似分数，基于所述目标标签包含的词汇集合对应的目标词汇进行软标签构建；

结合子单元，用于结合所述目标标签和所述软标签，得到预设模型的混合标签。

在一实施例中，所述构建子单元，用于：

根据所述标签样本的词汇集合中目标词汇的目标近义词和所述目标近义词对应的相似分数，得到所述标签样本中目标词汇和目标近义词的期望概率；

基于所述目标词汇和所述目标近义词的期望概率，得到目标词汇的词概率分布；

获取所述目标词汇的词概率分布，基于所述目标标签包含的词汇集合对应的目标词汇进行软标签构建。

在一实施例中，所述训练单元，包括：

获取子单元，用于获取所述混合标签中每一词汇的词概率分布和所述预设模型输出的混合标签中对应词汇的词预测概率分布；

输入子单元，用于将所述词概率分布和词预测概率分布输入预设模型的损失函数中，得到目标损失；

训练子单元，用于根据所述目标损失对预设模型的模型参数进行迭代训练，当所述目标损失满足收敛条件时，得到训练后的预设模型。

在一实施例中，所述输入子单元，用于：

将所述词概率分布和词预测概率分布输入预设模型的损失函数中，得到所述预设模型输出的混合标签中每一词汇的损失；

将所述预设模型输出的混合标签中每一词汇的损失进行累加，得到总损失值；

将所述总损失值进行平均处理，得到目标损失。

在一实施例中，所述数据处理装置，还包括:

过滤单元，用于对所述词汇集合中的词汇进行词性分析，根据词性分析结果对所述词汇集合中为目标词性的词汇进行过滤；

确定单元，用于确定预设替换比例，根据所述预设替换比例确定过滤之后的词汇集合中目标词汇的数目；

选择单元，用于根据所述目标词汇的数目对过滤之后的词汇集合中的词汇进行随机选择，根据随机选择的结果得到目标词汇。

在一实施例中，所述数据处理装置，还包括:

删除子单元，用于将目标词汇和目标词汇的近义词中相似分数不大于预设阈值的近义词进行删除。

此外，本申请实施例还提供一种文本生成方法，所述方法包括：

接收用户请求信息，所述用户请求信息包括用户输入的文本数据；

将所述文本数据输入至训练后的预设模型，所述预设模型的模型参数为采用本申请实施例所提供的任一种数据处理方法训练得到；

将所述训练后的预设模型的输出结果确定为目标文本数据。

此外，本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种数据处理方法中的步骤。

此外，本申请实施例还提供一种计算机设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的数据处理方法。

本申请实施例还提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行本申请实施例提供的数据处理方法中的步骤。

本申请实施例通过获取源样本和标签样本对应的词汇集合；获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数；将词汇集合中的每一词汇和对应的近义词转化为词向量集合，并将目标词汇和近义词根据该相似分数进行向量混合，得到目标词汇的混合词向量；将混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；生成混合标签，获取混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异，根据差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。以此，在不增加样本数量的情况下，将获取的源样本和对应的标签样本进行分词处理得到词汇集合，并获取词汇集合中目标词汇的近义词以及相似分数，通过将词汇集合中的每一词汇以及对应的近义词转化为词向量，并将目标词汇和对应的近义词进行混合并替换对应的目标词汇的词向量输入到预设模型中进行训练，再通过确定的混合标签与预设模型的输出的差异对预设模型进行迭代训练，得到训练后的预设模型，有效实现数据增强，提升数据处理的效率，提高训练后的模型输出的多样性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法实施场景示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的一种数据处理方法的另一流程示意图；

图4是本申请实施例提供的一种数据处理方法的应用场景示意图；

图5是本申请实施例提供的一种数据处理方法的另一应用场景示意图；

图6是本申请实施例提供的数据处理装置的结构示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种数据处理方法、装置、存储介质和计算机设备。其中，该数据处理装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

为了更好的说明本申请实施例，请参照以下名词进行参考：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其中，词嵌入(Word Embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称，指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

数据增强(Data augmentation)是一个比较宽泛的概念，可以指增强训练数据的质量、增加数据的多样性或者简单增加数据的数量，但是其根本目的还是让想要训练的人工智能模型在该数据集所在的领域(domain)有更好的性能表现。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

请参阅图1，以数据处理装置集成在计算机设备中为例，图1为本申请实施例所提供的数据处理方法的实施环境场景示意图，包括服务器A以及终端B，其中，服务器A可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器A可以获取源样本和标签样本对应的词汇集合；获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数，该目标词汇为从该词汇集合中选取的至少一个词汇；将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据该相似分数进行向量混合，得到目标词汇的混合词向量；将该混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；生成混合标签，获取该混合标签的词概率分布和该预设模型输出的混合标签的词预测概率分布之间的差异，根据该差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。

终端B可以是智能手机、平板电脑、笔记本电脑、台式计算机等各种可以进行数据输入的计算机设备，但并不局限于此。终端B以及服务器A可以通过有线或无线通信方式进行直接或间接地连接，服务器A可以接收终端B上传的数据以执行相应的数据处理操作，本申请在此不做限制。

需要说明的是，图1所示的数据处理方法的实施环境场景示意图仅仅是一个示例，本申请实施例描述的数据处理方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知，随着数据处理的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从数据处理装置的角度进行描述，该数据处理装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端，本申请在此不作限制。

请参阅图2，图2是本申请实施例提供的数据处理方法的流程示意图。该数据处理方法包括：

在步骤101中，获取源样本和标签样本对应的词汇集合。

其中，该标签样本与该源样本具有对应关系，该标签样本可以为该源样本对应的回答或者需要的处理结果，例如，该源样本可以是“你午饭吃的什么”，相应的，该标签样本可以是“我吃了三明治”，也可以是“我吃了米饭”等等；该源样本也可以是一段文本数据，相应的，该标签样本可以是将这段文本数据翻译成目标语言后得到的文本数据；该源样本还可以是一篇文章，相应的，该标签样本可以是这篇文章对应的摘要等等。

通过文本预处理对获取到的源样本和标签样本进行分词处理，其中，不同语种或者不同领域的源样本和标签样本可以有不同的分词处理方法，例如，对于英文，可以通过单词之间的空格进行分词，对于中文，可以利用分词工具进行处理，对于专业领域的源样本和标签样本，可以按照不同专业领域的样本特点设计分词算法，从而实现分词处理等等，得到源样本和标签样本进行分词处理后的词汇集合。例如，对于源样本“你午饭吃的什么”和对应的标签样本“我吃了三明治”，通过分词处理得到词汇集合，该源样本的词汇集合可以是“你，午饭，吃，的，什么”，该标签样本的词汇集合可以是“我，吃，了，三明治”，等等。

源样本和对应的标签样本等训练样本数据可以是从与数据处理装置连接的存储器中获取，也可以从其他数据存储终端获取。还可以从实体终端的存储器中获取，也可以从虚拟的存储空间如数据集或者语料库中获取。在一些实施例中，训练样本数据可以从一个存储位置获取，也可以从多个存储位置获取，例如训练样本数据可以保存于区块链上，数据处理装置从区块链上获取上述训练样本数据。数据处理装置可以是响应于某一训练样本数据获取指令后在一个时间段中集中获取训练样本数据，也可以是根据某一数据获取逻辑持续进行训练样本数据获取。

在步骤102中，获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数。

为了实现数据增强的效果，对词汇集合中的目标词汇进行近义词的扩充，具体的，获取词汇集合中的目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数，该目标词汇为从该词汇集合中选取的需要进行近义词扩充的至少一个词汇，其中，近义词是可以是与目标词汇的意义相同或者相近的词汇，例如“开心”和“快乐”等，也可以是与目标词汇在一些语境上可以互相替代的词汇，例如，在描述中午吃了什么时，可以说中午吃了米饭，也可以说中午吃了汉堡，在此时的语境中，“米饭”与“汉堡”就为近义词，其中，相似分数越大，与目标词汇的相似度就越高。例如，对于词汇集合“你，午饭，吃，的，什么”，可以选择该词汇集合中的“午饭”作为目标词汇，通过获取“午饭”的近义词以实现对目标词汇“午饭”的近义词扩充，从而得到“晚饭”、“早饭”和“米饭”等近义词，并计算该目标词汇“午饭”和它的近义词如“晚饭”、“早饭”和“米饭”等近义词之间的相似分数，其中，也会计算目标词汇“午饭”与“午饭”的相似分数，例如，目标词汇“午饭”与近义词“午饭”、“晚饭”、“早饭”和“米饭”等近义词之间的相似分数可以是1、0.5、0.3和0.1等等。

在一实施例中，可以通过近义词预测模型得到目标词汇的近义词，并计算目标词汇和目标词汇的近义词之间的相似分数，例如，可以使用基于fastText模型或者WordNet数据库的近义词预测模型来得到目标词汇的近义词并计算目标词汇和目标词汇的近义词之间的相似分数，也可以使用BERT(Bidirectional Encoder Representation fromTransformers，简称BERT)模型之类的预训练语言模型来得到目标词汇的近义词，并计算目标词汇和目标词汇的近义词之间的相似分数等等。

在一实施例中，可以通过对词汇集合中的词进行词性分析，将词汇集合中无需进行近义词扩充的词进行过滤，该无需进行近义词扩充的词的词性可以为介词、冠词等词，例如，对于词汇集合“你，午饭，吃，的，什么”中的“你”、“的”和“什么”为介词、冠词等词性的词，由于这些词进行替换无法增强数据的多样性甚至可能会破坏样本的原有语义，因此将这些词性的词进行过滤，再从过滤之后的词汇集合中进行选择，得到需要进行近义词扩充的目标词汇。

在一实施例中，可以根据样本数据包含的词汇量，也可以根据样本数据的数量等考量因素来确定需要选取的目标词汇的数量，其中，可以通过设定一个替换比例，根据该替换比例确定在过滤之后的词汇集合中目标词汇的数量，从而按照该替换比例确定的目标词汇的数量在过滤之后的词汇集合中进行目标词汇的选择。

在一实施例中，为了获取与目标词汇的相似度比较高的近义词，提高训练的效率，可以通过设定一个阈值，将相似分数不大于该阈值的近义词进行删除，从而得到相似度符合要求的近义词，例如，可以设定该阈值为0.2，对于相似分数不大于0.2的近义词进行删除，假设目标词汇“午饭”与“午饭”、“晚饭”、“早饭”和“米饭”等近义词之间的相似分数为1、0.5、0.3和0.1等，则将相似分数小于0.1的近义词“米饭”进行删除。

在步骤103中，将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据相似分数进行向量混合，得到目标词汇的混合词向量。

其中，为了将词汇集合中的词汇以及目标词汇对应的近义词输入到模型中进行训练，可以将词汇集合中的每一词汇以及目标词汇的近义词在预设模型的词嵌入层中转化为词向量，并将目标词汇的词向量和对应的近义词的词向量根据相似分数进行向量混合，得到目标词汇的混合词向量。其中，该预设模型可以是生成模型，其中，该生成模型是指能够随机生成观测数据的模型，是一种通过样本数据学习得到联合概率分布P(X,Y)，即源样本X和标签样本Y共同出现的概率，然后求出条件概率分布P(Y/X)作为预测的模型。例如，该生成模型可以为对话生成模型，该生成模型通过源样本与对应的标签样本学习得到联合概率分布，即源样本和标签样本共同出现的概率，然后求出条件概率分布，即在源样本出现的情况下标签样本出现的概率，从而作为预测的模型。其中，词嵌入是一种将文本中的词转换成数字向量的方法，为了使用标准机器学习算法来对它们进行分析计算，就需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个词在预定义的向量空间中被表示为实数向量，每个词都映射到一个向量上。例如，在一个包含“午饭”、“晚饭”和“米饭”等词的文本中，将这些词映射到向量空间中，“午饭”对应的向量可以为(0.1，0.2，0.3)，“晚饭”对应的向量可以为(0.2，0.2，0.4)，“米饭”对应的向量可以为(0.3，-0.4，-0.2)。因此，通过词嵌入将词转变为词向量，机器便可对词进行计算，例如，可以通过计算不同词向量之间夹角的余弦值得出词之间的相似度。

其中，可以假设每一个目标词汇以及对应的近义词组成一个混合集为：

C＝((c₀,s₀),(c₁,s₁),(c₂,s₂),…,(c_k,s_k))

其中，c₀为目标词汇本身，s₀＝1，代表目标词汇自身的相似分数为1，c₁到c_k为得到的目标词汇的近义词，s₁到s_k表示目标词汇与近义词之间的相似分数，其中，假设混合集C中的每一词汇对应的词向量为e_i∈R^d，其中，i表示混合集中的第i个词汇，d表示维数，R^d表示d维的向量空间。

在一实施例中，可以根据目标词汇与目标词汇的近义词之间的相似分数，得到目标词汇的词向量和对应的近义词的词向量进行向量混合的权重，例如，可以根据目标词汇与对应的每一近义词的期望概率来得到向量混合的权重，该期望概率为期望该预设模型输出为目标词汇及目标词汇的近义词的概率大小，该期望概率公式为：

其中，p(c_i)表示混合集C中每一个词的期望概率，s_i表示混合集C中第i个词对应的相似分数，s_j表示s₀到s_k中的第j个词的相似分数，从而得到向量混合的权重，根据该权重可以对目标词汇与对应的近义词进行加权相加，得到目标词汇的混合词向量：

在一实施例中，也可以通过将目标词汇、目标词汇的近义词和对应的相似分数输入到神经网络模型中进行训练，并通过损失函数计算模型的损失，当该模型的损失满足收敛条件时，得到训练好的神经网络模型，根据训练好的神经网络模型得到向量混合的权重，从而根据该权重对目标词汇与对应的近义词进行加权相加，得到目标词汇的混合词向量。

在步骤104中，将混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练。

其中，为了实现在不增加样本数量的情况下可以对近义词扩充后得到的样本数据进行训练，可以将向量混合得到的混合词向量替换对应的目标词汇的词向量，例如，对于词汇集合为“你，午饭，吃，的，什么”的源样本，选取其中的“午饭”作为目标词汇，通过将该目标词汇的混合集C中的每一词汇对应的词向量进行向量混合得到该目标词汇的混合词向量，从而将该混合向量替换目标词汇“午饭”的词向量，将替换之后的词向量集合输入至预设模型中进行训练。

在目前的现有技术中，要想得到一个性能较好的训练模型，需要大量的样本数据输入到模型中进行训练，然而，在实际应用中往往没有足够多的样本数据可以供模型训练，因此，为了解决样本数据缺乏的问题，本领域技术人员往往需要对有限的样本数据进行数据增强。但是，在现有的数据增强方法中，大部分是基于词汇(token)级别进行数据增强，比如根据词汇的分布概率或者近义词直接在文本层面进行词汇替换，或者根据语言模型来预测某些被随机选中的词汇来扩充数据量，也有通过改写现有样本数据的方法来增加样本数据等等。这种单纯增加样本数据的数量来实现数据增强的方法，一方面增加的样本数据会导致模型的训练时间增长，另外一方面，依旧只有一个固定的标签，使得模型在训练的过程中依旧是按照一对一的模式进行学习，即使增加了多个比较相似的样本，由于随机采样的原因也很难在同一个批(batch)内进行学习，使得模型难以在相近语义的样本中进行训练，因此，训练得到的模型的多样性较差。

为了解决上述问题，本申请实施例提供了一种数据处理方法，通过将获取的源样本和对应的标签样本进行分词处理得到词汇集合，并获取词汇集合中目标词汇的近义词以及相似分数，通过将词汇集合中的每一词汇以及对应的近义词转化为词向量，并将目标词汇和对应的近义词进行混合并替换对应的目标词汇的词向量输入到预设模型中进行训练，在不增加样本数量的前提下，有效实现数据增强，同时，通过引入混合标签，保留了多个源样本可以对应多个标签样本的合理性，从而实现了模型的多对多训练，提高了训练模型输出的多样性，具体实现过程请继续参阅以下步骤。

在步骤105中，生成混合标签，获取混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异，根据差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。

为了与目标词汇的混合词向量进行对应，本申请实施例引入了混合标签，以实现多对多的训练，增加模型输出的多样性。在本申请实施例中，根据标签样本的词汇集合、标签样本中的目标词汇的目标近义词和目标近义词对应的相似分数生成对应的混合标签。例如，对于词汇集合为“我，吃，了，三明治”的标签样本，可以选取“三明治”作为目标词汇，并通过近义词扩充得到该目标词汇的近义词以及对应的相似分数，从而得到混合集C＝((三明治，1)，(汉堡，0.6)，(沙拉，0.2))，根据该标签样本的词汇集合得到目标标签“我，吃，了，三明治”。

进一步的，根据标签样本中的目标词汇的目标近义词和目标近义词对应的相似分数，基于该目标标签包含的目标词汇进行软标签的构建，例如，将标签样本中的目标词汇的混合集C中的目标词汇、目标近义词以及对应的相似分数通过上述步骤103中的期望概率公式进行计算，得到该目标词汇的混合集中每一词汇的期望概率，从而根据目标词汇的期望概率和目标词汇的近义词的期望概率，基于目标标签中包含的词汇集合对应的目标词汇进行软标签的构建，其中，软标签指的是有多个携带概率的词汇组成的标签，这些词汇携带的概率累加等于1，例如，目标词汇“三明治”的软标签可以由“三明治”以及对应的概率“0.5”、“汉堡”以及对应的概率“0.3”和“沙拉”以及对应的概率“0.2”组成，以此得到该目标词汇的词概率分布，结合目标标签与目标词汇的软标签得到该标签样本的混合标签，其中，该混合标签携带词概率分布，该混合标签携带的词概率分布可以表示为“(我，1)，(吃，1)，(了，1)，[(三明治，0.5)，(汉堡，0.3)，(沙拉，0.2)]”。其中，对于目标标签中的“我”、“吃”和“了”，由于没有进行相应的近义词扩充，因此这些词汇的期望概率可以为1，相应的得到每一词汇的词概率分布。

其中，为了对预设模型的模型参数进行优化，可以通过获取预设模型输出的混合标签的每一词汇的词预测概率分布并与混合标签中对应的词汇的词概率分布进行计算，从而得到混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异。该差异可以由损失函数计算得到，在一实施例中，对于混合标签中构建了软标签的词汇，可以采用交叉熵损失函数进行计算差异，该交叉熵损失函数的计算公式如下：

其中，c_i为目标词汇的混合集C中的第i个词汇，p(c_i)表示混合集C中c_i的期望概率，g(c_i)为预设模型输出为c_i的概率，以此，通过计算该交叉熵损失函数得到每一个软标签的差异。在一实施例中，对于混合标签中没有构建软标签的词汇，可以采用如下对数损失函数公式进行计算差异：

L＝-log g(c_i)

通过损失函数计算混合标签中每一词汇的差异，将每一词汇的差异进行累加，将累加得到的结果除以混合标签中的词汇数目，得到该混合标签的差异。例如，对于表示为“(我，1)，(吃，1)，(了，1)，[(三明治，0.5)，(汉堡，0.3)，(沙拉，0.2)]”的混合标签，可以通过交叉熵损失函数的计算公式对三明治、汉堡和沙拉以及对应的期望概率组成的软标签进行计算得到第一差异，通过对数损失函数公式对“我”、“吃”和“了”进行计算得到第二差异，通过对第一差异与第二差异进行累加并进行平均处理，得到当前预设模型的差异，根据该差异对预设模型的模型参数进行迭代训练，以对预设模型的模型参数进行优化，当预设模型满足收敛条件时，得到训练后的预设模型。以此，通过引入混合标签进行数据增强，使得一个源样本可以对应多个标签样本，从而进行预设模型的多对多训练，保证训练后的预设模型可以输出多样性的结果。

由以上可知，本申请实施例通过获取源样本和标签样本对应的词汇集合；获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数；将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据该相似分数进行向量混合，得到目标词汇的混合词向量；将混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；生成混合标签，获取混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异，根据差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。以此，在不增加样本数量的情况下，将获取的源样本和对应的标签样本的词汇集合，并获取词汇集合中目标词汇的近义词以及相似分数，通过将词汇集合中的每一词汇以及对应的近义词转化为词向量，并将目标词汇和对应的近义词进行混合并替换对应的目标词汇的词向量输入到预设模型中进行训练，再通过混合标签与预设模型的输出的差异对预设模型进行迭代训练，得到训练后的预设模型，有效实现数据增强，提升数据处理的效率，提高训练后的模型输出的多样性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该数据处理装置具体集成在计算机设备为例进行说明。其中，该数据处理方法以服务器为执行主体，同时利用近义词预测模型来获取目标词汇的近义词与对应的相似分数。

如图3所示，图3为本申请实施例提供的数据处理方法的另一流程示意图。具体流程如下：

在步骤201中，服务器获取源样本和标签样本对应的词汇集合，对词汇集合中的词汇进行词性分析，根据词性分析结果对词汇集合中为目标词性的词汇进行过滤。

其中，服务器获取源样本和对应的标签样本，例如，可以通过语料库或者数据集等来获取相应的样本数据，相应的，可以通过文本预处理将获取的源样本和对应的标签样本进行分词处理，得到词汇集合，例如，对于源样本为“你午饭吃的什么”，对应的标签样本为“我吃了三明治”的样本数据，通过分词处理可以得到源样本的词汇集合是“你，午饭，吃，的，什么”，该标签样本的词汇集合可以是“我，吃，了，三明治”，从而对词汇集合中的词汇进行词性分析，得到词汇集合中每个词汇的词性分析结果，根据词性分析结果对词汇集合中词性为目标词性的词汇进行过滤，其中，该目标词性可以是介词、冠词等词性，例如，词汇集合“你，午饭，吃，的，什么”中的“你”、“的”和“什么”等词，对这些词进行替换无法增强数据的多样性甚至可能会破坏样本的原有语义，因此将这些词性的词进行过滤，再从词汇集合中除去这部分词汇后得到的词汇中进行选择，得到需要进行近义词扩充的目标词汇。

在步骤202中，服务器确定预设替换比例，根据预设替换比例确定过滤之后的词汇集合中目标词汇的数目，根据目标词汇的数目对过滤之后的词汇集合中的词汇进行随机选择，根据随机选择的结果得到目标词汇。

其中，可以通过设定一个预设替换比例来对目标词汇的数目进行限定，服务器可以确定预设替换比例，该替换比例可以是50％，也可以是100％，还可以是20％等等，根据预设替换比例确定在过滤后的词汇集合中目标词汇的数目，例如，对于词汇集合是“你，午饭，吃，的，什么”的源样本，在过滤掉目标词性的词汇之后，得到词汇“午饭，吃”，可以设定一个替换比例为50％，则对于词汇“午饭，吃”可以根据该替换比例得到目标词汇的数目为1，根据该目标词汇的数目对过滤之后的词汇集合中的词汇“午饭，吃”进行随机选择一个目标词汇，根据随机选择的结果得到目标词汇，例如，该目标词汇可以“午饭”，或者“吃”。以此，通过设定一个预设替换比例来对目标词汇的数目进行限定以满足模型训练的需要，提高预设模型训练的效率。

在步骤203中，服务器获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数，将目标词汇和目标词汇的近义词中相似分数不大于预设阈值的近义词进行删除。

其中，为了实现数据增强，可以通过近义词预测模型或者预训练语言模型得到目标词汇的近义词，并计算得到目标词汇与近义词之间的相似分数，为了提高训练的效率，可以将相似度较低的近义词进行删除，例如，可以通过设定预设阈值，将目标词汇和目标词汇的近义词中相似分数不大于预设阈值的近义词进行删除，以除去相似度较低的近义词。在一实施例中，请参考图4，图4为本申请实施例提供的一种数据处理方法的应用场景示意图，是为了更加清楚的说明本申请实施例的技术方案而提供的其中一种应用场景示意图，并不构成对于本申请实施例提供的技术方案的限定，其中，在图4提供的应用场景示意图中，采用近义词预测模型110对包括源样本的词汇集合H和标签样本的词汇集合R中的目标词汇进行近义词扩充，并删除近义词中相似分数不大于预设阈值的近义词，从而可以得到源样本对应的词汇集合的目标词汇“午饭”的近义词“晚饭”和“早饭”，同时可以得到对应的相似分数0.5和0.3，以及目标词汇的相似分数为1，其中，相似分数越大，与目标词汇的相似度越高，同时通过近义词预测模型110获得标签样本的词汇集合R中的目标词汇“三明治”的近义词，如“汉堡”和“沙拉”，相应的可以得到目标词汇“三明治”、“汉堡”和“沙拉”的相似分数分别为1、0.6和0.4。

在步骤204中，服务器通过预设模型的词嵌入层将词汇集合中的每一词汇和近义词转化为词向量集合，将目标词汇和对应的近义词的相似分数进行累加，得到目标词汇的总分数。

其中，为了可以把词汇集合中的词汇输入到模型中进行分析计算以实现训练的目的，服务器可以通过预设模型的词嵌入层将词汇集合中的每一词汇和对应的近义词转化为词向量集合，为了在不增加样本数量的情况下将目标词汇对应的词向量和目标词汇的近义词对应的词向量输入到模型中进行训练，可以将对应的目标词汇和目标词汇的近义词进行向量混合，其中，请继续参阅图4，服务器通过对话生成模型130中的词嵌入层131将词汇集合H和R中的词汇以及其中的目标词汇的近义词转换为词向量，其中，为了得到目标词汇和目标词汇的近义词进行向量混合的权重，可以将目标词汇和对应的近义词的相似分数进行累加，得到目标词汇的总分数，例如，请继续参考图4，对于词汇集合R中的目标词汇“三明治”以及对应的近义词“汉堡”和“沙拉”，将这些词汇的相似分数进行累加，即将相似分数1、0.6和0.4进行累加得到总分数2，再根据目标词汇和对应的近义词的相似分数与该总分数的比值得到目标词汇和对应的近义词的权重，具体的实现请继续参阅以下步骤。

在步骤205中，服务器计算目标词汇和对应的近义词的相似分数和总分数的比值，得到目标词汇和对应的近义词的权重，根据权重对目标词汇和对应的近义词的词向量进行加权混合，得到目标词汇的混合词向量。

其中，服务器计算目标词汇和对应的近义词的相似分数和总分数的比值，例如，在一实施例中，请继续参考图4，计算词汇集合R中的目标词汇“三明治”以及对应的近义词“汉堡”和“沙拉”的相似分数和总分数2的比值，由此，分别得到目标词汇和对应的近义词的权重，“三明治”、“汉堡”和“沙拉”的权重为0.5、0.3和0.2，根据上述权重对目标词汇和对应的近义词的词向量进行加权混合，也即根据如下公式

进行加权相加，其中，c_i为目标词汇“三明治”的混合集C＝((三明治，1)，(汉堡，0.6)，(沙拉，0.2))中的第i个词汇，p(c_i)为目标词汇“三明治”的混合集C中第i个词汇的期望概率，也即目标词汇和对应的近义词的词向量的权重，e_i为目标词汇“三明治”的混合集C中的第i个词汇对应的词向量，从而得到目标词汇的混合词向量。

在步骤206中，服务器将混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练。

其中，服务器将目标词汇混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练，例如，请继续参阅图4，将源样本的目标词汇的混合词向量代替词汇集合H对应的词向量集合中目标词汇的词向量，从而将替换之后的词向量集合输入至对话生成模型130中，通过编码器对源样本的词汇集合H进行编码得到相应的隐变量发送到解码器中，解码器接收编码器发送的隐变量进行训练。

在步骤207中，服务器根据标签样本的词汇集合确定预设模型的目标标签，根据标签样本的词汇集合中目标词汇的目标近义词和目标近义词对应的相似分数，得到标签样本中目标词汇和目标近义词的期望概率。

其中，服务器根据标签样本的词汇集合确定预设模型的目标标签，例如，请继续参阅图4，可以根据标签样本“我吃了三明治”的词汇集合R确定预设模型的目标标签为“我，吃，了，三明治”，为了将目标标签中包括的目标词汇与目标词汇的混合词向量进行对应，本申请实施例在目标词汇中构建了相应的软标签，可以根据标签样本的词汇集合中目标词汇的目标近义词和目标近义词对应的相似分数，得到标签样本中目标词汇和目标近义词的期望概率，例如，可以根据以下公式计算得到标签样本中目标词汇和目标近义词的期望概率：

其中，s_i表示目标词汇的混合集C中的第i个词汇的相似分数，例如，请参考图4，s_i可以表示目标词汇“三明治”的混合集140中的第i个词汇的相似分数，根据期望概率的计算公式计算出“三明治”的混合集140中每一个词的期望概率，从而根据该期望概率在目标标签中包含的目标词汇“三明治”进行构建软标签，具体的实现可以继续参阅以下步骤。

在步骤208中，服务器基于目标词汇和目标近义词的期望概率，得到目标词汇的词概率分布，获取目标词汇的词概率分布，基于目标标签包含的词汇集合对应的目标词汇进行软标签构建，结合目标标签和软标签，得到预设模型的混合标签。

为了与输入预设模型的混合词向量对应，本申请实施例引入了基于目标标签和软标签的混合标签，以实现预设模型的多对多训练，其中，服务器基于目标词汇和目标近义词的期望概率，得到目标词汇的词概率分布，该目标近义词为标签样本的词汇集合中目标词汇的近义词，在一实施例中，请继续参考图4，基于目标词汇“三明治”和目标近义词“汉堡”、“沙拉”的期望概率，得到目标词汇“三明治”的词概率分布，可以表示为“三明治0.5，汉堡0.3，沙拉0.2”，从而基于目标标签包含的词汇集合对应的目标词汇进行软标签构建，结合目标标签和目标词汇“三明治”的软标签121，得到预设模型的混合标签120。

在步骤209中，服务器获取混合标签中每一词汇的词概率分布和预设模型输出的混合标签中对应词汇的词预测概率分布。

其中，在训练阶段，解码器按顺序接收输入的与混合标签对应的词向量，同时输出下一个词向量对应的词汇的期望概率，从而得到预设模型输出的混合标签120中对应词汇的词预测概率分布。

在一实施例中，解码器从词嵌入层131按顺序接收混合词向量替换之后标签样本的词向量集合，例如，解码器接收起始词汇<bos>，输出得到下一个词汇为“我”的期望概率，接着，解码器接收起始词汇<bos>和“我”对应的词向量，输出得到下一个词汇为“吃”的期望概率，解码器接收起始词汇<bos>、“我”和“吃”对应的词向量，输出得到下一个词汇为“了”的期望概率，解码器接收起始词汇<bos>、“我”、“吃”和“了”对应的词向量，输出得到下一个词汇为“三明治”、“汉堡”和“沙拉”的期望概率，从而得到该对话生成模型130输出的混合标签120中对应词汇的词预测概率分布。

在步骤210中，服务器将词概率分布和词预测概率分布输入预设模型的损失函数中，得到预设模型输出的混合标签中每一词汇的损失，将预设模型输出的混合标签中每一词汇的损失进行累加，得到总损失值。

其中，为了计算模型的损失以根据损失对预设模型进行优化，可以获取混合标签中每一词汇的词概率分布和预设模型输出的混合标签中对应词汇的词预测概率分布，再将词概率分布和词预测概率分布输入预设模型的损失函数中，其中，请继续参阅图4，对于混合标签120中构建了软标签121的词汇“三明治”、“汉堡”和“沙拉”，可以采用如下交叉熵损失函数进行计算损失：

得到软标签中目标词汇以及对应的近义词的损失，其中，c_i为目标词汇“三明治”的混合集C中的第i个词汇，p(c_i)表示“三明治”的混合集C中c_i的期望概率，g(c_i)为预设模型130输出为c_i的概率，对于混合标签120中的其他词汇，可以采用如下对数损失函数进行计算损失：

L＝-log g(c_i)

从而得到对话生成模型130输出的混合标签120中每一词汇的损失，将对话生成模型130输出的混合标签120中每一词汇的损失进行累加，得到总损失值。

在步骤211中，服务器将总损失值进行平均处理，得到目标损失，根据目标损失对预设模型的模型参数进行迭代训练，当目标损失满足收敛条件时，得到训练后的预设模型。

服务器将总损失值进行平均处理，例如，请继续参阅图4，将混合标签120中每一词汇的损失进行累加，再将总损失值除以4从而实现平均处理，得到当前对话生成模型的目标损失，根据目标损失对对话生成模型130的模型参数进行迭代训练，以对该预设模型进行优化，当目标损失满足收敛条件时，也即是得到最小值时，得到训练后的对话生成模型，其中，通过引入混合词向量和混合标签，使得该对话生成模型130实现多对多的训练，提高了训练后的对话生成模型输出的多样性。

在一些实施方式中，可以将上述训练后的预设模型应用在文本生成场景中，具体为：

接收用户请求信息，用户请求信息包括用户输入的文本数据；

将文本数据输入至训练后的预设模型，预设模型的模型参数为采用上述实施例提供的各种可选的数据处理方法训练得到；

将训练后的预设模型的输出结果确定为目标文本数据。

其中，接收用户输入的请求信息，该请求信息包括用户输入的文本数据，例如，可以是一句聊天历史，也可以是一篇文章，还可以是需要进行翻译的文本等等，将文本数据输入到训练后的预设模型中，将训练后的预设模型的输出结果确定为目标文本数据，其中，该目标文本数据可以是用户输入的聊天历史对应的回复，也可以是根据用户输入的一篇文章输出的文章摘要，还可以是根据用户输入的文本而输出的相应的另一种语言的文本等等。由上可知，本申请实施例提供的文本生成方法可以用于对话生成，例如，根据用户输入的文本内容生成相应的回复，本申请实施例提供的文本生成方法可以用于摘要生成，例如，根据用户输入的一篇文章生成对应的摘要，此外，本申请实施例提供的文本生成方法可以用于机器翻译，通过根据用户输入的文本输出该文本对应的另一种语言文本等。

其中，该预设模型可以是一种概率生成模型，在使用前也需要使用一定数量的历史数据进行训练，以确定该预设模型的模型参数。对于不同的模型功能，需要使用不同的训练样本数据。例如，该文本生成模型的功能是对用户输入的对话进行答复时，则用于训练的训练样本数据可以为对话语句，例如，可以使用persona-chat数据集，该文本生成模型的功能是对用户输入的文章进行生成摘要时，则用于训练的训练样本数据可以为文章和相应的摘要，当该文本生成模型的功能是对用户输入的文本进行翻译时，则用于训练的训练样本数据可以为不同语言的文本。而模型训练的过程，即对模型参数进行训练的过程，可以采用前述实施例中所提供的任一种数据处理方法进行训练得到。

具体的，本申请实施例提供的数据处理方法可以应用于机器问答，例如聊天机器人，请参考图5，图5为本申请实施例提供的数据处理方法的具体应用场景示意图，其中，机器人可以接收用户输入的文字信息，根据文字信息生成相应的回复，在现有技术中，大多数的对话生成模型都是基于只有一个固定回复进行训练而得到的，这种一对一的训练导致这种模型的生成多样性比较低，应用这种模型得到聊天机器人聊天效果较差，而应用本申请实施例提供的数据处理方法得到的聊天机器人可以根据用户输入的文字信息得到多个回复，生成的多样性较高，例如，请继续参考图5，对于用户输入的“你午饭吃的什么”，机器人可以得到回复“我吃了三明治”、“我吃了汉堡”或者“我吃了沙拉”以及对应的生成概率0.5、0.3和0.2等等，从而可以从多个回复中随机选择得到最终的回复并反馈给用户，每一回复的生成概率越大被选中的概率就越大，例如可以将回复“我吃了三明治”发送给用户，从而实现机器问答的过程。

由以上可知，本申请实施例通过服务器获取源样本和标签样本对应的词汇集合，对词汇集合中的词汇进行词性分析，根据词性分析结果对词汇集合中为目标词性的词汇进行过滤；服务器确定预设替换比例，根据预设替换比例确定过滤之后的词汇集合中目标词汇的数目，根据目标词汇的数目对过滤之后的词汇集合中的词汇进行随机选择，根据随机选择的结果得到目标词汇；服务器获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数，将目标词汇和目标词汇的近义词中相似分数不大于预设阈值的近义词进行删除；服务器通过预设模型的词嵌入层将词汇集合中的每一词汇和近义词转化为词向量集合，将目标词汇和对应的近义词的相似分数进行累加，得到目标词汇的总分数；服务器计算目标词汇和对应的近义词的相似分数和总分数的比值，得到目标词汇和对应的近义词的权重，根据权重对目标词汇和对应的近义词的词向量进行加权混合，得到目标词汇的混合词向量；服务器将混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；服务器根据标签样本的词汇集合确定预设模型的目标标签，根据标签样本的词汇集合中目标词汇的目标近义词和目标近义词对应的相似分数，得到标签样本中目标词汇和目标近义词的期望概率；服务器基于目标词汇和目标近义词的期望概率，得到目标词汇的词概率分布，获取目标词汇的词概率分布，基于目标标签包含的词汇集合对应的目标词汇进行软标签构建，结合目标标签和软标签，得到预设模型的混合标签；服务器获取混合标签中每一词汇的词概率分布和预设模型输出的混合标签中对应词汇的词预测概率分布；服务器将词概率分布和词预测概率分布输入预设模型的损失函数中，得到预设模型输出的混合标签中每一词汇的损失，将预设模型输出的混合标签中每一词汇的损失进行累加，得到总损失值；服务器将总损失值进行平均处理，得到当前预设模型的目标损失，根据目标损失对预设模型的模型参数进行迭代训练，当目标损失满足收敛条件时，得到训练后的预设模型。以此，在不增加样本数量的情况下，获取词汇集合中目标词汇的近义词以及相似分数，通过将词汇集合中的每一词汇以及近义词转化为词向量，并将目标词汇和对应的近义词进行混合并替换对应的目标词汇的词向量输入到预设模型中进行训练，再通过结合目标标签和软标签得到的混合标签与预设模型的输出的差异对预设模型进行迭代训练，当差异满足收敛条件时，得到训练后的预设模型，有效的实现数据增强效果，从而提升数据处理的效率，提高训练后的预设模型输出的多样性。

为了更好地实施以上方法，本申请实施例还提供一种数据处理装置，该数据处理装置可以集成在网络设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图6所示，该数据处理装置可以包括分词单元301、获取单元302、混合单元303、替换单元304和训练单元305，如下：

分词单元301，用于获取源样本和标签样本对应的词汇集合；

获取单元302，用于获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数，目标词汇为从词汇集合中选取的至少一个词汇；

混合单元303，用于将词汇集合中的每一词汇和对应的近义词转化为词向量集合，并将目标词汇和对应的近义词根据相似分数进行向量混合，得到目标词汇的混合词向量；

替换单元304，用于将混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；

训练单元305，用于生成混合标签，获取混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异，根据差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。

在一实施例中，混合单元303，包括：

计算子单元，用于根据相似分数得到目标词汇和对应的近义词的词向量的权重；

混合子单元，用于根据权重对目标词汇和对应的近义词的词向量进行加权混合，得到目标词汇的混合词向量。

在一实施例中，计算子单元，用于：

计算目标词汇和对应的近义词的相似分数和总分数的比值，得到目标词汇和对应的近义词的权重。

在一实施例中，训练单元305，包括：

确定子单元，用于根据标签样本的词汇集合确定预设模型的目标标签；

构建子单元，用于根据标签样本的词汇集合中目标词汇的目标近义词和目标近义词对应的相似分数，基于目标标签包含的词汇集合对应的目标词汇进行软标签构建；

结合子单元，用于结合目标标签和软标签，得到预设模型的混合标签。

在一实施例中，构建子单元，用于：

根据标签样本的词汇集合中目标词汇的目标近义词和目标近义词对应的相似分数，得到标签样本中目标词汇和目标近义词的期望概率；

基于目标词汇和目标近义词的期望概率，得到目标词汇的词概率分布；

获取目标词汇的词概率分布，基于目标标签包含的词汇集合对应的目标词汇进行软标签构建。

在一实施例中，训练单元305，包括：

获取子单元，用于获取混合标签中每一词汇的词概率分布和预设模型输出的混合标签中对应词汇的词预测概率分布；

输入子单元，用于将词概率分布和词预测概率分布输入预设模型的损失函数中，得到目标损失；

训练子单元，用于根据目标损失对预设模型的模型参数进行迭代训练，当目标损失满足收敛条件时，得到训练后的预设模型。

在一实施例中，输入子单元，用于：

将词概率分布和词预测概率分布输入预设模型的损失函数中，得到预设模型输出的混合标签中每一词汇的损失；

将预设模型输出的混合标签中每一词汇的损失进行累加，得到总损失值；

将总损失值进行平均处理，得到目标损失。

在一实施例中，数据处理装置，还包括:

过滤单元，用于对词汇集合中的词汇进行词性分析，根据词性分析结果对词汇集合中为目标词性的词汇进行过滤；

第二确定单元，用于确定预设替换比例，根据预设替换比例确定过滤之后的词汇集合中目标词汇的数目；

选择单元，用于根据目标词汇的数目对过滤之后的词汇集合中的词汇进行随机选择，根据随机选择的结果得到目标词汇。

在一实施例中，数据处理装置，还包括:

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本申请实施例通过分词单元301获取源样本和标签样本对应的词汇集合；获取单元302获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数；混合单元303将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据该相似分数进行向量混合，得到目标词汇的混合词向量；替换单元304将混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；训练单元305生成混合标签，获取混合标签的词概率分布和预设模型输出的混合标签的词预测概率分布之间的差异，根据差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。以此，将获取的源样本和标签样本对应的词汇集合，并获取词汇集合中目标词汇的近义词以及相似分数，通过将词汇集合中的每一词汇以及对应的近义词转化为词向量，并将目标词汇和对应的近义词进行混合并替换对应的目标词汇的词向量输入到预设模型中进行训练，再通过确定的混合标签与预设模型的输出的差异对预设模型进行迭代训练，得到训练后的预设模型，有效实现数据增强，从而提升数据处理的效率，提高训练后的模型输出的多样性。

本申请实施例还提供一种计算机设备，如图7所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取源样本和标签样本对应的词汇集合；获取目标词汇和目标词汇的近义词之间的相似分数，该目标词汇为从该词汇集合中选取的至少一个词汇；将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据该相似分数进行向量混合，得到目标词汇的混合词向量；将该混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；生成混合标签，获取该混合标签的词概率分布和该预设模型输出的混合标签的词预测概率分布之间的差异，根据该差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。应当说明的是，本申请实施例提供的计算机设备与上文实施例中的适用于数据处理方法属于同一构思，其具体实现过程详见以上方法实施例，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种数据处理方法中的步骤。例如，该指令可以执行如下步骤：

获取源样本和标签样本对应的词汇集合；获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数；将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据该相似分数进行向量混合，得到目标词汇的混合词向量；将该混合词向量替换对应的目标词汇的词向量，将替换之后的词向量集合输入至预设模型中进行训练；生成混合标签，获取该混合标签的词概率分布和该预设模型输出的混合标签的词预测概率分布之间的差异，根据该差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种数据处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种数据处理方法、装置、存储介质和计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上该，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

获取源样本和标签样本对应的词汇集合；

2.如权利要求1所述的数据处理方法，其特征在于，所述将词汇集合中的每一词汇和近义词转化为词向量集合，并将目标词汇和对应的近义词根据所述相似分数进行向量混合，得到目标词汇的混合词向量，包括：

通过预设模型的词嵌入层将词汇集合中的每一词汇和近义词转化为词向量集合；

根据所述相似分数得到目标词汇和对应的近义词的词向量的权重；

根据所述权重对目标词汇和对应的近义词的词向量进行加权混合，得到目标词汇的混合词向量。

3.如权利要求2所述的数据处理方法，其特征在于，所述根据所述相似分数得到目标词汇和对应的近义词的词向量的权重，包括：

4.如权利要求1所述的数据处理方法，其特征在于，所述生成混合标签，包括：

根据所述标签样本的词汇集合确定预设模型的目标标签；

根据所述标签样本的词汇集合中目标词汇的目标近义词和所述目标近义词对应的相似分数，基于所述目标标签包含的词汇集合对应的目标词汇进行软标签构建；

结合所述目标标签和所述软标签，得到预设模型的混合标签。

5.如权利要求4所述的数据处理方法，其特征在于，所述根据所述标签样本的词汇集合中目标词汇的目标近义词和所述目标近义词对应的相似分数，基于所述目标标签包含的词汇集合对应的目标词汇进行软标签构建，包括：

6.如权利要求1所述的数据处理方法，其特征在于，所述获取所述混合标签的词概率分布和所述预设模型输出的混合标签的词预测概率分布之间的差异，根据所述差异对预设模型的模型参数进行迭代训练，得到训练后的预设模型，包括：

获取所述混合标签中每一词汇的词概率分布和所述预设模型输出的混合标签中对应词汇的词预测概率分布；

将所述词概率分布和词预测概率分布输入预设模型的损失函数中，得到目标损失；

根据所述目标损失对预设模型的模型参数进行迭代训练，当所述目标损失满足收敛条件时，得到训练后的预设模型。

7.如权利要求6所述的数据处理方法，其特征在于，所述将所述词概率分布和词预测概率分布输入预设模型的损失函数中，得到目标损失，包括：

将所述总损失值进行平均处理，得到目标损失。

8.如权利要求1所述的数据处理方法，其特征在于，在所述获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数之前，还包括：

对所述词汇集合中的词汇进行词性分析，根据词性分析结果对所述词汇集合中为目标词性的词汇进行过滤；

确定预设替换比例，根据所述预设替换比例确定过滤之后的词汇集合中目标词汇的数目；

根据所述目标词汇的数目对过滤之后的词汇集合中的词汇进行随机选择，根据随机选择的结果得到目标词汇。

9.如权利要求1所述的数据处理方法，其特征在于，在所述获取目标词汇和目标词汇的近义词，并计算出目标词汇和目标词汇的近义词之间的相似分数之后，还包括：

将目标词汇和目标词汇的近义词中相似分数不大于预设阈值的近义词进行删除。

10.一种文本生成方法，其特征在于，所述方法包括：

将所述文本数据输入至训练后的预设模型，所述预设模型的模型参数为采用权利要求1至9任一项所述的数据处理方法训练得到；

将所述训练后的预设模型的输出结果确定为目标文本数据。

11.一种数据处理装置，其特征在于，包括：

分词单元，用于获取源样本和标签样本对应的词汇集合；

12.根据权利要求11所述的装置，其特征在于，所述混合单元，包括：

13.根据权利要求11所述的装置，其特征在于，所述计算子单元，用于：

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的数据处理方法中的步骤。

15.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至9任一项所述的数据处理方法中的步骤。