CN109886388A

CN109886388A - 一种基于变分自编码器的训练样本数据扩充方法和装置

Info

Publication number: CN109886388A
Application number: CN201910018808.5A
Authority: CN
Inventors: 陈瑞清; 许开河; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-06-14
Anticipated expiration: 2039-01-09
Also published as: WO2020143321A1; CN109886388B

Abstract

本发明实施例提供了一种基于变分自编码器的训练样本数据扩充方法和装置。本发明涉及大数据技术领域，该方法包括：获取原始样本；输入原始样本到变分自编码器的编码器，变分自编码器的编码器包括两个神经网络，两个神经网络分别输出μ和σ，μ和σ均为原始样本的函数；根据μ和σ的平方即σ²，生成相应高斯分布的随机数；对标准正态分布进行随机采样，得到采样值ε，根据采样值ε和高斯分布的随机数，确定采样变量Z；输入采样变量Z到变分自编码器的解码器，变分自编码器的解码器解码后输出原始样本的相似样本，将相似样本作为扩充样本。因此，本发明实施例提供的技术方案能够解决现有技术中人工对样本数据进行扩充费时费力、效率低的问题。

Description

一种基于变分自编码器的训练样本数据扩充方法和装置

【技术领域】

本发明涉及大数据技术领域，尤其涉及一种基于变分自编码器的训练样本数据扩充方法和装置。

【背景技术】

随着计算机应用技术的发展，深度学习技术日趋成熟，且获得越来越广泛的应用，基于深度学习进行分类模型训练，为输入数据提供自动识别功能。

使用深度学习的方法训练分类模型效率较高，但是如果分类模型中样本数量不均衡或者样本数量少，会降低深度学习训练的模型分类效果，所以进行分类模型训练之前，需要提供大量的样本数据。当需要的样本数据的数量较大时，人工对样本数据进行扩充费时费力、效率低。

【发明内容】

有鉴于此，本发明实施例提供了一种基于变分自编码器的训练样本数据扩充方法和装置，用以解决现有技术人工对样本数据进行扩充费时费力、效率低的问题。

一方面，本发明实施例提供了一种基于变分自编码器的训练样本数据扩充方法，所述方法包括：获取原始样本；输入所述原始样本到变分自编码器的编码器，所述变分自编码器的编码器包括两个神经网络，所述两个神经网络分别输出μ和σ，所述μ和所述σ均为所述原始样本的函数；根据所述μ和所述σ的平方即σ²，生成相应高斯分布的随机数，所述高斯分布的方差为σ²，所述高斯分布的均值为μ；对标准正态分布进行随机采样，得到采样值ε，根据所述采样值ε和所述高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ；输入所述采样变量Z到所述变分自编码器的解码器，所述变分自编码器的解码器解码后输出所述原始样本的相似样本，将所述相似样本作为扩充样本。

进一步地，所述输入所述原始样本到变分自编码器的编码器，所述变分自编码器的编码器包括两个神经网络，所述两个神经网络分别输出μ和σ，包括：将所述原始样本进行切分，得到多个分词，获取所述多个分词的词向量；根据所述词向量确定所述原始样本对应的向量；将所述原始样本对应的向量输入所述变分自编码器的编码器中进行编码，所述变分自编码器的编码器采用双向LSTM神经网络模型进行编码；所述变分自编码器的编码器编码后输出所述μ和所述σ。

进一步地，所述输入所述采样变量Z到所述变分自编码器的解码器，所述变分自编码器的解码器解码后输出所述原始样本的相似样本，包括：对所述高斯分布的随机数进行随机采样，得到注意力参数；将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器；所述变分自编码器的解码器输出所述原始样本的相似样本。

进一步地，在所述采用双向LSTM神经网络模型进行编码之前，所述方法还包括：训练所述双向LSTM神经网络模型，所述训练所述双向LSTM神经网络模型，包括：获取训练样本，将所述训练样本输入所述变分自编码器的编码器编码后得到训练样本的两个函数σ和μ；定义KL散度，其中，所述KL散度与所述函数σ和所述函数μ存在以下关系，KL＝-0.5*(1+logσ²-μ²-σ²)＝-0.5(1+logσ²-μ²-exp(logσ²))；通过最小化所述KL散度，训练所述双向LSTM神经网络；当所述KL散度取最小值时，确定所述双向LSTM神经网络模型训练完成。

进一步地，所述变分自编码器的解码器为全连接神经网络，在所述输入所述采样变量Z到所述变分自编码器的解码器之前，所述方法还包括：训练所述全连接神经网络，所述训练所述全连接神经网络，包括：获取多个训练样本；将所述多个训练样本输入所述变分自编码器，所述变分自编码器输出所述多个训练样本的多个相似样本；计算所述多个相似样本与多个训练样本之间的差异，即损失函数的值；采用反向传播优化所述变分自编码器的解码器的参数；多次迭代优化所述变分自编码器的解码器的参数，使损失函数的值最小化，得到训练后的所述全连接神经网络。

一方面，本发明实施例提供了一种基于变分自编码器的训练样本数据扩充装置，所述装置包括：获取单元，用于获取原始样本；第一输入单元，用于输入所述原始样本到变分自编码器的编码器，所述变分自编码器的编码器包括两个神经网络，所述两个神经网络分别输出μ和σ，所述μ和所述σ均为所述原始样本的函数；生成单元，用于根据所述μ和所述σ的平方即σ²，生成相应高斯分布的随机数，所述高斯分布的方差为σ²，所述高斯分布的均值为μ；第一采样单元，用于对标准正态分布进行随机采样，得到采样值ε，根据所述采样值ε和所述高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ；第一输出单元，用于输入所述采样变量Z到所述变分自编码器的解码器，所述变分自编码器的解码器解码后输出所述原始样本的相似样本，将所述相似样本作为扩充样本。

进一步地，所述第一输入单元包括：切分模块，用于将所述原始样本进行切分，得到多个分词，获取所述多个分词的词向量；第一确定模块，用于根据所述词向量确定所述原始样本对应的向量；编码模块，用于将所述原始样本对应的向量输入所述变分自编码器的编码器中进行编码，所述变分自编码器的编码器采用双向LSTM神经网络模型进行编码；第一输出模块，用于所述变分自编码器的编码器编码后输出所述μ和所述σ。

进一步地，所述第一输出单元包括：第一采样模块，用于对所述高斯分布的随机数进行随机采样，得到注意力参数；第一输入模块，用于将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器；第二输出模块，用于所述变分自编码器的解码器输出所述原始样本的相似样本。

进一步地，所述装置还包括：第一训练单元，用于在所述编码模块采用双向LSTM神经网络模型进行编码之前，训练所述双向LSTM神经网络模型，所述第一训练单元包括：第一获取模块，用于获取训练样本，将所述训练样本输入所述变分自编码器的编码器编码后得到训练样本的两个函数σ和μ；定义模块，用于定义KL散度，其中，所述KL散度与所述函数σ和所述函数μ存在以下关系，KL＝-0.5*(1+logσ²-μ²-σ²)＝-0.5(1+logσ²-μ²-exp(logσ²))；第一训练模块，用于通过最小化所述KL散度，训练所述双向LSTM神经网络；第二确定模块，用于当所述KL散度取最小值时，确定所述双向LSTM神经网络模型训练完成。

进一步地，所述变分自编码器的解码器为全连接神经网络，所述装置还包括：第二训练单元，用于在所述第一输出单元输入所述采样变量Z到所述变分自编码器的解码器之前，训练所述全连接神经网络，所述第二训练单元包括：第二获取模块，用于获取多个训练样本；第二输入模块，用于将所述多个训练样本输入所述变分自编码器，所述变分自编码器输出所述多个训练样本的多个相似样本；计算模块，用于计算所述多个相似样本与多个训练样本之间的差异，即损失函数的值；优化模块，用于采用反向传播优化所述变分自编码器的解码器的参数；第二训练模块，用于多次迭代优化所述变分自编码器的解码器的参数，使损失函数的值最小化，得到训练后的所述全连接神经网络。

一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于变分自编码器的训练样本数据扩充方法。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的基于变分自编码器的训练样本数据扩充方法的步骤。

在本发明实施例中，获取输入到分类模型的原始样本；输入原始样本到变分自编码器的编码器，变分自编码器的编码器编码后输出方差的对数、均值；根据方差的对数和均值确定采样变量；输入采样变量到变分自编码器的解码器，生成扩充样本，通过变分自编码器训练生成相似的样本，并放入分类模型中扩充样本数量，解决了人工对样本数据进行扩充费时费力、效率低的问题。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本发明实施例一种可选的基于变分自编码器的训练样本数据扩充方法的流程图；

图2是根据本发明实施例一种可选的基于变分自编码器的训练样本数据扩充装置的示意图；

图3是本发明实施例提供的一种可选的计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明实施例提供了一种基于变分自编码器的训练样本数据扩充方法，如图1所示，该方法包括：

步骤S102：获取原始样本。

步骤S104：输入原始样本到变分自编码器的编码器，变分自编码器的编码器包括两个神经网络，两个神经网络分别输出μ和σ，μ和σ均为原始样本的函数。

步骤S106：根据μ和σ的平方即σ²，生成相应高斯分布的随机数，高斯分布的方差为σ²，高斯分布的均值为μ。

步骤S108：对标准正态分布进行随机采样，得到采样值ε，根据采样值ε和高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ。

步骤S110：输入采样变量Z到变分自编码器的解码器，变分自编码器的解码器解码后输出原始样本的相似样本，将相似样本作为扩充样本。

原始样本是分类模型中的问句，是分类模型中的样本数据。

扩充样本与原始样本相似但是不完全一样，是根据原始样本随机生成的相似问。

对标准正态分布N(0，1)进行随机采样，得到采样值ε，然后根据Z＝σ²·ε+μ计算采样变量Z，ε对神经网络而言只是常数，是在采样变量Z中加入的高斯噪声，确保输出和输入相似但不相同，采样变量Z服从N(μ，σ)的分布，作为解码器的输入采样变量加入了随机性的ε，所以生成的扩充样本数据多样性更强。

变分自编码器，是学习低维数据表示的强大模型，由编码器、先验、解码器三部分组成。编码器将输入的样本数据映射到针对该样本数据的代码的分布上，这种分布也被称为后验分布；先验是固定的，通常只是一个零均值和单位方差的正态分布；解码器是一个映射回合理的样本数据的分布，可以重建样本数据或者生成新的样本数据。

可选地，输入原始样本到变分自编码器的编码器，变分自编码器的编码器包括两个神经网络，两个神经网络分别输出μ和σ，包括：将原始样本进行切分，得到多个分词，获取多个分词的词向量；根据词向量确定原始样本对应的向量；将原始样本对应的向量输入变分自编码器的编码器中进行编码，变分自编码器的编码器采用双向LSTM神经网络模型进行编码；变分自编码器的编码器编码后输出μ和σ。

双向LSTM神经网络是基于RNN的改进，是一种时间递归神经网络。双向卷积神经网络的隐藏层要保存两个值，A参与正向计算，A'参与反向计算，最终的输出值取决于A和A'，A为参与正向计算时的序列数据，A'为参与反向计算时的序列数据。即正向计算时，隐藏层的Z_t与Z_t-1有关，反向计算时，隐藏层的Z_t与Z_t+1有关，Z为隐藏层的序列数据，Z_t为序列数据的第t个数据，Z_t-1为序列数据的第t-1个数据，Z_t+1为序列数据的第t+1个数据。例如：我今天不舒服，打算_一天，如果只根据前面的“不舒服”，可能推测出“打算”后为“去医院”、“休息”、“请假”等词，但是如果加上后面的“一天”，选择范围就小了，就排除了“去医院”，而“休息”、“请假”之类的选择概率会更大。选择双向的LSTM进行编码，提高了编码的精确度。

变分自编码器的编码器包括两个神经网络，两个神经网络均为双向LSTM神经网络，将原始样本进行切分得到多个分词，获取多个分词对应的词向量后，可采用向量相加的方法确定原始样本的向量，分别将原始样本的向量输入变分自编码器的编码器中的两个神经网络进行编码，两个神经网络输出原始样本的向量有关的两个函数。例如：原始样本的向量为X，则将X输入变分自编码器的编码器的两个神经网络后，两个神经网络输出关于X的两个函数μ(X)和σ(X)。

可选地，在采用双向LSTM神经网络模型进行编码之前，方法还包括：训练双向LSTM神经网络模型，训练双向LSTM神经网络模型，包括：获取训练样本，将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ；定义KL散度，其中，KL散度与函数σ和函数μ存在以下关系，KL＝-0.5*(1+logσ²-μ²-σ²)＝-0.5(1+logσ²-μ²-exp(logσ²))；通过最小化KL散度，训练双向LSTM神经网络；当KL散度取最小值时，确定双向LSTM神经网络模型训练完成。

在将原始样本数据输入变分自编码器之前，需要对变分自编码器的编码器的神经网络进行训练，也可以在获取原始样本之前对神经网络进行训练，神经网络是基于KL散度进行训练的，KL散度用于比较两个概率分布的近似程度，两个概率分布越相似，KL散度越小，交叉熵越小。KL散度用来衡量近似分布带来的信息损失，通过最小化KL散度来训练双向LSTM神经网络，降低编码后近似分布时的信息损失。

可选地，输入采样变量Z到变分自编码器的解码器，变分自编码器的解码器解码后输出原始样本的相似样本，包括：对高斯分布的随机数进行随机采样，得到注意力参数；将注意力参数和采样变量Z输入变分自编码器的解码器；变分自编码器的解码器输出原始样本的相似样本。

注意力参数是对编码器输出的后验分布随机进行采样得到的，使用注意力参数计算交叉熵损失KL，通过使交叉熵损失KL的值最小化，从后验分布中得到注意力参数，将得到的注意力参数与采样变量同时输入解码器，可以使解码器得到更准确的注意力信号，从而提高了变分自编码器模型的表达能力。

可选地，变分自编码器的解码器为全连接神经网络，在输入采样变量Z到变分自编码器的解码器之前，方法还包括：训练全连接神经网络，训练全连接神经网络，包括：获取多个训练样本；将多个训练样本输入变分自编码器，变分自编码器输出多个训练样本的多个相似样本；计算多个相似样本与多个训练样本之间的差异，即损失函数的值；采用反向传播优化变分自编码器的解码器的参数；多次迭代优化变分自编码器的解码器的参数，使损失函数的值最小化，得到训练后的全连接神经网络。

作为一种可选的实施方式，基于损失函数的值训练解码器的全连接神经网络，具体步骤为：初始化全连接神经网络的参数，采用随机梯度下降法对全连接神经网络进行迭代训练，每迭代一次计算一次损失函数的值，迭代多次后损失函数的值达到最小，得到训练完成后的全连接神经网络和收敛的参数。

具体的计算损失函数的表达式可以为：

Loss表示损失函数的值，N表示输入全连接神经网络的数据的数量，y⁽ⁱ⁾表示输入全连接神经网络的第i个数据，表示将第i个数据输入时全连接神经网络之后输出的数据。

可选地，变分自编码器的解码器采用的算法可以为以下任意一种：beam search或者greedy。

beam search是一种启发式搜索，在优化领域，其属于一种最佳优先算法，其会将所有可能的解依据启发式规则进行排序，该规则用来衡量得到的解与目标解到底有多接近。beam search是使用宽度优先搜索来构建它的搜索树。在每一层，其都会生成一系列的解，然后对这些解进行排序，选择最好的K个解作为候选解，这里的K称为集束宽度。只有被选中的这些解可以向下继续扩展下去。

greedy算法又称为贪婪算法，采用逐步构造最优解的方法。在每个阶段，都作出一个看上去最优的决策，决策一旦作出，就不可再更改。作出贪婪决策的依据称为贪婪准则，也就是从问题的某一个初始解出发逐步逼近给定的目标，以尽可能快的地求得更好的解。当达到某算法中的某一步不能再继续前进时，算法停止。

可选地，获取原始样本，包括：获取分类模型中样本数量较少的分类中的原始样本，或者获取分类模型中所有的原始样本。

对于分类模型中分类个数较少的情况下，可以选择样本数量少的分类进行单独训练，但是对于分类模型中的分类较多的情况，对分类进行单独训练效率较低，通过设置分类模型中分类中样本个数，获取分类模型中所有样本进行训练的方法，可以提高扩充样本数据的效率。

本发明实施例提供了一种基于变分自编码器的训练样本数据扩充装置，该装置用于执行上述基于变分自编码器的训练样本数据扩充方法，如图2所示，该装置包括：获取单元10、第一输入单元20、生成单元30、第一采样单元40、第一输出单元50。

获取单元10，用于获取原始样本。

第一输入单元20，用于输入原始样本到变分自编码器的编码器，变分自编码器的编码器包括两个神经网络，两个神经网络分别输出μ和σ，μ和σ均为原始样本的函数。

生成单元30，用于根据μ和σ的平方即σ²，生成相应高斯分布的随机数，高斯分布的方差为σ²，高斯分布的均值为μ。

第一采样单元40，用于对标准正态分布进行随机采样，得到采样值ε，根据采样值ε和高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ。

第一输出单元50，用于输入采样变量Z到变分自编码器的解码器，变分自编码器的解码器解码后输出原始样本的相似样本，将相似样本作为扩充样本。

原始样本是分类模型中的问句，是分类模型中的样本数据。

可选地，第一输入单元20包括：切分模块、第一确定模块、编码模块、第一输出模块。切分模块，用于将原始样本进行切分，得到多个分词，获取多个分词的词向量。第一确定模块，用于根据词向量确定原始样本对应的向量。编码模块，用于将原始样本对应的向量输入变分自编码器的编码器中进行编码，变分自编码器的编码器采用双向LSTM神经网络模型进行编码。第一输出模块，用于变分自编码器的编码器编码后输出μ和σ。

可选地，装置还包括：第一训练单元。第一训练单元，用于在编码模块采用双向LSTM神经网络模型进行编码之前，训练双向LSTM神经网络模型。第一训练单元包括：第一获取模块、定义模块、第一训练模块、第二确定模块。第一获取模块，用于获取训练样本，将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ。定义模块，用于定义KL散度，其中，KL散度与函数σ和函数μ存在以下关系，KL＝-0.5*(1+logσ²-μ²-σ²)＝-0.5(1+logσ²-μ²-exp(logσ²))。第一训练模块，用于通过最小化KL散度，训练双向LSTM神经网络。第二确定模块，用于当KL散度取最小值时，确定双向LSTM神经网络模型训练完成。

可选地，第一输出单元50包括：第一采样模块、第一输入模块、第二输出模块。第一采样模块，用于对高斯分布的随机数进行随机采样，得到注意力参数。第一输入模块，用于将注意力参数和采样变量Z输入变分自编码器的解码器。第二输出模块，用于变分自编码器的解码器输出原始样本的相似样本。

可选地，变分自编码器的解码器为全连接神经网络，装置还包括：第二训练单元。第二训练单元，用于在第一输出单元50输入采样变量Z到变分自编码器的解码器之前，训练全连接神经网络。第二训练单元包括：第二获取模块、第二输入模块、计算模块、优化模块、第二训练模块。第二获取模块，用于获取多个训练样本。第二输入模块，用于将多个训练样本输入变分自编码器，变分自编码器输出多个训练样本的多个相似样本。计算模块，用于计算多个相似样本与多个训练样本之间的差异，即损失函数的值。优化模块，用于采用反向传播优化变分自编码器的解码器的参数。第二训练模块，用于多次迭代优化变分自编码器的解码器的参数，使损失函数的值最小化，得到训练后的全连接神经网络。

可选地，获取单元10包括：第三获取模块或者第四获取模块。第三获取模块，用于获取分类模型中样本数量较少的分类中的原始样本，或者，第四获取模块，用于获取分类模型中所有的原始样本。

一方面，本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取原始样本；输入原始样本到变分自编码器的编码器，变分自编码器的编码器包括两个神经网络，两个神经网络分别输出μ和σ，μ和σ均为原始样本的函数；根据μ和σ的平方即σ²，生成相应高斯分布的随机数，高斯分布的方差为σ²，高斯分布的均值为μ；对标准正态分布进行随机采样，得到采样值ε，根据采样值ε和高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ；输入采样变量Z到变分自编码器的解码器，变分自编码器的解码器解码后输出原始样本的相似样本，将相似样本作为扩充样本。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：将原始样本进行切分，得到多个分词，获取多个分词的词向量；根据词向量确定原始样本对应的向量；将原始样本对应的向量输入变分自编码器的编码器中进行编码，变分自编码器的编码器采用双向LSTM神经网络模型进行编码；变分自编码器的编码器编码后输出μ和σ。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：在采用双向LSTM神经网络模型进行编码之前，训练双向LSTM神经网络模型，训练双向LSTM神经网络模型，包括：获取训练样本，将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ；定义KL散度，其中，KL散度与函数σ和函数μ存在以下关系，KL＝-0.5*(1+logσ²-μ²-σ²)＝-0.5(1+logσ²-μ²-exp(logσ²))；通过最小化KL散度，训练双向LSTM神经网络；当KL散度取最小值时，确定双向LSTM神经网络模型训练完成。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：对高斯分布的随机数进行随机采样，得到注意力参数；将注意力参数和采样变量Z输入变分自编码器的解码器；变分自编码器的解码器输出原始样本的相似样本。

可选地，变分自编码器的解码器为全连接神经网络，在程序运行时控制存储介质所在设备还执行以下步骤：在输入采样变量Z到变分自编码器的解码器之前，训练全连接神经网络，训练全连接神经网络，包括：获取多个训练样本；将多个训练样本输入变分自编码器，变分自编码器输出多个训练样本的多个相似样本；计算多个相似样本与多个训练样本之间的差异，即损失函数的值；采用反向传播优化变分自编码器的解码器的参数；多次迭代优化变分自编码器的解码器的参数，使损失函数的值最小化，得到训练后的全连接神经网络。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：获取原始样本；输入原始样本到变分自编码器的编码器，变分自编码器的编码器包括两个神经网络，两个神经网络分别输出μ和σ，μ和σ均为原始样本的函数；根据μ和σ的平方即σ²，生成相应高斯分布的随机数，高斯分布的方差为σ²，高斯分布的均值为μ；对标准正态分布进行随机采样，得到采样值ε，根据采样值ε和高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ；输入采样变量Z到变分自编码器的解码器，变分自编码器的解码器解码后输出原始样本的相似样本，将相似样本作为扩充样本。

可选地，程序指令被处理器加载并执行时还实现以下步骤：将原始样本进行切分，得到多个分词，获取多个分词的词向量；根据词向量确定原始样本对应的向量；将原始样本对应的向量输入变分自编码器的编码器中进行编码，变分自编码器的编码器采用双向LSTM神经网络模型进行编码；变分自编码器的编码器编码后输出μ和σ。

可选地，程序指令被处理器加载并执行时还实现以下步骤：在采用双向LSTM神经网络模型进行编码之前，训练双向LSTM神经网络模型，训练双向LSTM神经网络模型，包括：获取训练样本，将训练样本输入变分自编码器的编码器编码后得到训练样本的两个函数σ和μ；定义KL散度，其中，KL散度与函数σ和函数μ存在以下关系，KL＝-0.5*(1+logσ²-μ²-σ²)＝-0.5(1+logσ²-μ²-exp(logσ²))；通过最小化KL散度，训练双向LSTM神经网络；当KL散度取最小值时，确定双向LSTM神经网络模型训练完成。

可选地，程序指令被处理器加载并执行时还实现以下步骤：对高斯分布的随机数进行随机采样，得到注意力参数；将注意力参数和采样变量Z输入变分自编码器的解码器；变分自编码器的解码器输出原始样本的相似样本。

可选地，变分自编码器的解码器为全连接神经网络，程序指令被处理器加载并执行时还实现以下步骤：在输入采样变量Z到变分自编码器的解码器之前，训练全连接神经网络，训练全连接神经网络，包括：获取多个训练样本；将多个训练样本输入变分自编码器，变分自编码器输出多个训练样本的多个相似样本；计算多个相似样本与多个训练样本之间的差异，即损失函数的值；采用反向传播优化变分自编码器的解码器的参数；多次迭代优化变分自编码器的解码器的参数，使损失函数的值最小化，得到训练后的全连接神经网络。

图3是本发明实施例提供的一种计算机设备的示意图。如图3所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的基于变分自编码器的训练样本数据扩充方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中基于变分自编码器的训练样本数据扩充装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图3仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于变分自编码器的训练样本数据扩充方法，其特征在于，所述方法包括：

获取原始样本；

输入所述原始样本到变分自编码器的编码器，所述变分自编码器的编码器包括两个神经网络，所述两个神经网络分别输出μ和σ，所述μ和所述σ均为所述原始样本的函数；

根据所述μ和所述σ的平方即σ²，生成相应高斯分布的随机数，所述高斯分布的方差为σ²，所述高斯分布的均值为μ；

对标准正态分布进行随机采样，得到采样值ε，根据所述采样值ε和所述高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ；

输入所述采样变量Z到所述变分自编码器的解码器，所述变分自编码器的解码器解码后输出所述原始样本的相似样本，将所述相似样本作为扩充样本。

2.根据权利要求1所述的方法，其特征在于，所述输入所述原始样本到变分自编码器的编码器，所述变分自编码器的编码器包括两个神经网络，所述两个神经网络分别输出μ和σ，包括：

将所述原始样本进行切分，得到多个分词，获取所述多个分词的词向量；

根据所述词向量确定所述原始样本对应的向量；

将所述原始样本对应的向量输入所述变分自编码器的编码器中进行编码，所述变分自编码器的编码器采用双向LSTM神经网络模型进行编码；

所述变分自编码器的编码器编码后输出所述μ和所述σ。

3.根据权利要求1所述的方法，其特征在于，所述输入所述采样变量Z到所述变分自编码器的解码器，所述变分自编码器的解码器解码后输出所述原始样本的相似样本，包括：

对所述高斯分布的随机数进行随机采样，得到注意力参数；

将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器；

所述变分自编码器的解码器输出所述原始样本的相似样本。

4.根据权利要求2所述的方法，其特征在于，在所述采用双向LSTM神经网络模型进行编码之前，所述方法还包括：训练所述双向LSTM神经网络模型，

所述训练所述双向LSTM神经网络模型，包括：

获取训练样本，将所述训练样本输入所述变分自编码器的编码器编码后得到训练样本的两个函数σ和μ；

定义KL散度，其中，所述KL散度与所述函数σ和所述函数μ存在以下关系，KL＝-0.5*(1+logσ²-μ²-σ²)＝-0.5(1+logσ²-μ²-exp(logσ²))；

通过最小化所述KL散度，训练所述双向LSTM神经网络；

当所述KL散度取最小值时，确定所述双向LSTM神经网络模型训练完成。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述变分自编码器的解码器为全连接神经网络，在所述输入所述采样变量Z到所述变分自编码器的解码器之前，所述方法还包括：训练所述全连接神经网络，

所述训练所述全连接神经网络，包括：

获取多个训练样本；

将所述多个训练样本输入所述变分自编码器，所述变分自编码器输出所述多个训练样本的多个相似样本；

计算所述多个相似样本与多个训练样本之间的差异，即损失函数的值；

采用反向传播优化所述变分自编码器的解码器的参数；

多次迭代优化所述变分自编码器的解码器的参数，使损失函数的值最小化，得到训练后的所述全连接神经网络。

6.一种基于变分自编码器的训练样本数据扩充装置，其特征在于，所述装置包括：

获取单元，用于获取原始样本；

第一输入单元，用于输入所述原始样本到变分自编码器的编码器，所述变分自编码器的编码器包括两个神经网络，所述两个神经网络分别输出μ和σ，所述μ和所述σ均为所述原始样本的函数；

生成单元，用于根据所述μ和所述σ的平方即σ²，生成相应高斯分布的随机数，所述高斯分布的方差为σ²，所述高斯分布的均值为μ；

第一采样单元，用于对标准正态分布进行随机采样，得到采样值ε，根据所述采样值ε和所述高斯分布的随机数，确定采样变量Z，Z＝σ²·ε+μ；

第一输出单元，用于输入所述采样变量Z到所述变分自编码器的解码器，所述变分自编码器的解码器解码后输出所述原始样本的相似样本，将所述相似样本作为扩充样本。

7.根据权利要求6所述的装置，其特征在于，所述第一输入单元包括：

切分模块，用于将所述原始样本进行切分，得到多个分词，获取所述多个分词的词向量；

第一确定模块，用于根据所述词向量确定所述原始样本对应的向量；

编码模块，用于将所述原始样本对应的向量输入所述变分自编码器的编码器中进行编码，所述变分自编码器的编码器采用双向LSTM神经网络模型进行编码；

第一输出模块，用于所述变分自编码器的编码器编码后输出所述μ和所述σ。

8.根据权利要求6所述的装置，其特征在于，所述第一输出单元包括：

第一采样模块，用于对所述高斯分布的随机数进行随机采样，得到注意力参数；

第一输入模块，用于将所述注意力参数和所述采样变量Z输入所述变分自编码器的解码器；

第二输出模块，用于所述变分自编码器的解码器输出所述原始样本的相似样本。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的基于变分自编码器的训练样本数据扩充方法。

10.一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至5任意一项所述的基于变分自编码器的训练样本数据扩充方法的步骤。