WO2022141842A1

WO2022141842A1 - 基于深度学习的语音训练方法、装置、设备以及存储介质

Info

Publication number: WO2022141842A1
Application number: PCT/CN2021/083233
Authority: WO
Inventors: 孙奥兰; 王健宗; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-29
Filing date: 2021-03-26
Publication date: 2022-07-07
Also published as: CN112735389A

Abstract

提供了一种基于深度学习的语音训练方法、装置、计算机设备以及存储介质，应用于人工智能技术领域，提供通过教师-学生神经网络训练语音合成模型的方法，能够高效、快速、低资源消耗、低训练语音合成模型。方法包括：对第一音素序列进行编码得到第一音素编码值（S101）；对第一音素编码值进行时长预测处理得到第一发音时长预测值（S102）；对第一音素序列中的每个音素进行扩展处理，得到第一音素序列中的每个音素的扩展特征（S103）；将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值（S104）；通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练，训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络（S105）。

Description

基于深度学习的语音训练方法、装置、设备以及存储介质

本申请要求于2020年12月29日提交中国专利局、申请号为202011593537.5，发明名称为“基于深度学习的语音训练方法、装置、设备以及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，并且涉及语音处理技术领域，尤其涉及一种基于深度学习的语音训练方法、装置、计算机设备以及存储介质。

背景技术

现有的基于深度学习的语音合成技术，大多数基于序列-到-序列(seq2seq)的方案，如Tacotron2，相较于传统的统计参数模型算法，给语音合成的效果带来显著的提升。发明人意识到，相对来说，序列-到-序列的模型***训练，需要大量的的训练数据集以及计算资源来进行模型的学习，且在推理阶段也很难做到高效率的语音合成。一些***尝试在序列-到-序列的模型基础上，用不同的模型结构的技巧来降低计算资源上的压力，例如通过在编码-解码阶段采用卷积神经网络，这个模型能够快速的训练，但是问题是仍旧需要序列推理，这个相对来说推理效率还是比较低的。为了避免序列化的推理阶段，一些模型采用了自注意力机制，来并行化频谱生成的结构，但是注意力层的训练阶段是十分困难并且耗时的，目前为止缺乏一种能够同时做到高效训练、高效推理和高品质的语音合成模型。

发明内容

本申请实施例提供一种基于深度学习的语音训练方法、装置、计算机设备以及存储介质，以解决目前缺乏一种能够同时做到高效训练，高效推理和高品质的语音合成模型的技术问题。

在本申请的一个方面，提供了一种基于深度学习的语音训练方法，包括以下步骤：

对第一音素序列进行编码，得到第一音素编码值；

对第一音素编码值进行时长预测处理，得到第一发音时长预测值；

基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理，得到第一音素序列中的每个音素的扩展特征；

将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；

通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练，训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络。

在本申请的另一个方面，提供了一种基于深度学习的语音训练装置，包括以下模块：

第一音素编码模块，用于对第一音素序列进行编码，得到第一音素编码值；

时长预测处理模块，用于对第一音素编码值进行时长预测处理，得到第一发音时长预测值；

扩展处理模块，用于基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理，得到第一音素序列中的每个音素的扩展特征；

第一梅尔频谱值变换模块，用于将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；

学生神经网络训练模块，用于通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练，训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络。

在本申请的另一个方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

对第一音素序列进行编码，得到第一音素编码值；

通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练，训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络。在本申请的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

对第一音素序列进行编码，得到第一音素编码值；

本申请提供的基于深度学习的语音训练方法、装置、计算机设备以及存储介质能够解决目前缺乏一种能够同时做到高效训练，高效推理和高品质的语音合成模型的技术问题。具体地，将用于学生神经网络训练的样本数据同时输入到一个预先训练好的教师神经网络，并且由上述教师神经网络提供隐变量以及参考的梅尔频谱值并监督学生神经网络的机器学习过程，以提高训练和推理效率，并且降低对于硬件资源的需求，同时又尽可能的保持良好的训练效果。通过本申请提供的教师-学生神经网络的深度学习模型，由于教师神经网络已经预先训练好，因此占用的***资源并不多，同时学生神经网络的结构较为简单，训练时占用的***资源也不多，因此能够在单GPU资源上进行训练，并且训练好的学生神经网络由于结构较为简单，可以在CPU上进行实时合成语音，该***的优势可以在多种语音合成场景进行快速的落地应用，以提供端到端的语音合成方案。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例中基于深度学习的语音训练方法的应用环境示意图；

图2是本申请一个实施例中基于深度学习的语音训练方法的流程图；

图3是本申请一个实施例中基于深度学习的语音训练方法中教师神经网络的训练方法的流程图；

图4是本申请一个实施例中基于深度学习的语音训练方法中生成隐变量的方法的流程图；

图5是本申请一个实施例中基于深度学习的语音训练方装置的结构示意图；

图6是本申请一个实施例中计算机设备的一个示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在一个具体的实施例中，如图所示，提供一种基于深度学习的语音训练方法，是通过一个训练好的教师神经网络对一个学生神经网络进行监督训练，上述学生网络包括音素编码器、发音时长预测器以及解码器。具体地，对学生神经网络的训练包括以下步骤：

S101：对第一音素序列进行编码，得到第一音素编码值。

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，将单个词分解为多个音节，进而将每个音节分解为对应的多个音素。进一步例如，对于词序列“平安”，其对应的音节有两个，分别为“ping”和“an”；可将音节“ping”进一步分解为音素“p”和“ing”，将音素“an”进一步分解为音素“a”和“n”。在本申请实施例中，在中文中，一个汉字对应一个音节；在英文中，一个单词对应一个音节，其他语言类似。

第一音素序列是用于训练学生神经网络的音素序列，需要进行对其编码得到第一音素编码值，具体是将第一音素序列变换压缩到一个固定长度的向量。具体地，是通过学生神经网络中的音素编码器对第一音素序列进行变换压缩。上述音素编码器具有四层结构：第一层包括嵌入层(Embedding Layer)、全连接层(Fully Connected Layer)、线性整流函数(ReLU，Rectified Linear Unit)；第二层包括一维卷积神经网络层(CNN，Convolutional Neural Networks)；第三层包括线性整流单元；第四层包括批标准化(Batch Normalization)。

S102：对第一音素编码值进行时长预测处理，得到第一发音时长预测值。

根据编码后的第一音素编码值，通过学生神经网络的发音时长预测器，以预测出第一音素编码值中的各个音素的发音时长。具体地，发音时长预测器具有三层结构：第一层包括一维卷积神经网络层；第二层包括线性整流层；第三层包括批标准化层。

S103：基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理，得到第一音素序列中的每个音素的扩展特征。

对每个音素的扩展特征进行声学特征预测处理，得到每个音素的声学特征，将每个音素的声学特征合成为文本声学特征，可以采用如下方式实现：确定每个音素的扩展特征对应的上下文特征；对每个音素的扩展特征对应的上下文特征进行线性变换，得到每个音素的声学特征；将每个音素的声学特征按照每个音素在目标文本中的顺序进行拼接，得到声学特征。

在一个具体的实施例中，根据训练好的教师神经网络从与第一音素序列对应的梅尔频谱真实值抽取的声学特征对第一音素序列中的每个音素进行扩展处理，得到第一音素序列中的每个音素的扩展特征。

教师神经网络从输入的第一音素编码值以及第一音素序列对应的梅尔频谱真实值中抽取真实语言中的每个音素的扩展特征，作为第一音素序列中的每个音素的扩展特征。

S104：将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值。

由于人耳对声音的感知是非线性的，为了模拟人耳听觉对实际频率的敏感程度，常常在线性频谱图中加上梅尔滤波函数转换为非线性的梅尔频谱。

将第一音素序列中的每个音素的扩展特征输入到通过学生神经网络的解码器，将其变换为第一梅尔频谱值。具体的，学生神经网络的解码器具有三层结构：第一层包括一维卷积神经网络层；第二层包括线性整流层；第三层包括批标准化层。解码器之后还包括一个线性层。

S105：通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练，训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络。

教师-学生神经网络的训练方法，属于机器学习中的迁移学习的一种。迁移学习是将一个训练好的模型的能够实现的性能迁移到另一个模型上，后者相对于前者具有相对简单的结构，而对于教师-学生神经网络，教师神经网络往往是一个更加复杂的网络，具有较好的性能和泛用性，但是在训练该教师神经网络需要使用更多的***资源，因此为了节省训练所需要的***资源，可以用训练好的教师神经网络提供一个软目标(soft target)来指导另外一个结构更加简单、消耗***资源更加少的的学生神经网络来学习，使得结构简单、参数运算量少的学生神经模型也能够通过训练而获得和教师网络相近的性能。

用于训练学生神经网络的第一音素序列以及与第一音素序列对应的梅尔频谱真实值也输入预先训练好的教师神经网络，教师神经网络可以向学生神经网络输出隐变量以及由教师神经网络根据第一音素序列生成的梅尔频谱值，作为评估学生神经网络的训练效果。训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络。

在一个具体的实施例中，上述用于评估学生神经网络训练效果的第一损失函数是梅尔频谱值和梅尔频谱预测值之间的均值绝对误差和：

其中f _i是教师神经网络根据第一音素序列生成的梅尔频谱值，g _i是学生神经网络根据第一音素序列生成的梅尔频谱值；

或，第一损失函数是Huber损失函数：

其中，y是是教师神经网络根据第一音素序列生成的梅尔频谱值，f(x)是学生神经网络根据第一音素序列生成的梅尔频谱值，δ是训练开始前根据预期的训练效果而预设的超参数。

在一个具体的实施例中，基于深度学习的语音训练方法在步骤S105之后，还包括：

S111：将训练好的学生神经网络连接到一个预训练好的声码器；

S112：通过训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值；

S113：通过声码器将梅尔频谱值转换为语音。

上述声码器是一种能够将梅尔频谱值转换成人耳能够识别的语音的神经网络，声码器可以选用现有的WaveNET、MelGAN、WaveGlow等的现有的神经网络，将其预先训练好之后，接收训练好的学生神经网络所输出的梅尔频谱值，并且将其转换为语音。在一个优选的实施例中，优选更加轻量、速度更快的MelGAN作为声码器。

本申请提供的基于深度学习的语音训练方法、装置、计算机设备以及存储介质将用于学生神经网络训练的样本数据同时输入到一个预先训练好的教师神经网络，并且由上述教师神经网络提供隐变量以及参考的梅尔频谱值并监督学生神经网络的机器学习过程，以提高训练和推理效率，并且降低对于硬件资源的需求，同时又尽可能的保持良好的训练效果。通过本申请提供的教师-学生神经网络的深度学习模型，由于教师神经网络已经预先训练好，因此占用的***资源并不多，同时学生神经网络的结构较为简单，训练时占用的***资源也不多，因此能够在单GPU资源上进行训练，并且训练好的学生神经网络由于结构较为简单，可以在CPU上进行实时合成语音，该***的优势可以在多种语音合成场景进行快速的落地应用，以提供端到端的语音合成方案。

在另一个具体的实施例中，提供了对用于监督训练学生神经网络的教师神经网络进行预先训练的方法，上述教师神经网络包括音素编码器、频谱编码器、注意力处理机制以及解码器。具体地，预先训练教师神经网络的步骤包括：

S201：对第二音素序列进行编码，得到第二音素键编码值。

第二音素序列是用于训练教师神经网络的音素序列，需要进行对其编码得到第二音素编码值，具体地，是通过教师神经网络中的音素编码器对第二音素序列进行变换压缩。上述音素编码器具有四层结构：第一层包括个嵌入层；第二层包括全连接层；第三层包括线性整流函数；第四层包括N层门控残差(Residual Gated)结构和空洞残差卷积网络。

S202：对与第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值。

教师神经网络还具有频谱编码器，该频谱编码器提供了频谱帧的上下文编码，将之前的频谱帧考虑在内。频谱编码器包括全连接层、线性整流函数以及N层门控残差结构。首先，全连接层和线性整流函数被应用到输入频谱的每一帧。这个编码结果输入到N层门控残差结构和细粒度更高的门控残差网络。教师神经网络所输入与第二音素序列对应的真实梅尔频谱值在输入时向左偏移一个位置，模型就可以被用于根据当前输入的音素和之前的频谱帧预测下一个频谱帧。

S203：对第二音素编码值以及第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的第二音素编码值以及第二梅尔频谱编码值。

注意力机制采用了点积注意力机制，其中的第二音素编码值包括音素编码器的输出、以及音素编码器的输出和音素编码的和。第二梅尔频谱编码值是频谱编码器的输出。注意力分数是音素编码器的输出和音素编码向量和的加权均值，权重是音素编码器的输出和音素编码的和以及频谱编码器的输出的匹配值。这种方式的话，模型会倾向于选择相关于下一个频谱帧的音素。

S204：注意力加和的第二素编码值以及第二梅尔频谱真实编码值变换为第二梅尔频谱值。

教师神经网络的解码器的输入是编码器的输出和注意力分数加和，再依次通过N层门控残差卷积网络以及带有线性整流函数的卷积层来获得正确数量的通道，并且最后输入一个S型生长曲线(sigmoid)预测层以获取预测的频谱值。

S205：根据与第二音素序列对应的真实梅尔频谱值和第二梅尔频谱值对教师神经网络进行自训练，直至教师神经网络的第二损失函数收敛，得到训练好的教师神经网络。

教师网络使用根据第二音素序列生成的第二梅尔频谱值以及与第二音素序列对应的真实梅尔频谱值作为训练数据进行自训练，直至第二损失函数收敛。

在一个具体的实施例中，上述用于评估教师神经网络自训练效果的第二损失函数是与第二音素序列对应的真实梅尔频谱值和第二梅尔频谱值之间的均值绝对误差和：

其中f _i是与第二音素序列对应的真实梅尔频谱值，g _i是教师神经网络根据第二音素序列生成的梅尔频谱值。

在另一个具体的实施例中，预先训练好的教师神经网络生成隐变量的步骤包括：

S301：训练好的教师神经网络对第一音素序列进行编码，得到第三音素键编码值；

S302：训练好的教师神经网络对与第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码，得到第三梅尔频谱编码值；

S303：训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理，得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值；

S304：将注意力加和的第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值；

S305：通过训练好的教师神经网络将注意力加和的第三音素编码值以及第三梅尔频谱真实编码值、第三梅尔频谱值作为隐变量输出到学生神经网络。

上述步骤S301-304与预先训练教师神经网络的步骤S201-204相似，区别在于输入的是用于训练学生神经网络的第一音素序列以及第一音素序列对应的梅尔频谱真实值，其他与预先训练教师神经网络的步骤相同，在此不在赘述。

上述步骤S305是将输入第一音素序列以及第一音素序列对应的梅尔频谱真实值转换为注意力加和的第三音素编码值以及第三梅尔频谱真实编码值、第三梅尔频谱值作为隐变量输出到学生神经网络。上述隐变量是用于向一个结构更加简单的学生神经网络提供一个软目标(soft target)以指导该学生神经网络进行学习，以提高学习速度以及效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在另一个实施例中，提供一种基于深度学习的语音训练装置100，该基于深度学习的语音训练装置与上述实施例中基于深度学习的语音训练方法一一对应。包括以下模块：第一音素编码模块101、时长预测处理模块102、扩展处理模块103、第一梅尔频谱值变换模块104、学生神经网络训练模块105。

第一音素编码模块101，用于对第一音素序列进行编码，得到第一音素编码值；

时长预测处理模块102，用于对第一音素编码值进行时长预测处理，得到第一发音时长预测值；

扩展处理模块103，用于基于第一发音时长预测值对第一音素序列中的每个音素进行扩展处理，得到第一音素序列中的每个音素的扩展特征；

第一梅尔频谱值变换模块104，用于将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；

学生神经网络训练模块105，用于通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练，训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络。

在另一个实施例中，基于深度学习的语音训练装置中的教师神经网络包括以下模块：

第二音素编码模块，用于对第二音素序列进行编码，得到第二音素键编码值；

第二梅尔频谱编码模块，用于对与第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值；

注意力机制处理模块，用于对第二音素编码值以及第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的第二音素编码值以及第二梅尔频谱编码值；

第二梅尔频谱值变换模块，用于将注意力加和的第二素编码值以及第二梅尔频谱真实编码值变换为第二梅尔频谱值；

教师神经网络自训练模块，用于根据与第二音素序列对应的真实梅尔频谱和第二梅尔频谱对所述教师神经网络进行自训练，直至教师神经网络的第二损失函数收敛，得到训练好的教师神经网络。

在另一个具体的实施例中，基于深度学习的语音训练装置中的学生神经网络训练模块105，还包括：

第三音素编码单元，用于训练好的教师神经网络对第一音素序列进行编码，得到第三音素键编码值；

第三梅尔频谱编码单元，用于训练好的教师神经网络对与第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码，得到第三梅尔频谱编码值；

注意力机制处理单元，所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理，得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值；

第三梅尔频谱值变换单元，用于将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值；

隐变量输出单元，用于通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。

在另一个具体的实施例中，第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和；或，所述第一损失函数选用Huber损失函数。

在另一个具体的实施例中，扩展处理模块103具体用于根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征。

在另一个具体的实施例中，基于深度学习的语音训练装置100还包括：

声码器连接模块，用于将所述训练好的学生神经网络连接到一个预训练好的声码器；

输入音素序列转换模块，用于通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值；

语言输出模块，用于通过所述声码器将所述梅尔频谱值转换为语音。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于基于深度学习的语音训练装置的具体限定可以参见上文中对于基于深度学习的语音训练方法的限定，在此不再赘述。上述基于深度学习的语音训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或者工作站，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于深度学习的语音训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的语音训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于深度学习的语音训练方法的步骤，例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中基于深度学习的语音训练装置的各模块/单元的功能，例如图5所示模块101至模块105的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于深度学习的语音训练方法的步骤，例如图2所示的步骤101至步骤105及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中基于深度学习的语音训练装置的各模块/单元的功能，例如图5所示模块101至模块105的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等，所述计算机可读存储介质可以是非易失性，也可以是易失性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于深度学习的语音训练方法，其中，包括以下步骤：

对第一音素序列进行编码，得到第一音素编码值；

对所述第一音素编码值进行时长预测处理，得到第一发音时长预测值；

基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征；

将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；

通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络。
根据权利要求1所述的基于深度学习的语音训练方法，其中，训练所述教师神经网络的步骤包括：

对第二音素序列进行编码，得到第二音素键编码值；

对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值；

对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值；

将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值；

根据与所述第二音素序列对应的真实梅尔频谱值和所述第二梅尔频谱值对所述教师神经网络进行自训练，直至所述教师神经网络的第二损失函数收敛，得到训练好的所述教师神经网络。
根据权利要求2所述的基于深度学习的语音训练方法，其中，在所述通过预先训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤中，还包括：

所述训练好的教师神经网络对所述第一音素序列进行编码，得到第三音素键编码值；

所述训练好的教师神经网络对与所述第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码，得到第三梅尔频谱编码值；

所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理，得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值；

将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值；

通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。
根据权利要求3所述的基于深度学习的语音训练方法，其中：

所述第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和；

或，所述第一损失函数选用Huber损失函数。
根据权利要求3所述的基于深度学习的语音训练方法，其中，所述基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征的步骤具体包括：

根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征。
根据权利要求1所述的基于深度学习的语音训练方法，其中，所述通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤之后，还包括：

将所述训练好的学生神经网络连接到一个预训练好的声码器；

通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值；

通过所述声码器将所述梅尔频谱值转换为语音。
一种基于深度学习的语音训练装置，其中，包括以下模块：

第一音素编码模块，用于对第一音素序列进行编码，得到第一音素编码值；

时长预测处理模块，用于对所述第一音素编码值进行时长预测处理，得到第一发音时长预测值；

扩展处理模块，用于基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征；

第一梅尔频谱值变换模块，用于将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；

学生神经网络训练模块，用于通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络。
根据权利要求7所述的基于深度学习的语音训练装置，其中，所述教师神经网络包括以下模块：

第二音素编码模块，用于对第二音素序列进行编码，得到第二音素键编码值；

第二梅尔频谱编码模块，用于对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值；

注意力机制处理模块，用于对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值；

第二梅尔频谱值变换模块，用于将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值；

教师神经网络自训练模块，用于根据与所述第二音素序列对应的真实梅尔频谱和所述第二梅尔频谱对所述教师神经网络进行自训练，直至所述教师神经网络的第二损失函数收敛，得到训练好的所述教师神经网络。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现以下步骤：

对第一音素序列进行编码，得到第一音素编码值；

对所述第一音素编码值进行时长预测处理，得到第一发音时长预测值；

基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征；

将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；

通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络。
根据权利要求9所述的计算机设备，其中，训练所述教师神经网络的步骤包括：

对第二音素序列进行编码，得到第二音素键编码值；

对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值；

对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值；

将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值；

根据与所述第二音素序列对应的真实梅尔频谱值和所述第二梅尔频谱值对所述教师神经网络进行自训练，直至所述教师神经网络的第二损失函数收敛，得到训练好的所述教师神经网络。
根据权利要求10所述的计算机设备，其中，在所述通过预先训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤中，还包括：

所述训练好的教师神经网络对所述第一音素序列进行编码，得到第三音素键编码值；

所述训练好的教师神经网络对与所述第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码，得到第三梅尔频谱编码值；

所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理，得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值；

将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值；

通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。
根据权利要求11所述的计算机设备，其中：

所述第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和；

或，所述第一损失函数选用Huber损失函数。
根据权利要求11所述的计算机设备，其中，所述基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征的步骤具体包括：

根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征。
根据权利要求9所述的计算机设备，其中，所述通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤之后，还包括：

将所述训练好的学生神经网络连接到一个预训练好的声码器；

通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值；

通过所述声码器将所述梅尔频谱值转换为语音。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现如下步骤的计算机可读指令，所述步骤包括：

对第一音素序列进行编码，得到第一音素编码值；

对所述第一音素编码值进行时长预测处理，得到第一发音时长预测值；

基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征；

将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；

通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络。
根据权利要求15所述的计算机可读存储介质，其中，训练所述教师神经网络的步骤包括：

对第二音素序列进行编码，得到第二音素键编码值；

对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值；

对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值；

将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值；

根据与所述第二音素序列对应的真实梅尔频谱值和所述第二梅尔频谱值对所述教师神经网络进行自训练，直至所述教师神经网络的第二损失函数收敛，得到训练好的所述教师神经网络。
根据权利要求16所述的计算机可读存储介质，其中，在所述通过预先训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤中，还包括：

所述训练好的教师神经网络对所述第一音素序列进行编码，得到第三音素键编码值；

所述训练好的教师神经网络对与所述第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码，得到第三梅尔频谱编码值；

所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理，得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值；

将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值；

通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。
根据权利要求17所述的计算机可读存储介质，其中：

所述第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和；

或，所述第一损失函数选用Huber损失函数。
根据权利要求17所述的计算机可读存储介质，其中，所述基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征的步骤具体包括：

根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征。
根据权利要求15所述的计算机可读存储介质，其中，所述通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤之后，还包括：

将所述训练好的学生神经网络连接到一个预训练好的声码器；

通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值；

通过所述声码器将所述梅尔频谱值转换为语音。