WO2021127821A1

WO2021127821A1 - 语音合成模型的训练方法、装置、计算机设备及存储介质

Info

Publication number: WO2021127821A1
Application number: PCT/CN2019/127339
Authority: WO
Inventors: 钱程浩; 黄东延; 熊友军
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-07-01
Also published as: CN111133506A

Abstract

提供了一种语音合成模型的训练方法、语音合成模型的训练装置、计算机设备及存储介质，其中该方法包括：获取训练文本数据和该训练文本数据对应的训练语音特征（102）；根据该训练文本数据得到与该训练文本数据对应的训练音素数据（104）；将该训练文本数据和训练音素数据作为语音合成模型的输入，将该训练文本数据对应的训练语音特征作为语音合成模型期望的输出对语音合成模型进行训练，得到目标语音合成模型（106）。通过将训练文本数据和训练音素数据同时作为语音合成模型的输入，丰富了训练语音合成模型的训练数据集，提高了合成语音的质量和准确度。

Description

语音合成模型的训练方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机处理领域，尤其是涉及一种语音合成模型的训练方法、装置、计算机设备及存储介质。

背景技术

语音合成模型是处理文本输入并生成如人类语音的***。随着深度学习技术的成熟以及计算机性能的提升，深度神经网络技术广泛运用于语音合成模型的训练任务中。由于基于神经网络的语音合成模型训练需要大量的文本数据，而通常这样的数据集难以获得，导致在有限数据集的情况下，神经网络训练不够充分，合成语音质量不佳。

技术问题

因此，亟待提出一种合成语音质量佳的语音合成模型的训练方法。

技术解决方案

基于此，有必要针对上述问题，提供了一种实体识别准确率高的语音合成模型的训练方法、装置、计算机设备及存储介质。

第一方面，本发明实施例提供一种语音合成模型的训练方法，所述方法包括：

获取训练文本数据和所述训练文本数据对应的训练语音特征；

根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据；

将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型。

第二方面，本发明实施例提供一种语音合成模型的训练装置，所述装置包括：

文获取模块，用于获取训练文本数据和所述训练文本数据对应的训练语音特征；

转换模块，用于根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据；

训练模块，用于将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型。

第三方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

第四方面，本发明实施例提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

有益效果

上述语音合成模型的训练方法，通过将训练文本数据和训练音素数据同时作为语音合成模型的输入，丰富了训练语音合成模型的训练数据集，这样可以解决缺少训练数据的问题，从而有利于提高语音合成的质量，并且通过引入音素信息，可以消除语音合成中可能出现的错误发音，从而提高了语音合成的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为一个实施例中语音合成模型的训练方法的流程图；

图2为一个实施例中语音合成模型的结构示意图；

图3为一个实施例中训练语音合成模型的流程示意图；

图4为一个实施例中目标语音合成模型的预测流程示意图；

图5为一个实施例中语音合成模型的训练装置的结构框图；

图6为另一个实施例中语音合成模型的训练装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

本发明的实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，提出了一种语音合成模型的训练方法，该语音合成模型的训练方法可以应用于终端，也可以应用于服务器，本实施例中以应用于终端为例说明，该语音合成模型的训练方法具体包括以下步骤：

步骤102，获取训练文本数据和训练文本数据对应的训练语音特征。

其中，训练文本数据是指用于对语音合成模型进行训练的文本数据。语音特征是用于表示语音的特征。在已知语音特征的情况下，采用声码器即可将语音特征转换为语音。训练语音特征是指对训练文本数据对应的语音特征标注。训练语音特征可以采用梅尔频谱特征。

步骤104，根据训练文本数据得到与训练文本数据对应的训练音素数据。

其中，音素是一种不同的语音单位，它以特定语言将一个单词（或单词元素）与另一个单词区分开。通常可以将音素看作是单词的基本表示形式的摘要。为了丰富语音合成模型的训练数据集，这里引入了训练音素数据。训练音素数据作为语音合成模型的补充输入，有利于提高语音合成模型输出的合成语音质量。

在一个实施例中，可以采用音素转换器将训练文本数据转换为训练音素数据，即将文本序列转换为相应的音素序列。

步骤106，将训练文本数据和训练音素数据作为语音合成模型的输入，将训练文本数据对应的训练语音特征作为语音合成模型期望的输出对语音合成模型进行训练，得到目标语音合成模型。

其中，为了使得训练得到的目标语音合成模型能够提高合成语音的质量。在对语音合成模型进行训练时，同时将训练文本数据和训练音素数据作为语音合成模型的训练输入，将训练文本数据对应的训练语音特征作为期望的输出对语音合成模型进行训练。

为了对语音合成模型进行有监督的训练，需要获取训练样本集，训练样本集中包括多个训练样本，每个训练样本包括：训练文本数据和对应的训练语音特征。

其中，对语音合成模型进行训练的过程是不断更新语音合成模型中权重参数的过程。通过将训练文本数据和训练音素数据作为语音合成模型的输入，然后获取语音合成模型的实际输出，将实际输出和期望的输出采用预设的损失函数计算得到损失值，然后根据损失值更新语音合成模型中的权重参数，之后继续对更新后的语音合成模型进行训练，直到计算得到的损失值达到收敛条件时停止更新，将最后训练得到的语音合成模型作为目标语音合成模型。

如图2所示，在一个实施例中，语音合成模型包括：编码器202、解码器204和连接编码器和解码器的注意力机制206；编码器202用于根据训练文本数据和训练音素数据得到编码特征；解码器204用于根据上一时间步骤预测的语音特征得到解码特征；注意力机制206用于根据编码特征和解码特征得到定长向量，将定长向量作为解码器的输入；解码器204还用于根据定长向量得到输出的实际语音特征。

将训练文本数据和训练音素数据作为语音合成模型的输入，将训练文本数据对应的训练语音特征作为语音合成模型期望的输出对语音合成模型进行训练，得到目标语音合成模型，包括：根据训练语音特征和实际语音特征计算得到损失值，根据损失值更新语音合成模型中的权重参数。

其中，语音合成模型可以采用深度神经网络模型（DNN）训练得到。语音合成模型可以分为三个部分，编码器202、解码器204和注意力机制206。编码器作用是对输入的训练文本数据或训练音素数据进行一些列编码处理得到编码特征。编码特征可以理解为进行编码后得到的编码特征向量。解码器204有一部分作用是：将输入的上一时间步骤预测的语音特征进行一些列解码处理得到解码特征。通过将上一时间步骤预测的语音特征作为解码器的输入，可以将上一时间步骤预测的语音特征作为参考，通过与上文进行关联，有利于提高后续预测的准确度。

注意力机制206的作用是：根据输入的编码特征和解码特征得到解码器所需要的定长的上下文向量（即定长向量）。解码器204还用于根据定长向量进行语音特征的预测，输出实际语音特征。编码器202、解码器204和注意力机制206都是用神经网络来实现的。

在一个实施例中，编码器中包括：嵌入层、卷积层和编码LSTM层，编码器用于根据训练文本数据和训练音素数据得到编码特征，包括：嵌入层用于将训练文本数据和训练音素数据分别转换为文本特征向量和音素特征向量，并随机从文本特征向量和音素特征向量中选择一个作为卷积层的输入；卷积层用于根据输入的文本特征向量或音素特征向量进行卷积运算得到卷积特征，将卷积特征作为编码LSTM层的输入，编码LSTM层用于根据卷积特征计算得到编码特征。

其中，嵌入层（即embedding层）用于将训练文本数据以及训练音素数据分别转换为向量的表示形式，比如，转换为512维的特征向量，相应地得到文本特征向量和音素特征向量，然后将转换得到的文本特征向量和音素特征向量中的任意一个作为卷积层的输入；卷积层用于对输入的文本特征向量或音素特征向量进行卷积处理，提取得到卷积特征。卷积层可以是一层，也可以是多层（比如，3层）。为了进行区分，将编码器中的LSTM层称为“编码LSTM层”，LSTM（Long Short-Term Memory）是长短期记忆网络，是一种时间递归神经网络。编码LSTM层用于对输入的卷积特征进行处理得到编码特征，编码LSTM层可以采用双向LSTM。

在一个实施例中，解码器中包括：预网层、解码LSTM层，解码器用于根据上一时间步骤预测的语音特征得到解码特征，包括：预网层用于根据输入的上一时间步骤预测的语音特征进行非线性映射得到映射语音特征，将映射语音特征作为解码LSTM层的输入；解码LSTM层用于根据映射语音特征计算得到解码特征。

其中，预网层的输入是上一时间步骤预测的语音特征（比如，梅尔频谱）。预网层用于对上一时间步骤预测的语音特征进行非线性映射得到映射语音特征。在一个实施例中，预网层是由Relu单元构成的，Relu为非线性激活函数，用于进行非线性映射。解码LSTM层用于对输入的映射语音特征进行处理得到解码特征。在一个实施例中，预网层是由256个全连接的小型预网组成的，每个小型预网是由Relu单元组成的。

在一个实施例中，解码器还包括：后网层；解码器还用于根据定长向量得到输出的实际语音特征，包括：获取预网层输出的映射语音特征，将映射语音特征与定长向量进行拼接，得到特征向量；将特征向量作为解码LSTM层的输入，获取解码LSTM层输出的预测语音特征；将预测语音特征作为后网层的输入，根据后网层的输出和解码LSTM层输出的预测语音特征得到实际语音特征。

其中，为了提高语音合成质量，将预网层的输出与注意力机制的输出一起作为解码器的输入。具体地，将预网层输出的映射语音特征与注意力机制输出的定长向量进行拼接，得到特征向量，将特征向量作为解码LSTM层的输入，获取解码LSTM层输出的预测语音特征。在一个实施例中，语音特征是指梅尔频谱，解码LSTM层对特征向量主要是进行线性投射的运算，按帧预测梅尔频谱。

为了进一步增强语音合成模型的预测能力，在解码LSTM层后面又加入了一个后网层，后网层用于根据解码LSTM层输出的预测语音特征进行处理得到预测残差，然后根据预测残差和预测语音特征得到输出的实际语音特征。在一个实施例中，后网层是由5个卷积层组成的，预测得到的语言特征（比如，梅尔频谱）通过5层卷积后可以用来增强网络的预测能力。

在一个实施例中，解码LSTM层采用单项LSTM层，解码LSTM层可以包括一个单项LSTM层，也可以包括多个单项LSTM层。每个单项LSTM层可以包括1024个单元。

在一个实施例中，根据训练文本数据得到与训练文本数据对应的训练音素数据，包括：将训练文本数据输入到音素转换器，音素转换器用于将训练文本数据进行规范化处理为多个规范化单词，分别查找与每个规范化单词对应的音素，得到与训练文本数据对应的训练音素数据。

其中，音素转换器用于将训练文本数据转换为训练音素数据，具体地，在音素转换器内部，首先将输入文本进行规范化处理，规范化处理包括将大写字母统一转换为小写字母，缩写词转换为完整单词，将数字扩展为文本单词等。例如，“Mr.”转为“mr.”，“mr.”转为“mister”，“20”转为“twenty”。即将文本中的单词都转换为规范化的单词形式。然后将机器可读的发音词典作为查找表，根据查找表找到与每个规范化单词对应的音素，从而得到与训练文本数据得到的训练音素数据。

在一个实施例中，方法还包括：获取待合成语音数据，待合成语音数据为待合成文本数据或待合成音素数据；将待合成语音的数据作为目标语音合成模型的输入，获取目标语音合成模型输出的目标语音特征；采用声码器将目标语音特征转换为目标语音。

其中，目标语音合成模型为训练好的语音合成模型。由于目标语音合成模型在训练时候的输入同时采用了文本数据和音素数据，所以在采用目标语音合成模型进行预测时，输入的待合成语音数据可以是待合成文本数据，也可以是待合成音素数据。目标语音合成模型输出目标语音特征后，采用声码器将目标语音特征转换为目标语音。

如图3所示，为一个实施例中，训练语音合成模型的流程示意图。首先，获取训练文本数据，将训练文本数据复制为两份，一份保持原样输入到编码器的嵌入层，另一份通过音素转换器将训练文本数据转换为训练音素数据，将训练音素数据也输入到编码器的嵌入层。嵌入层用于将训练文本数据、训练音素数据分别转换为文本特征向量、音素特征向量。然后随机将文本特征向量和音素特征向量中的一个作为编码器中卷积层的输入，将卷积层的输出作为编码LSTM层的输入，将编码LSTM层输出的编码特征作为注意力机制的输入。在另外一端，将上一时间步骤预测的语音特征（梅尔图谱）作为解码器中预网层的输入，然后将预网层的输出作为解码LSTM层的输入，并将解码LSTM层输出的解码特征作为注意力机制的输入，注意力机制根据解码特征和编码特征进行计算得到定长向量，然后将定长向量又作为解码LSTM层的输入，解码LSTM层将上述预网层的输出（上文中的映射语音特征）与定长向量进行拼接，然后对拼接后得到的特征向量进行处理，得到预测语音特征，将预测语音特征作为后网层的输入，获取后网层输出的预测残差，然后根据预测语音特征和预测残差得到输出的实际语音特征。之后，根据训练语音特征和实际语音特征计算得到损失值，根据损失值采用梯度下降法从后向前依次更新语音合成模型中的权重参数。通过上述过程不断地重复训练，直到得到的损失值达到收敛条件停止，或者在训练初始设置最大循环训练次数，当达到最大循环训练次数时，停止训练，最后得到训练好的语音合成模型。

如图4所示，为一个实施例中，目标语音合成模型的预测流程示意图。首先，获取待合成语音数据，将待合成语音数据（待合成文本数据或待合成音素数据）作为编码器的嵌入层的输入，得到待合成语音数据的文本特征向量或音素特征向量，然后将文本特征向量或音素特征向量作为编码器中卷积层的输入，将卷积层的输出作为编码LSTM层的输入，将编码LSTM层输出的编码特征作为注意力机制的输入，注意力机制根据编码特征计算得到定长向量，将上一时间步骤预测的语音特征（梅尔图谱）作为解码器中预网层的输入，然后将预网层的输出作为解码LSTM层的输入，并将解码LSTM层输出的解码特征作为注意力机制的输入，注意力机制根据解码特征和编码特征进行计算得到定长向量，然后将定长向量又作为解码LSTM层的输入，解码LSTM层将上述预网层的输出（上文中的映射语音特征）与定长向量进行拼接，然后对拼接后得到的特征向量进行处理，得到预测语音特征，将预测语音特征作为后网层的输入，获取后网层输出，根据后网层的输出和和预测语音特征得到输出的目标语音特征。之后，将目标语音特征作为声码器的输入，获取声码器输出的目标语音。

如图5所示，在一个实施例中，提出了一种语音合成模型的训练装置，该装置包括：

训练获取模块502，用于获取训练文本数据和所述训练文本数据对应的训练语音特征；

音素转换模块504，用于根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据；

训练模块506，用于将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型。

在一个实施例中，所述语音合成模型包括：编码器、解码器和连接所述编码器和解码器的注意力机制；所述编码器用于根据所述训练文本数据和所述训练音素数据得到编码特征；所述解码器用于根据所述训练文本数据对应的训练语音特征得到解码特征；所述注意力机制用于根据所述编码特征和所述解码特征得到定长向量，将所述定长向量作为所述解码器的输入；所述解码器还用于根据所述定长向量得到输出的实际语音特征；

所述训练模块还用于根据所述训练语音特征和所述实际语音特征计算得到损失值，根据所述损失值更新所述语音合成模型中的权重参数。

在一个实施例中，所述编码器中包括：嵌入层、卷积层和编码LSTM层，所述编码器用于根据所述训练文本数据和所述训练音素数据得到编码特征，包括：所述嵌入层用于将所述训练文本数据和所述训练音素数据分别转换为文本特征向量和音素特征向量，并随机从所述文本特征向量和音素特征向量中选择一个作为卷积层的输入；所述卷积层用于根据输入的所述文本特征向量或所述音素特征向量进行卷积运算得到卷积特征，将所述卷积特征作为所述编码LSTM层的输入，所述编码LSTM层用于根据所述卷积特征计算得到编码特征。

在一个实施例中，所述解码器中包括：预网层、解码LSTM层，所述解码器用于根据上一时间步骤预测的语音特征得到解码特征，包括：所述预网层用于根据输入的上一时间步骤预测的语音特征进行非线性映射得到映射语音特征，将所述映射语音特征作为所述解码LSTM层的输入；所述解码LSTM层用于根据所述映射语音特征计算得到解码特征。

在一个实施例中，所述解码器还包括：后网层；所述解码器还用于根据所述定长向量得到输出的实际语音特征，包括：获取所述预网层输出的映射语音特征，将所述映射语音特征与所述定长向量进行拼接，得到特征向量；将所述特征向量作为所述解码LSTM层的输入，获取所述解码LSTM层输出的预测语音特征；将所述预测语音特征作为所述后网层的输入，根据所述后网层的输出和所述解码LSTM层输出的预测语音特征得到所述实际语音特征。

在一个实施例中，转换模块还用于将所述训练文本数据输入到音素转换器，所述音素转换器用于将所述训练文本数据进行规范化处理为多个规范化单词，分别查找与每个规范化单词对应的音素，获取音素转换器输出的与所述训练文本数据对应的训练音素数据。

如图6所示，在一个实施例中，上述语音合成模型的训练装置还包括：

预测获取模块508，用于获取待合成语音数据，所述待合成语音数据为待合成文本数据或待合成音素数据；

预测模块510，用于将所述待合成语音数据作为所述目标语音合成模型的输入，获取所述目标语音合成模型输出的目标语音特征；

语音转换模块512，用于采用声码器将所述目标语音特征转换为目标语音。

图7示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是终端，也可以是服务器。如图7所示，该计算机设备包括通过模型总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作模型，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音合成模型的训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音合成模型的训练方法。网络接口用于与外界进行通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音合成模型的训练方法可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音合成模型的训练装置的各个程序模板。比如，训练获取模块502，音素转换模块504和训练模块506。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：获取训练文本数据和所述训练文本数据对应的训练语音特征；根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据；将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型。

在一个实施例中，所述语音合成模型包括：编码器、解码器和连接所述编码器和解码器的注意力机制；所述编码器用于根据所述训练文本数据和所述训练音素数据得到编码特征；所述解码器用于根据上一时间步骤预测的语音特征得到解码特征；所述注意力机制用于根据所述编码特征和所述解码特征得到定长向量，将所述定长向量作为所述解码器的输入；所述解码器还用于根据所述定长向量得到输出的实际语音特征；

所述将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型，包括：根据所述训练语音特征和所述实际语音特征计算得到损失值，根据所述损失值更新所述语音合成模型中的权重参数。

在一个实施例中，所述根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据，包括：将所述训练文本数据输入到音素转换器，所述音素转换器用于将所述训练文本数据进行规范化处理为多个规范化单词，分别查找与每个规范化单词对应的音素，得到与所述训练文本数据对应的训练音素数据。

在一个实施例中，所述计算机程序被所述处理器执行时，还用于执行以下步骤：获取待合成语音数据，所述待合成语音数据为待合成文本数据或待合成音素数据；将所述待合成语音数据作为所述目标语音合成模型的输入，获取所述目标语音合成模型输出的目标语音特征；采用声码器将所述目标语音特征转换为目标语音。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取训练文本数据和所述训练文本数据对应的训练语音特征；根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据；将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音合成模型的训练方法，其特征在于，所述方法包括：

获取训练文本数据和所述训练文本数据对应的训练语音特征；

根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据；

将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型。
根据权利要求1所述的方法，其特征在于，所述语音合成模型包括：编码器、解码器和连接所述编码器和解码器的注意力机制；所述编码器用于根据所述训练文本数据和所述训练音素数据得到编码特征；所述解码器用于根据上一时间步骤预测的语音特征得到解码特征；所述注意力机制用于根据所述编码特征和所述解码特征得到定长向量，将所述定长向量作为所述解码器的输入；所述解码器还用于根据所述定长向量得到输出的实际语音特征；

所述将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型，包括：

根据所述训练语音特征和所述实际语音特征计算得到损失值，根据所述损失值更新所述语音合成模型中的权重参数。
根据权利要求2所述的方法，其特征在于，所述编码器中包括：嵌入层、卷积层和编码LSTM层，所述编码器用于根据所述训练文本数据和所述训练音素数据得到编码特征，包括：

所述嵌入层用于将所述训练文本数据和所述训练音素数据分别转换为文本特征向量和音素特征向量，并随机从所述文本特征向量和音素特征向量中选择一个作为卷积层的输入；所述卷积层用于根据输入的所述文本特征向量或所述音素特征向量进行卷积运算得到卷积特征，将所述卷积特征作为所述编码LSTM层的输入，所述编码LSTM层用于根据所述卷积特征计算得到编码特征。
根据权利要求2所述的方法，其特征在于，所述解码器中包括：预网层、解码LSTM层，所述解码器用于根据上一时间步骤预测的语音特征得到解码特征，包括：

所述预网层用于根据输入的上一时间步骤预测的语音特征进行非线性映射得到映射语音特征，将所述映射语音特征作为所述解码LSTM层的输入；所述解码LSTM层用于根据所述映射语音特征计算得到解码特征。
根据权利要求4所述的方法，其特征在于，所述解码器还包括：后网层；所述解码器还用于根据所述定长向量得到输出的实际语音特征，包括：

获取所述预网层输出的映射语音特征，将所述映射语音特征与所述定长向量进行拼接，得到特征向量；

将所述特征向量作为所述解码LSTM层的输入，获取所述解码LSTM层输出的预测语音特征；

将所述预测语音特征作为所述后网层的输入，根据所述后网层的输出和所述解码LSTM层输出的预测语音特征得到所述实际语音特征。
根据权利要求1所述的方法，其特征在于，所述根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据，包括：

将所述训练文本数据输入到音素转换器，所述音素转换器用于将所述训练文本数据进行规范化处理为多个规范化单词，分别查找与每个规范化单词对应的音素，得到与所述训练文本数据对应的训练音素数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待合成语音数据，所述待合成语音数据为待合成文本数据或待合成音素数据；

将所述待合成语音数据作为所述目标语音合成模型的输入，获取所述目标语音合成模型输出的目标语音特征；

采用声码器将所述目标语音特征转换为目标语音。
一种语音合成模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取训练文本数据和所述训练文本数据对应的训练语音特征；

转换模块，用于根据所述训练文本数据得到与所述训练文本数据对应的训练音素数据；

训练模块，用于将所述训练文本数据和所述训练音素数据作为语音合成模型的输入，将所述训练文本数据对应的训练语音特征作为语音合成模型期望的输出对所述语音合成模型进行训练，得到目标语音合成模型。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。