CN114141228B

CN114141228B - 语音合成模型的训练方法、语音合成方法和装置

Info

Publication number: CN114141228B
Application number: CN202111494736.5A
Authority: CN
Inventors: 王文富; 孙涛; 王锡磊; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-11-08
Anticipated expiration: 2041-12-07
Also published as: US20230178067A1; CN114141228A

Abstract

本公开提供了一种语音合成模型的训练方法、语音合成方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及语音合成技术领域。具体实现方案为：利用语音合成模型处理训练数据，确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及根据总损失值，调整语音合成模型的参数。

Description

语音合成模型的训练方法、语音合成方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及语音合成技术领域。

背景技术

当前的语音合成技术(Text-to-Speech，TTS)不管在音质还是自然流畅度方面都得到了较大的提升。然而，当前技术都是基于高质量的语音数据进行建模，这些数据的获取代价极高。如今，随着语音合成技术的应用场景的不断丰富，语音合成技术越来越多地应用于用户数据场景。但是很多用户数据场景中能够获取的语音数据质量较低，这对声学建模技术提出了新的挑战。

发明内容

本公开提供了一种语音合成模型的训练方法、语音合成方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音合成模型的训练方法，包括：利用所述语音合成模型处理训练数据，确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及根据所述总损失值，调整所述语音合成模型的参数。

根据本公开的另一方面，提供了一种语音合成方法，包括：利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列；以及根据所述目标频谱序列，生成目标音频，其中，所述语音合成模型是根据本公开实施例所述的方法训练得到的。

根据本公开的另一方面，提供了一种语音合成模型的训练装置，包括：第一确定模块，用于利用所述语音合成模型处理训练数据，确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；第二确定模块，用于根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及调整模块，用于根据所述总损失值，调整所述语音合成模型的参数。

根据本公开的另一方面，提供了一种语音合成装置，包括：第三确定模块，用于利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列；以及生成模块，用于根据所述目标频谱序列，生成目标音频，其中，所述语音合成模型是根据权利要求1-7中任一项所述的方法训练得到的。

本公开的另一个方面提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开实施例所示的方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现本公开实施例所示方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开的实施例的语音合成模型的训练方法的流程图；

图2示意性示出了根据本公开的实施例的语音合成模型的示意图；

图3示意性示出了根据本公开的实施例的确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列的方法的流程图；

图4示意性示出了根据本公开的实施例的确定总损失值的方法的流程图；

图5示意性示出了根据本公开另一实施例的语音合成模型的训练示意图；

图6示意性示出了根据本公开的实施例的语音合成方法的流程图；

图7示意性示出了根据本公开的实施例的生成目标频谱序列的方法的流程图；

图8示意性示出了根据本公开实施例的语音合成模型的训练装置的框图；

图9示意性示出了根据本公开实施例的语音合成装置的框图；以及

图10示意性示出了可以用来实施本公开的实施例的示例电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

以下将结合图1对本公开提供的语音合成模型的训练方法进行描述。

图1示意性示出了根据本公开的实施例的语音合成模型的训练方法的流程图。

如图1所示，该语音合成模型的训练方法100包括在操作S110，利用语音合成模型处理训练数据，确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列。

然后，在操作S120，根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值。

在操作S130，根据总损失值，调整语音合成模型的参数。

相关技术中，需要基于高质量的语音数据进行建模，不支持基于低质量数据建模，而高质量语音数据的获取代价较高。

根据本公开的实施例，训练得到的语音合成模型对输入数据的要求较低，从而降低了语音合成对高质量数据的依赖。另外，该语音合成模型中音色、风格、噪声环境相互解耦合，从而可以训练得到跨风格、跨音色并支持降噪的语音合成模型。

以下将结合图2对根据本公开实施例的语音合成模型进行描述。

图2示意性示出了根据本公开的实施例的语音合成模型的示意图。

如图2所示，语音合成模型例可以包括内容编码器(Content Encoder)、风格编码器(Style Encoder)、音色编码器(Timbre Encoder)、噪声环境编码器(Noise EnvEncoder)和解码器(Decoder)。

根据本公开的实施例，内容编码器可以以文本(Text)的音子序列作为输入。音子序列可以包含多个音子，音子是从音质的角度对语音进行切分所得到的最小的语音单位，是文本的发音的表示。内容编码器可以用于对输入的音子序列进行编码，生成对应的内容编码序列。其中，音子序列中的每个音子对应内容编码序列中的一个编码向量。内容编码器可以用于确定每个音子如何发音。

根据本公开的实施例，内容编码器例如可以包括多个卷积层和双向长短期记忆人工神经网络(Long Short-Term Memory，LSTM)，其中，多个卷积层之间采用残差连接的方式进行连接。由于双向长短期记忆人工神经网络增加了序列反向的信息，因此使得内容编码器预测效果更好。

根据本公开的实施例，风格编码器可以以文本(Text)的音子序列和风格标识(Style ID)作为输入。示例性地，本实施例中，可以预先设置多种风格，并为每种风格设置风格标识。风格编码器可以用于对输入的音子序列进行编码，同时还可以根据输入的风格标识控制编码的风格，生成对应的风格编码序列。其中，音子序列中的每个音子对应风格编码序列中的一个编码向量。风格编码器可以用于确定每个音子的发音方式，也就是风格。

根据本公开的实施例，风格编码器例如可以包括多个卷积层和循环神经网络(Recurrent Neural Network，RNN)。其中，RNN可以具有自回归特性，有助于提高预测效果。

根据本公开的实施例，音色编码器可以用于对语句的梅尔(mel)频谱序列进行编码，提取该语句的音色向量。音色编码器可以用于确定要合成语音的音色，如音色A、B、C等。

根据本公开的实施例，音色编码器例如可以包括多个卷积层和门控循环单元(Gated Recurrent Unit，GRU)。

根据本公开的实施例，噪声环境编码器可以用于对语句的梅尔频谱序列进行编码，提取该语句的噪声环境向量。噪声环境向量例如可以表示语句中包含的背景噪声、混响或者干净(即不包含噪音或混淆)等特征。根据本公开的实施例，在进行语音合成时，可以通过给定干净语句的梅尔频谱序列，实现高清的语音合成。

根据本公开的实施例，噪声环境编码器例如可以包括多个卷积层和门控循环单元。

根据本公开的实施例，解码器可以以内容编码器、风格编码器、音色编码器以及噪声环境编码器的输出作为输入，生成目标语音的梅尔频谱序列。解码器可以用于根据输入的内容、风格、音色、噪声环境信息的组合，生成相应的语音特征序列。

根据本公开的实施例，解码器例如可以包括基于注意力机制的自回归结构。

以下将结合图3对根据本公开实施例的确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列的方法进行描述。

图3示意性示出了根据本公开的实施例的确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列的方法的流程图。

如图3所示，该确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列的方法310可以包括在操作S311，根据训练数据，生成音子序列样本和梅尔频谱样本。

根据本公开的实施例，训练数据中包括干净的(即不包含噪声或混淆的)以及带噪的两种数据。示例性地，可以预先收集包含语音的音频数据，然后按一定概率给这些音频数据随机添加背景噪声、混响，从而得到训练数据。

根据本公开的实施例，可以根据训练数据，确定文本数据，然后将文本数据转化为带调的音子序列，作为音子序列样本。示例性地，本实施例中，例如可以利用文本预处理模块来将文本数据转化为音子序列。另外，可以从训练数据中选取任意一个语句，并确定该语句的梅尔频谱序列，作为梅尔频谱序列样本。

在操作S312，将音子序列样本输入内容编码器，得到内容编码序列。

根据本公开的实施例，例如可以利用内容编码器对音子序列样本进行编码，生成对应的内容编码序列。

在操作S313，将音子序列样本输入风格编码器，得到风格编码序列。

根据本公开的实施例，例如可以将音子序列样本以及与该音子序列样本对应的风格标识输入风格编码器，利用风格编码器对音子序列样本进行编码，生成对应的风格编码序列。

在操作S314，将梅尔频谱样本输入音色编码器，得到音色编码向量。

根据本公开的实施例，例如可以利用音色编码器对梅尔频谱样本进行编码，提取梅尔频谱样本的音色向量。

在操作S315，将梅尔频谱样本输入噪声环境编码器，得到噪声环境向量。

根据本公开的实施例，例如可以利用噪声环境编码器对梅尔频谱样本进行编码，提取梅尔频谱样本的噪声环境向量。

在操作S316，对音子序列样本和梅尔频谱样本进行风格提取操作，得到与训练数据对应的参考人声类型。

根据本公开的实施例，例如可以利用风格提取器来对音子序列样本和梅尔频谱样本进行风格提取，得到与训练数据对应的参考人声类型。

示例性地，本实施例中，风格提取器可以用于根据梅尔频谱样本，确定参考梅尔编码序列，并根据音子序列样本，确定参考音子编码序列，然后利用注意力(Attention)机制，根据参考梅尔编码序列和参考音子编码序列，确定参考人声类型。

根据本公开的实施例，通过对音子序列样本和梅尔频谱样本进行风格提取操作，得到确定与训练数据对应的参考人声类型，可以利用参考人声类型来辅助风格编码器的学习。

在操作S317，将内容编码序列、参考人声类型、音色编码向量和噪声环境向量输入解码器，得到目标梅尔频谱序列。

根据本公开的实施，操作S312～S316可以同时执行，也可以以任意顺序依次执行，本公开对此不作具体限定。

以下将结合图4对根据本公开实施例的确定总损失值的方法进行描述。

图4示意性示出了根据本公开的实施例的确定总损失值的方法的流程图。

如图4所示，该确定总损失值的方法420可以包括在操作S421，根据目标梅尔频谱序列和与训练数据对应的标准梅尔频谱序列，确定梅尔频谱重构损失。

根据本公开的实施例，可以预先设置与训练数据对应的标准梅尔频谱序列。

根据本公开的实施例，梅尔频谱重构损失可以用于保证整体模型收敛。

根据本公开的实施例，例如可以计算目标梅尔频谱序列和与训练数据对应的标准梅尔频谱序列之间的均方误差(MSE)，作为梅尔频谱重构损失。

在操作S422，根据参考人声类型和与训练数据对应的标准人声类型，确定第一音色对抗损失。

根据本公开的实施例，第一音色对抗损失可以用于剔除风格中的音色，实现风格和音色解耦。

根据本公开的实施例，可以预先设置与训练数据对应的标准人声类型。

根据本公开的实施例，例如可以计算参考人声类型和标准人声类型之间的交叉熵，作为第一音色对抗损失。

在操作S423，根据风格编码序列、参考人声类型和标准人声类型，确定风格损失。

根据本公开的实施例，风格损失可以用于风格编码器的学习。

根据本公开的实施例，例如可以计算风格编码序列、参考人声类型和标准人声类型之间的均方误差，作为风格损失。

在操作S424，根据音色编码向量和与训练数据对应的标准音色，确定音色分类损失。

根据本公开的实施例，可以预先设置与训练数据对应的标准音色。

根据本公开的实施例，音色分类损失可以用于辅助音色聚类。

根据本公开的实施例，例如可以计算音色编码向量和标准音色之间的交叉熵，作为音色分类损失。

在操作S425，根据音色编码向量和与训练数据对应的标准噪声类型，确定噪声对抗损失。

根据本公开的实施例，噪声对抗损失可以用于剔除音色中的噪声环境。

根据本公开的实施例，例如可以计算音色编码向量和标准噪声类型之间的交叉熵，作为音色分类损失。

在操作S426，根据噪声环境向量和与训练数据对应的标准人声类型，确定第二音色对抗损失。

根据本公开的实施例，第二音色对抗损失可以用于剔除噪声环境中的音色。

根据本公开的实施例，例如可以计算噪声环境向量和标准人声类型之间的交叉熵，作为第二音色对抗损失

在操作S427，根据梅尔频谱重构损失、第一音色对抗损失、风格损失、音色分类损失、噪声对抗损失和第二音色对抗损失，确定总损失值。

根据本公开的实施例，例如可以针对梅尔频谱重构损失、第一音色对抗损失、风格损失、音色分类损失、噪声对抗损失和第二音色对抗损失进行加权求和操作，得到总损失值。其中，梅尔频谱重构损失、第一音色对抗损失、风格损失、音色分类损失、噪声对抗损失和第二音色对抗损失的权重可以根据实际需要进行设定，本公开对此不作具体限定。

根据本公开的实施例，在训练过程中，噪声对抗损失和第二音色对抗损失可以使音色和噪声环境解耦合。梅尔频谱重构损失、音色分类损失、噪声对抗损失和第二音色对抗损失可以时风格、音色和噪声环境相互解耦合。从而在训练后可以得到能够跨风格、跨音色并且可以降噪的语音合成模型。

下面参考图5对上文所示的语音合成模型的训练方法做进一步说明。

图5示意性示出了根据本公开另一实施例的语音合成模型的训练示意图。

在图5中示出了，将文本Text的音子序列样本输入内容编码器ContentEncoder，得到内容编码序列。将Text的音子序列样本输入风格编码器StyleEncoder，得到风格编码序列。将梅尔频谱样本mel输入音色编码器TimbreEncoder，得到音色编码向量。将梅尔频谱样本mel输入噪声环境编码器Noise Env Encoder，得到噪声环境向量。利用风格提取器来对训练数据进行风格提取，得到与训练数据对应的参考人声类型。然后，将内容编码序列、参考人声类型、音色编码向量和噪声环境向量输入解码器Decoder，得到目标梅尔频谱序列。

接下来，根据目标梅尔频谱序列和与训练数据对应的标准梅尔频谱序列，确定梅尔频谱重构损失。根据参考人声类型和与训练数据对应的标准人声类型，确定第一音色对抗损失。根据风格编码序列、参考人声类型和标准人声类型，确定风格损失。根据音色编码向量和与训练数据对应的标准音色，确定音色分类损失。根据音色编码向量和与训练数据对应的标准噪声类型，确定噪声对抗损失。根据噪声环境向量和与训练数据对应的标准人声类型，确定第二音色对抗损失。然后，对梅尔频谱重构损失、第一音色对抗损失、风格损失、音色分类损失、噪声对抗损失和第二音色对抗损失进行加权求和，确定总损失值。

接着，根据总损失值调整语音合成模型的参数，然后重复上述训练过程，直到总损失值收敛。

以下将结合图6对本公开提供的语音合成方法进行描述。

图6示意性示出了根据本公开的实施例的语音合成方法的流程图。

如图6所示，该语音合成方法600包括在操作S610，利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列。

在操作S620，根据目标频谱序列，生成目标音频。

根据本公开的实施例，目标频谱序列可以为目标音频的梅尔频谱序列，目标音频为语音合成结果。目标文本可以用于设置目标音频中包含的音子。目标风格可以用于设置目标音频的发音方式。目标音色可以用于设置目标音频的音色。目标噪声环境可以用于为目标音频设置噪声、混淆或降噪。

根据本公开的实施，语音合成模型例如可以包括内容编码器、风格编码器、音色编码器、噪声环境编码器和解码器。该语音合成模型例如可以根据本公开实施例所示的语音合成模型的训练方法训练得到。

图7示意性示出了根据本公开的实施例的生成目标频谱序列的方法的流程图。

如图7所示，该生成目标频谱序列的方法710包括在操作S711，确定与目标文本对应的音子序列。

根据本公开的实施例，例如可以利用文本预处理模块来将目标文本转化为音子序列。

在操作S712，将音子序列输入内容编码器，得到内容编码序列。

根据本公开的实施例，例如可以利用内容编码器对音子序列进行编码，生成对应的内容编码序列。

在操作S713，将音子序列和目标风格的风格标识输入风格编码器，得到风格编码序列。

根据本公开的实施例，例如可以利用风格编码器，根据风格标识对音子序列进行编码，生成对应的风格编码序列。

在操作S714，将与目标音色对应的第一梅尔频谱序列输入音色编码器，得到音色编码向量。

根据本公开的实施例，可以预先为不同的音色设置对应的梅尔频谱序列。该梅尔频谱序列为具有该音色的语音所对应的梅尔频谱序列。可以理解的是，第一梅尔频谱序列为与目标音色对应的梅尔频谱序列。

根据本公开的实施例，例如可以利用音色编码器对与目标音色对应的第一梅尔频谱序列进行编码，确定与目标音色对应的音色向量。

在操作S715，将与目标噪声环境对应的第二梅尔频谱序列输入噪声环境编码器，得到噪声环境向量。

根据本公开的实施例，可以预先为不同的噪声环境设置对应的梅尔频谱序列。该梅尔频谱序列为具有该噪声环境的语音所对应的梅尔频谱序列。可以理解的是，第二梅尔频谱序列为与目标噪声环境对应的梅尔频谱序列。

根据本公开的实施例，例如可以利用噪声环境编码器对第二梅尔频谱进行编码，提取要合成的噪声环境向量。

在操作S716，将内容编码序列、风格编码序列、音色编码向量和噪声环境向量输入解码器，得到目标频谱序列。

根据本公开的实施例，解码器可以根据输入的内容编码序列、风格编码序列、音色编码向量和噪声环境向量，生成具有目标风格、目标音色、目标环境噪声的梅尔频谱序列，即目标频谱序列。

根据本公开的实施例，音色编码器、风格编码器、噪声环境编码器三个模块相互解耦合，从而在语音合成中实现了跨风格、跨音色并且支持降噪，提高了语音合成效果。

图8示意性示出了根据本公开实施例的语音合成模型的训练装置的框图。

如图8所示，该语音合成模型的训练装置800包括第一确定模块810、第二确定模块820和调整模块830。

第一确定模块810，用于利用语音合成模型处理训练数据，确定与训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；

第二确定模块820，用于根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及

调整模块830，用于根据总损失值，调整语音合成模型的参数。

图9示意性示出了根据本公开实施例的语音合成装置的框图。

如图9所示，该语音合成装置900包括第三确定模块910和生成模块920。

第三确定模块910，用于利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列。

生成模块920，用于根据目标频谱序列，生成目标音频。

其中，语音合成模型可以是根据本公开实施例的语音合成模型的训练方法训练得到的。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示意性示出了可以用来实施本公开的实施例的示例电子设备1000的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如语音合成模型的训练方法、语音合成方法。例如，在一些实施例中，语音合成模型的训练方法、语音合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的语音合成模型的训练方法、语音合成方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音合成模型的训练方法、语音合成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server”，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音合成模型的训练方法，包括：

利用所述语音合成模型处理训练数据，确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；

根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及

根据所述总损失值，调整所述语音合成模型的参数；

其中，所述语音合成模型包括内容编码器、风格编码器、音色编码器、噪声环境编码器和解码器；所述确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，包括：

根据所述训练数据，生成音子序列样本和梅尔频谱样本；

将所述音子序列样本输入所述内容编码器，得到所述内容编码序列；

将所述音子序列样本输入所述风格编码器，得到所述风格编码序列；

将所述梅尔频谱样本输入音色编码器，得到所述音色编码向量；

将所述梅尔频谱样本输入所述噪声环境编码器，得到所述噪声环境向量；

对所述音子序列样本和所述梅尔频谱样本进行风格提取操作，得到与所述训练数据对应的参考人声类型；以及

将所述内容编码序列、所述参考人声类型、所述音色编码向量和所述噪声环境向量输入解码器，得到所述目标梅尔频谱序列；

所述根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值，包括：

根据所述目标梅尔频谱序列和与所述训练数据对应的标准梅尔频谱序列，确定梅尔频谱重构损失；

根据所述参考人声类型和与所述训练数据对应的标准人声类型，确定第一音色对抗损失；

根据所述风格编码序列、所述参考人声类型和所述标准人声类型，确定风格损失；

根据所述音色编码向量和与所述训练数据对应的标准音色，确定音色分类损失；

根据所述音色编码向量和与所述训练数据对应的标准噪声类型，确定噪声对抗损失；

根据所述噪声环境向量和与所述训练数据对应的标准人声类型，确定第二音色对抗损失；以及

根据所述梅尔频谱重构损失、第一音色对抗损失、风格损失、音色分类损失、噪声对抗损失和第二音色对抗损失，确定所述总损失值。

2.根据权利要求1所述的方法，其中，所述内容编码器包括：多个卷积层和双向长短期记忆人工神经网络，其中，所述多个卷积层之间采用残差连接的方式进行连接。

3.根据权利要求1所述的方法，其中，所述风格编码器包括：多个卷积层和循环神经网络。

4.根据权利要求1所述的方法，其中，所述音色编码器包括：多个卷积层和门控循环单元。

5.根据权利要求1所述的方法，其中，所述噪声环境编码器包括：多个卷积层和门控循环单元。

6.根据权利要求1所述的方法，其中，所述解码器包括：基于注意力机制的自回归结构。

7.一种语音合成方法，包括：

利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列；以及

根据所述目标频谱序列，生成目标音频，

其中，所述语音合成模型是根据权利要求1-6中任一项所述的方法训练得到的。

8.根据权利要求7所述的方法，其中，所述语音合成模型包括内容编码器、风格编码器、音色编码器、噪声环境编码器和解码器；所述利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，生成目标频谱序列，包括：

确定与所述目标文本对应的音子序列；

将所述音子序列输入内容编码器，得到内容编码序列；

将所述音子序列和目标风格的风格标识输入风格编码器，得到风格编码序列；

将与目标音色对应的第一梅尔频谱序列输入音色编码器，得到音色编码向量；

将与目标噪声环境对应的第二梅尔频谱序列输入噪声环境编码器，得到噪声环境向量；以及

将所述内容编码序列、所述风格编码序列、所述音色编码向量和所述噪声环境向量输入解码器，得到目标频谱序列。

9.一种语音合成模型的训练装置，包括：

第一确定模块，用于利用所述语音合成模型处理训练数据，确定与所述训练数据对应的内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列；

第二确定模块，用于根据内容编码序列、风格编码序列、音色编码向量、噪声环境向量和目标梅尔频谱序列，确定总损失值；以及

调整模块，用于根据所述总损失值，调整所述语音合成模型的参数，

其中，所述语音合成模型包括内容编码器、风格编码器、音色编码器、噪声环境编码器和解码器；

所述第一确定模块，还用于：根据所述训练数据，生成音子序列样本和梅尔频谱样本；将所述音子序列样本输入所述内容编码器，得到所述内容编码序列；将所述音子序列样本输入所述风格编码器，得到所述风格编码序列；将所述梅尔频谱样本输入音色编码器，得到所述音色编码向量；将所述梅尔频谱样本输入所述噪声环境编码器，得到所述噪声环境向量；对所述音子序列样本和所述梅尔频谱样本进行风格提取操作，得到与所述训练数据对应的参考人声类型；以及将所述内容编码序列、所述参考人声类型、所述音色编码向量和所述噪声环境向量输入解码器，得到所述目标梅尔频谱序列；

所述第二确定模块，还用于：根据所述目标梅尔频谱序列和与所述训练数据对应的标准梅尔频谱序列，确定梅尔频谱重构损失；根据所述参考人声类型和与所述训练数据对应的标准人声类型，确定第一音色对抗损失；根据所述风格编码序列、所述参考人声类型和所述标准人声类型，确定风格损失；根据所述音色编码向量和与所述训练数据对应的标准音色，确定音色分类损失；根据所述音色编码向量和与所述训练数据对应的标准噪声类型，确定噪声对抗损失；根据所述噪声环境向量和与所述训练数据对应的标准人声类型，确定第二音色对抗损失；以及根据所述梅尔频谱重构损失、第一音色对抗损失、风格损失、音色分类损失、噪声对抗损失和第二音色对抗损失，确定所述总损失值。

10.一种语音合成装置，包括：

第三确定模块，用于利用语音合成模型，根据目标文本、目标风格、目标音色、目标噪声环境，确定目标频谱序列；以及

生成模块，用于根据所述目标频谱序列，生成目标音频，

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。