CN114464162A

CN114464162A - 语音合成方法、神经网络模型训练方法、和语音合成模型

Info

Publication number: CN114464162A
Application number: CN202210377265.8A
Authority: CN
Inventors: 柴萌鑫; 林羽钦; 黄智颖
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-05-10
Anticipated expiration: 2042-04-12
Also published as: CN115294963A; CN114464162B

Abstract

本申请实施例提供了一种语音合成方法、神经网络模型训练方法、和语音合成模型。该语音合成方法，包括：获取待合成文本的音素向量；从所述音素向量中预测出各音素对应的语音特征和语音后验图，所述语音后验图中携带有口音信息；根据所述语音特征和所述语音后验图，生成语音频谱；基于所述语音频谱输出与所述待合成文本对应的目标语音，所述目标语音的口音与所述口音信息匹配。该方法可以合成重口音语音。

Description

语音合成方法、神经网络模型训练方法、和语音合成模型

技术领域

本申请实施例涉及神经网络技术领域，尤其涉及一种语音合成方法、神经网络模型训练方法、和语音合成模型。

背景技术

目前基于神经网络的端到端模型不断进步，语音合成模型的建模能力不断提高，使得合成语音的时间更短、速度更快，效果也更加鲁棒，合成的语音也越来越偏向自然发音，但是现有的语音合成模型需要庞大的数据库和大量的计算资源；另一方面，在日常生活中，受地理影响，带有重口音的方言使用范围十分广泛，但现有的语音合成模型难以合成带有口音的语音音频。

发明内容

有鉴于此，本申请实施例提供一种语音合成方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种语音合成方法，包括：获取待合成文本的音素向量；从所述音素向量中预测出各音素对应的语音特征和语音后验图，所述语音后验图中携带有口音信息；根据所述语音特征和所述语音后验图，生成语音频谱；基于所述语音频谱输出与所述待合成文本对应的目标语音，所述目标语音的口音与所述口音信息匹配。

根据本申请实施例的第二方面，提供了一种语音合成模型，包括编码器、解码器和声码器，所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图，所述语音后验图中携带有口音信息，所述解码器用于基于所述语音特征和所述语音后验图，确定语音频谱，所述声码器用于根据所述语音频谱生成所述待合成文本对应的目标语音，所述目标语音的口音与所述语音后验图中的口音信息匹配。

根据本申请实施例的第三方面，提供了一种神经网络模型训练方法，所述方法用于训练上述语音合成模型，所述方法包括：使用第一口音对应的音频样本对所述语音合成模型进行训练，以获得初始训练的语音合成模型；使用第二口音对应的音频样本对初始训练的所述语音合成模型进行训练，以获得二次训练的语音合成模型，所述第一口音对应的音频样本的时长大于所述第二口音对应的音频样本。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的方法对应的操作。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如上述的方法对应的操作。

通过这种方式可以生成真实的、非普通话口音的目标语音，从而提升可合成语音的丰富性。本实施例创新性地将语音后验图(Phonetic Posterior Grams,PPGs)应用于重口音（也就是非普通话）的语音合成中，从而实现了在使用较少的非普通话的音频的情况下进行自动的带口音的语音的合成，解决了现有技术中由于带有口音的音频不足，无法合成带口音的语音的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本申请实施例一的一种语音合成模型的示意图；

图1B为根据本申请实施例一的语音合成模型中编码器和解码器的示意图；

图1C为根据本申请实施例一的语音合成模型中编码器的方差适配器的示意图；

图2为根据本申请实施例一的一种语音合成方法的步骤流程图；

图3为根据本申请实施例一的一种语音合成方法的步骤S204的子步骤流程图；

图4为根据本申请实施例一的一种语音合成方法的步骤S206的子步骤流程图；

图5为根据本申请实施例二的一种神经网络模型训练方法的步骤流程图；

图6为根据本申请实施例二的一种神经网络模型训练方法的步骤502的子步骤流程图；

图7为根据本申请实施例二的一种神经网络模型训练方法的步骤502的另一子步骤流程图；

图8为根据本申请实施例三的一种语音合成装置的结构框图；

图9为根据本申请实施例四的一种神经网络模型训练装置的结构框图；

图10为根据本申请实施例五的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一

在本实施例中，提供了一种新的、能够合成带口音（即非普通话）的目标语音的神经网络模型（也可以称为语音合成模型），为了便于理解，在对语音合成方法的实现过程进行说明之前，对语音合成模型进行说明。

参照图1A，示出了一种语音合成模型的示意图。该模型包括编码器、解码器和声码器。

其中，所述编码器（即图1A中所示encoder）用于从待合成文本的音素向量中预测出语音特征和语音后验图，所述语音后验图中携带有口音信息。

语音特征可以包括需要合成的目标语音中各音素的基频（F0）和能量信息（energy），但不限于此。本实施例的编码器不仅可以预测基频和能量信息，而且可以预测出语音后验图（Phonetic PosteriorGrams,PPGs），语音后验图可以提取语言无关的音素后验概率形成语音后验图，语音后验图可以保留声音相关的信息（如口音信息）的同时排除说话人的影响，从而使得语音后验图可以作为说话人和语音之间的桥梁，通过语音后验图中指示的每个音素对应的口音，以及每个音素持续的时长，这样就可以很好地控制后续合成出的目标语音的口音，解决不同口音的语音的音素和韵律不同，难以合成非普通话口音语音的问题。

所述解码器（即图1A中所示decoder）用于基于所述语音特征和所述语音后验图，确定语音频谱。该语音频谱可以是梅尔频谱。

所述声码器（即图1A中所示LPCnet）用于根据所述语音频谱生成所述待合成文本对应的目标语音，所述目标语音的口音与所述语音后验图中的口音信息匹配。

下面针对编码器、解码器和声码器进行示例性说明，如图1B所示，编码器包括方差适配器和多个编码模块，所述编码模块用于从待合成文本的音素向量中提取上下文信息，所述方差适配器用于基于所述编码模块的输出数据预测所述语音特征和所述语音后验图。

编码模块的数量可以根据需求确定，对此不作限制。例如，编码模块的数量可以是6个，但该数量仅是一个示例，并不限于此。

其中，编码模块可以包括编码多头自注意力层（multihead attention）、编码归一化层（add & norm）和编码一维卷积层（conv1D）等。

音素向量拼接上各音素的位置信息（position encoding）后作为编码输入数据输入到编码多头自注意力层，由编码多头自注意力层提取出第一特征信息。

在与编码多头自注意力层连接的编码归一化层中，将第一特征信息和编码输入数据进行归一化处理，得到第一归一化结果。

将第一归一化结果输入到编码一维卷积层中，进一步提取出第二特征信息。在与编码一维卷积层连接的编码归一化层中，对第二特征信息和第一归一化结果进行归一化处理，从而获得输出数据。该输出数据中就携带有待合成文本的上下文信息。

经过多个编码模块的输出数据输入到方差适配器（variance adaptor）中，如图1C所示，一种示例的方差适配器包括基频预测单元（pitch predictor）、能量预测单元（energy predictor）和语音后验图预测单元（PPG predictor）。语音后验图预测单元可以使用LSTM网络或者其他适当的神经网络，对此不作限制。

编码模块的输出数据输入到方差适配器中，一方面，该输出数据经过基频预测单元的处理，输出各音素对应的基频。为了进一步解决非普通话的语音中音素的发音和韵律，与普通话中音素的发音和韵律不同的问题，本实施例中的基频预测单元输出归一化对数尺度基频（即Log-F0）。

另一方面，该输出数据经过能量预测单元的处理，输出个音素对应的能量，再一方面，该输出数据经过语音后验图单元的处理，输出语音后验图，该语音后验图中包含了各音素的持续时长和口音信息。

方差适配器将输出的基频、能量和语音后验图拼接到编码模块的输出数据中，从而形成编码器输出的编码数据。总的来说，该方差适配器将隐藏序列（也就是编码模块的输出数据）作为输入利用MSE（mean square error）损失函数来预测各音素对应的各语音帧的基频、能量以及语音后验图。

与编码器类似地，解码器包括多个解码模块，所述解码模块用于基于输入的语音特征、语音后验图和预设的说话人向量，生成语音频谱。例如，解码模块的数量与编码模块的数量一致，也为6个，当然，这只是一种例举说明，并不限制其为其他数量。

解码模块包括解码多头自注意力层、解码归一化层和解码一维卷积层等。方差适配器输出的编码数据拼接位置信息作为解码输入数据，输入到解码模块内。解码模块的解码多头自注意力层对解码输入数据进行处理，获得第三特征信息。

第三特征信息和解码输入数据输入到与解码多头自注意力层连接的解码归一化层中，并输出第三归一化结果。第三归一化结果输入到解码一维卷积层中，获得其输出的第四特征信息。第四特征信息和第三归一化结果输入到与解码一维卷积层连接的解码归一化层中，获得输出的第四归一化结果。

这样通过多个解码模块的处理，将解码模块输出的第四归一化结果输入到线性层（linear layer），获得其输出的语音频谱。

通过声码器根据语音频谱生成目标语音。这样就可以实现合成带有普通话之外的口音的目标语音，从而丰富语音合成的功能。声码器可以是LPCnet，当然也可以是其他能够基于语音频谱转换为目标语音的神经网络，对此不作限制。

该语音合成模型可以是基于端到端的神经网络模型，称为PPG_FS，该模型的编码器和解码器为非自回归结构，通过训练可以从基于编码器-解码器的教师模型中提取注意对齐机制，从而提升准确度。利用LPCNet声码器将声学特征（如语音频谱）转换为目标语音中的语音帧，实现目标语音的合成。

下面结合该语音合成模型，对本实施例的语音合成方法进行说明。当然，需要说明的是，该方法并不限于使用本实施例中例举的语音合成模型，还可以适用于其他模型

如图2所示，该方法包括以下步骤：

步骤S202：获取待合成文本的音素向量。

待合成文本（text sequence）可以是一句或者一段话，在转换为语音时，可以将其分割为一个或多个音素（phoneme），并基于分割出的因素生成音素向量（phonemeembedding）。

步骤S204：从所述音素向量中预测出各音素对应的语音特征和语音后验图。

在一示例中，使用训练的语音合成模型，如前所述，该语音合成模型包括编码器、解码器和声码器。

其中，如图3所示，步骤S204可以通过下述子步骤实现：

子步骤S2041：基于所述音素向量构建输入数据。

例如，将音素向量和各音素下待合成文本中的位置信息进行拼接，从而形成输入数据。

子步骤S2042：将所述输入数据输入训练的语音合成模型的编码器中，并获得所述编码器输出的各音素对应的基频和所述能量信息，作为所述语音特征。

将输入数据输入到编码器中，编码器对输入数据进行处理，从而输出各音素对应的基频（F0）和能量信息（energy）。

基频在一定程度上影响了合成出的目标语音的音调高低，因而也会对目标语音的语气产生一定的影响。

能量信息影响目标语音的音量大小，也可以体现目标语音的逻辑重音等。

子步骤S2043：获得所述编码器输出的携带有口音信息的语音后验图。

由于语音后验图中指示了个各音素对应的发音、以及持续时长，而这两者表征了口音信息。该语音后验图是模型根据音素预测出的，所需口音的语音后验图。

步骤S206：根据所述语音特征和所述语音后验图，生成语音频谱。

在一可行方式中，如图4所示，步骤S206可以通过下述子步骤实现：

子步骤S2061：获取说话人向量，所述说话人向量中携带有说话人的音色信息。

为了使生成的目标语音更加真实，使得目标语音的音色更加贴近真实人声，在解码器中不仅输入语音特征（其中包括各音素对应的基频和能量）和语音后验图，而且还可以输入说话人向量，说话人信息中携带有说话人的音色。说话人向量可以在解码器训练阶段获得。

子步骤S2062：将所述语音特征、所述语音后验图和所述说话人向量输入到所述语音合成模型的解码器中，并获得所述解码器输出的梅尔频谱作为所述语音频谱。

梅尔频谱可以准确地指示目标语音的声学特征，从而保证生成的目标语音的真实性。

步骤S208：基于所述语音频谱输出与所述待合成文本对应的目标语音，所述目标语音的口音与所述口音信息匹配。

在一可行方式中，通过步骤S208可以实现为：将所述语音频谱输入到声码器中，获得所述声码器输出的多个语音帧作为所述待合成文本对应的目标语音。

通过这种方式可以生成真实的、非普通话口音的目标语音，从而提升可合成语音的丰富性。本实施例创新性地将语音后验图(Phonetic PosteriorGrams,PPGs)应用于重口音（也就是非普通话）的语音合成中，从而实现了在使用较少的非普通话的音频的情况下进行自动的带口音的语音的合成，解决了现有技术中由于带有口音的音频不足，无法合成带口音的语音的问题。

实施例二

参照图5，示出了本申请实施例二的一种神经网络模型训练方法的步骤流程示意图。

该方法用于训练前述的语音合成模型，其包括以下步骤：

步骤S502：使用第一口音对应的音频样本对所述语音合成模型进行训练，以获得初始训练的语音合成模型。

其中，第一口音可以是普通话，或者其他样本量比较多（即音频时长比较长）的口音类型。

本实施例中，为了解决非普通话口音的音频样本量不足，难以使用非普通话口音的音频样本训练出能够使用的、带口音的语音合成模型的问题，使用样本量较大的普通话的音频样本对语音合成模型进行训练，以获得初始训练的语音合成模型。

在一示例中，如图6所示，步骤S502包括以下子步骤：

子步骤S5021：从所述第一口音对应的音频样本中提取出语音特征和语音后验图。

语音特征包括但不限于第一口音对应的音频样本中各音素的基频和能量。其获取方式可以采用任何适当的、已知的方式获得，对此不作限制。

语音后验图可以使用Pytorch-Kaldi进行提取，但不限于此，也可以采用其他的能够提取语音后验图的方式提取获得。

子步骤S5022：获取说话人向量。

在训练过程中，第一次训练时，说话人向量可以随机初始化。非第一次训练时，说话人向量可以调整后的说话人向量。

子步骤S5023：将所述语音特征、语音后验图和所述说话人向量输入所述语音合成模型的解码器，并获取所述解码器输出的语音频谱。

子步骤S5024：使用语音合成模型的声码器基于所述语音频谱生成目标语音。

子步骤S5025：根据所述目标语音和所述音频样本，对所述说话人向量进行调整，并以调整后的说话人向量作为新的说话人向量，返回将所述语音特征、语音后验图和所述说话人向量输入所述语音合成模型的解码器继续执行，直至满足第一终止条件，以获得训练的解码器和说话人向量。

在训练过程中，由于说话人向量表征的音色等和真实的说话人之间可能存在差别，且解码器对音频样本的特征提取的准确度可能不足，因此合成出的目标语音和音频样本之间可能存在偏差，故而可以基于目标语音和音频样本计算损失值，再根据损失值对说话人向量和解码器的参数进行调整。

以调整后的说话人向量作为新的说话人向量，返回子步骤S5023继续执行，直至满足第一终止条件。终止条件可以是达到设定的训练次数，或者解码器满足收敛条件，对此不作限制。通过上述子步骤可以获得训练的解码器。

如图7所示，基于训练的解码器，可以通过下述子步骤对编码器进行训练。

子步骤S5026：获取所述第一口音的音频样本对应的文本样本的音素向量样本。

可以采用任何适当的、已知方式获得音素向量样本，对此不作限制。

子步骤S5027：将所述音素向量样本输入所述语音合成模型的编码器内，并获得所述编码器输出的语音特征和语音后验图。

如前所述，编码器可以预测出各音素的基频和能量作为语音特征，以及预测出语音后验图。

子步骤S5028：将所述语音特征、所述语音后验图和训练的说话人向量输入训练的解码器，以获得训练的解码器输出的语音频谱。

子步骤S5029：使用语音合成模型的声码器基于所述语音频谱生成目标语音。

子步骤S50210：根据所述目标语音和所述音频样本，对所述编码器进行调整，并返回将所述音素向量样本输入所述语音合成模型的编码器内的步骤继续执行，直至满足终止条件，以获得训练的编码器。

基于目标语音和音频样本计算损失值，根据损失值对编码器进行调整，再返回子步骤S5027继续执行，直至满足第二终止条件。第二终止条件可以是满足训练次数，或者编码器达到收敛，对此不作限制。

步骤S504：使用第二口音对应的音频样本对初始训练的所述语音合成模型进行训练，以获得二次训练的语音合成模型，所述第一口音对应的音频样本的时长大于所述第二口音对应的音频样本。

为了使语音合成模型能够合成出真实的、非普通话的目标语音，在使用普通话的音频样本对语音合成模型进行训练后，还可以使用第二口音的音频样本对其进行调整，从而获得与第二口音对应的语音合成模型。

第二口音可以是非普通话的口音，其所需的音频样本的时长可以短于第一口音的音频样本的时长，这样保证了在音频样本的时长较少的情况下训练出较好的语音合成模型。使用第二口音的音频样本对初始语音合成模型进行二次训练的过程与前述的子步骤S5021~步骤S50210的过程类似，故不再赘述。

本实施例中，语音合成模型可以基于FastSpeech模型进行改进，使得改进后的语音合成模型能够预测跨越说话人和语言边界的语音后验图(Phonetic PosteriorGrams,PPGs)，继而使用语音后验图和归一化对数尺度基频(Log-F0)、能量等来解决普通话和其他语言之间的语音和韵律不匹配问题，从而实现端到端的、能够合成重口音的语音合成模型。

由于引入了语言后验图，该语音合成模型很好地适应了其他口音的音频样本量不足，难以在FastSpeech模型上直接训练出能够合成带口音的语音合成模型的问题，克服了重口音的音频样本稀疏的困难（FastSpeech模型训练所使用的音频样本时长需要将近24小时，而改进后语音合成模型（也可以称为PPG_FS）仅需要重口音音频样本数据两小时），也解决了重口音语言标注困难、重口音的音素发音与其本身发音的音调有差异，合成的效果尚不可控的问题，很容易地适应一个数据资源有限的重口音语言的训练以及实现说话人的声音转换。

我们在低数据资源的湖南重口音和东北重口音数据上进行了尝试，实验表明，该模型可以合成可懂度高且自然流畅的重口音语音。

由于在语音合成模型训练阶段，使用普通话的音频样本（也称为语料），但是在用重口音数据进行微调时，仍保持训练出的普通话的说话人向量不变，使得语音合成模型在最终使用时能合成用普通话的说话人的声音讲重口音语言的效果，进一步丰富了目标语音。

该模型中融入了语音后验图，而语音后验图可以在保留声音信息的同时排除说话人身份，因此可以作为说话人和语言信息的桥梁，利用语音后验图的语言无关的特性，来进行跨越普通话和重口音的语言音素后验表征，充分解决了不同口音之间音素和韵律的匹配关系不同，造成不同口音的音频样本训练出的模型不同转用的问题，从而实现较好的训练效果。此外，利用基频来进一步补偿韵律和音素之间不匹配的问题，实现通过大量普通话语料进行训练并用少量重口音语料微调的方法，达到说话人声音转换的重口音语音合成，即用普通话人的音色讲带有其他口音的目标语音，利用前述的模型和方法可以是将文本转换为逼真语音，继而进行人工智能服务。

实施例三

参照图8，示出了本申请实施例三的语音合成装置的结构框图。

本实施例中，该装置，包括：

获取模块802，用于获取待合成文本的音素向量；

预测模块804，用于从所述音素向量中预测出各音素对应的语音特征和语音后验图，所述语音后验图中携带有口音信息；

生成模块806，用于根据所述语音特征和所述语音后验图，生成语音频谱；

合成模块808，用于基于所述语音频谱输出与所述待合成文本对应的目标语音，所述目标语音的口音与所述口音信息匹配。

可选地，所述语音特征包括各音素对应的基频和各音素对应的能量信息，预测模块804用于基于所述音素向量构建输入数据；将所述输入数据输入训练的语音合成模型的编码器中，并获得所述编码器输出的各音素对应的基频和所述能量信息，作为所述语音特征；获得所述编码器输出的携带有口音信息的语音后验图。

可选地，生成模块806用于获取说话人向量，所述说话人向量中携带有说话人的音色信息；将所述语音特征、所述语音后验图和所述说话人向量输入到所述语音合成模型的解码器中，并获得所述解码器输出的梅尔频谱作为所述语音频谱。

可选地，合成模块808用于将所述语音频谱输入到声码器中，获得所述声码器输出的多个语音帧作为所述待合成文本对应的目标语音。

本实施例的装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例四

参照图9，示出了本申请实施例四的一种神经网络模型训练装置的结构框图。

该装置包括：

第一训练模块902用于使用第一口音对应的音频样本对所述语音合成模型进行训练，以获得初始训练的语音合成模型；

第二训练模块904用于使用第二口音对应的音频样本对初始训练的所述语音合成模型进行训练，以获得二次训练的语音合成模型，所述第一口音对应的音频样本的时长大于所述第二口音对应的音频样本。

可选地，第一训练模块902用于从所述第一口音对应的音频样本中提取出语音特征和语音后验图；获取说话人向量；将所述语音特征、语音后验图和所述说话人向量输入所述语音合成模型的解码器，并获取所述解码器输出的语音频谱；使用语音合成模型的声码器基于所述语音频谱生成目标语音；根据所述目标语音和所述音频样本，对所述说话人向量进行调整，并以调整后的说话人向量作为新的说话人向量，返回将所述语音特征、语音后验图和所述说话人向量输入所述语音合成模型的解码器继续执行，直至满足第一终止条件，以获得训练的解码器和说话人向量。

可选地，第一训练模块902还用于获取所述第一口音的音频样本对应的文本样本的音素向量样本；将所述音素向量样本输入所述语音合成模型的编码器内，并获得所述编码器输出的语音特征和语音后验图；将所述语音特征、所述语音后验图和训练的说话人向量输入训练的解码器，以获得训练的解码器输出的语音频谱；使用语音合成模型的声码器基于所述语音频谱生成目标语音；根据所述目标语音和所述音频样本，对所述编码器进行调整，并返回将所述音素向量样本输入所述语音合成模型的编码器内的步骤继续执行，直至满足第二终止条件，以获得训练的编码器。

实施例五

参照图10，示出了根据本申请实施例五的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图10所示，该电子设备可以包括：处理器(processor)1002、通信接口(Communications Interface)1004、存储器(memory)1006、以及通信总线1008。

其中：

处理器1002、通信接口1004、以及存储器1006通过通信总线1008完成相互间的通信。

通信接口1004，用于与其它电子设备或服务器进行通信。

处理器1002，用于执行程序1010，具体可以执行上述方法实施例中的相关步骤。

具体地，程序1010可以包括程序代码，该程序代码包括计算机操作指令。

处理器1002可能是处理器CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1006，用于存放程序1010。存储器1006可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序1010具体可以用于使得处理器1002执行前述的方法对应的操作。

程序1010中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音合成方法，包括：

获取待合成文本的音素向量；

从所述音素向量中预测出各音素对应的语音特征和语音后验图，所述语音后验图中携带有口音信息；

根据所述语音特征和所述语音后验图，生成语音频谱；

基于所述语音频谱输出与所述待合成文本对应的目标语音，所述目标语音的口音与所述口音信息匹配。

2.根据权利要求1所述的方法，其中，所述语音特征包括各音素对应的基频和各音素对应的能量信息，所述从所述音素向量中预测出各音素对应的语音特征和语音后验图，包括：

基于所述音素向量构建输入数据；

将所述输入数据输入训练的语音合成模型的编码器中，并获得所述编码器输出的各音素对应的基频和所述能量信息，作为所述语音特征；

获得所述编码器输出的携带有口音信息的语音后验图。

3.根据权利要求2所述的方法，其中，所述根据所述语音特征和所述语音后验图，生成语音频谱，包括：

获取说话人向量，所述说话人向量中携带有说话人的音色信息；

将所述语音特征、所述语音后验图和所述说话人向量输入到所述语音合成模型的解码器中，并获得所述解码器输出的梅尔频谱作为所述语音频谱。

4.根据权利要求1所述的方法，其中，所述基于所述语音频谱输出与所述待合成文本对应的目标语音，包括：

将所述语音频谱输入到声码器中，获得所述声码器输出的多个语音帧作为所述待合成文本对应的目标语音。

5.一种语音合成模型，包括编码器、解码器和声码器，所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图，所述语音后验图中携带有口音信息，所述解码器用于基于所述语音特征和所述语音后验图，确定语音频谱，所述声码器用于根据所述语音频谱生成所述待合成文本对应的目标语音，所述目标语音的口音与所述语音后验图中的口音信息匹配。

6.根据权利要求5所述的语音合成模型，其中，所述编码器包括多个编码模块和方差适配器，所述编码模块用于从待合成文本的音素向量中提取上下文信息，所述方差适配器用于基于所述编码模块的输出数据预测所述语音特征和所述语音后验图。

7.根据权利要求5所述的语音合成模型，其中，所述解码器包括多个解码模块，所述解码模块用于基于输入的语音特征、语音后验图和预设的说话人向量，生成语音频谱。

8.一种神经网络模型训练方法，所述方法用于训练权利要求5或6所述的语音合成模型，所述方法包括：

使用第一口音对应的音频样本对所述语音合成模型进行训练，以获得初始训练的语音合成模型；

使用第二口音对应的音频样本对初始训练的所述语音合成模型进行训练，以获得二次训练的语音合成模型，所述第一口音对应的音频样本的时长大于所述第二口音对应的音频样本。

9.根据权利要求8所述的方法，其中，所述使用第一口音对应的音频样本对所述语音合成模型进行训练，包括：

从所述第一口音对应的音频样本中提取出语音特征和语音后验图；

获取说话人向量；

将所述语音特征、语音后验图和所述说话人向量输入所述语音合成模型的解码器，并获取所述解码器输出的语音频谱；

使用语音合成模型的声码器基于所述语音频谱生成目标语音；

根据所述目标语音和所述音频样本，对所述说话人向量进行调整，并以调整后的说话人向量作为新的说话人向量，返回将所述语音特征、语音后验图和所述说话人向量输入所述语音合成模型的解码器继续执行，直至满足第一终止条件，以获得训练的解码器和说话人向量。

10.根据权利要求9所述的方法，其中，所述使用第一口音对应的音频样本对所述语音合成模型进行训练，还包括：

获取所述第一口音的音频样本对应的文本样本的音素向量样本；

将所述音素向量样本输入所述语音合成模型的编码器内，并获得所述编码器输出的语音特征和语音后验图；

将所述语音特征、所述语音后验图和训练的说话人向量输入训练的解码器，以获得训练的解码器输出的语音频谱；

根据所述目标语音和所述音频样本，对所述编码器进行调整，并返回将所述音素向量样本输入所述语音合成模型的编码器内的步骤继续执行，直至满足第二终止条件，以获得训练的编码器。

11.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的方法对应的操作。

12.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。

13.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-10中任一所述的方法对应的操作。