CN117953855A

CN117953855A - 语音合成模型的训练方法、语音合成方法及设备

Info

Publication number: CN117953855A
Application number: CN202410346345.6A
Authority: CN
Inventors: 赵之源; 李昱; 余飞; 周昌印; 幺宝刚
Original assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Current assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117953855B

Abstract

本申请公开了一种语音合成模型的训练方法、语音合成方法及设备，该训练方法包括基于第一训练语音数据集对初始语音转换模型进行训练以得到目标语音转换模型；基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集；基于各训练语音组训练初始语音重建模型以得到目标语音重建模型；基于目标语音转换模型和目标语音重建模型确定语音合成模型。本申请先用低质量语音加强泛化性，再用高质量语音进行重建，减少了高质量语音的需求量，降低了高质量零样本的语音合成模型的训练成本，进而降低了零样本语音合成的合成成本。

Description

语音合成模型的训练方法、语音合成方法及设备

技术领域

本申请涉及语音合成技术领域，特别涉及一种语音合成模型的训练方法、语音合成方法及设备。

背景技术

随着文本转语音(Text to Speech，TTS)技术的发展，越来越多的领域采用该种技术，以提高用户的体验。比如，通过预先设置智能设备上语音助手对某一问题的回答内容，以使后续用户在请求语音助手回答该问题时，即可输出语音形式的回答内容。现有技术中，为了提高合成语音的语音质量，普遍是采用高质量第一训练语音来完成语音合成模型训练，以便于基于训练得到的语音合成模型来得到文本信息对应的语音信息。然而，高质量第一训练语音需要花费高昂成本，这就会增加语音合成模型的训练成本，从而增加语音合成的合成成本。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种语音合成模型的训练方法、语音合成方法及设备。

为了解决上述技术问题，本申请第一方面提供了一种语音合成模型的训练方法，其中，所述的语音合成模型的训练方法具体包括：

基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，其中，所述第一训练语音包括说话人声音和说话内容；

基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集，其中，第二训练语音的语音质量高于第一训练语音的语音质量；

基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；

基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。

所述的语音合成模型的训练方法，其中，所述基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，具体包括：

基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的训练数据的第一预测梅尔频谱，并基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化；

当所述第一编解码模块训练完成时，基于所述第一训练语音数据集中的第一训练语音对所述初始语音转换模型中的第一声码器的模型参数进行优化，以得到目标语音转换模型。

所述的语音合成模型的训练方法，其中，所述基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型具体包括：

基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的第一训练语音的第一预测梅尔频谱；

将所述第一预测梅尔频谱输入所述初始语音转换模型中的第一声码器得到第二转换语音；

基于第一预测梅尔频谱和所述说话人声音的原始梅尔频谱确定第一损失函数项，并基于第二转换语音和第一训练语音确定第二损失函数项；

根据所述第一损失函数项和所述第二损失函数项确定第三损失函数项，并采用所述第三损失函数项来对初始语音转换模型进行训练，以得到目标语音转换模型。

所述的语音合成模型的训练方法，其中，所述基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的第一训练语音的第一预测梅尔频谱具体包括：

通过所述第一编解码模块中的说话人编码器对说话人声音进行编码，以得到说话人特征向量；

通过所述第一编解码模块中的内容编码器对说话内容进行编码，以得到内容特征向量；

将所述说话人特征向量和所述内容特征向量进行拼接，得到拼接向量；

通过所述第一编解码模块中的解码器对所述拼接向量进行解码，以得到第一预测梅尔频谱。

所述的语音合成模型的训练方法，其中，所述基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化具体包括：

根据所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱，确定第一损失函数项；

基于第一损失函数项对第一编解码模块的模型参数进行优化，直至达到训练结束条件，以完成所述第一编解码模块的训练。

所述的语音合成模型的训练方法，其中，所述基于所述第一训练语音数据集中的第一训练语音对所述第一声码器的模型参数进行优化，以得到目标语音转换模型具体包括：

将所述第一训练语音数据集中的训练数据输入所述第一编解码模块，通过所述第一编解码模块输出第一预测梅尔频谱；

将所述第一预测梅尔频谱输入所述第一声码器，通过所述第一声码器输出第二转换语音，基于第二转换语音和第一训练语音确定第二损失函数项；

基于所述第二损失函数项对所述第一声码器进行训练，以得到目标语音转换模型。

所述的语音合成模型的训练方法，其中，所述的基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音具体包括：

对第二训练语音数据集中的各第二训练语音进行降采样以得到各第二训练语音对应的降采样语音，其中，所述降采样语音的采样率与所述第一训练语音数据集中的第一训练语音的采样率相同；

将各降采样语音输入所述目标语音转换模型，通过所述目标语音转换模型输出各降采样语音对应的第一转换语音。

所述的语音合成模型的训练方法，其中，所述基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型具体包括：

基于初始语音重建模型提取训练语音组中的第一转换语音的第二预测梅尔频谱，并基于所述第二预测梅尔频谱确定预测重建语音；

基于所述预测重建语音和训练语音组中的第二训练语音对所述初始语音重建模型进行训练，以得到目标语音重建模型。

本申请第二方面提供了一种语音合成方法，使用如上所述的语音合成模型的训练方法所得到的语音合成模型，所述语音合成方法具体包括：

将待合成的说话内容和说话内容对应的目标说话人声音输入所述语音合成模型中的目标语音转换模型，通过目标语音转换模型得到待合成的说话内容对应的第三转换语音；

将所述第三转换语音输入所述语音合成模型中的目标语音重建模型，通过所述目标语音重建模型输出所述待合成的说话内容对应的目标合成语音。

本申请第三方面提供了一种语音合成模型得到训练装置，其中，所述的语音合成模型得到训练装置具体包括：

第一训练模块，用于基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，其中，所述第一训练语音包括说话人声音和说话内容；

构建模块，用于基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集，其中，第二训练语音的语音质量高于第一训练语音的语音质量；

第二训练模块，用于基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；

确定模块，用于基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的语音合成模型的训练方法中的步骤，和/或以实现如上所述的语音合成方法中的步骤。

本申请第五方面提供了一种终端设备，其包括：处理器和存储器；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上所述的语音合成模型的训练方法中的步骤，和/或实现如上所述的语音合成方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种语音合成模型的训练方法、语音合成方法及设备，所述语音合成模型的训练方法包括基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型；基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集；基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。本申请实施例先通过低质量的第一训练样本集第二训练目标语音转换模型，再通过目标语音转换模型和高质量的第二训练样本集来训练目标语音重建模型，基于目标语音转换模型和目标语音重建模型来得到语音合成模型，这样先用低质量语音加强泛化性，再用高质量语音进行重建，可以减少高质量语音的需求量，从而可以降低高质量零样本的语音合成模型的训练成本，进而可以降低零样本语音合成的合成成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音合成模型的训练方法的流程图。

图2为本申请实施例提供的语音合成方法的原理流程图。

图3为本申请实施例提供的语音合成模型的训练装置的结构原理图。

图4为本申请实施例提供的终端设备的结构原理图。

具体实施方式

本申请实施例提供一种语音合成模型的训练方法、语音合成方法及设备，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种语音合成模型的训练方法，如图1所示，所述方法包括：

S10、基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型。

具体地，第一训练语音数据集包括若干第一训练语音，若干第一训练语音中的每个第一训练语音均包括说话人声音和说话内容，其中，说话内容可以为文本数据，也可以为语音数据。例如，第一训练语音数据集为通过采用16kHz采样率进行采样得到的低质量数据集，第一训练语音包括说话人声音和对应的说话内容，其中，说话人声音可以为多个。

初始语音转换模型为初始网络模型，通过对初始语音转换模型的模型参数进行优化可以得到目标语音转换模型。也就是说，初始语音转换模型的模型结构与目标语音转换模型的模型结构相同，两者的区别在于，初始语音转换模型的模型参数为初始参数，目标语音转换模型的模型参数为经过第一训练语音数据集训练后的模型参数，其中，模型参数可以为初始语音转换模型所包括的各网络层的层参数、权重等。基于此，这里以语音转换模型为例来对模型结构进行说明。初始语音转换模型可以采用YourTTS目标语音转换模型、TTS模型等。在本申请实施例中，所述初始语音转换模型采用YourTTS目标语音转换模型。具体地，初始语音转换模型包括第一编解码模块和第一声码器，第一编解码模块与第一声码器相连接，第一编解码模块用于提取第一训练语音对应的梅尔频谱，第一声码器用于将梅尔频谱转换为语音数据。当然，在实际应用中，初始语音转换模型可以采用其他目标语音转换模型，例如，TTS模型。

需要说明的是，初始语音转换模型中的第一编解码模块和第一声码器可以同步训练，也可以分别训练，其中，同步训练指的是在初始语音转换模型的训练过程中，同步对第一编解码模块和第一声码器的模型参数进行优化。分别训练指的是先对第一编解码模块进行优化，在第一编解码模块满足训练要求时冻结第一声码器的模型参数，再对第一声码器的模型参数进行优化。

在申请实施例的一个实现方式中，初始语音转换模型中的第一编解码模块和第一声码器分别训练，相应的，所述基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型具体包括：

S11、基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的训练数据的第一预测梅尔频谱，并基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化；

S12、当所述第一编解码模块训练完成时，基于所述第一训练语音数据集中的第一训练语音对所述初始语音转换模型中的第一声码器的模型参数进行优化，以得到目标语音转换模型。

具体地，在步骤S11中，第一编解码模块的输入项为第一训练语音，输出项为第一预测梅尔频谱。其中，第一训练语音包括说话人声音和说话内容，相应的，第一编解码模块的输入项包括说话人声音和说话内容，第一编解码模块通过对说话人声音和说话内容进行编解码来得到第一预测梅尔频谱。其中，在对第一编解码模块进行训练时，可以冻结第一声码器的模型参数。

所述第一编解码模块包括编码器和解码器，又由于输入项包括说话人声音和说话内容，从而编码器包括说话人编码器和内容编码器，说话人编码器用于对说话人声音进行编码，内容编码器用于对说话内容进行编码，解码器用于对通过说话人编码器和内容编码器编码得到的特征进行解码。基于此，所述基于所述第一编解码模块确定所述第一训练语音数据集中的第一训练语音的第一预测梅尔频谱具体包括：

S111、通过所述第一编解码模块中的说话人编码器对说话人声音进行编码，以得到说话人特征向量；

S112、通过所述第一编解码模块中的内容编码器对说话内容进行编码，以得到内容特征向量；

S113、将所述说话人特征向量和所述内容特征向量进行拼接，得到拼接向量；

S114、通过所述第一编解码模块中的解码器对所述拼接向量进行解码，以得到第一预测梅尔频谱。

具体地，内容编码器可以为文本编码器，也可以为语音编码器。也就是说，内容编码器可以包括文本编码器和语音编码器，在对说话内容进行编码时，会根据说话内容的数据类型来选取对应的编码器。具体为：当说话内容为文本数据类型时，选取文本编码器作为内容编码器，当说话内容为语音数据类型时，选择语音编码器作为内容编码器。当然，在实际应用中，说话内容可以部分为文本数据，部分为语音数据，那么将文本编码器和语音编码器同时作为内容编码器，通过文本编码器对文本数据类型的说话内容进行编码；通过内容编码器对语音数据类型的说话内容进行编码。

在通过说话人编码器对说话人特征向量提取时，通过说话人编码器对说话人声音所包括的所有语句对应的语句特征向量，然后再根据获取到所有语句特征向量来确定说话人声音。其中，在根据获取到所有语句特征向量来确定说话人声音时，可以将所有语句特征向量的平均值作为说话人特征向量，以使得目标语音转换模型可以更容易学习到说话人的整体风格；还可以将各语句特征向量进行拼接来得到说话人特征向量，以使得目标语音转换模型可以更容易学习到说话人声音的韵律。

在获取到说话人特征向量和内容特征向量后，将说话人特征向量和内容特征向量进行拼接以得到拼接向量，其中，说话人特征向量和内容特征向量的拼接顺序可以为说话人特征向量－内容特征向量，也可以为内容特征向量－说话人特征向量。在本申请实施中，拼接顺序为内容特征向量－说话人特征向量。此外，在获取到拼接向量后，将拼接向量作为解码器的输入项，通过解码器输出第一预测梅尔频谱，然后基于第一预测梅尔频谱和说话人声音的原始梅尔频谱来训练第一编解码模块。

在一个实现方式中，所述基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化具体包括：

具体地，在获取到第一预测梅尔频谱后，可以基于第一预测梅尔频谱和说话人声音的原始梅尔频谱来构建第一损失函数项，并基于第一损失函数来对第一编解码模块的模型参数进行训练，直至达到训练结束条件，以使得第一编解码模块可以学到说话人的语音风格，其中，原始梅尔频谱可以通过对说话人声音进行傅里叶变换得到的，用于反映说话人的语音风格，其中，语音风格可以包括音色和韵律等。训练结束条件可以为训练次数达到预设次数，或者是，第一损失函数项满足损失要求（例如，第一损失函数项小于预设损失阈值等），或者是，满足训练次数达到预设次数和第一损失函数项满足损失要求中的任意一项等。第一损失函数项可以采用损失函数确定，相应的，第一损失函数项可以表示为：

，

其中，表示第一损失函数项，/>表示原始梅尔频谱，/>表示第一预测梅尔频谱。

进一步，在步骤S12中，在对第一声码器的模型参数进行优化时，会冻结第一编解码模块的模型参数。其中，在对第一声码器的模型参数进行优化时，第一声码器的输入项为第一预测梅尔频谱，输出项为第二转换语音，然后基于第二转换语音和说话人声音来对第一声码器的模型参数进行优化。具体地，在一个实现方式中，所述基于所述第一训练语音数据集中的第一训练语音对所述第一声码器的模型参数进行优化可以具体包括：

S121、将所述第一训练语音数据集中的第一训练语音输入所述第一编解码模块，通过所述第一编解码模块输出第一预测梅尔频谱；

S122、将所述第一预测梅尔频谱输入所述第一声码器，通过所述第一声码器输出第二转换语音；

S123、基于所述第二转换语音和所述第一训练语音对所述第一声码器的模型参数进行优化，以得到目标语音转换模型。

具体地，在基于所述第二转换语音和所述第一训练语音对所述第一声码器的模型参数进行优化时，可以计算第二转换语音和所述第一训练语音间的预测语音误差，然后基于预测语音误差来对第一声码器的模型参数进行优化，以得到目标语音转换模型。其中，预测语音误差可以采用最小二乘损失函数和特征匹配损失函数计算得到的。

在另一个实现方式中，可以对初始语音转换模型中的第一编解码模块和第一声码器进行同步训练，或者是在分别对第一编解码模块和第一声码器进行训练得到目标语言转换模型后，可以在同步对目标语音转换模型中的第一编解码模块和第一声码器进行同步训练。也就是说，可以将目标语音转换模型作为初始语音转换模型，并执行对初始语音转换模型中的第一编解码模块和第一声码器进行同步训练的过程。其中，对初始语音转换模型中的第一编解码模块和第一声码器进行同步训练得到的目标语音转换模型的过程可以为：

将所述第一预测梅尔频谱输入第一声码器得到第二转换语音；

具体地，第一编解码模块和第一声码器的处理过程与上述相同，这里就不再赘述，这里仅对同步训练过程中的第三损失函数项的确定过程进行说明。在第一编解码模块和第一声码器同步训练时，可以将第一训练语音输入第一编解码模块来得到第一预测梅尔频谱，然后将第一预测梅尔频谱输入第一声码器得到第二转换语音，然后基于第一预测梅尔频谱和原始梅尔频谱确定第一损失函数项，基于第二转换语音和说话人声音确定第二损失函数项，然后将第一损失函数项和第二损失函数项相加或者加权等来确定第三损失函数项，最后采用所述第三损失函数项来对初始语音转换模型进行训练，以得到经过训练的目标语音转换模型。

S20、基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集。

具体地，第二训练语音数据集包括若干第二训练语音，若干第二训练语音中的每个第二训练语音的语音质量均高于第三训练语音数据集中的说话人声音的语音质量。也就是说，相对于第一训练语音数据集而言，第二训练语音数据集为高质量数据集，例如，第二训练语音数据集为LibriTTS-R语音数据集，第一训练语音数据集为采用16kHz采样率的语音数据集进行采样得到的。此外，由于第二训练语音的语音质量高于第三训练语音数据集中的说话人声音的语音质量，从而第二训练语音的采样率高于第三训练语音数据集中的说话人声音的采样率，例如，第二训练语音为44kHz采样率的语音数据，第三训练语音数据集中的说话人声音为16kHz采样率的语音数据。

训练语音组包括第二训练语音和训练语音组第一转换语音，其中，第一转换语音为通过目标语音转换模型对第二训练语音进行转换得到的，并且第一转换语音的语音质量低于第二训练语音的语音质量。具体地，基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音的具体确定过程可以为：

对第二训练语音数据集中的各第二训练语音进行降采样以得到各第二训练语音对应的降采样语音；

具体地，第二训练语音的采样率高于第一训练语音中的说话人声音的采样率，而目标语音转换模型的输入项为说话人声音。从而，需要对第二训练语音进行降采样，以使得降采样语音的采样率与第一训练语音中的说话人声音的采样率相同。例如，第二训练语音的采样率为44kHz，第一训练语音中的说话人声音的采样率为16kHz，那么需要将第二训练语音降采样为16kHz，也就是说，降采样语音的采样率为16kHz。

在获取到降采样语音后，可以将降采样语音作为目标语音转换模型的输入项，通过目标语音转换模型确定降采样语音对应的第一转换语音。其中，在通过目标语音转换模型确定降采样语音对应的第一转换语音时，可以将降采样语音同时作为说话人声音和说话内容，分别输入目标语音转换模型中的说话人编码器和内容编码器；也可以先对降采样语音进行文本转换，得到降采样语音对应的文本数据，然后将转换得到的文本数据作为说话内容，将降采样语音作为说话人声音，将文本数据输入目标语音转换模型中的内容编码器，将降采样语音输入目标语音转换模型中的说话人编码器。本申请实施例通过采用目标语音转换模型将第二训练语音转换为低质量的第一转换语音，并且可以保持第二训练语音的语音特征不变，从而可以得到具有语音特征不变的低质量语音和高质量语音从而可以直接采用现有的高质量语音数据来第二训练目标语音重建模型，进而可以降低目标语音重建模型的训练成本，进而可以降低语音合成模型的训练成本。其中，语音特征可以包括说话人特征、韵律、说话内容等保持不变。

S30、基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型。

具体地，初始语音重建模型为初始网络模型，例如，初始网络模型为去掉说话者编码模块的SVC模型等，通过对初始语音重建模型的模型参数进行优化可以得到目标语音重建模型。也就是说，初始语音转换模型的模型结构与目标语音转换模型的模型结构相同，两者的区别在于，初始语音重建模型的模型参数为初始参数，目标语音重建模型的模型参数为经过第三训练语音数据集训练后的模型参数。目标语音重建模型用于对低质量语音进行重建以得到高质量语音，这样通过目标语音重建模型可以提高目标语音转换模型得到的第一转换语音的语音质量，从而可以得到基于语音合成模型确定的合成语音的语音质量。

在一个实现方式中，所述基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型具体包括：

S31、基于初始语音重建模型提取训练语音组中的第一转换语音的第二预测梅尔频谱，并基于所述第二预测梅尔频谱确定预测重建语音；

S32、基于所述预测重建语音和训练语音组中的第二训练语音对所述初始语音重建模型进行训练，以得到目标语音重建模型。

具体地，初始语音重建模型为基于深度学习构建的神经网络模型，用于将低质量语音重建为高质量语音，其中，初始语音重建模型可以采用现有神经网络模型，例如，采用去掉说话人编码器的SVC模型等。在本申请实施例中，所述初始语音重建模型包括第二编解码模块和第二声码器，第二编解码模块与第二声码器相连接，第二编解码模块的输入项为降采样语音，输出项为第二预测梅尔频谱，第二声码器的输入项为第二预测梅尔频谱，输出项为预测重建语音。其中，预测重建语音的采样率与第二训练语音对应的采样率相同。

在获取到预测重建语音后，可以根据预测重建语音和第二训练语音构建损失函数项，然后基于构建得到的损失函数项对初始语音重建模型进行训练，以得到目标语音重建模型，其中，损失函数项可以采用最小二乘损失函数和特征匹配损失函数进行计算得到的。

S40、基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。

具体地，语音合成模块包括目标语音转换模型和所述目标语音重建模型，目标语音转换模型的输出项为目标语音重建模型的输入项。本申请通过对语音合成模型包括的目标语音转换模型和目标语音重建模型进行分阶段训练，能够充分利用低质量数据集和第二训练语音数据集，这样可以一方面通过低成本就可以使得语音合成模型可以得到高质量的合成语音，另一方面可以提高语音合成模型的泛化性，且降低了语音合成模型对算力的要求。

综上所述，本实施例提供了一种语音合成模型的训练方法、语音合成方法及设备，所述语音合成模型的训练方法包括基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型；基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集；基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。本申请实施例先通过低质量的第一训练样本集第二训练目标语音转换模型，再通过目标语音转换模型和高质量的第二训练样本集来训练目标语音重建模型，基于目标语音转换模型和目标语音重建模型来得到语音合成模型，这样先用低质量语音加强泛化性，再用高质量语音进行重建，可以减少高质量语音的需求量，从而可以降低高质量零样本的语音合成模型的训练成本，进而可以降低零样本语音合成的合成成本。

基于上述语音合成模型的训练方法，本实施例提供了一种语音合成方法，如图2所示，使用如上所述的语音合成模型的训练方法所得到的语音合成模型，所述语音合成方法具体包括：

基于上述语音合成模型的训练方法，本实施例提供了一种语音合成模型得到训练装置，如图3所示，所述的语音合成模型得到训练装置具体包括：

第一训练模块100，用于基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，其中，所述第一训练语音包括说话人声音和说话内容；

构建模块200，用于基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集，其中，第二训练语音的语音质量高于第一训练语音的语音质量；

第二训练模块300，用于基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；

确定模块400，用于基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。

基于上述语音合成模型的训练方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的语音合成模型的训练方法中的步骤。

基于上述语音合成模型的训练方法，本申请还提供了一种终端设备，如图4所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述的语音合成模型的训练方法具体包括：

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，具体包括：

基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的第一训练语音的第一预测梅尔频谱，并基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化；

3.根据权利要求1或2所述的语音合成模型的训练方法，其特征在于，所述基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型具体包括：

4.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的第一训练语音的第一预测梅尔频谱具体包括：

5.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化具体包括：

6.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述第一训练语音数据集中的第一训练语音对所述第一声码器的模型参数进行优化，以得到目标语音转换模型具体包括：

7.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述的基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音具体包括：

8.根据权利要求1或7所述的语音合成模型的训练方法，其特征在于，所述基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型具体包括：

9.一种语音合成方法，其特征在于，使用如权利要求1-8任意一项所述的语音合成模型的训练方法所得到的语音合成模型，所述语音合成方法具体包括：

10.一种语音合成模型得到训练装置，其特征在于，所述的语音合成模型得到训练装置具体包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任意一项所述的语音合成模型的训练方法中的步骤，和/或以实现如权利要求9所述的语音合成方法中的步骤。

12.一种终端设备，其特征在于，包括：处理器和存储器；

所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的语音合成模型的训练方法中的步骤，和/或实现如权利要求9所述的语音合成方法中的步骤。