CN113470615B

CN113470615B - 跨讲话者风格转移语音合成

Info

Publication number: CN113470615B
Application number: CN202010177212.2A
Authority: CN
Inventors: 潘诗锋; 何磊; 马春玲
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2024-03-12
Anticipated expiration: 2040-03-13
Also published as: WO2021183229A1; CN118116361A; CN113470615A; US20230081659A1; EP4118642A1

Abstract

本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器，基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息。可以通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

Description

跨讲话者风格转移语音合成

背景技术

文本到语音(TTS)合成旨在基于文本输入来生成对应的语音波形。TTS合成广泛地用于语音到语音翻译、对特定用户的语音定制、故事中的角色扮演等。传统的TTS***可以基于文本输入来预测声学特征，并进而基于所预测的声学特征来生成语音波形。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。

在一些实施例中，可以获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器，基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息。可以通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

在另一些实施例中，可以获得训练数据，所述训练数据至少包括第一文本、第一讲话者ID、以及与风格参考音频对应的第二文本、第二讲话者ID和风格参考声学特征。可以通过所述声学模型，至少基于所述第一文本、所述第一讲话者ID以及第一转移风格嵌入向量来生成第一转移声学特征，其中，所述第一转移风格嵌入向量是由所述风格编码器基于所述风格参考声学特征来生成的。可以通过所述声学模型的副本，至少基于所述第二文本、所述第二讲话者ID以及第二转移风格嵌入向量来生成第二转移声学特征，其中，所述第二转移风格嵌入向量是由所述风格编码器的副本基于所述第一转移声学特征来生成的。可以利用所述风格参考声学特征和所述第二转移声学特征来计算循环重构损失。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了示例性的传统风格转移TTS***。

图2示出了根据实施例的在合成阶段中声学模型的示例性工作过程。

图3示出了根据实施例的在合成阶段中声学模型的示例性工作过程。

图4示出了根据实施例的用于训练声学模型的示例性过程。

图5示出了根据实施例的在训练阶段中风格编码器内的示例性数据流。

图6示出了根据实施例的在训练阶段中风格编码器内的示例性数据流。

图7示出了根据实施例的用于训练声学模型的示例性过程。

图8示出了根据实施例的用于训练声学模型的示例性方法的流程图。

图9示出了根据实施例的用于训练声学模型的示例性方法的流程图。

图10示出了根据实施例的用于训练声学模型的示例性装置。

图11示出了根据实施例的用于训练声学模型的示例性装置。

图12示出了根据实施例的用于训练声学模型的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

传统的TTS***可以包括声学(acoustic)模型和声码器(vocoder)。声学模型可以基于文本输入来预测声学特征，例如梅尔谱(mel-spectrum)序列。声码器可以将所预测的声学特征转换成语音波形。通常，声学模型将决定在例如韵律(prosody)、音色(timbre)等方面的语音特性。声学模型可以是依赖于讲话者的，例如，使用目标讲话者的语音数据来进行训练。经训练的TTS***可以将文本输入转换成具有与目标讲话者类似的音色、韵律等的语音。在一些情况下，可能希望以特定的讲话风格(style)来合成语音，例如，采用新闻播报、朗读、讲故事、高兴情感、悲伤情感等方式。在本文中，“风格”指发出语音或讲话的方式，其可以由例如韵律、音色变化等来表征。

一种直接的方式是收集目标讲话者的、采用目标风格的音频数据，并使用这些音频数据来训练TTS***。所训练的TTS***能够以该目标讲话者的声音并以该目标风格来进行语音合成。

另一种方式是在语音合成中进行风格转移。可以获得与目标风格对应的风格嵌入向量并将其引入TTS***，以便将所合成的语音引导向该目标风格。风格转移可以包括单个讲话者风格转移和跨讲话者风格转移。

在单个讲话者风格转移中，可以收集目标讲话者的多个风格的音频数据以用于训练TTS***。所训练的TTS***能够以该目标讲话者的声音并以不同的目标风格来进行语音合成。

在跨讲话者风格转移中，可以收集多个讲话者的、多个风格的音频数据以用于训练TTS***。所训练的TTS***能够以任意目标讲话者的声音并以任意目标风格来进行语音合成。这将显著地增强TTS***的风格施加能力。风格嵌入向量是跨讲话者风格转移中的一个关键影响因素。在一个方面，例如全局风格表示(GST)等技术已被提出用于提取风格嵌入向量。然而，这些技术并不能保证足够的准确性和鲁棒性。在另一个方面，由于风格嵌入向量是在训练期间从所收集的多讲话者多风格音频数据中学习的，其很可能包含讲话者信息或内容信息，这将会降低所合成的语音在韵律、音色等方面的质量。在又一个方面，在TTS***训练期间，作为训练数据的文本输入、讲话者标识和音频通常是配对的，例如，该音频是该讲话者所讲出的并且该讲话者所讲出的内容是该文本输入。因此，在合成阶段或应用该TTS***的阶段，当希望针对某个目标文本以讲话者A的声音来合成语音时，如果将讲话者B的针对不同于目标文本的其它文本的音频或声学特征提供作为风格参考，则所合成的语音的质量将是较低的。这是因为在训练时使用的是配对训练数据，而没有考虑过这种非配对的情形。尽管在一些现有TTS***中提出了可以在训练期间使用非配对输入，其中非配对输入可以指例如所输入的音频是针对与文本输入不同的文本的，但是由于针对该非配对输入所产生的非配对预测结果通常不具有真实(ground truth)标记或有效约束，因此，仍然无法良好地训练出高质量的TTS***。

本公开的实施例提出了对TTS***中的声学模型进行有效训练以预测出高质量的声学特征的方案。特别地，声学模型中的风格编码器可以被良好地训练，以有助于实现跨讲话者风格转移。包括该声学模型的TTS将能够实现更高质量的风格转移语音合成。

在本公开的一些实施例中，提出了在训练声学模型期间，将对抗训练应用于风格编码器以提高风格嵌入向量的质量。

可以采用例如域对抗训练(DAT)的对抗训练机制，以在风格编码器所生成的风格嵌入向量中保留尽可能多的纯风格信息，并且从风格嵌入向量中尽可能多地去除讲话者信息、内容信息等。在进行跨讲话者风格转移语音合成时，期望所合成的语音的音色是目标讲话者的音色。通过DAT，可以避免风格嵌入向量中包含风格参考音频中的参考讲话者的信息，例如参考讲话者的音色信息等，从而避免合成语音的音色被不期望地改变，例如，变成目标讲话者和参考讲话者的音色的混合。相应地，可以提高合成语音的音频逼真度。换句话说，可以将讲话风格有效地转移到目标讲话者，并且同时使得合成语音具有与该目标讲话者自己的语音相类似的音色和音频逼真度。在一种实施方式中，在DAT中，可以将风格分类器以及连接到梯度反向层的讲话者分类器应用于在风格嵌入向量中保留风格信息并去除讲话者信息。

风格编码器可以采用例如变分自编码器(VAE)、高斯混合变分自编码器(GMVAE)等。与GST相比，VAE更适合于语音生成并且具有更好的性能。通过VAE，可以以变分方式从风格参考音频中推断出具有高斯分布的潜在(latent)变量，并将该潜在变量的高斯分布进一步用于获得风格嵌入向量，该潜在变量可以被视为是导致相关的讲话风格的简化的内在因素。GMVAE是VAE的扩展。通过在训练中使用GMVAE以及多风格音频数据，可以学习到一组高斯分布，其表示导致每个讲话风格的潜在变量的高斯混合分布。通过VAE或GMVAE所获得的潜在变量分别具有高斯分布或高斯混合分布，其是低维度的，并且保留了更多的韵律相关信息且包含例如更少的内容信息、讲话者信息等。风格嵌入向量可以对应于具有高斯分布或高斯混合分布的潜在变量的先验分布或后验分布。特别地，潜在变量的先验分布是讲话风格的良好和鲁棒的表示，因此，通过利用先验分布来获得风格嵌入向量，可以实现更高质量且更稳定的风格转移。在一方面，先验分布可以是独立于讲话者的，例如，一种风格具有一个全局先验分布。在另一方面，先验分布也可以是依赖于讲话者的，例如，每个讲话者的每个风格都具有对应的先验分布。在希望将一个特定参考讲话者的风格转移到目标讲话者时，依赖于讲话者的先验分布将是有优势的。经过训练，针对每个风格和/或每个参考讲话者的所学习的先验分布可以是风格嵌入的良好和鲁棒的表示。此外，由于每个讲话风格的先验分布对于该讲话风格而言更具有表征性并且是独立于内容的，因此，可选地，在使用这些先验分布来获得每个风格的风格嵌入向量的情况下，在合成阶段可以不需要输入目标风格参考音频，从而具有更高的质量和稳定性。

可以采用讲话者查找表(LUT)来获得讲话者嵌入向量。由此获得的讲话者嵌入向量在控制合成语音的讲话者身份上更具有鲁棒性。

可以采用从多讲话者多风格的音频所获得的训练数据。这些训练数据可以是监督式的，例如，附加有风格标记、讲话者标记等。这些标记可以在DAT中用于计算梯度回传因子等。

在本公开的另一些实施例中，提出了在训练声学模型期间，对声学模型采用配对输入和非配对输入的组合，并且采用循环训练机制。

在输入侧，存在两组输入，即，配对输入和非配对输入。配对输入包括例如第一文本以及对应于第一文本的配对音频，该配对音频可以是第一讲话者以第一风格讲出第一文本的音频，第一讲话者是语音合成的目标讲话者。非配对输入包括例如第一文本以及不对应于第一文本的非配对音频，该非配对音频可以是第二讲话者以第二风格讲出第二文本的音频，该第二风格可以是风格转移的目标风格。通过在训练数据中采用配对输入和非配对输入，可以避免由于在训练时总是处于配对情形，而导致在合成阶段中的非配对输入情形下的质量下降。由此，可以有助于实现更高质量的跨讲话者风格转移。

在输出侧，存在两个输出，即，配对输出和非配对输出，非配对输出也可以被称为转移输出。配对输出是所预测的第一讲话者以第一风格讲出第一文本的声学特征。非配对输出是所预测的第一讲话者以第二风格讲出第一文本的声学特征。非配对输出可以实现跨讲话者风格转移。

对于配对输出而言，配对音频的声学特征可以作为真实标记，以用于计算损失度量，例如重构损失。为了在训练期间获得针对转移输出的真实标记，可以在上述的基本声学模型之上引入循环训练机制，以便为非配对输出提供良好的损失度量以保证质量。例如，可以利用基本声学模型和基本声学模型的副本来形成循环训练架构。基本声学模型的副本具有与基本声学模型相同或类似的架构、参数等。可以将基本声学模型的非配对输出进一步输入到基本声学模型的副本，以作为该基本声学模型的副本执行风格转移的参考。基本声学模型的副本可以针对第二文本生成第二非配对输出，其是所预测的第二讲话者以第二风格讲出第二文本的声学特征。对于第二非配对输出而言，非配对音频的声学特征可以作为真实标记，以用于计算损失度量，例如循环重构损失。

此外，循环训练过程还可以考虑任何其它损失度量，例如风格损失、生成对抗网络(GAN)损失等。此外，上述的循环训练机制并不受到训练数据是否具有风格标记的限制。此外，在采用上述的循环训练机制的情况下，风格编码器的具体实现也不受到任何限制，其可以是VAE、GMVAE或任何其它能够用于生成风格嵌入向量的编码器。

应当理解，在本文中，术语“嵌入向量”可以广泛地指在潜在空间中对信息的表征，其也可以被称为嵌入、潜在表示、潜在空间表示、潜在空间信息表示等，并且其并不局限于采用向量的数据形式，而是也涵盖了例如序列、矩阵等任何其它数据形式。

图1示出了示例性的传统风格转移TTS***100。

TTS***100可以被配置为接收文本102，并且生成与文本102相对应的语音波形108。文本102可以包括词语、短语、句子、段落等。应当理解，尽管在图1中示出将文本102提供给TTS***100，但是也可以首先将文本102分为元素序列，例如音素序列、字素(grapheme)序列、字符序列等，然后将该序列提供给TTS***100作为输入。在本文中，所输入的“文本”可以广泛地指文本中所包括的词语、短语、句子等，或者从文本中获得的元素序列，例如音素序列、字素序列、字符序列等。

TTS***100可以包括声学模型110。声学模型110可以根据文本102来预测或生成声学特征106。声学特征106可以包括各种TTS声学特征，例如，梅尔谱、线性谱对(LSP)等。声学模型110可以基于各种模型架构，例如，序列到序列模型架构等。图1示出了示例性的序列到序列声学模型110，其可以包括文本编码器112、注意力模块114和解码器116。

文本编码器112可以将文本102中包含的信息转换到更加鲁棒且更适于学习与声学特征的对准的空间中。例如，文本编码器112可以将文本102中的信息转换为该空间中的状态序列，其也可以被称为文本编码器状态序列。该状态序列中的每个状态对应于文本102中的一个音素、字素或字符。

注意力模块114可以实施注意力机制。该注意力机制在文本编码器112和解码器116之间建立连接，以有助于在文本编码器112所输出的文本特征与声学特征之间进行对准。例如，可以建立在每个解码步骤与文本编码器状态之间的连接，该连接可以指示每个解码步骤应当以什么权重对应于哪个文本编码器状态。注意力模块114可以将文本编码器状态序列和解码器的前一步骤的输出作为输入，并且生成上下文向量，该上下文向量表示下一解码步骤与每个文本编码器状态进行对准的权重。

解码器116可以在注意力模块114中的注意力机制的影响下，将编码器112所输出的状态序列映射到声学特征106。在每一个解码步骤，解码器116可以将注意力模块114输出的上下文向量和解码器的前一步骤的输出作为输入，并且输出一个帧或多个帧的声学特征，例如梅尔谱。

在将TTS***100用于基于目标风格来生成语音的情况下，可以将文本编码器112所输出的状态序列与预先准备的与目标风格对应的风格嵌入向量104进行组合，以便对文本编码器状态序列进行扩展。经扩展的文本编码器状态序列可以被提供给注意力模块114，以用于后续的语音合成。

TTS***100可以包括声码器120。声码器120可以基于声学模型110所预测的声学特征106来生成语音波形108。

如前所述，由于***架构、模型设计或训练方式的局限，在传统的TTS***中所采用的风格嵌入向量可能并不能对讲话风格进行良好的表征，因此限制了跨讲话者风格转移语音合成的质量。本公开的实施例提出了针对风格编码器的新颖的训练方式，使得所训练的风格编码器能够生成有益于实现高质量跨讲话者风格转移的风格嵌入向量，进而使得声学模型能够预测出有益于实现高质量跨讲话者风格转移的声学特征。

图2示出了根据实施例的在合成阶段中声学模型的示例性工作过程200。在本文中，合成阶段可以指在训练了TTS***之后将所训练的TTS***应用于语音合成的阶段。图2中的声学模型被应用于通过跨讲话者风格转移，针对输入的目标文本来生成对应的声学特征。

声学模型可以包括例如文本编码器210、注意力模块220、解码器230等基本组件。此外，声学模型还可以包括例如扩展模块240、讲话者LUT250、根据本公开实施例所训练的风格编码器260等组件。

对声学模型的输入可以包括例如目标文本202、目标讲话者ID 204、目标风格参考音频206等。该声学模型旨在生成与该目标文本202对应的声学特征。目标讲话者ID 204是对目标讲话者的标识，其中，该声学模型旨在以该目标讲话者的声音来生成声学特征。目标讲话者ID可以是用于对目标讲话者进行索引的任何标识，例如字符、数字等。目标风格参考音频206作为执行跨讲话者风格转移的参考，其可以是例如由不同于目标讲话者的讲话者针对不同于目标文本202的文本所讲出的音频。目标风格参考音频206所具有的风格可以被称为目标风格，并且声学模型旨在以该目标风格来生成声学特征。

文本编码器210可以将目标文本202编码成对应的状态序列。

讲话者LUT 250可以基于目标讲话者ID 204来生成对应的讲话者嵌入向量252。例如，可以预先确定对不同目标讲话者进行表征的多个讲话者嵌入向量，并且通过查找表来在多个目标讲话者ID与多个讲话者嵌入向量之间建立映射关系。当输入了目标讲话者ID204时，可以利用讲话者LUT 250中的映射关系来检索出与该ID对应的讲话者嵌入向量252。通过使用讲话者LUT 250，可以使得TTS***成为多讲话者TTS***，即，可以利用不同讲话者的声音来合成语音。应当理解，在单讲话者TTS***的情况下，即，在该TTS***被用于利用特定目标讲话者的声音来合成语音时，也可以省略使用讲话者LUT来获得讲话者嵌入向量的处理。

风格编码器260是生成式编码器，其可以是通过根据本公开实施例的对抗训练机制或循环训练机制所获得的。风格编码器260可以用于从音频中提取风格信息，例如，至少基于目标风格参考音频206来生成风格嵌入向量262。在一种实施方式中，风格编码器260可以首先从目标风格参考音频206中提取声学特征208，然后，基于该声学特征208来生成风格嵌入向量262。应当理解，在本文中，风格编码器基于音频来生成风格嵌入向量的处理可以广泛地指直接基于音频或者基于音频的声学特征来生成风格嵌入向量。

在一种实施方式中，风格编码器260可以是基于VAE的。在这种情况下，风格编码器260可以基于声学特征208来确定具有高斯分布的潜在变量的后验分布，并且例如通过在该后验分布上进行采样等来生成风格嵌入向量262。

在一种实施方式中，风格编码器260可以是基于GMVAE的。在这种情况下，风格编码器260可以基于声学特征208和目标风格ID 209来确定具有高斯混合分布的潜在变量的后验分布，并且例如通过在该后验分布上进行采样等来生成风格嵌入向量262。目标风格ID可以是用于对目标风格进行索引的任何标识，例如字符、数字等。应当理解，尽管在图2中示出对声学模型输入了可选的目标风格ID 209，但是基于GMVAE的风格编码器260也可以在未直接接收到目标风格ID的情况下工作。例如，风格编码器260可以至少基于目标风格参考音频206的声学特征208来推测出对应的目标风格，并将所推测的目标风格与声学特征208一起用于生成风格嵌入向量262。

扩展模块240可以利用讲话者嵌入向量252和风格嵌入向量262来对文本编码器210所输出的状态序列进行扩展。例如，可以将讲话者嵌入向量252和风格嵌入向量262级联到状态序列，或者将讲话者嵌入向量252和风格嵌入向量262叠加到状态序列。通过扩展模块240的处理，可以将讲话者嵌入向量252和风格嵌入向量262引入到声学特征的生成过程，从而使得声学模型可以是至少基于目标文本、讲话者嵌入向量和风格嵌入向量来生成声学特征的。

经扩展的文本编码器状态序列被提供给注意力模块220。解码器230将在注意力模块220的影响下预测或生成最终的声学特征270。该声学特征270可以进而被TTS***的声码器用于生成对应的语音波形。

由包括图2所示的声学模型的TTS***所合成的语音将具有目标讲话者的声音、具有目标讲话风格并且以目标文本为讲话内容。由于风格编码器260可以生成用于跨讲话者风格转移的高质量的风格嵌入向量262，TTS***也可以相应地产生高质量的合成语音。

图3示出了根据实施例的在合成阶段中声学模型的示例性工作过程300。图3中的声学模型具有与图2中的声学模型基本类似的架构。

对图3中的声学模型的输入可以包括例如目标文本302、目标讲话者ID 304、目标风格ID 306、可选的参考讲话者ID 308等。

文本编码器310可以将目标文本302编码成对应的状态序列。

讲话者LUT 350可以基于目标讲话者ID 304来生成对应的讲话者嵌入向量352。

风格编码器360是至少采用了LUT技术的编码器，其可以是通过根据本公开实施例的对抗训练机制所获得的。风格编码器360可以是基于GMVAE的。风格编码器360可以基于目标风格ID 306和可选的参考讲话者ID 308且至少采用LUT技术来确定具有高斯混合分布的潜在变量的先验分布，并且例如通过在该先验分布上进行采样或计算均值来生成风格嵌入向量362。

风格编码器360可以是依赖于讲话者的或者不依赖于讲话者的，这将取决于同一个风格是否可以在不同的讲话者之间共享或者需要在不同的讲话者之间进行区分。例如，如果对于某个风格而言，不同讲话者在该风格下的讲话方式都是相同或类似的，则可以采用不依赖于讲话者的风格编码器，以便为该风格生成全局的风格嵌入向量。如果对于某个风格而言，不同讲话者在该风格下的讲话方式存在差异，则可以采用依赖于讲话者的风格编码器，以便针对不同的讲话者为该风格生成不同的风格嵌入向量，即，对该风格的表征是至少考虑该风格本身以及讲话者的。在这种情况下，风格嵌入向量除了可以包括表征韵律的信息外，还可以包括表征例如音色变化的信息等。尽管在本公开的实施例中可以尽可能地从风格嵌入向量中去除反映讲话者声音的音色信息，但是音色变化信息可以被保留，以便反映特定讲话者在风格中的特有的讲话方式。

在一种实施方式中，风格编码器360可以是不依赖于讲话者的，从而可以仅基于目标风格ID 306来确定风格嵌入向量362。例如，风格编码器360可以首先利用风格中间表示LUT来确定与目标风格ID 306对应的风格中间表示向量。风格中间表示向量是在获得最终的风格嵌入向量期间产生的中间参数，与风格嵌入向量相比，风格中间表示向量包括较低级别的风格信息。然后，风格编码器360可以基于该风格中间表示向量来确定潜在变量的先验分布，并且通过对该先验分布采样或取均值来生成风格嵌入向量362。风格中间表示LUT可以是在训练阶段期间创建的，其包括在多个风格ID与多个风格中间表示向量之间的映射关系。

在另一种实施方式中，风格编码器360可以是依赖于讲话者的，从而可以基于目标风格ID 306和参考讲话者ID 308两者来确定风格嵌入向量362。参考讲话者ID可以是用于对与某个目标风格相关联的不同讲话者进行索引的任何标识，例如字符、数字等。例如，风格编码器360可以首先利用风格中间表示LUT来确定与目标风格ID 306对应的风格中间表示向量，并且利用讲话者中间表示LUT来确定与参考讲话者ID 308对应的讲话者中间表示向量。讲话者中间表示向量可以对讲话者进行表征，但是与讲话者嵌入向量相比，其仅包括较低级别的讲话者信息。然后，风格编码器360可以基于风格中间表示向量和讲话者中间表示向量来确定潜在变量的先验分布，并且通过对该先验分布采样或取均值来生成风格嵌入向量362。讲话者中间表示LUT也可以是在训练阶段期间创建的，其包括在多个讲话者ID与多个讲话者中间表示向量之间的映射关系。

应当理解，尽管以上讨论了风格编码器360可以在合成阶段中基于目标风格ID和可选的参考讲话者ID来确定先验分布、对先验分布采样或取均值、以及生成风格嵌入向量，但是风格编码器360也可以以不同的方式工作。在一种方式中，可以在训练阶段期间创建先验分布LUT，该先验分布LUT包括在训练中产生的多个先验分布与对应的目标风格ID和可能的讲话者ID之间的映射关系。从而，在合成阶段中，风格编码器可以基于目标风格ID和可选的参考讲话者ID，直接从该先验分布LUT中检索出对应的先验分布。然后，可以对该先验分布进行采样或取均值以生成风格嵌入向量。在另一种方式中，可以在训练阶段期间创建先验分布均值LUT，该先验分布均值LUT包括在训练中产生的多个先验分布的均值与对应的目标风格ID和可能的讲话者ID之间的映射关系。从而，在合成阶段中，风格编码器可以基于目标风格ID和可选的参考讲话者ID，直接从该先验分布均值LUT中检索出对应的先验分布的均值。然后，该均值可以被用于形成风格嵌入向量。在另一种方式中，可以在训练阶段期间创建风格嵌入向量LUT，该风格嵌入向量LUT包括在训练中产生的多个风格嵌入向量与对应的目标风格ID和可能的讲话者ID之间的映射关系。从而，在合成阶段中，风格编码器可以基于目标风格ID和可选的参考讲话者ID，直接从该风格嵌入向量LUT中检索出对应的风格嵌入向量。

扩展模块340可以利用讲话者嵌入向量352和风格嵌入向量362来对文本编码器310所输出的状态序列进行扩展。经扩展的文本编码器状态序列被提供给注意力模块320。解码器330将在注意力模块320的影响下预测或生成最终的声学特征370。该声学特征370可以进而被TTS***的声码器用于生成对应的语音波形。

与图2中需要输入目标风格参考音频以指定目标风格不同，图3中的过程300仅要求输入目标风格ID和可选的参考讲话者ID以指定目标风格，从而风格编码器能够以更高的稳定性和鲁棒性来输出风格嵌入向量。

图4示出了根据实施例的用于训练声学模型的示例性过程400。过程400可以用于对例如图2中的声学模型、图3中的声学模型等进行训练。在执行过程400以对声学模型进行训练的情况下，该声学模型中的风格编码器可以是例如VAE、GMVAE等，并且可以是通过对抗训练机制来获得的。

可以首先获得训练数据。每一条训练数据可以包括从一个参考音频中提取的各种信息。例如，在图4中示出了从一个示例性参考音频中提取的与该参考音频对应的文本402、讲话者ID 404、风格ID 406、声学特征408等。文本402是该参考音频中的讲话内容。讲话者ID 404是对该参考音频的讲话者的标识。风格ID 406是对该参考音频所采用的风格的标识。声学特征408是从该参考音频中提取的。

文本编码器410被训练用于将文本402编码为状态序列。讲话者LUT450可以用于基于讲话者ID 404来生成讲话者嵌入向量452。风格编码器460可以是基于例如讲话者ID、风格ID、声学特征408等来训练的，并且输出与参考音频的风格对应的风格嵌入向量462。扩展模块440可以利用讲话者嵌入向量452和风格嵌入向量462对文本编码器410所输出的状态序列进行扩展。注意力模块420可以至少基于经扩展的状态序列来生成上下文向量。可选地，注意力模块420可以基于经扩展的状态系列和解码器的前一步骤的输出来生成上下文向量。解码器430可以至少基于上下文向量来预测声学特征470。可选地，解码器430可以基于上下文向量和解码器的前一步骤的输出来预测声学特征。

根据过程400，风格编码器460可以是通过例如DAT的对抗训练机制来获得的。例如，可以使用对抗训练模块480来实施该对抗训练机制。在风格编码器460生成风格嵌入向量462期间，可以获得作为中间参数的参考嵌入向量464。例如，风格编码器460可以包括由卷积神经网络(CNN)、长短期记忆(LSTM)网络等形成的参考编码器，其用于基于声学特征408来生成参考嵌入向量464。参考嵌入向量464通常具有高维度，其被设计用于从声学特征408中尽可能多地获取信息。可以对该参考嵌入向量464执行对抗训练，以便去除讲话者信息并保留风格信息。风格编码器460可以进一步基于经过对抗训练的参考嵌入向量464来生成风格嵌入向量462。例如，风格编码器460可以包括全连接(FC)层。该全连接层可以基于经过对抗训练的参考嵌入向量464和风格ID 406来生成风格嵌入向量462，或者可以基于经过对抗训练的参考嵌入向量464、风格ID 406和讲话者ID 404来生成风格嵌入向量462。与参考嵌入向量464相比，风格嵌入向量462具有低维度，并且捕获了关于例如讲话风格的较高级别的信息。

在一种实施方式中，对抗训练模块480可以至少利用讲话者分类器484和风格分类器486来实施DAT。讲话者分类器484可以基于所输入的特征，例如参考嵌入向量，来生成讲话者分类结果，例如，对在不同讲话者上的概率的预测。风格分类器486可以基于所输入的特征，例如参考嵌入向量，来生成风格分类结果，例如，对在不同讲话风格上的概率的预测。在一方面，可以首先在482处通过梯度反向层对参考嵌入向量464执行梯度反向处理，然后，讲话者分类器484可以针对经过梯度反向处理的参考嵌入向量来生成讲话者分类结果。在另一方面，风格分类器486可以针对参考嵌入向量464来生成风格分类结果。对抗训练模块480可以通过损失函数来计算梯度回传因子。该损失函数至少基于在风格分类结果与风格ID 406之间的比较结果以及在讲话者分类结果与讲话者ID 404之间的比较结果。在一方面，基于该损失函数的优化过程可以促使讲话者分类器484针对输入特征所预测的讲话者分类结果趋向于讲话者ID 404。由于在讲话者分类器484之前对参考嵌入向量464执行了梯度反向处理，因此，该优化过程实际上是朝着降低参考嵌入向量464中包含的、有助于讲话者分类器484输出正确分类结果的信息的方向来进行的，从而实现了对讲话者信息的去除。在另一方面，基于该损失函数的优化过程可以促使风格分类器486针对输入特征所预测的风格分类结果趋向于风格ID 406。风格分类器486的分类结果越准确，参考嵌入向量464所包括的关于风格的信息越多，从而实现了对风格信息的保留。

经过对抗训练的参考嵌入向量464将会保留尽可能多的风格信息，并且去除了尽可能多的讲话者信息。从而，基于该参考嵌入向量464所进一步生成的风格嵌入向量462也将会保留尽可能多的风格信息并去除了尽可能多的讲话者信息。该风格嵌入向量462可以导致后续的高质量的声学特征470以及进一步的高质量的合成语音。

通过过程400的训练，可以获得两种类型的声学模型，例如，如图2所示的生成式声学模型以及如图3所示的至少采用了LUT技术的声学模型。

应当理解，图4中对声学模型的训练可以作为对整个TTS***的训练的一部分。例如，在对包括声学模型和声码器的TTS***进行训练时，可以将图4的训练过程应用于该TTS***中的声学模型。

如前所述，风格编码器可以采用例如VAE、GMVAE等。因此，在图4的训练过程400中，风格嵌入向量462可以对应于具有高斯分布或高斯混合分布的潜在变量的先验分布或后验分布。下面结合图5和图6讨论在风格编码器采用VAE或GMVAE情况下的进一步的训练细节。

图5示出了根据实施例的在训练阶段中风格编码器内的示例性数据流500。数据流500可被用于进一步说明当图4中的风格编码器460采用VAE时的训练机制。

如图5所示，用于风格编码器的训练的输入可以包括声学特征502。声学特征502可以被进一步提供给参考编码器510。

参考编码器510可以将声学特征502编码为参考嵌入向量512。在一种实施方式中，参考编码器510可以包括例如CNN、LSTM等。可以将参考嵌入向量512传递到全连接层520，以确定潜在变量z的高斯分布的表征参数。例如，全连接层520可以包括两个全连接层，以分别生成潜在变量z的均值和方差。通过例如对所确定的高斯分布进行采样，可以获得风格嵌入向量522。全连接层520所确定的分布可以被视为是潜在变量z的后验分布q。

基于数据流500的示例，在训练完成后，风格编码器可以基于所输入的目标风格参考音频的声学特征来生成风格嵌入向量。

图6示出了根据实施例的在训练阶段中风格编码器内的示例性数据流600。数据流600可被用于进一步说明当图4中的风格编码器460采用GMVAE时的训练机制。

如图6所示，用于风格编码器的训练的输入可以包括对应于一个参考音频的声学特征602、风格ID 604、可选的讲话者ID 606等。当训练不采用讲话者ID 606时，该风格编码器可以被视为是不依赖于讲话者的风格编码器。而当训练采用了讲话者ID 606时，该风格编码器可以被视为是依赖于讲话者的风格编码器。

声学特征602可以被提供给参考编码器610。类似于图5中的参考编码器510，参考编码器610可以将声学特征602编码为参考嵌入向量612。

风格ID 604可以被提供给风格中间表示LUT 620，以便输出对应的风格中间表示向量。

可以将参考嵌入向量612和风格中间表示向量传递到全连接层640，以确定潜在变量z的高斯混合分布的表征参数。例如，全连接层640可以包括两个全连接层，以分别生成潜在变量z的均值和方差。通过对所确定的高斯混合分布进行采样，可以获得风格嵌入向量642。全连接层640所确定的分布可以被视为是潜在变量z的后验分布q。

当训练输入包括讲话者ID 606时，该讲话者ID 606可以被提供给讲话者中间表示LUT 630，以便输出对应的讲话者中间表示向量。

可以将由风格中间表示LUT 620所输出的风格中间表示向量和可能的由讲话者中间表示LUT 630所输出的讲话者中间表示向量传递到全连接层650，以确定潜在变量z的高斯混合分布的表征参数。全连接层650所确定的分布可以被视为是潜在变量z的先验分布p。应当理解，通过利用多个训练数据进行训练，可以最终获得多个先验分布652，其中每个先验分布对应于一种讲话风格。通过对一个先验分布进行采样或取均值，可以获得与该先验分布对应的风格嵌入向量。

基于数据流600的示例，在训练完成后，风格编码器将具有，例如，类似于图2所示的生成式声学模型的工作方式、类似于图3所示的至少采用了LUT技术的声学模型的工作方式等。

应当理解，在图5和图6中，取决于风格编码器采用VAE或GMVAE，在潜在变量z的先验分布p与后验分布q之间存在对应的计算上的约束。下面将进一步讨论有关VAE和GMVAE的一些细节。

传统的VAE构建了在不可观察的连续随机潜在变量z与可观察的数据集x之间的关系。引入了q_Φ(z|x)以作为对难以求解的真实后验密度p_θ(z|x)的近似。遵循变分原理，作为优化目标的logp_θ(x)可以被表示为：

其中，x是数据样本(例如，声学特征)，z是潜在变量，z上的先验分布p_θ(z)是高斯分布，是要优化的变分下边界。KL[q_Φ(z|x)||p_θ(z)]可以对应于KL损失，并且可以对应于重构损失。

在将VAE应用到TTS中以用于风格相关建模时，纯TTS和VAE的训练目标可以被融合为：

其中，Loss是总损失，在公式(1)中的条件重构似然性p_θ(x|z)被修改为依赖于潜在变量z和输入文本t两者，即p_θ(x|z,t)。可选地，纯TTS的停止符损失l_stop也可以被包括到总损失中。

可以利用与讲话风格对应的风格分布变量和可选的与讲话者对应的讲话者分布变量来影响潜在变量z的分布。下面以GMVAE为例，示例性地讨论讲话风格对于潜在变量z的影响。

在GMVAE中，潜在变量z被高斯混合模型参数化。最大化的主要目标是：

其中，x是数据样本，t是输入文本，z是具有高斯混合分布的潜在变量，其均值和方差是至少利用对应于讲话风格的风格分布变量y参数化的。

在模型训练中包括如图4所示的对抗训练的情况下，总损失可以表示为：

其中，是基于GMVAE的TTS的变分下届，如公式(3)所示，L_style和L_spk分别是风格分类器和讲话者分类器的采用例如交叉熵所计算的损失，l_stop是采用例如交叉熵所计算的TTS中的停止符损失。

应当理解，以上仅仅给出了在VAE和GMVAE中确定潜在变量分布的示例，可以根据具体的应用需求来对这些示例进行任何修改和补充。例如，可以对上述公式(1)至公式(4)中的任何公式进行修改，以便引入风格分布变量和/或讲话者分布变量以影响潜在变量z的分布。例如，公式(3)中示例性地给出了对风格分布变量y的引入，也可以通过类似的方式，进而将对应于参考讲话者的讲话者分布变量引入到上述的任何公式中。

根据本公开的实施例，可以在对声学模型进行训练期间采用配对输入和非配对输入的组合，并且对声学模型采用循环训练机制以解决转移输出缺少真实标记的问题。

图7示出了根据实施例的用于训练声学模型的示例性过程700。过程700可以用于对例如图2中的声学模型等进行训练。在过程700中，可以利用作为基本模型的声学模型702、以及该声学模型的副本704来形成循环训练架构，并且至少通过循环训练机制来获得更高性能的风格编码器以及声学模型。

在图7中，所要训练的声学模型702可以包括文本编码器710、注意力模块720、解码器730、扩展模块740、讲话者LUT 750、风格编码器770等。为了训练目的，在图7中还设置了附加的风格编码器760，然而，应当理解，在该声学模型被训练好后，该风格编码器760可以被省略。声学模型的副本704具有与声学模型702相同或类似的架构、参数等。声学模型的副本704中的文本编码器710’、注意力模块720’、解码器730’、扩展模块740’、讲话者LUT750’、风格编码器760’和风格编码器770’可以分别对应于声学模型702中的文本编码器710、注意力模块720、解码器730、扩展模块740、讲话者LUT 750、风格编码器760和风格编码器770。应当理解，图7中的文本编码器、注意力模块、解码器、扩展模块、讲话者LUT、风格编码器等与图2中的对应组件具有类似的功能。

可以首先获得训练数据。每一条训练数据可以包括从一个讲话者参考音频和一个风格参考音频中提取的各种信息。讲话者参考音频是来自作为风格转移语音合成的目标讲话者的音频。风格参考音频是具有风格转移语音合成的目标风格的音频。例如，在图7中示出了从一个示例性讲话者参考音频762中提取的文本m 712、讲话者A ID 752、讲话者参考声学特征764等。讲话者参考音频762可以被表示为[spk_A,sty_a,m]，其中，spk_A表示该音频的讲话者A，sty_a表示该音频具有的风格a，m表示该音频对应的文本m。讲话者参考声学特征764指的是从讲话者参考音频762中所提取的声学特征。在图7中还示出了从一个示例性风格参考音频772中提取的文本n 714、讲话者B ID 756、风格参考声学特征774等。风格参考音频772可以被表示为[spk_B,sty_b,n]，其中，spk_B表示该音频的讲话者B，sty_b表示该音频具有的风格b，n表示该音频对应的文本n。风格参考声学特征774指的是从风格参考音频772中所提取的声学特征。

可以将文本m 712和讲话者参考音频762、或者文本m 712和从讲话者参考音频762中提取的讲话者参考声学特征764作为声学模型702的配对输入，以用于预测配对输出。例如，文本编码器710可以将文本m 712编码为对应于文本m的状态序列。讲话者LUT 750可以基于讲话者A ID 752来生成对应于讲话者A的讲话者嵌入向量754。风格编码器760可以至少基于讲话者参考声学特征764来生成对应于风格a的讲话者风格嵌入向量766。扩展模块740可以利用讲话者嵌入向量754和讲话者风格嵌入向量766对文本编码器710所输出的文本m的状态序列进行扩展。解码器730可以至少在注意力模块720的影响下预测出第一配对声学特征734。该第一配对声学特征734采用讲话者A的声音、采用风格a并且针对文本m，从而其可被表示为[spk_A,sty_a,m]。第一配对声学特征734是声学模型702的配对输出。可见，通过声学模型702，可以至少基于文本m 712、讲话者A ID 752以及与风格a对应的讲话者风格嵌入向量766来生成第一配对声学特征734。

可以将文本m 712和风格参考音频772、或者文本m 712和从风格参考音频772中提取的风格参考声学特征774作为声学模型702的非配对输入，以用于预测非配对输出。风格编码器770可以至少基于风格参考声学特征774来生成对应于风格b的转移风格嵌入向量776。扩展模块740可以利用讲话者嵌入向量754和转移风格嵌入向量776对文本编码器710所输出的文本m的状态序列进行扩展。解码器730可以至少在注意力模块720的影响下预测出第一转移声学特征732。该第一转移声学特征732采用讲话者A的声音、采用风格b并且针对文本m，从而其可被表示为[spk_A,sty_b,m]。第一转移声学特征732是声学模型702的非配对输出。可见，通过声学模型702，可以至少基于文本m 712、讲话者A ID 752以及与风格b对应的转移风格嵌入向量776来生成第一转移声学特征732。

可以将训练数据中的对应于讲话者参考音频762的讲话者参考声学特征764作为第一配对声学特征734的真实标记，从而，可以利用讲话者参考声学特征764和第一配对声学特征734来计算损失度量，例如重构损失等。然而，训练数据中并不存在第一转移声学特征732的真实标记，从而，不能有效地针对第一转移声学特征732计算损失度量。为此，过程700进一步引入了声学模型的副本704以解决难以计算转移输出的损失度量的问题。

可以将文本n 714和风格参考音频772、或者文本n 714和从风格参考音频772中提取的风格参考声学特征774作为声学模型的副本704的配对输入，以用于预测配对输出。例如，文本编码器710’可以将文本n 714编码为对应于文本n的状态序列。讲话者LUT 750’可以基于讲话者B ID 756来生成对应于讲话者B的讲话者嵌入向量758。风格编码器760’可以至少基于风格参考声学特征774来生成对应于风格b的讲话者风格嵌入向量768。扩展模块740’可以利用讲话者嵌入向量758和讲话者风格嵌入向量768对文本编码器710’所输出的文本n的状态序列进行扩展。解码器730’可以至少在注意力模块720’的影响下预测出第二配对声学特征738。该第二配对声学特征738采用讲话者B的声音、采用风格b并且针对文本n，从而其可被表示为[spk_B,sty_b,n]。第二配对声学特征738是声学模型的副本704的配对输出。可见，通过声学模型的副本704，可以至少基于文本n 714、讲话者B ID 756以及与风格b对应的讲话者风格嵌入向量768来生成第二配对声学特征738。

可以将文本n 714和第一转移声学特征732作为声学模型的副本704的非配对输入，以用于预测非配对输出。风格编码器770’可以至少基于第一转移声学特征732来生成对应于风格b的转移风格嵌入向量778。扩展模块740’可以利用讲话者嵌入向量758和转移风格嵌入向量778对文本编码器710’所输出的文本n的状态序列进行扩展。解码器730’可以至少在注意力模块720’的影响下预测出第二转移声学特征736。该第二转移声学特征736采用讲话者B的声音、采用风格b并且针对文本n，从而其可被表示为[spk_B,sty_b,n]。第二转移声学特征736是声学模型的副本704的非配对输出。可见，通过声学模型的副本704，可以至少基于文本n 714、讲话者B ID 756以及与风格b对应的转移风格嵌入向量778来生成第二转移声学特征736。

可以将风格参考音频772的风格参考声学特征774作为第二配对声学特征738的真实标记，从而，可以利用风格参考声学特征774和第二配对声学特征738来计算损失度量，例如重构损失等。此外，可以将训练数据中的风格参考音频772的风格参考声学特征774作为第二转移声学特征736的真实标记，从而，可以利用风格参考声学特征774和第二转移声学特征736来计算损失度量，例如循环重构损失780。该循环重构损失780是依赖于图7的循环训练过程而计算的重构损失。

通过根据过程700对声学模型进行训练，由于在训练期间采用了配对输入和非配对输入两者，因此即使在合成阶段中存在非配对输入，也仍然能够实现高质量的跨讲话者风格转移。此外，由于循环训练过程为转移输出确定了可用于计算损失度量的真实标记，因此，可以极大地增强所训练的声学模型的性能。

应当理解，过程700所考虑的损失度量并不局限于以上提及的重构损失和循环重构损失，还可以考虑任何其它的损失度量。此外，上述的循环训练机制并不受到训练数据是否具有风格标记的限制，即，并不要求训练数据中对风格进行了标记。此外，图7中的风格编码器的具体实现并不受到任何方式的限制，其可以是VAE、GMVAE或任何其它能够用于生成风格嵌入向量的编码器。此外，还可以将图4的对抗训练过程结合到图7的过程700中。例如，对图7中的风格编码器进一步应用由图4中的对抗训练模块480所实施的对抗训练机制。

图8示出了根据实施例的用于训练声学模型的示例性方法800的流程图。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。方法800可以至少基于例如图4至图6所讨论的示例性训练过程。

在810处，可以获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者ID、风格ID、以及声学特征。

在820处，可以通过所述风格编码器，基于所述声学特征来生成参考嵌入向量。

在830处，可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息。

在840处，可以通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。

在850处，可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

在一种实施方式中，所述生成参考嵌入向量可以包括：通过所述风格编码器中的CNN和LSTM网络，基于所述声学特征来生成所述参考嵌入向量。

在一种实施方式中，所述执行对抗训练可以包括：通过风格分类器，针对所述参考嵌入向量来生成风格分类结果；对所述参考嵌入向量执行梯度反向处理；通过讲话者分类器，针对所述经过梯度反向处理的参考嵌入向量来生成讲话者分类结果；以及通过损失函数来计算梯度回传因子，所述损失函数至少基于在所述风格分类结果与所述风格ID之间的比较结果以及在所述讲话者分类结果与所述讲话者ID之间的比较结果。

在一种实施方式中，所述对抗训练可以是由DAT模块来执行的。

在一种实施方式中，所述生成风格嵌入向量可以包括：通过所述风格编码器中的全连接层，至少基于所述经过对抗训练的参考嵌入向量、或者至少基于所述经过对抗训练的参考嵌入向量和所述风格ID来生成所述风格嵌入向量。

此外，所述生成风格嵌入向量可以包括通过所述风格编码器中的第二全连接层，至少基于所述风格ID、或者至少基于所述风格ID和所述讲话者ID来生成所述风格嵌入向量。

在一种实施方式中，所述风格编码器可以是VAE或GMVAE。

在一种实施方式中，所述风格嵌入向量可以对应于具有高斯分布或高斯混合分布的潜在变量的先验分布或后验分布。

在一种实施方式中，方法800还可以包括：通过利用多个训练数据对所述声学模型进行训练，获得与多个风格ID分别对应的多个风格嵌入向量，或者获得与风格ID和讲话者ID的多个组合分别对应的多个风格嵌入向量。

在一种实施方式中，方法800还可以包括：通过所述声学模型中的文本编码器，将所述文本编码为所述状态序列；以及通过所述声学模型中的讲话者LUT，生成所述讲话者嵌入向量。所述生成预测的声学特征可以包括：利用所述讲话者嵌入向量和所述风格嵌入向量对所述状态序列进行扩展；通过所述声学模型中的注意力模块，至少基于所述经扩展的状态序列来生成上下文向量；以及通过所述声学模型中的解码器，至少基于所述上下文向量来生成所述预测的声学特征。

在一种实施方式中，方法800还可以包括，在应用所述声学模型期间：接收输入，所述输入包括目标文本、目标讲话者ID、以及目标风格参考音频和/或目标风格ID；通过所述风格编码器，至少基于所述目标风格参考音频的声学特征和/或所述目标风格ID来生成风格嵌入向量；以及至少基于所述目标文本、所述目标讲话者ID以及所述风格嵌入向量，来生成声学特征。

此外，所述输入还可以包括参考讲话者ID。所述生成风格嵌入向量可以是进一步基于所述参考讲话者ID的。

在一种实施方式中，方法800还可以包括，在应用所述声学模型期间：接收输入，所述输入包括目标文本、目标讲话者ID、目标风格ID以及参考讲话者ID；通过所述风格编码器，至少基于所述目标风格ID和所述参考讲话者ID来从预先确定的多个候选风格嵌入向量中选择风格嵌入向量；以及至少基于所述目标文本、所述目标讲话者ID以及所述风格嵌入向量，来生成声学特征。

此外，所述输入还可以包括参考讲话者ID。所述选择风格嵌入向量可以是进一步基于所述参考讲话者ID的。

在一种实施方式中，所述声学特征可以是从所述参考音频中提取的梅尔谱。

应当理解，方法800还可以包括根据上述本公开实施例的用于训练声学模型的任何步骤/过程。

图9示出了根据实施例的用于训练声学模型的示例性方法900的流程图。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。方法900可以至少基于例如图7所讨论的示例性训练过程。

在910处，可以获得训练数据，所述训练数据至少包括第一文本、第一讲话者ID、以及与风格参考音频对应的第二文本、第二讲话者ID和风格参考声学特征。

在920处，可以通过所述声学模型，至少基于所述第一文本、所述第一讲话者ID以及第一转移风格嵌入向量来生成第一转移声学特征，其中，所述第一转移风格嵌入向量是由所述风格编码器基于所述风格参考声学特征来生成的。

在930处，可以通过所述声学模型的副本，至少基于所述第二文本、所述第二讲话者ID以及第二转移风格嵌入向量来生成第二转移声学特征，其中，所述第二转移风格嵌入向量是由所述风格编码器的副本基于所述第一转移声学特征来生成的。

在940处，可以利用所述风格参考声学特征和所述第二转移声学特征来计算循环重构损失。

在一种实施方式中，所述第一文本和所述第一讲话者ID可以对应于讲话者参考音频，并且所述训练数据还可以包括与所述讲话者参考音频对应的讲话者参考声学特征。

在前述实施方式中，方法900还可以包括：通过所述声学模型，至少基于所述第一文本、所述第一讲话者ID以及第一讲话者风格嵌入向量来生成第一配对声学特征，其中，所述第一讲话者风格嵌入向量是由附加风格编码器基于所述讲话者参考声学特征来生成的；以及利用所述讲话者参考声学特征和所述第一配对声学特征来计算重构损失。进一步地，所述第一文本和所述风格参考声学特征可以是所述声学模型的非配对输入，并且所述第一文本和所述讲话者参考声学特征可以是所述声学模型的配对输入。

在前述实施方式中，方法900还可以包括：通过所述声学模型的副本，至少基于所述第二文本、所述第二讲话者ID以及第二讲话者风格嵌入向量来生成第二配对声学特征，其中，所述第二讲话者风格嵌入向量是由所述附加风格编码器的副本基于所述风格参考声学特征来生成的；以及利用所述风格参考声学特征和所述第二配对声学特征来计算重构损失。进一步地，所述第二文本和所述第一转移声学特征可以是所述声学模型的副本的非配对输入，并且所述第二文本和所述风格参考声学特征可以是所述声学模型的副本的配对输入。

在一种实施方式中，所述风格编码器可以是VAE或GMVAE。

在一种实施方式中，所述风格编码器可以是通过用于去除讲话者信息并保留风格信息的对抗训练来获得的。

在一种实施方式中，所述风格参考声学特征可以是用于计算所述循环重构损失的真实标记。

在一种实施方式中，方法900还可以包括，在应用所述声学模型期间：接收包括目标文本、目标讲话者ID以及目标风格参考音频的输入，所述目标风格参考音频对应于与所述目标文本不同的文本和/或与所述目标讲话者ID不同的讲话者ID；通过所述风格编码器，基于所述目标风格参考音频来生成风格嵌入向量；以及至少基于所述目标文本、所述目标讲话者ID以及所述风格嵌入向量，来生成声学特征。

应当理解，方法900还可以包括根据上述本公开实施例的用于训练声学模型的任何步骤/过程。

图10示出了根据实施例的用于训练声学模型的示例性装置1000。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。

装置1000可以包括：训练数据获得模块1010，用于获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者ID、风格ID、以及声学特征；参考嵌入向量生成模块1020，用于通过所述风格编码器，基于所述声学特征来生成参考嵌入向量；对抗训练执行模块1030，用于至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息；风格嵌入向量生成模块1040，用于通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量；以及声学特征生成模块1050，用于至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

在一种实施方式中，所述对抗训练执行模块1030可以用于：通过风格分类器，针对所述参考嵌入向量来生成风格分类结果；对所述参考嵌入向量执行梯度反向处理；通过讲话者分类器，针对所述经过梯度反向处理的参考嵌入向量来生成讲话者分类结果；以及通过损失函数来计算梯度回传因子，所述损失函数至少基于在所述风格分类结果与所述风格ID之间的比较结果以及在所述讲话者分类结果与所述讲话者ID之间的比较结果。

在一种实施方式中，所述风格嵌入向量生成模块1040可以用于：通过所述风格编码器中的全连接层，至少基于所述经过对抗训练的参考嵌入向量、或者至少基于所述经过对抗训练的参考嵌入向量和所述风格ID来生成所述风格嵌入向量。

在一种实施方式中，所述风格嵌入向量生成模块1040可以用于：通过所述风格编码器中的第二全连接层，至少基于所述风格ID、或者至少基于所述风格ID和所述讲话者ID来生成所述风格嵌入向量。

此外，装置1000还可以包括执行根据上述本公开实施例的用于训练声学模型的方法(例如，图8中的方法800等)的步骤的任何其它模块。

图11示出了根据实施例的用于训练声学模型的示例性装置1100。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。

装置1100可以包括：训练数据获得模块1110，用于获得训练数据，所述训练数据至少包括第一文本、第一讲话者ID、以及与风格参考音频对应的第二文本、第二讲话者ID和风格参考声学特征；第一转移声学特征生成模块1120，用于通过所述声学模型，至少基于所述第一文本、所述第一讲话者ID以及第一转移风格嵌入向量来生成第一转移声学特征，其中，所述第一转移风格嵌入向量是由所述风格编码器基于所述风格参考声学特征来生成的；第二转移声学特征生成模块1130，用于通过所述声学模型的副本，至少基于所述第二文本、所述第二讲话者ID以及第二转移风格嵌入向量来生成第二转移声学特征，其中，所述第二转移风格嵌入向量是由所述风格编码器的副本基于所述第一转移声学特征来生成的；以及循环重构损失计算模块1140，用于利用所述风格参考声学特征和所述第二转移声学特征来计算循环重构损失。

在前述实施方式中，装置1100还可以包括：第一配对声学特征生成模块，用于通过所述声学模型，至少基于所述第一文本、所述第一讲话者ID以及第一讲话者风格嵌入向量来生成第一配对声学特征，其中，所述第一讲话者风格嵌入向量是由附加风格编码器基于所述讲话者参考声学特征来生成的；以及重构损失计算模块，用于利用所述讲话者参考声学特征和所述第一配对声学特征来计算重构损失。进一步地，所述第一文本和所述风格参考声学特征可以是所述声学模型的非配对输入，并且所述第一文本和所述讲话者参考声学特征可以是所述声学模型的配对输入。

在前述实施方式中，装置1100还可以包括：第二配对声学特征生成模块，用于通过所述声学模型的副本，至少基于所述第二文本、所述第二讲话者ID以及第二讲话者风格嵌入向量来生成第二配对声学特征，其中，所述第二讲话者风格嵌入向量是由所述附加风格编码器的副本基于所述风格参考声学特征来生成的；以及重构损失计算模块，用于利用所述风格参考声学特征和所述第二配对声学特征来计算重构损失。进一步地，所述第二文本和所述第一转移声学特征可以是所述声学模型的副本的非配对输入，并且所述第二文本和所述风格参考声学特征可以是所述声学模型的副本的配对输入。进一步地，所述风格编码器可以是VAE或GMVAE。进一步地，所述风格编码器可以是通过用于去除讲话者信息并保留风格信息的对抗训练来获得的。进一步地，所述风格参考声学特征可以是用于计算所述循环重构损失的真实标记。

此外，装置1100还可以包括执行根据上述本公开实施例的用于训练声学模型的方法(例如，图9中的方法900等)的步骤的任何其它模块。

图12示出了根据实施例的用于训练声学模型的示例性装置1200。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。

装置1200可以包括：至少一个处理器1210；以及存储器1220，其存储计算机可执行指令，当所述计算机可执行指令被执行时使所述至少一个处理器1210执行根据上述本公开实施例的用于训练声学模型的方法(例如，图8中的方法800、图9中的方法900等)的任何步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于训练声学模型的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在***上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于训练声学模型的方法，所述声学模型用于实现跨讲话者风格转移并且至少包括风格编码器，所述方法包括：

获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征；

通过所述风格编码器，基于所述声学特征来生成参考嵌入向量；

至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息；

通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量；以及

至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

2.如权利要求1所述的方法，其中，所述生成参考嵌入向量包括：

通过所述风格编码器中的卷积神经网络(CNN)和长短期记忆(LSTM)网络，基于所述声学特征来生成所述参考嵌入向量。

3.如权利要求1所述的方法，其中，所述执行对抗训练包括：

通过风格分类器，针对所述参考嵌入向量来生成风格分类结果；

对所述参考嵌入向量执行梯度反向处理；

通过讲话者分类器，针对所述经过梯度反向处理的参考嵌入向量来生成讲话者分类结果；以及

通过损失函数来计算梯度回传因子，所述损失函数至少基于在所述风格分类结果与所述风格ID之间的比较结果以及在所述讲话者分类结果与所述讲话者ID之间的比较结果。

4.如权利要求1所述的方法，其中，

所述对抗训练是由域对抗训练(DAT)模块来执行的。

5.如权利要求1所述的方法，其中，所述生成风格嵌入向量包括：

通过所述风格编码器中的全连接层，至少基于所述经过对抗训练的参考嵌入向量、或者至少基于所述经过对抗训练的参考嵌入向量和所述风格ID来生成所述风格嵌入向量。

6.如权利要求5所述的方法，其中，所述生成风格嵌入向量包括：

通过所述风格编码器中的第二全连接层，至少基于所述风格ID、或者至少基于所述风格ID和所述讲话者ID来生成所述风格嵌入向量。

7.如权利要求1所述的方法，其中，

所述风格编码器是变分自编码器(VAE)或高斯混合变分自编码器(GMVAE)。

8.如权利要求1所述的方法，其中，

所述风格嵌入向量对应于具有高斯分布或高斯混合分布的潜在变量的先验分布或后验分布。

9.如权利要求1所述的方法，还包括：

通过利用多个训练数据对所述声学模型进行训练，获得与多个风格ID分别对应的多个风格嵌入向量，或者获得与风格ID和讲话者ID的多个组合分别对应的多个风格嵌入向量。

10.如权利要求1所述的方法，还包括：

通过所述声学模型中的文本编码器，将所述文本编码为所述状态序列；以及

通过所述声学模型中的讲话者查找表(LUT)，生成所述讲话者嵌入向量，并且

所述生成预测的声学特征包括：

利用所述讲话者嵌入向量和所述风格嵌入向量对所述状态序列进行扩展；

通过所述声学模型中的注意力模块，至少基于所述经扩展的状态序列来生成上下文向量；以及

通过所述声学模型中的解码器，至少基于所述上下文向量来生成所述预测的声学特征。

11.如权利要求1所述的方法，还包括：在应用所述声学模型期间，

接收输入，所述输入包括目标文本、目标讲话者ID、以及目标风格参考音频和/或目标风格ID；

通过所述风格编码器，至少基于所述目标风格参考音频的声学特征和/或所述目标风格ID来生成风格嵌入向量；以及

至少基于所述目标文本、所述目标讲话者ID以及所述风格嵌入向量，来生成声学特征。

12.如权利要求11所述的方法，其中，

所述输入还包括参考讲话者ID，并且

所述生成风格嵌入向量是进一步基于所述参考讲话者ID的。

13.如权利要求1所述的方法，还包括：在应用所述声学模型期间，

接收输入，所述输入包括目标文本、目标讲话者ID以及目标风格ID；

通过所述风格编码器，至少基于所述目标风格ID来从预先确定的多个候选风格嵌入向量中选择风格嵌入向量；以及

14.如权利要求13所述的方法，其中，

所述输入还包括参考讲话者ID，并且

所述选择风格嵌入向量是进一步基于所述参考讲话者ID的。

15.如权利要求1所述的方法，其中，

所述声学特征是从所述参考音频中提取的梅尔谱。

16.一种用于训练声学模型的装置，所述声学模型用于实现跨讲话者风格转移并且至少包括风格编码器，所述装置包括：

训练数据获得模块，用于获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征；

参考嵌入向量生成模块，用于通过所述风格编码器，基于所述声学特征来生成参考嵌入向量；

对抗训练执行模块，用于至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息；

风格嵌入向量生成模块，用于通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量；以及

声学特征生成模块，用于至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

17.如权利要求16所述的装置，其中，所述对抗训练执行模块用于：

对所述参考嵌入向量执行梯度反向处理；

18.如权利要求16所述的装置，其中，所述风格嵌入向量生成模块用于：

19.如权利要求18所述的装置，其中，所述风格嵌入向量生成模块用于：

20.一种用于训练声学模型的装置，所述声学模型用于实现跨讲话者风格转移并且至少包括风格编码器，所述装置包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使所述至少一个处理器：

获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征，

通过所述风格编码器，基于所述声学特征来生成参考嵌入向量，

至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息，

通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量，以及