CN112185337B

CN112185337B - 多语言神经文本到语音合成

Info

Publication number: CN112185337B
Application number: CN201910588478.3A
Authority: CN
Inventors: 杨径舟; 何磊
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2024-04-26
Anticipated expiration: 2039-07-02
Also published as: CN112185337A; US11922924B2; WO2021002967A1; EP3994683B1; EP3994683A1; US20220246136A1

Abstract

本公开提供了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器，基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

Description

多语言神经文本到语音合成

背景技术

文本到语音(TTS)合成旨在基于文本输入来生成对应的语音波形。TTS合成广泛地用于语音到语音翻译、对特定用户的语音定制、故事中的角色扮演等。神经TTS***被越来越多地用于实施TTS合成，并且正在成为人工智能(AI)领域近些年的研究热点。神经TTS***可以基于文本输入预测声学特征，并进而基于所预测的声学特征来生成语音波形。与需要良好设计的前端语言特征的传统TTS技术不同，神经TTS***是采用端到端结构来建立模型的，并且可以直接基于例如文本-语音数据对来进行训练。神经TTS***可以联合地优化语音的发音、韵律等，这将导致比传统TTS技术更自然的合成语音。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器，基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了示例性的传统神经TTS***。

图2示出了根据实施例的多语言神经TTS***的示例性架构。

图3示出了根据实施例的讲话者编码器的示例性实现方式。

图4示出了根据实施例的讲话者嵌入生成器的示例性实现方式。

图5示出了根据实施例的语言编码器的示例性实现方式。

图6示出了根据实施例的语言嵌入生成器的示例性实现方式。

图7示出了根据实施例的多语言神经TTS***的示例性实现方式。

图8示出了根据实施例的多语言神经TTS***的示例性实现方式。

图9示出了根据实施例的声学特征预测器的示例性实现方式。

图10示出了根据实施例的神经声码器的示例性实现方式。

图11示出了根据实施例的训练多语言神经TTS***的示例性过程。

图12示出了根据实施例的通过生成式对抗网络来训练声学特征预测器的示例性过程。

图13示出了根据实施例的针对新讲话者来更新多语言神经TTS***的示例性过程。

图14示出了根据实施例的用于生成语音波形的示例性处理流程。

图15示出了根据实施例的用于通过多语言神经TTS合成来生成语音的示例性方法的流程图。

图16示出了根据实施例的用于通过多语言神经TTS合成来生成语音的示例性装置。

图17示出了根据实施例的用于通过多语言神经TTS合成来生成语音的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

传统的TTS***采用不同的模型来生成不同语言的语音。由于这些模型彼此独立，在生成一种语言的语音时难以利用来自其它语言的知识。因此，无法为具有有限训练数据的语言建立高质量的语音，并且难以将一种语言的语音迁移用于其它语言。此外，由于多语言数据的数量有限，传统的TTS***难以构建多语言语音，尤其难以用有限的单语言数据构建采用不同语言的定制语音。

传统的多语言TTS***通常是利用来自跨语言的声音转换和音素(phoneme)映射来构建的。然而，由于多语言数据的数量以及声音转换和音素映射的质量的限制，难以构建高质量的多语言TTS***。一种现有的***采用了因子分解(factorized)多语言神经声学模型，然而，该***基于传统的语音合成框架，并且模型容量限制了所合成语音的质量。另一种现有的端对端多语言TTS***简单地采用统一码(unicode)作为输入，然而，该***仅仅可以应用于例如英语等字母语言，而无法有效地应用于例如中文等非字母语言。

本公开的实施例提出了一种多语言神经TTS***。该多语言神经TTS***可以采用不同的语言来为不同的讲话者生成高质量的语音。该***基于端对端架构，并且是采用包括来自不同语言和不同讲话者的语料数据的大规模多语言语料库来训练的。在本文中，语料库可以包括一组语音以及附加在每个语音上的对应文本，从而语料库可以提供多个文本-语音数据对。由于该多语言语料库比单讲话者语料库或单语言预料库具有更好的内容覆盖，因此当采用具有有限训练数据的语言(如，低资源量的语言)来合成语音时，该***可以利用来自其它语言的知识以实现更好的概括性能并生成高质量的语音。此外，由于多语言语料库中的多语言语料数据被用于训练单个多语言神经TTS***，该***可以容易地从将一种语言的知识迁移到其它语言。对来自其他讲话者和其它语言的知识的迁移可以使得只会一种语言的讲话者成为可讲多种语言的人。例如，即使在训练中某个讲话者的声音仅在一种语言中出现过，该***也可以利用该讲话者的声音生成采用其它语言的语音。由于多语言语料库中的讲话者可以覆盖不同的年龄、性别、语言等，因此可以容易地注册具有有限数据的新的声音，例如，使用有限的注册数据、以训练中覆盖的任意语言来为新的讲话者生成高质量的语音。

在一个方面，根据本公开实施例的多语言神经TTS***可以实现跨语言的口音(accent)控制。对于采用一种语言的文本输入，可以生成具有另一种参考语言口音的语音输出。例如，如果文本输入采用英语语言的句子，并且期望所生成的语音听起来像是中国人说的英语句子，即具有中文风格，则多语言神经TTS***可以生成具有中文口音的英语语音输出。多语言神经TTS***可以将参考语言的语言潜在空间信息作为全局条件，以控制所生成的语音的口音。在本文中，语言潜在空间信息可以指在多维空间中对语言的韵律的表征，其可以反映该种语言在韵律层面上的例如音调、节奏、语速等的多种特性。

在一个方面，根据本公开实施例的多语言神经TTS***可以用一个讲话者的声音来生成不同语言的语音。例如，使得只会一种语言的讲话者能够讲多种语言。例如，如果一个讲话者只会讲中文而不会讲英文，即便文本输入是采用英语语言的句子，多语言神经TTS***也可以用该讲话者的声音来生成与该英语句子对应的英语语音输出，并且使得该语音输出听起来就像是该讲话者说出的。多语言神经TTS***可以将讲话者的讲话者潜在空间信息作为全局条件，以使得所生成的语音采用该讲话者的声音。在本文中，讲话者潜在空间信息可以指在多维空间中对讲话者的声音特性的表征。

在一个方面，本公开的实施例提出了以对抗训练的方式对多语言神经TTS***中的组件进行训练。通过对抗训练，当为一个讲话者合成多语言语音时，可以改进语音质量和讲话者相似性。此外，通过对抗训练，也可以进一步增强跨语言的口音控制。

在一个方面，根据本公开实施例的多语言神经TTS***可以高效地调试到新的讲话者，即便该新的讲话者仅具有例如有限的单语言语料数据。在一种情况下，多语言神经TTS***可以被直接应用于为该新的讲话者生成多语言语音。在另一种情况下，可以首先利用该新的讲话者的语料库来更新多语言神经TTS***的至少一部分组件，然后将更新的***应用于为该新的讲话者生成多语言语音。

在一个方面，根据本公开实施例的多语言神经TTS***可以高效地调试到新的语言。即使该新的语言仅具有低资源量，例如有限的语料数据，该***也可以利用来自其它语言的知识来生成采用该新的语言的高质量语音。

根据本公开实施例的多语言神经TTS***可以被应用于多种场景中。在一些情况下，根据本公开实施例的多语言神经TTS***可以使用某个特定用户的声音来生成不同语言的语音。该特定用户可以是某个公众人物、受欢迎的虚拟角色或电影角色、或者普通用户等。例如，当要对一部电影进行不同语言的配音时，多语言神经TTS***可以首先获得在该电影的采用初始语言的原始配音中各个演员的声音，然后利用各个演员的声音分别生成采用目标语言的语音，从而实现用目标语言对该电影的配音。例如，如果某个虚拟聊天机器人是针对一种特定语言设计的，则多语言神经TTS***可以对该聊天机器人进行语言扩展，使得它能够说出其它语言的语音。在一些情况下，根据本公开实施例的多语言神经TTS***可以被用于实现数据增强。例如，在语音识别任务中通常需要大量的语音-文本训练数据，由于多语言神经TTS***可以为不同语言的文本生成对应的不同语言的语音并且可以采用不同讲话者的声音，从而可以帮助有效地扩展训练数据集。

图1示出了示例性的传统神经TTS***100。神经TTS***100可以被配置为接收文本输入102，并且生成与文本输入102相对应的语音波形106。文本输入102可以是词语、短语、句子等。应当理解，尽管在图1中示出将文本输入102提供给神经TTS***100，但是也可以首先将文本输入102分为元素序列，例如音素序列、字素(grapheme)序列、字符序列等，然后将该序列提供给神经TTS***100作为输入。在本文中，“文本输入”可以广泛地指从文本输入中获得的元素序列，例如音素序列、字素序列、字符序列等。

神经TTS***100可以包括声学特征预测器110。声学特征预测器110可以根据文本输入102来预测或生成声学特征104。声学特征104可以包括各种传统的TTS声学特征，例如，梅尔谱(mel-spectrum)、线性谱对(LSP)等。声学特征预测器110可以基于各种模型架构，例如，序列到序列模型架构等。图1示出了示例性的序列到序列声学特征预测器110，其可以包括编码器112、注意力单元114和解码器116。

编码器112可以将文本输入102中包含的信息转换到更加鲁棒且更适于学习与声学特征的对准的空间中，例如，将文本输入102中的信息转换为该空间中的文本特征。编码器112可以基于各种网络结构，例如，包括多个卷积神经网络(CNN)层和多个递归神经网络(RNN)层的组合的网络结构，包括1-D卷积滤波器、高速(highway)网络和双向RNN的组合的网络结构，等等。

注意力单元114可以实施注意力机制，该注意力机制作为连接编码器112和解码器116的桥梁。例如，注意力机制可以有助于在编码器112所输出的文本特征与声学特征之间进行对准。注意力单元114可以实施各种类型的注意力机制，例如，软注意力、硬注意力、位置敏感的注意力、高斯混合模型(GMM)注意力等。

解码器116可以在注意力单元114中的注意力机制的影响下，将编码器112所输出的文本特征映射到声学特征104。解码器116可以基于各种网络结构，例如包括前馈层、长短期记忆(LSTM)层和CNN层的组合的网络结构，等等。

神经TTS***100可以包括神经声码器120。神经声码器120可以基于声学特征预测器110所输出的预测的声学特征104来生成语音波形106。神经声码器120可以基于各种网络结构，例如，基于生成式神经模型的网络结构等。

图2示出了根据实施例的多语言神经TTS***200的示例性架构。应当理解，图2所示的架构仅是用于解释本公开的一些概念或方面的目的的示意图，多语言神经TTS***200实际上可以具有各种实施方式。多语言神经TTS***200可以为用于训练多语言神经TTS***200的多语言语料库中涉及的多个讲话者生成不同语言的语音，并且也可以为新的讲话者生成不同语言的语音。在生成语音期间，多语言神经TTS***200可以考虑讲话者潜在空间中的讲话者区分信息，例如讲话者潜在空间信息，以及语言潜在空间中的语言区分信息，例如语言潜在空间信息。在针对目标讲话者生成语音期间，目标讲话者的讲话者潜在空间信息可以用于控制以目标讲话者的声音来生成语音，而参考语言的语言潜在空间信息可以用于控制以参考语言的口音来生成语音。

如图2所示，多语言神经TTS***200可以被配置用于接收采用至少一种语言的文本输入202，并且以目标讲话者的声音来生成与文本输入102对应的、具有参考语言的口音的语音波形206。多语言神经TTS***200可以包括声学特征预测器210、神经声码器220、讲话者编码器230以及语言编码器240。讲话者编码器230和语言编码器240可以一起作为多语言神经TTS***200中的全局条件编码器。

讲话者编码器230可以提供目标讲话者的讲话者潜在空间信息232。讲话者潜在空间信息232可以是对目标讲话者在讲话者潜在空间中的讲话者特性的表征，例如目标讲话者的讲话者嵌入向量。讲话者潜在空间信息232可以被用作提供给声学特征预测器210和/或神经声码器220的附加信息，例如，全局条件。从而，在声学特征预测器210和/或神经声码器220的处理期间可以考虑讲话者潜在空间信息232。应当理解，尽管在本公开的一些部分中记载了由讲话者编码器提供讲话者嵌入向量，该讲话者嵌入向量仅仅是讲话者编码器所提供的讲话者潜在空间信息的示例性实例，以下结合讲话者嵌入向量所讨论的那些操作或处理也可以以相似的方式而被应用于讲话者潜在空间信息的任何其它实例。

语言编码器240可以提供参考语言的语言潜在空间信息242。语言潜在空间信息242可以是对参考语言在语言潜在空间中的韵律特性的表征，例如参考语言的语言嵌入向量。语言潜在空间信息242可以被用作提供给声学特征预测器210和/或神经声码器220的附加信息，例如，全局条件。从而，在声学特征预测器210和/或神经声码器220的处理期间可以考虑语言潜在空间信息242。应当理解，尽管在本公开的一些部分中记载了由语言编码器提供语言嵌入向量，该语言嵌入向量仅仅是语言编码器所提供的语言潜在空间信息的示例性实例，以下结合语言嵌入向量所讨论的那些操作或处理也可以以相似的方式而被应用于语言潜在空间信息的任何其它实例。

声学特征预测器210的基本功能和结构可以类似于图1中的声学特征预测器110，除了其进一步考虑了讲话者潜在空间信息232和语言潜在空间信息242。换句话说，声学特征预测器210可以基于文本输入202、讲话者潜在空间信息232和语言潜在空间信息242来预测或生成至少一个声学特征204。声学特征预测器210可以包括编码器212、注意力单元214和解码器216。讲话者潜在空间信息232和语言潜在空间信息242可以与编码器212的输出进行组合，并传递到注意力单元214。注意力单元214中的注意力机制可以利用讲话者潜在空间信息232、语言潜在空间信息242与编码器212的输出的组合来影响解码器216处的处理。相应地，解码器216所输出的声学特征可以与目标讲话者以及参考语言相关联。

神经声码器220的基本功能和结构可以类似于图1中的神经声码器120。在一种实施方式中，由于声学特征204中已经包含了关于目标讲话者和参考语言的信息，因此可以将神经声码器220训练为通用神经声码器。从而，该通用神经声码器可以直接基于声学特征204来生成语音波形206。在一种实施方式中，神经声码器220可以进一步考虑讲话者潜在空间信息232和/或语言潜在空间信息242。尽管所预测的声学特征204可能已经反映了目标讲话者特性和参考语言特性，如果神经声码器220处的处理可以进一步考虑讲话者特性和参考语言特性也仍然是有帮助的，这是因为神经声码器220是用多语言语料库来训练的并且实际上是适配于讲话者和语言的神经声码器。因此，神经声码器220也可以基于声学特征204以及讲话者潜在空间信息232和/或语言潜在空间信息242来生成语音波形206。应当理解，神经声码器220可以逐个采样地生成语音波形206，其中采样的集合形成了语音波形206。

通过使用讲话者潜在空间信息232作为声学特征预测器210和/或神经声码器220的全局条件，多语言神经TTS***200可以控制所生成语音的声音，例如使得所生成的语音听起来与目标讲话者的声音非常相似。通过使用参考语言的语言潜在空间信息242作为声学特征预测器210和/或神经声码器220的全局条件，多语言神经TTS***200可以控制所生成语音的口音，例如，尽管所生成的语音采用了文本输入202的语言，但仍可以使得所生成的语音听起来具有参考语言的口音。

图3示出了根据实施例的讲话者编码器300的示例性实现方式。讲话者编码器300可以对应于图2中的讲话者编码器230。可以以各种方式来实施讲话者编码器300。

在一种实施方式中，可以通过讲话者嵌入选择器310来实施讲话者编码器300。讲话者嵌入选择器310可以获得目标讲话者的标识信息302，其可以是能够用于从其他讲话者中标识目标讲话者的任何类型的信息，例如，对应于目标讲话者的随机数或指定的数、目标讲话者的名称、对目标讲话者的描述信息等，在下文中将该标识信息简化表示为“目标讲话者ID”。讲话者嵌入选择器310可以尝试从讲话者嵌入向量数据库312中检索与目标讲话者ID 302对应的讲话者嵌入向量。讲话者嵌入向量数据库312也可以被称为讲话者潜在空间信息数据库，并且可以包括以不同于嵌入向量的任何其它形式对不同讲话者的特性的表征。讲话者嵌入向量数据库312可以包括分别对应于多个讲话者的多个讲话者嵌入向量。讲话者嵌入向量数据库312可以是通过在训练多语言神经TTS***期间收集多语言语料库中的那些讲话者的讲话者嵌入向量而建立的，或者也可以是通过在应用多语言神经TTS***期间收集之前的目标讲话者的讲话者嵌入向量而建立的。在建立讲话者嵌入向量数据库312期间，可以通过例如神经网络等对于来自同一个目标讲话者的多个不同语音生成相同的讲话者嵌入向量，而对于不同的目标讲话者则生成彼此不同的讲话者嵌入向量。可以通过为与不同目标讲话者对应的讲话者嵌入向量标记该目标讲话者的目标讲话者ID来建立查找表。从而，当讲话者嵌入选择器310获得了目标讲话者ID时，其可以通过查找表来检索出该目标讲话者的讲话者嵌入向量。

在一种实施方式中，可以通过讲话者嵌入生成器320来实施讲话者编码器300。讲话者嵌入生成器320可以基于目标讲话者的语料库304来生成与目标讲话者对应的讲话者嵌入向量。例如，可以获得目标讲话者的语料库304，其包括目标讲话者的多个语音波形。可以通过各种传统技术来从语料库304中的语音波形中提取声学特征，并且提供给讲话者嵌入生成器320。讲话者嵌入生成器320可以基于目标讲话者的声学特征来生成与目标讲话者对应的讲话者嵌入向量。可以通过各种技术来实施讲话者嵌入生成器320。例如，讲话者嵌入生成器320可以是用于基于声学特征来生成嵌入向量的神经网络。该神经网络可以将输入的具有可变长度的声学特征序列映射为固定长度的嵌入向量。该神经网络可以采用任何序列模型，例如递归神经网络(RNN)或变换器。该神经网络仅从输入中提取讲话者信息，从而对应于同一个讲话者的输入将导致相同或类似的嵌入向量，而对应于不同讲话者的输入将导致不同的嵌入向量。在一种情况下，该神经网络可以是通过讲话者分类任务来预训练的。在另一种情况下，如果不进行预训练，则可以在用于该神经网络的训练标准中使用附加约束，该附加约束可以使得同一讲话者的嵌入向量之间的距离最小化、使得不同讲话者的嵌入向量之间的距离最大化等。具体地，除了传统神经TTS***的训练中使用的损失(loss)外，可以引入附加的损失以确保为同一讲话者生成的嵌入向量彼此接近，而为不同讲话者生成的嵌入向量彼此远离。例如，可以定义附加的损失函数，以使得同一讲话者的嵌入向量之间的距离最小化、不同讲话者的嵌入向量之间的距离最大化等。

图4示出了根据实施例的讲话者嵌入生成器400的示例性实现方式。讲话者嵌入生成器400可以对应于图3中的讲话者嵌入生成器320。如图4所示，讲话者嵌入生成器400可以基于神经网络，该神经网络用于基于声学特征402来生成讲话者嵌入向量404。讲话者嵌入生成器400可以依次包括多个卷积层410、平均池化420、多个全连接(FC)层430以及仿射(affine)映射440。讲话者嵌入向量404可以是通过对映射输出的L2归一化来形成的。讲话者嵌入生成器400可以是利用多个讲话者的语料库集合来训练的，并且被设计用于独立于文本或内容的讲话者识别。因此，讲话者嵌入生成器400可以独立于内容地提供对讲话者嵌入向量的更好估计。

图5示出了根据实施例的语言编码器500的示例性实现方式。语言编码器500可以对应于图2中的语言编码器240。可以以各种方式来实施语言编码器500。

在一种实施方式中，可以通过语言嵌入选择器510来实施语言编码器500。语言嵌入选择器510可以获得参考语言的标识信息502，其可以是能够用于从其他语言中标识参考语言的任何类型的信息，例如，对应于参考语言的随机数或指定的数、参考语言的名称、对参考语言的描述信息等，在下文中将该标识信息简化表示为“参考语言ID”。语言嵌入选择器510可以尝试从语言嵌入向量数据库512中检索与参考语言ID 502对应的语言嵌入向量。语言嵌入向量数据库512也可以被称为语言潜在空间信息数据库，并且可以包括以不同于嵌入向量的任何其它形式对不同语言的特性的表征。语言嵌入向量数据库512可以包括分别对应于多种语言的多个语言嵌入向量。语言嵌入向量数据库512可以是通过在训练多语言神经TTS***期间收集多语言语料库中的那些语言的语言嵌入向量而建立的。在建立语言嵌入向量数据库512期间，可以通过例如神经网络等对于来自同一种语言的多个不同语音生成相同的语言嵌入向量，而对于不同的语言则生成彼此不同的语言嵌入向量。可以通过为与不同参考语言对应的语言嵌入向量标记该参考语言的参考语言ID来建立查找表。从而，当语言嵌入选择器510获得了参考语言ID时，其可以通过查找表来检索出该参考语言的语言嵌入向量。

在一种实施方式中，可以通过语言嵌入生成器520来实施语言编码器500。语言嵌入生成器520可以基于参考语言的语料库504来生成与参考语言对应的语言嵌入向量。例如，可以获得参考语言的语料库504，其包括采用该参考语言的多个语音波形。可以通过各种传统技术来从语料库504中的语音波形中提取声学特征，并且提供给语言嵌入生成器520。语言嵌入生成器520可以基于所接收的声学特征来生成与该参考语言对应的语言嵌入向量。可以通过各种技术来实施语言嵌入生成器520。例如，语言嵌入生成器520可以是用于基于声学特征来生成嵌入向量的神经网络。该神经网络可以将输入的具有可变长度的声学特征序列映射为固定长度的嵌入向量。该神经网络可以采用任何序列模型，例如递归神经网络(RNN)或变换器。该神经网络仅从输入中提取语言信息，从而对应于同一种语言的输入将导致相同或类似的嵌入向量，而对应于不同语言的输入将导致不同的嵌入向量。在一种情况下，该神经网络可以是通过语言分类任务来预训练的。在另一种情况下，如果不进行预训练，则可以在用于该神经网络的训练标准中使用附加约束，该附加约束可以使得同一种语言的嵌入向量之间的距离最小化、使得不同语言的嵌入向量之间的距离最大化等。具体地，除了传统神经TTS***的训练中使用的损失(loss)外，可以引入附加的损失以确保为同一种语言生成的嵌入向量彼此接近，而为不同语言生成的嵌入向量彼此远离。例如，可以定义附加的损失函数，以使得同一种语言的嵌入向量之间的距离最小化、不同语言的嵌入向量之间的距离最大化等。

图6示出了根据实施例的语言嵌入生成器600的示例性实现方式。语言嵌入生成器600可以对应于图5中的语言嵌入生成器520。如图6所示，语言嵌入生成器600可以基于神经网络，该神经网络用于基于声学特征602来生成语言嵌入向量604。语言嵌入生成器600可以依次包括多个卷积层610、平均池化620、多个FC层630以及仿射映射640。语言嵌入向量604可以是通过对映射输出的L2归一化来形成的。语言嵌入生成器600可以是利用多种语言的语料库集合来训练的，并且被设计用于独立于文本或内容的语言识别。因此，语言嵌入生成器600可以独立于内容地提供对语言嵌入向量的更好估计。

图7示出了根据实施例的多语言神经TTS***的示例性实现方式700。在实现方式700中，多语言神经TTS***可以用于将采用至少一种目标语言的文本输入702转换成采用该目标语言的语音波形706。具体地，声学特征预测器710可以至少基于文本输入702来生成至少一个声学特征704，并且神经声码器720可以至少基于声学特征704来生成语音波形706。

在实现方式700中，声学特征预测器710还可以将目标讲话者的讲话者嵌入向量以及参考语言的语言嵌入向量作为全局条件，以便生成与文本输入702对应的声学特征704。

如果想要以某个目标讲话者的声音来生成语音波形，则多语言神经TTS***可以获得该目标讲话者的信息732，并且通过讲话者编码器730来提供与该目标讲话者对应的讲话者嵌入向量734。在一种情况下，目标讲话者信息732可以是目标讲话者的目标讲话者ID，从而，讲话者编码器730可以采用图3中的讲话者嵌入选择器310来检索与该目标讲话者对应的讲话者嵌入向量734。在另一种情况下，目标讲话者信息732可以是来自目标讲话者的语料库的信息，例如，从该语料库中提取的声学特征。从而，讲话者编码器730可以采用图3中的讲话者嵌入生成器320来生成与该目标讲话者对应的讲话者嵌入向量734。该语料库中包括的语料数据可能采用与目标语言并不相同的其它语言。

如果想要使得所生成的语音波形具有参考语言的口音，则多语言神经TTS***可以获得该参考语言的信息742，并且通过语言编码器740来提供与该参考语言对应的语言嵌入向量744。在一种情况下，参考语言信息742可以是参考语言的参考语言ID，从而，语言编码器740可以采用图5中的语言嵌入选择器510来检索与该参考语言对应的语言嵌入向量744。在另一种情况下，参考语言信息742可以是来自参考语言的语料库的信息，例如，从该语料库中提取的声学特征。从而，语言编码器740可以采用图5中的语言嵌入生成器520来生成与该参考语言对应的语言嵌入向量744。该语料库中包括的语料数据可能采用与目标语言并不相同的其它语言。

声学特征预测器710可以通过讲话者嵌入向量734来使得至少一个声学特征704使用目标讲话者的声音，以便使得最终生成的语音听起来与目标讲话者的声音非常相似。声学特征预测器710可以通过语言嵌入向量744来使得至少一个声学特征704具有参考语言的口音，以便尽管最终生成的语音采用了目标语言，但仍可以使得所生成的语音听起来具有参考语言的口音。

由于声学特征704中包含了目标讲话者特性和参考语言特性，从而基于声学特征704所生成的语音波形706一方面将使用目标讲话者的声音，另一方面将采用目标语言并且具有参考语言的口音。应当理解，在这种情况下，神经声码器720可以是一种通用神经声码器，其能够直接基于声学特征704来生成具有上述特性的语音波形706。

图8示出了根据实施例的多语言神经TTS***的示例性实现方式800。实现方式800可以被看作是对图7中的实现方式700的变形。实现方式800与实现方式700相类似，除了对神经声码器820的处理进行了改进。

在实现方式800中，目标讲话者的讲话者嵌入向量734以及参考语言的语言嵌入向量744除了被用作声学特征预测器710的全局条件之外，也可以被选择性地用作神经声码器820的全局条件。也就是说，神经声码器820可以基于声学特征704、以及讲话者嵌入向量734和语言嵌入向量744中的至少一个来生成语音波形806。尽管声学特征704可能已经反映了目标讲话者特性和参考语言特性，神经声码器820通过考虑讲话者嵌入向量734可以进一步提高所生成的语音波形与目标讲话者声音的相似性，并且通过考虑语言嵌入向量744可以进一步增强所生成的语音波形中具有的参考语言的口音。

应当理解，尽管以上结合图7和图8讨论了根据本公开实施例的多语言神经TTS***的示例性实现方式，但是根据具体的应用场景和设计约束，也可以对这些实现方式进行任意形式的改变或者替换。

在一种情况下，参考语言可以与目标语言相同或不同。如果参考语言与目标语言不同，则所生成的语音在采用目标语言的同时还具有参考语言的口音，例如，具有中文口音的英文语音。如果参考语言与目标语言相同，则可以增强所生成的语音的口音纯正度，这是因为参考语言的语言嵌入向量可以反映该参考语言的更一般性的韵律特性。

在一种情况下，在本文中可以对“语言”的概念做广泛地解释。可以把同一种语言在不同地域或人群中的版本划分成不同的语言。例如，对于“英语”而言，在英国或者由英国人使用的英语可被称为英式英语，而在美国或者由美国人使用的英语可被称为美式英语，由于英式英语和美式英语存在韵律上的区别，因此可以将英式英语和美式英语视为是两种不同的语言。

在一种情况下，文本输入可以不局限于一种语言，而是混合语言的文本输入，其可以是包含采用两种或更多种语言的内容的组合。例如，文本输入可以是“看，他是个cowboy”，其中，在该文本输入的中文句子中***了英文单词“cowboy”。对于混合语言的文本输入，根据本公开实施例的多语言神经TTS***仍然能够产生具有较高自然性的语音。通过以参考语言的语言嵌入向量作为全局条件，可以保证所生成的语音波形的韵律连续性。例如，如果文本输入是中文内容和英语内容的混合，而参考语言被选择为是中文，则可以生成具有统一的中文口音的中文和英语混合的语音。通过以目标讲话者的讲话者嵌入向量作为全局条件，也可以增强所生成的语音波形的声音与目标讲话者的相似性。在混合语言的文本输入的情况下，参考语言可以是文本输入中涉及的语言中的一个，或者可以是与文本输入中涉及的语言都不同的语言。

在一种情况下，根据本公开实施例的多语言神经TTS***可以不局限于使用一种参考语言，而是可以同时使用两种或更多参考语言。也就是说，可以使用与两种或更多参考语言对应的两个或更多语言嵌入向量来作为全局条件，从而使得声学特征预测器所生成的声学特征以及神经声码器最终生成的语音波形具有介于这两种或更多参考语言之间的口音。在这种情况下，语言编码器可以将与两种或更多参考语言对应的两个或更多语言嵌入向量提供给声学特征预测器和/或神经声码器。以对应于两种参考语言的两个语言嵌入向量为例，可以对这两个语言嵌入向量进行内插，以获得经内插的语言嵌入向量。可以通过内插权重来控制口音更偏向于两种参考语言中的哪一种。进而，声学特征预测器可以基于文本输入、目标讲话者嵌入向量和经内插的语言嵌入向量来生成声学特征。可选地，神经声码器也可以通过考虑经内插的语言嵌入向量来生成语音波形。

图9示出了根据实施例的声学特征预测器900的示例性实现方式。声学特征预测器900可以对应于图2中的声学特征预测器210、图7和图8中的声学特征预测器710等。声学特征预测器900可以包括编码器910、注意力单元920以及解码器930。

可以将文本输入902提供给编码器910，该编码器910可以对应于图2中的编码器212。编码器910中的文本嵌入单元912可以将文本输入902转换为文本嵌入向量，该文本嵌入向量可以进而通过编码器910中的多个卷积层914和双向LSTM(BLSTM)916进行处理。编码器910可以输出对应于文本输入902的文本特征，该文本特征可以进而与讲话者嵌入向量904以及语言嵌入向量906进行组合。例如，可以将级联单元918用于提供文本特征、讲话者嵌入向量904以及语言嵌入向量906的组合，其中，讲话者嵌入向量904可以对应于图2中的讲话者潜在空间信息232、图7和图8中的讲话者嵌入向量734等。

可以将文本特征、讲话者嵌入向量904以及语言嵌入向量906的组合提供给注意力单元920，该注意力单元920可以对应于图2中的注意力单元214。注意力单元920中实施的注意力机制可以利用文本特征、讲话者嵌入向量904以及语言嵌入向量906的组合来影响解码器930的处理，其中，解码器930可以对应于图2中的解码器216。

解码器930可以包括由前馈层构成的前置网络(pre-net)932、单向LSTM(ULSTM)934、线性映射936、由卷积层构成的后置网络(post-net)938等。ULSTM 934可以接收来自前置网络932的输入并且将其输出提供给线性映射936，同时ULSTM 934的处理受到注意力单元920的影响。线性映射936可以将其输出分别提供给前置网络932和后置网络938。最终，后置网络938的输出与线性映射936的输出被组合以产生声学特征908。声学特征908可以对应于图2中的声学特征204、图7和图8中的声学特征704等。在一种实施方式中，线性映射936也可以用于生成停止标记。

应当理解，图9中的声学特征预测器900的结构是示例性的，根据具体的应用设计和需求，声学特征预测器900可以通过任何其它方式来实现。此外，也可以对图9中的声学特征预测器900的结构进行任何形式的修改。例如，尽管图9中仅示出了一个语言嵌入向量906，也可以存在两个或更多的语言嵌入向量，从而级联单元918可以将这些语言嵌入向量与文本特征、讲话者嵌入向量904组合在一起。

图10示出了根据实施例的神经声码器1000的示例性实现方式。神经声码器1000可以对应于图2中的神经声码器220、图7中的神经声码器720、图8中的神经声码器820等。

如上所述，神经声码器可以考虑讲话者特性，从而使得神经声码器可以获得讲话者潜在空间中关于目标讲话者的更多信息。此外，神经声码器可以考虑语言特性，从而使得神经声码器可以获得语言潜在空间中关于参考语言的更多信息。由于反应讲话者特性的讲话者嵌入向量和反应参考语言特性的语言嵌入向量可能具有与声学特征不同的维度和取值范围，可以首先通过例如神经网络将讲话者嵌入向量、语言嵌入向量和声学特征变换到具有相似动态取值范围的相同维度。

可以将声学特征1002输入到神经网络1010，该声学特征可以对应于图9中的声学特征908。神经网络1010可以基于各种结构，例如准回归神经网络(QRNN)1012连同一个1╳1卷积层1014。通过神经网络1010，可以获得经变换的声学特征。

可以将讲话者嵌入向量1004输入到神经网络1020。讲话者嵌入向量1004可以对应于图9中的讲话者嵌入向量904。神经网络1020可以基于各种结构，例如一个1╳1卷积层。通过神经网络1020，可以获得经变换的讲话者嵌入向量，其具有与经变换的声学特征相同的维度以及相似的动态取值范围。

可以将语言嵌入向量1006输入到神经网络1030。语言嵌入向量1006可以对应于图9中的语言嵌入向量906。神经网络1030可以基于各种结构，例如一个1╳1卷积层。通过神经网络1030，可以获得经变换的语言嵌入向量，其具有与经变换的声学特征相同的维度以及相似的动态取值范围。

可以将经变换的声学特征、经变换的讲话者嵌入向量以及经变换的语言嵌入向量组合在一起，并且进而提供给神经声码器1000。神经声码器1000可以基于生成式神经模型，例如可以采用自回归结构，并且可以基于经变换的声学特征、经变换的讲话者嵌入向量以及经变换的语言嵌入向量的组合来生成语音波形1008。

在一种实施方式中，神经声码器1000可以包括多个扩张(dilated)卷积层1040，其被分组成特定数量的循环。多个扩张卷积层1040可以将经变换的声学特征、经变换的讲话者嵌入向量以及经变换的语言嵌入向量的组合作为条件。可以在多个扩张卷积层1040的输出上执行跳跃连接1042。神经声码器1000可以进而依次包括修正线性单元(ReLU)1044、1╳1卷积层1046、ReLU 1048、1╳1卷积层1050、多个前馈(FF)层1052以及MoL单元1054。通过上述结构，神经声码器1000可以依序生成多个语音采样并最终输出语音波形1008。

应当理解，图10中的神经声码器1000的结构是示例性的，根据具体的应用设计和需求，神经声码器1000可以通过任何其它方式来实现。此外，也可以对图10中的神经声码器1000的结构进行任何形式的修改。例如，尽管图10中示出了向神经声码器提供讲话者嵌入向量和语言嵌入向量两者，也可以不向神经声码器提供讲话者嵌入向量和语言嵌入向量或者仅提供两者中的任意一个，从而可以在图10中仅保留与实际输入的嵌入向量相关联的部分。

为了训练多语言神经TTS***1110，可以准备用于训练的多语言语料库1120。多语言语料库1120可以包括多种语言的多个语料库，例如，语言1的语料库1、语言2的语料库2等。多语言语料库1120中的语料数据可以来自多个讲话者。

每种语言的语料库可以具有充分的内容覆盖。对于每种语言，每个讲话者的语料数据的内容并不受到限制，这是因为不同讲话者的语料数据的内容可以互补。此外，每个讲话者各自的语料数据的大小也不受到限制。然而，每种语言的所有语料数据的内容应当能够覆盖该语言的所有发音。

优选地，在每种语言的语料库中的讲话者具有充分的多样性。例如，讲话者可以具有不同的性别、年龄、口音等。这将有助于在以不同的语言合成特定讲话者的声音时可以生成高质量的语音。

优选地，可以在多语言语料库中包括多语言语料数据。多语言语料数据可以指对应于同一段文本，存在采用不同语言的不同语音。如果在训练中使用充分的多语言语料数据将有助于改进跨语言的讲话者相似性。

如图11所示，多语言神经TTS***1110可以包括讲话者编码器1112、语言编码器1114、声学特征预测器1116、神经声码器1118等。多语言神经TTS***1110的结构可以类似于图2所示的多语言神经TTS***200。在一种实施方式中，声学特征预测器1116和神经声码器1118可以彼此独立地训练。在一种实施方式中，讲话者编码器1112和语言编码器1114可以与声学特征预测器1116联合地训练。在一种实施方式中，神经声码器1118也可以与讲话者编码器1112和语言编码器1114联合地训练。在一种实施方式中，如果神经声码器1118不使用目标讲话者的讲话者嵌入向量和参考语言的语言嵌入向量作为全局条件，则可以将神经声码器1118训练为可以为任何讲话者和任何语言生成语音波形的通用神经声码器。

可以基于多语言语料库1120中的语音波形来获得用于讲话者编码器1112、语言编码器1114、声学特征预测器1116和神经声码器1118中的任意一个或任意组合的训练数据。例如，可以从语音波形中获得各种导出信息，例如，通过应用任何语音识别技术所获得的文本信息、通过应用任何声学特征提取技术所获得的声学特征、通过应用任何讲话者识别技术所获得的讲话者嵌入向量、通过应用任何语言识别技术所获得的语言嵌入向量等。所导出的信息连同多语言语料库1120中的语音波形可以形成用于讲话者编码器1112、语言编码器1114、声学特征预测器1116和神经声码器1118中的任意一个或任意组合的各种训练数据。

图12示出了根据实施例的通过生成式对抗网络来训练声学特征预测器的示例性过程1200。

生成式对抗网络可以包括声学特征预测器1210，其作为生成器。此外，生成式对抗网络还包括鉴别器1220。声学特征预测器1210可以学习基于文本输入1202和全局条件1212来预测或生成声学特征1214，使得所预测的声学特征能够最佳地趋近训练数据中的声学特征，即真实声学特征。全局条件1212可以包括目标讲话者的讲话者嵌入向量和/或参考语言的语言嵌入向量。鉴别器1220可以学习在声学特征预测器1210输出的预测声学特征1214与训练数据中的真实声学特征1222之间进行区分，并且输出鉴别结果1220，例如真或假。该鉴别结果可以进而被用于对声学特征预测器1210和鉴别器1220进行更新或改进。

在一种情况下，当旨在改进采用不同语言的合成语音的讲话者相似性时，鉴别器1220可以学习在不同讲话者之间进行区分，例如，在一个讲话者的声学特征与其他讲话者的声学特征之间进行区分。在一种情况下，当旨在改进合成语音的口音以便在跨语言合成中更接近参考语言的母语讲话者的口音时，鉴别器1220可以学习在不同的语言之间进行区分，例如，在一种语言的声学特征与其它语言的声学特征之间进行区分。

应当理解，尽管图12示出了以对抗训练的方式训练声学特征预测器，但是类似地，也可以以对抗训练的方式来迭代地训练神经声码器等。

图13示出了根据实施例的针对新讲话者来更新多语言神经TTS***的示例性过程。根据本公开实施例的多语言神经TTS***可以高效地调试到新的讲话者，即，注册新讲话者或注册新声音。

在一种情况下，新讲话者1302的语料库1304可能仅具有非常有限的语料数据，例如仅具有少量的该新讲话者的语音。在这种情况下，可以将多语言神经TTS***直接应用于为该新的讲话者生成多语言语音，而并不需要对多语言神经TTS***中的组件进行更新。例如，讲话者编码器可以使用该新讲话者的一条或多条语料数据来生成与该新讲话者对应的讲话者嵌入向量，该讲话者嵌入向量可以进而被用作声学特征预测器和/或神经声码器的全局条件。

在另一种情况下，如果新讲话者1302的语料库1304具有相对较多的语料数据，例如具有50条以上的语音，则可以利用该新讲话者的语料库来更新多语言神经TTS***的至少一部分组件，例如讲话者编码器、语言编码器、声学特征预测器、神经声码器中的至少一个。经更新的***可以进而被应用于为该新讲话者生成多语言语音。如图13所示，在一种方式中，可以仅更新多语言神经TTS***中的讲话者编码器1310，而在另一种方式中，可以更新多语言神经TTS***1320中的两个或更多组件，例如讲话者编码器、语言编码器、声学特征预测器、神经声码器中的两个或更多组件。应当理解，如果神经声码器是通用神经声码器，则也可以不对神经声码器进行更新。

新讲话者1302的语料库1304可以被用于形成用于上述更新过程的各种训练数据。可以通过与上述结合图11所讨论的相类似的方式来根据语料库1304获得这些训练数据。

通过图13的更新过程，多语言神经TTS***可以被更好地调试到新讲话者，并为新讲话者生成高质量的语音。

应当理解，根据本公开的实施例也可以通过内插的方式来生成新的声音。例如，可以获得来自不同讲话者的讲话者嵌入向量，然后对这些讲话者嵌入向量进行内插，以获得经内插的讲话者嵌入向量。经内插的讲话者嵌入向量可以对应于新的声音，其中，可以通过内插权重来控制该新的声音与所述不同讲话者的声音的相似性。

根据本公开的实施例，多语言神经TTS***也可以高效地调试到新的语言。可以获得该新的语言的语料库，并且使用该语料库来更新多语言神经TTS***的至少一部分组件，例如语言编码器、讲话者编码器、声学特征预测器、神经声码器中的至少一个。新的语言的语料库可以被用于形成用于上述更新过程的各种训练数据。可以通过与上述结合图11所讨论的相类似的方式来根据新的语言的语料库获得训练数据。经更新的多语言神经TTS***可以更好地利用来自其它语言的知识来生成采用该新的语言的高质量语音。

图14示出了根据实施例的用于生成语音波形的示例性处理流程1400。

可以接收文本输入1402。该文本输入1402可以采用至少一种目标语言，该目标语言是将要生成的语音所采用的语言。

可以获得关于目标讲话者1404的指示。例如，用户可以通过各种方式来指示其想要在将要生成的语音中使用该目标讲话者1404的声音。

可以获得关于参考语言1406的指示。例如，用户可以通过各种方式来指示其想要在将要生成的语音中使用该参考语言1406的口音。参考语言1406可以包括一种或更多参考语言，并且可以与目标语言相同或不同。

在1412处，可以获得与目标讲话者对应的讲话者潜在空间信息。可以通过任何以上讨论的方式来获得与目标讲话者对应的讲话者潜在空间信息。例如，可以首先获得目标讲话者的目标讲话者ID，然后基于该目标讲话者ID来从讲话者潜在空间信息数据库中检索出对应的讲话者潜在空间信息。此外，例如，可以基于目标讲话者的语料库来生成与目标讲话者对应的讲话者潜在空间信息。

在1414处，可以获得与参考语言对应的语言潜在空间信息。可以通过任何以上讨论的方式来获得与参考语言对应的语言潜在空间信息。例如，可以首先获得参考语言的参考语言ID，然后基于该参考语言ID来从语言潜在空间信息数据库中检索出对应的语言潜在空间信息。此外，例如，可以基于参考语言的语料库来生成与参考语言对应的语言潜在空间信息。

在1420处，可以通过以与目标讲话者对应的讲话者潜在空间信息和与参考语言对应的语言潜在空间信息作为全局条件，来生成与文本输入1402对应的声学特征。

在1430处，可以至少基于所生成的声学特征来进一步生成语音波形。可选地，也可以通过将与目标讲话者对应的讲话者潜在空间信息和与参考语言对应的语言潜在空间信息中的至少一个作为全局条件，来生成语音波形。所生成的语音波形可以采用各种音频格式，并且可以以语音的形式来播放给用户。

应当理解，处理流程1400还可以包括根据上述本公开实施例的用于通过多语言神经TTS合成来生成语音的任何步骤/过程。

图15示出了根据实施例的用于通过多语言神经TTS合成来生成语音的示例性方法1500的流程图。

在1510处，可以接收采用至少第一语言的文本输入。

在1520处，可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。

在1530处，可以通过语言编码器来提供第二语言的语言潜在空间信息。

在1540处，可以通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。

在1550处，可以通过神经声码器，基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

在一种实施方式中，生成至少一个声学特征可以包括：通过将所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息用作所述声学特征预测器的全局条件，生成与所述文本输入对应的所述至少一个声学特征。所述声学特征预测器通过所述讲话者潜在空间信息来使得所述至少一个声学特征使用所述目标讲话者的声音，并且通过所述第二语言的语言潜在空间信息来使得所述至少一个声学特征具有所述第二语言的口音。

在一种实施方式中，所生成的语音波形可以使用所述目标讲话者的声音、采用所述第一语言并且具有所述第二语言的口音。

在一种实施方式中，所述语音波形可以是通过所述神经声码器进一步基于所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息中的至少一个来生成的。

在一种实施方式中，所述第二语言的语言潜在空间信息可以包括在多维空间中对所述第二语言的韵律的表征。

在一种实施方式中，所述第二语言与所述第一语言可以相同或不同。

在一种实施方式中，方法1500还可以包括：通过所述语言编码器，提供第三语言的语言潜在空间信息；对所述第二语言的语言潜在空间信息和所述第三语言的语言潜在空间信息进行内插，以获得经内插的语言潜在空间信息。生成至少一个声学特征可以包括：基于所述文本输入、所述讲话者潜在空间信息和所述经内插的语言潜在空间信息来生成所述至少一个声学特征。所述至少一个声学特征和所述语音波形可以具有介于所述第二语言和所述第三语言之间的口音。

在一种实施方式中，所述文本输入可以包括采用第一语言的内容和采用第三语言的内容。所述第二语言可以与所述第一语言或者所述第三语言相同。

在一种实施方式中，提供目标讲话者的讲话者潜在空间信息可以包括以下至少之一：基于采用与所述第一语言不同的语言的、所述目标讲话者的语料库来生成所述讲话者潜在空间信息；以及从讲话者潜在空间信息数据库中检索与所述目标讲话者对应的所述讲话者潜在空间信息。

在一种实施方式中，方法1500还可以包括：基于所述目标讲话者的语料库来更新所述讲话者编码器、所述语言编码器和所述声学特征预测器中的至少一个。

在一种实施方式中，方法1500还可以包括：通过生成式对抗网络来训练所述声学特征预测器。所述生成式对抗网络可以包括：基于所述声学特征预测器的生成器；以及用于鉴别讲话者或语言的鉴别器。

在一种实施方式中，方法1500还可以包括：基于多语言语料库来训练所述讲话者编码器、所述语言编码器、所述声学特征预测器和所述神经声码器中的至少一个，其中，所述多语言语料库包括来自多种语言和多个讲话者的语料数据。

应当理解，方法1500还可以包括根据上述本公开实施例的用于通过多语言神经TTS合成来生成语音的任何步骤/过程。

图16示出了根据实施例的用于通过多语言神经TTS合成来生成语音的示例性装置1600。

装置1600可以包括：文本输入接收模块1610，用于接收采用至少第一语言的文本输入；讲话者潜在空间信息提供模块1620，用于提供目标讲话者的讲话者潜在空间信息；语言潜在空间信息提供模块1630，用于提供第二语言的语言潜在空间信息；声学特征预测模块1640，用于基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征；以及语音波形生成模块1650，用于基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。

此外，装置1600还可以包括根据上述本公开实施例的被配置用于通过多语言神经TTS合成来生成语音的任何其它模块。

图17示出了根据实施例的用于通过多语言神经TTS合成来生成语音的示例性装置1700。

装置1700可以包括至少一个处理器1710以及存储了计算机可执行指令的存储器1720。当执行所述计算机可执行指令时，处理器1710可以：接收采用至少第一语言的文本输入；通过讲话者编码器，提供目标讲话者的讲话者潜在空间信息；通过语言编码器，提供第二语言的语言潜在空间信息；通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征；以及通过神经声码器，基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。此外，处理器1710还可以执行根据上述本公开实施例的用于通过多语言神经TTS合成来生成语音的任何步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于通过多语言神经TTS合成来生成语音的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在***上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于通过多语言神经文本到语音(TTS)合成来生成语音的方法，包括：

接收采用至少第一语言的文本输入；

通过讲话者编码器，提供具有与目标讲话者相关联的讲话者嵌入向量形式的、所述目标讲话者的讲话者潜在空间信息；

通过语言编码器，提供具有与第二语言相关联的语言嵌入向量形式的、所述第二语言的语言潜在空间信息；

通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征；以及

通过神经声码器，基于所述至少一个声学特征和所述讲话者潜在空间信息来生成与所述文本输入对应的语音波形。

2.如权利要求1所述的方法，其中，生成至少一个声学特征包括：

通过将所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息用作所述声学特征预测器的全局条件，生成与所述文本输入对应的所述至少一个声学特征。

3.如权利要求2所述的方法，其中，所述声学特征预测器通过所述讲话者潜在空间信息来使得所述至少一个声学特征使用所述目标讲话者的声音，并且通过所述第二语言的语言潜在空间信息来使得所述至少一个声学特征具有所述第二语言的口音。

4.如权利要求1所述的方法，其中，所生成的语音波形使用所述目标讲话者的声音、采用所述第一语言并且具有所述第二语言的口音。

5.如权利要求1所述的方法，其中，所述语音波形是通过所述神经声码器进一步基于所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息中的至少一个来生成的。

6.如权利要求1所述的方法，其中，所述第二语言的语言潜在空间信息包括在多维空间中对所述第二语言的韵律的表征。

7.如权利要求1所述的方法，其中，所述第二语言与所述第一语言相同或不同。

8.如权利要求1所述的方法，还包括：

通过所述语言编码器，提供第三语言的语言潜在空间信息；以及

对所述第二语言的语言潜在空间信息和所述第三语言的语言潜在空间信息进行内插，以获得经内插的语言潜在空间信息，

其中，生成至少一个声学特征包括：基于所述文本输入、所述讲话者潜在空间信息和所述经内插的语言潜在空间信息来生成所述至少一个声学特征。

9.如权利要求8所述的方法，其中，所述至少一个声学特征和所述语音波形具有介于所述第二语言和所述第三语言之间的口音。

10.如权利要求1所述的方法，其中，所述文本输入包括采用第一语言的内容和采用第三语言的内容。

11.如权利要求10所述的方法，其中，所述第二语言与所述第一语言或者所述第三语言相同。

12.如权利要求1所述的方法，其中，提供目标讲话者的讲话者潜在空间信息包括以下至少之一：

基于采用与所述第一语言不同的语言的、所述目标讲话者的语料库来生成所述讲话者潜在空间信息；以及

从讲话者潜在空间信息数据库中检索与所述目标讲话者对应的所述讲话者潜在空间信息。

13.如权利要求1所述的方法，还包括：

基于所述目标讲话者的语料库来更新所述讲话者编码器、所述语言编码器和所述声学特征预测器中的至少一个。

14.如权利要求1所述的方法，还包括：

通过生成式对抗网络来训练所述声学特征预测器。

15.如权利要求14所述的方法，其中，所述生成式对抗网络包括：

基于所述声学特征预测器的生成器；以及

用于鉴别讲话者或语言的鉴别器。

16.如权利要求1所述的方法，还包括：

基于多语言语料库来训练所述讲话者编码器、所述语言编码器、所述声学特征预测器和所述神经声码器中的至少一个，其中，所述多语言语料库包括来自多种语言和多个讲话者的语料数据。

17.一种多语言神经文本到语音(TTS)***，包括：

讲话者编码器，用于提供具有与目标讲话者相关联的讲话者嵌入向量形式的、所述目标讲话者的讲话者潜在空间信息；

语言编码器，用于提供具有与第二语言相关联的语言嵌入向量形式的、所述第二语言的语言潜在空间信息；

声学特征预测器，用于基于采用至少第一语言的文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征；以及

神经声码器，用于基于所述至少一个声学特征和所述讲话者潜在空间信息来生成与所述文本输入对应的语音波形。

18.如权利要求17所述的多语言神经文本到语音(TTS)***，其中，所生成的语音波形使用所述目标讲话者的声音、采用所述第一语言并且具有所述第二语言的口音。

19.一种用于通过多语言神经文本到语音(TTS)合成来生成语音的装置，包括：

文本输入接收模块，用于接收采用至少第一语言的文本输入；

讲话者潜在空间信息提供模块，用于提供具有与目标讲话者相关联的讲话者嵌入向量形式的、所述目标讲话者的讲话者潜在空间信息；

语言潜在空间信息提供模块，用于提供具有与第二语言相关联的语言嵌入向量形式的、所述第二语言的语言潜在空间信息；

声学特征预测模块，用于基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征；以及

语音波形生成模块，用于基于所述至少一个声学特征和所述讲话者潜在空间信息来生成与所述文本输入对应的语音波形。

20.一种用于通过多语言神经文本到语音(TTS)合成来生成语音的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使一个或多个处理器：

接收采用至少第一语言的文本输入，

通过讲话者编码器，提供具有与目标讲话者相关联的讲话者嵌入向量形式的、所述目标讲话者的讲话者潜在空间信息，

通过语言编码器，提供具有与第二语言相关联的语言嵌入向量形式的、所述第二语言的语言潜在空间信息，

通过声学特征预测器，基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征，以及