CN112489618A

CN112489618A - 利用多级别上下文特征的神经文本到语音合成

Info

Publication number: CN112489618A
Application number: CN201910864208.0A
Authority: CN
Inventors: 张少飞; 何磊
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-12
Also published as: WO2021050134A1; EP4029010A1; EP4029010B1; US20220277728A1

Abstract

本公开提供了一种用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入。可以生成所述文本输入的音素特征。可以基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征。可以基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。

Description

利用多级别上下文特征的神经文本到语音合成

背景技术

文本到语音(TTS)合成旨在基于文本输入来生成对应的语音波形。TTS合成广泛地用于语音到语音翻译、对特定用户的语音定制、故事中的角色扮演等。神经TTS***被越来越多地用于实施TTS合成，并且正在成为人工智能(AI)领域近些年的研究热点。神经TTS***可以基于文本输入预测声学特征，并进而基于所预测的声学特征来生成语音波形。与需要良好设计的前端语言特征的传统TTS技术不同，神经TTS***是采用端到端结构来建立模型的，并且可以直接基于例如文本-语音数据对来进行训练。神经TTS***可以联合地优化语音的发音、韵律等，这将导致比传统TTS技术更自然的合成语音。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提供了一种用于通过神经TTS合成来生成语音的方法和装置。可以获得文本输入。可以生成所述文本输入的音素特征。可以基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征。可以基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了示例性传统神经TTS***。

图2示出了根据本公开实施例的示例性神经TTS***。

图3是示出了根据本公开实施例的上下文特征的示意图。

图4示出了根据本公开实施例的用于生成当前语义特征的示例性过程。

图5示出了根据本公开实施例的用于生成历史声学特征的示例性过程。

图6示出了根据本公开实施例的声学编码器的示例性实现方式。

图7示出了根据本公开实施例的用于生成历史语义特征的示例性过程。

图8示出了根据本公开实施例的用于生成将来语义特征的示例性过程。

图9示出了根据本公开实施例的用于生成段落语义特征的示例性过程。

图10示出了根据本公开实施例的用于生成位置特征的示例性过程。

图11示出了根据本公开实施例的另一示例性神经TTS***。

图12示出了根据本公开实施例的又一示例性神经TTS***。

图13是根据本公开实施例的用于通过神经TTS合成来生成语音的示例性方法的流程图。

图14示出了根据本公开实施例的用于生成神经TTS***的训练数据的示例性过程。

图15示出了根据本公开实施例的用于训练神经TTS***的示例性过程。

图16是根据本公开实施例的用于通过神经TTS合成来生成语音的示例性方法的流程图。

图17示出了根据本公开实施例的用于通过神经TTS合成来生成语音的示例性装置。

图18示出了根据本公开实施例的用于通过神经TTS合成来生成语音的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

可以使用神经TTS***来生成与文本输入相对应的语音。传统的神经TTS***仅使用当前文本输入，例如当前句子，的音素特征或字符特征来生成语音。在本文中，音素特征指对文本输入进行发音的音素的信息表示，其是基于从文本输入中识别的音素序列来生成的，其中，音素序列是形成文本输入的发音的顺序音素的列表。字符特征指构成文本输入的字符的信息表示，其是基于从文本输入中识别的字符序列来生成的，其中，字符序列是文本输入中包含的顺序字符的列表。

通常，相同的文本可以对应于不同的发音，例如具有不同语速、音调、韵律、情感或愉悦度等的发音。从数学的角度来看，从文本到语音的转换可以被视作大规模的反向问题，其将高度压缩的源，例如文本，解压缩到极其复杂的目标，例如音频信号。神经TTS***尝试利用机器学***淡的阅读风格语音。

此外，在生成针对一组句子，例如段落，的语音时，传统的神经TTS***通常先针对该组句子中的每个句子分别生成对应的语音波形，然后对生成的所有语音波形进行组合，从而获得与该组句子相对应的语音波形。此外，在组合时，与各个句子相对应的各个语音波形之间的停顿时长通常被设置为是相同的或者固定的。这也将导致句子间的节奏类似，使得生成的语音枯燥乏味。

本公开的实施例提出进一步使用多级别上下文特征来提高神经TTS***的语音生成能力。上下文特征可以是基于多个级别的上下文信息来生成的，所述上下文信息例如包括文本输入的词序列、文本输入邻近文本的词序列和声学特征、文本输入的位置信息等。声学特征可以包括各种传统的TTS声学特征，例如，梅尔谱(mel-spectrum)、线性谱对(LSP)等。位置信息可以指文本输入在邻近文本中的位置的信息表示。

在一个方面，本公开的实施例提出使用文本输入的音素特征和多级别上下文特征二者来生成与文本输入相对应的语音。基于上下文信息生成的上下文特征可以包含关于语义和声学的先验知识。神经TTS***可以从这样的先验知识中学习语速、音调、韵律、情感或愉悦度等的通用模式。因此，在生成语音时，考虑诸如上述上下文特征之类的更多特征，可以有助于缓解一对多映射问题，增强神经TTS***的语音生成能力，从而生成更自然和更具表现力的语音。

在另一个方面，本公开的实施例提出在生成针对一组句子，例如段落，的语音波形时可以对句子间的停顿建模并且根据上下文特征来确定停顿长度。由于句子间的停顿长度是与上下文特征相关的，其可以随着上下文特征的不同而变化，因此最终生成的语音的节奏将更加丰富自然。

图1示出了示例性传统神经TTS***100。神经TTS***100可以被配置为生成与文本输入102相对应的语音波形170。文本输入102可以是包含一个或多个词、一个或多个短语等的句子。

如图1所示，可以通过各种现有技术，例如字母到声音(Letter-to-Sound，LTS)，从文本输入102中识别音素序列104。所识别的音素序列104可以通过音素嵌入模型106被转换成音素嵌入向量序列。音素嵌入向量序列包括音素嵌入向量的集合，每个音素嵌入向量与音素序列104中的音素相对应。

音素嵌入向量序列可以作为输入被提供给神经TTS***100的编码器110。编码器110可以基于各种网络结构。作为示例，编码器110可以包括一个或多个卷积层112和至少一个双向长短期记忆(BLSTM)层114。编码器110可以将音素嵌入向量序列中包含的信息转换到更健壮并且更适合学习与解码器输出的声学特征的对准的向量空间中。例如，编码器110可以将音素嵌入向量序列转换成向量空间中的音素特征120。在本文中，将编码器生成的与文本输入的音素序列相对应的特征称为音素特征。应当理解，在其他实施方式中，用于将音素序列转换成音素嵌入向量序列的音素嵌入模型106也可以与神经TTS***100相关联地训练或更新。在这种情况下，音素嵌入模型106可以位于神经TTS***100内部，例如，位于编码器110内部。

应当理解，作为识别音素序列的替代，也可以从文本输入102中识别字符序列，并且所识别的字符序列可以被进一步转换成字符嵌入向量序列。字符嵌入向量序列也可以作为输入被提供给编码器110，从而生成与文本输入102相对应的基于字符序列的字符特征。

神经TTS***100可以包括注意力单元130。注意力单元130可以实施注意力机制，该注意力机制作为连接编码器110和解码器140的桥梁。例如，注意力机制可以有助于在编码器110所输出的音素特征与解码器所输出的声学特征150之间进行对准。注意力单元130可以实施各种类型的注意力机制，例如，软注意力、硬注意力、位置敏感的注意力、高斯混合模型(GMM)注意力等。

解码器140可以包括由前馈层构成的前置网络(pre-net)142、长短期记忆(LSTM)144、线性映射146、由卷积层构成的后置网络(post-net)148等。LSTM 144可以接收来自前置网络142的输入并且将其输出提供给线性映射146，同时LSTM 144的处理受到注意力单元130的影响。线性映射146可以将其输出分别提供给前置网络142和后置网络148。最终，后置网络148的输出与线性映射146的输出被组合以产生声学特征150。在一种实施方式中，线性映射146也可以用于生成停止标记。

神经TTS***100还可以包括声码器160。声码器160可以基于解码器140所输出的声学特征150来生成语音波形170。声码器160可以基于各种网络结构，例如Wavenet声码器、Griffin-Lim声码器等。

图1中的传统神经TTS***100仅仅基于与文本输入的音素序列相对应的音素特征来生成与文本输入相对应的语音波形。为了增强所生成的语音的自然度，例如语速、音调、韵律、情感或愉悦度等，本公开的实施例提出使用文本输入的音素特征和上下文特征二者来生成与文本输入相对应的语音波形。与图1中的传统神经TTS***100相比，本公开的实施例至少对神经TTS***中的解码器的输入部分进行了改进。图2示出了根据本公开实施例的示例性神经TTS***200。

如图2所示，可以从文本输入202中识别音素序列204。所识别的音素序列204可以通过音素嵌入模型206被转换成音素嵌入向量序列。音素嵌入模型206可以对应于图1中的音素嵌入模型106。音素嵌入向量序列可以作为输入被提供给神经TTS***200的编码器208。编码器208可以对应于图1中的编码器110。编码器208可以基于音素嵌入向量序列来生成音素特征210。

除了生成文本输入202的音素特征210之外，根据本公开实施例的神经TTS***200还可以生成文本输入202的上下文特征218。可以获得与文本输入202相关联的一组句子，例如文本输入202所位于的段落212。可以从段落212中提取上下文信息214，例如文本输入202的词序列、文本输入202邻近文本的词序列和声学特征、文本输入202的位置信息等。可以通过特征生成单元216，基于上下文信息214来生成上下文特征218。针对不同的上下文信息，特征生成单元216可以具有不同的结构。例如，当上下文信息214为文本输入202的词序列时，特征生成单元216可以包括词嵌入模型、上采样单元、编码器等。特征生成单元216可以全部位于神经TTS***200内部，或者仅一部分位于神经TTS***200内部。

所生成的音素特征210和上下文特征218可以通过级联单元220被组合成混合特征。注意力单元222可以对混合特征实施注意力机制，例如位置敏感的注意力机制。实施了注意力机制的混合特征可以被提供给解码器224。解码器224可以对应于图1中的解码器140。解码器224可以基于实施了注意力机制的混合特征来生成与该混合特征相对应的声学特征。该声学特征随后可以被提供给声码器226。声码器226可以对应于图1中的声码器160。声码器226可以生成与文本输入202相对应的语音波形。

图3是示出了根据本公开实施例的上下文特征300的示意图。上下文特征300可以对应于图2中的上下文特征218，其可以包括多个级别的特征。

上下文特征300可以包括当前语义特征310。在本文中，当前语义特征指基于文本输入，例如当前句子，的词序列来生成的特征，其可以反映或包含当前句子的语义信息。后面将结合图4来说明生成当前语义特征的具体过程。

上下文特征300还可以包括全局特征320。全局特征320可以包括文本输入的历史和将来上下文特征，例如历史声学特征322、历史语义特征324、将来语义特征326、段落语义特征328、位置特征330等。在本文中，历史声学特征指基于文本输入的先前句子的声学特征来生成的特征，其可以反映或包含与讲话者在说先前句子时的表达方式、声学状态有关的声学信息。后面将结合图5来说明生成历史声学特征的具体过程。历史语义特征指基于文本输入的先前片段的词序列来生成的特征，其可以反映或包含先前片段的语义信息。后面将结合图7来说明生成历史语义特征的具体过程。将来语义特征指基于文本输入的后续片段的词序列来生成的特征，其可以反映或包含后续片段的语义信息。后面将结合图8来说明生成将来语义特征的具体过程。段落语义特征指基于文本输入所位于的段落的词序列来生成的特征，其可以反映或包含段落的语义信息，例如段落的中心思想。后面将结合图9来说明生成段落语义特征的具体过程。位置特征指基于文本输入在段落中的位置信息来生成的特征，其可以反映文本输入在段落中的位置。后面将结合图10来说明生成段落语义特征的具体过程。

返回参考图2，文本输入的音素特征和上下文特征二者经过级联之后被依次提供给注意力单元和解码器。应当理解，图2中的上下文特征218可以包括参考图3所描述的上下文特征中的任意一个或多个。例如，上下文特征218可以仅包括当前语义特征、历史声学特征和历史语义特征。

图4示出了根据本公开实施例的用于生成当前语义特征的示例性过程400。可以从文本输入402中识别词序列404。词序列404是构成文本输入402的顺序词的列表。

可以通过特征生成单元410，基于词序列404来生成当前语义特征420。特征生成单元410可以对应于图2中的特征生成单元216。特征生成单元410可以包括词嵌入模型412、上采样单元414和编码器416。

词嵌入模型412可以基于自然语言处理(NLP)技术，例如神经机器翻译(NMT)。词嵌入模型和神经TTS***二者都具有类似的序列到序列编码器-解码器框架，从而利于网络聚合。在一个实施例中，可以采用来自转换器的双向编码器表示(Bidirectional EncoderResentations from Transformers，BERT)模型作为词嵌入模型。可以通过词嵌入模型412，基于词序列404来生成词嵌入向量序列，其中，每个词具有相应的嵌入向量，并且所有这些嵌入向量形成词嵌入向量序列。词嵌入向量包含词的含义和语义上下文信息，这将有助于改进所生成的语音的自然度。此外，词嵌入向量还将有助于解决针对中文文本的语音生成的分词问题。

可以通过上采样单元414对词嵌入向量序列进行上采样，以与文本输入402的音素序列对准。例如，一个词可以利用一个或多个音素来发音。因此，在上采样期间，词嵌入向量序列中的每个词嵌入向量可以被重复与该词的音素数量相对应的次数。经上采样的词嵌入向量序列可以被提供给编码器416。编码器416可以具有与图1中的编码器110相类似的网络结构，例如包括一个或多个卷积层和至少一个BLSTM层。编码器416可以基于经上采样的词嵌入向量序列来生成当前语义特征420。

图5示出了根据本公开实施例的用于生成历史声学特征的示例性过程500。可以获得与位于文本输入之前的至少一个先前句子相对应的声学特征。在训练阶段，可以使用先前句子的真实声学特征。在预测阶段，可以使用先前句子的所预测的声学特征。声学特征可以包括各种传统的TTS声学特征，例如，梅尔谱、LSP等。假设文本输入为句子i，可以获得分别与句子i-1、句子i-2、……句子i-k相对应的声学特征502-1、502-2、……502-k。在一个实施例中，可以获得与位于文本输入之前的两个句子相对应的声学特征，即k＝2。可以通过特征生成单元510，基于声学特征502-1、502-2、……502-k来生成历史声学特征550。特征生成单元510可以对应于图2中的特征生成单元216。特征生成单元510可以包括分别与声学特征502-1、502-2、……502-k相对应的声学编码器512-1、512-2、……512-k和上采样单元514-1、514-2、……514-k、以及级联单元516。

可以通过声学编码器512-1、512-2、……512-k将相应的声学特征502-1、502-2、……502-k分别转换成针对句子i-1、句子i-2、……句子i-k的讲话者嵌入向量序列。后面将结合图6来说明声学编码器的示例性实现方式。可以通过上采样单元514-1、514-2、……514-k，分别对针对各个句子的讲话者嵌入向量序列进行上采样，以与句子i的音素序列对准。例如，各个句子的讲话者嵌入向量序列可以被重复与句子i的音素数量相对应的次数。可以通过级联单元516将经上采样的各个讲话者嵌入向量序列组合成历史声学特征520。

图6示出了根据本公开实施例的声学编码器600的示例性实现方式。声学编码器600可以对应于图5中的声学编码器512-1、512-2、……512-k中的任何一者。如图6所示，声学编码器600可以基于神经网络，该神经网络用于基于句子m的声学特征602来生成针对句子m的讲话者嵌入向量序列612。声学编码器600可以依次包括多个卷积层604、平均池化层606、多个全连接(FC)层608以及映射层610。声学编码器600可以从先前句子的声学特征中提取与讲话者在说先前句子时的表达方式、声学状态有关的声学信息。通常，讲话者在讲话时采用的表达方式、声学状态是有惯性的，即存在物理特性上的连续性。在生成与当前句子相对应的语音波形时，考虑先前句子的声学特征可以有助于增强当前句子的语音波形的自然度。

图7示出了根据本公开实施例的用于生成历史语义特征的示例性过程700。可以获得位于文本输入之前的先前片段702。该先前片段702可以包括例如位于文本输入之前的一个或多个句子。可以从先前片段702中识别词序列704。

可以通过特征生成单元710，基于词序列704来生成历史语义特征730。特征生成单元710可以对应于图2中的特征生成单元216。特征生成单元710可以包括词嵌入模型712、平均池化层714、上采样单元716、密集层718和编码器720。

词嵌入模型712可以基于词序列704来生成词嵌入向量序列。可以通过平均池化层714，对词嵌入向量序列进行平均池化，以生成平均片段嵌入向量序列。可以通过上采样单元716，对平均片段嵌入向量序列进行上采样，以与文本输入的音素序列对准。例如，平均片段嵌入向量序列可以被重复与文本输入的音素数量相对应的次数。然后，通过密集层(dense layer)718，可以获得平均片段嵌入向量序列的压缩表示。该压缩表示可以被提供给编码器720，从而生成历史语义特征730。编码器720可以具有与图1中的编码器110相类似的网络结构，例如包括一个或多个卷积层和至少一个BLSTM层。

在一种实施方式中，先前片段702可以包括若干个完整句子。例如，可以基于词嵌入模型712所能处理的字符数量来确定先前片段702所包括的句子的数量。以采用BERT模型作为词嵌入模型为例，BERT模型所能处理的字符数量为512，则可以选取位于文本输入之前的总字符数不超过512的一个或多个句子作为先前片段702。

图8示出了根据本公开实施例的用于生成将来语义特征的示例性过程800。可以获得位于文本输入之后的后续片段802。该后续片段802可以包括例如位于文本输入之后的一个或多个句子。可以从后续片段802中识别词序列804。

可以通过特征生成单元810，基于词序列804来生成将来语义特征830。特征生成单元810可以对应于图2中的特征生成单元216。特征生成单元810可以包括词嵌入模型812、平均池化层814、上采样单元816、密集层818和编码器820。

词嵌入模型812可以基于词序列804来生成词嵌入向量序列。可以通过平均池化层814，对词嵌入向量序列进行平均池化，以生成平均片段嵌入向量序列。可以通过上采样单元816，对平均片段嵌入向量序列进行上采样，以与文本输入的音素序列对准。例如，平均片段嵌入向量序列可以被重复与文本输入的音素数量相对应的次数。然后，通过密集层818，可以获得平均片段嵌入向量序列的压缩表示。该压缩表示可以被提供给编码器820，从而生成将来语义特征830。编码器820可以具有与图1中的编码器110相类似的网络结构，例如包括一个或多个卷积层和至少一个BLSTM层。

在一种实施方式中，后续片段802可以包括若干个完整句子。与先前片段702类似，可以例如基于词嵌入模型812所能处理的字符数量来确定后续片段802所包括的句子的数量。在另一种实施方式中，后续片段802可以仅包括一个句子，即紧接在文本输入之后的句子。

图9示出了根据本公开实施例的用于生成段落语义特征的示例性过程900。可以获得文本输入所位于的段落的段落文本902。在一种实施方式中，可以直接从段落文本902中识别词序列904。在另一种实施方式中，可以先从段落文本902中提取中心句906，然后从中心句906中识别词序列904。可以通过各种技术，例如使用基于上下文关系的概述(CRSums)模型，从段落文本902中提取中心句906。

可以通过特征生成单元910，基于词序列904来生成段落语义特征930。特征生成单元910可以对应于图2中的特征生成单元216。特征生成单元910可以包括词嵌入模型912、平均池化层914、上采样单元916、密集层918和编码器920。

词嵌入模型912可以基于词序列904来生成词嵌入向量序列。可以通过平均池化层914，对词嵌入向量序列进行平均池化，以生成平均段落嵌入向量序列。可以通过上采样单元916，对平均段落嵌入向量序列进行上采样，以与文本输入的音素序列对准。例如，平均段落嵌入向量序列可以被重复与文本输入的音素数量相对应的次数。然后，通过密集层918，可以获得平均段落嵌入向量序列的压缩表示。该压缩表示可以被提供给编码器920，从而生成段落语义特征930。编码器920可以具有与图1中的编码器110相类似的网络结构，例如包括一个或多个卷积层和至少一个BLSTM层。

图10示出了根据本公开实施例的用于生成位置特征的示例性过程1000。可以提取文本输入在段落中的位置信息1002，例如关于该文本输入是自段落开头数起的第几个句子的信息、关于该文本输入是自段落末尾数起的第几个句子的信息等。

可以通过特征生成单元1010，基于位置信息1002来生成位置特征1020。特征生成单元1010可以对应于图2中的特征生成单元216。特征生成单元1010可以包括位置嵌入模型1012、上采样单元1014、密集层1016和编码器1018。

位置嵌入模型1012可以基于位置信息1002来生成位置嵌入向量序列。可以通过上采样单元1014，对位置嵌入向量序列进行上采样，以与文本输入的音素序列对准。例如，位置嵌入向量序列可以被重复与文本输入的音素数量相对应的次数。然后，通过密集层1016，可以获得经上采样的位置嵌入向量序列的压缩表示。该压缩表示可以被提供给编码器1018，从而生成位置特征1020。编码器1018可以具有与图1中的编码器110相类似的网络结构，例如包括一个或多个卷积层和至少一个BLSTM层。

基于位置信息生成的位置特征可以反映文本输入在段落中的位置。通常，文本输入在段落中的位置可能影响与该文本输入相对应的语音的音调。例如，当文本输入位于段落开头时，其音调往往较高；当文本输入位于段落中间时，其音调往往较平淡；而当文本输入位于段落末尾时，其音调也会较高。因此，在生成文本输入的语音时，考虑该文本输入的位置信息有助于增强所生成的语音的自然度。

应当理解，图4-图5、图7-图10中的过程400-500、700-1000仅仅是用于生成各个上下文特征的过程的示例。根据实际应用需求，用于生成上下文特征的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，尽管在图7-图10中的过程700-1000中，采用了密集层来获得嵌入向量序列的压缩表示，并将该压缩表示提供给编码器，但是在一些实施例中，可以将嵌入向量序列直接提供给编码器而不经过密集层的处理。

返回参考图2，上下文特征是在与音素特征进行级联之后才被提供给注意力单元和解码器的。为了强化上下文特征对解码器的影响，尤其是全局特征对解码器的影响，本公开的实施例还提出对全局特征单独地实施注意力机制，并将实施了注意力的全局特征直接作用到解码器上。图11示出了根据本公开实施例的另一示例性神经TTS***1100。

如图11所示，可以通过级联单元1106，将文本输入的音素特征1102和上下文特征1104组合成第一混合特征。音素特征1102可以对应于图1中的音素特征120。上下文特征1104可以对应于图3中的上下文特征300，例如包括：当前语义特征和全局特征，其中全局特征可以包括历史声学特征、历史语义特征、将来语义特征、段落语义特征和位置特征等中的至少一个。注意力单元1108可以对第一混合特征实施注意力机制，例如位置敏感的注意力机制。

此外，可以对全局特征1110单独地实施注意力机制。例如，可以将全局特征1110提供给注意力单元1112。全局特征1110可以与图3中的全局特征320相对应，例如包括历史声学特征、历史语义特征、将来语义特征、段落语义特征和位置特征等中的至少一个。注意力单元1112可以对全局特征1110实施注意力机制，例如位置敏感的注意力机制。实施了注意力的全局特征可以与实施了注意力的第一混合特征进行级联1114，从而获得第二混合特征。第二混合特征可以被提供给解码器1116。解码器1116可以对应于图1中的解码器140。解码器1116可以生成与第二混合特征相对应的声学特征。该声学特征随后可以被提供给声码器1118，从而生成与文本输入相对应的语音波形。

应当理解，图11中的上下文特征1104可以包括参考图3所描述的上下文特征中的一些或全部，例如上下文特征1104可以仅包括当前语义特征、历史声学特征和历史语义特征。此外，图11中的全局特征1110可以包括参考图3所描述的全局特征中的一些或全部，例如全局特征1110可以仅包括历史声学特征和历史语义特征。

图12示出了根据本公开实施例的又一示例性神经TTS***1200。如图12所示，可以通过级联单元1206，将文本输入的音素特征1202和上下文特征1204组合成第一混合特征。音素特征1202可以对应于图1中的音素特征120。上下文特征1204可以对应于图3中的上下文特征300，例如包括：当前语义特征和全局特征，其中全局特征可以包括历史声学特征、历史语义特征、将来语义特征、段落语义特征和位置特征等中的至少一个。注意力单元1208可以对第一混合特征实施注意力机制，例如位置敏感的注意力机制。

此外，可以对全局特征1210进行平均池化1112，以获得平均全局特征。全局特征1210可以与图3中的全局特征320相对应，例如包括历史声学特征、历史语义特征、将来语义特征、段落语义特征和位置特征等中的至少一个。平均全局特征可以与实施了实施注意力的第一混合特征进行级联1214，从而获得第二混合特征。第二混合特征可以被提供给解码器1216。解码器1216可以对应于图1中的解码器140。解码器1216可以基于第二混合特征来生成与第二混合特征相对应的声学特征。该声学特征随后可以被提供给声码器1218，从而生成与文本输入相对应的语音波形。

应当理解，图12中的上下文特征1204可以包括参考图3所描述的上下文特征中的一些或全部，例如上下文特征1204可以仅包括当前语义特征、历史声学特征和历史语义特征。此外，图12中的全局特征1210可以包括参考图3所描述的全局特征中的一些或全部，例如全局特征1210可以仅包括历史声学特征和历史语义特征。

上文参考图2、图11和图12描述了根据本公开实施例的示例性神经TTS***，并相应地描述了根据本公开实施例的用于通过神经TTS合成来生成语音的示例性方法。上述***和方法旨在基于文本输入的音素特征和上下文特征二者来生成与文本输入相对应的语音。应当理解，上述***和方法都是示例性的，本公开并不受限于此，而是可以以类似方式实现其他神经TTS***并采用基于音素特征和上下文特征的其他方法来生成语音。

传统方法在生成针对一组句子，例如段落，的语音波形时，通常先针对该组句子中的每个句子分别生成对应的语音波形，然后对生成的所有语音波形进行组合，从而获得与该组句子相对应的语音波形。更具体地，在组合语音波形时，将与各个句子相对应的各个语音波形之间的停顿时长设置为是相同的或者固定的。为了获得句子间节奏更加丰富自然的语音，本公开的实施例对用于通过神经TTS合成来生成语音的方法进行了进一步改进。图13是根据本公开实施例的用于通过神经TTS合成来生成语音的示例性方法的流程图1300。该方法可以对句子间停顿建模并且根据上下文特征来确定句子间停顿的长度。

在步骤1310处，可以获得文本输入。

在步骤1320处，可以通过例如LTS的各种技术，从文本输入，例如当前句子，中识别音素序列。

在步骤1330处，可以通过向音素序列的开头和/或末尾分别添加开始标记和/或结束标记来更新音素序列。在一种实施方式中，可以使用静音音素作为开始标记和结束标记。

在步骤1340处，可以基于经更新的音素序列来生成音素特征。例如，可以通过音素嵌入模型，将经更新的音素序列转换成音素嵌入向量序列。随后音素嵌入向量序列可以被提供给编码器，例如图1中的编码器110，从而生成与经更新的音素序列相对应的音素特征。

在步骤1350处，可以基于音素特征和上下文特征来生成与文本输入相对应的语音波形。可以基于多种方式来生成语音波形。

在一种实施方式中，如图2所示出的，可以将音素特征和上下文特征组合成混合特征并将混合特征依次提供给注意力单元和解码器，从而生成与混合特征相对应的声学特征。该声学特征随后可以被提供给声码器，以生成与文本输入相对应的语音波形。

在另一种实施方式中，如图11所示出的，可以将音素特征和上下文特征组合成第一混合特征并将第一混合特征提供给注意力单元以获得实施了注意力的第一混合特征。同时，上下文特征中的全局特征可以经过其独有的注意力单元之后与实施了实施注意力的第一混合特征进行级联，从而获得第二混合特征。第二混合特征可以被提供给解码器以生成与第二混合特征相对应的声学特征。该声学特征随后可以被提供给声码器，以生成与文本输入相对应的语音波形。

在又一种实施方式中，如图12所示出的，可以将音素特征和上下文特征组合成第一混合特征并将第一混合特征提供给注意力单元以获得实施了注意力的第一混合特征。同时，可以对上下文特征中的全局特征进行平均池化，以获得平均全局特征。平均全局特征可以与实施了实施注意力的第一混合特征进行级联，从而获得第二混合特征。第二混合特征可以被提供给解码器以生成与第二混合特征相对应的声学特征。该声学特征随后可以被提供给声码器，以生成与文本输入相对应的语音波形。

由于在文本输入的音素序列的开头和/或末尾分别添加了静音音素作为开始标记和/或结束标记，因此所生成的与该文本输入相对应的语音波形也相应地在开头和/或末尾分别具有一段静音。由于在生成语音波形时，考虑了上下文特征，因此语音波形中的开头和/或末尾的静音是与上下文特征相关的，其可以随着上下文特征的不同而变化。例如，该文本输入的语音波形末尾处的静音与该文本输入的下一句子的语音波形开头处的静音组成了该文本输入与下一句子之间的停顿。该停顿的时长也相应地可以随着上下文特征的不同而变化，从而使得最终生成的与一组句子相对应的语音的节奏更加丰富自然。

图14示出了根据本公开实施例的用于生成神经TTS***的训练数据的示例性过程1400。如上所述，根据本公开实施例的神经TTS***可以利用文本输入的音素特征和上下文特征二者来生成与文本输入相对应的语音波形。因此，根据本公开实施例的神经TTS***的训练数据的生成包括音素特征生成和上下文特征生成。

首先，可以获得段落文本1402以及与段落文本1402相对应的段落语音波形1404。

在1406处，可以将段落文本1402拆分成多个句子。

在1408处，可以将段落语音波形1404拆分成与段落文本1402中的多个句子相对应的多个语音波形。在拆分时，各个句子之间的停顿可以被保留。例如，可以将相邻两个语音波形之间的停顿分成两部分，其中，前一部分附接在前一语音波形的末尾，后一部分附接在后一语音波形的开头。

从段落文本1402获得的多个句子以及从段落语音波形1404获得的多个语音波形可以一一对应，形成多个训练数据对，例如[句子1，语音波形1]、[句子2，语音波形2]、[句子3，语音波形3]等。这些训练数据对可以用于构建训练语料库。

可以从训练语料库中识别文本输入，例如当前句子，并从文本输入中识别当前音素序列1410。可以通过特征生成1412，基于所识别的当前音素序列1410来生成音素特征1414。可以例如利用参考图1所描述的基于音素序列104来生成音素特征120的方式来生成音素特征1414。

可以从文本输入中识别当前词序列1420。可以通过特征生成1422，基于所识别的当前词序列1420来生成当前语义特征1424。可以例如利用参考图4所描述的基于词序列404来生成当前语义特征420的方式来生成当前语义特征1424。

可以从训练语料库中识别位于文本输入之前的先前片段，并从先前片段中识别先前词序列1430。可以通过特征生成1432，基于所识别的先前词序列1430来生成历史语义特征1434。可以例如利用参考图7所描述的基于词序列704来生成历史语义特征730的方式来生成历史语义特征1434。

可以从训练语料库中识别位于文本输入之后的后续片段，并从后续片段中识别后续词序列1440。可以通过特征生成1442，基于所识别的后续词序列1440来生成将来语义特征1444。可以例如利用参考图8所描述的基于词序列804来生成将来语义特征830的方式来生成将来语义特征1444。

可以从训练语料库中识别文本输入所位于的段落中的多个句子，并从这多个句子中识别段落词序列1450。在一种实施方式中，可以直接从该段落中的多个句子中识别段落词序列1450。在另一种实施方式中，可以先从该段落中的多个句子中提取中心句，然后从所提取的中心句中识别段落词序列1450。可以通过特征生成1452，基于所识别的段落词序列1450来生成段落语义特征1454。可以例如利用参考图9所描述的基于词序列904来生成段落语义特征930的方式来生成段落语义特征1454。

可以通过训练语料库来获得文本输入在其所位于的段落中的位置信息1460。可以通过特征生成1462，基于所提取的位置信息1460来生成位置特征1464。可以例如利用参考图10所描述的基于位置信息1002来生成位置特征1020的方式来生成位置特征1464。

还可以通过训练语料库来获得与位于文本输入之前的至少一个先前句子相对应的至少一个先前声学特征1470。应当注意，该至少一个先前声学特征是真实声学特征。以文本输入为句子i为例，该文本输入的至少一个先前声学特征可以是与位于文本输入之前的至少一个句子的至少一个语音波形相对应的至少一个声学特征，例如与句子i-1的语音波形i-1、句子i-2的语音波形i-2、……句子i-k的语音波形i-k相对应的至少一个声学特征。可以通过特征生成1472，基于所获得的至少一个先前声学特征1470来生成历史声学特征1474。可以例如利用参考图5所描述的基于声学特征502-1、502-2、……502-k来生成历史声学特征520的方式来生成历史声学特征1474。

通过上述方式生成的当前语义特征1424、历史语义特征1434、将来语义特征1444、段落语义特征1454、位置特征1464和历史声学特征1474可以被组合成上下文特征1480。

根据图14所示的过程生成的音素特征1414和上下文特征1480可以用于训练根据本公开实施例的神经TTS***，例如图2中的神经TTS***200、图11中的神经TTS***1100或图12中的神经TTS***1200。

图15示出了根据本公开实施例的用于训练神经TTS***1500的示例性过程。神经TTS***1500可以对应于图2中的神经TTS***200。神经TTS***1500可以至少包括级联单元1506、注意力单元1508、解码器1510和声码器1530。级联单元1506、注意力单元1508、解码器1510和声码器1530可以分别对应于图2中的级联单元220、注意力单元222、解码器224和声码器226。

以利用训练数据对[句子i，语音波形i]对神经TTS***1500进行训练为例，可以首先获得的句子i的音素特征1502和上下文特征1504。可以例如通过图14所示的方式来生成句子i的音素特征1502和上下文特征1504。

句子i的音素特征1502和上下文特征1504可以通过级联单元1506组合成混合特征，该混合特征可以被注意力单元1508、解码器1510和声码器1530进一步处理，从而生成与句子i相对应的语音波形i 1540。解码器1510可以包括前置网络1512、LSTM 1514、线性映射1516和后置网络1518。在训练阶段，前置网络1512的输入来自与前一个语音波形，即对应于句子i-1的语音波形i-1，相对应的真实声学特征1520。

应当理解，尽管前述讨论涉及对与图2中的神经TTS***200相对应的神经TTS***1500的训练，但本公开的实施例并不局限于此，而是可以以类似的方式来训练图11中的神经TTS***1100和图12中的神经TTS***1200。

图16是根据本公开实施例的用于通过神经TTS合成来生成语音的示例性方法1600的流程图。

在步骤1610处，可以获得文本输入。

在步骤1620处，可以生成所述文本输入的音素特征。

在步骤1630处，可以基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征

在步骤1640处，可以基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。

在一种实施方式中，所述生成所述音素特征可以包括：从所述文本输入中识别音素序列；以及基于所述音素序列来生成所述音素特征。

在一种实施方式中，所述生成所述上下文特征可以包括：获得与所述一组句子中位于所述文本输入之前的至少一个句子相对应的声学特征；以及基于所述声学特征来生成所述上下文特征。

所述生成所述上下文特征还可以包括将所述上下文特征与所述文本输入的音素序列对准。

在一种实施方式中，所述生成所述上下文特征可以包括：从所述一组句子中的至少一个句子中识别词序列；以及基于所述词序列来生成所述上下文特征。

所述至少一个句子可以包括以下各项中的至少一项：与所述文本输入相对应的句子、位于所述文本输入之前的句子和位于所述文本输入之后的句子。

所述至少一个句子可以代表所述一组句子的内容。

所述基于所述词序列来生成所述上下文特征可以包括：基于所述词序列来生成词嵌入向量序列；基于所述词嵌入向量序列来生成与所述至少一个句子相对应的平均嵌入向量序列；将所述平均嵌入向量序列与所述文本输入的音素序列对准；以及基于经对准的平均嵌入向量序列来生成所述上下文特征。

在一种实施方式中，所述生成所述上下文特征可以包括：确定所述文本输入在所述一组句子中的位置；以及基于所述位置来生成所述上下文特征。

所述基于所述位置来生成所述上下文特征可以包括：基于所述位置来生成位置嵌入向量序列；将所述位置嵌入向量序列与所述文本输入的音素序列对准；以及基于经对准的位置嵌入向量序列来生成所述上下文特征。

在一种实施方式中，所述生成所述语音波形可以包括：将所述音素特征和所述上下文特征组合成混合特征；对所述混合特征实施注意力机制，以获得实施了注意力的混合特征；以及基于实施了注意力的混合特征来生成所述语音波形。

在一种实施方式中，所述生成所述语音波形可以包括：将所述音素特征和所述上下文特征组合成第一混合特征；对所述第一混合特征实施第一注意力机制，以获得实施了注意力的第一混合特征；对所述上下文特征中的至少一个上下文特征实施第二注意力机制，以获得实施了注意力的至少一个上下文特征；将实施了注意力的第一混合特征和实施了注意力的至少一个上下文特征组合成第二混合特征；以及基于所述第二混合特征来生成所述语音波形。

在一种实施方式中，所述生成所述语音波形可以包括：将所述音素特征和所述上下文特征组合成第一混合特征；对所述第一混合特征实施注意力机制，以获得实施了注意力的第一混合特征；对所述上下文特征中的至少一个上下文特征执行平均池化，以获得至少一个平均上下文特征；将实施了注意力的第一混合特征和所述至少一个平均上下文特征组合成第二混合特征；以及基于所述第二混合特征来生成所述语音波形。

在一种实施方式中，所述生成所述音素特征可以包括：从所述文本输入中识别音素序列；通过向所述音素序列添加开始标记和/或结束标记来更新所述音素序列，其中，所述开始标记的长度和所述结束标记的长度是根据所述上下文特征来确定的；以及基于所述经更新的音素序列来生成所述音素特征。

在一种实施方式中，所述一组句子可以位于同一段落中。

应当理解，方法1600还可以包括根据上述本公开的实施例的用于通过神经TTS合成来生成语音的任何步骤/处理。

图17示出了根据本公开实施例的用于通过神经TTS合成来生成语音的示例性装置1700。装置1700可以包括获得模块1710，用于获得文本输入；音素特征生成模块1720，用于生成所述文本输入的音素特征；上下文特征生成模块1730，用于基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征；以及语音波形生成模块1740，用于基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。

在一种实施方式中，上下文特征生成模块1730还可以被配置为：获得与所述一组句子中位于所述文本输入之前的至少一个句子相对应的声学特征；以及基于所述声学特征来生成所述上下文特征。

在一种实施方式中，上下文特征生成模块1730还可以被配置为：从所述一组句子中的至少一个句子中识别词序列；以及基于所述词序列来生成所述上下文特征。

在一种实施方式中，音素特征生成模块1720还可以被配置为：从所述文本输入中识别音素序列；通过向所述音素序列添加开始标记和/或结束标记来更新所述音素序列，其中，所述开始标记的长度和所述结束标记的长度是根据所述上下文特征来确定的；以及基于所述经更新的音素序列来生成所述音素特征。

此外，装置1700还可以包括根据上述本公开实施例的被配置用于通过神经TTS合成来生成语音的任何其他模块。

图18示出了根据本公开实施例的用于通过神经TTS合成来生成语音的示例性装置1800。

装置1800可以包括至少一个处理器1810。装置1800还可以包括与处理器1810连接的存储器1820。存储器1820可以存储计算机可执行指令，当所述计算机可执行指令被执行时，使得处理器1810执行根据上述本公开的实施例的用于通过神经TTS合成来生成语音的方法的任何操作。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于通过神经TTS合成来生成语音的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其他等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在***上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其他适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其他适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其他方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换都将由权利要求所覆盖。

Claims

1.一种用于通过神经文本到语音(TTS)合成来生成语音的方法，包括：

获得文本输入；

生成所述文本输入的音素特征；

基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征；以及

基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。

2.根据权利要求1所述的方法，其中，所述生成所述音素特征包括：

从所述文本输入中识别音素序列；以及

基于所述音素序列来生成所述音素特征。

3.根据权利要求1所述的方法，其中，所述生成所述上下文特征包括：

获得与所述一组句子中位于所述文本输入之前的至少一个句子相对应的声学特征；以及

基于所述声学特征来生成所述上下文特征。

4.根据权利要求3所述的方法，还包括：

将所述上下文特征与所述文本输入的音素序列对准。

5.根据权利要求1所述的方法，其中，所述生成所述上下文特征包括：

从所述一组句子中的至少一个句子中识别词序列；以及

基于所述词序列来生成所述上下文特征。

6.根据权利要求5所述的方法，其中，所述至少一个句子包括以下各项中的至少一项：与所述文本输入相对应的句子、位于所述文本输入之前的句子和位于所述文本输入之后的句子。

7.根据权利要求5所述的方法，其中，所述至少一个句子代表了所述一组句子的内容。

8.根据权利要求5所述的方法，其中，所述基于所述词序列来生成所述上下文特征包括：

基于所述词序列来生成词嵌入向量序列；

基于所述词嵌入向量序列来生成与所述至少一个句子相对应的平均嵌入向量序列；

将所述平均嵌入向量序列与所述文本输入的音素序列对准；以及

基于经对准的平均嵌入向量序列来生成所述上下文特征。

9.根据权利要求1所述的方法，其中，所述生成所述上下文特征包括：

确定所述文本输入在所述一组句子中的位置；以及

基于所述位置来生成所述上下文特征。

10.根据权利要求9所述的方法，其中，所述基于所述位置来生成所述上下文特征包括：

基于所述位置来生成位置嵌入向量序列；

将所述位置嵌入向量序列与所述文本输入的音素序列对准；以及

基于经对准的位置嵌入向量序列来生成所述上下文特征。

11.根据权利要求1所述的方法，其中，所述生成所述语音波形包括：

将所述音素特征和所述上下文特征组合成混合特征；

对所述混合特征实施注意力机制，以获得实施了注意力的混合特征；以及

基于实施了注意力的混合特征来生成所述语音波形。

12.根据权利要求1所述的方法，其中，所述生成所述语音波形包括：

将所述音素特征和所述上下文特征组合成第一混合特征；

对所述第一混合特征实施第一注意力机制，以获得实施了注意力的第一混合特征；

对所述上下文特征中的至少一个上下文特征实施第二注意力机制，以获得实施了注意力的至少一个上下文特征；

将实施了注意力的第一混合特征和实施了注意力的至少一个上下文特征组合成第二混合特征；以及

基于所述第二混合特征来生成所述语音波形。

13.根据权利要求1所述的方法，其中，所述生成所述语音波形包括：

将所述音素特征和所述上下文特征组合成第一混合特征；

对所述第一混合特征实施注意力机制，以获得实施了注意力的第一混合特征；

对所述上下文特征中的至少一个上下文特征执行平均池化，以获得至少一个平均上下文特征；

将实施了注意力的第一混合特征和所述至少一个平均上下文特征组合成第二混合特征；以及

基于所述第二混合特征来生成所述语音波形。

14.根据权利要求1所述的方法，其中，所述生成所述音素特征包括：

从所述文本输入中识别音素序列；

通过向所述音素序列添加开始标记和/或结束标记来更新所述音素序列，其中，所述开始标记的长度和所述结束标记的长度是根据所述上下文特征来确定的；以及

基于所述经更新的音素序列来生成所述音素特征。

15.根据权利要求1所述的方法，其中，所述一组句子位于同一段落中。

16.一种用于通过神经文本到语音(TTS)合成来生成语音的装置，包括：

获得模块，用于获得文本输入；

音素特征生成模块，用于生成所述文本输入的音素特征；

上下文特征生成模块，用于基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征；以及

语音波形生成模块，用于基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。

17.根据权利要求16所述的装置，其中，所述上下文特征生成模块还被配置为：

基于所述声学特征来生成所述上下文特征。

18.根据权利要求16所述的装置，其中，所述上下文特征生成模块还被配置为：

从所述一组句子中的至少一个句子中识别词序列；以及

基于所述词序列来生成所述上下文特征。

19.根据权利要求16所述的装置，其中，所述音素特征生成模块还被配置为：

从所述文本输入中识别音素序列；

通过向所述音素序列添加开始标记和结束标记来更新所述音素序列，其中，所述开始标记的长度和所述结束标记的长度是根据所述上下文特征来确定的；以及

基于所述经更新的音素序列来生成所述音素特征。

20.一种用于通过神经文本到语音(TTS)合成来生成语音的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使得所述至少一个处理器：

获得文本输入；

生成所述文本输入的音素特征；