CN112352275A

CN112352275A - 具有多级别文本信息的神经文本到语音合成

Info

Publication number: CN112352275A
Application number: CN201880091963.3A
Authority: CN
Inventors: 明怀平; 何磊
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2021-02-09
Also published as: EP3895157A1; US20220020355A1; EP3895157A4; WO2020118643A1

Abstract

用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。

Description

具有多级别文本信息的神经文本到语音合成

背景技术

文本到语音(TTS)合成旨在基于文本输入来生成相应的语音波形。TTS合成广泛应用于例如故事中的角色扮演、语音到语音翻译、对特定用户的语音定制等。神经TTS***被越来越多地用于实施TTS合成，并且正在成为人工智能(AI)领域近些年的研究热点。与需要前端文本语言特征提取的传统TTS技术不同，神经TTS***可以是采用端到端结构来建立模型的，并且可以直接基于文本-语音数据对来进行训练。因此，神经TTS***可以减轻对广泛领域专业知识的需求，并且还可以节省许多辛苦工作。神经TTS***可以联合地优化语音的发音、韵律等，这将使得比传统TTS技术更自然的合成语音。

发明内容

提供本发明内容以便介绍一组构思，这组构思将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出用于通过神经TTS合成来生成语音的方法和装置。可以获得文本输入。可以基于所述文本输入来生成音素或字符级别文本信息。可以基于所述文本输入来生成上下文敏感文本信息。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了示例性传统神经TTS***。

图2示出了根据实施例的神经TTS***的示例性架构。

图3示出了根据实施例的用于向多输入编码器提供多级别文本信息的示例性过程。

图4示出了根据实施例的句子的示例性语法结构。

图5示出了根据实施例的多输入编码器的示例性实施方式。

图6示出了根据实施例的多输入编码器的示例性实施方式。

图7示出了根据实施例的多输入编码器的示例性实施方式。

图8示出了根据实施例的多输入编码器的示例性实施方式。

图9示出了根据实施例的多输入编码器的示例性实施方式。

图10示出了根据实施例的多输入编码器的示例性实施方式。

图11示出了根据实施例的用于训练神经TTS***的示例性过程。

图12示出了根据实施例的用于生成语音波形的示例性处理流程。

图13示出了根据实施例的用于通过神经TTS合成来生成语音的示例性方法的流程图。

图14示出了根据实施例的用于通过神经TTS合成来生成语音的示例性装置。

图15示出了根据实施例的用于通过神经TTS合成来生成语音的示例性装置。

具体实施方式

现在将参考若干示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

传统的神经TTS***可以基于文本输入来生成语音波形。具体地，可以从文本输入中识别音素序列或字符序列，并且神经TTS***进一步使用音素或字符序列来生成与文本输入相对应的语音波形。由于其端到端模型性质，神经TTS***高度依赖于训练数据。可以通过训练语料库中的文本-语音数据对来训练神经TTS***。在本文中，“语料库”可以指语音集合，其中每个语音利用相应的文本来标识，因此语料库可以提供多个文本-语音数据对。然而，训练语料库中的高质量文本-语音数据对的量通常非常小，尤其是与自然语言处理(NLP)任务，例如机器翻译，的数据大小相比而言。此外，训练语料库中的文本通常分布在很少的领域中，例如会话文本、新闻报道等。因此，用于神经TTS***的训练数据不能涵盖足够丰富的文本上下文，并且通常在部署或应用神经TTS***时遇到域外问题。在本文中，“域外问题”是指由域外文本引起的泛化问题，并且“域外”文本是指训练语料库中不涉及或者训练语料库中不涉及其相关文本输入的文本。神经TTS***可能难以应对域外文本，并且域外文本通常在生成语音期间导致各种域外问题，例如奇怪的韵律、错误的发音、跳过或重复词语等。

此外，已知相同的文本可以对应于各种不同的发音，例如不同的速度、不同的音高重音、不同的情绪等。从数学的角度来看，从文本到语音的转换可以被视为大规模的反向问题，其将高度压缩的源，例如文本，解压缩为非常复杂的目标，例如音频信号。有许多方法来解决这种不适定的数学问题。神经TTS***试图利用机器学***坦音高重音的阅读风格的语音等。

传统神经TTS***仅利用音素级别文本信息或字符级别文本信息来生成语音。音素级别文本信息是指对文本输入进行发音的音素的信息表示，其是基于从文本输入中识别的音素序列来生成的，其中，音素序列是形成文本输入的发音的顺序音素的列表。字符级别文本信息是指构成文本输入的字符的信息表示，其是基于从文本输入中识别的字符序列来生成的，其中，字符序列是文本输入中包含的顺序字符的列表。由于音素或字符级别文本信息缺少文本输入中包含的上下文相关信息，因此传统神经TTS***不能有效地解决如上所述的域外问题和一对多映射问题。

与仅利用音素或字符级别文本信息的传统神经TTS***不同，本公开的实施例提出进一步利用上下文敏感文本信息来改进神经TTS***的生成能力。上下文敏感文本信息是指文本输入的信息表示，其至少反映或包含文本输入中的词语、短语或句子之间的上下文关系。上下文敏感文本信息可以包括能够反映文本输入中的上下文关系的各种类型的文本信息，包括但不限于例如词语级别文本信息、句子级别文本信息等。词语级别文本信息是指文本输入中的词语和文本输入中的词语之间隐含的上下文关系二者的信息表示。可以通过对文本输入执行预训练的词语嵌入来生成词语级别文本信息。例如，预训练的词语嵌入可以基于NLP技术，例如神经机器翻译(NMT)。句子级别文本信息是指文本输入中句子的语法解析的信息表示。可以基于文本输入中的句子的语法结构生成句子级别文本信息，并且可以采用各种语法解析技术来获得语法结构，例如斯坦福解析器(Stanford Parser)工具，其是使用从手工解析的句子获得的语言知识的统计解析器。

可以将词语级别文本信息和句子级别文本信息视为神经TTS***的附加特征，用于在神经TTS***中实现特征增强。因此，对于神经TTS***，对用于生成词语级别文本信息的模型和用于生成句子级别文本信息的模型的训练实际上是基于特征的预训练。通过基于特征的预训练，神经TTS***可以从由利用大文本数据语料库训练的模型生成的附加特征中借用知识。

词语嵌入和语法解析二者都是上下文敏感的，因此词语级别文本信息和句子级别文本信息也是来自语言相关模型的上下文敏感特征。与用于传统神经TTS***的文本-语音训练语料库相比，用于生成词语级别文本信息和句子级别文本信息的那些模型是利用非常庞大的文本数据语料库来训练的，这意味着训练基于丰富的文本上下文覆盖。这种先验知识可以帮助解决域外问题。

词语的数量远远大于音素或字符的数量，并且语法结构对于不同的句子是多种多样的。众所周知，语音韵律在很大程度上依赖于词语和句子语法结构。神经TTS***可以从词语和句子语法结构中包含的先验知识中学习常见的韵律模式，例如中断、音高重音等。因此，利用词语级别文本信息和句子级别文本信息，更多信息可以帮助减轻一对多映射问题并生成更自然和富有表现力的语音。

如上所述，根据本公开的实施例的神经TTS***在生成语音期间考虑多级别文本信息，例如音素或字符级别文本信息、词语级别文本信息、句子级别文本信息等中的至少之一。这可以增强神经TTS***的泛化能力，显著提高对域外文本的***鲁棒性，将域外文本的合成语音提高到高质量等。

图1示出了示例性传统神经TTS***100。神经TTS***100可以被配置用于生成与文本102输入相对应的语音波形142。文本输入102可以是包含一个或多个词语、一个或多个短语等的句子。

如图1所示，可以通过各种现有技术，例如字母到声音(Letter-to-Sound，LTS)等，从文本输入102中识别音素或字符序列104，然后可以将音素或字符序列104作为输入提供给神经TTS***100。

神经TTS***100可以包括编码器110。编码器110可以被配置用于生成与文本输入102相对应的文本特征112。文本特征112可以是文本输入102中包含的信息在向量空间中的表示，其可以被设计用于在向量空间中与声学特征对准。编码器110可以包括音素或字符嵌入模型，其用于将音素或字符序列104转换为音素或字符嵌入向量序列，其中，音素或字符嵌入向量序列可以被视为音素或字符级别文本信息。音素或字符嵌入向量序列包括音素或字符嵌入向量集合，每个嵌入向量对应于音素或字符序列104中的音素或字符。音素或字符嵌入模型可以利用零均值和单位方差高斯分布来随机初始化嵌入向量，并且可以与神经TTS***100一起进行联合训练和更新。

应当领会，在其他实施方式中，音素或字符嵌入模型也可以独立于神经TTS***100进行训练或更新。在这种情况下，音素或字符嵌入模型可以在编码器110之外。例如，在从文本输入102中识别出音素或字符序列104之后，可以通过音素或字符嵌入模型来生成音素或字符嵌入向量序列，然后可以将音素或字符嵌入向量序列作为输入提供给编码器110。换言之，不是直接将音素或字符序列作为输入，编码器110也可以替代地将音素或字符级信息作为输入。

在编码器110利用编码器110中包括的音素或字符嵌入模型来生成音素或字符级信息的情况下，或者编码器110直接接收音素或字符级信息的情况下，编码器110可以包括用于将音素或字符级信息转换为文本特征112的神经网络。神经网络可以基于各种网络结构，例如包括一个或多个卷积神经网络(CNN)层和一个或多个循环神经网络(RNN)层的组合的网络结构，包括1-D卷积滤波器、高速公路网(highway network)和双向RNN的组合的网络结构等。

神经TTS***100可以包括注意力单元120。注意力单元120可以实现注意力机制，其充当连接编码器110和解码器130的桥梁。例如，注意力机制可以便于在编码器112输出的文本特征与由解码器130生成的声学特征之间进行对准。注意力单元120可以实现各种类型的注意力机制，例如软注意力、硬注意力、位置敏感注意力、高斯混合模型(GMM)注意力等。

解码器130可以在注意力单元120中的注意力机制的影响下将编码器110输出的文本特征映射到声学特征132。声学特征132可以包括各种传统的TTS声学特征，例如梅尔谱(mel-spectrum)、线性谱对(LSP)等。解码器130可以基于各种网络结构，例如包括前向反馈层、长短期记忆(LSTM)层和CNN层的组合的网络结构等。

神经TTS***100可以包括声码器140。声码器140可以基于由解码器130输出的声学特征132来生成语音波形142。声码器140可以基于各种网络结构，例如利用神经生成式模型建立的网络结构等。例如，声码器140可以是WaveNet声码器。

图2示出了根据实施例的神经TTS***200的示例性架构。应当领会，图2中所示的架构仅是为了解释本公开的一些构思或方面的图，而神经TTS***200实际上可以具有各种实施方法。

神经TTS***200可以包括多输入编码器210、注意力单元220、解码器230和声码器240。除了用多输入编码器210替换图1中的编码器110之外，神经TTS***200可以具有与神经TTS***100相似的架构。例如，注意力单元220、解码器230和声码器240可以与图1中的神经TTS***100中的注意力单元120、解码器130和声码器140相同或相似。

如图2所示，在获得了文本输入202之后，可以基于文本输入202来生成多级别文本信息。例如，多级别文本信息可以包括音素或字符级别文本信息204和至少一种类型的上下文敏感文本信息，例如词语级别文本信息206和/或句子级别文本信息208。

音素或字符级别文本信息204可以与上面结合图1讨论的音素或字符级别文本信息相同。与上面讨论的情况类似，音素或字符级别文本信息204可以由多输入编码器210内部的音素或字符嵌入模型基于从文本输入202中识别的音素或字符序列生成，或者由多输入编码器210外部的音素或字符嵌入模型生成。因此，尽管在图2中示出了将音素或字符级别文本信息204作为输入提供给多输入编码器210，但是从文本输入202中识别的音素或字符序列可以替代地作为输入提供给多输入编码器210。本发明的实施例将涵盖这两种情况。应当领会，尽管以下讨论采用将音素或字符序列作为输入直接提供给多输入编码器的情况作为示例，但类似的发明构思也可以应用于将音素或字符嵌入向量序列作为输入提供给多输入编码器的情况，除了用于生成音素或字符嵌入向量序列的音素或字符嵌入模型位于多输入编码器之外。

可以通过对文本输入202执行词语嵌入来获得词语级别文本信息206。可以通过对文本输入202执行语法解析来获得句子级别文本信息208。

多输入编码器210可以基于多级别文本信息，例如音素或字符级别文本信息204、词语级别文本信息206和句子级别文本信息208中的至少之一，来生成与文本输入相对应202的文本特征212。换言之，多输入编码器210可以组合或混合音素或字符级别文本信息204、词语级别文本信息206和句子级别文本信息208，以便生成文本特征212。

可以将文本特征212提供给实现注意力机制的注意力单元220。注意力机制可以利用文本特征212来影响解码器230的操作。解码器230可以在注意力单元220中的注意力机制的影响下将编码器210输出的文本特征映射到声学特征232。声码器240可以基于解码器230输出的声学特征232来生成语音波形242。

由于神经TTS***200在生成语音期间考虑多级别文本信息，尤其是利用上下文敏感文本信息，例如词语级别文本信息206和/或句子级别文本信息208，来进行语音生成，因此神经TTS***200可以具有比任何传统神经TTS***好得多的泛化能力，并且可以有效地生成针对域外文本的高质量合成语音。

应当领会，取决于多级别文本信息的不同组合，可以从神经TTS***200导出若干***，例如基于音素或字符级别文本信息和词语级别文本信息二者的神经TTS***，基于音素或字符级别文本信息和句子级别文本信息二者的神经TTS***，基于音素或字符级别文本信息、词语级别文本信息和句子级别文本信息的神经TTS***等。

图3示出了根据实施例的用于向神经TTS***中的多输入编码器提供多级别文本信息的示例性过程300。

假设神经TTS***将生成与文本输入302相对应的语音。图3示出了如何向神经TTS***中的多输入编码器340提供多级别文本信息输入。

在一方面，可以从文本输入302中识别音素或字符序列310。音素序列是形成文本输入302的发音的顺序音素的列表，并且字符序列是文本输入302中包含的顺序字符的列表。可以将音素或字符序列310提供给多输入编码器340。

在另一方面，可以从文本输入302中识别词语序列320。词语序列320是构成文本输入302的顺序词语的列表。然后，可选地，可以对词语序列320进行上采样以与音素或字符序列310对准。例如，词语可以利用一个或多个音素来发音，因此，在上采样期间，词语序列中的每个词语可以与其音素数量相对应地被重复多次。类似地，词语可以包括一个或多个字符，因此，在上采样期间，词语序列中的每个词语可以与其字符数量相对应地被重复多次。在上采样之后，可以获得经上采样的词语序列322。可以使用经预训练的词语嵌入模型来基于经上采样的词语序列322生成词语嵌入向量序列324，其中，每个词语具有相应的嵌入向量，并且所有这些嵌入向量形成词语嵌入向量序列324。词语嵌入模型可以基于神经机器翻译(NMT)，因此它是具有注意力机制的序列到序列编码器-解码器模型。由于词语嵌入模型和神经TTS***二者都在类似的序列到序列编码器-解码器框架中，这将有利于网络收敛。词语嵌入向量包含词语的含义和语义上下文信息，这将有助于解决域外问题并丰富所生成语音的韵律。可以将词语嵌入向量序列324作为词语级别文本信息提供给多输入编码器340。应当领会，对词语序列320进行上采样是可选的，因此词语嵌入向量序列324也可以由词语嵌入模型直接基于词语序列320生成。

在另一方面，可以通过对文本输入302执行语法解析来获得文本输入302中的句子的语法结构330。语法结构330还可以用于生成句子级别文本信息。可以通过各种现有的语法解析技术来执行语法解析，例如斯坦福解析器工具。图4示出了根据实施例的英语句子的示例性语法结构400。示例性句子可以是“Although they expect higher data speedseventually,IT managers don't know which technologies will deliver”。如图4所示，将该句子解析为树形语法结构。应当领会，图4中的语法结构400仅是图3中的语法结构330的示例，并且还可以将句子的语法结构解析为任何其他形式。

然后，可以针对文本输入302中的每个词语从语法结构330中提取语法解析信息332。每个词语的语法解析信息332可以包括以下至少之一：对包含该词语的至少一个短语的短语类型的指示；关于该词语是否是该至少一个短语的边界的指示；以及对该词语在该至少一个短语中的相对位置的指示。

关于对短语类型的指示，以斯坦福解析器工具为例，可以有67种短语类型，并且相应的短语类型表可以包括：'DT'、'NP'、'S'、'VBZ'、'VP'、'NN'、','、'CC'、'PRP'、'VBG'、'.'、'VBP'、'VBD'、'NNP'、'NNS'、'VB'、'IN'、'PP'、'JJ'、'X'、'SBAR'、'JJR'、'CD'、'ADJP'、'TO'、'RB'、'ADVP'、'PRP$'、'MD'、'NNPS'、'VBN'、'RBR'、'WRB'、'FRAG'、'JJS'、'WDT'、'WHNP'、'UH'、'NAC'、'INTJ'、'RP'、'PRT'、'POS'、'QP'、'SINV'、'EX'、'PRN'、'WP'、'RBS'、'WHADVP'、'PDT'、':'、'CONJP'、'WHPP'、'UCP'、'FW'、'RRC'、'NX'、"”"、'WP$'、'SBARQ'、'SQ'、'LS'、'WHADJP'、'$'、'SYM'、'LST'等。应当领会，对于其他语法解析技术，可以存在任何其他数量的短语类型和短语类型的任何其他分类。

继续上述示例，可以使用67维独热(one-hot)向量来表示词语的短语类型。例如，如图4所示，词语“Although”具有短语类型'IN'，它是短语类型表中的第17种类型。因此，可以为词语“Although”创建短语类型向量作为对短语类型的指示，其中将第17维标注为1.0而将其他维度标注为0.0，例如['0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','1.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0','0.0']。

关于词语是否是短语边界的指示，它用于指示当前词语是否是当前短语的边界，或者是否在当前短语的边界线中。可以创建一维独热向量以指示词语是否是短语边界。例如，词语“Although”位于短语“Although they expect higher data speeds eventually”的开头，即它是短语的边界，因此可以利用标注'1'来创建相应的短语边界向量。例如，词语“data”既不在短语“higher data speeds”的开头也不在结尾，即，它不是短语的边界，因此可以利用标注'0'来创建相应的短语边界向量。

关于对词语在当前短语中的相对位置的指示，将相对位置p计算为p＝ind/len，其中，ind是索引，并且len是当前短语中的节点数量。以词语“Although”为例，如果将整个句子视为当前短语，如图4所示，则树中有18个节点，并且这个词语是第一个词语，即索引是'1'，因此，该词语在当前短语中的相对位置是1/18＝0.055555。以词语“they”为例，如果将整个句子视为当前短语，则树中有18个节点，并且这个词语是第二个词语，即索引为'2'，因此这个词语在当前短语中的相对位置是2/18＝0.11111111。而如果将“Although theyexpect higher data speeds eventually”视为当前短语，则树中有7个节点，并且词语“they”是第二个词语，即索引是'2'，因此这个词语在当前短语中的相对位置是2/7＝0.28571429。

对于不同的句子，语法解析树的深度可以是不同的。并非语法解析树中的所有节点都包含用于TTS合成韵律的重要信息。通常，靠近根节点的那些节点包含更多信息。因此，在一些实施方式中，可以仅提取顶部若干层的信息以供神经TTS***使用。下面的表1给出了提取顶部5层的语法解析信息的示例。对于每个词语，从根短语到叶短语提取特征，例如语法解析信息，并且从根到叶将这些特征级联。表1仅示例性地示出了从图4中的语法结构中提取的前三个词语的语法解析信息。

表1

以词语“expect”为例。包含该词语的第一个考虑的短语是整个句子，短语类型是'S'，这个词语不是当前短语的边界，因此在短语边界向量中被标注为'0'，短语长度为18，该词语是第二个词语，因此该词语在当前短语中的相对位置是2/18。包含该词语的第二个考虑的短语是“Although they expect higher data speeds eventually”，短语类型是'SBAR'，该词语不是当前短语的边界，因此在短语边界向量中被标注为'0'，短语长度为7，该词语是第二个词语，因此该词语在当前短语中的相对位置是2/7。包含该词语的第三个考虑的短语是“they expect higher data speeds eventually”，短语类型是'S'，该词语不是当前短语的边界，因此在短语边界向量中被标注为'0'，短语长度为6，该词语是第二个词语，因此该词语在当前短语中的相对位置是2/6。包含该词语的第四个考虑的短语是“expect higher data speeds eventually”，短语类型是'VP'，该词语是当前短语的边界，因此在短语边界向量中被标注为'1'，短语长度为5，该词语是第一个词语，因此该词语在当前短语中的相对位置是1/5。包含该词语的第五个考虑的短语是“expect”，短语类型是'VBP'，该词语是当前短语的边界，因此在短语边界向量中被标注为'1'，短语长度为1，该词语是第一个词语，因此该词语在当前短语中的相对位置是1/1。

可以将针对顶部5层中的词语“expect”提取的上述语法解析信息级联在一起。例如，如表1所示，5层中的短语类型可以被级联为['S','SBAR','S','VP','VBP']。5层中的短语边界向量可以被级联为['0','0','0','1','1']。5层中的短语长度可以被级联为len[18,7,6,5,1]，并且5层中的索引可以被级联为ind[2,2,2,1,1]，因此5层中的相对位置也可以被级联为p＝ind/len＝[2/18,2/7,2/6,1/5,1/1]。

应当领会，尽管表1示出了针对每个词语提取的所有三种类型的语法解析信息，但是图3中的语法解析信息332可以仅包括三种类型的语法解析信息中的任何一种或两种。

如上所述，语法解析信息332是基于词语提取的，因此，可选地，可以对每个词语的语法解析信息332进行上采样以与音素或字符序列310对准。例如，在上采样期间，每个词语的语法解析信息可以与词语中的音素或字符的数量相对应地被重复多次。在上采样之后，可以获得每个词语的经上采样的语法解析信息334。然后，可以将文本输入中的所有词语的经上采样的语法解析信息组合在一起以形成语法解析信息序列336。语法解析信息序列336可以作为句子级别文本信息被提供给多输入编码器340。句子级别文本信息包含通过对文本输入进行语法解析而获得的上下文敏感信息，这将有助于解决域外问题并改善生成的语音的韵律表现。应当领会，对语法解析信息332进行上采样是可选的，因此语法解析信息序列336也可以直接由语法解析信息332形成。

图5示出了根据实施例的多输入编码器500的示例性实施方式。多输入编码器500可以在神经TTS***中，该神经TTS***基于音素或字符级别文本信息和词语级别文本信息二者来生成语音。换言之，多输入编码器500可以被配置用于基于音素或字符级别文本信息和词语级别文本信息来生成文本特征，并且文本特征被进一步用于生成语音。多输入编码器500可以首先为音素或字符级别文本信息和词语级别文本信息中的每一项生成相应的文本特征，然后对相应的文本特征进行组合以形成要由多输入编码器500输出的文本特征。

如图5所示，可以向多输入编码器500提供音素或字符序列502，其中，音素或字符序列502可以对应于图3中的音素或字符序列310。多输入编码器500可以包括神经网络510，其被配置用于基于音素或字符序列502来生成第一文本特征。神经网络510可以基于各种网络结构。作为示例，神经网络510可以包括音素或字符嵌入单元512、一个或多个卷积层514和至少一个双向LSTM(BLSTM)层516。音素或字符嵌入单元512可以利用音素或字符嵌入模型来将音素或字符序列502转换为音素或字符嵌入向量序列，该向量序列是音素或字符级别文本信息。音素或字符嵌入模型可以被随机初始化或更新，例如利用用于音素或字符的随机初始化设置来建立或者利用用于音素或字符的随机设置来更新，然后与多输入编码器500的其他部分联合训练。卷积层514和BLSTM层516的组合可以基于音素或字符嵌入向量序列来生成第一文本特征。

可以向多输入编码器500提供词语嵌入向量序列504，其中，词语嵌入向量序列504可以对应于图3中的词语嵌入向量序列324。多输入编码器500可以包括神经网络520，其被配置用于基于词语嵌入向量序列504来生成第二文本特征。神经网络520可以基于各种网络结构。作为示例，神经网络520可以包括一个或多个卷积层522和至少一个BLSTM层524。卷积层522和BLSTM层524的组合可以基于词语嵌入向量序列504来生成第二文本特征。

多输入编码器500还可以包括级联单元530，用于将神经网络510输出的第一文本特征和神经网络520输出的第二文本特征组合成文本特征506。例如，第一文本特征和第二文本特征可以按照维度被级联在一起。

图6示出了根据实施例的多输入编码器600的示例性实施方式。多输入编码器600可以处于神经TTS***中，该神经TTS***基于音素或字符级别文本信息和词语级别文本信息二者来生成语音。换言之，多输入编码器600可以被配置用于基于音素或字符级别文本信息和词语级别文本信息来生成文本特征，并且文本特征被进一步用于生成语音。多输入编码器600可以首先对音素或字符级别文本信息和词语级别文本信息进行组合以形成混合文本信息，然后利用混合文本信息来生成要由多输入编码器600输出的文本特征。

可以向多输入编码器600提供音素或字符序列602，其中，音素或字符序列602可以对应于图3中的音素或字符序列310。多输入编码器600可以包括音素或字符嵌入单元610，其利用音素或字符嵌入模型将音素或字符序列602转换为音素或字符嵌入向量序列作为音素或字符级别文本信息。音素或者字符嵌入单元610可以对应于图5中的音素或字符嵌入单元512。

可以向多输入编码器600提供词语嵌入向量序列604，其中，词语嵌入向量序列604可以对应于图3中的词语嵌入向量序列324。多输入编码器600可以包括神经网络620，其被配置用于生成词语嵌入向量序列604的压缩表示。神经网络620可以基于各种网络结构。作为示例，神经网络620可以包括一个或多个密集层(dense layer)622，例如前向反馈密集层。通过神经网络620，可以获得词语嵌入向量序列604的压缩表示。

多输入编码器600还可以包括级联单元630，用于将词语嵌入向量序列604的压缩表示和音素或字符嵌入向量序列组合成混合文本信息。例如，词语嵌入向量序列的压缩表示和音素或字符嵌入向量序列可以按照维度被级联在一起。

多输入编码器600还可以包括神经网络640，其被配置用于基于混合文本信息来生成文本特征606。神经网络640可以基于各种网络结构。作为示例，神经网络640可以包括一个或多个卷积层642和至少一个BLSTM层644。卷积层642和BLSTM层644的组合可以基于混合文本信息来生成文本特征606。

图7示出了根据实施例的多输入编码器700的示例性实施方式。多输入编码器700可以在神经TTS***中，该神经TTS***基于音素或字符级别文本信息和句子级别文本信息二者来生成语音。换言之，多输入编码器700可以被配置用于基于音素或字符级别文本信息和句子级别文本信息来生成文本特征，并且文本特征被进一步用于生成语音。多输入编码器700可以首先为音素或字符级别文本信息和句子级别文本信息中的每一项生成相应的文本特征，然后对相应的文本特征进行组合以形成要由多输入编码器700输出的文本特征。应当领会，多输入编码器700的架构与多输入编码器500的架构类似，不同之处在于将词语级别文本信息，例如输入的词语嵌入向量序列504，替换为句子级别文本信息，例如语法解析信息序列。

可以向多输入编码器700提供音素或字符序列702，其中，音素或字符序列702可以对应于图3中的音素或字符序列310。多输入编码器700可以包括神经网络710，其被配置用于基于音素或字符序列702来生成第一文本特征。神经网络710与图5中的神经网络510类似。作为示例，神经网络710可以包括音素或字符嵌入单元712、一个或多个卷积层714和至少一个BLSTM层716，其可以分别对应于图5中的音素或字符嵌入单元512、卷积层514和BLSTM层516。

可以向多输入编码器700提供语法解析信息序列704，其中，语法解析信息序列704可以对应于图3中的语法解析信息序列336。多输入编码器700可以包括神经网络720，其被配置用于基于语法解析信息704来生成第二文本特征。神经网络720可以基于各种网络结构。作为示例，神经网络720可以包括一个或多个卷积层722和至少一个BLSTM层724。卷积层722和BLSTM层724的组合可以基于语法解析信息序列704来生成第二文本特征。

多输入编码器700还可以包括级联单元730，用于将神经网络710输出的第一文本特征和神经网络720输出的第二文本特征组合成文本特征706。例如，第一文本特征和第二文本特征可以按照维度被级联在一起。

图8示出了根据实施例的多输入编码器800的示例性实施方式。多输入编码器800可以处于神经TTS***中，该神经TTS***基于音素或字符级别文本信息和句子级别文本信息二者来生成语音。换言之，多输入编码器800可以被配置用于基于音素或字符级别文本信息和句子级别文本信息来生成文本特征，并且文本特征被进一步用于生成语音。多输入编码器800可以首先对音素或字符级别文本信息和句子级别文本信息进行组合以形成混合文本信息，然后利用混合文本信息来生成要由多输入编码器800输出的文本特征。应当领会，多输入编码器800的架构与多输入编码器600的架构类似，不同之处在于将词语级别文本信息，例如输入的词语嵌入向量序列604，替换为句子级别文本信息，例如语法解析信息序列。

可以向多输入编码器800提供音素或字符序列802，其中，音素或字符序列802可以对应于图3中的音素或字符序列310。多输入编码器800可以包括音素或字符嵌入单元810，其利用音素或字符嵌入模型将音素或字符序列802转换为音素或字符嵌入向量序列作为音素或字符级别文本信息。音素或字符嵌入单元810可以对应于图5中的音素或字符嵌入单元512。

可以向多输入编码器800提供语法解析信息序列804，其中，语法解析信息序列804可以对应于图3中的语法解析信息序列336。多输入编码器800可以包括神经网络820，其被配置用于生成语法解析信息序列804的压缩表示。神经网络820可以基于各种网络结构。作为示例，神经网络820可以包括一个或多个密集层822，例如前向反馈密集层。通过神经网络820，可以获得语法解析信息序列804的压缩表示。

多输入编码器800还可以包括级联单元830，用于将语法解析信息序列804的压缩表示和音素或字符嵌入向量序列组合成混合文本信息。例如，语法解析信息序列的压缩表示和音素或字符嵌入向量序列可以按照维度被级联在一起。

多输入编码器800还可以包括神经网络840，其被配置用于基于混合文本信息来生成文本特征806。神经网络840可以基于各种网络结构。作为示例，神经网络840可以包括一个或多个卷积层842和至少一个BLSTM层844。卷积层842和BLSTM层844的组合可以基于混合文本信息来生成文本特征806。

图9示出了根据实施例的多输入编码器900的示例性实施方式。多输入编码器900可以处于神经TTS***中，该神经TTS***基于音素或字符级别文本信息、词语级别文本信息和句子级别文本信息来生成语音。换言之，多输入编码器900可以被配置用于基于音素或字符级别文本信息、词语级别文本信息和句子级别文本信息来生成文本特征，并且文本特征被进一步用于生成语音。多输入编码器900可以首先为音素或字符级别文本信息、词语级别文本信息和句子级别文本信息中的每一项生成相应的文本特征，然后对相应的文本特征进行组合以形成要由多输入编码器900输出的文本特征。可以将多输入编码器900的架构视为图5中的多输入编码器500和图7中的多输入编码器700的组合。

多输入编码器900可以包括神经网络910，用于基于音素或字符序列902来生成第一文本特征。神经网络902与图5中的神经网络510和图7中的神经网络710类似。例如，神经网络910可以包括音素或字符嵌入单元912、一个或多个卷积层914和至少一个BLSTM层916，其可以分别对应于音素或字符嵌入单元512或712、卷积层514或714和BLSTM层516或716。

多输入编码器900可以包括神经网络920，用于基于词语嵌入向量序列904来生成第二文本特征。神经网络920与图5中的神经网络520类似。例如，神经网络920可以包括一个或多个卷积层922和至少一个BLSTM层924，其可以分别对应于卷积层522和BLSTM层524。

多输入编码器900可以包括神经网络930，用于基于语法解析信息序列906来生成第三文本特征。神经网络930与图7中的神经网络720类似。例如，神经网络930可以包括一个或多个卷积层932和至少一个BLSTM层934，其可以分别对应于卷积层722和BLSTM层724。

多输入编码器900还可以包括级联单元940，用于将由神经网络910输出的第一文本特征、由神经网络920输出的第二文本特征和由神经网络930输出的第三文本特征组合成文本特征908。例如，第一文本特征、第二文本特征和第三文本特征可以按照维度被级联在一起。

图10示出了根据实施例的多输入编码器1000的示例性实施方式。多输入编码器1000可以处于神经TTS***中，该神经TTS***基于音素或字符级别文本信息、词语级别文本信息和句子级别文本信息来生成语音。换言之，多输入编码器1000可以被配置用于基于音素或字符级别文本信息、词语级别文本信息和句子级别文本信息来生成文本特征，并且文本特征被进一步用于生成语音。多输入编码器1000可以首先对音素或字符级别文本信息、词语级别文本信息和句子级别文本信息进行组合以形成混合文本信息，然后利用混合文本信息来生成要由多输入编码器1000输出的文本特征。可以将多输入编码器1000的架构视为图6中的多输入编码器600和图8中的多输入编码器800的组合。

多输入编码器1000可以包括音素或字符嵌入单元1010，其利用音素或字符嵌入模型将音素或字符序列1002转换为音素或字符嵌入向量序列作为音素或字符级别文本信息。嵌入单元1010可以对应于图6中的嵌入单元610和图8中的嵌入单元810。

多输入编码器1000可以包括神经网络1020，其被配置用于生成词语嵌入向量序列1004的压缩表示。神经网络1020与图6中的神经网络620类似。例如，神经网络1020可以包括一个或多个密集层1022，其可以对应于密集层622。

多输入编码器1000可以包括神经网络1030，其被配置用于生成语法解析信息序列1006的压缩表示。神经网络1030与图8中的神经网络820类似。例如，神经网络1030可以包括一个或多个密集层1032，其可以对应于密集层822。

多输入编码器1000还可以包括级联单元1040，用于将音素或字符嵌入向量序列、词语嵌入向量序列1004的压缩表示和语法解析信息序列1006的压缩表示组合成混合文本信息。例如，音素或字符嵌入向量序列、词语嵌入向量序列的压缩表示和语法解析信息序列的压缩表示可以按照维度被级联在一起。

多输入编码器1000还可以包括神经网络1050，其被配置用于基于混合文本信息来生成文本特征1008。神经网络1050可以基于各种网络结构。作为示例，神经网络1050可以包括一个或多个卷积层1052和至少一个BLSTM层1054。卷积层1052和BLSTM层1054的组合可以基于混合文本信息来生成文本特征1008。

以上结合图5至图10讨论了根据本公开的实施例的各种类型的多输入编码器。然而，应当领会，这些多输入编码器中示出的所有架构或单元都是示例性的，并且可以根据实际设计和需求对它们进行任何改变。在一些实施方式中，尽管图6、图8和图10示出了词语级别文本信息，例如词语嵌入向量序列，和句子级别文本信息，例如语法解析信息序列，二者都应当通过各自的神经网络以便生成各自的压缩表示，并且压缩表示与音素或字符级信息级联，但也可以从多输入编码器中省略神经网络620、820、1020和1030，因此词语级别文本信息和/或句子级别文本信息可以直接与音素或字符级信息级联。在一些实施方式中，尽管图5至图10示出了在多输入编码器中执行音素或字符序列的嵌入，即，在多输入编码器内部获得音素或字符级别文本信息，但音素或字符序列的嵌入也可以移到多输入编码器的外部，例如由多输入编码器外部的嵌入模型执行。在这种情况下，可以将作为音素或字符级别文本信息的音素或字符嵌入向量序列而不是音素或字符序列直接提供给多输入编码器作为输入。因此，在本公开中，利用音素或字符级别文本信息来生成文本特征的操作应当既涵盖直接利用从多输入编码器的外部接收的音素或字符级别文本信息的情况，也涵盖利用在多输入编码器内部生成的音素或字符级别文本信息的情况。

图11示出了根据实施例的用于训练神经TTS***1100的示例性过程。神经TTS***1100可以对应于图2中的神经TTS***200。神经TTS***1100可以包括多输入编码器1110、注意力单元1120、解码器1130和声码器1140，其可以分别对应于多输入编码器210、注意力单元220、解码器230和声码器240。

对神经TTS***1100的训练可以基于训练语料库1150。训练语料库1150可以包括多个文本-语音数据对，例如[文本1，语音波形1]、[文本2，语音波形2]、[文本3，语音波形3]等。可以取得训练语料库1150中的数据对作为训练数据对，以用于训练神经TTS***1100。

以训练语料库1150中的训练数据对[文本i，语音波形i]为例，文本i可以用作神经TTS***1100的文本输入1102，并且语音波形i可以用作神经TTS***1100的输出1142。基于文本输入1102，可以生成多级别文本信息。例如，可以生成音素或字符级别文本信息1104和至少一种类型的上下文敏感文本信息，其中，上下文敏感文本信息可以包括例如词语级别文本信息1106和/或句子级别文本信息1108。多级别文本信息的生成可以基于上面结合图2至图4讨论的过程。可以向多输入编码器1110提供所生成的多级别文本信息。因此，可以至少基于从文本输入1102生成的多级别文本信息和语音波形1142来训练神经TTS***1100。应当领会，可以独立于神经TTS***1100来训练在获得词语级别文本信息1106的过程中涉及的词语嵌入和在获得句子级别文本信息1108的过程中涉及的语法解析。此外，可以随机初始化并与神经TTS***1100的其他部分联合训练在获得音素或字符级别文本信息1104的过程中涉及的音素或字符嵌入，例如用于实现音素或字符嵌入的音素或字符嵌入模型。替代地，还可以独立于神经TTS***1100来训练音素或字符嵌入模型。此外，声码器1140可以与多输入编码器1110、注意力单元1120和解码器1130联合训练，或者替代地可以独立于多输入编码器1110、注意力单元1120和解码器1130进行训练。

图12示出了根据实施例的用于生成语音波形的示例性处理流程1200。

在1202处，可以获得文本输入。处理流程1200可以进一步从文本输入生成多级别文本信息。

在一方面，可以基于文本输入来生成音素或字符级别文本信息。例如，在1210处，可以从文本输入中识别音素或字符序列，然后，在1212处，可以通过例如音素或字符嵌入模型，基于音素或字符序列来生成音素或字符嵌入向量序列。

在另一方面，可以基于文本输入来生成上下文敏感文本信息。上下文敏感文本信息可以包括例如词语级别文本信息和/或句子级别文本信息。

在一种实施方式中，在1220处，可以从文本输入中识别词语序列。可选地，在1222处，可以对词语序列进行上采样，以便与文本输入的音素或字符序列对准。在1224处，可以通过例如词语嵌入模型，基于词语序列或经上采样的词语序列来生成词语嵌入向量序列。可以将词语嵌入向量序列视为一种类型的词语级别文本信息。

在一种实施方式中，在1230处，可以对文本输入执行语法解析以获得文本输入的语法结构。处理流程1200可以基于语法结构来生成句子级别文本信息，例如语法解析信息序列。例如，在1232处，可以从语法结构中提取文本输入中的每个词语的语法解析信息。在1234处，可选地，可以对每个词语的语法解析信息进行上采样，以便与文本输入的音素或字符序列对准。在1236处，可以通过对文本输入中的所有词语的经上采样的语法解析信息进行组合来形成语法解析信息序列。

在1240处，可以基于由步骤1212、1224和/或1236提供的不同级别的文本信息，通过多输入编码器来生成文本特征。例如，可以基于音素或字符级别文本信息和至少一种类型的上下文敏感文本信息来生成文本特征。

处理流程1200还可以至少基于文本特征来生成与文本输入相对应的语音波形。例如，在1250处，可以基于文本特征来生成声学特征，然后在1260处，声学特征可以被进一步用于生成语音波形。

应当领会，根据具体设计和需求，可以根据本公开的实施例调整、省略或替换处理流程1200中的任何步骤和步骤顺序。还可以将任何附加步骤添加到处理流程1200中。

如上所述，本公开的实施例提出了一种神经TTS***，其可以包括：多输入编码器，被配置用于生成与文本输入相对应的文本特征；解码器，被配置用于通过注意力机制生成与文本特征相对应的声学特征；以及声码器，被配置用于基于声学特征来生成与文本输入相对应的语音波形。多输入编码器还可以被配置用于通过以下操作来生成文本特征：基于文本输入来生成音素或字符级别文本信息；获得与文本输入相对应的上下文敏感文本信息；以及基于音素或字符级别文本信息和上下文敏感文本信息来生成文本特征。此外，多输入编码器还可以被配置用于执行根据如上所述的本公开的实施例的用于在通过神经TTS合成来生成语音期间生成文本特征的方法的任何操作。

图13示出了根据实施例的用于通过神经TTS合成来生成语音的示例性方法1300的流程图。

在1310处，可以获得文本输入。

在1320处，可以基于所述文本输入来生成音素或字符级别文本信息。

在1330处，可以基于所述文本输入来生成上下文敏感文本信息。

在1340处，可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征。

在1350处，至少基于所述文本特征来生成与所述文本输入相对应的语音波形。

在一种实施方式中，所述音素或字符级别文本信息可以包括音素或字符嵌入向量序列。所述生成音素或字符级别文本信息可以包括：从所述文本输入中识别音素或字符序列；以及通过音素或字符嵌入模型，基于所述音素或字符序列来生成所述音素或字符嵌入向量序列。

在一种实施方式中，所述上下文敏感文本信息可以包括词语级别文本信息。所述生成上下文敏感文本信息可以包括生成所述词语级别文本信息。所述词语级别文本信息可以包括词语嵌入向量序列。所述生成词语级别文本信息可以包括：从所述文本输入中识别词语序列；以及通过词语嵌入模型，基于所述词语序列来生成所述词语嵌入向量序列。所述生成所述词语嵌入向量序列可以包括：对所述词语序列进行上采样以与所述文本输入的音素或字符序列对准；以及通过所述词语嵌入模型，基于经上采样的词语序列来生成所述词语嵌入向量序列。所述词语嵌入模型可以是基于NMT的。所述生成文本特征可以包括：基于所述音素或字符级别文本信息和所述词语级别文本信息来生成所述文本特征。

在一种实施方式中，所述上下文敏感文本信息可以包括句子级别文本信息。所述生成上下文敏感文本信息可以包括生成所述句子级别文本信息。所述句子级别文本信息可以包括语法解析信息序列。所述生成句子级别文本信息可以包括：对所述文本输入执行语法解析，以获得所述文本输入的语法结构；以及基于所述语法结构来生成所述语法解析信息序列。所述生成所述语法解析信息序列可以包括：从所述语法结构中提取所述文本输入中每个词语的语法解析信息；对每个词语的所述语法解析信息进行上采样，以与所述文本输入的音素或字符序列中的相应音素或字符对准；以及将所述文本输入中所有词语的经上采样的语法解析信息组合成所述语法解析信息序列。每个词语的所述语法解析信息可以包括以下至少之一：对包含所述词语的至少一个短语的短语类型的指示；关于所述词语是否是所述至少一个短语的边界的指示；以及对所述词语在所述至少一个短语中的相对位置的指示。所述生成文本特征可以包括：基于所述音素或字符级别文本信息和所述句子级别文本信息来生成所述文本特征。

在一种实施方式中，所述上下文敏感文本信息可以包括词语级别文本信息和句子级别文本信息二者。所述生成上下文敏感文本信息可以包括：生成所述词语级别文本信息；以及生成所述句子级别文本信息。所述生成文本特征可以包括：基于所述音素或字符级别文本信息、所述词语级别文本信息和所述句子级别文本信息来生成所述文本特征。

在一种实施方式中，所述上下文敏感文本信息可以包括词语级别文本信息和/或句子级别文本信息。所述生成文本特征可以包括：通过第一神经网络，基于所述音素或字符级别文本信息来生成第一文本特征；通过至少一个第二神经网络，基于所述上下文敏感文本信息中包括的所述词语级别文本信息和/或所述句子级别文本信息来生成至少一个第二文本特征；以及通过将所述第一文本特征与所述至少一个第二文本特征级联来生成所述文本特征。

在一种实施方式中，所述上下文敏感文本信息可以包括词语级别文本信息和/或句子级别文本信息。所述生成文本特征可以包括：将所述音素或字符级别文本信息与所述上下文敏感文本信息中包括的所述词语级别文本信息和/或所述句子级别文本信息级联，以形成混合文本信息；以及通过第一神经网络，基于所述混合文本信息来生成所述文本特征。

在一种实施方式中，所述上下文敏感文本信息可以包括词语级别文本信息和/或句子级别文本信息。所述生成文本特征可以包括：通过至少一个第一神经网络，生成所述上下文敏感文本信息中包括的所述词语级别文本信息和/或所述句子级别文本信息的至少一个压缩表示；将所述音素或字符级别文本信息与所述至少一个压缩表示级联以形成混合文本信息；以及通过第二神经网络，基于所述混合文本信息来生成所述文本特征。

应当领会，方法1300还可以包括根据如上所述的本公开的实施例的用于通过神经TTS合成来生成语音的任何步骤/过程。

图14示出了根据实施例的用于通过神经TTS合成来生成语音的示例性装置1400。

装置1400可以包括：文本输入获得模块1410，用于获得文本输入；音素或字符级别文本信息生成模块1420，用于基于所述文本输入来生成音素或字符级别文本信息；上下文敏感文本信息生成模块1430，用于基于所述文本输入来生成上下文敏感文本信息；文本特征生成模块1440，用于基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征；以及语音波形生成模块1450，用于至少基于所述文本特征来生成与所述文本输入相对应的语音波形。

此外，装置1400还可以包括根据如上所述的本公开的实施例的被配置用于通过神经TTS合成来生成语音的任何其他模块。

图15示出了根据实施例的用于通过神经TTS合成来生成语音的示例性装置1500。

装置1500可以包括至少一个处理器1510和存储计算机可执行指令的存储器1520。当执行计算机可执行指令时，所述至少一个处理器1510可以：获得文本输入；基于所述文本输入来生成音素或字符级别文本信息；基于所述文本输入来生成上下文敏感文本信息；基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征；以及至少基于所述文本特征来生成与所述文本输入相对应的语音波形。所述至少一个处理器1510还可以被配置用于执行根据如上所述的本公开的实施例的用于通过神经TTS合成来生成语音的方法的任何操作。

本公开的实施例可以体现在非暂时性计算机可读介质中。所述非暂时性计算机可读介质可以包括指令，所述指令当被执行时，使得一个或多个处理器执行根据如上所述的本公开的实施例的用于通过神经TTS合成来生成语音的方法的任何操作。

应当领会，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其他等同变换。

还应当领会，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在***上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑单元、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其他适合的处理组件来实现。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以利用由微处理器、微控制器、DSP或其他适合的平台所执行的软件来实现。

软件应当被广泛地视为意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(例如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部，例如高速缓存器或寄存器。

以上描述被提供用于使得本领域任何技术人员能够实践本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员将是显而易见的，并且本文限定的一般性原理可以应用于其他方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域普通技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换都被明确并入本文并且由权利要求所覆盖。

Claims

1.一种用于通过神经文本到语音(TTS)合成来生成语音的方法，包括：

获得文本输入；

基于所述文本输入来生成音素或字符级别文本信息；

基于所述文本输入来生成上下文敏感文本信息；

基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征；以及

至少基于所述文本特征来生成与所述文本输入相对应的语音波形。

2.根据权利要求1所述的方法，其中，所述音素或字符级别文本信息包括音素或字符嵌入向量序列，并且所述生成音素或字符级别文本信息包括：

从所述文本输入中识别音素或字符序列；以及

通过音素或字符嵌入模型，基于所述音素或字符序列来生成所述音素或字符嵌入向量序列。

3.根据权利要求1所述的方法，其中，所述上下文敏感文本信息包括词语级别文本信息，并且所述生成上下文敏感文本信息包括生成所述词语级别文本信息。

4.根据权利要求3所述的方法，其中，所述词语级别文本信息包括词语嵌入向量序列，并且所述生成词语级别文本信息包括：

从所述文本输入中识别词语序列；以及

通过词语嵌入模型，基于所述词语序列来生成所述词语嵌入向量序列。

5.根据权利要求4所述的方法，其中，所述生成所述词语嵌入向量序列包括：

对所述词语序列进行上采样以与所述文本输入的音素或字符序列对准；以及

通过所述词语嵌入模型，基于经上采样的词语序列来生成所述词语嵌入向量序列。

6.根据权利要求4所述的方法，其中，所述词语嵌入模型是基于神经机器翻译(NMT)的。

7.根据权利要求3所述的方法，其中，所述生成文本特征包括：

基于所述音素或字符级别文本信息和所述词语级别文本信息来生成所述文本特征。

8.根据权利要求1所述的方法，其中，所述上下文敏感文本信息包括句子级别文本信息，并且所述生成上下文敏感文本信息包括生成所述句子级别文本信息。

9.根据权利要求8所述的方法，其中，所述句子级别文本信息包括语法解析信息序列，并且所述生成句子级别文本信息包括：

对所述文本输入执行语法解析，以获得所述文本输入的语法结构；以及

基于所述语法结构来生成所述语法解析信息序列。

10.根据权利要求9所述的方法，其中，所述生成所述语法解析信息序列包括：

从所述语法结构中提取所述文本输入中每个词语的语法解析信息；

对每个词语的所述语法解析信息进行上采样，以与所述文本输入的音素或字符序列中的相应音素或字符对准；以及

将所述文本输入中所有词语的经上采样的语法解析信息组合成所述语法解析信息序列。

11.根据权利要求10所述的方法，其中，每个词语的所述语法解析信息包括以下至少之一：

对包含所述词语的至少一个短语的短语类型的指示；

关于所述词语是否是所述至少一个短语的边界的指示；以及

对所述词语在所述至少一个短语中的相对位置的指示。

12.根据权利要求8所述的方法，其中，所述生成文本特征包括：

基于所述音素或字符级别文本信息和所述句子级别文本信息来生成所述文本特征。

13.根据权利要求1所述的方法，其中，所述上下文敏感文本信息包括词语级别文本信息和句子级别文本信息二者，并且所述生成上下文敏感文本信息包括：生成所述词语级别文本信息；以及生成所述句子级别文本信息。

14.根据权利要求13所述的方法，其中，所述生成文本特征包括：

基于所述音素或字符级别文本信息、所述词语级别文本信息和所述句子级别文本信息来生成所述文本特征。

15.根据权利要求1所述的方法，其中，所述上下文敏感文本信息包括词语级别文本信息和/或句子级别文本信息，并且所述生成文本特征包括：

通过第一神经网络，基于所述音素或字符级别文本信息来生成第一文本特征；

通过至少一个第二神经网络，基于所述上下文敏感文本信息中包括的所述词语级别文本信息和/或所述句子级别文本信息来生成至少一个第二文本特征；以及

通过将所述第一文本特征与所述至少一个第二文本特征级联来生成所述文本特征。

16.根据权利要求1所述的方法，其中，所述上下文敏感文本信息包括词语级别文本信息和/或句子级别文本信息，并且所述生成文本特征包括：

将所述音素或字符级别文本信息与所述上下文敏感文本信息中包括的所述词语级别文本信息和/或所述句子级别文本信息级联，以形成混合文本信息；以及

通过第一神经网络，基于所述混合文本信息来生成所述文本特征。

17.根据权利要求1所述的方法，其中，所述上下文敏感文本信息包括词语级别文本信息和/或句子级别文本信息，并且所述生成文本特征包括：

通过至少一个第一神经网络，生成所述上下文敏感文本信息中包括的所述词语级别文本信息和/或所述句子级别文本信息的至少一个压缩表示；

将所述音素或字符级别文本信息与所述至少一个压缩表示级联以形成混合文本信息；以及

通过第二神经网络，基于所述混合文本信息来生成所述文本特征。

18.一种用于通过神经文本到语音(TTS)合成来生成语音的装置，包括：

文本输入获得模块，用于获得文本输入；

音素或字符级别文本信息生成模块，用于基于所述文本输入来生成音素或字符级别文本信息；

上下文敏感文本信息生成模块，用于基于所述文本输入来生成上下文敏感文本信息；

文本特征生成模块，用于基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征；以及

语音波形生成模块，用于至少基于所述文本特征来生成与所述文本输入相对应的语音波形。

19.一种神经文本到语音(TTS)***，包括：

多输入编码器，被配置用于生成与文本输入相对应的文本特征；

解码器，被配置用于通过注意力机制来生成与所述文本特征相对应的声学特征；以及

声码器，被配置用于基于所述声学特征来生成与所述文本输入相对应的语音波形，

其中，所述多输入编码器还被配置用于通过以下操作来生成所述文本特征：

基于所述文本输入来生成音素或字符级别文本信息；

获得与所述文本输入相对应的上下文敏感文本信息；以及

基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成所述文本特征。

20.一种用于通过神经文本到语音(TTS)合成来生成语音的装置，包括：

至少一个处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述至少一个处理器：

获得文本输入，

基于所述文本输入来生成音素或字符级别文本信息，

基于所述文本输入来生成上下文敏感文本信息，

基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征，以及