CN109859736A

CN109859736A - 语音合成方法及***

Info

Publication number: CN109859736A
Application number: CN201910062047.3A
Authority: CN
Inventors: 马达标; 陆羽皓
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-06-07
Anticipated expiration: 2039-01-23
Also published as: CN109859736B

Abstract

本发明提供一种语音合成方法，其包含：获取交互指令，并对交互指令进行分析，当交互指令中包含语音播放指令时，响应语音播放指令；调用通过完全可并行的注意力机制生成的声学模型，将待合成文本数据或待合成音标数据实时输入声学模型，得到待合成声学特征；将待合成声学特征输入声学合成器，通过声学合成器得到合成后的语音数据，并输出语音数据。本发明提供一种端到端声学模型以及训练方式，能够完全利用并行计算的优势。利用一种完全可并行的注意力机制和一种卷积结构，使得生成声学特征的用时与现有技术相比大大缩短，同时，还能够保证生成的声学特征的质量。因此，本发明能够在保证合成语音质量的情况下缩短合成时间，提高了语音合成的效率。

Description

语音合成方法及***

技术领域

本发明涉及人工智能领域，具体地说，涉及一种语音合成方法及***。

背景技术

语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术，解决的主要问题就是如何将文字信息转化为可听的声音信息。

目前来说，用于语音合成训练的数据，一般是由纯文本(或音标)以及相应的音频组成。文本(或音标)内没有音标的边界信息，这使得确定声学特征与文本(音标)之间的序列对应关系非常困难。并且，目前的声学训练模型只能一个时间段一个时间段得生成声学特征，不能充分利用并行计算的优势，使得它的时间延迟很长。

因此，本发明提供了一种语音合成方法及***。

发明内容

为解决上述问题，本发明提供了一种语音合成方法，所述方法包含以下步骤：

获取交互指令，并对所述交互指令进行分析，当所述交互指令中包含语音播放指令时，响应所述语音播放指令；

调用通过完全可并行的注意力机制生成的声学模型，将待合成文本数据或待合成音标数据实时输入所述声学模型，得到待合成声学特征；

将所述待合成声学特征输入声学合成器，通过所述声学合成器得到合成后的语音数据，并输出所述语音数据。

根据本发明的一个实施例，生成所述声学模型具体包含以下步骤：

确定训练数据中的训练文本或训练音标，与声学特征之间的序列对应关系；

通过构建的高容量神经网络，对得到的所述序列对应关系进行训练，得到所述声学模型。

根据本发明的一个实施例，确定训练数据中的文本或音标，与声学特征之间的序列对应关系的步骤中，还包含以下步骤：

将所述训练文本或所述训练音标送入第一编码器，通过所述第一编码器得到所述训练文本或所述训练音标的第一抽象特征；

通过所述完全可并行的注意力机制，得到所述训练文本或训练音标的注意力信息；

将所述第一抽象特征以及所述注意力信息送入第一解码器，通过所述第一解码器得到所述训练文本或所述训练音标对应的第一预测声学特征；

将所述第一预测声学特征与真实声学特征送入第一训练器，通过所述第一训练器得到所述序列对应关系。

根据本发明的一个实施例，所述第一抽象特征通过如下方式实现：

将所述训练文本或所述训练音标映射到高维实空间上，将得到的高维矢量通过具备并行能力的神经层进行抽象，得到所述第一抽象特征。

根据本发明的一个实施例，在所述第一训练器中，对比所述第一预测声学特征与所述真实声学特征，建立损失函数并进行反向传播训练，得到所述序列对应关系。

根据本发明的一个实施例，还包括：训练得到所述注意力信息，具体包含以下步骤：

运用预设函数，对声学特征的位置序列进行编码，得到声学特征编码；

将所述训练文本或所述训练音标输入预设卷积结构，通过所述预设卷积结构输出单一个字母或单一音标对应的单一标量；

运用所述预设函数，对所述训练文本或所述训练音标的位置序列进行编码，得到文本或音标位置编码；

依据所述声学特征编码、所述单一标量以及所述文本或音标位置编码，得到所述训练文本或所述训练音标的注意力信息，所述声学特征的某一帧训练文本或训练音标的注意力，正比于这一帧的位置编码矢量和训练文本或训练音标的位置编码矢量的内积。

根据本发明的一个实施例，还包含如下训练过程：通过构建的高容量神经网络，对得到的所述序列对应关系进行训练，得到所述声学模型的步骤中，包含以下步骤：

将所述训练文本或所述训练音标送入第二编码器，通过所述第二编码器得到所述训练文本或所述训练音标的第二抽象特征，所述第二编码器使用高容量和完全可并行的UFANS结构；

将所述第二抽象特征以及所述注意力信息送入第二解码器，通过所述第二解码器得到第二预测声学特征；

将所述第二预测声学特征与真实声学特征送入第二训练器，通过所述第二训练器得到所述声学模型。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种语音合成装置，所述装置包含：

响应模块，其用于获取交互指令，并对所述交互指令进行分析，当所述交互指令中包含语音播放指令时，响应所述语音播放指令；

处理模块，其用于调用通过完全可并行的注意力机制生成的声学模型，将待合成文本数据或待合成音标数据实时输入所述声学模型，得到待合成声学特征；

合成模块，其用于将所述待合成声学特征输入声学合成器，通过所述声学合成器得到合成后的语音数据，并输出所述语音数据。

根据本发明的另一个方面，还提供了一种语音合成***，所述***包含：

服务器，

采用如上任一项所述方法的智能设备。

本发明提供的语音合成方法及***提供了一种端到端声学模型以及训练方式，能够完全利用并行计算的优势。利用一种完全可并行的注意力机制和一种卷积结构，使得生成声学特征的用时与现有技术相比大大缩短，同时，还能够保证生成的声学特征的质量。因此，本发明能够在保证合成语音质量的情况下缩短合成时间，提高了语音合成的效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的语音合成方法流程图；

图2显示了根据本发明的一个实施例的语音合成方法中得到声学模型的流程图；

图3显示了根据本发明的一个实施例的语音合成方法中得到序列对应关系的流程图；

图4显示了根据本发明的一个实施例的语音合成方法中得到第一抽象特征的流程图；

图5显示了根据本发明的一个实施例的语音合成方法中得到注意力信息的流程图；

图6显示了根据本发明的另一个实施例的语音合成方法中得到声学模型的流程图；

图7显示了根据本发明的一个实施例的语音合成装置中得到序列对应关系的结构框图；

图8显示了根据本发明的一个实施例的语音合成装置中得到声学模型的结构框图；

图9显示了根据本发明的一个实施例的语音合成装置中得到注意力信息的结构框图；

图10显示了根据本发明的一个实施例的语音合成装置结构框图；以及

图11显示了根据本发明的一个实施例的语音合成装置中UFANS结构的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的智能设备支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。在具体的实施例中，智能设备可以是故事机、平板、手表、绘本机器人以及人形智能机器人等。

智能设备获取用户多模态数据，服务器对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策输出的过程。可以对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策输出多模态数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的语音合成方法流程图。

如图1所示，在步骤S101中，获取交互指令，并对交互指令进行分析，当交互指令中包含语音播放指令时，响应语音播放指令。

在本发明的一个实施例中，智能设备在启动后获取用户或周边环境输出的交互指令，在获取交互指令后，对交互指令进行分析，当交互指令中包含语音播放指令时，响应语音播放指令输出语音数据。

需要说明的是，交互指令的形式为多模态的，可以是语音指令、动作指令、感知指令以及表情指令等多模态的指令。为了获取多模态的交互指令，智能设备上也配备相应的输入输出装置。

接着，在步骤S102中，调用通过完全可并行的注意力机制生成的声学模型，将待合成文本数据或待合成音标数据实时输入声学模型，得到待合成声学特征。

最后，在步骤S103中，将待合成声学特征输入声学合成器，通过声学合成器得到合成后的语音数据，并输出语音数据。一般来说，声学特征包含梅尔频谱以及梅尔倒谱。

如图1，本发明提供的语音合成方法需要三个执行部分：前端(执行步骤S101)、声学模型(执行步骤S102)以及合成器(执行步骤S103)。语音合成将文本或者音标作为输入，首先通过声学模型生成出中间声学特征，然后将声学特征输入进合成器合成声音。

具体来说，用于生成声学模型的训练数据，一般是由纯文本(或音标)以及相应的音频组成。需要确定文本或音标与声学特征的序列对应关系。目前训练的模型包括Tacotron、DCTTS、以及Deep Voice 3等。

但以上模型的共有特点是：运用一个autoregressive(自回归)的注意力结构来决定声学特征和文本(或音标)之间的序列对应关系。这种结构类似于深度学习中的循环神经网络，只能一个时间段接着一个时间段生成声学特征，不能充分利用并行计算(比如GPU或TPU)的优势，时间延迟很长。

针对以上情况，本发明提出了一种如图2所示的声学模型生成方法。在步骤S201中，确定训练数据中的训练文本或训练音标，与声学特征之间的序列对应关系。

得到序列对应关系后，在步骤S202中，通过构建的高容量神经网络，对得到的序列对应关系进行训练，得到声学模型。

具体来说，完成如图2所示方法需要清洁的训练文本数据、清洁的训练音标数据以及以并行计算为基础的硬件(GPU、TPU服务器等)。清洁的数据是训练模型的基础，对于不同需要，应当选择合适的训练数据进行训练。根据语言种类(中文或英文等)、音色(男女声，感情等)以及应用场景(问答***，制作单词等等)来选择相应的训练数据。但不管使用何种数据，需要保证训练数据标注准确(文本或音标与音频相符)，训练数据(时长)足够丰富，才能保证模型效果。

如图2所示的方法能够充分利用并行计算的优势，在任何可以进行并行计算的硬件上均适用。并行计算是将大规模的运算(例如大型矩阵运算)拆解为一些小规模的运算，而这些小规模的运算可以在硬件上同时进行，从而极大降低时间延迟。现有的流行的声学模型应用的是类似循环神经网络的autoregressive结构，运算不能拆解为可以并行的运算。

针对不同的数据或不用的场景，在得到声学模型时需要做针对性的调整。例如，需要做多发音人的声学模型时，需要将发音人信息输送给声学模型；需要提高训练速度时，需要调整训练方法(optimization method)或参数。

在实际应用中，根据硬件的运算能力和存储容量以及需求(如保证并发，保证单句延迟等)设计针对性的部署方法，协调异构硬件的交流(如CPU集群和GPU集群)，能够充分发挥本发明中声学模型的优势。

优选地，可以通过如图3所示的方法来得到序列对应关系。如图3所示，在步骤S301中，将训练文本或训练音标送入第一编码器，通过第一编码器得到训练文本或训练音标的第一抽象特征。

得到第一抽象特征后，然后在步骤S302中，通过完全可并行的注意力机制，得到训练文本或训练音标的注意力信息。

然后，在步骤S303中，将第一抽象特征以及注意力信息送入第一解码器，通过第一解码器得到训练文本或训练音标对应的第一预测声学特征。

最后，在步骤S304中，将第一预测声学特征与真实声学特征送入第一训练器，通过第一训练器得到序列对应关系。优选地，在第一训练器中，对比第一预测声学特征与真实声学特征，建立损失函数并进行反向传播训练，得到序列对应关系。

优选地，可以通过如图4所示的方法得到第一抽象特征。首先，在步骤S401中，将训练文本或训练音标映射到高维实空间上。然后，在步骤S402中，将得到的高维矢量通过具备并行能力的神经层进行抽象，得到第一抽象特征。

优选地，可以通过如图5所示的方法得到注意力信息。首先，在步骤S501中，运用预设函数，对声学特征的位置序列进行编码，得到声学特征编码。

在步骤S502中，将训练文本或训练音标输入预设卷积结构，通过预设卷积结构输出单一个字母或单一音标对应的单一标量。

在步骤S503中，运用预设函数，对训练文本或训练音标的位置序列进行编码，得到文本或音标位置编码。

在步骤S504中，依据声学特征编码、单一标量以及文本或音标位置编码，得到训练文本或训练音标的注意力信息，声学特征的某一帧训练文本或训练音标的注意力，正比于这一帧的位置编码矢量和训练文本或训练音标的位置编码矢量的内积。

优选地，可以通过如图6所示的方法得到声学模型。首先，在步骤S601中，将训练文本或训练音标送入第二编码器，通过第二编码器得到训练文本或训练音标的第二抽象特征，第二编码器使用高容量和完全可并行的UFANS结构。

在步骤S602中，将第二抽象特征以及注意力信息送入第二解码器，通过第二解码器得到第二预测声学特征。

在步骤S603中，将第二预测声学特征与真实声学特征送入第二训练器，通过第二训练器得到声学模型。

综上，本发明提供了声学模型以及新的训练流程。声学模型是完全可并行的，可以完全利用并行计算的优势。利用了一种新的完全可并行注意力机制以及一种卷积结构UFANS，使得生成声学特征的用时相比于Tacotron、DCTTS、以及Deep Voice 3至少加速了10倍，同时可以保证生成声学特征的质量。其中，生成声学模型训练需要两个单独的训练步骤。原因在于，通过理论和试验发现，在训练完全可并行的注意力机制时，所用的解码器不能有很高的感受视野，否则会极大影响完全可并行的注意力机制的训练。通过如图3以及图6所示的两个独立的训练的步骤，可以完全解决这个问题。

训练流程可以分为两个步骤。第一个步骤是运用完全可并行的注意力机制来确定训练数据里训练文本(或训练音标)和声学特征的序列对应关系；第二个步骤是根据确定好的序列关系，使用完全可并行的UFANS,来训练一个高容量完全可并行的声学模型。整个训练流程共两步，在合成的时候只需要第二步。

图7显示了根据本发明的一个实施例的语音合成装置中得到序列对应关系的结构框图。如图7所示，语音合成装置包含第一编码器701、完全可并行的注意力机制702、第一解码器703以及第一训练器704。

其中，第一编码器701优选地执行如图4所示的方法步骤。第一编码器701的作用在于将输入的训练文本(或训练音标)的每个字母(或音标)映射到高维实空间上，并将得到的高维矢量通过若干神经层进行特征抽象。第一编码器701没有特定的构成，能达到上述目的即可。例如，可以选取若干线性变换神经层(DNN)，或者若干卷积神经层(CNN)等等。但需要保证第一编码器701所有部分都可以并行计算。第一编码器701的输出，即从训练文本或训练语音提取出的第一抽象特征，将会作为输入送到第一解码器703中。

完全可并行的注意力机制702优选地执行如图5所示的方法步骤。完全可并行的注意力机制702用来确定训练文本(或训练音标)与声学特征的序列对应关系，通过深度学习的反向传播算法来对完全可并行的注意力机制702中的参数进行训练。完全可并行的注意力机制702可以完全发挥高性能计算硬件的优势。完全可并行的注意力机制702中使用的超多频率正余弦函数在位置编码时具备独特特性，能够使得位置编码取得成功。超多频率标正余弦函数位置编码适用于所有需要前向注意力机制的情况。

第一解码器703解码器也并无固定结构，需要满足两点：一是完全可并行，二是感受视野小。其中，感受视野小是为了避免对完全可并行的注意力机制702造成干扰。第一解码器703的目的是接受第一编码器701和完全可并行的注意力机制702的输出作为输入，通过注意力信息将第一编码器701的第一抽象特征转换为声学特征。

第一训练器704可以选用深度学习训练方法，如SGD，Adam等等。第一训练器704接受第一解码器703输出的声学特征，通过将其和真实的声学特征进行对比建立损失函数。再通过深度学习的基本反向传播方法，对模型进行训练，得到序列对应关系。

图8显示了根据本发明的一个实施例的语音合成装置中得到声学模型的结构框图。如图8所示，语音合成装置包含第二编码器801、第二解码器802以及第二训练器803。优选地，第二编码器801的结构与第一编码器701的结构一致。输入的注意力信息为完全可并行的注意力机制702生成的注意力信息。第二训练器803的结构与第一训练器704的结构一致。

进一步地，为了避免对完全可并行的注意力机制702的训练进行干扰，第一解码器703要求有小的感受视野，因此极大限制了第一解码器703的容量(capacity)。此处使用完全可并行的注意力机制702已经生成的注意力信息，不存在对完全可并行的注意力机制702的训练进行干扰的可能，所以第二解码器802使用高容量和完全可并行的UFANS结构。

图9显示了根据本发明的一个实施例的语音合成装置中得到注意力信息的结构框图。如图9语音合成装置包含UFANS结构901、超多频率正余弦函数902以及计算单元903。

UFANS结构901优选地采用高容量且完全可并行的UFANS结构。为了取得好的生成音频效果，需要保证高容量。循环神经网络(Tacotron使用此网络)虽然有很高的容量，但是不能进行并行计算，极大增加了时间延迟。一般的卷积神经网络(DCTTS和Deep Voice 3)虽然可以完全并行，但是容量又不及循环神经网络。UFANS结构901则兼顾循环神经网络和卷积神经网络的优势，既是高容量的，又可以进行并行计算。

一般来说，语音合成的难点是如何确定将某一帧的声学特征对应到哪一个字母或音标的抽象特征上。目前流行的办法是，首先生成第一帧的声学特征，再根据第一帧的信息再去预测第二帧的特征，以上办法缺点的是不能进行并行计算。

为了能充分利用高性能计算，图9中的语音合成装置利用超多频率正余弦函数902将训练字母(或训练音标)的序列位置进行编码，得到每个字母(或音标)的位置编码矢量。同时对声学特征也进行同样操作，得到每一帧的声学特征的位置编码矢量。

具体做法如下：首先将训练字母(或训练音标)输入到一个小型UFANS结构901中，输出是每个字母(或音标)对应的一个标量。每个标量代表了需要有多少帧的声学特征对应到每个字母(或音标)上，然后就可以得到每个字母对应到哪段声学特征上。假设某个字母(或音标)对应的中心位置在声学特征的第s帧上，那么将此字母如下编码：

[sin(s/f₁)，cos(s/f₁)，sin(s/f₂)，cos(s/f₂)，......，sin(s/f_N)，cos(s/f_N)]

其中，f₁到f_N是跨度相当大的频率，这种超多频率的做法可以保证编码的稳定性。

同样，对每一帧的声学特征也进行相应的编码，对第t帧的声学特征，进行编码如下：

[sin(t/f₁)，cos(t/f₁)，sin(t/f₂)，cos(t/f2)，......，sin(t/f_N)，cos(t/f_N)]

那么，某一帧对某一字母(或音标)的注意力，将正比于这一帧的位置编码矢量和这个字母(或音标)的位置编码矢量的内积，可以通过计算单元903进行计算。

通过如图9所示的结构得到注意力信息，使得所有字母(或音标)的位置编码和声学特征的位置编码是可以并行计算的，并且超多频率正余弦函数902的运用可以有效覆盖确定序列对应关系时的所有情况。

图10显示了根据本发明的一个实施例的语音合成装置结构框图。如图10所示，语音合成装置包含响应模块1001、处理模块1002以及合成模块1003。其中，响应模块1001包含获取分析单元10011以及指令响应单元10012。处理模块1002包含序列确定单元10021以及序列训练单元10022。合成模块1003包含合成语音单元10031以及输出单元10032。

响应模块1001用于获取交互指令，并对交互指令进行分析，当交互指令中包含语音播放指令时，响应语音播放指令。其中，获取分析单元10011获取用户或周边环境输出的交互指令，在获取交互指令后，对交互指令进行分析。指令响应单元10012用于在交互指令中包含语音播放指令时，响应语音播放指令输出语音数据。

处理模块1002用于调用通过完全可并行的注意力机制生成的声学模型，将待合成文本数据或待合成音标数据实时输入声学模型，得到待合成声学特征。其中，序列确定单元10021用于确定训练数据中的训练文本或训练音标，与声学特征之间的序列对应关系。序列训练单元10022用于通过构建的高容量神经网络，对得到的序列对应关系进行训练，得到声学模型。

合成模块1003用于将待合成声学特征输入声学合成器，通过声学合成器得到合成后的语音数据，并输出语音数据。其中，合成语音单元10031用于通过声学合成器合成语音数据。输出单元10032用于输出语音数据。

如图11所示，UFANS结构的特征在于包含了多个不同尺度的一维反卷积层，同时兼具循环神经网络(RNN，Recurrent Neural Network)的高声音自然度和极高的推理速度。其输入为文本特征，输出为声学特征。网络结构如图11所示，目的在于保证声学特征预测精度的同时，充分利用图形处理器(GPU，Graphics Processing Unit)硬件特征，减少计算延迟，减少计算资源需求，提高并发量。

UFANS结构如图11所示。首先，从多尺度，即不同时间跨度上对文本特征进行采样，通过插值下采样方法、全卷积层采样方法以及扩张卷积层采样方法中的任一项或任几项的组合对调整后的文本特征数据进行不同时间跨度上的采样。在实施例中，全卷积层的跨度(stride)可以大于一。

接着，经过多尺度下的采样，得到抽象程度不同的N组特征，特征1的抽象程度比2要高，特征2的抽象程度比3要高，以此类推。从抽象度最高的待融合数据开始，依次经过反卷积层与抽象度仅次于当前数据的待融合数据进行融合，得到融合数据。抽象程度高的特征因为时间跨度大，在时间维度上的压缩更大，因此需要先经过反卷积层，将时间维度扩展，才能和下一个特征进行融合。特别地，在反卷积层上附加额外的时间坐标信息能达到更好的语音合成效果。

融合有多种方法，可以是向量加法，也可以设计复杂的神经网络层。在一个实施例中，融合的方法是设计了带有门结构的卷积神经网络层，门结构可以对输入的特征进行取舍，只保留对此任务最相关的部分。

与其他结构相比较来说，UFANS结构由于采用了特殊的反卷积结构，在不包含任何auto-regressive结构，且使用极少的参数的前提下也能达到很好的语音合成效果，能够提升将文本特征转化为声学特征的速度，并且在损失函数层面，跟经典RNN不相上下。计算延迟极大降低，并发量得到明显提升。

在实际应用中，通过本发明提供的语音合成方法及装置在开源数据LJSpeech上与现有流行模型Tacotron、DCTTS以及Deep Voice 3做了详细对比。

对比结果表明，从时间延迟上来说，生成一个单位长度的音频，本发明比DeepVoice 3快10倍，比DCTTS快50倍，比Tacotron快600倍。本发明提出的完全可并行的注意力机制使得本发明能够在时间延迟上得到大的提升。

从生成的音频质量上来说，优于Deep Voice 3以及Tacotron，与DCTTS音频质量基本持平。能够取得好的音频质量，取决于训练出的序列对应关系以及应用的高容量的UFANS结构。

综上，本发明提供的语音合成方法及***提供了一种端到端声学模型以及训练方式，能够完全利用并行计算的优势。利用一种完全可并行的注意力机制和一种卷积结构，使得生成声学特征的用时与现有技术相比大大缩短，同时，还能够保证生成的声学特征的质量。因此，本发明能够在保证合成语音质量的情况下缩短合成时间，提高了语音合成的效率。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包含以下步骤：

2.如权利要求1所述的方法，其特征在于，生成所述声学模型具体包含以下步骤：

3.如权利要求2所述的方法，其特征在于，确定训练数据中的文本或音标，与声学特征之间的序列对应关系的步骤中，还包含以下步骤：

4.如权利要求3所述的方法，其特征在于，所述第一抽象特征通过如下方式实现：

5.如权利要求3-4中任一项所述的方法，其特征在于，在所述第一训练器中，对比所述第一预测声学特征与所述真实声学特征，建立损失函数并进行反向传播训练，得到所述序列对应关系。

6.如权利要求3或4所述的方法，其特征在于，还包括：训练得到所述注意力信息，具体包含以下步骤：

7.如权利要求5所述的方法，其特征在于，还包含如下训练过程：通过构建的高容量神经网络，对得到的所述序列对应关系进行训练，得到所述声学模型的步骤中，包含以下步骤：

8.一种程序产品，其包含用于执行如权利要求1-7中任一项所述的方法步骤的一系列指令。

9.一种语音合成装置，其特征在于，所述装置包含：

10.一种语音合成***，其特征在于，所述***包含：

服务器，

采用如权利要求1-7中任一项所述方法的智能设备。