CN114420089B

CN114420089B - 语音合成方法、装置和计算机可读存储介质

Info

Publication number: CN114420089B
Application number: CN202210322501.6A
Authority: CN
Inventors: 郭少彤; 陈昌滨; 陈帅婷
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-21
Anticipated expiration: 2042-03-30
Also published as: CN114420089A

Abstract

本公开提供一种语音合成方法、装置和计算机可读存储介质。语音合成方法包括：获取目标文本的音素特征、语义特征和声学特征；对音素特征和声学特征执行第一对齐操作，以得到第一对齐特征；将第一对齐特征和声学特征进行特征融合，以得到第一融合特征；对语义特征和第一融合特征进行第二对齐操作，以得到第二对齐特征；将第一对齐特征和第二对齐特征进行特征融合，以得到第二融合特征；基于第二融合特征生成目标文本的合成语音。本公开能够有效提升合成语音的整体韵律表现。

Description

语音合成方法、装置和计算机可读存储介质

技术领域

本公开涉及人工智能领域，特别涉及一种语音合成方法、装置和计算机可读存储介质。

背景技术

随着人工智能的发展，诸如线上客服、线上教育、语音助手、智能音响、有声小说等多种实际场景都广泛应用有语音合成技术，该技术能够将文本自动转换为语音。

为了提高语义合成效果，在语音合成的相关技术中，在获取输入文本的语义特征、音素特征和声学特征的基础上，通过将具有不同颗粒度的语义特征和音素特征分别与声学特征进行对齐操作，将所得到的两个对齐操作结果进行融合处理，并根据融合处理结果生成与输入文本相对应的合成语音。

发明内容

发明人通过研究发现，在上述相关技术中，为了能够同时在音素级别和语义级别上将输入文本的文本特征与声学特征对齐，细颗粒度的音素特征和粗颗粒度的语义特征都需要在较细的颗粒度上进行计算，从而无法有效发挥语义特征中隐含信息的作用，无法提升合成语音的整体韵律表现。

据此，本公开提供一种语音合成方案，能够有效提升合成语音的整体韵律表现。

根据本公开实施例的第一方面，提供一种语音合成方法，包括：获取目标文本的音素特征、语义特征和声学特征；对所述音素特征和所述声学特征执行第一对齐操作，以得到第一对齐特征；将所述第一对齐特征和所述声学特征进行特征融合，以得到第一融合特征；对所述语义特征和所述第一融合特征进行第二对齐操作，以得到第二对齐特征；将所述第一对齐特征和所述第二对齐特征进行特征融合，以得到第二融合特征；基于所述第二融合特征生成所述目标文本的合成语音。

在一些实施例中，获取目标文本的音素特征包括：利用预设的字素转音素单元对所述目标文本进行转换处理，以得到音素序列；利用经过训练的编码器对所述音素序列进行音素特征提取处理，以得到所述目标文本的音素特征。

在一些实施例中，所述对所述音素序列进行音素特征提取处理包括：获取与所述音素序列相对应的音素编码；根据所述音素编码获取中间特征向量，其中，所述中间特征向量与所述音素编码中的局部特征信息和上下文信息相关联；对所述中间特征向量进行音素特征提取处理，以得到所述音素特征。

在一些实施例中，所述根据所述音素编码获取中间特征向量包括：基于所述音素编码连续执行N次指定的组合操作，并将第N次组合操作输出的特征向量作为中间特征向量，N为正整数，其中，第1次组合操作的输入为所述音素编码，第i次组合操作的输入为第i-1次所述组合操作的输出，1<i≤N，所述组合操作包括卷积操作和非线性变换操作。

在一些实施例中，对所述中间特征向量进行音素特征提取处理包括：利用预设的长短期记忆网络对所述中间特征向量进行音素特征提取处理，以得到所述音素特征。

在一些实施例中，所述将所述第一对齐特征和所述声学特征进行特征融合包括：将所述第一对齐特征和所述声学特征进行拼接，以得到所述第一融合特征。

在一些实施例中，获取目标文本的语义特征包括：利用经过训练的语义特征提取模型对所述目标文本进行语义特征提取操作，以得到所述语义特征。

在一些实施例中，所述对所述目标文本进行语义特征提取操作包括：对所述目标文本进行字符切分，以得到字符序列；获取所述字符序列对应的字符编码；基于所述字符编码进行语义特征提取，以得到所述语义特征。

在一些实施例中，所述语义特征提取模型包括基于转换器的双向编码表征BERT模型。

在一些实施例中，所述将所述第一对齐特征和所述第二对齐特征进行特征融合包括：将所述第一对齐特征和所述对齐特征进行拼接，以得到所述第二融合特征。

在一些实施例中，所述第一对齐操作和所述第二对齐操作均为基于注意力机制的对齐操作。

在一些实施例中，所述基于所述第二融合特征生成所述目标文本的合成语音包括：利用经过训练的解码器对所述第二融合特征进行自回归解码，以得到梅尔谱；利用声码器将所述梅尔谱转换为音频，并将所述音频作为所述目标文本的合成语音。

根据本公开实施例的第二方面，提供一种语音合成装置，包括：第一处理模块，被配置为获取目标文本的音素特征、语义特征和声学特征；第二处理模块，被配置为对所述音素特征和所述声学特征执行第一对齐操作，以得到第一对齐特征；第三处理模块，被配置为将所述第一对齐特征和所述声学特征进行特征融合，以得到第一融合特征；第四处理模块，被配置为对所述语义特征和所述第一融合特征进行第二对齐操作，以得到第二对齐特征；第五处理模块，被配置为将所述第一对齐特征和所述第二对齐特征进行特征融合，以得到第二融合特征；第六处理模块，被配置为基于所述第二融合特征生成所述目标文本的合成语音。

根据本公开实施例的第三方面，提供一种语音合成装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的语音合成方法的流程示意图；

图2为本公开一个实施例的获取目标文本的音素特征的流程示意图；

图3为本公开一个实施例的音素特征提取处理的流程示意图；

图4为本公开一个实施例的语义特征提取处理的流程示意图；

图5为本公开一个实施例的语音合成装置的结构示意图；

图6为本公开另一个实施例的语音合成装置的结构示意图；

图7为本公开一个实施例的语义合成示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本公开一个实施例的语音合成方法的流程示意图。在一些实施例中，下列的语音合成方法由语音合成装置执行。

在步骤101，获取目标文本的音素特征、语义特征和声学特征。

需要说明的是，声学特征也可称之为语音特征，语义特征也可称为语义级别的文本特征，音素特征也可称为音素级别的文本特征。

音素是指是根据语音的自然属性划分出来的最小语音单位。也就是说，音素是构成音节的最小单位或最小的语音片段。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。可以理解的是，语义特征为颗粒度较大的特征，音素特征是颗粒度较小的特征。例如，一个语句含有10个汉字，若将该语句转换为字符序列，可能仅对应10个字符（假设一个汉字为一个字符），而若将该语句转换为音素序列，可能对应30个音素。显然，基于包含有10个字符的字符序列所得到的语义特征与基于包含有30个音素的音素序列所得到的音素特征相比，语义特征的颗粒度大于音素特征的颗粒度。

例如，可以通过预训练所得的神经网络获取目标文本的语义特征、音素特征以及声学特征。

在一些实施例中，获取目标文本的音素特征的步骤如图2所示。

在步骤201，利用预设的字素转音素单元对目标文本进行转换处理，以得到音素序列。

字素转音素（Grapheme-to-Phoneme，简称：G2P）单元可采用诸如循环神经网络（Recurrent Neural Network，简称：RNN）、长短期记忆（Long Short-Term Memory，简称：LSTM）网络等网络模型实现，在此不进行限制。字素转音素单元将输入的目标文本直接转换为音素序列，以目标文本是中文文本为例，字素转音素单元可以根据一定的拼音转换规则，将中文文本转换为对应的拼音标注，该拼音标注序列即为音素序列。该步骤首先将目标文本转换为音素序列，以便于后续针对音素进行处理。

在步骤202，利用经过训练的编码器对音素序列进行音素特征提取处理，以得到目标文本的音素特征。

本公开不对编码器的结构进行限定，编码器的训练方式可参照相关技术实现。

在一些实施例中，对音素序列进行音素特征提取处理如图3所示。

在步骤301，获取与音素序列相对应的音素编码。

例如，通过对音素序列进行编码，以得到音素编码。

在步骤302，根据音素编码获取中间特征向量，其中，中间特征向量与音素编码中的局部特征信息和上下文信息相关联。

在一些实施例中，根据音素编码获取中间特征向量包括：基于音素编码连续执行N次指定的组合操作，并将第N次组合操作输出的特征向量作为中间特征向量，N为正整数。第1次组合操作的输入为音素编码，第i次组合操作的输入为第i-1次组合操作的输出，1<i≤N，组合操作包括卷积操作和非线性变换操作。

例如，非线性变换操作可采用激活函数relu实现。N值可根据实际情况而灵活设置。例如，N可以取3。可以理解的是，通过上述多次执行指定的组合操作的方式，最终所得到的中间特征向量可以包含有较为丰富的局部特征信息以及上下文信息。

在步骤303，对中间特征向量进行音素特征提取处理，以得到音素特征。

在一些实施例中，对中间特征向量进行音素特征提取处理包括：利用预设的LSTM网络对中间特征向量进行音素特征提取处理，以得到音素特征。

LSTM网络是递归神经网络的一种，可以根据输入序列进行自我调用的特殊神经网络。递归神经网络与其它网络的不同之处在于：递归神经网络的隐含层是能够跨越时间点的自连接隐含层，能够持续保留信息，并根据之前状态推出后面的状态。因此通过LSTM网络基于中间特征向量进行音素特征提取，可以进一步有效提取出能够充分表征目标文本的音素信息的音素特征。

例如，设音素序列为

，则对音素序列进行音素特征提取处理的步骤如公式（1）所示。

（1）

其中，

表示编码处理，

表示一维卷积层，用于学习音素序列中的局部特征和上下文依赖关系，

为激活函数，用于实现非线性变换。

为上述的中间特征向量，

表示通过LSTM网络进行处理，以获得每一个时间步的隐状态

，即音素特征

。

在一些实施例中，获取目标文本的语义特征的步骤包括：利用经过训练的语义特征提取模型对目标文本进行语义特征提取操作，以得到语义特征。

语义特征提取模型是一种神经网络模型。语义特征提取模型的输入为文本，输出该文本对应的语义特征。通过神经网络模型可以更为方便快捷地实现语义特征提取，可以理解的是，网络模型通常具有较强的学习能力和处理能力，能够较好地学习文本中语义级别的上下文信息，从而提取出的语义特征较为丰富。本公开对语义特征提取模型的网络结构不进行限定，且语义特征提取模型的训练方式可参照相关技术中的网络训练方式实现，诸如采用无监督方式实现。

例如，语义特征提取模型可采用诸如BERT（Bidirectional EncoderRepresentations from Transformer，基于转换器的双向编码表征）模型实现。

在一些实施例中，对目标文本进行语义特征提取操作的步骤如图4所示。

在步骤401，对目标文本进行字符切分，以得到字符序列。

在一些实施例中，按照预设的字符表（或字词表）对目标文本进行切分，然后按照切分所得的各个字符在原目标文本中的先后位置进行排序，得到字符序列。

例如，目标文本为中文，将每个字做一次切分，并将切分结果作为一个字符，将切分所得的字符按照在文本中的先后顺序组成字符序列。通过该步骤，可以将目标文本拆分为以字符为单位的序列，以便于后续处理。

在步骤402，获取字符序列对应的字符编码。

通过对字符序列进行编码（也可理解为字符特征提取），提取出字符序列对应的字符编码。该字符编码也可称之为字符嵌入（embedding）或字符特征。

在步骤403，基于字符编码进行语义特征提取，以得到语义特征。

例如，在实际应用中，通过语义特征提取模型中的网络层对字符编码进行语义特征提取，将指定网络层的输出作为最终提取出的语义特征。

在一些实施方式中，语义特征提取模型包括BERT模型。将目标文本输入至BERT模型，即通过BERT模型输出该目标文本对应的语义特征，以目标文本是中文为例，该语义特征也为字符级别向量，该字符级别向量含有较为丰富的语义信息，可以作为语义级别的语言学特征。

例如，输出的语义特征为二维矩阵[seq_len, dims]，其中seq_len表示文本长度，dims表示字级别向量的维度，例如为768维。

为便于理解，本公开给出了BERT模型基于目标文本获取语义特征的获取过程，如公式（2）-公式（4）所示。

（2）

（3）

（4）

其中，

表示输入的目标文本，例如为中文文本序列。

表示对输入的目标文本进行字符切分，得到多个字符（token）组成的字符序列

。

表示编码过程（也可理解为特征提取过程），

即为获取目标文本对应的字符编码，其中，

为获取到的字符编码，亦可称之为字符嵌入（embedding）或字符特征。

表示获取BERT模型的第11层的输出向量

，将该输出向量

作为BERT模型获取的语义特征。该语义特征已能够较为充分表征目标文本的语义信息。

返回图1。在步骤102，对音素特征和声学特征执行第一对齐操作，以得到第一对齐特征。

需要说明的是，执行对齐操作的主要目的在于找到音素特征与声学特征之间的映射关系或关联关系。这里不对对齐操作本身进行限制。

为了达到更好的对齐效果，在一些实施方式中，第一对齐操作为基于注意力机制的对齐操作，第一对齐特征可以通过对齐矩阵的方式表示。也就是说，基于注意力机制对音素特征和声学特征进行对齐，得到第一对齐矩阵。

需要说明的是，通过基于注意力机制的对齐操作，能够更好地确定音素特征和声学特征之间的关联性。

例如，第一对齐操作如公式（5）所示。

（5）

其中，

为音素特征，

为声学特征为，

()表示基于注意力机制对音素特征与声学特征进行对齐的操作，

表示第一对齐特征，用于反映音素特征的上下文向量。

在步骤103，将第一对齐特征和声学特征进行特征融合，以得到第一融合特征。

在一些实施例中，通过将第一对齐特征和声学特征进行拼接，以得到第一融合特征。

例如，特征融合操作如公式（6）所示。

（6）

其中，

为第一对齐特征，

为声学特征，

表示第一融合特征，

表示特征拼接操作。

在步骤104，对语义特征和第一融合特征进行第二对齐操作，以得到第二对齐特征。

在一些实施例中，第二对齐操作为基于注意力机制的对齐操作，第二对齐特征可以通过对齐矩阵的方式表示。也就是说，基于注意力机制对语义特征和声学特征进行对齐，得到第二对齐矩阵。

需要说明的是，通过基于注意力机制的对齐操作，能够更好地确定语义特征和音素特征及声学特征之间的关联性。

例如，第二对齐操作如公式（7）所示。

（7）

其中，

为语义特征，

为第一融合特征，

()表示基于注意力机制对语义特征和第一融合特征进行对齐的操作，

表示第二对齐特征。

在步骤105将第一对齐特征和第二对齐特征进行特征融合，以得到第二融合特征。

通过将第一对齐特征和第二对齐特征进行特征融合，使得所得到的第二融合特征既充分包含了语义信息，又充分包含了音素信息。

在一些实施例中，将第一对齐特征和第二对齐特征进行拼接，以得到第二融合特征。

例如，特征融合如公式（8）所示。

（8）

其中，

为第一对齐特征，

为第二对齐特征，

表示特征拼接操作，

表示第二融合特征。

在步骤106，基于第二融合特征生成目标文本的合成语音。

通过将第二融合特征作为解码条件，参与自回归解码过程，从而基于解码结果得到合成语音。

在一些实施例中，利用经过训练的解码器对第二融合特征进行自回归解码，以得到梅尔谱（也可称之为梅尔频谱）。接下来，利用声码器将梅尔谱转换为音频，并将音频作为目标文本的合成语音。

例如，声码器可以为Griffin-Lim声码器。在实现本公开时，可以将梅尔谱转换为幅度谱，然后采用Griffin-Lim声码器基于幅度谱得到音频信号。需要说明的是，Griffin-Lim是在仅已知幅度谱、不知道相位谱的条件下也可以重建语音的算法。

在本公开上述实施例提供的语音合成方法中，先对音素特征和声学特征执行第一对齐操作以得到第一对齐特征，并将第一对齐特征和声学特征进行特征融合以得到第一融合特征。然后对语义特征和第一融合特征进行第二对齐操作以得到第二对齐特征。接下来将第一对齐特征和第二对齐特征进行特征融合以得到第二融合特征，进而基于第二融合特征生成目标文本的合成语音。由此，不仅音素特征和语义特征分别与声学特征实现了对齐，而且音素特征和语音特征也实现了对齐，从而不同级别的文本特征在更深层次上实现了特征融合。也就是说，在学习音素发音的基础上，能够更好地获取语音信息，从而有效提升了合成语音的整体韵律表现。

图5为本公开一个实施例的语音合成装置的结构示意图。如图5所示，语音合成装置包括第一处理模块51、第二处理模块52、第三处理模块53、第四处理模块54、第五处理模块55和第六处理模块56。

第一处理模块51被配置为获取目标文本的音素特征、语义特征和声学特征。

在一些实施例中，第一处理模块51利用预设的字素转音素单元对目标文本进行转换处理，以得到音素序列，接下来利用经过训练的编码器对音素序列进行音素特征提取处理，以得到目标文本的音素特征。

在一些实施例中，第一处理模块51获取与音素序列相对应的音素编码，根据音素编码获取中间特征向量，其中，中间特征向量与音素编码中的局部特征信息和上下文信息相关联。例如，第一处理模块51基于音素编码连续执行N次指定的组合操作，并将第N次组合操作输出的特征向量作为中间特征向量，N为正整数。第1次组合操作的输入为音素编码，第i次组合操作的输入为第i-1次组合操作的输出，1<i≤N，组合操作包括卷积操作和非线性变换操作。

接下来，第一处理模块51对中间特征向量进行音素特征提取处理，以得到音素特征。

例如，第一处理模块51利用预设的LSTM网络对中间特征向量进行音素特征提取处理，以得到音素特征。

在一些实施例中，第一处理模块51利用经过训练的语义特征提取模型对目标文本进行语义特征提取操作，以得到语义特征。

例如，语义特征提取模型可采用诸如BERT模型实现。

在一些实施例中，第一处理模块51对目标文本进行字符切分，以得到字符序列，接下来获取字符序列对应的字符编码，然后基于字符编码进行语义特征提取，以得到语义特征。

第二处理模块52被配置为对音素特征和声学特征执行第一对齐操作，以得到第一对齐特征。

在一些实施方式中，第一对齐操作为基于注意力机制的对齐操作，第一对齐特征可以通过对齐矩阵的方式表示。也就是说，基于注意力机制对音素特征和声学特征进行对齐，得到第一对齐矩阵。

第三处理模块53被配置为将第一对齐特征和声学特征进行特征融合，以得到第一融合特征。

第四处理模块54被配置为对语义特征和第一融合特征进行第二对齐操作，以得到第二对齐特征。

第五处理模块55被配置为将第一对齐特征和第二对齐特征进行特征融合，以得到第二融合特征。

第六处理模块56被配置为基于第二融合特征生成目标文本的合成语音。

在一些实施例中，第六处理模块56利用经过训练的解码器对第二融合特征进行自回归解码，以得到梅尔谱（也可称之为梅尔频谱）。接下来，利用声码器将梅尔谱转换为音频，并将音频作为目标文本的合成语音。

图6为本公开另一个实施例的语音合成装置的结构示意图。如图6所示，语音合成装置包括存储器61和处理器62。

存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器存储的指令执行实现如图1-图4中任一实施例涉及的方法。

如图6所示，该语音合成装置还包括通信接口63，用于与其它设备进行信息交互。同时，该语音合成装置还包括总线64，处理器62、通信接口63、以及存储器61通过总线64完成相互间的通信。

存储器61可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器62可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1-图4中任一实施例涉及的方法。

下面通过一个具体示例对本公开进行说明，如图7所示。

1）利用预设的字素转音素单元对目标文本进行转换处理，以得到音素序列。利用经过训练的BERT模型对目标文本进行语义特征提取操作，以得到语义特征。

2）利用经过训练的编码器对音素序列进行音素特征提取处理，以得到目标文本的音素特征。

3）在第一对齐模块，对音素特征和目标文本的声学特征执行基于注意力机制的第一对齐操作，以得到第一对齐特征。

4）在第一特征融合模块，将第一对齐特征和声学特征进行特征融合，以得到第一融合特征。

5）在第二对齐模块，对语义特征和第一融合特征进行第二对齐操作，以得到第二对齐特征。

6）在第二特征融合模块，将第一对齐特征和第二对齐特征进行特征融合，以得到第二融合特征。

7）利用经过训练的解码器对第二融合特征进行自回归解码，以得到梅尔谱。

8）利用声码器将梅尔谱转换为音频，并将该音频作为目标文本的合成语音。

通过实施本公开的上述实施例，不仅音素特征和语义特征分别与声学特征实现了对齐，而且音素特征和语音特征也实现了对齐，从而不同级别的文本特征在更深层次上实现了特征融合。也就是说，在学习音素发音的基础上，能够更好地获取语音信息，从而有效提升了合成语音的整体韵律表现。

在一些实施例中，在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器（Programmable Logic Controller，简称：PLC）、数字信号处理器（Digital Signal Processor，简称：DSP）、专用集成电路（ApplicationSpecific Integrated Circuit，简称：ASIC）、现场可编程门阵列（Field-ProgrammableGate Array，简称：FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种语音合成方法，包括：

获取目标文本的音素特征、语义特征和声学特征；

对所述音素特征和所述声学特征执行第一对齐操作，以得到第一对齐特征；

将所述第一对齐特征和所述声学特征进行特征融合，以得到第一融合特征；

对所述语义特征和所述第一融合特征进行第二对齐操作，以得到第二对齐特征；

将所述第一对齐特征和所述第二对齐特征进行特征融合，以得到第二融合特征；

基于所述第二融合特征生成所述目标文本的合成语音。

2.根据权利要求1所述的方法，其中，获取目标文本的音素特征包括：

利用预设的字素转音素单元对所述目标文本进行转换处理，以得到音素序列；

利用经过训练的编码器对所述音素序列进行音素特征提取处理，以得到所述目标文本的音素特征。

3.根据权利要求2所述的方法，其中，所述对所述音素序列进行音素特征提取处理包括：

获取与所述音素序列相对应的音素编码；

根据所述音素编码获取中间特征向量，其中，所述中间特征向量与所述音素编码中的局部特征信息和上下文信息相关联；

对所述中间特征向量进行音素特征提取处理，以得到所述音素特征。

4.根据权利要求3所述的方法，其中，所述根据所述音素编码获取中间特征向量包括：

基于所述音素编码连续执行N次指定的组合操作，并将第N次组合操作输出的特征向量作为中间特征向量，N为正整数，其中，第1次组合操作的输入为所述音素编码，第i次组合操作的输入为第i-1次所述组合操作的输出，1<i≤N，所述组合操作包括卷积操作和非线性变换操作。

5.根据权利要求3所述的方法，其中，对所述中间特征向量进行音素特征提取处理包括：

利用预设的长短期记忆网络对所述中间特征向量进行音素特征提取处理，以得到所述音素特征。

6.根据权利要求1所述的方法，其中，所述将所述第一对齐特征和所述声学特征进行特征融合包括：

将所述第一对齐特征和所述声学特征进行拼接，以得到所述第一融合特征。

7.根据权利要求1所述的方法，其中，获取目标文本的语义特征包括：

利用经过训练的语义特征提取模型对所述目标文本进行语义特征提取操作，以得到所述语义特征。

8.根据权利要求7所述的方法，其中，所述对所述目标文本进行语义特征提取操作包括：

对所述目标文本进行字符切分，以得到字符序列；

获取所述字符序列对应的字符编码；

基于所述字符编码进行语义特征提取，以得到所述语义特征。

9.根据权利要求7所述的方法，其中，

所述语义特征提取模型包括基于转换器的双向编码表征BERT模型。

10.根据权利要求1所述的方法，其中，所述将所述第一对齐特征和所述第二对齐特征进行特征融合包括：

将所述第一对齐特征和所述对齐特征进行拼接，以得到所述第二融合特征。

11.根据权利要求1所述的方法，其中，

所述第一对齐操作和所述第二对齐操作均为基于注意力机制的对齐操作。

12.根据权利要求1-11中任一项所述的方法，其中，所述基于所述第二融合特征生成所述目标文本的合成语音包括：

利用经过训练的解码器对所述第二融合特征进行自回归解码，以得到梅尔谱；

利用声码器将所述梅尔谱转换为音频，并将所述音频作为所述目标文本的合成语音。

13.一种语音合成装置，包括：

第一处理模块，被配置为获取目标文本的音素特征、语义特征和声学特征；

第二处理模块，被配置为对所述音素特征和所述声学特征执行第一对齐操作，以得到第一对齐特征；

第三处理模块，被配置为将所述第一对齐特征和所述声学特征进行特征融合，以得到第一融合特征；

第四处理模块，被配置为对所述语义特征和所述第一融合特征进行第二对齐操作，以得到第二对齐特征；

第五处理模块，被配置为将所述第一对齐特征和所述第二对齐特征进行特征融合，以得到第二融合特征；

第六处理模块，被配置为基于所述第二融合特征生成所述目标文本的合成语音。

14.一种语音合成装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-12中任一项所述的方法。