CN112542153A

CN112542153A - 时长预测模型训练方法和装置、语音合成方法和装置

Info

Publication number: CN112542153A
Application number: CN202011389863.4A
Authority: CN
Inventors: 宋伟; 张政臣
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-23

Abstract

本公开提供一种时长预测模型训练方法和装置、语音合成方法和装置。时长预测模型训练方法包括：对音素训练序列和对应的音频训练序列进行强制对齐处理以获得音素发音时长；将每个音素的嵌入向量输入机器学习模型以得到预测时长；根据每个音素的预测时长和发音时长确定损失函数；利用损失函数对机器学习模型进行训练。语音合成方法包括：利用时长预测模型得到每个音素的预测发音时长以便进行音素扩展；提取声学特征预测模型在上一时刻输出结果的特征信息；利用GMM Attention机制对音素特征扩展序列和特征信息进行处理以得到上下文向量；将上下文向量和特征信息输入声学特征预测模型，以得到当前时刻的声学特征输出结果；利用声学特征输出结果进行语音合成。

Description

时长预测模型训练方法和装置、语音合成方法和装置

技术领域

本公开涉及信息处理领域，特别涉及一种时长预测模型训练方法和装置、语音合成方法和装置。

背景技术

在基于端到端的语音合成模型中，通过利用预设录音和预设录音相对应的文本对机器学习模型进行训练，以便语音合成模型能够根据文本生成类似真人的语音。

发明内容

发明人通过研究发现，在相关技术中，在基于序列到序列(seq2seq)的模型中，通过注意力(attention)机制学习了一个隐式的解码器(decoder)和编码器(encoder)的对应关系。由于注意力机制不可控，因此导致在实际应用中会存在很多问题，例如常见的skip/repeat问题，即某个音素会被丢掉或者重复发音。

据此，本公开提供一种语音合成方案，能够让基于序列到序列模型的语音合成可控，从而确保合成语音更加自然，提升了用户体验。

根据本公开实施例的第一方面，提供一种时长预测模型训练方法，包括：对预设的音素训练序列和对应的音频训练序列进行强制对齐处理，以便获得所述音素训练序列中的每个音素的发音时长；提取所述每个音素的嵌入向量；将所述每个音素的嵌入向量输入机器学习模型，以得到所述每个音素的预测时长；根据所述每个音素的预测时长和所述发音时长确定损失函数；利用所述损失函数对所述机器学习模型进行训练，以得到时长预测模型。

在一些实施例中，提取所述每个音素的嵌入向量包括：通过预设的嵌入向量表提取所述每个音素的嵌入向量。

在一些实施例中，所述机器学习模型包括多层的双向长短期记忆网络模型、多层的自注意力网络模型或多层的卷积神经网络模型。

根据本公开实施例的第二方面，提供一种时长预测模型训练装置，包括：第一处理模块，被配置为对预设的音素训练序列和对应的音频训练序列进行强制对齐处理，以便获得所述音素训练序列中的每个音素的发音时长；第二处理模块，被配置为提取所述每个音素的嵌入向量；训练模块，被配置为将所述每个音素的嵌入向量输入机器学习模型，以得到所述每个音素的预测时长，根据所述每个音素的预测时长和所述发音时长确定损失函数，利用所述损失函数对所述机器学习模型进行训练，以得到时长预测模型。

根据本公开实施例的第三方面，提供一种时长预测模型训练装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种语音合成方法，包括：将目标文本进行分解以得到多个音素，并提取每个音素的嵌入向量；利用上述任一实施例所述的时长预测模型训练方法所得到的时长预测模型对所述每个音素的嵌入向量进行预测处理，以得到所述每个音素的预测发音时长；对所述每个音素进行扩展处理以得到音素特征扩展序列，以便所述每个音素的发音时长等于对应的预测发音时长；提取声学特征预测模型在上一时刻的声学特征输出结果的特征信息；利用高斯混合模型注意力机制模块对所述音素特征扩展序列和所述特征信息进行处理以得到上下文向量；将所述上下文向量和所述特征信息输入所述声学特征预测模型，以得到当前时刻的声学特征输出结果；根据所述声学特征预测模型的声学特征输出结果进行语音合成。

在一些实施例中，利用所述高斯混合模型注意力机制模块的偏置参数值调整合成语音的语速。

在一些实施例中，在所述偏置参数值大于1的情况下，所述合成语音的语速被增大，且所述合成语音的语速与所述偏置参数值成正相关关系；在所述偏置参数值小于1的情况下，所述合成语音的语速被减小，且所述合成语音的语速与所述偏置参数值成正相关关系。

在一些实施例中，所述声学特征预测模型为梅尔频谱预测模型。

根据本公开实施例的第五方面，提供一种语音合成装置，包括：音素处理模块，被配置为将目标文本进行分解以得到多个音素，并提取每个音素的嵌入向量；时长预测模块，被配置为利用上述任一实施例所述的时长预测模型训练方法所得到的时长预测模型对所述每个音素的嵌入向量进行预测处理，以得到所述每个音素的预测发音时长；扩展处理模块，被配置为对所述每个音素进行扩展处理以得到音素特征扩展序列，以便所述每个音素的发音时长等于对应的预测发音时长；特征提取模块，被配置为提取声学特征预测模型在上一时刻的声学特征输出结果的特征信息；上下文向量生成模块，被配置为利用高斯混合模型注意力机制模块对所述音素特征扩展序列和所述特征信息进行处理以得到上下文向量；声学特征预测模块，被配置为将所述上下文向量和所述特征信息输入所述声学特征预测模型，以得到当前时刻的声学特征输出结果；语音合成模块，被配置为根据所述声学特征预测模型的声学特征输出结果进行语音合成。

根据本公开实施例的第六方面，提供一种语音合成装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第七方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的时长预测模型训练方法的流程示意图；

图2为本公开一个实施例的时长预测模型训练装置的结构示意图；

图3为本公开另一个实施例的时长预测模型训练装置的结构示意图；

图4为本公开一个实施例的语音合成方法的流程示意图；

图5为本公开一个实施例的语音合成装置的结构示意图；

图6为本公开另一个实施例的语音合成装置的结构示意图；

图7为本公开一个实施例的语音合成结果的GMM对齐示意图；

图8为本公开另一个实施例的语音合成结果的GMM对齐示意图；

图9为本公开又一个实施例的语音合成结果的GMM对齐示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本公开一个实施例的时长预测模型训练方法的流程示意图。在一些实施例中，下列的时长预测模型训练方法步骤由时长预测模型训练装置执行。

在步骤101，对预设的音素训练序列和对应的音频训练序列进行强制对齐(ForceAlignment)处理，以便获得音素训练序列中的每个音素的发音时长。

强制对齐技术是一种将音素序列和对应的声音波形进行对齐的技术，通过HMM(Hidden Markov Model，隐马尔可夫模型)模型进行对齐处理，以便找到每个音素在声音波形中的开始/结束位置，从而得到每个音素的持续时间。

在步骤102，提取每个音素的嵌入向量。

在一些实施例中，通过预设的嵌入向量表(embedding table)提取每个音素的嵌入向量。

在步骤103，将每个音素的嵌入向量输入机器学习模型，以得到每个音素的预测时长。

在一些实施例中，机器学习模型包括多层的双向长短期记忆网络(Long ShortTerm Memory,简称：LSTM)模型、多层的自注意力网络(Self-Attention)模型或多层的卷积神经网络(Convolutional Neural Network，简称：CNN)模型。例如，层数为3层。

在步骤104，根据每个音素的预测时长和发音时长确定损失函数。

在步骤105，利用损失函数对机器学习模型进行训练，以得到时长预测模型。

例如，在损失函数值满足预设条件或迭代次数达到预设次数时停止训练。

在本公开上述实施例提供的时长预测模型训练方法中，通过对机器学习模型进行训练以得到时长预测模型，根据时长预测模型对音素的发音时长进行预测，并根据预测结果对音素进行扩展，以便每个音素的发音时长等于对应的预测发音时长。

图2为本公开一个实施例的时长预测模型训练装置的结构示意图。如图2所示，时长预测模型训练装置包括第一处理模块21、第二处理模块22和训练模块23。

第一处理模块21对预设的音素训练序列和对应的音频训练序列进行强制对齐处理，以便获得音素训练序列中的每个音素的发音时长。

第二处理模块22提取每个音素的嵌入向量。

在一些实施例中，第二处理模块22通过预设的嵌入向量表(embedding table)提取每个音素的嵌入向量。

训练模块23，被配置为将每个音素的嵌入向量输入机器学习模型，以得到每个音素的预测时长，根据每个音素的预测时长和发音时长确定损失函数，利用损失函数对机器学习模型进行训练，以得到时长预测模型。

在一些实施例中，机器学习模型包括多层的双向长短期记忆网络模型、多层的自注意力网络模型或多层的卷积神经网络模型。例如，层数为3层。

图3为本公开另一个实施例的时长预测模型训练装置的结构示意图。如图3所示，时长预测模型训练装置包括存储器31和处理器32。

存储器31用于存储指令，处理器32耦合到存储器31，处理器32被配置为基于存储器存储的指令执行实现如图1中任一实施例涉及的方法。

如图3所示，该时长预测模型训练装置还包括通信接口33，用于与其它设备进行信息交互。同时，该时长预测模型训练装置还包括总线34，处理器32、通信接口33、以及存储器31通过总线34完成相互间的通信。

存储器31可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器31也可以是存储器阵列。存储器31还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器32可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1中任一实施例涉及的方法。

图4为本公开一个实施例的语音合成方法的流程示意图。在一些实施例中，下列的语音合成方法步骤由语音合成装置执行。

在步骤401，将目标文本进行分解以得到多个音素，并提取每个音素的嵌入向量。

在步骤402，利用时长预测模型对每个音素的嵌入向量进行预测处理，以得到每个音素的预测发音时长。

时长预测模型为图1中任意实施例涉及的时长预测模型训练方法所得到的时长预测模型。

在步骤403，对每个音素进行扩展处理以得到音素特征扩展序列，以便每个音素的发音时长等于对应的预测发音时长。

在一些实施例中，通过编码器对音素序列进行编码，以得到每个音素包含的上下文特征向量，然后将每个音素对应的特征向量按照音素时长信息进行扩展。

在步骤404，提取声学特征预测模型在上一时刻的声学特征输出结果的特征信息。

在一些实施例中，声学特征预测模型为梅尔频谱(mel-spectrum)预测模型。

在步骤405，利用高斯混合模型注意力机制(GMM AttentionMechanism)模块对音素特征扩展序列和特征信息进行处理以得到上下文向量。

在一些实施例中，利用高斯混合模型注意力机制模块的偏置参数值调整合成语音的语速。

例如，在偏置参数值大于1的情况下，合成语音的语速被增大，且合成语音的语速与偏置参数值成正相关关系。在偏置参数值小于1的情况下，合成语音的语速被减小，且合成语音的语速与偏置参数值成正相关关系。

由于高斯混合模型注意力机制本身并不是本公开的发明点所在，因此这里不展开描述。

在步骤406，将上下文向量和特征信息输入声学特征预测模型，以得到当前时刻的声学特征输出结果。

在步骤407，根据声学特征预测模型的声学特征输出结果进行语音合成。

图5为本公开一个实施例的语音合成装置的结构示意图。如图5所示，语音合成装置包括音素处理模块51、时长预测模块52、扩展处理模块53、特征提取模块54、上下文向量生成模块55、声学特征预测模块56和语音合成模块57。

音素处理模块51将目标文本进行分解以得到多个音素，并提取每个音素的嵌入向量。

时长预测模块52利用时长预测模型对每个音素的嵌入向量进行预测处理，以得到每个音素的预测发音时长。时长预测模型为利用图1中任一实施例涉及的时长预测模型训练方法所得到的。

扩展处理模块53对每个音素进行扩展处理以得到音素特征扩展序列，以便每个音素的发音时长等于对应的预测发音时长。

特征提取模块54提取声学特征预测模型56在上一时刻的声学特征输出结果的特征信息。

在一些实施例中，特征提取模块54的初始输入信息为预设特征信息。

上下文向量生成模块55利用高斯混合模型注意力机制模块对音素特征扩展序列和特征信息进行处理以得到上下文向量。

在一些实施例中，上下文向量生成模块55利用高斯混合模型注意力机制模块的偏置参数值调整合成语音的语速。

声学特征预测模块56将上下文向量和特征信息输入声学特征预测模型，以得到当前时刻的声学特征输出结果。

在一些实施例中，声学特征预测模型为梅尔频谱预测模型。

语音合成模块57根据声学特征预测模型的声学特征输出结果进行语音合成。

这里需要说明的是，在图5所示实施例中，将音素处理模块51、时长预测模块52、扩展处理模块53称为编码器，将特征提取模块54、声学特征预测模块56和语音合成模块57称为编码器称为译码器。

图6为本公开另一个实施例的语音合成装置的结构示意图。如图6所示，语音合成装置包括存储器61、处理器62、通信接口63和总线64。图6与图3的不同之处在于，在图6所示实施例中，处理器62被配置为基于存储器存储的指令执行实现如图4中任一实施例涉及的方法。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图4中任一实施例涉及的方法。

图7为本公开一个实施例的语音合成结果的GMM对齐示意图。如图7所示，高斯混合模型注意力机制的偏置参数值为1。

图8为本公开一个实施例的语音合成结果的GMM对齐示意图。如图8所示，高斯混合模型注意力机制的偏置参数值为0.5。

图9为本公开一个实施例的语音合成结果的GMM对齐示意图。如图9所示，高斯混合模型注意力机制的偏置参数值为1.5。

从图7至图9中能够看出，高斯混合模型注意力机制会自动的调整每个解码器当前获取的上下文向量对应窗口的宽度，从而合成更好的音质。

此外，由于时长预测模型能够预测出每个音素的时长，因此能够知道每个音素、每个单词的开始位置和结束位置。由此可控制高斯混合模型注意力机制在某个区间内的偏置参数值，以实现加快或减慢指定区域的语速。

在一些实施例中，在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称：ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种时长预测模型训练方法，包括：

对预设的音素训练序列和对应的音频训练序列进行强制对齐处理，以便获得所述音素训练序列中的每个音素的发音时长；

提取所述每个音素的嵌入向量；

将所述每个音素的嵌入向量输入机器学习模型，以得到所述每个音素的预测时长；

根据所述每个音素的预测时长和所述发音时长确定损失函数；

利用所述损失函数对所述机器学习模型进行训练，以得到时长预测模型。

2.根据权利要求1所述的方法，其中，提取所述每个音素的嵌入向量包括：

通过预设的嵌入向量表提取所述每个音素的嵌入向量。

3.根据权利要求1或2所述的方法，其中，

所述机器学习模型包括多层的双向长短期记忆网络模型、多层的自注意力网络模型或多层的卷积神经网络模型。

4.一种时长预测模型训练装置，包括：

第一处理模块，被配置为对预设的音素训练序列和对应的音频训练序列进行强制对齐处理，以便获得所述音素训练序列中的每个音素的发音时长；

第二处理模块，被配置为提取所述每个音素的嵌入向量；

训练模块，被配置为将所述每个音素的嵌入向量输入机器学习模型，以得到所述每个音素的预测时长，根据所述每个音素的预测时长和所述发音时长确定损失函数，利用所述损失函数对所述机器学习模型进行训练，以得到时长预测模型。

5.一种时长预测模型训练装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-3中任一项所述的方法。

6.一种语音合成方法，包括：

将目标文本进行分解以得到多个音素，并提取每个音素的嵌入向量；

利用权利要求1-3中任一项所述的时长预测模型训练方法所得到的时长预测模型对所述每个音素的嵌入向量进行预测处理，以得到所述每个音素的预测发音时长；

对所述每个音素进行扩展处理以得到音素特征扩展序列，以便所述每个音素的发音时长等于对应的预测发音时长；

提取声学特征预测模型在上一时刻的声学特征输出结果的特征信息；

利用高斯混合模型注意力机制模块对所述音素特征扩展序列和所述特征信息进行处理以得到上下文向量；

将所述上下文向量和所述特征信息输入所述声学特征预测模型，以得到当前时刻的声学特征输出结果；

根据所述声学特征预测模型的声学特征输出结果进行语音合成。

7.根据权利要求6所述的方法，还包括：

利用所述高斯混合模型注意力机制模块的偏置参数值调整合成语音的语速。

8.根据权利要求7所述的方法，其中，

在所述偏置参数值大于1的情况下，所述合成语音的语速被增大，且所述合成语音的语速与所述偏置参数值成正相关关系；

在所述偏置参数值小于1的情况下，所述合成语音的语速被减小，且所述合成语音的语速与所述偏置参数值成正相关关系。

9.根据权利要求6-8中任一项所述的方法，其中，

所述声学特征预测模型为梅尔频谱预测模型。

10.一种语音合成装置，包括：

音素处理模块，被配置为将目标文本进行分解以得到多个音素，并提取每个音素的嵌入向量；

时长预测模块，被配置为利用权利要求1-3中任一项所述的时长预测模型训练方法所得到的时长预测模型对所述每个音素的嵌入向量进行预测处理，以得到所述每个音素的预测发音时长；

扩展处理模块，被配置为对所述每个音素进行扩展处理以得到音素特征扩展序列，以便所述每个音素的发音时长等于对应的预测发音时长；

特征提取模块，被配置为提取声学特征预测模型在上一时刻的声学特征输出结果的特征信息；

上下文向量生成模块，被配置为利用高斯混合模型注意力机制模块对所述音素特征扩展序列和所述特征信息进行处理以得到上下文向量；

声学特征预测模块，被配置为将所述上下文向量和所述特征信息输入所述声学特征预测模型，以得到当前时刻的声学特征输出结果；

语音合成模块，被配置为根据所述声学特征预测模型的声学特征输出结果进行语音合成。

11.一种语音合成装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求6-9中任一项所述的方法。

12.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-3、6-9中任一项所述的方法。