CN115206281A

CN115206281A - 一种语音合成模型训练方法、装置、电子设备及介质

Info

Publication number: CN115206281A
Application number: CN202110397569.6A
Authority: CN
Inventors: 张泽旺; 张文杰
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2022-10-18

Abstract

本申请实施例公开了一种语音合成模型训练方法、装置、电子设备及介质，可应用于语音技术领域。其中，方法包括：获取源音频数据和目标语音风格特征，调用语音转换模型对源音频数据和目标语音风格特征进行处理，得到第一预测音频数据，从而得到目标语音风格特征对应的音频数据，调用初始语音合成模型对源文本数据和该目标语音风格特征进行处理，得到第二预测音频数据，再基于第一预测音频数据和第二预测音频数据对初始语音合成模型中的参数进行更新，以对初始语音合成模型进行训练。采用本申请实施例，有助于增强训练得到的语音合成模型的泛化能力，提高合成的音频数据的语音风格相似度。

Description

一种语音合成模型训练方法、装置、电子设备及介质

技术领域

本申请涉及语音技术领域，尤其涉及一种语音合成模型训练方法、装置、电子设备及介质。

背景技术

随着语音技术的高速发展，语音合成技术(TTS)逐渐在生活中得到了更多的应用。语音的风格迁移是语音合成技术是语音合成领域的一个重要领域，语音的风格迁移是指将某一说话对象的语音风格赋予到合成的音频数据。目前，针对语音的风格迁移的语音合成模型训练是通过训练一个基于多人说话语料的平均模型，然后通过对目标说话对象进行微调。然而，在实践中发现，这种方式训练出来的模型泛化能力有限，在依照该训练方式得到模型合成音频数据时，合成的音频数据语音风格相似度较低。因此如何在语音的风格迁移过程中提高语音风格相似度是一个亟待解决的问题。

发明内容

本申请实施例提供了一种语音合成模型训练方法、装置、电子设备及介质，有助于增强语音合成模型的泛化能力，提高合成的音频数据的语音风格相似度。

一方面，本申请实施例提供了一种语音合成模型训练方法，该方法包括：

获取源音频数据和目标语音风格特征，所述目标语音风格特征为目标音频数据的语音风格对应的特征；

调用语音转换模型对所述源音频数据和所述目标语音风格特征进行处理，得到第一预测音频数据；

提取出所述源音频数据中的源文本数据，并调用初始语音合成模型对所述源文本数据和所述目标语音风格特征进行处理，得到第二预测音频数据；

基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新，以对所述初始语音合成模型进行训练。

另一方面，本申请实施例提供了一种语音合成模型训练装置，该装置包括：

获取模块，用于获取源音频数据和目标语音风格特征，所述目标语音风格特征为目标音频数据的语音风格对应的特征；

处理模块，用于调用语音转换模型对所述源音频数据和所述目标语音风格特征进行处理，得到第一预测音频数据；

所述处理模块，还用于提取出所述源音频数据中的源文本数据，并调用初始语音合成模型对所述源文本数据和所述目标语音风格特征进行处理，得到第二预测音频数据；

所述处理模块，还用于基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新，以对所述初始语音合成模型进行训练。

再一方面，本申请实施例提供了一种电子设备，其特征在于，所述电子设备包括处理器和存储装置，所述处理器与所述存储装置相互连接，其中，所述存储装置用于存储计算机程序指令，所述处理器被配置用于执行如下步骤：

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如下步骤：

本申请实施例能够获取源音频数据和目标语音风格特征，调用语音转换模型对该源音频数据和该目标语音风格特征进行处理，得到第一预测音频数据，从而得到目标语音风格特征对应的音频数据，调用初始语音合成模型对源文本数据和该目标语音风格特征进行处理，得到第二预测音频数据，再基于第一预测音频数据和第二预测音频数据对初始语音合成模型中的参数进行更新，以对初始语音合成模型进行训练。由此可以有助于增强训练得到的语音合成模型的泛化能力，提高合成的音频数据的语音风格相似度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音合成模型训练方法的流程示意图；

图2是本申请实施例提供的一种语音转换模型的结构示意图；

图3是本申请实施例提供的一种语音转换模型的结构示意图；

图4是本申请实施例提供的一种语音转换模型训练方法的流程示意图；

图5是本申请实施例提供的一种音频数据的获取方法的流程示意图；

图6是本申请实施例提供的一种音频数据的获取方法的流程示意图；

图7是本申请实施例提供的一种语音合成模型训练方法的流程示意图；

图8是本申请实施例提供的一种音频数据的获取方法的流程示意图；

图9是本申请实施例提供的一种音频数据的获取方法的流程示意图；

图10是本申请实施例提供的一种语音合成模型训练装置的结构示意图；

图11是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例提出一种语音合成模型训练方案，能够获取源音频数据和目标语音风格特征，调用语音转换模型对该源音频数据和该目标语音风格特征进行处理，得到第一预测音频数据，从而得到目标语音风格特征对应的音频数据，调用初始语音合成模型对源文本数据和该目标语音风格特征进行处理，得到第二预测音频数据，再基于第一预测音频数据和第二预测音频数据对初始语音合成模型中的参数进行更新，以对初始语音合成模型进行训练。由此可以有助于增强训练得到的语音合成模型的泛化能力，提高合成的音频数据的语音风格相似度。

本申请中，音频数据是指数字化的声音数据，如源音频数据、目标音频数据、样本音频数据、第一预测音频数据或第二预测音频数据等。本申请中的声谱(AcousticSpectrum)是用来描述声音中所包含成份及音色中声学能量的分配模式的工具，如第一预测声谱或第二预测声谱等。本申请中声谱可以是梅尔谱、语谱图、梅尔倒谱等工具，此处不做限制。该梅尔谱、语谱图等声谱的实质就是频谱序列，换句话说就是，该梅尔谱、语谱图等声谱可以由多帧频域数据构成。

在本申请中，语音风格可以是指音频数据中的音色、口音、基本音高等特点，此处不做限制。在本申请中，对语音风格的表示采用语音风格特征表示，如目标语音风格特征可以表示目标音频数据的语音风格特征对应的特征，样本语音风格特征可以表示样本音频数据的语音风格特征对应的特征。可选的，该语音风格特征可以用向量或矩阵来表示对应的音频数据的特征，或者说，该语音风格特征可以用一组向量或者一个矩阵来表示音频数据对应的对象的标识，该标识用于指示该对象的音频数据的语音风格特征。

在本申请中，节奏用于描述音频数据中音节与音节之间相对音高、间隔时间等特点，此处不做限制。在本申请中，对节奏的表示采用节奏特征进行表示，例如本申请中的源节奏特征可以表示源音频数据中的节奏对应的特征，样本节奏特征可以表示样本音频数据中的节奏对应的特征。可选的，该节奏特征通常可以用向量或矩阵进行表示，此处不做限制。

本申请的技术方案可运用在电子设备中，本申请的技术方案可运用在电子设备中，该电子设备可以是终端，也可以是服务器，本申请不做限定。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本申请的技术方案可以应用于语音数据技术领域，语音技术(SpeechTechnology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请的技术方案还可以应用于数学智能教育中，例如，可以通过本申请提供的模型训练方法，训练出一个或多个虚拟老师，使得该一个或多个虚拟老师具有流利的说话能力，甚至可以具有多种语言的说话能力。具体可以通过本方案的语音转换模型训练出具有目标风格特征的多语言的音频数据，从而可以使得该一个或多个虚拟老师具有多语言的说话能力。由此可见，本申请的技术方案还可以应用在其他涉及语音合成的领域中，例如智能音箱、智能家居、有声书软件、虚拟主播、虚拟导游、虚拟助教、智能客服等等。

在一种可能的实施方式中，本申请的技术方案还可以用于跨语言的语音合成模型的训练，从而可以得到跨语言的语音合成模型。具体的，可以通过调用语音转换模型对目标语言的源音频数据与目标语音风格特征进行处理，从而得到目标语言的第一预测音频数据，再通过该第一预测音频数据、源文本数据和目标语音风格特征对初始语音合成模型进行训练。例如，当说话对象只能说中文，但又需要生成获取说话对象的语音风格对应的英文音频数据时，可以获取文本内容为英文的源音频数据，从而调用语音转换模型对目标语音风格特征和源音频数据进行处理，从而可以得到文本内容为英文的第一预测音频数据，使得在训练初始语音合成模型后，能够得到该目标语音风格对应的英文音频数据。同理，可以根据调整目标语言的种类得到能够得到更多合成目标语言种类的语音合成模型，如粤语模型、四川话模型或东北话模型等，极大地丰富了说话对象的语言能力。

在一种可能的实施方式中，本申请的技术方案还可以应用于将一种语音风格变为另一种说话对象的语音风格。具体的，可以获取一种语音风格的音频数据对应的文本数据特征，和另一种语音风格的目标语音风格特征，调用语音转换模型对该文本数据特征与目标语音风格特征进行处理，从而得到目标预测音频数据，则该目标预测音频数据的语音风格为另一种语音风格，音频内容为该一种语音风格的音频数据对应的内容，即可以实现将一种语音风格变为另一种说话对象的语音风格。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着***架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述的描述，本申请实施例提出语音合成模型训练方法。请参见图1，图1是本申请实施例提供的一种语音合成模型训练方法的流程示意图，该语音合成模型训练方法可以包括步骤S101-S104。

S101、获取源音频数据和目标语音风格特征。

其中，该源音频数据可以是从各种音频数据库中获取，也可以通过采集各种对象的音频数据从而得到音频数据集合，并从该音频数据集合中确定出该源音频数据。目标语音风格特征可以表示目标音频数据的语音风格特征对应的特征，该目标语音风格特征可以用向量或矩阵来表示。

在一种可能的实施方式中，该目标语音风格特征可以将不定长的目标音频数据输入预训练好的说话对象识别网络，将该不定长的目标音频数据映射成目标向量，该目标向量可以是固定长度的，从而将该目标向量作为目标语音风格特征。在一些场景中，该目标向量可以被称为x-vector。

可选的，在得到目标音频数据对应的目标向量之后，还可以对该目标向量进行处理，如对该目标向量进行插值，或对该目标向量的值进行修改，从而可以创造出新的目标向量，并将该新的目标向量作为目标语音风格特征。

S102、调用语音转换模型对源音频数据和目标语音风格特征进行处理，得到第一预测音频数据。

其中，该语音转换模型可以用于将源音频数据的语音风格转换为目标语音风格特征对应的语音风格，从而得到第一预测音频数据。换句话说，就是该第一预测音频数据的语音风格为该目标语音风格特征对应的语音风格，该第一预测音频数据的音频内容为该源音频数据指示的音频内容。

在一种可能的实施方式中，该语音转换模型可以包括第一编码网络和第一解码网络。该第一编码网络用于确定源音频数据的源编码特征，该源编码特征是通过该第一编码网络提取到的源音频数据的特征向量或特征矩阵。该第一编码器可以是专家***，该专家***是指一个智能计算机程序***，内部含有大量的某个领域专家水平的知识与经验，能够对该源音频数据的内容进行解耦。该第一解码网络用于接收第一编码网络输出的源编码特征并获取目标语音风格特征，从而得到第一预测音频数据。该第一解码器序列建模的模型，如经过训练的循环卷积神经网络(RNN)或长短期记忆网络(LSTM)等。例如，请参见图2，图2是本申请实施例提供的一种语音转换模型的结构示意图，在该图中，语音转换模型中的第一编码网络接收源音频数据，并根据该源音频数据生成源编码特征，再将该源编码特征和目标语音风格特征作为第一解码网络的输入，从而得到第一预测音频数据。

在一种可能的实施方式中，调用语音转换模型对源音频数据和目标语音风格特征进行处理，得到第一预测音频数据，可以具体包括以下步骤：获取源音频数据中的源节奏特征，并通过第一编码网络确定源音频数据的源编码特征；通过第一解码网络对源编码特征、源节奏特征和目标语音风格特征进行处理，得到源音频数据在目标音频数据的语音风格下的第一预测声谱；基于第一预测声谱构建出第一预测音频数据。其中，该源节奏特征为源音频数据中的节奏对应的特征。该第一预测音频数据中的节奏为源节奏特征对应的节奏特征，语音风格为目标语音风格特征对应的语音风格。该第一预测声谱可以是指第一预测音频数据对应的声谱，如梅尔谱、语谱图(声谱图)、梅尔倒谱等。基于第一预测声谱构建出第一预测音频数据时，可以将该第一预测声谱输入神经网络合成器，从而得到第一预测音频数据，该神经网络合成器是经过训练样本进行训练后的神经网络模型，能够根据声谱生成音频数据。例如，请参见图3，图3是本申请实施例提供的一种语音转换模型的结构示意图，在该图中，该语音转换模型的第一编码网络接收源音频数据，并根据该源音频数据生成源编码特征，再将该源编码特征、源节奏特征和目标语音风格特征作为第一解码网络的输入，从而得到第一预测音频数据。将该源节奏特征输入第一解码网络能够使得生成的第一预测音频数据中的声音更加稳定，从而提高生成的第一预测音频数据的语音质量。

在一种可能的实施方式中，通过第一编码网络确定源音频数据的源编码特征之前，还可以执行以下步骤：获取样本音频数据、样本节奏特征和样本语音风格特征，通过第一初始编码网络确定样本音频数据的样本编码特征；通过第一初始解码网络对样本编码特征、样本节奏特征和样本语音风格特征进行处理，得到样本预测音频数据；基于样本音频数据和样本预测音频数据对第一初始编码网络和第一初始解码网络中的参数进行更新；若参数更新后的第一初始编码网络和参数更新后的第一初始解码网络满足第一预设条件，则将参数更新后的第一初始编码网络确定为第一编码网络，并将参数更新后的第一初始解码网络确定为第一解码网络。其中，该样本节奏特征为样本音频数据中的节奏对应的特征，该样本语音风格特征为样本音频数据的语音风格对应的特征。该第一初始编码网络用于确定样本音频数据的样本编码特征，该样本编码特征是通过该第一初始编码网络提取到的样本音频数据的特征向量或特征矩阵。该第一编码器可以是专家***，该专家***是指一个智能计算机程序***，内部含有大量的某个领域专家水平的知识与经验，能够对该样本音频数据的内容进行解耦。该第一初始解码网络用于接收第一初始编码网络输出的样本编码特征并获取样本节奏特征和样本语音风格特征，从而得到样本预测音频数据。该第一预设条件用于指示该第一初始编码网络和第一初始解码网络的参数和结构达到目标满意程度，该目标满意程度可以用于指示生成的样本预测音频数据和样本音频数据之间的匹配度满足条件，如，通过损失函数确定样本预测音频数据与样本音频数据之间的损失值，若该损失值满足预设损失值条件，即第一初始编码网络和参数更新后的第一初始解码网络满足第一预设条件，该预设损失值条件可以是损失值小于预设值，还可以是通过每次更新第一初始编码网络和第一初始解码网络的参数后得到的损失值之间的变化小于预设值。可选的，该样本测音频数据或样本音频数据可以音频信号进行表示，通过损失函数确定样本预测音频数据与样本音频数据之间的损失值，也可以说是计算样本预测音频数据与样本音频数据对应的音频信号之间的损失值。其中，该预设损失值条件、预设值等可以由模型训练用户自行设定，针对不同的模型和场景该预设条件或预设值的设定可能存在不同，此处不做限制。

例如，请参见图4，图4是是本申请实施例提供的一种语音转换模型训练方法的流程示意图，在该图中可以看到，样本音频数据在输入第一初始编码网络后，可以得到样本音频数据对应的样本编码特征，第一初始解码网络将样本编码特征、样本节奏特征、样本语音风格特征进行处理，从而得到样本预测音频数据，通过损失函数确定样本预测音频数据与样本音频数据之间的损失值，从而更新该第一初始编码网络及该第一初始解码网络的参数值，该损失函数是指在模型训练过程中要最小化的目标，如平均平方差误差损失函数(MESloss)、平均绝对误差损失函数(MAE loss)或交叉熵损失函数等，此处不做限制。当该样本预测音频数据与样本音频数据之间的损失值满足预设损失值条件时停止对参数的更新，并将更新后的第一初始编码网络确定为第一编码网络，第一初始解码网络确定为第一解码网络，该预设损失值条件可以是损失值小于预设值，或通过每次更新第一初始编码网络和第一初始解码网络的参数后得到的损失值之间的变化小于预设值，此处不做限制。经通过样本音频数据对第一初始编码网络和第一初始解码网络的训练，使得得到的语音转换模型能够实现根据语音风格特征构建预测音频数据。

可选的，在通过第一初始编码网络获取样本编码特征之后，还可以通过第一初始解码网络对样本编码特征、样本节奏特征和样本语音风格特征进行处理，得到样本预测声谱；获取样本音频数据的样本声谱，基于样本声谱和样本预测声谱对第一初始编码网络和第一初始解码网络中的参数进行更新；若参数更新后的第一初始编码网络和参数更新后的第一初始解码网络满足第一预设条件，则将参数更新后的第一初始编码网络确定为第一编码网络，并将参数更新后的第一初始解码网络确定为第一解码网络。其中，该样本预测声谱可以是样本预测音频数据对应的声谱，换句话说就是，可以调用神经网络合成器将样本预测声谱合成样本预测音频。该第一预设条件用于指示该第一初始编码网络和第一初始解码网络的参数和结构达到目标满意程度，该目标满意程度可以用于指示生成的样本预测声谱和样本音频声谱之间的匹配度满足条件，如可以通过损失函数确定样本预测声谱与样本声谱之间的损失值，若该损失值满足预设损失值条件时，即第一初始编码网络和参数更新后的第一初始解码网络满足第一预设条件。该预设损失值条件可以是损失值小于预设值，或通过每次更新第一初始编码网络和第一初始解码网络的参数后得到的损失值之间的变化小于预设值，此处不做限制。其中，该预设损失值条件或预设值等可以由模型训练用户自行设定，针对不同的模型和场景该预设条件或预设值的设定可能存在不同，此处不做限制。

在一种可能的实施方式中，通过第一编码网络确定源音频数据的源编码特征，可以包括以下步骤：通过第一编码网络提取出源音频数据中包括的至少一帧音频，以及每帧音频对应的音素，并基于至少一帧音频和每帧音频对应的音素构建源语音后验概率矩阵；通过第一编码网络对源语音后验概率矩阵进行维度压缩，得到源音频数据的源编码特征。其中，该语音后验概率矩阵的横轴表示时间维度上的帧数，纵轴表示每个符号的类别，该符号类别可以是音素类别。该语音后验概率矩阵也可以被称为是PPG矩阵(PhoneticPosteriorgrams)。例如，一段源音频数据对应内容为“v3 in1 h e2 ch eng2”，提取出该源音频数据对应的至少一阵音频，则可以得到每一帧音频对应的因素分别为：“v3”“in1”“h”“e2”“ch”“eng2”，则可以将该每一帧音频的表示为一个列向量，按照时间顺序将该多个列向量依次排序，则可以得到PPG矩阵。通过第一编码网络对源语音后验概率矩阵进行维度压缩可以是通过该第一编码网络的瓶颈层进行压缩，从而可以让第一编码网络在对源音频数据进行编码时，丢弃语音后验概率矩阵中的源语音风格特征，从而实现对PPG矩阵的维度的压缩。

S103、提取源音频数据中的源文本数据，并调用初始语音合成模型对源文本数据和目标语音风格特征进行处理，得到第二预测音频数据。

其中，该源音频数据中的源文本数据用于指示要源音频数据中对应的文本内容的语言学特征，该语言学特征包括但不限于中文音素、英文音素、中文韵母声调、词语边界、短语边界或句子边界等特征信息。该源文本数据通常可以音素序列的形式进行表示，音素是从音质角度划分的最小的语音单位，中文的音素序列通常可以由生母、韵母、静音音节构成，其中，韵母是带声调的。例如，源音频数据中对应的文本内容为“语音合成”，则该文本内容对应的带声调的语音序列就是“v3 in1 h e2 ch eng2”，从而可以得到该源文本数据为“v3 in1 h e2 ch eng2”。该初始语音合成模型可以是tacotron2***或其他神经网络模型的变体，此处不做限制。

在一种可能的实施方式中，该初始语音合成模型包括第二初始编码网络和第二初始解码网络，则调用初始语音合成模型对源文本数据和目标语音风格特征进行处理可以包括以下步骤：通过第二初始编码网络确定源文本数据的文本编码特征；通过第二初始解码网络对文本编码特征和目标语音风格特征进行处理，得到源文本数据在目标音频数据的语音风格下的第二预测声谱；基于第二预测声谱构建出第二预测音频数据。其中，该第二初始编码网络用于确定源音频数据的文本编码特征，该文本编码特征是通过该第二初始编码网络提取到的源文本数据的特征向量或特征矩阵。如该第二初始编码器将输入的音素序列(即源文本数据)转化成上下文相关的抽象文本特征，该第二初始编码器通常由具有前后关联性的模型构成，例如双向循环神经网络和卷积神经网络，经过该第二初始编码网络出来的文本编码特征具备了上下文相关的特点。该第二初始解码网络用于接收第二初始编码网络输出的文本编码特征和目标语音风格特征，从而得到第二预测声谱。该第二预测声谱可以是指第二预测音频数据对应的声谱，如梅尔谱、语谱图(声谱图)、梅尔倒谱等。基于第二预测声谱构建出第二预测音频数据时，可以将该第二预测声谱输入神经网络合成器，从而得到第二预测音频数据。

例如，请参见图5，图5是本申请实施例提供的一种音频数据的获取方法的流程示意图，在该图中，源文本数据在输入第二初始编码网络后，可以得到源文本数据对应的文本编码特征，第二初始编码网络对文本编码特征和目标语音风格特征进行处理，从而得到第二预测声谱，然后根据第二预测声谱确定出第二预测音频数据。

在一种可能的实施方式中，该初始语音合成模型可以包括第二初始编码网络、初始注意力机制和第二初始解码网络，则调用初始语音合成模型对源文本数据和目标语音风格特征进行处理可以包括以下步骤：通过第二初始编码网络确定源文本数据的文本编码特征；将文本编码特征和目标语音风格特征输入初始注意力机制；通过第二初始解码网络对初始注意力机制的输出结果进行处理，得到源文本数据在目标音频数据的语音风格下的第二预测声谱；基于第二预测声谱构建出第二预测音频数据。其中，该第二初始编码网络用于确定源音频数据的文本编码特征。由于该第二预测音频数据在合成的时，通常是一个从音素序列(即源文本数据)到频谱序列的单调映射的过程，该频谱序列即可以构成该第二预测声谱。因此，在生成第二预测声谱的每一帧频谱时，只需要获取帧频谱对应的音素内容即可，该初始注意力机制即用来产生每一帧即将生成的频谱对应的音素内容，以供第二初始解码器更好地预测下一帧频谱，从而得到第二预测声谱。该第二初始解码器网络用于接收初始注意力机制的输出结果，并对该输出结果进行处理，得到第二预测声谱。如，该第一解码网络接收初始注意力机制t0时刻的输出和t0时刻前相邻一帧预测的频谱(即上一帧预测的频谱)来预测t0时刻的频谱，换句话说就是每一帧预测频谱的生成需要依赖于上一帧预测频谱，然后该每一帧预测的频谱可以依照时间顺序进行排列，从而可以得到第二预测声谱。基于第二预测声谱构建出第二预测音频数据可以通过神经网络合成器进行构建，如，该神经网络合成器对第二预测声谱的每一帧频域数据进行处理，得到该每一帧频域数据对应的多帧时域数据，从而根据该多帧时域数据合成第二预测音频数据。例如，请参见图6，图6是本申请实施例一种音频数据的获取方法的流程示意图，在该图中，源文本数据在输入第二初始编码网络后，可以得到源文本数据对应的文本编码特征，然后将目标语音风格特征和文本编码特征输入初始注意力机制，从而得到初始注意力机制的输出结果，第二初始编码网络对该输出结果进行处理，从而得到第二预测声谱，然后根据第二预测声谱确定出第二预测音频数据。

S104、基于第一预测音频数据和第二预测音频数据对初始语音合成模型中的参数进行更新，以对初始语音合成模型进行训练。

其中，对初始语音合成模型进行更新可以根据第一预测音频数据与第二预测音频数据之间的损失值对初始语音合成模型中的参数进行更新，还可以是根据第一预测音频数据对应的第一预测声谱和第二预测音频数据对应的第二预测声谱之间的损失值对初始语音合成模型中的参数进行更新，此处不做限制。

在一种可能的实施方式中，基于第一预测音频数据与第二预测音频数据之间的损失值对初始语音合成模型中的参数进行更新，可以包括以下步骤：调用目标损失函数确定第一预测音频数据与第二预测音频数据之间的目标损失值；若目标损失值满足预设损失值条件，则基于目标损失值对初始语音合成模型中的参数进行更新。其中，该损失函数是指在模型训练过程中要最小化的目标，如平均平方差误差损失函数(MES loss)、平均绝对误差损失函数(MAE loss)或交叉熵损失函数等，此处不做限制。该预设损失值条件可以是目标损失值大于预设值，或通过每次更新初始语音合成模型的参数后得到的目标损失值之间的变化值大于预设值，此处不做限制。可选的，该第一预测音频数据或第二预测音频数据可以音频信号进行表示，计算第一预测音频数据和第二预测音频数据之间的目标损失值，也可以说是计算第一预测音频数据和第二预测音频数据对应的音频信号之间的损失值。

在一种可能的实施方式中，基于第一预测音频数据和第二预测音频数据对初始语音合成模型中的参数进行更新，可以包括以下步骤：获取第一预测音频数据对应的第一预测声谱，以及第二预测音频数据对应的第二预测声谱；调用目标损失函数确定第一预测声谱与第二预测声谱之间的目标损失值；若目标损失值满足预设损失值条件，则基于目标损失值对初始语音合成模型中的参数进行更新。其中，根据第一预测音频数据确定第一预测声谱，以及根据第二预测音频数据确定第二预测声谱，可以将预测音频数据(第一预测音频数据或第二预测音频数据)的时域信息通过傅里叶变换转换为频域信息，从而得到对应的预测声谱(第一预测声谱或第二预测声谱)，例如，要获取该音频数据(第一预测音频数据或第二预测音频数据)的预测声谱(第一预测声谱或第二预测声谱)为梅尔谱时，可以将该音频数据的时域信息通过傅里叶变换转换为频域信息，将该频域信息经过梅尔尺度变换得到梅尔频谱，即梅尔谱。该损失函数是指在模型训练过程中要最小化的目标，如平均平方差误差损失函数(MES loss)、平均绝对误差损失函数(MAE loss)或交叉熵损失函数等，此处不做限制。该预设损失值条件可以是目标损失值大于预设值，或通过每次更新初始语音合成模型的参数后得到的目标损失值之间的变化值大于预设值，此处不做限制。

请参见图7，是本发明实施例提供的一种语音合成模型训练方法的流程示意图。该语音合成模型训练方法可以由电子设备执行。如图7所示，该语音合成模型训练方法可包括以下步骤S701-S705。

S701、获取源音频数据和目标语音风格特征。

S702、调用语音转换模型对源音频数据和目标语音风格特征进行处理，得到第一预测音频数据。

S703、提取出源音频数据中的源文本数据，并调用初始语音合成模型对源文本数据和目标语音风格特征进行处理，得到第二预测音频数据。

S704、基于第一预测音频数据和第二预测音频数据对初始语音合成模型中的参数进行更新，以对初始语音合成模型进行训练。

步骤S701-S704可以对应参照步骤S101-步骤S102的相关描述，此处不做赘述。

可以理解的是，步骤S701-步骤S704(步骤S101-步骤S102)的描述只是该语音合成模型训练过程中的一轮训练，当更新后的初始语音合成模型不满足第二预设条件时，根据第一预测音频数据和第二预测音频数据对初始语音合成模型中的参数再次进行更新。可选的，还可以通过步骤S702得到的另一个第一预测音频数据，然后通过该另一个第一预测音频数据、对应的源文本数据和目标语音风格特征对更新后的初始语音合成模型的参数进行更新，即重复步骤S704-S704，直到更新后的初始语音合成模型满足第二预设条件。

S705、若参数更新后的初始语音合成模型满足第二预设条件，则将参数更新后的初始语音合成模型确定为语音合成模型。

其中，第二预设条件用于指示该初始语音合成模型的参数和结构达到目标满意程度，该目标满意程度可以用于指示第二预测音频数据和第一预测音频数据之间的匹配度满足条件，如，通过损失函数确定第二预测音频数据和第一预测音频数据之间的目标损失值，若该目标损失值满足预设损失值条件，即初始语音合成模型满足第二预设条件，该预设损失值条件可以是该初始语音合成模型生成的第二预测音频数据与第一预测音频数据之间的目标损失值小于预设值，还可以是参数更新后的初始语音合成模型生成的第二预测音频数据与第一预测音频数据之间目标损失值之间的变化值小于预设值。

可选的，该目标满意程度还可以用于指示第二预测声谱和第一预测声谱之间的匹配度满足条件，如，通过损失函数确定第二预测声谱和第一预测声谱之间的目标损失值，若该目标损失值满足预设损失值条件，即初始语音合成模型满足第二预设条件，该预设损失值条件可以是该初始语音合成模型生成的第二预测声谱与第一预测声谱之间的目标损失值小于预设值，还可以是参数更新后的初始语音合成模型生成的第二预测声谱与第一预测声谱之间目标损失值之间的变化值小于预设值。

在一种可能的实施方式中，该初始语音合成模型可以包括第二初始编码网络和第二初始解码网络，则可以将该第二初始编码网络确定为第二编码网络，将该第二初始解码网络确定为第二解码网络。

在一种可能的实施方式中，该初始语音合成模型可以包括第二初始编码网络、初始注意力机制和第二初始解码网络，则可以将该第二初始编码网络确定为第二编码网络，将该初始注意力机制确定为注意力机制，将该第二初始解码网络确定为第二解码网络。

S706、获取待合成文本数据。

其中，该待合成文本数据通常可以音素序列的形式进行表示。例如可以获去一段文本内容，如“语音合成”，然后对该文本内容进行处理，从而得到该文本内容对应的音素序列“v3 in1 h e2 ch eng2”。

S707、若参数更新后的初始语音合成模型满足第二预设条件，则将参数更新后的初始语音合成模型确定为语音合成模型。

其中，该目标预测音频数据的语音风格特征为目标语音风格特征指示的语音风格，且该目标预测音频数据的音频内容即该待合成文本数据指示的内容。该语音合成模型可以包括第二编码网络和第二解码网络，或者，该语音合成模型可以包括第二编码网络、注意力机制和第二解码网络。

在一种可能的实施方式中，该语音合成模型可以包括第二编码网络和第二解码网络，则调用语音合成模型对待合成文本数据和目标语音风格特征进行处理，得到目标预测音频数据，可以包括以下步骤：通过第二编码网络确定待合成文本数据的待合成文本编码特征；通过第二解码网络对待合成文本编码特征和目标语音风格特征进行处理，得到待合成文本数据在目标音频数据的语音风格下的目标预测声谱；基于目标预测声谱构建出目标预测音频数据。其中，该第二编码网络用于确定待合成文本编码特征，该待合成文本编码特征是通过该第二编码网络提取到的待合成文本数据的特征向量或特征矩阵。该第二解码网络用于接收第二编码网络输出的待合成文本编码特征和目标语音风格特征，从而得到目标预测声谱。该目标预测声谱可以是指目标预测音频数据对应的声谱，如梅尔谱、语谱图(声谱图)、梅尔倒谱等。基于目标预测声谱构建出目标预测音频数据时，可以将该目标预测声谱输入神经网络合成器，从而得到目标预测音频数据。例如，请参见图8，图8是本申请实施例提供的一种音频数据获取方法的流程示意图，在该图中，待合成文本数据在输入第二编码网络后，可以得到待合成文本数据对应的待合成文本编码特征，第二编码网络对待合成文本编码特征和目标语音风格特征进行处理，从而得到目标预测声谱，然后根据目标预测声谱确定出目标预测音频数据，该目标预测音频数据的语音风格为目标语音风格特征指示的语音风格，音频内容为该待合成文本数据指示的内容。

在一种可能的实施方式中，该初始语音合成模型包括第二编码网络、注意力机制和第二解码网络，则调用语音合成模型对待合成文本数据和目标语音风格特征进行处理，得到目标预测音频数据，可以包括以下步骤：通过第二编码网络确定待合成文本数据的待合成文本编码特征；将待合成文本编码特征和目标语音风格特征输入注意力机制；通过第二解码网络对注意力机制的输出结果进行处理，得到待合成文本数据在目标音频数据的语音风格下的目标预测声谱；基于目标预测声谱构建出目标预测音频数据。其中，该第二编码网络用于确定待合成文本编码特征，该待合成文本编码特征是通过该第二编码网络提取到的待合成文本数据的特征向量或特征矩阵。该注意力机制用于接收第二编码网络输出的待合成文本信息和目标语音风格特征，并得到输出结果，该输出结果的用于指示产生的每一帧即将生成的频谱对应的音素内容，以供第二初始解码器更好地预测下一帧频谱。该第二解码网络用于接收注意力机制的输出结果，从而得到目标预测声谱。该目标预测声谱可以是指目标预测音频数据对应的声谱，如梅尔谱、语谱图(声谱图)、梅尔倒谱等。基于目标预测声谱构建出目标预测音频数据时，可以将该目标预测声谱输入神经网络合成器，从而得到目标预测音频数据。例如，请参见图9，图9是本申请实施例一种音频数据的获取方法的流程示意图，在该图中，待合成文本数据在输入第二编码网络后，可以得到待合成文本数据对应的待合成文本编码特征，然后将目标语音风格特征和待合成文本编码特征输入初始注意力机制，从而得到初始注意力机制的输出结果，第二初始编码网络对该输出结果进行处理，从而得到目标预测声谱，然后根据目标预测声谱确定出目标预测音频数据。该目标预测音频数据的语音风格为目标语音风格特征指示的语音风格，音频内容为该待合成文本数据指示的内容。

本申请实施例能够获取源音频数据和目标语音风格特征，调用语音转换模型对该源音频数据和该目标语音风格特征进行处理，得到第一预测音频数据，然后对初始语音合成模型中的参数进行更新，以对初始语音合成模型进行训练，当更新后的初始语音合成模型满足第二预设条件，则将参数更新后的初始语音合成模型确定为语音合成模型，获取待合成文本数据；调用语音合成模型对待合成文本数据和目标语音风格特征进行处理，得到目标预测音频数据。由此可以有助于增强训练得到的语音合成模型的泛化能力，提高合成的目标预测音频数据的语音风格相似度。

基于上述语音合成模型训练方法实施例的描述，本申请实施例还公开了一种语音合成模型训练装置，该装置可以配置于上述的电子设备中，例如装置可以是运行于电子设备中的一个计算机程序(包括程序代码)。该装置可以执行图1、7所示的方法。请参见图10，该装置可以运行如下模块：

获取模块1001，用于获取源音频数据和目标语音风格特征，所述目标语音风格特征为目标音频数据的语音风格对应的特征；

处理模块1002，用于调用语音转换模型对所述源音频数据和所述目标语音风格特征进行处理，得到第一预测音频数据；

所述处理模块1002，还用于提取出所述源音频数据中的源文本数据，并调用初始语音合成模型对所述源文本数据和所述目标语音风格特征进行处理，得到第二预测音频数据；

所述处理模块1002，还用于基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新，以对所述初始语音合成模型进行训练。

在一种实施方式中，所述语音转换模型包括第一编码网络和第一解码网络，所述处理模块1002用于所述调用语音转换模型对所述源音频数据和所述目标语音风格特征进行处理，得到第一预测音频数据时，具体用于：

获取所述源音频数据中的源节奏特征，并通过第一编码网络确定所述源音频数据的源编码特征，所述源节奏特征为所述源音频数据中的节奏对应的特征；

通过第一解码网络对所述源编码特征、所述源节奏特征和所述目标语音风格特征进行处理，得到所述源音频数据在所述目标音频数据的语音风格下的第一预测声谱；

基于所述第一预测声谱构建出第一预测音频数据。

在一种实施方式中，所述处理模块1002用于所述通过第一编码网络确定所述源音频数据的源编码特征之前，还用于：

获取样本音频数据、样本节奏特征和样本语音风格特征，所述样本节奏特征为所述样本音频数据中的节奏对应的特征，所述样本语音风格特征为所述样本音频数据的语音风格对应的特征；

通过第一初始编码网络确定所述样本音频数据的样本编码特征；

通过第一初始解码网络对所述样本编码特征、所述样本节奏特征和所述样本语音风格特征进行处理，得到样本预测音频数据；

基于所述样本音频数据和所述样本预测音频数据对所述第一初始编码网络和所述第一初始解码网络中的参数进行更新；

若参数更新后的第一初始编码网络和参数更新后的第一初始解码网络满足第一预设条件，则将所述参数更新后的第一初始编码网络确定为第一编码网络，并将所述参数更新后的第一初始解码网络确定为第一解码网络。

在一种实施方式中，所述初始语音合成模型包括第二初始编码网络和第二初始解码网络，所述处理模块1002用于所述调用初始语音合成模型对所述源文本数据和所述目标语音风格特征进行处理，得到第二预测音频数据，具体用于：

通过第二初始编码网络确定所述源文本数据的文本编码特征；

通过第二初始解码网络对所述文本编码特征和所述目标语音风格特征进行处理，得到所述源文本数据在所述目标音频数据的语音风格下的第二预测声谱；

基于所述第二预测声谱构建出第二预测音频数据。

在一种实施方式中，所述处理模块1002用于所述基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新时，具体用于：

获取所述第一预测音频数据对应的第一预测声谱，以及所述第二预测音频数据对应的第二预测声谱；

调用目标损失函数确定所述第一预测声谱与所述第二预测声谱之间的目标损失值；

若所述目标损失值满足预设损失值条件，则基于所述目标损失值对所述初始语音合成模型中的参数进行更新。

在一种实施方式中，所述处理模块1002用于所述通过第一编码网络确定所述源音频数据的源编码特征时，具体用于：

通过所述第一编码网络提取出所述源音频数据中包括的至少一帧音频，以及每帧音频对应的音素，并基于所述至少一帧音频和所述每帧音频对应的音素构建源语音后验概率矩阵；

通过所述第一编码网络对所述源语音后验概率矩阵进行维度压缩，得到所述源音频数据的源编码特征。

在一种实施方式中，所述处理模块1002用于在所述基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新之后，还用于：

若参数更新后的初始语音合成模型满足第二预设条件，则将所述参数更新后的初始语音合成模型确定为语音合成模型；

获取待合成文本数据；

调用所述语音合成模型对所述待合成文本数据和所述目标语音风格特征进行处理，得到目标预测音频数据。

在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现，本申请不做限定。

再请参见图11，图11是本申请实施例提供的一种电子设备的结构示意图，本申请实施例的所述电子设备包括处理器1101以及存储装置1102。可选的，该电子设备还可包括网络接口1103。其中，所述处理器1101、存储装置1102以及网络接口1103之间可以交互数据，网络接口1103受所述处理器的控制用于收发消息，存储装置1102用于存储计算机程序，所述计算机程序包括程序指令，处理器1101用于执行存储装置1102存储的程序指令。其中，处理器1101被配置用于调用所述程序指令执行上述方法。

所述存储装置1102可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置1102也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置1102还可以包括上述种类的存储器的组合。

所述处理器1101可以是中央处理器1101(central processing unit，CPU)。在一个实施例中，所述处理器1101还可以是图形处理器1101(Graphics Processing Unit，GPU)。所述处理器1101也可以是由CPU和GPU的组合。

在一个实施例中，所述存储装置1102用于存储程序指令。所述处理器1101可以调用所述程序指令，执行以下步骤：

在一种实施方式中，所述处理器1101还可用于执行：

在一种实施方式中，所述语音转换模型包括第一编码网络和第一解码网络，所述处理器1101用于执行所述调用语音转换模型对所述源音频数据和所述目标语音风格特征进行处理，得到第一预测音频数据时，具体用于执行：

基于所述第一预测声谱构建出第一预测音频数据。

在一种实施方式中，所述处理器1101用于执行所述通过第一编码网络确定所述源音频数据的源编码特征之前，还用于执行：

在一种实施方式中，所述初始语音合成模型包括第二初始编码网络和第二初始解码网络，所述处理器1101用于执行所述调用初始语音合成模型对所述源文本数据和所述目标语音风格特征进行处理，得到第二预测音频数据，具体用于执行：

基于所述第二预测声谱构建出第二预测音频数据。

在一种实施方式中，所述处理器1101用于执行所述基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新时，具体用于执行：

在一种实施方式中，所述处理器1101用于执行所述通过第一编码网络确定所述源音频数据的源编码特征时，具体用于执行：

在一种实施方式中，所述处理器1101用于执行在所述基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新之后，还用于执行：

获取待合成文本数据；

具体实现中，本申请实施例中所描述的装置、处理器1101、存储装置1102等可执行上述方法实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

本申请实施例中还提供一种计算机(可读)存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述方法实施例中所执行的部分或全部步骤。可选的，该计算机存储介质可以是易失性的，也可以是非易失性的。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序指令，该程序指令可存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令，处理器执行该程序指令，使得该计算机执行上述方法中所执行的部分或全部步骤，这里不再赘述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该计算机存储介质可以为计算机可读存储介质，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种语音合成模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音转换模型包括第一编码网络和第一解码网络，所述调用语音转换模型对所述源音频数据和所述目标语音风格特征进行处理，得到第一预测音频数据，包括：

基于所述第一预测声谱构建出第一预测音频数据。

3.根据权利要求2所述的方法，其特征在于，所述通过第一编码网络确定所述源音频数据的源编码特征之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述初始语音合成模型包括第二初始编码网络和第二初始解码网络，所述调用初始语音合成模型对所述源文本数据和所述目标语音风格特征进行处理，得到第二预测音频数据，包括：

基于所述第二预测声谱构建出第二预测音频数据。

5.根据权利要求1所述方法，其特征在于，所述基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新，包括：

6.根据权利要求2所述方法，其特征在于，所述通过第一编码网络确定所述源音频数据的源编码特征，包括：

7.根据权利要求1所述方法，其特征在于，在所述基于所述第一预测音频数据和所述第二预测音频数据对所述初始语音合成模型中的参数进行更新之后，所述方法还包括：

获取待合成文本数据；

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器和存储装置，所述处理器与所述存储装置相互连接，其中，所述存储装置用于存储计算机程序指令，所述处理器被配置用于执行所述程序指令，实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-7任一项所述的方法。