CN113178200A

CN113178200A - 语音转换方法、装置、服务器及存储介质

Info

Publication number: CN113178200A
Application number: CN202110470020.5A
Authority: CN
Inventors: 孙奥兰; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-27
Anticipated expiration: 2041-04-28
Also published as: CN113178200B

Abstract

本申请涉及人工智能中的语音处理，提供一种语音转换方法、装置、服务器及存储介质，该方法包括：获取训练样本数据，训练样本数据包括第一样本对或第二样本对；若训练样本数据为第一样本对，则将第一语音数据输入语音编码器，得到语音特征向量，并将第二语音数据输入情绪编码器，得到第一情绪特征向量；将语音特征向量和第一情绪特征向量输入特征转换层，得到第一线性谱图和第一梅尔谱图；根据第一线性谱图和第一梅尔谱图，更新语音转换模型的模型参数，直至语音转换模型收敛；将待转换的目标语音数据以及表征目标情绪的参考语音数据输入收敛的语音转换模型，得到目标语音信号。本申请能够提高语音转换的准确度。

Description

语音转换方法、装置、服务器及存储介质

技术领域

本申请涉及语音处理的技术领域，尤其涉及一种语音转换方法、装置、服务器及存储介质。

背景技术

个性化语音生成和多样的人机交互一直都是人们关注的对象，而对于其中的分支——语音转换技术(Voice conversion，VC)，也一直受到人们的注意。语音转换是在保留语言内容的前提下，将人的声音转换成不同风格，可以被用来进行特殊环境下说话人身份保密，也可以用来做影视作品的配音。

目前，语音转换是基于语音帧进行的，通过给定源语音和目标语音的强制对齐，并将源语音的声学特征转换为目标语音，或者基于序列到序列转换模型来进行语音转换，这些方式容易错误的传递语言信息，导致出现跳字、漏字、重复等情况，语音转换的准确度不高。因此，如何提高语音转换的准确度成为了亟需解决的问题。

发明内容

本申请的主要目的在于提供一种语音转换方法、装置、服务器及存储介质，旨在提高语音转换的准确度。

第一方面，本申请提供一种语音转换方法，包括：

获取训练样本数据，所述训练样本数据包括第一样本对或第二样本对，所述第一样本对包括第一语音数据和第二语音数据，所述第一语音数据对应的情绪标签与第二语音数据对应的情绪标签不同，所述第二样本对包括第三语音数据和所述第三语音数据对应的文本信息；

调用预设的语音转换模型，所述语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层；

若所述训练样本数据为所述第一样本对，则将所述第一语音数据输入所述语音编码器进行编码操作，得到语音特征向量，并将所述第二语音数据输入所述情绪编码器进行编码操作，得到第一情绪特征向量；

将所述语音特征向量和所述第一情绪特征向量输入所述特征转换层进行处理，得到第一线性谱图和第一梅尔谱图；

根据所述第一线性谱图和所述第一梅尔谱图，确定所述语音转换模型是否收敛；以及

若所述训练样本数据为所述第二样本对，则将所述第三语音数据输入所述情绪编码器进行编码操作，得到第二情绪特征向量，并将所述文本信息输入所述文本编码器进行编码操作，得到文本特征向量；

将所述文本特征向量和所述第二情绪特征向量输入所述特征转换层进行处理，得到第二线性谱图和第二梅尔谱图；

根据所述第二线性谱图和所述第二梅尔谱图，确定所述语音转换模型是否收敛；

若所述语音转换模型未收敛，则更新所述语音转换模型的模型参数，并执行获取训练样本数据的步骤，直至所述语音转换模型收敛；

获取待转换的目标语音数据，以及获取表征目标情绪的参考语音数据；

将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型，得到表征所述目标情绪的目标语音信号。

第二方面，本申请还提供一种语音转换装置，所述语音转换装置包括：

获取模块，用于获取训练样本数据，所述训练样本数据包括第一样本对或第二样本对，所述第一样本对包括第一语音数据和第二语音数据，所述第一语音数据对应的情绪标签与第二语音数据对应的情绪标签不同，所述第二样本对包括第三语音数据和所述第三语音数据对应的文本信息；

调用模块，用于调用预设的语音转换模型，所述语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层；

第一编码模块，用于若判断所述训练样本数据为所述第一样本对，则将所述第一语音数据输入所述语音编码器进行编码操作，得到语音特征向量，并将所述第二语音数据输入所述情绪编码器进行编码操作，得到第一情绪特征向量；

第一转换模块，用于将所述语音特征向量和所述第一情绪特征向量输入所述特征转换层进行处理，得到第一线性谱图和第一梅尔谱图；

第一确定模块，用于根据所述第一线性谱图和所述第一梅尔谱图，确定所述语音转换模型是否收敛；以及

第二编码模块，用于若判断所述训练样本数据为所述第二样本对，则将所述第三语音数据输入所述情绪编码器进行编码操作，得到第二情绪特征向量，并将所述文本信息输入所述文本编码器进行编码操作，得到文本特征向量；

第二转换模块，用于将所述文本特征向量和所述第二情绪特征向量输入所述特征转换层进行处理，得到第二线性谱图和第二梅尔谱图；

第二确定模块，用于根据所述第二线性谱图和所述第二梅尔谱图，确定所述语音转换模型是否收敛；

更新模块，用于若所述语音转换模型未收敛，则更新所述语音转换模型的模型参数，并执行获取训练样本数据的步骤，直至所述语音转换模型收敛；

所述获取模块，还用于获取待转换的目标语音数据，以及获取表征目标情绪的参考语音数据；

输入模块，用于将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型，得到表征所述目标情绪的目标语音信号。

第三方面，本申请还提供一种服务器，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的语音转换方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的语音转换方法的步骤。

本申请提供一种语音转换方法、装置、服务器及存储介质，本申请通过获取训练样本数据，训练样本数据包括第一样本对或第二样本对，第一样本对包括第一语音数据和第二语音数据，第二样本对包括第三语音数据和第三语音数据对应的文本信息；调用预设的语音转换模型，包括文本编码器、语音编码器、情绪编码器和特征转换层；若训练样本数据为第一样本对，则将第一语音数据输入语音编码器，得到语音特征向量，并将第二语音数据输入情绪编码器，得到第一情绪特征向量；将语音特征向量和第一情绪特征向量输入特征转换层，得到第一线性谱图和第一梅尔谱图；根据第一线性谱图和第一梅尔谱图，确定语音转换模型是否收敛；以及，若训练样本数据为第二样本对，则将第三语音数据输入情绪编码器，得到第二情绪特征向量，并将文本信息输入文本编码器，得到文本特征向量；将文本特征向量和第二情绪特征向量输入特征转换层，得到第二线性谱图和第二梅尔谱图；根据第二线性谱图和第二梅尔谱图，确定语音转换模型是否收敛；若语音转换模型未收敛，则更新语音转换模型的模型参数，并执行获取训练样本数据的步骤，直至语音转换模型收敛；将待转换的目标语音数据以及表征目标情绪的参考语音数据输入收敛的语音转换模型，得到目标语音信号。本申请通过文本编码器、语音编码器和情绪编码器进行多任务学习，使语音转换模型的网络参数朝着文本内容信息拟合，从而帮助语音转换模型学习语言内容信息，能够提高语音转换模型的性能并保持模型训练的稳定性，从而提高语音转换的准确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音转换方法的步骤流程示意图；

图2为图1中的语音转换方法的一子步骤流程示意图；

图3为图1中的语音转换方法的另一子步骤流程示意图；

图4为本申请实施例提供的一种语音转换装置的示意性框图；

图5为图4中的语音转换装置的一子模块的示意性框图；

图6为图4中的语音转换装置的另一子模块的示意性框图；

图7为本申请实施例提供的一种服务器的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种语音转换方法、装置、服务器及存储介质。其中，该语音转换方法可应用于服务器中，该服务器存储有语音转换模型，语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层。该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种语音转换方法的步骤流程示意图。

如图1所示，该语音转换方法包括步骤S101至步骤S108。

步骤S101、获取训练样本数据，训练样本数据包括第一样本对或第二样本对。

其中，第一样本对包括第一语音数据和第二语音数据，第一语音数据对应的情绪标签与第二语音数据对应的情绪标签不同，第二样本对包括第三语音数据和第三语音数据对应的文本信息。其中，情绪标签包括平静、喜悦、悲伤、生气、恐惧、惊讶和困惑等，第一样本对可以是一个或多个，第二样本对也可以是一个或多个。

在一实施例中，第三语音数据对应的情绪标签与第一语音数据对应的情绪标签相同。当第三语音数据对应的情绪标签与第一语音数据对应的情绪标签相同时，在后续的实现文本到语音转换(Text-to-Speech，TTS)的模型训练中，语音转换模型的模型参数不会被不同情绪所影响而朝着学习文本内容信息的嵌入空间方向拟合，有助于语音转换模型学习语言内容信息。

在一实施例中，如图2所示，步骤S101包括：子步骤S1011至子步骤S1013。

子步骤S1011、获取多个训练样本，训练样本包括语音数据、语音数据对应的文本信息和情绪标签。

其中，语音数据为用户通过不同情绪分别录制的语音数据，例如用户A通过平静、喜悦、悲伤、生气、恐惧、惊讶和困惑共七种情绪分别录制3000条语音，得到21000条语音数据，每条语音数据各自标注有语音数据对应的文本信息和情绪标签，得到21000个训练样本。

子步骤S1012、根据多个训练样本，构造第一样本对和第二样本对。

其中，第一样本对包括表征不同情绪的第一语音数据和第二语音数据，第一样本对用于执行语音到语音转换(Voice conversion,VC)的模型训练，将第一语音数据输入语音编码器，并将第二语音数据输入情绪编码器，使语音转换模型学习不同情绪的语言内容信息。第二样本对包括第三语音数据和第三语音数据对应的文本信息，用于执行文本到语音转换(Text-to-Speech,TTS)的模型训练，将第三语音数据输入情绪编码器，并将文本信息输入文本编码器，使语音转换模型朝着学习文本内容信息的嵌入空间方向拟合，从而帮助语音转换模型学习语言内容信息。

在一实施例中，根据多个训练样本，构造第一样本对和第二样本对，包括：确定待选取的第一情绪标签和第二情绪标签；从多个训练样本中选取第一情绪标签对应的第一语音数据与第二情绪标签对应的第二语音数据进行组合，得到第一样本对；从多个训练样本中选取第三语音数据与第三语音数据对应的文本信息进行组合，得到多个第二样本对。

需要说明的是，第一情绪标签和第二情绪标签可以灵活设置或随机选取，第三语音数据对应的情绪标签可以与第一情绪标签或者第二情绪标签相同。将第一情绪标签对应的第一语音数据与第二情绪标签对应的第二语音数据组合为一个样本对，以及将第三语音数据与第三语音数据对应的文本信息组合为一个样本对，有利于进行语音到语音转换VC和文本到语音转换TTS的多任务学习，从而提高语音转换模型的性能。

在一实施例中，构造多个第一样本对和多个第二样本对，包括：确定待选取的第一情绪标签；根据设定的批量大小(batchsize)，从多个训练样本中多次选取第一情绪标签对应的第一语音数据与除第一情绪标签之外的其他情绪标签对应的第二语音数据进行组合，得到多个第一样本对；根据设定的批量大小(batchsize)，从多个训练样本中选取第一情绪标签对应的第三语音数据与第三语音数据对应的文本信息进行组合，得到多个第二样本对。其中，批量大小可灵活设置，例如批量大小为30个，第三语音数据对应的情绪标签可以与第一语音数据对应的情绪标签相同，且批量的第一样本对用于进行语音转换VC，批量的第二样本对用于进行文本到语音转换TTS，有利于保持语音转换模型的模型训练过程的稳定性。

示例性的，批量大小为30个，第一情绪标签为平静，对应的通过多个训练样本生成30个第一样本对和30个第二样本对，其中第一样本对的每个第一语音数据的情绪标签都为平静，第二语音数据的情绪标签可以是除了平静外的如喜悦、悲伤、生气、恐惧等，第三语音数据的情绪标签也都为平静。

子步骤S1013、选取第一样本对或者第二样本对作为训练样本数据。

其中，根据具体情况选取第一样本对或者第二样本对作为训练样本数据，用于对语音转换模型进行训练。可以理解的是，本申请的语音转换模型的模型训练过程包括语音到语音转换VC和文本到语音转换TTS，通过轮番进行语音到语音转换VC或者文本到语音转换TTS来进行多任务学习，当需要进行语音到语音转换时选取第一样本对，当需要进行文本到语音转换时选取第二样本对。

在一实施例中，确定模型训练任务，模型训练任务包括第一训练任务和第二训练任务，第一训练任务用于实现语音到语音转换的模型训练，第二训练任务用于实现文本到语音转换的模型训练；若模型训练任务为第一训练任务，则确定将第一样本对作为训练样本数据；若模型训练任务为第二训练任务，则确定将第二样本对作为训练样本数据。需要说明的是，当模型训练任务为第一训练任务时，选取第一样本对作为训练样本数据，有利于实现语音到语音转换的模型训练。当模型训练任务为第二训练任务时，选取第二样本对作为训练样本数据，有利于实现文本到语音转换的模型训练，从而提高语音转换模型的性能。

其中，确定模型训练任务，包括：确定预设函数的输出结果，预设函数包括随机生成第一元素和第二元素的函数；当输出结果为第一元素时，确定模型训练任务为第一训练任务；当输出结果为第二元素时，确定模型训练任务为第二训练任务。需要说明的是，预设函数例如为一个均匀产生(0，1)整数的随机函数，第一元素例如为0，第二元素例如为1。可以理解的是，预设函数也可以是其他能够生成两个或两个以上元素的函数，本实施例不做具体限定。

步骤S102、调用预设的语音转换模型，语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层。

语音转换模型可以预先存储于服务器中，语音编码器用于对第一语音数据进行编码操作，得到语音特征向量；情绪编码器用于对第二语音数据进行编码操作，得到第一情绪特征向量，或者对第三语音数据进行编码操作，得到第二情绪特征向量；文本编码器用于对第三语音数据的文本信息进行编码操作，得到文本特征向量；特征转换层用于对语音特征向量和第一情绪特征向量进行处理，得到第一线性谱图和第一梅尔谱图，或者对文本特征向量和第二情绪特征向量输入特征转换层进行处理，得到第二线性谱图和第二梅尔谱图。

示例性的，语音编码器由LSTM网络堆叠而成，情绪编码器由LSTM层和全连接层组合而成，特征转换层包括注意力层、解码器和后处理网络，文本编码器由字符嵌入层、Pre-Net(去雨网络)和提取序列特征CBHG网络组成。可以理解的是，文本编码器、语音编码器、情绪编码器和特征转换层也可以由其他的卷积神经网络、循环卷积神经网络等组成，本实施例不做具体限定。

步骤S103a、若训练样本数据为第一样本对，则将第一语音数据输入语音编码器进行编码操作，得到语音特征向量，并将第二语音数据输入情绪编码器进行编码操作，得到第一情绪特征向量。

其中，语音编码器用于对输入的语音数据进行编码操作，以提取语音数据的语音特征信息，得到语音特征向量，情绪编码器用于对输入的语音数据进行编码操作，以提取语音数据的情绪特征信息，得到情绪特征向量。情绪编码器只提取情绪特征信息，去除语言内容信息。语音特征向量和情绪特征向量用于实现语音到语音转换的模型训练，从而帮助语音转换模型学习语言内容信息，能够提高语音转换模型的性能，从而提高语音转换的准确度。

示例性的，语音编码器由LSTM网络堆叠而成，情绪编码器由LSTM层和全连接层组合而成。通过语音编码器，可对第一语音数据x_c进行特征提取得到语音特征向量h_c＝ContentEncoder(x_c)，通过情绪特征向量，对第二语音数据x_s进行特征提取得到情绪特征向量h_s＝StyleEncoder(x_s)。

步骤S104a、将语音特征向量和第一情绪特征向量输入特征转换层进行处理，得到第一线性谱图和第一梅尔谱图。

语音转换模型还包括特征转换层，特征转换层用于对语音特征向量和第一情绪特征向量进行特征转换处理，以生成第一语音数据的第一线性谱图和第一梅尔谱图。

在一实施例中，特征转换层包括注意力层、解码器和后处理网络；通过注意力层，对语音特征向量和第一情绪特征向量进行映射，得到目标特征向量；通过解码器，对目标特征向量进行解码，得到第一梅尔谱图；通过后处理网络，对第一梅尔频谱进行处理，得到第一线性谱图。其中，解码层例如包括一层包含256个GRU网络的RNN注意力模型与两层residual(残差)GRU网络。需要说明的是，注意力层将语音特征向量和第一情绪特征向量映射到同一空间，得到目标特征向量，再连接到解码器将目标特征向量解码为第一梅尔谱图，第一梅尔谱图输入至后处理层，得到对应的第一线性谱图，从而能够根据第一线性谱图和第一梅尔谱图，计算语音转换模型的损失值。

步骤S105a、根据第一线性谱图和第一梅尔谱图，确定语音转换模型是否收敛。

得到第一线性谱图和第一梅尔谱图之后，通过第一线性谱图和第一梅尔谱图，能够计算语音转换模型的损失值，并根据该损失值确定语音转换模型是否收敛。若语音转换模型未收敛，则可根据语音转换模型的损失值更新语音转换模型的模型参数。

在一实施例中，获取第一语音数据的真实线性谱图和真实梅尔谱图；根据真实梅尔谱图和第一梅尔谱图，计算语音转换模型的第一损失值；根据真实线性谱图和第一线性谱图计算语音转换模型的第二损失值；将该第一损失值和第二损失值相加，得到语音转换模型的总损失值；确定该总损失值是否小于等于预设损失值；若确定该总损失值小于等于预设损失值，则确定语音转换模型收敛；若确定该总损失值大于预设损失值，则确定语音转换模型为收敛。其中，真实梅尔谱图是根据第一语音数据的声谱图进行梅尔过滤变换得到的，例如，对语音数据进行傅里叶变换，得到语音数据的声谱图，将语音数据的声谱图景观梅尔标度滤波器组，得到真实梅尔频谱，而真实线性谱图是根据真实梅尔频谱进行处理得到。需要说明的是，若确定语音转换模型为收敛，则语音转换模型需要继续进行训练，从而保证语音转换模型的性能。

步骤S103b、若训练样本数据为第二样本对，则将第三语音数据输入情绪编码器进行编码操作，得到第二情绪特征向量，并将文本信息输入文本编码器进行编码操作，得到文本特征向量。

文本编码器用于对输入的文本信息进行编码操作，以提取文本信息的文本特征向量，情绪编码器用于对输入的语音数据进行编码操作，能够提取输入的第三语音数据的第二情绪特征信息，从而通过文本特征向量和第二情绪特征信息实现文本到语音转换的模型训练，从而帮助语音转换模型学习文本内容信息，有助于语音转换模型捕获源语音内容的嵌入表示，使网络参数朝着文本内容信息拟合，有利于提高语音转换模型的性能。

示例性的，文本编码器由字符嵌入层、Pre-Net(去雨网络)和提取序列特征CBHG网络组成，其中Pre-Net可由用线性整流函数(Rectified Linear Unit，ReLU)激活的两个FC层组成，情绪编码器由LSTM层和全连接层组合而成。

步骤S104b、将文本特征向量和第二情绪特征向量输入特征转换层进行处理，得到第二线性谱图和第二梅尔谱图。

语音转换模型还包括特征转换层，特征转换层可用于对文本特征向量和第二情绪特征向量进行特征转换处理，以生成第三语音数据的第二线性谱图和第二梅尔谱图。

在一实施例中，特征转换层包括注意力层、解码器和后处理网络；通过注意力层，对语音特征向量和第二情绪特征向量进行映射，得到目标特征向量；通过解码器，对目标特征向量进行解码，得到第二梅尔谱图；通过后处理网络，对第二梅尔频谱进行处理，得到第二线性谱图。需要说明的是，注意力层将语音特征向量和第二情绪特征向量映射到同一空间，得到目标特征向量，再连接到解码器将目标特征向量解码为第二梅尔谱图，第二梅尔谱图输入至后处理层，得到对应的第二线性谱图，从而能够根据第二线性谱图和第二梅尔谱图，计算语音转换模型的损失值。

步骤S105b、根据第二线性谱图和第二梅尔谱图，确定语音转换模型是否收敛。

得到第二线性谱图和第二梅尔谱图之后，通过第二线性谱图和第二梅尔谱图，能够计算语音转换模型的损失值，并根据该损失值确定语音转换模型是否收敛。若语音转换模型未收敛，则可根据语音转换模型的损失值更新语音转换模型的模型参数。

在一实施例中，获取第二语音数据的真实线性谱图和真实梅尔谱图；根据真实梅尔谱图和第二梅尔谱图，计算语音转换模型的第三损失值；根据真实线性谱图和第二线性谱图计算语音转换模型的第四损失值；将该第三损失值和第四损失值相加，得到语音转换模型的总损失值；确定该总损失值是否小于等于预设损失值；若确定该总损失值小于等于预设损失值，则确定语音转换模型收敛；若确定该总损失值大于预设损失值，则确定语音转换模型为收敛。若确定语音转换模型未收敛，则语音转换模型需要继续进行训练，从而保证语音转换模型的性能。若确定语音转换模型收敛，则结束训练，得到训练好的语音转换模型，该训练好的语音转换模型经过多任务学习，网络参数朝着文本内容信息拟合，语音转换模型的性能更优，能够提高语音转换的准确度。

步骤S106、若语音转换模型未收敛，则更新语音转换模型的模型参数，并执行获取训练样本数据的步骤，直至语音转换模型收敛。

若语音转换模型未收敛，则语音转换模型需要继续进行训练，从而保证语音转换模型的性能。通过语音转换模型的总损失值调整语音转换模型的模型参数，并执行获取训练样本数据的步骤，即重新获取训练样本数据，训练样本数据包括第一样本对或第二样本对，通过包括第一样本对或第二样本对对调整模型参数的语音转换模型进行训练，直至语音转换模型收敛，得到训练好的语音转换模型。通过语音到语音转换VC和文本到语音转换TTS的多任务学习，提高语音转换模型的性能，有效避免跳词、漏词、重复，语音转换模型的训练过程的稳定性更好。

在一实施例中，通过第一样本对对语音转换模型进行训练，包括步骤S103a至S105a，在更新语音转换模型的模型参数时，是根据第一线性谱图和第一梅尔谱图确定的损失值进行更新的。通过第二样本对对语音转换模型进行训练，包括步骤S103b至S105b，在更新语音转换模型的模型参数时，是根据第二线性谱图和第二梅尔谱图确定的损失值进行更新的。

在一实施例中，确定语音转换模型的迭代次数是否达到预设迭代次数，若确定语音转换模型的迭代次数达到预设迭代次数，则确定语音转换模型处于收敛状态；若确定语音转换模型的迭代次数未达到预设迭代次数，则确定语音转换模型未处于收敛状态；或者，确定语音转换模型的迭代时间是否大于等于预设迭代时间，若语音转换模型的迭代时间大于等于预设迭代时间，则确定语音转换模型处于收敛状态；若语音转换模型的迭代时间小于预设迭代时间，则确定语音转换模型未处于收敛状态。预设迭代时间和预设迭代次数可由用户灵活设置，本申请实施例不做具体限定。

步骤S107、获取待转换的目标语音数据，以及获取表征目标情绪的参考语音数据。

其中目标情绪的参考语音数据可以由用户自行指定，例如表示愤怒、悲哀、恐惧、快乐、惊奇和厌恶等情绪的参考语音数据，通过参考语音数据获取目标情绪的情绪特征信息。

步骤S108、将目标语音数据和参考语音数据输入收敛的语音转换模型，得到表征目标情绪的目标语音信号。

将目标语音数据和参考语音数据输入收敛的语音转换模型，生成目标语音信号，目标语音信号能够表征目标情绪，相当于将参考语音数据的目标情绪转换至目标语音信号。有利的，在语音转换后全面保留语言信息，避免跳词、漏词、重复，并且可以在转换过程中融合特定情绪，可以有效的提高语音转换的准确度，生成更加准确的目标语音信号。

在一实施例中，如图3所示，步骤S108包括：子步骤S1081至子步骤S1083。

子步骤S1081、将目标语音数据输入语音编码器进行编码操作，以提取目标语音数据的语音特征向量，将参考语音数据输入情绪编码器进行编码操作，以提取参考语音数据的情绪特征向量。

语音编码器用于提取目标语音数据的语音特征信息，对输入的目标语音数据进行编码操作，得到目标语音数据的语音特征向量，情绪编码器用于提取参考语音数据的情绪特征信息，对输入的参考语音数据进行编码操作，得到参考语音数据的情绪特征向量。情绪编码器只提取参考语音数据的情绪特征信息，去除参考语音数据的语言内容信息。通过多任务学习班组语音转换模型学习语言内容信息，语音转换的准确度更高。

子步骤S1082、将目标语音数据的语音特征向量和参考语音数据的情绪特征向量输入特征转换层进行处理，得到目标线性谱图。

特征转换层用于对目标语音数据的语音特征向量和参考语音数据的情绪特征向量进行特征转换处理，以生成目标语音数据的目标线性谱图。具体处理过程可参考前述步骤S104a或者步骤S104b记载的实施例。

示例性的，特征转换层包括注意力层、解码器和后处理网络；通过注意力层，对目标语音数据的语音特征向量和参考语音数据的情绪特征向量进行映射，得到目标特征向量；通过解码器，对目标特征向量进行解码，得到目标梅尔谱图；通过后处理网络，对目标梅尔频谱进行处理，得到目标线性谱图。需要说明的是，注意力层将语音特征向量和情绪特征向量映射到同一空间，得到目标特征向量，再连接到解码器将目标特征向量解码为目标梅尔谱图，目标梅尔谱图输入至后处理层，得到对应的目标线性谱图，从而能够根据目标线性谱图输出目标语音信号。

子步骤S1083、将目标线性谱图转换输入收敛的语音转换模型的声码器进行声码转换，得到表征目标情绪的目标语音信号。

其中，声码器(vocoder)声码器可以分成：通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器。将线性谱图输入至声码器，得到目标语音信号，该目标语音信号完成了语音转换，将线性谱图转换为能够播放的wav文件，并能够表征目标情绪。

需要说明的是，语音转换模型的多任务学习在训练阶段已经完成，语音转换模型的网络参数在进行文字到语音转换的训练过程中朝着文本内容信息拟合，有助于语音转换模型学习语言内容信息，模型性能得到了极大提高，能够大大语音转换的准确度，生成更加准确的目标语音信号。

上述实施例提供的语音转换方法，通过获取训练样本数据，训练样本数据包括第一样本对或第二样本对，第一样本对包括第一语音数据和第二语音数据，第二样本对包括第三语音数据和第三语音数据对应的文本信息；若训练样本数据为第一样本对，则将第一语音数据输入语音编码器，得到语音特征向量，并将第二语音数据输入情绪编码器，得到第一情绪特征向量；将语音特征向量和第一情绪特征向量输入特征转换层，得到第一线性谱图和第一梅尔谱图；根据第一线性谱图和第一梅尔谱图，确定语音转换模型是否收敛；以及，若训练样本数据为第二样本对，则将第三语音数据输入情绪编码器，得到第二情绪特征向量，并将文本信息输入文本编码器，得到文本特征向量；将文本特征向量和第二情绪特征向量输入特征转换层，得到第二线性谱图和第二梅尔谱图；根据第二线性谱图和第二梅尔谱图，确定语音转换模型是否收敛；若语音转换模型未收敛，则更新语音转换模型的模型参数，并执行获取训练样本数据的步骤，直至语音转换模型收敛；将待转换的目标语音数据以及表征目标情绪的参考语音数据输入收敛的语音转换模型，得到目标语音信号。本申请通过文本编码器、语音编码器和情绪编码器进行多任务学习，使语音转换模型的网络参数朝着文本内容信息拟合，从而帮助语音转换模型学习语言内容信息，能够提高语音转换模型的性能并保持模型训练的稳定性，从而提高语音转换的准确度。

请参照图4，图4为本申请实施例提供的一种语音转换装置的示意性框图。

如图4所示，该语音转换装置300，包括：获取模块301、调用模块302、第一编码模块303a、第一转换模块304a、第一确定模块305a、第二编码模块303b、第二转换模块304b、第二确定模块305b和更新模块306和输入模块307。

获取模块301，用于获取训练样本数据，训练样本数据包括第一样本对或第二样本对，第一样本对包括第一语音数据和第二语音数据，第一语音数据对应的情绪标签与第二语音数据对应的情绪标签不同，第二样本对包括第三语音数据和第三语音数据对应的文本信息；

调用模块302，用于调用预设的语音转换模型，所述语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层；

第一编码模块303a，用于若判断训练样本数据为第一样本对，则将第一语音数据输入语音编码器进行编码操作，得到语音特征向量，并将第二语音数据输入情绪编码器进行编码操作，得到第一情绪特征向量；

第一转换模块304a，用于将语音特征向量和第一情绪特征向量输入特征转换层进行处理，得到第一线性谱图和第一梅尔谱图；

第一确定模块305a，用于根据第一线性谱图和第一梅尔谱图，确定语音转换模型是否收敛；以及

第二编码模块303b，用于若判断训练样本数据为第二样本对，则将第三语音数据输入情绪编码器进行编码操作，得到第二情绪特征向量，并将文本信息输入文本编码器进行编码操作，得到文本特征向量；

第二转换模块304b，用于将文本特征向量和第二情绪特征向量输入特征转换层进行处理，得到第二线性谱图和第二梅尔谱图；

第二确定模块305b，用于根据第二线性谱图和第二梅尔谱图，确定语音转换模型是否收敛；

更新模块306，用于若语音转换模型未收敛，则更新语音转换模型的模型参数，并执行获取训练样本数据的步骤，直至语音转换模型收敛。

所述获取模块301，还用于获取待转换的目标语音数据，以及获取表征目标情绪的参考语音数据；

输入模块307，用于将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型，得到表征所述目标情绪的目标语音信号。

在一个实施例中，如图5所示，所述获取模块301包括：

获取子模块3011，用于获取多个训练样本，所述训练样本包括语音数据、所述语音数据对应的文本信息和情绪标签。

构造子模块3012，用于根据所述多个训练样本，构造所述第一样本对和所述第二样本对。

选取子模块3013，用于选取所述第一样本对或者所述第二样本对作为训练样本数据。

在一个实施例中，构造子模块3012还用于：

确定待选取的第一情绪标签和第二情绪标签；

从所述多个训练样本中选取所述第一情绪标签对应的第一语音数据与所述第二情绪标签对应的第二语音数据进行组合，得到第一样本对；

从所述多个训练样本中选取第三语音数据与所述第三语音数据对应的文本信息进行组合，得到多个第二样本对。

在一个实施例中，选取子模块3013还用于：

确定模型训练任务，所述模型训练任务包括第一训练任务和第二训练任务，所述第一训练任务用于实现语音到语音转换的模型训练，所述第二训练任务用于实现文本到语音转换的模型训练；

若所述模型训练任务为第一训练任务，则确定将所述第一样本对作为训练样本数据；

若所述模型训练任务为第二训练任务，则确定将所述第二样本对作为训练样本数据。

在一个实施例中，选取子模块3013还用于：

确定预设函数的输出结果，所述预设函数包括随机输出第一元素和第二元素的函数；

当所述输出结果为所述第一元素时，确定所述模型训练任务为第一训练任务；

当所述输出结果为所述第二元素时，确定所述模型训练任务为第二训练任务。

在一个实施例中，所述特征转换层包括注意力层、解码器和后处理网络；第一转换模块304a还用于：

将所述语音特征向量和所述第一情绪特征向量输入所述注意力层进行映射，得到目标特征向量；

将所述目标特征向量输入所述解码器进行解码，得到第一梅尔谱图；

将所述第一梅尔频谱输入所述后处理网络进行处理，得到第一线性谱图。

在一个实施例中，如图6所示，所述输入模块307包括：

第一输入模块3071，用于将所述目标语音数据输入所述语音编码器进行编码操作，以提取所述目标语音数据的语音特征向量，将所述参考语音数据输入所述情绪编码器进行编码操作，以提取所述参考语音数据的情绪特征向量；

第二输入模块3072，用于将所述目标语音数据的语音特征向量和所述参考语音数据的情绪特征向量输入所述特征转换层进行处理，得到目标线性谱图；

第三输入模块3073，用于将所述目标线性谱图转换输入收敛的所述语音转换模型的声码器进行声码转换，得到表征所述目标情绪的目标语音信号。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述语音转换方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的服务器上运行。

请参阅图7，图7为本申请实施例提供的一种服务器的结构示意性框图。该服务器存储有语音转换模型，所述语音转换模型包括文本编码器、语音编码器、情绪编码器和特征转换层。

如图7所示，该服务器包括通过***总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音转换方法。

处理器用于提供计算和控制能力，支撑整个服务器的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音转换方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现所述获取训练样本数据时，用于实现：

获取多个训练样本，所述训练样本包括语音数据、所述语音数据对应的文本信息和情绪标签；

根据所述多个训练样本，构造所述第一样本对和所述第二样本对；

选取所述第一样本对或者所述第二样本对作为训练样本数据。

在一个实施例中，所述处理器在实现所述根据所述多个训练样本，构造所述第一样本对和所述第二样本对时，用于实现：

确定待选取的第一情绪标签和第二情绪标签；

在一个实施例中，所述处理器在实现所述选取所述第一样本对或者所述第二样本对作为训练样本数据时，用于实现：

在一个实施例中，所述处理器在实现所述确定模型训练任务时，用于实现：

在一个实施例中，所述特征转换层包括注意力层、解码器和后处理网络；所述处理器在实现所述将所述语音特征向量和所述第一情绪特征向量输入所述特征转换层进行处理，得到第一线性谱图和第一梅尔谱图时，用于实现：

在一个实施例中，所述处理器在实现所述将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型，得到表征所述目标情绪的目标语音信号时，用于实现：

将所述目标语音数据输入所述语音编码器进行编码操作，以提取所述目标语音数据的语音特征向量，将所述参考语音数据输入所述情绪编码器进行编码操作，以提取所述参考语音数据的情绪特征向量；

将所述目标语音数据的语音特征向量和所述参考语音数据的情绪特征向量输入所述特征转换层进行处理，得到目标线性谱图；

将所述目标线性谱图转换输入收敛的所述语音转换模型的声码器进行声码转换，得到表征所述目标情绪的目标语音信号。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述服务器的具体工作过程，可以参考前述语音转换方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请语音转换方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元，例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音转换方法，其特征在于，包括：

2.如权利要求1所述的语音转换方法，其特征在于，所述获取训练样本数据，包括：

3.如权利要求2所述的语音转换方法，其特征在于，所述根据所述多个训练样本，构造所述第一样本对和所述第二样本对，包括：

确定待选取的第一情绪标签和第二情绪标签；

4.如权利要求2所述的语音转换方法，其特征在于，所述选取所述第一样本对或者所述第二样本对作为训练样本数据，包括：

若所述模型训练任务为第一训练任务，则将所述第一样本对作为训练样本数据；

若所述模型训练任务为第二训练任务，则将所述第二样本对作为训练样本数据。

5.如权利要求4所述的语音转换方法，其特征在于，所述确定模型训练任务，包括：

6.如权利要求1-5中任一项所述的语音转换方法，其特征在于，所述特征转换层包括注意力层、解码器和后处理网络；所述将所述语音特征向量和所述第一情绪特征向量输入所述特征转换层进行处理，得到第一线性谱图和第一梅尔谱图，包括：

7.如权利要求1-5中任一项所述的语音转换方法，其特征在于，所述将所述目标语音数据和所述参考语音数据输入收敛的所述语音转换模型，得到表征所述目标情绪的目标语音信号，包括：

8.一种语音转换装置，其特征在于，所述语音转换装置包括：

9.一种服务器，其特征在于，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7所述的语音转换方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7所述的语音转换方法的步骤。