CN112786018A

CN112786018A - 语音转换及相关模型的训练方法、电子设备和存储装置

Info

Publication number: CN112786018A
Application number: CN202011634065.3A
Authority: CN
Inventors: 刘利娟; 胡亚军; 江源
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112786018B

Abstract

本申请公开了一种语音转换及相关模型的训练方法、电子设备和存储装置，其中，语音转换模型的训练方法包括：获取目标对象的第一样本语音以及预训练的语音转换模型；语音转换模型是利用样本对象的第二样本语音及其经音色转换后的第三样本语音预训练得到的；利用音素识别网络识别第一样本语音的第一音素信息，并提取第一样本语音的第一实际声学信息；利用声学预测网络对第一音素信息和第一实际声学信息进行预测，得到第一预测声学信息，并基于第一实际声学信息和第一预测声学信息之间的差异，调整声学预测网络的网络参数；将音素识别网络和调整后的声学预测网络的组合，作为与目标对象匹配的语音转换模型。上述方案，能够提高语音转换的质量。

Description

语音转换及相关模型的训练方法、电子设备和存储装置

技术领域

本申请涉及语音合成技术领域，特别是涉及一种语音转换及相关模型的训练方法、电子设备和存储装置。

背景技术

语音转换是语音合成领域中的一个重要分支，其目的在于将源对象的语音进行转换，使得转换后的语音具有源对象的说话内容，同时具有目标对象的说话音色。故此，如何提高语音转换的质量成为极具研究价值的课题。

发明内容

本申请主要解决的技术问题文本是提供一种语音转换及相关模型的训练方法、电子设备和存储装置，能够提高语音转换的质量。

为了解决上述问题文本，本申请第一方面提供了一种语音转换模型的训练方法，包括：获取目标对象的第一样本语音，并获取预训练的语音转换模型；其中，语音转换模型包括音素识别网络和声学预测网络，语音转换模型是利用若干样本对象的第二样本语音和第三样本语音预训练得到的，第三样本语音是对第二样本语音进行音色转换得到的；利用音素识别网络识别第一样本语音的第一音素信息，并提取第一样本语音的第一实际声学信息；利用声学预测网络对第一音素信息和第一实际声学信息进行预测，得到第一预测声学信息，并基于第一实际声学信息和第一预测声学信息之间的差异，调整声学预测网络的网络参数；将音素识别网络和调整后的声学预测网络的组合，作为与目标对象匹配的语音转换模型。

为了解决上述问题文本，本申请第二方面提供了一种语音转换方法，包括：获取源对象的待转换语音，并获取与目标对象匹配的语音转换模型；其中，语音转换模型是利用第一方面中的语音转换模型的训练方法得到的；利用语音转换模型的音素识别网络识别待转换语音的音素信息，并提取待转换语音的实际声学信息；利用语音转换模型的声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息；利用预测声学信息，合成得到音色与目标对象相同的合成语音。

为了解决上述问题文本，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音转换模型的训练方法，或实现上述第二方面中的语音转换方法。

为了解决上述问题文本，本申请第四方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音转换模型的训练方法，或实现上述第二方面中的语音转换方法。

上述方案，获取目标对象的第一样本语音，并获取预训练的语音转换模型，且语音转换模型包括音素识别网络和声学预测网络，从而利用音素识别网络识别第一样本语音的第一音素信息，并提取第一样本语音的第一实际声学信息，由于语音转换模型是利用若干样本对象的第二样本语音和第三样本语音预训练得到的，而第三样本语音是对第二样本语音进行音色转换得到的，故有利于使预训练的语音转换模型能够对于不同音色的语音均能够准确地提取出音素信息，进而能够有利于提高第一音素信息的准确性，在此基础上，再利用声学预测网络对第一音素信息和第一实际声学信息进行预测，得到第一预测声学信息，并基于第一实际声学信息和第一预测声学信息之间的差异，调整声学预测网络的网络参数，能够进一步基于准确的第一音素信息通过约束第一实际声学信息和预测得到的第一预测声学信息来使声学预测网络学习目标对象的声学特征，进而将音素识别网络和调整后的声学预测网络的组合，作为与目标对象匹配的语音转换模型，故能够提高语音转换模型的准确性，有利于提高语音转换的质量。

附图说明

图1是本申请语音转换模型的训练方法一实施例的流程示意图；

图2是声学预测网络一实施例的框架示意图；

图3是图1中步骤S11一实施例的流程示意图；

图4是声学预测网络另一实施例的框架示意图；

图5是训练音素识别网络一实施例的流程示意图；

图6是训练音素识别网络一实施例的状态示意图；

图7是本申请语音转换方法一实施例的流程示意图；

图8是本申请电子设备一实施例的框架示意图；

图9是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“***”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音转换模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取目标对象的第一样本语音，并获取预训练的语音转换模型。

本公开实施例中，语音转换模型包括音素识别网络和声学预测网络，语音转换模型是利用若干样本对象的第二样本语音和第三样本语音预训练得到的，第三样本语音是对第二样本语音进行音色转换得到的。

在一个实施场景中，为了提高语音转换模型对不同语种的适用性，若干样本对象所采用的语种可以不完全相同。

在一个具体的实施场景中，部分样本对象所采用的语种可以相同，部分样本对象所采用的语种可以不同。例如，样本对象1和样本对象可以采用英文，样本对象3可以采用日文，样本对象4可以采用法文，在此不做限定。

在另一个具体的实施场景中，上述若干样本对象所采用的语种也可以完全不同，仍以上述样本对象1至样本对象4为例，样本对象1可以采用英文，样本对象2可以采用俄文，样本对象3可以采用日文，样本对象4可以采用法文，在此不做限定。

在又一个具体的实施场景中，为了进一步扩大语音转换模型的适用性，样本对象所采样的语种可以涵盖现实世界主要语种，例如，可以包括但不限于：中文、英文、西班牙语、法语、德语、俄语、***语、芬兰语、日语、韩语、格鲁吉亚语、马来语、越南语、泰米尔语等等，在此不做限定。

在一个实施场景中，若干样本对象的第二样本语音可以是预先收集到的。此外，为了尽可能提高预训练的语音转换模型的准确性，可以尽可能地多收集若干样本对象的第二样本语音，以尽可能全面地覆盖不同音素。例如，对于上述每种语种，可以收集预设时长(如，上百小时、上千小时等)不同环境(如，安静环境、办公室环境、会议环境等等)下的第二样本语音。在此基础上，能够使得预训练的语音转换模型学习到不同语种。

在一个具体的实施场景中，考虑到不同语种在发音特性上存在共享，故对于中文、英文等大语种可以收集更多的第二样本语音，而对于诸如芬兰语、格鲁吉亚语等小语种，可以适当降低收集的数据量。

在另一个具体的实施场景中，为了便于对不同语种进行统一建模，并共享不同语种之间发音相似性，可以采用国际音标(International Phonetic Alphabet,IPA)标注不同语种的第二样本语音的实际音素信息，从而可以通过统一的音素标注方式对不同语种进行标注，以使得不同语种之间可以共享发音相似性。

在另一个实施场景中，目标对象的第一样本语音也可以是预先收集到的。此外，在上述样本对象的第二样本语音尽可能多的情况下，可以适当少收集目标对象的第一样本语音。例如，可以至少收集100句目标对象的第一样本语音。此外，为了提高最终训练得到的与目标对象匹配的语音转换模型的准确性，目标对象的第一样本语音可以是在安静环境下采集得到的。

在一个实施场景中，预训练的语音转换模型中音素识别网络具体可以是由上述第二样本语音和第三样本语音训练得到的，而预训练的语音转换模型的声学预测网络具体是可以由上述第二样本语音训练得到的。预训练的具体训练过程可以参阅下述公开实施例，在此暂不赘述。

需要说明的是，本公开实施例以及下述公开实施例中，音素识别网络用于识别语音的音素信息，即识别语音的发音内容。例如，对于语音“天气怎么样”，可以利用音素识别网络识别得到以国际音标表示的音素信息：

其他情况可以以此类推，在此不再一一举例。此外，声学预测网络用于预测得到语音帧的声学信息，声学信息可以包括但不限于：基音频率、声音强度、声音时长等等，在此不做限定，从而可以通过语音帧的声学信息来合成语音，如可以将声学信息输入声码器来合成语音，声码器合成语音的具体过程在此不再赘述。

在一个实施场景中，音素识别网络具体可以包括但不限于：循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)等，在此不做限定。此外，声学预测网络具体可以由全连接网络、循环神经网络、卷积神经网络中的一种或者多种组成，在此不做限定。

步骤S12：利用音素识别网络识别第一样本语音的第一音素信息，并提取第一样本语音的第一实际声学信息。

本公开实施例，通过音素识别网络可以识别得到第一样本语音的第一音素信息。例如，对于第一样本语音“今天天气怎么样”，可以识别得到以国际音标表示的第一音素信息

其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，第一实际声学信息可以包括滤波器组特征信息(FilterBank,FBK)，此外，第一实际声学信息也可以包括声学联合特征信息，例如，可以包括但不限于：频谱特征、基音频率、基频清浊、非周期谐波成分等等，其中，频谱特征可以包括但不限于：梅尔倒谱系数特征(Mel Frequency Cepstrum Coefficient,MFCC)、线谱对特征、谱包络特征等，在此不做限定。

步骤S13：利用声学预测网络对第一音素信息和第一实际声学信息进行预测，得到第一预测声学信息，并基于第一实际声学信息和第一预测声学信息之间的差异，调整声学预测网络的网络参数。

在一个实施场景中，可以利用最小均方误差函数处理第一实际声学信息和第一预测声学信息，以得到声学预测网络的损失值，从而可以利用该损失值，调整声学预测网络的网络参数，进而可以使得声学预测网络能够学习到目标对象的声学特征。

在一个实施场景中，为了进一步提高声学预测模型的准确性，请结合参阅图2，图2是声学预测网络一实施例的框架示意图。如图2所示，声学预测网络可以进一步包括提取子网络和预测子网络，从而可以利用提取子网络进一步提取第一实际声学信息的韵律特征信息，并利用预测子网络对韵律特征信息和第一音素信息进行预测，得到第一预测声学信息。上述方式，通过将声学预测网络设置为包括提取子网络和预测子网络，在此基础上，利用提取子网络进一步提取第一实际声学信息的韵律特征信息，并利用预测子网络对韵律特征信息和第一音素信息进行预测，得到第一预测声学信息，能够在训练过程中避免由于声学预测网络直接复制输入的第一实际声学信息而导致声学预测网络未学习到目标对象的声学特征，有利于提高声学预测网络的准确性，此外，通过利用第一音素信息和提取到的韵律特征信息预测第一预测声学信息，能够有利于降低第一实际声学信息和第一预测声学信息之间的损失误差，进一步提高声学预测网络的准确性。

在一个具体的实施场景中，上述提取子网络可以包括但不限于：循环神经网络、卷积神经网络等，在此不做限定。

在另一个具体的实施场景中，韵律特征信息具体可以包括但不限于：声调、高低起伏等信息，在此不做限定。

在又一个具体的实施场景中，预测子网络具体可以包括但不限于：全连接网络等，在此不做限定。

在又一个具体的实施场景中，由于输入的第一实际声学信息中包含有第一样本语音中诸如音素、韵律等信息，为了使得提取子网络尽可能地从中提取出关键的韵律特征信息，以结合第一音素信息预测得到第一预测声学信息，从而降低第一实际声学信息和第一预测声学信息之间的损失误差，还可以限制提取子网络从第一实际声学信息提取的信息量，具体可以设置提取子网络输出层节点数量不超过预设阈值，例如，可以将预设阈值设置为1、2等，在此不做限定。上述方式，通过将提取子网络输出层节点数量设置为不超过预设阈值，能够限制提取子网络从第一实际声学信息提取的信息量，从而可以通过约束第一实际声学信息和第一预测声学信息之间的损失误差，使得第一实际声学信息和第一预测声学信息之间的损失误差，有利于使得声学预测网络在训练过程中学习到目标对象的声学特征，提高声学预测网络的准确性。

在又一个具体的实施场景中，为了进一步提高提取子网所提取到的韵律特征信息的准确性，还可以在提取子网络隐藏层之后连接实例归一化(Instance Normalization)层。上述方式，通过在提取子网络隐藏层之后连接实例归一化层，能够有利于规整掉说话人相关信息，从而能够降低提取子网络所提取到的说话人相关信息，进一步提高提取子网络的准确性，进而能够有利于提高声学预测网络的准确性。

步骤S14：将音素识别网络和调整后的声学预测网络的组合，作为与目标对象匹配的语音转换模型。

本公开实施例中，最终可以将音素识别网络和上述调整后的声学预测网络的组合，作为与目标对象匹配的语音转换模型。

在一个实施场景中，如前所述，若干样本对象所采样的语种可以不完全相同，从而使得音素识别网络能够识别不同语种语音的音素信息，并且能够提高声学预测网络对不同语种语音的适应性，在此基础上，能够有利于进一步实现跨语种的语音转换。具体转换过程可以参阅下述相关公开实施例，在此暂不赘述。

请参阅图3，图3是图1中步骤S11一实施例的流程示意图。具体地，图3是获取预训练的语音转换模型一实施例的流程示意图。本公开实施例具体可以包括如下步骤：

步骤S31：利用音素识别网络分别识别第二样本语音的第二音素信息和第三样本语音的第三音素信息。

如前所述，本公开实施例中，第三样本语音是对第二样本语音进行音色转换得到的。具体地，为了提高音色转换的效率，可以利用若干样本对象的第二样本语音先分别训练一个与样本对象对应的预设声学预测网络，该预设声学预测网络在训练过程中学习样本对象的声学特征。在此基础上，可以分别将上述若干样本对象作为当前对象，并将其余样本对象作为参考对象，从而利用音素识别网络以及与参考对象对应的预设声学预测网络将当前对象的第二样本语音的音色转换至参考对象，得到与音色与参考对象相同的第三样本语音。

在一个实施场景中，为了提高本公开实施例中训练音素识别网络的效率，可以从第二样本语音中选取若干安静环境下所录制的语音，为了便于描述，可以将所选取的语音所属的样本对象中第i个样本对象记为S_i。在此情形下，可以将i赋予初始值1，并将样本对象S_i作为当前对象，其余样本对象作为参考对象，从而可以将当前对象S_i的第二样本语音的音色分别转换至参考对象，得到对应的第三样本语音。在此之后，可以将i加1，并重新执行上述将样本对象S_i作为当前对象的步骤以及后续步骤。

在另一个实施场景中，与参考对象对应的预设声学预测网络的具体结构可以参阅图2以及前述公开实施例中相关描述，在此不再赘述。需要说明的是，尽管与参考对象对应的预设声学预测网络可以与前述公开实施例中语音转换模型所包含的声学预测网络共享相同的网络结构，但是由于与参考对象对应的预设声学预测网络是由参考对象的第二样本语音训练得到的，而语音转换模型所包含的声学预测网络是由目标对象的第一样本语音训练得到的，故两者网络参数并不相同，即与参考对象对应的预设声学预测网络学习到参考对象的声学特征，而语音转换模型所包含的声学预测网络学习到目标对象的声学特征。

在又一个实施场景中，为了提高将第二样本语音进行音色转换的准确性，可以先利用第二样本语音对音素识别网络进行第一训练，具体过程可以参阅下述相关公开实施例，在此暂不赘述。在此基础上，可以再利用训练得到的音素识别网络以及第二样本语音训练与样本对象对应的预设声学预测网络。

在一个具体的实施场景中，在利用第二样本语音对音素识别网络进行训练之后，针对第i个样本对象S_i，可以利用音素识别网络识别样本对象S_i的第二样本语音的音素信息，并提取样本对象S_i的第二样本语音的实际声学信息，从而可以利用样本对象S_i对应的预设声学预测网络(为了便于描述，记为W_i)对上述音素信息和实际声学信息进行预测，得到预测声学信息，并基于实际声学信息和预测声学信息之间的差异，调整预设声学预测网络W_i的网络参数，以使预设声学预测网络W_i可以学习到样本对象S_i的声学特征。具体过程可以参阅前述公开实施例中相关描述，在此不再赘述。对于其他样本对象可以以此类推，在此不再一一举例。

在又一个实施场景中，在训练得到与样本对象对应的预设声学预测网络之后，如前所述可以分别将各个样本对象作为当前对象，将其余样本对象作为参考对象。在此基础上，可以获取与参考对象对应的预设声学预测网络，从而可以利用音素识别网络识别当前对象的第二样本语音的音素信息，并提取当前对象的第二样本语音的实际声学信息，进而可以利用参考对象的预设声学预测网络对上述识别得到的音素信息和上述实际声学信息进行预测，得到预测声学信息，并利用上述预测声学信息，合成得到音色与参考对象相同的第三样本语音，即第三样本语音具有与第二样本语音相同的发音内容，且具有参考对象的音色。上述方式，通过利用若干样本对象的第二样本语音分别训练得到与样本对象对应的预设声学预测网络，从而分别将各个样本对象作为当前对象，将其余样本对象作为参考对象，并获取与参考对象对应的预设声学预测网络，进而利用音素识别网络识别当前对象的第二样本语音的音素信息，并提取当前对象的第二样本语音的实际声学信息，在此基础上，利用参考对象的预设声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，并利用预测声学信息，合成得到音色与参考对象相同的第三样本语音，能够有利于提高第三样本语音的质量以及音色转换效率。

在一个具体的实施场景中，利用音素识别网络识别当前对象的第二样本语音的音素信息的具体过程，可以参阅前述公开实施例中关于识别第一样本语音的第一音素信息相关步骤，在此不再赘述。此外，提取当前对象的第二样本语音的实际声学信息的具体过程，可以参阅前述公开实施例中关于提取第一样本语音的第一实际声学信息的相关步骤，在此不再赘述。此外，利用参考对象的预设声学预测网络对音素信息和实际声学信息进行预测的具体过程，可以参阅前述公开实施例中关于利用声学预测网络对第一音素信息和第一实际声学信息进行预测的相关步骤，在此不再赘述。

在另一个具体的实施场景中，在参考对象的预设声学预测网络预测得到预测声学信息之后，具体可以将上述预测声学信息输入声码器，合成得到音色与参考对象相同的第三样本语音。例如，当前对象的第二样本语音为“天气怎么样”，第三样本语音为具有参考对象音色的“天气怎么样”，其他情况可以以此类推，在此不再一一举例。

在又一个实施场景中，为了提高音素识别网络的准确性，在本公开实施例利用音素识别网络分别识别第二样本语音的第二音素信息和第三样本语音的第三音素信息之前，还可以先利用第二样本语音对音素识别网络进行第二训练，具体过程可以参阅下述公开实施例，在此暂不赘述。

在一个实施场景，利用音素识别网络所识别得到的第二音素信息具体可以包括第二样本语音的音素序列，其中音素序列中包含多个音素以及每个音素对应的识别概率值，为了便于描述可以记为y′_m，此外，利用音素识别网络所识别得到的第三音素信息具体可以包括第三样本语音的音素序列，其中音素序列可以包含多个音素以及每个音素对应的识别概率值，为了便于描述可以记为y′_m′。

步骤S32：基于第二音素信息和第三音素信息之间的差异，调整音素识别网络的网络参数。

在一个实施场景中，可以求取第二音素信息和第三音素信息之间的差异的数学期望，作为音素识别网络的损失值，并利用该损失值，调整音素识别网络的网络参数。为了便于描述，上述损失值可以记为L_consistent，具体可以表示为：

L_consistent＝E(||y′_m-y′_m′||²)……(1)

上述公式(1)中，E()表示数学期望，y′_m表示对第m个第二样本语音识别得到的多个音素分别对应的识别概率值，y′_m′表示对第m个第二样本语音进行音色转换得到的第三样本语音识别得到的多个音素分别对应的识别概率值。

此外，需要说明的是，如前所述，样本对象所采样的语种可以不完全相同，从而使得音素识别网络能够识别不同语种的语音，具体设置方式可以参阅前述公开实施例中的相关描述，在此不再赘述。

上述方式，通过利用音素识别网络分别识别第二样本语音的第二音素信息和第三样本语音的第三音素信息，并基于第二音素信息和第三音素信息之间的差异，调整音素识别网络的网络参数，故能够通过约束第二音素信息和第三音素信息之间的一致性损失，使得音素识别网络所提取到的音素信息尽可能地与说话人无关，即能够使得音素识别网络尽可能地降低对说话人的关注，并尽可能地提高对音素信息的关注，有利于提高音素识别网络的准确性。

在调整音素识别网络的网络参数，可以进一步调整声学预测网络的网络参数，具体如下：

步骤S33：利用音素识别网络识别第二样本语音的第四音素信息，并提取第二样本语音的第二实际声学信息。

在一个实施场景中，识别第四音素信息以及提取第二实际声学信息的具体过程，可以参阅前述公开实施例中关于识别第一音素信息和第一实际声学信息的相关步骤，在此不再赘述。

在另一个实施场景中，请结合参阅图4，图4是声学预测网络另一实施例的框架示意图。如图4所示，为了在训练过程中，区分不同样本对象，可以对不同样本对象分别进行编码，得到对象编码信息，即不同样本对象的对象编码信息也不同，具体的编码方式在此不做限定。以独热编码(one-hot)为例，对于S个样本对象而言，可以为每一样本对象编码一个长度为S的对象编码信息，且第i个样本对象的对象编码信息中第i位元素的数值为1，其他位元素的数值为0。例如，第1个样本对象可以编码为长度为S，第1个元素为1，且其余元素均为0的对象编码信息[1,0,0,…,0]^T；第2个样本对象可以编码为长度为S，第2个元素为1，且其余元素均为0的对象编码信息[0,1,0,…,0]^T，以此类推，在此不再一一举例。

步骤S34：利用声学预测网络对第四音素信息和第二实际声学信息进行预测，得到第二预测声学信息。

在一个实施场景中，利用声学预测网络预测得到第二预测声学信息的具体过程，可以参阅前述公开实施例中关于预测得到第一预测声学信息的相关步骤，在此不再赘述。

在另一个实施场景中，请继续结合参阅图4，在利用对象编码信息区分不同样本对象的情况下，可以将上述第二实际声学信息输入声学预测网络的提取子网络，以提取得到韵律特征信息，并将韵律特征信息、第四音素信息和上述对象编码信息共同输入声学预测网络的预测子网络，从而预测得到第二预测声学信息。

步骤S35：基于第二实际声学信息和第二预测声学信息之间的差异，调整声学预测网络的网络参数。

在一个实施场景中，可以利用最小均方误差函数处理第二实际声学信息和第二预测声学信息，以得到声学预测网络的损失值，从而可以利用损失值，调整声学预测网络的网络参数，进而可以提高声学预测网络学习不同对象的声学特征的能力。

在一个具体的实施场景中，声学预测网络中的提取子网络其输出层节点数量不超过预设阈值，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

在另一个具体的实施场景中，声学预测网络中的提取子网络其隐藏层之后还可以连接有实例归一化层，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

在又一个具体的实施场景中，请继续结合参阅图4，在调整声学预测网络的网络参数之后，可以进一步将预测子网络中与对象编码信息连接的网络隐藏层的参数去除，从而能够使得声学预测网络尽可能地降低对说话人的关注。

上述方式，在音素识别网络训练之后，通过利用音素识别网络识别第二样本语音的第四音素信息，并提取第二样本语音的第二实际声学信息，并利用声学预测网络对第四音素信息和第二实际声学信息进行预测，得到第二预测声学信息，从而基于第二实际声学信息和第二预测声学信息之间的差异，调整声学预测网络的网络参数，能够尽可能地降低第四音素信息所包含的说话人特征信息，进而能够有利于提高声学预测网络的准确性。

请参阅图5，图5是训练音素识别网络一实施例的流程示意图。具体地，本公开实施例是前述公开实施例中“第一训练”和“第二训练”的具体过程，具体可以包括如下步骤：

步骤S51：利用对象识别网络对第二样本语音的第二音素信息进行识别，得到第二样本语音分别属于若干样本对象的预测概率分布。

在一个实施场景中，对象识别网络具体可以包括但不限于：卷积神经网络、全连接网络等，在此不做限定。

在另一个实施场景中，请结合参阅图6，图6是训练音素识别网络一实施例的状态示意图。如图6所示，可以将第二样本语音的第二音素信息输入对象识别网络，以识别得到第二样本语音分别属于若干样本对象的预测概率分布，为了便于描述可以将第m个样本语音分别属于若干样本对象的预测概率分布记为p′_m。

步骤S52：基于第二音素信息和实际音素信息，得到第一识别损失值，并基于预测概率分布和第二样本语音所属的样本对象，得到第二识别损失值。

本公开实施例中，第二样本语音可以标注有实际音素信息。例如，第二样本语音“天气怎么样”，可以以国际音标标注有实际音素信息

其他情况可以以此类推，在此不再赘述。

在一个实施场景中，如前述公开实施例所述，利用音素识别网络所识别得到的第二音素信息具体可以包括第二样本语音的音素序列，其中音素序列中包含多个音素以及每个音素对应的识别概率值，为了便于描述可以将第m个第二样本语音所识别得到的各个音素的识别概率值记为y′_m，从而可以利用交叉熵损失函数第二音素信息和实际音素信息，得到第一识别损失值L_c(θ_c)，具体可以表示为：

上述公式(2)中，M表示第二样本语音的总数量，θ_c表示音素识别网络的网络参数，y_m表示第m个第二样本语音的实际音素信息，CE()表示交叉熵损失函数，交叉熵损失函数的具体算式在此不再赘述。

在另一个实施场景中，为了进一步约束音素识别网络尽可能地降低对说话人的关注，还可以预测概率分布和预设概率分布之间的差异，以及上述第二音素信息和实际音素信息之间差异，得到第一识别损失值，其中预设概率分布包含第二样本语音分别属于若干样本对象的预设概率值，且各个预设概率值相同，为了便于描述，以S个样本对象为例，预设概率值可以表示为1/S，故预设概率分布可以表示为[1/S,1/S,…,1/S]^T，其他情况可以以此类推，从而第一识别损失值L_c(θ_c)可以表示为：

上述公式(3)中，e表示预设概率分布，p′_m表示第m个第二样本语音的预测概率分布。上述方式，在训练过程中，通过约束预测概率分布趋于预设概率分布，能够进一步约束音素识别网络尽可能地降低对说话人的关注，并尽可能地提高对音素信息的关注，有利于进一步提高音素识别网络的准确性。

在一个实施场景中，具体可以采用交叉熵损失函数处理预测概率分布和第二样本语音所属的样本对象，得到第二识别损失值L_sc(θ_sc)，具体可以表示为：

上述公式(4)中，θ_sc表示对象识别网络的网络参数，p_m表示第m个样本语音所述样本对象的实际概率分布。具体地，实际概率分布p_m可以采用独热(one-hot)编码进行表示，仍以S个样本对象为例，在第m个第二样本语音属于第i个样本对象的情况下，p_m中第i个元素值可以设置为1，其余元素值可以设置为0，其他情况可以以此类推，在此不再一一举例。

步骤S53：利用第一识别损失值调整音素识别网络的网络参数，或者，利用第二识别损失值调整对象识别网络的网络参数。

在一个实施场景中，在音素识别网络的预训练过程中，音素识别网络可以是经若干次预训练得到的，则在训练次数满足预设条件的情况下，利用第一识别损失值调整音素识别网络的网络参数，而在训练此处不满足预设条件的情况下，利用第二识别损失值调整对象识别网络的网络参数。上述方式，能够在音素识别网络的训练过程中，轮番调整音素识别网络的网络参数和对象识别网络的网络参数，由于通过调整音素识别网络的网络参数，能够降低音素识别网络对说话人的关注，提高识别到的音素信息的准确性，而通过调整对象识别网络的网络参数，能够提高对象识别网络通过音素信息识别语音所属对象的准确性，故能够通过提高对象识别网络的性能，促进音素识别网络所识别的音素信息尽可能地少包含说话人相关信息，进而使得两者相互促进、相辅相成，最终能够尽可能地提高对音素信息的关注，有利于进一步提高音素识别网络的准确性。

在一个具体的实施场景中，预设条件可以包括：训练次数为奇数。例如，在第1次训练时，可以利用第一识别损失值调整音素识别网络的网络参数，在第2次训练时，可以利用第二识别损失值调整对象识别网络的网络参数，在第3次训练时，可以继续利用第一识别损失值调整音素识别网络的网络参数，以此类推，在此不再一一举例。

在另一个具体的实施场景中，预设条件也可以包括：训练次数为偶数。例如，在第1次训练时，可以利用第二识别损失值调整对象识别网络的网络参数，在第2次训练时，可以利用第一识别损失值调整音素识别网络的网络参数，在第3次训练时，可以利用第二识别损失值调整对象识别网络的网络参数，以此类推，在此不再一一举例。

区别于前述实施例，第二样本语音标注有实际音素信息，并利用对象识别网络对第二样本语音的第二音素信息进行识别，得到第二样本语音分别属于若干样本对象的预测概率分布，从而基于第二音素信息和实际音素信息，得到第一识别损失值，并基于预测概率分布和第二样本语音所属的样本对象，得到第二识别损失值，进而利用第一识别损失值调整音素识别网络的网络参数，或者，利用第二识别损失值调整对象识别网络的网络参数，故能够在训练音素识别网络的过程中，从音素识别维度和对象识别维度两个层面，约束音素识别网络尽可能地降低对说话人的关注，并尽可能地提高对音素信息的关注，有利于进一步提高音素识别网络的准确性。

在一些公开实施例中，在获取目标对象的第一样本语音以及若干样本对象的第二样本语音之后，可以先对第二样本语音进行音色转换，得到第三样本语音；在利用第二样本语音和第三样本语音对语音转换模型进行预训练；最终利用第一样本语音训练得到与目标对象匹配的语音转换模型。

在一个实施场景中，首先，可以初步训练音素识别网络，使其具备音素识别能力。具体地，可以利用对象识别网络对第二样本语音的音素信息进行识别，得到第二样本语音分别属于若干样本对象的预测概率分布，以及基于音素信息和实际音素信息，得到第一识别损失值，并基于预测概率分布和第二样本语音所属的样本对象，得到第二识别损失值，从而利用第一识别损失值调整音素识别网络的网络参数，或者，利用第二识别损失值调整对象识别网络的网络参数，至此音素识别网络具备准确地识别音素的能力。接着，可以初步训练声学预测网络，使其具备声学预测能力。具体地，可以利用音素识别网络识别第二样本语音的音素信息，并提取第二样本语音的实际声学信息，以及利用声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，从而基于实际声学信息和预测声学信息之间的差异，调整声学预测网络的网络参数，至此声学预测网络具备准确地预测声学特征的能力。然后，可以训练样本对象对应的预设声学预测网络。具体可以将调整后的声学预测网络分别作为与样本对象对应的预设声学预测网络，对于每一样本对象而言，可以利用音素识别网络识别该样本对象的第二样本语音的音素信息，并提取该样本对象的第二样本语音的实际声学信息，从而利用该样本对象对应的预设声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，并基于实际声学信息和预测声学信息之间的差异，调整该样本对象的预设声学预测网络的网络参数，进而可以训练得到与该样本对象对应的预设声学预测网络。最终，可以分别将各个样本对象作为当前对象，将其余样本对象作为参考对象，并利用音素识别网络以及参考对象对应的预设声学预测网络将当前对象的第二样本语音的音色转换至参考对象，得到第三样本语音。具体地，可以获取与参考对象对应的预设声学预测网络，从而利用音素识别网络识别当前对象的第二样本语音的音素信息，并提取当前对象的第二样本语音的实际声学信息，进而利用参考对象的预设声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，并利用预测声学信息，合成得到音色与参考对象相同的第三样本语音。

在另一个实施场景中，在得到第三样本语音之后，可以对音素识别网络和声学预测网络进行预训练。首先，可以将对象识别网络和音素识别网络进行联合训练。具体地，可以利用对象识别网络对第二样本语音的音素信息进行识别，得到第二样本语音分别属于若干样本对象的预测概率分布，从而基于音素信息和实际音素信息，得到第一识别损失值，并基于预测概率分布和第二样本语音所属的样本对象，得到第二识别损失值，进而利用第一识别损失值调整音素识别网络的网络参数，或者，利用第二识别损失值调整对象识别网络的网络参数。接着，可以基于一致性损失进一步训练音素识别网络。具体地，可以利用音素识别网络分别识别第二样本语音的音素信息和第三样本语音的音素信息，从而基于第二样本语音的音素信息和第三样本语音的音素信之间的差异，调整音素识别网络的网络参数。最终，可以基于训练好的音素识别网络，继续训练声学预测网络。具体地，可以利用音素识别网络识别第二样本语音的音素信息，并提取第二样本语音的实际声学信息，从而利用声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，进而基于实际声学信息和预测声学信息之间的差异，调整声学预测网络的网络参数。

在又一个实施场景中，在预训练结束之后，即可利用第一样本语音进一步训练得到与目标对象匹配的语音转换模型。具体可以参阅前述公开实施例，在此不再赘述。

请参阅图7，图7是本申请语音转换方法一实施例的流程示意图。具体可以包括如下步骤：

步骤S71：获取源对象的待转换语音，并获取与目标对象匹配的语音转换模型。

本公开实施例中，语音转换模型是利用上述任一语音转换模型的训练方法训练得到的，具体可以参阅前述公开实施例，在此不再赘述。此外，源对象指的是待转换语音所属的对象，源对象具体是何人在此不做限定。例如，在翻译场景中，待转换语音可以是翻译机内置的语音，源对象即是翻译机内置的语音所属的对象。其他场景可以以此类推，在此不再一一举例。

在一个实施场景中，训练语音转换模型所采用的第二样本语音所属的样本对象所采用的语种可以不完全相同，在此情形下，源对象所采用的语种在此也不做限定。例如，在翻译场景中，目标对象会中文，但需要采用英文与别人进行沟通，则翻译机在接收到英文会话之后，可以将其翻译为中文供目标对象参考，并在翻译机内输入上述英文会话的回复文本，翻译机可以将该回复文本合成为英文语音，在此基础上，可以将该英文语音作为待转换语音。其他场景可以以此类推，在此不再一一举例。

步骤S72：利用语音转换模型的音素识别网络识别待转换语音的音素信息，并提取待转换语音的实际声学信息。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。仍以前述翻译机场景为例，在前述英文语音为“what is the weather like”的情况下，可以利用音素识别网络识别得到以国际音标表示的音素信息：

其他情况可以以此类推，在此不再一一举例。

步骤S73：利用语音转换模型的声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息。

在一个实施场景中，声学预测网络可以包括提取子网络和预测子网络，从而可以利用提取子网络提取实际声学信息的韵律特征信息，进而可以利用预测子网络对韵律特征信息和音素信息进行预测，得到预测声学信息，从而可以在预测声学信息的过程中，可以对待转换语音的韵律发音规律进行建模，有利于提高后续合成得到的合成语音的韵律自然度。仍以前述翻译机场景为例，在将该英文语音作为待转换语音之后，可以利用音素识别网络识别英文语音的音素信息，并提取英文语音的实际声学信息，从而利用声学预测网络对英文语音的音素信息和实际声学信息，得到带有目标对象音色特征的预测声学信息。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S74：利用预测声学信息，合成得到音色与目标对象相同的合成语音。

在一个实施场景中，可以将预测声学信息输入声码器，合成音色与目标对象相同的合成语音。具体可以参阅前述公开实施例，在此不再赘述。仍以前述翻译机场景为例，在得到带有目标对象音色特征的预测声学信息之后，即可合成得到带有目标对象音色的英文语音“what is the weather like”，从而能够使得不具备英文会话能力的目标对象，能够通过带有本人音色的合成语音采用英文进行沟通会话。其他场景可以以此类推，在此不再一一举例。

需要说明的是，本申请公开实施例还可以应用于故事机、早教机、伴读机等场景中，并不限定具体的应用场景。以故事机为例，通过获取家长(即目标对象)的第一样本语音，可以训练得到与家长匹配的语音转换模型，此外，故事机可以将故事文本合成为故事语音，从而可以将故事语音作为待转换语音，进而可以利用与家长匹配的语音转换模型将待转换语音转换为带有家长音色的合成语音，以在家长不便于给孩子讲故事的情况下，可以通过故事机合成带有家长音色的合成语音给孩子讲故事。其他场景可以以此类推，在此不再一一举例。

上述方案，通过获取源对象的待转换语音，并获取与目标对象匹配的语音转换模型，且语音转换模型是利用上述任一语音转换模型的训练方法训练得到的，并利用语音转换模型的音素识别网络识别待转换语音的音素信息，并提取待转换语音的实际声学信息，从而利用语音转换模型的声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，进而利用预测声学信息，合成得到音色与目标对象相同的合成语音，能够有利于提高语音转换的质量。

请参阅图8，图8是本申请电子设备80一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，存储器81中存储有程序指令，处理器82用于执行程序指令以实现上述任一语音转换模型的训练方法实施例中的步骤，或实现上述任一语音转换方法实施例中的步骤。具体地，电子设备80包括但不限于：台式计算机、笔记本电脑、平板电脑、手机、翻译机、故事机、早教机、伴读机、服务器等，在此不做限定。

具体而言，处理器82用于控制其自身以及存储器81以实现上述任一语音转换模型的训练方法实施例中的步骤，或实现上述任一语音转换方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。

在一些公开实施例中，处理器82用于获取目标对象的第一样本语音，并获取预训练的语音转换模型；其中，语音转换模型包括音素识别网络和声学预测网络，语音转换模型是利用若干样本对象的第二样本语音和第三样本语音预训练得到的，第三样本语音是对第二样本语音进行音色转换得到的；处理器82用于利用音素识别网络识别第一样本语音的第一音素信息，并提取第一样本语音的第一实际声学信息；处理器82用于利用声学预测网络对第一音素信息和第一实际声学信息进行预测，得到第一预测声学信息，并基于第一实际声学信息和第一预测声学信息之间的差异，调整声学预测网络的网络参数；处理器82用于将音素识别网络和调整后的声学预测网络的组合，作为与目标对象匹配的语音转换模型。

在一些公开实施例中，处理器82用于利用音素识别网络分别识别第二样本语音的第二音素信息和第三样本语音的第三音素信息；处理器82用于基于第二音素信息和第三音素信息之间的差异，调整音素识别网络的网络参数。

区别于前述实施例，通过利用音素识别网络分别识别第二样本语音的第二音素信息和第三样本语音的第三音素信息，并基于第二音素信息和第三音素信息之间的差异，调整音素识别网络的网络参数，故能够通过约束第二音素信息和第三音素信息之间的一致性损失，使得音素识别网络所提取到的音素信息尽可能地与说话人无关，即能够使得音素识别网络尽可能地降低对说话人的关注，并尽可能地提高对音素信息的关注，有利于提高音素识别网络的准确性。

在一些公开实施例中，处理器82用于利用音素识别网络识别第二样本语音的第四音素信息，并提取第二样本语音的第二实际声学信息；处理器82用于利用声学预测网络对第四音素信息和第二实际声学信息进行预测，得到第二预测声学信息；处理器82用于基于第二实际声学信息和第二预测声学信息之间的差异，调整声学预测网络的网络参数。

区别于前述实施例，在音素识别网络训练之后，通过利用音素识别网络识别第二样本语音的第四音素信息，并提取第二样本语音的第二实际声学信息，并利用声学预测网络对第四音素信息和第二实际声学信息进行预测，得到第二预测声学信息，从而基于第二实际声学信息和第二预测声学信息之间的差异，调整声学预测网络的网络参数，能够尽可能地降低第四音素信息所包含的说话人特征信息，进而能够有利于提高声学预测网络的准确性。

在一些公开实施例中，第二样本语音标注有实际音素信息，处理器82用于利用对象识别网络对第二样本语音的第二音素信息进行识别，得到第二样本语音分别属于若干样本对象的预测概率分布；处理器82用于基于第二音素信息和实际音素信息，得到第一识别损失值，并基于预测概率分布和第二样本语音所属的样本对象，得到第二识别损失值；处理器82用于利用第一识别损失值调整音素识别网络的网络参数，或者，利用第二识别损失值调整对象识别网络的网络参数。

在一些公开实施例中，处理器82用于在训练次数满足预设条件的情况下，利用第一识别损失值调整音素识别网络的网络参数；处理器82用于在训练次数不满足预设条件的情况下，利用第二识别损失值调整对象识别网络的网络参数。

区别于前述实施例，在音素识别网络的训练过程中，轮番调整音素识别网络的网络参数和对象识别网络的网络参数，由于通过调整音素识别网络的网络参数，能够降低音素识别网络对说话人的关注，提高识别到的音素信息的准确性，而通过调整对象识别网络的网络参数，能够提高对象识别网络通过音素信息识别语音所属对象的准确性，故能够通过提高对象识别网络的性能，促进音素识别网络所识别的音素信息尽可能地少包含说话人相关信息，进而使得两者相互促进、相辅相成，最终能够尽可能地提高对音素信息的关注，有利于进一步提高音素识别网络的准确性。

在一些公开实施例中，处理器82用于利用第二音素信息和实际音素信息之间差异，以及预测概率分布和预设概率分布之间的差异，得到第一识别损失值；其中，预设概率分布包含第二样本语音分别属于若干样本对象的预设概率值，且各个预设概率值相同。

区别于前述实施例，在训练过程中，通过约束预测概率分布趋于预设概率分布，能够进一步约束音素识别网络尽可能地降低对说话人的关注，并尽可能地提高对音素信息的关注，有利于进一步提高音素识别网络的准确性。

在一些公开实施例中，处理器82用于利用若干样本对象的第二样本语音分别训练得到与样本对象对应的预设声学预测网络；处理器82用于分别将各个样本对象作为当前对象，将其余样本对象作为参考对象，并获取与参考对象对应的预设声学预测网络；处理器82用于利用音素识别网络识别当前对象的第二样本语音的第五音素信息，并提取当前对象的第二样本语音的第三实际声学信息；处理器82用于利用参考对象的预设声学预测网络对第五音素信息和第三实际声学信息进行预测，得到第三预测声学信息；处理器82用于利用第三预测声学信息，合成得到音色与参考对象相同的第三样本语音。

区别于前述实施例，通过利用若干样本对象的第二样本语音分别训练得到与样本对象对应的预设声学预测网络，从而分别将各个样本对象作为当前对象，将其余样本对象作为参考对象，并获取与参考对象对应的预设声学预测网络，进而利用音素识别网络识别当前对象的第二样本语音的音素信息，并提取当前对象的第二样本语音的实际声学信息，在此基础上，利用参考对象的预设声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，并利用预测声学信息，合成得到音色与参考对象相同的第三样本语音，能够有利于提高第三样本语音的质量以及音色转换效率。

在一些公开实施例中，声学预测网络包括提取子网络和预测子网络，处理器82用于利用提取子网络提取第一实际声学信息的韵律特征信息；处理器82用于利用预测子网络对韵律特征信息和第一音素信息进行预测，得到第一预测声学信息。

区别于前述实施例，通过将声学预测网络设置为包括提取子网络和预测子网络，在此基础上，利用提取子网络进一步提取第一实际声学信息的韵律特征信息，并利用预测子网络对韵律特征信息和第一音素信息进行预测，得到第一预测声学信息，能够在训练过程中避免由于声学预测网络直接复制输入的第一实际声学信息而导致声学预测网络未学习到目标对象的声学特征，有利于提高声学预测网络的准确性，此外，通过利用第一音素信息和提取到的韵律特征信息预测第一预测声学信息，能够有利于降低第一实际声学信息和第一预测声学信息之间的损失误差，进一步提高声学预测网络的准确性。

在一些公开实施例中，提取子网络输出层节点数量不超过预设阈值；和/或，提取子网络中隐藏层之后连接有实例归一化层。

区别于前述实施例，通过将提取子网络输出层节点数量设置为不超过预设阈值，能够限制提取子网络从第一实际声学信息提取的信息量，从而可以通过约束第一实际声学信息和第一预测声学信息之间的损失误差，使得第一实际声学信息和第一预测声学信息之间的损失误差，有利于使得声学预测网络在训练过程中学习到目标对象的声学特征，提高声学预测网络的准确性；而通过在提取子网络隐藏层之后连接实例归一化层，能够有利于规整掉说话人相关信息，从而能够降低提取子网络所提取到的说话人相关信息，进一步提高提取子网络的准确性，进而能够有利于提高声学预测网络的准确性。

在一些公开实施例中，若干样本对象所采用的语种不完全相同。

区别于前述实施例，将若干样本对象所采样的语种设置为不完全相同，能够使得音素识别网络能够识别不同语种语音的音素信息，并且能够提高声学预测网络对不同语种语音的适应性。

在一些公开实施例中，处理器82用于获取源对象的待转换语音，并获取与目标对象匹配的语音转换模型；其中，语音转换模型是利用上述任一语音转换模型的训练方法实施例中的步骤得到的；处理器82用于利用语音转换模型的音素识别网络识别待转换语音的音素信息，并提取待转换语音的实际声学信息；处理器82用于利用语音转换模型的声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息；处理器82用于利用预测声学信息，合成得到音色与目标对象相同的合成语音。

区别于前述实施例，通过获取源对象的待转换语音，并获取与目标对象匹配的语音转换模型，且语音转换模型是利用上述任一语音转换模型的训练方法训练得到的，并利用语音转换模型的音素识别网络识别待转换语音的音素信息，并提取待转换语音的实际声学信息，从而利用语音转换模型的声学预测网络对音素信息和实际声学信息进行预测，得到预测声学信息，进而利用预测声学信息，合成得到音色与目标对象相同的合成语音，能够有利于提高语音转换的质量。

请参阅图9，图9是本申请存储装置90一实施例的框架示意图。存储装置90存储有能够被处理器运行的程序指令91，程序指令91用于实现上述任一语音转换模型的训练方法实施例中的步骤，或实现上述任一语音转换方法实施例中的步骤。

上述方案，能够提高语音转换的质量。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音转换模型的训练方法，其特征在于，包括：

获取目标对象的第一样本语音，并获取预训练的语音转换模型；其中，所述语音转换模型包括音素识别网络和声学预测网络，所述语音转换模型是利用若干样本对象的第二样本语音和第三样本语音预训练得到的，所述第三样本语音是对所述第二样本语音进行音色转换得到的；

利用所述音素识别网络识别所述第一样本语音的第一音素信息，并提取所述第一样本语音的第一实际声学信息；

利用所述声学预测网络对所述第一音素信息和所述第一实际声学信息进行预测，得到第一预测声学信息，并基于所述第一实际声学信息和所述第一预测声学信息之间的差异，调整所述声学预测网络的网络参数；

将所述音素识别网络和调整后的所述声学预测网络的组合，作为与所述目标对象匹配的语音转换模型。

2.根据权利要求1所述的方法，其特征在于，所述获取预训练的语音转换模型，包括：

利用所述音素识别网络分别识别所述第二样本语音的第二音素信息和所述第三样本语音的第三音素信息；

基于所述第二音素信息和所述第三音素信息之间的差异，调整所述音素识别网络的网络参数。

3.根据权利要求2所述的方法，其特征在于，所述调整所述音素识别网络的网络参数之后，所述方法还包括：

利用所述音素识别网络识别所述第二样本语音的第四音素信息，并提取所述第二样本语音的第二实际声学信息；

利用所述声学预测网络对所述第四音素信息和所述第二实际声学信息进行预测，得到第二预测声学信息；

基于所述第二实际声学信息和所述第二预测声学信息之间的差异，调整所述声学预测网络的网络参数。

4.根据权利要求2所述的方法，其特征在于，所述第二样本语音标注有实际音素信息；在所述利用所述音素识别网络分别识别所述第二样本语音的第二音素信息和所述第三样本语音的第三音素信息之前，所述方法还包括：

利用对象识别网络对所述第二样本语音的第二音素信息进行识别，得到所述第二样本语音分别属于所述若干样本对象的预测概率分布；

基于所述第二音素信息和所述实际音素信息，得到第一识别损失值，并基于所述预测概率分布和所述第二样本语音所属的样本对象，得到第二识别损失值；

利用所述第一识别损失值调整所述音素识别网络的网络参数，或者，利用所述第二识别损失值调整所述对象识别网络的网络参数。

5.根据权利要求4所述的方法，其特征在于，所述音素识别网络是经若干次预训练得到的，所述方法还包括：

在训练次数满足预设条件的情况下，利用所述第一识别损失值调整所述音素识别网络的网络参数；

在训练次数不满足所述预设条件的情况下，利用所述第二识别损失值调整所述对象识别网络的网络参数。

6.根据权利要求4所述的方法，其特征在于，所述基于所述第二音素信息和所述实际音素信息，得到第一识别损失值，包括：

利用所述第二音素信息和所述实际音素信息之间差异，以及所述预测概率分布和预设概率分布之间的差异，得到所述第一识别损失值；

其中，所述预设概率分布包含所述第二样本语音分别属于所述若干样本对象的预设概率值，且各个所述预设概率值相同。

7.根据权利要求1所述的方法，其特征在于，所述第三样本语音的获取步骤，包括：

利用所述若干样本对象的第二样本语音分别训练得到与样本对象对应的预设声学预测网络；

分别将各个所述样本对象作为当前对象，将其余所述样本对象作为参考对象，并获取与所述参考对象对应的预设声学预测网络；

利用所述音素识别网络识别所述当前对象的第二样本语音的第五音素信息，并提取所述当前对象的第二样本语音的第三实际声学信息；

利用所述参考对象的预设声学预测网络对所述第五音素信息和所述第三实际声学信息进行预测，得到第三预测声学信息；

利用所述第三预测声学信息，合成得到音色与所述参考对象相同的第三样本语音。

8.根据权利要求1所述的方法，其特征在于，所述声学预测网络包括提取子网络和预测子网络；所述利用所述声学预测网络对所述第一音素信息和所述第一实际声学信息进行预测，得到第一预测声学信息，包括：

利用所述提取子网络提取所述第一实际声学信息的韵律特征信息；

利用所述预测子网络对所述韵律特征信息和所述第一音素信息进行预测，得到所述第一预测声学信息。

9.根据权利要求8所述的方法，其特征在于，所述提取子网络输出层节点数量不超过预设阈值；

和/或，所述提取子网络中隐藏层之后连接有实例归一化层。

10.根据权利要求1所述的方法，其特征在于，所述若干样本对象所采用的语种不完全相同。

11.一种语音转换方法，其特征在于，包括：

获取源对象的待转换语音，并获取与目标对象匹配的语音转换模型；其中，所述语音转换模型是利用权利要求1至10任一项所述的语音转换模型的训练方法得到的；

利用所述语音转换模型的音素识别网络识别所述待转换语音的音素信息，并提取所述待转换语音的实际声学信息；

利用所述语音转换模型的声学预测网络对所述音素信息和所述实际声学信息进行预测，得到预测声学信息；

利用所述预测声学信息，合成得到音色与所述目标对象相同的合成语音。

12.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至10任一项所述的语音转换模型的训练方法，或实现权利要求11所述的语音转换方法。

13.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至10任一项所述的语音转换模型的训练方法，或实现权利要求11所述的语音转换方法。