CN112365876B

CN112365876B - 语音合成模型的训练方法、装置、设备以及存储介质

Info

Publication number: CN112365876B
Application number: CN202011364603.1A
Authority: CN
Inventors: 刘龙飞; 陈昌滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-04-12
Anticipated expiration: 2040-11-27
Also published as: CN112365876A

Abstract

本申请公开了语音合成模型的训练方法、装置、设备以及存储介质，涉及深度学习、语音技术领域。具体实现方案为：获取用户样本数据、初始语音合成模型以及对应的预训练数据；对用户样本数据进行划分，得到第一样本数据和第二样本数据；采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型；从多个第一语音合成模型中选择目标语音合成模型；采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。由此，仅需要规模较少的用户样本数据，即可训练得到能够输出高质量的语音合成结果的语音合成模型，且语音合成过程耗时短，成本低。

Description

语音合成模型的训练方法、装置、设备以及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及深度学习、语音技术领域，尤其涉及语音合成模型的训练方法、装置、电子设备以及存储介质。

背景技术

随着人工智能及多媒体技术的不断发展，语音合成技术的应用越来越广泛，比如，可以应用于地图语音包定制、明星客服、智能音箱播报、小说朗读等多种场景。

相关技术中，基于小数据量的用户语音数据实现个性化语音合成的方法，合成的语音包的自然度和流畅度一般，语音合成结果的质量较低，而基于大量的用户语音数据实现个性化语音合成的方法，需要用户在专业录音棚录制大量的语音数据，成本高，且语音合成过程耗时长。因此，需要一种耗时短、成本低，且语音合成结果的质量高的语音合成方法。

发明内容

本公开提供了一种语音合成模型的训练方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音合成模型的训练方法，包括：获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，所述用户样本数据包括：多个用户语音以及每个用户语音对应的文本；对所述用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，所述第一样本数据中用户语音的数量大于所述第二样本数据中用户语音的数量；采用所述第一样本数据和所述预训练数据，对所述初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型；从所述多个第一语音合成模型中选择目标语音合成模型；以及采用所述第二样本数据对所述目标语音合成模型进行微调训练，得到训练好的语音合成模型。

根据本公开的另一方面，提供了一种语音合成模型的训练装置，包括：第一获取模块，用于获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，所述用户样本数据包括：多个用户语音以及每个用户语音对应的文本；划分模块，用于对所述用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，所述第一样本数据中用户语音的数量大于所述第二样本数据中用户语音的数量；第一训练模块，用于采用所述第一样本数据和所述预训练数据，对所述初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型；选择模块，用于从所述多个第一语音合成模型中选择目标语音合成模型；以及第二训练模块，用于采用所述第二样本数据对所述目标语音合成模型进行微调训练，得到训练好的语音合成模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的语音合成模型的训练方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的语音合成模型的训练方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的语音合成模型的训练方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的语音合成模型的训练方法的流程示意图；

图2是根据本申请第二实施例的语音合成模型的训练方法的流程示意图；

图3是根据本申请第三实施例的语音合成模型的训练方法的流程示意图；

图4是根据本申请第四实施例的语音合成模型的训练装置的结构示意图；

图5是根据本申请第五实施例的语音合成模型的训练装置的结构示意图；

图6是用来实现本申请实施例的语音合成模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对上述问题，提出一种语音合成模型的训练方法，该方法首先获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括多个用户语音以及每个用户语音对应的文本，再对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量，再采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，再从多个第一语音合成模型中选择目标语音合成模型，再采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。由此，仅需要规模较少的用户样本数据，即可训练得到能够输出高质量的语音合成结果的语音合成模型，且语音合成过程耗时短，成本低。

下面参考附图描述本申请实施例的语音合成模型的训练方法、装置、电子设备以及非瞬时计算机可读存储介质。

首先结合图1，对本申请提供的语音合成模型的训练方法进行详细描述。

图1是根据本申请第一实施例的语音合成模型的训练方法的流程示意图。其中，需要说明的是，本实施例提供的语音合成模型的训练方法，执行主体为语音合成模型的训练装置，以下简称训练装置，该训练装置可以为电子设备，也可以被配置在电子设备中，以实现利用规模较少的用户样本数据，训练得到能够输出高质量的语音合成结果的语音合成模型。

其中，电子设备，可以是任意能够进行数据处理的静止或者移动计算设备，例如笔记本电脑、智能手机、可穿戴设备等移动计算设备，或者台式计算机等静止的计算设备，或者服务器，或者其它类型的计算设备等。语音合成模型的训练装置可以是电子设备，或者安装在电子设备中的用于训练得到语音合成模型的应用程序，也可以是该用于训练得到语音合成模型的应用程序的管理者、开发者所使用的对该应用程序进行管理、维护的网页、应用程序等，本申请对此不作限制。

如图1所示，语音合成模型的训练方法，可以包括以下步骤：

步骤101，获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括：多个用户语音以及每个用户语音对应的文本。

其中，用户样本数据，为需要根据待合成的文本合成语音的特定目标用户的样本数据。比如，在需要根据待合成的文本，合成与张三的音色、说话风格等接近的合成语音时，用户样本数据为张三的多个语音以及每个语音对应的文本。

本申请实施例中，用户样本数据可以是较小规模的样本数据，比如，可以仅包括特定目标用户的300个语音以及每个语音对应的文本。

在示例性实施例中，用户样本数据，可以通过多种方式获取，在实际应用中，可以根据需要选择。例如，可以通过采用现场录制的方式获取用户样本数据，或者，可以直接使用用户现有的多个语音以及每个语音对应的文本作为用户样本数据。

其中，预训练数据中，包括大量的语音以及每个语音对应的文本，预训练数据与用户样本数据可以来源于不同用户。

初始语音合成模型，可以是任意能够用于语音合成的模型，例如神经网络模型，本申请实施例对此不作限制。其中，语音合成模型可以为声学特征模型和声码器的结合，初始语音合成模型的输入为待合成的文本，输出为合成后的语音。

步骤102，对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量。

其中，第一样本数据中用户语音的数量和第二样本数据中用户语音的数量，可以根据需要设置，本申请对此不作限制。

在示例性实施例中，对用户样本数据进行划分时，可以采用多种方式，在实际应用中，可以根据需要选择。

比如，可以随机选取用户样本数据中包括的大部分用户语音以及该部分用户语音中每个用户语音对应的文本，作为第一样本数据，将用户样本数据中的其它用户语音以及该部分用户语音中每个用户语音对应的文本，作为第二样本数据。举例来说，假设用户样本数据包括张三的300个语音以及每个语音对应的文本，可以随机将其中的280个语音以及这280个语音中每个语音对应的文本，作为第一样本数据，将其它20个语音以及这20个语音中每个语音对应的文本，作为第二样本数据。

或者，可以将用户样本数据中多个用户语音按照获取时间比如用户录制时间进行排序，将排序在前的大部分用户语音以及该部分用户语音中每个用户语音对应的文本，作为第一样本数据，将用户样本数据中的其它用户语音以及该部分用户语音中每个用户语音对应的文本，作为第二样本数据。举例来说，假设用户样本数据包括张三的300个语音以及每个语音对应的文本，可以将这300个语音按照录制时间进行顺序，将排序在前即先录制的280个语音以及这280个语音中每个语音对应的文本，作为第一样本数据，将排序在后即后录制的其它20个语音以及这20个语音中每个语音对应的文本，作为第二样本数据。

需要说明的是，上述对用户样本数据进行划分，得到第一样本数据和第二样本数据的方法，仅是示意性说明，本领域技术人员可以根据需要采用任意方法对用户样本数据进行划分，只需划分得到的第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量即可。

步骤103，采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型。

在示例性实施例中，对初始语音合成模型进行训练时，例如可以通过深度学习的方式进行训练，相比于其它机器学习方法，深度学习在大数据集上的表现更好。通过深度学习的方式训练初始语音合成模型时，可以将第一样本数据更新到预训练数据中，将更新后的预训练数据中的文本作为输入，将更新后的预训练数据中与文本对应的语音作为输出结果，通过不断地调整初始语音合成模型的模型参数对初始语音合成模型进行迭代训练，直至初始语音合成模型输出结果的准确率满足预先设定的阈值，训练结束。

在对初始语音合成模型进行训练的过程中，由于每次进行模型参数调整后均能得到一个具有调整后的模型参数的语音合成模型，从而可以从这些具有不同模型参数的语音合成模型中，获取多个训练后的第一语音合成模型。

由于多个第一语音合成模型是采用第一样本数据和预训练数据训练得到的，因此多个第一语音合成模型的各种参数适应于特定目标用户自身的特有特征，多个第一语音合成模型的输出贴近于特定目标用户的真实语音。

步骤104，从多个第一语音合成模型中选择目标语音合成模型。

其中，目标语音合成模型，可以是多个第一语音合成模型中，输出最贴近特定目标用户的真实语音的模型。

在一种可能的实现方式中，可以获取特定目标用户的语音以及对应的文本作为测试数据，将文本输入多个第一语音合成模型，并获取每个第一语音合成模型的输出结果，针对每个第一语音合成模型，将输出结果与输入模型的文本对应的语音进行比较，以确定输出结果与输入文本对应的语音的相似度，从而将对应的相似度最高的第一语音合成模型确定为目标语音合成模型。

步骤105，采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。

在示例性实施例中，可以根据第二样本数据，通过小样本学习的方式，对目标语音合成模型的模型参数进行微调，以获得对应的输出与特定目标用户的真实语音更贴近的训练好的语音合成模型。

在示例性实施例中，进行模型训练之前，例如对初始语音合成模型以及目标语音合成模型进行微调训练之前，还可以对预训练数据、第一样本数据、第二样本数据等训练数据进行数据降噪、数据检测、数据筛选、切分等预处理，例如滤除用户语音中的空白段等，以提高训练数据的准确性。

需要说明的是，对初始语音合成模型的训练过程以及对目标语音合成模型的训练过程，可以参考相关技术中的模型训练方法，本申请实施例对此不作赘述。

可以理解的是，在训练初始语音合成模型时，除预训练数据外仅需要少量的第一样本数据对初始语音合成模型进行训练，即可获得多个第一语音合成模型，使多个第一语音合成模型适应于特定目标用户自身的特有特征，输出贴近于特定目标用户的真实语音，通过再从多个第一语音合成模型中选择目标语音合成模型，继续利用少量的第二样本数据对目标语音合成模型进行微调训练，进一步对目标语音合成模型的模型参数进行微调，可以使训练好的语音合成模型进一步适应特定目标用户自身的特有特征，从而能够输出与特定目标用户的真实语音更贴近的高质量的语音合成结果。且由于仅需要规模较少的用户样本数据进行训练，用户无需在专业录音棚录制大量的语音数据，从而节约了成本，缩短了获取语音合成结果的时间。

本申请实施例提供的语音合成模型的训练方法，首先获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括多个用户语音以及每个用户语音对应的文本，再对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量，再采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，再从多个第一语音合成模型中选择目标语音合成模型，再采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。由此，仅需要规模较少的用户样本数据，即可训练得到能够输出高质量的语音合成结果的语音合成模型，且语音合成过程耗时短，成本低。

通过上述分析可知，本申请实施例中，可以采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，下面结合图2，对上述过程进行进一步说明。

图2是根据本申请第二实施例的语音合成模型的训练方法的流程示意图。如图2所示，语音合成模型的训练方法，可以包括以下步骤：

步骤201，获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括：多个用户语音以及每个用户语音对应的文本。

步骤202，对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量。

其中，上述步骤201-202的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

步骤203，将第一样本数据更新到预训练数据中，得到更新后的预训练数据。

步骤204，采用更新后的预训练数据对初始语音合成模型进行训练。

在示例性实施例中，可以将第一样本数据更新到预训练数据中，得到更新后的预训练数据，进而将更新后的预训练数据中的文本作为输入，将更新后的预训练数据中与文本对应的语音作为输出结果，通过不断地调整初始语音合成模型的模型参数对初始语音合成模型进行迭代训练，直至初始语音合成模型输出结果的准确率满足预先设定的阈值，训练结束。

步骤205，在初始语音合成模型的训练过程中，每隔预设步数提取训练得到的语音合成模型，作为第一语音合成模型。

步骤206，从多个第一语音合成模型中选择目标语音合成模型。

步骤207，采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。

可以理解的是，在采用更新后的预训练数据对初始语音合成模型进行训练的过程中，可以多次更新初始语音合成模型的例如神经网络结构中神经元的连接权值等参数，得到多个训练得到的语音合成模型。

举例来说，假设更新后的预训练数据中包括语音A及对应的文本a、语音B及对应的文本b、语音C及对应的文本c等。采用更新后的预训练数据对初始语音合成模型进行训练时，首先将更新后的预训练数据中的文本a输入初始语音合成模型，得到输出结果A’，则可以根据输出结果A’与文本a对应的语音A之间的差异，对初始语音合成模型的参数进行更新，得到训练后的具有更新后的参数的语音合成模型1。进一步的，可以将更新后的预训练数据中的文本b输入语音合成模型1，得到输出结果B’，并根据输出结果B’与文本b对应的语音B之间的差异，对语音合成模型1的参数进行更新，得到训练后的具有更新后的参数的语音合成模型2。进一步的，可以将更新后的预训练数据中的文本c输入语音合成模型2，得到输出结果C’，并根据输出结果C’与文本c对应的语音C之间的差异，对语音合成模型2的参数进行更新，得到训练后的具有更新后的参数的语音合成模型3。由此类推，通过多次参数更新，可以得到多个训练后的语音合成模型。

本申请实施例中，可以将每次参数更新后得到的训练后的语音合成模型作为第一语音合成模型。或者，也可以每隔预设步数提取训练得到的语音合成模型，作为第一语音合成模型，比如预设步数为2，从而分别提取第一次、第三次、第五次等训练得到的语音合成模型作为第一语音合成模型。

其中，预设步数，可以根据需要任意设置，本申请实施例对此不作限制。

进一步的，得到多个第一语音合成模型后，即可从多个第一语音合成模型中选择目标语音合成模型，进而采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。

其中，上述步骤206-207的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

通过在初始语音合成模型的训练过程中，每隔预设步数提取训练得到的语音合成模型，而不是将每次进行模型参数更新后得到的语音合成模型均作为第一语音合成模型，可以减少第一语音合成模型的数量，从而减少从多个第一语音合成模型中选择目标语音合成模型时所需处理的数据量，缩短从多个第一语音合成模型中选择目标语音合成模型的时间，进而缩短最终得到训练好的语音合成模型的时间。

步骤208，获取待合成的文本。

步骤209，将待合成的文本输入训练好的语音合成模型，获取与待合成的文本对应的合成后语音。

可以理解的是，训练好的语音合成模型适应特定目标用户自身的特有特征，从而将待合成的文本输入训练好的语音合成模型，即可获取与待合成的文本对应的贴近于特定目标用户的真实语音的合成后语音。

本申请实施例提供的语音合成模型的训练方法，首先获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括：多个用户语音以及每个用户语音对应的文本，再对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量，再将第一样本数据更新到预训练数据中，得到更新后的预训练数据，再采用更新后的预训练数据对初始语音合成模型进行训练，并在初始语音合成模型的训练过程中，每隔预设步数提取训练得到的语音合成模型，作为第一语音合成模型，再从多个第一语音合成模型中选择目标语音合成模型，采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型，进而将获取的待合成的文本输入训练好的语音合成模型，获取与待合成的文本对应的合成后语音。由此，仅需要规模较少的用户样本数据，即可训练得到语音合成模型，进而通过语音合成模型，能够得到高质量的待合成文本对应的合成后语音，且语音合成过程耗时短，成本低，满足了用户生成个性化语音的需求，提升了用户体验。

通过上述分析可知，本申请实施例中可以先获取多个第一语音合成模型，再从多个第一语音合成模型中选择目标语音合成模型，进而对目标语音合成模型进行微调训练，得到训练好的语音合成模型。下面结合图3，对本申请提供的语音合成模型的训练方法中从多个第一语音合成模型中选择目标语音合成模型的过程进一步说明。

图3是根据本申请第三实施例的语音合成模型的训练方法的流程示意图。如图3所示，语音合成模型的训练方法，可以包括以下步骤：

步骤301，获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括：多个用户语音以及每个用户语音对应的文本。

步骤302，对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量。

步骤303，采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型。

其中，上述步骤301-303的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

步骤304，获取多个第一语音合成模型的损失函数值。

步骤305，从多个第一语音合成模型中选择对应的损失函数值位于预设数值范围内的第二语音合成模型。

其中，第一语音合成模型的损失函数值，表征将文本输入第一语音合成模型后，第一语音合成模型输出的语音合成结果与输入文本对应的真实语音之间的差异程度。损失函数值越大，则第一语音合成模型输出的语音合成结果与输入文本对应的真实语音之间的差异程度越大；损失函数值越小，则第一语音合成模型输出的语音合成结果与输入文本对应的真实语音之间的差异程度越小。

预设数值范围，可以根据需要设置，比如可以根据最终需要的语音合成模型的损失函数值进行设置。

举例来说，假设最终需要的语音合成模型的损失函数值为L，则可以设置预设数值范围的最小值为L-1，最大值为L+1。从而可以在获取多个第一语音合成模型各自的损失函数值后，选择对应的损失函数值在L-1到L+1之间的第一语音合成模型作为第二语音合成模型。

步骤306，获取第二语音合成模型对待推测用户数据的推测准确度。

步骤307，将推测准确度中的最大推测准确度对应的第二语音合成模型，确定为目标语音合成模型。

具体的，在从多个第一语音合成模型中选择对应的损失函数值位于预设数值范围内的第二语音合成模型后，若选择出的第二语音合成模型的个数为1个，则可以将这1个第二语音合成模型确定为目标语音合成模型。若选择出的第二语音合成模型的个数为0个，则可以调整预设数值范围，直至从多个第一语音合成模型中选择出对应的损失函数值位于调整后的预设数值范围内的第二语音合成模型。若选择出的第二语音合成模型的个数为多个，则可以获取各第二语音合成模型对待推测用户数据的推测准确度，进而将推测准确度中的最大推测准确度对应的第二语音合成模型，确定为目标语音合成模型。

通过根据多个第一语音合成模型的损失函数值选择第二语音合成模型，再根据第二语音合成模型对待推测用户数据的推测准确度，确定目标语音合成模型，实现了将多个第一语音合成模型中，输出最贴近特定目标用户的真实语音的第一语音合成模型作为目标语音合成模型，提高了确定的目标语音合成模型的准确性。

其中，待推测用户数据可以包括多个待推测用户语音以及对应的文本。需要说明的是，待推测用户语音与用户样本数据来源于同一用户。

在示例性实施例中，针对每个第二语音合成模型，可以通过如下步骤306a-306c的方式，获取第二语音合成模型对待推测用户数据的推测准确度。

步骤306a，针对每个待推测用户语音，将对应的文本输入第二语音合成模型，获取语音推测结果。

步骤306b，对待推测用户语音以及对应的语音推测结果进行动态时间规整计算，获取待推测用户语音以及对应的语音推测结果之间的距离。

其中，动态时间规整(Dynamic Time Warping，简称DTW)，用于衡量两个时间序列之间的相似度。

本申请实施例中，针对每个待推测用户语音，将对应的文本数据输入第二语音合成模型，获取语音推测结果后，可以对待推测用户语音以及对应的语音推测结果进行动态时间规整计算，获取待推测用户语音以及对应的语音推测结果之间的距离。其中，进行动态时间规整计算的过程，可以参考相关技术中的描述，此处不再赘述。

可以理解的是，待推测用户语音与对应的语音推测结果之间的距离越大，则待推测用户语音与对应的语音推测结果的相似度越低；待推测用户语音与对应的语音推测结果之间的距离越小，则待推测用户语音与对应的语音推测结果的相似度越高。

步骤306c，对多个待推测用户语音以及对应的语音推测结果之间的距离进行求和平均计算，根据计算结果确定第二语音合成模型对待推测用户数据的推测准确度。

可以理解的是，针对每个待推测用户语音，均可以获取待推测用户语音与对应的语音推测结果之间的距离，从而得到多个待推测用户语音以及对应的语音推测结果之间的距离，进而可以将多个距离进行求和平均计算，根据计算结果确定第二语音合成模型对待推测用户数据的推测准确度。

在示例性实施例中，求和平均计算结果越大，则可以认为第二语音合成模型对待推测用户数据的推测准确度越低；求和平均计算结果越小，则可以认为第二语音合成模型对待推测用户数据的推测准确高。

通过利用动态时间规整算法，获取多个待推测用户语音以及对应的语音推测结果之间的距离，再根据多个待推测用户语音以及对应的语音推测结果之间的距离进行求和平均计算，实现了根据计算结果准确确定第二语音合成模型对待推测用户数据的推测准确度。

步骤308，采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。

其中，上述步骤308的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

本申请实施例提供的语音合成模型的训练方法，首先获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括：多个用户语音以及每个用户语音对应的文本，再对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量，再采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，再获取多个第一语音合成模型的损失函数值，再从多个第一语音合成模型中选择对应的损失函数值位于预设数值范围内的第二语音合成模型，再获取第二语音合成模型对待推测用户数据的推测准确度，并将推测准确度中的最大推测准确度对应的第二语音合成模型，确定为目标语音合成模型，进而采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。由此，仅需要规模较少的用户样本数据，即可训练得到语音合成模型，进而通过语音合成模型，能够得到高质量的待合成文本对应的合成后语音，且语音合成过程耗时短，成本低，满足了用户生成个性化语音的需求，提升了用户体验。

下面结合图4，对本申请提供的语音合成模型的训练装置进行说明。

图4是根据本申请第四实施例的语音合成模型的训练装置的结构示意图。

如图4所示，本申请提供的语音合成模型的训练装置400，包括：第一获取模块401、划分模块402、第一训练模块403、选择模块404、第二训练模块405。

其中，第一获取模块401，用于获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括：多个用户语音以及每个用户语音对应的文本；

划分模块402，用于对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量；

第一训练模块403，用于采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型；

选择模块404，用于从多个第一语音合成模型中选择目标语音合成模型；以及

第二训练模块405，用于采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。

需要说明的是，本实施例提供的语音合成模型的训练装置，可以执行前述实施例的语音合成模型的训练方法。其中，语音合成模型的训练装置可以为电子设备，也可以被配置在电子设备中，以实现利用规模较少的用户样本数据，训练得到能够输出高质量的语音合成结果的语音合成模型。

需要说明的是，前述对于语音合成模型的训练方法的实施例的说明，也适用于本申请提供的语音合成模型的训练装置，此处不再赘述。

本申请实施例提供的语音合成模型的训练装置，首先获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，用户样本数据包括多个用户语音以及每个用户语音对应的文本，再对用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，第一样本数据中用户语音的数量大于第二样本数据中用户语音的数量，再采用第一样本数据和预训练数据，对初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，再从多个第一语音合成模型中选择目标语音合成模型，再采用第二样本数据对目标语音合成模型进行微调训练，得到训练好的语音合成模型。由此，仅需要规模较少的用户样本数据，即可训练得到能够输出高质量的语音合成结果的语音合成模型，且语音合成过程耗时短，成本低。

下面结合图5，对本申请提供的语音合成模型的训练装置进行说明。

图5是根据本申请第五实施例的语音合成模型的训练装置的结构示意图。

如图5所示，语音合成模型的训练装置500，具体可以包括第一获取模块501、划分模块502、第一训练模块503、选择模块504、第二训练模块505，其中，图5中501至505与图4中401至405具有相同功能和结构。

在示例性实施例中，如图5所示，第一训练模块503，具体可以包括：更新单元5031、训练单元5032、提取单元5033。

其中，第一训练模块503，包括：

更新单元5031，用于将第一样本数据更新到预训练数据中，得到更新后的预训练数据；

训练单元5032，用于采用更新后的预训练数据对初始语音合成模型进行训练；

提取单元5033，用于在初始语音合成模型的训练过程中，每隔预设步数提取训练得到的语音合成模型，作为第一语音合成模型。

在示例性实施例中，如图5所示，上述选择模块504，可以包括：第一获取单元5041、选择单元5042、第二获取单元5043、确定单元5044。

其中，第一获取单元5041，用于获取多个第一语音合成模型的损失函数值；

选择单元5042，用于从多个第一语音合成模型中选择对应的损失函数值位于预设数值范围内的第二语音合成模型；

第二获取单元5043，用于获取第二语音合成模型对待推测用户数据的推测准确度；以及

确定单元5044，用于将推测准确度中的最大推测准确度对应的第二语音合成模型，确定为目标语音合成模型。

在示例性实施例中，待推测用户数据包括：多个待推测用户语音以及对应的文本，相应的，上述第二获取单元5043，可以包括：获取子单元、第一计算子单元、第二计算子单元。

其中，获取子单元，用于针对每个待推测用户语音，将对应的文本输入第二语音合成模型，获取语音推测结果；

第一计算子单元，用于对待推测用户语音以及对应的语音推测结果进行动态时间规整计算，获取待推测用户语音以及对应的语音推测结果之间的距离；以及

第二计算子单元，用于对多个待推测用户语音以及对应的语音推测结果之间的距离进行求和平均计算，根据计算结果确定第二语音合成模型对待推测用户数据的推测准确度。

在示例性实施例中，如图5所示，语音合成模型的训练装置，还可以包括第二获取模块506、第三获取模块507。

其中，第二获取模块506，用于获取待合成的文本；

第三获取模块507，用于将待合成的文本输入训练好的语音合成模型，获取与待合成的文本对应的合成后语音。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的语音合成模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音合成模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音合成模型的训练方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音合成模型的训练方法对应的程序指令/模块(例如，附图4所示的第一获取模块401、划分模块402、第一训练模块403、选择模块404、第二训练模块405)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音合成模型的训练方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据用于语音合成模型的训练的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用于语音合成模型的训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音合成模型的训练方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用于语音合成模型的训练的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与VPS(Virtual PrivateServer，虚拟专用服务器)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

根据本申请的实施例，本申请还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时能够实现本申请实施例的语音合成模型的训练方法。

需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本申请实施例的技术方案，仅需要规模较少的用户样本数据，即可训练得到能够输出高质量的语音合成结果的语音合成模型，且语音合成过程耗时短，成本低。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音合成模型的训练方法，包括：

获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，所述用户样本数据，为需要根据待合成的文本合成语音的特定目标用户的样本数据；所述用户样本数据包括：多个用户语音以及每个用户语音对应的文本；对所述用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，所述第一样本数据中用户语音的数量大于所述第二样本数据中用户语音的数量；

采用所述第一样本数据和所述预训练数据，对所述初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，其中，所述多个第一语音合成模型的各种参数适应于所述特定目标用户自身的特有特征；

从所述多个第一语音合成模型中选择目标语音合成模型；以及

采用所述第二样本数据对所述目标语音合成模型进行微调训练，得到训练好的语音合成模型；

其中，所述从所述多个第一语音合成模型中选择目标语音合成模型，包括：

获取所述多个第一语音合成模型的损失函数值；

从所述多个第一语音合成模型中选择对应的损失函数值位于预设数值范围内的第二语音合成模型；

获取所述第二语音合成模型对待推测用户数据的推测准确度；以及

将所述推测准确度中的最大推测准确度对应的第二语音合成模型，确定为所述目标语音合成模型。

2.根据权利要求1所述的语音合成模型的训练方法，其中，采用所述第一样本数据和所述预训练数据，对所述初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，包括：

将所述第一样本数据更新到所述预训练数据中，得到更新后的预训练数据；

采用所述更新后的预训练数据对所述初始语音合成模型进行训练；

在所述初始语音合成模型的训练过程中，每隔预设步数提取训练得到的语音合成模型，作为第一语音合成模型。

3.根据权利要求1所述的语音合成模型的训练方法，其中，所述待推测用户数据包括：多个待推测用户语音以及对应的文本；

所述获取所述第二语音合成模型对待推测用户数据的推测准确度，包括：

针对每个待推测用户语音，将对应的文本输入所述第二语音合成模型，获取语音推测结果；

对所述待推测用户语音以及对应的语音推测结果进行动态时间规整计算，获取所述待推测用户语音以及对应的语音推测结果之间的距离；以及

对多个待推测用户语音以及对应的语音推测结果之间的距离进行求和平均计算，根据计算结果确定所述第二语音合成模型对待推测用户数据的推测准确度。

4.根据权利要求1所述的语音合成模型的训练方法，其中，在采用所述第二样本数据对所述目标语音合成模型进行微调训练，得到训练好的语音合成模型之后，还包括：

获取待合成的文本；

将所述待合成的文本输入所述训练好的语音合成模型，获取与所述待合成的文本对应的合成后语音。

5.一种语音合成模型的训练装置，包括：

第一获取模块，用于获取用户样本数据、初始语音合成模型以及对应的预训练数据，其中，所述用户样本数据，为需要根据待合成的文本合成语音的特定目标用户的样本数据；所述用户样本数据包括：多个用户语音以及每个用户语音对应的文本；

划分模块，用于对所述用户样本数据进行划分，得到第一样本数据和第二样本数据，其中，所述第一样本数据中用户语音的数量大于所述第二样本数据中用户语音的数量；

第一训练模块，用于采用所述第一样本数据和所述预训练数据，对所述初始语音合成模型进行训练，并在训练过程中获取多个训练得到的第一语音合成模型，其中，所述多个第一语音合成模型的各种参数适应于所述特定目标用户自身的特有特征；

选择模块，用于从所述多个第一语音合成模型中选择目标语音合成模型；以及

第二训练模块，用于采用所述第二样本数据对所述目标语音合成模型进行微调训练，得到训练好的语音合成模型；

其中，所述选择模块，包括：

第一获取单元，用于获取所述多个第一语音合成模型的损失函数值；

选择单元，用于从所述多个第一语音合成模型中选择对应的损失函数值位于预设数值范围内的第二语音合成模型；

第二获取单元，用于获取所述第二语音合成模型对待推测用户数据的推测准确度；以及

确定单元，用于将所述推测准确度中的最大推测准确度对应的第二语音合成模型，确定为所述目标语音合成模型。

6.根据权利要求5所述的语音合成模型的训练装置，其中，所述第一训练模块，包括：

更新单元，用于将所述第一样本数据更新到所述预训练数据中，得到更新后的预训练数据；

训练单元，用于采用所述更新后的预训练数据对所述初始语音合成模型进行训练；

提取单元，用于在所述初始语音合成模型的训练过程中，每隔预设步数提取训练得到的语音合成模型，作为第一语音合成模型。

7.根据权利要求5所述的语音合成模型的训练装置，其中，所述待推测用户数据包括：多个待推测用户语音以及对应的文本；

所述第二获取单元，包括：

获取子单元，用于针对每个待推测用户语音，将对应的文本输入所述第二语音合成模型，获取语音推测结果；

第一计算子单元，用于对所述待推测用户语音以及对应的语音推测结果进行动态时间规整计算，获取所述待推测用户语音以及对应的语音推测结果之间的距离；以及

第二计算子单元，用于对多个待推测用户语音以及对应的语音推测结果之间的距离进行求和平均计算，根据计算结果确定所述第二语音合成模型对待推测用户数据的推测准确度。

8.根据权利要求5所述的语音合成模型的训练装置，还包括：

第二获取模块，用于获取待合成的文本；

第三获取模块，用于将所述待合成的文本输入所述训练好的语音合成模型，获取与所述待合成的文本对应的合成后语音。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。