CN113066476A

CN113066476A - 合成语音处理方法及相关装置

Info

Publication number: CN113066476A
Application number: CN201911297779.7A
Authority: CN
Inventors: 刘利娟; 江源; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-07-02
Anticipated expiration: 2039-12-13
Also published as: CN113066476B

Abstract

本申请实施例公开了一种合成语音处理方法及相关装置，方法包括：获取针对第一用户的原始合成语音；通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。本申请提供的合成语音处理方法，能够改善合成语音的相位失真问题，提高合成语音的音质的自然度，使得合成语音与自然语音更接近。

Description

合成语音处理方法及相关装置

技术领域

本申请涉及电子设备技术领域，具体涉及一种合成语音处理方法及相关装置。

背景技术

语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。近年来，随着人工智能技术的发展落地，人机交互变得越来越频繁，以语音为媒介的交互方式逐渐成为人机交互领域的主流形式，语音合成技术在其中的重要性也变得越来越凸显。

发明内容

本申请实施例提供了一种合成语音处理方法及相关装置，以期提高合成语音的音质，减小合成语音与自然语音的差距。

第一方面，本申请实施例提供一种合成语音处理方法，包括：

获取针对第一用户的原始合成语音；

通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。

第二方面，本申请实施例提供一种合成语音处理装置，包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取针对第一用户的原始合成语音；通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，首先获取针对第一用户的原始合成语音；然后通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。可见，本申请提供的合成语音处理方法，能够改善合成语音的相位失真问题，提高合成语音的音质的自然度，使得合成语音与自然语音更接近。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种合成语音处理***的示意图；

图2a是本申请实施例提供的一种合成语音处理方法的流程示意图；

图2b是本申请实施例提供的一种生成器模型结构的示意图；

图2c是本申请实施例提供的一种判别器模型结构的示意图；

图3a是本申请实施例提供的一种正向训练模型的结构示意图；

图3b是本申请实施例提供的一种全向训练模型的结构示意图；

图4本申请实施例提供的一种电子设备的结构示意图；

图5本申请实施例提供的一种合成语音处理装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

目前，现有技术主要采用对合成语音的幅度谱进行增强的方式来改善合成语音的音质，主要对幅度谱进行精细建模，对于相位谱则采用声码器中的人工设计的简化算法对相位谱进行估计，这种简单的相位建模方法使得合成语音的相位失真，丢失了许多自然语音中的细节信息，使得合成语音听起来比较呆板、机械。

针对上述问题，本申请实施例提供了一种合成语音处理方法及相关装置，下面结合附图对本实施例进行详细介绍。

如图1所示，图1是本申请实施例提供的一种合成语音处理***的示意图，该合成语音处理***100包括模型训练设备110和模型应用设备120，所述模型训练设备110用于全向训练模型或者正向训练模型的模型训练，该模型训练设备110可以是服务器、分布式数据处理***等数据处理设备，此处不做唯一限定。所述模型应用设备120内置有预先训练好的正向生成器模型，该模型应用设备120可以是移动终端、笔记本等电子设备，此处不做唯一限定。所述模型训练设备110与所述模型应用设备120通信连接，模型训练设备110根据样本数据训练模型得到训练好的正向生成器模型，并将正向生成器模型下发给模型应用设备120进行应用。

此外，模型训练设备和模型应用设备也有可能集成为一体式设备，该一体式设备的具体设备形态不做唯一限定。

请参阅图2a，图2a是本申请实施例提供的一种合成语音处理方法的流程示意图，该合成语音处理方法应用于如图1所示的合成语音处理***，如图所示，本合成语音处理方法包括如下步骤。

S201，获取针对第一用户的原始合成语音。

其中，第一用户为本次语音合成事件中希望合成语音能够尽可能接近自然语音状态的发音人。

S202，通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。

其中，语音包含幅度谱和相位谱两部分信息，幅度谱中主要包含了与发音相关的信息，而相位谱则反映的是波形的时间特性，因此包含了与听感相关的细节信息，所以包含的与发音内容相关的信息较少，然而现有的技术对相位谱仅采取简化算法对相位谱进行估计，例如采用最小相位估计算法预测相位，因此最后输出的合成语音与自然语音的差距较大。本实施例中的所述正向生成器模型就具有改善合成语音的相位失真的功能，该生成器模型可以根据获取的合成语音和收集到的自然语音数据来增强正向生成器模型的训练模型。

在一个可能的实例中，所述获取针对第一用户的原始合成语音，包括：获取待合成的文本；根据所述待合成的文本生成针对所述第一用户的原始合成语音。

具体实现中，设备可以将待合成的文本输入已经构建好的第一用户的常规声学特征预测模型中，得到第一用户的预测声学特征，再将这些声学特征送入声码器生成原始合成语音，这里的预测声学特征包括但不限于频谱、基频、非周期谐波成份特征。

可见，本示例中，根据获取的待合成的文本生产原始合成语音，可以快速高效的获得合成语音，便于后续对合成的语音进行音质提升。

在一个可能的实例中，所述获取针对第一用户的原始合成语音，包括：获取第二用户的原始自然语音；根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

其中，想要获取针对第一用户的原始合成语音，可以先获取第二用户的原始自然语音，再根据音色转换模型提取原始自然语音的声学特征，包括频谱、基频、非周期谐波成分等内容，再通过声码器获得原始合成语音。

例如，针对需要变音的应用场景，第二用户可以通过设备录入自己的原始自然语音，由设备根据用户选择的需要变音的目标用户的音色转换模型，如选择第一用户的音色转换模型，则可以通过该音色转换模型将第二用户的原始自然语音转换为第一用户的原始合成语音。

可见，本示例中，根据原始自然语音，然后通过音色转换模型获得原始合成语音，可以满足用户在变音场景中的使用需求，且可以提升合成语音的音质。

在一个可能的实例中，所述正向生成器模型的训练模型包括以下任意一种：全向训练模型，所述全向训练模型包括正向训练模型和反向训练模型；以及，所述正向训练模型；其中，所述正向训练模型和所述反向训练模型均采用对抗训练机制。

其中，为了使得转换后的语音波形与自然语音波形更加接近，从而达到改善相位的目的，需要构建训练模型通过训练得到具备上述性能的正向生成器模型，该训练模型包括正向生成器模型，用以对正向生成器模型进行训练。

其中的对抗训练机制指的是在模型的训练过程中构建对抗样本并将对抗样本和原始样本混合一起训练模型的方法，换句话说就是在模型训练的过程中对模型进行对抗攻击从而提升模型对于对抗攻击的鲁棒性(也称为防御能力)。

具体实现中，训练模型为了学习第一用户的合成语音波形和自然语音波形的转换关系，模型训练设备需要收集一定量的第一用户的合成语音和自然语音作为样本数据。例如各自至少收集两个小时的语音数据。

对于自然语音，模型训练设备直接收集第一用户的干净自然语音即可。

对于合成语音，模型训练设备采用声码器合成语音。声码器具有从语音中提取声学特征以及利用声学特征合成语音的功能。合成***通常对声码器提取的声学特征建模，并将预测的声学特征送入声码器合成语音。不同的声码器基于不同的设计算法得到，例如STRAIGHT、WORLD声码器等。由于这些基于信号处理算法设计的声码器对相位做了简化建模，因此声码器合成语音存在相位失真问题。

其中，基于声码器合成语音时声学特征的来源，包括以下两种获取方式：

方式一：采用声码器提取自然语音的声学特征合成语音。首先采用声码器对收集到的自然语音做特征分析，得到自然语音的声学特征，包括频谱、基频、非周期谐波成分，然后将这些声学特征再送入声码器，合成语音。

方式二：采用声学特征预测模型输出的声学特征合成语音。具体方法是将文本输入已构建好的声学特征预测模型，得到预测的声学特征，包括频谱、基频、非周期谐波成份特征。然后将这些预测的声学特征送入声码器合成语音。这里输入的文本可以是与搜集到的自然语音相同的文本，也可以是不同的文本。如果采用相同的文本，在预测声学特征时，声学特征预测模型可以采用对应的自然语音中的时长信息，也可以采用声学特征预测模型中经过时长模型预测的时长信息。如果采用的是不同的文本，该文本可以是任意的文本，例如可以从网络上抓取得到，但需要保证音素覆盖率。所述声学特征预测模型可以采用多种方法构建，例如可以采用收集到的第一用户的干净自然语音和对应的文本数据，基于深度神经网络训练得到，在这里不做特别限定。

可见，本示例中，正向生成器模型的训练模型采用对抗训练机制，能够改善相位，提高合成语音与自然语音的接近程度。

在一个可能的实例中，所述正向生成器模型的训练模型包括所述全向训练模型；所述正向训练模型包括所述正向生成器模型和正向判别器模型；所述反向训练模型包括反向生成器模型和反向判别器模型。

其中，正向训练模型和反向训练模型均采用对抗训练机制，因此这两个训练模型均包括生成器和判别器两部分，也就是说，正向训练模型包括正向生成器模型和正向判别器模型，反向训练模型包括反向生成器模型和反向判别器模型。对于生成器模型和判别器模型的构建可以是基于深度神经网络(Deep Neural Network，DNN)、递归神经网络(Recurrent Neural Network，RNN)以及卷积神经网络(Convolution Neural Network，CNN)等神经网络中的一种或几种组合的实现。

可见，本示例中，训练模型采用判别器加生成器的架构，实现对抗训练，可以改善相位，提高合成语音与自然语音的接近程度。

在一个可能的实例中，所述正向生成器模型用于对合成语音波形进行转换，来期望获得与自然语音波形更加接近的转换语音波形；所述正向判别器模型用于判断输入的语音波形是否是真的自然语音波形；所述反向生成器模型用于对输入的自然语音波形进行转换，来期望生成与合成语音波形接近的波形；所述反向判别器模型用于判断输入的语音波形是否是真的合成语音波形。

具体实现中，如图2b所示，图2b是本申请实施例提供的一种生成器模型结构的示意图，可以看出生成器模型可以由输入层、隐层和输出层三部分构成，模型的输入为一段包含多个采样点的波形片段，例如为一段包含4000个采样点的波形片段，模型的输出为相同长度的波形片段，模型的隐层由N个卷积层模块构成，多个卷积层模块串接，每个模块可以包含顺序连接的一维带孔卷积层、规整层和激活函数层。模型的输入层连接所述串接的至少一卷积层模块的第一个卷积层模块，所述串接的N个卷积层模块的最后一个卷积层模块连接所述输出层。

可见，本示例中，根据生成器模型来生成接近的自然语音或合成语音，用判别器模型来判断输入的语音是真的合成语音或自然语音的概率，可以改善相位，提高合成语音与自然语音的接近程度。

在一个可能的实例中，所述正向判别器模型和所述反向判别器模型均为多尺度判别器模型；所述全向训练模型还包括适配所述多尺度判别器模型的降采样率模块；所述降采样率模块用于通过对输入的语音波形降采样率，来获得粗尺度的语音波形。

其中，本实施例主要是对合成语音波形、自然语音波形、以及根据正向生成器模型生成的合成语音波形和自然语音波形做降采样率，输出对应的低采样率的语音波形，也即粗尺度的语音波形。

具体实现中，如图2c所示，图2c是本申请实施例提供的一种判别器模型结构的示意图，可以看出，判别器模型同样可以由输入层、隐层和输出层三部分构成，模型的输入为波形片段，它的长度由生成器的输入波形长度和降采样率系数确定，对于不同尺度的判别器网络，它们的输入数据长度不同，例如，对于原始尺度的合成语音和自然语音的输入数据长度为4000，而对于粗尺度根据降采样率系数确定的合成语音和自然语音的数据长度就可能是4000/4＝1000。模型输出的是一维概率值，即输入的语音是合成语音或自然语音的概率，模型的隐层由个卷积层模块和一个全连接层模块构成，每个卷积层模块可以包含一个步移为2的一维卷积层、规整层和激活函数层，全连接层的激活函数采用的是sigmoid激活函数，以保证网络输出的概率值在[0,1]内。

可见，本示例中，由于波形中包含了全部的幅度谱和相位谱信息，特别是语音波形的高频成份变化规律性不强，如果让模型直接在原始尺度的波形上进行建模比较困难，模型会存在训练不稳定问题，进而影响转换效果。此外，语音波形点间具有长时相关特性，为了学习自然语音波形上的相位特性，模型需要看到一定时长的前后波形信息。当对高采样率语音建模时，由于波形点数增加，如果仍在原始波形尺度上建模，模型需要看到更长的波形点信息，这也变向增加了模型的建模难度。基于此，通过降采样率模块对输入的语音波形进行降采样率，从而获得粗尺度的语音波形，如此可以降低建立模型的难度，避免上述问题，提高模型稳定性和准确度。

在一个可能的实例中，所述正向判别器模型包括对原始波形尺度波形进行判断的第一正向判别器模型，以及包含对粗尺度波形进行判断的第二正向判别器模型，所述第一正向判别器模型和所述第二正向判别器模型用于在不同尺度判断输入的语音波形是否是真的自然语音波形；所述反向判别器模型包括对原始波形尺度波形进行判断的第一反向判别器模型，以及包含对粗尺度波形进行判断的第二反向判别器模型，所述第一反向判别器模型和所述第二反向判别器模型用于在不同尺度判断输入的语音波形是否是真的合成语音波形。

其中，因为语音波形的高频成份变化规律性不强，且语音波形点间具有长时相关特性，为了学习自然语音波形上的相位特性，模型需要看到一定长的前后波形信息，当对高采样率语音建模时，由于波形点数增加，如果仍在原始波形尺度上建模，因为模型需要看到更长的波形点信息，所以这也变向增加了模型的建模难度，因此正向判别器模型不仅包括对原始波形尺度波形进行判别的第一判别器模型，还包含对粗尺度波形进行判断的第二判别器模型。

可见，本示例中，判别器模型包括对原始波形尺度波形进行判断的第一判别器模型，以及包含对粗尺度波形进行判断的第二判别器模型，可以通过第二判别器模型进行辅助训练，提高建模的稳定性和训练效果。

下面举例说明一下。

如图3a所示，图3a是本申请实施例提供的一种正向训练模型的结构示意图，正向生成器模型由G_X->Y表示，正向判别器模型由D_Y表示，D_Y包含了两个正向判别器模型D_{Y_1}和D_{Y_2}，S_[n/4]表示输入采样率为n kHz语音波形，输出n/k kHz语音，例如表示对输入采样率为16kHz的语音降采样率得到16/4＝4kHz采样率的语音，若N＝K，即S_[n/n]，则表示对输入语音不做处理，直接输出，当然为了保证降采样率后的语音保留有足够的相位信息，k的取值不能太小，例如保证n/k≥2等，所以D_{Y_1}用于在原始尺度S_[n/n]上对输入的合成语音进行判断，D_{Y_2}用于在粗尺度S_[n/4]上对输入的合成语音进行判断。将合成语音x根据正向生成器模型G_X->Y转换得到自然语音波形

然后将

和自然语音波形y输入D_{Y_1}，获得在原始尺度上的判断结果，将

和自然语音波形y经过降采样率模块后输入D_{Y_2}，得到在粗尺度上的判断结果。

具体训练过程中，根据对抗训练机制的原则，对生成器模型和判别器模型进行交替训练，当训练判别器D_{Y_1}和D_{Y_2}时，G_X->Y模型固定不变，并对由G_X->Y模型生成的自然语音波形

和真实的自然语音波形y分别做降采样率处理，然后输入到对应尺度的判别器网络中训练各个判别器网络。D_{Y_1}和D_{Y_2}的训练目标是让网络能正确区分出输入的语音波形是否是真的自然语音波形。同样的，当在训练生成器网络G_X->Y时，D_{Y_1}和D_{Y_2}固定不动，G_X->Y的训练目标是使其转换得到的自然语音波形在不同尺度下都能骗过对应的判别器网络，让它们认为这些语音都是真的自然语音。如此，为了能够胜过对方，判别器D_{Y_1}和D_{Y_2}需要不断提升自身的判别能力以实现正确判断；而为了能够骗过判别器网络，G_X->Y也需要不断优化，提升生成效果，最终能够生成与自然语音波形更像的语音。整个训练过程的训练数据，也就是训练过程采用的对抗训练损失函数可以表示为：

其中，x～p_data(x)表示从合成语音数据分布p_data(x)中采样，y～p_data(y)表示从自然语音数据分布p_data(y)中采样，E表示期望。为了训练D_{Y_1}和D_{Y_2}模型，可以通过最大化L_GAN(G_X->Y,D_{Y_1},D_{Y_2})来实现，此时，如果输入的语音波形来自真实的自然语音波形(S_[n/n](y)和S_[n/4](y))，则D_{Y_1}和D_{Y_2}输出的概率值越接近于1；如果输入来自转换得到的自然语音波形(S_[n/n](G_X->Y(x))和S_[n/4](G_X->Y(x)))，则D_{Y_1}和D_{Y_2}输出的概率值越接近于0，以此实现正确判别。对于G_X->Y，由于它希望生成的语音能骗过D_{Y_1}和D_{Y_2}，即希望D_{Y_1}和D_{Y_2}输出的概率值越接近于1，因此可以通过最小化L_GAN(G_X->Y,D_{Y_1},D_{Y_2})训练G_X->Y，直到对抗训练损失函数收敛才结束训练，同时保存此时的正向生成器模型，用于后续对合成波形的处理。

如图3b所示，图3b是本申请实施例提供的一种全向训练模型的结构示意图，正向生成器模型由G_X->Y表示，反向生成器模型由G_Y->X表示，正向判别器模型由D_Y表示，反向判别器模型由D_X表示，对于D_Y和D_X，分别包含了两个正向判别器模型D_{Y_1}和D_{Y_2}，以及两个反向判别器网络D_{X_1}和D_{X_2}，用于分别在原始尺度S_[n/n]和粗尺度S_[n/4]上对输入语音进行判断。对于反向生成器和反向判别器的训练过程与图3a所示的正向生成器和正向判别器的方式相同，在此不再赘述。

此外，为了避免对抗训练出现模式崩塌，导致生成器生成的语音包含的内容发生改变，因此，还可以在对抗训练损失函数的基础上，增加循环一致损失函数和恒等损失函数。由于让合成语音x经G_X->Y转换后得到的自然语音

再经过G_Y->X转换回合成语音时，网络生成的语音需要仍然是x，因此，可以通过循环一致损失函数来保证在这个转换过程中，生成语音中的内容信息不丢失，也就是说，自然语音y经过G_Y->X转换后得到的合成语音

再经过G_X->Y转换回自然语音时，应仍然是y。该循环一致损失函数的数学定义可以是：

由于当输入G_X->Y模型的语音波形已经是自然语音波形y时，该模型的输出语音波形应仍是y，不能对输入做改动，反之，当G_Y->X的输入已经是合成语音波形x时，网络的输出应仍是x，因此可以通过恒等损失函数来保持输入输出的一致性，该恒等损失函数的定位为：

因此，最终的整个训练模型的训练损失函数可以为如下定义：

L(G_X->Y,G_Y->X,D_{X_1},D_{X_2},D_{Y_1},D_{Y_2})＝L_GAN(G_X->Y,D_{Y_1},D_{Y_2})+L_GAN(G_Y->X,D_{X_1},D_{X_2})+λ_cycL_cyc(G_X->Y,G_Y->X)+λ_idL_id(G_X->Y,G_Y->X)

其中，||·||₁表示L₁norm距离，对于上述各式，当转换回的波形G_Y->X(G_X->Y(x))与x越接近，它们的L₁norm距离越小，对于G_X->Y(G_Y->X(y))和y也是如此，可以通过最小化L_cyc(G_X->Y,G_Y->X)和L_id(G_X->Y,G_Y->X)最小化辅助网络进行训练，λ_cyc和λ_id分别是循环一致损失函数和恒等损失函数的权重。

与上述图2a所示的实施例一致的，请参阅图4，图4是本申请实施例提供的一种电子设备的结构示意图，如图所示，所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421，其中，所述一个或多个程序421被存储在上述存储器420中，且被配置由上述应用处理器410执行，所述一个或多个程序421包括用于执行上述方法实施例中任一步骤的指令。

在一个可能的实例中，所述程序421中的指令用于执行以下操作：获取针对第一用户的原始合成语音；通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述程序421中的指令具体用以执行以下操作：获取待合成的文本；根据所述待合成的文本生成针对所述第一用户的原始合成语音。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述程序421中的指令具体用以执行以下操作：获取第二用户的原始自然语音；根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述各个步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图5是本申请实施例提供的一种合成语音处理装置的功能单元组成框图。合成语音处理装置500应用于电子设备，具体包括：处理单元501和通信单元502。处理单元501用于对电子设备的动作进行控制管理，通信单元502用于支持电子设备与其他设备的通信。终端还可以包括存储单元503，用于存储终端的程序代码和数据。其中，处理单元501可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-SpecificIntegrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元502可以是通信接口、收发器、收发电路等，存储单元503可以是存储器。

具体实现时，所述处理单元501用于执行如上述方法实施例中由电子设备执行的任一步骤，且在执行诸如发送等数据传输时，可选择的调用所述通信单元502来完成相应操作。下面进行详细说明。

所述处理单元501，用于通过所述通信单元获取针对第一用户的原始合成语音；以及通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述处理单元501具体包括第一获取单元和第一生成单元，所述第一获取单元，用于获取待合成的文本；所述第一生成单元，用于根据所述待合成的文本生成针对所述第一用户的原始合成语音。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述处理单元501具体第二获取单元和第二生成单元，所述第二获取单元，用于获取第二用户的原始自然语音；所述第二生成单元，用于根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

可以理解的是，由于方法实施例与装置实施例为相同技术构思的不同呈现形式，因此，本申请中方法实施例部分的内容应同步适配于装置实施例部分，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种合成语音处理方法，其特征在于，包括：

获取针对第一用户的原始合成语音；

2.根据权利要求1所述的方法，其特征在于，所述获取针对第一用户的原始合成语音，包括：

获取待合成的文本；

根据所述待合成的文本生成针对所述第一用户的原始合成语音。

3.根据权利要求1所述的方法，其特征在于，所述获取针对第一用户的原始合成语音，包括：

获取第二用户的原始自然语音；

根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述正向生成器模型的训练模型包括以下任意一种：

全向训练模型，所述全向训练模型包括正向训练模型和反向训练模型；以及，

所述正向训练模型；

其中，所述正向训练模型和所述反向训练模型均采用对抗训练机制。

5.根据权利要求4所述的方法，其特征在于，所述正向生成器模型的训练模型包括所述全向训练模型；

所述正向训练模型包括所述正向生成器模型和正向判别器模型；

所述反向训练模型包括反向生成器模型和反向判别器模型。

6.根据权利要求5所述的方法，其特征在于，所述正向生成器模型用于对合成语音波形进行转换，来期望获得与自然语音波形更加接近的转换语音波形；所述正向判别器模型用于判断输入的语音波形是否是真的自然语音波形；

所述反向生成器模型用于对输入的自然语音波形进行转换，来期望生成与合成语音波形接近的波形；所述反向判别器模型用于判断输入的语音波形是否是真的合成语音波形。

7.根据权利要求5或6所述的方法，其特征在于，所述正向判别器模型和所述反向判别器模型均为多尺度判别器模型；

所述全向训练模型还包括适配所述多尺度判别器模型的降采样率模块；所述降采样率模块用于通过对输入的语音波形降采样率，来获得粗尺度的语音波形。

8.根据权利要求7所述的方法，其特征在于，所述正向判别器模型包括对原始波形尺度波形进行判断的第一正向判别器模型，以及包含对粗尺度波形进行判断的第二正向判别器模型，所述第一正向判别器模型和所述第二正向判别器模型用于在不同尺度判断输入的语音波形是否是真的自然语音波形；

所述反向判别器模型包括对原始波形尺度波形进行判断的第一反向判别器模型，以及包含对粗尺度波形进行判断的第二反向判别器模型，所述第一反向判别器模型和所述第二反向判别器模型用于在不同尺度判断输入的语音波形是否是真的合成语音波形。

9.一种合成语音处理装置，其特征在于，包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取针对第一用户的原始合成语音；以及通过预先训练好的正向生成器模型处理所述原始合成语音，得到针对所述第一用户的目标合成语音，所述正向生成器模型至少具备改善所述第一用户的合成语音的相位失真的功能。

10.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-8任一项所述的方法中的步骤的指令。