CN113436609B

CN113436609B - 语音转换模型及其训练方法、语音转换方法及***

Info

Publication number: CN113436609B
Application number: CN202110760946.8A
Authority: CN
Inventors: 司马华鹏; 毛志强; 龚雪飞
Original assignee: Nanjing Siyu Intelligent Technology Co ltd
Current assignee: Nanjing Siyu Intelligent Technology Co ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2023-03-10
Anticipated expiration: 2041-07-06
Also published as: CN113436609A

Abstract

本申请实施例提供了一种语音转换模型及其训练方法、语音转换方法及***，所述训练方法包括：使用第一样本数据训练分类网络模型，其中，第一样本数据包括第一音频及其对应的第一音素标签，分类网络模型包括卷积神经网络层和循环神经网络层；将第二样本数据输入训练好的分类网络模型，得到第二音频对应的第二音素标签，其中，第二样本数据包括第二音频；使用第二音频及其对应的第二音素标签训练变声网络模型，其中，变声网络模型包括生成器、时域判别器以及频域判别器。

Description

语音转换模型及其训练方法、语音转换方法及***

技术领域

本申请涉及语音数据处理技术领域，具体而言，涉及一种语音转换模型及其训练方法、语音转换方法及***。

背景技术

声音变换技术可以将源说话人的输入音频真实优雅的变成目标说话人的音色。目前，相关技术中的声音变换主要采用以下三种形式：

1)基于自动语音识别(Automatic Speech Recognition，简称为ASR)技术和从文本到语音(Text To Speech，简称为TTS)技术结合的方案。首先将音频通过ASR模型识别为文本，然后利用TTS模型将文本以目标说话人的音色输出，从而达到变声效果。由于ASR存在较高的错误率，因此，对于一般的音频输入，ASR识别过程中的错误会导致后续TTS将文本转换为语音时存在大量错误的发音，进而影响使用。

2)基于生成式对抗网络(生成式对抗网络，简称为GAN)技术的方案。将音频通过网络编码为巴科斯范式(Back Naur form，简称为BNF)方案，再通过变分自编码器(Variational Auto-Encoder，简称为VAE)或者GAN的方式，将BNF特征还原为音频。上述方案的训练过程简单，但其变化的效果难以保证，所以无法实际运用。

3)基于平行语料构建的方案。令两个说话人说同样的句子，再通过对齐算法将其对齐，然后进行音色变换的过程。然而，实现过程中难以获取两个说话人的平行语料，即便获取到两个说话人的平行语料，其进行音频的对齐过程中也存在相应的困难，需要大量的人力与时间成本。

针对相关技术中，无法快速有效地实现声音变换的问题，相关技术中尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音转换模型及其训练方法、语音转换方法及***，以至少解决相关技术中无法快速有效地实现声音变换的问题。

在本申请的一个实施例中，提出了一种语音转换模型的训练方法，所述语音转换模型包括分类网络模型和变声网络模型，所述方法包括：使用第一样本数据训练所述分类网络模型，其中，所述第一样本数据包括第一音频及其对应的第一音素标签，所述分类网络模型包括卷积神经网络层和循环神经网络层；将第二样本数据输入训练好的所述分类网络模型，得到第二音频对应的第二音素标签，其中，所述第二样本数据包括第二音频；使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型，其中，所述变声网络模型包括生成器、时域判别器以及频域判别器。

在本申请的一个实施例中，还提出了一种语音转换模型，包括分类网络模型和变声网络模型，所述分类网络模型配置为，根据获取到的源音频对应的源音频特征输出所述源音频特征对应的音素标签；所述变声网络模型配置为，根据所述源音频特征对应的音素标签，输出目标音频，其中，所述源音频和所述目标音频的音色不同；其中，所述语音转换模型的训练过程如上述训练方法所述。

在本申请的一个实施例中，还提出了一种语音转换方法，应用于上述语音转换模型，所述方法包括：根据获取到的源音频输出所述源音频对应的音素标签；根据所述源音频对应的音素标签，输出目标音频，其中，所述源音频和所述目标音频的音色不同，所述目标音频的音色与所述第二音频的音色一致。

在本申请的一个实施例中，还提出了一种语音转换***，包括拾音设备、播音设备以及上述语音转换模型，其中，所述拾音设备配置为，获取源音频；所述语音转换模型配置为，根据所述源音频输出目标音频，其中，所述源音频和所述目标音频的音色不同；所述播音设备配置为，播放所述目标音频。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，使用第一样本数据训练分类网络模型，其中，第一样本数据包括第一音频及其对应的第一音素标签，分类网络模型包括卷积神经网络层和循环神经网络层；将第二样本数据输入训练好的分类网络模型，得到第二音频对应的第二音素标签，其中，第二样本数据包括第二音频；使用第二音频及其对应的第二音素标签训练变声网络模型，其中，变声网络模型包括生成器、时域判别器以及频域判别器，解决了相关技术中无法快速有效地实现声音变换的问题，通过对分类网络模型的运用，以音频对应的音素类别作为变声的方式，简单有效地实现了与目标变声人相差无几的变声方案。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的语音转换模型的训练方法流程图；

图2是根据本申请实施例的一种可选的分类网络模型结构示意图；

图3是根据本申请实施例的一种可选的变声网络模型结构示意图；

图4是根据本申请实施例的一种可选的生成器结构示意图；

图5是根据本申请实施例的一种可选的时域判别器结构示意图；

图6是根据本申请实施例的一种可选的频域判别器结构示意图；

图7是根据本申请实施例的一种可选的语音转换模型结构示意图；

图8是根据本申请实施例的一种可选的语音转换方法流程图；

图9是根据本申请实施例的一种可选的语音转换***结构示意图；

图10是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

如图1所示，本申请实施例提供了一种语音转换模型的训练方法，语音转换模型包括分类网络模型和变声网络模型，所述方法包括：

步骤S102，使用第一样本数据训练分类网络模型，其中，第一样本数据包括第一音频及其对应的第一音素标签，分类网络模型包括卷积神经网络层和循环神经网络层；

步骤S104，将第二样本数据输入训练好的分类网络模型，得到第二音频对应的第二音素标签，其中，第二样本数据包括第二音频；

步骤S106，使用第二音频及其对应的第二音素标签训练变声网络模型，其中，变声网络模型包括生成器、时域判别器以及频域判别器。

需要说明的是，本申请实施例中的语音转换模型可以搭载在变换模块上，集成在一个变声***中，变换模块可以用于搭载本申请所涉及的算法部分；变换模块可以设置在服务器或终端中，本申请实施例对此不作限定。

此外，本申请实施例中涉及的变声***还可配套有相应的拾音设备与播音设备，如麦克风与扬声器等，分别用于获取源说话人的输入音频，以及播放变换后的目标说话人的音频。

需要说明的是，本申请实施例中涉及的第一样本数据，可以使用ASR训练语料，其中包含音频以及音频对应的文本。此处的训练语料可以不进行降噪等处理，以此，后续通过完成训练的模型进行变声时，可直接将相应音频输入至模型中进行对应的特征提取。

在一实施例中，在使用第一样本数据训练所述分类网络模型之前，所述方法还包括：

获取训练语料，其中，训练语料包括第一音频及其对应的第一文本；

将第一音频转换为第一音频特征；

将第一文本转换为第一音素，并根据第一音频的时长，将第一音频特征与第一音素进行对齐，得到每一帧第一音频特征对应的音素标签；其中，对齐后的第一音素的时长与第一音频特征的时长一致；

根据第一音频和第一文本的对齐关系，以及第一音素的时长信息，确定每一帧第一音频对应的第一音素标签，其中，第一音素标签用于标识第一音素。

在一实施例中，将第一文本转换为第一音素，包括：

对第一文本进行正则化处理，以将第一文本中包含的数字和/或字母和/或符号转化为文字；

将经过正则化处理的第一文本转换为第一拼音；

根据拼音与音素映射表，将第一拼音转换为第一音素。

需要说明的是，对训练语料中的音频转化为音频特征，本申请实施例中采用梅尔谱特征，例如，可选取80维度的梅尔谱。将音频对应的文本转换为音素，具体而言，对文本进行正则化，处理数字，字母，及其特殊符号，例如将数字、字母等转换成对应的汉字，然后将其转化为拼音，通过音素映射表，将拼音映射为音素。

需要说明的是，上述将文本转换为音素的过程中，需要根据时长将文本进行拉伸，否则文本转换的音素短于音频特征，在该帧数不对应的情形下进行后续计算较为困难。例如，为使音频特征的长度和音素的长度一致，如果一个音频特征占4个特征位，每个特征位对应一个音素，将对应的音素*4，拉伸到四个特征位。

可以利用MFA(Montreal Forced Aligner)对齐工具，提取音素的时长信息，然后根据时长即可确定每一个音素的起始时间，进而根据该起始时间确定每一帧音频对应的音素，以最终得到音频中每一帧音频所对应的音素类别。本申请实施例中的对齐工具不限于MFA，只要能获取音频和文本的对齐关系，并提取对应音素的时长即可，本申请实施例对此不做限定。

在一实施例中，使用第一样本数据训练分类网络模型，包括：

将每一帧第一音频对应的第一音频特征输入分类网络模型，然后输出音素标签，通过反向传播训练将分类网络训练至收敛。

需要说明是，本申请实施例中，可以根据每一帧音频及其对应的音素类别构建一分类网络模型。如图2所示，本申请实施例中的分类网络可以包含五层卷积神经网络CNN模块以及两层长短时记忆(Long Short-Term Memory，简称为LSTM)构成，最后连接softmax分类器。将训练语料中每一帧音频对应的梅尔普特征作为输入，将每一音频对应的音素类别(即前述音素标签)作为输出对上述分类网络模型进行训练，通过反向传播，将其训练至收敛为止。当然，CNN和LSTM的层数可以根据实际需求改变，本申请实施例对此不做限定。

在一实施例中，在将第二样本数据输入训练好的分类网络模型之前，所述方法还包括：

获取第二音频，并根据第二音频获取每一帧第二音频对应的第二音频特征。

需要说明的是，第二音频可以理解为目标说话人的音频，由于需要得到清晰的目标说话人的音频，所以目标说话人的音频要通过降噪，增强，标准化等相关处理，使得目标说话人的音频尽量清晰。通常而言，需要目标说话人的音频长度为2h至10h，音频长度超过5h效果基本满足需求，语料越多效果越好。

在一实施例中，获取每一帧第二音频对应的第二音频特征之后，所述方法还包括：

将第二音频特征输入训练后的分类网络模型，得到每一帧第二音频对应的第二音素标签，其中，第二音素标签用于标识第二音素。

对经过降噪，增强，标准化等相关处理的目标说话人的音频进行梅尔谱特征提取，将提取后的音频特征输入完成训练的分类网络模型中，通过分类网络模型获取目标说话人音频中每一帧音频对应的音素类别。

在一实施例中，使用第二音频及其对应的第二音素标签训练变声网络模型，包括：

将每一帧第二音频及其对应的第二音素标签输入变声网络模型，然后输出对应的音频，通过反向传播训练将变声网络模型训练至收敛。

使用第二音频及其对应的第二音素标签，依次交替训生成器、时域判别器以及频域判别器。

在一实施例中，使用第二音频及其对应的第二音素标签，依次交替训练生成器、时域判别器以及频域判别器，包括：

将第二音素标签对应的第二音频设定为真音频，将生成器根据第二音素标签输出的音频设定为假音频，使用真音频和假音频依次交替训练时域判别器和频域判别器。

需要说明的是，本申请实施例中的变声网络模型可以包括生成器和判别器两个部分，判别器由频域判别器和时域判别器构成，如图3所示。

如图4所示，生成器可以包含三层CNN模块，然后连接一层LSTM，然后连接四个相互链接的反卷积-卷积残差块，最后通过PQMF模块作为输出。上述反卷积-卷积残差块由四层的膨胀(dilatend)一维卷积构成，其膨胀系数分别为(1，3，9，27)。当然，图4所示的生成器结构是本申请实施例的一种可选的结构，在实际应用中，各个模块的层数、膨胀系数可以自行设置，或者利用其他的网络结构实现此功能，本申请实施例对此不做限定。

判别器由频域判别器和时域判别器构成。如图5所示，时域判别器，由一些下采样模块构成，直接以音频作为输入；如图6所示，频域判别器，首先将音频利用短期傅立叶变换，然后将其变为梅尔谱，频域判别器由一系列一维卷积构成。上述下采样模块也可以替换为其他下采样模块，本申请实施例对此不做限定。

变声网络的训练过程为先训练一次生成器，然后分别训练一次时域判别器，一次频域判别器，依次重复进行训练。具体而言，通过生成器的训练生成预测结果，该预测结果包括时域结果与频域结果，通过时域判别器判断时域结果是否为真，再通过频域判别器判断频域结果是否为真，以此通过两个结果再调整生成器。相较于现有技术中，仅设置一个判别器对生成器进行对抗训练，本申请实施例通过扩展对抗生成网络GAN的训练规则，使用多个判别器来辅助训练生成器，使得生成器在频域和时域里面都优于单独训练的效果，通过反向传播训练直至收敛为止。通过上述完成训练的语音转换模型，即可将源说话人的音频变换为目标说话人的音频。具体而言，通过上述部分中训练完成的分类网络模型将源说话人的音频转换为具体的音素类别，然后通过完成训练后的变声网络模型中的生成器模型直接还原为音频输出。

通过工程封装可以将上述语音转换模型服务化，实现流式变声，本申请实施例中的语音转换模型可以实时变声，10s音频只需要2s左右的变换时间，相较于现有技术中，同样10s音频需要8s的变换时间，本申请实施例中的语音转换模型在语音转换的效率上得以显著改善，使得实用性大大增强。

如图7所示，在本申请的另一实施例中，还提供了一种语音转换模型，通过前述训练方法完成训练，包括分类网络模型702和变声网络模型704，

分类网络模型702配置为，根据获取到的源音频对应的源音频特征输出源音频特征对应的音素标签；

变声网络模型704配置为，根据源音频特征对应的音素标签，输出目标音频，其中，源音频和目标音频的音色不同。

如图8所示，在本申请的另一实施例中，还提供了一种语音转换方法，应用于上述语音转换模型，所述方法包括：

步骤S802，根据获取到的源音频输出源音频对应的音素标签；

步骤S804，根据源音频对应的音素标签，输出目标音频，其中，源音频和目标音频的音色不同，目标音频的音色与第二音频的音色一致。

上述步骤S802中，源音频输出源音频对应的音素标签，以及步骤S804中根据源音频对应的音素标签输出目标音频均是通过前述实施例中的语音转换模型所实现的，在此不再赘述。

由于上述语音转换模型是通过对分类网络模型的运用以音频对应的音素类别作为变声的方式，故其可显著降低音频变换所需的时间，在此基础上，即可实现流式变声，以下以一实施例的方式进行说明流式变声的过程：

在一实施例中，本申请实施例中的方法还包括：

根据第一时间周期内获取到的第一子源音频输出第一子源音频对应的音素标签，并根据第一子源音频对应的音素标签输出第一子目标音频；

根据第二时间周期内获取到的第二子源音频输出第二子源音频对应的音素标签，并根据第二子源音频对应的音素标签输出第二子目标音频；

其中，第一时间周期与第二时间周期为相邻的时间周期，且第二时间周期位于第一时间周期之后。

上述第一时间周期与第二时间周期是用户输入音频过程中任意两个相邻的时间周期，即在用户输入音频过程中，按照预设的时间周期将用户输入的音频(即源音频)拆分为多段子源音频；第一时间周期与第二时间周期通常而言可采用500ms，即将源音频按照500ms的周期拆分为多段，每一段即对应一子源音频。

在某一时间周期，如上述第一时间周期获取对应的第一子源音频后，即可通过语音转换模型输出该第一子源音频对应的音素标签，并根据第一子源音频对应的音素标签输出第一子目标音频。通常而言，对于500ms的音频，本申请实施例中的语音转换模型完成相应处理的耗时约为100ms，即第一子源音频输入至语音转换模型后，经由100ms的处理时候即可将其转换为第一子目标音频并输出。同样的，对于第二时间周期，亦可对通过语音转换模型输出第二子源音频对应的音素标签，并根据第二子源音频对应的音素标签在输出第二子目标音频。由于第一时间周期与第二时间周期是连续的，对应的，第一子源音频与第二子源音频在源音频中也是连续的，对于接收方而言，第一子目标音频与第二子目标音频亦是连续的。在源音频输入的过程中重复上述步骤，即可在源音频输入过程中，实现对多个连续的子源音频的连续转换以及多个连续的子目标音频的连续输出。

以此，本申请实施例中的语音转换方法，由于其所基于的语音转换模型可实现快速的语音转换处理，故可实现流式变声处理；具体而言，对于一段正在输入的源音频，如直播、电话、演讲等场景，采用本申请实施例中的语音转换方法，接收方所听到的转换后的语音是与使用方的语音输入同步进行的(模型处理的时间100ms在听觉上无法感知，故可忽略)。尤其对于部分对于时延要求极高的语音转换的场景，如现场演说等，由于本申请实施例中的语音转换方法中的模型处理时间长度与源音频长度之间的比值更大，故其可在以极低的时延实现流式变声的同时，对语音转换过程中可能存在的一些卡顿或其它错误提供较高的容错率，即在发生错误的情况下，仍将对语音转换的处理时间控制在预设的时间周期内，故仍可实现流式变声。

如图9所示，在本申请的另一实施例中，还提供了一种语音转换***，包括拾音设备902、播音设备904以及上述语音转换模型906，其中，

拾音设备902配置为，获取源音频；

语音转换模型906配置为，根据源音频输出目标音频，其中，源音频和目标音频的音色不同；

播音设备904配置为，播放目标音频。

为了更好地理解上述实施例中的技术方案，下面通过一示例性实施例进一步说明本申请实施例中语音转换方法的实现过程。

训练阶段：

首先进行语料选取，选取精度在98％以上的ASR语料，大概40000人左右，总时长在8000小时以上，采样率16k，16bit的wav格式的音频作为分类网络(即前述分类网络模型)原始语料。选取目标说话人干净的音频，例如，10个小时干净TTS语音，采样率16k，16bi的wav格式音频作为变声网络(即前述变声网络模型)原始语料。

分类网络的训练：

S1.0，对上述分类网络原始语料进行预处理，具体而言，对于分类网络语料进行增强，为泛化分类网络原始语料的代表性，选取随机加噪声的形式，给分类网络原始语料注入各种常见噪声，得到分类网络增强语音。实验表明，该方式可以很成功的获取说话人音素特征，并显著提升后续变声阶段的说话人变声效果。

S1.1，采用上述分类网络原始语料训练MFA对齐工具，通过训练完成的MFA对齐工具提取分类网络原始语料中音素的时长信息。

需要说明的是，在预处理阶段进行增强的过程中，仅在分类网络原始语料中随机注入噪音而并未改变语料的时长，因而，上述S1.1中分类网络原始语料中音素的时长信息可直接作为分类网络增强语料中音素的时长信息。

S1.2，采用上述分类网络增强语料，一方面对其中音频转化为梅尔谱特征，如80维度的梅尔普特征；另一方面，将音频对应的文本转换为音素；具体而言，对文本进行正则化，处理数字，字母，及其特殊符号，然后将其转化为拼音，通过音素映射表，将拼音映射为音素。需要说明的是，上述将文本转换为音素的过程中，需要根据时长将文本进行拉伸。

S1.3，由于音素的时长信息已知，故可获取音频中音素对应的位置，即每一个音素的起始时间，进而根据该起始时间确定每一帧音频对应的音素，以最终得到音频中每一帧音频所对应的音素类别。

音素类别可以理解为对音素进行编码，使得每一个音素有一个对应ID，该ID即为音素类别，或可称为音素标签。

S1.4，采用上述S1.3中每一帧音频对应的音素类别，对分类网络进行训练，利用反向传播来训练直至收敛。分类网络的结构如前述，在此不再赘述。

变声网络的训练：

S2.0，对上述变声网络原始语料进行预处理，具体而言，对变声网络原始语料进行正则化处理，切割前后静音，将音频正则化到[-0.5,0.5]之间。之后进行梅尔普特征的提取，记为目标说话人音频特征。

S2.1，通过前述训练完成的分类网络，对上述目标说话人音频特征进行分类，以确定目标说话人音频特征对应的音素类别。

S2.2，通过上述目标说话人音频特征与对应的音素类别训练变声网络，利用反向传播直至收敛。变声网络的结构如前述，在此不再赘述。

需要说明的是，本方案提出了一种新的变声网络的训练方法，具体如下：

正常的GAN网络是生成器和判别器交替进行，即训练一次生成器，训练一次判别器交替进行。本方案中对上述训练方式进行扩展，首先进行一次生成器训练，然后进行一次时域判别器训练，接着进行一次频域判别器训练，依次交替进行，这样可以保证我们生成的音频在时域和频域里面都有很好的表现。

具体训练是：首先生成器做一次反向传播，紧接着就是时域判别器和频域判别器分别进行一次反向传播，上述这个过程就是一次训练过程，总体训练过程重复上述过程即可。

变声阶段：

通过上述完成训练的变声网络，即可将源说话人的音频变换为目标说话人的音频。具体而言，通过上述部分中训练完成的分类网络将源说话人的音频转换为具体的分类标签，然后通过第二部分中的生成器网络直接还原为音频输出。

本申请实施例通过上分类网络的运用，以音频对应的音素类别作为变声的方式，进而简单有效地实现了与目标变声人相差无几的变声方案。上述变声方式所依赖的变声***为一轻量级***，故可实现流式实时变声。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语音转换模型的训练方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将第二样本数据输入训练好的分类网络模型，得到第二音频对应的第二音素标签，其中，第二样本数据包括第二音频；

S2，使用第二音频及其对应的第二音素标签训练变声网络模型，其中，变声网络模型包括生成器、时域判别器以及频域判别器。

S1，根据获取到的源音频输出源音频对应的音素标签；

S2，根据源音频对应的音素标签，输出目标音频，其中，源音频和目标音频的音色不同，目标音频的音色与第二音频的音色一致。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本申请实施例中的语音转换模型的训练方法与其应用的神经网络模型的训练方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的事件检测方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于储存语音转换模型的训练方法的程序步骤。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示训练过程；和连接总线1010，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，根据获取到的源音频输出源音频对应的音素标签；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音转换模型的训练方法，其特征在于，所述语音转换模型包括分类网络模型和变声网络模型，所述方法包括：

使用第一样本数据训练所述分类网络模型，其中，所述第一样本数据包括第一音频及其对应的第一音素标签，所述分类网络模型包括卷积神经网络层和循环神经网络层；

将第二样本数据输入训练好的所述分类网络模型，得到第二音频对应的第二音素标签，其中，所述第二样本数据包括第二音频；

使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型，其中，所述变声网络模型包括生成器、时域判别器以及频域判别器，所述生成器包含三层CNN模块，然后连接一层LSTM，然后连接四个相互链接的反卷积-卷积残差块，最后通过PQMF模块作为输出；

其中, 在将第二样本数据输入训练好的所述分类网络模型之前，所述方法还包括：

获取第二音频，并根据所述第二音频获取每一帧所述第二音频对应的第二音频特征；

所述使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型，包括：

使用所述第二音频及其对应的所述第二音素标签，依次交替训练所述生成器、所述时域判别器以及所述频域判别器；

其中，所述使用第一样本数据训练所述分类网络模型包括：

根据每一帧音频及其对应的音素标签构建一个所述分类网络模型，所述分类网络模型包含五层卷积神经网络CNN模块以及两层长短时记忆模块构成，最后连接softmax分类器，将训练语料中每一帧音频对应的梅尔普特征作为输入，将每一音频对应的音素标签作为输出对上述分类网络模型进行训练，通过反向传播，将其训练至收敛为止。

2.根据权利要求1所述的方法，其特征在于，在使用第一样本数据训练所述分类网络模型之前，所述方法还包括：

获取训练语料，其中，所述训练语料包括第一音频及其对应的第一文本；

将所述第一音频转换为第一音频特征；

将所述第一文本转换为第一音素，并根据所述第一音频的时长，将所述第一音频特征与所述第一音素进行对齐，得到每一帧所述第一音频特征对应的音素标签；其中，对齐后的所述第一音素的时长与所述第一音频特征的时长一致；

根据所述第一音频和所述第一文本的对齐关系，以及所述第一音素的时长信息，确定每一帧所述第一音频对应的第一音素标签，其中，所述第一音素标签用于标识所述第一音素。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一文本转换为所述第一音素，包括：

对所述第一文本进行正则化处理，以将所述第一文本中包含的数字和/或字母和/或符号转化为文字；

将经过正则化处理的所述第一文本转换为第一拼音；

根据拼音与音素映射表，将所述第一拼音转换为所述第一音素。

4.根据权利要求1所述的方法，其特征在于，所述使用第一样本数据训练所述分类网络模型，包括：

将每一帧所述第一音频对应的第一音频特征输入所述分类网络模型，然后输出音素标签，通过反向传播训练将所述分类网络训练至收敛。

5.根据权利要求1所述的方法，其特征在于，所述获取每一帧所述第二音频对应的第二音频特征之后，所述方法还包括：

将所述第二音频特征输入训练后的所述分类网络模型，得到每一帧所述第二音频对应的所述第二音素标签，其中，所述第二音素标签用于标识所述第二音素。

6.根据权利要求5所述的方法，其特征在于，所述使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型，包括：

将每一帧所述第二音频及其对应的所述第二音素标签输入所述变声网络模型，然后输出对应的音频，通过反向传播训练将所述变声网络模型训练至收敛。

7.根据权利要求1所述的方法，其特征在于，所述使用所述第二音频及其对应的所述第二音素标签，依次交替训练所述生成器、所述时域判别器以及所述频域判别器，包括：

将所述第二音素标签对应的所述第二音频设定为真音频，将所述生成器根据所述第二音素标签输出的音频设定为假音频，使用所述真音频和所述假音频依次交替训练所述时域判别器和所述频域判别器。

8.一种语音转换模型，其特征在于，包括分类网络模型和变声网络模型，

所述分类网络模型配置为，根据获取到的源音频对应的源音频特征输出所述源音频特征对应的音素标签；

所述变声网络模型配置为，根据所述源音频特征对应的音素标签，输出目标音频，其中，所述源音频和所述目标音频的音色不同；

其中，所述语音转换模型的训练过程如权利要求1至7任一项所述。

9.一种语音转换方法，应用于权利要求8所述的语音转换模型，其特征在于，所述方法包括：

根据获取到的源音频输出所述源音频对应的音素标签；

根据所述源音频对应的音素标签，输出目标音频，其中，所述源音频和所述目标音频的音色不同，所述目标音频的音色与所述第二音频的音色一致。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

根据第一时间周期内获取到的第一子源音频输出所述第一子源音频对应的音素标签，并根据所述第一子源音频对应的音素标签输出第一子目标音频；

根据第二时间周期内获取到的第二子源音频输出所述第二子源音频对应的音素标签，并根据所述第二子源音频对应的音素标签输出第二子目标音频；

其中，所述第一时间周期与所述第二时间周期为相邻的时间周期，且所述第二时间周期位于所述第一时间周期之后。

11.一种语音转换***，其特征在于，包括拾音设备、播音设备以及权利要求8所述的语音转换模型，其中，

所述拾音设备配置为，获取源音频；

所述语音转换模型配置为，根据所述源音频输出目标音频，其中，所述源音频和所述目标音频的音色不同，所述目标音频的音色与所述第二音频的音色一致；

所述播音设备配置为，播放所述目标音频。

12.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7、9至10任一项中所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7、9至10任一项中所述的方法。