CN112562686A

CN112562686A - 一种使用神经网络的零样本语音转换语料预处理方法

Info

Publication number: CN112562686A
Application number: CN202011433778.3A
Authority: CN
Inventors: 魏建国; 更太加
Original assignee: Qinghai Nationalities University
Current assignee: Qinghai Nationalities University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-26
Anticipated expiration: 2040-12-10
Also published as: CN112562686B

Abstract

本发明提供一种使用神经网络的零样本语音转换语料预处理方法，在零样本语音转换这一全新领域中提升了说话人身份编码向量的有效性，在转换语音的质量上得到了一定的提升，对说话人身份编码进行基于神经网络的预处理，使用说话人身份编码器提取语料中的说话人身份编码向量，将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中，生成器得到调整之后的说话人身份编码向量，将从生成器中得到的结果作为该说话人的最终身份编码向量，即作为该说话人的身份标签输入到解码器中，解码器生成转换后的音频特征序列。

Description

一种使用神经网络的零样本语音转换语料预处理方法

技术领域

本申请涉及网络安全技术领域，尤其涉及一种使用神经网络的零样本语音转换语料预处理方法。

背景技术

语音转换技术的最核心的应用是改变语音的音色，使其听起来像是目标说话人说出来的。

近些年，语音转换领域的研究突飞猛进，逐渐从需要平行语料和手动对齐和平行***转向了不需要平行语料的非平行***。非平行***的优势在于训练所需要的语料要求不高，十分灵活，便于获取，因此非平行***扩展了语音转换技术的应用领域。

但传统的非平行***只能实现在一对一、一对多、多对一、多对多的情况下的语音转换，也就是说语音转换任务中的源和说话人必须是训练集中的说话人，因此，对于不在训练集中的说话人，想要将他们作为源或目标说话人进行语音转换时，就必须使用对应的语音数据重新进行模型的训练。语音转换使用的神经网络模型一般来讲是比较复杂的，重新训练模型必然导致大量时间和算力的消耗，往往还需要对模型训练的参数进行不断地调整，才能使语音转换工作正常进行。因此，近一年来，零样本语音转换技术成为了语音转换领域内的一个全新的研究方向。

所谓零样本是指语音转换任务中的源说话人或者目标说话人无需在训练集中，而可以是任意的说话人，也就是说零样本语音转换技术实现了使用一个语音转换模型就可以完成任意说话人到任意说话人的语音转换任务，突破了训练集中说话人的限制。

零样本语音转换技术的一个核心思路就是使用说话人身份编码向量来表示说话人的身份标签，但随之而来的是以下几个问题：

1）在源或目标说话人可用语料极少时，得到的说话人身份编码向量未必是可靠的；

2）在使用说话人身份编码向量进行模型训练时，必须求平均值，使用一个固定的向量来代表固定的说话人；

3）对于不在训练集中的说话人，转换时使用的说话人身份编码向量和语音转换模型的配合程度不高。

因此，急需一种使用神经网络的零样本语音转换语料预处理方法。

发明内容

本发明的目的在于提供一种使用神经网络的零样本语音转换语料预处理方法，在零样本语音转换这一全新领域中提升了说话人身份编码向量的有效性，在转换语音的质量上得到了一定的提升。

第一方面，本申请提供一种使用神经网络的零样本语音转换语料预处理方法，所述方法包括：

使用了神经网络的生成器，对未在训练集中的说话人的身份编码向量进行预处理，使用256维的向量来表示说话人的音色等个性化特征，对应说话人的身份标签；

通过编码器将语音信息中的说话人相关信息和说话人无关信息分离出来，提取出来的说话人相关信息是32维或者64维；

该生成器由7层神经网络构成，前三层是卷积核大小为5的一维卷积层，在每一次卷积操作后进行批标准化步骤，并通过激活函数ReLU对输出进行激活，卷积神经网络输出的维数是512；接下来的三层是循环神经网络LSTM，在三层LSTM网络全部结束后选取最后一次输出的最后一列输出作为LSTM网络的最终输出，维数为768；最后一层神经网络是一个全连接层FullConnect，它重新将输出的维数限制在256位，最终得到预处理后的说话人身份编码；

该生成器是独立于语音转换模型单独进行训练的，使其根据输入的说话人身份编码向量输出一个靠近该值但又不完全一致的结果，对于生成器的输出，则为越靠近语音转换模型训练时使用的对应说话人的身份编码向量越好；

对说话人身份编码进行基于神经网络的预处理，使用说话人身份编码器提取语料中的说话人身份编码向量，将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中，生成器得到调整之后的说话人身份编码向量，将从生成器中得到的结果作为该说话人的最终身份编码向量，即作为该说话人的身份标签输入到解码器中，解码器生成转换后的音频特征序列。

结合第一方面，在第一方面第一种可能的实现方式中，该生成器的最终训练目标如下：

代表原始语音的音频特征，

代表说话人身份编码器，

代表得到的初始说话人身份编码向量；

代表本发明所述的生成器，代表经过调整之后的说话人身份编码向量，也就是生成器的对应输出结果；

代表生成器训练时的损失函数，通过使生成器的输出与语音转换模型中使用的众多说话人身份编码向量的平均值

的差距达到最小，对生成器进行训练。

结合第一方面，在第一方面第二种可能的实现方式中，生成对抗网络是由一个生成器和一个判别器组成，二者根据给定的目标函数在对抗过程中不断优化迭代，最终得到一个模型。

第二方面，本申请提供一种使用神经网络的零样本语音转换语料预处理***，所述***包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所有可能中任一项所述的方法步骤。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所有可能中任一项所述的方法步骤。

第四方面，本申请提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面所有可能中任一项所述的方法步骤。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音转换***的流程图。

图2为本发明的预处理过程说明图。

图3为本发明的生成器网络结构设计图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本申请提供的使用神经网络的零样本语音转换语料预处理方法，所述方法包括：

本发明所述的方法主要是一个使用了神经网络的生成器，该生成器的作用是对未在训练集中的说话人的身份编码向量进行预处理，提升有效性。

对该生成器的描述如下：

1）在目前的零样本语音转换技术中，一般使用256维的向量来表示说话人的音色等个性化特征，可以看作是对应说话人的身份标签；

2）对于目前最流行的基于自编码器的零样本语音转换框架来说，特征分离是核心的处理方式，所谓特征分离是指通过编码器将语音信息中的说话人相关信息和说话人无关信息分离出来，提取出来的说话人相关信息一般是32维或者64维，本发明提出的方法是具有普遍应用价值的，在此仅以64维的情况为例进行说明，其他维数或者基于其他框架的零样本语音转换***同样适用；

3）该生成器的目的是对不在训练集中的说话人的身份编码向量进行预处理，输入的维度是256+64.输出的维度是256，最终实现处理身份编码向量，提升其可用性的目的；

4）该生成器由7层神经网络构成，前三层是卷积核大小为5的一维卷积层，在每一次卷积操作后进行批标准化步骤，并通过激活函数ReLU对输出进行激活，卷积神经网络输出的维数是512。接下来的三层是循环神经网络LSTM，在三层LSTM网络全部结束后选取最后一次输出的最后一列输出作为LSTM网络的最终输出，维数为768。最后一层神经网络是一个全连接层FullConnect，它重新将输出的维数限制在256位，最终得到预处理后的说话人身份编码；

5）该生成器是独立于语音转换模型单独进行训练的，训练该生成器的主要思路是使其根据输入的说话人身份编码向量输出一个靠近该值但又不完全一致的结果，对于生成器的输出，应该越靠近语音转换模型训练时使用的对应说话人的身份编码向量越好。

6）足够可用的说话人身份编码向量对零样本语音转换来说是相当重要的。说话人身份编码相关技术来源于说话人识别领域，但该技术在说话人识别领域和在语音转换领域的应用是不同的，两个领域对其有不同的要求。在说话人识别领域中，说话人身份编码向量主要用于判断两段语音是否同属于同一个说话人，或是用于判断一段语音所属说话人的身份，因此由说话人编码器得到的说话人身份编码向量是直接可用的，有适当的偏差也不影响最终的效果，足以满足实际需求。但在语音转换领域中，说话人身份编码向量是作为说话人的身份标签来使用的，因此最好每一个独特的说话人对应一个完全确定的精确的说话人身份编码向量，这样就可以获得效果更好的语音转换效果。

为了解决上面的问题，有以下几种思路：

第一，充分提升说话人身份编码器的性能，使其输出的说话人身份编码向量可以收敛于相对精确的点，这种方式是不现实的，因为目前的技术发展状况还无法实现这一要求，因此本方法在客观上是不可行的。

第二，每一个不在训练集中的说话人都有足够大量的音频语料数据作为参考。这种方法可以使用说话人编码其从大量语料中提取出大量的说话人身份编码向量，从而获得一个相对稳定的平均值，就可以逼近语音转换模型使用的最佳点，但对于零样本语音转换来说，源说话人或目标说话人往往都只有极少的音频语料数据可供使用和参考，否则零样本语音转换就失去了应用意义，因此这种方法是不符合现实需求的。

第三，将每一句语料数据都作为单独的不同的说话人来处理，在训练语音转换模型时，对于同一个说话人的不同话语，都用对应语句音频中提取出的说话人身份编码向量作为语音转换***的输入。但这种方式同样是完全不可行的，实验的结果充分显示，使用这种方式会使语音转换模型的训练结果无法达到收敛，最终整个模型训练的结果是崩溃的。

第四，对说话人身份编码进行基于神经网络的预处理，即本发明提出的方法。

7）在转换阶段使用该生成器的步骤如下：

首先，使用说话人身份编码器提取语料中的说话人身份编码向量；

第二，将提取出的向量和使用内容编码器提取出的内容编码一起输入到生成器中；

第三，生成器得到调整之后的说话人身份编码向量；

第四，将从生成器中得到的结果作为该说话人的最终身份编码向量，即作为该说话人的身份标签输入到解码器中；

第五，解码器生成转换后的音频特征序列。

8）该生成器的最终训练目标如下：

代表原始语音的音频特征，

代表说话人身份编码器，

代表得到的初始说话人身份编码向量。

代表本发明所述的生成器，

代表经过调整之后的说话人身份编码向量，也就是生成器的对应输出结果。

代表生成器训练时的损失函数，通过使生成器的输出语音转换模型中使用的众多说话人身份编码向量的平均值

的差距达到最小，对生成器进行训练。

在训练结束后，生成器对应地就拥有了将未在训练集中的说话人身份编码向量进行合理调整的能力，实验表明本发明所述方法可以有效地提升说话人身份编码向量的可用性，尤其是在进行零样本语音转换这一任务时，可以极大地提升说话人身份编码向量与语音转换模型的配合程度，最终提升转换语音的自然度和相似度。

本申请提供一种使用神经网络的零样本语音转换语料预处理***，所述***包括：所述***包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法步骤。

本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所有实施例中任一项所述的方法步骤。

本申请提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面所有实施例中任一项所述的方法步骤。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可以存储有程序，该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体（简称：ROM）或随机存储记忆体（简称：RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书各个实施例之间相同相似的部分互相参见即可。尤其，对于实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。