CN113380264A

CN113380264A - 一种用于非对称语料的语音转换方法

Info

Publication number: CN113380264A
Application number: CN202110558455.5A
Authority: CN
Inventors: 简志华; 朱雅楠; 于佳祺; 韦凤瑜; 徐嘉; 游林; 汪云路
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-09-10

Abstract

本发明用于非对称语料的语音转换方法：从训练数据集中所有语音段的集合中采样得到声学矢量序列，编码器生成潜矢量序列；得到潜矢量序列后，通过IN算法得到语音的内容信息；将语音内容信息从潜矢量中减去，得说话人的个性特征；解码器对分离后的内容信息表示与说话人个性特征表示进行合成，生成语音；参数更新；判别器用对抗损失表示；将待转换的源语音与目标语音分别作为已经训练好的编码器的输入，编码器提取源语音的内容信息和目标语音的个性特征，再将两者通过已经训练好的解码器进行合成，生成保留源语音的内容信息并具有目标说话人个性特征的语音。

Description

一种用于非对称语料的语音转换方法

技术领域

本发明属于语音处理技术领域，具体涉及一种用于非对称语料的语音转换方法。

背景技术

语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息，同时保持语音内容不变，在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。目前，语音转换大致可以分为两类，一类是受监督的，另一类是无监督的。受监督的语音转换已经取得了较好的成果，但是需要源与目标之间帧级对齐，也即需要对称的语料进行训练。如果源语音与目标语音不对称，也即语义内容不同，它们两者之间就有较大的差异，就无法达到较好的转换效果，这就限制了语音转换的应用范围。

中国专利号201310146293.X公开了一种基于自适应算法的非对称语料库条件下的语音转换方法，首先通过预先准备的参考说话人语句训练得到背景说话人模型；然后通过MAP自适应技术，将源说话人和目标说话人的语句分别训练得到源说话人和目标说话人模型；接着通过自适应源说话人和目标说话人模型中的均值和方差训练得到语音转换函数，分别提出了高斯归一化和均值转换的方法，为了进一步提高转换效果，进而提出了高斯归一化和均值转换融合的方法。该专利技术方案虽有其优点，但其语音转换性能有待提高。

发明内容

针对上述现状，本发明提出了一种采用表示分离生成对抗网络(RepresentationSeparation Generative Adversarial Network,RS-GAN)的语音转换方法，在RS-GAN网络中使用编码器将语音的内容信息与说话人信息分离。在训练阶段，通过编码器对语音进行特征提取，并在编码器之后使用实例归一化(Instance Normalization,IN)将语音中包含的说话人个性特征去除，从而只保留语音中的内容信息。在转换阶段，将源语音与目标语音输入编码器，分别提取到源语音的内容信息与目标语音的个性特征，通过解码器将其合成便可得到转换后的语音。

本发明采取如下技术方案：

一种用于非对称语料的语音转换方法，其按如下步骤：

一、训练阶段：

1.1令X为从训练数据集χ中所有语音段的集合中采样得到的声学矢量序列，enc为编码器，dec为解码器，则编码器生成的潜矢量序列Z为

Z＝enc(X) (1)

得到潜矢量序列Z后，通过IN算法将潜矢量中包含的说话人个性特征归一化，从而去除说话人的个性特征，得到语音的内容信息Z_cont

Z_cont＝IN(Z) (2)

假设p(Z_cont|X)是具有单位方差且条件独立的高斯分布，即

p(Z_cont|X)＝N(Z_cont；0,I) (3)

其中，N表示高斯分布，I表示单位方差；

将语音内容信息Z_co_nt从潜矢量Z中减去，可得说话人的个性特征Z_sty表示为

Z_sty＝E_t[Z-Z_co_nt] (4)

其中，E_t代表语音序列X的全局信息在潜在表示Z上所占长度的期望；

1.2解码器对分离后的内容信息表示与说话人个性特征表示进行合成，生成的语音X'为

X'＝dec(Z_co_nt+Z_sty) (5)

并通过反向传播计算损失函数梯度，从而最小化重建损失并进行参数更新

其中，θ_enc是编码器更新参数，θ_dec是解码器更新参数；

1.3判别器D用于判别解码器生成的语音是否为真实语音X，并用对抗损失来表示，定义为

L_adv(θ_enc,θ_dec,θ_D)＝E_x∈χ[log(D(x))]+E_x∈χ[log(1-X']+E_x∈χ[log(1-D(dec(Z)))] (7)

其中，θ_enc是编码器更新的参数，θ_dec是解码器更新的参数，θ_D是判别器更新的参数；

二、转换阶段

将待转换的源语音X与目标语音Y分别作为已经训练好的编码器的输入，编码器提取源语音的内容信息Z_co_nt和目标语音的个性特征Z_sty，再将两者通过已经训练好的解码器进行合成，生成保留源语音的内容信息并具有目标说话人个性特征的语音Y'。

优选的，IN算法表示为：

式中，Z_ch[w]是第ch个通道中的第w个元素；因为应用的是1维卷积而不是2维卷积，所以每个通道是一个数组，而不是矩阵；μ_ch和σ_ch是第ch个通道的均值与标准差，表示为

式中，W是潜矢量Z_ch的维度，ε是一个很小的值，避免数值的不稳定；经过归一化处理的潜矢量Z'_ch中仅保留了语音的内容信息，说话人的个性特征已被去除。

优选的，在编码器中，使用Conv1d卷积层和ReLu激活层的结构来同时处理所有频率信息，并在两个Conv1d层之后使用两个Resblock残差块，以避免梯度弥散；内容表示是通过IN层生成的，说话人个性特征表示是每个时间步长上潜矢量和内容矢量之间差的平均值。

优选的，在解码器中，使用Norm-1层对输入矢量进行L2范数归一化，最后通过Upsample层进行上采样，输出合成语音。

优选的，判别器D最大化该对抗损失，区分合成语音与真实语音；编码器、解码器最小化对抗损失，从而使合成的语音与真实语音无法区分。

本发明具有如下技术效果：

(1)本发明采用表示分离生成对抗网络进行语音转换，有效地提升了非对称语料情况下的语音转换性能。

(2)本发明利用编码器以及IN算法对语音的内容信息与说话人个性特征进行解离，再通过解码器将源语音的内容信息与目标语音的个性特征进行合成，使得生成语音的个性特征更加接近特定目标说话人的个性特征。

(3)本发明提出的语音转换方法有效地克服了转换后语音中不能较好保留输入语音成分的问题。

附图说明

图1是一种优选实施例用于非对称语料的语音转换方法的流程框图。

图2是编码器的结构图。

图3是解码器的结构图。

图4是判别器的结构图。

具体实施方式

下面结合附图对本发明的优选实施例做详细说明。

在本实施例一种用于非对称语料的语音转换方法的整个过程中，无论是训练阶段还是转换阶段，都不需要对称的语料，完整的语音转换过程如图1所示：

步骤一，训练阶段

编码器：

1.1本发明使用编码器-解码器结构，并且仅使用一个编码器提取语音的内容信息与说话人个性特征。令X为从训练数据集χ中所有语音段的集合中采样得到的声学矢量序列，enc为编码器，dec为解码器，则编码器生成的潜矢量序列Z为

Z＝enc(X) (1)

Z_cont＝IN(Z) (2)

假设p(Z_cont|X)是具有单位方差且条件独立的高斯分布，即

p(Z_cont|X)＝N(Z_cont；0,I) (3)

其中，N表示高斯分布，I表示单位方差。

Z_sty＝E_t[Z-Z_co_nt] (4)

其中，E_t代表语音序列X的全局信息在潜在表示Z上所占长度的期望。

在编码器中，使用Conv1d卷积层和ReLu激活层的结构来同时处理所有频率信息，并在两个Conv1d层之后使用两个Resblock残差块，来避免梯度弥散。内容表示是通过IN层生成的，说话人个性特征表示是每个时间步长上潜矢量和内容矢量之间差的平均值。编码器结构如图2所示。图2中，Conv1d是卷积层，Relu是激活层，Resblock是残差块。

1.2在训练阶段，解码器对分离后的内容信息表示与说话人个性特征表示进行合成，生成的语音X'为

X'＝dec(Z_co_nt+Z_sty) (5)

其中，θ_enc是编码器更新参数，θ_dec是解码器更新参数。

在解码器网络中使用Norm-1层对输入矢量进行L2范数归一化，最后通过Upsample层进行上采样，输出合成语音，其结构如图3所示。图3中，Norm为归一化层，Upsample为上采样层，Conv1d与ResBlock与编码器一致。

1.3判别器D：其作用是用于判别解码器生成的语音是否为真实语音X，并用对抗损失来表示，定义为

其中，θ_enc是编码器更新的参数，θ_dec是解码器更新的参数，θ_D是判别器更新的参数。

判别器D试图最大化该对抗损失，尽可能区分合成语音与真实语音。编码器、解码器尽可能最小化对抗损失，从而使合成的语音与真实语音无法区分。判别器结构如图4所示。图4中，GLU为线性门控单元，FC为全连接层，GSP为全局池化层。

实例归一化：

将编码器的输出潜矢量Z通过IN算法进行归一化处理后可以有效地保留内容信息，同时去除说话人的个性特征。IN算法可以表示为：

式中，Z_ch[w]是第ch个通道中的第w个元素。因为应用的是1维卷积而不是2维卷积，所以每个通道是一个数组，而不是矩阵。μ_ch和σ_ch是第ch个通道的均值与标准差，表示为

式中，W是潜矢量Z_ch的维度，ε是一个很小的值，来避免数值的不稳定。经过归一化处理的潜矢量Z'_ch中仅保留了语音的内容信息，说话人的个性特征已被去除。

二、转换阶段

将待转换的源语音X与目标语音Y分别作为已经训练好的编码器的输入，编码器提取源语音的内容信息Z_co_nt和目标语音的个性特征Z_sty，再将两者通过解码器进行合成，就可以生成保留源语音的内容信息并具有目标说话人个性特征的语音Y'。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种用于非对称语料的语音转换方法，其特征是按如下步骤：

一、训练阶段：

Z＝enc(X) (1)

Z_cont＝IN(Z) (2)

假设p(Z_cont|X)是具有单位方差且条件独立的高斯分布，即

p(Z_cont|X)＝N(Z_cont；0,I) (3)

其中，N表示高斯分布，I表示单位方差；

将语音内容信息Z_cont从潜矢量Z中减去，可得说话人的个性特征Z_sty表示为

Z_sty＝E_t[Z-Z_cont] (4)

X'＝dec(Z_cont+Z_sty) (5)

其中，θ_enc是编码器更新参数，θ_dec是解码器更新参数；

二、转换阶段

将待转换的源语音X与目标语音Y分别作为已经训练好的编码器的输入，编码器提取源语音的内容信息Z_cont和目标语音的个性特征Z_sty，再将两者通过已经训练好的解码器进行合成，生成保留源语音的内容信息并具有目标说话人个性特征的语音Y'。

2.如权利要求1所述用于非对称语料的语音转换方法，其特征是，所述IN算法表示为：

3.如权利要求1所述用于非对称语料的语音转换方法，其特征是，在编码器中，使用Conv1d卷积层和ReLu激活层的结构来同时处理所有频率信息，并在两个Conv1d层之后使用两个Resblock残差块，以避免梯度弥散；内容表示是通过IN层生成的，说话人个性特征表示是每个时间步长上潜矢量和内容矢量之间差的平均值。

4.如权利要求1所述用于非对称语料的语音转换方法，其特征是，在解码器中，使用Norm-1层对输入矢量进行L2范数归一化，最后通过Upsample层进行上采样，输出合成语音。

5.如权利要求1-4任一项所述用于非对称语料的语音转换方法，其特征是，判别器D最大化该对抗损失，区分合成语音与真实语音；编码器、解码器最小化对抗损失，使合成的语音与真实语音无法区分。