CN109326283B

CN109326283B - 非平行文本条件下基于文本编码器的多对多语音转换方法

Info

Publication number: CN109326283B
Application number: CN201811406355.5A
Authority: CN
Inventors: 李燕萍; 石杨; 张燕
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-01-26
Anticipated expiration: 2038-11-23
Also published as: CN109326283A

Abstract

本发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法，包括了训练部分和转换部分，使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换***，在VAWGAN中加入代表语义的句子嵌入，能够较好地提升转换后语音的语音质量和个性相似度，实现高质量的语音转换。此外，本方法解除了对平行文本的依赖，实现了非平行文本条件下的语音转换，而且训练过程不需要任何对齐过程，提高了语音转换***的通用性和实用性。此外，本方法可以将多个源‑目标说话人对的转换***整合在一个转换模型中，即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

Description

非平行文本条件下基于文本编码器的多对多语音转换方法

技术领域

本发明涉及一种语音转换方法，特别是涉及一种非平行文本条件下基于文本编码器的多对多语音转换方法。

背景技术

语音转换(Voice Conversion，VC)是一种在保持语义信息的同时将源说话人特征转换为目标说话人特征的技术。近几年的研究中，VC模型采用深度神经网络(Deep NeuralNetworks，DNN)，将源语音参数转换为目标语音参数，相比于传统的高斯混合模型(Gaussian Mixture Model，GMM)，DNN可以更有效地转换语音特征。

最近，变分自动编码器(Variational Auto-Encoder，VAE)已经被用于非平行的VC模型，因为VAE比受限制的Boltzmann机更容易训练。在传统的基于VAE的非平行VC 中，编码器从输入语音参数中提取与说话者无关的代表语义内容的潜在变量，然后解码器从潜在变量中重建参数。然而由于VAE的潜在变量中的过度正则化效应，这使得潜在变量的分布过于简单化，并且很难代表语义内容的基础结构，这种基于VAE的非平行语料转换语音的质量低于用平行语音语料库训练的DNN转换的质量。如果使用潜在变量的更复杂的先验分布，例如GMM来解决该问题，但是因为语义内容的变化很大，不容易确定GMM集群的数量，所以实现起来非常困难。目前，基于VAE的非平行语料转换语音方法存在着转换后的语音质量差、噪声多等不足。

发明内容

发明目的：本发明要解决的技术问题是提供一种非平行文本条件下基于文本编码器 (Text-Encoder)的多对多语音转换方法，能够有效提升转换后的语音质量，减少转换过程中带来的噪声。

技术方案：本发明所述的非平行文本条件下基于文本编码器的多对多语音转换方法，包括训练阶段和转换阶段，其中所述训练阶段包括以下步骤：

(1.1)获取由多名说话人的语料组成的训练语料，包含源说话人和目标说话人；

(1.2)将所述的训练语料通过WORLD语音分析/合成模型，提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf₀；

(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入z_p；

(1.4)将所述频谱包络特征x与句子嵌入z_p输入文本编码器进行训练，训练过程中使文本编码器的损失函数尽量小，直至设置的迭代次数，得到训练好的文本编码器；

(1.5)将训练语料的句子嵌入z_p、频谱包络特征x、说话人标签y输入VAWGAN 网络模型进行训练，VAWGAN网络模型由编码器、生成器和鉴别器组成，训练过程使生成器的损失函数尽量小，使鉴别器的损失函数尽量大，直至设置的迭代次数，得到训练好的VAWGAN网络；

(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；

所述转换阶段包括以下步骤：

(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf₀；

(2.2)将上述频谱包络特征x，输入步骤(1.4)中训练好的文本编码器，输出得到文本编码器预测的源说话人每条语句的句子嵌入

(2.3)将上述句子嵌入

源说话人频谱包络特征x、目标说话人标签y输入步骤(1.5)中训练好的VAWGAN网络，从而重构出目标说话人频谱包络特征x′；

(2.4)通过步骤(1.6)得到的基频转换函数，将步骤(2.1)中提取出的源说话人对数基频logf₀转换为目标说话人的对数基频logf_0′；

(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频logf_0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型，合成得到转换后的说话人语音。

进一步的，所述文本编码器采用l₂损失函数，损失函数为：

其中，M为训练语句的数量，z_p为训练库中语义内容编码所得的真实句子嵌入，

为文本编码器输出的预测句子嵌入。

进一步的，所述文本编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、 128、256。

进一步的，步骤(1.5)中的训练过程包括以下步骤：

(1)将所述的训练语料频谱包络特征x，作为所述VAWGAN网络中编码器的输入数据，输出得到说话人无关的语义特征z；

(2)将上述语义特征z、说话人标签y、步骤(1.3)中所述的句子嵌入z_p输入生成器进行训练，使生成器的损失函数尽量小，得到生成的说话人频谱包络特征x′；

(3)将上述说话人频谱包络特征x′和训练语料频谱包络特征x输入所述鉴别器进行训练，使鉴别器的损失函数尽量大；

(4)重复步骤(1)、(2)和(3)，直至达到迭代次数，从而得到训练好的VAWGAN 网络。

进一步的，步骤(2.3)中的输入过程包括以下步骤：

(1)将频谱包络特征x输入VAWGAN网络中的编码器，得到说话人无关的语义特征z；

(2)将上述语义特征z、目标说话人标签y、步骤(2.2)中文本编码器预测的句子嵌入

输入到所述的生成器中，重构出目标说话人频谱包络特征x′。

进一步的，所述VAWGAN网络中的编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为 16、32、64、128、256。

进一步的，所述VAWGAN网络中的生成器采用二维卷积神经网络G，损失函数为：

所述的鉴别器采用二维卷积神经网络D，损失函数为：

其中,G_θ为生成器网络，D_ψ为鉴别器网络，

表示生成器生成的概率分布的期望，

表示真实概率分布的期望，

表示x服从的真实概率分布。

进一步的，所述的生成器的二维卷积神经网络G包括4个卷积层，4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1，步长分别为3、3、3、1，过滤器深度分别为 32、16、8、1；所述的鉴别器的二维卷积神经网络D，包括3个卷积层和1个全连接层， 3个卷积层的过滤器大小分别为7*1、7*1、115*1，步长均为3，过滤器深度分别为16、 32、64。

进一步的，所述的基频转换函数为：

其中，μ_σ和σ_σ分别为源说话人的基频在对数域的均值和方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和方差，logf_0σ为源说话人的对数基频，logf_0c为转换后对数基频。

有益效果：本方法能够将转换语音中的语义内容通过文本编辑器处理后，应用到VAWGAN***中去，相比于现有技术有效地提升了转换后的语音质量和相似度，减少转换过程中带来的噪声，实现高质量的语音转换。此外，本方法的训练过程并不依赖平行文本，能够实现非平行文本条件下的语音转换，而且训练过程不需要任何对齐过程，提高了语音转换***的通用性和实用性。本方法还可以将多个源-目标说话人对的转换***通过一个转换模型实现，即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。

附图说明

图1是本方法的整体流程图。

具体实施方式

如图1所示，本发明所述高质量语音转换方法分为两个部分：训练部分用于得到语音转换所需的模型参数和转换函数，而转换部分用于实现源说话人语音到目标说话人语音的转换。

训练阶段实施步骤为：

1.1)获取非平行文本的训练语料，训练语料是多名说话人的语料，包含源说话人和目标说话人。训练语料取自VCC2018语音语料库，选取该语料库中4名男性和4名女性说话人的非平行文本训练语料，每名说话人有81句语料。该语料库还包含每句训练语料的语义内容。源说话人和目标说话人的训练语料既可以是平行文本，也可以是非平行文本的。

1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf₀。其中由于快速傅氏变换(Fast FourierTransformation，FFT)长度设置为1024，因此得到的频谱包络特征x和非周期性特征均为1024/2+1＝513维。

1.3)将训练语料中每句话的语义内容进行编码，首先使用fasttext框架训练维度为 300的词嵌入。fasttext是一个被用于对词嵌入和句子分类进行高效学习训练的工具库。词嵌入采用subword模型来学习每个单词w的向量表示。subword模型来源于skipgram模型。skipgram模型的训练目标是最大化以下对数似然：

其中，w_t为当前指定的单词，C_t为单词的上下文内容，w_c为上下文单词。

为了更符合实际情况，将预测上下文单词替代为构造独立的二进制分类任务，即预测某个上下文单词是否存在。对于上下文位置c，使用二元逻辑损失，上式改写为：

其中N_t,c为不存在的上下文单词，即负例，

为单词w_t和上下文单词w_c之间的评分函数，

和

分别为单词w_t和上下文单词w_c的词嵌入。

Subword模型将评分函数替换为：

其中，G_w为单词w中的n-gram集合，z_g为n-gram g的向量表示，n-gram的向量表示的总和表示单词w的词嵌入。最小化该对数似然损失函数，便可以获得单词w的词嵌入。

然后将句子嵌入表示成词嵌入的加权平均值:

其中，z_p为句子嵌入，v_w为单词w的词嵌入，a为超参数，p(w)为单词w在整个语料库中出现的概率。将z_p形成的矩阵的第一个奇异值记为u，z_p减去在向量u上的投影便可获得编码之后的句子嵌入：

z_p←z_p-uu^Tz_p。

1.4)训练文本编码器来建立频谱包络x和句子嵌入之间的映射关系，训练好的文本编码器用于转换阶段，通过将待转换源语音的频谱包络特征输入训练好的文本编码器中得到待转换源语音的句子嵌入。

由于训练语句中有准确的语义内容，先按照1.3)所述方法将句子转化为准确的句子嵌入z_p。接着训练文本编码器，输入为训练语音的频谱包络特征x和句子嵌入z_p，利用l₂损失函数度量预测的句子嵌入和准确的句子嵌入之间的误差，损失函数表示为：

其中，M为训练语句的数量。

所述文本编码器的结构与VAWGAN(Variational Autoencoding WassersteinGenerative Adversarial Network)中使用的编码器的结构相同，采用二维卷积神经网络，包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256。

1.5)将1.2)提取的训练语料的频谱包络特征x，作为VAWGAN编码器的输入数据，经过网络训练后得到说话人无关的语义特征z。其中编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256。

本实施例中的VAWGAN网络以条件变分自动编码器(Conditional VariationalAuto-Encoders，C-VAE)为基础，将W-GAN合并到解码器中来提升C-VAE效果。W-GAN 由两个部分组成：一个产生真实的频谱的生成器G，一个判断输入是真实的频谱还是生成的频谱的鉴别器D。

VAWGAN网络的目标函数为：

J_vawgan＝L(x；φ,θ)+αJ_wgan，

其中，L(x；φ,θ)为C-VAE部分的目标函数：

其中，D_KL(θ_φ(z|x)||p_θ(z))表示判别模型θ_φ(z|x)和真实后验概率p(z|x)之间的KL 散度。先验概率p_θ(z)为标准多维高斯分布。θ_φ(z|x)和p_θ(x|z)分别为编码器和解码器，服从多维高斯分布，其均值向量和协方差矩阵分别为(μ_φ(z),σ_φ(z))和(μ_θ(x),σ_θ(x))。因此，右边两项可以简化为：

其中，K为中间变量z的维数，L为对θ_φ(z|x)取样的次数。由于取样过程是一个非连续的操作，无法求导，因此无法通过反向传播来更新编码器和解码器的网络参数。于是引入另一个随机变量ε对隐藏变量z进行再参数化，令z^(l)＝μ_θ(x)+ε^(l)*σ_θ(x)，ε(l)～N(0,I)，则：

其中，D为x的样本数。

至此，最大化C-VAE的目标函数已经转换为求解凸优化问题，利用随机梯度下降法(Stochastic Gradient Descent，SGD)来更新网络模型参数。α是W-GAN的损失系数。J_wgan表示W-GAN部分的目标函数：

生成器二维卷积神经网络的损失函数为：

优化目标为：

鉴别器二维卷积神经网络的损失函数为：

优化目标为：

1.6)将1.5)得到的训练语料的语义特征z与1.3)得到的句子嵌入z_p、说话人标签y作为联合特征(z,z_p,y)输入到解码器进行训练。其中y为每一个说话人的标签，在本方法中，采用8个说话人进行训练，对每一个说话人进行标号，8个参与训练的说话人分别标为0、1、2、3、4、5、6、7，并将标号编码为one-hot，即得到y。解码器由生成器和鉴别器组成。训练生成器，使生成器的损失函数L_G尽量小，得到生成的说话人频谱包络特征x′。生成器采用二维卷积神经网络，包括4个卷积层。4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1，步长分别为3、3、3、1，过滤器深度分别为32、16、 8、1。鉴别器采用二维卷积神经网络，包括3个卷积层和1个全连接层。3个卷积层的过滤器大小分别为7*1、7*1、115*1，步长均为3，过滤器深度分别为16、32、64。

1.7)将1.6)得到的生成的说话人频谱包络特征x′和1.2)得到的训练语料的频谱包络特征x作为鉴别器的输入，训练鉴别器，使鉴别器的损失函数L_D尽量大。

1.8)重复1.5)、1.6)和1.7)，直至达到迭代次数，从而得到训练好的VAWGAN网络，其中编码器参数φ、生成器参数θ、鉴别器参数ψ为训练好的参数。本实验中选择迭代次数为200000次。

1.9)使用对数基频logf₀的均值和方差建立基音频率转换关系，统计出每个说话人的对数基频的均值和方差，利用对数域线性变换将源说话人对数基频logf₀转换得到目标说话人语音基频logf_0′。

基频转换函数为：

其中，μ_σ和σ_σ分别为源说话人的基频在对数域的均值和方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和方差。

转换阶段实施步骤：

2.1)将源说话人语音通过WORLD语音分析/合成模型提取出源说话人的不同语句的频谱包络特征x、非周期性特征、对数基频logf₀。其中由于FFT长度设置为1024，因此得到的频谱包络特征x和非周期性特征均为1024/2+1＝513维。

2.2)将2.1)提取的源说话人语音的频谱包络特征x，作为1.4)中训练好的文本编码器的输入数据，得到预测的源说话人的句子嵌入

2.3)将2.1)提取的源说话人语音的频谱包络特征x，作为VAWGAN中编码器的输入数据，得到说话人无关的语义特征z。

2.4)将2.2)得到的句子嵌入

与2.3)得到的语义特征z、说话人表征y作为联合特征 (z,

y)输入1.7)训练好的VAWGAN网络，从而重构出目标说话人频谱包络特征x′。

2.5)通过1.9)得到的基音频率转换函数，将2.1)中提取出的源说话人对数基频logf₀转换为目标说话人的对数基频logf_0′。

2.6)将2.4)中得到的目标说话人频谱包络特征x′、2.5)中得到的目标说话人的对数基频logf_0′和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。

Claims

1.一种非平行文本条件下基于文本编码器的多对多语音转换方法，其特征包括训练阶段和转换阶段，其中所述训练阶段包括以下步骤：

(1.2)将所述的训练语料通过WORLD语音分析/合成模型，提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频log f₀；

(1.5)将训练语料的句子嵌入z_p、频谱包络特征x、说话人标签y输入VAWGAN进行训练，VAWGAN网络模型由编码器、生成器和鉴别器组成，训练过程使生成器的损失函数尽量小，使鉴别器的损失函数尽量大，直至设置的迭代次数，得到训练好的VAWGAN网络；

所述转换阶段包括以下步骤：

(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频log f₀；

(2.3)将上述句子嵌入

(2.4)通过步骤(1.6)得到的基频转换函数，将步骤(2.1)中提取出的源说话人对数基频log f₀转换为目标说话人的对数基频log f_0′；

(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频log f_0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型，合成得到转换后的说话人语音。

2.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述文本编码器采用l₂损失函数，损失函数为：

为文本编码器输出的预测句子嵌入。

3.根据权利要求2所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述文本编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层，5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256。

4.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：步骤(1.5)中的训练过程包括以下步骤：

(4)重复步骤(1)、(2)和(3)，直至达到迭代次数，从而得到训练好的VAWGAN网络。

5.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于步骤(2.3)中的输入过程包括以下步骤：

6.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述VAWGAN网络中的编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层，5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256。

7.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述VAWGAN网络中的生成器采用二维卷积神经网络G，损失函数为：

所述的鉴别器采用二维卷积神经网络D，损失函数为：

其中,G_θ为生成器网络，D_ψ为鉴别器网络，

表示生成器生成的概率分布的期望，

表示真实概率分布的期望，θ_φ(z|x)为编码器，

表示x服从的真实概率分布。

8.根据权利要求7所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述的生成器的二维卷积神经网络G包括4个卷积层，4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1，步长分别为3、3、3、1，过滤器深度分别为32、16、8、1；所述的鉴别器的二维卷积神经网络D，包括3个卷积层和1个全连接层，3个卷积层的过滤器大小分别为7*1、7*1、115*1，步长均为3，过滤器深度分别为16、32、64。

9.根据权利要求1所述的非平行文本条件下基于文本编码器的多对多语音转换方法，其特征在于：所述的基频转换函数为：

其中，μ_σ和σ_σ分别为源说话人的基频在对数域的均值和方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和方差，log f_0σ为源说话人的对数基频，log f_0c为转换后对数基频。