CN110085254A

CN110085254A - 基于beta-VAE和i-vector的多对多语音转换方法

Info

Publication number: CN110085254A
Application number: CN201910323677.1A
Authority: CN
Inventors: 李燕萍; 张成飞; 许吉良; 张燕
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-08-02

Abstract

本发明公开了一种基于beta‑VAE和i‑vector的多对多语音转换方法，通过引入可调节参数β和C对变分自动编码器(VAE)框架进行了修改，并将i‑vector(身份特征向量)与改进后的VAE网络结合起来，提高隐变量解纠缠能力，改善其在瓶颈层编码能力的不足，并充分丰富了说话人的个性化特征，能够较好地提升转换后语音的个性相似度和语音质量，有效的提高现有VAE网络的语音转换性能。

Description

基于beta-VAE和i-vector的多对多语音转换方法

技术领域

本发明涉及一种多对多语音转换方法，特别是涉及一种基于beta-VAE和i-vector的多对多语音转换方法。

背景技术

语音转换技术经过多年的研究，已经涌现了很多的经典转换方法，其中包括高斯混合模型(Gaussian Mixed Model，GMM)、频率弯折、深度神经网络(Deep Neural Network，DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练，即源说话人和目标说话人需要发出语音内容、语音时长相同的句子，并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中，获取大量的平行语料殊为不易，甚至无法满足，此外训练时语音特征参数对齐的准确性也成为语音转换***性能的一种制约。无论从语音转换***的通用性还是实用性来考虑，非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。

基于变分自动编码器(Variational Autoencoder，VAE)模型的语音转换方法是直接利用说话人的身份标签(one-hot)建立语音转换的***，这种语音转换***在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐，可以解除对平行文本的依赖，已经用于非平行的语音转换模型。在传统的基于VAE的非平行语音转换中，编码器从输入语音参数中提取与说话者无关的代表语义内容的隐变量，然后解码器从隐变量中重建参数。然而由于VAE的隐变量中的过度正则化效应，这使得隐变量对语音数据的表征能力不足，并且很难拓展到更为复杂的语音数据，因此这种基于原始VAE的非平行语料转换语音质量差、噪声多等诸多不足。同时，由于one-hot表示的只是说话人的一个标签，虽然具有指示作用，但无法提供更多的说话人身份信息，技术人员需要研究如何将可以充分表达各说话人个性化特征的i-vector(身份特征向量)与VAE模型结合起来。

发明内容

发明目的：本发明要解决的技术问题是提供一种基于beta-VAE和i-vector的多对多语音转换方法，解决了现有VAE网络中用one-hot来表示说话人个性信息导致无法充分表达说话人个性化特征的缺陷，将i-vector(身份特征向量)与VAE模型结合起来丰富说话人的个性信息，能够较好地提升转换后语音的个性相似度和语音质量，有效的提高VAE网络的语音转换性能。

技术方案：本发明所述的基于beta-VAE和i-vector的多对多语音转换方法，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：

(1.1)获取非平行训练语料，包含源说话人和目标说话人；

(1.2)将所述的训练语料通过WORLD语音分析/合成模型，提取出各说话人语句频谱包络特征X、非周期特征、对数基频log f₀；

(1.3)提取每个说话人的身份特征向量I；

(1.4)将频谱包络特征X、说话人标签y、身份特征向量I输入由编码器和解码器组成的beta-VAE网络进行训练，得到训练好的beta-VAE网络；

(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；

所述转换阶段包括以下步骤：

(2.1)将源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征X_s、非周期特征、对数基频

(2.2)将源说话人的频谱特征X_s、目标说话人的标签y_t、目标说话人身份特征向量I_t，输入步骤(1.4)训练好的beta-VAE网络中，输出目标说话人的频谱特征X_t；

(2.3)通过步骤(1.5)得到基频转换函数，将步骤(2.1)中提取出的源说话人对数基频频转换为目标说话人的对数基频频

(2.4)将步骤(2.1)中得到的非周期特征、步骤(2.2)中得到的频谱特征X_t、以及(2.3)中得到的目标说话人对数基频输入WORLD语音分析/合成模型，得到转换后的目标说话人语音。

进一步的，步骤(1.4)中输入和训练的步骤为：

(1)将X输入beta-VAE网络的编码器，编码器输出语义特征z；

(2)将z、y和I，输入beta-VAE网络的的解码器，最小化X与X_t’的距离D(X,X_t‘)，X_t’为解码器生成的频谱包络特征；

(3)重复上述步骤直至迭代次数；

(4)计算beta-VAE网络的MCD值，根据最小的MCD值和主观评价标准平均意见分相结合选择模型参数β和C。

进一步的，D(X,X_t‘)使用KL散度来衡量，所述KL散度为其中，D为z的维度，μ_(i)和分别为X的一般正态分布的均值向量和方差向量的第i个向量。

进一步的，步骤(2.2)中的输入过程为：将源说话人频谱特征X_s，输入beta-VAE网络的编码器，将编码器的输出、y_t与I_t输入beta-VAE网络的解码器，转换获取目标说话人频谱特征X_t。

进一步的，所述的编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层，5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256；所述的解码器采用二维卷积神经网络，包括4个卷积层，4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1，步长分别为3、3、3、1，过滤器深度分别为32、16、8、1。

进一步的，所述基频转换函数为：

其中，为源说话人的基频,为转换后目标说话人的基频，源说话人基频在对数域的均值和方差分别为μ_s和σ_s，目标说话人基频在对数域的均值和方差分别为μ_t和σ_t。

有益效果：本方法对现有VAE模型进行了改进，并且将i-vector应用到改进后的VAE模型中，不仅能较好地提升转换后的语音质量，也能够充分地表达了各说话人的个性化特征，丰富说话人身份信息。

附图说明

图1是本方法的整体流程图。

具体实施方式

如图1所示，本实施例提供一种基于beta-VAE和i-vector的多对多语音转换方法，分为训练和转换两个步骤：

1、说话人语音训练阶段

1.1获取非平行训练语料，本处采用的语音库为VCC2018，该语音库包含8个源说话人(SF1、SF2、SM1、SM2、SF3、SF4、SM3、SM4)和4个目标说话人(TF1、TF2、TM1、TM2)。本文中选取的非平行训练语料为4个源说话人：SF3、SF4、SM3、SM4，和4个目标说话人TF1、TF2、TM1、TM2。其中，S(source)代表源说话人、T(target)代表目标说话人、F(female)代表女、M(male)代表男。由于本文的目标是非平行语音转换，因此选取的训练语料也为非平行的，即源说话人和目标说话人语音内容不同。对于说话人每人81条语句作为训练语料进行充分训练，35句语句作为测试语料进行模型评估。

1.2使用语音分析/合成模型WORLD提取说话人语句的特征包括每一帧的频谱包络sp′，语音对数基频log f₀，谐波频谱包络ap，其中语音采样频率f_s＝16000。这里进行的是1024点的快速傅里叶变换,因此得到的频谱包络特征sp和非周期特征ap均为1024/2+1＝513维。ap与sp都是n*513维的二维矩阵，说话人标签y为每个说话人子集在训练语音集中的编号，最终将提取的每一帧的频谱特征表示为X＝[sp]。

1.3提取每个说话人的身份特征向量i-vector，表示为身份特征向量I；

i-vector是在高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model，GMM-UBM)和信道分析的基础上提出的一种新型的低维定长特征向量，由说话人和信道变量建模得到。

给定一段语音，说话人和信道相关的GMM超向量可由下式给出：

M＝m+Tω

其中M表示说话人的高斯均值超向量，m表示通用背景模型(UBM)下说话人和信道独立的高斯均值超向量，T是低维的全局差异空间矩阵,ω是为全局差异空间因子，先验地服从标准正态分布Ν(0,Ι)，也就是身份特征向量i-vector。

总因子ω是一个隐变量，可以通过其后验分布来定义，其后验也分布满足正态分布，可以通过鲍姆-韦尔奇(Baum-Welch)统计量使用通用背景模型(UBM)来提取。给定说话人s，以及其L帧的语音序列{s₁,s₂,s₃……s_L}，对于每一个高斯分量c,本文定义混合权值、均值矢量对应的Baum-Welch统计量如下公式：

其中，c＝1,……,C是高斯下标，P(c|s_t)对应生成向量s_t的混合成分c的后验分布,为了估计得到i-vector，还需要计算基于UBM平均混合成分的中心第一项Baum-Welch统计量：

其中，m_c是UBM混合成分c的均值。给定说话人s的ω因子可以通过下式得：

其中，N(s)定义为CF×CF维的对角矩阵，对角块为N_cΙ(c＝1,……,C)。为CF×1维的超向量，通过拼接所有的给定说话人s的Baum-Welch统计量的第一项获得。Σ是一个CF×CF维的对角协方差矩阵。

i-vector包含说话人信息和声道信息。通过线性辨别分析(LinearDiscriminantAnalysis，LDA)和类协方差归一化(WithinClass CovarianceNormalization，WCCN)来去除声道信息。具体操作中，i-vector可以通过Kaldi框架提取得到，本实施例中i-vector是一个100维的特征参数。

1.4对于beta-VAE网络的训练，1.2中的频谱特征X输入到VAE模型的编码端进行模型训练，并将编码输出的说话人无关的语义特征z、说话人标签y，以及代表说话人身份特征向量i-vector的身份特征向量Ι，组成联合向量(z,y,Ι)输入VAE模型的解码端，完成对语音转换模型的训练。在VAE网络训练过程中，图1中VAE模型编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256。解码器采用二维卷积神经网络，包括4个卷积层。4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1，步长分别为3、3、3、1，过滤器深度分别为32、16、8、1。

1.5原始VAE模型用判别模型去逼近真实的后验概率p_θ(z|X)，而衡量两个分布的相似程度采用KL散度，如式1-1所示：

其中，表示判别模型和真实后验模型p_θ(z|X)之间的KL散度。

将式1-1作贝叶斯公式的变换并整理可得式1-2：

VAE框架中每一帧的对数概率可以重写为等式1-3：

其中，为变分后验，p_θ(z|X)为真实后验，D_KL(.||.)来计算两者之间的KL散度，Γ(θ,φ；x⁽ⁱ⁾)为边缘概率的变分下界。

进一步可写成1-4：

上述等式1-4为原始VAE网络的目的函数。

本文所述beta-VAE与i-vector网络模型是在原始VAE框架上进行修改，它将可调参数β和C引入原始VAE基本框架的同时，也引入了包含较为丰富说话人个性信息的i-vector，本文以Ι表示。

在等式1-5中，右边第一项表示的KL散度为隐层损失，右边第二项表示生成损失。改变β会改变模型学习期间应用压力的程度，从而得到不同的隐变量解纠缠能力。当β＝1时，其表示原始的VAE模型；当β>1时，它对潜在的瓶颈的应用有更强的约束，以获得更好的解纠缠数据的能力。所谓解纠缠的定义为单个潜在变量对单个生成因子变化敏感，而对其他因素的变化相对不敏感的能力。解纠缠的变量通常带来的一个好处是变量具有良好的可解释性和对于各种任务的易推广性，但正是由于这种解纠缠特性的提升限制了VAE模型瓶颈层特征有效编码的能力，使得重构数据失真。

因此,在本文中将β的值设置为大于1的同时，也要通过增加参数C来提高瓶颈层编码的容量。即在获得隐变量z的解纠缠能力的同时，也获取隐变量z对语音数据更好的表征能力，使得p_θ(x⁽ⁱ⁾|z)更加接近p_θ(x⁽ⁱ⁾)，改善***性能。

同时,原始VAE模型中的说话人标签y仅仅是一个one-hot标签，而one-hot标签只是用于区分不同说话人的一个标签，虽然具有一定的指示作用，但无法提供更多的说话人身份信息，因此在转换语音的个性相似度上提升并不明显。本文通过添加一个说话人特征向量I，来丰富说话人身份特性信息，提升转换后语音的个性相似度。

一般采用等式1-5中beta-VAE网络的目标函数Γ(θ,φ；x⁽ⁱ⁾,β)，来优化编码器参数和解码器参数θ。对于上式通常采用抽样的方式来估计期望项，即：

其中，L代表每帧采样的样本数，一般采用重新参数化技巧，通过生成标准正态随机变量从z的分布中进行采样，对其应用数据驱动的确定性函数:

ε～N(0,Ι)

其中，°表示逐元素乘积，和是由前馈神经网络构成的非线性函数，是编码器的参数集合。用来生成隐变量z的均值，用来生成隐变量的方差。通过重新参数化等式1-6可改写为：

将L设置为1来简化上式，从而得到最终的目标函数：

其中，beta-VAE模型假设z的分布为各向同性的标准正态分布，因此隐变量的损失(KL散度)可以改写成：

其中，D为隐变量z的维度，而μ_(i)和分别代表一般正态分布的均值向量和方差向量的第i个向量。

假设特征(对数谱)的可见变量X服从具有对角线方差矩阵(diagonal variancematrix)的高斯分布，即：

其中，和是由前馈神经网络构成的非线性函数，θ＝{θ₁,θ₂}是解码器的参数集合。因此等式1-8中的对数概率项可以改写成：

其中，D为隐变量z的维度。

最终目标函数可以通过将公式1-9和1-10代入1-8来获得，训练beta-VAE的过程相当于迭代地找到最大化变分下界的参数：

一般采用随机梯度下降对上式进行优化，本实验中选择迭代次数为20000次。

模型训练好后，频谱转换只需要指定目标说话人的y_t和I_t，编码器将输入频谱帧变为隐变量z，然后解码器将(z,y_t,I_t)重构为X_t。

1.6至此beta-VAE与i-vector模型已经训练完成。

2、说话人语音合成阶段

2.1利用WORLD语音分析/合成模型提取源说话人语音特征参数，包括频谱包络sp′，语音对数基频logf₀，非周期特征ap，最终提取的每一帧的频谱特征表示为：X_S＝[sp]；

2.2将源说话人频谱特征X_s、目标说话人标签y_t、以及目标说话人身份特征向量Ι_t，输入训练好的转换模型。其中目标说话人标签y_t作为beta-VAE与i-vector频谱转换网络解码过程的控制条件，进而得到转换后的目标说话人语音频谱参数X_t；

2.3将2.1中提取的源说话人对数基频log f₀利用对数域线性变换得到目标说话人的基频。

对数域线性变换是一种简单的，同时也是当前使用最广泛的基频转换方法。这种方法基于一个假设，那就是每个说话人的基频在对数域服从一个高斯分布。那么，只要统计出每个说话人的对数基频的均值和方差，便能构造出两个说话人之间的基频转换关系：

其中，源说话人的基频在对数域的均值和方差分别为μ_s和σ_s，目标说话人的基频在对数域的均值和方差分别为μ_t和σ_t，为源说话人的基频，为转换后的目标说话人基频。

2.4最后将目标说话人频谱特征X_t、以及非周期特征ap、以及转换后的目标说话人基频通过语音合成工具WORLD合成转换后的目标说话人语音。

3参数选取

3.1对于参数β和C具体数值的选择，实施例采用客观评价标准梅尔倒谱失真距离(Mel-Cepstral Distortion，MCD)和主观评价标准平均意见分(Mean Opinion Score，MOS)相结合的方式进行评测。MCD是把梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)作为语音信号的特征参数来表示客观失真度的计算模型，MOS评分是衡量语音质量(清晰度和自然度)的关键指标。在本文中使用转换后的说话人语音与目标说话人语音之间的MCD值作为客观评价标准来比较不同***的转换性能。其中MCD值通过下式计算得到：

其中c_d和分别代表目标说话人和转换后语音的d维梅尔倒谱系数，N代表梅尔倒谱的维度。MCD值越小，说明转换后的语音与目标语音之间的失真越小，即转换后的说话人个性特征参数与目标说话人个性特征参数越相似，转换模型性能越好。MCD是一种客观度比较高的客观音质评价方法，并且在实践中得到广泛的应用。

3.2对不同β和C值的组合模型进行训练，并计算出SF3-TM1转换情形下MCD平均值，如表1所示：

表1不同参数组合模型在SF3-TM1转换情形下MCD平均值

由表1中数据显示，MCD值随着β值增加逐渐降低，但降低幅度不大，随着C值的增大MCD值先减小后逐渐增大。本实验综合考虑主客观评价标准，模型参数为β＝150，C＝20时，语音质量和个性相似性相较于其他组合最优，人耳听觉效果最佳。

Claims

1.一种基于beta-VAE和i-vector的多对多语音转换方法，其特征在于：包括训练阶段和转换阶段，所述训练阶段包括以下步骤：

(1.1)获取非平行训练语料，包含源说话人和目标说话人；

(1.3)提取每个说话人的身份特征向量I；

所述转换阶段包括以下步骤：

2.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法，其特征在于步骤(1.4)中输入和训练的步骤为：

(1)将X输入beta-VAE网络的编码器，编码器输出语义特征z；

(2)将z、y和I，输入beta-VAE网络的的解码器，最小化X与X_t′的距离D(X，X_t‘)，X_t′为解码器生成的频谱包络特征；

(3)重复上述步骤直至迭代次数；

3.根据权利要求2所述的基于beta-VAE和i-vector的多对多语音转换方法，其特征在于：D(X，X_t′)使用KL散度来衡量，所述KL散度为其中，D为z的维度，μ_(i)和分别为X的一般正态分布的均值向量和方差向量的第i个向量。

4.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法，其特征在于步骤(2.2)中的输入过程为：将源说话人频谱特征X_s，输入beta-VAE网络的编码器，将编码器的输出、y_t与I_t输入beta-VAE网络的解码器，转换获取目标说话人频谱特征X_t。

5.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法，其特征在于：所述的编码器采用二维卷积神经网络，包括5个卷积层和1个全连接层，5个卷积层的过滤器大小均为7*1，步长均为3，过滤器深度分别为16、32、64、128、256；所述的解码器采用二维卷积神经网络，包括4个卷积层，4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1，步长分别为3、3、3、1，过滤器深度分别为32、16、8、1。

6.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法，其特征在于：所述基频转换函数为：

其中，为源说话人的基频，为转换后目标说话人的基频，源说话人基频在对数域的均值和方差分别为μ_s和σ_s，目标说话人基频在对数域的均值和方差分别为μ_t和σ_t。