CN110085254A - 基于beta-VAE和i-vector的多对多语音转换方法 - Google Patents
基于beta-VAE和i-vector的多对多语音转换方法 Download PDFInfo
- Publication number
- CN110085254A CN110085254A CN201910323677.1A CN201910323677A CN110085254A CN 110085254 A CN110085254 A CN 110085254A CN 201910323677 A CN201910323677 A CN 201910323677A CN 110085254 A CN110085254 A CN 110085254A
- Authority
- CN
- China
- Prior art keywords
- speaker
- vae
- beta
- vector
- fundamental frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012546 transfer Methods 0.000 title claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000001228 spectrum Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 5
- 239000004576 sand Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims 1
- 230000007812 deficiency Effects 0.000 abstract description 2
- 230000010354 integration Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 230000009466 transformation Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于beta‑VAE和i‑vector的多对多语音转换方法,通过引入可调节参数β和C对变分自动编码器(VAE)框架进行了修改,并将i‑vector(身份特征向量)与改进后的VAE网络结合起来,提高隐变量解纠缠能力,改善其在瓶颈层编码能力的不足,并充分丰富了说话人的个性化特征,能够较好地提升转换后语音的个性相似度和语音质量,有效的提高现有VAE网络的语音转换性能。
Description
技术领域
本发明涉及一种多对多语音转换方法,特别是涉及一种基于beta-VAE和i-vector的多对多语音转换方法。
背景技术
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(Deep Neural Network,DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中,获取大量的平行语料殊为不易,甚至无法满足,此外训练时语音特征参数对齐的准确性也成为语音转换***性能的一种制约。无论从语音转换***的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
基于变分自动编码器(Variational Autoencoder,VAE)模型的语音转换方法是直接利用说话人的身份标签(one-hot)建立语音转换的***,这种语音转换***在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖,已经用于非平行的语音转换模型。在传统的基于VAE的非平行语音转换中,编码器从输入语音参数中提取与说话者无关的代表语义内容的隐变量,然后解码器从隐变量中重建参数。然而由于VAE的隐变量中的过度正则化效应,这使得隐变量对语音数据的表征能力不足,并且很难拓展到更为复杂的语音数据,因此这种基于原始VAE的非平行语料转换语音质量差、噪声多等诸多不足。同时,由于one-hot表示的只是说话人的一个标签,虽然具有指示作用,但无法提供更多的说话人身份信息,技术人员需要研究如何将可以充分表达各说话人个性化特征的i-vector(身份特征向量)与VAE模型结合起来。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于beta-VAE和i-vector的多对多语音转换方法,解决了现有VAE网络中用one-hot来表示说话人个性信息导致无法充分表达说话人个性化特征的缺陷,将i-vector(身份特征向量)与VAE模型结合起来丰富说话人的个性信息,能够较好地提升转换后语音的个性相似度和语音质量,有效的提高VAE网络的语音转换性能。
技术方案:本发明所述的基于beta-VAE和i-vector的多对多语音转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取非平行训练语料,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句频谱包络特征X、非周期特征、对数基频log f0;
(1.3)提取每个说话人的身份特征向量I;
(1.4)将频谱包络特征X、说话人标签y、身份特征向量I输入由编码器和解码器组成的beta-VAE网络进行训练,得到训练好的beta-VAE网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征Xs、非周期特征、对数基频
(2.2)将源说话人的频谱特征Xs、目标说话人的标签yt、目标说话人身份特征向量It,输入步骤(1.4)训练好的beta-VAE网络中,输出目标说话人的频谱特征Xt;
(2.3)通过步骤(1.5)得到基频转换函数,将步骤(2.1)中提取出的源说话人对数基频频转换为目标说话人的对数基频频
(2.4)将步骤(2.1)中得到的非周期特征、步骤(2.2)中得到的频谱特征Xt、以及(2.3)中得到的目标说话人对数基频输入WORLD语音分析/合成模型,得到转换后的目标说话人语音。
进一步的,步骤(1.4)中输入和训练的步骤为:
(1)将X输入beta-VAE网络的编码器,编码器输出语义特征z;
(2)将z、y和I,输入beta-VAE网络的的解码器,最小化X与Xt’的距离D(X,Xt‘),Xt’为解码器生成的频谱包络特征;
(3)重复上述步骤直至迭代次数;
(4)计算beta-VAE网络的MCD值,根据最小的MCD值和主观评价标准平均意见分相结合选择模型参数β和C。
进一步的,D(X,Xt‘)使用KL散度来衡量,所述KL散度为 其中,D为z的维度,μ(i)和分别为X的一般正态分布的均值向量和方差向量的第i个向量。
进一步的,步骤(2.2)中的输入过程为:将源说话人频谱特征Xs,输入beta-VAE网络的编码器,将编码器的输出、yt与It输入beta-VAE网络的解码器,转换获取目标说话人频谱特征Xt。
进一步的,所述的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层,5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256;所述的解码器采用二维卷积神经网络,包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。
进一步的,所述基频转换函数为:
其中,为源说话人的基频,为转换后目标说话人的基频,源说话人基频在对数域的均值和方差分别为μs和σs,目标说话人基频在对数域的均值和方差分别为μt和σt。
有益效果:本方法对现有VAE模型进行了改进,并且将i-vector应用到改进后的VAE模型中,不仅能较好地提升转换后的语音质量,也能够充分地表达了各说话人的个性化特征,丰富说话人身份信息。
附图说明
图1是本方法的整体流程图。
具体实施方式
如图1所示,本实施例提供一种基于beta-VAE和i-vector的多对多语音转换方法,分为训练和转换两个步骤:
1、说话人语音训练阶段
1.1获取非平行训练语料,本处采用的语音库为VCC2018,该语音库包含8个源说话人(SF1、SF2、SM1、SM2、SF3、SF4、SM3、SM4)和4个目标说话人(TF1、TF2、TM1、TM2)。本文中选取的非平行训练语料为4个源说话人:SF3、SF4、SM3、SM4,和4个目标说话人TF1、TF2、TM1、TM2。其中,S(source)代表源说话人、T(target)代表目标说话人、F(female)代表女、M(male)代表男。由于本文的目标是非平行语音转换,因此选取的训练语料也为非平行的,即源说话人和目标说话人语音内容不同。对于说话人每人81条语句作为训练语料进行充分训练,35句语句作为测试语料进行模型评估。
1.2使用语音分析/合成模型WORLD提取说话人语句的特征包括每一帧的频谱包络sp′,语音对数基频log f0,谐波频谱包络ap,其中语音采样频率fs=16000。这里进行的是1024点的快速傅里叶变换,因此得到的频谱包络特征sp和非周期特征ap均为1024/2+1=513维。ap与sp都是n*513维的二维矩阵,说话人标签y为每个说话人子集在训练语音集中的编号,最终将提取的每一帧的频谱特征表示为X=[sp]。
1.3提取每个说话人的身份特征向量i-vector,表示为身份特征向量I;
i-vector是在高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)和信道分析的基础上提出的一种新型的低维定长特征向量,由说话人和信道变量建模得到。
给定一段语音,说话人和信道相关的GMM超向量可由下式给出:
M=m+Tω
其中M表示说话人的高斯均值超向量,m表示通用背景模型(UBM)下说话人和信道独立的高斯均值超向量,T是低维的全局差异空间矩阵,ω是为全局差异空间因子,先验地服从标准正态分布Ν(0,Ι),也就是身份特征向量i-vector。
总因子ω是一个隐变量,可以通过其后验分布来定义,其后验也分布满足正态分布,可以通过鲍姆-韦尔奇(Baum-Welch)统计量使用通用背景模型(UBM)来提取。给定说话人s,以及其L帧的语音序列{s1,s2,s3……sL},对于每一个高斯分量c,本文定义混合权值、均值矢量对应的Baum-Welch统计量如下公式:
其中,c=1,……,C是高斯下标,P(c|st)对应生成向量st的混合成分c的后验分布,为了估计得到i-vector,还需要计算基于UBM平均混合成分的中心第一项Baum-Welch统计量:
其中,mc是UBM混合成分c的均值。给定说话人s的ω因子可以通过下式得:
其中,N(s)定义为CF×CF维的对角矩阵,对角块为NcΙ(c=1,……,C)。为CF×1维的超向量,通过拼接所有的给定说话人s的Baum-Welch统计量的第一项获得。Σ是一个CF×CF维的对角协方差矩阵。
i-vector包含说话人信息和声道信息。通过线性辨别分析(LinearDiscriminantAnalysis,LDA)和类协方差归一化(WithinClass CovarianceNormalization,WCCN)来去除声道信息。具体操作中,i-vector可以通过Kaldi框架提取得到,本实施例中i-vector是一个100维的特征参数。
1.4对于beta-VAE网络的训练,1.2中的频谱特征X输入到VAE模型的编码端进行模型训练,并将编码输出的说话人无关的语义特征z、说话人标签y,以及代表说话人身份特征向量i-vector的身份特征向量Ι,组成联合向量(z,y,Ι)输入VAE模型的解码端,完成对语音转换模型的训练。在VAE网络训练过程中,图1中VAE模型编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。解码器采用二维卷积神经网络,包括4个卷积层。4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。
1.5原始VAE模型用判别模型去逼近真实的后验概率pθ(z|X),而衡量两个分布的相似程度采用KL散度,如式1-1所示:
其中,表示判别模型和真实后验模型pθ(z|X)之间的KL散度。
将式1-1作贝叶斯公式的变换并整理可得式1-2:
VAE框架中每一帧的对数概率可以重写为等式1-3:
其中,为变分后验,pθ(z|X)为真实后验,DKL(.||.)来计算两者之间的KL散度,Γ(θ,φ;x(i))为边缘概率的变分下界。
进一步可写成1-4:
上述等式1-4为原始VAE网络的目的函数。
本文所述beta-VAE与i-vector网络模型是在原始VAE框架上进行修改,它将可调参数β和C引入原始VAE基本框架的同时,也引入了包含较为丰富说话人个性信息的i-vector,本文以Ι表示。
在等式1-5中,右边第一项表示的KL散度为隐层损失,右边第二项表示生成损失。改变β会改变模型学习期间应用压力的程度,从而得到不同的隐变量解纠缠能力。当β=1时,其表示原始的VAE模型;当β>1时,它对潜在的瓶颈的应用有更强的约束,以获得更好的解纠缠数据的能力。所谓解纠缠的定义为单个潜在变量对单个生成因子变化敏感,而对其他因素的变化相对不敏感的能力。解纠缠的变量通常带来的一个好处是变量具有良好的可解释性和对于各种任务的易推广性,但正是由于这种解纠缠特性的提升限制了VAE模型瓶颈层特征有效编码的能力,使得重构数据失真。
因此,在本文中将β的值设置为大于1的同时,也要通过增加参数C来提高瓶颈层编码的容量。即在获得隐变量z的解纠缠能力的同时,也获取隐变量z对语音数据更好的表征能力,使得pθ(x(i)|z)更加接近pθ(x(i)),改善***性能。
同时,原始VAE模型中的说话人标签y仅仅是一个one-hot标签,而one-hot标签只是用于区分不同说话人的一个标签,虽然具有一定的指示作用,但无法提供更多的说话人身份信息,因此在转换语音的个性相似度上提升并不明显。本文通过添加一个说话人特征向量I,来丰富说话人身份特性信息,提升转换后语音的个性相似度。
一般采用等式1-5中beta-VAE网络的目标函数Γ(θ,φ;x(i),β),来优化编码器参数和解码器参数θ。对于上式通常采用抽样的方式来估计期望项,即:
其中,L代表每帧采样的样本数,一般采用重新参数化技巧,通过生成标准正态随机变量从z的分布中进行采样,对其应用数据驱动的确定性函数:
ε~N(0,Ι)
其中,°表示逐元素乘积,和是由前馈神经网络构成的非线性函数,是编码器的参数集合。用来生成隐变量z的均值,用来生成隐变量的方差。通过重新参数化等式1-6可改写为:
将L设置为1来简化上式,从而得到最终的目标函数:
其中,beta-VAE模型假设z的分布为各向同性的标准正态分布,因此隐变量的损失(KL散度)可以改写成:
其中,D为隐变量z的维度,而μ(i)和分别代表一般正态分布的均值向量和方差向量的第i个向量。
假设特征(对数谱)的可见变量X服从具有对角线方差矩阵(diagonal variancematrix)的高斯分布,即:
其中,和是由前馈神经网络构成的非线性函数,θ={θ1,θ2}是解码器的参数集合。因此等式1-8中的对数概率项可以改写成:
其中,D为隐变量z的维度。
最终目标函数可以通过将公式1-9和1-10代入1-8来获得,训练beta-VAE的过程相当于迭代地找到最大化变分下界的参数:
一般采用随机梯度下降对上式进行优化,本实验中选择迭代次数为20000次。
模型训练好后,频谱转换只需要指定目标说话人的yt和It,编码器将输入频谱帧变为隐变量z,然后解码器将(z,yt,It)重构为Xt。
1.6至此beta-VAE与i-vector模型已经训练完成。
2、说话人语音合成阶段
2.1利用WORLD语音分析/合成模型提取源说话人语音特征参数,包括频谱包络sp′,语音对数基频logf0,非周期特征ap,最终提取的每一帧的频谱特征表示为:XS=[sp];
2.2将源说话人频谱特征Xs、目标说话人标签yt、以及目标说话人身份特征向量Ιt,输入训练好的转换模型。其中目标说话人标签yt作为beta-VAE与i-vector频谱转换网络解码过程的控制条件,进而得到转换后的目标说话人语音频谱参数Xt;
2.3将2.1中提取的源说话人对数基频log f0利用对数域线性变换得到目标说话人的基频。
对数域线性变换是一种简单的,同时也是当前使用最广泛的基频转换方法。这种方法基于一个假设,那就是每个说话人的基频在对数域服从一个高斯分布。那么,只要统计出每个说话人的对数基频的均值和方差,便能构造出两个说话人之间的基频转换关系:
其中,源说话人的基频在对数域的均值和方差分别为μs和σs,目标说话人的基频在对数域的均值和方差分别为μt和σt,为源说话人的基频,为转换后的目标说话人基频。
2.4最后将目标说话人频谱特征Xt、以及非周期特征ap、以及转换后的目标说话人基频通过语音合成工具WORLD合成转换后的目标说话人语音。
3参数选取
3.1对于参数β和C具体数值的选择,实施例采用客观评价标准梅尔倒谱失真距离(Mel-Cepstral Distortion,MCD)和主观评价标准平均意见分(Mean Opinion Score,MOS)相结合的方式进行评测。MCD是把梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为语音信号的特征参数来表示客观失真度的计算模型,MOS评分是衡量语音质量(清晰度和自然度)的关键指标。在本文中使用转换后的说话人语音与目标说话人语音之间的MCD值作为客观评价标准来比较不同***的转换性能。其中MCD值通过下式计算得到:
其中cd和分别代表目标说话人和转换后语音的d维梅尔倒谱系数,N代表梅尔倒谱的维度。MCD值越小,说明转换后的语音与目标语音之间的失真越小,即转换后的说话人个性特征参数与目标说话人个性特征参数越相似,转换模型性能越好。MCD是一种客观度比较高的客观音质评价方法,并且在实践中得到广泛的应用。
3.2对不同β和C值的组合模型进行训练,并计算出SF3-TM1转换情形下MCD平均值,如表1所示:
表1不同参数组合模型在SF3-TM1转换情形下MCD平均值
由表1中数据显示,MCD值随着β值增加逐渐降低,但降低幅度不大,随着C值的增大MCD值先减小后逐渐增大。本实验综合考虑主客观评价标准,模型参数为β=150,C=20时,语音质量和个性相似性相较于其他组合最优,人耳听觉效果最佳。
Claims (6)
1.一种基于beta-VAE和i-vector的多对多语音转换方法,其特征在于:包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
(1.1)获取非平行训练语料,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句频谱包络特征X、非周期特征、对数基频log f0;
(1.3)提取每个说话人的身份特征向量I;
(1.4)将频谱包络特征X、说话人标签y、身份特征向量I输入由编码器和解码器组成的beta-VAE网络进行训练,得到训练好的beta-VAE网络;
(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征Xs、非周期特征、对数基频
(2.2)将源说话人的频谱特征Xs、目标说话人的标签yt、目标说话人身份特征向量It,输入步骤(1.4)训练好的beta-VAE网络中,输出目标说话人的频谱特征Xt;
(2.3)通过步骤(1.5)得到基频转换函数,将步骤(2.1)中提取出的源说话人对数基频频转换为目标说话人的对数基频频
(2.4)将步骤(2.1)中得到的非周期特征、步骤(2.2)中得到的频谱特征Xt、以及(2.3)中得到的目标说话人对数基频输入WORLD语音分析/合成模型,得到转换后的目标说话人语音。
2.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法,其特征在于步骤(1.4)中输入和训练的步骤为:
(1)将X输入beta-VAE网络的编码器,编码器输出语义特征z;
(2)将z、y和I,输入beta-VAE网络的的解码器,最小化X与Xt′的距离D(X,Xt‘),Xt′为解码器生成的频谱包络特征;
(3)重复上述步骤直至迭代次数;
(4)计算beta-VAE网络的MCD值,根据最小的MCD值和主观评价标准平均意见分相结合选择模型参数β和C。
3.根据权利要求2所述的基于beta-VAE和i-vector的多对多语音转换方法,其特征在于:D(X,Xt′)使用KL散度来衡量,所述KL散度为其中,D为z的维度,μ(i)和分别为X的一般正态分布的均值向量和方差向量的第i个向量。
4.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法,其特征在于步骤(2.2)中的输入过程为:将源说话人频谱特征Xs,输入beta-VAE网络的编码器,将编码器的输出、yt与It输入beta-VAE网络的解码器,转换获取目标说话人频谱特征Xt。
5.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法,其特征在于:所述的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层,5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256;所述的解码器采用二维卷积神经网络,包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。
6.根据权利要求1所述的基于beta-VAE和i-vector的多对多语音转换方法,其特征在于:所述基频转换函数为:
其中,为源说话人的基频,为转换后目标说话人的基频,源说话人基频在对数域的均值和方差分别为μs和σs,目标说话人基频在对数域的均值和方差分别为μt和σt。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910323677.1A CN110085254A (zh) | 2019-04-22 | 2019-04-22 | 基于beta-VAE和i-vector的多对多语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910323677.1A CN110085254A (zh) | 2019-04-22 | 2019-04-22 | 基于beta-VAE和i-vector的多对多语音转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110085254A true CN110085254A (zh) | 2019-08-02 |
Family
ID=67416095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910323677.1A Pending CN110085254A (zh) | 2019-04-22 | 2019-04-22 | 基于beta-VAE和i-vector的多对多语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085254A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
CN110853616A (zh) * | 2019-10-22 | 2020-02-28 | 武汉水象电子科技有限公司 | 一种基于神经网络的语音合成方法、***与存储介质 |
CN111247585A (zh) * | 2019-12-27 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
CN113077810A (zh) * | 2021-03-19 | 2021-07-06 | 杨予诺 | 一种基于β-VAE算法的声源分离方法 |
CN114420142A (zh) * | 2022-03-28 | 2022-04-29 | 北京沃丰时代数据科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
CN115050087A (zh) * | 2022-08-16 | 2022-09-13 | 之江实验室 | 一种人脸关键点身份和表情解耦方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100198600A1 (en) * | 2005-12-02 | 2010-08-05 | Tsuyoshi Masuda | Voice Conversion System |
CN104217721A (zh) * | 2014-08-14 | 2014-12-17 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
WO2018159612A1 (ja) * | 2017-02-28 | 2018-09-07 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
CN109584893A (zh) * | 2018-12-26 | 2019-04-05 | 南京邮电大学 | 非平行文本条件下基于VAE与i-vector的多对多语音转换*** |
-
2019
- 2019-04-22 CN CN201910323677.1A patent/CN110085254A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100198600A1 (en) * | 2005-12-02 | 2010-08-05 | Tsuyoshi Masuda | Voice Conversion System |
CN104217721A (zh) * | 2014-08-14 | 2014-12-17 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
WO2018159612A1 (ja) * | 2017-02-28 | 2018-09-07 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109584893A (zh) * | 2018-12-26 | 2019-04-05 | 南京邮电大学 | 非平行文本条件下基于VAE与i-vector的多对多语音转换*** |
Non-Patent Citations (3)
Title |
---|
IRINA HIGGINS .ETC: "β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK", 《ICLR》 * |
凌云志: "非平行文本下基于变分自编码模型和瓶颈特征的高质量语音转换研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄国捷 等: "增强变分自编码器做非平行语料语音转换", 《信号处理》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
CN110853616A (zh) * | 2019-10-22 | 2020-02-28 | 武汉水象电子科技有限公司 | 一种基于神经网络的语音合成方法、***与存储介质 |
CN111247585A (zh) * | 2019-12-27 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
WO2021128256A1 (zh) * | 2019-12-27 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
CN111247585B (zh) * | 2019-12-27 | 2024-03-29 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、设备及存储介质 |
CN113077810A (zh) * | 2021-03-19 | 2021-07-06 | 杨予诺 | 一种基于β-VAE算法的声源分离方法 |
CN114420142A (zh) * | 2022-03-28 | 2022-04-29 | 北京沃丰时代数据科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
CN115050087A (zh) * | 2022-08-16 | 2022-09-13 | 之江实验室 | 一种人脸关键点身份和表情解耦方法及装置 |
CN115050087B (zh) * | 2022-08-16 | 2022-11-18 | 之江实验室 | 一种人脸关键点身份和表情解耦方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085254A (zh) | 基于beta-VAE和i-vector的多对多语音转换方法 | |
CN110600047B (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
CN110060701B (zh) | 基于vawgan-ac的多对多语音转换方法 | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
CN108777140A (zh) | 一种非平行语料训练下基于vae的语音转换方法 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN110060690A (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
CN109599091B (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
CN110047501A (zh) | 基于beta-VAE的多对多语音转换方法 | |
CN108461079A (zh) | 一种面向音色转换的歌声合成方法 | |
CN109378010A (zh) | 神经网络模型的训练方法、语音去噪方法及装置 | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及*** | |
CN103544963A (zh) | 一种基于核半监督判别分析的语音情感识别方法 | |
CN110246488A (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN101178896A (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN105023570B (zh) | 一种实现声音转换的方法及*** | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN109584893A (zh) | 非平行文本条件下基于VAE与i-vector的多对多语音转换*** | |
CN110060691A (zh) | 基于i向量和VARSGAN的多对多语音转换方法 | |
CN104240706A (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN110189766A (zh) | 一种基于神经网络的语音风格转移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190802 |
|
RJ01 | Rejection of invention patent application after publication |