CN110060701B - 基于vawgan-ac的多对多语音转换方法 - Google Patents
基于vawgan-ac的多对多语音转换方法 Download PDFInfo
- Publication number
- CN110060701B CN110060701B CN201910268596.6A CN201910268596A CN110060701B CN 110060701 B CN110060701 B CN 110060701B CN 201910268596 A CN201910268596 A CN 201910268596A CN 110060701 B CN110060701 B CN 110060701B
- Authority
- CN
- China
- Prior art keywords
- speaker
- vawgan
- discriminator
- network
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 33
- 230000003595 spectral effect Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000005457 optimization Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于VAWGAN‑AC的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与辅助分类生成对抗网络(ACGAN)相结合的方式来实现语音转换***,通过在VAWGAN的鉴别器中添加辅助分类信息来增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器与鉴别器的损失函数中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。
Description
技术领域
本发明涉及一种多对多语音转换方法,特别是涉及一种基于VAWGAN-AC的多对多语音转换方法。
背景技术
语音转换(VoiceConversion,VC)是一种将源说话人语音转为目标说话人语音同时保留语义信息的技术。近几年的研究中,VC模型采用深度神经网络(DeepNeuralNetworks,DNN),将源语音参数转换为目标语音参数,相比于传统的高斯混合模型(Gaussian Mixture Model,GMM),DNN可以更有效地转换语音特征。
最近,变分自动编码器(Variational Auto-Encoder,VAE)已经被用于非平行的VC模型,因为VAE比受限制的Boltzmann机更容易训练。在传统的基于VAE的非平行VC中,编码器从输入语音参数中提取与说话者无关的代表语义内容的潜在变量,然后解码器从潜在变量中重建参数。然而由于VAE的潜在变量中的过度正则化效应,这使得潜在变量的分布过于简单化,并且很难代表语义内容的基础结构,这种基于VAE的非平行语料转换语音的质量低于用平行语音语料库训练的DNN转换的质量。如果使用潜在变量的更复杂的先验分布,例如GMM来解决该问题,但是因为语义内容的变化很大,不容易确定GMM集群的数量,所以实现起来非常困难。目前,基于VAE的非平行语料转换语音方法存在着转换后的语音质量差、噪声多等不足。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于VAWGAN-AC的多对多语音转换方法,通过添加辅助分类信息来增加输出的分类与真实分类的损失计算,并将分类损失添加到生成器的损失计算中,解决了转换过程中带来的噪声问题,进一步提升生成器生成频谱的质量,能够较好地改善语音转换后的质量和个性相似度,实现高质量的语音转换。
技术方案:本发明所述的基于VAWGAN-AC的多对多语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:
(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0;
(1.3)将训练语料的频谱包络特征x、说话人标签y输入VAWGAN-AC网络进行训练,所述VAWGAN-AC网络由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN-AC网络;
(1.4)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征xs、非周期性特征、对数基频logf0s;
(2.2)将上述源说话人频谱包络特征xs、目标说话人标签特征yt输入步骤(1.3)中训练好的VAWGAN-AC网络,从而重构出目标说话人频谱包络特征xt′;
(2.3)通过步骤(1.4)得到的基频转换函数,将步骤(2.1)中提取出的源说话人对数基频logf0s转换为目标说话人的对数基频logf′0t;
(2.4)将步骤(2.2)中得到的频谱包络特征x′t、(2.3)中得到的对数基频logf′0t和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
进一步的,步骤(1.3)中的训练过程包括以下步骤:
(1)将所述的训练语料频谱包络特征x,作为所述VAWGAN-AC网络中编码器的输入数据,输出得到说话人无关的语义特征z;
(2)将上述语义特征z、说话人标签特征y输入生成器进行训练,使生成器的损失函数尽量小,得到生成的说话人频谱包络特征x′;
(3)将上述说话人频谱包络特征x′和训练语料频谱包络特征x输入所述鉴别器,计算yr和yc,yr表示鉴别器输入频谱的真或假,yc表示鉴别器输入频谱的类别,利用yc优化生成器与鉴别器的损失函数,对鉴别器进行训练,使鉴别器的损失函数尽量大;
(4)重复步骤(1)、(2)和(3),直至达到迭代次数,从而得到训练好的VAWGAN-AC网络。
进一步的,步骤(2.2)中的输入过程包括以下步骤:
(1)将频谱包络特征xs输入VAWGAN-AC网络中的编码器,得到说话人无关的语义特征z;
(2)将上述语义特征z、目标说话人标签特征yt输入到所述的生成器中,重构出目标说话人频谱包络特征x′t。
进一步的,所述VAWGAN-AC网络中的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
进一步的,所述VAWGAN-AC网络中的生成器采用二维卷积神经网络G,损失函数为:
所述的鉴别器采用二维卷积神经网络D,损失函数为:
进一步的,所述的生成器的二维卷积神经网络G包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1;所述的鉴别器的二维卷积神经网络D,包括3个卷积层和1个全连接层,3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
进一步的,所述的基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差,logf0s为源说话人的对数基频,logf0c为转换后目标说话人的对数基频。
有益效果:本发明能够将条件变分自编码器和生成对抗网络(VariationalAutoencoding Wasserstein Generative Adversarial Network,VAWGAN)与辅助分类生成对抗网络(Auxiliary Classifier Generative Adversarial Network,ACGAN)相结合,实现语音转换***,通过鉴别器输出辅助分类信息,增加输出分类与真实分类的损失计算,使生成的频谱与其所属的类别一一对应,得到分类损失并添加到生成器的损失计算中,从而对生成器添加类别约束,进一步提升生成器生成频谱的质量,减少转换过程中带来的噪声,能够较好地提升语音转换后的质量和个性相似度,实现高质量的语音转换。此外,本方法的训练过程并不依赖平行文本,能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换***的通用性和实用性。本方法还可以将多个源-目标说话人对的转换***通过一个转换模型实现,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。
附图说明
图1是本方法的整体流程图。
具体实施方式
如图1所示,本发明所述高质量语音转换方法分为两个部分:训练部分用于得到语音转换所需的模型参数和转换函数,而转换部分用于实现源说话人语音到目标说话人语音的转换。
训练阶段实施步骤为:
1.1)获取非平行文本的训练语料,训练语料是多名说话人的语料,包含源说话人和目标说话人。训练语料取自VCC2018语音语料库,选取该语料库中4名男性和4名女性说话人的非平行文本训练语料,每名说话人有81句语料。该语料库还包含每句训练语料的语义内容。源说话人和目标说话人的训练语料既可以是平行文本,也可以是非平行文本的。
1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0。其中由于快速傅氏变换(Fast FourierTransformation,FFT)长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。
1.3)将1.2)提取的训练语料的频谱包络特征x,作为VAWGAN-AC编码器的输入数据,经过网络训练后得到说话人无关的语义特征z。其中编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层。5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
本实施例中的VAWGAN-AC网络以条件变分自动编码器(ConditionalVariationalAuto-Encoders,C-VAE)为基础,将WGAN合并到解码器中来提升C-VAE效果,同时借鉴ACGAN中的鉴别器的结构,将鉴别器输出的类别信息作为辅助信息添加到生成器与鉴别器的损失函数中进行计算,从而进一步提升语音频谱的转换效果。W-GAN由两个部分组成:一个产生真实的频谱的生成器G,一个判断输入是真实的频谱还是生成的频谱的鉴别器D,WGAN-AC的网络结构与W-GAN类似,改进点在于鉴别器将有两个输出,分别为yr和yc,其中yr表示鉴别器输入频谱的真假,yc表示鉴别器输入频谱的类别信息。
VAWGAN-AC网络的目标函数为:
Jvawgan-ac=L(x;φ,θ)+αJwgan-ac,
其中,L(x;φ,θ)为C-VAE部分的目标函数:
其中,DKL(qφ(z|x)||pθ(z))表示判别模型qφ(z|x)和真实后验概率p(z|x)之间的KL散度。先验概率pθ(z)为标准多维高斯分布。qφ(z|x)和pθ(x|z)分别为编码器和解码器,服从多维高斯分布,其均值向量和协方差矩阵分别为(μφ(z),σφ(z))和(μθ(x),σθ(x))。因此,右边两项可以简化为:
其中,K为中间变量z的维数,L为对qφ(z|x)取样的次数。由于取样过程是一个非连续的操作,无法求导,因此无法通过反向传播来更新编码器和解码器的网络参数。于是引入另一个随机变量ε对隐藏变量z进行再参数化,令z(l)=μθ(x)+ε(l)*σθ(x),ε(l)~N(0,I),则:
其中,D为x的样本数。
至此,最大化C-VAE的目标函数已经转换为求解凸优化问题,利用随机梯度下降法(Stochastic Gradient Descent,SGD)来更新网络模型参数。α是WGAN-AC的损失系数。Jwgan-ac表示WGAN-AC部分的目标函数:
生成器二维卷积神经网络的损失函数为:
优化目标为:
鉴别器二维卷积神经网络的损失函数为:
优化目标为:
1.4)将1.3)得到的训练语料的语义特征z与说话人标签特征y作为联合特征(z,y)输入到解码器进行训练。其中y为每一个说话人的标签,在本方法中,采用8个说话人进行训练,对每一个说话人进行标号,8个参与训练的说话人分别标为0、1、2、3、4、5、6、7,并将标号编码为one-hot,即得到y。解码器由生成器和鉴别器组成。训练生成器,使生成器的损失函数LG尽量小,得到生成的说话人频谱包络特征x′。生成器采用二维卷积神经网络,包括4个卷积层。4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1。鉴别器采用二维卷积神经网络,包括3个卷积层和1个全连接层。3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
1.5)将1.4)得到的生成的说话人频谱包络特征x′和1.2)得到的训练语料的频谱包络特征x作为鉴别器的输入,训练鉴别器,使鉴别器的损失函数LD尽量大。
1.6)重复1.3)、1.4)和1.5),直至达到迭代次数,从而得到训练好的VAWGAN-AC网络,其中编码器参数φ、生成器参数θ、鉴别器参数ψ为训练好的参数。本实验中选择迭代次数为200000次。
1.7)使用对数基频logf0的均值和方差建立基音频率转换关系,统计出每个说话人的对数基频的均值和方差,利用对数域线性变换将源说话人对数基频logf0s转换得到目标说话人语音基频logf′0t。
基频转换函数为:
其中,μs和σs分别为源说话人的基频在对数域的均值和方差,μt和σt分别为目标说话人的基频在对数域的均值和方差。
转换阶段实施步骤:
2.1)将源说话人语音通过WORLD语音分析/合成模型提取出源说话人的不同语句的频谱包络特征xs、非周期性特征、对数基频logf0s。其中由于FFT长度设置为1024,因此得到的频谱包络特征x和非周期性特征均为1024/2+1=513维。
2.2)将2.1)提取的源说话人语音的频谱包络特征xs,作为VAWGAN-AC中编码器的输入数据,得到说话人无关的语义特征z。
2.3)将2.2)得到的语义特征z、说话人标签特征yt作为联合特征(z,yt)输入1.6)训练好的VAWGAN-AC网络,从而重构出目标说话人频谱包络特征xt′。
2.4)通过1.7)得到的基音频率转换函数,将2.1)中提取出的源说话人对数基频logf0s转换为目标说话人的对数基频logf′0t
2.5)将2.3)中得到的目标说话人频谱包络特征xt′、2.4)中得到的目标说话人的对数基频logf′0t和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。
Claims (6)
1.一种基于VAWGAN-AC的多对多语音转换方法,其特征在于包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:
(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;
(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频log f0;
(1.3)将训练语料的频谱包络特征x、说话人标签y输入VAWGAN-AC网络进行训练,所述VAWGAN-AC网络由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN-AC网络;
(1.4)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;
所述转换阶段包括以下步骤:
(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征xs、非周期性特征、对数基频log f0s;
(2.2)将上述源说话人频谱包络特征xs、目标说话人标签特征yt输入步骤(1.3)中训练好的VAWGAN-AC网络,从而重构出目标说话人频谱包络特征xt′;
(2.3)通过步骤(1.4)得到的基频转换函数,将步骤(2.1)中提取出的源说话人对数基频log f0s转换为目标说话人的对数基频log f′0t;
(2.4)将步骤(2.2)中得到的频谱包络特征xt′、(2.3)中得到的对数基频log f′0t和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音,
所述步骤(1.3)中的训练过程包括以下步骤:
(1)将所述的训练语料频谱包络特征x,作为所述VAWGAN-AC网络中编码器的输入数据,输出得到说话人无关的语义特征z;
(2)将上述语义特征z、说话人标签特征y输入生成器进行训练,使生成器的损失函数尽量小,得到生成的说话人频谱包络特征x′;
(3)将上述说话人频谱包络特征x′和训练语料频谱包络特征x输入所述鉴别器,计算yr和yc,yr表示鉴别器输入频谱的真或假,yc表示鉴别器输入频谱的类别,利用yc优化生成器与鉴别器的损失函数,对鉴别器进行训练,使鉴别器的损失函数尽量大;
(4)重复步骤(1)、(2)和(3),直至达到迭代次数,从而得到训练好的VAWGAN-AC网络,
所述步骤(1.3)中VAWGAN-AC网络以条件变分自动编码器为基础,将WGAN合并到解码器中来提升C-VAE效果,同时借鉴ACGAN中的鉴别器的结构,将鉴别器输出的类别信息作为辅助信息添加到生成器与鉴别器的损失函数中进行计算,从而进一步提升语音频谱的转换效果;W-GAN由两个部分组成:一个产生真实的频谱的生成器G,一个判断输入是真实的频谱还是生成的频谱的鉴别器D,WGAN-AC的网络结构与W-GAN类似,改进点在于鉴别器将有两个输出,分别为yr和yc,其中yr表示鉴别器输入频谱的真假,yc表示鉴别器输入频谱的类别信息。
2.根据权利要求1所述的基于VAWGAN-AC的多对多语音转换方法,其特征在于步骤(2.2)中的输入过程包括以下步骤:
(1)将频谱包络特征xs输入VAWGAN-AC网络中的编码器,得到说话人无关的语义特征z;
(2)将上述语义特征z、目标说话人标签特征yt输入到所述的生成器中,重构出目标说话人频谱包络特征xt′。
3.根据权利要求1所述的基于VAWGAN-AC的多对多语音转换方法,其特征在于:所述VAWGAN-AC网络中的编码器采用二维卷积神经网络,包括5个卷积层和1个全连接层,5个卷积层的过滤器大小均为7*1,步长均为3,过滤器深度分别为16、32、64、128、256。
5.根据权利要求4所述的基于VAWGAN-AC的多对多语音转换方法,其特征在于:所述的生成器的二维卷积神经网络G包括4个卷积层,4个卷积层的过滤器大小分别为9*1、7*1、7*1、1025*1,步长分别为3、3、3、1,过滤器深度分别为32、16、8、1;所述的鉴别器的二维卷积神经网络D,包括3个卷积层和1个全连接层,3个卷积层的过滤器大小分别为7*1、7*1、115*1,步长均为3,过滤器深度分别为16、32、64。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910268596.6A CN110060701B (zh) | 2019-04-04 | 2019-04-04 | 基于vawgan-ac的多对多语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910268596.6A CN110060701B (zh) | 2019-04-04 | 2019-04-04 | 基于vawgan-ac的多对多语音转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110060701A CN110060701A (zh) | 2019-07-26 |
CN110060701B true CN110060701B (zh) | 2023-01-31 |
Family
ID=67318358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910268596.6A Active CN110060701B (zh) | 2019-04-04 | 2019-04-04 | 基于vawgan-ac的多对多语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110060701B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600047B (zh) * | 2019-09-17 | 2023-06-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
CN110808057A (zh) * | 2019-10-31 | 2020-02-18 | 南昌航空大学 | 一种基于约束朴素生成对抗网络的语音增强方法 |
CN110930976B (zh) * | 2019-12-02 | 2022-04-15 | 北京声智科技有限公司 | 一种语音生成方法及装置 |
CN111724809A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于变分自编码器的声码器实现方法及装置 |
CN111916093A (zh) * | 2020-07-31 | 2020-11-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
CN111968666B (zh) * | 2020-08-20 | 2022-02-01 | 南京工程学院 | 基于深度域自适应网络的助听器语音增强方法 |
CN112466314A (zh) * | 2020-11-27 | 2021-03-09 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
CN113053354B (zh) * | 2021-03-12 | 2022-08-26 | 云知声智能科技股份有限公司 | 一种提高语音合成效果的方法和设备 |
CN113096673B (zh) * | 2021-03-30 | 2022-09-30 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音处理方法及*** |
CN113555026B (zh) * | 2021-07-23 | 2024-04-19 | 平安科技(深圳)有限公司 | 语音转换方法、装置、电子设备及介质 |
CN115620748B (zh) * | 2022-12-06 | 2023-03-28 | 北京远鉴信息技术有限公司 | 一种语音合成与鉴伪评价的综合训练方法及装置 |
CN117765962B (zh) * | 2023-09-28 | 2024-05-24 | 青岛科技大学 | 一种海洋哺乳动物叫声数据增强方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
JP2018136430A (ja) * | 2017-02-21 | 2018-08-30 | 日本電信電話株式会社 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896669B2 (en) * | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
-
2019
- 2019-04-04 CN CN201910268596.6A patent/CN110060701B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
JP2018136430A (ja) * | 2017-02-21 | 2018-08-30 | 日本電信電話株式会社 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
Non-Patent Citations (3)
Title |
---|
Conditional Image Synthesis with Auxiliary Classifier GANs;Augustus Odena .etc;《Proceedings of the 34th International Conference on Machine learning-volume 70》;20171231;正文全文 * |
Many-to-Many Voice Conversion based on Bottleneck Features with Variational Autoencoder for Non-parallel Training Data;Yanping Li .etc;《2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)》;20190307;正文第829-833页 * |
基于ISODATA聚类算法的语音转换研究;崔立梅 等;《计算机技术与发展》;20170630;第27卷(第6期);正文第106-109页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110060701A (zh) | 2019-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110060701B (zh) | 基于vawgan-ac的多对多语音转换方法 | |
CN109326283B (zh) | 非平行文本条件下基于文本编码器的多对多语音转换方法 | |
CN109377978B (zh) | 非平行文本条件下基于i向量的多对多说话人转换方法 | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
CN110600047B (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN111785261B (zh) | 基于解纠缠和解释性表征的跨语种语音转换方法及*** | |
CN109599091B (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
Han et al. | Semantic-preserved communication system for highly efficient speech transmission | |
CN110060691B (zh) | 基于i向量和VARSGAN的多对多语音转换方法 | |
CN109584893B (zh) | 非平行文本条件下基于VAE与i-vector的多对多语音转换*** | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN111462768B (zh) | 基于共享训练的多尺度StarGAN的语音转换方法 | |
CN110047501B (zh) | 基于beta-VAE的多对多语音转换方法 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN111429893A (zh) | 基于Transitive STARGAN的多对多说话人转换方法 | |
CN111429894A (zh) | 基于SE-ResNet STARGAN的多对多说话人转换方法 | |
CN110136686A (zh) | 基于STARGAN与i向量的多对多说话人转换方法 | |
CN110085254A (zh) | 基于beta-VAE和i-vector的多对多语音转换方法 | |
Luong et al. | Many-to-many voice conversion based feature disentanglement using variational autoencoder | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN114299917A (zh) | 基于基频差异补偿的StyleGAN情感语音转换方法 | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
Lee et al. | HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |