CN104123933A - 基于自适应非平行训练的语音转换方法 - Google Patents
基于自适应非平行训练的语音转换方法 Download PDFInfo
- Publication number
- CN104123933A CN104123933A CN201410377091.0A CN201410377091A CN104123933A CN 104123933 A CN104123933 A CN 104123933A CN 201410377091 A CN201410377091 A CN 201410377091A CN 104123933 A CN104123933 A CN 104123933A
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- model
- parameter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims abstract description 33
- 238000012546 transfer Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 5
- 239000004576 sand Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 20
- 238000011160 research Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001831 conversion spectrum Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自适应非平行训练的语音转换方法,该方法包括以下步骤:从采集到的语音样本中检测出有效语音信号,对有效语音信号进行预处理;对于预处理后得到的有效语音信号提取语音特征参数;基于语音特征参数进行UBM训练,得到一个与说话人无关的UBM模型;基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述独立说话人语音模型,得到频谱参数和基频参数的转换函数;将待转换语音的语音特征参数输入到转换函数中,得到转换后的目标说话人的语音特征参数;将转换后的目标说话人的语音特征参数进行合成,得到目标语音。本发明不仅具有较好的转换性能,而且具有很好的***扩展性。
Description
技术领域
本发明涉及语音信号分析、语音信号处理、语音转换以及语音合成等领域,具体涉及一种基于自适应非平行训练的语音转换方法,属于语音信号处理领域中的语音转换分支。
背景技术
语音转换是指在保持语义内容不变的前提下,改变说话人的个性特征,使源说话人的语音在经过变换后听起来像是目标说话人说的一样。语音转换是对语音综合与识别技术的深度发展,语音转换作为语音信号处理领域的新的分支,具有高度的理论研究价值和应用前途。借鉴语音分析与合成、语音识别技术、语音编解码技术、语音增强以及说话人确认和辨识等领域的知识,为语音转换技术的发展提供技术支持,而语音转换技术的研究,又将促进这些领域的发展,为这些领域的进一步研究提供极具价值的参考意义。
目前,语音转换从大的类别上可分为同种语言之间的语音转换和跨语言的语音转换。对于同种语言之间的语音转换,在训练阶段,因语料的选择不同,又分为平行语料训练和非平行语料训练。对于跨语言的语音转换,要获得平行语料是不可能的,只能通过非平行语料来进行训练。通过几代人的努力,语音转换的研究取得了很大的发展,很多学者提出了不同的转换方法,总结起来,大致有以下几类:矢量量化方法,线性多变量回归法,人工神经网络法,多说话人插值转换法,高斯混合模型等。但以上的方法都是基于平行语料联合训练的语音转换,在实际应用中还存在一些问题:1.很多情况下平行语料很难获得甚至得不到;2.基于联合特征矢量的训练计算量很大,并且对语音成分对准的精度要求很高;3.联合语音模型采用联合训练的方法使得***的扩展不方便,灵活性很差。
针对这些问题,尽管近些年来研究人员进行了非平行语料下语音转换的研究,但是这些方法大都还是局限于解决平行语料的限制采用的是联合语音训练方法,还不能解决第二、三个问题。比如Mouchtaris等人于2006年发表在《IEEE Transactions on Audio,Speech and Language Processing(音频,语音和语言处理IEEE学报)》的第14卷第3期的名为《Nonparalleltraining for voice conversion based on a parameter adaptation approach(基于参数自适应方法的非平行训练语音转换)》的论文采用参数自适应的方法去转换频谱包络;陶建华等人于2010年发表在《IEEE Transactions on Audio,Speech and Language Processing(音频,语音和语言处理IEEE会刊)》的第18卷第5期的名为《Supervisory Data Alignment for Text-IndependentVoice Conversion(基于监督数据对齐的与文本无关的声音转换)》的论文提出了对非平行语料进行监督数据排列的方法实现语音转换;Ling-HuiChen等人于2011年的《IEEE International Conference on Acoustics,Speechand Signal Processing(声学,语音和信号处理的IEEE国际会议)》上发表了名为《Non-Parallel Training For Voice Conversion Based On FT-GMM(基于FT-GMM模型的非平行训练语音转换)》的论文中采用特征变换的高斯混合模型(FT-GMM)进行了非平行训练语音转换的研究;Daojian Zeng等人于2010年的《2010 IEEE 10th International Conference on SignalProcessing(2010年IEEE学会信号处理国际会议)》上发表了名为《VoiceConversion Using Structrued Gaussian Mixture Model(基于结构化高斯混合模型的语音转换)》的论文中运用结构化高斯混合模型实现了基于独立说话人模型的语音转换。
由于基于平行语料的语音转换方法受到了上述种种约束,导致了语音转换技术难以全面的走向实际应用,如通过非平行训练方法得到独立的说话人语音模型,改变源说话人的个性特征参数,加入目标说话人的个性特征,实现源-目标之间的转换,这对语音转换领域的发展将是巨大的贡献。
发明内容
为了克服上述现有技术的不足,本发明提供了一种新的非平行语料训练的语音转换方法,以解决平行语料联合训练语音转换方法中存在的以下问题:1、传统语音转换***中需要平行语料训练得到转换函数,而平行语料很难获取;2、传统语音转换***需要对特征矢量进行联合训练;3、传统语音转换***的扩展不方便。
本发明方法首先提取所有语音信号的基频和短时谱,从短时谱获得相应的LPCC参数,然后对所有的特征参数进行通用背景模型(UBM:Universal Background Model)训练,再利用最大后验概率(MAP:Maximuma Posterior Probability)自适应方法导出具体的说话人模型,最终得到相应的转换函数进行语音转换。
具体地,本发明提出的一种自适应非平行训练的语音转换方法包括以下步骤:
步骤1,从采集到的语音样本中检测出有效语音信号,对所述有效语音信号进行预处理;
步骤2,对于预处理后得到的有效语音信号提取语音特征参数;
步骤3,基于所述语音特征参数进行UBM训练,得到一个与说话人无关的UBM模型;
步骤4,基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述独立说话人语音模型,得到频谱参数和基频参数的转换函数;
步骤5,将待转换语音的语音特征参数输入到所述步骤4得到的转换函数中,得到转换后的目标说话人的语音特征参数;
步骤6,将转换后的目标说话人的语音特征参数进行合成,得到目标语音。
与现有技术相比,本发明的优点在于:
传统的语音转换方法大都采用平行语料训练源-目标说话人联合语音模型并由此推导相应的语音转换函数,但实际应用中不仅难以得到完全平行的语料,而且训练联合语音模型需要消耗大量的计算、***扩展不方便。本发明避免了平行训练对语料的严苛要求,采用非平行语料进行训练和转换,无需联合训练,而且***扩展灵活方便。
附图说明
图1是本发明优化自适应非平行训练的语音转换方法的流程图;
图2是本发明频谱参数转换函数的推导示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是本发明采用的优化自适应非平行训练的语音转换方法的流程图,如图1所示,所述方法包括以下步骤:
步骤1,从采集到的语音样本中检测出有效语音信号,对所述有效语音信号进行预处理;
在本发明一实施例中,所述预处理包括预加重、加汉明窗和分帧等处理。
步骤2,对于预处理后得到的有效语音信号提取语音特征参数;
所述语音特征参数可以为基音频率、线性预测倒谱系数(LPCC)、梅尔倒频谱系数(MFCC),线谱对(LSP)等语音特征参数。
在本发明一实施例中,将所有的有效语音信号通过STRAIGHT平台获得每帧信号的基音频率F0和短时谱参数,基于求得的短时谱参数利用Levenson-Durbin算法求取每帧语音信号的LPC系数,然后将LPC系数转化为LPCC系数,即获得所有参与训练的说话人的语音特征参数,其中,用于获取基音频率F0的基音频率模型使用一阶的高斯分布来描述。
步骤3,基于所述语音特征参数进行UBM训练,得到一个与说话人无关的UBM模型;
该步骤中,在进行UBM训练时,首先平衡说话人性别上的差异和每个说话人训练语料库的大小,然后融合所有用于训练的语音特征参数,通过EM算法训练得到UBM模型。其中,初始UBM模型中各成分的初始化权重均为1/M,M为UBM模型中混合高斯分量数。
UBM(通用背景模型)是一个与说话人无关的全局背景模型,全局背景模型本质上是一个大型的高斯混合模型(GMM),一般由大量的说话人的语料训练得到,它的思想就是所有说话人的信息都包含在混合高斯密度函数所形成的超矢量中,它反映了所有说话人声音特征的统计平均分布特性,从而消除了个性特征。作为标准模型,UBM涵盖了多个子空间,其中每个子空间对应一个聚类中心,用高斯概率密度函数来描述,每一个子空间描述了特征空间的一个局部。
步骤4,基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述独立说话人语音模型,得到频谱参数和基频参数的转换函数;
所述步骤4进一步包括以下步骤:
步骤41,对源说话人和目标说话人的训练语音分别进行预处理;
在本发明一实施例中,所述预处理包括预加重、加汉明窗和分帧等处理。
步骤42,分别提取两者的LPCC参数和基频参数;
步骤43,基于LPCC参数,分别从UBM模型中得到源说话人和目标说话人的GMM模型;
在本发明一实施例中,通过MAP自适应的方法分别从UBM模型中得到源说话人和目标说话人的GMM模型。
每个说话人的GMM模型都是由均值向量、协方差矩阵和混合权重来描述,表示为: 且有其中,ωi表示混合权重,μi表示参数均值向量,表示协方差矩阵,M是GMM模型的阶数,一个M阶的GMM模型的概率密度函数是由M个高斯概率密度函数加权求和得到的。
设已经训练得到一个UBM模型λ={ωi,μi,Σi},某个说话人的特征矢量表示为X={x1...,xt...,xT},则通过MAP自适应的方法分别从UBM模型中得到源说话人和目标说话人的GMM模型的具体步骤如下:
首先,计算GMM模型中每个高斯分量的权重:
其中,xt表示第t维特征矢量,wi表示第i个高斯分量的权重,pi(xt|μi,Σi)表示高斯分量i的后验概率,μi表示均值向量,Σi表示协方差矩阵,wj表示高斯分量j的权重,pj(xt|μj,Σj)表示高斯分量j的后验概率。
然后,利用求出的权重Pr(i|xt)和特征分量xt计算用于更新均值和方差的统计量ni:
其中,T表示训练矢量的长度(即帧数)。
接着,利用统计量ni和旧的UBM模型参数针对于每个高斯分量i的均值和方差进行更新,进而得到源说话人和目标说话人的GMM模型。
其中,利用统计量ni和旧的UBM模型参数针对于每个高斯分量i的均值和方差进行更新的公式如下所示:
其中,表示更新后的高斯分量i的均值,表示更新后的高斯分量i的方差,表示原高斯分量i的方差,τ为一固定值,在本发明一实施例中,τ=20。
由上,从训练的UBM模型中,自适应后可获得与说话人有关的GMM模型。这些模型都是从UBM这个基准模型中自适应得到的,所有模型的各分量与UBM中的各分量保持一致,因而这些模型的各分量之间是自动按顺序对应对齐的。这样,模型的转换就转化为各高斯分量之间的转换,通过推导,可获得频谱参数和基频的转换函数。
步骤44,求取基频参数的均值和方差,并使用一阶的高斯模型对其进行建模;
步骤45,根据所述步骤43得到的GMM模型和所述步骤44得到的基频参数模型,得到频谱参数和基频参数的转换函数。
该步骤中,频谱参数的转换函数的推导过程如下:
图2描述了源说话人和目标说话人个性特征的两个高斯分量之间的关系,分别用(μs,σs)和(μt,σt)表示,X表示源说话人的待转换频谱参数,Y表示转换后的目标说话人的频谱参数,从图2中可以推导出下面的公式:
从而有:
考虑所有高斯分量的加权求和后,频谱参数的转换函数表示为:
其中,pi(X)是源说话人GMM模型的第i个高斯分量的后验概率,Q表示高斯分量的维数,是源说话人GMM模型的第i个高斯分量的均值和协方差矩阵,是目标说话人GMM模型的第i个高斯分量的均值和协方差矩阵。
该步骤中,采用高斯模型转换法得到基频参数的转换函数,该方法假定源说话人的基音频率和目标说话人的基音频率都服从正态分布,则所述基频参数的转换函数表示为:
其中,μS和μT分别表示源和目标说话人语音基频的均值,σS和σT表示源和目标说话人语音基频的方差,是源说话人语音的基音频率。
步骤5,将待转换语音的语音特征参数输入到所述步骤4得到的转换函数中,得到转换后的目标说话人的语音特征参数;
该步骤进一步包括以下步骤:
步骤51,提取源说话人待转换语音的短时谱和基频F0;
在本发明一实施例中,使用STRAIGHT提取源说话人待转换语音的短时谱和基频F0。
步骤52,由短时谱包络提取出LPCC参数;
步骤53,分别根据所述频谱参数转换函数和基频参数转换函数对源说话人的LPCC参数和基频F0进行转换,得到目标说话人的LPCC参数和基频参数。
步骤6,将转换后的目标说话人的语音特征参数进行合成,得到目标语音。
该步骤进一步包括以下步骤:
步骤61,基于转换后的LPCC参数重估出目标说话人的短时谱包络;
步骤62,结合所述短时谱包络和转换后的基频F0,得到具有目标说话人特征的语音。
所述步骤62中,通过STRAIGHT平台对于所述短时谱包络和转换后的基频F0进行合成。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于自适应非平行训练的语音转换方法,其特征在于,该方法包括以下步骤:
步骤1,从采集到的语音样本中检测出有效语音信号,对所述有效语音信号进行预处理;
步骤2,对于预处理后得到的有效语音信号提取语音特征参数;
步骤3,基于所述语音特征参数进行UBM训练,得到一个与说话人无关的UBM模型;
步骤4,基于所述UBM模型,得到与说话人有关的独立说话人语音模型,基于所述独立说话人语音模型,得到频谱参数和基频参数的转换函数;
步骤5,将待转换语音的语音特征参数输入到所述步骤4得到的转换函数中,得到转换后的目标说话人的语音特征参数;
步骤6,将转换后的目标说话人的语音特征参数进行合成,得到目标语音。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括但不限于预加重、加汉明窗和分帧处理。
3.根据权利要求1所述的方法,其特征在于,所述语音特征参数包括但不限于基音频率、线性预测倒谱系数LPCC、梅尔倒频谱系数MFCC和线谱对LSP。
4.根据权利要求1所述的方法,其特征在于,所述步骤2中,首先获得每帧有效语音信号的基音频率F0和短时谱参数;然后基于求得的短时谱参数求取每帧语音信号的LPC系数;然后将LPC系数转化为LPCC系数。
5.根据权利要求1所述的方法,其特征在于,所述步骤3中,在进行UBM训练时,首先平衡说话人性别上的差异和每个说话人训练语料库的大小;然后融合所有用于训练的语音特征参数,通过EM算法训练得到UBM模型。
6.根据权利要求1所述的方法,其特征在于,所述步骤4进一步包括以下步骤:
步骤41,对源说话人和目标说话人的训练语音分别进行预处理;
步骤42,分别提取两者的LPCC参数和基频参数;
步骤43,基于LPCC参数,分别从UBM模型中得到源说话人和目标说话人的GMM模型;
步骤44,求取基频参数的均值和方差,并使用一阶的高斯模型对其进行建模;
步骤45,根据所述步骤43得到的GMM模型和所述步骤44得到的基频参数模型,得到频谱参数和基频参数的转换函数。
7.根据权利要求6所述的方法,其特征在于,通过MAP自适应方法分别从UBM模型中得到源说话人和目标说话人的GMM模型。
8.根据权利要求6所述的方法,其特征在于,所述频谱参数的转换函数表示为:
其中,pi(X)是源说话人GMM模型的第i个高斯分量的后验概率,Q表示高斯分量的维数,是源说话人GMM模型的第i个高斯分量的均值和协方差矩阵,是目标说话人GMM模型的第i个高斯分量的均值和协方差矩阵;
所述基频参数的转换函数表示为:
其中,μS和μT分别表示源和目标说话人语音基频的均值,σS和σT表示源和目标说话人语音基频的方差,是源说话人语音的基音频率。
9.根据权利要求1所述的方法,其特征在于,所述步骤5进一步包括以下步骤:
步骤51,提取源说话人待转换语音的短时谱和基频F0;
步骤52,由短时谱包络提取出LPCC参数;
步骤53,分别根据所述频谱参数转换函数和基频参数转换函数对源说话人的LPCC参数和基频F0进行转换,得到目标说话人的LPCC参数和基频参数。
10.根据权利要求1所述的方法,其特征在于,所述步骤6进一步包括以下步骤:
步骤61,基于转换后的LPCC参数重估出目标说话人的短时谱包络;
步骤62,结合所述短时谱包络和转换后的基频F0,得到具有目标说话人特征的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410377091.0A CN104123933A (zh) | 2014-08-01 | 2014-08-01 | 基于自适应非平行训练的语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410377091.0A CN104123933A (zh) | 2014-08-01 | 2014-08-01 | 基于自适应非平行训练的语音转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104123933A true CN104123933A (zh) | 2014-10-29 |
Family
ID=51769323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410377091.0A Pending CN104123933A (zh) | 2014-08-01 | 2014-08-01 | 基于自适应非平行训练的语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123933A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及*** |
CN105390141A (zh) * | 2015-10-14 | 2016-03-09 | 科大讯飞股份有限公司 | 声音转换方法和装置 |
CN105895080A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
CN106448673A (zh) * | 2016-09-18 | 2017-02-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种汉语电子喉语音转换方法 |
CN107507619A (zh) * | 2017-09-11 | 2017-12-22 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN108108357A (zh) * | 2018-01-12 | 2018-06-01 | 京东方科技集团股份有限公司 | 口音转换方法及装置、电子设备 |
CN108766465A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
WO2018223796A1 (zh) * | 2017-06-07 | 2018-12-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、存储介质及语音识别设备 |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109377986A (zh) * | 2018-11-29 | 2019-02-22 | 四川长虹电器股份有限公司 | 一种非平行语料语音个性化转换方法 |
CN109584893A (zh) * | 2018-12-26 | 2019-04-05 | 南京邮电大学 | 非平行文本条件下基于VAE与i-vector的多对多语音转换*** |
CN109599091A (zh) * | 2019-01-14 | 2019-04-09 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN110060690A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于STARGAN和ResNet的多对多说话人转换方法 |
CN110164414A (zh) * | 2018-11-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置及智能设备 |
CN115376485A (zh) * | 2022-08-19 | 2022-11-22 | 广东技术师范大学 | 一种基于小波包分解特征参数的语音转换方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN103021418A (zh) * | 2012-12-13 | 2013-04-03 | 南京邮电大学 | 一种面向多时间尺度韵律特征的语音转换方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
-
2014
- 2014-08-01 CN CN201410377091.0A patent/CN104123933A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN103021418A (zh) * | 2012-12-13 | 2013-04-03 | 南京邮电大学 | 一种面向多时间尺度韵律特征的语音转换方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
Non-Patent Citations (1)
Title |
---|
朱春雷: "优化自适应非平行训练语音转换算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及*** |
CN105390141B (zh) * | 2015-10-14 | 2019-10-18 | 科大讯飞股份有限公司 | 声音转换方法和装置 |
CN105390141A (zh) * | 2015-10-14 | 2016-03-09 | 科大讯飞股份有限公司 | 声音转换方法和装置 |
CN105895080A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
CN106448673A (zh) * | 2016-09-18 | 2017-02-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种汉语电子喉语音转换方法 |
CN106448673B (zh) * | 2016-09-18 | 2019-12-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种汉语电子喉语音转换方法 |
WO2018223796A1 (zh) * | 2017-06-07 | 2018-12-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、存储介质及语音识别设备 |
CN107507619A (zh) * | 2017-09-11 | 2017-12-22 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN107507619B (zh) * | 2017-09-11 | 2021-08-20 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN108108357B (zh) * | 2018-01-12 | 2022-08-09 | 京东方科技集团股份有限公司 | 口音转换方法及装置、电子设备 |
CN108108357A (zh) * | 2018-01-12 | 2018-06-01 | 京东方科技集团股份有限公司 | 口音转换方法及装置、电子设备 |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
CN108766465A (zh) * | 2018-06-06 | 2018-11-06 | 华中师范大学 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
CN108766465B (zh) * | 2018-06-06 | 2020-07-28 | 华中师范大学 | 一种基于enf通用背景模型的数字音频篡改盲检测方法 |
CN109326283B (zh) * | 2018-11-23 | 2021-01-26 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109377986A (zh) * | 2018-11-29 | 2019-02-22 | 四川长虹电器股份有限公司 | 一种非平行语料语音个性化转换方法 |
CN109377986B (zh) * | 2018-11-29 | 2022-02-01 | 四川长虹电器股份有限公司 | 一种非平行语料语音个性化转换方法 |
CN110164414A (zh) * | 2018-11-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置及智能设备 |
CN110164414B (zh) * | 2018-11-30 | 2023-02-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置及智能设备 |
CN109584893A (zh) * | 2018-12-26 | 2019-04-05 | 南京邮电大学 | 非平行文本条件下基于VAE与i-vector的多对多语音转换*** |
CN109584893B (zh) * | 2018-12-26 | 2021-09-14 | 南京邮电大学 | 非平行文本条件下基于VAE与i-vector的多对多语音转换*** |
CN109599091A (zh) * | 2019-01-14 | 2019-04-09 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN109599091B (zh) * | 2019-01-14 | 2021-01-26 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN110060690A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于STARGAN和ResNet的多对多说话人转换方法 |
CN115376485A (zh) * | 2022-08-19 | 2022-11-22 | 广东技术师范大学 | 一种基于小波包分解特征参数的语音转换方法 |
CN115376485B (zh) * | 2022-08-19 | 2024-04-30 | 广东技术师范大学 | 一种基于小波包分解特征参数的语音转换方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
Dave | Feature extraction methods LPC, PLP and MFCC in speech recognition | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及*** | |
Song et al. | Noise invariant frame selection: a simple method to address the background noise problem for text-independent speaker verification | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成***及其方法 | |
CN109767778B (zh) | 一种融合Bi-LSTM和WaveNet的语音转换方法 | |
CN102332263B (zh) | 一种基于近邻原则合成情感模型的说话人识别方法 | |
CN105593936B (zh) | 用于文本转语音性能评价的***和方法 | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
CN113506562B (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及*** | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN106653056A (zh) | 基于lstm循环神经网络的基频提取模型及训练方法 | |
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
CN102810311B (zh) | 说话人估计方法和说话人估计设备 | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
CN105206257A (zh) | 一种声音转换方法及装置 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译***及其语言识别方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN101419800B (zh) | 基于频谱平移的情感说话人识别方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
Garg et al. | Survey on acoustic modeling and feature extraction for speech recognition | |
Kaur et al. | Genetic algorithm for combined speaker and speech recognition using deep neural networks | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Oura et al. | Deep neural network based real-time speech vocoder with periodic and aperiodic inputs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141029 |
|
WD01 | Invention patent application deemed withdrawn after publication |