CN101178896A - 基于声学统计模型的单元挑选语音合成方法 - Google Patents

基于声学统计模型的单元挑选语音合成方法 Download PDF

Info

Publication number
CN101178896A
CN101178896A CNA2007101910786A CN200710191078A CN101178896A CN 101178896 A CN101178896 A CN 101178896A CN A2007101910786 A CNA2007101910786 A CN A2007101910786A CN 200710191078 A CN200710191078 A CN 200710191078A CN 101178896 A CN101178896 A CN 101178896A
Authority
CN
China
Prior art keywords
statistical model
phoneme
unit
synthetic method
unit selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101910786A
Other languages
English (en)
Other versions
CN101178896B (zh
Inventor
凌震华
胡郁
胡国平
吴晓如
刘庆峰
王仁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN2007101910786A priority Critical patent/CN101178896B/zh
Publication of CN101178896A publication Critical patent/CN101178896A/zh
Application granted granted Critical
Publication of CN101178896B publication Critical patent/CN101178896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及基于声学统计模型的单元挑选语音合成方法,其方法包括提取训练语料库各声学特征;结合训练语料库中各句话的音段、韵律等标注信息,训练各种声学特征所对应的统计模型,在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型。以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;使用声学统计模型间的KLD来实现合成单元的快速预挑选;最终通过对各个音素的最优备选单元的波形进行平滑和拼接,得到该句话的合成语音。本发明提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现***的自动构建和语种的无关性。

Description

基于声学统计模型的单元挑选语音合成方法
技术领域
本发明涉及波形拼接语音合成中的单元挑选方法,具体是通过设计、训练一组声学统计模型来指导语音片断单元的挑选方法。
背景技术
语音合成是实现自然高效的人机交互的一项重要技术。现今最为常见的语音合成方法有两种,一种是基于单元挑选与波形拼接的合成方法,另外一种是基于声学统计模型的参数合成方法。
在传统的单元挑选算法中,目标代价与连接代价往往是通过计算单元间的上下文属性的差异或者备选单元声学参数与预测目标之间的距离来实现的。这样造成的结果是,代价函数的设计往往需要语种相关的语音学专家的参与,进行大量的手工调试,使得***构建的自动化程度收到限制;并且设计的代价函数难以保证普适性,往往会产生合成效果不稳定的问题。
近十年来,一种基于统计声学模型(主要是隐马尔柯夫模型,Hidden MarkovModel,HMM)的参数语音合成方法,得到了迅速的发展。这种方法分为训练和合成两个阶段。在模型训练阶段,得到各音素在不同上下文环境下所对应的频谱和基频参数的声学统计模型;在合成阶段,通过基于最大似然准则的参数生成方法,来预测合成语音所需的频谱和韵律参数,最终经过参数合成器生成语音。整个***可以实现训练的自动化和语种的无关性,并且合成语音的连续性、稳定性和韵律的自然度都相当高。但是由于参数合成器的限制,使得这种合成方法最终恢复语音的音质往往不很理想。
发明的内容
本发明的目的就是将对声学参数统计建模的思想引入到单元挑选与波形拼接合成的过程中;摆脱基于统计建模的参数合成对于合成器的依赖,提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现***的自动构建和语种的无关性。
本发明是通过以下技术方案实现的:
基于声学统计模型的单元挑选语音合成方法,该方法包括以下步骤实现:
(1)对于训练语料库,提取其频谱、基频、时长的声学特征;
(2)结合训练语料库中各句话的音段、韵律标注信息,训练各个音素在不同上下文环境中,各种声学特征所对应的统计模型;
(3)在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型;
(4)在单元挑选的过程中,以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;
(5)通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离,来度量备选单元和目标单元上下文环境之间的差异程度,以此来进行合成单元的预挑选;
(6)最终通过对各个音素的最优备选单元的波形进行拼接,得到该句话的合成语音。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中在静态参数的基础上加入了表征前后帧参数变化的动态参数。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中使用的频谱参数为美尔倒谱参数。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中基频参数为对数F0数值。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中对于其中的频谱参数部分采用连续概率分布HMM进行建模,而对于基频部分采用多空间概率分布HMM进行建模。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(2)中所使用的模型形式为隐马尔柯夫模型。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(3)中各种声学特征的统计模型是经过文本分析后得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树而得到的。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(4)中满足的似然值最大准则采用如下算法得到最优备选单元:
u * = arg max u Σ n = 1 N [ W s · log P ( s ( u n ) | λ n s ) + W p · log P ( p ( u n ) | λ n p )
+ W d · log P ( T n | λ n d ) ] (1)
其中,u*为最优备选单元序列,其中Ws,Wp和Wd分别为频谱、基频和时长模型似然值的权值,输入的一句待合成语句中音素的个数为N;第n个目标音素(n=1,...,N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为λn s,λn p和λn d;对于音素n的某一个备选un,其对应的频谱和基频特征向量序列参数记为 s ( u n ) = [ s n , 1 T , . . . , s n , T n T ] T p ( u n ) = [ p n , 1 T , . . . , p n , T n T ] T 其中Tn表示单元un的帧数,sn,i和pn,i分别表示单元un中第i帧对应的频谱和基频特征向量。
基于声学统计模型的单元挑选语音合成方法,所述式(1)可以改写成各个备选音素的目标代价和相邻备选音素连接代价之和的形式,再使用维特比算法实现最优单元序列的搜索。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(5)中计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离是通过以下算式计算得出的:
KLD ( u n ) = W s · KLD ( λ n 5 , λ ~ n s ) + W p · KLD ( λ n p , λ ~ n p ) + W d · KLD ( λ n d , λ ~ n d )
其中
Figure S2007101910786D00037
为备选单元在其上下文环境下所对应的频谱、基频和时长模型。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(6)中对各个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。
基于声学统计模型的单元挑选语音合成方法,所述的平移加窗叠加的方法为:首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。
本发明通过将对声学参数统计建模的思想引入到单元挑选与波形拼接合成的过程中;摆脱基于统计建模的参数合成对于合成器的依赖,提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现***的自动构建和语种的无关性。在传统的基于统计建模的参数合成器***中,因为统计建模的平滑作用和合成器生成语音的质量,导致了合成语音质量较差。而传统波形拼接***因为不能充分利用统计建模思想和方法的能力,在合成语音的自然度上经常出现不自然的跳动,但是因为采用真实的波形构成语音,合成语音音质较好。该发明利用声学统计建模对数据建立了高度综合的统计模型,可以非常好的学习到自然语音中的语音规律,同时结合基于概率模型的单元选择,使在语音合成单元搜索过程中的很多权值可以自动化的进行设置,解决了***自动构建以及不依赖语种进行***调试的问题。同时,采用自然的波形单元进行拼接,直接利用自然语音中的细节语谱特征,不使用语音合成器,最后获得高质量的输出语音。
我们在一个28000句的中文女声音库上进行了***建立的实验,对比了本发明中提到的方法和传统的单元挑选与波形拼接合成方法。使用两种方法分别合成11个语音合成典型应用领域内的各20句文本,由5名测听人员进行MOS分的评分,最终的评测结果可以看出,在使用了基于统计声学模型的单元挑选方法后,合成效果在所有领域内均有一致性的提升,平均的MOS分增加在0.5分左右。
术语解释:
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音。
最大似然估计(Maximum Likelihood Estimation):假设随机变量X的分布函数为F(X,θ),密度函数为p(X,θ),θ为参数,θ=(θ1,...θm)∈Θ,X1,...,Xn来源于分布族{F(X,θ):θ∈Θ},定义似然函数 L ( θ ) = Π i = 1 n p ( x i , θ ) 是θ=(θ1,...θm)的函数,若
Figure S2007101910786D00042
是L(θ)的唯一最大值点,则称为θ的最大似然估计。
Kullback-Leibler距离(Kullback-Leibler Divergence,KLD):是用来表征两个分布模型之间的差异性,假设
Figure S2007101910786D00044
Figure S2007101910786D00045
分别表示两个N维特征的统计模型,它们之间的KLD可以使用
Figure S2007101910786D00051
进行计算,也可以定义对称形式的KLD为
Figure S2007101910786D00052
附图说明
附图为基于统计声学模型的单元挑选合成方法流程图。
具体实施方式
参见附图所示。基于声学统计模型的单元挑选语音合成方法,其实现方法包括以下步骤:
(1).提取训练语料库的声学特征
我们这里提取的声学特征包括各帧对应的频谱、基频特征参数,这里我们使用的频谱参数为mel-cepstrum参数,基频参数为对数F0数值,并且在静态参数的基础上加入了表征前后帧参数变化的动态参数。以音素n第i帧的频谱特征sn,i为例,
s n , i = [ c n , i T , Δ c n , i T , Δ 2 c n , i T ] T       (1)
Δcn,i=-0.5cn,i-1+0.5cn,i+1               (2)
Δ2cn,i=0.25cn,i-1-0.5cn,i+0.25cn,i+1    (3)
其中cn,i为音素n第i帧频谱的静态特征。
(2).进行声学统计模型的训练
我们对于其中的频谱参数部分采用连续概率分布HMM进行建模,而对于基频部分采用多空间概率分布HMM(MSD-HMM)进行建模。HMM中各状态的观测概率密度函数均为单高斯正态分布,并且我们对所有HMM模型中的状态转移概率矩阵进行了依赖单音素的绑定。此外,在上下文相关模型训练过程中,我们还使用决策树来对频谱和基频HMM模型各状态的观测概率密度函数分别进行聚类,以保证最终模型参数估计的鲁棒性,聚类决策树使用的问题集主要依据语料库中包含的音段和韵律属性标注来进行设计。在频谱和基频参数的HMM模型训练完成以后,使用用此模型对语料库中语音数据进行帧/状态的强制对齐,并且以对齐后得到的音素切分结果为训练数据来训练音素时长的HMM模型,这里同样会使用基于决策树的模型聚类策略。
(3).待合成句音素声学统计模型的决策
在合成时,对于输入文本首先经过文本分析,得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树,得到每个目标音素对应的频谱、基频和时长模型λn sλn p和λn d
(4).基于声学统计模型似然值准则的单元挑选
假设输入的一句待合成语句中音素的个数为N;第n个目标音素(n=1,...,N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为λn s,λn p和λn d;对于音素n的某一个备选un,其对应的频谱和基频特征向量序列参数记为 s ( u n ) = [ s n , 1 T , . . . , s n , T n T ] T p ( u n ) = [ p n , 1 T , . . . , p n , T n T ] T 其中Tn表示单元un的帧数,sn,i和pn,i分别表示单元un中第i帧对应的频谱和基频特征向量;这里的特征向量除了各帧声学参数对应的静态参数外,还包含依据相邻帧计算得到的动态特征;对于整句话,我们记挑选得到的备选单元序列为u=[u1,...,uN]。最终,我们希望搜索得到的最优备选单元序列u*,满足以下的似然值最大准则
u * = arg max u Σ n = 1 N [ W s · log P ( s ( u n ) | λ n s ) + W p · log P ( p ( u n ) | λ n p )
+ W d · log P ( T n | λ n d ) ] (4)
其中Ws,Wp和Wd分别为频谱、基频和时长模型似然值的权值。为了计算s(un)和p(un)相对λn s和λn p似然值,我们需要考虑un对于目标模型的所有可能的帧/状态分配结果;出于简化计算的目的,这里我们使用音库中un的状态切分结果来作为唯一的帧/状态对齐路径。在状态分配确定以后,我们可以得到备选单元un的第i帧对应的正态观测概率密度函数分别为
Figure S2007101910786D00065
Figure S2007101910786D00066
则式(4)可以改写为
u * = arg max u Σ n = 1 N [ W s · m n d T n · Σ i = 1 T n LL ( s n , i , m n , i s , Σ n , i s )
+ W p · m n d T n · Σ i = 1 T n LL ( p n , i , m n , i p , Σ n , i p ) + W d · LL ( T n , m n d , σ n d 2 ) ] (5)
其中
Figure S2007101910786D00073
= - D 2 log 2 π - 1 2 log | Σ | - 1 2 ( o - m ) T Σ - 1 ( o - m ) (6)
式(5)中对于频谱和基频参数似然值的计算,依据备选音素时长和预测的目标时长进行了规整;式(6)中D表示特征o的维数。考虑到各帧的声学特征sn,i和pn,i包含有依赖于前后帧的动态参数,因此音素边界帧对应声学参数的似然值计算依赖相邻的其他音素,我们也可以据此将式(5)改写成单元挑选算法中常用的连接代价和目标代价和的形式:
u * = arg min u { Σ n = 1 N TC ( u n ) + Σ n = 2 N CC ( u n - 1 , u n ) } (7)
其中TC(un)和CC(un-1,un)分别代表单元un的目标代价和单元un-1与un之间的连接代价,各自的计算如下:
TC ( u n ) = - W s · m n d T n · Σ i = 2 T n - 1 LL ( s n , i , m n , i s , Σ n , i s )
- W p · m n d T n · Σ i = 2 T n - 1 LL ( p n , i , m n , i p , Σ n , i p ) - W d · LL ( T n , m n , d , σ n d 2 ) (8)
CC ( u n - 1 , u n ) = - W s · m n d T n · LL ( s n , 1 , m n , 1 s , Σ n , 1 s )
- W s · m n - 1 d T n - 1 · LL ( s n - 1 , T n - 1 , m n - 1 , T n - 1 s , Σ n - 1 , T n - 1 s )
- W p · m n d T n · LL ( p n , 1 , m n , 1 p , Σ n , 1 p )
- W p · m n - 1 d T n - 1 · LL ( p n - 1 , T n - 1 , m n - 1 , T n - 1 p , Σ n - 1 , T n - 1 p ) (9)
依据式(7)~(9)对于目标代价和连接代价的定义,我们可以使用常用的Viterbi搜索方法来进行最优单元序列的搜索。区别于传统的代价函数计算方法,这里的连接代价和目标代价的计算均由声学统计模型基于最大似然准则导出。
(5).基于Kullback-Leibler距离的单元预选
我们通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离,来度量备选单元和目标单元上下文环境之间的差异程度,从而达到单元预选和提高运算效率的目的。对每个备选单元un计算
KLD ( u n ) = W s · KLD ( λ n 5 , λ ~ n s ) + W p · KLD ( λ n p , λ ~ n p ) + W d · KLD ( λ n d , λ ~ n d ) (10)
其中
Figure S2007101910786D00086
Figure S2007101910786D00087
为备选单元在其上下文环境下所对应的频谱、基频和时长模型。通过对每个目标音素的所有备选样本计算式(10),可以得到使KLD(un)最小的K个备选,再进入代价计算和Viterbi搜索。对于两个HMM模型之间的KLD里我们使用两个其上限来估计,如式(11)所示:
Figure S2007101910786D00089
(11)
其中s是HMM中的状态数;
Figure S2007101910786D000810
Figure S2007101910786D000811
分别表示模型λ和
Figure S2007101910786D000812
中第i状态的观测概率密度函数;aij
Figure S2007101910786D000813
表示λ和
Figure S2007101910786D000814
的状态转移概率。因为在单元挑选过程中目标单元和备选样本对应同一个单音素,并且我们在训练过程中的状态转移概率矩阵是按照单音素绑定的,所以这里式(11)也可以随之简化为
Figure S2007101910786D00092
Figure S2007101910786D00093
(12)
对每个状态,两个单高斯的正态分布之间的KLD可以使用通过式(13)进行计算:
Figure S2007101910786D00094
+ 1 2 ( m ~ i - m i ) T Σ ~ i - 1 ( m ~ i - m i ) (13)
由于我们在模型训练过程中对于频谱、基频和时长模型各状态的输出概率密度函数进行了基于决策树的聚类,因此所有的
Figure S2007101910786D00096
Figure S2007101910786D00097
均为已知的,式(13)可以在模型训练完成之后独立于单元挑选过程离线计算,从而使得整个基于KLD的单元预选过程可以较快的实现。
(6).各音素最优备选波形的拼接。在单元挑选完成之后,我们会对挑选得到的合成单元通过波形拼接的方法合成最终的语音。这里对于相邻音素边界处的波形拼接,采用了平移加窗叠加的方法。首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。

Claims (12)

1.基于声学统计模型的单元挑选语音合成方法,其特征在于包括以下步骤实现:
(1)对于训练语料库,提取其频谱、基频、时长的声学特征;
(2)结合训练语料库中各句话的音段、韵律标注信息,训练各个音素在不同上下文环境中,各种声学特征所对应的统计模型;
(3)在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型;
(4)在单元挑选的过程中,以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;
(5)通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离,来度量备选单元和目标单元上下文环境之间的差异程度,以此来进行合成单元的预挑选;
(6)最终通过对各个音素的最优备选单元的波形进行拼接,得到该句话的合成语音。
2.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中在静态参数的基础上加入了表征前后帧参数变化的动态参数。
3.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中使用的频谱参数为美尔倒谱参数。
4.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中基频参数为对数F0数值。
5.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中对于其中的频谱参数部分采用连续概率分布HMM进行建模,而对于基频部分采用多空间概率分布HMM进行建模。
6.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(2)中所使用的模型形式为隐马尔柯夫模型。
7.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(3)中各种声学特征的统计模型是经过文本分析后得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树而得到的。
8.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(4)中满足的似然值最大准则采用如下算法得到最优备选单元: u * = arg max u Σ n = 1 N [ W s · log P ( s ( u n ) | λ n s ) + W p · log P ( p ( u n ) | λ n p )
+ W d · log P ( T n | λ n d ) ] (1)
其中,u*为最优备选单元序列,其中Ws,Wp和Wd分别为频谱、基频和时长模型似然值的权值,输入的一句待合成语句中音素的个数为N;第n个目标音素(n=1,..,N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为λn s,λn p和λn d;对于音素n的某一个备选un,其对应的频谱和基频特征向量序列参数记为 s ( u n ) = [ s n , 1 T , . . . , s n , T n T ] T p ( u n ) = [ p n , 1 T , . . . , p n , T n T ] T , 其中Tn表示单元un的帧数,sn,i和pn,i分别表示单元un中第i帧对应的频谱和基频特征向量。
9.根据权利要求8所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述式(1)可以改写成各个备选音素的目标代价和相邻备选音素连接代价之和的形式,再使用维特比算法实现最优单元序列的搜索。
10.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(5)中计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离是通过以下算式计算得出的:
KLD ( u n ) = W s · KLD ( λ n 5 , λ ~ n s ) + W p · KLD ( λ n p , λ ~ n p ) + W d · KLD ( λ n d , λ ~ n d )
其中
Figure S2007101910786C00026
Figure S2007101910786C00027
为备选单元在其上下文环境下所对应的频谱、基频和时长模型。
11.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(6)中对各个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。
12.根据权利要求11所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的平移加窗叠加的方法为:首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。
CN2007101910786A 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法 Active CN101178896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101910786A CN101178896B (zh) 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101910786A CN101178896B (zh) 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法

Publications (2)

Publication Number Publication Date
CN101178896A true CN101178896A (zh) 2008-05-14
CN101178896B CN101178896B (zh) 2012-03-28

Family

ID=39405119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101910786A Active CN101178896B (zh) 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法

Country Status (1)

Country Link
CN (1) CN101178896B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710488B (zh) * 2009-11-20 2011-08-03 安徽科大讯飞信息科技股份有限公司 语音合成方法及装置
CN102752239A (zh) * 2012-06-28 2012-10-24 北京捷通华声语音技术有限公司 一种提供音库混合训练模型的方法和***
WO2013020329A1 (zh) * 2011-08-10 2013-02-14 歌尔声学股份有限公司 参数语音合成方法和***
CN103531196A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN103632663A (zh) * 2013-11-25 2014-03-12 飞龙 一种基于hmm的蒙古语语音合成及前端处理的方法
CN104112444A (zh) * 2014-07-28 2014-10-22 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法
CN104766611A (zh) * 2014-01-07 2015-07-08 安徽科大讯飞信息科技股份有限公司 目标任务分布估计和声学模型自适应方法及***
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成***的韵律与声学联合建模的方法及装置
CN105206264A (zh) * 2015-09-22 2015-12-30 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报***及语音播报方法
CN105654939A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于音向量文本特征的语音合成方法
CN105654940A (zh) * 2016-01-26 2016-06-08 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN105679306A (zh) * 2016-02-19 2016-06-15 上海语知义信息技术有限公司 语音合成中预测基频帧的方法及***
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及***
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及***
CN106384587A (zh) * 2015-07-24 2017-02-08 科大讯飞股份有限公司 一种语音识别方法及***
WO2017028003A1 (zh) * 2015-08-14 2017-02-23 华侃如 基于隐马尔科夫模型的语音单元拼接方法
CN107240401A (zh) * 2017-06-13 2017-10-10 厦门美图之家科技有限公司 一种音色转换方法及计算设备
CN107452369A (zh) * 2017-09-28 2017-12-08 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN107924678A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序
CN108172211A (zh) * 2017-12-28 2018-06-15 云知声(上海)智能科技有限公司 可调节的波形拼接***及方法
WO2018209556A1 (en) * 2017-05-16 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for speech synthesis
CN108900886A (zh) * 2018-07-18 2018-11-27 深圳市前海手绘科技文化有限公司 一种手绘视频智能配音生成以及同步方法
CN109285535A (zh) * 2018-10-11 2019-01-29 四川长虹电器股份有限公司 基于前端设计的语音合成方法
CN109979428A (zh) * 2019-04-02 2019-07-05 北京地平线机器人技术研发有限公司 音频生成方法和装置、存储介质、电子设备
CN110047462A (zh) * 2019-01-31 2019-07-23 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110047463A (zh) * 2019-01-31 2019-07-23 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN112151009A (zh) * 2020-09-27 2020-12-29 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备
CN112562637A (zh) * 2019-09-25 2021-03-26 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
US20030088416A1 (en) * 2001-11-06 2003-05-08 D.S.P.C. Technologies Ltd. HMM-based text-to-phoneme parser and method for training same
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和***
CN100347741C (zh) * 2005-09-02 2007-11-07 清华大学 移动语音合成方法
CN1835075B (zh) * 2006-04-07 2011-06-29 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法
CN101004909A (zh) * 2007-02-16 2007-07-25 黑龙江大学 基于韵律特征的汉语语音合成基元的选取方法

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710488B (zh) * 2009-11-20 2011-08-03 安徽科大讯飞信息科技股份有限公司 语音合成方法及装置
US8977551B2 (en) 2011-08-10 2015-03-10 Goertek Inc. Parametric speech synthesis method and system
WO2013020329A1 (zh) * 2011-08-10 2013-02-14 歌尔声学股份有限公司 参数语音合成方法和***
CN102752239A (zh) * 2012-06-28 2012-10-24 北京捷通华声语音技术有限公司 一种提供音库混合训练模型的方法和***
CN102752239B (zh) * 2012-06-28 2015-08-12 北京捷通华声语音技术有限公司 一种提供音库混合训练模型的方法和***
CN103531196B (zh) * 2013-10-15 2016-04-13 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN103531196A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN103632663A (zh) * 2013-11-25 2014-03-12 飞龙 一种基于hmm的蒙古语语音合成及前端处理的方法
CN103632663B (zh) * 2013-11-25 2016-08-17 内蒙古大学 一种基于hmm的蒙古语语音合成前端处理的方法
CN104766611A (zh) * 2014-01-07 2015-07-08 安徽科大讯飞信息科技股份有限公司 目标任务分布估计和声学模型自适应方法及***
CN104112444B (zh) * 2014-07-28 2018-11-06 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法
CN104112444A (zh) * 2014-07-28 2014-10-22 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及***
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及***
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及***
CN104916284B (zh) * 2015-06-10 2017-02-22 百度在线网络技术(北京)有限公司 用于语音合成***的韵律与声学联合建模的方法及装置
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成***的韵律与声学联合建模的方法及装置
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及***
CN106384587A (zh) * 2015-07-24 2017-02-08 科大讯飞股份有限公司 一种语音识别方法及***
WO2017028003A1 (zh) * 2015-08-14 2017-02-23 华侃如 基于隐马尔科夫模型的语音单元拼接方法
CN107924678A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序
CN105206264A (zh) * 2015-09-22 2015-12-30 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105206264B (zh) * 2015-09-22 2017-06-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报***及语音播报方法
CN105654939B (zh) * 2016-01-04 2019-09-13 极限元(杭州)智能科技股份有限公司 一种基于音向量文本特征的语音合成方法
CN105654939A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于音向量文本特征的语音合成方法
CN105654940A (zh) * 2016-01-26 2016-06-08 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN105679306B (zh) * 2016-02-19 2019-07-09 云知声(上海)智能科技有限公司 语音合成中预测基频帧的方法及***
CN105679306A (zh) * 2016-02-19 2016-06-15 上海语知义信息技术有限公司 语音合成中预测基频帧的方法及***
CN109313891A (zh) * 2017-05-16 2019-02-05 北京嘀嘀无限科技发展有限公司 用于语音合成的***和方法
CN109313891B (zh) * 2017-05-16 2023-02-21 北京嘀嘀无限科技发展有限公司 用于语音合成的***和方法
WO2018209556A1 (en) * 2017-05-16 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for speech synthesis
TWI721268B (zh) * 2017-05-16 2021-03-11 大陸商北京嘀嘀無限科技發展有限公司 用於語音合成的系統和方法
CN107240401B (zh) * 2017-06-13 2020-05-15 厦门美图之家科技有限公司 一种音色转换方法及计算设备
CN107240401A (zh) * 2017-06-13 2017-10-10 厦门美图之家科技有限公司 一种音色转换方法及计算设备
CN107452369A (zh) * 2017-09-28 2017-12-08 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN107452369B (zh) * 2017-09-28 2021-03-19 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN108172211A (zh) * 2017-12-28 2018-06-15 云知声(上海)智能科技有限公司 可调节的波形拼接***及方法
CN108900886A (zh) * 2018-07-18 2018-11-27 深圳市前海手绘科技文化有限公司 一种手绘视频智能配音生成以及同步方法
CN109285535A (zh) * 2018-10-11 2019-01-29 四川长虹电器股份有限公司 基于前端设计的语音合成方法
CN110047463A (zh) * 2019-01-31 2019-07-23 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110047463B (zh) * 2019-01-31 2021-03-02 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110047462A (zh) * 2019-01-31 2019-07-23 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110047462B (zh) * 2019-01-31 2021-08-13 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN109979428B (zh) * 2019-04-02 2021-07-23 北京地平线机器人技术研发有限公司 音频生成方法和装置、存储介质、电子设备
CN109979428A (zh) * 2019-04-02 2019-07-05 北京地平线机器人技术研发有限公司 音频生成方法和装置、存储介质、电子设备
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN112562637A (zh) * 2019-09-25 2021-03-26 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN112562637B (zh) * 2019-09-25 2024-02-06 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN112151009A (zh) * 2020-09-27 2020-12-29 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备
WO2021174874A1 (zh) * 2020-09-27 2021-09-10 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备

Also Published As

Publication number Publication date
CN101178896B (zh) 2012-03-28

Similar Documents

Publication Publication Date Title
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
CN102354495B (zh) 半开放式口语试题的测试方法及***
CN107103900A (zh) 一种跨语言情感语音合成方法及***
CN101064104B (zh) 基于语音转换的情感语音生成方法
CN104217713A (zh) 汉藏双语语音合成方法及装置
CN102800314B (zh) 具有反馈指导的英语句子识别与评价***及其方法
CN101751922B (zh) 基于隐马尔可夫模型状态映射的文本无关语音转换***
Yu et al. Word-level emphasis modelling in HMM-based speech synthesis
CN101004910A (zh) 处理语音的装置和方法
CN101246685A (zh) 计算机辅助语言学习***中的发音质量评价方法
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
US20060095264A1 (en) Unit selection module and method for Chinese text-to-speech synthesis
Ling et al. The USTC and iFlytek speech synthesis systems for Blizzard Challenge 2007
CN110246488A (zh) 半优化CycleGAN模型的语音转换方法及装置
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
CN110364140A (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN101950560A (zh) 一种连续语音声调识别方法
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
Chen et al. The ustc system for blizzard challenge 2011
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
Koudounas et al. Italic: An italian intent classification dataset
Chen et al. An investigation of implementation and performance analysis of DNN based speech synthesis system
Dines et al. Personalising speech-to-speech translation: Unsupervised cross-lingual speaker adaptation for HMM-based speech synthesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088 information industry base, No. 616, Mount Huangshan Road, hi tech Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.