CN102436807A - 自动生成重读音节语音的方法和*** - Google Patents

自动生成重读音节语音的方法和*** Download PDF

Info

Publication number
CN102436807A
CN102436807A CN2011102707598A CN201110270759A CN102436807A CN 102436807 A CN102436807 A CN 102436807A CN 2011102707598 A CN2011102707598 A CN 2011102707598A CN 201110270759 A CN201110270759 A CN 201110270759A CN 102436807 A CN102436807 A CN 102436807A
Authority
CN
China
Prior art keywords
phoneme
voice
characteristic
syllable
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102707598A
Other languages
English (en)
Inventor
王欢良
邹平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Speech Information Technology Co Ltd
Original Assignee
Suzhou Speech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Speech Information Technology Co Ltd filed Critical Suzhou Speech Information Technology Co Ltd
Priority to CN2011102707598A priority Critical patent/CN102436807A/zh
Publication of CN102436807A publication Critical patent/CN102436807A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

一种自动生成重读音节语音的***,包括:音素定位模块,用于确定接收到的语音信号中每个音素的位置,得到每个词、音节和音素的时间边界;声学特征提取模块,用于从语音信号中提取和重读相关的特征以及频谱特征;声学特征参数修正模块,用于把输入语音特征参数调整为对应的表示给定音节重读的特征参数,并对调整后的特征参数进行平滑处理;语音重构模块,用于采用修正后的语音声学特征参数通过源-滤波器模型重新合成语音;特征变换参数库,用于存放每个音素的声学特征从非重读到重读的统计的变换矩阵参数。

Description

自动生成重读音节语音的方法和***
技术领域
本发明涉及语音信号领域,具体地说,尤其是涉及一种自动生成重读音节语音的***及方法。 
背景技术
在言语交流中,为了表示强调或者引起关注,人们通常需要对语音中的某些音节进行重读。在某些语言中,重读位置的不同也会影响词语所表达的意思。此外,语言的抑扬顿挫主要依赖于重读位置和强度的控制。 
当前计算机已被广泛应用于语音处理领域。计算机可以通过语音的声学特征来判断语音中重读音节的位置,也可以通过语音合成技术来生成带有重读音节的语音。语音合成技术通过预先训练的模型可以把一段文本转换成对应的语音。该合成语音的重音位置和输入文本内容直接相关,是通过文本分析确定的,如专利申请CN101223572A所述的。此外,合成的语音通常是特定人的,且自然度难以保证。而在一些实际应用场景中,需要计算机对一段输入语音进行处理,输出指定音节重读的语音。比如在计算机辅助的口语教学习***中,对于用户发音错误的位置,需要***播放错误位置重读的标准音来提示用户;或者***自动生成重读位置不同的语音,让学习者来区分或者听辨不同的词。 
为了控制语音的重音位置,现有方法主要是通过预先录制同一单词不同重音位置的读法,然后通过简单重组重音音素来产生音节重读的语音,如专利申请CN1474318A所述的。这种方法是非常低效,难以保证生成语音的自然度。 
发明内容
为了解决上述问题,本发明公开一种自动生成重读音节语音的***和方法。该***可以对接收到的语音进行处理,使得任意指定音节的语音变为重读,而不影响原始语音的可懂度、自然度和音质。该***可用于口语语言教学任务中,用来生成反馈指导信息或者重读听辨练习。 
原理上,本发明利用预先学习得到的特征变换参数矩阵,通过对输入语音指定音节以及相关音素声学特征进行修正,然后重新合成来自动生成重读音节语音。 
本发明采用如下的技术方案: 
一种自动生成重读音节语音的***,包括: 
音素定位模块,用于确定接收到的语音信号中每个音素的位置,得到每个词、音节和音 素的时间边界; 
特征提取模块,用于从语音信号中提取和音节重读相关的特征以及频谱特征; 
特征修正模块,用于利用预先估计出的特征变换参数,把输入语音特征参数调整为对应的表示给定音节重读的特征参数,并对调整后的特征参数进行平滑处理; 
语音重构模块,用于采用修正后的语音声学特征参数通过源-滤波器模型重新合成语音; 
特征变换参数库,用于存放统计的每个音素从非重读到重读的声学特征的变换矩阵参数。 
以及一种自动生成重读音节语音的方法,包括如下步骤: 
步骤1、通过语音识别技术获得输入语音的词、音节以及音素的时间边界; 
步骤2、从输入语音中提取每个音素的重音相关特征和频谱特征; 
步骤3、根据音素类型和相对重读音节的位置,从特征变换参数库中获取每个音素对应的特征变换矩阵,通过下式计算特定音节重读之后语音中每个音素的重音相关特征向量: 
V ~ i ( x p ) = A ( x p ) V i ( x p ) - - - ( 1 )
其中:Vi(xp)表示输入语音中音素xp的第i个特征向量,p表示音素x相对于重读音节的位置类型,A(xp)表示位置类型为p的音素x的变换矩阵, 
Figure BSA00000573188900022
表示位置类型为p的音素x的第i个特征向量变换后的特征向量; 
步骤4、根据变换后每个音素片段的时长,通过下式对每个音素的基音周期特征、声强特征和频谱特征进行线性插值: 
V ^ i ( x p ) = 1 K e - K s + 1 Σ k = K s K e V ~ k ( x p ) , i = 1 . . . d ^ ( x p ) - - - ( 2 )
Figure BSA00000573188900024
Figure BSA00000573188900025
其中:d(xp)表示位置类型为p的音素的时长, 
Figure BSA00000573188900026
表示位置类型为p的音素重读变换后的时长, 表示音素xp重读变换后的基音周期、声强和频谱特征组成的第k个特征向量, 
Figure BSA00000573188900028
表示插值后音素xp的基音周期、声强和频谱特征组成的第i个特征向量; 
步骤5、在变换之后的特征上,对相邻音素边界处的频谱特征逐帧采用长度为9的汉明 窗(Hamming Window)进行插值平滑处理,对相邻音素边界处的基音周期和声强特征逐帧采用长度为11的矩形窗进行均值平滑处理; 
步骤6、用变换之后的特征,包括基音周期,声强和频谱特征,通过源-滤波模型重新合成语音,输出指定音节重读的语音。 
以及一种自动估计重音特征变换矩阵参数的方法,包括如下步骤: 
步骤1、构建两个语音数据库,数据库Da存储中性语音,中性语音是指所有音节都不重读的语音;数据库Db存储和数据库Da语音对应的带有重读音节的语音; 
步骤2、基于数据库Da和数据库Db分别训练一套音素上下文相关的3数据流的隐半马尔可夫模型(HSMM); 
步骤3、利用数据库Da上训练的HSMM音素模型通过强制对齐算法获得数据库Da上所有语音的音素边界; 
步骤4、对数据库Db上的每个音素x,根据其相对于重读音节的位置,通过下式估计其音素时长特征的变换矩阵 
Figure BSA00000573188900031
A ^ 2 ( x p ) = arg max A 2 ( x p ) Σ k = 1 . . . K p ( A 2 ( x p ) V k 2 ( x p ) | λ d b ( x ) ) - - - ( 3 )
其中: 
Figure BSA00000573188900033
表示在数据库Db上训练的音素x的时长统计分布模型, 
Figure BSA00000573188900034
表示数据库Da中与数据库Db上音素xp对应的第k个音素样本的时长特征向量,A2(xp)为位置类型为p的音素x的时长特征变换矩阵; 
步骤5、对数据库Db上的每个音素x,根据其相对于重音音节的位置,通过下式估计其基音周期和声强特征的变换矩阵 
A ^ 1 ( x i ) = arg max A 1 ( x i ) Σ k = 1 . . . K p ( g ( f ( A 1 ( x i ) , V k 1 ( x i ) ) , d ^ k ( x i ) ) , g ( S k ( x i ) , d ^ k ( x i ) ) | λ c b ( x ) ) - - - ( 4 )
其中: 
Figure BSA00000573188900037
表示在数据库Db上训练的音素x的声学特征的统计分布模型,Sk(xp)表示数据库Da中与数据库Db上音素xp对应的第k个音素片段的所有帧的谱特征组成的超向量, 
Figure BSA00000573188900038
表示数据库Da上音素xp的第k个样本经过重读时长特征变换后的时长, V k 1 ( x p ) = [ V k 1 1 ( x p ) , . . . , V kJ 1 ( x p ) , . . . , V kJ 1 ( x p ) ] , V kJ 1 ( x p ) = [ p kJ ( x p ) , e kJ ( x p ) , 1 ] 表示数据库Da中与数据库Db上音素xp对应的第k个音素片段的第j帧基音周期和声强特征组成的向量,A1(xp)为 位置类型为p的音素x的基音周期和声强特征的变换矩阵,函数  f ( A 1 ( x p ) , V k 1 ( x p ) ) = [ A 1 ( x p ) V k 1 1 ( x p ) , . . . , A 1 ( x p ) V kJ 1 ( x p ) , . . . , A 1 ( x p ) V kJ 1 ( x p ) ] , 函数g(v1,l)表示对向量v1做长度为l的内插操作; 
步骤6、把上述估计的特征变换矩阵 
Figure BSA00000573188900042
和 
Figure BSA00000573188900043
的参数存放到变换参数数据库,并根据音素种类x和音素位置类型p建立索引。 
附图说明
下面结合附图和具体实施方式对本发明作进一步的说明。 
图1示出了本发明的***模块结构的示意图; 
图2示出了本发明的生成任意音节重读语音的操作流程的示意图; 
图3示出了本发明的变换音素声学特征的算法流程的示意图; 
图4示出了本发明的估计特征变换参数矩阵的操作流程的示意图; 
图5示出了本发明的一个通过重读提示用户发音错误的例子的示意图。 
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细描述: 
图1给出了本发明公开***的模块结构示意图。 
一种自动生成重读音节语音的***装置共由6个模块组成,可分为两大部分:变换参数估计部分(训练阶段)和重读音节语音自动生成部分。 
模块100是一个音素定位模块,其作用是获得输入语音中每个音素的准确时间边界,得到每个词、音节和音素的时间边界。预先训练一个基于隐马尔科夫模型(HMM)的声学模型。若输入语音文本已知,利用该HMM模型通过采用强制对齐(Forced Alignment)技术得到每个音素的时间边界;若输入语音文本未知,利用该HMM模型通过采用网络解码技术得到每个音素的时间边界。 
模块101是一个特征提取模块,其作用是用于从语音信号中提取和音节重读相关的特征以及频谱特征。表示音素重读特性的特征包括:音素时长,音素上的基音周期值和声强值。音素时长可以通过音素定位模块100获得的音素时间边界计算得到。音素上的基音周期值可通过经典的基频提取算法来计算【D.Talkin,“A Robust Algorithm for Pitch Tracking (RAPT),”in Speech Coding and Synthesis,W.B.Kleijn and K.K.Paliwal,Eds.,chapter 14,pp.495-518.Elsevier Science,Amsterdam,NL,1995.】。音素的频谱特征提取采用经典的基频自适应的时频平滑频谱分析技术【Hideki Kawahara,Ikuyo Masuda-Kasuse and Alain de Cheveigne:Restructuring speech representations using a pitch-adaptivetime-frequency smoothing and an instantaneous-frequency-based F0 extraction:Possible role of a reptitive structure in sounds,Speech Communication,27,pp.187-207(1999)】。 
模块102是一个特征修正模块,其作用是通过矩阵变换运算,即利用预先计算的映射变换参数通过一个线性映射函数来对表示音素重读特性的特征和频谱特征进行修正,得到具有重读特性的声学特征参数。首先根据音素相对于重读音节的位置对音素进行分类;然后根据其类别对每个音素采用对应的变换参数对时长特征、基音周期和声强特征进行变换;接着对根据变换后的音素时长,对基音周期和声强特征以及频谱特征进行插值处理;最后采用汉明窗和矩形窗对频谱特征和基音周期、声强特征进行插值和均值平滑处理。 
模块103是一个语音重构模块,其作用是利用变换后的特征重新生成指定音节重读的语音信号。采用变换后的频谱特征和基音周期、声强特征,语音重构模块基于源-滤波器模型来重新生成语音信号。 
模块104是一个存储特征变换参数的数据库——特征变换参数库。该数据库用来存储每个音素在不同位置情况下从非重读到重度变换时其时长、基音周期和声强特征的变换矩阵参数。该数据库以音素名称和其类别建立索引。 
模块105是一个特征变换参数估计模块。该模块用来计算音素声学特征从非重读到重读所需要的变换矩阵的参数。变换参数的估计采用基于最大似然准则的迭代重估算法来获得。 
每类音素的声学特征的变换参数需要预先估计出来。利用模块100,101和模块105可以实现声学特征变换参数的估计过程。 
根据本发明提供的自动生成重读音节语音的***,本发明还公开一种自动生成重读音节语音的方法,包括如下步骤: 
步骤1通过语音识别技术获得输入语音的词、音节以及音素的时间边界。 
步骤2、从输入语音中提取每个音素的重音相关特征和频谱特征。 
步骤3根据音素类型和相对重读音节的位置,从特征变换参数库中获取每个音素对应的特征变换矩阵,通过下式计算特定音节重读之后语音中每个音素的重音相关特征向量: 
V ~ i ( x p ) = A ( x p ) V i ( x p ) (公式1) 
其中:Vi(xp)表示输入语音中音素xp的第i个特征向量,p表示音素x相对于重 读音节的位置类型,A(xp)表示位置类型为p的音素x的变换矩阵, 
Figure BSA00000573188900061
表示位置类型为p的音素x的第i个特征向量变换后的特征向量。 
步骤4、根据变换后每个音素片段的时长,通过下式对每个音素的基音周期特征、声强特征和频谱特征进行线性插值: 
V ^ i ( x p ) = 1 K e - K s + 1 Σ k = K s K e V ~ k ( x p ) , i = 1 . . . d ^ ( x p ) (公式2) 
Figure BSA00000573188900064
其中:d(xp)表示位置类型为p的音素的时长, 
Figure BSA00000573188900065
表示位置类型为p的音素重读变换后的时长, 
Figure BSA00000573188900066
表示音素xp重读变换后的基音周期、声强和频谱特征组成的第k个特征向量, 
Figure BSA00000573188900067
表示插值后音素xp的基音周期、声强和频谱特征组成的第i个特征向量。 
步骤5、在变换之后的特征上,对相邻音素边界处的频谱特征逐帧采用长度为9的汉明窗(Hamming Window)进行插值平滑处理,对相邻音素边界处的基音周期和声强特征逐帧采用长度为11的矩形窗进行均值平滑处理。 
步骤6、用变换之后的特征,包括基音周期,声强和频谱特征,通过源-滤波模型重新合成语音,输出指定音节重读的语音。 
具体地,语音识别采用预先训练的基于HMM的声学模型,该声学模型建模了语音中的每个音素单元。 
具体地,输入语音的词、音节和音素边界采用通过强制对齐或者识别解码生成,在最大后验准则下使得语音中的每帧数据(通常为10~20ms长的片段)都归属于某个HMM模型,归属于同一HMM模型的数据即对应于该HMM模型所表示的音素。 
典型地,音素重音特征采用基音周期、声强和音素时长。 
典型地,根据相对重读音节的位置,句子中的音素归为6类:1)当前重读音节内的音素;2)当前词中位于重读音节之前的音素;3)当前词中位于重读音节之后的音素;4)当前重读音节所在词之前的词中的音素;5)当前重读音节所在词之后的词中的音素;6)其他词中的 音素。 
典型地,对于输入语音中的第6类音素,其重音相关特征和频谱特征不做修正。 
典型地,同一个音素,其相对于重读音节的位置不同,所对应的特征变换矩阵不同。 
典型地,所述的输入语音中位置类型为p的音素x的第i个特征向量Vi(xp)分为两类,一类为基音周期和声强组成的3维特征向量,即:Vi 1(xp)=[ppi,epi,1]T;另一类对应于音素时长组成的特征向量,即:Vi 2(xp)=[dp,1]T。 
典型地,每个音素有一个时长特征向量,有N个基音周期和声强组成的特征向量,其中N为该音素的时长,单位为帧(通常设为5ms)。 
典型地,所述的特征变换矩阵A(xp)有两类,一类为基音周期和声强组成的特征向量对应的变换矩阵,记为A1(xp),是一个2×3的矩阵;另一类为音素时长特征对应的变换矩阵,记为A2(xp),是一个1×2的矩阵。 
典型地,在基于源-滤波器模型的重读音节语音生成过程中,基音周期特征用来生成激励信号,频谱特征用来构造表示声道响应的滤波器,声强特征用来控制合成信号的幅度增益。 
图2给出了一个生成任意音节重读语音的操作流程图。首先获取用户输入或者***预先录制的中性语音,然后利用预先训练的声学模型通过强制对齐或者网络解码来获得语音中每个音素的时间边界,根据音素时间边界提取音素的重读相关特征,包括音素时长,音素的基音周期和声强特征序列以及频谱特征序列,获得重读音节的位置,根据相对重读音节位置对音素进行分类,对每个音素的声学特征进行修正,最后采用频谱特征、基音周期和声强特征基于源-滤波模型重构语音信号获得指定音节重读的语音。 
图3给出了一个音素声学特征变换的算法流程图。首先获得重读音节的位置,根据相对重读音节位置对音素进行分类,根据音素及其类别检索特征变换参数数据库,得到该音素的重读特征变换矩阵,然后根据1)式对音素基音周期和声强特征以及音素时长进行修正,根据2)式和变换后的音素时长对音素的频谱特征和变换后的基音周期和声强特征进行插值操作,对变换后的音素边界处的频谱特征、基音周期和声强特征进行平滑处理,最后得到变换修正后的音素声学特征。 
本发明公开一种自动估计重音特征变换矩阵参数的方法,包括如下步骤: 
步骤1、构建两个语音数据库,数据库Da存储中性语音(即所有音节都不重读的语音);数据库Db存储和数据库Da语音对应的带有重读音节的语音。 
步骤2、基于数据库Da和数据库Db分别训练一套音素上下文相关的3数据流的隐半马尔可夫模型(HSMM)【H.Zen,K.Tokuda,T.Masuko,T.Kobayashi,T.Kitamura,Hidden semi-Markov model based speech synthesis,Proc.of ICSLP 2004,vol.II,pp.1397-1400,Oct.2004】。 
步骤3、利用数据库Da上训练的HSMM音素模型通过强制对齐算法获得数据库Da上所有语音的音素边界。 
步骤4、对数据库Db上的每个音素x,根据其相对于重读音节的位置,通过下式估计其音素时长特征的变换矩阵 
Figure BSA00000573188900081
A ^ 2 ( x p ) = arg max A 2 ( x p ) Σ k = 1 . . . K p ( A 2 ( x p ) V k 2 ( x p ) | λ d b ( x ) ) (公式3) 
其中: 
Figure BSA00000573188900083
表示在数据库Db上训练的音素x的时长统计分布模型, 
Figure BSA00000573188900084
表示数据库Da中与数据库Db上音素xp对应的第k个音素样本的时长特征向量,A2(xp)为位置类型为p的音素x的时长特征变换矩阵。 
步骤5、对数据库Db上的每个音素x,根据其相对于重音音节的位置,通过下式估计其基音周期和声强特征的变换矩阵 
Figure BSA00000573188900085
A ^ 1 ( x i ) = arg max A 1 ( x i ) Σ k = 1 . . . K p ( g ( f ( A 1 ( x i ) , V k 1 ( x i ) ) , d ^ k ( x i ) ) , g ( S k ( x i ) , d ^ k ( x i ) ) | λ c b ( x ) ) (公式4) 
其中: 
Figure BSA00000573188900087
表示在数据库Db上训练的音素x的声学特征的统计分布模型,Sk(xp)表示数据库Da中与数据库Db上音素xp对应的第k个音素片段的所有帧的谱特征组成的超向量, 
Figure BSA00000573188900088
表示数据库Da上音素xp的第k个样本经过重读时长特征变换后的时长, V k 1 ( x p ) = [ V k 1 1 ( x p ) , . . . , V kJ 1 ( x p ) , . . . , V kJ 1 ( x p ) ] , V kJ 1 ( x p ) = [ p kJ ( x p ) , e kJ ( x p ) , 1 ] 表示数据库Da中与数据库Db上音素xp对应的第k个音素片段的第j帧基音周期和声强特征组成的向量,A1(xp)为位置类型为p的音素x的基音周期和声强特征的变换矩阵,函数  f ( A 1 ( x p ) , V k 1 ( x p ) ) = [ A 1 ( x p ) V k 1 1 ( x p ) , . . . , A 1 ( x p ) V kJ 1 ( x p ) , . . . , A 1 ( x p ) V kJ 1 ( x p ) ] , 函数g(v1,l)表示对向量v1做长度为l的内插操作,具体操作请见公式2。 
步骤6、把上述估计的特征变换矩阵 
Figure BSA000005731889000812
和 
Figure BSA000005731889000813
的参数存放到变换参数数据库,并 根据音素种类x和音素位置类型p建立索引。 
典型地,所述的音素上下文相关的3数据流的隐半马尔可夫模型的声学特征采用基音周期、声强和频谱特征,组成3个独立数据流。 
图4给出了估计音素特征变换参数矩阵的操作流程示意图。首先收集两批语音数据,一批是中性语音数据,另一批是和中性语音数据内容相同的但是每句语音中至少有一个字或单词重读的语音,然后用这两批数据分别训练的两组声学模型,采用7状态的HSMM来建模型每个音素,特征采用频谱特征、基音周期和声强特征,组成3个独立数据流,采用中性语音上训练的HSMM模型通过强制对齐对中性语音中的音素进行自动切分,然后基于最大似然准则估计时长特征的变换矩阵参数,具体操作可参考公式3),在获得变换后的时长特征后,再基于最大似然准则估计音素基音周期和声强特征的变换矩阵参数,具体操作参考公式4),最后把估计得到变换参数保存到变换参数数据库,并以音素及其类别建立索引。基于最大似然准则估计时长特征的变换矩阵参数的基本原理是:寻找一组变换参数对切分后的音素时长特征进行变换来最大化在相应重读音节对应的HSMM模型上的似然度。基于最大似然度准则估计音素基音周期和声强特征的变换矩阵参数的基本原理是:寻找一组变换参数对切分后的音素基音周期和声强特征进行变换并进行时长插值后来最大化在相应重读音节对应的HSMM模型上的似然度。参数搜索的过程可以采用文献【K.Tokuda,T.Yoshimura,T.Masuko,T.Kobayashi,T.Kitamura,Speech parameter generation algorithms for HMM-based speech synthesis,Proc.of ICASSP,pp.1315-1318,June 2000.】提出的经典算法来实现。 
图5给出了一个利用本发明进行重读语音生成的具体实施例的示意图。在这个实施例中,***提示用户练习句子“We heard Jack talking.”。用户在练习多遍后,总是把单词“heard”的发音发错。***检测到这个发音错误之后,就可以提示用户说“heard”发音有错误,正确的发音应该是“We heard Jack talking.”,其中“heard”的发音是重读的。用户可以多次重放带有重读的***提示语音,体会该单词的正确发音。 
本发明的另外一个是实施例是在智能人机对话中,自动生成个性的、有感染力的可表述不同意义的语音。比如在一个对话中,***需要生成“We heard Jack talking.”的语音。如果在该对话场景中,***想强调我们听到的是“Jack”的谈话,而不是其他人的,那么合成的语音是“We heard Jack talking.”,即需要对“Jack”进行重读。如果在这个对话场景中,***想强调的是我们听到的是“talking”的Jack,而不是“crying”或者“laughing”的Jack,那么合成的语音应该是“We heard Jack talking.”,即需要对“talking”进行重读。 
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本 领域的技术人员当可根据本发明作出各种相应的改变和变形,但是这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。 

Claims (10)

1.一种自动生成重读音节语音的***,包括:
音素定位模块,用于确定接收到的语音信号中每个音素的位置,得到每个词、音节和音素的时间边界;
特征提取模块,用于从语音信号中提取和音节重读相关的特征以及频谱特征;
特征修正模块,用于利用预先估计出的特征变换参数,把输入语音特征参数调整为对应的表示给定音节重读的特征参数,并对调整后的特征参数进行平滑处理;
语音重构模块,用于采用修正后的语音声学特征参数通过源-滤波器模型重新合成语音;
特征变换参数库,用于存放统计的每个音素从非重读到重读的声学特征的变换矩阵参数。
2.如权利要求1所述的自动生成重读音节语音的***,其中音素定位模块采用语音识别技术通过强制对齐或者网络解码来获得音素边界。
3.如权利要求1所述的自动生成重读音节语音的***,其中所述重读相关的特征包括基音周期,声强和音素时长;所述频谱特征采用基频自适应的平滑频谱;所述重新生成的语音中指定音节的语音具有重读特性;所述变换矩阵参数包括声强和基音周期特征的变换参数和音素时长特征的变换参数。
4.如权利要求1所述的自动生成重读音节语音的***,其中特征修正模块进行参数调整是利用预先计算的映射变换参数通过一个线性映射函数来完成。
5.一种自动生成重读音节语音的方法,包括如下步骤:
步骤1、通过语音识别技术获得输入语音的词、音节以及音素的时间边界;
步骤2、从输入语音中提取每个音素的重音相关特征和频谱特征;
步骤3、根据音素类型和相对重读音节的位置,从特征变换参数库中获取每个音素对应的特征变换矩阵,通过下式计算特定音节重读之后语音中每个音素的重音相关特征向量:
V ~ i ( x p ) = A ( x p ) V i ( x p ) - - - ( 1 )
其中:Vi(xp)表示输入语音中音素xp的第i个特征向量,p表示音素x相对于重读音节的位置类型,A(xp)表示位置类型为p的音素x的变换矩阵,
Figure FSA00000573188800012
表示位置类型为p的音素x的第i个特征向量变换后的特征向量;
步骤4、根据变换后每个音素片段的时长,通过下式对每个音素的基音周期特征、声强特征和频谱特征进行线性插值:
V ^ i ( x p ) = 1 K e - K s + 1 Σ k = K s K e V ~ k ( x p ) , i = 1 . . . d ^ ( x p ) - - - ( 2 )
Figure FSA00000573188800021
Figure FSA00000573188800022
其中:d(xp)表示位置类型为p的音素的时长,
Figure FSA00000573188800023
表示位置类型为p的音素重读变换后的时长,
Figure FSA00000573188800024
表示音素xp重读变换后的基音周期、声强和频谱特征组成的第k个特征向量,
Figure FSA00000573188800025
表示插值后音素xp的基音周期、声强和频谱特征组成的第i个特征向量;
步骤5、在变换之后的特征上,对相邻音素边界处的频谱特征逐帧采用长度为9的汉明窗(Hamming Window)进行插值平滑处理,对相邻音素边界处的基音周期和声强特征逐帧采用长度为11的矩形窗进行均值平滑处理;
步骤6、用变换之后的特征,包括基音周期,声强和频谱特征,通过源-滤波模型重新合成语音,输出指定音节重读的语音。
6.如权利要求5所述的自动生成重读音节语音的方法,其中步骤1具体包括:所述语音识别技术是采用预先训练的基于隐马尔科夫模型(HMM)的声学模型,该声学模型建模了语音中的每个音素单元;输入语音的词、音节和音素边界采用通过强制对齐或者识别解码生成,在最大后验准则下使得语音中的每帧数据都归属于某个HMM模型,归属于同一HMM模型的数据即对应于该HMM模型所表示的音素。
7.如权利要求5所述的自动生成重读音节语音的方法,其中具体包括;
音素重音特征采用基音周期、声强和音素时长;
根据相对重读音节的位置,句子中的音素归为6类:1)当前重读音节内的音素;2)当前词中位于重读音节之前的音素;3)当前词中位于重读音节之后的音素;4)当前重读音节所在词之前的词中的音素;5)当前重读音节所在词之后的词中的音素;6)其他词中的音素;对于输入语音中的第6类音素,其重音相关特征和频谱特征不做修正;
同一个音素,其相对于重读音节的位置不同,所对应的特征变换矩阵不同。
8.如权利要求5所述的自动生成重读音节语音的方法,其中具体包括:
所述输入语音中位置类型为p的音素x的第i个特征向量Vi(xp)分为两类,一类为基音周期和声强组成的3维特征向量,即:Vi 1(xp)=[ppi,epi,1]T;另一类对应于音素时长组成的特征向量,即:Vi 2(xp)=[dp,1]T
每个音素有一个时长特征向量,有N个基音周期和声强组成的特征向量,其中N为该音素的时长,单位为帧;
所述特征变换矩阵A(xp)有两类,一类为基音周期和声强组成的特征向量对应的变换矩阵,记为A1(xp),是一个2×3的矩阵;另一类为音素时长特征对应的变换矩阵,记为A2(xp),是一个1×2的矩阵;
在基于源-滤波器模型的重读音节语音生成过程中,基音周期特征用来生成激励信号,频谱特征用来构造表示声道响应的滤波器,声强特征用来控制合成信号的幅度增益。
9.一种自动估计重音特征变换矩阵参数的方法,包括如下步骤:
步骤1、构建两个语音数据库,数据库Da存储中性语音,中性语音是指所有音节都不重读的语音;数据库Db存储和数据库Da语音对应的带有重读音节的语音;
步骤2、基于数据库Da和数据库Db分别训练一套音素上下文相关的3数据流的隐半马尔可夫模型(HSMM);
步骤3、利用数据库Da上训练的HSMM音素模型通过强制对齐算法获得数据库Da上所有语音的音素边界;
步骤4、对数据库Db上的每个音素x,根据其相对于重读音节的位置,通过下式估计其音素时长特征的变换矩阵
Figure FSA00000573188800031
A ^ 2 ( x p ) = arg max A 2 ( x p ) Σ k = 1 . . . K p ( A 2 ( x p ) V k 2 ( x p ) | λ d b ( x ) ) - - - ( 3 )
其中:
Figure FSA00000573188800033
表示在数据库Db上训练的音素x的时长统计分布模型,
Figure FSA00000573188800034
表示数据库Da中与数据库Db上音素xp对应的第k个音素样本的时长特征向量,A2(xp)为位置类型为p的音素x的时长特征变换矩阵;
步骤5、对数据库Db上的每个音素x,根据其相对于重音音节的位置,通过下式估计其基音周期和声强特征的变换矩阵
Figure FSA00000573188800035
A ^ 1 ( x i ) = arg max A 1 ( x i ) Σ k = 1 . . . K p ( g ( f ( A 1 ( x i ) , V k 1 ( x i ) ) , d ^ k ( x i ) ) , g ( S k ( x i ) , d ^ k ( x i ) ) | λ c b ( x ) ) - - - ( 4 )
其中:
Figure FSA00000573188800037
表示在数据库Db上训练的音素x的声学特征的统计分布模型,Sk(xp)表示数据库Da中与数据库Db上音素xp对应的第k个音素片段的所有帧的谱特征组成的超向量,表示数据库Da上音素xp的第k个样本经过重读时长特征变换后的时长, V k 1 ( x p ) = [ V k 1 1 ( x p ) , . . . , V kJ 1 ( x p ) , . . . , V kJ 1 ( x p ) ] , V kJ 1 ( x p ) = [ p kJ ( x p ) , e kJ ( x p ) , 1 ] 表示数据库Da中与数据库Db上音素xp对应的第k个音素片段的第j帧基音周期和声强特征组成的向量,A1(xp)为位置类型为p的音素x的基音周期和声强特征的变换矩阵,函数 f ( A 1 ( x p ) , V k 1 ( x p ) ) = [ A 1 ( x p ) V k 1 1 ( x p ) , . . . , A 1 ( x p ) V kJ 1 ( x p ) , . . . , A 1 ( x p ) V kJ 1 ( x p ) ] , 函数g(v1,l)表示对向量v1做长度为l的内插操作;
步骤6、把上述估计的特征变换矩阵
Figure FSA00000573188800045
的参数存放到变换参数数据库,并根据音素种类x和音素位置类型p建立索引。
10.如权利要求9所述的自动估计重音特征变换矩阵参数的方法,其中步骤2中所述音素上下文相关的3数据流的隐半马尔可夫模型的声学特征采用基音周期、声强和频谱特征,组成3个独立数据流。
CN2011102707598A 2011-09-14 2011-09-14 自动生成重读音节语音的方法和*** Pending CN102436807A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102707598A CN102436807A (zh) 2011-09-14 2011-09-14 自动生成重读音节语音的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102707598A CN102436807A (zh) 2011-09-14 2011-09-14 自动生成重读音节语音的方法和***

Publications (1)

Publication Number Publication Date
CN102436807A true CN102436807A (zh) 2012-05-02

Family

ID=45984830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102707598A Pending CN102436807A (zh) 2011-09-14 2011-09-14 自动生成重读音节语音的方法和***

Country Status (1)

Country Link
CN (1) CN102436807A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014161388A1 (zh) * 2013-10-23 2014-10-09 中兴通讯股份有限公司 一种提高语音质量的方法及装置
CN104240696A (zh) * 2013-06-17 2014-12-24 富士通株式会社 语音处理设备及方法
CN104575519A (zh) * 2013-10-17 2015-04-29 清华大学 特征提取方法、装置及重音检测的方法、装置
CN105336325A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 语音信号识别处理方法及装置
CN105827516A (zh) * 2016-05-09 2016-08-03 腾讯科技(深圳)有限公司 消息处理方法和装置
CN105989836A (zh) * 2015-03-06 2016-10-05 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109087627A (zh) * 2018-10-16 2018-12-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109872727A (zh) * 2014-12-04 2019-06-11 上海流利说信息技术有限公司 语音质量评价设备、方法和***
CN110136748A (zh) * 2019-05-16 2019-08-16 上海流利说信息技术有限公司 一种节奏识别校正方法、装置、设备及存储介质
CN110264993A (zh) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110992967A (zh) * 2019-12-27 2020-04-10 苏州思必驰信息科技有限公司 一种语音信号处理方法、装置、助听器及存储介质
CN112002302A (zh) * 2020-07-27 2020-11-27 北京捷通华声科技股份有限公司 一种语音合成方法和装置
CN112185403A (zh) * 2020-09-07 2021-01-05 广州多益网络股份有限公司 一种语音信号处理方法、装置、存储介质及终端设备
CN112309367A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728491A (ja) * 1993-07-12 1995-01-31 Atr Jido Honyaku Denwa Kenkyusho:Kk 韻律境界の自動的ラベリング法
EP0723696A1 (en) * 1993-10-04 1996-07-31 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis
CN1208910A (zh) * 1997-08-15 1999-02-24 英业达股份有限公司 语音合成中的语音规整方法
CN101192404A (zh) * 2006-11-28 2008-06-04 国际商业机器公司 用于识别被输入的语音的重音的***和方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728491A (ja) * 1993-07-12 1995-01-31 Atr Jido Honyaku Denwa Kenkyusho:Kk 韻律境界の自動的ラベリング法
EP0723696A1 (en) * 1993-10-04 1996-07-31 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis
CN1208910A (zh) * 1997-08-15 1999-02-24 英业达股份有限公司 语音合成中的语音规整方法
CN101192404A (zh) * 2006-11-28 2008-06-04 国际商业机器公司 用于识别被输入的语音的重音的***和方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240696A (zh) * 2013-06-17 2014-12-24 富士通株式会社 语音处理设备及方法
US9672809B2 (en) 2013-06-17 2017-06-06 Fujitsu Limited Speech processing device and method
CN104240696B (zh) * 2013-06-17 2018-06-12 富士通株式会社 语音处理设备及方法
CN104575519A (zh) * 2013-10-17 2015-04-29 清华大学 特征提取方法、装置及重音检测的方法、装置
CN104575519B (zh) * 2013-10-17 2018-12-25 清华大学 特征提取方法、装置及重音检测的方法、装置
WO2014161388A1 (zh) * 2013-10-23 2014-10-09 中兴通讯股份有限公司 一种提高语音质量的方法及装置
CN109872727A (zh) * 2014-12-04 2019-06-11 上海流利说信息技术有限公司 语音质量评价设备、方法和***
CN105989836A (zh) * 2015-03-06 2016-10-05 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN105336325A (zh) * 2015-09-25 2016-02-17 百度在线网络技术(北京)有限公司 语音信号识别处理方法及装置
CN105827516A (zh) * 2016-05-09 2016-08-03 腾讯科技(深圳)有限公司 消息处理方法和装置
CN107705783A (zh) * 2017-11-27 2018-02-16 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109087627A (zh) * 2018-10-16 2018-12-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110136748A (zh) * 2019-05-16 2019-08-16 上海流利说信息技术有限公司 一种节奏识别校正方法、装置、设备及存储介质
CN110264993A (zh) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110264993B (zh) * 2019-06-27 2020-10-09 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110992967A (zh) * 2019-12-27 2020-04-10 苏州思必驰信息科技有限公司 一种语音信号处理方法、装置、助听器及存储介质
CN112002302A (zh) * 2020-07-27 2020-11-27 北京捷通华声科技股份有限公司 一种语音合成方法和装置
CN112002302B (zh) * 2020-07-27 2024-05-10 北京捷通华声科技股份有限公司 一种语音合成方法和装置
CN112185403A (zh) * 2020-09-07 2021-01-05 广州多益网络股份有限公司 一种语音信号处理方法、装置、存储介质及终端设备
CN112185403B (zh) * 2020-09-07 2024-06-04 广州多益网络股份有限公司 一种语音信号处理方法、装置、存储介质及终端设备
CN112309367A (zh) * 2020-11-03 2021-02-02 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN102436807A (zh) 自动生成重读音节语音的方法和***
CN105304080B (zh) 语音合成装置及方法
CN106683677B (zh) 语音识别方法及装置
KR101131278B1 (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
CN101739870A (zh) 交互式语言学习***及交互式语言学习方法
CN106057192A (zh) 一种实时语音转换方法和装置
CN103778912A (zh) 引导式说话人自适应语音合成的***与方法及程序产品
US20110093263A1 (en) Automated Video Captioning
CN101490740A (zh) 声音合成装置
CN110390928B (zh) 一种自动拓增语料的语音合成模型训练方法和***
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
Ling et al. Minimum Kullback–Leibler divergence parameter generation for HMM-based speech synthesis
Lee MLP-based phone boundary refining for a TTS database
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
JP2002091472A (ja) 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP2003005785A (ja) 音源の分離方法および分離装置
CN112820266B (zh) 一种基于跳跃编码器的并行端到端语音合成方法
CN111402887A (zh) 一种语音转义文字的方法及装置
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
CN111933121A (zh) 一种声学模型训练方法及装置
Govender et al. Objective measures to improve the selection of training speakers in HMM-based child speech synthesis
Toutios et al. Contribution to statistical acoustic-to-EMA mapping

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120502

DD01 Delivery of document by public notice

Addressee: Suzhou gallop Mdt InfoTech Ltd patent controller (collect)

Document name: Notification that Application Deemed not to be Proposed

DD01 Delivery of document by public notice

Addressee: Suzhou gallop Mdt InfoTech Ltd patent controller (collect)

Document name: Notification that Application Deemed not to be Proposed

DD01 Delivery of document by public notice

Addressee: Suzhou Speech Information Technology Co., Ltd.

Document name: Notification of Approving Refund