CN103854643B - 用于合成语音的方法和装置 - Google Patents

用于合成语音的方法和装置 Download PDF

Info

Publication number
CN103854643B
CN103854643B CN201210501075.9A CN201210501075A CN103854643B CN 103854643 B CN103854643 B CN 103854643B CN 201210501075 A CN201210501075 A CN 201210501075A CN 103854643 B CN103854643 B CN 103854643B
Authority
CN
China
Prior art keywords
mentioned
duration
phoneme
class
leaf node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210501075.9A
Other languages
English (en)
Other versions
CN103854643A (zh
Inventor
康永国
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201210501075.9A priority Critical patent/CN103854643B/zh
Publication of CN103854643A publication Critical patent/CN103854643A/zh
Application granted granted Critical
Publication of CN103854643B publication Critical patent/CN103854643B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供用于合成语音的方法和装置。所述用于合成语音的装置,包括:输入单元,其输入文本句;文本分析单元,其对上述文本句进行文本分析以获得音素序列;查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及语音合成单元,其利用上述时长预测单元预测出的时长合成上述文本句的语音。

Description

用于合成语音的方法和装置
技术领域
本发明涉及语音合成技术,具体地,涉及用于合成语音的方法和装置。
背景技术
目前,基于隐马尔科夫模型的语音合成(HTS,HMM-based Text to Speech)已经广泛应用于语音合成技术。
具体地,图4示出了传统的基于隐马尔科夫模型的语音合成***。如图4所示,在训练阶段,利用语音数据库10和语境数据库20训练隐马尔科夫模型(HMMs),得到时长决策树30。
在合成阶段,在步骤405,对步骤401输入的文本句进行文本分析,得到该文本句的音素序列和语境特征序列。然后,在步骤410,基于步骤405中得到的语境特征在时长决策树30中查找与该语境特征对应的音素的叶子节点。然后,在步骤415,将叶子节点的中心时长作为该音素的时长。最后,在步骤420,利用预测出的时长进行语音合成。
在上述传统的基于隐马尔科夫模型的语音合成***中,某个音素的时长是由时长决策树30的某个叶子节点的中心时长,例如高斯分布的均值决定。也就是说,一个叶子节点上的所有音素时长实例由单一的中心时长来表示,由此导致了过平淡节奏的出现。这种平淡的合成语音会在电子书阅读、汽车导航、移动电话等这样的应用中降低用户体验。
发明内容
为了改善上述现有技术中存在的利用叶子节点的单一的中心时长生成音素的时长而导致合成语音的节奏过于平淡的问题,本发明提出了一种改进合成语音节奏的方法,该方法利用时长决策树的叶子节点上的多中心时长来生成音素的时长。也就是说,本发明提供了用于合成语音的方法和装置。具体地,提供了以下技术方案。
[1]一种用于合成语音的方法,包括以下步骤:
输入文本句;
对上述文本句进行文本分析以获得音素序列;
在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;
计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;
利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及
利用上述预测出的时长合成上述文本句的语音。
本发明的上述用于合成语音的方法,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统方法不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
[2]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:
将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。
本发明的上述用于合成语音的方法,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
[3]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:
将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的方法,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
[4]根据上述[1]所述的方法,其中,上述利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长的步骤包括:
利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。
[5]根据上述[4]所述的方法,其中,上述利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长的步骤包括:
将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的方法,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
[6]根据上述[1]~[5]的任一项所述的方法,其中,
上述对上述文本句进行文本分析的步骤还获得与上述音素序列对应的语境特征序列,
上述在时长决策树中查找上述音素序列中的至少一个音素的叶子节点的步骤包括:利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。
[7]根据上述[1]~[6]的任一项所述的方法,其中,
上述对上述文本句进行文本分析的步骤还获得与上述音素序列对应的语境特征序列,
上述计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率的步骤包括:利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。
[8]根据上述[7]所述的方法,其中,上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。
[9]根据上述[8]所述的方法,其中,上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。
[10]根据上述[9]所述的方法,其中,上述与用于训练上述时长决策树的语境特征不同的语境特征包括对上述用于训练上述时长决策树的语境特征不同的语境特征进行删减和/或增加后得到的语境特征。
[11]一种用于合成语音的装置,包括:
输入单元,其输入文本句;
文本分析单元,其对上述文本句进行文本分析以获得音素序列;
查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;
概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;
时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及
语音合成单元,其利用上述时长预测单元预测出的时长合成上述文本句的语音。
本发明的上述用于合成语音的装置,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统装置不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
[12]根据上述[11]所述的装置,其中,上述时长预测单元,将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。
本发明的上述用于合成语音的装置,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
[13]根据上述[11]所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的装置,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
[14]根据上述[11]所述的装置,其中,上述时长预测单元,利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。
[15]根据上述[14]所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。
本发明的上述用于合成语音的装置,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
[16]根据上述[11]~[15]的任一项所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述查找单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。
[17]根据上述[11]~[16]的任一项所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述概率计算单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。
[18]根据上述[17]所述的装置,其中,上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。
[19]根据上述[18]所述的装置,其中,上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。
[20]根据上述[19]所述的装置,其中,上述与用于训练上述时长决策树的语境特征不同的语境特征包括对上述用于训练上述时长决策树的语境特征不同的语境特征进行删减和/或增加后得到的语境特征。
附图说明
结合附图,从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见,其中:
图1示出了根据本发明的第1实施例的用于合成语音的方法的流程图。
图2示出了根据本发明的第1实施例的用于合成语音的方法的一个具体实例。
图3示出了根据本发明的第2实施例的用于合成语音的装置的框图。
图4示出了传统的基于隐马尔科夫模型的语音合成***。
具体实施方式
下面,结合附图对本发明的实施例进行详细描述。
一般地,本发明的实施例涉及在电子设备(例如电子书、汽车导航、移动电话等和/或类似物)中合成语音的方法及装置。
概括而言,本发明的基本构思是:在训练阶段,使用聚类算法将时长决策树的叶子节点上的音素时长实例聚为多个类,这些类的类中心时长将被用于接下来的时长预测。然后使用类似于条件随机场的机器学习方法建立音素的语境特征和叶子节点的多个类之间的映射关系,获得映射模型。在合成阶段,在对输入的文本句预测时长时,首先根据待合成音素的语境特征在时长决策树上查找其叶子节点,然后根据待合成音素的语境特征,利用训练阶段获得的映射模型计算待合成音素属于其叶子节点的多个类的每个类的概率,最后基于计算得到的概率和多个类的类中心时长预测待合成语音的时长。
用于合成语音的方法
图1示出了根据本发明的第1实施例的用于合成语音的方法的流程图。
首先,如图1所示,在步骤101,输入文本句。
在本实施例中,输入的文本句可以是本领域的技术人员公知的任何文本的句子,也可以是各种语言的文本句,例如汉语、英语、日语等,本发明对此没有任何限制。
接着,在步骤105,对输入的文本句进行文本分析以获得该文本句的音素序列。优选,在步骤105,还获得与音素序列对应的语境特征序列。
在本实施例中,语境特征包括上述文本句的句长,句中各字(词)的字形、拼音、音素类型、声调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此外,在本实施例中,用于对输入的文本句进行文本分析的文本分析方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
接着,在步骤110,在时长预测模型中的时长决策树中查找上述音素序列中的音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类。
在本实施例中,优选,利用步骤105的文本分析所获得的语境特征序列中与音素对应的语境特征查找音素的叶子节点。在时长决策树上查找音素的叶子节点的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
在本实施例中,时长预测模型的时长决策树是在训练阶段通过训练获得的。图2示出了根据本发明的第1实施例的用于合成语音的方法的一个具体实例。下面结合图2对训练阶段的内容进行详细描述。
如图2所示,在训练阶段,利用语音数据库10的声学信息和语境数据库20的语言学信息训练HMMs模型,得到时长决策树30。
在本实施例中,训练HMMs模型的方法可以是本领域的技术人员公知的任何方法,本发明对此并没有任何限制。另外,时长决策树30也可以是本领域的技术人员公知的基于HHMs模型的任何时长决策树,本发明对此不再进行赘述。
在得到时长决策树30后,本发明在步骤260,对时长决策树30的叶子节点中的音素时长实例进行聚类。下面详细描述聚类的过程。
对于某发音人的时长决策树30,其叶子节点集合定义为L={l0,l1,...,lM-1},M是时长决策树30中叶子节点的总数目。对于某个叶子节点lm,其所属的音素时长实例使用例如K均值聚类方法聚为K类,类标签定义为Tm={0,…,K-1},并且这些类的类中心时长集合定义为Cm={cm,k},k∈Tm。为了保持不同叶子节点间的一致性,对这些类根据其类中心的大小进行排序,即cm,0≤cm,1≤...≤cm,k-1。类的先验概率集合定义为Pm={pm,k},k∈Tm,可以由类所拥有的实例的数目与该叶子节点的实例总数的比值获得。
在本实施例中,虽然使用K均值聚类方法对叶子节点的音素时长实例进行了聚类,但是也可以使用本领域的技术人员公知的任何聚类方法进行聚类,本发明对此没有任何限制。
返回图1,接着,在步骤115,计算音素属于其叶子节点中的多个类的每个类的概率。
在本实施例中,优选,利用步骤105的文本分析所获得的语境特征序列中与音素对应的语境特征和时长预测模型中的映射模型计算音素属于其叶子节点中的多个类的每个类的概率。
在本实施例中,映射模型通过时长预测模型中的音素的语境特征与时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。用于训练映射模型的音素的语境特征可以是用于训练时长决策树的语境特征,也可以是与用于训练上述时长决策树的语境特征不同的语境特征,例如对用于训练时长决策树的语境特征进行删减和/或增加后得到的语境特征,本发明对此没有任何限制。
具体地,下面参照图2详细说明训练映射模型的一个实例。
如图2所示,在步骤270,利用步骤260对叶子节点上的音素时长实例进行聚类后所存储的类标签以及语境数据库20提供的语言学信息训练映射模型。具体的训练过程如下。
对于训练集中的某一句,其音素序列定义为Us={un},n=0,...,N-1,N是该句的音素总数量,其时长和语境特征序列分别为Ds={dn},Θs={θn},n=0,...,N-1,下文中将Θ称为HTS语境特征序列,将θn称为HTS语境特征。
在该实例中,使用类似于条件随机场(CRF,conditional random field)的机器学习方法训练映射模型,即建立音素的语境特征和叶子节点的多个类之间的映射关系。用于训练映射模型的语境特征序列定义为 下文中将称为CRF语境特征序列,将称为CRF语境特征。CRF语境特征可以和用于时长模型训练的HTS语境特征θn相同,也可以不同,例如对HTS语境特征θn进行删减和/或增加而得到CRF语境特征
对于该句中的音素un,其对应的叶子节点lm可以通过使用HTS语境特征θn查找时长决策树的方式获得,而所属的类标签tn=k,k∈Tm可以通过比较其时长dn和各类中心cm的距离的方式得到,从而可以获得音素un的CRF语境特征与对应的叶子节点lm的类标签的对应关系,即获得音素un的训练数据对当训练集中所有的音素处理完成后,总的训练数据集合即可获得,然后映射函数即映射模型可以使用CRF训练得到。使用CRF训练映射模型的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
返回图1,在步骤115计算得到音素属于叶子节点中的多个类的每个类的概率后,在步骤120,利用计算出的概率和多个类的每个类的类中心时长预测音素的时长。
在本实施例中,利用计算出的概率和多个类的每个类的类中心时长预测音素的时长的方法主要包括以下3种。
(1)将多个类中概率最大的类的类中心时长,作为音素的时长。
(2)将多个类的类中心时长以计算出的概率为权重的加权和,作为音素的时长。
(3)将多个类的类中心时长以计算出的概率和多个类的每个类的先验概率为权重的加权和,作为音素的时长。
下面以第3种方法为例进行详细描述。
对于在步骤101输入的文本句,在步骤105获得的音素序列表示为U,在步骤105获得的语境特征序列表示为HTS语境特征序列Θ,对HTS语境特征序列Θ进行与训练映射模型时相同的删减和/或增加,获得其CRF特征序列对于音素序列U中的音素un,叶子节点lm和该叶子节点上各类的类中心cm可以通过对其HTS语境特征θn查找时长决策树的方法获得。那么,音素un的时长可以由以下公式给出:
其中,是该音素的CRF语境特征,k是某个类的标签,pm,k和cm,k分别是标签为k的类的先验概率和类中心时长,是映射模型根据该音素的CRF语境特征和标签为k的类给出的该音素属于该类的概率。
在步骤120预测出音素的时长后,最后,在步骤125,利用预测出的时长合成文本句的语音。
在本实施例中,在合成步骤101输入的文本句的语音时,可以对文本句的音素序列中的某一个音素使用本发明的上述用于合成语音的方法,也可以对音素序列中的多个音素使用本发明的上述用于合成语音的方法,当然也可以对音素序列中的全部音素使用本发明的上述用于合成语音的方法。
本发明的上述用于合成语音的方法,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统方法不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
另外,本发明的上述用于合成语音的方法,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
另外,本发明的上述用于合成语音的方法,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
另外,本发明的上述用于合成语音的方法,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
用于合成语音的装置
在同一发明构思下,图3示出了根据本发明的第2实施例的用于合成语音的装置的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,本实施例的用于合成语音的装置300包括:输入单元301,其输入文本句;文本分析单元305,其对上述文本句进行文本分析以获得音素序列;查找单元310,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;概率计算单元315,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;时长预测单元320,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;以及语音合成单元325,其利用上述时长预测单元预测出的时长合成上述文本句的语音。
在本实施例中,输入单元301输入的文本句可以是本领域的技术人员公知的任何文本的句子,也可以是各种语言的文本句,例如汉语、英语、日语等,本发明对此没有任何限制。
在本实施例中,优选,文本分析单元305还获得与音素序列对应的语境特征序列。
在本实施例中,语境特征包括上述文本句的句长,句中各字(词)的字形、拼音、音素类型、声调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此外,在本实施例中,用于对输入的文本句进行文本分析的文本分析方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
在本实施例中,优选,查找单元310利用文本分析单元305获得的语境特征序列中与音素对应的语境特征查找音素的叶子节点。在时长决策树上查找音素的叶子节点的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
在本实施例中,时长预测模型的时长决策树是在训练阶段通过训练获得的。训练时长决策树的方法与上述参考图2描述的基本相同,在此不再赘述。
在本实施例中,优选,概率计算单元315,利用文本分析单元305获得的语境特征序列中与音素对应的语境特征和时长预测模型中的映射模型计算音素属于其叶子节点中的多个类的每个类的概率。
在本实施例中,映射模型通过时长预测模型中的音素的语境特征与时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。用于训练映射模型的音素的语境特征可以是用于训练时长决策树的语境特征,也可以是与用于训练上述时长决策树的语境特征不同的语境特征,例如对用于训练时长决策树的语境特征进行删减和/或增加后得到的语境特征,本发明对此没有任何限制。训练映射模型的方法与上述参考图2描述的基本相同,在此不再赘述。
在概率计算单元315计算得到音素属于叶子节点中的多个类的每个类的概率后,时长预测单元320利用计算出的概率和多个类的每个类的类中心时长预测音素的时长。
在本实施例中,时长预测单元320利用计算出的概率和多个类的每个类的类中心时长预测音素的时长的方法主要包括以下3种。
(1)将多个类中概率最大的类的类中心时长,作为音素的时长。
(2)将多个类的类中心时长以计算出的概率为权重的加权和,作为音素的时长。
(3)将多个类的类中心时长以计算出的概率和多个类的每个类的先验概率为权重的加权和,作为音素的时长。
下面以第3种方法为例进行详细描述。
对于在输入单元301输入的文本句,文本分析单元305获得的音素序列表示为U,文本分析单元305获得的语境特征序列表示为HTS语境特征序列Θ,对HTS语境特征序列Θ进行与训练映射模型时相同的删减和/或增加,获得其CRF特征序列对于音素序列U中的音素un,叶子节点lm和该叶子节点上各类的类中心cm可以通过对其HTS语境特征θn查找时长决策树的方法获得。那么,音素un的时长可以由以下公式给出:
其中,是该音素的CRF语境特征,k是某个类的标签,pm,k和cm,k分别是标签为k的类的先验概率和类中心时长,是映射模型根据该音素的CRF语境特征和标签为k的类给出的该音素属于该类的概率。
在时长预测单元320预测出音素的时长后,语音合成单元325利用预测出的时长合成文本句的语音。
在本实施例中,在合成输入单元301输入的文本句的语音时,可以利用本发明的上述用于合成语音的装置300预测文本句的音素序列中的某一个音素的时长,也可以利用本发明的上述用于合成语音的装置300预测音素序列中的多个音素的时长,当然也可以利用本发明的上述用于合成语音的装置300预测音素序列中的全部音素的时长。
本发明的上述用于合成语音的装置300,在进行音素的时长预测时,与使用叶子节点的单一的中心时长的传统装置不同,使用叶子节点中的多个类的类中心时长进行预测,有效地解决了现有技术中合成语音的节奏过于平淡的技术问题,提高了在电子书阅读、汽车导航、移动电话等这样的应用中的用户体验。
另外,本发明的上述用于合成语音的装置300,通过使用叶子节点的多个类中概率最大的类的类中心时长作为上述至少一个音素的时长,可以使上述至少一个音素的时长的预测更加准确。
另外,本发明的上述用于合成语音的装置300,通过使用叶子节点的多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长,可以使上述至少一个音素的时长预测的候选由多中心动态扩展为一个在实例空间上的范围。
另外,本发明的上述用于合成语音的装置300,通过引入先验概率,时长预测中出现异常时长的可能性减小,由此带来了主观感知的提升。
本领域的普通技术人员可以理解上述的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的方法和装置也可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以由上述硬件电路和软件的结合例如固件来实现。
虽然以上结合具体实施例对本发明的用于合成语音的方法和装置进行了详细描述,但本发明并不限于此,本领域普通技术人员能够理解可以对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围;本发明的保护范围由所附权利要求来限定。

Claims (10)

1.一种用于合成语音的装置,包括:
输入单元,其输入文本句;
文本分析单元,其对上述文本句进行文本分析以获得音素序列;
查找单元,其在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及
语音合成单元;
其特征在于,上述装置还包括:
概率计算单元,其计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及
时长预测单元,其利用上述概率计算单元计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;
上述语音合成单元利用上述时长预测单元预测出的时长合成上述文本句的语音。
2.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类中概率最大的类的类中心时长作为上述至少一个音素的时长。
3.根据权利要求1所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率为权重的加权和,作为上述至少一个音素的时长。
4.根据权利要求1所述的装置,其中,上述时长预测单元,利用上述计算出的概率、上述多个类的每个类的类中心时长和上述多个类的每个类的先验概率预测上述至少一个音素的时长。
5.根据权利要求4所述的装置,其中,上述时长预测单元,将上述多个类的类中心时长以上述计算出的概率和上述多个类的每个类的先验概率为权重的加权和,作为上述至少一个音素的时长。
6.根据权利要求1所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述查找单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征查找上述至少一个音素的叶子节点。
7.根据权利要求1所述的装置,其中,
上述文本分析单元还获得与上述音素序列对应的语境特征序列,
上述概率计算单元,利用上述语境特征序列中与上述至少一个音素对应的语境特征和上述时长预测模型中的映射模型计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率。
8.根据权利要求7所述的装置,其中,上述映射模型通过上述时长预测模型中的音素的语境特征与上述时长决策树中的叶子节点的多个类的一个类的对应关系训练得到。
9.根据权利要求8所述的装置,其中,上述音素的语境特征包括用于训练上述时长决策树的语境特征或与用于训练上述时长决策树的语境特征不同的语境特征。
10.一种用于合成语音的方法,包括以下步骤:
输入文本句;
对上述文本句进行文本分析以获得音素序列;
在时长预测模型中的时长决策树中查找上述音素序列中的至少一个音素的叶子节点,上述叶子节点中的音素时长实例被聚为多个类;以及
合成上述文本句的语音;
其特征在于,上述方法还包括以下步骤:
计算上述至少一个音素属于上述叶子节点中的多个类的每个类的概率;以及
利用上述计算出的概率和上述多个类的每个类的类中心时长预测上述至少一个音素的时长;
上述合成上述文本句的语音的步骤利用上述预测出的时长合成上述文本句的语音。
CN201210501075.9A 2012-11-29 2012-11-29 用于合成语音的方法和装置 Expired - Fee Related CN103854643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210501075.9A CN103854643B (zh) 2012-11-29 2012-11-29 用于合成语音的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210501075.9A CN103854643B (zh) 2012-11-29 2012-11-29 用于合成语音的方法和装置

Publications (2)

Publication Number Publication Date
CN103854643A CN103854643A (zh) 2014-06-11
CN103854643B true CN103854643B (zh) 2017-03-01

Family

ID=50862214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210501075.9A Expired - Fee Related CN103854643B (zh) 2012-11-29 2012-11-29 用于合成语音的方法和装置

Country Status (1)

Country Link
CN (1) CN103854643B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
CN105869446B (zh) * 2016-03-29 2018-09-25 广州阿里巴巴文学信息技术有限公司 一种电子阅读装置和语音阅读加载方法
CN106601226B (zh) * 2016-11-18 2020-02-28 中国科学院自动化研究所 音素时长预测建模方法及音素时长预测方法
CN107705782B (zh) * 2017-09-29 2021-01-05 百度在线网络技术(北京)有限公司 用于确定音素发音时长的方法和装置
CN107481715B (zh) * 2017-09-29 2020-12-08 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109801618B (zh) * 2017-11-16 2022-09-13 深圳市腾讯计算机***有限公司 一种音频信息的生成方法和装置
CN109102796A (zh) * 2018-08-31 2018-12-28 北京未来媒体科技股份有限公司 一种语音合成方法及装置
CN109599092B (zh) * 2018-12-21 2022-06-10 秒针信息技术有限公司 一种音频合成方法及装置
CN110264993B (zh) * 2019-06-27 2020-10-09 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110992926B (zh) * 2019-12-26 2022-06-10 标贝(北京)科技有限公司 语音合成方法、装置、***和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970819B1 (en) * 2000-03-17 2005-11-29 Oki Electric Industry Co., Ltd. Speech synthesis device
EP1669886A1 (fr) * 2004-12-08 2006-06-14 France Telecom Construction d'un automate compilant des règles de transcription graphème/phonème pour un phonétiseur
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN101449319A (zh) * 2006-03-29 2009-06-03 株式会社东芝 语音合成装置及其方法
CN102203853A (zh) * 2010-01-04 2011-09-28 株式会社东芝 合成语音的方法和装置
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和***
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI118062B (fi) * 2003-04-30 2007-06-15 Nokia Corp Pienimuistinen päätöspuu

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970819B1 (en) * 2000-03-17 2005-11-29 Oki Electric Industry Co., Ltd. Speech synthesis device
EP1669886A1 (fr) * 2004-12-08 2006-06-14 France Telecom Construction d'un automate compilant des règles de transcription graphème/phonème pour un phonétiseur
CN101449319A (zh) * 2006-03-29 2009-06-03 株式会社东芝 语音合成装置及其方法
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN102203853A (zh) * 2010-01-04 2011-09-28 株式会社东芝 合成语音的方法和装置
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种改进的基于决策树的英文韵律短语边界预测方法;张元平 等;《计算机应用研究》;20120831;第29卷(第8期);第2921-2925页 *
基于混合映射模型的语音转换算法研究;康永国 等;《声学学报》;20061130;第31卷(第6期);第555-562页 *
汉语语音合成中基于语境特征的清浊音时长调整;徐英进 等;《中国科技论文》;20121031;第7卷(第10期);第783-786页 *

Also Published As

Publication number Publication date
CN103854643A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
CN103854643B (zh) 用于合成语音的方法和装置
Yu et al. Sequential labeling using deep-structured conditional random fields
US20200380215A1 (en) Large-Scale Multilingual Speech Recognition With A Streaming End-To-End Model
CN107481717B (zh) 一种声学模型训练方法及***
US9728183B2 (en) System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US5787396A (en) Speech recognition method
CN110853630B (zh) 面向边缘计算的轻量级语音识别方法
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与***
CN103021408B (zh) 一种发音稳定段辅助的语音识别优化解码方法及装置
CN102005205B (zh) 情感语音合成方法和装置
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN1495641A (zh) 自适应上下文敏感分析有限版权弃权声明
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
CN115457982A (zh) 情感预测模型的预训练优化方法、装置、设备及介质
CN112185361A (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
Iliev et al. Low power speaker identification by integrated clustering and gaussian mixture model scoring
Yusuf et al. Low resource keyword search with synthesized crosslingual exemplars
Hadian et al. Improving LF-MMI using unconstrained supervisions for ASR
CN116913244A (zh) 一种语音合成方法、设备及介质
Zhou et al. Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis
Ribeiro et al. Learning word vector representations based on acoustic counts
Du et al. [Retracted] English Phrase Speech Recognition Based on Continuous Speech Recognition Algorithm and Word Tree Constraints
CN114121018A (zh) 语音文档分类方法、***、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170301

Termination date: 20171129