CN1257271A

CN1257271A - 用于中文语音合成的连音处理装置

Info

Publication number: CN1257271A
Application number: CN99125300.0A
Authority: CN
Inventors: 郭俊桔
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-12-02
Filing date: 1999-12-02
Publication date: 2000-06-21
Also published as: JP2000172286A; SG77275A1; TW451183B

Abstract

通过分析字串中相邻音节的连音情形,本发明可得到一些前音节会随着后音节的起始音状态和声调不同而不同的连音变化规则。利用这些变化规则,建立一个处理连音的CV－VC(VV)连音处理装置。通过前后音节辅音与元音的组合关系,找出VC(VV)连音段,并在前后音节间做波形重叠累加运算,使其在合成连续语音时达到十分自然流畅的效果。实验结果显示,使用本发明的CV、VC(VV)连音装置可以得出自然的中文连续合成语音。

Description

用于中文语音合成的连音处理装置

本发明涉及一种用于中文语音合成的连音处理装置，特别涉及一种用于在中文语音合成中获得从一音节到下一个音节之间的平滑过渡的连音处理装置。

在中文语音合成中，为使一系列音节的发音更加流利和平滑而平滑相邻音节之间的连接的处理被称为连音处理。为了获得从一个字串的一个音节到该字串的随后一个音节之间的平滑过渡，需要把构成前一音节的部分音素与构成后一音节的部分音素相重叠的连音处理。

图3是人对“中文”这个词的发音的宽带频谱。从图3明显可以看出有连音现象。但是，常规的中文语音合成***大多未考虑连音处理，而只是简单地连接字串“中文”的两个音节的相邻音素，如图4所示。因此，这造成不自然的合成语音。

另外，用于常规中文语音合成***中的连音处理技术是在时域中对字串的连音段进行模拟，也就是说，首先从大量连音段录音语音数据中搜索最佳的连音段。然后，该最佳连音段被***前一音节和后一音节之间。上述处理的关键点在于最佳连音段确定和最适从连音段录音语音数据中对该最佳连音段的搜索。在此包含中国台湾第九届计算语言学研讨会论文集(1996)中名为“中文连音二字词的语音合成”的论文以供参考。

图5是上述常规中文语音合成***的示意***方框图。

参照图5，100是由操作者输入要合成的拼音文句的拼音文句输入单元。110是用于存储大量字串录音语音数据的字串存储单元。180是用于存储单音录音数据的单音存储单元。120是字串搜索单元，用于根据输入的拼音文句，从字串存储单元110中搜索要被进行连音处理的字串，并且分析该搜索的字串以确定连音段。130是用于搜索该字串的连音段的中央位置的中央部位搜索单元。140是用于估算连音段的音素时间长度的估算单元。150是前段音节合成单元，用于根据输入的拼音文句在单音存储单元180中搜索前段音节的单音录音数据，并且用于合成该搜索的单音录音数据。160是用于把从前段音节合成单元150输出的合成语音数据与该连音段做合成的连音段合成单元。170是后段音节合成单元，用于根据输出拼音文句在单音存储单元180中搜索单音录音数据，并且用于把从连音段合成单元160输出的合成语音数据与搜索的后音节相合成。190是用于输出以语音方式输出的合成语音数据的合成语音输出单元。

由图5可知，上述常规中文语音合成***从字串存储单元110搜索最佳连音段，并从单音存储单元180搜索单音录音数据，并且把它们合成以改善合成语音输出的逼真度(Naturalness)和理解度(Comprehensibility)。

例如，如果想要合成“中文”这个字串，这是一个要受到连音处理的字串，用图5中所示的***对其进行合成，对应于字串“中文”的拼音文句首先***作者通过输入单元100输入。然后，在该字串存储单元110中搜索对应于字串“中文”的字串录音数据。假设，在字串存储单元110中有字串“中文”的字串录音数据，则字串搜索单元120从字串存储单元110中搜索字串“中文”的字串录音数据。分析该搜索的字串录音数据以确定字串“中文”的连音段。在中央部位搜索单元130估算出字串“中文”的连音段的中央位置。在估算单元140中估算出字串“中文”的连音段的音素时间长度。前段音节合成单元150从单音存储单元180中搜索对应于“中”字的单音节语音数据。连音段合成单元160把对应于“中”字的所搜索的单音节录音数据与该连音段相合成。接着，后段音节合成单元170从单音存储单元180中搜索对应于“文”字的单音录音数据，并把从连音段合成单元160输出的合成语音数据与对应于“文”字的搜索的单音录音数据相合成。最后，从合成语音输出单元190以语音方式输出所得的合成语音数据。

然而，如果在字串存储单元110中没有存储对应于字串“中文”的字串录音数据，则根据字串“中文”的前一音节的元音(ㄨㄥ)和字串“中文”的后一音节的起始音(ㄨㄣ)找出最近似的连音段，例如，“通问”(ㄊㄨㄥㄨㄣ)，并依照上述方法做合成，结果会合成出很不自然的语音。另外，上述***需要约55MB字节的存储空间来存储大量字串录音数据，因此这消耗了宝贵的存储空间。并且，录音数据被用作为合成的基本单元，因此不能改变频率和音长，而且录音数据的搜寻与合成也十分费时。

相应地，上述现有技术具有如下缺点：

1.必须存储大量的单音节录音数据和字串录音数据。

2.如果合成字串录音数据不包含在字串存储单音中，则不能合成出自然的语音。

3.由于采用录音数据，因此改变音长、韵律。

4.录音数据的搜索过于费时。

因此，本发明的一个基本目的是提供一种用于在中文语音合成中从一个音节到后一音节的平滑过渡的连音处理装置，该连音处理装置可以克服与上述现有技术有关的缺点。

根据本发明，一种用于中文语音合成的连音处理装置，包括：

用于存储多个中文字串及其对应的拼音记号的词典存储器；

用于存储各种中文音节和连音段及中文音节和连音段对应的拼音记号的音调数据、所述各种中文音节和连音段的辅音和元音的起始点及结束点的存储单元；

用于根据存储在所述字典存储器中的字典分析要被合成的输入的拼音文句，以把该句子分为多个字串的词汇分析单元；

用于根据所述存储单元确定来自所述词汇分析单元的字串中哪一个要被进行连音处理，以搜索确定要受到连音处理的所述字串的连音段的音节分析单元；

用于把所搜索的搜索连音段***在所述输入拼音文句中的所述字串的所述音节与产生的合成语音之间的语音合成单元。

在上述连音处理装置中，该存储单元最后存储具有中文第一声的409个音节。

在上述连音处理装置中，存储在该存储单元中的连音段是中文字串的后一音节的起始音，如图6所定义。

本发明的具有上述结构用于中文语音合成的CV-VC(VV)连音处理装置首先根据存储在该字典存储器中存储的字典把使用者输入的拼音文句分段。接着，音节分析单元确定需要做连音处理的前后音节。然后，从音节数据存储单元中搜索每个音节的音调数据和辅音、元音的起始点和结束点。最后，语音合成单元估算出用于音长和频率的改变操作的音长和频率，并合成和输出该语音。

从下文参照附图结合实施例的具体描述中，本发明的上述的和其他的目的和优点将变得更加清楚，在附图中相同的部分由相同的参考标号表示。

图1是根据本发明一个优选实施例的用于中文语音合成中的连音处理装置的***方块图。

图2是存储在图1中所示的寄存器单元13中的音节内容的图表。

图3是由人所发出的“中文”发音的宽带频谱图。

图4是由常规中文语音合成***所产生的“中文”发音的宽带频谱图。

图5是常规中文语音合成***的***方块图。

图6为示出在优选实施例中用于判断是否一个字串要受到连音处理的后一音节的起始音的种类的图表。

图7是在根据本发明的优选实施例中对“台湾”字串做连音处理的说明图。

下面将参照附图描述根据本发明的优选实施例。

图1是根据本发明的一个优选实施例用于中文语音合成的连音处理装置的***方块图。

参照图1，一输入单元10例如由键盘构成，使得操作者可输入用于语音合成的拼音文句。词汇分析单元11根据存储在字典存储器(存储单元)12中的字典分析该输入句子，在该字典存储器中多个字串和对应的拼音文句被存储，以把该句子分为多个字串，并且标记相邻字串之间的位置。音节分析单元14根据VC(VV)连音段和CV音节的音调数据存储单元15以及VC(VV)连音段和CV音节的标记数据存储单元16确定哪一个字串要受到连音处理，并搜索所确定的CV音节和VC(VV)连音段的音调数据和标记数据。音节音长搜索单元17与音节频率搜索单元18根据音节韵律规则搜索相关的音长与频率。请注意，C表示辅音，V表示元音。

寄存器(存储)单元13存储相应的每个音节的音长、频率、声调(中文声调)、与拼音符号。波形重叠和累加单元19重叠和累加CV音节和VC(VV)连音段的波形。合成语音输出单元20输出合成的语音。

下面将说明本发明的应用。例如，在如下拼音文句中：

“tai2 Wanl shi4 yi2 ge5 mei3 li4 de5 bao3 dao3”

(台湾是一个美丽的宝岛)

每个字的拼音之后跟随着一个表示相应字的声调的数字。

图6是示出在优选实施例中用于判断一字串是否被用于确定一字串要被受到连音处理的后一音节的起始音的种类的图表。

根据本发明的优选实施例的连音处理执行如下：上述的拼音文句首先操作员用输入单元10输入。词汇分析单元11根据存储在字典存储器12中的字典分析该输入句子，以把该句子分为多个字串，并标记两个相邻字串之间的位置，从而产生包括标记数据的拼音列表，tai2 wanl @ shi4 @ yi2 ge5 @ mei3 li4 @ de5 @ bao3 dao3，

其中@用于标记两个相邻字串之间的位置的标记数据。接着，音节分析单元14根据图6中所示的音素确定要受到连音处理的字串。

结果发现字串“tai2 wanl”和“mei3 li4”中的音素要受到连音处理。音节分析单元14根据图6中所示的表格，在VC(VV)连音段和CV音节的音调数据存储单元15和VC(VV)连音段和CV音节的标记数据存储单元16中搜索VC(VV)连音段和CV音节音调数据和标记数据，然后，把该音调数据和标记数据存储到存储单元13中。即从存储单元15和16中搜索tai2 aiwan wanl @ shi4 @ yi2 ge5 @ mei3 eil li4 @de5 @ bao3 dao3，其中aiwan(ㄞㄨㄢ)是VV连音段，而eil(ㄟㄉ)是VC连音段。音节音长搜索单元17和音节频率搜索单元18确定每个音节的音长和频率，并将其数据存于寄存器单元13中。

图2是存储在图1中所示的寄存器单元13中的音节内容的图表。在该优选实施例中，寄存器单元13存储具有中文第一声调的409个中文音节。

波形重叠和累加单元19根据从寄存器单元13中取得的CV音节和VC(VV)连音段的详细数据重叠和累加CV音节和VC(VV)连音段，其中该详细数据包括该音节音长、该音节辅音音长、该音节开始点、该音节结束点、该音节八个区段的频率、该音节声调种类、该音节辅音种类、该音节元音种类、该音节位于字串中的位置、该音节CV音节的序号和该音节VC(VV)连音段序号等。最后，合成语音输出单元20输出合成的语音。

图7是在根据本发明的优选实施例中对“台湾”字串做连音处理的说明图。首先，将每个CV音节和其VV连音段的音调数据和标记数据存入寄存器单元13中。然后，根据韵律规则估算出“台”和“湾”的频率和音长以及连音段“ㄞㄨㄢ”，以把该音节与的连音段的波形相叠加，从而产生“台湾”字串的波形。由于“台湾”字串的合成是用音调数据实现的，因此可以做音长与频率的变化，并且节省了宝贵的存储空间。

如上文所述，本发明的优选实施例克服了与现有技术有关的连音中的问题。通过搜索字串的连音段，并且把连音段的波形与字串的前后音节相叠加，可以得到自然的连音字合成输出。另外，可以改变字串的音长和频率，使得可以产生具有不同音调和音长的字串，并且可以节省宝贵的存储空间。

尽管在上文中已经参照附图结合优选实施例对本发明作完整的描述，但是应当注意对于本领域内的专业人员还可以作出各种显而易见的改变和变化。这种改变和变化应当被理解为包含在所附权利要求所定义的本发明的范围内的，除非它脱离了本发明的范围。

Claims

1.一种用于中文语音合成的的连音处理装置，其中包括：

用于存储多个中文字串及其对应的拼音记号的词典存储器；

用于存储各种中文音节和连音段及中文音节和连音段对应的拼音记号的音调数据、所述各种中文音节和连音段的辅音和元音的起始点及结束点的存单元；

2.根据权利要求1所述的连音处理装置，其特征在于：

所述存储单元存储具有中文第一声的409个音节。

3.根据权利要求1所述的连音处理装置，其特征在于：

存储在所述存储单元中的所述连音段是中文字串的后一音节的起始音。

4.根据权利要求2所述的连音处理装置，其特征在于：