CN1604185B

CN1604185B - 利用可变长子字的语音合成***和方法

Info

Publication number: CN1604185B
Application number: CN 03164848
Authority: CN
Inventors: 祖漪清; 陈桂林; 俞振利; 岳东剑
Original assignee: Motorola Inc
Current assignee: Serenes Operations
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2010-05-26
Anticipated expiration: 2023-09-29
Also published as: CN1604185A

Abstract

利用可变长度的子字，从输入文本合成语音的***和方法。该***包括一含有子字波形的声音目录(110)。多级声音单元选择器(140)与声音目录(110)连接，多层合成器(150)与声音单元选择器(140)连接。根据所述输入文本段是否与所述声音目录(110)中的子字波形相关，选择声音单元选择器(140)的一个级。该方法包括接收输入文本串；将输入文本串与索引的声音目录进行比较；从所述声音目录中检索出与所述输入文本串相应的完整子字波形；从所述声音目录中检索出与所述输入文本串相应的音素串波形；从所述声音目录中检索出与所述输入文本串相应的单个音素波形；联接所述波形，产生与所述输入文本串相应的合成语音。

Description

利用可变长子字的语音合成***和方法

技术领域

本发明一般涉及一种利用一个相对较小的声音目录实现语音合成的方法和***。本发明特别适用于，但不仅限于，例如：移动电话和个人数字助理等的手持装置的语音合成。

背景技术

熟知的复杂的语音合成技术使用的是一种联接的方法。该技术使用的是存储在发音数据库中的讲话发音的实际记录。发音的各个部分经重新组合或联接，来生成各种口语短语。被重新组合的部分可以包括完整的词语，词语段或者甚至是单个音节的更小分段。当较大的词语段被联接时，所得到的合成语音听起来要更为自然一些。然而，当使用较大的词语段时，就需要大容量的存储器来存放声音数据，才能够维持一个可以合成相当大词汇量的声音数据库。

可以通过仅仅存储较小的段，例如双音素或者单音，来减小这种声音数据库的大小；然而由此得到的合成语音的质量也通常会降低。这是因为形成正确的音调和非常短的语音段之间过渡时间长度，从而产生自然发声的语音是困难的。存在复杂的技术分析小的音素链单元，例如CV和VCV(在此C代表辅音，V代表元音)。然而实现该技术的算法将会非常复杂和需要加强处理器。

其他用于减小与语音合成***相关的声音数据库大小的方法包括使用称为共振峰合成法的技术。使用共振峰合成法，由于人的声音只使用滤波的电子激励信号进行模拟，就可以不再需要声音数据库。然而得到的合成语音通常听起来极为不自然和“机器腔”。

移动电话和个人数字助理(PDA)等手持式电子装置的流行，增加了对高质量的语音合成器的需求。如果这种手持装置装内置有语音合成器，其方便性将大大增加。例如，电子邮件和文本信息，例如：SMS信息，可以合成为语音由移动电话的用户来接听。然而，这种手持电子装置的存储与处理资源通常非常有限。所以内置于这种装置中的语音合成器件必须使用压缩和高效率的声音数据库。

因此，就需要一种改进的语音合成的方法和***，使用压缩的声音数据库同时仍可提供自然声语音。

发明概述

根据本发明的一方面，本发明是一种语音合成的方法，包括接收输入的文本串；将所述输入文本串与索引的声音目录进行比较；从所述声音目录中检索出与所述输入文本串相一致的完整子字波形；从所述声音目录中检索出与所述输入文本串相一致的音素串波形；从所述声音目录中检索出与所述输入文本串相一致的单个音素波形；联接所述波形，产生与所述输入文本串相一致的合成语音。

本发明优选的可以包括通过对大文本语料库实施一个统计分析来决定常用词，并将所述常用词划分成位置音节，产生所述声音目录的步骤。

生成所述的声音目录的步骤可以进一步包括对所述位置音节进行归类的音节归类步骤，和舍弃具有低清晰度的所述音节的步骤。

生成所述声音目录的步骤可以进一步包括：计算所述大文本语料库中的CV型子字的频率，和选择所述大文本语料库中最常见部分的所述子字的步骤。

联接所述波形的步骤可以包括硬联接(几乎不需要信号处理的联接)所述子字波形，或可以包括对所述音节串波形和所述单个音节波形的修正联接的步骤。

修正联接优选的包括改变所述联接波形的持续时间。

根据本发明的另一方面，本发明是一种根据输入语音进行语音合成的***，它包括具有子字波形的声音目录。一多级声音单元选择器与所述的声音目录联接，一多层合成器与所述的声音单元选择器联接。根据所述输入文本的分段是否与所述声音目录中的子字波形相一致，选择所述的音调单元选择器的一级。

所述的多层合成器优选的包括用于执行硬联接的第一层和用于执行修正联接的第二层。

所述声音目录可以包括CV型子字波形，并且所述的CV型子字波形可以用一注释文件标引。

所述多级声音单元选择器优选的包括可与所述多层合成器的第一层联接以实现硬联接的第一级，和可与所述多层合成器的第二层联接以实现修正联接的第二级和第三级。

在本说明书，以及权利要求书中，词语“包含”，“包括”或者类似术语意在表示非派他性的包括，所以，包括所列出的元件的方法和装置，并不仅仅是包括这些元件，还可以包括没有提到的其它元件。

附图说明

为使本发明易于理解并付诸实施，现在将参照附图对优选实施例进行说明，在图中，相同的标号表示相同的元件，其中：

图1是根据本发明的语音合成***的功能性组件的示意图；

图2是根据本发明的如何生成一个声音目录的流程图；和

图3是根据本发明的语音合成方法的流程图。

优选实施例的详细说明

参见图1，图中所示为根据本发明的用于语音合成的***100的功能性组件的示意图。声音目录110包括多个子字组件120，例如起始、辅音结尾和CV型子字。利用索引130对子字组件120进行分类。

声音目录110与多层单元选择器140接口。单元选择器140决定三级中的哪一级将被用来合成输入到***100中的词。当输入文本串的分段可以被划分为与其对应的波形都包含在声音目录110中的子字时，选择单元选择器140的第一级。当合成输入文本串分段所需要的子字不包括在声音目录110中，但是声音目录110中的音素串可以用来合成输入文本串分段时，选择单元选择器140的第二级。最后，当只能用包括在声音目录110中的单个音素来合成输入文本串的分段时，选择单元选择器140的第三级。

单元选择器140与双层合成器150接口，合成器150合成由***100输出的语音。第一层160对来自单元选择器140的第一级的子字的执行硬联接合成。合成器150的第二层170对从单元选择器140的第二级或者第三级接收的语音组件执行修正联接合成。在本说明的后面将对硬联接和修正联接进行详述。图1中的虚线箭头表示从单元选择器140的第二级或者第三级接收到的语音组件也可以使用硬联接进行联接。

参见图2，图中所示为生成声音目录110的方法200的流程图。在步骤205中，对大文本语料库进行统计分析。该分析包括计算在任意给定的示例性输入文本的词语中占显著多数的词语。对大多数的西方语音而言，例如英语，有超过150,000个单词，包含至少41,000个位置音节。然后，在步骤210中，来自步骤205的常用词被划分为位置音节。位置音节定义为具有词语位置标记的音节，如下：

Ws：单音节词语中的音节；

Wo：多音节词语中的音节但不包括词的最后一个音节；和

Wf：多音节词语中的最后一个音节。

然后，方法200继续到步骤215，在此，每一音节中的音素都被分类。音素大致可以分为如下四类：辅音、半元音、元音和浊音尾。各类之间的清晰度是不同的。于是在步骤220中，具有低清晰度的音素可以被舍弃。因此，根据本发明的语音单元的定义是基于音节的，并且语音单元的长度从一个音节到四个或者更多音节变化。这就意味着下面的组合可以从声音目录110中省略：辅音到辅音、元音到辅音、半元音到辅音、和鼻尾音到辅音。然而，下面的组合在语音单元的联接中要考虑：辅音到元音、半元音到元音、元音到半元音。辅音串结尾可以被不同的词语共用。因此，上面所述的超过41,000个位置音节减少为只有16,000个CV型子字。下面的表1提供一个例子，说明如何使用上述子字单元来描述，例如“Battery level is low”中的音节转换：

表1

“Battery level is low”中的音节转换

Word	CV-like unit
Word	CV-like unit	Battery	b’ae(Wo)+tax(Wo)+riy(Wf)
Level	l’eh(Wo)+vaxl(Wf)	Battery	b’ae(Wo)+tax(Wo)+riy(Wf)
Level	l’eh(Wo)+vaxl(Wf)	Is	’Ih(Ws)+s
Low	l’ow(Ws)	Is	’Ih(Ws)+s

然后，方法200继续到步骤225，其中根据词典(根据本发明的优选实施例包括超过190,000个词条)中的单词频率和单元频率来计算CV型子字的频率。英语文本的统计分析显示，大约6,900个词语能覆盖大约90％的输入文本，而大约4,100个词语能覆盖大约85％的输入文本，每一子字出现的频率或者次数定义如下：

n_i＝n_1i+n_2i

其中n_i为第i个子字出现次数，其中n_1i是带有第i个子字的词语出现的次数，其中n_2i是第i个子字在词典中出现的次数。对于n_i，i＝1，2，....，N(其中N是字典中子字的数目)，可以计算出每一个子字的频率。

最后在步骤230中，选择将覆盖预期输入文本大部分的最常用的子字。当实施于英语时，上面计算的结果显示20％的子字将覆盖超过85％的英语文本。因此，大约2,400个子字被选择构成语音单元目录。从声音语料库中提取与每一子字相关的语音波形，形成声音目录110。上述方法200从而大大减少了声音目录110中的冗余。

声音目录110中每一个子字的相关语音波形都用索引130标引。索引130可以包括一个与记录的语音波形一起的简单注释文件。因此，索引130被用于标识包含在子字波形中的音素串和单个音素。

参见图3，图中所示为根据本发明的语音合成方法300的流程图。方法300在起始步骤305被调用，例如；当手持装置的用户接收到一个文本信息并想将其合成为语音时。在步骤310中，语音合成***100接收一个输入文本串，例如：是前面提到的文本信息。在步骤315中，实施对输入文本串的预处理。预处理将输入文本串分类成包括与每一段相关的位置信息的子字段。然后，在步骤320，将输入文本串分段与声音目录110进行比较。在步骤325，确定声音目录110中的完整子字波形是否与输入文本串的当前段一致。如果是，方法300执行步骤330，从声音目录110检索出一致的子字波形。接下来在步骤360中，子字波形被联接。步骤330和步骤360与单元选择器140的第一级相关，子字的联接由双层合成器150的第一层160执行硬联接。硬联接将在下文中详述。接下来在步骤335中，确定输入文本串是否还有其它段要与声音目录110进行比较。如果还有，方法300重新返回到步骤320，在此，输入文本串的下一段与声音目录110进行比较；否则，方法300在步骤340结束。

如果在步骤325确定声音目录110中没有与输入文本串的当前段一致的完整子字波形，则方法300前进到步骤345，以判断在声音目录110中是否有与输入文本串的当前段一致的多个音素串波形。如果有，方法300进行到步骤350，从声音目录110中检索出一致的多个音素串波形。接下来在步骤365中，多音子串波形得以联接。步骤350和步骤365与单元选择器140的第二级相关，并且多个音素串的联接是由合成器150的第二层170来执行的修正联接。修正联接也在下文中详述。接着，方法300返回到步骤335，判断输入本文串是否还有其他段要与声音目录110进行比较。

如果在步骤345判定在声音目录110中没有多个音素串波形与输入文本串的当前段相一致，方法300就前进到355步骤，从声音目录110中检索出单个音素波形。然后在步骤365，单个音素波形被联接以与输入文本串的当前段最相应。这里，步骤355和步骤365与单元选择器140的第三级相关，单个音素的联接还是由合成器150的第二层170来完成的修正联接。然后，方法300返回到步骤335，判断输入本文串是否还有其他分段要与声音目录110进行比较。当输入文本串的所有分段都与标引的声音目录110比较完成后，方法300在步骤340结束。

因此，根据本发明的方法300，基于对输入文本串的分段进行“最适合”的分析，联接来自声音目录110中的波形。双层合成器150的第一层执行硬联接意味着在没有修正的情况下，将从声音目录110中的多个波形简单的拼接在一起。当联接的波形足够大，以至于联接波形的总共持续时间与相应的输入文本串分段的自然说话的持续时间非常接近时，这个过程会导致听起来自然的语音。

另一方面，当硬联接不能得到听起来自然的语音时，就要使用修正联接。合成器150的第二层170执行修正联接。这里调整联接波形的持续时间以得到听起来更为自然的语音。

参照下面的表2，可以更好的理解修正联接。

表2

表2中给出了十种不同的情况的范例，其中声音目录110的子字组件120被划分为左边和右边文本。在表2的最右边的列描述的是当联接子字组件120，产生听起来自然的合成语音时，所需要的联接类型。例如，表2中的情况2说明当使用修正联接来联接声音目录110的两个元音波形时，联接波形的持续时间必须减少25％才能得到听起来自然的语音。

作为选择，表2中的情况9说明当联接由一个元音和一个辅音组成的两个波形时，联接波形的持续时间不必修正。因此，合成器150的第一层160将执行这种硬联接。

因此，本发明为一种使用相对较小的声音目录110的用于语音合成的改进的方法和***。适当组建声音目录110可以得到波形的标引集，它能通过硬联接而合成大约85％的输入文本串。输入文本串其余的15％可以利用所述的修正联接技术而得以合成。声音目录110因此是高度压缩的而且具有最小冗余波形，使得它特别适用于具有有限存储器的手持装置中。而且，声音目录110大小的缩减使得本发明的检索算法更高效快捷。

上述详细描述提供的仅是一个优选的实施例，并非是对本发明的范围、使用性和结构的限制。相反，优选示范实施例的详细描述为本领域的熟练技术人员实施本发明的优选示范实施例提供可能。应该理解的是，在不脱离所附权利要求中的本发明的精神和范围的情况下，可以对元件和步骤的功能和布置作出各种修改。

Claims

1.一种手持装置中的语音合成方法，包括：

接收输入文本串；

将所述输入文本串与索引的声音目录进行比较，所述索引的声音目录包含CV型子字波形、包含在所述CV型子字波形中的被索引的音素串波形和包含在所述CV型子字波形中的被索引的单个音素波形；

在所述声音目录中检索与所述输入文本串相应的完整的CV型子字波形；

如果没有检索到与所述输入文本串相应的完整的CV型子字波形，则在所述声音目录中检索与所述输入文本串相应的被索引的音素串波形；

如果没有检索到与所述输入文本串相应的被索引的音素串波形，则在所述声音目录中检索与所述输入文本串相应的被索引的单个音素波形；以及

联接所检索的波形，以提供与所述输入文本串相应的合成语音。

2.根据权利要求1的方法，还包括通过如下步骤生成所述声音目录的步骤：

对大文本语料库实施一个统计分析来决定常用词，和

将所述常用词划分成位置音节。

3.根据权利要求2的方法，其中所述产生所述声音目录的步骤还包括以下步骤：

将每一个所述位置音节的音素进行分类；和

舍弃所述位置音节内辅音到辅音、元音到辅音、半元音到辅音和鼻尾音到辅音组合的所述音素，以构成CV型子字。

4.根据权利要求3的方法，其中所述产生所述声音目录的步骤还包括以下步骤：

计算所述CV型子字在所述大文本语料库中的频率；

选择在所述的大文本语料库中最常用的所述CV型子字；以及

从所述大文本语料库中提取出包含所述最常用的CV型子字的声音目录。

5.根据权利要求1的方法，其中所述联接所检索的所述波形的步骤包括：硬联接所检索的CV型子字波形。

6.根据权利要求1的方法，其中所述联接所检索的所述波形的步骤包括：修正联接所检索的被索引的音素串波形和修正联接所检索的被索引的单个音素波形。

7.根据权利要求6的方法，其中所述修正联接包括改变所述联接波形的持续时间。

8.一种用于对输入文本串进行语音合成的***，包括：

声音目录，其包含CV型子字波形、包含在所述CV型子字波形中的被索引的音素串波形和包含在所述CV型子字波形中的被索引的单个音素波形；

多级声音单元选择器，其与所述声音目录连接，用于在所述声音目录中选择与所述输入文本串相应的波形，包括：用于选择所述CV型子字波形的第一级、用于选择被索引的音素串波形的第二级和用于选择被索引的单个音素波形的第三级；以及

多层合成器，其与所述多级声音单元选择器连接，用于对所选择的波形进行联接以提供所述输入文本串的合成语音。

9.根据权利要求8的***，其中，所述多层合成器包括：用于对所选择的CV型子字波形执行硬联接的第一层和用于对所选择的音素串波形和所选择的单个音素波形分别执行修正联接的第二层。

10.根据权利要求8的***，其中，所述包含在所述CV型子字波形中的被索引的音素串波形和单个音素波形使用联接注释文件进行索引。