CN1547733A

CN1547733A - 使用分级概括语音模板用于定制语音合成器数据库的方法和工具

Info

Publication number: CN1547733A
Application number: CNA028066197A
Authority: CN
Inventors: ʷ�ٷ�Ƥ��ɭ; 史蒂夫皮尔森; 彼得维普莱克; ��͵�ղ��; 吉恩－克劳德詹奎
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2001-03-15
Filing date: 2002-03-15
Publication date: 2004-11-17
Anticipated expiration: 2022-03-15
Also published as: JP2004522192A; EP1374222A4; CN1231887C; US20020133348A1; US6513008B2; EP1374222B1; EP1374222A1; DE60213573D1; WO2002075720A8; WO2002075720A1

Abstract

一种语音合成定制***(10)提供一种用于产生分级定制用户数据库的机制。该定制***包括模板管理工具(14)，用于根据从用户(18)得到的定制数据和从文本－语音转换(TTS)合成器(12)得到的相关的复制动态合成数据(20)产生模板。复制的动态合成数据按照具有分级的动态数据结构组织。该定制***进一步包括补充合成器的标准数据库的用户数据库(22)。工具将模板组装在用户数据库中，这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的语音合成数据。

Description

使用分级概括语音模板用于定制语音合成器数据库的方法和工具

技术领域

本发明涉及语音合成。特别地，本发明涉及一种语音合成器定制***，其可以在动态数据结构的所有级层覆盖语言合成数据。

背景技术

随着语音合成器输出质量的不断提高，越来越多的应用开始加入合成技术。例如，汽车导航***，用于视觉受损的装置也开始加入语音合成器。然而，随着语音合成普及度的增加，常规方式中的一些局限性变得明显。

一个值得注意的困难就是，容量和开发成本的考虑限制了常规合成器可以处理的词汇量。附图1和2简要示出了典型的合成器具有分级的动态数据结构，其中动态数据结构包括语言树20和声学树22。语言树20包含用于将要被合成的句子的语法和语言对象，而声学树22具有用于该句子的韵律和声学对象。这样，在合成一个句子的时候，根据输入的文本构建(或组装)这两个分级树状结构。通常需要意识到的是，树具有节点，这样“父节点”具有到每一“子节点”的“分支”。这里语言树20和声学树22被称作树状结构是因为父节点只能对第一子节点和末尾子节点进行访问，而其余的子节点被包括在一个表中。而且，每一子节点可以对相应的父节点进行访问。然而，树结构的层次组成了分级结构。

在固定(或标准)数据库的辅助下，一个特定句子的上述树结构和节点信息通过各种合成模块被实时构建。例如，语法分析模块通常根据要合成的句子产生从句和短语，而音标表示器使用标准数据库根据句中词语构建语素和音素。包括在标准数据库中的音节划分和音位变体规则根据词语、语素和音素产生音节和变体音位。韵律算法根据所有前述信息产生韵律短语、韵律词语等等。

如附图3所示，标准数据库24因此典型地包括具有放置在树20、22的节点中的信息的表。目前的“串接合成”尤其如此。需要注意的是，由于存储在标准数据库24中的数据会为动态树20、22中的各级节点提供信息，所以标准数据库24实质上也是分级的。而且数据库24中的较高级层的数据可能会参照较低级层的数据(或相反)。例如，关于某种类型的短语的信息可能会向下参照词语序列和它们相应的词汇信息。在这种方式下，通过对同一数据项的多重参照实现了数据共享(和节省存储器)。简单地说，标准数据库24是一个关系数据库。

值得注意的是，上述数据库24是为一般的非限制的合成而设计，具有显著的空间和开发成本问题。因为这些常规的限制，限制了数据库24的大小和复杂度。因此，为了将一个给定的合成器设计到一个特定的应用，人们发现通常需要一个用户数据库。实际上，合成器按照惯例提供装载到合成器中的“用户字典”并完成指定的应用。通常，为了根据标准结果转换合成语音，在输入文本中标记嵌入的语言允许命令。例如，有一种方式包括，在文本中***高和低音调标记(包括数值)来表示在哪里提高语调以及提升多少。

尽管上述用户数据库的常规方式在某些情况下是有用的，然而仍存在一些困难。例如，顺序产生的语音合成数据不能在动态数据结构的所有级层统一地覆盖。而且，常规合成器最大限度处理一级或两级，并且每一级都有不同的机制。进一步，由于不能达到线性文本中所需要的级别间隔，因此，对于文本标记某些级层(例如双音位)基本上是不可访问的。

还有重要的一点需要注意，常规用户数据库方式仅用计算的普通合成序列不能覆盖语音合成数据。例如，设想我们想指定一个新用户提供双音位A-B，那么只有A上所需要的重音水平是2，和某种类型的音位变体出现在所要合成的上下文环境中。需要意识到的是，只有当应用了复杂的音位变体规则集(这样确定音位变体流)，和韵律模块已经选择了去重音的词语，它反过来又影响给定音素的重音水平，之后确定的条件才能得知。在常规方式下，合成前不能事先实际得知这些条件信息。因此实际上不可能自动在每一个应该使用设定双音的地方对输入文本进行标记。简单说来，用户定义的条件不能普遍的基于合成处理的内部状态，并且因此在传统的文本标记处理下受到了严重的限制。

另一个值得关注的是，常规用户数据库并不像动态数据结构那样组织在同一级层周围，因此在合成中对在哪里和对什么修改的控制不灵活。

发明内容

根据本发明的语音合成器定制***提供上述以及其他目的。该定制***具有一个模板管理工具，用于根据来自用户的定制数据和来自文本-语音转换(TTS)合成器复制的动态合成数据产生模板。被复制的动态合成数据按照具有分级的动态数据结构组织。该定制***进一步包括补充合成器标准数据库的用户数据库。该工具将模板组装在用户数据库中，这样模板使得用户数据库可以在动态数据结构的所有级层上统一覆盖顺序产生的合成语音数据。因此工具的使用提供组织、调节和维持用户模板的分级和多维稀疏集合的机制。进一步提供统一覆盖语音合成数据的机制，减少处理开销和提供更加“自然”的用户数据库。

根据本发明进一步提供一种用户数据库。该用户数据库有多个模板，用于覆盖TTS合成器的语音合成数据。语音合成数据按照具有分级的动态数据结构组织。该用户数据库进一步包括组织模板的分级数据结构，这样模板使得用户数据库可以在动态数据结构的所有级层上统一覆盖顺序产生的合成语音数据。

根据本发明的另一方面提供一种定制合成器的方法。该方法包括根据来自用户的定制数据和来自合成器的相关复制动态合成数据产生模板的步骤。合成器的标准数据库补充增加有一个用户数据库。该方法进一步包括将模板组装在用户数据库中，这样模板使得用户数据库可以在动态数据结构的多个级层上统一覆盖顺序产生的合成语音数据。

需要理解的是，前面的概述和下面的详细描述仅仅是本发明的范例，用来提供一个用于理解如权利要求的本发明的实质和特征的概要或框架。附图提供了对本发明进一步的理解，并合并组成说明书的一部分。附图示出了本发明的各个特征和实施例，并和描述一起用于解释本发明的原理和操作。

附图说明

根据详细描述和附图将会更充分地理解本发明，其中：

图1为常规语言树的图示，有助于理解本发明；

图2为常规声学树的图示，有助于理解本发明；

图3为常规文本-语音转换合成器的框图，有助于理解本发明；

图4为根据本发明原理的语音合成器定制***的框图；

图5为根据本发明的一个实施例的模板管理工具的框图；和

图6为根据本发明的一个实施例的用户数据库的图示。

具体实施方式

下面对优选实施例的描述实际上仅仅只是范例，并不是对本发明以及本发明的应用或使用的限制。

现在转到图4，所示为语音合成器定制***10。需要注意的重要的一点是，定制***10可以应用于例如汽车导航、呼叫路由、外语教学和英特网内容合成。在这些应用的每一个应用中，有必要定制一个具有应用环境的先前知识的普通语音合成器12。虽然优选的实施例将参照汽车导航来描述，但本发明的实质和范围却并非如此受限。

通常，定制***10具有一个模板管理工具14，用于根据从用户18得到的定制数据和从文本-语音转换(TTS)合成器12复制的动态合成数据20产生模板。如前所述，复制的动态合成数据20按照具有分级的动态数据结构组织。该定制***10进一步包括补充合成器12的标准数据库24的用户数据库22。下面将要更加详细的论述，该工具10将模板16组装在用户数据库22中，这样模板16使得用户数据库22可以在动态数据结构的所有级层上统一覆盖顺序产生的合成语音数据。

图6示出了每一模板16定义一个模板16用以覆盖语音合成数据的条件/键码，和为了覆盖语音合成数据所要执行的动作/数据。要意识到的是，条件通常可以与语言树结构或者声学树结构的级层对应。所以，模板16a-16c与语言树结构的句子层相对应。可以看到，顶层模板可以用来与句子框架匹配，其中顶层匹配句子框架减少在低层对运行时间处理的需求。例如，模板16a的条件与低层模板16d匹配，因此只需要满足一个就可以同时触发模板16a和16d相应的动作。

进一步可以看到模板16d-16k具有的条件通常与语言树结构的词语层相对应。可以看到，低层模板16d-16g被用来定制基频线，模板16e与顶层模板16a和16b附加匹配，用来减少存储需求。进一步需要意识到的是简单的“非匹配”模板，例如16f和16h可以用于更多的本地定制。

此外，模板16l和16m中展示了一个与声学树结构的音节层对应的条件的范例。重要的一点需要注意的是匹配可以在树结构之间交叉进行。这样，为了进一步节约处理资源，(声学树的)音节层模板16l可以与(语言树的)词语层模板16g匹配。图6因此说明了模板16可以用来定制多种参数。然而，所示的用户数据库22仅仅是典型的数据库的简单图，它为与本发明相关的利益提供有用的说明。

继续参照图4和图5，进一步详细的论述优选的模板管理工具10。可以看到，工具10通常包括模板产生器26、输出界面28和一个或多个输入界面30。模板产生器26根据定制数据处理复制的动态合成数据20，输出界面28将复制的动态合成数据20以图形的方式显示给用户18。输入界面30从用户18得到定制数据。

需要注意的是，这里描述的用于定制TTS合成器12的方法是互动的。在图4中的四个区域转换的箭头可以看作循环处理的一部分，其中模板被产生，并且补充用户数据库被反复地组装，直到得到一个理想的合成输出。需要意识到的是理想的合成输出很大程度上由使用定制***的应用(也就是汽车导航、视觉受损装置等等)所决定。

优选的，输入界面包括命令解释器30a，在键盘输入装置和模板产生器26之间可操作的耦合。图形工具模块30b在鼠标输入装置和模板产生器26之间可操作的耦合。声音处理模块30c在麦克风输入装置和模板产生器26之间可操作的耦合。在一个实施例中，声音处理模块30c包括输入波形子模块32，用于根据从麦克风输入装置得到的数据产生输入波形。音调提取模块34根据输入波形产生音调数据，而共振峰分析子模块36根据输入波形产生共振峰数据。更进一步优选的，音素标识子模块38根据输入波形自动标识音素。

本领域的熟练技术人员现在可以意识到，根据前面的描述，本发明的主要教导可以以多种形式实现。虽然本发明可以与特定的范例结合在一起来描述，但由于在对附图、详述和下面的权利要求进行研究的基础上，其他的修改对于熟练的专业人员是明显的，因此本发明的真正范围不受此限制。

Claims

1、一种语言合成器定制***，包括：

模板管理工具，用于根据从用户得到的定制数据和从文本-语音转换合成器复制的动态合成数据产生模板，被复制的动态合成数据按照具有分级的动态数据结构组织；和

用户数据库，用于补充合成器标准数据库；

该工具将模板组装在用户数据库中，这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的合成语音数据。

2、权利要求1所述的定制***，其中每一模板定义一个模板被用以覆盖语音合成数据的条件，和为了覆盖语音合成数据所要执行的动作。

3、权利要求2所述的定制***，其中条件与语言树结构的级层相对应。

4、权利要求2所述的定制***，其中条件与声学树结构的级层相对应。

5、权利要求1所述的定制***，其中工具包括：

模板产生器，用于根据定制数据处理复制的动态合成数据；

输出界面，用于将复制的动态合成数据以图形的方式显示给用户；和

一个或多个输入界面，用于从用户获得定制数据。

6、权利要求5所述的定制***，其中输入界面包括命令解释器，可操作地连接在键盘输入装置和模板产生器之间。

7、权利要求5所述的定制***，其中输入界面包括图形工具模块，可操作地连接在鼠标输入装置和模板产生器之间。

8、权利要求5所述的定制***，其中输入界面包括声音处理模块，可操作地连接在麦克风输入装置和模板产生器之间。

9、权利要求8所述的定制***，其中声音处理模块包括：

输入波形子模块，用于根据从麦克风输入装置得到的数据产生输入波形；

音调提取子模块，用于根据输入波形产生音调数据；

共振峰分析子模块，用于根据输入波形产生共振峰数据；和

音素标识子模块，用于根据输入波形自动标识音素。

10、一种用户数据库，包括：

多个模板，用于覆盖文本-语音转换合成器的语音合成数据；

所述语言合成数据按照具有分级的动态数据结构组织；和

分级数据结构，对模板进行组织，这样模板使得用户数据库可以在动态数据结构的所有级层上统一地覆盖顺序产生的合成语音数据。

11、权利要求10所述的用户数据库，其中每一模板定义一个模板被用以覆盖语音合成数据的条件，和为了覆盖语音合成数据所要执行的动作。

12、权利要求11所述的用户数据库，其中条件与语言树结构的句子层相对应。

13、权利要求11所述的用户数据库，其中条件与语言树结构的从句层相对应。

14、权利要求11所述的用户数据库，其中条件与语言树结构的短语层相对应。

15、权利要求11所述的用户数据库，其中条件与语言树结构的词语层相对应。

16、权利要求11所述的用户数据库，其中条件与语言树结构的语素层相对应。

17、权利要求11所述的用户数据库，其中条件与语言树结构的音素层相对应。

18、权利要求11所述的用户数据库，其中条件与声学树结构的发音层相对应。

19、权利要求11所述的用户数据库，其中条件与声学树结构的韵律短语层相对应。

20、权利要求11所述的用户数据库，其中条件与声学树结构的韵律词语层相对应。

21、权利要求11所述的用户数据库，其中条件与声学树结构的音节层相对应。

22、权利要求11所述的用户数据库，其中条件与声学树结构的音位变体层相对应。

23、一种用于定制文本-语音转换合成器的方法，该方法包括步骤：

(a)基于从用户得到的定制数据和从合成器得到的复制动态合成数据产生模板；

(b)为合成器的标准数据库补充一个用户数据库；和

(c)将模板组装在用户数据库中，这样模板使得用户数据库可以在动态数据结构的多个级层上统一地覆盖顺序产生的语音合成数据。

24、权利要求23所述的方法，进一步包括反复地重复步骤(a)至(c)，直到得到理想的合成输出。