CN1604077B

CN1604077B - 对发音波形语料库的改进方法

Info

Publication number: CN1604077B
Application number: CN031347959A
Authority: CN
Inventors: 祖漪清; 黄建成
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2012-08-08
Anticipated expiration: 2023-09-29
Also published as: WO2005034084A1; KR100759729B1; EP1668630A4; KR20060056406A; CN1604077A; EP1668630B1; EP1668630A1

Abstract

本发明描述了一种用于提供词的波形表示的方法(200)。该方法(200)包括提供(220)代表短语的记录和与这些记录(300)相应的采样的和数字化的发音波形，这些记录(300)具有标记的自然短语边界(310)。方法(200)还对相应于记录中的相同词的波形部分进行分组(230)，以便为具有相似韵律特征的相同词提供波形群，当确定了相同词相对于自然短语边界(310)的位置时，便进行分组。然后处理步骤(240)对相同词的每组波形进行处理，以便为其提供代表性的发音波形。

Description

对发音波形语料库的改进方法

发明领域

本发明一般涉及文本-语音(TTS)的合成。本发明特别适用于，但并限于，应用一个改进的发音波形语料库来确定一个文本段的适当的合成发音。

背景技术

文本-语音(TTS)转换，经常称为连接的文本-语音合成，允许电子设备接收一个输入文本串并提供一个合成语音形式的该串的转换的表达形式。然而，可能被要求合成来自非确定数量的已接收文本串的语音的设备很难提供高质量逼真的合成语言。这是因为，要合成的每个词或者音节(对于汉字或者类似的字符来说)的发音是依赖于上下文和位置的。例如，一个词在句(输入的文本串)尾的发音可能被拉长或者延长。如果同一个词出现在需要强调的句子中间，它的发音甚至会变得更长。

在大多数语言中，一个词的发音依赖于包括音程(音调)、音量(能量或者振幅)和持续时间的声音韵律参数。一个词的韵律参数值依赖于在短语中的词位置。一种用于识别的TTS方法用语料库中充分长的发音来进行字符串匹配。然而，这种方法的计算量非常大，它需要大多数应用程序无法接受的大语料库，并且不能保证在语料库中找到一个合适的匹配发音。

另一种方法采用一个相对较小的语料库和类似韵律参数的声音单元(音素)表示的分组。这种方法在计算上效率较高，但是并不适用于处理由于短语中词位置的变化而引起的韵律变化。

在本说明书包括权利要求中，术语“包括”、“包括”或类似术语都是指非排他性的包括，这样，包括一些元件的一种方法或者设备并不只包括那些已列出的元件，还可以包括其他没有列出的元件。

发明概述

根据本发明的一个方面，提供了一种用于提供词的波形表示的方法，该方法包括：

提供多个表示短语的记录和这些记录的相应采样的和数字化的发音波形，这些记录具有标记的自然短语边界；

对相应于文本串中相同词的波形部分进行分组，以便为具有类似韵律特征的相同词提供波形群，当确定了相同词在记录中相对于自然短语边界的位置，就会执行分组；以及

对于相同词，处理每个波形群，以便能够提供其代表性的发音波形。

相对于自然短语边界的位置，最好被归类于至少五种位置之一，这样相同词便有了有五种潜在分组。

第一个位置位于记录的开始。

第二个位置最好位于记录的结尾。

第三个位置可以位于记录的开始和结尾之间的标记自然短语边界的紧前面并与其临近。

第四个位置可以位于记录的开始和结尾之间的标记自然短语边界的最前端并与其临近。

第五个位置可以是在记录中除了第一、第二、第三或者第四个位置之外的任意位置。

处理的进一步特征最好还在于确定相同词的波形的平均值，以便为其提供一个有代表性的发音波形。

一种用于文本-语音(TTS)合成的电子设备包括：

一个处理器；

一个与处理器相连的合成器；

一个与处理器相连的存储器模块，用于提供文本串；以及

一个与处理器相连的波形发音语料库；该语料库包括相同词的分组的代表性发音波形，这些相同词是位于文本串中相对于自然短语边界的位置。

附图说明

为了更好的理解本发明并且将其付诸实践，下面参照附图对优选非限制性实施例进行说明，其中：

图1是与本发明一同使用的电子设备的示意性框图；

图2是方法200，用于为一个将要存储在图1中的发音语料库中的词提供一个波形的语音；以及

图3A至3C示意性的给出了识别自然短语边界的文本串和标记。

优选实施例详细说明

参见图1，图中以无线电话的形式示意性的给出了一种电子设备100，该设备包括一个通过总线103与用户接口104相连的设备处理器102，用户接口通常是一个触摸屏或者可以是一个显示屏和小键盘。电子设备100还具有一个发音语料库106、一个语音合成器110、非易失性存储器120、只读存储器118和射频通信模块116，它们都通过总线103与处理器102相连。语音合成器110具有一个输出，连接到并驱动扬声器112。语料库106包括词或者音素的表示和相关的采样、数字化和处理过的发音波形PUW。换句话说，正如下面所描述的，非易失性存储器120(存储器模块)提供用于文本-语音(TTS)合成(该文本可以通过模块116接收或者用其他的方式得到)的文本串。波形发音语料库还包括位于记录中的多组相同词的代表性发音波形，这些发音波形代表短语和相应的采样的和数字的化发音波形，并确定下面描述的相对于自然短语边界的位置。

本领域技术人员显然明白，射频通信单元116通常是一个具有共用天线的组合接收器和发送器。射频通信单元116具有一个通过射频放大器与天线连接的发送接收器。发送接收器还与一个连接通信单元116和处理器102的组合调制/解调器相连。在本实施例中，非易失性存储器120(存储器模块)还存储了一个用户可编程电话簿数据库Db，只读存储器118存储设备处理器102的操作码(OC)。

参见图2和图3A至3C，图中示意性的给出了一种用于为一个词提供一个波形表示的方法，在开始步骤210之后，方法200包括一个步骤220，提供多个代表短语的文本串和与这些文本串相应的采样的和数字化的发音波形，这些文本串具有标记的自然短语边界310。这些自然短语边界是手工***语音波形的记录当中去的，这些记录是短语或者句子。对于本领域技术人员来说，显然，这些采样的和数字化的发音波形通常是以特征向量的形式出现的。

方法200然后执行步骤230，对相应于记录中的相同词的波形部分进行分组，以为具有相似韵律特征的相同词提供群波形，当相同词在记录中被定位于相对于自然短语边界310的位置LS(？)时，便进行分组。例如，图3A中的记录300“The cat sat on the mat”中有三个用标记“”表示的自然短语边界310；图3B中的记录300“The cat sat on the matin the house”中有四个自然短语边界，图3C中的记录300“The dogsat on the mat next to the cat”中也有四个自然短语边界。在分组步骤230期间，词在记录中相对于自然语音边界310的位置LS被归类于五种位置中的一种，这样就有五种相同词的潜在的分组。第一个(1^st)位置位于文本串的开始。这样，在图3A至3C中的三个记录例子中，有一个位于第一个(1^st)位置的相同词“The”。在其他的记录可以找到其它相同的词，并且在分组步骤230期间，词“the”位于第一个(1^st)位置所有的情况词被归类到一起。

第二个(2^nd)位置位于记录的结尾。在图3A至3C中的三个记录例子中没有相同词(mat、house、cat)，因此，这些词在分组步骤230期间并不被归类。然而，可能在其他的记录中找到位于第二位(2^nd)的相同词。

第三个(3^rd)位置在记录的开始和结尾之间，位于标记自然短语边界310的紧前面并与其临近。在图3A至3C中的三个记录例子中有两个位于第三(3^rd)位置的相同词“cat”和“mat”。在其他的记录可以找到其它相同的词，并且在分组步骤230期间，词“cat”位于第三个(3^rd)位置的所有的情况词被归类到一起。这些同样也适用于词“mat”(或者dog)。

第四个(4^th)位置是位于记录的开始和结尾之间的标记自然短语边界310的最前端并与其临近。在图3A至3C中的三个记录例子中有一个位于第四(4^th)位置的相同词“sat”。在其他的记录中可以找到其它相同的词，在分组步骤230期间，词“sat”位于第四个(4^th)位置的所有情况被归类到一起。这些同样也适用于词“in”和“near”。

第五个位置可以是在记录中除了第一、第二、第三或者第四个位置之外的任意位置。在图3A至3C中的三个记录例子中有位于第五(5^th)位置的相同词“on”、“the”。在其他的记录中可以找到其它相同的词，在分组步骤230期间，词“on”位于第五个(5^th)位置的所有情况被归类到一起，正如对相同词“the”所举例的那样。这些同样也适用于词“to”。

在步骤230之后，处理步骤240对相同词的每组波形进行处理，以为其提供代表性的发音波形。特别是，处理步骤240最好确定相应于相同词的波形的平均值，以便为其提供一个代表性的发音波形。将每个分组中的特征向量的每个元素相加，然后除以特征向量的数量，即可以计算出平均值。例如，如果有100例识别出的“the”位于文本串的第一个(1^st)位置，那么这100个中的每一个例子中的特征向量的每个相应的元素都要相加，然后将结果除以100，以便得到每个特征向量元素的平均值。于是，在处理采样的数字化波形SDW之后，在存储步骤250，位于发音的第一(1^st)位的词“the”的分组的表示被存储在发音语料库106中。该方法在完成每个词所有的分组之后结束。

本发明允许存储代表一个相关词的分组的平均采样的数字化波形SDW。平均采样的数字化波形SDW本质上模仿词的声学韵律特征，其中包括音程(音调)、音量(能量或者振幅)和持续时间的声学韵律特征参数依赖于他们在句子或者短语中相对于自然短语边界的位置。

本详细说明只提供了一个优选范例实施例，但并不打算限制本发明的范围、应用、或者配置。相反，该优选范例实施例的详细说明给本领域技术人员提供了可以用于实现本发明优选范例实施例的描述。应该明白，在不背离所附权利要求中列出的本发明的精神和范围的前提下，可以对本发明中要素的功能和配置进行不同的修改。

Claims

1.一种使用电子设备提供词的波形表示的方法，该电子设备包括：

处理器(102)；

存储器(120)；

发音语料库(106)；

所述方法包括：

由所述存储器(120)提供多个表示短语的记录，并由所述发音语料库(106)提供这些记录的相应采样的和数字化的发音波形，这些记录具有标记的自然短语边界；

将与记录中相同词对应的波形部分进行分组，以便为具有类似韵律特征的相同词提供波形群，当确定了相同词在记录中相对于自然短语边界的位置时，执行分组；

用所述处理器对相同词处理每个波形群，以便能够提供一个关于它的代表性的发音波形；以及

将所述代表性发音波形存储在所述电子设备的存储器中。

2.根据权利要求1的方法，其中相对于自然短语边界的位置被归类于至少五种位置之一，这样相同词便有五种潜在分组。

3.根据权利要求2的方法，其中第一个位置位于记录的开始。

4.根据权利要求2的方法，其中第二个位置位于记录的结尾。

5.根据权利要求2的方法，其中第三个位置位于记录的开始和结尾之间的标记的自然短语边界的紧前面并与其临近。

6.根据权利要求2的方法，其中第四个位置位于记录的开始和结尾之间的标记的自然短语边界的最前端并与其临近。

7.根据权利要求2的方法，其中第五个位置在记录中除了第一、第二、第三或第四个位置之外的任意位置。

8.根据权利要求1的方法，其中处理的特征还在于确定相同词的波形的平均值，以便为其提供一个有代表性的发音波形。