CN101156196A

CN101156196A - 混合语音合成器、方法和使用

Info

Publication number: CN101156196A
Application number: CNA2006800103980A
Authority: CN
Inventors: 加里·马普; 尼山特·钱达
Original assignee: LESSAC TECHNOLOGIES Inc
Current assignee: LESSAC TECHNOLOGIES Inc
Priority date: 2005-03-28
Filing date: 2006-03-28
Publication date: 2008-04-02
Also published as: EP1872361A1; JP2008545995A; US20080195391A1; WO2006104988A1; EP1872361A4; US8219398B2; WO2006104988B1

Abstract

公开了用于生成接近人的语音的语音合成器和语音合成方法的新颖实施方案，其中语音信号可以由存储在音素数据库中的音素通过级联生成。小波变换与帧间内插可被用来在输出信号中产生相邻音素的平滑词素融合。音素可以具有一种韵律特性或一组韵律特性，替换的韵律可以通过将韵律修改参数应用到来自差别韵律数据库的音素来创建。优选的实施方案可以提供快速、资源经济的语音合成，以所需的韵律风格，例如记者风格或人类兴趣的风格，提供有吸引力的悦耳的或有节律的输出。本发明包括通过参考文本的一个部分的所确定的语义意义由计算机确定将应用于文本的另一个部分的适当韵律，并通过修改数字化的音素而把所确定的韵律应用于文本。这样，韵律化可以有效地自动化。

Description

混合语音合成器、方法和使用

相关申请的交叉引用

本专利申请要求2005年3月28提交的共同所有的美国临时专利申请号60/665,821的权益，该专利申请整体以引用的方式被包含在本文中。

技术领域

本发明涉及新颖的文本到语音合成器、语音合成方法和具体实现语音合成器或方法的产品，包括话音识别***。本发明的方法和***适用于例如在个人计算机和其它计算机化的设备上的计算机实施方案，本发明还包括这样的计算机化的***和方法。

背景技术

理论上描述了三种不同的语音合成器，即，发音的、共振峰的和级联的语音合成器。共振峰和级联语音合成器已被开发用于商业用途。

共振峰语音合成器是早期的、高度数学的语音合成器。共振峰语音合成技术是基于利用与讲话人声道有关的参数，诸如基波频率、声道的长度和直径、空气压力参数等等的声学模型。基于共振峰的语音合成器可能是快速和低成本的，但所生成的声音对于人耳来说听上去不令人满意。它通常听起来不真实并且机械冰冷，或者是单调的。

合成单个单词的发音需要对应于辅音和元音的发音的声音，以使该单词可识别。然而，各个单词具有多种发音的方式，诸如正式或非正式发音。许多字典不单提供对于单词的意义的导引，而且还提供发音的导引。然而，在句子中的每个单词按照字典对于单词的音标注释进行发音导致对于人耳是怪异的无吸引力的单调的语音。

为了解决这个问题，在本发明之前，许多市场上销售的合成器利用级联语音合成方法。在国际音标字母表(IPA)字典中的基本语音单位(例如单音素、双音素和三音素)被从个体的发音中记录，然后被“级联”或链接在一起形成合成的语音。虽然输出的级联语音的质量可能优于共振峰语音的质量，但在许多情形下，由于可能是由在相邻的语音单位之间的不完美合并造成的被称为“杂散信号(glitch)”的问题，听起来的感觉仍旧是不满意的。

级联合成器的其它重大缺点是对于大语音单位数据库和高计算能力的要求。在某些情形下，利用所有单词和有时是记录语音的词组的级联合成可以使得话音标识特征更清晰。无论如何，当收听使用较长的预先记录的单位“合成”的语音的句子和段落时，语音仍旧是韵律很差的。“韵律”可被理解为牵涉到语言的步调、节律和音调方面。它也可以看作为包括正确说出的语言的质量，这些质量将人的语音与通常单调的传统的级联和共振峰机器语音区别开。

在语音合成器中采用的已知的文本归一化器和文本分析器是逐个单词地进行的，在级联合成的情形下，有时是逐个词组进行的。逐个单词的方法，即使带有各个单词重音，很快变为感觉像机器发出的。级联方法虽然具有某些改进的话音质量，但很快变为重复的，并且杂散信号可导致幅度和音调的误对准。

人类话音的自然悦耳可以在语音中表示为韵律，它的单元包括语音的发音节律和音调和响度的改变。传统的共振峰语音合成器不能产生韵律与要发音的文本相关并与收听人的收听原因相关的高质量合成语音。这样的韵律的例子是记者的、有说服力的、辩论的、人类兴趣的韵律等等。

自然语音在音调、节律、幅度和发音速率方面有变化。韵律模式是与周围语境有关的，即与以前的和将来的单词和句子有关。已知的语音合成器没有满意地考虑到这些因素。Addison等人共同拥有的美国专利No.6,865,533和6,847,931公开和要求保护采用有表现力的分析的方法和***。

以上的背景技术的说明可包括对于本发明以前的现有技术来说是未知的、但由本发明提供的观点、发现、理解或公开内容或公开内容的相关性。本发明的某些这样的贡献在这里被具体地指出，而本发明的其它这样的贡献将从它们的上下文明白。仅仅因为文献可能已在这里引述，不允许可能与本发明的领域非常不同的文献的领域类似于本发明的领域。

发明内容

因此，需要一种资源节省的和可以从输入文本生成高质量语音的语音合成器和合成器方法。还需要一种可以提供自然节律和可以容易地生成具有一个或多个韵律的合成语音的语音合成器和合成器方法。

因此，本发明一方面提供用于从文本合成语音的新颖的语音合成器。语音合成器可包括文本分析器，用来分析要被合成的文本，得出可表现为音素的文本元素。合成器还可包括音素数据库，包含对于表现文本元素有用的声音呈现的音素；和语音合成单元，用来组装来自音素数据库的音素和生成组装的音素作为用于信号。所选择的音素可以相应于各个文本元素。希望地，语音合成单元能够连接相邻的音素，以提供连续的语音信号。

语音合成器还可包括韵律分析器，把韵律标记与文本元素相联系，以便在输出的语音中提供所需的韵律。韵律标记表示对于各个文本元素的所需的发音。

为了提高输出的质量，语音合成单元可包括波生成器，用来生成语音信号作为波信号，以及语音合成单元可以实施相邻的音素的波形的平滑词素融合，以便连接相邻的音素。

可以利用音乐变换，导入悦耳性到压缩语音信号，而不丢失固有的悦耳性。

另一方面，本发明提供从文本合成语音的方法，包括分析要被合成为可表现为音素的文本元素，和从包含对于表现文本元素有用的声音呈现的音素的音素数据库中选择相应于各个文本元素的音素。方法包括组装所选择的音素和连接相邻的音素，以提供连续的语音信号。

在按照本发明的语音合成器的一个实施方案的结构中，一旦一个字的分析的矩阵被传送到语音合成器的信号处理单元，该信号就从音素数据库被提取，以及它的韵律可以通过使用差别韵律数据库被改变。所有的语音分量然后被级联，产生合成的语音。

本发明的优选实施方案可以提供快速的、资源有效的语音合成，具有诸如记者的或人感兴趣的、所需的韵律风格的有吸引力的音乐的或韵律的输出。

再一方面，本发明提供从电子呈现的文本合成语音的计算机实施的方法。在这方面，方法包括分析文本以确定语义意义和生成包括用于发声地表示文本的数字化音素的语音信号。方法包括参照文本的另一个部分的确定的语义意义，计算机确定被施加到文本的一部分的适当的韵律，以及通过修改数字化的音素把确定的韵律施加到文本。

本发明的某些实施方案使能生成富于表情的语音合成，其中长的单词序列可以旋律地和节律地发音。这样的实施方案还提供富于表情的语音合成，其中可以预测和控制音调、幅度和音素持续时间。

附图说明

下面参照附图作为例子详细地描述本发明的某些实施方案，作出和使用本发明，以及实行本发明的打算的最好的模式，其中在几个图上相同的标号表示相同的单元，图上：

图1是按照本发明的语音合成器的实施方案的示意图；

图2是在按照本发明的混合语音合成器中有用的音素数据库的实施方案中的音素的图形代表；

图3显示可以在本发明的语音合成器中有用的差别韵律数据库中利用的音素调节器参数的某些例子；

图4示意地显示具有相关的音素的单词和可以在差别韵律数据库中利用的音素调节器参数信息的简化的例子；

图5是在本发明的实践中有用的韵律文本分析方法的流程图；

图6是在本发明的实践中有用的韵律标记方法的流程图；

图7显示在本发明的实践中有用的图形元素到音素的矩阵的一个例子。

图8示意地显示代表可以在本发明的混合语音合成器和方法中利用的语音信号特性的小波变换方法；

图9显示可以在图8所示的小波变换中利用的环绕曲线族；

图10显示通过把图9所示的环绕曲线施加到诸如图8所示的变换那样的倾斜的小波变换而得到的频率环绕倾斜模式；

图11显示通过不同的曲线环绕技术可得到的不同的频率响应的两个例子；

图12显示代表单词“have”的、混合音素信号的波形；

图13是在图12上表示的信号的一部分的更大的尺度的扩展图；以及

图14在本发明的实践中利用的、对于把悦耳性加到语音信号有用的音乐变换的示意图。

具体实施方式

广义地，本发明涉及合成语言或机器语言的改进，使得声音和谐，对于人耳听起来更悦耳和自然。本发明提供用于使得语音合成器充满很大范围的人类语音特征中的一项或多项特征的技术手段，以提供人耳听起来悦耳的高质量输出语音。为此以及为了有助于确保机器讲话输出的质量，本发明的一些实施方案可能利用人类语音输入和体现一个或多个语音专业人员的教导的规则集合。

其原理在提供在实践本发明时有用的音素数据库方面和其它方面是有帮助的、一个有用的语音训练或教练方法在作者Lessac的书，“TheUse and Training of The Human Voice”，Mayfield PublishingCompany，(此后称为“作者Lessac的书”)中描述，其公开内容以引用的方式被包含在本文中。本领域技术人员也可以利用采用不同于Lessac方法的规则或语音训练原理或实践的其它语音训练或教练方法，例如哥伦比亚大学戏剧系的Kristin Linklater的方法。

本发明提供具有独特的信号处理结构的新颖的语音合成器。本发明还提供可以由按照本发明的语音合成器或由其它语音合成器实施的新颖的语音合成器方法。在一个发明性实施方案中，结构利用混合的级联-共振峰语音合成器和音素数据库。音素数据库可包括适当的数目的音素，例如几百个音素，或其它适当的语音声音元素。音素数据库可被利用来通过适当的选择和任选地修改音素而在来自合成器的声音输出中提供各种各样的不同的韵律。韵律语音文本代码或韵律标记可被利用来表示或实施所需的音素修改。关于另外的发明性实施方案，语音合成器方法包括在输出语音中自动选择和提供适当的上下文特定的韵律。

要被讲出的文本包括文本字符序列，表示要被讲出的单词或其它发言。正如技术上已知的，文本字符可包括语音单元的视觉呈现，在本例中是要被合成的语音单元。所利用的文本字符可以是熟知的数字字母符号、在其它语言中利用的字符，诸如古代斯拉夫语、希伯来文、***文、中文普通话、梵文、片假名字符，或其它有用的字符。语音单位可以是单词、音节、双音节或其它小单位，它们可以以文本、它的电子等价物或以其它适当的方式被呈现。

如在这里使用的术语“韵律字素”或在某些情形下简称的“字素(grapheme)”包括文本字符或代表文本字符的符号以及相关的语音代码，该字符或符号和语音代码可以作为一个单位对待。在本发明的一个实施方案中，每个韵律字素或字素与音素数据库中的单个音素唯一地相联系。所述单位代表一个特定的音素。语音代码包含韵律语音文本代码、韵律标记或其它图形表示法，可被利用来表示声音如何对应于要由合成器作为语音声音输出的文本元素。

韵律标记包括有关声音数据的修改的附加信息，用来控制合成的语音的声音。语音代码用作为向量，通过该向量把期望的韵律引入到合成的语音中。同样地，每个声音单位或由韵律字素表示的相应的电子单位在这里被描述为“音素”。因此，韵律指令可被提供在语音代码中，以及要被控制的变量可以以韵律标记或其它图形表示法被表示。

语音合成器.根据本发明，混合语音合成器可包括文本分析器、音素数据库和语音合成单元，语音合成单元根据文本分析器的输出组装或级联从数据库选出的音素，并由组装的音素生成语音信号。希望地但不一定，语音合成器还包括韵律分析器。语音信号可以被存储、发行或通过适当的设备播放而被听到。

合成器可包括计算文本处理部件，它从相应的文本分析器和韵律分析器子部件提供文本分析和韵律分析功能。文本分析器可以识别文本元素，这些文本元素可以单独地表现，例如通过音素数据库中的特定音素成为可听见的。韵律分析器可以把韵律标记与文本元素相联系，以使得文本元素可以在输出的合成语音中用适当的或期望的发音被呈现。这样，在输出的语音信号中可以提供适用于文本以及可能适用于文本的预期使用的所需的韵律。

在本发明的混合的共振峰-级联语音合成器一个实施方案中，在基本音素集合中采用的音素是在尺寸上处于共振峰机器中采用的一般非常小的时间片与在级联语音引擎中一般采用的大得多的语音单位之间的中等大小的语音单位，它可以是整个单音节或多音节单词、词组甚至句子。

语音合成器还可包括由一个或多个音素数据库组成的声音库，从该声音库可以选择表示字素的适当音素。韵律标记或代码可被用来表示对于重音、音调、幅度、持续时间和节律或这些参数的任何期望组合，音素应当如何修改，以用所需的韵律合成文本的发音。语音合成器还可按照韵律标记实施适当的修改，以提供一个或多个替代的韵律。

在另一个实施方案中，本发明提供一个不同的音素数据库，它包括用来改变各个音素的韵律，以使合成说出的文本能够用不同的韵律输出的多个参数。替换地，如果所需的话，可以提供具有不同韵律的类似音素或不同的音素集合的数据库，其中每个音素集合对于提供不同的韵律风格是有用的。

参照图1，所显示的语音合成器的实施方案采用文本分析器10、语音合成单元12和波生成器14，以从输入文本生成韵律语音信号16。本发明的实施方案可以产生具有可识别的语音风格、表现力和可归因于韵律特性的附加意义的韵律语音信号16。

文本分析器10可选地可以采用歧义和词重音模块20，来解决诸如“Dr.Smith”对“Smith Dr.”那样的问题，并提供在一个单词内的正确的发音。附加的韵律文本分析部件，例如模块22，可被用来指定节律、语调和风格。

音素数据库26可以由语音合成单元24访问，并且它又可访问差别韵律数据库26。在音素数据库26中的音素具有用于诸如记者韵律模型28之类的基本韵律模型的参数。其它韵律模型诸如人类兴趣可以从差别韵律数据库26输入。

合成单元12把来自音素数据库26的适当的音素匹配于或对应于在来自文本分析器10的输出中表示的相应的文本元素，然后组装音素并把信号输出到波生成器14。波生成器14利用小波变换或另一个适当的技术以及词素融合来输出韵律语音信号16作为高质量连续的语音波形。本发明的某些有用的实施方案利用音调同步来促进一个音素平滑融合到下一个音素。为此，在相邻的音素具有显著不同的音调的场合下，可以生成一个或多个小波，从一个音素的音调水平和波形过渡到下一个音素的音调水平和波形。

语音合成器可以生成包括字素矩阵的编码信号，该字素矩阵包含多个字素以及归一化的文本、韵律标志或标记、时序信息和其它相关的参数或对于各个字素的以上参数的适当选择。字素矩阵可被交给语音合成器的信号处理部件作为编码音标信号。编码音标信号可以向语音合成器的信号处理部件提供音标输入规范。

视需要，波生成器14可以利用音乐变换(诸如参照图14进一步描述的)来解压缩具有它的固有的悦耳性的语音信号，并生成输出语音信号。例如，可以利用在音乐合成器中采用的音乐变换的适当调配。

信号处理器可以利用编码音标信号来生成语音信号，该语音信号可以由任何适当的音频***或设备例如扬声器或耳机来播放，或可以被存储在适当的媒体上用于以后播放。替换地，语音信号可以通过因特网或其它网络被发送到蜂窝电话或其它适当的设备。

视需要，语音信号可以被生成为数字音频波形，该波形任选地可以是波文件格式。在本发明的另外的新颖方面，编码音标信号到波形的变换可以利用小波变换技术。在另一个新颖的方面，一个音素到另一个音素的平滑连接可以通过词素融合的方法被实施。这些方法在下面进一步描述。

音素数据库.在本发明的实践中有用的音素数据库的一个实施例包括构成音素的多个声音单位中每一个的单韵律的、编码的记录。编码的记录可包括具有基本韵律的基本音素集合。用于记录的单韵律可以是“中性”韵律，例如记者的，或其它所需的韵律，取决于语音合成器应用。音素集合可被组装或构建用于特定的用途，例如提供全部范围的口语、方言或者适用于特定用途的语言子集，例如音频图书、论文、戏剧著作或其它文献、或消费者支持。

希望地，基本音素集合包括数目远大于53的多个音素，53有时被认为是标准美国英语中的音素的数目。在基本集合中音素的数目例如是在从约80到约1000的范围内。本发明的有用的实施方案可以利用数目从约100到约400的范围内的音素，例如从约150到约250个音素。将会看到，音素数据库可包括其它数目的音素，按照它的用途，例如在从约20到约5000的范围内的数目。

适当的附加音素可以按照Lessac***或其它识别的语音训练***的语音训练规则被提供，或用于其它用途。附加的音素的例子是当词组“not now”根据Lessac准备和链接规则进行发音时的“t-n”辅音，它要求“t”准备好但不是完全发出声音。其它适当的音素在作者Lessac的书中被描述，或正如本领域技术人员明白的。

在本发明的一个实施方案中，适用于记者韵律的字素可以直接对应于基本音素数据库音素，并且韵律参数值可以代表缺省值。适当的缺省值例如可以从对于基本韵律的声音语音记录的分析结果中得出或以其它适当的方式得出。缺省持续时间值可以根据基本韵律语音抑扬来定义，语调模式值可以根据前一和下一单词幅度，在只强调单词幅度的情况下，直接由句法分析得出。

下面参照图2更详细地描述在本发明的实践中有用的音素数据库的例子。参照图2，所显示的每个符号表示在音素数据库中的特定的音素。显示了四个示例性符号。符号采用在本申请人的国际PCT公布号WO 2005/088606中公开的表示法。WO 2005/088606的公开内容以引用的方式被包含在本文中。例如，代码“N1”可被用来代表中性元音“u”、“o”、“oo”或“ou”的声音，如在各个字“full”，“wolves”，“good”，“could”或“coupon”中正确的发音。代码“N1”可被用来代表中性双元音“air”、“are”、“ear”或“ere”的声音，如在诸如“fair”，“hairy”，“lair”，“pair”，“wearing”或“where”那样的单词中正确的发音。有用地，音素数据库可以存储用于所需的音素集合的所有音素的编码语音文件。

本发明包括其中音素数据库包括由少量融合音素构成的复合音素的实施方案。融合可以是如这里描述的词素融合，或简单的电子或逻辑链接。在复合音素中的少量的融合音素例如可以是从2到4个，甚至约6个音素。在本发明的某些实施方案中，在音素数据库中的音素都是单音素而不是复合音素。在其它实施方案中，在音素数据库中至少50％的音素是单音素而不是复合音素。

将会看到，语音合成器视需要可以组装具有较大的语音记录的音素，例如单词、词组、句子或较长的讲话段落，取决于应用。可以设想在要合成自由形式或***未知的文本的场合下，至少50％的生成的语音信号将从这里描述的音素被组装。

差别韵律数据库。本发明还提供语音合成器的以下实施方案：其中通过以不同的方式修改话音信号的频谱内容以创建具有不同韵律的语音信号来扩展基本音素集合的利用。差别韵律数据库可包括一个或多个相互不同的韵律模型，它们在被施加到基本音素集合或另一个适当的音素集合时提供新的或替换的韵律。从有限的音素集合提供多个或不同的韵律可以帮助限制语音合成器的计算要求和/或数据库。

音素的多个韵律可以通过修改在音素数据库中的信号而被生成。这种修改可以通过在差别韵律数据库中提供多个适当的音素修改参数而完成，语音合成器可以访问该差别韵律数据库，按需要改变每个音素的韵律。诸如在共振峰合成时用于信号生成的音素修改参数可以适用于这个用途。这些可包括用于修改音调、持续时间和幅度的参数以及任何其它所需的适当的参数。不像在共振峰合成时用于信号生成的参数，在实践本发明的这个方面时利用的韵律修改参数被选择和适配来提供所需的韵律修改。

音素修改参数可以以数学的或其它适当的形式存储在不同的音素数据库，并可被用来区分给定的简单或基本音素和音素的一个或多个韵律版本。

在差别韵律数据库中可以提供足够多组的音素修改参数，以提供所需范围的韵律选项。例如，可以为希望使用合成器来表达的每种韵律风格提供一组不同的音素修改参数。对应于特定韵律的每个组可以具有用于所有基本音素或用于基本音素的一个子集的音素修改参数。在数据库中可以为之提供一组音素修改参数组的韵律风格的一些例子包括对话、人类兴趣、辩论等等，本领域技术人员对此很清楚。可以对于记者韵律包括音素修改参数，如果这不是基本韵律的话。

其它的韵律风格的某些例子包括人类兴趣、劝说、高兴、悲伤、争吵、愤怒、激动、亲密、兴奋、傲慢、安静和温顺。也可以利用其它韵律风格，正如本领域技术人员将知道的或可能知道的。

多种差别韵律数据库或用于应用多种不同韵律的一个差别数据库可以通过由同一个讲话人对于多个不同的替换韵律加上缺省韵律(例如记者)用不同的韵律标记记录相同的句子而被创建。在本发明的一个实施方案中，由于两个到七个额外的韵律被创建，所以创建差别数据库。当然视需要在单个产品内也可以包容更多的韵律。

本发明包括其中通过数学计算确定把数据库中的缺省韵律值变换成替换的韵律值的适当系数的实施方案。在这样的实施方案中，韵律系数可被存储在快速运行时数据库中。这个方法避免必须存储和在计算上操纵复杂的并且急需存储的、代表实际发音的波数据文件，这对于已知的级联数据库可能是必要的。

在本发明的这方面的一个说明性例子中，各种音调、持续时间和幅度的300-800个音素的综合缺省数据库是根据由受训练的Lessac讲话人说出的约10000个句子的记录来创建的。这些音素用这里描述的差别韵律参数来修改，以使根据本发明的语音合成器能够对于还没有“讲话到”***中的未记录的单词进行发音。这样，可以创建5万到10万或更多单词的库，并且把这个库加到只有小的存储占用量的缺省数据库。

利用这样的技术或它们的等同技术，本发明的某些方法使得语音合成器能够被提供在手持式计算设备，诸如，例如iPod(苹果计算机公司注册商标)设备、个人数字助理或MP3播放器。这样的手持式语音合成器设备可以具有大的字典和多种语音能力。新的内容、文件和其它音频出版物加上它们本身的韵律资料可以通过下载由这里描述的字素到音素矩阵提供的加密差别修改数据而得到，字素到音素矩阵的一个例子显示于图7，将在下面进一步描述，避免下载大量的波文件等等。字素到音素矩阵可以被具体实现为简单的资源经济型数据文件或数据记录，从而下载和操纵定义音频内容产品的这样的矩阵的流是资源经济的。

通过有效利用文本到语音引擎的运行时版本，可以提供在诸如个人数字助理那样的手持式个人计算设备上运行的小型产品。这样的引擎和合成器的一些实施例与传统的级联的文本到语音引擎相比预计较小，并且容易在诸如基于微软的PDA那样的手持式计算机上运行。

参照图3，所显示的示例性音素修改符可包括各个重读参数，例如，不同的音素要被读重音的指令。视需要，也可以指定重音的程度(未示出)，例如“轻”、“中等”或“重”。其它可能的参数包括上滑音和下滑音表示上升和下降音调，如图所示。替换地，“全局”参数，诸如“人类兴趣”，可被利用来表示要被加到一部分文本或全部文本的重读参数的风格或模式，正如在WO 2005/088606中进一步描述的。其它的参数也将是本领域技术人员明白的。

如图4所示，说明性单词“have”通过使用诸如在WO 2005/088606中公开的语音代码表示法，而被分析成三个音素“H”，“#6”和“V”。这三个音素，由时间间隔“.”逻辑地间隔开，表示对于单词“have”的、具有中性或基本韵律的，诸如记者的，正确的发音所需要的三个声音分量。韵律修改符参数“stressed(重音)”与音素#6相关。为了简单起见，没有显示可被有用地利用的其它参数修改符参数，例如音调和定时信息。为了合成单词“have”，对应于三个音素的每个音素的信号从音素数据库被获取，#6的韵律按照被存储在不同的音素数据库中的参数被改变到“加重音”。最后，通过以适当的方式把音素/H/，/#6/加重音，和/V/适当地融合成固有的合成发音，例如通过形态音素融合，如在下面描述的，而生成单词的合成讲话的呈现。

文本分析器.文本分析器包括文本归一化器、语义分析器，用来阐述文本的意义或其它有用的特性，以及句法分析器，用来分析句子结构。语义分析器可包括部分语音(“POS”)加标记，可以访问字典和/或辞典数据库，如果所需的话。语义分析器还可包括句子句法分析和逻辑图，如果所需的话，以及部分语音加标记，如果这个功能没有被语义分析器适当地呈现。除了处理即时文本以外，缓存可被利用来扩展由文本分析器理解的文本的范围。

如果所需的话，缓存可包括前向或后向缓存，或前向和后向缓存，以使得可以分析与当前处理的部分相邻的文本的部分以及也可能确定这些相邻的部分的意义或其它字符。这可以是有用的，使能消除当前的文本的意义的歧义，以及这可以有助于确定用于当前的文本的适当的韵律，正如下面进一步描述的

在一个实施方案中，文本归一化器可被用来识别异常单词或单词形式、名称、缩写体等等，以及把它们呈现为要被合成为语音的文本单词，正如在技术上本身上已知的。文本归一化器可以通过使用部分语音(“POS”)标记，消除歧义，例如，“Dr.”是“doctor”还是“drive”，正如技术上也是已知的。

为了准备文本被处理用于韵律标记，每个分析的句子可以被句法分析，并且用要被使用于韵律分配的适当的语义标记呈现。例如，单独地考虑的句子：

“John drove to Cambridge yesterday.”

可作为简单修饰句对待。然而，在多个句子的上下文中，句子可以是对于几个问题的任一个问题的回答。文本分析器可以利用前向缓存，以使能对于是否提问作出决定，如果是的话，什么回答由文本表示。根据这个决定，可以进行选择，对于该音素应当接受哪个重音或其它韵律参数，以便在输出的语音中创建所需的韵律。例如，问题“Whodrove to Cambridge？”将接受在“John”上的韵律重音作为对于问题“who”，的回答，而问题“Where did John go yesterday？”将接受在“Cambridge”上的韵律重音作为对于问题“where”的回答。

韵律分析.

通过利用带有前向缓存加上附加文本分析的新颖的适配的已知的归一化和语义分析技术，本发明可以根据语义分析提供具有韵律词组的句法分析的句子图，以提供与专门识别的韵律有关的文本标记。

已被句法分析和绘制的或标记的句子可被用作已施加基本韵律的一个单元。如果基本韵律是记者的，则相应的输出的合成语音应当对于收听者是对话式中性的。记者输出应当适合于个人不知道收听者的讲话人或以一个讲话人对多个收听者的模式进行讲话的讲话人。它应当是想要清晰地和没有观点地通信的讲话人的韵律。

为了表示所需的韵律，要被合成的文本可以由包括表示对于输出语音的适当的声音要求的标记的字素表示。希望地，要求和相关的标记是与语音训练***相关的，由此，机器合成器可以模拟高质量语音。例如，这些要求可包括音素发音规则、文本元素的音乐播放性、语调模式或节律或韵律，或任何两个或多个以上项目。参考Lessac话音***的特性，了解可被利用于其它语音训练***的不同的特性。标记可以直接相应于在音素数据库中的声音单位。

音素发音规则可包括关于共发音的规则，诸如Lessac直接链接、播放-链接与准备-链接，这些规则被应用于文本。音乐播放性可包括以下指示：辅音或元音可悦耳地播放以及它可以如何作为例如打击乐器，诸如鼓，或拉奏式声乐器，诸如小提琴或圆号被播放，而音调和幅度改变。所需的语调模式可以通过标记出音调和幅度的改变而被表示。节律和韵律可以在对于记者或对话式语音的缺省值被设置在基本韵律中，取决于被选择为基本的或缺省的韵律风格。

音乐“可播放”单元可能需要音调、幅度、韵律、节律、或其它参数的变化。每个参数还具有持续时间，例如在规定的持续时间内每单位时间的音调改变。相应于在音素数据库中的声音单位的每个标志也可以被标记它是否以特定的韵律可播放的，以及如果不是的话，则标记值可被设置为相对于基本韵律数据库中的数值的1的数值，

用特定的韵律正确地发音的文本的声音数据库的分析，例如关于Lessac***发音的或生成的，可被用来得出对于要被合成的韵律的音调、幅度、韵律/节律、和持续时间变量的适当的数值。

对于替换的韵律的参数可以通过使用精确地遵循表示发音如何被讲出的韵律标记的特定的文本的记录的发音的数据库而被确定。用于韵律的音素数据库可被用来得出对于替换的韵律的不同的数据库数值。

按照本发明，如果所需的话，韵律可以动态地，或在进行中，被改变以适合于语音输入。

参照图5，所显示的韵律文本分析方法的实施方案可被用来指令语音合成器产生模拟人的语音韵律的声音。方法从文本归一化步骤30开始，在其中要被合成的文本的词组、句子、段落等等被归一化。归一化可以在自动施加的分析程序过程中通过利用已知的文本分析器、现有的文本分析器的序列、或适配于本发明的用途的定制的文本归一化器而被实施。在归一化文本输出中归一化的某些例子包括：把“Dr”明确为“Doctor”而不是“Drive”；把“2”表示为文本“two”；把“$5”呈现为“five dollars”等等，许多适当的归一化在技术上是已知的。也可以建议其它的。

来自步骤30的归一化文本输出可以在步骤32加上部分语音标记。加上部分语音标记32可包括以本身已知的方式进行句法分析文本的每个句子，成为分级结构，例如，识别主语、动词、子句等等。

在下一个步骤，意义指定步骤36，呈现在加上部分语音标记的文本中的每个单词的通常使用的意义，作为参考。如果所需的话，意义指定36可以利用文本字典的电子版本，任选地，用于同义词、反义词等等的电子词典，和任选地同音异义单词表不同地拼写，但发声是相同的。

在意义指定步骤36后和结合该步骤，前向缓存或后向缓存或二者，可被利用于宾语词组、句子、段落等等的音素上下文识别步骤38。所利用的前向或后向缓存技术例如可以与在自然语言处理中利用的技术相比较，作为当试图从语音识别文本时或当试图校正在文本主体中的误拼写的或丢失的单词时用于改进候选的单词的概率的上下文。缓存可以在上下文单词之前或之后有用地保持例如主语、同义词等等。

这样，可以执行各种有用的分析。例如，可以识别它在何时和在何处适合于使用不同的讲话人的话音。作为简单的陈述句的、孤立地出现的句子可被识别为对于以前的问题的回答。替换地，可以揭示关于以前发起的主语的附加信息。其它的例子也将是已知的。

这样，韵律分析的文本40可被生成为韵律上下文识别步骤38的产品。韵律分析的文本40可被进一步处理，由诸如图6所示的那样的方法提供韵律标记。

参照图6，现在描述可以通过利用计算语言技术被实施的处理指定韵律标记给韵律分析文本40的例子。在这个方法中，对于诸如可播放的辅音、可持续播放的辅音、和用于可播放的元音的语调那样的特性，可以指定标记值。在所描述的序列中可以执行各种步骤，或本领域技术人员将会看到另一个适当的序列。

在初始发音规则指定步骤中，在步骤42，每个句子可被分析得到阵列，从单词和字母的文本序列开始，并把发音规则指定给构成单词的字母。在单词边界处的字母序列然后可被检查，根据有关以前的单词如何影响以下的单词的发音，对于序列中的单词识别发音规则修改，步骤44，反之亦然。

在部分语音识别步骤，在步骤46，在句子中的每个单词的部分语音例如从在部分语音加标记步骤32中加上的标记和如果还不是可得到的，而构建的分级结构句子图被识别。

在语调模式指定步骤中，在步骤48，指定适用于所需的韵律的、音调改变和要加重音的单词的语调模式，创建韵律标记文本50。韵律标记文本50然后可被输出，创建字素到音素矩阵，步骤52，诸如由图7所示的。

现在参照图7所示的字素到音素提交矩阵，具体地，参照第一列，其上提供某些示例性数据，和涉及到在表的第一列中表示的音素

。在下面的行中阐述的音素识别符是有关字素的韵律标记信息，它可包括参数的任何所需的组合，这将是有效的，正如从本公开内容可以看到的。

参照在图7上的第一数据列，从列的顶部开始，符号“

”是标识字素的任意符号，而符号“-1”是标识与字素“

”唯一地有关的音素的另一个任意符号。在符号下面的列中阐述用来描述音素-1和可被改变或修改来调制音素的各种参数。

在以下的行中，显示讲话速率码“c-1”。这可被用来表示讲话的对话速率。扰动的韵律可以对于较快的讲话速率编码，以及引诱的韵律可以对于较慢的讲话速率编码。用于实施它们的其它的适当的讲话速率和编码方案对于本领域技术人员也是明显的。

在列P3和P4下面的下两个数据项表示在任意音调尺度下对于音素-1的发音的初始和结束音调。后面是持续时间20ms和描述音调如何随时间改变的改变分布，再次以任意的尺度，例如向上向下，具有卷曲或顶点。其它有用的分布对于本领域技术人员也是明显的。

最后的四项25、75、140ms和3表示用于对于音调所利用的幅度的类似的参数，描述幅度、持续时间和幅度的分布。

各种适当的数值可以在用于在表的头部表示的每个字素的表的行中表格列出，这里仅仅显示几个。图7的右面的列列出对于“字素”的参数，包括一个暂停，被称为“类型1”暂停。这些参数据可以相信是自说明的。可以规定其它暂停。

将会看到，切换矩阵可包括按照***能力和信息单元或指令数目的任何所需的数目的列和行，希望提供给每个音素。

这样的字素到音素矩阵按照任何所需的韵律或其它要求提供用于改变音素的声音的工具组。在播放音素时的音调、幅度和持续时间可被控制和***控。当结合小波和音乐变换被利用来把字符和浓厚度给予所生成的声音时，提供了有力的、灵活的和有效的、用于语音合成的构建块组。

字素矩阵包括韵律标记，它可包括韵律指令组，表示要被使用的韵律和它们的参数，如果有任何表示在输入中的各个文本元素。参照图7，改变分布是在初始音调或幅度与它们的最终值之间的差值，该改变被表示为每个单位时间的量。音调改变可以近似于卷曲，或另一个所需的改变的分布。基本韵律值可以从这里描述的声音数据库信息得出。

字素矩阵可被切换到语音合成器，步骤54。

为了提供可以由扬声器、耳机或其它音频输出设备造成悦耳的语音，可能希望把这里生成的数字音素话音信号变换成模拟波信号语音输出，希望地，波信号应当免除不连续性，并且应当从一个音素到下一个音素平滑地进行。

传统地，在共振峰合成中使用傅利叶变换方法，用来把数字语音信号变换到模拟域。虽然在实践本发明时可以利用傅利叶变换、Gabor扩展或其它传统的方法，如果所需的话，也希望具有数字-模拟变换方法，对于处理资源提出减小的或中等的要求以及从数字输入提供具有良好的连续性的浓厚的和悦耳的模拟输出。

为此，按照本发明的语音合成器可以利用小波变换方法，它的一个实施方案显示于图8，用来从数字音素输入信号生成模拟波形语音信号。输入信号可包括相应于单词、词组、句子、文本文件或其它文本输入的选择的音素。信号音素可以被修改，在输出语音信号中提供所需的韵律，正如这里描述的。在小波变换方法的说明性实施方案中，输入信号的给定的帧用具有按照采样的小波的可变尺度的小波时间频率片表示。每个小波片具有频率有关的尺度和横向或正交时间有关的尺度。希望地，小波片的每个尺度的幅度由信号样本的各个频率或持续时间被确定。因此，小波片的尺寸和形状可以方便地和有效地表示给定的信号帧的语音特性。

由本发明的某些实施方案提供的好处在于，引入更大的像人的悦耳性或节律到合成的语音。通常，大家知道，音乐信号，特别是人的话音信号，例如，唱歌，需要复杂的时间-频率技术，用于它们的精确的表示。在非限制的假设的情形下，代表的每个单元获取信号的不同的特性，以及可被给予感觉的或客观的意义。

本发明的有用的实施方案可包括扩展小波变换在多个方向上的定义，使得具有任意频率分辨率的基底的设计能够避免用在图9所示的频率环绕外面的极端数值的解决方案。这样的实施方案也可以或替换地包括对于具有谐波和非谐波频率结构的信号中的时间变化的音调特性的调整。本发明的另外的有用的实施方案包括设计音乐变换的方法，提供人的语音和音乐的声音数学模型。

本发明还提供包括小波变换方法的实施方案，它是在语音合成时有好处的，以及也可以有用地应用于音乐信号分析和合成。在这些实施方案中，本发明通过利用频率环绕技术而提供良好的小波变换，正如下面进一步说明的。

参照图8，在图的上部，显示高频波样本或小波10、中频小波12和低频小波14。正如加标签的，其中，再次地，在y轴上画出频率，以及在x轴上画出时间。图8的下部显示相应于各个小波10-14的小波时间-频率片16-20。小波10具有较高的频率和较短的持续时间，以及由作为直立的矩形块的片16表示。小波12具有中等的频率和中等的持续时间，以及由作为方形块的片18表示。小波14具有较低的频率和较长的持续时间，以及由作为水平矩形块的片20表示。

在图8所示的小波变换方法的实施方案中，所需的语音输出信号的频率范围被划分成三个区域，即，高的、中等的和低的频率区域。具有矩形片的时间-频率代表的描述的使用有助于寻址音素，其中较低的频率声音比起较高的频率声音，需要较长的持续时间，以便进行识别。因此，被用来代表较高的频率的矩形块或片可以垂直地扩展，代表具有短的持续时间的较大的数目频率。相反，较低的频率块或片具有扩展的持续时间和包括小数目的频率。中等频率以中间的方式表示。

具有适当的参数的音乐变换可被用来输出频率围绕的信号，提供围绕曲线，诸如图10所显示的那样，其中再次地，在y轴上画出频率，以及在x轴上画出时间。

本发明的另外的实施方案可以通过在几个方向扩展小波变换定义，例如图9上对于单个小波所显示的，提供图10所示的更复杂的片模式而产生具有音乐特性的语音。在图10上，将会看到，一开始，如图8所示，较高的频率时间块垂直地扩展，和较低的频率时间块水平地扩展。这个方法可提供有效地识别在不同的时间单元的所有的或许多频率，以使得能够进行估计什么频率正在该给定的数据单元播放。

在本发明的又一个实施方案中，时间频率片可以从图8所示的实施方案扩展或改进，以提供更好地表示输入信号的特定的单元，例如与音调有关的伪韵律单元的小波变换。如果所需的话，如图11所示的、正交反射镜滤波器可被利用来提供诸如图9所示的那样的频率围绕。可被利用的频率围绕的替换的方法包括使用频率围绕滤波器，这是在使用滤波器库实施小波时所需的。小波变换还可以以其它适当的方式被修正或修改，正如本领域技术人员将会看到的。

图10显示藉助于频率围绕小波进行时间-频率面贴片。诸如图9所示的那样的围绕曲线族被提供来包围如图8所示地配置的具有与频率和时间有关的尺度的矩形小波片的区域。再次地，在y轴上画出频率，以及在x轴上画出时间。具有较长的y轴频率间隔和较短的x轴时间间隔的较高频率片被显示在图的顶部。具有较短的y轴频率间隔和较长的x轴时间间隔的较低的频率片被显示在图的底部。

通过诸如上述的方法进行的小波围绕在允许得出韵律系数，以便把基线语音变换成所需的替换的韵律语音，由此所需的变换可以通过简单的算术操控而得到的方面可以是有帮助的。例如，音调、幅度和持续时间的改变可以通过乘以或除以韵律系数而被完成。

这样，以及如这里描述的其它方面，本发明例如首先提供在级联的语音合成器***中用于控制音调、幅度和持续时间的方法。实施词素融合的音调同步小波变换可以通过零损耗滤波过程完成，它把话音的和非话音的语音特性分开成多个不同的类别，例如5个类别。可以利用或多或少的类别，如果所需的话，例如从约2个到约10个类别。非话音特性可包括不利用声带，例如声门关闭和吸气，的语音声音。

在本发明的一个实施方案中，对于各种话音特性利用约5个类别，以及使用不同的音乐变换，以便包容话音的基本频率，诸如女性高音调、男性高音调，和男性或女性的非正常的低音调。

图11显示可得到频率响应的两个不同的滤波器***，即(a)正交反射镜滤波器和(b)频率围绕的滤波器库。可以有几个不同的方式以软件实施小波变换。图11显示小波变换的滤波器库实施方案。正如可以看到的，如果在信号59中提取适当的参数，如参照图14所描述的，则这可被用来具体地以几种方式设计正交反射镜滤波器。两个不同的这样的设计显示于图11a和b。

本发明包括用于平滑连接音素的音素融合以提供悦耳的和无接缝的复合声音的方法。在通常可被称为“词素融合”的、音素融合过程的一个有用的实施方案中，考虑要被融合的两个或多个音素波形的形态和提供适当的中间的波分量，

在这样的词素融合中，通过关心每个波形的多个特性，代表第一音素的一个波形或形状被平滑地连接或融合，希望不具有，或仅仅具有最小的非连续性。还希望地，最终得到的复合的或链接的音素可包括单词、词组、句子等等，具有固有的整体的声音。本发明的某些实施方案利用重音模式、韵律、或重音模式与韵律指令来生成中间的帧。中间帧可以通过词素融合，利用要被连接的两个音素的结构的知识和关于创建的中间的帧的数目的决定而被创建。词素融合过程可以通过在相邻的音素或帧的特性之间进行内插而创建具有适当的中间的特性的人造波形，提供在音素之间的接缝过渡。

在本发明的一个实施方案中，词素融合可以通过测量在波数据序列的末端处的音调点和在下一个波数据序列的开始端处的音调点，然后应用分形数学创建适当的波形态模式，以适当的音调和幅度连接二者，以减小收听者感觉到发音“假信号”的概率，而以音调同步方式被实施。

本发明包括其中由复合的融合音素代表的单词、局部单词、词组或句子被存储在数据库，以便被检索用于组装成连续的或其它合成的语音的元素的实施方案。复合的音素可被存储在音素数据库、分开的数据库、或其它适当的逻辑位置，正如本领域技术人员将会看到的。

诸如以上描述的那样的使用形态音素融合过程，在语音合成器中级联两个音素，显示于图8和9，例如形成单词“have”。鉴于这个例子和本公开内容，本领域技术人员将能够同样地融合其它音素，如果所需的话。

如图12所示，对于单词“have”的复合的音素信号通过利用参照图3描述的、三个音素H，#6和V的音素变换的词素融合而被创建。相应于三个参数的近似区域由两条垂直分隔线表示。然而，因为融合是逐渐的，在仅仅通过相邻的帧的比较的外貌互相分离开音素时很难识别单个帧。

在图13上提供的图12的一部分的放大图上，可以看到，在矩形内的四个音调周期是中间帧。这些中间帧提供从正好在作为“H”帧的矩形前面的音调周期到正好在作为“#6”帧的矩形后面的音调周期的逐渐的进程。可以看到最高的峰和最深的沟的幅度沿x轴增加。

音调周期可以是周期信号的基波频率的倒数。它的数值对于完美的周期信号是恒定的，但对于伪周期信号，它的数值保持为改变的。例如，图13的伪周期信号具有在矩形内的四个音调周期。

图13所示的两个音素的词素融合的方法的一个有用的实施方案通过使用适当的算法确定适当的数目的中间帧，例如所显示的4帧，和合成地生成这些帧作为从一个音素到下一个音素的进行步骤而实施音素融合。换句话说，形态音素融合可以通过使用相邻的过去的和将来的音调帧构建丢失的音调分段和在它们之间进行内插而被实施。

现在参照图14，所显示的音乐变换的实施方案包括音乐变换模块55，它把输入信号S₁(k)变换成更悦耳的输出信号S₂(k)。音乐变换55可包括逆时间变换56和两个数字滤波器57和58，分别加上谐波H₁(n)和H₂(n)。信号S₂(k)可以是相当非音乐的信号，可包括组装的音素串，正如这里描述的，希望地具有词素融合。音乐变换55的使用可用来加入悦耳性。本发明的实施方案可以产生用于对基本音素进行声学数学建模的方法，把基本音素变换成所需的替换的音素。生成的参数59可被存储在不同的音素数据库10。

将会看到，所利用的数据库，如果所需的话，可包括在共同拥有的专利和申请，例如在Handal等的美国专利号No.6,963,841(申请号No.10/339,370)中描述的数据库的特性。因此，语音合成器或语音合成方法可包括，或可被提供以，访问到从包含以下的数据库的组中选择的两个或多个数据库：包括声音分布、音素字素、和用于按照原来的语言的已知的方言识别正确的替换的单词和单词的发音的文本的、正确的发音方言数据库；按照发音和通信的Lessac或其它识别的***的基于规则的方言发音的数据库；包括用于方言的替换的音素序列的替换的正确的发音方言数据库，其中单词的发音因为单词在单词序列中的位置而被修改；用于按照由语言的原来的讲话人通常出现的发音错误正确地识别单词的替换的发音的音素序列、声音分布、音素字素和文本的发音错误数据库；按照发音和通信的Lessac或其它识别的***的、共同的误发音的Lessac或其它识别的发音错误数据库；各个单词误发音数据库；以及当讲出单词序列时共同的误发音的数据库。数据库可被存储在语音合成***或方法的、或与语音合成***或方法相关的、数据贮存设施部件。

本发明的有用的实施方案包括按要求音频发布的新颖的方法，其中所需的在线信息文本的库或其它集合或表在语音文件中，例如在要在以后播放的WAV文件中，用于实时收听或用于下载音频版本中被提供。

通过允许多个文本的讲话的版本被自动或计算机生成，与人的语音生成相比较，产品的成本保持为低的。这个实施方案还包括用于管理在线过程的软件，其中用户从菜单或其它可得到的文本的表中选择要以音频形式被提供的文本，主机***定位所选择的文本的电子文件，把文本文件传递到语音合成机，接收从语音合成机输出的***生成的语音和把输出提供到用户，作为流或用于下载被提供的一个或多个文件。

有利地，语音机可以是这里描述的新颖的语音机。在在线要求音频发布***或方法中利用本发明的语音合成器的有用的实施方案可得到的某些好处包括：小的文件尺寸使能广大市场可接受性；带有或不带有宽带的快速下载；由于低的存储器要求带来的良好的便携性；输出多个话音、音素和/或语言的能力，任选地在通常的文件中；收听者可以在单个或多个话音、戏剧、记者或其它读出风格之间进行选择；以及在没有很大的音调变化下改变讲话人输出的速度的能力。本发明的另外的有用的实施方案利用需要可兼容的播放器的专用文件结构，使能出版商免除自引复制属性。

替换地，在这样的在线要求音频公布***或方法中，可以利用传统的语音机，如果所需的话。

所公开的本发明可以通过使用各种通用或专用计算机***、芯片、电路板、模块或从许多零售商可得到的其它适当的***或设备而被实施。一个示例性的这样的计算机***包括输入设备，诸如键盘、鼠标或用于接收来自用户的输入的屏幕；显示设备，诸如用于给用户显示信息的屏幕；计算机可读的存储媒体；其上可以装载用于处理的程序指令和数据的动态存储器；和一个或多个处理器，用于执行适当的数据处理操作。存储媒体可包括，例如，用于硬盘、软盘的一个或多个驱动、CD-ROM、磁带或其它存储媒体、或快闪或棒状PROM或RAM存储器等等，用于存储文本、数据、音素、语言，以及对于实践本发明有用的软件或软件工具。计算机***可以是独立的个人计算机、工作站、联网的计算机，或可包括在多个计算***上分布的分布处理，或如所需的那样的另一个适当的安排。在实施本发明的方法时利用的文件和程序可以位于执行处理过程的计算机***上或在远端位置。

对于实施或执行本发明有用的软件可以通过利用市面上可买到的部件、适当的编程语言，例如微软公司的C/C++等等被编写、创建、或被组装。例如，也可以利用Carnegie Mellon大学的FESTIVAL或LINK GRAMAR(注册商标)文本分析器，作为自然语言处理的应用，诸如自动售货亭、自动导引服务等等，如果所需的话。

本发明包括提供自然的人的话音的浓厚度和感染力的实施方案，具有通过处理小的声音元素的有限数据库，例如音素，提供的、通过这里公开的新颖的音素拼接技术而实施的灵活性和有效性，该音素拼接技术可以在进行中被执行而没有很大的性能损失。

本发明的许多实施方案可以产生更自然地发声的，或像人那样的、具有预先选择的或自动确定的音素的合成的语音。结果可以提供有感染力的语音输出和悦耳的收听感受。本发明可以在各种各样的应用中被利用，其中这些质量将是有利的，正如所公开的。某些例子包括音频发布、按需音频发布、包括游戏的手持设备，个人数字助理、蜂窝电话、视频游戏、播客、互动的电子邮件、自动售货亭、个人代理、音频报纸、音频杂志、无线电应用、紧急旅游者救援、和其它紧急救援功能、以及客户服务。

虽然以上描述了本发明的说明性实施方案，但当然应当看到，许多和各种修改方案对于本领域技术人员将是明显的，或随技术发展，它们可以变为明显的。这样的修改打算是在本技术说明书中公开的本发明的精神和范围内。

权利要求书(按照条约第19条的修改)

1.一种用于从文本合成语音的语音合成器，该语音合成器包括：

a)文本分析器，用来分析要被合成的文本，得出可表达为音素的文本元素；

b)音素数据库，包含对于表达文本元素有用的声音呈现的音素；

c)语音合成单元，用来组装来自音素数据库的音素并将组装后的音素生成为语音信号，所述音素被选择为对应于各个文本元素；

其特征在于：文本分析器可以分析文本的句法和意义，其特征还在于：语音合成单元利用字素来代表所述音素，所述字素包括文本字符或代表文本字符的符号，并包括与文本字符相关联的韵律语音文本代码，从而每个字素可以匹配于适合于特定声音上下文的字素的音素等价物。

2.根据权利要求1的语音合成器，其特征在于：文本分析器可以输出用于创建代表合成语音的声音文件的发音规则和规定。

3.根据权利要求1或2的语音合成器，其特征在于：语音文本代码包括从文本分析器识别的、指示每个音素的所需数值的韵律标记，其中所述韵律标记一对一地与每个字素相关联，根据对应于不同文本元素的发音规则和规定来指定要被输出的语音声音的所需声音值。

4.根据权利要求1、2或3的语音合成器，其特征在于：语音合成器创建能够产生所分析文本的自然声音发音的声音文件，以及自然声音发声代表在文本中的一个或多个讲话者并且代表一种或多种韵律。

5.根据权利要求4的语音合成器，其特征在于：所述文本包括适于多个讲话者的文本，并且文本分析器输出产生如权利要求4所述的自然声音发音并且适合于所分析文本的语义意义和讲话人数的多个讲话者规则。

6.根据权利要求1、2、3、4或5的语音合成器，其特征在于：从要被合成的文本得到的指定发音元素每一个都可以通过关于在数据库中的每个音素和关于多个话音的多个韵律值来表示。

7.根据权利要求1、2、3、4、5或6的语音合成器，其特征在于：由文本分析器识别的文本元素每一个都可以通过单个特定的音素被分别表达。

8.根据权利要求1、2、3、4或5的语音合成器，其特征在于：音素数据库包括代表单个基线韵律的音素集合，其中在所述音素集合中的每个音素被存储为可被用来重建音素成为声音单位或创建另一个音素的音乐变换和小波变换的编码数学表示，其中每个声音单位构成现有的或已创建的音素之一，所述音素集合中的音素的数目足以表达所述文本。

9.根据权利要求6的语音合成器，其特征在于：语音合成器包括不同韵律特性的多属性参数存储，以按照文本分析器的要求改变在音素数据库中各个音素的韵律，使得合成的讲话文本能够以不同的韵律输出。

10.根据权利要求1、2、3、4、5、6、7、8或9的语音合成器，其特征在于：在音素数据库中的音素的数目是从约80到约5000个音素。

11.根据权利要求9的语音合成器，其特征在于：多属性参数存储中的音素是从受过训练的讲话者的声音记录中得出的。

12.根据权利要求1、2、3、4、5、6、7、8、9、10或11的语音合成器，包括音乐变换模块，用于映射和变换输出语音中的人类话音的固有的悦耳性。

13.根据权利要求1、2、3、4、5、6、7、8、9、10或11的语音合成器，其特征在于：使用频谱和波数据的词素融合，把相邻音素级联在一起，产生自然发声的语音。

14.根据权利要求13的语音合成器，其特征在于：频谱和波数据的词素融合是通过采用一种算法，任选地利用分形数学的算法得出的。

15.根据权利要求1的语音合成器，其特征在于：语音合成器包括：从输入文本生成韵律语音的波生成器；指定节奏、语调和风格的可选的附加韵律文本分析部件以及可选的歧义和词重音模块，其中音素数据库可以由语音合成单元访问，并且可访问差别韵律数据库26，在音素数据库中的音素具有用于基本韵律模型的参数。

16.根据权利要求1的语音合成器，其特征在于：语音合成器还包括音乐变换模块，用于把包括非音乐的音素串的输入信号变换成音乐输出信号，该音乐变换模块包括逆时间变换和加上谐波的一个或多个数字滤波器。

17.根据权利要求1、2、3、4或5的语音合成器，其特征在于：文本分析器可以实施其中要被合成的文本被归一化的文本归一化步骤、部分语音加标记步骤、句法分析步骤、意义指定步骤以及生成经韵律分析的文本的韵律上下文识别步骤。

18.根据权利要求1、2、3、4、5或17的语音合成器，其特征在于：文本分析器可以实施处理以通过韵律分析每个文本句子成为阵列而指定韵律标记，以单词和字母的文本序列开始，指定发音规则给构成单词的字母，检查跨越单词边界的字母序列以识别发音规则修改，识别在句子中每个单词的部分语音，指定语调模式，创建经韵律标记的文本并输出经韵律标记的文本，以创建字素到音素矩阵。

19.根据权利要求3的语音合成器，其特征在于：所述韵律标记表示每个音素对于音调、持续时间和幅度的所需值。

20.一种按需音频发布***，其特征在于：包括根据权利要求1、2、3、4、5、6、7、8、9、10或11的语音合成器，用以接受所生成的字素并根据存储的系数变换所述字素，以便直接由分析后的输出生成语音信号。

21.根据权利要求19的按需音频发布***，其特征在于：产生通过客户-服务器网络、因特网或手持式设备可访问的语音。

在条款19(1)下的声明

2006年9月1日邮寄的国际检索报告引述据信与申请人的权利要求1-5、7-10、13-20、22和23有关的US 2004/0030555(van Santen)。另外，US 6,810,378(Kochanksi等)据信与权利要求6、11和21有关，以及US2004/0162719(Bowyer)与权利要求12有关。

US 2004/0030555利用音素表和“表示音节重音和重读水平的韵律标记”(段落64)。在US 2004/0030555中描述的韵律标记是方言类型。方言曲线对应于拥有方言类型的方言组，并且被定义为音节的序列。

相反，本专利申请的修改的权利要求1涉及包括文本分析器的语音合成器，该文本分析器能够分析文本的句法和意义，这似乎是US2004/0030555既没有公开也没有给出启示的。而且修改的权利要求1要求使用字素，字素包括文本字符或代表文本字符的符号以及与文本字符相关联的韵律语音文本代码。这些特性据信没有由US 6,810,378或US 2004/0162719给出启示。

其余权利要求2-20现在从属于权利要求1，因此同样地非常不同于参考文献。而且，参考文献似乎没有公开或建议由权利要求2-21附加的新颖特性，例如：音素特有的韵律标记(权利要求3、6和7)；一个或多个讲话者在一种或多种韵律下的自然声音发声(权利要求4和5)；使用音乐变换和小波变换，创建声音单位(权利要求8)；使用包括从80到5000个音素的音素数据库(权利要求10)；使用频谱和波数据的词素融合，级联相邻的音素，以产生自然声音的语音(权利要求13)；和指示每个音素对于音调、持续时间和幅度的所需值的韵律标记(权利要求19)。

Claims

其中，语音合成单元可连接相邻的音素，以提供连续的语音信号。

2.根据权利要求1的语音合成器，还包括

韵律分析器，把韵律标记与文本元素相关联，以便在输出的语音中提供所需的韵律。

3.根据权利要求2的语音合成器，其中韵律标记指示各个文本元素的所需发音。

4.根据权利要求1、2或3的语音合成器，其中由文本分析器识别的文本元素每一个都可以由音素数据库中的单个特定音素单独地表达。

5.根据权利要求1、2、3或4的语音合成器，其中音素数据库包括具有声音单位的单韵律的编码记录的基本韵律的基本音素集合，每个声音单位构成所述音素之一，在所述音素集合中的音素的数目足以表达所述文本。

6.根据权利要求5的语音合成器，其中语音合成器包括差别韵律数据库，它包括改变音素数据库中的各个音素的韵律的多个参数，以使合成的讲话文本能够以不同的韵律输出。

7.根据权利要求5的语音合成器，其中在音素数据库中的音素的数目是从约80到约1000个音素。

8.根据权利要求5的语音合成器，其中在音素数据库中的音素是根据用语音训练方法训练的讲话人的声音记录而生成的。

9.根据权利要求1、2、3或4的语音合成器，其中语音合成单元包括波生成器，用来将语音信号生成为波信号，并且语音合成单元可以实施相邻音素的波形的平滑词素融合，以便连接相邻的音素。

10.根据权利要求9的语音合成器，其中语音信号包括帧，并且其中词素融合是在各个相邻音素的相邻帧之间进行的，并且包括通过在相邻帧的波形特性之间的内插生成至少一个中间帧。

11.根据权利要求1、2、3或4的语音合成器，包括音乐变换模块，把悦耳性添加到语音信号中。

12.一种音频发布***，包括要被发布的文本；用于生成表达要被发布的文本的语音信号的、根据权利要求1、2、3、4或5所述的语音合成器；和可听地输出语音信号的音频输出设备。

13.一种从文本合成语音的方法，包括：

a)分析要被合成的文本，得到可表达为音素的文本元素；

b)从包含对于表达文本元素有用的声音呈现的音素的音素数据库中选择对应于各个文本元素的音素；以及

c)组装所选择的音素并连接相邻的音素，以产生连续的语音信号。

14.根据权利要求13的方法，包括把韵律标记与文本元素相关联，以便在输出的语音中提供所需的韵律，其中韵律标记表示各个文本元素所需的发音。

15.根据权利要求14的方法，其中由文本分析器识别的文本元素每一个都可以由音素数据库中的单个特定的音素单独地表达。

16.根据权利要求13或14的方法，其中其中音素数据库包括具有声音单位的单韵律的编码记录的基本韵律的基本音素集合，每个声音单位构成所述音素之一，在所述音素集合中的音素的数目足以表达所述文本。

17.根据权利要求13、14、15或16的方法，包括改变音素数据库中的各个音素的韵律的多个参数，以使合成的讲话文本能够利用存储在差别韵律数据库中的韵律修改参数以不同的韵律输出。

18.根据权利要求13、14、15、16或17的方法，其中在音素数据库中的音素的数目是从约80到约1000个音素。

19.根据权利要求13、14、15、16或17的方法，其中语音合成单元包括波生成器，用来将语音信号生成为波信号，并且语音合成单元可以实施相邻音素的波形的平滑词素融合，以便连接相邻的音素。

20.根据权利要求18的方法，包括通过在相邻帧的波形特性之间的内插生成至少一个中间帧，从而实施在各个相邻音素的相邻帧之间的词素融合。

21.根据权利要求13、14、15、16或17的方法，包括音乐变换，把悦耳性添加到语音信号。

22.一种从电子呈现的文本合成语音的计算机实施的方法，该方法包括：

a)分析文本以确定语义意义；

b)生成包括用于可听地表达文本的数字化音素的语音信号；

c)参照文本的一个部分的所确定的语义意义，由计算机确定被应用于文本的另一部分的适当韵律；以及

d)通过修改数字化的音素而把所确定的韵律应用于所述文本。

23.一种从电子呈现的文本合成语音的计算机实施的方法，方法包括：

b)通过组装用于可听地表达文本的数字化音素串而生成语音信号；以及

c)利用数学参数来指定每个音素的音调、持续时间和幅度。