CN1308908C

CN1308908C - 用于文字到语音合成的方法

Info

Publication number: CN1308908C
Application number: CNB031327095A
Authority: CN
Inventors: 陈桂林; 黄建成
Original assignee: Motorola Inc
Current assignee: Nuance Communications Inc
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2007-04-04
Anticipated expiration: 2023-09-29
Also published as: RU2006114705A; KR20060056404A; WO2005034083A1; CN1604184A; EP1668629A4; DE602004019949D1; EP1668629B1; RU2320026C2; KR100769032B1; EP1668629A1

Abstract

本发明公开了一种用于文字到语音合成的方法(200)，该方法(200)包括接收(220)文本字符串，并从中选择至少一个单词。然后执行的步骤为将单词分解(240)为子单词，子单词形成子单词序列，至少一个子单词包含至少两个文字。然后执行的识别步骤(250)，作用是为子单词识别音素，步骤(260)将音素连贯起来形成音素序列。然后对音素序列执行语音合成(280)。

Description

用于文字到语音合成的方法

技术领域

本发明通常涉及到文本到语音(TTS)的合成。对于用于合成字段的发音的文字到声音的转换，本发明尤为有用。

背景技术

通常，文本到语音(TTS)的转换是指连贯的文本到语音的合成，它使电子装置能够接收输入的文本字符串，并将字符串变换，表示为合成语音的形式。然而，需要该装置能够对接收到的数目不确定的文本字符串进行语音合成，这将带来一个难题，即提供可理解的高质量合成语音。在从文字到声音的变换中存在的一个难题是，根据其它相邻的文字及文字在需要合成的字段中位置，相同的文字或文字组合可能具有不同的声音和不同的重音/强调音。

在本说明书(包括权利要求)中，用术语“包含”、“包括”或类似的术语表示非排他性的结论，因此，包含一系列单元的方法或装置中并不仅仅包括那些单元，还可能包括其它为列出的单元。

发明内容

根据本发明的一个方面，提供了一种用于文字到语音合成的方法，该方法包括：

接收文本字符串，并从中选择至少一个单词；

将单词分解为子单词，子单词形成子单词序列，子单词中有至少一个子单词包括至少两个文字(1etter)；

识别子单词的音素；

将音素连贯起来形成音素序列；和

对音素序列执行语音合成，

其中，通过对可能包括所述单词的子单词进行分析，确定子单词序列。

每一个可能的子单词最好带有关联的预定权重。

适当地，选择能够形成选定单词的具有最大合成权重的子单词，以产生子单词序列。根据对直接非循环图(Direct Acyclic Graph)的分析结果，确定适宜的子单词序列。

适当地，使用音素标识符表识别音素，音素标识符表中包含对应于至少一个上述子单词的音素。

标识符表中最好还包括位置相关指示器，用来表示单词中子单词的位置相关性。

音素权重还可能与相应的位置相关指示器关联。

附图说明

为了使本发明更容易理解并付诸于实际，将用根据附图示意的优选实施例进行参考，其中：

图1为根据本发明的电子装置的示意框图；

图2为表示用于文本到语音合成的方法的流程图；

图3示意了直接非循环图(DAG)；

图4为映射表的一部分，映射表将符号映射至语音；

图5为音素标识符表的一部分；和

图6为元音对表的一部分。

具体实施方式

参见图1，示意了以无线电话的形式存在的电子装置100，其包括装置处理器102，其可操作地通过总线103耦合至用户界面104，典型的用户界面104为触摸屏或者是显示屏及小键盘。电子装置100中还有语言语料库106、语音合成器110、非易失存储器120、只读存储器118及无线通信模块116，它们都可操作地通过总线103与处理器102耦合。语音合成器110上带有输出端，被耦合以驱动扬声器112。语言语料库116中包括表示单词或音素的信息，还包括有关的经采样、数字化并处理后的通话波形PUW。换句话说，如下所述，使用非易失存储器120(存储器模块)进行文本到语音(TTS)的合成(文本由模块116或其它装置接收)。波形语言语料库中还包括经采样及数字化的通话波形，其形式为音素及韵律特征的加重/加强。

正如本领域内的技术人员将明了的，典型地，射频通信单元116为带有公共天线的组合接收机与发射机。射频通信单元116中带有通过射频放大器耦合至天线的收发器。收发器还与组合的调制器/解调器耦合，组合调制器/解调器将通信单元116耦合至处理器102。在本实施例中，非易失存储器112(存储器模块)还存储用户可编程的电话本数据库Db，只读存储器118中还为装置处理器102存储操作代码(OC)。

参见图2，示意了用于文本到语音合成的方法200。在初始步骤210后，执行从存储器120接收文本字符串TS的步骤220。文本字符串TS是由模块116或其它方式接收到的文本消息。步骤230的作用是从文本字符串TS中选择至少一个单词，分解步骤240的作用是将单词分解为子单词，子单词形成子单词序列，所述子单词中至少一个包括至少两个文字。识别步骤250的作用是为子单词识别音素。连贯步骤260的作用是将音素连贯起来形成音素序列。通过对可能构成单词的子单词进行分析，确定相应的子单词序列。例如，暂时参见图3中的直接非循环图(DAG)，如果选定的单词为“mention”，则用能够构成选定单词“mention”的全部可能的子单词形成了直接非循环图DAG。为每个子字单词给出预定义的权重，例如，所示的子单词“ment”、“men”及“tion”分别具有权重88、86和204。因此，连贯步骤260贯穿了DAG，并选择形成所选定单词的、具有最大合成(加和)权重的子单词。在单词为“mention”的情况下，将选择子单词“men”及“tion”。

在识别音素的步骤250中用到存储于存储器120中的两个表，其中如图4所示的一个表为映射表MT，将符号映射为音素。如图所示，音素ae用符号@标志，而音素th用符号D标志。另外一个表是音素标识符表PIT，图5示意了它的一部分。音素标识符表PIT中包含子单词域；音素权重域；位置相关域(一个或多个)或指示器；音素标识符域(一个或多个)。例如，在图5中，第一行为aa 120 A_C，其中aa为子单词；120为音素权重，字母A为位置相关，C为对应与子单词aa的音素指示器。位置相关被标记为：A表示全部位置的相关；I表示子单词在单词前端的相关；M表示子单词在单词中间的相关；F表示子单词在单词末端的相关。因此，使用音素标识符表PIT并根据子单词在单同中的位置，识别音素的步骤250产生作用。

音素权重及预定的DAC权重WT是从图5中获取的相同权重。确定这些权重后，如果选择发生次数作为权重，则一个子字符串将具有比字符串自身更大的权重。因此，如果选择产生的最大权重形成字段，则通常具有短词素特征的字符串是更可取的。例如，单词seeing将被分解为s|ee|in|g而不是s|ee|ing。但是总体而言，长字符串及音素序列之间的关系更可信。为了确保具有长词素特征的字符串具有更高的优先级，考虑下面的方面：

-词缀(affix)如果一个短字符串为长字符串的前缀或后缀，将它的发生次数(occuring time)加在长字符串上；但是不考虑其它子字符串。

-多义(ambiguity)在某些情况下，一个具有词素特征的字符串可以对应多个音素字符串；例如，en的发音可以是ehn及axn。为了降低不确定性，使用字符串位置，例如字头、字中及字尾。即使在这种情况下，一个具有词素特征的字符串可以对应多于一个音素字符串。为了解决这个问题，选择具有最大发生次数的音素字符串，并用下述公式计算比率r：

r = \frac{\max {N_{uk}}}{Σ N_{uk}}

其中

u为字符串索引，而k为位置索引。如果r＜a(a为阈值，a＝0.7)，则排除这个具有词素特征的字符串。例如，字尾的en的发音可以是ehn及axn，如果总次数(total time)为1000，如果与axn对应的次数为800(当然，这是最大次数)，r＝0.8。因此，可以将字尾en加到列表中。

-最小发生次数。还可以将最小发生次数min(min＝9)设置为阈值。将发生次数少于这个阈值的字符串丢弃。

在这些约束下，可以以下面的方式为分配每个字符串权重W_s，W_s＝101nN_s，N_s为可调节的发生次数。

此后，方法200执行步骤265，作用是在音素上分配表示元音的重音或强调音。这个步骤265从先前的步骤250识别出的相应的识别音素中识别出元音。实际上，这个步骤265在存储于存储器120中的元音对表中搜索相对加强/减弱的音。图6中示意了这个元音对表的一部分。例如，考虑单词中能够被识别为音素的3个元音，这些元音被识别为符号(从映射表MT中获取)’ax；aa及ae。然后分析元音对表，当’ax发生在aa之前时，则指示a的重音权重为368，当aa发生在’ax之前时，则重音权重为354。因此，通过为’ax；aa及ae分析元音对表，可以得到如下分析结果：符号ae指示的元音具有第一位(最大)的重音；符号’ax指示的元音具有第二位的重音；符号aa指示的元音不具有重音。实际上，通过使用训练词典来确定重音权重。这个词典的每个输入部具有单词的格式，以及它所对应的发音，包括重音、音节分界以及字母到语音的分配。根据这个词典，可以通过统计分析确定重音。在这点上，重音反映了元音之间的强/弱关系。为了产生需要的数据，需要提前对词典的全部输入进行统计分析。特别地，在单词的范围内，如果元音v_i为加重，v_j未加重，则为对(v_i，v_j)分配一点，为对(v_j，v_i)分配一点零点。如果两个都未加重，则点都是零。

然后执行测试步骤270，判断在文本字符串TS中是否还有其它多个单同需要处理。如果是，则方法跳回至步骤230，否则执行步骤280，对语音序列执行语音识别。由合成器110执行的语音识别对每个单词的语音序列产生作用。然后，方法200终止于终止步骤290。

在执行语音合成步骤280的过程中，还用适当的重音加强使用元音的重音(适当的第一、第二或无重音)，从而得到改善的合成语音质量。

本发明的优点是，根据其它相邻字符及在合成字段中的位置，改善或至少减轻了声音及元音的加重/加强。

详细说明中仅提供了优选实施例，但并不因此限制本发明的范围、应用场合或结构。而且，优选实施例的详细说明为本领域内的技术人员提供了可能实现本发明优选实施例的说明。需要理解的是，在不背离本发明及附加的权利要求的情况下，可以对其功能及元件的排列进行不同的修改。

Claims

1.一种用于文字到语音合成的方法，方法包括：

接收文本字符串，并从中选择至少一个单词；

将所述单词分解为子单词，所述子单词形成子单词序列，所述子单词中至少有一个包含至少两个文字；

为所述子单词识别音素；

将所述音素连贯起来形成音素序列；和

对所述音素序列执行语音合成，

其中，根据对直接非循环图的分析结果，选择能够形成所述选定单词的、具有最大合成权重的子单词来产生子单词序列，其中每一个可能的子单词带有关联的预定权重，并且通过对可能构成所述单词的子单词进行分析，以确定所述的子单词序列。

2.根据权利要求1所述的用于文字到语音合成的方法，其中，所述识别音素的步骤使用一音素标识符表，所述音素标识符表中包含对应于至少一个上述子单词的音素。

3.根据权利要求2所述的用于文字到语音合成的方法，其中，所述标识符表中还包括位置相关指示器，用来指示所述单词中子单词的位置相关性。

4.根据权利要求3所述的用于文字到语音合成的方法，其中，所述标识符表还包含与位置相关指示器关联的音素权重。