CN1870130A

CN1870130A - 音调模式生成方法及其装置

Info

Publication number: CN1870130A
Application number: CNA200610080937XA
Authority: CN
Inventors: 平林刚; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-05-24
Filing date: 2006-05-23
Publication date: 2006-11-29
Also published as: JP2006330200A; JP4738057B2; US20060271367A1

Abstract

能够生成具有高逼真度的稳定音调模式的音调模式生成方法，模式选择部分10基于通过分析文本和音素持续时间111获得的语言属性信息100从存储在音调模式存储部分14中的音调模式为每个韵律控制单元选择N个音调模式101和M个音调模式103；模式形状生成部分11基于语言属性信息100融合N个选择的音调模式101以生成融合的音调模式并根据音素持续时间111在时间轴上对该融合的音调模式进行扩展或收缩以生成新的音调模式102；偏移控制部分12从M个选择的音调模式103计算偏移值的统计量并根据该统计量对音调模式102进行变形以输出音调模式104；模式连接部分13连接为每个韵律控制单元生成的音调模式104，进行平滑处理使得在连接边界部分不会出现不连贯，并输出句子模式121。

Description

音调模式生成方法及其装置

技术领域

本发明涉及一种用于例如文本到语音的合成的语音合成方法和装置，具体地，涉及一种对合成语音的逼真度(naturalness)有很大影响的音调模式(pitch pattern)生成方法及其装置。

背景技术

近年来，用于从任意句子人工地生成语音信号的文本到语音的合成***取得了发展。一般而言，文本到语音的合成***包括三个模块，即语言处理部分、韵律(prosody)生成部分和语音信号生成部分。在这些模块中，韵律生成部分的性能关系到合成语音的逼真度，并且特别地，作为话音高度(音调)的变化模式的音调模式，对合成语音的逼真度有很大影响。在常规的文本到语音的合成的音调模式生成方法中，由于音调模式是通过利用相对简单的模型而生成的，所以声调不自然，并且生成了机械的合成语音。

为解决这个问题，已提出了这样的方法，在其中按照原样使用了大量从自然语音提取的音调模式(例如，参见日本申请2002-297175)。这使得从自然语音提取的音调模式被存储在音调模式数据库中，并且根据对应于输入文本的属性信息，从所述音调模式数据库中选择一个最佳的音调模式，从而生成音调模式。

此外，还考虑了这样的方法，在其中分别地控制音调模式的模式形状和指示整体音调模式的高度的偏移(例如，参见ONKOURON 1-P-10，2001.10)。这使得与音调模式的模式形状相分离地，通过利用诸如离线生成的数量化理论I类(quantification method type I)的统计模型，来估计所述指示音调模式的高度的偏移值，并且基于这个估计的偏移值来确定所述音调模式的高度。

在其中按照原样使用了从音调模式数据库中选择的音调模式的方法中，由于音调模式的模式形状和指示整体模式的高度的偏移不彼此分离，所以有可能使所述选择被局限于仅这样的音调模式，使得尽管模式形状合适而整体高度不自然，或者相反，尽管整体高度合适而模式形状不自然，并且存在这样的问题，即由于音调模式中的变化不足，降低了合成语音的逼真度。

另一方面，在其中从模式形状分离地通过利用统计模型来估计偏移值的方法中，由于用于偏移值和音调模式的估计标准(评价标准)互不相同，所以存在这样的问题，即由于在所述估计的偏移值和所述模式形状之间不匹配而产生不自然的音调模式。此外，由于利用了诸如预先离线生成的数量化理论I类的统计模型，与在线选择的模式形状相比，其很难估计对应于各种输入文本的变化的偏移值，并且作为结果，存在这样的可能性，即生成的音调模式的逼真度变得不足。

这样，鉴于上述，本发明的目的是提供一种音调模式生成方法和装置，其能通过生成对模式形状有高亲和性(affinity)的偏移值，来生成具有高逼真度的稳定的音调模式。

发明内容

根据本发明的实施例，一种音调模式生成方法，其改变用于语音合成的韵律控制单元的原始的音调模式，并且利用语音合成产生新的音调模式，所述方法包括以下操作：存储指示从自然语音提取的各韵律控制单元的音调模式的高度的偏移值，存储对应于所述偏移值的第一属性信息到存储器中，通过分析将被进行的语音合成所针对的文本获得第二属性信息，基于所述第一属性信息和所述第二属性信息从所述存储器中为每一个所述韵律控制单元选择多个偏移值，获得所述多个偏移值的统计数据(statisticalprofile)，以及基于所述统计数据改变作为每一个所述韵律控制单元的原型的音调模式。

进一步，根据本发明的实施例，一种音调模式生成方法，包括：将从自然语音提取的第一音调模式和已被制成以对应于所述第一音调模式的第一属性信息存储到存储器中，通过分析将被进行的语音合成所针对的文本获得第二属性信息，基于所述第一属性信息和所述第二属性信息从所述存储器中为每一个所述韵律控制单元选择多个第一音调模式，基于所述多个第一音调模式获得指示所述第一音调模式的高度的偏移值的统计数据，基于所述偏移值的统计数据生成所述韵律控制单元的第二音调模式，以及通过连接所述韵律控制单元的所述第二音调模式来生成对应于所述文本的音调模式。

附图说明

图1为框图，示出了根据本发明实施例的文本到语音的合成***的结构；

图2为框图，示出了音调模式生成部分的结构实例；

图3为视图，示出了存储在音调模式存储部分中的音调模式的存储实例；

图4为流程图，示出了在音调模式生成部分中的处理过程的实例；

图5为流程图，示出了模式选择部分的处理过程的实例；

图6为流程图，示出了模式形状形成部分的处理过程的实例；

图7A和7B为视图，用于解释统一多个音调模式的长度的处理方法；

图8为视图，用于解释通过融合多个音调模式来生成新的音调模式的处理方法；

图9为视图，用于解释在时间轴方向上的音调模式的扩展或收缩处理的方法；

图10为流程图，示出了偏移控制部分的处理过程的实例；

图11为视图，用于解释偏移控制部分的处理方法；

图12为框图，示出了根据变型例11的音调模式生成部分的结构实例；

图13为框图，示出了根据变型例11的另一实例的音调模式生成部分的结构实例。

具体实施方式

以下，将参考图1到11详细描述本发明的实施例。

(1)术语解释

首先，描述在本实施例中使用的术语。

【偏移值】表示指示对应于韵律控制单元的整体音调模式的高度的信息，所述韵律控制单元作为用于控制语音的韵律特征的单元，并且所述信息例如所述模式中的音调的平均值、中心值、最大/最小值、在前或在后模式的变化量。

【韵律控制单元】是用于控制对应于输入文本的语音的韵律特征的单元，包括例如，半音素、音素、音节、语素、单字、重音短语(accent phrase)、呼吸群(breath group)，等等，并且可将这些混合在一起，从而使其长度可变。

【语言属性信息】是能够通过进行诸如语素分析或语法分析的语言分析处理，从输入文本提取的信息，并且所述信息例如，音素符号线(phonemic symbol line)、部分语音、重音类型、修改目的(modificationdestination)、停顿、句中位置，等等。

【偏移值的统计量】是从多个选择的偏移值计算的统计量，例如，平均值、中心值、加权和(加权相加值)、方差值、偏差值，等等。

【模式属性信息】是有关音调模式属性的集合，包括例如重音类型、音节数量、句中位置、重音音素种类、在前重音类型、后续重音类型、在前边界条件、后续边界条件，等等。

(2)文本到语音的合成***的结构

图1示出根据本发明实施例的文本到语音的合成***的结构实例，并且粗略地包括三个模块，即，语言处理部分20、韵律生成部分21和语音信号生成部分22。

首先，在语言处理部分20中，对输入文本201进行诸如语素分析或语法分析的语言处理，并且输出诸如音素符号线、重音类型、部分语音、句中位置等的语言属性信息100。

接下来，在韵律生成部分21中，生成指示对应于输入文本201的语音的韵律特征的信息，即，例如，音素持续时间(phonetic duration)、指示随着时间的经过的基频(音调)的变化的模式等。韵律生成部分21包括音素持续时间生成部分23和音调模式生成部分1。音素持续时间生成部分23参考语言属性信息100，生成每一个音素的音素持续时间111，并将其输出。音调模式生成部分1接收语言属性信息100和音素持续时间111，并且输出作为话音高度(height of voice)的变化模式的音调模式121。

最后，语音信号生成部分22基于在韵律生成部分21中生成的韵律信息，生成对应于输入文本201的合成语音，并且将其合成为语音信号202。

(3)音调模式生成部分1的结构

这个实施例的特征在于音调模式生成部分1的结构及其处理操作，随后将对其进行描述。附带地，在此，将进行这样的描述，其中韵律控制单元是重音短语的情况被用作为一个例子。

图2示出了图1的音调模式生成部分1的结构实例，并且在图2中，音调模式生成部分包括模式选择部分10，模式形状生成部分11，偏移控制部分12，模式连接部分13和音调模式存储部分14。

(3-1)音调模式存储部分14

在音调模式存储部分14中，存储了从自然语音提取的大量的用于每一重音短语的音调模式，连同对应于每个音调模式的模式属性信息。

图3是视图，示出了存储在音调模式存储部分14中的信息的实例。

音调模式是表示对应于所述重音短语的音调(基频)的时间变化的音调系列(pitch series)，或者是表示其特征的参数系列。尽管在清音部分中不存在音调，仍希望通过例如***浊音部分的音调的值，来形成连续的系列。

附带地，从自然语音提取的音调模式可被存储为量化的或近似的信息，例如利用预先生成的码本通过向量量化而获得的信息。

(3-2)模式选择部分10

模式选择部分10基于语言属性信息100和音素持续时间111，从存储在音调模式存储部分14的音调模式中，为每一个重音短语选择N个音调模式101和M个音调模式103(M≥N＞1)。

(3-3)模式形状生成部分11

模式形状生成部分11通过融合N个音调模式101来生成融合的音调模式，并且进一步依照音素持续时间111，在时间轴方向上对所述融合的音调模式进行扩展或收缩，并生成音调模式102，所述N个音调模式101是由模式选择部分10基于语言属性信息100选择的。

在此，所述音调模式的融合是指依照某些规则从多个音调模式生成新的音调模式的操作，并且该操作由例如多个音调模式的加权相加处理来实现。

(3-4)偏移控制部分12

偏移控制部分12从由模式选择部分10选择的M个音调模式103计算偏移值的统计量，并且依照所述统计量，在频率轴上平移音调模式102，并且输出音调模式104。

(3-5)模式连接部分13

模式连接部分13连接为每一个重音短语生成的音调模式104，进行平滑处理以防止连接边界部分出现的不连续，并且输出句子音调模式121。

(4)音调模式生成部分1的处理

接下来，将参考图4的流程图详细描述音调模式生成部分1的各个处理，图4示出了音调模式生成部分1中的处理流程。

(4-1)模式选择

首先，在步骤S41，基于语言属性信息100和音素持续时间111，模式选择部分10从存储在音调模式存储部分14的音调模式中为每一个重音短语选择N个音调模式101和M个音调模式103。

为每一个重音短语选择的N个音调模式101和M个音调模式103是这样的音调模式，在其中，模式属性信息与对应于所述重音短语的语言属性信息100相一致或相似。这可以用例如这样的方式来实现，即，从目标重音短语的语言属性信息100和每一个模式属性信息，来估计通过量化每一个音调模式到目标音调变化的差异度而获得的代价(cost)，选择代价尽量小的音调模式。在此，作为例子，从其中模式属性信息与所述目标重音短语的重音类型和音节数目相一致的音调模式，选择出M和N个具有小代价的音调模式。

(4-1-1)代价估计

通过计算例如类似于常规语音合成装置中的那种代价函数，来执行代价估计。也就是说，例如，为音调模式形状或偏移进行变化的每个因素，或者为当音调模式被变形/连接时产生的失真的每个因素，定义子代价函数C_l(u_i，u_i-1，t_i)(l＝1到L，L表示子代价函数的数目)，并且将它们的加权和定义为重音短语代价函数。

C (u_{i}, u_{i - 1}, t_{i}) = Σ_{i = l}^{L} w_{i} C_{i} (u_{i}, u_{i - 1}, t_{i}) . . . (1)

其中，t_i表示当对应于输入文本和语言属性信息的目标音调模式是t＝(t₁，…，t_l)时，对应于第i个重音短语的部分的音调模式的目标语言属性信息，并且u_i表示从存储在音调模式存储部分14的音调模式选择的一个音调模式的模式属性信息。此外，w_l表示每一个子代价函数的权重。

所述子代价函数用于计算在使用存储在音调模式存储部分14中的音调模式的情况下用于估计对目标音调模式的差异度的代价。为计算所述代价，在此，作为特定例子，设置两类(L＝2)子代价，即目标代价和连接代价，其中目标代价用于估计由通过使用音调模式而产生的对目标音调变化的差异度，连接代价用于估计当所述重音短语的音调模式被连接到另一个重音短语的音调模式时产生的失真度。

作为目标代价的例子，有关语言属性信息和模式属性信息的句中位置的子代价函数可被定义为如下的表达式。

C₁(u_i，u_i-1，t_i)＝δ(f(u_i)，∫(t_i)) (2)

其中，f表示这样的函数，其用以从存储在音调模式存储部分14中的音调模式的模式属性信息或所述目标语言属性信息提取有关句中位置的信息，并且δ表示这样的函数，其用以在两条信息相互一致的情况下输出0，在其它情况下输出1。

此外，作为连接代价的例子，有关在连接边界的音调的差别(差异)的子代价函数被定义为如下表达式。

C₂(u_i，u_i-1，t_i)＝{g(u_i)-g(u_i-1)}² (3)

其中，g表示这样的函数，其用以从模式属性信息中提取连接边界的音调。

从表达式(1)计算输入文本的各个重音短语的重音短语代价，通过相加关于所有重音短语的重音短语代价的所得结果的被称为代价，并且，用于计算所述代价的代价函数被定义为如下表达式。

Cost = Σ_{i = 1}^{l} C (u_{i}, u_{i - 1}, t_{i}) . . . (4)

利用表达式(1)到(4)所指示的代价函数，经过两个阶段从音调模式存储部分14选择用于每一个重音短语的多个音调模式。

(4-1-2)经过两个阶段的选择处理

图5是流程图，用于解释通过两个阶段的选择处理过程的实例。

首先，作为第一阶段的音调模式选择，在步骤S51，从音调模式存储部分14获得由表达式(4)计算的代价值最小的一系列音调模式。代价最小的音调模式的组合被称为最佳音调模式系列。附带地，可以利用动态规划来有效地进行对最佳音调模式系列的搜索。

接下来，前进到步骤S52，并且在第二阶段音调模式选择，通过利用所述最佳音调模式系列为每一个重音短语选择多个音调模式。在此，假设在输入文本中的重音短语的数目是I，并且为每一个重音短语选择了用于计算偏移值的统计量的M个音调模式103，和用于生成融合的音调模式的N个音调模式101，下面将描述步骤S52的细节。

从步骤S521到S523，将所述I个重音短语的一个作为目标重音短语。重复从步骤S521到S523的处理I次，并且进行处理使得I个重音短语的每一个均成为目标重音短语一次。首先，在步骤S521，对于不是目标重音短语的重音短语，为其每一个固定所述最佳音调模式系列的音调模式。在此状态下，关于所述目标重音短语，根据表达式(4)的代价值，将存储在音调模式存储部分14中的音调模式排序。在此，进行排序使得，例如，其代价值最低的音调模式具有高顺位。接下来，在步骤S522，选择顺位最高的M个音调模式，用于计算偏移值的统计量，并且进一步，在步骤S523，选择顺位最高的N(N≤M)个音调模式，用于生成融合的音调模式。

通过上述过程，关于每一个重音短语，从音调模式存储部分14选出了M个音调模式103和N个音调模式101，并且接下来，前进到步骤S42。

(4-2)模式形状生成

在步骤S42，模式形状生成部分11基于语言属性信息100融合由模式选择部分10选择的N个音调模式101，并生成融合的音调模式，并且进一步根据音素持续时间111在时间轴方向上对所述融合的音调模式进行扩展或收缩，并生成新的音调模式102。

在此，将参考图6的流程图描述在这样的情况下的处理过程的实例，即关于多个重音短语中的一个重音短语，对由模式选择部分10选择的N个音调模式进行融合，并在时间轴方向上进行扩展或收缩，以生成一个新的音调模式102。

首先，在步骤S61，通过扩展音节中的模式，使其与该N个音调模式中的最长的一致，来统一所述N个音调模式的各音节的长度。图7A和7B示出了这样的状态，在其中从重音短语的N(例如，3)个音调模式p1到p3(见图7A)的每一个，生成了其中各个音节的模式长度被统一了的音调模式p1′到p3′(见图7B)。在图7A和7B的实例中，通过对指示一个音节的数据进行线性内插来实现音节中的模式扩展(见图7B中的双环标记部分)。

接下来，在步骤S62，通过对长度统一的N个音调模式进行加权相加，来生成融合的音调模式。可以根据，例如，对应于重音短语的语言属性信息100与每一个音调模式的模式属性信息之间的相似性，来设置权重。在此，当考虑利用由模式选择部分10计算的每一个音调模式p_i的代价C_i的倒数，对被估计为更适合于目标音调变化的音调模式，即小代价的模式，给出更大的权重时，可以由以下表达式计算对每一个音调模式p_i的权重w_i。

w_{i} = \frac{1}{C_{i} \times Σ_{j = 1}^{N} \frac{1}{C_{j}}} . . . (5)

通过将N个音调模式的每一个与权重相乘并相加，生成了融合的音调模式。图8示出了这样的状态，在其中，通过加权相加重音短语的N(例如，3)个长度统一的音调模式，来生成融合的音调模式。

接下来，在步骤S63，依照音素持续时间111在时间轴方向上对融合的音调模式进行扩展或收缩，以生成新的音调模式102。图9示出了这样的状态，在其中，依照音素持续时间111在时间轴方向上对所述融合的音调模式的各音节的长度进行扩展或收缩，并生成音调模式102。

如上所述，关于与输入文本对应的多个重音短语的每一个，融合了为重音短语选择的N个音调模式，并且进行了在时间轴方向上的扩展或收缩，以生成新的音调模式102，并且接下来，前进到步骤S43。

(4-3)偏移控制

在步骤S43，偏移控制部分13从由模式选择部分10选择的M个音调模式103计算偏移值的统计量，依照所述偏移值的统计量在频率轴上平移音调模式102，并且生成音调模式104。

在此，作为例子，将参考图10的流程图描述在这样的情况下的处理过程，即关于多个重音短语的一个重音短语，依照从由模式选择部分10选择的M个音调模式103计算的偏移值的平均值在频率轴上平移音调模式102，以生成音调模式104。

首先，在步骤S101，得到M个选出的音调模式的平均偏移值。各个音调模式的平均偏移值O_i由

O_{i} = \frac{1}{T_{i}} Σ_{i = 1}^{T_{i}} p_{i} (t) . . . (6)

得到，并且所得的各个音调模式的平均偏移值O_i(1≤i≤M)的平均值O_ave由

O_{ave} = \frac{1}{M} Σ_{i = 1}^{M} O_{i} . . . (7)

得到，并且得到M个音调模式的平均偏移值。在此，p_i(n)表示第i个音调模式的对数基频，T_i表示其采样数目。

接下来，在步骤S102，对音调模式进行变形，使得音调模式102的偏移值变成平均偏移值O_ave。音调模式102的平均偏移值O_r由表达式(6)得到，并且该偏移值的校正量O_diff由

O_diff＝O_ave-O_r (8)得到。通过将校正量O_diff加到整体音调模式102上，在频率轴上平移所述音调模式102，并且生成音调模式104。

图11示出了偏移控制的实例。

在这个实例中，M＝7，N＝3，并且O₁到O₇表示各个选择的音调模式的平均偏移值。在步骤S42生成的音调模式102的平均偏移值O_r是7.7[八音度]，7个音调模式103的平均偏移值O_ave是7.5[八音度]，且偏移值的校正量O_diff变为-0.2[八音度]。校正量O_diff被加到整体音调模式102上，从而生成了在其中偏移值被控制的音调模式104。

如上所述，根据从M个音调模式103计算的偏移值的统计量，在频率轴上平移音调模式102，并且生成音调模式104，接下来，前进到图4的步骤S44。

(4-4)模式连接

在步骤S44，模式连接部分13连接为每一个重音短语生成的音调模式104，并且生成句子音调模式121，作为对应于输入文本201的语音的韵律特征中的一个。当各个重音短语的音调模式104被相互连接时，进行平滑等处理，从而使得在重音短语边界处不会发生不连贯，并且输出句子音调模式121。

(5)所述实施例的效果

如上所述，根据所述实施例，在模式选择部分10中，基于对应于输入文本的语言属性信息，从存储了从自然语音提取的大量音调模式的音调模式存储部分14，为每一个韵律控制单元选择M和N个音调模式，并且进一步，在偏移控制部分12中，基于从为每一个韵律控制单元所选择的M个音调模式103计算的偏移值的统计量，可以控制音调模式的偏移。

由于除了模式形状外，整体音调模式的高度也是被控制的，所以可以减小音调模式的高度不匹配的离差(dispersion)，而无需过度地钝化所述模式形状。

由于作为用于生成模式形状的数据的音调模式101，和作为用于生成偏移值的统计量的数据的音调模式103，是由模式选择部分10依照相同的标准(评价标准)选择的，所以与在其中用不同的方法从模式形状的生成中单独地估计偏移值的方法相比，与模式形状有很高亲和性的偏移控制变得可能。

由于通过选择和利用从自然语音在线提取的音调模式，可以生成各种变化的音调模式，所以可以生成适合输入文本且接近人发出的声音的音调变化的音调模式，并且作为结果，可以合成具有高逼真度的语音。

在模式选择部分10中，即使在不能唯一地选择出最佳音调模式的情况下，也能利用从多个适当的音调模式得到的偏移值的统计量来修改音调模式，从而可以生成更稳定的音调模式。

【变型例1】

在所述实施例中，在图10的步骤S101，在融合音调模式时利用的权重被定义为代价值的函数，但是，并不局限于此。

例如，可以想到这样的办法，在其中，关于由模式选择部分10所选择的多个音调模式101，获取形心(centroid)，并且根据所述形心与每一个音调模式之间的距离来确定权重。

这时，即使在选择的音调模式中突然混入了坏的模式的情况下，也可以进行音调模式的生成，在其中抑制了所述坏的影响。

此外，还描述了在其中为整体韵律控制单元施加统一的权重的例子，然而，本发明并不局限于此，并且也有可能为音调模式的各部分设置不同的权重，并融合它们，例如，仅为重音部分改变加权的方法。

【变型例2】

下面将描述所述实施例的变型例2。

在所述实施例中，在图4的模式选择步骤S41，为每一个韵律控制单元选择M和N个音调模式，然而，并不局限于此。

可以改变为每一个韵律控制单元选择的模式的数目，并且也可以根据诸如所述代价值或存储在音调模式存储部分14中的音调模式的数目的因素，适当地确定选择的模式的数目。

此外，尽管是从其中模式属性信息与重音类型和重音短语的音节数目相符的音调模式中进行选择的，但本发明并不局限于此，并且在音调模式数据库中没有相符的音调模式或者音调模式很少的情况下，也可以从类似的音调模式的候选中进行选择。

进一步，在N＝1的情况下，即从一个最佳音调模式101也可以生成模式形状。在这种情况下，在图6的步骤S61和S62的音调模式101的融合处理变得不必要。

【变型例3】

下面将描述所述实施例的变型例3。

在所述实施例中，尽管实例显示，属性信息中的关于句中位置的信息被用作为在模式选择部分10中的目标代价，但并不局限于此。

例如，可以将包括在属性信息中的其它各种信息差异转换成数字并利用，或者，可以利用音调模式的每一个音素持续时间和目标音素持续时间之间的差别(差异)。

【变型例4】

下面将描述所述实施例的变型例4。

尽管所述实施例示出了这样的实例，即在连接边界的音调之间的差异被用作为模式选择部分10中的连接代价，但并不局限于此。

例如，可以利用在连接边界的音调变化的倾斜之间的差别(差异)等。

此外，在所述实施例中，作为模式选择部分10中的代价函数，利用了作为子代价函数的加权和的韵律控制单元代价的和，然而，本发明并不局限于此，可以使用任何将所述子代价函数用作为自变量的函数。

【变型例5】

下面将描述所述实施例的变型例5。

在所述实施例中，作为模式选择部分10中的代价的估计方法，通过计算代价函数的方法只是被用作为例子，然而，并不局限于此。

例如，也可以通过利用已熟知的诸如数量化理论I类的统计方法，从所述语言属性信息和所述模式属性信息进行估计。

【变型例6】

下面将描述所述实施例的变型例6。

在所述实施例中，在图6的步骤S61，当统一多个选择的音调模式101的长度时，依照每个音节的音调模式中最长的来扩展模式，然而，并不局限于此。

例如，通过结合步骤S63的处理，也可以根据音素持续时间111，并且依照实际所需的长度，统一各个音调模式。

此外，可以在每个音节等的长度被预先标准化之后，存储音调模式存储部分14的音调模式。

【变型例7】

下面将描述所述实施例的变型例7。

在所述实施例中，首先生成模式形状，并且控制偏移，然而，此处理过程并不局限于此。

例如，通过交换步骤S42和步骤S43的处理的顺序，首先，从M个音调模式103计算平均偏移值O_ave，基于该平均偏移值O_ave，控制N个音调模式101的各偏移值(模式被变形)，然后融合N个被变形的音调模式，这样也可以生成每一个韵律控制单元的音调模式。

【变型例8】

下面将描述所述实施例的变型例8。

在所述实施例中，在图4的步骤S43，根据表达式(7)从M个音调模式103的各个偏移值计算的平均偏移值O_ave被作为偏移值的统计量，然而，并不局限于此。

例如，可以利用M个音调模式103的偏移值的中心值，或者利用基于如由表达式(5)所得的每一个模式的代价值，利用权重w_i，来对M个音调模式的各个偏移值加权并相加所得的结果。

此外，生成了其中融合了M个音调模式103的音调模式，并且基于使融合的模式与音调模式102之间的误差最小化的标准，也可以得到用于偏移控制的移动量。

【变型例9】

下面将描述所述实施例的变型例9。

在所述实施例中，在图10的步骤102，尽管基于偏移值的统计量的音调模式的变形是通过在频率轴上平移整体音调来实现的，但并不局限于此。

例如，通过用基于所述偏移值的统计量的系数乘以音调模式，以改变该音调模式的动态范围，并且也可以控制偏移值。

【变型例10】

下面将描述所述实施例的变型例10。

在所述实施例中，在图6的步骤S62，尽管在融合音调模式时将权重定义为代价值的函数，但并不局限于此。

例如，可以想到这样的方法，在其中，由从M个音调模式103计算的偏移值的统计量来确定融和权重。在这种情况下，首先，得到M个音调模式103的偏移值的均值μ和离差σ²。

然后，得到用于模式融合的N个音调模式的每一个偏移值O_i的似然性(likelihood)P(O_i|μ，σ²)。例如，假设建立的是高斯分布，可以通过以下表达式得到所述似然性。

p (O_{i} | μ, σ^{2}) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(O_{i} - μ)}^{2}}{2 σ^{2}}) . . . (9)

由表达式(9)得到的似然性P(O_i|μ，σ²)被以下表达式标准化，并且被作为融合时的权重。

w_{i} = \frac{p (O_{i} | μ, σ^{2})}{Σ_{j = 1}^{N} p (O_{i} | μ, σ^{2})} . . . (10)

随着N个音调模式的各个偏移值变得更接近于从M个音调模式的偏移值得到的分布的平均时，这个权重W_i变得更大，当其远离所述平均时，所述权重变得更小。这样，在将被融合的N个音调模式中，可以使偏移值远离平均值的模式的融合权重较小，并且可以减小由于融合偏移值差异很大的模式所引起的整体音调模式的高度波动，并减***真度的降低。

【变型例11】

下面将描述所述实施例的变型例11。

在所述实施例中，为了计算所述偏移值的统计量，在图5的步骤S522，从音调模式存储部分14选择模式，并且在图10的步骤S101，从M个选择的音调模式103计算所述平均偏移值。

可以采用这样的结构来进行替代，即预先离线得到各个音调模式的偏移值，并且从存储这些的偏移值存储部分选择多个偏移值，并将其用于偏移值控制。

例如，如图12所示，可以是这样的结构，即除了用于存储每一个重音短语的音调模式和对应于每个音调模式的属性信息的音调模式存储部分14外，设置了用于存储每一个重音短语的偏移值和相应的属性信息的偏移值存储部分16。在这个结构中，模式&偏移值选择部分15分别从音调模式存储部分14和偏移值存储部分16选择N个音调模式101和M个偏移值105，并且偏移控制部分12基于该M个选择的偏移值105的统计量，对音调模式102进行变形。

此外，如图13所示，也可以是这样的结构，即音调模式选择部分10和偏移值选择部分17是彼此分离的。如上所述，当基于从偏移值存储部分在线选择的多个偏移值的统计量进行偏移控制时，可以生成具有对应于各种输入文本的变化的自然偏移值的音调模式。

【变型例12】

所述各个实施例的功能也可以由硬件实现。

此外，在所述实施例中公开的方法可被存储为可由计算机执行的程序，被存储于诸如磁盘、光盘或半导体存储器的记录介质中，或者也可以通过网络被分发。

进一步，各个功能被描述为软件，并且也可以通过由具有适当机构的计算机装置进行处理来实现。

附带地，本发明不局限于所述实施例，并且在实践阶段，可以在不背离主旨的范围内修改构成元素并使其具体化。此外，可以通过适当地组合在所述实施例中公开的多个构成元素来形成多种发明。例如，某些构成元素可以被从所述实施例中公开的所有构成元素中删除。进一步地，不同实施例中的构成元素可以被适当地组合。

Claims

1.一种音调模式生成方法，其通过改变韵律控制单元的原始音调模式，来生成用于语音合成的音调模式，所述方法包括以下步骤：

将指示已从自然语音提取的各个所述韵律控制单元的音调模式的高度的偏移值和与所述偏移值相对应的第一属性信息存储到存储器中；

通过分析将被进行的语音合成所针对的文本来获得第二属性信息；

基于所述第一属性信息和所述第二属性信息，从所述存储器中为每一个所述韵律控制单元选择多个所述偏移值；

获得所述多个偏移值的统计数据；以及

基于所述统计数据，改变所述韵律控制单元的原始音调模式。

2.一种音调模式生成方法，包括以下步骤：

将从自然语音提取的第一音调模式和对应于所述第一音调模式的第一属性信息存储到存储器中；

基于所述第一属性信息和所述第二属性信息，从所述存储器中为每一个所述韵律控制单元选择多个所述第一音调模式；

基于所述多个第一音调模式，获得指示所述第一音调模式的高度的偏移值的统计数据；

基于所述偏移值的统计数据，生成所述韵律控制单元的第二音调模式；以及

通过连接所述韵律控制单元的所述第二音调模式，生成对应于所述文本的音调模式。

3.根据权利要求2的音调模式生成方法，其中，

当从所述存储器中选择所述多个第一音调模式时，分别选择M个所述第一音调模式和N(M≥N＞1)个所述第一音调模式，并且

当生成所述第二音调模式时，

(1)从所述M个第一音调模式获得所述偏移值的统计数据，

(2)通过融合所述N个第一音调模式生成融合的音调模式，以及

(3)通过基于所述偏移值的统计数据改变所述融合的音调模式，来生成所述第二音调模式。

4.根据权利要求2的音调模式生成方法，其中，

当选择所述多个第一音调模式时，分别选择M个所述第一音调模式和N(M≥N＞1)个所述第一音调模式，并且

当生成所述第二音调模式时，

(1)从所述M个第一音调模式获得所述偏移值的统计数据，

(2)基于所述偏移值的统计数据，改变所述N个第一音调模式，以及

(3)通过融合所述N个改变的第一音调模式，来生成所述第二音调模式。

5.根据权利要求2的音调模式生成方法，其中，

当选择所述多个第一音调模式时，分别选择M个所述第一音调模式和一个所述第一音调模式，并且

当生成所述第二音调模式时，

(1)从所述M个第一音调模式获得所述偏移值的统计数据，以及

(2)通过基于所述偏移值的统计数据改变所述一个选择的第一音调模式，来生成所述第二音调模式。

6.根据权利要求1到5中的任何一项的音调模式生成方法，其中，所述偏移值的统计数据包括：平均值、中值以及加权和。

7.根据权利要求2的音调模式生成方法，其中，

当将要选择所述多个第一音调模式时，分别选择M个所述第一音调模式和N(M≥N＞1)个所述第一模式，并且

当将要生成所述第二音调模式时，

(1)从所述M个第一音调模式获得所述偏移值的统计数据，

(2)基于所述N个第一音调模式的各个偏移值及所述统计数据，确定将被给予所述N个第一音调模式各自的权重，以及

(3)通过基于所述权重融合所述N个第一音调模式，来生成所述第二音调模式。

8.根据权利要求1的音调模式生成方法，其中，在所述存储器中，存储所述指示从自然语音提取的音调模式的高度的偏移值，或者存储所述提取的偏移值的量化值。

9.根据权利要求2的音调模式生成方法，其中，在所述存储器中，存储从自然语音提取的所述第一音调模式，存储所述第一音调模式的量化值，或者存储所述第一音调模式的近似值。

10.根据权利要求2的音调模式生成方法，其中，在选择所述多个第一音调模式的情况下，

(1)利用代价函数从所述第一属性信息和所述第二属性信息估计代价，以及

(2)选择所述代价小的所述多个第一音调模式。

11.一种音调模式生成装置，用于通过改变韵律控制单元的原始音调模式来生成用于语音合成的音调模式，所述装置包括：

存储器，存储用于指示已从自然语音提取的各个所述韵律控制单元的音调模式的高度的偏移值和与所述偏移值相对应的第一属性信息；

第二属性信息分析处理器单元，其通过分析将被进行的语音合成所针对的文本来获得第二属性信息；

偏移值选择处理器单元，其基于所述第一属性信息和所述第二属性信息，从所述存储器中为每一个所述韵律控制单元选择多个所述偏移值；

统计数据计算单元，其获得所述多个偏移值的统计数据；以及

音调模式变形处理器单元，其基于所述统计数据，改变所述韵律控制单元的原始音调模式。

12.一种音调模式生成装置，包括

存储器，在其中存储从自然语音提取的第一音调模式和对应于所述第一音调模式的第一属性信息；

第二属性信息分析处理器单元，其通过分析将被进行的语音合成所针对的文本获得第二属性信息；

第一音调模式选择处理器单元，其基于所述第一属性信息和所述第二属性信息，从所述存储器中为每一个所述韵律控制单元选择多个所述第一音调模式；

统计数据计算单元，其基于所述多个第一音调模式，获得指示所述第一音调模式的高度的偏移值的统计数据；

第二音调模式生成处理器单元，其基于所述统计数据，生成所述韵律控制单元的第二音调模式；以及

音调模式生成处理器单元，其通过连接所述韵律控制单元的所述第二音调模式，生成对应于所述文本的音调模式。