CN101000766B

CN101000766B - 基于语调模型的汉语语调基频轮廓生成方法

Info

Publication number: CN101000766B
Application number: CN2007100716149A
Authority: CN
Inventors: 张鹏; 王丽红
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2007-01-09
Filing date: 2007-01-09
Publication date: 2011-02-02
Anticipated expiration: 2027-01-09
Also published as: CN101000766A

Abstract

本发明提供了一种基于语调模型的汉语语调生成方法。它包括以下计算机可实现的步骤：短语单元的基频轮廓生成步骤，将输入的标注拼音码序列通过短语控制机构生成并输出短语单元的基频轮廓曲线；音节单元的基频轮廓生成步骤，将输入的标注拼音码序列通过音节控制机构生成并输出音节单元的基频轮廓曲线；语调基频轮廓叠加步骤，将短语控制机构输出的短语单元的基频轮廓、音节控制机构输出的音节单元的基频轮廓和最小基频值F_min进行对数叠加，生成并输出语调基频轮廓曲线。本发明从汉语的语音特征、汉语的声调与特点和汉语的语调及模式出发，构筑了一套完整的基于语调模型的汉语语调基频轮廓生成方法。

Description

基于语调模型的汉语语调基频轮廓生成方法

(一)技术领域

本发明涉及语音信号处理技术领域，具体涉及语音合成技术中一种基于语调模型的汉语语调基频轮廓生成方法

(二)背景技术

目前，汉语语音合成方法通常采用基于大语料库的时域波形拼接语音合成技术。在这个方法中，合成语句的语音基元是从一个预先录下的、庞大的自然语音的语料库中挑选出来的，***根据某种规则、或代价函数、或统计方法等，直接从语料库中筛选合成单元或片段来加以拼接。可以想象只要这个语料库足够大，理论上讲有可能拼接出任何语句。由于合成的语音基元都来自于自然的原始发音，或是一个音节，或是一种不定长的语言片段，如多字词或韵律短语，因此，合成后语音的清晰度和自然度都非常高。这种方法避开了对语音基元作韵律调整，基本上不用对信号作时域或频域的变换处理。然而，汉语的韵律是复杂多变的，语调也是多样化的，因此采用上述方法得到的合成语音无法满足人们的要求。与自然语音相比，这些***合成的句子及篇章的语音自然度和可懂度相对较低，“机器味”较浓，人们听起来感觉并不是很舒服。其原因是：至今在语音合成的韵律控制方法上还没有取得令人满意的成果，从而制约了这项技术大规模地进入市场，而其中的重要问题就是语调的基频曲线无法调整，或是语调模型无法反映汉语的语调规律，等等。

(三)发明内容

本发明的目的在于提供一种从汉语的语音特征、汉语的声调与特点和汉语的语调及模式出发、进一步提高汉语语音合成自然度的基于语调模型的汉语语调基频轮廓生成方法。

本发明的目的是这样实现的：它包括以下计算机可实现的步骤：

输入标注拼音码序列；

短语单元的基频轮廓生成步骤，将输入的标注拼音码序列从头至尾依次提取韵律信息，判断是否为短语信息；如果是，则作为短语命令送入给短语控制机构，同时根据这个短语韵律信息，从韵律模板库中索引出相应的短语单元韵律模板，生成并输出短语单元的基频轮廓曲线，并保留在缓冲区中；否则继续查找短语信息；以此类推，直至将整个标注拼音码序列搜索完毕，输出短语单元的基频轮廓曲线；

音节单元的基频轮廓生成步骤，将输入的标注拼音码序列从头至尾依次提取韵律信息，判断是否为音节信息；如果是，则作为音节命令输入给音节控制机构，同时根据这个音节韵律信息，从韵律模板库中索引出相应的音节单元韵律模板，生成并输出音节单元的基频轮廓曲线，并保留在缓冲区中；否则继续查找音节信息；以此类推，直至将整个标注拼音码序列搜索完毕，输出音节单元的基频轮廓曲线；

语调基频轮廓叠加步骤，将短语控制机构送出的短语单元的基频轮廓、音节控制机构送出的音节单元的基频轮廓和基频最小值F_min，依照汉语语调模型、按序位、幅度大小和时间长短进行对数叠加；如果判断标注拼音码序列没有处理完毕，则返回继续执行；否则，生成并输出语调基频轮廓曲线给后续的信号处理步骤。

本发明还有这样一些技术特征：

1、所述的基频轮廓曲线，其数学表达式如下：

\ln F_{0} (t) = \ln F_{\min} + Σ_{i = 1}^{I} A_{pi} G_{pi} (t - T_{0 i}) + Σ_{j = 1}^{J} A_{aj} [G_{aj} (t - T_{1 j}) - G_{aj} (t - T_{2 j})]

G_{pi} = \{\begin{matrix} R_{i}^{2} texp (- R_{i} t), & t &GreaterEqual; 0 \\ 0, & t < 0 \end{matrix}

或

G_{pi}^{(m)} (t) = G_{pi}^{(1)} (t), G_{pi}^{(2)} (t) \cdot \cdot \cdot G_{pi}^{(M)} (t), m = 1,2, \cdot \cdot \cdot M

G_{aj} = \{\begin{matrix} Min [1 - (1 + B_{j} t) \exp (- B_{j} t), θ_{j}], & t &GreaterEqual; 0 \\ 0, & t < 0 \end{matrix}

或

G_{aj}^{(n)} (t) = G_{aj}^{(1)} (t), G_{aj}^{(2)} (t) \cdot \cdot \cdot G_{aj}^{(N)} (t), n = 1,2, \cdot \cdot \cdot N

其中：

F_min：句子的基频最小值；

i：短语的数目；R_j：第i个短语衰减系数，经验值为3/s；T_0i：第i个短语控制命令发生的时间；A_pi：第i个短语控制命令的幅度；G_pi ^(m)：代表不同的短语调型；

j：音节或韵律词的数目；A_aj：第j个音节控制命令的幅度；T_1j：第j个音节控制命令开始的时间；T_2j：第j个音节控制命令结束的时间；B_j：第j个音节控制命令在音节控制机构下的固有角度值，经验值为20/s；θ_j：第j个音节控制命令的音节成分的最大允许值，经验值为0.9；G_aj ⁽ⁿ⁾：代表不同的音节调型；

2、所述的模型参数由计算机程序自动生成，算法的第一步的是确定短语命令参数和基频最小值F_min，然后，由基频最小值F_min和短语参数模拟出准确的F₀曲线，短语单元的参数优化好后，再计算音节单元的参数；单独的韵律词从左到右处理，对每个韵律词都做局部的基频曲线模拟。

本发明的有益优点有：

(1)从输入文本的标注拼音码序列中得到短语和音节的韵律信息，来生成语调基频轮廓符合自然语音的韵律结构要求；

(2)将短语单元的基频轮廓和音节单元的基频轮廓分别处理可以准确地确定短语单元、音节单元的时间序位；

(3)采用短语单元韵律模板和音节单元韵律模板可以简化短语单元、音节单元的基频轮廓的生成过程。同时，可以更好地反映韵律变化复杂多变的要求；

(4)将短语控制机构和音节控制机构看作衰减的二阶振荡***，符合人发音器官的生理特性。

汉语不同于其它西方语系，表现在语法结构、语法规则、声学特性、韵律结构等多个方面。首先，汉语是一字一音，即单音节字；其次，汉语是声调语言，声调具有辨义作用，每个字都有固定的音调(基频形状)。而且，字与字之间的音调前后彼此互相影响会发生变异，甚至失去了原有的调型，即出现协同发音现象(音变现象)。同时，连续语句的发音中间还会有短暂的停顿。每个人说话都有一个基本频率，称作基频，它体现了说话人的音调高低，此外，人们说话还有声音大小的区别等等。在汉语的文语转换(TTS)***中，对语音基频、时长、幅度等韵律信息的预测、分析和控制称作韵律控制。

针对这种情况，发明人从汉语的语音特征，汉语的声调与特点、汉语的语调及模式出发，构筑一套完整的基于语调模型的汉语语调基频轮廓生成方法，提高了合成语音的自然度。本发明中的各步骤及模块、子模块均可由计算机程序实现，操作性、移植性强，适用范围广。

(四)附图说明

图1为汉语语调基频轮廓生成模型框图；

图2为汉语语调基频轮廓生成框图；

图3为汉语语调基频轮廓生成流程图；

图4为衰减特性的短语基频曲线；

图5为上扬特性的音节基频曲线；

图6为韵律特征控制流程图；

图7为本发明实施例的计算机硬件***框图。

(五)具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明：

结合图2，本发明包括以下计算机可实现的步骤：

输入标注拼音码序列；

其中各步骤均由计算机程序实现。

实施例：

1、韵律模板库的构建

韵律模板库的构建采用常规的方法即可，与一般建立数据库的方法相同，这里就不细举。本发明在综合考虑各种因素之后，选择汉语中的最小听辨单位——音节作为语音合成的基元，并将语音库中的一个音节存储多个样本，各个样本的轻重音及基频曲线也各不相同。

2、汉语的语调模型

一个发音自然、完整的语句主要表现在三个方面：一是句子的调型，主要体现在句子的基频上，即句子的音高曲线；二是韵律短语和韵律词在句子中的具***置，因为它们反映了整个句子的韵律特征属性变化；三是句子的重音和停顿位置，重音能凸显和强调整个句子的语义中心，停顿反映了句子的韵律节奏；在这三个方面中，句子的基频曲线尤为重要，它反映了整个句子韵律变化最显著的特征以及整个句子基频曲线轮廓的变化的趋势。

可以把一个句子的F₀基频轮廓曲线看作是短语单元的基频轮廓曲线、音节单元的基频轮廓曲线和基频最小值F_min的叠加，基频轮廓用对数坐标表示。其中短语单元的基频轮廓曲线反映了句子全局的基频轮廓变化，音节单元的基频轮廓曲线反映了音节或韵律词的局部基频轮廓变化，而基频最小值F_min代表了使人声带振动发出声音的最低频率。短语单元和音节单元分别属于短语控制机构和音节控制机构，两个控制机构类似于衰减的二阶振荡***。短语控制机构的输入是短语命令，输出是短语单元的基频轮廓；而音节控制机构的输入是音节命令，输出是音节单元的基频轮廓。短语命令可以用一个冲击函数来描述，音节命令可以用一个阶跃函数来描述。这些函数分别有两组不同的控制命令和参数组成：

(1)短语命令的定时、幅度以及短语控制机构的阻尼系数；

(2)音节命令开始和结束的时刻、幅度以及音节控制机构的阻尼系数。

这些参数必须在一个设定的时间段内保持恒定，即短语单元的参数在一个韵律短语内部恒定，音节单元的参数在音节或韵律词中恒定，基频最小值F_min在整个句子中恒定。汉语语调基频轮廓生成模型框图，如图1所示。

基于上述汉语语调基频轮廓生成模型，用两种命令即短语命令和音节命令，作为句子语调模型的输入，而模型的输出为句子的基频轮廓曲线，其数学表达式如下：

\ln F_{0} (t) = \ln F_{\min} + Σ_{i = 1}^{I} A_{pi} G_{pi} (t - T_{0 i}) + Σ_{j = 1}^{J} A_{aj} [G_{aj} (t - T_{1 j}) - G_{aj} (t - T_{2 j})] - - - (1)

G_{pi} = \{\begin{matrix} R_{i}^{2} texp (- R_{i} t), & t &GreaterEqual; 0 \\ 0, & t < 0 \end{matrix} - - - (2)

或

G_{pi}^{(m)} (t) = G_{pi}^{(1)} (t), G_{pi}^{(2)} (t) \cdot \cdot \cdot G_{pi}^{(M)} (t), m = 1,2, \cdot \cdot \cdot M

(短语单元调形函数)

G_{aj} = \{\begin{matrix} Min [1 - (1 + B_{j} t) \exp (- B_{j} t), θ_{j}], & t &GreaterEqual; 0 \\ 0, & t < 0 \end{matrix} - - - (3)

或

G_{aj}^{(n)} (t) = G_{aj}^{(1)} (t), G_{aj}^{(2)} (t) \cdot \cdot \cdot G_{aj}^{(N)} (t), n = 1,2, \cdot \cdot \cdot N

(音节单元调形函数)

其中：

F_min：句子的基频最小值；

i：短语的数目；R_i：第i个短语衰减系数，经验值为3/s；T_0i：第i个短语控制命令发生的时间；A_pi：第i个短语控制命令的幅度；G_pi ^(m)：代表不同的短语调型。

j：音节或韵律词的数目；A_aj：第j个音节控制命令的幅度；T_1j：第j个音节控制命令开始的时间；T_2j：第j个音节控制命令结束的时间；B_j：第j个音节控制命令在音节控制机构下的固有角度值，经验值为20/s；θ_j：第j个音节控制命令的音节成分的最大允许值，经验值为0.9；G_aj ⁽ⁿ⁾：代表不同的音节调型。

式(1)的第1部分可以看作是使声带保持振动的基频最小值；第2部分代表短语单元的基频轮廓；第3部分代表音节单元的基频轮廓；三者成对数迭加形式。这里基频最小值F_min是由句子的语态和调型所决定，贯穿于整个语句；其次在它的上面叠加短语的基频变化曲线，得到一个句子的基频中心轨迹的基本走向；然后在这个基频中心轨迹的基础上继续按序位叠加音节或韵律词的基频变化曲线。最后，这三个部分叠加的结果即为一个完整句子的基频变化曲线。

对短语的缓降趋势，可以通过调节R_i的大小来改变G_pi(t)的衰减特性，进而达到调整短语基频走向的目的。R_i值越大，则衰减程度越大，短语基频曲线下倾的越严重；同时，R_i的大小也间接地反映了语调短语的长短。同样，对音节的缓升趋势可以通过调节B_j的大小来实现，B_j值越大，音节的基频曲线上扬的越明显。图4和图5分别列出了短语衰减特性的基频曲线和音节上扬特性的基频曲线。

对于每个短语的具体调形，根据标注的拼音码序列中的短语信息确定短语调形，其短语调形函数可以采用“短语单元韵律模板”直接生成短语的基频轮廓曲线。

对于每个音节的具体调形，根据标注的拼音码序列中的音节信息确定音节调形，其音节调形函数可以采用“音节单元韵律模板”直接生成音节的韵律基频曲线，也可以利用曲线方程

G_{aj}^{(n)} (t) = a_{0} + a_{1} t + a_{2} t^{2} + a_{3} t^{3} + a_{4} t^{4}

生成拟合效果较为理想的音节调形曲线。调长由对应的浊音段的定时起点和终点来确定；调域用与调长对应的阶梯式调域幅度来控制。

3、模型参数的设置

模型参数由计算机程序自动生成。基于重叠原则，算法的第一步的是确定短语命令参数和基频最小值F_min，这一步可与音节命令参数的确定分开。然后，由基频最小值F_min和短语参数模拟出准确的F₀曲线。短语模型的参数优化好后，再计算音节单元的参数。

一个音节命令生成的基频曲线模拟一个音节或韵律词。单独的韵律词从左到右处理，整个音节单元没有进行全局优化，但是对每个韵律词都做局部的基频曲线模拟。对此F₀基频曲线的处理从左到右应有两个限制条件：一个条件是防止后面的音节命令影响优化后的曲线；另一个条件是保证在前面命令参数不充分的情况下也能估计音节或韵律词。

4、基于语调模型的F₀合成

(1)阻尼系数

短语单元和音节单元当作阻尼时间的常量来处理。对于短语单元，阻尼系数标准值为3.1Hz。所有说话人和所有音节或韵律词的阻尼系数均值为16Hz。

(2)基频最小值F_min

基频最小值F_min分布离散度较小，典型值的范围是男性为70-80Hz，女性为120-140Hz。

(3)短语命令的幅度和定时

短语单元代表了语句中F₀曲线的全局下倾和缓慢变化，是语调基频曲线的基础。从基频幅度上看，短语命令的幅度是确定短语基频曲线的在频域上偏移量的乘积系数，是句子中F₀下倾的直接尺度，并且在很大程度上与说话人相关。句子模式通过短语单元的基频曲线在全局上表现出来，例如，陈述句的基频曲线呈下倾态势，而一般疑问句和反意疑问句的基频曲线从头向尾先下倾、然后到尾部再上扬。从时间上看，短语的基频曲线相对较早地达到最大值，并且随着句子的主要部分单独下降。短语基频曲线的峰值与句子或韵律短语的头一致，因此短语命令的定时直接依据阻尼系数(3.1Hz)。句子开始前的第一个短语命令设置为323ms，这也证明了F₀的生成和控制的研究结果，揭示了喉部肌肉发音前的活动。

(4)音节命令幅度

音节幅度是确定音节曲线的在频域上偏移量以及音节高峰值高度的乘积系数，并且幅度在很大程度上与音节的位置有关。句尾音节命令幅度远小于句子中其它位置的幅度，名词的幅度要高于其它词性，而短语边界前的音节命令幅度要比其它位置的幅度高大约10～20％。

(5)音节命令时长

音节命令的时长可以通过该音节所在的韵律词的时长预测出，二者的相关度(r＝0.84)，即音节命令时长大约70％以上的变化可从韵律词的时长来得到。

(6)音节命令位置

非句尾位置中音节(或韵律词)开始和命令开始之间的瞬时距离大约是音节(或韵律词)时长的10％，即在音节(或韵律词)命令开始和音节(或韵律词)发音开始之间要有一个静音段，这一距离在句子末尾韵律词中趋于零。

因此，根据上面的分析，可以建立一套规则来控制参数的调整，比如语句模式、语句重音、短语边界或词重音，以此为一个给定的句子生成人工语调曲线。而需要输入的信息包括词音节的位置、韵律词的时长及它们的词性。

这里所提出的规则是基于统计分析的结果为基础，提供的参数为平均值，所以产生的曲线不代表任何一个真实的说话人。但从另一个方面说明：如果能够准确的捕捉说话人的特征，那么由上述规则及模型所产生的语调模式和被建模的说话人发出的语调模式就会非常接近。语调模型参数见表1。

表1 语调模型参数表

语调模型参数	参数说明
		阻尼系数	短语单元3.1Hz，音节单元16Hz。
基频最小值F_min	典型值的范围是男性为70-80Hz，女性为120-140Hz。
		短语命令幅度	短语命令的幅度是确定短语基频曲线的在频域上偏移量的乘积系数。是句子中F₀下倾的直接尺度，并且在很大程度上与说话人相关。
音节命令幅度	音节幅度是确定音节曲线的在频域上偏移量以及音节高峰值高度的乘积系数，并且幅度在很大程度上与音节的位置有关。短语边界前的音节命令幅度要比其它位置的幅度高大约10～20％。
		短语命令时间设置	句子开始前的第一个短语命令设置为323ms。
音节命令时间设置	非句尾位置中音节(或韵律词)命令开始和音节发音开始之间的瞬时距离大约是音节(或韵律词)时长的10％，即在音节(或韵律词)命令开始和音节(或韵律词)发音开始之间要有一个静音段，这一距离在句子末尾韵律词中趋于零。
		短语命令时长	短语命令时长可以从韵律短语的时长来得到。

音节命令时长

音节命令时长大约70％以上的变化可从韵律词的时长来得到。

图6是韵律特征控制流程图，结合图6，计算机对键入的文本信息进行分析并转换成含有韵律结构信息的拼音码序列，根据韵律结构信息，标注文本语句的短语位置和个数、各短语强度，音节个数、音节调形、音节长度、音节调域幅度和整句基调值等参数；用人工和参数优化算法调节并定量提取有关控制参量，按模型分层综合，计算出成句基频轮廓数据；然后，根据基频输出值和对应的时长参数，最后采用PSOLA方法对音库中各音节波形的韵律参数进行调整，拼接合成连续语音。

5、***环境

结合图7，为一个可以实施本发明的适合的计算***环境。该计算***环境只是可以实施本发明的计算***环境的一个实施例，而并非是对本发明的应用范围或功能进行任何限制。计算环境也不应被认为是对实例性操作环境中所示的任何一个部件或者部件的组合有任何依赖性或要求。

本发明可以用于众多的特定的或非特定的计算***环境或配置，如：个人计算机，小型计算机，中型计算机，大型计算机，网络计算机，服务器计算机，手持或膝上型装置，多处理器***，基于微处理器的***，机顶盒，可编程电子消费装置，包括任何上述的***或装置的分布式计算环境，等等。

本发明可以使用计算机可执行指令的一般模式来描述，例如计算机的程序模块。程序模块包括程序、子程序、对象、控件、组件、数据结构等，它们用来执行特定的任务或者实现特定的抽象数据类型。本发明也可以被应用于分布式计算环境，其中通过利用通信网络链接的远程处理装置来执行任务。在分布式计算环境中，程序模块可以同时存放在包括存储器存储装置在内的本地和远程计算机存储介质中。

图7所示的计算机装置的构成包括：一个或多个中央处理单元、内部存储器、外部存储器、输入设备接口、输出设备接口以及连接上述各个单元或部件的***总线。***总线可以是包括如下几种类型的总线结构中的任何总线结构：一个存储总线或存储控制器、一个***总线和使用各种总线结构中总线的局部总线。这些总线结构：如工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强的ISA线、视频电子标准协会(VESA)，局部总线以及外部设备互连(PCI)总线(也叫夹层总线Mezzanine bus)，等等。

用户可以通过输入装置向计算机口输人命令和信息。这些输入装置可以是键盘、麦克风以及指点装置如鼠标、轨迹球或触摸板，还可以是其他的输入装置(图上未画出)，例如操作杆、游戏垫、圆盘式***大线(satellite dish)、扫描仪等。上述输入装置通常是通过一个耦合到***总线的用户输入接口连接到处理单元的，但也可以通过别的的接口和总线结构连接，例如并行端口、游戏端口或者通用串行总线(USB)。监视器或者其他类型的显示装置通过一个接口，例如视频接口连接到***总线。除了该监视器外，计算机也可以包括其他的外部输出设备，例如扬声器以及打印机，它们通过一个外部输出接口连接。

计算机可以通过逻辑连接的方式连接到一台或更多远程计算机(例如远程计算机)从而在网络环境中进行操作。

Claims

1.一种基于语调模型的汉语语调基频轮廓生成方法，其特征在于它包括以下计算机可实现的步骤：

输入标注拼音码序列步骤；

语调基频轮廓叠加步骤，将短语控制机构送出的短语单元的基频轮廓、音节控制机构送出的音节单元的基频轮廓和基频最小值F_min，依照汉语语调模型、按序位、幅度大小和时间长短进行对数叠加；如果判断标注拼音码序列没有处理完毕，则继续执行；否则，生成并输出所输入的标注拼音码序列的语调基频轮廓曲线给后续的信号处理步骤。

2.根据权利要求1所述的基于语调模型的汉语语调基频轮廓生成方法，其特征在于所述的语调基频轮廓曲线，其数学表达式如下：

其中：

F_min：句子的基频最小值；

i：短语的数目；R_i：第i个短语衰减系数，经验值为3/s；T_0i：第i个短语控制命令发生的时间；A_pi：第i个短语控制命令的幅度；G_pi(t)：表示不同的短语调型；

j：音节或韵律词的数目；A_aj：第j个音节控制命令的幅度；T_1j：第j个音节控制命令开始的时间；T_2j：第j个音节控制命令结束的时间；B_j：第j个音节控制命令在音节控制机构下的固有角度值，经验值为20/s；θ_j：第j个音节控制命令的音节成分的最大允许值，经验值为0.9；G_aj(t)：表示不同的音节调型；

对于每个短语的具体调型G_pi(t)，还可以根据标注的拼音码序列中的短语信息确定短语调型，其短语调型函数可以采用“短语单元韵律模板”直接生成短语的基频轮廓曲线；

对于每个音节的具体调型G_aj(t)，还可以根据标注拼音码序列中的音节信息确定音节调型，其音节调型函数可以采用“音节单元韵律模板”直接生成音节的韵律基频曲线；也可以利用曲线方程G_aj(t)＝a₀+a₁t+a₂t²+a₃t³+a₄t⁴生成拟合效果较为理想的音节单元的基频轮廓曲线。

3.根据权利要求1所述的基于语调模型的汉语语调基频轮廓生成方法，其特征在于语调模型参数由计算机程序自动生成，算法的第一步是确定短语命令参数和基频最小值F_min，然后，由基频最小值F_min和短语命令参数模拟出准确的F0曲线，短语命令参数优化好后，再计算音节命令参数；单独的音节从左到右处理，对每个音节都做局部的基频曲线模拟。