CN102231275B

CN102231275B - 一种基于加权混合激励的嵌入式语音合成方法

Info

Publication number: CN102231275B
Application number: CN2011101454794A
Authority: CN
Inventors: 王朝民; 那兴宇; 谢湘; 何娅玲
Original assignee: BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Current assignee: BEIJING YUYIN TIANXIA TECHNOLOGY CO LTD; Zhuhai Hi-tech Angel Venture Capital Co.,Ltd.
Priority date: 2011-06-01
Filing date: 2011-06-01
Publication date: 2013-10-16
Anticipated expiration: 2031-06-01
Also published as: CN102231275A

Abstract

本发明公开了一种基于加权混合激励的嵌入式语音合成方法，用于嵌入式操作***，将接收到的任意文字转换成语音输出。在训练端，首先对语音信号提取基频自适应加权谱内插(STRAIGHT谱)系数、基频及非周期成分；在合成端，通过基频及非周期成分构建混合激励，然后通过传统的参数合成器得到合成语音。依据本发明提供的方法在合成端通过混合激励代替原有的二元激励，在保证较低运算速度的同时，提高了合成语音的自然度和音质，达到与STRAIGHT合成器近似的效果。

Description

一种基于加权混合激励的嵌入式语音合成方法

技术领域

本发明总的来说涉及一种基于自适应加权谱内插系数的嵌入式语音合成方法，尤其是存储和运算资源有限的终端设备。

背景技术

随着移动互联网及物联网技术的蓬勃发展，手机、电子书等嵌入式设备终端逐步成为人们日常最直接的信息获取及处理途径，而语音则是最自然最直接的交互手段，因此嵌入式语音合成技术的发展乃大势所趋，具有迫切的市场应用需求。

语音合成技术的宗旨是完美再现人类的声音，也就是让机器能够模仿人类的嗓音、发音风格及韵律等特点。传统的语音合成技术是建立在基于大规模语料库的拼接合成方法上，技术简单且合成音质高，一度被广泛采用。但这种方法的音库规模大，虽然通过聚类、编码和压缩等技术手段处理后，空间可以降低，但音质受到损伤，且灵活度下降。因此，近年来基于大规模语料库的统计建模参数合成方法被广泛研究，基本思想是，对大量的原始语音库进行参数化表示和统计建模，合成时依照特定规则挑选模型构成模型序列，进一步计算得到合成语句的参数序列，通过参数化合成的方法合成符合要求的语音。通过参数化统计建模方法合成的语音具有较高的自然度和智能度。目前被大家广泛研究及采用的为基于HMM的语音合成技术。语音特征参数的选择很大程度上决定了合成语音的音质，特征参数一般包括激励源参数及声道谱参数等。一般的声道谱系数是从短时傅里叶变换谱中提取，在合成端可以直接通过传统参数合成器(如倒谱滤波器或线性预测滤波器)完成语音的合成，音质较好。近些年提出的自适应加权谱内插(STRAIGHT)语音分析合成算法通过将现有短时傅里叶变换谱中时域频域的周期性去除，得到了无周期性扰动的平滑的频谱，可以合成出更高音质的更加自然的语音。如果直接只用STRAIGHT作为谱特征从而改善原有的FFT谱虽然可以很大程度的改善语音合成音的音质和自然度，但是单纯的使用二元激励并没有完全利用STRAIGHT算法的全部优势，其非周期成分是合成高质量高自然度语音的关键，也是音质和自然度提升的主要途径。

因此，需要一种改进的方法，可以在嵌入式平台下实现占用计算资源较小的参数化语音合成***，不但能够使用STRAIGHT谱特征，还能够通过合理使用STRAIGHT算法中的非周期成分，使合成语音的音质接近STRAIGHT的合成语音。

发明内容

本发明所要解决的技术问题是将STRAIGHT的非周期成分在较低运算量的基础上通过混合激励的模式加入到合成语音的激励源中，改善原有的二元激励，使生成的合成语音具有更接近STRAIGHT合成音的音质和自然度。

为实现上述目的，本文提供了一种基于加权混合激励的嵌入式语音合成方法，用于嵌入式操作***，将接收到的任意文字转换成语音输出。在合成端通过混合激励代替原有的二元激励，在保证较低运算速度的同时，提高了合成语音的自然度和音质，达到与STRAIGHT合成器近似的效果。应用该方法的语音合成***分为下述两个部分：

A.训练部分：首先对语音信号提取STRAIGHT谱、基频及非周期成分，然后对STRAIGHT谱提取声道谱特征系数，并将非周期成分在5个频带内取平均值，进而通过HTS对特征系数建模、训练。

B.合成部分：通过模型得到解算出特征系数序列后，通过非周期成分加权混合激励及传统参数合成器得到合成语音。

以上所述的基于自适应加权谱内插系数的嵌入式语音合成方法，语音合成训练端特征系数序列的提取过程分为下述五个步骤：

A.对训练语音数据库中的语音信号进行参数提取，分别为基频、增益、STRAIGHT谱及非周期成分。

B.从得到的STRAIGHT谱中再提取声道谱特征系数。

C.将增益与声道谱特征系数结合成为新的声道谱特征系数。

D.将非周期成分按照0～1KHz、1～2KHz、2～4KHz、4～6KHz及6～8KHz五个频带，然后对每个频带内的非周期成分去平均，每个频带得到一个非周期成分权值，将这5个权值作为特征参数序列的一部分。***采用一般嵌入式***较为常用的16K采样率。

E.将基频、新的声道谱系数及分带的非周期成分加权值一并作为特征参数序列进行HMM模型训练

以上所述的基于自适应加权谱内插系数的嵌入式语音合成方法，语音合成的合成端合成器合成语音过程分为下述三个步骤：

A.通过参数解算算法从模型中生成基频、声道谱系数及非周期成分加权序列。

B.由基频及非周期成分加权序列生成合成语音的激励源，采用混合激励的模型。

C.将激励源和声道谱系数序列通过传统参数合成器得到合成语音。

下面结合附图和实施例对本发明进一步说明，通过结合附图对***各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。

附图说明

附图1基于HMM的语音合成***结构框图

附图2***特征参数序列提取示意图

附图3非周期成分加权混合激励语音合成器结构框图

图中1.语音语料数据库，2.激励源参数提取，3.HMM模型训练，4.HMM模型集，5.由HMM模型生成参数，6.文本分析，7.激励源生成，8.合成滤波，9.声道谱参数提取，10.语音信号，11.激励源参数，12.声道谱参数，13.合成语音，14.合成文本，15.训练部分，16.合成部分，17.标注文本，18.训练端特征参数提取，19.语音信号数据，20.TANDEM-STRAIGHT分析，21.STRAIGHT谱，22.LSP系数，23.新LSP系数，24.增益，25.基频，26.非周期成分，27.分5个频带取平均，28.带分加权非周期成分，29.lsp[0]，27.lsp2ipc，28.LPC滤波器，29.合成端参数合成滤波，30.合成端参数合成滤波，31.lsp2lpc，32.混合激励，33.加权，34.非周期权值，35.脉冲序列，36.白噪声。

具体实施方式

如附图1所示，在本发明的实施方案中，语音合成***部署在一种嵌入式操作***中，该嵌入式语音合成***包括：语音合成训练端和合成端。其中，语音合成模型训练部分只在***线下使用，仅用于生成语音合成***工作时所需要的压缩模型库；而语音合成的合成部分则是在芯片上完成。由于本发明重在参数的提取与合成，而文本标注、文本分析、建模、训练及参数生成并不是本发明的关注点，所以下面着重介绍训练端的参数提取及参数重建，和合成端的混合激励的生成。本实施例选择了LSP系数(22)作为声道谱参数，并选用LPC滤波器(28)作为合成滤波器，语音数据为16K采样。

训练端的特征参数提取(18)：

步骤1，对训练语音数据进行时域稳定功率谱估计(TANDEM-STRAIGHT算法)从而得到基频(25)、STRAIGHT谱(21)、增益(24)及非周期成分(26)。

步骤2，使用广义倒谱分析算法从STRAIGHT谱(21)中提取LPC系数，其中使用美尔广义倒谱分析的概念来转换谱系数，然后将所得的LPC系数转换成LSP系数(22)。

步骤3，将增益代替LSP的第0维参量，生成新的LSP声道谱系数。

步骤4，通过TANDEM-STRAIGHT分析(20)得到非周期成分(26)，然后将非周期成分(26)在频域轴上分成五个带，对于16k采样的语音，频带被分为0～1000Hz，1000～2000Hz、2000～4000Hz、4000～6000Hz及6000～8000Hz五个带，在每个带内对非周期成分取平均值，再将这个值作为该频带非洲成分的加权值，因此每帧语音的非周期成分被简化为5个系数。

步骤5，将新的LSP声道谱、基频(25)及非周期成分(26)加权值一起做为语音信号的特征参数使用HMM模型训练(3)。

合成端的混合激励的生成(如图3)：

步骤1，由基频(25)来控制脉冲序列(35)和高斯白噪声(36)的生成。

步骤2，通过非周期成分(26)加权值来控制脉冲序列(35)和高斯白噪声(36)的加权混合，得到混合激励(32)。

步骤3，将混合激励(32)通过由声道参数控制的MLSA滤波器，在通过PSOLA滤波器生成最后的合成语音(13)波形。

上述实例为本发明的较佳实施例，其中声道谱参数(12)可选用MGC，相应的合成滤波器则选用MLSA滤波器，效果同样很好，但是MLSA滤波器相对于LPC滤波器对计算能力要求偏高，所以在嵌入式设备中，选择LSP系数(22)为佳。

本发明在嵌入式设备上使用时，所有的音频输入输出均可使用设备本身提供的输入输出接口。语音功能可以随时在设备上开启或关闭。在未启用语音功能时，原设备的各种功能不受任何影响。

本发明的应用可用于各种嵌入式终端设备。根据本发明的主要构思，本领域的普通技术人员均可以产生多种类低的或等价的应用。因此，本发明的保护应以权利要求的保护范围为准。

Claims

1.一种基于加权混合激励的嵌入式语音合成方法，用于嵌入式操作***，将接收到的任意文字转换成语音输出；在合成端通过混合激励代替原有的二元激励，在保证较低运算速度的同时，提高了合成语音的自然度和音质；该方法步骤如下：

A.训练：首先对语音信号提取自适应加权谱内插谱、基频及非周期成分，然后对自适应加权谱内插谱提取声道谱特征系数，并将非周期成分在5个频带内取平均值，进而通过HTS对特征系数建模得到模型、训练；

所述步骤A分为：

A1.对训练语音数据库中的语音信号进行参数提取，分别为基频、增益、自适应加权谱内插谱及非周期成分；

A2.从得到的自适应加权谱内插谱中再提取声道谱特征系数；

A3.将增益与声道谱特征系数结合成为新的声道谱特征系数；

A4.将非周期成分按照0～1KHz、1～2KHz、2～4KHz、4～6KHz及6～8KHz五个频带，然后对每个频带内的非周期成分去平均，每个频带得到一个非周期成分权值，将这5个权值作为特征参数序列的一部分；***采用一般嵌入式***较为常用的16K采样率；

A5将基频、新的声道谱系数及分带的非周期成分加权值一并作为特征参数序列进行HMM模型训练；

B.合成：通过所述模型解算出特征系数序列后，通过非周期成分加权混合激励及传统参数合成器得到合成语音；所述传统参数合成器是MLSA滤波器和/或PSOLA滤波器。

2.根据权利要求1所述的基于加权混合激励的嵌入式语音合成方法，其特征是：所述步骤B分为：

B1.通过参数解算算法从所述模型中生成基频、声道谱系数及非周期成分加权序列；

B2.由基频及非周期成分加权序列生成合成语音的激励源，采用混合激励的模型；

B3.将激励源和声道谱系数序列通过传统参数合成器得到合成语音。