CN102231275B - 一种基于加权混合激励的嵌入式语音合成方法 - Google Patents

一种基于加权混合激励的嵌入式语音合成方法 Download PDF

Info

Publication number
CN102231275B
CN102231275B CN2011101454794A CN201110145479A CN102231275B CN 102231275 B CN102231275 B CN 102231275B CN 2011101454794 A CN2011101454794 A CN 2011101454794A CN 201110145479 A CN201110145479 A CN 201110145479A CN 102231275 B CN102231275 B CN 102231275B
Authority
CN
China
Prior art keywords
periodic
composition
synthetic
coefficient
excitation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011101454794A
Other languages
English (en)
Other versions
CN102231275A (zh
Inventor
王朝民
那兴宇
谢湘
何娅玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING YUYIN TIANXIA TECHNOLOGY CO LTD
Zhuhai Hi-tech Angel Venture Capital Co.,Ltd.
Original Assignee
BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd filed Critical BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Priority to CN2011101454794A priority Critical patent/CN102231275B/zh
Publication of CN102231275A publication Critical patent/CN102231275A/zh
Application granted granted Critical
Publication of CN102231275B publication Critical patent/CN102231275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于加权混合激励的嵌入式语音合成方法,用于嵌入式操作***,将接收到的任意文字转换成语音输出。在训练端,首先对语音信号提取基频自适应加权谱内插(STRAIGHT谱)系数、基频及非周期成分;在合成端,通过基频及非周期成分构建混合激励,然后通过传统的参数合成器得到合成语音。依据本发明提供的方法在合成端通过混合激励代替原有的二元激励,在保证较低运算速度的同时,提高了合成语音的自然度和音质,达到与STRAIGHT合成器近似的效果。

Description

一种基于加权混合激励的嵌入式语音合成方法
技术领域
本发明总的来说涉及一种基于自适应加权谱内插系数的嵌入式语音合成方法,尤其是存储和运算资源有限的终端设备。
背景技术
随着移动互联网及物联网技术的蓬勃发展,手机、电子书等嵌入式设备终端逐步成为人们日常最直接的信息获取及处理途径,而语音则是最自然最直接的交互手段,因此嵌入式语音合成技术的发展乃大势所趋,具有迫切的市场应用需求。
语音合成技术的宗旨是完美再现人类的声音,也就是让机器能够模仿人类的嗓音、发音风格及韵律等特点。传统的语音合成技术是建立在基于大规模语料库的拼接合成方法上,技术简单且合成音质高,一度被广泛采用。但这种方法的音库规模大,虽然通过聚类、编码和压缩等技术手段处理后,空间可以降低,但音质受到损伤,且灵活度下降。因此,近年来基于大规模语料库的统计建模参数合成方法被广泛研究,基本思想是,对大量的原始语音库进行参数化表示和统计建模,合成时依照特定规则挑选模型构成模型序列,进一步计算得到合成语句的参数序列,通过参数化合成的方法合成符合要求的语音。通过参数化统计建模方法合成的语音具有较高的自然度和智能度。目前被大家广泛研究及采用的为基于HMM的语音合成技术。语音特征参数的选择很大程度上决定了合成语音的音质,特征参数一般包括激励源参数及声道谱参数等。一般的声道谱系数是从短时傅里叶变换谱中提取,在合成端可以直接通过传统参数合成器(如倒谱滤波器或线性预测滤波器)完成语音的合成,音质较好。近些年提出的自适应加权谱内插(STRAIGHT)语音分析合成算法通过将现有短时傅里叶变换谱中时域频域的周期性去除,得到了无周期性扰动的平滑的频谱,可以合成出更高音质的更加自然的语音。如果直接只用STRAIGHT作为谱特征从而改善原有的FFT谱虽然可以很大程度的改善语音合成音的音质和自然度,但是单纯的使用二元激励并没有完全利用STRAIGHT算法的全部优势,其非周期成分是合成高质量高自然度语音的关键,也是音质和自然度提升的主要途径。
因此,需要一种改进的方法,可以在嵌入式平台下实现占用计算资源较小的参数化语音合成***,不但能够使用STRAIGHT谱特征,还能够通过合理使用STRAIGHT算法中的非周期成分,使合成语音的音质接近STRAIGHT的合成语音。
发明内容
本发明所要解决的技术问题是将STRAIGHT的非周期成分在较低运算量的基础上通过混合激励的模式加入到合成语音的激励源中,改善原有的二元激励,使生成的合成语音具有更接近STRAIGHT合成音的音质和自然度。
为实现上述目的,本文提供了一种基于加权混合激励的嵌入式语音合成方法,用于嵌入式操作***,将接收到的任意文字转换成语音输出。在合成端通过混合激励代替原有的二元激励,在保证较低运算速度的同时,提高了合成语音的自然度和音质,达到与STRAIGHT合成器近似的效果。应用该方法的语音合成***分为下述两个部分:
A.训练部分:首先对语音信号提取STRAIGHT谱、基频及非周期成分,然后对STRAIGHT谱提取声道谱特征系数,并将非周期成分在5个频带内取平均值,进而通过HTS对特征系数建模、训练。
B.合成部分:通过模型得到解算出特征系数序列后,通过非周期成分加权混合激励及传统参数合成器得到合成语音。
以上所述的基于自适应加权谱内插系数的嵌入式语音合成方法,语音合成训练端特征系数序列的提取过程分为下述五个步骤:
A.对训练语音数据库中的语音信号进行参数提取,分别为基频、增益、STRAIGHT谱及非周期成分。
B.从得到的STRAIGHT谱中再提取声道谱特征系数。
C.将增益与声道谱特征系数结合成为新的声道谱特征系数。
D.将非周期成分按照0~1KHz、1~2KHz、2~4KHz、4~6KHz及6~8KHz五个频带,然后对每个频带内的非周期成分去平均,每个频带得到一个非周期成分权值,将这5个权值作为特征参数序列的一部分。***采用一般嵌入式***较为常用的16K采样率。
E.将基频、新的声道谱系数及分带的非周期成分加权值一并作为特征参数序列进行HMM模型训练
以上所述的基于自适应加权谱内插系数的嵌入式语音合成方法,语音合成的合成端合成器合成语音过程分为下述三个步骤:
A.通过参数解算算法从模型中生成基频、声道谱系数及非周期成分加权序列。
B.由基频及非周期成分加权序列生成合成语音的激励源,采用混合激励的模型。
C.将激励源和声道谱系数序列通过传统参数合成器得到合成语音。
下面结合附图和实施例对本发明进一步说明,通过结合附图对***各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。
附图说明
附图1基于HMM的语音合成***结构框图
附图2***特征参数序列提取示意图
附图3非周期成分加权混合激励语音合成器结构框图
图中1.语音语料数据库,2.激励源参数提取,3.HMM模型训练,4.HMM模型集,5.由HMM模型生成参数,6.文本分析,7.激励源生成,8.合成滤波,9.声道谱参数提取,10.语音信号,11.激励源参数,12.声道谱参数,13.合成语音,14.合成文本,15.训练部分,16.合成部分,17.标注文本,18.训练端特征参数提取,19.语音信号数据,20.TANDEM-STRAIGHT分析,21.STRAIGHT谱,22.LSP系数,23.新LSP系数,24.增益,25.基频,26.非周期成分,27.分5个频带取平均,28.带分加权非周期成分,29.lsp[0],27.lsp2ipc,28.LPC滤波器,29.合成端参数合成滤波,30.合成端参数合成滤波,31.lsp2lpc,32.混合激励,33.加权,34.非周期权值,35.脉冲序列,36.白噪声。
具体实施方式
如附图1所示,在本发明的实施方案中,语音合成***部署在一种嵌入式操作***中,该嵌入式语音合成***包括:语音合成训练端和合成端。其中,语音合成模型训练部分只在***线下使用,仅用于生成语音合成***工作时所需要的压缩模型库;而语音合成的合成部分则是在芯片上完成。由于本发明重在参数的提取与合成,而文本标注、文本分析、建模、训练及参数生成并不是本发明的关注点,所以下面着重介绍训练端的参数提取及参数重建,和合成端的混合激励的生成。本实施例选择了LSP系数(22)作为声道谱参数,并选用LPC滤波器(28)作为合成滤波器,语音数据为16K采样。
训练端的特征参数提取(18):
步骤1,对训练语音数据进行时域稳定功率谱估计(TANDEM-STRAIGHT算法)从而得到基频(25)、STRAIGHT谱(21)、增益(24)及非周期成分(26)。
步骤2,使用广义倒谱分析算法从STRAIGHT谱(21)中提取LPC系数,其中使用美尔广义倒谱分析的概念来转换谱系数,然后将所得的LPC系数转换成LSP系数(22)。
步骤3,将增益代替LSP的第0维参量,生成新的LSP声道谱系数。
步骤4,通过TANDEM-STRAIGHT分析(20)得到非周期成分(26),然后将非周期成分(26)在频域轴上分成五个带,对于16k采样的语音,频带被分为0~1000Hz,1000~2000Hz、2000~4000Hz、4000~6000Hz及6000~8000Hz五个带,在每个带内对非周期成分取平均值,再将这个值作为该频带非洲成分的加权值,因此每帧语音的非周期成分被简化为5个系数。
步骤5,将新的LSP声道谱、基频(25)及非周期成分(26)加权值一起做为语音信号的特征参数使用HMM模型训练(3)。
合成端的混合激励的生成(如图3):
步骤1,由基频(25)来控制脉冲序列(35)和高斯白噪声(36)的生成。
步骤2,通过非周期成分(26)加权值来控制脉冲序列(35)和高斯白噪声(36)的加权混合,得到混合激励(32)。
步骤3,将混合激励(32)通过由声道参数控制的MLSA滤波器,在通过PSOLA滤波器生成最后的合成语音(13)波形。
上述实例为本发明的较佳实施例,其中声道谱参数(12)可选用MGC,相应的合成滤波器则选用MLSA滤波器,效果同样很好,但是MLSA滤波器相对于LPC滤波器对计算能力要求偏高,所以在嵌入式设备中,选择LSP系数(22)为佳。
本发明在嵌入式设备上使用时,所有的音频输入输出均可使用设备本身提供的输入输出接口。语音功能可以随时在设备上开启或关闭。在未启用语音功能时,原设备的各种功能不受任何影响。
本发明的应用可用于各种嵌入式终端设备。根据本发明的主要构思,本领域的普通技术人员均可以产生多种类低的或等价的应用。因此,本发明的保护应以权利要求的保护范围为准。

Claims (2)

1.一种基于加权混合激励的嵌入式语音合成方法,用于嵌入式操作***,将接收到的任意文字转换成语音输出;在合成端通过混合激励代替原有的二元激励,在保证较低运算速度的同时,提高了合成语音的自然度和音质;该方法步骤如下:
A.训练:首先对语音信号提取自适应加权谱内插谱、基频及非周期成分,然后对自适应加权谱内插谱提取声道谱特征系数,并将非周期成分在5个频带内取平均值,进而通过HTS对特征系数建模得到模型、训练;
所述步骤A分为:
A1.对训练语音数据库中的语音信号进行参数提取,分别为基频、增益、自适应加权谱内插谱及非周期成分;
A2.从得到的自适应加权谱内插谱中再提取声道谱特征系数;
A3.将增益与声道谱特征系数结合成为新的声道谱特征系数;
A4.将非周期成分按照0~1KHz、1~2KHz、2~4KHz、4~6KHz及6~8KHz五个频带,然后对每个频带内的非周期成分去平均,每个频带得到一个非周期成分权值,将这5个权值作为特征参数序列的一部分;***采用一般嵌入式***较为常用的16K采样率;
A5将基频、新的声道谱系数及分带的非周期成分加权值一并作为特征参数序列进行HMM模型训练;
B.合成:通过所述模型解算出特征系数序列后,通过非周期成分加权混合激励及传统参数合成器得到合成语音;所述传统参数合成器是MLSA滤波器和/或PSOLA滤波器。
2.根据权利要求1所述的基于加权混合激励的嵌入式语音合成方法,其特征是:所述步骤B分为:
B1.通过参数解算算法从所述模型中生成基频、声道谱系数及非周期成分加权序列;
B2.由基频及非周期成分加权序列生成合成语音的激励源,采用混合激励的模型;
B3.将激励源和声道谱系数序列通过传统参数合成器得到合成语音。
CN2011101454794A 2011-06-01 2011-06-01 一种基于加权混合激励的嵌入式语音合成方法 Active CN102231275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101454794A CN102231275B (zh) 2011-06-01 2011-06-01 一种基于加权混合激励的嵌入式语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101454794A CN102231275B (zh) 2011-06-01 2011-06-01 一种基于加权混合激励的嵌入式语音合成方法

Publications (2)

Publication Number Publication Date
CN102231275A CN102231275A (zh) 2011-11-02
CN102231275B true CN102231275B (zh) 2013-10-16

Family

ID=44843835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101454794A Active CN102231275B (zh) 2011-06-01 2011-06-01 一种基于加权混合激励的嵌入式语音合成方法

Country Status (1)

Country Link
CN (1) CN102231275B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104282300A (zh) * 2013-07-05 2015-01-14 ***通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
CA3004700C (en) * 2015-10-06 2021-03-23 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN105206259A (zh) * 2015-11-03 2015-12-30 常州工学院 一种语音转换方法
CN108184032B (zh) * 2016-12-07 2020-02-21 ***通信有限公司研究院 一种客服***的服务方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
CN101950559A (zh) * 2010-07-05 2011-01-19 李华东 大词汇量连续语音合成方法及终端设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
.基于STRAIGHT模型和人工神经网络的语音转换.《电声技术》.2010, *
张正军 *
杨卫英 *
陈赞 *

Also Published As

Publication number Publication date
CN102231275A (zh) 2011-11-02

Similar Documents

Publication Publication Date Title
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
Erro et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis
Childers et al. Voice conversion
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
US8386256B2 (en) Method, apparatus and computer program product for providing real glottal pulses in HMM-based text-to-speech synthesis
US20190172442A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CA3004700C (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN102231275B (zh) 一种基于加权混合激励的嵌入式语音合成方法
CN113241082A (zh) 变声方法、装置、设备和介质
CN101887719A (zh) 语音合成方法、***及具有语音合成功能的移动终端设备
Huber et al. On glottal source shape parameter transformation using a novel deterministic and stochastic speech analysis and synthesis system
JP2018077283A (ja) 音声合成方法
CN104282300A (zh) 一种非周期成分音节模型建立、及语音合成的方法和设备
Rao Unconstrained pitch contour modification using instants of significant excitation
CN111862931A (zh) 一种语音生成方法及装置
Drugman et al. A comparative evaluation of pitch modification techniques
CN102214463A (zh) 一种基于自适应加权谱内插系数的嵌入式语音合成方法
JP6834370B2 (ja) 音声合成方法
Nguyen et al. Spectral modification for voice gender conversion using temporal decomposition
Lehana et al. Speech synthesis in Indian languages
JP2018077280A (ja) 音声合成方法
Roebel Between physics and perception: Signal models for high level audio processing
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
Roddy et al. A method of morphing spectral envelopes of the singing voice for use with backing vocals
Mehta et al. Pitch-scale modification using the modulated aspiration noise source

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ZHUHAI YUYIN TIANXIA TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: BEIJING YUYIN TIANXIA TECHNOLOGY CO., LTD.

Effective date: 20140708

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100085 HAIDIAN, BEIJING TO: 519000 ZHUHAI, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140708

Address after: 519000 Guangdong city of Zhuhai province high tech Zone Tangjiawan Town Road No. 101, University of Tsinghua Science Park (Zhuhai) business building A A1013

Patentee after: Zhuhai Yu World Technology Co.,Ltd.

Address before: 100085, room 15, 915 information road, Beijing, Haidian District

Patentee before: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170105

Address after: 518057 Guangdong city of Shenzhen province Nanshan District science and Technology Park North Yuanxing Technology Building 406 North Block

Patentee after: SHENZHEN AVSNEST TECHNOLOGY CO.,LTD.

Address before: The financial trade No. 15 building, 100085 Beijing city Haidian District information Road Room 915

Patentee before: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

Effective date of registration: 20170105

Address after: The financial trade No. 15 building, 100085 Beijing city Haidian District information Road Room 915

Patentee after: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

Address before: 519000 Guangdong city of Zhuhai province high tech Zone Tangjiawan Town Road No. 101, University of Tsinghua Science Park (Zhuhai) business building A A1013

Patentee before: Zhuhai Yu World Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181023

Address after: 519000 Tsinghua Science and Technology Park (Zhuhai) Pioneering Building A Block A1013, 101 University Road, Tangjiawan Town, Zhuhai High-tech Zone, Guangdong Province

Patentee after: Zhuhai Yu World Technology Co.,Ltd.

Address before: 518057 Guangdong North Shenzhen science and Technology Park, north of Nanshan District science and technology tower, 406

Patentee before: SHENZHEN AVSNEST TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190104

Address after: 100085 room 915, finance and trade building, 15 Information Road, Haidian District, Beijing.

Co-patentee after: Zhuhai Hi-tech Angel Venture Capital Co.,Ltd.

Patentee after: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

Address before: 519000 Tsinghua Science and Technology Park (Zhuhai) Pioneering Building A Block A1013, 101 University Road, Tangjiawan Town, Zhuhai High-tech Zone, Guangdong Province

Patentee before: Zhuhai Yu World Technology Co.,Ltd.