CN102664003B

CN102664003B - 基于谐波加噪声模型的残差激励信号合成及语音转换方法

Info

Publication number: CN102664003B
Application number: CN2012101218866A
Authority: CN
Inventors: 解伟超; 张玲华; 吴丽芳
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2012-04-24
Filing date: 2012-04-24
Publication date: 2013-12-04
Anticipated expiration: 2032-04-24
Also published as: CN102664003A

Abstract

本发明公开一种基于谐波加噪声模型的残差激励信号合成及语音转换方法，属于语音信号处理领域，包含以下步骤：预处理与清浊音判断；谐波参数的提取；声道谱参数的计算；建立声道谱转换规则；特征参数的转换；残差激励的预测；语音合成与残差补偿。本发明在建立激励信号时，在经HNM分析提取出的浊音帧谐波信号的残差信号的基础上线性叠加上适度的HNM分析同时产生的剩余信号作为预测的激励源信号，从而有效的增强激励源中含有的说话人超音段特征，同时避免传统方法人为修改激励信号引入的失真；在合成阶段，在合成出的语音中再次逐帧叠加上适度的HNM分析出的目标浊音帧谐波信号的残差，使转换出的语音更具目标说话人个性，改善语音质量。

Description

基于谐波加噪声模型的残差激励信号合成及语音转换方法

技术领域

本发明涉及语音转换技术，特别涉及基于谐波加噪声模型的残差激励信号合成及语音转换方法，属于语音信号处理技术领域。

背景技术

语音转换是语音信号处理领域近年来新兴的研究分支，是在说话人识别和语音合成的研究基础上进行的，同时也是这两个分支内涵的丰富和延拓，但是又不完全隶属于说话人识别和语音合成的范畴。

语音转换的目标是在保证其中的语义信息保持不变的条件下，改变源说话人语音中的个性特征信息，使之具有目标说话人的个性特征，从而使转换后的语音听起来就像是目标说话人的声音。语音转换的实现可以分为训练阶段和转换阶段。在训练阶段，***对源说话人和目标说话人进行训练，分析他们的参数，建立转换规则。在转换阶段，先对源语音进行分析并提取语音特征，再根据由训练阶段得到的语音转换规则进行转换得到目标语音特征。

语音信号的特征分为音段信息和超音段信息两类。音段特征描述的是语音的音色特征，主要包括声道共振峰的位置、共振峰的带宽、频谱倾斜、基音频率等。超音段特征描述的是语音的韵律特征及激励源信息，特征参数主要包括音素的时长、能量、周期的变化轮廓以及谱包络的变化等动态特征等。

语音转换的关键问题在于说话人个性特征的提取以及转换规则的建立，经过近二十年的发展，涌现出大量的研究成果。目前对语音特征参数的研究主要集中与语音信号的音段特征，而对语音信号激励源超音段特征涉及的不多。当前对语音信号激励源估计的主要方法有基于线性预测编码（Linear Prediction Coding，LPC）模型的残差预测法。但是线性预测技术得到的残差信号（Residual signal）作为激励时，含有的目标说话人个性较少，并且残差信号中能量较低，造成转换后语音质量较差；（1、Suendermann D, Bonafonte A, Ney H, Hoege H, “A Study on Residual Prediction Techniques for Voice Conversion”, proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, vol.1, pp.13-16, 2005. 2、Percybrooks W.S, Moore E, “Voice conversion with linear prediction residual estimation”, proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pp.4673 – 4676, March 2008.）此外，现有的语音转换***中也有用通过求取基音频率的平均值来计算基音频率的压扩比，或者通过时长***、剪切等方式人为地修改激励源信号。但是由于语音信号激励源超音段信号特征多于说话人当时的状态有关，受到说话人所处的环境的影响。因此，人为的修改激励信号必然不能准确描述语音的激励源超音段信息，并且引入失真。（3、Xuejing Sun, “Voice quality conversion in TD-PSOLA speech synthesis”, proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol.2, pp. II953 - II956, 2000. 4、Wang Yuan-yuan, Yang Shun, “Speech synthesis based on PSOLA algorithm and modified pitch parameters”, International Conference on Computational Problem-Solving (ICCP), pp. 296 - 299, 2010.）。

发明内容

本发明的目的在于提供一种结合语音信号特点和说话人个性特征在平行文本下的语音转换算法，重点研究语音信号在激励源超音段信息的提取与预测，通过对激励源信号的改善及转换后语音的补偿，增强合成语音中目标说话人的个性并且提高转换***的性能。

为了实现上述发明目的，本发明采用了如下技术方案：

一种基于谐波加噪声模型的残差激励信号合成及语音转换方法，具体步骤如下：

第一步，预处理与清浊音判断，即分别对源语音和目标语音进行预加重、分帧和加窗处理，计算每一帧的短时能量和平均过零率，完成清浊音的判决；

第二步，谐波参数的提取，即利用谐波加噪声模型(Harmonic plus Noise Model，HNM)模型分别对源语音和目标语音的浊语音帧进行分析，首先计算浊音帧信号的基音频率，然后HNM模型将浊音帧分解为谐波信号和宽带随机信号，计算谐波个数，提取谐波信号的幅值、相位和各次谐波频率，对于清音看作随机噪声保留不变；

第三步，声道谱参数的计算，即分别对源语音与目标语音的浊音信号提取出的各阶谐波的幅值进行变换，将幅值的平方作为离散功率的采样值，经快速傅立叶逆变换（Inverse Fast Fourier Transformation，IFFT）得到自相关系数，再经Levinson-Durbin算法进行LPC分析，得到源语音与目标语音的线性谱频率（Linear Spectral Frequency，LSF）参数和相对应的残差信号；

第四步，建立声道谱转换规则，将源语音与目标语音的LSF参数经过动态时间规整（Dynamic Time Warping，DTW）后，送入高斯混合模型（Gaussian Mixture Model，GMM）进行概率建模；

第五步特征参数的转换，即先对待转换语音经HNM分析，按照上述第二步与第三步的方法，提取待转换的LSF参数及残差信号，将待转换的LSF参数送入第四步建立的GMM转换规则进行转换；

第六步，残差激励的预测，即首先逐帧找出与转换后的LSF参数最接近的目标LSF参数，然后利用该目标LSF参数对应的残差信号与该帧经HNM分析后剩余的随机信号线性叠加，作为残差激励信号；

第七步，语音合成与残差补偿，即首先由上述第五步和第六步得到的转换后的LSF参数和残差激励信号，基于LPC合成模型得到转换出的每帧语音信号，然后将转换出的每帧语音信号再次叠加上对应的适度目标残差信号，经重叠相加后最终得到合成出的语音。

本发明与现有技术相比，其显著优点：（1）建立激励信号时，在经HNM分析提取出的浊音帧谐波信号的残差信号的基础上，线性叠加上适度的该HNM分析同时产生的剩余信号（宽带随机信号）作为预测的激励源信号，这样能有效的增强激励源中含有的说话人超音段特征，同时避免传统方法人为修改激励信号引入的失真；（2）合成阶段，在合成出的语音中再次逐帧叠加上适度的HNM分析出的目标浊音帧谐波信号的残差，使得转换出的语音更具有目标说话人个性，改善语音质量。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明基于谐波加噪声模型的残差激励信号合成及语音转换方法示意图；

图2是特征参数的提取与转换规则建立的示意图；

图3是特征参数的转换与基于HNM模型的残差激励信号预测的示意图；

图4是第i帧浊语音参数转换及语音合成的示意图。

具体实施方式

结合图1，基于谐波加噪声模型的残差激励信号合成及语音转换方法，步骤如下：

第一步，在训练阶段先进行预处理与清浊音判断，即分别对源语音和目标语音进行预加重、分帧和加窗处理，计算每一帧的短时能量和平均过零率，完成清浊音的判决，具体过程如下：

（1）对源语音和目标语音信号分别进行预处理，预加重系数为0.96，按帧长20ms分帧，无重叠，之后使用汉明窗进行加窗处理；

（2）逐帧计算短时能量

和

短时过零率

Figure 2012101218866100002DEST_PATH_IMAGE002

，其中

Figure 2012101218866100002DEST_PATH_IMAGE003

是经加窗后的第i帧语音信号，并且帧长为

Figure 2012101218866100002DEST_PATH_IMAGE004

，采用双门限法进行清浊音的判决；

第二步，谐波参数的提取，如图2所示，利用HNM模型分别对源语音和目标语音的浊语音帧进行分析，首先计算浊音帧信号的基音频率，然后HNM模型将浊音帧分解为谐波信号和宽带随机信号，计算谐波个数，提取谐波信号的幅值，相位和各次谐波频率；对于清音看作随机噪声保留不变，具体过程如下：

（1）用归一化互相关法分别计算源语音和目标语音当前帧的基音频率

Figure 2012101218866100002DEST_PATH_IMAGE005

；

（2）分别对源语音和目标语音进行分析，若当前帧为浊音帧

Figure 2012101218866100002DEST_PATH_IMAGE006

（其中

，N为帧长），将其分解为谐波成分及随机成分

，首先，确定最高谐波个数

Figure 2012101218866100002DEST_PATH_IMAGE010

，其中

为采样频率。目标函数为

Figure 2012101218866100002DEST_PATH_IMAGE012

，其中表示汉明窗（hamming），在最小二乘准则下估计复幅值

Figure 2012101218866100002DEST_PATH_IMAGE014

，那么谐波成分的实幅度可表示为，实相位可表示为

；

（3）在相邻两帧之间对和

进行插值，使得两者分别变为时变值

Figure 2012101218866100002DEST_PATH_IMAGE020

和

，同样地对谐波个数L进行线性插值使其变为时变值

Figure 2012101218866100002DEST_PATH_IMAGE022

。假设分析的相邻两帧为第k帧和第k+1帧，且它们的中心分别位于样点n=kN和n=(k+1)N上，对幅值和谐波个数进行线性插值，对相位进行三次多项式插值：

，

Figure 2012101218866100002DEST_PATH_IMAGE024

，

，

Figure 2012101218866100002DEST_PATH_IMAGE026

为l次谐波角频率，则多项式插值系数：

，

Figure 2012101218866100002DEST_PATH_IMAGE030

，

因此，一帧信号的谐波部分可以表示为

，则剩余的随机信号可以表示为；

（4）若当前帧为清音则看为随机噪声，由于清音中信息较少故保留清音信号不变；

第三步，声道谱参数的计算，如图2所示，首先分别对源语音与目标语音的浊音信号提取出的各阶谐波的幅值进行变换，将幅值的平方作为离散功率的采样值，经IFFT变换得到自相关系数，再经Levinson-Durbin算法进行LPC分析，得到源语音与目标语音的LSF参数和相对应的残差信号，具体过程如下（逐帧计算）：

（1）计算L个离散幅度值的平方值，认为是离散功率谱的采样值

Figure 2012101218866100002DEST_PATH_IMAGE034

，其中

为第l次谐波角频率，

Figure 2012101218866100002DEST_PATH_IMAGE036

；

（2）将

进行IFFT变换得到自相关系数

，经Levinson-Durbin算法求得P阶LPC系数

Figure 2012101218866100002DEST_PATH_IMAGE038

，并进一步转换为LSF参数；

（3）由LPC系数构造线性预测逆滤波器，其Z变换表达式为，语音通过

Figure 2012101218866100002DEST_PATH_IMAGE040

便可得到该帧LPC分析后的残差信号；

第四步，建立声道谱转换规则，如图2所示，将源语音与目标语音的LSF参数经过DTW规整后，送入GMM模型进行概率建模，具体过程如下：

（1）将源语音信号与目标语音浊音帧谐波提取出的LSF参数，经过DTW时间对齐，并且记录下DTW返回的对齐LSF的下标；

（2）根据DTW返回的对齐LSF的下标，将源语音与目标语音浊音帧的谐波的残差信号进行对齐，同样地将源语音与目标语音浊音帧经HNM分析后剩余的随机信号对齐；

（3）将对齐的源LSF参数与目标LSF参数组成联合参数送入GMM模型，建立声道谱转换函数；

第五步，特征参数的转换，如图3所示，先对待转换语音经HNM分析，按照上述第二步与第三步的方法，提取待转换的LSF参数及残差信号。将待转换的LSF参数送入第四步建立的GMM转换规则进行转换，具体过程如下：

（1）将待转换语音信号如上述步骤所述，进行预处理、分帧，经HNM分析提取谐波参数，计算声道谱参数并转换为LSF参数；

（2）将待转换的每帧LSF参数利用建立好的GMM规则进行转换，得到转换后的LSF参数；

第六步，残差激励的预测，如图3所示，首先逐帧找出与转换后的LSF参数最接近的目标LSF参数，然后利用该目标LSF参数对应的残差信号与该帧经HNM分析后剩余的随机信号线性叠加，作为残差激励信号，具体过程如下：

（1）对于转换出的LSF参数逐帧找出与其最接近的目标LSF参数，确定该目标LSF参数对应的残差信号及HNM分析时剩余的随机信号；

（2）将目标残差信号及HNM分析时剩余的随机信号线性叠加，作为残差激励信号；

第七步，语音合成与残差补偿，如图4所示，首先由上述第五步和第六步得到的转换后的LSF参数和残差激励信号，基于LPC合成模型得到转换出的每帧语音信号，然后将转换出的每帧语音信号再次叠加上对应的适度目标残差信号，经重叠相加后最终得到合成出的语音，具体过程如下：

（1）将上述步骤得到的转换后的LSF参数转换为LPC系数，逐帧由LPC系数建立滤波器，再将预测出的残差激励信号通过该滤波器，得到转换后的语音；

（2）将每帧转换后的语音信号再次叠加上对应的适度目标残差信号，根据实验经验一般需要对残差信号进行适度的放大，补偿时可将残差信号放大至原来的2~5倍，然后各帧语音经拼接后便可得到最终的合成语音。

Claims

1.基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于包含以下步骤：

第二步，谐波参数的提取，即利用HNM模型分别对源语音和目标语音的浊语音帧进行分析，首先计算浊音帧信号的基音频率，然后HNM模型将浊音帧分解为谐波信号和宽带随机信号，计算谐波个数，提取谐波信号的幅值、相位和各次谐波频率，对于清音看作随机噪声保留不变；

第三步，声道谱参数的计算，即分别对源语音与目标语音的浊音信号提取出的各阶谐波的幅值进行变换，将幅值的平方作为离散功率的采样值，经IFFT变换得到自相关系数，再经Levinson-Durbin算法进行LPC分析，得到源语音与目标语音的LSF参数和相对应的残差信号；

第四步，建立声道谱转换规则，将源语音与目标语音的LSF参数经过DTW规整后，送入GMM模型进行概率建模；

第五步，特征参数的转换，即先对待转换语音经HNM分析，按照上述第二步与第三步的方法，提取待转换的LSF参数及残差信号，将待转换的LSF参数送入第四步建立的声道谱转换规则进行转换；

第七步，语音合成与残差补偿，即首先由上述第五步和第六步得到的转换后的LSF参数和残差激励信号，基于LPC合成模型得到转换出的每帧语音信号，并将第六步找出的所述目标LSF参数对应的残差信号放大2～5倍，再将放大后的残差信号与转换出的语音逐帧叠加，最终得到合成出的语音。

2.根据权利要求1所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于预处理与清浊音判断的具体过程如下：

第一步，对源语音和目标语音信号分别进行预处理，预加重系数为0.96，按帧长20ms分帧，无重叠，之后使用汉明窗进行加窗处理；

第二步，逐帧计算短时能量

和

短时过零率

其中x_i(m)是经加窗后的第i帧语音信号，并且帧长为N，采用双门限法进行清浊音的判决。

3.根据权利要求1所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于谐波参数的提取过程如下：

第一步，用归一化互相关法分别计算源语音和目标语音当前帧的基音频率f₀；

第二步，分别对源语音和目标语音进行分析，若当前帧为浊音帧s(n)，其中1≤n≤N，N为帧长，将其分解为谐波成分s_h(n)及随机成分e(n)，首先，确定最高谐波个数其中f_s为采样频率，目标函数为其中w(n)表示汉明窗，在最小二乘准则下估计复幅值{C_l,l=-L,-L+1,…,L}，谐波成分的实幅度{A_l}表示为A_l=2|C_l|=2|C_-l|，实相位表示为