CN103258543B

CN103258543B - 一种人工语音带宽扩展的方法

Info

Publication number: CN103258543B
Application number: CN201310130081.2A
Authority: CN
Inventors: 陈喆; 殷福亮; 彭雯雯
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2013-04-12
Filing date: 2013-04-12
Publication date: 2015-06-03
Anticipated expiration: 2033-04-12
Also published as: CN103258543A

Abstract

本发明公开了一种人工语音带宽扩展的方法。其工作过程如下：窄带语音信号经过曲线拟合模块后输入到外推高频包络模块处理，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，利用线性预测系数构造自回归模型及滤波模块，将白噪声通过此AR模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与原始窄带语音信号经过语音合成模块得到宽带语音。

Description

一种人工语音带宽扩展的方法

技术领域

本发明涉及一种人工语音带宽扩展的方法，属于数字信号处理技术领域。

背景技术

目前，公用电话网(PSTN)有效频率范围仅是0.3～3.4KHz，GSM数字蜂窝电话有效带宽不超过4KHz。尽管语言信号的主要能量集中在0.3～3.4KHz频率范围，但实际占用的频率范围要大的多。4KHz窄带语音由于缺失了高频分量，其自然度，可懂度等方面明显变差，听起来“闷闷”的。

发明内容

为了克服上述的不足，本发明的目的在于提供一种人工语音带宽扩展的方法。

一种人工语音带宽扩展的方法，其工作过程如下：

窄带语音信号经过曲线拟合模块后经过外推高频包络模块，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，利用线性预测系数后构造自回归模型及滤波模块，将白噪声通过此自回归模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与窄带语音信号经过语音合成模块得到宽带语音。

本发明原理及有益效果：保持算法复杂度较低的优点，产生与真实激励相关性较高的人工激励。本发明首先对已知的低频对数域频谱进行曲线拟合，得到曲线方程，进而外推出高频对数域频谱包络曲线。从窄带语音中低频参数，利用线性预测系数构成自回归模型，使用均匀白噪声序列通过此自回归模型，得到高频噪声序列。此高频噪声序列是与窄带语音具有一定相关性的白噪声，将其转换为对数域频谱，再经过高频对数频谱包络的调制，即可恢复出高频语音，并在复倒谱域合成宽带语音。本发明是一种全盲语音带宽扩展技术，可直接应用于窄带语音接收端。本发明不需要任何先验知识或高频信息，算法复杂度较低，可以恢复出与低频相关性较高的高频部分，且合成的宽带语音听觉效果良好。

附图说明

图1是本发明的流程图。

图2是本发明的宽带语音合成过程。

图3(a)原始宽带语音语谱图。

图3(b)窄带语音语谱图。

图3(c)带宽扩展后的语音语谱图。

图4(a)本发明算法输出和自适应变速率语音编解码器在编码速率为12.2kbps时的输出对比结果分布图。

图4(b)本发明算法输出和宽带自适应变速率语音编解码器在编码速率为8.85kbps时的输出对比结果分布图。

图5窄带语音和本发明合成的宽带语音的谱失真测度图。

图6显示主观测试标准。

具体实施方式

下面结合附图对本发明做进一步说明。

图1是本发明的流程图。如图1所示：

窄带语音信号经过曲线拟合模块后经过外推高频包络模块，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，构造自回归模型及滤波模块，将白噪声通过此AR模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与窄带语音信号经过语音合成模块得到宽带语音。

曲线拟合模块

本模块采用曲线拟合的方法得到窄带语音低频对数频谱包络曲线方程，通过曲线方程外推出高频对数频谱包络。选取低频部分的共振峰值作为曲线拟合的输入。首先输入8kHz采样的窄带语音，估计基音周期，并将时域信号转换到对数频域中，通过估计的基音周期搜索对数频域峰值点，再经过曲线拟合技术描述共振峰的变化曲线，进而外推出高频对数频谱包络曲线。

首先，对窄带语音分帧处理，帧长为128，帧间重叠64个采样点。采用频域方法即计算信号的相关性来计算本帧语音的基音周期T。设输入窄带语音为x(n)，自相关函数R(k)为

R (k) = Σ_{n = 0}^{N - 1} x (n) x (n - k)

其中，N为帧长，所述N=128，在相关延迟k=20～143范围内搜索R(k)的最大值的位置k'，k'即为基音周期的估值T。将窄带语音x(n)做傅立叶变换，然后转换到对数频域，搜索出对数频域中第一个共振峰，第一个共振峰设为p₀。由于基因周期的大小与共振峰的间距大致相等，通过已确定的第一个共振峰p₀和基因周期T，即可搜索出其他的低频共振峰。搜索其他低频共振峰时，只需要在与前一共振峰距离为T的点附近搜索，即可得到其他共振峰的准确位置，设其幅值为lo_env(ω)，即低频对数频谱包络，所对应的频率点ω。lo_env(ω)和ω作为曲线拟合的输入。

将低频对数频谱包络lo_env(ω)与低频频点ω建立映射关系

lo_env(ω)＝a·e^bω+c·e^dω， ω＝0～2π×4000

得到拟合函数中的参数a，b，c，d，既确定映射公式。

外推高频包络模块

通过已确定的映射公式，将高频频率点代入公式，对未知的高频频谱包络数据hi_env(ω)进行外推，外推出高频对数频谱包络hi_env(ω)

hi_env(ω)＝a·e^bω+c·e^dω， ω＝2π×4000～2π×8000。

特征提取模块

对窄带语音进行线性预测分析，每帧得到一组线性预测系数，构造自回归模型。首先使用窄带语音构造自回归模型。对每一长度为N(N=128)的语音帧x(n)进行线性预测分析，即计算每一加窗语音帧的自相关函数，并使用Levinson-Durbin算法将其转换成线性预测系数，具体步骤如下。

这里使用Hamming窗window(n)＝0.5-0.5cos(2πn/N)，n=0,1,…,N-1对输入语音信号x(n)进行加窗处理，加窗后语音x'(n)为

x'(n)＝x(n)·window(n)，

计算自相关函数

R (k) = Σ_{n = k}^{N - 1} x^{'} (n) x^{'} (n - k),

k＝0,1,...,N-1，N为正整数。

通过求解以下方程组可获得L阶线性预测系数a_i，i＝1,2,…,L，L为正整数。

Σ_{i = 1}^{L} a_{i} R (| i - k |) = - R (k),

k＝1,...,L，L为正整数。

采用Levinson-Durbin算法，求解上述方程组，可获得线性预测系数a_i，i＝1，.2..，L。

构造自回归模型及滤波模块

由低频语音线性预测系数a_i，i＝1,...,L构造合成滤波器，即

H (z) = \frac{G}{1 - Σ_{i = 1}^{L} a_{i} z^{- i}},

其中，L为自回归模型阶数，所述L为正整数，L为8～20之间某个整数，G为0.1～l之间的某个小数。本发明的实施例设置L＝l0，G＝1为最优实施方案。

将白噪声通过此合成滤波器进行处理，产生与低频语音相关的随机序列。白噪声序列的产生方法为

w(n)＝[w(n-1)·31821+13849]，

其中，w(0)=0。

白噪声序列w(n)通过上述合成滤波器后，输出高频噪声序列y(n)，即

y (n) = w (n) + Σ_{i = 1}^{L} a_{i} y (n - i),

其中，a_i为合成滤波器系数。为了限定高频部分能量，将高频噪声序列y(n)进行归一化处理，即

y (n) = \frac{y (n)}{Σ_{i = 0}^{N - 1} \sqrt{y (n) \cdot y (n)}},

其中，N为帧长，本发明建议设置N=128。

频谱成型模块

利用上面估计的高频对数频域包络hi_env(ω)对高频噪声序列进行调制^[7]。首先，对高频噪声序列y(n)进行傅立叶变换，再将其转换到对数域，得到高频噪声序列的频域对数值C_y(ω)。使用高频对数频谱包络对高频噪声序列频谱进行调制，得到高频语音的频谱对数值C_wide(ω)

C_wide(ω)＝C_y(w)·hi_env(w)，

设高频语音的频域值以及高频语音时域值分别用S_wide(ω)和S_wide(n)表示，则有

S_wide(ω)＝exp(C_wide(ω))， (1)

s_wide(n)＝IFFT(S_wide(ω))， (2)

其中，exp()是指数运算，IFFT()为逆傅里叶变换。经过式(1)、式(2)逆变换过程，即可得到高频语音。

语音合成模块

本发明利用复倒谱的特点，将语音的高频部分与低频部分合成^[8]，进而得到合成后的宽带语音。语音的合成过程如图2所示。

将采样频率为8KHz的窄带信号通过插值的方法提高采样率，提升为16KHz，经过复倒谱计算过程得到窄带语音的复倒谱，高频语音同样经过复倒谱计算过程得到高频语音的复倒谱。将窄带语音和高频语音的复倒谱分别转换到频域，窄带语音的频域幅值做如下处理：

C_wide(ω)＝C_narrow(ω)+C_high(ω)

其中，C_narrow(ω)和C_high(ω)分别为窄带语音和高频语音的复倒谱频域值；C_wide(ω)为合成的宽带复倒谱的频域值。再经过逆傅立叶变换，得到宽带语音的复倒谱，最后经过复倒谱的逆过程，得到合成后的宽带语音。如图2所示。

本发明是一种全盲语音带宽扩展技术，可直接应用于窄带语音接收端。本发明不需要任何先验知识或高频信息，算法复杂度较低，可以恢复出与低频相关性较高的高频部分，且合成的宽带语音听觉效果良好。

为了验证本发明的有效性，进行了客观测试和主观测试。

客观测试结果

谱失真测度和语谱图是客观表现语音质量的有效方法。不失一般性，在客观测试环节选用计算谱失真测度和绘制语谱图的方法。

谱失真测度的定义为

D_{HC}^{2} = \frac{1}{k} Σ_{k = 1}^{k} {&Integral;}_{0.25 ω}^{0.5 ω} {[20 \log_{10} (\frac{A_{k} (ω)}{A_{k}^{'} (ω)}) + G_{C}]}^{2} dω,

G_{C} = \frac{1}{0.25 ω_{s}} {&Integral;}_{0.25 ω_{s}}^{0.5 ω_{s}} 20 \log_{10} (\frac{A_{k}^{'} (ω)}{A_{k} (ω)}) dω,

其中，ω_s为2π，G_C为增益补偿因子，它可有效地去除两个原始包络之间的均方误差，K为总的语音帧数，A_k(ω)和A'_k(ω)分别为第k帧原始参考语音和被测试语音的谱包络，计算公式如下

A_{k} (ω) = | Σ_{n = 0}^{N - 1} x (n) e^{- jωn} |,

A_{k}^{'} (ω) = | Σ_{n = 0}^{N - 1} x^{'} (n) e^{- jωn} |,

本发明建议设置N=128，x(n)和x′(n)分别代表原始参考语音和被测试语音，这里原始参考语音即为原始宽带语音，被测试语音为原始窄带语音或合成的宽带语音。

分别对原始窄带语音和使用本算法合成的宽带语音按照上述方式计算谱失真测度。测试结果见图5。从图5中可以看出，本文算法合成的宽带语音的谱失真较窄带语音的谱失真明显减小，说明本文算法能较好的估计出高频语音并合成宽带语音。

语谱图是用灰度图像表示一段语音中频谱的能量信息，图像越亮的部分说明该部分能量越大，越暗的部分说明此部分频谱的能量越小。语谱图能够直观地表现出语音中频率的变化，因此，为了更直观地对比频谱差异，给出了测试语音中成年男子的窄带语音，原始宽带语音以及经过本文盲带宽扩展算法合成的宽带语音的语谱图，如图3(a)、(b)、(c)所示。从图3(a)是原始语音信号的语谱图，可以看出，语谱图在0～8KHz频率范围内都是较亮的。图3(b)是窄带语音信号的语谱图，窄带语音的语谱图在4～8KHz频率范围内非常暗，说明在高频部分能量非常小，所以窄带语音听起来不够自然。图3(c)是本发明提出的盲带宽扩展算法输出语音的语谱图，在4～8KHz频率范围，语谱图明显变亮，说明语音的高频分量明显增加。

主观测试结果

主观测试采用国际上常用的主观测试评分标准方法，即比较平均意见评分。图6给出了主观测试评分标准，评分范围为-3～+3之间。

本发明选取的测试语音如下：(1)自适应变速率语音编解码器在编码速率为12.2kbps下输出的窄带电话语音；(2)宽带自适应变速率语音编解码器在编码速率为8.85kbps下输出的宽带电话语音；(3)自适应变速率语音编解码器在编码速率为12.2kbps下输出的窄带电话语音经过本发明提出的新的盲带宽扩展算法之后的宽带电话语音。

窄带电话语音经过本发明提出的新的盲带宽扩展算法之后的宽带电话语音与自适应变速率语音编解码器在编码速率为12.2kbps下输出的窄带电话语音作为第一组测试语音；窄带电话语音经过本发明提出的新的盲带宽扩展算法之后的宽带电话语音与宽带自适应变速率语音编解码器在编码速率为8.85kbps下输出的宽带电话语音作为第二组测试语音。每段语音都将被限幅为-26分贝。

在主观测试中，邀请20位听众(10男10女)在同一环境中测试，测试主体的年龄均为20岁～40岁之间，并在半年内没有参加过任何语音方面的相关主观测试。在测试开始前，将带宽扩展后的效果向听众展示，并告知听众需要对语音的两个主要方面进行评价，评价语音质量和感受扩展出的高频分量。当测试主体理解了指导，他们首先将收听初步的情行，并给出他们的意见。测试时，每组测试语音按照任意顺序展示给测试主体，并允许他们无限制地重复收听。最后，每位测试主体将按照主观测试评分标准给出他们的意见。图4(a)和4(b)给出了两组测试语音的对比结果的分布图。

分布图中横坐标表示主观测试评分标准得分，纵坐标表示给出某一分数的听众所占比例。根据主观测试评得分标准，正数表示本文算法较自适应变速率语音编解码器在编码速率为12.2kbps下输出的窄带电话语音或宽带自适应变速率语音编解码器在编码速率为8.85kbps下输出的宽带电话语音较好。本过程采用差异性分析方法，采用95%的置信区间，对带宽扩展模式测试结果进行分析。图4(a)是本发明输出结果和自适应变速率语音编解码器在编码速率为12.2kbps下输出的窄带电话语音的对比结果分布图；图4(b)是是本文算法输出结果和宽带自适应变速率语音编解码器在编码速率为8.85kbps下输出的宽带电话语音的对比结果图。由图4(a)和4(b)可以看出，本文算法得出的结果略好于宽带自适应变速率语音编解码器在8.85kbps编码速率下输出的宽带语音，但与自适应变速率语音编解码器在12.2kbps编码速率下输出的窄带语音相比有了较大改善，听觉效果明显提高。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种人工语音带宽扩展的方法，其特征在于：

窄带语音信号经过曲线拟合模块后经过外推高频包络模块，外推高频包络模块的输出信号进入频谱成型模块；窄带语音信号经过特征提取模块后每帧得到一组线性预测系数，构造自回归模型及滤波模块，将白噪声通过此自回归模型进行处理产生与低频相关的高频噪声随机序列，高频噪声随机序列进入频谱成型模块；频谱成型模块输出高频语音；高频语音与窄带语音信号经过语音合成模块得到宽带语音。

2.根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：曲线拟合模块采用曲线拟合的方法得到窄带语音低频对数频谱包络曲线方程，通过曲线方程外推出高频对数频谱包络，选取低频部分的共振峰值作为线性拟合的输入；首先输入8kHz采样的窄带语音，估计基音周期，并将时域信号转换到对数频域中，通过估计的基音周期搜索对数频域峰值点，再经过曲线拟合技术描述共振峰的变化曲线，进而外推出高频对数频谱包络曲线，

对窄带语音分帧处理：帧长为128，帧间重叠64个采样点，采用频域方法即计算信号的相关性来计算本帧语音的基音周期T，输入窄带语音为x(n)，自相关函数R(k)为

R (k) = Σ_{n = 0}^{N - 1} x (n) x (n - k),

其中N为帧长，所述N＝128，在相关延迟k＝20～143范围内搜索R(k)的最大值的位置k'，k'即为基音周期的估值T，将窄带语音做傅里叶变换，然后转换到对数频域，搜索出对数频域中第一个共振峰，第一个共振峰设为p₀；由于基音周期的大小与共振峰的间距大致相等，通过已确定的第一个共振峰p₀和基音周期T，即可搜索出其他的低频共振峰，搜索其他低频共振峰时，只需要在与前一共振峰距离为T的点附近搜索，即可得到其他共振峰的准确位置，设其幅值为lo_env(ω)，即低频对数频谱包络，所对应的频率点ω，lo_env(ω)和ω作为曲线拟合的输入，将低频对数频谱包络lo_env(ω)与低频频点ω建立映射关系的拟合函数：

lo_env(ω)＝a·e^bω+c·e^dω，ω＝0～2π*4000，

得到拟合函数中的参数a，b，c，d，既确定映射公式。

3.根据权利要求1所述的一种人工语音带宽扩展的装置和方法，其特征在于：外推高频包络模块是通过已确定的映射公式，将高频频率点代入公式，对未知的高频对数频谱包络数据hi_env(ω)进行外推，外推出高频对数频谱包络hi_env(ω)

hi_env(ω)＝a·e^bω+c·e^dω，ω＝2π*4000～2π*8000。

4.根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：特征提取模块是对窄带语音进行线性预测分析，每帧得到一组线性预测系数，构造自回归模型；首先使用窄带语音构造自回归模型，对每一长度为N的语音帧x(n)进行线性预测分析，所述N＝128，即计算每一加窗语音帧的自相关函数，并使用Levinson-Durbin算法将其转换成线性预测系数，具体步骤如下：

使用Hamming窗window(n)＝0.5-0.5cos(2πn/N)，n＝0,1,…,N-1,N为正整数,对输入语音信号x(n)进行加窗处理，加窗后语音x'(n)为

x'(n)＝x(n)·window(n)，

计算自相关函数，

R (k) = Σ_{n = k}^{N - 1} x^{'} (n) x^{'} (n - k),

k＝0,1,…,N-1，N为正整数，

采用Levinson-Durbin算法，通过求解以下方程组可获得L阶自回归模型系数a_i,i＝1,2,...,L，L为正整数

Σ_{i = 1}^{L} a_{i} R (| i - k |) = - R (k),

k＝1,2,...,L

5.根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：构造自回归模型及滤波模块方法如下：

由低频语音自回归模型系数a_i，i＝1,...,L，L为正整数，构造合成滤波器模型，即

H (z) = \frac{G}{1 - Σ_{i = 1}^{L} a_{i} z^{- i}},

其中，G为增益，L为自回归模型阶数，所述L为8,9,10,...,20之间某个正整数，L为整数，G为0.1～1之间某个小数。

将白噪声通过此合成滤波器进行处理，产生与低频语音相关的随机序列；白噪声序列的产生方法为

w(n)＝[w(n-1)·31821+13849]，

其中，w(0)＝0；

y (n) = w (n) + Σ_{i = 1}^{L} a_{i} y (n - i),

y (n) = \frac{y (n)}{Σ_{i = 0}^{N - 1} \sqrt{y (n) \cdot y (n)}},

其中，N为帧长，所述N＝128。

6.根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：频谱成型模块是利用上面估计的高频对数频域包络hi_env(ω)对高频噪声序列进行调制，

首先，对高频噪声序列y(n)进行傅立叶变换，再将其转换到对数域，得到高频噪声序列的频域对数值C_y(ω)，使用高频对数频谱包络对高频噪声序列频谱对进行调制，得到高频语音的频谱对数值C_wide(ω)

C_wide(ω)＝C_y(w)·hi_env(w)，

S_wide(ω)＝exp(C_wide(ω))， (1)

s_wide(n)＝IFFT(S_wide(ω))， (2)

7.根据权利要求1所述的一种人工语音带宽扩展的方法，其特征在于：语音合成模块是将采样频率为8KHz的窄带信号通过插值的方法提高采样率，提升为16KHz，经过复倒谱计算过程得到窄带语音的复倒谱，高频语音同样经过复倒谱计算过程得到高频语音的复倒谱；将窄带语音和高频语音的复倒谱分别转换到频域，窄带语音的频域幅值做如下处理：

C_wide(ω)＝C_narrow(ω)+C_high(ω)，

其中，C_narrow(ω)和C_high(ω)分别为窄带语音和高频语音的复倒谱频域值；C_wide(ω)为合成的宽带复倒谱的频域值，再经过逆傅立叶变换得到宽带语音的复倒谱，最后经过复倒谱的逆过程，得到合成后的宽带语音。