CN104269180A

CN104269180A - 一种用于语音质量客观评价的准干净语音构造方法

Info

Publication number: CN104269180A
Application number: CN201410515374.7A
Authority: CN
Inventors: 贺前华; 周伟力; 李洪韬
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-09-29
Filing date: 2014-09-29
Publication date: 2015-01-07
Anticipated expiration: 2034-09-29
Also published as: CN104269180B

Abstract

本发明公开了一种用于语音质量客观评价的准干净语音构造方法，该方法采用一种改进的最小值控制递归平均算法与多带谱减法获得失真语音的准干净语音，主要包括：(1)区分失真语音非语音段与语音段；(2)根据非语音段与语音段的划分分别估计非语音段与语音段的噪声功率谱；(3)根据非语音段与语音段噪声谱估计值，计算失真语音的准干净语音功率谱。具有将准干净语音与失真语音作为PESQ算法的输入语音、获得失真语音的客观评价分值等优点。

Description

一种用于语音质量客观评价的准干净语音构造方法

技术领域

本发明涉及一种语音质量客观评价技术，特别涉及一种用于语音质量客观评价的准干净语音构造方法，该语音构造方法属于无参考源(Non-intrusive)的语音质量客观评价领域。

背景技术

语音质量好坏是评价语音通信***优劣的重要标准之一。语音质量评价一般分为主观评价方法和客观评价方法。主观评价方法依靠评听者意见对语音质量做出判决，是直接反映用户对***好坏的观点，其中ITU-T建议P.830提出的MOS(Mean Opinion Score)是一种广泛使用的主观评价方法。但是，主观评价方法重复性差，难以组织实施不够灵活，容易受人的主观因素影响，不利于在生产过程和现场实验中应用。

客观评价方法杜绝了人为因素可能产生的影响，针对语音信号的特定特征，采用信号处理的方式实现语音质量的评价过程。客观评价方法根据是否需要参考源信号(干净语音)分为有参考源(Intrusive)客观评价方法和无参考源(Non-Intrusive)客观评价方法。有参考源客观评价方法以语音***的输入信号和输出信号之间的误差大小判别语音质量的好坏，是一种误差度量，其中ITU-T建议P.862提出的PESQ感知语音质量评价是目前性能较好的有参考源客观评价方法，能够较好的识别通信时延，环境噪声和错误。然而，PESQ以及其他有参考源客观评价方法需要使用输入语音(干净语音)作为参考，不能在只有失真信号的应用领域中使用。

ITU-T建议P.563是目前无参考源客观评价方法的标准，能够应用于无参考信号的VoIP和电信网络性能的监测，但其运算复杂度高，不利于实时评价语音质量，且评价性能不及PESQ。目前主流的基于统计模型的客观评价方法主要基于高斯混合模型(GMM)和矢量量化(Vector Quantization)，该类方法在模型训练过程中将干净语音训练为参考模型和参考码本，测试时将失真语音与参考模型与参考码本进行失真计算，误差结果映射为最终的客观质量评分。基于统计模型在模型训练过程中不仅需要大量的干净语音数据，而且其评价性能与PESQ相差较大。

准干净语音构造技术通过噪声跟踪算法估计失真语音的噪声谱，消除失真语音的噪声部分，获得失真语音的准干净语音。不同于语音活动检测(VoiceActivity Detection)只在非语音段更新噪声功率谱，噪声跟踪算法能够在话音活动期间持续进行较好的噪声估计，更加适合噪声非平稳场景。最小值控制递归平均算法相对于其他噪声跟踪算法(Martin,2001；Doblinger,1995；Hirschand Ehrlicher,1995；Cohen,2003)能够更快地在非平稳噪声环境下估计噪声功率谱。但是，最小值控制递归平均算法在估计与更新噪声谱时统一对失真语音进行估计，并没有对失真语音进行语音段和非语音段的区分，因此估计结果与实际的噪声功率谱相比存在一定的误差，并且对失真语音噪声谱的统一估计增加了计算复杂度，降低了算法的效率，不利于实时估计。

发明内容

本发明的目的在于克服现有技术中无参考源客观评价方法的缺陷的缺点与不足，提供一种用于语音质量客观评价的准干净语音构造方法，该语音构造方法，可以将噪声跟踪与消除方法引入失真语音的准干净语音构造。

本发明的目的通过下述技术方案实现：一种用于语音质量客观评价的准干净语音构造方法，包括以下步骤：

步骤1、改进的最小值控制递归平均算法在失真语音的噪声谱估计中区分非语音段与语音段，根据非语音段的特性更新非语音段的噪声谱估计值；

步骤2、对语音帧进行噪声估计时，改进的最小值控制递归平均算法在确定语音帧频带语音存在概率时，采用新的频率相关阈值；

步骤3、改进的最小值控制递归平均算法根据非语音段和语音段的噪声功率谱估计确定最终带噪语音的噪声功率谱估计值；

步骤4、改进的最小值控制递归平均算法采用语音活动检测方式划分非语音段与语音段，利用过零率和短时能量时域特征，sohn算法分别确定失真语音的语音段以及语音段中的话间非语音段；

步骤5、多带谱减法根据非语音段与语音段的划分和对应的噪声谱估计值，分别计算准干净语音的非语音段与语音段准干净功率谱，从而获得失真语音的准干净语音功率谱。

在步骤1中，所述改进的最小值控制递归平均算法基于非语音段与语音段的划分；把非语音段认定为噪声，噪声谱估计值D(λ_uv,k)＝|Y(λ_uv,k)|²，其中，|Y(λ_uv,k)|²为非语音帧短时功率谱，λ_uv为非语音段的帧数索引，k为频带索引。

所述非语音段与语音段的划分通过语音活动检测的方式实现，即：利用过零率和短时能量等时域特征对失真语音进行粗估计，找出失真语音的语音段的开始时刻与结束时刻，排除背景噪声，确定失真语音的整体语音段，采用sohn语音活动检测算法对上述定位的整体语音段进行细估计，确定语音段中的语音部分和话间非语音部分。

在步骤2中，所述改进的最小值控制递归平均算法对语音帧进行噪声估计时，采用的频率相关阈值δ(k)的定义为：

δ (k) = \{\begin{matrix} 1.5,1 \leq k \leq LF \\ 2.5, LF \leq k \leq MF \\ 6.5, MF \leq k \leq Fs / 2 \end{matrix},

其中，LF和MF分别对应1kHZ和3kHZ的频点，Fs为采样频率，k为频带索引。

在步骤3中，所述改进的最小值控制递归平均算法估计确定带噪语音的噪声功率谱估计值D(λ,k)分为非语音段和语音段两部分，所述噪声功率谱估计值D(λ,k)定义为：

其中，α_s(λ_v,k)为时频相关的平滑因子，|Y(λ_v,k)|²为语音帧短时功率谱，D(λ_v-1,k)为当前语音帧的前一帧噪声谱估计值。

在步骤5中，所述的多带谱减法计算的准干净语音功率谱S(λ,k)分为非语音段和语音段两部分，所述准干净语音功率谱S(λ,k)的估计值定义为：

S(λ,k)＝(Y(λ_v,k)-D(λ_v,k))+(Y(λ_uv,k)-D(λ_uv,k))，

其中，|Y(λ_v,k)|²为语音帧短时功率谱，|Y(λ_uv,k)|²为非语音帧短时功率谱，D(λ_v,k)为语音帧噪声功率谱估计值，D(λ_uv,k)为非语音帧噪声功率谱估计值。

本发明的准干净语音构造方法的具体实现过程如下：

1、确定失真语音的语音帧与非语音帧，说明书附图图2示出了确定语音帧与非语音帧的处理过程。首先对失真语音进行语音段粗估计，具体实现如下：对失真语音进行加窗分帧，计算分帧的短时能量与过零率；设定语音段短时能量和过零率阈值，利用短时能量与过零率时域特征确定失真语音语音段的开始帧与结束帧。接着采用sohn算法对上述语音段进行细估计，确定语音段的话间非语音部分，将背景噪声段和话间非语音部分标记为非语音帧，语音段的语音部分标记为语音帧。

2、对失真语音进行噪声跟踪。说明书附图图3示出了失真语音的噪声跟踪估计过程。首先对步骤1的失真语音短时帧进行傅里叶变换，计算每帧的功率谱。噪声跟踪采用改进的最小值控制递给平均算法，对失真语音的非语音帧与语音帧分别进行估计与更新，提高了算法的准确性与执行效率。其中，非语音帧被认为是噪声帧，非语音帧的噪声谱估计值为非语音帧的短时功率谱；进行语音帧噪声估计时，语音帧频带语音存在概率通过语音帧的平滑功率谱与其局部最小值的比值与新的频率相关阈值进行比较而获得；然后平滑语音存在概率并根据平滑概率更新时频相关平滑因子；使用上述时频相关平滑因子更新语音部分的噪声谱估计值；最后由非语音和语音两个部分的噪声谱估计值组成失真语音噪声谱估计值。

3、获得准干净语音。将失真语音的带噪功率谱与步骤2获得失真语音噪声估计功率谱进行多频带频谱相减，得到准干净语音功率谱。对准干净语音功率谱进行傅里叶反变换，得到准干净语音时域信号。

4、失真语音客观质量评价；PESQ算法通过感知模型计算失真语音与准干净语音之间的失真误差，失真误差通过认知模型最后映射为失真语音客观质量评分。

本发明的原理：本发明采用一种改进的最小值控制递归平均算法与多带谱减法获得失真语音的准干净语音，将该准干净语音与失真语音作为PESQ算法的输入语音，获得失真语音的客观评价分值。

本发明相对于现有技术具有如下的优点及效果：

1、通过构造失真语音的准干净语音，使得PESQ算法能够应用于没有输入语音的客观评价应用场景。与其他无参考源客观评价方法相比，本发明获得较高的主客观评价相关度。

2、相对于主流的基于统计模型的无参考源客观评价方法，本发明并不需要大量的干净语料训练统计模型，使得评价算法适用于干净语料缺乏的无参考源客观评价应用领域。

3、准干净语音构造方法能够区分失真语音的非语音段和语音段，对失真语音的噪声功率谱估计更为准确，较大程度地消除失真语音的噪声部分，提高了失真语音客观质量评分的准确度。

附图说明

图1是用于语音质量客观评价的准干净语音构造方法过程图。

图2是语音帧与非语音帧的标记处理过程图。

图3是失真语音的噪声跟踪估计过程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

一种用于语音质量客观评价的准干净语音构造方法，包括如下步骤：

1、对失真语音进行分帧加窗(帧长30ms，帧移15ms，加汉明窗)，分别计算各帧的短时能量和过零率；接着计算失真语音的平均能量、能量上门限、能量下门限、平均过零数、过零数门限。能量上门限为0.05倍的平均能量；能量下门限为0.25倍的能量上门限；过零数门限为0.3倍的平均过零数。

2、采用基于能量和过零率的双门限法确定失真语音语音段的开始帧和结束帧；将上述确定的失真语音段作为sohn语音活动检测算法的输入数据，确定失真语音段的话间非语音部分。

3、将上述步骤2确定的失真语音段以外的音频帧和失真语音段话间非语音帧定义为该失真语音的非语音部分；将上述步骤2确定的失真语音段话间非语音帧以外的音频帧定义为该失真语音的语音部分。如图2所示，失真语音短时帧λ标记非语音帧部分和语音帧部分：

4、如图3所示，对失真语音短时帧进行快速傅里叶变换，计算并获得非语音帧功率谱|Y(λ_uv,k)|²，语音帧功率谱|Y(λ_v,k)|²，其中k为频带索引。

5、估计非语音帧噪声功率谱。非语音段被认为是噪声，即噪声谱估计值为D(λ_uv,k)＝|Y(λ_uv,k)|²。

6、对语音帧功率谱|Y(λ_v,k)|²进行平滑：

P(λ_v,k)＝ηP(λ_v-1,k)+(1-η)|Y(λ_v,k)|²，

其中，P(λ_v,k)为语音帧平滑功率谱，λ_v为语音帧帧数索引，k为频带索引，η为平滑因子参数(式中取0.7)。

7、对P(λ_v,k)进行局部最小值跟踪，得到P_min(λ_v,k)：

if P_min(λ_v-1,k)<P(λ_v,k)

\begin{matrix} P_{\min} (λ_{v}, k) = γ P_{\min} (λ_{v} - 1, k) \\ + \frac{1 - γ}{1 - β} (P (λ_{v}, k) - βP (λ_{v} - 1, k)) \end{matrix}

else

P_min(λ_v,k)＝P(λ_v,k)

end

式中，β取0.8，γ取0.998。

8、计算语音存在概率。首先计算语音帧功率谱与其局部最小值的比值Sr(λ_v,k)：

S_{r} (λ_{v}, k) = \frac{P (λ_{v}, k)}{P_{\min} (λ_{v}, k)},

然后根据S_r(λ_v,k)确定语音帧频带语音存在概率I(λ_v,k)：

if S_r(λ_v,k)>δ(k)

I(λ_v,k)＝1 语音存在

else

I(λ_v,k)＝0 语音不存在

end

δ(k)为频带相关的阈值：

δ (k) = \{\begin{matrix} 1.5,1 \leq k \leq LF, \\ 2.5, LF \leq k \leq MF, \\ 6.5, MF \leq k \leq Fs / 2, \end{matrix}

其中，LF和MF分别对应与1kHZ和3kHZ的频点，Fs为采样频率，k为频带索引。

9、平滑语音存在概率p(λ_v,k)：

p(λ_v,k)＝α_pp(λ_v-1,k)+(1-α_p)I(λ_v,k)，

其中，α_p为平滑因子参数(式中取0.2)。

10、利用平滑语音存在概率p(λ_v,k)计算时频相关的平滑因子α_s(λ_v,k)：

α_s(λ_v,k)＝α_d+(1-α_d)p(λ_v,k)，

其中，α_d为常量(式中取0.85)。

11、利用时频相关平滑因子α_s(λ_v,k)更新语音帧噪声谱估计值D(λ_v,k)：

D(λ_v,k)＝α_s(λ_v,k)D(λ_v-1,k)+(1-α_s(λ_v,k))|Y(λ_v,k)|²，

12、采用多带谱减法语音段和非语音段准干净功率谱，通过傅里叶逆变换获得准干净语音s(t)：

s(t)＝IFFT[Y(λ_v,k)+Y(λ_uv,k)-(D(λ_v,k)+D(λ_uv,k))]，

13、如图1所示，计算失真语音客观质量评分；利用PESQ算法计算失真语音与准干净语音之间的失真误差，将失真误差通过认知模型映射为失真语音客观质量评分。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用于语音质量客观评价的准干净语音构造方法，其特征在于，包括以下步骤：

步骤5、多带谱减法根据非语音段与语音段的划分和对应的噪声谱估计值，分别计算准干净语音的非语音段与语音段的准干净功率谱，从而获得失真语音的准干净语音功率谱。

2.根据权利要求1所述的用于语音质量客观评价的准干净语音构造方法，其特征在于，在步骤1中，所述改进的最小值控制递归平均算法基于非语音段与语音段的划分；把非语音段认定为噪声，噪声谱估计值D(λ_uv,k)＝|Y(λ_uv,k)|²，其中，|Y(λ_uv,k)|²为非语音帧短时功率谱，λ_uv为非语音段的帧数索引，k为频带索引。

3.根据权利要求1所述的用于语音质量客观评价的准干净语音构造方法，其特征在于，在步骤2中，所述改进的最小值控制递归平均算法对语音帧进行噪声估计时，采用的频率相关阈值δ(k)的定义为：

δ (k) = \{\begin{matrix} 1.5,1 \leq k \leq LF, \\ 2.5, LF \leq k \leq MF, \\ 6.5, MF \leq k \leq Fs / 2, \end{matrix}

4.根据权利要求1所述的用于语音质量客观评价的准干净语音构造方法，其特征在于，在步骤3中，所述改进的最小值控制递归平均算法估计确定带噪语音的噪声功率谱估计值D(λ,k)分为非语音段和语音段两部分，所述噪声功率谱估计值D(λ,k)定义为：

5.根据权利要求2所述的用于语音质量客观评价的准干净语音构造方法，其特征在于，所述非语音段与语音段的划分通过语音活动检测的方式实现，即：利用过零率和短时能量等时域特征对失真语音进行粗估计，找出失真语音的语音段的开始时刻与结束时刻，排除背景噪声，确定失真语音的整体语音段，采用sohn语音活动检测算法对上述定位的整体语音段进行细估计，确定语音段中的语音部分和话间非语音部分。

6.根据权利要求1所述的用于语音质量客观评价的准干净语音构造方法，其特征在于，在步骤5中，所述的多带谱减法计算的准干净语音功率谱S(λ,k)分为非语音段和语音段两部分，所述准干净语音功率谱S(λ,k)的估计值定义为：

S(λ,k)＝(Y(λ_v,k)-D(λ_v,k))+(Y(λ_uv,k)-D(λ_uv,k))，