CN105957520A

CN105957520A - 一种适用于回声消除***的语音状态检测方法

Info

Publication number: CN105957520A
Application number: CN201610519040.6A
Authority: CN
Inventors: 王珂; 明萌; 纪红; 李曦; 张鹤立
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2016-09-21
Anticipated expiration: 2036-07-04
Also published as: CN105957520B

Abstract

本发明是一种适用于回声消除***的语音状态检测方法，涉及基于IP网络的语音交互技术领域。本发明利用噪声训练样本和语音训练样本构造支持向量机(SVM)分类器，待检测信号是分块后的远端和近端信号，使用构造好的基于高斯混合模型的SVM分类器对本分块远端信号进行VAD判决，如果判断结果为无语音，停止滤波器更新和滤波，直接输出近端语音信号，如果判断远端有语音，进行双端通话判决；当处于双端通话时，停止滤波器系数更新，对近端信号进行滤波；否则，根据远端信号进行滤波器系数更新和滤波。本发明提高了语音活动性检测的准确性，避免将双端静音状态误判为双端通话状态，防止了在没有参考信号的情况下滤波器的错误更新和滤波。

Description

一种适用于回声消除***的语音状态检测方法

技术领域

本发明涉及基于IP网络的语音交互技术领域，具体是指一种适用于回声消除***的语音状态检测方法。

背景技术

回声消除技术广泛应用于电话会议***、车载蓝牙***、IP电话等基于IP网络的语音交互***中，用以消除扬声器播放的声音经过多种路径传播后被麦克风拾取，并传回到***远端形成的声学回声。回声消除的核心思想是通过一个自适应滤波器模拟回声路径，并将估计回声信号从麦克风拾取的信号中减去。

语音状态检测在回声消除中起着至关重要的作用。在声音信号进入滤波器之前需要首先对当前语音状态进行判断，根据***所处的语音状态决定滤波器的工作状态。是否能准确迅速地判断***语音状态，对回声消除的效果有很大的影响。

现有的回声消除***通常直接使用DTD(Double Talk Detection，双端通话检测)算法判断***是否处于双端通话状态，并在双端通话状态下停止滤波器系数更新，防止这种情况下滤波器由于受到近端语音的干扰而发散。常用的DTD算法——Geigel算法通过比较近端信号和远端信号的幅度值判断是否存在近端语音，在近端信号与远端信号幅度的比值ξ^(g)大于特定值T时认为***处于双端通话状态。即当：

ξ^{(g)} = \frac{| y (k) |}{m a x {| x (k - 1) |, ..., | x (k - N) |}} > T

时，认为存在近端语音，***处于双端通话状态。其中|y(k)|是近端语音幅度值，max{|x(k-1)|,...,|x(k-N)|}是远端语音信号前N个采样点的最大幅度值。门限T根据回声路径衰减来确定，通常可以取0.5；N通常与滤波器长度相等。

但该方法存在如下缺点：

1、Geigel算法假设了近端语音远大于远端的回声信号，并不完全符合回声消除的实际情况，因此在某些情况下不是很准确。

2、不进行远端VAD(Voice Activity Detection，语音活动性检测)就直接进行DTD可能会导致双端静音状态被误判为双端通话状态。

3、仅在双端通话状态下停止滤波器系数更新，在远端语音不存在的状态下持续进行滤波和系数更新可能导致滤波器发散，并从近端信号中错误地减去并不存在的远端语音。

发明内容

为了克服上述的三个问题，本发明提出一种结合VAD和DTD的语音状态检测方法，并根据检测结果设计新的滤波和更新策略以提高检测准确率，避免语音状态的误判，防止滤波器的错误更新和滤波。

本发明提供的一种适用于回声消除***的语音状态检测方法，实现步骤如下：

第一步：利用噪声训练样本和语音训练样本构造支持向量机SVM分类器。

分别对噪声训练样本和语音训练样本进行特征值提取和高斯混合模型GMM训练，构造对应的高斯超向量。利用高斯超向量构造SVM分类器核函数，以及语音信号和噪声信号对应的SVM模型，使用构造好的核函数和SVM模型构造得到SVM分类器。

第二步：待检测信号是分块后的远端和近端信号。使用构造好的基于高斯混合模型的SVM分类器对本分块远端信号进行VAD判决。

对本分块远端信号进行特征值提取和GMM训练，构造高斯超向量。将本分块远端信号对应的高斯超向量输入到构造好的SVM分类器中进行判决。如果分类为噪声，判断结果为无语音，则停止滤波器更新和滤波，直接输出近端语音信号。否则说明远端有语音，进行下一步的双端通话判决。

第三步：判断***是否属于双端通话状态。

计算远端信号和误差信号的归一化互相关ξ_XECC，比较归一化互相关ξ_XECC和设置的门限T_XECC，当ξ_XECC＜T_XECC时，近端有语音，***处于双端通话状态，停止滤波器系数更新，对近端信号进行滤波。当ξ_XECC≥T_XECC时，近端无语音，根据远端信号进行滤波器系数更新和滤波。

本发明的优点与积极效果在于：

(1)使用基于高斯混合模型的支持向量机算法对远端信号进行语音活动性检测，提高了语音活动性检测的准确性，克服了常用的基于能量的语音活动性检测方法存在的在低信噪比条件下检测不准确的问题。

(2)在双端通话检测之前首先进行远端语音活动性检测，在远端有语音时再进行双端通话检测，能够避免将双端静音状态误判为双端通话状态。采用基于互相关的双端通话检测算法，提高了双端通话检测的准确性。

(3)根据***所处的不同语音状态采取不同的滤波和更新策略。与传统回声消除***仅在双端通话时停止滤波器系数更新相比，在远端无语音的状态下也停止滤波器系数更新和滤波，可以进一步防止在没有参考信号的情况下滤波器的错误更新和滤波。

附图说明

图1是本发明的适用于回声消除***的语音状态检测方法的整体流程示意图；

图2是本发明实施例仿真所用的两段PCM流示意图；

图3是本发明实施例仅使用基于能量的DTD检测进行回声消除的效果示意图；

图4是本发明实施例采用本发明方法进行回声消除的效果示意图；

图5是本发明实施例使用改进前的回声消除库的Sipdroid回声消除效果示意图；

图6是本发明实施例使用改进后的回声消除库的Sipdroid回声消除效果示意图；

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明方法在DTD之前首先对远端信号进行VAD，在VAD检测出远端信号不存在时直接停止滤波器系数更新和滤波，以防止滤波器发散及错误地滤波。在VAD检测出存在远端语音时再进行DTD，并在双端通话时停止滤波器系数更新。其中使用的VAD算法是基于GMM(Gaussian Mixture Model，高斯混合模型)的SVM(Support Vector Machine，支持向量机)算法，该算法利用GMM构造特征超向量，将GMM超向量用于SVM的特征值输入及核函数构造，准确率高于常用的基于能量或相关性的VAD算法。使用的DTD算法是基于远端信号与误差信号互相关的DTD，准确率也高于常用的基于能量的Geigel算法。通过将远端VAD和DTD结合起来，可以提高语音状态检测的准确性。通过在不同语音状态下采取不同的滤波策略，可以防止滤波器的发散及错误的滤波，大大改善回声消除的效果。

结合图1说明本发明的适用于回声消除***的语音状态检测方法的各步骤。

步骤一，利用噪声训练样本和语音训练样本构造SVM分类器，包括步骤S101～S103。

步骤S101：对噪声信号训练样本和语音信号训练样本进行特征值提取。这里采用的特征值是Mel倒谱系数(MFCC)。MFCC具体提取过程：对信号进行预加重、分块及加窗处理，将加窗后的分块经过快速傅里叶变换(FFT)求出每一分块的频谱参数。将每一分块的频谱参数通过一组由K个三角形带通滤波器所组成的Mel刻度滤波器，K个Mel带通滤波器编号从0到K-1，将每个频带的输出取对数，求出每一个输出的对数能量，对每个分块语音信号获得对应的K个对数频谱。K为正整数，一般取值为20～30。最后将得到的K个对数频谱进行余弦变换求出Mel倒谱系数。将对数频谱经过离散余弦变换变换到倒谱频域得到Mel倒谱系数的公式如下：

m_{i} (l) = Σ_{k = 0}^{K - 1} S_{i} (k) c o s (\frac{π l (k + 1 / 2)}{K}), 0 \leq k < K, 0 \leq l < L - - - (1)

其中，S_i(k)为第i个分块信号通过编号k的带通滤波器后对应得到的对数频谱，K为Mel带通滤波器的个数，m_i(l)为第i个分块语音信号的MFCC的第l阶参数，L为提取的MFCC的总阶数，公式(1)中i表示对应第i个分块，i为正整数。

步骤S102：生成噪声信号训练样本和语音信号训练样本对应的高斯超向量。

分别利用噪声信号训练样本和语音信号训练样本的MFCC参数建立噪声信号和语音信号对应的高斯混合模型。GMM本质上是一种多维概率密度函数，N阶高斯混合模型g(x)是由N个单高斯分布的线性组合来描述帧特征在特征空间的分布，对某一分块，g(x)表示如下：

g (x) = Σ_{i = 1}^{N} w_{i} p_{i} (x) - - - (2)

其中，x是训练样本本分块的MFCC参数构成的L维特征向量，N是高斯混合模型的阶数，p_i(x)为高斯混合模型的第i个高斯分量，w_i为高斯混合模型分量p_i(x)的加权因子。

p_i(x)表示如下：

p_{i} (x) = \frac{1}{{(2 π)}^{\frac{L}{2}} | Σ_{i} |^{\frac{1}{2}}} \exp {- \frac{{(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i})}{2}} - - - (3)

其中，Σ_i是第i个高斯分量的协方差矩阵，μ_i是第i个高斯分量的均值向量，因此，GMM模型的参数集λ可表示如下：

λ＝(w_i,μ_i,Σ_i),i＝1,2,...,N (4)

相应的高斯混合模型g(x)可以表示为：

g (x) = Σ_{i = 1}^{N} w_{i} N (x; μ_{i}, Σ_{i}) - - - (5)

其中，N(.)表示高斯概率密度函数。

建立GMM模型的过程实际上就是通过训练估计GMM模型的参数的过程。可以采用最大期望EM算法进行模型参数更新。该算法有两个主要步骤：期望E步和最大化M步。E步利用当前的参数集计算完整数据的似然度函数的期望值，M步通过最大化期望函数获取新的参数。E步和M步一直迭代直至收敛。最后分别可以得到语音和噪声的GMM模型，设为g(s)和g(n)，s表示语音信号，n表示噪声信号。

利用建立好的高斯混合模型构造高斯超向量。高斯超向量是高斯混合模型的参数构造而成的，可以将语音和噪声的GMM高斯超向量m_s和m_n分别表示如下：

m_{s} = ({(\sqrt{w_{1}} Σ_{1}^{- 1 / 2} μ_{1}^{s})}^{T}, {(\sqrt{w_{2}} Σ_{2}^{- 1 / 2} μ_{2}^{s})}^{T}, ..., {(\sqrt{w_{N}} Σ_{N}^{- 1 / 2} μ_{N}^{s})}^{T}) - - - (6)

m_{n} = ({(\sqrt{w_{1}} Σ_{1}^{- 1 / 2} μ_{1}^{n})}^{T}, {(\sqrt{w_{2}} Σ_{2}^{- 1 / 2} μ_{2}^{n})}^{T}, ..., {(\sqrt{w_{N}} Σ_{N}^{- 1 / 2} μ_{N}^{n})}^{T}) - - - (7)

为g(s)中各高斯分量的均值向量，为g(n)中各高斯分量的均值向量。

步骤S103：利用构造好的高斯超向量构造SVM分类器。分别利用噪声信号和语音信号对应的高斯超向量m_n和m_s建立噪声信号和语音信号对应的SVM模型。利用噪声信号和语音信号对应的高斯超向量m_n和m_s构造K-L核函数。该核函数使用两个GMM概率分布之间的K-L散度构造而成。

由语音和噪声的GMM超向量m_n和m_s构造的核函数K(n,s)具体表达式如下：

K (n, s) = Σ_{i = 1}^{N} {(\sqrt{w_{i}} Σ^{- \frac{1}{2}} μ_{i}^{n})}^{T} (\sqrt{w_{i}} Σ^{- \frac{1}{2}} μ_{i}^{s}) - - - (8)

确定核函数、语音信号的SVM和噪声信号的SVM后可以得到SVM分类器。

步骤二，使用构造好的基于GMM的SVM分类器对本分块远端信号进行VAD判决。输入SVM分类器的待检测信号是分块后的远端和近端信号。需要首先进行傅里叶变换转换到频域，然后根据信号频谱计算信号分块的特征值，即MFCC、归一化互相关等。具体可分为步骤S201～S203。

步骤S201：本分块远端信号MFCC参数提取。MFCC参数的具体提取过程同步骤101，通过公式(1)最终得到本分块远端信号对应的MFCC参数。

步骤S202：本分块远端信号对应的高斯超向量生成。利用本分块远端信号MFCC参数建立高斯混合模型，并利用建立好的高斯混合模型构造本分块远端信号对应的高斯超向量。高斯超向量生成方法同步骤S102，如公式(6)和(7)所示。

步骤S203：将本分块远端信号对应的高斯超向量输入到构造好的SVM分类器中，使用基于GMM的SVM算法进行语音/噪声分类。得出远端语音的VAD判决结果。如果分类为噪声，判断结果为无语音，则停止滤波器更新和滤波，直接输出近端语音信号。如果分类为语音，说明远端有语音，进行下一步的双端通话判决。

步骤三，判断***是否属于双端通话状态。

步骤S301：计算误差信号。

自适应滤波器系数模拟了回声路径，因此本分块远端信号与自适应滤波器系数进行卷积可以得到估计回声信号x^T(n)w(n)，误差信号e(n)即为本分块的近端信号d(n)与估计回声信号x^T(n)w(n)之差。

自适应滤波器系数是根据自适应算法，利用误差信号和远端信号不断更新的。一种常用的更新算法——LMS算法的更新公式如下：

w(n+1)＝w(n)+2μe(n)x(n) (9)

其中，μ是步长，w(n)是滤波器权重向量，e(n)是误差信号，x(n)是远端信号。n代表第n个时刻(采样点)。

步骤S302：计算远端信号和误差信号的归一化互相关。由于时域的互相关运算可以转换为频域的点乘，即两个信号频谱值逐点相乘，因此可以直接利用远端信号频谱X(k)和误差信号频谱E(k)求得该归一化互相关的值，计算复杂度较低。归一化互相关在频域的计算方法：

ξ_{X E C C} = \underset{k}{m a x} \frac{E [X (k) E (k)]}{\sqrt{E [X {(k)}^{2}] E [E {(k)}^{2}]}} - - - (10)

ξ_XECC表示远端信号和误差信号的归一化互相关，k表示频点。

步骤S303：DTD判决。比较远端信号和误差信号的归一化互相关ξ_XECC和归一化互相关门限。当近端无语音时，远端信号和误差信号的归一化互相关ξ_XECC应该等于1，而近端有语音时，归一化互相关ξ_XECC小于1。因此，可以设置一个略小于1的常数T_XECC作为门限值，T_XECC通常取值在0.9到1之间，且该门限值根据检测结果实时更新。更新的算法根据实际情况选取。一个好的门限值应该使误报概率和漏报概率都相对较小。例如：可以首先任意选择一个略小于1的常数，然后设置近端语音为0，计算误报概率和漏报概率，在一定范围内调整T_XECC，直到误报概率和漏报概率都较小。

当归一化互相关小于门限时，即：

ξ_XECC＜T_XECC (11)***处于双端通话状态，停止滤波器系数更新，直接使用原来的滤波器系数对近端信号进行滤波；否则，不存在近端语音，只存在远端语音，这时既进行滤波器系数更新，也进行滤波。

将本发明提出的语音状态检测方法应用于实际的回声消除***中，包括两个终端，使用VoIP软件Sipdroid对实际通话效果进行验证。

首先使用matlab对本发明提出的结合VAD和DTD的语音状态检测方法进行仿真。仿真所用的语音信号包括1段30秒的远端语音PCM(Pulse Code Modulation，脉冲编码调制)流以及1段与之对应的近端语音PCM流，采样频率均为8000Hz。在回声消除***中，滤波器的长度设为128，自适应滤波算法采用BFDAF算法(即频域的NLMS算法)，而语音状态检测算法采用本发明提出的语音状态检测方法。

如图2所示，为仿真所用的两段PCM流。从上至下依次为远端信号波形、近端信号波形。横坐标为时间，单位s；纵坐标为幅度值。采用原有的语音状态检测方法，即仅使用基于能量的DTD检测，回声消除效果如图3所示。从图中可以看出，在VAD未改进的条件下，前半段的回声消除效果较好，但还是存在少量残余回声；后半段的效果则不是很理想，原声被消除得比较多，回声消除后的信号产生了较大失真。

采用本发明提出的语音状态检测方法，回声消除的效果如图4所示。对比改进之前和改进之后分别进行回声消除后得到的两段PCM流，可以看出回声消除效果在改进语音状态检测方法后有明显的改善。残余回声消除更加彻底，近端语音也几乎没有出现失真现象。

为了进一步验证本发明提出的语音状态检测方法在实际回声消除***中的效果，对该方法编写相应的C程序，并利用语音通信软件Sipdroid对该方法进行测试。

根据本发明的语音状态检测方法的步骤修改回声消除库WebRTC中执行VAD和DTD的部分，然后在Sipdroid中调用该回声消除库。在不同环境下使用Sipdroid进行实际双端通话并进行录音，保存回声消除前后的语音PCM流，以便进行回声消除效果分析。

为了在取出语音流后进行观察分析时比较方便和清晰，每次测试中，两位通话者依次从1到10进行报数。在不同环境下，分别对改进前和改进后的Sipdroid版本进行多次通话测试以便进行对比。

首先对使用改进前的回声消除库的Sipdroid回声消除效果进行多次通话测试，并取出远端、近端和回声消除后的PCM流。测试结果如图5所示，图中仅截取报数部分的PCM流。其中，第一段PCM流是远端信号，第二段PCM流是近端信号，第三段PCM流是回声消除后的近端信号。可见，回声消除效果不是很理想，报数部分有少许残余回声，虚线框圈出部分。其他测试结果大部分与此类似。

然后，对使用改进后的回声消除库的Sipdroid的回声消除效果也使用同样方法进行多次通话测试，并取出远端、近端和回声消除后的PCM流。图6为比较有代表性的一次测试结果。与图5类似，图中第一段PCM流是远端信号，第二段PCM流是近端信号，第三段PCM流是回声消除后的近端信号。可见，使用本发明改进后的语音检测方法后，回声消除效果比较理想，报数部分的残余回声消除比较彻底，如虚线框圈出部分，同时原声的保留也没有受到影响。多次测试发现，在不同环境下，回声消除的效果会受到一定影响，稳定性还有待进一步提高。但在大多数情况下，使用本发明的语音状态检测方法后的回声消除效果都较改进前的回声消除效果有明显改善。

Claims

1.一种适用于回声消除***的语音状态检测方法，其特征在于，实现步骤如下：

第一步：利用噪声训练样本和语音训练样本构造支持向量机SVM分类器；

分别对噪声训练样本和语音训练样本进行特征值提取和高斯混合模型GMM训练，构造对应的高斯超向量，然后利用高斯超向量构造SVM分类器的核函数，以及语音信号和噪声信号对应的SVM模型；使用构造好的核函数和SVM模型构造得到SVM分类器；

第二步：待检测信号是分块后的远端和近端信号，使用构造好的SVM分类器对本分块远端信号进行VAD判决；VAD表示语音活动性检测；

对本分块远端信号进行特征值提取和GMM训练，构造高斯超向量，然后本分块远端信号对应的高斯超向量输入到构造好的SVM分类器中进行判决；如果判断结果为噪声，表示无语音，则停止滤波器更新和滤波，直接输出近端语音信号，否则说明远端有语音，进行下一步的双端通话判决；

第三步：判断***是否属于双端通话状态；

计算远端信号和误差信号的归一化互相关ξ_XECC；比较归一化互相关ξ_XECC和设置的门限T_XECC，当ξ_XECC＜T_XECC时，***处于双端通话状态，停止滤波器系数更新，对近端信号进行滤波；否则，近端无语音，根据远端信号进行滤波器系数更新和滤波。

2.根据权利要求1所述的一种适用于回声消除***的语音状态检测方法，其特征在于，所述的第一步构造SVM分类器，包括如下步骤：

步骤S101：对噪声信号训练样本和语音信号训练样本进行特征值提取；所采用的特征值是Mel倒谱系数MFCC；

MFCC的提取过程是：对信号进行预加重、分块及加窗处理，将加窗后的分块经过快速傅里叶变换FFT求出每一分块的频谱参数；将每一分块的频谱参数通过一组由K个三角形带通滤波器所组成的Mel刻度滤波器，并对每个频带的输出取对数，获得对数频谱；设K个带通滤波器的编号从0到K-1，则第i个分块通过编号k的带通滤波器后对应得到的对数频谱为S_i(k)，第i个分块的MFCC的第l阶参数m_i(l)为：

其中，L为提取的MFCC的总阶数；

步骤S102：生成噪声信号训练样本和语音信号训练样本的高斯超向量；

分别利用噪声信号训练样本和语音信号训练样本的MFCC参数建立噪声信号和语音信号对应的高斯混合模型；

对某一分块，N阶高斯混合模型g(x)表示为：

其中，x是训练样本本分块的MFCC参数构成的L维特征向量，p_i(x)为高斯混合模型的第i个高斯分量，w_i为第i个高斯分量的加权因子；Σ_i是第i个高斯分量的协方差矩阵，μ_i是第i个高斯分量的均值向量；

高斯混合模型g(x)进一步表示为：N(.)表示高斯概率密度函数；

采用最大期望算法进行高斯混合模型参数的更新，设最后得到语音信号训练样本的高斯混合模型为g(s)，其中各高斯分量的均值向量为s表示语音信号；最后得到的噪声信号训练样本的高斯混合模型为g(n)，其中各高斯分量的均值向量为n表示噪声信号；利用建立好的高斯混合模型构造语音信号训练样本和噪声信号训练样本的高斯超向量m_s和m_n分别为：

步骤S103：利用构造好的高斯超向量构造SVM分类器；

分别利用高斯超向量m_n和m_s建立噪声信号和语音信号对应的SVM模型；

利用高斯超向量m_n和m_s构造核函数K(n,s)如下：

确定核函数、语音信号的SVM模型和噪声信号的SVM，得到SVM分类器。

3.根据权利要求1或2所述的一种适用于回声消除***的语音状态检测方法，其特征在于，所述的第三步中，计算误差信号的方法是：将本分块远端信号与自适应滤波器系数进行卷积得到估计回声信号，误差信号为本分块近端信号与估计回声信号之差。

4.根据权利要求1或2所述的一种适用于回声消除***的语音状态检测方法，其特征在于，所述的第三步中，根据下面公式计算远端信号和误差信号的归一化互相关ξ_XECC：

其中，k表示频点，X(k)为远端信号频谱，E(k)为误差信号频谱。

5.根据权利要求1或2所述的一种适用于回声消除***的语音状态检测方法，其特征在于，所述的第三步中，设置的门限T_XECC为0.9到1之间的值，并根据判决结果进行实时更新。