CN110689905A

CN110689905A - 一种用于视频会议的语音活动检测

Info

Publication number: CN110689905A
Application number: CN201910842478.1A
Authority: CN
Inventors: 王向辉; 黄绍锋; 靳冠军; 张升辉; 刘晓霞
Original assignee: Xi'an Aaan Acoustics Technology Co Ltd
Current assignee: Xi'an Aaan Acoustics Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-14
Anticipated expiration: 2039-09-06
Also published as: CN110689905B

Abstract

本发明属于语音信号处理领域，公开了一种用于视频会议***的语音活动检测***。分别对获取的带噪时域信号做瞬态冲击噪声检测、浊音/清音分类、基于语音存在概率的检测、基于信噪比的检测以及带噪语音信号的能量检测，通过各个模块的判决结果得到最终的语音活动检测结果。本发明对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。相较于现有技术，本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、算法运算复杂度低、易于实现等优点。

Description

一种用于视频会议***的语音活动检测***

技术领域

本发明属于语音信号处理领域，具体涉及一种用于视频会议***的语音活动检测***。

背景技术

通常，在视频会议***中，摄像头会根据定位算法给出的角度转动，以获取当前说话人的视频。但是，在会议室环境中随时会有各种各样的干扰源。当干扰源存在时，如果摄像头转向干扰源的方向，会给参会人员非常不好的体验。这时，我们就需要对当前的信号做语音活动检测。如果检测出语音信号，则摄像头转向定位算法给出的角度。如果没有检测出语音信号，则摄像头保持不动。

会议室环境中典型的干扰源分为两类，第一类为准平稳噪声，如风扇或空调的声音。准平稳噪声的功率谱密度变化较为缓慢，而语音信号的功率谱密度变化相对较快。第二类为非平稳噪声，非平稳噪声包括瞬态冲击噪声和非瞬态冲击噪声。瞬态冲击噪声具有瞬时能量较大，持续时间短的特点，比如敲桌子、敲门以及敲击键盘的声音。非瞬态冲击噪声的持续时间和人说话时单个词的持续时间相近，比如挪动椅子以及翻书的声音。绝大多数语音信号包含浊音，即有清晰的谐波结构，而绝大多数会议室场景中典型的非瞬态冲击噪声为清音，即没有清晰的谐波结构。

语音活动检测算法有很多，首先，比较典型的一类是通过跟踪输入信号的功率变化，确定输入信号中是否包含语音信号。当背景噪声较为平稳，即为功率谱密度变化比较缓慢的准平稳噪声时，此类算法效果较好。但对于非平稳噪声，此类算法容易将非常不平稳的噪声成分判别为语音信号。另一类典型的算法是根据输入带噪语音信号和其线性预测编码的自相关值来做语音活动检测。此类方法的缺点是在信噪比较低时不能准确的做出语音活动检测。此外，还有一类基于机器学习的语音活动检测算法。此类算法的问题是泛化能力较差，即，对训练过的噪声场景，性能较好，但对于没有出现在训练集的噪声场景，性能较差。

发明内容

本发明的目的在于提供一种用于视频会议***的语音活动检测***，用以解决现有技术中的在会议室环境下语音活动检测效果不准确的问题。

为了实现上述任务，本发明采用以下技术方案：

一种用于视频会议***的语音活动检测***，包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块；

所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号；

所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧，并判断当前帧是否存在瞬态冲击噪声，若不存在瞬态冲击噪声则将当前帧标记为语音信号，若存在瞬态冲击噪声则将当前帧标记为噪声信号，然后将标记结果传递给最终判决模块；

所述浊音清音分类模块用于获取带噪语音信号的当前帧，判断当前帧为浊音或者清音，若当前帧为浊音则将当前帧标记为语音信号，若当前帧为清音则将当前帧标记为噪声信号，然后将标记结果传递给最终判决模块；

所述信噪比检测模块用于获取带噪语音信号的当前帧，判断当前帧的语音信噪比和对应门限值的关系，若满足门限值则标记将将当前帧标记为语音信号，否则将当前帧标记为噪声信号，然后将标记结果传递给最终判决模块；

所述语音存在概率检测模块用于获取带噪语音信号的当前帧，判断当前帧的语音存在概率和对应门限的关系，若满足门限值则将当前帧标记为语音信号，否则将当前帧标记为噪声信号，然后将标记结果传递给最终判决模块；

所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧，结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系，若满足门限值则将当前帧标记为语音信号，否则将当前帧标记为噪声信号，然后将标记结果传递给最终判决模块；

所述最终判决模块用于根据所有模块的标记结果进行判决，当所有模块都标记当前帧为语音信号时，最终判决模块输出当前帧为语音信号，否则输出当前帧为噪声信号。

进一步的，瞬态冲击噪声检测模块的检测方法包括如下子步骤：

步骤a1：获得当前帧的频域带噪语音信号Y(k,n)，对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n)，其中k表示第k个频点k∈{1,2,3,...,K}，K为正整数，n表示当前帧的帧数，所述平滑包括频域平滑和时域平滑，获取S(k,n)在一段时间之内的最小统计量S_min(k,n)；

步骤a2：设定初级门限γ₀和ε₀，对于当前帧的每个频点进行初级判断，若当前帧的第k个频点满足

且则标记该频点不存在瞬态冲击噪声，否则标记该频点存在瞬态冲击噪声，其中，B_min表示S_min(k,n)的估计偏差；

获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑，得到二次平滑的频域带噪语音信号

获取在一段时间之内的最小统计量

和在当前帧之后第U帧在一段时间之内最小统计量

步骤a3：设定二级门限σ，对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断，若

则标记该频点存在瞬态冲击噪声，否则标记该频点不存在瞬态冲击噪声，其中，

步骤a4：获得二级判断后当前帧存在瞬态冲击噪声的频点的个数，若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N₁，则标记当前帧为存在瞬态冲击噪声，否则标记当前帧不存在瞬态冲击噪声。

进一步的，浊音清音分类模块的分类方法包括如下子步骤：

步骤b1：获得当前帧的对数频域带噪语音信号Y(c,n)，对Y(c,n)进行压缩得到Y′(c,n)；

步骤b2：令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c)，然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征，输入高斯混合模型，得到当前帧的浊音可能概率p_v和当前帧的清音可能概率p_u；

步骤b3：根据p_v和p_u利用式Ⅰ计算当前帧属于浊音的概率p_vf：

如果p_vf≥p₀，则标记当前帧为浊音，否则，标记当前帧为清音。

进一步的，所述信噪比检测模块的检测方法为：

估计当前帧的后验信噪比和先验信噪比

并计算经过时域平滑频域平均的先验信噪比

如果当前帧满足

且

μ₁和μ₂表示调节因子，则标记当前帧为语音信号，否则标记当前帧为噪声信号。

进一步的，所述语音存在概率检测模块的检测方法为：

利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n)，如果当前帧满足p(k,n)≤p₁的频点的个数大于频点个数门限N₂时，标记当前帧为噪声信号，否则标记当前帧为语音信号；

其中，

表示先验语音不存在概率，

进一步的，带噪语音信号能量检测模块的检测方法为：

步骤c1：计算当前帧的带噪语音信号的频域平均能量E(n)，若语音存在概率检测模块标记当前帧为语音信号，则计算当前帧的E(n)经过时域平滑后得到的

若语音存在概率检测模块标记当前帧为噪声信号，则将上一帧的

作为当前帧的

步骤c2：根据当前帧的E(n)和进行判断，如果当前帧满足

且E(n)>E₀，则标记当前帧为语音信号，否则标记当前帧为噪声信号，其中，E₀表示能量门限，μ₃表示调节因子。

更进一步的，所述语音信噪比检测模块中

表示前一帧的经过时域平滑的平均先验信噪比，α_SNR为遗忘因子。

本发明与现有技术相比具有以下技术特点:

(1)基于视频会议***的环境，能够对对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。

(2)相较于现有技术，本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、算法运算复杂度低、易于实现等优点。

(3)本发明可以非常容易的从视频会议场景扩展到其他场景，如智能家居及车载***。

附图说明

图1所示为本发明的方法流程示意图；

图2所示为典型的语音活动检测方法及装置示意图；

图3所示为当存在挪动椅子的噪声时的语音活动检测结果；

图4所示为图3所示带噪语音信号的时频图；

图5所示为当存在敲桌子的噪声时的语音活动检测结果；

图6所示为图5带噪语音信号的时频图。

具体实施方式

实施例

在本实施例中公开了一种用于视频会议***的语音活动检测***，如图1和图2所示。需要说明的是本发明中的语音活动检测方法还可应用于其他场景。比如，教育录播***的应用场景、审讯***的应用场景等。应用本发明可以有效地区分音频信号中语音信号和噪声信号。

具体的，在带噪语音信号中，当瞬态冲击噪声单独出现时，检测瞬态冲击噪声是否存在较为容易。但是当语音信号(或非瞬态冲击噪声)和瞬态冲击噪声同时存在时，则检测瞬态冲击噪声是否存在较为困难。因此，给出瞬态冲击噪声检测模块的检测方法包括如下子步骤：

步骤a1：获得当前帧的频域带噪语音信号Y(k,n)，对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n)，其中k表示第k个频点k∈{1,2,3,...,K}，K为正整数，n表示当前帧的帧数，平滑包括频域平滑和时域平滑，获取S(k,n)在一段时间内的最小统计量S_min(k,n)；

具体的，时域带噪语音信号表示为y(t)＝x(t)+v(t)+b(t)，其中，y，x，v以及b分别表示带噪信号、纯净语音信号、瞬态/非瞬态冲击噪声信号和准平稳背景噪声信号，t表示离散时间点；

将时域信号y(t)分帧、加窗后，做快速傅里叶变换，得到频域带噪信号Y(k,n)，

其中，h表示窗函数，T表示窗函数的长度(也是语音信号帧的长度)，M表示两个相邻帧之间的步进长度，零均值随机变量Y(k,n)，X(k,n)，V(k,n)，B(k,n)，分别为y(t)，x(t)，v(t)，b(t)在第n帧第k个频点的傅立叶变换值，其中k∈{0,1,...,K-1}；

具体的，频域平滑为其中，b_ω(q)表示归一化窗函数，时域平滑在频域平滑之后，采取一阶递归平滑的方式，表示为：S(k,n)＝α_sS(k,n-1)+(1-α_s)S_f(k,n)；

步骤a2：设定初级门限γ₀和ε₀，其中γ₀的取值范围为4.5-5，ε₀的取值范围为1.5-1.8，对于当前帧的每个频点进行初级判断，若当前帧的第k个频点满足且

则标记该频点不存在瞬态冲击噪声，否则标记该频点存在瞬态冲击噪声，其中，B_min表示S_min(k,n)的估计偏差，B_min的取值范围为1.5-1.7；

获取在一段时间内的的最小统计量

和在当前帧之后第U帧在一段时间内的最小统计量

U一般应设置为大于瞬态冲击噪声持续时间，小于语音信号持续时间，U的取值范围为10-20，一段时间内通常为6-12帧。

由于在估计

时，已经将比较强的瞬态冲击噪声排除，可以获得更加鲁棒的语音信号(或非瞬态冲击噪声)的功率谱密度估计结果以及更高的时间分辨率，改善对最小统计量的估计性能，得到更加精确的最小统计量估计结果

步骤a3：设定二级门限σ，σ的取值范围为5-8，对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断，若

步骤a4：获得二级判断后当前帧存在瞬态冲击噪声的频点的个数，若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N₁，N₁设置为10-20，则标记当前帧为存在瞬态冲击噪声，否则标记当前帧不存在瞬态冲击噪声。

具体的，浊音清音分类模块的分类方法包括如下子步骤：

具体的，假设带噪信号具有清晰的谐波结构(浊音)，在理想情况下，我们可以将其表示为

其中，a(i)表示第i个谐波的能量，f₀表示基频，δ(·)为狄拉克函数，I_v为谐波个数。将Y(f)转化到对数频域，记为Y(c)，其中c＝log f。将Y(f)转化到对数频域，可以使各次谐波之间的距离和基频无关，同时可使带噪信号的低频段分辨率较高，由于在此同样将带噪语音信号做分帧处理，我们将Y(c)表示为Y(c,n)。

具体的，为防止每帧带噪信号Y(c,n)中存在较强的窄带干扰，我们将其做压缩处理得到Y′(c,n)＝Y(c,n)^β(c,n)，其中，β(c,n)为压缩因子，为估计β(c,n)，首先估计带噪信号Y(c,n)的功率谱密度。先对带噪信号做对数频域平滑，然后，用一阶递归平滑的方式对频域平滑后的信号做时域平滑，记为S(c,n)。再估计带噪信号的长时(通常时长大于20帧)平均功率谱密度L(c,n)，则压缩因子表示为

h(c)的冲击响应表示为h(c)＝ξ-log[η-cos(2πe^c)]，定义域设为log(0.5)<c<log(I_v+0.5)，除此之外，设h(c)＝0。其中η控制h(c)峰的宽度，ξ的选择准则为使∫h(c)dc＝0。因为我们选择h(c)为零均值，所以h(c)可以有效地抑制背景噪声B(c,n)中的白噪声成分。同时，由于h(c)的各个峰值近似对称，所以其可以有效地抑制准平稳噪声。

具体的，信噪比检测模块的检测方法为：

估计当前帧的后验信噪比

和先验信噪比

并计算经过时域平滑频域平均的先验信噪比

如果当前帧满足

且μ₁和μ₂表示调节因子，则标记当前帧为语音信号，否则标记当前帧为噪声信号。

其中

表示前一帧的经过时域平滑的平均先验信噪比，α_SNR为遗忘因子取值为大于零小于1；

具体的，定义后验信噪比

先验信噪比

其中λ_x(k,n)为语音信号的功率谱密度，λ_d(k,n)为准平稳噪声的功率谱密度；

我们以下式估计带噪语音信号的先验信噪比：

其中，

表示当语音信号存在时的语音信号对数谱幅值估计器，

α_G为遗忘因子取值为大于零小于1；其中

为的估计值，即

表示估计得到的噪声功率谱密度，其估计方法为

其中

为估计得到的当前帧的噪声功率谱密度，α_d为遗忘因子，取值范围为大于零小于1，p(k,n)为条件语音存在概率，其在语音存在概率检测模块中测得，κ为补偿因子，取值范围为1-2。

具体的，语音存在概率检测模块的检测方法为：

利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n)，如果当前帧满足p(k,n)≤p₁的频点的个数大于频点个数门限N₂时，N₂设置为10-20，标记当前帧为噪声信号，否则标记当前帧为语音信号；

其中，

表示先验语音不存在概率，

根据带噪信号瞬态冲击噪声检测的估计方法，先估计出

然后分别定义

γ₁为固定门限值，取值范围为2.5-3。

具体的，带噪语音信号能量检测模块的检测方法为：

若语音存在概率检测模块标记当前帧为噪声信号，则将上一帧的作为当前帧的

步骤c2：根据当前帧的E(n)和进行判断，如果当前帧满足

且E(n)>E₀，则标记当前帧为语音信号，否则标记当前帧为噪声信号，其中，E₀表示能量门限，取值范围为10^-8-10^-5，μ₃表示调节因子，取值范围为0.2-0.3。

如图3-图6所示，本发明可以有效的在瞬态冲击噪声、非瞬态冲击噪声和准平稳背景噪声干扰下，准确的检测出语音信号。

如图3所示为当存在挪动椅子的噪声及其他干扰噪声时，本发明的语音活动检测结果。其中虚线代表语音活动检测结果。幅值为1时，表示检测结果为语音信号，为0时为噪声信号。椭圆中的信号为挪动椅子的噪声及其他干扰噪声。图4所示为图3所示带噪信号的时频图。

如图5所示为存在敲桌子的噪声时，本发明的语音活动检测结果。其中虚线代表语音检测结果。幅值为1时，表示检测结果为语音信号，为0时为噪声信号。椭圆中的信号为敲桌子的噪声。图6所示为图5带噪信号的时频图。

本发明既可用于多通道麦克风阵列做完回声消除、回声抑制、波束形成及降噪后的单通道语音信号，也可直接用于单通道降噪前或降噪后的语音信号。