CN103280225B

CN103280225B - 一种低复杂度的静音检测方法

Info

Publication number: CN103280225B
Application number: CN201310200198.3A
Authority: CN
Inventors: 谢映海; 王健; 罗志勇
Original assignee: Guangzhou Haige Communication Group Inc Co
Current assignee: Guangzhou Haige Communication Group Inc Co
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2015-07-01
Anticipated expiration: 2033-05-24
Also published as: CN103280225A

Abstract

本发明公开了一种低复杂度的静音检测方法，包括以下步骤：（1）对模拟音频信号进行采样处理，得到采样信号X_[n]；（2）音频采样信号X_[n]分别同时进行低通、带阻和高通滤波处理，得到子信号X1_[n]、X2_[n]和X3_[n]；（3）将步骤（2）中得到的三个子信号同时进行实时分帧处理，计算分帧后子信号在各帧的能量值；（4）通过步骤（3）得到的子信号在各帧的能量值，计算X_[n]在各帧的VAD判决变量D_k；（5）默认开机后X_[n]的前X帧全部为静音帧，将VAD判决变量D_k输入到判决器中进行判决处理，得到X_[n]在各帧的VAD初步判决值G_k：（6）对G_k将进行平滑处理，得到X_[n]在各帧的VAD最终判决结果GG_k。本发明检测方法具有复杂度低、准确度高及自适应性强等优点。

Description

一种低复杂度的静音检测方法

技术领域

本发明涉及一种音频信号的检测方法，特别涉及一种低复杂度的静音检测方法。

背景技术

短波通信的频段为3MHz-30MHz，由于使用该频段的用户越来越多，同频干扰现象日益严重，同时受短波信道不稳定等多种因素的综合影响，接收机所接收到的数字语音信号中往往含有功率较强的噪声信号，极大的影响了接听效果。大量试验表明，短波接收机的背景噪声类型为加性高斯白噪声，且其功率大小会随着时间的推移而缓慢变化(秒级)。在通信过程中，有声期和静默期往往交替出现。特别是在短波语音通信过程中，不同于手机的工作方式，短波接收机将一直处于开机状态，如果未经过处理，声音播放装置将不停播放十分嘈杂的短波信道背景噪声，加大了接听者的听觉负担。

静音检测(VAD，voice activity dectection)方法可以判断出接收的音频信号中的纯噪声区和带噪声的语音区，其中纯噪声区即为不带语音信号的静音区，根据检测结果，接收机在纯噪声区时可以适时关闭声音播放装置，对带噪声的语音区信号进行进一步的处理，以提高接收机的整体听觉品质。

准确率是VAD检测方法的最基本性能指标，许多传统算法，如基于能量和过零率特征的算法、基于差分能量和差分过零率特征的算法、基于频域能量的特征的算法等，在较高的信噪比下均能给出较高的检测准确率，但在低信噪比下已经不再稳健。同时算法复杂度和实现时所需的经济代价也是必须考虑的因素，前者对于那些靠电池工作的手持移动接收机十分重要，低复杂度的算法可以减少耗电量，从而延长设备使用时间；而后者对于低端产品来说十分重要，低复杂度的算法对硬件的要求较低，可以有效降低产品成本，提高市场竞争力。

在公告号为CN 1835073A的中国发明专利中公开了一种基于特征判别的静音检测方法，该方法包括以下步骤：(1)首先提取一帧音频数据的多门限过零率；(2)用加权多门限过零率对静音进行预判，判别出明显的静音；(3)提取步骤(2)中判断不是静音的音频数据的复合特征；(4)采用分类支持向量机对音频的复合特征加以判别，最终得到正常的语音和没有语音的静音信号。该方法通过音频数据的复合特征判别出纯噪声的静音信号和带噪声的语音信号。音频数据复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数，音频数据复合特征的提取需要经过较为复杂的计算，因此不适合在低端产品上使用。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种复杂度低的静音检测方法。

本发明的目的通过下述技术方案实现：一种低复杂度的静音检测方法，包括以下步骤：

(1)以f_s的采样频率对模拟音频信号进行采样处理，得到采样信号X_[n]；

(2)音频采样信号X_[n]分别同时进行低通、带阻和高通滤波处理，得到子信号X1_[n]、X2_[n]和X3_[n]；

(3)将步骤(2)三个子信号同时进行实时分帧处理，每帧包含θ个采样点，计算子信号在各帧的能量值；

(4)通过步骤(3)中得到的子信号在各帧的能量值，计算X_[n]在各帧的VAD判决变量，其中X_[n]在第k帧的VAD判决变量D_k为：

D_{k} = λ^{| \frac{{P 1}_{k}}{P_{k}} - \frac{3}{8} |} + λ^{| \frac{{P 2}_{k}}{P_{k}} - \frac{1}{4} |} + λ^{| \frac{{P 3}_{k}}{P_{k}} - \frac{3}{8} |}, k = 1,2,3 . . .;

P1_k、P2_k和P3_k分别为子信号X1_[n]、X2_[n]和X3_[n]在第k帧上的能量值，P_k＝P1_k+P2_k+P3_k，λ≥5；

(5)默认开机后X_[n]的前X帧为静音帧，将步骤(4)中X_[n]在各帧的VAD判决变量输入到判决器中进行判决处理，得到X_[n]在各帧的VAD初步判决值，其中X_[n]在第k帧的VAD初步判决值G_k为：

G_{k} = \{\begin{matrix} 0, D_{k} \leq C_{1} \\ 1, C_{1} < D_{k} \leq C_{2} \\ 2, D_{k} > C_{2} \end{matrix}, k &GreaterEqual; X + 1;

G_k＝0，1≤k≤X；

C₁和C₂为两个正阈值，C₁<C₂；

(6)将步骤(5)中得到的VAD初步判决值进行平滑处理，得到X_[n]在各帧的VAD最终判决结果，其中X_[n]在第k帧的VAD最终判决结果GG_k为：

{GG}_{k} = \{\begin{matrix} 0, & G_{k - N} + G_{k - N + 1} + G_{k - N + 2} + . . . + G_{k} \leq 1 \\ 1, & G_{k - N} + G_{k - N + 1} + G_{k - N + 2} + . . . + G_{k} &GreaterEqual; 2 \end{matrix}, k &GreaterEqual; N + 1, N \leq X;

若X_[n]在第k帧的VAD最终判决结果GG(k)为0，表示第k帧为静音帧；

若X_[n]在第k帧的VAD最终判决结果GG(k)为1，表示第k帧为语音帧。

优选的，所述步骤(2)中用于对X_[n]进行低通、带阻和高通滤波处理的低通、带阻和高通滤波器系数h₁、h₂和h₃分别为：

h_{1} = [\frac{1}{4}, \frac{1}{2}, \frac{1}{4}];

h_{2} = [\frac{\sqrt{2}}{4}, 0, \frac{- \sqrt{2}}{4}];

h_{3} = [\frac{- 1}{4}, \frac{1}{2}, \frac{- 1}{4}] .

更进一步的，所述步骤(4)中λ值为30，X_[n]在第k帧的VAD判决变量D_k为：

D_{k} = 30^{| \frac{{P 1}_{k}}{P_{k}} - \frac{3}{8} |} + 30^{| \frac{{P 2}_{k}}{P_{k}} - \frac{1}{4} |} + 30^{| \frac{{P 3}_{k}}{P_{k}} - \frac{3}{8} |}, k = 1,2,3 . . . .

更进一步的，所述步骤(5)中两个正阈值C₁和C₂分别为3.58和3.90，X_[n]在第k帧的VAD初步判决值G_k为：

G_{k} = \{\begin{matrix} 0, D_{k} \leq 3.58 \\ 1, 3.58 < D_{k} \leq 3.90 \\ 2, D_{k} > 3.90 \end{matrix}, K &GreaterEqual; X + 1;

G_k＝0，1≤k≤X。

更进一步的，所述步骤(6)中N值为59，X_[n]在第k帧的VAD最终判决结果GG_k为：

{GG}_{k} = \{\begin{matrix} 0, & G_{k - 59} + G_{k - 58} + . . . + G_{k} \leq 1 \\ 1, & G_{k - 59} + G_{k - 58} + . . . + G_{k} &GreaterEqual; 2 \end{matrix}, k &GreaterEqual; = 60 .

更进一步的，所述步骤(5)中X的值取60，即将X_[n]前60帧默认为静音帧。

优选的，所述步骤(1)中采样频率f_s为8kHz。

优选的，所述步骤(3)中θ为512，即每帧包括512个采样点，即每帧的时间长度为64ms。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明方法利用一个由3个滤波器组成的滤波器组对音频信号进行时域上的低通、高通和带阻滤波处理，接着对三个滤波子信号进行等长度的分帧处理并计算每个帧的能量值大小，然后根据这些数值计算得到一个判决变量，***设置了两个分段阈值来进行初步的三段式判决，随后对初步判决值进行平滑处理，得到最终判决结果，根据最终判决结果判断采样信号的静音帧和语音帧。本发明方法所使用的3个数字滤波器的脉冲响应系数长度都仅为3，整个检测过程仅需要极其少量的加法和乘法运算，滤波和判决过程简单易于实现，因此本发明具有步骤简单和计算复杂度低的优点，既无需额外的硬件支持，又可以大幅度减少计算耗电量，延长设备使用时间，降低设备使用成本。

(2)本发明方法对噪声的功率变化不敏感，整个过程中无需频繁的噪声参数更新，可以很好适应噪声时变特性，即使在较低信噪比的情况下仍具有较高的检测准确率，因此具有检测性能较好的优点。

附图说明

图1是本发明方法的静音检测流程图。

图2是本发明方法中所使用的低通、高通和带阻滤波器的频域滤波特性示意图。

图3a是语音设备产生的时间长度为600秒的干净语音信号示意图。

图3b是计算机产生的时间长度为600秒的高斯白噪声信号示意图。

图4a是图3a的干净语音信号和图3b的高斯白噪声信号加性混合后得到的信号图。

图4b是本发明方法的检测效果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例公开了一种低复杂度的静音检测方法，具体步骤如下：

(1)以f_s＝8kHz的采样频率对模拟音频信号进行采样处理，得到采样信号X_[n]；

(2)音频采样信号X_[n]分别同时进行低通、带阻和高通滤波处理，得到子信号X1_[n]、X2_[n]和X3_[n]；本实施例中用于对X_[n]进行低通、带阻和高通滤波处理的滤波器系数分别系数h₁、h₂和h₃分别为：

h_{1} = [\frac{1}{4}, \frac{1}{2}, \frac{1}{4}];

h_{2} = [\frac{\sqrt{2}}{4}, 0, \frac{- \sqrt{2}}{4}];

h_{3} = [\frac{- 1}{4}, \frac{1}{2}, \frac{- 1}{4}] .

(3)将滤波处理得到的三个子信号进行实时分帧处理，每帧包括512个采样点，时间长度为64ms，计算子信号X1_[n]、X2_[n]和X3_[n]在各帧的能量值；

(4)通过步骤(3)得到的子信号在各帧的能量值，计算X_[n]在各帧的VAD判决变量，其中X_[n]在第k帧的VAD判决变量D_k为：

D_{k} = λ^{| \frac{{P 1}_{k}}{P_{k}} - \frac{3}{8} |} + λ^{| \frac{{P 2}_{k}}{P_{k}} - \frac{1}{4} |} + λ^{| \frac{{P 3}_{k}}{P_{k}} - \frac{3}{8} |}, k = 1,2,3 . . .;

本实施例中λ值为30，因此D_k为：

D_{k} = 30^{| \frac{{P 1}_{k}}{P_{k}} - \frac{3}{8} |} + 30^{| \frac{{P 2}_{k}}{P_{k}} - \frac{1}{4} |} + 30^{| \frac{{P 3}_{k}}{P_{k}} - \frac{3}{8} |}, k = 1,2,3 . . .;

其中P_k＝P1_k+P2_k+P3_k；P1_k、P2_k和P3_k分别为子信号X1_[n]、X2_[n]和X3_[n]在第k帧的能量值。D_k中的λ值也可以用大于5数值代替，其最佳值通过实际测试来设定。

(5)默认开机后X_[n]在前60帧为静音帧，将步骤(4)X_[n]在各帧的VAD判决变量输入到判决器中进行判决处理，得到X_[n]在各帧的VAD初步判决值，其中X_[n]在第k帧的VAD初步判决值G_k为：

G_{k} = \{\begin{matrix} 0, D_{k} \leq 3.58 \\ 1, 3.58 < D_{k} \leq 3.90 \\ 2, D_{k} > 3.90 \end{matrix}, 61 \leq k \leq 9375;

G_k＝0，1≤k≤60。

(6)将步骤(5)得到的VAD初步判决值进行平滑处理，得到X_[n]在各帧的VAD最终判决结果，若X_[n]某帧的初步判决值和某帧前58帧的58个初步判决值的和大于或等于2，则将该帧的VAD最终判决结果判定为1，否则将该帧的VAD最终判决结果判定为0；然后根据该帧的VAD最终判决结果判断该帧是静音帧还是语音帧；其中X_[n]在第k帧的VAD最终判决结果GG_k，即信号区间[X_[1+(k-1)θ],X_[2+(k-1)θ],...,X_[θ+(k-1)θ]]的VAD最终判决结果GG_k为：

{GG}_{k} = \{\begin{matrix} 0, & G_{k - 59} + G_{k - 58} + G_{k - 57} + . . . + G_{k} \leq 1 \\ 1, & G_{k - 59} + G_{k - 58} + G_{k - 57} + . . . + G_{k} &GreaterEqual; 2 \end{matrix}, k &GreaterEqual; 60;

若X_[n]第k帧的VAD最终判决结果为0，表示第k帧为静音帧；

若X_[n]第k帧的VAD最终判决结果为1，表示第k帧为语音帧。

根据上述步骤得到的最终判决结果，若检测的帧为静音帧，则可控制音频接收机的声音播放装置保持关闭状态，不播放此帧信号；若检测到的帧为语音帧，则音频接收机将播放该帧信号。

本实施例中为了提高算法检测的准确率，判决平滑过程中存在N帧的拖尾保护，具体大小视VAD算法的具体用途自行设定，本实施例中N值为59，其值过大会引入过多的纯噪声信号，过小则会损失部分语音信号。

如图3a所示为采用语音设备产生时间长度为600秒的干净语音信号，如图3b所示为利用计算机产生的时间长度也为600秒的功率时变高斯白噪声信号，其中在有语音活动区，噪声的功率明显是大于或等于语音信号的功率，使得信号平均信噪比小于0dB。

如图4a所示为图3a的干净语音信号和图3b的高斯白噪声信号加性混合后得到的信号。如图4b所示为采用本实施例方法对图4a的信号进行处理后得到最终检测结果，其中图中虚线指出了对图4a的含噪信号进行检测后得到的语音帧的时间轴区域，把检测结果和图3a的干净语音信号图进行比较后可以明显看出，检测结果十分理想，基本上无误检和漏检现象。

从图4b最终VAD检测结果可以看出，即使接收信号的信噪比已经明显低于0dB，但本实施例的VAD算法还是把语音信号活动区间全部检测出来，仅因拖尾保护措施引入了少量的纯噪声区间，整体性能已经超过了现有的一些经典VAD算法。

从图3a至图4b可以看出，利用本实施例的方法可以非常准确的检测出音频信号中的语音区和静音区，通过本实施例的静音信号检测方法能够准确的控制音频接收机设备的工作状态，以提高接收机的整体听觉品质。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种低复杂度的静音检测方法，其特征在于，包括以下步骤：

D_{k} = λ^{| \frac{{P 1}_{k}}{P_{k}} - \frac{3}{8} |} + λ^{| \frac{{P 2}_{k}}{P_{k}} - \frac{1}{4} |} + λ^{| \frac{{P 3}_{k}}{P_{k}} - \frac{3}{8} |}, k = 1,2,3 . . .;

(5)默认开机后X_[n]的前X帧为静音帧，将步骤(4)X_[n]在各帧的VAD判决变量输入到判决器中进行判决处理，得到X_[n]在各帧的VAD初步判决值，其中X_[n]在第k帧的VAD初步判决值G_k为：

G_{k} = \{\begin{matrix} 0, & D_{k} \leq C_{1} \\ 1, & C_{1} < D_{k} \leq C_{2} \\ 2, & D_{k} > C_{2} \end{matrix}, k &GreaterEqual; X + 1;

G_k＝0，1≤k≤X；

C₁和C₂为两个正阈值，C₁<C₂；

{GG}_{k} = \{\begin{matrix} 0, & G_{k - N} + G_{k - N + 1} + G_{k - N + 2} + . . . + G_{k} \leq 1 \\ 1, & G_{k - N} + G_{k - N + 1} + G_{k - N + 2} + . . . + G_{k} &GreaterEqual; 2 \end{matrix}, k &GreaterEqual; N + 1, N \leq X;

2.根据权利要求1所述的低复杂度的静音检测方法，其特征在于，所述步骤(2)中用于对X_[n]进行低通、带阻和高通滤波处理的低通、带阻和高通滤波器系数h₁、h₂和h₃分别为：

h_{1} = [\frac{1}{4}, \frac{1}{2}, \frac{1}{4}];

h_{2} = [\frac{\sqrt{2}}{4}, 0, \frac{- \sqrt{2}}{4}];

h_{3} = [\frac{- 1}{4}, \frac{1}{2}, \frac{- 1}{4}] .

3.根据权利要求2所述的低复杂度的静音检测方法，其特征在于，所述步骤(4)中λ值为30，X_[n]在第k帧的VAD判决变量D_k为：

D_{k} = 30^{| \frac{{P 1}_{k}}{P_{k}} - \frac{3}{8} |} + 30^{| \frac{{P 2}_{k}}{P_{k}} - \frac{1}{4} |} + 30^{| \frac{{P 3}_{k}}{P_{k}} - \frac{3}{8} |}, k = 1,2,3 . . . .

4.根据权利要求3所述的低复杂度的静音检测方法，其特征在于，所述步骤(5)中两个正阈值C₁和C₂分别为3.58和3.90，X_[n]在第k帧的VAD初步判决值G_k为：

G_{k} = \{\begin{matrix} 0, & D_{k} \leq 3.58 \\ 1, & 3.58 < D_{k} \leq 3.90 \\ 2, & D_{k} > 3.90 \end{matrix}, K &GreaterEqual; X + 1;

G_k＝0，1≤k≤X。

5.根据权利要求4所述的低复杂度的静音检测方法，其特征在于，所述步骤(6)中N值为59，X_[n]在第k帧的VAD最终判决结果GG_k为：

{GG}_{k} = \{\begin{matrix} 0, & G_{k - 59} + G_{k - 58} + . . . + G_{k} \leq 1 \\ 1, & G_{k - 59} + G_{k - 58} + . . . + G_{k} &GreaterEqual; 2 \end{matrix}, k &GreaterEqual; 60 .

6.根据权利要求1至5中任一项所述的低复杂度的静音检测方法，其特征在于，所述步骤(5)中X的值取60，即将X_[n]前60帧默认为静音帧。

7.根据权利要求1所述的低复杂度的静音检测方法，其特征在于，所述步骤(1)中采样频率f_s为8kHz。

8.根据权利要求1所述的低复杂度的静音检测方法，其特征在于，所述步骤(3)中θ为512，即每帧包括512个采样点，即每帧的时间长度为64ms。