CN103280225B - 一种低复杂度的静音检测方法 - Google Patents
一种低复杂度的静音检测方法 Download PDFInfo
- Publication number
- CN103280225B CN103280225B CN201310200198.3A CN201310200198A CN103280225B CN 103280225 B CN103280225 B CN 103280225B CN 201310200198 A CN201310200198 A CN 201310200198A CN 103280225 B CN103280225 B CN 103280225B
- Authority
- CN
- China
- Prior art keywords
- frame
- vad
- detection method
- value
- mute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Noise Elimination (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开了一种低复杂度的静音检测方法,包括以下步骤:(1)对模拟音频信号进行采样处理,得到采样信号X[n];(2)音频采样信号X[n]分别同时进行低通、带阻和高通滤波处理,得到子信号X1[n]、X2[n]和X3[n];(3)将步骤(2)中得到的三个子信号同时进行实时分帧处理,计算分帧后子信号在各帧的能量值;(4)通过步骤(3)得到的子信号在各帧的能量值,计算X[n]在各帧的VAD判决变量Dk;(5)默认开机后X[n]的前X帧全部为静音帧,将VAD判决变量Dk输入到判决器中进行判决处理,得到X[n]在各帧的VAD初步判决值Gk:(6)对Gk将进行平滑处理,得到X[n]在各帧的VAD最终判决结果GGk。本发明检测方法具有复杂度低、准确度高及自适应性强等优点。
Description
技术领域
本发明涉及一种音频信号的检测方法,特别涉及一种低复杂度的静音检测方法。
背景技术
短波通信的频段为3MHz-30MHz,由于使用该频段的用户越来越多,同频干扰现象日益严重,同时受短波信道不稳定等多种因素的综合影响,接收机所接收到的数字语音信号中往往含有功率较强的噪声信号,极大的影响了接听效果。大量试验表明,短波接收机的背景噪声类型为加性高斯白噪声,且其功率大小会随着时间的推移而缓慢变化(秒级)。在通信过程中,有声期和静默期往往交替出现。特别是在短波语音通信过程中,不同于手机的工作方式,短波接收机将一直处于开机状态,如果未经过处理,声音播放装置将不停播放十分嘈杂的短波信道背景噪声,加大了接听者的听觉负担。
静音检测(VAD,voice activity dectection)方法可以判断出接收的音频信号中的纯噪声区和带噪声的语音区,其中纯噪声区即为不带语音信号的静音区,根据检测结果,接收机在纯噪声区时可以适时关闭声音播放装置,对带噪声的语音区信号进行进一步的处理,以提高接收机的整体听觉品质。
准确率是VAD检测方法的最基本性能指标,许多传统算法,如基于能量和过零率特征的算法、基于差分能量和差分过零率特征的算法、基于频域能量的特征的算法等,在较高的信噪比下均能给出较高的检测准确率,但在低信噪比下已经不再稳健。同时算法复杂度和实现时所需的经济代价也是必须考虑的因素,前者对于那些靠电池工作的手持移动接收机十分重要,低复杂度的算法可以减少耗电量,从而延长设备使用时间;而后者对于低端产品来说十分重要,低复杂度的算法对硬件的要求较低,可以有效降低产品成本,提高市场竞争力。
在公告号为CN 1835073A的中国发明专利中公开了一种基于特征判别的静音检测方法,该方法包括以下步骤:(1)首先提取一帧音频数据的多门限过零率;(2)用加权多门限过零率对静音进行预判,判别出明显的静音;(3)提取步骤(2)中判断不是静音的音频数据的复合特征;(4)采用分类支持向量机对音频的复合特征加以判别,最终得到正常的语音和没有语音的静音信号。该方法通过音频数据的复合特征判别出纯噪声的静音信号和带噪声的语音信号。音频数据复合特征包括过零率、短时能量值、基于变分辨率频谱的Mel尺度倒谱系数,音频数据复合特征的提取需要经过较为复杂的计算,因此不适合在低端产品上使用。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种复杂度低的静音检测方法。
本发明的目的通过下述技术方案实现:一种低复杂度的静音检测方法,包括以下步骤:
(1)以fs的采样频率对模拟音频信号进行采样处理,得到采样信号X[n];
(2)音频采样信号X[n]分别同时进行低通、带阻和高通滤波处理,得到子信号X1[n]、X2[n]和X3[n];
(3)将步骤(2)三个子信号同时进行实时分帧处理,每帧包含θ个采样点,计算子信号在各帧的能量值;
(4)通过步骤(3)中得到的子信号在各帧的能量值,计算X[n]在各帧的VAD判决变量,其中X[n]在第k帧的VAD判决变量Dk为:
P1k、P2k和P3k分别为子信号X1[n]、X2[n]和X3[n]在第k帧上的能量值,Pk=P1k+P2k+P3k,λ≥5;
(5)默认开机后X[n]的前X帧为静音帧,将步骤(4)中X[n]在各帧的VAD判决变量输入到判决器中进行判决处理,得到X[n]在各帧的VAD初步判决值,其中X[n]在第k帧的VAD初步判决值Gk为:
Gk=0,1≤k≤X;
C1和C2为两个正阈值,C1<C2;
(6)将步骤(5)中得到的VAD初步判决值进行平滑处理,得到X[n]在各帧的VAD最终判决结果,其中X[n]在第k帧的VAD最终判决结果GGk为:
若X[n]在第k帧的VAD最终判决结果GG(k)为0,表示第k帧为静音帧;
若X[n]在第k帧的VAD最终判决结果GG(k)为1,表示第k帧为语音帧。
优选的,所述步骤(2)中用于对X[n]进行低通、带阻和高通滤波处理的低通、带阻和高通滤波器系数h1、h2和h3分别为:
更进一步的,所述步骤(4)中λ值为30,X[n]在第k帧的VAD判决变量Dk为:
更进一步的,所述步骤(5)中两个正阈值C1和C2分别为3.58和3.90,X[n]在第k帧的VAD初步判决值Gk为:
Gk=0,1≤k≤X。
更进一步的,所述步骤(6)中N值为59,X[n]在第k帧的VAD最终判决结果GGk为:
更进一步的,所述步骤(5)中X的值取60,即将X[n]前60帧默认为静音帧。
优选的,所述步骤(1)中采样频率fs为8kHz。
优选的,所述步骤(3)中θ为512,即每帧包括512个采样点,即每帧的时间长度为64ms。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明方法利用一个由3个滤波器组成的滤波器组对音频信号进行时域上的低通、高通和带阻滤波处理,接着对三个滤波子信号进行等长度的分帧处理并计算每个帧的能量值大小,然后根据这些数值计算得到一个判决变量,***设置了两个分段阈值来进行初步的三段式判决,随后对初步判决值进行平滑处理,得到最终判决结果,根据最终判决结果判断采样信号的静音帧和语音帧。本发明方法所使用的3个数字滤波器的脉冲响应系数长度都仅为3,整个检测过程仅需要极其少量的加法和乘法运算,滤波和判决过程简单易于实现,因此本发明具有步骤简单和计算复杂度低的优点,既无需额外的硬件支持,又可以大幅度减少计算耗电量,延长设备使用时间,降低设备使用成本。
(2)本发明方法对噪声的功率变化不敏感,整个过程中无需频繁的噪声参数更新,可以很好适应噪声时变特性,即使在较低信噪比的情况下仍具有较高的检测准确率,因此具有检测性能较好的优点。
附图说明
图1是本发明方法的静音检测流程图。
图2是本发明方法中所使用的低通、高通和带阻滤波器的频域滤波特性示意图。
图3a是语音设备产生的时间长度为600秒的干净语音信号示意图。
图3b是计算机产生的时间长度为600秒的高斯白噪声信号示意图。
图4a是图3a的干净语音信号和图3b的高斯白噪声信号加性混合后得到的信号图。
图4b是本发明方法的检测效果图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例公开了一种低复杂度的静音检测方法,具体步骤如下:
(1)以fs=8kHz的采样频率对模拟音频信号进行采样处理,得到采样信号X[n];
(2)音频采样信号X[n]分别同时进行低通、带阻和高通滤波处理,得到子信号X1[n]、X2[n]和X3[n];本实施例中用于对X[n]进行低通、带阻和高通滤波处理的滤波器系数分别系数h1、h2和h3分别为:
其中低通、带阻和高通滤波处理器的幅频响应特性|H1(ejω)|、|H2(ejω)|和|H3(ejω)|分别如图2所示。
(3)将滤波处理得到的三个子信号进行实时分帧处理,每帧包括512个采样点,时间长度为64ms,计算子信号X1[n]、X2[n]和X3[n]在各帧的能量值;
(4)通过步骤(3)得到的子信号在各帧的能量值,计算X[n]在各帧的VAD判决变量,其中X[n]在第k帧的VAD判决变量Dk为:
本实施例中λ值为30,因此Dk为:
其中Pk=P1k+P2k+P3k;P1k、P2k和P3k分别为子信号X1[n]、X2[n]和X3[n]在第k帧的能量值。Dk中的λ值也可以用大于5数值代替,其最佳值通过实际测试来设定。
(5)默认开机后X[n]在前60帧为静音帧,将步骤(4)X[n]在各帧的VAD判决变量输入到判决器中进行判决处理,得到X[n]在各帧的VAD初步判决值,其中X[n]在第k帧的VAD初步判决值Gk为:
Gk=0,1≤k≤60。
(6)将步骤(5)得到的VAD初步判决值进行平滑处理,得到X[n]在各帧的VAD最终判决结果,若X[n]某帧的初步判决值和某帧前58帧的58个初步判决值的和大于或等于2,则将该帧的VAD最终判决结果判定为1,否则将该帧的VAD最终判决结果判定为0;然后根据该帧的VAD最终判决结果判断该帧是静音帧还是语音帧;其中X[n]在第k帧的VAD最终判决结果GGk,即信号区间[X[1+(k-1)θ],X[2+(k-1)θ],...,X[θ+(k-1)θ]]的VAD最终判决结果GGk为:
若X[n]第k帧的VAD最终判决结果为0,表示第k帧为静音帧;
若X[n]第k帧的VAD最终判决结果为1,表示第k帧为语音帧。
根据上述步骤得到的最终判决结果,若检测的帧为静音帧,则可控制音频接收机的声音播放装置保持关闭状态,不播放此帧信号;若检测到的帧为语音帧,则音频接收机将播放该帧信号。
本实施例中为了提高算法检测的准确率,判决平滑过程中存在N帧的拖尾保护,具体大小视VAD算法的具体用途自行设定,本实施例中N值为59,其值过大会引入过多的纯噪声信号,过小则会损失部分语音信号。
如图3a所示为采用语音设备产生时间长度为600秒的干净语音信号,如图3b所示为利用计算机产生的时间长度也为600秒的功率时变高斯白噪声信号,其中在有语音活动区,噪声的功率明显是大于或等于语音信号的功率,使得信号平均信噪比小于0dB。
如图4a所示为图3a的干净语音信号和图3b的高斯白噪声信号加性混合后得到的信号。如图4b所示为采用本实施例方法对图4a的信号进行处理后得到最终检测结果,其中图中虚线指出了对图4a的含噪信号进行检测后得到的语音帧的时间轴区域,把检测结果和图3a的干净语音信号图进行比较后可以明显看出,检测结果十分理想,基本上无误检和漏检现象。
从图4b最终VAD检测结果可以看出,即使接收信号的信噪比已经明显低于0dB,但本实施例的VAD算法还是把语音信号活动区间全部检测出来,仅因拖尾保护措施引入了少量的纯噪声区间,整体性能已经超过了现有的一些经典VAD算法。
从图3a至图4b可以看出,利用本实施例的方法可以非常准确的检测出音频信号中的语音区和静音区,通过本实施例的静音信号检测方法能够准确的控制音频接收机设备的工作状态,以提高接收机的整体听觉品质。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种低复杂度的静音检测方法,其特征在于,包括以下步骤:
(1)以fs的采样频率对模拟音频信号进行采样处理,得到采样信号X[n];
(2)音频采样信号X[n]分别同时进行低通、带阻和高通滤波处理,得到子信号X1[n]、X2[n]和X3[n];
(3)将步骤(2)三个子信号同时进行实时分帧处理,每帧包含θ个采样点,计算子信号在各帧的能量值;
(4)通过步骤(3)中得到的子信号在各帧的能量值,计算X[n]在各帧的VAD判决变量,其中X[n]在第k帧的VAD判决变量Dk为:
P1k、P2k和P3k分别为子信号X1[n]、X2[n]和X3[n]在第k帧上的能量值,Pk=P1k+P2k+P3k,λ≥5;
(5)默认开机后X[n]的前X帧为静音帧,将步骤(4)X[n]在各帧的VAD判决变量输入到判决器中进行判决处理,得到X[n]在各帧的VAD初步判决值,其中X[n]在第k帧的VAD初步判决值Gk为:
Gk=0,1≤k≤X;
C1和C2为两个正阈值,C1<C2;
(6)将步骤(5)中得到的VAD初步判决值进行平滑处理,得到X[n]在各帧的VAD最终判决结果,其中X[n]在第k帧的VAD最终判决结果GGk为:
若X[n]在第k帧的VAD最终判决结果GG(k)为0,表示第k帧为静音帧;
若X[n]在第k帧的VAD最终判决结果GG(k)为1,表示第k帧为语音帧。
2.根据权利要求1所述的低复杂度的静音检测方法,其特征在于,所述步骤(2)中用于对X[n]进行低通、带阻和高通滤波处理的低通、带阻和高通滤波器系数h1、h2和h3分别为:
3.根据权利要求2所述的低复杂度的静音检测方法,其特征在于,所述步骤(4)中λ值为30,X[n]在第k帧的VAD判决变量Dk为:
4.根据权利要求3所述的低复杂度的静音检测方法,其特征在于,所述步骤(5)中两个正阈值C1和C2分别为3.58和3.90,X[n]在第k帧的VAD初步判决值Gk为:
Gk=0,1≤k≤X。
5.根据权利要求4所述的低复杂度的静音检测方法,其特征在于,所述步骤(6)中N值为59,X[n]在第k帧的VAD最终判决结果GGk为:
6.根据权利要求1至5中任一项所述的低复杂度的静音检测方法,其特征在于,所述步骤(5)中X的值取60,即将X[n]前60帧默认为静音帧。
7.根据权利要求1所述的低复杂度的静音检测方法,其特征在于,所述步骤(1)中采样频率fs为8kHz。
8.根据权利要求1所述的低复杂度的静音检测方法,其特征在于,所述步骤(3)中θ为512,即每帧包括512个采样点,即每帧的时间长度为64ms。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310200198.3A CN103280225B (zh) | 2013-05-24 | 2013-05-24 | 一种低复杂度的静音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310200198.3A CN103280225B (zh) | 2013-05-24 | 2013-05-24 | 一种低复杂度的静音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103280225A CN103280225A (zh) | 2013-09-04 |
CN103280225B true CN103280225B (zh) | 2015-07-01 |
Family
ID=49062719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310200198.3A Active CN103280225B (zh) | 2013-05-24 | 2013-05-24 | 一种低复杂度的静音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103280225B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715761B (zh) * | 2013-12-16 | 2018-03-30 | 深圳市梦网百科信息技术有限公司 | 一种音频有效数据检测方法和*** |
CN104184528B (zh) * | 2014-08-08 | 2016-06-08 | 北京海格云熙技术有限公司 | 民航收信机静音门限设置方法和*** |
CN106782617A (zh) * | 2016-11-22 | 2017-05-31 | 广州海格通信集团股份有限公司 | 一种针对受白噪声干扰语音信号的静音检测方法 |
CN108648769A (zh) * | 2018-04-20 | 2018-10-12 | 百度在线网络技术(北京)有限公司 | 语音活性检测方法、装置及设备 |
CN108806707B (zh) | 2018-06-11 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
CN113572898B (zh) * | 2021-01-18 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 语音通话中的无声异常检测方法及对应的装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101010722A (zh) * | 2004-08-30 | 2007-08-01 | 诺基亚公司 | 音频信号中话音活动的检测 |
CN101582264A (zh) * | 2009-06-12 | 2009-11-18 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法及语音增加的声音采集*** |
CN101599274A (zh) * | 2009-06-26 | 2009-12-09 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008108721A1 (en) * | 2007-03-05 | 2008-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for controlling smoothing of stationary background noise |
-
2013
- 2013-05-24 CN CN201310200198.3A patent/CN103280225B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101010722A (zh) * | 2004-08-30 | 2007-08-01 | 诺基亚公司 | 音频信号中话音活动的检测 |
CN101582264A (zh) * | 2009-06-12 | 2009-11-18 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法及语音增加的声音采集*** |
CN101599274A (zh) * | 2009-06-26 | 2009-12-09 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
Non-Patent Citations (1)
Title |
---|
朱建伟,孙水发,但志平,雷帮军.基于子带二次谱熵的语音端点检测.《微电子学与计算机》.2011,77-80. * |
Also Published As
Publication number | Publication date |
---|---|
CN103280225A (zh) | 2013-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103280225B (zh) | 一种低复杂度的静音检测方法 | |
Reddy et al. | An individualized super-Gaussian single microphone speech enhancement for hearing aid users with smartphone as an assistive device | |
CN103440869B (zh) | 一种音频混响的抑制装置及其抑制方法 | |
CN103413547B (zh) | 一种室内混响消除的方法 | |
CN103544961B (zh) | 语音信号处理方法及装置 | |
CN100593197C (zh) | 信号处理方法和装置 | |
CN109378013B (zh) | 一种语音降噪方法 | |
CN104485114B (zh) | 一种基于听觉感知特性的语音质量客观评估的方法 | |
CN104067339B (zh) | 噪音抑制装置 | |
WO2015078121A1 (zh) | 音频信号质量检测方法及装置 | |
CN103761974B (zh) | 一种人工耳蜗 | |
CN104658543A (zh) | 一种室内混响消除的方法 | |
US20150106087A1 (en) | Efficient Discrimination of Voiced and Unvoiced Sounds | |
CN103813251B (zh) | 一种可调节去噪程度的助听器去噪装置和方法 | |
CN106453762B (zh) | 音频***中语音啸叫的处理方法及*** | |
CN106504758B (zh) | 混音器及混音方法 | |
EP3118852A1 (en) | Method and device for detecting audio signal | |
CN102144258A (zh) | 促进确定信号边界频率的方法和装置 | |
CN107221339A (zh) | 基于增益补偿助听器语音质量w‑pesq客观评价方法 | |
Bhat et al. | Formant frequency-based speech enhancement technique to improve intelligibility for hearing aid users with smartphone as an assistive device | |
May et al. | Assessment of broadband SNR estimation for hearing aid applications | |
KR100931487B1 (ko) | 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 | |
CN103201793A (zh) | 基于语音通信的干扰噪声去除方法和*** | |
CN110444222A (zh) | 一种基于信息熵加权的话音降噪方法 | |
Yang et al. | Environment-Aware Reconfigurable Noise Suppression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |