CN102314884A

CN102314884A - 语音激活检测方法与装置

Info

Publication number: CN102314884A
Application number: CN201110235228A
Authority: CN
Inventors: 吴飞飞; 栗红霞
Original assignee: SHANGHAI GENER INFORMATION TECHNOLOGY Co Ltd; Czech Surway Technology (beijing) Co Ltd
Current assignee: BEIJING ZED-3 TECHNOLOGY CO., LTD.
Priority date: 2011-08-16
Filing date: 2011-08-16
Publication date: 2012-01-11
Anticipated expiration: 2031-08-16
Also published as: CN102314884B

Abstract

一种语音激活检测方法与装置，所述语音激活检测方法包括：对输入的声音信号进行分帧；以帧为单位对输入的声音信号进行时频分析；若时频分析后的结果小于或等于第一参考阈值，则判定该帧为噪声信号；若时频分析后的结果大于所述第一参考阈值，且小于第二参考阈值，则该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；若时频分析后的结果大于或等于所述第二参考阈值，则判定该帧为语音信号；所述第二参考阈值与第一参考阈值具有倍数关系。本技术方案能快捷、有效地识别出输入的声音信号中的语音信号和噪声信号，确保通话质量的同时减少了背景噪声。

Description

语音激活检测方法与装置

技术领域

本发明涉及音频信号处理技术领域，特别涉及一种语音激活检测方法与装置。

背景技术

语音激活检测(VAD，Voice Activity Detection)是一种通过特定的判决准则判断语音中出现的停顿和静默间隔，检测出有效语音部分的技术。通常运用这种技术可以在确保语音质量的前提下，对不同类别的语音段采用不同的比特数进行编码，从而降低语音的编码速率。由于在双工通信***中，一方只有35％左右的时间处于激活状态，如何降低静音期的编码速率对于减少传输带宽、功率以及容量具有积极的作用，因此VAD技术在语音通信领域具有重要的使用价值。

基于IP(Internet Protocol)的语音会议，一般都由终端进行回声消除和去噪处理，但是有些终端并没有做这些处理，导致会议里面回声和噪声都很大，严重影响了语音会议的质量。为了适应各种品质的终端，语音服务器(例如多媒体调度机)有必要对终端带进的回声和噪声进行处理，使语音会议质量达到可用程度。而通过VAD技术能够区分传输的声音信号中的语音信号和噪音信号，去除噪声信号以避免无用信号的传输，提高语音质量。目前，对于VAD技术的研究较多，例如：

(1)《基于三阶累积量的VAD算法》，北京邮电大学，王凡。该算法可以判断出淹没在噪声中的语音，但由于噪声信号和清音信号服从较为接近的分布特性，这就使得利用此算法后，对原音频信号进行重构时会使话音质量下降，这是三阶累积量理论无法克服的一个不足。

(2)《基于高阶循环累积量的VAD算法》，华中科技大学，朱晓亮。该算法采用MA(Moving Average)模型对语音信号建模，并选择平均幅度差(AMDF，Average Magnitude Difference Function)的方法来估算循环频率以降低算法复杂度。该算法对高斯(白色或有色)噪声以及其它平稳噪声自适应能力强、检测性能突出，但对于复杂背景噪声的处理效果不算理想。

因此，目前很多方法都是以牺牲通话质量为代价去减少背景噪声的，而且对于复杂背景噪声的处理效果不佳，暂时还没有一种方法能够确保通话质量的同时将噪声降低到最小。

关于VAD的相关技术，还可参考公开号为CN 101320559A的中国专利申请，该专利公开了一种声音激活检测装置及方法。

发明内容

本发明解决的问题是提供一种语音激活检测方法与装置，能快捷、有效地识别出输入的声音信号中的语音信号和噪声信号，在确保通话质量的同时达到减少背景噪声的目的。

为解决上述问题，本发明的技术方案提供一种语音激活检测方法，包括：

对输入的声音信号进行分帧；

以帧为单位对输入的声音信号进行时频分析；

若时频分析后的结果小于或等于第一参考阈值，则判定该帧为噪声信号；若时频分析后的结果大于所述第一参考阈值，且小于第二参考阈值，则该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；若时频分析后的结果大于或等于所述第二参考阈值，则判定该帧为语音信号；所述第二参考阈值与第一参考阈值具有倍数关系。

可选的，所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。

可选的，基于下一帧声音信号的判定结果对所述待定信号进行判定包括：将所述待定信号判定为与所述下一帧声音信号的信号类型一致。

可选的，当判定该帧为噪声信号之后，还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。

可选的，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述基于该帧噪声信号更新所述第一参考阈值和第二参考阈值包括：将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值；基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。

可选的，所述语音激活检测方法还包括：保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

可选的，所述第二参考阈值为第一参考阈值的1.3倍。

可选的，每一帧声音信号的长度为8ms。

可选的，所述时频分析包括：对该帧声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值。

为解决上述问题，本发明的技术方案还提供一种语音激活检测方法，包括：

对输入的声音信号进行分帧；

设定噪声信号的第一参考阈值和第二参考阈值，所述第二参考阈值与第一参考阈值具有倍数关系；

判断所述第一参考阈值是否处于预定范围之内，否则以帧为单位对输入的声音信号进行时频分析；是则以帧为单位对输入的声音信号进行过零率计算，若计算出的过零率大于预设阈值，则进行所述时频分析，否则判定该帧为噪声信号；

若时频分析后的结果小于或等于第一参考阈值，则判定该帧为噪声信号；若时频分析后的结果大于所述第一参考阈值，且小于第二参考阈值，则该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；若时频分析后的结果大于或等于所述第二参考阈值，则判定该帧为语音信号。

可选的，所述语音激活检测方法还包括基于所述第一参考阈值设定所述过零率的预设阈值。

可选的，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述预定范围包括第一预定范围和第二预定范围，所述第一预定范围与所述最大预设值相关，所述第二预定范围与所述最小预设值和中间预设值相关，所述中间预设值大于最小预设值，且小于最大预设值；所述基于所述第一参考阈值设定所述过零率的预设阈值包括：若所述第一参考阈值处于所述第一预定范围之内，则将所述过零率的预设阈值设定为第一预设阈值；若所述第一参考阈值处于所述第二预定范围之内，则将所述过零率的预设阈值设定为第二预设阈值。

可选的，当判定该帧为噪声信号之后，所述语音激活检测方法还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。

为解决上述问题，本发明的技术方案还提供一种语音激活检测装置，包括：

分帧单元，适于对输入的声音信号进行分帧；

时频分析单元，适于以帧为单位对输入的声音信号进行时频分析；

判定单元，适于当时频分析后的结果小于或等于第一参考阈值，则判定该帧为噪声信号；若时频分析后的结果大于所述第一参考阈值，且小于第二参考阈值，则该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；若时频分析后的结果大于或等于所述第二参考阈值，则判定该帧为语音信号；所述第二参考阈值与第一参考阈值具有倍数关系。

可选的，所述语音激活检测装置还包括噪声预测单元，适于提取所述输入的声音信号中前N帧声音信号并进行分析，得到所述第一参考阈值和第二参考阈值。

可选的，所述语音激活检测装置还包括更新单元，适于当所述判定单元判定该帧为噪声信号之后，基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。

可选的，所述语音激活检测装置还包括存储单元，适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

分帧单元，适于对输入的声音信号进行分帧；

第一设定单元，适于设定噪声信号的第一参考阈值和第二参考阈值，所述第二参考阈值与第一参考阈值具有倍数关系；

第一判定单元，适于判断所述第一参考阈值是否处于预定范围之内；

过零率计算单元，适于当判断出所述第一参考阈值处于预定范围之内，以帧为单位对输入的声音信号进行过零率计算；

第二判定单元，适于判断计算出的过零率是否大于预设阈值，否则判定该帧为噪声信号；

时频分析单元，适于当所述第一判定单元判断出所述第一参考阈值处于预定范围之外或所述第二判定单元判断出计算出的过零率大于所述预设阈值时，以帧为单位对输入的声音信号进行时频分析；

第三判定单元，适于当时频分析后的结果小于或等于第一参考阈值，则判定该帧为噪声信号；当时频分析后的结果大于第一参考阈值，且小于所述第二参考阈值，则该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；当时频分析后的结果大于或等于所述第二参考阈值，则判定该帧为语音信号。

与现有技术相比，本技术方案具有以下优点：

通过对输入的声音信号进行分帧(每帧声音信号平滑过渡)，再以帧为单位对输入的声音信号进行时频分析，将时频分析的结果与预先设定好的噪声信号的第一参考阈值和第二参考阈值进行比较，从而能够快捷、有效地识别出某一帧声音信号是语音信号还是噪声信号，以实现确保通话质量的同时达到减少背景噪声的目的。

通过判断设定的第一参考阈值是否处于预设范围之内，是则根据所述第一参考阈值处于不同的预设范围(不同的噪声信号类型)对应设定不同的过零率的预设阈值，通过以帧为单位对输入的声音信号进行过零率计算，对于计算的过零率小于所述预设阈值则判定为噪声信号，否则以时频分析进行进一步检验，由此实现了对不同噪声信号有针对性的检验，从而能在很大程度上避免产生误检和漏检的情况，对噪声信号与语音信号的识别更为有效。

基于已识别出的噪声信号，及时地对第一参考阈值和第二参考阈值进行不断的更新，从而能实现对当前环境中背景噪声变化的自适应，使对噪声信号与语音信号的识别更为准确、有效。

另外，通过提取输入的声音信号中前N帧声音信号并进行分析得到所述第一参考阈值和第二参考阈值的方式，能在语音通话建立之初就根据所处的不同环境设定出适应当前环境的噪声信号的参考阈值，较好地实现了对当前环境的背景噪声的预测，使对噪声信号的识别更为准确。

附图说明

图1是本发明实施例一提供的语音激活检测方法的流程示意图；

图2是本发明实施例一提供的语音激活检测装置的结构示意图；

图3是本发明实施例二提供的语音激活检测方法的流程示意图；

图4是本发明实施例二提供的语音激活检测装置的结构示意图；

图5是本发明实施例三提供的语音激活检测方法的流程示意图；

图6是本发明实施例三提供的语音激活检测装置的结构示意图。

具体实施方式

如背景技术所述，现有技术中很多方法都是以牺牲通话质量为代价去减少背景噪声，而且对于复杂背景噪声的处理效果不佳。本技术方案通过采用各种模拟工具找到语音信号与噪声信号之间特性的差异，然后综合利用语音平滑(分帧)，时域过零率计算，时域方差计算，频域方差计算等方法获得反映输入的声音信号在时域以及频域上的综合变化率的值，并采用自适应背景噪声的方法检测VAD，使得能快捷、有效地识别出输入的声音信号中的语音信号和噪声信号，达到去除噪声信号的同时还原语音真实质量的目的。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施方式的限制。

实施例一

图1是本发明实施例一提供的语音激活检测方法的流程示意图。如图1所示，所述语音激活检测方法包括以下步骤：

首先执行步骤S101，对输入的声音信号进行分帧。

本领域技术人员知晓，语音信号分析的目的就是在于方便有效地提取并表示语音信号所携带的信息，是语音信号处理的前提和基础，只有分析出可表示语音信号特征的参数，才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。语音一般分为无声段、清音段和浊音段。一般把浊音认为是一个以基音周期为周期的斜三角脉冲串，把清音模拟成随机白噪声。由于语音信号是一个非平稳态过程，不能用处理平稳信号的信号处理技术对其进行分析处理。但由于语音信号本身的特点，在短时间(例如10～30ms甚至更短的时间)范围内，其特性可以看作是一个准稳态过程，即语音信号具有短时平稳性。因此，利用语音的短时平稳特性，可以将处理平稳信号的信号处理技术引入到语音信号的短时处理中去，例如可以采用加窗分帧的方法将输入的声音信号(包括语音信号和噪声信号)分为多帧声音信号，每一帧短时的声音信号又称为一个分析帧(简称为帧)。分帧是用有限长度的窗函数来截取输入的声音信号形成分析帧，窗函数将需要处理区域之外的样点置零来获得当前的分析帧。分帧虽然可以采用将输入的声音信号连续分段的方法，但一般常采用交叠分段的方法，即前一帧与后一帧具有共同的交叠部分，该交叠部分称为帧移，这样可以使帧与帧之间平滑过渡，保持其连续性。帧移与帧长(一帧声音信号的长度)的比值一般取为0～1/2。本实施例中，每一帧声音信号的长度为8ms，后续步骤中的过零率计算以及背景噪声的预测及估计都是依据8ms长度数据计算的。关于对输入的声音信号进行加窗分帧的方法为本技术领域常用手段，在此不再赘述。

执行步骤S102，设定噪声信号的参考阈值，所述参考阈值包括第一参考阈值和第二参考阈值。因为要识别出声音信号中的语音信号和噪声信号，就需要对噪声信号与语音信号之间特性的差异进行分析，特别是对各种类型的噪声信号进行分析。对此，就需要预先进行大量的实验，对各类噪声信号进行分析，提取出其特征参数，例如：常用的方法是通过对噪声信号进行时域分析以及频域分析，获得反映其在时域以及频域上综合变化率的值，从而统计出能快捷、有效识别出噪声信号和语音信号的参考阈值的范围。如此，当输入的声音信号通过步骤S101分帧之后，在后续步骤中，就能够以帧为单位对每一帧声音信号进行分析，并将分析后的结果与所述参考阈值进行比较，从而基于不同的比较结果判定出该帧声音信号是噪声信号、语音信号或是有待进一步判定的信号。具体判定过程将在下面步骤中详细描述。

需要说明的是，所述参考阈值包括第一参考阈值和第二参考阈值，其中，所述第一参考阈值主要用于实现对噪声信号的识别，而所述第二参考阈值则主要用于实现对语音信号的识别，通过大量实验的统计结果发现，第二参考阈值与第一参考阈值之间是具有一定倍数关系的，因此，确定了第一参考阈值，也就能确定第二参考阈值。本实施例中，所述第二参考阈值为第一参考阈值的1.3倍，对于“1.3倍”的确定，正是基于对多种背景噪声进行大量实验，通过统计计算结果而得到的值。

此外，在所述第一参考阈值的具体设定过程中，分别设置有最大预设值、最小预设值，所述第一参考阈值的取值范围用区间表示为[最小预设值，最大预设值]，即所述第一参考阈值大于或等于所述最小预设值，且小于或等于所述最大预设值。当然，在所述最小预设值和最大预设值之间还可以设定一个中间预设值，所述中间预设值的取值范围用区间表示为(最小预设值，最大预设值)，即所述中间预设值大于所述最小预设值且小于所述最大预设值。对于所述第一参考阈值的最大预设值和最小预设值的设定也会影响最终判定的结果，因此，设定所述第一参考阈值的时候，应该根据实际情况对所述最大预设值和最小预设值进行设置。具体实施时，所述第一参考阈值的最大预设值设为350，所述第一参考阈值的最小预设值设为240，所述第一参考阈值的中间预设值设为280。

本实施例中，所述参考阈值(包括第一参考阈值和第二参考阈值)是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。一般地，N的取值越大(即采集的帧数越多)，对于语音通话建立之初当前环境的背景噪声的预测效果就越好，当然，如果采集的帧数越多，其分析处理的过程就会比较长，从而参考阈值的确定过程就会占用一定时间，不能及时地完成对噪声信号的参考阈值的设定。因此，在具体实施时，可以根据实际情况确定N的取值。通过提取输入的声音信号中前N帧声音信号并进行分析得到所述参考阈值的方式，能在语音通话建立之初就根据所处的不同环境设定出适应当前环境的噪声信号的参考阈值，较好地实现了对当前环境的背景噪声的预测，使对噪声信号的识别更为准确。

在其他实施例中，也可以根据实际情况预先便选择合适的参考阈值完成设定，例如在语音通话之前就人为设定好参考阈值，此外，还可以采用早已设定好的默认的参考阈值。

执行步骤S103，判断所述第一参考阈值是否处于预定范围之内。如前所述，所述第一参考阈值主要用于实现对噪声信号的识别，然而，考虑到某几类特殊的噪声信号在某些特性上与语音信号较为类似，依据所述参考阈值恐怕难以有效地识别出某一帧声音信号是噪声信号还是语音信号，即采用比较所述参考阈值这一特性难以准确地判定出噪声信号，由此可能产生误检和漏检的情况。由于不同的噪声信号具有多种不同的特性，因此可以针对这几类特殊的噪声信号的其他特性，例如针对不同噪声信号在变化率及幅值大小不同情况下统计出不同的特性，采用对应的方法对所述声音信号进行初步判定，这样可以有效地识别出部分背景噪声(所述几类特殊的噪声信号)。

若通过步骤S103判断出所述第一参考阈值处于预定范围之外，则执行步骤S104，以帧为单位对输入的声音信号进行时频分析。所述时频分析包括时域分析以及频域分析，具体为：对一帧声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值。其中，基于分帧平滑后的一帧声音信号，利用方差公式求出时域方差；基于分帧平滑后的一帧声音信号，首先对该信号作快速傅里叶变换(FFT)，对求出的傅里叶变换求方差，最后对数据求模作为复频域的变化率。在获得时域方差的值和频域方差的值之后，再对两者分别乘以一定的加权系数(两者所乘的加权系数之和等于1)，最终获得的值为反映该帧声音信号在时域以及频域上的综合变化率的值，即所述时频分析后的结果。至于时域分析以及频域分析的方法为本技术领域常用手段，在此不再赘述。

若通过步骤S103判断出所述第一参考阈值处于预定范围之内，则执行步骤S105，以帧为单位对输入的声音信号进行过零率计算。所述过零率计算也是较为常用的一种对声音信号进行时域分析方法。本领域技术人员知晓，过零率(短时过零率)表示一帧声音信号中，其信号波形穿过横轴(零电平)的次数，可以反映信号的频谱特性，对于连续的信号，过零即意味着时域波形通过时间轴，而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。清音和浊音的过零率分布大致呈高斯分布，一般两者的过零率有较大差异，虽然依靠过零率不能完全区分清音和浊音，但是由于本实施例中所述的这几类特殊的噪声信号的过零率的次数与语音信号的过零率具有明显的差异，因此通过将计算出的过零率与一预先设定的阈值进行比较，能够判定出噪声信号。具体地，通过步骤S105进行过零率的计算之后，则执行步骤S106，判断计算出的过零率是否大于预设阈值，是则执行步骤S104，以帧为单位对输入的声音信号进行时频分析，否则执行步骤S107，判定该帧为噪声信号。

需要说明的是，在过零率的计算过程中，对于过零率的预设阈值的选择很重要，选择过小将产生误检，选择过大将产生漏检。因此，在本实施例中，是基于所述第一参考阈值设定所述过零率的预设阈值，由此能设定出合适的过零率的预设阈值。具体地，所述预定范围包括第一预定范围和第二预定范围，所述第一预定范围与所述第一参考阈值的最大预设值相关，所述第二预定范围与所述第一参考阈值的最小预设值和中间预设值相关；所述基于所述第一参考阈值设定所述过零率的预设阈值包括：若所述第一参考阈值处于所述第一预定范围之内，则将所述过零率的预设阈值设定为第一预设阈值；若所述第一参考阈值处于所述第二预定范围之内，则将所述过零率的预设阈值设定为第二预设阈值。需要说明的是，对于所述第一预设阈值和第二预设阈值的设定是与噪声信号的类型相关。如前所述，有几类特殊的噪声信号通过计算出的过零率可以较容易地实现对其的判定，但是这几类噪声信号中，随着噪声信号的类型的不同，对噪声信号进行判定的标准(所述过零率的预设阈值)也有差异。举例来说：假设存在两类特殊噪声信号，对于第一类噪声信号，一般计算出的过零率小于或等于19，则可将19作为此类噪声信号的判定标准，而对于第二类噪声信号，如果仍然以19作为判定标准，则可能存在漏检，即很多计算出的过零率大于19且小于或等于28的声音信号其实都属于噪声信号，因此，对于第二类噪声信号的判定标准应该设定为28比较合适。反之，如果将28作为第一类噪声信号的判定标准，则可能存在误检。因此，所述第一参考阈值所处的预定范围不同，表明当前的声音信号中噪声信号的类型不同，由此对应设定的过零率的预设阈值也不同。

具体实施时，所述第一预定范围为大于所述第一参数阈值的最大预设值，即第一预定范围为大于350，当所述第一参考阈值处于所述第一预定范围之内，则将所述过零率的预设阈值设定为第一预设阈值，所述第一预设阈值具体为28；所述第二预定范围为所述第一参数阈值的最小预设值与所述第一参数阈值的中间预设值之间，即第二预定范围为240～280，当所述第一参考阈值处于所述第二预定范围之内，则将所述过零率的预设阈值设定为第二预设阈值，所述第二预设阈值具体为19。举例来说，如果步骤S103判断出所述第一参考阈值为360，该值大于350，第一参考阈值处于所述第一预定范围之内，则说明该帧有可能为特殊的噪声信号，需要对其进行过零率的计算以确定是否为噪声信号，此时过零率的预设阈值设定为28，如果计算出的过零率小于或等于28，则确定该帧为噪声信号；同样地，如果步骤S103判断出所述第一参考阈值为260，该值介于240～280之间，第一参考阈值处于所述第二预定范围之内，则说明该帧也有可能为特殊的噪声信号，需要对其进行过零率的计算以确定是否为噪声信号，此时过零率的预设阈值设定为19，如果计算出的过零率小于或等于19，则确定该帧为噪声信号；而如果步骤S103判断出所述第一参考阈值为300，则第一参考阈值处于所述预定范围之外，此时的过零率的预设阈值一般设定为1，这意味着几乎不太可能判定为噪声信号，因此，在实际实施过程中，便不再进行过零率的计算，而是直接执行步骤S104，以帧为单位对输入的声音信号进行时频分析。

通过步骤S104获得时频分析后的结果之后，执行步骤S108，将时频分析后的结果与所述参考阈值进行比较。具体地，若时频分析后的结果小于或等于第一参考阈值，则执行步骤S109判定该帧为噪声信号；若时频分析后的结果大于所述第一参考阈值，且小于第二参考阈值，则执行步骤S111，该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；若时频分析后的结果大于或等于所述第二参考阈值，则执行步骤S110，判定该帧为语音信号。

其中，步骤S111中所述基于下一帧声音信号的判定结果对所述待定信号进行判定包括：将所述待定信号判定为与所述下一帧声音信号的信号类型一致。具体地，若下一帧声音信号判定为语音信号，则判定所述待定信号为语音信号；若下一帧声音信号判定为噪声信号，则判定所述待定信号为噪声信号；若下一帧声音信号判定为待定信号，则再基于这一帧判定为待定信号的下一帧声音信号的判定结果对其进行判定。举例来说，如果第1帧声音信号判定出为噪声信号，则直接将其丢弃，而第2帧声音信号判定为待定信号，则将其暂时存于缓存之中，等待第3帧声音信号的判定结果，如果第3帧声音信号的判定为语音信号，则可以将第2帧声音信号(待定信号)判定为语音信号，当然，如果第3帧声音信号仍然判定为待定信号，则继续等待第4帧声音信号的判定结果，第4帧声音信号仍然为待定信号，则等待第5帧声音信号的判定结果，如此直至后续有一帧能够判定出是噪声信号或语音信号为止。所以说，假设第1帧到第n帧都判定为待定信号，而第n+1帧判定为噪声信号，则之前第1帧到第n帧都判定为噪声信号，如果第n+1帧判定为语音信号，则之前第1帧到第n帧都判定为语音信号。

当然，一方面由于缓存的容量有限，不可能保存入太多的待定信号，另一方面，对语音信号进行处理的即时性要求，也没必要保存时间上已过去很久的待定信号，因此，一般考虑只将预定数量的待定信号存于缓存之中，以等待后面几帧信号的判定结果对其进行进一步的判定，当缓存中保存的待定信号的帧数超过预定数量时，则将最先存入的那帧待定信号丢弃，即对于待定信号的保存遵守先进先出的原则。举例说明，如果所述预定数量为8，假设第1帧至第8帧声音信号均判定为待定信号，那么这8帧声音信号都保存在缓存中，如果第9帧判定为语音信号，则第1帧至第8帧声音信号都为语音信号，并且第1帧声音信号可作为这一段语音的开始，而如果第9帧判定为待定信号，则第1帧声音信号(已被判定为待定信号)会被丢弃；同理，如果某一帧语音信号之后的10帧声音信号均判定为待定信号，该帧语音信号之后的第1帧和第2帧声音信号会被丢弃，而如果第11帧声音信号为噪声信号，则保存的这8帧待定信号判定为噪声信号(实际实施时，为了保证语音的自然度及过渡的平滑性，这8帧待定信号不会被丢弃，会经语音处理后输出)，该帧语音信号可作为这一段语音的结束。

本实施例中，所述语音激活检测方法还包括：保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。在对判定出的语音信号进行语音处理并输出时，也会将所述前P帧待定信号和后Q帧待定信号也处理后输出，如此，便可以保证语音的自然度及过渡的平滑性。需要说明的是，这里的P和Q是指预先设定的在缓存中所保存待定信号数量的最大值，在实际实施时，也会出现缓存中保存的待定信号的数量小于P或Q的情况，例如：如果P＝8，Q＝5，假设第1帧至第3帧判定为待定信号，而后续的几帧声音信号都为语音信号，则缓存中实际保存的待定信号的数量只有3帧；同理，如果某一帧语音信号之后的4帧声音信号均判定为待定信号，该帧语音信号之后的第5帧为噪声信号或语音信号，则缓存中实际保存的待定信号的数量只有3帧。本实施例中，取P＝Q＝3，当然，P、Q的取值可以根据实际需求做出适当的调整。

特别地，可以将上述基于自适应背景噪声的语音激活检测方法应用于语音会议服务器上进行回声消除和噪声去除，在语音会议中，每路输入的声音信号通过该方法的处理后，可以有效的去除终端带入的回声和噪音。

基于上述语音激活检测方法，本实施例还提供一种语音激活检测装置。图2是本发明实施例一提供的语音激活检测装置的结构示意图，如图2所示，本实施例提供的语音激活检测装置包括：分帧单元101，适于对输入的声音信号进行分帧；第一设定单元102，适于设定噪声信号的参考阈值，所述参考阈值包括第一参考阈值和第二参考阈值，所述第二参考阈值与第一参考阈值具有倍数关系；第一判定单元103，与所述第一设定单元102相连，适于判断所述第一设定单元102设定的所述第一参考阈值是否处于预定范围之内；过零率计算单元104，与所述分帧单元101、第一判定单元103相连，适于当所述第一判定单元103判断出所述第一参考阈值处于预定范围之内，以帧为单位对输入的声音信号进行过零率计算；第二判定单元105，与所述过零率计算单元104相连，适于判断计算出的过零率是否大于预设阈值，否则判定该帧为噪声信号；时频分析单元106，与所述分帧单元101、第一判定单元103、第二判定单元105相连，适于当所述第一判定单元103判断出所述第一参考阈值处于预定范围之外或所述第二判定单元105判断出计算出的过零率大于所述预设阈值时，以帧为单位对输入的声音信号进行时频分析；第三判定单元107，与所述时频分析单元106相连，适于当时频分析后的结果小于或等于第一参考阈值，则判定该帧为噪声信号；当时频分析后的结果大于第一参考阈值，且小于所述第二参考阈值，则该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；当时频分析后的结果大于或等于所述第二参考阈值，则判定该帧为语音信号。所述第三判定单元107基于下一帧声音信号的判定结果对所述待定信号进行判定具体为：将所述待定信号判定为与所述下一帧声音信号的信号类型一致。

本实施例中，所述语音激活检测装置还包括第二设定单元109，所述第二设定单元109与第一设定单元102、第二判定单元105连接，适于基于所述第一参考阈值设定所述过零率的预设阈值。具体地，所述预定范围包括第一预定范围和第二预定范围，所述第一预定范围与所述第一参考阈值的最大预设值相关，所述第二预定范围与所述第一参考阈值的最小预设值和中间预设值相关；所述第二设定单元109基于所述第一参考阈值设定所述过零率的预设阈值具体为：若所述第一参考阈值处于所述第一预定范围之内，则将所述过零率的预设阈值设定为第一预设阈值；若所述第一参考阈值处于所述第二预定范围之内，则将所述过零率的预设阈值设定为第二预设阈值。

所述语音激活检测装置还包括噪声预测单元108，所述噪声预测单元108与分帧单元101、第一设定单元102连接，适于提取所述输入的声音信号中前N帧声音信号并进行分析，得到所述第一设定单元102设定的所述参考阈值(包括第一参考阈值和第二参考阈值)。

此外，所述语音激活检测装置还包括存储单元110，所述存储单元110与第三判定单元107连接，适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

关于所述语音激活检测装置的具体实施可参考本实施例提供的语音激活检测方法，在此不再赘述。

实施例二

图3是本发明实施例二提供的语音激活检测方法的流程示意图。如图3所示，与实施例一有所区别的是，本实施例中，当步骤S107或步骤S109中判定该帧为噪声信号之后，还包括执行步骤S112，基于该帧噪声信号更新所述参考阈值。具体地，所述基于该帧噪声信号更新所述参考阈值包括：将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述参考阈值。因为就一帧已经判定出是噪声信号的声音信号而言，对其进行时频分析后的结果能够表明当前环境下背景噪声的特性，那么可以基于这帧噪声信号的时频分析后的结果，乘以一定的加权系数a，再将所述第一参考阈值的最大预设值乘以对应的加权系数b，其中，a+b＝1，之后以两者相加得到的值作为新的第一参考阈值，再基于所述第一参考阈值与第二参考阈值之间具有的倍数关系和更新后的第一参考阈值得出新的第二参考阈值。举例来说，假设当前设定的所述第一参考阈值为260，对一帧声音信号进行时频分析之后，得到的时频分析的结果为250，则通过执行步骤S108后，判断出时频分析的结果小于第一参考阈值，则执行步骤S109，然后，执行步骤S112，基于该帧噪声信号更新所述参考阈值，如实施例一中所述，所述第一参考阈值的最大预设值为350，假设对时频分析的结果的加权系数为0.6，则对所述第一参考阈值的最大预设值的加权系数为0.4，则最后得到的值应该为250*0.6+350*0.4＝150+140＝290。于是，将290作为更新后的第一参考阈值，由于本实施例中第二参考阈值为第一参考阈值的1.3倍，那么更新后的第二参考阈值为377。当然，上面只是对基于该帧噪声信号更新所述参考阈值的一种方式，在其他实施例中，也可以在判定出时频分析的结果小于第一参考阈值，以时频分析的结果替换所述第一参考阈值。

基于已识别出的噪声信号，及时地对第一参考阈值和第二参考阈值进行更新，从而能实现对当前环境中背景噪声变化的自适应，使对噪声信号与语音信号的识别更为准确、有效。

本实施例的其他步骤可参考实施例一的具体实施，在此不再赘述。

基于上述语音激活检测方法，本实施例还提供一种语音激活检测装置。图4是本发明实施例二提供的语音激活检测装置的结构示意图，如图4所示，本实施例提供的语音激活检测装置不仅包括实施例一中所述语音激活检测装置的各单元，有所区别的是，还包括更新单元111，所述更新单元111与第二判定单元105、第三判定单元107、第一设定单元102连接，适于当所述第二判定单元105或第三判定单元107判定该帧为噪声信号之后，基于该帧噪声信号更新所述参考阈值。所述更新单元111基于该帧噪声信号更新所述参考阈值具体为：将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值，并基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。

本实施例所述语音激活检测装置的具体实施，可参考本实施例所述语音激活检测方法，在此不再赘述。

实施例三

图5是本发明实施例三提供的语音激活检测方法的流程示意图。如图5所示，与实施例二、实施例三中所述语音激活检测方法有所不同的是，本实施例可以通过较为简单的实施方式实现本发明提供的语音激活检测方法。结合图1或图3，具体地，本实施例提供的语音激活检测方法不需要进行判断所述第一参考阈值是否处于预定范围之内的步骤(步骤S103)，由此也就不需要进行过零率的计算及其后续相关判定步骤(步骤S105、步骤S106、步骤S107)，此外，也不需要在进行时频分析之前对噪声信号的第一参考阈值和第二参考阈值进行设定的步骤，时频分析后的结果可以直接与一预先存储的默认的第一参考阈值和第二参考阈值进行比较。

本实施例提供的语音激活检测方法包括：步骤S201，对输入的声音信号进行分帧；步骤S202，以帧为单位对输入的声音信号进行时频分析；步骤S203，将时频分析后的结果与第一参考阈值和第二参考阈值进行比较，若时频分析后的结果小于或等于第一参考阈值，则执行步骤S204，判定该帧为噪声信号；若时频分析后的结果大于所述第一参考阈值，且小于第二参考阈值，则执行步骤S205，该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；若时频分析后的结果大于或等于所述第二参考阈值，则执行步骤S206，判定该帧为语音信号。

本实施例中，每一帧声音信号的长度为8ms。所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。所述第二参考阈值为第一参考阈值的1.3倍。所述基于下一帧声音信号的判定结果对所述待定信号进行判定包括：将所述待定信号判定为与所述下一帧声音信号的信号类型一致。所述时频分析包括：对该帧声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值。

此外，所述语音激活检测方法还包括：保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

在其他实施例中，当判定该帧为噪声信号之后，语音激活检测方法还可以包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值的步骤。具体包括：将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值和第二参考阈值。对于基于该帧噪声信号更新所述第一参考阈值和第二参考阈值的步骤可参考实施例二中所述语音激活检测方法的相关描述，在此不再赘述。

基于上述语音激活检测方法，本实施例还提供一种语音激活检测装置。图6是本发明实施例三提供的语音激活检测装置的结构示意图，如图6所示，本实施例提供的语音激活检测装置包括：分帧单元201，适于对输入的声音信号进行分帧；时频分析单元202，与所述分帧单元201相连，适于以帧为单位对输入的声音信号进行时频分析；所述时频分析单元202进行的时频分析包括：对该帧声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值；判定单元203，与所述时频分析单元202相连，适于当时频分析后的结果小于或等于第一参考阈值，则判定该帧为噪声信号；若时频分析后的结果大于所述第一参考阈值，且小于第二参考阈值，则该帧为待定信号，基于下一帧声音信号的判定结果对其进行判定；若时频分析后的结果大于或等于所述第二参考阈值，则判定该帧为语音信号。所述判定单元203基于下一帧声音信号的判定结果对所述待定信号进行判定具体为：将所述待定信号判定为与所述下一帧声音信号的信号类型一致。

本实施例中，所述语音激活检测装置还包括噪声预测单元204，所述噪声预测单元204与分帧单元201、判定单元203连接，适于提取所述输入的声音信号中前N帧声音信号并进行分析，得到所述第一参考阈值和第二参考阈值。

此外，所述语音激活检测装置还包括存储单元205，所述存储单元205与判定单元203连接，适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

在其他实施例中，语音激活检测装置还可以包括更新单元，适于当判定单元203判定该帧为噪声信号之后，基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。所述更新单元基于该帧噪声信号更新所述第一参考阈值和第二参考阈值具体为：将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值和第二参考阈值。

本实施例所述语音激活检测装置的具体实施，可参考本实施例以及实施例一中所述语音激活检测方法的相关步骤，在此不再赘述。

综上，本发明实施方式提供的语音激活检测方法与装置，至少具有如下有益效果：

进一步地，对某几类特殊的噪声信号，通过判断设定的第一参考阈值是否处于预设范围之内，是则根据所述第一参考阈值处于不同的预设范围(不同的噪声信号类型)对应设定不同的过零率的预设阈值，通过以帧为单位对输入的声音信号进行过零率计算，对于计算的过零率小于所述预设阈值则判定为噪声信号，否则以时频分析进行进一步检验，由此实现了对不同噪声信号有针对性的检验，从而能在很大程度上避免产生误检和漏检的情况，对噪声信号与语音信号的识别更为有效。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种语音激活检测方法，其特征在于，包括：

对输入的声音信号进行分帧；

以帧为单位对输入的声音信号进行时频分析；

2.根据权利要求1所述的语音激活检测方法，其特征在于，所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。

3.根据权利要求1所述的语音激活检测方法，其特征在于，基于下一帧声音信号的判定结果对所述待定信号进行判定包括：将所述待定信号判定为与所述下一帧声音信号的信号类型一致。

4.根据权利要求1所述的语音激活检测方法，其特征在于，当判定该帧为噪声信号之后，还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。

5.根据权利要求4所述的语音激活检测方法，其特征在于，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述基于该帧噪声信号更新所述第一参考阈值和第二参考阈值包括：将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值；基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。

6.根据权利要求1所述的语音激活检测方法，其特征在于，还包括：保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

7.根据权利要求1所述的语音激活检测方法，其特征在于，所述第二参考阈值为第一参考阈值的1.3倍。

8.根据权利要求1所述的语音激活检测方法，其特征在于，每一帧声音信号的长度为8ms。

9.根据权利要求1所述的语音激活检测方法，其特征在于，所述时频分析包括：对该帧声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值。

10.一种语音激活检测方法，其特征在于，包括：

对输入的声音信号进行分帧；

11.根据权利要求10所述的语音激活检测方法，其特征在于，还包括基于所述第一参考阈值设定所述过零率的预设阈值。

12.根据权利要求11所述的语音激活检测方法，其特征在于，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述预定范围包括第一预定范围和第二预定范围，所述第一预定范围与所述最大预设值相关，所述第二预定范围与所述最小预设值和中间预设值相关，所述中间预设值大于最小预设值，且小于最大预设值；所述基于所述第一参考阈值设定所述过零率的预设阈值包括：若所述第一参考阈值处于所述第一预定范围之内，则将所述过零率的预设阈值设定为第一预设阈值；若所述第一参考阈值处于所述第二预定范围之内，则将所述过零率的预设阈值设定为第二预设阈值。

13.根据权利要求10所述的语音激活检测方法，其特征在于，所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。

14.根据权利要求10所述的语音激活检测方法，其特征在于，基于下一帧声音信号的判定结果对所述待定信号进行判定包括：将所述待定信号判定为与所述下一帧声音信号的信号类型一致。

15.根据权利要求10所述的语音激活检测方法，其特征在于，当判定该帧为噪声信号之后，还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。

16.根据权利要求15所述的语音激活检测方法，其特征在于，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述基于该帧噪声信号更新所述第一参考阈值和第二参考阈值包括：将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值；基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。

17.根据权利要求10所述的语音激活检测方法，其特征在于，还包括：保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

18.根据权利要求10所述的语音激活检测方法，其特征在于，所述第二参考阈值为第一参考阈值的1.3倍。

19.根据权利要求10所述的语音激活检测方法，其特征在于，每一帧声音信号的长度为8ms。

20.根据权利要求10所述的语音激活检测方法，其特征在于，所述时频分析包括：对该帧输入的声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值。

21.一种语音激活检测装置，其特征在于，包括：

分帧单元，适于对输入的声音信号进行分帧；

22.根据权利要求21所述的语音激活检测装置，其特征在于，还包括噪声预测单元，适于提取所述输入的声音信号中前N帧声音信号并进行分析，得到所述第一参考阈值和第二参考阈值。

23.根据权利要求21所述的语音激活检测装置，其特征在于，所述判定单元将所述待定信号判定为与所述下一帧声音信号的信号类型一致。

24.根据权利要求21所述的语音激活检测装置，其特征在于，还包括更新单元，适于当所述判定单元判定该帧为噪声信号之后，基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。

25.根据权利要求24所述的语音激活检测装置，其特征在于，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述更新单元将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值，并基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。

26.根据权利要求21所述的语音激活检测装置，其特征在于，还包括存储单元，适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

27.根据权利要求21所述的语音激活检测装置，其特征在于，所述第二参考阈值为第一参考阈值的1.3倍。

28.根据权利要求21所述的语音激活检测装置，其特征在于，每一帧声音信号的长度为8ms。

29.根据权利要求21所述的语音激活检测装置，其特征在于，所述时频分析对该帧声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值。

30.一种语音激活检测装置，其特征在于，包括：

分帧单元，适于对输入的声音信号进行分帧；

时频分析单元，适于当判断出所述第一参考阈值处于预定范围之外或判断出计算出的过零率大于所述预设阈值时，以帧为单位对输入的声音信号进行时频分析；

31.根据权利要求30所述的语音激活检测装置，其特征在于，还包括第二设定单元，适于基于所述第一参考阈值设定所述过零率的预设阈值。

32.根据权利要求31所述的语音激活检测装置，其特征在于，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述预定范围包括第一预定范围和第二预定范围，所述第一预定范围与所述最大预设值相关，所述第二预定范围与所述最小预设值和中间预设值相关，所述中间预设值大于最小预设值，且小于最大预设值；若所述第一参考阈值处于所述第一预定范围之内，则所述第二设定单元将所述过零率的预设阈值设定为第一预设阈值；若所述第一参考阈值处于所述第二预定范围之内，则所述第二设定单元将所述过零率的预设阈值设定为第二预设阈值。

33.根据权利要求30所述的语音激活检测装置，其特征在于，还包括噪声预测单元，适于提取所述输入的声音信号中前N帧声音信号并进行分析，得到所述第一设定单元设定的所述第一参考阈值和第二参考阈值。

34.根据权利要求30所述的语音激活检测装置，其特征在于，所述第三判定单元将所述待定信号判定为与所述下一帧声音信号的信号类型一致。

35.根据权利要求30所述的语音激活检测装置，其特征在于，还包括更新单元，适于当所述第二判定单元或第三判定单元判定该帧为噪声信号之后，基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。

36.根据权利要求35所述的语音激活检测装置，其特征在于，所述第一参考阈值大于或等于最小预设值，且小于或等于最大预设值；所述更新单元将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值，并基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。

37.根据权利要求30所述的语音激活检测装置，其特征在于，还包括存储单元，适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。

38.根据权利要求30所述的语音激活检测装置，其特征在于，所述第二参考阈值为第一参考阈值的1.3倍。

39.根据权利要求30所述的语音激活检测装置，其特征在于，每一帧声音信号的长度为8ms。

40.根据权利要求30所述的语音激活检测装置，其特征在于，所述时频分析对该帧输入的声音信号分别在时域以及频域上求方差，获得反映其在时域以及频域上的综合变化率的值。