CN102314884A - 语音激活检测方法与装置 - Google Patents

语音激活检测方法与装置 Download PDF

Info

Publication number
CN102314884A
CN102314884A CN201110235228A CN201110235228A CN102314884A CN 102314884 A CN102314884 A CN 102314884A CN 201110235228 A CN201110235228 A CN 201110235228A CN 201110235228 A CN201110235228 A CN 201110235228A CN 102314884 A CN102314884 A CN 102314884A
Authority
CN
China
Prior art keywords
reference threshold
frame
signal
voice
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110235228A
Other languages
English (en)
Other versions
CN102314884B (zh
Inventor
吴飞飞
栗红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZED-3 TECHNOLOGY CO., LTD.
Original Assignee
SHANGHAI GENER INFORMATION TECHNOLOGY Co Ltd
Czech Surway Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI GENER INFORMATION TECHNOLOGY Co Ltd, Czech Surway Technology (beijing) Co Ltd filed Critical SHANGHAI GENER INFORMATION TECHNOLOGY Co Ltd
Priority to CN2011102352285A priority Critical patent/CN102314884B/zh
Publication of CN102314884A publication Critical patent/CN102314884A/zh
Application granted granted Critical
Publication of CN102314884B publication Critical patent/CN102314884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

一种语音激活检测方法与装置,所述语音激活检测方法包括:对输入的声音信号进行分帧;以帧为单位对输入的声音信号进行时频分析;若时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号;所述第二参考阈值与第一参考阈值具有倍数关系。本技术方案能快捷、有效地识别出输入的声音信号中的语音信号和噪声信号,确保通话质量的同时减少了背景噪声。

Description

语音激活检测方法与装置
技术领域
本发明涉及音频信号处理技术领域,特别涉及一种语音激活检测方法与装置。
背景技术
语音激活检测(VAD,Voice Activity Detection)是一种通过特定的判决准则判断语音中出现的停顿和静默间隔,检测出有效语音部分的技术。通常运用这种技术可以在确保语音质量的前提下,对不同类别的语音段采用不同的比特数进行编码,从而降低语音的编码速率。由于在双工通信***中,一方只有35%左右的时间处于激活状态,如何降低静音期的编码速率对于减少传输带宽、功率以及容量具有积极的作用,因此VAD技术在语音通信领域具有重要的使用价值。
基于IP(Internet Protocol)的语音会议,一般都由终端进行回声消除和去噪处理,但是有些终端并没有做这些处理,导致会议里面回声和噪声都很大,严重影响了语音会议的质量。为了适应各种品质的终端,语音服务器(例如多媒体调度机)有必要对终端带进的回声和噪声进行处理,使语音会议质量达到可用程度。而通过VAD技术能够区分传输的声音信号中的语音信号和噪音信号,去除噪声信号以避免无用信号的传输,提高语音质量。目前,对于VAD技术的研究较多,例如:
(1)《基于三阶累积量的VAD算法》,北京邮电大学,王凡。该算法可以判断出淹没在噪声中的语音,但由于噪声信号和清音信号服从较为接近的分布特性,这就使得利用此算法后,对原音频信号进行重构时会使话音质量下降,这是三阶累积量理论无法克服的一个不足。
(2)《基于高阶循环累积量的VAD算法》,华中科技大学,朱晓亮。该算法采用MA(Moving Average)模型对语音信号建模,并选择平均幅度差(AMDF,Average Magnitude Difference Function)的方法来估算循环频率以降低算法复杂度。该算法对高斯(白色或有色)噪声以及其它平稳噪声自适应能力强、检测性能突出,但对于复杂背景噪声的处理效果不算理想。
因此,目前很多方法都是以牺牲通话质量为代价去减少背景噪声的,而且对于复杂背景噪声的处理效果不佳,暂时还没有一种方法能够确保通话质量的同时将噪声降低到最小。
关于VAD的相关技术,还可参考公开号为CN 101320559A的中国专利申请,该专利公开了一种声音激活检测装置及方法。
发明内容
本发明解决的问题是提供一种语音激活检测方法与装置,能快捷、有效地识别出输入的声音信号中的语音信号和噪声信号,在确保通话质量的同时达到减少背景噪声的目的。
为解决上述问题,本发明的技术方案提供一种语音激活检测方法,包括:
对输入的声音信号进行分帧;
以帧为单位对输入的声音信号进行时频分析;
若时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号;所述第二参考阈值与第一参考阈值具有倍数关系。
可选的,所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。
可选的,基于下一帧声音信号的判定结果对所述待定信号进行判定包括:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
可选的,当判定该帧为噪声信号之后,还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。
可选的,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述基于该帧噪声信号更新所述第一参考阈值和第二参考阈值包括:将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值;基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。
可选的,所述语音激活检测方法还包括:保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
可选的,所述第二参考阈值为第一参考阈值的1.3倍。
可选的,每一帧声音信号的长度为8ms。
可选的,所述时频分析包括:对该帧声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值。
为解决上述问题,本发明的技术方案还提供一种语音激活检测方法,包括:
对输入的声音信号进行分帧;
设定噪声信号的第一参考阈值和第二参考阈值,所述第二参考阈值与第一参考阈值具有倍数关系;
判断所述第一参考阈值是否处于预定范围之内,否则以帧为单位对输入的声音信号进行时频分析;是则以帧为单位对输入的声音信号进行过零率计算,若计算出的过零率大于预设阈值,则进行所述时频分析,否则判定该帧为噪声信号;
若时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号。
可选的,所述语音激活检测方法还包括基于所述第一参考阈值设定所述过零率的预设阈值。
可选的,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述预定范围包括第一预定范围和第二预定范围,所述第一预定范围与所述最大预设值相关,所述第二预定范围与所述最小预设值和中间预设值相关,所述中间预设值大于最小预设值,且小于最大预设值;所述基于所述第一参考阈值设定所述过零率的预设阈值包括:若所述第一参考阈值处于所述第一预定范围之内,则将所述过零率的预设阈值设定为第一预设阈值;若所述第一参考阈值处于所述第二预定范围之内,则将所述过零率的预设阈值设定为第二预设阈值。
可选的,所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。
可选的,基于下一帧声音信号的判定结果对所述待定信号进行判定包括:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
可选的,当判定该帧为噪声信号之后,所述语音激活检测方法还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。
可选的,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述基于该帧噪声信号更新所述第一参考阈值和第二参考阈值包括:将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值;基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。
为解决上述问题,本发明的技术方案还提供一种语音激活检测装置,包括:
分帧单元,适于对输入的声音信号进行分帧;
时频分析单元,适于以帧为单位对输入的声音信号进行时频分析;
判定单元,适于当时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号;所述第二参考阈值与第一参考阈值具有倍数关系。
可选的,所述语音激活检测装置还包括噪声预测单元,适于提取所述输入的声音信号中前N帧声音信号并进行分析,得到所述第一参考阈值和第二参考阈值。
可选的,所述语音激活检测装置还包括更新单元,适于当所述判定单元判定该帧为噪声信号之后,基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。
可选的,所述语音激活检测装置还包括存储单元,适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
为解决上述问题,本发明的技术方案还提供一种语音激活检测装置,包括:
分帧单元,适于对输入的声音信号进行分帧;
第一设定单元,适于设定噪声信号的第一参考阈值和第二参考阈值,所述第二参考阈值与第一参考阈值具有倍数关系;
第一判定单元,适于判断所述第一参考阈值是否处于预定范围之内;
过零率计算单元,适于当判断出所述第一参考阈值处于预定范围之内,以帧为单位对输入的声音信号进行过零率计算;
第二判定单元,适于判断计算出的过零率是否大于预设阈值,否则判定该帧为噪声信号;
时频分析单元,适于当所述第一判定单元判断出所述第一参考阈值处于预定范围之外或所述第二判定单元判断出计算出的过零率大于所述预设阈值时,以帧为单位对输入的声音信号进行时频分析;
第三判定单元,适于当时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;当时频分析后的结果大于第一参考阈值,且小于所述第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;当时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号。
与现有技术相比,本技术方案具有以下优点:
通过对输入的声音信号进行分帧(每帧声音信号平滑过渡),再以帧为单位对输入的声音信号进行时频分析,将时频分析的结果与预先设定好的噪声信号的第一参考阈值和第二参考阈值进行比较,从而能够快捷、有效地识别出某一帧声音信号是语音信号还是噪声信号,以实现确保通话质量的同时达到减少背景噪声的目的。
通过判断设定的第一参考阈值是否处于预设范围之内,是则根据所述第一参考阈值处于不同的预设范围(不同的噪声信号类型)对应设定不同的过零率的预设阈值,通过以帧为单位对输入的声音信号进行过零率计算,对于计算的过零率小于所述预设阈值则判定为噪声信号,否则以时频分析进行进一步检验,由此实现了对不同噪声信号有针对性的检验,从而能在很大程度上避免产生误检和漏检的情况,对噪声信号与语音信号的识别更为有效。
基于已识别出的噪声信号,及时地对第一参考阈值和第二参考阈值进行不断的更新,从而能实现对当前环境中背景噪声变化的自适应,使对噪声信号与语音信号的识别更为准确、有效。
另外,通过提取输入的声音信号中前N帧声音信号并进行分析得到所述第一参考阈值和第二参考阈值的方式,能在语音通话建立之初就根据所处的不同环境设定出适应当前环境的噪声信号的参考阈值,较好地实现了对当前环境的背景噪声的预测,使对噪声信号的识别更为准确。
附图说明
图1是本发明实施例一提供的语音激活检测方法的流程示意图;
图2是本发明实施例一提供的语音激活检测装置的结构示意图;
图3是本发明实施例二提供的语音激活检测方法的流程示意图;
图4是本发明实施例二提供的语音激活检测装置的结构示意图;
图5是本发明实施例三提供的语音激活检测方法的流程示意图;
图6是本发明实施例三提供的语音激活检测装置的结构示意图。
具体实施方式
如背景技术所述,现有技术中很多方法都是以牺牲通话质量为代价去减少背景噪声,而且对于复杂背景噪声的处理效果不佳。本技术方案通过采用各种模拟工具找到语音信号与噪声信号之间特性的差异,然后综合利用语音平滑(分帧),时域过零率计算,时域方差计算,频域方差计算等方法获得反映输入的声音信号在时域以及频域上的综合变化率的值,并采用自适应背景噪声的方法检测VAD,使得能快捷、有效地识别出输入的声音信号中的语音信号和噪声信号,达到去除噪声信号的同时还原语音真实质量的目的。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施方式的限制。
实施例一
图1是本发明实施例一提供的语音激活检测方法的流程示意图。如图1所示,所述语音激活检测方法包括以下步骤:
首先执行步骤S101,对输入的声音信号进行分帧。
本领域技术人员知晓,语音信号分析的目的就是在于方便有效地提取并表示语音信号所携带的信息,是语音信号处理的前提和基础,只有分析出可表示语音信号特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。语音一般分为无声段、清音段和浊音段。一般把浊音认为是一个以基音周期为周期的斜三角脉冲串,把清音模拟成随机白噪声。由于语音信号是一个非平稳态过程,不能用处理平稳信号的信号处理技术对其进行分析处理。但由于语音信号本身的特点,在短时间(例如10~30ms甚至更短的时间)范围内,其特性可以看作是一个准稳态过程,即语音信号具有短时平稳性。因此,利用语音的短时平稳特性,可以将处理平稳信号的信号处理技术引入到语音信号的短时处理中去,例如可以采用加窗分帧的方法将输入的声音信号(包括语音信号和噪声信号)分为多帧声音信号,每一帧短时的声音信号又称为一个分析帧(简称为帧)。分帧是用有限长度的窗函数来截取输入的声音信号形成分析帧,窗函数将需要处理区域之外的样点置零来获得当前的分析帧。分帧虽然可以采用将输入的声音信号连续分段的方法,但一般常采用交叠分段的方法,即前一帧与后一帧具有共同的交叠部分,该交叠部分称为帧移,这样可以使帧与帧之间平滑过渡,保持其连续性。帧移与帧长(一帧声音信号的长度)的比值一般取为0~1/2。本实施例中,每一帧声音信号的长度为8ms,后续步骤中的过零率计算以及背景噪声的预测及估计都是依据8ms长度数据计算的。关于对输入的声音信号进行加窗分帧的方法为本技术领域常用手段,在此不再赘述。
执行步骤S102,设定噪声信号的参考阈值,所述参考阈值包括第一参考阈值和第二参考阈值。因为要识别出声音信号中的语音信号和噪声信号,就需要对噪声信号与语音信号之间特性的差异进行分析,特别是对各种类型的噪声信号进行分析。对此,就需要预先进行大量的实验,对各类噪声信号进行分析,提取出其特征参数,例如:常用的方法是通过对噪声信号进行时域分析以及频域分析,获得反映其在时域以及频域上综合变化率的值,从而统计出能快捷、有效识别出噪声信号和语音信号的参考阈值的范围。如此,当输入的声音信号通过步骤S101分帧之后,在后续步骤中,就能够以帧为单位对每一帧声音信号进行分析,并将分析后的结果与所述参考阈值进行比较,从而基于不同的比较结果判定出该帧声音信号是噪声信号、语音信号或是有待进一步判定的信号。具体判定过程将在下面步骤中详细描述。
需要说明的是,所述参考阈值包括第一参考阈值和第二参考阈值,其中,所述第一参考阈值主要用于实现对噪声信号的识别,而所述第二参考阈值则主要用于实现对语音信号的识别,通过大量实验的统计结果发现,第二参考阈值与第一参考阈值之间是具有一定倍数关系的,因此,确定了第一参考阈值,也就能确定第二参考阈值。本实施例中,所述第二参考阈值为第一参考阈值的1.3倍,对于“1.3倍”的确定,正是基于对多种背景噪声进行大量实验,通过统计计算结果而得到的值。
此外,在所述第一参考阈值的具体设定过程中,分别设置有最大预设值、最小预设值,所述第一参考阈值的取值范围用区间表示为[最小预设值,最大预设值],即所述第一参考阈值大于或等于所述最小预设值,且小于或等于所述最大预设值。当然,在所述最小预设值和最大预设值之间还可以设定一个中间预设值,所述中间预设值的取值范围用区间表示为(最小预设值,最大预设值),即所述中间预设值大于所述最小预设值且小于所述最大预设值。对于所述第一参考阈值的最大预设值和最小预设值的设定也会影响最终判定的结果,因此,设定所述第一参考阈值的时候,应该根据实际情况对所述最大预设值和最小预设值进行设置。具体实施时,所述第一参考阈值的最大预设值设为350,所述第一参考阈值的最小预设值设为240,所述第一参考阈值的中间预设值设为280。
本实施例中,所述参考阈值(包括第一参考阈值和第二参考阈值)是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。一般地,N的取值越大(即采集的帧数越多),对于语音通话建立之初当前环境的背景噪声的预测效果就越好,当然,如果采集的帧数越多,其分析处理的过程就会比较长,从而参考阈值的确定过程就会占用一定时间,不能及时地完成对噪声信号的参考阈值的设定。因此,在具体实施时,可以根据实际情况确定N的取值。通过提取输入的声音信号中前N帧声音信号并进行分析得到所述参考阈值的方式,能在语音通话建立之初就根据所处的不同环境设定出适应当前环境的噪声信号的参考阈值,较好地实现了对当前环境的背景噪声的预测,使对噪声信号的识别更为准确。
在其他实施例中,也可以根据实际情况预先便选择合适的参考阈值完成设定,例如在语音通话之前就人为设定好参考阈值,此外,还可以采用早已设定好的默认的参考阈值。
执行步骤S103,判断所述第一参考阈值是否处于预定范围之内。如前所述,所述第一参考阈值主要用于实现对噪声信号的识别,然而,考虑到某几类特殊的噪声信号在某些特性上与语音信号较为类似,依据所述参考阈值恐怕难以有效地识别出某一帧声音信号是噪声信号还是语音信号,即采用比较所述参考阈值这一特性难以准确地判定出噪声信号,由此可能产生误检和漏检的情况。由于不同的噪声信号具有多种不同的特性,因此可以针对这几类特殊的噪声信号的其他特性,例如针对不同噪声信号在变化率及幅值大小不同情况下统计出不同的特性,采用对应的方法对所述声音信号进行初步判定,这样可以有效地识别出部分背景噪声(所述几类特殊的噪声信号)。
若通过步骤S103判断出所述第一参考阈值处于预定范围之外,则执行步骤S104,以帧为单位对输入的声音信号进行时频分析。所述时频分析包括时域分析以及频域分析,具体为:对一帧声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值。其中,基于分帧平滑后的一帧声音信号,利用方差公式求出时域方差;基于分帧平滑后的一帧声音信号,首先对该信号作快速傅里叶变换(FFT),对求出的傅里叶变换求方差,最后对数据求模作为复频域的变化率。在获得时域方差的值和频域方差的值之后,再对两者分别乘以一定的加权系数(两者所乘的加权系数之和等于1),最终获得的值为反映该帧声音信号在时域以及频域上的综合变化率的值,即所述时频分析后的结果。至于时域分析以及频域分析的方法为本技术领域常用手段,在此不再赘述。
若通过步骤S103判断出所述第一参考阈值处于预定范围之内,则执行步骤S105,以帧为单位对输入的声音信号进行过零率计算。所述过零率计算也是较为常用的一种对声音信号进行时域分析方法。本领域技术人员知晓,过零率(短时过零率)表示一帧声音信号中,其信号波形穿过横轴(零电平)的次数,可以反映信号的频谱特性,对于连续的信号,过零即意味着时域波形通过时间轴,而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。清音和浊音的过零率分布大致呈高斯分布,一般两者的过零率有较大差异,虽然依靠过零率不能完全区分清音和浊音,但是由于本实施例中所述的这几类特殊的噪声信号的过零率的次数与语音信号的过零率具有明显的差异,因此通过将计算出的过零率与一预先设定的阈值进行比较,能够判定出噪声信号。具体地,通过步骤S105进行过零率的计算之后,则执行步骤S106,判断计算出的过零率是否大于预设阈值,是则执行步骤S104,以帧为单位对输入的声音信号进行时频分析,否则执行步骤S107,判定该帧为噪声信号。
需要说明的是,在过零率的计算过程中,对于过零率的预设阈值的选择很重要,选择过小将产生误检,选择过大将产生漏检。因此,在本实施例中,是基于所述第一参考阈值设定所述过零率的预设阈值,由此能设定出合适的过零率的预设阈值。具体地,所述预定范围包括第一预定范围和第二预定范围,所述第一预定范围与所述第一参考阈值的最大预设值相关,所述第二预定范围与所述第一参考阈值的最小预设值和中间预设值相关;所述基于所述第一参考阈值设定所述过零率的预设阈值包括:若所述第一参考阈值处于所述第一预定范围之内,则将所述过零率的预设阈值设定为第一预设阈值;若所述第一参考阈值处于所述第二预定范围之内,则将所述过零率的预设阈值设定为第二预设阈值。需要说明的是,对于所述第一预设阈值和第二预设阈值的设定是与噪声信号的类型相关。如前所述,有几类特殊的噪声信号通过计算出的过零率可以较容易地实现对其的判定,但是这几类噪声信号中,随着噪声信号的类型的不同,对噪声信号进行判定的标准(所述过零率的预设阈值)也有差异。举例来说:假设存在两类特殊噪声信号,对于第一类噪声信号,一般计算出的过零率小于或等于19,则可将19作为此类噪声信号的判定标准,而对于第二类噪声信号,如果仍然以19作为判定标准,则可能存在漏检,即很多计算出的过零率大于19且小于或等于28的声音信号其实都属于噪声信号,因此,对于第二类噪声信号的判定标准应该设定为28比较合适。反之,如果将28作为第一类噪声信号的判定标准,则可能存在误检。因此,所述第一参考阈值所处的预定范围不同,表明当前的声音信号中噪声信号的类型不同,由此对应设定的过零率的预设阈值也不同。
具体实施时,所述第一预定范围为大于所述第一参数阈值的最大预设值,即第一预定范围为大于350,当所述第一参考阈值处于所述第一预定范围之内,则将所述过零率的预设阈值设定为第一预设阈值,所述第一预设阈值具体为28;所述第二预定范围为所述第一参数阈值的最小预设值与所述第一参数阈值的中间预设值之间,即第二预定范围为240~280,当所述第一参考阈值处于所述第二预定范围之内,则将所述过零率的预设阈值设定为第二预设阈值,所述第二预设阈值具体为19。举例来说,如果步骤S103判断出所述第一参考阈值为360,该值大于350,第一参考阈值处于所述第一预定范围之内,则说明该帧有可能为特殊的噪声信号,需要对其进行过零率的计算以确定是否为噪声信号,此时过零率的预设阈值设定为28,如果计算出的过零率小于或等于28,则确定该帧为噪声信号;同样地,如果步骤S103判断出所述第一参考阈值为260,该值介于240~280之间,第一参考阈值处于所述第二预定范围之内,则说明该帧也有可能为特殊的噪声信号,需要对其进行过零率的计算以确定是否为噪声信号,此时过零率的预设阈值设定为19,如果计算出的过零率小于或等于19,则确定该帧为噪声信号;而如果步骤S103判断出所述第一参考阈值为300,则第一参考阈值处于所述预定范围之外,此时的过零率的预设阈值一般设定为1,这意味着几乎不太可能判定为噪声信号,因此,在实际实施过程中,便不再进行过零率的计算,而是直接执行步骤S104,以帧为单位对输入的声音信号进行时频分析。
通过步骤S104获得时频分析后的结果之后,执行步骤S108,将时频分析后的结果与所述参考阈值进行比较。具体地,若时频分析后的结果小于或等于第一参考阈值,则执行步骤S109判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则执行步骤S111,该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则执行步骤S110,判定该帧为语音信号。
其中,步骤S111中所述基于下一帧声音信号的判定结果对所述待定信号进行判定包括:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。具体地,若下一帧声音信号判定为语音信号,则判定所述待定信号为语音信号;若下一帧声音信号判定为噪声信号,则判定所述待定信号为噪声信号;若下一帧声音信号判定为待定信号,则再基于这一帧判定为待定信号的下一帧声音信号的判定结果对其进行判定。举例来说,如果第1帧声音信号判定出为噪声信号,则直接将其丢弃,而第2帧声音信号判定为待定信号,则将其暂时存于缓存之中,等待第3帧声音信号的判定结果,如果第3帧声音信号的判定为语音信号,则可以将第2帧声音信号(待定信号)判定为语音信号,当然,如果第3帧声音信号仍然判定为待定信号,则继续等待第4帧声音信号的判定结果,第4帧声音信号仍然为待定信号,则等待第5帧声音信号的判定结果,如此直至后续有一帧能够判定出是噪声信号或语音信号为止。所以说,假设第1帧到第n帧都判定为待定信号,而第n+1帧判定为噪声信号,则之前第1帧到第n帧都判定为噪声信号,如果第n+1帧判定为语音信号,则之前第1帧到第n帧都判定为语音信号。
当然,一方面由于缓存的容量有限,不可能保存入太多的待定信号,另一方面,对语音信号进行处理的即时性要求,也没必要保存时间上已过去很久的待定信号,因此,一般考虑只将预定数量的待定信号存于缓存之中,以等待后面几帧信号的判定结果对其进行进一步的判定,当缓存中保存的待定信号的帧数超过预定数量时,则将最先存入的那帧待定信号丢弃,即对于待定信号的保存遵守先进先出的原则。举例说明,如果所述预定数量为8,假设第1帧至第8帧声音信号均判定为待定信号,那么这8帧声音信号都保存在缓存中,如果第9帧判定为语音信号,则第1帧至第8帧声音信号都为语音信号,并且第1帧声音信号可作为这一段语音的开始,而如果第9帧判定为待定信号,则第1帧声音信号(已被判定为待定信号)会被丢弃;同理,如果某一帧语音信号之后的10帧声音信号均判定为待定信号,该帧语音信号之后的第1帧和第2帧声音信号会被丢弃,而如果第11帧声音信号为噪声信号,则保存的这8帧待定信号判定为噪声信号(实际实施时,为了保证语音的自然度及过渡的平滑性,这8帧待定信号不会被丢弃,会经语音处理后输出),该帧语音信号可作为这一段语音的结束。
本实施例中,所述语音激活检测方法还包括:保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。在对判定出的语音信号进行语音处理并输出时,也会将所述前P帧待定信号和后Q帧待定信号也处理后输出,如此,便可以保证语音的自然度及过渡的平滑性。需要说明的是,这里的P和Q是指预先设定的在缓存中所保存待定信号数量的最大值,在实际实施时,也会出现缓存中保存的待定信号的数量小于P或Q的情况,例如:如果P=8,Q=5,假设第1帧至第3帧判定为待定信号,而后续的几帧声音信号都为语音信号,则缓存中实际保存的待定信号的数量只有3帧;同理,如果某一帧语音信号之后的4帧声音信号均判定为待定信号,该帧语音信号之后的第5帧为噪声信号或语音信号,则缓存中实际保存的待定信号的数量只有3帧。本实施例中,取P=Q=3,当然,P、Q的取值可以根据实际需求做出适当的调整。
特别地,可以将上述基于自适应背景噪声的语音激活检测方法应用于语音会议服务器上进行回声消除和噪声去除,在语音会议中,每路输入的声音信号通过该方法的处理后,可以有效的去除终端带入的回声和噪音。
基于上述语音激活检测方法,本实施例还提供一种语音激活检测装置。图2是本发明实施例一提供的语音激活检测装置的结构示意图,如图2所示,本实施例提供的语音激活检测装置包括:分帧单元101,适于对输入的声音信号进行分帧;第一设定单元102,适于设定噪声信号的参考阈值,所述参考阈值包括第一参考阈值和第二参考阈值,所述第二参考阈值与第一参考阈值具有倍数关系;第一判定单元103,与所述第一设定单元102相连,适于判断所述第一设定单元102设定的所述第一参考阈值是否处于预定范围之内;过零率计算单元104,与所述分帧单元101、第一判定单元103相连,适于当所述第一判定单元103判断出所述第一参考阈值处于预定范围之内,以帧为单位对输入的声音信号进行过零率计算;第二判定单元105,与所述过零率计算单元104相连,适于判断计算出的过零率是否大于预设阈值,否则判定该帧为噪声信号;时频分析单元106,与所述分帧单元101、第一判定单元103、第二判定单元105相连,适于当所述第一判定单元103判断出所述第一参考阈值处于预定范围之外或所述第二判定单元105判断出计算出的过零率大于所述预设阈值时,以帧为单位对输入的声音信号进行时频分析;第三判定单元107,与所述时频分析单元106相连,适于当时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;当时频分析后的结果大于第一参考阈值,且小于所述第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;当时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号。所述第三判定单元107基于下一帧声音信号的判定结果对所述待定信号进行判定具体为:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
本实施例中,所述语音激活检测装置还包括第二设定单元109,所述第二设定单元109与第一设定单元102、第二判定单元105连接,适于基于所述第一参考阈值设定所述过零率的预设阈值。具体地,所述预定范围包括第一预定范围和第二预定范围,所述第一预定范围与所述第一参考阈值的最大预设值相关,所述第二预定范围与所述第一参考阈值的最小预设值和中间预设值相关;所述第二设定单元109基于所述第一参考阈值设定所述过零率的预设阈值具体为:若所述第一参考阈值处于所述第一预定范围之内,则将所述过零率的预设阈值设定为第一预设阈值;若所述第一参考阈值处于所述第二预定范围之内,则将所述过零率的预设阈值设定为第二预设阈值。
所述语音激活检测装置还包括噪声预测单元108,所述噪声预测单元108与分帧单元101、第一设定单元102连接,适于提取所述输入的声音信号中前N帧声音信号并进行分析,得到所述第一设定单元102设定的所述参考阈值(包括第一参考阈值和第二参考阈值)。
此外,所述语音激活检测装置还包括存储单元110,所述存储单元110与第三判定单元107连接,适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
关于所述语音激活检测装置的具体实施可参考本实施例提供的语音激活检测方法,在此不再赘述。
实施例二
图3是本发明实施例二提供的语音激活检测方法的流程示意图。如图3所示,与实施例一有所区别的是,本实施例中,当步骤S107或步骤S109中判定该帧为噪声信号之后,还包括执行步骤S112,基于该帧噪声信号更新所述参考阈值。具体地,所述基于该帧噪声信号更新所述参考阈值包括:将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述参考阈值。因为就一帧已经判定出是噪声信号的声音信号而言,对其进行时频分析后的结果能够表明当前环境下背景噪声的特性,那么可以基于这帧噪声信号的时频分析后的结果,乘以一定的加权系数a,再将所述第一参考阈值的最大预设值乘以对应的加权系数b,其中,a+b=1,之后以两者相加得到的值作为新的第一参考阈值,再基于所述第一参考阈值与第二参考阈值之间具有的倍数关系和更新后的第一参考阈值得出新的第二参考阈值。举例来说,假设当前设定的所述第一参考阈值为260,对一帧声音信号进行时频分析之后,得到的时频分析的结果为250,则通过执行步骤S108后,判断出时频分析的结果小于第一参考阈值,则执行步骤S109,然后,执行步骤S112,基于该帧噪声信号更新所述参考阈值,如实施例一中所述,所述第一参考阈值的最大预设值为350,假设对时频分析的结果的加权系数为0.6,则对所述第一参考阈值的最大预设值的加权系数为0.4,则最后得到的值应该为250*0.6+350*0.4=150+140=290。于是,将290作为更新后的第一参考阈值,由于本实施例中第二参考阈值为第一参考阈值的1.3倍,那么更新后的第二参考阈值为377。当然,上面只是对基于该帧噪声信号更新所述参考阈值的一种方式,在其他实施例中,也可以在判定出时频分析的结果小于第一参考阈值,以时频分析的结果替换所述第一参考阈值。
基于已识别出的噪声信号,及时地对第一参考阈值和第二参考阈值进行更新,从而能实现对当前环境中背景噪声变化的自适应,使对噪声信号与语音信号的识别更为准确、有效。
本实施例的其他步骤可参考实施例一的具体实施,在此不再赘述。
基于上述语音激活检测方法,本实施例还提供一种语音激活检测装置。图4是本发明实施例二提供的语音激活检测装置的结构示意图,如图4所示,本实施例提供的语音激活检测装置不仅包括实施例一中所述语音激活检测装置的各单元,有所区别的是,还包括更新单元111,所述更新单元111与第二判定单元105、第三判定单元107、第一设定单元102连接,适于当所述第二判定单元105或第三判定单元107判定该帧为噪声信号之后,基于该帧噪声信号更新所述参考阈值。所述更新单元111基于该帧噪声信号更新所述参考阈值具体为:将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值,并基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。
本实施例所述语音激活检测装置的具体实施,可参考本实施例所述语音激活检测方法,在此不再赘述。
实施例三
图5是本发明实施例三提供的语音激活检测方法的流程示意图。如图5所示,与实施例二、实施例三中所述语音激活检测方法有所不同的是,本实施例可以通过较为简单的实施方式实现本发明提供的语音激活检测方法。结合图1或图3,具体地,本实施例提供的语音激活检测方法不需要进行判断所述第一参考阈值是否处于预定范围之内的步骤(步骤S103),由此也就不需要进行过零率的计算及其后续相关判定步骤(步骤S105、步骤S106、步骤S107),此外,也不需要在进行时频分析之前对噪声信号的第一参考阈值和第二参考阈值进行设定的步骤,时频分析后的结果可以直接与一预先存储的默认的第一参考阈值和第二参考阈值进行比较。
本实施例提供的语音激活检测方法包括:步骤S201,对输入的声音信号进行分帧;步骤S202,以帧为单位对输入的声音信号进行时频分析;步骤S203,将时频分析后的结果与第一参考阈值和第二参考阈值进行比较,若时频分析后的结果小于或等于第一参考阈值,则执行步骤S204,判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则执行步骤S205,该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则执行步骤S206,判定该帧为语音信号。
本实施例中,每一帧声音信号的长度为8ms。所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。所述第二参考阈值为第一参考阈值的1.3倍。所述基于下一帧声音信号的判定结果对所述待定信号进行判定包括:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。所述时频分析包括:对该帧声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值。
此外,所述语音激活检测方法还包括:保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
在其他实施例中,当判定该帧为噪声信号之后,语音激活检测方法还可以包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值的步骤。具体包括:将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值和第二参考阈值。对于基于该帧噪声信号更新所述第一参考阈值和第二参考阈值的步骤可参考实施例二中所述语音激活检测方法的相关描述,在此不再赘述。
基于上述语音激活检测方法,本实施例还提供一种语音激活检测装置。图6是本发明实施例三提供的语音激活检测装置的结构示意图,如图6所示,本实施例提供的语音激活检测装置包括:分帧单元201,适于对输入的声音信号进行分帧;时频分析单元202,与所述分帧单元201相连,适于以帧为单位对输入的声音信号进行时频分析;所述时频分析单元202进行的时频分析包括:对该帧声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值;判定单元203,与所述时频分析单元202相连,适于当时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号。所述判定单元203基于下一帧声音信号的判定结果对所述待定信号进行判定具体为:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
本实施例中,所述语音激活检测装置还包括噪声预测单元204,所述噪声预测单元204与分帧单元201、判定单元203连接,适于提取所述输入的声音信号中前N帧声音信号并进行分析,得到所述第一参考阈值和第二参考阈值。
此外,所述语音激活检测装置还包括存储单元205,所述存储单元205与判定单元203连接,适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
在其他实施例中,语音激活检测装置还可以包括更新单元,适于当判定单元203判定该帧为噪声信号之后,基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。所述更新单元基于该帧噪声信号更新所述第一参考阈值和第二参考阈值具体为:将所述第一参考阈值的最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值和第二参考阈值。
本实施例所述语音激活检测装置的具体实施,可参考本实施例以及实施例一中所述语音激活检测方法的相关步骤,在此不再赘述。
综上,本发明实施方式提供的语音激活检测方法与装置,至少具有如下有益效果:
通过对输入的声音信号进行分帧(每帧声音信号平滑过渡),再以帧为单位对输入的声音信号进行时频分析,将时频分析的结果与预先设定好的噪声信号的第一参考阈值和第二参考阈值进行比较,从而能够快捷、有效地识别出某一帧声音信号是语音信号还是噪声信号,以实现确保通话质量的同时达到减少背景噪声的目的。
进一步地,对某几类特殊的噪声信号,通过判断设定的第一参考阈值是否处于预设范围之内,是则根据所述第一参考阈值处于不同的预设范围(不同的噪声信号类型)对应设定不同的过零率的预设阈值,通过以帧为单位对输入的声音信号进行过零率计算,对于计算的过零率小于所述预设阈值则判定为噪声信号,否则以时频分析进行进一步检验,由此实现了对不同噪声信号有针对性的检验,从而能在很大程度上避免产生误检和漏检的情况,对噪声信号与语音信号的识别更为有效。
基于已识别出的噪声信号,及时地对第一参考阈值和第二参考阈值进行不断的更新,从而能实现对当前环境中背景噪声变化的自适应,使对噪声信号与语音信号的识别更为准确、有效。
另外,通过提取输入的声音信号中前N帧声音信号并进行分析得到所述第一参考阈值和第二参考阈值的方式,能在语音通话建立之初就根据所处的不同环境设定出适应当前环境的噪声信号的参考阈值,较好地实现了对当前环境的背景噪声的预测,使对噪声信号的识别更为准确。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (40)

1.一种语音激活检测方法,其特征在于,包括:
对输入的声音信号进行分帧;
以帧为单位对输入的声音信号进行时频分析;
若时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号;所述第二参考阈值与第一参考阈值具有倍数关系。
2.根据权利要求1所述的语音激活检测方法,其特征在于,所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。
3.根据权利要求1所述的语音激活检测方法,其特征在于,基于下一帧声音信号的判定结果对所述待定信号进行判定包括:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
4.根据权利要求1所述的语音激活检测方法,其特征在于,当判定该帧为噪声信号之后,还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。
5.根据权利要求4所述的语音激活检测方法,其特征在于,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述基于该帧噪声信号更新所述第一参考阈值和第二参考阈值包括:将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值;基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。
6.根据权利要求1所述的语音激活检测方法,其特征在于,还包括:保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
7.根据权利要求1所述的语音激活检测方法,其特征在于,所述第二参考阈值为第一参考阈值的1.3倍。
8.根据权利要求1所述的语音激活检测方法,其特征在于,每一帧声音信号的长度为8ms。
9.根据权利要求1所述的语音激活检测方法,其特征在于,所述时频分析包括:对该帧声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值。
10.一种语音激活检测方法,其特征在于,包括:
对输入的声音信号进行分帧;
设定噪声信号的第一参考阈值和第二参考阈值,所述第二参考阈值与第一参考阈值具有倍数关系;
判断所述第一参考阈值是否处于预定范围之内,否则以帧为单位对输入的声音信号进行时频分析;是则以帧为单位对输入的声音信号进行过零率计算,若计算出的过零率大于预设阈值,则进行所述时频分析,否则判定该帧为噪声信号;
若时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号。
11.根据权利要求10所述的语音激活检测方法,其特征在于,还包括基于所述第一参考阈值设定所述过零率的预设阈值。
12.根据权利要求11所述的语音激活检测方法,其特征在于,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述预定范围包括第一预定范围和第二预定范围,所述第一预定范围与所述最大预设值相关,所述第二预定范围与所述最小预设值和中间预设值相关,所述中间预设值大于最小预设值,且小于最大预设值;所述基于所述第一参考阈值设定所述过零率的预设阈值包括:若所述第一参考阈值处于所述第一预定范围之内,则将所述过零率的预设阈值设定为第一预设阈值;若所述第一参考阈值处于所述第二预定范围之内,则将所述过零率的预设阈值设定为第二预设阈值。
13.根据权利要求10所述的语音激活检测方法,其特征在于,所述第一参考阈值和第二参考阈值是通过提取所述输入的声音信号中前N帧声音信号并进行分析得到的。
14.根据权利要求10所述的语音激活检测方法,其特征在于,基于下一帧声音信号的判定结果对所述待定信号进行判定包括:将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
15.根据权利要求10所述的语音激活检测方法,其特征在于,当判定该帧为噪声信号之后,还包括基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。
16.根据权利要求15所述的语音激活检测方法,其特征在于,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述基于该帧噪声信号更新所述第一参考阈值和第二参考阈值包括:将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值;基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。
17.根据权利要求10所述的语音激活检测方法,其特征在于,还包括:保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
18.根据权利要求10所述的语音激活检测方法,其特征在于,所述第二参考阈值为第一参考阈值的1.3倍。
19.根据权利要求10所述的语音激活检测方法,其特征在于,每一帧声音信号的长度为8ms。
20.根据权利要求10所述的语音激活检测方法,其特征在于,所述时频分析包括:对该帧输入的声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值。
21.一种语音激活检测装置,其特征在于,包括:
分帧单元,适于对输入的声音信号进行分帧;
时频分析单元,适于以帧为单位对输入的声音信号进行时频分析;
判定单元,适于当时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;若时频分析后的结果大于所述第一参考阈值,且小于第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;若时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号;所述第二参考阈值与第一参考阈值具有倍数关系。
22.根据权利要求21所述的语音激活检测装置,其特征在于,还包括噪声预测单元,适于提取所述输入的声音信号中前N帧声音信号并进行分析,得到所述第一参考阈值和第二参考阈值。
23.根据权利要求21所述的语音激活检测装置,其特征在于,所述判定单元将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
24.根据权利要求21所述的语音激活检测装置,其特征在于,还包括更新单元,适于当所述判定单元判定该帧为噪声信号之后,基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。
25.根据权利要求24所述的语音激活检测装置,其特征在于,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述更新单元将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值,并基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。
26.根据权利要求21所述的语音激活检测装置,其特征在于,还包括存储单元,适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
27.根据权利要求21所述的语音激活检测装置,其特征在于,所述第二参考阈值为第一参考阈值的1.3倍。
28.根据权利要求21所述的语音激活检测装置,其特征在于,每一帧声音信号的长度为8ms。
29.根据权利要求21所述的语音激活检测装置,其特征在于,所述时频分析对该帧声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值。
30.一种语音激活检测装置,其特征在于,包括:
分帧单元,适于对输入的声音信号进行分帧;
第一设定单元,适于设定噪声信号的第一参考阈值和第二参考阈值,所述第二参考阈值与第一参考阈值具有倍数关系;
第一判定单元,适于判断所述第一参考阈值是否处于预定范围之内;
过零率计算单元,适于当判断出所述第一参考阈值处于预定范围之内,以帧为单位对输入的声音信号进行过零率计算;
第二判定单元,适于判断计算出的过零率是否大于预设阈值,否则判定该帧为噪声信号;
时频分析单元,适于当判断出所述第一参考阈值处于预定范围之外或判断出计算出的过零率大于所述预设阈值时,以帧为单位对输入的声音信号进行时频分析;
第三判定单元,适于当时频分析后的结果小于或等于第一参考阈值,则判定该帧为噪声信号;当时频分析后的结果大于第一参考阈值,且小于所述第二参考阈值,则该帧为待定信号,基于下一帧声音信号的判定结果对其进行判定;当时频分析后的结果大于或等于所述第二参考阈值,则判定该帧为语音信号。
31.根据权利要求30所述的语音激活检测装置,其特征在于,还包括第二设定单元,适于基于所述第一参考阈值设定所述过零率的预设阈值。
32.根据权利要求31所述的语音激活检测装置,其特征在于,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述预定范围包括第一预定范围和第二预定范围,所述第一预定范围与所述最大预设值相关,所述第二预定范围与所述最小预设值和中间预设值相关,所述中间预设值大于最小预设值,且小于最大预设值;若所述第一参考阈值处于所述第一预定范围之内,则所述第二设定单元将所述过零率的预设阈值设定为第一预设阈值;若所述第一参考阈值处于所述第二预定范围之内,则所述第二设定单元将所述过零率的预设阈值设定为第二预设阈值。
33.根据权利要求30所述的语音激活检测装置,其特征在于,还包括噪声预测单元,适于提取所述输入的声音信号中前N帧声音信号并进行分析,得到所述第一设定单元设定的所述第一参考阈值和第二参考阈值。
34.根据权利要求30所述的语音激活检测装置,其特征在于,所述第三判定单元将所述待定信号判定为与所述下一帧声音信号的信号类型一致。
35.根据权利要求30所述的语音激活检测装置,其特征在于,还包括更新单元,适于当所述第二判定单元或第三判定单元判定该帧为噪声信号之后,基于该帧噪声信号更新所述第一参考阈值和第二参考阈值。
36.根据权利要求35所述的语音激活检测装置,其特征在于,所述第一参考阈值大于或等于最小预设值,且小于或等于最大预设值;所述更新单元将所述最大预设值与所述时频分析后的结果分别乘以预设加权系数后相加得到的值更新所述第一参考阈值,并基于所述第二参考阈值和第一参考阈值的倍数关系和更新后的第一参考阈值更新所述第二参考阈值。
37.根据权利要求30所述的语音激活检测装置,其特征在于,还包括存储单元,适于保存与判定出的语音信号连续的前P帧待定信号以及保存与判定出的语音信号连续的后Q帧待定信号。
38.根据权利要求30所述的语音激活检测装置,其特征在于,所述第二参考阈值为第一参考阈值的1.3倍。
39.根据权利要求30所述的语音激活检测装置,其特征在于,每一帧声音信号的长度为8ms。
40.根据权利要求30所述的语音激活检测装置,其特征在于,所述时频分析对该帧输入的声音信号分别在时域以及频域上求方差,获得反映其在时域以及频域上的综合变化率的值。
CN2011102352285A 2011-08-16 2011-08-16 语音激活检测方法与装置 Active CN102314884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102352285A CN102314884B (zh) 2011-08-16 2011-08-16 语音激活检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102352285A CN102314884B (zh) 2011-08-16 2011-08-16 语音激活检测方法与装置

Publications (2)

Publication Number Publication Date
CN102314884A true CN102314884A (zh) 2012-01-11
CN102314884B CN102314884B (zh) 2013-01-02

Family

ID=45427993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102352285A Active CN102314884B (zh) 2011-08-16 2011-08-16 语音激活检测方法与装置

Country Status (1)

Country Link
CN (1) CN102314884B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103674235A (zh) * 2014-01-03 2014-03-26 哈尔滨工业大学 基于短时傅里叶变换的单一频率报警声音特征检测方法
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测***及其计算方法
CN104538041A (zh) * 2014-12-11 2015-04-22 深圳市智美达科技有限公司 异常声音检测方法及***
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
WO2016050107A1 (zh) * 2014-09-30 2016-04-07 华为技术有限公司 会议服务器及其检测会议中的回声来源的方法
CN105810214A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音激活检测方法及装置
CN107305774A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 语音检测方法和装置
CN108242236A (zh) * 2016-12-26 2018-07-03 现代自动车株式会社 对话处理装置及其车辆和对话处理方法
CN108447505A (zh) * 2018-05-25 2018-08-24 百度在线网络技术(北京)有限公司 音频信号过零率处理方法、装置及语音识别设备
CN109215647A (zh) * 2018-08-30 2019-01-15 出门问问信息科技有限公司 语音唤醒方法、电子设备及非暂态计算机可读存储介质
CN106534461B (zh) * 2016-11-04 2019-07-26 惠州Tcl移动通信有限公司 耳机的降噪***及其降噪方法
CN110491403A (zh) * 2018-11-30 2019-11-22 腾讯科技(深圳)有限公司 音频信号的处理方法、装置、介质和音频交互设备
CN110634497A (zh) * 2019-10-28 2019-12-31 普联技术有限公司 降噪方法、装置、终端设备及存储介质
CN110648660A (zh) * 2018-06-27 2020-01-03 深圳联友科技有限公司 一种bs端的语音激活方法
CN112017639A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 语音信号的检测方法、终端设备及存储介质
CN114724576A (zh) * 2022-06-09 2022-07-08 广州市保伦电子有限公司 一种啸叫检测中的门限实时更新方法、装置以及***
CN115995231A (zh) * 2023-03-21 2023-04-21 北京探境科技有限公司 语音唤醒方法、装置、电子设备及可读存储介质
WO2023092399A1 (zh) * 2021-11-25 2023-06-01 华为技术有限公司 语音识别方法、语音识别装置及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09200055A (ja) * 1996-01-12 1997-07-31 Nippon Steel Corp オーディオ復号装置
US5828993A (en) * 1995-09-26 1998-10-27 Victor Company Of Japan, Ltd. Apparatus and method of coding and decoding vocal sound data based on phoneme
CN1285945A (zh) * 1998-01-07 2001-02-28 艾利森公司 一种用于对声音编码、同时抑制声学背景噪声的***和方法
CN1363923A (zh) * 2001-11-02 2002-08-14 北京阜国数字技术有限公司 一种基于自适应阀值和典型样本预测的块长选择方法
CN1624766A (zh) * 2000-08-21 2005-06-08 康奈克森特***公司 语音编码中噪音鲁棒分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5828993A (en) * 1995-09-26 1998-10-27 Victor Company Of Japan, Ltd. Apparatus and method of coding and decoding vocal sound data based on phoneme
JPH09200055A (ja) * 1996-01-12 1997-07-31 Nippon Steel Corp オーディオ復号装置
CN1285945A (zh) * 1998-01-07 2001-02-28 艾利森公司 一种用于对声音编码、同时抑制声学背景噪声的***和方法
CN1624766A (zh) * 2000-08-21 2005-06-08 康奈克森特***公司 语音编码中噪音鲁棒分类方法
CN1363923A (zh) * 2001-11-02 2002-08-14 北京阜国数字技术有限公司 一种基于自适应阀值和典型样本预测的块长选择方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103674235A (zh) * 2014-01-03 2014-03-26 哈尔滨工业大学 基于短时傅里叶变换的单一频率报警声音特征检测方法
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测***及其计算方法
CN104091603B (zh) * 2014-05-23 2017-06-09 普强信息技术(北京)有限公司 基于基频的端点检测***及其计算方法
WO2016050107A1 (zh) * 2014-09-30 2016-04-07 华为技术有限公司 会议服务器及其检测会议中的回声来源的方法
CN104538041A (zh) * 2014-12-11 2015-04-22 深圳市智美达科技有限公司 异常声音检测方法及***
CN105810214A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 语音激活检测方法及装置
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
CN107305774A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 语音检测方法和装置
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN106534461B (zh) * 2016-11-04 2019-07-26 惠州Tcl移动通信有限公司 耳机的降噪***及其降噪方法
CN108242236B (zh) * 2016-12-26 2023-12-15 现代自动车株式会社 对话处理装置及其车辆和对话处理方法
CN108242236A (zh) * 2016-12-26 2018-07-03 现代自动车株式会社 对话处理装置及其车辆和对话处理方法
CN108447505A (zh) * 2018-05-25 2018-08-24 百度在线网络技术(北京)有限公司 音频信号过零率处理方法、装置及语音识别设备
CN110648660A (zh) * 2018-06-27 2020-01-03 深圳联友科技有限公司 一种bs端的语音激活方法
CN109215647A (zh) * 2018-08-30 2019-01-15 出门问问信息科技有限公司 语音唤醒方法、电子设备及非暂态计算机可读存储介质
CN110491403A (zh) * 2018-11-30 2019-11-22 腾讯科技(深圳)有限公司 音频信号的处理方法、装置、介质和音频交互设备
CN110491403B (zh) * 2018-11-30 2022-03-04 腾讯科技(深圳)有限公司 音频信号的处理方法、装置、介质和音频交互设备
CN110634497A (zh) * 2019-10-28 2019-12-31 普联技术有限公司 降噪方法、装置、终端设备及存储介质
CN110634497B (zh) * 2019-10-28 2022-02-18 普联技术有限公司 降噪方法、装置、终端设备及存储介质
CN112017639A (zh) * 2020-09-10 2020-12-01 歌尔科技有限公司 语音信号的检测方法、终端设备及存储介质
CN112017639B (zh) * 2020-09-10 2023-11-07 歌尔科技有限公司 语音信号的检测方法、终端设备及存储介质
WO2022052246A1 (zh) * 2020-09-10 2022-03-17 歌尔股份有限公司 语音信号的检测方法、终端设备及存储介质
WO2023092399A1 (zh) * 2021-11-25 2023-06-01 华为技术有限公司 语音识别方法、语音识别装置及***
CN114724576A (zh) * 2022-06-09 2022-07-08 广州市保伦电子有限公司 一种啸叫检测中的门限实时更新方法、装置以及***
CN115995231A (zh) * 2023-03-21 2023-04-21 北京探境科技有限公司 语音唤醒方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN102314884B (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
CN102314884B (zh) 语音激活检测方法与装置
Drugman et al. Glottal closure and opening instant detection from speech signals
CN105118502B (zh) 语音识别***的端点检测方法及***
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
CN106328151B (zh) 一种环噪消除***及其应用方法
CN102714034B (zh) 信号处理的方法、装置和***
CN110047470A (zh) 一种语音端点检测方法
CN110517670A (zh) 提升唤醒性能的方法和装置
CN110060665A (zh) 语速检测方法及装置、可读存储介质
CN103854662A (zh) 基于多域联合估计的自适应语音检测方法
CN103646649A (zh) 一种高效的语音检测方法
CN105118522B (zh) 噪声检测方法及装置
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN107331386B (zh) 音频信号的端点检测方法、装置、处理***及计算机设备
CN111429932A (zh) 语音降噪方法、装置、设备及介质
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
CN104091603A (zh) 基于基频的端点检测***及其计算方法
CN108305639A (zh) 语音情感识别方法、计算机可读存储介质、终端
CN101202040A (zh) 有效的用来检测固定功率信号的语音活动检测器
CN107785028A (zh) 基于信号自相关的语音降噪方法及装置
CN106531195B (zh) 一种对话冲突检测方法及装置
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN106504756B (zh) 嵌入式语音识别***及方法
Labied et al. An overview of automatic speech recognition preprocessing techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 100080, Beijing, Haidian, Haidian District South Road, 21, Zhongguancun intellectual property building (former sea building), block B, 6

Applicant after: Czech surway Technology (Beijing) Co. Ltd.

Co-applicant after: Shanghai Gener Information Technology Co., Ltd.

Address before: 100080, Beijing City, Haidian District, No. 52 West Fourth Ring Road, SMIC building, 11 floor, 1102

Applicant before: Czech surway Technology (Beijing) Co. Ltd.

Co-applicant before: Shanghai Gener Information Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: SHANGHAI GENER INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150320

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150320

Address after: 100080, No. 21 Haidian South Road, Beijing, block B, 6, Haidian District

Patentee after: Czech surway Technology (Beijing) Co. Ltd.

Address before: 100080, Beijing, Haidian, Haidian District South Road, 21, Zhongguancun intellectual property building (former sea building), block B, 6

Patentee before: Czech surway Technology (Beijing) Co. Ltd.

Patentee before: Shanghai Gener Information Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for voice activity detection (VAD) and encoder

Effective date of registration: 20150724

Granted publication date: 20130102

Pledgee: Beijing technology intellectual property financing Company limited by guarantee

Pledgor: Czech surway Technology (Beijing) Co. Ltd.

Registration number: 2015990000598

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20150819

Granted publication date: 20130102

Pledgee: Beijing technology intellectual property financing Company limited by guarantee

Pledgor: Czech surway Technology (Beijing) Co. Ltd.

Registration number: 2015990000598

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100080, No. 21 Haidian South Road, Beijing, block B, 6, Haidian District

Patentee after: BEIJING ZED-3 TECHNOLOGY CO., LTD.

Address before: 100080, No. 21 Haidian South Road, Beijing, block B, 6, Haidian District

Patentee before: Czech surway Technology (Beijing) Co. Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for voice activity detection (VAD) and encoder

Effective date of registration: 20161229

Granted publication date: 20130102

Pledgee: Beijing ustron Tongsheng financing Company limited by guarantee

Pledgor: BEIJING ZED-3 TECHNOLOGY CO., LTD.

Registration number: 2016990001186

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20181218

Granted publication date: 20130102

Pledgee: Beijing ustron Tongsheng financing Company limited by guarantee

Pledgor: BEIJING ZED-3 TECHNOLOGY CO., LTD.

Registration number: 2016990001186

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for voice activity detection (VAD) and encoder

Effective date of registration: 20181219

Granted publication date: 20130102

Pledgee: Beijing ustron Tongsheng financing Company limited by guarantee

Pledgor: BEIJING ZED-3 TECHNOLOGY CO., LTD.

Registration number: 2018990001231

CP02 Change in the address of a patent holder

Address after: 1110-08, 10th floor, No.8, Haidian North 2nd Street, Haidian District, Beijing 100080

Patentee after: BEIJING JIESIRUI TECHNOLOGY Co.,Ltd.

Address before: 100080, No. 21 Haidian South Road, Beijing, block B, 6, Haidian District

Patentee before: BEIJING JIESIRUI TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder