CN105261368A

CN105261368A - 一种语音唤醒方法及装置

Info

Publication number: CN105261368A
Application number: CN201510549435.6A
Authority: CN
Inventors: 马涛
Original assignee: Huawei Technologies Co Ltd
Current assignee: Guangdong Gaohang Intellectual Property Operation Co ltd; Nanjing Advanced Biomaterials And Process Equipment Research Institute Co ltd
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2016-01-20
Anticipated expiration: 2035-08-31
Also published as: CN105261368B

Abstract

本发明实施例提供一种语音唤醒方法及装置。该方法包括：对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号；计算采样信号的音频能量；在音频能量大于或等于t_i时刻的第一阈值时，唤醒DSP进行语音激活检测VAD；当VAD检测失败，且在t_i时刻之前已连续n次检测失败，以及第一噪声能量与t_i时刻的第一阈值的差值大于预设的第一门限值时，根据第一噪声能量生成第二阈值，并将第二阈值作为t_i+1时刻的第一阈值，其中，第一噪声能量是通过以第一抽取率1/x对采样信号进行抽取，并对抽取出的采样点进行慢速跟踪滤波得到。本发明实施例可以减少进行VAD的次数，实现终端在嘈杂环境下功耗的降低。

Description

一种语音唤醒方法及装置

技术领域

本发明实施例涉及语音唤醒技术，尤其涉及一种语音唤醒方法及装置。

背景技术

随着科学技术的发展，终端普遍具有语音唤醒功能，使用者使用语音唤醒终端并对其进行相应的语音控制。

目前的语音唤醒方案是采用麦克风激活检测(MicrophoneActivityDetection，简称：MAD)电路和数字信号处理器(DigitalSignalProcessor，简称：DSP)两级配合来唤醒终端。其中，如果MAD电路检测到的当前音频信号的能量大于预设阈值，则唤醒DSP进行语音激活检测(VoiceActivityDetection，简称：VAD)，以通过VAD识别上述音频信号是否为用户的语音；若是，则唤醒终端；若否，DSP唤醒为无效唤醒或误唤醒。具体地，VAD通过比对上述音频信号的特征与用户的语音的特征，来判断语音信号是否为用户的语音。

采用上述语音唤醒方案，当终端处于不同的环境时，例如由安静环境切换到嘈杂环境下，由于预设阈值是固定的，因此经常会出现无效唤醒或者误唤醒的现象，导致终端在嘈杂环境下的功耗偏高。

发明内容

本发明实施例提供一种语音唤醒方法及装置，以降低终端在嘈杂环境下的功耗。

第一方面，本发明实施例提供一种语音唤醒方法，包括：

对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号y_i，i为正整数；

计算所述采样信号y_i的音频能量T_i；

在所述音频能量T_i大于或等于所述t_i时刻的第一阈值A₀的情况下，进行语音激活检测VAD；

当VAD已连续n次检测失败，且当VAD检测失败，且在所述t_i时刻之前已连续n次检测失败，以及第一噪声能量S₀与所述t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，根据所述第一噪声能量S₀生成第二阈值A₁，并将所述第二阈值A₁作为t_i+1时刻的第一阈值A₀，其中，所述第一噪声能量S₀是通过以第一抽取率1/x对所述采样点y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，x为大于1的自然数，n为正整数且n小于i。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据所述第一噪声能量S₀生成第二阈值A₁，包括：

将所述第一噪声能量S₀作为所述第二阈值A₁；

或者，将所述第一噪声能量S₀与预设的第一修正量N₀之和作为所述第二阈值A₁；

或者，将所述第一噪声能量S₀与预设的第一系数a₀之积作为所述第二阈值A₁。

结合第一方面，在第一方面的第二种可能的实现方式中，在所述计算所述采样信号y_i的音频能量T_i之后，还包括：

在所述音频能量T_i小于所述t_i时刻的第一阈值A₀，且从t_i-m时刻直至t_i时刻各自的第一阈值A₀与第二噪声能量F₀的差值都大于预设的第二门限值M₁的情况下，进行VAD，m为正整数且m小于i；

当VAD检测成功时，根据所述第二噪声能量F₀生成第三阈值A₂，并将所述第三阈值A₂作为t_i+1时刻的第一阈值A₀，其中，所述第二噪声能量F₀是通过以第二抽取率1/z对所述采样信号y_i进行抽取，并对抽取出的采样点yf进行快速跟踪滤波得到，其中，z为大于x的自然数。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据所述第二噪声能量F₀生成第三阈值A₂，包括：

将所述第二噪声能量F₀作为所述第三阈值A₂；

或者，将所述第二噪声能量F₀与预设的第二修正量N₁之和作为所述第三阈值A₂；

或者，将所述第二噪声能量F₀与预设的第二系数a₁之积作为所述第三阈值A₂。

结合第一方面的第二种或第三种可能的实现方式，在第一方面的第四种可能的实现方式中，在将所述第三阈值A₂作为t_i+1时刻的第一阈值A₀之前，还包括：

记录所述t_i时刻为降低阈值时刻；

当所述t_i时刻与上一降低阈值时刻的时间间隔大于预设值T_time时，执行所述将所述第三阈值A₂作为t_i+1时刻的第一阈值A₀的步骤，否则，不执行所述将所述第三阈值A₂作为t_i+1时刻的第一阈值A₀的步骤。

结合第一方面，在第一方面的第五种可能的实现方式中，在所述计算所述采样信号y_i的音频能量T_i之后，还包括：

在所述音频能量T_i小于所述t_i时刻的第一阈值A₀，且所述t_i时刻的第一阈值A₀与所述第一噪声能量S₀的差值大于预设的第三门限值M₂的情况下，根据所述第一噪声能量S₀生成第四阈值A₃，并将所述第四阈值A₃作为t_i+1时刻的第一阈值A₀。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述根据所述第一噪声能量S₀生成第四阈值A₃，包括：

将所述第一噪声能量S₀作为所述第四阈值A₃；

或者，将所述第一噪声能量S₀与预设的第三修正量N₂之和作为所述第四阈值A₃；

或者，将所述第一噪声能量S₀与预设的第三系数a₂之积作为所述第四阈值A₃。

结合第一方面的第五种或第六种可能的实现方式，在第一方面的第七种可能的实现方式中，在将所述第四阈值A₃作为t_i+1时刻的第一阈值A₀之前，还包括：

记录所述t_i时刻为降低阈值时刻；

当所述t_i时刻与上一降低阈值时刻的时间间隔大于预设值T_time时，执行所述将所述第四阈值A₃作为t_i+1时刻的第一阈值A₀的步骤，否则，不执行所述将所述第四阈值A₃作为t_i+1时刻的第一阈值A₀的步骤。

第二方面，本发明实施例提供一种语音唤醒装置，包括：

采样频率转换器SRC，用于对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号y_i，i为正整数；

运算电路，用于计算所述采样信号y_i的音频能量T_i；

阈值判决电路，用于判断所述音频能量T_i是否大于或等于所述t_i时刻的第一阈值A₀；在所述音频能量T_i大于或等于所述t_i时刻的第一阈值A₀的情况下，触发中断处理电路输出中断脉冲信号给中断控制电路，由所述中断控制电路使能数字信号处理器DSP或处理器进行语音激活检测VAD；

第一抽取器，所述第一抽取器的输入端耦合至所述SRC的输出端，用于以第一抽取率1/x对所述采样信号y_i进行抽取得到采样点ys，x为大于1的自然数；

慢速跟踪滤波器STF，所述STF的输入端耦合至所述第一抽取器的输出端，用于对所述抽取得到采样点ys进行慢速跟踪滤波得到第一噪声能量S₀；

比较器，所述比较器的输入端耦合至与所述STF的输出端及所述阈值判决电路，用于比较所述第一噪声能量S₀与所述t_i时刻的第一阈值A₀的差值是否大于预设的第一门限值M₀；

配置器，用于当VAD检测失败，且在所述t_i时刻之前已连续n次检测失败，以及所述第一噪声能量S₀与所述t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，根据所述第一噪声能量S₀生成第二阈值A₁，并将所述第二阈值A₁作为t_i+1时刻的第一阈值A₀，下发至所述阈值判决电路，n为正整数且n小于i。

结合第二方面，在第二方面的第一种可能的实现方式中，所述配置器具体用于：

将所述第一噪声能量S₀作为所述第二阈值A₁；

结合第二方面，在第二方面的第二种可能的实现方式中，还包括：

第二抽取器，所述第二抽取器的输入端耦合至所述SRC的输出端，用于以第二抽取率1/z对所述采样信号y_i进行抽取得到采样点yf，其中，z为大于x的自然数；

快速跟踪滤波器FTF，所述FTF的输入端耦合至所述第二抽取器的输出端，用于对所述抽取得到采样点yf进行快速跟踪滤波得到第二噪声能量F₀第二噪声能量；

所述比较器，与所述FTF的输出端，还用于在所述音频能量T_i小于所述t_i时刻的第一阈值A₀的情况下，比较各时刻的第一阈值与所述第二噪声能量F₀的差值是否大于预设的第二门限值M₁；并当从t_i-m时刻直至t_i时刻各自的第一阈值A₀与所述第二噪声能量F₀的差值都大于预设的第二门限值M₁的情况下，触发所述中断处理电路输出中断脉冲信号给所述中断控制电路，由所述中断控制电路使能所述DSP或所述处理器进行VAD，m为正整数且m小于i；

所述配置器，还用于当VAD检测成功时，根据所述第二噪声能量F₀生成第三阈值A₂，并将所述第三阈值A₂作为t_i+1时刻的第一阈值A₀，下发至所述阈值判决电路。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述配置器具体用于：

将所述第二噪声能量F₀作为所述第三阈值A₂；

结合第二方面的第二种或第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述配置器还用于：

记录所述t_i时刻为降低阈值时刻；

结合第二方面，在第二方面的第五种可能的实现方式中，所述配置器还用于：

结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述配置器具体用于：

将所述第一噪声能量S₀作为所述第四阈值A₃；

结合第二方面的第五种或第六种可能的实现方式，在第二方面的第七种可能的实现方式中，所述配置器还用于：

记录所述t_i时刻为降低阈值时刻；

本发明实施例提供一种语音唤醒方法及装置，通过获取t_i时刻采样得到采样信号y_i的音频能量T_i，并在该音频能量T_i大于或等于t_i时刻的第一阈值A₀的情况下，进行VAD；当VAD检测失败，且在t_i时刻之前已连续n次检测失败，以及第一噪声能量S₀与t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，调整第一阈值A₀的大小，得到t_i+1时刻的第一阈值A₀：根据第一噪声能量S₀生成第二阈值A₁，并将第二阈值A₁作为t_i+1时刻的第一阈值A₀。其中，第一噪声能量S₀是通过以第一抽取率1/x对采样信号y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，也就是说，t_i+1时刻的第一阈值A₀是根据t_i时刻的第一噪声能量S₀得到的，这样，终端可以根据当前环境噪声调整下一时刻的第一阈值A₀的大小，使各时刻的第一阈值A₀与环境匹配，以减少进行VAD的次数，实现终端在嘈杂环境下功耗的降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语音唤醒方法实施例一的流程图；

图2为本发明语音唤醒方法在不同环境下的第一阈值示例图；

图3为本发明语音唤醒方法实施例二的流程图；

图4为本发明语音唤醒方法实施例三的流程图；

图5为本发明语音唤醒装置实施例一的结构示意图；

图6为本发明语音唤醒装置实施例二的结构示意图；

图7为本发明语音唤醒装置实施例三的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音唤醒的含义，是指在任意情况下，能够通过预定义的唤醒词，对终端进行激活，并执行特定的应用。类似用户按键点亮屏幕，激活手机的处理。语音唤醒的优点是解放了用户的双手。

在一智能手机的语音唤醒方案中，安静环境下，该智能手机的待机功耗约为2.2毫安×3.8伏特；在嘈杂环境下，该智能手机的待机功耗为5.5毫安×3.8伏特。可见，该智能手机在嘈杂环境和安静环境下的功耗差异约为12毫瓦，(5.5-2.2)×3.8＝12。

按照功耗估算模型：平均功耗＝安静功耗×70％+嘈杂功耗×30％，因此，应考虑降低嘈杂环境下的功耗，本发明实施例关注嘈杂环境下的功耗优化。

本发明实施例提供一种语音唤醒终端中数字信号处理器的方法及装置，以减少唤醒终端中DSP进行VAD的次数，实现终端在嘈杂环境下的功耗的降低。

图1为本发明语音唤醒方法实施例一的流程图。该方法可以由语音唤醒装置执行，该装置可以通过硬件的方式实现。语音唤醒装置可以集成在例如平板电脑、智能手机、掌上电脑(PersonalDigitalAssistant，简称：PDA)等终端中。如图1所示，语音唤醒方法包括：

S101、对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号y_i，i为正整数。

类似地，t_i-1时刻的采样信号可以记作y_i-1，t_i+1时刻的采样信号可以记作y_i+1，以此类推，这里不一一列举。

其中，在本发明任一实施例中，音频信号可以为麦克风等声音采集设备采集到的信号。通过采样频率转换器(SampleRateConvertor，简称：SRC)对麦克风等声音采集设备采集到的音频信号进行周期性采样。或者，将麦克风等声音采集设备采集到的音频信号经过例如带通滤波器等滤波器处理后，再由SRC进行周期性采样，本发明实施例不对其进行限制。

S102、计算采样信号y_i的音频能量T_i。

需要说明的是，对采样信号的音频能量的计算可以是在得到采样信号之后进行的，例如：在t_i-1时刻采样得到采样信号y_i-1后，也会计算采样信号y_i-1相应的音频能量T_i-1。

本领域技术人员应当知道，因采样信号y_i是一定的，因此，采样信号y_i的音频能量T_i可以通过计算获得。

具体地，采用x(j)表示采样信号y_i在第j采样点的幅度，x(j)×x(j)表示采样信号y_i在第j时刻的能量大小，j为0至M-1之间的整数，M为采样点总数，系数a_j用来表示每个采样点的权重大小，T_i表示采样信号y_i的音频能量。例如，下面的式子是一个归一化的处理，具体表示每个采样点在整体能量占用的百分比：

T_{i} = \sqrt{Σ_{j = 0}^{M - 1} a_{j} \times x (j) \times x (j)},

其中，

Σ_{j = 0}^{M - 1} a_{j} = 1

这里仅示例说明计算采样信号y_i的音频能量T_i，本发明实施例不以此为限制，也可以通过均方根(Rootmeansquare，简称：RMS)或其他类似方式获得采样信号y_i的音频能量T_i，例如不进行归一化的处理，等等。

S103、在音频能量T_i大于或等于t_i时刻的第一阈值A₀的情况下，进行VAD。

其中，进行VAD的具体可以是终端中的DSP或者处理器等元件。

S104、当VAD检测失败，且在t_i时刻之前已连续n次检测失败，以及第一噪声能量S₀与t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，根据第一噪声能量S₀生成第二阈值A₁，并将第二阈值A₁作为t_i+1时刻的第一阈值A₀，其中，第一噪声能量S₀是通过以第一抽取率1/x对采样信号y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，x为大于1的自然数，n为正整数且n小于i。

需要说明的是，当VAD检测失败，且在所述t_i时刻之前已连续n次检测失败是指：在t_i时刻进行的VAD检测失败，且从t_i-n时刻到t_i-1时刻进行的VAD检测均失败，具体地，假设n为2，则当VAD检测失败，且在所述t_i时刻之前已连续n次检测失败是指：在t_i时刻进行的VAD检测失败之前，连续两个时刻(即从t_i-2时刻到t_i-1时刻)所进行的VAD检测连续失败2次。进一步地，为了便于更好地理解本发明的技术方案，对于VAD检测失败进行举例说明，比如：当前是汽车发动机的声音，由于该声音的音频能量大于当前时刻的第一阈值A₀，则需要进行VAD，但是，通过VAD，可以判断出该声音不是用户的语音，因此VAD检测失败。换句话说，如果终端处于高噪声环境中，相应的，环境噪声的噪声能量会比较高，一旦环境噪声的噪声能量大于当前时刻的第一阈值A₀，就需要启动VAD，然而，由于环境噪声本身杂乱无章，在VAD检测时，无法从其中检测出有用的语音信号，因此会导致VAD检测失败。第一噪声能量S₀表示终端所处环境的稳态噪声的能量水平。第一门限值M₀是预设的参数，可以通过调试确定。

还需要说明的是，在本发明任一实施例中，第一和第二用于对同一术语进行区分，例如，“第一阈值”的“第一”与“第二阈值”中的“第二”，仅为对不同阈值进行区分的命名方式，并不代表阈值之间的次序。

在实际的应用场景下，不同应用场景下的噪声大小不同。例如，在安静环境下，噪声约30至35分贝(decibel，简称：db)；在嘈杂环境下，环境噪声可参考如下数据：商场噪声约60db，马路噪声约70db，飞机舱内噪声约70db，公交噪声约80db，地铁噪声约90db，等。另外，同样的地点，不同时间的噪声大小也不同。例如，同一地点，白天和晚上的噪声可能会相差10至15db。

再者，使用者在嘈杂环境下进行通话、交谈时，会下意识地提高语音音量，从而提高了信噪比(SignalNoiseRatio，简称：SNR)，为语音唤醒提供了可行性基础。

因此，目前采用统一噪声门限，即预设阈值，的语音唤醒方案，在语音唤醒终端时，无法区分对待安静环境和嘈杂环境，若预设阈值设置过高，会导致语音漏检；若预设阈值设置过低，则会导致频繁唤醒处理器，进而导致功耗偏大。

在本发明实施例中，适时调整各时刻的第一阈值A₀的大小。

具体地，通过S101至S103，获得在t_i时刻采样得到采样信号y_i的音频能量T_i以及该音频能量T_i相对t_i时刻的第一阈值A₀的大小，并当音频能量T_i大于或等于t_i时刻的第一阈值A₀的情况下，进行VAD，以使DSP或处理器等进行VAD并根据VAD的结果，判断是否唤醒终端。其中，VAD检测成功，即DSP或处理器等可以进行VAD的元件在采样信号y_i中检测到用户的语音，则唤醒终端；否则，VAD检测失败，即DSP或处理器等可以进行VAD的元件在采样信号y_i中没有检测到用户的语音，则不唤醒终端。

在S104中，在第一噪声能量S₀与t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，表明终端当前可能处于高背景噪声的环境。此时，根据第一噪声能量S₀生成第二阈值A₁，并将第二阈值A₁作为t_i+1时刻的第一阈值A₀。其中，第一噪声能量S₀是通过以第一抽取率1/x对采样信号y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，x为大于1的自然数，n为小于i的正整数。实际应用中，采样信号y_i可能包括t_i时刻的用户的语音和环境噪声，或者，采样信号y_i仅包括t_i时刻的环境噪声。在t_i时刻获得t_i+1时刻的第一阈值A₀，即t_i+1时刻时，终端执行语音唤醒方法中S103和S104所使用的第一阈值。

若t_i时刻的语音唤醒为第一次语音唤醒，则t_i时刻的第一阈值A₀可以是预设的。可以认为，预设的第一阈值A₀是个优化参数，对应一种可能的应用场景，比如，将第一阈值A₀预设为50分贝，可以认为是安静环境下的背景噪声门限。其中，图2示例示出安静环境与嘈杂环境下的第一阈值。如图2所示，安静环境下，第一阈值较环境噪声高出第一预设值；嘈杂环境下，第一阈值较环境噪声高出第二预设值。另外，嘈杂环境的第一阈值是高于安静环境的第一阈值的。

另外，S103还可以为：1)在音频能量T_i与t_i-1时刻的音频能量T_i-1的差值大于或等于t_i时刻的差分阈值A₀₀的情况下，进行VAD；或者，2)在音频能量T_i大于或等于t_i时刻的第一阈值A₀，且，音频能量T_i与t_i-1时刻的音频能量T_i-1的差值大于或等于t_i时刻的差分阈值A₀₀的情况下，进行VAD；或者，3)在音频能量T_i大于或等于t_i时刻的第一阈值A₀，或，音频能量T_i与t_i-1时刻的音频能量T_i-1的差值大于或等于t_i时刻的差分阈值A₀₀，二者满足其一的情况下，进行VAD。其中，t_i-1时刻的音频能量T_i-1是缓存在终端中的，在t_i-1时刻计算采样信号y_i-1的音频能量得到。

若为1)，则类似调整t_i时刻的第一阈值A₀的方法，调整t_i时刻的差分阈值A₀₀；若为2)，则类似调整t_i时刻的第一阈值A₀的方法，同时调整t_i时刻的第一阈值A₀及t_i时刻的差分阈值A₀₀；若为3)，则类似调整t_i时刻的第一阈值A₀的方法，调整t_i时刻的第一阈值A₀或t_i时刻的差分阈值A₀₀。

本发明实施例通过获取t_i时刻采样得到采样信号y_i的音频能量T_i，并在该音频能量T_i大于或等于t_i时刻的第一阈值A₀的情况下，进行VAD；当VAD检测失败，且在t_i时刻之前已连续n次检测失败，以及第一噪声能量S₀与t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，调整第一阈值A₀的大小，得到t_i+1时刻的第一阈值A₀：根据第一噪声能量S₀生成第二阈值A₁，并将第二阈值A₁作为t_i+1时刻的第一阈值A₀。其中，第一噪声能量S₀是通过以第一抽取率1/x对采样信号y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，也就是说，t_i+1时刻的第一阈值A₀是根据t_i时刻的第一噪声能量S₀得到的，这样，终端可以根据当前环境噪声调整下一时刻的第一阈值A₀的大小，使各时刻的第一阈值A₀与环境匹配，以减少进行VAD的次数，实现终端在嘈杂环境下功耗的降低。

在上述实施例中，根据第一噪声能量S₀生成第二阈值A₁，可以包括：将第一噪声能量S₀作为第二阈值A₁；或者，将第一噪声能量S₀与预设的第一修正量N₀之和作为第二阈值A₁，即A₁＝S₀+N₀；或者，将第一噪声能量S₀与预设的第一系数a₀之积作为第二阈值A₁，即A₁＝a₀×S₀。

其中，若第一修正量N₀的数值较大，说明第二阈值A₁在第一噪声能量S₀的基础上升高的快；若第一修正量N₀的数值较小，说明第二阈值A₁在第一噪声能量S₀的基础上升高的慢，升高的快慢程度可以根据实际需求设定。其中，第一修正量N₀的大小可以根据实际场景进行设定，本发明实施例不予限制。同样，若第一系数a₀的数值较大，说明第二阈值A₁在第一噪声能量S₀的基础上升高的快；若第一系数a₀的数值较小，说明第二阈值A₁在第一噪声能量S₀的基础上升高的慢，升高的快慢程度可以根据实际需求设定。其中，第一系数a₀的大小可以根据实际场景进行设定，本发明实施例不予限制。

可选地，还可以将第一噪声能量S₀与预设的第一系数a₀的乘积，在加上预设的第一修正量N₀作为第二阈值A₁，A₁＝a₀×S₀+N₀。

图3为本发明语音唤醒方法实施例二的流程图。如图3所示，该方法可以包括：

S301、对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号y_i，i为正整数。

S302、计算采样信号y_i的音频能量T_i。

S303、在音频能量T_i小于t_i时刻的第一阈值A₀，且从t_i-m时刻直至t_i时刻各自的第一阈值A₀与第二噪声能量F₀的差值都大于预设的第二门限值M₁的情况下，进行VAD，m为正整数且m小于i。

示例性的，如果m＝2，则当音频能量T_i小于t_i时刻的第一阈值A₀，且t_i-2时刻的第一阈值A₀与第二噪声能量F₀的差值大于第二门限值M₁，t_i-1时刻的第一阈值A₀与第二噪声能量F₀的差值大于第二门限值M₁，以及t_i时刻的第一阈值A₀与第二噪声能量F₀的差值大于第二门限值M₁时，进行VAD。

S304、当VAD检测成功时，根据第二噪声能量F₀生成第三阈值A₂，并将第三阈值A₂作为t_i+1时刻的第一阈值A₀，其中，该第二噪声能量F₀是通过以第二抽取率1/z对采样信号y_i进行抽取，并对抽取出的采样点yf进行快速跟踪滤波得到，其中，z为大于x的自然数。

其中，S301和S302的具体说明可参考如图1所示的实施例，此处不再赘述。

对于S303，在音频能量T_i小于t_i时刻的第一阈值A₀的情况下，对于现有技术的语音唤醒方案，不再进行VAD，这样，就可能出现用户的语音漏检的情况。例如，t_i时刻的第一阈值A₀适用于嘈杂环境，但此时终端处于相对安静环境(例如，低背景噪声的环境)中，从而导致采样信号y_i中用户的语音的漏检。本发明实施例通过S303和S304更改t_i+1时刻的第一阈值A₀，使其与当前环境匹配。

当从t_i-m时刻直至t_i时刻各自的第一阈值A₀与第二噪声能量F₀的差值都大于预设的第二门限值M₁时，即累计m+1次出现第一阈值A₀与第二噪声能量F₀的差值大于预设的第二门限值M₁的情况，说明终端此时处于安静环境(低背景噪声的环境)中，当前的第一阈值A₀较大，需下调，以与安静环境匹配。其中，第二门限值M₁是预设的参数，可以经过调试得到。

对于S304，VAD检测成功，说明采样信号y_i中包含用户的语音，为避免该用户的语音的漏检，根据第二噪声能量F₀生成第三阈值A₂，并将第三阈值A₂作为t_i+1时刻的第一阈值A₀。其中，该第二噪声能量F₀是通过以第二抽取率1/z对采样信号y_i进行抽取，并对抽取出的采样点yf进行快速跟踪滤波得到，因此，第二噪声能量F₀能够在一定程度上反映终端所处环境的瞬态噪声的能量水平。

本发明实施例通过获取t_i时刻采样得到采样信号y_i的音频能量T_i，并在该音频能量T_i小于t_i时刻的第一阈值A₀，且从t_i-m时刻直至t_i时刻各自的第一阈值A₀与第二噪声能量F₀的差值都大于预设的第二门限值M₁的情况下，进行VAD；当VAD检测成功时，根据第二噪声能量F₀生成第三阈值A₂，并将第三阈值A₂作为t_i+1时刻的第一阈值A₀。其中，该第二噪声能量F₀是通过以第二抽取率1/z对采样信号y_i进行抽取，并对抽取出的采样点yf进行快速跟踪滤波得到，也就是说，t_i+1时刻的第一阈值A₀是根据t_i时刻的第二噪声能量F₀得到的，这样，终端可以根据当前环境噪声调整下一时刻的第一阈值A₀的大小，使各时刻的第一阈值A₀与环境匹配，以在减少进行VAD的次数，实现终端在嘈杂环境下功耗的降低的情况下，进一步避免采样信号y_i中用户的语音的漏检。

在上述实施例中，根据所述第二噪声能量F₀生成第三阈值A₂，具体可以包括：将第二噪声能量F₀作为第三阈值A₂；或者，将第二噪声能量F₀与预设的第二修正量N₁之和作为第三阈值A₂，即A₂＝F₀+N₁；或者，将第二噪声能量F₀与预设的第二系数a₁之积作为第三阈值A₂，即A₂＝a₁×F₀。

其中，若第二修正量N₁的数值较大，说明第三阈值A₂在第二噪声能量F₀的基础上升高的快；若第二修正量N₁的数值较小，说明第三阈值A₂在第二噪声能量F₀的基础上升高的慢，升高的快慢程度可以根据实际需求设定。其中，第二修正量N₁的大小可以根据实际场景进行设定，本发明实施例不予限制。同样，若第二系数a₁的数值较大，说明第三阈值A₂在第二噪声能量F₀的基础上升高的快；若第二系数a₁的数值较小，说明第三阈值A₂在第二噪声能量F₀的基础上升高的慢，升高的快慢程度可以根据实际需求设定。其中，第二系数a₁的大小可以根据实际场景进行设定，本发明实施例不予限制。

可选地，还可以将第二噪声能量F₀与预设的第二系数a₁的乘积，在加上预设的第二修正量N₁作为第三阈值A₂，A₂＝a₁×F₀+N₁。

图4为本发明语音唤醒方法实施例三的流程图。如图4所示，该方法可以包括：

S401、对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号y_i，i为正整数。

S402、计算采样信号y_i的音频能量T_i。

S403、在音频能量T_i小于t_i时刻的第一阈值A₀，且t_i时刻的第一阈值A₀与第一噪声能量S₀的差值大于预设的第三门限值M₂的情况下，根据第一噪声能量S₀生成第四阈值A₃，并将第四阈值A₃作为t_i+1时刻的第一阈值A₀。

其中，S401和S402的具体说明可参考如图1所示的实施例，此处不再赘述。

至于S403，在音频能量T_i小于t_i时刻的第一阈值A₀的情况下，对于现有技术的语音唤醒方案，不再进行VAD，这样，就可能出现用户的语音漏检的情况。例如，t_i时刻的第一阈值A₀适用于嘈杂环境，但此时终端处于相对安静的环境中，从而导致采样信号y_i中用户的语音的漏检。本发明实施例通过S403更改t_i+1时刻的第一阈值A₀，使其与当前的环境相匹配。

当t_i时刻的第一阈值A₀与第一噪声能量S₀的差值大于预设的第三门限值M₂时，也即，t_i时刻的第一阈值A₀相较第一噪声能量S₀较大，说明终端此时处于相对安静的环境中，t_i时刻的第一阈值A₀较大，需下调，以与环境匹配。其中，第三门限值M₂是预设的参数，可以经过调试得到。

因第一噪声能量S₀是通过以第一抽取率1/x对采样信号y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，故第一噪声能量S₀反应环境的稳定能量。因此，S403无需如S303一样，比较多个时刻的第一阈值A₀与第一噪声能量S₀的差值大于预设的第三门限值M₂。当t_i时刻的第一阈值A₀与第一噪声能量S₀的差值大于预设的第三门限值M₂时，即可说明采样信号y_i中包含用户的语音，为避免该用户的语音的漏检，根据第一噪声能量S₀生成第四阈值A₃，并将第四阈值A₃作为t_i+1时刻的第一阈值A₀。

本发明实施例通过获取t_i时刻采样得到采样信号y_i的音频能量T_i，并在该音频能量T_i小于t_i时刻的第一阈值A₀，且t_i时刻的第一阈值A₀与第一噪声能量S₀的差值大于预设的第三门限值M₂的情况下，根据第一噪声能量S₀生成第四阈值A₃，并将第四阈值A₃作为t_i+1时刻的第一阈值A₀。其中，该第一噪声能量S₀是通过以第一抽取率1/x对采样信号y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，也就是说，t_i+1时刻的第一阈值A₀是根据t_i时刻的第一噪声能量S₀得到的，这样，终端可以根据当前环境噪声调整下一时刻的第一阈值A₀的大小，使各时刻的第一阈值A₀与环境匹配，以在减少进行VAD的次数，实现终端在嘈杂环境下功耗的降低的情况下，进一步避免采样信号y_i中用户的语音的漏检。

基于上述实施例，其中，根据第一噪声能量S₀生成第四阈值A₃可以包括：将第一噪声能量S₀作为第四阈值A₃；或者，将第一噪声能量S₀与预设的第三修正量N₂之和作为第四阈值A₃，即A₃＝S₀+N₂；或者，将第一噪声能量S₀与预设的第三系数a₂之积作为第四阈值A₃，即A₃＝a₂×S₀。

其中，若第三修正量N₂的数值较大，说明第四阈值A₃在第一噪声能量S₀的基础上升高的快；若第三修正量N₂的数值较小，说明第四阈值A₃在第一噪声能量S₀的基础上升高的慢，升高的快慢程度可以根据实际需求设定。其中，第三修正量N₂的大小可以根据实际场景进行设定，本发明实施例不予限制。同样，若第三系数a₂的数值较大，说明第四阈值A₃在第一噪声能量S₀的基础上升高的快；若第三系数a₂的数值较小，说明第四阈值A₃在第一噪声能量S₀的基础上升高的慢，升高的快慢程度可以根据实际需求设定。其中，第三系数a₂的大小可以根据实际场景进行设定，本发明实施例不予限制。

可选地，还可以将第一噪声能量S₀与预设的第三系数a₂的乘积，在加上预设的第三修正量N₂作为第四阈值A₃，即A₃＝a₂×S₀+N₂。

补充说明的是，第二修正量N₁和第三修正量N₂分别反映在不同的条件下，第一阈值A₀相对噪声能量提升的数值。其中，第一阈值A₀相对第二噪声能量F₀大第二修正量N₁，第一阈值A₀相对第一噪声能量S₀大第三修正量N₂。另外，由于第一噪声能量S₀为慢速跟踪滤波，第二噪声能量F₀为快速跟踪滤波，因此，可选地，第三修正量N₂大于第二修正量N₁，以实现对环境的快速匹配。

更进一步地，本发明实施例还可以记录第一阈值变化的场景。对于升高第一阈值的场景，可以记录为升高阈值时刻；对于降低第一阈值的场景，可以记录为降低阈值时刻。

具体地，在将第三阈值A₂作为t_i+1时刻的第一阈值A₀之前，该方法还可以包括：记录t_i时刻为降低阈值时刻；当t_i时刻与上一降低阈值时刻的时间间隔大于预设值T_time时，执行上述将第三阈值A₂作为t_i+1时刻的第一阈值A₀的步骤，否则，不执行上述将第三阈值A₂作为t_i+1时刻的第一阈值A₀的步骤。

在将第四阈值A₃作为t_i+1时刻的第一阈值A₀之前，该方法还可以包括：记录t_i时刻为降低阈值时刻；当t_i时刻与上一降低阈值时刻的时间间隔大于预设值T_time时，执行上述将第四阈值A₃作为t_i+1时刻的第一阈值A₀的步骤，否则，不执行上述将第四阈值A₃作为t_i+1时刻的第一阈值A₀的步骤。

上述两种具体的实现方式可防止第一阈值A₀的乒乓切换，同时不影响语音检测的可靠性，降低语音漏检概率。

本发明实施例持续监测并跟踪环境背景噪声，根据环境背景噪声的大小自适应调整第一阈值A₀，并对该第一阈值A₀调整采取缓升或慢降的方式，从而降低语音漏检概率。另外，第一阈值A₀的动态调节，使得安静环境和嘈杂环境下的功耗接近，从而可以提升用户体验，提高产品竞争力。

图5为本发明语音唤醒装置实施例一的结构示意图。该语音唤醒装置可以通过硬件的方式实现。该语音唤醒装置可以集成在例如平板电脑、智能手机、PDA等终端中。如图5所示，语音唤醒装置10包括：SRC11、运算电路12、阈值判决电路13、第一抽取器14、慢速跟踪滤波器(SlowTrackingFilter，简称：STF)15、比较器16、配置器17和中断处理电路18。

其中，SRC11用于对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号y_i，i为正整数。运算电路12用于计算采样信号y_i的音频能量T_i。阈值判决电路13用于判断音频能量T_i是否大于或等于t_i时刻的第一阈值A₀；在音频能量T_i大于或等于t_i时刻的第一阈值A₀的情况下，触发中断处理电路18输出中断脉冲信号给中断控制电路20，由中断控制电路20使能DSP或处理器30进行VAD。第一抽取器14的输入端耦合至SRC11的输出端，第一抽取器14用于以第一抽取率1/x对采样信号y_i进行抽取得到采样点ys并输出，x为大于1的自然数。STF15的输入端耦合至第一抽取器14的输出端，STF15用于对抽取得到采样点ys进行慢速跟踪滤波得到第一噪声能量S₀。比较器16的输入端耦合至STF15的输出端及阈值判决电路13，比较器16用于比较第一噪声能量S₀与t_i时刻的第一阈值A₀的差值是否大于预设的第一门限值M₀。配置器17用于当VAD检测失败，且在t_i时刻之前已连续n次检测失败，以及第一噪声能量S₀与t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，根据第一噪声能量S₀生成第二阈值A₁，并将第二阈值A₁作为t_i+1时刻的第一阈值A₀，下发至阈值判决电路13，n为正整数且n小于i。

参考图5，配置器17为语音唤醒装置10配置参数，例如上述第一阈值A₀等。本领域技术人员可以理解，配置器17接收来自终端的配置参数，并将配置参数转换成对语音唤醒装置10中各个逻辑模块的对应控制信号，其中，逻辑模块包括运算电路12、阈值判决电路13和中断处理电路18等。SRC11具体可以采用降采样的方式对音频信号进行采样，比如将32千赫(kilohertz，简称：KHz)的数据转换为16KHz等。

采样信号y_i在图5中的流向为：

SRC11—>运算电路12—>阈值判决电路13—>中断处理电路18(可选)—>中断控制电路20(可选)—>DSP或处理器30(可选)。

在音频能量T_i大于或等于t_i时刻的第一阈值A₀的情况下，采样信号y_i的流向包括上述可选的部分；在音频能量T_i小于t_i时刻的第一阈值A₀的情况下，采样信号y_i的流向不包括上述可选的部分。

第一抽取器14、STF15和比较器16不影响正常的语音唤醒，仅用于和配置器17共同作用改变语音唤醒中的第一阈值A₀。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在上述实施例中，配置器17可具体用于：将第一噪声能量S₀作为第二阈值A₁；或者，将第一噪声能量S₀与预设的第一修正量N₀之和作为第二阈值A₁，即A₁＝S₀+N₀；或者，将第一噪声能量S₀与预设的第一系数a₀之积作为第二阈值A₁，即A₁＝a₀×S₀，等等，本发明实施例不以此为限制。

图6为本发明语音唤醒装置实施例二的结构示意图。该语音唤醒装置可以通过硬件的方式实现。该语音唤醒装置可以集成在例如平板电脑、智能手机、PDA等终端中。如图6所示，语音唤醒装置100包括：SRC110、运算电路120、阈值判决电路130、第二抽取器140、快速跟踪滤波器(FastTrackingFilter，简称：FTF)150、比较器160、配置器170和中断处理电路180。

其中，SRC110用于对音频信号进行周期性采样，其中，在t_i时刻采样得到采样信号y_i，i为正整数。运算电路120用于计算采样信号y_i的音频能量T_i。阈值判决电路130用于判断音频能量T_i是否大于或等于t_i时刻的第一阈值A₀。第二抽取器140的输入端耦合至SRC110的输出端，第二抽取器140用于以第二抽取率1/z对采样信号y_i进行抽取得到采样点yf，其中，z为大于x的自然数。FTF150的输入端耦合至第二抽取器140的输出端，FTF150用于对抽取得到采样点yf进行快速跟踪滤波得到第二噪声能量F₀。比较器160的输入端耦合至FTF150的输出端，比较器160用于在音频能量T_i小于t_i时刻的第一阈值A₀的情况下，比较各时刻的第一阈值与第二噪声能量F₀的差值是否大于预设的第二门限值M₁；并当从t_i-m时刻直至t_i时刻各自的第一阈值A₀与第二噪声能量F₀的差值都大于预设的第二门限值M₁的情况下，触发中断处理电路180输出中断脉冲信号给中断控制电路200，由中断控制电路200使能DSP或处理器300进行VAD，m为正整数且m小于i。配置器170用于当VAD检测成功时，根据第二噪声能量F₀生成第三阈值A₂，并将第三阈值A₂作为t_i+1时刻的第一阈值A₀，下发至阈值判决电路130。

本实施例的装置，可以用于执行图3所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在上述实施例的基础上，配置器可以具体用于：将第二噪声能量F₀作为第三阈值A₂；或者，将第二噪声能量F₀与预设的第二修正量N₁之和作为第三阈值A₂，即A₂＝F₀+N₁；或者，将第二噪声能量F₀与预设的第二系数a₁之积作为第三阈值A₂，即A₂＝a₁×F₀，等等，本发明实施例不以此为限制。

可选地，配置器170还可以用于：记录t_i时刻为降低阈值时刻；当t_i时刻与上一降低阈值时刻的时间间隔大于预设值T_time时，执行上述将第三阈值A₂作为t_i+1时刻的第一阈值A₀的步骤，否则，不执行上述将第三阈值A₂作为t_i+1时刻的第一阈值A₀的步骤，从而可防止第一阈值A₀的乒乓切换，同时不影响语音检测的可靠性，降低语音漏检概率。

参考图5，配置器17还可以用于：在音频能量T_i小于t_i时刻的第一阈值A₀，且t_i时刻的第一阈值A₀与第一噪声能量S₀的差值大于预设的第三门限值M₂的情况下，根据第一噪声能量S₀生成第四阈值A₃，并将第四阈值A₃作为t_i+1时刻的第一阈值A₀。

此时，本实施例的装置，可以用于执行图4所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

进一步地，配置器17可具体用于：将第一噪声能量S₀作为第四阈值A₃；或者，将第一噪声能量S₀与预设的第三修正量N₂之和作为第四阈值A₃，即A₃＝S₀+N₂；或者，将第一噪声能量S₀与预设的第三系数a₂之积作为第四阈值A₃，即A₃＝a₂×S₀，等等，本发明实施例不以此为限制。

更进一步地，配置器17还可以用于：记录t_i时刻为降低阈值时刻；当t_i时刻与上一降低阈值时刻的时间间隔大于预设值T_time时，执行上述将第四阈值A₃作为t_i+1时刻的第一阈值A₀的步骤，否则，不执行上述将第四阈值A₃作为t_i+1时刻的第一阈值A₀的步骤，从而可防止第一阈值A₀的乒乓切换，同时不影响语音检测的可靠性，降低语音漏检概率

参考图5和图6，第一抽取器14和第二抽取器140分别实现长周期或者短周期的数据抽取。STF15是一个慢速收敛的滤波器，用于稳定跟踪环境噪声变化。FTF150是一个快速收敛的滤波器，用于快速跟踪环境噪声变化。可选地，STF15是一个慢速收敛的滤波器，用于稳定跟踪环境噪声变化。STF15和FTF150用于跟踪当前的计算窗的能量，采用和运算电路12或运算电路120类似的结构。STF15和FTF150的区别在于滤波器的阶数和参数的不同，而滤波器的阶数和参数是根据实际的调试情况来设定的。FTF150用来进行短周期滤波，也就是最近发生的数据变化能够快速影响滤波器的输出。STF15是长周期滤波，也就是最近发生的数据变化对滤波器的输出的影响比较小和慢。

可选地，在图5的基础上，结合图6，得到如图7所示的结构。图7为本发明语音唤醒装置实施例三的结构示意图。如图7所示，语音唤醒装置1000包括：SRC11、运算电路12、阈值判决电路13、第一抽取器14、第二抽取器140、STF15、FTF150、比较器16、配置器17和中断处理电路18。

其中，阈值判决电路13还具备阈值判决电路130的作用和功能；比较器16还具备比较器160的作用和功能；配置器17还具备配置器170的作用和功能；中断处理电路18还具备中断处理电路180的作用和功能。具体原理如上述实施例，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭示的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

计算所述采样信号y_i的音频能量T_i；

当VAD检测失败，且在所述t_i时刻之前已连续n次检测失败，以及第一噪声能量S₀与所述t_i时刻的第一阈值A₀的差值大于预设的第一门限值M₀时，根据所述第一噪声能量S₀生成第二阈值A₁，并将所述第二阈值A₁作为t_i+1时刻的第一阈值A₀，其中，所述第一噪声能量S₀是通过以第一抽取率1/x对所述采样信号y_i进行抽取，并对抽取出的采样点ys进行慢速跟踪滤波得到，x为大于1的自然数，n为正整数且n小于i。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一噪声能量S₀生成第二阈值A₁，包括：

将所述第一噪声能量S₀作为所述第二阈值A₁；

3.根据权利要求1所述的方法，其特征在于，在所述计算所述采样信号y_i的音频能量T_i之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二噪声能量F₀生成第三阈值A₂，包括：

将所述第二噪声能量F₀作为所述第三阈值A₂；

5.根据权利要求3或4所述的方法，其特征在于，在将所述第三阈值A₂作为t_i+1时刻的第一阈值A₀之前，还包括：

记录所述t_i时刻为降低阈值时刻；

6.根据权利要求1所述的方法，其特征在于，在所述计算所述采样信号y_i的音频能量T_i之后，还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一噪声能量S₀生成第四阈值A₃，包括：

将所述第一噪声能量S₀作为所述第四阈值A₃；

8.根据权利要求6或7所述的方法，其特征在于，在将所述第四阈值A₃作为t_i+1时刻的第一阈值A₀之前，还包括：

记录所述t_i时刻为降低阈值时刻；

9.一种语音唤醒装置，其特征在于，包括：

运算电路，用于计算所述采样信号y_i的音频能量T_i；

第一抽取器，所述抽取器的输入端耦合至所述SRC的输出端，用于以第一抽取率1/x对所述采样信号y_i进行抽取得到采样点ys，x为大于1的自然数；

慢速跟踪滤波器STF，所述STF的输入端耦合至所述第一采样器的输出端，用于对所述抽取得到采样点ys进行慢速跟踪滤波得到第一噪声能量S₀；

比较器，所述比较器的输入端耦合至所述第一抽取器的输出端及所述阈值判决电路，用于比较所述第一噪声能量S₀与所述t_i时刻的第一阈值A₀的差值是否大于预设的第一门限值M₀；

10.根据权利要求9所述的装置，其特征在于，所述配置器具体用于：

将所述第一噪声能量S₀作为所述第二阈值A₁；

11.根据权利要求9所述的装置，其特征在于，还包括：

快速跟踪滤波器FTF，所述FTF的输入端耦合至所述第二抽取器的输出端，用于对所述抽取得到采样点yf进行快速跟踪滤波得到第二噪声能量F₀；

所述比较器，所述比较器的输入端耦合至所述FTF的输出端，还用于在所述音频能量T_i小于所述t_i时刻的第一阈值A₀的情况下，比较各时刻的第一阈值与所述第二噪声能量F₀的差值是否大于预设的第二门限值M₁；并当从t_i-m时刻直至t_i时刻各自的第一阈值A₀与所述第二噪声能量F₀的差值都大于预设的第二门限值M₁的情况下，触发所述中断处理电路输出中断脉冲信号给所述中断控制电路，由所述中断控制电路使能所述DSP或所述处理器进行VAD，m为正整数且m小于i；

12.根据权利要求11所述的装置，其特征在于，所述配置器具体用于：

将所述第二噪声能量F₀作为所述第三阈值A₂；

13.根据权利要求11或12所述的装置，其特征在于，所述配置器还用于：

记录所述t_i时刻为降低阈值时刻；

14.根据权利要求9所述的装置，其特征在于，所述配置器还用于：

15.根据权利要求14所述的装置，其特征在于，所述配置器具体用于：

将所述第一噪声能量S₀作为所述第四阈值A₃；

16.根据权利要求14或15所述的装置，其特征在于，所述配置器还用于：

记录所述t_i时刻为降低阈值时刻；