CN106356071A

CN106356071A - 一种噪声检测方法，及装置

Info

Publication number: CN106356071A
Application number: CN201610769237.5A
Authority: CN
Inventors: 刘运
Original assignee: All Kinds Of Fruits Garden Guangzhou Network Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-01-25
Anticipated expiration: 2036-08-30
Also published as: CN106356071B

Abstract

本发明实施例公开了一种噪声检测方法，及装置，其中方法包括：获取待处理的音频信号，计算所述音频信号中音频帧的功率谱Spectrum(ω)；所述ω为2π*功率谱的频率；依据所述音频帧的功率谱计算类自相关谱Corr(τ)，所述τ为时间值；依据所述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)；获取所述Ecorr(τ)中的最大值Max(ECorr)，若连续预定个数的音频帧的Max(ECorr)均小于第一阈值，则确定所述音频帧为噪声；或者，获取所述Max(ECorr)对应的τ，若所述Max(ECorr)对应的τ不在预设阈值范围，则确定所述音频帧为噪声。基于增强相关谱Ecorr(τ)来准确识别噪音，可以将噪音与音乐和人声区分开，从而为降噪处理提供依据。

Description

一种噪声检测方法，及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种噪声检测方法，及装置。

背景技术

通过手机进行直播的网络应用逐步普及，但直播与语音通话过程中的音频信号存在较大不同之处，例如：打电话是语音数据的传递，而直播并非简单的进行语音数据的传递，主播在直播过程中可能会唱歌或表演等，同时还可能会存在音乐伴奏或者现场伴奏等情况。

网页实时通信(Web Real-Time Communication，WebRtc)技术中会使用到降噪技术，具体如下：WebRtc技术使用频谱平坦度参数和相邻帧间的频谱变化程度来计算各个频点的语音/噪声概率，然后更新噪声谱，最后通过维纳滤波去除噪声。

然而WebRtc是针对语音进行降噪处理，当背景声音中有音乐时，尤其是频谱基本不变化的音乐片段(例如弓弦类乐器的长音符)，会错误的更新噪声频谱，将这段音乐压制掉，从而对音乐造成损伤。而普通的自相关检测虽然能够检测出音乐的相关峰，但由于环境噪声大多数是粉色噪声(Pink noise)，音乐的相关峰在粉色噪声的自相关谱里并不明显，因此较少有使用自相关谱区分音乐与噪声。

因此目前迫切需要适合例如直播场景下，音频信号中包含语音和音乐等各类型的音频数据的情况下精确的噪声检测方案，从而为降噪处理提供依据。

发明内容

本发明实施例提供了一种噪声检测方法，及装置，用于准确识别噪音。

一方面本发明实施例提供了一种噪声检测方法，包括：

获取待处理的音频信号，计算所述音频信号中音频帧的功率谱Spectrum(ω)；所述ω为2π*功率谱的频率；

依据所述音频帧的功率谱计算类自相关谱Corr(τ)，所述τ为时间值；

依据所述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)；

获取所述Ecorr(τ)中的最大值Max(ECorr)，若连续预定个数的音频帧的Max(ECorr)均小于第一阈值，则确定所述音频帧为噪声，所述第一阈值为增强相关谱的阈值；

或者，获取所述Max(ECorr)对应的τ，若所述Max(ECorr)对应的τ不在预设阈值范围，则确定所述音频帧为噪声，所述预设阈值范围为预设的时间范围。

在一个可选的实现方式中，所述依据所述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)包括：

将所述Corr(τ)中小于0的值赋值为0然后计算增强谱eCorr(τ)；

将所述eCorr(τ)中小于0的值赋值为0，得到增强相关谱Ecorr(τ)。

在一个可选的实现方式中，所述计算增强谱eCorr(τ)包括：

依据eCorr(τ)＝Corr(τ)－Corr(τ/2)计算所述eCorr(τ)，若τ为奇数，所述Corr(τ/2)由邻近点插值得到。

在一个可选的实现方式中，所述依据所述音频帧的功率谱计算类自相关谱Corr(τ)包括：

计算所述Spectrum(ω)的频点的三次方根，并对所述Spectrum(ω)的频点的三次方根作快速傅里叶变换取实部，得到所述Corr(τ)。

在一个可选的实现方式中，在所述确定所述音频帧为噪声之前，所述方法还包括：

计算所述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d，d＝20(log10(S)-log10(N))；若所述d小于第二阈值且连续预定个数的音频帧的Max(ECorr)均小于所述第一阈值，或者，若所述d小于所述第二阈值且所述Max(ECorr)对应的τ不在预设阈值范围，则确定所述音频帧为噪声，所述预设阈值范围为预设的时间范围。

在一个可选的实现方式中，所述方法还包括：

若确定所述音频帧为噪声，则采用窗口平均的方式确定新噪声谱。

在一个可选的实现方式中，在所述确定新噪声谱之后，所述方法还包括：

使用所述新噪声谱对所述音频信号的音频帧进行维纳滤波。

在一个可选的实现方式中，所述方法还包括：

若所述音频帧未确定为噪声，则确定所述音频帧为人声或者音乐。

在一个可选的实现方式中，在所述确定所述音频帧为人声或者音乐之前，所述方法还包括：

若所述d大于所述第二阈值且若所述音频帧未确定为噪声，则确定所述音频帧为人声或者音乐。

在一个可选的实现方式中，所述方法还包括：

若未确定所述音频帧为人声或者音乐，则采用窗口平均的方式使用所述音频帧的Ecorr(τ)更新所述第一阈值。

二方面本发明实施例还提供了一种噪声检测装置，包括：

信号获取单元，用于获取待处理的音频信号；

计算单元，用于计算所述音频信号中音频帧的功率谱Spectrum(ω)；所述ω为2π*功率谱的频率；依据所述音频帧的功率谱计算类自相关谱Corr(τ)，所述τ为时间值；依据所述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)；

信号确定单元，用于获取所述Ecorr(τ)中的最大值Max(ECorr)，若连续预定个数的音频帧的Max(ECorr)均小于第一阈值，则确定所述音频帧为噪声，所述第一阈值为增强相关谱的阈值；或者，获取所述Max(ECorr)对应的τ，若所述Max(ECorr)对应的τ不在预设阈值范围，则确定所述音频帧为噪声，所述预设阈值范围为预设的时间范围。

在一个可选的实现方式中，所述计算单元，具体用于将所述Corr(τ)中小于0的值赋值为0然后计算增强谱eCorr(τ)；将所述eCorr(τ)中小于0的值赋值为0，得到增强相关谱Ecorr(τ)。

在一个可选的实现方式中，所述计算单元，具体用于依据eCorr(τ)＝Corr(τ)－Corr(τ/2)计算所述eCorr(τ)，若τ为奇数，所述Corr(τ/2)由邻近点插值得到。

在一个可选的实现方式中，所述计算单元，具体用于计算所述Spectrum(ω)的频点的三次方根，并对所述Spectrum(ω)的频点的三次方根作快速傅里叶变换取实部，得到所述Corr(τ)。

在一个可选的实现方式中，所述计算单元，还用于在所述信号确定单元确定所述音频帧为噪声之前，计算所述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d，d＝20(log10(S)-log10(N))；

所述信号确定单元，具体用于若所述d小于第二阈值且连续预定个数的音频帧的Max(ECorr)均小于所述第一阈值，或者，若所述d小于所述第二阈值且所述Max(ECorr)对应的τ不在预设阈值范围，则确定所述音频帧为噪声，所述预设阈值范围为预设的时间范围。

在一个可选的实现方式中，所述装置还包括：

噪声谱更新单元，用于若所述信号确定单元确定所述音频帧为噪声，则采用窗口平均的方式确定新的噪声谱N。

在一个可选的实现方式中，所述装置还包括：

滤波单元，用于使用所述新噪声谱对所述音频信号的音频帧进行维纳滤波。

在一个可选的实现方式中，所述信号确定单元，还用于若所述音频帧未确定为噪声，则确定所述音频帧为人声或者音乐。

在一个可选的实现方式中，所述信号确定单元，还用于在所述确定所述音频帧为人声或者音乐之前，若所述d大于所述第二阈值且若所述音频帧未确定为噪声，则确定所述音频帧为人声或者音乐。

在一个可选的实现方式中，所述装置还包括：

阈值更新单元，用于若未确定所述音频帧为人声或者音乐，则采用窗口平均的方式使用所述音频帧的Ecorr(τ)更新所述第一阈值。

从以上技术方案可以看出，本发明实施例具有以下优点：基于增强相关谱Ecorr(τ)来准确识别噪音，可以将噪音与音乐和人声区分开，从而为降噪处理提供依据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例方法流程示意图；

图2为本发明实施例方法流程示意图；

图3为本发明实施例装置结构示意图；

图4为本发明实施例装置结构示意图；

图5为本发明实施例装置结构示意图；

图6为本发明实施例装置结构示意图；

图7为本发明实施例终端设备结构示意图；

图8为本发明实施例终端设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供了一种噪声检测方法，如图1所示，包括：

101：获取待处理的音频信号，计算上述音频信号中音频帧的功率谱Spectrum(ω)；上述ω为2π*功率谱的频率；

其中Spectrum是功率谱的函数名，ω是功率谱函数的自变量。

102：依据上述音频帧的功率谱计算类自相关谱Corr(τ)，上述τ为时间值；

其中Corr是类自相关谱的函数名，τ类自相关谱函数的自变量。

103：依据上述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)；

在Corr(τ)确定后如何对其进行增强处理，本发明实施例不作唯一性限定。在后续实施例中将会给出可选的实现方案。

104：获取上述Ecorr(τ)中的最大值Max(ECorr)，若连续预定个数的音频帧的Max(ECorr)均小于第一阈值，则确定上述音频帧为噪声，所述第一阈值为增强相关谱的阈值；

或者，获取上述Max(ECorr)对应的τ，若上述Max(ECorr)对应的τ不在预设阈值范围，则确定上述音频帧为噪声，所述预设阈值范围为预设的时间范围。

本发明实施例，基于增强相关谱Ecorr(τ)来准确识别噪音，可以将噪音与音乐和人声区分开，从而为降噪处理提供依据。

可选地，本发明实施例提供了作为一个可选的实现方案通过Corr(τ)计算Ecorr(τ)的方案，需要说明的是通过其他方式进行增强不影响本发明实施例的实现，本发明实施例不作唯一性限定，上述依据上述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)包括：

将上述Corr(τ)中小于0的值赋值为0然后计算增强谱eCorr(τ)；

将上述eCorr(τ)中小于0的值赋值为0，得到增强相关谱Ecorr(τ)。

以上增强Corr(τ)的计算方式，计算量较小可以作为一个较为优选的实现方案。

可选地，本发明实施例还提供了计算eCorr(τ)的方案，用于提高在后续计算Ecorr(τ)的效果，具体如下：上述计算增强谱eCorr(τ)包括：

依据eCorr(τ)＝Corr(τ)－Corr(τ/2)计算上述eCorr(τ)，若τ为奇数，上述Corr(τ/2)由邻近点插值得到。

该计算eCorr(τ)的方案既可以提高Ecorr(τ)的准确性，计算量也较小，适应于直播等应用场景下，数据处理量较大的情况。

可选地，本发明实施还提供了计算Corr(τ)的优先实现方案，具体如下：上述依据上述音频帧的功率谱计算类自相关谱Corr(τ)包括：

计算上述Spectrum(ω)的频点的三次方根，并对上述Spectrum(ω)的频点的三次方根作快速傅里叶变换取实部，得到上述Corr(τ)。

进一步地，本发明实施例还提供了进一步通过音频帧的幅度谱S与噪声谱N的幅度谱作为参考值确定噪声的方案，可以进一步提高噪声确定的准确性，具体如下：在上述确定上述音频帧为噪声之前，上述方法还包括：

计算上述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d，d＝20(log10(S)-log10(N))；若上述d小于第二阈值且连续预定个数的音频帧的Max(ECorr)均小于上述第一阈值，或者，若上述d小于上述第二阈值且上述Max(ECorr)对应的τ不在预设阈值范围，则确定上述音频帧为噪声，所述预设阈值范围为预设的时间范围。

进一步地，本发明实施例还提供了更新噪声谱的实现方案，更新噪声谱以后可以使下一次确定噪声时更准确，也为后续进行降噪处理提供准确的依据，具体如下：上述方法还包括：

若确定上述音频帧为噪声，则采用窗口平均的方式确定新噪声谱。

窗口平均是指以一个窗口作为参考，计算平均的方式；例如：窗口的值为8，前面已经确定了按照时间先后次序的序号为1～8号音频帧为噪声，那么如果当前音频帧也为噪声，序号为9；那么序号为2～9的音频帧为新的窗口对应的噪声，计算序号为2～9的音频帧的噪声谱的平均值。

进一步地，本发明实施例还提供了降噪处理的具体实现方案，如下：在上述确定新噪声谱之后，上述方法还包括：

使用上述新噪声谱对上述音频信号的音频帧进行维纳滤波。

维纳滤波作为一个较为常用的降噪处理手段，结合到本发明实施例中准确的新噪声谱，可以获得较好的降噪效果，降噪处理不会对音乐和人声造成损害，可以提高音频信号的质量，适应于直播等具有音乐、人声以及噪声的复杂应用场景。

进一步地，本发明实施例还提供了确定非噪音的应用场景，具体如下：上述方法还包括：

若上述音频帧未确定为噪声，则确定上述音频帧为人声或者音乐。

在本实施例中，未确定为噪声是指不满足确定噪声的条件的其他情况，也即是本发明实施例并没有确定上述音频帧为噪声的情况。

进一步地，为了提高确定音频帧为人声或者音乐的准确性，本发明实施例还提供了参考上述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d的实现方案，具体如下：在上述确定上述音频帧为人声或者音乐之前，上述方法还包括：

若上述d大于上述第二阈值且若上述音频帧未确定为噪声，则确定上述音频帧为人声或者音乐。

在本实施例中，如果上述d没有大于上述第二阈值，那么可以认为无法确定该音频帧是噪声，也无法确定该音频帧是人声或者音乐。

进一步地，鉴于已经准确确定的人声或者音乐，本发明实施例还提供了更新阈值的方案，可以进一步提高后续音频帧的类型确定的准确度，具体如下：上述方法还包括：

若未确定上述音频帧为人声或者音乐，则采用窗口平均的方式使用上述音频帧的Ecorr(τ)更新上述第一阈值。

本发明实施例的应用场景，主要涉及的是实时的实时的高清语音处理；随着视频直播等互联网业务的增长，对音乐的检测与降噪逐渐成为一项新的需求。降噪技术在增强语音之外，还需要能够检测出环境中的音乐，尽量减少降噪过程中对音乐的伤害。本发明实施例使用增强的自相关来去除粉红噪声的影响，提升对乐音的检测能力，同时基于这种增强的自相关，提出了更新噪声谱的策略，最终通过维纳滤波后，可在保护音乐不受损伤的前提下，滤除大部分背景噪声。由于维纳滤波本身需要转换到频域进行，计算增强的自相关可以利用已有的频谱数据，并不会显著增大滤波的计算量，在手持设备上可流畅运行。具体如图2所示。

本发明实施例技术方案分为增强自相关和噪声谱更新两部分；其中增强自相关的计算步骤为：

201：使用快速傅里叶变换(Fast Fourier Transformation，FFT)计算当前帧的功率谱，得到Spectrum(ω)；

当前帧即音频信号中当前提取到的音频帧。

202：对每个频点求三次方根，得到(Spectrum(ω))^1/3；

203：对(Spectrum(ω))^1/3作FFT取实部，得到类自相关谱Corr(τ)；

204：对Corr(τ)中小于0的值赋值为0，然后计算增强谱eCorr(τ)；

eCorr(τ)＝Corr(τ)-Corr(τ/2)；当τ为奇数时，Corr(τ/2)由邻近点插值得到。

205：将eCorr(τ)中小于0的值赋值为0，即得到最终的增强相关谱Ecorr(τ)；

其中噪声频谱更新步骤为：

206：检测Ecorr(τ)中的最大值Max(ECorr)及其对应的τ；

207：若连续帧的最大值均小于第一阈值，或τ不在设定的阈值范围，则判为噪声，否则判为音乐/人声；所述第一阈值为增强相关谱的阈值；

208：计算当前帧的幅度谱S与噪声谱N的幅度谱的平均距离d；

其中，d＝20(log10(S)-log10(N))；

209：若d小于第二阈值，且步骤207中判为噪声，则确定当前帧判为噪声；

210：若d大于第二阈值，且步骤207中判为音乐或人声，则当前帧判为音乐或人声；

211：如果不是209或者210，则判为不确定声音类型。

212：经209判为噪声或经211不确定声音，则使用当前帧的增强相关谱Ecorr(τ)去更新步骤209和210中使用的第二阈值。更新方式可以为窗口平均。

213：经209判为噪声，则使用209的结果更新噪声谱。更新方式可以为窗口平均。

214：使用更新的噪声谱对输入的音频帧进行维纳滤波，得到去噪以后的音频信号。

本发明实时例，可以在不显著增加运算量的条件下，显著区分出音乐和粉色噪声，减少降噪过程对带噪音乐中音乐的损伤。

本发明实施例还提供了一种噪声检测装置，如图3所示，包括：

信号获取单元301，用于获取待处理的音频信号；

计算单元302，用于计算上述音频信号中音频帧的功率谱Spectrum(ω)；上述ω为2π*功率谱的频率；依据上述音频帧的功率谱计算类自相关谱Corr(τ)，上述τ为时间值；依据上述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)；

信号确定单元303，用于获取上述Ecorr(τ)中的最大值Max(ECorr)，若连续预定个数的音频帧的Max(ECorr)均小于第一阈值，则确定上述音频帧为噪声，所述第一阈值为增强相关谱的阈值；或者，获取上述Max(ECorr)对应的τ，若上述Max(ECorr)对应的τ不在预设阈值范围，则确定上述音频帧为噪声，所述预设阈值范围为预设的时间范围。

可选地，本发明实施例提供了作为一个可选的实现方案通过Corr(τ)计算Ecorr(τ)的方案，需要说明的是通过其他方式进行增强不影响本发明实施例的实现，本发明实施例不作唯一性限定，上述计算单元302，具体用于将上述Corr(τ)中小于0的值赋值为0然后计算增强谱eCorr(τ)；将上述eCorr(τ)中小于0的值赋值为0，得到增强相关谱Ecorr(τ)。

可选地，本发明实施例还提供了计算eCorr(τ)的方案，用于提高在后续计算Ecorr(τ)的效果，具体如下：上述计算单元302，具体用于依据eCorr(τ)＝Corr(τ)－Corr(τ/2)计算上述eCorr(τ)，若τ为奇数，上述Corr(τ/2)由邻近点插值得到。

可选地，本发明实施还提供了计算Corr(τ)的优先实现方案，具体如下：上述计算单元302，具体用于计算上述Spectrum(ω)的频点的三次方根，并对上述Spectrum(ω)的频点的三次方根作快速傅里叶变换取实部，得到上述Corr(τ)。

进一步地，本发明实施例还提供了进一步通过音频帧的幅度谱S与噪声谱N的幅度谱作为参考值确定噪声的方案，可以进一步提高噪声确定的准确性，具体如下：上述计算单元302，还用于在上述信号确定单元303确定上述音频帧为噪声之前，计算上述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d，d＝20(log10(S)-log10(N))；

上述信号确定单元303，具体用于若上述d小于第二阈值且连续预定个数的音频帧的Max(ECorr)均小于上述第一阈值，或者，若上述d小于上述第二阈值且上述Max(ECorr)对应的τ不在预设阈值范围，则确定上述音频帧为噪声，所述预设阈值范围为预设的时间范围。

进一步地，本发明实施例还提供了更新噪声谱的实现方案，更新噪声谱以后可以使下一次确定噪声时更准确，也为后续进行降噪处理提供准确的依据，具体如下：如图4所示，上述装置还包括：

噪声谱更新单元401，用于若上述信号确定单元303确定上述音频帧为噪声，则采用窗口平均的方式确定新的噪声谱N。

进一步地，本发明实施例还提供了降噪处理的具体实现方案，如下：如图5所示，上述装置还包括：

滤波单元501，用于使用上述新噪声谱对上述音频信号的音频帧进行维纳滤波。

进一步地，本发明实施例还提供了确定非噪音的应用场景，具体如下：上述信号确定单元303，还用于若上述音频帧未确定为噪声，则确定上述音频帧为人声或者音乐。

进一步地，为了提高确定音频帧为人声或者音乐的准确性，本发明实施例还提供了参考上述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d的实现方案，具体如下：上述信号确定单元303，还用于在上述确定上述音频帧为人声或者音乐之前，若上述d大于上述第二阈值且若上述音频帧未确定为噪声，则确定上述音频帧为人声或者音乐。

进一步地，鉴于已经准确确定的人声或者音乐，本发明实施例还提供了更新阈值的方案，可以进一步提高后续音频帧的类型确定的准确度，具体如下：如图6所示，上述装置还包括：

阈值更新单元601，用于若未确定上述音频帧为人声或者音乐，则采用窗口平均的方式使用上述音频帧的Ecorr(τ)更新上述第一阈值。

本发明实施例还提供了一种终端设备，如图7所示，包括：输入输出设备701、处理器702以及存储器703；其中，存储器703可以用于存储通过输入输出设备701输入的数据或者将要通过输入输出设备701输出的数据，还可以用于提供处理器702执行数据处理所需要的缓存；

其中，上述处理器702，用于获取待处理的音频信号，计算上述音频信号中音频帧的功率谱Spectrum(ω)；上述ω为2π*功率谱的频率；

依据上述音频帧的功率谱计算类自相关谱Corr(τ)，上述τ为时间值；

依据上述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)；

获取上述Ecorr(τ)中的最大值Max(ECorr)，若连续预定个数的音频帧的Max(ECorr)均小于第一阈值，则确定上述音频帧为噪声，所述第一阈值为增强相关谱的阈值；

可选地，本发明实施例提供了作为一个可选的实现方案通过Corr(τ)计算Ecorr(τ)的方案，需要说明的是通过其他方式进行增强不影响本发明实施例的实现，本发明实施例不作唯一性限定，上述处理器702，用于依据上述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)包括：

将上述Corr(τ)中小于0的值赋值为0然后计算增强谱eCorr(τ)；

可选地，本发明实施例还提供了计算eCorr(τ)的方案，用于提高在后续计算Ecorr(τ)的效果，具体如下：上述处理器702，用于计算增强谱eCorr(τ)包括：

可选地，本发明实施还提供了计算Corr(τ)的优先实现方案，具体如下：上述处理器702，用于依据上述音频帧的功率谱计算类自相关谱Corr(τ)包括：

进一步地，本发明实施例还提供了进一步通过音频帧的幅度谱S与噪声谱N的幅度谱作为参考值确定噪声的方案，可以进一步提高噪声确定的准确性，具体如下：上述处理器702，还用于在上述确定上述音频帧为噪声之前，计算上述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d，d＝20(log10(S)-log10(N))；若上述d小于第二阈值且连续预定个数的音频帧的Max(ECorr)均小于上述第一阈值，或者，若上述d小于上述第二阈值且上述Max(ECorr)对应的τ不在预设阈值范围，则确定上述音频帧为噪声，所述预设阈值范围为预设的时间范围。

进一步地，本发明实施例还提供了更新噪声谱的实现方案，更新噪声谱以后可以使下一次确定噪声时更准确，也为后续进行降噪处理提供准确的依据，具体如下：上述处理器702，还用于若确定上述音频帧为噪声，则采用窗口平均的方式确定新噪声谱。

进一步地，本发明实施例还提供了降噪处理的具体实现方案，如下：上述处理器702，还用于在上述确定新噪声谱之后，使用上述新噪声谱对上述音频信号的音频帧进行维纳滤波。

进一步地，本发明实施例还提供了确定非噪音的应用场景，具体如下：上述处理器702，还用于若上述音频帧未确定为噪声，则确定上述音频帧为人声或者音乐。

进一步地，为了提高确定音频帧为人声或者音乐的准确性，本发明实施例还提供了参考上述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d的实现方案，具体如下：上述处理器702，还用于在上述确定上述音频帧为人声或者音乐之前，若上述d大于上述第二阈值且若上述音频帧未确定为噪声，则确定上述音频帧为人声或者音乐。

进一步地，鉴于已经准确确定的人声或者音乐，本发明实施例还提供了更新阈值的方案，可以进一步提高后续音频帧的类型确定的准确度，具体如下：上述处理器702，还用于若未确定上述音频帧为人声或者音乐，则采用窗口平均的方式使用上述音频帧的Ecorr(τ)更新上述第一阈值。

本发明实施例还提供了另一种终端设备，如图8所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端设备为手机为例：

图8示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，优选的，电源可以通过电源管理***与处理器880逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端设备所包括的处理器880的功能可以对应到前述实施例中处理器702的功能。其中，音频电路860可以作为输入输出设备使用采集音频信号。

值得注意的是，上述装置实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种噪声检测方法，其特征在于，包括：

依据所述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)；

2.根据权利要求1所述方法，其特征在于，所述依据所述自相关谱Corr(τ)计算增强相关谱Ecorr(τ)包括：

将所述Corr(τ)中小于0的值赋值为0然后计算增强谱eCorr(τ)；

3.根据权利要求2所述方法，其特征在于，所述计算增强谱eCorr(τ)包括：

4.根据权利要求1所述方法，其特征在于，所述依据所述音频帧的功率谱计算类自相关谱Corr(τ)包括：

5.根据权利要求1至4任意一项所述方法，其特征在于，在所述确定所述音频帧为噪声之前，所述方法还包括：

6.根据权利要求5所述方法，其特征在于，所述方法还包括：

7.根据权利要求6所述方法，其特征在于，在所述确定新噪声谱之后，所述方法还包括：

使用所述新噪声谱对所述音频信号的音频帧进行维纳滤波。

8.根据权利要求1至4任意一项所述方法，其特征在于，所述方法还包括：

9.根据权利要求8所述方法，其特征在于，在所述确定所述音频帧为人声或者音乐之前，所述方法还包括：

10.根据权利要求9所述方法，其特征在于，所述方法还包括：

11.一种噪声检测装置，其特征在于，包括：

信号获取单元，用于获取待处理的音频信号；

12.根据权利要求11所述装置，其特征在于，

所述计算单元，具体用于将所述Corr(τ)中小于0的值赋值为0然后计算增强谱eCorr(τ)；将所述eCorr(τ)中小于0的值赋值为0，得到增强相关谱Ecorr(τ)。

13.根据权利要求12所述装置，其特征在于，

所述计算单元，具体用于依据eCorr(τ)＝Corr(τ)－Corr(τ/2)计算所述eCorr(τ)，若τ为奇数，所述Corr(τ/2)由邻近点插值得到。

14.根据权利要求11所述装置，其特征在于，

所述计算单元，具体用于计算所述Spectrum(ω)的频点的三次方根，并对所述Spectrum(ω)的频点的三次方根作快速傅里叶变换取实部，得到所述Corr(τ)。

15.根据权利要求11至14任意一项所述装置，其特征在于，

所述计算单元，还用于在所述信号确定单元确定所述音频帧为噪声之前，计算所述音频帧的幅度谱S与噪声谱N的幅度谱的平均距离d，d＝20(log10(S)-log10(N))；

16.根据权利要求15所述装置，其特征在于，所述装置还包括：

17.根据权利要求16所述装置，其特征在于，所述装置还包括：

18.根据权利要求11至14任意一项所述装置，其特征在于，

所述信号确定单元，还用于若所述音频帧未确定为噪声，则确定所述音频帧为人声或者音乐。

19.根据权利要求18所述装置，其特征在于，

所述信号确定单元，还用于在所述确定所述音频帧为人声或者音乐之前，若所述d大于所述第二阈值且若所述音频帧未确定为噪声，则确定所述音频帧为人声或者音乐。

20.根据权利要求19所述装置，其特征在于，所述装置还包括：