CN104157295A

CN104157295A - 用于检测及抑制瞬态噪声的方法

Info

Publication number: CN104157295A
Application number: CN201410418126.0A
Authority: CN
Inventors: 郑成诗; 厉剑; 彭仁华; 李晓东
Original assignee: Institute of Acoustics CAS; Shanghai Advanced Research Institute of CAS
Current assignee: Institute of Acoustics CAS; Shanghai Advanced Research Institute of CAS
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2014-11-19
Anticipated expiration: 2034-08-22
Also published as: CN104157295B

Abstract

一种用于检测及抑制瞬态噪声的方法，涉及声信号处理技术领域，所解决的是现有方法实时性差，及对瞬态噪声的抑制效果差的技术问题。该方法先利用传声器拾取声信号，再对声信号进行预处理，并忽略平稳态噪声残留，得到预处理后的声信号x(n)，再通过快速傅里叶变换计算x(n)每一帧的短时谱，再采用基于高采样或基于自谱相干的瞬态噪声检测方法对x(n)进行瞬态噪声检测，再采用基于语音谐波及基于语音和音频时频连续性的保护方法进行瞬态噪声的鲁棒抑制，然后再计算各个帧的最终瞬态噪声抑制增益，最后再通过时域重叠相加重构各个帧。本发明提供的方法，适用于语音和音频信号，既可应用于实时语音和音频通信***，也可以应用非实时的语音和音频信号增强中。

Description

用于检测及抑制瞬态噪声的方法

技术领域

本发明涉及声信号处理技术，特别是涉及一种用于检测及抑制瞬态噪声的方法的技术。

背景技术

当前，绝大多数的单通道语音增强方法都假定噪声的平稳特性，即噪声相对于语音信号更加平稳，可以通过噪声估计方法对平稳态噪声进行估计，最后进行平稳态噪声的抑制。多通道语音增强方法都利用目标语音和干扰噪声的空间分离度，通过波束形成等手段进行空域滤波，实现平稳态和非平稳态噪声抑制。

现有方法都采用基于监督学习的瞬态噪声抑制方法，需要通过在线或者离线监督学习瞬态噪声特性，以实现瞬态噪声的检测，最终实现瞬态噪声抑制，因此无法做到实时性，也无法适用于所有类型的瞬态噪声，对瞬态噪声的抑制效果较差，导致声信号失真严重，无法应用于实时语音通信***中，同时该方法也不具普遍适用性。

发明内容

针对上述现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种实时性好，且对瞬态噪声的抑制效果好，能有效减少声信号失真的用于检测及抑制瞬态噪声的方法。

为了解决上述技术问题，本发明所提供的一种用于检测及抑制瞬态噪声的方法，其特征在于，具体步骤如下：

1)利用单传声器或多传声器拾取声信号；

2)对传声器所拾取的声信号进行预处理，并忽略平稳态噪声残留，得到预处理后的声信号为：

x(n)＝s(n)+d_t(n)；

其中，x(n)为预处理后的声信号，s(n)为预处理后的声信号中的目标语音成分，d_t(n)为预处理后的声信号中的瞬态噪声成分；

如果声信号是采用单传声器拾取的，其预处理方式为采用谱减法来抑制声信号的平稳态噪声；

如果声信号是采用多传声器拾取的，其预处理方式为先采用波束形成法来抑制方向性干扰噪声，再采用多通道后滤波法来抑制环境噪声；

3)通过快速傅里叶变换计算x(n)每一帧的短时谱，具体计算公式为：

X(k,l)＝S(k,l)+D_t(k,l)；

其中，X(k,l)为x(n)中的第l帧的第k个频带短时谱，S(k,l)为s(n)中的第l帧的第k个频带短时谱，D_t(k,l)为d_t(n)中的第l帧的第k个频带短时谱；

4)采用基于高采样的瞬态噪声检测方法对x(n)进行瞬态噪声检测，或采用基于自谱相干的瞬态噪声检测方法对x(n)进行瞬态噪声检测，从而得到各个帧的初步瞬态噪声抑制增益；

5)采用基于语音谐波的保护方法进行瞬态噪声的鲁棒抑制，得出各个帧的基频及谐频对应频带的第一种增益保护函数，并采用基于语音和音频时频连续性的保护方法进行瞬态噪声的鲁棒抑制，得出语音和音频时频连续性对应频带的第二种增益保护函数；

6)计算各个帧的最终瞬态噪声抑制增益，具体计算公式为：

G(k,l)＝max{G₁(k,l),G_p,1(k,l),G_p,2(k,l),G_min}；

其中，G(k,l)为第l帧第k个频带的最终瞬态噪声抑制增益，G₁(k,l)为第l帧第k个频带的初步瞬态噪声抑制增益，G_p,1(k,l)为第l帧第k个频带的第一种增益保护函数，G_p,2(k,l)为第l帧第k个频带的第二种增益保护函数，G_min为最大瞬态噪声抑制量，G_min的取值在-30dB到-20dB之间，对G(k,l)进行进一步约束如下：

G(k,l)＝min{G(k,l),1}；

7)通过时域重叠相加重构各个帧，重构公式为：

\tilde{s} (n) = IFFT {G (k, l) X (k . l)};

其中，为各帧重构后得到的声信号，IFFT为逆快速傅里叶变换。

进一步的，所述步骤4)中，基于高采样的瞬态噪声检测方法的检测步骤如下：

4.1.1)对x(n)采用高采样率进行采样，设x(n)中，目标语音的频率范围为[0,f_U]，所采用的高采样率为f_s1，则有f_s1＞＞2f_U，f_s1＞＞2f_U是指f_s1在2f_U的1.5倍以上；

4.1.2)利用子带分析滤波器或快速傅里叶变换，将采样样本按一帧一个子带的方式分成多个子带，并计算各个子带的能量，具体计算公式为：

{Ener}_{sub, p} = Σ_{n = n_{l}}^{n_{u}} {| x_{sub, p} (n) |}^{q};

其中，Ener_sub,p为采样样本中的第p个子带的能量，n_l为计算子带能量的采样点下限，n_u为计算子带能量的采样点上限，x_sub,p(n)为采样样本中的第p个子带，q为指数，q取值为1为幅度求和，q取值为2为平方求和；

4.1.3)在x(n)的频率域对每个子带进行噪声能量粗略分带估算，并根据各个子带的噪声能量粗略分带估算值设定当前子带的瞬态噪声标志；

对于每一个子带，如果存在Ener_sub,p≥R×Noise_Ener_sub,p，则将该子带的瞬态噪声标志设置为1，表征当前子带具有瞬态噪声，反之则将该子带的瞬态噪声标志设置为0，表征当前子带没有瞬态噪声；

其中，R为门限，R的取值范围为5～10，Noise_Ener_sub,p为采样样本中的第p个子带的噪声能量粗略分带估算值；

4.1.4)降低采样率对步骤4.1.3)处理后的每个子带进行重采样后重构，设重采样的采样率为f_s2，则有f_s2＝2f_U；

4.1.5)根据步骤4.1.4)的瞬态噪声检测结果，得到各个帧的初步瞬态噪声抑制增益为：

G₁(k,l)＝min{1-F₁(k,l)}；

其中，G₁(k,l)为第l帧的初步瞬态噪声抑制增益，F₁(k,l)为第l帧的瞬态噪声标志。

进一步的，所述步骤4)中，基于自谱相干的瞬态噪声检测方法的检测步骤如下：

4.2.1)计算每个频带的自谱相干，具体计算公式为：

C_{xx} (k, l) = \frac{{| Σ_{k &Element; K} X (k, l) X^{*} (k + k_{0}, l) |}^{2}}{{| Σ_{k &Element; K} X (k . l) X^{*} (k, l) |}^{2} {| Σ_{k &Element; K} X (k + k_{0}, l) X^{*} (k + K_{0}, l) |}^{2}};

其中，C_xx(k,l)为第l帧的第k个频带的自谱相干，k₀和K₀均为正整数，k₀的取值为2或3或4，K₀的典型值为8，K＝[k-K₀ … k+K₀]；

4.2.2)将每个频带的自谱相干与门限对比，检测每个频带的瞬态噪声；

对于每一个频带，如果存在C_xx(k,l)≥C_th1，则将该频带的瞬态噪声标志设置为1，表征当前帧的当前频带具有瞬态噪声，反之则将该频带的瞬态噪声标志设置为0，表征当前帧的当前频带没有瞬态噪声；

其中，C_th1是检测门限，取值范围为[0.5,1]；

4.2.3)计算帧自谱相干，具体计算公式为：

C_{xx} (l) = \frac{{| Σ_{k &Element; K_{l}} X (k, l) X^{*} (k + k_{0}, l) |}^{2}}{{| Σ_{k &Element; K_{l}} X (k . l) X^{*} (k, l) |}^{2} {| Σ_{k &Element; K_{l}} X (k + k_{0}, l) X^{*} (k + K_{0}, l) |}^{2}};

其中，C_xx(l)为第l帧的自谱相干，k₀是正整数，其取值为2或3或4，K_l＝[k_low … k_up]，k_low的取值为11，k_up是一常数；

4.2.4)将帧自谱相干与门限对比，检测每个帧的瞬态噪声：

对于每一个帧，如果存在C_xx(l)≥C_th2，则将该帧的瞬态噪声标志设置为1，表征当前帧具有瞬态噪声，反之则将该帧的瞬态噪声标志设置为0，表征当前帧没有瞬态噪声；

其中，C_th2是检测门限，其取值范围为[0.1,1]；

4.2.5)根据步骤4.2.4)的瞬态噪声检测结果，得到各个帧的初步瞬态噪声抑制增益为：

G₁(k,l)＝min{1-F_j(k,l),j＝2,3}；

其中，G₁(k,l)为第l帧的初步瞬态噪声抑制增益，F₂(k,l)为第l帧的瞬态噪声标志，F₃(k,l)为第l帧的第k个频带的瞬态噪声标志设置。

进一步的，所述步骤4.2.3)中，传声器拾取声信号的采样频率为8000Hz时，k_up的取值为129，传声器拾取声信号的采样频率为16000Hz时，k_up的取值为257，传声器拾取声信号的采样频率大于等于32000Hz时，k_up的取值为513。

进一步的，所述步骤5)中，基于语音谐波的保护方法的计算步骤如下：

5.1.1)采用基频估计方法提取各个帧的基频，并计算基频频带，具体计算公式为：

k_{f_{0}, l} = [\frac{f_{0, l}}{f_{s} / N}];

其中，为第l帧的基频频带，f_0,l为第l帧的基频，f_s为传声器拾取声信号的采样频率，N为传声器拾取声信号的数据分帧帧长；

5.1.2)对各个帧的基频及谐频对应的频带进行保护，保护策略为：

对于每一个帧，如果存在且则令G_p,1(k,l)＝1；

其中，k为第l帧的第k个频带，G_p,1(k,l)为第l帧第k个频带的第一种增益保护函数，其初始值为0；

其中，j为小于等于6的正整数。

进一步的，所述步骤5)中，基于语音和音频时频连续性的保护方法采用的是基于语音和音频连续性的实时保护方法，该方法的计算步骤如下：

5.2.1.1)在频域内对谱进行平滑处理，具体处理公式为：

| \overset{&OverBar;}{X} (k, l) | = w (k) &CircleTimes; | X (k, l) |;

其中，w(k)为窗函数，具体为矩形窗，或三角窗，或汉宁窗；

5.2.1.2)计算各个帧的增益保护函数，具体计算公式为：

G_{p, 2} (k, l) = \min {{(\frac{| \overset{&OverBar;}{X} (k, l - l_{0}) |}{| \overset{&OverBar;}{X} (k, l) |})}^{q} |_{l_{0} = 3,4}};

其中，G_p,2(k,l)为第l帧第k个频带的第二种增益保护函数，q为指数，q的典型取值为0.5或1或2，l₀为帧偏移。

进一步的，所述步骤5)中，基于语音和音频时频连续性的保护方法采用的是基于语音和音频连续性的非实时保护方法，该方法的计算步骤如下：

5.2.2.1)在频域内对谱进行平滑处理，具体处理公式为：

| \overset{&OverBar;}{X} (k, l) | = w (k) &CircleTimes; | X (k, l) |;

其中，w(k)为窗函数，具体为矩形窗，或三角窗，或汉宁窗；

5.2.1.2)计算各个帧的增益保护函数，具体计算公式为：

G_{p, 2} (k, l) = \min {{(\frac{| \overset{&OverBar;}{X} (k, l - l_{0}) |}{| \overset{&OverBar;}{X} (k, l) |})}^{q} |_{l_{0} = &PlusMinus; 3, &PlusMinus; 4}};

本发明提供的用于检测及抑制瞬态噪声的方法，考虑瞬态噪声的时频特性，采用高采样和自谱相干两个手段实现高瞬态噪声检测率和低虚警率的目标，不需要监督学习瞬态噪声特性，具有实时性较好的特点，还保护了清音信号及辅助保护了浊音信号，而且还利用语音和音频的时间相关性和频域相关性，同时考虑瞬态噪声的短时特性，对瞬态噪声的抑制效果好，在瞬态噪声抑制过程中还通过基于语音谐波特性的保护策略，避免语音尤其是浊音的谐波失真，通过基于信号连续性的保护策略，减少语音和音频信号的失真。

附图说明

图1是本发明实施例的用于检测及抑制瞬态噪声的方法处理单传声器所拾取的声信号的原理图；

图2是本发明实施例的用于检测及抑制瞬态噪声的方法处理多传声器所拾取的声信号的原理图；

图3是本发明实施例的用于检测及抑制瞬态噪声的方法中，基于高采样的瞬态噪声检测方法的原理图；

图4是本发明实施例的用于检测及抑制瞬态噪声的方法中，基于自谱相干的瞬态噪声检测方法的原理图；

图5是本发明实施例的用于检测及抑制瞬态噪声的方法中，进行瞬态噪声鲁棒抑制的原理图。

具体实施方式

以下结合附图说明对本发明的实施例作进一步详细描述，但本实施例并不用于限制本发明，凡是采用本发明的相似结构及其相似变化，均应列入本发明的保护范围。

如图1-图5所示，本发明实施例所提供的一种用于检测及抑制瞬态噪声的方法，其特征在于，具体步骤如下：

1)利用单传声器或多传声器拾取声信号，声信号模型公式为：

x_i(n)＝s_i(n)+d_s,i(n)+d_t,i(n)；

其中，1≤i≤M，M为传声器的数量，x_i(n)为第i个传声器拾取到的声信号，s_i(n)为第i个传声器拾取到的声信号中的目标语音信号(如人说话的声音)，d_s,i(n)为第i个传声器拾取到的声信号中的平稳态噪声(如汽车噪声)，d_t,i(n)为第i个传声器拾取到的声信号中的瞬态噪声(如敲击键盘、鼠标的声音)；

2)对传声器所拾取的声信号进行预处理，并忽略平稳态噪声残留；

如果声信号是采用单传声器拾取的(即M＝1)，其预处理方式为采用谱减法来抑制声信号的平稳态噪声；

如果声信号是采用多传声器拾取的(即M＞1)，其预处理方式为先采用波束形成法来抑制方向性干扰噪声，再采用多通道后滤波法来抑制环境噪声；

其中，谱减法、波束形成法、后滤波法均为现有技术；

其中，波束形成法主要有固定波束形成法及自适应波束形成法，固定波束形成法主要有延迟相加(DSB：Delay-and-Sum Beamforming)、延迟滤波(DFB：Delay-and-Filtering Beaforming)及鲁棒超指向性波束形成(RSB：RobustSuperdirective Beamforming)等，自适应波束形成法主要有广义旁瓣抑制法(GSC：Generalized Sidelobe Canceller)、最小方差无失真响应法(MVDR：MinimumVariance Distortionless Response)、多通道维纳滤波方法(MWF：Multi-channelWiener Filtering)；

其中，多通道后滤波法可以采用基于相位的方法、基于相干的方法或基于能量的方法等；

得到预处理后的声信号为：

x(n)＝s(n)+d_t(n)；

X(k,l)＝S(k,l)+D_t(k,l)；

4)采用基于高采样的瞬态噪声检测方法对x(n)进行瞬态噪声检测，或采用基于自谱相干的瞬态噪声检测方法对x(n)进行瞬态噪声检测；

4.1)基于高采样的瞬态噪声检测方法的检测步骤如下：

其中，f_U常用的频率有4000Hz、5512.5Hz、8000Hz，则f_s1的取值可以是22050Hz、32000Hz、44100Hz甚至48000Hz等常用的音频采样率；

{Ener}_{sub, p} = Σ_{n = n_{l}}^{n_{u}} {| x_{sub, p} (n) |}^{q};

其中，利用子带分析滤波器或快速傅里叶变换将采样样本方式分成多个子带的方法为现有技术；

其中，对子带进行噪声能量粗略分带估算的方法为现有技术；

其中，f_s2的取值可以是8000Hz、11025Hz、16000Hz；

G₁(k,l)＝min{1-F₁(k,l)}；

其中，G₁(k,l)为第l帧的初步瞬态噪声抑制增益，F₁(k,l)为第l帧的瞬态噪声标志；

4.2)基于自谱相干的瞬态噪声检测方法的检测步骤如下：

4.2.1)计算每个频带的自谱相干，具体计算公式为：

C_{xx} (k, l) = \frac{{| Σ_{k &Element; K} X (k, l) X^{*} (k + k_{0}, l) |}^{2}}{{| Σ_{k &Element; K} X (k . l) X^{*} (k, l) |}^{2} {| Σ_{k &Element; K} X (k + k_{0}, l) X^{*} (k + K_{0}, l) |}^{2}};

其中，C_xx(k,l)为第l帧的第k个频带的自谱相干，k₀和K₀均为正整数，k₀的取值为2或3或4，K₀的典型值为8，K₀决定了用于计算自谱相干的频带个数，K₀越大，方差越小，频率分辨率越低，K＝[k-K₀ … k+K₀]，即(k-K₀)≤K≤(k+K₀)；

其中，C_th1是检测门限，取值范围为[0.5,1]，C_th1取值越大，瞬态噪声检测概率越低，语音和音频失真越小；

4.2.3)计算帧自谱相干，具体计算公式为：

C_{xx} (l) = \frac{{| Σ_{k &Element; K_{l}} X (k, l) X^{*} (k + k_{0}, l) |}^{2}}{{| Σ_{k &Element; K_{l}} X (k . l) X^{*} (k, l) |}^{2} {| Σ_{k &Element; K_{l}} X (k + k_{0}, l) X^{*} (k + K_{0}, l) |}^{2}};

其中，C_xx(l)为第l帧的自谱相干，k₀是正整数，其取值为2或3或4，K_l＝[k_low … k_up]，即k_low≤K≤k_up，k_low的取值为11，使得频率低于300Hz的帧不用于计算自谱相干，以减少低频噪声对自谱相干的影响，k_up是一常数，k_up的取值由传声器拾取声信号的采样频率决定，传声器拾取声信号的采样频率越大，k_up的取值也越大，传声器拾取声信号的采样频率为8000Hz时，k_up的典型值为129，传声器拾取声信号的采样频率为16000Hz时，k_up的典型值为257，传声器拾取声信号的采样频率大于等于32000Hz时，k_up的典型值为513；

4.2.4)将帧自谱相干与门限对比，检测每个帧的瞬态噪声：

其中，C_th2是检测门限，其取值范围为[0.1,1]，C_th2取值越大，瞬态噪声检测概率越低，同时语音和音频失真越小；

G₁(k,l)＝min{1-F_j(k,l),j＝2,3}；

其中，G₁(k,l)为第l帧的初步瞬态噪声抑制增益，F₂(k,l)为第l帧的瞬态噪声标志，F₃(k,l)为第l帧的第k个频带的瞬态噪声标志设置；

瞬态噪声的鲁棒抑制方法还可以采用现有的中值滤波等其他方法；

5.1)基于语音谐波的保护方法的计算步骤如下：

k_{f_{0}, l} = [\frac{f_{0, l}}{f_{s} / N}];

其中，为第l帧的基频频带，f_0,l为第l帧的基频，f_s为传声器拾取声信号的采样频率，N为传声器拾取声信号的数据分帧帧长，即计算一次快速傅里叶变换的点数；

对于每一个帧，如果存在且则令G_p,1(k,l)＝1；

其中，j为小于等于6的正整数，表征基频及其谐频对应的频带，j＝1时对应于基频，当j大于2时对应于第j次谐频，表征基频和谐频对应频带的临近频带，保护基频及临近频带可以减少语音失真；

5.2)基于语音和音频时频连续性的保护方法有两种，一种是基于语音和音频连续性的实时保护方法，另一种是基于语音和音频连续性的非实时保护方法；

5.2.1)基于语音和音频连续性的实时保护方法的计算步骤如下：

5.2.1.1)在频域内对谱进行平滑处理，具体处理公式为：

| \overset{&OverBar;}{X} (k, l) | = w (k) &CircleTimes; | X (k, l) |;

其中，w(k)为窗函数，具体为矩形窗，或三角窗，或汉宁窗；

5.2.1.2)计算各个帧的增益保护函数，具体计算公式为：

G_{p, 2} (k, l) = \min {{(\frac{| \overset{&OverBar;}{X} (k, l - l_{0}) |}{| \overset{&OverBar;}{X} (k, l) |})}^{q} |_{l_{0} = 3,4}};

其中，G_p,2(k,l)为第l帧第k个频带的第二种增益保护函数，q为指数，q的典型取值为0.5或1或2，q的取值越大瞬态噪声抑制量也越大，语音失真也随之增大，l₀为帧偏移，l₀的取值与瞬态噪声持续时间、分帧长度、帧重叠等参数直接相关；

5.2.2)基于语音和音频连续性的非实时保护方法的计算步骤如下：

5.2.2.1)在频域内对谱进行平滑处理，具体处理公式为：

| \overset{&OverBar;}{X} (k, l) | = w (k) &CircleTimes; | X (k, l) |;

其中，w(k)为窗函数，具体为矩形窗，或三角窗，或汉宁窗；

5.2.1.2)计算各个帧的增益保护函数，具体计算公式为：

G_{p, 2} (k, l) = \min {{(\frac{| \overset{&OverBar;}{X} (k, l - l_{0}) |}{| \overset{&OverBar;}{X} (k, l) |})}^{q} |_{l_{0} = &PlusMinus; 3, &PlusMinus; 4}};

其中，G_p,2(k,l)为第l帧第k个频带的第二种增益保护函数，q为指数，q的典型取值为0.5或1或2，q的取值越大瞬态噪声抑制量也越大，语音失真也随之增大，l₀为帧偏移，l₀的取值与瞬态噪声持续时间、分帧长度、帧重叠等参数直接相关，相比基于语音和音频连续性的实时保护方法，基于语音和音频连续性的非实时保护方法利用了当前帧之后的数据帧信息进行相关的保护；

6)计算各个帧的最终瞬态噪声抑制增益，具体计算公式为：

G(k,l)＝max{G₁(k,l),G_p,1(k,l),G_p,2(k,l),G_min}；

其中，G(k,l)为第l帧第k个频带的最终瞬态噪声抑制增益，G_min为最大瞬态噪声抑制量，G_min的取值在-30dB到-20dB之间，G_min取值越小，残留噪声愈大，语音失真越小，为了确保G(k,l)取值小于1，对G(k,l)进行进一步约束如下：

G(k,l)＝min{G(k,l),1}；

7)通过时域重叠相加重构各个帧，重构公式为：

\tilde{s} (n) = IFFT {G (k, l) X (k . l)};

本发明实施例的方法对声信号的检测延迟在8ms以内，且检测瞬态噪声的概率在99％的情况下，清音误判断成瞬态噪声的概率仅不到1％，具有实时性、检测率高的特点，瞬态噪声抑制量可以达到30dB以上，而且语音失真小于3dB，有效解决了瞬态噪声(如鼠标声、键盘声、敲击声、鼓掌声等)对语音和音频信号的影响，提高了语音识别率和语音通信质量，适用于语音和音频信号，既可应用于实时语音和音频通信***，也可以应用非实时的语音和音频信号增强中。

Claims

1.一种用于检测及抑制瞬态噪声的方法，其特征在于，具体步骤如下：

1)利用单传声器或多传声器拾取声信号；

x(n)＝s(n)+d_t(n)；

X(k,l)＝S(k,l)+D_t(k,l)；

6)计算各个帧的最终瞬态噪声抑制增益，具体计算公式为：

G(k,l)＝max{G₁(k,l),G_p,1(k,l),G_p,2(k,l),G_min}；

G(k,l)＝min{G(k,l),1}；

7)通过时域重叠相加重构各个帧，重构公式为：

\tilde{s} (n) = IFFT {G (k, l) X (k . l)};

2.根据权利要求1所述的用于检测及抑制瞬态噪声的方法，其特征在于，所述步骤4)中，基于高采样的瞬态噪声检测方法的检测步骤如下：

{Ener}_{sub, p} = Σ_{n = n_{l}}^{n_{u}} {| x_{sub, p} (n) |}^{q};

G₁(k,l)＝min{1-F₁(k,l)}；

3.根据权利要求1所述的用于检测及抑制瞬态噪声的方法，其特征在于，所述步骤4)中，基于自谱相干的瞬态噪声检测方法的检测步骤如下：

4.2.1)计算每个频带的自谱相干，具体计算公式为：

C_{xx} (k, l) = \frac{{| Σ_{k &Element; K} X (k, l) X^{*} (k + k_{0}, l) |}^{2}}{{| Σ_{k &Element; K} X (k . l) X^{*} (k, l) |}^{2} {| Σ_{k &Element; K} X (k + k_{0}, l) X^{*} (k + K_{0}, l) |}^{2}};

其中，C_th1是检测门限，取值范围为[0.5,1]；

4.2.3)计算帧自谱相干，具体计算公式为：

C_{xx} (l) = \frac{{| Σ_{k &Element; K_{l}} X (k, l) X^{*} (k + k_{0}, l) |}^{2}}{{| Σ_{k &Element; K_{l}} X (k . l) X^{*} (k, l) |}^{2} {| Σ_{k &Element; K_{l}} X (k + k_{0}, l) X^{*} (k + K_{0}, l) |}^{2}};

4.2.4)将帧自谱相干与门限对比，检测每个帧的瞬态噪声：

其中，C_th2是检测门限，其取值范围为[0.1,1]；

G₁(k,l)＝min{1-F_j(k,l),j＝2,3}；

4.根据权利要求3所述的用于检测及抑制瞬态噪声的方法，其特征在于，所述步骤4.2.3)中，传声器拾取声信号的采样频率为8000Hz时，k_up的取值为129，传声器拾取声信号的采样频率为16000Hz时，k_up的取值为257，传声器拾取声信号的采样频率大于等于32000Hz时，k_up的取值为513。

5.根据权利要求1所述的用于检测及抑制瞬态噪声的方法，其特征在于，所述步骤5)中，基于语音谐波的保护方法的计算步骤如下：

k_{f_{0}, l} = [\frac{f_{0, l}}{f_{s} / N}];

对于每一个帧，如果存在且则令G_p,1(k,l)＝1；

其中，j为小于等于6的正整数。

6.根据权利要求1所述的用于检测及抑制瞬态噪声的方法，其特征在于，所述步骤5)中，基于语音和音频时频连续性的保护方法采用的是基于语音和音频连续性的实时保护方法，该方法的计算步骤如下：

5.2.1.1)在频域内对谱进行平滑处理，具体处理公式为：

| \overset{&OverBar;}{X} (k, l) | = w (k) &CircleTimes; | X (k, l) |;

其中，w(k)为窗函数，具体为矩形窗，或三角窗，或汉宁窗；

5.2.1.2)计算各个帧的增益保护函数，具体计算公式为：

G_{p, 2} (k, l) = \min {{(\frac{| \overset{&OverBar;}{X} (k, l - l_{0}) |}{| \overset{&OverBar;}{X} (k, l) |})}^{q} |_{l_{0} = 3,4}};

7.根据权利要求1所述的用于检测及抑制瞬态噪声的方法，其特征在于，所述步骤5)中，基于语音和音频时频连续性的保护方法采用的是基于语音和音频连续性的非实时保护方法，该方法的计算步骤如下：

5.2.2.1)在频域内对谱进行平滑处理，具体处理公式为：

| \overset{&OverBar;}{X} (k, l) | = w (k) &CircleTimes; | X (k, l) |;

其中，w(k)为窗函数，具体为矩形窗，或三角窗，或汉宁窗；

5.2.1.2)计算各个帧的增益保护函数，具体计算公式为：

G_{p, 2} (k, l) = \min {{(\frac{| \overset{&OverBar;}{X} (k, l - l_{0}) |}{| \overset{&OverBar;}{X} (k, l) |})}^{q} |_{l_{0} = &PlusMinus; 3, &PlusMinus; 4}};