CN103456310B - 一种基于谱估计的瞬态噪声抑制方法 - Google Patents
一种基于谱估计的瞬态噪声抑制方法 Download PDFInfo
- Publication number
- CN103456310B CN103456310B CN201310383122.9A CN201310383122A CN103456310B CN 103456310 B CN103456310 B CN 103456310B CN 201310383122 A CN201310383122 A CN 201310383122A CN 103456310 B CN103456310 B CN 103456310B
- Authority
- CN
- China
- Prior art keywords
- noise
- transient
- voice
- power
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 144
- 238000001228 spectrum Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000001629 suppression Effects 0.000 title claims abstract description 13
- 230000003595 spectral effect Effects 0.000 claims abstract description 56
- 238000009499 grossing Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001364 causal effect Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 230000010355 oscillation Effects 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000007423 decrease Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 11
- 238000012935 Averaging Methods 0.000 abstract description 7
- 238000009792 diffusion process Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- XPCTZQVDEJYUGT-UHFFFAOYSA-N 3-hydroxy-2-methyl-4-pyrone Chemical compound CC=1OC=CC(=O)C=1O XPCTZQVDEJYUGT-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于谱估计的瞬态噪声抑制方法,属于数字信号处理技术领域。本发明包括以下几步:第一步:基于改进的最小控制递归平滑的非瞬态背景噪声功率谱估计:第二步:基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计:第三步:基于最优修正对数谱幅度估计及瞬态噪声谱估计的语音噪声抑制。
Description
技术领域
本发明涉及一种基于谱估计的瞬态噪声抑制方法,属于数字信号处理技术领域。
背景技术
语音中的瞬态噪声(也称为暂态噪声)属于一种加性噪声。通常,瞬态噪声在时域中具有突发性、脉冲性等特点,其能量常集中在较短的时域区间内,而在频域分布则较宽。典型的瞬态信号常由一个初始的峰值和一段持续时间约为10~50ms的衰减的短时振荡过程构成,如敲门、鼠标点击、节拍器、键盘敲击、锤子击打声等都属于瞬态噪声。瞬态噪声存在于很多场合中,如助听器、免提组件、手机及视讯会议终端等语音通信设备中。瞬态噪声的存在严重影响语音质量,使语音信号清晰度和可懂度下降,引起听觉疲劳,甚至使语音***无法正常工作。因此,需要采用瞬态噪声抑制技术,以提高语音质量。
发明内容
本发明针对以上问题的提出,而研制一种基于谱估计的瞬态噪声抑制方法。
本发明采取的技术方案如下:
一种基于谱估计的瞬态噪声抑制方法包括以下几步:
第一步:基于改进的最小控制递归平滑的非瞬态背景噪声功率谱估计;
第二步:基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计;
第三步:基于最优修正对数谱幅度估计及瞬态噪声谱估计的语音噪声抑制。
本发明的原理及有益效果:考虑到语音信号和背景噪声变化较慢而瞬态噪声变化很快这一特点,本发明提出了一种基于改进的最小控制的递归平滑以及最优修正对数谱幅度估计的瞬态噪声抑制方法。首先,根据改进的最小控制的递归平滑方法来估计观测信号中慢变语音和背景噪声的时变功率谱;然后根据估计的功率谱,结合最优修正对数谱幅度估计方法来增强瞬态噪声和非瞬态成分的差异,并估计瞬态噪声的功率谱。此外,采用传统的最小控制的递归平滑方法,从瞬态噪声和语音信号中估计背景噪声的功率谱。最后,将估计的瞬态噪声和背景噪声功率谱进行合并,并再次运用最优修正对数谱幅度估计方法,同时抑制瞬态噪声和背景噪声,得到增强后的语音幅度谱。
附图说明
图1基本的最优修正对数谱幅度估计(OM-LSA)方法的功能框图。
图2计算最优幅度谱增益的功能框图。
图3计算Pframe(l)的流程图。
图4 Phillip A.Hetherington,Shreyas A.Paranjpe.在公开号为2006116873的美国专利“Repetitive transient noise removal”(2003)的流程图。
图5基于MMCRA和OM-LSA的瞬态噪声抑制方法功能框图。
图6基于MCRA的噪声功率谱估计功能框图。
图7原始语音语谱图例子。
图8在图7语音中加入噪声后的语谱图。
图9使用R.Talmon,I.Cohen,and S.Gannot在论文“Transient noise reductionusing nonlocal diffusion filters”(IEEE Trans.on Audio,Speech and LanguageProcessing,2011,19(6):1584-1599)中提出的技术处理图8语音后的语谱图。
图10使用本发明方法处理图8语音后的语谱图。
具体实施方式
下面结合附图对本发明做进一步说明:
基于最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制方法
在低信噪比、非平稳背景噪声情形下为了实现语音噪声抑制,Cohen等人提出了基于最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制方法。该方法在低信噪比、非平稳噪声环境下具有很好的鲁棒性。其思想是通过观测信号先验信噪比估计、噪声估计,以及语音存在概率估计,得到观测信号的最优频谱增益函数,最后将频域观测信号与增益函数作乘,获得去噪后的语音信号。基于最优修正对数谱幅度估计(OM-LSA)方法的功能框图如图1所示。
(1)最优增益修正
将观测信号记为y(n),纯净信号记为x(n),加性噪声记为d(n)。则有
y(n)=x(n)+d(n); (1)
对观测信号y(n)进行加窗分帧操作,并用短时傅立叶变换进行分析:
其中,k为频率索引,l为时域帧的索引,h(n)为窗函数,M为帧移。这里选择LSA估计来计算频谱增益,LSA的核心思想就是最小化其中,A(k,l)=|X(k,l)|表示纯净语音的幅度谱,而是A(k,l)的最优估计值。假设各频谱分量统计独立,则定义短时对数谱的估计为:
这里给出以下二元假设模型:
H0(k,l):Y(k,l)=D(k,l), (4)
H1(k,l):Y(k,l)=X(k,l)+D(k,l),
其中,D(k,l)表示噪声的短时傅立叶变换(STFT)。H0(k,l)和H1(k,l)分别表示无音和有音两种状态。观测信号的条件概率密度函数表示为:
其中,λx(k,l)=E[|X(k,l)|2]|H1(k,l),λd(k,l)=E[|D(k,l)|2],分别表示语音信号和噪声的方差。对条件有音概率p(k,l)应用贝叶斯准则,则有
其中,ξ(k,l),γ(k,l)分别表示观测信号的先验信噪比和后验信噪比。而根据二元假设模型,则有:
E(logA(k,l)|Y(k,l))=E[logA(k,l)|Y(k,l),H1(k,l)]p(k,l)
+E[logA(k,l)|Y(k,l),H0(k,l)]×(1-p(k,l)), (9)
则基于最优修正对数谱幅度估计(OM-LSA)的短时对数谱幅度估计表示如下:
设定增益门限Gmin,用以表征非语音段的增益下限,其值依赖于对噪声的主观评测。令为有音段的状态增益函数,于是有
则最终由最优修正对数谱幅度估计(OM-LSA)得出的最优增益函数为:
计算最优增益的先验知识包括计算先验信噪比、后验信噪比、先验无音概率以及条件有音概率。计算最优增益的功能框图如图2所示。
(2)先验信噪比估计
由最优增益修正过程可知,先验信噪比ξ(k,l)需要用来估计及p(k,l)。最优修正对数谱幅度估计(OM-LSA)方法采用一种面向判决的方法估计先验信噪比。Ξ(k,l)=αG2(k,l-1)γ(k,l-1)+(1-α)max{γ(k,l)-1,0}; (13)
其中,α为权重因子,0<α<1,用来控制噪声消除与信号瞬态失真之间的取舍。
在不确定语音是否存在时,利用式(13)得出的是无条件的先验信噪比,而最终的先验信噪比ξ(k,l)为Ξ(k,l)/(1-q(k,l)),因此ξ(k,l)和q(k,l)易相互作用,严重影响增益估计的结果,并引入残留噪声。因此,计算先验信噪比时,需要将语音存在的不确定性考虑在内,即
当语音存在时,G(k,l)就变为而当无音时,G(k,l)衰减到Gmin,有效地避免了式(14)存在的问题。
(3)先验无音概率估计
最优修正对数谱幅度估计(OM-LSA)方法中,采用软判决的方法计算三个与ξ(k,l)的时频分布相关的参数,实现对q(k,l)的估计。首先采用平滑因子β,对先验信噪比估计值进行递归平滑。
然后,通过在频域利用平滑窗对先验SNR进行局部和全局平滑,得到先验SNR的局部和全局平均值。
ξλ(k,l)=∑hλ(i)ζ(k-i,l) (16)
其中,λ有选择局部(local)或者全局(global)两个选项,hλ为选定的平滑窗。定义Plocal(k,l)和Pglobal(k,l)两个参数,表示语音存在概率和平滑信噪比之间的关系。
其中,λ有选择局部(local)或者全局(global)两个选项,ζmin和ζmax为经验值,能在保持较弱语音成分的同时最大限度的减弱噪声。为了进一步消除噪声的影响,基于语音帧能量定义参数Pframe(l)。首先在频域内计算ζ(k,l)的平均值,记作ξframe(l)。为了防止语音的起始点或较弱成分被切削,规定ξframe(l)增加时,即为有音帧。Pframe(l)的计算流程如图3所示。图3中的u(l)表示语音帧到噪声帧的一种软过渡,
其中,ξpeak表示受限的ζframe峰值。
最后由Plocal,Pglobal,Pframe三个参数,能获得先验无音概率的估计值。
由式(19)可知,当时,p(k,l)→0,这种情况下容易引起语音失真,这里设定一个阈值qmax,限制的大小。
与本发明相关的现有技术一
现有技术一的技术方案
Talmon等提出了一类瞬态噪声抑制方法。该类方法的共同点是采用非局部扩散滤波器(Non-Local filters,NL filters)和改进最优修正对数谱幅度估计(OM-LSA)方法。首先,利用语音信号在时域的强自相关性及瞬态噪声的突发性,首先通过一个改进的语音估计器增强瞬态噪声,并通过计算各观测帧功率谱之间的欧式距离,建立用作瞬态噪声结构学习的扩散矩阵,该扩散矩阵能够标明各观测帧之间的功率谱差异,其实际上是一个非局部扩散滤波器,通过非局部扩散滤波估计瞬态噪声的功率谱密度,最后采用最优修正对数谱幅度估计(OM-LSA)方法及噪声的功率谱分布抑制瞬态噪声。该方法分为两个阶段,分别是基于NL扩散滤波器的瞬态噪声功率谱(PSD)估计阶段和基于最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制阶段。
现有技术一的缺点
现有技术一的缺点为:(1)该方法假设相同类型的瞬态干扰重复出现多次,或者瞬态噪声间有相同的功率谱分布,对偶尔出现的瞬态噪声抑制效果较差。(2)该方法计算量很大,难以实时处理。
与本发明相关的现有技术二
现有技术二的技术方案
说明书附图4是Hetherington等在2003年公开号为2006116873的美国专利“Repetitive transient noise removal”中使用技术方法的流程图。该技术根据噪声特点进行建模,利用建模的信号与待检测信号的相关系数来确定待检测数据是否为含有噪声,若存在噪声,则根据建模信号将待检测信号中的噪声成分移除。
现有技术二的缺点
该技术适用于对具有重复性的噪声进行去噪。由于瞬态噪声的类型多种多样,当短时间内存在多种不同类型的瞬态噪声时,会造成建模不准确,影响去噪效果。
本发明采取的技术方案
本发明所要解决的技术问题
本发明针对瞬态噪声干扰的音频,应用最小控制递归平滑(MCRA)和最优修正对数谱幅度估计(OM-LSA)技术,通过谱估计的方法,提出了一种基于瞬态噪声谱估计的瞬态噪声抑制方法,能有效地抑制语音中的瞬态噪声,提高语音质量和可懂度。
本发明提供的完整技术方案
技术方案简述
考虑到语音信号和背景噪声变化较慢而瞬态噪声变化很快这一特点,本发明提出了一种基于改进最小控制递归平滑(MCRA)以及最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制方法,该方法的整体框图如图5所示。
首先,根据改进的MCRA方法来估计观测信号中慢变语音和背景噪声的时变功率谱密度(PSD);然后根据估计的功率谱密度(PSD),结合最优修正对数谱幅度估计(OM-LSA)方法来增强瞬态噪声和非瞬态成分的差异,并估计瞬态噪声的功率谱密度(PSD)。此外,采用传统的最小控制递归平滑(MCRA)方法,从瞬态噪声和语音信号中估计背景噪声的功率谱密度(PSD)。最后,将估计的瞬态噪声和背景噪声功率谱密度(PSD)进行合并,并再次运用最优修正对数谱幅度估计(OM-LSA)方法,同时抑制瞬态噪声和背景噪声,得到增强后的语音幅度谱。
实现步骤
第一步:基于改进的最小控制递归平滑(Minima Controlled RecursiveAveraging,MCRA)的非瞬态背景噪声功率谱估计;
I.Cohen在论文“Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging”(IEEE Transation.on Speech andAudio Processing,2003,11(5):466-475)中提出了基于最小控制的递归平均(MCRA)方法及其改进方法来估计短时噪声的功率谱,其递归过程由条件语音存在概率所控制,而条件语音存在概率由先验信噪比、后验信噪比以及先验无音概率得到。基于最小控制的递归平均(MCRA)的噪声谱估计框图如图6所示。
(1)短时功率谱平滑
在不存在语音的观测帧中,应用一种短时递归平滑方法,平滑时变的噪声谱,具体如式(20)所示。
式中,αd为平滑参数。假设条件语音存在概率为
p′(k,l)=P(H1(k,l)|Y(k,l)) (21)
则噪声功率谱估计为:
其中,是个时变的平滑的参数,其定义式为:
因此,对噪声的谱估计通过平滑当前帧以前的功率谱值获得,而平滑参数由条件语音存在概率p’(k,l)控制。
(2)条件语音存在概率计算
由短时功率谱平滑分析可知,要进行噪声功率谱平滑,首先需计算条件语音存在概率。MCRA基于噪声信号能量的局部统计来追踪条件语音存在概率,通过计算当前帧各频点能量与该频点的局部最小值之间的比值,来进行有音无音判决。
①通过对STFT幅值的平方加窗来平滑带噪语音信号的能量。
式中,b(i)为长为2w+1的窗函数。这里b(i)=1/(2w+1),i=-w,...,w
②通过一阶递归平均平滑能量谱。
S(k,l)=αsS(k,l-1)+(1-αs)Sf(k,l) (25)
其中,αs为平滑参数,0<αs<1。当前能量的最小值Smin(k,l)通过前向最小值搜索得到,具体如下,
Smin(k,l)=min{S(k,l),S(k,l-1)...S(k,l-L+1)} (26)
其中,L为前向局部搜索窗的长度,针对于不同的说话人及说话环境,该搜索窗的长度大约为0.5~1.5秒。
③条件语音存在概率估计
定义为含噪信号局部能量与其最小值的比值。则通过下式作有音判决:
其中,δ为经验阈值,当Sr(k,l)>δ时,当前频点被标记为有音,否则,被标记为无音。I(k,l)定义为语音存在指示器。
即得到条件语音存在概率的估计式:
其中,αp为平滑参数。将估计的代入式(22),计算时变平滑参数进而估计背景噪声功率谱
第二步:基于改进最小控制递归平滑,Modified Minima Controlled RecursiveAveraging,MMCRA,和最优修正对数谱幅度估计,Optimally Modified Log SpectralAmplitude Estimator,OM-LSA,的瞬态噪声功率谱估计;
(1)基于IMCRA的非瞬态成分功率谱估计
语音信号和背景噪声相对于瞬态噪声,其频谱是慢变的,基于此,本方法将瞬态噪声视为信号,而将语音和背景噪声等非瞬态成分视为噪声,对MCRA方法进行改进,通过计算瞬态噪声出现概率来控制非瞬态成分功率谱的递归平滑,使其能够估计观测信号中非瞬态成分的时变功率谱(PSD)。
首先,通过对对频谱幅度的平方|Y(k,l)|2进行一阶递归平均,得到平滑后的功率谱。
S(k,l)=αsS(k,l-1)+(1-αs)|Y(k,l)|2 (30)
其中,αs为用于控制对PSD快速追踪的平滑参数,αs越小,当前帧的权重越大,则能够捕获语音或者背景噪声的快速变化,本发明建议αs取值在0.7~0.9之间。瞬态噪声出现概率由平滑后功率谱的局部最小值控制,采用MCRA方法,使用局部因果窗来前向搜索最小功率值,能够检测出大部分语音和背景噪声部分。但是,语音音素的起音点处同样具有突发性,如果只采用前向搜索窗计算最小功率值,语音起音点将被错误地判断为瞬态信号,造成后续语音噪声抑制的失真。这里,将未来的时间帧考虑在内,来分辨瞬态噪声和语音起音点,因为瞬态噪声一般由一个强脉冲和一段短时衰减振荡组成,因此瞬态噪声的能量会迅速衰减,而起音点之后的语音能量在该音素内会保持平稳。因此,在搜索最小功率值时,同时采用了前向因果窗和后向非因果窗进行搜索,具体如下:
其中,L和T分别为前向因果窗和后向非因果窗的长度。该搜索方法避免了语音音素起音点的误判问题。
然后,用与MCRA中条件语音存在概率估计相同的方法,估计瞬态噪声出现概率,具体过程如式(27)~(29)所示。根据瞬态噪声出现概率估计值通过式(23)中的方法,计算用于非瞬态成分功率谱平滑的时变参数并利用式(34)递归地估计语音及背景噪声的功率谱
(2)瞬态噪声谱估计
通过OM-LSA对瞬态信号进行增强,并抑制语音和背景噪声,进而达到瞬态噪声谱估计的目的。本专利对OM-LSA方法的原理和实现步骤进行了详细的介绍,这里在此进行阐述。
将瞬态噪声作为要进行增强的信号,首先将上一节估计的非瞬态成分功率谱作为噪声的功率谱,用于瞬态信号的后验信噪比γt。
令Gf(k,l)为估计瞬态噪声功率谱的最优频谱增益,则根据式(12),该最优频谱增益为:
式中,Gmin为瞬态噪声不存在时的频谱增益,ξt(k,l)表示瞬态信号的先验信噪比,其估计方法如下:
其中,αt为权重因子,用来控制非瞬态成分消除与瞬态信号失真之间的取舍。最终通过最优频谱增益估计值Gf(k,f)与含噪语音幅度谱的平方相乘,得到增强后的瞬态信号功率谱估计
在这一过程中,将瞬态噪声视为信号,而将语音和其他背景噪声视为噪声,利用瞬态噪声的突变性,实现对非瞬态成分功率谱的平滑与跟踪。再利用OM-LSA方法计算瞬态噪声的功率谱估计。
第三步:基于最优修正对数谱幅度估计(Optimally Modified Log SpectralAmplitude Estimator,OM-LSA)及瞬态噪声谱估计的语音噪声抑制。
根据第一步背景噪声功率谱估计以及第二步中瞬态噪声功率谱估计值得到总的噪声功率谱估计值,即:
令 分别表示先验信噪比和后验信噪比,则语音存在时的增益函数表示如下:
其中,
令G*(k,l)为含噪信号的频谱增益,根据式(12)得到最终的频谱增益函数。然后利用该频谱增益函数修正含噪信号的幅度谱,得到增强后的幅度谱
由于人耳对相位信息不敏感,因此,将增强后的幅度谱与含噪信号的相位谱结合,并经傅立叶反变换,加合成窗及重叠相加操作,得到增强后的语音信号。
本发明技术方案带来的有益效果:
为了说明本发明技术的有效性,使用两种指标对本房名进行了性能评估,这两种指标分别为分段信噪比SNRSeg和分段对数谱失真测度LSDSeg。分段信噪比计算方法如式(44)所示。
分段对数谱失真测度的方法如式(45)所示:
其中,X为原始语音的短时傅里叶变换,为待测语音的短时傅里叶变换,Nt为待测语音帧的帧数,TX定义如下:
TX(k,l)=max{|X(k,l)2,δ}; (46)
本发明中用到的具体参数设定如表1所示。这里将本发明技术方案与R.Talmon,I.Cohen,and S.Gannot在论文“Transient noise reduction using nonlocal diffusionfilters”(IEEE Trans.on Audio,Speech and Language Processing,2011,19(6):1584-1599)中提出的技术进行了比较,其中分段信噪比和分段谱失真测度的结果见表2与表3,语谱图的例子见图7~图10。由表2可见,本技术方案在三种不同的输入信噪比下,其分段信噪比的提高量均要高于R.Talmon,I.Cohen,and S.Gannot在论文“Transient noisereduction using nonlocal diffusion filters”(IEEE Trans.on Audio,Speech andLanguage Processing,2011,19(6):1584-1599)中提出的技术;由表3可知,本技术方案的分段谱失真要小于R.Talmon,I.Cohen,and S.Gannot在论文“Transient noise reductionusing nonlocal diffusion filters”(IEEE Trans.on Audio,Speech and LanguageProcessing,2011,19(6):1584-1599)中提出的技术,说明在频域失真方面,该方案的性能要优于基于NL-LSA的技术方案;图7是一个不含瞬态噪声语音的语谱图例子,图8是在图7的语音中混入瞬态噪声后的语谱图,图9是用R.Talmon,I.Cohen,and S.Gannot在论文“Transient noise reduction using nonlocal diffusion filters”(IEEE Trans.onAudio,Speech and Language Processing,2011,19(6):1584-1599)中提出的技术的处理图8语音的结果,由图9可以看出,R.Talmon,I.Cohen,and S.Gannot在论文“Transientnoise reduction using nonlocal diffusion filters”(IEEE Trans.on Audio.Speechand Language Processing,2011,19(6):1584-1599)中提出的技术的处理结果存在明显的瞬态噪声残留,这主要是因为瞬态信号通过逆滤波器后存在衰减,以及估计瞬态信号值时作了近似假设造成的。图10是用本发明方法处理图8语音的结果,由图10可以看出,本发明处理后的瞬态噪声谱残留要少很多,对语音谱的损伤也较小。
表1 本发明具体的参数设定
表2瞬态噪声抑制效果客观评价(SNRseg)
表3瞬态噪声抑制效果客观评价(LSDSeg)
本发明涉及到的缩略语和关键术语定义
LSD:Log-spectrum Distortion,对数谱失真。
MCRA:Minima Controlled Recursive Averaging,最小控制递归平滑。
MMCRA:Modified Minima Controlled Recursive Averaging,改进最小控制递归平滑。
NL filters:Non-Local filters,非局部扩散滤波器。
OM-LSA:Optimally Modified Log Spectral Amplitude Estimator,最优修正对数谱幅度估计。
PSD:Power Spectral Density,功率谱密度。
STFT:Short Time Fourier Transform,短时傅立叶变换。
SNR:Signal Noise Ratio,信噪比。
Claims (2)
1.一种基于谱估计的瞬态噪声抑制方法,其特征在于:包括以下几步:
第一步:基于改进的最小控制递归平滑的非瞬态背景噪声功率谱估计;
第二步:基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计;
第三步:基于非瞬态背景噪声功率谱估计、最优修正对数谱幅度估计及瞬态噪声谱估计的语音噪声功率谱抑制;
基于改进的最小控制递归平滑的非瞬态背景噪声谱估计步骤如下:
(1)定义纯净语音信号为x(n),加性噪声为d(n),观测信号为y(n),
y(n)=x(n)+d(n),
对观测信号y(n)进行加窗分帧操作,并进行短时傅立叶变换:
其中,n为时域索引,n=0,1,…,N-1,k为频率索引,k=0,1,…,N-1,l为时域帧的索引,h(n)为窗函数,N为帧长,256≤N≤2048,也是窗口宽度,M为帧移,0.25N≤M≤0.75N;
(2)短时功率谱平滑
对于不存在语音的观测信号帧,用短时递归平滑法来平滑时变噪声功率谱
其中,H0(k,l)和H1(k,l)分别表示无音和有音两种状态,αd为平滑参数,αd的取值范围是0<αd<1;设条件语音存在概率为
p'(k,l)=P(H1(k,l)|Y(k,l)),
则非瞬态背景噪声功率谱估计为:
其中,是个时变的平滑的参数,其定义式为:
因此,通过平滑当前帧以前的功率谱值获得噪声的功率谱估计,而平滑参数由条件语音存在概率p'(k,l)控制;
(3)条件语音存在概率计算
最小控制递归平滑方法基于噪声信号能量的局部统计来追踪条件语音存在概率,通过计算当前帧各频点能量与该频点的局部最小值之间的比值,进行有音/无音判决;
①通过对短时傅立叶变换幅值的平方加窗来平滑带噪语音信号的功率谱;
式中,b(i)为长为2w+1的窗函数;
②通过一阶递归平均来进一步平滑功率谱;
S(k,l)=αsS(k,l-1)+(1-αs)Sf(k,l),
其中,αs为平滑参数,αs的取值范围是0<αs<1;当前能量的最小值Smin(k,l)通过后向最小值搜索得到,具体如下:
Smin(k,l)=min{S(k,l),S(k,l-1),...,S(k,l-L+1)},
其中,min{·}表示搜索最小值,L为后向局部搜索窗的长度,针对于不同的说话人及说话环境,该搜索窗的效时间长度为0.5~1.5秒;
③条件语音存在概率估计
定义为含噪信号局部能量与其最小值的比值;则通过与经验阈值δ的比较进行有音/无音判决:
当Sr(k,l)>δ时,标记当前频点为有音;否则,当Sr(k,l)<δ时,标记当前频点为无音;定义I(k,l)为语音存在指示器;
则条件语音存在概率的估计为:
其中,αp为平滑参数,αp的取值范围是0<αp<1;将估计的代入式(23),计 算时变平滑参数进而能估计非瞬态背景噪声功率谱
基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计如下:
(1)相对于瞬态噪声,语音信号和背景噪声的功率谱变化较慢,在该步骤中将瞬态噪声视为信号,而将语音和背景噪声非瞬态成分视为噪声,对最小控制递归平滑方法进行改进,通过计算瞬态噪声出现概率来控制非瞬态成分功率谱的递归平滑,使其能够估计观测信号中非瞬态成分的时变功率谱;
首先,通过对频谱幅度的平方|Y(k,l)|2进行一阶递归平均,得到平滑后的功率谱;
S(k,l)=αsS(k,l-1)+(1-αs)|Y(k,l)|2,
其中,αs为用于控制对功率谱快速追踪的平滑参数,αs越小,当前帧的权重越大,则能够捕获语音或者背景噪声的快速变化,αs取值范围是0.65<αs<0.95;瞬态噪声出现概率由平滑后功率谱的局部最小值控制,采用最小控制递归平滑方法,使用局部因果窗来前向搜索最小功率值,能够检测出大部分语音和背景噪声部分;但是,语音音素的起音点处同样具有突发性,如果只采用前向搜索窗计算最小功率值,语音起音点将被错误地判断为瞬态信号,造成后续语音噪声抑制的失真;这里,将未来的时间帧考虑在内,来分辨瞬态噪声和语音起音点,因为瞬态噪声由一个强脉冲和一段短时衰减振荡组成,因此瞬态噪声的能量会迅速衰减,而起音点之后的语音能量在该音素内会保持平稳,因此,在搜索最小功率值时,同时采用了前向因果窗和后向非因果窗进行搜索,具体如下:
其中,min{·}表示搜索最小值,max{·}表示搜索最大值,L和T分别为前向因果窗和后向非因果窗的长度;该搜索方法避免了语音音素起音点的误判问题;然后,用与最小控制递归平滑中条件语音存在概率估计相同的方法,估计瞬态噪声出现概率,根据瞬态噪声出现概率估计值计算用于非瞬态成分功率谱平滑的时变参数并利用式(34)递归地估计语音及背景噪声的功率谱
(2)瞬态噪声谱估计
将瞬态噪声作为要进行增强的信号,首先估计的非瞬态成分功率谱作为噪声的功率谱,用于计算瞬态噪声的后验信噪比γt;
令Gf(k,l)为估计瞬态噪声功率谱的最优频谱增益,则根据式该最优频谱增益为:
式中,vt(k,l)=γt(k,l)ξt(k,l)/[1+ξt(k,l)],Gmin为瞬态噪声不存在时的频谱增益,ξt(k,l)表示瞬态噪声的先验信噪比,其估计方法如下:
其中,为有音段的状态增益函数,αt为权重因子,αt的取值范围是0<αt<1,用来控制非瞬态成分消除与瞬态噪声失真之间的取舍;最终通过最优频谱增益估计值Gf(k,l)与含噪语音幅度谱的平方相乘,得到增强后的瞬态信号功率谱估计
在这一过程中,将瞬态噪声视为信号,而将语音和其他背景噪声视为噪声,利用瞬态噪声的突变性,实现对非瞬态成分功率谱的平滑与跟踪;再利用最优修正对数谱幅度估计方法计算瞬态噪声的功率谱估计。
2.根据权利要求1所述的一种基于谱估计的瞬态噪声抑制方法,其特征在于:基于最优修正对数谱幅度估计及瞬态噪声功率谱估计的语音噪声抑制的方法如下:
根据式(22)噪声功率谱估计值及式(39)瞬态噪声功率谱估计值得到总的噪声功率谱估计值
令分别表示先验信噪比和后验信噪比,其中λx(k,l)=E[|X(k,l)|2]|H1(k,l),表示有音信号的状态,X(k,l)表示纯净语音信号x(n)的短时傅里叶变换,则语音存在时的增益函数表示如下:
其中,
令G*(k,l)为含噪信号的频谱增益,根据式得到最终的频谱增益函数;然后利用该频谱增益函数修正含噪信号的幅度谱,得到增强后的幅度谱
由于人耳对相位信息不敏感,因此,将增强后的幅度谱与含噪信号的相位谱结合,并经傅立叶反变换,加合成窗及重叠相加操作,得到增强后的语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310383122.9A CN103456310B (zh) | 2013-08-28 | 2013-08-28 | 一种基于谱估计的瞬态噪声抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310383122.9A CN103456310B (zh) | 2013-08-28 | 2013-08-28 | 一种基于谱估计的瞬态噪声抑制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103456310A CN103456310A (zh) | 2013-12-18 |
CN103456310B true CN103456310B (zh) | 2017-02-22 |
Family
ID=49738607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310383122.9A Expired - Fee Related CN103456310B (zh) | 2013-08-28 | 2013-08-28 | 一种基于谱估计的瞬态噪声抑制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103456310B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230352036A1 (en) * | 2021-01-22 | 2023-11-02 | Google Llc | Trained generative model speech coding |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103811017B (zh) * | 2014-01-16 | 2016-05-18 | 浙江工业大学 | 一种基于Welch法的冲床噪声功率谱估计改进方法 |
US9721580B2 (en) * | 2014-03-31 | 2017-08-01 | Google Inc. | Situation dependent transient suppression |
CN105225673B (zh) * | 2014-06-09 | 2020-12-04 | 杜比实验室特许公司 | 用于噪声水平估计的方法、***和介质 |
CN104269180B (zh) * | 2014-09-29 | 2018-04-13 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN105702262A (zh) * | 2014-11-28 | 2016-06-22 | 上海航空电器有限公司 | 一种头戴式双麦克风语音增强方法 |
CN104599677B (zh) * | 2014-12-29 | 2018-03-09 | 中国科学院上海高等研究院 | 基于语音重建的瞬态噪声抑制方法 |
CN105989843A (zh) * | 2015-01-28 | 2016-10-05 | 中兴通讯股份有限公司 | 一种实现缺失特征重建的方法和装置 |
CN105118522B (zh) * | 2015-08-27 | 2021-02-12 | 广州市百果园网络科技有限公司 | 噪声检测方法及装置 |
DK3185587T3 (da) * | 2015-12-23 | 2019-06-24 | Gn Hearing As | Høreanordning med undertrykkelse af lydimpulser |
CN105635453B (zh) * | 2015-12-28 | 2020-12-29 | 上海博泰悦臻网络技术服务有限公司 | 一种通话音量自动调节方法、***、车载设备及汽车 |
CN106098077B (zh) * | 2016-07-28 | 2023-05-05 | 浙江诺尔康神经电子科技股份有限公司 | 一种带降噪的人工耳蜗言语处理***及方法 |
CN106782497B (zh) * | 2016-11-30 | 2020-02-07 | 天津大学 | 一种基于便携式智能终端的智能语音降噪算法 |
CN107292046B (zh) * | 2017-07-03 | 2019-12-03 | 西南交通大学 | 一种减振降噪效果的检验方法及装置 |
CN107731242B (zh) * | 2017-09-26 | 2020-09-04 | 桂林电子科技大学 | 一种广义最大后验的谱幅度估计的增益函数语音增强方法 |
CN108922554B (zh) * | 2018-06-04 | 2022-08-23 | 南京信息工程大学 | 基于对数谱估计的lcmv频率不变波束形成语音增强算法 |
CN108735229B (zh) * | 2018-06-12 | 2020-06-19 | 华南理工大学 | 基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法 |
CN108899043A (zh) * | 2018-06-15 | 2018-11-27 | 深圳市康健助力科技有限公司 | 数字助听器瞬时噪声抑制算法的研究及实现 |
CN108848435B (zh) * | 2018-09-28 | 2021-03-09 | 广州方硅信息技术有限公司 | 一种音频信号的处理方法和相关装置 |
CN109616139B (zh) * | 2018-12-25 | 2023-11-03 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN109961799A (zh) * | 2019-01-31 | 2019-07-02 | 杭州惠耳听力技术设备有限公司 | 一种基于迭代维纳滤波的助听器多通道语音增强算法 |
CN110412366B (zh) * | 2019-06-04 | 2021-06-22 | 广西电网有限责任公司电力科学研究院 | 一种基于动态时间算法的变压器带电检测方法 |
CN110136738A (zh) * | 2019-06-13 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 噪声估计方法及装置 |
CN110739005B (zh) * | 2019-10-28 | 2022-02-01 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN111341347B (zh) * | 2020-03-11 | 2023-07-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法及相关设备 |
CN111899752B (zh) * | 2020-07-13 | 2023-01-10 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN111968659B (zh) * | 2020-07-23 | 2023-10-31 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN111933165A (zh) * | 2020-07-30 | 2020-11-13 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 突变噪声快速估计方法 |
CN111986694B (zh) * | 2020-09-01 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于瞬态噪声抑制的音频处理方法、装置、设备及介质 |
CN113611319B (zh) * | 2021-04-07 | 2023-09-12 | 珠海市杰理科技股份有限公司 | 基于语音成分实现的风噪抑制方法、装置、设备及*** |
CN113241089B (zh) * | 2021-04-16 | 2024-02-23 | 维沃移动通信有限公司 | 语音信号增强方法、装置及电子设备 |
CN113257268B (zh) * | 2021-07-02 | 2021-09-17 | 成都启英泰伦科技有限公司 | 结合频率跟踪和频谱修正的降噪和单频干扰抑制方法 |
CN114006671A (zh) * | 2021-11-01 | 2022-02-01 | 北京万测科技有限公司 | 一种广播发射机噪声在线测量方法及装置、存储介质 |
CN115881155A (zh) * | 2022-12-02 | 2023-03-31 | 宁波硕正电子科技有限公司 | 一种瞬态噪声抑制方法、装置、设备及存储介质 |
CN115798514B (zh) * | 2023-02-06 | 2023-04-21 | 成都启英泰伦科技有限公司 | 一种敲击声检测方法 |
CN115954012B (zh) * | 2023-03-03 | 2023-05-09 | 成都启英泰伦科技有限公司 | 一种周期性瞬态干扰事件检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808570A (zh) * | 2004-12-08 | 2006-07-26 | 哈曼贝克自动***-威美科公司 | 抑制雨噪声的*** |
US7869994B2 (en) * | 2007-01-30 | 2011-01-11 | Qnx Software Systems Co. | Transient noise removal system using wavelets |
CN102341847A (zh) * | 2009-01-30 | 2012-02-01 | 弗劳恩霍夫应用研究促进协会 | 用于操纵包括暂态事件的音频信号的装置、方法和计算机程序 |
CN102436820A (zh) * | 2010-09-29 | 2012-05-02 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
-
2013
- 2013-08-28 CN CN201310383122.9A patent/CN103456310B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808570A (zh) * | 2004-12-08 | 2006-07-26 | 哈曼贝克自动***-威美科公司 | 抑制雨噪声的*** |
US7869994B2 (en) * | 2007-01-30 | 2011-01-11 | Qnx Software Systems Co. | Transient noise removal system using wavelets |
CN102341847A (zh) * | 2009-01-30 | 2012-02-01 | 弗劳恩霍夫应用研究促进协会 | 用于操纵包括暂态事件的音频信号的装置、方法和计算机程序 |
CN102436820A (zh) * | 2010-09-29 | 2012-05-02 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230352036A1 (en) * | 2021-01-22 | 2023-11-02 | Google Llc | Trained generative model speech coding |
Also Published As
Publication number | Publication date |
---|---|
CN103456310A (zh) | 2013-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
Gerkmann et al. | Noise power estimation based on the probability of speech presence | |
Cohen et al. | Speech enhancement for non-stationary noise environments | |
Davis et al. | Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold | |
US11804234B2 (en) | Method for enhancing telephone speech signals based on Convolutional Neural Networks | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
CN111292758B (zh) | 语音活动检测方法及装置、可读存储介质 | |
Zhang et al. | A novel fast nonstationary noise tracking approach based on MMSE spectral power estimator | |
Braun et al. | Late reverberation PSD estimation for single-channel dereverberation using relative convolutive transfer functions | |
Kim et al. | Improved speech enhancement considering speech PSD uncertainty | |
Park et al. | Frequency domain acoustic echo suppression based on soft decision | |
CN112201269B (zh) | 基于改进噪声估计的mmse-lsa语音增强方法 | |
Lee et al. | Minima-controlled speech presence uncertainty tracking method for speech enhancement | |
Tashev et al. | Unified framework for single channel speech enhancement | |
KR100901367B1 (ko) | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 | |
EP1635331A1 (en) | Method for estimating a signal to noise ratio | |
Kum et al. | Speech enhancement based on minima controlled recursive averaging incorporating conditional maximum a posteriori criterion | |
Yong et al. | Noise estimation with lowcomplexity for speech enhancement | |
Son et al. | Improved speech absence probability estimation based on environmental noise classification | |
Feng et al. | Noise power spectrum estimation based on weak speech protection for speech enhancement | |
Choi et al. | A two-channel noise estimator for speech enhancement in a highly nonstationary environment | |
Yong et al. | Real time noise suppression in social settings comprising a mixture of non-stationary anc transient noise | |
Xia et al. | A modified spectral subtraction method for speech enhancement based on masking property of human auditory system | |
Singh et al. | Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement | |
Zavarehei et al. | Speech enhancement using Kalman filters for restoration of short-time DFT trajectories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170222 |