CN1969320A - 噪声抑制装置及噪声抑制方法 - Google Patents
噪声抑制装置及噪声抑制方法 Download PDFInfo
- Publication number
- CN1969320A CN1969320A CN200580020128.3A CN200580020128A CN1969320A CN 1969320 A CN1969320 A CN 1969320A CN 200580020128 A CN200580020128 A CN 200580020128A CN 1969320 A CN1969320 A CN 1969320A
- Authority
- CN
- China
- Prior art keywords
- noise
- spectrum
- unit
- power spectrum
- pitch harmonics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 185
- 239000000284 extract Substances 0.000 claims abstract description 36
- 230000008439 repair process Effects 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims description 38
- 230000020509 sex determination Effects 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012935 Averaging Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 abstract description 18
- 238000001514 detection method Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 description 7
- 230000033228 biological regulation Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 206010038743 Restlessness Diseases 0.000 description 3
- 206010019133 Hangover Diseases 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Abstract
公开了能够在减少语音失真的同时,提高噪声抑制精确度的噪声抑制装置。在该装置中,抑制单元利用包含了噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果,从语音功率频谱抑制噪声分量。音调谐波构造提取单元(105)从语音功率频谱中提取音调谐波功率频谱。有声性判定单元(106)基于提取出的音调谐波功率频谱,判定语音功率频谱的有声性。音调谐波构造修复单元(108)修复所提取出的音调谐波功率频谱。每频带有声/噪声修正单元(109)在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中,基于有声性判定单元(106)的判定结果所选择的音调谐波功率频谱,修正检测结果。
Description
技术领域
本发明涉及噪声抑制装置及噪声抑制方法,特别涉及用于语音通信装置及语音识别装置而抑制背景噪声的噪声抑制装置及噪声抑制方法。
背景技术
通常,低比特率语音编码装置对于没有背景噪声的语音,可以提供高质量的语音通话,但对于含有背景噪声的语音,会产生低比特率编码特有的刺耳的失真,而带来音质的恶化。
作为用于对付这样的音质恶化而施行的噪声抑制/语音强调技术,比如有频谱减少法(以下,称为“SS法”)等。
SS法中,在无声区间估计噪声分量的性质。然后,通过从含有噪声分量的语音信号的短时功率频谱(以下,称为“语音功率频谱”)减去噪声分量的短时功率频谱,或通过对该语音功率频谱乘以衰减系数,而生成抑制了噪声分量的语音功率频谱(例如,参照非专利文献1)。
又,SS法中,将估计出的噪声分量的频谱特性视为是稳定的,作为基底噪声从语音功率频谱中被均一地减去。但是,实际上噪声分量的频谱特性并不是稳定的,所以减去基底噪声后的残留噪声,特别是由于语音音调之间的残留噪声,会产生称为乐音噪声的不自然的失真。
作为用于抑制这种乐音噪声的现有的噪声抑制方法,有人提出使用基于语音功率与噪声功率之比值(SNR)的衰减系数进行乘法运算的手法(例如,参照专利文献1及专利文献2)等。根据这个方法,将语音相对较大的频带(SNR较高的频带)及噪声相对较大的频带(SNR较低的频带)相互区别开来,使用不同的衰减系数。
专利文献1:日本专利公报2714656号
专利文献1:日本专利公表公报特表平10-513030号
非专利文献1:″Suppression of acoustic noise in speech using spectralsubtraction″,Boll,IEEE Trans.Acoustics,Speech,and Signal Processing,vol.ASSP-27,pp.113-120,1979
发明内容
发明需要解决的问题
但是,上述现有的噪声抑制方法中,虽然利用SNR区别声音频带和噪声频带,但特别是当噪声分量的频谱特性不稳定的时候,不能够高精度地进行所述区别,即,语音失真的减少和噪声抑制的精确度存在一定的限度。
因此,本发明的目的是,提供一种能够减在少语音失真的同时,提高噪声抑制精确度的噪声抑制装置及噪声抑制方法。
解决该问题的方案
本发明的噪声抑制装置包括:抑制单元,利用含有了噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果,抑制所述语音功率频谱中的噪声分量;提取单元,从所述语音功率频谱中提取音调谐波功率频谱;有声性判定单元,根据提取出的音调谐波功率频谱,判定所述语音功率频谱的有声性;修复单元,修复提取出的音调谐波功率频谱;以及修正单元,在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中,基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱,修正所述检测结果。
本发明的噪声抑制方法为一种利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果,从所述语音功率频谱抑制所述噪声分量的噪声抑制方法,包括:提取步骤,从所述语音功率频谱中提取音调谐波功率频谱;有声性判定步骤,根据提取出的音调谐波功率频谱,判定所述语音功率频谱的有声性;修复步骤,修复提取出的音调谐波功率频谱;以及修正步骤,在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中,基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱,修正所述检测结果。
本发明的噪声抑制程序为一种利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果,抑制所述语音功率频谱中的噪声分量的噪声抑制程序,该程序使计算机实现:提取步骤,从所述语音功率频谱中提取音调谐波功率频谱;有声性判定步骤,根据提取出的音调谐波功率频谱,判定所述语音功率频谱的有声性;修复步骤,修复提取出的音调谐波功率频谱;以及修正步骤,在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中,基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱,修正所述检测结果。
发明的有益效果
根据本发明,能够在减少语音失真的同时,提高噪声抑制精确度。
附图说明
图1是表示本发明实施方式1的噪声抑制装置的结构的方框图
图2A是表示有声频带及噪声频带的检测结果的图
图2B是表示音调(pitch)谐波功率频谱的提取结果的图
图2C是表示音调谐波的峰值的提取结果的图
图2D是表示音调谐波功率频谱的修复结果的图
图2E是表示图2A所示的检测结果的修正结果的图
图3是表示本发明实施方式2的噪声抑制装置的结构的方框图
图4是表示本发明实施方式3的噪声抑制装置的结构的方框图
图5是表示本发明实施方式4的噪声抑制装置的结构的方框图
图6是说明本发明实施方式4的噪声抑制装置中的操作的流程图
具体实施方式
以下,参照附图对本发明的实施方式进行详细说明。
(实施方式1)
图1是表示根据本发明实施方式1的噪声抑制装置的结构的方框图。本实施方式的噪声抑制装置100包括开窗单元101、FFT(Fast Fourier Transform)单元102、基底噪声估计单元103、频带有声/噪声检测单元104、音调谐波构造提取单元105、有声性判定单元106、音调频率估计单元107、音调谐波构造修复单元108、每频带有声/噪声修正单元109、减法/衰减系数计算单元110、乘法单元111以及IFFT(Inverse Fast Fourier Transform)单元112。
开窗单元101,将含有噪声分量的输入语音信号分割为规定的时间单位的帧单位,并对这种帧进行利用汉宁窗(Hanning Window)等的开窗处理,并输出到FFT单元102。
FFT单元102,对于从开窗单元101输入的帧,即分割为帧单位的语音信号进行FFT,将语音信号变换到频域。由此,得到语音功率频谱。而帧单位的语音信号成为具有规定的频带的语音功率频谱。由此从帧所生成的语音功率频谱输出到基底噪声估计单元103、频带有声/噪声检测单元104、音调谐波构造提取单元105、音调频率估计单元107、减法/衰减系数计算单元110以及乘法单元111。
基底噪声估计单元103,根据输入的语音功率频谱估计只含有噪声分量的信号的频率振幅频谱,即基底噪声。估计出的基底噪声输出到频带有声/噪声检测单元104、音调谐波构造提取单元105、有声性判定单元106、音调频率估计单元107以及减法/衰减系数计算单元110。
另外,基底噪声估计单元103,在语音功率频谱的频带的各频率分量中,对于基于来自FFT112的最新帧所生成的语音功率频谱及根据基于之前的帧所生成的语音功率频谱所估计出的基底噪声进行比较。然后,根据比较结果,当两者的功率差超过事先规定的阈值时,判定最新帧含有语音分量而不进行基底噪声的估计。而当此差值不超过上述阈值时,判定最新帧不含有语音分量而进行基底噪声的更新。
每频带有声/噪声检测单元104,基于来自FFT单元102的语音功率频谱及基底噪声估计单元103的基底噪声,检测出语音功率频谱中的有声频带及噪声频带。检测结果输出到每频带有声/噪声修正单元109。
音调谐波构造提取单元105,基于从FFT单元102的语音功率频谱及基底噪声估计单元103的基底噪声,从语音功率频谱中提取音调谐波构造,即音调谐波功率频谱。提取出的音调谐波功率频谱输出到有声性判定单元106及音调谐波构造修复单元108。
有声性判定单元106,基于来自基底噪声估计单元103的基底噪声及来自音调谐波构造提取单元105的音调谐波功率频谱,判定语音功率频谱的有声性。判定结果输出到音调频率估计单元107及音调谐波构造修复单元108。
音调频率估计单元107,基于来自FFT单元102的语音功率频谱及来自基底噪声估计单元103的基底噪声,估计语音功率频谱的音调频率。另外,根据有声性判定单元106的判定结果,当语音功率频谱的有声性为规定水平以下时,不进行音调频率估计。估计结果输出到音调谐波构造修复单元108。
音调谐波构造修复单元108,基于来自音调谐波构造提取单元105的音调谐波功率频谱及来自音调频率估计单元107的估计结果,修复音调谐波构造,即音调谐波功率频谱。另外,在有声性判定单元106的判定结果是,语音功率频谱的有声性为规定水平以下时,不进行音调谐波功率频谱的修复。经修复的音调谐波功率频谱输出到每频带有声/噪声修正单元109。
每频带有声/噪声修正单元109,根据经音调谐波构造修复单元108修复的音调谐波功率频谱及由音调谐波构造提取单元105提取出的音调谐波功率频谱中,依据有声性判定单元106的判定结果所选择的音调谐波功率频谱,修正检测结果。例如,根据有声性判定的结果,当判定语音功率频谱的有声性为规定水平以下时,选择提取出的音调谐波功率频谱。此时,通过组合来自音调谐波构造提取单元105的音调谐波功率频谱及来自每频带有声/噪声检测单元104的检测结果,来修正检测结果。而当判定语音功率频谱的有声性高于规定水平时,选择经修复的音调谐波功率频谱。此时,每频带有声/噪声修正单元109通过组合来自音调谐波构造修复单元108的音调谐波功率频谱及来自每频带有声/噪声检测单元104的检测结果,来修正检测结果。经修正的检测结果输出到减法/衰减系数计算单元110。
减法/衰减系数计算单元110,基于来自FFT单元102的语音功率频谱、来自基底噪声估计单元103的基底噪声以及来自每频带有声/噪声修正单元109的检测结果,计算减法/衰减系数。计算出的减法/衰减系数输出到乘法单元111。
乘法单元111,将来自FFT单元102的语音功率频谱中的有声频带及噪声频带,乘上来自减法/衰减系数计算单元110的减法/衰减系数。由此,得到抑制了噪声分量的语音功率频谱。此乘法运算结果输出到IFFT单元112。
换言之,减法/衰减系数计算单元110及乘法单元111的组合构成利用包含噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果从语音功率频谱抑制噪声分量的抑制单元。
IFFT单元112,对于作为来自乘法单元111的乘法运算结果的语音功率频谱进行IFFT。由此,基于抑制了噪声分量的语音功率频谱生成语音信号。
以下,对具有上述结构的噪声抑制装置100的操作进行说明。图2A~图2E是为了说明有声频带及噪声频带的检测结果的修正操作的图。
首先,在FFT单元102中,取得语音功率频谱SF(k)。语音功率频谱SF(k)可以用下面的算式(1)来表示。
【数1】
这里,k表示指定语音功率频谱的频带的频率分量的号码。HB为FFT变换长度,即进行高速傅立叶变换的对象的数据数目,例如HB=512。Re{DF(k)}及Im{DF(k)}分别表示FFT变换后的语音功率频谱DF(k)的实部和虚部。另外,在算式(1)中使用了平方根,但不使用平方根也可以计算出SF(k)。
接着,在基底噪声估计单元103中,利用算式(2)进行基于语音功率频谱SF(k)的基底噪声NB(N,k)的估计。
【数2】
其中,N表示帧号码。又,NB(N-1,k)为在前一帧中的基底噪声的估计值。α为基底噪声的移动平均系数,ΘB为辨别语音分量及噪声分量的阈值。
接着,在每频带有声/噪声检测单元104中,如图2A所示,基于语音功率频谱SF(k)及基底噪声NB(N,k),检测出语音功率频谱SF(k)中的有声频带及噪声频带。有声频带及噪声频带的检测结果SN(k)通过使用了算式(3)的计算而得到。如果通过计算所得的差大于零,则判定为含有语音分量的语音频带。如果差为零以下,则判定为不含有语音分量的噪声频带。其中,γ1为常数。
【数3】
接着,在音调谐波构造提取单元105中,如图2B所示,基于语音功率频谱SF(k)及基底噪声NB(N,k),提取音调谐波功率频谱HM(k)。音调谐波功率频谱HM(k)通过使用了算式(4)的计算而提取出来。其中,γ2为满足γ2>γ1的常数。
【数4】
接着,在有声性判定单元106中,基于基底噪声NB(n,k)及音调谐波功率频谱HM(k),判定语音功率频谱SF(k)的有声性。在本实施方式中,将语音功率频谱SF(k)的频带(1~HB/2)中的特定的频带(1~HP)作为有声性判定的对象频带。即,HP为判定对象频带内的上限的频率分量。
将频带(1~HB/2)三分为低频、中频、高频,将各频带作为特定的频带进行有声性判定则更好。或者,采用将频带(1~HB/2)二分为低频及高频,将各频带作为特定的频带进行有声性判定的结构亦可。如此,通过在分割频带而得到的各个频带中进行有声性判定,能够将在高质量地提取到音调谐波功率频谱HM(k)的频带与并非如此的频带中是否进行音调谐波功率频谱HM(k)的修复分开。
另外,当有声性判定单元106采用如下结构时,即基于分割频带而得到的各频带的有声性判定结果,识别原来的语音为辅音还是元音时,能够根据辅音或元音而决定是否进行音调谐波功率频谱HM(k)的修复。
特定的频带的有声性判定通过使用算式(5)计算对应于音调谐波功率频谱HM(k)中的特定频率部分的功率总和值与对应于基底噪声NB(N,k)中的特定频率部分的功率总和值之比而得到。根据此判定结果,当特定的频带的有声性高于规定水平时,进行后述的音调频率估计及音调谐波构造修复。
【数5】
另一方面,当特定的频带的有声性为规定水平以下时,不进行音调频率估计及音调谐波构造修复。此时,在每频带有声/噪声修正单元109中,基于提取出的音调谐波功率频谱HM(k),修正语音功率频谱SF(k)中的有声频带及噪声频带的检测结果SN(k)中对应于特定频带的部分。换言之,不进行基于经修复的音调谐波功率频谱HM(k)的、对检测结果SN(k)中对应于特定频带的部分的修正。因此,可以有选择性地使用高精度的音调谐波功率频谱HM(k),显著提高有声频带及噪声频带的检测精确度。
另外,在以下的说明中,设想特定的频带的有声性高于规定水平的情况。
在音调频率估计单元107,利用算式(6),从对应于语音功率频谱SF(k)中的特定频带的部分中,减去对应于基底噪声NB(n,k)中的特定频带的部分的β倍。接着,利用算式(7)计算减法运算结果QF(k)的自相关函数RP(m)。然后,将对应于自相关函数RP(m)的最大值的m作为音调频率。
【数6】
QF(k)=SF(k)-β·NB(m,k)1≤k≤HM…(6)
【数7】
接着,在音调谐波构造修复单元108中,修复音调谐波功率频谱HM(k)中对应于特定频带的部分。更具体而言,当特定的频带的有声性被判定为高于规定水平时,按下面的步骤进行修复。
第一,如图2C所示,提取音调谐波功率频谱HM(k)中的音调谐波的峰值(p1~p5、p9~p12)。另外,音调谐波峰值的提取也可以只针对特定的频带而进行。第二,计算提取出的峰值的间隔。计算出的间隔超过规定的阈值(例如,音调频率的1.5倍)时,如图2D所示,根据估计出的音调频率m,***音调谐波功率频谱HM(k)中所欠缺的峰值。这样,音调谐波功率频谱HM(k)得到修复。
接着,在每频带有声/噪声修正单元109中,如图2E所示,在检测结果SN(k)中,将与经修复的音调谐波功率频谱HM(k)重复的部分作为有声频带,而将不与经修复的音调谐波功率频谱HM(k)重复的部分作为噪声频带。如此来进行检测结果SN(k)的修正。
接着,在减法/衰减系数计算单元110中,基于语音功率频谱SF(k)及基底噪声NB(n,k),对经修正的检测结果SN(k)内的有声频带及噪声频带分别计算减法/衰减系数GC(k)。计算中使用下面的算式(8)。这里,μ为常数,又,gC为大于零且小于1的规定的常数。
【数8】
这样,根据本实施方式,因为基于音调谐波功率频谱HM(k)修正有声频带及噪声频带的检测结果SN(k),所以即使当噪声分量的频谱特性不稳定时,也能够以高精度进行有声频带及噪声频带的检测。其结果,能够对有声频带及噪声频带分别进行衰减程度相对较弱的减法运算处理及衰减程度相对较强的衰减处理。据此,即使增大衰减量,也能够在减少语音失真的同时,提高噪声抑制精确度。再者,根据本实施方式,根据提取出的音调谐波功率频谱HM(k)及经修复的音调谐波功率频谱HM(k)当中,依据语音功率频谱SF(k)的有声性的判定结果所选择的音调谐波功率频谱,修正检测结果SN(k),所以能够进一步提高检测结果SN(k)的精确度,进一步提高噪声抑制的精确度。
(实施方式2)
图3是表示根据本发明实施方式2的噪声抑制装置的结构的方框图。另外,在本实施方式中所说明的噪声抑制装置与在实施方式1中所说明的噪声抑制装置具有基本相同的结构,因此对相同或对应的结构单元赋予相同的参考符号,省略其详细说明。
图3所示的噪声抑制装置200的结构为除了具有实施方式1中所说明的噪声抑制装置100的结构单元,还具有语音/噪声帧判定单元201。
语音/噪声帧判定单元201,基于来自FFT单元102的语音功率频谱及来自基底噪声估计单元103的基底噪声,判定语音功率频谱所得到的帧为语音帧还是噪声帧。判定结果输出到有声性判定单元106及每频带有声/噪声修正单元109。
以下,对语音/噪声帧判定单元201的帧判定操作进行更加详细的说明。
在语音/噪声帧判定单元201中,首先,根据来自FFT部102的语音功率频谱SF(k)及来自基底噪声估计单元103的基底噪声NB(n,k),利用下面的算式(9)及算式(10)计算两个比值。两个比值中的一个为语音功率频谱SF(k)的频带中低频带上的语音功率与噪声功率之比SNRL,而另一个为语音功率频谱SF(k)的频带中全频带上的语音功率与噪声功率之比SNRF。其中,HL为上述低频带中的上限频率分量,HF为语音功率频谱SF(k)的频带中的上限频率分量。
【数9】
【数10】
接着,计算算出的两个比值SNRL、SNRF的相关值RLF(=SNRL·SNRL)。然后,利用下面的算式(11)进行帧判定。作为利用了算式(11)的帧判定的结果,生成帧信息SNF。帧信息SNF是表示作为判定对象的帧为语音帧还是噪声帧的信息。在算式(11)中,M为拖尾帧(Hang-over Frame)的数目。另外,当RLF为ΘSN以下的情况不持续M帧时,帧判定结果为语音帧。
【数11】
当判定对象的帧被判定为语音帧时,在有声性判定单元106及每频带有声/噪声修正单元109中,进行通常的操作(实施方式1中所说明的操作)。另一方面,当判定对象的帧被判定为噪声帧时,在有声性判定单元106中,强制性地判定从作为判定对象的帧所生成的语音功率频谱SF(k)的频带中的全频带的有声性为规定的水平以下。其结果,在每频带有声/噪声修正单元109中,将全频带视为噪声频带而进行修正。
这样,根据本实施方式,因为作为判定对象的帧被判定为噪声帧时,语音功率频谱SF(k)的全频带的有声性被判定为规定的水平以下,所以能够省去对噪声帧的不必要的检测结果SN(k)修正处理,能够减轻修正单元的负荷。
另外,根据本实施方式,因为计算语音功率频谱SF(k)的低频带上的功率比SNRL与语音功率频谱SF(k)的全频带上的功率比SNRF的相关值RLF,并基于此相关值RLF进行帧判定,所以除了能够强调低频带和全频带之间的相关性较高的语音分量的功率频谱,还能够降低相关性较低的噪声分量的功率频谱。其结果,能够提高帧判定的精确度。
(实施方式3)
图4是表示根据本发明实施方式3的噪声抑制装置的结构的方框图。另外,在本实施方式中所说明的噪声抑制装置与在实施方式1中所说明的噪声抑制装置具有基本相同的结构,因此对相同或对应的结构单元赋予相同的参考符号,省略其详细说明。
图4所示的噪声抑制装置300的结构为除了具有实施方式1中所说明的噪声抑制装置100的结构单元以外,还附加了减法/衰减系数平均处理单元301。
减法/衰减系数平均处理单元301对作为减法/衰减系数计算单元110的计算结果而得到的减法/衰减系数,在时域及频域分别进行平均化。经平均化的减法/衰减系数输出到乘法单元111。
换言之,在本实施方式中,减法/衰减系数计算单元110、减法/衰减系数平均处理单元301以及乘法单元111的组合构成利用含有噪声分量的语音功率频谱中的有声频带及噪声频带的检测结果而从语音功率频谱抑制噪声分量的抑制单元。
以下,对减法/衰减系数平均处理单元301的系数平均处理进行更加详细的说明。
首先,在减法/衰减系数平均处理单元301中,对于由减法/衰减系数计算单元110中的计算而得到的减法/衰减系数,利用算式(12)在时域进行平均化。其中,αF及αL为满足αF>αL关系的移动平均系数。
【数12】
另外,利用下面的算式(13),对减法/衰减系数在频域进行平均化。这里,KH-KL是作为平均化对象范围的频率分量的数目。
【数13】
接着,对于利用算式(12)而进行了时间平均处理的减法/衰减系数及利用算式(13)而进行了频率平均处理的减法/衰减系数进行比较,按照它们的大小关系,选择在乘法单元111中所使用的减法/衰减系数。例如,如算式(14)所示,当经时间平均处理的减法/衰减系数大于经频率平均处理的减法/衰减系数时,选择经时间平均处理的减法/衰减系数,否则选择经频率平均处理的减法/衰减系数。
【数14】
这样,根据本实施方式,因为对用于噪声抑制的减法/衰减系数进行时间平均处理,所以能够改善由于减法/衰减系数在时间轴上的急剧变化而产生的语音的不连续性,并减少随残留噪声的变动而生的语音失真。
再者,根据本实施方式,因为对用于噪声抑制的减法/衰减系数进行频率平均处理,所以能够降低在频率轴上的衰减量的不连续性,即使增大噪声衰减量也能够减少语音失真。
另外,本实施方式中所说明的减法/衰减系数平均处理单元301也可以应用于在实施方式2中所说明的噪声抑制装置200中。
(实施方式4)
图5是表示根据本发明实施方式4的噪声抑制装置的结构的方框图。另外,在本实施方式中所说明的噪声抑制装置与在实施方式1中所说明的噪声抑制装置具有基本相同的结构,因此对相同或对应的结构单元赋予相同的参考符号,省略其详细说明。
图5所示的噪声抑制装置400的结构为除了具有实施方式1中所说明的噪声抑制装置100的结构单元以外,还附加了死锁防止单元401。
噪声抑制单元400中的基底噪声估计单元103除了进行在实施方式1中所说明的操作外,还在噪声分量的水平急剧变化时,停止基底噪声的更新,即产生死锁(dead lock)状态。
死锁防止单元401具有计数器。计数器对应于语音功率频谱的频带中的频率分量设计而成,并对由基底噪声估计单元103估计出的基底噪声中相应的频率分量的功率持续地高于规定值的次数进行计数。死锁防止单元401基于所计的次数防止基底噪声估计单元103的基底噪声更新停止,即防止死锁状态。
以下,对于噪声抑制装置400中防止死锁状态的操作,利用图6进行详细说明。
首先,在步骤S1000,死锁防止单元401判定语音功率频谱SF(k)是否为基底噪声NB(n,k)的ΘB倍以下。根据判定结果,当语音功率频谱SF(k)为基底噪声NB(n,k)的ΘB倍以下时(S1000:YES),在基底噪声估计单元103中,进行通常的基底噪声估计(S1010)。接着,在步骤S1020中,将设在死锁防止单元401中的计数器所计的次数count(k)重设为零。然后,返回步骤S1000。
又,根据步骤S1000中的判定结果,当语音功率频谱SF(k)大于基底噪声NB(N,k)的ΘB倍时(S1000:“否”),计数器则计上次数count(k)(S1030)。接着,在步骤S1040中,死锁防止单元401将次数count(k)与规定的阈值比较。比较的结果,当次数count(k)大于阈值时(S1040:“是”),死锁防止单元401将含有相应的频率分量k的规定频带中的噪声功率频谱的最小值作为基底噪声NB(n,k)的更新值(S1050),利用这个更新值更新基底噪声(S1060)。然后,返回步骤S1000。另外,在步骤S1040中的比较结果是次数count(k)为阈值以下时(S1040:“否”),直接返回步骤S1000。
这样,当语音功率频谱SF(k)中的功率持续为规定值以上规定次数时,能够使用含有频率分量k的规定频带中的噪声功率频谱的功率最小值更新基底噪声NB(n,k),据此,无论是语音区间还是噪声区间都能够防止死锁状态。另外,上述规定频带设在音调谐波上的峰值之间则更好。这样,能够检测出噪声功率频谱的波谷,能够轻易的检测出作为更新值的噪声功率频谱的最小值。
另外,本实施方式中所说明的死锁防止单元401,也可以在实施方式2、3中所说明的噪声抑制装置200、300中使用。
另外,本发明可以采用各种各样的实施方式,并不只限于实施方式1~4中所说明的方式。例如,将上述的噪声抑制方法作为软件在计算机上实行亦可。即,将实行上述实施方式中所说明的噪声抑制方法的程序预先存储在比如ROM(Read Only Memory)等存储媒质中,通过CPU(Central Processor Unit)运行该程序,能够施行本发明的噪声抑制方法。
另外,用于上述各实施方式说明的各功能模块,典型地由集成电路LSI来实现。这些功能块既可以分别实行单芯片化,也可以包括其中一部分或者是全部而实行单芯片化。
这里,虽然称作LSI,但根据集成度的不同也可以称为IC(集成电路)、***LSI(***大规模集成电路)、超LSI(超大规模集成电路)、极大LSI(极大规模集成电路)。
另外,集成电路化的技术不仅限于LSI,也可以使用专用电路或通用处理器来实现。可利用在制造LSI后,可编程的FPGA(Field Programmable GateArray,现场可编程门阵列),或可重构LSI内部的电路单元的连接或设定的可重构处理器(Reconfigurable Processor)。
再有,如果随着半导体技术的进步或者其他技术的派生,出现了替换LSI集成电路的技术,当然,也可以利用该技术来实现功能模块的集成化。也有应用生物工程学技术等的可能性。
本说明书基于2004年6月18日申请的日本专利申请第2004-181454号。该全部内容包括在此作参考。
工业实用性
本发明的噪声抑制装置及噪声抑制方法具有在减少语音失真的同时,提高噪声抑制精确度的效果,可以适用于语音通信装置及语音识别装置等。
Claims (9)
1、一种噪声抑制装置,包括:
抑制单元,利用包含了噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果,从所述语音功率频谱抑制所述噪声分量;
提取单元,从所述语音功率频谱中提取音调谐波功率频谱;
有声性判定单元,基于提取出的音调谐波功率频谱,判定所述语音功率频谱的有声性;
修复单元,修复提取出的音调谐波功率频谱;以及
修正单元,在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中,基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱,修正所述检测结果。
2、根据权利要求1所述的噪声抑制装置,其中,
所述语音功率频谱具有规定的频带,
所述有声性判定单元,判定所述规定的频带中特定频带的有声性,
所述修正单元,在所述有声性判定单元的判定结果是所述特定频带的有声性为所述规定水平以上时,对于所述检测结果中对应于所述特定频带的部分,基于经修复的音调谐波功率频谱进行修正,而当所述特定频带的有声性为所述规定水平以下时,对于所述部分,基于提取出的音调谐波功率频谱进行修正。
3、根据权利要求2所述的噪声抑制装置,其中,
还包括:基底噪声估计单元,根据所述语音功率频谱估计出基底噪声,
所述有声性判定单元,基于提取出的音调谐波功率频谱中对应于所述特定频带的部分的功率总和值与估计出的基底噪声中对应于所述特定频带的部分的功率总和值的比值,判定所述特定频带的有声性。
4、根据权利要求2所述的噪声抑制装置,其中,
所述语音功率频谱从所输入的帧中得到,
还包括帧判定单元,判定所述帧为语音帧还是噪声帧,
所述有声性判定单元,在所述帧判定单元的判定结果是所述帧被判定为噪声帧时,判定为所述规定的频带中全频带的有声性在所述规定水平以下。
5、根据权利要求2所述的噪声抑制装置,其中,
所述抑制单元包括:
时间平均处理单元,对于从所述检测结果中得到的系数,在时域进行平均化;以及
乘法单元,将经平均化的所述系数乘以所述语音功率频谱。
6、根据权利要求2所述的噪声抑制装置,其中,
所述抑制单元包括:
频率平均处理单元,对于从所述检测结果中得到的系数,在频域进行平均化;以及
乘法单元,将经平均化的所述系数乘以所述语音功率频谱。
7、根据权利要求2所述的噪声抑制装置,其中包括:
更新停止单元,停止基底噪声的更新;以及
防止单元,当所述语音功率频谱中的所述规定的频带上的频率分量的功率持续为规定值以上规定次数时,防止所述更新停止单元停止基底噪声更新。
8、一种噪声抑制方法,利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果,从所述语音功率频谱抑制所述噪声分量,其特征在于,该方法包括:
提取步骤,从所述语音功率频谱中提取音调谐波功率频谱;
有声性判定步骤,基于提取出的音调谐波功率频谱,判定所述语音功率频谱的有声性;
修复步骤,修复提取出的音调谐波功率频谱;以及
修正步骤,在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱当中,基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱,修正所述检测结果。
9、一种噪声抑制程序,利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果,从所述语音功率频谱抑制所述噪声分量,该程序使计算机实现:
提取步骤,从所述语音功率频谱中提取音调谐波功率频谱;
有声性判定步骤,基于提取出的音调谐波功率频谱,判定所述语音功率频谱的有声性;
修复步骤,修复提取出的音调谐波功率频谱;以及
修正步骤,在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱当中,基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱,修正所述检测结果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP181454/2004 | 2004-06-18 | ||
JP2004181454 | 2004-06-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1969320A true CN1969320A (zh) | 2007-05-23 |
Family
ID=35509948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200580020128.3A Pending CN1969320A (zh) | 2004-06-18 | 2005-05-30 | 噪声抑制装置及噪声抑制方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080281589A1 (zh) |
EP (1) | EP1768108A4 (zh) |
JP (1) | JPWO2005124739A1 (zh) |
CN (1) | CN1969320A (zh) |
WO (1) | WO2005124739A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102356427A (zh) * | 2009-04-02 | 2012-02-15 | 三菱电机株式会社 | 噪声抑制装置 |
CN101727910B (zh) * | 2008-10-24 | 2012-07-04 | 雅马哈株式会社 | 噪声抑制装置及噪声抑制方法 |
CN103109320A (zh) * | 2010-09-21 | 2013-05-15 | 三菱电机株式会社 | 噪声抑制装置 |
CN104242850A (zh) * | 2014-09-09 | 2014-12-24 | 联想(北京)有限公司 | 一种音频信号处理方法及电子设备 |
CN104778949A (zh) * | 2014-01-09 | 2015-07-15 | 华硕电脑股份有限公司 | 音频处理方法及音频处理装置 |
CN104878643A (zh) * | 2011-04-28 | 2015-09-02 | Abb技术有限公司 | 从片材的扫描测量确定cd和md的变化 |
CN106998214A (zh) * | 2017-04-05 | 2017-08-01 | 深圳天珑无线科技有限公司 | 一种谐波处理方法及装置 |
CN109862463A (zh) * | 2018-12-26 | 2019-06-07 | 广东思派康电子科技有限公司 | 耳机语音回放方法、耳机及其计算机可读存储介质 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1998045A (zh) * | 2004-07-13 | 2007-07-11 | 松下电器产业株式会社 | 音调频率估计装置以及音调频率估计方法 |
JP4757775B2 (ja) * | 2006-11-06 | 2011-08-24 | Necエンジニアリング株式会社 | 雑音抑圧装置 |
US7873114B2 (en) * | 2007-03-29 | 2011-01-18 | Motorola Mobility, Inc. | Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate |
ATE454696T1 (de) * | 2007-08-31 | 2010-01-15 | Harman Becker Automotive Sys | Schnelle schätzung der spektraldichte der rauschleistung zur sprachsignalverbesserung |
ATE456130T1 (de) * | 2007-10-29 | 2010-02-15 | Harman Becker Automotive Sys | Partielle sprachrekonstruktion |
KR101317813B1 (ko) * | 2008-03-31 | 2013-10-15 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
KR101335417B1 (ko) * | 2008-03-31 | 2013-12-05 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8515097B2 (en) * | 2008-07-25 | 2013-08-20 | Broadcom Corporation | Single microphone wind noise suppression |
US9253568B2 (en) * | 2008-07-25 | 2016-02-02 | Broadcom Corporation | Single-microphone wind noise suppression |
JP5321171B2 (ja) * | 2009-03-17 | 2013-10-23 | ヤマハ株式会社 | 音処理装置およびプログラム |
US8423357B2 (en) * | 2010-06-18 | 2013-04-16 | Alon Konchitsky | System and method for biometric acoustic noise reduction |
JP5566846B2 (ja) * | 2010-10-15 | 2014-08-06 | 本田技研工業株式会社 | ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法 |
US9305567B2 (en) | 2012-04-23 | 2016-04-05 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9865277B2 (en) * | 2013-07-10 | 2018-01-09 | Nuance Communications, Inc. | Methods and apparatus for dynamic low frequency noise suppression |
JP6206271B2 (ja) * | 2014-03-17 | 2017-10-04 | 株式会社Jvcケンウッド | 雑音低減装置、雑音低減方法及び雑音低減プログラム |
US9734844B2 (en) * | 2015-11-23 | 2017-08-15 | Adobe Systems Incorporated | Irregularity detection in music |
JP6907859B2 (ja) * | 2017-09-25 | 2021-07-21 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN111292758B (zh) * | 2019-03-12 | 2022-10-25 | 展讯通信(上海)有限公司 | 语音活动检测方法及装置、可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0836400A (ja) * | 1994-07-25 | 1996-02-06 | Kokusai Electric Co Ltd | 音声状態判定回路 |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
JPH09152894A (ja) * | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
JP3269969B2 (ja) * | 1996-05-21 | 2002-04-02 | 沖電気工業株式会社 | 背景雑音消去装置 |
CA2399706C (en) * | 2000-02-11 | 2006-01-24 | Comsat Corporation | Background noise reduction in sinusoidal based speech coding systems |
JP3404350B2 (ja) * | 2000-03-06 | 2003-05-06 | パナソニック モバイルコミュニケーションズ株式会社 | 音声符号化パラメータ取得方法、音声復号方法及び装置 |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
US7139711B2 (en) * | 2000-11-22 | 2006-11-21 | Defense Group Inc. | Noise filtering utilizing non-Gaussian signal statistics |
JP3960834B2 (ja) * | 2002-03-19 | 2007-08-15 | 松下電器産業株式会社 | 音声強調装置及び音声強調方法 |
JP4123835B2 (ja) * | 2002-06-13 | 2008-07-23 | 松下電器産業株式会社 | 雑音抑圧装置および雑音抑圧方法 |
US7716046B2 (en) * | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
-
2005
- 2005-05-30 CN CN200580020128.3A patent/CN1969320A/zh active Pending
- 2005-05-30 JP JP2006514681A patent/JPWO2005124739A1/ja not_active Withdrawn
- 2005-05-30 US US11/629,381 patent/US20080281589A1/en not_active Abandoned
- 2005-05-30 EP EP05743170A patent/EP1768108A4/en not_active Withdrawn
- 2005-05-30 WO PCT/JP2005/009859 patent/WO2005124739A1/ja not_active Application Discontinuation
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727910B (zh) * | 2008-10-24 | 2012-07-04 | 雅马哈株式会社 | 噪声抑制装置及噪声抑制方法 |
CN102356427A (zh) * | 2009-04-02 | 2012-02-15 | 三菱电机株式会社 | 噪声抑制装置 |
CN103109320A (zh) * | 2010-09-21 | 2013-05-15 | 三菱电机株式会社 | 噪声抑制装置 |
CN103109320B (zh) * | 2010-09-21 | 2015-08-05 | 三菱电机株式会社 | 噪声抑制装置 |
CN104878643A (zh) * | 2011-04-28 | 2015-09-02 | Abb技术有限公司 | 从片材的扫描测量确定cd和md的变化 |
CN104878643B (zh) * | 2011-04-28 | 2017-04-12 | Abb技术有限公司 | 用于从噪声测量的功率频谱提取主要频谱分量的方法 |
CN104778949A (zh) * | 2014-01-09 | 2015-07-15 | 华硕电脑股份有限公司 | 音频处理方法及音频处理装置 |
CN104778949B (zh) * | 2014-01-09 | 2018-08-31 | 华硕电脑股份有限公司 | 音频处理方法及音频处理装置 |
CN104242850A (zh) * | 2014-09-09 | 2014-12-24 | 联想(北京)有限公司 | 一种音频信号处理方法及电子设备 |
CN106998214A (zh) * | 2017-04-05 | 2017-08-01 | 深圳天珑无线科技有限公司 | 一种谐波处理方法及装置 |
CN109862463A (zh) * | 2018-12-26 | 2019-06-07 | 广东思派康电子科技有限公司 | 耳机语音回放方法、耳机及其计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2005124739A1 (ja) | 2005-12-29 |
EP1768108A4 (en) | 2008-03-19 |
EP1768108A1 (en) | 2007-03-28 |
US20080281589A1 (en) | 2008-11-13 |
JPWO2005124739A1 (ja) | 2008-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1969320A (zh) | 噪声抑制装置及噪声抑制方法 | |
CN1083183C (zh) | 用来降低语音信号中噪声的方法和装置 | |
CN101079266A (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
CN1146155C (zh) | 噪声抑制装置 | |
CN1110034C (zh) | 谱削减噪声抑制方法 | |
CN1302462C (zh) | 降噪装置和降噪方法 | |
CN1145931C (zh) | 降低语音信号中的噪声的方法和采用该方法的***和电话机 | |
CN1284139C (zh) | 噪声减少的方法和装置 | |
CN1113335A (zh) | 降低语音信号中噪声的方法和检测噪声域的方法 | |
CN1175398C (zh) | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 | |
CN1430778A (zh) | 噪声抑制装置 | |
CN101031963A (zh) | 处理有噪声的声音信号的方法以及实现该方法的装置 | |
CN1727860A (zh) | 增益受限的噪音抑制 | |
CN1653520A (zh) | 确定和降噪相关联的不确定性的方法 | |
CN1223109C (zh) | 回波抑制***中增强近端语音信号 | |
CN1274456A (zh) | 语音编码器 | |
CN1918461A (zh) | 在存在背景噪声时用于语音增强的方法和设备 | |
CN1200000A (zh) | 在不连续传输期间产生安慰噪声的改进方法 | |
CN1669074A (zh) | 话音增强装置 | |
CN101044554A (zh) | 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法 | |
WO2008121436A1 (en) | Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate | |
WO2006006366A1 (ja) | ピッチ周波数推定装置およびピッチ周波数推定方法 | |
CN101044553A (zh) | 可扩展编码装置、可扩展解码装置及其方法 | |
CN1210685C (zh) | 语音编码中噪音鲁棒分类方法 | |
CN1484823A (zh) | 音频解码器和音频解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070523 |