CN107833579B - 噪声消除方法、装置及计算机可读存储介质 - Google Patents
噪声消除方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107833579B CN107833579B CN201711042223.4A CN201711042223A CN107833579B CN 107833579 B CN107833579 B CN 107833579B CN 201711042223 A CN201711042223 A CN 201711042223A CN 107833579 B CN107833579 B CN 107833579B
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- short
- time
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008030 elimination Effects 0.000 title abstract description 11
- 238000003379 elimination reaction Methods 0.000 title abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 146
- 230000005236 sound signal Effects 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000009499 grossing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 abstract description 18
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000009432 framing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开了一种噪声消除方法、装置及计算机可读存储介质,属于语音处理技术领域。该方法包括:对音频信号进行预降噪处理,得到噪声信号和降噪后的短时频谱信号;基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值;基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点;对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,以消除所述音频信号中的噪声。本发明对音频信号进行预降噪处理后,进一步对预降噪处理后的音频信号进行降噪处理,从而提高了消除噪声的效率。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种噪声消除方法、装置及计算机可读存储介质。
背景技术
随着科学技术的发展,生活中使用到语音技术的地方越来越多,比如,视频会议、语音通信等。但是,由于终端在采集音频信号的过程中,可能会额外采集到一些噪声信号,从而导致终端在播放音频时出现不清晰的问题,因此,为了保证播放的音频信号的清晰度,终端在采集到音频信号后,需要消除音频信号中包括的噪声信号。
目前,在消除音频信号中包括的噪声信号的操作可以为:对音频信号先后进行分帧、加窗和短时傅里叶变换处理,得到加噪的短时频谱信号;通过噪声估计算法从该加噪的短时频谱信号中确定估计噪声信号,然后通过谱减等降噪算法对该加噪的短时频谱信号中包括的估计噪声信号进行降噪处理,从而减少音频信号中的噪声信号。
但是,由于通过上述方式进行噪声消除时,仅能消除部分噪声,而诸如气息声等非平稳噪声信号仍然会残留在音频信号中,导致噪声信号消除不彻底,降低了消除噪声的效率。
发明内容
本发明实施例提供了一种噪声消除方法、装置及计算机可读存储介质,用于解决现有技术中噪声消除效率低的问题。所述技术方案如下:
第一方面,提供了一种噪声消除方法,所述方法包括:
对音频信号进行预降噪处理,得到噪声信号和降噪后的短时频谱信号;
基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值;
基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点;
对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,以消除所述音频信号中的噪声。
可选地,所述基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值,包括:
对所述短时频谱信号和所述噪声信号进行区域平滑处理,得到所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值。
可选地,所述基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点,包括:
确定所述多个时频点中每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值;
将所述多个时频点中幅值比值小于或等于预设幅值比值的时频点确定为噪声点,以得到所述至少一个噪声点。
可选地,所述对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,包括:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值按照预设衰减比例进行衰减。
可选地,所述对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,包括:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值衰减至预设衰减幅值。
第二方面,提供了一种噪声消除装置,所述装置包括:
预处理模块,用于对音频信号进行预降噪处理,得到噪声信号和降噪后的短时频谱信号;
第一确定模块,用于基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值;
第二确定模块,用于基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点;
衰减处理模块,用于对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,以消除所述音频信号中的噪声。
可选地,所述第一确定模块包括:
处理子模块,用于对所述短时频谱信号和所述噪声信号进行区域平滑处理,得到所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值。
可选地,所述第二确定模块包括:
第一确定子模块,用于确定所述多个时频点中每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值;
第二确定子模块,用于将所述多个时频点中幅值比值小于或等于预设幅值比值的时频点确定为噪声点,以得到所述至少一个噪声点。
可选地,所述衰减处理模块用于:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值按照预设衰减比例进行衰减。
可选地,所述衰减处理模块用于:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值衰减至预设衰减幅值。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一所述方法的步骤。
本发明实施例提供的技术方案带来的有益效果是:
在本发明实施例中,当对音频信号进行预降噪处理后,可以得到噪声信号和短时频谱信号,然后确定短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值,由于每个时频点的短时频谱信号幅值和噪声信号幅值可以反映该时频点处噪声信号的大小,因此,通过每个时频点的短时频谱信号幅值和噪声信号幅值,可以从短时频谱信号包括的多个时频点中确定至少一个噪声点,然后对该至少一个噪声点处的信号进行衰减处理,从而进一步消除音频信号中的噪声,提高噪声消除的效率,进而提高音频播放的清晰度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种噪声消除方法的流程图;
图2A是本发明实施例提供的一种噪声消除装置的结构示意图;
图2B是本发明实施例提供的一种第一确定模块的结构示意图;
图2C是本发明实施例提供的一种第二确定模块的结构示意图;
图3是本发明实施例提供的另一种噪声消除装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细的解释说明之前,先对本发明实施例中涉及到的应用场景进行解释说明。
目前,生活中越来越多的场合需要使用到语音处理技术,比如,语音导航、视频会议、语音拨号等。其中,对于视频会议等场合,音频播放的要求较高,也即是要求播放的音频内容清晰。因此,为了保证音频内容的清晰度,终端在采集到音频信号后,需要对音频信号进行降噪处理。但是,目前的降噪处理方式仅能消除部分平稳噪声信号,对于诸如气息声等非平稳噪声信号则不能进行消除,从而使音频信号依旧不清晰,降低了音频信号降噪的效率。
基于这样的场景,本发明实施例提供了一种能够提高音频信号降噪效率的噪声消除方法。
在对本发明实施例的应用场景进行介绍之后,接下来将结合附图对本发明实施例提供的噪声消除方法进行详细介绍。
图1是根据一示例性实施例示出的一种噪声消除方法的流程图,参见图1,该方法包括如下步骤。
步骤101:终端对音频信号进行预降噪处理,得到噪声信号和降噪后的短时频谱信号。
由于终端在采集音频信号的过程中可能会混入一些背景噪声、气息声等噪声信号,也即是,终端采集到的音频信号中不仅包括正常语音的音频信号,还可能包括噪声信号,从而导致音频播放不清晰。因此,为了能够提高音频播放清晰度和消除噪声的效率,终端在采集到音频信号后,可以对音频信号进行预降噪处理。而终端对音频信号进行预降噪处理的操作可以为:对该音频信号先后进行分帧处理、加窗处理和短时傅里叶变化处理,得到加噪的短时频谱信号;通过噪声估计算法从加噪的短时频谱信号中确定该估计的噪声信号,然后通过降噪算法对加噪的短时频谱信号中包括的估计的噪声信号进行降噪处理,从而得到短时频谱信号。
需要说明的是,终端对音频信号进行分帧处理就是将音频信号以帧为单位分成若干个音频信号单元,且帧长度可以事先设置,比如,该帧长度可以为10ms(毫秒)、25ms、35ms等。另外,终端对分帧后的音频信号进行的加窗处理是指通过窗函数进行处理,该窗函数可以是哈明窗函数、汉宁窗函数等等。
另外,当该音频信号为时域信号时,音频信号的变化体现在时间的变化上,但是由于音频信号的变化不仅与时间变化有关,还与频率、相位等信息有关,因此,终端对音频信号进行时域分析,仅能确定该音频信号的形状,不能对音频信号进行准确的描述和分析。而终端对音频信号进行频域分析时,可以将复杂的音频信号分解为简单的信号的叠加,从而可以更加精确的描述和分析音频信号,因此,为了准确的分析和描述音频信息,终端可以将音频信号由时域信号转换为频域信号。
比如,终端采集到的音频信号为y(i),对该音频信号进行分帧后得到分帧后的音频信号为yλ(n),并对yλ(n)加汉明窗,加窗后的音频信号为yλ(n)',也即是,yλ(n)'=yλ(n)*ham(256),其中,i表示音频信号为时域信号时的离散点序列,i=1,2。。。,λ为帧序列数,λ=1,2。。。。,n为帧内序号,n=1,2。。。,ham(256)表示大小为256个点的汉明窗函数。之后,终端可以对该加窗后的音频信号进行短时傅里叶变换,得到加窗后的音频信号的频域信号Yλ(ω),也即是,Yλ(ω)=STFT(yλ(n)')。
再者,该噪声估计算法可以为MCRA(Minimum-Contraled Recursive Averaging,最小统计量控制递归平均算法)等,该降噪算法可以为谱减算法、维纳滤波算法、MMSE(MinimumMean Square Error,最小均方误差估计)算法、子空间法等。
还需要说明的是,由于对音频信号进行预降噪处理后,该短时频谱信号中还会包括诸如气息声等剩余噪声信号,因此,终端还可以基于下述步骤102至步骤104继续消除短时频谱信号中的噪声。
步骤102:终端基于该短时频谱信号和噪声光信号,从该短时频谱信号中确定每个时频点的短时频谱信号幅值和对应的噪声信号幅值。
由上述步骤101可知,终端对加噪的音频信号进行预降噪处理后,该短时频谱信号中还会残余部分噪声信号,且在该短时频谱信号中,每个时频点处的信号可能包括正常语音的音频信号以及剩余噪声信号,也可能仅包括正常语音的音频信号或仅包括噪声信号,而每个时频点处具体包括的信号可以通过信号的幅值来反应,因此,为了确定还存在剩余噪声信号的时频点,终端可以基于短时频谱信号和噪声信号,确定每个时频点的短时频谱信号幅值和噪声信号幅值。而终端基于该短时频谱信号和噪声信号,确定每个时频点的短时频谱信号幅值和噪声信号幅值的操作可以为:对该短时频谱信号和该噪声信号进行区域平滑处理,得到每个时频点的短时频谱信号幅值和噪声信号幅值。
其中,终端可以通过窗函数对短时频谱信号和噪声信号进行区域平滑处理,该窗函数可以是矩形窗、椭圆形窗等等。
另外,终端通过窗函数对短时频谱信号和噪声信号进行区域平滑处理的方式与终端对图片进行区域平滑处理的方式相似,也即是,当终端对短时频谱信号进行区域平滑处理时,终端可以将窗函数中心与短时频谱信号中的每个时频点对齐,并通过平滑算法对该时频点进行平滑处理,从而得到该时频点的短时频谱幅值。同理,当终端对噪声信号进行区域平滑处理时,终端可以将窗函数中心与噪声信号中的每个时频点对齐,并通过平滑算法对该时频点进行平滑处理,从而得到该时频点的噪声幅值。
需要说明的是,由于噪声信号是在音频信号的基础上估计出来的,因此,该噪声信号中包括的时频点与短时频谱信号中的时频点一一对应,终端确定噪声信号中每个时频点的幅值,也即是确定短时频谱信号中每个时频点对应的噪声信号幅值。
比如,短时频谱信号中的时频点为A、B、C,且该时频点A、B、C在噪声信号中对应的时频点分别为A1、B1、C1,因此,终端确定时频点A1、B1、C1的噪声幅值分别为10、15、20,也即是确定短时频谱信号中的时频点为A、B、C的噪声信号幅值分别为10、15、20。
步骤103:终端基于每个时频点的短时频谱信号幅值和噪声信号幅值,从该短时频谱信号包括的多个时频点中确定至少一个噪声点。
由于每个时频点处的信号中可能仅包括正常语音的音频信号,或同时包括正常语音的音频信号和剩余噪声信号,且通常情况下,短时频谱信号中正常语音的音频信号的幅值将远大于噪声信号的幅值。因此,每个时频点的短时频谱信号幅值大于或等于噪声信号幅值,短时频谱信号幅值与噪声信号幅值之间的幅值比值将较大。而当仅包括剩余噪声信号时,由于剩余噪声信号的幅值小于估计出来的噪声信号的幅值,短时频谱信号幅值与噪声信号幅值之间的幅值比值将较小。因此,通过每个时频点的短时频谱信号幅值与短时频谱信号幅值之间的幅值比值,即可确定该时频点处信号包括的噪声信号的大小。也即是,终端可以确定该多个时频点中每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值;并将该多个时频点中幅值比值小于或等于预设幅值比值的时频点确定为噪声点,以得到至少一个噪声点。
其中,由于当任一时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值小于或等于预设幅值比值时,说明该时频点处的信号仅为剩余噪声信号,该时频点处的剩余噪声信号将会非常影响该时频点处音频信号的清晰度,因此,终端可以将该多个时频点中幅值比值小于或等于预设幅值比值的时频点确定为噪声点。
需要说明的是,该预设幅值比值可以事先设置,比如,该预设幅值比值可以为1.5、1.3、1等等。
另外,当任一时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值大于预设幅值比值时,说明该时频点处的信号仅包括正常语音的音频信号,或同时包括正常语音的音频信号和剩余噪声信号,由于当同时包括正常语音的音频信号和剩余噪声信号时,该时频点处的剩余噪声信号可能不会影响该时频点处正常语音的音频信号的清晰度,因此,终端可以不做任何操作。
步骤104:终端对短时频谱信号中至少一个噪声点处的信号进行衰减处理,以消除该音频信号中的噪声。
由于终端对音频信号进行预降噪处理后,音频信号中大部分的噪声信号已被消除,此时,终端只需对噪声点处的信号进行衰减处理即可达到噪声消除的目的。而终端对短时频谱信号中至少一个噪声点处的信号进行衰减处理,以消除该音频信号中的噪声的操作可以为:将该短时频谱信号中至少一个噪声点处的噪声信号幅值按照预设衰减比例进行衰减;或者,将该短时频谱信号中该至少一个噪声点处的噪声信号幅值衰减至预设衰减幅值。
需要说明的是,该预设衰减比例为终端对噪声信号进行衰减处理之前该噪声信号幅值与终端对该噪声信号进行衰减处理之后该噪声信号幅值之间的比例,且该预设衰减比例可以事先设置,比如该预设衰减比例可以为2:1、3:1、5:1等等。该预设衰减幅值同样可以事先设置,比如,16位精度的定点数据情况下预设衰减幅值可以为50、40等等。
值得说明的是,由于短时频谱信号中的噪声信号为终端通过噪声估计算法估计出来的,因此,该噪声信号可能并不为该短时频谱信号中准确的噪声信号,因此,终端通过预设衰减比例来衰减该噪声信号幅值,可以避免该噪声点不为真正的噪声点时,将正常语音的音频信号幅值进行衰减,从而保证后续播放音频信号时,音频内容的连贯性。
进一步地,终端对短时频谱信号中至少一个噪声点处的信号进行衰减处理之后,为了顺利将该消除噪声后的音频信号进行播放,该终端还可以将该消除噪声后的音频信号由频域信号变为时域信号。
其中,由于上述步骤101中,终端通过加窗函数和短时傅里叶变换将该音频信号由时域信号变为频域信号,因此,终端可以通过傅里叶逆变换操作和去窗函数操作将该消除噪声的音频信号由频域信号变为时域信号。
比如,消除噪声后的音频信号的频域信号为Yλ'(ω),将该消除噪声后的音频信号进行短时傅里叶逆变换操作和去汉明窗操作,得到去消除噪声后的音频信号的时域信号y'λ(n),也即是,y'λ(n)=ISFST(Y'λ(ω))/ham(256)。
在本发明实施例中,由于终端在采集音频信号时,该音频信号中会混入噪声信号,因此,终端在采集到音频信号后,可以对音频信号进行预降噪处理后,得到依然包括部分噪声信号的短时频谱信号和估计出来的估计噪声信号,然后确定每个时频点的短时频谱信号幅值和对应的噪声信号幅值。由于每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值可以反映该时频点处的噪声信号的大小,因此,终端可以确定每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值。当该幅值比值小于或等于预设幅值比值时,说明该时频点处仅包括噪声信号,因此,终端可以确定该时频点为噪声点,从而从短时频谱信号中确定至少一个噪声点。之后终端可以对该至少一个噪声点处的噪声信号幅值进行衰减处理,以消除音频信号中的噪声,从而提高了噪声消除的效率,提高了音频播放的清晰度。
在对本发明实施例提供的噪声消除方法进行解释说明之后,接下来,对本发明提供的噪声消除装置进行介绍。
图2A为本发明实施例提供的一种噪声消除装置的框图,参见图2A,该噪声消除装置可以由软件、硬件或者两者的结合实现。该装置包括:预处理模块201、第一确定模块202、第二确定模块203和衰减处理模块204。
预处理模块201,用于对音频信号进行预降噪处理,得到噪声信号和降噪后的短时频谱信号;
第一确定模块202,用于基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应噪声信号幅值;
第二确定模块203,用于基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点;
衰减处理模块204,用于对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,以消除所述音频信号中的噪声。
可选地,参见图2B,所述第一确定模块202包括:
处理子模块2021,用于对所述短时频谱信号和所述噪声信号进行区域平滑处理,得到所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值。
可选地,参见图2C,所述第二确定模块203包括:
第一确定子模块2031,用于确定所述多个时频点中每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值;
第二确定子模块2032,用于将所述多个时频点中幅值比值小于或等于预设幅值比值的时频点确定为噪声点,以得到所述至少一个噪声点。
可选地,所述衰减处理模块204用于:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值按照预设衰减比例进行衰减。
可选地,所述衰减处理模块204用于:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值衰减至预设衰减幅值。
综上所述,在本发明实施例中,由于终端在采集音频信号时,该音频信号中会混入噪声信号,因此,终端在采集到音频信号后,可以对音频信号进行预降噪处理后,得到依然包括部分噪声信号的短时频谱信号和估计出来的估计噪声信号,然后确定每个时频点的短时频谱信号幅值和对应的噪声信号幅值。由于每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值可以反映该时频点处的噪声信号的大小,因此,终端可以确定每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值。当该幅值比值小于或等于预设幅值比值时,说明该时频点处仅包括噪声信号,因此,终端可以确定该时频点为噪声点,从而从短时频谱信号中确定至少一个噪声点。之后终端可以对该至少一个噪声点处的噪声信号幅值进行衰减处理,以消除音频信号中的噪声,从而提高了噪声消除的效率,提高了音频播放的清晰度。
需要说明的是:上述实施例提供的噪声消除装置在消除噪声时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的噪声消除装置与噪声消除方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图3是根据一示例性实施例示出的一种噪声消除装置300的框图。例如,装置300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口312,传感器组件314,以及通信组件316。
处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理组件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在装置300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为装置300的各种组件提供电源。电源组件306可以包括电源管理***,一个或多个电源,及其他与为装置300生成、管理和分配电源相关联的组件。
多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当装置300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口312为处理组件302和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到装置300的打开/关闭状态,组件的相对定位,例如所述组件为装置300的显示器和小键盘,传感器组件314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述图1所示实施例提供的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(Digital Subscriber Line,DSL))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(Digital Versatile Disc,DVD))、或者半导体介质(例如:固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种噪声消除方法,其特征在于,所述方法包括:
对音频信号进行预降噪处理,得到噪声信号和降噪后的短时频谱信号;
基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值,所述短时频谱信号中包括的时频点与所述噪声信号中包括的时频点一一对应;
基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点;
对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,以消除所述音频信号中的噪声。
2.如权利要求1所述的方法,其特征在于,所述基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值,包括:
对所述短时频谱信号和所述噪声信号进行区域平滑处理,得到所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值。
3.如权利要求1或2所述的方法,其特征在于,所述基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点,包括:
确定所述多个时频点中每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值;
将所述多个时频点中幅值比值小于或等于预设幅值比值的时频点确定为噪声点,以得到所述至少一个噪声点。
4.如权利要求1所述的方法,其特征在于,所述对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,包括:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值按照预设衰减比例进行衰减。
5.如权利要求1所述的方法,其特征在于,所述对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,包括:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值衰减至预设衰减幅值。
6.一种噪声消除装置,其特征在于,所述装置包括:
预处理模块,用于对音频信号进行预降噪处理,得到噪声信号和降噪后的短时频谱信号;
第一确定模块,用于基于所述短时频谱信号和所述噪声信号,确定所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值,所述短时频谱信号中包括的时频点与所述噪声信号中包括的时频点一一对应;
第二确定模块,用于基于每个时频点的短时频谱信号幅值和噪声信号幅值,从所述短时频谱信号包括的多个时频点中确定至少一个噪声点;
衰减处理模块,用于对所述短时频谱信号中所述至少一个噪声点处的信号进行衰减处理,以消除所述音频信号中的噪声。
7.如权利要求6所述的装置,其特征在于,所述第一确定模块包括:
处理子模块,用于对所述短时频谱信号和所述噪声信号进行区域平滑处理,得到所述短时频谱信号中每个时频点的短时频谱信号幅值和对应的噪声信号幅值。
8.如权利要求6或7所述的装置,其特征在于,所述第二确定模块包括:
第一确定子模块,用于确定所述多个时频点中每个时频点的短时频谱信号幅值与噪声信号幅值之间的幅值比值;
第二确定子模块,用于将所述多个时频点中幅值比值小于或等于预设幅值比值的时频点确定为噪声点,以得到所述至少一个噪声点。
9.如权利要求6所述的装置,其特征在于,所述衰减处理模块用于:
将所述短时频谱信号中所述至少一个噪声点处的噪声信号幅值按照预设衰减比例进行衰减。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711042223.4A CN107833579B (zh) | 2017-10-30 | 2017-10-30 | 噪声消除方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711042223.4A CN107833579B (zh) | 2017-10-30 | 2017-10-30 | 噪声消除方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107833579A CN107833579A (zh) | 2018-03-23 |
CN107833579B true CN107833579B (zh) | 2021-06-11 |
Family
ID=61650199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711042223.4A Active CN107833579B (zh) | 2017-10-30 | 2017-10-30 | 噪声消除方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107833579B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804072A (zh) * | 2018-06-13 | 2018-11-13 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、存储介质及终端 |
CN110021305B (zh) * | 2019-01-16 | 2021-08-20 | 上海惠芽信息技术有限公司 | 一种音频滤波方法、音频滤波装置及可穿戴设备 |
CN109817241B (zh) * | 2019-02-18 | 2021-06-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
CN111863015A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN111009251B (zh) * | 2019-10-31 | 2023-04-18 | 惠州华阳通用电子有限公司 | 一种车载混音方法及装置 |
CN110931035B (zh) * | 2019-12-09 | 2023-10-10 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、设备及存储介质 |
CN111710213A (zh) * | 2020-06-05 | 2020-09-25 | 河南艺树教育科技有限公司 | 一种可量化的音乐教学*** |
CN112201269B (zh) * | 2020-10-19 | 2021-09-07 | 深圳市车宝信息科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101339766A (zh) * | 2008-03-20 | 2009-01-07 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN101477800A (zh) * | 2008-12-31 | 2009-07-08 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN103761974A (zh) * | 2014-01-28 | 2014-04-30 | 上海力声特医学科技有限公司 | 一种人工耳蜗 |
CN105575405A (zh) * | 2014-10-08 | 2016-05-11 | 展讯通信(上海)有限公司 | 一种双麦克风语音激活检测方法及语音采集设备 |
CN106098076A (zh) * | 2016-06-06 | 2016-11-09 | 成都启英泰伦科技有限公司 | 一种基于动态噪声估计时频域自适应语音检测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1841500B (zh) * | 2005-03-30 | 2010-04-14 | 松下电器产业株式会社 | 一种基于自适应非线性谱减的抗噪方法和装置 |
JP5141542B2 (ja) * | 2008-12-24 | 2013-02-13 | 富士通株式会社 | 雑音検出装置及び雑音検出方法 |
CN103295582B (zh) * | 2012-03-02 | 2016-04-20 | 联芯科技有限公司 | 噪声抑制方法及其*** |
CN103021420B (zh) * | 2012-12-04 | 2015-02-25 | 中国科学院自动化研究所 | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 |
JP6300464B2 (ja) * | 2013-08-09 | 2018-03-28 | キヤノン株式会社 | 音声処理装置 |
JP6337519B2 (ja) * | 2014-03-03 | 2018-06-06 | 富士通株式会社 | 音声処理装置、雑音抑圧方法、およびプログラム |
CN106328151B (zh) * | 2015-06-30 | 2020-01-31 | 芋头科技(杭州)有限公司 | 一种环噪消除***及其应用方法 |
CN105280195B (zh) * | 2015-11-04 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
-
2017
- 2017-10-30 CN CN201711042223.4A patent/CN107833579B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197130A (zh) * | 2006-12-07 | 2008-06-11 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101339766A (zh) * | 2008-03-20 | 2009-01-07 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN101477800A (zh) * | 2008-12-31 | 2009-07-08 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN103761974A (zh) * | 2014-01-28 | 2014-04-30 | 上海力声特医学科技有限公司 | 一种人工耳蜗 |
CN105575405A (zh) * | 2014-10-08 | 2016-05-11 | 展讯通信(上海)有限公司 | 一种双麦克风语音激活检测方法及语音采集设备 |
CN106098076A (zh) * | 2016-06-06 | 2016-11-09 | 成都启英泰伦科技有限公司 | 一种基于动态噪声估计时频域自适应语音检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107833579A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107833579B (zh) | 噪声消除方法、装置及计算机可读存储介质 | |
CN108198569B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN111128221B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111883164B (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN111968662A (zh) | 音频信号的处理方法及装置、存储介质 | |
CN111009257B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN109308905B (zh) | 音频数据处理方法、装置、电子设备和存储介质 | |
CN110931028B (zh) | 一种语音处理方法、装置和电子设备 | |
CN114040285B (zh) | 耳机的前馈滤波器参数生成方法、设备、耳机及存储介质 | |
CN110970051A (zh) | 语音数据采集方法、终端及可读存储介质 | |
EP4254408A1 (en) | Speech processing method and apparatus, and apparatus for processing speech | |
CN111179960A (zh) | 音频信号处理方法及装置、存储介质 | |
CN111986693A (zh) | 音频信号的处理方法及装置、终端设备和存储介质 | |
CN113763977A (zh) | 消除回声信号的方法、装置、计算设备和存储介质 | |
CN109256145B (zh) | 基于终端的音频处理方法、装置、终端和可读存储介质 | |
CN109119097B (zh) | 基音检测方法、装置、存储介质及移动终端 | |
CN110970015B (zh) | 一种语音处理方法、装置和电子设备 | |
CN112201267A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN113674752B (zh) | 音频信号的降噪方法、装置、可读介质和电子设备 | |
CN111292761B (zh) | 语音增强方法及装置 | |
CN110580910B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN107564534B (zh) | 音频品质鉴定方法和装置 | |
CN112951262B (zh) | 音频录制方法及装置、电子设备及存储介质 | |
CN113077808B (zh) | 一种语音处理方法、装置和用于语音处理的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |