CN109102823B - 一种基于子带谱熵的语音增强方法 - Google Patents

一种基于子带谱熵的语音增强方法 Download PDF

Info

Publication number
CN109102823B
CN109102823B CN201811031344.3A CN201811031344A CN109102823B CN 109102823 B CN109102823 B CN 109102823B CN 201811031344 A CN201811031344 A CN 201811031344A CN 109102823 B CN109102823 B CN 109102823B
Authority
CN
China
Prior art keywords
sub
band
noise
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811031344.3A
Other languages
English (en)
Other versions
CN109102823A (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201811031344.3A priority Critical patent/CN109102823B/zh
Publication of CN109102823A publication Critical patent/CN109102823A/zh
Application granted granted Critical
Publication of CN109102823B publication Critical patent/CN109102823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。

Description

一种基于子带谱熵的语音增强方法
技术领域
本发明属于语音信号处理技术领域,具体涉及到根据含噪语音每个子带的谱熵估计背景噪声的均值,对含噪语音进行谱减,恢复纯净语音的语音增强方法。
背景技术
在语音的传输过程中,不可避免地会受到环境噪声的干扰。含噪语音中混杂的噪声不仅使听者产生不舒服的感觉,而且会给语音编码、语音识别等应用***带来不利影响。因此,在实际应用中,就需要采用各种语音增强方法抑制噪声干扰,增强有用语音信号,增加语音的可懂度。
在传统的语音增强算法中,需要对含噪语音进行端点检测,将其划分为有音段和静音段,即将每一帧信号判断为语音帧和非语音帧。在静音段,估计噪声频谱的均值;在有音段,利用估得的噪声均值,对每个语音帧的幅度谱进行增强,减小噪声干扰的影响。然而,实际环境中的背景噪声往往是非平稳的,在有音段,噪声的类型或强度也有可能发生变化。因此,仅仅在静音段估计噪声,无法实时跟踪非平稳噪声的变化,这会给语音增强带来不利影响。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于子带谱熵的语音增强方法。
技术方案:一种基于子带谱熵的语音增强方法,首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强。
本发明的具体步骤如下:
(1)对含噪语音进行预处理,包括加窗、分帧和快速傅里叶变换(FFT:FastFourier Transform),并将每帧信号的频谱分为幅度部分和相位部分;
(2)将含噪语音的幅度谱划分为若干个子带,并计算每个子带上的谱熵;
(3)根据每个子带上的谱熵,判断该子带是否存在语音;
(4)若某子带上不存在语音,则对该子带上的每个数字频率,用平滑滤波方式更新其噪声均值,并将其幅度谱设置为噪声均值的0.01倍;
(5)若某子带上存在语音,则对该子带上的每个数字频率,用加权谱减法减小噪声的影响,增强含噪语音的幅度谱,提高含噪语音的信噪比;
(6)对增强后的语音信号进行IFFT(Inverse FFT)运算,得到时域信号;
(7)对时域帧信号进行重叠相加,得到增强后的连续语音。
本发明采用上述技术方案,具有以下有益效果:
本发明可以对每一帧信号的每个子带的语音存在性进行判断,增强噪声估计算法对非平稳环境的实时跟踪能力。
附图说明
图1为本发明实施例的基于子带谱熵的语音增强方法的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于子带谱熵的语音增强方法主要包括语音预处理、子带划分、子带谱熵计算、噪声估计、幅度增强、IFFT和重叠相加部分。
1、语音预处理
对含噪语音进行预处理,包括加窗、分帧和FFT。语音信号的采样频率为8000Hz,窗函数为海明窗,帧长为256,帧移为128。含噪语音经过预处理,可以得到每帧信号的幅度谱和相位谱,幅度谱用于噪声估计和谱减,相位谱用于在后端恢复时域信号。一般认为相位对听觉***的影响很小,可以直接用含噪语音的相位作为纯净语音的相位。
2、子带谱熵计算
首先将每帧语音的幅度谱划分为8个等间距的子带;然后,计算每个子带上的谱熵;最后,根据每个子带上的谱熵,判断该子带是否存在语音。
3、噪声估计
若某子带上不存在语音,则对该子带上的每个数字频率k,用平滑滤波方式更新其噪声均值N(k,l):
N(k,l)=α·N(k,l-1)+(1-α)·|Y(k,l)| (1)
其中,N(k,l-1)是上一帧(第(l-1)帧)的噪声估计值;|Y(k,l)|是当前帧(第l帧)的含噪语音幅度谱;实数α是平滑系数,这里取α=0.9。若某子带上存在语音,则将α设置为1,即停止更新噪声,以上一帧的噪声估计值作为本帧的噪声估计值。
4、幅度增强
若某子带上存在语音,则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
Figure BDA0001789812660000031
其中,
Figure BDA0001789812660000032
是纯净语音幅度的估计值,Y(k)、N(k)分别表示含噪语音的幅度和噪声的均值;β(m)是当前帧第m个子带上所有数字频率的过减系数,根据下式计算:
Figure BDA0001789812660000033
其中,E(m)是当前帧第m个子带的对数能量;Emin和Emax是E(m)的最小值和最大值;βmax是β(m)的上限,这里设置为6。
若某子带上不存在语音,则对该子带上的每个数字频率k,用下式估计
Figure BDA0001789812660000034
Figure BDA0001789812660000035
5、IFFT与重叠相加
首先将含噪语音的相位作为纯净语音的相位,与纯净语音幅度谱的估计值
Figure BDA0001789812660000036
相乘,得到纯净语音的完整频谱;然后,对每一帧的完整频谱进行IFFT运算,得到时域信号;最后,对各帧时域信号进行重叠相加,得到增强后的数字语音。

Claims (3)

1.一种基于子带谱熵的语音增强方法,其特征在于:首先将含噪语音的幅度谱划分成若干个子带,计算每个子带的谱熵;然后,根据子带谱熵,判断该子带是否存在语音;最后,对无音子带,更新该子带上所有数字频率处的噪声参数;对有音子带,用谱减法对含噪语音的幅度谱进行增强;计算谱熵时,先对含噪语音进行加窗、分帧和快速傅里叶变换的预处理,并将每帧信号的频谱分为幅度部分和相位部分;然后将含噪语音的幅度谱划分为若干个子带,并计算每个子带上的谱熵;
具体的,若某子带上存在语音,则对该子带上的每个数字频率k,用加权谱减法减小噪声的影响:
Figure FDA0003904406550000011
其中,
Figure FDA0003904406550000012
是纯净语音幅度的估计值,Y(k)、N(k)分别表示含噪语音的幅度和噪声的均值;β(m)是当前帧第m个子带上所有数字频率的过减系数,根据下式计算:
Figure FDA0003904406550000013
其中,E(m)是当前帧第m个子带的对数能量;Emin和Emax是E(m)的最小值和最大值;βmax是β(m)的上限;
若某子带上不存在语音,则对该子带上的每个数字频率k,用下式估计
Figure FDA0003904406550000014
Figure FDA0003904406550000015
2.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,根据每个子带上的谱熵,判断该子带是否存在语音;若某子带上不存在语音,则对该子带上的每个数字频率,用平滑滤波方式更新其噪声均值,并将其幅度谱设置为噪声均值的0.01倍;若某子带上存在语音,则对该子带上的每个数字频率,用加权谱减法减小噪声的影响,增强含噪语音的幅度谱,提高含噪语音的信噪比;对增强后的语音信号进行IFFT运算,得到时域信号;对时域帧信号进行重叠相加,得到增强后的连续语音。
3.如权利要求1所述的基于子带谱熵的语音增强方法,其特征在于,若某子带上不存在语音,则对该子带上的每个数字频率k,用平滑滤波方式更新其噪声均值N(k,l):
N(k,l)=α·N(k,l-1)+(1-α)·|Y(k,l)| (1)
其中,N(k,l-1)是第l-1帧的噪声估计值;|Y(k,l)|是第l帧的含噪语音幅度谱;实数α是平滑系数;若某子带上存在语音,则将α设置为1,即停止更新噪声,以第l-1帧的噪声估计值作为第l帧的噪声估计值。
CN201811031344.3A 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法 Active CN109102823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811031344.3A CN109102823B (zh) 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811031344.3A CN109102823B (zh) 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法

Publications (2)

Publication Number Publication Date
CN109102823A CN109102823A (zh) 2018-12-28
CN109102823B true CN109102823B (zh) 2022-12-06

Family

ID=64865366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811031344.3A Active CN109102823B (zh) 2018-09-05 2018-09-05 一种基于子带谱熵的语音增强方法

Country Status (1)

Country Link
CN (1) CN109102823B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648680B (zh) * 2019-09-23 2024-05-14 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质
CN111508519B (zh) * 2020-04-03 2022-04-26 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
CN113571074B (zh) * 2021-08-09 2023-07-25 四川启睿克科技有限公司 基于多波段结构时域音频分离网络的语音增强方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
CN104471855A (zh) * 2012-07-12 2015-03-25 Dts公司 具有噪声检测和响度下降检测的响度控制
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN106340292A (zh) * 2016-09-08 2017-01-18 河海大学 一种基于连续噪声估计的语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN104471855A (zh) * 2012-07-12 2015-03-25 Dts公司 具有噪声检测和响度下降检测的响度控制
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN106340292A (zh) * 2016-09-08 2017-01-18 河海大学 一种基于连续噪声估计的语音增强方法

Also Published As

Publication number Publication date
CN109102823A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
US6122610A (en) Noise suppression for low bitrate speech coder
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
US7313518B2 (en) Noise reduction method and device using two pass filtering
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
EP1745468B1 (en) Noise reduction for automatic speech recognition
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
CN104704560A (zh) 共振峰依赖的语音信号增强
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
Amehraye et al. Perceptual improvement of Wiener filtering
Wang et al. Spectral subtraction based on two-stage spectral estimation and modified cepstrum thresholding
Nabi et al. A dual-channel noise reduction algorithm based on the coherence function and the bionic wavelet
Jin et al. An improved speech endpoint detection based on spectral subtraction and adaptive sub-band spectral entropy
Surendran et al. Variance normalized perceptual subspace speech enhancement
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
Upadhyay et al. A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
Zhang et al. Fundamental frequency estimation combining air-conducted speech with bone-conducted speech in noisy environment
CN113870884B (zh) 单麦克风噪声抑制方法和装置
Karabashetti et al. Speech enhancement using multiband spectral subtraction with cross spectral component reduction
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion
CN115346545B (zh) 一种基于测量域噪声相减的压缩感知语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant