CN101930746A - 一种mp3压缩域音频自适应降噪方法 - Google Patents

一种mp3压缩域音频自适应降噪方法 Download PDF

Info

Publication number
CN101930746A
CN101930746A CN2010102154044A CN201010215404A CN101930746A CN 101930746 A CN101930746 A CN 101930746A CN 2010102154044 A CN2010102154044 A CN 2010102154044A CN 201010215404 A CN201010215404 A CN 201010215404A CN 101930746 A CN101930746 A CN 101930746A
Authority
CN
China
Prior art keywords
noise
mdct
frame
audio
mdct coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102154044A
Other languages
English (en)
Other versions
CN101930746B (zh
Inventor
余小清
许雪琼
张静
刘军伟
万旺根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN2010102154044A priority Critical patent/CN101930746B/zh
Publication of CN101930746A publication Critical patent/CN101930746A/zh
Application granted granted Critical
Publication of CN101930746B publication Critical patent/CN101930746B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种MP3压缩域音频自适应降噪方法。本方法直接基于MP3压缩域进行降噪。首先,对含有噪声的MP3音频数据提取MDCT系数,基于MDCT谱能量特征对MP3音频进行活性检测,区分出活性音频段和静音段。同时,在从MP3压缩音频数据中提取MDCT系数后,根据MDCT系数的稀疏特性,采用正态反高斯(NIG)分布函数对MDCT系数进行先验统计建模。然后根据贝叶斯理论,设计基于NIG先验概率模型的最大后验概率估计器,得到相应音频段的衰减因子。在衰减噪声部分,利用衰减因子对音频段的噪声进行衰减,并根据静音段音频的衰减权重自适应地调整衰减的迭代次数以实现降噪。实验结果表明,采用本发明的降噪算法能有效去除MP3音频中的噪声,提高压缩音频的信噪比,且降噪后的MP3音频质量良好。

Description

一种MP3压缩域音频自适应降噪方法
技术领域
本发明涉及一种MP3压缩域音频自适应降噪方法,主要是在不同高斯白噪声条件下,对含有噪声的MP3音频,直接在MP3压缩域实现对MP3音频的自适应降噪处理的方法。
背景技术
音频降噪技术,是指利用信号处理和模式识别的方法,从含有噪声的音频中将噪声去除,使去除噪声后的音频有较高的信噪比和较好的质量。音频降噪是音频信号处理领域需要解决的关键技术之一。
互联网以及各种数据库中存在的大量音频数据都是以压缩格式存储,如何对压缩域中的音频数据进行处理已成为音频研究领域的一大热点。国内外学者已针对压缩音频的分割、分类、检索算法进行了大量的研究,并且能获得与非压缩音频处理相近的实验结果。但在压缩音频中混有噪声的情况下,音频分类检索算法的精度却受到严重的影响。通常,先对含有噪声的压缩域音频解压缩,再进行降噪处理,耗费的时间较多,这必然降低对压缩音频进行各种处理的效率。因此,研究如何直接基于压缩域实现音频的降噪处理,以最小计算代价实现降噪来提高压缩域音频的检索效率显得尤为重要。
在对音频进行压缩处理时考虑了人耳的听觉掩蔽特性,通过第二心理声学模型来选择修正的离散余弦变换(MDCT)的窗函数。同时,MDCT变换也是FFT变换的一种修正,且MDCT系数具有稀疏特性。因此,我们可以从压缩域音频中提取MDCT系数,然后试图寻找一种能拟合稀疏分布的模型函数用于对MDCT系数进行先验建模,然后构建滤波器,实现对压缩域音频的降噪处理。本发明正是采用上述的方法,从MPEG1标准声音第三层压缩技术MP3压缩域音频中提取MDCT系数,采用正态反高斯函数对MDCT系数的分布进行先验建模,构建最大后验概率估计函数,实现压缩域音频的降噪。
本发明所提出的降噪方法解决了MP3压缩域中含有噪声的音频降噪问题,可进一步应用于MP3音频的语音识别和分类检索***中。
发明内容
本发明的目的在于提供一种MP3压缩域音频自适应降噪方法,通过从MP3音频提取MDCT系数,对MDCT系数的分布进行先验建模,并构建估计器,实现对含有噪声的MP3音频进行降噪处理。
本发明解决其技术问题采用的技术方案为:先从MP3音频数据中提取MDCT系数,再对MDCT系数进行先验概率建模,然后构造噪声衰减估计器。同时,对MP3音频进行静音段检测,根据静音段的衰减比重来调整对含噪音频段进行噪声衰减的程度。
本发明解决其技术问题采用的技术方案还可以进一步完善。首先从MP3音频数据中提取MDCT系数,再分析MDCT系数的特性,根据MDCT系数的特性选择适用于对MDCT系数分布进行先验概率建模的正态反高斯分布函数,然后根据贝叶斯最大后验概率理论来构造噪声衰减估计器。同时,利用MDCT谱能量特征对MP3音频进行静音段检测,根据静音段的衰减比重来调整降噪处理时对噪声衰减的程度。该方法具体包括如下步骤:
1)、含有噪声的MP3压缩音频的预处理,包括对MP3帧头进行解码、边信息获取、获取主数据和缩放因子、哈夫曼解码和反量化四个部分;
2)、提取MDCT系数,并进行幅值映射处理:从反量化后的MP3帧中找出每一帧两个粒度的MDCT系数,对两个颗粒的MDCT系数按频率点求平均,构建每帧音频的MDCT谱系数,并将MDCT系数的幅值范围映射到0-L之间;
3)、对MDCT系数的分布进行先验建模并构造最大后验概率估计器:分别对不含噪声的MDCT系数和含有噪声的MDCT系数的分布情况进行分析,获得不含噪声的MDCT系数的统计特性。根据MDCT系数的稀疏统计特性,利用正态反高斯(NIG)分布函数对MDCT系数进行先验建模。根据贝叶斯最大后验概率准则,推导出基于NIG先验分布模型的估计器。
4)、静音段检测:提取基于MDCT系数的谱能量特征,根据能量特征参数检测MP3音频中的静音段;
5)、自适应迭代估计:利用3)中的估计器对含有噪声的MP3进行估计,并通过4)中检测到的静音段的衰减因子自适应地调整迭代估计的次数。
本发明有益的效果是:直接基于MP3压缩域对MP3音频进行降噪处理,比传统的将MP3压缩音频解码为非压缩的wave音频再进行降噪处理的方法而言,本发明提出的方法更简单,且节省计算时间;研究MP3音频的MDCT系数的分布特性,选择适用于对MDCT系数的分布进行先验建模的函数,实验结果表明所选择的函数能有效的拟合MDCT系数的分布;并且,基于MDCT系数的先验概率分布函数设计的噪声衰减估计器能有效地实现MP3压缩音频的降噪;同时,利用MDCT谱能量特征检测MP3音频中的静音段,再由静音段的衰减因子自适应控制衰减噪声的程度,不仅能有效的解决降噪过程中过衰减或欠衰减导致引入音频噪声的问题,而且降噪后的音频具有良好的效果。
附图说明
图1是本发明方法的流程图。
具体实施方式
本发明一种MP3压缩域音频自适应降噪方法的一个优选实施例结合附图说明如下:一种MP3压缩域音频自适应降噪方法共分为五步:
第一步:含有噪声的MP3压缩音频的预处理
含有噪声的MP3压缩音频的预处理,包括对MP3帧头进行解码、边信息获取、读取主数据和缩放因子、哈夫曼解码和反量化四个部分。
1、同步数据流和帧头信息的获取
A)、根据MP3编码格式,从MP3数据流中搜索同步信息;
B)、根据同步信息,找到MP3数据流中各帧数据的起始位置;
C)、确定数据帧的起始位置后,获取帧头信息Head;
2、边信息的获取
A)、根据MP3帧头的编码格式,确定MP3帧头中边信息的起始位置;
B)、从MP3帧头信息Head中获取边信息Side;
3、MP3主数据和缩放因子的读取
A)、根据边信息Side计算主数据的长度L;
B)、根据帧头信息Head中主数据的偏移量,确定MP3主数据的起始位置;
C)、从当前帧中获取总长度为L的主数据D;
D)、从主数据D中提取缩放因子Scale;
4、哈夫曼解码和反量化
A)、根据边信息Side确定哈夫曼解码数据的起始和结束位置;
B)、对MP3主数据D进行哈夫曼解码,得到32*18维的哈夫曼解码结果F[32,18];
C)、对哈夫曼解码结果F[32,18]中的数据进行反量化。
第二步:MDCT系数提取及幅值映射处理
1、构建每帧音频的修正离散余弦变换MDCT系数
A)、分配用于存放一帧MP3音频两个粒度的MDCT系数的n*576大小的存储空间MDCT0[n,576],MDCT1[n,576]中,其中n为MP3音频的帧数;
B)、从数组F中分别找到同一帧音频两个粒度的MDCT系数,按频率从低到高的原则重新排列,得到MDCT0[i,j],MDCT1[i,j]中;
C)、计算同一帧音频中两个粒度相同频率点处的MDCT系数的平均值,作为这一帧音频的MDCT系数值M[i,j];
M [ i , j ] = MDCT 0 [ i , j ] + MDCT 1 [ i , j ] 2
其中,MDCT0[i,j],MDCT1[i,j]分别第i帧音频的第0个粒度和第1个粒度的第j个MDCT谱值。M[i,j]为第i帧音频的第j个平均MDCT谱值。
2、MDCT系数幅值范围映射
将MDCT系数的幅值在0-1的范围线性映射到0-P之间,便于研究MDCT系数的统计分布和相应的拟合函数
x ij ′ = M [ i , j ] - M min M max - M min × P
式中,x′ij为幅值映射后的第i帧音频的第j个MDCT谱值,M[i,j]为由1中得到的第i帧音频的第j个平均MDCT谱值,Mmin为最小的MDCT谱系数,Mmax为最大的MDCT谱系数,P为映射后的最大幅值。
第三步:MDCT系数的先验建模和最大后验概率估计器
1、分析MDCT的分布特性
2、计算MDCT系数的概率分布函数
通过1的分析得到MDCT的分布具有稀疏特性后,采用正态反高斯分布函数模拟MDCT系数的分布,得到MDCT概率分布函数表示为:
p ( x ) = αδ πq ( x ) exp [ h ( x ) ] K 1 [ αq ( x ) ]
式中,
Figure BSA00000187472200044
Kλ(·)是索引为λ的第二阶修正贝塞尔函数,K1(·)是索引为1的第二阶修正贝塞尔函数,
Figure BSA00000187472200045
Figure BSA00000187472200046
0≤|β|<α,δ>0,-∞<μ<∞。其中,α为衰减因子,δ为尺度因子,μ为均值,β为倾斜因子。
3、分析参数[α,δ,β,μ]T对正态反高斯分布特性的影响
4、参数估计
采用2中的正态反高斯分布函数来拟合MDCT系数的概率分布,需要对参数[α,δ,β,μ]T进行估计。
A)、计算方差
Figure BSA00000187472200051
均值μ,倾斜因子β假设加入的噪声为零均值高斯白噪声,含噪音频的前几帧为纯噪声帧,由纯噪声帧估计噪声MDCT系数的方差
Figure BSA00000187472200052
并对含有噪声的MDCT系数计算均值μ。MP3音频信号的MDCT系数呈对称分布,因此,假设倾斜因子β=0。
B)、计算衰减因子α、尺度因子δ
不含噪声的MDCT系数的NIG分布模型的偏斜系数为
Figure BSA00000187472200053
峭度系数为
Figure BSA00000187472200054
其中
Figure BSA00000187472200055
相应的衰减因子α、尺度因子δ可通过如下式子进行估计:
δ = C 1 × γβ 2 | 1 - η 2 |
α = C 2 × β 2 2 γβ 2 / k ^ 4
其中,
Figure BSA00000187472200058
分别为含有噪声的MDCT系数的2至4阶累积量,
Figure BSA00000187472200059
Figure BSA000001874722000510
C1,C2为用于控制衰减因子α、尺度因子δ的幅值,使NIG能有效地拟合MDCT系数的分布。
C)、估计参数C1和C2
对不同音频类型,不同信噪比条件下,统计C1、C2不同取值对MDCT系数分布的模拟误差,最后得到最佳的值C1=0.1,C2=0.1;故有衰减因子α、尺度因子δ的估计式为:
δ = 0.1 × γβ 2 | 1 - η 2 |
α = 0.1 × β 2 2 γβ 2 / k ^ 4
5、设计衰减估计器
根据贝叶斯最大后验概率准则,设计基于NIG先验分布模型的估计函数:
x ^ = 1 1 + σ ϵ 2 ζ × ( y + σ ϵ 2 β ) = 1 1 + σ ϵ 2 ζ × y
式中,
Figure BSA000001874722000515
Kλ(·)是索引为λ的第二阶修正贝塞尔函数,
Figure BSA000001874722000516
为对含有噪声的MP3音频数据y进行衰减得到的无噪MP3音频数据。
相应,可得到含有噪声的MP3音频的衰减因子为:
a = 1 1 + σ ϵ 2 ζ
第四步:静音段检测
1、MDCT谱特征的提取
MDCT系数的谱能量计算如下:
EM ( i ) = 1 N Σ i = 0 N - 1 M 2 ( i , j )
其中,EM(i)为第i帧音频的MDCT谱能量,M(i,j)为第i帧音频的第j个MDCT谱均值,N为一帧音频的MDCT系数的点数N=576。对整个MP3音频段,音频段各帧的MDCT谱能量组成相应的特征矢量EM=[EM(0),EM(1),...EM(N-1)],即EM为音频段的MDCT谱能量包络。
2、判决门限的调整
A)、初始化判决门限,以整个信号的MDCT谱能量包络的均值作为初始判决门限Lth
L th = 1 N Σ i = 0 N - 1 EM ( i )
式中,EM(i)为第i帧音频的MDCT谱能量,N表示音频段的帧数,Lth为初始判决门限。
B)、门限调整:将音频段的MDCT谱包络EM中所有小于判决门限Lth的帧做为噪声帧处理,有
EMnoise(i)=EM(i)if EM(i)<Ith
式中,EMnoise(i)表示第i帧音频的MDCT谱能量值为噪声帧的MDCT谱能量值。
初始化噪声谱序列的均值和均方差,分别记为Lnoise和Snoise
L noise = 1 M Σ i = 0 M - 1 Em noise ( i )
S noise = 1 M Σ i = 0 M - 1 ( EM noise ( i ) - L noise ) 2
式中,EMnoise(i)表示第i个噪声帧的MDCT谱能量值,Lnoise、Snoise分别为噪声能量序列的均值和均方差,M为噪声段的帧数。
在得到噪声帧能量序列的均值Lnoise和均方差Snoise基础上,重新调整判决门限Lth
Lth=C0×(Lnoise+C1×Snoise)
其中,C0和C1为经验常数,实验中取C0=1.001,C1值取在1.5~2.0之间调整。调整完判决门限值Lth后,再重新区分噪声和语音帧,并重新计算噪声谱能量序列的均值Lnoise和均方差Snoise,然后调整判决门限值。如此重复至判决门限稳定。
3、活性端点的融合
A)、根据门限判断静音帧/非静音帧
E type [ i ] = 0 , EM [ i ] < L th 1 , EM [ i ] &GreaterEqual; L th
其中,Etype[i]为第i帧音频的类型,EM[i]为第i帧音频的MDCT谱能量值;音频类型Etype[i]值为0表示静音帧,类型Etype[i]值为1表示活性音频帧。
B)、计算静音段中所包含的帧数FN
C)、若FN<10,该段为连续活性音频段间的停顿,合并入对应的音频段中;
第五步:自适应迭代衰减
1、由第三步得到的衰减函数对第四步中检测到的静音段计算静音段的衰减值;
2、计算1中静音段的平均衰减值
Figure BSA00000187472200072
3、使用第三步得到的衰减函数对含有噪声的MP3音频的MDCT系数进行衰减;
4、由静音段的平均衰减值
Figure BSA00000187472200073
自适应调整迭代估计的次数:重复步骤1、2、3,当满足下面条件,则停止迭代,降噪完成:
a &OverBar; &le; a min + c
其中,为静音段的平均衰减值,amin为整段音频的最小衰减因子,可以通过MDCT系数的高频段获得。C用于控制余留分量,取C=0.001,见附图1。
实验结果
本实验使用了中央电视台广播音频资料进行了试验。音频资料的格式为MP3,采样频率为44.1KHz。音频类型有:语音、音乐、语音和音乐混合的音频。每种类型的音频各选择20首。分别对各种类型的音频加入不同程度的高斯白噪声,采用本研究提出的自适应降噪算法对含有噪声的MP3音频进行处理。降噪处理后的信噪比SNR采用的计算方法为:
SNR = 10 log 10 &Sigma; n = 0 N - 1 x 2 ( n ) &Sigma; n = 0 N - 1 ( x ( n ) - x ^ ( n ) ) 2
其中,x(n)为不含噪声的MP3音频解码得到的PCM数据,
Figure BSA00000187472200082
为降噪处理后的MP3音频解码得到的PCM数据。降噪处理前后的信噪比SNR对比结果如表1所示:
表1:对MP3音频降噪前后的信噪比SNR对比
 MP3音频信号  降噪前的SNR   降噪后的SNR   平均信噪比增益
  音乐1   -5db   8.11db   13.11db
  音乐2   0db   11.40db   11.40db
  音乐3   5db   14.89db   9.89db
  音乐4   10db   17.93db   7.93db
  音乐5   15db   22.57db   7.57db
  语音1   -5db   8.12db   13.12db
  语音2   0db   10.78db   10.78db
  音乐+语音1   -5db   6.26db   11.26db
  音乐+语音2   0db   9.13db   9.13db
大量的统计实验表明,本发明的基于MP3压缩域音频的降噪方法能直接基于MP3压缩域,有效实现对不同类型的含有噪声的MP3音频进行降噪处理。降噪处理后的MP3音频的信噪比得到很大提高,并且处理后的音频有良好的听觉感知效果。本研究解决了直接基于MP3压缩域音频的降噪问题,也为MP3音频分类检索的抗噪算法研究提出了一个新的思路。

Claims (7)

1.一种MP3压缩域音频自适应降噪方法,其特征在于:首先从MP3压缩音频中提取体现原始音频频域特性的MDCT系数,然后分析MDCT系数的稀疏统计特性,采用正态反高斯(NIG)分布函数对MDCT系数进行先验建模,再利用贝叶斯准则设计基于NIG先验概率模型的最大后验概率估计器,得到相应音频段的衰减因子;最后在降噪部分,利用MDCT谱能量特征检测MP3音频中的静音段,并通过检测出的静音段的衰减权重自适应控制衰减噪声的迭代次数,由此实现对MP3压缩音频的自适应降噪。
2.根据权利要求1所述的MP3压缩域音频自适应降噪方法,其特征在于:具体操作步骤如下:
1)、含有噪声的MP3压缩音频的预处理,包括对MP3帧头进行解码、边信息获取、获取主数据和缩放因子、哈夫曼解码和反量化;
2)、提取MDCT系数,并进行幅值映射处理:从反量化后的MP3帧中找出每一帧两个粒度的MDCT系数,对两个颗粒的MDCT系数按频率点求平均,构建每帧音频的MDCT谱系数,并将MDCT系数的幅值范围映射到0-L之间;
3)、对MDCT系数的分布进行先验建模并构造最大后验概率估计器:分别对不含噪声的MDCT系数和含有噪声的MDCT系数的分布情况进行分析,获得不含噪声的MDCT系数的统计特性;根据MDCT系数的稀疏统计特性,利用正态反高斯(NIG)分布函数对MDCT系数进行先验建模;根据贝叶斯最大后验概率准则,设计基于NIG先验分布模型的噪声衰减估计器;
4)、静音段检测:提取基于MDCT系数的谱能量特征,根据MDCT谱能量特征参数检测MP3音频中的静音段;
5)、自适应迭代估计:利用步骤3)中的估计器对含有噪声的MP3进行估计,并通过步骤4)中检测到的静音段的衰减因子自适应地调整迭代估计的次数。
3.根据权利要求2所述的MP3压缩域音频降噪处理方法,其特征在于:所述步骤1)中的进行MP3压缩音频预处理具体步骤如下:
①、同步数据流和帧头信息的获取;
A)、根据MP3编码格式,从MP3数据流中搜索同步信息;
B)、根据同步信息,找到MP3数据流中各帧数据的起始位置;
C)、确定数据帧的起始位置后,获取帧头信息Head;
②、从解码得到的帧头信息中获取边信息
A)、根据MP3帧头的编码格式,确定MP3帧头中边信息的起始位置;
B)、从MP3帧头信息Head中获取边信息Side;
③、提取MP3主数据和缩放因子
A)、根据边信息Side计算主数据的长度L;
B)、根据帧头信息Head中主数据的偏移量,确定MP3主数据的起始位置;
C)、从当前帧中获取总长度为L的主数据D;
D)、从主数据D中提取缩放因子Scale;
④、对MP3主数据流进行哈夫曼解码和反量化
A)、根据边信息Side确定哈夫曼解码数据的起始和结束位置;
B)、对MP3主数据D进行哈夫曼解码,得到32*18维的哈夫曼解码结果F[32,18];
C)、对哈夫曼解码结果F[32,18]中的数据进行反量化。
4.根据权利要求2所述的MP3压缩域音频降噪处理方法,其特征在于:所述步骤2)中的MDCT系数提取及幅值映射处理具体步骤如下:
①、构建每帧音频的修正离散余弦变换MDCT系数
A)、分配用于存放一帧MP3音频两个粒度的MDCT系数的n*576大小的存储空间MDCT0[n,576],MDCT1[n,576]中,其中n为MP3音频的帧数;
B)、从数组F中分别找到同一帧音频两个粒度的MDCT系数,按频率从低到高的原则重新排列,得到MDCT0[i,j],MDCT1[i,j];
C)、计算同一帧音频中两个粒度相同频率点处的MDCT系数的平均值,作为这一帧音频的MDCT系数值M[i,j];
M [ i , j ] = MDCT 0 [ i , j ] + MDCT 1 [ i , j ] 2
其中,MDCT0[i,j],MDCT1[i,j]分别第i帧音频的第0个粒度和第1个粒度的第j个MDCT谱值;M[i,j]为第i帧音频的第j个平均MDCT谱值;
②、MDCT系数幅值范围映射:将MDCT系数的幅值在0-1的范围线性映射到0-P之间,便于研究MDCT系数的统计分布和相应的拟合函数:
x ij &prime; = M [ i , j ] - M min M max - M min &times; P
式中x′ij为幅值映射后的第i帧音频的第j个MDCT谱值,M[i,j]为由①得到的第i帧音频的第j个平均MDCT谱值,Mmin为最小的MDCT谱系数,Mmax为最大的MDCT谱系数,P为映射后的最大幅值。
5.根据权利要求2所述的MP3压缩域音频降噪处理方法,其特征在于:所述步骤3)中对MDCT系数的分布进行先验建模并构造最大后验概率估计器具体步骤如下:
①、分析MDCT的分布特性
②、计算MDCT系数的概率分布函数
通过步骤①的分析得到MDCT的分布具有稀疏特性后,采用正态反高斯分布函数模拟MDCT系数的分布,得到MDCT概率分布函数表示为:
p ( x ) = &alpha;&delta; &pi;q ( x ) exp [ h ( x ) ] K 1 [ &alpha;q ( x ) ]
式中:
Figure FSA00000187472100032
Kλ(·)是索引为λ的第二阶修正贝塞尔函数,K1(·)是索引为1的第二阶修正贝塞尔函数,
Figure FSA00000187472100033
Figure FSA00000187472100034
0≤|β|<α,δ>0,-∞<μ<∞。其中,α为衰减因子,δ为尺度因子,μ为均值,β为倾斜因子。
③、分析衰减因子α、尺度因子δ,均值μ,倾斜因子β四个参数对正态反高斯分布特性的影响
④、参数估计
采用步骤②中的正态反高斯分布函数来拟合MDCT系数的概率分布,需要对决定正态反高斯分布形状的四个参数[α,δ,β,μ]T进行估计:
A)、计算方差
Figure FSA00000187472100035
均值μ,倾斜因子β假设加入的噪声为零均值高斯白噪声,含噪音频的前几帧为纯噪声帧,由纯噪声帧估计噪声MDCT系数的方差
Figure FSA00000187472100036
并对含有噪声的MDCT系数计算均值μ,MP3音频信号的MDCT系数呈对称分布,因此,假设倾斜因子β=0;
B)、计算衰减因子α、尺度因子δ
采用NIG分布模型的偏斜系数和峭度系数来估计衰减因子α和尺度因子δ;不含噪声的MDCT系数的NIG分布模型的偏斜系数为
Figure FSA00000187472100037
峭度系数为
Figure FSA00000187472100038
其中
Figure FSA00000187472100039
相应的衰减因子α、尺度因子δ通过如下式子进行估计:
&delta; = C 1 &times; &gamma;&beta; 2 | 1 - &eta; 2 |
&alpha; = C 2 &times; &beta; 2 2 &gamma;&beta; 2 / k ^ 4
其中,
Figure FSA00000187472100043
分别为含有噪声的MDCT系数的2至4阶累积量,
Figure FSA00000187472100044
Figure FSA00000187472100045
参数C1,C2为衰减因子α、尺度因子δ的权值,通过选择合适的C1,C2值,使NIG能有效地拟合MDCT系数的分布;
C)、估计衰减因子和尺度因子的权值C1、C2
对不同音频类型,不同信噪比条件下,统计C1、C2取不同值时对MDCT系数分布的拟合误差,最后得到最佳的值C1=0.1,C2=0.1;故有衰减因子α、尺度因子δ的估计式为:
&delta; = 0.1 &times; &gamma;&beta; 2 | 1 - &eta; 2 |
&alpha; = 0.1 &times; &beta; 2 2 &gamma;&beta; 2 / k ^ 4
⑤、根据贝叶斯最大后验概率准则,设计基于NIG先验分布模型的噪声衰减函数:
x ^ = 1 1 + &sigma; &epsiv; 2 &zeta; &times; ( y + &sigma; &epsiv; 2 &beta; ) = 1 1 + &sigma; &epsiv; 2 &zeta; &times; y
式中,
Figure FSA00000187472100049
Kλ(·)是索引为λ的第二阶修正贝塞尔函数,
Figure FSA000001874721000411
为对含有噪声的MP3音频数据y进行衰减得到的无噪MP3音频数据;
相应,可得到含有噪声的MP3音频的衰减因子为:
a = 1 1 + &sigma; &epsiv; 2 &zeta; .
6.根据权利要求2所述的MP3压缩域音频降噪处理方法,其特征在于:所述步骤4)静音段检测具体步骤如下:
①、提取基于MDCT系数的谱特征
EM ( i ) = 1 N &Sigma; j = 0 N - 1 M 2 ( i , j )
其中,EM(i)为第i帧音频的MDCT谱能量,M(i,j)为第i帧音频的第j个MDCT谱均值,N为一帧音频的MDCT系数的点数N=576,对整个MP3音频段,音频段各帧的MDCT谱能量组成相应的特征矢量EM=[EM(0),EM(1),...,EM(N-1)],即EM为音频段的MDCT谱能量包络;
②、根据MDCT谱能量特征调整判决门限
A)、初始化判决门限,以整个信号的MDCT谱能量包络的均值作为初始判决门限Lth
L th = 1 N &Sigma; i = 0 N - 1 EM ( i )
式中,EM(i)为第i帧音频的MDCT谱能量,N表示音频段的帧数,Lth为初始判决门限;
B)、门限调整:将音频段的MDCT谱包络EM中所有小于判决门限Lth的帧做为噪声帧处理,有
EMnoise(i)=EM(i)if EM(i)<Lth
式中,EMnoise(i)表示第i帧音频的MDCT谱能量值为噪声帧的MDCT谱能量值,
初始化噪声谱序列的均值和均方差,分别记为Lnoise和Snoise
L noise = 1 M &Sigma; i = 0 M - 1 Em noise ( i )
S noise = 1 M &Sigma; i = 0 M - 1 ( EM noise ( i ) - L noise ) 2
式中,EMnoise(i)表示第i个噪声帧的MDCT谱能量值,Lnoise、Snoise分别为噪声能量序列的均值和均方差,M为噪声段的帧数;
在得到噪声帧能量序列的均值Lnoise和均方差Snoise基础上,重新调整判决门限Lth
Lth=C0×(Lnoise+C1×Snoise)
其中,C0和C1为经验常数,实验中取C0=1.001,C1值取在1.5~2.0之间调整;调整完判决门限值Lth后,再重新区分噪声和语音帧,并重新计算噪声谱能量序列的均值Lnoise和均方差Snoise,然后调整判决门限值;如此重复至判决门限稳定;
③、活性端点的融合
A)、根据门限判断静音帧/非静音帧
E type [ i ] = 0 , EM [ i ] < L th 1 , EM [ i ] &GreaterEqual; L th
Etype[i]为第i帧音频的类型,EM[i]为第i帧音频的MDCT谱能量值;音频类型Etype[i]值为0表示静音帧,类型Etype[i]值为1表示活性音频帧;
B)、计算静音段中所包含的帧数FN
C)、若FN<10,该段为连续活性音频段间的停顿,合并入对应的音频段中。
7.根据权利要求2所述的MP3压缩域音频降噪处理方法,其特征在于:所述步骤5)自适应迭代估计具体步骤如下:
①、由权利要求5中的步骤⑤得到的衰减函数对权利要求6中检测到的静音段计算静音段的衰减值;
②、计算步骤①中静音段的平均衰减值
Figure FSA00000187472100061
③、使用权利要求5得到的衰减函数对含有噪声的MP3音频的MDCT系数进行衰减;
④、由静音段的平均衰减值
Figure FSA00000187472100062
自适应调整迭代估计的次数:重复步骤①、②、⑤,当满足以下条件下,停止迭代,降噪完成:
a &OverBar; &le; a min + c
Figure FSA00000187472100064
为静音段的平均衰减值,amin为整段音频的最小衰减因子,可以通过MDCT系数的高频段获得,C用于控制余留分量,取C=0.001。
CN2010102154044A 2010-06-29 2010-06-29 一种mp3压缩域音频自适应降噪方法 Expired - Fee Related CN101930746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102154044A CN101930746B (zh) 2010-06-29 2010-06-29 一种mp3压缩域音频自适应降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102154044A CN101930746B (zh) 2010-06-29 2010-06-29 一种mp3压缩域音频自适应降噪方法

Publications (2)

Publication Number Publication Date
CN101930746A true CN101930746A (zh) 2010-12-29
CN101930746B CN101930746B (zh) 2012-05-02

Family

ID=43369879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102154044A Expired - Fee Related CN101930746B (zh) 2010-06-29 2010-06-29 一种mp3压缩域音频自适应降噪方法

Country Status (1)

Country Link
CN (1) CN101930746B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102723082A (zh) * 2011-03-21 2012-10-10 半导体元件工业有限责任公司 基于保持语音信息的单耳音频处理***和方法
CN103730123A (zh) * 2012-10-12 2014-04-16 联芯科技有限公司 噪声抑制中衰减因子的估计方法和装置
CN103971698A (zh) * 2013-01-25 2014-08-06 北京千橡网景科技发展有限公司 用于语音实时降噪的方法和设备
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
CN108595386A (zh) * 2018-05-07 2018-09-28 长沙理工大学 基于高阶累积量分析的分布式光纤振动测量方法及装置
CN110838306A (zh) * 2019-11-12 2020-02-25 广州视源电子科技股份有限公司 语音信号检测方法、计算机存储介质及相关设备
WO2020078400A1 (zh) * 2018-10-17 2020-04-23 成都天奥信息科技有限公司 一种应用于超短波电台的语音增强方法
CN112863546A (zh) * 2021-01-21 2021-05-28 安徽理工大学 音频特征决策的带式运输机健康分析方法
CN113436637A (zh) * 2021-06-20 2021-09-24 杭州登虹科技有限公司 一种音频流量的压缩算法
CN116417015A (zh) * 2023-04-03 2023-07-11 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324502B1 (en) * 1996-02-01 2001-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Noisy speech autoregression parameter enhancement method and apparatus
US20030014248A1 (en) * 2001-04-27 2003-01-16 Csem, Centre Suisse D'electronique Et De Microtechnique Sa Method and system for enhancing speech in a noisy environment
CN1624767A (zh) * 2003-12-03 2005-06-08 富士通株式会社 降噪装置和降噪方法
EP1760696A2 (en) * 2005-09-03 2007-03-07 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
CN101142623A (zh) * 2003-11-28 2008-03-12 斯盖沃克斯瑟路申斯公司 用于语音编码和语音识别的噪音抑制器
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324502B1 (en) * 1996-02-01 2001-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Noisy speech autoregression parameter enhancement method and apparatus
US20030014248A1 (en) * 2001-04-27 2003-01-16 Csem, Centre Suisse D'electronique Et De Microtechnique Sa Method and system for enhancing speech in a noisy environment
CN101142623A (zh) * 2003-11-28 2008-03-12 斯盖沃克斯瑟路申斯公司 用于语音编码和语音识别的噪音抑制器
CN1624767A (zh) * 2003-12-03 2005-06-08 富士通株式会社 降噪装置和降噪方法
EP1760696A2 (en) * 2005-09-03 2007-03-07 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102723082A (zh) * 2011-03-21 2012-10-10 半导体元件工业有限责任公司 基于保持语音信息的单耳音频处理***和方法
CN103730123A (zh) * 2012-10-12 2014-04-16 联芯科技有限公司 噪声抑制中衰减因子的估计方法和装置
CN103971698A (zh) * 2013-01-25 2014-08-06 北京千橡网景科技发展有限公司 用于语音实时降噪的方法和设备
CN103971698B (zh) * 2013-01-25 2019-01-11 北京千橡网景科技发展有限公司 用于语音实时降噪的方法和设备
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
CN108595386A (zh) * 2018-05-07 2018-09-28 长沙理工大学 基于高阶累积量分析的分布式光纤振动测量方法及装置
WO2020078400A1 (zh) * 2018-10-17 2020-04-23 成都天奥信息科技有限公司 一种应用于超短波电台的语音增强方法
CN110838306A (zh) * 2019-11-12 2020-02-25 广州视源电子科技股份有限公司 语音信号检测方法、计算机存储介质及相关设备
CN110838306B (zh) * 2019-11-12 2022-05-13 广州视源电子科技股份有限公司 语音信号检测方法、计算机存储介质及相关设备
CN112863546A (zh) * 2021-01-21 2021-05-28 安徽理工大学 音频特征决策的带式运输机健康分析方法
CN113436637A (zh) * 2021-06-20 2021-09-24 杭州登虹科技有限公司 一种音频流量的压缩算法
CN116417015A (zh) * 2023-04-03 2023-07-11 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Also Published As

Publication number Publication date
CN101930746B (zh) 2012-05-02

Similar Documents

Publication Publication Date Title
CN101930746B (zh) 一种mp3压缩域音频自适应降噪方法
US8712074B2 (en) Noise spectrum tracking in noisy acoustical signals
US9130526B2 (en) Signal processing apparatus
CN109378013B (zh) 一种语音降噪方法
CN103871421A (zh) 一种基于子带噪声分析的自适应降噪方法与***
Jangjit et al. A new wavelet denoising method for noise threshold
CN101625869A (zh) 一种基于小波包能量的非空气传导语音增强方法
CN104091593A (zh) 采用感知语谱结构边界参数的语音端点检测算法
CN103578466B (zh) 基于分数阶傅里叶变换的语音非语音检测方法
CN102314883B (zh) 一种判断音乐噪声的方法以及语音消噪方法
JP5443547B2 (ja) 信号処理装置
CN102169694A (zh) 生成心理声学模型的方法及装置
US8935159B2 (en) Noise removing system in voice communication, apparatus and method thereof
Saoud et al. New speech enhancement based on discrete orthonormal stockwell transform
Surendran et al. Variance normalized perceptual subspace speech enhancement
Yann Transform based speech enhancement techniques
Sulong et al. Speech enhancement based on wiener filter and compressive sensing
CN117437931B (zh) 一种用于传声器的声音信号优化传输方法
Faek et al. Speaker recognition from noisy spoken sentences
Deepa et al. The Influence of Speech Enhancement Algorithm in Speech Compression with Voice Excited Linear Predictive Coding
Dhanaskodi et al. Speech enhancement algorithm using sub band two step decision directed approach with adaptive weighting factor and noise masking threshold
Mirbagheri et al. An Auditory Inspired Multimodal Framework for Speech Enhancement.
Ahuja Speech Signal De-noising using Wavelet Transform and Different Standard Softwares: Performance Evaluation and Comparisons Study
Rao et al. A novel two stage single channel speech enhancement technique
Lin et al. Speech enhancement based on a perceptual modification of Wiener filtering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120502

Termination date: 20140629

EXPY Termination of patent right or utility model