CN101894557B - 一种用于aac编码的窗型判别方法 - Google Patents

一种用于aac编码的窗型判别方法 Download PDF

Info

Publication number
CN101894557B
CN101894557B CN2010102062894A CN201010206289A CN101894557B CN 101894557 B CN101894557 B CN 101894557B CN 2010102062894 A CN2010102062894 A CN 2010102062894A CN 201010206289 A CN201010206289 A CN 201010206289A CN 101894557 B CN101894557 B CN 101894557B
Authority
CN
China
Prior art keywords
frame
peak
var
energy
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010102062894A
Other languages
English (en)
Other versions
CN101894557A (zh
Inventor
毛峡
李硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2010102062894A priority Critical patent/CN101894557B/zh
Publication of CN101894557A publication Critical patent/CN101894557A/zh
Application granted granted Critical
Publication of CN101894557B publication Critical patent/CN101894557B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于AAC编码中的基于帧内数据能量方差与帧间时域能量峰值比较的窗型判别方法。其包括:步骤一:将输入的时域音频帧信号进行均匀分块;步骤二:对每块音频信号求总能量并对该帧各块音频信号能量求方差E_var;布骤三:求出该帧与前一帧中各块的能量峰值E_peak与El_peak;步骤四:通过对步骤二与步骤三中得出的结果进行分析,判断该帧的窗类型。由于本发明的整个判别过程都是在时域范围内进行,避免了复杂且消耗大量***资源的时频变换。同时,帧内数据能量方差与帧间数据能量峰值的计算运算复杂度也很低且最终得出的窗型判别结果良好。

Description

一种用于AAC编码的窗型判别方法
技术领域
本发明涉及音频压缩编码领域,特别是涉及到一种AAC编码过程中使用到的窗型判别方法。
背景技术
AAC(Advanced Audio Coding)是ISO MPEG组织在MPEG-2基础上发展起来的一种新一代感知音频压缩编码技术,后来MPEG-4标准对该技术进行了进一步的增强。该技术综合了多种主流音频编码技术的优点,具有信号压缩比高,重建音质好,编解码过程高度模块化和声道配置灵活等特点。与以往的算法相比,AAC采用了一些新的编码工具,并且为了针对不同的要求提供不同的服务,MPEG-4 AAC分为了4个层次的应用,即主层次MAIN(Main),低复杂度层次LC(low complexity),采样率可分级层次SSR(Scaleable Sampling Rate)和长时预测层次LTP(Long Time Prediction),各层编、解码复杂度不一样。
通常,AAC使用其标准建议的基于感知熵的窗口判决方法,其实现按如下步骤进行:
(1)计算输入时域信号的复频谱
将当前输入的1024个采样点的时域信号与前一帧的1024个采样点的时域信号按先后顺序组合为一组2048采样点的叠加信号,对这组信号进行加窗并做FFT变换,得到处理块的复数谱r(w)和f(w),分别代表幅度部分和相位部分。
(2)计算当前处理块的可预测部分
r_pred(w)=2.0×r(t-1)-r(t-2)    (1)
f_pred(w)=2.0×f(t-1)-f(t-2)    (2)
式中,t-1指向前一处理块,t-2指向再之前的处理块。
(3)计算不可预测性
根据之前得出的处理块的可预测部分与复频谱,可以得到不可预测的度量
c(w)=((r(w)×cos(f(w))-r_pred(w)×cos(f_pred(w)))2
+(r(w)×sin(f(w))-r_pred(w)×sin(f_pred(w)))2)0.5)/r(w)    (3)
+abs(r_pred(w))
此公式用于短块FFT情况时的计算,对于长块FFT,最低频的6个系数用此公式,而高频部分全部设为0.4。
对于每个掩蔽阈值区间计算分区能量e(b)以及不可预测部分的能量c(b),其中b是区域的序号,依据AAC标准,不同的采样率对应不同的掩蔽阈值区间划分,e(b)和c(b)的计算公式如下所示。
e ( b ) = Σ i - min _ line max _ line r ( i ) 2 - - - ( 4 )
c ( b ) = Σ i - min _ line max _ line r ( i ) 2 × c ( i ) - - - ( 5 )
(4)计算扩展函数
由于各个临界频带的掩蔽效应并不止存在于本频带内,也会在频带之间产生一种可估计的掩蔽效应,称为扩展掩蔽效应,计算函数如下:
if j≥i tmpx=3.0(j-i)
tmpz=8×min imun((tmpx-0.5)2-2(tmpx-0.5,0)
tmpy=15.811389+7.5(tmpx+0.474)-17.5(1.0+(tmpx+0.474)2)0.5    (6)
if tmpy<-100sprdngf(i,j)=0
else sprdngf(i,j)=10[(tmpz+tmpy)/10]
(5)用扩展函数卷积分区能量和不可预测度
ecb ( b ) = Σ m = 0 max _ prediction e ( m ) × sprdngf [ bval ( m ) , bval ( b ) ] - - - ( 7 )
ct ( b ) = Σ m = 0 max _ prediction c ( m ) × sprdngf [ bval ( m ) , bval ( b ) ] - - - ( 8 )
不可预测度ct(b)与ecb(b)是经过能量加权的,将其重新归一化得到cb(b)与en(b)。
(6)计算音调索引tb(b)与信噪比SNR(b):
tb(b)=-0.299-0.431n(cb(b))                (9)
SNR(b)=tb(b)×TMN(b)+(1-tb(b))×NMT(b)    (10)
其中TMN固定为6dB,NMT固定为18dB。
(7)计算能量阈值
nb(b)=en(b)×10-SNR(b)/10    (11)
为了进行前回声控制,并考虑到安静阈值qsthr(b),对nb(b)做如下修正:
nb(b)=max(qsthr(b),min(nb(b),nb_l(b)×rpelev))    (12)
其中nb_l(b)表示上一帧的nb值,rpelev在短块时值为1,在长块时值为2。
(8)计算感知熵PE并做窗型判决
PE = Σ b = 0 max _ prediction - [ w _ high ( b ) - w _ low ( b ) ] × lg [ nb ( b ) / e ( b ) + 1 ] - - - ( 13 )
其中,w_high(b)与w_low(b)可以从标准中查到,得到PE后,让PE与固定阈值switch_pe比较,若PE大于switch_pe,则编码使用短窗,否则采用长窗。但如果前一帧采用长窗而本帧判决为使用短窗,则使用过渡窗,否则使用短窗。
由上述的基于感知熵的窗型判别方法可以看出,该方法运用了时频变换,并且随后在时域与频域对于信号进行了大量的计算。AAC在44.1Khz采样率和64Kbps码率时,心理声学模型的计算量占整个编码的22%,对于心理声学模型快速算法的研究是非常有必要的。
发明内容
为了克服AAC编码过程中窗型判别模块高复杂度的缺陷,本发明提出了基于帧内数据能量方差与帧间时域能量峰值比较的窗型判别方法。
本发明的主要内容为:使用基于帧内数据能量方差与帧间时域能量峰值比较的方法进行AAC编码中的窗型判别,舍弃了AAC标准建议的基于感知熵的窗型判别方法。
该方法的具体步骤如下:
步骤一:将输入的时域音频帧信号进行均匀分块;
步骤二:对每块音频信号求总能量并对该帧各块音频信号能量求方差E_var;
步骤三:求出该帧与前一帧中各块的能量峰值E_peak与El_peak;
步骤四:通过对步骤二与步骤三中得出的结果进行分析,判断该帧的窗类型。
其中,在步骤一中,在传统的每帧音频数据为1024个采样点的情况下,将输入的时域信号均匀的分为N块,其中N=8。
在步骤二中,为了对不同强度的音频信号进行统一的能量方差阈值设定,必须排除音频强度的影响,于是对E_var进行如下调整:
首先由式(1)求出E_var。
E _ var = var ( Σ i = 1 1024 / N x 2 1 i , Σ i = 1 1024 / N x 2 2 i , . . . , Σ i = 1 1024 / N x 2 ji , . . . , Σ i = 1 1024 / N x 2 Ni ) - - - ( 1 )
再由式(2)所示对E_var进行调整。
E_var=E_var/Esum               (2)
其中Esum是该帧音频信号总能量,如式(3)所示:
E sum = Σ i = 1 1024 x i 2 - - - ( 3 )
在步骤三中,如式(4)与式(5)所示求出该帧与前一帧中各块的能量峰值E_peak与El_peak用于帧间数据能量峰值的比较。
E_peak=max(E1,E2...EN)        (4)
El_peak=max(El1,El2...ElN)    (5)
其中,En与Eln分别指该帧与前一帧中第n个子块的总能量,其中,1≤n≤8。
步骤四中,先对前一帧已判决出的窗型进行判断,若前一帧数据判断为短窗,则将步骤二中求得的帧内各块能量方差E_var与阈值Evlth进行比较,其中,Evlth=k×Evth,k为一个值为0~1的系数,设为2/3,Evth为实验得出的经验阈值,为0.07。若E_var≥Evlth,则直接将该帧判定为短窗,否则将该帧判定为长窗;若前一帧数据判断为长窗,则将E_var与阈值Evlth进行比较,若E_var<Evlth,则直接判定该帧窗型为长窗,若E_var≥Evlth,并不直接判断该帧窗型为短窗,而是对步骤三中得出的该帧与前一帧中各块的能量峰值E_peak与El_peak进行比较,若E_peak-El_peak≥Epeakth,则判断该帧窗型为短窗,否则判断该帧窗型为长窗。特别的,当处理音频文件的第一帧时,没有判断前一帧的步骤,而是直接将计算出的E_var与阈值Evlth进行比较,若E_var<Evlth,则判定该帧窗型为长窗,否则判定为短窗。
本发明的优点以及积极效果在于:由于本发明的整个判别过程都是在时域范围内进行,避免了复杂且消耗大量***资源的时频变换。同时,帧内数据能量方差与帧间数据能量峰值的计算运算复杂度也很低且最终得出的窗型判别结果良好。本发明可以有效运用有实时性要求的AAC编码设备中。
附图说明
图1是本发明中的窗型判别流程图
具体实施方式
本发明是一种用于AAC音频编码的窗型判别方法,该方法主要是利用能量守恒原理,不使用复杂且耗费大量***资源的时频变换,将所有的运算都集中时域内进行。
本发明的主要内容为:使用基于帧内数据能量方差与帧间时域能量峰值比较的方法进行AAC编码中的窗型判别,下面结合附图,对本发明的技术方案做进一步说明。主要步骤如下:
步骤一:将输入的时域音频帧信号进行均匀分块。在AAC标准建议的每帧处理音频数据为1024个采样点的情况下,将输入的时域信号均匀的分为N块,其中N=8。
步骤二:如图1的101中对每块音频信号求总能量并进入102中,在102中依式(1)求出该帧各块音频信号能量方差E_var。为了对不同强度的音频信号进行统一的能量方差阈值设定,必须排除音频强度的影响,于是对E_var进行如式(2)的调整。
E _ var = var ( Σ i = 1 1024 / N x 2 1 i , Σ i = 1 1024 / N x 2 2 i , . . . , Σ i = 1 1024 / N x 2 ji , . . . , Σ i = 1 1024 / N x 2 Ni ) - - - ( 1 )
E_var=E_var/Esum    (2)
其中Esum是该帧音频信号总能量,如式(3)所示。
E sum = Σ i = 1 1024 x i 2 - - - ( 3 )
在步骤三中,如式(4)与式(5)所示求出该帧数据与前一帧数据中各块的能量峰值E_peak与El_peak用于帧间数据能量峰值的比较。
E_peak=max(E1,E2,...,En,...,EN)    (4)
El_peak=max(El1,El2...,Eln,...,ElN) (5)
其中,En与Eln分别指该帧与前一帧中第n个子块的总能量,其中,1≤n≤8。
步骤四:通过对步骤二与步骤三中得出的结果进行分析,判断该帧的窗类型。首先如103中对前一帧已判决出的窗型进行判断,若前一帧数据判断为短窗,则进入104,将步骤二中求得的帧内各块能量方差E_var与阈值Evlth进行比较,其中,Evlth=k×Evth,k为一个值为0~1的系数,设为2/3,Evth为实验得出的经验阈值,为0.07。若E_var≥Evlth,则进入108,直接将该帧判定为短窗,否则进入107,将该帧判定为长窗;若前一帧数据判断为长窗,则进入105并将E_var与阈值Evlth进行比较,若E_var<Evlth,则进入107,直接判定该帧窗型为长窗。若E_var≥Evlth,并不直接判断该帧窗型为短窗,而是进入106对步骤三中得出的该帧与前一帧中各块的能量峰值E_peak与El_peak进行比较,若Peak_compr≥EPeakth(其中Peak_compr=E_peak-El_peak,EPeakth为0.08),则进入108并判断该帧窗型为短窗,否则进入107并判断该帧窗型为长窗。特别的,当处理音频文件的第一帧时,没有判断前一帧的步骤,而是直接将计算出的E_var与阈值Evlth进行比较,若E_var<Evlth,则直接进入107判定该帧窗型为长窗,否则直接进入108判定该帧窗型为短窗。
说明书附图中出现的英文缩写,其含义如下:
E_var:一帧中各块能量的方差;
Evth:方差能量阈值,其值为0.07;
Peak_cmpr:Peak_compr=E_peak-El_peak,为本帧与前一帧中各块能量峰值之差;
Epeakth:峰值比阈值,设为0.08。

Claims (5)

1.一种用于AAC编码中的基于帧内数据能量方差与帧间时域能量峰值比较的窗型判别方法,该方法的具体步骤如下:
步骤一:将输入的时域音频帧信号进行均匀分块;
步骤二:对每块音频信号求总能量并对该帧各块音频信号能量求方差E_var;
步骤三:求出该帧与前一帧中各块的能量峰值E_peak与El_peak;
步骤四:先对前一帧已判决出的窗型进行判断,若前一帧数据判断为短窗,则将步骤二中求得的帧内各块能量方差E_var与阈值Evlth进行比较,其中,Evlth=k×Evth,k为一个值为0~1的系数,Evth为实验得出的经验阈值,若E_var≥Evlth,则直接将该帧判定为短窗,否则将该帧判定为长窗;若前一帧数据判断为长窗,则将E_var与阈值Evlth进行比较,若E_var<Evlth,则直接判定该帧窗型为长窗,若E_var≥Evlth,并不直接判断该帧窗型为短窗,而是对步骤三中得出的该帧与前一帧中各块的能量峰值E_peak与El_peak进行比较,若Peak_compr≥EPeakth,其中Peak_compr=E_peak-El_peak,EPeakth为0.08,则判断该帧窗型为短窗,否则判断该帧窗型为长窗,当处理音频文件的第一帧时,没有判断前一帧的步骤,而是直接将计算出的E_var与阈值Evlth进行比较,若E_var<Evlth,则判定该帧窗型为长窗,否则判定为短窗。
2.根据权利要求1所述方法,其特征在于:步骤一中,将输入的1024个时域采样点的音频数据均匀划分为N块,其中N=8。
3.根据权利要求1所述方法,其特征在于:步骤二中,首先依式(1)求出该帧各块音频信号能量方差E_var,为了对不同强度的音频信号进行统一的能量方差阈值设定,必须排除音频强度的影响,于是对E_var进行如式(2)的调整;
E _ var = var ( Σ i = 1 1024 / N x 2 1 i , Σ i = 1 1024 / N x 2 2 i , . . . , Σ i = 1 1024 / N x 2 ji , . . . , Σ i = 1 1024 / N x 2 Ni ) - - - ( 1 )
E_var=E_var/Esum    (2)
其中Esum是该帧音频信号总能量,
Figure FSB00000621604200021
4.根据权利要求1所述方法,其特征在于:步骤三中,如式(3)与式(4)所示求出该帧数据与前一帧数据中各块的能量峰值E_peak与El_peak用于帧间数据能量峰值的比较
E_peak=max(E1,E2,...,En,...,EN)     (3)
El_peak=max(El1,El2...,Eln,...,ElN)  (4)
其中,En与Eln分别指该帧与前一帧中第n个子块的总能量,其中,1≤n≤8。
5.根据权利要求1所述方法,其特征在于:步骤四中,k=2/3,Evth=0.07,Epeakth=0.08。
CN2010102062894A 2010-06-12 2010-06-12 一种用于aac编码的窗型判别方法 Expired - Fee Related CN101894557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102062894A CN101894557B (zh) 2010-06-12 2010-06-12 一种用于aac编码的窗型判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102062894A CN101894557B (zh) 2010-06-12 2010-06-12 一种用于aac编码的窗型判别方法

Publications (2)

Publication Number Publication Date
CN101894557A CN101894557A (zh) 2010-11-24
CN101894557B true CN101894557B (zh) 2011-12-07

Family

ID=43103728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102062894A Expired - Fee Related CN101894557B (zh) 2010-06-12 2010-06-12 一种用于aac编码的窗型判别方法

Country Status (1)

Country Link
CN (1) CN101894557B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9077327B2 (en) * 2013-11-04 2015-07-07 Texas Instruments Incorporated Optimized peak detector for the AGC loop in a digital radio receiver
CN107068155A (zh) * 2017-01-23 2017-08-18 天津大学 一种基于方差和时域峰值的多级音频暂稳态判决方法
CN110880957B (zh) * 2019-11-01 2021-06-29 腾讯科技(深圳)有限公司 声波通信方法及装置、电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
EP1394772A1 (en) * 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
KR100477701B1 (ko) * 2002-11-07 2005-03-18 삼성전자주식회사 Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
TWI275074B (en) * 2004-04-12 2007-03-01 Vivotek Inc Method for analyzing energy consistency to process data
US8631060B2 (en) * 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures

Also Published As

Publication number Publication date
CN101894557A (zh) 2010-11-24

Similar Documents

Publication Publication Date Title
KR102367538B1 (ko) 다중 채널 신호 인코딩 방법 및 인코더
US8793126B2 (en) Time/frequency two dimension post-processing
CN102652337B (zh) 用于声通信的设备和方法
EP2701144B1 (en) Device and method for execution of huffman coding
EP2423658B1 (en) Method and apparatus for correcting channel delay parameters of multi-channel signal
CN101149921B (zh) 一种静音检测方法和装置
KR20110084962A (ko) 과도 신호 부호화 방법 및 장치, 과도 신호 복호화 방법 및 장치, 및 과도 신호 처리 시스템
CN103262158B (zh) 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
RU2637994C1 (ru) Преобразующее кодирование/декодирование гармонических звуковых сигналов
US20070239295A1 (en) Codec conditioning system and method
CN101894557B (zh) 一种用于aac编码的窗型判别方法
US8463614B2 (en) Audio encoding/decoding for reducing pre-echo of a transient as a function of bit rate
CN103098130B (zh) 编码装置、解码装置、编码方法以及解码方法
CN101217037B (zh) 对音频信号的编码速率进行源控的方法和***
JP6408125B2 (ja) オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
CN101694773B (zh) 一种基于tda域的自适应窗切换方法
US20110178617A1 (en) Pre-echo attenuation in a digital audio signal
CN103295577A (zh) 用于音频信号编码的分析窗切换方法和装置
CN104170007B (zh) 对单声道或立体声进行编码的方法
KR101786863B1 (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계
CN101833953B (zh) 降低多描述编解码冗余度的方法和装置
CN106685549B (zh) 一种主用户频谱感知方法与装置
Kurniawati et al. New implementation techniques of an efficient MPEG advanced audio coder
US12009000B2 (en) Apparatus and method for comfort noise generation mode selection
US20150194157A1 (en) System, method, and computer program product for artifact reduction in high-frequency regeneration audio signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111207

Termination date: 20120612