CN101937679A - 音频数据帧的错误掩盖方法及音频解码端 - Google Patents

音频数据帧的错误掩盖方法及音频解码端 Download PDF

Info

Publication number
CN101937679A
CN101937679A CN2010102190873A CN201010219087A CN101937679A CN 101937679 A CN101937679 A CN 101937679A CN 2010102190873 A CN2010102190873 A CN 2010102190873A CN 201010219087 A CN201010219087 A CN 201010219087A CN 101937679 A CN101937679 A CN 101937679A
Authority
CN
China
Prior art keywords
audio data
data frame
mdct coefficient
frame
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102190873A
Other languages
English (en)
Other versions
CN101937679B (zh
Inventor
徐晶明
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN2010102190873A priority Critical patent/CN101937679B/zh
Publication of CN101937679A publication Critical patent/CN101937679A/zh
Application granted granted Critical
Publication of CN101937679B publication Critical patent/CN101937679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及通信领域,公开了一种音频数据帧的错误掩盖方法及音频解码端。本发明中,首先,确定错误帧的窗口序列的类型,然后,重建错误帧MDCT系数,其中,将错误帧的MDCT系数分为音调类和噪音类,对属于音调类的MDCT系数,通过前一帧和后一帧的相应MDCT系数插值估计得到;对于属于噪音类的MDCT系数,通过整形噪声生成。相对于3GPP标准提出的整形噪声插值算法,本发明可以在实现复杂度少量增加的前提下,更好的恢复出错误帧中的对人耳听觉敏感的音调信息,从而获得掩盖质量和实现复杂度之间更好的平衡。

Description

音频数据帧的错误掩盖方法及音频解码端
技术领域
本发明涉及通信领域,特别涉及通信领域中的音频解码技术。
背景技术
***多媒体广播(China Mobile Multimedia Broadcasting,简称CMMB),是一项移动电视和多媒体标准,基于卫星和地面交互式多服务架构(STiMi)。CMMB的网络建设和终端普及在过去的两年内有了高速的发展。CMMB正在日益成为我国移动多媒体广播最为广泛流行的技术标准和行业规范。
在CMMB标准中,采用了两种数字音频编码规范,分别是MPEG(运动图像专家小组)-4HE-AAC(高效高阶音频编码)和DRA(多声道数字音频编解码技术规范)。这两种编码规范都采用了改进型离散余弦变换(Modified Discrete Cosine Transform,简称“MDCT”)的时频转换方式。
在CMMB通信中,由于无线信道的不稳定性,环境干扰或信号衰减,发生误码不可避免。在解码器端,这种通信误码通常表现为一帧甚至连续几帧的音频数据错误而不能正常解码。这时就需要运用数字音频的错误掩盖算法来弥补这些错误的音频数据帧,使它们在心理听觉上尽量接近真实的数据,从而提高提供给用户的音频听觉质量。
随着MPEG-4AAC逐步取代MP3成为最为流行的音频编码标准,业界提出了许多基于MDCT域的错误掩盖算法,其中应用最为广泛和与本发明最为近似的是3GPP提出的整形噪声插值算法。
简单地说,音频数据帧的错误掩盖在高阶音频编码(Advanced AudioCoding,简称“AAC”)解码的最后一步MDCT反变换之前进行,并且有一帧的延时。假定第(n-2)帧和第(n)帧能够正确解码,第(n-1)帧发生错误需要做错误掩盖,首先计算第(n-2)帧和第(n)帧的每个尺度因子带的MDCT系数能量,然后由每个尺度因子带对应的系数能量差推导出该子带的整形噪声插值因子,最后由第(n-2)帧的MDCT系数和对应子带的插值因子相乘,并随机改变正负符号,即得到整形噪声即恢复的第(n-1)帧的MDCT系数,进行MDCT反变换后即得到错误掩盖后的第(n-1)帧音频数据,其详细方案可参见标准3GPP TS 26.402V9.0.0“Enhanced aacPlusgeneral audio codec-Additional decoder tools,”2009。其中,子带插值因子的具体计算方法和在块转换时子带能量在长短块之间的映射方法可参见标准3GPP TS 26.411V9.0.0“Enhanced aacPlus general audio codec-Fixed-point ANSI-C code,”2009。
然而,上述3GPP提出的整形噪声插值算法虽然实现复杂度较小,但是不能较好的恢复出错误帧中的对人耳听觉敏感的音调信息。本发明的发明人发现,目前提出的数字音频错误掩盖算法总是不能很好的解决掩盖质量和实现复杂度之间的平衡。简单的静音或者重复前一帧的方法引入的实现复杂度较小,但是掩盖后的听觉质量较差;而基于信号模型或时域预测的方法通常具有较高的掩盖听觉质量,但是引入的实现复杂度较大,包括较大的计算量,存储需求和时延需求,在移动终端的处理器上难以做到实时的实现。
发明内容
本发明的目的在于提供一种音频数据帧的错误掩盖方法及音频解码端,以提高掩盖质量,获得掩盖质量和实现复杂度之间更好的平衡。
为解决上述技术问题,本发明的实施方式提供了一种音频数据帧的错误掩盖方法,包含以下步骤:
根据错误音频数据帧的前一音频数据帧和后一音频数据帧,确定错误音频数据帧的窗口类型,窗口类型包括窗口序列的类型;
如果前一音频数据帧和后一音频数据帧中,存在与错误音频数据帧的窗口序列不同的音频数据帧,则将窗口序列不同的音频数据帧的改进型离散余弦变换MDCT系数映射到与错误音频数据帧一致的窗口序列上;
将错误音频数据帧的MDCT系数分为音调类和噪音类,对属于音调类的MDCT系数,通过前一音频数据帧和后一音频数据帧的相应MDCT系数插值估计得到;对于属于噪音类的MDCT系数,通过整形噪声生成。
本发明的实施方式还提供了一种音频解码端,包含:
窗口类型确定模块,用于根据错误音频数据帧的前一音频数据帧和后一音频数据帧,确定错误音频数据帧的窗口类型,窗口类型包括窗口序列的类型;
判断模块,用于判断在前一音频数据帧和后一音频数据帧中,是否存在与错误音频数据帧的窗口序列不同的音频数据帧;
映射模块,用于在判断模块判定存在与错误音频数据帧的窗口序列不同的音频数据帧时,将窗口序列不同的音频数据帧的改进型离散余弦变换MDCT系数映射到与错误音频数据帧一致的窗口序列上;
分类模块,用于将错误音频数据帧的MDCT系数分为音调类和噪音类;
MDCT系数获取模块,用于根据分类模块的分类结果,对属于音调类的MDCT系数,通过前一音频数据帧和后一音频数据帧的相应MDCT系数插值估计得到;对于属于噪音类的MDCT系数,通过整形噪声生成。
本发明实施方式与现有技术相比,主要区别及其效果在于:
首先,根据错误帧的前一帧和后一帧,确定错误帧的MDCT窗口类型,包括确定错误帧的窗口序列的类型,如果前一帧或后一帧的窗口序列与错误帧的窗口序列不同,则将窗口序列不同的帧的MDCT系数映射到与错误帧一致的窗口序列上。然后,重建错误帧MDCT系数,其中,将错误帧的MDCT系数分为音调类和噪音类,对属于音调类的MDCT系数,通过前一帧和后一帧的相应MDCT系数插值估计得到;对于属于噪音类的MDCT系数,通过整形噪声生成。由于将错误帧的MDCT系数集合分类为音调类和噪声类,音调类MDCT系数集合由前后帧的MDCT系数插值估计获得,这样在实现复杂度少量增加的前提下,更好的恢复出错误帧中的对人耳听觉敏感的音调信息,进一步提高掩盖质量,从而获得掩盖质量和实现复杂度之间更好的平衡。而且,通过确定错误帧的MDCT窗口类型和重建错误帧MDCT系数的二步法,实现错误掩盖的方案,不单适用于MPEG-4AAC音频编码,也适合于DRA等其他基于MDCT时频转换的音频编码,同时解决了CMMB中两种音频编码规范的错误掩盖问题。
进一步地,根据尺度因子带内能量超过预定阀值的MDCT系数的个数,是否大于预置门限,判断该尺度因子带的类型,进而判定该尺度因子带内所有MDCT系数的类型。由于错误帧内各MDCT系数的能量可根据前一帧和后一帧的相应MDCT系数估计出,因此通过对估计得到的能量频谱做峰值检测,可以保证音调类和噪音类的分类准确性。
进一步地,对尺度因子带的类型通过心理声学的分析进行校正,可进一步提高对音调类和噪音类的分类准确性。
进一步地,通过对前一帧和后一帧的相应MDCT系数进行平均插值,得到错误帧的MDCT系数。由于插值时是取前后帧对应MDCT系数的均值,因此实现简单,而且也能保证掩盖质量。
进一步地,在进行平均插值后,对平均插值后得到的数值进行能量平滑校正,将校正后的数值作为错误帧的MDCT系数,能进一步提高掩盖质量。
附图说明
图1是根据本发明第一实施方式的音频数据帧的错误掩盖方法流程图;
图2是根据本发明第四实施方式的音频解码端结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明第一实施方式涉及一种音频数据帧的错误掩盖方法。本实施方式中的音频数据帧采用高阶音频编码AAC,是基于MDCT域的错误掩盖算法,即对错误的音频数据帧,在AAC解码的最后一步MDCT反变换之前重建MDCT系数。这种重建是基于前一帧和后一帧的MDCT反变换之前的MDCT系数(假定前一帧和后一帧都可以正确解码),所以有一帧的延时。
具体流程如图1所示,在步骤110中,根据错误音频数据帧的前一音频数据帧和后一音频数据帧,确定错误音频数据帧的窗口类型,窗口类型包括窗口序列的类型和窗口形状的类型。
具体地说,由于AAC采用了MDCT窗口变换以适应音频中的稳态信号和暂态信号,所以在重建错误帧的MDCT系数之前,需要确定错误帧的MDCT窗口类型。为方便描述,假定第(n-1)帧为错误音频数据帧,即第(n-2)帧和第(n)帧能够正确解码,第(n-1)帧发生错误需要做错误掩盖。由于AAC规定了四种MDCT窗口序列,分别是长窗口序列ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、LONG_STOP_SEQUENCE和短窗口序列EIGHT_SHORT_SEQUENCE,并规定了两种MDCT窗口形状,分别是KBD Window和SINE WindoW。在本实施方式中,第(n-1)帧的窗口形状的类型与前一音频数据帧的窗口形状的类型相同;第(n-1)帧的MDCT窗口序列需要根据第(n-2)帧和第(n)帧的相应信息来确定,以实现窗口序列的平滑转换,满足MDCT重建的需要,具体如表1所示:
Figure BSA00000174314300061
表1
在表1中,如果第(n-2)帧窗口序列和第(n)帧窗口序列均为长窗口序列中的任意一种,则第(n-1)帧窗口序列为ONLY_LONG_SEQUENCE;如果第(n-2)帧窗口序列为长窗口序列中的任意一种,第(n)帧窗口序列为短窗口序列,则第(n-1)帧窗口序列为LONG_START_SEQUENCE;如果第(n-2)帧窗口序列和第(n)帧窗口序列均为短窗口序列,则第(n-1)帧窗口序列为短窗口序列;如果第(n-2)帧窗口序列为短窗口序列,第(n)帧窗口序列为长窗口序列中的任意一种,则第(n-1)帧窗口序列为LONG_STOP_SEQUENCE。需要说明的是,表1所示的根据第(n-2)帧和第(n)帧的相应信息来确定第(n-1)帧的MDCT窗口序列,只是本实施方式的具体实现方案,在实际应用中,本领域技术人员可以根据需要进行变更。
接着,在步骤120中,判断在第(n-2)帧和第(n)帧中,是否存在与第(n-1)帧的窗口序列不同的音频数据帧,如果存在,则进入步骤130,将窗口序列不同的音频数据帧的MDCT系数映射到与第(n-1)帧的一致的窗口序列上。如果第(n-2)帧和第(n)帧的窗口序列均与第(n-1)帧的窗口序列相同,则直接进入步骤140。
也就是说,如果第(n-2)帧或第(n)帧窗口序列与第(n-1)帧不同,则需要将窗口序列不同的音频数据帧的MDCT系数映射到与第(n-1)帧一致的窗口序列上。
在步骤140中,对第(n-1)帧的MDCT系数进行分类,将第(n-1)帧的MDCT系数分为音调类和噪音类。具体的分类方式如下:
将第(n-2)帧,第(n-1)帧和第(n)帧的第k个MDCT系数分别表述为Cn-2(k),Cn-1(k)和Cn(k)。其中Cn-1(k)未知,其能量P n-1(k)由第(n-2)帧和第(n)帧对应的MDCT系数能量估计得到,即P n-1(k)=Cn-2 2(k)+Cn 2(k)。然后对估计得到的能量频谱做峰值检测,那些超过一定阀值的局部最大值定义为“音调”,当一个尺度因子带含有一个或多个“音调”时,该尺度因子带被定义为音调类,否则为“噪声”类。也就是说,如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数大于预置门限,则判定该尺度因子带的类型为音调类。如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数小于或等于预置门限,则判定该尺度因子带的类型为噪声类。音调类的尺度因子带内的所有MDCT系数均为音调类。噪声类的尺度因子带内的所有MDCT系数均为噪声类。
由于错误帧内各MDCT系数的能量可根据前一帧和后一帧的相应MDCT系数估计出,因此通过对估计得到的能量频谱做峰值检测,可以保证音调类和噪音类的分类准确性。此外,可以理解,重建错误帧MDCT系数时,MDCT系数的归并可以不局限于尺度因子带,可以是有人耳听觉频带意义的任意集合。
接着,在步骤150中,对属于音调类的MDCT系数,通过前一音频数据帧和后一音频数据帧的相应MDCT系数插值估计得到。对于属于噪音类的MDCT系数,通过整形噪声生成。
具体地说,对于音调类的尺度因子带,该尺度因子带内的MDCT系数,通过前、后帧的相应MDCT系数进行平均插值得到,即取前后帧对应MDCT系数的均值:
C n-1(k)=1/2*[Cn-2(k)+Cn(k)],
将得到的C n-1(k)作为重建的第(n-1)帧的第k个MDCT系数。通过对前一帧和后一帧的相应MDCT系数进行平均插值,得到错误帧的MDCT系数。不但实现简单,而且也能保证掩盖质量。
对于噪声类的尺度因子带,该尺度因子带内的MDCT系数,由整形噪声产生,具体地整形噪声生成算法属于本领域的公知常识(如在3GPP TS26.402 V9.0.0“Enhanced aacPlus general audio codec-Additionaldecoder tools,”2009中涉及的保证能量平滑演进的整形噪声生成算法),在此不再赘述。此外,可以理解,噪声类MDCT系数的整形噪声实现方案,不局限于3GPP TS 26.402V9.0.0“Enhanced aacPlus general audio codec-Additional decoder tools,”2009中保证能量平滑演进的整形噪声生成算法,还可以是其他的整形噪声生成算法。
在得到第(n-1)帧的MDCT系数后,即可通过MDCT反变换得到错误掩盖后的第(n-1)帧音频数据。
不难发现,在本实施方式中,由于将错误帧的MDCT系数集合分类为音调类和噪声类,其中音调类MDCT系数集合由前后帧的MDCT系数插值估计获得,这样在实现复杂度少量增加的前提下,更好的恢复出错误帧中的对人耳听觉敏感的音调信息,进一步提高掩盖质量,从而获得掩盖质量和实现复杂度之间更好的平衡。
本发明第二实施方式涉及一种音频数据帧的错误掩盖方法。第二实施方式在第一实施方式的基础上进行了改进,主要改进之处在于:在步骤140中,在通过对估计得到的能量频谱做峰值检测,判断出尺度因子带的类型后,还可以根据心理声学的分析对尺度因子带的类型进行校正,以进一步提高对音调类和噪音类的分类准确性。也就是说,错误帧MDCT系数分类的方法。不局限于对前后帧相应能量频谱做峰值检测,还可以是基于MDCT频谱或其能量频谱的心理声学的分析校正。
另外,对于音调类的MDCT系数,在取前后帧对应MDCT系数的均值后,还需对平均插值后得到的数值进行校正,将校正后的数值作为错误音频数据帧的MDCT系数。也就是说,在根据C n-1(k)=1/2*[Cn-2(k)+Cn(k)],得到C n-1(k)后,还需通过以下公式对C n-1(k)进行校正:
C- n-1(k)=a*C n-1(k),
其中,a为满足该尺度因子带能量平滑演进要求的系数。即尺度因子带上的MDCT系数能量和P- n-1(a),需要满足条件P- n-1(a)=1/2*[Pn-2+Pn]。而P- n-1(a)为该尺度因子带上的MDCT系数C- n-1(k)的能量和,因此,可计算得到满足该尺度因子带能量平滑演进要求的系数a。
将校正后的C- n-1(k)作为重建的第(n-1)帧的第k个MDCT系数。在进行平均插值后,对平均插值后得到的数值进行校正,将校正后的数值作为错误帧的MDCT系数,能进一步提高掩盖质量。
此外,可以理解,音调类MDCT系数插值估计中的能量平滑校正,不局限于依据整个尺度因子带或集合内所有系数的能量,还可以是只考虑有音调特性的MDCT系数的能量,即P- n-1(a)为有音调特性的MDCT系数的能量和。
本发明第三实施方式涉及一种音频数据帧的错误掩盖方法。第三实施方式与第一实施方式基本相同,区别主要在于:在第一实施方式中,音频数据帧采用高阶音频编码AAC。然而在第三实施方式中,音频数据帧采用多声道数字音频编解码技术规范DRA。
由于DRA规定了九种长M DCT窗口:WIN_LONG_LONG2LONG,WIN_LONG_LONG2SHORT,WIN_LONG_SHORT2LONG,WIN_LONG_SHORT2SHORT,WIN_LONG_LONG2BRIEF,WIN_LONG_BRIEF2LONG,WIN_LONG_BRIEF2BRIEF,WIN_LONG_SHORT2BRIEF,WIN_LONG_BRIEF2SHORT;并规定了四种短MDCT窗口:WIN_SHORT_SHORT2SHORT,WIN_SHORT_SHORT2BRIEF,WIN_SHORT_BRIEF2SHORT,WIN_SHORT_BRIEF2BRIEF。单个长MDCT窗口构成一个长窗口序列,八个短MDCT窗口构成一个短窗口序列。
由于DRA中的窗口序列类型不同于AAC中的窗口序列类型,因此在本实施方式中,根据第(n-2)帧和第(n)帧的相应信息来确定第(n-1)帧的MDCT窗口序列的方式如下,以实现窗口序列的平滑转换,满足MDCT重建的需要:
当第(n-2)帧和第(n)帧都是长MDCT窗口序列时,第(n-1)帧同样为长窗口序列,并如表2所示:
Figure BSA00000174314300101
Figure BSA00000174314300111
表2
当第(n-2)帧或第(n)帧是短MDCT窗口序列时,第(n-1)帧为短窗口序列,并由《多声道数字音频编解码规范》中6.8重建短/暂窗口函数序列所示例程决定,具体方法是首先将第(n-1)帧所有短窗口设为WIN_SHORT_SHORT2SHORT,nNumCluster设为1,然后每个短窗口的形状根据前一帧和后一帧的形状,依据窗口平滑过渡的原则调节为WIN_SHORT_SHORT2SHORT,WIN_SHORT_SHORT2BRIEF,或WIN_SHORT_BRIEF2SHORT。
在得到第(n-1)帧的MDCT窗口序列后,后续步骤与第一实施方式完全相同,在此不再赘述。
不难发现,本实施方式的流程与第一实施方式雷同,区别仅在于,在步骤110中,根据第(n-2)帧和第(n)帧的窗口类型,确定第(n-1)的窗口类型有所不同。也就是说,通过确定错误帧的MDCT窗口类型和重建错误帧MDCT系数的二步法,实现错误掩盖的方案,不单适用于MPEG-4AAC音频编码,也适合于DRA等其他基于MDCT时频转换的音频编码,同时解决了CMMB中两种音频编码规范的错误掩盖问题。
本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable Array Logic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
本发明第四实施方式涉及一种音频解码端。具体如图2所示,该音频解码端包含:
窗口类型确定模块,用于根据错误音频数据帧的前一音频数据帧和后一音频数据帧,确定错误音频数据帧的窗口类型,窗口类型包括窗口序列的类型。
判断模块,用于判断在前一音频数据帧和后一音频数据帧中,是否存在与错误音频数据帧的窗口序列不同的音频数据帧。
映射模块,用于在判断模块判定存在与错误音频数据帧的窗口序列不同的音频数据帧时,将窗口序列不同的音频数据帧的MDCT系数映射到与错误音频数据帧一致的窗口序列上。
分类模块,用于将错误音频数据帧的MDCT系数分为音调类和噪音类。
MDCT系数获取模块,用于根据分类模块的分类结果,对属于音调类的MDCT系数,通过前一音频数据帧和后一音频数据帧的相应MDCT系数插值估计得到。对于属于噪音类的M DCT系数,通过整形噪声生成。
其中,分类模块通过以下方式将错误音频数据帧的MDCT系数分为音调类和噪音类:
根据前一音频数据帧和后一音频数据帧,估计错误音频数据帧的各MDCT系数的能量。
如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数大于预置门限,则判定该尺度因子带的类型为音调类。如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数小于或等于预置门限,则判定该尺度因子带的类型为噪声类。音调类的尺度因子带内的所有MDCT系数均为音调类。噪声类的尺度因子带内的所有MDCT系数均为噪声类。
在本实施方式中,MDCT系数获取模块在通过前一音频数据帧和后一音频数据帧的相应MDCT系数插值估计得到MDCT系数时,对前一音频数据帧和后一音频数据帧的相应MDCT系数进行平均插值,将平均插值后得到的数值作为错误音频数据帧的MDCT系数。
本实施方式中的音频数据帧采用高阶音频编码AAC,窗口类型还包括窗口形状的类型,窗口类型确定模块在确定错误音频数据帧的窗口形状时,将错误音频数据帧的窗口形状确定为与前一音频数据帧相同的窗口形状。
不难发现,第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本发明第五实施方式涉及一种音频解码端。第五实施方式在第四实施方式的基础上进行了改进,主要改进之处在于:分类模块还用于在判定尺度因子带的类型后,根据心理声学的分析对尺度因子带的类型进行校正,以进一步提高对音调类和噪音类的分类准确性。
另外,在本实施方式中,MDCT系数获取模块还用于在进行平均插值后,对平均插值后得到的数值进行校正,将校正后的数值作为错误音频数据帧的MDCT系数,进一步提高掩盖质量。
不难发现,第二实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本发明第六实施方式涉及一种音频解码端。第六实施方式与第四实施方式基本相同,区别主要在于:
在第四实施方式中,音频数据帧采用高阶音频编码AAC。然而在第六实施方式中,音频数据帧采用多声道数字音频编解码技术规范。本实施方式与第四实施方式的区别仅在于窗口类型确定模块确定错误音频数据帧的窗口类型的具体方式有所不同。
在本实施方式中,窗口类型确定模块根据错误音频数据帧的前一音频数据帧和后一音频数据帧,确定错误音频数据帧的窗口类型的具体方式与第三实施方式类似,在此不再赘述。
不难发现,第三实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第三实施方式互相配合实施。第三实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第三实施方式中。
需要说明的是,本发明各设备实施方式中提到的各单元都是逻辑单元,在物理上,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现,这些逻辑单元本身的物理实现方式并不是最重要的,这些逻辑单元所实现的功能的组合是才解决本发明所提出的技术问题的关键。此外,为了突出本发明的创新部分,本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,这并不表明上述设备实施方式并不存在其它的单元。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (14)

1.一种音频数据帧的错误掩盖方法,其特征在于,包含以下步骤:
根据错误音频数据帧的前一音频数据帧和后一音频数据帧,确定所述错误音频数据帧的窗口类型,所述窗口类型包括窗口序列的类型;
如果所述前一音频数据帧和后一音频数据帧中,存在与所述错误音频数据帧的窗口序列不同的音频数据帧,则将窗口序列不同的音频数据帧的改进型离散余弦变换MDCT系数映射到与所述错误音频数据帧一致的窗口序列上;
将所述错误音频数据帧的MDCT系数分为音调类和噪音类,对属于所述音调类的MDCT系数,通过所述前一音频数据帧和所述后一音频数据帧的相应MDCT系数插值估计得到;对于属于所述噪音类的MDCT系数,通过整形噪声生成。
2.根据权利要求1所述的音频数据帧的错误掩盖方法,其特征在于,通过以下方式将所述错误音频数据帧的MDCT系数分为音调类和噪音类:
根据所述前一音频数据帧和后一音频数据帧,估计所述错误音频数据帧的各MDCT系数的能量;
如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数大于预置门限,则判定该尺度因子带的类型为音调类;如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数小于或等于所述预置门限,则判定该尺度因子带的类型为噪声类;
音调类的尺度因子带内的所有MDCT系数均为音调类;噪声类的尺度因子带内的所有MDCT系数均为噪声类。
3.根据权利要求2所述的音频数据帧的错误掩盖方法,其特征在于,在所述判定尺度因子带的类型后,还包含以下步骤:
根据心理声学的分析对尺度因子带的类型进行校正。
4.根据权利要求1所述的音频数据帧的错误掩盖方法,其特征在于,在通过所述前一音频数据帧和所述后一音频数据帧的相应MDCT系数插值估计得到MDCT系数的步骤中,对所述前一音频数据帧和所述后一音频数据帧的相应MDCT系数进行平均插值,将所述平均插值后得到的数值作为所述错误音频数据帧的MDCT系数。
5.根据权利要求4所述的音频数据帧的错误掩盖方法,其特征在于,在进行所述平均插值后,还包含以下步骤:
对所述平均插值后得到的数值进行能量平滑校正,将校正后的数值作为所述错误音频数据帧的MDCT系数。
6.根据权利要求1至5中任一项所述的音频数据帧的错误掩盖方法,其特征在于,音频数据帧采用高阶音频编码AAC;
所述窗口类型还包括窗口形状的类型,所述错误音频数据帧的窗口形状的类型与所述前一音频数据帧的窗口形状的类型相同。
7.根据权利要求1至5中任一项所述的音频数据帧的错误掩盖方法,其特征在于,音频数据帧采用多声道数字音频编解码技术规范。
8.一种音频解码端,其特征在于,包含:
窗口类型确定模块,用于根据错误音频数据帧的前一音频数据帧和后一音频数据帧,确定所述错误音频数据帧的窗口类型,所述窗口类型包括窗口序列的类型;
判断模块,用于判断在所述前一音频数据帧和后一音频数据帧中,是否存在与所述错误音频数据帧的窗口序列不同的音频数据帧;
映射模块,用于在所述判断模块判定存在与所述错误音频数据帧的窗口序列不同的音频数据帧时,将窗口序列不同的音频数据帧的改进型离散余弦变换MDCT系数映射到与所述错误音频数据帧一致的窗口序列上;
分类模块,用于将所述错误音频数据帧的MDCT系数分为音调类和噪音类;
MDCT系数获取模块,用于根据所述分类模块的分类结果,对属于所述音调类的MDCT系数,通过所述前一音频数据帧和所述后一音频数据帧的相应MDCT系数插值估计得到;对于属于所述噪音类的MDCT系数,通过整形噪声生成。
9.根据权利要求8所述的音频解码端,其特征在于,所述分类模块通过以下方式将所述错误音频数据帧的MDCT系数分为音调类和噪音类:
根据所述前一音频数据帧和后一音频数据帧,估计所述错误音频数据帧的各MDCT系数的能量;
如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数大于预置门限,则判定该尺度因子带的类型为音调类;如果在一个尺度因子带内,估计到的能量超过预定阀值的MDCT系数的个数小于或等于所述预置门限,则判定该尺度因子带的类型为噪声类;
音调类的尺度因子带内的所有MDCT系数均为音调类;噪声类的尺度因子带内的所有MDCT系数均为噪声类。
10.根据权利要求9所述的音频解码端,其特征在于,所述分类模块还用于在所述判定尺度因子带的类型后,根据心理声学的分析对尺度因子带的类型进行校正。
11.根据权利要求8所述的音频解码端,其特征在于,MDCT系数获取模块在通过所述前一音频数据帧和所述后一音频数据帧的相应MDCT系数插值估计得到MDCT系数时,对所述前一音频数据帧和所述后一音频数据帧的相应MDCT系数进行平均插值,将所述平均插值后得到的数值作为所述错误音频数据帧的MDCT系数。
12.根据权利要求11所述的音频解码端,其特征在于,所述MDCT系数获取模块还用于在进行所述平均插值后,对所述平均插值后得到的数值进行能量平滑校正,将校正后的数值作为所述错误音频数据帧的MDCT系数。
13.根据权利要求8至11中任一项所述的音频解码端,其特征在于,音频数据帧采用高阶音频编码AAC;
所述窗口类型还包括窗口形状的类型,所述窗口类型确定模块在确定所述错误音频数据帧的窗口形状时,将所述错误音频数据帧的窗口形状确定为与所述前一音频数据帧相同的窗口形状。
14.根据权利要求8至11中任一项所述的音频解码端,其特征在于,音频数据帧采用多声道数字音频编解码技术规范。
CN2010102190873A 2010-07-05 2010-07-05 音频数据帧的错误掩盖方法及音频解码装置 Active CN101937679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102190873A CN101937679B (zh) 2010-07-05 2010-07-05 音频数据帧的错误掩盖方法及音频解码装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102190873A CN101937679B (zh) 2010-07-05 2010-07-05 音频数据帧的错误掩盖方法及音频解码装置

Publications (2)

Publication Number Publication Date
CN101937679A true CN101937679A (zh) 2011-01-05
CN101937679B CN101937679B (zh) 2012-01-11

Family

ID=43390978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102190873A Active CN101937679B (zh) 2010-07-05 2010-07-05 音频数据帧的错误掩盖方法及音频解码装置

Country Status (1)

Country Link
CN (1) CN101937679B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646647A (zh) * 2013-12-13 2014-03-19 武汉大学 混合音频解码器中帧差错隐藏的谱参数代替方法及***
CN107004417A (zh) * 2014-12-09 2017-08-01 杜比国际公司 Mdct域错误掩盖
CN107863109A (zh) * 2017-11-03 2018-03-30 深圳大希创新科技有限公司 一种抑制噪声的静音控制方法及***
CN110289005A (zh) * 2013-06-21 2019-09-27 弗朗霍夫应用科学研究促进协会 用于产生舒缓噪声的自适应频谱形状的装置及方法
WO2020135609A1 (zh) * 2018-07-30 2020-07-02 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
CN111383643A (zh) * 2018-12-28 2020-07-07 南京中感微电子有限公司 一种音频丢包隐藏方法、装置及蓝牙接收机
CN111402904A (zh) * 2018-12-28 2020-07-10 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059894A2 (en) * 2002-12-31 2004-07-15 Nokia Corporation Method and device for compressed-domain packet loss concealment
CN101046964A (zh) * 2007-04-13 2007-10-03 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
US20080126096A1 (en) * 2006-11-24 2008-05-29 Samsung Electronics Co., Ltd. Error concealment method and apparatus for audio signal and decoding method and apparatus for audio signal using the same
CN101231849A (zh) * 2007-09-15 2008-07-30 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置
CN101471073A (zh) * 2007-12-27 2009-07-01 华为技术有限公司 一种基于频域的丢包补偿方法、装置和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004059894A2 (en) * 2002-12-31 2004-07-15 Nokia Corporation Method and device for compressed-domain packet loss concealment
US20080126096A1 (en) * 2006-11-24 2008-05-29 Samsung Electronics Co., Ltd. Error concealment method and apparatus for audio signal and decoding method and apparatus for audio signal using the same
CN101046964A (zh) * 2007-04-13 2007-10-03 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置
CN101231849A (zh) * 2007-09-15 2008-07-30 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101471073A (zh) * 2007-12-27 2009-07-01 华为技术有限公司 一种基于频域的丢包补偿方法、装置和***

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289005B (zh) * 2013-06-21 2024-02-09 弗朗霍夫应用科学研究促进协会 用于产生舒缓噪声的自适应频谱形状的装置及方法
US11869514B2 (en) 2013-06-21 2024-01-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment
US11776551B2 (en) 2013-06-21 2023-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out in different domains during error concealment
CN110289005A (zh) * 2013-06-21 2019-09-27 弗朗霍夫应用科学研究促进协会 用于产生舒缓噪声的自适应频谱形状的装置及方法
CN103646647A (zh) * 2013-12-13 2014-03-19 武汉大学 混合音频解码器中帧差错隐藏的谱参数代替方法及***
CN103646647B (zh) * 2013-12-13 2016-03-16 武汉大学 混合音频解码器中帧差错隐藏的谱参数代替方法及***
CN112967727A (zh) * 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖
US10923131B2 (en) 2014-12-09 2021-02-16 Dolby International Ab MDCT-domain error concealment
CN107004417B (zh) * 2014-12-09 2021-05-07 杜比国际公司 Mdct域错误掩盖
US10424305B2 (en) 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment
CN107004417A (zh) * 2014-12-09 2017-08-01 杜比国际公司 Mdct域错误掩盖
CN107863109B (zh) * 2017-11-03 2020-07-03 深圳大希创新科技有限公司 一种抑制噪声的静音控制方法及***
CN107863109A (zh) * 2017-11-03 2018-03-30 深圳大希创新科技有限公司 一种抑制噪声的静音控制方法及***
WO2020135609A1 (zh) * 2018-07-30 2020-07-02 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
CN111383643A (zh) * 2018-12-28 2020-07-07 南京中感微电子有限公司 一种音频丢包隐藏方法、装置及蓝牙接收机
CN111402904A (zh) * 2018-12-28 2020-07-10 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
CN111402904B (zh) * 2018-12-28 2023-12-01 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
US11900951B2 (en) 2018-12-28 2024-02-13 Nanjing Zgmicro Company Limited Audio packet loss concealment method, device and bluetooth receiver

Also Published As

Publication number Publication date
CN101937679B (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
CN101937679B (zh) 音频数据帧的错误掩盖方法及音频解码装置
CN101346760B (zh) 用于音频编码的编码器辅助的帧丢失隐藏技术
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
CN102598119B (zh) 基音估计
WO2016192410A1 (zh) 一种音频信号增强方法和装置
US11295761B2 (en) Method for constructing voice detection model and voice endpoint detection system
CN101887728A (zh) 多传感语音增强方法和装置
CN1679083A (zh) 不利环境中的多信道语音检测
CN104103278A (zh) 一种实时语音去噪的方法和设备
CN101488344B (zh) 一种量化噪声泄漏控制方法及装置
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
CN107103909B (zh) 帧错误隐藏
US10984812B2 (en) Audio signal discriminator and coder
CN104269180A (zh) 一种用于语音质量客观评价的准干净语音构造方法
CN101308660B (zh) 一种音频压缩流的解码端错误恢复方法
US12020712B2 (en) Audio data recovery method, device and bluetooth device
Górriz et al. An effective cluster-based model for robust speech detection and speech recognition in noisy environments
CN110895930B (zh) 语音识别方法及装置
CN113259827A (zh) 基于音频编解码的助听方法、***、耳机、介质及设备
CN113409792B (zh) 一种语音识别方法及其相关设备
CN104715761B (zh) 一种音频有效数据检测方法和***
CN105185386B (zh) 基于两步排列熵的语音活动检测方法
Farsi et al. Improving voice activity detection used in ITU-T G. 729. B
CN113345428B (zh) 语音识别模型的匹配方法、装置、设备和存储介质
CN111916090B (zh) 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180412

Address after: The 300456 Tianjin FTA test area (Dongjiang Bonded Port) No. 6865 North Road, 1-1-1802-7 financial and trade center of Asia

Patentee after: Xinji Lease (Tianjin) Co.,Ltd.

Address before: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20110105

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xinji Lease (Tianjin) Co.,Ltd.

Contract record no.: 2018990000196

Denomination of invention: Error concealment method for audio data frame, and audio decoding device

Granted publication date: 20120111

License type: Exclusive License

Record date: 20180801

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20221020

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 300456 1-1-1802-7, north area of financial and Trade Center, No. 6865, Asia Road, Tianjin pilot free trade zone (Dongjiang Bonded Port Area)

Patentee before: Xinji Lease (Tianjin) Co.,Ltd.

TR01 Transfer of patent right