CN101346760A - 用于音频编码的编码器辅助的帧丢失隐藏技术 - Google Patents

用于音频编码的编码器辅助的帧丢失隐藏技术 Download PDF

Info

Publication number
CN101346760A
CN101346760A CNA2006800488292A CN200680048829A CN101346760A CN 101346760 A CN101346760 A CN 101346760A CN A2006800488292 A CNA2006800488292 A CN A2006800488292A CN 200680048829 A CN200680048829 A CN 200680048829A CN 101346760 A CN101346760 A CN 101346760A
Authority
CN
China
Prior art keywords
frame
domain data
frequency domain
subset
tonal components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800488292A
Other languages
English (en)
Other versions
CN101346760B (zh
Inventor
刘尚忆
埃迪·L·T·乔伊
萨米尔·库马尔·古普塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101346760A publication Critical patent/CN101346760A/zh
Application granted granted Critical
Publication of CN101346760B publication Critical patent/CN101346760B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

本发明描述用于对音频信号进行解码的编码器辅助的帧丢失隐藏(FLC)技术。解码器可丢弃音频信号的错误帧,且可实施所述编码器辅助的FLC技术,以便基于邻近帧和从所述编码器传输的边信息来准确地隐藏所述被丢弃的帧。所述编码器辅助的FLC技术包含基于邻近帧的频域数据来估计所述帧的频域数据的量值,以及基于作为边信息从所述编码器传输的符号子集来估计所述频域数据的符号。音频信号的帧的频域数据包含音调分量和噪音分量。从随机信号估计出的符号对于所述频域数据的所述噪音分量可能大体准确。然而,为了实现对所述音调分量的高度准确的符号估计,所述编码器传输用于所述频域数据的所述音调分量的符号作为边信息。

Description

用于音频编码的编码器辅助的帧丢失隐藏技术
本申请案主张基于2005年10月26日申请的第60/730,459号美国临时申请案和2005年10月31日申请的第60/732,012号美国临时申请案的权益。
技术领域
本发明涉及音频编码技术,且更明确地说,涉及用于音频编码的帧丢失隐藏技术。
背景技术
音频编码用于例如卫星无线电、数字无线电、因特网串流(internet streaming)(网络无线电)、数字音乐播放器和多种移动多媒体应用等许多应用和环境中。存在许多音频编码标准,例如根据运动图片专家组(MPEG)的标准、视窗媒体音频(windows mediaaudio,WMA)和由杜比试验室(Dolby Laboratories)公司制定的标准。许多音频编码标准持续出现,包含MP3标准和MP3标准的后续标准,例如由苹果计算机(AppleComputer)公司出售的“iPod”装置中所使用的高级音频编码(AAC)标准。音频编码标准通常设法使用压缩技术来实现低位速率、高质量的音频编码。一些音频编码是“无丢失”的,意味着所述编码不会使音频信号降级,而其它音频编码为了实现额外压缩可能引入某些丢失。
在许多应用中,音频编码与视频编码一起使用,以便为例如视频电话(VT)或流式视频等应用提供多媒体内容。根据(例如)MPEG的视频编码标准通常使用音频和视频编码。MPEG标准目前包含MPEG-1、MPEG-2和MPEG-4,但其它标准将可能出现。其它示范性视频标准包含国际电信联盟(ITU)H.263标准、ITU H.264标准、由苹果计算机公司开发的QuickTimeTM技术、由微软公司开发的Video for WindowsTM、由英特尔公司开发的IndeoTM、来自RealNetworks公司的RealVideoTM和由SuperMac公司开发的CinepakTM。一些音频和视频标准是开放源码,而其它音频和视频标准仍是专有的。许多其它音频和视频编码标准将持续出现并发展。
所传输的音频信号中发生的位流错误可能由于引入可听假象而对经解码的音频信号具有严重影响。为了解决这种质量降级,可向解码器添加包含错误检测模块和帧丢失隐藏(FLC)模块的错误控制区块。一旦在接收到的位流的帧中检测到错误,错误检测模块就丢弃用于错误帧的所有位。FLC模块接着估计音频数据以替换被丢弃的帧,试图形成音响上感知为无缝的音频信号。
已经提出了各种用于解码器帧丢失隐藏的技术。然而,大多数FLC技术都遭受隐藏的音频信号质量与实施成本之间的极端折衷。举例来说,简单地用前一帧的无声、噪音或音频数据来代替被丢弃的帧由于较低的计算成本但较差的隐藏性能的缘故表示所述折衷的一个极端。基于源码建模来隐藏被丢弃的帧的高级技术由于需要较高或甚至过高的实施成本来实现令人满意的隐藏性能而指向另一极端。
发明内容
一般来说,本发明涉及用于对音频信号进行解码的编码器辅助的帧丢失隐藏(FLC)技术。在从编码器接收到音频信号的帧的音频位流之后,解码器可立即执行错误检测并当检测到错误时丢弃所述帧。解码器可实施所述编码器辅助的FLC技术,以便基于邻近帧和与音频位流一起从所述编码器传输的边信息来准确地隐藏所述被丢弃的帧。所述编码器辅助的FLC技术包含基于邻近帧的频域数据来估计所述帧的频域数据的量值,以及基于作为边信息从所述编码器传输的符号子集来估计所述频域数据的符号。以此方式,编码器辅助的FLC技术可减小可听假象的发生率以形成音响上感知为无缝的音频信号。
音频信号的帧的频域数据包含音调分量和噪音分量。从随机信号估计出的符号对于所述频域数据的所述噪音分量可能大体准确。然而,为了实现对所述音调分量的高度准确的符号估计,所述编码器传输用于所述频域数据的所述音调分量的符号作为边信息。为了使传输到解码器的边信息的量减到最小,编码器不传输音调分量在帧内的位置。代替地,编码器和解码器两者使用同一操作来自自行导出音调分量的位置。因此,编码器辅助的FLC技术在从编码器传输的边信息的量最小的情况下实现解码器处的帧隐藏质量的显著改进。
本文描述的编码器辅助的FLC技术可实施在使用例如视窗媒体音频(WMA)标准、MP3标准和AAC(高级音频编码)标准等音频编码标准的多媒体应用中。在AAC标准的情况下,音频信号的帧的频域数据由经修改的离散余弦变换(MDCT)系数表示。MDCT系数的每一者包括音调分量或噪音分量。帧可包含1024个MDCT系数,且MDCT系数的每一者包含量值和符号。编码器辅助的FLC技术单独地估计被丢弃的帧的MDCT系数的量值和符号。
在一个实施例中,本发明提供一种隐藏音频信号的帧的方法。所述方法包括:基于所述帧的邻近帧来估计所述帧的频域数据的量值;基于作为边信息从编码器传输的所述帧的符号子集来估计所述帧的频域数据的符号;以及将量值估计值与符号估计值组合以估计所述帧的频域数据。
在另一实施例中,本发明提供一种包括用于隐藏音频信号的帧的指令的计算机可读媒体。所述指令致使可编程处理器基于所述帧的邻近帧来估计所述帧的频域数据的量值,并基于作为边信息从编码器传输的所述帧的符号子集来估计所述帧的频域数据的符号。所述指令还致使可编程处理器将量值估计值与符号估计值组合以估计所述帧的频域数据。
在又一实施例中,本发明提供一种用于隐藏音频信号的帧的***,所述***包括:编码器,其传输所述帧的符号子集作为边信息;以及解码器,其包含从编码器接收所述帧的边信息的FLC模块。解码器内的所述FLC模块基于所述帧的邻近帧来估计所述帧的频域数据的量值,基于所接收到的边信息来估计所述帧的频域数据的符号,并将量值估计值与符号估计值组合以估计所述帧的频域数据。
在另一实施例中,本发明提供一种编码器,所述编码器包括:分量选择模块,其选择音频信号的帧的频域数据的分量;以及符号提取器,其从所述帧的频域数据中提取选定分量的符号子集。编码器将所述帧的符号子集作为边信息传输到解码器。
在又一实施例中,本发明提供一种包括FLC模块的解码器,所述FLC模块包含:量值估计器,其基于所述帧的邻近帧来估计音频信号的帧的频域数据的量值;,以及符号估计器,其基于作为边信息从编码器传输的所述帧的符号子集来估计所述帧的频域数据的符号。解码器将量值估计值与符号估计值组合以估计所述帧的频域数据。
本文所描述的技术可实施在硬件、软件、固件或其任何组合中。如果实施在软件中,那么所述技术可部分地由包括含有指令的程序代码的计算机可读媒体来实现,所述指令在由可编程处理器执行时执行本文所描述的方法中的一者或一者以上。
附图和以下描述内容中陈述一个或一个以上实施例的细节。从描述内容和附图中以及从权利要求书中将了解本发明的其它特征、目的和优点。
附图说明
图1是说明并入有实施编码器辅助的帧丢失隐藏(FLC)技术的音频编码器-解码器(编解码器)的音频编码和解码***的框图。
图2是说明用来自图1的音频编码和解码***来执行编码器辅助的帧丢失隐藏的示范性操作的流程图。
图3是说明包含产生待作为边信息传输的帧的符号子集的帧丢失隐藏模块的示范性音频编码器的框图。
图4是说明包含利用作为边信息从编码器接收到的帧的符号子集的帧丢失隐藏模块的示范性音频解码器的框图。
图5是说明对音频位流进行编码并产生待作为边信息与音频位流一起传输的帧的符号子集的示范性操作的流程图。
图6是说明对音频位流进行解码并使用作为边信息从编码器接收到的帧的符号子集来执行帧丢失隐藏的示范性操作的流程图。
图7是说明包含产生待作为边信息传输的帧的符号子集的分量选择模块和符号提取器的另一示范性音频编码器的框图。
图8是说明包含利用作为边信息从编码器接收的帧的符号子集的帧丢失隐藏模块的另一示范性音频解码器的框图。
图9是说明对音频位流进行编码并产生待作为边信息与音频位流一起传输的帧的符号子集的另一示范性操作的流程图。
图10是说明对音频位流进行解码并使用作为边信息从编码器接收到的帧的符号子集来执行帧丢失隐藏的另一示范性操作的流程图。
图11是说明常规帧丢失隐藏技术的帧丢失率与本文所描述的编码器辅助的帧丢失隐藏技术的帧丢失率之间的质量比较的曲线图。
具体实施方式
图1是说明并入有实施编码器辅助的帧丢失隐藏(FLC)技术的音频编码器-解码器(编解码器)的音频编码和解码***2的框图。如图1所示,***2包含第一通信装置3和第二通信装置4。***2还包含连接通信装置3与4的传输信道5。***2支持传输信道5上通信装置3与4之间的双向音频数据传输。
在所说明的实施例中,通信装置3包含具有FLC模块7的音频编解码器6和多路复用(mux)/解多路复用(demux)组件8。通信装置4包含多路复用/解多路复用组件9和具有FLC模块11的音频编解码器10。相应音频编解码器6和10的FLC模块7和11可根据本文所描述的编码器辅助的FLC技术,基于邻近帧和从编码器传输的边信息来准确地隐藏音频信号的被丢弃的帧。在其它实施例中,FLC模块7和11可以从编码器传输的额外边信息为代价基于邻近帧来准确地隐藏音频信号的多个被丢弃的帧。
通信装置3和4可经配置以发送和接收音频数据。通信装置3和4可实施为无线移动终端或有线终端。为此,通信装置3和4可进一步包含适当的无线发射器、接收器、调制解调器和处理电子设备以支持无线通信。无线移动终端的实例包含移动无线电话、移动个人数字助理(PDA)、移动计算机或配备有无线通信能力以及音频编码和/或解码能力的其它移动装置。有线终端的实例包含台式计算机、视频电话、网络设备、机顶盒、交互式电视或类似物。
传输信道5可以是有线或无线通信媒体。在无线通信中,带宽是重要的关注因素,因为通常需要极低的位速率。明确地说,传输信道5可能具有有限带宽,从而使得大量音频数据在信道5上的传输非常具有挑战性。传输信道5(例如)可能由于信道5中的物理约束或可能由传输信道5的提供商强加的服务质量(QoS)限制或带宽分配约束的缘故而成为具有有限带宽的无线通信链路。
相应通信装置3和4内的音频编解码器6和10的每一者根据音频编码标准来对音频数据进行编码和解码,所述音频编码标准例如是根据运动图片专家组(MPEG)的标准、由杜比试验室公司制定的标准、视窗媒体音频(WMA)标准、MP3标准和高级视频编码(AAC)标准。音频编码标准通常设法使用压缩技术来实现低位速率、高质量的音频编码。一些音频编码是“无丢失”的,意味着所述编码不会使音频信号降级,而其它音频编码为了实现额外压缩可能引入某些丢失。
在一些实施例中,通信装置3和4还可包含与相应的音频编解码器6和10集成的视频编解码器(未图示),且包含适当的多路复用/解多路复用组件8和9以处理数据流的音频和视频部分。多路复用/解多路复用组件8和9可遵循国际电信联盟(ITU)H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
音频编码可与视频编码一起使用,以便为例如视频电话(VT)或流式视频等应用提供多媒体内容。根据(例如)MPEG的视频编码标准通常使用音频和视频编码。MPEG标准目前包含MPEG-1、MPEG-2和MPEG-4,但其它标准将可能出现。其它示范性视频标准包含ITU H.263标准、ITU H.264标准、由苹果计算机公司开发的QuickTimeTM技术、由微软公司开发的Video for WindowsTM、由英特尔公司开发的IndeoTM、来自RealNetworks公司的RealVideoTM和由SuperMac公司开发的CinepakTM
出于说明的目的,将假定通信装置3和4的每一者能够作为音频数据的发送者和接收者两者来操作。对于从通信装置3传输到通信装置4的音频数据,通信装置3是发送者装置,且通信装置4是接收者装置。在此情况下,通信装置3内的音频编解码器6可作为编码器来操作,且通信装置4内的音频编解码器10可作为解码器来操作。相反,对于从通信装置4传输到通信装置3的音频数据,通信装置3是接收者装置,且通信装置4是发送者装置。在此情况下,通信装置3内的音频编解码器6可作为解码器来操作,且通信装置4内的音频编解码器10可作为编码器来操作。本文所描述的技术还可适用于仅发送或仅接收此类音频数据的装置。
根据所揭示的技术,作为接收者装置操作的通信装置4从作为发送者装置操作的通信装置3接收音频信号的帧的音频位流。通信装置4内作为解码器操作的音频编解码器10可执行错误检测并当检测到错误时丢弃所述帧。音频编解码器10可实施编码器辅助的FLC技术,以基于与音频位流一起从通信装置3传输的边信息来准确地隐藏被丢弃的帧。编码器辅助的FLC技术包含基于邻近帧的频域数据来估计所述帧的频域数据的量值,以及基于作为边信息从编码器传输的符号子集来估计频域数据的符号。
音频信号的帧的频域数据包含音调分量和噪音分量。从随机信号估计出的符号对于频域数据的噪音分量可能大体准确。然而,为了实现对音调分量的高度准确的符号估计,编码器将频域数据的音调分量的符号作为边信息传输到解码器。
举例来说,通信装置4内作为解码器操作的音频编解码器10的FLC模块11可包含量值估计器、分量选择模块和符号估计器,尽管图1中未说明这些组件。量值估计器从音频信号的邻近帧复制频域数据。量值估计器接着定标所复制的频域数据的能量,以估计所丢弃的帧的频域数据的量值。分量选择模块在帧的频域数据的音调分量与噪音分量之间进行区分。以此方式,分量选择模块导出音调分量在帧内的位置。符号估计器仅基于作为边信息从通信装置3传输的帧的符号子集来估计由分量选择模块选择的音调分量的符号。作为解码器操作的音频编解码器10接着将音调分量的符号估计值与对应的量值估计值组合。
通信装置3内作为编码器操作的音频编解码器6可包含分量选择模块和符号提取器,尽管图1中未说明这些组件。分量选择模块在帧的频域数据的音调分量与噪音分量之间进行区分。以此方式,分量选择模块导出音调分量在帧内的位置。符号提取器提取由分量选择模块选择的音调分量的符号子集。所提取的符号接着作为边信息包装到经编码的音频位流中。举例来说,帧的符号子集可附加到邻近帧的音频位流。
为了使在传输信道5上传输的边信息的量减到最小,作为编码器操作的音频编解码器6不将音调分量在帧内的位置连同音调分量的符号子集一起传输。代替地,音频编解码器6和10两者使用同一操作自行导出音调分量的位置。换句话说,作为编码器操作的音频编解码器6与作为解码器操作的音频编解码器10实行相同的分量选择操作。以此方式,编码器辅助的FLC技术在从编码器传输的边信息的量最小的情况下实现解码器处的帧隐藏质量的显著改进。
在音频编解码器6和10利用AAC标准的情况下,音频信号的帧的频域数据由经修改的离散余弦变换(MDCT)系数表示。帧可包含1024个MDCT系数,且MDCT系数的每一者包含量值和符号。一些MDCT系数包括音调分量,且其余MDCT系数包括噪音分量。音频编解码器6和10可实施编码器辅助的FLC技术来单独地估计被丢弃的帧的MDCT系数的量值和符号。在其它音频标准的情况下,其它类型的变换系数可表示帧的频域数据。另外,帧可包含任何数目的系数。
图2是说明用来自图1的音频编码和解码***2来执行编码器辅助的帧丢失隐藏的示范性操作的流程图。出于说明的目的,通信装置3将作为发送者装置来操作,其中音频编解码器6作为编码器来操作;且通信装置4将作为接收者装置来操作,其中音频编解码器10作为解码器来操作。
通信装置3对帧m+1的音频信号进行取样,且通信装置3内的音频编解码器6将时域数据变换成帧m+1的频域数据。音频编解码器6接着将频域数据编码到帧m+1的音频位流中(12)。音频编解码器6能够执行帧延迟,以产生帧m的频域数据。频域数据包含音调分量和噪音分量。音频编解码器6提取帧m的频域数据的音调分量的符号子集(13)。
在一个实施例中,音频编解码器6利用FLC模块7来基于所估计的索引子集而提取帧m的频域数据的音调分量的符号子集。所估计的索引子集从帧m的频域数据的所估计的量值识别音调分量在帧m内的位置。FLC模块7可包含量值估计器、分量选择模块和符号提取器,尽管图1中未说明FLC模块7的这些组件。分量选择模块可基于来自量值估计器的帧m的频域数据的所估计的量值来产生所估计的索引子集。
在另一实施例中,音频编解码器6基于索引子集来提取帧m的频域数据的音调分量的符号子集,所述索引子集从帧m+1的频域数据的量值识别音调分量在帧m+1内的位置。在此情况下,假定帧m的索引子集将近似等效于帧m+1的索引子集。音频编解码器6可包含分量选择模块和符号提取器,尽管图1中未说明这些组件。分量选择模块可基于帧m+1的频域数据的量值来产生索引子集。
音频编解码器6将帧m的音调分量的符号子集作为边信息附加到帧m+1的音频位流。音频编解码器6不将音调分量的位置附加到帧m+1的音频位流。代替地,音频编解码器6和10两者使用同一操作自行导出音调分量的位置。以此方式,所述技术使待附加到帧m+1的音频位流的边信息的量减到最小。通信装置3接着将包含帧m的符号子集的帧m+1的音频位流通过传输信道5传输到通信装置4(14)。
通信装置4接收帧m的音频位流(15)。通信装置4内的音频编解码器10对音频位流执行错误检测,且当在音频位流中找到错误时丢弃帧m(16)。通信装置4接收包含帧m的音调分量的符号子集的帧m+1的音频位流(17)。音频编解码器10接着使用FLC模块11来通过使用与帧m+1的音频位流一起从通信装置3传输的帧m的音调分量的符号子集而执行对被丢弃的帧m的帧丢失隐藏(18)。FLC模块11可包含量值估计器、分量选择模块和符号估计器,尽管图1中未说明FLC模块11的这些组件。
FLC模块11内的量值估计器可基于邻近帧m-1和m+1的频域数据来估计帧m的频域数据的量值。在一个实施例中,分量选择模块可基于来自量值估计器的帧m的频域数据的所估计的量值来产生识别音调分量在帧m内的位置的所估计的索引子集。符号估计器接着基于帧m的所估计的索引子集来从帧m的符号子集估计帧m内的音调分量的符号。
在另一实施例中,分量选择模块可产生索引子集,所述索引子集从帧m+1的频域数据的量值识别音调分量在帧m+1内的位置。在此情况下,假定帧m的索引子集将近似等效于帧m+1的索引子集。符号估计器接着基于帧m+1的索引子集来从帧m的符号子集估计帧m的内音调分量的符号。
FLC模块11内的符号估计器可从随机信号中估计帧m内的噪音分量的符号。音频编解码器10接着将音调分量和噪音分量的符号估计值与对应的量值估计值组合以估计帧m的频域数据。音频编解码器10接着将帧m的所估计的频域数据解码成帧m的音频信号的所估计的时域数据(19)。
图3是说明包含产生待传输的帧的符号子集作为边信息的FLC模块33的示范性音频编码器20的框图。音频编码器20可大体类似于来自图1的相应通信装置3和4内的音频编解码器6和10。如图3中所说明,音频编码器20包含变换单元22、核心编码器24、第一帧延迟30、第二帧延迟32和FLC模块33。出于说明的目的,音频编码器20在本文中将被描述为遵循AAC标准,其中音频信号的帧的频域数据由MDCT系数表示。另外,变换单元22将被描述为经修改的离散余弦变换单元。在其它实施例中,音频编码器20可遵循上文所列举的视频编码标准中的任一者或其它标准。
所述技术在本文中将被描述为隐藏音频信号的帧m。帧m+1表示紧接在所述音频信号的帧m之后的音频帧。类似地,帧m-1表示紧接在所述音频信号的帧m之前的音频帧。在其它实施例中,编码器辅助的FLC技术可利用并非紧接在帧m之前或之后的帧m的邻近帧来隐藏帧m。
变换单元22接收帧m+1的音频信号xm+1[n]的样本,并将所述样本变换成系数Xm+1(k)。核心编码器24接着将所述系数编码到帧m+1的音频位流26中。FLC模块33使用帧m+1的系数Xm+1(k)以及帧m的系数Xm(k)和帧m-1的系数Xm-1(k)来产生帧m的系数Xm(k)的音调分量的符号子集Sm 28。FLC模块33将所述符号子集Sm 28作为边信息附加到帧m+1的音频位流26。
FLC模块33包含量值估计器34、分量选择模块36和符号提取器38。变换单元22将帧m+1的系数Xm+1(k)发送到量值估计器34和第一帧延迟30。第一帧延迟30产生帧m的系数Xm(k),并将帧m的系数发送到第二帧延迟32。第二帧延迟32产生帧m-1的系数Xm-1(k),并将帧m-1的系数发送到量值估计器34。
量值估计器34基于帧m+1和m-1的系数来估计帧m的系数的量值。量值估计器34可实施多种内插技术中的一者来估计帧m的系数量值。举例来说,量值估计器34可基于帧m-1的前一帧系数Xm-1(k)和帧m+1的下一帧系数Xm+1(k)的能量来实施能量内插。下文给出量值估计:
X ^ m ( k ) = | α ( k ) X m - 1 ( k ) | - - - ( 1 )
其中α(k)是由下式计算的能量定标因数
α 2 ( k ) = Σ k ∈ B b | X m + 1 ( k ) | 2 Σ k ∈ B b | X m - 1 ( k ) | 2 - - - ( 2 )
其中Bb是第b个定标因数带中的MDCT系数的集合。在其它实施例中,量值估计器44可利用并非紧接在帧m之前或之后的帧m的邻近帧来估计帧m的系数的量值。
量值估计器34接着将帧m的所估计的系数量值
Figure A20068004882900193
发送到分量选择模块36。分量选择模块36通过对帧m的所估计的系数量值进行排序来区分帧m的音调分量和噪音分量。可将具有最大量值或最突出频谱峰值的系数视为音调分量,且可将其余系数视为噪音分量。
所选择的音调分量的数目可基于待传输的符号的预定数目。举例来说,可选择所述系数中具有最高量值的十个系数作为帧m的音调分量。在其它情况下,分量选择模块36可选择多于或少于十个音调分量。在另外其它情况下,为帧m选择的音调分量的数目可基于音频信号而变化。举例来说,如果音频信号在帧m中比在音频信号的其它帧中包含更大数目的音调分量,那么分量选择模块36可从帧m中比从其它帧中选择更大数目的音调分量。
在其它实施例中,分量选择模块36可使用多种其它方案来从帧m的所估计的系数量值选择音调分量,以区分帧m的音调分量和噪音分量。举例来说,分量选择模块36可基于一些音质原理来选择系数的子集。FLC模块43可根据音频编码器20的复杂性等级所允许而使用更准确的分量区分方案。
分量选择模块36接着产生所估计的索引子集
Figure A20068004882900201
其识别从帧m的所估计的系数量值选择的音调分量的位置。将音调分量选择为具有最突出量值的帧m的系数。然而,当执行帧m的隐藏时,帧m的系数不可用于音频解码器。因此,索引子集是基于帧m的所估计的系数量值
Figure A20068004882900202
而导出的,且被称为所估计的索引子集。下文给出估计索引子集:
I ^ m ≅ { k | | X ^ m ( k ) | ⟩ Tht , 0 ⟨ k ⟨ M } - - - ( 3 )
其中M是帧m内的MDCT系数的数目,Thr是经确定以使得 | I ^ m | = B m 的阈值,且Bm是待传输的符号的数目。举例来说,在示范性实施例中,Bm可等于十个符号。在其它实施例中,Bm可大于或小于10。在另外其它实施例中,Bm可基于帧m的音频信号而变化。
分量选择模块36将帧m的所估计的索引子集发送到符号提取器38。符号提取器38还从第一帧延迟30接收帧m的系数Xm(k)。符号提取器38接着从由所估计的索引子集识别的帧m的系数Xm(k)中提取符号。举例来说,所估计的索引子集包含识别从帧m的所估计的系数量值选择的音调分量的预定数目的(例如,10个)系数索引。符号提取器38接着提取对应于帧m的系数Xm(k)的符号,其中索引k等于所估计的索引子集内的索引。符号提取器38接着将从由所估计的索引子集识别的帧m的音调分量中提取的符号子集Sm 28附加到帧m+1的音频位流26。
分量选择模块36使用与音频解码器接收来自音频编码器20的传输相同的操作来选择帧m内的音调分量。因此,识别从帧m的所估计的系数量值选择的音调分量的位置的相同的所估计的索引子集可在音频编码器20和音频解码器两者中产生。音频解码器接着可将帧m的音调分量的符号子集Sm 28施加到由所估计的索引子集识别的帧m的适当的所估计的系数量值。以此方式,所传输的边信息的量可减到最小,因为音频编码器20不需要将音调分量在帧m内的位置连同符号子集Sm 28一起传输。
图4是说明包含利用作为边信息从编码器接收到的帧的符号子集的帧丢失隐藏模块43的示范性音频解码器40的框图。音频解码器40可大体类似于来自图1的相应通信装置3和4内的音频编解码器6和10。音频解码器40可从大体类似于来自图3的音频编码器20的音频编码器接收音频位流。如图4中所说明,音频解码器40包含核心解码器41、错误检测模块42、FLC模块43和逆变换单元50。
出于说明的目的,音频解码器40在本文中将被描述为遵循AAC标准,其中音频信号的帧的频域数据由MDCT系数表示。另外,逆变换单元50将被描述为逆的经修改的离散余弦变换单元。在其它实施例中,音频解码器40可遵循上文所列举的视频编码标准中的任一者。
核心解码器41接收包含系数Xm(k)的帧m的音频位流,并将帧m的音频位流发送到错误检测模块42。错误检测模块42接着对帧m的音频位流执行错误检测。核心解码器41随后接收包含系数Xm+1(k)的帧m+1的音频位流26和作为边信息的帧m的符号子集Sm 28。核心解码器41使用第一帧延迟51来产生帧m的系数(如果未被丢弃的话),并使用第二帧延迟52来从帧m+1的音频位流产生帧m-1的系数。如果帧m的系数未被丢弃,那么第一帧延迟51将帧m的系数发送到多路复用器49。第二帧延迟52将帧m-1的系数发送到FLC模块43。
如果未在帧m内检测到错误,那么错误检测模块42可允许多路复用器49将帧m的系数Xm(k)从第一帧延迟51直接传递到逆变换单元50以变换成帧m的音频信号样本。
如果在帧m内检测到错误,那么错误检测模块42丢弃帧m的所有系数,并允许多路复用器49将帧m的系数估计值
Figure A20068004882900211
从FLC模块43传递到逆变换单元50。FLC模块43从核心解码器41接收帧m+1的系数Xm+1(k),并从第二帧延迟52接收帧m-1的系数Xm-1(k)。FLC模块43使用帧m+1和m-1的系数来估计帧m的系数的量值。另外,FLC模块43使用与帧m+1的音频位流26一起从音频编码器20传输的帧m的符号子集Sm 28来估计帧m的系数的符号。FLC模块43接着将量值估计值与符号估计值组合以估计帧m的系数。FLC模块43将系数估计值
Figure A20068004882900212
发送到逆变换单元50,所述逆变换单元50将帧m的系数估计值变换成帧m的音频信号的所估计的样本
Figure A20068004882900213
FLC模块43包含量值估计器44、分量选择模块46和符号估计器48。核心解码器41将帧m+1的系数Xm+1(k)发送到量值估计器44,且第二帧延迟52将帧m-1的系数Xm-1(k)发送到量值估计器44。大体上类似于音频编码器20内的量值估计器34,量值估计器44基于帧m+1和m-1的系数来估计帧m的系数的量值。量值估计器44可实施多种内插技术中的一者来估计m的系数量值。举例来说,量值估计器44可基于帧m-1的前一帧系数Xm-1(k)和帧m+1的下一帧系数Xm+1(k)的能量来实施能量内插。上文在等式(1)中给出量值估计。在其它实施例中,量值估计器44可利用并非紧接在帧m之前或之后的帧m的邻近帧来估计帧m的系数的量值。
量值估计器44接着将帧m的所估计的系数量值
Figure A20068004882900221
发送到分量选择模块46。分量选择模块46通过对帧m的所估计的系数量值进行排序来区分帧m的音调分量和噪音分量。可将具有最大量值或最突出频谱峰值的系数视为音调分量,且可将其余系数视为噪音分量。所选择的音调分量的数目可基于待传输的符号的预定数目。在其它情况下,为帧m选择的音调分量的数目可基于音频信号而变化。分量选择模块46接着产生所估计的索引子集
Figure A20068004882900222
其识别从帧m的所估计的系数量值选择的音调分量的位置。上文在等式(3)中给出所估计的索引子集。
分量选择模块46使用与从中接收音频位流的音频编码器20内的分量选择模块36完全相同的操作来选择帧m内的音调分量。因此,识别从帧m的所估计的系数量值选择的音调分量的位置的相同的所估计的索引子集
Figure A20068004882900223
可在音频编码器20和音频解码器40两者中产生。音频解码器40接着可将帧m的音调分量的符号子集Sm 28施加到由所估计的索引子集识别的帧m的适当的所估计的系数量值。
分量选择模块46将帧m的所估计的索引子集发送到符号估计器48。符号估计器48还接收与帧m+1的音频位流26一起从音频编码器20传输的帧m的符号子集Sm 28。符号估计器48接着估计帧m的音调分量和噪音分量两者的符号。
在噪音分量的情况下,符号估计器48从随机信号中估计符号。在音调分量的情况下,符号估计器48基于所估计的索引子集
Figure A20068004882900224
而从符号子集Sm 28中估计符号。举例来说,所估计的索引子集包含从帧m的所估计的系数量值识别所选择的音调分量的预定数目的(例如,10个)系数索引。符号估计器48接着估计帧m的音调分量的符号作为符号子集Sm 28,其中索引k等于所估计的索引子集内的索引。下文给出符号估计值Sm *(k):
其中sgn()表示符号函数,
Figure A20068004882900226
是对应于选定音调分量的系数的所估计的索引子集,且Sm(k)是具有样本空间{-1,1}的随机变量。
如上文所描述,为了估计帧m的音调分量的符号,音频解码器40需要知道音调分量在帧m内的位置,以及帧m的原始音调分量的对应符号。音频解码器40接收此信息的一种简单方式将是以位速率增加为代价将来自音频编码器20的两个参数显式地传输到音频解码器40。在所说明的实施例中,在音频编码器20和音频解码器40两者处使用完全相同的导出过程来自行导出所估计的索引子集
Figure A20068004882900231
而由所估计的索引子集指出的帧m的音调分量的符号作为边信息从音频编码器20传输。
FLC模块43接着将来自量值估计器44的量值估计值
Figure A20068004882900233
与来自符号估计器48的符号估计值Sm *(k)组合以估计帧m的系数。下文给出帧m的系数估计值
Figure A20068004882900234
X ~ m * ( k ) = S m * ( k ) X ^ m ( k ) = S m * ( k ) | α ( k ) X m - 1 ( k ) | - - - ( 5 )
FLC模块43接着将系数估计值经由被允许传递帧m的系数估计值的多路复用器49发送到逆变换单元50,所述逆变换单元50将帧m的系数估计值变换成帧m的音频信号的所估计的样本
图5是说明对音频位流进行编码以及产生待作为边信息与音频位流一起传输的帧的符号子集的示范性操作的流程图。本文将参考来自图3的音频编码器20来描述所述操作。
变换单元22接收帧m+1的音频信号的样本xm+1[n],并将所述样本变换成帧m+1的系数Xm+1(k)(54)。核心编码器24接着将系数编码到帧m+1的音频位流26中(56)。变换单元22将帧m+1的系数Xm+1(k)发送到量值估计器34和第一帧延迟30。第一帧延迟30执行帧延迟并产生帧m的系数Xm(k)(58)。第一帧延迟30接着将帧m的系数发送到第二帧延迟32。第二帧延迟32执行帧延迟并产生帧m-1的系数Xm-1(k)(60)。第二帧延迟32接着将帧m-1的系数发送到量值估计器34。
量值估计器34基于帧m+1和m-1的系数来估计帧m的系数的量值(62)。举例来说,量值估计器34可实施等式(1)中给出的能量内插技术来估计系数量值。量值估计器34接着将帧m的所估计的系数量值
Figure A20068004882900237
发送到分量选择模块36。分量选择模块36通过对帧m的所估计的系数量值进行排序来区分帧m的音调分量和噪音分量。可将具有最大量值的系数视为音调分量,且可将其余系数视为噪音分量。所选择的音调分量的数目可基于待传输的符号的预定数目。在其它情况下,为帧m选择的音调分量的数目可基于音频信号而变化。分量选择模块36接着产生所估计的索引子集
Figure A20068004882900238
其识别从帧m的所估计的系数量值选择的音调分量的位置(64)。
分量选择模块36将帧m的所估计的索引子集发送到符号提取器38。符号提取器38还从第一帧延迟30接收帧m的系数Xm(k)。符号提取器38接着从由所估计的索引子集识别的帧m的系数Xm(k)中提取符号(66)。符号提取器38接着将从由所估计的索引子集识别的帧m的音调分量提取的符号子集Sm 28附加到帧m+1的音频位流26(68)。
图6是说明对音频位流进行解码并使用作为边信息从编码器接收到的帧的符号子集来执行帧丢失隐藏的示范性操作的流程图。本文将参考来自图4的音频解码器40来描述所述操作。
核心解码器41接收包含系数Xm(k)的帧m的音频位流(72)。错误检测模块42接着对帧m的音频位流执行错误检测(74)。核心解码器41随后接收包含系数Xm+1(k)的帧m+1的音频位流26和作为边信息的帧m的符号子集Sm 28(75)。核心解码器41使用第一帧延迟51来产生帧m的系数(如果未被丢弃的话),且使用第二帧延迟52来从帧m+1的音频位流产生帧m-1的系数。如果帧m的系数未被丢弃,那么第一帧延迟51将帧m的系数发送到多路复用器49。第二帧延迟52将帧m-1的系数发送到FLC模块43。
如果未在帧m内检测到错误,那么错误检测模块42可允许多路复用器49将帧m的系数从第一帧延迟51直接传递到逆变换单元50以变换成帧m的音频信号样本。如果在帧m内检测到错误,那么错误检测模块42丢弃帧m的所有系数,并允许多路复用器49将帧m的系数估计值从FLC模块43传递到逆变换单元50(76)。
核心解码器41将帧m+1的系数Xm+1(k)发送到量值估计器44,且第二帧延迟52将帧m-1的系数Xm-1(k)发送到量值估计器44。量值估计器44基于帧m+1和m-1的系数来估计帧m的系数的量值(78)。举例来说,量值估计器44可实施等式(1)中给出的能量内插技术来估计系数量值。量值估计器44接着将帧m的所估计的系数量值发送到分量选择模块46。
分量选择模块46通过对帧m的所估计的系数量值进行排序来区分帧m的音调分量和噪音分量。可将具有最大量值的系数视为音调分量,且可将其余系数视为噪音分量。所选择的音调分量的数目可基于待传输的符号的预定数目。在其它情况下,为帧m选择的音调分量的数目可基于音频信号而变化。分量选择模块46接着产生所估计的索引子集
Figure A20068004882900242
其识别从帧m的所估计的系数量值选择的音调分量的位置(80)。
分量选择模块46使用与从中接收音频位流的音频编码器20内的分量选择模块36完全相同的操作来选择帧m内的音调分量。因此,识别从帧m的所估计的系数量值选择的音调分量的位置的相同的所估计的索引子集
Figure A20068004882900251
可在音频编码器20和音频解码器40两者中产生。音频解码器40接着可将帧m的音调分量的符号子集Sm 28施加到由所估计的索引子集识别的帧m的适当的所估计的系数量值。
分量选择模块46将帧m的所估计的索引子集发送到符号估计器48。符号估计器48还接收与帧m+1的音频位流26一起从音频编码器20传输的帧m的符号子集Sm 28。符号估计器48接着估计帧m的音调分量和噪音分量两者的符号。在音调分量的情况下,符号估计器48基于所估计的索引子集而从帧m的符号子集Sm 28中估计符号(82)。在噪音分量的情况下,符号估计器48从随机信号中估计符号(84)。
FLC模块43接着将来自量值估计器44的量值估计值
Figure A20068004882900252
与来自符号估计器48的符号估计值Sm *(k)组合以估计帧m的系数(86)。FLC模块43将系数估计值
Figure A20068004882900253
发送到逆变换单元50,所述逆变换单元50将帧m的系数估计值变换成帧m的音频信号的所估计的样本(88)。
图7是说明包含产生待作为边信息传输的帧的符号子集的分量选择模块102和符号提取器104的另一示范性音频编码器90的框图。音频编码器90可大体类似于来自图1的相应通信装置3和4内的音频编解码器6和10。如图7中所说明,音频编码器90包含变换单元92、核心编码器94、帧延迟100、分量选择模块102和符号提取器104。出于说明的目的,音频编码器90在本文中将被描述为遵循AAC标准,其中音频信号的帧的频域数据由MDCT系数表示。另外,变换单元92将被描述为经修改的离散余弦变换单元。在其它实施例中,音频编码器90可遵循上文所列举的视频编码标准中的任一者。
所述技术在本文中将被描述为隐藏音频信号的帧m。帧m+1表示紧接在音频信号的帧m之后的音频帧。类似地,帧m-1表示紧接在音频信号的帧m之前的音频帧。在其它实施例中,编码器辅助的FLC技术可利用并非紧接在帧m之前或之后的帧m的邻近帧来隐藏帧m。
变换单元92接收帧m+1的音频信号xm+1[n]的样本,并将所述样本变换成系数Xm+1(k)。核心编码器94接着将所述系数编码到帧m+1的音频位流96中。分量选择模块102使用帧m+1的系数Xm+1(k)且符号提取器104使用帧m的系数Xm(k)来产生帧m的符号子集Sm 98。符号提取器104将符号子集Sm 98作为边信息附加到帧m+1的音频位流96。
更明确地说,变换单元92将帧m+1的系数Xm+1(k)发送到分量选择模块102和帧延迟100。帧延迟100产生帧m的系数Xm(k),并将帧m的系数发送到符号提取器104。分量选择模块102通过对帧m+1的系数量值进行排序来区分帧m+1的音调分量和噪音分量。可将具有最大量值或最突出频谱峰值的系数视为音调分量,且可将其余系数视为噪音分量。
所选择的音调分量的数目可基于待传输的符号的预定数目。举例来说,可选择所述系数中具有最高量值的十个系数作为帧m+1的音调分量。在其它情况下,分量选择模块102可选择多于或少于十个噪音分量。在另外其它情况下,帧m+1的所选择的音调分量的数目可基于音频信号而变化。举例来说,如果音频信号在帧m+1中比在音频信号的其它帧中包含更大数目的音调分量,那么分量选择模块36可从帧m+1中比从其它帧中选择更大数目的音调分量。
在其它实施例中,分量选择模块102可使用多种其它方案来从帧m+1的系数量值选择音调分量,以区分帧m+1的音调分量和噪音分量。举例来说,分量选择模块102可基于一些音质原理来选择系数的子集。音频编码器90可根据音频编码器90的复杂性等级所允许而使用更准确的分量区分方案。
分量选择模块102接着产生索引子集Im+1,其识别从帧m+1的系数量值选择的音调分量的位置。将音调分量选择为具有最突出量值的帧m+1的系数。当执行帧m的隐藏时,帧m+1的系数可用于音频解码器。因此,索引子集是基于帧m+1的系数量值Xm+1(k)导出的。下文给出索引子集:
I m + 1 ≅ { k | | X m + 1 ( k ) | ⟩ Thr , 0 ⟨ k ⟨ M } - - - ( 6 )
其中M是帧m+1内的MDCT系数的数目,Thr是经确定以使得|Im+1|=Bm+1的阈值,且Bm+1是待传输的符号的数目。举例来说,Bm+1可等于10个符号。在其它实施例中,Bm+1可大于或小于10。在另外其它实施例中,Bm+1可基于帧m的音频信号而变化。
分量选择模块102将帧m+1的索引子集发送到符号提取器104。符号提取器104还从帧延迟100接收帧m的系数Xm(k)。假定帧m的索引子集将近似等于帧m+1的索引子集。符号提取器104接着从由帧m+1的索引子集识别的帧m的系数Xm(k)中提取符号。举例来说,索引子集包含识别从帧m+1的系数量值选择的音调分量的预定数目的(例如,10个)系数索引。符号提取器104接着提取对应于帧m的系数Xm(k)的符号,其中索引k等于帧m+1的索引子集内的索引。符号提取器104接着将从由帧m+1的索引子集识别的帧m的音调分量提取的符号子集Sm 98附加到帧m+1的音频位流96。
分量选择模块102使用与音频解码器接收来自音频编码器90的传输完全相同的操作来选择帧m+1内的音调分量。因此,识别从帧m+1的系数量值选择的音调分量的位置的相同的索引子集Im+1可在音频编码器90和音频解码器两者中产生。音频解码器接着可将帧m的音调分量的符号子集Sm 98施加到由帧m+1的索引子集识别的帧m的适当的所估计的系数量值。以此方式,所传输的边信息的量可减到最小,因为音频编码器90不需要将音调分量在帧m内的位置连同符号子集Sm 98一起传输。
图8是说明包含利用作为边信息从编码器接收到的帧的符号子集的帧丢失隐藏模块113的另一示范性音频解码器110的框图。音频解码器110可大体类似于来自图1的相应通信装置3和4内的音频编解码器6和10。音频解码器110可从大体类似于来自图7的音频编码器90的音频编码器接收音频位流。如图8中所说明,音频解码器110包含核心解码器111、错误检测模块112、FLC模块113和逆变换单元120。
出于说明的目的,音频解码器110在本文中将被描述为遵循AAC标准,其中音频信号的帧的频域数据由MDCT系数表示。另外,逆变换单元120将被描述为逆的经修改的离散余弦变换单元。在其它实施例中,音频解码器110可遵循上文所列举的视频编码标准中的任一者。
核心解码器111接收包含系数Xm(k)的帧m的音频位流,并将帧m的音频位流发送到错误检测模块112。错误检测模块112接着对帧m的音频位流执行错误检测。核心解码器111随后接收包含系数Xm+1(k)的帧m+1的音频位流96和作为边信息的帧m的符号子集Sm 98。核心解码器111使用第一帧延迟121来产生帧m的系数(如果未被丢弃的话),且使用第二帧延迟122来从帧m+1的音频位流产生帧m-1的系数。如果帧m的系数未被丢弃,那么第一帧延迟121将帧m的系数发送到多路复用器119。第二帧延迟122将帧m-1的系数发送到FLC模块113。
如果未在帧m内检测到错误,那么错误检测模块112可允许多路复用器119将帧m的系数Xm(k)从第一帧延迟121直接传递到逆变换单元120以变换成帧m的音频信号样本。
如果在帧m内检测到错误,那么错误检测模块112丢弃帧m的所有系数,并允许多路复用器119将帧m的系数估计值
Figure A20068004882900271
从FLC模块113传递到逆变换单元120。FLC模块113从核心解码器111接收帧m+1的系数Xm+1(k),并从第二帧延迟122接收帧m-1的系数Xm-1(k)。FLC模块113使用帧m+1和m-1的系数来估计帧m的系数的量值。另外,FLC模块113使用与帧m+1的音频位流96一起从音频编码器90传输的帧m的符号子集Sm 98来估计帧m的系数的符号。FLC模块113接着将量值估计值与符号估计值组合以估计帧m的系数。FLC模块113将系数估计值
Figure A20068004882900281
发送到逆变换单元120,所述逆变换单元120将帧m的系数估计值变换成帧m的音频信号的所估计的样本
Figure A20068004882900282
FLC模块113包含量值估计器114、分量选择模块116和符号估计器118。核心解码器111将帧m+1的系数Xm+1(k)发送到量值估计器114,且第二帧延迟122将帧m-1的系数Xm-1(k)发送到量值估计器114。量值估计器114基于帧m+1和m-1的系数来估计帧m的系数的量值。量值估计器114可实施多种内插技术中的一者来估计帧m的系数量值。举例来说,量值估计器114可基于帧m-1的前一帧系数Xm-1(k)和帧m+1的下一帧系数Xm+1(k)的能量来实施能量内插。在等式(1)中给出系数量值估计值Xm(k)。在其它实施例中,编码器辅助的FLC技术可利用并非紧接在帧m之前或之后的帧m的邻近帧来估计帧m的系数的量值。
分量选择模块116接收帧m+1的系数Xm+1(k),并通过对帧m+1的系数的量值进行排序来区分帧m+1的音调分量和噪音分量。可将具有最大量值或最突出频谱峰值的系数视为音调分量,且可将其余系数视为噪音分量。所选择的音调分量的数目可基于待传输的符号的预定数目。在其它情况下,帧m+1的所选择的音调分量的数目可基于音频信号而变化。分量选择模块116接着产生索引子集Im+1,其识别从帧m+1的系数量值选择的音调分量的位置。上文在等式(6)中给出帧m+1的索引子集。假定帧m的索引子集将近似等于帧m+1的索引子集。
分量选择模块116使用与从中接收音频位流的音频编码器90内的分量选择模块102完全相同的操作来选择帧m+1内的音调分量。因此,识别从帧m+1的系数量值选择的音调分量的位置的相同的索引子集Im+1可在音频编码器90和音频解码器110两者中产生。音频解码器110接着可将帧m的音调分量的符号子集Sm 98施加到由帧m+1的索引子集识别的帧m的适当的所估计的系数量值。
分量选择模块116将帧m+1的索引子集发送到符号估计器118。符号估计器118还接收与帧m+1的音频位流96一起从编码器90传输的帧m的符号子集Sm 98。符号估计器118接着估计帧m的音调分量和噪音分量两者的符号。
在噪音分量的情况下,符号估计器118从随机信号中估计符号。在音调分量的情况下,符号估计器118基于帧m+1的索引子集而从符号子集Sm 98估计符号。举例来说,索引子集包含识别从帧m+1的系数量值选择的音调分量的预定数目的(例如,10个)系数索引。符号估计器118接着估计帧m的音调分量的符号作为符号子集Sm 98,其中索引k等于帧m+1的索引子集内的索引。下文给出符号估计:
Figure A20068004882900291
其中sgn()表示符号函数,Im+1是对应于选定音调分量的系数的索引子集,且Sm(k)是具有样本空间{-1,1}的随机变量。
如上文所描述,为了估计帧的音调分量的符号,音频解码器110需要知道音调分量在帧m内的位置以及帧m的原始音调分量的对应符号。音频解码器110接收此信息的一种简单方式将是以位速率增加为代价将来自音频编码器90的两个参数显式地传输到音频解码器110。在所说明的实施例中,在音频编码器90和音频解码器110两者处使用完全相同的导出过程来自行导出索引子集Im+1,而由帧m+1的索引子集Im+1指出的帧m的音调分量的符号作为边信息从音频编码器90传输。
FLC模块113接着将来自量值估计器114的量值估计值
Figure A20068004882900292
与来自符号估计器118的符号估计值Sm *(k)组合以估计帧m的系数。等式(5)中给出帧m的系数估计值
Figure A20068004882900293
FLC模块113接着将系数估计值发送到逆变换单元120,所述逆变换单元120将帧m的系数估计值变换成帧m的音频信号的所估计的样本
图9是说明对音频位流进行编码并产生待作为边信息与音频位流一起传输的帧的符号子集的另一示范性操作的流程图。本文将参考来自图7的音频编码器90来描述所述操作。
变换单元92接收帧m+1的音频信号的样本xm+1[n],并将所述样本变换成帧m+1的系数Xm+1(k)(124)。核心编码器94接着将所述系数编码到帧m+1的音频位流96中(126)。变换单元92将帧m+1的系数Xm+1(k)发送到分量选择模块102和帧延迟100。帧延迟100执行帧延迟并产生帧m的系数Xm(k)(128)。帧延迟30接着将帧m的系数发送到符号估计器104。
分量选择模块102通过对帧m+1的系数量值进行排序来区分帧m+1的音调分量和噪音分量。可将具有最大量值的系数视为音调分量,且可将其余系数视为噪音分量。所选择的音调分量的数目可基于待传输的符号的预定数目。在其它情况下,帧m+1的所选择的音调分量的数目可基于音频信号而变化。分量选择模块102接着产生索引子集Im+1,其识别从帧m+1的系数量值选择的音调分量(130)。
分量选择模块102将帧m+1的索引子集发送到符号提取器104。符号提取器104还从帧延迟100接收帧m的系数Xm(k)。假定帧m的索引子集将近似等于帧m+1的索引子集。符号提取器104接着从由帧m+1的索引子集识别的帧m的系数Xm(k)中提取符号(132)。符号提取器104接着将从由帧m+1的索引子集识别的帧m的音调分量提取的符号子集Sm 98附加到帧m+1的音频位流96(134)。
图10是说明对音频位流进行解码并使用作为边信息从编码器接收到的帧的符号子集来执行帧丢失隐藏的另一示范性操作的流程图。本文将参考来自图8的音频解码器110来描述所述操作。
核心解码器111接收包含系数Xm(k)的帧m的音频位流(138)。错误检测模块112接着对帧m的音频位流执行错误检测(140)。核心解码器111随后接收包含系数Xm+1(k)的帧m+1的音频位流96和作为边信息的帧m的符号子集Sm 98(141)。核心解码器111使用第一帧延迟121来产生帧m的系数(如果未被丢弃的话),且使用第二帧延迟122来从帧m+1的音频位流产生帧m-1的系数。如果帧m的系数未被丢弃,那么第一帧延迟121将帧m的系数发送到多路复用器119。第二帧延迟122将帧m-1的系数发送到FLC模块113。
如果未在帧m内检测到错误,那么错误检测模块112可允许多路复用器119将帧m的系数从第一帧延迟121直接传递到逆变换单元120以变换成帧m的音频信号样本。如果在帧m内检测到错误,那么错误检测模块112丢弃帧m的所有系数并允许多路复用器119将帧m的系数估计值从FLC模块113传递到逆变换单元120(142)。
核心解码器111将帧m+1的系数Xm+1(k)发送到量值估计器114,且第二帧延迟122将帧m-1的系数Xm-1(k)发送到量值估计器114。量值估计器114基于帧m+1和m-1的系数来估计帧m的系数的量值(144)。举例来说,量值估计器44可实施等式(1)中给出的能量内插技术来估计系数量值。
分量选择模块116通过对帧m+1的系数的量值进行排序来区分帧m+1的音调分量和噪音分量。可将具有最大量值的系数视为音调分量,且可将其余系数视为噪音分量。所选择的音调分量的数目可基于待传输的符号的预定数目。在其它情况下,帧m+1的所选择的音调分量的数目可基于音频信号而变化。分量选择模块116接着产生索引子集Im+1,其识别从帧m+1的系数量值选择的音调分量的位置(146)。假定帧m的索引子集将近似等于帧m+1的索引子集。
分量选择模块116使用与从中接收音频位流的音频编码器90内的分量选择模块102完全相同的操作来选择帧m+1内的音调分量。因此,识别从帧m+1的系数量值选择的音调分量的位置的相同的索引子集Im+1可在音频编码器90和音频解码器110两者中产生。音频解码器110接着可将帧m的音调分量的符号子集Sm 98施加到由帧m+1的索引子集识别的帧m的适当的所估计的系数量值。
分量选择模块116将帧m+1的索引子集发送到符号估计器118。符号估计器118还接收与帧m+1的音频位流96一起从编码器90传输的帧m的符号子集Sm 98。符号估计器118基于帧m+1的索引子集来从符号子集Sm 98估计帧m的音调分量的符号(148)。符号估计器118从随机信号中估计噪音分量的符号(150)。
FLC模块113接着将来自量值估计器114的量值估计值
Figure A20068004882900311
与来自符号估计器118的符号估计值Sm *(k)组合以估计帧m的系数(152)。FLC模块113将系数估计值
Figure A20068004882900312
发送到逆变换单元120,所述逆变换单元120将帧m的系数估计值变换成帧m的音频信号的所估计的样本
Figure A20068004882900313
(154)。
图11是说明常规FLC技术160的帧丢失率与本文所描述的编码器辅助的FLC技术162的帧丢失率之间的质量比较的曲线图。在0%、5%、10%、15%和20%的帧丢失率(FLR)下,在两种FLC方法之间执行比较。以48kbps的位速率对从CD取样的若干单声道音频序列进行编码,且在限于单帧丢失的情况下以指定的速率随机丢弃经编码的帧。
对于本文所描述的编码器辅助的FLC技术,编码器当作边信息传输的符号的数目对于所有帧都是固定的且限于10位/帧,其等效于0.43kbps的位速率。产生两个不同的位流:(i)常规FLC技术的48kbps AAC位流,和(ii)编码器辅助的FLC技术的以0.43kbps的位速率包含符号信息的47.57kbps AAC位流。为了对隐藏的音频质量进行主观评估,选择了具有44.1kHz取样率的各种类型的多音音频序列,且对两种方法在各种FLR下所实现的解码器重构进行比较。由十一个收听者使用并执行了具有参照(MUSHRA)测试的多激励隐藏参考。
从图11中可看出,编码器辅助的FLC技术162改进了所有FLR下的音频解码器重构质量。举例来说,编码器辅助的FLC技术在中等(5%和10%)FLR下维持好过80点MUSHRA分数的重构质量。此外,15%FLR下编码器辅助的FLC技术162的重构质量在统计上等效于5%FLR下常规FLC技术160的重构质量,从而证明编码器辅助的FLC技术所提供的经增强的错误复原能力。
已描述了若干实施例。然而,可能对这些实施例作出各种修改,且本文所呈现的原理还可应用于其它实施例。如本文所描述的方法可实施在硬件、软件和/或固件中。此类方法的各种任务可实施为可由例如微处理器、嵌入式控制器或IP核心的一个或一个以上逻辑元件阵列执行的指令组。在一个实例中,一个或一个以上此类任务经布置以在移动台调制解调器芯片或芯片集内执行,所述芯片或芯片集经配置以控制例如蜂窝式电话等个人通信装置的各种装置的操作。
本发明中所描述的技术可实施在通用微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效逻辑装置内。如果实施在软件中,那么所述技术可实施为例如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器或类似存储器的计算机可读媒体上的指令。所述指令致使一个或一个以上处理器执行本发明中所描述的功能性的某些方面。
作为进一步实例,实施例可部分或整体地实施为硬连线电路,实施为制造到专用集成电路中的电路配置,或者实施为作为机器可读代码加载到非易失性存储装置中的固件程序或从数据存储媒体加载或加载到数据存储媒体中的软件程序,所述代码是可由例如微处理器或其它数字信号处理单元的逻辑元件阵列执行的指令。数据存储媒体可以是存储元件阵列,例如半导体存储器(其可包含(但不限于)动态或静态RAM、ROM和/或快闪RAM),或铁电、双向、聚合或相变存储器;或者例如磁盘或光盘的盘式媒体。
在本发明中,已针对解码器中编码器辅助的帧丢失隐藏描述了各种技术,其基于邻近帧和与音频位流一起从编码器传输的边信息来准确地隐藏音频信号的被丢弃的帧。所述编码器辅助的FLC技术还可以从编码器传输的额外边信息为代价基于邻近帧来准确地隐藏音频信号的多个被丢弃的帧。所述编码器辅助的FLC技术包含基于邻近帧的频域数据来估计所述帧的频域数据的量值,以及基于作为边信息从所述编码器传输的符号子集来估计所述频域数据的符号。
音频信号的帧的频域数据包含音调分量和噪音分量。从随机信号中估计出的符号对于频域数据的噪音分量可能大体准确。然而,为了实现对音调分量的高度准确的符号估计,编码器传输频域数据的音调分量的符号作为边信息。为了使传输到解码器的边信息的量减小最小,编码器不传输音调分量在帧内的位置。代替地,编码器和解码器两者使用同一操作来自行导出音调分量的位置。以此方式,编码器辅助的FLC技术在从编码器传输的边信息的量最小的情况下实现解码器处的帧隐藏质量的显著改进。
尽管本文主要在利用其中音频信号的帧的频域数据由MDCT系数表示的AAC标准的参考多媒体应用中描述了编码器辅助的FLC技术。但所述技术可应用于使用多种音频编码标准中的任一者的多媒体应用。举例来说,根据MPEG的标准、WMA标准、由杜比实验室公司制定的标准、MP3标准和MP3标准的后续标准。这些和其它实施例都在所附权利要求书的范围内。

Claims (48)

1.一种隐藏音频信号的帧的方法,其包括:
基于所述帧的邻近帧来估计所述帧的频域数据的量值;
基于作为边信息从编码器传输的所述帧的符号子集来估计所述帧的频域数据的符号;以及
将所述量值估计值与所述符号估计值组合以估计所述帧的频域数据。
2.根据权利要求1所述的方法,其进一步包括:
从所述编码器接收包含频域数据的所述帧的音频位流;以及
从所述编码器接收所述帧的所述边信息以及邻近帧的音频位流。
3.根据权利要求1所述的方法,其进一步包括:
对从所述编码器传输的所述帧的音频位流执行错误检测;以及
当检测到一个或一个以上错误时丢弃所述帧的频域数据。
4.根据权利要求1所述的方法,其中估计所述帧的所述频域数据的量值包括基于所述帧的前一帧和所述帧的后一帧的能量来执行能量内插。
5.根据权利要求1所述的方法,其中估计所述帧的所述频域数据的符号包括:
从随机信号中估计所述帧的所述频域数据的噪音分量的符号;以及
基于作为所述边信息从所述编码器传输的所述帧的所述符号子集来估计所述帧的所述频域数据的音调分量的符号。
6.根据权利要求1所述的方法,其中估计所述帧的所述频域数据的符号包括:
选择所述帧的所述频域数据的音调分量;
产生识别所述音调分量在所述帧内的位置的索引子集;以及
基于所述索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
7.根据权利要求6所述的方法,其中选择音调分量包括:
按照量值的次序对所述频域数据进行排序;以及
选择预定数目的具有最高量值的所述频域数据作为所述音调分量。
8.根据权利要求1所述的方法,其中估计所述帧的所述频域数据的符号包括:
从所述帧的所述频域数据的所述量值估计值中选择音调分量;
产生识别从所述帧的所述频域数据的所述量值估计值中选择的所述音调分量的位置的所估计索引子集;以及
基于所述帧的所述估计的索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
9.根据权利要求1所述的方法,其中估计所述帧的所述频域数据的符号包括:
从所述帧的邻近帧的频域数据的量值中选择音调分量;
产生识别从所述邻近帧的所述频域数据的所述量值中选择的所述音调分量的位置的索引子集;以及
基于所述邻近帧的所述索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
10.根据权利要求1所述的方法,其进一步包括:
将包含频域数据的所述帧的音频位流传输到解码器;以及
将所述帧的所述边信息以及邻近帧的音频位流传输到解码器。
11.根据权利要求10所述的方法,其中传输所述边信息包括:
从所述帧的所述频域数据中提取所述符号子集;以及
将所述符号子集作为所述边信息附加到所述邻近帧的所述音频位流。
12.根据权利要求11所述的方法,其中提取所述帧的所述符号子集包括:
选择所述帧的所述频域数据的音调分量;
产生识别所述音调分量在所述帧内的位置的索引子集;以及
基于所述索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集。
13.根据权利要求12所述的方法,其中选择音调分量包括:
按照量值的次序对所述频域数据进行排序;以及
选择预定数目的具有最高量值的所述频域数据作为所述音调分量。
14.根据权利要求11所述的方法,其中提取所述帧的所述符号子集包括:
基于所述帧的邻近帧来估计所述帧的所述频域数据的量值;
从所述帧的所述频域数据量值估计值中选择音调分量;
产生识别从所述帧的所述频域数据量值估计值中选择的所述音调分量的位置的所估计索引子集;以及
基于所述帧的所述估计的索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集。
15.根据权利要求11所述的方法,其中提取所述帧的所述符号子集包括:
从所述邻近帧的频域数据量值中选择音调分量;
产生识别从所述邻近帧的所述频域数据量值中选择的所述音调分量的位置的索引子集;以及
基于所述邻近帧的所述索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集。
16.根据权利要求1所述的方法,其进一步包括:
用所述编码器中所包含的变换单元将所述帧的时域音频信号编码成所述帧的频域数据;以及
用解码器中所包含的逆变换单元将所述帧的所述估计的频域数据解码成所述帧的所估计时域数据。
17.根据权利要求1所述的方法,其中所述边信息包括所述帧的频域数据的音调分量的符号子集,所述方法进一步包括:
用所述编码器来产生识别所述音调分量在所述帧内的位置的索引子集;
用所述编码器来基于所述索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集;
将所述音调分量的所述符号子集作为所述边信息传输到解码器;
用所述解码器使用与所述编码器相同的过程产生识别所述音调分量在所述帧内的位置的索引子集;以及
基于所述索引子集从所述符号子集中估计所述音调分量的符号。
18.一种包括用于隐藏音频信号的帧的指令的计算机可读媒体,所述指令致使可编程处理器:
基于所述帧的邻近帧估计所述帧的频域数据的量值;
基于作为边信息从编码器传输的所述帧的符号子集估计所述帧的所述频域数据的符号;以及
将所述量值估计值与所述符号估计值组合以估计所述帧的频域数据。
19.根据权利要求18所述的计算机可读媒体,其中所述指令致使所述可编程处理器:
从随机信号中估计所述帧的所述频域数据的噪音分量的符号;以及
基于作为所述边信息从所述编码器传输的所述帧的所述符号子集估计所述帧的所述频域数据的音调分量的符号。
20.根据权利要求18所述的计算机可读媒体,其中所述指令致使所述可编程处理器:
按照量值的次序对所述帧的所述频域数据进行排序;
选择预定数目的具有最高量值的所述频域数据作为所述帧的所述频域数据的音调分量;
产生识别所述音调分量在所述帧内的位置的索引子集;以及
基于所述索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
21.根据权利要求18所述的计算机可读媒体,其进一步包括致使所述可编程处理器执行以下操作的指令:
从所述帧的所述频域数据中提取所述符号子集;
将所述符号子集作为所述边信息附加到邻近帧的音频位流;以及
将所述帧的所述边信息以及所述邻近帧的所述音频位流传输到解码器。
22.根据权利要求21所述的计算机可读媒体,其中所述指令致使所述可编程处理器:
按照量值的次序对所述帧的所述频域数据进行排序;
选择预定数目的具有最高量值的所述频域数据作为所述帧的所述频域数据的音调分量;
产生识别所述音调分量在所述帧内的位置的索引子集;以及
基于所述索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集。
23.一种用于隐藏音频信号的帧的***,其包括:
编码器,其传输所述帧的符号子集作为边信息;以及
解码器,其包含从所述编码器接收所述帧的所述边信息的帧丢失隐藏(FLC)模块,
其中所述FLC模块基于所述帧的邻近帧来估计所述帧的频域数据的量值,基于所述接收到的边信息来估计所述帧的频域数据的符号,并将所述量值估计值与所述符号估计值组合以估计所述帧的频域数据。
24.根据权利要求23所述的***,其中所述FLC模块包含错误检测模块,其对从所述编码器传输的所述帧的音频位流执行错误检测,且当检测到一个或一个以上错误时丢弃所述帧的频域数据。
25.根据权利要求23所述的***,其中所述FLC模块包含量值估计器,其基于所述帧的前一帧和所述帧的后一帧的能量来执行能量内插,以估计所述帧的所述频域数据的所述量值。
26.根据权利要求23所述的***,其中所述FLC模块包含符号估计器,其:
从随机信号中估计所述帧的所述频域数据的噪音分量的符号;以及
基于作为所述边信息从所述编码器传输的所述帧的所述符号子集来估计所述帧的所述频域数据的音调分量的符号。
27.根据权利要求23所述的***,
其中所述FLC模块包含分量选择模块,其按照量值的次序对所述帧的所述频域数据进行排序,选择预定数目的具有最高量值的所述频域数据作为所述帧的所述频域数据的音调分量,并产生识别所述音调分量在所述帧内的位置的索引子集;以及其中所述符号估计器基于所述索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
28.根据权利要求23所述的***,其中所述编码器包含符号提取器,其从所述帧的所述频域数据中提取所述符号子集,并将所述符号子集作为所述边信息附加到邻近帧的音频位流,其中所述编码器将所述帧的所述边信息以及所述邻近帧的所述音频位流传输到所述解码器。
29.根据权利要求28所述的***,
其中所述编码器包含分量选择模块,其按照量值的次序对所述帧的所述频域数据进行排序,选择预定数目的具有最高量值的所述频域数据作为所述帧的所述频域数据的音调分量,并产生识别所述音调分量在所述帧内的位置的索引子集;以及
其中所述符号提取器基于所述索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集。
30.根据权利要求23所述的***,其中所述帧的频域数据由经修改的离散余弦变换(MDCT)系数表示。
31.根据权利要求23所述的***,
其中所述编码器包含变换单元,其将所述帧的时域音频信号编码成所述帧的频域数据;以及
其中所述解码器包含逆变换单元,其将所述帧的所述估计的频域数据解码成所述帧的所估计时域数据。
32.根据权利要求31所述的***,其中所述编码器中所包含的所述变换单元包括经修改的离散余弦变换单元,且其中所述解码器中所包含的所述逆变换单元包括逆的经修改的离散余弦变换单元。
33.根据权利要求23所述的***,其中所述边信息包括所述帧的频域数据的音调分量的符号子集,
其中所述编码器用所述编码器来产生识别所述音调分量在所述帧内的位置的索引子集,用所述编码器来基于所述索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集,并将所述音调分量的所述符号子集作为所述边信息传输到所述解码器;以及
其中所述解码器用所述解码器使用与所述编码器相同的过程来产生识别所述音调分量在所述帧内的位置的索引子集,并基于所述索引子集从所述符号子集中估计所述音调分量的符号。
34.一种编码器,其包括:
分量选择模块,其选择音频信号的帧的频域数据的分量:以及
符号提取器,其从所述帧的所述频域数据中提取所述选定分量的符号子集,其中所述编码器将所述帧的所述符号子集作为边信息传输到解码器。
35.根据权利要求34所述的编码器,其中所述编码器将包含频域数据的所述帧的音频位流传输到所述解码器,并将所述帧的所述边信息以及邻近帧的音频位流传输到所述解码器,其中所述符号提取器将所述帧的所述边信息附加到所述邻近帧的所述音频位流。
36.根据权利要求34所述的编码器,其中所述分量选择模块产生识别所述分量在所述帧内的位置的索引子集。
37.根据权利要求34所述的编码器,其中所述选定分量包括所述帧的所述频域数据的音调分量,其中所述分量选择模块按照量值的次序对所述帧的所述频域数据进行排序,并选择预定数目的具有最高量值的所述频域数据作为所述音调分量。
38.根据权利要求34所述的编码器,其进一步包括FLC模块,所述FLC模块包含:
量值估计器,其基于所述帧的邻近帧来估计所述帧的所述频域数据的量值;
所述分量选择模块,其从所述帧的所述频域数据量值中估计值选择音调分量,并产生识别从所述帧的所述频域数据量值估计值中选择的所述音调分量的位置的所估计的索引子集;以及
符号提取器,其基于所述帧的所述估计的索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集。
39.根据权利要求34所述的编码器,其中所述分量选择模块从所述邻近帧的频域数据量值中选择音调分量,并产生识别从所述邻近帧的所述频域数据量值中选择的所述音调分量的位置的索引子集;以及
其中所述符号提取器基于所述邻近帧的所述索引子集从所述帧的所述频域数据中提取所述音调分量的所述符号子集。
40.一种包括帧丢失隐藏(FLC)模块的解码器,所述FLC模块包含:
量值估计器,其基于所述帧的邻近帧来估计音频信号的帧的频域数据的量值;以及
符号估计器,其基于作为边信息从编码器传输的所述帧的符号子集来估计所述帧的频域数据的符号,
其中所述解码器将所述量值估计值与所述符号估计值组合以估计所述帧的频域数据。
41.根据权利要求40所述的解码器,其中所述解码器从所述编码器接收包含频域数据的所述帧的音频位流,并从所述编码器接收所述帧的所述边信息以及邻近帧的音频位流。
42.根据权利要求40所述的解码器,其中所述FLC模块包含错误检测模块,其对从所述编码器传输的所述帧的音频位流执行错误检测,且当检测到一个或一个以上错误时丢弃所述帧的频域数据。
43.根据权利要求40所述的解码器,其中所述FLC模块包含量值估计器,其基于所述帧的前一帧和所述帧的后一帧的能量来执行能量内插,以估计所述帧的所述频域数据的所述量值。
44.根据权利要求40所述的解码器,其中所述符号估计器从随机信号中估计所述帧的所述频域数据的噪音分量的符号,且基于作为所述边信息从所述编码器传输的所述帧的所述符号子集来估计所述帧的所述频域数据的音调分量的符号。
45.根据权利要求40所述的解码器,其中所述FLC模块包含分量选择模块,其选择所述帧的所述频域数据的音调分量,并产生识别所述音调分量在所述帧内的位置的索引子集;以及
其中所述符号估计器基于所述索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
46.根据权利要求45所述的解码器,其中所述分量选择模块按照量值的次序对所述频域数据进行排序,并选择预定数目的具有最高量值的所述频域数据作为所述音调分量。
47.根据权利要求40所述的解码器,其中所述FLC模块包含分量选择模块,其从所述帧的所述频域数据的所述量值估计值中选择音调分量,并产生识别从所述帧的所述频域数据的所述量值估计值中选择的所述音调分量的位置的所估计的索引子集;以及
其中所述符号估计器基于所述帧的所述估计的索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
48.根据权利要求40所述的解码器,其中所述FLC模块包含分量选择模块,其从所述帧的邻近帧的频域数据的量值中选择音调分量,并产生识别从所述邻近帧的所述频域数据的所述量值中选择的所述音调分量的位置的索引子集;以及
其中所述符号估计器基于所述邻近帧的所述索引子集从所述帧的所述符号子集中估计所述音调分量的符号。
CN2006800488292A 2005-10-26 2006-10-25 用于音频编码的编码器辅助的帧丢失隐藏技术 Expired - Fee Related CN101346760B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US73045905P 2005-10-26 2005-10-26
US60/730,459 2005-10-26
US73201205P 2005-10-31 2005-10-31
US60/732,012 2005-10-31
US11/431,733 US8620644B2 (en) 2005-10-26 2006-05-10 Encoder-assisted frame loss concealment techniques for audio coding
US11/431,733 2006-05-10
PCT/US2006/060237 WO2007051124A1 (en) 2005-10-26 2006-10-25 Encoder-assisted frame loss concealment techniques for audio coding

Publications (2)

Publication Number Publication Date
CN101346760A true CN101346760A (zh) 2009-01-14
CN101346760B CN101346760B (zh) 2011-09-14

Family

ID=37772833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800488292A Expired - Fee Related CN101346760B (zh) 2005-10-26 2006-10-25 用于音频编码的编码器辅助的帧丢失隐藏技术

Country Status (8)

Country Link
US (1) US8620644B2 (zh)
EP (1) EP1941500B1 (zh)
JP (1) JP4991743B2 (zh)
KR (1) KR100998450B1 (zh)
CN (1) CN101346760B (zh)
AT (1) ATE499676T1 (zh)
DE (1) DE602006020316D1 (zh)
WO (1) WO2007051124A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486923A (zh) * 2010-12-03 2012-06-06 索尼公司 编码设备、编码方法、解码设备、解码方法以及程序
CN104011793A (zh) * 2011-10-21 2014-08-27 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
CN104885149A (zh) * 2012-09-24 2015-09-02 三星电子株式会社 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备
CN106575505A (zh) * 2014-07-29 2017-04-19 奥兰吉公司 Fd/lpd转换环境中的帧丢失管理
US10096324B2 (en) 2012-06-08 2018-10-09 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
CN108847247A (zh) * 2013-02-05 2018-11-20 瑞典爱立信有限公司 音频帧丢失隐藏
CN111627451A (zh) * 2013-06-21 2020-09-04 弗朗霍夫应用科学研究促进协会 用于获取音频信号的替换帧的频谱系数的方法及相关产品
CN112967727A (zh) * 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066836A1 (en) * 2006-11-28 2008-06-05 Treyex Llc Method and apparatus for translating speech during a call
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
CN101471073B (zh) * 2007-12-27 2011-09-14 华为技术有限公司 一种基于频域的丢包补偿方法、装置和***
CN101588341B (zh) * 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
WO2009150290A1 (en) 2008-06-13 2009-12-17 Nokia Corporation Method and apparatus for error concealment of encoded audio data
CN102089815A (zh) * 2008-07-09 2011-06-08 Nxp股份有限公司 数字处理音频信号的方法和设备以及计算机程序产品
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
CN104934036B (zh) 2010-11-22 2018-11-02 株式会社Ntt都科摩 音频编码装置、方法以及音频解码装置、方法
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
US9767822B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
CN102810313B (zh) * 2011-06-02 2014-01-01 华为终端有限公司 音频解码方法及装置
WO2013048171A2 (ko) * 2011-09-28 2013-04-04 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
CN103325373A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 用于传送和接收音频信号的方法和设备
KR20150056770A (ko) * 2012-09-13 2015-05-27 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
MX2021000353A (es) * 2013-02-05 2023-02-24 Ericsson Telefon Ab L M Método y aparato para controlar ocultación de pérdida de trama de audio.
HUE052041T2 (hu) 2013-02-13 2021-04-28 Ericsson Telefon Ab L M Keret hiba javítás
CA2913578C (en) 2013-06-21 2018-05-22 Michael Schnabel Apparatus and method for generating an adaptive spectral shape of comfort noise
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
EP3301843A4 (en) * 2015-06-29 2018-05-23 Huawei Technologies Co., Ltd. Method for data processing and receiver device
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
CN110908630A (zh) * 2019-11-20 2020-03-24 国家广播电视总局中央广播电视发射二台 音频处理方法、处理器、音频监测装置及设备
US11418876B2 (en) 2020-01-17 2022-08-16 Lisnr Directional detection and acknowledgment of audio-based data transmissions
US11361774B2 (en) * 2020-01-17 2022-06-14 Lisnr Multi-signal detection and combination of audio-based data transmissions
CN112365896B (zh) * 2020-10-15 2022-06-14 武汉大学 一种基于栈式稀疏自编码器的面向对象编码方法

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
KR100220861B1 (ko) * 1989-01-27 1999-09-15 쥬더, 에드 에이. 고품질 오디오용 낮은 시지연 변환인코더, 디코더 및 인코딩/디코딩방법
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5233348A (en) * 1992-03-26 1993-08-03 General Instrument Corporation Variable length code word decoder for use in digital communication systems
US5745169A (en) * 1993-07-19 1998-04-28 British Telecommunications Public Limited Company Detecting errors in video images
CN1140001A (zh) * 1994-12-02 1997-01-08 索尼公司 数字信号的插值方法及其装置、以及记录媒体的记录和(或)再生装置及其方法
KR970011728B1 (ko) 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
FR2741215B1 (fr) * 1995-11-14 1998-01-23 Matra Communication Procede de transmission d'une sequence de bits d'information avec protection selective contre les erreurs de transmission, procedes de codage et de correction pouvant etre mis en oeuvre dans un tel procede de transmission
JP3421962B2 (ja) 1996-10-14 2003-06-30 日本電信電話株式会社 欠落音響信号合成処理方法
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6240141B1 (en) * 1998-05-09 2001-05-29 Centillium Communications, Inc. Lower-complexity peak-to-average reduction using intermediate-result subset sign-inversion for DSL
US6073151A (en) * 1998-06-29 2000-06-06 Motorola, Inc. Bit-serial linear interpolator with sliced output
JP3567750B2 (ja) 1998-08-10 2004-09-22 株式会社日立製作所 圧縮音声再生方法及び圧縮音声再生装置
US6975254B1 (en) 1998-12-28 2005-12-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Methods and devices for coding or decoding an audio signal or bit stream
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6366888B1 (en) 1999-03-29 2002-04-02 Lucent Technologies Inc. Technique for multi-rate coding of a signal containing information
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2813722B1 (fr) 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP4190742B2 (ja) * 2001-02-09 2008-12-03 ソニー株式会社 信号処理装置及び方法
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
WO2002071389A1 (fr) 2001-03-06 2002-09-12 Ntt Docomo, Inc. Procede et dispositif d'interpolation de donnees sonores, procede et dispositif de creation d'informations relatives aux donnees sonores, procede et dispositif de transmission des informations d'interpolation des donnees sonores, et programme et support d'enregistrement correspondants
JP4622164B2 (ja) 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置
DE10130233A1 (de) 2001-06-22 2003-01-02 Bosch Gmbh Robert Verfahren zur Störverdeckung bei digitaler Audiosignalübertragung
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
EP1315148A1 (en) * 2001-11-17 2003-05-28 Deutsche Thomson-Brandt Gmbh Determination of the presence of ancillary data in an audio bitstream
US6751587B2 (en) * 2002-01-04 2004-06-15 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
US7047187B2 (en) 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
JP2004194048A (ja) 2002-12-12 2004-07-08 Alps Electric Co Ltd オーディオデータの転送方法および再生方法
US6985856B2 (en) 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
US7139959B2 (en) * 2003-03-24 2006-11-21 Texas Instruments Incorporated Layered low density parity check decoding for digital communications
EP1465349A1 (en) * 2003-03-31 2004-10-06 Interuniversitair Microelektronica Centrum Vzw Embedded multiple description scalar quantizers for progressive image transmission
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
SE527669C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
EP1914722B1 (en) * 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486923B (zh) * 2010-12-03 2015-10-21 索尼公司 编码设备、编码方法、解码设备、解码方法
CN102486923A (zh) * 2010-12-03 2012-06-06 索尼公司 编码设备、编码方法、解码设备、解码方法以及程序
US10468034B2 (en) 2011-10-21 2019-11-05 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
CN104011793A (zh) * 2011-10-21 2014-08-27 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
US11657825B2 (en) 2011-10-21 2023-05-23 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
CN104011793B (zh) * 2011-10-21 2016-11-23 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
US10984803B2 (en) 2011-10-21 2021-04-20 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
US10096324B2 (en) 2012-06-08 2018-10-09 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
US10714097B2 (en) 2012-06-08 2020-07-14 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
US10140994B2 (en) 2012-09-24 2018-11-27 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
US9842595B2 (en) 2012-09-24 2017-12-12 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
CN104885149B (zh) * 2012-09-24 2017-11-17 三星电子株式会社 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备
CN104885149A (zh) * 2012-09-24 2015-09-02 三星电子株式会社 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备
CN108847247B (zh) * 2013-02-05 2023-04-07 瑞典爱立信有限公司 音频帧丢失隐藏
CN108847247A (zh) * 2013-02-05 2018-11-20 瑞典爱立信有限公司 音频帧丢失隐藏
CN111627451A (zh) * 2013-06-21 2020-09-04 弗朗霍夫应用科学研究促进协会 用于获取音频信号的替换帧的频谱系数的方法及相关产品
CN111627451B (zh) * 2013-06-21 2023-11-03 弗朗霍夫应用科学研究促进协会 用于获取音频信号的替换帧的频谱系数的方法及相关产品
CN106575505A (zh) * 2014-07-29 2017-04-19 奥兰吉公司 Fd/lpd转换环境中的帧丢失管理
CN106575505B (zh) * 2014-07-29 2021-06-01 奥兰吉公司 Fd/lpd转换环境中的帧丢失管理
CN112967727A (zh) * 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖

Also Published As

Publication number Publication date
DE602006020316D1 (de) 2011-04-07
ATE499676T1 (de) 2011-03-15
KR20080070026A (ko) 2008-07-29
US20070094009A1 (en) 2007-04-26
EP1941500A1 (en) 2008-07-09
JP2009514032A (ja) 2009-04-02
JP4991743B2 (ja) 2012-08-01
EP1941500B1 (en) 2011-02-23
KR100998450B1 (ko) 2010-12-06
CN101346760B (zh) 2011-09-14
WO2007051124A1 (en) 2007-05-03
US8620644B2 (en) 2013-12-31

Similar Documents

Publication Publication Date Title
CN101346760B (zh) 用于音频编码的编码器辅助的帧丢失隐藏技术
KR101228165B1 (ko) 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체
KR100608062B1 (ko) 오디오 데이터의 고주파수 복원 방법 및 그 장치
US20180025735A1 (en) Systems and methods for implementing efficient cross-fading between compressed audio streams
KR101647576B1 (ko) 스테레오 오디오 신호 인코더
CN103915098A (zh) 音频信号编码器
WO2023197809A1 (zh) 一种高频音频信号的编解码方法和相关装置
US7428440B2 (en) Method and apparatus for preserving matrix surround information in encoded audio/video
KR20070090261A (ko) Ltp 부호화 시스템에서 피치 래그를 결정하기 위한시스템 및 방법
CN110235197B (zh) 立体声音频信号编码器
WO2021213128A1 (zh) 音频信号编码方法和装置
CN111816197A (zh) 音频编码方法、装置、电子设备和存储介质
Xie et al. ITU-T G. 719: A new low-complexity full-band (20 kHz) audio coding standard for high-quality conversational applications
EP3577649A1 (en) Stereo audio signal encoder
CN113808597A (zh) 一种音频编码方法和音频编码装置
Ito et al. Robust Transmission of Audio Signals over the Internet: An Advanced Packet Loss Concealment for MP3-Based Audio Signals
WO2022258036A1 (zh) 编解码方法、装置、设备、存储介质及计算机程序
CN101278485B (zh) 提供可分级bsac音频数据的算术解码的方法和装置
Kurniawati et al. Error concealment scheme for MPEG-AAC
CN115410585A (zh) 音频数据编解码方法和相关装置及计算机可读存储介质
Yang et al. Level Ratio Based Inter and Intra Channel Prediction with Application to Stereo Audio Frame Loss Concealment
Ehret et al. Evaluation of real-time transport protocol configurations using aacPlus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110914

Termination date: 20181025

CF01 Termination of patent right due to non-payment of annual fee