CN103918029B - 使用过采样谱带复制的上采样 - Google Patents

使用过采样谱带复制的上采样 Download PDF

Info

Publication number
CN103918029B
CN103918029B CN201280054915.XA CN201280054915A CN103918029B CN 103918029 B CN103918029 B CN 103918029B CN 201280054915 A CN201280054915 A CN 201280054915A CN 103918029 B CN103918029 B CN 103918029B
Authority
CN
China
Prior art keywords
sbr
scrambler
bit stream
sampling
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280054915.XA
Other languages
English (en)
Other versions
CN103918029A (zh
Inventor
霍尔格·赫里希
托比亚斯·弗里德里希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN103918029A publication Critical patent/CN103918029A/zh
Application granted granted Critical
Publication of CN103918029B publication Critical patent/CN103918029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种编码器(250),包括用于以信号采样速率(fs_in)对音频信号的低频分量进行编码的核心编码器(252)以及用于确定多个SBR参数的谱带复制,称为SBR,编码单元(153,254)。多个SBR参数被确定使得能够基于音频信号的低频分量和多个SBR参数来近似音频信号的高频分量。复用器(155)适于生成总的比特流,其包括核心编码比特流、多个SBR参数以及对SBR编码器(153,254)所应用的一个或多个SBR编码器设置的指示;其中所生成的总的比特流未指示通过以信号采样速率(fs_in)对低频分量进行编码确定了核心编码比特流。

Description

使用过采样谱带复制的上采样
相关申请的交叉引用
本申请要求2011年11月11日提交的美国临时申请No.61/558,519的优先权,通过引用将其全部内容合并到本申请中。
技术领域
本文档涉及音频编码和解码。具体地,本文档涉及包括谱带复制(spectralbandreplication,SBR)技术的音频编码/解码。
背景技术
例如谱带复制(SBR)技术的HFR(高频重构)技术使得能够显著提高传统的感知音频编解码器的编码效率。HFR与MPEG-4高级音频编码(AAC)相结合形成极为有效的音频编解码器,其已用在XM卫星广播***和世界数字广播联盟中,并且还在3GPP、DVD论坛等中被标准化。AAC和SBR的组合被称为aacPlus。aacPlus是MPEG-4标准的一部分,在MPEG-4标准中aacPlus被称为高效AAC简档(HE-AAC)。通常,HFR技术可以以向前和向后兼容的方式与任何感知音频编解码器组合,因此提供了升级已建立的广播***如EurekaDAB***中使用的MPEGlayer-2的可能。HFR变换(transposition)方法也可以与语音编解码器组合以允许超低比特率的宽带语音。
HRF(或具体地SBR)的基本思想在于如下言论:信号的高频范围(称为高频分量)的特征与同一信号的低频范围(称为低频分量)的特征之间通常存在强相关性。因此,通过从低频范围到高频范围的信号变换可以实现对信号的原始输入高频范围的表示的良好近似。
可以提供不同的采样速率的音频信号。音频编解码器的用户通常想要能够以各种输入采样速率对音频信号进行编码。以类似的方式,音频编解码器的用户想要能够在音频解码器的输入端处选择各种采样速率。作为示例,用户利用音频编解码器对(例如,来自压缩光盘、wav文件或媒体库的)未压缩的音频信号进行编码。这些未压缩的音频信号可以具有各种输入采样速率如由各种呈现设备(TV、mp3播放器、智能手机等)支持的24、32、44.1或48kHz。
因而,音频编解码器应当能够在编码器的输入端处对各种采样速率进行处理,并且应当能够在解码器的输出端处提供各种采样速率。具体地,音频编解码器应当能够以灵活且处理器有效的方式对音频编解码器的输入端和输出端处的音频信号的采样速率进行转换。作为示例,用户可以选择48kHz的输出采样速率和24kHz的输入采样速率。在这种情况下,音频编解码器应当能够提供要求低的计算复杂度的采样速率转换(因子为2的上采样)。具体地,应当降低与上采样有关的计算复杂度(或者,如果可能,应当完全去除使用传统的重采样器的显式上采样的必要)。
本文描述了利用高频重构的音频编解码器,尤其使用SBR的音频编解码器,其被配置成以降低的计算复杂度来执行音频信号的采样速率转换。
发明内容
根据一个方面,描述了信号采样速率下的音频信号的编码器。该编码器是基于SBR的编码器。因而,该编码器包括适于以信号采样速率对音频信号的低频分量进行编码从而生成核心编码比特流的核心编码器。换言之,在没有预先下采样到较低的采样速率的情况下,核心编码器直接操作信号采样速率下的音频信号。核心编码器对音频信号的低频分量进行编码,其中低频分量通常包括音频信号的低于SBR起始频率的频率。核心编码器可以适于执行例如高级音频编码(AAC)或者MPEG-1或MPEG-2音频LayerⅢ(即,mp3)编码。
此外,编码器包括谱带复制(SBR)编码单元,其适于确定受限于一个或多个SBR编码器设置的多个SBR参数。通常,多个SBR参数被确定使得可以基于音频信号的低频分量和多个SBR参数来近似(或重构)信号采样速率下的音频信号的高频分量。换言之,确定多个SBR参数以使得对应的SBR解码器能够根据(重构的)低频分量和多个SBR参数确定重构的高频分量。通常,高频分量包括音频信号的高于SBR起始频率的频率。
多个SBR参数通常包括参数化数据,其描述高频分量连同低频分量的频谱包络。因而,多个SBR参数可以使得能够根据低频分量中包括的频谱数据来近似高频分量的频谱包络。一个或多个SBR编码器设置通常以所谓的SBR报头被提供给对应的解码器。
此外,编码器包括适于生成总的比特流的复用器,总的比特流包括核心编码比特流、多个SBR参数以及对SBR编码器所应用的一个或多个SBR编码器设置的指示。总的比特流可以被传送到对应的解码器(例如,通过无线或有线网络),或者总的比特流可以存储在数据文件中。通常,以适当的数据格式提供总的比特流,例如,可以MP4格式、3GP格式、3G2格式或低开销MPEG-4音频传输复用器(LATM)格式对总的比特流进行编码。按照更通用的术语,可以以使用显式SBR信令的格式(通过编码器,例如,通过复用器)对总的比特流进行编码。可以有两种类型的显式SBR信令,向后兼容显式SBR信令和非向后兼容显式SBR信令(如ISO/IEC14496-3,章节1.6.5.2SBR的隐式和显式信令中所描述的)。规范ISO/IEC14496-3,章节1.6.5.2SBR的隐式和显式信令描述了SBR如何被用信号通知。该规范(具体地,所引用的部分)通过引用被合并。指示是否使用过采样SBR的相关信息可以存储在总的比特流的数据实体例如AudioSpecificConfig()中。在AudioSpecificConfig()中,可以传递两个不同的采样速率值,采样频率(samplingFrequency)和扩展采样频率(extensionSamplingFrequency)。两个不同的采样速率之间的比率可以表示过采样SBR的使用情况。对于过采样SBR,扩展采样频率通常是采样频率的两倍(其中,采样频率通常对应于核心编码器的采样速率)。
复用器(或更一般地,编码器)可以适于生成标准符合比特流(例如,通过引用被合并的ISO/IEC14496-12中的MP4FF)。
编码器可以适于确保所生成的总的比特流未指示通过以信号采样速率对低频分量进行编码而确定了核心编码比特流。换言之,总的比特流未记载以下事实:核心编码器在对音频信号进行编码之前未应用下采样,但已经直接以信号采样速率对音频信号进行核心编码。可替代地或另外,编码器可以适于确保所生成的总的比特流指示通过以比信号采样速率更低的采样速率例如信号采样速率的一半对低频信号进行编码而确定了核心编码比特流。在显式SBR信令的上下文中,这可以通过在AudioSpecificConfig()中提供适当的信息(如ISO/IEC14496-3,表1.1.3-AudioSpecificConfig()的语法所指定的,其通过引用被合并)来实现。具体地,编码器(例如,结合SBR编码器的核心编码器,其共同可以被称为高效(HE)编码器)可以适于确保扩展采样频率的值与采样频率的值之间的比率与2不同,例如小于2,例如等于1。因而,编码器可以适于生成指示编码器以双速率模式操作的总的比特流。扩展采样频率的修改可以由核心编码器结合SBR编码器来执行,因而,在一个实施例中,HE编码器将扩展采样频率的特定值(例如,等于采样频率的扩展采样频率)提供给复用器,并且复用器将该值包括在总的比特流的AudioSpecificConfig()中。
在高效高级音频编码(HE-AAC)编码器的情况下,编码器可以被指定为以过采样SBR模式操作的HE-AAC编码器。在更一般的情况下,编码器可以指代以过采样SBR模式操作的基于SBR的编码器。该编码器适于生成总的比特流,其包括核心编码比特流、多个SBR参数以及对用于确定SBR参数的一个或多个SBR编码器设置的指示。此外,编码器可以适于确保所生成的总的比特流未指示(或者未记载以下事实)编码器工作在过采样SBR模式下。可替代地或另外,编码器可以适于确保所生成的总的比特流指示编码器工作在双速率SBR模式下。如上面所指出的,这可以通过在AudioSpecificConfig()中提供适当的数据来实现。
编码器可以利用多个参数调整表以依赖于一个或多个编码器限制或条件(也称为标准或输入参数)来定义一个或多个SBR编码器设置。通常,多个参数调整表基于感知测量被确定,以便使得编码器的感知上优化的性能处于对应的编码器条件下。
因而,SBR编码单元可以适于根据多个参数调整表中的一个来确定一个或多个SBR编码器设置。如上面所指出的,多个参数调整表中每一个可以依赖于一个或多个编码器条件来定义一个或多个SBR编码器设置。换言之,可以针对一个或多个编码器条件的特定组合来定义参数调整表(包括一个或多个SBR编码器设置)。一个或多个编码器条件可以包括下列中的任何一个或多个:较低的目标比特率、较高的目标比特率、由核心编码器使用的采样速率、包括在音频信号内的声道的数量、对使用过采样编码模式而非双速率模式的指示。
如上所述,在过采样编码模式下,核心编码器以信号采样速率对音频信号的低频分量进行编码。另一方面,在双速率编码模式下,核心编码器以降低的采样速率例如信号采样速率的一半对音频信号的低频分量进行编码。编码器可以适于确保总的比特流未指示编码器使用过采样编码模式生成了总的比特流。
此外,编码器可以适于从多个参数调整表中选择适当的参数调整表,并且使用适当的参数调整表中所定义的一个或多个SBR编码器设置用于确定多个SBR参数。通常,以过采样编码模式工作的编码器使用针对指示使用过采样编码模式的编码器条件所定义的参数调整表。为了确保本文档中所描述的上采样场景中的适当的多个SBR参数的确定,编码器(具体地,SBR编码单元)可以适于使用多个参数调整表中的双速率参数调整表。该双速率参数调整表针对指示使用双速率编码模式的编码器条件而被定义。
为了降低编码器的复杂度,编码器可以适于对由双速率参数调整表定义的一个或多个SBR编码器设置中至少之一进行修改。具体地,双速率参数调整表可以针对由核心编码器使用的采样速率对应于信号采样速率的(另外的)编码器条件而被定义。此外,双速率参数调整表可以定义双速率SBR终止频率作为一个或多个SBR参数设置中的一个。编码器(具体地,SBR编码单元)可以适于使用SBR终止频率用于确定多个SBR参数,其中,SBR终止频率小于双速率SBR终止频率。因而,编码器适于将SBR编码集中在包括信号能量的音频信号的频带上。
另外,双速率参数调整表可以定义双速率SBR起始频率作为一个或多个编码器设置中的一个。编码器(具体地,SBR编码单元)可以适于使用SBR起始频率用于确定多个SBR编码器设置,其中,SBR起始频率对应于双速率SBR起始频率。
编码器还可以包括上采样单元,其适于以第一采样速率对音频信号进行上采样以提供信号采样速率下的音频信号,其中,第一采样速率小于信号采样速率。换言之,上采样单元可以用于将音频信号从第一采样速率上采样到信号采样速率。然后,编码器可以适于基于第一采样速率来确定用于对音频信号进行SBR编码的SBR终止频率。具体地,编码器可以选择SBR终止频率以接近第一采样速率的一半。
应当注意,通常在预定的频率网格(grid)(例如,由正交镜像滤波器组提供的网格)上选择SBR终止频率。此外,关于SBR终止频率相对于SBR起始频率的值的选择具有限制。作为示例,可以由SBR编码器强加:SBR终止频率比SBR起始频率至少高预定数量的频带(例如,三个QMF带)。在这样的情况下,编码器可以选择SBR终止频率以尽可能接近第一采样速率的一半或信号采样速率的一半(同时考虑到SBR起始频率的最小所需距离和/或同时考虑预定的频率网格)。
SBR编码单元通常包括分析滤波器组(例如,正交镜像滤波器组,QMF),其适于根据音频信号提供多个子带信号。此外,SBR编码单元可以包括SBR编码器,其适于:将上述多个子带信号的第一子集分配给低频分量;将上述多个子带信号的第二子集分配给高频分量;并且根据第一子集和第二子集确定多个SBR参数。
如上面所指出的,一个或多个SBR编码器设置通常包括SBR起始频率,其中,SBR编码单元限于针对高频分量的等于或高于SBR起始频率的频率来确定多个SBR参数。此外,一个或多个SBR编码器设置通常包括SBR终止频率,其中,SBR编码单元限于针对高频分量的等于或低于SBR终止频率的频率来确定多个SBR参数。
根据又一方面,描述了适于将信号采样速率下的音频信号上采样成较高的采样速率(例如,两倍信号采样速率或更大)的音频编解码器。音频编解码器为SBR音频编解码器,并且包括信号采样速率下的音频信号的编码器以及对应的解码器。编码器包括适于以信号采样速率对音频信号的低频分量进行编码从而生成核心编码比特流的核心编码器。此外,编码器包括适于确定受限于一个或多个SBR编码器设置的多个SBR参数的SBR编码单元。确定多个SBR参数,使得可以基于音频信号的低频分量和多个SBR参数来近似信号采样速率下的音频信号的高频分量。另外,编码器包括适于生成总的比特流的复用器,总的比特流包括核心编码比特流、多个SBR参数以及对一个或多个SBR编码器设置的指示。
对应的解码器适于接收所生成的总的比特流。解码器包括适于根据核心编码的比特流生成信号采样速率下的重构的低频分量的核心解码器。核心解码器可以是核心编码器的对应的解码器(例如,AAC或mp3)。此外,解码器包括适于生成重构的低频分量的N(例如,N=32)个子带信号的分析滤波器组(例如,QMF滤波器组)。另外,解码器包括适应于基于重构的低频分量的N个子带信号,基于多个SBR参数以及基于一个或多个SBR编码器设置来生成重构的高频分量的N个子带信号的SBR解码器。解码器利用包括2N个频带的合成滤波器组(例如,QMF滤波器组)以根据重构的低频分量的N个子带信号以及重构的高频分量的N个子带信号生成两倍信号采样速率下的重构的音频信号。
换言之,基于SBR的编解码器(例如,HE-AAC)可以适于对信号采样速率下的音频信号进行上采样。基于SBR的编解码器包括以过采样SBR模式工作的基于SBR的编码器(例如,HE-AAC编码器)。基于SBR的编码器(例如,HE-ACC编码器)适于生成总的比特流,其包括核心编码比特流、多个SBR参数以及用于确定SBR参数的一个或多个SBR编码器设置。此外,编解码器包括以双速率模式工作的基于SBR的解码器(例如,HE-ACC解码器)。基于SBR的解码器(例如,HE-ACC解码器)适于根据总的比特流生成两倍信号采样速率下的重构的音频信号。
根据另一方面,描述了一种用于对信号采样速率下的音频信号进行编码的方法。该方法包括:以信号采样速率对音频信号的低频分量进行编码从而生成核心编码比特流。此外,该方法可以包括确定受限于一个或多个SBR编码器设置的多个SBR参数。确定多个SBR参数,使得可以基于音频信号的低频分量和多个SBR参数来近似信号采样速率下的音频信号的高频分量。此外,该方法包括生成总的比特流,其包括核心编码比特流、多个SBR参数以及对一个或多个SBR编码器设置的指示。该方法确保所生成的总的比特流未指示通过以信号采样速率对低频分量进行编码确定了核心编码比特流。
根据另一方面,描述了对信号采样速率下的音频信号进行上采样的方法。该方法包括:以信号采样速率对音频信号的低频分量进行编码从而生成核心编码比特流。该方法可以进行确定受限于一个或多个SBR编码器设置的多个SBR参数。确定多个SBR参数,使得可以基于音频信号的低频分量和多个SBR参数来近似信号采样速率下的音频信号的高频分量。该方法可以包括根据核心编码的比特流生成信号采样速率下的重构的低频分量。此外,该方法可以包括生成重构的低频分量的N个子带信号,以及基于重构的低频分量的N个子带信号,基于多个SBR参数以及基于一个或多个SBR编码器设置来生成重构的高频分量的N个子带。最后,该方法根据重构的低频分量的N个子带信号以及重构的高频分量的N个子带信号来生成两倍采样速率下的重构的音频信号。
根据又一方面,描述了软件程序。软件程序可以适于在处理器上执行并且当在计算设备上执行时用于执行本文档中所阐述的方法步骤。
根据另一方面,描述了存储介质。存储介质可以包括适于在处理器上执行并且当在计算设备上执行时用于执行本文档中所阐述的方法步骤的软件程序。
根据又一方面,描述了计算机程序产品。计算机程序产品可以包括当在计算机上执行时用于执行本文档中所阐述的方法步骤的可执行指令。
应当指出的是,可以单独地或以与本文档中公开的其他方法和***相结合地使用包括如本文中所阐述的其优选实施例的方法和***。此外,可以任意组合本文档中所阐述的方法和***的所有方面。具体地,可以以任意方式相互组合权利要求的特征。
附图说明
下面参照附图以示例性方式说明了本发明,在附图中:
图1a示出了双速率模式下的HE-AAC编解码器的示例框图;
图1b示出了过采样SBR模式下的HE-AAC编解码器的示例框图;
图2示出了提供固有的上采样的HE-AAC编解码器的示例框图;
图3示出了用于选择参数调整表的方法的示例流程图;以及
图4示出了输入采样速率和输出采样速率的可能组合的示例图表。
具体实施方式
如上所述,本文档涉及利用诸如SBR技术的高频重构技术的音频编解码器。图1a和图1b示出了在HE-AAC版本1和HE-AAC版本2(即,包括立体声信号的参数化立体声(PS)编码/解码的HE-AAC)中使用的两个基于SBR的示例音频编解码器。图1a示出了以所谓的双速率模式即编码器110中的核心编码器112以SBR编码器114的采样速率的一半工作的模式操作的HE-AAC编解码器100的框图。在编码器110的输入端,提供输入采样速率fs=fs_in的音频信号。然后,该音频信号在下采样单元111中通过因子2被下采样,以提供音频信号的低频分量。通常,下采样单元111包括低通滤波器,以在下采样之前去除高频分量(从而避免混叠)。下采样单元111提供降低的采样速率fs/2=fs_in/2的低频分量。低频分量由核心编码器112(例如,AAC编码器)编码以提供低频分量的编码的比特流。
应当指出的是,在本文档和相应的图中,在基于信号或在编码器和/或解码器的输入端处所接收的比特流的采样速率的由编码器和/或解码器所使用的内部采样速率(表示为fs)与音频信号的输入/输出采样速率(分别表示为fs_in/fs_out)之间进行区分。具体地,通常将内部采样速率fs设置成等于音频信号和/或在编码器和/或解码器处所接收的比特流的采样速率。
使用SBR参数对音频信号的高频分量进行编码。为此,使用分析滤波器组113(例如,具有例如64个频带的正交镜像滤波器组(QMF))对音频信号进行分析。因此,获得音频信号的多个子带信号,其中,在每个时刻t(或在每个样本n)处,多个子带信号提供在该时刻t处的音频信号的频谱的指示。多个子带信号被提供至SBR编码器114。SBR编码器114确定多个SBR参数,其中,多个SBR参数使得能够在对应的解码器处根据(重构的)低频分量来重构音频信号的高频分量。SBR编码器114通常确定多个SBR参数,使得基于多个SBR参数和(重构的)低频分量所确定的重构的高频分量近似原始的高频分量。为此,SBR解码器114可以利用基于原始的高频分量和重构的高频分量的误差最小化准则(例如,均方误差准则)。
多个SBR参数与低频分量的编码的比特流在复用器115内接合以提供总的比特流,例如HE-AAC比特流,其可以被存储或可以被传送。如下所述,总的比特流也包括关于SBR编码器设置的信息,SBR编码器设置由SBR编码器114使用以确定多个SBR参数。
对应的解码器130可以根据总的比特流生成采样速率fs_out=fs_in的未压缩的音频信号。核心解码器131将SBR参数与低频分量的编码的比特流分离。此外,核心解码器131(例如,AAC解码器)对低频分量的编码的比特流进行解码以提供解码器130的内部采样速率fs下的重构的低频分量的时域信号。使用分析滤波器组132对重构的低频分量进行分析。应当指出的是,在双速率模式下,由于如下事实:AAC解码器131在下采样域中即以作为输入采样速率fs_in的一半并且为输出采样速率fs_out的一半的内部采样速率fs工作,所以在解码器130处内部采样速率fs与输入采样速率fs_in和输出采样速率fs_out不同。
分析滤波器组132(例如,具有例如32个频带的正交镜像滤波器组)通常仅具有与编码器110处所使用的分析滤波器组113相比一半数量的频带。这是由于如下事实:仅重构的低频分量而不是全部音频信号需要被分析。在SBR解码器113中结合所接收的SBR参数使用所得到的重构的低频分量的多个子带信号,以生成重构的高频分量的多个子带信号。随后,使用合成滤波器组134(例如,具有例如64个频带的正交镜像滤波器组)以在时域中提供重构的音频信号。通常,合成滤波器组134具有分析滤波器组132的频带数量的两倍数量的频带。重构的低频分量的多个子带信号可以被馈送至合成滤波器组134的低半部分频带,并且重构的高频分量的多个子带可以被馈送至合成滤波器组134的高半部分频带。合成滤波器组134的输出端处的重构的音频信号具有与信号采样速率fs_out=fs_in对应的2fs的内部采样速率。
图1b示出了在过采样SBR模式下使用的HE-AAC编解码器140的框图。过采样SBR模式下的HE-AAC编解码器140很大程度上以与双速率模式下的HE-AAC编解码器110相同的方式操作,区别在于:编码器150不包括下采样单元111。因此,核心编码器152能够操作音频信号的全部带宽,从而提供与由核心编码器152编码的低频分量的带宽以及使用SBR编码器154编码的高频分量的带宽有关的额外灵活性。换言之,依赖于在编码器150的输出端处可得到的总的比特流的比特率,核心解码器152可以选择低频分量的带宽。音频信号的其余带宽归属于高频分量,并且使用SBR编码器154被编码。低频分量与高频分量之间的跃迁(transition)频率可以被称为交叉(crossover)频率。由于缺少下采样单元111,所以核心编码器152以较高的采样速率即以内部采样速率fs=fs_in工作,并且被提供有具有较高的时间分辨率的输入信号。这对于(例如,由短的起音(attack)导致的)编码信号峰值或瞬态是有利的。
另一方面,编码器150通常使用比双速率模式下的HE-AAC编解码器的编码器110较低的频率分辨率用于确定SBR参数。该降低的频率分辨率可以足以处理具有降低的带宽(与双速率模式下的HE-AAC编解码器的情况下的高频分量的带宽相比)的高频分量。在编码器150中,分析滤波器153(例如,具有例如32个频带的正交镜像滤波器组)用于提供音频信号的多个子带信号。SBR编码器154使用多个子带信号以生成多个SBR参数,该多个SBR参数与归属于低频分量的多个子带信号相结合近似归属于高频分量的多个子带信号。复用器155用于将由核心编码器152提供的低频分量的编码的比特流与多个SBR参数组合以提供可以被存储或传送的总的比特流。另外,总的比特流可以包括已经由SBR编码器154使用以生成多个SBR参数的SBR编码器设置的指示。具体地,总的比特流可以包括已经使用过采样SBR模式下的HE-AAC编码的指示。
在解码器170处,总的比特流被分成低频分量的编码的比特流和多个SBR参数。使用核心解码器171(例如,AAC解码器)将低频分量的编码比特流解码成时域重构的低频分量。重构的低频分量被传递至分析滤波器组172(例如,具有例如32个频带的正交镜像滤波器组),以提供重构的低频分量的多个子带信号。通常,分析滤波器组172具有与编码器150处所使用的分析滤波器组153相同数量的频带。这是由于如下事实:解码器170不知道总的信号带宽的哪个片段已经归属于低频分量以及哪个片段已经归属于高频分量的先验知识。
多个子带信号被传递至SBR解码器173,在SBR解码器173中多个SBR参数用于生成重构的高频分量的多个子带信号。重构的低频分量的多个子带信号以及重构的高频分量的多个子带信号被分配给合成滤波器组174(例如,具有例如32个频带的正交镜像滤波器组)的相应频带,以提供具有与信号采样速率fs_out=fs_in对应的内部采样速率fs的时域重构的音频信号。合成滤波器组174的频带数量通常与编码器150处所使用的分析滤波器组153的频带数量对应。
双速率模式下的基于SBR的编解码器100以及过采样SBR模式下的基于SBR的编解码器140通常利用多个参数调整表,其将大量SBR编码器设置定义为输入参数(或者标准或条件)的函数。输入参数或条件通常包括:
●所使用的核心编码器的类型(在HE-AAC编解码器情况下为AAC,但当使用mp3-pro时,mp3可以用作核心编码器);
●比特率下限(指示不应当被下切(undercut)的较低的比特率);
●比特率上限(指示不应当被超过的较高的比特率);
●指示使用过采样SBR模式下的HE-AAC(或使用双速率模式下的HE-AAC)的二进制标志(也称为bUse_downsampled模式的指示);
●由核心编码器使用的采样速率;
●待编码的音频信号的音频通道的数量(例如,具有两个音频通道的立体声信号,或具有5个音频通道和额外的LFE(低频效果)通道的5.1环绕声音频信号);
上面提到的输入参数中的一些或全部定义了特定参数调整表,该特定参数调整表包括和定义了下列SBR编码器设置的一些或全部。
●SBR起始频率(也称为SBRstartBandFrequency)(其指示高频分量的频率下限或较低的频带)。SBR起始频率是被传送至对应的解码器的SBR报头的一部分。细节参见ISO/IEC14496-3表4.63—sbr_header()的语法,其中,SBR起始频率被称为bs_start_freq。该文档通过引用被合并。该SBR起始频率指定达到使用核心编码器对音频信号进行编码的频率上限。SBR起始频率(结合xOverBand)定义了等于或高于使用SBR编码对音频信号进行编码的音频信号的频率下限或较低的频带。更精确地,xOverBand(被称为上面提到的标准中的bs_xover_band)定义了与SBR起始频率的偏移,从而确定了实际的SBR范围。在大多数情况下,偏移为0,使得SBR起始频率实际上指示等于或高于使用SBR编码对音频信号进行编码的音频信号的频率下限或较低的频带。
●语音配置的SBR起始频率(其指示语音音频信号的SBR起始频率)。通常,其是通知编码器待编码的音频信号是语音音频信号的编码器的用户。如果是这样,则语音配置的SBR起始/终止频率在SBR报头内被选择和传达。
●SBR终止频率(也称为SBRstopBandFrequency)(其指示SBR编码的较高的频率或较高的频带)。SBR终止频率是SBR报头的一部分(参见ISO/IEC14496-3表4.63-sbr_header()的语法),并且被称为bs_stop_freq。SBR参数仅针对位于由SBR起始频率和SBR终止频率所限定的频率间隔内的高频分量的频带而确定。在SBR编码中不考虑高于SBR终止频率的频率。
●语音配置的SBR终止频率(其指示语音音频信号的SBR终止频率)。
●各种噪声相关设置如噪声带的数量(SBR报头的一部分(参见(ISO/IEC14496-3表4.63-sbr_header()的语法,并且被称为bs_noise_bands))、噪声地面偏置或噪声最大电平。这些噪声相关设置可以用于指定被添加至重构的高频分量以提高高频分量的感知质量的噪声。
●立体声模式(其例如指示使用立体声信号的PS编码或立体声音频信号的左右信号的编码)。更具体地,“立体声模式”决定是否使用SBR的立体声耦合。
●频带的缩放。该参数是SBR报头的一部分(参见ISO/IEC14496-3,表4.63-sbr_header()的语法),并且被称为bs_freq_scale。频带的缩放指示SBR的每八度音节的带的数量。这是用于生成SBR编码器和解码器中的频带表所必要的。这些带用于应用缩放操作、噪声替代、丢失谐波***、逆滤波等。(进一步的细节参见ISO/IEC14496-3表4.105-bs_freq_scale,其通过引用被合并)。xOverBand(即,SBR变调频率)是SBR报头的一部分(参见ISO/IEC14496-3表4.63-sbr_header()的语法,被称为bs_xover_band)。
通常,双速率模式下(没有设置过采样SBR的标志)的HE-AAC编解码器100以及过采样SBR模式下(设置了过采样SBR的标志)的HE-AAC编解码器140具有不同的参数调整表。出于下列原因,SBR起始频率和SBR终止频率尤其相关。如可以在图1a和图1b中看到的,双速率模式下的HE-AAC编解码器100的核心编解码器112工作在与过采样SBR模式下的HE-AAC编解码器140相比的一半采样速率下(对于输入端处相同的音频信号)。因而,对于双速率模式(即,没有设置过采样SBR的标志)已经定义的参数调整表通常具有与针对过采样SBR模式(即,设置过采样SBR的标志)已经定义的参数调整表不同的SBR起始/终止频率与核心编码器采样速率的比率。
上面提到的SBR编码器设置(或其指示)的一些或全部例如以传送的比特流或以音频文件从编码器110、150被提供给对应的解码器130、170。具体地,编码器110、150可以将SBR起始频率、SBR终止频率、噪声带的数量、噪声地面偏置、噪声最大电平、立体声模式的使用、频带(bs_freq_scale)的缩放和/或xOverBand的指示提供给对应的解码器130、170。另外,以过采样SBR模式操作的编码器150可以将bUse_downsampled模式的指示即编码器150已工作在过采样SBR模式下的指示提供给解码器,使得在解码器侧选择过采样SBR模式下的适当的解码器170。如前面所提到的,这可以通过AudioSpecificConfig()中的扩展采样频率来指示。因而,对应的解码器130、170不需要知道关于精确的参数调整表以及在编码器处所使用的对音频信号进行编码的可能的其他参数的所有细节。解码器可以是通用的,例如标准化的,仅基于在总的比特流内接收的有限数量的SBR编码器设置的指示来对所接收的总的比特流进行解码的解码器。
如上面已经指出的,期望以有效的方式提供编解码器100、140的输入端处的音频信号的采样速率fs_in与输出端处的音频信号的采样速率fs_out之间的转换。在本文档中提出了通过将过采样SBR模式下的HE-AAC编解码器140的编码器150与双速率模式下的HE-AAC编解码器100的解码器130组合来提供因子为2(或更大)的上采样。在图2中示出了将修改的过采样模式下的编码器250与双速率模式下的解码器组合的这样的配置200。如从图2可见,编码器250不执行低频分量的下采样,因此提供采样速率为fs=fs_in的时域信号的总的比特流表示。解码器130接收总的比特流,并且固有地执行因子为2的上采样。具体地,解码器130接收表示采样速率为fs=fs_in的时域信号的总的比特流,并且生成采样速率为2fs的时域信号。因此,在解码器130的输出端处获得重构的音频信号,其中,重构的音频信号具有fs_out=2fs_in的输出采样速率。
换言之,提出了使用过采样SBR的音频信号的上采样。具体地,提出了在不需要传统的重采样(resampler)的情况下音频编码器(例如,杜比脉冲编码器)中的HE-AAC版本1和HE-AAC版本2配置的因子为2的上采样。对于使用过采样SBR的音频信号的上采样,以“过采样SBR模式”运行的编码器250(也称为“过采样模式”下的编码器250)与以“双速率(正常)SBR模式”运行的解码器130组合。
在需要上采样的传统音频编解码器中,在SBR处理发生之前输入音频信号被上采样(通常而言,样本的数量增大),从而导致上采样的音频信号包括数量增加的样本。从而,SBR编码器需要执行大量的额外计算,从而增加音频编码器的计算复杂度。然而,由于在SBR处理之前没有进行上采样,所以对于图2中示出的所提出的音频编码/解码方案不是这种情况。这通过至少两个措施降低了编码器的复杂度:一个方面通过避免重采样单元,另一方面通过以较低的采样速率执行SBR编码。
音频编解码器200提供固有的因子(或比率)为2的上采样。如果需要小于2的上采样比率,则这些可以通过使用传统的重采样器来提供。对于高于因子2的上采样样本速率比率,传统的重采样器可以用于将音频信号上采样成下一个适当的样本速率(其为所期望的输出采样速率的一半)。随后,音频编解码器200可以用于提供其余的因子为2的上采样。例如,可以通过从22.05kHz到24kHz的传统上采样之后使用产生具有48kHz输出样本速率的音频信号的音频编解码器200来进行从22.05kHz到48kHz的上采样。
HE-AAC版本1和HE-AAC版本2通常包括标准化的解码器,其被配置成选择性地以双速率模式(如图1a和图2的解码器130所示)执行解码或以过采样SBR模式即以所谓的“下采样模式”(如图1b所示)执行解码。“双速率模式”通常是由编码器和解码器使用的默认模式。因此,对于以过采样SBR模式使用编解码器140,使用显式SBR信令,以便告诉解码器以“下采样模式”操作。因而,复用器155的输出端处的复用的比特流需要向对应的解码器170提供使用“下采样模式”的指示。作为示例,包括复用的比特流的MP4文件例如通过AudioSpecificConfig()中的参数“扩展采样频率”来包括使用“过采样SBR”的适当指示。为了实现图2的音频编解码器200,编码器250(以“上采样模式”工作)可以适于不将使用“过采样SBR”的这样的指示包括在复用的比特流中。作为示例,对于使用显式SBR信令的MP4文件,指示解码器使用“下采样SBR”的显式指令不被包括或去除。替代地,编码器250(具体地,结合SBR编码器254的核心编码器252)可以适于***“双速率模式”已经由编码器250使用的指示。可以通过适当地修改参数“扩展采样频率”来提供这样的指示。因此,解码器(默认地)使用双速率模式下的解码器130。
如上所述,编码器250处的SBR编码器254的设置在参数调整表中被指定。通常,编码器包括多个这样的参数调整表,例如,双速率模式下的编码器110的第一多个参数调整表以及上采样模式下的编码器140(即,过采样SBR模式下的音频编解码器)的第二多个参数调整表。参数调整表指定(在由一个或多个标准定义的一个或多个限制下)待被使用的一个或多个SBR编码器设置,以便实现一个或多个限制下的音频编解码器的最佳编码结果。可以例如使用关于一组听者的感知测量来确定参数调整表。作为示例,参数调整表在使用预定的比特率和特定编码模式的限制下。感知测量可以用于确定实现一组听者的最佳结果的SBR编码器设置。这些SBR编码器设置结合限制形成参数调整表。
因而,多个参数调整表中的每一个由如下标准(也称为限制或输入参数)中的一个或多个识别:较低的目标比特率、较高的目标比特率、核心解码器处的采样速率、过采样SBR的标志以及通道的数量。多个参数调整表中的每一个定义标准(或限制)的相应组合的多个SBR编码器设置。过采样SBR模式下的音频编解码器140通常用于与双速率模式下的音频编解码器100相比相对高的比特率。因此,过采样SBR模式可得到的参数调整表(即,第二多个参数调整表)被定义成比双速率模式可得到的参数调整表(即,第一多个参数调整表)相对较高的目标比特率。
为了能够对于广泛的比特率(具体地相对低的比特率)提供音频编解码器200(其固有地执行上采样),并且为了确保与传统的音频编码器的后向兼容性,提出了使得编码器150(以上采样模式工作)不仅能够使用第二多个参数调整表(即,对于过采样SBR模式可得到的参数调整表),如果对于给定的目标比特率在第二多个参数调整表内没有找到适当的参数调整表也能够使用第一多个参数调整表(即,对于双速率模式可得到的参数调整表)。换言之,提出了当没有找到适当的“过采样”SBR参数调整表时使用“双速率”SBR参数调整表。因而,确保即使在低比特率(以及低采样速率)下,根据感知最佳的参数调整表的SBR参数设置可以用于音频编解码器200中。换言之,确保对于比特率与采样速率的额外组合可以提供适当的SBR参数调整表。
应当指出的是,理论上新的SBR参数调整表可以针对本文档中所描述的音频编解码器200而具体设计。然而,如果设计了新的SBR参数调整表,则编码器150可以使用新的SBR参数调整表用于传统的过采样SBR。由于过采样SBR不是针对所提出的音频编解码器200通常所用于的采样速率/比特率组合的类型,所以这不是期望的。
在以上采样模式工作的编码器250的上下文中,使用“双速率”SBR参数调整表暗示SBR终止带频(即,SBR终止频率)位于音频编解码器200的输出信号的带宽附近。从而,SBR终止带频应当被调节成输入信号的带宽,否则SBR编码器254将会操作空的信号部分,即,SBR编码器254将会操作不包括任何有效能量的频带。
作为示例,可以使用22050Hz的第一采样速率对输入立体声音频信号进行编码。选择的是,输出(或重构的)音频信号应当具有48kHz的采样速率。此外,编码信号应当是目标比特率为128kbit/s的HE-AAC比特流。在第一步骤中,编码器可以包括传统的重采样器或上采样器,其将22050Hz下的输入音频信号变换成信号采样速率为24kHz(即,所期望的输出采样速率的一半)的音频信号。其余上采样由图2的编解码器200固有地提供。
编解码器200的编码器250以上采样模式操作,因此初始查找满足下列标准或编码条件的“上采样”SBR参数调整表:
●下比特率:<128kbit/s
●上比特率:>128kbit/s
●过采样SBR的标志(是/否):是
●核心编码器的采样速率:24kHz
●通道数量:2
●使用特定核心编码器:例如,AAC或mp3
编码器250可以确定这样的参数调整表不存在(例如,因为采样速率对于过采样SBR的典型应用来说这样的高比特率太低或这样的低比特率太高)。因此,编码器250查找满足上述标准的“双速率”SBR参数调整表,即,具有相同标准(但不具有过采样SBR的标志)的参数调整表:
●下比特率:<128kbit/s
●上比特率:>128kbit/s
●过采样SBR的标志(是/否):否
●核心编码器的采样速率:24kHz
●通道数量:2
●使用特定核心编码器:例如,AAC或mp3
该“双速率”SBR调整表可以提供10125Hz的SBR起始频率以及22125Hz的SBR终止频率,其共同定义由SBR编码覆盖的频率间隔。然而,鉴于输入音频信号的第一采样速率为22050Hz(即,在上采样之前的输入音频信号的采样速率),输入音频信号的带宽仅为11025Hz(=22050Hz/2)。为了降低编码器250的总的复杂度,因此有利的是,根据输入音频信号的实际带宽来调整SBR终止频率。具体地,SBR终止频率可以被设置成等于核心编码器的采样速率的一半(即,被设置成12kHz)。如果编码器250知道输入音频信号的第一采样速率(即,如果编码器250知道输入音频信号的上采样),则编码器250可以适于将SBR终止频率设置成等于第一采样速率的一半(即,设置成22050Hz/2)。如果所得到的SBR终止频率低于SBR起始频率,那么应当根据SBR起始频率设置SBR终止频率(如上所述,SBR终止频率应当是比SBR起始频率高预定数量的QMF带,因此,SBR终止频率可以被选择为比SBR起始频率高例如3个QMF带)。应当指出的是,通常,SBR起始频率和SBR终止频率的值仅可以在预定义的频率网格上被修改。因而,SBR终止频率根据预定义的频率网格被修改,以便最好地近似(如果需要,到较高的频率)上面提到的值(即,核心编码器的采样速率的一半、输入音频信号的第一采样速率的一半或SBR起始频率)。
图3示出了用于在编码器250处选择适当的参数调整表的方法300的示例流程图。在步骤301中,关于过采样SBR模式在多个参数调整表内搜索适当的参数调整表。确定适当的参数调整表,使得其满足除了已经对于过采样SBR模式设计参数调整表的标准以外的所期望的标准(例如,比特率下限、比特率上限、核心编码器的采样速率、通道的数量)中的一些或全部。在步骤302中,验证是否已经确认适当的参数调整表。如果验证已经确认了适当的参数调整表,则在步骤306中使用该参数调整表以对输入音频信号进行编码。如果验证还未确认适当的参数调整表,则关于双速率模式在多个参数调整表内搜索适当的参数调整表(步骤303)。适当的参数调整表被确定,使得其满足所期望的标准(例如,比特率下限、比特率上限、核心编码器的采样速率、通道的数量)中的一些或全部而不满足针对过采样SBR模式已经设计了参数调整表的标准。在图3中,假定可以确认适当的参数调整表,否则该方法可以进入错误流程(例如,明确提示用户SBR编码器设置或使用默认的SBR编码器设置)。在可选的步骤304中,可以验证适当的参数调整表中的SBR终止频率是否超过音频信号的输入采样速率的一半(或者如果第一采样速率是已知的,是否超过音频信号的第一采样速率的一半)。如果否,则在步骤306中可以使用适当的参数调整表的SBR编码器设置对音频信号进行编码。如果在步骤305中为是(或——如果省略步骤304——在任何情况下),则SBR终止频率可以适应于音频信号的带宽。具体地,SBR终止频率可以调整为音频信号的输入采样速率的一半或音频信号的第一采样速率的一半(如果已知在上采样之前已经提交音频信号)中的较小的。作为进一步的限制,可以确保修改的SBR终止频率是比SBR起始频率较高的预定数量的频带。应当指出的是,对SBR终止频率的修改可以被限制于预定的频率网格(例如,由QMF频带给定的网格)。在步骤306中可以使用来自适当的参数调整表的SBR编码器设置(包括修改的SBR终止频率)对音频信号进行编码。
图4示出了可以由图1a、图1b和图2的音频编解码器100、140和200处理的示例输入和输出采样速率。在图4的流程图中,标记为“X”的输入和输出采样速率的组合指示没有采样速率修改或下采样。下采样可以在图1a和图1b的音频编码器110和150之前通过下采样来实现。标记为“Y”的输入和输出采样速率的组合指示进行比率小于2的上采样。该上采样可以在图1a和图1b的音频编码器110和150之前通过上采样器来实现。标记为“(X)”的输入采样速率和输出采样速率的组合指示进行比率为2或更大的上采样。该上采样可以通过使用图2的提供固有的比率为2的上采样的音频编解码器200来实现。另外的上采样器可以提供其余上采样(超过比率2)。因此,可以降低总的上采样和音频编码/解码所需要的计算复杂度。
在本文档中,已经描述了音频编码和/或解码的方法和***。该方法和***允许以降低的计算复杂度对音频信号进行重采样。具体地,描述了基于修改的SBR的音频编码器,其基于上采样模式下的基于SBR的音频编码器。已经描述了用于选择适当的SBR编码器设置的方案。基于修改的SBR的音频编码器适于抑制基于SBR的音频编码器以上采样模式操作的指示。因此,相应的基于SBR的音频解码器以双速率模式工作,从而通过相对于基于SBR音频编码器处的输入音频信号的因子2提供解码音频信号的固有的上采样。总体音频编解码器(以及具体地音频编码器)可以与上采样器组合以提供大于2的上采样比率。总之,使用固有的上采样使得能够降低通常用于提供与音频编码/解码有关的上采样所需要的总的计算复杂度。
应当指出的是,说明书和附图仅示出了所提出的方法和***的原理。从而,应当理解的是,尽管在本文中没有明确描述或示出,本领域的普通技术人员将能够设想体现本发明的原理并且包括在其精神和范围内的各种布置。此外,本文中记载的所有实例原理上明确地意在仅教学目的以帮助读者理解所提出的方法和***的原理以及由发明人贡献以促进本领域的概念,并且被理解为不限于这样具体记载的示例和条件。此外,本文中记载本发明的原理、方面和实施例以及其具体示例的所有陈述意在包括其等同方案。
本文中所描述的方法和***可以被实现为软件、固件和/或硬件。某些部件可以被实现为例如在数字信号处理器或微处理器上运行的软件。其他部件可以被实现为例如硬件或被实现为专用集成电路。在所描述的方法和***中遇到的信号可以存储在诸如随机存取存储器或光存储介质的介质上。信号可以通过网络如无线电网络、卫星网络、无线网路或有线网络如互联网被传输。利用本文中所描述的方法和***的典型设备为用于存储和/或呈现音频信号的便携式电子设备或其他消费设备。

Claims (27)

1.一种用于信号采样速率(fs_in)下的音频信号的编码器(250),所述编码器(250)包括:
核心编码器(252),适于以所述信号采样速率(fs_in)对所述音频信号的低频分量进行编码,从而生成核心编码比特流;
谱带复制、称为SBR编码单元(153,254),适于确定受限于一个或多个SBR编码器设置的多个SBR参数;其中所述多个SBR参数被确定使得能够基于所述音频信号的所述低频分量和所述多个SBR参数来近似所述信号采样速率(fs_in)下的所述音频信号的高频分量;以及
复用器(155),适于生成总的比特流,所述总的比特流包括所述核心编码比特流、所述多个SBR参数以及对所述SBR编码器(153,254)所应用的所述一个或多个SBR编码器设置的指示;其中所生成的总的比特流未指示通过以所述信号采样速率(fs_in)对所述低频分量进行编码确定了所述核心编码比特流。
2.根据权利要求1所述的编码器(250),其中所生成的总的比特流指示已经通过以低于所述信号采样速率(fs_in)的采样速率对所述低频分量进行编码确定了所述核心编码比特流。
3.根据权利要求1或2所述的编码器(250),其中所述编码器(250)适于按照使用显式SBR信令的格式对所述总的比特流进行编码。
4.根据权利要求3所述的编码器(250),其中所述显式SBR信令遵循ISO/IEC14496-3。
5.根据权利要求4所述的编码器(250),其中所述总的比特流中的AudioSpecificConfig()未指示通过以所述信号采样速率(fs_in)对所述低频分量进行编码确定了所述核心编码比特流。
6.根据权利要求5所述的编码器(250),其中,
所述AudioSpecificConfig()包括称为采样频率的第一参数以及称为扩展采样频率的第二参数;并且
所述第二参数与所述第一参数的比率小于2。
7.根据权利要求6所述的编码器(250),其中所述第二参数与所述第一参数的所述比率为1。
8.根据权利要求1至2中任一项所述的编码器(250),其中,
所述SBR编码单元(153,254)适于根据多个参数调整表之一确定所述一个或多个SBR编码器设置;
所述多个参数调整表中的每一个取决于一个或多个编码器条件来定义所述一个或多个SBR编码器设置;
所述一个或多个编码器条件包括以下中的任意的一项或多项:较低的目标比特率、较高的目标比特率、所述核心编码器(252)所使用的采样速率、包括在所述音频信号中的声道的数量、对使用过采样编码模式而非双速率模式的指示;
在所述过采样编码模式下,所述核心编码器(252)以所述信号采样速率(fs_in)对所述音频信号的所述低频分量进行编码;并且
在所述双速率编码模式下,所述核心编码器(252)以所述信号采样速率(fs_in)的一半对所述音频信号的所述低频分量进行编码。
9.根据权利要求8所述的编码器(250),其中所述总的比特流未指示所述编码器(250)使用所述过采样编码模式生成了所述总的比特流。
10.根据权利要求8所述的编码器(250),其中所述总的比特流指示所述编码器(250)使用所述双速率编码模式生成了所述总的比特流。
11.根据权利要求8所述的编码器(250),其中,
所述SBR编码单元(153,254)适于使用来自所述多个参数调整表的双速率参数调整表;并且
所述双速率参数调整表针对指示使用所述双速率编码模式的所述编码器条件而被定义。
12.根据权利要求11所述的编码器(250),其中,
所述双速率调整表针对所述核心编码器所使用的所述采样速率对应于所述信号采样速率的所述编码器条件而被定义;
所述双速率参数调整表定义双速率SBR终止频率;并且
用于确定所述多个SBR参数的所述一个或多个SBR编码器设置包括:与小于所述双速率SBR终止频率的值对应的SBR终止频率。
13.根据权利要求12所述的编码器(250),其中,
所述双速率参数调整表定义双速率SBR起始频率;并且
用于确定所述多个SBR参数的所述一个或多个SBR编码器设置包括与所述双速率SBR起始频率对应的SBR起始频率。
14.根据权利要求13所述的编码器(250),其中,
所述低频分量包括所述音频信号的低于所述SBR起始频率的频率;并且
所述高频分量包括所述音频信号的高于所述SBR起始频率的频率。
15.根据权利要求1至2中任一项所述的编码器(250),其中所述核心编码器(252)适于执行以下任一项:称为AAC的高级音频编码、或mp3编码。
16.根据权利要求1至2中任一项所述的编码器(250),还包括:
上采样单元,适于对第一采样速率下的所述音频信号进行上采样以提供所述信号采样速率(fs_in)下的所述音频信号;其中,所述第一采样速率小于所述信号采样速率(fs_in)。
17.根据权利要求16所述的编码器(250),其中所述一个或多个SBR编码器设置包括基于所述第一采样速率所确定的SBR终止频率。
18.根据权利要求17所述的编码器(250),其中所述SBR终止频率:
在预定的频率网格上被确定;并且
等于所述频率网格上的频率。
19.根据权利要求1至2中任一项所述的编码器(250),其中所述总的比特流按照以下任一形式被编码:MP4格式、3GP格式、3G2格式、LATM格式。
20.根据权利要求1至2中任一项所述的编码器(250),其中所述SBR编码单元(153,254)包括:
分析滤波器组(153),适于从所述音频信号提供多个子带信号;以及
SBR编码器(254),适于:
将所述多个子带信号的第一子集分配给所述低频分量;
将所述多个子带信号的第二子集分配给所述高频分量;并且
根据所述第一子集和所述第二子集来确定所述多个SBR参数。
21.根据权利要求1至2中任一项所述的编码器(250),其中所述一个或多个SBR编码器设置包括以下项中的任意一项或多项:
SBR起始频率,其中所述SBR编码单元(153,254)限于针对所述高频分量的等于或高于所述SBR起始频率的频率来确定所述多个SBR参数;
SBR终止频率,其中所述SBR编码单元(153,254)限于针对所述高频分量的等于或低于所述SBR终止频率的频率来确定所述多个SBR参数。
22.一种高效高级音频编码、称为HE-AAC编码器(250),工作在过采样谱带复制、称为SBR模式下,其中,
所述编码器(250)适于生成总的比特流,所述总的比特流包括核心编码比特流、多个SBR参数以及对用于确定所述SBR参数的一个或多个SBR编码器设置的指示;并且
所生成的总的比特流未指示所述编码器(250)工作在所述过采样谱带复制模式下。
23.根据权利要求22所述的编码器(250),其中所生成的总的比特流指示所述编码器(250)工作在双速率模式下。
24.一种适于对信号采样速率(fs_in)下的音频信号进行上采样的音频编解码器(200),所述音频编解码器(200)包括:
用于所述信号采样速率下的所述音频信号的编码器(250),所述编码器(250)包括:
核心编码器(252),适于以所述信号采样速率(fs_in)对所述音频信号的低频分量进行编码,从而生成核心编码比特流;
谱带复制、称为SBR编码单元(153,254),适于确定受限于一个或多个SBR编码器设置的多个SBR参数;其中所述多个SBR参数被确定使得能够基于所述音频信号的所述低频分量和所述多个SBR参数来近似所述信号采样速率(fs_in)下的所述音频信号的高频分量;以及
复用器(155),适于生成总的比特流,所述总的比特流包括所述核心编码比特流、所述多个SBR参数以及对所述一个或多个SBR编码器设置的指示;以及
接收所生成的总的比特流的解码器(130),所述解码器(130)包括:
核心解码器(131),适于根据所述核心编码比特流生成所述信号采样速率下的重构的低频分量;
分析滤波器组(132),适于生成所述重构的低频分量的N个子带信号;
SBR解码器(133),适于基于重构的低频分量的所述N个子带信号,基于所述多个SBR参数并且基于所述一个或多个SBR编码器设置来生成所述重构的高频分量的N个子带信号;以及
包括2N个频带的合成滤波器组(134),其中所述合成滤波器组(134)适于根据所述重构的低频分量的N个子带信号以及根据所述重构的高频分量的N个子带信号来生成两倍所述信号采样速率下的重构的音频信号。
25.一种适于对信号采样速率下的音频信号进行上采样的高效高级音频编码、称为HE-AAC编解码器(200),所述HE-AAC编解码器(200)包括:
HE-AAC编码器(250),工作在过采样谱带复制、称为SBR模式下;其中所述HE-AAC编码器(250)适于生成总的比特流,所述总的比特流包括核心编码比特流、多个SBR参数以及对用于确定所述SBR参数的一个或多个SBR编码器设置的指示;以及
HE-AAC解码器(130),工作在双速率模式下;其中所述HE-AAC解码器(130)适于根据所述总的比特流生成两倍所述信号采样速率下的重构的音频信号。
26.一种用于对信号采样速率(fs_in)下的音频信号进行编码的方法,所述方法包括:
以所述信号采样速率(fs_in)对所述音频信号的低频分量进行编码,从而生成核心编码比特流;
确定受限于一个或多个SBR编码器设置的多个谱带复制、称为SBR参数;其中所述多个SBR参数被确定使得能够基于所述音频信号的所述低频分量和所述多个SBR参数来近似所述信号采样速率(fs_in)下的所述音频信号的高频分量;以及
生成总的比特流,所述总的比特流包括所述核心编码比特流、所述多个SBR参数以及对所述一个或多个编码器设置的指示;其中所生成的总的比特流未指示通过以所述信号采样速率(fs_in)对所述低频分量进行编码确定了所述核心编码比特流。
27.一种对信号采样速率(fs_in)下的音频信号进行上采样的方法,所述方法包括:
以所述信号采样速率(fs_in)对所述音频信号的低频分量进行编码,从而生成核心编码比特流;
确定受限于一个或多个SBR编码器设置的多个谱带复制、称为SBR参数;其中所述多个SBR参数被确定使得能够基于所述音频信号的所述低频分量和所述多个SBR参数来近似所述信号采样速率(fs_in)下的所述音频信号的高频分量;
根据所述核心编码比特流生成所述信号采样速率(fs_in)下的重构的低频分量;
生成所述重构的低频分量的N个子带信号;
基于所述重构的低频分量的所述N个子带信号,基于所述多个SBR参数以及基于所述一个或多个SBR编码器设置来生成重构的高频分量的N个子带信号;以及
根据所述重构的低频分量的N个子带信号以及根据所述重构的高频分量的N个子带信号来生成两倍所述信号采样速率下的重构的音频信号。
CN201280054915.XA 2011-11-11 2012-11-12 使用过采样谱带复制的上采样 Active CN103918029B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161558519P 2011-11-11 2011-11-11
US61/558,519 2011-11-11
PCT/EP2012/072395 WO2013068587A2 (en) 2011-11-11 2012-11-12 Upsampling using oversampled sbr

Publications (2)

Publication Number Publication Date
CN103918029A CN103918029A (zh) 2014-07-09
CN103918029B true CN103918029B (zh) 2016-01-20

Family

ID=47715963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280054915.XA Active CN103918029B (zh) 2011-11-11 2012-11-12 使用过采样谱带复制的上采样

Country Status (5)

Country Link
US (2) USRE48258E1 (zh)
EP (2) EP3544006A1 (zh)
JP (1) JP6155274B2 (zh)
CN (1) CN103918029B (zh)
WO (1) WO2013068587A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11842743B2 (en) 2015-03-13 2023-12-12 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
WO2014161996A2 (en) 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
BR112016016808B1 (pt) * 2014-01-22 2021-02-23 Siemens Aktiengesellschaft entrada de medição digital, dispositivo de automação elétrica, e, método para processamento de valores de medição de entrada digital
WO2017004584A1 (en) * 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
CN106057220B (zh) * 2016-05-19 2020-01-03 Tcl集团股份有限公司 一种音频信号的高频扩展方法和音频播放器
TWI809289B (zh) 2018-01-26 2023-07-21 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
BR112020021832A2 (pt) 2018-04-25 2021-02-23 Dolby International Ab integração de técnicas de reconstrução de alta frequência
WO2019210068A1 (en) 2018-04-25 2019-10-31 Dolby Laboratories Licensing Corporation Integration of high frequency reconstruction techniques with reduced post-processing delay
CN109243485B (zh) * 2018-09-13 2021-08-13 广州酷狗计算机科技有限公司 恢复高频信号的方法和装置
CN113113032A (zh) 2020-01-10 2021-07-13 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN111755017B (zh) * 2020-07-06 2021-01-26 全时云商务服务股份有限公司 云会议的音频录制方法、装置、服务器及存储介质
CN111986685B (zh) * 2020-08-31 2024-06-21 北京百瑞互联技术股份有限公司 一种实现高采样率的音频编解码方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1849647A (zh) * 2003-09-30 2006-10-18 松下电器产业株式会社 采样速率转换装置、编码装置、解码装置及它们的方法
CN101192407A (zh) * 2006-11-30 2008-06-04 索尼株式会社 再生方法和设备、程序、以及记录介质
CN102194457A (zh) * 2010-03-02 2011-09-21 中兴通讯股份有限公司 音频编解码方法、***及噪声水平估计方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
EP2221808B1 (en) * 2003-10-23 2012-07-11 Panasonic Corporation Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
KR101106026B1 (ko) 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
CN1914669A (zh) 2004-01-28 2007-02-14 皇家飞利浦电子股份有限公司 使用复数值数据的音频信号解码
WO2006048814A1 (en) 2004-11-02 2006-05-11 Koninklijke Philips Electronics N.V. Encoding and decoding of audio signals using complex-valued filter banks
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
JP4918841B2 (ja) 2006-10-23 2012-04-18 富士通株式会社 符号化システム
PT2109098T (pt) 2006-10-25 2020-12-18 Fraunhofer Ges Forschung Aparelho e método para gerar amostras de áudio de domínio de tempo
JP2009180972A (ja) * 2008-01-31 2009-08-13 Panasonic Corp オーディオレジューム再生装置及びオーディオレジューム再生方法
JP5302980B2 (ja) * 2008-03-04 2013-10-02 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 複数の入力データストリームのミキシングのための装置
ES2796552T3 (es) 2008-07-11 2020-11-27 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio
WO2010028297A1 (en) 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
BR122019023704B1 (pt) 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
RU2493618C2 (ru) 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
TWI618350B (zh) 2009-02-18 2018-03-11 杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器***、解码器***、编码方法和解码方法
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
EP3998606B8 (en) 2009-10-21 2022-12-07 Dolby International AB Oversampling in a combined transposer filter bank
JP5844266B2 (ja) 2009-10-21 2016-01-13 ドルビー・インターナショナル・アクチボラゲットDolby International Ab 適応オーバーサンプリングを用いる高周波数オーディオ信号を発生させるための装置および方法
ES2935637T3 (es) * 2010-03-09 2023-03-08 Fraunhofer Ges Forschung Reconstrucción de alta frecuencia de una señal de audio de entrada usando bancos de filtros en cascada
RU2546602C2 (ru) * 2010-04-13 2015-04-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и кодер и декодер для воспроизведения без промежутка аудио сигнала
RU2562384C2 (ru) * 2010-10-06 2015-09-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (usac)
AR085895A1 (es) * 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
AR085445A1 (es) * 2011-03-18 2013-10-02 Fraunhofer Ges Forschung Codificador y decodificador que tiene funcionalidad de configuracion flexible

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1849647A (zh) * 2003-09-30 2006-10-18 松下电器产业株式会社 采样速率转换装置、编码装置、解码装置及它们的方法
CN101192407A (zh) * 2006-11-30 2008-06-04 索尼株式会社 再生方法和设备、程序、以及记录介质
CN102194457A (zh) * 2010-03-02 2011-09-21 中兴通讯股份有限公司 音频编解码方法、***及噪声水平估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kristofer Kjörling 等.Signalling, single/dual rate, and downsampling capabilities within SBR.《64. MPEG meeting 》.2003, *
WOLTERS M 等.A CLOSER LOOK INTO MPEG-4 HIGH EFFICIENCY AAC.《PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION》.2003, *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11842743B2 (en) 2015-03-13 2023-12-12 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Also Published As

Publication number Publication date
EP2777042A2 (en) 2014-09-17
JP6155274B2 (ja) 2017-06-28
WO2013068587A2 (en) 2013-05-16
US9530424B2 (en) 2016-12-27
EP3544006A1 (en) 2019-09-25
USRE48258E1 (en) 2020-10-13
EP2777042B1 (en) 2019-08-14
US20140365231A1 (en) 2014-12-11
WO2013068587A3 (en) 2013-09-26
CN103918029A (zh) 2014-07-09
JP2014532904A (ja) 2014-12-08

Similar Documents

Publication Publication Date Title
CN103918029B (zh) 使用过采样谱带复制的上采样
TWI628651B (zh) 用於編碼或解碼多通道信號的設備及方法、以及相關實體儲存媒體及電腦程式
CN101410889B (zh) 对作为听觉事件的函数的空间音频编码参数进行控制
US9424847B2 (en) Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
KR101161866B1 (ko) 오디오 코딩 장치 및 그 방법
EP2124224A1 (en) A method and an apparatus for processing an audio signal
WO2009066959A1 (en) A method and an apparatus for processing a signal
CA2704812A1 (en) An encoder for encoding an audio signal
JP6908795B2 (ja) 後処理遅延低減との高周波再構成技術の統合
EP2625688A1 (en) Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
US9230551B2 (en) Audio encoder or decoder apparatus
CN113936674A (zh) 用于音频信号的高频重建技术的回溯兼容集成
EP2212883B1 (en) An encoder
CN105556602B (zh) 确定主标度因子频带表的***和方法、高频重构单元、音频编码器和解码器
Herre et al. Perceptual audio coding
JP2021522543A (ja) 後処理遅延低減との高周波再構成技術の統合
Chiang et al. Advances in Low Bit-Rate Audio Coding: A Digest of Selected Papers from Recent AES Conventions
You et al. Determining start-band frequency for spectral band replication tool in MPEG-4 advanced audio coding
CN103733256A (zh) 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端
EA044947B1 (ru) Обратно совместимая компоновка гармонического транспозера для реконструкции высоких частот звуковых сигналов
KR20090043352A (ko) 상호 운용성을 지원하는 오디오/스피치 신호의부호화/복호화 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant