CN102013255B - 解码具有基本层和增强层的音频信号的方法 - Google Patents
解码具有基本层和增强层的音频信号的方法 Download PDFInfo
- Publication number
- CN102013255B CN102013255B CN201010263977.4A CN201010263977A CN102013255B CN 102013255 B CN102013255 B CN 102013255B CN 201010263977 A CN201010263977 A CN 201010263977A CN 102013255 B CN102013255 B CN 102013255B
- Authority
- CN
- China
- Prior art keywords
- signal
- decoding
- enhancement layer
- basic layer
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000005236 sound signal Effects 0.000 title claims abstract description 27
- 238000013507 mapping Methods 0.000 claims abstract description 69
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 3
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 claims 2
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 claims 2
- 230000002708 enhancing effect Effects 0.000 abstract description 12
- 230000002441 reversible effect Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 abstract 4
- 239000002355 dual-layer Substances 0.000 abstract 1
- 238000013139 quantization Methods 0.000 description 5
- 238000005728 strengthening Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种用于对具有基本层部分和增强层部分的音频信号进行解码的方法。所述音频信号可以具有BL和EL,其中,EL表示用于增强BL音频内容的质量的附加信息。这种双层信号的解码通常包括BL数据的部分解码(21),其中,恢复(22)BL的频率段,将恢复的频率段映射(23)到MDCT域,将映射的频率段与解码的EL相加,以及执行逆整数MDCT。本发明还提供了一种低复杂度解码方法,包括:对解码EL数据进行逆映射(45),将逆映射的EL数据与部分解码的BL数据相加(42),以及使用逆BL滤波器组对和进行滤波。
Description
技术领域
本发明涉及一种用于对具有基本层和增强层的音频信号进行解码的方法。
背景技术
音频信号可以具有基本层和增强层,共同被称作双层,其中,基本层表示编码音频内容的有限质量版本,增强层表示用于增强音频内容的质量的编码附加信息。例如,比特流可以由诸如mp3(MPEG-1层III)比特流之类的低比特率层加附加层组成,附加层将基本质量扩展为增强质量。原则上,还可以使用多于一个附加层,据此最高层甚至可以实现原始PCM(脉冲码调制的)采样的比特精度(bit-exact)表不。
这种双层信号的编码通常可以通过编码基本层来执行,从而省略与输入信号有关的特定信息,然后部分地重构编码层信号来获得预测信号。此外,确定和编码预测信号与全质量输入信号之间的差信号。编码的差信号然后用作增强层。
图1示出了嵌入式无损压缩音频编解码器的编码器。在上部的信号路径中,输入信号用于编码基本层比特流。例如,基本层编码器可以符合mp3。基本层编解码器应用用于时间-频率分解的滤波器组11,该滤波器器11与在扩展层信号路径中应用的MDCT滤波器组13不同。在mp3的示例情况下,基本层滤波器组11是由32-频带多相滤波器组组成的混合滤波器组,随后是每个子带的独立MDCT分析模块。在第二信号路径中,将输入信号馈送到整数MDCT模块13中,整数MDCT模块13实现信号的理想可逆MDCT分解。整数值MDCT频率段(frequencybin)是用于扩展层信息的无损编码的基础。
由于混合基本层滤波器组11与增强层的整数MDCT滤波器组12不同,因此,需要用于获得预测信号的映射操作。为此,通过部分解码来恢复16基本层频率段(在混合滤波器组11的域中),并然后将其映射到MDCT域。映射17可以以例如EP 2064700A1中描述的高效方式来执行。然后从整数值MDCT系数中减去14映射的基本层信息。将剩余的系数s14馈送到熵编码器15中,以便使传输无损扩展层所需的比特率最小化。
这种双层信号的解码通常使用如图2所示的过程。在上部信号路径中,对基本层信息进行部分解码21,以便恢复频率段信息。在此时不执行至时域的合成滤波,这是由于这仅需要对基本层信号进行解码。然后精确地进行与在编码器中的操作相同的操作,即,恢复(解码)22基本层信息的频率段,并且执行到MDCT域的恢复频率段的映射23。并行地,下部信号路径解码扩展比特流。如编码器的减法模块14中所计算的,熵解码器24的输出s24等同于MDCT域中的基本层的误差残差s14。将误差残差s24与从基本层信息映射的系数s23相加,然后将和馈送到逆整数MDCT模块26中。优选地,逆整数MDCT的输出信号等于(以比特精度)被馈送到编码器中的原始输入信号。
在图4中给出了R.Geiger、J.Herre、J.Koller和K.-H.Brandenburg的“IntMDCT-A Link Between Perceptual and Lossless Audio Coding”,2002,IEEE的类似示例。
通常在较小的便携式和电池驱动设备内实现音频解码器。因此,通常期望以节省功率的方式执行编码音频信号的解码。在基于处理器的解码器实现中,这与减少处理器必须执行的处理周期数目是等同的。
发明内容
本发明提供了一种用于降低解码双层音频信号所需的功率的高效解决方案。
根据本发明的一个总体方面,提供了一种用于对具有基本层信号部分和增强层信号部分的音频信号进行解码的方法,其中,使用滤波器组域映射根据基本层信号部分来预测增强层信号部分,所述方法包括以下步骤:对编码基本层部分进行部分解码;根据所述滤波器组域映射的简化逆(simplified reversal)对增强层部分进行逆映射;将逆映射的增强层部分与部分解码的基本层部分相加;以及使用逆基本层滤波器组对所述加法的输出信号进行合成滤波。
根据本发明的另一总体方面,提供了一种用于对具有基本层信号部分和增强层信号部分的音频信号进行解码的解码器,其中,使用滤波器组域映射根据基本层信号部分预测增强层信号部分,所述解码器包括:部分解码器,用于对编码基本层部分进行部分解码;第一映射器,用于根据所述滤波器组域映射的简化逆对增强层部分进行逆映射;第一加法器,用于将逆映射的增强层部分与部分解码的基本层部分相加;以及第一合成滤波器,用于对所述加法的输出信号进行合成滤波,其中,第一合成滤波器作为逆基本层滤波器组进行操作。
根据本发明的一个方面,提供了一种用于对具有基本信号部分和增强层信号部分的音频信号进行解码的方法,其中,基本层信号部分和增强层信号部分是根据不同的滤波器类型获得的,并且在不同的滤波器组域中,以及使用滤波器组域映射根据基本层信号部分来预测增强层信号部分,并然后进行熵编码,所述方法包括以下步骤:对编码基本层部分进行部分解码;对增强层部分进行熵解码;根据所述滤波器组域映射的简化逆对增强层部分进行逆映射;将逆映射的增强层部分与部分解码的基本层部分相加;以及使用逆基本层滤波器组对所述加法的输出信号进行合成滤波。
根据本发明的另一方面,提供了一种用于对具有基本层信号部分和增强层信号部分的音频信号进行解码的解码器,其中,基本层部分和增强层部分在不同滤波器组域中,以及使用滤波器组域映射根据基本层信号部分预测增强层信号部分,并然后进行熵编码,所述解码器包括:部分解码器,用于对编码基本层部分进行部分解码;熵解码器,用于对增强层部分进行熵解码,第一映射元件,用于根据所述滤波器组域映射的简化逆对熵解码的增强层部分进行逆映射;第一加法器,用于将逆映射的增强层部分与部分解码的基本层部分相加;以及第一合成滤波器,用于对所述加法的输出信号进行合成滤波,其中,第一合成滤波器作为逆基本层滤波器组进行操作。
在一个实施例中,基本层包括频率段,以及基本层信号的部分解码包括恢复所述频率段。
应注意,滤波器组域映射的简化逆意味着以与原始滤波器组域映射相比较低精度执行的逆操作。较低精度是指数值舍入,以及用于更高效实现的滤波函数的简化。
本发明的一个优点在于,其可应用于现有编码格式,并不需要特定格式。本发明的其他有利实施例在所附权利要求书、以下说明书和附图中公开。
附图说明
参照附图描述本发明的示例实施例,在附图中:
图1是嵌入式无损音频编解码器的编码器;
图2是用于编码双层音频数据的比特精度音频解码器;
图3是增强的低复杂度解码器的结构;
图4是比特精度解码器中的相对计算复杂度;
图5是增强的低复杂度解码器中的相对计算复杂度;
图6是包括比特精度解码部分和低复杂度解码部分的可行(feasible)解码器的结构;以及
图7是源音频信号、传统解码的音频信号以及增强的解码音频信号的示例功率谱以及相应的误差谱。
具体实施方式
在下文中,参照MPEG-1层III(mp3)描述本发明的实施例。然而,本发明还可以使用在针对类似音频编码格式的实施例中,这些类似的编码格式依赖于滤波器组,具体地依赖于是否需要滤波器组域映射。
在图3中示出了根据本发明一个方面的解码方法的框图。输入信号In可以从任何类型的数据源获得,例如,从任何存储元件读取的文件、或者针对无线或有线数据广播或单播的接收机。例如,通过文件I/O处理对输入信号In进行预处理,以便将基本层部分与增强增部分分离。然后将基本层信号输入给部分基本层解码器41,部分基本层解码器41在基本层滤波器组域产生基本层信号s41。部分基本层解码器41仅执行部分解码,即,不变换回到时域。尽管在传统基本层解码器中,会将该基本层滤波器组域信号s41直接输入给逆基本层滤波器组43,以便获得时域信号,但是增强的解码器包括加法器42,该加法器42用于在将基本层和增强层信号之和输入给所述逆基本层滤波器组43之前,添加增强数据。有利地,滤波器组43可以与用于传统mp3基本层解码的滤波器组相同。可以通过逆映射器45,从增强层产生增强数据。逆映射器45将数据从增强层的MDCT域映射到基本层的滤波器组域。由于通常对输入数据进行熵编码,在本发明的一个实施例中,从熵解码器44中获得增强层数据。如果以不同方式或者根据不编码的方式对输入数据进行编码,则熵解码器44可以由相应解码器来代替,或者相应地跳过该熵解码器44。
如上关于图2所述,与传统比特精度全无损解码器相比,在低复杂度解码器的一部分中已经修改了信号流:不是将频率段从基本层编解码器的滤波器组域映射到增强层编解码器的MDCT域,而是沿着逆方向进行映射,即,增强的解码器使用从MDCT域到mp3基本层编解码器的域的逆映射45。相应地,将映射的输出(即,映射误差残差)直接与基本层的解码的频率段相加。因此,能够通过利用基本层编解码器的合成滤波器组(FB)43获得增强的时域信号。
增强的解码器的一个优点在于,与比特精度解码器相比,使用相当少的解码功率,而同时产生可比质量的音频输出信号。图4示出了比特精度传统解码器的模块的相对计算复杂度。计算复杂度通常等同于功耗,这是由于计算复杂度与一个或多个处理元件(例如,执行计算的处理器)的处理周期数目相对应。发明人的测量和计算已经揭示出如下内容:部分基本层解码器消耗传统解码器的总功耗的大约8%,增强层熵解码器消耗传统解码器的总功耗的大约19%。映射模块和逆整数MDCT模块需要分别相对高地共享总功耗的35%和38%。加法器与其他模块相比具有相对简单的结构并实质上不需要功率。因此,部分基本层解码器、增强层熵解码器、映射模块以及逆整数MDCT模块的总功耗合计达100%。
图5示出了相对于传统解码器的增强的双层解码器的模块的计算复杂度。作为比较示出了,两种实现方式使用相同的部分基本层解码器和熵解码器,消耗了总功耗的大约8%和19%。然而,通过使用逆映射器45而不是传统映射器,以及通过使用逆基本层滤波器组43而不是逆整数MDCT滤波组,来获得主要功耗降低。逆映射器45仅消耗传统解码器的总功耗的10%,并且代替消耗总功耗的35%的映射块。因此,通过这种措施获得了(35%-10%=)25%的节省。此外,逆基本层滤波器组43仅需要传统总功耗的大约8%,并且代替使用总功耗的38%的逆整数MDCT模块。该措施获得了(38%-8%)30%的总功耗节省。加法器略微不同,这是由于加入基本层滤波器组的域的信号部分,而不是在MDCT域信号部分。加法器甚至复杂度更低,这是由于加法器不需要符合特定数据格式或算术运算。然而,实际上,加法器仍不需要功率。因此,增强的解码器的总功耗降低至传统解码器的功耗的55%至45%。这使得根据本发明的增强的解码器优选用于低功率应用,例如,子电池操作的设备中。
在计算复杂度方面,新的方法具有两个优点:
首先,逆映射器45中的逆映射具有比图2所示的前向映射更低的信号失真比(SDR)。更低精确度要求的原因在于,到映射的输入是误差残差。逆映射过程所产生的任何失真直接加到低功率残差信号。因此,尽管逆映射的绝对失真与前向映射的绝对失真在相同量级,但是SDR要求可以与降低的输入信号功率一样低。实际上,逆映射器45具有大约20dB的映***度就足够了,而不是前向映射所需的50dB。由于较低的SDR要求,逆映射45的计算复杂度远低于前向映射的计算复杂度。
其次,此外,可以使用基本层编解码器的低复杂度逆滤波器组43过程。在上述示例中,可以使用mp3编解码器的合成滤波器组,仅需要全无损解码器的复杂度的大约8%,而不是针对逆整数MDCT的大约38%。逆基本层滤波器组43与传统逆整数MDCT相比执行相当少的运算。
如上所述,在逆映射器45中所执行的滤波器组域映射的简化逆意味着,与原始滤波器组域映射相比以较低精确度执行的逆操作。较低精确度可以指数值舍入,以及用于更高效实现的滤波函数的简化。示例是一个或多个校正步骤的跳过,或较短相位校正滤波器的使用。在EP 2064700A1中给出了其他示例。
总之,增强的信号流引起新的近无损解码结构,该结构更容易实现并适合于获得比普通基本层解码器的音频质量更好的音频质量。这可以通过在误差残差信号的逆映射中利用来自扩展层的信息来实现。
由于不同的处理,增强的低复杂度解码器的输出信号不是与原始数信号相同的比特精度。然而,根据本发明的低复杂度增强解码器在原始输入信号的所有频率部分中提供了其输出信号。有利地,在信号之间不存在可听差异。因此,从质量的角度看,低复杂度解码器完全比得上比特精度解码器。
失真的更详细分析揭示如下。逆映射实际上将三个信号分量变换到基本层滤波器组域,即,mp3基本层的量化误差、整数MDCT的量化误差、以及累加的量化误差,或者前向和后向映射的相应失真。对于这些误差类型,以下成立:
mp3基本层的量化误差在被单独采用时理想地补充mp3层的解码的频率分量。即,当仅考虑该误差类型时,关于所涉及的频谱,根据本发明的低复杂度解码获得输入信号的理想重构。
整数MDCT的量化误差不可避免地来自整数MDCT分析滤波器。该误差在频谱上是平坦的并且是不相关的。在根据本发明的解码中,该误差导致获得的时域信号中方差大约为2.6/12(LSB^2)的加性白高斯噪声,该噪声实质上是固定的。该误差类型的效应比得上PCM字宽的缩减,例如,从16比特/采样到15比特/采样。根据典型的良好对准(well-leveled)音频内容,由于该误差类型不可听,因此可以忽略该误差类型。
映射误差是信号相关的,并且包含具有大约为50-60dB的信噪比(SNR)的线性和非线性失真。即,误差功率随着信号功率变化,具有大约50-60dB的恒定距离。
总之,根据本发明的低复杂度解码器的输出信号比得上比特精度增强层解码器的输出信号,并具有比基本层解码器的音频质量更好的音频质量,而所需的计算工作量比传统比特精度增强层解码器的计算工作量更低。例如,与针对具有128kbit/s的典型比特率的传统mp3的20dB相比,低复杂度解码器提供50-60dB的SNR。主观地,质量提高的程度取决于基本层的mp3比特率。尤其对于一般低和中比特率而言,质量提高较高。
图7示出了示例源音频信号、传统解码的基本层音频信号和增强的解码音频信号的功率谱pS、pC、pE,以及相应方差(误差)谱eC、eE。比特精度解码器提供与输入信号pS相同的全质量音频信号。在传统解码基本层音频信号pC(例如,普通mp3播放器的输出信号)中,较高频率部分被截止。典型地,超过截止频率fC的频谱部分仅对音频质量有较小影响,因此可以从(基本层)编码器中移除该频谱部分。因此,对于较高频率,传统mp3信号的误差eC尤其高。实际截止频率fC可以根据当前信号能量而略微变化。然而,至少对于特定音频场景,这些频率部分对于许多人而至少部分可感知,并且删除这些频率部分显著地降低了音频质量。
相反,根据本发明的低复杂度双层解码器的输出信号pE与输入信号pS偏离较小,并且包括输入信号pS的所有频率分量。输出信号的误差信号eE因此具有更低的功率,并且在整个频率范围上更加恒定。应注意,图7示出了示例短时频谱并且使用纵(功率)轴的对数标度,误差功率通常取决于输入和输出信号的信号功率,此外,解码的音频信号的实际功率pC、pE相应地在最小值pC,min-pC,max与最大值pE,min-pE,max之间变化,但是平均起来至少在截止频率fC以下等于原始信号pS。尽管为了清楚起见以夸张的方式按比例缩放了图7,但是pE,min-pE,max范围比pC,min-pC,max范围更接近原始pS,这意味着pE的更好音频质量。
新解码方法对于具有低计算量或受限电源的设备(例如,电池供电设备)特别有益。为了使低复杂度解码特征的使用更易于理解并且更用户友好,可以在全无损(比特精度)解码和低复杂度、近无损解码之间应用自动切换。示例包括:
-取决于功率源的自动切换解码模式:当设备是电池供电的情况下,使用近无损模式。当该设备连接至更可靠的功率源(例如电源电压)时,使用比特精度无损模式。可以响应于功率源检测器,自动进行切换。
-取决于总处理器负载的自动切换解码:当在处理器上施加通过其他可执行应用施加的高负载时,使用近无损(near-lossless)模式。否则,当处理器的负载较低时,使用比特精度无损模式。可以响应于处理负载检测器,自动进行切换。
-取决于所需信号输出的自动切换解码:当需要较低质量输出(例如,模拟线电平输出)时,使用近无损模式。当需要较高质量输出(例如,数字SPDIF输出)时,使用比特精度无损模式。可以响应于输出类型检测器自动进行切换。
上述示例可以采用阈值(电压阈值、处理负载阈值)以及相应检测器。例如,针对启用功率节省模式的条件可以是,执行解码方法的一个或多个步骤的至少一个处理元件的处理负载大于阈值。两个或多个不同条件的各种组合是可能的,例如,高处理负载和低电源。
图6示出了使用根据当前操作条件的自动切换解码模式的示例解码器。机械或电功率源、或电压阈值检测器、处理负载阈值检测器等提供控制信号Ctr,控制信号Ctr用于控制开关50。开关50使用如图3所示的根据本发明的近无损低复杂度解码模式启用功率节省模式,或者使用如图2所示的传统比特精度无损解码模式启用全功率模式。
在功率节省模式中,开关50启用逆映射器45、第一加法器42以及逆基本层滤波器组43。此外,在功率节省模式中,开关50禁用映射器47、第二加法器48以及逆整数MDCT 49。相反,在全功率模式中,开关50启用映射器47、第二加法器48以及逆整数MDCT 49,并且禁用逆映射器45、第一加法器42以及逆基本层滤波器组43。部分基本层解码器41和增强层熵解码器44使用在两种模式中。如图2所示,映射器47可以执行恢复频率段以及至MDCT域的实际映射。第一和/或第二加法器42、48的禁用或启用不是必需,这是由于第一和/或第二加法器42、48实际上不需要电源。
原理上,可以使用多于一个增强层,从而存在分级多层结构。在这种情况下,本发明还可以应用于分级内的任何两个连续层,其中,两个层中的一个层用于预测另一个层,其中,滤波器组域映射用于预测。
应注意,尽管简单示为加法器42、48,但是除了加法器以外还可以使用对于本领域普通技术人员显而易见的更复杂的叠加元件,在本发明的精神和范围内可以设想所有这些元件。
尽管已经示出、描述和指出应用于本发明优选实施例的本发明的基本新颖特征,但是将理解,在不背离本发明的精神的前提下,本领域技术人员可以对所描述的装置和方法、所公开的设备的形式和细节、及其操作进行各种省略和替换以及改变。尽管关于mp3描述了描述了本发明,但是本领域技术人员应认识到,这里描述的方法和设备可以应用于各种类型的双层音频解码。清楚地,以实质上相同的方式执行实质上相同功能来实现相同结果的那些元件的组合应在本发明的范围内。从一个所述实施例到另一实施例的元件替换同样完全是预期的并是可设想的。
将理解,仅作为示例描述本发明,并且在不背离本发明的范围的前提下可以对细节进行修改。在说明书和权利要求(适当的地方)以及附图中所公开的每个特征都可以独立提供或以任何适当组合的形式来提供。适当地,特征可以以硬件、软件或二者组合的形式实现。在适当情况下,连接可以被实现为无线连接或有线连接(不必须是直接连接或专用连接)。贯穿附图,类似的参考数字指示等同或相应的元件。权利要求中出现的参考数字仅仅是说明性的,不应对权利要求的范围起到任何限制作用。
Claims (17)
1.一种用于对具有基本层部分和增强层部分的音频信号进行解码的方法,其中,基本层部分和增强层部分在不同的滤波器组域中,以及使用滤波器组域映射,根据基本层部分来预测所述增强层部分,然后对其进行熵编码,所述方法包括以下步骤:
-对编码基本层部分进行部分解码(41),其中,所述基本层部分包括频率段,并且基本层信号的部分解码包括恢复所述频率段;
-对增强层部分进行熵解码(44);
-根据所述滤波器组域映射的简化逆对熵解码的增强层部分(s44)进行逆映射(45),所述简化逆是指减小的运算精确度;
-将逆映射的增强层部分与部分解码的基本层部分相加(42);以及
-使用逆基本层滤波器组对所述相加的输出信号进行合成滤波(43)。
2.根据权利要求1所述的方法,其中,基本层信号的部分解码不执行到时域的变换。
3.根据权利要求1所述的方法,其中,根据合成滤波(43)步骤,在截止频率(fC)以下,获得平均起来具有与编码前源信号相同频谱的信号,但是该信号不是源信号的比特精度拷贝。
4.根据权利要求1所述的方法,其中,对熵解码的增强层部分的逆映射步骤、将逆映射的增强层与部分解码的基本层部分相加步骤以及合成滤波(43)步骤被称作简化解码模式,所述方法还包括步骤:
-提供无损解码模式,其中,将部分解码的基本层信号(s41)从基本层滤波器组域映射到MDCT域,将获得的MDCT域信号与熵解码的增强层信号(s44)相加,其中,获得全源频谱频率段,并且对全源频谱频率段执行逆整数MDCT(49),获得无损解码音频信号(s49);以及
-在简化解码模式与无损解码模式之间进行切换(50)。
5.根据权利要求4所述的方法,其中,还包括步骤:
-检测用于启用或禁用功率节省模式的条件(Ctr);以及
-在所述检测时,如果检测到启用功率节省模式的条件,则自动切换(50)到简化解码模式,或者如果检测到禁用功率节省模式的条件,则切换(50)到无损解码模式。
6.根据权利要求5所述的方法,其中,启用功率节省模式的条件包括来自电池或低功率可用性的电源。
7.根据权利要求5或6所述的方法,其中,启用功率节省模式的条件包括:执行所述方法的一个或多个步骤的至少一个处理元件的处理负载大于阈值。
8.根据权利要求4所述的方法,其中,无损解码模式的无损解码信号(s49)是代表编码器的源信号的比特精度。
9.根据权利要求1所述的方法,其中,降低的精确度是指数值舍入,或者滤波函数的简化。
10.根据权利要求1所述的方法,其中,基本层信号是MP3格式的音频信号。
11.一种用于对具有基本层部分和增强层部分的音频信号进行解码的解码器,其中,基本层部分和增强层部分在不同的滤波器组域中,以及使用滤波器组域映射,根据基本层部分来预测增强层部分,然后对其进行熵编码,所述解码器包括:
-部分解码器(41),用于对基本层部分进行部分解码,其中,所述基本层部分包括频率段,并且部分解码器被配置成恢复所述频率段;
-熵解码器(44),用于对增强层部分进行熵解码;
-第一映射元件(45),用于根据所述滤波器组域映射的简化逆对熵解码的增强层部分进行逆映射,简化逆是指减小的运算精确度;
-第一加法器(42),用于将逆映射的增强层与部分解码的基本层相加;以及
-第一合成滤波器(43),用于对所述加法的输出信号进行滤波,其中,第一合成滤波器(43)被配置成作为逆基本层滤波器组进行操作。
12.根据权利要求11所述的解码器,其中,部分解码器被配置成不执行到时域的变换。
13.根据权利要求11所述的解码器,其中,根据第一合成滤波器(43),在截止频率(fC)以下,获得平均起来与具有编码前源信号相同频谱的信号,该信号不是所述源信号的比特精度拷贝。
14.根据权利要求11所述的解码器,其中,第一映射元件、第一加法器以及第一合成滤波器被称作用于简化解码的单元,所述解码器还包括:
-第二无损解码器,用于提供无损解码模式,其中,第二无损解码器包括:第二映射元件(47),用于将部分解码的基本层信号从滤波器组域映射到MDCT域;第二加法单元(48),用于将获得的MDCT域信号与熵解码的增强层信号相加,其中,获得原始全源频谱频率段;以及逆整数MDCT滤波器组(49),用于对原始源频率段进行滤波,其中,获得无损解码音频信号(s49);以及
-切换元件(50),用于在简化解码单元与无损解码器之间进行切换。
15.根据权利要求14所述的解码器,还包括:
-检测器,用于检测启用或禁用功率节省模式的条件(Ctr);以及
-开关,用于在所述检测到启用功率节省模式的条件,自动切换到简化解码模式,或者如果检测到禁用功率节省模式的条件,则切换到无损解码模式。
16.根据权利要求11所述的解码器,其中,基本层信号是MP3格式的音频信号。
17.根据权利要求11所述的解码器,其中,减少的运算精确度是指数值舍入或滤波函数的简化。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP09305810.5 | 2009-09-04 | ||
EP09305810A EP2306456A1 (en) | 2009-09-04 | 2009-09-04 | Method for decoding an audio signal that has a base layer and an enhancement layer |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102013255A CN102013255A (zh) | 2011-04-13 |
CN102013255B true CN102013255B (zh) | 2014-02-19 |
Family
ID=41697778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010263977.4A Expired - Fee Related CN102013255B (zh) | 2009-09-04 | 2010-08-25 | 解码具有基本层和增强层的音频信号的方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8566083B2 (zh) |
EP (2) | EP2306456A1 (zh) |
JP (1) | JP5808092B2 (zh) |
KR (1) | KR20110025616A (zh) |
CN (1) | CN102013255B (zh) |
AT (1) | ATE534989T1 (zh) |
BR (1) | BRPI1002734A2 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013016871A1 (en) * | 2011-08-03 | 2013-02-07 | Mediatek Inc. | Method and video decoder for decoding scalable video stream using inter-layer racing scheme |
EP2922057A1 (en) * | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
US9659578B2 (en) * | 2014-11-27 | 2017-05-23 | Tata Consultancy Services Ltd. | Computer implemented system and method for identifying significant speech frames within speech signals |
CN111862996B (zh) * | 2020-07-14 | 2024-03-08 | 北京百瑞互联技术股份有限公司 | 一种音频编解码器均衡负载的方法、***、存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1675683A (zh) * | 2002-08-09 | 2005-09-28 | 弗兰霍菲尔运输应用研究公司 | 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法 |
CN1947173A (zh) * | 2004-04-28 | 2007-04-11 | 松下电器产业株式会社 | 分层编码装置及分层编码方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123488A (ja) * | 1994-10-24 | 1996-05-17 | Sony Corp | 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法 |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6208959B1 (en) * | 1997-12-15 | 2001-03-27 | Telefonaktibolaget Lm Ericsson (Publ) | Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel |
US7082220B2 (en) * | 2001-01-25 | 2006-07-25 | Sony Corporation | Data processing apparatus |
JP4362261B2 (ja) * | 2002-01-17 | 2009-11-11 | 日本電気通信システム株式会社 | 音声符号制御方法 |
KR100917464B1 (ko) * | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
CN1890711B (zh) * | 2003-10-10 | 2011-01-19 | 新加坡科技研究局 | 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法 |
JP4741476B2 (ja) * | 2004-04-23 | 2011-08-03 | パナソニック株式会社 | 符号化装置 |
CN101111997B (zh) * | 2004-11-29 | 2012-09-05 | 新加坡国立大学 | 对表示音频剪辑的音频数据进行解码的设备和方法 |
US7536299B2 (en) * | 2005-12-19 | 2009-05-19 | Dolby Laboratories Licensing Corporation | Correlating and decorrelating transforms for multiple description coding systems |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
EP1903559A1 (en) * | 2006-09-20 | 2008-03-26 | Deutsche Thomson-Brandt Gmbh | Method and device for transcoding audio signals |
US8386271B2 (en) * | 2008-03-25 | 2013-02-26 | Microsoft Corporation | Lossless and near lossless scalable audio codec |
PL4145446T3 (pl) * | 2009-01-16 | 2024-04-08 | Dolby International Ab | Transpozycja harmonicznych rozszerzona o iloczyn wektorowy |
-
2009
- 2009-09-04 EP EP09305810A patent/EP2306456A1/en not_active Withdrawn
-
2010
- 2010-08-12 BR BRPI1002734-3A patent/BRPI1002734A2/pt not_active IP Right Cessation
- 2010-08-25 CN CN201010263977.4A patent/CN102013255B/zh not_active Expired - Fee Related
- 2010-09-02 EP EP10175061A patent/EP2306454B1/en not_active Not-in-force
- 2010-09-02 AT AT10175061T patent/ATE534989T1/de active
- 2010-09-02 JP JP2010196542A patent/JP5808092B2/ja not_active Expired - Fee Related
- 2010-09-02 KR KR1020100085998A patent/KR20110025616A/ko not_active Application Discontinuation
- 2010-09-03 US US12/807,383 patent/US8566083B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1675683A (zh) * | 2002-08-09 | 2005-09-28 | 弗兰霍菲尔运输应用研究公司 | 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法 |
CN1947173A (zh) * | 2004-04-28 | 2007-04-11 | 松下电器产业株式会社 | 分层编码装置及分层编码方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5808092B2 (ja) | 2015-11-10 |
KR20110025616A (ko) | 2011-03-10 |
EP2306456A1 (en) | 2011-04-06 |
BRPI1002734A2 (pt) | 2012-09-04 |
JP2011059685A (ja) | 2011-03-24 |
US8566083B2 (en) | 2013-10-22 |
CN102013255A (zh) | 2011-04-13 |
EP2306454B1 (en) | 2011-11-23 |
EP2306454A1 (en) | 2011-04-06 |
ATE534989T1 (de) | 2011-12-15 |
US20110060596A1 (en) | 2011-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2949991T3 (es) | Método y sistema para la mezcla en el dominio del tiempo de una señal de sonido estéreo en canales primario y secundario mediante el uso de la detección de un estado de desfase de los canales izquierdo y derecho | |
JP6407928B2 (ja) | オーディオ処理システム | |
US20240161758A1 (en) | Support for generation of comfort noise, and generation of comfort noise | |
CA2704812C (en) | An encoder for encoding an audio signal | |
JP5542306B2 (ja) | オーディオ信号のスケーラブル符号化及び復号 | |
EP2272063B1 (en) | Method and apparatus for selective signal coding based on core encoder performance | |
US20070078646A1 (en) | Method and apparatus to encode/decode audio signal | |
US20080077412A1 (en) | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding | |
CN105210149A (zh) | 用于音频信号解码或编码的时域电平调整 | |
JP2010020346A (ja) | 音声信号および音楽信号を符号化する方法 | |
JP2013508761A (ja) | マルチモードオーディオコーデックおよびそれに適応されるcelp符号化 | |
US9293143B2 (en) | Bandwidth extension mode selection | |
TW200935403A (en) | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs | |
CN102013255B (zh) | 解码具有基本层和增强层的音频信号的方法 | |
US20200227061A1 (en) | Signal codec device and method in communication system | |
US20160027445A1 (en) | Stereo audio signal encoder | |
KR102204136B1 (ko) | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법 | |
Geiger et al. | ISO/IEC MPEG-4 high-definition scalable advanced audio coding | |
US20160111100A1 (en) | Audio signal encoder | |
Su et al. | A steganographic method based on gain quantization for iLBC speech streams | |
EP2352230B1 (en) | Signal encoding method and signal encoding device for a speech or audio signal | |
GB2559200A (en) | Stereo audio signal encoder | |
CN101308657B (zh) | 一种基于先进音频编码器的码流合成方法 | |
WO2018142018A1 (en) | Stereo audio signal encoder | |
JP2005004119A (ja) | 音響信号符号化装置及び音響信号復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140219 Termination date: 20160825 |