CN101563726A - 用于对音频信号进行代码转换的方法和设备 - Google Patents
用于对音频信号进行代码转换的方法和设备 Download PDFInfo
- Publication number
- CN101563726A CN101563726A CNA2007800344873A CN200780034487A CN101563726A CN 101563726 A CN101563726 A CN 101563726A CN A2007800344873 A CNA2007800344873 A CN A2007800344873A CN 200780034487 A CN200780034487 A CN 200780034487A CN 101563726 A CN101563726 A CN 101563726A
- Authority
- CN
- China
- Prior art keywords
- parameter
- parameter field
- frame
- conversion
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000005236 sound signal Effects 0.000 title claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 39
- 238000006243 chemical reaction Methods 0.000 claims description 104
- 239000013598 vector Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000000844 transformation Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims 2
- 239000011159 matrix material Substances 0.000 abstract description 31
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000001131 transforming effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 18
- 238000013507 mapping Methods 0.000 description 12
- 238000000354 decomposition reaction Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 7
- 230000000576 supplementary effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000000172 allergic effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种用于在例如由MPEG-AAC和mp3使用的具有不同时间-频率分解域的音频编码格式间进行代码转换的方法和设备,特别用于在这样的音频信号间方便地、更快速地进行代码转换。一种用于将成帧后的音频信号从第一参数域(PDA)代码转换至第二参数域(PDB)的方法包括:将第一参数域(PDA)的两个或更多个参数线性变换(TT)为第二参数域(PDB)的至少一个参数,其中,第一参数域的所述两个或更多个参数来自第一参数域中的音频信号的不同帧。所述线性变换(TT)可以被描述为矩阵并实现为查找表。
Description
技术领域
本发明涉及一种用于对音频信号进行代码转换的方法和设备。本发明涉及音频压缩领域,更具体地,涉及不同的感知音频编码格式间的代码转换的领域。然而,有利地,还可以在其他音频处理应用中使用本发明的基本概念。
背景技术
术语“音频代码转换”通常表示从另一比特流中导出比特流,该比特流表示根据特定音频编码格式的音频信号,该另一比特流是根据不同的音频编码格式组织而成的。在这种意义上,“代码转换”表示从遵循MPEG 1层III(mp3)的比特流获得例如遵循MPEG AAC的比特流的整个过程。
然而,在本文献中,在更为技术性的意义上使用术语“音频代码转换”,来描述音频信号从一个子带或变换域至另一个的转换。这就是说,该术语仅描述从一种表示至另一种表示转换中的一个主要步骤,而不是描述整个过程。
图1示出了从文献“T.Painter and A.Spanias(2000):PerceptualCoding of Digital Audio,Proceedings of the IEEE,vol.88”中已知的一般感知音频编码的基本原理。
现今的音频信号压缩方法和格式一般使用时间-频率分解102(即滤波器组或变换)来表示音频信号107的参数110。对这些参数进行量化和编码104、熵编码105以及比特流操作106;所有这些步骤都由输入音频信号的心理声学分析101控制。图2示出了相应的一般的感知音频解码器,其中有比特流操作201、熵解码202、比特分配203、解码和解量化204以及最终的时间-频率合成,该时间-频率合成根据参数212、213来产生时域信号214。
图1和图2示出并举例说明了感知音频编解码器的基本原理。然而,尽管特定实施方式可能在一定程度上有所不同,但它们通常采用时间-频率分解以及与其相反的时间-频率合成。
现在集中讨论时间-频率分解和合成,不会进一步考虑中间的编码和解码步骤。
对于时间-频率分解102,在现今的音频编解码器中使用许多不同算法。例如,MPEG音频编解码器标准包括:MPEG-1层I和II编解码器(使用32频带伪QMF(正交镜像滤波器)滤波器组);以及MPEG-1层III(mp3)(采用混合滤波器组,即32频带伪QMF滤波器组级联后接MDCT(修正DCT)滤波器组)。MDCT滤波(默认为18箱(bin),对于瞬变信号(transient)减少至6箱)分别导致576或192箱的频谱分辨率。MPEG AAC编解码器及其衍生编解码器使用具有1024箱(对于瞬变信号减少至256箱)默认分辨率的全频带MDCT方式。音频帧经常在一定程度上(例如50%)时间重叠,这定义了所谓的帧前移(frame advance):(100%-重叠部分)*帧的大小。结果,时间-频率分解102的输出与时间-频率合成205的输入之间的域(其中编码器的输出信号116输入206至解码器)将表示为“频域”或“参数域”,而不管特定音频编码格式是使用滤波器组还是块变换来进行时间-频率分解。
由于现有的和新兴的音频格式不断涌现,对用于将音频内容从一个比特流格式代码转换成另一个比特流格式的算法的需求随之增长。图3示出了现今典型地使用的音频代码转换方式,这种方式被典型地使用是由于其仅涉及图1和图2已描述的可用的标准模块。将以源格式编码的输入比特流解码DEC_A为连续的时域PCM信号TD。然后,独立的编码器ENC_B根据目标格式产生新的比特流。信号处理模块间仅有的接口是从解码器传递到编码器的时域音频信号TD。
尽管该方式使用简单,但会出现以下问题。第一,由于两个模块DEC_A、ENC_B并不知道对方,因此时间-频率分解过程可能会失去同步:通常,一系列解码(解量化)和编码(量化)操作导致信号质量恶化,即所谓的串联差错。第二,该方式的计算复杂度较高,因此需要显著地降低计算复杂度。
如果由解码器提取且由编码器重用了源格式和目标格式在某种程度上共同的一些辅助信息,则可以获得更好的代码转换结果。图4a)示出了该方式的示例,例如该方式可以用于将Dolby AC-3代码转换成BSAC(比特分片算术编码)格式(Kyoung Ho Bang,Young Cheol Park,and Dae Hee Youn(2006).Audio Transcoding Algorithm for MobileMultimedia Application,Proc.of ICASSP,vol.3)。在该特定示例中,AC-3比特分配可以重用于导出并控制BSAC编码器内的新比特分配403。除了重用来自源比特流的辅助信息SI之外,时间-频率合成和分解过程在时间上取得同步。对于这种情况,图4a)的先进概念与前述代码转换方案相比,降低了计算复杂度,并可以使目标信号的质量变得更好。
当(且仅当)源和目标比特流的编解码器格式在其时间-频率分解域方面相同时,即,当分解和合成模块完全互补时(例如mp3比特流从给定数据速率至更低数据速率的代码转换),可以如图4b)所示进一步简化代码转换:可以省略时间-频率分解和合成过程,以便例如通过重新量化特定参数,直接在参数域PD中进行数据速率修改。重用来自源比特流的辅助信息(例如比特分配)也是有益的。
发明内容
从以上描述中显而易见,缺少一种用于在具有不同时间-频率分解域的编码格式间进行代码转换的简单方法和设备。本发明的一个方面在于提供这样的方法和设备,特别用于在具有不同时间-频率分解域的音频信号间方便地、更快速地进行代码转换。
本发明使用从源参数域至目标参数域的线性映射,其中目标参数依赖于来自两个或更多个输入帧的源参数。这允许了不同时间-频率分解域间的低复杂度代码转换,并防止了传统处理所造成的信号恶化问题。
已经认识到,传统的代码转换方式中的时间-频率合成及随后的时间-频率分解可以表示为线性操作,然而,它们通常是时变的。
根据本发明的一个方面,一种用于将音频信号从第一或输入参数域(与时域相对)代码转换至第二或输出参数域的方法包括以下步骤:将输入参数域的参数映射至输出参数域的参数,其中至少一个输出参数线性依赖于两个或更多个输入参数(即该输出参数是两个或更多个输入参数的线性组合)。这两个或更多个输入参数来自两个或更多个不同的输入帧。
在一个实施例中,用于描述所述输出参数与所述两个或更多个输入参数之间关系的映射或变换是时变的。然而,对于具有帧结构的输入和/或输出格式,该映射或变换是多个时不变关系的序列。在输入参数域的时间-频率分解与输出参数域的时间-频率合成的帧前移(用于描述帧的时间重叠)不同的情况下,这是特别有利的。
在一个实施例中,时变映射周期性地重复,即,该映射是时不变映射的周期性重复。
在一个实施例中,该映射包括以下子步骤:对来自不同源帧的部分输入向量进行映射,然后将这些向量相加或叠加为单个输出帧。
在一个实施例中,基于与整数个输出帧相对应的整数个输入帧来创建超帧。该整数依赖于输入与输出格式的帧长度和帧偏移。一个超帧可以对应于时变映射的一个或多个重复周期。
在一个实施例中,时变关系的每个时不变阶段表示为如下线性操作:从输入格式信号的多个连续帧得到输入,并针对输出格式信号的一个帧产生输出。因此,从该周期性重复产生了对超帧的一系列线性操作。
在一个实施例中,时变映射被实现为采用针对预先计算的变换系数的查找表而进行的一系列线性变换。然而,在另一个实施例中,线性变换是应用于输入参数的预定义解析表达式(例如函数)。
本发明的一个优点在于:在不传递连续时域信号的情况下,从一个参数域至另一个参数域的直接线性变换所需的计算复杂度,显著低于经由连续时域信号的、传统的直接代码转换过程所需的计算复杂度。
另一个优点在于:代码转换质量与计算复杂度之间的权衡可以适于时变应用的需要,即使在频率选择性方式下也是如此。
另一个优点在于:与经由时域信号的传统代码转换方案相比,经由单个线性变换的直接代码转换在数值上的情况更好。由于将源域的特定参数箱的影响限制在目标域参数箱的小范围内,因此最小化了(如传统代码转换的定点实施方式中所共有的)量化以及不精确数值运算的广泛影响。
在从属权利要求、以下说明书和附图中公开了本发明的有利实施例。
附图说明
参考附图来说明本发明的示例性实施例,附图中:
图1示出了一般的感知音频编码器的结构;
图2示出了一般的感知音频解码器的结构;
图3示出了传统的直接代码转换;
图4a)示出了重用比特分配的传统代码转换;
图4b)示出了相同音频格式间的传统代码转换;
图5示出了不同参数域间的直接代码转换;
图6示出了具有不同帧前移的不同时间-频率域间的代码转换;
图7示出了混合mp3加无损扩展音频格式的编码器;
图8示出了混合mp3加无损扩展音频格式的解码器;
图9示出了示例性变换矩阵的系数;
图10示出了示例性变换矩阵的细节;以及
图11示出了参数域中不同音频格式间的代码转换器的结构。
具体实施方式
图5示出了两个格式间在参数域中的直接代码转换,这两个格式具有不同的参数域PDA、PDB。先前已通过源格式A(例如mp3)的时间-频率分解方案从PCM音频信号中导出了根据该源格式的多个相邻参数帧501。每个帧m-1、m、m+1包括多个参数,从而可以被视为源参数域PDA中的参数向量。线性变换矩阵TT应用于输入参数向量501,并提供与输出格式B的输出参数域PDB中的帧相对应的输出参数向量502。
对于单个输出帧n,变换或映射是时不变的。无论是将变换矩阵TT同时应用于多个输入帧,还是将单独的变换矩阵(同时或连续地)分别应用于相应输入帧然后将部分结果相加,由于在两种情况下变换步骤都是线性的,因此产生的矩阵TT相同。
原则上,变换映射TT涵盖了传统处理510的所有子步骤,其中,通过与线性变换矩阵(SA代表根据源格式的合成)相乘,将每个参数向量PA(m)、PA(m+1)……变换为相应的时域分段TDs。在该示例中,这些时间分段是重叠的,并被馈送入重叠相加过程503以获得解码后的连续时域TDc音频信号504。然后,在传统代码转换过程中进行根据目标格式B的时间-频率分解。将连续的时域信号504分解505为一系列(通常)重叠的分段,其中该重叠可以不同于格式A所采用的重叠,然后通过与矩阵(AB代表根据格式B的分解(A))相乘,将这些分段向量变换至目标参数域PDB。由于目标格式B可以应用与源格式A不同的帧偏移,因此使用单独的帧索引n。
以上说明以及图5涵盖了现今与音频编码实际相关的所有时间-频率分解方案,在这种意义上,它们是一般性的。矩阵和可以精确地描述基于线性块变换和线性前馈(FIR——有限冲激响应)滤波器组的任何时间-频率合成或分解方案。可以在矩阵和中组合级联结构(例如mp3编解码器的混合滤波器组的级联结构)。也涵盖了线性非完美重构滤波器组或变换。对于IIR(无限冲激响应)滤波器组,可以通过使用有限冲激响应截去可忽略的值来近似无限冲激响应,从而使用公式来表达充分精确的表示。
根据本发明的代码转换概念利用了代码转换过程中涉及的时间-频率合成和分解步骤的线性以及重叠相加和分段块503、505的线性。使用单个线性变换TT来替代时间-频率合成重叠相加503、分段505和时间-频率分解的序列,从而有利地,不必需产生连续的时域信号504。
以下说明线性变换TT的一些特性。
变换矩阵TT的精确推导是可能的,但可以是非平凡的(non-trivial)。除了解析推导过程以外,还可能通过仿真和测量源参数域的每个参数元素(例如频谱箱)对目标参数域中的目标帧的线性贡献来训练矩阵。矩阵TT可以由例如解析表达式或查找表来表示。
由于在传统代码转换路径中的多个连续时间分段的重叠相加503,线性变换TT通常不是一对一映射,而是多对一映射。这意味着源域的至少两个、典型地三个或更多个帧对目标域的一个帧有影响。反之亦然,源域的每一个帧影响目标域中的多于一个帧。
尽管将定义参数域A和B的时间-频率分解和合成过程假定为线性,但典型地,它们是时变的。因此,直接变换TT依赖于源域的时间分段对目标域的时间分段的时域同步。换言之,对表示A和B的帧之间的定时差的修改通常产生另一直接变换矩阵TT。因此,如果源格式的时间-频率合成与目标格式的时间-频率分解的帧偏移不同,则矩阵TT是时变的。图6示出了在MPEG AAC(1024样本的帧前移)与mp3(576样本的帧前移)之间的代码转换的示例。时变变换包括在这种情况下(忽略窗口切换方案)采用的十六个时不变变换矩阵TT的序列。图6示出了AAC和mp3的频域向量的序列。由于不同的帧前移,帧间的时间偏移随时间变化。在九个AAC帧或十六个mp3帧的时间段之后,分别出现AAC帧与mp3帧之间的相同时间偏移。在该例中,该时间段是超帧。在每个超帧中,使用十六个不同的预定变换矩阵(例如表)来进行从AAC域至十六个mp3帧的代码转换。每个超帧中都重复该变换序列。因此,(超帧内的)该变换是时变的。
通常,超帧内的周期性序列中的变换数目与目标格式的帧的数目相对应。例如,对于从mp3至AAC的代码转换,时变变换包括九个时不变变换,超帧9m、9m+1、……、9m+8中的每个帧一个时不变变换。在这种情况下,与图6相比,帧间的关系是反之也成立,例如第二个AAC帧9m+1依赖于五个mp3帧16m、……、16m+4。然而,由于变换的线性,还可以执行从一个源格式帧至一个目标格式帧的单独变换,并将所需的结果向量相加来获得目标帧。对于本示例,这导致了包含四十个变换的序列,外加每个目标帧所需的加法运算。
术语“帧前移”描述了连续的时间-频率分解帧的相互偏移。这取决于连续帧的时间重叠,且不同于帧的持续时间。
如果两个所涉及的时间-频率分解过程展示出相邻参数箱的良好分离,且如果此外频谱分辨率是相似的,则变换矩阵TT典型是稀疏矩阵而且大致是对角矩阵。这就是说,TT的大部分等于零且不需要在变换中考虑。因此,可以预期,通过使用矩阵TT的线性变换来进行的代码转换在计算上的复杂度明显小于经由连续时域信号的传统代码转换方法。
图9示出了示例性变换矩阵。灰度级指示了用于从mp3混合滤波器组代码转换至全频带MDCT(两者都具有较长的窗口)的变换矩阵TT的系数的对数幅度。示例性地,三个连续的mp3帧影响目标MDCT帧。暗区域中的系数值高于亮区域中的系数值。在该示例中,变换系数中97.7%的幅度低于-60dB。在代码转换中忽略这些系数,以便能以非常低的计算代价来实现矩阵乘法。
图10示出了图9中心区域的细节,将其示为3维柱状图而不是灰度级码。在所示的41*41=1681个系数中,大多数低于-60dB(在-80dB处截断),也就是说大多数是可忽略的。理想地,沿着线性区域仅有几个系数具有相关水平的值。在解析推导出的该示例中,横跨十八个箱的周期性距离中线性区域的附加区域也具有不可忽略的值,这些不可忽略的值由mp3混合滤波器组中的混叠失真效应引起:尽管在混合mp3滤波器组中已应用了混叠校正,但大量的混叠成分仍然存在。在全频带MDCT情况下不存在该混叠效应。
对于时变变换,根据图9和10的变换矩阵TT可能仅对一个输出帧(即每个超帧内的特定帧)有效,而对于其他输出帧,系数是不同的。
可以通过考虑频率选择性精度要求来进一步降低计算复杂度。例如,如果mp3核心比特流具有较低的比特率,则通常不对高频箱进行编码,且在解码器中将高频箱设置为零(即将其掩蔽)。在这种情况下,可以省略代码转换变换TT的高频部分。通常,可以容易地将任何频率范围掩蔽。掩蔽操作也可以是时变的和/或依赖于信号的(例如基于辅助信息中所包括的比特分配)。与经由连续时域信号的传统代码转换相比,这种容易且灵活的掩蔽操作是有利的。
原则上,变换矩阵TT以概括的方式描述了目标帧的每个频率箱的变换。由于变换的线性,可以将变换矩阵分解为子矩阵,还可以忽略其中的一些子矩阵(例如当不需要特定的目标频率箱时)。因此,从全部变换中选择实际需要计算的分片或部分。例如,为此,可以计算主要频率或辅助信息(如源和/或目标帧的比特分配)。
如果代码转换所需的精度是频率选择性的,则对变换矩阵TT的利用可以是时变的。例如,在从一个压缩音频格式至另一个的代码转换过程中,依赖于频率的代码转换精度要求可以被确定为源或目标音频格式的比特分配的函数。例如,对于需要较低代码转换精度(一个可能的原因是所分配的比特的数目少)的目标频率箱,在计算代码转换变换时,必须考虑矩阵TT中较少的非零元素。因此,可以进一步降低计算复杂度。
利用所公开的代码转换方案,将源域的每个参数箱的影响限制在目标域中非常有限的参数箱集合。因此,与经由时域信号的传统代码转换的数值行为相比,所提出的方案的数值行为的情况要好得多。在传统代码转换中,频谱的一些部分处的强信号分量可能影响代码转换后的参数域中的整个频谱,这是由时间-频率合成和分解过程的数值不精确所造成的。
本发明的一个示例性实施例涉及从根据在MPEG-1层III(mp3)中采用的混合滤波器组的参数域至目标参数域的代码转换,该目标参数域根据具有相同帧前移和相同频率箱量的全频带MDCT或整数MDCT。应用示例是在嵌入式mp3比特流上对音频PCM样本的混合无损编码。这里所公开的快速代码转换方案用于根据解码后的mp3箱来对全频带整数MDCT箱进行预测。然而,代码转换可以不仅涉及mp3箱的当前帧。
图8示出了相应的编码器信号流。该编码器信号流的下半部分表示传统mp3编码器,包括多相滤波器组和抽取(decimation)701、分段和MDCT 702、快速傅立叶变换(FFT)704、心理声学分析705、比特分配和量化器703、辅助信息编码器706和复用器707。在混合无损编码器的上部信号路径中,应用了并行的分段和全频带整数MDCT 709。全频带MDCT的分段和控制应用了与mp3核心编解码器相同的自适应窗口切换方案。此外,根据mp3滤波器组的时变频谱分辨率来控制全频带整数MDCT的频谱分辨率。对于两个并行的时间-频率分解过程的简单同步,尤其在利用涉及多于一个mp3帧(典型地三个或更多个)的代码转换变换的情况下,必须在整数MDCT和对应的分段709之前引入PCM样本的延迟708。
全频带整数MDCT 709和随后的信号处理模块的目的在于:允许对时域PCM样本进行数学上无损的编码。因此,使用了可逆的整数MDCT。这个概念与在MPEG SLS(可缩放至无损)音频编解码器中应用的原理相当,然而,该原理基于从全频带MDCT箱中减去“解量化”并舍入后的mp3频率箱的操作。然而,由于mp3滤波器组与全频带MDCT之间的显著差异,仅通过从全频带MDCT箱中减去这些“解量化”并舍入后的mp3频率箱来计算残差信号,不会导致低速率无损编码所需的信号熵的充分减少。因此,在编码器和解码器中使用根据本发明所公开的代码转换方案,根据mp3箱来确定全频带MDCT箱的更精确的预测。出于这个原因,(经由矩阵TT的)代码转换变换711通常考虑至少三个mp3帧(在对其系数进行解量化(反量化710)之后)。
由于mp3滤波器组701应用了短和长分解/合成窗口之间的信号自适应切换,因此变换矩阵TT是时变的(图7未示出)。不同的变换应用于长窗口、短窗口和过渡阶段。例如,两个或更多个相邻变换可以合并为一个,或者一个变换可以分为两个或多个,因此每超帧的不同时不变变换的数目可以在流内变化。
如上所述,通过频率选择性(例如省略代码转换变换TT的高频和/或低频部分)可以进一步降低计算复杂度。
图8示出了用于无损mp3解码的相应解码器。解码器的代码转换和舍入805与编码器的代码转换和舍入711相同。此外,在编码器和解码器中,反量化器710、803相同。无损解码过程802与无损编码过程713互补,辅助信息解码器804与辅助信息编码器706互补。
另一实施例涵盖了不同音频格式间的快速代码转换,从而涉及对术语“代码转换”的传统理解,即音频内容从一个压缩格式至另一个的转换。通常,代码转换可以从源格式的任意帧开始。
图11示出了所提出的在参数域中应用直接代码转换的***的框图。与图4的传统代码转换***相比,本发明的该实施例使用从源参数域PDA至目标参数域PDB的直接代码转换,来替代解码器DEC_A的时间-频率合成和编码器ENC_B的时间-频率分解的序列。该方式的一个优点是具有较低的计算复杂度,从而具有更高的效率以及更好的数值行为(意味着更小的信号失真)。这尤其适用于具有通常用于代码转换的数学运算的有限精度的定点实施方式。因此,与传统代码转换方案相比,本发明实现了从源音频格式至目标音频格式的更快速的代码转换以及更好的结果质量。此外,以与传统代码转换***中的辅助信息类似的方式来使用辅助信息SI’。
所公开的算法的使用不限于一个编码格式向另一个的完全转换,如以上一些实施例作为示例所示出的那样,还可用作与音频相关的其他算法的构造模块。
本发明的典型示例性应用是针对无损编码的时间-频率参数的预测、不同音频格式间的高质量代码转换等等。
Claims (20)
1.一种用于将成帧后的音频信号从第一参数域(PDA)代码转换至第二参数域(PDB)的方法,包括以下步骤:
-在不创建时域音频信号的情况下,将所述第一参数域(PDA)的两个或更多个参数线性变换(TT)为所述第二参数域(PDB)的至少一个参数,其中,所述第一参数域的所述两个或更多个参数来自所述第一参数域中的音频信号的不同帧,并且是通过时间-频率变换而获得的。
2.根据权利要求1所述的方法,其中,所述将所述两个或更多个输入参数线性变换为所述至少一个输出参数的步骤是时变的。
3.根据权利要求2所述的方法,其中,所述时变线性变换是多个时不变线性变换的周期性重复。
4.根据权利要求2或3所述的方法,其中,所述第二参数域(PDB)中实质上所有的参数都是从所述第一参数域(PDA)的线性变换后的参数而获得的,所述线性变换是非平凡的。
5.根据权利要求3或4所述的方法,其中,所述周期性重复的一个周期覆盖了与所述第二参数域(PDB)的不同整数数目的帧相对应的所述第一参数域(PDA)的整数数目的帧。
6.根据权利要求2至5之一所述的方法,其中,所述第一和第二参数域基于使用时间分解窗口的时间-频率分解,所述第二参数域(PDB)的时间-频率分解使用长分解窗口和短分解窗口,而且对于长分解窗口和短分解窗口,所述线性变换(TT)是不同的。
7.根据前述权利要求之一所述的方法,其中,所述线性变换(TT)的步骤包括以下步骤:
-将来自不同输入帧的部分输入向量映射至部分输出向量;以及
-将所述部分输出向量叠加以产生输出帧。
8.根据前述权利要求之一所述的方法,其中,所述对所述第一参数域的两个或更多个参数进行线性变换的步骤包括:使用具有变换系数的查找表。
9.根据前述权利要求之一所述的方法,其中,所述对所述第一参数域的两个或更多个参数进行线性变换的步骤包括:使用预定义解析表达式。
10.一种用于将成帧后的音频信号从第一参数域(PDA)代码转换至第二参数域(PDB)的设备,包括:
-用于通过对所述第一参数域(PDA)的两个或更多个参数进行线性变换(TT)来计算所述第二参数域的至少一个参数的装置,其中,所述第一参数域的所述两个或更多个参数来自所述第一参数域中的音频信号的不同帧,并且是通过时间-频率变换而获得的。
11.根据权利要求10所述的设备,其中,所述将所述两个或更多个输入参数线性变换为所述至少一个输出参数的操作是时变的。
12.根据权利要求10或11所述的设备,还包括:一个或多个查找表装置,用于存储和检索变换系数。
13.根据权利要求10至12之一所述的设备,还包括:用于计算预定义解析表达式的装置。
14.根据前述权利要求之一所述的方法或设备,其中,与所述第二参数域(PDB)的音频帧相比,所述第一参数域(PDA)的音频帧(501)具有不同的帧前移,其中,所述帧前移描述了帧的时间重叠。
15.根据前述权利要求之一所述的方法或设备,其中,所述第一参数域和所述第二参数域的所述不同参数是涉及时间-频率分解和时间-频率合成的参数,所述第一参数域和所述第二参数域使用不同的时间-频率分解和/或不同的时间-频率合成。
18.根据前述权利要求之一所述的方法或设备,其中,所述第一参数域的每个帧(501)的参数影响所述第二参数域的多于一个帧(502),并表示所述音频信号的波形。
19.根据前述权利要求之一所述的方法或设备,其中,所述变换(TT)包括:省略所述音频信号的特定频率部分。
20.根据前一权利要求所述的方法或设备,其中,所述省略所述音频信号的特定频率部分的操作是时变的,且依赖于所述第一参数域中的所述音频信号所使用的比特分配。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06120969.8 | 2006-09-20 | ||
EP06120969A EP1903559A1 (en) | 2006-09-20 | 2006-09-20 | Method and device for transcoding audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101563726A true CN101563726A (zh) | 2009-10-21 |
Family
ID=37605771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800344873A Pending CN101563726A (zh) | 2006-09-20 | 2007-09-06 | 用于对音频信号进行代码转换的方法和设备 |
Country Status (10)
Country | Link |
---|---|
US (1) | US9093065B2 (zh) |
EP (2) | EP1903559A1 (zh) |
JP (1) | JP5324450B2 (zh) |
KR (1) | KR101341317B1 (zh) |
CN (1) | CN101563726A (zh) |
BR (1) | BRPI0718465A2 (zh) |
CA (1) | CA2662910C (zh) |
TW (1) | TWI423251B (zh) |
WO (1) | WO2008034723A1 (zh) |
ZA (1) | ZA200901367B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022179406A1 (zh) * | 2021-02-26 | 2022-09-01 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8793738B2 (en) | 1994-05-04 | 2014-07-29 | Starsight Telecast Incorporated | Television system with downloadable features |
CH705207B1 (de) | 2002-06-19 | 2012-11-30 | Prospective Concepts Ag | Pneumatisches Bauelement mit Knotenelementen. |
CH704442B1 (de) | 2005-12-23 | 2012-08-15 | Prospective Concepts Ag | Pneumatisches Bauelement. |
EP1989377A1 (de) | 2005-12-23 | 2008-11-12 | Prospective Concepts AG | Pneumatisches bauelement, und daraus erzeugtes dach |
DE102006051673A1 (de) * | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
EP2099027A1 (en) | 2008-03-05 | 2009-09-09 | Deutsche Thomson OHG | Method and apparatus for transforming between different filter bank domains |
CN101989429B (zh) | 2009-07-31 | 2012-02-01 | 华为技术有限公司 | 转码方法、装置、设备以及*** |
EP2306456A1 (en) | 2009-09-04 | 2011-04-06 | Thomson Licensing | Method for decoding an audio signal that has a base layer and an enhancement layer |
US8509329B2 (en) * | 2009-11-06 | 2013-08-13 | Samsung Electronics Co., Ltd. | Data receiving apparatus for receiving data frame using constellation mapping scheme and data transmission apparatus for transmitting the date frame |
IN2015DN04001A (zh) * | 2012-11-07 | 2015-10-02 | Dolby Int Ab | |
WO2014170927A1 (ja) * | 2013-04-18 | 2014-10-23 | 三菱電機株式会社 | 分波装置、合波装置および中継装置 |
KR20220156112A (ko) | 2013-09-12 | 2022-11-24 | 돌비 인터네셔널 에이비 | Qmf 기반 처리 데이터의 시간 정렬 |
TWI557724B (zh) | 2013-09-27 | 2016-11-11 | 杜比實驗室特許公司 | 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器 |
CN110870006B (zh) | 2017-04-28 | 2023-09-22 | Dts公司 | 对音频信号进行编码的方法以及音频编码器 |
CN113689864B (zh) * | 2021-10-27 | 2022-01-18 | 北京百瑞互联技术有限公司 | 一种音频数据处理方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040002855A1 (en) * | 2002-03-12 | 2004-01-01 | Dilithium Networks, Inc. | Method for adaptive codebook pitch-lag computation in audio transcoders |
WO2005078707A1 (en) * | 2004-02-16 | 2005-08-25 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
CN1701353A (zh) * | 2002-01-08 | 2005-11-23 | 迪里辛姆网络控股有限公司 | 基于celp的语音代码之间的代码转换方案 |
CN1784716A (zh) * | 2003-04-08 | 2006-06-07 | 日本电气株式会社 | 代码转换方法和设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6260009B1 (en) * | 1999-02-12 | 2001-07-10 | Qualcomm Incorporated | CELP-based to CELP-based vocoder packet translation |
DE60039662D1 (de) | 1999-03-25 | 2008-09-11 | Sagem Comm | Spracherkenungsgerät zur erkennung eines sprachsignals in einem eingangssignal |
JP4263412B2 (ja) * | 2002-01-29 | 2009-05-13 | 富士通株式会社 | 音声符号変換方法 |
DE10217297A1 (de) | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten |
US7363230B2 (en) * | 2002-08-01 | 2008-04-22 | Yamaha Corporation | Audio data processing apparatus and audio data distributing apparatus |
TW573293B (en) * | 2002-09-13 | 2004-01-21 | Univ Nat Central | Nonlinear operation method suitable for audio encoding/decoding and an applied hardware thereof |
US20070250308A1 (en) * | 2004-08-31 | 2007-10-25 | Koninklijke Philips Electronics, N.V. | Method and device for transcoding |
TWI270236B (en) * | 2005-08-12 | 2007-01-01 | Advanced Connectek Inc | Loop antenna with capacitive structure |
-
2006
- 2006-09-20 EP EP06120969A patent/EP1903559A1/en not_active Withdrawn
-
2007
- 2007-08-24 TW TW096131326A patent/TWI423251B/zh not_active IP Right Cessation
- 2007-09-06 JP JP2009528672A patent/JP5324450B2/ja not_active Expired - Fee Related
- 2007-09-06 CA CA2662910A patent/CA2662910C/en not_active Expired - Fee Related
- 2007-09-06 CN CNA2007800344873A patent/CN101563726A/zh active Pending
- 2007-09-06 EP EP07803303A patent/EP2064700B1/en not_active Not-in-force
- 2007-09-06 BR BRPI0718465-4A patent/BRPI0718465A2/pt not_active IP Right Cessation
- 2007-09-06 WO PCT/EP2007/059349 patent/WO2008034723A1/en active Application Filing
- 2007-09-06 KR KR1020097005619A patent/KR101341317B1/ko not_active IP Right Cessation
- 2007-09-06 US US12/311,129 patent/US9093065B2/en not_active Expired - Fee Related
- 2007-09-06 ZA ZA200901367A patent/ZA200901367B/xx unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1701353A (zh) * | 2002-01-08 | 2005-11-23 | 迪里辛姆网络控股有限公司 | 基于celp的语音代码之间的代码转换方案 |
US20040002855A1 (en) * | 2002-03-12 | 2004-01-01 | Dilithium Networks, Inc. | Method for adaptive codebook pitch-lag computation in audio transcoders |
CN1653521A (zh) * | 2002-03-12 | 2005-08-10 | 迪里辛姆网络控股有限公司 | 用于音频代码转换中的自适应码本音调滞后计算的方法 |
CN1784716A (zh) * | 2003-04-08 | 2006-06-07 | 日本电气株式会社 | 代码转换方法和设备 |
WO2005078707A1 (en) * | 2004-02-16 | 2005-08-25 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022179406A1 (zh) * | 2021-02-26 | 2022-09-01 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP1903559A1 (en) | 2008-03-26 |
EP2064700B1 (en) | 2012-09-05 |
ZA200901367B (en) | 2010-05-26 |
JP2010504544A (ja) | 2010-02-12 |
CA2662910C (en) | 2015-12-15 |
EP2064700A1 (en) | 2009-06-03 |
US9093065B2 (en) | 2015-07-28 |
KR20090055579A (ko) | 2009-06-02 |
BRPI0718465A2 (pt) | 2013-12-03 |
TWI423251B (zh) | 2014-01-11 |
KR101341317B1 (ko) | 2013-12-12 |
JP5324450B2 (ja) | 2013-10-23 |
WO2008034723A1 (en) | 2008-03-27 |
CA2662910A1 (en) | 2008-03-27 |
TW200816167A (en) | 2008-04-01 |
US20090240507A1 (en) | 2009-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101563726A (zh) | 用于对音频信号进行代码转换的方法和设备 | |
KR101238239B1 (ko) | 인코더 | |
US8626517B2 (en) | Simultaneous time-domain and frequency-domain noise shaping for TDAC transforms | |
US7275036B2 (en) | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data | |
CN1878001B (zh) | 对音频数据编码及解码的设备及方法 | |
JP5820464B2 (ja) | オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法 | |
EP2054882B1 (en) | Arbitrary shaping of temporal noise envelope without side-information | |
CA2482427C (en) | Apparatus and method for coding a time-discrete audio signal and apparatus and method for decoding coded audio data | |
KR101161866B1 (ko) | 오디오 코딩 장치 및 그 방법 | |
US8447591B2 (en) | Factorization of overlapping tranforms into two block transforms | |
CN103098126A (zh) | 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法 | |
JP2005535940A (ja) | スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置 | |
CN105210149A (zh) | 用于音频信号解码或编码的时域电平调整 | |
EP3074970B1 (en) | Audio encoder and decoder | |
CN101290774B (zh) | 音频编码和解码*** | |
CN101156318A (zh) | 预测器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20091021 |