CN101411214B - 用于多信道环绕声音的解码器的方法和装置 - Google Patents

用于多信道环绕声音的解码器的方法和装置 Download PDF

Info

Publication number
CN101411214B
CN101411214B CN200780011012.2A CN200780011012A CN101411214B CN 101411214 B CN101411214 B CN 101411214B CN 200780011012 A CN200780011012 A CN 200780011012A CN 101411214 B CN101411214 B CN 101411214B
Authority
CN
China
Prior art keywords
audio signal
surround audio
multichannel surround
linear combination
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200780011012.2A
Other languages
English (en)
Other versions
CN101411214A (zh
Inventor
A·塔莱布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN101411214A publication Critical patent/CN101411214A/zh
Application granted granted Critical
Publication of CN101411214B publication Critical patent/CN101411214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明的基本概念是在参数域中外推多信道信号的部分已知的空间协方差矩阵。所外推的协方差矩阵与下编码的下混合信号一起使用以便高效地生成多信道信号的线性组合的估计。

Description

用于多信道环绕声音的解码器的方法和装置
技术领域
本发明涉及解码多信道环绕音频比特流。本发明尤其涉及使用空间协方差矩阵外推法进行信号解码的方法和装置。
背景技术
在全世界的电影院中,很久以来,多信道环绕音频***就将电影观众的位置安排在电影场景音频空间的中心,电影场景在观众前面播放并给予观众真实可信的“身临其境”之感。这种音频技术作为家庭环绕声影院***已经进入普通人的家庭,现在正为人们在他们自己的起居室中提供“身临其境”的感觉。
该音频技术将会被用到的下一个领域包括移动无线单元或终端,特别是诸如蜂窝电话、mp3播放器(包括类似的音乐播放器)和PDA(个人数字助理)的小型单元。这里,由于屏幕尺寸小,环绕声音的沉浸感特性就更加重要。然而,将这项技术移用到移动终端中不是个小问题。主要的障碍包括:
在无线移动信道中,可用比特率在很多情况下较低。
移动终端的处理能力有点有限。
小型移动终端通常只有两个微型扬声器和耳塞或耳机。
这意味着,特别是对诸如蜂窝电话的移动终端来说,移动终端上的环绕声音解决方案必须使用比在杜比(Dolby)数字5.1***中使用的384千比特/秒低得多的比特率。由于有限的处理能力,移动终端的解码器必须在计算上被优化,并且由于移动终端的扬声器配置,环绕声音必须通过耳塞或耳机来传递。
通过耳机或耳塞来传递多信道环绕声音的标准方式是实施多信道环绕声音的3D音频或立体声(binaural)再现。
通常,在3D音频再现中,使用音频场景模型,并且每个进入的单信道信号被通过一组滤波器滤波,该组滤波器对人头部、躯干和耳朵所产生的变换建模。这些滤波器被称为具有头部相关转移函数(HRTF)的头部相关滤波器(HRF),如果被恰当地设计,它们会给出良好的3D音频场景感知。
图1的图示出了多信道5.1音频信号的完整3D音频再现方法。六信道的多信道信号是:
环绕右(SR)、右(R)、中心(C)、低频元(LFE)、左(L)和环绕左(SL)。
在图1所示的例子中,中心和低频信号被组合为一个信号。然后,为了实现该头部相关滤波方法,需要五个不同的滤波器,表示为HC
Figure GSB00000285835700023
Figure GSB00000285835700024
SR信号被输入到滤波器
Figure GSB00000285835700025
和R信号被输入到滤波器
Figure GSB00000285835700027
和C和LFE信号被共同输入到滤波器HC,L信号被输入到滤波器
Figure GSB00000285835700029
和而SL信号被输入到滤波器和从滤波器
Figure GSB000002858357000213
HC
Figure GSB000002858357000214
Figure GSB000002858357000215
输出的信号在右边的求和元件1R中进行求和,给出要提供给右边耳机(未示出)的信号。从滤波器
Figure GSB000002858357000216
HC
Figure GSB000002858357000217
Figure GSB000002858357000218
输出的信号在左边的求和元件1L中求和,给出要提供给左边耳机(未示出)的信号。在这种情况下,假设头部是对称的,因此假设用于左耳和右耳的滤波器是相似的。
在这种再现的3D感知方面的质量依赖于当他/她正在收听时,HRF多么接近地建模或表示收听者本身的头部相关滤波。因此,如果想获得优秀或非常好的质量,如果HRF可以为每个听者自适应调整和个性化则将是有益的。该自适应调整和个性化步骤可包括建模、测量和通常依赖于用户的调谐,以便改进所感知的3D音频场景的质量。
当前本领域标准化的多信道音频编解码器需要大量带宽,以便达到可接受的质量,这样它们就妨碍了为诸如无线移动流传输的服务使用这种编解码器。
例如,即使杜比数字5.1(AC-3编解码器)与AAC(高级音频编码)多信道编解码器相比具有非常低的复杂度,但是为达到相似的质量它需要多得多的比特率。AAC多信道编解码器和AC-3编解码器这两种编解码器直到今天仍不能被用在无线移动领域,是因为它们对计算复杂度和比特率的要求很高。
基于立体声线索(cue)编码的新的参量多信道编解码器已经被开发。最近标准化的MPEG参量(parametric)立体声工具是用于对立体声声音进行编码的低复杂度/高质量参数技术的好例子。将参量立体声扩展到多信道编码是当前正在进行的MPEG中的标准化,名为空间音频编码,还叫称为MPEG环绕。
通过示出通常情况的图2中的框图,可以解释和理解参量多信道编码的原理。
还被称作多信道参量环绕编码器的参量环绕编码器3接收多信道音频信号,所述多信道音频信号包括单独的信号x1(n)到xN(n),其中N是输入信道的数目。编码器3然后在下混合单元5中形成下混合信号,所述下混合信号包括单独的下混合信号z1(n)到zM(n)。下混合信道数M<N依赖于所需的比特率、质量和M信道音频编码器7的可用性。编码过程的一个关键方面是,从多信道输入信号导出通常是立体声信号但也可能是单信道信号的下混合信号,并且在音频编码器7中对该下混合信号而不是原始多信道信号进行压缩以便通过无线信道11传输。另外,参量环绕编码器还包括空间参数估计单元9,其根据输入信号x1(n)到xN(n)计算空间线索或空间参数,诸如信道间水平差、时间差和相干性。从M信道音频编码器输出的压缩音频信号(主信号)与构成辅助信息(side information)的空间参数一起被发送到接收端,在这里所考虑的情况下,所述接收端通常是移动终端。
在所述接收端,参量环绕解码器13包括M信道音频解码器15。音频解码器15产生z1(n)到zM(n)的编码版本的信号
Figure GSB00000285835700031
这些与空间参数一起被输入到空间合成单元17,其产生输出信号
Figure GSB00000285835700033
Figure GSB00000285835700034
因为解码过程本质上是参量的,所以解码信号
Figure GSB00000285835700035
Figure GSB00000285835700036
在客观上不一定接近于原始的多信道信号x1(n)到xN(n),但主观上是多信道音频场景的忠实再现。
很明显,依赖于通过接口11发射信道的通常相对低的带宽,将会丢失信息并因此在接收端上的信号
Figure GSB00000285835700037
Figure GSB00000285835700038
Figure GSB00000285835700039
Figure GSB000002858357000310
无法与它们在发射端上的相对应部分相同。即使它们不是其相对应部分的真实等同物,它们也是足够好的等同物。
通常,这种环绕编码过程独立于图2中的单元编码器7(核心编码器)和音频解码器15(核心解码器)中所使用的压缩算法。核心编码过程可利用任意数目的高性能压缩算法,诸如AMR-WB+(扩展自适应多速率宽带)、MPEG-1层III(移动图片专家组)、MPEG-4AAC或MPEG-4高效AAC,并且它甚至还可利用PCM(脉冲编码调制)。
通常,上面的操作是在诸如傅立叶变换的变换信号域中完成,并通常在一些时频分解上完成。如果单元9和17中的空间参数估计和合成使用的变换类型与音频编码器7中使用的变换类型相同,这是特别有益的。
图3是高效参量音频编码器的详细框图。以向量形式表示为xN(n)的N信道离散时间输入信号首先在变换单元21中被变换到频域,该变换单元21给出信号
Figure GSB00000285835700041
索引k是变换系数的索引,或频率子带。索引m表示抽取的时域索引,其还与可能通过重叠帧的输入信号相关。
所述信号此后在下混合单元5中被下混合,以生成M信道的下混合信号zM(k,m),其中M<N。在估计单元9中估计空间模块参数向量pN(k,m)的序列。这可以在开环方式下完成,或可在闭环方式下完成。
空间参数包括代表环绕声音感觉的心理声学线索。例如,这些参数包括信道间水平差(ILD)、时间差(ITD)和相干性(IC),以捕获多信道音频信号相对于所传送的下混合信号zM(k,m)的空间图像(或者如果在闭环中,解码信号)。可以以非常紧凑的形式对线索pN(k,m)进行编码,诸如在产生信号
Figure GSB00000285835700043
的空间参数量化单元23中,之后为空间参数编码器25。M信道音频编码器7产生主比特流,其在多路复用器27中与参数编码器所产生的空间辅助信息多路复用。经多路复用的信号从多路复用器传送到接收端上的多路分解器29,辅助信息和主比特流在所述多路分解器29中被恢复,如图4的框图所示。
在接收端,对主比特流进行解码以利用所接收的空间参数合成高质量的多信道表示。首先在M信道音频解码器31中对主比特流进行解码,解码的信号
Figure GSB00000285835700044
从M信道音频解码器31输入到空间合成单元17。多路分解器29提取持有空间参数的空间辅助信息并将其提供给空间参数解码器33,所述空间参数解码器33产生解码参数
Figure GSB00000285835700045
并将它们传送到合成单元17。所述空间合成单元产生信号
Figure GSB00000285835700046
该信号被提供给信号频时变换单元35以产生信号
Figure GSB00000285835700047
即多信道解码信号。
多信道环绕声音的个性化3D音频再现可通过使用高效的参量环绕解码器以首先获得多个环绕信道,使用例如上面参照图4描述的多信道解码器而被传递到移动终端用户。因此,图1中所示的***被用于合成立体声3D音频再现的多信道信号。该操作被示于图5的示意图中。
已经对在子带域中实施空间或3D音频滤波进行了工作。在C.A.Lanciani和R.W.Schafer“Application of Head-related Transfer Functions to MPEG Audio Signals”,Proc.31st Symposium on System Theory,March 21-23,1999,Auburn,AL,U.S.A.中公开了如何通过在子带域中实施HR滤波操作而将MPEG编码的单信道信号空间化。在A.B.Touimi,M.Emerit和J.M.Pernaux,“Efficient Method for Multiple Compressed Audio Streams Spatialization”,Proc.3rd International Conference on Mobile and Ubiquitous Multimedia,229-235页,10月27-29号,2004,College Park,Maryland,U.S.A中公开了如何通过在子带域中进行头部相关(HR)滤波操作而将大量单独的MPEG编码单信道信号空间化。该解决方案基于HR滤波器的特殊实现,其中所有HR滤波器都被建模为几个预先定义的基本滤波器的线性组合。
有多种3D音频再现的应用,并且包括利用诸如3GPP MBMS或DVB-H等标准的聊天(gamming)、移动TV秀,收听音乐会、看电影和通常包含多信道音频分量的多媒体服务。
尽管上述再现多信道环绕声音的方法由于它们允许向无线移动单元提供一整套新的服务而引人入胜,但是这些方法具有很多缺点:
首先,这种再现的计算要求过高,因为解码和3D再现都必须并行和实时地实施。即使与全波形多信道解码器相比较参量多信道解码器的复杂度低,但参量多信道解码器的复杂度还是相当高,且至少高于简单的立体声解码器的复杂度。空间解码的合成步骤具有至少与编码信道的数目成比例的复杂度。另外,3D再现的滤波操作也与信道的数目成比例。
第二个缺点在于需要临时存储器以便存储中间解码信道。事实上,它们被缓存,因为在3D再现的第二步骤中需要它们。
最后,其中一个主要缺点在于由于可以取消信道间的相关性,因此这种3D音频再现的质量可能非常有限。由于参量多信道编码合成信号的方式,信道间相关性是必要的。
例如,在MPEG环绕中,仅在信道对之间估计相关性(ICC)和信道级别差(CLD)。对ICC和CLD参数进行编码并发送到解码器。在所述解码器中,所接收的参数被用在如图7所示的合成树中,用于一种5-1-5配置(该情况下,5-1-51配置)。图6示出了具有5-1-51参数化的环绕***配置。从图6可以看出,仅在信道对之间估计5-1-51配置中的CLD和ICC参数。
由于仅在信道对之间估计相关性(ICC)和信道级别差(CLD),所以不是所有相关性都可以获得。这继而禁止了单独的信道处理和再利用,例如3D再现。事实上,如果例如两个未编码的信道(例如RF和RS)是非相关的,并通过使用5-1-51配置对它们进行编码,则由于相关性只是没有被同样发送到解码器,因此对它们相关性的控制是不可获得的,而仅提供了该树第二级上的相关性。在解码器端,这继而会导致两个相关的解码信道。事实上,解码器没有访问也没有控制特定的单独信道之间的相关性。这些信道属于不同的第三级方框(box)。在图6的例子中,这些是属于不同扬声器分组的所有信道对。这也可以从图7中看出。信道对是属于5-1-51配置中不同的第三级树方框(OTT3、OTT4 OTT2)的信道对。当在扬声器环境中收听时这不是问题;然而如果信道被组合在一起,比如在3D再现中,这就成为问题,可能导致不希望的信道消除或过度放大。
发明内容
本发明的目的是克服参量多信道解码器中与可能不希望的某些信道取消和/或放大有关的缺点。这是通过将部分已知的协方差外推到所有信道的整个协方差矩阵,并基于外推的协方差合成任意线性组合的估计,再现解码多信道信号的任意线性组合来实现的。
根据本发明的第一方面,提供了一种用于合成多信道环绕音频信号的任意预先确定的线性组合的方法。该方法包括如下步骤:接收任意预先确定的线性组合的描述H,接收多信道环绕音频信号的解码下混合信号,接收包括多信道音频信号的相关性和信道级别差的空间参数,基于所接收的包括多信道音频信号的相关性和信道级别差的空间参数获得部分已知的空间协方差,外推部分已知的空间协方差以获得完整的空间协方差,根据保真度准则,至少基于外推的完整空间协方差、接收的解码下混合信号和任意预先确定的线性组合的所述描述,形成多信道环绕音频信号的所述任意预先确定的线性组合的估计,并基于多信道环绕音频信号的任意预先确定的线性组合的所述估计,合成多信道环绕音频信号的所述任意预先确定的线性组合。
根据第二方面,提供了一种用于合成多信道环绕音频信号的任意预先确定的线性组合的装置。该装置包括:相关器,其用于基于所接收的包括多信道音频信号的相关性和信道级别差的空间参数获得部分已知的空间协方差;外推器,其用于外推部分已知的空间协方差以获得完整的空间协方差;估计器,其用于根据保真度准则,至少基于外推的完整空间协方差、接收的解码下混合信号m和给出任意预先确定的线性组合的系数的描述,形成多信道环绕音频信号的所述任意预先确定的线性组合的估计;和合成器,其用于基于多信道环绕音频信号的任意预先确定的线性组合的所述估计,合成多信道环绕音频信号的所述任意预先确定的线性组合。
因此,本发明可以以简单和高效的方式再现在移动设备上参量编码器所编码的环绕声音。优点包括与通过在多信道信号上直接使用3D再现而获得的复杂度和质量相比,复杂度有所降低且质量有所提高。
特别地,本发明可以对多信道环绕声音进行任意的双信道解码。
进一步的优点是在频域进行操作,因此降低了***的复杂度。
进一步的优点是不需要缓存信号样本,原因在于直接在单个解码步骤中获得输出。
附图说明
图1是示出了可能的3D音频或5.1音频信号的立体声再现的框图,
图2是参量多信道编码和解码***的原理的高级别描述,
图3是参量多信道音频编码器的详细描述,
图4是参量多信道音频解码器的详细描述,
图5是所解码的多信道信号的3D音频再现,
图6是用于5-1-51配置的空间音频处理的参数化视图,
图7是用于5-1-51配置的空间音频处理的树型结构视图,
图8示出了子带k与混合子带m之间的关系和时隙n与下采样时隙l之间的关系,
图9a示出了图7所示的OTT方框,并且图9b示出了相对应的R-OTT方框,
图10a示出了根据本发明的装置,图10b示出了本发明的实施例,
图11是示出根据本发明实施例的方法的流程图。
具体实施方式
本发明的基本概念是基于所接收的空间参数获得多信道环绕音频信号的部分已知的空间协方差,并外推所获得的部分已知的空间协方差以获得完整的空间协方差。然后,根据保真度准则,至少基于外推的完整空间协方差、接收的解码下混合信号m和预先确定的任意线性组合的描述H来估计多信道环绕音频信号的预先确定的任意线性组合,以能够基于所述估计合成多信道环绕音频信号的预先确定的线性组合。多信道环绕音频信号的预先确定的任意线性组合能够在概念上代表多信道信号的滤波,例如头部相关滤波和立体声再现。它还可以代表其它声音效果,诸如混响。
因此,本发明涉及用于解码器的方法和用于解码器的装置。该装置被示于图10a中,其包括相关器902a、外推器902b、估计器903和合成器904。相关器902a被配置为基于所接收的空间参数901获得部分已知的空间协方差矩阵911,所述所接收的空间参数901包括多信道环绕音频信号的相关性ICC和信道级别差CLD。外推器902b被配置为使用适当的外推方法外推部分已知的空间协方差矩阵,以获得完整的空间协方差矩阵。并且,估计器903被配置为根据保真度准则,通过使用外推的完整空间协方差矩阵912结合所接收的解码下混合信号以及代表预先确定的任意线性组合的描述的系数矩阵Hk来估计多信道环绕音频信号的线性组合。最后,合成器904被配置为基于多信道环绕音频信号线性组合的所述估计913合成多信道环绕音频信号的线性组合914。
现在将关于MPEG环绕解码器来描述本发明的优选实施例。应当意识到,尽管本发明的优选实施例是参照MPEG环绕解码器所描述的,但是其它参数解码器和***也适于与本发明一起使用。
为了简单的目的并不脱离本发明的实质,考虑如图7所示的5-1-51MPEG环绕配置。该配置包括多个连接的OTT(一对二)方框。诸如res的辅助信息和被称作信道级别差(CLD)和相关性(ICC)的空间参数被输入到OTT方框。m是多信道信号的下混合信号。
对多信道信号的合成是在混合频率域中完成的。该频率划分是非线性的,其努力在某种程度上模拟对人耳的时频分析。
下面,每个混合子带用k来索引,而每个时隙用索引n来索引。为了降低比特率要求,MPEG环绕空间参数只被定义在被称作参数时隙l的下采样时隙上以及被称作处理频带m的下采样混合频域上。n与l之间的关系和m与k之间的关系示于图8。因此,频带m0包括频带k1和k1,并且频带m1包括频带k2和k3。此外,时隙l是时隙n的下采样版本。CLD和ICC参数因此对于该参数时隙和处理频带有效。所有处理参数为每个处理频带计算,并接下来被映射到每个混合频带。此后,这些被从参数时隙内插到每个时隙n。
图7中所示的解码器的OTT方框可以如图9a所示被可视化。基于该图示,任意OTT方框的输出努力将两个原始信道之间的相关性恢复为两个估计的信道
Figure GSB00000285835700093
Figure GSB00000285835700094
通过检查编码器中完成的估计部分,这可以得到更好的理解。编码器包括R-OTT方框,其是如图9b所示的逆OTT方框。R-OTT方框将立体声信号变换为与参数提取相结合的单信道信号,所述参数提取代表各个输入信号之间的空间线索。对这些R-OTT方框每一个的输入信号是原始信道
Figure GSB00000285835700095
Figure GSB00000285835700096
每个R-OTT方框计算输入信号相应的时间/频率斜率(time/frequency tile)的功率比(其将被表示“信道级别差”或CLD),其通过如下公式给出:
CLD X = 10 log 10 ( Σ l , m y 0 l , m y 0 l , m * Σ l , m y 1 l , m y 1 l , m * )
以及输入信号相应的时间/频率斜率的相似性测量(其将被表示“信道间相关性”或ICC),其通过互相关给出:
ICC X = Re ( Σ l , m y 0 l , m y 1 l , m * Σ l , m y 0 l , m y 0 l , m * Σ l , m y 1 l , m y 1 l , m * )
另外,R-OTT方框生成单信道信号,其写作
x l , m = g 0 y 0 l , m + g 1 y 1 l , m
其中g0、g1是适当的增益。利用g0=g1=1/2,生成单信道信号。另一选择包括选择g0、g1,以使得
其可通过使用如下公式实现
g 0 = g 1 = 1 + 10 CLD X 10 1 + 10 CLD X 10 + ICC X · 10 CLD X 20
下面,假设上面的是真且R-OTTx方框的输出能量等于输入能量之和。
被输入到R-OTT方框的任何两个信道之间的相关性(ICC)以及信道级别差(CLD)被量化编码并被传送到解码器。
为了建立空间协方差矩阵,本发明的该实施例使用对应于每个(R)-OTT方框的CLD和ICC,然而也可以使用相关性和信道级别差的其它度量。
在概念上,任意两个信道的协方差矩阵被写作:
C OTT X = E [ y 0 y 0 * ] E [ y 0 y 1 * ] E [ y 1 y 0 * ] E [ y 1 y 1 * ]
由于只有真实的相关性可以在MPEG环绕解码器处获得,所以可以假设真实相关性矩阵而不失去一般性。这样,OTT方框(其被输入到R-OTT方框)的每个输出信道可被示为具有如下协方差矩阵:
C OTT X = σ OTT X 2 10 CLD X 10 1 + 10 CLD X 10 10 CLD X 20 ICC X 1 + 10 CLD X 10 10 CLD X 20 ICC X 1 + 10 CLD X 10 1 1 + 10 CLD X 10 = σ OTT X 2 c 1 , x 2 c 1 , x c 2 , x ρ x c 1 , x c 2 , x ρ x c 2 , x 2
其中
Figure GSB00000285835700106
表示OTTX的输入能量(或可替换地为R-OTTX的输出)方框,为了简化表示,示出方程右边第二项。
如果对应于OTT3和OTT4的输出的信道向量被表示为
v OTT 3 , OTT 4 = lf rf c lfe
则根据这些表示,可利用块矩阵写出5-1-51 MPEG环绕情况下的空间协方差矩阵,该矩阵部分未知,如下所示
ReE [ lf rf c lfe lf * rf * c * lfe * ] = C OTT 3 ? ? C OTT 4
用“?”标记未知的2×2矩阵。因此,基于空间参数CLD和ICC获得部分已知的空间协方差矩阵。
此外,OTT3和OTT4的输出相互关,并用协方差矩阵表示。在这种情况下,很容易将两个能量即
Figure GSB00000285835700114
相关,如下:
σ OTT 3 2 = c 1,1 2 σ OTT 1 2 ,
σ OTT 4 2 = c 2,1 2 σ OTT 1 2
因此,用于前四个信道的协方差矩阵可以写作
ReE [ lf rf c lfe lf * rf * c * lfe * ] = σ OTT 1 2 c 1,1 2 c 1,3 2 c 1,1 2 c 1 , x c 2,3 ρ 3 R lf , c R lf , lfe c 1,1 2 c 1,3 c 2,3 ρ 3 c 1,1 2 c 2,3 2 R rf , c R rf , lfe R lf , c R rf , c c 2,1 2 c 1,4 2 c 2,1 2 c 1,4 c 2 , 4 ρ 4 R lf , lfe R rf , lfe c 2,1 2 c 1,4 c 2,4 ρ 4 c 2,1 2 c 2,4 2
在MPEG环绕标准中,ρ4=ICC4的值不存在,并在概念上假设等于1,即除了尺度因子之外,中心和LFE是相同的。然而,为了一般性研发的目的,将不会进行这种假设。
最后的矩阵方程表示出现了多个未知空间信道间的相关性。即Rlf,c、Rlf,lfe、Rrf,c、Rrf,lfe,然而已经知道,到OTT3和OTT4的两个输入的互相关等于ICC1=ρ1。这样,根据前面的矩阵方程:
ReE [ lf + rf c + lfe lf * + rf * c * + lfe * ] = c 1,1 2 ( c 1,3 2 + 2 c 1,3 c 2,3 ρ 3 + c 2,3 2 ) R lf , c + R lf , lfe + R rf , c + R rf , lfe R lf , c + R lf , lfe + R rf , c + R rf , lfe c 2,1 2 ( c 1,4 2 + 2 c 1,4 c 2,4 ρ 4 + c 2,4 2 )
这样,立刻看出缺少的量必须满足
R lf , c + R lf , lfe + R rf , c + R rf , lfe = ρ 1 · c 1,1 c 1,2 ( c 1,3 2 + 2 c 1,3 c 2,3 ρ 3 + c 2,3 2 ) ( c 1,4 2 + 2 c 1,4 c 2,4 ρ 4 + c 2,4 2 )
还很清楚,该约束不能单独确定所有缺少的空间变量。
为了处理进一步的单独信道,本发明的该实施例外推缺少的相关量而保持相关和约束。应当注意到,这种矩阵的外推还必须使得所得到的外推矩阵是对称和正定的。事实上,这是对将要容许成为协方差矩阵的任何矩阵的要求。
为了外推部分已知的协方差矩阵以获得完整的协方差矩阵,使用文献中的几个技术。使用一种或另一种方法处于本发明的范围之内。
根据优选实施例,最大熵原理被用作外推方法。这带来简单的实施方式,并已经在音频质量方面显示了非常好的性能。
因此,选择外推相关量以使得它们最大化协方差矩阵的行列式,即
det c 1,1 2 c 1,3 2 c 1,1 2 c 1 , x c 2,3 ρ 3 R lf , c R lf , lfe c 1,1 2 c 1,3 c 2,3 ρ 3 c 1,1 2 c 2,3 2 R rf , c R rf , lfe R lf , c R rf , c c 2,1 2 c 1,4 2 c 2,1 2 c 1,4 c 2 , 4 ρ 4 R lf , lfe R rf , lfe c 2,1 2 c 1,4 c 2,4 ρ 4 c 2,1 2 c 2,4 2
受到如下约束
R lf , c + R lf , lfe + R rf , c + R rf , lfe = ρ 1 · c 1,1 c 1,2 ( c 1,3 2 + 2 c 1,3 c 2,3 ρ 3 + c 2,3 2 ) ( c 1,4 2 + 2 c 1,4 c 2,4 ρ 4 + c 2,4 2 )
这是凸优化问题并存在闭合式(closed form)的解。为了简化表示,我们将为一般协方差矩阵导出解,
Γ = R lf , lf R lf , rf R lf , c R lf , lfe R lf , rf R rf , rf R rf , c R rf , lfe R lf , c R rf , c R c , c R c , lfe R lf , lfe R rf , lfe R c , lfe R lfe , lfe
首先应到注意到,最大化行列式Г还等同于最大化如下矩阵的行列式
Γ ′ = 1 1 0 0 1 - 1 0 0 0 0 1 1 0 0 1 - 1 R lf , lf R lf , rf R lf , c R lf , lfe R lf , rf R rf , rf R rf , c R rf , lfe R lf , c R rf , c R c , c R c , lfe R lf , lfe R rf , lfe R c , lfe R lfe , lfe 1 1 0 0 1 - 1 0 0 0 0 1 1 0 0 1 - 1 = R fm , fm R fm , fs R fm , cm R fm , cs R fm , fs R fs , fs R fs , cm R fs , cs R fm , cm R fs , cm R cm , cm R cm , cs R fs , cs R rf , lfe R cm , cs R cs , cs
这还等同于估计从中心信道(C和LFE)和前信道(FL,FR)所获得的单信道和侧信道的协方差矩阵,即
fm fs cm cs = 1 1 0 0 1 - 1 0 0 0 0 1 1 0 0 1 - 1 lf rf c lfe
现在很清楚,对矩阵Г的约束容易地变换为
R fm , cm = ρ 1 · c 1,1 c 1,2 ( c 1,3 2 + 2 c 1,3 c 2,3 ρ 3 + c 2,3 2 ) ( c 1,4 2 + 2 c 1,4 c 2,4 ρ 4 + c 2,4 2 )
剩下的未知相关是通过使用行列式Г′的最大值所外推的Rfm,cs、Rfs,cm和Rfm,cs。计算步骤非常复杂,但是结果最后非常简单并得到如下的闭合式公式:
R fm , cs = R fm , cm R cm , cs R cm , cm , R fs , cm = R fm , fs R fm , cm R fm , fm , R fs , cs = R fm , fs R fm , cm R cm , cs R fm , fm R cm , cm
因此,可非常容易地由可用数据外推这些量。最后,完整的外推协方差矩阵Г需要简单的矩阵乘法:
R lf , lf R lf , rf R lf , c R lf , lfe R lf , rf R rf , rf R rf , c R rf , lfe R lf , c R rf , c R c , c R c , lfe R lf , lfe R rf , lfe R c , lfe R lfe , lfe = 1 4 1 1 0 0 1 - 1 0 0 0 0 1 1 0 0 1 - 1 R fm , fm R fm , fs R fm , cm R fm , cs R fm , fs R fs , fs R fs , cm R fs , cs R fm , cm R fs , cm R cm , cm R cm , cs R fs , cs R rf , lfe R cm , cs R cs , cs 1 1 0 0 1 - 1 0 0 0 0 1 1 0 0 1 - 1
这些步骤还被应用以便外推附加的两个信道(即LS和RS)的总协方差矩阵。得到总的外推协方差矩阵:
ReE lf rf c lfe ls rs [ lf * rf * c * lfe * ls * rs * ] R lf , lf R lf , rf R lf , c R lf , lfe R lf , ls R lf , rs R lf , rf R rf , rf R rf , c R rf , lfe R rf , ls R rf , rs R lf , c R rf , c R c , c R c , lfe R c , ls R c , rs R lf , lfe R rf , lfe R c , lfe R lfe , lfe R lfe , ls R lfe , rs R lf , ls R rf , ls R c , ls R lfe , ls R ls , ls R ls , rs R lf , rs R rf , rs R c , rs R lfe , rs R ls , rs R rs , rs
通过使用相同的方法,即将信道转化为虚拟单信道和侧信道,非常容易为外推的协方差矩阵导出闭合式公式。
到目前为止,已经给出的是两个步骤的方法,其中首先外推信道[lf rf c lfe]的部分协方差矩阵,然后外推全部信道的总协方差矩阵。然而,另一种方法可以用于计算总的不完整协方差矩阵,然后全局外推所有相关。这两种方法在概念上是等同的。然而,第二种方法更加有效,因为其全局外推所有可能的相关,而前者意味着两个步骤的方法。
两种方法在实现上相似,且都基于最大熵(即行列式最大化)方法。
应当注意到,所有量都依赖于时间和频率。
为了清楚省略了索引。时间索引对应于参数时隙l,而频率则用处理频带索引m索引。最后应当指出,将相对于单信道下混合信号的能量(其用
Figure GSB00000285835700142
表示)来定义所有得到的相关。事实上,由于存在
Figure GSB00000285835700143
项,这对于任何OTTx方框都是真的。
下面,为了简化表示,单信道下混合能量归一化的外推协方差矩阵被定义为
C ~ l , m = 1 σ OTT 0 2 ( l , m ) ReE [ lf rf c lfe ls rs lf * rf * c * lfe * ls * rs * ]
基于外推协方差矩阵,估计和合成任意信道在下面进行描述。
假设被定义为原始信道预先确定的任意线性组合的任意信道要被解码/合成,例如
a n , k = H k lf k , n rf k , n c k , n lfe k , n ls k , n rs k , n
其中矩阵Hk表示协方差矩阵,代表预先确定的任意线性组合的描述,而an,k是所需的线性组合,即所需的输出信号。现有的直接技术将直接计算作为解码器输出的简单线性组合,即将频域中的矩阵Hk应用到解码的信道
Figure GSB00000285835700153
通常这可写作
a ^ n , k = H k l f ^ k , n r f ^ k , n c ^ k , n l f ^ e k , n l ^ s k , n r ^ s k , n
这会限制输出的质量并可能造成不想要的信道相关性以及可能的消除。
正如前面所述,每个R-OTT方框的输出引起线性组合。因此,很容易看出下混合信号事实上是所有信道的线性组合。
因此,用mk,n表示的下混合信号可被写作:
m n , k = W n , k lf n , k rf n , k c n , k lfe n , k ls n , k rs n , k = w lf n , k w rf n , k w c n , k w lfe n , k w ls n , k w rs n , k lf n , k rf n , k c n , k lfe n , k ls n , k rs n , k
协方差矩阵Wn,k是已知的,且只依赖于所接收的CLDx参数。在单个信道下混合的情况下,即下混合信号只包括单信道信号,矩阵Wn,k实际上是如上面公式中所示的行向量。这个问题可以在最小均方问题的方面上陈述,或者通常作为加权的最小二乘问题。
给定单信道下混合信号mn,k,可以按照如下方法构成信道an,k的线性估计:
Figure GSB00000285835700161
其中Qn,k是需要被优化的矩阵,例如当其被应用到下混合信道(在该情况下为单信道mn,k)时,其可以提供与利用原始的线性组合获得的结果an,k一样闭合的结果。
因此,目标是使关于某些保真度准则(在该例子中是均方误差准则)的误差
Figure GSB00000285835700162
最小化。这样引起如下的最小化:
e n , k = H k lf k , n rf k , n c k , n lfe k , n ls k , n rs k , n - Q n , k W n , k lf k , n rf k , n c k , n lfe k , n ls k , n rs k , n = ( H k - Q n , k W n , k ) lf k , n rf k , n c k , n lfe k , n ls k , n rs k , n
假设矩阵是静止的,即它们可以是平均运算符的析出因子,则可以容易地关于Qn,k而解出该问题的均方解,得到
Q n , k = H k C n , k W n , k * W n , k C n , k W n , k *
矩阵Cn,k表示信道的协方差矩阵,即
C n , k = E [ lf k , n rf k , n c k , n lfe k , n ls k , n rs k , n lf * rf * c * lfe * ls * rs * ]
如前面所讨论,其可能无法在解码器得到,但是可以根据前面所述的技术对其进行外推。这里,所示协方差矩阵是复数的。然而,由于只使用实相关,所以可以容易地示出,该结果通过实的协方差矩阵仍然是有效的。
到目前为止已经示出了为每个混合子带k和每个时隙n估计最小均方。实际上,通过在一定数量的时隙上计算均方估计可以大大降低复杂度,并且接着使用内插以便将其扩展到所有时隙。例如,将估计映射到与用于参数的时隙相同的时隙上,即只为参数时隙、索引l计算协方差矩阵是有益的。可以通过映射将只为参数带、索引m计算的均方估计来使用用于降低复杂度的相同技术。然而,这通常不如针对时间索引那么直接,因为可能需要一定数量的频率分辨率以便高效地表示矩阵Hk的行为。下面考虑次采样的参数域,即l,m。
正如前面已经指出的,协方差矩阵Cl,m只相对于单信道下混合信号(即)是已知的。由于该约束,对于所有l,m,可以容易地示出
Figure GSB00000285835700172
最小均方估计因此可被写作
Q l , m = H m C ~ l , m W l , m *
应当注意到,Ql,m只依赖于可以在解码器中获得的已知量。事实上,Hm是描述理想线性组合的外部输入矩阵,而和Wl,m由包含在接收的比特流中的空间参数导出。
最小二乘估计固有地带来能量丢失,这会对合成信道的质量带来不利影响。能量丢失是由于当被应用到解码信号和实信号时模型之间的失配所造成的。在最小二乘技术中,这被称作噪声子空间。在空间听觉中,该术语被称作扩射声场,即多信道信号不相关或扩散的部分。为了防止这样,使用多个解相关信号,以便填充噪声子空间和扩散声部分,并因此得到在心理声学上与所需信号相近似的估计信号。
由于最小均方的正交特性,理想信号的能量可被表示为
Figure GSB00000285835700175
这样,l,m域中误差的归一化协方差矩阵可表示为
H m C ~ l , m H m * - Q l , m W l , m C ~ l , m W l , m * Q l , m *
为了生成具有与理想信号an,k相同的心理声学特征的估计信号
Figure GSB00000285835700177
生成独立于
Figure GSB00000285835700178
的误差信号。所述误差信号必须具有接近于真实误差信号的协方差矩阵
Figure GSB00000285835700179
的协方差矩阵,并且其还必须与均方估计不相关。
接着,由表示的伪像误差信号被添加到均方误差估计,以便形成最终估计
Figure GSB000002858357001712
一种生成与误差信号近似的信号的方式是通过使用被应用到单信道下混合信号的解相关。这确保了误差信号与均方估计不相关,原因在于直接依赖于单信道下混合信号。然而这本身是不够的,解相关器需要被空间整形以使得它们的协方差矩阵与真实误差信号的相关
Figure GSB00000285835700182
匹配。
这样做的一种简单方式是迫使所生成的解相关信号在它们本身之间也不相关,并接着应用被称作Zn,k的相关整形矩阵。如果dn,k被表示为解相关器的向量输出,则整形矩阵Zn,k必须满足
Figure GSB00000285835700183
然而,由于
Figure GSB00000285835700184
只被定义为归一化协方差矩阵,(相对于单信道下混合信号的能量)解相关器还必须具有相对于单信道下混合能量的协方差矩阵定义的协方差矩阵。
根据现有技术,保证这一点的简单方式是使用全通滤波解相关,由此得到归一化(相对于单信道信号能量)协方差矩阵,写作即单位矩阵,然后应用整形矩阵Zn,k
可以容易地看出,
Figure GSB00000285835700186
的简单Cholesky因数分解可以产生适当的矩阵Zn,k。当然,也可以用其它的因数分解,例如通过使用归一化误差协方差矩阵的特征向量和特征值。另外,通过只在参数域,即l,m中估计矩阵Zn,k可以获得益处。
最后,总的合成可以写作:
a ~ n , k = Q n , k m n , k + Z n , k d n , k
其中,通过在时域(即从l到n)中内插矩阵
Figure GSB00000285835700188
并通过将子带参数带映射到混合带(即从m到k)获得矩阵Qn,k
并且相似地,通过内插和映射矩阵Zl,m获得矩阵Zn,k,由下列方程定义:
Z n , k Z n , k * = H m C ~ l , m H m * - Q l , m W l , m C ~ l , m W l , m * Q l , m *
图10b概括并解释了为了根据上述本发明的实施例合成任意信道所使用的装置。附图标记对应于图10a的附图标记。在该实施例中,估计器903包括单元905,其被配置为通过最小化所估计的多信道环绕音频信号的线性组合与多信道环绕音频信号的任意预先确定的线性组合之间的均方误差(即
Figure GSB00000285835700191
)确定矩阵Q。应当注意到,人们不必访问多信道环绕声音信号的任意预先确定的线性组合,为了形成多信道环绕声音信号所述线性组合的估计,具有原始多信道信号的协方差矩阵的知识就足够了。后者由所接收的比特流通过形成部分已知的协方差矩阵并接着通过使用诸如最大熵原理之类的原理对其进行外推而获得。
此外,估计器903包括另一单元907,其被配置为用Qn,k乘以下混合信号以获得多信道环绕音频信号的线性组合的估计913。估计器913进一步包括单元905,其适用于确定表示解相关信号量的解相关信号整形矩阵Zn,k。在该实施例中,合成器904被配置为通过计算908、以及接下来来合成线性组合,其中dn,k是用于每个频带和每个时隙的“解相关信号”以补偿能量损失。并且,该装置还包括内插和映射单元906。该单元可被配置为在时域中内插矩阵Ql,m,将下采样频带m映射到混合带k,并在时域中内插矩阵Zl,m,并将下采样频带m映射到混合带k。如上述的,外推器902b能够通过选择外推的相关量而使用最大熵原理,以使得它们在预先确定的约束下最大化协方差矩阵的行列式。
现在转向示出本发明实施例流程图的图11。该方法包括如下步骤:
1000.接收任意预先确定的线性组合的描述H。
1001.接收多信道环绕音频信号的解码下混合信号。
1002.接收包括多信道音频信号的相关性和信道级别差的空间参数。
1003.基于所接收的包括多信道音频信号的相关性和信道级别差的空间参数获得部分已知的空间协方差矩阵。
1004.外推部分已知的空间协方差矩阵以获得完整的空间协方差矩阵。
1005.根据保真度准则,至少基于外推的完整空间协方差矩阵、所接收的解码下混合信号和任意预先确定的线性组合的所述描述,形成多信道环绕音频信号的所述任意预先确定的线性组合。
1006.基于多信道环绕音频信号的任意预先确定的线性组合的所述估计,合成多信道环绕音频信号的所述任意预先确定的线性组合。
步骤1005可进一步包括如下步骤:
1005a.通过最小化多信道环绕音频信号的所估计的线性组合与多信道环绕音频信号的任意预先确定的线性组合之间的均方误差,确定矩阵Q。
1005b.用Q乘以下混合信号以获得多信道环绕音频信号的任意预先确定的线性组合的估计。
1005c.确定表示解相关信号量的解相关信号整形矩阵Z。
1005d.在时域中内插Q和Z。
1005e.将下采样频带m映射到混合带k。
该方法可以在移动终端的解码器中实现。
本发明并不局限于上述优选实施例。可以使用各种替换、修改和等效。因此,上面的实施例不应被认为限制本发明的范围,本发明的范围由所附权利要求来限定。
缩略语
AAC        高级音频编码
AMR-WB+    扩展的自适应多速率宽带
C          中心
CLD        信道级别差
HR         头相关
HRF        头相关滤波器
HRTF       头相关转移函数
IC         信道间相干性
ICC        相关性
ILD        信道间级别差
ITD        信道间时间差
L          左
LFE        低频元
MPEG       移动图片专家组
OTT        一到二
PCM    脉冲编码调制
PDA    个人数字助理
R      右
R-OTT  逆向一到二
SL     环绕左
SR     环绕右

Claims (20)

1.一种用于合成多信道环绕音频信号的任意预先确定的线性组合的方法,该方法包括如下步骤:
-接收所述任意预先确定的线性组合的描述,
-接收所述多信道环绕音频信号的解码下混合信号,
-接收包括所述多信道环绕音频信号的相关性和信道级别差的空间参数,其特征在于:
-基于所接收的包括所述多信道环绕音频信号的相关性和信道级别差的空间参数获得所述多信道环绕音频信号的部分已知的空间协方差矩阵,
-外推所述多信道环绕音频信号的所述部分已知的空间协方差矩阵以获得所述多信道环绕音频信号的完整的空间协方差矩阵,
-根据保真度准则,至少基于所述多信道环绕音频信号的外推的完整的空间协方差矩阵、所接收的解码下混合信号和所述任意预先确定的线性组合的所述描述来形成所述多信道环绕音频信号的所述任意预先确定的线性组合的估计,以及
-基于多信道环绕音频信号的所述任意预先确定的线性组合的所述估计合成所述多信道环绕音频信号的所述任意预先确定的线性组合。
2.根据权利要求1所述的方法,其特征在于所述估计步骤进一步包括如下步骤:
-通过最小化所述多信道环绕音频信号的所估计的线性组合与所述多信道环绕音频信号的所述任意预先确定的线性组合之间的均方误差确定矩阵Q,以及
-将所述矩阵Q乘以所述下混合信号以获得多信道环绕音频信号的所述任意预先确定的线性组合的所述估计。
3.根据权利要求2所述的方法,其特征在于所述估计步骤进一步包括如下步骤:
-确定表示解相关信号量的解相关信号整形矩阵Z。
4.根据权利要求3所述的方法,其特征在于所述合成步骤包括如下步骤:
为每个频带和每个时隙执行Q*m+Z*“解相关信号”以对能量损失进行补偿,其中m为下采样频带。
5.根据权利要求4所述的方法,其特征在于在下采样时隙l和下采样频带m上外推所述多信道环绕音频信号的所述部分已知的空间协方差矩阵。
6.根据权利要求3所述的方法,其特征在于在下采样时隙l和下采样频带m上外推所述多信道环绕音频信号的所述部分已知的空间协方差矩阵。
7.根据权利要求5所述的方法,其特征在于如下步骤:
-在时域中内插所述矩阵Q,和
-将下采样频带m映射到混合带k。
8.根据权利要求6所述的方法,其特征在于如下步骤:
-在时域中内插所述矩阵Z,和
-将下采样频带m映射到混合带k。
9.根据权利要求1-5中任意一项所述的方法,其特征在于所述外推步骤通过使用最大熵原理通过如下步骤来执行:
-选择外推的相关量以使得它们在预先确定的约束下最大化协方差矩阵的行列式。
10.根据权利要求1-5中任意一项所述的方法,其特征在于其在移动终端的解码器中实施。
11.一种用于合成多信道环绕音频信号的任意预先确定的线性组合的装置,其特征在于:
相关器,用于基于所接收的包括所述多信道环绕音频信号的相关性和信道级别差的空间参数获得所述多信道环绕音频信号的部分已知的空间协方差矩阵,
外推器,用于外推所述多信道环绕音频信号的所述部分已知的空间协方差矩阵以获得所述多信道环绕音频信号的完整的空间协方差矩阵,
估计器,用于根据保真度准则,至少基于所述多信道环绕音频信号的外推的完整的空间协方差矩阵、所接收的解码下混合信号和给出所述任意预先确定的线性组合的系数的描述来形成所述多信道环绕音频信号的所述任意预先确定的线性组合的估计,和
合成器,用于基于多信道环绕音频信号的任意预先确定的线性组合的所述估计合成多信道环绕音频信号的所述任意预先确定的线性组合。
12.根据权利要求11所述的装置,其特征在于所述估计器进一步包括:
-通过最小化所述多信道环绕音频信号的所估计的线性组合与所述多信道环绕音频信号的所述任意预先确定的线性组合之间的均方误差来确定矩阵Q的装置,和
-将所述矩阵Q乘以所述下混合信号以获得多信道环绕音频信号的所述任意预先确定的线性组合的所述估计的装置。
13.根据权利要求12所述的装置,其特征在于所述估计器进一步包括:
-用于确定表示解相关信号量的解相关信号整形矩阵Z的装置。
14.根据权利要求13所述的装置,其特征在于所述合成器进一步包括:
用于为每个频带和每个时隙执行Q*m+Z*“解相关信号”以对能量损失进行补偿的装置,其中m为下采样频带。
15.根据权利要求14所述的装置,其特征在于所述外推器包括用于将所述多信道环绕音频信号的所述部分已知的空间协方差矩阵在下采样时隙l和下采样频带m上外推的装置。
16.根据权利要求13所述的装置,其特征在于所述外推器包括将所述多信道环绕音频信号的所述部分已知的空间协方差矩阵在下采样时隙l和下采样频带m上外推的装置。
17.根据权利要求15所述的装置,其特征在于所述估计器进一步包括用于在时域中内插所述矩阵Q并将下采样频带m映射到混合带k的装置。
18.根据权利要求16所述的装置,其特征在于所述估计器进一步包括用于在时域中内插所述矩阵Z并将下采样频带m映射到混合带k的装置。
19.根据权利要求11-15中任意一项所述的装置,其特征在于所述外推器包括用于通过使用最大熵原理通过如下步骤来执行外推的装置:
-选择外推相关量,使得它们在预先确定的约束下最大化协方差矩阵的行列式。
20.根据权利要求11-15中任意一项所述的装置,其特征在于其在移动终端的解码器中执行。
CN200780011012.2A 2006-03-28 2007-03-28 用于多信道环绕声音的解码器的方法和装置 Active CN101411214B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US74387106P 2006-03-28 2006-03-28
US60/743,871 2006-03-28
PCT/SE2007/050194 WO2007111568A2 (en) 2006-03-28 2007-03-28 Method and arrangement for a decoder for multi-channel surround sound

Publications (2)

Publication Number Publication Date
CN101411214A CN101411214A (zh) 2009-04-15
CN101411214B true CN101411214B (zh) 2011-08-10

Family

ID=38541553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780011012.2A Active CN101411214B (zh) 2006-03-28 2007-03-28 用于多信道环绕声音的解码器的方法和装置

Country Status (6)

Country Link
US (1) US8126152B2 (zh)
EP (1) EP2000001B1 (zh)
JP (1) JP4875142B2 (zh)
CN (1) CN101411214B (zh)
AT (1) ATE538604T1 (zh)
WO (1) WO2007111568A2 (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1946295B1 (en) * 2005-09-14 2013-11-06 LG Electronics Inc. Method and apparatus for decoding an audio signal
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
WO2007091850A1 (en) * 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
EP2054875B1 (en) * 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
KR101061129B1 (ko) * 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101335975B1 (ko) 2008-08-14 2013-12-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 복수의 오디오 입력 신호를 리포맷팅하는 방법
CN101673545B (zh) * 2008-09-12 2011-11-16 华为技术有限公司 一种编解码方法及装置
AU2010305717B2 (en) * 2009-10-16 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
EP2323130A1 (en) 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
EP2489038B1 (en) 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
CA2790956C (en) * 2010-02-24 2017-01-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
WO2011107951A1 (en) * 2010-03-02 2011-09-09 Nokia Corporation Method and apparatus for upmixing a two-channel audio signal
KR101666465B1 (ko) * 2010-07-22 2016-10-17 삼성전자주식회사 다채널 오디오 신호 부호화/복호화 장치 및 방법
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
KR20120038311A (ko) * 2010-10-13 2012-04-23 삼성전자주식회사 공간 파라미터 부호화 장치 및 방법,그리고 공간 파라미터 복호화 장치 및 방법
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
US8675881B2 (en) * 2010-10-21 2014-03-18 Bose Corporation Estimation of synthetic audio prototypes
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
KR20120128542A (ko) * 2011-05-11 2012-11-27 삼성전자주식회사 멀티 채널 에코 제거를 위한 멀티 채널 비-상관 처리 방법 및 장치
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
KR101647576B1 (ko) * 2012-05-29 2016-08-10 노키아 테크놀로지스 오와이 스테레오 오디오 신호 인코더
CN105191354B (zh) 2013-05-16 2018-07-24 皇家飞利浦有限公司 音频处理装置及其方法
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830336A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
PT3022949T (pt) 2013-07-22 2018-01-23 Fraunhofer Ges Forschung Descodificador de áudio multicanal, codificador de áudio de multicanal, métodos, programa de computador e representação de áudio codificada usando uma descorrelação dos sinais de áudio renderizados
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
WO2016003206A1 (ko) * 2014-07-01 2016-01-07 한국전자통신연구원 다채널 오디오 신호 처리 방법 및 장치
KR102144332B1 (ko) 2014-07-01 2020-08-13 한국전자통신연구원 다채널 오디오 신호 처리 방법 및 장치
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
BR112017006325B1 (pt) 2014-10-02 2023-12-26 Dolby International Ab Método de decodificação e decodificador para o realce de diálogo
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
CA2997334A1 (en) 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
AU2020291190B2 (en) * 2019-06-14 2023-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Parameter encoding and decoding
TW202316416A (zh) * 2020-10-13 2023-04-16 弗勞恩霍夫爾協會 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、或使用優化共變異數合成進行解碼的設備和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1200009A (zh) * 1997-05-20 1998-11-25 日本胜利株式会社 处理音频环绕信号的***
CN1281329A (zh) * 1999-05-17 2001-01-24 伯斯有限公司 定向解码
WO2004019656A2 (en) * 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US20050157883A1 (en) * 2004-01-20 2005-07-21 Jurgen Herre Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
WO2006027138A1 (de) * 2004-09-03 2006-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254239B2 (en) * 2001-02-09 2007-08-07 Thx Ltd. Sound system and method of sound reproduction
KR100522593B1 (ko) * 2002-07-08 2005-10-19 삼성전자주식회사 다채널 입체음향 사운드 생성방법 및 장치
EP1637355B1 (en) * 2004-09-17 2007-05-30 Bridgestone Corporation Pneumatic tire
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
JP5017121B2 (ja) * 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
TWI462086B (zh) * 2005-09-14 2014-11-21 Lg Electronics Inc 音頻訊號之解碼方法及其裝置
US8560303B2 (en) * 2006-02-03 2013-10-15 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
WO2008006108A2 (en) * 2006-07-07 2008-01-10 Srs Labs, Inc. Systems and methods for multi-dialog surround audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1200009A (zh) * 1997-05-20 1998-11-25 日本胜利株式会社 处理音频环绕信号的***
CN1281329A (zh) * 1999-05-17 2001-01-24 伯斯有限公司 定向解码
WO2004019656A2 (en) * 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US20050157883A1 (en) * 2004-01-20 2005-07-21 Jurgen Herre Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
WO2006027138A1 (de) * 2004-09-03 2006-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals

Also Published As

Publication number Publication date
JP4875142B2 (ja) 2012-02-15
JP2009531735A (ja) 2009-09-03
WO2007111568A3 (en) 2007-12-13
CN101411214A (zh) 2009-04-15
US20090110203A1 (en) 2009-04-30
EP2000001A2 (en) 2008-12-10
WO2007111568A2 (en) 2007-10-04
EP2000001B1 (en) 2011-12-21
ATE538604T1 (de) 2012-01-15
US8126152B2 (en) 2012-02-28

Similar Documents

Publication Publication Date Title
CN101411214B (zh) 用于多信道环绕声音的解码器的方法和装置
CN101411063B (zh) 滤波器自适应频率分辨率
CN106663433B (zh) 用于处理音频数据的方法和装置
CN101433099A (zh) 多声道环绕声的个性化解码
CN117560615A (zh) 目标空间音频参数和相关联的空间音频播放的确定
GB2572650A (en) Spatial audio parameters and associated spatial audio playback
Villemoes et al. MPEG Surround: the forthcoming ISO standard for spatial audio coding
US20220369061A1 (en) Spatial Audio Representation and Rendering
TWI745795B (zh) 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
CN112567765B (zh) 空间音频捕获、传输和再现
JP2023536156A (ja) オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム
US20210319799A1 (en) Spatial parameter signalling
TW202230336A (zh) 對多個音頻對象進行編碼的設備和方法、或使用兩個以上之相關音頻對象進行解碼的設備和方法
JP2024512953A (ja) 空間音声ストリームの結合
US11096002B2 (en) Energy-ratio signalling and synthesis
TWI804004B (zh) 在降混過程中使用方向資訊對多個音頻對象進行編碼的設備和方法、及電腦程式
Wu et al. Perceptual Audio Object Coding Using Adaptive Subband Grouping with CNN and Residual Block
JP2023541250A (ja) パラメトリックに符号化されたオーディオの処理

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant