CN103493128B

CN103493128B - 用于执行多信道音频信号的适应性下混和上混的方法及设备

Info

Publication number: CN103493128B
Application number: CN201280009570.6A
Authority: CN
Inventors: 大卫·维雷特; 亚努什·克雷萨; W·巴斯蒂安·柯雷金
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2012-02-14
Filing date: 2012-02-14
Publication date: 2015-05-27
Anticipated expiration: 2032-02-14
Also published as: WO2013120510A1; US20140355767A1; EP2815399A1; US9514759B2; KR20140130464A; JP2015507228A; KR101662680B1; EP2815399B1; JP5930441B2; CN103493128A

Abstract

一种用于执行包含多个输入信道的多信道音频信号的适应性下混的方法及设备，其中所述输入信道的信号适应性变换是通过将所述输入信道与下混分块矩阵相乘来执行，所述下混分块矩阵包含用于提供后向兼容的主信道的集合的固定块，以及用于提供次级信道的集合的信号适应性块。

Description

用于执行多信道音频信号的适应性下混和上混的方法及设备

技术领域

本发明涉及用于执行多信道音频信号的适应性下混以及随后的上混的方法。具体而言，所述方法涉及在多信道音频编码或空间音频编码中所普遍使用的下混及上混操作。

背景技术

本发明涉及用于执行多信道音频信号的适应性下混以及随后的上混的方法。具体而言，所述方法涉及在多信道音频编码或空间音频编码中所普遍使用的下混以及上混操作。

常规的适应性下混方法使用与信号相关的下混变换。视信号的具体实现方式而定，从可用的下混变换的集合中选择出最有效的下混变换。例如，在立体声编码的例子中，可从包含两个不同的下混变换的组中选择出立体声编码方案的下混变换，所述两个不同的下混变换包含标识变换（也称作LR编码）以及生成输入信道的总和（也称作M信道/中间信道）以及差值（也称作S信道/边信道）的变换。

这种常规的编码方案通常被称作M/S编码或中间/边编码。另外，由于可用的变换的集合是有限的，这种常规M/S编码仅提供了有限的率失真增益。此外，因为使用了闭环编码，所以相关的复杂性也会较大。

M/S编码的这些缺点可通过下混方法来解决，在该下混方法中基于信道间协方差矩阵来计算下混变换，该方法描述于2006年9月28日在加拿大的蒙特利尔进行的第九届国际数字音频效果会议（the9th InternationalConference on Digital Audio Effects）的会刊中的M·白里安（M.Briand）、D·维瑞特（D.Virette）以及N·马丁（N.Martin）的“基于主要分量分析的立体声音频的参数编码（Parametric Coding of Stereo Audio Based onPrincipal Component Analysis）”中。但是，此方法仅限于立体声信号并且不能适用于更大数量的输入信道。关于更大数量的信道的扩展方法描述于2003年1月的欧洲信号处理学会的学刊《应用信号处理》（EURASIPJournal on Applied Signal Processing）的第2003卷，第980到992页的D·杨（D.Yang）、H·爱（H.Ai）、C·基利亚凯基斯（C.Kyriakakis）以及C.-C·J·郭（C.-C.J.Kuo）的“多信道音频源的渐进式语义丰富编码（ProgressiveSyntax-Rich Coding of Multichannel Audio Sources）”中。但是此方法不允许生成后向兼容的下混。

与使用固定的下混变换集合相关联的另一个缺点是对于一般情况难以找到适当的下混变换集合。在2008年1月的IEEE学报《音频、语音以及语言处理学报》（IEEE Transactions on Audio,Speech and LanguageProcessing）的第16卷，第1期，第83页到第93页的G·豪索（G.Hotho）、L·F·威利茅斯（L.F.Villemoes）以及J·布瑞巴特（J.Breebaart）的“后向兼容多信道音频编解码器（A Backward-Compatible Multichannel AudioCodec）”中提出了其他的常规下混变换。此常规方法通过将矩阵下混变换与从主信道中预测次级信道相结合的方法来达成后向兼容性。此即所用参数为预测参数的参数编码方案。但是，这个由豪索等人所描述的常规方法仅在信道数量较少的情况下是有效的。此外，这个常规的下混方法的编码性能就率失真性能而言并非最优。

常规的适应性下混方法或是支持任意数量的信道，但是无法保留原始多信道音频信号的空间特性，也就是说无法达成后向兼容性；或是所述方法在所生成的下混中能够保留原始多信道音频信号的空间特性，但是仅可用于音频信道数量有限的多信道音频信号。因此，需要能够用于执行多信道音频信号的适应性下混的方法及设备，该方法及设备允许保留原始多信道音频信号的空间特性并且同时提供了后向兼容性。

发明内容

根据本发明的第一方面的第一实施方案，提供一种用于执行包含多个输入信道的多信道音频信号的适应性下混的方法，其中输入信道的信号适应性变换是通过将输入信道与下混分块矩阵相乘来执行，所述下混分块矩阵包含用于提供后向兼容的主信道的集合的固定块，以及用于提供次级信道的集合的信号适应性块。

在本发明的第一方面的第一实施方案的第二可能实施方案中，根据输入信道的信道间协方差来调整下混分块矩阵的信号适应性块。

根据本发明的第一方面的方法的第二实施方案的另外可能的第三实施方案中，借助于辅助正交变换来计算用于输入信道的信道间协方差的辅助协方差矩阵。

根据本发明的第一方面的方法的第三实施方案的另外可能的第四实施方案中，基于所述固定块来计算所述辅助正交变换，以所述固定块作为格拉姆－施密特（Gram-Schmidt）方法的初始值。

根据本发明的第一方面的方法的第三实施方案的另外可能的第五实施方案中，针对所述附属协方差矩阵的块计算卡-洛变换矩阵（Karhunen-Loeve-transformation matrix）。

根据本发明的第一方面的方法的第五实施方案的另外可能的第六实施方案中，基于计算出的卡-洛变换矩阵来计算下混分块矩阵的信号适应性块。

根据本发明的第一方面的方法的第一至第六实施方案的另外可能的第七实施方案中，通过单个传统编码器对后向兼容的主信道进行编码以生成后向兼容的传统主比特流。

根据本发明的第一方面的方法的另外可能的第八实施方案中，通过传统编码器对每个后向兼容的主信道进行编码以生成后向兼容的传统主比特流。

根据本发明的第一方面的方法的第七或第八实施方案的另外可能的第九实施方案，通过对应的次级信道编码器对每个次级信道进行编码。

根据本发明的第一方面的方法的第七或第八实施方案的另外可能的第十实施方案中，通过共同多信道编码器对次级信道进行编码以生成针对相应次级信道的次级比特流。

根据本发明的第一方面的方法的第三实施方案的另外可能的第十一实施方案，对信道间协方差矩阵或辅助协方差矩阵进行量化并且将其与次级信道比特流一起传输。

根据本发明的第一方面的方法的第九或第十实施方案的另外可能的第十二实施方案中，将主比特流与次级比特流一起传输到远端解码器。

根据本发明的第一方面的方法的第十二实施方案的另外可能的第十三实施方案中，远端解码器包含单个传统解码器，所述传统解码器用于对后向兼容的主比特流进行解码以重建主信道。

根据本发明的第一方面的方法的第十二实施方案的另外可能的第十四实施方案中，远端解码器包含对应数量的传统解码器，所述对应数量的传统解码器用于对后向兼容的主比特流进行解码以重建主信道。

根据本发明的第一方面的方法的第十二实施方案的另外可能的第十五实施方案中，远端解码器包含次级信道解码器，所述次级信道解码器用于对次级比特流进行解码以重建次级信道。

根据本发明的第一方面的方法的第十二到第十五实施方案的另外可能的第十六实施方案中，将关于比特流的类型的信号发送到远端解码器。

根据本发明的第一方面的方法的第十六实施方案的另外可能的第十七实施方案中，所述类型的信号通过隐式信号，借助于在至少一个比特流中传输的辅助数据来执行。

根据本发明的第一方面的方法的第十六实施方案的另外可能的第十八实施方案中，所述类型的信号通过显式信号，借助于指示相应比特流的类型的标志来执行。

根据本发明的第一方面的方法的另外可能的第十九实施方案中，数个输入信道的信号适应性变换通过将输入信道与下混分块矩阵相乘来执行以提供后向兼容的主信道的集合以及辅助信道的集合。

根据本发明的第一方面的方法的第十九实施方案的另外可能的第二十实施方案中，将卡-洛变换（KLT）应用到所述辅助信道的集合上以提供次级信道的集合。

根据本发明的第二方面，提供一种用于执行所接收的比特流的适应性上混的方法，

其中由传统解码器对后向兼容的主比特流进行解码以重建对应的主信道，并且

其中由次级信道解码器对次级比特流进行解码以重建对应的次级信道，

其中解码器比特流的信号适应性逆变换借助于上混分块矩阵来执行以重建包含多个输出信道的多信道音频信号。

在本发明的第二方面的第一可能实施方案中，根据输入信道的经解码的信道间协方差来调整上混分块矩阵的信号适应性块。

根据本发明的第二方面的方法的第一实施方案的另外可能的第二实施方案中，对用于输入信道的信道间协方差的辅助协方差矩阵进行了解码。

根据本发明的第二方面的方法的第二实施方案的另外可能的第三实施方案中，基于所述固定块来计算辅助正交逆变换，以所述固定块作为格拉姆－施密特方法的初始值。

根据本发明的第二方面的方法的第二实施方案的另外可能的第四实施方案中，针对所述辅助协方差矩阵的块计算卡-洛变换矩阵。

根据本发明的第二方面的方法的第四实施方案的可能的第五实施方案中，基于计算出的卡-洛变换矩阵来计算上混分块矩阵的信号适应性块。

根据本发明的第三方面，提供一种用于执行多信道音频信号的适应性下混的下混设备，所述多信道音频信号包含多个输入信道，

所述下混设备包含：

信号适应性变换单元，其用于执行所述输入信道的信号适应性变换，方法是将输入信道与下混分块矩阵相乘，所述下混分块矩阵包含用于提供后向兼容的主信道的集合的固定块，并且所述下混分块矩阵包含用于提供次级信道的集合的信号适应性块。

根据第三方面的设备的可能实施方案用于执行根据第一方面的实施方案中的一个实施方案、一些实施方案或所有实施方案。

根据本发明的第四方面，提供包含根据本发明的第三方面的下混设备的编码设备，并且所述编码设备另外包含

至少一个传统编码器，其用于对后向兼容的主信道进行编码以生成至少一个后向兼容的主比特流，并且包含

至少一个次级信道编码器，其用于对次级信道进行编码以生成至少一个次级比特流。

根据本发明的第五方面，提供一种上混设备，其用于执行经解码的比特流的适应性上混，所述经解码的比特流包含经解码的主比特流和经解码的次级比特流，

所述下混设备包含：

信号适应性重变换单元，其用于执行经解码的比特流的信号适应性逆变换，方法是将经解码的比特流与上混分块矩阵相乘，所述上混分块矩阵包含用于经解码的主比特流的固定块以及用于经解码的次级比特流的信号适应性块。

根据本发明的第六方面，提供包含根据本发明的第五方面的上混设备的解码设备，并且所述解码设备另外包含

至少一个传统解码器，其用于对至少一个所接收的后向兼容主比特流进行解码以生成供应到所述上混设备的至少一个经解码的主比特流，并且包含

至少一个次级信道解码器，其用于对至少一个所接收的次级比特流进行解码以生成供应到所述上混设备的至少一个经解码的次级比特流。

根据第六方面的设备的可能实施方案用于执行根据第二方面的实施方案中的一个实施方案、一些实施方案或所有实施方案。

根据本发明的第七方面，提供音频***，其包含

根据本发明的第四方面的至少一个编码设备。以及

根据本发明的第六方面的至少一个解码码设备，

其中所述编码设备和所述解码设备经由网络相互连接。

根据本发明的第八方面，提供包含程序代码的计算机程序，当所述计算机程序在计算机、处理器、微控制器或其他任何可编程的装置上运行时，所述程序代码用于执行根据上述方法的各方面或其实施方案中的任一者的方法。

上述各方面及其实施方案可以在硬件、软件或者在硬件和软件的任何组合中实施。

附图说明

在下文中，将参考附图对本发明的不同方面的可能实施方案进行更加详细的描述。

图1所示为根据本发明的第七方面的音频***的可能实施方案的方框图，所述音频***包含根据本发明的第四和第六方面的至少一个编码设备以及至少一个解码设备；

图2所示为根据本发明的第三方面的下混设备的可能实施方案的方框图；

图3所示为根据本发明的第三方面的下混设备的另外的可能实施方案的方框图；

图4所示为根据本发明的一个方面的由下混设备执行的示例性后向兼容下混的图解；

图5所示为根据本发明的第七方面的音频***的示例性实施方案的图解；

图6、图7所示为根据本发明的一个方面的编码方法的示例性实施方案的流程图；

图8所示为根据本发明的一个方面的解码方法的示例性实施例的流程图。

具体实施方式

如在图1中所见，在所示的实施方案中，根据本发明的一个方面的音频***1可包含可经由网络或信号线4连接的至少一个编码设备2以及至少一个解码设备3。在图1所示的实施方案中，编码设备2可包含信号输入端5，可将多信道音频信号施加给所述信号输入端5。此多信道音频信号可包含M个输入信道。在图1所示的示例性实施方案中，将输入的多信道音频信号施加给预处理块6，所述预处理块6用于预处理所接收的多信道音频信号。在可能的实施例中，预处理块6可在所接收的多信道音频信号的输入信道间执行延迟对准和/或在所接收的多信道音频信号的输入信道间执行时频变换。预处理块6将预处理的多信道音频信号供应到下混设备7，所述下混设备7适配成或者配置成执行所接收的预处理的多信道音频信号的适应性下混。在一个实施例中，将包含M个输入信道的多信道音频信号直接施加给下混设备7而不执行任何预处理。在时频变换的情况下，针对输入多信道音频信号的每个子频带，分别提供图1所示的下混设备7以及上混设备11。可将子频带定义为有限频带音频信号，其可由频谱系数或抽取的时域音频信号来表示。子频带处理就性能而言具有优势，因为下混块和上混块的执行是在对应于有限频率频带的有限频带信号上。

下混设备7包含信号适应性变换单元，其用于执行多信道音频信号的所接收的输入信道的信号适应性变换，方法是将输入信道与下混分块矩阵相乘，所述下混分块矩阵包含用于提供后向兼容的主信道的集合的固定块，并且所述下混分块矩阵包含用于提供次级信道的集合的信号适应性块。由下混设备7所执行的下混操作可在下混域中生成M个信道，所述M个信道包含两个组，即有N个后向兼容主信道的第一组以及有M-N个次级信道的组，其中1≤N≤M且3≤M。通常情况下，所提供的后向兼容主信道包含的能量大于次级信道所包含的能量。这是由下混设备7所采用的下混方法所达成的能量集中所引起的。

如在图1中所见，编码设备2另外包含一个用于对N个后向兼容信道进行编码的传统编码器8，或替代地包含N个后向兼容信道编码器或传统编码器8，其中每个后向兼容主信道由对应的传统编码器8进行编码以生成后向兼容的传统主比特流，如同图1所描绘，所述比特流可经由数据网络4传输到解码设备3中。编码设备2另外包含（M-N个）次级信道编码器9。下混设备7输出的每个次级信道由对应的次级信道编码器9进行编码以生成对应的次级比特流，所述比特流可经由数据网络4传输到解码设备3中。在一个实施例中，可由共同多信道编码器9对所有次级信道进行编码以生成针对每个次级信道的次级比特流。如图1所示，所生成的主比特流以及次级比特流经由信号线或数据网络4传输到远端解码设备3。除了次级信道以外，还可对信道间协方差矩阵或辅助协方差矩阵的估计进行量化和传输。

如图1所示，由单个传统编码器8对后向兼容主信道进行编码，或替代地由N个后向兼容的信道编码器在高保真度下对后向兼容主信道进行编码，以向对应的传统解码器提供后向兼容性。由次级信道编码器9对次级信道进行编码，其中通常使用的是参数空间音频编码。还可能的是在特定实施方案中，在音频***1中将次级信道丢弃。在可能的实施例中，可按照重要程度对次级信道进行排序。取决于可用的比特率，编码器设备2可决定是否丢弃一些不太重要的次级信道。

在可能的情境中，下混信号的后向兼容主信道可促成仅使用N个主信道的播出，所述播出也称作传统播出。在这种情况下，后向兼容主信道能够保留多信道音频信号的原始M个输入信道的一些空间性质，从而通过使用传统N个信道播出来呈现具有感知意义的重建。

如在图1中所见，音频***1包含至少一个解码设备3，所述解码设备3经由数据网络4接收后向兼容主比特流和次级比特流。根据本发明的第六方面的解码设备3包含N个传统解码器10，所述N个传统解码器10对所接收的后向兼容主比特流进行解码以生成被供应到解码设备3的上混设备11的经解码的主比特流。所述解码设备3可包括M-N个次级信道解码器12，所述M-N个次级信道解码器12用于对所接收的次级比特流进行解码以生成被供应到上混设备11的经解码的次级比特流，或者地如图1所描绘所述解码设备3只包含一个次级信道解码器12以对M-N个次级比特流进行解码。所述上混设备11用于执行经解码的比特流的适应性上混。所述上混设备11可包含信号适应性重变换单元，其用于执行经解码的比特流的信号适应性逆变换，方法是将经解码的比特流与上混分块矩阵相乘，所述上混分块矩阵包含用于经解码的主比特流的固定块以及用于经解码的次级比特流的信号适应性块。在图1所示的实施方案中，将上混设备11的输出信号供应到后处理块14，在后处理块14处可执行上混信号的后处理，例如包括时频逆变换及/或对相应输出信号的延迟的合成。解码设备3包含信号输出端13以用于输出经重建的信号。

如在图1中所见，后向兼容主比特流以及次级比特流经由数据传输媒介或数据网络4被传输。数据网络4可由IP网络形成。在一个可能的实施方案中，比特流可以相同的数据包或独立的数据包被传输。

在一个可能的实施方案中，每个比特流可包含相应的比特流的类型的指示。根据标准ISO/IEC11172-3，一个可能的比特流类型为MP3比特流。其它的比特流类型为在标准ISO/IEC14496-3中所定义的高级音频编码（ACC）比特流，或OPUS比特流。后向兼容主比特流可为这些传统类型中的一种。MP3和ACC被广泛采用并且现有的传统解码器可对后向兼容主比特流进行解码。次级比特流也可以是传统类型的，但是也可以是未来或应用个体类型的。

在一个可能的实施方案中，将关于相应比特流的类型的信号发送到解码设备3的远端解码器10、12。在一个可能实施例中，该类型信令通过隐式信号通过在至少一个比特流中传输的辅助数据来执行。在一个实施例中，该信号通过显式信号通过指示相应比特流类型的标志来执行。在一个可能的实施例中，有可能在包含隐式信号的第一信号选项与包含显式信号的第二信号选项之间进行切换。在隐式信号的一种可能实施方案中，一个标志可指示至少一个后向兼容主比特流的辅助数据中的次级信道信息的存在。传统解码器10并不检查标志是否存在，而是仅对后向兼容主信道进行解码。例如，次级信道的比特流的信号可包括在AAC比特流的辅助数据中。此外，次级比特流也可包括在AAC比特流的辅助数据中。在该情况下，传统AAC解码器仅对比特流的后向兼容部分进行解码并且丢弃辅助数据。根据本发明的一个实施方案的非传统类型的解码器可检查此类标志的存在，并且如果在所接收的比特流中存在该标志，那么非传统解码器会重建多信道音频信号。

在显式信号的可能实施方案中，可使用一种标志，该标志指示通过根据本发明的一个实施方案的非传统类型的次级信道编码器9获得的根据本发明的一个实施方案的次级比特流。解码设备3的传统解码器不能够对所述比特流进行解码，因为传统解码器无法解译此标志。然而，根据本发明的一种实施方案的解码器能够解码此标志，并且能够决定是仅对后向兼容部分进行解码还是对完整的多信道音频信号进行解码。

根据下文可了解此类后向兼容性的益处。根据本发明的一个实施方案的移动通信终端可决策对后向兼容部分进行解码，以节省所搭载的电池的电力，这是因为复杂度负荷较低。此外，视呈现***而定，解码器可决定对比特流中的哪一部分进行解码。例如，对于采用耳机进行呈现，所接收信号的后向兼容部分是充足的，当在所述终端连接到例如具有多信道呈现能力的充电站的情况下才对多信道音频信号进行解码，。

由根据本发明的音频***1所提供的后向兼容性所提供的主要优点是能够在原本不具有呈现多信道音频信号的能力的传统解码器10上对后向兼容部分直接进行解码。此外，仅整合有传统解码器10的常规设备可对后向兼容音频信号直接进行解码而不需要执行从一种编码格式到另一种编码格式的编码转换。这有助于部署新的编码格式，并且减少了提供后向兼容性的复杂度。

后向兼容主信道是以后向兼容的方式生成的。这意味着可使用常规的传统音频编码器8对主信道进行编码。例如，可使用现有的立体声编码器对具有后向兼容下混的立体声主信道进行编码。可将描述后向兼容主信道的比特流与呈现原始多信道音频信号的重建的比特流分开。例如，可使用常规的音频解码器10通过从完整的比特流中剥离位元来对多信道音频信号进行重建。可使用比原始的输入信道数目M更少的信道数目来播出所重建的主信道。例如，可使用立体声扬声器来播出五信道信号。

根据本发明的方法所使用的下混变换方法的后向兼容性的实际意义在于后向兼容主信道是按照受到限制的方式生成的。这种限制是由于传统编码器8的性质并且是由于对后向兼容主信道的特定组成的要求，所述后向兼容主信道是通过将原始多信道信号的信道组合起来获得的。

在一个可能的实施例中，可使用音频编码器（单声道、立体声或多声道）对后向兼容主信道进行编码，所述音频编码器对后向兼容的下混的N个主信道提供传统主比特流。次级信道编码器9生成比特流的另一部分，该部分可被解码设备3所使用以重建多信道音频信号。可使用单信道音频编码器9对每个次级信道进行编码。替代地，可对次级信道使用共同多信道编码器。在可能的实施方案中，多信道音频编码器可用于波形编码方案，所述波形编码方案用于对次级信道的波形进行准确的编码。在另外的替代实施例中，次级信道编码器9可使用次级信道的参数表示。例如，可由次级信道编码器9对次级信道的能量时间以及频率包络进行简单的编码。在该情况下，次级信道解码器12可使用次级信道的特性，所述次级信道已解除相关以人工地生成经解码的次级信道。

图2图示了根据本发明的一个方面的具有下混设备7的编码设备2的可能实施方案。下混设备7接收包含M个输入信道的多信道音频信号。下混设备7包含信号适应性变换单元，该信号适应性变换单元用于执行M个输入信道的信号适应性变换，方法是将输入信道与下混分块矩阵相乘。此下混分块矩阵可包含固定块以提供一组后向兼容主信道并且包含信号适应性块以提供一组次级信道。可将由下混设备7所提供的N个后向兼容主信道供应到N个信道的对应后向兼容信道编码器，或者替代地供应到N个后向兼容信道编码器8。可将M-N个次级信道供应到包含M-N个次级信道编码器9的次级信道编码器集合。

图3所示为下混设备7的另外的可能实施方案。在所示的实施方案中，下混设备7包含任意的MxM酉下混分块7A。M个输入信道的信号适应性变换是通过将输入信道与下混分块矩阵相乘来执行以提供向下兼容主信道的集合以及辅助信道的集合。在块7B中将卡-洛变换（KLT）应用到辅助信道的集合上以提供次级信道的集合。

在下文中，将参考说明性实例对下混操作进行描述。在此示例性实例中，M个输入信道中M=3，而N个后向兼容主信道中N=1的。因此，在此实例中，多信道音频信号是由三信道音频信号执行的。

用于执行包含M个输入信道的多信道音频信号的适应性下混的方法，

其中所述输入信道的信号适应性变换是通过将输入信道与下混分块矩阵W^T相乘来执行，该下混分块矩阵W^T包含用于提供一组N个后向兼容的主信道的固定块W_O，以及用于提供一组M-N个次级信道的信号适应性块W_x。

三信道输入信号的样本可由具体化为x∈R³的随机矢量X来表示。可将信号分为块，从而可将信号视作是固定的，并且因此，对于每一个信号块，可通过计算样本信道间协方差矩阵对信道间协方差矩阵Σ_X＝E{XX^T}进行估计。在不存在后向兼容性限制的情况下，下混方法可在下混信号的信道中带来最大的能量集中。可对能量集中进行评估，例如，通过计算编码增益。如果能量集中较大的话，那么对应的编码增益也会较大。较大的编码增益意味着源信号编码的效率并且因此有助于对下混的主信道和次级信道进行的编码。最优的能量集中变换将Σ_X对角化，即，可将协方差矩阵分解为Σ_X＝UΛU^T，其中U是酉变换（即，UU^T＝I）并且Λ是对角矩阵。在这种情况下，变换U^T形成KLT矩阵，并且生成了对角协方差矩阵，这是因为Λ＝U^TΣ_XU。如果使用KLT矩阵来生成下混，那么下混信号Y的对应矢量样本的计算如下：

\begin{matrix} [\begin{matrix} y_{0} \\ y_{1} \\ y_{2} \end{matrix}] & = & [\begin{matrix} \overset{&RightArrow;}{u_{0}^{T}} \\ \overset{&RightArrow;}{u_{1}^{T}} \\ \overset{&RightArrow;}{u_{2}^{T}} \end{matrix}] & \begin{matrix} [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \end{matrix}] \end{matrix} \\ Y & U^{T} & X \end{matrix} . - - - (1)

信道间协方差矩阵Σ_X的估计被逐帧更新，这意味着最优变换U^T随时间而变化。如果例如y₀是单声道下混的样本，并且与原始信号X的关系在时间上并不固定，那么可能发生的是下混的感知质量随时间而改变（确切地说在这种情况下是由于建模误差的存在）。矢量形成了基于信号统计而优化的在R³空间中的基底。

在为获得较好质量的下混信号而实施的一个可能实施方案中，人们可构建包含一些固定矢量的基底，所述基底可用于获得（主信道）质量稳定的下混信道，并且一些非固定矢量可利用信号的统计并且提供最优的总体能量集中。在图4中描述了此类情境。在不加限制的情况下，基底由给出。目标是为了找到另一个基底其中矢量是任意固定的。随后可获得下混信号，其形式为从而生成了质量稳定的下混信号。可将此方法广义地应用到N信道下混的情况中，其中可任意地选择N个正交矢量以生成空间性质稳定的N信道下混信号。

可根据本发明的一个实施方案来定义用于设计变换的适当的标准。合理的标准是编码增益，可通过改进能量集中将编码增益最大化。如果变换由矩阵W给出，那么经变换信号的信道间协方差矩阵由Σ_Y＝WΣ_XW^T给出。通常情况下，矩阵W并不是KLT矩阵，并且信道间协方差矩阵Σ_Y并不是对角的。然而，由于变换矩阵W被限定为是酉变换，可使用由给出的对角元素Σ_Y来测量能量集中的表现。编码增益G定义为

G = \frac{\frac{1}{M} Σ_{m = 0}^{M - 1} {σ_{Y}^{2}}_{m}}{{(Π_{m = 0}^{M - 1} {σ_{Y}^{2}}_{m})}^{\frac{1}{M}}} . - - - (2)

事实上（2）式的分子并不取决于所使用的特定的酉变换。可以轻易地发现这一点，因为Tr{WΣ_YW^T}＝Tr{WW^TΣ_Y}＝Tr{Σ_Y}。因此，如果（2）式的分母是最小化的，那么编码增益G将是最大化的。

对于由生成样本x∈R^M的声源X表示的多信道信号进行的编码而言，对信道间协方差矩阵Σ_X＝E{XX^T}的估计是可用的。目标就是找到变换矩阵W，使得在W中的一些矢量受到限制的前提下，由方程式（2）给出的编码增益G为最大化的。因此可以考虑正交变换。

W＝[W₀|W_X]， (3)

其中W₀∈R^M×N包含N个正交矢量，所述N个正交矢量是根据可产生质量稳定的下混的任何任意的方法来选择的。另一个块W呈矩阵形式（其中W_X∈R^M×(M-N)），该矩阵包含M-N个剩余的基底矢量，所述基底矢量用于获得针对给定的协方差矩阵Σ_X的最优能量集中。设计的问题在于在W₀中所指定的变换的限制部分给定的情况下确定最优W_X。

为了提供找到W_X的算法，有可能引入辅助正交变换V

V＝[W₀|V_X]， (4)

其中任意地选择V_X∈R^M×(M-N)，使得VV^T＝I。由于正交变换V必须是酉变换，所以W₀和V_X的列必须是正交的。存在可以生成满足此要求的V_X的若干方法。例如，这些方法中的一个涉及格拉姆－施密特方法，所述方法起始于W₀中的基底矢量，并且可以应用到R^M中的任何矢量上。

对于经变换的信号Σ_Y的协方差矩阵

Σ_Y＝W^TΣ_XW (5)

＝W^TVV^TΣ_XVV^TW， (6)

可使用V是酉变换的事实条件。通过引入V，额外的结构被强加到设计问题中。因此

其中在除对角线以外的部分上为零矩阵的结构是由于V_X的列与W₀是正交的这一事实。可以表明，如果选择使其成为Σ_V内的对应分块矩阵的KLT，那么方程式（2）中的编码增益G是最大化的。令Σ_V成为以下形式

Σ_{V} = [\begin{matrix} {[Σ_{V}]}_{N \times N}^{A} & {[Σ_{V}]}_{N \times (M - N)}^{C} \\ {[Σ_{V}]}_{(M - N) \times N}^{B} & {[Σ_{V}]}_{(M - N) \times (M - N)}^{D} \end{matrix}] . - - - (8)

因为是对进行对角化的正交变换，所以可借助于在块上执行的KLT来找到矩阵Q。由于V和Σ_X已知，所以变换W的最优块W_X由下式给出

W_{X} = {(V_{X}^{T} Q)}^{T} . - - - (9)

如同图3所示可非常有效率地实施所提出的方法。生成主信道和次级信道的方法可按两个阶段来执行。第一阶段7A包含借助于M×M酉矩阵将酉变换应用到多信道信号上。所述变换带来了N个主信道以及M-N个辅助信道。第二阶段7B涉及在辅助信道的子空间中的KLT的计算。KLT变换将辅助信道变换为经编码的次级信道。阶段7A中的第一变换可以是预先计算的。该KLT是通过对信道间协方差矩阵进行的变换，并借助于第一变换并且是通过选择对应于辅助信道的块来获得。

输入的M信道信号的信道间协方差矩阵Σ_X可以用作估计或作为边信息来传输，。为生成后向兼容下混W^T＝[W₀|W_X]^T或上混W＝[W₀|W_X]而提出了一些方法，该后向兼容下混W^T＝[W₀|W_X]^T或上混W＝[W₀|W_X]包括来自包括M个信道的输入信号的N个后向兼容主信道，如图6所示，这些方法包括以下编码步骤。

在步骤S61中获得对信道间协方差Σ_X的估计。

在步骤S62中选择下混变换W₀中的预先定义的限制部分。

在步骤S63中对包括块W₀的任意M×M变换V进行计算。

在步骤S64中对辅助协方差矩阵V^TΣ_XV进行计算。

在步骤S65中针对辅助协方差矩阵的块（参见方程式（8））来计算KLT矩阵Q。

在步骤S66中根据方程式（9）对块W_X进行计算。

如图7所示，根据一些实施方案可实施编码算法。

在步骤S71中获得对信道间协方差Σ_X的估计。

在步骤S72中选择下混变换W₀的预先定义的限制部分。

在步骤S73中计算包括块W₀的任意M×M变换V。

在步骤S74中，借助于在步骤S73中所获得的变换，生成一组N个主信道以及一组M-N个辅助信道。

在步骤S75中基于已知的V和Σ_X，计算辅助信道的子空间的信道间协方差矩阵。

在步骤S76中，基于在步骤S75中所获得的信道间协方差矩阵，计算针对辅助信道的子空间的KLT。

在步骤S77中，借助于在步骤S76中的所计算的产生KLT，对在步骤S74中所计算的辅助信道进行变换，从而生成一组M-N个辅助信道。

如图8所示，根据一个可能的实施方案可实施解码方法。

在步骤S81中获得作为边信息传输的信道间协方差矩阵Σ_X的估计。

在步骤S82中对下混变换W₀的预先定义的限制部分进行选择，使其与在下混方法中所使用的限制部分相同。

在步骤S83中计算包括块W₀的逆M×M变换。

在步骤S84中，对表示一组N个主信道以及M-N个次级信道的比特流进行解码并且执行其重建。

在步骤S85中，计算针对辅助信道的子空间的信道间协方差矩阵。此步骤S85是可能的，因为Σ_X以及在步骤S82中所获得的变换是已知的。

在步骤S86中，基于在步骤S85中所获得的信道间协方差矩阵，计算针对辅助信道的子空间的逆KLT。

在步骤S87中，借助于在步骤S85中的所计算的逆KLT，对在步骤S84中所重建的次级信道进行变换，从而生成一组M-N个辅助信道。

在步骤S88中，使用在步骤S83中所计算出的变换以及在步骤S83中所获得的经重建的主信道以及在步骤S87中获得的经重建的辅助信道，计算上混。

在四声道声音的情况下，可通过数字实例对根据本发明的方法的应用进行描绘。对于图5所示的播出设置，扬声器设置包括四个扬声器：左前（FL）、右前（FR）、左后（RL）以及右后（RR）。目标是找到促进编码效率并且提供后向兼容立体声下混的适应性下混方法。在这种情况下，通过对FR以及RR进行平均从而生成新的右信道（R）来获得合理的立体声下混。通过对FL和RL信道进行平均来获得立体声下混的左信道（L）。在这种情况下，下混矩阵的限制部分包含两个矢量

\frac{1}{2} {[\begin{matrix} \sqrt{2} & \sqrt{2} & 0 & 0 \end{matrix}]}^{T}

以及

\frac{1}{2} {[\begin{matrix} 0 & 0 & \sqrt{2} & \sqrt{2} \end{matrix}]}^{T} .

在选择出这些矢量之后，就完成了编码算法的第一步骤。假定原始输入信道是按照以下顺序的提供的：FL、RL、FR、RL。在此实例中，假定用于所考虑的信号的信道间协方差矩阵Σ_X具有以下形式

Σ_{X} = [\begin{matrix} 0.6645 & 0.5991 & 0.7705 & 0.4253 \\ 0.5991 & 0.8824 & 1.1504 & 0.2444 \\ 0.7705 & 1.1504 & 2.0479 & 0.3622 \\ 0.4253 & 0.2444 & 0.3622 & 0.3707 \end{matrix}] - - - (10)

由于该变换的限制部分是已知的，所以可使用格拉姆－施密特方法对非限制部分进行计算。下混类似于式（11）中所给出的矩阵。

V^{T} = [\begin{matrix} 0 & 0 & 0.7071 & 0.7071 \\ 0.7071 & 0.7071 & 0 & 0 \\ - 0.1623 & 0.1623 & - 0.6882 & 0.6882 \\ 0.6882 & - 0.6882 & - 0.1623 & 0.1623 \end{matrix}] - - - (11)

可以容易地计算出协方差矩阵V^TΣ_XV。协方差矩阵的2×2块的形式如下：

{[Σ_{V}]}_{2 \times 2}^{D} = [\begin{matrix} 0.6818 & 0.4011 \\ 0.4011 & 0.3351 \end{matrix}] . - - - (12)

的KLT采用以下形式：

Q = [\begin{matrix} 0.8322 & - 0.5544 \\ 0.5544 & 0.8322 \end{matrix}] . - - - (13)

可从式（9）中计算出变换矩阵W的被调适部分W_x，其形式为：

W_{X} = {[\begin{matrix} 0.2408 & - 0.2408 & - 0.6648 & 0.6648 \\ 0.6648 & - 0.6648 & 0.2408 & - 0.2408 \end{matrix}]}^{T} . - - - (14)

下混W^T的最终的变换采用以下形式：

W^{T} = [\begin{matrix} 0 & 0 & 0.7071 & 0.7071 \\ 0.7071 & 0.7071 & 0 & 0 \\ 0.2408 & - 0.2408 & - 0.6648 & 0.6648 \\ 0.6648 & - 0.6648 & 0.2408 & - 0.2408 \end{matrix}] . - - - (15)

由式（11）给出的下混矩阵提供了非适应性下混方法，所述了非适应性下混方法提供了后向兼容立体声下混。借助于编码增益G所评估的此下混的性能值是8.0。在所考虑的实例中，生成由方程式（15）所给出的后向兼容下混WT矩阵的所提出的下混方法产生了26.6的编码增益，与非适应性下混方法相比，这是非常大的改进。在采用变换（15）之后，可对信道间协方差进行验证，方法如下：

W^{T} Σ_{X} W = [\begin{matrix} 1.5715 & 1.2953 & - 0.8223 & 0.1920 \\ 0.2953 & 1.3725 & - 0.6253 & 0.1106 \\ - 0.8223 & - 0.6253 & 0.9486 & 0.0000 \\ 0.1920 & 0.1106 & 0.0000 & 0.0728 \end{matrix}] . - - - (16)

从式（16）中可见，次级信道已被解除了相互间的相关。

在此情况下的可能实施方案中，当信道的数目较大时，可通过使用基于卡-洛变换（KLT）的信号适应性下混来改进编码的效率。根据本发明的方法促成了信号适应性下混的生成，所述信号适应性下混提供了后向兼容的下混信道。

根据本发明的方法尤其可以用于在下混生成一组后向兼容主信道以及一组次级信道的情况。根据本发明的方法可用于信道的数目较多以及后向兼容主信道的数目较少的编码情境。

视本发明方法的特定实施要求而定，本发明方法可实施于硬件上或软件上或其任何组合上。

可使用数字存储媒体来执行实施方案，具体而言是使用软盘、CD、DVD或蓝光光盘、ROM、PROM、EEPROM、闪速存储器，所述闪速存储器具有存储在其上的电可读控制信号，所述信号与可编程计算机***协同或者能够与可编程计算机***协同，使得本发明方法中的至少一者的实施例可得到执行。

因此，本发明的其他实施例可为，或包含：具有存储在机器可读载体上的程序代码的计算机程序产品，当在计算机上运行所述计算机程序产品时，所述程序代码操作地执行本发明方法中的至少一者。

因此，换言之，本发明方法的实施例可为，或包含具有程序代码的计算机程序，当在计算机上或在处理器等上运行计算机程序时，所述程序代码执行本发明方法中的至少一者。

因此，本发明的其他实施例可为，或包含：机器可读的数字存储媒体，所述存储媒体包括存储于其上的计算机程序，当在计算机上或在处理器等上运行所述计算机程序产品时，所述计算机程序操作地执行本发明的方法中的至少一者。

因此，本发明的其他实施例可为，或包含：表示计算机程序的数据流或信号序列，当在计算机上或在处理器等上运行所述计算机程序产品时，所述计算机程序操作地执行本发明的方法中的至少一者。

因此，本发明的其他实施例可为，或包含：用于执行本发明方法中的至少一者的计算机、处理器或者任何其他可编程逻辑装置。

因此，本发明的其他实施例可为，或包含：计算机、处理器或者任何其他可编程逻辑装置，在所述计算机、处理器或者任何其他可编程逻辑装置之上存储有计算机程序，当在计算机上、处理器上或任何其他可编程逻辑装置上（例如，FPGA（现场可编程门阵列）或ASIC（专用集成电路））运行所述计算机程序产品时，所述计算机程序操作地执行本发明方法中的至少一者。

由于上文具体参考本发明的特定的实施例来进行示意和描述的，因此，所属领域的技术人员应理解，可在不脱离本发明精神和范围的前提下对本发明的形式和细节进行多种其他的改变。因此需要理解的是，在不脱离本文所揭示的宽泛的概念并且可通过以下权利要求书来理解的前提下，可做出多种改变以适用于不同的实施例。

Claims

1.一种用于执行包含数(M)个输入信道的多信道音频信号的适应性下混的方法，

其特征在于，所述输入信道的信号适应性变换是通过将所述输入信道与下混分块矩阵(W^T)相乘来执行，所述下混分块矩阵(W^T)包含用于提供N个后向兼容的主信道的集合的固定块(W_O)，以及用于提供M-N个次级信道的集合的信号适应性块(W_x)；

根据所述输入信道的信道间协方差来调整所述下混分块矩阵(W^T)的所述信号适应性块；

根据辅助正交变换(V)来计算所述输入信道的所述信道间协方差的辅助协方差矩阵(∑_x)。

2.根据权利要求1所述的方法，

其特征在于，基于以所述固定块(W_O)作为格拉姆－施密特方法的初始值来计算所述辅助正交变换(V)。

3.根据权利要求2所述的方法，

其特征在于，针对所述辅助协方差矩阵(∑_x)的块计算卡-洛变换(KLT)矩阵Q。

4.根据权利要求3所述的方法，

其特征在于，基于所述卡-洛变换(KLT)矩阵Q来计算所述下混分块矩阵(W^T)的所述信号适应性块。

5.根据前述权利要求1至4中任一权利要求所述的方法，

其特征在于，由单个传统编码器(8)或由对应的数目(N)个传统编码器对所述后向兼容主信道进行编码以生成后向兼容的传统主比特流，并且

其特征在于，由共同多信道编码器(9)或由对应数目的次级信道编码器对所述次级信道进行编码以生成相应次级信道的次级比特流。

6.根据权利要求5所述的方法，

其特征在于，将所述主比特流与所述次级比特流一起传输到远端解码器，所述远端解码器包含单个传统解码器(10)或对应数目的传统解码器，所述单个传统解码器(10)或对应数目的传统解码器用于对所述后向兼容的主比特流进行解码以重建所述主信道，以及

单个次级信道解码器(12)或对应数目的次级信道解码器，所述单个次级信道解码器(12)或对应数目的次级信道解码器用于对所述次级比特流进行解码以重建所述次级信道。

7.根据权利要求6所述的方法，

其特征在于，将比特流的类型的信号发送到所述远端解码器，

其中所述类型的信号的执行是通过

，在至少一个比特流中传输的辅助数据的隐式信号，或是通过

，指示相应比特流的所述类型的标志的显式信号。

8.根据前述权利要求1至4中一个权利要求所述的方法，其特征在于，所述数目(M)个输入信道的所述信号适应性变换是通过将所述输入信道与所述下混分块矩阵(W^T)相乘来执行以提供所述后向兼容的主信道的集合以及辅助信道的集合，

其中将卡-洛变换(KLT)应用到所述辅助信道的集合上以提供所述次级信道的集合。

9.一种用于执行所接收的比特流的适应性上混的方法，

其特征在于，由传统解码器(10)对后向兼容的主比特流进行解码以重建对应的主信道，并且

由次级信道解码器(12)对次级比特流进行解码以重建对应的次级信道，

其中经解码的比特流的信号适应性逆变换是借助于上混分块矩阵(W)来执行以重建包含数目(M)个输出信道的多信道音频信号；

根据所述输入信道的经解码的信道间协方差来调整所述上混分块矩阵(W)的信号适应性块(W_x)；

对用于所述输入信道的所述信道间协方差的辅助协方差矩阵(∑_x)进行解码。

10.根据权利要求9所述的方法，

其特征在于，基于以固定块(W_O)作为格拉姆－施密特方法的初始值来计算辅助正交逆变换。

11.根据权利要求10所述的方法，

其特征在于，针对所述辅助协方差矩阵(∑_x)的块来计算卡-洛变换(KLT)矩阵。

12.根据权利要求11所述的方法，

其特征在于，基于计算出的卡-洛变换矩阵来计算所述上混分块矩阵(W)的所述信号适应性块(W_x)。

13.一种用于执行包含数目(M)个输入信道的多信道音频信号的适应性下混的下混设备(7)，

所述下混设备(7)包含：

信号适应性变换单元，其用于执行所述输入信道的信号适应性变换，通过将所述输入信道与下混分块矩阵(W^T)相乘，所述下混分块矩阵(W^T)包含用于提供后向兼容的主信道的集合的固定块(W_o)，并且所述下混分块矩阵(W^T)包含用于提供次级信道的集合的信号适应性块(W_x)；

用于根据所述输入信道的信道间协方差来调整所述下混分块矩阵(W^T)的所述信号适应性块的单元；

用于根据辅助正交变换(V)来计算所述输入信道的所述信道间协方差的辅助协方差矩阵(∑_x)的单元。

14.一种编码设备(2)，其包含根据权利要求13所述的下混设备(7)，并且还包含

至少一个传统编码器(8)，其用于对所述后向兼容的主信道进行编码以生成后向兼容的主比特流，并且还包含

至少一个次级信道编码器(9)，其用于对所述次级信道进行编码以生成次级比特流。

15.一种上混设备(11)，其用于执行经解码的比特流的适应性上混，所述经解码的比特流包含经解码主比特流及经解码的次级比特流；

所述上混设备(11)包含信号适应性重变换单元，所述信号适应性重变换单元用于执行所述经解码的比特流的信号适应性逆变换，将所述经解码的比特流与上混分块矩阵(W)相乘，所述上混分块矩阵(W)包含用于所述经解码的主比特流的固定块以及用于所述经解码的次级比特流的信号适应性块；

用于根据所述输入信道的经解码的信道间协方差来调整所述上混分块矩阵(W)的信号适应性块(W_x)的单元；

用于对用于所述输入信道的所述信道间协方差的辅助协方差矩阵(∑_x)进行解码的单元。

16.一种解码设备(3)，其包含根据权利要求15所述的上混设备(11)，并且还包含

至少一个传统解码器(10)，其用于对所接收的后向兼容主比特流进行解码以生成供应到所述上混设备(11)的经解码的主比特流，并且还包含

至少一个次级信道解码器(12)，其用于对所接收的次级比特流进行解码以生成供应到所述上混设备(11)的经解码的次级比特流。

17.一种音频***(1)，其包含：

根据权利要求14所述的至少一个编码设备(2)，以及

根据权利要求16所述的至少一个解码设备(3)，

其特征在于，所述编码设备(2)和所述解码设备(3)经由网络(4)彼此相互连接。