CN101263742A

CN101263742A - 音频编码

Info

Publication number: CN101263742A
Application number: CNA2006800336904A
Authority: CN
Inventors: D·J·布里巴特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-09-13
Filing date: 2006-08-31
Publication date: 2008-09-10
Anticipated expiration: 2026-08-31
Also published as: JP2012181556A; EP1927266B1; TWI415111B; TW200721111A; WO2007031896A1; KR20080047446A; CN101263742B; JP2009508157A; RU2008114359A; KR101562379B1; BRPI0615899A2; KR101512995B1; JP5698189B2; KR20150008932A; RU2419249C2; US20080205658A1; JP5587551B2; BRPI0615899B1; EP1927266A1; US8654983B2

Abstract

空间解码器单元(23)，其被配置为将一个或更多音频声道(s，l，r)变换为一对双耳声输出声道(lb，rb)。该设备包括参数转换单元(234)，其将空间参数(sp)转换为包含双耳声信息的双耳声参数(bp)。该设备另外还包括空间合成单元(232)，其利用双耳声参数(bp)而将音频声道(L，R)变换为一对双耳声信号(Lb，Rb)。空间合成单元(232)优选地工作在变换域，诸如QMF域中。

Description

音频编码

本发明涉及音频编码。本发明尤其涉及用于将音频输入信号转换成双耳声(binaural)输出信号的设备和方法，其中该输入信号包括至少一个音频声道和表示附加声道的参数。

记录并再现双耳声音频信号，也就是包含人耳所敏感的特定方向性信息的音频信号，是众所周知的。双耳声记录通常利用安装在假人头部中的两个麦克风来进行，使得所记录的声音对应于人耳捕捉到的声音，并包括由于头部和耳朵形状所造成的任何影响。双耳声记录与立体声(即立体音响)记录的区别在于，再现双耳声记录需要头戴式耳机(headset)，而立体声记录是为扬声器再现而给出。虽然双耳声记录允许只利用两个声道来再现所有的空间信息，立体声记录不能提供同样的空间感知。

常规的双声道(立体音响)或多声道(例如5.1)记录可通过利用一组感知转移函数对每个常规信号进行卷积而被变换为双耳声记录。这些感知转移函数对人的头部以及可能的其他部位对信号的影响进行建模。一类众所周知的感知转移函数是所谓的头部相关转移函数(Head-Related Transfer Function，HRTF)。一种可替换的感知转移函数类型是双耳声房间冲激响应(BRIR)，其还考虑到由房间墙壁、天花板和地板所造成的反射。

在多声道信号的情况下，利用一组感知函数将信号变换为双耳声记录信号，通常意味着将感知函数与所有声道的信号进行卷积。由于通常的卷积对计算是有较高要求的，因此信号和HRTF通常被变换到频(傅立叶)域，在频域中利用对计算的要求少得多的乘法来代替卷积。

通过用更少数量的声道和指示原始声道之间关系的参数表示原始数量的声道，来减少要发送或存储的音频声道数量也是众所周知的。一组立体声信号由此可以用单个(单声)声道加上多个相关联的空间参数来表示，而一组5.1信号可以用两个声道和一组相关联的空间参数来表示，或者甚至用单个声道加上相关联的空间参数来表示。这种在空间编码器中对多个音频声道进行的“下混合(downmixing)”，和相应的在空间编码器中对音频信号的“上混合(upmixing)”，通常在变换域或子带域中执行，例如在QMF(正交镜像滤波器)域中执行。

当下混合的输入声道要被转换为双耳声输出声道时，现有技术中的方法是首先利用空间解码器对输入声道进行上混合，产生上混合后的中间声道，然后将这些上混合后的中间声道转换为双耳声声道。这个过程通常产生五个或六个中间声道，然后这些中间声道必须减少为两个双耳声声道。先扩充声道数量然后再减少声道数量的做法明显是不高效的，并且增加了计算复杂度。另外，将打算用于多声道扬声器再现的五个或六个中间声道减少为打算用于双耳声再现的仅仅两个声道，不可避免地引入人工噪声并因此降低声音质量。

上面提到的QMF域与频率(傅立叶)域相似但不相同。如果空间解码器是要产生双耳声输出信号，则下混合后的音频信号首先必须被变换到QMF域以用于上混合，然后被逆QMF变换以产生时域中间信号，接下来被变换到频域用于与(经过傅立叶变换的)HRTF相乘，最后被逆变换以产生时域输出信号。将会明白，由于必须连续进行几个变换，这个过程不是高效的。

该现有技术方法中所涉及的计算量将会使得很难设计出能够由下混合后的音频信号产生双耳声输出信号的手持消费设备，诸如便携式MP3播放器。即使这种设备能够实现，由于所需要的计算负担，其电池寿命也会非常短。

本发明的目的是克服现有技术的这些以及其它问题，并提供能够从一组下混合后的音频声道产生一对双耳声输出声道的空间解码器单元，其中所述一组下混合后的音频声道由一个或更多音频输入声道和相关联的空间参数组来表示，该解码器具有提高的效率。

因此，本发明提供利用空间参数和一个或更多音频输入声道，产生一对双耳声输出声道的空间解码器单元，该设备包括利用参数化感知转移函数，将空间参数转换为双耳声参数的参数转换单元，和利用双耳声参数和音频声道合成一对双耳声声道的空间合成单元。

通过将空间参数转换为双耳声参数，空间合成单元能够直接合成一对双耳声声道，而不需要附加的双耳声合成单元。由于不产生多余的中间信号，计算上的要求降低，同时也基本消除了人工噪声的引入。

在本发明的空间解码器单元中，可以在例如QMF域的变换域中执行双耳声声道的合成，而无需变换到频域以及接下来逆变换到时域的附加步骤。由于可以省略两个变换步骤，因此计算量和存储需求都大大降低。因此本发明的空间解码器单元能够相对容易地在便携式消费设备中实现。

并且，在本发明的空间解码器单元中，双耳声声道直接从下混合后的声道产生，每个双耳声声道包括用于利用头戴式耳机或相似设备进行双耳声再现的双耳声信号。参数转换单元导出双耳声参数，其用于从空间(即上混合)参数产生双耳声声道。这种双耳声参数的导出涉及参数化感知转移函数，诸如HRTF(头部相关转移函数)和/或双耳声房间冲激响应(BRIR)。因此根据本发明，感知转移函数的处理在参数域中进行，而在现有技术中，该处理在时域或频域中进行。由于参数域中的分辨率通常低于时域或频域中的分辨率，这将会使得计算复杂度进一步降低。

优选地，参数转换单元被配置为，为了确定双耳声参数，在参数域中将输入(下混合)音频声道对双耳声声道将会做出的所有感知转移函数贡献进行组合。换句话说，空间参数和参数化感知转移函数以这样的方式组合，即组合后的参数导致产生具有与在涉及上混合后中间信号的现有技术中获得的双耳声输出信号相似的统计特性的双耳声输出信号。

在优选实施例中，本发明的空间解码器单元进一步包括一个或更多用于将音频输入声道变换为变换后的音频输入声道的变换单元，和一对用于将合成后的双耳声声道逆变换为一对双耳声输出声道的逆变换单元，其中空间合成单元被配置为工作在变换域或子带域中，优选地是在QMF域中。

本发明的空间解码器单元可包括两个变换单元，参数转换单元被配置为采用只涉及三个声道的感知转移函数参数，这三个声道中的两个合并了合成的前后声道的贡献。在该实施例中，参数转换单元可被配置为处理声道电平(例如CLD)、声道相干性(例如ICC)、声道预测(例如CPC)和/或相位(例如IPD)参数。

在可替换实施例中，本发明的空间解码器单元可只包括单个变换单元，并进一步包括去相关单元，用于对单个变换单元输出的变换后的单个声道进行去相关。在该实施例中，参数转换单元可被配置为处理声道电平(例如CLD)、声道相干性(例如ICC)和/或相位(例如IPD)参数。

本发明的空间解码器单元可附加地包括立体声混响单元。该立体声混响单元可被配置为工作在时域或变换域或子带(例如QMF)域中。

本发明还提供用于从输入比特流产生一对双耳声输出声道的空间解码器设备，该设备包括将输入比特流多路分解为至少一个下混合声道和信号参数的多路分解器单元、解码至少一个下混合声道的下混合解码器单元，和利用空间参数和至少一个下混合声道产生一对双耳声输出声道的空间解码器单元，其中空间解码器单元包括利用参数化感知转移函数将空间参数转换为双耳声参数的参数转换单元，和利用双耳声参数和至少一个下混合声道合成一对双耳声声道的空间合成单元。

另外，本发明提供包括如上定义的空间解码器单元和/或空间解码器设备的消费设备和音频***。本发明进一步提供利用空间参数和一个或更多音频输入声道来产生一对双耳声输出声道的方法，该方法包括如下步骤：利用参数化感知转移函数将空间参数转换为双耳声参数，利用双耳声参数和音频声道合成一对双耳声声道。根据本发明方法的进一步的方面将通过下面的描述而变得明显。

本发明附加地提供执行如上定义的方法的计算机程序产品。计算机程序产品可包括存储在诸如CD或DVD之类数据载体上的一组计算机可执行指令。允许可编程计算机执行如上定义的方法的该组计算机可执行指令还可以例如通过互联网而从远程服务器上下载得到。

下面结合附图中所示的示例性实施例，对本发明进行进一步的解释，其中：

图1示意性地示出了根据现有技术的头部相关转移函数的应用。

图2示意性地示出了根据现有技术的空间音频编码器设备。

图3示意性地示出了根据现有技术，耦合到双耳声合成设备的空间音频解码器设备。

图4示意性地示出了根据现有技术的空间音频解码器单元。

图5示意性地示出了根据本发明的空间音频解码器单元。

图6示意性地示出了根据本发明的空间音频解码器设备。

图7示意性地示出了图5的空间音频解码器单元，其提供有变换域混响单元。

图8示意性地示出了图5的空间音频解码器单元，其提供有时域混响单元。

图9示意性地示出了根据本发明，提供有空间音频解码设备的消费设备。

图1示意性地示出了根据现有技术，诸如头部相关转移函数的感知转移函数的应用。所示双耳声合成设备3包括六个HRTF单元31，每个都包含用于输入声道和输出声道特定组合的转移函数。在所示例子中，有三个音频输入声道ch1、ch2和ch3，其对应于声道l(左)、c(中)和r(右)。第一声道ch1被馈送到分别包含HRTF(1，L)和HRTF(1，R)的两个HRTF单元31。在该例子中，HRTF(1，L)是确定第一声道对左双耳声信号的贡献的头部相关转移函数。

本领域技术人员将会知道，可通过进行常规(立体声)记录和双耳声记录，并导出表示双耳声记录相对于常规记录的形状的转移函数来确定HRTF。双耳声记录是利用安装在假人头部的两个麦克风来做出，使得所记录的声音对应于人耳捕捉的声音，并包括由于头部和耳朵形状、甚至是头发和肩膀的存在所造成的任何影响。

如果HRTF处理发生在时域，将HRTF与声道(时域)音频信号进行卷积。然而通常，HRTF被变换到频域，然后将作为结果得到的转移函数和音频信号频谱相乘(图1未示出傅立叶变换单元和逆傅立叶变换单元)。涉及重叠时间帧的适当的重叠相加(OLA)技术可被用于适应长度大于快速傅立叶变换(FFT)帧的HRTF。

在由适当的HRTF单元31进行HRTF处理之后，作为结果得到的左和右信号被各自的加法器32相加，生成(时域)左双耳声信号lb和右双耳声信号rb。

图1中示例性现有技术的双耳声合成设备3具有三个输入声道。当今的音频***通常具有五个或六个声道，正如所谓的5.1***中的情况。然而，为了减少要被发送和/或存储的数据量，通常将多个音频声道减少(“下混合”)到一个或两个声道。指示原始声道特性和相互关系的多个信号参数允许将一个或两个声道扩充(“上混合”)到原始数量的声道。根据现有技术的示例性空间编码器设备1被示意性地示于图2。

空间编码器设备1包括空间编码(SE)单元11、下混合编码(DE)单元12和多路复用器(Mux)13。空间编码单元11接收五个音频输入声道lf(左前)、lr(左后)、rf(右前)、rr(右后)和c(中间)。空间编码单元11下混合五个输入声道，产生两个声道l(左)和r(右)，以及信号参数sp(注意，空间编码单元11可产生单个声道而代替两个声道l和r)。在所示实施例中，其中五个声道被下混合为两个声道(所谓的5-2-5配置)，信号参数sp例如包括：

注意，“左”是可选的低频(超低音喇叭)声道，并且“后”声道也可称之为“环绕”声道。

由空间编码单元11产生的两个下混合声道l和r被馈送到下混合编码(DE)单元12，其通常使用旨在减少数据量的一类编码。这样编码后的下混合声道l和r以及信号参数sp被多路复用单元13进行多路复用，以产生输出比特流bs。

在可替换实施例(未示出)中，五个(或六个)声道被下混合为单个(单声)声道(所谓的5-1-5配置)，且信号参数sp可例如包括：

在该可替换实施例中，编码后的下混合声道s以及信号参数sp也被多路复用器单元13进行多路复用，产生输出比特流bs。

如果该比特流bs要被用于产生一对双耳声声道，则现有技术的方法将会首先对两个下混合声道l和r(或者可替换地，单个下混合声道)进行上混合，产生五个或六个原始声道，然后将这五个或六个原始声道转换为两个双耳声声道。该现有技术方法的例子示于图3。

根据现有技术的空间解码器设备2’包括多路分解器(Demux)单元21’、下混合解码单元22’和空间解码器单元23’。双耳声合成设备3被耦合到空间解码器设备2’的空间解码器单元23’。

多路分解器单元21’接收可以与图2的比特流bs相同的比特流bs，并输出信号参数sp和两个编码的下混合声道。信号参数sp被发送到空间解码器单元23’，而编码的下混合声道首先由下混合解码单元22’进行解码，产生解码的下混合声道l和r。空间解码器单元23’本质上执行图2中空间编码单元11的逆操作，并输出五个音频声道。这五个音频声道被馈送到双耳声合成设备3，其可以具有与图1的设备3相似的结构，但是还具有附加的HRTF单元31，以便适应所有五个声道。正如图1中的例子，双耳声合成设备3输出两个双耳声声道lb(左双耳声)和rb(右双耳声)。

现有技术的空间解码器单元23’的示例性结构被示于图4。图4的单元23’包括二到三上混合单元230’、三个空间合成(SS)单元232’和三个去相关(D)单元239’。二到三上混合单元230’接收下混合声道l和r和信号参数sp，并产生三个声道l、r和ce。这些声道的每一个都被馈送到去相关单元239’，其产生各自声道的去相关后版本。声道l、r和ce的每一个，其各自的去相关版本和相关联的信号参数sp被馈送到各自的空间合成(或上混合)单元232’。接收声道l的空间合成单元232’例如输出输出声道lf(左前)和lr(左后)。空间合成单元232’通常实施矩阵乘法，矩阵参数由信号参数sp确定。

注意，在图4的例子中，产生六个输出声道。在一些实施例中，第三去相关单元239’和第三空间合成单元232’可以省略，由此只产生五个输出声道。然而，在所有实施例中，现有技术的空间合成单元23’将产生多于两个的输出声道。进一步注意，为了解释清楚，任何(QMF)变换单元和逆(QMF)变换单元已经从图4的仅仅示意性的例子中省略。在实际的实施例中，空间解码将会在诸如QMF域的变换域中执行。

图3中的配置是不高效的。空间解码器设备2’将两个下混合声道(l和r)转换为五个上混合后的(中间)声道，而双耳声合成设备3则将五个上混合后的声道减少为两个双耳声声道。另外，空间解码器单元23’中的上混合通常是在诸如QMF(正交镜像滤波)域的子带域中执行。然而，双耳声合成设备3通常在频率(也就是傅立叶变换)域中处理信号。由于这两个域不同，空间解码器设备2’首先将下混合声道的信号变换到QMF域，处理变换后的信号，然后将上混合后的信号变换回时域。接下来，双耳声合成设备3将所有(本例子中的五个)这些上混合后的信号变换到频域，处理变换后的信号，然后将双耳声信号变换回时域。将会清楚，所涉及的计算工作量相当大，希望进行更高效的信号处理，特别是当该处理在手持设备中执行时。

本发明通过将双耳声合成设备集成在空间解码器设备中，并在参数中有效地执行双耳声处理来提供高效得多的处理。根据本发明，空间解码器单元的仅仅示例性的实施例被示意性地示于图5，而根据本发明组合的空间和双耳声解码器设备(为了简便称作空间解码器设备)被示于图6。

仅借助非限制性例子示于图5中的独创性空间解码器单元23包括变换单元231、空间合成(SS)单元232、逆变换单元233、参数转换(PC)单元234和存储(Mem)单元235。在图5的示例性实施例中，空间解码器单元23包括两个变换单元231，但是在可替换性实施例中只有单个变换单元231(如图6中所示)或者两个以上的变换单元231可以出现，这取决于下混合声道的数量。

变换单元231的每一个都分别接收下混合声道l和r(还参见图3)。每个变换单元231被配置为将各个声道(的信号)变换到适当的变换或子带域，在当前例子中是QMF域。QMF变换后的声道L和R被馈送到空间合成单元232，其优选地对声道L和R的信号执行矩阵操作，从而产生变换域双耳声声道Lb和Rb。逆变换单元233执行逆变换，在本例子中是逆QMF变换，从而产生双耳声时域声道lb和rb。

空间合成单元232可以与图4中现有技术的空间合成单元232’相似或相同。然而，该单元使用的参数与现有技术中使用的参数不同。更特别地，参数转换单元234利用存储在存储器单元235中的HRTF参数hp，将常规的空间参数sp转换为双耳声参数bp。这些HRTF参数hp可包括：

每个频带对于左转移函数的平均电平，其中所述左转移函数是方位角(水平面中的角)、仰角(垂直平面中的角)和距离的函数，

每个频带对于右转移函数的平均电平，其中所述右转移函数是方位角、仰角和距离的函数，和

每个频带的平均相位或时间差，其是方位角、仰角和距离的函数。

另外，也可包括如下参数：

每个HRTF频带左和右转移函数的相干性测度，其是方位角、仰角和距离的函数，和/或

对于左和右转移函数的绝对相位和/或时间参数，其是方位角、仰角和距离的函数。

所使用的实际HRTF参数将依赖于特定的实施例。

空间合成单元232可利用如下公式来确定双耳声声道Lb和Rb：

[\begin{matrix} Lb [k, m] \\ Rb [k, m] \end{matrix}] {= H}_{k} [\begin{matrix} L [k, m] \\ R [k, m] \end{matrix}] = {[\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}]}_{k} [\begin{matrix} L [k, m] \\ R [k, m] \end{matrix}] - - - (1)

其中索引k代表QMF混合(频)带索引，索引m代表QMF(时)隙索引。矩阵H_k的参数h_ij由双耳声参数(图5中的bp)确定。如索引k所指示，矩阵H_k可取决于QMF混合带。在第一实施例中，参数转换单元(图5中的234)产生双耳声参数，该参数然后被空间合成单元232转换为矩阵参数h_ij。在第二实施例中，矩阵参数h_ij与参数转换单元(图5中的234)产生的双耳声参数相同，并且可由空间合成单元232在不转换的情况下直接应用。

在两个下混合声道(5-2-5配置)的情况下，矩阵H_k的参数h_ij可以以如下方式确定。在现有技术中，图4中的空间解码器单元，2到3解码器单元230’将两个(输入)下混合声道l和r转换为三个(输出)声道l、r和ce(将会明白，输出声道l和r通常将不会与输入声道l和r相同，为此输入声道在下面的讨论中将用l₀和r₀标注。

根据本发明的另一个方面，参数转换单元(图5和6中的234)被配置为利用只考虑三个声道(例如l、r和c)贡献的感知转移函数参数，这三个声道中的两个(例如l和r)包括复合的各个前(lf，rf)和后(lr，rr)声道。也就是说，各个前和后声道被分组到一起以改善效率。

可以用如下的矩阵操作来描述二到三上混合单元230’的操作：

[\begin{matrix} l \\ r \\ c \end{matrix}] = [\begin{matrix} m_{11} & m_{12} \\ m_{21} & m_{22} \\ m_{31} & m_{32} \end{matrix}] [\begin{matrix} l_{0} \\ r_{0} \end{matrix}] - - - (2)

矩阵项目m_ij依赖于空间参数。空间参数与矩阵项目的关系与5.1MPEG环绕解码器中的相同。对三个所得到信号l、r和c的每一个来说，对应于这些声源期望的(感知的)位置的感知转移函数(本例子中是HRTF)参数的效果被确定。对中心声道(c)来说，声源位置的空间参数可以直接应用，得到用于中心的两个输出信号l_B(c)和r_B(c)：

[\begin{matrix} l_{B} (c) \\ r_{B} (c) \end{matrix}] = [\begin{matrix} H_{l} (c) \\ H_{r} (c) \end{matrix}] c = [\begin{matrix} P_{l} (c) e^{- jφ (c) / 2} \\ P_{r} (c) e^{- jφ (c) / 2} \end{matrix}] c - - - (3)

从方程(3)可以看出，HRTF参数处理包括将信号与对应于中心声道声源位置的平均功率电平P_l和P_r相乘，而相位差对称分布。该处理对每个QMF带独立进行，一方面利用从HRTF参数到QMF滤波器组的映射，另一方面利用从空间参数到QMF带的映射。

对于左(l)声道来说，利用权重w_lf和w_rf，将来自左前和左后声道的HRTF参数组合为单个贡献。得到的复合参数在统计意义上模拟前声道和后声道的影响。使用如下方程来生成用于左声道的双耳声输出对(l_b，r_b)：

[\begin{matrix} l_{b} (l) \\ r_{b} (l) \end{matrix}] = [\begin{matrix} H_{l} (l) \\ H_{r} (l) \end{matrix}] l - - - (4)

其中

H_{l} (l) = \sqrt{w_{lf}^{2} P_{l}^{2} (lf) + w_{lr}^{2} P_{l}^{2} (lr)} - - - (5)

和

H_{r} (l) = e^{- j (w_{lf}^{2} φ (lf) + w_{ls}^{2} φ (lr))} \sqrt{w_{lf}^{2} P_{r}^{2} (lf) + w_{lr}^{2} P_{r}^{2} (lr)} - - - (6)

权重w_lf和w_rf依赖于1到2单元对于lf和lr的CLD参数：

w_{lf}^{2} = \frac{10^{{CLD}_{l} / 10}}{1 + 10^{{CLD}_{l} / 10}} - - - (7),

w_{lr}^{2} = \frac{1}{1 + 10^{{CLD}_{l} / 10}} - - - (8)

以相似的方式，根据如下方程获得用于右声道的双耳声输出：

[\begin{matrix} L_{b} (r) \\ R_{b} (r) \end{matrix}] = [\begin{matrix} H_{l} (r) \\ H_{r} (r) \end{matrix}] r - - - (9),

其中

H_{l} (r) = e^{+ f (w_{rf}^{2} φ (rf) + w_{rs}^{2} φ (rr))} \sqrt{w_{rf}^{2} P_{l}^{2} (rf) + w_{rr}^{2} P_{l}^{2} (rs)} - - - (10)

H_{r} (r) = \sqrt{w_{rf}^{2} P_{r}^{2} (rf) + w_{rr}^{2} P_{r}^{2} (rr)} - - - (11)

w_{rf}^{2} = \frac{10^{{ClD}_{r} / 10}}{1 + 10^{{CLD}_{r} / 10}} - - - (12)

w_{rr}^{2} = \frac{1}{1 + 10^{{CLD}_{r} / 10}} - - - (13) .

注意到，在两种情况下，相位修改项被应用到对侧耳(contra-lateralear)。并且，由于人的听觉***对于频率在大约2kHz以上的双耳声相位非常不敏感，因此相位修改项只需要应用在低频区域。因此对于剩余的频率范围来说，实值的处理就足够了(假设实值m_ij)。

进一步注意到，上述方程假设对lf和lr的(HRTF)滤波信号进行非相干相加。一种可能的扩展可以也将发送的lf和lr(以及lf和rr)的信道间相干(ICC)参数包括在方程中，以考虑前/后相关性。

上述所有的处理步骤可以在参数域中进行组合，从而得到单个信号域的2×2矩阵：

[\begin{matrix} l_{b} \\ r_{b} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} l_{0} \\ r_{0} \end{matrix}] - - - (14),

其中

h₁₁＝m₁₁H_l(l)+m₂₁H_l(r)+m₃₁H_l(c) (15a)

h₁₂＝m₁₂H_l(l)+m₂₂H_l(r)+m₃₂H_l(c) (15b)

h₂₁＝m₁₁H_r(l)+m₂₁H_r(r)+m₃₁H_r(c) (15c)

h₂₂＝m₁₂H_r(l)+m₂₂H_r(r)+m₃₂H_r(c) (15d).

从上面很清楚地看出，本发明本质上在参数域中处理双耳声(也就是HRTF)信息，来代替现有技术中在频域或时域中处理。以这种方式，可以很大程度地节省计算量。

根据本发明，仅仅以非限制性例子示于图6中的空间解码器设备2包括多路分解(Demux)单元21、下混合解码单元22和空间/双耳声解码器单元23。多路分解器单元21和下混合解码单元22可以与图3所示现有技术的多路分解器单元21’和下混合解码单元22’相似。除了下混合声道和相关联变换单元的数目不同之外，图6的空间解码器单元23与图5的空间解码器单元23相同。由于图6的空间解码器设备被配置为用于单个下混合声道s，因此只提供单个变换单元231，而去相关(D)单元239已经被相加用于产生(变换域)下混合信号S去相关后的版本D。由于与单个下混合声道s相关联的信号参数sp通常不同于那些与两个下混合声道相关联的信号参数，因此由参数转换单元234产生的双耳声参数bp通常与图5所示实施例中的参数不同。

在图6的配置中，双耳声解码器的输入包括伴随有空间参数sp的单声输入信号s。双耳声合成单元生成立体声输出信号，该信号的统计特性接近于对原始5.1输入进行HRTF处理将会得到的统计特性，可以用如下方程描述：

l_{b} = H_{l} (lf) &CircleTimes; lf + H_{l} (rf) &CircleTimes; rf + H_{l} (lr) &CircleTimes; lr + H_{l} (Rr) &CircleTimes; Rr + H_{l} (c) &CircleTimes; c - - - (16)

r_{b} = H_{r} (lf) &CircleTimes; lf + H_{r} (rf) &CircleTimes; rf + H_{r} (lr) &CircleTimes; lr + H_{r} (rr) &CircleTimes; rr + H_{r} (c) &CircleTimes; c - - - (17)

给定描述声道lf、rf、lr、rr和c统计特性和相互关系的空间参数和HRTF冲激响应的参数，还可以估计出双耳声输出对l_b、r_b的统计特性(也就是双耳声参数的近似值)。更特殊地，可以估计(每个声道的)平均能量、平均相位差和相干性，接下来通过去相关和对单声输入信号矩阵运算来恢复(re-instate)。

双耳声参数包括两个双耳声输出声道中每一个的(相对)电平变化(并因此定义声道电平差参数)、(平均)相位差和相干性测度(每个变换域时间/频率片(tile))。

第一步，利用发送的CLD参数来计算五个(或六个)声道(5.1)信号的相对功率(相对于单声输入信号的功率)。左前声道的相对功率由如下方程给出：

σ_{lf}^{2} = r_{1} ({CLD}_{fs}) r_{1} ({CLD}_{fc}) r_{1} ({CLD}_{f}) - - - (18),

其中

r_{1} (CLD) = \frac{10^{CLD / 10}}{1 + 10^{CLD / 10}} - - - (19),

和

r_{2} (CLD) = \frac{1}{1 + 10^{CLD / 10}} - - - (20) .

相似地，其它声道的相对功率由如下方程给出：

σ_{rf}^{2} = r_{1} ({CLD}_{fs}) r_{1} ({CLD}_{fo}) r_{2} ({CLD}_{f}) - - - (21 a)

σ_{c}^{2} = r_{1} ({CLD}_{fs}) r_{2} ({CLD}_{fc}) - - - (21 b)

σ_{ls}^{2} = r_{2} ({CLD}_{fs}) r_{1} ({CLD}_{s}) - - - (21 c)

σ_{rs}^{2} = r_{2} ({CLD}_{fs}) r_{2} ({CLD}_{s}) - - - (21 d)

然后，可以计算左双耳声输出声道(相对于单声输入声道)的相对功率σ_L ²的期望值、右双耳声输出声道的相对功率σ_R ²的期望值和叉乘L_BR_B ^*的期望值。然后由如下方程给出双耳声输出(ICC_B)的相干性：

{ICC}_{B} = \frac{| &lang; L_{B} R_{B}^{*} &rang; |}{σ_{L} σ_{R}} - - - (22)

且平均相位角(IPD_B)由如下方程给出：

{IPD}_{B} = \arg (&lang; L_{B} R_{B}^{*} &rang;) - - - (23)

双耳声输出的声道电平差(CLD_B)由如下方程给出：

{CLD}_{B} = 10 \log_{10} (\frac{σ_{L}^{2}}{σ_{R}^{2}}) - - - (24)

最后，与单声输入相比较的双耳声输出的总(线性)增益g_B由如下方程给出：

g_{B} = \sqrt{σ_{L}^{2} + σ_{R}^{2}} - - - (25)

对双耳声矩阵中的IPD_B、CLD_B、ICC_B和g_B参数恢复所需的矩阵系数简单地由常规的参数立体声解码器获得，用总增益g_B进行扩展：

h₁₁＝g_Bc_Lcos(α+β)exp(jIPD_B/2) (26a)

h₁₂＝g_Bc_Lsin(α+β)exp(jIPD_B/2) (26b)

h₂₁＝g_Bc_Rcos(-α+β)exp(-jIPD_B/2) (26c)

h₂₂＝g_Bc_Rsin(-α+β)exp(-jIPD_B/2) (26d)

其中

α＝0.5arccos(ICC_B) (27)

β = \arctan (\frac{c_{R} - c_{L}}{c_{R} + c_{L}} \tan (α)) - - - (28)

c_{L} = \sqrt{\frac{10^{{CLD}_{B} / 10}}{1 + 10^{{CLD}_{B} / 10}}} - - - (29)

c_{R} = \sqrt{\frac{1}{1 + 10^{{CLD}_{B} / 10}}} - - - (30)

本发明的空间解码器单元进一步的实施例可包含混响单元。已经发现，当产生双耳声声音时，加入混响可改善感知的距离。为此，图7的空间解码器单元23被提供有立体声混响单元237，该立体声混响单元237与空间合成单元232并联连接。图7的立体声混响单元237接收QMF变换域单个下混合信号S并输出两个混响信号，其通过加法单元238而被加入到变换域双耳声信号(图6中的声道Lb和Lr)。然后，组合后的信号在输出前由逆变换单元233进行逆变换。

在图8的实施例中，立体声混响单元237被配置为产生时域中的混响并接收时域单个下混合信号s。立体声混响单元237输出时域混响信号，其由加法单元238加入到双耳声声道lb和rb的时域信号。任何一个实施例都提供了适当的混响。

本发明另外提供了消费设备，诸如手持消费设备，以及包括如上定义的空间解码器单元或空间解码器设备的音频***。手持消费设备可以由MP3播放器或相似设备构成。消费设备示意性地示于图9。消费设备50被显示为包括根据本发明的空间解码器设备2(参见图6)。

本发明基于如下见识，即通过根据双耳声信息修改空间参数，可大大降低组合的空间解码器设备和双耳声合成设备的计算复杂度。这就使得空间解码器设备能够在同一个信号处理操作中高效地执行空间解码和感知转移函数处理，而避免引入任何的人工噪声。

注意到，该文献中使用的任何术语都不应解释为限制本发明的范围。实际上，词语“包括”和“包含”不意味着排除没有特别指出的任意元件。单个(电路)元件可以用多个(电路)元件或它们的等价物来替代。

本领域技术人员将会明白，本发明不限于上述实施例，可以在不脱离如所附权利要求所定义发明范围的情况下做出很多修改和添加。

Claims

1.一种空间解码器单元(23)，其利用空间参数(sp)和一个或更多音频输入声道(s；l，r)来产生一对双耳声输出声道(lb，rb)，该设备包括：

-参数转换单元(234)，其利用参数化感知转移函数(hp)将空间参数(sp)转换为双耳声参数(bp)；和

-空间合成单元(232)，其利用双耳声参数(bp)和音频声道(L，R)来合成一对双耳声声道(Lb，Rb)。

2.根据权利要求1的空间解码器单元，其中参数转换单元(234)被配置为，为了确定双耳声参数，在参数域中将音频输入声道对双耳声声道将会做出的所有感知转移函数贡献进行组合。

3.根据权利要求1的空间解码器单元，进一步包括：

-一个或更多变换单元(231)，其将音频输入声道(s，l，r)变换为变换后的音频输入声道(S，L，R)，和

-一对逆变换单元(233)，其将合成后的双耳声声道(BL，BR)逆变换为一对双耳声输出声道(lb，rb)，其中空间合成单元(232)被配置为在变换域或子带域，优选地在QMF域中工作。

4.根据权利要求1的空间解码器单元，包括单个变换单元(231)，并进一步包括去相关单元(239)，该去相关单元(239)对单个变换单元(231)所输出的变换后的单个声道(S)进行去相关。

5.根据权利要求4的空间解码器单元，其中参数转换单元(234)被配置为处理声道电平(CLD)、声道相干性(ICC)和/或相位(IPD)参数。

6.根据权利要求1的空间解码器单元，包括两个变换单元(231)，其中参数转换单元(234)被配置为利用只涉及三个声道(l，r，c)的感知转移函数参数，这三个声道中的两个(l，r)包括复合的前(lf，rf)和后(lr，rr)声道的贡献。

7.根据权利要求6的空间解码器单元，其中参数转换单元被配置用于处理声道电平(例如CLD)、声道相干性(例如ICC)、声道预测(例如CPC)和/或相位(例如IPD)参数。

8.根据权利要求1的空间解码器单元，进一步包括被配置为工作在时域中的立体声混响单元(237)。

9.根据权利要求1的空间解码器单元，进一步包括被配置为工作在变换域或子带域，诸如QMF域中的立体声混响单元(237)。

10.一种空间解码器设备(2)，其从输入比特流(bs)产生一对双耳声输出声道(lb，rb)，该设备包括：

-多路分解器单元(21)，其将输入比特流多路分解为至少一个下混合声道和信号参数(sp)，

-下混合解码器单元(22)，其对至少一个下混合声道进行解码，和

-空间解码器单元(23)，其利用空间参数(sp)和至少一个下混合声道产生一对双耳声输出声道(lb，rb)，其中空间解码器单元(23)包括：

-参数转换单元(234)，其利用参数化感知转移函数(hp)将空间参数(sp)转换为双耳声参数(bp)，和

-空间合成单元(232)，其利用双耳声参数(bp)和至少一个下混合声道，合成一对双耳声声道(Lb，Rb)。

11.根据权利要求10的设备，其中空间解码器单元(23)包括混响单元(237)。

12.一种音频***，包括根据权利要求1的空间解码器单元(23)和/或根据权利要求10的空间解码器设备(2)。

13.一种消费设备，包括根据权利要求1的空间解码器单元(23)和/或根据权利要求10的空间解码器设备(2)。

14.一种利用空间参数(sp)和一个或更多音频输入声道(s；l，r)来产生一对双耳声输出声道(lb，rb)的方法，该方法包括如下步骤：

-利用参数化感知转移函数(hp)，将空间参数(sp)转换为双耳声参数(bp)；

-利用双耳声参数(bp)和音频声道(M，N；L，R)合成一对双耳声声道(BL，BR)。

15.一种用于执行根据权利要求14所述方法的计算机程序产品。