CN101390443A

CN101390443A - 音频编码和解码

Info

Publication number: CN101390443A
Application number: CNA200780006210XA
Authority: CN
Inventors: D·J·布里巴尔特; E·G·P·舒伊杰斯; A·W·J·乌门
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-02-21
Filing date: 2007-02-13
Publication date: 2009-03-18
Anticipated expiration: 2027-02-13
Also published as: WO2007096808A1; BRPI0707969A2; ES2339888T3; US20200335115A1; PL1989920T3; US9009057B2; CN101390443B; TW200738038A; US20180151185A1; US20090043591A1; DE602007004451D1; BRPI0707969B1; EP1989920A1; JP5081838B2; ATE456261T1; US20150213807A1; KR101358700B1; KR20080107422A; JP2009527970A; US9865270B2

Abstract

一种音频编码器包括用于接收M声道音频信号的多声道接收器(401)，其中M＞2。降混处理器(403)将M声道音频信号降混到第一立体声信号和相关参数数据，以及空间处理器(407)响应于相关参数数据和用于诸如头相关传输函数(HRTF)这样的双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号。第二立体声信号是双耳信号，并且特别地是(3D)虚拟空间信号。编码处理器(411)和输出处理器(413)生成包括编码数据和相关参数数据的输出数据流。HRTF处理可允许通过传统立体声解码器生成(3D)虚拟空间信号。多声道解码器使空间处理器(407)的处理逆向进行以生成质量改善了的多声道信号。

Description

音频编码和解码

本发明涉及音频编码和/或解码，并且尤其是但并不是专门涉及双耳虚拟空间信号的音频编码和/或解码。

在最近十年来，对各种源信号的数字编码已变得越来越重要，这是因为数字信号表示和通信日益取代模拟表示和通信。例如，诸如视频和音乐之类的媒体内容的发行越来越基于数字内容编码。

此外，在最近十年中，已经有朝向多声道音频的趋势，并且具体地说，有朝向扩展超出了传统立体声信号的空间音频的趋势。例如，传统立体声录音仅包括两个声道，然而现代先进的音频***典型地使用5个或6个声道(如在流行的5.1环绕声***中)。这提供了用户被声源所环绕这样的更陷入其中的收听体验。

已为这种多声道信号的通信开发了各种技术和标准。例如，可以根据诸如高级音频编码(AAC)或者杜比数字标准这样的标准来传输表示5.1环绕***的6个离散声道。

然而，为了提供向后兼容性，已为大家所熟知的是将较高数目的声道降混到较低数目并且具体地说它通常用于将5.1环绕声信号降混到立体声信号，以允许由传统(立体声)解码器对立体声信号进行重放并且由环绕声解码器对5.1信号进行重放。

一个示例是MPEG2向后兼容编码方法。将多声道信号降混到立体声信号。将附加信号编码到辅助数据部分中，这允许MPEG2多声道解码器产生多声道信号的表示。MPEG1解码器不予处理辅助数据并且因此仅对立体声降混进行解码。这个在MPEG2中应用的编码方法的主要缺点在于附加信号所需的附加数据率与对立体声信号进行编码所需的数据率具有相同的数量级。因此用于使立体声扩展到多声道音频的附加比特率是相当大的。

用于使多声道传输向后兼容而无需附加的多声道信息的其他现有方法典型地表征为矩阵环绕方法。矩阵环绕声编码的示例包括诸如杜比定向逻辑II(Dolby Prologic II)和逻辑-7(Logic-7)这样的方法。这些方法的普通原理是它们使输入信号的多声道与适当非二次矩阵矩阵相乘，从而产生具有较低声道数目的输出信号。具体地说，在使环绕声道与前置声道(front channel)和中心声道混合之前，矩阵编码器典型地将相移应用于环绕声道上。

声道转换的另一原因是编码效率。已发现例如可将环绕声音频信号编码成结合有用于对音频信号的空间特性进行描述的参数比特流的立体声声道音频信号。解码器可以非常满意的精度对立体声音频信号进行重放。按照这种方式，可获得显著的比特率节省。

存在用于对音频信号的空间特性进行描述的若干参数。一个这样的参数是诸如立体声信号的左声道与右声道之间的互相关性这样的声道间互相关性。另一参数是声道的功率比。在所谓的(参数)空间音频编码器中，从原始音频信号提取这些及其他参数以便生成下述音频信号，该音频信号具有例如仅单声道这样的数目降低的声道并加上用于对原始音频信号的空间特性进行描述的一组参数。在所谓的(参数)空间音频解码器中，恢复由所传送的空间参数所描述的空间特性。

这种空间音频编码优选地在编码器和解码器中采用包括标准单元的级连的或者基于树的分级结构。在编码器中，这些标准单元可以是诸如2至1、3至1、3至2等等降混器这样的、将声道组合成较低数目的声道的降混器，而在解码器中，相应标准单位可以是诸如1至2、2至3升混器这样的、将声道分成较高数目的声道的升混器。

3D声源定位是目前引发兴趣的，特别是在移动域中更是如此。当以3D定位时，移动游戏中的音乐重放和音响效果可向用户体验增添重要的价值，这有效地创建了‘头部之外’的立体效果。具体地说，已为大家所熟知的是对包含人耳敏感的特定方向信息的双耳音频信号进行录音和重放。典型地利用安装在假人头中的两个麦克风来进行双耳录音，因此所录的声音与人耳所捕获的声音相对应，并且包括由于头和耳的形状而引起的任何影响。双耳录音与立体声(也就是说立体音响)录音的不同之处在于，对双耳录音的重放通常是用于头戴式受话器或者头戴式耳机，然而立体声录音通常是为通过扩音器进行的重放而构造。虽然双耳录音允许仅利用两个声道来对所有空间信息进行重放，但是立体声录音不会提供相同的空间感知。通过利用一组感知传输函数来对每个规则信号进行卷积而将规则双声道(立体声)或者多声道(例如5.1)录音变换成双耳录音。这种感知传输函数对人耳以及可能的其它对象对信号的影响进行建模。众所周知类型的空间感知传输函数是所谓的与头相关的传输函数(HRTF)。还考虑到由于房间的墙壁、天花板和地板所引起的反射的替换类型的空间感知传输函数是双耳房间脉冲响应(BRIR)。

典型地，3D定位算法采用HRTF，该HRTF借助于脉冲响应描述了从某个声源位置至耳膜的传输。借助于HRTF，可将3D声源定位应用于多声道信号上，因此可允许双耳信号利用例如一对头戴式耳机将立体声信息提供给用户。

众所周知的是通过达到双耳的频谱中的特定波峰和陷波(notches)而显著地便于对高度的感知。另一方面，在诸如耳膜处的信号之间的电平差和到达时差这样的″双耳″线索中捕获声源的(感知)方位角。通过整个信号电平(并且在混响环境的情况下通过直达能量与混响能量的比率)来主要便于对距离的感知。在大多数情况下，假定尤其是在最后的混响尾音中，不存在可靠的声源定位线索。

可以借助于脉冲响应(对)来捕获对高度、方位角、以及距离的感知线索；一个脉冲响应用于对从特定声源位置至左耳的传输进行描述；并且一个脉冲响应用于对从特定声源位置至右耳的传输进行描述。因此，通过HRTF脉冲响应(对)的对应特性来确定高度、方位角、以及距离的感知线索。在大多数情况下，为大的声源位置集合测量HRTF对；该集合典型地在高度和方位角上具有大约为5度的空间分辨率。

传统的双耳3D合成包括对具有期望声源位置的HRTF对的输入信号的滤波(卷积)。然而，因为HRTF典型地在消声条件下进行测量，因此通常遗漏了对″距离″或者″头部之外″的感知。虽然利用消声HRTF对信号的卷积对于3D声音合成是不充分的，但是从复杂性和灵活性的角度来看，消声HRTFs的使用通常是优选地。可以在随后阶段添加回声环境的影响(创建对距离的感知所需的)，这会为最终用户留下了一些更改房间声学特性的灵活性。此外，因为通常假定后期混响是全向的(不具有方向线索)，因此该处理方法通常比利用回声HRTF对来对每个声源进行卷积更有效。此外，除了室内声学的复杂性和灵活性论点之外，利用消声HRTF对于″干″(方向线索)信号的合成也是有好处的。

近来在3D定位领域中的研究已表明由消声HRTF脉冲响应所表示的频率分辨率在许多情况下比必需的更高。具体地说，就相位和幅度谱而言，ERB缩放(scale)所提议的非线性频率分辨率足以以下述精度来对3D声源进行合成，所述精度即与利用全消声HRTF的处理相比，在感知上没有不同。换句话说，消声HRTF谱不需要比人听觉***的频率分辨率更高的谱分辨率。

图1中略述了传统双耳合成算法。由一组HRTF对输入声道集进行滤波。将每个输入信号拆分成两个信号(左″L″和右″R″分量)；随后由与期望声源位置相对应的HRTF对这些信号中的每一个进行滤波。随后对所有左耳信号进行求和以生成左双耳输出信号，并且对所有右耳信号进行求和以生成由双耳输出信号。

可在时间域中执行HRTF卷积，但是通常优选的是在频域中执行滤波以作为乘积。在这种情况下，还可在频域中执行求和。

可接收环绕声编码信号并且可从双耳信号产生环绕声体验的解码器***已为大家所熟知。例如，允许将环绕声信号转换成环绕声双耳信号以向头戴式耳机的用户提供环绕声体验的头戴式耳机***已为大家所熟知。

图2说明了其中MPEG环绕解码器接收具有空间参数数据的立体声信号的***。对输入比特流进行多路信号分离产生了空间参数和降混比特流。利用传统单声道解码器或者立体声解码器来对后者的比特流进行解码。用空间解码器对解码的降混进行解码，其根据所传送的空间参数来生成多声道输出。最后，此后通过双耳合成阶段(与图1相类似)对多声道输出进行处理，这产生了用于向用户提供环绕声体验的双耳输出信号。

然而，这种方法具有多个相关的缺点。

例如，环绕声解码器和双耳合成的级连包括：作为中间步骤的计算多声道信号表示，继之以在双耳合成步骤中进行HRTF卷积和降混。这会导致复杂性增大和性能降低。

此外，该***非常复杂。例如空间解码器典型地在子带(QMF)域中进行操作。另一方面，HRTF卷积典型地在FFT域中可最有效地实现。因此，多声道QMF合成滤波器组、多声道FFT变换、以及立体声逆FFT变换的级连是必需的，这会导致具有高计算需求的***。

所提供的用户感受的质量会降低。例如，由用于创建多声道重构的空间解码器所创建的编码杂音在(立体声)双耳输出中仍是可听得见的。

此外，该方法需要专用解码器以及各个用户设备要执行的复杂信号处理。这阻碍了在许多状况下的应用。例如，仅可对立体声降混进行解码的传统设备不能提供环绕声用户体验。

因此，改进的音频编码/解码会是有利的。

因此，本发明设法逐一地优选减轻、缓和、或消除一个或多个上述缺点或者它们的任何组合。

根据本发明的第一方面，提供了一种音频编码器，该音频编码器包括：用于接收M声道音频信号的装置，其中M>2；降混装置，用于将M声道音频信号降混到第一立体声信号和相关参数数据；生成装置，用于响应于该相关参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，该第二立体声信号是双耳信号；用于对第二立体声信号进行编码以产生编码数据的装置；以及输出装置，用于生成包括该编码数据和相关参数数据的输出数据流。

本发明可改善音频编码。尤其是，本发明可允许对多声道信号进行有效的立体声编码，同时允许传统立体声解码器提供增强的空间体验。此外，本发明允许在解码器上逆向执行双耳虚拟空间合成处理，从而允许高质量的多声道解码。本发明可允许低复杂度的编码器并且尤其是可允许低复杂度地生成双耳信号。本发明可允许便于功能的实现和重用。

本发明尤其是提供了根据多声道信号对双耳虚拟空间信号的基于参数的确定。

该双耳信号具体可以是诸如虚拟3D双耳立体声信号这样的双耳虚拟空间信号。M声道音频信号可以是诸如5.1或者7.1环绕信号这样的环绕信号。双耳虚拟空间信号可以为M声道音频信号中的每个声道模拟一个声源位置。空间参数数据可包括表示从期望声源位置至期望用户的耳膜的传输函数的数据。

双耳感知传输函数例如是头相关传输函数(HRTF)或者双耳房间脉冲响应(BPIR)。

根据本发明的可选特征，生成装置用于通过响应于相关参数数据、空间参数数据、以及第一立体声信号的子带数据值计算第二立体声信号的子带数据值而生成第二立体声信号。

这可允许编码的改善和/或便于实现。具体地说，该特征可提供降低的复杂度和/或降低的计算负荷。第一立体声信号、第二立体声信号、相关参数数据、以及空间参数数据的频率子带间隔可以不同，或者对于这些中的一些或所有而言一些或所有子带基本上是相同的。

根据本发明的可选特征，生成装置用于响应于第一立体声信号的相应立体声子带值乘以第一子带矩阵而生成用于第二立体声信号的第一子带的子带值；该生成装置进一步包括参数装置，该参数装置用于响应于第一子带的相关参数数据和空间参数数据来确定第一子带矩阵的数据值。

这可允许编码的改善和/或便于实现。具体地说，该特征可提供降低的复杂度和/或降低的计算负荷。本发明尤其是提供了通过在各个子带上执行矩阵运算而根据多声道信号对双耳虚拟空间信号的基于参数的确定。第一子带矩阵值可反映对最终产生的多声道的多声道解码与HRTF/BRIR滤波的级连的组合效果。可以为第二立体声信号的所有子带执行子带矩阵乘。

根据本发明的可选特征，生成装置进一步包括用于将第一立体声信号、相关参数数据、以及与频率间隔与第一子带间隔不同的子带相关的空间参数数据中的至少一个转换成第一子带的相应数据值的装置。

这可允许编码的改善和/或便于实现。具体地说，该特征可提供降低的复杂度和/或降低的计算负荷。具体地说，本发明可允许不同处理和算法基于最适于各个处理的子带划分。

根据本发明的可选特征，生成装置用于基本上如下确定第二立体声信号的第一子带的立体声子带值L_B、R_B：

[\begin{matrix} L_{B} \\ R_{B} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

其中L₀、R₀是第一立体声信号的相应子带值并且参数装置基本上如下确定相乘矩阵的数据值：

h₁₁＝m₁₁H_L(L)+m₂₁H_L(R)+m₃₁H_L(C)

h₁₂＝m₁₂H_L(L)+m₂₂H_L(R)+m₃₂H_L(C)

h₂₁＝m₁₁H_R(L)+m₂₁H_R(R)+m₃₁H_R(C)

h₂₂＝m₁₂H_R(L)+m₂₂H_R(R)+m₃₂H_R(C)，

其中m_k，1是为响应相关参数数据而确定的参数以用于降混装置将声道L、R、以及C降混到第一立体声信号；并且H_J(X)是响应于声道X至第二立体声信号的立体声输出声道J的空间参数数据而确定的。

这可允许编码的改善和/或便于实现。具体地说，该特征可提供降低的复杂度和/或降低的计算负荷。

根据本发明的可选特征，声道L和R中的至少一个与至少两个经降混声道的降混相对应并且参数装置用于响应于至少两个经降混声道的空间参数数据的加权组合来确定H_J(X)。

根据本发明的可选特征，参数装置用于响应于对至少两个经降混声道的相对能量度量来确定至少两个经降混声道的空间参数数据的加权。

根据本发明的可选特征，空间参数数据包括从下述组中选择出来的至少一个参数，所述组包括每个子带参数的平均级别(average level)、平均到达时间参数、至少一个立体声声道的相位、定时参数、群延迟参数、立体声声道之间的相位、以及声道互相关参数。

这些参数尤其是提供了有利的编码并且尤其是特定地适合于子带处理。

根据本发明的可选特征，输出装置在输出流中包括声源位置数据。

这可允许解码器确定适当的空间参数数据和/或提供以低开销来表示空间参数数据的有效方式。这可提供在解码器处逆向进行双耳虚拟空间合成处理的有效方式，从而允许高质量的多声道解码。该特征可进一步允许改善的用户体验并且可允许或便于具有移动声源的双耳虚拟空间信号的实现。该特征可替代地或者另外通过首先逆向执行在编码器处所执行的合成、继之以利用定制或者各个双耳感知传输函数进行合成而在解码器处定制空间合成。

根据本发明的可选特征，输出装置布置为在输出流中包括至少一些空间参数数据。

这可提供在解码器处逆向进行双耳虚拟空间合成处理的有效方式，从而允许高质量的多声道解码。该特征可进一步允许改善的用户体验并且可允许或便于具有移动声源的双耳虚拟空间信号的实现。例如通过包括允许解码器确定空间参数数据的信息，可以直接或者间接地将空间参数数据包括在输出流中。该特征可替代地或者另外例如通过首先逆向执行在编码器处所执行的合成、继之以利用定制或者各个双耳感知传输函数进行合成而在解码器处定制空间合成。

根据本发明的可选特征，编码器进一步包括用于响应于期望声音信号位置来确定空间参数数据的装置。

这可允许编码的改善和/或便于实现。期望声音信号位置可以与M声道信号的各个信道的声源位置相对应。

根据本发明的另一方面，提供了一种音频解码器，该音频解码器包括：用于接收输入数据的装置，该输入数据包括第一立体声信号和与M声道音频信号的降混立体声信号相关的参数数据，其中M>2，且第一立体声信号是与M声道音频信号相对应的双耳信号；以及生成装置，用于响应于该参数数据和用于双耳感知传输函数的第一空间参数数据来修改第一立体声信号以生成降混立体声信号，其中第一空间参数数据与第一立体声信号相关联。

本发明可允许音频解码的改善。尤其是，本发明可允许高质量的立体声解码，并且具体地说可允许在解码器处逆向进行编码器双耳虚拟空间合成处理。本发明可允许低复杂度的解码器。本发明可允许便于实现和功能的重用。

该双耳信号特别地是诸如虚拟3D双耳立体声信号这样的双耳虚拟空间信号。该空间参数数据可以包括表示从期望声源位置至期望用户耳朵的传输函数的数据。该双耳感知传输函数可以例如是头相关传输函数(HRTF)或者双耳房间脉冲响应(BPIR)。

根据本发明的可选特征，该音频解码器进一步包括用于响应于降混的立体声信号和参数数据生成M声道音频信号的装置。

本发明可允许改善的音频解码。尤其是，本发明可允许高质量的多声道解码，并且具体地说可允许在解码器处逆向进行编码器双耳虚拟空间合成处理。本发明允许低复杂度的解码器。本发明可允许便于实现和功能的重用。

M声道音频信号是诸如5.1或者7.1环绕信号这样的环绕信号。双耳信号可以是对M声道音频信号中的每个声道的一个声源位置进行模拟的虚拟空间信号。

根据本发明的可选特征，生成装置用于通过响应于相关参数数据、空间参数数据、以及第一立体声信号的子带子数据值来计算降混的立体声信号的子带数据值而生成降混的立体声信号。

这可允许编码的改善和/或便于实现。具体地说，该特征可提供降低的复杂度和/或降低的计算负荷。第一立体声信号、降混立体声信号、相关参数数据、以及空间参数数据的频率子带间隔可以不同，或者对于这些中的一些或全部而言，一些或所有子带基本上是相同的。

根据本发明的可选特征，生成装置用于响应于第一立体声信号的相应立体声子带值与第一子带矩阵的相乘来生成降混立体声信号的第一子带的子带值；

生成装置进一步包括参数装置，该参数装置用于响应于第一子带的参数数据和空间参数数据来确定第一子带矩阵的数据值。

这可允许编码的改善和/或便于实现。具体地说，该特征可提供降低的复杂度和/或降低的计算负荷。第一子带矩阵值可反映最终多声道的多声道解码与HRTF/BRIR滤波的级连的组合效果。可为降混的立体声信号的所有子带执行子带矩阵乘法。

根据本发明的可选特征，输入数据包括至少一些空间参数数据。

这可提供逆向执行在编码器处所执行的双耳虚拟空间合成的有效方式，从而允许高质量的多声道解码。该特征此外可允许提高的用户体验并且允许或者便于具有移动声源的双耳虚拟空间信号的实现。该空间参数数据可以直接或者间接地包含在输入数据之内，例如它可以是允许解码器确定空间参数数据的任何信息。

根据本发明的可选特征，该输入数据包括声源位置数据并且解码器包括用于响应于声源位置数据来确定空间参数数据的装置。

这可允许改善的编码和/或便于实现。期望的声音信号位置可以与用于M声道信号的各个声道的声源的位置相对应。

解码器可以例如包括其包括有与不同声源位置相关的HRTF空间参数数据的数据存储器并且可以通过检索用于所示位置的参数数据来确定要使用的空间参数数据。

根据本发明的可选特征，音频解码器进一步包括空间解码器单元，该空间解码器单元用于通过响应于相关参数数据和用于第二双耳感知传输函数的第二空间参数数据来修改第一立体声信号以产生一对双耳输出声道，其中该第二空间参数数据不同于第一空间参数数据。

该特征可允许改善的空间合成并且尤其是可允许特别适合于特定用户的专用或者定制空间合成双耳信号。在实现此的同时仍可允许传统立体声解码器生成空间双耳信号而无需在解码器中进行空间合成。因此，可实现改善的音频***。第二双耳感知传输函数特别地不同于第一空间数据的双耳感知传输函数。第二双耳感知传输函数和第二空间数据可以特别地为解码器的各个用户定制。

根据本发明的可选特征，空间解码器包括：参数转换单元，用于利用第二空间参数数据将参数数据转换成双耳合成参数；以及空间合成单元，用于利用双耳合成参数和第一立体声信号来对双耳声道对进行合成。

这可允许改善的性能可和/或便于实现和/或降低的复杂度。双耳参数可以是这样的参数，其可以与第一立体声信号和/或降混立体声信号的子带样本相乘以生成双耳声道的子带样本的参数。该乘法例如是矩阵乘法。

根据本发明的可选特征，双耳合成参数包括使降混的立体声信号的立体声样本与双耳输出声道对的立体声样本相关的2乘2矩阵的矩阵系数。

这可允许改善的性能和/或便于实现和/或降低的复杂度。该立体声样本是例如QMF或者傅里叶变换频率子带的立体声子带样本。

根据本发明的可选特征，双耳合成参数包括使第一立体声信号的立体声子带样本与双耳输出声道对的立体声样本相关的2乘2矩阵的矩阵系数。

这可允许改善的性能和/或便于实现和/或降低的复杂度。该立体声抽样是例如QMF或者傅里叶变换频率子带的立体声子带样本。

根据本发明的另一方面，提供了一种音频编码的方法，该方法包括：接收M声道音频信号，其中M>2；将M声道音频信号降混到第一立体声信号和相关参数数据；响应于该相关参数数据和双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，第二立体声信号是双耳信号；对第二立体声信号进行编码以生成编码数据；以及生成包括编码数据和相关参数数据的输出数据流。

根据本发明的另一方面，提供了一种音频解码的方法，该方法包括：

-接收输入数据，该输入数据包括第一立体声信号和与M声道音频信号的降混立体声信号相关的参数数据，其中M>2，第一立体声信号是与M声道音频信号相对应的双耳信号；以及

-响应于参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成降混立体声信号，该空间参数数据与第一立体声信号相关。

根据本发明的另一方面，提供了一种用于接收音频信号的接收器，该接收器包括：用于接收输入数据的装置，该输入数据包括第一立体声信号和与M声道音频信号的降混立体声信号相关的参数数据，其中M>2，第一立体声信号是与M声道音频信号相对应的双耳信号；以及生成装置，用于响应于参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成降混立体声信号，该空间参数数据与第一立体声信号相关。

根据本发明的另一方面，提供了一种用于传送输出数据流的发射器，该发射器包括：用于接收M声道音频信号的装置，其中M>2；降混装置，用于将M声道音频信号降混为第一立体声信号和相关参数数据；生成装置，用于响应于相关参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，该第二立体声信号是双耳信号；用于对第二立体声信号进行编码以生成编码数据的装置；输出装置，用于生成包括编码数据和相关参数数据的输出数据流；以及用于传送输出数据流的装置。

根据本发明的另一方面，提供了一种用于对音频信号进行传送的传输***，该传输***包括发射器和接收器，该发射器包括：用于接收M声道音频信号的装置，其中M>2；降混装置，用于将M声道音频信号降混到第一立体声信号和相关参数数据；生成装置，用于响应于相关参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，该第二立体声信号是双耳信号；用于对第二立体声信号进行编码以生成编码数据的装置；输出装置，用于生成包括编码数据和相关参数数据的音频输出数据流；以及用于传送音频输出数据流的装置，以及该接收器包括：用于接收音频输出数据流的装置；以及用于响应于参数数据和空间参数数据来修改第二立体声信号以生成第一立体声信号的装置。

根据本发明的另一方面，提供了一种用于接收音频信号的方法，该方法包括：接收输入数据，该输入数据包括第一立体声信号和与M声道音频信号的降混立体声信号相关的参数数据，其中M>2，第一立体声信号是与M声道音频信号相对应的双耳信号；以及响应于参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成降混立体声信号，该空间参数数据与第一立体声信号相关。

根据本发明的另一方面，提供了一种用于传送音频输出数据流的方法，该方法包括：接收M声道音频信号，其中M>2；将M声道音频信号降混到第一立体声信号和相关参数数据；响应于该相关参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，该第二立体声信号是双耳信号；对第二立体声信号进行编码以产生编码数据；生成包括编码数据和相关参数数据的音频输出数据流；以及传送该输出数据流。

根据本发明的另一方面，提供了一种用于传送和接收音频信号的方法，该方法包括：接收M声道音频信号，其中M>2；将M声道音频信号降混到第一立体声信号和相关参数数据；响应于相关参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，第二立体声信号是双耳信号；对第二立体声信号进行编码以生成编码数据；生成包括编码数据和相关参数数据的音频输出数据流；传送该音频输出数据流；接收该音频输出数据流；以及响应于参数数据和空间参数数据修改第二立体声信号以生成第一立体声信号。

根据本发明的另一方面，提供了一种用于执行任何上述方法的计算机程序产品。

根据本发明的另一方面，提供了一种包括有根据上述编码器的编码器的音频录音设备。

根据本发明的另一方面，提供了一种音频播放设备，该音频播放设备包括根据上述解码器的解码器。

根据本发明的另一方面，提供了一种音频信号的音频数据流，该音频数据流包括第一立体声信号；以及与M声道音频信号的降混立体声信号相关的参数数据，其中M>2；其中第一立体声信号是与M声道音频信号相对应的双耳信号。

根据本发明的另一方面，提供了一种其上存储了上述信号的存储介质。

根据在下文中所描述的实施例可显而易见地得知本发明的这些及其他方面、特征、以及优点并且参考在下文中所描述的实施例对其进行了说明。

参考附图，仅通过示例的方式对本发明的实施例进行描述，在附图中：

图1是对根据先有技术的双耳合成的说明；

图2是对多声道解码器与双耳合成的级连的说明；

图3说明了根据本发明一些实施例的用于对音频信号进行传递的传输***；

图4说明了根据本发明一些实施例的编码器；

图5说明了环绕声参数降混编码器；

图6说明了相对于用户的声源位置的示例；

图7说明了根据本发明一些实施例的多声道解码器；

图8说明了根据本发明一些实施例的解码器；

图9说明了根据本发明一些实施例的解码器；

图10说明了根据本发明一些实施例的音频编码方法；以及

图11说明了根据本发明一些实施例的音频解码方法。

图3说明了根据本发明一些实施例的用于对音频信号进行传递的传输***300。该传输***300包括通过网络305而与接收器303相耦合的发射器301，其中网络305特别地是互联网。

在该特定示例中，发射器301是信号记录设备并且接收器是信号播放设备303，但是应该清楚的是在其他实施例中，发射器和接收器用在其它应用中并且用于其他目的。例如，发射器301和/或接收器303是转码功能的一部分并且例如提供与其他信号源或者目的地的接口。

在支持信号记录功能的特定示例中，发射器301包括数字化器307，该数字化器307接收通过采样和模数转换而转换成数字PCM信号的模拟信号。数字化器307对多个信号进行采样，从而生成多声道信号。

发射器301与图1的编码器309相耦接，该编码器309根据编码算法对多声道信号进行编码。编码器300与网络发射器311相耦接，该网络发射器311接收编码信号并且与互联网305相接口。该网络发射器通过互联网305将编码的信号传送到接收器303。

接收器303包括与互联网305相接口并且用于接收来自发射器301的编码信号的网络接收器313。

网络接收器311与解码器315相耦接。解码器315接收编码的信号并且根据解码算法对它进行解码.

在支持信号播放功能的特定示例中，接收器303还包括用于接收来自解码器315的解码音频信号并且将其呈现给用户的信号播放器317。具体地说，信号播放器313可以包括输出解码音频信号所需要的数模转换器、放大器、和扬声器。

在该特定示例中，编码器309接收5声道环绕声信号并且将此降混到立体声信号。此后对立体声信号进行后处理以产生双耳信号，该双耳信号特别地是以3D双耳降混形式的双耳虚拟空间信号。通过在空间编码之后利用作用于降混的3D后处理阶段，可在解码器315中逆向进行3D处理。其结果是，用于扩音器回放的多声道解码器将由于修改的立体声降混而没有示出质量的显著降低，而同时，甚至传统立体声解码器将会生成3D兼容的信号。因此，编码器309可生成这样的信号，其允许高质量的多声道解码，并且同时允许来自诸如送至一副头戴式耳机的传统解码器这样的传统立体声输出的拟空间体验。

图4更详细地说明了编码器309。

编码器309包括用于接收多声道音频信号的多声道接收器401。虽然所述原理应用于包括超过两个的任何数目的声道的多声道信号，但是该特定示例将集中于与标准环绕声信号相对应的5个声道信号(为了清楚和简洁起见，将忽略环绕信号所频繁使用的低频声道。然而所属技术领域的专业人员应清楚的是，多声道信号可以具有附加的低频声道。可以通过降混处理器使该声道例如与中心声道相结合)。

多声道接收器401与用于将5声道音频信号降混到第一立体声信号的降混处理器403相耦接。此外，降混处理器403生成参数数据405，该参数数据405与第一立体声信号相关并且包含使第一立体声信号与多声道信号的原始声道相关的音频线索以及信息。

降混处理器403可以例如实现MPEG环绕多声道编码器。在图5中对这种示例进行了说明。在该示例中，多声道输入信号包括Lf(左前)、Ls(左环绕)、C(中心)、Rf(右前)、以及Rs(右环绕)声道。将Lf和Ls声道馈送到第一TTO(2至1)降混器501，该第一TTO降混器501生成用于左(L)声道的单声道降混以及使两个输入声道Lf和Ls与输出L声道相关的参数。类似地，将Rf和Rs声道馈送到第二TTO降混器503，该第二TTO降混器503生成用于右(R)声道的单声道降混以及使两个输入声道Rf和Rs与输出R声道相关的参数。此后将R、L、以及C声道馈送到TTT(3至2)降混器505，该TTT降混器505对这些信号进行组合以生成立体声降混和附加空间参数。

由TTT降混器505产生的参数典型地包括用于每个参数带的预测系数对或者用于对三个输入信号的能量比进行描述的级别差对。TTO降混器501，503的参数典型包括在用于每个频带的输入信号之间的电平差以及相干或互相关值。

所生成的第一立体声信号因此是包括有多个降混声道的标准传统立体声信号。多声道解码器可以通过上混并且应用该相关参数数据可重建原始多声道信号。然而，标准立体声解码器仅仅提供立体声信号，从而丢失空间信息并且产生降低的用户体验。

然而，在编码器309中，不直接对降混的立体声信号进行编码和传送。相反地，将第一立体声信号馈送到空间处理器407，该空间处理器407还馈送有来自降混处理器403的相关参数数据405。该空间处理器407还与HRTF处理器409相耦接。

HRTF处理器409生成由空间处理器407使用以生成3D双耳信号的头相关传输函数(HRTF)。具体地说，HRTF借助于脉冲响应描述了从给定声源位置至耳膜的传输函数。HRTF处理器409具体地说生成了与频率子带中的期望HRTF函数的值相对应的HRTF参数数据。HRTF处理器409可以例如计算用于多声道信号的声道之一的声源位置的HRTF。可以将该传输函数转换成适当频率子带域(诸如QMF或者FFT子带域)并且可以确定每个子带中的相应HRTF参数值。

应该清楚的是，虽然本说明书集中于头相关传输函数的应用，但是所述方法和原理同样可应用于诸如双耳房间脉冲响应(BRIR)函数这样的其他(空间)双耳感知传输函数。双耳感知传输函数的另一示例是简单的幅度淘选(panning)规则，该规则描述了从一个输入声道到双耳立体声输出声道中的每个的信号电平的相对量。

在一些实施例中，可以动态地计算HRTF参数，然而在其他实施例中，它们可以是预先确定的并且存储在适当数据存储器中。例如，可将HRTF参数作为方位角、高度、距离、以及频带的函数存储在数据库中。因此可通过选择期望立体声源位置的值来简单地检索给定频率子带的适当HRTF参数。

空间处理器407响应于相关参数数据和空间HRTF参数数据来修改第一立体声信号以生成第二立体声信号。与第一立体声信号相反，第二立体声信号是双耳虚拟空间信号并且特定地是下述3D双耳信号，当所述3D双耳信号通过传统立体声***(例如通过一副头戴式耳机)来呈现时，所述3D双耳信号可提供模拟在不同声源位置处存在超过两个声源的增强的空间体验。

将第二立体声信号馈送到编码处理器411，该编码处理器411与空间处理器407相耦接并且将第二信号编码成适于传送的数据流(例如应用适当量化等级等等)。编码处理器411与输出处理器413相耦接，该输出处理器413通过至少对编码的第二立体声信号数据与由降混处理器403所生成的相关参数数据405进行组合而生成输出流。

典型地，HRTF合成需要所有各个声源(例如在环绕声信号的环境下的扩音器信号)的波形。然而，在编码器307中，为频率子带参数化HRTF，从而允许在编码(以及降混)处理期间所提取的空间参数的帮助下、借助于对多声道输入信号的降混的低复杂度后处理可生成虚拟5.1扩音器设置。

空间处理器可以特别地在诸如QMF或FFT子带域这样的子带域中进行操作。并非对降混的第一立体声信号进行解码以生成原始多声道信号并继之以利用HRTF滤波进行HRTF合成，而是空间处理器407生成每个子带的参数值，该参数值与将降混的第一立体声信号解码成多声道信号并继之以将多声道信号重编码为3D双耳信号的组合效果相对应。

具体地说，本发明人已经意识到通过将2 x 2矩阵乘法应用于第一信号的子带信号值上可生成3D双耳信号。最终产生的第二信号的信号值与通过级连的多声道解码与HRTF合成会生成的信号值紧密对应。因此，可将多声道编码和HRTF合成的组合信号处理组合成可简单地应用于第一信号的子带信号值上以生成第二信号的期望子带值的4个参数值(矩阵系数)。因为矩阵参数值反映了对多声道信号进行解码与HRTF合成的组合处理，所以响应于来自降混处理器403的相关参数数据以及HRTF参数来确定该参数值。

在编码器309中，为各个频带参数化HRTF函数。HRTF参数化的目的是从每个HRTF对捕获声源定位的最重要线索。这些参数可包括：

-左耳脉冲响应的每频率子带的(平均)级别；

-右耳脉冲响应的每频率子带的(平均)级别；

-左耳与右耳脉冲响应之间的(平均)到达时间或者相位差；

-左右耳脉冲响应的每个频率子带的(平均)绝对相位或时间(或群延迟)(在这种情况下，时间或相位差在大多数情况下变得过时)；

-相应脉冲响应之间的每个频率子带的声道互相关性或相干性。

每个频率子带的级别参数可便于高度合成(由于波谱中的特定波峰和波谷)以及方位角的级别差(通过每个带的级别参数的比率来确定)。

绝对相位值或相差值可捕获两个耳之间的到达时差，这对于声源方位角也是重要线索。可以添加相干值以模拟两耳之间的细微结构差，其不会对为每个(参数)带平均的级别和/或相差有所贡献。

在下文中，对空间处理器407进行的处理的特定示例进行描述。在该示例中，如图6所示，通过方位角α和距离D来相对于听众定义声源的位置。位于听众左边的声源对应于正的方位角。由H_L来表示从声源位置至左耳的传输函数；由H_R来表示从声源位置至右耳的传输函数。

传输函数H_L和H_R取决于方位角α、距离D、以及高度

(图6中未示出)。在参数表示中，可将传输函数描述为每个HRTF频率子带b_h的三个参数集。该参数集包括左传输函数中的每个频带的平均级别P₁(α，ε，D，b_h)、右传输函数中的每个频带的平均级别P_r(α，ε，D，b_h)、以及每个频带的平均相差φ(α，ε，D，b_h)。该集合的可能扩展包括对每个HRTF频带的左传输函数和右传输函数的相干性测量ρ(α，ε，D，bh)。可以将这些参数作为方位角、高度、距离、以及频带的函数存储在数据库中，和/或这些参数可以利用一些解析函数来计算。例如，可以将P₁和P_r参数存储为方位角和高度的函数，同时通过将这些值除以距离本身(假定信号电平与距离之间有1/D关系)可实现距离的影响。在下文中，符号P₁(Lf)表示与Lf声道的声源位置相对应的空间参数P₁。

应该注意的是，用于HRTF参数化的频率子带的数目(b_h)以及每个子带的带宽不必等于空间处理器407所使用的(QMF)滤波器组(k)的频率分辨率或者降混处理器403的空间参数分辨率和相关参数带(b_p)。例如，QMF混合滤波器组可具有71个通道，HRTF可在28个频带中参数化，并且可以利用10个参数带执行空间编码。在这种情况下，可例如利用查询表或者内插或平均函数来应用从空间和HRTF参数到QMF混合索引的映射。在该说明书中将使用以下参数索引：

在该特定示例中，空间处理器407通过QMF滤波将第一立体声信号划分成适当频率子带。对于每个子带而言，子带值L_B、R_B被确定为：

[\begin{matrix} L_{B} \\ R_{B} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

其中L₀、R₀是第一立体声信号的相应子带值并且矩阵值h_j，k是根据HRTF参数和降混相关参数数据确定的参数。

矩阵系数目的在于再现降混的特性，就好像利用与期望声源位置相对应的HRTF来对所有各个声道进行处理那样，并且它们包括对多声道信号进行解码与对此执行HRTF合成的组合效果。

具体地说，并且参考图5以及其说明，可以将矩阵值确定为：

h₁₁＝m₁₁H_L(L)+m₂₁H_L(R)+m₃₁H_L(C)

h₁₂＝m₁₂H_L(L)+m₂₂H_L(R)+m₃₂H_L(C)

h₂₁＝m₁₁H_R(L)+m₂₁H_R(R)+m₃₁H_R(C)

h₂₂＝m₁₂H_R(L)+m₂₂H_R(R)+m₃₂H_R(C)

其中m_k，1是响应于TTT降混器505所生成的参数数据而确定的参数。

具体地说，根据下式而从立体声降混信号L₀、R₀生成L、R、以及C信号：

[\begin{matrix} L \\ R \\ C \end{matrix}] = [\begin{matrix} m_{11} & m_{12} \\ m_{21} & m_{22} \\ m_{31} & m_{32} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

其中m_k，1取决于作为所传送的空间参数的一部分的两个预测系数c₁和c₂：

[\begin{matrix} m_{11} & m_{12} \\ m_{21} & m_{22} \\ m_{31} & m_{32} \end{matrix}] = \frac{1}{3} [\begin{matrix} c_{1} + 2 & c_{2} - 1 \\ c_{1} - 1 & c_{2} + 1 \\ 1 - c_{1} & 1 - c_{2} \end{matrix}]

值H_J(X)响应于用于声道X至第二立体声信号的立体声输出声道J的HRTF参数数据以及适当降混参数而确定。

具体地说，H_J(X)参数与由两个TTO降混器501、503所生成的左(L)和右(R)降混信号有关并且响应于两个降混声道的HRTF参数数据而确定。具体地说，可以使用两个各个左(Lf和Ls)或者右(Rf和Rs)声道的HRTF参数的加权组合。可通过各个信号的相对能量来对各个参数进行加权。作为特定示例，可以为左信号(L)确定以下值：

H_{L} (L) = \sqrt{w_{lf}^{2} P_{i}^{2} (Lf) + w_{ls}^{2} P_{i}^{2} (Ls)}

其中如下给定加权w_x：

w_{lf}^{2} = \frac{10^{{CLD}_{l} / 10}}{1 + 10^{{CLD}_{l} / 10}}

w_{ls}^{2} = \frac{1}{1 + 10^{{CLD}_{l} / 10}}

并且CLD₁是按照分贝所定义的左前(Lf)与左环绕(Ls)之间的‘声道级别差’(其就是空间参数比特流的一部分)：

{CLD}_{l} = 10 \log_{10} (\frac{σ_{Lf}^{2}}{σ_{Ls}^{2}})

其中б² _1f是Lf声道的参数子带中的功率，并且б² _1s是Ls声道的相应子带中的功率。

类似地，可为右信号(R)确定以下值：

H_{R} (R) = \sqrt{w_{rf}^{2} P_{l}^{2} (Rf) + w_{rs}^{2} P_{l}^{2} (Rs)}

w_{rf}^{2} = \frac{10^{{CLD}_{r} / 10}}{1 + 10^{{CLD}_{r} / 10}}

w_{rs}^{2} = \frac{1}{1 + 10^{{CLD}_{r} / 10}}

并且可为中心(C)信号确定以下值：

H₁(C)＝P₁(C)e^+jφ(C)/2

H_R(C)＝P_r(C)e^-jφ(C)/2

因此，利用所述方法，低复杂度空间处理可允许基于降混多声道信号来生成双耳虚拟空间信号。

如所提到的，所述方法的优点在于相关降混参数的频率子带、空间处理器407的空间处理和HRTF参数不必相同。例如，可执行一个子带至空间处理子带的参数之间的映射。例如，如果空间处理子带覆盖了与两个HRTF参数子带相对应的频率间隔，那么空间处理器407可简单地为与空间参数相对应的所有HRTF参数子带使用相同的空间参数来将(各个)处理应用于HRTF参数子带上。

在一些实施例中，编码器309可以布置为在输出流中包括允许解码器识别出一个或多个声源的期望位置数据的声源位置数据。这允许解码器确定出编码器309所应用的HRTF参数，从而允许逆向执行空间处理器407的操作。另外或者替代地，编码器可以布置为在输出流中包括至少一些HRTF参数数据。

因此，选择性地，HRTF参数和/或扩音器位置数据可包含在输出流中。这例如可允许动态更新作为时间函数的扩音器位置数据(在扩音器位置传送的情况下)或者使用逐个的HRTF数据(在HRTF参数传送的情况下)。

在将HRTF参数作为位流的一部分进行传送的情况下，可以至少为每个频带以及每个声源位置传送P₁、P_r、以及φ参数。可利用线性量化器来对幅度参数P₁、P_r进行量化或者可在对数域中对幅度参数P₁、P_r进行量化。可对相为角φ进行线性量化。因此量化器索引可包含在比特流中。

此外，对于典型地超过2.5kHz的频率而言，假定相角φ为零，这是因为对于高频而言(耳间)相位信息是感知不相干的。

在量化之后，可以将各种无损压缩方案应用于HRTF参数量化器索引。例如，可与差分编码交叉频带相结合地使用熵编码。替代地，可以将HRTF参数表示为相对于共同或者平均HRTF参数集的差。这尤其适用于幅度参数。否则，可以通过对高度和方位角进行简单地编码来对相位参数进行十分精确的近似估计。通过计算到达时差[典型地，到达时差实际上与频率无关；它主要取决于方位角和高度]，并给定到两耳的轨迹差，可导出相应的相位参数。此外可基于方位角和高度值将测量差值差分地编码为预测值。

还可应用诸如主分量分解这样的损耗压缩，并继之以少数最主要的PCA权重的传送。

图7说明了根据本发明一些实施例的多声道解码器的示例。该解码器特别地是图3中的解码器315。

解码器315包括用于接收来自编码器309的输出流的输入接收器701。输入接收器701对所接收到的数据流进行多路分离并且将有关数据提供给适当功能元件。

输入接收器701与馈送有第二立体声信号的编码数据的解码处理器703相耦接。解码处理器703对该数据进行解码以生成由空间处理器407所产生的双耳虚拟空间信号。

解码处理器703与用于逆向执行空间处理器407所执行的操作的反向处理器705相耦接。因此，反向处理器705生成由降混处理器403所产生的降混立体声信号。

具体地说，反向处理器705通过将矩阵乘法应用于所接收到的双耳虚拟空间信号上而生成降混立体声信号。矩阵乘法通过与由空间处理器407所使用的逆矩阵相对应的矩阵来进行，从而使该操作逆向：

[\begin{matrix} L_{0} \\ R_{0} \end{matrix}] = {[\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}]}^{- 1} [\begin{matrix} L_{B} \\ R_{B} \end{matrix}]

还可将该矩阵乘法描述为：

[\begin{matrix} L_{0} \\ R_{0} \end{matrix}] = [\begin{matrix} q_{11} & q_{12} \\ q_{21} & q_{22} \end{matrix}] [\begin{matrix} L_{B} \\ R_{B} \end{matrix}]

根据与降混信号相关的(并且在来自解码器309的数据流中接收到的)参数数据和HRTF参数数据来确定矩阵系数q_k，1。具体地说，解码器409还可以使用参考编码器309所描述的方法以生成矩阵系数h_xy。因此可通过标准矩阵求逆得到矩阵系数q_xy。

反向处理器705与用于确定要使用的HRTF参数数据的参数处理器707相耦接。在一些实施例中，HRTF参数包含在所接收到的数据流中并且可简单地从中提取HRTF参数。在其他实施例中，为不同的声源位置将不同的HRTF参数存储在数据库中，并且参数处理器707可通过提取与期望信号源位置相对应的值来确定HRTF参数。在一些实施例中，期望信号源位置(多个)可包含在来自编码器309的数据流中。参数处理器707可提取该信息并且使用它来确定HRTF参数。例如，它可检索为指示声源位置(多个)所存储的HRTF参数。

在一些实施例中，可以直接输出反向处理器所生成的立体声信号。然而，在其他实施例中，可以将它馈送到多声道解码器709，该多声道解码器709可根据降混立体声信号以及所接收到的参数数据生成M声道信号。

在该示例中，在诸如QMF或者傅里叶频率子带这样的子带域中执行3D双耳合成的逆向。因此，解码处理器703可以包括用于生成要馈送到反向处理器705的子带样本的QMF滤波器组或者快速傅里叶变换(FFT)。类似地，反向处理器705或者多声道解码器709包括用于将该信号转换回时间域的逆FFT或者QMF滤波器组。

在编码器侧生成3D双耳信号可允许通过传统立体声编码器向头戴式耳机用户提供空间收听体验。因此，所述方法的优点在于，传统立体声设备可再现3D双耳信号。因而，为了再现3D双耳信号，无需应用附加的后处理，这会导致低复杂度的解决方案。

然而，在该方法中，典型地使用了通用HRTF，其与利用为特定用户优化的专用HRTF数据而在解码器处生成3D双耳信号相比，该通用HRTF在有些情况下会导致次优的空间生成。

具体地说，对距离的有限感知以及可能的声源定位错误有时会源自于对非个性化HRTF(诸如为模拟头或者他人所测量的脉冲响应)的使用。原理上，由于人体的解剖几何结构的差别而使HRTF对于每个人都不同。因此利用个性化的HRTF数据可更好地实现就正确声源定位而言的最佳结果。

在一些示例中，解码器315进一步包括下述功能，即首先使编码器309的空间处理逆向，继之以利用局部HRTF数据并且特别是利用为特定用户而优化的各个HRTF数据生成3D双耳信号。因此，在该实施例中，解码器315通过利用相关参数数据以及与在编码器309处所使用的(HRTF)数据不同的HRTF参数数据来修改降混立体声信号而生成一对双耳输出声道。因此，在该方法中提供了编码器侧的3D合成、解码器侧逆向的组合，并继之以解码器侧3D合成的另一阶段。

这种方法的优点在于，传统立体声设备将具有3D双耳信号作为用于提供基本3D质量的输出，同时增强的解码器可选择使用可改善3D质量的个性化HRTF。因此，能够在相同音频***中允许与传统兼容的3D合成以及高质量的专用3D合成。

在图8中说明了这种***的简单示例，图8示出了如何将附加空间处理器801添加到图7的解码器中以提供定制的3D双耳输出信号。在一些实施例中，空间处理器801利用每个音频声道的各个HRTF函数可简单地提供简单明了的3D双耳合成。因此，解码器可重新创建原始多声道信号并且利用定制的HRTF滤波将此转换成3D双耳信号。

在其他实施例中，可对编码器合成与解码器合成的逆向执行进行组合以提供较低复杂度的操作。具体地说，可对解码器合成所使用的定制化HRTF进行参数化并且将其与编码器3D合成所使用的参数(的逆向)相组合。

更具体地说，如先前所描述的，编码器合成涉及将降混信号的立体声子带样本乘以2 x 2矩阵：

[\begin{matrix} L_{B} \\ R_{B} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

其中，如先前所述，L₀、R₀是降混立体声信号的相应子带值并且矩阵值h_j，k是根据HRTF参数以及降混相关参数数据确定的参数。

因此可由下式给出反向处理器705所执行的逆向处理：

[\begin{matrix} L_{0} \\ R_{0} \end{matrix}] = {[\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}]}^{- 1} [\begin{matrix} L_{B} \\ R_{B} \end{matrix}]

其中L_B、R_B是解码器降混立体声信号的相应子带值。

为了确保适当的解码器侧逆向处理，在编码器中使用用于生成3D双耳信号的HRTF参数以及用于使3D双耳处理逆向的HRTF参数相同或者足够相似。因为一个比特流通常服务若干解码器，因此很难通过编码器合成获得3D双耳降混的个性化。

然而，因为3D双耳合成处理是可逆的，因此反向处理器705可再生成降混立体声信号，该降混立体声信号此后用于根据个性化的HRTF来生成3D双耳信号。

具体地说，与编码器309上的操作类似，通过对降混信号L₀、R₀的简单按子带2 x 2矩阵操作可在解码器315处生成3D双耳合成以生成3D双耳信号L_B′、R_B′：

[\begin{matrix} L_{B'} \\ R_{B'} \end{matrix}] = [\begin{matrix} p_{11} & p_{12} \\ p_{21} & p_{22} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

其中按照与由编码器309基于一般HRTF生成h_x，y相同的方式来基于个性化的HRTF来确定参数p_x，y。具体地说，在解码器309中，参数h_x，y是根据多声道参数数据和一般HRTF来确定的。当将多声道参数数据传送到解码器315时，通过此可使用相同方法来根据各个HRTF来计算p_x，y。

将此与反向处理器705的操作相结合，

[\begin{matrix} L_{B'} \\ R_{B'} \end{matrix}] = [\begin{matrix} p_{11} & p_{12} \\ p_{21} & p_{22} \end{matrix}] {[\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}]}^{- 1} [\begin{matrix} L_{B} \\ R_{B} \end{matrix}] = [\begin{matrix} α_{11} & α_{12} \\ α_{21} & α_{22} \end{matrix}] [\begin{matrix} L_{B} \\ R_{B} \end{matrix}]

在该等式中，利用在编码器中所使用的一般非个性化的HRTF集可获得矩阵项h_x，y，同时利用不同的且更好是个性化的HRTF集可获得矩阵项p_x，y。因此利用非个别化的HRTF数据所生成的3D双耳输入信号L_B、R_B将利用不同个性化的HRTF数据转换成替换的3D双耳输出信号L_B′、R_B′。

此外，如所说明的，可以通过简单的2 x 2矩阵操作可实现编码器合成的逆向处理与解码器合成的结合方法。因此该结合处理的计算复杂度事实上与简单的3D双耳逆向处理相同。

图9说明了根据上述原理进行操作的解码器315的示例。具体地说，将来自编码器309的3D双耳立体声降混的立体声子带样本馈送到反向处理器705，该反向处理器705通过2 x 2矩阵操作再生成原始立体声降混样本。

[\begin{matrix} L_{0} \\ R_{0} \end{matrix}] = {[\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}]}^{- 1} [\begin{matrix} L_{B} \\ R_{B} \end{matrix}]

将最终生成的子带样本馈送到空间合成单元901，该空间合成单元901通过将这些样本乘以2 x 2矩阵而生成个别化的3D双耳信号。

[\begin{matrix} L_{B'} \\ R_{B'} \end{matrix}] = [\begin{matrix} p_{11} & p_{12} \\ p_{21} & p_{22} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

该矩阵系数是由用于根据个别化的HRTF以及从编码器309所接收到的多声道扩展数据生成参数的参数转换单元(903)所生成。

将该合成子带样本L_B′、R_B′馈送到用于生成可提供给用户的3D双耳时间域信号的子带至时间域转换905。

虽然图9说明了作为不同功能单元的连续操作的基于非个别化HRTF的3D逆向以及基于个别化HRTF的3D合成的步骤，但是应清楚的是，在许多实施例中通过单个矩阵应用可同时应用这些操作。具体地说，计算2 x 2矩阵：

[\begin{matrix} α_{11} & α_{12} \\ α_{21} & α_{22} \end{matrix}] = [\begin{matrix} p_{11} & p_{12} \\ p_{21} & p_{22} \end{matrix}] {[\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}]}^{- 1}

并且将输出样本计算为

[\begin{matrix} L_{B'} \\ R_{B'} \end{matrix}] = [\begin{matrix} α_{11} & α_{12} \\ α_{21} & α_{22} \end{matrix}] [\begin{matrix} L_{B} \\ R_{B} \end{matrix}]

应清楚的是所述***提供了许多优点，其包括：

—多声道重构没有或者几乎没有(感知)质量降低，这是因为可在多声道解码器处逆向进行空间立体声处理。

—甚至可以通过传统立体声解码器提供(3D)空间双耳立体声体验。

—与现有空间位置方法相比复杂度降低了。复杂度在许多方面降低了：

—HRTF参数的有效存储。代替存储HRTF脉冲响应，仅仅有限数目的参数用于表征HRTF。

—有效的3D处理。因为将HRTF表征为有限频率分辨率的参数，并且可在(高下采样)参数域中执行HRTF参数的应用，因此与基于全HRTF卷积的传统合成法相比，空间合成阶段更有效。

—例如可在QMF域中执行所需处理，这会导致比基于FFT的方法更小的计算和存储器负荷。

—对现有环绕声构成块(诸如标准MPEG环绕声编码/解码功能)的有效重用可使实现复杂度最小。

—通过对编码器所传送的(参数化)HRTF数据进行修改使个性化成为可能。

—声源位置可通过所传送的位置信息而即时(on the fly)变化。

图10说明了根据本发明的一些实施例的音频编码的方法。

该方法在步骤1001开始，在该步骤1001中，接收M声道音频信号(M>2)。

步骤1001后面是步骤1003，在该步骤1003中，将M声道音频信号降混到第一立体声信号以及相关参数数据。

步骤1003后面是步骤1005，在该步骤1005中，响应于相关参数数据和空间头相关传输函数(HRTF)参数数据对第一立体声信号进行修改以生成第二立体声信号。第二立体声信号是双耳虚拟空间信号。

步骤1005后面是步骤1007，在步骤1007中，对第二立体声信号进行编码以生成编码数据。

步骤1007后面是步骤1009，在该步骤1009中，生成包括有编码数据和相关参数数据的输出数据流。

图11说明了根据本发明的一些实施例的音频解码的方法。

该方法在步骤1101开始，在步骤1101中，解码器接收包括有第一立体声信号以及与M声道音频信号的降混立体声信号相关的参数数据的输入数据，其中M>2。第一立体声信号是双耳虚拟空间信号。

步骤1101后面是步骤1103，在该步骤1103中，响应于参数数据和与第一立体声信号相关的空间头相关传输函数(HRTF)参数数据对第一立体声信号进行修改以生成降混立体声信号。

步骤1103后面是可选步骤1105，在该步骤1105中，响应于降混立体声信号和参数数据生成M声道音频信号。

应清楚的是，为了清楚起见，上述描述已经参考不同功能单元和处理器对本发明的实施例进行了描述。然而，很显然的是，在不脱离本发明的情况下可使用不同功能单元或者处理器之间的任何适当的功能分配。例如，可由相同处理器或者控制器执行被说明由独立处理器或者控制器所执行的功能。因此，应仅将对特定功能单元的参考看作是对下述适当装置的参考，所述适当装置用于提供所述功能而不是表示严格逻辑或物理结构或组织。

本发明可以包括有硬件、软件、固件、或者这些的任何组合的适当形式来实现。本发明可以选择性地至少部分地作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件来实现。本发明的实施例的元件和部件可以任何适当方式而物理上地、功能上地、以及逻辑上地实现。实际上功能可以是在单个单元、在多个单元、或者作为其他功能单元的一部分中实现。因而，本发明可以是在单个单元中实现的或者物理上且功能上分布在不同单元与处理器之间。

虽然结合一些实施例已对本发明进行了描述，但是并不局限于在这里所阐述的特定形式。相反，本发明的范围仅仅受到所附权利要求的限制。另外，虽然看起来是结合特定实施例对特征进行了描述，但是本领域普通技术人员应明白的是可根据本发明对所述实施例的各个特征进行组合。在权利要求中，术语″包括″不排除存在其他单元或者步骤。

此外，虽然单独列出，但是多个装置、元件、或者方法步骤可以由例如单个单元或者处理器实现。另外，虽然各个特征可包含在不同权利要求之内，但是可对这些进行有利地组合，并且包含在不同权利要求中并不意味着特征的组合是不可行和/或不有利的。此外特征包含在一类权利要求中不意味着对该类别做出限制而是表示根据情况该特征同样可适用于其它权利要求类别。此外，权利要求中的特征的顺序不意味着特征必须起作用的任何特定顺序，并且尤其是方法权利要求中的各个步骤的顺序不意味着必须按照该顺序来执行步骤。相反，可以任何适当顺序来执行该步骤。此外，单数参考不排除多个。因此参考″一″、″一个″、″第一″、″第二″等等不排除多个。权利要求中的参考符号被提供用于阐明示例，而不应当认为是在任何方面对权利要求的范围做出限制。

Claims

1.一种音频编码器包括:

用于接收M声道音频信号的装置(401)，其中M>2；

降混装置(403)，用于将所述M声道音频信号降混到第一立体声信号和相关参数数据；

生成装置(407)，用于响应于所述相关参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，第二立体声信号是双耳信号；

用于对第二立体声信号进行编码以产生编码数据的装置(411)；以及

输出装置(413)，用于生成包括所述编码数据和所述相关参数数据的输出数据流。

2、根据权利要求1的编码器，其中所述生成装置(407)通过响应于所述相关参数数据、所述空间参数数据、以及第一立体声信号的子带数据值计算第二立体声信号的子带数据值来生成第二立体声信号。

3、根据权利要求2的编码器，其中所述生成装置(407)响应于第一立体声信号的相应立体声子带值乘以第一子带矩阵来生成第二立体声信号中的第一子带的子带值；所述生成装置(407)还包括参数装置，该参数装置用于响应于用于第一子带的相关参数数据和空间参数数据来确定第一子带矩阵的数据值。

4、根据权利要求3的编码器，其中所述生成装置(407)还包括用于将与频率间隔与第一子带间隔不同的子带相关的第一立体声信号、相关参数数据、以及空间参数数据中的至少一个转换成第一子带的相应数据值的装置。

5、根据权利要求3的编码器，其中生成装置用于基本上将第二立体声信号中的第一子带的立体声子带值L_B、R_B确定为:

[\begin{matrix} L_{B} \\ R_{B} \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} L_{0} \\ R_{0} \end{matrix}]

其中L₀、R₀是第一立体声信号的相应子带值，并且所述参数装置基本上将所述乘法矩阵的数据值确定为:

h₁₁＝m₁₁H_L(L)+m₂₁H_L(R)+m₃₁H_L(C)

h₁₂＝m₁₂H_L(L)+m₂₂H_L(R)+m₃₂H_L(C)

h₂₁＝m₁₁H_R(L)+m₂₁H_R(R)+m₃₁H_R(C)

h₂₂＝m₁₂H_R(L)+m₂₂H_R(R)+m₃₂H_R(C)

其中m_k，1是响应于相关参数数据而确定的参数，所述相关参数数据用于所述降混装置进行的、声道L、R、以及C到第一立体声信号的降混；并且H_J(X)是响应于用于声道X至第二立体声信号的输出声道J的空间参数数据而确定的。

6、根据权利要求5的编码器，其中声道L和R中的至少一个与至少两个降混声道的降混相对应，并且所述参数装置用于响应于至少两个降混声道的空间参数数据的加权组合来确定H_J(X)。

7、根据权利要求6的编码器，其中所述参数装置响应于对所述至少两个降混声道的相对能量测量来确定所述至少两个降混声道的空间参数数据的加权。

8、根据权利要求1的编码器，其中所述空间参数数据包括从下述组中选择出来的至少一个参数，所述组包括:

每个子带参数的平均级别；

平均到达时间参数；

至少一个立体声声道的相位；

定时参数；

群延迟参数；

立体声声道之间的相位；以及

声道互相关参数。

9、根据权利要求1的编码器，其中所述输出装置(413)在输出流中包括声源位置数据。

10、根据权利要求1的编码器，其中所述输出装置(413)在输出流中包括至少一些空间参数数据。

11、根据权利要求1的编码器，还包括用于响应于期望声音信号位置来确定所述空间参数数据的装置(409)。

12、一种音频解码器包括:

用于接收输入数据的装置(701，703)，该输入数据包括第一立体声信号和与M声道音频信号的降混立体声信号相关的参数数据，其中M>2，第一立体声信号是与M声道音频信号相对应的双耳信号；以及

生成装置(705)，用于响应于所述参数数据和用于双耳感知传输函数的第一空间参数数据修改第一立体声信号以生成所述降混立体声信号，所述第一空间参数数据与第一立体声信号相关。

13、根据权利要求12的解码器，还包括用于响应于所述降混立体声信号和所述参数数据生成所述M声道音频信号的装置(709)。

14、根据权利要求12的解码器，其中所述生成装置(705)用于通过响应于所述相关参数数据、所述空间参数数据、以及第一立体声信号的子带数据值计算所述降混立体声信号的子带数据值来生成所述降混立体声信号。

15、根据权利要求14的解码器，其中所述生成装置(705)响应于第一立体声信号的相应立体声子带值乘以第一子带矩阵来生成所述降混立体声信号中的第一子带的子带值；所述生成装置(705)还包括参数装置，该参数装置用于响应与第一子带的参数数据和双耳感知传输函数参数数据来确定第一子带矩阵的数据值。

16、根据权利要求12的解码器，其中所述输入数据包括至少一些空间参数数据。

17、根据权利要求12的解码器，其中所述输入数据包括声源位置数据，并且所述解码器包括用于响应于所述声源位置数据来确定空间参数数据的装置(707)。

18、根据权利要求12的解码器，还包括:

空间解码器单元(709，801)，用于通过响应于所述相关参数数据和第二双耳感知传输函数的第二空间参数数据修改第一立体声信号来产生双耳输出声道对，该第二空间参数数据不同于第一空间参数数据。

19、根据权利要求18的解码器，其中所述空间解码器单元(709，801)包括:

参数转换单元(903)，用于利用第二空间参数数据将所述参数数据转换成双耳合成参数；以及

空间合成单元(901)，用于利用所述双耳合成参数和第一立体声信号来对所述双耳声道对进行合成。

20、根据权利要求19的解码器，其中所述双耳合成参数包括使降混立体声信号的立体声样本与所述双耳输出声道对的立体声样本相关的2乘2矩阵的矩阵系数。

21、根据权利要求19的解码器，其中所述双耳合成参数包括使第一立体声信号的立体声子带样本与所述双耳输出声道对的立体声样本相关的2乘2矩阵的矩阵系数。

22、一种音频编码方法，该方法包括:

接收(1001)M声道音频信号，其中M>2；

将M声道音频信号降混(1003)到第一立体声信号和相关参数数据；

响应于所述相关参数数据和双耳感知传输函数的空间参数数据修改(1005)第一立体声信号以生成第二立体声信号，其中第二立体声信号是双耳信号；

对第二立体声信号进行编码(1007)以生成编码数据；以及

生成(1009)包括编码数据和所述相关参数数据的输出数据流。

23、一种音频解码方法，该方法包括:

接收(1101)输入数据，该输入数据包括第一立体声信号和与M声道音频信号的降混立体声信号相关的参数数据，其中M>2，第一立体声信号是与所述M声道音频信号相对应的双耳信号；以及

响应于所述参数数据和用于双耳感知传输函数的空间参数数据修改(1103)第一立体声信号以生成降混立体声信号，该空间参数数据与第一立体声信号相关。

24、一种用于接收音频信号的接收器包括:

生成装置(705)，用于响应于所述参数数据和用于双耳感知传输函数的空间参数数据修改第一立体声信号以生成降混立体声信号，该空间参数数据与第一立体声信号相关。

25、一种用于对输出数据流进行传送的发射器(1101)包括:

用于接收M声道音频信号的装置(401)，其中M>2；

降混装置(403)，用于将M声道音频信号降混到第一立体声信号和相关参数数据；

生成装置(407)，用于响应于所述相关参数数据和用于双耳感知传输函数的空间参数数据来修改第一立体声信号以生成第二立体声信号，其中第二立体声信号是双耳信号；

用于对第二立体声信号进行编码以生成编码数据的装置(411)；

输出装置(413)，用于生成包括所述编码数据和所述相关参数数据的输出数据流；以及

用于对输出数据流进行传送的装置(311)。

26、一种用于对音频信号进行传送的传送***，该传送***包括:

发射器，该发射器包括:

用于接收M声道音频信号的装置(401)，其中M>2；

用于对输出数据流进行传送的装置(311)；

接收器，该接收器包括:

用于接收音频输出数据流的装置(701，703)；以及

用于响应于所述参数数据和空间参数数据来修改第二立体声信号以生成第一立体声信号的装置(705)。

27、一种接收音频信号的方法，该方法包括:

接收(1101)输入数据，该输入数据包括第一立体声信号和与M声道音频信号的降混立体声信号相关的参数数据，其中M>2，第一立体声信号是与M声道音频信号相对应的双耳信号；以及

响应于所述参数数据和用于双耳感知传输函数的空间参数数据来修改(1103)第一立体声信号以生成所述降混立体声信号，其中所述空间参数数据与第一立体声信号相关。

28、一种对音频输出数据流进行传送的方法，该方法包括:

接收(1101)M声道音频信号，其中M>2；

将M声道音频信号降混到(1103)第一立体声信号和相关参数数据；

响应于所述相关参数数据和用于双耳感知传输函数的空间参数数据来修改(1105)第一立体声信号以生成第二立体声信号，其中第二立体声信号是双耳信号；

对第二立体声信号进行编码(1107)以生成编码数据；

生成(1109)包括所述编码数据和相关参数数据的音频输出数据流；以及

传送该音频输出数据流。

29、一种传送和接收音频信号的方法，该方法包括:

接收(1001)M声道音频信号，其中M>2；

将M声道音频信号降混到(1003)第一立体声信号和相关参数数据；

响应于所述相关参数数据和用于双耳感知传输函数的空间参数数据来修改(1005)第一立体声信号以生成第二立体声信号，第二立体声信号是双耳信号；

对第二立体声信号进行编码(1007)以生成编码数据；

生成(1009)包括所述编码数据和相关参数数据的音频输出数据流；

传送所述音频输出数据流；

接收(1101)所述音频输出数据流；以及

响应于所述参数数据和空间参数数据来修改(1103)第二立体声信号以生成第一立体声信号。

30、一种用于执行权利要求22、23、27、28、或者29的任何一个的方法的计算机程序产品。

31、一种包括有根据权利要求1的编码器(309)的音频录音设备。

32、一种包括有根据权利要求12的解码器(315)的音频播放设备。

33、一种音频信号的音频数据流包括:

第一立体声信号；以及

与M声道音频信号的降混立体声信号相关的参数数据，其中M>2；

其中第一立体声信号是与所述M声道音频信号相对应的双耳信号。

34、一种存储介质，该存储介质上存储了根据权利要求33的音频数据流。