CN101479785B

CN101479785B - 用于编码和解码基于对象的音频信号的方法和装置

Info

Publication number: CN101479785B
Application number: CN2007800238696A
Authority: CN
Inventors: 尹圣龙; 房熙锡; 李顯国; 金东秀; 林宰顯
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-09-29
Filing date: 2007-10-01
Publication date: 2013-08-07
Anticipated expiration: 2027-10-01
Also published as: CN101479787A; CN101479786B; CN101484935A; CN101484935B; CN101479785A; CN101479787B; CN101479786A

Abstract

提供了一种音频编码方法和装置以及一种音频解码方法和装置，其中音频信号被编码或解码使得对于每一个对象音频信号声音图像能被定位在期望位置。该音频解码方法通过组合从第一音频信号中提取的第一缩减混音信号和从第二音频信号中提取的第二缩减混音信号，生成第三缩减混音信号；通过组合从该第一音频信号中提取的第一基于对象的边信息和从该第二音频信号中提取的第二基于对象的边信息，生成第三基于对象的边信息；把该第三基于对象的边信息转换为基于声道的边信息；以及通过利用该第三缩减混音信号和该基于声道的边信息，生成多声道音频信号。

Description

用于编码和解码基于对象的音频信号的方法和装置

技术领域

本发明涉及一种音频编码方法和装置，以及一种音频解码方法和装置，其中每一个对象音频信号的声像可被定位于任何希望的位置。

背景技术

一般来说，在多声道音频编码和解码技术中，多声道信号的多个声道信号被缩减混音进少数声道信号中，传输关于原始声道信号的边信息并且恢复具有和原始多声道信号一样多的声道的多声道信号。

基于对象的音频编码和解码技术与多声道音频编码和解码技术在将多个声音源缩减混音进少数声音源信号中，并传输关于原始声音源的边信息方面是基本上相似的。然而，在基于对象的音频编码和解码技术中，对象信号，其为声道信号的基本元素(例如乐器的声音或人的语音)，被视为与多声道音频编码和解码技术中的声道信号相同，并且也可被编/解码。

换句话说，在基于对象的音频编码和解码技术中，每个对象信号将被视为编/解码的主体(entities)。在这点上，基于对象的音频编码和解码技术与多声道音频编码和解码技术是有区别的，该区别在于多声道音频编/解码是简单的根据声道间信息而被编/解码的，而与要被编/解码的声道信号中的元素数量无关。

发明内容

技术问题

本发明提供了一种音频编码方法和装置，以及一种音频解码方法和装置，其中可对音频信号进行编码或解码以使每一个对象音频信号的声像可被定位于任何希望的位置。

技术方案

根据本发明的一个方面，其提供了一种音频解码方法，包括：通过组合从第一音频信号中提取的第一缩减混音信号和从第二音频信号中提取的第二缩减混音信号，生成第三缩减混音信号；通过组合从该第一音频信号中提取的第一基于对象的边信息和从该第二音频信号中提取的第二基于对象的边信息，生成第三基于对象的边信息；把该第三基于对象的边信息变换为基于声道的边信息；以及通过利用该第三缩减混音信号和该基于声道的边信息，生成多声道音频信号。

根据本发明的另一个方面，其提供了一种音频解码装置，包括：多点控制单元组合器，用于通过组合从第一音频信号中提取的第一缩减混音信号和从第二音频信号中提取的第二缩减混音信号以生成第三缩减混音信号，并且通过组合从该第一音频信号中提取的第一基于对象的边信息和从该第二音频信号中提取的第二基于对象的边信息以生成第三基于对象的边信息；代码转换器，用于把该第三基于对象的边信息变换为基于声道的边信息；以及多声道解码器，用于通过利用该第三缩减混音信号和该基于声道的边信息生成多声道音频信号。

根据本发明的另一个方面，其提供了一种计算机可读记录介质，其中记录有一种音频解码方法，该方法包括：通过组合从第一音频信号中提取的第一缩减混音信号和从第二音频信号中提取的第二缩减混音信号，生成第三缩减混音信号；通过组合从该第一音频信号中提取的第一基于对象的边信息和从该第二音频信号中提取的第二基于对象的边信息，生成第三基于对象的边信息；把该第三基于对象的边信息变换为基于声道的边信息；以及通过利用该第三缩减混音信号和该基于声道的边信息，生成多声道音频信号。

有益效果

提供了一种音频编码方法和装置，以及一种音频解码方法和装置，其中可对音频信号进行编码或解码以使每一个对象音频信号的声像可被定位于任何希望的位置。

附图说明

通过以下的详细描述和附图，本发明将变得更加易于理解，附图只是示例性的，其并不构成对本发明的限制，其中：

图1是典型的基于对象的音频编码/解码***的方框图；

图2是根据本发明第一实施例的音频解码装置的方框图；

图3是根据本发明第二实施例的音频解码装置的方框图；

图4用于解释幅度差和时间差对于声像定位的影响，其是相互独立的；

图5是关于幅度差和时间差之间的对应关系的函数图，其中该幅度差和时间差是将声像定位于预定位置所需要的；

图6表示包括谐波信息的控制数据的格式；

图7是根据本发明第三实施例的音频解码装置的方框图；

图8是可被应用于如图7所示的音频解码装置中的艺术缩减混音增益(ADG)模块的方框图；

图9是根据本发明第四实施例的音频解码装置的方框图；

图10是根据本发明第五实施例的音频解码装置的方框图；

图11是根据本发明第六实施例的音频解码装置的方框图；

图12是根据本发明第七实施例的音频解码装置的方框图；

图13是根据本发明第八实施例的音频解码装置的方框图；

图14是用于解释由图13所示的音频解码装置使用于帧的三维(3D)信息的应用的框图；

图15是根据本发明第九实施例的音频解码装置的方框图；

图16是根据本发明第十实施例的音频解码装置的方框图；

图17-19是用于解释根据本发明一个实施例的音频解码方法的框图；

图20是根据本发明一个实施例的音频编码装置的方框图。

实施本发明的最佳模式

现在将参考附图来详细说明本发明，在附图中已表示了本发明的示例性实施例。

根据本发明的一种音频编码方法和装置以及一种音频解码方法和装置可被应用于基于对象的音频处理操作，但是本发明并不限于此。换句话说，该音频编码方法和装置以及音频解码方法和装置还可被应用于基于对象的音频处理操作之外的各种信号处理操作。

图1是典型的基于对象的音频编码/解码***的方框图。通常来说，输入给基于对象的音频编码装置的音频信号与多声道信号的声道是不对应的，这些音频信号是独立的对象信号。在这点上，基于对象的音频编码装置与多声道音频编码装置是不同的，其区别在于多声道音频编码装置输入多声道信号的声道信号。

举例来说，诸如5.1声道信号的左前声道信号和右前声道信号之类的声道信号被输入到多声道音频编码装置中，然而诸如人语音或乐器声音(例如小提琴或钢琴的声音)之类的比声道信号小的主体的对象音频信号可被输入到基于对象的音频编码装置中。

参见图1，该基于对象的音频编码/解码***包括：基于对象的音频编码装置和基于对象的音频解码装置。基于对象的音频编码装置包括对象编码器100，基于对象的音频解码装置包括对象解码器111和渲染器113。

对象编码器100接收N个对象音频信号，并且生成带有一个或多个声道的基于对象的缩减混音信号和边信息，上述边信息包括从N个对象音频信号中提取的多条信息片，例如能量差，相位差和相关性值。边信息和基于对象的缩减混音信号被合并入一个单一比特流中，并且该比特流被传输给基于对象的解码装置。

边信息可包括指示是否执行基于声道的音频编/解码或基于对象的音频编/解码的标志，则，可以根据边信息的标志来确定是执行基于声道的音频编/解码还是执行基于对象的音频编/解码。边信息还可包括关于对象信号的包络信息、分组信息、静止期信息和延迟信息。边信息还可包括对象电平差信息、对象间互相关信息、缩减混音增益信息、缩减混音声道电平差信息和绝对对象能量信息。

对象解码器111接收来自基于对象音频编码装置的基于对象的缩减混音信号和边信息，并且根据基于对象的缩减混音信号和边信息来恢复具有与N个对象音频信号相似属性的对象信号。由对象解码器111生成的对象信号并没有被分配给多声道空间中的任何位置。因此渲染器113将由对象解码器111生成的对象信号的每一个分配给多声道空间中的预定位置，并且渲染器113确定对象信号的电平，这样可通过由渲染器113指定的各个相应位置和由渲染器113确定的各个相应电平来再现对象信号。与由对象解码器111生成的每个对象信号相关的控制信息可随时间而改变，则，由对象解码器111生成的对象信号的电平和空间位置可根据控制信号而改变。

图2是根据本发明第一实施例的音频解码装置120的方框图。参见图2，该音频解码装置120包括：对象解码器121，渲染器123，和参数变换器125。该音频解码装置120还包括解复用器(未示出)，用于从输入的比特流中提取缩减混音信号和边信息，并且该解复用器将应用于根据本发明的其它实施例的所有音频解码装置中。

对象解码器121根据缩减混音信号和由参数变换器125提供的修改后的边信息来生成多个对象信号。渲染器123将由对象解码器121生成的对象信号的每一个分配到多声道空间中的预定位置，并且根据控制信息来确定由对象解码器121生成的对象信号的电平。参数变换器125通过组合边信息和控制信息来生成修改后的边信息。接着，参数变换器125将修改后的边信息传输给对象解码器121。

对象解码器121可通过分析修改后的边信息中的控制信息来执行自适应解码。

举例来说，如果控制信息指示第一对象信号和第二对象信号被分配给多声道空间中的相同的位置，并且具有相同的电平，则典型的音频解码装置可分别解码第一和第二对象信号，接着通过混音/渲染操作来将它们安排到多声道空间中。

在另一方面，音频解码装置120的对象解码器121从修改后的边信息中的控制信息中得知第一和第二对象信号被分配到多声道空间中的相同位置，并且具有相同电平，如同第一和第二对象信号是一个单独的声音源。从而，对象解码器121将第一和第二对象信号看成一个单独的声音源而解码第一和第二对象信号，而不将它们分开解码。这样的话，解码的复杂度降低了。另外，因为需要处理的声音源的数量减少了，混音/渲染的复杂度也降低了。

音频解码装置120可被有效的使用于当对象信号的数量大于输出声道的数量这种情况，因为多个对象信号很有可能被分配到相同的空间位置。

可选的是，音频解码装置120可被使用于当第一对象信号和第二对象信号被分配到多声道空间中的相同位置，但具有不同电平这种情况。这种情况下，音频解码装置120将第一和第二对象信号视为一体来解码第一和第二对象信号，而不分别解码第一和第二对象信号，并且将解码后的第一和第二对象信号传输给渲染器123。更具体来说，对象解码器121从修改后的边信息中的控制信息得到关于第一和第二对象信号的电平之间的差的信息，并根据获得的信息来解码第一和第二对象信号。这样的话，即使第一和第二对象信号具有不同电平，也可将第一和第二对象信号当成单一声音源来进行解码。

同样可选的是，对象解码器121可根据控制信息来调整由对象解码器121生成的对象信号的电平。接着，对象解码器121可解码调整过电平的对象信号。从而，渲染器123不需要调整由对象解码器121提供的解码后的对象信号，而只要简单的将由对象解码器121提供的解码后的对象信号安排到多声道空间中。简而言之，因为对象解码器121根据控制信息调整了由对象解码器121生成的对象信号的电平，渲染器123可容易的将由对象解码器121生成的对象信号安排到多声道空间中，而不需要额外的调整由对象解码器121生成的对象信号的电平。因此，可以减少混音/渲染的复杂度。

根据图2的实施例，音频解码装置120的对象解码器可通过对控制信息的分析来自适应的执行解码操作，从而减少解码的复杂度和混音/渲染的复杂度。可使用由音频解码装置120执行的上述方法的组合。

图3是根据本发明第二实施例的音频解码装置130的方框图。参见图3，音频解码装置130包括对象解码器131和渲染器133。该音频解码装置130的特征在于：其不仅提供边信息给对象解码器131，还提供给渲染器133。

即使在存在相应于静止期的对象信号时，音频解码装置130也可有效的执行解码操作。举例来说，第二至第四对象信号可能相应于乐器演奏的音乐演奏期，而第一对象信号可能相应于伴奏演奏的静止期。在这种情况下，指示多个对象信号中的哪一个对应于静止期的信息可被包括在边信息中，并且该边信息可被提供给渲染器133和对象解码器131。

对象解码器131可通过不对相应于静止期的对象信号进行解码来最小化解码复杂度。对象解码器131将一个对象信号设置为相应于0值，并且将该对象信号的电平传输给渲染器133。一般来说，具有0值的对象信号被视为与具有非0值的对象信号相同，并且一起进入混音/渲染操作。

在另一方面，音频解码装置130传输包括指示多个对象物体相应于静止期的信息的边信息给渲染器133，接着阻止相应于静止期的对象信号进入由渲染器133执行的混音/渲染操作。因此，音频解码装置130可阻止混音/渲染的复杂度的不必要增加。

渲染器133可使用包括在控制信息中的混音参数信息来定义立体声场景中的每个对象信号的声像。混音参数信息可仅包括幅度信息或包括幅度信息和时间信息。混音参数信息不仅影响立体声声像的定位，还影响用户对于空间声音质量的心理声学的感觉。

举例来说，通过比较分别通过使用时间淘选方法和幅度淘选方法生成的，及使用2声道立体声扬声器在相同位置再现的两个声像，可以得知幅度淘选方法可实现声像的精确定位，而时间淘选方法可以提供有空间深厚感的自然声音。则，如果渲染器133仅使用幅度淘选方法来在多声道空间中安排对象信号，渲染器133可以精确的定位每个声像，但是不能提供使用时间淘选方法时的声音的深厚感。根据声源的类型，用户有时会偏好声音的精确定位而不是声音的深厚感，反之亦然。

图4(a)和4(b)解释在使用2声道立体声扬声器来再现信号时强度差(幅度差)和时间差对于声像定位的影响。参见图4(a)和4(b)，根据互相独立的幅度差和时间差，来将一个声像定位到预定角度。例如，可以使用大约8dB的幅度差，或与8dB的幅度差相等的大约0.5ms的时间差来将声像定位在角度20。因此，即使仅提供了幅度差作为混音参数信息，也能够通过将幅度差转换为时间差来获得具有不同属性的多种声音，其中时间差在声像定位期间等同于幅度差。

图5表示关于将声像定位于角度10、20和30所需要的幅度差和时间差之间对应关系的函数。图5中所示的函数可根据图4(a)和4(b)获得。参见图5，多种幅度差-时间差的比较可被提供来将声像定位于预定位置。例如，假设8dB的幅度差被提供为混音参数信息来将声像定位在角度20。根据图5所示的函数，还可使用3dB的幅度差和0.3ms的时间差的组合来将声像定位在角度20。在这种情况下，不仅提供幅度差信息还提供时间差信息作为混音参数信息，从而增强了空间感。

因此，为了在混音/渲染操作期间生成具有用户期望的属性的声音，混音参数信息可被适当的转换，使得能够执行适合于用户的幅度淘选和时间淘选中的任何一个。也就是说，如果混音参数信息仅包括幅度差信息，但用户期望具有空间深厚感的声音，该幅度差信息可参考心理声学数据而被转换为等同于幅度差信息的时间差信息。可选的是，如果用户同时期望空间深厚感的声音和声像的精确定位，幅度差信息可被转换为幅度差信息和等同于原始幅度信息的时间差信息的组合。

可选的是，如果混音参数信息仅包括时间差信息，但用户期望声像的精确定位，该时间差信息可被转换为等同于时间差信息的幅度差信息，或可被转换为幅度差信息和时间差信息的组合，该组合可通过增强声像的精确定位和空间感来满足用户的偏好。

仍然可选的是，如果混音参数信息包括幅度差信息和时间差信息，并且用户选择声像的精确定位，幅度差信息和时间差信息的组合可被转换为等同于原始幅度差信息和时间差信息的组合的幅度差信息。在另一方面，如果混音参数信息包括幅度差信息和时间差信息，并且用户期望空间感的增强，幅度差信息和时间差信息的组合可被转换为等同于幅度差信息和原始时间差信息组合的时间差信息。

参见图6，控制信息可包括关于一个或多个对象信号的混音/渲染信息和谐波信息。谐波信息可包括关于一个或多个对象信号的基音信息，基频信息和主频带信息中的至少一个，以及每个对象信号的每个子带的频谱和能量的说明。

因为以子带为单位执行操作的渲染器的清晰度的不足，谐波信息可被使用于在渲染操作期间处理对象信号。

如果该谐波信息包括关于一个或多个对象信号的基音信息，可通过使用梳状滤波器或逆梳状滤波器来削弱或增强预定频域来调整每个对象信号的增益。举例来说，如果多个对象信号中的一个是嗓音信号，这些对象信号可通过仅削弱嗓音信号而被用于卡拉OK。可选的是，如果谐波信息包括关于一个或多个对象信号的主频域信息，则可执行削弱或增强主频域的处理。仍然可选的是，如果谐波信息包括关于一个或多个对象信号的频谱信息，可通过执行不被任何子带边界限制的削弱或增强来控制每个对象信号的增益。

图7是根据本发明另一个实施例的音频解码装置140的方框图。参见图7，音频解码装置140使用多声道解码器141来代替对象解码器和渲染器，并且在对象信号被适当的安排在多声道空间中后解码多个对象信号。

具体来说，音频解码装置140包括多声道解码器141和参数变换器145。多声道解码器141生成多声道信号，这些多声道信号的对象信号根据缩减混音信号和空间参数信息被安排到多声道空间中，该空间参数信息是由参数变换器145提供的基于声道的边信息。参数变换器145分析由音频编码装置(未示出)传输来的边信息和控制信息，并且根据分析的结果生成空间参数信息。更具体的，参数变换器145通过边信息和控制信息来生成空间参数信息，该控制信息包括回放设置信息和混音信息。也就是说，对应于一至二(OTT)盒或二至三(TTT)盒，参数变换器145把边信息和控制信息的组合变换为空间数据。

音频解码装置140可执行多声道解码操作，其中基于对象的解码操作和混音/渲染操作被合并，并且可以跳过对每个对象信号的解码。因此，可以降低解码和/或混音/渲染的复杂度。

举例来说，当使用5.1声道扬声器再现***来再现10个对象信号和根据这10个对象信号而获得的多声道信号时，典型的基于对象的音频解码装置根据缩减混音信号和边信息来生成分别对应于这10个对象信号的解码后的信号，并且通过将这10个对象信号适当的安排到多声道空间中来生成5.1声道信号，则这些对象信号变得适于5.1声道扬声器环境。然而，在5.1声道信号生成期间，生成10个对象信号的效率是很低的，并且这个问题在对象信号的数量和要生成的多声道信号的声道数量之间的差增加时变得更加严重。

在另一方面，根据图7所示的实施例，音频解码装置140根据边信息和控制信息来生成适于5.1声道信号的空间参数信息，并且将空间参数信息和缩减混音信号提供给多声道解码器141。接着，多声道解码器141根据空间参数信息和缩减混音信号生成5.1声道信号。换句话说，当要输出的声道数量是5.1声道时，音频解码装置140根据缩减混音信号可容易的生成5.1声道信号，而不需要生成10个对象信号，则该音频解码装置相对于通常的音频解码装置在复杂度方面更有效率。

当通过分析由音频编码装置传输来的边信息和控制信息来计算对应于每个OTT盒和TTT盒的空间参数信息所需的计算量小于在每个对象信号解码之后执行混音/渲染操作所需的计算量时，该音频解码装置140更为有效。

通过分析边信息和控制信息来把用于生成空间参数信息的模块加入到典型的多声道音频解码装置，可获得该音频解码装置140，并且可维持与典型的多声道音频解码装置的兼容性。同样的，音频解码装置140可通过使用典型的多声道解码装置的现有的工具来提高声音质量，诸如包络整形器，子带时域处理(STP)工具和去相关器。通过上述内容，可以推断出典型的多声道音频解码方法的所有优点都可被轻松的应用于基于对象的音频解码方法。

由参数变换器145传输给多声道解码器141的空间参数信息可被压缩以适于传输。可选的是，空间参数信息可具有与由典型的多声道编码装置所传输的数据一样的格式。也就是说，空间参数信息可进入霍夫曼解码操作或导频解码操作，并且可作为未压缩的空间线索数据(space cue data)传输给每个模块。前一种适于通过遥控来传输空间参数信息给多声道音频解码装置，后一种也很方便，因为不需要多声道音频解码装置把压缩的空间线索数据转换到更容易在解码操作中使用的未压缩的空间线索数据。

根据边信息和控制信息的分析的空间参数信息的配置可能导致缩减混音信号和空间参数信息之间的延迟。为了避免这一点，可提供一个额外的缓冲器用于缩减混音信号或用于空间参数信息，这样缩减混音信号和空间参数信息可彼此同步。然而这些方法是不方便的，因为需要提供额外的缓冲器。可选的是，边信息可于缩减混音信号之前被传输，其已经考虑了可能发生的缩减混音信号和空间参数信息之间的延迟。在这种情况下，通过组合边信息和控制信息而得到的空间参数信息不需要再被调整而可被容易的使用。

如果缩减混音信号的多个对象信号具有不同电平，能直接补偿缩减混音信号的艺术缩减混音增益(ADG)模块可以确定对象信号的相关电平，并且可使用诸如声道电平差信息，声道间相关性(ICC)信息和声道预测系数(CPC)信息之类的空间线索数据来将每个对象信号分配到多声道空间中的预定位置。

举例来说，如果控制信息指示一个预定对象信号将被分配到多声道空间中的预定位置，并且该对象信号的电平高于其它对象信号，典型的多声道解码器可计算缩减混音信号的声道能量之间的差，并且根据计算的结果将缩减混音信号划分为若干输出声道。然而，典型的多声道解码器不能增加或减小缩减混音信号中声音的音量。换句话说，典型的多声道解码器简单的将缩减混音信号分配给若干输出声道，并且不增加或减小缩减混音信号中声音的音量。

根据控制信息将由对象编码器生成的多个对象信号的每一个分配到多声道空间中的预定位置也是相对很简单的。然而，增加或减小预定对象信号的增幅则需要特殊的技术。换句话说，如果使用由对象编码器生成的缩减混音信号，减小缩减混音信号的每个对象信号的幅度是困难的。

因此，根据本发明一个实施例，可使用如图8中所示的ADG模块147根据控制信息来改变对象信号的相关幅度。更具体的说，可以通过使用ADG模块147来增加或减小由对象编码器所传输的缩减混音信号的多个对象信号的任何一个的幅度。由ADG模块147执行补偿所获得的缩减混音信号可被进行多声道解码。

如果使用ADG模块147来适当的调整缩减混音信号的对象信号的相对幅度，则可以使用典型的多声道解码器来执行对象解码。如果由对象编码器生成的缩减混音信号是单声道或立体声信号或具有三个或更多声道的多声道信号，该缩减混音信号可被ADG模块147处理。如果由对象编码器生成的缩减混音信号具有两个或更多声道，并且需要由ADG模块147来调整的预定对象信号仅存在于缩减混音信号中的一个声道中，则ADG模块147可仅被应用于包括该预定对象信号的声道，而不是应用于缩减混音信号的所有声道。由ADG模块147通过上述方法处理后的缩减混音信号可很容易的使用典型的多声道解码器来处理，而不需要修改多声道解码器的结构。

即使当最终输出的信号不是可被多声道扬声器再现的多声道信号，而是双耳信号，可以使用ADG模块147去调整最终输出信号的对象信号的相关幅度。

作为使用ADG模块147的替代，在多个对象信号的生成期间，控制信息中可包括指定将要应用于每个对象信号的增益值的增益信息。为此，可能要修改典型的多声道解码器的结构。即使需要修改现有多声道解码器的结构，在解码操作期间，通过将增益值应用于每个对象信号，而不需要计算ADG和补偿每个对象信号，该方法在降低解码复杂度方面还是很方便的。

图9是根据本发明第四实施例的音频解码装置150的方框图。参见图9，音频解码装置150的特征在于生成双耳信号。

具体来说，音频解码装置150包括多声道双耳解码器151，第一参数变换器157和第二参数变换器159。

第二参数变换器159分析由音频编码装置提供的边信息和控制信息，并且根据分析结果来配置空间参数信息。第一参数变换器157通过增加三维(3D)信息，例如头相关传输函数(HRTF)参数给空间参数信息，来配置可被多声道双耳解码器151使用的双耳参数信息。多声道双耳解码器151通过应用虚拟3D参数信息给缩减混音信号来生成虚拟三维(3D)信号。

第一参数变换器157和第二参数变换器159可被一个单独的模块所取代，即参数变换模块155，其接收边信息、控制信息和HRTF参数，并且根据边信息、控制信息和HRTF参数来配置双耳参数信息。

通常来说，为了使用头戴式耳机生成用于包括10个对象信号的缩减混音信号的再现的双耳信号，对象信号必须根据缩减混音信号和边信息来分别生成对应于10个对象信号的10个解码后的信号。其后，渲染器参考控制信号将10个对象信号的每一个分配到多声道空间中的预定位置以适于5声道扬声器环境。其后，渲染器生成可使用5声道扬声器再现的5声道信号。其后，渲染器将HRTF参数应用到5声道信号中，从而生成2声道信号。简而言之，上述通常的音频解码方法包括：再现10个对象信号，将这10个对象信号转换为5声道信号，并且根据5声道信号生成2声道信号，可见其效率是很低的。

在另一方面，音频解码装置150可根据对象音频信号而容易的生成可使用头戴式耳机再现的双耳信号。另外，音频解码装置150通过对边信息和控制信息的分析来配置空间参数信息，并且使用典型的多声道双耳解码器来生成双耳信号。然而，即便在其装配有一体化参数变换器时，音频解码装置150仍然可以使用典型的多声道双耳解码器，该参数变换器接收边信息、控制信息和HRTF参数，并且根据边信息、制信息和HRTF参数来配置双耳参数信息。

图10是根据本发明第五实施例的音频解码装置160的方框图。参见图10，音频解码装置160包括缩减混音处理器161，多声道解码器163，和参数变换器165。缩减混音处理器161和参数变换器163可被单一模块167替代。

参数变换器165生成可被多声道解码器163使用的空间参数信息，和被缩减混音处理器161使用的参数信息。缩减混音处理器161执行对缩减混音信号的预处理操作，并且传输预处理操作结果的缩减混音信号给多声道解码器163。多声道解码器163对由缩减混音处理器161传输来的缩减混音信号执行解码操作，从而输出立体声信号、双耳立体声信号或多声道信号。缩减混音处理器161所执行的预处理操作的例子包括：通过滤波在时域或频域中修改或变换缩减混音信号。

如果输入到音频解码装置160中的缩减混音信号是立体声信号的话，在该缩减混音信号被输入多声道解码器163前，该缩减混音信号可被用于由缩减混音处理器161执行的缩减混音处理，因为多声道解码器163不能将缩减混音信号的分量映射到对应的左声道和右声道，其中左声道是多声道的一个，而右声道是多声道的另一个。因此，为了能将分类到左声道的对象信号转移到右声道的方向上，输入给音频解码装置160的缩减混音信号可被进行缩减混音处理器预处理，预处理后的缩减混音信号可被输入给多声道解码器163。

可根据从边信息和从控制信息处获得的预处理信息来执行立体声缩减混音信号的预处理。

图11是根据本发明第六实施例的音频解码装置170的方框图。参见图11，音频解码装置170包括多声道解码器171，声道处理器173和参数变换器175。

参数变换器175生成可被多声道解码器171使用的空间参数信息，和可被声道处理器173使用的参数信息。声道处理器173执行对由多声道解码器171输出的信号的后处理。多声道解码器171所输出的信号的例子包括：立体声信号，双耳立体声信号和多声道信号。

声道处理器173所执行的后处理操作的例子包括：修改或变换输出信号的每个声道或所有声道。举例来说，如果边信息包括关于预定对象信号的基本频率信息，声道处理器173可参考该基本频率信息从预定对象信号中去除谐波分量。多声道音频解码方法对于卡拉OK***来说可能不够高效。然而，如果关于嗓音对象的基本频率信息被包括在边信息中，且嗓音对象信号的谐波分量在后处理期间已被去除，通过使用图11的实施例可实现高性能的卡拉OK***。图11的实施例也可应用于除嗓音对象信号之外的对象信号。举例来说，可使用图11的实施例来去除预定乐器的声音。同样，可以使用图11的实施例来使用关于对象信号的基本频率信息来放大预定的谐波分量。

声道处理器173可对缩减混音信号执行额外的效果处理。可选的是，声道处理器173可把由额外的效果处理而获得的信号加入到多声道解码器171输出的信号。声道处理器173可在任何需要的时候改变对象的频谱或修改缩减混音信号。如果直接执行效果处理操作(诸如对缩减混音信号的混响)并把效果处理操作所获得的信号传输给多声道解码器171不是很适当的话，声道处理器173可把经效果处理操作所获得的信号加入到多声道解码器171的输出，以代替对缩减混音信号执行效果处理。

音频解码装置170可被设计为不仅包括声道处理器173，还包括缩减混音处理器。在这种情况下，缩减混音处理器可被安排在多声道解码器171之前，并且声道处理器173可被安排在多声道解码器171之后。

图12是根据本发明第七实施例的音频解码装置210的方框图。参见图12，音频解码装置210使用多声道解码器213来代替对象解码器。

具体而言，音频解码装置210包括多声道解码器213，代码转换器215，渲染器217和3D信息数据库219。

渲染器217根据包括在控制信息中的对应于索引数据的3D信息来确定多个对象信号的3D位置。代码转换器215通过综合关于多个对象音频信号的位置信息来生成基于声道的边信息，其中渲染器217将3D信息应用到了这些对象音频信号中。多声道解码器213通过将基于声道的边信息应用到缩减混音信号来输出3D信号。

头相关传输函数(HRTF)可作为一种3D信息被使用。HRTF是一种传输函数，其描述了在任意位置的声源和耳朵之间的声波的传输，并且返回一个根据声源的位置和高度而改变的值。如果使用HRTF来滤波不带方向性的信号，该信号可被听成是从某个方向再现的。

当接收到输入比特流时，音频解码装置210使用解复用器(未示出)来从输入比特流中提取基于对象的缩减混音信号和基于对象的参数信息。接着，渲染器217从控制信息中提取用于确定多个对象音频信号位置的索引数据，并且从3D信息数据库219中抽出(withdraw)与所提取的索引数据相对应的3D信息。

具体来说，被音频解码装置210所使用的包括在控制信息中的混音参数信息不仅可以包括电平信息，还可以包括搜索3D信息所必须的索引数据。混音参数信息还可包括关于声道间时间差的时间信息，位置信息和一个或多个通过适当组合电平信息和时间信息所获得的参数。

可根据缺省的混音参数信息来初始确定对象音频信号的位置，并且随后通过应用相应于用户所期望的位置的3D信息给对象音频信号来改变位置。可选的是，如果用户希望只将3D效果应用到一些对象音频信号，关于其它用户不希望应用3D效果的对象音频信号的电平信息和时间信息可被使用为混音参数信息。

代码转换器215通过综合由音频编码装置所传输的关于N对象信号的基于对象的参数信息和多个对象信号的位置信息来生成关于M声道的基于声道的边信息，渲染器217将诸如HRTF的3D信息应用到了上述对象信号的位置信息中。

多声道解码器213根据缩减混音信号和由代码转换器215所提供的基于声道的边信息来生成音频信号，并且通过使用包括在基于声道的边信息中的3D信息来执行3D渲染操作而生成3D多声道信号。

图13是根据本发明第八实施例的音频解码装置220的方框图。参见图13，音频解码装置220不同于图12所示的音频解码装置210，其区别在于代码转换器225分离地传输基于声道的边信息和3D信息给多声道解码器223。换句话说，音频解码装置220的代码转换器225从关于N个对象信号的基于对象的参数信息中获得关于M个声道的基于声道的边信息，并且传输基于声道的边信息和应用于N个对象信号的每个的3D信息给多声道解码器223，然而音频解码装置210的代码转换器215传输包括3D信息的基于声道的边信息给多声道解码器213。

参见图14，基于声道的边信息和3D信息可包括多个帧索引。因此，多声道解码器223可参考每个基于声道的边信息和3D信息的帧索引来同步基于声道的边信息和3D信息，并且可以应用3D信息给对应于该3D信息的比特流的帧。例如，具有索引2的3D信息可被应用到具有索引2的帧2的开始。

因为基于声道的边信息和3D信息都包括帧索引，即使3D信息随着时间而更新，也可以有效地确定3D信息要被应用到的基于声道的边信息的临时位置。换句话说，代码转换器225包括3D信息和基于声道的边信息中的多个帧索引，因此多声道解码器223可容易地同步基于声道的边信息和3D信息。

缩减混音处理器231，代码转换器235，渲染器237和3D信息数据库可由一个单独的模块239替代。

图15是根据本发明第九实施例的音频解码装置230的方框图。参见图15，音频解码装置230不同于图13所示的音频解码装置220，其区别在于音频解码装置230进一步包括缩减混音处理器231。

具体来说，音频解码装置230包括代码转换器235，渲染器237，3D信息数据库238，多声道解码器233和缩减混音处理器231。代码转换器235，渲染器237，3D信息数据库238和多声道解码器233与图13所示的对应部分分别相同。缩减混音处理器231对立体声缩减混音信号执行预处理操作以调整位置。3D信息数据库238可与渲染器237合并。还可以提供用于应用预定效果给缩减混音信号的模块给音频解码装置230。

图16表示根据本发明第十实施例的音频解码装置240的方框图。参见图16，音频解码装置240不同于图15所示的音频解码装置230，其区别在于音频解码装置240包括多点控制单元组合器241。

也就是说，音频解码装置240与音频解码装置230一样，包括缩减混音处理器243，多声道解码器244，代码转换器245，渲染器247和3D信息数据库249。多点控制单元组合器241组合由基于对象的编码所获得的多个比特流，从而获得单一的比特流。举例来说，当输入用于第一音频信号的第一比特流和用于第二音频信号的第二比特流时，多点控制单元组合器241从第一比特流中提取第一缩减混音信号，从第二比特流中提取第二缩减混音信号，并且通过组合第一和第二缩减混音信号来生成第三缩减混音信号。此外，多点控制单元组合器241从第一比特流中提取第一基于对象的边信息，从第二比特流中提取第二基于对象的边信息，并且通过组合第一基于对象的边信息和第二基于对象的边信息来生成第三基于对象的边信息。其后，多点控制单元组合器241通过组合第三缩减混音信号和第三基于对象的边信息来生成比特流，并且输出所生成的比特流。

因此，根据本发明第十实施例，相比较于编码或解码每个对象信号的情况，即使是由两个或多个通信方传输的信号，其也可以有效地被处理。

多点控制单元组合器241为了能够将多个从多个比特流中分别提取出来的，并且与不同压缩编解码相对应的缩减混音信号合并到一个单独的缩减混音信号中，这些缩减混音信号需要根据缩减混音信号的压缩编解码类型被转换为脉冲编码调制(PCM)信号或预定频域中的信号，PCM信号或通过转换所获得的信号可能需要组合在一起，通过组合所获得的信号需要使用预定压缩编解码来转换。在这种情况下，根据缩减混音信号是否被并入PCM信号或预定频域中的信号，可能会发生延迟。然而，该延迟可能无法被解码器正确地估计。因此，该延迟可能需要被包括在比特流中并与比特流一起被传输。该延迟指示在PCM信号中的延迟采样的数量或在预定频域中的延迟采样的数量。

与在典型的多声道编/解码操作期间(例如5.1声道或7.1声道编/解码操作)通常处理的输入信号的数量相比，在基于对象的音频编/解码操作期间需要处理的输入信号的数量有时会相当大。因此，基于对象的音频编/解码方法比典型的基于声道的音频编/解码需要更高的比特率。然而，因为基于对象的音频编/解码方法包括对比声道信号更小的对象信号的处理，其可使用基于对象的音频编/解码方法来生成动态的输出信号。

下面将参见附图17-20来详细解释根据本发明一个实施例的音频编码方法。

在基于对象的音频编码方法中，对象信号可被定义为表示单独的声音，诸如人类的语音或乐器的声音。可选的是，具有相同特征的声音，诸如有弦乐器的声音(例如小提琴，中提琴和大提琴)，属于相同频带的声音，或根据声源的方向和角度被分类到相同类别的声音可被组合在一起，并且由相同的对象信号来定义。仍然可选的是，可使用上述方法的组合来定义对象信号。

多个对象信号可作为缩减混音信号和边信息而被传输。在将要被传输的信息的创建期间，对缩减混音信号或缩减混音信号的多个对象信号的每一个的能量或功率被进行初始计算以用于检测缩减混音信号的包络。计算的结果可被用于传输对象信号或缩减混音信号或计算对象信号的电平比率。

线性预测编码(LPC)算法可被用于更低比特率。具体来说，通过信号分析来生成表示信号的包络的多个LPC系数，并且这些LPC系数将被传输以代替传输关于信号的包络信息。该方法在比特率方面是高效的。然而LPC参数很可能与信号的实际包络有差异，该方法需要额外的处理，诸如错误校正。简而言之，涉及传输信号的包络信息的方法可保证声音的高质量，但这导致了需要传输的信息量的增加。在另一方面，涉及使用LPC系数的方法可减少需要传输的信息量，但是需要额外的处理，诸如错误校正，这将导致声音质量的降低。

根据本发明的一个实施例，可以使用这些方法的组合。换句话说，可以用信号的能量或功率或索引值或对应于信号的能量或功率的另一个值，如LPC系数来表示信号的包络。

关于信号的包络信息能以时间段或频率段为单位来获得。具体来说，参见图17，关于信号的包络信息以帧为单元来获得。可选的是，如果信号是由使用诸如正交镜像滤波器(QMF)组的滤波器组的频带结构所表示的，关于信号的包络信息能以频率子带，频率子带的组，或频率子带分隔的组为单位来获得，频率子带分隔是比频率子带更小块的实体。仍然可选的是，基于帧的方法，基于频率子带的方法，和基于频率子带分隔的方法的组合的使用也在本发明的保护范围之内。

仍然可选的是，假设信号的低频分量具有比信号的高频分量更多的信息，关于信号的低频分量的包络信息本身可被传输，然而，关于信号的高频分量的包络信息可由LPC系数或其它值来表示，并且传输LPC系数或其它值以代替关于信号的高频分量的包络信息。但是，信号的低频分量不一定就比信号的高频分量有更多的信息。因此需要根据实际情况灵活运用上述方法。

根据本发明一个实施例，对应于信号的一部分(以下称为主要部分)的包络信息或索引数据将被传输，该信号的一部分是在时间/频率轴上表现为主要部分。可选的是，表示信号的主要部分的能量和功率的值(例如LPC系数)可被传输，并且不传输对应于信号的非主要部分的这些值。仍然可选的是，可传输相应于信号的主要部分的包络信息或索引数据，而也可传输表示信号的非主要部分的能量或功率的值。仍然可选的是，仅传输关于信号的主要部分的信息，这样可根据关于信号的主要部分的信息来估计信号的非主要部分。仍然可选的是，可以使用上述方法的组合。

举例来说，参见图18，如果信号被划分为主要时期和非主要时期，关于信号的信息可使用标记为(a)-(d)的四种不同的方法来传输。

为了传输缩减混音信号和边信息的组合的多个对象信号，作为解码操作的一部分，缩减混音信号需要被划分为多个元素，例如，考虑了对象信号的电平的比率。为了保证缩减混音信号的元素之间的独立性，需要额外的执行去相关操作。

作为基于对象的编解码方法中的编解码单元的对象信号比作为多声道编解码方法中的编解码单元的声道信号具有更多独立性。换句话说，声道信号包括多个对象信号，所以需要被去相关。在另一个方面，对象信号之间是独立的，所以可使用对象信号的特征而容易的执行声道分离而不需要去相关操作。

具体来说，参见图19，对象信号A，B和C轮流作为频率轴上的主要对象。在这种情况下，不需要根据对象信号A，B和C的电平比率而将缩减混音信号划分为多个信号，也不需要执行去相关。作为代替，关于对象信号A，B和C的主要时期的信息将被传输，或将增益值应用到每个对象信号A，B和C的每个频率分量上，从而跳过去相关。因此，其可以减少计算量，并且可以减少去相关所必需的边信息所需要比特率。

简而言之，为了跳过去相关，关于包括每个对象信号的频域的信息可作为边信息被传输，该去相关被执行以保证由根据缩减混音信号的对象信号率的比率来划分缩减混音信号所获得的多个信号之间的独立性。可选的是，可以应用不同增益值给主要时期和非主要时期，主要时期中每个对象信号都表现为主要，非主要时期中每个对象信号都表现为不太主要，因此关于主要时期的信息可被主要提供为边信息。仍然可选的是，关于主要时期的信息可作为边信息被传输，并且不传输没有关于非主要时期的信息。仍然可选的是，作为去相关方法的替代的上述方法的组合可被使用。

作为去相关方法的替代的上述方法可被应用到所有信号对象，或仅被应用到某些具有明显可识别的主要周期的对象信号。同样的，作为去相关方法的替代的上述方法可以帧为单位被应用。

以下将详细描述使用残差信号的对象音频信号的编码。

一般来说，在基于对象的音频编/解码方法中，多个对象信号被编码，并且编码结果作为缩减混音信号和边信息的组合被传输。接着，通过解码根据边信息从缩减混音信号中恢复多个对象信号，并且恢复后的对象信号被适当的混音，例如，在用户的请求中根据控制信息生成最终声道信号。基于对象的音频编/解码方法一般致力于根据控制信号在混音器的帮助下自由的改变输出声道信号。然而，基于对象的音频编/解码方法还可被用于生成按照预定义方式的声道输出而不管控制信息。

为此，边信息不仅包括从缩减混音信号中获得多个对象信号所必须的信息，还包括生成声道信号所必须的混音参数信息。则，不需要混音器的帮助就可以生成最终声道输出信号。在这种情况下，可使用这种残差编/解码算法来提高声音质量。

典型的残差编/解码方法包括编/解码信号和对编/解码后的信号和原始信号之间的错误进行编/解码，也就是残差信号。在解码操作期间，编码后的信号被解码，同时补偿编码后的信号和原始信号之间的错误，从而恢复与原始信号尽可能相同的信号。因为解码后的信号和原始信号之间的错误通常来说是微不足道的，其可以减少执行残差编/解码所必需的额外信息的量。

如果解码器的最终声道输出被确定了，不仅要提供用于生成最终声道信号所必需的混音参数信息，还要提供残差编码信息以作为边信息。在这种情况下，其可以提高声音质量。

图20是根据本发明一个实施例的音频编码装置310的方框图。参照图20，音频编码装置310的特征在于其使用了残差信号。

具体来说，音频编码装置310包括编码器311，解码器313，第一混音器315，第二混音器319，加法器317和比特流生成器321。

第一混音器315执行对于原始信号的混音操作，第二混音器319执行对通过对原始信号执行编码操作和解码操作所得到的信号的混音操作。加法器317计算第一混音器315输出的信号和第二混音器319输出的信号之间的残差信号。比特流生成器321将残差信号加入到边信息中，并且传输加入后的结果。这样的话，其可以提高声音质量。

残差信号的计算可被应用于信号的所有部分，或仅应用于信号的低频部分。可选的是，残差信号的计算可被可变的仅应用于包括基于帧到帧的主要信号的频域中。仍然可选的是，可使用上述方法的组合。

因为包括残差信号信息的边信息的量比不包括残差信号信息的边信息的量要大，残差信号的计算可仅被应用于信号的那些直接影响声音质量的部分，从而防止比特率过多的增长。本发明可使用记录在计算机可读介质上的计算机可读代码来实现。该计算机可读记录介质可以是任何类型的记录装置，在其中数据以计算机可读的方式被存储。计算机可读记录介质的例子包括ROM，RAM，CD-ROM，磁盘，软盘，光学数据存储器和载波(例如通过因特网的数据传输)。计算机可读记录介质可通过连接到网络上的多个计算机***而被分配，所以计算机可读代码被写入其中，并且以非集中方式被执行。普通的本领域技术人员可容易的构造出用于实现本发明的功能性程序、代码和代码段。

工业实用性

如上所述，根据本发明，通过受益于基于对象的音频编码和解码方法的优点，每个对象音频信号的声像可被定位。则，其可以通过对象音频信号的再现来提供更真实的声音。此外，本发明可被应用于交互式游戏，并且可以提供更真实的虚拟实体经历给用户。

尽管本发明已参照其优选实施例进行了描述及说明，很明显本领域的技术人员可做出多种形式上和细节上的改变，而不脱离由以下权利要求所定义的本发明的精神或范畴。

Claims

1.一种音频解码方法，其包括：

通过至少组合从第一音频信号中提取的第一缩减混音信号和从第二音频信号中提取的第二缩减混音信号，生成第三缩减混音信号；

通过至少组合从所述第一音频信号中提取的第一基于对象的边信息和从所述第二音频信号中提取的第二基于对象的边信息，生成第三基于对象的边信息；

接收控制信息；

基于所述第三基于对象的边信息和所述控制信息，生成参数信息；

通过将所述控制信息应用到所述第三基于对象的边信息，把所述第三基于对象的边信息变换为基于声道的边信息；

通过将所述参数信息应用到所述第三缩减混音信号，将所述第三缩减混音信号处理成处理后的缩减混音信号；

生成所述基于声道的边信息和从所述处理后的缩减混音信号产生的多声道音频信号，

其中，所述第一、第二和第三基于对象的边信息中的每一个包括对象电平差信息、对象间互相关信息、缩减混音增益信息、缩减混音声道电平差信息和绝对对象能量信息，

其中，所述基于对象的边信息包括对应于主要对象信号的一部分的包络信息或者索引数据，和表示对应于非主要对象信号的一部分的线性预测编码系数的值，所述主要对象信号和所述非主要对象信号被包括在所述第三缩减混音信号的对象信号中。

2.根据权利要求1所述的音频解码方法，其进一步包括：通过应用3D信息到所述多声道音频信号，生成其上应用了虚拟三维效果(3D)的多声道音频信号。

3.根据权利要求2所述的音频解码方法，其中，所述基于声道的边信息包括所述3D信息。

4.根据权利要求2所述的音频解码方法，其中，所述3D信息包括用于和所述基于声道的边信息同步的信息。

5.根据权利要求2所述的音频解码方法，其中，所述3D信息是基于控制信息选自于3D信息数据库，所述3D信息数据库存储了多条3D信息。

6.根据权利要求2所述的音频解码方法，其中，所述3D信息包括头相关传输函数(HRTF)。

7.根据权利要求1所述的音频解码方法，其进一步包括：如果所述第三缩减混音信号为立体声缩减混音信号的话，修改所述第三缩减混音信号的声道信号。

8.根据权利要求1所述的音频解码方法，其进一步包括：把预定效果应用到所述多声道音频信号。

9.一种音频解码装置，其包括：

多点控制单元组合器，用于通过至少组合从第一音频信号中提取的第一缩减混音信号和从第二音频信号中提取的第二缩减混音信号以生成第三缩减混音信号，并且通过至少组合从所述第一音频信号中提取的第一基于对象的边信息和从所述第二音频信号中提取的第二基于对象的边信息以生成第三基于对象的边信息；

参数转换器，基于所述第三基于对象的边信息和控制信息，产生参数信息，并且，通过将所述控制信息应用到所述第三基于对象的边信息，将所述第三基于对象的边信息转换成基于声道的边信息；

缩减混音处理器，通过将所述参数信息应用到所述第三缩减混音信号，将所述第三缩减混音信号处理成处理后的缩减混音信号；

多声道解码器，产生基于声道的边信息和从所述处理后的缩减混音信号产生的多声道音频信号，

10.根据权利要求9所述的音频解码装置，其中，所述多声道解码器通过把3D信息应用于所述多声道音频信号以生成其上应用了虚拟3D效果的多声道音频信号。

11.根据权利要求10所述的音频解码装置，其中，所述基于声道的边信息包括所述3D信息。

12.根据权利要求10所述的音频解码装置，其中，所述3D信息包括用于和所述基于声道的边信息同步的信息。

13.根据权利要求12所述的音频解码装置，其中，所述3D信息基于控制信息从3D信息数据库中被选择。

14.根据权利要求13所述的音频解码装置，其中，所述3D信息数据库存储了多条3D信息。

15.根据权利要求10所述的音频解码装置，其中，所述3D信息包括HRTF。

16.根据权利要求9所述的音频解码装置，其中，如果所述第三缩减混音信号为立体声缩混信号的话，所述第三缩减混音信号的声道信号被修改。

17.根据权利要求9所述的音频解码装置，其进一步包括声道处理器，用于把预定效果应用于所述多声道音频信号。