WO2024114373A1

WO2024114373A1 - 场景音频编码方法及电子设备

Info

Publication number: WO2024114373A1
Application number: PCT/CN2023/131640
Authority: WO
Inventors: 高原; 刘帅; 夏丙寅; 王喆
Original assignee: 华为技术有限公司
Priority date: 2022-12-02
Filing date: 2023-11-14
Publication date: 2024-06-06
Also published as: CN118136027A

Abstract

本申请实施例提供了一种场景音频编码方法及电子设备。该编码方法包括：首先，获取待编码的场景音频信号，场景音频信号包括C1个通道的音频信号；接着，基于场景音频信号，确定目标虚拟扬声器的属性信息；之后，编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息，以得到第一码流；其中，第一音频信号为场景音频信号中K个通道的音频信号，K为小于或等于C1的正整数。相对于现有技术而言，本申请在达到同等质量的前提下编码码率更低。此外，相对于现有技术而言，本申请无需计算虚拟扬声器信号和残差信号，编码端的编码复杂度更低。

Description

场景音频编码方法及电子设备

本申请要求于2022年12月02日提交中国国家知识产权局、申请号为202211537851.0、申请名称为“场景音频编码方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及音频编解码领域，尤其涉及一种场景音频编码方法及电子设备。

背景技术

三维音频技术是通过计算机、信号处理等方式对真实世界中声音事件和三维声场信息进行获取、处理，传输和渲染回放的音频技术。三维音频使声音具有强烈的空间感、包围感及沉浸感，给人以“声临其境”的非凡听觉体验。其中，HOA(Higher Order Ambisonics，高阶立体混响)技术具有在录制、编码与回放阶段与扬声器布局无关的性质以及HOA格式数据的可旋转回放特性，在进行三维音频回放时具有更高的灵活性，因而也得到了更为广泛的关注和研究。

对于N阶HOA信号来说，其对应的通道数为(N+1)²。随着HOA阶数的增加，HOA信号中用于记录更详细的声音场景的信息也会随之增加；但HOA信号的数据量也会随之增多，大量的数据造成传输和存储的困难，因此需要对HOA信号进行编解码。然而，现有技术对HOA信号的编码性能低。

发明内容

本申请提供一种场景音频编码方法及电子设备。

第一方面，本申请实施例提供一种场景音频编码方法，该方法包括：首先，获取待编码的场景音频信号，场景音频信号包括C1个通道的音频信号，C1为正整数；接着，基于场景音频信号，确定目标虚拟扬声器的属性信息；之后，编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息，以得到第一码流；其中，第一音频信号为场景音频信号中K个通道的音频信号，K为小于或等于C1的正整数。

需要说明的是，目标虚拟扬声器的位置与场景音频信号中声源的位置相匹配；根据目标虚拟扬声器的属性信息和场景音频信号中第一音频信号，可以生成目标虚拟扬声器对应的虚拟扬声器信号；根据虚拟扬声器信号，可以重建出该场景音频信号。因此，编码端将场景音频信号中第一音频信号和目标虚拟扬声器的属性信息编码后发送给解码端，解码端可以基于解码得到第一重建信号(即场景音频信号中第一音频信号的重建信号)和目标虚拟扬声器的属性信息，重建出该场景音频信号。

相对于现有技术中其他重建场景音频信号的方法而言，基于虚拟扬声器信号重建出的场景音频信号的音频质量更高；因此当K等于C1时，在同等码率下，本申请的重建出的场景音频信号的音频质量更高。

当K小于C1时，相对于现有技术而言，本申请编码的音频信号的通道数更少，且目标虚拟扬声器的属性信息的数据量，远小于一个通道的音频信号的数据量；因此在达到同等质量的前提下，本申请编码码率更低。

此外，现有技术是将场景音频信号转换为虚拟扬声器信号和残差信号后再编码，而本申请编码端直接编码场景音频信号中第一音频信号，无需计算虚拟扬声器信号和残差信号，编码端的编码复杂度更低。

示例性的，本申请实施例涉及的场景音频信号，可以是指用于描述声场的信号；其中，场景音频信号可以包括：HOA信号(其中，HOA信号可以包括三维HOA信号和二维HOA信号(也可以称为平面HOA信号))和三维音频信号；三维音频信号可以是指场景音频信号中除HOA信号之外的其他音频信号。

一种可能的方式中，当N1等于1时，K可以等于C1；当N1大于1时，K可以小于C1。应该理解的是，当N1等于1时，K也可以小于C1。

示例性的，编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息的过程可以包括：下混、变换、量化以及熵编码等操作，本申请对此不作限制。

示例性的，第一码流可以包括场景音频信号中第一音频信号的编码数据，以及目标虚拟扬声器的属性信息的编码数据。

一种可能的方式中，可以基于场景音频信号，从多个候选虚拟扬声器中，选取目标虚拟扬声器，再确定目标虚拟扬声器的属性信息。示例性的，虚拟扬声器(包括候选虚拟扬声器和目标虚拟扬声器)是虚拟的扬声器，不是真实存在的扬声器。

示例性的，多个候选虚拟扬声器可以均匀的分布在球面上，目标虚拟扬声器的数量可以为一个或多个。

一种可能的方式中，可以获取预先设定的目标虚拟扬声器，再确定目标虚拟扬声器的属性信息。

应该理解的是，本申请不限制确定目标虚拟扬声器的方式。

根据第一方面，场景音频信号为N1阶高阶立体混响HOA信号，N1阶HOA信号包括第二音频信号和第三音频信号，第二音频信号为N1阶HOA信号中第0阶至第M阶的HOA信号，第三音频信号为N1阶HOA信号中除第二音频信号之外的音频信号，M为小于N1的整数，C1等于(N1+1)的平方，N1为正整数；第一音频信号包括第二音频信号。

示例性的，第一音频信号包括第二音频信号，可以理解为第一音频信号仅包括第二音频信号。

示例性的，第一音频信号包括第二音频信号，可以理解为第一音频信号包括第二音频信号和其他音频信号。

根据第一方面，或者以上第一方面的任意一种实现方式，第一音频信号还包括第四音频信号；其中，第四音频信号为第三音频信号中部分通道的音频信号。

其中，第一音频信号可以包括偶数个通道的音频信号，则当第二音频信号的通道数为奇数时，第四音频信号的通道数也可以为奇数；这样，能够便于仅支持编码偶数个通道的音频信号的编码器编码。

示例性的，第二音频信号可以称为场景音频信号的低阶部分，第三音频信号可以称为场景音频信号的高阶部分。也就是说，可以编码场景音频信号的低阶部分与场景音频信号的高阶部分中的一部分；以保证第一音频信号包括偶数个通道的音频信号。

应该理解的是，第一音频信号也可以包括奇数个通道的音频信号，则当第二音频信号的通道数为偶数时，第四音频信号的通道数可以为奇数；这样，能够便于仅支持编码奇数个通道的音频信号的编码器编码。

应该理解的是，相对于第一音频信号包括第二音频信号和第四音频信号而言，第一音频信号仅包括第二音频信号时，编码的第一音频信号的通道数更少，对应的码率更低。

根据第一方面，或者以上第一方面的任意一种实现方式，目标虚拟扬声器的属性信息包括以下至少一种：目标虚拟扬声器的位置信息，目标虚拟扬声器的位置信息对应的位置索引，或，目标虚拟扬声器的虚拟扬声器索引。

示例性的，在球坐标系下，目标虚拟扬声器的位置信息可以如其中，θ_s3为目标虚拟扬声器的水平角信息，为目标虚拟扬声器的俯仰角信息。

示例性的，位置索引用于唯一标识一个虚拟扬声器的位置。其中，位置索引可以包括水平角索引(用于唯一标识一个水平角信息)和俯仰角索引(用于唯一标识一个俯仰角信息)。其中，虚拟扬声器的位置索引与虚拟扬声器的位置信息一一对应。

示例性的，虚拟扬声器索引可以用于唯一标识一个虚拟扬声器；其中，虚拟扬声器的位置信息/位置索引，与虚拟扬声器索引一一对应。

根据第一方面，或者以上第一方面的任意一种实现方式，基于场景音频信号，确定目标虚拟扬声器的属性信息，包括：获取多个候选虚拟扬声器对应的多组虚拟扬声器系数，多组虚拟扬声器系数与多个候选虚拟扬声器一一对应；基于场景音频信号和多组虚拟扬声器系数，从多个候选虚拟扬声器中选取目标虚拟扬声器；获取目标虚拟扬声器的属性信息。

其中，每个候选虚拟扬声器作为一个虚拟声源时，该虚拟声源产生的虚拟扬声器信号是平面波，可以将其在球坐标系下展开。对于振幅为s，方向为的理想平面波，使用球谐函数展开后的形式可以如下述公式(3)所示。将公式(3)中设置为候选虚拟扬声器的位置信息此时公式(3)所示中的即为一组虚拟扬声器系数(即HOA系数)。也就是说，虚拟扬声器系数也是HOA系数。需要说明的是，根据公式(3)可知，候选虚拟扬声器的位置与场景音频信号中声源的位置不同时，候选虚拟扬声器的虚拟扬声器系数与场景音频信号是不同的HOA系数。

这样，基于场景音频信号和多组虚拟扬声器系数，能够从多个候选虚拟扬声器中，准确的查找出位置与场景音频信号中声源位置匹配的目标虚拟扬声器。

根据第一方面，或者以上第一方面的任意一种实现方式，基于场景音频信号和多组虚拟扬声器系数，从多个候选虚拟扬声器中选取目标虚拟扬声器，包括：将场景音频信号与多组虚拟扬声器系数分别进行内积，以得到多个内积值；多个内积值与多组虚拟扬声器系数一一对应；基于多个内积值，从多个候选虚拟扬声器中选取目标虚拟扬声器。这样，通过内积，能够准确的确定各候选虚拟扬声器与场景音频信号的匹配度；进而能够选取出位置与场景音频信号中声源位置更加匹配的目标虚拟扬声器。

根据第一方面，或者以上第一方面的任意一种实现方式，该方法还包括：获取场景音频信号中第五音频信号所对应的特征信息；编码特征信息，以得到第二码流；其中，第五音频信号为第三音频信号，或者，第五音频信号为场景音频信号中除第二音频信号和第四音频信号之外的音频信号，第四音频信号为第三音频信号中部分通道的音频信号。其中，特征信息可以用于解码端解码过程中，对重建得到的场景音频信号中部分通道的音频信号进行补偿，来提高重建得到的场景音频信号中部分通道的音频信号的音频质量。

其中，特征信息的数据量较小，因此相对于现有技术而言，即使编码特征信息，本申请的总码率也更小，因此在同等码率的前提下，能够进一步提高重建的场景音频信号的音频质量。

示例性的，可以基于场景音频信号的能量、强度等信息，来确定场景音频信号中第五音频信号所对应的特征信息。

根据第一方面，或者以上第一方面的任意一种实现方式，特征信息包括增益信息。

示例性的，特征信息还可以包括扩散信息等，本申请对此不作限制。

第二方面，本申请实施例提供一种场景音频解码方法，该场景音频解码方法包括：首先，接收第一码流；以及解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息，第一重建信号是场景音频信号中第一音频信号的重建信号，场景音频信号包括C1个通道的音频信号，第一音频信号为场景音频信号中K个通道的音频信号，C1为正整数，K为小于或等于C1的正整数；接着，基于属性信息和第一重建信号，生成目标虚拟扬声器对应的虚拟扬声器信号；之后，基于属性信息和虚拟扬声器信号进行重建，以得到第一重建场景音频信号；第一重建场景音频信号包括C2个通道的音频信号，C2为正整数。

当K小于C1时，在对场景音频信号编码的过程中，本申请编码的音频信号的通道数，小于现有技术编码的音频信号的通道数，且目标虚拟扬声器的属性信息的数据量，远小于一个通道的音频信号的数据量；因此在同等码率的前提下，本申请解码得到重建场景音频信号的音频质量更高。

其次，由于现有技术编码传输的虚拟扬声器信号和残差信息是通过原始音频信号(即待编码的场景音频信号)转换而来的，并不是原始音频信号，会引入误差；而本申请编码了部分原始音频信号(即待编码的场景音频信号中的K个通道的音频信号)，避免了误差的引入，进而能够提高解码得到重建场景音频信号的音频质量；且还能够避免解码得到重建场景音频信号的重建质量的波动，稳定性高。

此外，由于现有技术编码以及传输的是虚拟扬声器信号，而虚拟扬声器信号的数据量较大，因此现有技术选取的目标虚拟扬声器的数量受到带宽限制较大。本申请编码以及传输的是虚拟扬声器的属性信息，属性信息的数据量远小于虚拟扬声器信号的数据量；因此本申请选取的目标虚拟扬声器的数量受到带宽限制较小。而选取的目标虚拟扬声器的数量越多，基于目标虚拟扬声器的虚拟扬声器信号，重建出的场景音频信号的质量也就越高。因此，相对于现有技术而言，在同等码率的情况下，本申请可以选取数量更多的目标虚拟扬声器，这样，本申请解码得到重建场景音频信号的质量也就更高。

此外，综合编码端和解码端，相对于现有技术的编码端和解码端而言，本申请的编码端和解码端无需进行残差和叠加操作，因此本申请编码端和解码端的综合复杂度，低于现有技术编码端和解码端的综合复杂度。

应该理解的是，当编码端对场景音频信号中第一音频信号进行的是有损压缩时，解码端解码得到的第一重建信号和编码端编码的第一音频信号存在差异。当编码端对第一音频信号进行的是无损压缩时，解码端解码得到的第一重建信号和编码端编码的第一音频信号相同。

应该理解的是，当编码端对目标虚拟扬声器的属性信息进行的是有损压缩时，解码端解码得到的属性信息和编码端编码的属性信息存在差异。当编码端对虚拟扬声器的属性信息进行的是无损压缩时，解码端解码得到的属性信息和编码端编码的属性信息相同。(其中，本申请对编码端编码的属性信息和解码端解码得到的属性信息，未从名称上进行区分。)

根据第二方面，该方法还包括：基于第一重建信号和第一重建场景音频信号，生成第二重建场景音频信号，第二重建场景音频信号包括C2个通道的音频信号。相对于第一重建场景音频信号中通道与第一音频信号的通道对应的音频信号而言，解码出的第一重建信号，更接近编码的第一音频信号；这样，能够得到音频质量比第一重建场景音频信号更高的第二重建场景音频信号。

根据第二方面，或者以上第二方面的任意一种实现方式，

场景音频信号为N1阶高阶立体混响HOA信号，N1阶HOA信号包括第二音频信号和第三音频信号，第二音频信号为N1阶HOA信号中第0阶至第M阶的信号，第三音频信号为N1阶HOA信号中除第二音频信号之外的音频信号，M为小于N的整数，C1等于(N1+1)的平方，N1为正整数；

第一重建场景音频信号为N2阶HOA信号，N2阶HOA信号包括第六音频信号和第七音频信号，第六音频信号为N2阶HOA信号中第0阶至第M阶的信号，第七音频信号为N2阶HOA信号中除第六音频信号之外的音频信号，M为小于N2的整数，C2等于(N2+1)的平方，N2为正整数；

基于第一重建信号和第一重建场景音频信号，生成第二重建场景音频信号，包括：当第一音频信号包括第二音频信号时，基于第二重建信号和第七音频信号，生成第二重建场景音频信号，第二重建信号为第二音频信号的重建信号。

相对于第一重建场景音频信号中通道与第一音频信号通道对应的音频信号而言，解码得到第一重建信号，更接近编码端所编码的第一音频信号；因此基于第一重建信号和第七音频信号，所得到的第二重建场景音频信号的音频质量更高。

根据第二方面，或者以上第二方面的任意一种实现方式，基于第一重建信号和第一重建场景音频信号，生成第二重建场景音频信号，包括：当第一音频信号包括第二音频信号和第四音频信号时，基于第二重建信号、第四重建信号和第八音频信号，生成第二重建场景音频信号；其中，第四音频信号为第三音频信号中的部分音频信号，第四重建信号为第四音频信号的重建信号，第二重建信号为第二音频信号的重建信号，第八音频信号为第七音频信号中的部分音频信号。

这样，相对于上述基于第二重建信号和第七音频信号所生成的第二重建场景音频信号而言，该种方式所得到的第二重建场景信号中第一重建信号的通道数更多，因此得到的第二重建场景音频信号更接近编码的场景音频信号，进而得到第二重建场景音频信号的音频质量更高。

根据第二方面，或者以上第二方面的任意一种实现方式，基于属性信息和第一重建信号，生成目标虚拟扬声器对应的虚拟扬声器信号，包括：基于属性信息，确定目标虚拟扬声器对应的第一虚拟扬声器系数；基于第一重建信号和第一虚拟扬声器系数，生成虚拟扬声器信号。这样，能够实现生成虚拟扬声器信号。

根据第二方面，或者以上第二方面的任意一种实现方式，基于属性信息和虚拟扬声器信号进行重建，以得到第一重建场景音频信号，包括：基于属性信息，确定目标虚拟扬声器对应的第二虚拟扬声器系数；基于虚拟扬声器信号和第二虚拟扬声器系数，以得到第一重建场景音频信号。这样，能够实现场景音频信号的重建。

根据第二方面，或者以上第二方面的任意一种实现方式，在基于第二重建信号和第七音频信号，生成第二重建场景音频信号之前，该方法还包括：接收第二码流；解码第二码流，以得到场景音频信号中第五音频信号所对应的特征信息；其中，第五音频信号为第三音频信号；基于特征信息，对第七音频信号进行补偿。这样，通过对重建得到的第一重建场景音频信号中第七音频信号进行补偿，能够提高重建得到的第一重建场景音频信号中第七音频信号的音频质量。

应该理解的是，当编码端对特征信息进行的是有损压缩时，解码端解码得到的特征信息，和编码端编码的特征信息存在差异。当编码端对特征信息进行的是无损压缩时，解码端解码得到的特征信息，和编码端编码的特征信息相同。(其中，本申请对编码端编码的特征信息和解码端解码得到的特征信息，未从名称上进行区分。)

根据第二方面，或者以上第二方面的任意一种实现方式，在基于第二重建信号、第四重建信号和第八音频信号，生成第二重建场景音频信号之前，该方法还包括：接收第二码流；解码第二码流，以得到场景音频信号中第五音频信号所对应的特征信息；其中，第五音频信号为场景音频信号中除第二音频信号和第四音频信号之外的音频信号；基于特征信息，对第八音频信号进行补偿。这样，通过对重建得到的第一重建场景音频信号中第八音频信号进行补偿，能够提高重建得到的第一重建场景音频信号中第八音频信号的音频质量。

应该理解的是，无论是否执行基于第一重建信号和第一重建场景音频信号，生成第二重建场景音频信号操作，在得到第一重建场景音频信号之后，均可以基于特征信息，对第一重建场景音频信号中第七音频信号/第八音频信号进行补偿，来提高第一重建场景音频信号。

根据第二方面，或者以上第二方面的任意一种实现方式，特征信息包括增益信息。

示例性的，第二重建场景音频信号可以是N2阶HOA信号，N2为正整数。示例性的，N2阶HOA信号可以包括C2个通道的音频信号，C2＝(N2+1)²。

示例性的，第二重建场景音频信号的阶数N2，可以大于或等于场景音频信号的阶数N1；对应的，第二重建场景音频信号包括的音频信号的通道数C2，可以大于或等于场景音频信号包括的音频信号的通道数C1。

示例性的，当第二重建场景音频信号的阶数N2，等于场景音频信号的阶数N1时，解码端可以重建出阶数与编码端编码的场景音频信号的阶数相同的重建场景音频信号。

示例性的，当第二重建场景音频信号的阶数N2，大于场景音频信号的阶数N1时，解码端可以重建出阶数大于编码端编码的场景音频信号的阶数的重建场景音频信号。

第二方面以及第二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第二方面以及第二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第三方面，本申请实施例提供一种码流生成方法，该方法可以根据如第一方面及第一方面的任意一种实现方式生成码流。

第三方面以及第三方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第三方面以及第三方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第四方面，本申请实施例提供一种场景音频编码装置，该装置包括：

信号获取模块，用于获取待编码的场景音频信号，场景音频信号包括C1个通道的音频信号，C1为正整数；

属性信息获取模块，用于基于场景音频信号，确定目标虚拟扬声器的属性信息；

编码模块，用于编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息，以得到第一码流；其中，第一音频信号为场景音频信号中K个通道的音频信号，K为小于或等于C1的正整数。

第四方面的场景音频编码装置，可以执行第一方面以及第一方面的任意一种实现方式中的步骤，在此不再赘述。

第四方面以及第四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第四方面以及第四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第五方面，本申请实施例提供一种场景音频解码装置，该装置包括：码流接收模块，用于接收第一码流；

解码模块，用于解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息，第一重建信号是场景音频信号中第一音频信号的重建信号，场景音频信号包括C1个通道的音频信号，第一音频信号为场景音频信号中K个通道的音频信号，C1为正整数，K为小于或等于C1的正整数；

虚拟扬声器信号生成模块，用于基于属性信息和第一重建信号，生成目标虚拟扬声器对应的虚拟扬声器信号；

场景音频信号重建模块，用于基于属性信息和虚拟扬声器信号进行重建，以得到第一重建场景音频信号；第一重建场景音频信号包括C2个通道的音频信号，C2为正整数。

第五方面的场景音频解码装置，可以执行第二方面以及第二方面的任意一种实现方式中的步骤，在此不再赘述。

第五方面以及第五方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第五方面以及第五方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第六方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。

第六方面以及第六方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第六方面以及第六方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第七方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。

第七方面以及第七方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第七方面以及第七方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第八方面，本申请实施例提供一种芯片，包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。

第八方面以及第八方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第八方面以及第八方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第九方面，本申请实施例提供一种芯片，包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。

第九方面以及第九方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第九方面以及第九方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序运行在计算机或处理器上时，使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。

第十方面以及第十方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十方面以及第十方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十一方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序运行在计算机或处理器上时，使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。

第十一方面以及第十一方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十一方面以及第十一方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十二方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括软件程序，当软件程序被计算机或处理器执行时，使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的场景音频编码方法。

第十二方面以及第十二方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十二方面以及第十二方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十三方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括软件程序，当软件程序被计算机或处理器执行时，使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的场景音频解码方法。

第十三方面以及第十三方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十三方面以及第十三方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十四方面，本申请实施例提供一种存储码流的装置，该装置包括：接收器和至少一个存储介质，接收器用于接收码流；至少一个存储介质用于存储码流；码流是根据第一方面以及第一方面的任意一种实现方式生成的。

第十四方面以及第十四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十四方面以及第十四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十五方面，本申请实施例提供一种传输码流的装置，该装置包括：发送器和至少一个存储介质，至少一个存储介质用于存储码流，码流是根据第一方面以及第一方面的任意一种实现方式生成的；发送器用于从存储介质中获取码流并将码流通过传输介质发送给端侧设备。

第十五方面以及第十五方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十五方面以及第十五方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十六方面，本申请实施例提供一种分发码流的***，该***包括：至少一个存储介质，用于存储至少一个码流，至少一个码流是根据第一方面以及第一方面的任意一种实现方式生成的，流媒体设备，用于从至少一个存储介质中获取目标码流，并将目标码流发送给端侧设备，其中，流媒体设备包括内容服务器或内容分发服务器。

第十六方面以及第十六方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十六方面以及第十六方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

附图说明

图1a为示例性示出的应用场景示意图；

图1b为示例性示出的应用场景示意图；

图2a为示例性示出的编码过程示意图；

图2b为示例性示出的候选虚拟扬声器分布示意图；

图3为示例性示出的解码过程示意图；

图4为示例性示出的编码过程示意图；

图5为示例性示出的解码过程示意图；

图6a为示例性示出的编码端的结构示意图；

图6b为示例性示出的解码端的结构示意图；

图7为示例性示出的编码过程示意图；

图8为示例性示出的解码过程示意图；

图9a为示例性示出的编码端的结构示意图；

图9b为示例性示出的解码端的结构示意图；

图10为示例性示出的场景音频编码装置的结构示意图；

图11为示例性示出的场景音频解码装置的结构示意图；

图12为示例性示出的装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一目标对象和第二目标对象等是用于区别不同的目标对象，而不是用于描述目标对象的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个***是指两个或两个以上的***。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍。

声音(sound)是由物体振动产生的一种连续的波。产生振动而发出声波的物体称为声源。声波通过介质(如：空气、固体或液体)传播的过程中，人或动物的听觉器官能感知到声音。

声波的特征包括音调、音强和音色。音调表示声音的高低。音强表示声音的大小。音强也可以称为响度或音量。音强的单位是分贝(decibel，dB)。音色又称为音品。

声波的频率决定了音调的高低。频率越高音调越高。物体在一秒钟之内振动的次数称为频率，频率单位是赫兹(hertz，Hz)。人耳能识别的声音的频率在20Hz～20000Hz之间。

声波的幅度决定了音强的强弱。幅度越大音强越大。距离声源越近，音强越大。

声波的波形决定了音色。声波的波形包括方波、锯齿波、正弦波和脉冲波等。

根据声波的特征，声音可以分为规则声音和无规则声音。无规则声音是指声源无规则地振动发出的声音。无规则声音例如是影响人们工作、学习和休息等的噪声。规则声音是指声源规则地振动发出的声音。规则声音包括语音和乐音。声音用电表示时，规则声音是一种在时频域上连续变化的模拟信号。该模拟信号可以称为音频信号。音频信号是一种携带语音、音乐和音效的信息载体。

由于人的听觉具有辨别空间中声源的位置分布的能力，则听音者听到空间中的声音时，除了能感受到声音的音调、音强和音色外，还能感受到声音的方位。

随着人们对听觉***体验的关注和品质要求与日俱增，为了增强声音的纵深感、临场感和空间感，则三维音频技术应运而生。从而听音者不仅感受到来自前、后、左和右的声源发出的声音，而且感受到自己所处空间被这些声源产生的空间声场(简称“声场”(sound field))所包围的感觉，以及声音向四周扩散的感觉，营造出一种使听音者置身于影院或音乐厅等场所的“身临其境”的音响效果。

本申请实施例涉及的场景音频信号，可以是指用于描述声场的信号；其中，场景音频信号可以包括：HOA信号(其中，HOA信号可以包括三维HOA信号和二维HOA信号(也可以称为平面HOA信号))和三维音频信号；三维音频信号可以是指场景音频信号中除HOA信号之外的其他音频信号。以下以HOA信号为例进行说明。

众所周知，声波在理想介质中传播，波数为k＝w/c，角频率为w＝2πf，其中，f为声波频率，c为声速。声压p满足公式(1)，为拉普拉斯算子。

假设人耳以外的空间***是一个球形，听音者处于球的中心，从球外传来的声音在球面上有一个投影，过滤掉球面以外的声音，假设声源分布在这个球面上，用球面上的声源产生的声场来拟合原始声源产生的声场，即三维音频技术就是一个拟合声场的方法。具体地，在球坐标系下求解公式(1)等式方程，在无源球形区域内，该公式(1)方程解为如下公式(2)。

其中，r表示球半径，θ表示水平角信息(或者称为方位角信息)，表示俯仰角信息(或称为仰角信息)，k表示波数，s表示理想平面波的幅度，m表示HOA信号的阶数序号(或称为HOA信号的阶数序号)。表示球贝塞尔函数，球贝塞尔函数又称为径向基函数，其中，第一个j表示虚数单位，不随角度变化。表示θ,方向的球谐函数，表示声源方向的球谐函数。HOA信号满足公式(3)。

将公式(3)代入公式(2)，公式(2)可以变形为公式(4)。

其中，将m截断到第N项，即m＝N，以作为对声场的近似描述；此时，可以称为HOA系数(可以用于表示N阶HOA信号)。声场是指介质中有声波存在的区域。N为大于或等于1的整数。

场景音频信号是一种携带声场中声源的空间位置信息的信息载体，描述了空间中听音者的声场。公式(4)表明声场可以在球面上按球谐函数展开，即声场可以分解为多个平面波的叠加。因此，可以将HOA信号描述的声场使用多个平面波的叠加来表达，并通过HOA系数重建声场。

本申请的实施例涉及的待编码的HOA信号可以是指N1阶HOA信号，可以采用HOA系数或Ambisonic(立体声混响)系数表示，N1为大于或等于1的整数(其中，当N1等于时，1阶HOA信号，可以称为FOA(First Order Ambisonic，一阶立体混响)信号)。其中，N1阶HOA信号包括(N1+1)²个通道的音频信号。

图1a为示例性示出的应用场景示意图。在图1a示出的是场景音频信号的编解码场景。

参照图1a，示例性的，第一电子设备可以包括第一音频采集模块、第一场景音频编码模块、第一信道编码模块、第一信道解码模块、第一场景音频解码模块和第一音频回放模块。应该理解的是，第一电子设备可以包括比图1a所示的更多或更少的模块，本申请对此不作限制。

参照图1a，示例性的，第二电子设备可以包括第二音频采集模块、第二场景音频编码模块、第二信道编码模块、第二信道解码模块、第二场景音频解码模块和第二音频回放模块。应该理解的是，第二电子设备可以包括比图1a所示的更多或更少的模块，本申请对此不作限制。

示例性的，第一电子设备编码并传输场景音频信号至第二电子设备，由第二电子设备解码以及音频回放的过程可以如下：第一音频采集模块可以进行音频采集，输出场景音频信号至第一场景音频编码模块。接着，第一场景音频编码模块可以对场景音频信号进行编码，输出码流至第一信道编码模块。之后，第一信道编码模块可以对码流进行信道编码，并将信道编码后的码流通过无线或有线网络通信设备传输到第二电子设备。然后，第二电子设备的第二信道解码模块可以对接收到的数据进行信道解码，以得到码流并将码流输出至第二场景音频解码模块。接着，第二场景音频解码模块可以对该码流进行解码，以得到重建场景音频信号；然后将该重建场景音频信号输出至第二音频回放模块，由第二音频回放模块进行音频回放。

需要说明的是，第二音频回放模块可以对重建场景音频信号进行后处理(如音频渲染(例如，可以将包含(N1+1)²个通道音频信号的重建场景音频信号，转换为与第二电子设备中扬声器数量相同通道数的音频信号)、响度归一化、用户交互、音频格式转换或去噪声等)，以将重建场景音频信号转换为适应于第二电子设备中扬声器播放的音频信号。

应该理解的是，第二电子设备编码并传输场景音频信号至第一电子设备，由第一电子设备解码以及音频回放的过程，与上述第一电子设备传输场景音频信号至第二电子设备，由第二电子设备进行音频回放的过程类似，在此不再赘述。

示例性的，第一电子设备和第二电子设备均可以包括但不限于：个人计算机、计算机工作站、智能手机、平板电脑、服务器、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

示例性的，本申请具体可以应用于VR(Virtual Reality，虚拟现实)/AR(Augmented Reality，增强现实)场景。一种可能的方式中，第一电子设备为服务器，第二电子设备为VR/AR设备。一种可能的方式中，第二电子设备为服务器，第一电子设备为VR/AR设备。

示例性的，第一场景音频编码模块和第二场景音频编码模块，可以是场景音频编码器。第一场景音频解码模块和第二场景音频解码模块，可以是场景音频解码器。

示例性的，当由第一电子设备编码场景音频信号，第二电子设备重建场景音频信号时，第一电子设备可以称为编码端，第二电子设备可以称为解码端。当由第二电子设备编码场景音频信号，第一电子设备重建场景音频信号时，第二电子设备可以称为编码端，第一电子设备可以称为解码端。

图1b为示例性示出的应用场景示意图。在图1b示出的是场景音频信号的转码场景。

参照图1b(1)，示例性的，无线或核心网设备可以包括：信道解码模块、其他音频解码模块、场景音频编码模块和信道编码模块。其中，无线或核心网设备可以用于音频转码。

示例性的，图1b(1)的具体应用场景可以是：在第一电子设备未设有场景音频编码模块，仅设有其他音频编码模块；而第二电子设备仅设有场景音频解码模块，未设有其他音频解码模块的情况下，为了实现第二电子设备能够解码并回放第一电子设备采用其他音频编码模块编码场景音频信号，可以使用无线或核心网设备进行转码。

具体的，第一电子设备采用其他音频编码模块对场景音频信号进行编码，得到第一码流；并将第一码流进行信道编码后发送给无线或核心网设备。接着，无线或核心网设备的信道解码模块可以进行信道解码，将信道解码出的第一码流输出至其他音频解码模块。之后，其他音频解码模块对第一码流进行解码，得到场景音频信号并将场景音频信号输出至场景音频编码模块。然后，场景音频编码模块可以对场景音频信号进行编码，以得到第二码流并将第二码流输出至信道编码模块，由信道编码模块对第二码流进行信道编码后，发送至第二电子设备。这样，第二电子设备可以调用场景音频解码模块，对信道解码得到第二码流进行解码，得到重建场景音频信号；后续即可对重建场景音频信号进行音频回放。

参照图1b(2)，示例性的，无线或核心网设备可以包括：信道解码模块、场景音频解码模块、其他音频编码模块和信道编码模块。其中，无线或核心网设备可以用于音频转码。

示例性的，图1b(2)的具体应用场景可以是：在第一电子设备仅设有场景音频编码模块，未设有其他音频编码模块；而第二电子设备未设有场景音频解码模块，仅设有其他音频解码模块的情况下，为了实现第二电子设备能够解码并回放第一电子设备采用场景音频编码模块编码场景音频信号，可以使用无线或核心网设备进行转码。

具体的，第一电子设备采用场景音频编码模块对场景音频信号进行编码，得到第一码流；并将第一码流进行信道编码后发送给无线或核心网设备。接着，无线或核心网设备的信道解码模块可以进行信道解码，将信道解码出的第一码流输出至场景音频解码模块。之后，场景音频解码模块对第一码流进行解码，得到场景音频信号并将场景音频信号输出至其他音频编码模块。然后，其他音频编码模块可以对场景音频信号进行编码，以得到第二码流并将第二码流输出至信道编码模块，由信道编码模块对第二码流进行信道编码后，发送至第二电子设备。这样，第二电子设备可以调用其他音频解码模块，对信道解码得到第二码流进行解码，得到重建场景音频信号；后续即可对重建场景音频信号进行音频回放。

以下对场景音频信号的编解码过程进行说明。

图2a为示例性示出的编码过程示意图。

S201，获取待编码的场景音频信号，场景音频信号包括C1个通道的音频信号，C1为正整数。

示例性的，当场景音频信号为HOA信号时，该HOA信号可以为N1阶HOA信号，也就是当m截断到第N1项时，上述公式(3)中的

示例性的，N1阶HOA信号可以包括C1个通道的音频信号，C1＝(N1+1)²。例如，N1＝3时，N1阶HOA信号包括16个通道的音频信号；N1＝4时，N1阶HOA信号包括25个通道的音频信号。

S202，基于场景音频信号，确定目标虚拟扬声器的属性信息。

S203，编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息，以得到第一码流；其中，第一音频信号为场景音频信号中K个通道的音频信号，K为小于或等于C1的正整数。

示例性的，虚拟扬声器是虚拟的扬声器，不是真实存在的扬声器。

示例性的，基于上述可知，场景音频信号可以使用多个平面波的叠加来表达，进而可以确定用于来模拟场景音频信号中声源的目标虚拟扬声器；这样，后续在解码过程中，采用目标虚拟扬声器对应的虚拟扬声器信号，来重建该场景音频信号。

一种可能的方式中，可以在球面上设置位置不同的多个候选虚拟扬声器；接着，可以从这多个候选虚拟扬声器中，选取位置与场景音频信号中声源位置相匹配的目标虚拟扬声器。

图2b为示例性示出的候选虚拟扬声器分布示意图。在图2b中，多个候选虚拟扬声器可以均匀的分布在球面上，球面上一个点，代表一个候选虚拟扬声器。

需要说明的是，本申请对候选虚拟扬声器的数量以及分布不作限制，可以按照需求设置，具体在后续进行说明。

示例性的，可以基于场景音频信号，从这多个候选虚拟扬声器中，选取位置与场景音频信号中声源位置匹配的目标虚拟扬声器；其中，目标虚拟扬声器的数量可以是一个，也可以是多个，本申请对此不作限制。

一种可能的方式中，可以预先设定目标虚拟扬声器。

应该理解的是，本申请不限制确定目标虚拟扬声器的方式。

示例性的，一种可能的方式中，在解码过程中，可以根据虚拟扬声器信号来重建场景音频信号；但是直接传输目标虚拟扬声器的虚拟扬声器信号，会增加码率；而目标虚拟扬声器的虚拟扬声器信号可以基于目标虚拟扬声器的属性信息和部分或全部通道的场景音频信号来生成；因此可以获取目标虚拟扬声器的属性信息，以及获取场景音频信号中的K个通道的音频信号，作为第一音频信号；然后对第一音频信号和目标虚拟扬声器的属性信息进行编码，以得到第一码流。

示例性的，可以对第一音频信号和目标虚拟扬声器的属性信息进行下混、变换、量化以及熵编码等操作，以得到第一码流。也就是说，该第一码流中可以包括场景音频信号中第一音频信号的编码数据，以及目标虚拟扬声器的属性信息的编码数据。

相对于现有技术中其他重建场景音频信号的方法而言，基于虚拟扬声器信号重建出的场景音频信号的音频质量更高；因此当K等于C1时，在同等码率下，本申请重建出的场景音频信号的音频质量更高。

当K小于C1时，在对场景音频信号编码的过程中，本申请编码的音频信号的通道数，小于现有技术编码的音频信号的通道数，且目标虚拟扬声器的属性信息的数据量，也远小一个通道的音频信号的数据量；因此在达到同等质量的前提下，本申请编码码率更低。

此外，现有技术是将场景音频信号转换为虚拟扬声器信号和残差信号后再编码，而本申请编码端直接编码场景音频信号中部分通道的音频信号，无需计算虚拟扬声器信号和残差信号，编码端的编码复杂度更低。

图3为示例性示出的解码过程示意图。图3为与图2的编码过程所对应的解码过程。

S301，接收第一码流。

S302，解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息。

示例性的，可以对第一码流包含的场景音频信号中第一音频信号的编码数据进行解码，可以得到第一重建信号；也就是说，第一重建信号是第一音频信号的重建信号。以及可以对第一码流包含的目标虚拟扬声器的属性信息的编码数据进行解码，可以得到目标虚拟扬声器的属性信息。

S303，基于属性信息和第一重建信号，生成目标虚拟扬声器对应的虚拟扬声器信号。

S304，基于属性信息和虚拟扬声器信号进行重建，以得到第一重建场景音频信号。

示例性的，基于上述描述可知，可以基于虚拟扬声器信号，来重建场景音频信号；进而可以先基于目标虚拟扬声器的属性信息和第一重建信号，生成目标虚拟扬声器对应虚拟扬声器信号。其中，一个目标虚拟扬声器对应一路虚拟扬声器信号，虚拟扬声器信号是平面波。接着，再基于目标虚拟扬声器的属性信息和虚拟扬声器信号进行重建，生成第一重建场景音频信号。

示例性的，当场景音频信号为HOA信号时，重建得到的第一重建场景音频信号也可以为HOA信号，该HOA信号可以是N2阶HOA信号，N2为正整数。示例性的，N2阶HOA信号可以包括C2个通道的音频信号，C2＝(N2+1)²。

示例性的，第一重建场景音频信号的阶数N2，可以大于或等于图2a实施例中场景音频信号的阶数N1；对应的，第一重建场景音频信号包括的音频信号的通道数C2，可以大于或等于图2a实施例中场景音频信号包括的音频信号的通道数C1。

一种可能的方式中，可以直接将第一重建场景音频信号，作为最终的解码结果。

其次，由于现有技术编码传输的虚拟扬声器信号和残差信息是通过原始音频信号(即待编码的场景音频信号)转换而来的，并不是原始音频信号，会引入误差；而本申请编码了部分原始音频信号(即待编码的场景音频信号中K个通道的音频信号)，避免了误差的引入，进而能够提高解码得到重建场景音频信号的音频质量；且还能够避免解码得到重建场景音频信号的重建质量的波动，稳定性高。

以下场景音频信号为N1阶HOA信号，第一重建场景音频信号为N2阶HOA信号，以N1和N2均大于1，K小于C1为例进行说明。

一种可能的方式中，可以基于第一重建场景音频信号和第一重建信号，生成第二重建场景音频信号；然后，将第二重建场景音频信号，作为最终的解码结果。其中，可以将第一重建场景音频信号中通道与第一音频信号的通道对应的音频信号，采用第一重建信号替换。相对于第一重建场景音频信号中通道与第一音频信号的通道对应的音频信号而言，解码得到的第一重建信号，更接近编码的第一音频信号，因此得到的第二重建场景音频信号比第一重建场景音频信号的音频质量更高。

为了便于后续描述生成第二重建场景音频信号的过程，先对场景音频信号(即N1阶HOA信号)和第一重建场景音频信号(即N2阶HOA信号)的组成成分进行说明。

示例性的，N1阶HOA信号可以包括第二音频信号和第三音频信号，第二音频信号为N1阶HOA信号截断到M阶时的HOA信号(或者说，第二音频信号为N1阶HOA信号中第0阶至第M阶的信号；其中，第二音频信号包括(M+1)²个通道的音频信号，M为小于N1的整数)，第三音频信号为N1阶HOA信号中除第二音频信号之外的音频信号。

一种可能的方式中，第二音频信号可以称为N1阶HOA信号的低阶部分，第三音频信号可以称为N1阶HOA信号的高阶部分。

举个例子：假设，N1＝3，则N1阶HOA信号可以包16个通道的音频信号。

示例性的，参照上述公式(3)可知，在N1等于3(也就是上述公式(3)中的m等于3)的情况下，将公式(3)展开可以得到16个单项式；其中，每一单项式可以用于表示N1阶HOA信号中一个通道的音频信号。

其中，当公式(3)中n取值为0时，将公式(3)展开可以得到1个单项式，如下公式(5)所示；此时可以得到1个通道的音频信号。当公式(3)中n取值为1时，将公式(3)展开可以得到3个单项式，如下公式(6)所示；此时可以得到3个通道的音频信号。当公式(4)中n取值为2时，将公式(3)展开可以得到5个单项式，如下公式(7)所示；此时可以得到5个通道的音频信号。当公式(4)中n取值为3时，将公式(3)展开可以得到7个单项式，如下公式(8)所示；此时可以得到7个通道的音频信号。

其中，为场景音频信号中声源的位置信息。

示例性的，若M＝0，即公式(3)中m等于0，此时n的取值可以为0；对公式(3)展开可以1个单项式。这种情况下，第二音频信号可以包括1个通道的音频信号，如上述公式(5)所示；第三音频信号可以包括另外的15个通道的音频信号，如上述公式(6)～公式(8)所示。

示例性的，若M＝1时，即公式(3)中m等于1，此时n的取值可以为0和1；对公式(3)展开可以得到4个单项式。这种情况下，第二音频信号可以包括4个通道的音频信号，如上述公式(5)和公式(6)所示；第三音频信号可以包括另外的12个通道的音频信号，如上述公式(7)和公式(8)所示。

示例性的，若M＝2时，即公式(3)中m等于2，此时n的取值可以为0、1和2；对公式(3)展开可以得到9个单项式。这种情况下，第二音频信号可以包括9个通道的音频信号，上述公式(5)～公式(7)所示；第三音频信号可以包括另外的7个通道的音频信号，上述公式(8)。

示例性的，N2阶HOA信号可以包括第六音频信号和第七音频信号，第六音频信号为N2阶HOA信号截断到M阶时的HOA信号(或者说，第六音频信号为N2阶HOA信号中第0阶至第M阶的信号；其中，第六音频信号包括(M+1)²个通道的音频信号，M为小于N2的整数)，第七音频信号为N2阶HOA信号中除第六音频信号之外的音频信号。

一种可能的方式中，第六音频信号可以称为N2阶HOA信号的低阶部分，第七音频信号可以称为N2阶HOA信号的高阶部分。

举个例子，假设，N2＝3，则N2阶HOA信号可以包16个通道的音频信号。

示例性的，参照上述公式(3)可知，在N等于3(也就是上述公式(3)中的m等于3时)的情况下，将公式(3)展开可以得到16个单项式；其中，每一单项式可以用于表示N2阶HOA信号中一个通道的音频信号。

其中，当公式(3)中n取值为0时，将公式(3)展开可以得到1个单项式，如下公式(9)所示；此时可以得到1个通道的音频信号。当公式(3)中n取值为1时，将公式(3)展开可以得到3个单项式，如下公式(10)所示；此时可以得到3个通道的音频信号。当公式(4)中n取值为2时，将公式(3)展开可以得到5个单项式，如下公式(11)所示；此时可以得到5个通道的音频信号。当公式(4)中n取值为3时，将公式(3)展开可以得到7个单项式，如下公式(12)所示；此时可以得到7个通道的音频信号。

其中，为第一重建场景音频信号中声源的位置信息。

示例性的，若M＝0，即公式(3)中m等于0，此时n的取值可以为0；对公式(3)展开可以1个单项式。这种情况下，第六音频信号可以包括1个通道的音频信号，如上述公式(9)所示；第七音频信号可以包括另外的15个通道的音频信号，如上述公式(10)～公式(12)所示。

示例性的，若M＝1时，即公式(3)中m等于1，此时n的取值可以为0和1；对公式(3)展开可以得到4个单项式。这种情况下，第六音频信号可以包括4个通道的音频信号，如上述公式(9)和公式(10)所示；第七音频信号可以包括另外的12个通道的音频信号，如上述公式(11)和公式(12)所示。

示例性的，若M＝2时，即公式(3)中m等于2，此时n的取值可以为0、1和2；对公式(3)展开可以得到9个单项式。这种情况下，第六音频信号可以包括9个通道的音频信号，上述公式(9)～公式(11)所示；第七音频信号可以包括另外的7个通道的音频信号，上述公式(12)。

以下对编码过程中选取目标虚拟扬声器的过程，以及解码过程中重建第二重建场景音频信号的过程进行说明。

图4为示例性示出的编码过程示意图。

S401，获取待编码的场景音频信号，场景音频信号包括C1个通道的音频信号，C1为正整数。

示例性的，S401可以参照上述S201的描述，在此不再赘述。

S402，获取多个候选虚拟扬声器对应的多组虚拟扬声器系数，多组虚拟扬声器系数与多个候选虚拟扬声器一一对应。

示例性的，可以获取编码模块(例如场景音频编码模块)的第一配置信息；然后根据编码模块的第一配置信息，确定候选虚拟扬声器的第二配置信息；接着，根据候选虚拟扬声器的第二配置信息，生成多个候选虚拟扬声器。

示例性的，第一配置信息包括且不限于：编码比特率，用户自定义信息(例如，编码模块对应的HOA阶数(是指编码模块可支持编码的HOA信号的阶数)，重建场景音频信号的阶数(期望的解码端解码得到的重建HOA信号的阶数)、重建场景音频信号的格式(期望的解码端解码得到的重建HOA信号的格式)等等)；本申请对此不作限制。

示例性的，第二配置信息包括但不限于：候选虚拟扬声器的总数量、各候选虚拟扬声器的HOA阶数、各候选虚拟扬声器的位置信息等信息；本申请对此不作限制。

示例性的，根据编码模块的第一配置信息，确定候选虚拟扬声器的第二配置信息的方式可以包括多种；例如，若编码比特率较低，则可以配置较少数量的候选虚拟扬声器；若编码比特率较高，则可以配置多个数量的候选虚拟扬声器。又如，可以将虚拟扬声器的HOA阶数，配置为编码模块的HOA阶数。不限定的是，本申请实施例中，除了可以根据编码模块的第一配置信息，确定候选虚拟扬声器的第二配置信息之外，还可以根据用户自定义信息(例如，用户可以自定义的候选虚拟扬声器的总数量、各候选虚拟扬声器的HOA阶数、各候选虚拟扬声器的位置信息等信息)，确定候选虚拟扬声器的第二配置信息。

示例性的，可以预先设置一配置表，该配置表中包含候选虚拟扬声器的数量与候选虚拟扬声器的位置信息之间的关系。这样，在确定候选虚拟扬声器的总数量之后，可以通过查找给配置表，确定各候选虚拟扬声器的位置信息。

示例性的，在确定候选虚拟扬声器的第二配置信息后，可以基于候选虚拟扬声器的第二配置信息，生成多个候选虚拟扬声器。示例性的，可以根据候选虚拟扬声器的总数量，生成对应数量的候选虚拟扬声器，并且根据各候选虚拟扬声器的HOA阶数，设置各候选虚拟扬声器的HOA阶数；以及根据各候选虚拟扬声器的位置信息，设置各候选虚拟扬声器的位置。

示例性的，每个候选虚拟扬声器作为一个虚拟声源时，该虚拟声源产生的虚拟扬声器信号是平面波，可以将其在球坐标系下展开。对于振幅为s，方向为的理想平面波，使用球谐函数展开后的形式可以如公式(3)所示。其中，候选虚拟扬声器的HOA阶数，也就是公式(3)中m的截断值。

接着，可以根据各候选虚拟扬声器的HOA阶数，确定各候选虚拟扬声器对应的虚拟扬声器系数(其中，每个候选虚拟扬声器对应一组虚拟扬声器系数)。示例性的，针对一个候选虚拟扬声器，可以参照公式(3)，将公式(3)中的m的截断值设置为候选虚拟扬声器的HOA阶数，以及将公式(3)中设置为候选虚拟扬声器的位置信息此时公式(3)所示中的即为一组虚拟扬声器系数(其中，虚拟扬声器系数也是HOA系数。需要说明的是，根据公式(3)可知，候选虚拟扬声器的位置与场景音频信号中声源的位置不同时，候选虚拟扬声器的虚拟扬声器系数与场景音频信号是不同的HOA系数)。这样，可以确定各个候选虚拟扬声器对应的一组虚拟扬声器系数。

其中，S402确定的候选虚拟扬声器对应的一组虚拟扬声器系数可以包括C1个虚拟扬声器系数，一个虚拟扬声器系数与场景音频信号的一个通道对应。

一种可能的方式中，根据编码模块的第一配置信息，确定候选虚拟扬声器的第二配置信息(后续用“步骤A”代替)；根据候选虚拟扬声器的第二配置信息，生成多个候选虚拟扬声器(后续用“步骤B”代替)以及确定各候选虚拟扬声器对应的虚拟扬声器系数(后续用“步骤C”代替)；这三个步骤可以是预先执行的，即在获取待编码的场景音频信号之前执行。

一种可能的方式中，步骤A和步骤B是预先执行的，步骤C是在获取待编码的场景音频信号之后执行的。

一种可能的方式中，步骤A是预先执行的，步骤B和步骤C是在获取待编码的场景音频信号之后执行的。

一种可能的方式中，步骤A、步骤B和步骤C均，是在获取待编码的场景音频信号之后执行的。

S403，基于场景音频信号和多组虚拟扬声器系数，从多个候选虚拟扬声器中选取目标虚拟扬声器。

示例性的，将场景音频信号与多组虚拟扬声器系数分别进行内积，以得到多个内积值；多个内积值与多组虚拟扬声器系数一一对应。示例性的，针对多个候选虚拟扬声器中的每一个候选虚拟扬声器，可以将该候选虚拟扬声器对应的一组虚拟扬声器系数与场景音频信号进行内积，可以得到对应的内积值。

接着，可以基于多个内积值，从多个候选虚拟扬声器中选取目标虚拟扬声器。一种可能的方式中，可以选取内积值最大的前G(G为正整数)个候选虚拟扬声器，作为目标虚拟扬声器。一种可能的方式中，可以先选取内积最大的候选虚拟扬声器，作为一个目标虚拟扬声器；接着，将场景音频信号投影叠加至内积最大的候选虚拟扬声器对应的一组虚拟扬声器系数的线性组合上，得到投影向量；然后，将投影向量从场景音频信号中减去，以得到差值。之后，对差值重复上述过程实现迭代计算，每迭代一次产生一个目标虚拟扬声器。

一种可能的方式中，可以一帧场景音频信号为单位，确定每帧场景音频信号的场景音频信号与各候选虚拟扬声器对应的虚拟扬声器系数之间的内积值；这样，可以确定每帧场景音频信号对应的目标虚拟扬声器。

一种可能的方式中，可以将一帧场景音频信号拆分为多个子帧，然后以一个子帧为单位，确定每个子帧分别与各候选虚拟扬声器对应的虚拟扬声器系数之间的内积值；这样，可以确定每个子帧对应的目标虚拟扬声器。

S404，获取目标虚拟扬声器的属性信息。

一种可能的方式中，基于目标虚拟扬声器的位置信息，生成目标虚拟扬声器的属性信息。其中，一种可能的方式中，可以将目标虚拟扬声器的位置信息(包括俯仰角信息和水平角信息)，作为目标虚拟扬声器的属性信息。一种可能的方式中，将目标虚拟扬声器的位置信息对应的位置索引(包括俯仰角索引(可以用于唯一标识俯仰角信息)和水平角索引(可以用于唯一标识水平角信息))，作为目标虚拟扬声器的属性信息。

一种可能的方式中，可以将目标虚拟扬声器的虚拟扬声器索引(例如，虚拟扬声器标识)，作为目标虚拟扬声器的属性信息。其中，虚拟扬声器索引与位置信息一一对应。

一种可能的方式中，可以将目标虚拟扬声器的虚拟扬声器系数，作为目标虚拟扬声器的属性信息。示例性的，可以确定目标虚拟扬声器的C2个虚拟扬声器系数，将目标虚拟扬声器的C2个虚拟扬声器系数，作为目标虚拟扬声器的属性信息；其中，目标虚拟扬声器的C2个虚拟扬声器系数与第一重建场景音频信号包括的C2个通道数的音频信号一一对应。

需要说明的是，虚拟扬声器系数的数据量，远大于位置信息、位置信息的索引和虚拟扬声器索引的数据量；可以根据带宽，决策采用位置信息、位置信息的索引、虚拟扬声器索引和虚拟扬声器系数中的哪种信息，作为目标虚拟扬声器的属性信息。例如，当带宽较大时，可以将虚拟扬声器系数，作为目标虚拟扬声器的属性信息；这样，无需解码端计算目标虚拟扬声器的虚拟扬声器系数，可以节省解码端的算力。当带宽较小时，可以将位置信息、位置信息的索引、虚拟扬声器索引中的任一种，作为目标虚拟扬声器的属性信息；这样，可以节省码率。应该理解的是，也可以预先设置采用位置信息、位置信息的索引、虚拟扬声器索引和虚拟扬声器系数中的哪种信息，作为目标虚拟扬声器的属性信息；本申请对此不作限制。

S405，编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息，以得到第一码流。

一种可能方式中，第一音频信号为第二音频信号；也就是说，第一音频信号是场景音频信号中的低阶部分。假设N1＝3，当M＝0时，第一音频信号包括1个通道的音频信号；例如，第一音频信号为上述公式(5)表示的1个通道的音频信号。当M＝1时，第一音频信号包括4个通道的音频信号；例如，第一音频信号包括上述公式(5)和公式(6)表示的4个通道的音频信号。当M＝2时，第一音频信号包括9个通道的音频信号；例如，第一音频信号包括上述公式(5)、公式(6)和公式(7)表示的9个通道的音频信号。

示例性的，第二音频信号包括的通道数可能为奇数，也可能为偶数。例如，基于上述示例，假设N1＝3，当M＝0和M＝2时，第二音频信号包括的通道数为奇数；当M＝1时，第二音频信号包括的通道数为偶数。由于部分编码器仅支持编码偶数个通道的音频信号，进而，一种可能方式中，第一音频信号可以包括第二音频信号和第四音频信号，其中，第四音频信号为第三音频信号中部分通道的音频信号。示例性的，当第二音频信号包括奇数个通道时，可以从第三音频信号中选取奇数个通道的音频信号，作为第四音频信号；即第四音频信号可以包括奇数个通道的音频信号。例如，当M＝0时，第一音频信号可以包括上述公式(5)表示的1个通道的音频信号和上述公式(6)的第一项表示的1个通道的音频信号，此时，第一音频信号包括2个通道的音频信号。例如，当M＝2时，第一音频信号可以包括上述公式(5)～公式(7)表示的9个通道的音频信号，以及上述公式(8)的第一项表示的1个通道的音频信号，此时，第一音频信号包括10个通道的音频信号。

当第二音频信号包括偶数个通道时，可以从第三音频信号中选取偶数个通道的音频信号，作为第四音频信号。例如，当M＝1时，第一音频信号可以包括上述公式(5)和上述公式(6)，以及上述公式(7)前两项，此时，第一音频信号包括6个通道的音频信号。

应该理解的是，当第二音频信号包括偶数个通道时，也可以不从第三音频信号中选取部分通道的音频信号，而是直接将第二音频信号作为第一音频信号。

应该理解的是，第一音频信号所包括的音频信号的通道数，可以按照需求以及带宽确定，本申请对此不作限制。

图5为示例性示出的解码过程示意图。图5为与图4编码过程中对应的解码过程。

S501，接收第一码流。

S502，解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息。

示例性的，S501～S502，可以参照S301～S302的描述，在此不再赘述。

示例性的，上述S303可以参照S503～S504的描述：

S503，基于属性信息，确定目标虚拟扬声器对应的第一虚拟扬声器系数。

示例性的，编码端可以将M写入第一码流中；进而可以从第一码流中解码出M(当然，编码端和解码端也可以预先约定M，本申请对此不作限制)。示例性的，当目标虚拟扬声器的属性信息为位置信息时，可以将目标虚拟扬声器的位置信息代入上述公式(3)，并令公式(3)中m等于M，即可得到目标虚拟扬声器对应的第一虚拟扬声器系数。其中，第一虚拟扬声器系数包括(M+1)²个虚拟扬声器系数，这(M+1)²个虚拟扬声器系数，对应第二重建信号的(M+1)²个通道；其中，第二重建信号为第二音频信号的重建信号。

示例性的，当目标虚拟扬声器的属性信息为位置信息的位置索引时，可以根据位置信息与位置索引之间的关系，确定目标虚拟扬声器的位置信息；然后按照上述方式，确定第一虚拟扬声器系数，在此不再赘述。

示例性的，当目标虚拟扬声器的属性信息为虚拟扬声器索引时，可以根据位置信息与虚拟扬声器索引之间的关系，确定目标虚拟扬声器的位置信息；然后按照上述方式，确定第一虚拟扬声器系数，在此不再赘述。

示例性的，当目标虚拟扬声器的属性信息为虚拟扬声器系数时，基于上述描述可知，目标虚拟扬声器对应的一组虚拟扬声器系数包括C2个虚拟扬声器系数；此时，可以选取与第二重建信号包括的(M+1)²个通道对应的(M+1)²个虚拟扬声器系数，作为第一虚拟扬声器系数。

S504，基于第一重建信号和第一虚拟扬声器系数，生成虚拟扬声器信号。

示例性的，可以基于第一重建信号中的第二重建信号和第一虚拟扬声器系数，生成虚拟扬声器信号。

示例性的，假设采用尺寸为(Y1×P)的矩阵A，表示目标虚拟扬声器的第一虚拟扬声器系数，其中，Y1(Y1为正整数)为目标虚拟扬声器的数量，P为第二重建信号包含的音频信号的通道数(M+1)²。以及采用尺寸为(L×P)的矩阵X，表示第二重建信号；其中，L为第二重建信号的采样点数。采用最小二乘方法求得理论的最优解w，w表示虚拟扬声器信号如公式(13)所示。
w＝A^-1X (13)

其中，矩阵A^-1为矩阵A的逆矩阵。

示例性的，上述S304可以参照如下S505～S506：

S505，基于目标虚拟扬声器的属性信息，确定目标虚拟扬声器对应的第二虚拟扬声器系数。

示例性的，可以根据期望的重建场景音频信号的阶数N2(也就是第一重建场景音频信号或第二重建场景音频信号的阶数N2)，确定上述公式(3)中m等于N2。接着，当目标虚拟扬声器的属性信息为位置信息时，可以将目标虚拟扬声器的位置信息代入上述公式(3)，并令公式(3)中m等于N2，即可得到第二虚拟扬声器系数。其中，第二虚拟扬声器系数包括C2个虚拟扬声器系数，这C2个虚拟扬声器系数，对应第一重建场景音频信号的C2个通道。

示例性的，当目标虚拟扬声器的属性信息为虚拟扬声器系数时，可以直接将目标虚拟扬声器的属性信息，作为第二虚拟扬声器系数。

S506，基于虚拟扬声器信号和第二虚拟扬声器系数，以得到第一重建场景音频信号。

示例性的，假设采用尺寸为(Y1×C2)的矩阵A表示第二虚拟扬声器系数，其中，Y1为目标虚拟扬声器的数量，C2为第一重建场景音频信号的通道数。以及采用尺寸为(L×Y1)的矩阵B表示虚拟扬声器信号的；其中，L为第一重建场景音频信号的采样点数。则第一重建场景音频信号可以采用H表示，如公式(14)所示。
H＝BA (14)

S507，基于第一重建信号和第一重建场景音频信号，生成第二重建场景音频信号。

示例性的，相对于第一重建场景音频信号中通道与第一音频信号的通道对应的音频信号而言，解码得到的第一重建信号，更接近编码端所编码的第一音频信号；进而基于第一重建场景音频信号和第一重建信号，生成第二重建场景音频信号；然后，将第二重建场景音频信号，作为最终的解码结果；能够得到音频质量更高的重建场景音频信号。

一种可能的方式中，当第一音频信号包括第二音频信号时(也就是，第一音频信号为第二音频信号，或者，第一音频信号包括第二音频信号和第四音频信号时)，第一重建信号为第二重建信号；此时，可以基于第二重建信号和第七音频信号，生成第二重建场景音频信号。示例性的，可以按照通道拼接第二重建信号和第七音频信号，来生成第二重建场景音频信号。

例如，假设第二音频信号为上述公式(5)表示的1个通道的信号，且第一音频信号为第二音频信号，第六音频信号为上述公式(10)～公式(12)表示的15个通道的信号；则得到的第二重建场景音频信号可以包括：公式(5)表示的1个通道的音频信号的重建信号和公式(10)～公式(12)表示的15个通道的信号。

例如，假设第二音频信号包括上述公式(5)表示的1个通道的信号，第四音频信号为上述公式(6)中第一项表示的1个通道的信号，第一音频信号包括第二音频信号和第四音频信号，第六音频信号为上述公式(10)～公式(12)表示的15个通道的信号；则得到的第二重建场景音频信号可以包括：公式(5)表示的1个通道的音频信号的重建信号，以及公式(10)～公式(12)表示的15个通道的信号。

一种可能的方式中，当第一音频信号包括第二音频信号和第四音频信号时，第一重建信号可以包括第二重建信号和第四重建信号(第四重建信号为第四音频信号的重建信号)；此时，可以基于第二重建信号、第四重建信号和第八音频信号，生成第二重建场景音频信号。其中，第八音频信号为第七音频信号中部分通道的音频信号，且第八音频信号为第七音频信号中除与第四音频信号对应通道之外的其他通道的音频信号。示例性的，可以按照通道拼接第二重建信号、第四重建信号和第八音频信号，来生成第二重建场景音频信号。

例如，假设第二音频信号包括上述公式(5)表示的1个通道的信号，第四音频信号为上述公式(6)中第一项表示的1个通道的信号，第一音频信号包括第二音频信号和第四音频信号；则第八音频信号为上述公式(10)中的后两项表示的2个通道的信号，以及公式(11)～公式(12)表示的12个通道的信号。则得到的第二重建场景音频信号可以包括：公式(5)表示的1个通道的音频信号的重建信号和公式(6)中第一项表示的1个通道的音频信号的重建信号，公式(10)中的后两项表示的2个通道的信号，以及公式(11)～公式(12)表示的12个通道的信号。

示例性的，第二重建场景音频信号可以是N2阶HOA信号，N2为正整数。示例性的，第二重建场景音频信号可以包括C2个通道的音频信号，C2＝(N2+1)²。

图6a为示例性示出的编码端的结构示意图。

参数图6a，示例性的，编码端可以包括配置单元、虚拟扬声器生成单元、目标扬声器生成单元、核心编码器。应该理解的是，图6a仅是本申请的一个示例，本申请的编码端可以包括比图6a示出的更多或更少的模块，在此不再赘述。

示例性的，配置单元，可以用于根据编码模块的第一配置信息，确定候选虚拟扬声器的第二配置信息。

示例性的，虚拟扬声器生成单元，可以用于根据候选虚拟扬声器的第二配置信息，生成多个候选虚拟扬声器以及确定各候选虚拟扬声器对应的虚拟扬声器系数。

示例性的，目标扬声器生成单元，可以用于根据基于场景音频信号和多组虚拟扬声器系数，从多个候选虚拟扬声器中选取目标虚拟扬声器以及确定目标虚拟扬声器的属性信息。

示例性的，核心编码器，可以用于对场景音频信号中第一音频信号和目标虚拟扬声器的属性信息进行编码。

示例性的，上述图1a和图1b中的场景音频编码模块可以包括图6a的配置单元、虚拟扬声器生成单元、目标扬声器生成单元、核心编码器；或者，仅包括核心编码器。

图6b为示例性示出的解码端的结构示意图。

参数图6b，示例性的，解码端可以包括核心解码器、虚拟扬声器系数生成单元、虚拟扬声器信号生成单元、第一重建单元和第二重建单元。应该理解的是，图6b仅是本申请的一个示例，本申请的解码端可以包括比图6b示出的更多或更少的模块，在此不再赘述。

示例性的，核心解码器，可以用于解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息。

示例性的，虚拟扬声器系数生成单元，可以用于基于目标虚拟扬声器的属性信息，确定第一虚拟扬声器系数和第二虚拟扬声器系数。

示例性的，虚拟扬声器信号生成单元，可以用于基于第一重建信号和第一虚拟扬声器系数，生成虚拟扬声器信号。

示例性的，第一重建单元，可以用于基于虚拟扬声器信号和第二虚拟扬声器系数，以得到第一重建场景音频信号。

示例性的，第二重建单元，可以用于基于第一重建信号和第一重建场景音频信号，生成第二重建场景音频信号。

示例性的，上述图1a和图1b中的场景音频解码模块可以包括图6b的核心解码器、虚拟扬声器系数生成单元、虚拟扬声器信号生成单元、第一重建单元和第二重建单元；或者，仅包括核心解码器。

一种可能的方式中，在编码过程中，还可以提取场景音频信号中第五音频信号(第五音频信号为第三音频信号，或者，第五音频信号为场景音频信号中除第二音频信号和第四音频信号之外的音频信号)所对应的特征信息，并编码发送给解码；解码端在接收到码流后，可以基于该特征信息对第一重建场景音频信号中第七音频信号/第八音频信号进行补偿，可以提高第一重建场景音频信号/第二重建场景音频信号中第七音频信号/第八音频信号的音频质量。

图7为示例性的编码过程示意图。

S701，获取待编码的场景音频信号，场景音频信号包括C1个通道的音频信号，C1为正整数。

S702，获取多个候选虚拟扬声器对应的多组虚拟扬声器系数，多组虚拟扬声器系数与多个候选虚拟扬声器一一对应。

S703，基于场景音频信号和多组虚拟扬声器系数，从多个候选虚拟扬声器中选取目标虚拟扬声器。

S704，获取目标虚拟扬声器的属性信息。

S705，编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息，以得到第一码流。

示例性的，S701～S705，可以参照上述S401～S405的描述，在此不在赘述。

S706，获取场景音频信号中第五音频信号所对应的特征信息。

一种可能的方式中，当第一音频信号为第二音频信号，或者第一音频信号包括第二音频信号和第四音频信号时，第五音频信号为第三音频信号。

例如，假设N1＝3，M＝0。若第一音频信号为第二音频信号，第二音频信号为上述公式(5)表示的1个通道的音频信号，则第五音频信号可以为上述公式(6)～公式(9)表示的15个通道的音频信号。若第一音频信号包括第二音频信号和第四音频信号，第二音频信号为上述公式(5)表示的1个通道的音频信号，第四音频信号为上述公式(6)中第一项表示的1个通道的音频信号，则第五音频信号可以为上述公式(6)～公式(9)表示的15个通道的音频信号。

一种可能方式中，当第一音频信号包括第二音频信号和第四音频信号时，第五音频信号可以为场景音频信号中除第二音频信号和第四音频信号之外的音频信号。

例如，假设N1＝3，M＝0。若第一音频信号包括第二音频信号和第四音频信号，第二音频信号为上述公式(5)表示的1个通道的音频信号，第四音频信号为上述公式(6)中第一项表示的1个通道的音频信号，则第五音频信号可以包括上述公式(6)中后2项表示的2个通道的音频信号，以及公式(7)～公式(9)表示的12个通道的音频信号。

示例性的，可以对场景音频信号进行分析，确定场景音频信号的强度和能量等信息；然后基于场景音频信号的强度及能量等信息，提取出场景音频信号中第五音频信号所对应的特征信息。

其中，场景音频信号所对应的特征信息包括但不限于：增益信息和扩散信息。

示例性的，可以参照如下公式(15)，计算场景音频信号中第五音频信号对应的增益信息Gain(i)：
Gain(i)＝E(i)/E(1) (15)

其中，i为场景音频信号中第五音频信号包含的通道的通道号，E(i)为第i个通道的能量，E(1)为场景音频信号中C1个通道的音频信号的能量。

S707，编码特征信息，以得到第二码流。

示例性的，可以编码场景音频信号中第一音频信号所对应的特征信息，以得到第二码流。后续，可以将第二码流发送给解码端，这样，解码端可以基于场景音频信号中第五音频信号所对应的特征信息，对第一重建场景音频信号中第七音频信号/第八音频信号进行补偿后，以得到提高第一重建场景音频信号的音频质量。

图8为示例性示出的解码过程的示意图。图8为与图7的编码过程对应的解码过程。

S801，接收第一码流和第二码流。

S802，解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息。

S803，解码第二码流，以得到解码出场景音频信号中第五音频信号所对应的特征信息。

应该理解的是，当编码端对特征信息进行的是有损压缩时，解码端解码得到的特征信息和编码端编码的特征信息存在差异。当编码端对特征信息进行的是无损压缩时，解码端解码得到的特征信息和编码端编码的特征信息相同。(其中，本申请对编码端编码的特征信息和解码端解码得到的特征信息，未从名称上进行区分。)

S804，基于属性信息，确定第一虚拟扬声器系数。

S805，基于第一重建信号和第一虚拟扬声器系数，生成虚拟扬声器信号。

S806，基于属性信息，确定第二虚拟扬声器系数。

S807，基于虚拟扬声器信号和第二虚拟扬声器系数，以得到第一重建场景音频信号。

示例性的，S801～S807，可以参照上述S501～S506的描述，在此不再赘述。

S808，基于特征信息，对第一重建场景音频信号中的第七音频信号进行补偿。

示例性的，可以基于场景音频信号中的第五音频信号所对应的特征信息，对第一重建场景音频信号中的第七音频信号进行补偿，以提升第一重建场景音频信号中第七音频信号的质量。

示例性的，当特征信息为增益信息时，可以参照如下公式(16)进行补偿：
E(i)＝Gain(i)*E(1) (16)

其中，i为第一重建场景音频信号中第七音频信号包含的通道的通道号，E(i)为第i个通道的能量，E(1)为第一重建场景音频信号中C2个通道音频信号的能量，Gain(i)为场景音频信号中第五音频信号中第i个通道的音频信号所对应的增益信息。

S809，基于第二重建信号和第七音频信号，生成第二重建场景音频信号。

示例性的，S809中的第七音频信号为基于特征信息补偿后的第七音频信号；S809可以参照上文的描述，在此不再赘述。

应该理解的是，基于特征信息，对第一重建场景音频信号中的第八音频信号进行补偿；以及基于第二重建信号、第四重建信号和第一重建场景音频信号中第八音频信号(基于特征信息补偿后的第八音频信号)，生成第二重建场景音频信号；可以参照S808～S809的描述，在此不再赘述。

应该理解的是，即使不执行S809，也可以执行S808，也就是说，可以对第一重建场景音频信号进行补偿，将补偿后的第一重建场景音频信号作为最终的重建场景音频信号这样，也可以提高最终的重建场景音频信号的音频质量。

图9a为示例性示出的编码端的结构示意图。其中，图9a为在图6a的基础上示出的编码端的结构。

参数图9a，示例性的，编码端可以包括配置单元、虚拟扬声器生成单元、目标扬声器生成单元、核心编码器和特征提取单元。应该理解的是，图9a仅是本申请的一个示例，本申请的编码端可以包括比图9a示出的更多或更少的模块，在此不再赘述。

示例性的，图9a中的配置单元、虚拟扬声器生成单元、目标扬声器生成单元，可以参照图6a的描述在此不再赘述。

示例性的，特征提取单元，可以用于获取场景音频信号中第五音频信号所对应的特征信息。

示例性的，核心编码器，可以用于对场景音频信号中第一音频信号和目标虚拟扬声器的属性信息进行编码，以得到第一码流；以及对场景音频信号中第五音频信号所对应的特征信息进行编码，以得到第二码流。

示例性的，上述图1a和图1b中的场景音频编码模块可以包括图9a的配置单元、虚拟扬声器生成单元、目标扬声器生成单元、核心编码器和特征提取单元；或者，仅包括核心编码器。

图9b为示例性示出的解码端的结构示意图。

参数图9b，示例性的，解码端可以包括核心解码器、虚拟扬声器系数生成单元、虚拟扬声器信号生成单元、第一重建单元、补偿单元和第二重建单元。应该理解的是，图9b仅是本申请的一个示例，本申请的解码端可以包括比图9b示出的更多或更少的模块，在此不再赘述。

示例性的，图9b中的虚拟扬声器系数生成单元、虚拟扬声器信号生成单元和第一重建单元，可以参照图6b中的描述，在此不再赘述。

示例性的，核心解码器，可以用于解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息；还可以用于解码第二码流，以得到场景音频信号中第五音频信号所对应的特征信息。

示例性的，补偿模块，可以用于基于第五音频信号所对应的特征信息，对第七音频信号/第八音频信号进行补偿。

示例性的，第二重建模块，可以用于基于第二重建信号和补偿后的第七音频信号，生成第二重建场景音频信号；或者，用于基于第二重建信号、第四重建信号和补偿后的第八音频信号，生成第二重建场景音频信号。

示例性的，上述图1a和图1b中的场景音频解码模块可以包括图9b的核心解码器、虚拟扬声器系数生成单元、虚拟扬声器信号生成单元、第一重建单元、补偿单元和第二重建单元；或者，仅包括核心解码器。

举个例子对上述编码解过程进行说明。例如，待编码的场景音频信号为3阶HOA信号，包括16个通道。假设，编码端选取的目标虚扬声器的数量为4个，K＝9；则可以对场景音频信号中9个通道的音频信号和4个目标虚拟扬声器的属性信息进行编码，得到第一码流；以及对场景音频信号的另外7个通道的音频信号所对应的特征信息进行编码，得到第二码流。编码端将第一码流和第二码流发送至解码端。解码端解码第一码流，可以得到4个目标虚拟扬声器的属性信息和场景音频信号中9个通道的音频信号；以及解码第二码流，可以得到场景音频信号中另外7个通道的音频信号所对应的特征信息。接着，可以根据4个目标虚拟扬声器的属性信息和场景音频信号中9个通道的音频信号，生成4个虚拟扬声器信号。最后，再用4个虚拟扬声器信号和4个目标虚拟扬声器的属性信息，生成第一重建场景音频信号即3阶HOA信号。然后，将解码得到所对应的特征信息作用到第一重建场景音频信号中对应的7个通道的音频信号上；再按照通道拼接解码得到场景音频信号中的9个通道的音频信号和补偿后的第一重建场景音频信号中7个通道的音频信号，得到第二重建场景音频信号。第二重建场景音频信号为3阶HOA信号，包括16个通道。

通过测试，在768kbps速率下，本申请的编码效果优于现有技术的编码效果，能够达到透明音质和无方位偏差的效果。

图10为示例性示出的场景音频编码装置的结构示意图。图10中的场景音频编码装置可以用于执行前述实施例的编码方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。其中，场景音频编码装置可以包括：

信号获取模块1001，用于获取待编码的场景音频信号，场景音频信号包括C1个通道的音频信号，C1为正整数；

属性信息获取模块1002，用于基于场景音频信号，确定目标虚拟扬声器的属性信息；

编码模块1003，用于编码场景音频信号中第一音频信号和目标虚拟扬声器的属性信息，以得到第一码流；其中，第一音频信号为场景音频信号中K个通道的音频信号，K为小于或等于C1的正整数。

示例性的，第一音频信号包括第二音频信号。

示例性的，第一音频信号还包括第四音频信号；其中，第四音频信号为第三音频信号中部分通道的音频信号。

示例性的，目标虚拟扬声器的属性信息包括以下至少一种：目标虚拟扬声器的位置信息，目标虚拟扬声器的位置信息对应的位置索引，或，目标虚拟扬声器的虚拟扬声器索引。

示例性的，属性信息获取模块1002，具体用于获取多个候选虚拟扬声器对应的多组虚拟扬声器系数，多组虚拟扬声器系数与多个候选虚拟扬声器一一对应；基于场景音频信号和多组虚拟扬声器系数，从多个候选虚拟扬声器中选取目标虚拟扬声器；获取目标虚拟扬声器的属性信息。

示例性的，属性信息获取模块1002，具体用于将场景音频信号与多组虚拟扬声器系数分别进行内积，以得到多个内积值；多个内积值与多组虚拟扬声器系数一一对应；基于多个内积值，从多个候选虚拟扬声器中选取目标虚拟扬声器。

示例性的，场景音频编码装置还包括：特征信息获取模块，用于获取场景音频信号中第五音频信号所对应的特征信息；其中，第五音频信号为第三音频信号，或者，第五音频信号为场景音频信号中除第二音频信号和第四音频信号之外的音频信号；编码模块1003，还用于编码特征信息，以得到第二码流。

示例性的，特征信息包括增益信息。

图11为示例性示出的场景音频解码装置的结构示意图。图11中的场景音频解码装置可以用于执行前述实施例的解码方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。其中，场景音频解码装置可以包括：

码流接收模块1101，用于接收第一码流；

解码模块1102，用于解码第一码流，以得到第一重建信号和目标虚拟扬声器的属性信息，第一重建信号是场景音频信号中第一音频信号的重建信号，场景音频信号包括C1个通道的音频信号，第一音频信号为场景音频信号中K个通道的音频信号，C1为正整数，K为小于或等于C1的正整数；

虚拟扬声器信号生成模块1103，用于基于属性信息和第一重建信号，生成目标虚拟扬声器对应的虚拟扬声器信号；

场景音频信号重建模块1104，用于基于属性信息和虚拟扬声器信号进行重建，以得到第一重建场景音频信号；第一重建场景音频信号包括C2个通道的音频信号，C2为正整数。

示例性的，场景音频解码装置还包括：信号生成模块1105，用于基于第一重建信号和第一重建场景音频信号，生成第二重建场景音频信号，第二重建场景音频信号包括C2个通道的音频信号，C2为正整数。

示例性的，信号生成模块1105，具体用于当第一音频信号包括第二音频信号时，基于第二重建信号和第七音频信号，生成第二重建场景音频信号；其中，第二重建信号为第二音频信号的重建信号。

示例性的，信号生成模块1105，具体用于当第一音频信号包括第二音频信号和第四音频信号时，基于第二重建信号、第四重建信号和第八音频信号，生成第二重建场景音频信号；其中，第四音频信号为第三音频信号中的部分音频信号，第四重建信号为第四音频信号的重建信号，第二重建信号为第二音频信号的重建信号，第八音频信号为第七音频信号中的部分音频信号。

示例性的，虚拟扬声器信号生成模块1103，具体用于基于目标虚拟扬声器的属性信息，确定目标虚拟扬声器对应的第一虚拟扬声器系数；基于第一重建信号和第一虚拟扬声器系数，生成虚拟扬声器信号。

示例性的，场景音频信号重建模块1104，具体用于基于目标虚拟扬声器的属性信息，确定目标虚拟扬声器对应的第二虚拟扬声器系数；基于虚拟扬声器信号和第二虚拟扬声器系数，以得到第一重建场景音频信号。

示例性的，码流接收模块1101，还用于接收第二码流；解码模块1102，还用于解码第二码流，以得到场景音频信号中第五音频信号所对应的特征信息，其中，第五音频信号为第三音频信号；场景音频解码装置还包括：补偿模块，用于基于特征信息，对第七音频信号进行补偿。

示例性的，码流接收模块1101，还用于接收第二码流；解码模块1102，还用于解码第二码流，以得到场景音频信号中第五音频信号所对应的特征信息，其中，第五音频信号为场景音频信号中除第二音频信号和第四音频信号之外的音频信号；场景音频解码装置还包括：补偿模块，用于基于特征信息，对第八音频信号进行补偿。

示例性的，特征信息包括增益信息。

一个示例中，图12示出了本申请实施例的一种装置1200的示意性框图装置1200可包括：处理器1201和收发器/收发管脚1202，可选地，还包括存储器1203。

装置1200的各个组件通过总线1204耦合在一起，其中总线1204除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都称为总线1204。

可选地，存储器1203可以用于存储前述方法实施例中的指令。该处理器1201可用于执行存储器1203中的指令，并控制接收管脚接收信号，以及控制发送管脚发送信号。

装置1200可以是上述方法实施例中的电子设备或电子设备的芯片。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例还提供一种芯片，该芯片包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行上述实施例中的方法。其中，接口电路可以是指图12中的收发器1202。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的场景音频编解码方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的场景音频编解码方法。

本实施例还提供了一种存储码流的装置，该装置包括：接收器和至少一个存储介质，接收器用于接收码流；至少一个存储介质用于存储码流；码流是根据上述实施例中的场景音频编方法生成的。

本申请实施例提供一种传输码流的装置，该装置包括：发送器和至少一个存储介质，至少一个存储介质用于存储码流，码流是根据上述实施例中的场景音频编方法生成的；发送器用于从存储介质中获取码流并将码流通过传输介质发送给端侧设备。

本申请实施例提供一种分发码流的***，该***包括：至少一个存储介质，用于存储至少一个码流，至少一个码流是根据上述实施例中的场景音频编方法生成的，流媒体设备，用于从至少一个存储介质中获取目标码流，并将目标码流发送给端侧设备，其中，流媒体设备包括内容服务器或内容分发服务器。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的场景音频编解码方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请各个实施例的任意内容，以及同一实施例的任意内容，均可以自由组合。对上述内容的任意组合均在本申请的范围之内。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

Claims

一种场景音频编码方法，其特征在于，所述方法包括：

获取待编码的场景音频信号，所述场景音频信号包括C1个通道的音频信号，C1为正整数；

基于所述场景音频信号，确定目标虚拟扬声器的属性信息；

编码所述场景音频信号中第一音频信号和所述目标虚拟扬声器的属性信息，以得到第一码流；其中，所述第一音频信号为所述场景音频信号中K个通道的音频信号，K为小于或等于C1的正整数。
根据权利要求1所述的方法，其特征在于，

所述场景音频信号为N1阶高阶立体混响HOA信号，所述N1阶HOA信号包括第二音频信号和第三音频信号，所述第二音频信号为所述N1阶HOA信号中第0阶至第M阶的信号，所述第三音频信号为所述N1阶HOA信号中除所述第二音频信号之外的音频信号，M为小于N1的整数，C1等于(N1+1)的平方，N1为正整数；

所述第一音频信号包括所述第二音频信号。
根据权利要求2所述的方法，其特征在于，所述第一音频信号还包括第四音频信号，所述第四音频信号为所述第三音频信号中部分通道的音频信号。
根据权利要求1至3任一项所述的方法，其特征在于，

所述目标虚拟扬声器的属性信息包括以下至少一种：所述目标虚拟扬声器的位置信息，所述目标虚拟扬声器的位置信息对应的位置索引，或，所述目标虚拟扬声器的虚拟扬声器索引。
根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述场景音频信号，确定目标虚拟扬声器的属性信息，包括：

获取多个候选虚拟扬声器对应的多组虚拟扬声器系数，所述多组虚拟扬声器系数与所述多个候选虚拟扬声器一一对应；

基于所述场景音频信号和所述多组虚拟扬声器系数，从所述多个候选虚拟扬声器中选取所述目标虚拟扬声器；

获取所述目标虚拟扬声器的属性信息。
根据权利要求5所述的方法，其特征在于，所述基于所述场景音频信号和所述多组虚拟扬声器系数，从所述多个候选虚拟扬声器中选取所述目标虚拟扬声器，包括：

将所述场景音频信号与所述多组虚拟扬声器系数分别进行内积，以得到多个内积值；所述多个内积值与所述多组虚拟扬声器系数一一对应；

基于所述多个内积值，从所述多个候选虚拟扬声器中选取所述目标虚拟扬声器。
根据权利要求1至6任一项所述的方法，其特征在于，

所述场景音频信号为N1阶HOA信号，所述N1阶HOA信号包括第二音频信号和第三音频信号，所述第二音频信号为所述N1阶HOA信号中第0阶至第M阶的信号，所述第三音频信号为所述N1阶HOA信号中除所述第二音频信号之外的音频信号，M为小于N1的整数，C1等于(N1+1)的平方，N1为正整数；

所述方法还包括：

获取所述场景音频信号中第五音频信号所对应的特征信息；

编码所述特征信息，以得到第二码流；

其中，所述第五音频信号为所述第三音频信号，或者，所述第五音频信号为所述场景音频信号中除所述第二音频信号和第四音频信号之外的音频信号，所述第四音频信号为所述第三音频信号中部分通道的音频信号。
根据权利要求7所述的方法，其特征在于，

所述特征信息包括增益信息。
一种码流生成方法，其特征在于，根据如上述权利要求1至权利要求8任一项所述的编码方法生成码流。
一种场景音频编码装置，其特征在于，所述装置包括：

信号获取模块，用于获取待编码的场景音频信号，所述场景音频信号包括C1个通道的音频信号，C1为正整数；

属性信息获取模块，用于基于所述场景音频信号，确定目标虚拟扬声器的属性信息；

编码模块，用于编码所述场景音频信号中第一音频信号和所述目标虚拟扬声器的属性信息，以得到第一码流；其中，所述第一音频信号为所述场景音频信号中K个通道的音频信号，K为小于或等于C1的正整数。
根据权利要求10所述的装置，其特征在于，

所述场景音频信号为N1阶高阶立体混响HOA信号，所述N1阶HOA信号包括第二音频信号和第三音频信号，所述第二音频信号为所述N1阶HOA信号中第0阶至第M阶的信号，所述第三音频信号为所述N1阶HOA信号中除所述第二音频信号之外的音频信号，M为小于N1的整数，C1等于(N1+1)的平方，N1为正整数；

所述第一音频信号包括所述第二音频信号。
根据权利要求11所述的装置，其特征在于，所述第一音频信号还包括第四音频信号，所述第四音频信号为所述第三音频信号中部分通道的音频信号。
根据权利要求10至12任一项所述的装置，其特征在于，

所述目标虚拟扬声器的属性信息包括以下至少一种：所述目标虚拟扬声器的位置信息，所述目标虚拟扬声器的位置信息对应的位置索引，或，所述目标虚拟扬声器的虚拟扬声器索引。
根据权利要求10至13任一项所述的装置，其特征在于，

所述属性信息获取模块，具体用于获取多个候选虚拟扬声器对应的多组虚拟扬声器系数，所述多组虚拟扬声器系数与所述多个候选虚拟扬声器一一对应；基于所述场景音频信号和所述多组虚拟扬声器系数，从所述多个候选虚拟扬声器中选取所述目标虚拟扬声器；获取所述目标虚拟扬声器的属性信息。
根据权利要求14所述的装置，其特征在于，

所述属性信息获取模块，具体用于将所述场景音频信号与所述多组虚拟扬声器系数分别进行内积，以得到多个内积值；所述多个内积值与所述多组虚拟扬声器系数一一对应；基于所述多个内积值，从所述多个候选虚拟扬声器中选取所述目标虚拟扬声器。
根据权利要求10至15任一项所述的装置，其特征在于，所述场景音频信号为N1阶HOA信号，所述N1阶HOA信号包括第二音频信号和第三音频信号，所述第二音频信号为所述N1阶HOA信号中第0阶至第M阶的信号，所述第三音频信号为所述N1阶HOA信号中除所述第二音频信号之外的音频信号，M为小于N1的整数，C1等于(N1+1)的平方，N1为正整数；

所述装置还包括：

特征信息获取模块，用于获取所述场景音频信号中第五音频信号所对应的特征信息；其中，所述第五音频信号为所述第三音频信号，或者，所述第五音频信号为所述场景音频信号中除所述第二音频信号和第四音频信号之外的音频信号，所述第四音频信号为所述第三音频信号中部分通道的音频信号；

所述编码模块，还用于编码所述特征信息，以得到第二码流。
根据权利要求16所述的装置，其特征在于，

所述特征信息包括增益信息。
一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器与所述处理器耦合；

所述存储器存储有程序指令，当所述程序指令由所述处理器执行时，使得所述电子设备执行权利要求1至权利要求8中任一项所述的场景音频编码方法。
一种芯片，其特征在于，包括一个或多个接口电路和一个或多个处理器；所述接口电路用于从电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，使得所述电子设备执行权利要求1至权利要求8中任一项所述的场景音频编码方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序运行在计算机或处理器上时，使得所述计算机或所述处理器执行如权利要求1至权利要求8任一项所述的场景音频编码方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包含软件程序，当所述软件程序被计算机或处理器执行时，使得权利要求1至权利要求8任一项所述的方法的步骤被执行。
一种存储码流的装置，其特征在于，所述装置包括：接收器和至少一个存储介质，

所述接收器用于接收码流；

所述至少一个存储介质用于存储所述码流；

所述码流是根据如权利要求1至权利要求8任一项所述的场景音频编码方法生成的。
一种传输码流的装置，其特征在于，所述装置包括：发送器和至少一个存储介质，

所述至少一个存储介质用于存储码流，所述码流是根据如权利要求1至权利要求8任一项所述的场景音频编码方法生成的；

所述发送器用于从所述存储介质中获取所述码流并将所述码流通过传输介质发送给端侧设备。
一种分发码流的***，其特征在于，所述***包括：

至少一个存储介质，用于存储至少一个码流，所述至少一个码流是根据如权利要求1至权利要求8任一项场景音频编码方法生成的，

流媒体设备，用于从所述至少一个存储介质中获取目标码流，并将所述目标码流发送给端侧设备，其中，所述流媒体设备包括内容服务器或内容分发服务器。