CN113632496A

CN113632496A - 相关联的空间音频回放

Info

Publication number: CN113632496A
Application number: CN202080024005.1A
Authority: CN
Inventors: A·埃罗宁; A·莱蒂尼米; J·莱帕宁; L·拉克索南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-03-25
Filing date: 2020-03-19
Publication date: 2021-11-09
Also published as: GB2582569A; US20240129683A1; US11902768B2; WO2020193851A1; EP3949432A1; US20220167106A1; EP3949432A4; GB201904091D0

Abstract

一种装置，包括被配置为执行以下的部件：获得与用户相关联的至少一个位置和/或朝向；基于所述至少一个位置和/或朝向来获得一个或多个音频元素，其中所述一个或多个音频元素至少部分地形成音频场景；基于所述至少一个位置和/或朝向来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与所述音频场景的至少一部分相关联并且位于音频场景的外部区域；渲染所获得的音频元素和/或至少一个辅助音频元素。

Description

相关联的空间音频回放

技术领域

本申请涉及用于空间音频回放的装置和方法。

背景技术

在3D空间中，存在定义了用户在所述空间内移动的方式的六个自由度。这种移动被划分为两类：旋转移动和平移移动(各自有三个自由度)。旋转移动足以用于简单的虚拟现实(VR)体验，在这种体验中，用户可以转动他们的头部(俯仰、偏航和滚动)以从静态点体验该空间。平移移动意味着用户也可以改变渲染的位置。换句话说，根据他们的意愿沿x、y和z轴移动。自由视点增强现实(AR)和VR体验允许旋转移动和平移移动这两者。术语扩展现实(XR)一词可用于指代所有真实和虚拟的组合环境，例如AR和VR。

使用术语3DoF(三个自由度)、3DoF+和6DoF(六个自由度)来谈论自由度(和相关体验)是常见的。3DoF+介于3DoF和6DoF之间，因为它允许一些有限的用户移动，例如，在受限的平移自由度的同时允许全运动范围的旋转移动。因此，有时3DoF+可被视为实现受限的6DoF，其中用户是坐着的，但可将他们的头部朝各个方向倾斜。

目前，ISO/IEC运动图像专家组(MPEG)正以MPEG-I的名义标准化沉浸式媒体技术。这包括用于各种虚拟现实(VR)、增强现实(AR)或混合现实(MR)用例的方法。MPEG-I分为三个阶段：阶段1a、1b和2。阶段1a和1b考虑3DoF和3DoF+使用实例，然后阶段2将至少在某种意义上允许非受限制的6DoF。对于音频标准化，已经将重点放在6DoF音频上，因为已有的方法被认为至少涵盖了3DoF/3DoF+使用实例的重要部分。然而，在某些方面，将需要进一步开发至少3DoF+(阶段1b)标准。

沉浸式或空间音频(用于3DoF/3DoF+/6DoF)可能包含各种音频信号和信息。例如，可以使用基于声道的底层(bed)和音频对象、一阶或更高阶全景声(ambisonics)(FOA/HOA)和音频对象、这些(例如仅音频对象)的任何组合，或任何等效的空间音频表示。这些音频信号可以作为MPEG-H3D音频(如ISO/IEC 23008-3(MPEG-H部分3)音频编码标准所规定的)连同附加元数据和将构成MPEG-I音频标准的新的渲染技术一起被携带.

发明内容

根据第一方面，提供了一种装置，其包括被配置为执行以下的部件：获得与用户相关联的至少一个位置和/或朝向；基于所述至少一个位置和/或朝向，来获得一个或多个音频元素，其中所述一个或多个音频元素至少部分地形成音频场景；基于所述至少一个位置和/或朝向，来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与所述音频场景的至少一部分相关联并且位于所述音频场景的外部区域；以及渲染所获得的音频元素和/或至少一个辅助音频元素。

用户可以与另外的装置相关联。

被配置为渲染的部件可以被配置为：基于所述装置已经执行缩放或移动动作的确定，来渲染所获得的音频元素和/或至少一个辅助音频元素。

缩放或移动动作可以使得用户不再能够听到所获得的音频元素。

被配置为基于至少一个位置和/或朝向来获得一个或多个音频元素的部件可以被配置为：确定音频场景内的多个音频元素集合，其中每个音频元素集合具有在音频场景内的关联位置和/或朝向；计算在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离；基于在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离，来从所述多个音频元素集合中选择一个或多个音频元素。

被配置为基于在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离来从所述多个音频元素集合中选择一个或多个音频元素的部件可以被配置为：选择其中心最接近所获得的位置的一个或多个音频元素。

对所述装置已执行缩放或移动动作的确定是朝向不在音频元素集合内的音频元素的缩放。

被配置为基于所述至少一个位置和/或朝向来获得至少一个辅助音频元素的部件可以被配置为：用所述至少一个辅助音频元素来增强所选择的一个音频元素集合。

被配置为用所述至少一个辅助音频元素来增强所选择的一个音频元素集合的部件可以被配置为对至少一个音频集合元素进行缩混。

被配置为渲染所获得的音频元素和/或至少一个辅助音频元素的部件可以被配置为：在所述用户在与所述音频元素集合相关联的感知范围内的情况下，渲染所述所获得的音频元素；在所述用户超出所述感知范围的情况下渲染所述至少一个辅助音频元素。

根据第二方面，提供了一种装置，包括被配置为执行以下的部件：获得音频场景，所述音频场景包括至少两个音频元素以及与所述至少两个音频元素中的每一个相关联的位置和/或朝向；将所述音频场景划分为包含所述至少两个音频元素中的至少一个音频元素的集合，其中所述集合表示完整的音频场景；以及创建至少一个辅助音频元素来补充每个集合，其中所述至少一个辅助音频元素和所述集合形成增强集合。

所述音频场景可以包括作为音频元素的MPEG-H 3D编码的音频波形和包括位置和/或朝向的元数据。

所述位置可以采用以下项中的至少一个：笛卡尔坐标(X，Y，Z)；极坐标(方位角，仰角，半径)。

所述朝向可以是包括方位角和仰角的声音元素朝向。

被配置为将所述音频场景划分为包括至少两个音频元素中的至少一个的集合的部件(其中所述集合表示完整的音频场景)可以被配置为：基于音频元素的位置将音频元素聚类成第一聚类数的聚类。

被配置为基于音频元素的位置将音频元素聚类为第一聚类数的聚类的部件可以被配置为：随机选择第一数量的音频元素，并将第一数量的聚类中心定义为所选择的第一数量的音频元素的位置；重复地将音频元素的位置分配到最近的聚类中心，并更新聚类中心以对应于分配给每个中心的音频元素的位置的平均。

被配置为获得每个集合外部的一个或多个音频元素的部件可以被配置为：将所述集合划分到围绕集合原点的空间扇区中，每个扇区具有定义的角度范围；以及识别在所述集合外部并在所述空间扇区内和/或在距离所述集合原点的半径阈值内的任何音频元素。

被配置为创建辅助音频元素以补充每个集合的部件可以被配置为：组合在所述集合外部且在所述空间扇区内和/或在距离所述集合原点的半径阈值内所识别的音频元素；以及将所述组合作为所述辅助音频元素关联到所述集合的空间扇区。

被配置为组合在所述集合外部且在所述空间扇区内和/或在距离所述集合原点的半径阈值内所识别的音频元素的部件可以被配置为对所识别的音频元素进行缩混。

所述部件可以被配置为向另外的装置提供增强集合。

根据第三方面，提供了一种用于操作装置的方法，包括：获得与用户相关联的至少一个位置和/或朝向；基于所述至少一个位置和/或朝向来获得一个或多个音频元素，其中所述一个或多个音频元素至少部分地形成音频场景；基于所述至少一个位置和/或朝向来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与所述音频场景的至少一部分相关联并且位于音频场景的外部区域；以及渲染所获得的音频元素和/或至少一个辅助音频元素。

用户可以与另外的装置相关联。

渲染可以包括：基于确定所述装置已经执行缩放或移动动作来渲染所获得的音频元素和/或至少一个辅助音频元素。

基于所述至少一个位置和/或朝向来获得一个或多个音频元素可以包括：确定所述音频场景内的多个音频元素集合，其中每个音频元素集合具有在音频场景中的关联位置和/或朝向；计算在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离；基于在所获得的位置和/或朝向与每个音频元素集合的音频元素的平均位置之间的距离，来从所述多个音频元素集合中选择一个或多个音频元素。

基于在所获得的位置和/或朝向与每个音频元素集合的音频元素的平均位置之间的距离来从多个音频元素集合中选择一个或多个音频元素可以包括：选择其中心最接近所获得的位置的一个或多个音频元素。

对所述装置已经执行缩放或移动动作的确定可以是朝向不在所述音频元素集合内的音频元素的缩放。

基于所述至少一个位置和/或朝向来获得至少一个辅助音频元素可以包括：用所述至少一个辅助音频元素来增强所选择的一个音频元素集合。

用所述至少一个辅助音频元素来增强所选择的音频元素集合可以包括：对至少一个音频元素集合进行缩混。

渲染所获得的音频元素和/或至少一个辅助音频元素可以包括：在所述用户在与所述音频元素集合相关联的感知范围内的情况下，渲染所述所获得的音频元素；以及在所述用户超出所述感知范围的情况下，渲染所述至少一个辅助音频元素。

根据第四方面，提供了一种用于操作装置的方法，包括：获得音频场景，所述音频场景包括至少两个音频元素以及与所述至少两个音频元素中的每一个相关联的位置和/或朝向；将音频场景划分为包括至少两个音频元素中的至少一个的集合，其中所述集合表示完整的音频场景；以及创建至少一个辅助音频元素以补充每个集合，其中所述至少一个辅助音频元素和所述集合形成增强集合。

音频场景可以包括作为音频元素的MPEG-H 3D编码音频波形和包括位置和/或朝向的元数据。

所述位置可以采用以下项中的至少一个：笛卡尔坐标(X，Y，Z)；极坐标(方位角、仰角、半径)。

所述朝向可以是包括方位角和仰角的声音元素朝向。

将音频场景划分为集合包括至少两个音频元素中的至少一个的集合(其中所述集合表示完整的音频场景)可以包括：基于音频元素的位置将音频元素聚类为第一聚类数的聚类。

基于音频元素的位置将音频元素聚类为第一聚类数的聚类可以包括：随机选择第一数量的音频元素并将第一数量的聚类中心定义为所选择的第一数量的音频元素的位置；重复将所述音频元素的位置分配到最近的聚类中心并更新聚类中心以对应于分配到每个中心的音频元素的位置的平均。

获得在每个集合外部的一个或多个音频元素可以包括：将所述集合划分到围绕集合原点的空间扇区中，每个扇区具有定义的角度范围；并且识别在所述集合外部且在所述空间扇区内和/或距离集合原点的半径阈值内的任何音频元素。

创建辅助音频元素以补充每个集合可以包括：组合在集合外部且在空间扇区内和/或在距离集合原点的半径阈值内所识别的音频元素；以及将所述组合作为辅助音频元素关联到所述集合的空间扇区。

所述方法可以包括向另外的装置提供增强集合。

根据第五方面，提供了一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：获得与用户相关联的至少一个位置和/或朝向；基于所述至少一个位置和/或朝向来获得一个或多个音频元素，其中所述一个或多个音频元素至少部分地形成音频场景；基于至少一个位置和/或朝向来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与音频场景的至少一部分相关联，并且位于音频场景的外部区域；以及渲染所获得的音频元素和/或至少一个辅助音频元素。

用户可以与另外的装置相关联。

被致使渲染的装置可以被致使：基于所述装置已经执行缩放或移动动作的确定，来渲染所获得的音频元素和/或至少一个辅助音频元素。

缩放或移动动作可以使得用户不再能够听到所获得的音频元素

被致使基于所述至少一个位置和/或朝向来获得一个或多个音频元素的装置可以被致使：确定音频场景内的音频元素集合的数量，其中每个音频元素集合具有在音频场景内的关联位置和/或朝向；计算在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离；以及基于在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离，来从多个音频元素集合中选择所述一个或多个音频元素。

被致使基于在所获得的位置和/或朝向与每个音频元素集合的音频元素的平均位置之间的距离来从所述多个音频元素集合中选择所述一个或多个音频元素的装置可以被致使：选择其中心最接近所述所获得的位置的一个或多个音频元素。

对所述装置已执行缩放或移动动作的确定可以是朝向不在音频元素集合内的音频元素的缩放。

被致使基于所述至少一个位置和/或朝向来获得至少一个辅助音频元素的装置可以被致使：用所述至少一个辅助音频元素来增强所选择的音频元素集合。

被致使使用至少一个辅助音频元素来增强所选择的音频元素集合的装置可以被致使：对至少一个音频元素集合进行缩混。

被致使渲染所获得的音频元素和/或至少一个辅助音频元素的装置可以被致使：在所述用户在与所述音频元素集合相关联的感知范围内的情况下，渲染所述所获得的音频元素；以及在所述用户超出所述感知范围的情况下，渲染所述至少一个辅助音频元素。

根据第六方面，提供了一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：获得音频场景，所述音频场景包括至少两个音频元素以及与所述至少两个音频元素中的每一个相关联的位置和/或朝向；将所述音频场景划分为包含至少两个音频元素中的至少一个的集合，所述集合表示完整的音频场景；并且创建至少一个辅助音频元素以补充每个集合，其中所述至少一个辅助音频元素和所述集合形成增强集合。

所述位置可以采用以下项中的至少一个：笛卡尔坐标(x，y，z)；极性坐标(方位角，仰角，半径)。

所述朝向可以是包括方位角和仰角的声音元素朝向。

被致使将音频场景划分为包括至少两个音频元素中的至少一个的集合(其中所述集合表示完整的音频场景)的所述装置可以被致使：基于音频元素的位置将音频元素聚类成第一聚类数的聚类。

被致使基于音频元素的位置将音频元素聚类为第一聚类数的聚类的装置可以被配置为：随机选择第一数量的音频元素，并将所述第一数量的聚类中心定义为所选择第一数量的音频元素的位置；以及重复将音频元素的位置分配到最近的聚类中心，并更新所述聚类中心以对应于被分配到每个中心的音频元素的位置的平均。

被致使获得每个集合外部的一个或多个音频元素的装置可以被致使：将所述集合划分到围绕集合原点的空间扇区中，每个扇区具有定义的角度范围；以及识别在所述集合外部并在所述空间扇区内和/或在距离所述集合原点半径阈值内的任何音频元素。

被致使创建辅助音频元素以补充每个集合的装置可以被致使：组合在所述集合外部且在所述空间扇区内和/或在距离所述集合原点半径阈值内所识别的音频元素；以及将所述组合作为所述辅助音频元素关联到所述集合的空间扇区。

被致使组合在所述集合外部且在所述空间扇区内和/或在距离所述集合原点半径阈值内的所识别音频元素的装置可以被致使：对所述所识别的音频元素进行缩混。

可以使所述装置向另外的装置提供所述增强集合。

根据第七方面，提供了一种装置，所述装置包括：被配置为获得与用户相关联的至少一个位置和/或朝向的获得电路；被配置为基于所述至少一个位置和/或朝向来获得一个或多个音频元素的获得电路，其中所述一个或多个音频元素至少部分地形成音频场景；被配置为基于至少一个位置和/或朝向来获得至少一个辅助音频元素的获得电路，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中至少一个辅助音频元素与所述音频场景的至少一部分相关联，并且位于所述音频场景的外部区域；以及被配置为渲染所获得的音频元素和/或至少一个辅助音频元素的渲染电路。

根据第八方面，提供了一种装置，所述装置包括：被配置为获得音频场景的获得电路，所述音频场景包括至少两个音频元素和与所述至少两个音频元素中的每个音频元素相关联的位置和/或朝向；被配置为将所述音频场景划分为包括至少两个音频元素中的至少一个音频元素的集合的划分电路，其中所述集合表示完整的音频场景；以及被配置为创建至少一个辅助音频元素以补充每个集合的创建电路，其中所述至少一个辅助音频元素和所述集合形成增强集合。

根据第九方面，提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质]，用于使装置至少执行以下操作：获得与用户相关联的至少一个位置和/或取向；基于所述至少一个位置和/或朝向，来获得一个或多个音频元素，其中所述一个或多个音频元素至少部分地形成音频场景；基于所述至少一个位置和/或朝向，来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与音频场景的至少一部分相关联，并且位于音频场景的外部区域；以及渲染所获得的音频元素和/或至少一个辅助音频元素。

根据第十方面，提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质]，用于使装置至少执行以下操作：获得音频场景，所述音频场景包括至少两个音频元素以及与至少两个音频元素中的每个音频元素相关联的位置和/或朝向；将所述音频场景划分为包括至少两个音频元素中的至少一个音频元素的集合，其中所述集合表示完整的音频场景；以及创建至少一个辅助音频元素以补充每个集合，其中所述至少一个辅助音频元素和所述集合形成增强集合。

根据第十一方面，提供了一种非暂时性计算机可读介质，包括用于使装置至少执行以下操作的程序指令：获得与用户相关联的至少一个位置和/或朝向；基于所述至少一个位置和/或朝向，来获得一个或多个音频元素，其中所述一个或多个音频元素至少部分地形成音频场景；基于所述至少一个位置和/或朝向，来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与所述音频场景的至少一部分相关联，并且位于音频场景的外部区域；以及渲染所获得的音频元素和/或至少一个辅助音频元素。

根据第十二方面，提供了一种包括程序指令的非暂时性计算机可读介质，所述程序指令用于使装置至少执行以下操作：获得音频场景，所述音频场景包括至少两个音频元素以及与所述至少两个音频元素中的每个音频元素相关联的位置和/或朝向；将音频场景划分为包括所述至少两个音频元素中的至少一个音频元素的集合，其中所述集合表示完整的音频场景；以及创建至少一个辅助音频元素以补充每个集合，其中所述至少一个辅助音频元素和所述集合形成增强集合。

根据第十三方面，提供了一种装置，其包括：用于获得与用户相关联的至少一个位置和/或朝向的部件；用于基于所述至少一个位置和/或朝向来获得一个或多个音频元素的部件，其中所述一个或多个音频元素至少部分地形成音频场景；用于基于所述至少一个位置和/或朝向来获得至少一个辅助音频元素的部件，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与音频场景的至少一部分相关联，并且位于音频场景的外部区域；以及用于渲染所获得的音频元素和/或至少一个辅助音频元素的部件。

根据第十四方面，提供了一种装置，包括：用于获得音频场景的部件置，所述音频场景包括至少两个音频元素以及与所述至少两个音频元素中的每个音频元素相关联的位置和/或朝向；用于将所述音频场景划分为包括所述至少两个音频元素中的至少一个的集合的部件，其中所述集合表示完整的音频场景；以及用于创建至少一个辅助音频元素以补充每个集合的比较，其中至少一个辅助音频元素和集合形成增强集合。

根据第十五方面，提供了一种计算机可读介质，包括用于使装置至少执行以下操作的程序指令：获得与用户相关联的至少一个位置和/或朝向；基于所述至少一个位置和/或朝向，来获得一个或多个音频元素，其中所述至少一个或多个音频元素至少部分地形成音频场景；基于所述至少一个位置和/或朝向，来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与所述音频场景的至少一部分相关联，并且位于音频场景的外部区域；以及渲染所获得的音频元素和/或至少一个辅助音频元素。

根据第十六方面，提供了一种包括程序指令的计算机可读介质，所述程序指令用于使装置至少执行以下操作：获得音频场景，所述音频场景包括至少两个音频元素以及与所述至少两个音频元素中的每个音频元素相关联的位置和/或朝向；将音频场景划分为包括至少两个音频元素中的至少一个音频元素的集合，其中所述集合表示完整的音频场景；以及创建至少一个辅助音频元素以补充每个集合，其中所述至少一个辅助音频元素和所述集合形成增强集合。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述方法的程序指令。

一种在介质上存储的计算机程序产品，可以使装置执行如本文所述的方法。

一种电子设备，可以包括如本文所述的装置。

一种芯片组，可包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本发明，现在将通过示例进行参考附图，其中：

图1示意性地示出了适用于实现根据一些实施例的装置的***的示例；

图2a至2g示出了VR/AR环境中的缩放和旋转的示例；

图3a示意性地示出了用于图2c中所示示例的围绕用户的当前位置的感知范围/内容的用户视图；

图3b示意性地示出了根据一些实施例的具有辅助音频元素的图2c中所示示例的感知范围/内容的用户视图；

图4示出适合于实现一些实施例的***的操作的流程图；

图5示意性地示出了适于实现一些实施例的服务器-客户端***；

图6示意性地示出了适于实现如图5所示的一些实施例的服务器；

图7示意性地示出了适于实现如图5所示的一些实施例的客户端(回放/合成装置)；

图8示出了根据一些实施例的图6中所示服务器的操作的流程图；

图9示出了根据一些实施例的图7中所示客户端的操作的流程图；以及

图10示意性地示出了适于实现图1、5、6和7中所示装置的示例设备。

具体实施方式

下文进一步详细地描述了用于提供有效空间信号回放的合适装置和可能的机制。

关于图1，示出了示例性概述***，并且示出了端到端工作流以及内容消费。

所述***包括捕获设备100、内容处理器101、内容分配器格式化器103、内容服务器105、内容客户端107、客户端输入设备115和客户端输出设备117。

捕获设备100在图1中示出为诺基亚OZO设备100，包括被配置为捕获音频信号的麦克风阵列和被配置为捕获图像/视频数据的音频信号和多个摄像机。在一些实施例中，捕获设备可以是被配置成捕获合适媒体的一个或多个装置。例如，关于音频捕获能力，捕获设备可以包括以下中的一个或多个：麦克风阵列、全景声(ambisonics)捕获麦克风、或一个或多个可捕获各种音频源的特写麦克风。捕获设备可以包括一个或多个图像/视频捕获设备，例如摄像机、景深摄像机、光场摄像机等。捕获设备可以包括一个或多个定位设备，其使得能够跟踪或以其它方式获得用麦克风捕获的一个或多个音频对象或音频源的位置。除了捕获设备100之外，还可以存在用于提供将构成场景的至少一部分的音频(和/或图像/视频数据)102的其它输入方法。例如，可以使用各种后期制作生产工具来添加或修改音频对象。还应注意，对于音频场景，音频捕获不需要同时发生，但是音频场景可以在工作室中从在不同时间捕获的或被合成创建的各种音频对象或基于场景的音频中创建音频场景。

音频和/或图像/视频数据102可以被传递到内容处理器101。内容处理器101可以被配置为接收由捕获设备或其它输入设备、服务或软件捕获的媒体。在一些实施例中，内容处理器被配置为至少分析音频信号以确定与音频场景相关联的参数或元数据。在一些实施例中，图像/视频数据还可以用于辅助分析以确定元数据。在一些其它实施例中，图像/视频数据由内容处理器101处理以确定元数据。在一些实施例中，对与音频场景相关联的参数或元数据的确定中至少一些可以由用户通过用户接口来执行。

内容处理器101例如可以是计算机(运行存储在存储器和至少一个处理器上的合适的软件)，或者可替代地利用例如FPGA或ASIC的特定设备。如本文进一步详细地示出，对于每个时频分析间隔，音频源或音频对象元数据可以包括以下中的至少一个：位置(例如方位角、仰角和距离，或距参考或“最佳点”的方向和半径)参数、能量(例如能量比率或增益)参数、以及大小/扩展参数。在一些实施例中，这些参数可以被认为是空间音频参数。换句话说，空间音频参数包括旨在表征声场的参数。

在一些实施例中，为音频对象生成的参数可以针对每个时间间隔或时间-频率片段包括以下至少一个：位置(例如方位角、仰角和距离或距参考或“最佳位置”的方向和半径)。

此外，在一些实施例中，针对音频对象的音频对象以其它合适的形式表达。

在一些实施例中，所生成的参数可在频带与频带之间不同。因此，例如，在频带X中，所有的参数都被生成和发送，而在频带Y中，仅其中一个参数被生成和发送，而且在频带Z中，没有参数被生成或发送。这种情况的实际示例可能是对于例如最高频带的一些频带，由于感知方面原因而不需要一些参数。这些参数和媒体信号还可以被传递到内容分发格式化器103。在一些实施例中，内容分发格式化器包括缩混器，所述缩混器被配置为接收多声道音频信号、将信号缩混到确定数量的声道、并输出缩混信号。例如，缩混器可以被配置为生成多声道信号的2个音频声道缩混。所确定的声道数量可以是任何合适的声道数量。在一些实施例中，缩混器是可选的，并且多声道音频信号以与缩混信号在所述示例中相同的方式未经处理地被传递到编码器。在一些实施例中，音频可以表示为基于声道的底层和音频对象、一阶或更高阶全景声(FOA/HOA)和音频对象、这些的任何组合(例如仅音频对象)、或者任何等效的空间音频表示。

类似地，内容分发格式化器103可以被配置为对音频信号和/或空间音频参数进行编码，以降低比特率，以及将其复用到一个流。可以使用任何合适的方案来实现编码和复用。例如，这些音频信号可以作为MPEG-H 3D音频(如ISO/IEC23008-3(MPEG-H部分3)音频编码标准所规定的)，连同6DoF渲染所需的连同元数据一起被携带。音频(如MPEG-H 3D音频)以及实现收听者翻译和/或交互性的附加元数据的编码将在MPEG-I音频标准中规定。

在一些实施例中，内容创建者(例如，操作或编辑所捕获的媒体的用户)提供可以被编码为附加元数据的附加信息。例如，在一些实施例中，内容创建者可能能够添加附加信息以定义与(音频)源相关联的至少一个交互参数或添加创意意图信息或音频效果规范元数据作为分发文件格式的一部分。分发文件可以是MPEG-I部分2中规定的全向媒体应用格式版本2或其它合适的格式。

这种信息例如可被指定为元数据，这种元数据与音频数据一起在带内传送，或者与音频和视频媒体流一起在带外传送。

元数据可以例如用于控制缩放操作下特定音频对象的行为并且可以使内容回放客户端能够修改音频渲染。

下文还详细讨论的概念可以改进已知***，因为从服务器/传送的角度来看，客户端设备中的网络带宽或存储空间有限，如果完整的6DoF音频场景太大(因此音频场景不适合在设备中)或交付完整的6DoF音频场景花费时间太长(如果网络带宽太小)，则可能无法交付完整的6DoF音频场景。此外，尽管以下示例在一些实施例中根据6DoF示例来表达所述概念，但在一些实施例中，3DoF或3DoF+环境可以使用改进的装置和方法来产生类似的优势。

此外，实施例的一个方面是一种装置和方法，用于在6DoF内容传送中节省带宽，同时仍然确保利用所传递的内容可以获得的音频体验在感知上接近于如果将传递完整集合将获得的音频体验。MPEG-I感知范围机制只提供了部分解决方案。例如，如果将完整场景的一个子集发送到设备存储器并节省了带宽，但是当用户接近(通过缩放或平移移动或其它方式)感知范围的边界时，会出现音频数据不完整的问题，因此，所需的音频元素集合会超出感知范围的边界。

一个具体的例子可能是用户被配置为消费6DoF媒体内容。内容可以是视听或纯音频内容。当用户在内容中移动时，渲染和音频集构成也会相应地进行调整。用户可以例如在音频源/对象的方向上执行缩放操作，并且渲染可以根据已知的缩放机制进行调整。这种渲染是可能的，因为相应的音频集是可用的。

有时，用户可能希望对内容执行明显更强的缩放操作。例如，缩放可以聚焦在当前视点或音频集的(音频方面的)看似空白的区域，以便“观察周围环境”。在执行此操作时，可能没有立即可用的音频来渲染效果并呈现给用户。这是因为缩放效果非常强，会将当前音频元素集的音频转移到用户“视图”外部。用户“视图”外部的这个区或区域可能被称为或定义为音频场景的外部区域。换句话说，外部区域可以意味着对于用户不可用的区域(或者其内容(音频对象)对于用户不是立即可用的区域)。

如果当前音频集外部方向上的“视图”确实为空，则这是正确的方法。然而，在有超出音频集的其他内容的情况下，这会导致不正确的渲染，并且至少会导致音频回放延迟或故障，因为需要使来自单独音频集的音频可用于渲染。或者，缩放导致听不到新的音频，这可能a)歪曲内容和b)使用户对特定方向失去兴趣而不会继续探索它。

从客户端/渲染设备的角度来看，这里讨论的实施例试图允许客户端即使在客户端没有接收到完整的6DoF音频场景的情况下也可以渲染高质量的体验。在这样的实施例中，客户端能够从包括完整音频场景的音频元素的子集的6DoF音频内容渲染空间音频信号，使得音频体验在感知上接近于通过使用完整的6DoF内容集合渲染空间音频信号而获得的体验，即使用户被允许执行自由平移和/或缩放。

例如，图2a示出了示例6DoF示例，其中6DoF环境中的用户201体验6DoF视觉内容203，例如树木的视觉表示，以及6DoF音频内容205，例如6DoF环境内的圆圈所示的音频对象。用户可以基于用户位置(可以是笛卡尔坐标表示x，y，z)、用户朝向和用户移动方向来体验感知范围。

图2b和2c显示了示例6DoF“感知范围”。例如，图2b示出了用户201已经旋转以“体验”在如线202所示“视图”或“感知范围”内的音频对象205。在这样的示例中，如果已经从服务器提供了该音频对象，则客户端可能有能力渲染该音频对象。图2c示出了另一个示例，其中用户201已经移动、旋转并缩放超出了“感知范围”并且体验到如线204所示的另外的“感知范围”或“视图”。该另外的“感知范围”不包含任何从服务器提供给客户端的音频对象，因此对于传统的渲染器来说可能是有问题的。

图2d示出了例如“感知范围”示例，该示例示出对于示例6DoF环境在当前视图281内存在音频源。这例如可以包括与鸟299的视觉表示相关联的第一音频对象以及与船297的视觉表示相关联的第二音频对象。此外，在当前视图外部可能有音频源，由圆圈205表示。在此示例中，客户端可以渲染与船297和鸟299相关联的音频对象。

图2e还示出了由用户应用的缩放操作，其产生由虚线框251所示的感知范围并且现在定义在当前视图283内包括与船297的视觉表示相关联的第二音频对象的音频源，以及在缩放操作视图外部包括由圆圈205表示的音频源和与鸟299相关联的音频对象的音频源。在所述示例中，客户端可以仅渲染与船297相关联的音频对象。

图2f显示了用户体验第一方向和缩放，这将产生如图2d所示的感知范围。在由朝向和缩放操作定义并由两条线291表示的用户视野内是船297和鸟299。图2f的右手侧示出了用户旋转并执行增加的缩放操作285，其中由线293所示的该旋转的视野和由线295所示的进一步缩放操作产生了音频空白，因为在用户感知范围内没有音频对象。这种旋转和缩放很可能导致传统渲染器不输出音频信号，因此不会为用户提供任何新信息或保持用户的兴趣。

图2g显示了旋转263的感知范围和缩放(虚线框)感知范围261(在图2f中分别由线293和295显示)并且清楚地显示了到远离船297和鸟299的空区域287的强缩放。

在这里的实施例中所讨论的概念是其中装置和方法确保在MPEG-1中的一个音频元素集合内进行自包含渲染的概念。

所述概念是定义音频元素集合，其表示完整6DoF音频场景的子集。因此在一些实施例中，当用户收听位置在由该集合定义的区域内时，可以仅使用所包含的音频元素来渲染音频场景。这个音频对象集合可以称为用户的感知范围。然而，如上所述，如果由于用户交互而需要渲染超出元素集合之外的音频内容，则如本文所讨论的实施例能够在能够获得全部内容之前确定这种情况。

为了在一些实施例中实现这一点，可以通过执行以下操作来实现6DoF音频的自包含渲染：

获取用户位置和旋转；

基于用户位置和旋转来选择音频元素集合。这个音频元素集合现在是用户的感知范围；

检测以需要当前不可用的至少一个音频元素的方式来扩展回放的感知范围的至少一个用户动作；

通过提供感知范围的所需扩展的至少一个辅助音频元素来增强音频元素集合；以及

渲染增强的音频元素集合。

因此，在一些实施例中，建议将一个或多个辅助音频元素添加到音频元素的自包含集合。仅当需要渲染来自自包含集合外部的内容时(由于诸如缩放之类的用户操作)，才渲染一个或多个辅助音频元素。当用户在集合定义的区域内时，辅助音频元素不会被渲染。

此外，在一些实施例中，当另一集合中的内容变得可用时，渲染被配置为执行从渲染辅助音频元素到另一集合的全部声音元素的交叉淡入淡出。

所述概念可以被视为客户端设备部分和服务器部分。客户端和服务器的组合可以作为***的一部分来实现。

在一些实施例中，服务器装置部分被配置为创建音频元素或对象的自包含集合。此外，这些音频元素集合利用辅助音频对象来增强。辅助音频元素可以是落在该自包含集合外部的音频元素的缩混或以其它方式组合的版本。

在一些实施例中，增强或辅助音频元素的生成可以以以下操作为特征：

获得包含音频元素及它们的位置数据的6DoF音频场景；

将6DoF音频场景划分为多个子集，其中每个子集中的音频元素的数量少于完整音频场景中的音频元素的数量，并且其中这些子集一起表示完整的6DoF音频场景；

对于每个子集，获得该子集外部的一个或多个音频元素，并创建一个辅助音频元素以补充集合；

使该子集可用于由客户端设备渲染。

因此，实施例旨在添加辅助音频元素来表示在集合元素外部的音频场景，并使这些元素可用于渲染在元素外部的音频场景部分。以这种方式，即使在已经传送了不完整的音频元素集合的情况下，实施例也能够有利地处理用户平移和/或缩放操作。以这种方式，可以对在客户端处可用的感知范围外部的音频内容进行充分表示。

在一些实施例中，客户端装置侧被配置为提供一种渲染方法，该方法可以包括以下操作：

获得用户位置和朝向；

获得与位置和朝向相关联的6DoF音频场景子集；

当用户位置和朝向基本上不偏离子集的中心时，使用子集中的音频元素来向用户渲染空间音频信号；以及

当用户位置和取向基本上偏离子集的中心时，使用所述子集中的音频元素和与集合相关联的至少一个辅助音频元素来向用户渲染空间音频信号。

在一些实施例中，客户端装置还可以被配置为确定在何处用户与子集中心的基本上偏离也可以触发对音频元素的另一子集的下载。

这里讨论的实施例可以实现为6DoF媒体内容框架的一部分。6DoF媒体内容表示可以是多视点表示或支持音频元素集合的任何6DoF表示。这种自包含的音频元素集合可以对应于例如用户能够或潜在地能够根据位置(x，y，z)、朝向或移动方向听到的内容。所述实现可以是标准(例如MPEG-I 6DoF音频标准)的一部分。

一些实施例也可以在内容创作工具中实现，例如在数字音频工作站(DAW)上运行的音频编辑和创作软件。一些实施例还可以在6DoF媒体内容或6DoF音频渲染软件或设备中实现。此类设备的示例包括可至少由头戴式设备(HMD)和/或服务器组成的虚拟现实(VR)设备，以及可表示例如新的可穿戴移动设备外形的增强现实(AR)音频或AR视听设备。

在一些实施例中，在内容中(在内容创建/创作期间创建)或可替代地由***(至少基于当前音频集)动态创建有辅助(缩混)音频元素集合，当用户缩放或以其它方式指示超出由第一音频元素集合给出的感知范围的渲染时在渲染中使用所述辅助音频元素集合。

当缩放动作强化时，这些辅助(缩混)音频元素可以用空间扩展和增加的增益来渲染。

图3a和3b示出了实施这里描述的辅助(缩混)环境对象以便产生提到的有利效果的实施例。辅助音频不是与用户当前位置(x，y，z)、朝向或移动方向相关联的默认回放的一部分。因此，在一些实施例中，辅助音频用于增强当前感知范围，其中诸如音频、视觉或视听缩放的用户交互以及相关的音频渲染修改需要渲染超出感知范围的音频元素。

例如，图3a示出了具有附加感知范围301、305、307或用户当前感知范围303周围的内容的三个方向。(在一些实施例中，至少一些感知范围可以在位置上至少部分重叠。)这些围绕感知范围301、305、307或内容可以缩混(或以其它方式组合)成默认不被渲染的辅助音频元素。然而，当用户访问例如至少一个辅助音频元素的激活范围时，可以将其渲染给用户。

这在图3b中示出，图3b示出了音频对象353、355和辅助音频元素361。辅助音频元素361具有相关联的激活程度351。激活程度351定义朝向或位置范围。当用户在该范围内进行感知审视时渲染辅助音频元素361，当用户在该范围外进行审视时不渲染辅助元素。

在一些实施例中，对第一音频元素集合的音频回放增强可以仅与辅助(缩混)音频元素的添加有关。

在一些实施例中，例如，通过根据缩放目标方向或缩放的变化量来下载对应于下一个感知范围的第二音频元素集合中的至少一个音频元素，辅助(缩混)音频元素的第一渲染开始检索。在这些实施例中，辅助(缩混)音频元素的渲染因此为***提供了进一步的时间来检索需要的附加音频元素。当根据缩放进行音频渲染所需的第二音频元素集合中的至少一个音频元素可用时，渲染可以转变为渲染音频并且淡出辅助(缩混)音频元素的渲染。

关于图4和5示出总结实施例的装置和操作。

例如，图5示出了被配置为彼此通信的服务器501和客户端503装置。例如，客户端503被配置为经由通信信道509向服务器501传送关于用户位置和/或朝向的信息。服务器501被配置为向客户端503传送音频，例如感知范围音频对象和辅助音频元素经由第一音频信道505并且感知范围音频对象位置和辅助音频元素位置经由元数据信道507。在一些实施例中，这些信道可以被组合。

在一些实施例中，如图4所示的操作总结可以包括以下操作：

1.获得用户位置和旋转：使用***在使用的任何用户跟踪方法来获得用户的位置和旋转。例如，用户可以正在使用安卓手机来体验AR内容，而手机的AR核心功能会向***提供用户的位置(和朝向)。这在图4中的步骤401中示出。

2.基于用户位置和旋转来选择音频元素集合(感知范围)。一旦用户的位置(和朝向)为已知的，***就可以被配置为确定用户应该从其当前位置听到哪些音频对象。这些音频对象包括用户的感知范围。场景中可能有几个预先确定的音频对象集合。然后，***通过例如计算从用户当前位置到预定集合的中心的距离来选择预定集合之一以作为用户的当前感知范围。选择中心离用户最近的预定集合。预定集合的中心是集合中音频对象的“平均位置”。这在图4中的步骤403中示出。

3.检测以需要当前不可用的至少一个音频元素的方式超出回放的感知范围的用户动作。例如，用户可以执行用户交互，例如向不在他当前感知范围内的音频对象缩放。缩放操作可以是传统的光学变焦，但也可能是用户移动(步行或跑步)超出当前感知范围太快的情况(在这种情况下，临时渲染辅助音频元素将提供平滑过渡，直到实际可以获得新的感知范围的元素为止)。这种检测或确定在图4中由步骤405示出。

4.通过至少一个辅助音频元素来增强所选择的音频对象集合，该至少一个辅助音频元素提供感知范围的所需扩展。在这样的实施例中，新的音频对象被添加到所选择的一个音频对象集合(用户的当前感知范围)。所添加的音频对象是辅助音频元素，辅助音频元素是预定音频对象集合中的一个音频对象集合的缩混(或以其它方式组合)。在一个示例中，选择缩混的感知范围是包含用户进行缩放朝着的音频对象的感知范围。这种增强在图4中由步骤407显示。

5.渲染增强的音频元素集合。所选择的音频对象集合(感知范围)内的音频对象可以按原样渲染。辅助音频元素是从它所表示的音频对象集合的方向被渲染的。渲染如图4中步骤409所示。

关于图6和8，更详细地示出了服务器和服务器的操作。

在一些实施例中，服务器501包括6DoF内容生成器601。6DoF内容生成器601被配置为生成合适的6DoF内容并将其提供给下载或流式传输服务器611。6DoF内容生成器601还被配置为基于来自音频场景子集确定器603的输入来生成6DoF内容。

在一些实施例中，服务器501包括音频场景子集确定器603。音频场景子集确定器603被配置为确定哪些音频场景音频对象和辅助元素可以被传递给6DoF内容生成器601以生成6DoF内容。此外，音频场景子集确定器603被配置为基于来自辅助音频元素确定器605和音频场景元数据生成器607的信息来确定这一点。

在一些实施例中，服务器501包括音频场景元数据生成器607。音频场景元数据生成器607被配置为生成与音频对象和音频场景相关联的元数据，例如音频对象的位置。在一些实施例中，元数据信息被传递到音频场景子集确定器603，以帮助确定音频场景分量，并被传递到下载或流式传输服务器611，用于与来自6DoF内容生成器601的音频输出组合。

在一些实施例中，服务器501包括辅助音频元素确定器605。在一些实施例中，辅助音频元素确定器605被配置为向音频场景子集确定器提供辅助音频元素以帮助确定音频场景分量。此外，辅助音频元素确定器605被配置为与辅助音频元素元数据生成器609通信并接收关于辅助元素的应用的布局或范围或程度的信息。

在一些实施例中，服务器501包括辅助音频元素元数据生成器609。辅助音频元素元数据生成器609被配置为生成与辅助音频元素相关联的元数据，例如辅助音频元素的应用范围或程度、辅助音频元素的位置和其它关联信息。在一些实施例中，这被传递到下载或流式传输服务器611以便将与音频对象和辅助音频元素一起被传递到客户端。此外，在一些实施例中，所述信息可以被传递到辅助音频元素确定器605，以帮助辅助音频元素或对象的生成。

在一些实施例中，服务器501包括下载或流式传输服务器611。下载或流式传输服务器611被配置为接收来自6DoF内容生成器601的6DoF内容、来自音频场景子集元数据生成器607的与音频对象相关联的元数据，以及来自辅助音频元素元数据生成器609的与辅助音频元素相关联的元数据。在一些实施例中，这可以被编码并传递到客户端请求实现处理器613。

在一些实施例中，服务器501包括客户端请求实现处理器613，其例如可以接收关于用户位置和/或朝向以及缩放因子或“视野”的领域的信息。此外，这些信息可以传送到下载或流式传输服务器，并且基于所述信息，能够接收包括音频对象、基于场景的音频(例如FOA或HOA)、或声道底层的相关6DoF内容和辅助音频元素以及关联元数据，并且与客户端通信这些内容。

换句话说，服务器被配置为传送内容该客户端或使客户端可以访问内容。发送的内容基于客户端(用户)在内容中的位置：服务器将来自用户感知范围内的音频内容以及表示其它感知范围的辅助音频元素发送到客户端。然后，客户端基于用户位置和用户所做的任何交互将内容渲染给用户。

图8还描绘了所述方法在服务器上的步骤。

1.获得包含音频元素及其位置数据的6DoF音频场景。6DoF音频场景包含一些合适格式的6DoF音频；例如，作为MPEG-H 3D编码的音频波形加上支持6DoF渲染的元数据。可以使用任何其它合适的音频编码。支持6DoF渲染的元数据至少包括声音元素的位置(x，y，z)。可以替换地使用极坐标(方位角、仰角、半径)来确定位置。可选地，还可以包括其它参数，例如声音元素朝向(方位角、仰角)、程度或大小。可选地，可以包括描述声场景的其它参数，例如混响特性。这可以例如由6DoF内容生成器601生成，如图6所示。这种6DoF内容的获得或确定在图8中由步骤801示出。

2.将6DoF音频场景划分为多个子集，其中每个子集中的音频元素数量少于完整音频场景的音频元素数量，并且这些子集在一起表示完整音频场景。可以通过使用k均值聚类算法将声音元素位置聚类为所需大小(k)的聚类来完成划分。这种算法通过随机选择k个初始聚类中心开始，然后重复将元素位置分配到最近的聚类中心并更新中心以对应于分配给每个中心的音频元素位置的平均值的过程。可以替代地使用将声音元素分配到感知范围的其它聚类算法或其它原则。在一些替代实施例中，感知范围由内容创建者手动创建。这可以例如在音频场景子集确定器603和音频场景子集元数据生成器607内执行，如图6所示。这种划分在图8中由步骤803示出。

对于每个子集，获得在所述子集外部的一个或多个音频元素，并创建一个辅助音频元素以补充该集合。实施例的一个要素是识别在子集外部(音频场景的外部区域)的声音元素，并从外部音频元素创建辅助音频元素。原理如图3a和3b所示。这可以在如图6所示的辅助音频元素确定器605和辅助音频元素元数据生成器609中执行。此外，辅助音频元素的获得或确定在图8中由步骤805示出。在一些实施例中，可以如下执行识别：

a.将子集划分到围绕其原点(聚类中心)的空间扇区，每个扇区具有一定的宽度，例如45度

b.对于每个扇区，执行以下操作：

i.获得在扇区内在子集外部并且可选地在距子集中心一定半径阈值内的音频元素

ii.创建所识别音频元素的缩混

iii.将缩混作为辅助音频元素与子集的空间扇区相关联

因此，这样做的结果是，对于子集周围的每个空间扇区，将有相关联的(缩混)辅助音频元素。在一些实施例中，辅助(缩混)音频元素可以被创建为在子集周围每个空间方向上最近的感知范围(子集)的元素的缩混。还在一些的实施例中，可以使用子集外部的音频元素的直接或环境部分来创建辅助(缩混)音频元素。在需要时，所述选择取决于***是否要强调子集外部的声音的直接部分或环境部分。在一些实施例中，直接部分由集合中的音频对象表示，而环境部分由基于场景的音频元素或声道底层表示。

4.使增强子集可用于由客户端设备渲染。***存储将由客户端设备下载或流式传输的子集和相关联的辅助音频元素。数据包含编码的音频波形、指示音频波形格式和位置的元数据、将场景到子集的划分以及允许一次一个子集地下载或流式传输场景。此外，每个子集都补充有创建的辅助音频元素，这些辅助音频元素与每个子集周围的不同空间扇区相关联。这可以由下载或流媒体服务器611和客户端请求实现处理器613执行。使增强子集可用的操作在图8中由步骤807示出。

关于图7和图9，示出了客户端设备和客户端设备中的方法的主要步骤。

在一些实施例中，客户端503包括内容请求和响应确定器701。内容请求和响应确定器701被配置为与服务器通信，例如将用户位置和/或朝向信息传递给服务器并请求增强音频和与增强音频关联的元数据。此外，内容请求和响应确定器701可以被配置为从服务器接收增强音频和与增强音频相关联的元数据。

在一些实施例中，客户端503包括用户位置和朝向确定器703。用户位置和朝向确定器703被配置为获取位置和/或朝向信息，所述位置和/或朝向信息可以被传递到内容请求和响应确定器701(用于传递给服务器)，而且在一些实施例中，可以被传递到辅助音频元素渲染器控制器707和6DoF音频渲染器709。

在一些实施例中，客户端503包括6DoF音频解码器705，其被配置为从内容请求和响应确定器701接收增强音频和元数据。6DoF音频解码器705还被配置为从接收的增强音频和元数据解码音频信号和元数据。并将其传递给6DoF音频渲染器709。

在一些实施例中，客户端503包括辅助音频元素渲染器控制器707。辅助音频元素渲染器控制器707被配置为从用户位置和朝向确定器703接收信息，并且基于用户位置和/或朝向以及与辅助音频元素相关联的定义辅助音频元素的区域或范围的元数据，来使用辅助音频元素控制音频信号的渲染。在一些实施例中，辅助音频元素渲染器控制器707被配置为控制音频输出。

在一些实施例中，客户端503包括6DoF音频渲染器709。6DoF音频渲染器709被配置为渲染适合于音频输出711的6DoF音频信号。

在一些实施例中，客户端503包括音频输出711。音频输出711被配置为接收6DoF渲染的信号并将其输出给用户。

在一些实施例中，客户端方法可以通过以下例如在图9中操作示出：

1.获得用户位置和朝向。这可以从头部跟踪设备或头戴式设备获得，由用户手动输入或通过其它方式输入。这在图7中由用户位置和朝向确定器703示出。在图9中由步骤901示出获得用户位置和/或朝向的操作。

2.获得与位置和朝向相关联的6DoF音频场景子集。针对用户位置(x，y，z)对音频场景子集的基本选择是用户位置(x，y，z)落入的子集。如果用户位置在距音频场景子集边界的预定义阈值内，则用户朝向可用于确定在用户取向的方向上应访问的子集。6DoF音频场景子集的获得可以由内容请求和响应确定器701和6DoF音频解码器705执行。图9中的步骤903示出了6DoF音频场景子集的获得。

3.当用户位置和朝向基本上不偏离子集的中心时，使用子集中的音频元素向用户渲染空间音频信号。当用户位置在距子集中心的预定义阈值内时，可以使用子集中的音频元素通过6DoF音频渲染装置渲染音频，而不使用辅助音频元素。例如，合适的阈值可以是音频元素子集半径的75％。在一些实施例中，该渲染可以在6DoF音频渲染器709内实现。该渲染在图9中由步骤905示出。

4.当用户位置和朝向基本上偏离子集的中心时，使用子集中的音频元素并且此外使用与子集相关联的至少一个辅助音频元素向用户渲染空间音频信号。因此，当用户位置基本上偏离子集中心，或者用户以其它方式执行交互或通过其它方式导致需要渲染在子集的边界处和外部的内容时，***从音频场景子集的相应空间扇区访问辅助音频元素。在这种情况下辅助音频元素的渲染如上所述。在一些实施例中，该渲染可以在辅助音频元素渲染控制器707内实现。该渲染在图9中由步骤907示出。

在一些实施例中，辅助(缩混)音频元素也可以用于在用户例如走近当前感知范围的对应边界时进行渲染，在该当前感知范围中还没有额外的音频可用。

考虑到上述使用情况，在一些实施例中，因此可以利用辅助音频元素来例如降低复杂性和/或音频数据的传输，其中***至少暂时受到限制。

因此，在一些实施例中，可以至少基于用户转换跨越在感知范围之间的至少一个边界或例如与至少两个自包含的音频元素集合相关的观点的确定性度量，来延迟下载新内容的决定。

辅助(缩混)音频元素可以以任何合适的格式实现。例如，它们可以被实现为声音对象，在这种情况下，它们可以在空间上扩展以使用户能够从更大的空间区域听到它们。在一些其它实施例中，它们被实现为基于场景的音频。例如，辅助音频元素，例如一阶全景声(FOA)或高阶全景声(HOA)。在这种情况下，辅助(缩混)音频元素是基于场景的音频表示，它围绕用户的感知范围，但在用户执行需要超出当前感知范围的渲染的交互时才会被渲染。此外，当辅助音频元素是FOA或HOA时，可以根据用户缩放方向使用特殊处理来强调辅助音频元素的某个方向。例如，当用户朝着FOA或HOA内容的所需方向执行缩放时，可以将空间缩放或聚焦或平移效果应用到所述方向。

从服务器传送内容时，每个音频元素集合都可以自动包含来自外部音频元素集合的所创建的辅助(缩混)音频元素。这样，当开始渲染集合时，消费客户端中已经可以使用辅助音频内容。辅助(缩混)音频元素可用于在需要时渲染在当前感知范围外部的内容。如上所述，这可以被称为或定义为外部区域，即用户不可用的区域或其内容(音频对象)不能立即为用户所用的区域。当用户完全或基本接近于另一个感知范围时，获取并渲染下一个感知范围的音频元素。

在一些实施例中，对第一音频元素集合的音频回放增强可以涉及辅助(缩混)音频元素的添加。

在其他实施例中，***在辅助(缩混)音频元素的第一次渲染时开始检索，例如通过根据缩放目标方向或缩放的变化量下载对应于下一个感知范围的第二音频元素集合中的至少一个音频元素。在这些实施例中，辅助(缩混)音频元素的渲染因此至少为***提供时间以检索必要的附加音频元素。当根据缩放用于进行音频渲染所需的第二音频元素集合中的至少一个音频元素可用时，渲染可以转变为渲染所述音频并且淡出辅助音频元素的渲染。

关于图10，示出了可以用作内容客户端设备的示例电子设备。所述设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板电脑、计算机、音频回放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行例如本文所描述的方法的各种程序代码，。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中，存储器1411包括用于存储数据可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可以包括用于存储数据(例如，根据本文所描述的实施例已经被处理或将要处理的数据)的存储数据部分。无论何时只要需要，处理器1407就可经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码部分中的实现程序代码和存储在存储数据部分中的数据。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可以被耦合到处理器1407。在一些实施例中，处理器1407可以控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中，用户接口1405可以使得用户能够例如经由键盘将命令输入到设备1400。在一些实施例中，用户接口1405可以使用户能够从设备1400获得信息。例如，用户接口1405可以包括被配置将信息从设备1400信息给用户的显示器。在一些实施例中，用户接口1405可包括触摸屏或触摸界面，其能够使得信息能被输入到设备1400并且还向设备1400的用户显示信息。在一些实施例中，用户接口1405可以是如本文所描述的与位置确定器通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发机。在这样的实施例中，收发机可以耦合到处理器1407并且被配置为使得能够例如经由无线通信网络与其它装置或电子设备进行通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦合与其它电子设备或装置通信。

收发机可以通过任何合适的已知通信协议与其它装置通信。例如，在一些实施例中，收发机或收发机装置可以使用合适的通用移动电信***(UMTS)协议、例如IEEE 802.X的无线局域网(WLAN)协议、例如蓝牙的合适的短距离射频通信协议、或者红外数据通信路径(IRDA)。

收发机输入/输出端口1409可以被配置为接收扬声器信号，并且在一些实施例中通过使用执行合适代码的处理器1407来确定如本文所描述的参数。此外，设备可以生成合适的缩混信号和参数输出以传输到合成设备。

在一些实施例中，装置1400可以用作合成装置的至少一部分。因此，输入/输出端口1409可以被配置为接收缩混信号以及在一些实施例中如本文所描述的在捕获设备或处理设备处确定的参数，并且通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入/输出端口1409可以被耦合到任何合适的音频输出，例如耦合到多声道扬声器***和/或耳机或类似物。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以在硬件中实现，而其它方面可以在可由控制器、微处理器或其它计算设备执行的固件或软件中实现，但是本发明不限于此。虽然本发明的各个方面可以被示出并描述为框图、流程图或使用一些其它图形表示出或描述，但是应当充分理解，本文所描述的这些框、装置、***、技术或方法可以作为非限制性示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其一些组合来实现。

本发明的实施例可以由计算机软件、或硬件、或由软件和硬件的组合来实现，计算机软件是移动设备的数据处理器可执行的，例如在处理器实体中。此外，在此方面，应当注意附图中的逻辑流程的任何框都可以表示程序步骤、或互连的逻辑电路、框和功能，或程序步骤和逻辑电路、框和功能的组合。软件可以存储在物理媒体上，例如存储器芯片、或处理器内实现的存储器块、例如硬盘或软盘之类的磁媒体、以及诸如DVD及其数据变体、CD的光学媒体。

存储器可以是适合本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实现，例如基于半导体的存储设备、磁存储设备和***、光存储设备和***、固定存储器、以及可移动存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例可包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、和基于多核处理器架构的处理器中的一个和多个。

本发明的实施例可以在例如集成电路模块的各种组件中实践。集成电路的设计基本上是一个高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为准备在半导体基板上蚀刻和形成的半导体电路设计。

程序，例如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序，使用完善的设计规则以及预先存储的设计模块库在半导体芯片上自动布线导体和定位元件。一旦完成了半导体电路的设计，就可以采用标准化电子格式(例如，Opus、GDSII等)的设计结果传送到半导体制造设备或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例的方式提供了对本发明示例性实施例的完整和信息丰富的描述。然而，当结合附图和所附权利要求阅读时，鉴于前面的描述，各种修改和调整对于相关领域的技术人员而言将变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入如所附权利要求中限定的本发明的范围内。

Claims

1.一种装置，包括被配置为执行以下的部件：

获得与用户相关联的至少一个位置和/或朝向；

基于所述至少一个位置和/或朝向，来获得一个或多个音频元素，其中所述一个或多个音频元素至少部分地形成音频场景；

基于所述至少一个位置和/或朝向，来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与所述音频场景的至少一部分相关联并且位于音频场景的外部区域；

渲染所获得的音频元素和/或至少一个辅助音频元素。

2.根据权利要求1所述的装置，其中所述用户与另外的装置相关联。

3.根据权利要求1和2中任一项所述的装置，其中所述部件被配置为：基于所述装置已经执行缩放或移动动作的确定，来渲染所获得的音频元素和/或至少一个辅助音频元素。

4.根据权利要求3所述的装置，其中所述缩放或移动动作使得用户不再能够听到所获得的音频元素。

5.根据权利要求1至4中任一项所述的装置，其中被配置为基于所述至少一个位置和/或朝向获得一个或多个音频元素的部件被配置为：

确定所述音频场景内的多个音频元素集合，其中每个音频元素集合具有在音频场景内的关联位置和/或朝向；

计算在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离；以及

基于在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离，来从所述多个音频元素集合中选择所述一个或多个音频元素。

6.根据权利要求5所述的装置，其中，被配置为基于在所获得的位置和/或朝向与每个音频元素集合的音频元素位置的平均位置之间的距离来从所述多个音频元素集合中选择所述一个或多个音频元素的部件被配置为：选择其中心最接近所述所获得的位置的一个或多个音频元素。

7.根据从属于权利要求3时的权利要求5至6中任一项所述的装置，其中对所述装置已经执行缩放或移动动作的确定是朝向不在所述音频元素集合内的音频元素的缩放。

8.根据权利要求1至7中任一项所述的装置，其中被配置为获得至少一个辅助音频元素的部件被配置为：用所述至少一个辅助音频元素来增强所选择的音频元素集合。

9.根据权利要求8所述的装置，其中被配置为用所述至少一个辅助音频元素来增强所选择的音频元素集合的部件被配置为：对所述至少一个音频元素集合进行缩混。

10.根据权利要求1至9中任一项所述的装置，其中被配置为渲染所获得的音频元素和/或至少一个辅助音频元素的部件被配置为：

在所述用户在与所述音频元素集合相关联的感知范围内的情况下，渲染所述所获得的音频元素；以及

在所述用户超出所述感知范围的情况下，渲染所述至少一个辅助音频元素。

11.一种装置，包括被配置为执行以下的部件：

获得音频场景，所述音频场景包括至少两个音频元素以及与所述至少两个音频元素中的每个音频元素相关联的位置和/或朝向；

将所述音频场景划分为包含所述至少两个音频元素中的至少一个音频元素的集合，其中所述集合表示完整的音频场景；以及

创建至少一个辅助音频元素以补充每个集合，其中所述至少一个辅助音频元素和所述集合形成增强集合。

12.根据权利要求11所述的装置，其中所述音频场景包括作为音频元素的MPEG-H 3D编码的音频波形和包括所述位置和/或朝向的元数据。

13.根据权利要求11和12中任一项所述的装置，其中所述位置采用以下项中的至少一个：

笛卡尔坐标(X，Y，Z)；

极坐标(方位角，仰角，半径)。

14.根据权利要求11至13中任一项所述装置，其中所述朝向是包括方位角和仰角的声音元素朝向。

15.根据权利要求11至14中任一项所述的装置，其中被配置为划分音频场景的部件被配置为：基于音频元素的位置将音频元素聚类为第一聚类数的聚类。

16.根据权利要求15所述的装置，其中被配置为将音频元素聚类的部件被配置为：

随机选择第一数量的音频元素，并将所述第一数量的聚类中心定义为所选择的第一数量的音频元素的位置；以及

重复将所述音频元素的位置分配到最近的聚类中心，并更新所述聚类中心以对应于被分配到每个中心的音频元素的位置的平均。

17.根据权利要求11至16中任一项所述的装置，其中被配置为获得每个集合外部的一个或多个音频元素的部件被配置为：

将所述集合划分到围绕集合原点的空间扇区中，每个扇区具有定义的角度范围；以及

识别在所述集合外部并在所述空间扇区内和/或在距离所述集合原点半径阈值内的任何音频元素。

18.根据权利要求17所述的装置，其中被配置为创建辅助音频元素以补充每个集合的部件被配置为：

组合在所述集合外部且在所述空间扇区内和/或在距离所述集合原点半径阈值内所识别的音频元素；以及

将所述组合作为所述辅助音频元素关联到所述集合的空间扇区。

19.根据权利要求18所述的装置，其中，被配置为组合在所述集合外部且在所述空间扇区内和/或在距离所述集合原点半径阈值内的所识别音频元素的部件被配置为：对所述所识别的音频元素进行缩混。

20.如权利要求11至19中任一项所述的装置，其中所述部件被配置为向另外的装置提供所述增强集合。

21.一种装置，包括至少一个处理器和包含计算机程序代码的至少一个存储器，所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少：

获得与用户相关联的至少一个位置和/或朝向；

基于所述至少一个位置和/或朝向，来获得至少一个辅助音频元素，所述至少一个辅助音频元素是至少一个音频元素或音频元素的组合，其中所述至少一个辅助音频元素与所述音频场景的至少一部分相关联，并且位于所述音频场景的外部区域；以及

渲染所获得的音频元素和/或至少一个辅助音频元素。

22.一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

23.一种操作装置的方法，包括：

获得与用户相关联的至少一个位置和/或朝向；

渲染所获得的音频元素和/或至少一个辅助音频元素。

24.一种操作装置的方法，包括：

将音频场景划分为包括所述至少两个音频元素中的至少一个音频元素的集合，其中所述集合表示完整的音频场景；以及