CN113614685A

CN113614685A - 音频装置及其方法

Info

Publication number: CN113614685A
Application number: CN202080022445.3A
Authority: CN
Inventors: J·G·H·科庞
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-03-19
Filing date: 2020-03-16
Publication date: 2021-11-05
Anticipated expiration: 2040-03-16
Also published as: US11889286B2; BR112021018473A2; EP3942400A1; JP7453248B2; US20240214763A1; US20220174447A1; JP2022525902A; WO2020187807A1; CN113614685B; EP3712788A1

Abstract

第一音频装置生成包括针对音频场景的数据的数据信号，所述数据包括针对至少第一音频源的输入音频源数据和针对音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对声学对象的声学耦合数据和空间性质数据。第二音频装置包括用于接收信号的接收器(201)。生成器(205)根据来自第一音频源的音频的耦合生成针对对象音频源的对象音频源数据，所述对象音频源数据表示由声学对象在音频场景中发射的音频。生成器(205)被布置为响应于声学耦合数据、空间性质数据和输入音频源数据而生成对象音频源数据。渲染器(203)渲染音频场景，所述渲染包括渲染对象音频源数据。

Description

音频装置及其方法

技术领域

本发明涉及音频装置及其方法，并且特别地但非排他地涉及用于增强/虚拟现实应用的音频处理。

背景技术

近年来随着利用和消费视听内容的新的服务和方式的不断开发和推出，基于视听内容的体验的种类和范围已经大幅增加。具体地，许多空间和交互服务、应用和体验正被开发以给予用户更投入和沉浸的体验。

此类应用的示例是迅速成为主流的虚拟现实(VR)、增强现实(AR)和混合现实(MR)应用，其中，许多技术方案瞄准消费者市场。许多标准也在由许多标准化主体开发中。此类标准化活动积极开发用于VR/AR/MR***的各种方面的标准，包括例如流送、广播、渲染等。

VR应用倾向于提供对应于用户在不同世界/环境/场景的用户体验，而AR(包括混合现实MR)应用倾向于提供对应于用户在当前环境中但是具有被添加的额外信息或虚拟对象或信息的用户体验。因此，VR应用倾向于提供完全沉浸的合成生成的世界/场景，而AR应用倾向于提供叠加用户物理存在的真实场景的部分合成的世界/场景。然而，术语常常可交换地使用并且具有高交叠度。在以下中，术语虚拟现实/VR将被用于指代虚拟现实和增强现实两者。

作为示例，日益流行的服务是以这样的方式提供图像和音频：用户能够主动并且动态地与***交互以改变渲染的参数，使得这将适于用户的位置和取向的移动和改变。许多应用中的非常吸引人的特征是改变观看者的有效观看位置和观看方向的能力，诸如例如允许观看者在呈现的场景中移动和“环视”。

这样的特征可以特别地允许虚拟现实体验被提供给用户。这可以允许用户在虚拟环境中(相对)自由地到处移动并且动态地改变他的位置以及他正在看何处。通常，这样的虚拟现实应用基于场景的三维模型，其中，模型被动态地评价以提供特定请求视图。该方法从例如用于计算机和控制台的游戏应用(诸如在第一人称射击的类别中)众所周知。

还期望的是，特别是针对虚拟现实应用，呈现的图像是三维图像。实际上，为了优化观看者的沉浸感，对于用户将呈现的场景体验为三维场景通常是优选的。实际上，虚拟现实体验应当优选地允许用户选择他/她自己的位置、相机视点、以及相对于虚拟世界的时刻。

除视觉渲染之外，大多数VR/AR应用还提供对应的音频体验。在许多应用中，音频优选地提供其中音频源被感知为从对应于视觉场景中的对应对象的位置的位置到达的空间音频体验。因此，音频和视频场景优选地被感知为是一致的并且以两者提供全空间体验。

例如，许多沉浸式体验是由通过使用双耳音频渲染技术的耳机再现生成的虚拟音频场景提供的。在许多情形中，这种耳机再现能够基于头部跟踪，使得渲染可以响应用户的头部移动，这大大增加了沉浸感。

然而，为了给用户提供高度沉浸的、个性化和自然的体验，音频场景的渲染尽可能逼真是很重要的，并且对于组合视听体验，诸如许多VR体验，音频体验与视觉体验紧密匹配很重要，即渲染的音频场景和视频场景紧密匹配很重要。

在许多应用中，表示场景的视听数据由一个常常是中央的设备生成并分布给个体远程实体，所述实体可以处理接收到的视听数据以为特定用户提供本地渲染。通常，其可以例如适于用户在场景中的当前移动、位置和取向，或适于其他局部化参数。因此，在许多应用中，音频场景的本地渲染和合成是基于接收到的音频数据来执行的。

为了支持此类应用，已经针对音频表示和数据开发了多种方法和音频标准。在这样的方法和标准中，不同的音频分量常常可以与空间信息一起个体表示。可以在不同的标准和方法中使用用于表示音频场景中的音频分量和源的不同方法。

例如，在正在开发的MPEG-I第4部分(动态影像专家组沉浸式音频编码)标准中，将传输音频源，以用于渲染用户具有6个自由度(6DoF)的音频场景。这些声源将是对象、信道和高阶Ambisonics(HOA)。

音频对象是声源的表示，并且因此通常与声源的位置相关联。相比之下，音频信道是扬声器信号的表示。通常，两个或更多个音频信道相互关联并在固定位置处进行渲染。它们通常联合表示一个或多个声源，其中，声源由两个或更多个音频信道表示，使得幅度平移导致两个或更多个音频信道的位置之间的感知定位。对于HOA，音频表示基于麦克风原理，其中，每个HOA信号表示具有特定方向性特征的(虚拟)麦克风。方向性特征基于球谐函数，并且因此可以组合HOA表示的不同信号以得到对应于从某个方向接收到的声波的音频信号。因此，在音频对象和音频信道表示音频发射的情况下，HOA表示在空间中的某个点接收到的音频。

对于音频对象，范围的概念被用于指示声源的(3D)大小。通常，对象被表示为渲染为点源的单个信号，例如通过将其与单个HRTF对卷积以执行双耳处理。范围参数/特征允许渲染向用户引入感知的宽度和高度。

HOA可能将在大多数比特流中包含声学和扩散声音，但也能够包含干声源分量。此外，信道可能是干源或包括声学(干声源/信号可能指的是尚未处理的声源/信号，即时间间隔可能对应于原始、未处理的原始声音，请参考例如https://en.wikipedia.org/wiki/Audio_signal_processing)。对于对象源和信道中的一些，MPEG-I解码器必须包括声学模型，以根据用户的位置模拟声学。

然而，尽管此类方法可以为许多应用程序和在许多情形中提供高效的性能，但其并非在所有情况和情形中都是最佳的。在一些应用中，可能体验到次优的质量，并且音频场景可能会被认为不完全自然或不真实。在一些情况下，音频可能不完全对应于所提供的视频场景，或者可能不完全对应于在对应的自然环境中将感知到的场景。

因此，用于音频处理，特别是用于虚拟/增强/混合现实体验/应用、应用的改进方法将是有利的。具体地，允许改进的操作、增加的灵活性、降低的复杂性、方便的实施、改进的音频体验、音频视觉场景的更一致的感知、改进的定制、改进的个性化；改进的虚拟现实体验、改进的音频质量和/或改进的性能和/或操作的方法将是有利的。

发明内容

因此，本发明寻求优选地单独或以任何组合减轻、缓解或消除上述缺点中的一个或多个。

根据本发明的一个方面，提供了：一种音频装置，包括：接收器，其用于接收包括针对音频场景的数据的信号，所述数据包括针对至少第一音频源的输入音频源数据和针对音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对声学对象的声学耦合数据和空间性质数据；生成器，其用于根据来自第一音频源的音频的耦合来生成针对对象音频源的对象音频源数据，所述对象音频源数据表示由声学对象在音频场景中发射的音频，所述生成器被布置为响应于声学耦合数据、空间性质数据和输入音频源数据而生成对象音频源数据；以及渲染器，其用于渲染音频场景，所述渲染包括渲染对象音频源数据。

本发明可以在许多实施例中提供改进的音频渲染并且可以具体地提供音频场景的改进的表示和渲染。在许多情形中，可以实现场景的更逼真的表示，并且可以实现改进的和/或更自然的用户体验。在许多实施例中，可以实现有效的处理。所述方法可以与许多其他音频处理和渲染方法兼容，并且可以对呈现给用户的音频提供额外的和补充的贡献。

耦合可以反映音频能量到振动/机械能量的转换和/或振动/机械能量到音频能量的转换，并且针对声学对象的声学耦合数据可以指示针对声学对象的音频能量到振动/机械能量的转换和/或振动/机械能量到音频能量的转换的性质。声学耦合数据可以包括指示声学对象的机械性质的数据，包括指示声学对象的(一个或多个)材料和/或配置和/或组成的数据。

输入音频源数据具体可以包括针对第一音频源的音频信号数据和空间性质数据。对象音频源数据可以包括针对对象音频源的音频信号数据和空间性质数据。针对音频源的空间数据可以指示音频源的位置和/或范围。

生成器被布置为生成对象音频源数据以对应于具有空间扩展和/或位置的音频源，该空间扩展和/或位置对应于由音频分量的空间性质数据指示的空间扩展和/或位置。生成器被布置为生成对象音频源数据以对应于从声学耦合数据(和输入音频信号数据)确定的水平/频率响应，例如具体地通过利用取决于声学耦合数据的传递函数对针对第一音频源的输入音频信号进行滤波。

根据本发明的任选的特征，生成器被布置为生成所述对象音频源数据以表示具有响应于所述空间性质数据而确定的空间范围的所述对象音频源。

这可以提供音频场景的改进的渲染并且可以常常导致对音频场景的更逼真的感知。具体地，生成器可以生成对象音频源数据以表示与如由空间性质数据所指示的声学对象的范围具有相同空间范围的对象音频源。

根据本发明的任选特征，生成器被布置为响应于所述声学耦合数据而确定针对所述对象音频源数据的音频的音频水平和频率响应中的至少一项。

这可以提供音频场景的改进的渲染并且可以常常导致对音频场景的更逼真的感知。

根据本发明的任选特征，声学耦合数据包括针对声学对象的第一组耦合系数，该组耦合系数指示针对声学对象的耦合传递函数。

这可以提供耦合效应的特别有效和有利的表示。该组耦合系数可以描述对应于耦合传递函数的滤波器。在一些实施例中，该组耦合系数可以仅包括单个系数。

根据本发明的任选特征，耦合传递函数是从所述声学对象的振动到从声学对象发射的音频的。

在许多实施例中，这可以提供耦合效应的特别有利和灵活的表示。其可以提供高度的灵活性并允许表示和渲染许多不同的效应。

根据本发明的任选特征，所述生成器被布置为根据音频对象的振动和耦合传递函数生成表示由所述声学对象在所述音频场景中发射的音频的对象音频源数据。

在许多实施例中，这可以提供耦合效应的特别有利和灵活的表示。

根据本发明的任选特征，生成器被布置为响应于所述声学对象的物理模型而确定所述振动。

这可以提供改进的并且通常更逼真的要渲染的音频场景。

根据本发明的任选特征，生成器被布置为响应于被施加到所述声学对象的时变力而确定所述振动。

这可以提供改进的并且常常更逼真的要渲染的音频场景。在许多实施例中，其可以允许渲染额外的效应和音频，例如由于机械移动而生成的音频。

根据本发明的任选特征，耦合传递函数是从入射在声学对象上的音频到声学对象的振动的。

根据本发明的任选特征，生成器被布置为生成对象音频源数据以表示具有与如由空间性质数据所指示的声学对象的位置相对应的空间位置的对象音频源。

这可以提供音频场景的改进的渲染并且可以常常导致对音频场景的更逼真的感知。具体地，生成器可以生成对象音频源数据以表示具有与如由空间性质数据所指示的声学对象的位置相同的空间位置的对象音频源。

根据本发明的任选特征，生成器被布置为响应于所述第一音频源的位置和由所述空间性质数据指示的所述声学对象的位置而生成所述对象音频源数据。

在许多实施例中，这可以提供音频场景的改进的渲染。

根据本发明的任选特征，生成器被布置为响应于收听位置和由所述空间性质数据指示的所述声学对象的位置而生成所述对象音频源数据。

在许多实施例中，这可以提供音频场景的改进的渲染。

根据本发明的任选特征，信号包括针对第二音频源的输入音频源数据，并且所述生成器被布置为根据来自第一音频源和第二音频源的音频的组合耦合来生成所述对象音频源数据以表示由所述声学对象在所述音频场景中发射的音频。

在许多实施例中，这可以提供音频场景的改进的渲染。

在许多实施例中，根据来自第一音频源和第二音频源的音频的组合耦合生成对象音频源数据以表示由声学对象在音频场景中发射的音频可以是通过响应于声学耦合数据、空间性质数据和针对第一音频源的输入音频源数据而生成的音频数据以及响应于声学耦合数据、空间性质数据和针对第二音频源的音频信号数据而生成的音频数据的叠加的。

根据本发明的一个方面，提供了：一种音频装置，包括：数据生成器，其用于生成针对音频场景的数据，所述数据包括针对至少第一音频源的输入音频源数据和针对音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对声学对象的声学耦合数据和空间性质数据；信号生成器，其用于生成包括针对音频场景的数据的数据信号；以及发送数据信号的发射器。

根据本发明的一个方面，提供了一种处理音频的方法，所述方法包括：接收包括针对音频场景的数据的信号，所述数据包括针对至少第一音频源的输入音频源数据和针对音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对声学对象的声学耦合数据和空间性质数据；根据来自第一音频源的音频的耦合生成针对对象音频源的对象音频源数据，所述对象音频源数据表示由声学对象在音频场景中发射的音频，所述生成器被布置为响应于声学耦合数据、空间性质数据和输入音频源数据而生成对象音频源数据；渲染音频场景，所述渲染包括渲染对象音频源数据。

根据本发明的一个方面，提供了：一种生成音频数据信号的方法，所述方法包括：生成针对音频场景的数据，所述数据包括针对至少第一音频源的输入音频源数据和针对音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对所述声学对象的声学耦合数据和空间性质数据；生成包括针对音频场景的数据的音频数据信号；并且发送音频数据信号。

参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优点将显而易见并得到阐述。

附图说明

将仅通过示例参考附图来描述本发明的实施例，其中

图1图示了基于客户端服务器的虚拟现实***的示例；

图2图示了根据本发明的一些实施例的音频装置的元件的示例；

图3图示了根据本发明的一些实施例的音频装置的元件的示例；

图4图示了音频场景中的音频传播的示例；

图5图示了针对声学对象的音频效应的示例；

图6图示了根据本发明的一些实施例的音频装置的元件的示例；

图7图示了声学对象的音频效应之间的关系；并且

图8图示了根据本发明的一些实施例的渲染声学对象的空间范围的示例。

具体实施方式

允许用户在虚拟或增强世界中四处移动的虚拟现实(包括增强和混合现实)体验正变得日益流行并且服务正在开发以满足这样的需求。在许多这样的方法中，视觉和音频数据可以被动态地生成以反映用户(或观看者)的当前姿势。

在该领域中，术语放置和姿势被用作用于位置和/或方向/取向的常见术语(参见，例如，https://en.wikipedia.org/wiki/Pose_(computer_vision))。例如物理对象、相机、头部或者视图的位置和方向/取向的组合可以被称为姿势或者放置。因此，放置或者姿势指示可以包括达到六个值/分量/自由度，其中，每个值/分量通常描述对应的物理对象的位置/定位或取向/方向的个体性质。当然，在许多情形下，布置或姿势可以由更少的分量表示，例如如果一个或多个分量被认为是固定或不相关的(例如如果所有物理对象被认为在相同高度处并且具有水平取向，则四个分量可以提供物理对象的姿势的完全表示)。在以下中，术语姿势被用于是指可以由一到六个值(对应于最大可能自由度)表示的位置和/或取向。

许多VR应用基于具有最大自由度的姿势，即，导致总共六个自由度的位置和取向中的每个的三个自由度。因此，姿势可以由表示六个自由度的六个值的集合或向量表示，并且因此姿势向量可以提供三维位置和/或三维方向指示。然而，将认识到，在其他实施例中，姿势可以由更少的值表示。

基于为观看者提供最大自由度的***或实体通常被称为具有6个自由度(6DoF)。许多***和实体仅提供取向或者位置并且这些通常被称为具有3个自由度(3DoF)。

利用6个自由度，用户可以在3维笛卡尔坐标系的所有三个维度上移动。或者，参考收听者：在左右、前后、上下方向上。其余三个自由度是沿笛卡尔坐标系的三个轴的方向的旋转，(例如如从飞机机动中已知的偏航、俯仰、横滚，参考例如https:// en.wikipedia.org/wiki/Aircraft_principal_axes)。

通常，虚拟现实应用以针对左眼和右眼的分离的视图图像的形式生成三维输出。这些可以然后通过适合的模块(诸如通常是VR头戴件的单独的左眼显示器和右眼显示器)呈现给用户。在其他实施例中，一个或多个视图图像可以例如被呈现在自动立体显示器上，或者实际上，在一些实施例中，可以仅生成单幅二维图像(例如使用常规二维显示器)。

类似地，对于给定的观看者/用户/收听者姿势，可以提供场景的音频表示。音频场景通常被渲染以提供空间体验，其中，音频源被感知为源自期望的位置。在许多实施例中，音频场景可以随着音频源在场景空间中潜在地移动而动态地改变。而且，用户姿势的变化通常会导致音频源相对于用户的姿势的相对位置的变化。因此，音频源的空间感知应该改变以反映相对于用户的新位置。可以根据用户姿势相应地调整音频渲染。

观看者或用户姿势输入可以在不同应用中以不同方式确定。在许多实施例中，可以直接地跟踪用户的物理移动。例如，调查用户区域的相机可以检测并且跟踪用户的头部(或甚至眼睛(眼球跟踪))。在许多实施例中，用户可以穿戴可以由外部和/或内部模块跟踪的VR头戴件。例如，头戴件可以包括提供关于头戴件以及因此头部的移动和旋转的信息的加速度计和陀螺仪。在一些范例中，VR头戴件可以发送信号或包括使得外部传感器能够确定VR头戴件的位置的(例如视觉)标识符。

在一些***中，观看者姿势可以由手动模块提供，例如由用户手动控制操纵杆或类似手动输入提供。例如，可以通过利用一只手控制第一模拟操纵杆来手动地使虚拟观看者在虚拟场景中到处移动并且通过利用另一只手手动移动第二模拟操纵杆来手动地控制虚拟观看者正在观看的方向。

在一些应用中，手动方法和自动方法的组合可以被用于生成输入观看者姿势。例如，头戴件可以跟踪头部的取向，并且场景中的观看者的移动/位置可以由用户使用操纵杆来控制。

在许多***中，描述场景的数据从中央源传输到个体用户的本地设备。例如，表示来自多个不同视图位置的场景的视图的视觉数据可以从中央服务器传输到本地客户端。基于该视觉数据，本地设备中的本地渲染器然后可以合成针对观看者当前位置的特定视图。因此，来自多个捕获或锚位置(独立于当前观看者姿势)的场景表示可以作为场景的表示传输到本地设备，并且本地设备可以处理此场景表示以动态地生成针对当前观看者姿势的视图。

类似地，远程设备/服务器可以生成反映虚拟音频环境的音频场景。在许多实施例中，这可以通过生成与虚拟音频环境中的不同音频源的相对位置相对应的音频元素来完成，其中，这些被渲染以在对应的位置处被感知。

例如，远程设备可以生成表示音频场景的音频数据，并且可以传输与音频场景中的不同音频源相对应的音频分量/对象/信号或其他音频元素以及指示这些的位置的位置信息(其例如对于移动的物理对象可以动态改变)。音频元素可以包括与特定位置相关联的元素，但也可以包括用于更多分布式或扩散音频源的元素。例如，可以提供表示通用(非本地化)背景声音、环境声音、扩散混响等的音频元素。

在许多实施例中，音频数据还可以包含描述场景的声学性质的元数据。该元数据可以包括导致声学阻塞或反射的(非音频)元素的信息。

本地VR设备然后可以适当地渲染音频元素，例如通过应用反映针对音频分量的音频源的相对位置的适当双耳处理。声学元数据可以被用于对场景对到达用户的音频的进一步效应进行建模。这些可能是直接到音频元素的音频信号上的效应，或者引入额外的音频元素，例如混响。

对于VR服务的音频侧，在一些实施例中，中央服务器可以相应地生成表示音频场景的音频数据，并且可以具体地通过可以由本地客户端/设备渲染的多个音频元素来表示该音频场景。音频元素可以具体包括音频对象、音频信道、高阶Ambisonics中的一个或多个。

图1图示了这样的VR***的示例，其中，中央服务器101与多个远程客户端103联络，例如经由网络105，诸如例如因特网。中央服务器101可以被布置为同时支持潜在的大量远程客户端103。

这种方法可以在许多情形中提供例如针对不同设备、通信要求的复杂性和资源需求等之间的改进的权衡。

图2图示了音频装置的元件，此后也被称为音频渲染器200，其可以在许多应用和情形中提供改进的音频渲染。特别地，音频装置可以为许多VR应用提供改进的渲染，并且音频装置可以具体地被布置成为图1的远程客户端103执行音频处理和渲染。

图3图示了音频装置的元件，此后也被称为音频信号生成器300，其可以在许多应用和情形中生成改进的音频数据信号。特别地，音频装置可以为许多VR应用提供改进的音频数据信号作为改进的视听数据流的部分，并且音频信号生成器300可以具体地被布置为执行针对图1的VR服务器101的音频处理和渲染。

音频信号生成器300包括音频数据生成器301，其被布置为生成提供音频场景的表示的数据。该数据可以包括针对场景中的多个音频源的数据，其中，该数据包括描述由源生成的音频(信号)的音频数据以及通常提供针对场景的空间性质的描述的空间信息。这种空间数据通常可以包括指示音频源在场景中的位置和/或音频源的空间分布/范围的描述的数据。空间分布可以例如反映数据源是否是扩散的和空间分布的(例如环境或背景噪声)或者其是否是明确定义的点源。针对给定音频源的空间数据可以例如指示音频源的大小。音频场景中给定音频源的音频源数据具体可以包括该音频源的音频信号数据和空间性质数据。

由音频源生成的音频通常可以给出为编码音频信号。音频源通常可以被表示为音频对象、信道或HOA。

音频源可以特别是具有关联位置元数据的单个音频信号，旨在渲染为点源。此外，空间范围(大小)可能是元数据的部分，指示声源应该以特定大小渲染。另外的元数据，例如(频率相关)方向性模式，可以是声源定义的部分。

在本示例中，表征音频场景的数据不限于音频源，而是还可以包括一个或多个声学对象的描述。声学对象可以是场景中可能影响声学环境的对象，并且具体地可以是可能影响在音频场景中的至少一个点从音频源中至少一个接收到的音频的对象。因此，声学对象可以是场景中可能影响来自音频源的音频传播的任何对象。声学对象通常可以是无源声学对象(如稍后将描述的，其通常可以响应于入射音频或机械冲击而生成音频)。声学对象可以是具有与空气不同的声学性质的对象。

因此，为音频场景生成的数据包括生成音频的音频源以及可能影响音频的声学对象。在一些情况下，对象音频源也可以与特定的声学对象相关联。

参考图3，音频数据生成器301耦合到信号生成器303，信号生成器303被布置为生成数据信号，该数据信号包括由音频数据生成器301生成的针对音频场景的数据。通常，信号生成器303生成视听数据流，所述视听数据流包括表征音频场景的数据以及表征视觉场景的对应的视频数据两者。因此，数据流表征视听场景。信号生成器303可以被布置为使用(一个或多个)任何合适的编码算法和格式对视频和音频数据进行编码。

生成的编码视听数据流可以被馈送到发射器305，该发射器305被布置为通过任何合适的通信信道发送数据信号。在图1-3的具体示例中，发射器305可以包括合适的网络接口，允许它通过网络105将数据信号发送到客户端设备101。

参考图2，音频渲染器200包括接收器201，其从音频信号生成器300接收数据信号。因此，接收器201接收表示音频场景的数据，其中，该数据包括针对一个(并且通常多个)音频源的输入音频源数据以及针对一个(并且通常多个)声学对象的声学对象数据。

输入音频源数据可以具体描述生成的音频的时间和/或频率特征，并且具体地可以表示单个音频信号(随时间变化)。通常，数据还包括音频源的空间数据。接收数据中表示的给定输入音频源的输入音频源数据具体可以包括给定输入音频源的音频信号数据和空间性质数据。

接收器201耦合到渲染器203，渲染器203被馈送表征音频数据的数据。渲染器203可以渲染音频场景，例如通过个体渲染个体音频源并组合得到的信号。渲染可以包括基于针对音频源接收的空间信息和生成音频的收听位置的空间处理，如技术人员将知道的。例如，对于耳机输出，双耳处理可以被用于生成耳机信号，其中，音频源被感知为从适当的空间位置到达收听者。对于扬声器输出，可以采用扬声器渲染算法(例如VBAP)来从音频元素生成扬声器信号。

渲染器203还可被布置为处理音频源以反映声学对象的性质。例如，可以降低音频源的信号水平以对应于由音频源和收听位置之间的声学对象引起的阻尼。

渲染器203具体地可以是将音频信号转换成扬声器(包括耳机)馈送/驱动信号的处理元件。例如，当穿戴耳机时，使用HRTF或BRIR渲染信号，而对于扬声器消耗，信号被映射到扬声器，这取决于扬声器与声源和收听者的(虚拟)位置的相对位置。

将意识到，渲染器203可以不限于生成直接馈送到给定应用的扬声器的信号，而是可以可能进一步处理所生成的信号。例如，信号可能经受响度调平、动态范围压缩(DRC)、(真实)峰值限制或其他处理步骤。此外，对扬声器馈送的渲染可以跟随有通过双耳渲染对耳机扬声器馈送的渲染。

音频渲染器200还包括生成器205，生成器205被布置为向场景引入额外的音频源。生成器205可以具体地根据来自至少第一音频源的音频的耦合生成针对对象音频源的对象音频源数据，该对象音频源数据表示由声学对象在音频场景中发射的音频。

在该***中，数据信号包括针对至少一个声学对象的声学对象数据，其中，声学对象数据具体包括第一声学对象的声学耦合数据和空间性质数据两者。声学对象可以通过提供基于框、球体或多边形的空间描述的空间元数据来表示。其例如也可以由两个大小值表示，其指示元素当其正面对收听者时的有效宽度和高度尺寸。

基于这样的数据，生成器205生成新的音频源，以下称为对象音频源，其反映通过与其他音频(即来自(一个或多个)输入音频源的音频)的这种耦合而从声学对象生成的声音)。该额外的音频源然后可以被包括在场景的渲染中。具体地，对象音频源数据可以通过对应于音频源在接收信号中的如何表示的音频信号数据和空间数据来表示额外对象音频源。具体地，对象音频源可以由描述所生成音频的音频信号数据和描述所生成的音频的位置和/或范围的空间数据来表示。

声学模型可以被用于对声音通过环境的进展建模，特别是对对象如何影响环境中的音频建模。通常，建模的声波与不同的固态材料相互作用。典型的声学模型包括传入声波的反射、吸收和透射(穿过对象)。渲染器203可以在渲染音频源并评价它们如何受环境影响时考虑这样的效应。

特别是对于遮挡，模型能够考虑遮挡场景对象在何处以及它们的声学性质是什么。接收的数据因此可以具体地包括描述声学对象的数据并且通常可以描述在大多数情况下也被视觉地表示的对象的(简化)几何结构。

遮挡可以被认为是绝对的，其中，遮挡对象不会让任何声音通过其，但对于许多对象，遮挡不会是完全的，而是会允许一些音频通过。这可以通过提供透射系数来表示，该透射系数通常指示穿过材料使得用户仍然可以接收直接路径的一些部分的能量的(频率相关)部分，如由图4和图5所图示。

在大多数情况下，用户还会接收通过反射和混响的声源能量的部分。如果遮挡元件阻挡了通过空气的所有(相对短)路径，则情况可能并非如此。

不同的材料具有不同的遮挡性质。墙遮挡比窗帘更强，并且因此墙的透射系数将低于窗帘。而且，频率特征可能不同，并且通常砖墙将仅通过非常低的频率。可能存在具有介于所描述的两个极端之间的性质的不同的遮挡材料。

渲染器203因此可以执行寻求生成音频源以反映不同路径的渲染，无论是通过声学对象还是通过反射和/或混响。

图6图示了元件的示例，其示出了可以如何通过分别渲染不同的效应来渲染输入音频源信号。该示例可以例如应用于干声源信号，例如音频对象。

具体地，第一路径601可以处理音频源以反映环境中的混响。例如，可以使用合适的混响滤波器或模型对音频源信号进行滤波。第二路径603可以处理音频源以反映早期反射，例如通过用具有对应于个体反射的定时和水平的系数的滤波器对音频源信号进行滤波。第三路径605处理音频源信号以表示直接路径，例如通过根据直接传播路径将衰减应用到音频源信号。将意识到，不仅不同路径的定时、衰减和频率响应可能不同，而且空间效应也可能不同。具体地，对于混响，音频可以被认为是扩散的，没有空间确定性，直接路径可以被认为是从音频源的方向到达的，而反射可以被认为是根据音频环境的具体特性从不同方向到达的，并且通常也可以被认为比直接路径在空间上定义得更少。直接信号可以被渲染为直接从音频源位置到达并且可能具有相对小的空间扩展。

由声学对象造成的直接路径衰减常常可以通过应用使来自音频源的信号衰减的透射系数来建模。然而，发明人已经意识到，在许多情形中，这可能不提供音频源的完整或理想的表示以及这如何由声学对象影响。

例如，这种方法可能是针对窗帘的逼真模型，但不是针对墙壁的逼真模型。这能够归因于墙壁的强低通透射行为，但对于介于这些极端之间的其他材料，例如薄石膏板墙或木门，将有更多的高频内容和通常更少的衰减。如果这些情况用透射系数建模，定位将是可能的，而实际上情况并非如此。

在所描述的***中，声学对象对由音频源生成的音频的影响还由声学对象数据表示，该声学对象数据包括声学对象的声学耦合数据和空间性质数据。这可以在包括音频源生成器205的第四路径607中通过该路径向场景引入新的音频源来处理。

耦合是声学效应，其表示对象的音频和振动/(振荡)移动能够如何相互作用并彼此转换。入射在实施例上的音频可以引起对象的振动，由此音频能量(中的一些)可以被转换成对象的机械能量。而且，对象的振动/(振荡)移动可以生成音频，从而将振动/机械能量转换为音频能量。实际上，在许多实施例中，耦合效应可以提供音频效应，其中，声学对象上的入射音频使其随着振动而振动，然后产生音频。

声源辐射能量，并且在大多数环境和场景中，该能量中一些会在到达收听者耳朵之前撞击一个或多个声学对象。声学对象通常可以是在其中材料性质与空气不同的空间区域(并且通常可以对应于真实世界场景中的物理对象或表示虚拟场景的物理对象的虚拟对象)。在这些元件的边界上，声阻抗产生了多个声学效应，如上所述，并且例如如图5中所图示。这样的声学效应通常可以是反射、透射、衍射(散射)以及吸收。

例如，多孔或柔性材料可以吸收和反射能量，但也会将能量中一些传递到其后面的空气。否则，听到窗帘后发生什么将是不可能的。

吸收的声音/能量能够由不同的转换效应引起。一些音频能量够消散并有效地转换为材料中的热能。然而，音频能量中的一些可以转换为材料的移动，并且因此可以转换为对应的对象/表面的振动。然而，尽管转换为热能的第一效应有效地意味着对应的音频能量从音频域/环境中移除，但第二效应可能导致另外的音频效应。

具体地，声学对象的振动能够导致空气由声学对象移动，并且因此导致声音的生成，包括在声学对象的远侧/遮挡侧。因此，音频到振动移动的转换可以跟随有该振动移动到声音的转换。此外，该声音的特性，包括例如空间范围和频率范围，可以实质上取决于声学对象的性质，并且可以与由直接透射产生的声音实质上不同。例如，对于相邻房间之间的声音传播，整个墙壁、门或其他对象能够振动，这使得定位更加困难，因为大区域产生声音，而不是相对小的声源。

图7图示了可能发生的不同效应之间的关系的示例。转换音频能量和振动/机械能量的效应被称为耦合，并且主要在建筑结构设计中考虑，以改进建筑的不同部分之间的隔音。不同声学效应针对给定声学对象发生的程度取决于声学对象的具体性质，包括声学对象的结构和材料或材料的组合。

在图1至图3的***中，生成数据信号以包括一个或多个声学对象的声学对象数据，所述声学对象数据包括声学对象的声学耦合数据和空间性质数据。声学耦合数据包括音频能量到振动能量的转换和/或振动能量到音频能量的转换的性质的指示。在许多情况下，声学耦合数据备选地或额外地可以包括声学对象的振动性能的指示，并且特别是振动效应如何在声学对象中传播和分布的指示。

此外，由音频渲染器200使用该数据来生成音频场景中的新音频源。因此，除了由接收到的数据描述的输入音频源之外，音频渲染器200的音频源生成器205被布置为根据来自至少第一输入音频源的音频的耦合生成对象音频源的对象音频源数据，该对象音频源数据表示由声学对象在音频场景中发射的音频。对象音频源数据可以具体包括描述所生成的音频的音频信号数据和指示所发射的音频的空间性质的空间数据。具体地，空间数据可以表示所生成的声音的位置和范围(空间分布)。

音频源生成器205基于针对声学对象接收的接收到的声学耦合数据和空间性质数据以及基于特定音频源和针对至少第一音频源的音频信号数据来生成对象音频源数据。

作为低复杂度示例，声学耦合数据可以包括耦合系数，该耦合系数指示经由耦合生成了多少音频信号能量，并且因此耦合系数可以指示当将来自第一音频源的音频能量转换为振动能量时并当将该振动能量转换为音频能量时的转换损失。因此可以生成具有对应于该能量的能量/水平的新源，例如简单地通过由耦合系数缩放第一音频源信号。可以生成针对该音频源的空间数据以反映基于声学对象的位置和/或空间范围确定的新源的位置和/或范围。所生成的新音频源的位置和/或空间范围/分布不同于由直接传输所产生的，并且取决于声学对象的空间性质(并且通常是机械性质)。具体地，在许多实施例中，新的音频源可以被生成为具有与声学对象的位置对应的位置并且具有与声学对象的大小对应的空间范围。例如，如果声学对象对应于墙壁，则可以生成新源以源自整个墙壁，即生成的新对象音频源的范围。

可以以与其他音频源的相同的方式渲染生成的对象音频源。对象音频源数据可以被馈送到渲染器203，渲染器203可以渲染对象音频源以便以所确定的特性并且具体地以所确定的位置和程度被感知。将意识到，已知多种不同的算法用于将音频源渲染为具有感知的位置和范围，并且可以使用任何合适的这种方法和算法。

特别是，有各种方法来创建音频源大小。这通常通过在超过一个位置处渲染声源信号的版本来实现。例如，来自收听位置的声学对象的感知空间区域的四个角落处的信号能量的四分之一。一些实施例可以在比声学对象的空间区域的四个角落更多(或更少)的位置和/或不同位置处渲染对象信号的版本，如由收听者所感知的。

作为具体的示例，图8图示了可以如何从收听位置看到墙壁或障碍物。可以认为从这样的墙壁产生的音频源自整个墙壁表面而不是仅来自单个点。这种感知可以例如通过在中心和每个角落处生成子音频源来生成，例如如由图8中X所指示。可以渲染这些子音频源中的每个以发射为对应于墙壁的声学对象确定的音频。在具体示例中，每个子音频源的水平例如可以是为该音频源确定的总水平的五分之一。此外，一些空间传播或扩散效应可以应用于渲染的音频(例如一些额外的混响或去相关滤波器(通常是具有随机相位响应的全通滤波器))。因此，组合效应可以导致感知到具有整个声学对象/墙壁801的大小的单个音频源。

在更高级的实施例中，声源信号的能量在声源信号的版本上不均匀分布，以具有根据接收到的声源最接近于声学对象之处来强调声学对象的特定区域。

音频渲染器200可以相应地根据声学对象的大小和位置引入具有空间范围的一个或多个新声源。新声源表示声学对象，其由于由另一声源生成的音频能量转变为声学对象的振动而产生声音。

在许多实施例中，可以考虑来自多个音频源的音频。实际上，可以考虑从两个音频源入射的来自声学对象的音频。例如，可以首先确定从两个不同的音频源入射在声学对象上的音频，例如通过叠加或射线跟踪或任何其他算法。然后可以如同其来自单个源的音频一样处理组合的音频，即其可以例如被转换成振动，振动行为可以被建模，并且得到的音频可以由此生成。

在其他实施例中，可以个体地处理个体音频源，并且可以组合得到的输出音频。因此，在一些实施例中，音频源生成器205可以根据来自第一音频源和第二音频源的音频的组合耦合来生成对象音频源数据以表示由声学对象在音频场景中发射的音频。

音频源生成器205具体可以通过将响应于声学耦合数据、空间性质数据和第一音频源的音频信号数据而生成的音频(信号)数据和响应于声学耦合数据、空间性质数据和第二音频源的音频信号数据而生成的音频(信号)数据叠加来做到这一点。

在许多实施例中，这样的组合对象音频源数据可以通过作为音频源信号中的一个或多个的滤波叠加而生成的音频源信号数据来生成，其中，滤波至少由声学对象的通常频率相关耦合系数来确定。

在所描述的***中，与声学对象相关联的耦合元数据被包括在表示音频场景的数据信号中。在许多实施例中，声学耦合数据可以表示针对到振动能量和/或来自振动能量的耦合的水平和/或频率响应。在许多实施例中，耦合元数据可以采取用于耦合的传递函数的形式。传递函数可以由一个或多个耦合系数表示，例如表示FIR或IIR滤波器的滤波器传递函数的一个或多个系数。在最简单的实施例中，传递函数可以是与频率无关的缩放，并且声学耦合数据可以例如仅包括单个耦合系数，其指示通过耦合过程从入射音频能量到生成的音频能量的信号能量的衰减。

因此，在一些实施例中，声学耦合数据针对给定声学对象可以包括单个系数，其指示对象音频源信号应当如何根据从音频信号生成器300接收的(一个或多个)音频源信号导出。例如：

其中，s_g,a是为声学对象a生成的对象音频源信号，D_r是接收到的音频源信号的集合，c_a是声学对象a的耦合系数，s_r,i是接收到的声源信号i，并且n是时间索引(例如时间样本)。在该示例中，因此通过个体贡献的叠加来考虑来自多个音频源的耦合的效应。

耦合系数可以对应于宽带耦合系数，即频率响应对于整个音频带可以是平坦的并且仅水平变化被考虑。然而，在大多数情况下，使用频率相关系数是有益的，例如低频下的耦合系数能够显著更高。另一示例是频率相关系数能够特别适于反射声学对象或声学对象的表面部件中的共振。

频率相关耦合系数可以作为滤波器提供，例如通过FIR(b_i)或IIR(b_i,a_j)滤波器的系数。

可以通过用滤波器系数对接收到的音频源信号进行滤波来获得对生成的对象音频源信号的贡献。例如，在频域中：

或时域中的FIR：

其中，*指代卷积。

备选地，可以为某些频带提供频率相关性耦合系数，其中，每个这样的参数带被定义在频谱的部分上。参数带可以根据FFT分箱、MDCT分箱或子带索引来定义。

在这样的方法中，在大多数实施例中，可以通过将每个参数带的标量耦合系数与对应的参数带中的所有FFT分箱或子带信号相乘来生成对象音频源信号。例如：

其中，b指代STFT分箱(或子带索引)，B(b)是返回给定STFT分箱(或子带索引)b的参数带索引的函数。

耦合系数的值通常在0和1之间，其中，0表示没有能量通过经由声学对象的耦合传递的情况，并且值为1指示完整的入射音频信号被转换为对象音频源信号。

所生成的对象音频源数据还可以包括通常可以表示生成的对象音频源的空间位置和/或范围的空间数据。该数据通常可以反映声学对象的空间数据，即特别是声学对象的位置和/或范围。然而，在一些实施例和情形中，其也可能取决于原始音频源的位置和/或范围。

在许多实施例中，对象音频源被生成为具有根据声学对象的空间范围确定的空间范围，并且具体地其可以确定为与声学对象相同。例如，对于墙壁，可以认为对应的对象音频源的音频是从整个墙壁辐射的。

在一些实施例中，所生成的对象音频源的范围可以由小于声学对象的范围的声学对象的表面的范围确定。这能够是因为该表面比声学对象的其他表面更倾向于响应于声学对象中的耦合或振动而生成音频。

类似地，在许多实施例中，对象音频源被生成为具有根据声学对象的空间位置确定的空间位置，并且具体地其可以确定为与声学对象相同。例如，对于一件家具，可以认为对应的对象音频源的音频是从这件家具的位置辐射的，而不是从原始音频源的位置辐射的。

作为一些具体示例，声学对象可以由其中心位置

和围绕中心位置的范围

表示。向量

中的三个值可以指示声学对象的框或椭圆体近似物的三个空间维度。维度

可以指示直接相对于坐标轴的维度，或者结合旋转数据

所述旋转数据指示维度上的后续偏航、俯仰和横滚角度。

备选地，位置向量

指示定义声学对象的范围或更具体地形状的起始位置。例如，多边形可以被用于通过设置多边形Q_i来定义声学对象的形状，每个多边形Q_i包括定义多边形的边的至少三个坐标对E_i,j＝{(e_x1,i,j,e_y1,i,j,e_z1,i,j),(e_x2,i,j,e_y2,i,j,e_z2,i,j)}。坐标对可以以绝对坐标或相对于位置向量来表示。

生成的对象音频源的空间性质可以直接从声学元件的空间范围中接管。例如，中心位置

以及由

和

表达的空间范围，或者备选地多边形描述Q_i。在声学对象由多边形描述的其他实施例中，维度可以从多边形定义导出并转变成不同的表示，例如向量

其中：

在一些实施例中，其中，针对每个多边形给出耦合数据，生成的音频源的空间范围可以仅由具有大于0的、描述振动到音频传递的耦合系数的多边形确定。

在一些实施例中，生成的对象音频源的空间性质可以仅取决于声学对象的空间性质。然而，在其他实施例中，空间性质还可以取决于音频源相对于声学对象的位置和/或渲染音频的收听位置。

这方面的一些示例可以包括由最靠近音频源的声学对象的部分确定的位置，或者由在生成耦合音频时最有效的面向音频源的表面(例如多边形)确定的位置。更具体地说，具有最高耦合系数的多边形描述振动到音频传递。备选地，位置可以由多边形位置的加权平均确定，所述多边形位置由它们相应的振动到音频耦合系数加权。

此处，多边形位置可以通过它们的平均位置来考虑，例如：

生成的音频源的空间性质能够取决于收听位置。可以选择生成的对象音频源的位置作为声学对象的最接近收听位置的点。生成的对象音频源的空间范围能够不依据绝对对象大小表达，而是依据二维感知范围表示，即面向收听位置的声学对象的宽度和高度。类似地，该感知的空间范围可以以两个角度表达，其指示从收听位置的角度的声学对象的相对高度和宽度。

备选地，位置和空间范围可由最直接面对收听位置的表面区域确定。例如，法向量

与由多边形的平均位置和收听位置之间的线确定的向量

最符合的多边形k的平均位置和范围。

其中，×是两个向量的叉积。

在其他实施例中，生成的对象音频源的空间性质取决于原始音频源位置和收听位置两者。例如，可以通过这样的点来确定位置：其中，原始音频源和收听位置之间的直线与最靠近收听位置的声学对象相交。然后可以相对于该位置定义生成的对象音频源的空间范围。

前面的描述已经聚焦在考虑耦合传递函数的情形，该耦合传递函数将生成的耦合音频信号与入射在声学对象上的音频相关，即反映音频转换为振动并且然后返回到音频的效应。

然而，在其他实施例中，可以提供耦合传递函数，其涉及将音频转换为声学对象的振动移动。备选地或额外地，可以提供耦合传递函数，其涉及将声学对象的振动移动转换为音频。

在许多实施例中，可以提供反映从音频到振动的耦合的输入耦合传递函数和反映从振动到音频的耦合的输出耦合传递函数。因此，可以提供由两部分组成的耦合元数据，其中，一个部分描述从传入音频信号到振动信号的转变，而第二部分描述从振动信号到音频信号的转变。在这种情况下，整体耦合效应/传递函数可以确定为输入和输出传递函数的组合，例如：

c_a＝c_a,a2v*c_a,v2a

其中，*指代(时域)卷积，并且c_a,a2v和c_a,v2a分别是表示输入耦合传递函数和输出耦合传递函数的时域滤波器。

提供个体部分传递函数的方法可以提供多个益处。音频源生成器205可以被布置为确定声学对象的振动，并且然后由此确定从对象音频源发射的音频。这可以允许更复杂和详细的考虑。

例如，在许多实施例中，音频源生成器205可以被布置为考虑声学对象的物理模型。物理模型可以是声学对象的机械性能和/或操作的模型。例如，其可以对声学对象的构造和配置以及其如何对振动作出反应进行建模。例如，该模型可以被布置为对振动如何在声学对象中分布和传播进行建模。

可以评价模型以确定声学对象中的振动，包括例如振动如何在***中被机械地阻尼。然后可以通过使用输出耦合传递函数来根据所确定的振动确定发射的音频来生成得到的音频。作为另一示例，该模型可以反映共振行为，并且例如对甚至在振动源结束后振动可能继续的振铃效应建模。

该方法可以具体地用于确定振动的空间分布和所得到的所发射音频的空间分布。例如，可以在声学对象的一个小区域处引起特定的振动，例如通过将高度定向的音频源聚焦在声学对象的小区域上(或例如音频源非常靠近声学对象的部分)。然后可以通过评价物理模型来确定遍及声学对象的振动效应。声学对象可以被分成更小的部分，并且对于每个部分可以确定平均振动，并且可以通过将输出耦合传递函数应用于该振动来确定对应的音频信号。以这种方式，因此可以生成反映由耦合生成的音频的空间分布的音频源。

在该示例中，导致生成音频的振动是音频到达声学对象的结果。然而，在其他实施例中，振动可能由其他源引起。具体地，在许多情形中，振动可以是由被施加到声学对象的时变力引起的振动。

事实上，物理交互(例如敲击等)也可以经由耦合效应将声学对象变成声源。例如：在墙壁上钻孔是可听的，因为墙壁制造大部分噪音，而不是钻孔自身。类似地，物理连接的场景对象之间也发生耦合(例如，使贯穿建筑物中能听到钻孔声)。

这可以通过将耦合系数分成指示传入能量的哪部分转变为振动能量的系数和描述振动能量与音频信号之间的关系的系数来建模。

声学对象的这种振动建模可以基于描述(物理)连接的声学对象之间的振动的传递的额外系数，并且因此该方法也可以被用于评价不同声学对象之间的机械相互作用。

因此，耦合系数可以表示从输入音频到输出音频的传递(在某种意义上，其将描述到达声学对象的声波的音频信号直接转变为由声学对象辐射出的音频信号)，但是其也可以被分成两个分量，其中，一个系数分量将传入声波的音频信号转变为声学对象中的振动信号，而另一将这些振动信号转变为由声学对象辐射出的音频信号。

这在更高级的实施例中很有用，其中，声学对象可以彼此接触，并且因此将振动信号从捕获其的元件传递到不直接暴露于声波的另一声学对象。例如，当一个房间内有响亮的音响***播放音乐时，隔壁房间可能会通过两个房间之间的墙壁听到音乐。然而，振动通常会传递到建筑结构的其他部分，导致其他房间的收听者听到音乐的低音，即使其墙壁、天花板和地板与音乐所在的房间并不直接相邻。

另一示例是(虚拟)便携式扬声器或电话在建模场景中播放音频。只要扬声器或电话与桌面接触，设备和桌面之间的耦合就强得多。这是因为存在从声源(扬声器)到其外壳的高度耦合。然而，外壳自身的振动几乎听不见，而这些振动通过接触非常有效地传递到桌面上。然后，桌面充当声板，所述声板将其振动转变为更响亮的辐射声。

因此，使用该中间步骤允许对声学对象之间的振动信号的传递进行建模，以用于音频环境的更逼真模拟。

在数据信号中提供的确切数据以及所使用的特定语法在不同实施例中可能不同。

例如，对于参数带数据，参数带定义可以是预定义的，或者在传输中指示。比特流字段可以指示若干预定义的带定义之一，或者可以在比特流中明确携带参数带定义作为频率、FFT分箱或子带索引方面的带边界或带宽。

支持带状频率系数和滤波器系数两者的示例比特流语法如下所示：

备选地，声学对象元数据，并且更具体地耦合系数元数据和任选地条带信息，可以在基于文本的文件中描述。例如，作为XML文件或JSON格式。

例如，声学元件3可以由中心位置

取向oriYaw＝0、oriPitch＝0、oriRoll＝0和维度

来定义。比特流字段parBands的对应值可以是1，并且bandDefIdx可以是0，其可以参考下表中的带化定义。

带索引	带起始频率(Hz)	带停止频率(Hz)
			0	0	30
1	30	100
			2	100	500
3	500	1000
			4	1000	2500
5	2500	8000
			6	8000	f<sub>s</sub>/2

比特流中的couplingCoeff的七个值可以如下表所指示。

带索引(即b)	couplingCoeff[b]	c<sub>3</sub>[b](dB)
			0	9	-9
1	18	-20
			2	20	-25
3	25	-50
			4	27	-Inf
5	27	-Inf
			6	27	-Inf

对于去量化值，使用来自下表的去量化向量。

设S_r,0为唯一活动音频源信号的STFT表示，表示位置

处的全向声源，而收听位置为

对于参数带b中的所有STFT分箱k，生成的音频对象源的信号通过下式计算：

与生成的音频对象源相关联的空间数据是中心位置

和维度

其取自声学对象。在上面的示例中，由于原始音频源与声学对象之间的距离导致的衰减以及由于生成的音频对象源与收听位置之间的距离导致的衰减被忽略。在实践中，信号的能量会分散在越来越大的波前区域上，导致通常与

成比例的衰减因子，其中，r为距声源的距离。这样的衰减增益可以基于声源、声学对象和收听位置的位置和维度来计算。

最后，在渲染器中，生成的信号将用频域HRTF(H_LEFT[k],H_RIGHT[k])进行渲染，例如通过对左右时域滤波器应用FFT获得的。

Y_LEFT[n,k]＝S_g,3[n,k]·H_LEFT[k]

Y_RIGHT[n,k]＝S_g,3[n,k]·H_RIGHT[k]

其中，Y_LEFT和Y_RIGHT是左右耳机扬声器的STFT域复信号。

所述方法可以在许多情形中提供改进的性能以及改进的渲染和表示。改进的性能可能例如常常在以下特定场景中实现：

-第一音频源在其直接路径中对于收听者被声学对象遮挡，但具有显著的通过空气的间接路径，第一音频源的能量的显著能量仍然经由所述路径到达收听者。

ο在这种情况下，声学对象成为额外的音频源，其与传输的音频和反射一起创建更逼真的音频环境渲染。

ο示例是房间分隔器，从收听者的角度来看，其后面放置了源。

-第一音频源对于收听者由一个或多个声学对象完全遮挡，而没有通过空气到收听者的显著路径。

ο在这种情况下，声学对象成为额外的音频源，其常常可以代替一个或多个音频源，并且因此创建音频环境的更逼真的渲染并降低计算复杂度。

ο示例是有两个相邻房间被墙壁和紧闭的门隔开的情形。

-第一音频源与声学对象直接接触。

ο在这种情况下，耦合系数不同于与声波的耦合，并且可能引起响度的放大，因为音频源的振动更直接地由声学对象接管。

ο范例是一种情形，其中，将扬声器(如播放音频的电话)放置到桌上，其中，桌充当声板。

-第一音频源对于收听者不由声学对象遮挡，而是将耦合能量引入到声学对象中。

ο在这种情况下，声学对象变成额外的音频源，其创建了第一音频源的感知加宽。

将认识到，为了清楚性，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，将明显的是，在不减损本发明的情况下，可以使用不同的功能电路、单元或者处理器之间的功能性的任何适合的分布。例如，被图示为由分离的处理器或者控制器执行的功能性可以由相同处理器或者控制器执行。因此，对特定功能单元或者电路的引用仅将被看作对用于提供所描述的功能性而不是指示严格逻辑或者物理结构或者组织的适合的装置的引用。

本发明可以以任何适合的形式来实施，包括硬件、软件、固件或者这些的任何组合。本发明可以可选地至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何适合的方式物理地、功能地和逻辑地实施。实际上，功能可以被实施在单个单元中、在多个单元中或者作为其他功能单元的一部分。因此，本发明可以被实施在单个单元中或者可以物理地并且功能上被分布在不同的单元、电路和处理器之间。

虽然本发明已经结合一些实施例描述，但是其不旨在限于本文阐述的特定形式。相反，本发明的范围仅由附图限制。此外，虽然特征可能看起来结合特定实施例描述，但是本领域的技术人员将意识到，所描述的实施例的各种特征可以根据本发明进行组合。在权利要求中，术语包括不排除其他元件或者步骤的存在。

此外，虽然单独地列出，但是多个装置、元件、电路或方法步骤可以通过例如单个电路、单元或者处理器实施。此外，虽然单独特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且不同的权利要求中的包括不暗示特征的组合不是可行的和/或有利的。而且，一个类别的权利要求中的特征的包括不暗示对该类别的限制，而是相反指示特征同样地酌情适用于其他权利要求类别。此外，权利要求中的特征的次序不暗示特征必须工作的任何特定次序，并且特别地，方法权利要求中的单独步骤的次序不暗示步骤必须以该次序执行。相反，步骤可以以任何适合的次序执行。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供为澄清范例，而不应当被解释为以任何方式限制权利要求的范围。

Claims

1.一种音频装置，包括：

接收器(201)，其用于接收包括针对音频场景的数据的信号，所述数据包括针对至少第一音频源的输入音频源数据和针对所述音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对所述声学对象的声学耦合数据和空间性质数据，其中，针对所述声学对象的所述声学耦合数据指示针对所述声学对象的音频能量到振动/机械能量的转换和/或振动/机械能量到音频能量的转换的性质；

生成器(205)，其用于根据来自所述第一音频源的音频的耦合来生成针对对象音频源的对象音频源数据，所述对象音频源数据表示由所述声学对象在所述音频场景中发射的音频，所述生成器(205)被布置为响应于所述声学耦合数据、所述空间性质数据和所述输入音频源数据而生成所述对象音频源数据；以及

渲染器(203)，其用于渲染所述音频场景，所述渲染包括渲染所述对象音频源数据。

2.根据权利要求1所述的音频装置，其中，所述生成器(205)被布置为生成所述对象音频源数据以表示具有响应于所述空间性质数据而确定的空间范围的所述对象音频源。

3.根据权利要求1或2所述的音频装置，其中，所述生成器(205)被布置为响应于所述声学耦合数据而确定针对所述对象音频源数据的音频的音频水平和频率响应中的至少一项。

4.根据任一项前述权利要求所述的音频装置，其中，所述声学耦合数据包括针对所述声学对象的第一组耦合系数，所述一组耦合系数指示针对所述声学对象的耦合传递函数。

5.根据权利要求4所述的音频装置，其中，所述耦合传递函数是从所述声学对象的振动到从所述声学对象发射的音频的。

6.根据权利要求5所述的音频装置，其中，所述生成器(205)被布置为根据所述音频对象的振动和所述耦合传递函数来生成表示由所述声学对象在所述音频场景中发射的音频的对象音频源数据。

7.根据权利要求6所述的音频装置，其中，所述生成器(205)被布置为响应于所述声学对象的物理模型而确定所述振动。

8.根据权利要求6或7所述的音频装置，其中，所述生成器(205)被布置为响应于被施加到所述声学对象的时变力而确定所述振动。

9.根据权利要求4所述的音频装置，其中，所述耦合传递函数是从入射在所述声学对象上的音频到所述声学对象的振动的。

10.根据权利要求1所述的音频装置，其中，所述生成器(205)被布置为生成所述对象音频源数据以表示具有与由所述空间性质数据指示的所述声学对象的位置相对应的空间位置的所述对象音频源。

11.根据任一项前述权利要求所述的音频装置，其中，所述生成器(205)被布置为响应于所述第一音频源的位置和由所述空间性质数据指示的所述声学对象的位置而生成所述对象音频源数据。

12.根据任一项前述权利要求所述的音频装置，其中，所述生成器(205)被布置为响应于收听位置和由所述空间性质数据指示的所述声学对象的位置而生成所述对象音频源数据。

13.根据任一项前述权利要求所述的音频装置，其中，所述信号包括针对第二音频源的输入音频源数据，并且所述生成器(205)被布置为根据来自所述第一音频源和所述第二音频源的音频的组合耦合来生成所述对象音频源数据以表示由所述声学对象在所述音频场景中发射的音频。

14.一种音频装置，包括：

数据生成器(301)，其用于生成针对音频场景的数据，所述数据包括针对至少第一音频源的输入音频源数据和针对所述音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对所述声学对象的声学耦合数据和空间性质数据，其中，针对所述声学对象的所述声学耦合数据指示针对所述声学对象的音频能量到振动/机械能量的转换和/或振动/机械能量到音频能量的转换的性质；

信号生成器(303)，其用于生成包括针对所述音频场景的所述数据的数据信号；以及

发射器(305)，其用于发送所述数据信号。

15.一种处理音频的方法，所述方法包括：

接收包括针对音频场景的数据的信号，所述数据包括针对至少第一音频源的输入音频源数据和针对所述音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对所述声学对象的声学耦合数据和空间性质数据，其中，针对所述声学对象的所述声学耦合数据指示针对所述声学对象的音频能量到振动/机械能量的转换和/或振动/机械能量到音频能量的转换的性质；

根据来自所述第一音频源的音频的耦合来生成针对对象音频源的对象音频源数据，所述对象音频源数据表示由所述声学对象在所述音频场景中发射的音频，所述生成器被布置为响应于所述声学耦合数据、所述空间性质数据和所述输入音频源数据而生成所述对象音频源数据；并且

渲染所述音频场景，所述渲染包括渲染所述对象音频源数据。

16.一种生成音频数据信号的方法，所述方法包括：

生成针对音频场景的数据，所述数据包括针对至少第一音频源的输入音频源数据和针对所述音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对所述声学对象的声学耦合数据和空间性质数据，其中，针对所述声学对象的所述声学耦合数据指示针对所述声学对象的音频能量到振动/机械能量的转换和/或振动/机械能量到音频能量的转换的性质；

生成包括针对所述音频场景的所述数据的所述音频数据信号；以及

发送所述音频数据信号。

17.一种音频数据信号，包括针对音频场景的数据，所述数据包括针对至少第一音频源的输入音频源数据和针对所述音频场景中的至少一个声学对象的声学对象数据，所述声学对象数据包括针对所述声学对象的声学耦合数据和空间性质数据，其中，针对所述声学对象的所述声学耦合数据指示针对所述声学对象的音频能量到振动/机械能量的转换和/或振动/机械能量到音频能量的转换的性质。

18.一种包括计算机程序代码模块的计算机程序产品，所述计算机程序代码模块适于当所述程序在计算机上运行时执行权利要求15或16的所有步骤。