CN106416304A

CN106416304A - 针对家庭音频的增强的空间印象

Info

Publication number: CN106416304A
Application number: CN201580004890.6A
Authority: CN
Inventors: N·拉古范希; D·莫里斯; A·D·威尔森; 芮勇; D·S·谭; J·M·温
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-01-18
Filing date: 2015-01-13
Publication date: 2017-02-15
Anticipated expiration: 2035-01-13
Also published as: US9560445B2; EP3095254A1; WO2015108824A1; CN106416304B; US20150208166A1; EP3095254B1

Abstract

本文描述了有关向多个收听者中的每个收听者提供定制化音频的技术。传感器输出指示环境中的多个收听者的位置的数据。该数据被处理以确定环境中的多个收听者的相应的头部的位置和定向。基于环境中的收听者的头部的位置和定向，针对每个收听者生成相应的定制化音频信号。定制化音频信号被传输给相应的波束成形换能器。所述波束成形换能器基于定制化音频信号和收听者的头部的位置，定向地输出针对第一收听者和第二收听者的定制化波束。

Description

针对家庭音频的增强的空间印象

背景技术

家庭的起居室负责人们消费的大部分视听体验，例如游戏、电影和音乐等。虽然已经存在针对家庭的视觉显示的显著关注，例如高分辨率屏幕、大屏幕、投影表面等，但是在听觉显示中存在重大的未开发领域。具体地，在上文提及的全部媒体中，音频的设计者在头脑中创建具有具体听觉体验的内容。然而，在典型的起居室中设置的扬声器和声学条件离理想很远。也就是说，房间使用它自身的声学效果修改了音频内容的意图的声学效果，这可以显著地减少音景(soundscape)的沉浸，因为无意的(并且意想不到的)声学效果与音频的设计者的原始意图混合。该不希望的修改取决于扬声器的放置、房间的几何形状、房间的陈设、墙壁材料等。例如，听觉设计者可能希望收听者感觉如同他们位于大森林中。然而由于传统扬声器的点-源性质，收听者通常感知到该森林噪声来自扬声器。因此，电影中的大森林听上去如同其位于起居室内部，而非收听者具有位于大森林中间的听觉体验。

通常，可以由所谓的脉冲响应来数学地捕获空间的声学效果，该脉冲响应是当在空间中的源点处播放脉冲时在收听者点处接收到的时间信号。双耳脉冲响应是在两个耳道的入口处的脉冲响应集，一个脉冲响应针对收听者的每个耳朵。随着时间前进，脉冲响应包括三个不同阶段：1)初始接收到的直接声音；接着2)不同的早期反射；接着3)散射的晚期混响。虽然直接声音向收听者提供强方向性提示，但是是早期反射和晚期混响的相互作用给予人类听觉空间和大小的感受。早期反射的特征通常在于叠加在包括多个低能量峰值的散射背景上的相对少数的强峰值。散射能量的比率在早期反射的过程中增加，直到仅存在散射能量，这标志着晚期混响的开始。晚期混响可以被建模为具有在时间上衰减的能量包络的高斯噪声。

为了使得晚期混响使人信服，晚期混响中的高斯噪声理想地在收听者的两个耳朵之间被去相关。然而，在传统扬声器设置的情况下，即使从扬声器发出的晚期混响相互被去相关，针对任何给定扬声器的双耳响应也在两个耳朵之间相关，因为两个耳朵从扬声器接收到相同声音(除了由头部和肩膀的声学过滤)。因为这对于房间中的全部扬声器都发生，因此净效果是在原始意图的听觉图像与受限于扬声器内部或房间内的小空间之间的某处的混合听觉图像。

被称为串音消除的技术已经用于解决与传统音频***相关联的缺点中的一些。通常，串音消除已经用于允许双耳记录(使用耳朵中的麦克风进行的并且意图用于耳机的记录)以通过扬声器回放。串音消除方法接收要通过左扬声器播放的信号的一部分，并且以特定延迟(和相位)将这样的部分馈送到右扬声器，使得其与实际右扬声器信号组合，并且因此消除去往左耳的音频信号的部分。然而，传统***将收听者的位置限制为相对小的空间。如果收听者改变位置，则生成伪象(artifact)，负面地影响收听者关于呈现的音频的体验。

发明内容

下文是在本文中更详细地描述的主题的简要概述。该概述不意图限制权利要求的范围。

文本描述的是有关改进关于向收听者发出的音频的收听者体验的各种技术，使得向收听者提供更沉浸式的体验。如本文将更详细地描述的，波束成形、串音消除以及位置和定向跟踪的组合可以用于向收听者提供沉浸式听觉体验。音频***包括至少两个波束成形换能器，本文中被称为“左波束成形换能器”和“右波束成形换能器”。每个波束成形换能器可以包括相应的多个扬声器。波束成形换能器能够被配置为定向地传输音频波束，其中从波束成形换能器发出的音频波束可以具有受控的直径(例如，至少用于相对高的频率)。因此，例如，波束成形换能器可以在三维空间中将音频波束朝着特定位置进行定向。

在示例性实施例中，传感器可以被配置为监测相对于左和右波束成形换能器的区域。例如，左和右波束成形换能器可以位于起居室中，并且传感器可以被配置为监测人类(收听者)的起居室。传感器被配置为识别区域中的收听者的存在，并且进一步识别区域中相应的收听者(相对于左和右波束成形换能器)的位置。更具体地，传感器可以被配置为识别在由传感器监测的区域中相应的收听者的头部的位置和定向。相应地，传感器可以被用于识别在感兴趣区域中的收听者的头部的三维位置和这样的头部的定向。在另一示例性实施例中，传感器可以用于识别在感兴趣区域中的收听者的耳朵的位置和定向。

例如机顶盒、游戏控制台、电视、音频接收器等的计算装置可以接收或计算理想地由区域中收听者的左耳(并且仅左耳)听到的左音频信号，以及理想地由区域中收听者的右耳(并且仅右耳)听到的右音频信号。基于区域中收听者的头部的位置和定向，计算装置可以创建针对每个收听者的相应的定制化的左和右音频信号。具体地，在示例性实施例中，针对在区域中识别出的每个收听者，计算装置可以使用适当的串音消除算法修改他们相应的左和右音频信号。更具体地，因为区域中第一收听者的头部的位置和定向是已知的，因此计算装置可以使用适当的串音消除算法来修改针对第一收听者的左音频信号和右音频信号，从而生成针对第一收听者的相应的经修改的左和右音频信号。针对第二收听者(和其他收听者)可以重复该过程。例如，随着第二收听者的头部的位置和定向已知(基于传感器的输出)，计算装置可以使用串音消除算法来修改针对第二收听者的左音频信号和右音频信号，因此创建针对第二收听者的经修改的左和右音频信号。

计算装置可以向左波束成形换能器传输针对第一用户的经修改的左音频信号，以及第一用户的头部的位置。计算装置可以与第一收听者的头部的位置一起，向右波束成形换能器附加地传输第一收听者的经修改的右音频信号。左波束成形换能器基于针对第一收听者的经修改的左音频信号和第一收听者的头部的位置，向第一收听者定向地传输左音频波束。类似地，右波束成形换能器基于针对第一收听者的经修改的右音频信号和第一收听者的头部的位置，向第一收听者定向地传输右音频波束。该过程还可以针对第二收听者被执行，使得向第二收听者提供相应地来自左和右波束成形换能器的左和右音频波束。针对每个收听者执行串音消除(基于相应的收听者的头部的位置和定向)，并且向每个收听者提供定向(受约束的)音频波束，第一和第二收听者可以具有佩戴耳机的感知，使得音频在收听者的耳朵处被去相关，从而向每个收听者提供了更沉浸式的听觉体验。

上文的概述呈现简化的概述以便提供对本文讨论的***和/或方法的某些方面的基本理解。该概述不是本文讨论的***和/或方法的扩展性综述。其不意图识别重要/关键元件或勾画这样的***和/或方法的范围。其目的仅在于以简化的形式来呈现一些概念来作为稍后呈现的更详细的描述的前言。

附图说明

图1图示被配置为采用串音消除和波束成形的组合以减少由环境中的收听者体验的晚期混响的***。

图2图示用于向在环境中的两个不同位置处的两个不同收听者提供音频波束的示例性***。

图3图示被配置为基于环境中的收听者的位置来处理音频并且向至少一个收听者输出音频的示例性波束成形换能器集合。

图4图示示例性扬声器装置。

图5图示用于利用串音消除和波束成形的组合来改进环境中的多个用户的音频体验的示例性方法。

图6和7描绘图示可以被实现在扬声器装置处以用于向环境中的收听者提供音频的示例性方法的流程图。

图8是示例性计算装置。

具体实施方式

现在参考附图描述关于改进环境中的收听者的听觉体验的各种技术，其中通篇类似参考标号用于指代类似元件。在下文的描述中，为了说明目的而阐述了多个具体细节，以便提供对一个或多个方面的透彻理解。然而，明显的是一个或多个这样的方面可以在没有这些具体细节的情况下实现。在其他实例中，以框图形式示出所熟知的结构和设备，以便有助于描述一个或多个方面。此外，应理解被描述为由单个***组件进行的功能可以由多个组件执行。类似地，例如，单个组件可以被配置为执行被描述为由多个组件进行的功能。

此外，术语“或”意图意指包含性的“或”而非排他性的“或”。也就是说，除非另外指出，或根据上下文是清楚的，表述“X采用A或B”意图意指任何自然包含性的置换。也就是说，表述“X采用A或B”被任何下列实例满足：X采用A；X采用B；或者X采用A和B两者。此外，在本申请以及所附权利要求中使用的冠词“一”和“一个”通常应被解释为意指“一个或多个”，除非另外指出或根据上下文清楚针对单数形式。

此外，如本文所使用的，术语“组件”和“***”意图包含用计算机可执行指令配置的计算机可读数据存储器，当计算机可执行指令由处理器执行时，该指令促使特定功能被执行。计算机可执行指令可以包括例程或函数等。此外，术语“组件”和“***”意图涵盖被配置为执行特定功能的电路装置(例如，专用集成电路、现场可编程门阵列等)。还应理解，组件或***可以被本地化在单个设备上或分布在若干设备上。此外，如本文所使用的，术语“示例性”意图意指用作某些事物的说明或示例，并且不意图指示偏好。

现在参考图1，图示了包括音频***102的环境100。虽然环境100在本文中被描述为起居室，但是应理解环境100还可以是汽车内部、电影院或室外场地等。音频***102包括计算装置104，其可以是或包括任何计算装置，该计算装置包括用于处理音频信号的适当电子器件。例如，计算装置104可以是音频接收器设备、机顶盒、游戏控制台、电视、传统计算装置、移动电话、平板计算设备、平板手机计算设备或可穿戴设备等。第一波束成形换能器106和第二波束成形换能器108与计算装置104通信。第一波束成形换能器106可以被称为“左波束成形换能器”，而第二波束成形换能器108可以被称为“右波束成形换能器”。虽然计算装置104被示出为仅与两个波束成形换能器106和108通信，应理解在其他实施例中，环境100可以包括与计算装置104通信的更多个波束成形换能器。术语“波束成形换能器”指代电声换能器，其能够生成高方向性的声场，并且能够进一步生成在不同方向上传播的多个这样的场的叠加，每个这样的场携带对应的声音信号。

在示例性实施例中，波束成形换能器106和108中的每个包括相应的多个扬声器，所述扬声器被配置为具有有助于上文提及的定向声场的生成的数字信号处理(DSP)功能。在示例性实施例中，每个波束成形换能器可以具有小于1米的长度，并且可以包括位置尽可能地彼此接近的多个扬声器。在另一示例性实施例中，波束成形换能器106和108可以使用声学信号作为载波，并且可以具有近似1英尺的长度。

因此，例如，第一波束成形换能器106可以向环境100中的相应的多个位置输出多个方向性音频波束。类似地，第二波束成形换能器108可以向环境100中的相应的多个位置输出多个方向性音频波束。音频***102还可以包括传感器110，所述传感器110被配置为输出指示在环境100中的收听者的头部的位置和定向的数据。更具体地，传感器110可以被配置为输出指示在环境100中的收听者的相应的耳朵的三维位置的数据。因此，例如，传感器110可以是或者包括相机、立体相机、深度传感器等。在另一示例性实施例中，环境100中的收听者可以在其上具有例如眼镜、珠宝等的可穿戴计算设备，该可穿戴计算设备可以指示他们相应的头部(和/或耳朵)在环境100中的位置。

图1中，环境100被示出为包括第一收听者112和第二收听者114，其收听由波束成形换能器106和108输出的音频。然而，应理解本文描述的多个方面不限于存在两个收听者。例如，环境100可以包括单个收听者或者三个或更多个收听者。

在示例中，传感器100可以捕获有关环境100的数据，并且可以输出相应地指示第一收听者112和第二收听者114的耳朵(和头部旋转)的位置的数据。计算装置104可以接收音频描述符，其中音频描述符表示要向收听者112和114呈现的音频。音频描述符可以包括表示理想地由第一波束成形换能器106输出的音频的左音频信号以及表示理想地由第二波束成形换能器108输出的音频的右音频信号。

如本文所述，音频***102可以被配置为向第一收听者112和第二收听者114提供与传统音频***相比更沉浸式的音频体验。如上所述，传感器110被配置为扫描环境100以求其中的收听者。在图1中示出的示例中，传感器110可以输出指示环境100包括两个收听者的输出；第一收听者112和第二收听者114。传感器110还可以输出相应地指示第一收听者112和第二收听者114的头部的位置和定向的数据。进一步地，传感器110可以具有适当的分辨率，以输出可以被分析以识别环境100中的第一收听者112和第二收听者114中的每个的精确位置的数据。在另一示例中，可以识别收听者112和114的相应的头部的姿势，并且可以基于头部姿势估计收听者112和114的耳朵的位置。由传感器110输出的数据可以是深度数据、视频数据或立体图像数据等。应理解可以采用任何适当的定位技术来相应地检测收听者112和114的头部(和/或耳朵)的位置和定向。

计算装置104处理表示要向第一收听者112和第二收听者114提供的音频的(立体)音频信号，其中这样的处理可以基于计算装置104确定环境100包括两个收听者。计算装置可以相应地基于第一收听者112和第二收听者114的头部的位置和定向，附加地(动态地)处理音频信号。如上文指示的，音频信号包括左音频信号和右音频信号，其可以是不相同的。响应于检测到环境100包括两个收听者112和114，计算装置104可以相应地生成针对收听者112和114中的每个的左和右音频信号。更具体地，计算装置104可以创建针对第一收听者112的左音频信号和右音频信号，以及针对第二收听者114的左音频信号和右音频信号。然后，计算装置104可以基于环境100中的他们的头部的相应的位置和定向，相应地处理针对收听者112和114中的每个的左和右音频信号。

关于第一收听者114，计算装置104可以使用适当的串音消除算法来动态地修改针对第一收听者112的左音频信号和右音频信号，其中这样的修改基于第一收听者112的头部的位置和定向。串音消除算法被配置为减少由来自单个源的、到达第一收听者112的两个耳朵的晚期混响所引起的串音。通常，理想的是第一收听者112(当面向音频***102时)的左耳听到由第一收听者112左边的扬声器输出的音频，而不听到由第一收听者112右边的扬声器输出的音频。类似地，理想的是第二收听者114(当面向音频***102时)的右耳听到由第二收听者114右边的扬声器输出的音频，而不听到由第二收听者114左边的扬声器输出的音频。使用适当的串音消除算法，计算装置104可以基于环境100中的第一收听者112的头部(耳朵)的位置和定向，修改针对第一收听者112的左音频信号和右音频信号(假定第一波束成形换能器106和第二波束成形换能器108的位置是已知的和固定的)。这样的经修改的左和右音频信号可以与识别环境100中的第一收听者112的头部的位置的数据一起，相应地被提供到第一波束成形换能器106和第二波束成形换能器108。

如上所述，第一波束成形换能器106和第二波束成形换能器108包括相应的多个扬声器。因此，第一波束成形换能器106可以接收针对第一收听者112的经修改的左音频信号，以及环境100中的第一收听者112的头部的位置。响应于接收到经修改的左音频信号和第一收听者112的头部(相对于第一波束成形换能器106)的位置，第一波束成形换能器106可以向第一收听者112定向地(并且以受约束的直径)发出音频流。类似地，第二波束成形换能器108可以接收针对第一收听者112的经修改的右音频信号，以及环境100中的第一收听者112的头部(相对于第二波束成形换能器108)的位置。响应于接收到经修改的右音频信号和第一收听者112的头部的位置，第二波束成形换能器108可以向第一收听者112定向地(并且以受约束的直径)发出音频流。以这样的方式，波束成形可以有效地在收听者112的头部周围创建音频“泡”，以使得第一收听者112感知到佩戴耳机的体验，而不在实际上不得不佩戴耳机。

计算装置104可以针对第二收听者114(同时地)执行类似操作。具体地，计算装置104基于环境100中的第二收听者114的头部(耳朵)的位置，可以利用串音消除算法修改针对第二收听者114的左和右音频信号。计算装置104相应地向第一波束成形换能器106和第二波束成形换能器108传输针对第二收听者114的经修改的左和右音频信号。再次，这可以在第二收听者114的头部周围创建音频“泡”，使得第二收听者114感知到佩戴耳机的体验，而不在实际上不得不佩戴耳机。因此，第一收听者112和第二收听者114都可以具有佩戴耳机的听觉体验，而没有可以与其相关联的社交尴尬。

总之，计算装置104然后可以接收包括左信号(S_L)和右信号(R_L)的立体信号。基于由传感器110输出的信号，计算装置104可以计算第一收听者112的视角方向和头部位置。然后，基于第一收听者112的视角方向和头部位置，计算装置104可以利用串音消除算法来确定要由波束成形换能器106和108输出的信号。例如，针对第一收听者，计算装置104可以将线性滤波器应用于S_L并且将线性滤波器应用于S_R，导致形成S_L1和S_R1。S_L1和S_R1被相应地传输给第一和第二波束成形换能器106和108，以及关于要由这样的换能器输出的音频波束的方向的信息被传输给第一和第二波束成形换能器106和108。波束成形换能器106和108然后向第一收听者112相应地定向地发出S_L1和S_R1。该过程可以针对第二收听者114(以及可以在环境100中的其他收听者)同时地被执行。

在另一示例中，***100可以被配置为向收听者112和114提供相应的定制化三维音频体验。例如，如果紧靠第一收听者112左边的盘子被打碎，则收听者112和114将不同地感知到由盘子打碎引起的声音。也就是说，第一收听者112可以基于盘子打碎的声音探明盘子打碎在紧靠第一收听者的附近发生，而第二收听者114可以探明盘子在更远处打碎。计算装置104可以被配置为处理音频信号，以使得收听者112和114根据环境100中的收听者112和114的位置而具有关于音频的不同空间体验。因此，计算装置104可以处理音频信号以促使第一左音频信号和第一右音频信号基于第一收听者112的头部位置和定向而被相应地传输给第一波束成形换能器106和第二波束成形换能器108。波束成形换能器106和108中的波束成形扬声器可以发出通过针对第一收听者112的定制化空间体验的相应的音频波束(例如，以使得盘子打碎的声音好像靠近第一收听者112)。同时，计算装置104可以处理音频信号以促使第二左音频信号和第二右音频信号基于第二收听者114的头部位置和定向而被相应地传输给第一波束成形换能器106和第二波束成形换能器108。为了提供定制化的空间体验，计算装置104可以计算针对收听者112和114的相应的线性滤波器集合，其中由计算装置104针对第一收听者112计算的第一线性滤波器集合被配置为(根据第一收听者112的头部的位置和头部的定向)向第一收听者112提供第一定制化空间体验，而第二线性滤波器集合被配置为(根据第二收听者114的头部的位置和头部的定向)向第二收听者114提供第二定制化空间体验。波束成形换能器106和108可以发出提供针对第二收听者114的定制化空间体验的相应音频波束(例如，以使得盘子打碎的声音好像离第二收听者114较远)。

虽然环境100已经被示出和描述为包括第一收听者112和第二收听者114，但是应理解当单个收听者在环境100中时或当多于两个收听者在环境100中时，可以执行上文描述的功能。此外，(如上文提及的)附加地或可替换地执行波束成形和串音消除功能，计算装置104可以执行音频处理以向一个或多个收听者(例如，收听者112和114)提供定制化感知效果。例如，计算装置104可以确定第一收听者112的位置并且处理音频信号以生成特定早期反射，从而合成针对第一收听者112的特定空间听觉体验。因此，计算装置104可以处理音频信号以使得第一收听者112(听觉地)感知到第一收听者112处于大教堂中的特定位置处、大会议室中、报告厅中等。类似地，计算装置104可以处理音频信号以使得第一收听者112感知与环境100的自然混响时间和幅度不同的特定混响时间和混响幅度。再次地，通过使用波束成形换能器和位置跟踪，可以向环境100中的多个收听者同时地提供个性化空间效果。此外，应理解计算装置104可以基于确定的收听者112-114的头部的位置和定向来动态地执行上文描述的处理。因此，随着收听者112和114在环境100中移动，计算装置104可以动态地处理音频信号以执行串音消除和/或提供个性化感知效果。

现在阐述有关通过使用音频***102使能的空间效果的各种示例性细节。音频***102可以使得环境100中的每个收听者的每个耳朵接收具有至少20dB信噪比的音频信号。要向收听者呈现的音频媒体可以被编码以使得该媒体包括关于在多个球形方向(例如，按照若干度数分开)上的方向和在耳朵处要从该方向接收的声音的信息。此外，音频媒体不需要使得场景的声学效果已经被应用到声音源，而是相反可以与声音分开地包括声学滤波器。因此，音频***102可以执行广泛的操纵以向环境100中的收听者提供定制化空间音频感知。这可以通过各种信号处理步骤实现，其可以包括下列步骤：1)基于用于操纵空间感受的应用特定需求，其可以考虑到真实的头部位置、定向、(可选的)用户输入、或其他应用特定需求，计算装置104可以计算和/或修改针对每个单独的收听者的双耳声学滤波器，其中声学滤波器捕获针对特定收听者的空间体验。应理解滤波器可以随着特定收听者的头部位置变化而动态地变化。此外，计算装置104可以接收有关由收听者感知(例如，由收听者的移动计算设备的麦克风捕获)的音频的信息，并且可以根据在收听者附近捕获的实际声音来计算和/或修改声学滤波器。2)计算装置104可以接收记录的和/或生成的音频信息以用于输出到环境100中，并且针对环境中的每个收听者，将这样的信息与适当滤波器进行卷积以创建针对每个收听者的定制化双耳信号。3)音频***102将双耳信号传递到环境100中的收听者。

因此，可以注意到可以向环境100中的不同收听者提供不同空间效果，其中声音源是共用的。例如来自房间反射、波束重叠或不完美波束成形的到达环境100中的收听者的耳朵的不想要的信号即使被不同地空间化，也包括相同声音源信号；因此，这些不想要的信号可以引起空间效果中的某种混合(例如将虚拟声音源感知为具有两个位置)，与听到叠加在意图的音频上的完全不同的声音相比，其较不令人困惑。

现在阐述可以由音频***102实现的示例性定制化空间效果。在第一示例性空间效果中，可以对音频进行个性化修改以提供主观的音频体验。计算装置104可以被配置为(针对特定收听者)计算晚期混响滤波器，通过该晚期混响滤波器要由音频***102发出到环境100中的全部音频被滤波。音频***102可以因此给出相对高质量的沉浸式晚期混响，其中由于左和右信号之间的去相关而实现沉浸(因为已知大脑将其解释为来自多个随机方向的波前)。通过操纵早期衰减时间、散射以及早期反射中的直接与反射声音之间的延迟，可以控制声学效果的亲密度和暖度。例如，可以基于用户输入计算晚期混响滤波器，其中环境100中的每个收听者可以指定对声学参数的百分比修改，以将体验修改为他们个体的品味。例如，第一收听者112和第二收听者114可以同时地在环境100中享受相同音乐、电影或媒体，并且可以选择不同声学效果(例如，一个收听者偏好温暖的、类似录音棚的声音，而另一个收听者偏好音乐厅声音)。此外，收听者112和114可以促使计算装置104保留收听偏好，并且可以分析由传感器110输出的信号以识别收听者112和114，并且他们相应的音频偏好可以被用于提供针对收听者的定制化听觉体验。此外，设想了收听环境的库，其中每个收听者可以选择期望的收听环境。继续阐述该示例，第一收听者112可以指示她希望就像她处于室外音乐会场地处一样地体验音频，而第二收听者114可以指示她希望就像她处于电影院处一样地体验音频。示例性库可以包括多个潜在位置，例如“大教堂”、“室外音乐会场地”、“体育场”、“开阔场地”和“会议室”等。库还可以允许收听者指定特定环境中的相对精确的位置，例如“剧院的包厢”。收听者112和114还可以指定针对双耳滤波器的值，使得可以向环境中的多个收听者提供他们自己的定制化空间体验。

在第二示例性空间效果中，听觉体验可以单独地、和与另一人共享地(同时地)来体验。在示例性应用中，一个人可以希望传达其中每个人都被沉浸的共用空间，但是同时针对虚拟声场的某些方面提供个体化的声学效果。音频***102可以被配置为使能这样的应用，因为计算装置104可以生成共用晚期混响双耳信号(对环境中的全部收听者是共用的)以及个体化的直接和/或反射双耳信号(使得每个收听者接收相应的定制化直接双耳信号和相应的定制化反射双耳信号)。对共享空间的感知基于对晚期混响十分根据全局环境，而直接和早期反射分量取决于全局环境中的位置(例如，全局环境的场景)的观察。例如耳机的传统方式引起真实声音的听觉闭塞，因此创建隔离的体验。传统的环绕声***可以用于创建共享的体验，但是不能够产生个体化的声学效果。

在示例中，朋友们可以坐在起居室中以分屏模式玩第一人称3D计算机游戏。朋友们当中的每个人可以位于相同虚拟空间中(例如，城市街道峡谷)，在计算机游戏中合作对抗敌人。对于该场景，音频***102的计算装置104可以生成要向起居室中的全部人呈现的共用双耳信号，其中共用双耳信号被配置为合成共享虚拟空间中的晚期混响。共用双耳信号被提供到环境中的全部收听者，使得向收听者提供被沉浸在相同空间中的体验。同时，计算装置104可以针对玩家单独地生成适当空间化的直接和反射双耳声音信号(取决于他们相对于虚拟空间的位置和定向)，因此同时地向他们提供在他们之间不同的个体化的空间源位置和滤波器提示，以传达他们在游戏中相应的状态。例如，在游戏中，第一玩家可以正躲避在障碍物之后，而第二玩家正站在户外。音频***102可以被配置为向第一玩家提供与被定向给第二玩家的声音相比而言压低的直接声音。

现在参考图2，图示了音频***102的功能框图。音频***102包括计算装置104，该计算装置104具有由其处理的音频描述符202。计算装置104可以包括处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上***(SoC)、或用于处理音频描述符202的其他适当电子电路。在示例性实施例中，音频描述符202可以是在计算装置104的存储器中保留的音频文件或者是其一部分。这样的音频文件可以是MP3文件、WAV文件、或其他适当格式化的文件。在另一示例中，音频描述符202可以是音频广播的一部分、动态生成的视频游戏音频的一部分、从提供音频/视频的服务接收的音频流的一部分等。

计算装置104附加地包括位置确定器组件204，该位置确定器组件204被配置为从传感器接收数据，并且探明环境中一个或多个收听者的存在以及在环境中他们相应的头部位置和定向。例如，传感器110可以包括输出环境的图像的视频相机。位置确定器组件204可以利用面部识别技术来探明环境中收听者的存在。响应于位置确定器组件204检测到收听者的存在和位置，串音消除器组件206可以基于环境中收听者的头部的位置和头部的定向来修改音频信号202，使得由第一波束成形换能器106输出的音频信号在收听者的耳朵之间被去相关，并且使得由第二波束成形换能器108输出的音频在收听者的耳朵之间被去相关。发射器组件208相应地向第一波束成形换能器106和第二波束成形换能器108传输经修改的左和右音频信号。左音频信号包括被配置为将由第二波束成形换能器108所输出的、被计算为到达收听者的左耳的音频消除的一部分。同样，右音频信号包括被配置为将由第一波束成形换能器106所输出的、被计算为到达收听者的右耳的音频消除的一部分。因此，收听者可以如同她正在佩戴耳机一样有效地体验音频。

与串音消除(以及位置和定向跟踪)一起使用波束成形允许两个或更多收听者同时地在环境中具有沉浸式的听觉体验。如所示，环境可以包括第一收听者112和第二收听者114。位置确定器组件204可以从传感器110接收指示收听者112和114的头部(耳朵)位置和定向的数据，并且可以相应地确定第一收听者112和第二收听者114的头部的位置和定向。串音消除器组件206可以使得音频信号202的副本被生成并且被保留在存储器中，使得存储器包括针对第一收听者112的第一音频信号和针对第二收听者114的第二音频信号。如上所述，针对第一收听者112的第一音频信号包括要被相应地传输给第一波束成形换能器106和第二波束成形换能器108的针对第一收听者112的左和右音频信号。串音消除器组件206可以基于第一收听者112的头部(耳朵)的识别的位置、利用适当串音消除技术来修改针对第一收听者112的左和右音频信号。同样，第二音频信号包括要被相应地传输给第一和第二波束成形换能器106和108的左和右音频信号。串音消除器组件206可以利用串音消除技术来基于第二收听者114的头部的位置和定向来修改针对第二收听者114的左和右音频信号。

发射器组件104可以向第一波束成形换能器106传输针对第一收听者112的左音频信号和针对第二收听者114的左音频信号，以及第一收听者112的头部的位置和第二收听者114的头部的位置。发射器组件104还向第二波束成形换能器108相应地传输针对第一收听者112的右音频信号和针对第二收听者114的右音频信号，以及第一收听者112和第二收听者114的头部的位置。如上所述，第一波束成形换能器106和第二波束成形换能器108可以包括多个扬声器，使得第一和第二波束成形换能器106和108向第一收听者112和第二收听者114中的每个传输个体化(受空间约束)的声音流。

第一波束成形换能器106和第二波束成形换能器108可以利用任何适当波束成形技术。例如，每个波束成形换能器可以包括具有在阵列中的扬声器之间变化的定向辐射模式的多个扬声器。在另一示例性实施例中，波束成形换能器106和108可以通过利用超声载波向收听者定向音频波束，其中收听者的耳朵自动地解调已经通过超声载波调制的信号。音频波束中的频率可以包括例如500Hz以上的频率，其包括大部分晚期混响。对于由波束成形换能器106和108输出的音频波束中的较低频率，定向性不那么关键，这是因为晚期混响不与这样的较低频率相关联。对于这样的较低频率，计算装置104可以均衡化输出(基于计算的或估计的频率响应)以抵消不想要的房间共振模。

此外，利用波束成形可以减少来自环境100中的平坦墙壁的反射，其是不想要的房间声学效果的大部分分量。因此，声音的相对紧的波束可以自动地减少这样的到达收听者的不想要的反射的严重性。这是因为对于直接定向在收听者处的波束，存在在收听者处结束的有限数量的高阶镜面反射路径。该数量远少于来自全向源的镜面到达的数量。此外，波束在刚到达时将从收听者的头部和身体相当地散开。因此，可以探明随着音频波束变得更加集中，与不想要的镜面反射相关联的问题减少。此外，与环绕声***相比，在波束成形***中可以减少波束成形器的总可听声学功率来在收听者处实现相同响度，这是因为波束成形***无法在波束外部的区域中发出许多可听声学能量。因此，在环境100周围散射和反射的不想要的可听声学功率与传统环绕声音***相比较小。

此外，虽然第一波束成形换能器106和波束成形换能器108已经被描述为相应地接收有关第一收听者112和第二收听者114的位置，但是在其他示例性实施例中，计算装置104可以被配置为内部地计算音频波束的定向性，并且基于这样的计算向波束成形换能器106和108传输指令。例如，计算装置104可以知道环境100中波束成形换能器106和108的位置，并且可以计算相应地从波束成形换能器106和108到第一收听者112和第二收听者114的方向。计算装置104可以因此向第一波束成形换能器106提供根据波束成形换能器106中(例如，根据波束成形换能器106的中心，根据波束成形换能器106中的特定扬声器等)的参考点的两个角坐标。类似地，计算装置104可以提供识别第一收听者112和第二收听者114相对于波束成形换能器108上的参考点的位置的一对角坐标。第一和第二波束成形换能器106和108可以根据由计算装置104提供的角方向来各自发出一对音频波束。

现在参考图3，图示了示例性音频***300。在示例性音频***300中，单独的波束成形换能器106和108被配置为执行如由计算装置104执行的先前描述的操作。例如，第一和第二波束成形换能器106和108可以相应地包括第一和第二位置传感器302和304，其被配置为扫描包括音频***300的环境以求其中的收听者。此外，第一和第二波束成形换能器106和108可以各自包括位置确定器组件204的相应实例，该位置确定器组件204可以基于由位置传感器302和304输出的数据确定相对于波束成形换能器106和108的位置的收听者的头部的位置和定向。在另一示例性实施例中，与波束成形换能器106和108两者都包括位置传感器不同，这样的阵列中的仅一个波束成形换能器能够包括位置传感器和对应的位置确定器组件，并且能够向其他波束成形换能器传输收听者的头部的位置和定向。例如，第一波束成形换能器106可以包括位置传感器302，并且可以向第二波束成形换能器108传输环境中的收听者的头部的位置和定向。在再一示例性实施例中，位置传感器可以在波束成形换能器106和108两者的外部，并且计算装置104可以向第一和第二波束成形换能器106和108提供环境中的收听者的头部的位置和定向。

在示例性音频***300中，波束成形换能器106和108各自包括串音消除器组件206的相应实例。例如，第一波束成形换能器106可以从计算装置104接收包括左和右音频信号的音频信号。在波束成形换能器106和108中的任一个或两者中的串音消除器组件206可以利用串音消除算法来相应地修改左和右音频信号。如果波束成形换能器106和108两者都包括串音消除器组件206，则第一波束成形换能器106可以仅修改一个或多个左音频信号，并且第二波束成形换能器108可以仅修改一个或多个右音频信号。在另一示例性实施例中，与波束成形换能器106和108两者都包括串音消除器组件206不同，这样的波束成形换能器中的一个能够包括串音消除器组件206，并且能够向波束成形换能器中的另一个提供其适当音频信号。

第一波束成形换能器106和第二波束成形换能器108中的每个包括波束成形器组件306的实例，该波束成形器组件306被配置为基于环境中收听者的头部的位置来计算音频波束的方向和空间约束。波束成形器组件306还被配置为促使波束成形换能器106和108中的硬件根据方向和空间约束输出音频波束。

现在参考图4，图示了实例扬声器装置400。扬声器装置400包括第一波束成形换能器106和第二波束成形换能器108以及计算装置104。例如，扬声器装置400可以是具有相对长的侧向长度(例如，3英尺到15英尺)的条状类型的扬声器，其中第一波束成形换能器106位于扬声器装置400的左侧部分，并且第二波束成形换能器108位于扬声器装置400的右侧部分。虽然被示出为位于扬声器装置400的中心，但是计算装置104可以位于扬声器装置400中的任何适当位置，或可以分布在整个扬声器装置400中。此外，位置传感器110可以在扬声器装置400的内部或外部。计算装置104和第一和第二波束成形换能器106和108可以以上文描述的任何方式来行动。

图5-7图示了与对环境中的多个收听者同时地促进沉浸式听觉体验相关的示例性方法。虽然方法被示出和描述为依序执行的一系列行动，但是应理解和意识到方法不限于序列的顺序。例如，一些行动可以按照与本文描述的不同的顺序发生。此外，一个行动可以与另一个行动同时地发生。此外，在一些实例中，可以不需要全部行动来实现本文描述的方法。

此外，本文描述的方法可以是可以由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质或媒介上的计算机可执行的指令。计算机可执行指令可以包括例程、子例程、程序和/或执行线程等。此外，方法的行动的结果可以被存储在计算机可读介质中、被显示在显示设备上等。

现在参考图5，图示了可以由与第一波束成形换能器和第二波束成形换能器通信的计算装置执行的示例性方法500。方法500在502处开始，并且在504处，相应地接收环境中的第一和第二收听者的头部(耳朵)的位置和定向。如上所述，传感器可以输出相应地指示第一和第二收听者的头部的位置和定向的数据，例如深度图像、RGB图像等。可以基于上述图像计算相应的收听者的头部的位置和定向。

在506处，接收针对第一收听者的左和右音频信号以及针对第二收听者的左和右音频信号。例如，音频信号可以由与音频***中的相应换能器对应的一定数量的信号组成。在示例性方法500中，音频***包括至少左和右波束成形换能器。因此，音频信号包括左和右音频信号。此外，因为在环境中至少存在第一和第二收听者，因此可以针对相应的收听者生成音频信号。

在508处，可以在针对第一收听者的左音频信号和右音频信号上执行适当串音消除算法，从而创建针对第一收听者的左和右经修改的音频信号。在510处，可以在针对第二收听者的左音频信号和右音频信号上执行串音消除算法，从而创建针对第二收听者的左和右经修改的音频信号。

在512处，在504处接收的第一收听者的头部的位置以及针对在508处创建的针对第一收听者的左和右经修改的音频信号被相应地传输给左和右波束成形换能器。因此，左和右波束成形换能器可以输出定向到第一收听者的头部的音频波束，其中这样的音频波束包括被用于在第一收听者的耳朵处使音频去相关的消除分量。

在514处，在504处接收的第二收听者的头部的位置以及在510处创建的针对第二收听者的左和右经修改的音频信号被相应地传输给左和右波束成形换能器。因此，左和右波束成形换能器可以将音频波束定向地传输到第二收听者的头部的位置，其中每个音频波束包括在第二收听者的耳朵处使音频去相关的消除分量。方法600可以重复，直到不存在要向第一和第二收听者呈现的音频信号为止，或直到一个收听者或两个收听者都退出环境为止。

现在参考图6和图7，图示了可以由例如为条状扬声器的扬声器装置执行的示例性方法600。方法600在602处开始，并且在604处，接收相应地相对于左和右波束成形换能器的第一和第二收听者的头部的位置和定向。在606处，接收针对第一收听者的左和右音频信号以及针对第二收听者的左和右音频信号。在608处，针对第一收听者创建左和右经修改的音频信号。如上所述，可以利用串音消除技术来基于第一收听者的头部的位置生成针对第一收听者的左和右经修改的音频信号。此外，可以处理左和右音频信号来提供针对第一和第二收听者的个性化空间效果。在步骤610处，针对第二收听者基于第二收听者的头部的位置和定向创建左和右经修改的音频信号。

在612处，基于第一收听者的头部的位置向左波束成形换能器传输第一左波束成形指令。第一左波束成形指令可以指示要由左波束成形换能器传输的音频波束的方向和“紧度”(例如，使得音频波束总体上朝着第一收听者的头部被定向)。在614处，基于第一收听者的头部的位置向右波束成形换能器传输第一右波束成形指令。第一右波束成形指令可以总体上定向右波束成形换能器以朝着第一收听者的头部发出音频波束。

参考图7，方法600继续，并且在616处，基于第二收听者的头部的位置向左波束成形换能器传输第二左波束成形指令。这样的指令总体上使得左波束成形换能器将音频波束朝着第二收听者的头部进行定向。

在618处，基于第二收听者的头部的位置向右波束成形换能器传输第二右波束成形指令。因此，右波束成形换能器被指示为将音频信号定向到第二收听者的头部。

在620处，基于在608处创建的第一左和右经修改的音频信号以及相应地在612和614处传输的第一左和右波束成形指令，相应地从左和右波束成形换能器输出第一左音频波束和第一右音频波束。在622处，基于针对第二收听者的左和右音频信号以及(针对第二收听者的)第二左和右波束成形指令，相应地由左和右波束成形换能器输出第二左和第二右音频波束。方法600可以重复，直到收听者中的一个或多个离开环境为止，或在当不存在进一步的音频信号时为止。

现在参考图8，图示了可以根据本文公开的***和方法来使用的示例性计算设备800的高级图示。例如，计算设备800可以被用在支持利用位置和定向跟踪、串音消除和波束成形来改进环境中的多个收听者的听觉体验的***中。计算设备800包括执行被存储在存储器804中的指令的至少一个处理器802。指令可以是例如用于实现被描述为由上文讨论的一个或多个组件实现的功能的指令，或用于实现上文描述的方法中的一个或多个的指令。处理器802可以通过***总线806访问存储器804。除了存储可执行指令之外，存储器804还可以存储音频文件、音频信号、传感器数据等。

计算设备800附加地包括由处理器802通过***总线806可访问的数据储存库808。数据储存库808可以包括可执行指令、图像、音频文件、音频信号等。计算设备800还包括允许外部设备与计算设备800通信的输入接口810。例如，输入接口810可以用于从外部计算机设备、从用户等接收指令。计算设备800还包括将计算设备800与一个或多个外部设备对接的输出接口812。例如，计算设备800可以通过输出接口812显示文本、图像等。

设想了经由输入接口810和输出接口812与通信设备800通信的外部设备可以被包括在提供用户可以与之交互的基本上任何类型的用户接口的环境中。用户接口类型的示例包括图形用户接口和自然用户接口等。例如，图形用户接口可以接受来自例如键盘、鼠标或远程控制器等的一个或多个用户采用的输入设备的输入，并且在例如显示器的输出设备上提供输出。此外，自然用户接口可以使得用户能够以不受由例如键盘、鼠标和远程控制器等的输入设备施加的约束的影响的方式与计算设备800交互。相反，自然用户接口可以依赖于话音识别、触摸和触笔识别、屏幕上和邻近屏幕的手势识别、空中手势、头部和眼睛跟踪、语音和话音、视觉、触摸、手势和机器智能等。

此外，虽然被图示为单个***，但是应理解计算设备800可以是分布式***。因此，例如，若干设备可以通过网络连接通信并且可以共同地执行被描述为由计算设备800执行的任务。

本文描述的各种功能可以在硬件、软件或其任何组合中实现。如果在软件中实现，则功能可以作为一个或多个指令或代码被存储在计算机可读介质上或被传输到计算机可读介质。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是能够由计算机访问的任何可用存储介质。作为示例而非限制，这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储器设备，或可以用于以能够由计算机访问的指令或数据结构的形式携带或存储希望的程序代码的任何其他介质。如本文使用的碟和盘包括紧致盘(CD)、激光盘、光盘、数字万用盘(DVD)、软碟和蓝光盘(BD)，其中碟通常磁地复制数据，并且盘通常用激光光学地复制数据。此外，传播的信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，该通信介质包括有助于将计算机程序从一个地方转移到另一个地方的任何介质。例如，连接可以是通信介质。例如，如果软件是使用同轴线缆、光纤线缆、双绞线、数字用户线(DSL)、或例如红外线、无线电和微波的无线技术从网站、服务器或其他远程源来传输的，则同轴线缆、光纤线缆、双绞线、DSL、或例如红外线、无线电和微波的无线技术被包括在通信介质的定义中。上述项的组合也应被包括在计算机可读介质的范围内。

可替换地，或此外，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件被执行。作为示例而非限制，可以使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD)等。

上文描述的内容包括一个或多个实施例的示例。当然，为了描述上文提及的方面的目的不可能描述上文的设备和方法的每个可想象的修改和变化，但是本领域普通技术人员可以认识到各种方面的许多进一步的修改和置乱是可能的。因此，所描述的方面旨在于涵盖落在所附权利要求的精神和范围内的全部这样的变化、修改和变型。此外，到术语“包括”被用在具体实施方式或权利要求中的程度，这样的术语旨在于以类似于术语“包含”的方式而是包含性的，如同“包括”被用作权利要求中的过渡词时所被解释的。

Claims

1.一种方法，包括：

接收指示环境中的第一收听者的相应的耳朵和第二收听者的耳朵的位置的数据；

接收包括要被定向到左耳的第一音频信号和要被定向到右耳的第二音频信号的双耳音频信号；

基于指示所述第一收听者的所述相应的耳朵和所述第二收听者的所述耳朵的位置的所述数据以及所述双耳音频信号，动态地生成左音频信号和右音频信号，所述左音频信号表示要由第一波束成形换能器输出的音频，所述右音频信号表示要由第二波束成形换能器输出的音频；

将所述左音频信号传输给所述第一波束成形换能器；以及

将所述右音频信号传输给所述第二波束成形换能器，其中相应地由所述第一波束成形换能器和所述第二波束成形换能器响应于接收到所述左音频信号和所述右音频信号而输出的音频波束相应地包括在所述第一收听者的所述耳朵和所述第二收听者的所述耳朵处使音频去相关的消除分量，并且向所述第一收听者和所述第二收听者提供定制化空间音频效果。

2.根据权利要求1所述的方法，所述左音频信号包括第一左音频信号和第二左音频信号，所述第一波束成形换能器基于所述第一左音频信号将第一左音频波束定向给所述第一收听者，并且所述第一波束成形换能器基于所述第二左音频信号将第二左音频波束定向给所述第二收听者。

3.根据权利要求2所述的方法，还包括：

将指示所述第一收听者的所述耳朵和所述第二收听者的所述耳朵的所述位置的所述数据传输给所述第一波束成形换能器。

4.根据权利要求3所述的方法，所述右音频信号包括第一右音频信号和第二右音频信号，所述第二波束成形换能器基于所述第一右音频信号将第一右音频波束定向给所述第一收听者，并且所述第二波束成形换能器基于所述第二右音频信号将第二右音频波束定向给所述第二收听者。

5.根据权利要求4所述的方法，还包括：

将指示所述第一收听者的所述耳朵和所述第二收听者的所述耳朵的所述位置的所述数据传输给所述第二波束成形换能器。

6.根据权利要求1所述的方法，还包括：

从视频相机接收视频流，所述第一收听者和所述第二收听者被捕获在所述视频流中；

在所述视频流中检测所述第一收听者和所述第二收听者；以及

基于在所述视频流中检测到所述第一收听者和所述第二收听者，计算指示所述第一收听者的所述相应的耳朵和所述第二收听者的所述耳朵的所述位置的所述数据。

7.根据权利要求6所述的方法，还包括：

从深度传感器接收数据；以及

基于从所述深度传感器接收的所述数据来计算指示所述第一收听者的所述相应的耳朵和所述第二收听者的所述耳朵的所述位置的所述数据。

8.根据权利要求1所述的方法，所述左音频信号和所述右音频信号被配置为促使所述第一波束成形换能器和所述第二波束成形换能器分别通过超声载波频率发出音频。

9.一种音频***，包括：

与传感器通信的计算装置、第一波束成形换能器和第二波束成形换能器，所述计算装置包括：

位置确定器组件，所述位置确定器组件接收由所述传感器输出的数据，并且基于由所述传感器输出的所述数据确定相对于所述第一波束成形换能器和所述第二波束成形换能器的位置的第一收听者和第二收听者的相应的头部的位置和定向；

串音消除器组件，所述串音消除器组件接收所述第一收听者和所述第二收听者的所述相应的头部的所述位置和定向以及音频信号，所述音频信号包括：

第一音频信号，所述第一音频信号表示要由所述第一波束成形换能器输出的第一音频；以及

第二音频信号，所述第二音频信号表示要由所述第二波束成形换能器输出的第二音频；

所述串音消除器组件基于所述音频信号以及所述第一收听者和所述第二收听者的所述相应的头部的所述位置和定向，动态地处理所述音频信号以生成针对所述第一收听者的定制化音频信号和针对所述第二收听者的定制化音频信号，针对所述第一收听者的所述定制化音频信号与针对所述第二收听者的所述定制化音频信号不同；以及

发射器组件，所述发射器组件将所述定制化音频信号传输给所述第一波束成形换能器和所述第二波束成形换能器。

10.根据权利要求9所述的音频***，其中针对所述第一收听者的所述定制化音频信号包括第一左定制化信号和第一右定制化信号，针对所述第二收听者的所述定制化音频信号包括第二左定制化信号和第二右定制化信号，所述发射器组件将所述第一左定制化信号和所述第二左定制化信号同时地传输给所述第一波束成形换能器，所述发射器组件还将所述第一右定制化信号和所述第二右定制化信号同时地传输给所述第二波束成形换能器。

11.根据权利要求10所述的音频***，所述第一波束成形换能器包括第一多个扬声器，所述第二波束成形换能器包括第二多个扬声器，其中所述发射器组件将所述第一收听者和所述第二收听者的所述相应的头部的所述位置传输给所述第一波束成形换能器和所述第二波束成形换能器，其中响应于接收到所述定制化音频信号以及所述第一收听者和所述第二收听者的所述相应的头部的所述位置，所述第一波束成形换能器将第一左音频波束定向给所述第一收听者并且将第二左音频波束定向给所述第二收听者，并且所述第二波束成形换能器将第一右音频波束定向给所述第一收听者并且将第二右音频波束定向给所述第二收听者。

12.根据权利要求11所述的音频***，包括条状扬声器，所述条状扬声器包括所述计算装置、所述第一波束成形换能器和所述第二波束成形换能器。

13.根据权利要求9所述的音频***，其中由所述传感器输出的所述数据包括捕获到所述第一收听者和所述第二收听者的至少一个红绿蓝图像，所述位置确定器组件基于所述至少一个图像来确定所述第一收听者和所述第二收听者的所述相应的头部的所述位置。

14.根据权利要求13所述的音频***，其中所述定制化音频信号是分别针对所述第一收听者和所述第二收听者的定制化空间效果。

15.根据权利要求9所述的音频***，所述串音消除器组件被配置为随着所述第一收听者的至少一个的位置在所述环境中随时间变化，自适应地生成定制化音频信号。