CN114080820A

CN114080820A - 用于选择传感器阵列的声学传感器子集的方法及其***

Info

Publication number: CN114080820A
Application number: CN202080049038.1A
Authority: CN
Inventors: 安德鲁·洛维特; 雅各布·瑞恩·唐利
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-07-26
Filing date: 2020-07-17
Publication date: 2022-02-22
Also published as: US10979838B2; WO2021021468A1; US20210029479A1; EP4005244A1; JP2022542755A; KR20220043164A

Abstract

一种***通过基于局部区域的环境参数优化传感器阵列的声学传感器的选择来降低功耗。该***包括传感器阵列和处理电路，传感器阵列包括被配置成检测局部区域中的声音的声学传感器。处理电路被配置成：确定局部区域的环境参数；确定传感器阵列的性能度量；基于局部区域的环境参数，从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择；以及处理来自传感器阵列的声学传感器子集的音频数据。

Description

用于选择传感器阵列的声学传感器子集的方法及其***

背景

本公开总体上涉及声学传感器阵列，且具体涉及使用环境智能优化传感器阵列的使用。

能量限制和散热是可佩戴设备面临的挑战，并且会使在可佩戴设备上实现某些类型的功能变得困难。例如，麦克风阵列处理使用消耗功率的传感器阵列来捕获音频数据，并使用实时的过程繁重的算法来处理音频数据。希望降低功耗和处理要求，同时实现足够的性能水平。

概述

根据本发明，提供了一种方法，包括通过包括传感器阵列的音频***：确定传感器阵列周围的局部区域的环境参数，该传感器阵列包括被配置为检测局部区域中的声音的声学传感器；确定传感器阵列的性能度量；基于局部区域的环境参数，从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择；以及处理来自传感器阵列的声学传感器子集的音频数据，其中由音频***呈现的音频内容部分地基于处理后的音频数据。

优选地，该方法还包括激活声学传感器子集。

方便地，该方法还包括去激活子集之外的传感器阵列的声学传感器。

优选地，传感器阵列的第一声学传感器在子集之外，并且第一声学传感器是活动的，该方法还包括：从由传感器阵列生成的音频数据中去除由第一声学传感器产生的音频数据，以形成子集的音频数据。

方便地，环境参数包括混响时间；并且性能度量包括阵列增益。

优选地，环境参数包括以下之一：声学声源的数量；声源的定位(location)；声源的到达方向；或者背景噪声的响度；或者背景噪声的空间属性。

方便地，处理音频数据包括执行以下至少一项：声传递函数的应用；波束形成(beamforming)；到达方向估计；信号增强；或者空间过滤。

优选地，性能度量包括以下之一：字差错率(word error rate)；阵列增益；失真阈值水平；信噪比；白噪声增益；波束形成器的信噪比；拾音距离(distance for sound pick-up)；语音质量；语音可懂度(speech intelligibility)；或者听配能(listening effort)。

方便地，基于环境参数从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择还包括：使用神经网络，该神经网络定义包括环境参数和性能度量的输入与包括传感器阵列的声学传感器子集的输出之间的关系。

优选地，该方法还包括基于与传感器阵列相关联的定位从服务器接收环境参数。

方便地，该方法还包括从包括另一传感器阵列的头戴装置接收性能度量。

优选地，该方法还包括基于环境参数的变化来更新声学传感器子集。

根据本发明的另一方面，提供了一种***，包括：传感器阵列，其包括被配置为检测局部区域中的声音的声学传感器；以及处理电路，其被配置为：确定局部区域的环境参数；确定传感器阵列的性能度量；基于局部区域的环境参数，从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择；以及处理来自传感器阵列的声学传感器子集的音频数据，其中由***呈现的音频内容部分地基于处理后的音频数据。

优选地，处理电路还被配置成激活声学传感器子集。

方便地，处理电路还被配置成去激活子集之外的传感器阵列的声学传感器。

优选地，传感器阵列的第一声学传感器在子集之外，并且第一声学传感器是活动的，并且处理电路还被配置为：从传感器阵列生成的音频数据中去除由第一声学传感器产生的音频数据，以形成子集的音频数据。

优选地，环境参数包括以下之一：声学声源的数量；声源的定位；声源的到达方向；背景噪声的响度；或者背景噪声的空间属性；并且被配置为处理音频数据的处理电路包括音频控制器，该音频控制器被配置为执行以下至少一项：声传递函数的应用；波束形成；到达方向估计；信号增强；或者空间过滤。

方便地，性能度量包括：字差错率；阵列增益；失真阈值水平；信噪比；白噪声增益；波束形成器的信噪比；拾音距离；语音质量；语音可懂度；或者听配能。

根据本发明的另一方面，提供了一种存储指令的非暂时性计算机可读介质，该指令在由一个或更多个处理器执行时使该一个或更多个处理器：确定传感器阵列周围的局部区域的环境参数，该传感器阵列包括被配置为检测局部区域中的声音的声学传感器；确定传感器阵列的性能度量；基于局部区域的环境参数，从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择；以及处理来自传感器阵列的声学传感器子集的音频数据。

实施例涉及使用环境参数作为从传感器阵列中选择声学传感器的最佳子集的基础，以降低功耗，同时保持高性能，例如在满足与传感器阵列或音频处理相关的性能度量方面保持高性能。一些实施例包括一种由音频***执行的方法，该方法确定传感器阵列周围的局部区域的环境参数。传感器阵列包括被配置成检测局部区域中的声音的声学传感器。为传感器阵列确定性能度量，并且基于局部区域的环境参数，从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择。处理来自传感器阵列的声学传感器子集的音频数据。由音频***呈现的音频内容部分地基于处理后的音频数据。

一些实施例包括一种***，该***包括传感器阵列和音频控制器。传感器阵列包括被配置成检测局部区域中的声音的声学传感器。音频控制器确定局部区域的环境参数，并确定传感器阵列的性能度量。音频控制器基于局部区域的环境参数从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择，并处理来自传感器阵列的声学传感器子集的音频数据。由该***呈现的音频内容部分地基于处理后的音频数据。

一些实施例包括一种存储指令的非暂时性计算机可读介质，该指令在由一个或更多个处理器执行时使一个或更多个处理器：确定传感器阵列周围的局部区域的环境参数，该传感器阵列包括被配置为检测局部区域中的声音的声学传感器；以及确定传感器阵列的性能度量。该指令还使一个或更多个处理器：基于局部区域的环境参数，从传感器阵列的声学传感器中确定满足性能度量的声学传感器子集的选择，并处理来自传感器阵列的声学传感器子集的音频数据。

附图简述

图1A是根据一个或更多个实施例的实现为眼部佩戴物(eyewear)设备的头戴装置的透视图。

图1B是根据一个或更多个实施例的实现为头戴式显示器的头戴装置的透视图。

图2是根据一个或更多个实施例的音频***的框图。

图3是示出根据一个或更多个实施例的优化头戴装置上的声学传感器的过程的流程图。

图4是示出根据一个或更多个实施例的对于不同混响时间的阵列增益与声学传感器数量之间的关系的曲线图。

图5是根据一个或更多个实施例的包括头戴装置的***环境。

附图仅出于说明的目的描绘了本公开的实施例。本领域中的技术人员从下面的描述中将容易认识到，本文示出的结构和方法的替代实施例可以被采用而不偏离本文所述的本公开的原理或者所推崇的益处。

详细描述

实施例涉及使用环境智能降低在空间声音应用中采用的传感器阵列的功耗。环境智能指的是关于环境的信息，可以由各种类型的传感器捕获的环境参数来定义。例如，确定传感器阵列周围的局部区域的环境参数和目标性能度量，并将其用作从传感器阵列中选择声学传感器的最佳子集的基础。环境参数可以基于由声学传感器或其他类型的传感器捕获的数据来确定。该选择可以包括激活或去激活声学传感器，或者仅处理来自声学传感器子集的数据。这样，在保持目标(例如，高)性能的同时降低了功耗。在一个示例中，局部区域的环境参数包括混响时间，并且性能度量包括阵列增益。较长的混响时间对应于较大数量的激活的声学传感器，以实现目标阵列增益。基于局部区域的混响时间来确定实现目标阵列增益的传感器阵列的声学传感器子集的选择。

本公开的实施例可以包括人工现实***或结合人工现实***来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(mixed reality，MR)、混杂现实(hybrid reality)或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与捕获的(例如，真实世界的)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合，并且它们中的任何一个都可以在单个通道或多个通道中呈现(例如向观看者产生三维效果的立体视频)。此外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式使用(例如在人工现实中执行活动)。提供人工现实内容的人工现实***可以在各种平台上实现，包括连接到主计算机***的头戴装置、独立的(standalone)头戴装置、移动设备或计算***、或任何其他能够向一个或更多个观看者提供人工现实内容的硬件平台。

眼部佩戴物设备配置

图1A是根据一个或更多个实施例的实现为眼部佩戴物设备的头戴装置100的透视图。在一些实施例中，眼部佩戴物设备是近眼显示器(NED)。通常，头戴装置100可以戴在用户的脸上，使得使用显示组件和/或音频***呈现内容(例如，媒体内容)。然而，也可以使用头戴装置100，使得媒体内容以不同的方式呈现给用户。头戴装置100呈现的媒体内容的示例包括一个或更多个图像、视频、音频或其某种组合。头戴装置100包括框架，并且可以包括显示组件、深度相机组件(DCA)、音频***和位置传感器190以及其他部件，该显示组件包括一个或更多个显示元件120。虽然图1A在头戴装置100上的示例位置示出了头戴装置100的部件，但是这些部件可以位于头戴装置100上的别处、与头戴装置100配对的***设备上或者这两种位置的某种组合。类似地，头戴装置100上的部件可能比图1A中所示的更多或更少。

框架110保持头戴装置100的其他部件。框架110包括保持一个或更多个显示元件120的前部和附接到用户头部的的末端件(例如，镜腿(temple))。框架110的前部架在(bridge)用户鼻子的顶部。末端件的长度可以是可调节的(例如，可调节的镜腿长度)以适合不同的用户。末端件还可包括在用户耳朵后面卷曲的部分(例如，镜腿尖端、耳件(earpiece))。

一个或更多个显示元件120向佩戴头戴装置100的用户提供光。如图所示，头戴装置包括用于用户的每只眼睛的显示元件120。在一些实施例中，显示元件120生成提供给头戴装置100的视窗(eyebox)的图像光。视窗是用户佩戴头戴装置100时眼睛所占据的空间位置。例如，显示元件120可以是波导显示器。波导显示器包括光源(例如，二维光源、一个或更多个线光源、一个或更多个点光源等)和一个或更多个波导。来自光源的光被向内耦合到一个或更多个波导中，该波导以使得在头戴装置100的视窗中存在光瞳复制的方式输出光。来自一个或更多个波导的光的向内耦合和/或向外耦合可以使用一个或更多个衍射光栅来完成。在一些实施例中，波导显示器包括扫描元件(例如，波导、反射镜等)，当来自光源的光向内耦合到一个或更多个波导中时，该扫描元件扫描来自光源的光。须注意，在一些实施例中，显示元件120中的一个或两个是不透明的并且不透射来自头戴装置100周围的局部区域的光。局部区域是头戴装置100周围的区域。例如，局部区域可以是佩戴头戴装置100的用户所在的房间，或者佩戴头戴装置100的用户可以在外面，并且局部区域是外部区域。在这种上下文中，头戴装置100生成VR内容。可替代地，在一些实施例中，显示元件120中的一者或两者至少是部分透明的，使得来自局部区域的光可与来自一个或更多个显示元件的光组合以产生AR和/或MR内容。

在一些实施例中，显示元件120不生成图像光，而是透镜将光从局部区域传送到视窗。例如，显示元件120中的一个或两个可以是无矫正的透镜(非处方透镜)，或者是处方透镜(例如，单视力透镜、双焦和三焦透镜或渐进透镜)以帮助矫正用户视力的缺陷。在一些实施例中，显示元件120可以被偏振和/或着色以保护用户的眼睛免受阳光照射。

须注意，在一些实施例中，显示元件120可以包括附加的光学块(未示出)。该光学块可包括将光从显示元件120引导至视窗的一个或更多个光学元件(例如，透镜、菲涅耳透镜等)。该光学块可以例如校正一些或所有图像内容中的像差、放大一些或所有图像、或其某种组合。

DCA确定头戴装置100周围的局部区域的一部分的深度信息。DCA包括一个或更多个成像设备130和DCA控制器(未在图1A中示出)，并且还可以包括照明器140。在一些实施例中，照明器140用光照射局部区域的一部分。光可以是例如在红外(IR)中的结构光(例如，点图案、条(bar)等)、用于飞行时间的IR闪光等。在一些实施例中，一个或更多个成像设备130捕获包括来自照明器140的光的局部区域的部分的图像。如图所示，图1A示出了单个照明器140和两个成像设备130。在替代实施例中，没有照明器140和至少两个成像设备130。

DCA控制器使用捕获的图像和一种或更多种深度确定技术来计算局部区域的部分的深度信息。深度确定技术可以是例如直接飞行时间(ToF)深度感测、间接ToF深度感测、结构光、被动立体分析、主动立体分析(使用通过来自照明器140的光添加到场景的纹理)、确定场景的深度的某种其他技术或者它们的某种组合。

音频***提供音频内容。该音频***包括换能器阵列、传感器阵列和音频控制器150。然而，在其他实施例中，音频***可以包括不同的和/或附加的部件。类似地，在一些情况下，参考音频***的部件描述的功能可以以不同于这里描述的方式在部件之间分配。例如，控制器的一些或所有功能可以由远程服务器执行。

换能器阵列向用户呈现声音。换能器阵列包括多个换能器。换能器可以是扬声器160(例如声学换能器)或组织换能器170(例如骨传导换能器或软骨传导换能器)。尽管扬声器160被示出在框架110的外部，但是扬声器160可以被封闭在框架110中。在一些实施例中，代替用于每个耳朵的单独的扬声器，头戴装置100包括扬声器阵列，该扬声器阵列包括集成到框架110中的多个扬声器，以改善所呈现的音频内容的方向性。组织换能器170耦合到用户的头部并直接振动用户的组织(例如，骨骼或软骨)以生成声音。换能器的数量和/或位置可以与图1A所示的不同。

传感器阵列检测头戴装置100的局部区域内的声音。传感器阵列包括多个声学传感器180a-h(每个被称为声学传感器180)。声学传感器180捕获从局部区域(例如，房间)中的一个或更多个声源发出的声音。每个声学传感器被配置为检测声音并将检测到的声音转换成电子格式(模拟的或数字的)。声学传感器180可以是声波传感器、麦克风、声音换能器或适用于检测声音的类似传感器。传感器阵列可以根据来自音频控制器150的指令动态地激活或去激活每个声学传感器180。激活声学传感器180导致声学传感器180处于活动状态，并且去激活声学传感器180导致声学传感器10处于非活动状态。在一些实施例中，声学传感器180在活动状态下通电，在非活动状态下断电。

在一些实施例中，一个或更多个声学传感器180可以放置在每只耳朵的耳道中(例如，充当双耳麦克风)。声学传感器180可以与换能器一起放置在耳道中。在一些实施例中，声学传感器180可以放置在头戴装置100的外表面上、放置在头戴装置100的内表面上、与头戴装置100分离(例如，作为某种其他设备的一部分)、或者它们的某种组合。声学传感器180的数量和/或位置可以与图1A所示的不同。例如，可以增加声学检测位置的数量以增加收集的音频信息的量以及信息的灵敏度和/或准确性。声学检测位置可以被定向成使得麦克风能够在佩戴头戴装置100的用户周围的大范围方向上检测声音。

音频控制器150处理来自传感器阵列的描述由传感器阵列检测到的声音的信息。音频控制器150可以包括处理器和计算机可读存储介质。音频控制器150可以被配置为生成到达方向(DOA)估计、生成声传递函数(例如，阵列传递函数和/或头部相关传递函数)、跟踪声源的定位、在声源方向上形成波束、对声源进行分类、为扬声器160生成声音过滤器，或它们的某种组合。

音频控制器150检测声音以为用户生成一个或更多个声传递函数。声传递函数表征声音如何从空间中的一点被接收。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数或其某种组合。一个或更多个声传递函数可以与头戴装置100、佩戴头戴装置100的用户或两者相关联。音频控制器150然后可以使用一个或更多个声传递函数来为用户生成音频内容。

音频控制器150生成用于激活和去激活传感器阵列的各种声学传感器180的指令。可以基于由头戴装置100的传感器阵列或其他传感器(例如，成像设备130、位置传感器190等)捕获的环境参数和目标性能度量来生成指令。

传感器阵列的声学传感器180的配置可以变化。虽然头戴装置100在图1A中被示出为具有八个声学传感器180，但是声学传感器180的数量可以增加或减少。增加声学传感器180的数量可以增加所收集的音频信息的量以及音频信息的灵敏度和/或准确度。减少声学传感器180的数量可以降低音频控制器150处理收集的音频信息所需的计算能力，或者降低头戴装置100的功耗。此外，传感器阵列的每个声学传感器180的位置可以变化。声学传感器180的位置可以包括在用户身上的所定义的位置、在框架110上的所定义的坐标、与每个声学传感器相关联的定向、或者其某种组合。例如，声学传感器180a、180b可以位于用户耳朵的不同部位上，例如耳郭(pinna)后面或在耳廓(auricle)或窝(fossa)内，或者除了耳道内的声学传感器180之外，耳朵上或周围可以有附加的声学传感器。将声学传感器(例如，声学传感器180a、180b)定位在用户的耳道附近使得传感器阵列能够收集关于声音如何到达耳道的信息。可以沿着眼镜腿的长度、横越镜梁(bridge)、在显示元件120的上方或下方、或者其某种组合来定位框架110上的声学传感器180。声学传感器180可以被定向成使得传感器阵列能够检测佩戴头戴装置100的用户周围的大范围方向上的声音。

音频控制器150处理来自传感器阵列的描述由传感器阵列检测到的声音的信息。与每个检测到的声音相关联的信息可以包括检测到的声音的频率、振幅和/或持续时间。对于检测到的声音，音频控制器150可以执行DoA估计。DoA估计是检测到的声音到达传感器阵列的声学传感器180处的估计方向。如果传感器阵列的至少两个声学传感器180检测到声音，音频控制器150可以使用声学传感器180的已知位置关系和来自每个声学传感器的DoA估计来(例如，通过三角测量)估计检测到的声音的源定位或方向。当检测到声音的声学传感器180的数量增加时和/或当检测到声音的声学传感器180之间的距离增加时，源定位估计的准确性可以增加。

在一些实施例中，音频控制器150用信息填充音频数据集。信息可以包括检测到的声音和与每个检测到的声音相关联的参数。示例参数可以包括频率、振幅、持续时间、DoA估计、源定位或其某种组合。每个音频数据集可以对应于相对于头戴装置110的不同源定位，并且包括具有该源定位的一个或更多个声音。该音频数据集可以与该源定位的一个或更多个声传递函数相关联。一个或更多个声传递函数可以存储在数据集中。在替代实施例中，每个音频数据集可以对应于相对于头戴装置110的几个源定位，并且包括每个源定位的一个或更多个声音。例如，彼此相对靠近的源定位可以被分组在一起。当传感器阵列检测到声音时，音频控制器150可以用信息填充音频数据集。当为每个检测到的声音执行DoA估计或确定源定位时，音频控制器150可以进一步为每个检测到的声音填充音频数据集。

在一些实施例中，音频控制器150选择对其执行DoA估计的检测到的声音。音频控制器150可以基于与存储在音频数据集中的每个检测到的声音相关联的参数来选择检测到的声音。音频控制器150可以评估与每个检测到的声音相关联的存储参数，并确定一个或更多个存储参数是否满足相应的参数条件。例如，如果参数高于或低于阈值或者落在目标范围内，则参数条件可以被满足。如果满足参数条件，音频控制器150对检测到的声音执行DoA估计。例如，音频控制器150可以对检测到的声音执行DoA估计，该检测到的声音具有频率范围内的频率、阈值振幅以上的振幅、阈值持续时间以下的持续时间、其他类似的变化或其某种组合。参数条件可以由音频***的用户基于历史数据、基于对音频数据集中的信息的分析(例如，评估所收集的参数信息并设置平均值)或其某种组合来设置。音频控制器150可以在音频集中创建元素来存储检测到的声音的DoA估计和/或源定位。在一些实施例中，如果数据已经存在，音频控制器150可以更新音频集中的元素。

在一些实施例中，音频控制器150可以从头戴装置100外部的***接收头戴装置100的位置信息。位置信息可以包括头戴装置100的定位、头戴装置100或佩戴头戴装置100的用户的头部的定向、或者它们的某种组合。位置信息可以相对于参考点被定义。定向可以对应于每只耳朵相对于参考点的位置。***的示例包括成像组件、控制台(例如，如在图7中所述的)、即时定位与地图构建(SLAM)***、深度相机组件、结构光***或其他合适的***。在一些实施例中，头戴装置100可包括可用于SLAM计算的传感器，这些SLAM计算可全部或部分地由音频控制器150执行。音频控制器150可以连续地或以随机或指定的间隔从***接收位置信息。

在一个实施例中，基于检测到的声音的参数，音频控制器150生成一个或更多个声传递函数。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数或其某种组合。ATF表征传感器阵列如何从空间中的点接收声音。具体地，ATF定义在声源定位处的声音的参数和传感器阵列检测到该声音时的参数之间的关系。与声音相关的参数可以包括频率、振幅、持续时间、DoA估计等。在一些实施例中，传感器阵列的至少一些声学传感器耦合到用户佩戴的头戴装置100。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于传感器阵列的特定源定位的ATF可能因用户而异。因此，传感器阵列的ATF对于佩戴头戴装置100的每个用户是个性化的。一旦生成了ATF，ATF就可以存储在本地或外部存储器中。

HRTF表征耳朵如何从空间中的点接收声音。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于人的特定源定位的HRTF对于人的每只耳朵是唯一的(并且对于该人是唯一的)。例如在图1中，音频控制器150可以为用户生成两个HRTF，每只耳朵一个HRTF。一个HRTF或一对HRTF可用于创建包括似乎来自空间中的特定点的声音的音频内容。几个HRTF可用于创建环绕声音频内容(例如，用于家庭娱乐***、剧院扬声器***、沉浸式环境等)，其中每个HRTF或每对HRTF对应于空间中的不同点，使得音频内容似乎来自空间中的几个不同点。在一些实施例中，音频控制器150可以基于每个检测到的声音的DoA估计来更新一个或更多个预先存在的声传递函数。预先存在的声传递函数可以从本地或外部存储器获得，或者从外部***获得。当头戴装置100在局部区域内的位置改变时，音频控制器150可以生成新的声传递函数或者相应地更新预先存在的声传递函数。一旦生成了HRTF，HRTF就可以存储在本地或外部存储器中。

位置传感器190响应于头戴装置100的运动生成一个或更多个测量信号。位置传感器190可以位于头戴装置100的框架110的一部分上。位置传感器190可以包括惯性测量单元(IMU)。位置传感器190的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU的误差校正的一种类型的传感器或其某种组合。位置传感器190可以位于IMU的外部、IMU的内部或者它们的某种组合。

在一些实施例中，头戴装置100可以为头戴装置100的位置提供即时定位与地图构建(SLAM)以及提供局部区域的模型的更新。例如，头戴装置100可以包括生成彩色图像数据的无源相机组件(PCA)。PCA可以包括一个或更多个RGB相机，其用于捕获一些或全部局部区域的图像。在一些实施例中，DCA的一些或所有成像设备130也可以用作PCA。PCA捕获的图像和DCA确定的深度信息可以用于确定局部区域的参数、生成局部区域的模型、更新局部区域的模型或者它们的某种组合。此外，位置传感器190跟踪头戴装置100在房间内的位置(例如，定位和姿势)。下面结合图5讨论关于头戴装置100的部件的附加细节。

图1B是根据一个或更多个实施例的实现为HMD的头戴装置105的透视图。在描述AR***和/或MR***的实施例中，HMD前侧的部分在可见光波段(约380nm至750nm)中至少是部分透明的，并且在HMD前侧和用户的眼睛之间的HMD的部分至少是部分透明的(例如，部分透明的电子显示器)。HMD包括前刚性体115和带175。头戴装置105包括许多与上文参考图1A描述的相同的部件，但这些部件经过修改以与HMD形状因子集成。例如，HMD包括显示组件、DCA、音频***和位置传感器190。图1B示出了照明器140、多个扬声器160、多个成像设备130、多个声学传感器180和位置传感器190。

音频***综述

图2是根据一个或更多个实施例的音频***200的框图。图1A或图1B中的音频***可以是音频***200的实施例。音频***200为用户生成一个或更多个声传递函数。音频***200然后可以使用一个或更多个声传递函数来为用户生成音频内容。在图2的实施例中，音频***200包括换能器阵列210、传感器阵列220和音频控制器230。音频***200的一些实施例具有与这里描述的部件不同的部件。类似地，在某些情形中，功能可以以不同于这里描述的方式在部件之间分配。

换能器阵列210被配置成呈现音频内容。换能器阵列210包括多个换能器。换能器是提供音频内容的设备。换能器可以是，例如，扬声器(例如，扬声器160)、组织换能器(例如，组织换能器170)、提供音频内容的某种其他设备或它们的某种组合。组织换能器可以被配置成用作骨传导换能器或软骨传导换能器。换能器阵列210可以经由空气传导(例如，经由一个或更多个扬声器)、经由骨传导(经由一个或更多个骨传导换能器)、经由软骨传导音频***(经由一个或更多个软骨传导换能器)或其某种组合来呈现音频内容。在一些实施例中，换能器阵列210可以包括一个或更多个换能器，以覆盖频率范围的不同部分。例如，压电换能器可以用于覆盖频率范围的第一部分，而动圈换能器可以用于覆盖频率范围的第二部分。

骨传导换能器通过振动用户头部中的骨骼/组织来产生声压波。骨传导换能器可以耦合到头戴装置的一部分，并且可以被配置为在耦合到用户颅骨的一部分的耳廓后面。骨传导换能器从音频控制器230接收振动指令，并基于接收到的指令振动用户颅骨的一部分。来自骨传导换能器的振动产生组织传播的声压波，该声压波绕过耳膜向用户的耳蜗传播。

软骨传导换能器通过振动用户耳朵的耳软骨(auricular cartilage)的一个或更多个部分来产生声压波。软骨传导换能器可以耦合到头戴装置的一部分，并且可以被配置为耦合到耳朵的耳软骨的一个或更多个部分。例如，软骨传导换能器可以耦合到用户耳朵的耳廓的后部。软骨传导换能器可以位于沿着外耳周围的耳软骨的任何地方(例如耳郭、耳屏、耳软骨的某个其他部分或它们的某种组合)。振动耳软骨的一个或更多个部分可以产生：耳道外的空气传播的声压波；组织产生的声压波，该声压波引起耳道的某些部分振动，从而在耳道内产生空气传播的声压波；或者它们的某种组合。产生的空气传播的声压波沿着耳道向耳膜传播。

换能器阵列210根据来自音频控制器230的指令生成音频内容。在一些实施例中，音频内容被空间化。空间化的音频内容是听起来源自特定方向和/或目标区域(例如，局部区域中的对象和/或虚拟对象)的音频内容。例如，空间化的音频内容可以使声音听起来源自音频***200的用户的房间对面的虚拟歌手。换能器阵列210可以耦合到可佩戴设备(例如，头戴装置100或头戴装置105)。在替代实施例中，换能器阵列210可以是与可佩戴设备分离(例如，耦合到外部控制台)的多个扬声器。

传感器阵列220检测在围绕传感器阵列220的局部区域内的声音。传感器阵列220可以包括多个声学传感器，每个声学传感器检测声波的气压变化并将检测到的声音转换成电子格式(模拟的或数字的)。多个声学传感器可以位于头戴装置(例如，头戴装置100和/或头戴装置105)上、用户身上(例如，在用户的耳道中)、颈带上或其某种组合。声学传感器可以是例如麦克风、振动传感器、加速度计或其任意组合。在一些实施例中，传感器阵列220被配置成使用多个声学传感器中的至少一些声学传感器来监控由换能器阵列210生成的音频内容。增加传感器的数量可以提高描述由换能器阵列210产生的声场和/或来自局部区域的声音的信息(例如，方向性)的准确性。传感器阵列220可以根据来自音频控制器230的指令动态地激活或去激活每个声学传感器。

音频控制器230包括控制音频***200的操作的处理电路。在图2的实施例中，音频控制器230包括数据储存器235、DOA估计模块240、传递函数处理模块250、跟踪模块260、波束形成模块270、阵列优化模块275、神经网络模块280和声音过滤器模块285。在一些实施例中，音频控制器230可以位于头戴装置内部。音频控制器230的一些实施例具有与这里描述的部件不同的部件。类似地，功能可以以不同于这里描述的方式在部件之间分配。例如，控制器的一些功能可以在头戴装置外部被执行。

数据储存器235存储供音频***200使用的数据。数据储存器235中的数据可以包括局部区域的环境参数、音频***的目标性能度量、传感器阵列230的激活和未激活的声学传感器、音频***200的局部区域中记录的声音、音频内容、头部相关传递函数(HRTF)、一个或更多个传感器的传递函数、一个或更多个声学传感器的阵列传递函数(ATF)、声源定位、局部区域的虚拟模型、到达方向估计、声音过滤器以及与音频***200使用相关的其他数据、传感器阵列220周围的局部区域的环境参数、选择的或以其他方式确定的性能度量、激活和去激活的声学传感器的优化的子集、或其任意组合。

DOA估计模块240被配置成部分基于来自传感器阵列220的信息来定位局部区域中的声源。定位(localization)是确定声源相对于音频***200的用户位于何处的过程。DOA估计模块240执行DOA分析以定位局部区域内的一个或更多个声源。DOA分析可以包括分析传感器阵列220处每个声音的强度、频谱和/或到达时间以确定声音源自的方向。在一些情况下，DOA分析可以包括用于分析音频***200所处的周围声学环境的任何合适的算法。

例如，DOA分析可以被设计成从传感器阵列220接收输入信号，并将数字信号处理算法应用于输入信号以估计到达方向。这些算法可以包括例如，延迟算法和求和算法，其中输入信号被采样，并且得到的采样信号的加权和延迟版本被一起取平均以确定DOA。也可以实现最小均方(LMS)算法以创建自适应过滤器。该自适应过滤器然后可以用于例如，识别信号强度的差异或到达时间的差异。然后，这些差异可用于估计DOA。在另一个实施例中，可以通过将输入信号转换到频域内并选择要处理的时频(TF)域内的特定单元(bin)来确定DOA。可以处理每个选定TF单元以确定该单元是否包括具有直接路径音频信号的音频频谱的一部分。然后可以分析具有直接路径信号的一部分的那些单元，以识别传感器阵列220接收直接路径音频信号的角度。然后，所确定的角度可以用于识别接收到的输入信号的DOA。也可以单独地或者与上面的算法结合地使用上面没有列出的其他算法来确定DOA。

在一些实施例中，DOA估计模块240还可以关于音频***200在局部区域内的绝对位置来确定DOA。传感器阵列220的位置可以从外部***(例如，头戴装置的某个其他部件、人工现实控制台、映射服务器(mapping server)、位置传感器(例如，位置传感器190)等)接收。外部***可以创建局部区域的虚拟模型，其中局部区域和音频***200的位置被测绘(map)。接收的位置信息可以包括音频***200的一些或全部(例如，传感器阵列220)的定位和/或定向。DOA估计模块240可以基于接收的位置信息更新估计的DOA。

传递函数处理模块250被配置成生成一个或更多个声传递函数。一般来说，传递函数是对于每个可能的输入值给出相应的输出值的数学函数。基于检测到的声音的参数，传递函数处理模块250生成与音频***相关联的一个或更多个声传递函数。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数或其某种组合。ATF表征麦克风如何从空间中的点接收声音。

ATF包括表征声音和由传感器阵列220中的声学传感器接收的相应声音之间的关系的多个传递函数。因此，对于声源，传感器阵列220中的每个声学传感器都有相应的传递函数。并且这组传递函数统称为ATF。因此，对于每个声源，存在相应的ATF。注意，声源可以是例如在局部区域中产生声音的某人或某物、用户或换能器阵列210的一个或更多个换能器。由于人的解剖结构(例如，耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于传感器阵列220的特定声源定位的ATF可能因用户而异。因此，传感器阵列220的ATF对于音频***200的每个用户是个性化的。

在一些实施例中，传递函数处理模块250为音频***200的用户确定一个或更多个HRTF。HRTF表征耳朵如何从空间中的点接收声音。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于人的特定源定位的HRTF对于人的每只耳朵是唯一的(并且对于该人是唯一的)。在一些实施例中，传递函数处理模块250可以使用校准过程为用户确定HRTF。在一些实施例中，传递函数处理模块250可以向远程***提供关于用户的信息。远程***使用例如机器学习来确定为用户定制的一组HRTF，并将定制的一组HRTF提供给音频***200。

跟踪模块260被配置成跟踪一个或更多个声源的定位。跟踪模块260可以比较当前DOA估计，并将它们与先前的DOA估计的存储历史进行比较。在一些实施例中，音频***200可以定期地(例如每秒一次或者每毫秒一次)重新计算DOA估计。跟踪模块可以将当前DOA估计与先前的DOA估计进行比较，并且响应于声源的DOA估计的变化，跟踪模块260可以确定声源移动了。在一些实施例中，跟踪模块260可以基于从头戴装置或某个其他外部源接收的视觉信息来检测定位的变化。跟踪模块260可以跟踪一个或更多个声源随着时间的推移的移动。跟踪模块260可以存储声源的数量和每个声源在每个时间点的定位的值。响应于声源的数量或位置的值的变化，跟踪模块260可以确定声源移动了。跟踪模块260可以计算定位方差(localization variance)的估计。定位方差可以用作移动的变化的每次确定的置信水平。

波束形成模块270被配置为处理一个或更多个ATF，以选择性地强调(emphasize)来自某个区域内的声源的声音，同时去强调(de-emphasize)来自其他区域的声音。在分析由传感器阵列220检测到的声音时，波束形成模块270可以组合来自不同声学传感器的信息，以强调来自局部区域的特定区域的相关声音，同时去强调来自该特定区域外部的声音。波束形成模块270可以基于例如来自DOA估计模块240和跟踪模块260的不同DOA估计，将与来自特定声源的声音相关联的音频信号与局部区域中的其他声源隔离。波束形成模块270因此可以选择性地分析局部区域中的分立声源。在一些实施例中，波束形成模块270可以增强来自声源的信号。例如，波束形成模块270可以应用消除高于、低于某些频率或在某些频率之间的信号的声音过滤器。信号增强起作用来相对于由传感器阵列220检测到的其他声音来增强与给定的所识别的声源相关联的声音。

阵列优化模块275优化传感器阵列220中声学传感器的活动集合。传感器阵列205中的声学传感器的全部或子集可以是活动的，以检测声音。阵列优化模块275可以确定传感器阵列220周围的局部区域的环境参数，并确定传感器阵列220的性能度量。阵列优化模块275基于环境参数从传感器阵列220的声学传感器中确定满足性能度量的声学传感器子集的选择。在一个示例中，局部区域的环境参数包括混响时间，并且性能度量包括阵列增益。阵列优化模块275基于局部区域的混响时间，从传感器阵列220的声学传感器中确定实现目标阵列增益的声学传感器子集的选择。通常，较长的混响时间需要较大数量的激活的声学传感器来实现目标阵列增益。

为了优化功耗，阵列优化模块275可以确定在给定局部区域的参数的情况下可以用来满足性能度量的声学传感器的最小数量。传感器阵列220的选定声学传感器产生音频数据，该音频数据然后由音频控制器230进行处理。参照图3讨论了声学传感器的选择性激活和去激活。

为了确定一个或更多个环境参数，传感器阵列220可以检测声音，例如在局部区域中出现的非受控的声音或受控的声音。受控的声音包括由头戴装置的一个或更多个换能器或受控制或以其他方式与音频控制器230协调的某个其他设备产生的声音，而非受控的声音指来自环境的声音。在一些实施例中，局部区域的环境参数可以包括混响时间。混响时间被定义为声音衰减(例如衰减60dB(例如RT60))所花费的时间。混响时间可以用各种方法测量。在一个示例中，基于SLAM计算确定局部区域以生成局部区域的模型，并且执行局部区域中的声音传播的模拟以确定混响时间。在另一示例中，混响时间可以基于传感器阵列的一个或更多个声学传感器对声音的测量来确定。

也可以使用其他类型的环境参数。在一些实施例中，局部区域的环境参数可以包括脉冲响应，该脉冲响应定义了当声音从声源传播到局部区域中的目的地(例如，传感器阵列)时声音如何被转换。脉冲响应可以包括直达声、早期反射和晚期混响。在一些实施例中，局部区域的环境参数可以包括与局部区域中的声源相关联的参数。例如，参数可以包括局部区域中的声源的数量、声源的定位或到达方向、或者声源的信噪比。在一些实施例中，局部区域的环境参数可以包括背景噪声的响度、背景噪声的空间属性、局部区域的噪声基底(noise floor)、局部区域表面的材料和声吸收、方向上的频率响应等。

局部区域的环境参数可以由音频***200确定，例如基于从传感器阵列220的声学传感器或其他类型的传感器接收数据并在阵列优化模块275处执行计算。在另一示例中，音频***200可以从远程***接收(例如，下载)一个或更多个环境参数。例如，远程***(例如，图5所示的映射服务器525)可以存储局部区域和环境参数之间的关联。音频***200可以确定头戴装置的定位，并向远程***生成对环境参数的请求。作为响应，服务器基于定位确定环境参数，并将环境参数提供给音频***200。

性能度量可以定义由传感器阵列220生成的音频数据应该满足的性能或感知的性能的水平。性能度量的一些示例可以包括信噪比(SNR)、阵列增益、字差错率、失真阈值水平、拾音距离、白噪声增益、波束形成器的信噪比、语音质量、语音可懂度或听配能。SNR定义了目标信号电平与背景噪声电平的比率。阵列增益定义了输出SNR与输入SNR之间的比率。字差错率定义了语音识别或机器翻译算法的准确性。失真指的是音频源的波形的变形，并且失真阈值水平可以定义允许的失真的阈值量。拾音距离定义了传感器阵列应该拾取的声源的最大距离。白噪声增益或信噪比衡量抑制空间不相关噪声的能力。语音质量是指对感知的语音质量的测量或估计。语音可懂度是指对一个人所能理解的词语数量的测量或估计。听配能指的是用户在试图理解对话中的词语时所承受的认知负荷量。

在一些实施例中，性能度量可以由与包括音频***200的头戴装置分离的设备来指定。例如，多个用户可以各自在局部区域中佩戴头戴装置。第一头戴装置可以确定性能度量，并且将该性能度量提供给另一头戴装置，该另一头戴装置基于接收到的性能度量来选择声学传感器子集。

通过选择声学传感器的最佳子集，而不是利用传感器阵列220的所有声学传感器，阵列优化模块275降低了功耗，同时在满足性能度量方面保持高性能。通过选择性地激活或去激活声学传感器、通过减少从声学传感器传输到音频***200的音频控制器230的音频数据量、和/或通过减少音频控制器230用于处理的音频数据量，可以降低功耗。阵列优化模块275确定所使用的声学传感器的数量，以及头戴装置和/或颈带上的传感器阵列中哪些声学传感器被使用和未被使用。为了优化功耗，阵列优化模块275可以在给定局部区域的参数的情况下确定可用于满足性能度量的声学传感器的最小数量。一般来说，由间隔更远的声学传感器捕获的声音导致更有区别的音频数据，以便于DOA估计或其他类型的空间化音频处理。这样，声学传感器的选择可以包括优化激活的声学传感器之间的距离。

神经网络模块280可以确定传感器阵列220的声学传感器子集的选择。神经网络模块280可以包括处理电路，例如图形处理单元(GPU)或专用集成电路(ASIC)。在一些实施例中，处理电路是音频***200的部件。在其他实施例中，处理电路与音频***200分离，例如在经由网络连接到音频***200的远程***中或在控制台中。这里，音频***200向远程***提供神经网络输入，并从远程***接收选定的声学传感器子集。神经网络模块280实现包括神经网络层和互连的神经网络，所述神经网络层和互连定义了包括局部区域的环境参数和性能度量的输入与包括传感器阵列的声学传感器子集的输出之间的关系。神经网络接收输入并产生输出以控制音频***200的操作。

在一些实施例中，启发法(heuristics)和神经网络的组合可用于确定声学传感器子集。例如，启发法可用于确定局部区域类型。局部区域类型定义了包括类似或相同的环境参数的局部区域类别。不同类型的局部区域，例如室内、室外、房间类型等，可以具有不同的参数(例如混响时间)，并因此局部区域类型的确定提供了用于选择声学传感器子集的聚类。局部区域类型可以基于由SLAM***生成的局部区域的模型、来自一个或更多个声学传感器的音频数据、用户输入等来确定。局部区域类型可以与一个或更多个环境参数和一个或更多个性能度量中的至少一者一起用作神经网络的输入。神经网络输出声学参数的子集，该子集在满足一个或更多个性能度量的同时优化功耗。在一些实施例中，可以应用另一种启发法来调整由神经网络确定的声学传感器子集。例如，一个或更多个特定的声学传感器可以基于目标声源的方向被激活，或者基于不期望的声源的方向被去激活。

声音过滤器模块285确定用于换能器阵列210的声音过滤器。在一些实施例中，声音过滤器使音频内容被空间化，使得音频内容听起来源自目标区域。声音过滤器模块285可以使用HRTF和/或声学参数来生成声音过滤器。声学参数描述了局部区域的声学特性。声学参数可以包括例如混响时间、混响水平、房间脉冲响应等。在一些实施例中，声音过滤器模块285计算一个或更多个声学参数。在一些实施例中，声音过滤器模块285从映射服务器请求声学参数(例如，如下面参考图5所述的)。

声音过滤器模块285向换能器阵列210提供声音过滤器。在一些实施例中，作为频率的函数，声音过滤器可以引起声音的正放大或负放大。

传感器阵列优化

图3是示出根据一个或更多个实施例的优化包括音频***(例如，音频***200)的头戴装置上的声学传感器的过程300的流程图。在一个实施例中，图3的过程由音频***的部件执行。在其他实施例中，其他实体(例如，控制台)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

音频***确定310包括声学传感器的传感器阵列周围的局部区域的一个或更多个环境参数。一个或更多个环境参数可以由传感器阵列的声学传感器、头戴装置的其他类型的传感器确定，或者从服务器接收。

音频***确定320传感器阵列的一个或更多个性能度量。一个或更多个性能度量可以由音频***或由用户定义。

音频***基于一个或更多个环境参数，从传感器阵列的声学传感器中确定330满足一个或更多个性能度量的声学传感器子集的选择。音频***可以关联作为输入的性能度量和环境参数与作为输出的声学传感器子集之间的关系，并基于这些关系为子集选择声学传感器。通过选择声学传感器的最佳子集而不是利用传感器阵列的所有声学传感器，音频***降低了功耗，同时在满足性能度量方面保持了高性能。选定的声学传感器子集可以包括传感器阵列的所有声学传感器。

在一个示例中，混响时间的环境参数用于选择降低功耗同时满足阵列增益性能度量的声学传感器子集。在一些实施例中，声学传感器子集的选择由神经网络确定。

音频***使用传感器阵列的声学传感器子集生成340音频数据。音频数据指的是由选定的声学传感器子集从捕获到的声音中生成的数据。在一些实施例中，音频***选择性地激活和去激活声学传感器，使得选定的声学传感器子集通电，而未被选择的其他声学传感器断电。将一些声学传感器断电会降低功耗。在一些实施例中，未被选择的声学传感器通电并生成音频数据，但不将音频数据传输到控制器。在一些实施例中，来自未被选择的声学传感器的音频数据被传输到控制器，但是不被控制器处理。在这些情况中的每种情况下，音频***的功耗都可以降低。

音频***处理350来自声学传感器子集的音频数据。由音频***(例如，由换能器阵列210)呈现的音频内容可以部分基于经处理的音频数据。该处理可以包括执行声传递函数(例如，ATF或HRTF)、波束形成、DoA估计、信号增强、空间过滤或用于空间化音频内容的其他类型的处理的应用。

可以重复过程300，例如通过跟踪环境参数的变化、确定性能度量以及基于环境参数的变化或性能度量选择声学传感器的不同子集。随着佩戴头戴装置的用户移动(例如移动到局部区域中的另一个定位或另一个局部区域)，或者随着对象相对于用户移动，可以连续地重复过程300。

图4是示出根据一个或更多个实施例的对于不同混响时间的阵列增益与声学传感器数量之间的关系的曲线图。线402示出了对于混响时间(“RT60”)为500ms的局部区域，阵列增益(以dB为单位)与声学传感器(“麦克风”)数量之间的关系。线404示出了对于混响时间(“RT60”)为100ms的局部区域，阵列增益与声学传感器数量之间的关系。较长的混响时间通常与较大数量的声学传感器相关，以实现相同量的阵列增益。因此，实现阵列增益的目标性能度量的声学传感器的数量取决于混响时间参数。例如，对于500ms的混响时间，使用4个麦克风导致大约11.2dB的阵列增益，而对于100ms的混响时间，使用4个麦克风导致大约23.5dB的阵列增益。局部区域的其他类型的环境参数和性能度量包括可以教导传感器阵列的声学传感器的选择的类似关系。

示例***环境

图5是根据一个或更多个实施例的包括头戴装置505的***500。在一些实施例中，头戴装置505可以是图1A的头戴装置100或图1B的头戴装置105。***500可以在人工现实环境(例如，虚拟现实环境、增强现实环境、混合现实环境或其某种组合)中操作。图5所示的***500包括头戴装置505、耦合到控制台515的输入/输出(I/O)接口510、网络520和映射服务器525。虽然图5示出了包括一个头戴装置505和一个I/O接口510的示例***500，但在其他实施例中，***500中可以包括任意数量的这些部件。例如，可以有多个头戴装置，每个头戴装置具有相关联的I/O接口510，每个头戴装置和I/O接口510与控制台515通信。在替代配置中，***500中可以包括不同的和/或附加的部件。另外，在一些实施例中，结合图5所示的一个或更多个部件描述的功能可以以不同于结合图5描述的方式在部件之间分配。例如，控制台515的一些或全部功能可由头戴装置505提供。

头戴装置505包括显示组件530、光学块535、一个或更多个位置传感器540和DCA545。头戴装置505的一些实施例具有与结合图5描述的部件不同的部件。另外，在其他实施例中，由结合图5描述的各种部件提供的功能可以在头戴装置505的部件之间不同地分配，或者被捕获在远离头戴装置505的单独组件中。

显示组件530根据从控制台515接收的数据向用户显示内容。显示组件530使用一个或更多个显示元件(例如，显示元件120)显示内容。显示元件可以是例如电子显示器。在各种实施例中，显示组件530包括单个显示元件或多个显示元件(例如，用于用户的每只眼睛的显示器)。电子显示器的示例包括：液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管显示器(AMOLED)、波导显示器、某种其他显示器或其某种组合。须注意，在一些实施例中，显示元件120还可以包括光学块535的一些或全部功能。

光学块535可以放大从电子显示器接收到的图像光，校正与图像光相关联的光学误差，并且将校正后的图像光呈现给头戴装置505的一个或两个视窗。在各种实施例中，光学块535包括一个或更多个光学元件。光学块535中包括的示例光学元件包括：光圈、菲涅耳透镜、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块535可以包括不同光学元件的组合。在一些实施例中，光学块535中的一个或更多个光学元件可以具有一个或更多个涂层，例如部分反射涂层或抗反射涂层。

与较大的显示器相比，光学块535对图像光的放大和聚焦允许电子显示器在物理上更小、重量更轻并且消耗更少的功率。另外，放大可以增加电子显示器呈现的内容的视场。例如，显示的内容的视场使得显示的内容使用用户的几乎所有视场(例如，约110度对角线)来呈现，并且在某些情况下，使用用户的所有视场来呈现。另外，在一些实施例中，可以通过添加或移除光学元件来调整放大量。

在一些实施例中，光学块535可以被设计成校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差还可以包括球面像差、色差(chromatic aberrations)或由于透镜像场弯曲(lens fieldcurvature)、散光或任何其他类型的光学误差引起的误差。在一些实施例中，提供给电子显示器用于显示的内容被预失真，并且光学块535在其接收来自电子显示器的基于内容生成的图像光时校正失真。

位置传感器540是生成指示头戴装置505的位置的数据的电子设备。位置传感器540响应于头戴装置505的运动而生成一个或更多个测量信号。位置传感器190是位置传感器540的一个实施例。位置传感器540的示例包括：一个或更多个IMU、一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器或其某种组合。位置传感器540可以包括用于测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和用于测量旋转运动(例如，俯仰、偏航、横滚)的多个陀螺仪。在一些实施例中，IMU快速采样测量信号并根据采样的数据计算头戴装置505的估计位置。例如，IMU对从加速度计接收到的测量信号在时间上求积分以估计速度矢量，并且对速度矢量在时间上求积分以确定头戴装置505上的参考点的估计位置。参考点是可以用来描述头戴装置505的位置的点。虽然参考点通常可以定义为空间中的点，然而实际上参考点被定义为头戴装置505内的点。

DCA 545为局部区域的一部分生成深度信息。DCA包括DCA控制器和一个或更多个成像设备。DCA 545还可以包括照明器。DCA 545的操作和结构在上面关于图1A进行了描述。

音频***550向头戴装置505的用户提供音频内容。音频***550基本上与上述音频***200相同。例如，音频***550基于环境参数和目标性能度量来优化传感器阵列的声学传感器的选择。音频***550可以包括一个或更多个声学传感器、一个或更多个换能器和音频控制器。音频***550可以向用户提供空间化的音频内容。在一些实施例中，音频***550可以通过网络520从映射服务器525请求声学参数。声学参数描述局部区域的一个或更多个声学特性(例如，房间脉冲响应、混响时间、混响水平等)。音频***550可以提供来自例如DCA 545的描述局部区域的至少一部分的信息和/或来自位置传感器540的头戴装置505的位置信息。音频***550可以使用从映射服务器525接收的一个或更多个声学参数生成一个或更多个声音过滤器，并使用声音过滤器向用户提供音频内容。

I/O接口510是允许用户发送动作请求并从控制台515接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束捕获图像或视频数据的指令，或者是在应用内执行特定动作的指令。I/O接口510可以包括一个或更多个输入设备。示例输入设备包括：键盘、鼠标、游戏控制器、或者用于接收动作请求并将动作请求传送到控制台515的任何其他合适的设备。由I/O接口510接收的动作请求被传送到控制台515，该控制台执行对应于动作请求的动作。在一些实施例中，I/O接口510包括IMU，其捕获指示相对于I/O接口510的初始位置的I/O接口510的估计位置的校准数据。在一些实施例中，I/O接口510可以根据从控制台515接收到的指令向用户提供触觉反馈。例如，当动作请求被接收到时，或者当控制台515向I/O接口510传送指令时，触觉反馈被提供，该指令使I/O接口510在控制台515执行动作时生成触觉反馈。

控制台515向头戴装置505提供内容以根据从以下一项或更多项接收到的信息进行处理：DCA 545、头戴装置505和I/O接口510。在图5所示的示例中，控制台515包括应用储存器555、跟踪模块560和引擎565。控制台515的一些实施例具有与结合图5描述的模块或部件不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图5描述的方式被分配在控制台515的部件之间。在一些实施例中，本文讨论的关于控制台515的功能可以在头戴装置505或远程***中实现。

应用储存器555存储用于由控制台515执行的一个或更多个应用。应用是一组指令，该组指令当由处理器执行时生成用于呈现给用户的内容。应用生成的内容可以响应于经由头戴装置505或I/O接口510的移动从用户接收到的输入。应用的示例包括：游戏应用、会议应用、视频回放应用或其它合适的应用。

跟踪模块560使用来自DCA545、一个或更多个位置传感器540或其某种组合的信息来跟踪头戴装置505或I/O接口510的移动。例如，跟踪模块560基于来自头戴装置505的信息来确定头戴装置505的参考点在局部区域的映射中的位置。跟踪模块560还可以确定对象或虚拟对象的位置。另外，在一些实施例中，跟踪模块560可以使用来自位置传感器540的指示头戴装置505的位置的数据的部分以及来自DCA 545的局部区域的表示来预测头戴装置505的未来定位。跟踪模块560向引擎565提供头戴装置505或I/O接口510的估计的或预测的未来位置。

引擎565执行应用并从跟踪模块560接收头戴装置505的位置信息、加速度信息、速度信息、预测的未来位置或其某种组合。基于接收到的信息，引擎565确定提供给头戴装置505用于呈现给用户的内容。例如，如果接收到的信息指示用户向左看，则引擎565为头戴装置505生成内容，该内容反映用户在虚拟局部区域中或在用附加内容增强局部区域的局部区域中的移动。此外，引擎565响应于从I/O接口510接收到的动作请求而在控制台515上执行的应用内执行动作并向用户提供该动作被执行的反馈。所提供的反馈可以是经由头戴装置505的视觉或听觉反馈，或者经由I/O接口510的触觉反馈。

网络520将头戴装置505和/或控制台515耦合到映射服务器525。网络520可以包括使用无线和/或有线通信***的局域网和/或广域网的任意组合。例如，网络520可以包括互联网以及移动电话网络。在一个实施例中，网络520使用标准通信技术和/或协议。因此，网络520可以包括使用诸如以太网、802.11、微波接入全球互操作性(WiMAX)、2G/3G/4G移动通信协议、数字用户线路(DSL)、异步传输模式(ATM)、InfiniBand、PCI快速(PCI Express)高级交换等技术的链路。类似地，网络520上使用的网络协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。通过网络520交换的数据可以使用包括二进制形式的图像数据(例如，便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来表示。此外，所有或部分链路可以使用常规加密技术进行加密，例如安全套接字层(SSL)、传输层安全性(TLS)、虚拟专用网络(VPN)、互联网协议安全性(IPsec)等。

映射服务器525可以包括存储描述多个空间的虚拟模型的数据库，其中虚拟模型中的一个定位对应于头戴装置505的局部区域的当前配置。映射服务器525经由网络520从头戴装置505接收描述局部区域的至少一部分的信息和/或局部区域的定位信息。映射服务器525基于接收到的信息和/或定位信息来确定虚拟模型中与头戴装置505的局部区域相关联的定位。映射服务器525部分基于虚拟模型中确定的定位和与该确定的定位相关联的任何声学参数来确定(例如，检索)与局部区域相关联的一个或更多个声学参数。映射服务器525可以将局部区域的定位和与局部区域相关联的任何声学参数值发送给头戴装置505。在一些实施例中，映射服务器525向头戴装置505提供由音频***550用来优化与传感器阵列相关联的功耗的一个或更多个环境参数。

附加配置信息

为了说明提出了实施例的前述描述；它并不旨在是无遗漏的或将专利权利限制到所公开的精确形式。相关领域的技术人员可以理解，考虑到上述公开，许多修改和变化是可能的。

本说明书的一些部分根据对信息的操作的算法和符号表示来描述实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为将由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括计算机可读介质的计算机程序产品来实现软件模块，该计算机可读介质包含计算机程序代码，计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。

实施例还可以涉及用于执行本文的操作的装置。该装置可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以存储在非暂时性的、有形的计算机可读存储介质中，或者存储在适于存储电子指令的任何类型的介质中，这些介质可以耦合到计算机***总线。此外，说明书中提到的任何计算***可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。

实施例还可以涉及通过本文描述的计算过程生产的产品。这样的产品可以包括从计算过程得到的信息，其中信息被存储在非暂时性的、有形的计算机可读存储介质上且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。

最后，说明书中使用的语言主要是出于可读性和指导性的目的而选择的，它可能不是为了描述或限制专利权利而选择的。因此，本专利权利的范围不受本详细描述的限制，而是受在基于此的申请上发布的任何权利要求的限制。因此，实施例的公开旨在说明而非限制在所附权利要求中阐述的专利权利的范围。

Claims

1.一种方法，包括由包括传感器阵列的音频***：

确定所述传感器阵列周围的局部区域的环境参数，所述传感器阵列包括被配置成检测所述局部区域中的声音的声学传感器；

确定所述传感器阵列的性能度量；

基于所述局部区域的所述环境参数，从所述传感器阵列的声学传感器中确定满足所述性能度量的声学传感器子集的选择；和

处理来自所述传感器阵列的所述声学传感器子集的音频数据，其中由所述音频***呈现的音频内容部分地基于处理后的音频数据。

2.根据权利要求1所述的方法，还包括激活所述声学传感器子集。

3.根据权利要求2所述的方法，还包括去激活所述子集之外的所述传感器阵列的声学传感器。

4.根据权利要求2所述的方法，其中，所述传感器阵列的第一声学传感器在所述子集之外，并且所述第一声学传感器是活动的，所述方法还包括：

从由所述传感器阵列生成的音频数据中去除由所述第一声学传感器产生的音频数据，以形成所述子集的音频数据。

5.根据权利要求1所述的方法，其中：

所述环境参数包括混响时间；并且

所述性能度量包括阵列增益。

6.根据权利要求1所述的方法，其中，所述环境参数包括以下之一：

声学声源的数量；

声源的定位；

声源的到达方向；或者

背景噪声的响度；或者

背景噪声的空间属性。

7.根据权利要求1所述的方法，其中，处理所述音频数据包括执行以下至少一项：

声传递函数的应用；

波束形成；

到达方向估计；

信号增强；或者

空间过滤。

8.根据权利要求1所述的方法，其中，所述性能度量包括以下之一：

字差错率、阵列增益、失真阈值水平、信噪比、白噪声增益、波束形成器的信噪比、拾音距离、语音质量、语音可懂度或听配能。

9.根据权利要求1所述的方法，其中，基于所述环境参数从所述传感器阵列的声学传感器中确定满足所述性能度量的声学传感器子集的选择还包括：

使用神经网络，所述神经网络定义包括环境参数和性能度量的输入与包括所述传感器阵列的声学传感器子集的输出之间的关系。

10.根据权利要求1所述的方法，以及以下中的任一项成立：

a)还包括基于与所述传感器阵列相关联的定位从服务器接收所述环境参数；或者

b)还包括从包括另一传感器阵列的头戴装置接收所述性能度量；或者

c)还包括基于所述环境参数的变化来更新所述声学传感器子集。

11.一种***，包括：

传感器阵列，其包括被配置成检测局部区域中的声音的声学传感器；和

处理电路，其被配置成：

确定所述局部区域的环境参数；

确定所述传感器阵列的性能度量；

处理来自所述传感器阵列的所述声学传感器子集的音频数据，其中由所述***呈现的音频内容部分地基于处理后的音频数据。

12.根据权利要求11所述的***，其中，所述处理电路还被配置成激活所述声学传感器子集。

13.根据权利要求1所述的***，以下中的任一项成立：

a)其中，所述处理电路还被配置成去激活所述子集之外的所述传感器阵列的声学传感器；或者

b)其中，所述传感器阵列的第一声学传感器在所述子集之外，并且所述第一声学传感器是活动的，并且所述处理电路还被配置成：

14.根据权利要求1所述的***，以及以下中的任一项成立：

a)其中：所述环境参数包括混响时间；并且

所述性能度量包括阵列增益；或者

b)其中：所述环境参数包括以下之一：声学声源的数量、声源的定位、声源的到达方向、背景噪声的响度、或者背景噪声的空间属性；并且

被配置成处理所述音频数据的处理电路包括音频控制器，所述音频控制器被配置成执行以下至少一项：声传递函数的应用、波束形成、到达方向估计、信号增强或空间过滤；或者

c)其中，所述性能度量包括：字差错率、阵列增益、失真阈值水平、信噪比、白噪声增益、波束形成器的信噪比、拾音距离、语音质量、语音可懂度或听配能。

15.一种存储指令的非暂时性计算机可读介质，所述指令在由一个或更多个处理器执行时使所述一个或更多个处理器：

确定传感器阵列周围的局部区域的环境参数，所述传感器阵列包括被配置成检测所述局部区域中的声音的声学传感器；

确定所述传感器阵列的性能度量；

处理来自所述传感器阵列的所述声学传感器子集的音频数据。