CN110636414B

CN110636414B - 用于个性化声传递函数的动态确定的音频***

Info

Publication number: CN110636414B
Application number: CN201910424046.9A
Authority: CN
Inventors: 拉维什·迈赫拉; 安东尼奥·约翰·米勒; 弗拉迪米尔·图尔巴宾
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-06-22
Filing date: 2019-05-21
Publication date: 2021-12-28
Anticipated expiration: 2039-05-21
Also published as: US20190394564A1; US11523213B2; US11070912B2; CN110636414A; CN114189789A; US20210306744A1

Abstract

本发明涉及用于个性化声传递函数的动态确定的音频***。一种眼镜装置包括音频***。在一个实施方式中，音频***包括麦克风阵列，该麦克风阵列包括多个声传感器。每个声传感器被配置为检测麦克风阵列周围的局部区域内的声音。针对多个检测到的声音，音频***执行到达方向(DoA)估计。基于检测到的声音的参数和/或DoA估计，音频***然后可以生成或更新对用户唯一的一个或多个声传递函数。音频***可以使用一个或多个声传递函数来为用户生成音频内容。

Description

用于个性化声传递函数的动态确定的音频***

技术领域

本公开内容大体上涉及立体声学，并且具体地涉及用于用户的个性化声传递函数的动态确定的音频***。

背景技术

根据声源相对于每只耳朵的方向和定位以及在其中感知到声音的房间的周围环境，在两只耳朵中感知到的声音可能不同。人类可以通过比较在每只耳朵中感知到的声音来确定声源的定位。在“环绕声”***中，多个扬声器使用声传递函数来再现声音的方向性方面。声传递函数表示在其源定位处的声音与例如通过麦克风阵列或个人如何检测到该声音之间的关系。单个麦克风阵列(或者佩戴麦克风阵列的个人)可具有用于麦克风阵列周围的(或者佩戴麦克风阵列的个人周围的)局部区域中的几个不同的源定位的几个关联的声传递函数。此外，用于麦克风阵列的声传递函数可以基于局部区域中的麦克风阵列的位置和/或定向而不同。此外，麦克风阵列的声传感器可以以大量可能的组合进行布置，并且因而，关联的声传递函数对于麦克风阵列是唯一的。因此，确定每个麦克风阵列的声传递函数可能需要直接评估，这就需要的时间和资源而言可能是漫长且昂贵的过程。

发明内容

实施方式涉及用于动态确定声传递函数的音频***。声传递函数表征如何从空间中的点接收声音。具体地，声传递函数定义在其源定位处的声音的参数与例如通过麦克风阵列或用户的耳朵检测到声音的参数之间的关系。声传递函数可以是例如阵列传递函数(ATF)和/或头部相关传递函数(HRTF)。在一个实施方式中，音频***包括麦克风阵列，该麦克风阵列包括多个声传感器。每个声传感器被配置为检测麦克风阵列周围的局部区域内的声音。多个声传感器中的至少一些耦接至近眼显示器(NED)。音频***还包括控制器，该控制器被配置为估计由麦克风阵列检测到的声音相对于局部区域内的NED的位置的到达方向(DoA)。基于检测到的声音的参数，控制器生成或更新与音频***相关联的声传递函数。每个声传递函数与局部区域内的NED的特定位置相关联，使得随着NED的位置在局部区域内改变，控制器生成或更新新的声传递函数。在一些实施方式中，音频***使用一个或多个声传递函数为佩戴NED的用户生成音频内容。

在一些实施方式中，描述了用于动态确定声传递函数的方法。麦克风阵列监测麦克风阵列周围的局部区域中的声音。麦克风阵列包括多个声传感器。多个声传感器中的至少一些耦接至近眼显示器(NED)。估计检测到的声音相对于局部区域内的NED的位置的到达方向(DoA)。基于DoA估计，更新与NED相关联的声传递函数。声传递函数可以是例如麦克风阵列的阵列传递函数或者与用户相关联的HRTF。在一些实施方式中，计算机可读介质可以被配置为执行方法的步骤。

附图说明

图1是示出了根据一个或多个实施方式的包括麦克风阵列的眼镜装置的实例。

图2是示出了根据一个或多个实施方式的包括作为用户的耳朵上的麦克风的声传感器的眼镜装置的一部分的实例。

图3是示出了根据一个或多个实施方式的包括颈带的眼镜装置的实例。

图4是根据一个或多个实施方式的音频***的框图。

图5是示出了根据一个或多个实施方式的生成和更新包括音频***的眼镜装置的头部相关传递函数的过程的流程图。

图6是根据一个或多个实施方式的包括音频***的眼镜装置的***环境。

附图仅为了说明的目的描述了本公开内容的实施方式。本领域技术人员从下列描述中容易认识到，在不背离本文中描述的本公开内容的原理或推崇的益处的情况下，可以采用本文中示出的结构和方法的替换实施方式。

具体实施方式

声传递函数有时在声音衰减室中针对相对于个人的许多不同的(例如，通常多于100个)源定位来(例如，经由扬声器阵列)确定。所确定的声传递函数然后可以用于为个人生成“环绕声”体验。然而，环绕声的质量主要根据用于生成声传递函数的不同定位的数量。此外，为了减少误差，可以为每个扬声器定位确定多个声传递函数(即，每个扬声器正在生成多个不连续的声音)。因此，为了高质量的环绕声，由于存在为许多不同的扬声器定位确定的多个声传递函数，因此可能需要相对长的时间(例如，多于一个小时)来确定声传递函数。另外，用于测量声传递函数的对于质量环绕声足够的基础设施可能是复杂的(例如，声音衰减室、一个或多个扬声器阵列等)。因此，就所需要的硬件资源和/或时间而言，用于获得声传递函数的一些方法效率低。

音频***检测声音以便为用户生成一个或多个声传递函数。在一个实施方式中，音频***包括麦克风阵列，该麦克风阵列包括多个声传感器和控制器。每个声传感器被配置为检测麦克风阵列周围的局部区域内的声音。多个声传感器中的至少一些耦接至被配置为由用户佩戴的近眼显示器(NED)。在一些实施方式中，多个声传感器中的一些耦接至与NED耦接的颈带。随着用户遍及用户周围的局部区域移动，麦克风阵列检测到不受控制的和受控制的声音。不受控制的声音是未受到音频***的控制并且在局部区域中出现的声音(例如，自然发生的环境噪声)。受控制的声音是由音频***控制的声音。

控制器被配置为估计由麦克风阵列检测到的声音相对于局部区域内的NED的位置的到达方向(DoA)。在一些实施方式中，控制器为音频数据集填充信息，该信息可包括检测到的声音以及与每个检测到的声音相关联的参数。示例性参数可包括频率、振幅、持续时间、DoA估计、源定位、或者它们的某种组合。基于音频数据集，控制器生成或更新针对检测到的声音相对于NED的位置的源定位的声传递函数。声传递函数表征如何从空间中的点接收声音。具体地，声传递函数定义在其源定位中的声音的参数与例如通过麦克风阵列或用户的耳朵检测到声音的参数之间的关系。声传递函数可以是例如阵列传递函数(ATF)和/或头部相关传递函数(HRTF)。每个声传递函数与局部区域内的具体的源定位和NED的特定位置相关联，使得随着NED的位置在局部区域内改变，控制器生成或更新新的声传递函数。在一些实施方式中，音频***使用一个或多个声传递函数为佩戴NED的用户生成音频内容(例如，环绕声)。

本公开内容的实施方式可包括人工现实***或者结合人工现实***实现。人工现实是在呈现给用户之前以一些形式调节的一种现实形式，例如，该人工现实可包括虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混合性现实、或者它们的某种组合和/或衍生。人工现实内容可包括完全生成的内容或者与捕获的(例如，现实世界)内容结合生成的内容。人工现实内容可包括视频、音频、触觉反馈或者它们的某种组合，并且其中的任一个可在单个信道或者多个信道中(诸如，给观看者产生三维效果的立体视频)中呈现。另外，在一些实施方式中，人工现实还可以与例如用于创建人工现实中的内容和/或以其他方式在人工现实中使用(例如，在人工现实中执行活动)的应用程序、产品、配件、服务或者它们的某种组合相关联。提供人工现实内容的人工现实***可以在各个平台上实现，该平台包括连接至主计算机***的头戴式显示器(HMD)、独立的HMD、移动装置或计算***、或者能够向一个或多个观看者提供人工现实内容的任何其他硬件平台。

眼镜装置配置

图1是示出了根据一个或多个实施方式的包括音频***的眼镜装置100的实例。眼镜装置100将媒体呈现给用户。在一个实施方式中，眼镜装置100可以是近眼显示器(NED)。由眼镜装置100呈现的媒体的实例包括一个或多个图像、视频、音频、或者它们的某种组合。除了其他部件之外，眼镜装置100可包括镜架105、镜片110、传感器装置115和音频***。除了其他部件之外，音频***可包括一个或多个声传感器120的麦克风阵列以及控制器125。尽管图1示出了在眼镜装置100上的示例性定位中的眼镜装置100的部件，但是部件可以位于眼镜装置100上的其他地方、在与眼镜装置100配对的***装置上、或者它们的某种组合。

眼镜装置100可以校正或加强用户的视野，保护用户的眼睛，或者将图像提供给用户。眼镜装置100可以是矫正用户的视力缺陷的眼镜。眼镜装置100可以是保护用户的眼睛免受阳光的太阳镜。眼镜装置100可以是保护用户的眼睛免受撞击的安全眼镜。眼镜装置100可以是在晚上加强用户的视野的夜视装置或红外线眼镜。眼镜装置100可以是为用户产生VR、AR或MR内容的近眼显示器。可替换地，眼镜装置100可不包括镜片110并且可以是具有将音频(例如，音乐、无线电广播、播客)提供给用户的音频***的镜架105。

镜架105包括保持镜片110和末端件附着于用户的前部。镜架105的前部桥接用户的鼻子的顶部。末端件(例如，镜腿)是将眼镜装置100保持在用户的适当位置上的镜架105的部分(例如，每个末端件延伸超过用户的对应耳朵)。末端件的长度可以是可调节的以适配不同的用户。末端件还可以包括旋绕在用户的耳朵后面的一部分(例如，镜腿脚套、耳件)。

镜片110向佩戴眼镜装置100的用户提供或透射光。镜片110可以是帮助矫正用户的视力缺陷的处方镜片(例如，单视镜片、双焦点和三焦点镜片、或者渐进镜片)。处方镜片向佩戴眼镜装置100的用户透射环境光。透射的环境光可以被处方镜片改变以矫正用户的视力缺陷。镜片110可以是偏振镜片或有色镜片以保护用户的眼睛免受阳光。镜片110可以是作为波导显示器的一部分的一个或多个波导，其中图像光通过波导的端部或边缘耦合至用户的眼睛。镜片110可包括用于提供图像光的电子显示器并且还可以包括用于放大来自电子显示器的图像光的光学块。有关镜片110的其他细节关于图6讨论。镜片110由眼镜装置100的镜架105的前部保持。

在一些实施方式中，眼镜装置100可包括深度相机组件(DCA)，该深度相机组件捕获描述眼镜装置100周围的局部区域的深度信息的数据。在一个实施方式中，DCA可包括结构化光投影仪、成像装置和控制器。该捕获数据可以是通过成像装置捕获的通过结构化光投影仪投射到局部区域上的结构化光的图像。在一个实施方式中，DCA可包括被定向以捕获立体声中的局部区域的部分的两个或更多个相机和控制器。该捕获数据可以是由立体声中的局部区域的两个或更多个相机捕获的图像。控制器使用捕获数据计算局部区域的深度信息。基于深度信息，控制器确定局部区域内的眼镜装置100的绝对位置信息。DCA可以与眼镜装置100集成或者可以放置在眼镜装置100之外的局部区域内。在后者实施方式中，DCA的控制器可以将深度信息传输至眼镜装置100的控制器125。

传感器装置115响应于眼镜装置100的运动生成一个或多个测量信号。传感器装置115可以位于眼镜装置100的镜架105的一部分上。传感器装置115可包括位置传感器、惯性测量单元(IMU)、或者这两者。眼镜装置100的一些实施方式可包括或者可以不包括传感器装置115或者可包括多于一个传感器装置115。在传感器装置115包括IMU的实施方式中，IMU基于来自传感器装置115的测量信号生成快速校准数据。传感器装置115的实例包括：一个或多个加速计、一个或多个陀螺仪、一个或多个磁力计、检测运动的其他合适类型的传感器、用于IMU的误差校正的传感器类型或者它们的某种组合。传感器装置115可以位于IMU的外部、IMU的内部、或者它们的某种组合。

基于一个或多个测量信号，传感器装置115估计眼镜装置100相对于眼镜装置100的初始位置的当前位置。该估计位置可包括眼镜装置100的定位和/或眼镜装置100或佩戴眼镜装置100的用户的头部的定向、或者它们的某种组合。该定向可以与每个耳朵相对于参考点的位置对应。在一些实施方式中，传感器装置115使用来自DCA的深度信息和/或绝对位置信息以估计眼镜装置100的当前位置。传感器装置115可包括测量平移运动(前/后、上/下、左/右)的多个加速计和测量旋转运动(例如，倾斜、偏转、滚动)的多个陀螺仪。在一些实施方式中，IMU快速地采样测量信号并且从采样数据计算眼镜装置100的估计位置。例如，IMU对从加速计接收的测量信号在时间上求积分以估计速度矢量，并且对速度矢量在时间上求积分，以确定眼镜装置100上的参考点的估计位置。可替换地，IMU将采样的测量信号提供至控制器125，控制器125确定快速校准数据。参考点是可以用于描述眼镜装置100的位置的点。尽管参考点通常可以定义为空间中的点，然而，实际上，参考点被定义为眼镜装置100内的点。

音频***检测声音以便为用户生成一个或多个声传递函数。声传递函数表征如何从空间中的点接收声音。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数、或者它们的某种组合。一个或多个声传递函数可以与眼镜装置100、佩戴眼镜装置100的用户、或者这两者相关联。音频***然后可以使用一个或多个声传递函数为用户生成音频内容。眼镜装置100的音频***包括麦克风阵列和控制器125。

麦克风阵列检测麦克风阵列周围的局部区域内的声音。麦克风阵列包括多个声传感器。声传感器是检测由于声波导致的气压变化的传感器。每个声传感器被配置为检测声音并且将检测到的声音转换为电子格式(模拟的或数字的)。声传感器可以是声波传感器、麦克风、声换能器、或者适用于检测声音的类似的传感器。例如，在图1中，麦克风阵列包括八个声传感器：声传感器120a、120b，可以设计成被放置在用户的对应的耳朵的内部；以及声传感器120c、120d、120e、120f、120g、120h，被放置在镜架105上的各个定位处。声传感器120a-120h在本文中可以共同称为“声传感器120”。关于图4讨论有关音频***的其他细节。

麦克风阵列检测麦克风阵列周围的局部区域内的声音。局部区域是围绕眼镜装置100的环境。例如，局部区域可以是佩戴眼镜装置100的用户在里面的房间，或者佩戴眼镜装置100的用户可以在外面并且局部区域是其中麦克风阵列能够检测声音的外面区域。检测到的声音可以是不受控制的声音或者受控制的声音。不受控制的声音是未受音频***控制并且在局部区域中出现的声音。不受控制的声音的实例可以是自然发生的环境噪声。在这个配置中，音频***也许能够使用由音频***检测到的不受控制的声音校准眼镜装置100。受控制的声音是由音频***控制的声音。受控制的声音的实例可以是由外部***(诸如，扬声器、扬声器组件、校准***或者它们的某种组合)输出的一个或多个信号。尽管眼镜装置100可以使用不受控制的声音校准，但是在一些实施方式中，外部***可以用于在校准处理期间校准眼镜装置100。每个检测到的声音(不受控制的和受控制的声音)可以与频率、振幅、持续时间或它们的某种组合相关联。

麦克风阵列的声传感器120的配置可以改变。尽管眼镜装置100在图1中示出为具有八个声传感器120，但是可以增加或者减少声传感器120的数量。增加声传感器120的数量可增加收集的音频信息的量以及音频信息的灵敏度和/或精确度。减少声传感器120的数量可减少由控制器125处理收集的音频信息所需要的计算能力。此外，麦克风阵列的每个声传感器120的位置可以改变。声传感器120的位置可包括用户上的限定位置、镜架105上的限定坐标、与每个声传感器相关联的定向、或者它们的某种组合。例如，声传感器120a、120b可以放置在用户的耳朵的不同部分上，诸如，在耳廓后面或者在外耳或小窝内，或者除了耳道内部的声传感器120之外可以在耳朵上或耳朵周围存在其他声传感器。使声传感器(例如，声传感器120a、120b)放置为紧挨着用户的耳道使麦克风阵列能够收集有关声音如何到达耳道的信息。镜架105上的声传感器120可以放置为沿着镜腿的长度、越过鼻梁、在镜片110之上或以下、或者它们的某种组合。声传感器120可以定向为使得麦克风阵列能够检测佩戴眼镜装置100的用户周围的各个方向的宽范围内的声音。

控制器125处理来自麦克风阵列的描述由麦克风阵列检测到的声音的信息。与每个检测到的声音相关联的信息可包括检测到的声音的频率、振幅和/或持续时间。对于每个检测到的声音，控制器125执行DoA估计。DoA估计是检测到的声音从此到达麦克风阵列的声传感器的估计方向。如果声音由麦克风阵列的至少两个声传感器检测到，则控制器125可以使用已知的声传感器的位置关系和来自每个声传感器的DoA估计来例如经由三角测量估计检测到的声音的源定位。因为检测声音的声传感器的数量增加和/或因为检测声音的声传感器之间的距离增加，因此源定位估计的精确度可以增加。

在一些实施方式中，控制器125为音频数据集填充信息。该信息可包括检测到的声音以及与每个检测到的声音相关联的参数。示例性参数可包括频率、振幅、持续时间、DoA估计、源定位、或者它们的某种组合。每个音频数据集可以与相对于NED的不同的源定位对应并且包括具有该源定位的一个或多个声音。这个音频数据集可以与该源定位的一个或多个声传递函数相关联。一个或多个声传递函数可以存储在数据集中。在替换的实施方式中，每个音频数据集可以与相对于NED的几个源定位对应并且包括每个源定位的一个或多个声音。例如，彼此相对靠近定位的源定位可以组合在一起。随着麦克风阵列检测到声音，控制器125可以为音频数据集填充信息。随着为每个检测到的声音执行DoA估计或者确定源定位，控制器125可以进一步为每个检测到的声音填充音频数据集。

在一些实施方式中，控制器125选择为其执行DoA估计的检测到的声音。控制器125可以基于与存储在音频数据集中的每个检测到的声音相关联的参数来选择检测到的声音。控制器125可以评估与每个检测到的声音相关联的存储参数并且确定一个或多个所存储参数是否满足对应的参数条件。例如，如果参数在阈值以上或以下或者落入目标范围内，则可以满足参数条件。如果满足参数条件，则控制器125为检测到的声音执行DoA估计。例如，控制器125可以为具有在频率范围内的频率、阈值振幅以上的振幅、阈值持续时间以下的持续时间、其他类似变化、或者它们的某种组合的检测到的声音执行DoA估计。可以由音频***的用户基于历史数据、基于音频数据集中的信息的分析(例如，评估收集的参数信息并且设置平均值)或者它们的某种组合设置参数条件。控制器125可以创建音频集中的元素以存储检测到的声音的DoA估计和/或源定位。在一些实施方式中，如果数据已经存在，则控制器125可以更新音频集中的元素。

在一些实施方式中，控制器125可以从眼镜装置100外部的***接收眼镜装置100的位置信息。位置信息可包括眼镜装置100的定位、眼镜装置100或佩戴眼镜装置100的用户的头部的定向、或者它们的某种组合。可以相对于参考点定义位置信息。该定向可以与每个耳朵相对于参考点的位置对应。***的实例包括成像组件、控制台(例如，如图6中描述的)、同时定位和地图构建(SLAM)***、深度相机组件、结构化光***、或者其他合适的***。在一些实施方式中，眼镜装置100可包括可以用于SLAM计算的传感器，该SLAM计算可以通过控制器125整体或部分执行。控制器125可以从***连续地或随意地或者以指定间隔接收位置信息。

基于检测到的声音的参数，控制器125生成与音频***相关联的一个或多个声传递函数。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数、或者它们的某种组合。ATF表征麦克风阵列如何从空间中的点接收声音。特别地，ATF定义在其源定位的声音的参数与麦克风阵列检测到声音的参数之间的关系。与声音相关联的参数可包括频率、振幅、持续时间、DoA估计等。在一些实施方式中，麦克风阵列的至少一些声传感器耦接至由用户佩戴的NED。由于个人的构造(例如，耳朵形状、肩部等)，可导致相对于麦克风阵列的具体的源定位的ATF从用户到用户而不同，该构造在声音传播至个人的耳朵时影响声音。因此，麦克风阵列的ATF是佩戴NED的每个用户个性化的。

HRTF表征耳朵如何从空间中的点接收声音。由于个人的构造(例如，耳朵形状、肩部等)，导致相对于个人的具体的源定位的HRTF对于个人的每只耳朵是唯一的(并且对于这个人是唯一的)，该构造在声音传播至个人的耳朵时影响声音。例如，在图1中，控制器125可以为用户生成两个HRTF，每只耳朵一个HRTF。一个HRTF或一对HRTF可以用于创建包括看起来来自空间中的特定点的声音的音频内容。几个HRTF可以用于创建环绕声音频内容(例如，用于家庭娱乐***、剧院扬声器***、沉浸式环境等)，其中，每个HRTF或每对HRTF对应于空间中的不同点，使得音频内容看起来来自空间中的几个不同点。在一些实施方式中，控制器125可以基于每个检测到的声音的DoA估计更新预先存在的声传递函数。随着眼镜装置100的位置在局部区域内改变，控制器125可以相应地生成新的声传递函数或者更新预先存在的声传递函数。

图2是示出了根据一个或多个实施方式的包括作为用户的耳朵上的麦克风的声传感器120a的眼镜装置200的一部分的实例。眼镜装置200可以是眼镜装置100的实施方式。声传感器205可以是声传感器120的实施方式。如图2所示，眼镜装置200的一部分被放置在耳廓后面以将眼镜装置200固定至用户。声传感器205被放置在用户的耳朵的入口以检测由用户周围的局部区域内的声音产生的压力波。将声传感器205放置为紧挨着用户的耳道(或者在耳道内)使声传感器205能够收集有关声音如何到达耳道的信息，使得可以为用户的每只耳朵生成唯一的HRTF。

图3是示出了根据一个或多个实施方式的包括颈带305的眼镜装置300的实例。在图3中，眼镜装置300包括镜架310、镜片315和音频***。眼镜装置300可以是眼镜装置100的实施方式。音频***可以是关于图1描述的音频***的实施方式。音频***包括麦克风阵列，该麦克风阵列包括几个声传感器，诸如可以被设计成放置在用户的对应的耳朵内部的声传感器320a、以及可以沿着镜架310放置的声传感器320b。音频***额外包括控制器325。控制器325可以是控制器125的实施方式。眼镜装置300经由连接器330耦接至颈带305。尽管图3示出了在眼镜装置300和颈带305上的示例性定位中的眼镜装置300和颈带305的部件，但是部件可以位于其他地方和/或不同地分布在眼镜装置300和颈带305上，位于与眼镜装置300和/或颈带305配对的一个或多个额外的***装置上，或者它们的某种组合。

一种方式允许眼镜装置实现一副眼镜的形状因子，同时仍然提供充分的电池和计算能力并且允许使用配对的颈带的扩展能力。能力、计算和额外特征然后可以从眼镜装置移动至颈带，因此减少眼镜装置总体的重量、热量分布图和形状因子，同时仍然保持全部功能(例如，AR、VR和/或MR)。颈带允许将另外包括在眼镜装置上的部件更重，因为由于软组织和重力载荷限制的结合，与他们将在他们的头部另外忍受的相比，用户可以忍受他们肩部上有更重的重量负载。颈带还具有较大的表面区域，生成的热量在该表面区域上扩散和分散到周围环境。因此，与可能另外可以简单地在独立的眼镜装置上相比，颈带允许更大的电池和计算能力。由于颈带对用户的侵略可能比眼镜装置小，因此用户可以忍受比眼镜装置佩戴更长时间，允许人工现实环境更充分地结合到用户每天的活动中。

在图3的实施方式中，颈带305形成为符合用户的颈部的“U”形。颈带305被佩戴在用户的颈部周围，而眼镜装置300被佩戴在用户的头部上。颈带305的第一臂和第二臂可以各自放置在用户的靠近他的或她的颈部的肩部的顶部上，使得第一臂和第二臂的重量由用户的颈圈和肩部承载。连接器330足够长以允许眼镜装置300佩戴在用户的头部上，同时颈带305放置在用户的颈部周围。连接器330可以是可调节的，允许每个用户自定义连接器330的长度。颈带305与眼镜装置300通信地耦接。在一些实施方式中，颈带305可以通信地耦接至眼镜装置300和/或其他装置。***中的其他装置可以将某些功能(例如，跟踪、局部化、深度映射、处理、存储等)提供至眼镜装置300。在图3的实施方式中，颈带305包括麦克风阵列的两个声传感器320c、320d、控制器325、以及电源335。声传感器320可以是声传感器120的实施方式。

麦克风阵列的声传感器320c、320d被放置在颈带305上。声传感器320c、320d可以是声传感器120的实施方式。声传感器320c、320d被配置为检测声音并且将检测到的声音转换为电子格式(模拟的或数字的)。声传感器可以是声波传感器、麦克风、声换能器、或者适用于检测声音的类似的传感器。在图3的实施方式中，声传感器320c、320d被放置在颈带305上，从而增加声传感器320c、320d与放置在眼镜装置300上的其他声传感器320之间的距离。增加麦克风阵列的声传感器320之间的距离改善了麦克风阵列的精确度。例如，如果由声传感器320b和320c检测到声音，则声传感器320b和320c之间的距离大于例如声传感器320a和320b之间的距离，使得与如果由声传感器320a和320b检测到声音相比，所确定的检测到的声音的源定位可以更精确。

控制器325处理由眼镜装置300和/或颈带305上的传感器生成的信息。控制器325可以是控制器125的实施方式并且可以执行关于图1描述的控制器125的一些或所有功能。眼镜装置300上的传感器可包括声传感器320、位置传感器、惯性测量单元(IMU)、其他合适的传感器、或者它们的某种组合。例如，控制器325处理来自麦克风阵列的描述由麦克风阵列检测到的声音的信息。针对每个检测到的声音，控制器325可以执行DoA估计以估计检测到的声音到达麦克风阵列的方向。随着麦克风阵列检测声音，控制器325可以为音频数据集填充信息。在眼镜装置300包括惯性测量单元的实施方式中，控制器325可以从位于眼镜装置300上的IMU计算所有惯性和空间计算。连接器330可以在眼镜装置300和颈带305之间以及眼镜装置300和控制器325之间传达信息。该信息可以是光学数据、电气数据的形式、或者任何其他可传输的数据形式。将通过眼镜装置300生成的信息的处理移动至颈带305减少眼镜装置300的重量和热量产生，使得对用户更舒适。

电源335将电力提供至眼镜装置300和颈带305。电源335可以是锂离子电池、锂聚合物电池、锂原电池、碱性电池、或者任何其他形式的电力存储装置。将电源335定位在颈带305上可以将由电源335生成的重量和热量从眼镜装置300分布至颈带305，该颈带可以更好地扩散和分散热量，并且还利用用户的颈圈和肩部的承载能力。将电源335、控制器325和任意数量的其他传感器定位在颈带装置305上还可以更好地调节这些元件中的每一个的热暴露，因为将它们放置为紧挨着用户的颈部可以保护它们免受太阳和环境热源。

音频***概述

图4是根据一个或多个实施方式的音频***400的框图。图1和图3中的音频***可以是音频***400的实施方式。音频***400检测声音以便为用户生成一个或多个声传递函数。音频***400然后可以使用该一个或多个声传递函数为用户生成音频内容。在图4的实施方式中，音频***400包括麦克风阵列405、控制器410和扬声器组件415。音频***400的一些实施方式具有与本文中描述的那些部件不同的部件。类似地，在一些情况下，可以按照与本文描述的不同方式在部件中分配功能。

麦克风阵列405检测麦克风阵列周围的局部区域内的声音。麦克风阵列405可包括多个声传感器，每个声传感器都检测声波的气压变化并且将检测到的声音转换为电子格式(模拟的或数字的)。多个声传感器可以放置在眼镜装置(例如，眼镜装置100)上、放置在用户上(例如，用户的耳道中)、放置在颈带上、或者它们的某种组合。如关于图1描述的，检测到的声音可以是不受控制的声音或者受控制的声音。每个检测到的声音可以与诸如频率、振幅、持续时间或它们的某种组合等音频信息相关联。麦克风阵列405的每个声传感器可以是活跃的(通电)或者停用的(断电)。声传感器根据来自控制器410的指令被激活或停用。在一些实施方式中，麦克风阵列405中的所有声传感器可以是活跃的以检测声音，或者多个声传感器的子集可以是活跃的。活跃的子集包括多个声传感器中的至少两个声传感器。活跃的子集可包括例如所有其他声传感器、预编程的初始子集、随机子集、或者它们的某种组合。

控制器410处理来自麦克风阵列405的信息。此外，控制器410控制音频***400的其他模块和装置。与每个检测到的声音相关联的信息可包括检测到的声音的频率、振幅和/或持续时间。在图4的实施方式中，控制器410包括DoA估计模块420和传递函数模块425。

DoA估计模块420为检测到的声音执行DoA估计。DoA估计是检测到的声音从此到达麦克风阵列405的声传感器的估计方向。如果声音由麦克风阵列的至少两个声传感器检测到，则控制器125可以使用声传感器的位置关系和来自每个声传感器的DoA估计例如经由三角测量来估计检测到的声音的源定位。每个检测到的声音的DoA估计可以表示为检测到的声音的估计的源定位与局部区域内的麦克风阵列405的位置之间的矢量。估计的源定位可以是相对于麦克风阵列405的位置的局部区域中的源定位的相对位置。麦克风阵列405的位置可以通过具有麦克风阵列405的眼镜装置和/或颈带上的一个或多个传感器确定。在一些实施方式中，如果麦克风阵列405的绝对位置在局部区域中是已知的，则控制器410可以确定源定位的绝对位置。可以从外部***(例如，成像组件、AR或VR控制台、SLAM***、深度相机组件、结构化光***等)接收麦克风阵列405的位置。外部***可以创建局部区域的虚拟模型，在该虚拟模型中映射了麦克风阵列405的局部区域和位置。所接收的位置信息可包括映射的局部区域中的麦克风阵列的定位和/或定向。控制器410可以利用确定的检测到的声音的源定位更新局部区域的映射。控制器125可以从外部***连续地或随意地或者以指定间隔接收位置信息。在一些实施方式中，控制器410选择为其执行DoA估计的检测到的声音。

DoA估计模块420选择为其执行DoA估计的检测到的声音。如关于图1描述的，DoA估计模块420为音频数据集填充信息。该信息可包括检测到的声音以及与每个检测到的声音相关联的参数。示例性参数可包括频率、振幅、持续时间、DoA估计、源定位、或者它们的某种组合。每个音频数据集可以与相对于麦克风阵列405的不同的源定位对应并且包括具有该源定位的一个或多个声音。随着由麦克风阵列405检测到声音，DoA估计模块420可以填充音频数据集。DoA估计模块420可以评估与每个检测到的声音相关联的存储参数并且确定一个或多个所存储参数是否满足对应的参数条件。例如，如果参数在阈值以上或以下或者落入目标范围内，则可以满足参数条件。如果满足参数条件，则DoA估计模块420为检测到的声音执行DoA估计。例如，DoA估计模块420可以为具有在频率范围内的频率、阈值振幅以上的振幅、阈值持续时间以下的持续时间、其他类似变化或者它们的某种组合的检测到的声音执行DoA估计。可以由音频***400的用户基于历史数据、基于音频数据集中的信息的分析(例如，评估收集的参数信息并且设置平均值)、或者它们的某种组合设置参数条件。随着DoA估计模块420为检测到的声音执行DoA估计，该DoA估计模块可以进一步填充或更新音频数据集。

传递函数模块425生成与由麦克风阵列405检测到的声音的源定位相关联的一个或多个声传递函数。通常，传递函数是为每个可能的输入值给予对应的输出值的数学函数。在图4的实施方式中，声传递函数表示在其源定位处的声音与例如如何通过麦克风阵列或个人检测到该声音之间的关系。每个声传递函数可以与麦克风阵列或个人的位置(即，定位和/或定向)相关联并且可以对于该位置是唯一的。例如，随着麦克风阵列或个人的头部的定位和/或定向改变，可以根据频率、振幅等不同地检测声音。在图4的实施方式中，传递函数模块425使用音频数据集中的信息生成一个或多个声传递函数。该信息可包括检测到的声音以及与每个检测到的声音相关联的参数。示例性参数可包括频率、振幅、持续时间、DoA估计、源定位、或者它们的某种组合。来自DoA估计模块420的DoA估计可以改善声传递函数的精确度。出于以下更详细地讨论的各种目的，可以使用声传递函数。在一些实施方式中，传递函数模块425可以基于检测到的声音的DoA估计更新一个或多个预先存在的声传递函数。随着麦克风阵列405的位置(即，定位和/或定向)在局部区域内改变，控制器410可以生成新的声传递函数或者相应地更新与每个位置相关联的预先存在的声传递函数。

在一个实施方式中，传递函数模块425生成阵列传递函数(ATF)。ATF表征麦克风阵列405如何从空间中的点接收声音。特别地，ATF定义在其源定位的声音的参数与麦克风阵列405检测到声音的参数之间的关系。与声音相关联的参数可包括频率、振幅、持续时间等。传递函数模块425可以为检测到的声音的具体的源定位、局部区域中的麦克风阵列405的位置、或者它们的某种组合生成一个或多个ATF。可以影响如何从麦克风阵列405接收声音的因素可包括麦克风阵列405中的声传感器的布置和/或定向、声源和麦克风阵列405之间的任何对象、佩戴具有麦克风阵列405的眼镜装置的用户的构造、或者局部区域中的其他对象。例如，如果用户佩戴包括麦克风阵列405的眼镜装置，个人的构造(例如，耳朵形状、肩部等)可以在声波前进至麦克风阵列405时影响声波。在另一实例中，如果用户佩戴包括麦克风阵列405的眼镜装置并且麦克风阵列405周围的局部区域是包括建筑、树木、灌木丛、一片水域等的外部环境，则这些对象可以衰减或放大局部区域中的声音的振幅。生成和/或更新ATF改善了由麦克风阵列405捕获的音频信息的精确度。

在一个实施方式中，传递函数模块425生成一个或多个HRTF。HRTF表征个人的耳朵如何从空间中的点接收声音。由于个人的构造(例如，耳朵形状、肩部等)导致相对于个人的具体的源定位的HRTF对个人的每只耳朵是唯一的(并且对这个人是唯一的)，该构造在声音传播至个人的耳朵时影响声音。传递函数模块425可以为单个人生成多个HRTF，其中，每个HRTF可以与不同的源定位、佩戴麦克风阵列405的个人的不同位置、或者它们的某种组合相关联。此外，针对个人的每个源定位和/或位置，传递函数模块425可以生成两个HRTF，个人的每只耳朵一个HRTF。作为实例，传递函数模块425可以在相对于单个源定位的局部区域中的用户的头部的具体定位和定向处针对用户生成两个HRTF。如果用户在不同方向上转动他的或她的头部，则传递函数模块425可以在具体定位和新的定向处为用户生成两个新的HRTF，或者传递函数模块425可以更新两个预先存在的HRTF。因此，传递函数模块425为不同的源定位、局部区域中的麦克风阵列405的不同位置、或者它们的某种组合生成几个HRTF。

在一些实施方式中，传递函数模块425可以使用用户的多个HRTF和/或ATF为用户生成音频内容。传递函数模块425可以生成可以由用于生成声音(例如，立体声或环绕声)的扬声器组件415使用的音频特征配置。音频特征配置是音频***400可以使用以合成看起来来自空间中的具体点的双耳声的函数。因此，用户特定的音频特征配置允许音频***400将声音和/或环绕声提供给用户。音频***400可以使用扬声器组件415提供声音。在一些实施方式中，音频***400可以结合或代替扬声器组件415使用麦克风阵列405。在一个实施方式中，多个ATF、多个HRTF、和/或音频特征配置被存储在控制器410上。

扬声器组件415被配置为将声音传输至用户。扬声器组件415可以根据来自控制器410的命令和/或基于来自控制器410的音频特征配置进行操作。基于音频特征配置，扬声器组件415可以产生看起来来自空间中的具体点的双耳声。扬声器组件415可以将一系列声音或环绕声提供给用户。在一些实施方式中，可以一起使用扬声器组件415和麦克风阵列415以将声音提供给用户。扬声器组件415可以耦接至麦克风阵列405耦接到的NED。在替换的实施方式中，扬声器组件415可以是佩戴(例如，耦接至NED的)麦克风阵列405的用户周围的多个扬声器。在一个实施方式中，扬声器组件415在麦克风阵列405的校准处理期间传输测试声音。控制器410可以指示扬声器组件415产生测试声音，并然后可以分析由麦克风阵列405接收的测试声音以生成用于眼镜装置100的声传递函数。可以通过扬声器组件415产生具有变化的频率、振幅、持续时间或序列的多个测试声音。

头部相关传递函数(HRTF)个性化

图5是示出了根据一个或多个实施方式的生成和更新包括音频***(例如，音频***400)的眼镜装置(例如，眼镜装置100)的头部相关传递函数的过程500的流程图。在一个实施方式中，由音频***的部件执行图5的过程。在其他实施方式中，其他实体可以执行该过程的一些或所有步骤(例如，控制台)。同样地，实施方式可包括不同和/或附加步骤，或者以不同的顺序执行步骤。

音频***监测510眼镜装置上的麦克风阵列周围的局部区域中的声音。麦克风阵列可以检测诸如在局部区域出现的不受控制的声音和受控制的声音等声音。每个检测到的声音可以与频率、振幅、持续时间、或者它们的某种组合相关联。在一些实施方式中，音频***存储与音频数据集中的每个检测到的声音相关联的信息。

在一些实施方式中，音频***可选地估计520局部区域中的麦克风阵列的位置。该估计位置可包括麦克风阵列的定位和/或眼镜装置或佩戴眼镜装置的用户的头部的定向、或者它们的某种组合。在一个实施方式中，音频***可包括响应于麦克风阵列的运动而生成一个或多个测量信号的一个或多个传感器。音频***可以估计510相对于麦克风阵列的初始位置的麦克风阵列的当前位置。在另一个实施方式中，音频***可以从外部***(例如，成像组件、AR或VR控制台、SLAM***、深度相机组件、结构化光***等)接收眼镜装置的位置信息。

音频***针对每个检测到的声音相对于麦克风阵列的位置执行530到达方向(DoA)估计。DoA估计是检测到的声音从此到达麦克风阵列的声传感器的估计方向。DoA估计可以表示为检测到的声音的估计的源定位与局部区域内的眼镜装置的位置之间的矢量。在一些实施方式中，音频***可以为检测到的声音执行530与满足参数条件的参数相关联的DoA估计。例如，如果参数在阈值以上或以下或者落入目标范围内，则可以满足参数条件。

音频***更新540一个或多个声传递函数。声传递函数可以是阵列传递函数(ATF)或者头部相关传递函数(HRTF)。声传递函数表示在其源定位处的声音与如何检测到该声音之间的关系。因此，每个声传递函数与检测到的声音的不同的源定位、麦克风阵列的不同位置、或者它们的某种组合相关联。因此，音频***可以为局部区域中的麦克风阵列的具体的源定位和/或位置更新540多个声传递函数。在一些实施方式中，眼镜装置可以为局部区域中的麦克风阵列的具***置更新540两个HRTF，用户的每只耳朵一个HRTF。在一些实施方式中，音频***生成各自与检测到的声音的不同的源定位、麦克风阵列的不同位置、或者它们的某种组合相关联的一个或多个声传递函数。

如果麦克风阵列的位置在局部区域内改变，则音频***可以生成一个或多个新的声传递函数或者相应地更新540一个或多个预先存在的声传递函数。当佩戴麦克风阵列(例如，耦接至NED)的用户移动通过局部区域时可以连续重复过程500，或者一旦经由麦克风阵列检测到声音就可以开始过程500。

示例性***环境

图6是根据一个或多个实施方式的包括音频***的眼镜装置605的***环境600。***600可以在人工现实环境中操作。图6中示出的***600包括眼镜装置605以及耦接至控制台615的输入/输出(I/O)界面610。眼镜装置605可以是眼镜装置100的实施方式。尽管图6示出了包括一个眼镜装置605和一个I/O界面610的示例性***600，但是在其他实施方式中，在***600中可以包括任意数量的这些部件。例如，可能存在各自具有关联的I/O界面610的多个眼镜装置605，其中每个眼镜装置605和I/O界面610与控制台615通信。在可替换配置中，在***600中可包括不同的和/或额外的部件。另外，在一些实施方式中，可以按照与结合图6描述的不同的方式在部件中分配在结合图6中示出的一个或多个部件描述的功能。例如，由眼镜装置605提供控制台615的一些或者所有功能。

在一些实施方式中，眼镜装置605可以校正或加强用户的视野，保护用户的眼睛，或者将图像提供给用户。眼镜装置605可以是矫正用户的视力缺陷的眼镜。眼镜装置605可以是保护用户的眼睛免受阳光的太阳镜。眼镜装置605可以是保护用户的眼睛免受撞击的安全眼镜。眼镜装置605可以是在晚上加强用户的视野的夜视装置或红外线眼镜。可替换地，眼镜装置605可以不包括镜片并且可以是仅具有将音频(例如，音乐、无线电广播、播客)提供给用户的音频***620的镜架。

在一些实施方式中，眼镜装置605可以是利用计算机生成的元素(例如，二维(2D)或三维(3D)图像、2D或3D视频、声音等)将包括物理的真实世界环境的增强视图的内容呈现给用户的头戴式显示器。在一些实施方式中，呈现的内容包括经由音频***620呈现的音频，该音频***从眼镜装置605、控制台615或者这两者接收音频信息，并且基于该音频信息提供音频数据。在一些实施方式中，眼镜装置605部分基于用户周围的真实环境将虚拟内容提供给用户。例如，虚拟内容可以呈现给眼镜装置的用户。用户可以物理上在房间中，并且房间的虚拟墙壁和虚拟地板被渲染为虚拟内容的一部分。在图6的实施方式中，眼镜装置605包括音频***620、电子显示器625、光学块630、位置传感器635、深度相机组件(DCA)640、以及惯性测量单元(IMU)645。眼镜装置605的一些实施方式具有与结合图6描述的那些部件不同的部件。另外，在其他实施方式中，可以眼镜装置605的部件中不同地分配由结合图6描述的各种部件提供的功能，或者在远离眼镜装置605的单独组件中捕获。

音频***620检测声音以便为用户生成一个或多个声传递函数。音频***620然后可以使用一个或多个声传递函数为用户生成音频内容。音频***620可以是音频***400的实施方式。如关于图4描述的，除了其他部件之外，音频***620可包括麦克风阵列、控制器、以及扬声器组件。麦克风阵列检测麦克风阵列周围的局部区域内的声音。麦克风阵列可包括多个声传感器，每个声传感器检测声波的气压变化并且将检测到的声音转换为电子格式(模拟的或数字的)。多个声传感器可以放置在眼镜装置(例如，眼镜装置100)上，放置在用户上(例如，用户的耳道中)，放置在颈带上，或者它们的某种组合。检测出的声音可以是不受控制的声音或者受控制的声音。控制器为由麦克风阵列检测到的声音执行DoA估计。部分基于检测到的声音的DoA估计以及与检测到的声音相关联的参数，控制器生成与检测到的声音的源定位相关联的一个或多个声传递函数。声传递函数可以是ATF、HRTF、其他类型的声传递函数、或者它们的某种组合。控制器可以为扬声器组件生成指令以发出看起来来自空间中的几个不同点的音频内容。

电子显示器625根据从控制台615接收的数据将2D或3D图像显示给用户。在各种实施方式中，电子显示器625包括单个电子显示器或多个电子显示器(例如，用于用户的每只眼睛的显示器)。电子显示器625的实例包括：液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管显示器(AMOLED)、一些其他显示器、或者它们的某种组合。

光学块630放大从电子显示器625接收的图像光，校正与图像光相关联的光学误差，并且将校正的图像光呈现给眼镜装置605的用户。电子显示器625和光学块630可以是镜片110的实施方式。在各种实施方式中，光学块630包括一个或多个光学元件。在光学块630中包括的示例性光学元件包括：光圈、菲涅尔透镜、凸透镜、凹透镜、滤波器、反射面、或者影响图像光的任何其他合适的光学元件。此外，光学块630可包括不同光学元件的组合。在一些实施方式中，光学块630中的一个或多个光学元件可具有一个或多个涂层，诸如，部分反射或者抗反射涂层。

通过光学块630放大和聚焦图像光以允许电子显示器625比较大的显示器在物理上更小、重量更轻且消耗功率更少。另外，放大可增加由电子显示器625呈现的内容的视野。例如，所显示的内容的视野使得使用几乎全部(例如，约110度对角线)的并且在一些情况下全部的用户视野呈现所显示的内容。另外，在一些实施方式中，可通过添加或移除光学元件来调节放大量。

在一些实施方式中，光学块630可被设计成校正一种或多种类型的光学误差。光学误差的实例包括筒形失真或枕形失真、纵向色差或横向色差。其他类型的光学误差可以进一步包括球面像差、色像差、或者由于透镜场曲率导致的误差、像散、或者任何其他类型的光学误差。在一些实施方式中，提供给用于显示的电子显示器625的内容是预失真的，并且当光学块630从基于内容生成的电子显示器625接收图像光时，该光学块630校正失真。

DCA 640捕获描述眼镜装置605周围的局部区域的深度信息的数据。在一个实施方式中，DCA 640可包括结构化光投影仪、成像装置和控制器。所捕获的数据可以是通过成像装置捕获的通过结构化光投影仪投射到局部区域上的结构化光的图像。在一个实施方式中，DCA 640可包括被定向以捕获立体声中的局部区域的部分的两个或更多个相机和控制器。所捕获的数据可以是通过立体声中的局部区域的两个或更多个相机捕获的图像。控制器使用所捕获的数据计算局部区域的深度信息。基于深度信息，控制器确定局部区域内的眼镜装置605的绝对位置信息。DCA 640可以与眼镜装置605集成或者可以放置在眼镜装置605之外的局部区域内。在后者实施方式中，DCA 640的控制器可以将深度信息传输至眼镜装置620的控制器。

IMU 645是基于从一个或多个位置传感器635接收的测量信号生成指示眼镜装置605的位置的数据的电子装置。一个或多个位置传感器635可以是传感器装置115的实施方式。位置传感器635响应于眼镜装置605的运动生成一个或多个测量信号。位置传感器635的实例包括：一个或多个加速计、一个或多个陀螺仪、一个或多个磁力计、检测运动的其他合适类型的传感器、用于IMU 645的误差校正的传感器类型的、或者它们的某种组合。位置传感器635可以位于IMU 645的外部、IMU 645的内部、或者它们的某种组合。

基于来自一个或多个位置传感器635的一个或多个测量信号，IMU 645生成指示相对于眼镜装置605的初始位置的眼镜装置605的估计的当前位置的数据。例如，位置传感器635包括测量平移运动(前/后、上/下、左/右)的多个加速度计和测量旋转运动(例如，倾斜、偏转和滚动)的多个陀螺仪。在一些实施方式中，IMU 645对测量信号进行快速采样并且根据采样数据计算眼镜装置605的估计的当前位置。例如，IMU 645对从加速计接收的测量信号在时间上求积分以估计速度矢量，并且对速度矢量在时间上求积分，以确定眼镜装置605上的参考点的估计位置。可替换地，IMU 645将采样的测量信号提供至控制台615，控制台615解释数据以减少误差。参考点是可以用于描述眼镜装置605的位置的点。参考点通常可定义为与眼镜装置605的定向和位置相关的空间点或位置。

IMU 645从控制台615接收一个或多个参数。如以下进一步讨论的，一个或多个参数用于保持对眼镜装置605的跟踪。基于所接收的参数，IMU 645可以调节一个或多个IMU参数(例如，采样率)。在一些实施方式中，来自DCA 640的数据使得IMU 645更新参考点的初始位置，使其对应于参考点的下一个位置。更新参考点的初始位置作为参考点的下一个校准位置有助于减少与所估计的IMU 645的当前位置相关联的累积误差。也称为漂移误差的累积误差使得参考点的估计位置随着时间推移“漂移”远离参考点的实际位置。在眼镜装置605的一些实施方式中，IMU 645可以是专用硬件部件。在其他实施方式中，IMU 645可以是在一个或多个处理器中实现的软件部件。

I/O界面610是允许用户发送动作请求并且从控制台615接收响应的装置。动作请求是执行具体动作的请求。例如，动作请求可以是开始或结束图像或视频数据的捕获、开始或结束音频***620产生声音、开始或结束眼镜装置605的校准处理的指令、或者在应用程序内执行具体动作的指令。I/O界面610可包括一个或多个输入装置。示例性输入装置包括：键盘、鼠标、游戏控制器、或者用于接收动作请求并将动作请求传送至控制台615的任何其他合适的装置。由I/O界面610接收的动作请求被传送至控制台615，该控制台执行与动作请求对应的动作。在一些实施方式中，I/O界面615包括IMU 645，如以下进一步描述的，该IMU捕获指示相对于I/O界面610的初始位置的I/O界面610的估计位置的校准数据。在一些实施方式中，I/O界面610可以根据从控制台615接收的指令向用户提供触觉反馈。例如，当接收动作请求时提供触觉反馈，或者控制台615将指令传送至I/O界面610使得当控制台615执行动作时I/O界面610生成触觉反馈。

控制台615将内容提供至眼镜装置605以用于根据从眼镜装置605和I/O界面610中的一者或多者接收的信息进行处理。在图6中示出的实例中，控制台615包括应用存储器660、跟踪模块650、以及引擎655。控制台615的一些实施方式具有与结合图6描述的那些模块或部件不同的模块或部件。相似地，可以以与结合图6描述的不同方式在控制台615的部件中分配下面进一步描述的功能。

应用存储器660存储由控制台615执行的一个或多个应用程序。应用程序是一组指令，该组指令在由处理器执行时生成用于呈现给用户的内容。由应用程序生成的内容可响应于经由眼镜装置605或I/O界面610的移动从用户接收的输入。应用程序的实例包括：游戏应用程序、会议应用程序、视频播放应用程序、校准处理、或者其他合适的应用程序。

跟踪模块650使用一个或多个校准参数校准***环境600并且可以调整一个或多个校准参数以减少确定眼镜装置605或I/O界面610的位置时的误差。通过跟踪模块650执行的校准还考虑从眼镜装置605中的IMU 645和/或I/O界面610中包括的IMU 645接收的信息。另外，如果眼镜装置605的跟踪丢失，则跟踪模块650可以重新校准一些或所有***环境600。

跟踪模块650使用来自一个或多个传感器装置635、IMU 645、或者它们的某种组合的信息跟踪眼镜装置605或I/O界面610的移动。例如，跟踪模块650基于来自眼镜装置605的信息确定在局部区域的映射中的眼镜装置605的参考点的位置。跟踪模块650还可以分别使用来自IMU 645的指示眼镜装置605的位置的数据或者使用来自I/O界面610中包括的IMU645的指示I/O界面610的位置的数据来确定眼镜装置605的参考点或者I/O界面610的参考点的位置。另外，在一些实施方式中，跟踪模块650可以使用来自IMU 645的指示眼镜装置605的位置的数据的一部分，预测眼镜装置605的未来定位。跟踪模块650将估计的或预测的眼镜装置605或I/O界面610的未来位置提供至引擎655。

引擎655还执行***环境600内的应用程序并且从跟踪模块650接收眼镜装置605的位置信息、加速度信息、速度信息、预测的未来位置、音频信息、或者它们的某种组合。基于所接收的信息，引擎655确定内容以提供至眼镜装置605以呈现给用户。例如，如果所接收的信息指示用户看向左边，则引擎655生成用于眼镜装置605的内容，该内容在虚拟环境中或在利用额外内容增强局部区域的环境中反映用户的移动。另外，引擎655响应于从I/O界面610接收的动作请求在控制台615上执行的应用程序内执行动作并且将执行该动作的反馈提供至用户。所提供的反馈可以是经由眼镜装置605的视觉反馈或听觉反馈或者经由I/O界面610的触觉反馈。

附加配置信息

已经出于说明的目的呈现了本公开内容的实施方式的以上描述；它不旨在穷举的或者也不是将本公开内容限制为所公开的精确形式。相关领域的技术人员应理解，根据上述公开内容，可以做出许多修改和变化。

本说明书的一些部分从信息运算的算法和符号表示的角度描述了本公开内容的实施方式。这些算法描述和表示通常由数据处理领域的技术人员使用，以便将他们的工作实质有效传达给本领域的其他技术人员。当被描述为功能性的、计算性的或逻辑性的时，这些运算被理解为由计算机程序或等同电路、微码等实现。此外，有时把这些运算的安排称为模块也是方便的，并且不失其一般性。所描述的运算及其关联模块可体现在软件、固件、硬件或它们的任意组合中。

本文中描述的任何步骤、操作或过程可利用一个或多个硬件或软件模块单独或与其他装置组合执行或实现。在一个实施方式中，软件模块利用计算机程序产品实现，该计算机程序产品包括包含计算机程序代码的计算机可读介质，该程序代码可通过用于执行描述的任何或所有步骤、操作或过程的计算机处理器执行。

本公开内容的实施方式还可涉及一种用于执行本文中的操作的设备。出于需要之目的，可特别构造该设备，和/或该设备可包括由存储在计算机中的计算机程序选择性激活或者重新配置的通用计算装置。这种计算机程序可被存储在非暂时性的、有形的计算机可读存储介质中或者适用于存储电子指令的可耦接至计算机***总线的任何类型的介质中。此外，本说明书中所提及的任何计算***可包括单个处理器或者可以是采用多处理器设计以增强计算能力的结构。

本公开内容的实施方式还可以涉及由本文中所描述的计算过程产生的产品。这种产品可包括由计算过程产生的信息，其中，信息存储在非暂时性的、有形的计算机可读存储介质中并且可包括本文中描述的计算机程序产品或其他数据组合的任何实施方式。

最后，主要出于可读性和指导性之目的选择本说明书中使用的语言，并且选择其不是为了划定或者限制本发明的主题。因此，本公开内容的范围并不旨在由具体实施方式来限定，而是由基于具体实施方式的本申请所发布的任何权利要求来限定。因此，实施方式的公开内容旨在是说明性的，而非限制所附权利要求中阐述的本公开内容的范围。

Claims

1.一种音频***，包括：

麦克风阵列，包括被配置为检测所述麦克风阵列周围的局部区域内的声音的多个声传感器，并且所述多个声传感器中的至少一些耦接至近眼显示器(NED)；

控制器，被配置为：

估计所检测到的声音中的第一检测到的声音相对于所述局部区域内的所述NED的位置的到达方向(DoA)，所述估计基于来自所述多个声传感器的所检测到的声音；

至少部分地基于所述DoA的估计，生成一个或多个传递函数，所述一个或多个传递函数包括用于所述音频***的用户的头部相关传递函数(HRTF)；

基于从外部***接收的位置信息更新所述一个或多个传递函数中的一个，所述位置信息描述所述局部区域中的所述麦克风阵列的位置；以及

基于所更新的传递函数合成音频内容；以及

扬声器组件，所述扬声器组件被配置为向用户呈现所合成的音频内容。

2.根据权利要求1所述的音频***，其中，所述传递函数是以下项中的至少一项：与所述局部区域内的所述NED的所述位置相关联的头部相关传递函数(HRTF)以及与所述麦克风阵列相关联的阵列传递函数(ATF)。

3.根据权利要求1所述的音频***，其中，所述控制器进一步被配置为：

识别所述检测到的声音相对于所述NED的所述位置的源。

4.根据权利要求1所述的音频***，其中，所述多个声传感器中的至少一个被放置在用户的耳道内部。

5.根据权利要求1所述的音频***，其中，所述多个声传感器中的至少一些被放置在项圈上，所述项圈耦接至所述NED并且被配置为放置在用户的颈部周围。

6.根据权利要求1所述的音频***，其中，所述控制器进一步被配置为：

识别所述检测到的声音中的第二检测到的声音；

估计所述第二检测到的声音相对于所述局部区域内的所述NED的第二位置的第二DoA；

确定所述第二检测到的声音具有在目标参数的阈值内的关联的参数；并且

基于所述第二DoA的估计生成第二传递函数，所述第二传递函数与所述局部区域内的所述NED的所述第二位置相关联。

7.根据权利要求1所述的音频***，其中，所述控制器进一步被配置为：

识别所述检测到的声音中的第二检测到的声音；

确定所述第二检测到的声音具有在目标参数的阈值内的关联的参数；

基于所述第二DoA的估计更新预先存在的传递函数，所述预先存在的传递函数与所述局部区域内的所述NED的所述第二位置相关联。

8.根据权利要求7所述的音频***，其中，参数描述所述检测到的声音的特征，所述特征选自由频率、振幅、持续时间和DoA组成的组。

9.根据权利要求1所述的音频***，进一步包括：

扬声器组件，被配置为部分基于所述传递函数提供对用户定制的音频内容。

10.根据权利要求1所述的音频***，其中，所述控制器进一步被配置为部分基于以下项中的至少一项来确定所述NED的所述位置：所述局部区域的深度信息和用于所述NED的惯性测量单元(IMU)数据。

11.根据权利要求10所述的音频***，其中，所述深度信息来自深度相机组件，并且所述IMU数据来自IMU。

12.根据权利要求1所述的音频***，其中，所述检测到的声音是环境声音。

13.一种用于动态确定声传递函数的方法，包括：

由包括多个声传感器的麦克风阵列监测所述麦克风阵列周围的局部区域中的声音，并且所述多个声传感器中的至少一些耦接至近眼显示器(NED)；

至少部分地基于所述DoA的估计，生成一个或多个传递函数，所述一个或多个传递函数包括用于所述NED的用户的头部相关传递函数(HRTF)；

基于从外部***接收的位置信息更新所述一个或多个传递函数中的一个，所述位置信息描述所述局部区域中的所述麦克风阵列的位置；

基于所更新的传递函数合成音频内容；以及

向用户呈现所合成的音频内容。

14.根据权利要求13所述的方法，其中，所述传递函数是以下项中的至少一项：与所述局部区域内的所述NED的所述位置相关联的头部相关传递函数(HRTF)和与所述麦克风阵列相关联的阵列传递函数(ATF)。

15.根据权利要求13所述的方法，进一步包括：

识别所述检测到的声音相对于所述NED的所述位置的源。

16.根据权利要求13所述的方法，其中，所述多个声传感器中的至少一个被放置在用户的耳道内部。

17.根据权利要求13所述的方法，其中，所述多个声传感器中的至少一些被放置在项圈上，所述项圈耦接至所述NED并且被配置为放置在用户的颈部周围。

18.根据权利要求13所述的方法，进一步包括：

识别所述检测到的声音中的第二检测到的声音；

19.根据权利要求13所述的方法，进一步包括：

识别所述检测到的声音中的第二检测到的声音；

20.根据权利要求19所述的方法，其中，参数描述所述检测到的声音的特征，所述特征选自由频率、振幅、持续时间和DoA组成的组。

21.根据权利要求13所述的方法，进一步包括：

部分基于所述传递函数生成对用户定制的音频内容。

22.根据权利要求13所述的方法，进一步包括：

部分基于以下项中的至少一项来确定所述NED的所述位置：所述局部区域的深度信息和惯性测量单元(IMU)数据。

23.根据权利要求22所述的方法，其中，所述深度信息来自深度相机组件，并且所述IMU数据来自IMU。

24.根据权利要求13所述的方法，其中，所述检测到的声音是环境声音。

25.一种存储指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时，使所述一个或多个处理器执行包括以下各项的操作：

基于所更新的传递函数合成音频内容；以及

向用户呈现所合成的音频内容。