CN113692750A

CN113692750A - 使用声音场景分析和波束形成的声传递函数个性化

Info

Publication number: CN113692750A
Application number: CN202080027556.3A
Authority: CN
Inventors: 弗拉迪米尔·图尔巴宾; 雅各布·瑞恩·唐利; 安东尼奥·约翰·米勒; 拉维什·迈赫拉
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-04-09
Filing date: 2020-03-31
Publication date: 2021-11-23
Also published as: KR20210148327A; US20210183352A1; US20200327877A1; US10957299B2; JP2022521886A; WO2020210084A1; EP3954136A1; US11361744B2

Abstract

可穿戴设备的音频***动态地更新声传递函数。音频***被配置为估计由麦克风阵列检测到的每个声源相对于在局部区域内的可穿戴设备的位置的到达方向(DoA)。音频***可以跟踪每个声源的移动。音频***可以在每个声源的方向上形成波束。音频***可以基于声源属性来识别每个声源和将每个声源分类。基于DoA估计、移动跟踪和波束形成，音频***生成或更新声源的声传递函数。

Description

使用声音场景分析和波束形成的声传递函数个性化

相关申请的交叉引用

本申请要求2019年4月9日提交的美国申请号16/379,450的优先权，出于所有目的，该美国申请的内容通过引用以其整体被并入本文。

背景

本公开总体上涉及声音场景分析，并且特别涉及使用***反馈来改进声音场景分析。

在两只耳朵处感知的声音可能是不同的，取决于声源相对于每只耳朵的方向和位置以及取决于房间——声音在该房间中被感知——的环境。人类可以通过比较在每只耳朵处感知的声音来确定声源的位置。在“环绕声”***中，多个扬声器使用声传递函数来再现声音的方向方面。声传递函数表示在声源位置处的声音和声音如何例如由麦克风阵列或由人检测到之间的关系。单个麦克风阵列(或穿戴着麦克风阵列的人)对于在围绕麦克风阵列(或围绕穿戴着麦克风阵列的人)的局部区域中的几个不同的源位置可以具有几个相关联的声传递函数。此外，麦克风阵列的声传递函数可以基于麦克风阵列在局部区域中的位置和/或定向(orientation)而不同。此外，麦克风阵列的声传感器可以以许多可能的组合被布置，且因而相关联的声传递函数对于麦克风阵列是唯一的。作为结果，确定每个麦克风阵列的声传递函数可能需要直接评估，从所需的时间和资源方面来说，这可能是漫长且昂贵的过程。

概述

用于可穿戴设备的音频***动态地更新声传递函数。音频***被配置为估计由麦克风阵列检测到的每个声源相对于在局部区域内的可穿戴设备的位置的到达方向(DoA)。音频***可以跟踪每个声源的移动。音频***可以隔离来自每个声源的信号。音频***可以基于声源属性来识别每个声源和将每个声源分类。基于DoA估计、移动跟踪和信号隔离，音频***生成或更新声源的声传递函数。

在所附权利要求中公开并主张了用于动态地更新声传递函数的***、方法和制品。

在一些实施例中，所列举的部件可以执行行动，这些行动包括：经由可穿戴设备的麦克风阵列来检测来自在可穿戴设备的局部区域中的一个或更多个声源的声音；估计与声音相关联的声传递函数；估计该一个或更多个声源中的声源的到达方向(DoA)；跟踪声源的移动；以及基于声源的移动来更新声传递函数。

在各种实施例中，可以基于分类库将声源分类。

来自声源的信号可以与在可穿戴设备的局部区域中的其他声源隔离。

可以计算跟踪的第一置信水平、分类的第二置信水平以及波束形成(beamforming)过程的第三置信水平。

可以基于第一置信水平、第二置信水平或第三置信水平中的至少一个来更新声传递函数。

跟踪可以包括存储一个或更多个声源的数量和位置随着时间的推移的值，并检测数量或位置中的至少一个的变化。

***可以基于更新后的声传递函数来更新声音过滤器。

***可以基于更新后的声音过滤器来呈现音频内容。

附图简述

图1是根据一个或更多个实施例的可穿戴设备的图。

图2A示出了根据一个或更多个实施例的可穿戴设备分析局部区域内的声音场景。

图2B示出了根据一个或更多个实施例的可穿戴设备在声源移动之后分析局部区域内的声音场景。

图3是根据一个或更多个实施例的示例音频***的框图。

图4是根据一个或更多个实施例的用于分析声音场景的过程。

图5是根据一个或更多个实施例的包括音频***的可穿戴设备的***环境。

附图仅出于说明的目的描绘了本发明的各种实施例。本领域中的技术人员从下面的讨论中将容易认识到，本文所示的结构和方法的替代实施例可以被采用而不偏离本文所述的本发明的原理。

详细描述

可穿戴设备可以确定个性化声传递函数。然后，所确定的声传递函数可以用于许多目的，例如分析声音场景或为人生成环绕声体验。为了提高准确性，可以为可穿戴设备中的每个扬声器位置确定多个声传递函数(即，每个扬声器正在生成多个离散声音)。

可穿戴设备中的音频***检测声源以便为用户生成一个或更多个声传递函数。在一个实施例中，音频***包括麦克风阵列，该麦克风阵列包括多个声传感器和控制器。每个声传感器被配置成检测在围绕麦克风阵列的局部区域内的声音。多个声传感器中的至少一些耦合到可穿戴设备，例如被配置为由用户穿戴的近眼显示器(NED)。

控制器被配置为估计由麦克风阵列检测到的每个声源相对于可穿戴设备在局部区域内的位置的到达方向(DoA)。控制器可以跟踪每个声源的移动。控制器可以为每个声源形成波束。控制器可以基于声源属性来识别每个声源和将每个声源分类。基于DoA估计、移动跟踪和波束形成，控制器生成或更新声源的声传递函数。

声传递函数表征声音如何从空间中的一点被接收。具体地，声传递函数定义在声源位置处的声音的参数和该声音由例如麦克风阵列或用户的耳朵检测到时的参数之间的关系。声传递函数可以是例如阵列传递函数(ATF)和/或头部相关传递函数(HRTF)。每个声传递函数与特定的源位置和可穿戴设备在局部区域内的特定位置相关联，使得当声源的位置在局部区域内改变时，控制器可以更新或生成新的声传递函数。在一些实施例中，音频***使用一个或更多个声传递函数来为穿戴着可穿戴设备的用户生成音频内容(例如环绕声)。

本发明的实施例可以包括人工现实***或结合人工现实***来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混杂现实(hybrid reality)或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与所捕获的(例如，真实世界)内容相结合的所生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或其某种组合，且其中任何一个都可以在单个通道中或在多个通道中被呈现(例如向观看者产生三维效果的立体视频)。此外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如在人工现实中执行活动)。提供人工现实内容的人工现实***可以在各种平台(包括连接到主计算机***的可穿戴设备、独立的可穿戴设备、移动设备或计算***或者能够向一个或更多个观看者提供人工现实内容的任何其他硬件平台)上实现。

图1是示出根据一个或更多个实施例的包括音频***的可穿戴设备100的示例。如所示，可穿戴设备100可以是设计成戴在用户的头部上的眼镜设备。在其他实施例中，可穿戴设备100可以是头戴装置(headset)、项链、手镯、可用夹子夹住的设备或可以由用户穿戴或携带的任何其他合适的设备。可穿戴设备100向用户呈现媒体。在一个实施例中，可穿戴设备100可以包括近眼显示器(NED)。在另一个实施例中，可穿戴设备100可以包括头戴式显示器(HMD)。在一些实施例中，可穿戴设备100可以戴在用户的脸上，使得内容(例如媒体内容)使用可穿戴设备100的一个或两个透镜110来呈现。然而，也可以使用可穿戴设备100，使得媒体内容以不同的方式呈现给用户。由可穿戴设备100呈现的媒体内容的示例包括一个或更多个图像、视频、音频或其某种组合。可穿戴设备100包括音频***，并且可以包括框架105、透镜110和传感器设备115等部件。虽然图1示出了在可穿戴设备100上的示例位置上的可穿戴设备100的部件，但是部件可以位于可穿戴设备100上的其他地方、位于与可穿戴设备100配对的***设备上或其某种组合。

可穿戴设备100可以矫正或增强用户的视觉、保护用户的眼睛或者向用户提供图像。可穿戴设备100可以是矫正用户的视力中的缺陷的眼镜。可穿戴设备100可以是保护用户的眼睛免受阳光照射的太阳镜。可穿戴设备100可以是保护用户的眼睛免受撞击的安全眼镜。可穿戴设备100可以是夜视设备或红外护目镜以增强用户在夜间的视觉。可穿戴设备100可以是为用户产生人工现实内容的近眼显示器。可替代地，可穿戴设备100可以不包括透镜110，并且可以是具有向用户提供音频内容(例如音乐、无线电广播、播客)的音频***的框架105。

透镜110向戴着可穿戴设备100的用户提供或透射光。透镜110可以是处方透镜(例如，单视觉(single vision)透镜、双焦和三焦或渐进透镜)以帮助矫正用户的视力中的缺陷。处方透镜将环境光透射到戴着可穿戴设备100的用户。所透射的环境光可能被处方透镜改变以矫正用户的视力中的缺陷。透镜110可以是偏光透镜或有色透镜以保护用户的眼睛免受阳光照射。透镜110可以是作为波导显示器一部分的一个或更多个波导，其中图像光通过波导的末端或边缘耦合到用户的眼睛。透镜110可以包括用于提供图像光的电子显示器，并且还可以包括用于放大来自电子显示器的图像光的光学块。关于透镜110的附加细节关于图5进行讨论。

在一些实施例中，可穿戴设备100可以包括捕获描述围绕可穿戴设备100的局部区域的深度信息的数据的深度相机组件(DCA)(未示出)。在一些实施例中，DCA可以包括光投影仪(例如结构光和/或用于飞行时间的闪光照明)、成像设备和控制器。捕获的数据可以是由成像设备捕获的被光投影仪投射到局部区域上的光的图像。在一个实施例中，DCA可以包括控制器和两个或更多个相机，这些相机被定向为以立体方式捕获局部区域的部分。捕获的数据可以是由两个或更多个相机以立体方式捕获的局部区域的图像。控制器使用捕获的数据和深度确定技术(例如，结构光、飞行时间、立体成像等)来计算局部区域的深度信息。基于深度信息，控制器确定可穿戴设备100在局部区域内的绝对位置信息。DCA可以与可穿戴设备100集成或者可以位于可穿戴设备100外部的局部区域内。在后一实施例中，DCA的控制器可以将深度信息传输到可穿戴设备100的控制器135。

传感器设备115响应于可穿戴设备100的运动而生成一个或更多个测量信号。传感器设备115可以位于可穿戴设备100的框架105的一部分上。传感器设备115可包括位置传感器、惯性测量单元(IMU)或两者。可穿戴设备100的一些实施例可以包括或可以不包括传感器设备115，或者可以包括多于一个传感器设备115。在传感器设备115包括IMU的实施例中，IMU基于来自传感器设备115的测量信号生成IMU数据。传感器设备115的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU的误差校正的一种类型的传感器或其某种组合。传感器设备115可位于IMU的外部、IMU的内部、或其某种组合。

基于一个或更多个测量信号，传感器设备115估计相对于可穿戴设备100的初始位置的可穿戴设备100的当前位置。所估计的位置可以包括可穿戴设备100的位置、和/或可穿戴设备100或戴着可穿戴设备100的用户的头部的定向、或其某种组合。该定向可以对应于每只耳朵相对于参考点的位置。在一些实施例中，传感器设备115使用来自DCA的深度信息和/或绝对位置信息来估计可穿戴设备100的当前位置。传感器设备115可以包括测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和测量旋转运动(例如俯仰、偏航、横滚)的多个陀螺仪。在一些实施例中，IMU对测量信号进行快速采样，并且从所采样的数据计算可穿戴设备100的估计的位置。例如，IMU在时间上对从加速度计接收的测量信号求积分以估计速度向量，并且在时间上对速度向量求积分以确定在可穿戴设备100上的参考点的估计的位置。参考点是可以用来描述可穿戴设备100的位置的点。虽然参考点通常可以被定义为空间中的点，然而实际上，参考点被定义为在可穿戴设备100内的点。

音频***跟踪声源的运动并动态地更新声传递函数。音频***包括麦克风阵列、控制器和扬声器阵列。然而，在其他实施例中，音频***可以包括不同的和/或附加的部件。类似地，在一些情况下，参考音频***的部件描述的功能可以以不同于这里描述的方式在部件之间分配。例如，控制器的一些或所有功能可以由远程服务器执行。

麦克风阵列记录在可穿戴设备100的局部区域内的声音。局部区域是围绕可穿戴设备100的环境。例如，局部区域可以是房间——戴着可穿戴设备100的用户在该房间内部或者戴着可穿戴设备100的用户可以在该房间外部，以及局部区域是外部区域——麦克风阵列能够在该外部区域中检测声音。麦克风阵列包括位于可穿戴设备100上的多个声检测位置。声检测位置包括声传感器或端口。端口是在可穿戴设备100的框架105中的孔。在声检测位置的情况下，端口为声音从局部区域到声波导提供耦合点，该声波导将声音引导到声传感器。声传感器捕获从在局部区域(例如房间)中的一个或更多个声源发出的声音。每个声传感器被配置为检测声音并将检测到的声音转换成电子格式(模拟的或数字的)。声传感器可以是声波传感器、麦克风、声音换能器或适用于检测声音的类似传感器。

在所示配置中，麦克风阵列包括在可穿戴设备100上的多个声检测位置，例如声检测位置120a、120b、120c、120d、120e和120f。声检测位置可以放置在可穿戴设备100的外表面上、放置在可穿戴设备100的内表面上、与可穿戴设备100分离(例如某种其他设备的部分)或者其某种组合。在一些实施例中，声检测位置120a-f中的一个或更多个也可以放置在每只耳朵的耳道中。麦克风阵列的声检测位置的配置可以与参考图1描述的配置不同。声检测位置的数量和/或位置可以与图1所示的数量和/或位置不同。例如，可以增加声检测位置的数量以增加收集的音频信息的量以及信息的灵敏度和/或准确性。声检测位置可以被定向成使得麦克风阵列能够在围绕戴着可穿戴设备100的用户的宽范围的方向上检测声音。每个检测到的声音可以与频率、幅度、相位、时间、持续时间或其某种组合相关联。

扬声器阵列基于ATF呈现音频内容。扬声器阵列包括在可穿戴设备100上的多个声发射位置。声发射位置是在可穿戴设备100的框架105中的扬声器或端口的位置。在声发射位置的情况下，端口提供声音从声波导的向外耦合点，该声波导将扬声器阵列的扬声器与端口分隔开。从扬声器发出的声音传播穿过声波导，然后由端口发射到局部区域中。

在所示实施例中，扬声器阵列包括声发射位置125a、125b、125c、125d、125e和125f。在其他实施例中，扬声器阵列可以包括不同数量的声发射位置(更多或更少)，并且它们可以被放置在框架105上的不同位置处。例如，扬声器阵列可以包括覆盖用户的耳朵的扬声器(例如头戴式耳机(headphone)或耳塞)。在所示实施例中，声发射位置125a-125f被放置在框架105的外表面(即，不面向用户的表面)上。在替代实施例中，一些或所有声发射位置可以被放置在框架105的内表面(面向用户的表面)上。增加声发射位置的数量可以提高与音频内容相关联的声音场景分析的准确性(例如，声源位于何处)和/或分辨率(例如，在分立声源之间的最小距离)。

在一些实施例中，每个声检测位置与相应的声发射位置基本上并置。基本上并置指每个声检测位置距离相应的声发射位置小于四分之一波长。声检测位置和相应的声发射位置的数量和/或位置可以不同于图1所示的数量和/或位置。例如，可以增加声检测位置和相应的声发射位置的数量来增加声音场景分析的准确性。

控制器135处理来自麦克风阵列的描述由麦克风阵列检测到的声音的信息。对于每个检测到的声音，控制器135执行DoA估计。DoA估计是估计的方向，检测到的声音从该估计的方向到达麦克风阵列的声传感器处。如果声音由麦克风阵列中的至少两个声传感器检测到，则控制器135可以使用声传感器的已知位置关系和来自每个声传感器的DoA估计，以例如经由三角测量来估计检测到的声音的源位置。控制器135可以使用声传递函数来执行DoA估计。当检测到声音的声传感器的数量增加时和/或当检测到声音的声传感器之间的距离增加时，源位置估计的准确性可以增加。

在一些实施例中，控制器135可以从在可穿戴设备100外部的***接收可穿戴设备100的位置信息。位置信息可以包括可穿戴设备100的位置、可穿戴设备100或戴着可穿戴设备100的用户的头部的定向、或其某种组合。位置信息可以相对于参考点被定义。定向可以对应于每只耳朵相对于参考点的位置。***的示例包括成像组件、控制台(例如，如在图5中所述的)、即时定位与地图构建(SLAM)***、深度相机组件、结构光***或其他合适的***。在一些实施例中，可穿戴设备100可以包括可以用于SLAM计算的传感器，SLAM计算可以全部或部分地由控制器135执行。控制器135可以连续地或以随机或指定的间隔从***接收位置信息。

基于检测到的声音的参数，控制器135生成与音频***相关联的一个或更多个声传递函数。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数或其某种组合。ATF表征麦克风阵列如何从空间中的点接收声音。具体地，ATF定义在声源位置处的声音的参数和麦克风阵列检测到该声音时的参数之间的关系。与声音相关联的参数可以包括频率、幅度、持续时间、DoA估计等。在一些实施例中，麦克风阵列中的至少一些声传感器耦合到由用户穿戴的NED。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于麦克风阵列的特定源位置的ATF可能因用户而异。因此，麦克风阵列的ATF对于穿戴着NED的每个用户是个性化的。

HRTF表征耳朵如何从空间中的点接收声音。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于人的特定源位置的HRTF对于此人的每只耳朵是唯一的(并且对于此人是唯一的)。例如在图1中，控制器135可以为用户生成两个HRTF，每只耳朵一个HRTF。一个HRTF或一对HRTF可用于创建包括似乎来自空间中的特定点的声音的音频内容。几个HRTF可用于创建环绕声音频内容(例如，用于家庭娱乐***、剧院扬声器***、沉浸式环境等)，其中每个HRTF或每对HRTF对应于空间中的不同点，使得音频内容似乎来自空间中的几个不同点。在一些实施例中，控制器135可以基于每个检测到的声音的DoA估计来更新预先存在的声传递函数。当可穿戴设备100的位置在局部区域内改变时，控制器135可以相应地生成新的声传递函数或者更新预先存在的声传递函数。

在一些实施例中，控制器可以执行DoA估计，跟踪声源的移动，隔离来自不同的声源的信号，并将声源分类。下面关于图3和图4详细描述控制器的操作。

在所示的配置中，音频***被嵌入到由用户穿戴的NED中。在替代实施例中，音频***可以被嵌入到由用户戴着的头戴式显示器(HMD)中。虽然上面的描述讨论了如嵌入到由用户戴着的头戴装置中的音频组件，但对于本领域中的技术人员将明显的是，音频组件可以被嵌入到不同的可穿戴设备中，该不同的可穿戴设备可以由用户穿戴在其他地方或在不被穿戴的情况下由用户操作。

图2A示出了根据一个或更多个实施例的可穿戴设备200分析局部区域205内的声音场景235。可穿戴设备200由用户210穿戴，并且包括音频***(例如，如在图1和图3-5中所描述的)。局部区域205包括多个声源，具体地，人215、人220、人225和风扇230。可穿戴设备200执行声音场景分析。声音场景描述例如与声源相关联的声传递函数、声源的数量、声源的位置、声源的移动、声源的分类或其某种组合。

可穿戴设备200估计每个声源的DoA。根据可穿戴设备200的分辨率和声源的相对位置，多个声源可以被分组在一起作为单个声源，用于由可穿戴设备200分析。例如，人215和人220彼此相邻定位，并且可穿戴设备200可以至少最初将人215和人220识别为单个声源。

基于DoA估计，可穿戴设备200在每个检测到的声源的方向上形成一个或更多个波束，如关于图3进一步描述的。形成波束(也被称为波束形成)是一种处理技术，可穿戴设备200使用该技术来将由局部区域中的声源产生的声音与局部区域内的其他声源隔离和/或分离。例如，可穿戴设备200形成在风扇230周围的波束241、在人215和人220周围的波束242以及在人225周围的波束243。通过为每个声源形成波束，可穿戴设备可以分别地处理对于每个声源由麦克风阵列接收的数据。可穿戴设备200可以增大从波束内接收的音频信号相对于在局部区域205中的其他声音的相对差异。例如，可穿戴设备200可以增大从波束内接收的音频信号的幅度、可以抑制从波束外接收的音频信号、或者其某种组合。

可穿戴设备200被配置为将每个声源分类。例如，基于声源的特性，可穿戴设备200可以将声源分类为人类、动物、电器、车辆等。不同的分类可以影响可穿戴设备200如何处理由麦克风阵列接收的声音以及由扬声器阵列输出的声音。基于跟踪、波束形成、声音分类或其某种组合，音频***生成和/或更新声音过滤器，并将声音过滤器提供给扬声器阵列。扬声器阵列使用声音过滤器来呈现音频内容。在一些实施例中，为了增加用户听到对话的能力，可穿戴设备200可以应用声音过滤器来增大来自具有被分类为人类的声源的波束的音频信号，并且可穿戴设备200可以应用声音过滤器来抑制来自具有被分类为非人类的声源的波束的音频信号。

图2B示出了可穿戴设备200在人225已经相对于可穿戴设备200移动之后分析声音场景235。可穿戴设备200被配置成随着时间的推移监控和分析声音场景235。当人225移动时，可穿戴设备200可以跟踪人225的移动。在一些实施例中，可穿戴设备200可以基于声源的改变的DoA、由可穿戴设备200接收的视觉信息或从外部数据源接收的信息来检测移动。当人215、220、225中的一个或更多个和可穿戴设备200之间的相对定位改变时，音频***动态地调整波束的位置以继续包括人215、220、225。例如，当人225朝着人215、225走时，可穿戴设备200动态地更新声音场景分析，使得波束243随着人225移动。可穿戴设备200可以利用声源的跟踪、波束形成和分类的结果作为反馈来评估由可穿戴设备200生成的声传递函数的准确性。可穿戴设备200可以基于反馈来更新声传递函数。更新后的声传递函数可用于提高DoA估计、跟踪、波束形成和分类的准确性。更新后的声传递函数可用于更新提供给扬声器阵列的声音过滤器。

图3是根据一个或更多个实施例的音频***300的框图。图1、图2A和图2B中的音频***可以是音频***300的实施例。音频***300检测声音以为用户生成一个或更多个声传递函数。音频***300然后可以使用一个或更多个声传递函数来为用户生成音频内容。在图3的实施例中，音频***300包括麦克风阵列310、扬声器阵列320和控制器330。音频***300的一些实施例具有与这里描述的部件不同的部件。类似地，在某些情形中，功能可以以不同于这里描述的方式在部件之间分配。

麦克风阵列310检测在围绕麦克风阵列310的局部区域内的声音。麦克风阵列310可以包括多个声传感器，每个声传感器检测声波的气压变化并将检测到的声音转换成电子格式(模拟的或数字的)。多个声传感器可以位于眼镜设备(例如可穿戴设备100)上、用户上(例如用户的耳道中)、颈带上或其某种组合。麦克风阵列310中的每个声传感器可以是活跃的(被通电)或不活跃的(被断电)。声传感器根据来自控制器330的指令被激活或去激活。在一些实施例中，麦克风阵列310中的所有声传感器可以是活跃的以检测声音，或者多个声传感器的子集可以是活跃的。活跃的子集包括多个声传感器中的至少两个声传感器。活跃的子集可以包括例如每隔一个的声传感器、预编程的初始子集、随机子集或其某种组合。

扬声器阵列320被配置成向用户传输声音或传输来自用户的声音。扬声器阵列320可以根据来自控制器330的命令和/或基于来自控制器330的音频表征配置来操作。基于音频表征配置，扬声器阵列320可以产生似乎来自空间中的特定点的双耳声音。扬声器阵列320可以向用户提供声音序列和/或环绕声。在一些实施例中，扬声器阵列320和麦克风阵列310可以一起用于向用户提供声音。在一些实施例中，扬声器阵列320可以将声音投射到声音场景中的特定位置，或者扬声器阵列320可以防止声音被投射到声音场景中的特定位置。扬声器阵列320可以根据由控制器330利用的声音过滤器来呈现声音。

扬声器阵列320可以耦合到麦克风阵列310所耦合到的可穿戴设备。在替代实施例中，扬声器阵列320可以是围绕穿戴着麦克风阵列310的用户的多个扬声器。在一个实施例中，扬声器阵列320在麦克风阵列310的校准过程期间传输测试声音。控制器330可以指示扬声器阵列320产生测试声音，然后可以分析由麦克风阵列310接收到的测试声音，以为可穿戴设备生成声传递函数。具有变化的频率、幅度、持续时间或序列的多个测试声音可以由扬声器阵列320产生。

控制器330处理来自麦克风阵列310的信息。此外，控制器330控制音频***300的其他模块和设备。在图3的实施例中，控制器330包括DoA估计模块340、传递函数模块350、跟踪模块360、波束形成模块370、分类模块380、声音过滤器模块385和个人助理模块390。

DoA估计模块340被配置为对检测到的声音执行DoA估计。如果声音由麦克风阵列中的至少两个声传感器检测到，则控制器330可以使用声传感器的位置关系和来自每个声传感器的DoA估计来例如经由三角测量估计检测到的声音的源位置。所估计的源位置可以是局部区域中源位置相对于麦克风阵列310的位置的相对位置。麦克风阵列310的位置可以由在具有麦克风阵列310的可穿戴设备上的一个或更多个传感器确定。在一些实施例中，如果麦克风阵列310的绝对位置在局部区域中是已知的，则控制器330可以确定源位置的绝对位置。麦克风阵列310的位置可以从外部***(例如成像组件、AR或VR控制台、SLAM***、深度相机组件、结构光***等)接收。外部***可以创建局部区域的虚拟模型，其中局部区域和麦克风阵列310的位置被测绘(map)。所接收的位置信息可以包括在所测绘的局部区域中的麦克风阵列的位置和/或定向。控制器330可以用检测到的声音的所确定的源位置来更新局部区域的测绘。控制器330可以连续地或以随机或指定的间隔从外部***接收位置信息。

DoA估计模块340选择检测到的声音，它对检测到的声音执行DoA估计。DoA估计模块340用信息填充音频数据集。该信息可以包括检测到的声音和与每个检测到的声音相关联的参数。示例参数可以包括频率、幅度、持续时间、DoA估计、源位置、测量的时间或其某种组合。每个音频数据集可以对应于相对于麦克风阵列310的不同源位置，并且包括具有该源位置的一个或更多个声音。当声音由麦克风阵列310检测到时，DoA估计模块340可以填充音频数据集。DoA估计模块340可以评估与每个检测到的声音相关联的所存储的参数，并确定一个或更多个所存储的参数是否满足相应的参数条件。例如，如果参数高于或低于阈值或者落在目标范围内，则参数条件可以被满足。如果参数条件被满足，则DoA估计模块340对检测到的声音执行DoA估计。例如，DoA估计模块340可以对具有在频率范围内的频率、高于阈值幅度的幅度、在阈值持续时间范围之下的持续时间、其他类似的变化或其某种组合的检测到的声音执行DoA估计。参数条件可以由音频***300的用户基于历史数据、基于对音频数据集中的信息的分析(例如，针对参数评估所收集的信息并设置平均值)或其某种组合来设置。当DoA估计模块340对检测到的声音执行DoA估计时，它可以进一步填充或更新音频数据集。DoA估计模块340可以计算每个DoA估计的置信水平。可以基于在基本空间谱中的峰的锐度来测量置信水平。在基于到达时间差的算法被采用的一些实施例中，可以基于互相关函数的锐度来测量置信水平。DoA估计的置信水平可以表示声源位于由DoA估计模块340估计的位置上的可能性。例如，置信水平的范围可以是从1到100，其中100的理论置信水平表示在DoA估计中不确定性为零，以及1的置信水平表示在DoA估计中的高水平的不确定性。

传递函数模块350被配置成生成与由麦克风阵列310检测到的声音的源位置相关联的一个或更多个声传递函数。一般来说，传递函数是对于每个可能的输入值给出相应的输出值的数学函数。每个声传递函数可以与麦克风阵列或人的位置(position)(即，位置(location)和/或定向)相关联，并且对于该位置可以是唯一的。例如，当声源的位置和/或麦克风阵列或人的头部的位置或定向改变时，声音可以在频率、幅度等方面被不同地检测到。在图3的实施例中，传递函数模块350使用音频数据集中的信息来生成一个或更多个声传递函数。信息可以包括检测到的声音和与每个检测到的声音相关联的参数。来自DoA估计模块340的DoA估计和它们各自的置信水平可以用作传递函数模块350的输入以提高声传递函数的准确性。此外，传递函数模块350可以从跟踪模块360、波束形成模块370和分类模块380接收反馈以更新声传递函数。

在一些实施例中，DoA估计模块340可以仅预先选择直达声(direct sound)并去除反射的声音。直达声可以用来提取声传递函数。关于提取声传递函数的更多信息，参见标题为“AUDIO SYSTEM FOR DYNAMIC DETERMINATION OF PERSONALIZED ACOUSTIC TRANSFERFUNCTIONS”且于2018年6月22日提交的美国申请号16/015,879，其内容通过引用以其整体并入本文。反馈可用于控制适应过程。

来自DoA估计模块340、跟踪模块360、波束形成模块370和分类模块380的反馈可用于更新声传递函数。每个模块可以被不同地加权。在一些实施例中，权重可以基于在处理链中的顺序。例如，来自DoA估计模块340的反馈可以接收0.4的权重，来自跟踪模块360的反馈可以接收0.3的权重，来自波束形成模块370的反馈可以接收0.2的权重，以及来自分类模块380的反馈可以接收0.1的权重。然而，这只是一个示例，且本领域中的技术人员将认识到，许多不同的加权方案可以被使用，以及在一些实施例中，可以通过试错法(trial anderror)或者通过使用实验数据执行统计分析来推断权重。

声传递函数可以用于下面更详细讨论的各种目的。在一些实施例中，传递函数模块350可以基于检测到的声音的DoA估计来更新一个或更多个预先存在的声传递函数。当声源或麦克风阵列310的位置(即，位置和/或定向)在局部区域内改变时，控制器330可以与每个位置相关联地相应地生成新的声传递函数或者更新预先存在的声传递函数。

在一些实施例中，传递函数模块350生成阵列传递函数(ATF)。ATF表征麦克风阵列310如何从空间中的点接收声音。具体地，ATF定义在声源位置处的声音的参数和麦克风阵列310检测到该声音时的参数之间的关系。传递函数模块350可以为检测到的声音的特定源位置、麦克风阵列310在局部区域中的位置或其某种组合生成一个或更多个ATF。可以影响声音如何由麦克风阵列310接收的因素可以包括麦克风阵列310中声传感器的布置和/或定向、在声源和麦克风阵列310之间的任何物体、穿戴着具有麦克风阵列310的可穿戴设备的用户的解剖结构或者在局部区域中的其他物体。例如，如果用户穿戴着包括麦克风阵列310的可穿戴设备，则此人的解剖结构(例如耳朵形状、肩膀等)可以在声波传播到麦克风阵列310时影响声波。在另一示例中，如果用户穿戴着包括麦克风阵列310的可穿戴设备并且围绕麦克风阵列310的局部区域是包括建筑物、树、灌木、水体(a body of water)等的外部环境，这些物体可能减弱或放大在局部区域中的声音的幅度。生成和/或更新ATF提高了由麦克风阵列310捕获的音频信息的准确性。

在一个实施例中，传递函数模块350生成一个或更多个HRTF。HRTF表征人的耳朵如何从空间中的点接收声音。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于人的特定源位置的HRTF对于人的每只耳朵是唯一的(并且对于该人是唯一的)。传递函数模块350可以为单个人生成多个HRTF，其中每个HRTF可以与不同的源位置、穿戴着麦克风阵列310的人的不同位置或其某种组合相关联。此外，对于每个源位置和/或人的位置，传递函数模块350可以生成两个HRTF，人的每只耳朵对应一个HRTF。作为示例，传递函数模块350可以在局部区域中的用户的头部相对于单个源位置的特定位置和定向处为用户生成两个HRTF。如果用户在不同的方向上转动他或她的头，传递函数模块350可以在特定位置和新的定向处为用户生成两个新的HRTF，或者传递函数模块350可以更新两个预先存在的HRTF。因此，传递函数模块350针对不同的源位置、局部区域中的麦克风阵列310的不同位置或其某种组合而生成几个HRTF。

在一些实施例中，传递函数模块350可以为用户使用多个HRTF和/或ATF以向用户提供音频内容。传递函数模块350可以生成可以由扬声器阵列320使用的用于生成声音(例如立体声或环绕声)的音频表征配置。音频表征配置是函数，音频***300可以使用该函数来合成似乎来自空间中的特定点的双耳声音。因此，对用户特定的音频表征配置允许音频***300向用户提供声音和/或环绕声或者将声音投射到声音场景中的不同位置。音频***300可以使用扬声器阵列320来提供声音。在一些实施例中，音频***300可以结合或代替扬声器阵列320来使用麦克风阵列310。在一个实施例中，多个ATF、多个HRTF和/或音频表征配置被存储在控制器330上。跟踪模块360被配置成跟踪一个或更多个声源的位置。跟踪模块360可以比较当前DoA估计或声音参数，并将它们与所存储的先前DoA估计或声音参数的历史进行比较。在一些实施例中，音频***300可以定期地(例如每秒一次或者每毫秒一次)重新计算DoA估计。跟踪模块可以将当前DoA估计与先前的DoA估计进行比较，并且响应于声源的DoA估计的变化，跟踪模块360可以确定声源移动了。在一些实施例中，跟踪模块360可以基于由可穿戴设备接收的视觉信息或从外部数据源接收的信息来检测位置的变化。跟踪模块360可以跟踪一个或更多个声源随着时间的推移的移动。跟踪模块360可以存储声源的数量和每个声源的位置在每个时间点的值。响应于声源的数量或位置的值的变化，跟踪模块360可以确定声源移动了。跟踪模块360可以计算定位方差(localization variance)的估计。定位方差可以用作移动的变化的每次确定的置信水平。

波束形成模块370被配置成在麦克风阵列310处接收的来自分立声源的声音的方向上形成波束。波束形成模块370可以基于来自DoA估计模块340和跟踪模块360的不同DoA估计来将从波束内接收的音频信号与在局部区域中的其他声源隔离。也被称为空间滤波的波束形成是在传感器阵列中用于定向接收的信号处理技术。波束形成模块370可以以这样的方式组合在麦克风阵列310或扬声器阵列320中的元件，使得从特定角度接收的信号经历相长干涉，而其他信号经历相消干涉。为了改变阵列的方向性，波束形成模块可以控制在每个麦克风或扬声器处的信号的相位和相对幅度，以便在波前中创建相长干涉和相消干涉的图案。当分析由麦克风阵列310检测到的声音时，波束形成模块370可以以预期的辐射模式被优先观察到的方式来组合来自不同麦克风的信息。波束形成模块370因此可以选择性地分析局部区域中的分立声源。在一些实施例中，波束形成模块370可以增强来自声源的信号。例如，波束形成模块370可以应用消除高于、低于某些频率或在某些频率之间的信号的声音过滤器。信号增强起作用来相对于由麦克风阵列310检测到的其他声音来增强与给定的所识别的声源相关联的声音。

波束形成模块370可以计算波束的位置或其他方面的准确性的置信水平。在一些实施例中，波束形成模块370可以使用阵列增益计算作为置信水平。阵列增益是输出信噪比(SNR)与输入SNR之间的比率。相对较高的阵列增益表示较高的置信水平。波束形成模块370可以将来自声源的所隔离的信号及它们各自的置信水平提供给传递函数模块350以用作输入来提高声传递函数的准确性。

分类模块380被配置为将检测到的声源分类。在一些实施例中，分类模块380将所识别的声源分类为人类类型或者非人类类型。人类类型声源是人和/或由人控制的设备(例如电话、会议设备、远程办公机器人)。非人类类型声源是不被分类为人类类型声源的任何声源。非人类类型声源可以包括例如电视机、收音机、空调单元、风扇、未被分类为人类类型声源的任何声源、或者其某种组合。在一些实施例中，分类模块380将声源分类为更窄的类别，例如男性、女性、狗、电视机、车辆等。分类模块380可以存储分类库。分类库可以存储声源分类的列表以及指示声源满足特定分类的参数。例如，声源分类可以包括：人类、动物、机械、数字、仪器、车辆等。在一些实施例中，声源分类可以包括子分类。例如，人类分类可以包括男性、女性、成人、儿童、说话、笑、叫喊等的子分类。参数可以包括诸如频率、幅度、持续时间等的类别。每个分类或子分类与表示该分类的参数相关联。分类模块380可以将声源的参数与分类库中的参数进行比较以将声源分类。

此外，在一些实施例中，用户可以手动地将局部区域中的物体和/或人分类。例如，用户可以使用在可穿戴设备上的接口来将人识别为人类。一旦声源被分类，分类模块380将与该声源相关联的声传递函数关联为具有相同类型。

分类模块380通过分析与所识别的声源和/或由麦克风阵列310检测到的声音相关联的声传递函数来确定声源的类型。在一些实施例中，分类模块380可以分析如由波束形成模块370提供的所隔离的信号来将声源分类。

分类模块380可以计算声源的分类的置信水平。分类模块可以输出表示输入音频样本属于给定类别的概率的数字。概率数字可以用作置信水平。分类模块380可以向传递函数模块350提供声源的分类及它们各自的置信水平以用作输入来提高声传递函数的准确性。

音频***300不断从麦克风阵列310接收声音。因此，当可穿戴设备和局部区域内的任何声源之间的相对位置改变时，控制器330可以(例如，经由在控制器330内的模块)动态地更新声传递函数和声音场景分析。更新后的声传递函数可以由DoA估计模块340、跟踪模块360、波束形成模块370和分类模块380使用来提高每个模块的相应计算的准确性。

声音过滤器模块385确定用于扬声器阵列320的声音过滤器。在一些实施例中，声音过滤器模块385和波束形成模块370可以利用双耳波束形成，其使用声传递函数将波束形成和回放组合成单个步骤。在这样的情况下，声音过滤器模块385和波束形成模块370通过将优化算法应用于声传递函数来确定声音过滤器。然而，在一些实施例中，在声音过滤器模块385确定声音过滤器之前，波束形成模块370将优化算法应用于声传递函数。优化算法受限于一个或更多个约束。约束是可以影响优化算法的结果的要求。例如，约束可以是例如：声源的分类；由扬声器阵列320输出的音频内容被提供给用户的耳朵，被分类为人类类型的声传递函数的总和的能量和/或功率被最小化或最大化；由扬声器阵列320输出的音频内容在用户的耳朵处具有小于阈值量的失真；可以影响优化算法的结果的某种其他要求；或者其某种组合。优化算法可以是例如线性约束最小方差(LCMV)算法、最小方差无失真响应(MVDR)或确定声音过滤器的某个其他自适应波束形成算法。在一些实施例中，优化算法还可以利用来自所识别的声源的声音的到达方向和/或一个或更多个声源到头戴装置的相对位置来确定声音过滤器。优化算法可以输出声音过滤器。声音过滤器模块385向扬声器阵列320提供声音过滤器。声音过滤器当应用于音频信号时使扬声器阵列320呈现放大或减弱声源的音频内容。在一些实施例中，声音过滤器可以使扬声器阵列320放大人类声源，并减弱非人类声源。在一些实施例中，声音过滤器可以使扬声器阵列320在被声源占据的一个或更多个阻尼区域中产生具有减小的幅度的声场。

如上面所提到的，优化算法可以由声源的分类类型约束。例如，声音过滤器模块385和/或波束形成模块370可以以这样的方式将优化算法应用于声传递函数，使得被分类为人类类型的声传递函数的能量的总和的能量被最小化。以这种方式进行约束的优化算法可以生成声音过滤器，使得阻尼区域将位于被分类为人类类型的声源存在的地方，但是将不位于被分类为非人类类型的声源存在的地方。分类的一个优点是，它可以潜在地减少声场内的阻尼区域的数量，从而降低声场的复杂性和扬声器阵列320的硬件规格(例如，多个声发射位置和声检测位置)。阻尼区域的数量的减少也可以增加对所使用的阻尼区域的抑制。

响应于传递函数模块350更新声传递函数，声音过滤器模块385可以将优化算法应用于更新后的声传递函数。声音过滤器模块385可以向扬声器阵列320提供更新后的声音过滤器。在将声音场景中的一些或所有声源分类之后，声音过滤器可以被应用以加强或抑制所选择的声源。可以基于给定的情形、用户的输入或如本文所述的设备所采用的各种算法来决定所选择的声源。

个人助理模块390被配置为向用户提供关于声音场景分析的有用信息。个人助理模块390可以经由扬声器阵列320或在可穿戴设备上的视觉显示器向用户提供信息。例如，个人助理模块390可以向用户提供各种声源的数量、位置和分类。个人助理模块390可以转录来自人类声源的语音。个人助理模块390可以提供关于声源的描述性信息，例如关于特定人的信息(如果那个人在分类库中被列出)或者机械声源的品牌和型号。

另外，个人助理模块390可以提供声音场景的预测分析。例如，个人助理模块390可以基于由跟踪模块360提供的空间信息来确定当车辆正在用户的方向上快速移动时由分类模块380识别的声源，并且个人助理模块390可以生成车辆的移动的通知，以经由扬声器阵列320或视觉显示器来警告用户用户有被车辆撞击的危险。在一些实施例中，个人助理模块390可以预测或请求关于哪些声源应该被放大以及哪些声源应该被减弱的来自用户的输入。例如，个人助理模块390可以基于先前存储的与用户或与其他用户的交互来确定来自离用户最近的人类声源的声音应该被放大以及所有其他声源应该被减弱。这可以帮助用户在嘈杂的环境中保持对话。本领域中的技术人员将认识到，上述具体示例代表个人助理模块390和音频***300的许多可用用途中的一小部分。

图4是示出根据一个或更多个实施例的为包括音频***(例如音频***300)的可穿戴设备(例如可穿戴设备100)生成和更新声传递函数的过程400的流程图。在一个实施例中，图4的过程由音频***的部件执行。在其他实施例中，其他实体(例如控制台或远程服务器)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

音频***检测410来自在围绕可穿戴设备的局部区域中的一个或更多个声源的声音。在一些实施例中，音频***将与每个检测到的声音相关联的信息存储在音频数据集中。

在一些实施例中，音频***估计可穿戴设备在局部区域中的位置。所估计的位置可以包括可穿戴设备的位置和/或可穿戴设备或戴着可穿戴设备的用户的头部的定向或其某种组合。在一个实施例中，可穿戴设备可以包括一个或更多个传感器，其响应于可穿戴设备的运动而生成一个或更多个测量信号。音频***可以估计相对于可穿戴设备的初始位置的可穿戴设备的当前位置。在另一个实施例中，音频***可以从外部***(例如成像组件、AR或VR控制台、SLAM***、深度相机组件、结构光***等)接收可穿戴设备的位置信息。

音频***估计420与检测到的声音相关联的一个或更多个声传递函数。声传递函数可以是阵列传递函数(ATF)或头部相关传递函数(HRTF)。因此，每个声传递函数与检测到的声音的不同源位置、麦克风阵列的不同位置或其某种组合相关联。作为结果，音频***可以针对特定源位置和/或麦克风阵列在局部区域中的位置，估计多个声传递函数。

音频***相对于可穿戴设备的位置对每个检测到的声音执行430到达方向(DoA)估计。DoA估计可以被表示为在检测到的声音的所估计的源位置和在局部区域内的可穿戴设备的位置之间的向量。在一些实施例中，音频***可以对与满足参数条件的参数相关联的检测到的声音执行DoA估计。例如，如果参数高于或低于阈值或者落在目标范围内，则参数条件可以被满足。可穿戴设备可以计算每个DoA估计的置信水平。例如，置信水平的范围可以是从1到100，其中100的理论置信水平表示在DoA估计中不确定性为零，以及1的置信水平表示在DoA估计中的高水平的不确定性。基于DoA估计和DoA估计的置信水平，音频***可以更新声传递函数。

音频***检测440一个或更多个声源的位置的变化。音频***可以存储先前估计的DoA的历史。在一些实施例中，音频***可以定期地(例如每秒一次或者每毫秒一次)重新计算DoA。音频***可以将当前DoA与先前的DoA进行比较，并且响应于声源的DoA的变化，音频***可以确定声源移动了。在一些实施例中，可穿戴设备可以基于由可穿戴设备接收的视觉信息或从外部数据源接收的信息来检测位置的变化。音频***可以跟踪一个或更多个声源随着时间的推移的移动。可穿戴设备可以为移动的变化的每次确定计算置信水平。基于声源的跟踪和位置的变化的置信水平，音频***可以更新声传递函数。

如果麦克风阵列的位置在局部区域内改变，则音频***可以相应地生成一个或更多个新的声传递函数或者更新一个或更多个预先存在的声传递函数。

音频***在不同声源的方向上形成波束450。例如，音频***可以利用波束形成过程来分离来自不同声源的信号用于进一步的分析。音频***可以独立地分析和处理从每个波束接收的声音。音频***可以增强从每个波束接收的信号。音频***可以计算波束形成过程的置信水平，并使用来自声源的所隔离的信号及它们各自的置信水平来更新声传递函数。

音频***可以将声源分类460。音频***可以比较从声源接收的信号和与已知分类相关联的信号。例如，音频***可以基于与在分类库中的人类分类的特征的相似性来将声源分类为人类。音频***可以计算分类的置信水平，并使用声源的分类及它们各自的置信水平来更新声传递函数。

音频***可以使用扬声器阵列来呈现470声音内容。基于跟踪、波束形成和声音分类，音频***生成和/或更新声音过滤器，并将声音过滤器提供给扬声器阵列。扬声器阵列使用声音过滤器来呈现音频内容。声音过滤器可以使扬声器阵列放大一些声音并抑制其他声音。放大和抑制的特定用途可以涵盖任何期望的目的。例如，声音过滤器可以使扬声器阵列放大来自被识别为人类声源的声源的声音，同时抑制来自被识别为滋扰声源(例如风扇)的声源的声音；声音过滤器可以抑制语音并放大白噪声以减小在工作时的注意力分散，声音过滤器可以放大正在靠近的车辆的声音以警告用户；声音过滤器可以放大哭泣的婴儿的声音以引起注意；等等。

音频***可以调整480声传递函数。音频***可以基于DoA估计、声源的位置的变化、声源的隔离或声源的分类中的至少一个来调整声传递函数。此外，音频***可以使用相应输入的置信水平来调整声传递函数。传递函数模块通过将当前/已知的声传递函数与从最近的一条音频信号提取的新的/新近的(fresh)声传递函数进行组合来调整声传递函数。声传递函数与可以基于来自各种模块的置信水平而选择的某些权重组合。权重可以与从所有其他模块接收的总体置信度成正比。例如，高置信度暗示当前的声传递函数是准确的，因此适应可以是缓慢的或停止，这意味着高权重(例如大于0.5)可以被分配给已知的声传递函数分量，以及低权重(例如小于0.5)可以被分配给新的数据。相反，如果组合的置信度对于当前声传递函数是低的，则快速适应可能是需要的，在这种情况下，高权重可以被分配给从最近的音频数据提取的声传递函数。

在一些实施例中，音频***可以在整个过程400中的任何点处更新声传递函数。更新后的声函数可用于执行DoA估计、跟踪声源、形成针对声源的波束、识别声源、向扬声器阵列提供声音过滤器以及呈现音频内容。

当穿戴着麦克风阵列(例如，耦合到NED)的用户穿过局部区域时，可以不断地重复过程400，或者过程400可以在经由麦克风阵列检测到声音时被发起。通过使用过程400的步骤的结果作为反馈——其可以是用于估计声传递函数的输入，可以不断地改进声传递函数以及音频***和可穿戴设备的总体性能。

人工现实***的示例

图5是根据一个或更多个实施例的包括音频***510的可穿戴设备505的***环境。***500可以在人工现实环境中操作。图5所示的***500包括可穿戴设备505和耦合到控制台510的输入/输出(I/O)接口515。可穿戴设备505可以是可穿戴设备100的实施例。尽管图5示出了包括一个可穿戴设备505和一个I/O接口515的示例***500，但在其他实施例中任意数量的这些部件可以被包括***500中。例如，可以有多个可穿戴设备505，每个可穿戴设备具有相关联的I/O接口515，每个可穿戴设备505和I/O接口515与控制台501通信。在替代配置中，***500中可以包括不同的和/或附加的部件。另外，在一些实施例中，结合图5所示的一个或更多个部件描述的功能可以以不同于结合图5描述的方式在部件之间分配。例如，控制台501的一些或全部功能由可穿戴设备505提供。

可穿戴设备505向用户呈现包括具有计算机生成的元素(例如二维(2D)或三维(3D)图像、2D或3D视频、声音等)的物理、真实世界环境的增强视图的内容。可穿戴设备505可以是眼镜设备或头戴式显示器。在一些实施例中，所呈现的内容包括经由音频***300呈现的音频内容，该音频***从可穿戴设备505、控制台501或两者接收音频信息(例如音频信号)，并且基于音频信息来呈现音频内容。

可穿戴设备505包括音频***510、深度相机组件(DCA)520、电子显示器525、光学块530、一个或更多个位置传感器535和惯性测量单元(IMU)540。电子显示器525和光学块530是图1的透镜110的一个实施例。位置传感器535和IMU 540是图1的传感器设备115的一个实施例。可穿戴设备505的一些实施例具有与结合图5描述的部件不同的部件。另外，由结合图5描述的各种部件提供的功能可以在其他实施例中被不同地分配在可穿戴设备505的部件之间，或者可以在远离可穿戴设备505的单独组件中被捕获。

音频***510检测声音以为用户生成一个或更多个声传递函数。音频***510然后可以使用一个或更多个声传递函数来为用户生成音频内容。音频***510可以是音频***300的实施例。如关于图3所述的，音频***510可以包括麦克风阵列、控制器和扬声器阵列以及其他部件。麦克风阵列检测在围绕麦克风阵列的局部区域内的声音。麦克风阵列可以包括多个声传感器，每个声传感器检测声波的气压变化，并将检测到的声音转换成电子格式(模拟的或数字的)。控制器对由麦克风阵列检测到的声音执行DoA估计。部分地基于检测到的声音的DoA估计和与检测到的声音相关联的参数，控制器生成与检测到的声音的源位置相关联的一个或更多个声传递函数。声传递函数可以是ATF、HRTF、其他类型的声传递函数或其某种组合。控制器可以为扬声器阵列生成发出似乎来自空间中的几个不同点的音频内容的指令。音频***510可以跟踪声音的位置，在声音的位置周围形成波束，并将声音分类。跟踪、波束形成和分类的结果以及任何相关联的置信水平可以被输入到控制器以更新声传递函数。

DCA 520捕获描述围绕可穿戴设备505的一部分或全部的局部环境的深度信息的数据。DCA 520可以包括光发生器(例如，结构光和/或用于飞行时间的闪光)、成像装置和可以耦合到光发生器和成像装置两者的DCA控制器。光发生器例如根据由DCA控制器生成的发射指令，用照明光照射局部区域。DCA控制器被配置为基于发射指令来控制光发生器的某些部件的操作，例如，以调整照射局部区域的照明光的强度和图案。在一些实施例中，照明光可以包括结构光图案，例如点图案、线图案等。成像设备捕获在用照明光照射的局部区域中的一个或更多个物体的一个或更多个图像。DCA 520可以使用由成像设备捕获的数据来计算深度信息，或者DCA 520可以将该信息发送到另一设备(例如控制台501)，该另一设备可以使用来自DCA 520的数据来确定深度信息。

在一些实施例中，音频***510可以利用深度信息，该深度信息可以帮助识别一个或更多个潜在声源的方向、一个或更多个声源的深度、一个或更多个声源的移动、在一个或更多个声源周围的声音活动或其任何组合。

电子显示器525根据从控制台501接收的数据来向用户显示2D或3D图像。在各种实施例中，电子显示器525包括单个电子显示器或多个电子显示器(例如，针对用户的每只眼睛的显示器)。电子显示器525的示例包括：液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管显示器(AMOLED)、波导显示器、某种其他显示器或其某种组合。

在一些实施例中，光学块530放大从电子显示器525接收的图像光，校正与图像光相关联的光学误差，并将经校正的图像光呈现给可穿戴设备505的用户。在各种实施例中，光学块530包括一个或更多个光学元件。光学块530中包括的示例光学元件包括：波导、光圈、菲涅尔透镜(Fresnel lens)、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块530可以包括不同光学元件的组合。在一些实施例中，光学块530中的一个或更多个光学元件可以具有一个或更多个涂层，例如部分反射涂层或抗反射涂层。

光学块530对图像光的放大和聚焦允许电子显示器525比更大的显示器物理上更小、重量更轻并且消耗更少的功率。此外，放大可以增大电子显示器525所呈现的内容的视场。例如，显示的内容的视场使得显示的内容使用用户的几乎所有视场(例如，约110度对角线)、并且在某些情况下使用用户的所有视场来呈现。另外，在一些实施例中，可以通过添加或移除光学元件来调整放大量。

在一些实施例中，光学块530可以被设计成校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差还可以包括球面像差、色差(chromatic aberrations)或由于透镜像场弯曲(lens fieldcurvature)、散光或任何其他类型的光学误差引起的误差。在一些实施例中，被提供到电子显示器525用于显示的内容被预失真，并且当光学块530从电子显示器525接收基于内容生成的图像光时光学块630校正失真。

IMU 540是基于从一个或更多个位置传感器535接收的测量信号来生成指示可穿戴设备505的位置的数据的电子设备。位置传感器535响应于可穿戴设备505的运动而生成一个或更多个测量信号。位置传感器535的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU 540的误差校正的一种类型的传感器或者其某种组合。位置传感器535可以位于IMU 540的外部、IMU540的内部或者这两种位置的某种组合。在一个或更多个实施例中，IMU 540和/或位置传感器535可以是能够监控用户对由音频***300提供的音频内容的响应的监控设备。

基于来自一个或更多个位置传感器535的一个或更多个测量信号，IMU 540生成指示相对于可穿戴设备505的初始位置的可穿戴设备505的估计的当前位置的数据。例如，位置传感器535包括测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和测量旋转运动(例如俯仰、偏航和横滚)的多个陀螺仪。在一些实施例中，IMU 540对测量信号快速采样，并从所采样的数据计算可穿戴设备505的估计的当前位置。例如，IMU 540在时间上对从加速度计接收的测量信号求积分以估计速度向量，并在时间上对速度向量求积分以确定在可穿戴设备505上的参考点的估计的当前位置。替代地，IMU 540向控制台501提供采样的测量信号，控制台501对数据进行解析以减少误差。参考点是可以用来描述可穿戴设备505的位置的点。参考点通常可以定义为空间中的点或与可穿戴设备505的定向和位置相关的位置。

I/O接口515是允许用户发送行动请求并从控制台501接收响应的设备。行动请求是执行特定行动的请求。例如，行动请求可以是开始或结束捕获图像或视频数据的指令，或者是在应用内执行特定行动的指令。I/O接口515可以包括一个或更多个输入设备。示例输入设备包括：键盘、鼠标、手控制器或用于接收行动请求并将行动请求传送到控制台501的任何其他合适的设备。由I/O接口515接收的行动请求被传送到控制台501，控制台501执行对应于行动请求的行动。在一些实施例中，如上面进一步描述的，I/O接口515包括IMU 540，其捕获指示相对于I/O接口515的初始位置的I/O接口515的估计的位置的校准数据。在一些实施例中，I/O接口515可以根据从控制台501接收到的指令向用户提供触觉反馈。例如，当行动请求被接收到时，或者当控制台501向I/O接口515传送指令时，触觉反馈被提供，该指令使I/O接口515在控制台501执行行动时生成触觉反馈。I/O接口515可以监控来自用户的一个或更多个输入响应以用于确定音频内容的感知的源方向和/或感知的源位置。

控制台501根据从可穿戴设备505和I/O接口515中的一个或更多个接收的信息来向可穿戴设备505提供内容用于处理。在图5所示的示例中，控制台501包括应用储存器550、跟踪模块555和引擎545。控制台501的一些实施例具有与结合图5描述的模块或部件不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图5描述的方式被分配在控制台501的部件中。

应用储存器550存储用于由控制台501执行的一个或更多个应用。应用是一组指令，该组指令在由处理器执行时生成用于呈现给用户的内容。由应用生成的内容可以响应于经由可穿戴设备505或I/O接口515的移动从用户接收的输入。应用的示例包括：游戏应用、会议应用、视频回放应用或其它合适的应用。

跟踪模块555使用一个或更多个校准参数来校准***环境500，并且可以调整一个或更多个校准参数以减少在可穿戴设备505或I/O接口515的位置的确定中的误差。由跟踪模块555执行的校准还考虑从在可穿戴设备505中的IMU 540和/或被包括在I/O接口515中的IMU 540接收的信息。另外，如果可穿戴设备505的跟踪被丢失，则跟踪模块555可以重新校准***环境500的一部分或全部。

跟踪模块555使用来自一个或更多个位置传感器535、IMU 540、DCA 520或其某种组合的信息来跟踪可穿戴设备505或I/O接口515的移动。例如，跟踪模块555基于来自可穿戴设备505的信息来确定可穿戴设备505的参考点在局部区域的测绘中的位置。跟踪模块555还可以分别使用来自IMU 540的指示可穿戴设备505的位置的数据或者使用来自被包括在I/O接口515中的IMU 540的指示I/O接口515的位置的数据来确定可穿戴设备505的参考点或者I/O接口515的参考点的位置。另外，在一些实施例中，跟踪模块555可以使用来自IMU540的指示可穿戴设备505的位置的数据的部分来预测可穿戴设备505的未来位置。跟踪模块555向引擎545提供可穿戴设备505或I/O接口515的所估计的或预测的未来位置。在一些实施例中，跟踪模块555可以向音频***300提供跟踪信息用于在生成声音过滤器时使用。

引擎545也执行在***环境500内的应用，并从跟踪模块555接收可穿戴设备505的位置信息、加速度信息、速度信息、预测的未来位置或其某种组合。基于接收到的信息，引擎545确定要提供给可穿戴设备505用于呈现给用户的内容。例如，如果接收到的信息指示用户已经向左看，则引擎545为可穿戴设备505生成反映用户在虚拟环境中或在用附加内容增强局部区域的环境中的移动的内容。此外，引擎545响应于从I/O接口515接收到的行动请求而在控制台501上执行的应用内执行行动，并向用户提供该行动被执行的反馈。所提供的反馈可以是经由可穿戴设备505的视觉或听觉反馈或者经由I/O接口515的触觉反馈。

附加配置信息

本公开的实施例的前述描述为了说明的目的被提出；它并不意图为无遗漏的或将本公开限制到所公开的精确形式。相关领域中的技术人员可以认识到，按照上面的公开，许多修改和变化是可能的。

本描述的一些部分从对信息的操作的算法和符号表示方面描述了本公开的实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为将由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括计算机可读介质的计算机程序产品来实现软件模块，该计算机可读介质包含计算机程序代码，计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。

本公开的实施例也可以涉及用于执行本文的操作的装置。该装置可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以存储在非暂时性的、有形的计算机可读存储介质中或者适合于存储电子指令的可以耦合到计算机***总线的任何类型的介质中。此外，在说明书中提到的任何计算***可以包括单个处理器，或者可以是为了提高的计算能力而采用多处理器设计的架构。

本公开的实施例也可以涉及由本文所述的计算过程产生的产品。这样的产品可以包括从计算过程得到的信息，其中信息被存储在非暂时性的、有形的计算机可读存储介质上，且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。

最后，在说明书中使用的语言主要为了可读性和指导目的而被选择，并且它可以不被选择来描绘或限制创造性主题。因此，意图是本公开的范围不由该详细描述限制，而是由在基于其的申请上发布的任何权利要求限制。因此，实施例的公开意图对本公开的范围是说明性的，而不是限制性的，在所附权利要求中阐述了本公开的范围。

Claims

1.一种方法，包括：

经由可穿戴设备的麦克风阵列检测来自在所述可穿戴设备的局部区域中的一个或更多个声源的声音；

估计与所述声音相关联的声传递函数；

估计在所述一个或更多个声源中的声源的到达方向(DoA)；

跟踪所述声源的移动；以及

基于所述声源的所述移动来更新所述声传递函数。

2.根据权利要求1所述的方法，还包括基于分类库将所述声源分类。

3.根据权利要求1所述的方法，还包括将来自所述声源的信号与在所述可穿戴设备的所述局部区域中的其他声源隔离。

4.根据权利要求2所述的方法，还包括计算所述跟踪的第一置信水平、所述分类的第二置信水平以及波束形成过程的第三置信水平，在这种情况下可选地，所述方法还包括基于所述第一置信水平、所述第二置信水平或所述第三置信水平中的至少一个来更新所述声传递函数。

5.根据权利要求1所述的方法，以及下列项中的任一项或更多项：

a)其中，所述跟踪包括：

存储所述一个或更多个声源的数量和位置随着时间的推移的值；以及

检测所述数量或所述位置中的至少一个的变化；或者

b)所述方法还包括：

部分地基于更新后的声传递函数来更新声音过滤器；以及

基于更新后的声音过滤器来呈现音频内容。

6.一种音频***，包括：

麦克风阵列，其被配置为检测来自在所述音频***的局部区域中的一个或更多个声源的声音；以及

控制器，其被配置为：

估计与所述声音相关联的声传递函数；

估计在所述一个或更多个声源中的声源的到达方向(DoA)；

跟踪所述声源的移动；以及

基于所述声源的所述移动来更新所述声传递函数。

7.根据权利要求6所述的音频***，其中，所述控制器还被配置为基于分类库将所述声源分类。

8.根据权利要求6所述的音频***，其中，所述控制器还被配置为将来自所述声源的信号与在所述可穿戴设备的所述局部区域中的其他声源隔离。

9.根据权利要求7所述的音频***，其中，所述控制器还被配置为计算所述跟踪的第一置信水平、所述分类的第二置信水平以及波束形成过程的第三置信水平；在这种情况下可选地，其中，所述控制器还被配置为基于所述第一置信水平、所述第二置信水平或所述第三置信水平中的至少一个来更新所述声传递函数。

10.根据权利要求6所述的音频***，以及下列项中的任一项：

a)其中，对所述移动的所述跟踪包括：

检测所述数量或所述位置中的至少一个的变化；或者

b)其中，所述控制器还被配置成：

部分地基于更新后的声传递函数来更新声音过滤器；以及

基于更新后的声音过滤器来呈现音频内容；或者

c)其中，所述控制器还被配置成生成所述声源的所述移动的通知。

11.一种非暂时性计算机可读存储介质，其包括由处理器能够执行的指令，所述指令在被执行时使所述处理器执行包括下列步骤的行动：

估计与所述声音相关联的声传递函数；

估计在所述一个或更多个声源中的声源的到达方向(DoA)；

跟踪所述声源的移动；以及

基于所述声源的所述移动来更新所述声传递函数。

12.根据权利要求11所述的非暂时性计算机可读存储介质，所述行动还包括基于分类库将所述声源分类。

13.根据权利要求11所述的非暂时性计算机可读存储介质，所述行动还包括将来自所述声源的信号与在所述可穿戴设备的所述局部区域中的其他声源隔离。

14.根据权利要求12所述的非暂时性计算机可读存储介质，所述行动还包括计算所述跟踪的第一置信水平、所述分类的第二置信水平以及波束形成过程的第三置信水平。

15.根据权利要求12所述的非暂时性计算机可读存储介质，所述行动还包括：

部分地基于更新后的声传递函数来更新声音过滤器；以及

基于更新后的声音过滤器来呈现音频内容。