CN114586382A - 混响指纹估计 - Google Patents

混响指纹估计 Download PDF

Info

Publication number
CN114586382A
CN114586382A CN202080074331.3A CN202080074331A CN114586382A CN 114586382 A CN114586382 A CN 114586382A CN 202080074331 A CN202080074331 A CN 202080074331A CN 114586382 A CN114586382 A CN 114586382A
Authority
CN
China
Prior art keywords
reverberation time
audio signal
reverberation
environment
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080074331.3A
Other languages
English (en)
Inventor
M·帕尔韦
J-M·约特
C·N·莱德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of CN114586382A publication Critical patent/CN114586382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开的示例描述了用于估计环境的声学特性的***和方法。在示例方法中,经由可穿戴头部设备的麦克风接收第一音频信号。确定第一音频信号的包络,并基于第一音频信号的包络,估计第一混响时间。确定第一混响时间与第二混响时间之间的差。基于第一混响时间与第二混响时间之间的差,确定环境的变化。经由可穿戴头部设备的扬声器呈现第二音频信号,其中,第二音频信号是基于第二混响时间。

Description

混响指纹估计
相关申请的交叉引用
本申请主张2019年10月25日提交的美国临时申请No.62/926,330的权益,该申请的全部内容出于所有目的在此通过引用并入。
技术领域
本公开一般地涉及用于确定和处理音频信息的***和方法,更具体地说,涉及用于在混合现实环境中确定和处理音频信息的***和方法。
背景技术
虚拟环境在计算环境中无处不在,在视频游戏中(其中虚拟环境可以表示游戏世界);地图(其中虚拟环境可以表示要导航的地形);模拟(其中虚拟环境可以模拟现实环境);数字叙事(其中虚拟角色可以在虚拟环境中互动);和许多其他应用中得到使用。现代计算机用户通常能够舒适地感知虚拟环境并与之交互。然而,用户对虚拟环境的体验可能会受到呈现虚拟环境的技术的限制。例如,传统显示器(例如,2D显示屏)和音频***(例如,固定扬声器)可能无法以创建引人入胜、逼真和沉浸体验的方式实现虚拟环境。
虚拟现实(“VR”)、增强现实(“AR”)、混合现实(“MR”)和相关技术(统称为“XR”)共享向XR***的用户呈现感官信息的能力,感官信息对应于由计算机***中的数据所表示的虚拟环境。本公开考虑了VR、AR和MR***之间的区别(虽然一些***可以在一个方面(例如,视觉方面)被归类为VR,但是在另一方面(例如,音频方面)同时被归类为AR或MR)。如本文所使用的,VR***呈现了一种虚拟环境,该虚拟环境在至少在一个方面取代了用户的现实环境;例如,VR***可以向用户呈现虚拟环境的视图,同时诸如使用挡光头戴式显示器模糊他或她看到的现实环境的视图。类似地,VR***可以向用户呈现与虚拟环境相对应的音频,同时阻止(衰减)来自现实环境的音频。
VR***可能会遇到由于用虚拟环境替换用户的现实环境而导致的各种缺点。一个缺点是在用户在虚拟环境中的视野不再对应于他或她的内耳的状态时可能会出现一种晕动的感觉,其中内耳状态会检测一个人在现实环境(不是虚拟环境)中的平衡和方向。同样,用户可能会在无法直接看到其身体和四肢(用户在现实环境中用于感觉“着地”的视图)的VR环境中体验到迷失方向。另一缺点是,特别是在寻求让用户沉浸在虚拟环境中的实时应用中必须呈现完整的3D虚拟环境的VR***上的计算负担(例如,存储、处理能力)。类似地,这种环境需要达到非常高的真实感标准才能被认为是沉浸式的,因为用户往往对虚拟环境中的微小缺陷都很敏感——任何缺陷都会破坏用户在虚拟环境中的沉浸感。此外,VR***的另一缺点是***的这些应用无法利用现实环境中广泛的感官数据,诸如人们在现实世界中体验到的各种景象和声音。一个相关的缺点是,VR***在创建多个用户可以交互的共享环境时具有一定难度,因为在现实环境中共享物理空间的用户可能无法在虚拟环境中直接看到彼此或相互交互。
如本文所使用的,AR***在至少一方面呈现与现实环境重叠或覆盖现实环境的虚拟环境。例如,AR***可以向用户呈现覆盖在用户的现实环境视图上的虚拟环境视图,例如使用呈现显示图像,同时允许光线穿过显示器进入用户眼睛的透射式头戴式显示器。类似地,AR***可以向用户呈现与虚拟环境相对应的音频,同时混合在来自现实环境的音频中。类似地,如本文所使用的,像AR***一样,MR***在至少一方面呈现与现实环境重叠或覆盖现实环境的虚拟环境,并且可以另外允许MR***中的虚拟环境可以在至少一方面与现实环境交互。例如,虚拟环境中的虚拟角色可能会拨动现实环境中的电灯开关,从而导致现实环境中对应的灯泡打开或关闭。作为另一示例,虚拟角色可以对现实环境中的音频信号做出反应(诸如用面部表情)。通过保持现实环境的呈现,AR和MR***可以避免VR***的上述缺点中的一些;例如,用户的晕动病得到缓解,因为来自现实环境(包括用户自己身体)的视觉提示可以保持可见,并且此类***无需为用户呈现完全实现的3D环境即可沉浸其中。此外,AR和MR***可以利用现实世界的感觉输入(例如,风景、对象和其他用户的视图和声音)来创建增强该输入的新应用。
理想的是MR***与尽可能多的人类感官交互,从而为用户创建沉浸式混合现实环境。虚拟内容的视觉显示对于混合现实体验可能很重要,但音频信号对于在混合现实环境中创造沉浸感也很有价值。与在视觉上显示的虚拟内容类似,虚拟音频内容也可以用于模拟来自现实环境的声音。例如,在具有回声的现实环境中呈现的虚拟音频内容也可以被呈现为回声,即使虚拟音频内容在现实环境中实际上可能没有回声。这种适应可以帮助将虚拟内容与现实内容混合,从而使两者之间的区别不明显,甚至不能被终端用户察觉到。为了有效地将虚拟音频内容与现实音频内容混合,可能需要了解现实环境的声学特性,以便虚拟音频内容可以模拟现实音频内容的特征。
发明内容
本公开的示例描述了用于估计环境的声学特性的***和方法。在示例方法中,经由可穿戴头部设备的麦克风接收第一音频信号。确定所述第一音频信号的包络,并基于所述第一音频信号的所述包络,估计第一混响时间。确定所述第一混响时间第二混响时间之间的差。基于所述第一混响时间与所述第二混响时间之间的所述差,确定环境的变化。经由可穿戴头部设备的扬声器呈现第二音频信号,其中,所述第二音频信号是基于所述第二混响时间。
附图说明
图1A-图1C示出了根据本公开的一个或多个实施例的示例混合现实环境。
图2A-图2D示出了根据本公开的一个或多个实施例的可用于生成混合现实环境并与之交互的示例混合现实***的部件。
图3A示出了根据本公开的一个或多个实施例的可用于向混合现实环境提供输入的示例混合现实手持控制器。
图3B示出了根据本公开的一个或多个实施例的可以与示例混合现实***一起使用的示例辅助单元。
图4示出了根据本公开的一个或多个实施例的示例混合现实***的示例功能框图。
图5示出了根据本公开的一个或多个实施例的估计混响指纹的示例。
图6示出了根据本公开的一个或多个实施例的估计混响时间的示例。
图7示出了根据本公开的一个或多个实施例的估计混响时间的示例。
具体实施方式
在以下对示例的描述中,参考了形成其一部分的附图,并且其中通过图解的方式示出了可以实施的具体示例。应当理解,可以使用其他示例并且可以进行结构改变而不背离所公开示例的范围。
混合现实环境
与所有人一样,混合现实***的用户存在于现实环境中——即“现实世界”的三维部分及其可被用户感知的所有内容。例如,用户使用自己的普通人类感觉——视觉、听觉、触觉、味觉、嗅觉——感知现实环境,并通过在现实环境中移动自己的身体与现实环境进行交互。现实环境中的位置可以被描述为坐标空间中的坐标;例如,坐标可以包括纬度、经度和相对于海平面的海拔;距参考点的三个正交维度的距离;或其他合适的值。同样,矢量可以描述在坐标空间中具有方向和大小的量。
计算设备例如可以在与设备相关联的存储器中维护虚拟环境的表示。如本文所使用的,虚拟环境是三维空间的计算表示。虚拟环境可以包括与该空间相关联的任何对象、动作、信号、参数、坐标、矢量或其他特征的表示。在一些示例中,计算设备的电路(例如,处理器)可以维护和更新虚拟环境的状态;也就是说,处理器可以在第一时间t0,基于与虚拟环境相关联的数据和/或用户提供的输入,确定第二时间t1处的虚拟环境的状态。例如,如果虚拟环境中的对象在时间t0位于第一坐标处,并且具有某些已编程的物理参数(例如,质量、摩擦系数);并且从用户处接收到的输入指示应该沿方向矢量向对象施加力;处理器可以应用运动学定律以使用基本力学确定对象在时间t1的位置。处理器可以使用已知的有关虚拟环境的任何合适的信息和/或任何合适的输入来确定时间t1的虚拟环境的状态。在维护和更新虚拟环境的状态时,处理器可以执行任何合适的软件,包括:与在虚拟环境中创建和删除虚拟对象有关的软件;用于定义虚拟环境中虚拟对象或角色的行为的软件(例如,脚本);用于定义虚拟环境中信号(例如,音频信号)行为的软件;用于创建和更新与虚拟环境相关联的参数的软件;用于在虚拟环境中生成音频信号的软件;用于处理输入和输出的软件;用于实现网络操作的软件;用于应用资产数据的软件(例如,随着时间的推移移动虚拟对象的动画数据);或许多其他可能性。
输出设备,例如显示器或扬声器,可以向用户呈现虚拟环境的任何或所有方面。例如,虚拟环境可以包括可以呈现给用户的虚拟对象(其可以包括无生命对象;人;动物;灯的表示等)。处理器可以确定虚拟环境的视图(例如,对应于具有原点坐标、视图轴和截锥体的“相机”);并将对应于该视图的虚拟环境的可视场景呈现给显示器。可以使用任何合适的渲染技术来实现此目的。在一些示例中,可视场景可以仅包括虚拟环境中的一些虚拟对象,而不包括某些其他虚拟对象。类似地,虚拟环境可以包括可以作为一个或多个音频信号呈现给用户的音频方面。例如,虚拟环境中的虚拟对象可以生成源自该对象的位置坐标的声音(例如,虚拟角色可以说话或引起声音效果);或者虚拟环境可以与音乐提示或背景声音相关联,这些音乐提示或背景声音可能与或可能不与特定位置相关联。处理器可以确定对应于“听者”坐标的音频信号——例如,对应于虚拟环境中的声音的合成的音频信号,并且对该虚拟环境中的声音进行混合和处理以模拟将被位于听者坐标处的听者听到的音频信号——并经由一个或多个扬声器将音频信号呈现给用户。
由于虚拟环境仅作为计算结构存在,用户无法用普通感觉直接感知虚拟环境。相反,用户只能间接地感知虚拟环境,例如通过显示器、扬声器、触觉输出设备等呈现给用户。类似地,用户不能直接触摸、操纵或以其他方式与虚拟环境交互;但可以经由输入设备或传感器向处理器提供输入数据,处理器可以使用设备或传感器数据更新虚拟环境。例如,相机传感器可以提供指示用户尝试在虚拟环境中移动对象的光学数据,并且处理器可以使用该数据使对象在虚拟环境中做出相应的响应。
混合现实***例如可以使用透射式显示器和/或一个或多个扬声器(例如,可以结合到可穿戴头部设备中)向用户呈现结合了现实环境和虚拟环境的各个方面的混合现实环境(“MRE”)。在一些实施例中,一个或多个扬声器可以位于头戴式可穿戴单元的外部。如本文所使用的,MRE是现实环境和对应的虚拟环境的同时表示。在一些示例中,对应的现实环境和虚拟环境共享一个坐标空间;在一些示例中,现实坐标空间和对应的虚拟坐标空间通过变换矩阵(或其他合适的表示)相互关联。因此,单个坐标(在一些示例中连同变换矩阵)可以定义现实环境中的第一位置,以及虚拟环境中的对应的第二位置;反之亦然。
在MRE中,虚拟对象(例如,在与MRE关联的虚拟环境中)可以对应于现实对象(例如,在与MRE关联的现实环境中)。例如,如果MRE的现实环境包括位于一位置坐标处的现实灯柱(现实对象),则MRE的虚拟环境可以包括位于对应位置坐标处的虚拟灯柱(虚拟对象)。如本文所使用的,现实对象与其对应的虚拟对象组合在一起构成“混合现实对象”。虚拟对象不必与对应的现实对象完美匹配或对齐。在一些示例中,虚拟对象可以是对应的现实对象的简化版本。例如,如果现实环境包括现实灯柱,则对应的虚拟对象可以包括高度和半径与现实灯柱大致相同的圆柱体(反映灯柱的形状可能大致为圆柱形)。以这种方式简化虚拟对象可以提高计算效率,并且可以简化对这种虚拟对象执行的计算。此外,在MRE的一些示例中,并非现实环境中的所有现实对象都与对应的虚拟对象相关联。同样,在MRE的一些示例中,并非虚拟环境中的所有虚拟对象都与对应的现实对象相关联。也就是说,一些虚拟对象可能只存在于MRE的虚拟环境中,没有任何现实世界的对应物。
在一些示例中,虚拟对象的特征可能与对应的现实对象的特征不同,有时甚至大相径庭。例如,当MRE中的现实环境包括一个绿色双臂仙人掌(一个有刺的无生命对象)时,MRE中的对应虚拟对象包括具有人脸特征和粗鲁行为的绿色双臂虚拟角色的特征。在该示例中,虚拟对象在某些特征(颜色、手臂数量)方面与其对应的现实对象相似;但在其他特征(人脸特征、个性)方面与现实对象不同。这样,虚拟对象就有可能以创造性、抽象、夸张或幻想的方式来表现现实对象;或将行为(例如,人类个性)赋予其他无生命的现实对象。在一些示例中,虚拟对象可以是没有现实世界对应物的纯幻想创作(例如,虚拟环境中的虚拟怪物,可能在对应于现实环境中的空白空间的位置)。
与在模糊现实环境的同时向用户呈现虚拟环境的VR***相比,呈现MRE的混合现实***提供了在呈现虚拟环境的同时使现实环境保持可感知的优势。因此,混合现实***的用户能够使用与现实环境相关联的视觉和听觉提示来体验对应的虚拟环境并与之交互。例如,虽然VR***的用户在感知虚拟环境中显示的虚拟对象或与之交互时存在一定难度——因为如上所述,用户不能直接感知虚拟环境或与之交互——但MR***的用户可能会发现能够通过在他或她自己的现实环境中看到、听到和触摸对应的现实对象来直观、自然地与虚拟对象进行交互。这种级别的交互性可以增强用户对虚拟环境的沉浸感、联系感和参与感。类似地,通过同时呈现现实环境和虚拟环境,混合现实***可以减少与VR***相关联的负面心理感受(例如,认知失调)和负面身体感受(例如,晕动)。混合现实***进一步为可能增强或改变我们对现实世界的体验的应用提供了许多可能性。
图1A示出了用户110使用混合现实***112的示例现实环境100。混合现实***112可以包括显示器(例如,透射式显示器)及一个或多个扬声器;以及一个或多个传感器(例如,相机),例如如下所述。所示的现实环境100包括用户110所站的矩形房间104A;以及现实对象122A(一盏灯)、124A(一张桌子)、126A(一张沙发)和128A(一幅画)。房间104A还包括位置坐标106,其可以被认为是现实环境100的原点。如图1A所示,以点106(世界坐标)为原点的环境/世界坐标系108(包括x轴108X、y轴108Y和z轴108Z)可以定义现实环境100的坐标空间。在一些实施例中,环境/世界坐标系108的原点106可以对应于打开混合现实***112的位置。在一些实施例中,环境/世界坐标系108的原点106可以在操作期间被重置。在一些示例中,用户110可以被认为是现实环境100中的现实对象;类似地,用户110的身体部位(例如,手部、脚部)可以被认为是现实环境100中的现实对象。在一些示例中,以点115(例如,用户/听众/头部坐标)为原点的用户/听众/头部坐标系114(包括x轴114X、y轴114Y、z轴114Z)可以定义混合现实***112所在的用户/听众/头部的坐标空间。可以相对于混合现实***112的一个或多个部件来定义用户/听众/头部坐标系114的原点115。例如,可以相对于混合现实***112的显示器定义用户/听众/头部坐标系114的原点115,诸如在混合现实***112的初始校准期间。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征用户/听众/头部坐标系114空间和环境/世界坐标系108空间之间的变换。在一些实施例中,左耳坐标116和右耳坐标117可以相对于用户/听众/头部坐标系114的原点115来定义。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征左耳坐标116、右耳坐标117和用户/听众/头部坐标系114空间之间的变换。用户/听众/头部坐标系114可以简化相对于用户头部或可穿戴头部设备(例如,相对于环境/世界坐标系108)的位置的表示。通过使用即时定位与地图构建(SLAM)、视觉里程计或其他技术,可以实时确定和更新用户坐标系114和环境坐标系108之间的变换。
图1B示出了对应于现实环境100的示例虚拟环境130。所示的虚拟环境130包括:对应于现实矩形房间104A的虚拟矩形房间104B;对应于现实对象122A的虚拟对象122B;对应于现实对象124A的虚拟对象124B;以及对应于现实对象126A的虚拟对象126B。与虚拟对象122B、124B、126B相关联的元数据可以包括从对应的现实对象122A、124A、126A导出的信息。虚拟环境130另外包括虚拟怪物132,其不对应于现实环境100中的任何现实对象。现实环境100中的现实对象128A不对应于虚拟环境130中的任何虚拟对象。以点134(永久坐标(persistent coordinate))为原点的永久坐标系133(包括x轴133X、y轴133Y和z轴133Z)可以定义虚拟内容的坐标空间。永久坐标系133的原点134可以相对于/关于一个或多个现实对象(诸如,现实对象126A)来定义。矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征永久坐标系133空间和环境/世界坐标系108空间之间的变换。在一些实施例中,虚拟对象122B、124B、126B和132中的每一个可以相对于永久坐标系133的原点134具有它们自己的永久坐标点。在一些实施例中,可以存在多个永久坐标系并且虚拟对象122B、124B、126B和132中的每一个可以相对于一个或多个永久坐标系具有它们自己的永久坐标点。
关于图1A和图1B,环境/世界坐标系108为现实环境100和虚拟环境130定义了共享坐标空间。在所示的示例中,坐标空间的原点位于点106处。此外,坐标空间由相同的三个正交轴(108X、108Y、108Z)定义。因此,现实环境100中的第一位置和虚拟环境130中的对应的第二位置可以关于相同的坐标空间来描述。这简化了识别和显示现实和虚拟环境中的对应位置,因为可以使用相同的坐标来识别这两个位置。然而,在一些示例中,对应的现实和虚拟环境不需要使用共享坐标空间。例如,在一些示例(未示出)中,矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征现实环境坐标空间和虚拟环境坐标空间之间的变换。
图1C示出了经由混合现实***112同时向用户110呈现现实环境100和虚拟环境130的各个方面的示例MRE 150。在所示的示例中,MRE 150同时向用户110呈现来自现实环境100的现实对象122A、124A、126A和128A(例如,经由混合现实***112的显示器的透射部分);以及来自虚拟环境130的虚拟对象122B、124B、126B和132(例如,经由混合现实***112的显示器的主动显示部分)。如上所述,原点106充当对应于MRE 150的坐标空间的原点,并且坐标系108定义坐标空间的x轴、y轴和z轴。
在所示的示例中,混合现实对象包括对应的现实对象和虚拟对象对(即,122A/122B、124A/124B、126A/126B),它们在坐标空间108中占据对应位置。在一些示例中,现实对象和虚拟对象两者可以同时对用户110可见。例如,在虚拟对象呈现被设计为增强对应的现实对象的视图的信息的情况下,这是合乎需要的(诸如,在博物馆应用中,虚拟对象呈现古代受损雕塑的缺失部分)。在一些示例中,可以(例如,经由使用像素化遮挡快门的主动像素化遮挡)显示虚拟对象(122B、124B和/或126B)以遮挡对应的现实对象(122A、124A和/或126A)。例如,在虚拟对象充当对应的现实对象的视觉替代物的情况下(诸如在无生命的现实对象变成“活的”角色的交互式故事讲述应用中),这是合乎需要的。
在一些示例中,现实对象(例如,122A、124A、126A)可以与可能不一定构成虚拟对象的虚拟内容或辅助数据相关联。虚拟内容或辅助数据可以促进混合现实环境中虚拟对象的处理或处置。例如,这种虚拟内容可以包括对应的现实对象的二维表示;与对应的现实对象相关联的自定义资产类型;或与对应的现实对象相关联的统计数据。该信息可以在不产生不必要的计算开销的情况下实现或促进涉及现实对象的计算。
在一些示例中,上述呈现还可以结合音频方面。例如,在MRE 150中,虚拟怪物132可以与一个或多个音频信号相关联,诸如当怪物在MRE150内四处行走时生城的脚步声效果。如下文进一步所描述的,混合现实***112的处理器可以计算与MRE 150中所有此类声音的混合和处理合成相对应的音频信号,并经由包括在混合现实***112中的一个或多个扬声器和/或一个或多个外部扬声器将音频信号呈现给用户110。
混合现实***示例
示例混合现实***112可以包括可穿戴头部设备(例如,可穿戴增强现实或混合现实头部设备),其包括显示器(其可以包括可以是近眼显示器的左透射显示器和右透射显示器,以及用于将来自显示器的光耦合到用户眼睛的关联部件);左扬声器和右扬声器(例如,分别位于用户的左耳和右耳附近);惯性测量单元(IMU)(例如,安装在头部设备的镜腿上);正交线圈电磁接收器(例如,安装在左镜腿上);远离用户取向的左右相机(例如,深度(飞行时间)相机);以及面向用户取向的左右眼相机(例如,用于检测用户的眼睛运动)。然而,混合现实***112可以结合任何合适的显示技术和任何合适的传感器(例如,光学、红外、声学、LIDAR、EOG、GPS、磁传感器)。此外,混合现实***112可以结合网络特征(例如,Wi-Fi能力)以与其他设备和***(包括其他混合现实***)进行通信。混合现实***112还可以包括电池(其可以安装在辅助单元中,诸如被设计成穿戴在用户腰部的腰带包)、处理器和存储器。混合现实***112的可穿戴头部设备可以包括跟踪部件,诸如IMU或其他合适的传感器,其被配置为输出可穿戴头部设备相对于用户环境的一组坐标。在一些示例中,跟踪部件可以向执行即时定位与地图构建(SLAM)和/或视觉里程计算法的处理器提供输入。在一些示例中,混合现实***112还可以包括手持控制器300和/或辅助单元320,辅助单元可以是可穿戴的腰包,如下文进一步所描述的。
图2A-图2D示出了可用于向用户呈现MRE(其可以对应于MRE 150)或其他虚拟环境的示例混合现实***200(其可以对应于混合现实***112)的部件。图2A示出了被包括在示例混合现实***200中的可穿戴头部设备2102的透视图。图2B示出了穿戴在用户头部2202上的可穿戴头部设备2102的俯视图。图2C示出了可穿戴头部设备2102的前视图。图2D示出了可穿戴头部设备2102的示例目镜2110的侧视图。如图2A-图2C所示,示例可穿戴头部设备2102包括示例左目镜(例如,左透明波导组目镜)2108和示例右目镜(例如,右透明波导组目镜)2110。每个目镜2108和2110可以包括通过其观看现实环境的透射元件,以及用于呈现与现实环境重叠的显示(例如,经由成像调制光)的显示元件。在一些示例中,这样的显示元件可以包括用于控制成像调制光的光流的表面衍射光学元件。例如,左目镜2108可以包括左耦入光栅组2112、左正交光瞳扩展(OPE)光栅组2120和左出射(输出)光瞳扩展(EPE)光栅组2122。类似地,右目镜2110可以包括右耦入光栅组2118、右OPE光栅组2114和右EPE光栅组2116。成像调制光可以经由耦入光栅2112和2118、OPE2114和2120、以及EPE2116和2122传输到用户的眼睛。每个耦入光栅组2112、2118可以被配置为将光朝向其对应的OPE光栅组2120、2114偏转。每个OPE光栅组2120、2114可以被设计为逐渐地将光向下朝向其相关联的EPE2122、2116片状,从而水平扩展正在形成的出射光瞳。每个EPE 2122、2116可以被配置为将从其对应的OPE光栅组2120、2114接收的光的至少一部分逐渐向外朝向限定在目镜2108、2110后面的用户眼动范围位置(未示出)重定向,垂直扩展在眼动范围内形成的出射光瞳。备选地,代替耦入光栅组2112和2118、OPE光栅组2114和2120以及EPE光栅组2116和2122,目镜2108和2110可以包括用于控制成像调制光到用户眼睛的耦合的光栅和/或折射特征和反射特征的其他布置。
在一些示例中,可穿戴头部设备2102可以包括左镜腿2130和右镜腿2132,其中左镜腿2130包括左扬声器2134并且右镜腿2132包括右扬声器2136。正交线圈电磁接收器2138可以位于左镜腿件中,或位于可穿戴头部单元2102的另一合适位置。惯性测量单元(IMU)2140可以位于右镜腿2132中,或位于可穿戴头部设备2102的另一合适位置。可穿戴头部设备2102还可以包括左深度(例如,飞行时间)相机2142和右深度相机2144。深度相机2142、2144可以适当地沿不同方向取向以便共同覆盖更广阔的视野。
在图2A-图2D所示的示例中,左成像调制光源2124可以通过左耦入光栅组2112被光学耦合到左目镜2108中,并且右成像调制光源2126可以通过右耦入光栅组2118被光学耦合到右目镜2110中。成像调制光源2124、2126例如可以包括光纤扫描仪;包括电子光调制器,诸如数字光处理(DLP)芯片或硅上液晶(LCoS)调制器的投影仪;或发射式显示器,诸如使用每侧的一个或多个透镜耦合到耦入光栅组2112、2118中的微型发光二极管(μLED)或微型有机发光二极管(μOLED)面板。耦入光栅组2112、2118可以将来自成像调制光源2124、2126的光偏转到大于目镜2108、2110的全内反射(TIR)临界角的角度。OPE光栅组2114、2120逐步将通过TIR传播的光向下朝向EPE光栅组2116、2122偏转。EPE光栅组2116、2122逐渐将光耦合到用户的面部,包括用户眼睛的瞳孔。
在一些示例中,如图2D所示,左目镜2108和右目镜2110中的每一个包括多个波导2402。例如,每个目镜2108、2110可以包括多个单独的波导,每个单独的波导专用于相应的颜色通道(例如,红色、蓝色和绿色)。在一些示例中,每个目镜2108、2110可以包括多组这样的波导,每组波导被配置为将不同的波前曲率赋予发射光。波前曲率可以相对于用户的眼睛凸出,以例如呈现位于用户前方一段距离(例如,与波前曲率的倒数相对应的距离)的虚拟对象。在一些示例中,EPE光栅组2116、2122可以包括弯曲光栅凹槽以通过改变穿过每个EPE的出射光的坡印廷(Poynting)矢量来实现凸波前曲率。
在一些示例中,为了创建显示内容为三维内容的感知,可以通过成像光调制器2124、2126和目镜2108、2110将立体调整的左眼和右眼影像呈现给用户。可以通过选择波导(并因此选择对应的波前曲率),使得虚拟对象显示在与由立体左右图像所指示的距离近似的距离处来增强三维虚拟对象呈现的真实感。这种技术还可以减少一些用户经历的晕动病,这种晕动病是由立体的左右眼影像提供的深度感知提示与人眼的自主调节(例如,依赖于对象距离的聚焦)之间的差异引起的。
图2D示出了从示例可穿戴头部设备2102的右目镜2110的顶部看的侧视图。如图2D所示,多个波导2402可以包括三个波导的第一子集2404和三个波导的第二子集2406。波导的两个子集2404、2406可以通过不同的EPE光栅来区分,不同的EPE光栅具有不同的光栅线曲率,以将不同的波前曲率赋予出射光。在每个波导子集2404、2406内,每个波导可用于将不同的光谱通道(例如,红色、绿色和蓝色光谱通道之一)耦合到用户的右眼2206。(虽然图2D中未示出,但左目镜2108的结构类似于右目镜2110的结构。)
图3A示出了混合现实***200的示例手持控制器部件300。在一些示例中,手持控制器300包括把手部分346和沿顶表面348设置的一个或多个按钮350。在一些示例中,按钮350可以被配置为用作光学跟踪目标,例如与相机或其他光学传感器(其可被安装在混合现实***200的头部单元(例如,可穿戴头部设备2102)中)结合来跟踪手持控制器300的六自由度(6DOF)运动。在一些示例中,手持控制器300包括用于检测位置或取向,诸如,相对于可穿戴头部设备2102的位置或取向,的跟踪部件(例如,IMU或其他合适的传感器)。在一些示例中,这样的跟踪部件可以被定位在手持控制器300的手柄中,和/或可以被机械地耦合到手持控制器。手持控制器300可以被配置为提供与按钮的按下状态;或手持控制器300的位置、取向和/或移动中的一项或多项相对应的一个或多个输出信号(例如,经由IMU)。这样的输出信号可以用作混合现实***200的处理器的输入。这样的输入可以对应于手持控制器的位置、取向和/或移动(并且,通过扩展,还对应于握持控制器的用户的手部的位置、取向和/或移动)。这样的输入还可以对应于用户按下按钮350。
图3B示出了混合现实***200的示例辅助单元320。辅助单元320可以包括电池以提供操作***200的能量,并且可以包括用于执行程序以操作***200的处理器。如图所示,示例辅助单元320包括夹子2128,诸如用于将辅助单元320附接到用户的腰带。其他形状因素适用于辅助单元320并且将是显而易见的,包括不涉及将单元安装到用户腰带上的形状因素。在一些示例中,辅助单元320通过例如可以包括电线和光纤的多导管光缆耦合到可穿戴头部设备2102。辅助单元320和可穿戴头部设备2102之间也可以使用无线连接。
在一些示例中,混合现实***200可以包括一个或多个麦克风以检测声音并向混合现实***提供相应的信号。在一些示例中,麦克风可以被附接到可穿戴头部设备2102上或与可穿戴头部设备2102集成,并且可以被配置为检测用户的话音。在一些示例中,麦克风可以被附接到手持控制器300和/或辅助单元320上或与手持控制器300和/或辅助单元320集成。这样的麦克风可以被配置为检测环境声音、背景噪声、用户或第三方的话音或其他声音。
图4示出了可以对应于示例混合现实***,诸如上述混合现实***200(其可以对应于关于图1的混合现实***112)的示例功能框图。如图4所示,示例手持控制器400B(其可以对应于手持控制器300(“图腾”))包括图腾到可穿戴头部设备六自由度(6DOF)图腾子***404A,并且示例可穿戴头部设备400A(其可以对应于可穿戴头部设备2012)包括图腾到可穿戴头部设备6DOF子***404B。在该示例中,6DOF图腾子***404A和6DOF子***404B协作确定手持控制器400B相对于可穿戴头部设备400A的六个坐标(例如,在三个平移方向上的偏移和沿三个轴的旋转)。六个自由度可以相对于可穿戴头部设备400A的坐标系来表达。三个平移偏移可以表示为这样的坐标系中的X、Y和Z偏移,表示为平移矩阵,或表示为某个其他表示。旋转自由度可以表示为偏航、俯仰和滚动旋转的序列,表示为旋转矩阵,表示为四元数或表示为某个其他表示。在一些示例中,可穿戴头部设备400A;包括在可穿戴头部设备400A中的一个或多个深度相机444(和/或一个或多个非深度相机);和/或一个或多个光学目标(例如,如上所述的手持控制器400B的按钮350,或包括在手持控制器400B中的专用光学目标)可用于6DOF跟踪。在一些示例中,手持控制器400B可以包括相机,如上所述;并且可穿戴头部设备400A可以包括光学目标,用于结合相机进行光学跟踪。在一些示例中,可穿戴头部设备400A和手持控制器400B各自包括一组三个正交取向的螺线管,用于以无线的方式发送和接收三个可区分的信号。通过测量在用于接收的每个线圈中接收到的三个可区分信号的相对幅度,可以确定可穿戴头部设备400A相对于手持控制器400B的6DOF。另外,6DOF图腾子***404A可以包括惯性测量单元(IMU),该惯性测量单元(IMU)可用于提供有关手持控制器400B的快速移动的改进的准确度和/或更及时的信息。
在一些示例中,可能有必要将坐标从局部坐标空间(例如,相对于可穿戴头部设备400A固定的坐标空间)变换到惯性坐标空间(例如,相对于现实环境固定的坐标空间),例如以补偿可穿戴头部设备400A相对于坐标系108的移动。例如,这样的变换对于可穿戴头部设备400A的显示器可能是必要的,以在相对于现实环境的预期位置和取向,而不是在显示器上的固定位置和取向(例如,在显示器右下角相同的位置)上呈现虚拟对象(例如,虚拟人坐在现实的椅子上,面向前方,无论可穿戴头部设备的位置和取向如何),从而保持虚拟对象存在于现实环境中的错觉(并且当可穿戴头部设备400A移动和旋转时,例如不会呈现为不自然地定位在现实环境中)。在一些示例中,坐标空间之间的补偿变换可以通过使用SLAM和/或视觉里程计程序处理来自深度相机444的影像来确定,以便确定可穿戴头部设备400A相对于坐标系108的变换。在图4所示的示例中,深度相机444被耦合到SLAM/视觉里程计块406并且可以向块406提供影像。SLAM/视觉里程计块406实现可以包括被配置为处理该影像并确定用户头部的位置和取向的处理器,用户头部的位置和取向然后可用于识别头部坐标空间和另一坐标空间(例如,惯性坐标空间)之间的变换。类似地,在一些示例中,从IMU 409获得有关用户头部姿势和位置的附加信息源。来自IMU 409的信息可以与来自SLAM/视觉里程计块406的信息结合以提供有关用户头部姿势和位置的快速调整的改进的准确性和/或更及时的信息。
在一些示例中,深度相机444可以向手势***411提供3D影像,手势***411可以在可穿戴头部设备400A的处理器中实现。手势***411可以识别用户的手势,例如通过将从深度相机444接收的3D影像与存储的表示手势的图案进行匹配。识别用户手势的其他合适技术将是显而易见的。
在一些示例中,一个或多个处理器416可以被配置为从可穿戴头部设备的6DOF头戴子***404B、IMU 409、SLAM/视觉里程计块406、深度相机444和/或手势***411接收数据。处理器416还可以发送和接收来自6DOF图腾***404A的控制信号。处理器416可以被无线地耦合到6DOF图腾***404A,诸如在脱离手持控制器400B的示例中。处理器416可以进一步与其他部件通信,诸如视听内容存储器418、图形处理单元(GPU)420和/或数字信号处理器(DSP)音频空间化器(audio spatializer)422。DSP音频空间化器422可以被耦合到头部相关传递函数(HRTF)存储器425。GPU 420可以包括被耦合到左成像调制光源424的左通道输出和被耦合到右成像调制光源426的右通道输出。GPU 420可以将立体图像数据输出到成像调制光源424、426,例如如上面关于图2A-图2D所描述的。DSP音频空间化器422可以将音频输出到左扬声器412和/或右扬声器414。DSP音频空间化器422可以从处理器419接收指示从用户到虚拟声源(可以由用户例如经由手持控制器320移动)的方向矢量的输入。基于方向矢量,DSP音频空间化器422可以确定对应的HRTF(例如,通过访问HRTF,或通过内插多个HRTF)。DSP音频空间化器422然后可以将确定的HRTF应用于音频信号,例如对应于由虚拟对象生成的虚拟声音的音频信号。这可以通过在混合现实环境中结合用户相对于虚拟声音的相对位置和取向,也就是说,通过使得所呈现的虚拟声音与用户对该虚拟声音听起来像现实环境中的现实声音的期望相匹配,来增强虚拟声音的可信度和真实感。
在一些示例中,诸如如图4所示,处理器416、GPU 420、DSP音频空间化器422、HRTF存储器425和视听内容存储器418中的一个或多个可以被包括在辅助单元400C(其可以对应于上文所述的辅助单元320)中。辅助单元400C可以包括电池427来为其部件供电和/或为可穿戴头部设备400A或手持控制器400B供电。通过将这些部件包括在可以安装到用户腰部的辅助单元中,可以限制可穿戴头部设备400A的尺寸和重量,进而可以减少用户头部和颈部的疲劳。
虽然图4呈现了与示例混合现实***的各种部件相对应的元素,但是这些部件的各种其他合适的布置对于本领域的技术人员来说将变得显而易见。例如,图4中呈现为与辅助单元400C相关联的元素可以替代地与可穿戴头部设备400A或手持控制器400B相关联。此外,一些混合现实***可以完全放弃手持控制器400B或辅助单元400C。这样的改变和修改将被理解为包括在所公开的示例的范围内。
混响指纹估计
向用户呈现虚拟音频内容有利于创建沉浸式增强/混合现实体验。在呈现令人信服的音频和令人信服的视频时,身临其境的增强/混合现实体验可以进一步将现实内容与虚拟内容融合在一起。显示令人信服的虚拟视频内容(例如,与现实内容对齐和/或不可分割)可以包括构建现实的(有时是未知的)环境的地图,同时估计MR***在现实环境中的位置和取向,以在现实环境中准确显示虚拟视频内容。显示令人信服的虚拟视频内容还可以包括从两个不同的视角渲染两组相同的虚拟视频内容,从而可以将立体图像呈现给用户以模拟三维虚拟视频内容。类似于显示令人信服的虚拟视频内容,以令人信服的方式呈现虚拟音频内容也可以包括对现实环境的复杂分析。例如,可能需要了解使用MR***的现实环境的声学特性,以便可以以模拟现实音频内容的方式呈现虚拟音频内容。MR***(例如,MR***112、200)可以使用现实环境的声学特性来修改渲染算法,使得虚拟音频内容听起来好像它源自现实环境或以其他方式属于现实环境。例如,在具有硬地板和外露墙壁的房间中使用的MR***可能会产生模拟现实音频内容可能具有的回声的虚拟音频内容。在用户改变现实环境(可能具有不同的声学特性)时,以静态方式播放虚拟音频内容可能会降低体验的沉浸感。如果现实音频内容和虚拟音频内容可以相互交互(例如,用户可以与虚拟同伴交谈,而虚拟同伴可以给用户回话)。为此,MR***可以确定现实环境的声学特性并将这些声学特性应用于虚拟音频内容(例如,通过改变虚拟音频内容的渲染算法)。其他细节可以在美国专利申请No.16/163,529中找到,该申请的全部内容通过引用并入此文。
一个可以表征现实环境声学特性的参数是混响时间(例如,T60时间)。混响时间可以包括声音衰减一定量(例如,衰减60分贝)所需的时间长度。声音衰减是声音从现实环境中的表面(例如墙壁、地板、家具等)反射,同时由于例如几何传播而损失能量的结果。混响时间会受到环境因素的影响。例如,吸收性表面(例如,垫子)除了几何传播外还可以吸收声音,因此可以减少混响时间。在一些实施例中,可能不需要具有有关原始源的信息来估计环境的混响时间。
另一可以表征现实环境声学特性的参数是混响增益。混响增益可以包括声音的直接/源/原始能与声音的混响能(例如,由直接/源/原始声音产生的混响的能)的比率,其中听者和源基本上位于同一位置(例如,用户可以拍手,产生可以被认为与安装在头戴式MR***上的一个或多个麦克风基本上位于同一位置的源声音)。例如,脉冲(例如,拍手)可以具有与该脉冲相关联的能,并且来自该脉冲的混响声音可以具有与该脉冲的混响相关联的能。原始/源能与混响能的比率可以是混响增益。现实环境的混响增益可能会受到例如可以吸收声音并因此减少混响能的吸收性表面的影响。
混响时间和混响增益可以统称为混响指纹。在一些实施例中,可以将混响指纹作为一个或多个输入参数传递给音频渲染算法,这可以允许音频渲染算法呈现具有与现实环境中的现实音频内容相同或相似的特性的虚拟音频内容。
混响指纹可能很有用,因为它可以表征现实环境的声学特性,而与现实环境中声源的位置和/或取向无关。例如,具有四个墙壁、地板和天花板的标准室内房间可以呈现相同(或基本相同)的混响时间和/或混响增益,而不管源是否位于房间的角落、房间的中心,还是沿着房间的任何墙壁/边缘。作为另一示例,根据现实环境的混响指纹,直接面向房间角落、房间中心或房间墙壁的声源都表现相同(或基本相同)。混响指纹也很有用,因为它可以表征现实环境的声学特性,而与声源的特性无关。例如,根据现实环境的混响时间和/或混响增益,低频、中频或高频的声源(例如,说话的人)都可以表现相同(或基本相同)。类似地,根据现实环境的混响指纹(例如,混响时间和/或混响增益),脉冲声源(例如,拍手)和非脉冲声源可以表现相同(或基本相同)。作为另一示例,根据现实环境的混响指纹(例如,混响时间和/或混响增益),响亮的声源和安静的声源(例如,就幅度而言)可以表现相同(或基本相同)。混响指纹立于声源的特征和/或位置可以使混响指纹成为以节省计算的方式渲染虚拟音频内容的有用工具(例如,只要用户不通过移动到不同的房间来改变环境,渲染算法就可以相同)。在一些实施例中,混响指纹适用于“规整”的房间(例如,具有四个墙壁、地板和天花板的标准室内房间),并且不适用于可能具有特殊声学特性的“不规整”的房间(例如,长走廊)。
在一些实施例中,可能需要对现实环境的混响指纹进行“盲”估计。盲估计可以是混响指纹的估计,其中不需要有关声源的信息。例如,可以简单地基于人类对话来估计混响指纹,其中有关原始谈话的信息可能不被提供给估计算法。人类谈话期间的停顿可以为使用盲估计来估计混响指纹提供足够的时间。执行盲估计是有益的,因为这种估计可以在不需要冗长的设置过程和/或用户交互的情况下完成。在一些实施例中,可以盲估计混响时间并且可能不需要有关原始声源的信息。在一些实施例中,可以不对混响增益执行盲估计,混响增益可以包括有关原始声源的信息。
图5示出了根据一些实施例的估计混响指纹的示例过程500。所示的示例过程可以使用混合现实***的一个或多个部件,诸如上述示例混合现实***200的可穿戴头部设备2102、手持控制器300,以及辅助单元320中的一个或多个来实现;或者通过与混合现实***200通信的***(例如,包括云服务器的***)来实现。在过程500的步骤502,输入501可以被分成一个或多个经过滤波的分量,然后可以单独处理这些分量。例如,在步骤502,可以将带通滤波器应用于输入501,该输入可以是来自一个或多个麦克风(例如,安装在MR***上的一个或多个麦克风)的音频信号。带通滤波器可以优先允许某些频率范围通过滤波器和/或抑制该频率范围之外的频率。带通滤波器可以将信号分解成更容易处理的更小的组成部分,以提高计算效率。带通滤波器还可以通过移除该频率范围之外的频率处的不需要的噪声来提高信号的信噪比。在一些实施例中,可以使用带通滤波器将音频信号分成六个频率范围。可以针对每个频率范围估计混响指纹(例如,混响时间和混响增益)。这可以用于创建连续的频率响应曲线,使得每个频率可以具有相关联的混响时间和/或混响增益(例如,混响时间和/或混响增益可以从在由带通滤波器分离的频率范围内居中的计算值内插)。尽管讨论了六个频率范围,但音频信号可以被分成任意数量的频率范围(例如,使用任意数量的带通滤波器)。在一些实施例中,可以将倍频程滤波器应用于输入信号。在一些实施例中,可以将1/3倍频程滤波器应用于输入信号。在一些实施例中,针对混响指纹,频率太低(例如,小于100Hz)的信号可能不会被分析(例如,因为低频不足以混响以进行混响指纹分析)。
在步骤504,可以可选地应用频带提升。频带提升可以应用于具有低信噪比的低频(例如,小于500Hz),但是该信噪比可能仍然足够高以确定混响指纹(例如,该信噪比可高于小于100Hz的频率的信噪比)。频带提升可以应用到其他频带,或者根本不应用。
在步骤506,可以对信号执行运行能估计。可以在频域、时域、谱域和/或任何其他合适的域中执行运行能估计。可以在时域中通过确定信号的平方幅度下的面积或通过使用其他适当的方法来估计信号能量。
在步骤508,可以对信号运行包络检测并且包络检测可以基于信号的运行能量(估计)。信号包络可以是信号峰和/或谷的表征,并且可以定义信号(例如,振荡信号)的上边界和/或下边界。可以使用希尔伯特(Hilbert)变换、基于漏积分器的均方根检测器和/或其他合适的方法来执行包络检测。
在步骤510,可以对信号包络运行峰值拾取。峰值拾取可以基于先前检测到的峰值的幅度和/或基于局部最大值来识别信号包络中的局部峰值。
在步骤512,可以对信号包络运行自由衰减区域估计。自由衰减区域可以是包络减少(例如,在局部峰值之后)的信号包络区域。这可能是混响的结果,在混响情况下可能无法检测到新声音,只有以前的声音在现实环境中继续混响,从而导致信号包络减少。在步骤512,可以针对信号中的一个或多个自由衰减区域中的每一个确定线性拟合。在由于声能的指数衰减而在分贝标度上测量信号包络并且在对数标度上测量分贝标度情况下,线性拟合可能是合适的。
在步骤514,可以估计混响时间。可以基于自由衰减区域或具有最快衰减斜率的自由衰减区域的一部分,估计混响时间,最快衰减斜率可以根据针对每个自由衰减区域(或自由衰减区域的一部分)确定的线性拟合来确定。在一些实施例中,在确定线性拟合时,可以忽略局部峰值之后的阈值时间量(例如,50ms)。这有助于避免短期混响(其表现可能不同)和/或有助于确保回归仅适合混响声音而不是源声音。线性拟合斜率可以表示信号包络每单位时间(例如,每秒)的减少量(以分贝为单位)。
在一些实施例中,可以将多个线性拟合应用于单个自由衰减区域。例如,线性回归只能在回归足够准确(例如,相关性为97%或更大)的时间范围内应用。如果线性回归不再适合自由衰减区域持续时间的剩余部分,则可以应用一个或多个附加/替代的线性回归。混响时间估计的准确性可以通过仅使用自由衰减区域内的最快衰减斜率来增加,因为自由衰减区域的相关部分可最准确地仅表示混响声音。例如,具有较慢衰减斜率的自由衰减区域的一部分可能会捕获少量非混响(例如,原始/源)声音,这可能会人为地减慢测量的衰减率。基于最快衰减的线性拟合斜率,可以外插混响时间(可以是信号衰减60分贝所需的时间)。
图6示出了用于估计混响时间的示例过程600。示例过程600可以对应于上述示例过程500的步骤514。示例过程600可以使用混合现实***的一个或多个部件,诸如上述示例混合现实***200的可穿戴头部设备2102、手持控制器300、以及辅助单元320中的一个或多个来实现;或者通过与混合现实***200通信的***(例如,包括云服务器的***)来实现。在示例过程600的步骤602,可以确定局部峰值(例如,来自信号包络的局部峰值)。在步骤604,可以将线性回归拟合到部分或全部自由衰减区域。自由衰减区域可以是包络减少(例如,在局部峰值之后)的信号包络区域。在一些实施例中,线性回归可能不考虑局部峰值之后的一部分时间(例如,局部峰值之后的50ms)。在步骤608,可以确定线性拟合是否足够准确(例如,具有足够低的均方根误差)。如果确定线性拟合不够准确,则在步骤609可以检查下一自由衰减区或自由衰减区的部分。如果确定线性拟合足够准确,则在步骤610可以确定衰减区域是否出现足够长的时间段(例如,>400ms)。如果确定衰减区未出现足够长的时间段,则可以在步骤609检查下一自由衰减区或自由衰减区的一部分。如果确定衰减区确实出现足够长的时间段,则可以在步骤612确定来自线性回归的衰减斜率是否是整个自由衰减区域的最快衰减斜率。如果确定衰减斜率不是整个自由衰减区域的最快衰减斜率,则可以在步骤609检查下一自由衰减区域或自由衰减区域的一部分。如果确定衰减斜率是整个自由衰减区域的最快衰减斜率,则可以在步骤614基于最快衰减斜率外插混响时间。
在一些实施例中,可以使用收敛(或近似收敛)测量来估计混响时间。例如,可以在阈值数量的连续自由衰减区域的衰减斜率在彼此的阈值内之后宣告混响时间。然后可以确定平均衰减斜率并将其宣告为混响时间。在一些实施例中,与自由衰减区域相关联的衰减斜率可以根据每个测量衰减斜率的质量估计来加权。在一些实施例中,在自由衰减区域的相关部分持续阈值时间量(例如,400ms)时,衰减斜率可以被确定为更准确,这可以增加衰减斜率估计的准确性。在一些实施例中,如果衰减斜率具有相对准确的线性拟合(例如,低均方根误差),则可以确定衰减斜率更准确。更准确的衰减斜率可以在加权平均值中分配有更高的权重以确定混响时间。在一些实施例中,被确定为最准确(例如,基于衰减长度和/或线性拟合精度)的单个衰减斜率可用于确定混响时间,混响时间可以是给定频率范围(例如,在步骤502由带通滤波器选择的频率范围)的混响时间。
返回参考图5和过程500,在步骤514,可以确定置信值并将其与混响时间相关联。可以基于各种因素来确定置信值。例如,置信值可以基于收敛衰减斜率的数量、所利用的衰减斜率的线性拟合精度、所利用的衰减斜率的衰减长度、新的混响时间估计和先前的混响时间估计之间的差异、或这些和/或其他因素的任何组合。在一些实施例中,如果置信值低于阈值(例如,因为检测到用于收敛的自由衰减区域不足),则可以不宣告具有关联置信度的混响时间估计。如果未宣告混响时间估计,则仍可以宣告其他频率范围(例如,在步骤502使用带通滤波器分离的频率范围)的其他混响时间估计(例如,如果那些混响时间估计具有足够高的置信值)。缺失频率范围的混响时间估计可以根据在其他频率范围宣告的混响时间内插。
在步骤516,可以执行直接声能估计。直接声能估计可以利用有关直接/源声音的信息。例如,如果直接/源声音已知,则直接声能估计可以估计直接/源声音的能量(例如,通过在包括直接/源声音的信号包络峰下的面积进行积分)。这可以通过使用脉冲声音来实现,这样可能更容易将直接/源声音与混响声音分开。在一些实施例中,可以提示用户(例如,通过MR***)拍手以产生脉冲声音。在一些实施例中,扬声器,例如安装在MR***上的扬声器,可以播放脉冲声音。在一些实施例中,可以使用脉冲声音来估计直接声能和混响时间估计。在一些实施例中,可以盲估计直接声音估计(例如,如果盲估计可以在没有直接/源声音的先验知识的情况下将直接/源声音与混响声音分开)。
在步骤518,可以估计混响声能量。可以通过对来自直接/源声音的端的信号包络进行积分来估计混响声能,直到不再检测到混响声音和/或混响声音低于某个增益阈值(例如,-90dB)。
在步骤520,可以基于直接声能估计和混响能估计,估计混响增益。在一些实施例中,通过采用混响能量与直接声能量的比率来计算混响增益。在一些实施例中,混响增益是通过采用直接声能与混响能的比率来计算的。可以宣告混响增益估计(例如,传递给音频渲染算法)。在一些实施例中,置信度可以与混响增益估计相关联。例如,如果在混响能估计中检测到峰值,则可能表明引入了新的直接/源声音,并且混响增益估计可能不再准确。在一些实施例中,仅在置信度处于或高于某个阈值的情况下才可以宣告混响增益估计。
除了使用混响指纹更逼真地呈现虚拟音频内容之外,混响指纹还可用于识别现实环境和/或识别现实环境中的变化。例如,用户可以在第一房间(例如,第一声学环境)中校准MR***,然后移动到第二房间。第二房间可以具有与第一房间不同的声学特性(例如,不同的混响时间和/或不同的混响增益)。MR***可以盲估计第二房间中的混响时间,确定混响时间与先前宣告的混响时间足够不同,并得出用户已经改变房间的结论。然后,MR***可以宣告新的混响时间和/或新的混响增益(例如,通过要求用户再次拍手、通过外部扬声器播放脉冲和/或对混响增益进行盲估计)。作为另一示例,用户可以校准房间中的MR***,并且MR***可以确定房间的混响指纹。然后,MR***可以基于混响指纹和/或其他因素(例如,通过GPS和/或WiFi网络,或经由诸如以上关于示例混合现实***200描述的一个或多个传感器确定的位置),识别房间。MR***可以访问先前构建的房间的远程数据库,并且使用混响指纹和/或其他因素将房间识别为先前构建的房间。MR***可以下载与房间相关的资产(例如,先前生成的房间的3D图)。
图7示出了用于识别现实环境的声学特性的变化的示例过程。所示的示例过程可以使用混合现实***的一个或多个部件,诸如上述示例混合现实***200的可穿戴头部设备2102、手持控制器300、以及辅助单元320中的一个或多个来实现;或者通过与混合现实***200通信的***(例如,包括云服务器的***)来实现。在示例过程的步骤702,可以确定新的混响时间(例如,使用过程500和/或过程600)。在步骤704,可以将新的混响时间与先前宣告的混响时间进行比较。在步骤706,可以确定新的混响时间与先前宣告的混响时间是否足够不同。可以通过多种方式评估差异。例如,如果频率范围的新的混响时间与频率范围的宣告的混响时间的差异大于指定阈值(例如,10%,这对于人类听众来说可能是具有足够差异以至于感知到差异),则差异可能就足够了。作为另一示例,如果给定频率范围的混响时间的阈值数量不同于这些频率范围的宣告的混响时间的阈值数量,则可以确定足够的差异。作为另一示例,新的频率响应曲线(其可以包括测试的频率范围的宣告的混响时间之间的内插点)和宣告的频率响应曲线之间的差异的绝对值可以被积分。如果积分面积高于某个阈值,则可以确定新的混响时间与宣告的混响时间有足够的差异。
如果确定新的混响时间与宣告的混响时间没有足够的差异,则MR***可以在步骤702继续确定新的混响时间。如果确定新的混响时间与宣告的混响时间具有足够的差异,则可以在步骤708确定是否已经检测到足够数量的足够不同的混响时间。例如,对于给定频率范围,全部与宣告的混响项目不同的三个连续混响时间估计可以是足够数量的足够不同的混响时间。也可以使用其他阈值(例如,五分之三的最近混响时间估计)。如果确定尚未检测到足够数量的足够不同的混响时间,则MR***可以在步骤702继续确定新的混响时间。如果确定已经检测到足够数量的足够不同的混响时间,则可以在步骤710宣告新的混响时间。在一些实施例中,步骤710还可以包括启动新的混响增益估计,这可以提示用户拍手或从外部扬声器播放脉冲声音。在一些实施例中,步骤710还可以包括访问远程数据库以基于新的混响指纹和/或MR***可用的其他信息(例如,通过GPS和/或WiFi连接、或经由诸如以上关于示例混合现实***200描述的一个或多个传感器确定的位置),识别新的现实环境。
尽管已经参照附图充分描述了所公开的示例,但是应当注意,各种改变和修改对于本领域技术人员来说将变得显而易见。例如,一个或多个实现的元素可以被组合、删除、修改或补充以形成进一步的实现。此类改变和修改应理解为包括在由所附权利要求限定的公开示例的范围内。

Claims (20)

1.一种方法,包括:
经由可穿戴头部设备的麦克风接收第一音频信号;
确定所述第一音频信号的包络;
基于所述第一音频信号的所述包络,估计第一混响时间;
确定所述第一混响时间与第二混响时间之间的差;
基于所述第一混响时间与所述第二混响时间之间的所述差,确定环境的变化;以及
经由可穿戴头部设备的扬声器呈现第二音频信号,其中,所述第二音频信号是基于所述第一混响时间。
2.根据权利要求1所述的方法,其中,估计所述第一混响时间包括:确定所述第一音频信号的所述包络是否衰减大于阈值时间量的时间。
3.根据权利要求1所述的方法,其中,估计所述第一混响时间包括:
确定所述第一音频信号的所述包络中的衰减区域的线性拟合;以及
确定所述线性拟合的相关性是否大于阈值相关性。
4.根据权利要求1所述的方法,还包括:
确定所述第一混响时间的置信度是否超过阈值置信量;
根据所述第一混响时间的所述置信度超过所述阈值置信量的确定,确定所述第一混响时间;以及
根据所述第一混响时间的所述置信度未超过所述阈值置信量的确定,放弃确定所述第一混响时间,
其中,根据所述第一混响时间的所述置信度超过所述阈值置信量的确定,执行:确定所述第一混响时间与所述第二混响时间之间的所述差,基于所述第一混响时间与所述第二混响时间之间的所述差确定所述环境的变化,以及经由可穿戴头部设备的所述扬声器呈现所述第二音频信号。
5.根据权利要求1所述的方法,还包括:基于所述第一音频信号的所述包络,估计第一混响增益,并且其中,所述第二音频信号是基于所述第一混响增益。
6.根据权利要求5所述的方法,其中,估计所述第一混响增益包括:提示用户拍手。
7.根据权利要求5所述的方法,其中,估计所述第一混响增益包括:经由所述可穿戴头部设备的扬声器呈现脉冲声音。
8.根据权利要求5所述的方法,其中,所述第一混响增益包括直接声能与混响声能的比率。
9.一种***,包括:
可穿戴头部设备的麦克风;
可穿戴头部设备的扬声器;
一个或多个处理器,其被配置为执行一种方法,所述方法包括:
经由所述可穿戴头部设备的所述麦克风接收第一音频信号;
确定所述第一音频信号的包络;
基于所述第一音频信号的所述包络,估计第一混响时间;
确定所述第一混响时间与第二混响时间之间的差;
基于所述第一混响时间与所述第二混响时间之间的所述差,确定环境的变化;以及
经由所述可穿戴头部设备的所述扬声器呈现第二音频信号,其中,所述第二音频信号是基于所述第一混响时间。
10.根据权利要求9所述的***,其中,估计所述第一混响时间包括:确定所述第一音频信号的所述包络是否衰减大于阈值时间量的时间。
11.根据权利要求9所述的***,其中,估计所述第一混响时间包括:
确定所述第一音频信号的所述包络的衰减区域的线性拟合;以及
确定所述线性拟合的相关性是否大于阈值相关性。
12.根据权利要求9所述的***,其中,所述方法还包括:
确定所述第一混响时间的置信度是否超过阈值置信量;
根据所述第一混响时间的所述置信度超过所述阈值置信量的确定,确定所述第一混响时间;以及
根据所述第一混响时间的所述置信度未超过所述阈值置信量的确定,放弃确定所述第一混响时间,
其中,根据所述第一混响时间的所述置信度超过所述阈值置信量的确定,执行:确定所述第一混响时间与所述第二混响时间之间的所述差,基于所述第一混响时间与所述第二混响时间之间的所述差确定所述环境的变化,以及经由可穿戴头部设备的所述扬声器呈现所述第二音频信号。
13.根据权利要求9所述的***,还包括:基于所述第一音频信号的所述包络,估计第一混响增益,并且其中,所述第二音频信号是基于所述第一混响增益。
14.根据权利要求13所述的***,其中,估计所述第一混响增益包括:经由所述可穿戴头部设备的扬声器呈现脉冲声音。
15.一种非暂时性计算机可读介质,存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行一种方法,所述方法包括:
经由可穿戴头部设备的麦克风接收第一音频信号;
确定所述第一音频信号的包络;
基于所述第一音频信号的所述包络估计第一混响时间;
确定所述第一混响时间与第二混响时间之间的差;
基于所述第一混响时间与所述第二混响时间之间的所述差,确定环境的变化;以及
经由可穿戴头部设备的扬声器呈现第二音频信号,其中,所述第二音频信号是基于所述第一混响时间。
16.根据权利要求15所述的非暂时性计算机可读介质,其中,估计所述第一混响时间包括:确定所述第一音频信号的所述包络是否衰减大于阈值时间量的时间。
17.根据权利要求15所述的非暂时性计算机可读介质,其中估计所述第一混响时间包括:
确定所述第一音频信号的所述包络的衰减区域的线性拟合;以及
确定所述线性拟合的相关性是否大于阈值相关性。
18.根据权利要求15所述的非暂时性计算机可读介质,其中,所述方法还包括:
确定所述第一混响时间的置信度是否超过阈值置信量;
根据所述第一混响时间的所述置信度超过所述阈值置信量的确定,确定所述第一混响时间;以及
根据所述第一混响时间的所述置信度未超过所述阈值置信量的确定,放弃确定所述第一混响时间,
其中,根据所述第一混响时间的所述置信度超过所述阈值置信量的确定,执行:确定所述第一混响时间与所述第二混响时间之间的所述差,基于所述第一混响时间与所述第二混响时间之间的所述差确定所述环境的变化,以及经由可穿戴头部设备的所述扬声器呈现所述第二音频信号。
19.根据权利要求15所述的非暂时性计算机可读介质,还包括:基于所述第一音频信号的所述包络,估计第一混响增益,并且其中,所述第二音频信号是基于所述第一混响增益。
20.根据权利要求19所述的非暂时性计算机可读介质,其中,估计所述第一混响增益包括:经由所述可穿戴头部设备的扬声器呈现脉冲声音。
CN202080074331.3A 2019-10-25 2020-10-23 混响指纹估计 Pending CN114586382A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962926330P 2019-10-25 2019-10-25
US62/926,330 2019-10-25
PCT/US2020/057203 WO2021081435A1 (en) 2019-10-25 2020-10-23 Reverberation fingerprint estimation

Publications (1)

Publication Number Publication Date
CN114586382A true CN114586382A (zh) 2022-06-03

Family

ID=75586525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080074331.3A Pending CN114586382A (zh) 2019-10-25 2020-10-23 混响指纹估计

Country Status (5)

Country Link
US (4) US11304017B2 (zh)
EP (1) EP4049466A4 (zh)
JP (2) JP7446420B2 (zh)
CN (1) CN114586382A (zh)
WO (1) WO2021081435A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20230137475A (ko) 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
CN115175064A (zh) 2017-10-17 2022-10-11 奇跃公司 混合现实空间音频
US11477510B2 (en) 2018-02-15 2022-10-18 Magic Leap, Inc. Mixed reality virtual reverberation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021081435A1 (en) 2019-10-25 2021-04-29 Magic Leap, Inc. Reverberation fingerprint estimation
GB2588801A (en) * 2019-11-08 2021-05-12 Nokia Technologies Oy Determination of sound source direction
US11290834B2 (en) * 2020-03-04 2022-03-29 Apple Inc. Determining head pose based on room reverberation
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11630509B2 (en) * 2020-12-11 2023-04-18 Microsoft Technology Licensing, Llc Determining user intent based on attention values

Family Cites Families (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5264974A (en) * 1975-11-25 1977-05-28 Victor Co Of Japan Ltd Reverberation time measuring device
JPS644200A (en) * 1987-06-26 1989-01-09 Nissan Motor Sound field improving device
US4852988A (en) 1988-09-12 1989-08-01 Applied Science Laboratories Visor and camera providing a parallax-free field-of-view image for a head-mounted eye movement measurement system
GB9107011D0 (en) * 1991-04-04 1991-05-22 Gerzon Michael A Illusory sound distance control method
FR2688371B1 (fr) 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
FR2738099B1 (fr) 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
US6847336B1 (en) 1996-10-02 2005-01-25 Jerome H. Lemelson Selectively controllable heads-up display system
US6453047B1 (en) 1998-09-28 2002-09-17 Creative Technology Ltd Matrix encoding system with improved behavior frequency
US6665407B1 (en) 1998-09-28 2003-12-16 Creative Technology Ltd. Three channel panning system
US6188769B1 (en) 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US6433760B1 (en) 1999-01-14 2002-08-13 University Of Central Florida Head mounted display with eyetracking capability
US6491391B1 (en) 1999-07-02 2002-12-10 E-Vision Llc System, apparatus, and method for reducing birefringence
CA2316473A1 (en) 1999-07-28 2001-01-28 Steve Mann Covert headworn information display or data display or viewfinder
US7231054B1 (en) 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US6798889B1 (en) 1999-11-12 2004-09-28 Creative Technology Ltd. Method and apparatus for multi-channel sound system calibration
US6978027B1 (en) 2000-04-11 2005-12-20 Creative Technology Ltd. Reverberation processor for interactive audio applications
US7149314B2 (en) 2000-12-04 2006-12-12 Creative Technology Ltd Reverberation processor based on absorbent all-pass filters
US7099482B1 (en) 2001-03-09 2006-08-29 Creative Technology Ltd Method and apparatus for the simulation of complex audio environments
CA2362895A1 (en) 2001-06-26 2002-12-26 Steve Mann Smart sunglasses or computer information display built into eyewear having ordinary appearance, possibly with sight license
DE10132872B4 (de) 2001-07-06 2018-10-11 Volkswagen Ag Kopfmontiertes optisches Durchsichtssystem
US20030030597A1 (en) 2001-08-13 2003-02-13 Geist Richard Edwin Virtual display apparatus for mobile activities
US7848531B1 (en) 2002-01-09 2010-12-07 Creative Technology Ltd. Method and apparatus for audio loudness and dynamics matching
JP4059478B2 (ja) 2002-02-28 2008-03-12 パイオニア株式会社 音場制御方法及び音場制御システム
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
US7257231B1 (en) 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
CA2388766A1 (en) 2002-06-17 2003-12-17 Steve Mann Eyeglass frames based computer display or eyeglasses with operationally, actually, or computationally, transparent frames
US6943754B2 (en) 2002-09-27 2005-09-13 The Boeing Company Gaze tracking system, eye-tracking assembly and an associated method of calibration
US7347551B2 (en) 2003-02-13 2008-03-25 Fergason Patent Properties, Llc Optical system for monitoring eye movement
US7500747B2 (en) 2003-10-09 2009-03-10 Ipventure, Inc. Eyeglasses with electrical components
US7412380B1 (en) 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
US7970144B1 (en) 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
ZA200608191B (en) 2004-04-01 2008-07-30 William C Torch Biosensors, communicators, and controllers monitoring eye movement and methods for using them
JP4234174B2 (ja) * 2004-06-30 2009-03-04 パイオニア株式会社 残響調整装置、残響調整方法、残響調整プログラムおよびそれを記録した記録媒体、並びに、音場補正システム
US7928311B2 (en) 2004-12-01 2011-04-19 Creative Technology Ltd System and method for forming and rendering 3D MIDI messages
US8964997B2 (en) * 2005-05-18 2015-02-24 Bose Corporation Adapted audio masking
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
EP1968443A4 (en) 2005-12-28 2011-09-28 Nirinjan Bikko BIORETRACTION DEVICE FOR BREATHING
DE602006001051T2 (de) * 2006-01-09 2009-07-02 Honda Research Institute Europe Gmbh Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen
US9697844B2 (en) 2006-05-17 2017-07-04 Creative Technology Ltd Distributed spatial audio decoder
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8619998B2 (en) 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US9014377B2 (en) 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8374365B2 (en) 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US9496850B2 (en) 2006-08-04 2016-11-15 Creative Technology Ltd Alias-free subband processing
US8488796B2 (en) 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer
US8107631B2 (en) 2007-10-04 2012-01-31 Creative Technology Ltd Correlation-based method for ambience extraction from two-channel audio signals
US9037468B2 (en) 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
US8000485B2 (en) 2009-06-01 2011-08-16 Dts, Inc. Virtual audio processing for loudspeaker or headphone playback
US9432790B2 (en) * 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
CN102668374B (zh) 2009-10-09 2015-09-09 Dts(英属维尔京群岛)有限公司 音频录音的自适应动态范围增强
US20110213664A1 (en) 2010-02-28 2011-09-01 Osterhout Group, Inc. Local advertising content on an interactive head-mounted eyepiece
US8890946B2 (en) 2010-03-01 2014-11-18 Eyefluence, Inc. Systems and methods for spatially controlled scene illumination
TWI562137B (en) 2010-04-09 2016-12-11 Dts Inc Adaptive environmental noise compensation for audio playback
US8531355B2 (en) 2010-07-23 2013-09-10 Gregory A. Maltz Unitized, vision-controlled, wireless eyeglass transceiver
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
WO2012033942A2 (en) 2010-09-10 2012-03-15 Dts, Inc. Dynamic compensation of audio signals for improved perceived spectral imbalances
US8767968B2 (en) 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US9292973B2 (en) 2010-11-08 2016-03-22 Microsoft Technology Licensing, Llc Automatic variable virtual focus for augmented reality displays
TR201815799T4 (tr) 2011-01-05 2018-11-21 Anheuser Busch Inbev Sa Bir audio sistemi ve onun operasyonunun yöntemi.
US9530421B2 (en) 2011-03-16 2016-12-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
US9253574B2 (en) 2011-09-13 2016-02-02 Dts, Inc. Direct-diffuse decomposition
US8929589B2 (en) 2011-11-07 2015-01-06 Eyefluence, Inc. Systems and methods for high-resolution gaze tracking
US8611015B2 (en) 2011-11-22 2013-12-17 Google Inc. User interface
US8235529B1 (en) 2011-11-30 2012-08-07 Google Inc. Unlocking a screen using eye tracking information
US8638498B2 (en) 2012-01-04 2014-01-28 David D. Bohn Eyebox adjustment for interpupillary distance
US10013053B2 (en) 2012-01-04 2018-07-03 Tobii Ab System for gaze interaction
US8831255B2 (en) 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US9274338B2 (en) 2012-03-21 2016-03-01 Microsoft Technology Licensing, Llc Increasing field of view of reflective waveguide
WO2013181272A2 (en) 2012-05-31 2013-12-05 Dts Llc Object-based audio system using vector base amplitude panning
US9332373B2 (en) 2012-05-31 2016-05-03 Dts, Inc. Audio depth dynamic range enhancement
US8989535B2 (en) 2012-06-04 2015-03-24 Microsoft Technology Licensing, Llc Multiple waveguide imaging structure
US9386373B2 (en) 2012-07-03 2016-07-05 Dts, Inc. System and method for estimating a reverberation time
US9779731B1 (en) 2012-08-20 2017-10-03 Amazon Technologies, Inc. Echo cancellation based on shared reference signals
US9426599B2 (en) * 2012-11-30 2016-08-23 Dts, Inc. Method and apparatus for personalized audio virtualization
EP2929413B1 (en) 2012-12-06 2020-06-03 Google LLC Eye tracking wearable devices and methods for use
KR20150103723A (ko) 2013-01-03 2015-09-11 메타 컴퍼니 가상 또는 증강매개된 비전을 위한 엑스트라미시브 공간 이미징 디지털 아이 글래스
US20140195918A1 (en) 2013-01-07 2014-07-10 Steven Friedlander Eye tracking user interface
BR112015020150B1 (pt) 2013-02-26 2021-08-17 Mediatek Inc. Aparelho para gerar um sinal de fala, e, método para gerar um sinal de fala
US9197930B2 (en) 2013-03-15 2015-11-24 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover in an audience monitoring system
US9443354B2 (en) 2013-04-29 2016-09-13 Microsoft Technology Licensing, Llc Mixed reality interactions
WO2014178479A1 (ko) 2013-04-30 2014-11-06 인텔렉추얼디스커버리 주식회사 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US10063207B2 (en) 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
JP6349899B2 (ja) * 2014-04-14 2018-07-04 ヤマハ株式会社 放収音装置
US20170208415A1 (en) 2014-07-23 2017-07-20 Pcms Holdings, Inc. System and method for determining audio context in augmented-reality applications
US9769552B2 (en) * 2014-08-19 2017-09-19 Apple Inc. Method and apparatus for estimating talker distance
EP3018918A1 (en) * 2014-11-07 2016-05-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating output signals based on an audio source signal, sound reproduction system and loudspeaker signal
US9787846B2 (en) 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
WO2016123572A1 (en) 2015-01-30 2016-08-04 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US9558757B1 (en) * 2015-02-20 2017-01-31 Amazon Technologies, Inc. Selective de-reverberation using blind estimation of reverberation level
GB2536020A (en) 2015-03-04 2016-09-07 Sony Computer Entertainment Europe Ltd System and method of virtual reality feedback
US9776001B2 (en) * 2015-06-11 2017-10-03 Med-El Elektromedizinische Geraete Gmbh Interaural coherence based cochlear stimulation using adapted envelope processing
US9865245B2 (en) 2015-08-21 2018-01-09 Dts, Inc. Multi-speaker method and apparatus for leakage cancellation
US10251016B2 (en) 2015-10-28 2019-04-02 Dts, Inc. Dialog audio signal balancing in an object-based audio program
JP6880016B2 (ja) 2015-10-28 2021-06-02 ジャン−マルク ジョット オーディオ信号のスペクトル補正法
FR3044509B1 (fr) * 2015-11-26 2017-12-15 Invoxia Procede et dispositif pour estimer la reverberation acoustique
US9648438B1 (en) 2015-12-16 2017-05-09 Oculus Vr, Llc Head-related transfer function recording using positional tracking
EP3413590B1 (en) * 2016-02-01 2019-11-06 Sony Corporation Audio output device, audio output method, program, and audio system
WO2017136573A1 (en) 2016-02-02 2017-08-10 Dts, Inc. Augmented reality headphone environment rendering
EP4075826A1 (en) 2016-02-04 2022-10-19 Magic Leap, Inc. Technique for directing audio in augmented reality system
US9591427B1 (en) 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
JP2019518373A (ja) 2016-05-06 2019-06-27 ディーティーエス・インコーポレイテッドDTS,Inc. 没入型オーディオ再生システム
US11176727B2 (en) 2016-05-27 2021-11-16 Institut National De La Sante Et De La Recherche Medicale (Inserm) Method and apparatus for acquiring a spatial map of auditory perception of a subject
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
CN109791441A (zh) 2016-08-01 2019-05-21 奇跃公司 具有空间化音频的混合现实***
IL303843B2 (en) 2016-08-11 2024-06-01 Magic Leap Inc Automatic positioning of a virtual object in three-dimensional space
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
DE102017200597B4 (de) * 2017-01-16 2020-03-26 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörsystems und Hörsystem
WO2018182274A1 (ko) * 2017-03-27 2018-10-04 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
CN115175064A (zh) 2017-10-17 2022-10-11 奇跃公司 混合现实空间音频
US10609502B2 (en) * 2017-12-21 2020-03-31 Verizon Patent And Licensing Inc. Methods and systems for simulating microphone capture within a capture zone of a real-world scene
KR102334070B1 (ko) * 2018-01-18 2021-12-03 삼성전자주식회사 전자 장치 및 그 제어 방법
US11477510B2 (en) * 2018-02-15 2022-10-18 Magic Leap, Inc. Mixed reality virtual reverberation
EP3808108A4 (en) * 2018-06-18 2022-04-13 Magic Leap, Inc. SPATIAL AUDIO FOR INTERACTIVE AUDIO ENVIRONMENTS
US10674307B1 (en) * 2019-03-27 2020-06-02 Facebook Technologies, Llc Determination of acoustic parameters for a headset using a mapping server
US11102603B2 (en) * 2019-05-28 2021-08-24 Facebook Technologies, Llc Determination of material acoustic parameters to facilitate presentation of audio content
US10645520B1 (en) * 2019-06-24 2020-05-05 Facebook Technologies, Llc Audio system for artificial reality environment
US10880668B1 (en) * 2019-09-13 2020-12-29 Facebook Technologies, Llc Scaling of virtual audio content using reverberent energy
IT201900018563A1 (it) * 2019-10-11 2021-04-11 Powersoft S P A Dispositivo di condizionamento acustico per produrre un riverbero in un ambiente
WO2021081435A1 (en) * 2019-10-25 2021-04-29 Magic Leap, Inc. Reverberation fingerprint estimation

Also Published As

Publication number Publication date
US20230077524A1 (en) 2023-03-16
WO2021081435A1 (en) 2021-04-29
JP2024019645A (ja) 2024-02-09
JP2022553333A (ja) 2022-12-22
EP4049466A4 (en) 2022-12-28
US20210127220A1 (en) 2021-04-29
US11778398B2 (en) 2023-10-03
US11304017B2 (en) 2022-04-12
EP4049466A1 (en) 2022-08-31
JP7446420B2 (ja) 2024-03-08
US11540072B2 (en) 2022-12-27
US20230403524A1 (en) 2023-12-14
US20220272469A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
US11540072B2 (en) Reverberation fingerprint estimation
US11800174B2 (en) Mixed reality virtual reverberation
US11956620B2 (en) Dual listener positions for mixed reality
US11477599B2 (en) Delayed audio following
US20230396948A1 (en) Delayed audio following
JP2023514571A (ja) 遅延オーディオ追従
WO2023064870A1 (en) Voice processing for mixed reality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination