CN118077219A - 具有头部姿势补偿的声场捕获 - Google Patents

具有头部姿势补偿的声场捕获 Download PDF

Info

Publication number
CN118077219A
CN118077219A CN202280067662.3A CN202280067662A CN118077219A CN 118077219 A CN118077219 A CN 118077219A CN 202280067662 A CN202280067662 A CN 202280067662A CN 118077219 A CN118077219 A CN 118077219A
Authority
CN
China
Prior art keywords
sound
digital audio
environment
audio signal
wearable head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280067662.3A
Other languages
English (en)
Inventor
R·S·奥德弗雷
J-M·约特
D·T·罗奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of CN118077219A publication Critical patent/CN118077219A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0081Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for altering, e.g. enlarging, the entrance or exit pupil
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Optics & Photonics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本文公开了用于具体地使用混合现实装置来捕获声场的***和方法。在一些实施例中,一种方法包括:通过第一可穿戴头部装置的麦克风,检测环境的声音;基于所检测到的声音,确定数字音频信号;所述数字音频信号与在所述环境中具有位置的球体相关联;在检测所述声音的同时,检测相对于所述环境的麦克风移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动而调整所述球体的所述位置。

Description

具有头部姿势补偿的声场捕获
相关申请交叉引用
本申请主张2021年10月5日提交的美国临时专利申请号63/252,391的优先权,该申请的全部内容在此纳入作为参考。
技术领域
本公开一般涉及用于具体地使用混合现实设备捕获声场和声场回放的***和方法。
背景技术
需要使用增强现实(AR)、混合现实(MR)或扩展现实(XR)设备(例如,可穿戴头部装置)来捕获声场(例如,录制多维音频场景)。例如,可以有利地使用可穿戴头部装置来录音装置的用户周围的3D音频场景(例如,在没有附加(通常更昂贵)录音装置的情况下创建AR、MR或XR内容,从而以第一人视角创建AR、MR或XR内容)。然而,在录制音频场景时,录音装置可能不固定。例如,在录制时,用户可以移动他或她的头部,从而移动录音装置。录音装置的移动可导致录制的声场和声场的回放失向。为了确保适当的声场定向(例如,与AR、MR或XR环境适当对准),需要补偿声场捕获中的这些移动。类似地,当回放装置相对于AR、MR或XR环境移动时,还可能需要在声场回放期间补偿回放装置的移动以固定声源。
在一些示例中,声场或3D音频场景可以是AR/MR/XR内容的一部分,其支持允许用户访问AR/MR/XR内容的六个自由度。支持六个自由度的整个声场或3D音频场景会导致非常大和/或复杂的文件,这将需要更多的计算资源来访问。因此,需要降低这种声场或3D音频场景的复杂性。
发明内容
本公开的示例描述了用于使用混合现实装置捕获声场,特别是声场回放的***和方法。在一些实施例中,这些***和方法在捕获声场的同时补偿录音装置的移动。在一些实施例中,这些***和方法在播放声场音频的同时补偿回放装置的移动。在一些实施例中,这些***和方法降低了捕获的声场的复杂性。
在一些实施例中,一种方法包括:通过第一可穿戴头部装置的麦克风,检测环境的声音;基于所检测到的声音,确定数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;在检测所述声音的同时,经由所述第一可穿戴头部装置的传感器,检测相对于所述环境的麦克风移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动而调整所述球体的所述位置;以及经由第二可穿戴头部装置的一个或多个扬声器,向所述第二可穿戴头部装置的用户呈现所述调整的数字音频信号。
在一些实施例中,所述方法还包括:通过第三可穿戴头部装置的麦克风,检测所述环境的第二声音;基于所检测到的第二声音,确定第二数字音频信号,所述第二数字音频信号与在所述环境中具有第二位置的第二球体相关联;在检测所述第二声音的同时,经由所述第三可穿戴头部装置的传感器,检测相对于所述环境的麦克风移动;调整所述第二数字音频信号,其中,所述调整包括基于所述检测到的第二麦克风移动而调整所述第二球体的所述第二位置;组合所述调整的数字音频信号和所述第二调整的数字音频信号;以及经由所述第二可穿戴头部装置的所述一个或多个扬声器,向所述第二可穿戴头部装置的所述用户呈现所述组合的第一调整的数字音频信号和第二调整的数字音频信号。
在一些实施例中,在服务器处组合所述第一调整的数字音频信号和所述第二调整的数字音频信号。
在一些实施例中,所述数字音频信号包括Ambisonic文件。
在一些实施例中,检测相对于所述环境的所述麦克风移动包括执行即时定位与地图构建(simultaneous localization and mapping)和视觉惯性里程计(visual inertialodometry)中的一者或多者。
在一些实施例中,所述传感器包括惯性测量单元、相机、第二麦克风、陀螺仪和激光雷达传感器中的一者或多者。
在一些实施例中,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
在一些实施例中,其中,应用所述补偿函数包括基于所述麦克风移动的逆(inverse),应用所述补偿函数。
在一些实施例中,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述第二可穿戴头部装置的显示器上显示与所述环境的所述声音相关联的内容。
在一些实施例中,一种方法包括:在可穿戴头部装置上接收数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;经由所述可穿戴头部装置的传感器,检测相对于所述环境的装置移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的装置移动而调整所述球体的所述位置;以及经由所述可穿戴头部装置的一个或多个扬声器向所述可穿戴头部装置的用户呈现所述调整的数字音频信号。
在一些实施例中,所述方法还包括:组合第二数字音频信号和第三数字音频信号;以及下混合(downmix)所述组合的第二和第三数字音频信号,其中,所检索到的第一数字音频信号是所述组合的第二和第三数字音频信号。
在一些实施例中,下混合所述组合的第二和第三数字音频信号包括将第一增益应用于所述第二数字音频信号,并将第二增益应用于所述第二数字音频信号。
在一些实施例中,下混合所述组合的第二和第三数字音频信号包括基于所述可穿戴头部装置与所述第二数字音频信号的录制位置的距离,降低所述第二数字音频信号的Ambisonics阶数。
在一些实施例中,所述传感器是惯性测量单元、相机、第二麦克风、陀螺仪或激光雷达传感器。
在一些实施例中,检测相对于所述环境的所述装置移动包括执行即时定位与地图构建或视觉惯性里程计。
在一些实施例中,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
在一些实施例中,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
在一些实施例中,所述数字音频信号采取Ambisonics格式。
在一些实施例中,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述可穿戴头部装置的显示器上显示与所述环境中的所述数字音频信号的声音相关联的内容。
在一些实施例中,一种方法包括:检测环境的声音;从所检测到的声音中提取声音对象;以及组合所述声音对象和残差。所述声音对象包括所检测到的声音的第一部分,所述第一部分符合声音对象标准,并且,所述残差包括所检测到的声音的第二部分,所述第二部分不符合所述声音对象标准。
在一些实施例中,还包括:检测所述环境的第二声音;确定所检测到的第二声音的一部分是否符合所述声音对象标准,其中:符合所述声音对象标准的所检测到的第二声音的一部分包括第二声音对象,不符合所述声音对象标准的所检测到的第二声音的一部分包括第二残差;从所检测到的第二声音中提取所述第二声音对象;以及合并所述第一声音对象和所述第二声音对象,其中,组合所述声音对象和所述残差包括组合所述合并的声音对象、所述第一残差和所述第二残差。
在一些实施例中,所述声音对象在所述环境中支持六个自由度,并且,所述残差在所述环境中支持三个自由度。
在一些实施例中,所述声音对象具有比所述残差更高的空间分辨率。
在一些实施例中,所述残差被存储在较低阶Ambisonic文件中。
在一些实施例中,一种方法包括:经由可穿戴头部装置的传感器,检测相对于环境的所述可穿戴头部装置的移动;调整声音对象,其中,所述声音对象与在所述环境中具有第一位置的第一球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第一球体的所述第一位置;调整残差,其中,所述残差与在所述环境中具有第二位置的第二球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第二球体的所述第二位置;混合所述调整的声音对象和所述调整的残差;以及经由所述可穿戴头部装置的一个或多个扬声器,向所述可穿戴头部装置的用户呈现混合的所述调整的声音对象和所述调整的残差。
在一些实施例中,一种***包括:第一可穿戴头部装置,其包括麦克风和传感器;第二可穿戴头部装置,其包括扬声器;以及一个或多个处理器,其被配置为执行一种方法,所述方法包括:通过所述第一可穿戴头部装置的所述麦克风,检测环境的声音;基于所检测到的声音,确定数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;在检测所述声音的同时,经由所述第一可穿戴头部装置的所述传感器,检测相对于所述环境的麦克风移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动而调整所述球体的所述位置;以及经由所述第二可穿戴头部装置的所述扬声器,向所述第二可穿戴头部装置的用户呈现所述调整的数字音频信号。
在一些实施例中,所述***还包括第三可穿戴头部装置,其包括麦克风和传感器,其中,所述方法还包括:通过所述第三可穿戴头部装置的所述麦克风,检测所述环境的第二声音;基于所检测到的第二声音,确定第二数字音频信号,所述第二数字音频信号与在所述环境中具有第二位置的第二球体相关联;在检测所述第二声音的同时,经由所述第三可穿戴头部装置的所述传感器,检测相对于所述环境的所述第二麦克风的移动;调整所述第二数字音频信号,其中,所述调整包括基于所检测到的第二麦克风移动而调整所述第二球体的所述第二位置;组合所述调整的数字音频信号和所述第二调整的数字音频信号;以及经由所述第二可穿戴头部装置的所述一个或多个扬声器,向所述第二可穿戴头部装置的所述用户呈现所述组合的第一调整的数字音频信号和第二调整的数字音频信号。
在一些实施例中,在服务器上组合所述第一调整的数字音频信号和所述第二调整的数字音频信号。
在一些实施例中,所述数字音频信号包括Ambisonic文件。
在一些实施例中,检测相对于所述环境的所述麦克风移动包括执行即时定位与地图构建和视觉惯性里程计中的一者或多者。
在一些实施例中,所述传感器包括惯性测量单元、相机、第二麦克风、陀螺仪和激光雷达传感器中的一者或多者。
在一些实施例中,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
在一些实施例中,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
在一些实施例中,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述第二可穿戴头部装置的显示器上显示与所述环境的所述声音相关联的内容。
在一些实施例中,一种***包括:可穿戴头部装置,其包括传感器和扬声器;以及一个或多个处理器,其被配置为执行一种方法,所述方法包括:在所述可穿戴头部装置上接收数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;经由所述可穿戴头部装置的所述传感器,检测相对于所述环境的装置移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的装置移动而调整所述球体的所述位置;以及经由所述可穿戴头部装置的所述扬声器,向所述可穿戴头部装置的用户呈现所述调整的数字音频信号。
在一些实施例中,所述方法还包括:组合第二数字音频信号和第三数字音频信号;以及下混合所述组合的第二数字音频信号和第三数字音频信号,其中,所检索到的第一数字音频信号是所述组合的第二和第三数字音频信号。
在一些实施例中,下混合所述组合的第二和第三数字音频信号包括将第一增益应用于所述第二数字音频信号,并将第二增益应用于所述第二数字音频信号。
在一些实施例中,下混合所述组合的第二和第三数字音频信号包括基于所述可穿戴头部装置与所述第二数字音频信号的录制位置的距离,降低所述第二数字音频信号的Ambisonics阶数(order)。
在一些实施例中,所述传感器是惯性测量单元、相机、第二麦克风、陀螺仪或激光雷达传感器。
在一些实施例中,检测相对于所述环境的所述装置移动包括执行即时定位与地图构建或视觉惯性里程计。
在一些实施例中,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
在一些实施例中,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
在一些实施例中,所述数字音频信号采取Ambisonics格式。
在一些实施例中,所述可穿戴头部装置还包括显示器,并且,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述可穿戴头部装置的所述显示器上显示与所述环境中的所述数字音频信号的声音相关联的内容。
在一些实施例中,一种***包括一个或多个处理器,所述处理器被配置为执行一种方法,所述方法包括:检测环境的声音;从所检测到的声音中提取声音对象;以及组合所述声音对象和残差。所述声音对象包括所检测到的声音的第一部分,所述第一部分符合声音对象标准,并且,所述残差包括所检测到的声音的第二部分,所述第二部分不符合所述声音对象标准。
在一些实施例中,所述方法还包括:检测所述环境的第二声音;确定所检测到的第二声音的一部分是否符合所述声音对象标准,其中:符合所述声音对象标准的所检测到的第二声音的一部分包括第二声音对象,不符合所述声音对象标准的所检测到的第二声音的一部分包括第二残差;从所检测到的第二声音中提取所述第二声音对象;以及合并所述第一声音对象和所述第二声音对象,其中,组合所述声音对象和所述残差包括组合所述合并的声音对象、所述第一残差和所述第二残差。
在一些实施例中,所述声音对象在所述环境中支持六个自由度,并且,所述残差在所述环境中支持三个自由度。
在一些实施例中,所述声音对象具有比所述残差更高的空间分辨率。
在一些实施例中,所述残差被存储在较低阶Ambisonic文件中。
在一些实施例中,一种***包括:可穿戴头部装置,其包括传感器和扬声器;以及一个或多个处理器,其被配置为执行一种方法,所述方法包括:经由所述可穿戴头部装置的所述传感器,检测相对于环境的所述可穿戴头部装置的移动;调整声音对象,其中,所述声音对象与在所述环境中具有第一位置的第一球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第一球体的所述第一位置;调整残差,其中,所述残差与在所述环境中具有第二位置的第二球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第二球体的所述第二位置;混合所述调整的声音对象和所述调整的残差;以及经由所述可穿戴头部装置的所述扬声器,向所述可穿戴头部装置的用户呈现混合的所述调整的声音对象和所述调整的残差。
在一些实施例中,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述装置执行一种方法,所述方法包括:通过第一可穿戴头部装置的麦克风,检测环境的声音;基于所检测到的声音,确定数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;在检测所述声音的同时,经由所述第一可穿戴头部装置的传感器,检测相对于所述环境的麦克风移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动而调整所述球体的所述位置;以及经由第二可穿戴头部装置的一个或多个扬声器,向所述第二可穿戴头部装置的用户呈现所述调整的数字音频信号。
在一些实施例中,所述方法还包括:通过第三可穿戴头部装置的麦克风,检测所述环境的第二声音;基于所检测到的第二声音,确定第二数字音频信号,所述第二数字音频信号与在所述环境中具有第二位置的第二球体相关联;在检测所述第二声音的同时,经由所述第三可穿戴头部装置的传感器,检测相对于所述环境的第二麦克风移动;调整所述第二数字音频信号,其中,所述调整包括基于所述检测到的第二麦克风移动而调整所述第二球体的所述第二位置;组合所述调整的数字音频信号和所述第二调整的数字音频信号;以及经由所述第二可穿戴头部装置的所述一个或多个扬声器,向所述第二可穿戴头部装置的所述用户呈现所述组合的第一调整的数字音频信号和第二调整的数字音频信号。
在一些实施例中,在服务器上组合所述第一调整的数字音频信号和所述第二调整的数字音频信号。
在一些实施例中,所述数字音频信号包括Ambisonic文件。
在一些实施例中,检测相对于所述环境的所述麦克风移动包括执行即时定位与地图构建和视觉惯性里程计中的一者或多者。
在一些实施例中,所述传感器包括惯性测量单元、相机、第二麦克风、陀螺仪和激光雷达传感器中的一者或多者。
在一些实施例中,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
在一些实施例中,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
在一些实施例中,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述第二可穿戴头部装置的显示器上显示与所述环境的所述声音相关联的内容。
在一些实施例中,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述装置执行一种方法,所述方法包括:在可穿戴头部装置上接收数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;经由所述可穿戴头部装置的传感器,检测相对于所述环境的装置移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的装置移动而调整所述球体的所述位置;以及经由所述可穿戴头部装置的一个或多个扬声器向所述可穿戴头部装置的用户呈现所述调整的数字音频信号。
在一些实施例中,所述方法还包括:组合第二数字音频信号和第三数字音频信号;以及下混合所述组合的第二和第三数字音频信号,其中,所检索到的第一数字音频信号是所述组合的第二和第三数字音频信号。
在一些实施例中,下混合所述组合的第二和第三数字音频信号包括将第一增益应用于所述第二数字音频信号,并将第二增益应用于所述第二数字音频信号。
在一些实施例中,下混合所述组合的第二和第三数字音频信号包括基于所述可穿戴头部装置与所述第二数字音频信号的录制位置的距离,降低所述第二数字音频信号的Ambisonic阶数。
在一些实施例中,所述传感器是惯性测量单元、相机、第二麦克风、陀螺仪或激光雷达传感器。
在一些实施例中,检测相对于所述环境的所述装置移动包括执行即时定位与地图构建或视觉惯性里程计。
在一些实施例中,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
在一些实施例中,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
在一些实施例中,所述数字音频信号采取Ambisonics格式。
在一些实施例中,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述可穿戴头部装置的
显示器上显示与所述环境中的所述数字音频信号的声音相关联的内容。
在一些实施例中,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述装置执行一种方法,所述方法包括:检测环境的声音;从所检测到的声音中提取声音对象;以及组合所述声音对象和残差。所述声音对象包括所检测到的声音的第一部分,所述第一部分符合声音对象标准,并且,所述残差包括所检测到的声音的第二部分,所述第二部分不符合所述声音对象标准。
在一些实施例中,所述方法还包括:检测所述环境的第二声音;确定所检测到的第二声音的一部分是否符合所述声音对象标准,其中:符合所述声音对象标准的所检测到的第二声音的一部分包括第二声音对象,不符合所述声音对象标准的所检测到的第二声音的一部分包括第二残差;从所检测到的第二声音中提取所述第二声音对象;以及合并所述第一声音对象和所述第二声音对象,其中,组合所述声音对象和所述残差包括组合所述合并的声音对象、所述第一残差和所述第二残差。
在一些实施例中,所述声音对象在所述环境中支持六个自由度,并且,所述残差在所述环境中支持三个自由度。
在一些实施例中,所述声音对象具有比所述残差更高的空间分辨率。
在一些实施例中,所述残差被存储在较低阶Ambisonic文件中。
在一些实施例中,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述电子装置执行一种方法,所述方法包括:经由可穿戴头部装置的传感器,检测相对于环境的装置移动;调整声音对象,其中,所述声音对象与在所述环境中具有第一位置的第一球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第一球体的所述第一位置;调整残差,其中,所述残差与在所述环境中具有第二位置的第二球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第二球体的所述第二位置;混合所述调整的声音对象和所述调整的残差;以及经由所述可穿戴头部装置的一个或多个扬声器,向所述可穿戴头部装置的用户呈现混合的所述调整的声音对象和所述调整的残差。
附图说明
图1A-1C示出了根据本公开的一些实施例的示例环境。
图2A-2B示出了根据本公开的一些实施例的示例可穿戴***。
图3示出了根据本公开的一些实施例的可以与示例可穿戴***结合使用的示例手持控制器。
图4示出了根据本公开的一些实施例的可以与示例可穿戴***结合使用的示例辅助单元。
图5A-5B示出了根据本公开的一些实施例的示例可穿戴***的示例功能框图。
图6A示出了根据本公开的一些实施例的捕获声场的示例性方法。
图6B示出了根据本公开的一些实施例的播放来自声场的音频的示例性方法。
图7A示出了根据本公开的一些实施例的捕获声场的示例性方法。
图7B示出了根据本公开的一些实施例的播放来自声场的音频的示例性方法。
图8A示出了根据本公开的一些实施例的捕获声场的示例性方法。
图8B示出了根据本公开的一些实施例的播放来自声场的音频的示例性方法。
图9示出了根据本公开的一些实施例的捕获声场的示例性方法。
具体实施方式
在下面对示例的描述时,将参考形成其一部分的附图,其中,以说明的方式示出了可以实践的特定实施例。将理解,也可以使用其他示例,并且在不偏离所公开示例的范围的情况下,可以做出结构方面的修改。
和所有人一样,MR***的用户存在于真实环境中,也就是说,可被用户感知的“真实世界”的三维部分及其所有内容。例如,用户使用普通的人类感官(视觉、声音、触觉、味觉、嗅觉)来感知真实环境,并通过在真实环境中移动自己的身体与真实环境互动。真实环境中的位置可以被描述为坐标空间中的坐标;例如,坐标可以包括相对于海平面的纬度、经度和高程;在三个正交维度上与参考点的距离;或其他合适的值。同样,矢量可以描述在坐标空间中具有方向和幅度的量。
例如,计算设备可以在与该设备相关联的存储器中维护虚拟环境的表示。如本文所用,虚拟环境是三维空间的计算表示。虚拟环境可以包括与该空间相关联的任何对象、动作、信号、参数、坐标、矢量或其他特性的表示。在一些示例中,计算设备的电路(例如,处理器)可以维护和更新虚拟环境的状态;也就是说,处理器可以基于与虚拟环境相关联的数据和/或用户提供的输入,在第一时间t0确定虚拟环境在第二时间t1的状态。例如,如果虚拟环境中的对象在时间t0位于第一坐标处,并且具有某些编程的物理参数(例如,质量、摩擦系数);以及从用户处接收的指示应在方向矢量上向对象施加力的输入;则处理器可以应用运动学定律来使用基本力学确定对象在时间t1的位置。处理器可以使用已知的关于虚拟环境的任何合适的信息和/或任何合适的输入来确定虚拟环境在时间t1的状态。在维护和更新虚拟环境的状态时,处理器可以执行任何合适的软件,包括与在虚拟环境中创建和删除虚拟对象有关的软件;用于定义虚拟环境中的虚拟对象或角色的行为的软件(例如,脚本);用于定义虚拟环境中的信号(例如,音频信号)的行为的软件;用于创建和更新与所述虚拟环境相关联的参数的软件;用于在所述虚拟环境中生成音频信号的软件;用于处理输入和输出的软件;用于实现网络操作的软件;用于应用资产数据(例如,在一段时间内移动虚拟对象的动画数据)的软件;或许多其他可能性。
输出设备,如显示器或扬声器,可以向用户呈现虚拟环境的任何或所有方面。例如,虚拟环境可以包括能够呈现给用户的虚拟对象(可以包括无生命对象、人、动物、光等的表示)。处理器可以确定虚拟环境的视图(例如,对应于具有原点坐标、视图轴和截头体的“相机”);以及向显示器渲染对应于该视图的可视虚拟环境场景。可以使用任何合适的渲染技术来实现此目的。在一些示例中,可视场景可以包括虚拟环境中的一些虚拟对象,并且不包括某些其他虚拟对象。类似地,虚拟环境可以包括作为一个或多个音频信号呈现给用户的音频方面。例如,虚拟环境中的虚拟对象可以生成源自对象位置坐标的声音(例如,虚拟角色可以说话或引起声音效果);或者,虚拟环境可以与音乐提示或环境声音相关联,这些音乐提示或环境声音可能与,也可能不与特定位置相关联。处理器可以确定对应于“侦听者”坐标的音频信号—例如,对应于虚拟环境中声音合成的声音信号,并进行混音和处理,以模拟侦听者在侦听者坐标处听到的音频信号(例如,使用本文所述的方法和***)—并经由一个或多个扬声器将音频信号呈现给用户。
由于虚拟环境作为计算结构存在,因此,用户无法使用普通感官直接感知虚拟环境。相反,用户间接地感知虚拟环境,例如,通过显示器、扬声器、触觉输出设备等呈现给用户的虚拟环境。类似地,用户不能直接触摸、操纵或以其他方式与虚拟环境交互;但是可以经由输入设备或传感器向处理器提供输入数据,处理器可以使用该设备或传感器数据来更新虚拟环境。例如,相机传感器可以提供指示用户正试图在虚拟环境中移动对象的光学数据,并且处理器可以使用该数据来使对象在虚拟环境下相应地做出响应。
MR***例如可以使用透射型显示器和/或一个或多个扬声器(例如,可以集成到可穿戴头部装置中)向用户呈现结合了真实环境和虚拟环境的各方面的MR环境(“MRE”)。在一些实施例中,一个或多个扬声器可以位于可穿戴头部装置的外部。如本文所用,MRE是真实环境和相应虚拟环境的同时表示。在一些示例中,对应的真实环境和虚拟环境共享单个坐标空间;在一些示例中,真实坐标空间和对应的虚拟坐标空间通过变换矩阵(或其他合适的表示)彼此相关。因此,单个坐标(在一些示例中,连同变换矩阵)可以定义真实环境中的第一位置,以及虚拟环境中的第二对应位置;反之亦然。
在MRE中,虚拟对象(例如,在与MRE相关联的虚拟环境中)可以对应于真实对象(例如,在与MRE相关联的真实环境中)。例如,如果MRE的真实环境包括位于位置坐标处的真实灯柱(真实对象),则MRE的虚拟环境可以包括位于对应位置坐标处的虚拟灯柱(虚拟对象)。如本文所用,真实对象与其对应的虚拟对象组合在一起构成“混合现实对象”。虚拟对象不必与对应的真实对象完美匹配或对准。在一些示例中,虚拟对象可以是对应的真实对象的简化版本。例如,如果真实环境包括真实灯柱,则对应的虚拟对象可以包括与真实灯柱的高度和半径大致相同的圆柱体(反映出灯柱的形状可以大致为圆柱形)。以这种方式简化虚拟对象可以提升计算效率,并且可以简化对此类虚拟对象执行的计算。此外,在MRE的一些示例中,并非真实环境中的所有真实对象都可以与对应的虚拟对象相关联。同样,在MRE的一些示例中,并非虚拟环境中的所有虚拟对象都可以与对应的真实对象相关联。也就是说,一些虚拟对象可能仅存在于MRE的虚拟环境中,而没有任何真实世界的对应物。
在某些示例中,虚拟对象可能具有与对应的真实对象不同的特性,有时甚至截然不同。例如,尽管MRE中的真实环境可能包括绿色的双臂仙人掌(一个多刺的无生命对象),但MRE中对应的虚拟对象可能具有绿色的双臂虚拟角色的特征,该虚拟角色具有人类的面部特征和粗暴的举止。在该示例中,虚拟对象在某些特征(臂的颜色、数量)方面类似于其对应的真实对象;但是在其他特征(面部特征、个性)方面与真实对象不同。以这种方式,虚拟对象有可能以创造性、抽象、夸张或幻想的方式表示真实对象;或者将行为(例如,人类个性)赋予其他无生命的真实对象。在一些示例中,虚拟对象可能是纯粹的幻想创造,没有真实世界中的对应物(例如,虚拟环境中的虚拟怪物,可能位于对应于真实环境中的空白空间的位置)。
在某些示例中,虚拟对象可能具有类似于相应真实对象的特征。例如,虚拟角色可以在虚拟或混合现实环境中作为逼真的人物呈现,以向用户提供身临其境的混合现实体验。由于虚拟角色具有逼真的特征,用户可能会觉得他或她正在与真人互动。在这种情况下,希望虚拟角色的肌肉运动和凝视等动作看起来自然。例如,虚拟角色的动作应该与其对应的真实对象相似(例如,虚拟人应该像真实人一样走路或移动手臂)。作为另一示例,虚拟人的姿势和定位应该看起来很自然,并且虚拟人可以与用户进行初始交互(例如,虚拟人可以引导与用户的协作体验)。这里更详细地描述了具有逼真音频响应的虚拟角色或对象的呈现。
与在遮蔽真实环境的同时向用户呈现虚拟环境的VR***相比,呈现MRE的混合现实***提供的优点是,在呈现虚拟环境时,真实环境仍然是可感知的。因此,混合现实***的用户能够使用与真实环境相关联的视觉和音频提示来体验相应的虚拟环境并与之交互。例如,尽管VR***的用户难以感知在虚拟环境中显示的虚拟对象并与之交互(因为如本文所述,用户无法直接感知虚拟环境或与之交互),但MR***的用户可以发现,通过看、听和触摸他或她自己的真实环境中对应的真实对象,可以更直观、自然地与虚拟对象交互。这种互动水平可以增强用户对虚拟环境的沉浸感、连接感和参与感。类似地,通过同时呈现真实环境和虚拟环境,混合现实***可以减少与VR***相关的负面心理感受(例如,认知失调)和负面身体感受(例如,晕动病)。混合现实***进一步为应用提供了许多可以增强或改变我们对真实世界的体验的可能性。
图1A示出了示例性真实环境100,其中,用户110使用混合现实***112。混合现实***112可以包括显示器(例如,透射型显示器)、一个或多个扬声器,以及一个或多个传感器(例如,相机),例如,如本文所述。所示的真实环境100包括矩形房间104A,用户110站在其中;以及对象122A(灯)、124A(桌子)、126A(沙发)和128A(油画)。房间104A可以通过位置坐标(例如,坐标系108)进行空间描述;真实环境100的位置可以相对于位置坐标的原点(例如,点106)进行描述。如图1A所示,以点106为原点(世界坐标)的环境/世界坐标系108(包括x轴108X、y轴108Y和z轴108Z)可以定义真实环境100的坐标空间。在一些实施例中,环境/世界坐标系108的原点106可以对应于混合现实***112通电的位置。在一些实施例中,环境/世界坐标系108的原点106可以在操作期间重置。在一些示例中,用户110可以被视为真实环境100中的真实对象;类似地,用户110的身体部位(例如,手、脚)可以被视为真实环境100中的真实对象。在一些示例中,以点115为原点(例如,用户/侦听者/头部坐标)的用户/侦听者/头部坐标系114(包括x轴114X、y轴114Y和z轴114Z)可以为混合现实***112所处的用户/侦听者/头部定义坐标空间。用户/侦听者/头部坐标系114的原点115可以相对于混合现实***112的一个或多个组件来定义。例如,用户/侦听者/头部坐标系114的原点115可以相对于混合现实***112的显示器来定义,例如在混合现实***的初始校准期间定义。矩阵(可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征用户/侦听者/头部坐标系114空间与环境/世界坐标系108空间之间的变换。在一些实施例中,左耳坐标116和右耳坐标117可以相对于用户/侦听者/头部坐标系114的原点115来定义。矩阵(可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征左耳坐标116和右耳坐标117与用户/侦听者/头部坐标系114空间之间的变换。用户/侦听者/头部坐标系114可以简化相对于用户头部或相对于头戴式装置(例如,相对于环境/世界坐标系108)的位置的表示。使用即时定位与地图构建(SLAM)、视觉里程计(visual odometry)或其他技术,可以实时确定和更新用户坐标系114与环境坐标系108之间的变换。
图1B示出了对应于真实环境100的示例性虚拟环境130。所示的虚拟环境130包括对应于真实矩形房间104A的虚拟矩形房间104B;对应于真实对象122A的虚拟对象122B;对应于真实对象124A的虚拟对象124B;以及对应于真实对象126A的虚拟对象126B。与虚拟对象122B、124B、126B相关联的元数据可以包括从对应的真实对象122A、124A、126A导出的信息。虚拟环境130另外包括虚拟角色132,其不对应于真实环境100中的任何真实对象。真实环境100中的真实对象128A可能不对应于虚拟环境130中的任何虚拟对象。以点134为原点(持久坐标)的持久坐标系133(包括x轴133X、y轴133Y和z轴133Z)可以定义虚拟内容的坐标空间。持久坐标系133的原点134可以相对于/关于诸如真实对象126A之类的一个或多个真实对象来定义。矩阵(可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征持久坐标系133空间与环境/世界坐标系108空间之间的变换。在一些实施例中,虚拟对象122B、124B、126B和132中的每一个可以相对于持久坐标系133的原点134具有它自己的持久坐标点。在一些实施例中,可以存在多个持久坐标系,并且虚拟对象122B、124B、126B和132中的每一个可以相对于一个或多个持久坐标系具有它自己的持久坐标点。
持久坐标数据可以是相对于物理环境持久存在的坐标数据。MR***(例如,MR***112、200)可以使用持久坐标数据来放置持久虚拟内容,该持久虚拟内容可以不与显示虚拟对象的显示器的移动绑定。例如,二维屏幕可以显示相对于屏幕上的位置的虚拟对象。随着二维屏幕的移动,虚拟内容可以随着屏幕移动。在一些实施例中,持久虚拟内容可以显示在房间的角落中。MR用户可以看向角落、看到虚拟内容、将视线从角落移开(其中,虚拟内容不再可见,因为虚拟内容因用户头部的运动而从用户视场内移动到用户视场外的位置),返回看到角落里的虚拟内容(类似于真实对象的行为)。
在一些实施例中,持久坐标数据(例如,持久坐标系和/或持久坐标框架)可以包括原点和三个轴。例如,可以通过MR***将持久坐标系分配给房间的中心。在一些实施例中,用户可以在房间周围移动、离开房间、重新进入房间等,并且,持久坐标系可以保持在房间的中心(例如,因为它相对于物理环境持久)。在一些实施例中,可以使用到持久坐标数据的变换来显示虚拟对象,这可以使得能够显示持久虚拟内容。在一些实施例中,MR***可以使用即时定位与地图构建来生成持久坐标数据(例如,MR***可将持久坐标系分配给空间中的点)。在一些实施例中,MR***可以通过以规则间隔生成持久坐标数据来绘制环境(例如,MR***可在网格中分配持久坐标系,其中持久坐标系可以至少位于另一持久坐标系的五英尺内)。
在一些实施例中,持久坐标数据可以由MR***生成并传输到远程服务器。在一些实施例中,远程服务器可以被构造为接收持久坐标数据。在一些实施例中,远程服务器可以被构造为同步来自多个观测实例的持久坐标数据。例如,多个MR***可以用持久坐标数据绘制同一房间,并将该数据传输到远程服务器。在一些实施例中,远程服务器可以使用该观测数据来生成规范持久坐标数据,该数据可以基于一个或多个观测。在一些实施例中,规范持久坐标数据可以比持久坐标数据的单个观测更准确和/或更可靠。在一些实施例中,规范持久坐标数据可以被传输到一个或多个MR***。例如,MR***可以使用图像识别和/或位置数据来识别其位于具有对应的规范持久坐标数据的房间中(例如,因为其他MR***先前已经绘制了房间)。在一些实施例中,MR***可以从远程服务器接收对应于其位置的规范持久坐标数据。
关于图1A和1B,环境/世界坐标系108为真实环境100和虚拟环境130定义了共享坐标空间。在所示的示例中,坐标空间以点106为原点。此外,坐标空间由相同的三个正交轴(108X、108Y、108Z)定义。因此,可以关于同一坐标空间来描述真实环境100中的第一位置和虚拟环境130中的第二对应位置。这简化了在真实环境和虚拟环境中识别和显示相应位置的过程,因为相同的坐标可用于识别这两个位置。然而,在一些示例中,对应的真实环境和虚拟环境不需要使用共享坐标空间。例如,在一些示例(未示出)中,矩阵(其可以包括平移矩阵和四元数矩阵或其他旋转矩阵)或其他合适的表示可以表征真实环境坐标空间与虚拟环境坐标空间之间的变换。
图1C示出了经由混合现实***112向用户110同时呈现真实环境100和虚拟环境130的各方面的示例性MRE 150。在所示的示例中,MRE 150同时向用户110呈现来自真实环境100的真实对象122A、124A、126A和128A(例如,经由混合现实***112的显示器的透射部分);以及来自虚拟环境130的虚拟对象122B、124B、126B和132(例如,经由混合现实***112的显示器的活动显示部分)。如本文所述,原点106充当对应于MRE 150的坐标空间的原点,并且,坐标系108定义坐标空间的x轴、y轴和z轴。
在所示的示例中,混合现实对象包括占据坐标空间108中的对应位置的相应的真实对象和虚拟对象对(例如,122A/122B、124A/124B、126A/126B)。在一些示例中,真实对象和虚拟对象可以同时对用户110可见。例如,在虚拟对象呈现被设计为增强对应真实对象的视图的信息的情况下(例如,在博物馆应用中,虚拟对象呈现古代受损雕塑的缺失部分),这可能是合乎需要的。在一些示例中,虚拟对象(122B、124B和/或126B)可以被显示(例如,经由使用像素化遮挡快门的主动像素化遮挡),以便遮挡对应的真实对象(122A、124A和/或126)。例如,在虚拟对象充当对应的真实对象的视觉替代品的情况下(例如,在交互式讲故事应用中,无生命的真实对象变成了“有生命”的角色),这可能是合乎需要的。
在一些示例中,真实对象(例如,122A、124A、126A)可以与不一定构成虚拟对象的虚拟内容或辅助数据相关联。虚拟内容或辅助数据可以促进在混合现实环境中对虚拟对象的处理或操作。例如,此类虚拟内容可以包括对应的真实对象的二维表示;与对应的真实对象相关联的自定义资产类型;或者与对应的真实对象相关联的统计数据。该信息可以实现或促进涉及真实对象的计算,而不会产生不必要的计算开销。
在一些示例中,本文所述的呈现还可以包含音频方面。例如,在MRE 150中,虚拟角色132可以与一个或多个音频信号相关联,例如当该角色在MRE 150中到处行走时产生的足迹音效。如本文所述,混合现实***112的处理器可以计算对应于MRE 150中的所有此类声音的混音和处理的合成的音频信号,并且经由包括在混合现实***112中的一个或多个扬声器和/或一个或多个外部扬声器将音频信号呈现给用户110。
示例混合现实***112可以包括可穿戴头部装置(例如,可穿戴增强现实或混合现实头部装置),其包括显示器(其可以包括左和右透射型显示器,其可以是近眼显示器,以及用于将来自显示器的光耦合到用户眼睛的相关组件);左扬声器和右扬声器(例如,分别位于用户的左耳和右耳附近);惯性测量单元(IMU)(例如,安装到头部装置的镜腿上);正交线圈电磁接收器(例如,安装到左镜腿部件上);远离用户取向的左右相机(例如,深度(飞行时间)相机);以及朝向用户取向的左右眼相机(例如,用于检测用户的眼球运动)。然而,混合现实***112可以结合任何合适的显示技术和任何合适的传感器(例如,光学、红外、声学、LIDAR、EOG、GPS、磁性传感器)。此外,混合现实***112可以结合联网特征(例如,Wi-Fi能力、移动网络(例如,4G、5G)能力)来与其他设备和***通信,包括用于处理和训练与MRE150和其他混合现实***中的元素(例如,虚拟角色132)的呈现相关联的数据的神经网络(例如,在云中)。混合现实***112还可以包括电池(其可以安装在辅助单元中,例如设计为穿戴在用户腰部的腰包)、处理器和存储器。混合现实***112的可穿戴头部装置可以包括跟踪组件,例如IMU或其他合适的传感器,其被构造为输出可穿戴头部装置相对于用户环境的一组坐标。在一些示例中,跟踪组件可以向执行即时定位与地图构建(SLAM)和/或视觉里程计算法的处理器提供输入。在一些示例中,混合现实***112还可以包括手持控制器300和/或辅助单元320,其可以是可穿戴的腰包,如本文所述。
在一些实施例中,使用动画装备(rig)在MRE 150中呈现虚拟角色132。尽管关于虚拟角色132描述了动画装备,但是应当理解,动画装备可以与MRE 150中的其他角色(例如,人类角色、动物角色、抽象角色)相关联。
图2A示出了被配置为穿戴在用户头部上的示例可穿戴头部装置200A。可穿戴头部装置200A可以是更广泛的可穿戴***的一部分,该可穿戴***包括一个或多个组件,例如头部装置(例如,可穿戴头部装置200A)、手持控制器(例如,下面描述的手持控制器300)和/或辅助单元(例如,下面描述的辅助单元400)。在一些示例中,可穿戴头部装置200A可用于AR、MR或XR***或应用。可穿戴头装置200A可以包括一个或多个显示器,例如显示器210A和210B(其可以包括左右透射型显示器,以及用于将光从显示器耦合到用户眼睛的相关组件,例如正交光瞳扩展(OPE)光栅组212A/212B和出射光瞳扩展(EPE)光栅组214A/214B);左右声学结构,例如扬声器220A和220B(其可以安装在镜腿222A和222B上,并且分别邻近用户的左耳和右耳定位);一个或多个传感器,例如红外传感器、加速度计、GPS单元、惯性测量单元(IMU,例如IMU 226)、声学传感器(例如,麦克风250);正交线圈电磁接收器(例如,示出为安装到左镜腿222A上的接收器227);远离用户取向的左右相机(例如,深度(飞行时间)相机230A和230B);以及朝向用户取向的左右眼相机(例如,用于检测用户的眼睛运动)(例如,眼睛相机228A和228B)。然而,在不脱离本发明的范围的情况下,可穿戴头部装置200A可以结合任何合适的显示技术以及任何合适的数量、类型的传感器或其他组件或这些传感器或其他组件的组合。在一些示例中,可穿戴头部装置200A可以结合被配置为检测由用户的语音产生的音频信号的一个或多个麦克风250;此类麦克风可以邻近用户的嘴定位和/或位于用户头部的一侧或两侧。在一些示例中,可穿戴头部装置200A可以结合网络特征(例如,Wi-Fi能力)以与包括其他可穿戴***在内的其他设备和***通信。可穿戴头部装置200A还可以包括诸如电池、处理器、存储器、存储单元或各种输入设备(例如,按钮、触摸板)之类的组件;或者可以耦合到包括一个或多个此类组件的手持控制器(例如,手持控制器300)或辅助单元(例如,辅助单元400)。在一些示例中,传感器可以被配置为输出头戴式单元相对于用户环境的一组坐标,并且可以向执行即时定位与地图构建(SLAM)过程和/或视觉里程计算法的处理器提供输入。在一些示例中,可穿戴头部装置200A可以耦合到手持控制器300和/或辅助单元400,如下面进一步描述的。
图2B示出了被配置为穿戴在用户头部上的示例可穿戴头部装置200B(其可以对应于可穿戴头部装置200A)。在一些实施例中,可穿戴头部装置200B可以包括多麦克风配置,包括麦克风250A、250B、250C和250D。除了音频信息之外,多麦克风配置还可以提供关于声源的空间信息。例如,信号处理技术可以用于基于在多麦克风配置处接收到的信号的振幅确定音频源到可穿戴头部装置200B的相对位置。如果麦克风250A接收到的同一音频信号的振幅大于麦克风250B接收到的振幅,则可以确定音频源更靠近麦克风250A而非麦克风250B。可以使用非对称或对称麦克风配置。在一些实施例中,在可穿戴头部装置200B的正面非对称地配置麦克风250A和250B是有利的。例如,麦克风250A和250B的非对称配置可以提供与高度有关的空间信息(例如,从第一麦克风到语音源(例如,用户的嘴、用户的喉咙)的距离和从第二麦克风到语音源的第二距离不同)。这可用于将用户的语音与其他人类语音区分开来。例如,可以针对用户的嘴预期在麦克风250A和麦克风250B处接收到的振幅的比率,以确定音频源来自用户。在一些实施例中,对称配置能够将用户的语音与用户左侧或右侧的其他人类语音区分开来。尽管图2B示出了四个麦克风,但是可以想到,可以使用任何合适数量的麦克风,并且可以以任何合适的(例如,对称或非对称)配置来布置麦克风。
在一些实施例中,所公开的非对称麦克风布置允许***更独立地通过用户的移动(例如,头部旋转)来录制声场(例如,通过允许以声学方式检测到沿环境的所有轴的头部运动,通过允许更容易调整的声场(例如,声场具有沿环境的不同轴的更多信息)来补偿这些运动)。本文描述了这些特征和优点的更多示例。
图3示出了示例可穿戴***的示例移动手持控制器组件300。在一些示例中,手持控制器300可以与下面描述的可穿戴头部装置200A和/或200B和/或辅助单元400进行有线或无线通信。在一些示例中,手持控制器300包括由用户握持的手柄部分320,以及沿着顶面310设置的一个或多个按钮340。在一些示例中,手持控制器300可以被配置为用作光学跟踪目标;例如,可穿戴头部装置200A和/或200B的传感器(例如,相机或其他光学传感器)可以被配置为检测手持控制器300的位置和/或取向,进而指示抓握手持控制器300的用户手的位置和/或取向。在一些示例中,手持控制器300可以包括处理器、存储器、存储单元、显示器或一个或多个输入设备,例如本文所述的。在一些示例中,手持控制器300包括一个或多个传感器(例如,本文中关于可穿戴头部装置200A和/或200B描述的任何传感器或跟踪组件)。在一些示例中,传感器可以检测手持控制器300相对于可穿戴头部装置200A和/或200B或相对于可穿戴***的另一组件的位置或取向。在一些示例中,传感器可以定位在手持控制器300的手柄部分320中,和/或可以机械地耦合到手持控制器。手持控制器300可以被配置为提供一个或多个输出信号,例如对应于按钮340的按下状态;或者手持控制器300的位置、取向和/或运动(例如,经由IMU)。此类输出信号可用作可穿戴头部装置200A和/或200B的处理器、辅助单元400或可穿戴***的另一组件的输入。在一些示例中,手持控制器300可以包括一个或多个麦克风以检测声音(例如,用户的语音、环境声音),并且在一些情况下,向处理器(例如,可穿戴头部装置200A和/或200B的处理器)提供对应于检测到的声音的信号。
图4示出了示例可穿戴***的示例辅助单元400。在一些示例中,辅助单元400可以与可穿戴头部装置200A和/或200B和/或手持控制器300进行有线或无线通信。辅助单元400可以包括电池,以主要地或补充地提供能量来操作可穿戴***的一个或多个组件,例如可穿戴头部装置200A和/或200B和/或手持控制器300(包括显示器、传感器、声学结构、处理器、麦克风和/或可穿戴头部装置200A和/或200B或手持控制器300的其他组件)。在一些示例中,辅助单元400可以包括处理器、存储器、存储单元、显示器、一个或多个输入设备和/或一个或多个传感器,例如本文所述的。在一些示例中,辅助单元400包括夹子410,用于将辅助单元附接到用户(例如,将辅助单元附接到用户穿戴的腰带上)。使用辅助单元400来容纳可穿戴***的一个或多个组件的优点在于,这样做可以允许将更大或更重的组件放在用户的腰部、胸部或背部上(这些部位相对而言非常适合支撑更大和更重的物体),而不是安装到用户头部(例如,如果被容纳在可穿戴头部装置200A和/或200B中)或戴在用户手上(例如,被容纳在手持控制器300中)。这对于相对较重或体积较大的组件(例如,电池)而言特别有利。
图5A示出了可以对应于示例可穿戴***501A的示例功能框图;此类***可以包括本文所述的示例可穿戴头部装置200A和/或200B、手持控制器300以及辅助单元400。在一些示例中,可穿戴***501A可用于AR、MR或XR应用。如图5所示,可穿戴***501A可以包括示例手持控制器500B,这里称为“图腾”(其可以对应于手持控制器300);手持控制器500B可以包括图腾到头戴装置六自由度(6DOF)图腾子***504A。可穿戴***501A还可以包括示例头戴装置500A(其可以对应于可穿戴头部装置200A和/或200B);头戴装置500A包括图腾到头戴装置6DOF头戴装置子***504B。在该示例中,6DOF图腾子***504A和6DOF头戴装置子***504B协作以确定手持控制器500B相对于头戴装置500A的六个坐标(例如,在三个平移方向上的偏移和沿着三个轴的旋转)。这六个自由度可以相对于头戴装置500A的坐标系来表示。这三个平移偏移可以在此类坐标系中表示为X、Y和Z偏移,表示为平移矩阵,或者表示为某种其他表示。旋转自由度可以表示为一系列偏航、俯仰和滚转旋转;表示为矢量;表示为旋转矩阵;表示为四元数;或表示为某种其他表示。在一些示例中,包括在头戴装置500A中的一个或多个深度相机544(和/或一个或多个非深度相机);和/或一个或多个光学目标(例如,如上所述的手持控制器300的按钮340,包括在手持控制器中的专用光学目标)可用于6DOF跟踪。在一些示例中,手持控制器500B可以包括相机,如上所述;并且,头戴装置500A可以包括用于结合相机进行光学跟踪的光学目标。在一些示例中,头戴装置500A和手持控制器500B分别包括一组三个正交取向的螺线管,其用于无线地发送和接收三个可区分的信号。通过测量在用于接收的每个线圈中接收的三个可区分信号的相对幅度,可以确定手持控制器500B相对于头戴装置500A的6DOF。在一些示例中,6DOF图腾子***504A可以包括惯性测量单元(IMU),其用于提供关于手持控制器500B的快速移动的改进的精度和/或更及时的信息。
图5B示出了可以对应于示例可穿戴***501B(其可以对应于示例可穿戴***501)的示例功能框图。在一些实施例中,可穿戴***501B可以包括麦克风阵列507,其可以包括布置在头戴装置500A上的一个或多个麦克风。在一些实施例中,麦克风阵列507可以包括四个麦克风。两个麦克风可以放置在头戴装置500A的前面,两个麦克风可以放置在头戴装置500A的后面(例如,一个放在左后,一个放在右后),例如关于图2B所述的配置。麦克风阵列507可以包括任何合适数量的麦克风,并且可以包括单个麦克风。在一些实施例中,由麦克风阵列507接收的信号可以被发送到DSP 508。DSP 508可以被配置为对从麦克风阵列507接收的信号执行信号处理。例如,DSP 508可以被配置为对从麦克风阵列507接收的信号执行降噪、回声消除和/或波束成形。DSP 508可以被配置为将信号发送到处理器516。在一些实施例中,***501B可以包括多个信号处理级,每个信号处理级可以与一个或多个麦克风相关联。在一些实施例中,多个信号处理级分别与用于波束成形的两个或更多个麦克风的组合中的麦克风相关联。在一些实施例中,多个信号处理级分别与降噪或回声消除算法相关联,这些算法用来预处理用于语音开始检测、关键短语检测或端点检测的信号。
在涉及增强现实或混合现实应用的一些示例中,需要将坐标从局部坐标空间(例如,相对于头戴装置500A固定的坐标空间)变换为惯性坐标空间或环境坐标空间。例如,这种变换对于头戴装置500A的显示器来说是必要的,以在相对于真实环境的预期位置和取向处呈现虚拟对象(例如,坐在真实椅子上,面朝前的虚拟人,不考虑头戴装置500A的位置和取向),而不是在显示器上的固定位置和取向处(例如,在头戴装置500A的显示器中的相同位置处)呈现虚拟对象。这可以保持虚拟对象存在于真实环境中的错觉(并且例如,不会随着头戴装置500A的移动和旋转而在真实环境中看起来不自然地定位)。在一些示例中,可以通过处理来自深度相机544的图像(例如,使用即时定位与地图构建(SLAM)和/或视觉里程计程序)来确定坐标空间之间的补偿变换,以便确定头戴装置500A相对于惯性或环境坐标系的变换。在图5所示的示例中,深度相机544可以耦合到SLAM/视觉里程计框506,并且可以向框506提供图像。SLAM/视觉里程计框506的实现可以包括处理器,该处理器被配置为处理该图像并确定用户头部的位置和取向,然后该位置和取向可用于识别头部坐标空间和真实坐标空间之间的变换。类似地,在一些示例中,从头戴装置500A的IMU 509获得关于用户的头部姿势和位置的附加信息源。来自IMU 509的信息可以与来自SLAM/视觉里程计框506的信息集成,以提供关于用户的头部姿势和位置的快速调整的改进的准确性和/或更及时的信息。
在一些示例中,深度相机544可以向手势***511提供3D图像,手势***511可以在头戴装置500A的处理器中实现。手势***511可以识别用户的手势,例如通过将从深度相机544接收的3D图像与表示手势的已存储模式进行匹配。识别用户手势的其他合适的技术将是显而易见的。
在一些示例中,一个或多个处理器516可以被配置为从头戴装置子***504B、IMU509、SLAM/视觉里程计框506、深度相机544、麦克风550接收数据;和/或手势***511接收数据。处理器516还可以发送和接收来自6DOF图腾***504A的控制信号。处理器516可以无线地耦合到6DOF图腾***504A,例如在未系有手持控制器500B的示例中。处理器516还可以与附加组件通信,例如视听内容存储器518、图形处理单元(GPU)520和/或数字信号处理器(DSP)音频空间化器522。DSP音频空间化器522可以耦合到头部相关传递函数(HRTF)存储器525。GPU 520可以包括耦合到左图像调制光源524的左通道输出和耦合到右图像调制光源526的右通道输出。GPU 520可以将立体图像数据输出到图像调制光源524、526。DSP音频空间化器522可以向左扬声器512和/或右扬声器514输出音频。DSP音频空间化器522可以从处理器519接收指示从用户到虚拟声源(其可以由用户例如经由手持控制器500B移动)的方向矢量的输入。基于方向矢量,DSP音频空间化器522可以确定对应的HRTF(例如,通过访问HRTF,或者通过内插多个HRTF)。DSP音频空间化器522然后可以将所确定的HRTF应用于音频信号,例如对应于由虚拟对象产生的虚拟声音的音频信号。这可以通过在混合现实环境中结合用户相对于虚拟声音的相对位置和取向来增强虚拟声音的可信度和真实性,也就是说,通过呈现与用户对虚拟声音听起来像真实环境中的真实声音的期望相匹配的虚拟声音。
在一些示例中,诸如图5所示,处理器516、GPU 520、DSP音频空间化器522、HRTF存储器525和视听内容存储器518中的一个或多个可以包括在辅助单元500C(其可以对应于辅助单元400)中。辅助单元500C可以包括电池527以向其组件供电和/或向头戴装置500A和/或手持控制器500B供电。在可安装到用户腰部的辅助单元中包括此类组件可以限制或减小头戴装置500A的尺寸和重量,这又可以减少用户头部和颈部的疲劳。在一些实施例中,辅助单元是蜂窝电话、平板计算机或辅助计算设备。
虽然图5A和5B呈现了对应于示例可穿戴***501A和501B的各种组件的元件,但这些组件的各种其他适当布置对本领域技术人员来说将是显而易见的。例如,图5A或图5B中所示的头戴装置500A可以包括处理器和/或电池(未示出)。所包括的处理器和/或电池可以与辅助单元500C的处理器和/或电池一起操作或代替辅助单元500C的处理器和/或电池操作。通常,作为另一示例,与辅助单元500C相关联的关于图5所呈现的元件或所描述的功能可以替代地与头戴装置500A或手持控制器500B相关联。此外,一些可穿戴***可以完全放弃手持控制器500B或辅助单元500C。这些改变和修改应被理解为包括在所公开的示例的范围内。
图6A示出了根据本公开的一些实施例的捕获声场的示例性方法600。尽管方法600被示出为包括所描述的步骤,但是应当理解,在不脱离本公开的范围的情况下,可以包括不同顺序的步骤、附加步骤或更少的步骤。例如,方法600的步骤可以与其他公开方法的步骤一起执行。
在一些实施例中,方法600的计算、确定、运算或推导步骤使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP522)和/或使用服务器(例如,在云中)来执行。
在一些实施例中,方法600包括检测声音(步骤602)。例如,声音由可穿戴头部装置或AR/MR/XR***的麦克风(例如,麦克风250;麦克风250A、250B、250C和250D;手持控制器300的麦克风;麦克风阵列507)检测。在一些实施例中,声音包括来自可穿戴头部装置或AR/MR/XR***的环境(AR、MR或XR环境)的声场或3D音频场景的声音。
在一些示例中,当麦克风检测到声音时,麦克风不是静止的。例如,包括麦克风的装置的用户不是静止的,因此,声音似乎不在固定地点和位置录制。在一些情况下,用户穿戴包括麦克风的可穿戴头部装置,并且由于有意和/或无意的头部移动,用户头部不是静止的(例如,用户的头部姿势或头部取向随时间变化)。通过如本文所述处理检测到的声音,可以针对这些移动补偿对应于所检测到的声音的录音,就好像声音由固定麦克风检测到的一样。
在一些实施例中,方法600包括基于所检测到的声音确定数字音频信号(步骤604)。在一些实施例中,数字音频信号与在环境(例如,AR、MR或XR环境)中具有位置(例如,位置、取向)的球体相关联。如本文所用,应当理解,“球体(sphere)”和“球形(spherical)”并不意味着将音频信号、信号表示或声音限制为严格的球形图案或几何形状。如本文所用,“球体”或“球形”可指包括跨越环境的三个维度以上的组件的图案或几何形状。
例如,导出所检测到的声音的球形信号表示。在一些实施例中,球形信号表示表示相对于空间中的点的声场(例如,录音装置位置处的声场)。例如,在步骤602,基于麦克风检测到的声音导出3D球形信号表示。在一些实施例中,响应于接收到与检测到的声音相对应的信号,使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP 522)来确定3D球形信号表示。
在一些实施例中,数字音频信号(例如,球形信号表示)采取Ambisonics或球形谐波格式。Ambisonics格式有利地允许球形信号表示被有效地编辑用于头部姿势补偿(例如,可以容易地平移与Ambisonics表示相关联的取向以补偿声音检测期间的移动)。
在一些实施例中,方法600包括检测麦克风移动(步骤606)。在一些实施例中,方法600包括在检测声音(例如,步骤602)的同时,经由可穿戴头部装置的传感器检测相对于环境的麦克风移动。
在一些实施例中,在声音检测(例如,步骤602)期间确定录音装置(例如,MR***112、可穿戴头部装置200A、可穿戴头部装置200B、手持控制器300、可穿戴***501A、可穿戴***501B)的移动(例如,改变头部姿势)。例如,移动由装置的传感器(例如,IMU(例如IMU509)、相机(例如,相机228A、228B;相机544)、第二麦克风、陀螺仪、激光雷达传感器或其他合适的传感器)和/或通过使用AR/MR/XR定位技术(例如,即时定位与地图构建(SLAM)和/或视觉惯性里程计(VIO))来确定。所确定的移动例如可以是三自由度(3DOF)移动或六自由度(6DOF)移动。
在一些实施例中,方法600包括调整数字音频信号(步骤608)。在一些实施例中,调整包括基于所检测到的麦克风移动(例如,幅度、方向)调整球体的位置(例如,位置、取向)。例如,在导出3D球形信号表示(例如,步骤604)之后,通过调整来补偿用户的头部姿势。在一些实施例中,基于所检测到的移动导出头部姿势补偿函数。例如,该函数可以表示与检测到的移动相反的平移和/或旋转。例如,在声音检测时,确定绕Z轴2度的头部姿势旋转(例如,通过本文所述的方法)。为了补偿这种移动,头部姿势补偿函数包括绕Z轴平移-2度,以抵消声音检测时移动对录音的影响。在一些实施例中,通过对声音检测期间检测到的移动的表示应用逆变换来确定头部姿势补偿函数。
在一些实施例中,移动由空间中的矩阵或矢量表示,该矩阵或矢量可用于确定产生固定取向录音所需的补偿量。例如,该函数可以包括移动矢量的相反方向上的矢量(作为声音检测时间的函数),以表示用于抵消声音检测期间移动对录音的影响的平移。
在一些实施例中,方法600包括产生固定取向录音。固定取向录音可以是调整的数字音频信号(例如,被配置为呈现给侦听者的补偿数字音频信号)。例如,基于头部姿势补偿(例如,步骤608),产生固定取向录音。在一些实施例中,固定取向录音不受录音期间(例如,步骤602)用户的头部取向和/或移动的影响。在一些实施例中,固定取向录音包括录音装置在AR/MR/XR环境中的地点和/或位置信息,并且该地点和/或位置信息指示录制的声音内容在AR/MR/XR环境中的位置和取向。
在一些实施例中,数字音频信号(例如,球形信号表示)采取Ambisonics格式,并且,Ambisonics格式有利地允许***有效地更新球形信号表示的坐标以进行头部姿势补偿(例如,可以容易地平移与Ambisonics表示相关联的取向以补偿声音检测期间的移动)。在确定录音装置的移动(例如,使用本文所述的方法)之后,如本文所述,导出头部姿势补偿函数。基于导出的函数,可以更新Ambisonics信号表示以补偿装置移动,从而产生固定取向录音(例如,调整的数字音频信号)。
例如,在声音检测时,确定绕Z轴2度的头部姿势旋转(例如,通过本文所述的方法)。为了补偿这种移动,头部姿势补偿函数包括绕Z轴平移-2度,以抵消声音检测时移动对声音录制的影响。该函数在相应的时间(例如,声音捕获期间该移动的时间)应用于Ambisonics球形信号表示,以绕Z轴平移-2度来平移信号表示,并且产生该时间的固定取向录音。在将该函数应用于球形信号表示之后,产生不受录音期间用户的头部取向和/或移动影响的固定取向录音(例如,声音检测期间2度移动的影响不会被侦听固定取向录音的用户注意到)。
在一些情况下,包括麦克风的装置的用户不是静止的,因此,声音似乎不在固定地点和位置录制。例如,用户穿戴包括麦克风的可穿戴头部装置,并且由于有意和/或无意的头部移动,用户头部不是静止的(例如,用户的头部姿势或头部取向随时间变化)。如本文所述,通过补偿头部姿势并产生固定取向录音,可以针对这些移动补偿对应于所检测到的声音的录音,就好像声音由固定麦克风检测到的一样。
在一些实施例中,方法600有利地使得能够产生围绕用户(例如,可穿戴头部装置的用户)的3D音频场景的录音,并且,该录音不受用户头部取向的影响。不受用户头部取向影响的录音允许更准确地再现AR/MR/XR环境的音频,如本文中更详细地描述的。
图6B示出了根据本公开的一些实施例的播放来自声场的音频的示例性方法650。尽管方法650被示出为包括所描述的步骤,但是应当理解,在不脱离本公开的范围的情况下,可以包括不同顺序的步骤、附加步骤或更少的步骤。例如,方法650的步骤可以与其他公开方法的步骤一起执行。
在一些实施例中,方法650的计算、确定、运算或推导步骤使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP522)和/或使用服务器(例如,在云中)来执行。
在一些实施例中,方法650包括接收数字音频信号(步骤652)。在一些实施例中,方法650包括在可穿戴头部装置上接收数字音频信号。数字音频信号与在环境(例如,AR、MR或XR环境)中具有位置(例如,地点、取向)的球体相关联。例如,固定取向录音(例如,调整的数字音频信号)由AR/MR/XR设备(例如,MR***112、可穿戴头部装置200A、可穿戴头部装置200B、手持控制器300、可穿戴***501A、可穿戴***501B)检索。在一些实施例中,录音包括使用本文所述的方法检测和处理的来自可穿戴头部装置或AR/MR/XR***的AR/MR/XR环境的声场或3D音频场景的声音。在一些实施例中,录音是固定取向录音(如本文所述)。固定取向录音可以呈现给侦听者,就好像录制的声音由固定麦克风检测到的一样。在一些实施例中,固定取向录音包括录音装置在AR/MR/XR环境中的地点和/或位置信息,并且该地点和/或位置信息指示录制的声音内容在AR/MR/XR环境中的位置和取向。
在一些实施例中,录音包括来自AR/MR/XR环境的声场或3D音频场景的声音(例如,AR/MR/XR内容的音频)。在一些实施例中,录音包括来自AR/MR/XR环境的固定声源(例如,来自AR/MR/XR环境的固定对象)的声音。
在一些实施例中,录音包括球形信号表示(例如,Ambisonics格式)。在一些实施例中,录音被转换为球形信号表示(例如,Ambisonics格式)。可以有利地更新球形信号表示,以补偿录音的音频回放期间的用户头部姿势。
在一些实施例中,方法650包括检测装置移动(步骤654)。在一些实施例中,方法650包括经由可穿戴头部装置的传感器而检测相对于环境的装置移动。例如,在一些实施例中,在用户侦听音频的同时确定录音装置(例如,MR***112、可穿戴头部装置200A、可穿戴头部装置200B、手持控制器300、可穿戴***501A、可穿戴***501B)的移动(例如,改变头部姿势)。例如,移动由装置的传感器(例如,IMU(例如IMU 509)、相机(例如,相机228A、228B;相机544)、第二麦克风、陀螺仪、激光雷达传感器或其他合适的传感器)和/或通过使用AR/MR/XR定位技术(例如即时定位与地图构建(SLAM)和/或视觉惯性里程计(VIO))来确定。所确定的移动例如可以是三自由度(3DOF)移动或六自由度(6DOF)移动。
在一些实施例中,方法650包括调整数字音频信号(步骤656)。在一些实施例中,调整包括基于所检测到的装置移动(例如,幅度、方向)调整球体的位置。
在一些实施例中,基于所检测到的移动导出头部姿势补偿函数。例如,该函数可以表示与检测到的移动相反的平移和/或旋转。例如,在声音检测时,确定绕Z轴2度的头部姿势旋转(例如,通过本文所述的方法)。为了补偿这种移动,头部姿势补偿函数包括绕Z轴平移-2度,以抵消声音检测时移动对录音的影响。在一些实施例中,通过对声音检测期间检测到的移动的表示应用逆变换来确定头部姿势补偿函数。
在一些实施例中,移动由空间中的矩阵或矢量表示,该矩阵或矢量可用于确定产生固定取向录音所需的补偿量。例如,该函数可以包括移动矢量的相反方向上的矢量(作为声音检测时间的函数),以表示用于抵消声音检测期间移动对录音的影响的平移。
在一些实施例中,头部姿势补偿函数应用于录音或录音的球形信号表示(例如,数字音频信号),以补偿头部姿势。在一些实施例中,球形信号表示采取Ambisonics格式,并且,Ambisonics格式有利地允许***有效地更新球形信号表示的坐标以用于头部姿势补偿(例如,可以容易地平移与Ambisonics表示相关联的取向以补偿回放期间的移动)。在确定回放装置的移动之后(例如,使用本文所述的方法),如本文所述,导出头部姿势补偿函数。基于导出的函数,可以更新Ambisonics信号表示以补偿装置移动。
例如,在回放期间,确定绕Z轴2度的头部姿势旋转(例如,通过本文所述的方法)。为了补偿这种移动,头部姿势补偿函数包括绕Z轴平移-2度,以抵消回放时移动的影响。该函数在相应的时间(例如,回放期间该移动的时间)应用于Ambisonics球形信号表示,以绕Z轴平移-2度来平移信号表示。在将函数应用于球形信号表示之后,可以产生第二球形信号表示(例如,回放期间2度移动的效果不影响固定声源位置)。
在一些实施例中,方法650包括呈现调整的数字音频信号(步骤658)。在一些实施例中,方法650包括经由可穿戴头部装置的一个或多个扬声器向可穿戴头部装置的用户呈现调整的数字音频信号。例如,在补偿用户头部姿势(例如,使用步骤654)之后,补偿的球形信号表示转换为双耳信号(例如,调整的数字音频信号)。在一些实施例中,双耳信号对应于向用户输出的音频,并且使用本文所述的方法,音频输出补偿用户的移动。应当理解,双耳信号仅仅是该转换的示例。在一些实施例中,更一般地,补偿的球形信号表示转换为与一个或多个扬声器输出的音频输出相对应的音频信号。在一些实施例中,转换由可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP 522)来执行。
可穿戴头部装置或AR/MR/XR***可以播放与转换后的双耳信号或音频信号(例如,调整的数字音频信号)相对应的音频输出。在一些实施例中,针对装置的移动补偿音频。也就是说,音频回放似乎源自AR/MR/XR环境的固定声源。例如,AR/MR/XR环境中的用户将他或她的头旋转到远离固定声源(例如,虚拟扬声器)的右侧。在头部旋转之后,用户的左耳更靠近固定声源。在执行所公开的补偿之后,从固定声源到用户左耳的音频将更大。
在一些实施例中,方法650有利地允许3D声场表示在被解码为用于回放的双耳表示之前,在回放时基于侦听者的头部移动来旋转。音频回放将似乎源自AR/MR/XR环境的固定声源,为用户提供更逼真的AR/MR/XR体验(例如,当用户相对于相应的固定对象移动(例如,改变头部姿势)时,固定的AR/MR/XR对象似乎在听觉上固定)。
在一些实施例中,方法600可以使用一个以上装置或***来执行。也就是说,一个以上装置或***可以捕获声场或音频场景,并且可以补偿装置或***的移动对声场或音频场景捕获的影响。
图7A示出了根据本公开的一些实施例的捕获声场的示例性方法700。尽管方法700被示出为包括所描述的步骤,但是应当理解,在不脱离本公开的范围的情况下,可以包括不同顺序的步骤、附加步骤或更少的步骤。例如,方法700的步骤可以与其他公开方法的步骤一起执行。
在一些实施例中,方法700的计算、确定、运算或推导步骤使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP522)和/或使用服务器(例如,在云中)来执行。
在一些实施例中,方法700包括检测第一声音(步骤702A)。例如,声音由第一可穿戴头部装置或第一AR/MR/XR***的麦克风(例如,麦克风250;麦克风250A、250B、250C和250D;手持控制器300的麦克风;麦克风阵列507)检测。在一些实施例中,声音包括来自第一可穿戴头部装置或第一AR/MR/XR***的AR/MR/XR环境的声场或3D音频场景的声音。
在一些实施例中,方法700包括基于所检测到的第一声音确定第一数字音频信号(步骤704A)。在一些实施例中,第一数字音频信号与在环境(例如,AR、MR或XR环境)中具有第一位置(例如,地点、取向)的第一球体相关联。
例如,导出所检测到的第一声音的第一球形信号表示。在一些实施例中,球形信号表示表示相对于空间中的点的声场(例如,第一录音装置位置处的声场)。例如,基于麦克风在步骤702A检测到的声音导出3D球形信号表示。在一些实施例中,响应于接收到对应于所检测到的声音的信号,使用第一可穿戴头部装置或第一AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP 522)来确定3D球形信号表示。在一些实施例中,球形信号表示采取Ambisonics或球形谐波格式。
在一些实施例中,方法700包括检测第一麦克风移动(步骤706A)。在一些实施例中,方法700包括在检测第一声音的同时,经由第一可穿戴头部装置的传感器,检测相对于环境的第一麦克风移动。在一些实施例中,在声音检测期间(例如,从步骤702A)确定第一录音装置(例如,MR***112、可穿戴头部装置200A、可穿戴头部装置200B、手持控制器300、可穿戴***501A、可穿戴***501B)的移动(例如,改变头部姿势)。例如,移动被由第一装置的传感器(例如,IMU(例如IMU 509)、相机(例如,相机228A、228B;相机544)、第二麦克风、陀螺仪、激光雷达传感器或其他合适的传感器)和/或通过使用AR/MR/XR定位技术(例如,即时定位与地图构建(SLAM)和/或视觉惯性里程计(VIO))来确定。所确定的移动例如可以是三自由度(3DOF)移动或六自由度(6DOF)移动。
在一些实施例中,方法700包括调整第一数字音频信号(步骤708A)。在一些实施例中,调整包括基于所检测到的第一麦克风移动(例如,幅度、方向)来调整第一球体的第一位置(例如,地点、取向)。例如,在导出第一3D球形信号表示(例如,从步骤704A)之后,利用该调整来补偿第一用户的头部姿势。在一些实施例中,基于所检测到的移动导出用于第一头部姿势补偿的第一函数。例如,第一函数可以表示与检测到的移动相反的平移和/或旋转。例如,在声音检测时,确定绕Z轴2度的第一头部姿势旋转(例如,通过本文所述的方法)。为了补偿这种移动,用于第一头部姿势补偿的第一函数包括绕Z轴平移-2度,以抵消此声音检测时移动对录音的影响。在一些实施例中,通过对声音检测期间检测到的移动的表示应用逆变换来确定用于第一头部姿势补偿的第一函数。
在一些实施例中,移动由空间中的矩阵或矢量表示,该矩阵或矢量可用于确定产生固定取向录音所需的补偿量。例如,该第一函数可以包括移动矢量的相反方向上的矢量(作为声音检测时间的函数),以表示用于抵消声音检测期间移动对第一录音的影响的平移。
在一些实施例中,方法700包括产生第一固定取向录音。第一固定取向录音可以是调整的第一数字音频信号(例如,被配置为呈现给侦听者的补偿的数字音频信号)。例如,基于第一头部姿势补偿(例如,步骤708A),产生第一固定取向录音。在一些实施例中,第一固定取向录音不受录音期间(例如,从步骤702A)第一用户的头部取向和/或移动的影响。在一些实施例中,第一固定取向录音包括第一录音装置在AR/MR/XR环境中的地点和/或位置信息,并且该地点和/或位置信息指示第一录音内容在AR/MR/XR环境中的位置和取向。
在一些实施例中,第一数字音频信号(例如,球形信号表示)采取Ambisonics格式。在确定第一录音装置的移动之后(例如,使用本文所述的方法),如本文所述,导出第一头部姿势补偿函数。基于导出的第一函数,可以更新Ambisonics信号表示以补偿第一装置移动,从而产生第一固定取向录音。
例如,在声音检测时,确定绕Z轴2度的第一头部姿势旋转(例如,通过本文所述的方法)。为了补偿这种移动,用于第一头部姿势补偿的第一函数包括绕Z轴平移-2度,以抵消在声音检测时移动对录音的影响。该第一函数在相应的时间(例如,声音捕获期间该移动的时间)应用于Ambisonics球形信号表示,以绕Z轴平移-2度来平移信号表示,并且产生该时间的第一固定取向录音。在将该第一函数应用于第一球形信号表示之后,产生不受录音期间第一用户的头部取向和/或移动影响的第一固定取向录音(例如,声音检测期间2度移动的影响不会被侦听固定取向录音的用户所注意到)。
在一些情况下,包括麦克风的第一装置的第一用户不是静止的,因此,第一声音似乎不在第一固定地点和位置录制。例如,第一用户穿戴包括麦克风的第一可穿戴头部装置,并且由于有意和/或无意的头部移动,第一用户头部不是静止的(例如,用户的头部姿势或头部取向随时间变化)。如本文所述,通过补偿第一头部姿势并产生第一固定取向录音,可以针对这些移动补偿对应于所检测到的声音的第一录音,就好像声音由不动的麦克风检测到的一样。
在一些实施例中,方法700包括检测第二声音(步骤702B)。例如,声音由第二可穿戴头部装置或第二AR/MR/XR***的麦克风(例如,麦克风250;麦克风250A、250B、250C和250D;手持控制器300的麦克风;麦克风阵列507)检测。在一些实施例中,声音包括来自第二可穿戴头部装置或第二AR/MR/XR***的AR/MR/XR环境的声场或3D音频场景的声音。在一些实施例中,第二装置或***的AR/MR/XR环境是与关于步骤702A-708A所述的第一装置或***相同的环境。
在一些实施例中,方法700包括基于所检测到的第二声音确定第二数字音频信号(步骤704B)。在一些实施例中,第二数字音频信号与在环境(例如,AR、MR或XR环境)中具有第二位置(例如,地点、取向)的第二球体相关联。例如,对应于第二声音的第二球形信号表示的导出与关于步骤704A所述的第一球形信号表示类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法700包括检测第二麦克风移动(步骤706B)。例如,第二麦克风移动的检测与关于步骤706A所述的第一麦克风移动的检测类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法700包括调整第二数字音频信号(步骤708B)。例如,第二头部姿势的补偿(例如,使用用于第二头部姿势的第二函数)与关于步骤708A所述的第一步头部姿势的补偿类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法700包括产生第二固定取向录音。例如,第二固定取向录音的产生(例如,通过将第二函数应用于第二球形信号表示)与关于步骤708A所述的第一固定取向录音的产生类似。为了简短起见,这里不再对此进行描述。
在将该第二函数应用于第二球形信号表示之后,产生不受录音期间第二用户的头部取向和/或移动影响的第二固定取向录音(例如,声音检测期间移动的影响不会被侦听第二固定取向录音的用户所注意到)。
在一些情况下,包括麦克风的第二装置的第二用户不是静止的,因此,第二声音似乎不在第二固定地点和位置录制。例如,第二用户穿戴包括麦克风的第二可穿戴头部装置,并且由于有意和/或无意的头部移动,第二用户头部不是静止的(例如,用户的头部姿势或头部取向随时间变化)。如本文所述,通过补偿第二头部姿势并产生第二固定取向录音,可以针对这些移动补偿对应于所检测到的声音的第二录音,就好像声音由静止的麦克风检测到的一样。
在一些实施例中,步骤702A-708A与步骤702B-708B同时执行(例如,第一装置或***和第二装置或***同时录制声场或3D音频场景)。例如,第一装置或***的第一用户和第二装置或***的第二用户同时录制AR/MR/XR环境中的声场或3D音频场景。在一些实施例中,步骤702A-708A与步骤702B-708B的执行时间不同(例如,第一装置或***和第二装置或***在不同的时间录制声场或3D音频场景)。例如,第一装置或***的第一用户和第二装置或***的第二用户在不同的时间录制AR/MR/XR环境中的声场或3D音频场景。
在一些实施例中,方法700包括组合调整的数字音频信号和第二调整的数字音频信号(步骤710)。例如,组合第一固定取向录音和第二固定取向录音。组合的第一调整的数字音频信号和第二调整的数字音频信号可以被呈现给侦听者(例如,响应于回放请求)。在一些实施例中,组合的固定取向录音包括第一和第二录音装置在AR/MR/XR环境中的地点和/或位置信息,并且该地点和/或位置信息指示第一和第二录制的声音内容在AR/MR/XR环境中的相应位置和取向。
在一些实施例中,录音在与第一装置或***和第二装置或***通信的服务器(例如,在云中)上组合(例如,装置或***将相应的声音对象发送到服务器以做进一步处理和存储)。在一些实施例中,录音在主装置(例如,第一或第二可穿戴头部装置或AR/MR/XR***)上组合。
在一些实施例中,组合第一和第二固定取向录音产生对应于第一和第二录音装置或***的环境(例如,需要一个以上装置进行声音检测的较大AR/MR/XR环境;第一和第二固定取向录音包括来自AR/MR/XR环境不同部分的声音)的组合声场或3D音频场景的组合固定取向录音。在一些实施例中,第一固定取向录音是AR/MR/XR环境的较早录音,而第二固定取向录音则是AR/MR/XR环境的较晚录音。组合第一和第二固定取向录音允许在实现本文所述优点的同时,利用新的固定取向录音更新AR/MR/XR环境的声场或3D音频场景。
在一些实施例中,方法700有利地使得能够产生围绕一个以上用户(例如,一个以上可穿戴头部装置)的3D音频场景的录音,并且,组合的录音不受用户头部取向的影响。不受用户头部取向影响的录音允许更准确地再现AR/MR/XR环境的音频,如本文中更详细地描述的。
在一些实施例中,如关于方法700所述,使用来自多个装置的检测数据可以改进位置估计。例如,关联来自多装置的数据可以帮助提供通过单装置音频捕获更难估计的距离信息。
尽管方法700被描述为包括两个录音的移动或头部姿势补偿,并组合这两个补偿录音,但是应当理解,方法700还可以包括对一个录音的移动或头部姿势补偿,并组合补偿录音和非补偿录音。例如,可以执行方法700来组合补偿录音和来自固定录音装置的录音(例如,检测不需要补偿的录音)。
图7B示出了根据本公开的一些实施例的播放来自声场的音频的示例性方法750。尽管方法750被示出为包括所描述的步骤,但是应当理解,在不脱离本公开的范围的情况下,可以包括不同顺序的步骤、附加步骤或更少的步骤。例如,方法750的步骤可以与其他公开方法的步骤一起执行。
在一些实施例中,方法750的计算、确定、运算或推导步骤使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP522)和/或使用服务器(例如,在云中)来执行。
在一些实施例中,方法750包括组合第一数字音频信号和第二数字音频信号(步骤752)。例如,组合第一固定取向录音和第二固定取向录音。在一些实施例中,在与第一装置或***和第二装置或***通信的服务器(例如,在云中)上组合录音,并将组合的固定取向录音发送到回放装置(例如,MR***、可穿戴头部装置200A、可穿戴头部装置200B、手持控制器300、可穿戴***501A、可穿戴***501B)。在一些实施例中,第一数字音频信号和第二数字音频信号不是固定取向录音。
在一些实施例中,录音由回放装置组合。例如,第一和第二固定取向录音被存储在回放装置上,并且回放装置组合这两个固定取向录音。作为另一示例,第一和第二固定取向录音中的至少一个由回放装置接收(例如,由第二装置或***发送,由服务器发送),并且,在回放装置存储固定取向录音之后,第一固定取向录音和第二固定取向录音由回放装置组合。
在一些实施例中,第一固定取向录音和第二固定取向录音在回放请求之前被组合。例如,在回放请求之前,在方法700的步骤710组合固定取向录音,并且响应于回放请求,回放装置接收组合的固定取向录音。为了简短起见,这里不描述步骤710和752之间的类似示例和优点。
在一些实施例中,方法750包括下混合组合的第二和第三数字音频信号(步骤754)。例如,下混合被组合的固定取向录音。例如,将来自步骤752的组合的固定取向录音下混合成适合于在回放装置上回放的音频流(例如,将组合的固定取向录音下混合成包括用于在回放装置上回放的适当数量的对应声道(例如,2、5.1、7.1)的音频流)。
在一些实施例中,下混合组合的固定取向录音包括将相应的增益应用于每个固定取向录音。在一些实施例中,下混合组合的固定取向录音包括基于侦听者与固定取向录音的录音位置的距离而减少对应于相应的固定取向录音的Ambisonics阶数。
在一些实施例中,方法750包括接收数字音频信号(步骤756)。在一些实施例中,方法750包括在可穿戴头部装置上接收数字音频信号。数字音频信号与在环境中具有位置(例如,地点、取向)的球体相关联。例如,固定取向录音(例如,来自步骤710或752的组合数字音频信号,来自步骤754的组合和下混合的组合数字音频信号)由AR/MR/XR设备(例如,MR***112、可穿戴头部装置200A、可穿戴头部装置200B、手持控制器300、可穿戴***501A、可穿戴***501B)检索。在一些实施例中,录音包括由一个以上装置使用本文所述的方法捕获和处理的来自可穿戴头部装置或AR/MR/XR***的AR/MR/XR环境的声场或3D音频场景的声音。在一些实施例中,录音是组合的固定取向录音(如本文所述)。组合的固定取向录音被呈现给侦听者,就好像录音的声音由静止的麦克风检测到的一样。在一些实施例中,组合的固定取向录音包括录音装置(例如,如关于方法700所述的第一和第二录音装置)在AR/MR/XR环境中的地点和/或位置信息,并且该地点和/或位置信息指示组合的录音内容在AR/MR/XR环境中的相应位置和取向。在一些实施例中,检索到的数字音频信号不是固定取向录音。
在一些实施例中,录音包括来自AR/MR/XR环境的声场或3D音频场景的组合声音(例如,AR/MR/XR内容的音频)。在一些实施例中,录音包括来自AR/MR/XR环境的固定声源(例如,来自AR/MR/XR环境的固定对象)的组合声音。
在一些实施例中,录音包括球形信号表示(例如,Ambisonics格式)。在一些实施例中,录音被转换为球形信号表示(例如,Ambisonics格式)。可以有利地更新球形信号表示,以补偿录音音频回放期间的用户头部姿势。
在一些实施例中,方法750包括检测装置移动(步骤758)。例如,在一些实施例中,如关于步骤654所述,检测装置的移动。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法750包括调整数字音频信号(步骤760)。例如,在一些实施例中,如关于步骤656所述,补偿头部姿势(例如,回放装置)的影响。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法750包括呈现调整的数字音频信号(步骤762)。例如,在一些实施例中,如关于步骤658所述,呈现调整的数字音频信号(例如,补偿回放装置的移动)。为了简短起见,这里不描述一些示例和优点。
如关于步骤658所述,可穿戴头部装置或AR/MR/XR***可以播放对应于转换后的双耳信号或音频信号(例如,对应于组合的录音,来自步骤760的调整的数字音频信号)的音频输出。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法750有利地允许组合的3D声场表示(例如,由一个以上录音装置捕获的3D声场)在被解码为用于回放的双耳表示之前,在回放时基于侦听者的头部移动来旋转。音频回放将似乎源自AR/MR/XR环境的固定声源,为用户提供更逼真的AR/MR/XR体验(例如,当用户相对于相应的固定对象移动(例如,改变头部姿势)时,固定的AR/MR/XR对象似乎在听觉上固定)。
在一些实施例中,当捕获声场或3D音频场景时,分离声场或3D声音场景中的声音对象和残差(例如,声场或3D音频场景中不包括声音对象的部分)是有利的。例如,声场或3D音频场景可以是支持允许用户访问AR/MR/XR内容的六个自由度的AR/MR/XR内容的一部分。支持六个自由度的整个声场或3D音频场景可导致非常大和/或复杂的文件,这将需要更多的计算资源来访问。因此,从声场或3D音频场景中提取声音对象(例如,AR/MR/XR环境中的与感兴趣对象相关联的声音、AR/MR/XR环境中的主导声音),并利用六个自由度支持渲染声音对象是有利的。声场或3D音频场景的其余部分(例如,不包括声音对象的部分,诸如背景噪声和声音)可以被分离作为残差,并且可以利用三个自由度支持渲染残差。声音对象(支持六个自由度)和残差(支持三个自由度)可以被组合,以产生复杂性较低(例如,文件大小较小)且更高效的声场或音频场景。
图8A示出了根据本公开的一些实施例的捕获声场的示例性方法800。尽管方法800被示出为包括所描述的步骤,但是应当理解,在不脱离本公开的范围的情况下,可以包括不同顺序的步骤、附加步骤或更少的步骤。例如,方法800的步骤可以与其他公开方法的步骤一起执行。
在一些实施例中,方法800的计算、确定、运算或推导步骤使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP522)和/或使用服务器(例如,在云中)来执行。
在一些实施例中,方法800包括检测声音(步骤802)。例如,如关于步骤602、702A或702B所述,检测声音。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法800包括基于所检测到的声音确定数字音频信号(步骤804)。在一些实施例中,数字音频信号与在环境(例如,AR、MR或XR环境)中具有位置(例如,地点、取向)的球体相关联。例如,如关于步骤604、704A或704B所述,导出球形信号表示。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法800包括检测麦克风移动(步骤806)。例如,如关于步骤606、706A或706B所述,检测麦克风的移动。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法800包括调整数字音频信号(步骤808)。例如,如关于步骤608、708A或708B所述,补偿头部姿势的影响。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法800包括产生固定取向录音。例如,如关于步骤608、708A或708B所述,产生固定取向录音。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法800包括提取声音对象(步骤810)。例如,声音对象对应于AR/MR/XR环境中的与感兴趣对象相关联的声音,或者对应于AR/MR/XR环境中的主导声音。在一些实施例中,可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP 522)确定声场或音频场景中的声音对象,并从声场或音频场景中提取声音对象。在一些实施例中,所提取的声音对象包括音频(例如,与声音相关联的音频信号)以及地点和位置信息(例如,在AR/MR/XR环境中与声音对象相关联的声源的坐标和取向)。
在一些实施例中,声音对象包括所检测到的声音的一部分,并且该部分符合声音对象标准。例如,声音对象基于声音的活动确定。在一些实施例中,装置或***确定具有高于阈值声音活动(例如,高于阈值频率变化、高于环境中的阈值位移、高于阈值振幅变化)的声音活动(如,频率变化、环境中的位移、振幅变化)的对象。例如,环境是虚拟音乐会,并且声场包括电吉他的声音和虚拟观众的噪声。根据电吉他的声音具有高于阈值声音活动的声音活动(例如,在电吉他上正在演奏快速音乐段落)的确定,装置或***可以确定电吉他的声音是相应提取的声音对象,并且虚拟观众的噪声是残差的一部分(如本文更详细描述的)。
在一些实施例中,声音对象由AR/MR/XR环境的信息确定(例如,AR/MR/XR环境的信息定义感兴趣对象或主导声音及其对应的声音)。在一些实施例中,声音对象是用户定义的(例如,在录制声场或音频场景时,用户定义环境中的感兴趣对象或主导声音及其对应的声音)。
在一些实施例中,虚拟对象的声音可以在第一时间是声音对象,以及在第二时间是残差。例如,在第一时间,装置或***确定虚拟对象的声音是声音对象(例如,高于阈值声音活动),并提取该声音对象。然而,在第二时间,装置或***确定虚拟对象的声音不是声音对象(例如,低于阈值声音活动)且不提取声音对象(例如,虚拟对象的声音在第二时间是残差的一部分)。
在一些实施例中,方法800包括组合声音对象和残差(步骤812)。例如,可穿戴头部装置或AR/MR/XR***组合提取的声音对象(例如,步骤810)和残差(例如,未作为声音对象被提取的声场或音频场景的部分)。在一些实施例中,与没有声音对象提取的声场或音频场景相比,组合的声音对象和残差是复杂性较低且更高效的声场或音频场景。在一些实施例中,残差以较低的空间分辨率而存储(例如,在一阶Ambisonics文件中)。在一些实施例中,声音对象以较高的空间分辨率而存储(例如,因为声音对象包括AR/MR/XR环境中的感兴趣对象的声音或主导声音)。
在一些示例中,声场或3D音频场景可以是AR/MR/XR内容的一部分,其支持允许用户访问AR/MR/XR内容的六个自由度。在一些实施例中,来自声场或3D音频场景的声音对象(例如,AR/MR/XR环境中的与感兴趣对象相关联的声音、AR/MR/XR环境中的主导声音)利用六个自由度支持来渲染(例如,通过可穿戴头部装置或AR/MR/XR***的处理器)。声场或3D音频场景的其余部分(例如,不包括声音对象的部分,诸如背景噪声和声音)可以被分离作为残差,并且可以利用三个自由度的支持渲染残差。声音对象(支持六个自由度)和残差(支持三个自由度)可以被组合,以产生复杂性较低(例如,文件大小较小)且更高效的声场或音频场景。
在一些实施例中,方法800有利地产生复杂性较低(例如,文件大小较小)的声场或音频场景。通过提取声音对象并以较高的空间分辨率渲染它们,同时以较低的空间分辨率渲染残差,所产生的声场或音频场景比支持六个自由度的整个声场或音频场景更高效(例如,文件大小更小,所需的计算资源更少)。此外,在更高效的同时,通过保持六自由度声场或音频场景的更重要的质量,同时最小化不需要更多自由度的部分上的资源,所产生的声场或音频场景不会损害用户的AR/MR/XR体验。
图8B示出了根据本公开的一些实施例的播放来自声场的音频的示例性方法850。尽管方法850被示出为包括所描述的步骤,但是应当理解,在不脱离本公开的范围的情况下,可以包括不同顺序的步骤、附加步骤或更少的步骤。例如,方法850的步骤可以与其他公开方法的步骤一起执行。
在一些实施例中,方法850的计算、确定、运算或推导步骤使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP522)和/或使用服务器(例如,在云中)来执行。
在一些实施例中,方法850包括组合声音对象和残差(步骤852)。例如,如关于步骤812所述,组合声音对象和残差。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,声音对象和残差在回放请求之前被组合。例如,在回放请求之前,在执行方法800的同时在步骤812组合声音对象和残差,并且响应于回放请求,回放装置接收组合的声音对象和残差。
在一些实施例中,方法850包括检测装置移动(步骤854)。例如,在一些实施例中,如关于步骤654或步骤758所述,检测装置的移动。为了简短起见,这里不描述一些示例和优点。
在一些实施例中,方法850包括调整声音对象(步骤856)。在一些实施例中,声音对象与在环境中具有第一位置的第一球体相关联。例如,在一些实施例中,如关于步骤656或步骤760所述,针对声音对象补偿头部姿势的影响。为了简短起见,这里不描述一些示例和优点。
例如,声音对象支持六个自由度。由于声音对象的高空间分辨率,可以有利地补偿沿着这六个自由度的头部姿势的影响。例如,可以补偿沿着六个自由度中任一个的头部姿势移动,使得声音对象似乎源自AR/MR/XR环境中的固定声源,即使头部姿势沿着六个自由度中的任一个移动。
在一些实施例中,方法850包括将声音对象转换为第一双耳信号。例如,回放装置(例如,可穿戴头部装置、AR/MR/XR***)将声音对象转换为双耳信号。在一些实施例中,所有声音对象(例如,如本文所述提取的)被转换为相应的双耳信号。在一些实施例中,每次转换一个声音对象。在一些实施例中,同时转换一个以上声音对象。
在一些实施例中,方法850包括调整残差(步骤858)。在一些实施例中,残差与在环境中具有第二位置的第二球体相关联。例如,在一些实施例中,如关于步骤654或步骤758所述,针对残差补偿头部姿势的影响。为了简短起见,这里不描述一些示例和优点。在一些实施例中,残差以较低的空间分辨率而存储(例如,在一阶Ambisonics文件中)。
在一些实施例中,方法850包括将残差转换为第二双耳信号。例如,回放装置(例如,可穿戴头部装置、AR/MR/XR***)将残差(如本文所述)转换为双耳信号。
在一些实施例中,步骤856和858并行地执行(例如,同时转换声音对象和残差)。在一些实施例中,步骤856和858顺序地执行(例如,首先转换声音对象,然后转换残差;首先转换残差,然后转换声音对象)。
在一些实施例中,方法850包括混合调整的声音对象和调整的残差(步骤860)。例如,第一(例如,调整的声音对象)和第二双耳信号(例如,调整的残差)被混合。例如,在声音对象和残差被转换为相应的双耳信号之后,回放装置(例如,可穿戴头部装置、AR/MR/XR***)将双耳信号混合成音频流以呈现给装置的侦听者。在一些实施例中,音频流包括回放装置的AR/MR/XR环境中的声音。
在一些实施例中,方法850包括呈现经混合的调整的声音对象和残差(步骤864)。在一些实施例中,方法850包括经由可穿戴头部装置的一个或多个扬声器向可穿戴头部装置的用户呈现经混合的调整的声音对象和残差。例如,由回放装置(例如,可穿戴头部装置、AR/MR/XR***)播放从第一和第二双耳信号混合的音频流。在一些实施例中,音频流包括回放装置的AR/MR/XR环境中的声音。为了简短起见,这里不描述呈现调整的数字音频信号的一些示例和优点。
在一些实施例中,由于声音对象的提取,与不具有相应提取的声音对象和残差的音频流相比,该音频流复杂性较低(例如,文件大小较小)。通过提取声音对象并以较高的空间分辨率渲染它们,同时以较低的空间分辨率渲染残差,该音频流比包括支持不必要的自由度的部分的声场或音频场景更高效(例如,文件大小更小,所需的计算资源更少)。此外,在更高效的同时,通过保持六自由度声场或音频场景的更重要的质量,同时最小化不需要更多自由度的部分上的资源,该音频流不会损害用户的AR/MR/XR体验。
在一些实施例中,可以使用一个以上装置或***来执行方法800。也就是说,一个以上装置或***可以捕获声场或音频场景,并且可以从一个以上装置或***检测到的声场或音频场景中提取声音对象和残差。
图9示出了根据本公开的一些实施例的捕获声场的示例性方法900。尽管方法900被示出为包括所描述的步骤,但是应当理解,在不脱离本公开的范围的情况下,可以包括不同顺序的步骤、附加步骤或更少的步骤。例如,方法900的步骤可以与其他公开方法的步骤一起执行。
在一些实施例中,方法900的计算、确定、运算或推导步骤使用可穿戴头部装置或AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP522)和/或使用服务器(例如,在云中)来执行。
在一些实施例中,方法900包括检测第一声音(步骤902A)。例如,声音由第一可穿戴头部装置或第一AR/MR/XR***的麦克风(例如,麦克风250;麦克风250A、250B、250C和250D;手持控制器300的麦克风;麦克风阵列507)检测。在一些实施例中,声音包括来自第一可穿戴头部装置或第一AR/MR/XR***的AR/MR/XR环境的声场或3D音频场景的声音。
在一些实施例中,方法900包括基于所检测到的第一声音确定第一数字音频信号(步骤904A)。在一些实施例中,第一数字音频信号与在环境(例如,AR、MR或XR环境)中具有第一位置(例如,地点、取向)的第一球体相关联。例如,对应于第一声音的第一球形信号的导出与关于步骤704A所述的第一球形信号表示类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括检测第一麦克风移动(步骤906A)。例如,第一麦克风移动的检测与关于步骤706A所述的第一麦克风移动的检测类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括调整第一数字音频信号(步骤908A)。例如,第一头部姿势的补偿(例如,使用用于第一头部姿势的第一函数)与关于步骤708A所述的第一头部姿势的补偿类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括产生第一固定取向录音。例如,第一固定取向录音的产生(例如,通过将第一函数应用于第一球面信号表示)与关于步骤708A所述的第一固定取向录音的产生类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括提取第一声音对象(步骤910A)。例如,第一声音对象对应于由第一录音装置检测到的AR/MR/XR环境中的与感兴趣对象相关联的声音或AR/MR/XR环境中的主导声音。在一些实施例中,第一可穿戴头部装置或第一AR/MR/XR***的处理器(例如,MR***112的处理器、可穿戴头部装置200A的处理器、可穿戴头部装置200B的处理器、手持控制器300的处理器、辅助单元400的处理器、处理器516、DSP 522)确定声场或音频场景中的第一声音对象,并从声场或音频场景中提取声音对象。在一些实施例中,所提取的第一声音对象包括音频(例如,与声音相关联的音频信号)以及地点和位置信息(例如,AR/MR/XR环境中的与第一声音对象相关联的声源的坐标和取向)。为了简短起见,这里不描述声音对象提取(例如,关于步骤810所述)的一些示例和优点。
在一些实施例中,方法900包括检测第二声音(步骤902B)。例如,声音由第二可穿戴头部装置或第二AR/MR/XR***的麦克风(例如,麦克风250;麦克风250A、250B、250C和250D;手持控制器300的麦克风;麦克风阵列507)检测。在一些实施例中,声音包括来自第二可穿戴头部装置或第二AR/MR/XR***的AR/MR/XR环境的声场或3D音频场景的声音。在一些实施例中,第二装置或***的AR/MR/XR环境是与关于步骤902A-910A所述的第一装置或***相同的环境。
在一些实施例中,方法900包括基于所检测到的第二声音确定第二数字音频信号(步骤904B)。例如,对应于第二声音的第二球形信号表示的导出与关于步骤704A、704B或904A所述的球形信号表示类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括检测第二麦克风移动(步骤906B)。例如,第二麦克风移动的检测与关于步骤706B或906A所述的第二麦克风移动的检测类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括调整第二数字音频信号(步骤908B)。例如,第二头部姿势的补偿(例如,使用用于第二头部姿势的第二函数)与关于步骤708A、708B或908A所述的第二头部姿势的补偿类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括产生第二固定取向录音。例如,第二固定取向录音的产生(例如,通过将第二函数应用于第二球面信号表示)与关于步骤708A、708B或908A所述的固定取向录音的产生类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,方法900包括提取第二声音对象(步骤910B)。例如,第二声音对象的提取与关于步骤910A所述的第一声音对象的提取类似。为了简短起见,这里不再对此进行描述。
在一些实施例中,步骤902A-910A与步骤902B-910B同时执行(例如,第一装置或***和第二装置或***同时录制声场或3D音频场景)。例如,第一装置或***的第一用户和第二装置或***的第二用户同时录制AR/MR/XR环境中的声场或3D音频场景。在一些实施例中,步骤902A-910A与步骤902B-910B的执行时间不同(例如,第一装置或***和第二装置或***在不同的时间录制声场或3D音频场景)。例如,第一装置或***的第一用户和第二装置或***的第二用户在不同的时间录制AR/MR/XR环境中的声场或3D音频场景。
在一些实施例中,方法900包括合并第一声音对象和第二对象(步骤912)。例如,第一和第二声音对象通过分组为单个较大的声音对象组进行合并。声音对象的合并允许声音对象在下一步骤中与残差更有效地组合。
在一些实施例中,第一和第二声音对象在与第一装置或***和第二装置或***通信的服务器(例如,在云中)上合并(例如,装置或***将相应的声音对象发送到服务器以做进一步处理和存储)。在一些实施例中,第一和第二声音对象在主装置(例如,第一或第二可穿戴头部装置或AR/MR/XR***)上合并。
在一些实施例中,方法900包括组合合并的声音对象和残差(步骤914)。例如,服务器(例如,在云中)或主装置(例如,第一或第二可穿戴头部装置或AR/MR/XR***)组合提取的声音对象(例如,步骤914)和残差(例如,未作为声音对象被提取的声场或音频场景的部分;根据相应的声音对象提取步骤910A和910B确定)。在一些实施例中,与没有声音对象提取的声场或音频场景相比,组合的声音对象和残差是复杂性较低且更高效的声场或音频场景。在一些实施例中,残差以较低的空间分辨率而存储(例如,在一阶Ambisonics文件中)。在一些实施例中,声音对象以较高的空间分辨率而存储(例如,因为声音对象包括AR/MR/XR环境中的感兴趣对象的声音或主导声音)。为了简短起见,这里不描述组合声音对象和残差的一些示例和优点。
在一些实施例中,方法900有利地产生复杂性较低(例如,文件大小较小)的声场或音频场景。通过提取声音对象并以较高的空间分辨率渲染它们,同时以较低的空间分辨率渲染残差,所产生的声场或音频场景比支持六个自由度的整个声场或音频场景更高效(例如,文件大小更小,所需的计算资源更少)。此外,在更高效的同时,通过保持六自由度声场或音频场景的更重要的质量,同时最小化不需要更多自由度的部分上的资源,所产生的声场或音频场景不会损害用户的AR/MR/XR体验。对于需要一个以上装置来进行声音检测的较大声场或音频场景(例如,关于方法900所述的示例性声场或音频场景),这一优势变得更大。
在一些实施例中,如关于方法900所述,使用来自多个装置的检测数据可以利用更准确的位置估计来改进声音对象的提取。例如,关联来自多装置的数据可以帮助提供通过单装置音频捕获更难估计的距离信息。
在一些实施例中,一种可穿戴头部装置(例如,本文所述的可穿戴头部装置、本文所述的AR/MR/XR***)包括:处理器;存储器;以及存储在存储器中的程序,该程序被配置为由处理器执行,并且包括用于执行关于图6-9所述的方法的指令。
在一些实施例中,一种非暂时性计算机可读存储介质存储一个或多个程序,并且该一个或多个程序包括指令。当指令由具有一个或多个处理器和存储器的电子装置(例如,本文所述的电子装置或***)执行时,这些指令使电子装置执行关于图6-9所述的方法。
尽管本公开的示例是关于可穿戴头部装置或AR/MR/XR***描述的,但应当理解,所公开的声场录音和回放方法也可以使用其他装置或***来执行。例如,所公开的方法可以使用移动装置来执行,以补偿录音或回放期间的移动的影响。作为另一示例,可以使用用于录制声场的移动装置来执行所公开的方法,包括提取声音对象并组合声音对象和残差。
尽管本公开的示例是关于头部姿势补偿描述的,但应当理解,所公开的声场录音和回放方法通常也可以被执行以补偿任何移动。例如,所公开的方法可以使用移动装置来执行,以补偿录音或回放期间的移动的影响。
参考本文所述的***和方法,这些***和方法的元件可以适当地由一个或多个计算机处理器(例如,CPU或DSP)来实现。本公开不限于用于实现这些元件的计算机硬件(包括计算机处理器)的任何特定配置。在一些情况下,可以采用多个计算机***来实现本文所述的***和方法。例如,第一计算机处理器(例如,耦合到一个或多个麦克风的可穿戴装置的处理器)可用于接收输入麦克风信号,并执行这些信号的初始处理(例如,信号调节和/或分割)。然后可以利用第二(可能在计算上更强大)处理器来执行计算密集型处理,例如确定与这些信号的语音段相关联的概率值。另一计算机设备,例如云服务器,可以托管音频处理引擎,输入信号最终被提供给该音频处理引擎。其他合适的配置将是显而易见的并且在本公开的范围内。
根据一些实施例,一种方法包括:通过第一可穿戴头部装置的麦克风检测环境的声音;基于所检测到的声音确定数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;在检测所述声音的同时,经由所述第一可穿戴头部装置的传感器来检测相对于所述环境的麦克风移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动(例如,幅度、方向)来调整所述球体的所述位置;以及经由第二可穿戴头部装置的一个或多个扬声器向所述第二可穿戴头部装置的用户呈现所述调整的数字音频信号。
根据一些实施例,所述方法还包括:通过第三可穿戴头部装置的麦克风,检测所述环境的第二声音;基于所检测到的第二声音,确定第二数字音频信号,所述第二数字音频信号与在所述环境中具有第二位置的第二球体相关联;在检测所述第二声音的同时,经由所述第三可穿戴头部装置的传感器,检测相对于所述环境的第二麦克风移动;调整所述第二数字音频信号,其中,所述调整包括基于所述检测到的第二麦克风移动而调整所述第二球体的所述第二位置;组合所述调整的数字音频信号和所述第二调整的数字音频信号;以及经由所述第二可穿戴头部装置的所述一个或多个扬声器向所述第二可穿戴头部装置的所述用户呈现所述组合的第一调整的数字音频信号和第二调整的数字音频信号。
根据一些实施例,在服务器上组合所述第一调整的数字音频信号和所述第二调整的数字音频信号。
根据一些实施例,所述数字音频信号包括Ambisonic文件。
根据一些实施例,检测相对于所述环境的所述麦克风移动包括执行即时定位与地图构建和视觉惯性里程计中的一者或多者。
根据一些实施例,所述传感器包括惯性测量单元、相机、第二麦克风、陀螺仪和激光雷达传感器中的一者或多者。
根据一些实施例,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
根据一些实施例,其中,应用所述补偿函数包括基于所述麦克风移动的逆应用所述补偿函数。
根据一些实施例,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述第二可穿戴头部装置的显示器上显示与所述环境的所述声音相关联的内容。
根据一些实施例,一种方法包括:在可穿戴头部装置处接收数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;经由所述可穿戴头部装置的传感器检测相对于所述环境的装置移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的装置而移动调整所述球体的所述位置;以及经由所述可穿戴头部装置的一个或多个扬声器向所述可穿戴头部装置的用户呈现所述调整的数字音频信号。
根据一些实施例,所述方法还包括:组合第二数字音频信号和第三数字音频信号;以及下混合所述组合的第二和第三数字音频信号,其中,所检索到的第一数字音频信号是所述组合的第二和第三数字音频信号。
根据一些实施例,下混合所述组合的第二和第三数字音频信号包括将第一增益应用于所述第二数字音频信号,并将第二增益应用于所述第二数字音频信号。
根据一些实施例,下混合所述组合的第二和第三数字音频信号包括基于所述可穿戴头部装置与所述第二数字音频信号的录制位置的距离,降低所述第二数字音频信号的Ambisonic阶数。
根据一些实施例,所述传感器是惯性测量单元、相机、第二麦克风、陀螺仪或激光雷达传感器。
根据一些实施例,检测相对于所述环境的所述装置移动包括执行即时定位与地图构建或视觉惯性里程计。
根据一些实施例,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
根据一些实施例,其中,应用所述补偿函数包括基于所述麦克风移动的逆而应用所述补偿函数。
根据一些实施例,所述数字音频信号采取Ambisonics格式。
根据一些实施例,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述可穿戴头部装置的显示器上显示与所述环境中的所述数字音频信号的声音相关联的内容。
根据一些实施例,一种方法包括:检测环境的声音;从所检测到的声音中提取声音对象;以及组合所述声音对象和残差。所述声音对象包括所检测到的声音的第一部分,所述第一部分符合声音对象标准,并且,所述残差包括所检测到的声音的第二部分,所述第二部分不符合所述声音对象标准。
根据一些实施例,还包括:检测所述环境的第二声音;确定所检测到的第二声音的一部分是否符合所述声音对象标准,其中:符合所述声音对象标准的所检测到的第二声音的一部分包括第二声音对象,不符合所述声音对象标准的所检测到的第二声音的一部分包括第二残差;从所检测到的第二声音中提取所述第二声音对象;以及合并所述第一声音对象和所述第二声音对象,其中,组合所述声音对象和所述残差包括组合所述合并的声音对象、所述第一残差和所述第二残差。
根据一些实施例,所述声音对象在所述环境中支持六个自由度,并且,所述残差在所述环境中支持三个自由度。
根据一些实施例,所述声音对象具有比所述残差更高的空间分辨率。
根据一些实施例,所述残差被存储在较低阶Ambisonic文件中。
根据一些实施例,一种方法包括:经由可穿戴头部装置的传感器,检测相对于环境的装置移动;调整声音对象,其中,所述声音对象与在所述环境中具有第一位置的第一球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第一球体的所述第一位置;调整残差,其中,所述残差与在所述环境中具有第二位置的第二球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第二球体的所述第二位置;混合所述调整的声音对象和所述调整的残差;以及经由所述可穿戴头部装置的一个或多个扬声器向所述可穿戴头部装置的用户呈现混合的所述调整的声音对象和调整的残差。
根据一些实施例,一种***包括:第一可穿戴头部装置,其包括麦克风和传感器;第二可穿戴头部装置,其包括扬声器;以及一个或多个处理器,其被配置为执行一种方法,所述方法包括:通过所述第一可穿戴头部装置的所述麦克风,检测环境的声音;基于所检测到的声音,确定数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;在检测所述声音的同时,经由所述第一可穿戴头部装置的所述传感器,检测相对于所述环境的麦克风移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动来调整所述球体的所述位置;以及经由所述第二可穿戴头部装置的所述扬声器,向所述第二可穿戴头部装置的用户呈现所述调整的数字音频信号。
根据一些实施例,所述***还包括第三可穿戴头部装置,其包括麦克风和传感器,其中,所述方法还包括:通过所述第三可穿戴头部装置的所述麦克风,检测所述环境的第二声音;基于所检测到的第二声音,确定第二数字音频信号,所述第二数字音频信号与在所述环境中具有第二位置的第二球体相关联;在检测所述第二声音的同时,经由所述第三可穿戴头部装置的所述传感器,检测相对于所述环境的所述第二麦克风的移动;调整所述第二数字音频信号,其中,所述调整包括基于所检测到的第二麦克风移动而调整所述第二球体的所述第二位置;组合所述调整的数字音频信号和所述第二调整的数字音频信号;以及经由所述第二可穿戴头部装置的所述扬声器,向所述第二可穿戴头部装置的所述用户呈现所述组合的第一调整的数字音频信号和第二调整的数字音频信号。
根据一些实施例,在服务器上组合所述第一调整的数字音频信号和所述第二调整的数字音频信号。
根据一些实施例,所述数字音频信号包括Ambisonic文件。
根据一些实施例,检测相对于所述环境的所述麦克风移动包括执行即时定位与地图构建和视觉惯性里程计中的一者或多者。
根据一些实施例,所述传感器包括惯性测量单元、相机、第二麦克风、陀螺仪和激光雷达传感器中的一者或多者。
根据一些实施例,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
根据一些实施例,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
根据一些实施例,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述第二可穿戴头部装置的显示器上显示与所述环境的所述声音相关联的内容。
根据一些实施例,一种***包括:可穿戴头部装置,其包括传感器和扬声器;以及一个或多个处理器,其被配置为执行一种方法,所述方法包括:在所述可穿戴头部装置上接收数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;经由所述可穿戴头部装置的所述传感器,检测相对于所述环境的装置移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的装置移动而调整所述球体的所述位置;以及经由所述可穿戴头部装置的所述扬声器,向所述可穿戴头部装置的用户呈现所述调整的数字音频信号。
根据一些实施例,所述方法还包括:组合第二数字音频信号和第三数字音频信号;以及下混合所述组合的第二数字音频信号和第三数字音频信号,其中,所检索到的第一数字音频信号是所述组合的第二和第三数字音频信号。
根据一些实施例,下混合所述组合的第二和第三数字音频信号包括将第一增益应用于所述第二数字音频信号,并将第二增益应用于所述第二数字音频信号。
根据一些实施例,下混合所述组合的第二和第三数字音频信号包括基于所述可穿戴头部装置与所述第二数字音频信号的录制位置的距离,降低所述第二数字音频信号的Ambisonic阶数。
根据一些实施例,所述传感器是惯性测量单元、相机、第二麦克风、陀螺仪或激光雷达传感器。
根据一些实施例,检测相对于所述环境的所述装置移动包括执行即时定位与地图构建或视觉惯性里程计。
根据一些实施例,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
根据一些实施例,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
根据一些实施例,所述数字音频信号采取Ambisonics格式。
根据一些实施例,所述可穿戴头部装置还包括显示器,并且,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述可穿戴头部装置的所述显示器上显示与所述环境中的所述数字音频信号的声音相关联的内容。
根据一些实施例,一种***包括一个或多个处理器,所述处理器被配置为执行一种方法,所述方法包括:检测环境的声音;从所检测到的声音中提取声音对象;以及组合所述声音对象和残差。所述声音对象包括所检测到的声音的第一部分,所述第一部分符合声音对象标准,并且,所述残差包括所检测到的声音的第二部分,所述第二部分不符合所述声音对象标准。
根据一些实施例,所述方法还包括:检测所述环境的第二声音;确定所检测到的第二声音的一部分是否符合所述声音对象标准,其中:符合所述声音对象标准的所检测到的第二声音的一部分包括第二声音对象,不符合所述声音对象标准的所检测到的第二声音的一部分包括第二残差;从所检测到的第二声音中提取所述第二声音对象;以及合并所述第一声音对象和所述第二声音对象,其中,组合所述声音对象和所述残差包括组合所述合并的声音对象、所述第一残差和所述第二残差。
根据一些实施例,所述声音对象在所述环境中支持六个自由度,并且,所述残差在所述环境中支持三个自由度。
根据一些实施例,所述声音对象具有比所述残差更高的空间分辨率。
根据一些实施例,所述残差被存储在较低阶Ambisonic文件中。
根据一些实施例,一种***包括:可穿戴头部装置,其包括传感器和扬声器;以及一个或多个处理器,其被配置为执行一种方法,所述方法包括:经由所述可穿戴头部装置的所述传感器,检测相对于环境的装置移动;调整声音对象,其中,所述声音对象与在所述环境中具有第一位置的第一球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第一球体的所述第一位置;调整残差,其中,所述残差与在所述环境中具有第二位置的第二球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第二球体的所述第二位置;混合所述调整的声音对象和所述调整的残差;以及经由所述可穿戴头部装置的所述扬声器,向所述可穿戴头部装置的用户呈现混合的所述调整的声音对象和调整的残差。
根据一些实施例,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述装置执行一种方法,所述方法包括:通过第一可穿戴头部装置的麦克风,检测环境的声音;基于所检测到的声音,确定数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;在检测所述声音的同时,经由所述第一可穿戴头部装置的传感器,检测相对于所述环境的麦克风移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动而调整所述球体的所述位置;以及经由第二可穿戴头部装置的一个或多个扬声器,向所述第二可穿戴头部装置的用户呈现所述调整的数字音频信号。
根据一些实施例,所述方法还包括:通过第三可穿戴头部装置的麦克风,检测所述环境的第二声音;基于所检测到的第二声音,确定第二数字音频信号,所述第二数字音频信号与在所述环境中具有第二位置的第二球体相关联;在检测所述第二声音的同时,经由所述第三可穿戴头部装置的传感器,检测相对于所述环境的第二麦克风移动;调整所述第二数字音频信号,其中,所述调整包括基于所述检测到的第二麦克风移动而调整所述第二球体的所述第二位置;组合所述调整的数字音频信号和所述第二调整的数字音频信号;以及经由所述第二可穿戴头部装置的所述扬声器,向所述第二可穿戴头部装置的所述用户呈现所述组合的第一调整的数字音频信号和第二调整的数字音频信号。
根据一些实施例,在服务器上组合所述第一数字音频信号和所述第二数字音频信号。
根据一些实施例,所述数字音频信号包括Ambisonic文件。
根据一些实施例,检测相对于所述环境的所述麦克风移动包括执行即时定位与地图构建和视觉惯性里程计中的一者或多者。
根据一些实施例,所述传感器包括惯性测量单元、相机、第二麦克风、陀螺仪和激光雷达传感器中的一者或多者。
根据一些实施例,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
根据一些实施例,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
根据一些实施例,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述第二可穿戴头部装置的显示器上显示与所述环境的所述声音相关联的内容。
根据一些实施例,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述装置执行一种方法,所述方法包括:在可穿戴头部装置上接收数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;经由所述可穿戴头部装置的传感器,检测相对于所述环境的装置移动;调整所述数字音频信号,其中,所述调整包括基于所检测到的装置移动而调整所述球体的所述位置;以及经由所述可穿戴头部装置的一个或多个扬声器,向所述可穿戴头部装置的用户呈现所述调整的数字音频信号。
根据一些实施例,所述方法还包括:组合第二数字音频信号和第三数字音频信号;以及下混合所述组合的第二和第三数字音频信号,其中,所检索到的第一数字音频信号是所述组合的第二和第三数字音频信号。
根据一些实施例,下混合所述组合的第二和第三数字音频信号包括将第一增益应用于所述第二数字音频信号,并将第二增益应用于所述第二数字音频信号。
根据一些实施例,下混合所述组合的第二和第三数字音频信号包括基于所述可穿戴头部装置与所述第二数字音频信号的录制位置的距离,降低所述第二数字音频信号的Ambisonic阶数。
根据一些实施例,所述传感器是惯性测量单元、相机、第二麦克风、陀螺仪或激光雷达传感器。
根据一些实施例,检测相对于所述环境的所述装置移动包括执行即时定位与地图构建或视觉惯性里程计。
根据一些实施例,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
根据一些实施例,其中,应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
根据一些实施例,所述数字音频信号采取Ambisonics格式。
根据一些实施例,所述方法还包括在呈现所述调整的数字音频信号的同时,在所述可穿戴头部装置的显示器上显示与所述环境中的所述数字音频信号的声音相关联的内容。
根据一些实施例,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述装置执行一种方法,所述方法包括:检测环境的声音;从所检测到的声音中提取声音对象;以及组合所述声音对象和残差。所述声音对象包括所检测到的声音的第一部分,所述第一部分符合声音对象标准,并且,所述残差包括所检测到的声音的第二部分,所述第二部分不符合所述声音对象标准。
根据一些实施例,所述方法还包括:检测所述环境的第二声音;确定所检测到的第二声音的一部分是否符合所述声音对象标准,其中:符合所述声音对象标准的所检测到的第二声音的一部分包括第二声音对象,不符合所述声音对象标准的所检测到的第二声音的一部分包括第二残差;从所检测到的第二声音中提取所述第二声音对象;以及合并所述第一声音对象和所述第二声音对象,其中,组合所述声音对象和所述残差包括组合所述合并的声音对象、所述第一残差和所述第二残差。
根据一些实施例,所述声音对象在所述环境中支持六个自由度,并且,所述残差在所述环境中支持三个自由度。
根据一些实施例,所述声音对象具有比所述残差更高的空间分辨率。
根据一些实施例,所述残差被存储在较低阶Ambisonic文件中。
根据一些实施例,一种非暂时性计算机可读介质存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述电子装置执行一种方法,所述方法包括:经由可穿戴头部装置的传感器,检测相对于环境的装置移动;调整声音对象,其中,所述声音对象与在所述环境中具有第一位置的第一球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第一球体的所述第一位置;调整残差,其中,所述残差与在所述环境中具有第二位置的第二球体相关联,并且,所述调整包括基于所检测到的装置移动而调整所述第二球体的所述第二位置;混合所述调整的声音对象和所述调整的残差;以及经由所述可穿戴头部装置的一个或多个扬声器,向所述可穿戴头部装置的用户呈现混合的所述调整的声音对象和所述调整的残差。
尽管已参考附图对所公开的示例进行了全面描述,但应当注意,各种变化和修改对本领域技术人员来说将是显而易见的。例如,可以组合、删除、修改或补充一个或多个实现的元素,以形成进一步的实现。这些变化和修改应被理解为包括在由所附权利要求定义的公开示例的范围内。

Claims (14)

1.一种方法,包括:
通过第一可穿戴头部装置的麦克风,检测环境的声音;
基于所检测到的声音,确定数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;
在检测所述声音的同时,经由所述第一可穿戴头部装置的传感器,检测相对于所述环境的麦克风移动;
调整所述数字音频信号,其中,所述调整包括基于所检测到的麦克风移动而调整所述球体的所述位置;以及
经由第二可穿戴头部装置的一个或多个扬声器,向所述第二可穿戴头部装置的用户呈现所述调整的数字音频信号。
2.根据权利要求1所述的方法,还包括:
通过第三可穿戴头部装置的麦克风,检测所述环境的第二声音;
基于所述第二声音,确定第二数字音频信号,所述第二数字音频信号与在所述环境中具有第二位置的第二球体相关联;
在检测所述第二声音的同时,经由所述第三可穿戴头部装置的传感器,检测相对于所述环境的第二麦克风移动;
调整所述第二数字音频信号,其中,所述调整包括基于所述检测到的第二麦克风移动而调整所述第二球体的所述第二位置;
组合所述调整的数字音频信号和所述第二调整的数字音频信号;以及
经由所述第二可穿戴头部装置的所述一个或多个扬声器,向所述第二可穿戴头部装置的所述用户呈现所述组合的第一调整的数字音频信号和第二调整的数字音频信号。
3.根据权利要求2所述的方法,其中,在服务器上组合所述第一调整的数字音频信号和所述第二调整的数字音频信号。
4.根据权利要求1所述的方法,其中,所述数字音频信号包括Ambisonic文件。
5.根据权利要求1所述的方法,其中,检测相对于所述环境的所述麦克风移动包括执行即时定位与地图构建和视觉惯性里程计中的一者或多者。
6.根据权利要求1所述的方法,其中,所述传感器包括惯性测量单元、相机、第二麦克风、陀螺仪和激光雷达传感器中的一者或多者。
7.根据权利要求1所述的方法,其中,调整所述数字音频信号包括将补偿函数应用于所述数字音频信号。
8.根据权利要求7所述的方法,其中,所述应用所述补偿函数包括基于所述麦克风移动的逆,应用所述补偿函数。
9.根据权利要求1所述的方法,还包括在呈现所述调整的数字音频信号的同时,在所述第二可穿戴头部装置的显示器上显示与所述环境的所述声音相关联的内容。
10.一种方法,包括:
在可穿戴头部装置上接收数字音频信号,所述数字音频信号与在所述环境中具有位置的球体相关联;
经由所述可穿戴头部装置的传感器,检测相对于所述环境的装置移动;
调整所述数字音频信号,其中,所述调整包括基于所检测到的装置移动而调整所述球体的所述位置;以及
经由所述可穿戴头部装置的一个或多个扬声器,向所述可穿戴头部装置的用户呈现所述调整的数字音频信号。
11.一种方法,包括:
检测环境的声音;
从所检测到的声音中提取声音对象;以及
组合所述声音对象和残差,
其中:
所述声音对象包括所检测到的声音的第一部分,所述第一部分符合声音对象标准,并且
所述残差包括所检测到的声音的第二部分,所述第二部分不符合所述声音对象标准。
12.一种方法,包括:
经由可穿戴头部装置的传感器,检测相对于环境的所述可穿戴头部装置的移动;
调整声音对象,其中,所述声音对象与在所述环境中具有第一位置的第一球体相关联,并且其中,所述调整包括基于所检测到的装置移动而调整所述第一球体的所述第一位置;
调整残差,其中,所述残差与在所述环境中具有第二位置的第二球体相关联,并且其中,所述调整包括基于所检测到的装置移动而调整所述第二球体的所述第二位置;
混合所述调整的声音对象和所述调整的残差;以及
经由所述可穿戴头部装置的一个或多个扬声器,向所述可穿戴头部装置的用户呈现混合的所述调整的声音对象和所述调整的残差。
13.一种***,其包括一个或多个处理器,所述处理器被配置为执行根据权利要求1-12中任一项所述的方法。
14.一种非暂时性计算机可读介质,其存储一个或多个指令,当由电子装置的一个或多个处理器执行时,所述指令使所述电子装置执行根据权利要求1-12中任一项所述的方法。
CN202280067662.3A 2021-10-05 2022-10-03 具有头部姿势补偿的声场捕获 Pending CN118077219A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163252391P 2021-10-05 2021-10-05
US63/252,391 2021-10-05
PCT/US2022/077487 WO2023060050A1 (en) 2021-10-05 2022-10-03 Sound field capture with headpose compensation

Publications (1)

Publication Number Publication Date
CN118077219A true CN118077219A (zh) 2024-05-24

Family

ID=85804732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280067662.3A Pending CN118077219A (zh) 2021-10-05 2022-10-03 具有头部姿势补偿的声场捕获

Country Status (2)

Country Link
CN (1) CN118077219A (zh)
WO (1) WO2023060050A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120207308A1 (en) * 2011-02-15 2012-08-16 Po-Hsun Sung Interactive sound playback device
EP3202162B1 (en) * 2014-09-30 2020-11-25 Apple Inc. Method to determine loudspeaker change of placement
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
GB2543276A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
US10469976B2 (en) * 2016-05-11 2019-11-05 Htc Corporation Wearable electronic device and virtual reality system
EP3261367B1 (en) * 2016-06-21 2020-07-22 Nokia Technologies Oy Method, apparatus, and computer program code for improving perception of sound objects in mediated reality
US11854566B2 (en) * 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing

Also Published As

Publication number Publication date
WO2023060050A1 (en) 2023-04-13

Similar Documents

Publication Publication Date Title
US11540072B2 (en) Reverberation fingerprint estimation
US11792598B2 (en) Spatial audio for interactive audio environments
CN116325808B (zh) 沉浸式音频平台
US10779103B2 (en) Methods and systems for audio signal filtering
JP2023100820A (ja) 空間コンピューティングのための写実的キャラクタ構成
WO2023064875A1 (en) Microphone array geometry
JP2021525980A (ja) フィルタパラメータに関するインデックススキーミング
CN118077219A (zh) 具有头部姿势补偿的声场捕获
CN112470218B (zh) 低频信道间相干性控制
WO2023076822A1 (en) Active noise cancellation for wearable head device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication