CN109791441A

CN109791441A - 具有空间化音频的混合现实***

Info

Publication number: CN109791441A
Application number: CN201780060939.9A
Authority: CN
Inventors: D·T·罗奇; S·A·米勒; G·A·桑格; B·施密特; T·M·奥加拉; A·A·塔吉克; J·塔吉克
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-08-01
Filing date: 2017-08-01
Publication date: 2019-05-21
Also published as: IL264478A; WO2018026828A1; JP7270820B2; JP6799141B2; KR102197544B1; EP3491495B1; JP2021036722A; IL264478B; JP2022166062A; NZ750048A; JP2019523607A; AU2017305249B2; KR20190027934A; EP3491495A1; AU2017305249A1; US10390165B2; US20190327574A1; EP4376444A2; US11240622B2; JP7118121B2

Abstract

一种双源空间化音频***包括通用音频***和个人音频***。该通用***包括通用音频处理器和用于生成通用声音的通用扬声器。该个人***包括要被穿戴在用户的头部上的框架和被附接到框架的多个个人扬声器。该个人***还包括用于收集用户的头部姿势数据的头部姿势传感器。该个人***进一步包括用于根据头部姿势数据确定用户的头部姿势的头部姿势处理器。此外，该个人***包括用于基于用户的头部姿势生成个人音频数据的个人音频处理器。个人扬声器生成对应于个人音频数据的个人声音。个人处理器从通用音频处理器接收定时信息/元数据，以使个人声音与通用声音同步。

Description

具有空间化音频的混合现实***

相关申请的交叉引用

本申请要求2016年8月1日提交的代理案卷号为ML.30041.00、名称为“MIXEDREALITY SYSTEM WITH SPATIALIZED AUDIO(具有空间化音频的混合现实***)”、序列号为62/369,561的美国临时申请的优先权。本申请涉及2014年2月4日提交的序列号为62/291,363(代理案卷号为ML.30043.00)的美国临时专利申请；2014年6月14日提交的序列号为62/012,273(代理案卷号为ML.30019.00)的美国临时专利申请；2013年6月13日提交的序列号为14/738,877(代理案卷号为ML.20019.00)的美国实用新型专利申请；以及2014年11月27日提交的序列号为14/555,585(代理案卷号为ML.20011.00)美国实用新型专利申请。这些专利申请的全部内容通过引用特此明确地全部并入此文，就像完整阐述一样。上述并入的专利申请中描述了包括空间化音频***的虚拟现实、增强现实或混合现实***的各种实施例。本文描述了具有空间化音频***和方法的虚拟、增强或混合现实***的另外的实施例。

技术领域

本公开涉及具有空间化音频***、个性化电影院视频和音频***的虚拟、增强或混合现实，以及用于使用这些而产生包括空间化音频的虚拟现实、增强现实或混合现实体验的方法。

背景技术

当前的空间化音频***，例如用于家庭影院和视频游戏的空间化音频***，使用“5.1”和“7.1”格式。5.1空间化音频***包括左右前声道、左右后声道、中心声道和超低音扬声器。7.1空间化音频***包括5.1音频***的声道以及与目标收听者对准的左右声道。每个上述声道对应于单独的扬声器。电影院音频***和电影院级家庭影院***包括杜比全景声(DOLBY ATMOS)，其增加了被配置为从目标收听者上方传送的声道，从而使收听者沉浸在声场中并使收听者被声音环绕。

尽管空间化音频***有所改进，但是当前的空间化音频***不能够考虑收听者的位置和取向，更不用说多个收听者的相应位置和取向了。因此，当前的空间化音频***在假设所有收听者位于声场中心附近并且面向***的中心声道而取向的情况下生成声场，并且具有用于实现最佳性能的收听者位置和取向要求。因此，在经典的一对多***中，如果收听者恰好面向预期取向的相反方向，则空间化音频以使得声音看起来(appear to)是向后的方式被传送给收听者。这种未对准的声音可导致感觉和认知的不协调，并且使空间化音频体验以及伴随其呈现的任何“虚拟现实”或“增强现实”体验降级。在严重的情况下，感觉和认知不协调可以引起生理副作用，例如头痛、恶心、不适等，这可能导致用户避开空间化音频体验、“虚拟现实”体验或“增强现实”体验。

现代计算和显示技术促进了用于所谓的虚拟现实(“VR”)、增强现实(“AR”)和混合现实(“MR”)体验的***的发展，其中数字再现被整合到用户的真实世界环境中，并且被呈现为就好像它们是存在于真实世界环境的惯性参考系中的真实对象一样。虚拟现实或“VR”场景可以涉及在遮挡用户对真实世界的视图的同时呈现数字或虚拟图像信息。增强现实或“AR”场景通常涉及呈现数字或虚拟图像信息，作为对用户周围的可视现实世界的增强(即，对于其它实际的真实世界视觉输入是透明的)。混合现实或“MR”***还将仿真对象引入到真实世界环境中，但是这些对象通常具有比在AR***中更大的交互程度。仿真元素通常可以实时交互。因此，AR和MR场景涉及被叠加在同时对用户可见的用户的真实世界环境上的数字或虚拟图像信息的呈现。

各种光学***在多个深度处生成图像以用于显示VR/AR/MR场景。一些这样的光学***在序列号为14/738,877(代理案卷号为ML.20019.00)的美国实用新型专利申请和2014年11月27日提交的序列号为14/555,585(代理案卷号为ML.20011.00)的美国实用新型专利申请中进行了描述，这些专利申请的内容先前已通过引用被并入本文中。

当前的空间化音频***可以与诸如3D电影、3D视频游戏和VR/AR/MR***中的3D光学***协作，以在光学和声学上呈现虚拟对象。对象之所以是“虚拟的”是因为它们不是位于三维空间中的相应位置中的真实物理对象。相反，当被分别引导到观众的眼睛和/或耳朵的光束和/或声波刺激时，虚拟对象仅存在于观看者和/或收听者的脑(例如，视觉和/或听觉中心)中。不幸的是，当前的空间化音频***的收听者位置和取向要求限制了它们以逼真的方式为不在适当位置的收听者创建虚拟对象的音频部分的能力。

当前的头戴式音频***(即，耳机或耳塞)可以被配置为产生空间化音频。然而，这些头戴式音频***被布置在收听者的耳朵上或收听者的耳朵中。因此，当前的头戴式音频***将触觉信号发送到收听者的大脑，这些触觉信号是由头戴式音频***与收听者的耳朵之间的物理接触所致。这些触觉信号可以导致心理声学效应，其向收听者暗示头戴式音频***所生成的声音从收听者耳朵的近距离处发出。因此，由当前的头戴式音频***产生的空间化音频可能看起来从与虚拟对象的位置不同的位置发出。此外，当前的头戴式音频***不能解决当前的空间化音频***的用户位置和取向要求。

随着家庭影院***的改进，传统电影院的观众正在流向家庭影院。因此，电影制作人和电影公司正在寻求电影技术的改进。在类似的技术空间中，混合媒体***(诸如在主题公园游乐设施(即，迪斯尼明星之旅(DISNEY'S STAR TOURS))中发现的那些)可以向3D电影和空间化音频添加真实生活特效，例如灯光和动作。然而，这种***及其昂贵并且不是个性化的。而且，这种混合媒体***不能解决当前的空间化音频***的固有用户位置和取向要求。

3D混合媒体***的用户通常需要穿戴便于感知3D图像的眼镜。这种眼镜可以包含具有不同偏振或滤色器的左右透镜，如在传统的立体3D***中那样。3D混合媒体***投射具有不同偏振或颜色的重叠图像，使得穿戴着立体眼镜的用户在左眼和右眼中看到略微不同的图像。利用这些图像中的差异来生成3D光学图像。

类似地，空间化音频***可以被穿戴在用户的头部上。然而，上述心理声学效应通过影响由***所呈现的虚拟音频源的感知位置而降低了当前的头戴式空间化音频***的有效性。

总之，当前的空间化音频***具有收听者位置和取向限制以及心理声学效应，此心理声学效应限制了向移动的收听者和处于各种位置和取向的多个收听者呈现与虚拟对象对应的空间音频的有效性。此外，传统的2D和3D电影、2D和3D视频游戏以及混合媒体***可以受益于这样的个性化：该个性化包括用于多个移动的用户/观看者/收听者的空间化音频，解决了用户位置和取向限制以及心理声学效应。

发明内容

一个实施例涉及一种空间化音频***，该空间化音频***包括要被穿戴在用户的头部上的框架。所述***还包括多个扬声器，所述扬声器被附接到所述框架，以便当所述用户穿戴所述框架时，所述多个扬声器中的每一个被布置在距所述用户的头部的相应非零距离处，使得所述多个扬声器中的每一个不接触所述用户的头部(包括所述用户的耳朵)的任何表面，包括所述用户的耳朵。所述***进一步包括用于收集所述用户的头部姿势数据的头部姿势传感器。此外，所述***包括用于根据所述头部姿势数据确定所述用户的头部姿势的头部姿势处理器。另外，所述***包括用于基于所确定的所述用户的头部姿势而生成空间化音频数据的空间化音频处理器。

在一个或多个实施例中，所述扬声器生成与所生成的空间化音频数据对应的声音。所述***还包括被耦接(例如，被紧密耦接)到多个扬声器的一个或多个放大器。这些放大器可以是智能放大器，该智能放大器监视被施加到所述扬声器的电流和电压并且被配置为避免扬声器过载。

在一个或多个实施例中，所生成的空间化音频数据包括用于多个虚拟音频源中的每一个的位置、取向和音量数据。所述多个扬声器可以将所生成的声音聚焦到所述用户的耳朵。所述多个扬声器中的每一个可以包括换能器。

在一个或多个实施例中，所述框架将所生成的声音聚焦到所述用户的耳朵。所述框架可以包括声波导以将所生成的声音引导到用户的耳朵。

在一个或多个实施例中，所述头部姿势传感器是IMU和/或视觉里程计***。所述多个扬声器可以可移除地被附接到所述框架。所述多个扬声器可以利用相应的磁体可移除地被附接到所述框架。

在一个或多个实施例中，所述***还包括电影院音频处理器，其可操作地被耦接到所述空间化音频处理器，其中所述电影院音频处理器生成电影院音频数据。所述***进一步包括多个电影院扬声器，其用于生成与所生成的电影院音频数据对应的电影院声音(cinema sound)。

在一个或多个实施例中，所述空间化音频处理器从所述电影院音频处理器接收定时信息/元数据，以使所述声音与所述电影院声音同步。所述定时信息可以包括时间码和/或线索(cue)。所述***还可以包括无线网络，其中所述电影院音频处理器通过所述无线网络将所述定时信息发送到所述空间化音频处理器。所述定时消息还可以包括对应于所生成的电影院声音的视频中的光学线索。所述定时消息还可以包括与对应于所生成的电影院声音的视频分开地投射的光学线索。所述定时信息还可以包括利用红外光投射的光学线索。

在一个或多个实施例中，所述电影院音频处理器将电影院信息发送到所述空间化音频处理器。所述电影院信息可以包括定时信息、虚拟对象声音信息、位置信息、取向信息、超链接或声学建模信息中的一者。所述虚拟对象声音信息可以包括单声道音频流。

在一个或多个实施例中，所述空间化音频处理器在第一时间从所述电影院音频处理器接收第一定时信息，以在所述第一时间使所述声音与所述电影院声音同步，以及所述空间化音频处理器在比所述第一时间晚的第二时间从所述电影院音频处理器接收第二定时信息，以在所述第二时间使所述声音与所述电影院声音同步。

在一个或多个实施例中，所述空间化音频处理器根据空间化音频源数据生成所述空间化音频数据。所述空间化音频源数据可以被预加载在所述空间化音频处理器上。所述空间化音频源数据可以被流式传输(stream)到所述空间化音频处理器。所述流式传输的空间化音频源数据可以在所述空间化音频处理器处被缓冲/高速缓存。

在一个或多个实施例中，所述空间化音频处理器补偿所述空间化音频处理器/所述多个扬声器与所述电影院音频处理器/所述多个电影院扬声器之间的等待时间差(latency difference)。

在一个或多个实施例中，所述***还包括用户传感器，其用于收集用户信息以便发送到所述电影院音频处理器。所述用户传感器可以被附接到所述框架。所述电影院音频处理器可以基于所述用户信息而修改所述电影院音频数据，使得所述电影院声音对应于修改后的电影院音频数据。所述用户信息可以包括来自所述用户的采样声音，并且其中所述修改后的电影院音频数据包含采样声音。

在一个或多个实施例中，所述多个电影院扬声器包括被配置为生成低频声音的超低音扬声器(subwoofer)，所述用户信息包括低频音频数据。所述电影院音频处理器基于所述低频音频数据而修改所述电影院音频数据，其中所述超低音扬声器生成对应于修改后的电影院音频数据的低频声音。所述超低音扬声器可以被设置为邻近所述用户的座位。所述超低音扬声器可以由所述用户穿戴。

在一个或多个实施例中，所述***还包括应用处理器，其可操作地被耦接到所述空间化音频处理器，以提供源数据，所述空间化音频处理器根据所述源数据生成所述空间化音频数据。所述应用处理器可以可操作地被耦接到所述电影院音频处理器。所述应用处理器可以使所述空间化音频数据与所述电影院音频数据同步。所述电影院音频数据可以以分支结构组织，其中修改后的电影院音频数据具有小于所述电影院音频数据的分支结构的修改后的分支结构。

在一个或多个实施例中，所述***还包括麦克风，其被附接到所述框架以记录所述电影院声音。所述***进一步包括同步模块，其可操作地被耦接到所述空间化音频处理器，其中所述同步模块分析所记录的电影院声音以识别电影院声道(cinema soundtrack)和所述电影院声道中的时间。所述同步模块基于所述电影院声道的识别和所述电影院声道中识别的时间而生成定时信息，以使所述声音与所述电影院声音同步。所述麦克风可以在回放所述电影院声音期间稍后记录所述电影院声音，其中所述同步模块分析所述稍后记录的电影院声音以识别所述电影院声道中的稍后时间，以便保持所述声音与所述电影院声音之间的同步。

在一个或多个实施例中，所述***还包括电影院声道数据库，其中所述同步模块将所记录的电影院声音与所述电影院声道数据库进行比较，以识别所述电影院声道和所述电影院声道中的时间。所述同步模块可以识别来自所记录的电影院声音的第一记录包(packet)与来自所述电影院声道数据库的第一数据库包之间的第一匹配。在所述同步模块识别所述第一匹配之后，所述同步模块可以识别来自所记录的电影院声音的第二记录包与来自所述电影院声道数据库的第二数据库包之间的第二匹配。

在一个或多个实施例中，所述电影院声道数据库包括多个音调簇(tonalcluster)。所述电影院声道数据库可以包括对应于音调簇的标识符、所述电影院声道中的相应时间、以及跟随所述音调簇的音调簇序列。所述同步模块可以将所记录的电影院声音与所述电影院声道数据库进行比较包括将所记录的电影院声音中的音调簇与所述电影院声道数据库中的音调簇进行匹配。所述多个音调簇中的每个音调簇可以是约1ms长。

在一个或多个实施例中，所述***还包括电影院声道数据库建立器(builder)，其用于扫描所述电影院声道并识别其中的多个音调簇。所述定时信息可以包括时间码。

在一个或多个实施例中，一种空间化音频***包括多个个人音频设备。所述多个个人音频设备中的每个个人音频设备包括要被穿戴在用户的头部上的框架。每个个人音频设备还包括多个扬声器，所述扬声器被附接到所述框架，以便当所述用户穿戴所述框架时，所述多个扬声器中的每一个被布置在距所述用户的头部的相应非零距离处，使得所述多个扬声器中的每一个不接触所述用户的头部，包括所述用户的耳朵。每个个人音频设备进一步包括用于收集所述用户的头部姿势数据的头部姿势传感器。此外，每个个人音频设备包括用于根据所述头部姿势数据确定所述用户的头部姿势的头部姿势处理器。另外，每个个人音频设备包括空间化音频处理器，其用于基于所确定的头部姿势和所述用户的特征而生成空间化音频数据。所述***还包括电影院音频处理器，其可操作地被耦接到所述空间化音频处理器，其中所述电影院音频处理器生成电影院音频数据。所述***进一步包括多个电影院扬声器，其用于生成与所生成的电影院音频数据对应的电影院声音。所述多个扬声器中的每一个生成与相应的所生成的空间化音频数据对应的声音。

在一个或多个实施例中，因为所述多个个人音频设备中的第一个人音频设备的第一用户的第一特征不同于所述多个个人音频设备中的第二个人音频的第二用户的第二特征，针对所述第一用户的第一所生成的空间化音频数据不同于针对所述第二用户的第二所生成的空间化音频数据。所述第一特征和所述第二特征可以是游戏中的不同级别。所述第一特征和所述第二特征可以是不同的个人偏好。所述第一特征和所述第二特征可以是不同的用户关注(focus)位置。所述第一特征和所述第二特征可以是剧院中的不同位置。所述第一特征和所述第二特征可以是不同的注意力标志(indicator of attention)。所述第一特征和所述第二特征可以是分别由所述第一用户和所述第二用户发出的不同声音。

在一个或多个实施例中，所述***还包括房间传感器，其用于测量所述用户所在的房间的声学特性，其中所述空间化音频处理器基于所确定的所述用户的头部姿势和所测量的所述房间的声学特性而生成所述空间化音频数据。所述房间传感器可以是用于收集房间声音以测量所述房间的声学特性的麦克风。所述房间传感器可以是用于收集房间图像以测量所述房间的声学特性的相机。

在另一实施例中，一种AR/MR***包括用于生成虚拟图像的显示***。所述***还包括上述空间化音频***。所述虚拟图像和所生成的声音是同步的。

在一个或多个实施例中，所生成的声音看起来源自虚拟对象。所生成的声音可以看起来源自真实物理对象。所生成的声音可以看起来源自真实自然人。所生成的声音可以看起来源自所述真实自然人的口中。所生成的声音可以与所述真实自然人的真实声音不同。所生成的声音可以看起来源自所述用户周围的多个源。所生成的声音可以看起来源自所述用户的体内。

在又一实施例中，一种个性化媒体***包括通用媒体***，所述通用媒体***包括：通用媒体处理器，其用于生成与媒体产品对应的通用视频和音频数据。所述通用媒体***还包括通用媒体显示器，其用于呈现与通用视频数据对应的通用光场。所述通用媒体***进一步包括多个通用媒体扬声器，其用于呈现与通用电影院音频数据对应的通用声场。所述个性化媒体***还包括多个个人媒体设备，所述多个个人媒体设备中的每个个人媒体设备包括姿势传感器，其用于收集所述用户的姿势数据。每个个人媒体设备还包括姿势处理器，其用于根据所述姿势数据确定所述用户的姿势。每个个人媒体设备进一步包括个人媒体处理器，其用于基于所确定的姿势和所述用户的特征而生成个人视频和音频数据。此外，每个个人媒体设备包括框架，其要被穿戴在用户的头部上。另外，每个个人媒体设备包括个人显示器，其被附接到所述框架并且被配置为呈现与所述个人视频数据对应的针对所述用户的个人三维光场。每个个人媒体设备还包括多个个人扬声器，其被附接到所述框架，以便当所述用户穿戴所述框架时，所述多个个人扬声器中的每一个被布置在距所述用户的头部的相应非零距离处，使得所述多个个人扬声器中的每一个不接触所述用户的头部，包括所述用户的耳朵。所述多个个人扬声器被配置为呈现与所述个人音频数据对应的针对所述用户的个人空间化声场。所述多个个人媒体设备中的每一个与所述通用媒体***同步，使得相应的个人三维光场、个人空间化声场、所述通用媒体光场和所述通用媒体声场形成针对所述用户的连贯(coherent)媒体体验。

在一个或多个实施例中，所述媒体产品是电影产品、游戏产品和/或混合媒体产品。所述用户的特征可以是所述用户的身份和/或所述用户的位置。所述用户的特征可以涉及所述用户与有关所述媒体的软件的交互。

在一个或多个实施例中，所述媒体产品是电影产品，并且所述软件是游戏。所述用户的姿势可以是头部姿势。所述个人显示器可以是AR/MR显示器。所述通用媒体处理器可以被配置为修改所述通用视频数据，使得所述通用光场的一部分被清空，其中所述通用光场的所述一部分对应于所述个人三维光场中的对象的位置。

附图说明

附图示出了本发明的各种实施例的设计和使用。应当注意，附图未按比例绘制，并且在所有附图中，相似的结构或功能的元件由相同的参考标记表示。为了更好地理解如何获得本发明的各种实施例的上述和其它优点和目的，将通过参考在附图中示出的具体实施例来对上面简要描述的本发明进行更详细的描述。应当理解，这些附图仅描绘了本发明的典型实施例，因此不应被认为限制本发明的范围，通过使用附图，将更加具体和详细地描述和解释本发明，在附图中：

图1示出了根据一个实施例的用户通过可穿戴的AR/MR用户设备对增强现实或混合现实(AR或MR)的视图；

图2是穿戴在用户/收听者头部上的根据一个实施例的空间化音频***的俯视示意图；

图3是图2所示的穿戴在用户/收听者头部上的空间化音频***的后视示意图；

图4是图2所示的穿戴在用户/收听者头部上的空间化音频***的更详细的俯视示意图；

图5至图8是根据各种实施例的穿戴在用户/收听者头部上的空间化音频***的局部透视图和局部示意图；

图9是根据一个实施例的空间化音频***的详细示意图；

图10是由真实物理音频源生成的空间化声场的示意图；

图11是根据另一实施例的空间化音频***的详细示意图；

图12是根据一个实施例的包括各种虚拟声源和虚拟对象的空间化电影院音频体验的后视示意图；

图13是图12所示的空间化电影院音频体验的侧视示意图；

图14是现有技术的电影院音频***的俯视图；

图15是现有技术的电影院音频***的示意图；

图16和17是根据一个实施例的个性化电影院音频***的俯视图，在图16中，用户面向前方，而在图17中，用户面向左侧；

图18至20是根据各种实施例的个性化电影院音频***的详细示意图；

图21是示出根据一个实施例的利用个性化的空间化音频***呈现空间化音频的方法的流程图；

图22和23是示出根据两个实施例的使个性化电影院音频的组件(component)同步的方法以及利用个性化电影院音频***呈现个性化电影院音频的方法的流程图。

图24是示出根据一个实施例的利用个性化电影院音频***呈现修改后的电影院音频的方法的流程图；

图25是示出根据一个实施例的利用个性化电影院音频***选择性地呈现个人音频的方法的流程图。

具体实施方式

本发明的各种实施例在单个实施例或多个实施例中涉及用于空间化音频***的***、方法和制品。在具体实施方式、附图以及权利要求中描述了本发明的其他目的、特征以及优点。

现在将参照附图详细描述各种实施例，提供各种实施例作为本发明的例示性示例以使本领域技术人员能够实践本发明。值得注意的是，以下附图和示例不旨在限制本发明的范围。在可以使用已知部件(或方法或过程)部分地或完全地实施本发明的某些要素的情况下，将仅描述这样的已知部件(或方法或过程)的对本发明的理解所必需的那些部分，且将省略这样的已知组件(或方法或过程)的其他部分的详细描述以不使本发明模糊。另外，各种实施例包含对本文中以例示的方式提到的部件的现在或未来已知的等同物。

空间化音频***可以独立于VR/AR/MR***来实现，但仅为了说明的目的，关于AR/MR***描述了下面多个实施例。

问题和解决方案摘要

空间化音频***(例如用于或形成2D/3D电影院***、2D/3D视频游戏和VR/AR/MR***的部分的空间化音频***)致使、呈现和发射与在真实和物理3D空间中具有虚拟位置的虚拟对象对应的空间化音频。如本申请中所使用的，“发射”或“呈现”音频包括但不限于使得形成可以被人类听觉***感知为声音的声波(包括亚音速低频声波)。空间化音频***通常使用坐标系(例如，具有位于原点处的空间化音频***和相对于空间化音频***的已知取向的坐标系)来“获知”(即，在其中记录)这些虚拟位置。与虚拟对象相关联的虚拟音频源具有内容、位置和取向。虚拟音频源的另一特征是音量，其作为距收听者的距离的平方而下降。然而，当前的空间化音频***(例如，5.1空间化音频***、7.1空间化音频***、电影院音频***和头戴式音频***)都具有收听者位置和取向限制，这些限制限制了空间化音频***可为其生成逼真的空间化音频的收听者的数量和特征。此外，当前的头戴式音频***引起穿戴者的心理声学效应，该效应进一步妨碍了头戴式音频***的声学成像能力。

本文描述的空间化音频***跟踪收听者的位置以更准确地呈现空间化音频，使得与各种虚拟对象相关联的音频看起来源自与相应虚拟对象对应的虚拟位置。此外，本文描述的空间化音频***跟踪收听者的头部姿势以更准确地呈现空间化音频，使得与各种虚拟对象相关联的定向音频看起来在适合于相应虚拟对象的虚拟方向上传播(例如，出自虚拟人物的口中，而不是出自虚拟人物头部的背面)。此外，本文描述的空间化音频***在其对空间化音频的呈现中包括其它真实物理对象和虚拟对象，使得与各种虚拟对象相关联的音频看起来由真实物理对象和虚拟对象适当地反射。另外，空间化音频***包括被附接到由收听者穿戴的框架的扬声器，使得扬声器被布置在距收听者耳朵的相应非零距离处(例如，在大约1cm范围内)，以防止对声学成像产生负面影响的心理声学效应。在某些实施例中，扬声器被布置在距用户耳朵3mm至3cm之间的距离处。

无论是2D还是3D的传统电影院，其观众都在流向不断改进的家庭影院***，这些家庭影院***包括改进的家庭空间化音频***。利用本文描述的空间化音频***和增强现实***，可以通过同步的空间化音频成像和AR/MR来增强传统电影院，从而增强电影院体验并个性化/定制用于使电影院体验个人化的内容。个性化电影院提供了一种新体验，该体验包含了与用户相对应的可用数据，从而提高了电影、游戏和混合媒体***的娱乐价值。

空间化音频***

AR/MR场景通常包括呈现对应于与真实世界对象相关的虚拟对象的图像和声音。例如，参考图1，示出了增强现实场景100，其中AR/MR技术的用户看到以人、树木、背景中的建筑物和真实世界的物理混凝土平台104为特征的真实世界物理公园状设置102。除了这些项目之外，AR/MR技术的用户还感知到他“看到”站在真实世界的物理平台104上的虚拟机器人雕像106，以及飞过的虚拟卡通式化身角色108，该化身角色看起来是大黄蜂的化身，即使这些虚拟对象106、108在真实世界中不存在。

为了呈现可信或可通过的AR/MR场景100，虚拟对象(例如，机器人雕像106和大黄蜂108)可以具有分别与其相关联的同步的空间化音频。例如，可以生成与机器人雕像106相关联的机械声音，使得该声音看起来源自与机器人雕像106对应的虚拟位置。类似地，可以生成与大黄蜂108相关联的嗡嗡声，使得该声音看起来源自与大黄蜂108对应的虚拟位置。

除了位置之外，空间化音频还可以具有取向。例如，与大黄蜂108相关联的“卡通式”声音可以看起来源自大黄蜂108的嘴110。尽管在图1所示的场景中，大黄蜂108面向观看者/收听者，但是在诸如其中观看者/收听者已经移到虚拟大黄蜂108后面的另一场景中，大黄蜂108可以背向观看者/收听者。在这种情况下，大黄蜂108的声音将被呈现为从场景中的其它对象(例如，机器人雕像106)反射的声音。

在一些实施例中，可以生成虚拟声音，使得该声音看起来源自真实物理对象。例如，可以生成虚拟鸟声，使得该声音看起来源自AR/MR场景100中的真实树木。类似地，可以生成虚拟语音，使得其看起来源自AR/MR场景100中真实的人。在AR/MR会议中，可以生成虚拟语音，使得其看起来源自真实的人的口中。虚拟语音可以听起来像真实的人的声音或完全不同的声音。在一个实施例中，虚拟语音可以看起来同时源自收听者周围的多个声源。在另一实施例中，虚拟语音可以看起来源自收听者的身体内。

以类似的方式，VR场景也可以受益于更准确和更少侵入的空间化音频生成和传送，同时最小化心理声学效应。与AR/MR场景一样，VR场景还必须考虑针对一个或多个移动的观看者/收听者单元的空间化音频呈现。在位置、取向和音量方面准确地呈现空间化音频可以提高VR场景的沉浸感，或者至少不会影响VR场景。

图2示意性地示出了从收听者头部200上方观看的俯视图中的穿戴在收听者头部200上的空间化音频***202。如图2所示，空间化音频***202包括框架204和被附接到框架204的四个空间化音频***扬声器206-1、206-2、206-3、206-4。空间化音频***扬声器206-1被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-1位于收听者头部200的前方F和左侧L。空间化音频***扬声器206-2被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-2位于收听者头部200的前方F和右侧R。空间化音频***扬声器206-3被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-3位于收听者头部200的后方B和左侧L。空间化音频***扬声器206-4被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-4位于收听者头部200的后方B和右侧R。所有空间化音频***扬声器206-1、206-2、206-3、206-4指向收听者头部200。图2所示的空间化音频***扬声器布置便于生成空间化音频。

如本申请中所使用的，“扬声器”包括但不限于生成声音(包括典型的人类听觉范围之外的声音)的任何装置。因为声音基本上是空气分子的运动，所以可以使用许多不同类型的扬声器来生成声音。图2所示的空间化音频***扬声器206-1、206-2、206-3、206-4中的一者或多者可以是传统的电动扬声器或者是使表面振动而生成声音的振动换能器。在包括振动换能器的实施例中，换能器可以使任何表面振动以生成声音，包括但不限于框架204和收听者的头骨。空间化音频***扬声器206-1、206-2、206-3、206-4可以可移除地被附接到框架204(例如，磁性地)，使得扬声器206-1、206-2、206-3、206-4可以被更换和/或升级。

图3示意性地示出了从收听者头部200后面观看的后视图中的图2所示的空间化音频***202。如图3所示，空间化音频***202的框架204可以被配置为使得当空间化音频***202被穿戴在收听者头部200上时，框架204的前部位于收听者头部200的上方A，框架204的后部位于收听者头部200的下方U。由于空间化音频***202的四个空间化音频***扬声器206-1、206-2、206-3、206-4被附接到框架204，因此当空间化音频***202被穿戴在收听者头部200上时，扬声器206-1、206-2也被布置在收听者头部200的上方A，并且扬声器206-3、206-4被布置在收听者头部200的下方U。图3所示的空间化音频***扬声器布置便于生成空间化音频，尤其是包括位于收听者头部200上方A和下方U的平面内的虚拟音频源的空间化音频。

尽管已经描述了空间化音频***扬声器206-1、206-2、206-3、206-4指向收听者头部200，但是更准确的描述是：扬声器206-1、206-2、206-3、206-4指向收听者的耳朵208-L、208-R，如图4所示。图4是与图2中所示的俯视图类似的俯视图。空间化音频***扬声器206-1、206-3指向收听者的左耳208-L。空间化音频***扬声器206-2、206-4指向收听者的右耳208-R。将空间化音频***扬声器206-1、206-2、206-3、206-4指向收听者的耳朵208-L、208-R使得为收听者呈现空间化音频所需的音量最小化。这转而减少了从空间化音频***202泄漏(即，指向非目标收听者)的声音量。框架204还可以被配置为将空间化音频聚焦到收听者耳朵208-L、208-R。例如，框架204可以包括或形成声波导以引导空间化音频。

图4还示出了空间化音频***扬声器206-1、206-2、206-3、206-4被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-1、206-2、206-3、206-4位于距收听者头部200的相应非零距离210-1、210-2、210-3、210-4处。如本申请中所使用的，“非零距离”包括但不限于防止两个表面之间明显接触的任何距离。例如，扬声器206位于距收听者/用户头部200的“非零距离”处意味着扬声器与收听者/用户头部200之间的最短距离使得扬声器206与收听者/用户头部200之间没有接触。收听者/用户头部200包括收听者耳朵208-L、208-R(参见距离210-3、210-4)。

尽管图2至图4中的***202包括四个空间化音频***扬声器206-1、206-2、206-3、206-4，但是其它空间化音频***可以包括更少或更多的空间化音频***扬声器。

现在参考图5至图8，示出了一些示例性空间化音频***组件选项。如图5所示，头戴式空间化音频***202(包括被耦接到多个空间化音频***扬声器206的框架204)由收听者穿戴在收听者头部200上。下面描述示例性空间化音频***202的可能的组件。所描述的组件并非全都是实现空间化音频***202所必需的。

所示的空间化音频***202中的两个空间化音频***扬声器206被定位在距收听者头部200的相应非零距离处，使得扬声器206不接触收听者头部200的任何表面。尽管在图5至图8中未示出，但是另一对空间化音频***扬声器206被定位在收听者头部206另一侧的距收听者头部200的相应非零距离处，以提供空间化声音。这样，该空间化音频***202包括总共四个空间化音频***扬声器206，类似于图2至图4所示的***。尽管图5、图7和图8所示的空间化音频***202中的空间化音频***扬声器206被附接到相应的框架204，但是空间化音频***202的一些或全部扬声器206可以被附接到或被嵌入头盔或帽子212，如图6中示出的实施例所示。

空间化音频***202的空间化音频***扬声器206可操作地(例如通过有线引线和/或无线连接214)被耦接到本地处理和数据模块216，本地处理和数据模块216可以以各种配置被安装，例如被固定地附接到框架204，被固定地附接到/嵌入如图6所示的实施例中示出的头盔或帽子212，以图7的实施例中所示的背包式配置可移除地被附接到收听者的躯干218，或者以图8的实施例中所示的腰带耦接式配置可移除地被附接到收听者的髋部220。

本地处理和数据模块216可以包括一个或多个节能的处理器或控制器，以及数字存储器，例如闪速存储器，这两者都可以被用于辅助数据的处理、缓存和存储。可以从可操作地被耦接到框架204的传感器捕获数据，所述传感器为例如图像捕获设备(诸如可见光和红外光相机)、惯性测量单元(包括加速度计和陀螺仪、“IMU”)、罗盘、麦克风、GPS单元和无线电设备。替代地或附加地，可以使用远程处理模块222和/或远程数据储存库224来获取和/或处理数据，在进行这样的处理或检索之后可能便于/引导扬声器206生成声音。本地处理和数据模块216可以例如经由有线或无线通信链路226、228可操作地被耦接到远程处理模块222和远程数据储存库224，使得这些远程模块222、224可操作地彼此耦接，并且可以作为资源用于本地处理和数据模块216。

在一个实施例中，远程处理模块222可以包括一个或多个相对强大的处理器或控制器，其被配置为分析和处理音频数据和/或信息。在一个实施例中，远程数据储存库224可以包括相对大规模的数字数据存储设施，该设施可以通过因特网或“云”资源配置中的其它网络配置可得。在一个实施例中，在本地处理和数据模块216中存储所有数据并且执行所有计算，从而允许从任何远程模块进行完全自主的使用。

在一个或多个实施例中，空间化音频***通常贴合特定收听者的头部，并且空间化音频***扬声器与收听者的耳朵对准。可以使用这些配置步骤以确保向收听者提供最佳空间化音频体验，而不会引起任何生理副作用，例如头痛、恶心、不适等。因此，在一个或多个实施例中，针对每个个体收听者配置(在物理上和数字上)收听者穿戴的空间化音频***，并且可以专门为收听者校准一组程序。例如，在一些实施例中，收听者穿戴的空间化音频***可以检测或被提供头戴式空间化音频***的空间化音频***扬声器与收听者耳朵之间的相应距离，以及收听者头部的3D绘图。所有这些测量可被用于提供适合给定收听者的定制的头戴式空间化音频***。在其它实施例中，为了执行空间化音频功能，可能不需要这样的测量。例如，松散贴合的空间化音频***可以被各种收听者舒适地使用，尽管虚拟音频源的空间化可能较不准确。

尽管不是实现空间化音频***所需要的，显示器230可以被耦接到框架204(例如，除了空间音频体验之外还用于光学AR/MR体验)，如图5至图8所示。示例性AR/MR显示器在序列号为14/738,877(代理案卷号为ML.20019.00)和序列号为14/555,585(代理案卷号为ML.20011.00)的美国实用新型专利申请中进行了描述，这些专利申请的内容先前已通过引用被并入本文中。在包括显示器230的实施例中，除了空间音频数据之外，本地处理和数据模块216、远程处理模块222和远程数据储存库224可以还处理3D视频数据。

图9示出了根据一个实施例的空间化音频***202，其包括经由有线引线和/或无线连接214可操作地被耦接到本地处理和数据模块216的多个空间化音频***扬声器206-1、206-2。空间化音频***202还包括头部姿势传感器232，其经由有线引线和/或无线连接214可操作地被耦接到本地处理和数据模块216。头部姿势传感器232被配置为收集收听者/用户的头部姿势数据。头部姿势传感器232可以包括图像捕获设备(诸如可见光和红外光相机)、惯性测量单元(包括加速度计和陀螺仪)、罗盘、麦克风、GPS单元或无线电设备中的一者或多者。尽管图9所示的空间化音频***202仅包括两个空间化音频***扬声器206-1、206-2，但是根据其它实施例的空间化音频***可以包括更多扬声器。

空间化音频***202进一步包括头部姿势处理器234，其用于至少基于由头部姿势传感器232收集的头部姿势数据而确定穿戴着空间化音频***202的收听者/用户的头部姿势。如本申请中所使用的，“头部姿势处理器”包括但不限于计算机的一个或多个单独的和独立的软件和/或硬件组件(在计算机能够确定头部姿势之前必须将这些组件添加到通用计算机)，以及其中添加有这些组件的计算机。

空间化音频***202进一步包括空间化音频处理器236，其用于至少基于由头部姿势处理器234确定的头部姿势而生成将被传送到穿戴着空间化音频***202的收听者/用户的空间化音频的空间化音频数据。所生成的空间化音频数据可以包括用于空间化声场中的每个虚拟音频源的内容、位置、取向和音量数据。如本申请中所使用的，“音频处理器”包括但不限于计算机的一个或多个单独的和独立的软件和/或硬件组件(在计算机能够生成空间化音频数据之前必须将这些组件添加到通用计算机)，以及其中添加有这些组件的计算机。空间化音频处理器234还可以基于空间化音频数据而生成用于多个空间化音频***扬声器206-1、206-2的音频信号，以将空间化音频传送给收听者/用户。

图10示出了由真实物理音频源302生成的空间化声场300。真实物理声源302具有位置和取向。真实物理声源302生成具有许多部分的声波。由于真实物理声源302相对于收听者头部200的位置和取向，声波的第一部分306被引导到收听者的左耳208-L。声波的第二部分306'被引导远离收听者头部200并被引向空间化声场300中的对象304。声波的第二部分306'从对象304反射，从而生成反射的第三部分306”，该三部分被引导到收听者的右耳208-R。由于声波的第一部分306以及第二和第三部分306'、306”的行进距离不同，这些部分将在稍微不同的时间到达收听者的左耳208-L和右耳208-R。此外，对象304可以在声波到达收听者的右耳208-R之前调制声波的反射的第三部分306”的声音。

图10所示的空间化声场300是相当简单的声场，其仅包括一个真实物理声源302和一个对象304。甚至再现该简单的空间化声场300的空间化音频***202必须考虑声波的各种反射和调制。其中具有多于一个声源和/或与声波相互作用的多于一个对象的空间化声场的复杂度呈指数地增加。空间化音频***202必须越来越强大以再现这些越来越复杂的空间化声场。尽管图9所示的空间化音频处理器236是本地处理和数据模块216的一部分，但是其它实施例中更强大的空间化音频处理器236可以是远程处理模块222的一部分，以便节省本地处理和数据模块216上的空间和功率。

图11示出了根据另一实施例的空间化音频***202。图10所示的***202类似于图9所示的***202。不同之处在于图10所示的空间化音频***包括放大器238，放大器238经由有线引线和/或无线连接214可操作地被耦接到本地处理和数据模块216。另一不同之处在于多个空间化音频***扬声器206-1、206-2经由有线引线和/或无线连接214可操作地被连接到放大器238而不是本地处理和数据模块216。放大器238基于来自本地处理和数据模块216的空间化音频数据而生成用于多个空间化音频***扬声器206-1、206-2的音频信号，以将空间化音频传送给穿戴着空间化音频***202的收听者/用户。放大器238被紧密耦接到多个空间化音频***扬声器206-1、206-2，使得放大器238在生成音频信号时监视空间化音频***扬声器206-1、206-2以使音频失真最小化并提高音频再现的准确性。

个性化的空间化电影院音频和视频体验

图12从收听者/观看者/用户头部200后面的前向透视图示出了根据一个实施例的空间化电影院音频和视频体验400。在空间化电影院音频和视频体验400中，收听者/观看者/用户被定位在用于电影院体验的房间(例如，电影院或家庭影院室)。空间化电影院音频和视频体验400包括第一和第二虚拟音频源402-1、402-2。这些虚拟音频源402-1、402-2对应于使用电影放映机和AR/MR显示器230呈现给用户的视觉信息。例如，第一虚拟音频源402-1可以对应于电影场景中的角色。第二虚拟音频源402-2可以对应于相关AR/MR场景中的喇叭。可以在电影院显示器/屏幕408上向用户显示电影场景中的角色，并且可以在被耦接到空间化音频/AR/MR***202(在图12中未示出，参见图5至8)的框架204的显示器230上向用户显示喇叭。或者，可以使用诸如立体影像、基于快门或偏振的传统电影院3D技术向用户显示电影场景中的角色。

图12还示出了与第一虚拟音频源402-1(即，虚拟角色)对应的声波的一部分406，该部分被引导到收听者的左耳208-L。图12进一步示出了与第二虚拟音频源402-2(即喇叭)对应的声波的第一部分406'，该部分被引导到虚拟对象404。第一部分406'从虚拟对象404反射，从而形成第二部分406”，该部分406”被引导到收听者的右耳208-R。

图13从侧视图示出了图12所示的空间化电影院音频和视频体验400的实施例。图13示出第一虚拟音频源402-1(即，虚拟角色)略低于收听者的左耳208-L，并且在电影院显示器/屏幕408后面。图13还示出了第二虚拟音频源402-2(即，喇叭)略高于收听者的右耳208-R，并且虚拟对象404的高度位于收听者的右耳208-R与第二虚拟音频源402-2之间。

使用AR/MR显示器204显示第二虚拟音频源402-2(即喇叭)。AR/MR显示器204可以被配置为在“以世界为中心”的视图中显示第二虚拟音频源402-2(以及任何其它虚拟对象)，使得第二虚拟音频源402-2的虚拟位置独立于观看者的姿势位置而在世界中被设定。因此，如果观看者将其头部转离第二虚拟音频源402-2，则他们将不再看到该虚拟对象。其它可能性包括但不限于其中虚拟对象的虚拟位置相对于观看者的身体而被设定的“以身体为中心”，以及其中虚拟对象的虚拟位置相对于观看者的头部而被设定的“以头部为中心”(例如，平视显示器(head-up display))。

尽管第一和第二虚拟音频源402-1、402-2不具有实际物理位置，但是它们的虚拟位置对于呈现与第一和第二虚拟音频源402-1、402-2对应的相应空间化音频很重要。尽管图12和图13所示的空间化电影院音频和视频体验400仅包括两个虚拟音频源402-1、402-2，但是其它空间化电影院音频体验可以包括更多或更少的虚拟音频源。例如，典型的电影场景可以包括许多虚拟音频源，例如背景音乐、背景噪声、与物理动作相关的声音，以及对话。再现这些许多虚拟音频源可以准确地增加收听者对空间化电影院音频体验的乐趣。

已经参考本文中用于产生和传送体验400的空间化音频***和AR/MR的实施例描述了空间化电影院音频和视频体验400。现在将描述其它视频和音频***可以被配置为传送空间化电影院音频和视频体验400，尽管具有不同的准确度和精度水平。

空间化电影院音频***

图14从俯视图示出了可用于产生空间化电影院音频体验的传统空间化电影院音频***502。空间化电影院音频***502包括被布置在用于电影院体验的房间(例如，电影院或家庭影院室)四周的多个电影院扬声器506-1、506-2、506-3、506-4。电影院扬声器506-1、506-2、506-3、506-4可以是各种尺寸的传统电动扬声器，使得每个电影院扬声器506可以被优化为产生特定频率的声音(例如，高音扬声器、中音扬声器和超低音扬声器)。

尽管图14所示的空间化电影院音频***502包括四个电影院扬声器506-1、506-2、506-3、506-4，但是其它空间化电影院音频***可以具有更少或更多的电影院扬声器。例如，大型电影院中的空间化电影院音频***将具有更多的电影院扬声器。尽管图14示出了电影院扬声器506-1、506-2、506-3、506-4相对均匀地分布在收听者头部200的周围，这仅仅是针对位于由空间化电影院音频***502生成的音频场的中心的收听者的情况。特别是在大型电影院中，收听者可以被定位在距音频场中心非常远的位置。这种偏离中心的收听者将感知到失真的音频体验，其失真量与距音频场中心的距离成比例。

另外，传统的空间化电影院音频***没有考虑可能用AR/MR设备增强其电影院体验的用户/收听者的头部姿势。因此，传统的空间化电影院音频***将不能同时为具有不同增强电影院体验的多个用户/收听者生成/呈现音频。

图15示意性地示出了另一传统空间化电影院音频***502。空间化电影院音频***502包括电影院音频处理器536和多个电影院扬声器506-1、506-2。电影院音频处理器536通过光纤、有线引线和/或无线连接214通信地被耦接到电影院扬声器5061、506-2。电影院音频处理器536接收电影院音频源数据，并根据所接收的源数据而生成电影院音频数据。电影院音频处理器536可以通过诸如因特网的网络而从由电影工作室或媒体内容发行者维护的数据库接收电影院音频源数据。电影院音频处理器536可以在播放电影之前或在播放电影的同时实时地接收电影院音频源数据。尽管图15所示的空间化电影院音频***502包括两个电影院扬声器506-1、506-2，但是其它空间化电影院音频***可以具有更少或更多的电影院扬声器。

个性化的空间化电影院音频***

图16从俯视图示出了根据一个实施例的个性化的空间化电影院音频***500，该***可被用于产生个性化的空间化电影院音频体验。个性化的空间化电影院音频体验包括传统空间化电影院音频体验的许多元素，例如图12和13所示的元素。此外，在传统空间化电影院音频体验之上的个性化的空间化电影院音频体验层是考虑了用户/收听者的位置、取向和姿势的个性化的空间化音频体验。

个性化的空间化电影院音频***500包括空间化电影院音频***502和个人空间化音频***202。空间化电影院音频***502包括被布置在用于电影院体验的房间(例如，电影院或家庭影院室)的四周的多个电影院扬声器506-1、506-2、506-3、506-4。空间化电影院音频***502具有与图14所示以及上述的***502相同的某些方面。这些***之间的差异将在下面详述。

个人空间化音频***202在图16中被示出为被穿戴在收听者头部200上。空间化音频***202包括框架204和被附接到框架204的四个个人空间化音频***扬声器206-1、206-2、206-3、206-4。空间化音频***扬声器206-1被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-1位于收听者头部200的前方F和左侧L。空间化音频***扬声器206-2被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-2位于收听者头部200的前方F和右侧R。空间化音频***扬声器206-3被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上时，扬声器206-3位于收听者头部200的后方B和左侧L。空间化音频***扬声器206-4被附接到框架204，使得当空间化音频***202被穿戴在收听者头部200上，扬声器206-4位于收听者头部200的后方B和右侧R。所有空间化音频***扬声器206-1、206-2、206-3、206-4指向收听者头部200。个人空间化音频***扬声器206-1、206-2、206-3、206-4也被附接到框架204，使得当个人空间化音频***202被穿戴在收听者头部200上时，扬声器206-1、206-2、206-3、206-4位于距收听者头部200的相应非零距离处。

图16所示的个性化的空间化电影院音频***500中的电影院扬声器506和个人扬声器206的布置便于生成和呈现个性化的空间化电影院音频。例如，电影院扬声器506可呈现与对于所有用户/收听者共同的背景对象和角色以及电影院声道对应的电影院音频。另外，个人扬声器206可以呈现与仅呈现给穿戴着个人空间化音频***202(例如，AR/MR***)的特定用户/收听者的虚拟对象对应的个人音频。以这种方式，可以为每个用户/收听者(例如，针对其位置、取向和头部姿势)定制个性化的空间化电影院音频体验。

尽管个人扬声器206可被用于呈现与仅呈现给特定用户/收听者的虚拟对象对应的个人音频，但来自个人扬声器206的个人音频可对应于呈现给电影院中所有用户/收听者的电影中的对象和角色。在这样的实施例中，来自每个用户/收听者的个人扬声器206的个人音频可以补充或替代对应于电影对象和角色的电影院音频。无论个人音频是否补充或替代电影院音频，个性化的空间化电影院音频***500均可以采用主动降噪技术来降低或抵消由个人音频补充或替代的电影院音频的部分。这些实施例可以解决为偏离电影院音频***音频场中心的用户/收听者准确地产生电影院音频的问题。

图17从俯视图示出了图16所示的个性化的空间化电影院音频***500实施例。然而，在图17中，用户/收听者头部200以及穿戴在其上的个人空间化音频***202已经向左转了90°。在该配置中，个人空间化音频***202的参考系已经向左旋转了90°。这样，用户/收听者头部200的右侧R面向电影院屏幕/显示器408，而用户/收听者头部200的左侧L面向剧院的后部。

如上面关于图9和图11(以及下文)所示的空间化音频***202所解释的，个人空间化音频***202知道用户/收听者的头部姿势并利用该头部姿势生成和呈现与电影(和/或其它媒体)以及用户/收听者头部200的位置一致的个人音频。例如，应该呈现个性化的空间化电影院音频和视频体验400中的声音，例如对应于第二虚拟音频源402-2(喇叭)的声音，使得用户/收听者将该音频源感知为位于收听者头部的右侧和略上方(参见图12和13)。在图16所示的个性化的空间化电影院音频***500的配置中，对应于喇叭的声音可以由收听者头部200右侧的个人空间化音频***扬声器206-2、206-4生成。另一方面，在图17所示的配置中，对应于喇叭的声音可以由收听者头部200的后侧的个人空间化音频***扬声器206-3、206-4生成。以这种方式，个性化的空间化电影院音频***500可以更准确地和更精确地为每个用户/收听者产生空间化电影院音频。

尽管图16和图17所示的个性化的空间化电影院音频***500包括四个电影院扬声器506-1、506-2、506-3、506-4和四个个人空间化音频***扬声器206-1、206-2、206-3、206-4，但是其它个性化的空间化电影院音频***500可以包括更少或更多的电影院扬声器506和个人空间化音频***扬声器206。可以协调电影院扬声器506和个人空间化音频***扬声器206的数量、类型、位置和取向，以优化个性化的空间化电影院音频向用户/收听者的呈现。例如，较大的电影院扬声器506(例如，超低音扬声器)可被用于呈现低频声音，而较小的个人空间化音频***扬声器206可被用于呈现高频和中频声音。

图18示意性地示出了根据一个实施例的个性化的空间化电影院音频***500。个性化的空间化电影院音频***500包括电影院音频***502和个人空间化音频***202。

图18所示的空间化电影院音频***502包括电影院音频处理器536和多个电影院扬声器506-1、506-2。电影院音频处理器536通过有线引线和/或无线连接214通信地被耦接到电影院扬声器506-1、506-2。电影院音频处理器536接收电影院音频源数据，并根据所接收的源数据生成电影院音频数据。电影院音频处理器536可以通过诸如因特网的网络从由电影工作室或媒体内容发行者维护的数据库接收电影院音频源数据。电影院音频处理器536可以在播放电影之前或在播放电影的同时实时地接收电影院音频源数据。尽管图18所示的空间化电影院音频***502包括两个电影院扬声器506-1、506-2，但是其它空间化电影院音频***可以具有更少或更多的电影院扬声器。

图18所示的个人空间化音频***202包括经由有线引线和/或无线连接214可操作地被耦接到本地处理和数据模块216的多个空间化音频***扬声器206-1、206-2。个人空间化音频***202还包括经由有线引线和/或无线连接214可操作地被耦接到本地处理和数据模块216的头部姿势传感器232。头部姿势传感器232被配置为收集收听者/用户的头部姿势数据。头部姿势传感器232可以包括图像捕获设备(诸如可见光和红外光相机)、惯性测量单元(包括加速度计和陀螺仪)、罗盘、麦克风、GPS单元或无线电设备中的一者或多者。尽管图18所示的个人空间化音频***202仅包括两个空间化音频***扬声器206-1、206-2，但是根据其它实施例的空间化音频***可以包括更多的扬声器。

个人空间化音频***202进一步包括头部姿势处理器234，其用于至少基于由头部姿势传感器232收集的头部姿势数据而确定穿戴着个人空间化音频***202的收听者/用户的头部姿势。如本申请中所使用的，“头部姿势处理器”包括但不限于计算机的一个或多个单独的和独立的软件和/或硬件组件(在计算机能够确定头部姿势之前必须将这些组件添加到通用计算机)，以及其中添加有这些组件的计算机。

个人空间化音频***202进一步包括空间化音频处理器236，其用于至少基于由头部姿势处理器234确定的头部姿势而生成将被传送到穿戴着个人空间化音频***202的收听者/用户的空间化音频的空间化音频数据。所生成的空间化音频数据可以包括空间化声场中的每个虚拟音频源的内容、位置、取向和音量数据。如本申请中所使用的，“音频处理器”包括但不限于计算机的一个或多个单独的和独立的软件和/或硬件组件(在计算机能够生成空间化音频数据之前必须将这些组件添加到通用计算机)，以及其中添加有这些组件的计算机。空间化音频处理器234还可以基于空间化音频数据而生成用于多个空间化音频***扬声器206-1、206-2的音频信号，以将空间化音频传送给收听者/用户。

此外，个人空间化音频***202包括同步模块244，其用于使由个人空间化音频***202呈现的个人音频与由电影院音频***502呈现的电影院音频在时间上同步。该时间同步确保个人音频内容符合电影院音频内容。

图18所示的个性化的空间化电影院音频***500中的电影院音频***502和个人空间化音频***202经由个人电影院***链路550可操作地和通信地耦接。根据某些实施例，个性化的空间化电影院音频***500包括从电影院音频***502到个人空间化音频***202的单向通信。该单向通信允许个人空间化音频***202：(1)识别由电影院音频***502呈现的电影媒体(例如，电影)，以及(2)使个人媒体(例如，特定于收听者/用户的声音)与电影院媒体同步。这样，某种类型的定时信息可用于实现个性化的空间化电影院音频***500。

图18所示的实施例中的个人电影院***链路550是双向通信链路。例如，电影院音频***502和个人空间化音频***202可以通过无线连接可操作地和通信地耦接，该无线连接包括但不限于Wi-Fi(IEEE 802.11x)、蓝牙和近场通信。双向通信允许电影院音频***502将媒体信息552(例如，媒体的元数据)发送到个人空间化音频***202，并允许个人空间化音频***202将用户/收听者信息554发送到电影院音频***502。

媒体信息552可以包括媒体识别信息和/或定时信息。媒体识别信息可以包括标题、EIDR号和/或其它数字对象标识符。定时信息可以包括时间码和/或线索。示例性时间码是UDP包中的SMPTE时间码或MIDI时间码。媒体识别信息允许接收媒体识别信息的个人空间化音频***202将个人音频内容传送给用户/收听者，该个人音频内容补充由电影院音频***502呈现的电影院音频内容。定时信息允许个性化电影院音频***500使个人空间化音频***202与电影院音频***502同步，从而使得个人音频内容符合电影院音频内容。

用户/收听者信息554可以包括与用户/收听者对媒体的反应有关的信息。这样的反应信息可以被手动输入(例如，经由UI)或被自动收集(例如，所记录的眼睛运动和/或声音，例如尖叫)。用户/收听者信息554还可以包括关于用户/收听者与媒体相关应用的交互的信息。这种应用的一个示例是基于电影(即，媒体)而在用户/收听者的移动电话上运行的游戏应用。用户/收听者信息554(例如来自游戏应用的信息)可以帮助个性化电影院音频***500针对特定用户/收听者来个性化个人音频内容，如下文将描述的。

在其它实施例中，例如在图19和图20所示的个性化的空间化电影院音频***500中，个人电影院***链路550是单向通信链路(从电影院音频***502到个人空间化音频***202)。例如，电影院音频***502和个人空间化音频***202可以通过由电影院***(例如，电影院音频***502)生成并且由个人空间化音频***202识别的一个或多个光学和/或音频线索可操作地和通信地耦接。

音频和/或光学线索可以传送媒体识别信息和定时信息。音频线索可以包括特定音频线索(例如，电影院声道旁边的声波)或音频媒体(例如，电影院声道)本身。特定音频线索可以是对于人类而言可听的或不可听的，只要个人音频***202可以检测和识别特定音频线索即可。特定音频线索可以是被编码有媒体信息552(例如，媒体识别信息和/或定时信息)的音频。可以以已知间隔重复特定音频线索，以促进电影院音频***502和个人空间化音频***202的时间同步。

同步间隔可以根据***性能而改变。例如，如果电影院音频***502定时和个人空间化音频***202定时在固定范围(例如，1ms)内，则可以增加同步间隔。另一方面，如果定时发散(diverge)，则可以减小同步间隔。

特定音频线索可以是短时间内在一个或多个电影院扬声器上播放以使它们不能被大多数观看者/用户识别的声音。在这样的实施例中，个人音频***202包括用于检测声音的音频传感器240(例如，麦克风)，如图19所示。音频传感器240例如通过有线引线和/或无线连接214可操作地被耦接到个人空间化音频***202的本地处理和数据模块216。声音可以是对普通用户来说可听的或不可听的，个人音频***202中具有相应的音频传感器240。

在音频线索包括音频媒体本身的实施例中，音频媒体(例如，电影院声道)可以被线索识别***检测为由音调簇构成的样本音频数据包，该样本音频数据包与数据库(例如，电影院声道音频数据包的数据库)中的多个参考音频数据包进行比较，以识别与该样本音频数据包相关联的媒体。当样本音频数据包与参考音频数据包匹配时，个人音频***202识别与该样本音频数据包相关联的媒体产品(例如，电影)。

参考音频数据包的数据库可以包括多个标识符，每个标识符与相应的参考音频数据包相关联。每个标识符可以对应于电影院声道中的相应时间和/或对应于跟随与标识符相关联的参考音频数据包的参考音频数据包的序列。个性化电影院音频***500可以包括参考音频数据包数据库建立器，其被配置为扫描音频媒体并识别其中的多个参考音频数据包(例如，音调簇)。在其它实施例中，参考音频数据包数据库建立器与个性化电影院音频***500分开，个性化电影院音频***500经由网络(例如，因特网)而访问参考音频数据包数据库。

以类似的方式，个人音频***202可以将样本音频数据包与数据库中的多个参考音频数据包进行匹配，以识别所识别的媒体产品(例如，电影)中的与该样本音频数据包相关联的时间(例如，时间码)。当样本音频数据包与一参考音频数据包匹配时，个人音频***202识别媒体产品(例如，电影)中的时间(例如，时间码)。将样本音频数据包与参考音频数据包进行匹配以识别媒体产品中的时间可以与识别媒体产品同时发生或者在识别媒体产品之后发生。在后一种情况下，个人音频***202可以将该样本音频数据包与特定于已识别的媒体产品的多个参考音频数据包进行比较，以提高***效率。可以以已知间隔重复地对音频数据包进行采样和识别，以促进电影院音频***502和个人空间化音频***202的时间同步。重复的音频数据包识别可以利用预测的匹配音频数据包并从其前进和/或后退以提高***效率。

像音频线索一样，光学线索可以包括特定光学线索(例如，电影旁边的图像)或光学媒体(例如，电影)本身。光学线索可以由电影院光学***呈现。特定光学线索可以是对人类而言可见的或不可见的，只要个人音频***202可以检测和识别该特定光学线索即可。特定光学线索可以是被编码有媒体信息552(例如，媒体识别信息和/或定时信息)的一个或多个图像。可以以已知间隔重复特定光学线索，以促进电影院音频***502和个人空间化音频***202的时间同步。

特定光学线索可以是“水印”，其可以在屏幕上显示短暂的时间，使得大多数观看者/用户不能识别它。在这样的实施例中，个人音频***202包括用于检测水印的光学传感器242，如图20所示。光学传感器240例如通过有线引线和/或无线连接214可操作地被耦接到个人空间化音频***202的本地处理和数据模块216。水印可以使用可见光或不可见(例如，红外)光来呈现，个人音频***202中具有相应的光学传感器240。

在光学线索包括光学媒体本身的实施例中，光学媒体(例如，电影)可以被线索识别***检测为样本光学数据包，该样本光学数据包与数据库(例如，电影图像光学数据包的数据库)中的多个参考光学数据包进行比较，以识别与该样本光学数据包相关联的媒体。当该样本光学数据包与一参考光学数据包匹配时，个人音频***202识别与该样本光学数据包相关联的媒体产品(例如，电影)。

以类似的方式，个人音频***202可以将样本光学数据包与数据库中的多个参考光学数据包相匹配，以识别所识别的媒体产品(例如，电影)中与该样本光学数据包相关联的时间(例如，时间码)。当样本光学数据包与一参考光学数据包匹配时，个人音频***202识别媒体产品(例如，电影)中的时间(例如，时间码)。将样本光学数据包与参考光学数据包进行匹配以识别媒体产品中的时间可以与识别媒体产品同时发生或在识别媒体产品之后发生。在后一种情况下，个人音频***202可以将样本光学数据包与特定于已识别的媒体产品的多个参考光学数据包进行比较，以提高***效率。可以以已知间隔重复地对光学数据包进行采样和识别，以促进电影院光学***502和个人空间化光学***202的时间同步。重复的光学数据包识别可以利用预测的匹配光学数据包并从其前进和/或后退以提高***效率。

无论个人电影院***链路550是双向还是单向通信链路，电影院音频***502都可以通过个人电影院***链路550向个人空间化音频***202发送媒体信息552(例如，媒体识别信息和定时信息)，如图19和图20所示。

已经描述了根据各种实施例的个性化的空间化音频***202和个性化的电影院音频***500的各个方面，现在将描述用于使用空间化音频***(例如，202)和个性化的电影院音频***(例如，500)呈现个性化的空间化音频和个性化的电影院音频的方法。

图21示出了根据一个实施例的利用个性化的空间化音频***呈现空间化音频的方法600。个性化的空间化音频***202可以包括头部姿势传感器232、头部姿势处理器234、空间化音频处理器236和个人空间化音频***扬声器206，例如，如图9、图11和18至20所示。

在步骤602，个性化的空间化音频***202可选地接收源音频数据。源音频数据对应于旨在经由个性化的空间化音频***202的扬声器206传送给用户/收听者的声音。源音频数据可以经由有线或无线连接从数据库被接收。或者，源音频数据可以预先被接收并存储在个性化的空间化音频***202上。个性化的空间化音频***202修改源音频数据，使得由扬声器206呈现的声音符合用户/收听者的头部姿势。用户头部(由当前头部姿势修改)与虚拟声源之间的相对坐标(包括角坐标)可被用于选择相应的头部相关传输函数(HRTF)，其可被用于处理单通道音频以提供通过扬声器206输出的左右侧空间化音频通道。

在步骤604，个性化的空间化音频***202收集姿势数据(例如，通过头部姿势传感器232收集头部姿势数据)。头部姿势传感器232可以包括图像捕获设备(诸如可见光和红外光相机)、惯性测量单元(包括加速度计和陀螺仪)、罗盘、麦克风、GPS单元或无线电设备中的一者或多者。头部姿势传感器232可以收集采用图像、加速度和陀螺仪信息、罗盘信息、声音、GPS信息和无线电传送中的一者或多者的形式的头部姿势数据。所有这些数据可被用于确定用户/收听者的头部姿势。

在步骤606，个性化的空间化音频***202(例如，头部姿势处理器234)确定当前穿戴着个性化的空间化音频***202的用户/收听者的姿势(例如，头部姿势)。由头部姿势处理器234执行的计算根据(例如，通过头部姿势传感器232)收集的姿势数据的类型而变化。

在步骤608，个性化的空间化音频***202(例如，音频处理器236)根据源音频数据和所确定的用户/收听者的姿势而生成空间化音频数据。例如，如图17所示，用户/收听者的头部向左转，个性化的空间化音频***202将生成空间化音频数据，使得虚拟地从虚拟对象发出到用户/收听者左侧的声音看起来源自用户/收听者头部的前方。还可以除了偏航之外，还考虑用户/收听者头部的俯仰和翻滚，来生成空间化音频数据。此外，可以考虑虚拟声源距用户/收听者头部的虚拟距离，来生成空间化音频数据。

在步骤610，个性化的空间化音频***202(例如，扬声器206)基于空间化音频数据而呈现声音。扬声器206的配置，例如图2至8所示的扬声器配置，有助于呈现沿三个轴(例如，X、Y和Z轴)可变的声音(例如，空间化音频)。

图22示出了根据一个实施例的使个性化电影院音频的组件同步，以及利用个性化的电影院音频***呈现个性化的电影院音频的方法700。个性化电影院音频***500可以包括个性化的空间化音频***202和电影院音频***502，例如如图18至20所示。个性化的空间化音频***202包括头部姿势传感器232、头部姿势处理器234、空间化音频处理器236、同步模块244和个人空间化音频***扬声器206。电影院音频***502包括电影院处理器536和电影院扬声器506。个性化的空间化音频***202和电影院音频***502通过个人电影院***链路550而可操作地耦接，个人电影院***链路550可以是双向链路(图18)或单向链路(图19和20)。

在步骤702，可选地连接个性化的空间化音频***202和电影院音频***502。该步骤通常利用双向链路550发生，例如无线连接，包括但不限于Wi-Fi(IEEE 802.11x)、蓝牙和近场通信。在具有双向链路550的实施例中，可以使用可能涉及认证(例如，Wi-Fi密码)的握手协议来连接个性化的空间化音频***202和电影院音频***502。同步模块244可以有助于该连接。

在步骤704，个性化电影院音频***500(即，个性化的空间化音频***202的同步模块244)从电影院音频***502接收媒体识别信息。媒体识别信息可以包括标题、EIDR号和/或其它数字对象标识符。媒体识别信息允许接收媒体识别信息的个人空间化音频***202将个人音频内容传送给用户/收听者，该个人音频内容补充由电影院音频***502呈现的电影院音频内容。媒体识别信息可以从电影院音频***502被传送到个人空间化音频***202(例如，通过双向链路550)。

在个性化的空间化音频***202和电影院音频***502未连接的实施例中，还可以使用音频线索，例如特定音频线索(例如，电影院声道旁边的声波)或音频媒体(例如电影院声道)本身，来传送媒体识别信息。此外，还可以使用光学线索，例如特定光学线索(例如，电影旁边的图像)或光学媒体(例如，电影)本身，来传送媒体识别信息。

在步骤706，个性化电影院音频***500(即，个性化的空间化音频***202的同步模块244)通过分析所接收的媒体识别信息来识别媒体。为了识别媒体，空间化音频处理器236可以简单地读取标题、EIDR号和/或其它数字对象标识符。或者，空间化音频处理器236可以将媒体识别信息与已知数据集(例如，特定音频/光学线索)进行比较。在线索包括媒体本身的实施例中，媒体(例如，电影院声道或电影)可以被线索识别***检测为样本数据包，该样本数据包与数据库(例如，电影院声道音频数据包的数据库或电影图像光学数据包的数据库)中的多个参考数据包进行比较，以识别与该样本数据包相关联的媒体。当样本数据包与一参考数据包匹配时，个人音频***202识别与该样本数据包相关联的媒体产品(例如，电影)。

在步骤708，个性化电影院音频***500(即，个性化的空间化音频***202的同步模块244)从电影院音频***502接收定时信息。定时信息可以包括时间码和/或线索。定时信息允许个性化电影院音频***500使个人空间化音频***202与电影院音频***502同步，使得个人音频内容符合电影院音频内容。定时信息可以从电影院音频***502被传送到个人空间化音频***202(例如，通过双向链路550)。

在个性化的空间化音频***202和电影院音频***502未连接的实施例中，还可以使用音频线索，例如特定音频线索(例如，电影院声道旁边的声波)或者音频媒体(例如电影院声道)本身，来传送定时信息。此外，还可以使用光学线索，例如特定光学线索(例如，电影旁边的图像)或光学媒体(例如，电影)本身，来传送定时信息。

在步骤710，个性化电影院音频***500(即，个性化的空间化音频***202的同步模块244)通过分析所接收的定时信息来识别媒体中的时间。为了识别时间，空间化音频处理器236可以简单地读取时间码。或者，空间化音频处理器236可以将定时信息与已知数据集(例如，特定音频/光学线索)进行比较。在线索包括媒体本身的实施例中，媒体(例如，电影院声道或电影)可以被线索识别***检测为样本数据包，该样本数据包与数据库(例如，电影院声道音频数据包的数据库或电影图像光学数据包的数据库)中的多个参考数据包进行比较，以识别与该样本数据包相关联的媒体。当样本数据包与一参考数据包匹配时，个人音频***202识别与该样本数据包相关联的媒体产品(例如，电影)。个人音频***202可以将样本数据包与特定于已识别的媒体的多个参考数据包进行比较，以提高***效率。

在步骤712，个性化电影院音频***500(即，个性化的空间化音频***202的同步模块244)使用媒体中识别的时间和个性化音频的已知时间来使个性化音频数据与电影院音频数据(即，个性化的空间化音频***202和电影院音频***502)同步。使个性化音频数据与电影院音频数据同步确保了个人音频内容符合电影院音频内容。例如，如果个人音频内容是演奏交响乐的乐团并且电影院音频内容是交响乐的低音部分，则使个性化音频数据与电影院音频数据同步确保了通过电影院音频***502的较大扬声器506传送低音部分，通过个人空间化音频***202的较小扬声器206传送交响乐的其余部分。

在步骤714，个性化电影院音频***500(例如，空间化音频***202的空间化音频***扬声器206和电影院音频***502的电影院扬声器206)呈现对应于同步的个人音频数据和电影院音频数据的音频/声音(例如，个性化音频和电影院音频)。个性化电影院音频***500可以通过数模转换器和放大器将个人音频数据和电影院音频数据呈现为音频/声音。

尽管未在图22中示出，但是可以以已知间隔重复地对时间码和/或数据包进行采样和识别，以促进电影院音频数据和个人空间化音频数据的时间同步。重复的数据包识别可以利用预测的匹配数据包并从其前进和/或后退以提高***效率。

将样本数据包与参考数据包进行匹配以识别媒体产品中的时间可以在已经识别出媒体产品之后发生(图22)或者在识别媒体产品的同时发生。例如，图23示出了根据另一实施例的利用个性化电影院音频***呈现个性化电影院音频的方法700'。图23所示的方法700'中的步骤702、712和714与图22所示的方法700中的对应步骤相同。

方法700、700'之间的一个区别是方法700的步骤704和708在方法700'中被折叠成新步骤704'。在步骤704'，个性化电影院音频***500(即，个性化的空间化音频***202的同步模块244)从电影院音频***502接收媒体识别信息和定时信息。关于媒体识别信息和定时信息的接收的细节类似于上面针对方法700的步骤704和708所描述的那些。一个区别在于，识别信息和定时信息二者都可以使用同一线索发送。

方法700、700'之间的另一区别在于，方法700的步骤706和710在方法700'中被折叠成新步骤706'。在步骤706'，个性化电影院音频***500(即，个性化的空间化音频***202的同步模块244)通过分析所接收的媒体识别信息和定时信息来识别媒体和媒体中的时间。关于媒体和媒体中的时间的识别的细节类似于上面针对方法700的步骤706和710所描述的那些。一个区别在于，对于线索包括媒体本身的实施例，媒体(例如，电影院声道或电影)可以被线索识别***检测为样本数据包，该样本数据包与数据库(例如，电影院声道音频数据包的数据库或电影图像光学数据包的数据库)中的多个参考数据包进行比较，以识别与样本数据包相关联的媒体及其中的时间。

图24示出了根据一个实施例的利用个性化电影院音频***呈现修改后的电影院音频的方法800。个性化电影院音频***500可以包括个性化的空间化音频***202和电影院音频***502，例如如图18所示。个性化的空间化音频***202包括头部姿势传感器232、头部姿势处理器234、空间化音频处理器236、同步模块244和个人空间化音频***扬声器206。电影院音频***502包括电影院处理器536和电影院扬声器506。个性化的空间化音频***202和电影院音频***502通过双向个人电影院***链路550可操作地耦接。

在步骤802，个性化电影院音频***500(即，个性化的空间化音频***202)收集用户/收听者信息。用户/收听者信息554可以包括关于用户/收听者对媒体的反应的信息。这样的反应信息可以被手动输入(例如，经由UI)或被自动收集(例如，所记录的眼睛运动和/或声音，例如尖叫)。用户/收听者信息554可以由可操作地被耦接到个性化的空间化音频***202的各种传感器收集。

在步骤804，个性化的空间化音频***202将用户/收听者信息发送到电影院音频***502。电影院音频***502又从个性化的空间化音频***202接收用户/收听者信息。用户/收听者信息的该传送可以经由双向个人电影院***链路550发生。

在步骤806，个性化电影院音频***500(即，电影院音频***502)可选地接收电影院音频数据。可以从由电影发行者操作的主计算机上的数据库接收电影院音频数据。在这样的实施例中，电影院音频***502可选地经由网络(例如，因特网)从主计算机接收电影院音频数据。

在步骤808，个性化电影院音频***500(即，电影院音频***502)基于用户/收听者信息而修改电影院音频数据。例如，在用户/收听者信息包括来自穿戴着相应个性化的空间化音频***202的许多观众成员的尖叫的实施例中，电影院音频***502可以修改电影院音频数据以添加来自观众成员的尖叫声。此修改针对观众使得电影院声道个性化。

在步骤810，电影院音频***502(例如，电影院扬声器506)基于修改后的电影院音频数据而呈现声音。电影院扬声器506可以被配置为便于呈现沿三个轴(例如，X、Y和Z轴)可变的声音(例如，空间化音频)。

在一些实施例中，用户/收听者信息554可以包括关于用户/收听者与媒体相关应用的交互的信息。这种应用的一个示例是基于电影(即，媒体)而在用户/收听者的移动电话上运行的游戏应用。用户/收听者信息554(例如来自游戏应用的信息)可以帮助个性化电影院音频***500针对特定用户/收听者来个性化个人音频内容。例如，作为媒体的一部分呈现给用户/收听者的角色/化身可以根据基于媒体的游戏应用中的用户/收听者的级别而变化。角色/化身可以经由被连接到AR/MR显示***的个性化的空间化音频***202而被呈现。

例如，图25示出了根据一个实施例的利用个性化电影院音频***选择性地呈现个人音频的方法900。个性化电影院音频***500可以包括个性化的空间化音频***202和电影院音频***502，例如，如图18所示。个性化的空间化音频***202包括头部姿势传感器232、头部姿势处理器234、空间化音频处理器236、同步模块244和个人空间化音频***扬声器206。电影院音频***502包括电影院处理器536和电影院扬声器506。个性化的空间化音频***202和电影院音频***502通过双向个人电影院***链路550可操作地耦接。

在步骤902，个性化电影院音频***500(即，个性化的空间化音频***202)收集用户/收听者信息。用户/收听者信息554可以包括关于用户/收听者与媒体相关应用的交互的信息。如上所述，用户/收听者信息554可以包括与电影相关的游戏应用中的用户级别或进度。在用户/收听者的电话上运行游戏应用的实施例中，个性化的空间化音频***202可以经由到用户/收听者的电话的无线链路(例如，Wi-Fi、蓝牙、NFC等)收集用户/收听者信息554。

在步骤904，个性化电影院音频***500(即，个性化的空间化音频***202)基于所接收的用户/收听者信息而选择性地请求个人音频数据。例如，所请求的个人音频数据可以对应于用户/收听者在游戏应用中的级别。对个人音频数据的请求可以伴随有对个人AR/MR数据的请求，该AR/MR数据也对应于用户/收听者在游戏中的级别。个人音频数据可以从由电影院或电影发行者操作的主计算机上的数据库请求。在这样的实施例中，个性化的空间化音频***202经由网络(例如，WLAN网络和/或因特网)将请求发送到主计算机。

在步骤906，个性化电影院音频***500(即，个性化的空间化音频***202)接收所请求的个人音频数据。个人音频数据可以从由电影院或电影发行者操作的主计算机上的数据库接收。在这样的实施例中，个性化的空间化音频***202经由网络(例如，因特网)从主计算机接收个人音频数据。

在步骤908，个性化的空间化音频***202(例如，个人空间化音频***扬声器206)基于所请求的个人音频数据而呈现声音。扬声器206(诸如图2至8所示的那些)的配置便于呈现沿三个轴(例如，X、Y和Z轴)可变的声音(例如，空间化音频)。

在步骤910，个性化的空间化音频***202可选地将所请求的个人音频数据发送到电影院音频***502，电影院音频***502转而接收所请求的个人音频数据。所请求的个人音频数据向电影院音频***502的传送允许电影院音频***在适当情况下修改电影院音频以符合个人音频。

个性化的空间化电影院体验

一种示例性个性化的空间化电影院体验涉及多个到电影院的穿戴着AR/MR显示器和空间化音频***的用户。AR/MR显示器和空间化音频***中的每一者与电影院视频和音频处理器同步，以为每个用户提供个性化的空间化电影院体验。例如，AR/MR显示器和空间化音频***可以使用上述任何技术与电影院视频和音频处理器同步。因此，空间化音频***中的AR/MR显示器可以访问与使用电影院视频和音频处理器显示的媒体对应的媒体识别和定时信息。如上所述，可以以适当的间隔要求定时信息以维持时间同步。

例如，媒体(例如，电影)可以在电影院屏幕上显示向用户移动的机器人。在机器人到达电影院屏幕的边缘之前，电影院视频和音频***可以利用AR/MR显示器和不主动生成图像或音频的空间化音频***呈现所有的图像和音频。因为AR/MR显示器和空间化音频***是用户耳朵和眼睛的非遮挡物(non-occluding)，所以用户可以看到和听到由电影院***生成的媒体。当机器人到达电影院屏幕的边缘时，观众中的AR/MR显示器和空间化音频***开始生成AR/MR图像和空间化音频。同时，电影院显示器(cinema display)的一部分可以被修改以符合AR/MR图像。例如，可以对电影院显示器的某些像素作空白处理。

机器人可以“走出屏幕”并进入每个用户的手臂长度范围内。由于机器人现在正由每个用户的AR/MR显示器和空间化音频***呈现，因此每个用户将看到和听到由其空间化音频***中的AR/MR显示器生成的光场和声场所呈现的个性化机器人。由于机器人现在针对每个用户进行了个性化，因此用户可能无法看到或听到与坐在他们旁边的用户交互的机器人。或者，每个用户可以看到和听到与他们的邻座交互的多个机器人。

尽管这已经被描述为个性化的空间化电影院体验，但是本文描述的***和方法同样适用于其它体验，例如游戏和混合媒体体验。个性化这些体验，包括添加空间化音频，极大地增加了用户的乐趣。

尽管在上述个性化的空间化音频***和个性化电影院音频***中以各种配置描述了各种***组件，但***配置旨在是说明性的而非限制性的。例如，在未示出的实施例中，特定***组件可以被布置在***的不同部分中。此外，归因于多个***组件的功能可以由单个***组件执行。此外，归因于单个***组件的多个功能可以由多个***组件执行。

尽管以特定顺序描述了各种方法(例如，生成空间化音频，将个人音频***链接到电影院音频***，以及生成个性化电影院音频)中的各种步骤，但是本文描述的步骤可以以任何顺序执行，只要能够实现所需结果即可。

在一些实施例中，个人音频数据(例如，媒体、媒体识别信息和定时信息)可以被流式传输到个人音频***。在其它实施例中，个人音频数据可以在需要个人音频数据来生成个性化的电影院音频体验之前被预加载在个人音频***上。在另外的实施例中，个人音频数据可以被流式传输到个人音频***的工作缓冲区中，该工作缓冲区保持特定分钟数的音频数据。然后，当电影播放时，该***可以将个人音频数据流式传输到工作缓冲区中。这样的***将使所需的内存最小化，使预加载时间最小化，并在网络中断时提供功能。

在一些实施例中，电影院处理器可以传送关于当前电影场景的元数据(例如，几何和材料数据)，该元数据可以被发送到个人音频***中的空间化音频处理器，以改善与当前电影场景相关的声学建模。

本文描述了本发明的各种示例性实施例。在非限制性的意义上参考这些示例。提供这些示例是为了示出本发明的更广泛的可应用方面。在不脱离本发明的真实精神和范围的情况下，可对所描述的发明进行各种改变并可用等同物来替换。此外，可以进行很多修改以适应针对本发明的目的、精神或范围的特定情况、材料、物质的组合物、过程、过程动作或步骤。进一步地，如本领域的技术人员所理解的，在不脱离本发明的范围或精神的情况下，本文描述和示出的每个单独的变型具有独立的组件和特征，其可容易地与其他若干实施例的任意一个的特征分离或组合。所有这些修改旨在处于与本公开相关联的权利要求的范围之内。

本发明包括可使用主题设备执行的方法。该方法可包括提供这种合适的设备的动作。这种提供可由终端用户执行。换言之，“提供”动作仅需要终端用户的获得、访问、处理、定位、设置、激活、通电或其它动作，以在主题方法中提供必要的设备。本文所述的方法可按逻辑上可能的所述事件的任何顺序以及以所述的事件顺序来执行。

以上已经阐述了本发明的示例性方面以及关于材料选择和制造的细节。对于本发明的其它细节，可结合以上参考的专利和出版物以及本领域的技术人员通常知道或理解的来理解。这在关于如通常或逻辑上采用的附加动作的方面，关于本发明的基于方法的方面同样成立。

此外，虽然已经参考可选地包括各种特征的若干示例描述了本发明，但是本发明并不限于被描述或指示为针对本发明的每个变型所预期的。在不脱离本发明的真实精神和范围的情况下，可以对所描述的本发明进行各种变化，并且可用等同物(无论是本文所陈述的还是为了简洁的目的而未被包括的)来代替。此外，如果提供值的范围，则应当理解，在该范围的上限和下限之间的每个中间值和在该说明的范围中的任何其它说明的或中间的值被包括在本发明之内。

此外，可预期的是，所描述的本发明变型的任何可选特征可以独立地或者与本文描述的任何一个或多个特征组合来阐述和要求权利。对单数项目的引用包括存在多个相同项的可能性。更具体地，除非另有具体说明，当本文和与本文相关联的权利要求中所使用时，单数形式“一”、“一个”、“所述”和“该”包括复数指示对象。换言之，使用所述冠词允许有上述说明书以及与本公开相关联的权利要求中主题项中的“至少一个”。还应注意，可以撰写这样的权利要求以排除任何可选要素。因此，本声明旨在作为使用与权利要求要素的使用相关的“只”、“仅”等排他性术语或使用“否定”限制的先行基础。

在不使用这种排他性术语的情况下，与本公开相关联的权利要求中的术语“包括”应允许包括任何附加要素，不管在这样的权利要求中是否列举了给定数量的要素，或者所述特征的添加可以被视为转变在这些权利要求中阐述的要素的性质。除非本文中具体限定，否则本文使用的全部技术术语和科学术语在保持权利要求有效性的同时被赋予尽可能宽的通常理解的含义。

本发明的广度不限于所提供的示例和/或主题说明书，而是仅由与本公开相关联的权利要求语言的范围限制。

在前述说明书中，已经参考本发明的具体实施例对本发明进行了描述。然而，显而易见的是，在不脱离本发明的更广泛的精神和范围的情况下，可以对本发明进行各种修改和改变。例如，参考处理动作的特定顺序来描述上述处理流程。然而，可以改变许多所描述的处理动作的排序而不影响本发明的范围或操作。因此，说明书和附图应被视为说明性的而非限制性的。

Claims

1.一种空间化音频***，包括：

框架，其要被穿戴在用户的头部上；

多个扬声器，其被附接到所述框架，以便当所述用户穿戴所述框架时，所述多个扬声器中的每一个被布置在距所述用户的头部的相应非零距离处，使得所述多个扬声器中的每一个不接触所述用户的头部的任何表面，包括所述用户的耳朵；

头部姿势传感器，其用于收集所述用户的头部姿势数据；

头部姿势处理器，其用于根据所述头部姿势数据确定所述用户的头部姿势；以及

空间化音频处理器，其用于基于所确定的所述用户的头部姿势而生成空间化音频数据，

其中所述扬声器生成与所生成的空间化音频数据对应的声音。

2.根据权利要求1所述的***，进一步包括：

电影院音频处理器，其可操作地被耦接到所述空间化音频处理器，其中所述电影院音频处理器生成电影院音频数据；以及

多个电影院扬声器，其用于生成与所生成的电影院音频数据对应的电影院声音，

其中所述空间化音频处理器从所述电影院音频处理器接收定时信息/元数据，以使所述声音与所述电影院声音同步。

3.根据权利要求2所述的***，其中所述空间化音频处理器从所述电影院音频处理器接收定时信息/元数据，以使所述声音与所述电影院声音同步。

4.根据权利要求3所述的***，进一步包括无线网络，其中所述电影院音频处理器通过所述无线网络将所述定时信息发送到所述空间化音频处理器。

5.根据权利要求3所述的***，其中所述定时信息包括对应于所生成的电影院声音的视频中的光学线索，与对应于所生成的电影院声音的视频分开地投射的光学线索，或者利用红外光投射光学线索。

6.根据权利要求2所述的***，其中所述电影院音频处理器将电影院信息发送到所述空间化音频处理器。

7.根据权利要求6所述的***，其中所述电影院信息包括定时信息、虚拟对象声音信息、位置信息、取向信息、超链接或声学建模信息中的一者。

8.根据权利要求2所述的***，其中所述空间化音频处理器在第一时间从所述电影院音频处理器接收第一定时信息，以在所述第一时间使所述声音与所述电影院声音同步，以及

其中所述空间化音频处理器在比所述第一时间晚的第二时间从所述电影院音频处理器接收第二定时信息，以在所述第二时间使所述声音与所述电影院声音同步。

9.根据权利要求2所述的***，其中所述空间化音频处理器补偿所述空间化音频处理器/所述多个扬声器与所述电影院音频处理器/所述多个电影院扬声器之间的等待时间差。

10.根据权利要求2所述的***，进一步包括用户传感器，所述用户传感器用于收集用户信息以便发送到所述电影院音频处理器。

11.根据权利要求10所述的***，其中所述电影院音频处理器基于所述用户信息而修改所述电影院音频数据，使得所述电影院声音对应于修改后的电影院音频数据。

12.根据权利要求11所述的***，

其中所述多个电影院扬声器包括被配置为生成低频声音的超低音扬声器，

其中所述用户信息包括低频音频数据，

其中所述电影院音频处理器基于所述低频音频数据而修改所述电影院音频数据，以及

其中所述超低音扬声器生成与修改后的电影院音频数据对应的低频声音。

13.根据权利要求12所述的***，其中所述超低音扬声器被设置为邻近所述用户的座位，或者所述超低音扬声器由所述用户穿戴。

14.根据权利要求11所述的***，其中所述电影院音频数据以分支结构组织，以及

其中所述修改后的电影院音频数据具有比所述电影院音频数据的分支结构小的修改后的分支结构。

15.根据权利要求10所述的***，其中所述用户信息包括来自所述用户的采样声音，并且其中所述修改后的电影院音频数据包含采样声音。

16.根据权利要求2所述的***，进一步包括应用处理器，所述应用处理器可操作地被耦接到所述空间化音频处理器以提供源数据，所述空间化音频处理器根据所述源数据而生成所述空间化音频数据。

17.根据权利要求16所述的***，其中所述应用处理器使所述空间化音频数据与所述电影院音频数据同步。

18.根据权利要求1所述的***，其中所述框架将所生成的声音聚焦到所述用户的耳朵。

19.根据权利要求1所述的***，其中所生成的空间化音频数据包括多个虚拟音频源中的每一个的位置、取向和音量数据。

20.根据权利要求1所述的***，其中所述多个扬声器利用相应的磁体可移除地被附接到所述框架。

21.一种空间化音频***，包括：

框架，其要被穿戴在用户的头部上；

头部姿势传感器，其用于收集所述用户的头部姿势数据；

22.根据权利要求21所述的***，进一步包括被耦接到所述多个扬声器的放大器。

23.根据权利要求21所述的***，其中所生成的空间化音频数据包括多个虚拟音频源中的每一个的位置、取向和音量数据。

24.根据权利要求21所述的***，其中所述多个扬声器将所生成的声音聚焦到所述用户的耳朵。

25.根据权利要求24所述的***，其中所述多个扬声器中的每一个包括换能器。

26.根据权利要求21所述的***，其中所述框架将所生成的声音聚焦到所述用户的耳朵。

27.一种AR/MR***，包括：

显示***，其用于生成虚拟图像；以及

根据权利要求21所述的空间化音频***，

其中所述虚拟图像和所生成的声音是同步的。

28.根据权利要求27所述的***，其中所生成的声音看起来源自虚拟对象。

29.根据权利要求27所述的***，其中所生成的声音看起来源自真实物理对象。

30.根据权利要求27所述的***，其中所生成的声音看起来源自真实自然人。

31.根据权利要求30所述的***，其中所生成的声音看起来源自所述真实自然人的口中。

32.根据权利要求31所述的***，其中所生成的声音与所述真实自然人的真实声音不同。

33.根据权利要求27所述的***，其中所生成的声音看起来源自所述用户周围的多个源。

34.根据权利要求27所述的***，其中所生成的声音看起来源自所述用户的体内。

35.根据权利要求21所述的***，其中所述头部姿势传感器是IMU。

36.根据权利要求21所述的***，其中所述头部姿势传感器是相机。

37.根据权利要求21所述的***，其中所述多个扬声器可移除地被附接到所述框架。

38.根据权利要求37所述的***，其中所述多个扬声器利用相应的磁体可移除地被附接到所述框架。

39.根据权利要求21所述的***，进一步包括：

多个电影院扬声器，其用于生成与所生成的电影院音频数据对应的电影院声音。

40.根据权利要求39所述的***，其中所述空间化音频处理器从所述电影院音频处理器接收定时信息/元数据，以使所述声音与所述电影院声音同步。

41.根据权利要求40所述的***，其中所述定时信息包括时间码。

42.根据权利要求40所述的***，其中所述定时信息包括线索。

43.根据权利要求40所述的***，进一步包括无线网络，其中所述电影院音频处理器通过所述无线网络将所述定时信息发送到所述空间化音频处理器。

44.根据权利要求40所述的***，其中所述定时信息包括对应于所生成的电影院声音的视频中的光学线索。

45.根据权利要求40所述的***，其中所述定时信息包括与对应于所生成的电影院声音的视频分开地投射的光学线索。

46.根据权利要求40所述的***，其中所述定时信息包括利用红外光投射的光学线索。

47.根据权利要求39所述的***，其中所述电影院音频处理器将电影院信息发送到所述空间化音频处理器。

48.根据权利要求47所述的***，其中所述电影院信息包括定时信息、虚拟对象声音信息、位置信息、取向信息、超链接或声学建模信息中的一者。

49.根据权利要求48所述的***，其中所述虚拟对象声音信息包括单声道音频流。

50.根据权利要求39所述的***，其中所述空间化音频处理器在第一时间从所述电影院音频处理器接收第一定时信息，以在所述第一时间使所述声音与所述电影院声音同步，以及

51.根据权利要求39所述的***，其中所述空间化音频处理器根据空间化音频源数据生成所述空间化音频数据。

52.根据权利要求51所述的***，其中所述空间化音频源数据被预加载在所述空间化音频处理器上。

53.根据权利要求51所述的***，其中所述空间化音频源数据被流式传输到所述空间化音频处理器。

54.根据权利要求53所述的***，其中流式传输的空间化音频源数据在所述空间化音频处理器处被缓冲/高速缓存。

55.根据权利要求39所述的***，其中所述空间化音频处理器补偿所述空间化音频处理器/所述多个扬声器与所述电影院音频处理器/所述多个电影院扬声器之间的等待时间差。

56.根据权利要求39所述的***，进一步包括用户传感器，所述用户传感器用于收集用户信息以便发送到所述电影院音频处理器。

57.根据权利要求56所述的***，其中所述用户传感器被附接到所述框架。

58.根据权利要求56所述的***，其中所述电影院音频处理器基于所述用户信息而修改所述电影院音频数据，使得所述电影院声音对应于修改后的电影院音频数据。

59.根据权利要求58所述的***，其中所述用户信息包括来自所述用户的采样声音，并且其中所述修改后的电影院音频数据包含采样声音。

60.根据权利要求58所述的***，

其中所述用户信息包括低频音频数据，

其中所述电影院音频处理器基于所述低频音频数据修改所述电影院音频数据，以及

61.根据权利要求60所述的***，其中所述超低音扬声器被设置为邻近所述用户的座位。

62.根据权利要求60所述的***，其中所述超低音扬声器由所述用户穿戴。

63.根据权利要求39所述的***，进一步包括应用处理器，所述应用处理器可操作地被耦接到所述空间化音频处理器以提供源数据，所述空间化音频处理器根据所述源数据生成所述空间化音频数据。

64.根据权利要求63所述的***，其中所述应用处理器可操作地被耦接到所述电影院音频处理器。

65.根据权利要求63所述的***，其中所述应用处理器使所述空间化音频数据与所述电影院音频数据同步。

66.根据权利要求58所述的***，其中所述电影院音频数据以分支结构组织，以及

67.根据权利要求39所述的***，进一步包括：

麦克风，其被附接到所述框架以记录所述电影院声音；以及

同步模块，其可操作地被耦接到所述空间化音频处理器，其中所述同步模块分析所记录的电影院声音以识别电影院声道和所述电影院声道中的时间，

其中所述同步模块基于所述电影院声道的识别和所述电影院声道中识别的时间而生成定时信息，以使所述声音与所述电影院声音同步。

68.根据权利要求67所述的***，

其中所述麦克风在所述电影院声音的回放期间稍后记录所述电影院声音，并且

其中所述同步模块分析所述稍后记录的电影院声音，以识别所述电影院声道中的稍后时间，从而保持所述声音与所述电影院声音之间的同步。

69.根据权利要求67所述的***，进一步包括电影院声道数据库，其中所述同步模块将所记录的电影院声音与所述电影院声道数据库进行比较，以识别所述电影院声道和所述电影院声道中的时间。

70.根据权利要求69所述的***，其中所述同步模块识别来自所记录的电影院声音的第一记录包与来自所述电影院声道数据库的第一数据库包之间的第一匹配。

71.根据权利要求70所述的***，其中在所述同步模块识别所述第一匹配之后，所述同步模块识别来自所记录的电影院声音的第二记录包与来自所述电影院声道数据库的第二数据库包之间的第二匹配。

72.根据权利要求69所述的***，其中所述电影院声道数据库包括多个音调簇。

73.根据权利要求72所述的***，其中所述电影院声道数据库包括与音调簇对应的标识符、所述电影院声道中的相应时间，以及跟随所述音调簇的音调簇序列。

74.根据权利要求72所述的***，其中所述同步模块将所记录的电影院声音与所述电影院声道数据库进行比较包括将所记录的电影院声音中的音调簇与所述电影院声道数据库中的音调簇进行匹配。

75.根据权利要求72所述的***，其中所述多个音调簇中的每个音调簇是约1ms长。

76.根据权利要求72所述的***，进一步包括电影院声道数据库建立器，所述电影院声道数据库建立器用于扫描所述电影院声道并识别其中的所述多个音调簇。

77.根据权利要求67所述的***，其中所述定时信息包括时间码。

78.一种空间化音频***，包括：

多个个人音频设备，所述多个个人音频设备中的每个个人音频设备包括：

框架，其要被穿戴在用户的头部上；

多个扬声器，其被附接到所述框架，以便当所述用户穿戴所述框架时，所述多个扬声器中的每一个被布置在距所述用户的头部的相应非零距离处，使得所述多个扬声器中的每一个不接触所述用户的头部，包括所述用户的耳朵；

头部姿势传感器，其用于收集所述用户的头部姿势数据；

空间化音频处理器，其用于基于所确定的头部姿势和所述用户的特征而生成空间化音频数据；

其中所述多个扬声器中的每一个生成与相应的所生成的空间化音频数据对应的声音。

79.根据权利要求78所述的***，其中因为所述多个个人音频设备中的第一个人音频设备的第一用户的第一特征不同于所述多个个人音频设备中的第二个人音频设备的第二用户的第二特征，针对所述第一用户的第一所生成的空间化音频数据不同于针对所述第二用户的第二所生成的空间化音频数据。

80.根据权利要求79所述的***，其中所述第一特征和所述第二特征是游戏中的不同级别。

81.根据权利要求79所述的***，其中所述第一特征和所述第二特征是不同的个人偏好。

82.根据权利要求79所述的***，其中所述第一特征和所述第二特征是不同的用户关注位置。

83.根据权利要求79所述的***，其中所述第一特征和所述第二特征是剧院中的不同位置。

84.根据权利要求79所述的***，其中所述第一特征和所述第二特征是不同的注意力标志。

85.根据权利要求79所述的***，其中所述第一特征和所述第二特征是分别由所述第一用户和所述第二用户发出的不同声音。

86.根据权利要求21所述的***，进一步包括房间传感器，所述房间传感器用于测量所述用户所在的房间的声学特性，其中所述空间化音频处理器基于所确定的所述用户的头部姿势和所测量的所述房间的声学特性而生成所述空间化音频数据。

87.根据权利要求86所述的***，其中所述房间传感器是用于收集房间声音以测量所述房间的声学特性的麦克风。

88.根据权利要求86所述的***，其中所述房间传感器是用于收集房间图像以测量所述房间的声学特性的相机。

89.一种个性化媒体***，包括：

通用媒体***，所述通用媒体***包括：

通用媒体处理器，其用于生成与媒体产品对应的通用视频和音频数据；

通用媒体显示器，其用于呈现与所述通用视频数据对应的通用光场；以及

多个通用媒体扬声器，其用于呈现与所述通用电影院音频数据对应的通用声场；以及

多个个人媒体设备，所述多个个人媒体设备中的每个个人媒体设备包括：

姿势传感器，其用于收集所述用户的姿势数据；

姿势处理器，其用于根据所述姿势数据确定所述用户的姿势；

个人媒体处理器，其用于基于所确定的姿势和所述用户的特征而生成个人视频和音频数据；

框架，其要被穿戴在用户的头部上；

个人显示器，其被附接到所述框架，并且被配置为呈现与所述个人视频数据对应的针对所述用户的个人三维光场；以及

多个个人扬声器，其被附接到所述框架，以便当所述用户穿戴所述框架时，所述多个个人扬声器中的每一个被布置在距所述用户的头部的相应非零距离处，使得所述多个个人扬声器中的每一个不接触所述用户的头部，包括所述用户的耳朵；

其中所述多个个人扬声器被配置为呈现与所述个人音频数据对应的针对所述用户的个人空间化声场，

其中所述多个个人媒体设备中的每一个与所述通用媒体***同步，使得所述相应的个人三维光场、个人空间化声场、所述通用媒体光场和所述通用媒体声场形成针对所述用户的连贯媒体体验。

90.根据权利要求89所述的***，其中所述媒体产品是电影产品。

91.根据权利要求89所述的***，其中所述媒体产品是游戏产品。

92.根据权利要求89所述的***，其中所述媒体产品是混合媒体产品。

93.根据权利要求89所述的***，其中所述用户的特征是所述用户的身份。

94.根据权利要求89所述的***，其中所述用户的特征是所述用户的位置。

95.根据权利要求89所述的***，其中所述用户的特征涉及所述用户与有关所述媒体的软件的交互。

96.根据权利要求95所述的***，其中所述媒体产品是电影产品，并且所述软件是游戏。

97.根据权利要求89所述的***，其中所述用户的姿势是头部姿势。

98.根据权利要求89所述的***，其中所述个人显示器是AR/MR显示器。

99.根据权利要求89所述的***，其中所述通用媒体处理器被配置为修改所述通用视频数据，使得所述通用光场的一部分被清空，以及

其中所述通用光场的所述一部分对应于所述个人三维光场中对象的位置。

100.根据权利要求89所述的***，其中所述个人视频数据包括对应于另一用户的另一个人视频数据。