CN110337318B

CN110337318B - 混合现实装置中的虚拟和真实对象记录

Info

Publication number: CN110337318B
Application number: CN201880014388.7A
Authority: CN
Inventors: 黄自强
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2017-02-28
Filing date: 2018-02-27
Publication date: 2024-06-14
Anticipated expiration: 2038-02-27
Also published as: JP2022009049A; EP3590097A4; CN110337318A; AU2018227710A1; KR20240000632A; US20230251823A1; JP6961007B2; EP3590097A1; AU2018227710B2; WO2018160593A1; KR20210119589A; AU2022204210B2; AU2022204210A1; EP3590097B1; IL288137B1; IL288137A; IL268397A; KR20220101210A; US11194543B2; CA3052834A1

Abstract

一种用于终端用户使用的虚拟图像生成***包括：存储器；显示子***；对象选择装置，其被配置为接收来自终端用户的输入并且响应于终端用户输入持续不断地选择至少一个对象的；以及控制子***，其被配置为渲染三维场景的多个图像帧、将图像帧传送到显示子***、生成源自至少一个选择的对象的音频数据、以及将音频数据存储在存储器中。

Description

混合现实装置中的虚拟和真实对象记录

技术领域

本发明一般地涉及虚拟现实和增强现实***。

背景技术

现代计算和显示技术促进了用于所谓的“虚拟现实”或“增强现实”体验的混合现实***的开发，其中数字再现图像或其部分以它们看起来是真实的或者可以被感知为真实的方式呈现给用户。虚拟现实或“VR”场景通常涉及呈现数字或虚拟图像信息而对实际的真实世界视觉输入不透明。增强现实或“AR”场景通常涉及呈现数字或虚拟图像信息作为对用户周围的实际世界的可视化的增强(即，对其他实际真实世界视觉输入是透明的)。因此，AR场景涉及对其他实际真实世界视觉输入透明的数字或虚拟图像信息的呈现。

例如，参考图1，描绘了增强现实场景4，其中AR技术的用户看到以人、树、背景中的建筑物和具体的平台8为特征的真实世界公园式设置6。除了这些项之外，AR技术的终端用户还感知到他“看到”站在真实世界平台8上的机器人雕像10以及类似卡通的化身角色12，该类似卡通的化身角色看起来是大黄蜂的拟人化，尽管这些元素10、12在真实世界中不存在。事实上，人类视觉感知***非常复杂，并且产生促进除了其他虚拟或真实世界图像元素之外的虚拟图像元素的舒适、自然感觉、丰富呈现的VR或AR技术是具有挑战性的。

VR和AR***通常采用头戴式显示器(或头盔式显示器或智能眼镜)，其至少松散地耦接到用户的头部，并由此在终端用户的头部移动时移动。如果显示***检测到终端用户的头部运动，则可以更新正在显示的数据以考虑头部姿势(即，用户头部的取向和/或位置)的变化。能够实现AR(即，同时观看虚拟和真实对象)的头戴式显示器可以具有几种不同类型的配置。在一种这样的配置中，通常被称为“视频透视”显示器，相机捕捉真实场景的元素，计算***将虚拟元素叠加到捕捉的真实场景上，以及非透明显示器将合成图像呈现给眼睛。另一种配置通常被称为“光学透视”显示器，其中终端用户可以透视显示***中的透明(或半透明的)元件以直接观看来自环境中的真实对象的光。透明元件(通常称为“组合器”)将来自显示器的光叠加在终端用户对真实世界的视图上。

通常，VR/AR***的用户可能想要通过在VR/AR***上记录和保存体验用于随后的在线发布，来与其他人分享他或她的体验(例如，在玩游戏、电话会议或观看电影时)。然而，由于嘈杂的环境而导致在记录中通常可能存在噪声和其他不想要的或意外的声音或者可能存在太多的声源，这会导致对体验而分心。这种不想要的/意外的声音可能来自真实对象，例如，来自在VR/AR***附近玩耍的儿童，或者来自虚拟对象，例如，来自在VR/AR***环境中重播的虚拟电视。

因此，仍然需要提供一种简单且有效的装置，用于仅记录来自用户感兴趣的虚拟或真实对象的声音。

发明内容

根据本发明的第一方面，一种用于终端用户使用的虚拟图像生成***包括存储器、显示子***和对象选择装置，该对象选择装置被配置为接收来自终端用户的输入并且响应于终端用户输入持续不断地选择至少一个对象(例如，真实对象和/或虚拟对象)。在一个实施例中，显示子***具有视场，以及对象选择装置被配置为持续不断地选择视场中的对象。在这种情况下，对象选择装置可以被配置为在显示子***的视场中移动三维光标并且响应于接收到终端用户输入而选择对象。在另一实施例中，终端用户输入包括一个或多个语音命令，并且其中对象选择装置包括被配置为感测语音命令的一个或多个麦克风。在又一实施例中，终端用户输入包括一个或多个手部姿势，在这种情况下，对象选择装置可以包括被配置为感测手部姿势的一个或多个相机。

在选择多个对象的情况下，对象选择装置可以被配置为响应于终端用户输入分别地选择和/或全局地选择对象。如果全局地选择，则对象选择装置可以被配置为响应于终端用户输入全局地选择视场的角度范围(其可以小于视场的整个角度范围或者可以是视场的整个角度范围)内的全部对象。在一个实施例中，对象选择装置还被配置为接收来自终端用户的另一输入并且响应于另一终端用户输入持续不断地取消选择先前选择的对象。

虚拟图像生成***还包括控制子***，该控制子***被配置为生成源自至少一个选择的对象的视频数据、渲染(render)来自视频数据的三维场景中的多个图像帧以及将图像帧传送到显示子***。在一个实施例中，显示子***被配置为定位在终端用户的眼睛的前方。在另一实施例中，显示子***包括投影子***和部分透明的显示表面。在这种情况下，投影子***可以被配置为将图像帧投影到部分透明的显示表面上，并且部分透明的显示表面可以被配置为定位在终端用户的眼睛与周围环境之间的视场中。虚拟图像生成***还可以包括框架结构，该框架结构被配置为由终端用户佩戴并且承载显示子***的至少一部分。

控制子***还被配置为生成源自选择的对象的音频数据并且将音频数据存储在存储器内。虚拟图像生成***还可以包括多个扬声器，在这种情况下，控制子***还可以被配置为将生成的音频数据传送到扬声器。在可选的实施例中，控制子***还被配置为将视频数据与音频数据同步地存储在存储器中。在又一实施例中，虚拟图像生成***还包括至少一个传感器，该至少一个传感器被配置为跟踪选择的对象相对于显示子***的视场的位置。在这种情况下，控制子***可以被配置为当跟踪的选择的对象的位置移出显示子***的视场时停止将音频数据存储在存储器中，或者可选地，控制子***被配置为当跟踪的选择的对象的位置移出显示子***的视场时继续将音频数据存储在存储器中。

如果选择的对象包括真实对象，则虚拟图像生成***还可以包括被配置为生成音频输出的麦克风组件，在这种情况下，控制子***还可以被配置为修改方向音频输出以优先感测源自选择的真实对象的声音。可以从修改的音频输出导出音频数据。虚拟图像生成***还可以包括一个或多个相机，该一个或多个相机被配置为捕捉源自选择的真实对象的视频数据，在这种情况下，控制子***还可以被配置为将视频数据与音频数据同步地存储在存储器中。控制子***可以被配置为将捕捉的视频数据变换为用于选择的真实对象的虚拟内容数据并且将虚拟内容存储在存储器中。

如果选择的对象包括虚拟对象，则虚拟图像生成***还可以包括数据库，该数据库被配置为存储与用于多个虚拟对象的声音对应的内容数据，在这种情况下，控制子***还可以被配置为从数据库中获取与选择的虚拟对象对应的内容数据，以及存储在存储器中的音频数据包括获取的内容数据。控制子***还可以被配置为生成与选择的虚拟对象对应的元数据(例如，用于选择的虚拟对象的位置、取向和体积数据)，在这种情况下，存储在存储器中的音频数据可以包括所获取的内容数据和生成的元数据。在一个实施例中，虚拟图像生成***还包括一个或多个传感器，该一个或多个传感器被配置为跟踪终端用户的头部姿势，在这种情况下，数据库可以被配置为存储用于多个虚拟对象的绝对元数据，以及控制子***还可以被配置为通过获取与选择的虚拟对象对应的绝对元数据来生成元数据，以及基于跟踪的终端用户的头部姿势将绝对元数据局部化到终端用户。

虚拟图像生成***还可以包括至少一个扬声器，在这种情况下，控制子***还可以被配置为从存储器检索存储的音频数据、从检索的音频数据导出音频并且将音频传送到扬声器。存储在存储器中的音频数据可以包括内容数据和元数据，在这种情况下，控制子***还可以被配置为从存储器中检索存储的内容数据和元数据、基于检索的内容数据和元数据渲染空间化的音频、以及将渲染的空间化音频传送到扬声器。

根据本发明的第二方面，提供了一种由终端用户操作虚拟图像生成***的方法。该方法包括持续不断地选择至少一个对象(例如，真实对象和/或虚拟对象)。在一种方法中，选择对象包括在终端用户的视场中移动三维光标并用三维光标选择对象。在另一种方法中，选择对象包括发出一个或多个语音命令。在又一种方法中，选择至少一个对象包括做出一个或多个手部姿势。如果选择了多个对象，则选择多个对象可以包括分别地选择对象和/或全局地选择对象。如果全局地选择，则可以通过限定终端用户的视场的角度范围(其可以小于视场的整个角度范围或者可以是视场的整个角度范围)并且选择终端用户的视场的限定角度范围内的对象的全部来选择对象。可选方法还可以包括持续不断地取消选择先前选择的对象。

该方法还包括生成源自选择的对象的视频数据、渲染来自生成的视频数据的三维场景中的多个图像帧、以及将图像帧显示给终端用户、生成源自至少一个选择的对象的音频数据、以及将源自所述至少一个选择的对象的音频数据存储在存储器中。一种方法还可以包括将源自选择的对象的音频数据变换为由终端用户感知的声音。该方法可以可选地包括将视频数据与音频数据同步地存储在存储器中。又一方法还可以包括跟踪选择的对象相对于终端用户的视场的位置。在这种情况下，该方法还可以包括当跟踪的选择的对象的位置移出终端用户的视场时停止将音频数据存储在存储器中，或者可选地，当跟踪的选择的对象的位置移出终端用户的视场时继续将音频数据存储在存储器中。

如果选择的对象包括真实对象，则该方法还可以包括相对于源自其他真实对象的声音优先地感测源自选择的真实对象的声音，在这种情况下，音频数据可以从优先感知的声音导出。该方法还可以包括捕捉源自选择的真实对象的视频数据，并将该视频数据与音频数据同步地存储在存储器中。捕捉的视频数据可以被变换为虚拟内容数据以存储在存储器中。

如果选择的对象包括虚拟对象，则该方法还可以包括存储与用于多个虚拟对象的声音对应的内容数据，并且获取与选择的虚拟对象对应的内容数据，在这种情况下，存储在存储器中的音频数据可以包括获取的内容数据。该方法还可以包括生成与选择的虚拟对象对应的元数据(例如，选择的虚拟对象的位置、取向和体积数据)，在这种情况下，存储在存储器中的音频数据可以包括获取的内容数据和生成的元数据。该方法还可以包括跟踪终端用户的头部姿势，以及存储用于多个虚拟对象的绝对元数据。在这种情况下，生成元数据可以包括：检索与选择的虚拟对象对应的绝对元数据，以及基于跟踪的终端用户的头部姿势将绝对元数据局部化到终端用户。

该方法还可以包括检索存储的音频数据、从检索的音频数据导出音频、以及将音频变换为由终端用户感知的声音。存储的音频数据可以包括内容数据和元数据，在这种情况下，该方法还可以包括从存储器中检索存储的内容数据和元数据、基于检索的内容数据和元数据渲染空间化的音频、以及将空间化的音频变换为由终端用户感知的声音。

根据本发明的第三方面，提供了一种由重播用户使用的虚拟图像生成***。该虚拟图像生成***包括：存储器，其被配置为存储源自原始空间环境中的至少一个对象(例如，真实对象和/或虚拟对象)的音频内容数据和视频内容数据；多个扬声器；以及显示器子***。在一个实施例中，显示子***被配置为定位在终端用户的眼睛的前方。在另一实施例中，显示子***包括投影子***和部分透明的显示表面。在这种情况下，投影子***可以被配置为将图像帧投影到部分透明的显示表面上，并且部分透明的显示表面可以被配置为定位在终端用户的眼睛与周围环境之间的视场中。虚拟图像生成***还可以包括框架结构，该框架结构被配置为由终端用户佩戴并且承载显示子***的至少一部分。

虚拟图像生成***还包括控制子***，该控制子***被配置为从存储器检索音频内容数据和视频内容数据、在原始空间环境不同的新空间环境中分别渲染来自检索的音频内容数据和视频内容数据的音频和视频、以及同步地将渲染的音频传送到扬声器且将生成的视频数据传送到显示子***。

在一个实施例中，控制子***被配置为将音频内容数据和视频内容数据存储在存储器中。虚拟图像生成***还可以包括对象选择装置，该对象选择装置被配置为在将音频内容数据和视频内容数据存储在存储器中之前，接收来自终端用户的输入并响应于终端用户输入持续不断地选择原始空间环境中的对象。

如果对象包括真实对象，则虚拟图像生成***还可以包括麦克风组件，该麦克风组件被配置为捕捉来自原始空间环境中的真实对象的音频内容数据。麦克风组件可以被配置为生成音频输出，在这种情况下，控制子***还可以被配置为修改方向音频输出以优先地感测源自选择的真实对象的声音。可以从修改的音频输出导出音频内容数据。虚拟图像生成***还可以包括一个或多个相机，该一个或多个相机被配置为捕捉来自原始空间环境中的选择的真实对象的视频数据。在可选实施例中，控制子***可以被配置为将捕捉的视频数据变换为用于选择的真实对象的虚拟内容数据，以及将虚拟内容数据作为视频内容数据存储在存储器中。

如果对象包括虚拟对象，则虚拟图像生成***还可以包括数据库，该数据库被配置为存储与用于多个虚拟对象的声音对应的内容数据，在这种情况下，控制子***还可以被配置为从数据库获取与虚拟对象对应的内容数据，并且存储在存储器中的音频数据可以包括获取的内容数据。

在一个实施例中，控制子***被配置为获取与新空间环境中的至少一个对象对应的绝对元数据，以及在新空间环境中根据检索的音频内容数据和绝对元数据渲染音频。获取与新空间环境中的对象对应的绝对元数据可以包括将对象定位在新空间环境中。在这种情况下，虚拟图像生成***还可以包括用户输入装置，该用户输入装置被配置为接收来自重播用户的输入，在这种情况下，控制子***可以被配置为响应于来自重播用户的输入将对象定位在新空间环境中。虚拟图像生成***还可以包括一个或多个传感器，该一个或多个传感器被配置为跟踪重播用户的头部姿势，在这种情况下，控制子***还可以被配置为基于跟踪的重播用户的头部姿势将绝对元数据局部化到重播用户，使得渲染的音频被空间化。

根据本发明的第四方面，提供了一种由重播用户操作虚拟图像生成***的方法，以将先前作为音频内容数据和视频内容数据记录的原始空间环境中的至少一个对象(例如，真实对象和/或虚拟对象)的音频和视频重播。该方法包括从存储器中检索音频内容数据和视频内容数据。一种方法还包括将音频内容数据和视频内容数据存储在存储器中。在这种情况下，该方法还可以包括在将音频内容数据和视频内容数据存储在存储器中之前持续不断地选择原始空间环境中的对象。

如果对象包括真实对象，则该方法还可以包括捕捉来自真实对象的音频内容数据。在这种情况下，该方法还可以包括相对于源自其他真实对象的声音优先地感测源自选择的真实对象的声音。音频内容数据从优先感测的声音导出。该方法还可以包括捕捉来自选择的真实对象的视频数据，以及将捕捉的视频数据变换为虚拟内容数据。如果对象包括虚拟对象，则该方法还可以包括存储与用于多个虚拟对象的声音对应的内容数据，以及从数据库获取与虚拟对象对应的内容数据。存储在存储器中的音频内容数据可以包括获取的内容数据。

该方法还包括在与原始空间环境不同的新空间环境中渲染来自检索的音频内容数据和视频内容数据的音频和视频、将音频和视频分别变换为声音和图像帧、以及同步地将声音和图像帧传送给重播用户。一种方法还包括获取与新空间环境中的对象对应的绝对元数据，在这种情况下，在新空间环境中根据检索的音频内容数据和绝对元数据渲染音频。该方法还可以包括跟踪重播用户的头部姿势，以及基于跟踪的重播用户的头部姿势将绝对元数据局部化到重播用户，在这种情况下，可以在新空间环境中根据检索的音频内容数据和局部化的元数据渲染音频，使得渲染的音频被空间化。获取与新空间环境中的对象对应的绝对元数据可以包括例如，响应于来自重播用户的输入，将对象定位在新空间环境中。

在详细说明、附图和权利要求中描述了本发明的附加和其他目的、特征和优点。

附图说明

附图示出了本发明的优选实施例的设计和效用，其中类似的元件由相同的附图标记表示。为了更好地理解如何获得本发明的上述和其他优点和目的，将通过参考其特定实施例来呈现上面简要描述的本发明的更具体的描述，这些实施例在附图中示出。应理解，这些附图仅描绘了本发明的典型实施例，因此不应认为是对其范围的限制，将通过使用附图的附加特征和细节来描述和解释本发明，其中：

图1是可以通过现有技术的增强现实生成装置向终端用户显示的三维增强现实场景的图片；

图2是根据本发明的一个实施例构造的增强现实***的透视图；

图3是图2的增强现实***的框图；

图4是在图2的增强现实***中使用的空间化的扬声器***的一个实施例的平面图；

图5是示出图2的增强现实***使用的允许终端用户分别选择对象的一种技术的平面图；

图6是示出图2的增强现实***使用的允许终端用户分别选择对象的另一种技术的平面图；

图7是示出图2的增强现实***使用的允许终端用户分别选择对象的又一种技术的平面图；

图8是示出图2的增强现实***使用的允许终端用户全局地选择多个对象的一种技术的平面图；

图9是示出图2的增强现实***使用的允许终端用户全局地选择多个对象的另一种技术的平面图；

图10a是可用于佩戴图2的增强现实***的一种技术的平面图；

图10b是可用于佩戴图2的增强现实***的另一种技术的平面图；

图10c是可用于佩戴图2的增强现实***的又一种技术的平面图；

图10d是可用于佩戴图2的增强现实***的再一种技术的平面图。

图11是示出图2的增强现实***与各种示例性各种虚拟和真实声音交互的框图；

图12是示出在图2的增强现实***中使用的音频处理器的一个实施例的框图。

图13是记录与由图2的增强现实***选择的虚拟和真实对象对应的内容数据和元数据的存储器的图；

图14是用于优先接收来自真实对象的声音的在图2的增强现实***中使用的麦克风组件和对应的音频处理模块的示意图；

图15a是由图2的增强现实***的音频处理器生成的方向性图案的平面图，以优先接收来自具有相对于终端用户的第一取向的两个对象的声音；

图15b是由图2的增强现实***的音频处理器生成的方向性图案的平面图，以优先接收来自具有相对于终端用户的第二取向的两个对象的声音；

图16a是相对于终端用户分布在原始空间环境中的对象的框图；

图16b是相对于终端用户分布在新空间环境中的图17a的对象的框图；

图17是示出操作图2的增强现实***以选择和记录虚拟和真实对象的音频和视频的一种方法的流程图；以及

图18是示出操作图2的增强现实***以在新空间环境中重播图17中记录的音频和视频的一种方法的流程图。

具体实施方式

以下描述涉及要在增强现实***中使用的显示***和方法。然而，应该理解，虽然本发明很适合于增强现实***中的应用，但是本发明在其最广泛的方面可以不受此限制。例如，本发明可以应用于虚拟现实***。因此，尽管这里根据增强现实***经常描述，但是教导不应限于这种用途的这种***。增强现实***可以在例如视频游戏、具有虚拟人和真人的组合的电话会议或观看电影的背景下操作。

本文描述的增强现实***允许终端用户记录源自终端用户持续不断地选择的至少一个对象(虚拟或真实的)的音频数据。这种记录的音频数据随后可以由相同或不同的终端用户重播。源自记录的音频数据的声音可以在最初记录音频数据的真实环境中重播给相同或不同的终端用户。除了记录音频数据的内容之外，可以与这样的音频数据相关联地记录表征最初记录音频内容的环境和终端用户的头部姿势的元数据，以便在重播期间音频可以被重新渲染并变换成空间化的声音，该空间化的声音以终端用户在原始记录期间听觉地体验空间化的声音的相同方式而被听觉地体验。可选地，可以重新渲染音频并将其变换为空间化的声音以供新的虚拟或真实环境中的相同或不同的终端用户感知，使得相同或不同的终端用户可以具有适合于新环境的听觉体验。音频数据可以与源自周围环境中的虚拟对象和真实对象的视频数据同步地记录。

可以操作本文描述的增强现实***以提供与终端用户的视场中的真实(或物理)对象混合的虚拟对象的图像，以及提供与源自真实(或物理)源(在视场内部或外部)的真实声音混合的源自虚拟源(在视场内部或者外部)的虚拟声音。为此，现在将参考图2和3描述根据本发明构造的增强现实***100的一个实施例。增强现实***100包括显示子***102，该显示子***102包括显示屏104和将图像投影到显示屏104上的投影子***(未示出)。

在所示实施例中，显示屏104是部分透明的显示屏，通过该显示屏，终端用户50可以看到周围环境中的真实对象，并且可以在其上显示虚拟对象的图像。增强现实***100还包括由终端用户50佩戴的框架结构106，该框架结构106承载部分透明的显示屏104，使得显示屏104定位在终端用户50的眼睛52的前方，特别是在终端用户50的眼睛52与周围环境之间的终端用户50的视场中。

显示子***102被设计成以高水平的图像质量和三维感知向终端用户50的眼睛52呈现可以被舒适地感知为对物理现实的增强的基于照片的辐射图案以及能够呈现二维内容。显示子***102以提供单个相干场景的感知高频来呈现帧序列。

在可选实施例中，增强现实***100可以使用一个或多个成像器(例如，相机)来捕捉周围环境的图像并将其变换为视频数据，然后可以将视频数据与表示虚拟对象的视频数据混合，在这种情况下，增强现实***100可以在不透明的显示表面上向终端用户50显示代表混合的视频数据的图像。

描述显示子***的进一步细节在序列号No.14/212,961的题目为“DisplaySubsystem and Method(显示子***和方法)”的美国临时专利申请和序列号No.14/331,216的题目为“Planar Waveguide Apparatus With Diffraction Element(s)andSubsystem Employing Same(具有衍射元件的平面波导装置和采用其的子***)”的美国临时专利申请中描述，本文通过引用将其明确地并入。

增强现实***100还包括一个或多个扬声器108，用于仅将来自虚拟对象的声音呈现给终端用户50，同时允许终端用户50直接听到来自真实对象的声音。在可选实施例中，增强现实***100可包括一个或多个麦克风(未示出)以捕捉源自周围环境的真实声音并将其变换成音频数据，该音频数据可与来自虚拟声音的音频数据混合，在这种情况下，扬声器108可以将表示混合的音频数据的声音传送给终端用户50。

在任何情况下，扬声器108由框架结构106承载，使得扬声器108定位在终端用户50的耳道附近(在其中或周围)，例如，耳塞式耳机或头戴式耳机。扬声器108可以提供立体的/可成形的声音控制。虽然扬声器108被描述为定位在耳道附近，但是不位于耳道附近的其他类型的扬声器也可用于将声音传送给终端用户50。例如，扬声器可放置在离耳道的距离处，例如，使用骨传导技术。在图4所示的可选实施例中，多个空间化的扬声器108可以位于终端用户50的头部54周围(例如，四个扬声器108-1、108-2、108-3和108-4)、被配置为接收来自头部54的左、右、前和后的声音并且指向终端用户50的左耳和右耳56。可用于增强现实***的空间化扬声器的进一步细节在序列号No.62/369,561的题目为“Mixed Reality Systemwith Spatialized Audio(具有空间化的音频的混合现实***)”的美国临时专利申请中描述，本文通过引用将其明确地并入。

重要地，增强现实***100被配置为允许终端用户50选择一个、几个或全部对象(虚拟的或真实的)以仅记录来自这些选择的对象的声音。为此，增强现实***100还包括对象选择装置110，该对象选择装置110被配置为响应于来自终端用户50的输入，选择一个或多个真实对象(即，真实声音源自的真实对象)和虚拟对象(即，虚拟声音源自的虚拟对象)以记录来自其中的声音。对象选择装置110可以被设计为分别选择在终端用户50的视场中的真实对象或虚拟对象和/或全局地选择终端用户50的视场中的子集或全部真实对象或虚拟对象。对象选择装置110还可以被配置为响应于来自终端用户50的附加输入而取消选择一个或多个先前选择的真实对象或虚拟对象。在这种情况下，对象选择装置110可以被设计为以与先前选择真实对象或虚拟对象的方式相同的方式取消选择真实对象或虚拟对象。在任何情况下，持续不断地选择特定对象，这意味着特定对象保持在被选择的状态，直到有意地被取消选择。

在一个实施例中，显示子***102可以在终端用户50的视场中显示三维光标，其响应于到对象选择装置110中的输入，可以在终端用户50的视场中移位，用于选择增强现实场景中的特定真实对象或虚拟对象。

例如，如图5所示，四个虚拟对象(V1-V4)和两个真实对象(R1-R2)位于显示屏104的视场60内。显示子***102可以显示视场60中的3D光标62，其在图中以圆形的形式示出。响应于终端用户50到对象选择装置110中的输入，3D光标62可以在一个对象之上移动，并且在这种情况下，在虚拟对象V3之上移动，从而将3D光标62与该对象相关联。然后，响应于终端用户50到对象选择装置110中的附加输入，可以选择关联对象。为了提供特定对象(在这种情况下，虚拟对象V3)与3D光标62相关联并且准备好用于选择的视觉反馈，可以突出显示(例如，颜色或阴影的变化)关联对象或甚至3D光标62本身。在选择之后，对象可以保持突出显示，直到被取消选择。当然，代替虚拟对象V3或者除了虚拟对象V3之外，可以通过将3D光标62放置在增强现实场景4中的其他对象中的任何对象之上并选择3D光标62内的对象，来选择增强现实场景4中的其他对象，包括真实对象。还应当理解，尽管图5中的3D光标62采用圆形的形式，但3D光标62可以是任何形状，包括箭头，终端用户50可以使用该形状指向特定的对象。可以通过在先前选择的对象之上移动3D光标62并取消选择该对象来取消选择视场60中的先前选择的对象中的任何对象。

对象选择装置110可以采用允许终端用户50在特定对象之上移动3D光标62并随后选择该特定对象的任何装置的形式。在一个实施例中，对象选择装置110采用常规的物理控制器的形式，例如鼠标、触摸板、操纵杆、方向按钮等，物理控制器可以被物理操纵以在特定对象之上移动3D光标62并且“被点击”以选择特定对象。

在另一个实施例中，对象选择装置110可以包括麦克风和对应的语音解释模块，该语音解释模块响应于语音命令，可以在特定对象之上移动3D光标62然后选择该特定对象。例如，终端用户50可以说出方向命令，例如，向左移动或向右移动，以在特定对象之上不断地移动3D光标62，然后说出诸如“选择”的命令以选择特定对象。

在又一个实施例中，对象选择装置110可以包括安装到框架结构106的一个或多个相机(例如，面向前的相机112)和能够跟踪终端用户50的物理手势(例如，手指移动)的对应处理器(未示出)，该物理手势相应地将3D光标62移动到特定对象之上，用于选择特定对象。例如，终端用户50可以使用手指在特定对象之上在视场60内“拖动”3D光标62，然后“轻敲”3D光标62以选择特定对象。或者，例如，至少部分地基于终端用户50的头部54的取向，面向前的相机112可以例如用于检测或推断终端用户50的注意力中心，该终端用户50的头部54的取向相应地将3D光标62移动到特定对象之上，用于选择特定对象。例如，终端用户50可以移动他或她的头部50以在特定对象之上在视场60内“拖动”3D光标62，然后快速点他或她的头部50以选择特定对象。

在又一个实施例中，对象选择装置110可以包括一个或多个相机(例如，面向后的相机114(图2中所示))和跟踪终端用户50的眼睛52的对应处理器，特别是跟踪终端用户50聚焦的方向和/或距离，其相应地将3D光标62移动到特定对象之上，用于选择特定对象。面向后的相机114可以跟踪终端用户50的眼睛52的角度位置(眼睛指向的方向)、眨眼和聚焦深度(通过检测眼睛会聚)。例如，终端用户50可以在视场内移动他或她的眼睛54以在特定对象之上“拖动”3D光标，然后眨眼以选择特定对象。例如，可以通过在终端用户的眼睛处投射光并且检测至少一些投射光的返回或反射来辨别这种眼睛跟踪信息。讨论眼睛跟踪装置的进一步细节在序列号No.14/212,961的题目为“Display Subsystem and Method(显示子***和方法)”的美国临时专利申请、序列号No.14/726,429的题目为“Methods andSubsystem for Creating Focal Planes in Virtual and Augmented Reality(用于在虚拟和增强现实中创建焦平面的方法和子***)”的美国专利申请以及序列号No.14/205,126的题目为“Subsystem and Method for Augmented and Virtual Reality(用于增强和虚拟现实的子***和方法)”的美国专利申请中描述，本文通过引用将其明确地并入。

在可选实施例中，对象选择装置110可以将常规物理控制器、麦克风/语音解释模块和/或相机组合以移动和使用3D光标62来选择对象。例如，可以使用物理控制器、手指手势或眼睛移动在特定对象之上移动3D光标62，并且可以使用语音命令选择该特定对象。

不是使用3D光标62来选择终端用户50的视场中的对象，而是可以通过语义地识别该特定对象或通过显示给终端用户50的菜单选择对象来选择特定对象，在这种情况下，对象不需要位于终端用户50的视场中。在这种情况下，如果语义地识别特定对象，则对象选择装置110采用麦克风和语音解释模块的形式，该语音解释模块翻译由终端用户50提供的言语命令。例如，如果虚拟对象V3对应于鼓，则终端用户50可以说“选择鼓”，响应于此将会选择鼓V3。为了便于选择与言语命令对应的对象，识别视场中的全部相关对象的语义信息优选地存储在数据库中，使得终端用户50言语表达的对象的描述可以与存储在数据库中的对象的描述匹配。包括语义信息的元数据可以预先与数据库中的虚拟对象相关联，而视场中的真实对象可以以以下方式被预先映射且与语义信息相关联，该方式为在序列号No.14/704,800的题目为“Method and System for Inserting Recognized Object Data into aVirtual World(用于将辨别的对象数据***虚拟世界中的方法和***)”的美国专利申请中描述，本文通过引用将其明确地并入。

或者，可以不使用3D光标62而简单地通过使用手指姿势指向或“点击”特定对象来选择特定对象。在这种情况下，对象选择装置110可以包括一个或多个相机(例如，面向前的相机114)和跟踪手指姿势以选择特定对象的对应处理器。例如，终端用户50可以通过指向特定对象来简单地选择特定对象(在这种情况下，虚拟对象V3)，如图6所示。在另一个实施例中，可以不使用3D光标62而通过使用至少两个手指(例如，食指和拇指)形成圆形或部分圆形来选择特定对象，如图7所示。

尽管已经将3D光标62描述为用于一次仅选择一个对象，但是在替代或可选实施例中，3D光标62可以用于一次选择多个对象。例如，如图8所示，可以使用3D光标62围绕一组对象(例如，围绕真实对象R1和虚拟对象V3和V4)绘制线64，从而选择这组对象。可以使用例如上述用于分别选择对象的相同装置来控制3D光标62。或者，可以不使用3D光标62而例如通过使用手指姿势围绕一组对象绘制线。

在可选实施例中，可以选择终端用户50的视场的预限定角度范围内的一组对象，在这种情况下，对象选择装置110可以采取例如可由终端用户50致动以选择这些对象的单个物理或虚拟选择按钮的形式。视场的角度范围可以由终端用户50预先限定，或者可以被预编程到增强现实***100中。例如，如图9所示，在120度的视场60的背景下示出了60度的角度范围66(距离视场中心±30度)。可以在致动选择按钮时全局地选择视场60的角度范围64内的全部对象(在这种情况下，虚拟对象V1、V2和V3)，而在致动选择按钮时将不选择视场60的角度范围64之外的全部对象(在这种情况下，真实对象R1和R2以及虚拟对象V4)。在一个实施例中，终端用户50可以例如通过将限定角度范围的一个或两个边缘朝向或远离视场60的中心线拖动(由箭头示出)来修改角度范围。终端用户50可以例如将角度范围从最小0度调整到整个视场(例如，120度)。或者，可以预编程视场60的角度范围64，而不需要终端用户50能够调整它。例如，可以响应于致动选择按钮来选择整个视场60中的全部对象。

增强现实***100还包括一个或多个麦克风，该一个或多个麦克风被配置为将来自周围环境中的真实对象的声音转换为音频信号。具体地，增强现实***100包括麦克风组件116，麦克风组件116被配置为优先接收与由终端用户50经由对象选择装置110选择的一个或多个真实对象的方向和距离对应的特定方向和/或特定距离处的声音。麦克风组件116包括安装到框架结构106的麦克风元件118阵列(例如，四个麦克风)，如图2所示(仅示出了两个)。麦克风组件116的细节将在下面进一步详细描述。增强现实***100还包括专用麦克风122，该专用麦克风122被配置为将终端用户50的语音转换为音频信号，例如用于从终端用户50接收命令或叙述。

增强现实***100在已知坐标系内跟踪选择的真实对象的位置和取向，使得相对于未选择的真实对象，可以通过麦克风组件116优先且连续地感测源自这些真实对象的声音，即使选择的真实对象相对于增强现实***的位置或取向改变。已知坐标系中的全部虚拟对象的定位和位置通常被增强现实***100“已知”(即，被记录在增强现实***100中)，因此通常不需要被主动跟踪。

在所示实施例中，增强现实***100采用空间化的音频***，该空间化的音频***渲染并呈现与在真实和物理三维(3D)空间中具有已知虚拟位置和取向的虚拟对象对应的空间化的音频，使得对终端用户50而言声音源自真实对象的虚拟位置，以便影响声音的清晰度或真实感。增强现实***100跟踪终端用户50的位置以更准确地渲染空间化的音频，使得与各种虚拟对象相关联的音频看起来源自其虚拟位置。此外，增强现实***100跟踪终端用户50的头部姿势以更准确地渲染空间化的音频，使得与各种虚拟对象相关联的方向音频似乎在适合于各个虚拟对象(例如，在虚拟角色的嘴巴之外，而不是虚拟角色头部的背面)的虚拟方向上传播。此外，增强现实***100在渲染空间化的音频时考虑其他真实物理和虚拟对象，使得与各种虚拟对象相关联的音频似乎被真实物理和虚拟对象适当地反射或者遮挡或阻挡。

为此，增强现实***100还包括头部/对象跟踪子***120，用于跟踪终端用户50的头部54相对于虚拟三维场景的位置和取向以及跟踪真实对象相对于终端用户50的头部54的位置和取向。例如，头部/对象追踪子***120可包括：一个或多个传感器，其被配置为收集终端用户50的头部姿势数据(位置和取向)；以及处理器(未示出)，其被配置为基于由传感器120收集的头部姿势数据来确定已知坐标系中的终端用户50的头部姿势。传感器可包括图像捕捉装置(例如可见光和红外光照相机)、惯性测量单元(包括加速度计和陀螺仪)、指南针、麦克风、GPS单元或无线电装置中的一个或多个。在所示实施例中，传感器包括面向前的相机112(如图2所示)。当以这种方式佩戴在头部时，面向前的相机120特别适合于捕捉指示终端用户50的头部54相对于终端用户50所处的环境的距离和角度位置(即，头部指向的方向)的信息。可以在任何方向上检测头部方向(例如，相对于终端用户50的参考框架向上/向下、向左、向右)。如下面将进一步详细描述的，面向前的相机114还被配置为获取周围环境中的真实对象的视频数据，以便于增强现实***100的视频记录功能。还可以提供相机，用于跟踪周围环境中的真实对象。可以设计框架结构106，使得相机可以安装在框架结构106的前面和后面。以这种方式，相机阵列可以环绕终端用户50的头部54以覆盖全部方向的相关对象。

增强现实***100还包括被配置为存储虚拟三维场景的三维数据库124，虚拟三维场景包括虚拟对象(虚拟对象的内容数据以及与这些虚拟对象相关联的绝对元数据，例如，3D场景中的这些虚拟对象的绝对位置和取向)和虚拟对象(虚拟对象的内容数据、与这些虚拟对象相关联的绝对元数据(例如，3D场景中的这些虚拟对象的体积和绝对位置和取向)、以及围绕每个虚拟对象的空间声学，该每个虚拟对象包括虚拟源附近的任何虚拟或真实对象、房间尺寸、墙壁/地板材料等)。

增强现实***100还包括控制子***，该控制子***除了记录源自出现在视场中的虚拟对象和真实对象的视频数据之外，还记录仅源自由终端用户50经由对象选择装置110已选择的那些虚拟对象和真实对象的音频数据。增强现实***100还可以记录与视频数据和音频数据相关联的元数据，使得可以在重播期间准确地重新渲染同步的视频和音频。

为此，控制子***包括视频处理器126，该视频处理器126被配置为从三维数据库124获取与虚拟对象相关联的视频内容和绝对元数据、从头部/对象跟踪子***120获取终端用户50的头部姿势数据(将被使用以使用于视频的绝对元数据局部化到终端用户50的头部54，如下面进一步详细描述的)、以及渲染来自视频内容的视频，然后将该视频传送到显示子***102，用于变换成与源自终端用户50的视场中的周围环境中的真实对象的图像混合的图像。视频处理器126还被配置为从面向前的相机112获取源自周围环境的真实对象的视频数据，该视频数据随后与源自虚拟对象的视频数据一起被记录，如下面将进一步描述的。

类似地，音频处理器128被配置为从三维数据库124获取与虚拟对象相关联的音频内容和元数据、从头部/对象跟踪子***120获取终端用户50的头部姿势数据(将被使用以使用于音频的绝对元数据局部化到终端用户50的头部54，如下面进一步详细描述的)、以及渲染来自音频内容的空间化的音频，然后将该空间化的音频传送到扬声器108，用于变换成与源自周围环境中的真实对象的声音混合的空间化的声音。

音频处理器128还被配置为从麦克风组件116获取仅来自周围环境中的选择的真实对象的音频数据，该音频数据随后与来自选择的虚拟对象的空间化的音频数据、用于每个虚拟对象被局部化到的终端用户50的头部54的任何产生的元数据(例如，位置、取向和体积数据)以及全局元数据(例如，由增强现实***100或终端用户50全局地设定的体数据)一起被记录，如下面将进一步描述的。

增强现实***100还包括存储器130、被配置为将视频和音频存储在存储器130中的记录仪132以及被配置为从存储器130检索视频和音频以便随后重播给终端用户50或其他终端用户的播放器134。记录仪132从音频处理器128获取与选择的虚拟和真实对象对应的空间化的音频数据(音频内容音频数据和元数据)，并将该空间化的音频数据存储在存储器130中，以及进一步获取视频数据(视频内容数据和元数据)，该视频数据与选择的虚拟和真实对象一致的虚拟和真实对象对应。尽管播放器134被示为位于记录仪132和存储器130所在的相同AR***100中，但是应当理解，播放器可以位于第三方AR***中或甚至位于重播由AR***100先前记录的视频和音频的智能电话或计算机上。

执行视频处理器126、音频处理器128、记录仪132和播放器134的功能的控制子***可以采用多种形式中的任何一种并且可以包括多个控制器，例如一个或多个微控制器、微处理器或中央处理单元(CPU)、数字信号处理器、图形处理单元(GPU)、其他集成电路控制器，其他集成电路控制器例如专用集成电路(ASIC)、可编程门阵列(PGA)(例如，场PGA(FPGA))和/或可编程逻辑控制器(PLU)。

可以通过单个集成装置分别执行视频处理器126、音频处理器128、记录仪132和/或播放器134的功能、可以将视频处理器126、音频处理器128、记录仪132和/或播放器134的功能中的至少一些组合到单个集成装置中、或者视频处理器126、音频处理器128、记录仪132或播放器134中的每一个的功能可以分布在几个装置中。例如，视频处理器126可以包括：图形处理单元(GPU)，其从三维数据库124获取虚拟对象的视频数据并且渲染来自视频数据的合成视频帧；以及中央处理单元(CPU)，其获取来自面向前的相机112的真实对象的视频帧。类似地，音频处理器128可以包括处理从麦克风组件116和用户麦克风122获取的音频数据的数字信号处理器(DSP)以及处理从三维数据库124获取的音频数据CPU。记录仪132的记录功能和播放器134的重播功能可以由CPU执行。

此外，增强现实***100的各种处理部件可以被物理地包含在分布式子***中。例如，如图10a-10d所示，增强现实***100包括本地处理和数据模块150，该本地处理和数据模块150可操作地耦合(例如通过有线引线或无线连接152)到安装到终端用户50的头部54的部件(例如，显示子***102的投影子***、麦克风组件116、扬声器104和相机114、118)。本地处理和数据模块150可以以各种配置安装，例如固定地附到框架结构106(图10a)、固定地附到头盔或帽子106a(图10b)、嵌入在头戴式耳机中、可拆卸地附到终端用户50的躯干58(图10c)或者以带耦合方式配置可拆卸地附到终端用户50的髋部59(图10d)。增强现实***100还包括可操作地耦合(例如通过有线引线或无线连接158、160)到本地处理和数据模块150的远程处理模块154和远程数据储存库156，使得这些远程模块154、156可操作地彼此耦合并且可用作本地处理和数据模块150的源。

本地处理和数据模块150可以包括功率有效的处理器或控制器以及诸如闪存的数字存储器，两者都可以用于帮助处理、缓存和存储从传感器捕捉的数据和/或使用远程处理模块1544和/或远程数据储存库156获取和/或处理的数据，该数据可能在这样的处理或检索之后被传递到显示子***102。远程处理模块154可以包括被配置为分析和处理数据和/或图像信息的一个或多个相对强大的处理器或控制器。远程数据储存库156可以包括相对大规模的数字数据存储设施，该设施通过互联网或“云”资源配置中的其他网络配置是可获得的。在一个实施例中，存储全部数据并且在本地处理和数据模块150中执行全部计算，允许从任何远程模块完全自主使用。

上述各种部件之间的耦合152、158、160可以包括用于提供线或光通信的一个或多个有线接口或端口或者诸如通过RF、微波和IR提供无线通信的一个或多个无线接口或端口。在一些实现中，全部通信可以是有线的，而在其他实现中，除了在显示子***102中使用的光纤之外，全部通信都可以是无线的。在更进一步的实现中，有线和无线通信的选择可以是与图10a-10d中所示的不同。因此，不应将有线或无线通信的特定选择视为限制。

在所示实施例中，显示子***102的光源和驱动电子器件(未示出)、头部/对象跟踪子***120和对象选择装置110的处理部件、以及音频处理器128的DSP可以包含在本地处理和数据模块150中。视频处理器126的GPU以及视频处理器126和音频处理器128的CPU可以包含在远程处理模块154中，尽管在替代实施例中，这些部件或者其部分可以包含在本地处理和数据模块150中。三维数据库124和存储器130可以与远程数据储存库156相关联。

在处理和记录由终端用户50选择的虚拟和真实对象的音频数据时，将更详细地描述图3中所示的音频处理器128。在图11所示的示例性场景中，终端用户50(例如，父母)希望记录来自四片(piece)乐队的声音(包括虚拟鼓手V2对象、真实的歌手R2(例如，儿童)、虚拟吉他手V3和虚拟贝斯吉他手V4)、希望监视虚拟电视V1上的新闻或运动而不记录来自虚拟电视的声音并且还不希望记录来自真实的厨房R1的声音(例如，某人正在烹饪)。

在图12所示的实施例中，音频处理器128的功能分布在CPU 180和DSP 182之间，CPU 180处理源自虚拟对象的音频，DSP 182处理源自真实对象的音频。CPU 180包括被配置为生成与各个虚拟对象V1-Vn对应的空间化的音频数据EFX-V1至EFX-Vn的一个或多个特效模块184(在这种情况下，特效模块1-n)。为此，特效模块184从3D数据库124获取与虚拟对象V1-Vn对应的音频内容数据AUD-V1至AUD-Vn和绝对元数据MD_a-V1至MD_a-Vn以及从头部/对象跟踪子***120获取头部姿势数据、基于头部姿势数据将绝对元数据MD_a-V1至MD_a-Vn局部化到终端用户50的头部54、以及将局部化的元数据(例如，位置、取向和体积数据)应用到音频内容数据以生成用于虚拟对象V1-Vn的空间化的音频数据。

CPU 180还包括混合器186和全局特效模块188，混合器186被配置为混合从各个特效模块184接收空间化的音频数据EFX-V1至EFX-Vn以获得混合音频数据EFX，全局特效模块188被配置为将全局元数据MD-OUT(例如，全局体积)应用于混合的空间化的音频数据以获得通过多个声道输出到扬声器108的最终空间化的音频AUD-OUT EFX。

重要地，特效模块184被配置为将源自已经由终端用户50经由对象选择装置110选择的虚拟对象的音频内容数据和与这些选择的虚拟对象对应的元数据(局部化的和/或绝对的)发送给记录仪132以存储在存储器130中(如图2所示)，并且全局特效模块188被配置为将全局元数据MD-OUT发送给记录仪132以存储在存储器130中。在示例性实施例中，选择虚拟音频内容数据AUD-V2(即，虚拟鼓手)、AUD-V3(即，虚拟吉他手)、AUD-V4(即，虚拟贝斯吉他手)用于记录，而音频内容数据AUD-V1(即，虚拟电视)未被选择用于记录。因此，音频内容数据AUD-V2、AUD-V3和AUD-V4以及对应的局部化的元数据MD-V2、MD-V3和MD-V4被存储在存储器130中，如图13所示。

在可选实施例中，代替或除了将来自选择的虚拟对象的音频内容数据和对应的局部化/绝对元数据和全局元数据单独地存储在存储器130内之外，CPU 180输出空间化的音频，该空间化的音频通过以下方式生成：另外地将仅对应于选择的虚拟对象AUD-V2、AUD-V3和AUD-V4的空间化的音频数据EFX-V2、EFX-V3、EFX-V4混合并且将全局元数据MD-OUT应用于该混合的空间化的音频数据以获得仅包括来自选择的虚拟对象AUD-V2、AUD-V3和AUD-V4的音频的空间化的音频。然而，在这种情况下，需要将附加音频混合功能合并到CPU 180中。

DSP 182被配置为处理从麦克风组件116获取的音频信号并且输出优先表示由麦克风组件116从特定方向接收的声音的音频信号，并且在这种情况下，从由终端用户50经由对象选择装置110选择的每个真实对象的方向。由于真实对象的位置和/或取向可以相对于终端用户50的头部54移动，因此可以从头部/对象跟踪子***120接收真实对象跟踪数据，使得可以考虑真实对象相对于终端用户50的头部54的位置和/或取向的任何变化，使得DSP182可以动态地修改音频输出以优先地表示由麦克风组件116从相对移动的真实对象的方向接收到的声音。例如，如果终端用户50在选择真实对象时相对于头部54的取向逆时针90度移动他或她的头部54，则可以动态地使来自DSP 182的音频输出的优先方向顺时针偏移90度。

参考图14，麦克风组件116的麦克风元件118采用相位阵列的麦克风元件(在这种情况下，麦克风元件M1-Mn)的形式，每个麦克风元件被配置为检测环境声音信号并将环境声音信号转换为音频信号。在所示实施例中，麦克风元件118本质上是数字的，因此将环境声音信号转换成数字音频信号，并且在这种情况下是脉冲密度调制(PDM)信号。优选地，麦克风元件118彼此间隔开以最大化音频输出的方向性。例如，如图2所示，麦克风元件118中的两个可以安装到框架结构106的每个臂，但是可以将多于两个麦克风元件(例如四个麦克风元件118)安装到框架结构106的每个臂。或者，可以设计框架结构106，使得麦克风元件118可以安装在框架结构106的前部和后部。以这种方式，麦克风元件118的阵列可以环绕终端用户50的头部54以覆盖全部方向的潜在声源。

麦克风组件116还包括多个数字麦克风接口(DMIC)190(在这种情况下，DMIC1至DMICn，每个麦克风元件M有一个)，其被配置为分别从对应的麦克风元件118接收相应的数字音频信号并且执行称为“抽取”的数字滤波器操作，以将数字音频信号从PDM格式变换为更容易操作的脉冲编码调制(PCM)。DMIC 190中的每一个还对数字音频信号执行固定增益控制。

DSP 182包括多个音频处理模块200，每个音频处理模块200被配置为处理由麦克风组件116输出的数字音频信号并且输出方向音频信号AUD-R(方向音频信号AUD-R1至AUD-Rm中的一个)，该方向音频信号AUD-R优选地表示由麦克风组件116在选择的真实对象(R1至Rm中的一个)的方向上接收的声音。由各个音频处理模块200输出的方向音频信号AUD-R1至AUD-Rm被组合成方向音频输出AUD-OUT MIC，其优先地表示源自全部选择的真实对象的声音。在所示实施例中，DSP 182为终端用户50经由对象选择装置110选择的每个真实对象创建音频处理模块200的一个实例。

为此，每个音频处理模块200包括以下列形式的处理参数：多个延迟元件194(在这种情况下，延迟元件D1-Dn，每个麦克风元件M有一个)、多个增益元件196(在这种情况下，增益元件G1-Gn，每个麦克风元件M有一个)和加法器198。延迟元件194分别将延迟因子应用于从麦克风组件的对应增益放大器192接收的放大数字信号，以及增益元件196分别将增益因子应用于延迟的数字信号。加法器198(S)将增益调整和延迟的信号相加以分别生成相应的方向音频信号AUD-R。

麦克风元件118在空间上布置，并且以根据方向极性图案产生接收环境声音(即，与从其他角度方向到达的声音相比将更强调从特定角度方向或方向到达的声音)的方式，将每个音频处理模块200的延迟元件194和增益元件196应用于从麦克风组件116接收的数字音频信号。DSP 182被配置为通过改变延迟元件194的延迟因子和增益元件196的增益因子，来修改方向音频信号AUD-R1到AUD-Rm的方向性，从而修改组合的方向音频输出AUD-OUTMIC。

因此，可以理解，基于选择的真实对象来修改音频输出AUD-OUT MIC的方向性，例如，可以沿着选择的真实对象或源的方向设置优先接收声音的方向。

例如，参考图15a，如果选择分别沿着两个特定方向D_a和D_b的两个真实对象R_a和R_b，则DSP 182将生成音频处理模块200的两个实例，并且在这些音频处理模块200中的每一个内，为每个音频处理模块200中的全部延迟元件194和增益元件196选择相应的延迟因子和增益因子，使得生成具有与真实对象R_a和R_b的方向D_a和D_b对齐的两个叶(lobe)的接收增益图案。如果真实对象R_a和R_b相对于终端用户50的头部54的方向改变，则真实对象R_a和R_b的特定方向可以改变，在这种情况下，DSP 182可以为每个音频处理模块200中的全部延迟元件194和增益元件196选择不同的延迟因子和增益因子，使得接收增益图案具有与方向D_c和D_d对齐的两个叶，如图15b所示。

为了促进音频输出AUD-OUT MIC的方向性的这种动态修改，可以将不同组的延迟/增益值和对应的优先方向存储在存储器130中以供DSP 182访问。也就是，DSP 182将每个选择的真实对象R的方向与存储在存储器130中的最接近的方向值相匹配，并为该选择的方向选择对应的一组延迟/增益因子。

应注意，尽管麦克风元件118被描述为数字的，但麦克风元件118可选地是模拟的。此外，虽然延迟元件194、增益元件196和加法器198被公开并示出为存在于DSP 182内部的软件部件，但是延迟元件194、增益元件196和加法器198中的任何一个或多个可以包括存在于DSP 182外部但在DSP 182控制之下的模拟硬件部件。然而，使用基于软件的音频处理模块200允许来自几个不同真实对象的声音同时被优先接收和处理。

返回参考图12，DSP 182还从用户麦克风122接收语音数据并将其与方向音频输出AUD-OUT MIC组合。在可选实施例中，DSP 182被配置为关于来自源自虚拟对象的扬声器108的声音执行声学回声消除(AEC)和噪声抑制(NS)功能。也就是说，即使优先接收声音的方向可能与扬声器108不一致，麦克风组件116也可以感测由扬声器108发出的声音。为此，由全局特效模块188输出到扬声器108中的空间化的音频数据也被输入到DSP 182，DSP 182使用空间化的音频数据抑制由扬声器108输出到麦克风组件116中的结果声音(被视为噪声)并且消除从扬声器108到麦克风组件116的反馈产生的任何回声。

重要地，DSP 182还被配置为将方向音频输出AUD-OUT MIC和局部化元数据(例如，方向音频输出AUD-OUT MIC源自的真实对象的位置和取向)发送到记录仪132用于存储在存储器130中作为音频内容数据(如图2所示)。在图11所示的示例性实施例中，局部化元数据对应于真实对象AUD-R2(即，真实的歌手)。因此，方向音频输出AUD-OUT MIC(其优先对应于真实对象AUD-R2)和对应的局部化元数据MD-R2被存储在存储器130中，如图13所示。

在可选实施例中，方向音频输出AUD-OUT MIC(其可以被空间化)可以输入到扬声器108或其他扬声器中以便重播给终端用户50。方向音频输出AUD-OUT MIC可以是以与源自虚拟源的空间化的音频数据相同的方式被空间化，以使终端用户50听起来声音源自真实对象的位置，从而影响声音的清晰度或真实感。也就是说，局部化元数据(例如，方向音频输出AUD-OUT MIC优先源自的真实对象的位置和取向)可以应用于方向音频输出AUD-OUT MIC以获得空间化的音频数据。

在另一个可选实施例中，可以分析(profile)源自真实对象或甚至是由终端用户50选择的虚拟对象的声音。具体地，DSP 182可以分析来自选择的对象的声音的特性并将其与源自其他真实对象的声音的特性进行比较，以便确定目标声音的类型。然后，如果需要，DSP 182可以包括方向音频输出AUD-OUT MIC中的源自这些真实对象的全部音频数据，以便由记录仪132记录到存储器130中(如图2所示)。例如，如果终端用户50选择了音乐对象(AUD-V2、AUD-V3、AUD-V4、AUD-R2)中的任何音乐对象，则DSP 182可以控制麦克风组件116以优先地感测全部音乐真实对象。

在所示实施例中，DSP 182继续将方向音频输出AUD-OUT MIC输出到记录仪130以便在存储器130中记录，即使终端用户50选择的真实对象198移出显示子***102的视场(如从头部/对象跟踪子***120接收的真实对象跟踪数据所指示)。在可选实施例中，一旦由终端用户50选择的真实对象198移出显示子***102的视场，DSP 182就停止将方向音频输出AUD-OUT MIC输出到记录仪130以记录在存储器130中，以及一旦由终端用户50选择的真实对象198移回到显示子***102的视场中，就重新开始将方向音频输出AUD-OUT MIC输出到记录仪130以记录在存储器130中。

以类似于音频处理器128(在所示实施例中，为CPU 180和DSP 182)将源自选择的虚拟对象和真实对象的音频内容数据(在示例性情况下，为音频内容数据AUD-V2、AUD-V3和AUD-V4以及AUD-MIC)和局部化元数据(在示例性情况下，为MD-V2、MD-V3、MD-V4和MD-R2)以及全局元数据(MD-OUT)发送到记录仪132以存储在存储器130中的方式，视频处理器126可以发送源自虚拟对象和真实对象的视频内容数据(在示例性情况下，为视频内容数据VID-V2、VID-V3、VID-V4和VID-R2)如图13所示。在虚拟对象的情况下，视频处理器126简单地从3D数据库124获取虚拟对象而无需进一步处理，并将这些虚拟对象发送到记录仪132以存储在存储器130中。在真实对象的情况下，视频处理器126可以提取或“切断”来自从相机112获取的视频的选择的真实对象中的任何一个，并将这些真实对象作为虚拟对象存储在存储器130中。在图11所示的示例性情况下，可以将关于真实的歌手R2的视频记录为虚拟对象VID-R2。在可选实施例中，视频处理器126将从相机112获取的整个视频(包括与未选择的虚拟和真实对象对应的视频)发送到记录仪132，以存储在存储器130中。

播放器134被配置为将记录在存储器130内的视频和/或音频重播给重播用户50’(如图16a所示)，重播用户50’可以是记录视频/音频的原始终端用户50或第三方用户。响应于重播用户50’给出的命令，例如，经由用户麦克风122的语音命令，播放器134可以选择性地重播音频/视频。例如，重播用户50’可以使用“虚拟音频开/关”命令打开或关闭虚拟音频重播，或者使用“显示开/关”命令打开或关闭虚拟视频重播，或者使用“真实音频开/关”命令打开或关闭真实音频重播。

在所示实施例中，音频处理器128从存储器130中检索音频内容数据和元数据(对应于选择的虚拟和真实对象)、根据音频内容数据和元数据渲染空间化的音频、以及将空间化的音频传送给播放器134以用于通过扬声器108重播给重播用户50’。在存储混合的空间化的音频数据(而不是内容和元数据)的可选实施例中，播放器134可以简单地从存储器130获取音频数据用于重播给重播用户50’，而无需重新渲染音频数据或以其他方式进一步处理音频数据。

此外，在所示实施例中，视频处理器126检索视频内容数据和元数据(对应于选择的虚拟和真实对象)、根据视频内容数据和元数据渲染视频、以及将视频传送到播放器134以用于与经由扬声器108重播音频同步地经由显示子***102重播给重播用户50’。可选地，在存储由相机112捕捉的全部视频数据的情况下，播放器134可以简单地从存储器130获取视频数据，以重播给重播用户50’，而无需渲染或以其他方式进一步处理视频数据。增强现实***10可以向重播用户50’提供选项，以仅重播与选择的虚拟对象和真实对象对应的视频或者重播由相机112捕捉的完整视频。

在一个实施例中，在重播视频/音频期间不考虑重播用户50’的当前头部姿势。然而，使用在视频/音频数据的记录期间最初检测到的头部姿势将视频/音频重播给重播用户50’，这将被反映(reflect)在与音频/视频内容数据一起存储在存储器130中的局部化元数据中，或者如果在没有元数据的情况下记录混合的空间化的音频，则头部姿势将被反映在存储在存储器130中的混合的空间化的音频内。在这种情况下，重播用户50’将以与原始终端用户50体验视频/音频相同的方式体验视频/音频，除了将仅重播源自由原始终端用户50选择的虚拟和真实对象的音频和可选的仅视频之外。在这种情况下，重播用户50’可能不会沉浸在增强现实中，因为将考虑重播用户50’的头部姿势。然而，重播用户50’可以使用头戴式耳机体验音频重播(因此音频将不受环境影响)或者重播用户50’可以在安静的房间中体验音频重播。

在可选实施例中，可以在重播视频/音频期间考虑重播用户50’的当前头部姿势。在这种情况下，在记录视频/音频期间重播用户50’的头部姿势不需要被合并到与视频/音频内容数据一起存储在存储器130中的元数据中，因为在重播期间检测到的重播用户50’的当前的头部姿势将用于重新渲染视频/音频数据。然而，将要使用重播用户50’的当前头部姿势将存储在存储器130中的绝对元数据(例如，3D场景中这些虚拟对象的体积和绝对位置和取向，以及围绕每个虚拟对象的空间声学，该每个虚拟对象包括虚拟源附近的任何虚拟或真实对象、房间尺寸、墙壁/地板材料等)局部化到重播用户50’的头部姿势，然后该绝对元数据用于渲染音频/视频。因此，在重播视频/音频期间，重播用户50’将沉浸在增强现实中。

重播用户50’可以在记录视频/音频的原始空间环境(例如，“相同的物理空间”)中体验增强现实或者可以在新的物理或虚拟空间环境(例如，“不同的物理或虚拟房间”)中体验增强现实。

如果重播用户50’在记录视频/音频的原始空间环境中体验增强现实，则不需要为了准确地重播空间化的音频而修改与选择的对象相关联的绝对元数据。相对地，如果重播用户50’在新空间环境中体验增强现实，则可能需要修改与对象相关联的绝对元数据以在新空间环境中准确地渲染音频/视频。

例如，在示例性实施例中，来自虚拟对象AUD-V2(即，虚拟鼓手)、AUD-V3(即，虚拟吉他手)、AUD-V4(即，虚拟贝斯吉他手)和真实对象(即，真实的歌手)的音频/视频内容可以被记录在小房间250中，如图16a所示。先前记录的来自虚拟对象AUD-V2(即，虚拟鼓手)、AUD-V3(即，虚拟吉他手)、AUD-V4(即，虚拟贝斯吉他手)和真实对象(即，真实的歌手)的音频可以在音乐厅252中重播，如图16b所示。增强现实***10可以将对象重新定位在音乐厅252中的任何位置，并且可以生成或以其他方式获取包括音乐厅252中的每个对象的新位置的绝对元数据以及围绕音乐厅252中的每个对象的空间声学。然后可以使用重播用户50’的当前头部姿势来局部化该绝对元数据，然后该绝对元数据用于在音乐厅252中渲染音频和视频以重播给重播用户50’。

已经描述了增强现实***100的布置和功能，现在将参照图17描述使用增强现实***100选择至少一个对象并记录来自这些选择的对象的音频和视频的一种方法300。

首先，终端用户50经由对象选择装置110持续不断地选择空间环境中的至少一个对象(例如，真实的和/或虚拟的)(步骤302)。可以例如通过在终端用户50的视场60中移动三维光标62并用三维光标62选择对象(如图5所示)，而在终端用户50的视场60中选择对象。或者，可以使用手部姿势(如图6或7所示)或使用语音命令来选择对象。可以单独选择多个对象，或者可以全局地选择多个对象，例如，通过在对象周围绘制线64(如图8所示)，或者通过限定终端用户50的视场60的角度范围66(其可以小于终端用户50的视场60的整个角度范围)并且选择终端用户50的视场60的限定角度范围66中的全部对象(如图9所示)。

接下来，获取空间环境内的全部虚拟对象的音频和视频内容以及与虚拟对象相关联的绝对元数据(步骤304)。接下来，跟踪终端用户50的当前头部姿势(步骤306)，以及使用当前头部姿势数据将绝对元数据局部化到终端用户50的头部54(步骤308)，并且将该绝对元数据应用于虚拟对象的音频和视频内容以获得用于相应虚拟对象中的全部虚拟对象的视频数据和空间化的音频数据(步骤310)。使3D场景中的相应虚拟对象中的全部虚拟对象的空间化的音频数据混合(步骤312)，以及将全局元数据应用于混合的空间化的音频数据以获得用于3D场景中的全部虚拟对象的最终空间化的音频(步骤314)，然后，将该最终空间化的音频变换成由终端用户50感知的声音(步骤316)。接下来，将在步骤310获得的视频数据变换为由终端用户50感知的图像帧(步骤318)。接下来，记录关于在步骤302由终端用户50选择的全部虚拟对象的音频/视频内容和全部相关联的元数据(绝对和局部化元数据)(步骤320)。

与步骤304-320并行地，跟踪选择的真实对象相对于终端用户50的头部54的位置和/或取向(步骤322)，并且基于跟踪的真实对象的位置和取向优先感测来自选择的真实对象的声音(步骤324)。接下来，捕捉选择的真实对象的图像(步骤326)，并且可选地将其变换为虚拟视频内容。接下来，记录用于选择的真实对象中的每一个的与优先感测的来自选择的真实对象的声音相关联的音频内容和与捕捉的选择的真实对象的图像相关联的视频内容以及全部相关联的元数据(真实对象的位置和取向)(步骤328)。

现在将参照图18描述使用增强现实***100将先前记录的至少一个对象的音频和视频重播给重播用户50’的一种方法400。这样的音频和视频可能已经以上述图17的方法300中描述的方式被记录为音频内容数据和视频内容数据。对象可以是真实的和/或虚拟的并且可以由终端用户50持续不断地选择。在示例性方法400中，音频和视频先前已被记录在原始空间环境(例如小房间250)中并且在与原始空间环境不同的新空间环境(例如音乐厅252)中被重播，如关于图16a和16b所述。

首先，获取先前记录的音频内容数据和视频内容数据(步骤402)。如果新空间环境至少部分是虚拟的，则还可以获取与新空间环境相关联的附加虚拟内容(音频或视频)。然后，可以响应于来自重播用户50’的输入，在新空间环境中重新定位对象(步骤404)。然后，获取与定位在新空间环境中的对象对应的绝对元数据(步骤406)，在新空间环境中跟踪重播用户50’的头部姿势(步骤408)，以及基于跟踪的重播用户50’的头部姿势将绝对元数据被局部化到重播用户50’(步骤410)。接下来，基于新空间环境中的局部化元数据，渲染来自检索的音频内容数据和视频内容数据的音频和视频(步骤412)。然后，渲染的音频和视频分别被变换为由重播用户50’同步感知的声音和图像帧(步骤414)。

在前述说明书中，已经参考本发明的具体实施例描述了本发明。然而，显而易见的是，在不脱离本发明的更广泛的精神和范围的情况下，可以对其进行各种变型和改变。例如，参考过程动作的特定顺序来描述上述过程流程。然而，在不影响本发明的范围或操作的情况下，可以改变许多所描述的过程动作的顺序。因此，说明书和附图应被视为示例性的而非限制性的。

Claims

1.一种用于终端用户使用的虚拟图像生成***，包括：

存储器；

显示子***；

对象选择装置，其被配置为接收来自所述终端用户的输入并且响应于所述终端用户输入持续不断地选择包括虚拟对象的至少一个对象；以及

控制子***，其被配置为生成源自所述至少一个选择的对象的视频数据、渲染来自所述视频数据的三维场景中的多个图像帧、将所述图像帧传送到所述显示子***、生成源自所述至少一个选择的对象的音频数据以及将所述音频数据存储在所述存储器中，

其中，所述控制子***还被配置为通过获取与所述选择的虚拟对象对应的绝对元数据并且基于跟踪的所述终端用户的头部姿势将所述绝对元数据局部化到所述终端用户来生成与所述选择的虚拟对象对应的元数据。

2.根据权利要求1所述的虚拟图像生成***，其中，所述控制子***还被配置为将所述视频数据与所述音频数据同步地存储在所述存储器中。

3.根据权利要求1所述的虚拟图像生成***，还包括多个扬声器，其中，所述控制子***还被配置为将所述生成的音频数据传送到所述扬声器。

4.根据权利要求1所述的虚拟图像生成***，其中，所述显示子***具有视场，并且其中所述对象选择装置被配置为持续不断地选择所述视场中的所述至少一个对象。

5.根据权利要求4所述的虚拟图像生成***，其中，所述对象选择装置被配置为在所述显示子***的所述视场中移动三维光标，并且响应于接收到所述终端用户输入来选择所述至少一个对象。

6.根据权利要求1所述的虚拟图像生成***，其中，所述终端用户输入包括一个或多个语音命令，并且其中所述对象选择装置包括被配置为感测所述一个或多个语音命令的一个或多个麦克风。

7.根据权利要求1所述的虚拟图像生成***，其中，所述终端用户输入包括一个或多个手部姿势，并且其中所述对象选择装置包括被配置为感测所述一个或多个手部姿势的一个或多个相机。

8.根据权利要求1所述的虚拟图像生成***，其中，所述至少一个对象包括多个对象，并且所述对象选择装置被配置为响应于所述终端用户输入分别选择所述对象。

9.根据权利要求1所述的虚拟图像生成***，其中，所述至少一个对象包括多个对象，并且所述对象选择装置被配置为响应于所述终端用户输入全局地选择所述对象。

10.根据权利要求9所述的虚拟图像生成***，其中，所述对象选择装置被配置为响应于所述终端用户输入全局地选择所述显示子***的视场的角度范围内的全部对象。

11.根据权利要求10所述的虚拟图像生成***，其中，所述角度范围小于所述视场的整个角度范围。

12.根据权利要求10所述的虚拟图像生成***，其中，所述角度范围是所述视场的整个角度范围。

13.根据权利要求1所述的虚拟图像生成***，其中，所述对象选择装置还被配置为：接收来自所述终端用户的另一输入，并且响应于所述另一终端用户输入持续不断地取消选择所述至少一个先前选择的对象。

14.根据权利要求1所述的虚拟图像生成***，还包括至少一个传感器，其被配置为跟踪所述至少一个选择的对象相对于所述显示子***的视场的位置。

15.根据权利要求14所述的虚拟图像生成***，其中，所述控制子***被配置为：当所述跟踪的所述至少一个选择的对象的位置移出所述显示子***的所述视场时，停止将所述音频数据存储在所述存储器中。

16.根据权利要求14所述的虚拟图像生成***，其中，所述控制子***被配置为：当所述跟踪的所述至少一个选择的对象的位置移出所述显示子***的所述视场时，继续将所述音频数据存储在所述存储器中。

17.根据权利要求1所述的虚拟图像生成***，其中，所述至少一个选择的对象还包括真实对象。

18.根据权利要求17所述的虚拟图像生成***，还包括：麦克风组件，其被配置为生成音频输出，其中所述控制子***还被配置为修改方向音频输出以优先地感测源自所述选择的真实对象的声音，其中所述音频数据从修改的音频输出导出。

19.根据权利要求17所述的虚拟图像生成***，还包括：一个或多个相机，其被配置为捕捉源自所述选择的真实对象的视频数据，其中所述控制子***还被配置为将所述视频数据与所述音频数据同步地存储在所述存储器中。

20.根据权利要求19所述的虚拟图像生成***，其中，所述控制子***被配置为将所述捕捉的视频数据变换为用于所述选择的真实对象的虚拟内容数据，并且将所述虚拟内容存储在所述存储器中。

21.根据权利要求1所述的虚拟图像生成***，还包括：数据库，其被配置为存储与用于多个虚拟对象的声音对应的内容数据，其中所述控制子***还被配置为从所述数据库获取与所述选择的虚拟对象对应的所述内容数据，以及存储在所述存储器中的所述音频数据包括所述获取的内容数据。

22.根据权利要求21所述的虚拟图像生成***，其中，存储在所述存储器中的所述音频数据包括所述获取的内容数据和生成的元数据。

23.根据权利要求22所述的虚拟图像生成***，其中，所述元数据包括用于所述选择的虚拟对象的位置、取向和体积数据。

24.根据权利要求22所述的虚拟图像生成***，还包括：一个或多个传感器，其被配置为跟踪所述终端用户的所述头部姿势，其中所述数据库被配置为存储用于所述多个虚拟对象的所述绝对元数据。

25.根据权利要求1所述的虚拟图像生成***，还包括至少一个扬声器，其中所述控制子***还被配置为从所述存储器中检索所述存储的音频数据、从所述检索的音频数据中导出音频以及将所述音频传送到所述至少一个扬声器。

26.根据权利要求25所述的虚拟图像生成***，其中，存储在所述存储器中的所述音频数据包括内容数据和元数据，并且其中所述控制子***还被配置为从所述存储器中检索所述存储的内容数据和元数据、基于所述检索的内容数据和元数据渲染空间化的音频以及将所述渲染的空间化的音频传送到所述至少一个扬声器。

27.根据权利要求1所述的虚拟图像生成***，其中，所述显示子***被配置为定位在所述终端用户的眼睛的前方。

28.根据权利要求27所述的虚拟图像生成***，其中，所述显示子***包括投影子***和部分透明的显示表面，所述投影子***被配置为将所述图像帧投影到所述部分透明的显示表面上，并且所述部分透明的显示表面被配置为定位在所述终端用户的所述眼睛与周围环境之间的所述显示子***的视场中。

29.根据权利要求27所述的虚拟图像生成***，还包括：框架结构，其被配置为由所述终端用户佩戴，所述框架结构承载所述显示子***的至少一部分。

30.一种用于重播用户使用的虚拟图像生成***，包括：

存储器，其被配置为存储源自原始空间环境中的至少一个对象的音频内容数据和视频内容数据；

多个扬声器；

显示子***；

控制子***，其被配置为：

从所述存储器中检索与所述原始空间环境中的所述至少一个对象有关的所述音频内容数据和视频内容数据，

在与所述原始空间环境不同的新空间环境中分别渲染来自所述检索的音频内容数据和视频内容数据的音频和视频，

至少通过在所述新空间环境中基于跟踪的重播用户的头部姿势将与定位在所述新空间环境中的所述至少一个对象有关的绝对元数据局部化到所述重播用户，分别地将所述音频变换为空间化的声音和将所述视频转换为图像帧，以及

同步地将所述空间化的声音传送到所述多个扬声器并且将所述图像帧传送到所述显示子***。

31.根据权利要求30所述的虚拟图像生成***，其中，所述控制子***被配置为将所述音频内容数据和视频内容数据存储在所述存储器中。

32.根据权利要求31所述的虚拟图像生成***，还包括：对象选择装置，其被配置为接收来自终端用户的输入，并且在将所述音频内容数据和视频内容数据存储在所述存储器中之前，响应于所述终端用户输入在所述原始空间环境中持续不断地选择所述至少一个对象。

33.根据权利要求31所述的虚拟图像生成***，其中，所述至少一个对象包括真实对象。

34.根据权利要求33所述的虚拟图像生成***，还包括：麦克风组件，其被配置为捕捉来自所述原始空间环境中的所述真实对象的所述音频内容数据。

35.根据权利要求34所述的虚拟图像生成***，其中，所述麦克风组件被配置为生成音频输出，其中所述控制子***还被配置为：修改方向音频输出，以优先地感测源自选择的所述真实对象的声音，其中，所述音频内容数据从所述修改的音频输出导出。

36.根据权利要求33所述的虚拟图像生成***，还包括：一个或多个相机，其被配置为捕捉来自所述原始空间环境中的选择的所述真实对象的所述视频数据。

37.根据权利要求36所述的虚拟图像生成***，其中，所述控制子***被配置为将所述捕捉的视频数据变换为用于所述选择的真实对象的虚拟内容数据，并且将所述虚拟内容数据作为所述视频内容数据存储在所述存储器中。

38.根据权利要求30所述的虚拟图像生成***，其中，所述至少一个对象包括虚拟对象。

39.根据权利要求38所述的虚拟图像生成***，还包括：数据库，其被配置为存储与用于多个虚拟对象的声音对应的内容数据，其中所述控制子***还被配置为从所述数据库中获取与所述虚拟对象对应的所述内容数据，以及存储在所述存储器中的所述音频数据包括所述获取的内容数据。

40.根据权利要求30所述的虚拟图像生成***，其中，所述控制子***被配置为获取与所述新空间环境中的所述至少一个对象对应的绝对元数据，并且在所述新空间环境中渲染来自所述检索的音频内容数据和所述绝对元数据的所述音频。

41.根据权利要求40所述的虚拟图像生成***，还包括：一个或多个传感器，其被配置为跟踪所述重播用户的头部姿势，其中所述控制子***还被配置为基于所述跟踪的所述重播用户的头部姿势将所述绝对元数据局部化到所述重播用户，使得所述渲染的音频被空间化。

42.根据权利要求40所述的虚拟图像生成***，其中，获取与所述新空间环境中的所述至少一个对象对应的所述绝对元数据包括：将所述至少一个对象定位在所述新空间环境中。

43.根据权利要求42所述的虚拟图像生成***，还包括：用户输入装置，其被配置为接收来自所述重播用户的输入，并且其中所述控制子***被配置为响应于来自所述重播用户的所述输入将所述至少一个对象定位在所述新空间环境中。

44.根据权利要求30所述的虚拟图像生成***，其中，所述显示子***被配置为定位在所述重播用户的眼睛的前方。

45.根据权利要求44所述的虚拟图像生成***，其中，所述显示子***包括投影子***和部分透明的显示表面，所述投影子***被配置为响应于所述视频数据将图像帧投影到所述部分透明的显示表面上，以及所述部分透明的显示表面被配置为定位在所述重播用户的所述眼睛与所述新空间环境之间的所述显示子***的视场中。

46.根据权利要求44所述的虚拟图像生成***，还包括：框架结构，其被配置为由所述重播用户佩戴，所述框架结构承载所述显示子***的至少一部分。

47.一种由重播用户操作虚拟图像生成***的方法，以将先前作为音频内容数据和视频内容数据记录的原始空间环境中的至少一个对象的音频和视频重播，所述方法包括：

从存储器中检索与所述原始空间环境中的所述至少一个对象相关的所述音频内容数据和视频内容数据；

在与所述原始空间环境不同的新空间环境中分别渲染来自所述检索的音频内容数据和视频内容数据的音频和视频；

至少通过在所述新空间环境中基于跟踪的所述重播用户的头部姿势将与定位在所述新空间环境中的所述至少一个对象有关的绝对元数据局部化到所述重播用户，分别地将所述音频变换为空间化的声音和将视频变换为图像帧；以及

将所述空间化的声音和所述图像帧同步地传送给所述重播用户。

48.根据权利要求47所述的方法，还包括将所述音频内容数据和视频内容数据存储在所述存储器中。

49.根据权利要求48所述的方法，还包括在将所述音频内容数据和视频内容数据存储在所述存储器中之前，在所述原始空间环境中持续不断地选择所述至少一个对象。

50.根据权利要求48所述的方法，其中，所述至少一个对象包括真实对象。

51.根据权利要求50所述的方法，还包括捕捉来自所述真实对象的所述音频内容数据。

52.根据权利要求51所述的方法，还包括：相对于源自其他真实对象的声音，优先地感测源自选择的所述真实对象的声音，其中，所述音频内容数据从所述优先感测的声音中导出。

53.根据权利要求50所述的方法，还包括：

捕捉来自选择的所述真实对象的视频数据；以及

将所述捕捉的视频数据变换为所述虚拟内容数据。

54.根据权利要求48所述的方法，其中，所述至少一个对象包括虚拟对象。

55.根据权利要求54所述的方法，还包括：存储与用于多个虚拟对象的声音对应的内容数据，以及从所述数据库中获取与所述虚拟对象对应的所述内容数据，其中存储在所述存储器中的音频内容数据包括所述获取的内容数据。

56.根据权利要求47所述的方法，还包括：获取与所述新空间环境中的所述至少一个对象对应的绝对元数据，其中，根据来自所述新空间环境中的所述检索的音频内容数据和所述绝对元数据渲染所述音频。

57.根据权利要求56所述的方法，还包括：

跟踪所述重播用户的头部姿势；以及

基于所述跟踪的所述重播用户的头部姿势将所述绝对元数据局部化到所述重播用户，其中在所述新空间环境中根据所述检索的音频内容数据和所述局部化的元数据渲染所述音频，使得所述渲染的音频被空间化。

58.根据权利要求56所述的方法，其中，获取与所述新空间环境中的所述至少一个对象对应的所述绝对元数据包括：将所述至少一个对象定位在所述新空间环境中。

59.根据权利要求58所述的方法，还包括：接收来自所述重播用户的输入，其中响应于来自所述重播用户的所述输入，将所述至少一个对象定位在所述新空间环境中。