CN101031866A

CN101031866A - 交互式***和方法

Info

Publication number: CN101031866A
Application number: CNA2005800252251A
Authority: CN
Inventors: 阿德里安·大卫·凯奥克; 周志颖; 潘俊红
Original assignee: National University of Singapore
Current assignee: National University of Singapore
Priority date: 2004-05-28
Filing date: 2005-05-09
Publication date: 2007-09-05
Anticipated expiration: 2025-05-09
Also published as: US20050264555A1; WO2005116807A1; CN101031866B; KR20070050878A; EP1769321A1; US7295220B2; JP2008501184A

Abstract

本发明提供了一种交互式***和方法。一种用于向用户提供混合现实体验的交互式***，该***包括：具有至少两个面的对象，每一个面都具有标记；图像采集设备，用于采集所述对象在第一场景中的图像；以及计算机软件，用于通过跟踪所述对象的至少两个面并识别至少一个标记，来跟踪所述对象在所述第一场景中的位置和取向；其中，所述计算机软件检索与所识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于所识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

Description

交互式***和方法

技术领域

本发明涉及一种用于向用户提供混合现实体验的交互式***。

背景技术

计算机的用户界面变化相对较小。几十年来，计算机的标准输入设备包括键盘和鼠标。近来流行的进展包括利用蓝牙或射频与台式终端进行通信的无线键盘和鼠标。这消除了对缆线的需要，但是要求键盘和鼠标使用电池。另一直观的输入方法是语音识别。这要求计算机识别并理解用户的语音，并执行相应的命令。语音识别需要训练计算机识别用户的讲话方式。然而，准确性仍然取决于计算机的处理能力、麦克风的质量、以及用户言语的清晰性。

这些用于与计算机交互的方法由于烦琐并且不是即刻直观的而使用户失望。

发明内容

在第一优选方面，提供了一种用于向用户提供混合现实体验的交互式***，该***包括：

具有至少两个面的对象，每一个面都具有标记；

图像采集设备，用于采集所述对象在第一场景中的图像；以及

计算机软件，用于通过跟踪所述对象的至少两个面并识别至少一个标记，来跟踪所述对象在所述第一场景中的位置和取向；

其中，所述计算机软件检索与所识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于所识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

有利的是，如果对象的顶面被遮挡(occlude)，则可以确定该顶面上的标记并且由于能够识别另一个面上的标记，从而可以跟踪该对象。

优选的是，所述标记包括具有单个缺口的不连续边界。

有利的是，所述缺口破坏了所述边界的对称性，从而增加了标记的相异性。

更优选的是，所述标记包括所述边界内的图像。该图像可以是几何图案，以便于进行模板匹配来识别所述标记。可以将所述图案与存储在样本库中的样本进行匹配。

更优选的是，所述边界和所述图像为白色背景上的黑色。

有利的是，这减少了照明条件变化的不利影响。

可以使所述标记不被遮挡，以识别所述标记。

所述标记可以是预定形状。为了识别所述标记，通过所述计算机软件来识别所述形状的至少一部分。所述计算机软件可以利用所述形状的被检测的部分来确定所述标记的完整的预定形状。例如，如果所述预定形状为正方形，则如果该正方形的一个角被遮挡，所述计算机软件能够确定出所述标记为正方形。

如果所述边界被部分遮挡并且所述边界内的图案未被遮挡，则所述计算机软件可识别所述标记。

所述交互式***还可以包括诸如监视器、电视机屏幕或LCD的显示设备，以在生成所述第二场景的同时显示所述第二场景。所述显示设备可以是所述图像采集设备的取景器，或者是用于投影图像或视频的投影仪。所述显示设备的视频帧速率可以在12至30帧每秒的范围内。

所述图像采集设备可以安装在所述显示设备的上方，并且所述图像采集设备和所述显示设备都面向用户。可以在用户和所述显示设备之间操纵所述对象。

多媒体内容可以包括2D图像或3D模型、视频和音频信息。

优选的是，所述对象的所述至少两个面基本上是平面。

优选的是，所述至少两个面连接在一起。

所述对象可以是立方体或者多面体。

所述对象可以是可折叠的，例如用于讲故事的可折叠立方体。

所述计算机软件可以安装在台式或移动计算机设备上，例如个人数字助理(PDA)、移动电话、其它移动通信设备、或者具有嵌入式计算机处理器的控制盒(console box)。

所述图像采集设备可以是摄像机。该摄像机可以是CCD或CMOS视频摄像机。

所述摄像机、计算机软件以及显示设备可以设置在单个集成单元中。

所述摄像机、计算机软件以及显示设备可以位于远程位置。

针对待显示的每一个视频帧，通过将所述相关联的多媒体内容再现到所述第一场景中，可以将所述相关联的多媒体内容叠加在所述第一场景上。

可以在三维空间中计算所述对象的位置。可以估算所述摄像机和所述对象之间的位置关系。

可以对摄像机图像进行阈值处理(thresholded)。可以利用连接组件算法(connected components algorithm)来识别连续的黑色区域(darkarea)。

可以使用轮廓搜索技术来识别这些黑色区域的轮廓。可以丢弃不包含四个角的轮廓。可以丢弃包含了尺寸错误的区域的轮廓。

可以将直线拟合到正方形轮廓的各条边。这些直线的交点可用作估计的角部位置。

可以使用投影变换将由这些角部描述的区域变形为标准形状。所述标准形状可以与所存储的标记的样本交叉相关，以找到标记的识别信息和取向。

标记角部的位置可以用来确定与相对于标记位置的摄像机位置相关的唯一欧几里德变换矩阵。

所述交互式***可以是讲故事应用程序，或者是室内设计应用程序。

所述***还可以包括至少两个对象，其中确定所述至少两个对象之间的空间关系，以根据与所识别到的标记相关联的多媒体内容产生预定响应。

所述空间关系可以从包括以下内容的组中选择：对象之间的距离、层叠以及遮挡。

所述预定响应可以从包括以下内容的组中选择：相关联的多媒体内容之间的交互、至少一个相关联的多媒体内容的动画、以及至少一个相关联的多媒体内容的音频录音的回放。

在第二方面中，提供了一种用于向用户提供混合现实体验的交互式***，该***包括：

图像采集设备，用于采集对象在第一场景中的图像；以及

计算机软件，用于通过跟踪所述对象的具有标记的至少两个面并识别至少一个标记，来跟踪所述对象在所述第一场景中的位置和取向；

其中，所述计算机软件检索与识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

在第三方面中，提供了一种用于向用户提供混合现实体验的软件应用程序，该软件应用程序包括：

图像处理模块，用于从图像采集设备接收对象在第一场景中的采集图像；以及

跟踪模块，用于通过跟踪所述对象的至少两个面并识别至少一个标记来跟踪所述对象在所述第一场景中的位置和取向，其中每一个面上都具有标记；

其中，该软件应用程序检索与识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

在第四方面中，提供了一种检索模块，该检索模块用于检索虚拟对象以向用户提供混合现实体验，该模块包括：

数据接收器，用于接收与所识别到的标记相关的标记识别数据；以及

搜索工具，用于在虚拟对象数据库中搜索与所述标记识别数据相对应的虚拟对象；

由此，如果找到匹配，则在相对于所识别到的标记的相对位置将所述虚拟对象叠加在真实场景上，以向用户提供混合现实体验。

所识别到的标记可以具有一个以上的对应虚拟对象。

在第五方面中，提供了一种相关联多媒体内容的库，用于向用户提供混合现实体验，该库包括：

识别数据字段，用于识别多媒体内容的各个条目；以及

内容数据字段，用于存储多媒体内容的条目或者多媒体内容的条目的存储位置；

其中，在所述识别数据字段中搜索与所识别到的标记相关的标记识别数据，并且检索与所识别到的标记相关联的多媒体内容，以在相对于所识别到的标记的相对位置将其叠加在真实场景上，来向用户提供混合现实体验。

在第六方面中，提供了一种携带用于向用户提供混合现实体验的混合现实内容的信号，该信号包括：

包含真实场景以及多媒体内容的图形信息，该多媒体内容与所识别到的标记相关联，并在相对于所识别到的标记的相对位置叠加在所述真实场景上；

其中，通过跟踪在各个面上具有标记的对象的至少两个面来识别所述识别到的标记。

所述信号还可以包括与所识别到的标记相关联的音频信息。

在第七方面中，提供了一种在用于向用户提供混合现实体验的交互式***中使用的有形对象(tangible object)，该对象包括：

至少两个面；以及

各个面上的标记，该标记包括不连续边界以及该边界内的图像；

其中，所述边界的不连续性表示了所述边界内的图像的定位(alignment)以及所述对象的取向。

可以通过跟踪所述对象的至少一个面来跟踪所述对象的位置和取向。

在第八方面中，提供了一种用于有形对象的标记，该有形对象在用于向用户提供混合现实体验的交互式***中使用，该标记包括：

不连续的边界以及该边界内的图像；

从而，为了在场景中识别所述标记，在该场景内定位所述边界，并搜索所述边界内的图像以在图像库中找到匹配图像。

当识别到所述标记时，计算机软件可以检索与所述识别到的标记相关联的多媒体内容。

在第九方面中，提供了一种用于跟踪对象以向用户提供混合现实体验的方法，该方法包括以下步骤：

计算所述对象的具有标记的各个面的对应变换矩阵；

识别具有最高跟踪置信度的面；以及

基于所识别到的面与所述对象的物理关系，来计算从标记坐标系到对象坐标系的变换矩阵；

其中，通过将从对象坐标系到面坐标系的变换矩阵与从面坐标系到摄像机坐标系的变换矩阵相乘，来计算从对象坐标系到摄像机坐标系的变换矩阵。

在第十方面中，提供了一种用于向用户提供混合现实体验的图像采集设备，该图像采集设备包括：

图像采集模块，用于采集对象在第一场景中的图像；以及

跟踪模块，用于通过跟踪所述对象的至少两个面并识别至少一个标记来跟踪所述对象在所述第一场景中的位置和取向，其中每一个面都具有标记；

其中，所述图像采集设备检索与所识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于所识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

在第十一方面中，提供了一种计算机程序产品，该计算机程序产品包括用于携带计算机可执行指令的计算机可读介质，该计算机可执行指令用于：

从图像采集设备接收对象在第一场景中的采集图像；以及

通过跟踪所述对象的至少两个面并识别至少一个标记来跟踪所述对象在所述第一场景中的位置和取向，其中每一个面都具有标记；

其中，检索与所识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于所识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

附图说明

现将参照附图描述本发明的示例，在附图中：

图1是表示交互式***的图形媒体以及立方体的“抽象”的类图；

图2是表示在交互式***的“方法立方体”中限定的状态和连接(coupling)的映射的表；

图3是表示交互式***中的“继承”的表；

图4是表示3D魔幻故事立方体应用程序中的虚拟连接的表；

图5是3D魔幻故事立方体应用程序的处理流程图；

图6是表示在室内设计应用程序中添加家具的虚拟连接的表；

图7是一系列屏幕截图，用于表示虚拟对象的“拾取”和“放下”如何将家具添加到面板(board)上；

图8是一系列屏幕截图，用于表示重新排列家具的方法；

图9是表示重新排列家具的虚拟连接的表；

图10是一系列屏幕截图，用于表示虚拟对象的“拾取”和“放下”将家具堆叠在面板上；

图11是一系列屏幕截图，用于表示从面板上扔掉家具；

图12是一系列屏幕截图，用于集中表示重新排列家具；

图13是在室内设计应用程序中使用的六个标记的图示；

图14是表示虚拟对象和实际对象的抽象及封装的类图；

图15是表示跟踪立方体的坐标系的示意图；

图16是室内设计应用程序的程序流程的处理流程图；

图17是用于添加家具的处理流程图；

图18是用于重新排列家具的处理流程图；

图19是用于删除家具的处理流程图；

图20表示在室内设计应用程序中的家具物品的冲突；

图21是一系列屏幕截图，用于表示虚拟对象之间响应于立方体的空间关系的交互；以及

图22是来自3D词汇书应用程序的屏幕截图。

具体实施方式

附图和以下讨论旨在提供对可实施本发明的适当计算环境的简要而概括的描述。尽管不需要，但是将在由个人计算机执行的计算机可执行指令(例如，程序模块)的一般环境中对本发明进行描述。通常，程序模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、符号(character)、组件、数据结构。本领域的技术人员应该理解，本发明可以通过其它计算机***结构来实施，包括手持设备、多处理器***、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机、控制盒等。本发明还可以在通过经通信网络连接的远程处理设备执行任务的分布式计算环境中实施。在分布式计算环境中，程序模块可以位于本地存储器存储设备和远程存储器存储设备中。

参照图1，提供了一种交互式***，以使得能够与计算机上的软件应用程序进行交互。在该示例中，软件应用程序是用于播放媒体文件的媒体播放器应用程序。媒体文件包括AVI电影文件或WAV音频文件。该交互式***包括在Microsoft Windows XP平台上利用Visual C++6.0编写的软件、计算机监视器、以及安装在该监视器上方的用于跟踪桌面区域的Dragonfly摄像机。

通过将面向对象的实物操作用户界面(Object Oriented Tangible UserInterface(OOTUI))思想应用于交互式***的软件开发，使得能够使用简单的实物操作用户界面(TUI)来进行复杂交互。利用面向对象编程(OOP)技术抽象出不同的类的对象的属性和方法。图1的(a)示出了以分级的方式进行了结构化的虚拟对象(图像10、影片11、3D动画对象12)，它们的共性分类在超类(图形媒体13)下。与虚拟对象相对应的三个子类为图像10、影片11以及3D动画对象12。这些子类从图形媒体超类13继承了属性和方法。影片11和3D动画对象12子类包含对于它们自身的类来说独特的属性和方法。这些属性和方法与由TUI的状态确定的TUI的物理特性和动作相关。相关音频信息可以与图形媒体11、12、13相关联，例如声音效果。在该***中，TUI使得能够对包括搜索文件数据库以及设定尺寸、缩放和移动图形媒体11、12、13在内的行为进行控制。对于影片11和3D对象12，行为包括媒体文件的播放/暂停、快进及回退。此外，可以调节音量。

在该示例中，TUI为立方体。与球体或复杂形状相比，立方体在其多个面之一上具有稳定的物理平衡，这使得其相对容易跟踪或感测。在该***中，立方体的状态由这些物理平衡来确定。此外，可以将立方体堆叠在另一立方体的顶部。在堆叠时，这些立方体形成紧凑并且稳定的物理结构。这减少了交互式工作空间的分散。立方体是大多数人从童年开始就熟悉的直观而简单的对象。立方体可以被抓取，这使得人们能够利用生动的空间推理而不需要具有洞察力的行为来操纵实际对象。

利用基于视觉的跟踪算法来检测立方体的位置和运动，从而通过媒体播放器应用程序来操作图形媒体。在立方体上存在六个不同的标记，每个面上一个标记。在其它示例中，可以在一个面上设置一个以上的标记。由于立方体的这些面的关系已知，所以各个标记相对于彼此的位置已知且固定。为了识别立方体的位置，对六个标记中的任何一个进行跟踪。这确保了即使在交互期间手或两手遮挡了立方体的不同部分也能够进行连续跟踪。这意味着可以根据对立方体进行操纵的能力的最小约束来直观且直接地操纵立方体。

利用人为现象(artefact)的状态来转换与这些类的连接关系。当立方体停靠在其多个面中的任何一个上时，根据立方体的六个物理平衡来限定各个立方体的状态。为了与媒体播放器应用程序进行交互，仅需要处理三个类。由于立方体具有六个状态，所以单个立方体提供了与这三个类的足够连接。该立方体被称为“对象立方体”14。

然而，为了处理虚拟对象的虚拟属性/方法17，由于连接的最大数量已达到六个，所以对于影片11和3D动画对象12类来说单个立方体是不够的。连接的总数为立方体的六个状态，其小于3个类+6个属性/方法17。这超过了单个立方体的极限。因此，提供了用于连接虚拟对象的虚拟属性/方法17的第二立方体。该立方体被称为“方法立方体”15。

“对象立方体”14的状态决定了所显示的对象的类以及与“方法立方体”15连接的类。“方法立方体”15的状态决定了物理特性/动作18所连接的虚拟属性/方法17。针对虚拟对象以及立方体，对相关信息进行结构化和分类。图1的(b)示出了抽象之后的立方体16的结构。

“对象立方体”14用作容纳图形媒体的数据库。存在立方体的三个有效状态。当跟踪立方体的顶面并且该立方体的顶面与三个预定标记之一相对应时，仅允许显示其所继承的类的实例，在该示例中其为媒体文件的类型。当旋转或变换立方体时，显示图形虚拟对象，使其看起来好像附着于立方体的顶面上。还可以为虚拟对象和实际立方体之间的附着引入一些弹性。立方体的这些状态还决定了“方法立方体”15的连接类，激活到根据所继承类的动作的连接或使该连接无效。

由于弹性，当最终在位置A处跟踪到标记之后，由于用户的手导致的遮挡，***可能会丢失对标记的跟踪。当稍后在位置B处重新跟踪到该标记时，在后继帧中显示该虚拟对象，好像虚拟对象从位置A弹跳到位置B。这使得能够进行平滑过渡，以避免在***丢失对标记或具有标记的对象的跟踪时对象显示的闪烁。

参照图2，在“方法立方体”15上，立方体的特性/动作18分别映射到虚拟对象的三个类的属性/方法17。尽管存在虚拟对象的具有不同属性和方法的三个不同的类，然而不必须为它们全部都设计新的界面。相反，通过对相似方法/特性进行分组并使用相同的界面来实施相似方法/特性来减少冗余。

在图2中，从图形媒体超类13继承方法“选择”19、“X-Y缩放”20以及“变换”21。它们可以被分组在一起，从而通过同一界面进行控制。方法“设置播放/停止”23、“设置动画/停止”、“调节音量”24以及“设置帧位置”22为对于各个类唯一且在实现方面不同的方法。尽管这些方法17在实现方面不同，但是包含相似思想或概念的方法17仍然可以分组在一个界面下。如图所示，仅使用一组物理特性/动作18与三个类共同具有的“缩放”方法20连接。这是OOTUI中的多形性的实现。这是通过防止界面或与可分类的类相关的信息的重复来产生TUI的紧凑且有效的方式，并且减少了***中的界面的数量。利用该技术，界面数量从15个界面(用于图像的方法-3个界面，用于影片的方法-6个界面，用于3D对象的方法-6个界面)减少为6个界面。这使得能够通过单个立方体的六个状态来操纵该***。

参照图3，图片的第一行30表示立方体从“影片”类11继承用于与方法31连接的特性。用户能够利用所继承的类中的“设置帧方法”32来切换场景。第二行35表示用户对“3D对象”类12执行相同的任务。第三行36中的第一个图片表示“图像”类10不继承“设置帧方法”32，因此在该面上出现红叉。第二个图片表示“对象立方体”14处于由红叉表示的未定义状态。

“方法立方体”15到影片11和动画对象12的“设置帧”32方法的旋转动作是用于观看影片的直观界面。该方法间接地实现了典型视频播放器上的诸如“快进”和“回退”的功能。此外，“方法立方体”15使得用户能够“播放/暂停”动画。

用户可以通过相同的动作来设置所有三个类的图形媒体的尺寸，即通过旋转“方法立方体”15使“+”作为顶面(状态2)。这调用了“尺寸”方法20，其参照立方体相对于其顶面的法线的角度改变图形媒体的尺寸。从TUI的设计者的角度，对三个类10、11、12不同地实现“尺寸”方法20。然而，用户感觉不到实现方面的该差异，从而该差异是透明的。

为了增强用户的音频和视觉体验，增添了视觉和音频效果以产生情感召唤体验。例如，使用动画绿色圆箭头和红叉来表示可行动作。音频反馈包括声音效果，以表示对象立方体和方法立方体的状态变化。

示例-3D词汇书

参照图22，给孩子们用的3D交互式词汇书是该交互式***的应用程序。3D交互式词汇书需要来自两个立方体的交互。屏幕截图左侧的“对象立方体”具有六个面。每个面都向孩子们显示要学习的3D对象的类。图22示出了“车辆”类。屏幕截图右侧的“方法立方体”用于导航“车辆”数据库。当用户根据立方体的顶面上所示的导航图案旋转“方法立方体”时，显示在“对象立方体”上方的3D模型从坦克变为汽车。弹出的2D文本以不同的语言显示单词“坦克”，包括简要说明。可以使模型动画。如果使模型动画，则与该简要描述的人工叙述一起播放发动机噪声。还可以播放不同语言的单词的不同发音。此外，向用户提供包括重设对象尺寸和移动对象在内的其它交互。

示例-3D魔幻故事立方体应用程序

该交互式***的另一应用程序为3D魔幻故事立方体应用程序。在该应用程序中，故事立方体讲述著名的圣经故事“Noah’s Ark”。该应用程序所需的硬件包括计算机、摄像机以及可折叠立方体。计算机的最低要求为至少512MB RAM和128MB的图形卡。在一个示例中，使用IEEE1394摄像机。在计算机中安装IEEE 1394卡以与IEEE 1394摄像机连接。该应用程序适用的两个IEEE 1394摄像机为Dragonfly摄像机或者Firefly摄像机。这些摄像机都能够以30Hz的速度、以640×480像素的分辨率获取彩色图像。这能够在探索折叠的有形立方体的同时观看故事的3D版本。摄像机的采集速度越高，由于延迟的减少，使得用户的混合现实体验越真实。摄像机的分辨率越高，图像细节越多，因此提高了跟踪准确率。使用可折叠立方体作为3D故事讲述的TUI。用户可以按照单向(unilateral)的方式展开该立方体。以前已对2D故事讲述使用了可折叠立方体，并且在立方体的面上印出图片。

在该应用程序中使用的软件和软件库为Microsoft Visual C++6.0、DirectX、OpenGL、GLUT和MXR开发工具箱。Microsoft Visual C++6.0用作开发工具。其特色在于完全集成的编辑器、编译器和调试器，从而使编码和软件开发更容易。用于其它组件的库也是集成的。在虚拟现实(VR)模式中，DirectX、OpenGL和GLUT对于图形显示起到重要作用。OpenGL是开发便携的交互式2D和3D图形应用程序的首要环境。OpenGL负责VR模式下的2D和3D图形的所有操纵。GLUT是OpenGL实用工具箱，并且是用于编写OpenGL程序的窗口***独立工具箱。其用于实现OpenGL的窗口应用程序接口(API)。MXR开发工具箱使开发者能够生成增强现实(AR)软件应用程序。其主要用于编写视频采集和标记识别方面的应用程序。MXR工具箱是用于跟踪基准(fiducial)并识别基准内的图案的计算机视觉工具。在每个面上都具有独特标记的立方体的使用使得能够使用MXR工具箱通过计算机连续跟踪立方体的位置。

参照图4，3D魔幻故事立方体应用程序对交互式故事讲述应用简单的状态转换模型40。当用户将立方体展开成特定物理状态41时，以预定的顺序播放音频和3D动画的适当片断。仅在播放了当前状态的内容时才调用状态转换。应用OOTUI思想，可以将可折叠立方体的各个状态的虚拟连接映射42到一页数字动画。

参照图5，设计算法50来跟踪可折叠立方体，该可折叠立方体在各个展开页上具有不同的标记。跟踪51并记录52标记的相对位置。该算法确保了连续跟踪，并确定某页何时曾经播放过。这使得能够以单向的方式探索故事，从而使故事能够保持连续的叙述进度。当故事的所有页都播放过一次时，用户可以返回到故事的任意页以观看再次播放的场景。

在设计该***时应该牢记的一些设计考虑是在较差照明条件和图像分辨率期间***的鲁棒性。

立方体的展开是单向的，这使得每次展开该立方体时都能展示故事的新页。用户可以按照其非增强视图(2D视图)及其增强视图(3D视图)来观看显示在立方体上的故事。故事的场景是立方体的面上的增强3D图形。

除了3D操纵和3D触觉以外，AR叙述还通过引入3D图形和声音来提供具有吸引力并且可理解的体验。用户能够在体验故事时享受参与和探索角色的乐趣。实际立方体提供了触觉和使得能够进行自然且直观的交互的物理交互。例如，用户可以移动靠近故事立方体的控制立方体，以去除或添加新的故事角色或故事对象。此外，实际立方体使得能够在听众之间交流故事讲述，就像他们彼此自然互相一样。

为了增强用户交互并增强立方体展开的直观性，在播放故事的每一页或每一节之后显示动画箭头以指示展开立方体的方向。此外，所使用的3D虚拟模型具有96％的轻微透明度，以确保用户的手仍部分可见，从而使得能够进行如何操纵立方体的视觉反馈。

当跟踪到一个特定标记时，对故事立方体的每一页进行再现。由于标记可能较小，所以还可以在一页上具有多个标记。由于多个标记以已知布局定位在同一个面上，所以跟踪这些标记之一确保了其它标记的位置是已知的。该性能利于更鲁棒的跟踪。

为了有助于进行同步，使用计算机***时钟使在程序中使用的各个计数器递增。这使得该程序对于不同计算机以不同的速度运行。一种另选的方案是使用恒定的帧速率方法，其中每一秒再现恒定数量的帧。为了实现恒定的帧速率，将一秒分成多个相同大小的时间片，并在每一时间片开始时开始再现每一帧。该应用程序必须确保每一帧的再现不超过一个时间片，否则将破坏帧的恒定频率。为了计算3D魔幻故事立方体应用程序的再现的最大可能帧速率，测量再现最复杂的场景所需的时间量。根据该测量来计算出每秒的帧数。

示例-室内设计应用程序

为该交互式***开发的另一应用程序是室内设计应用程序。在该应用程序中，与家具面板相结合使用MXR工具箱，以利用作为家具目录的书来显示房间的位置。

MXR工具箱提供了各个标记的位置，但未提供与用于和虚拟对象进行交互的命令有关的信息。这些立方体可被抓取，从而使得用户能够对虚拟对象具有更有代表性的感觉。由于立方体可以被抓取(与操作手柄相比)，所以运动自由度受到较少的约束。立方体作为包括具有已知关系的六个相连标记的对象被跟踪。这即使在一个标记被遮挡或覆盖时也可以确保对立方体的连续跟踪。

除了立方体之外，家具面板具有六个标记。可以仅使用家具面板上的一个标记来获得满意的跟踪准确度级别。然而，利用多个基准使得只要有一个基准未被遮挡就能够进行鲁棒的跟踪。这对于立方体和面板的连续跟踪很重要。

为了选择特定的家具物品，用户使用家具目录或书，其每一页上都具有一个标记。该思想类似于所述的3D魔幻故事立方体应用程序。用户将立方体设置在代表家具目录的选择的标记旁边的加载区域，以在AR模式下观看家具。

参照图14，在确定要利用立方体执行的任务之前，应用OOTUI使得软件开发者能够处理复杂界面。首先，确定所关心的虚拟对象及其属性和方法。将虚拟对象分成两组：可堆叠的对象140和不可堆叠的对象141。可堆叠的对象140是可以放置在其它对象的顶部的对象，例如植物、电视机以及Hi-Fi单元。它们还可以放置在地上。两个组140、141都从它们的父类(3D家具142)继承属性和方法。可堆叠的对象140具有额外的属性143，即相对于其所放置在的对象的相对位置。图14中的(a)表示了该抽象的结果。

对于虚拟工具立方体144，立方体的六个平衡被定义为确定这些状态的多个因素之一。该立方体的一些附加属性将与家具目录和面板互补地使用。因此，具有诸如立方体相对于书145和面板146的相对位置的一些附加属性。与从立方体父类144继承的属性相结合的这些附加属性确定了立方体的各种状态。这在图14中的(b)示出。

为了直观地拾取对象，需要以下步骤：

1)移动到所需对象的附近；

2)利用该立方体形成“拾取”姿势。

被拾取的对象将跟随着手直至其被放下。当放下真实对象时，可预期到以下步骤：

1)仅当手做出放下姿势时对象才开始放下；

2)根据重力定律，被放下的对象落在放下该对象前该对象的位置的正下方；

3)如果以一角度放下对象，则在其被放下后将表现为呈一角度。

存在控制在增强现实中添加虚拟对象的潜在规则。

参照图6，为了添加家具，应用OOTUI在实际世界61和虚拟世界62之间形成连接60。对诸如删除和重新排列家具的其它方法使用变换63立方体的思想。对立方体的其它面进行类似的映射。

为了确定立方体相对于书和面板的关系，需要找到立方体相对于虚拟对象的位置和接近度。利用MXR工具箱可以知道各个标记相对于摄像机的坐标。利用该信息，进行矩阵计算以找到立方体相对于包括书和面板在内的其它物品的接近度和相对位置。

图7示出了详细的连续屏幕截图带，用于表示虚拟对象的“拾取”70和“放下”71如何将家具72添加到面板上。

参照图8，与添加家具物品类似，“拾取”80和“放下”的思想也可以用于重新排列家具。将“右转箭头”标记81用作为顶面，因为与象征添加的“+”标记相比，其象征着沿所有可能的方向移动。图9示出了与重新排列家具的虚拟连接。

在设计AR***时，虚拟对象的物理约束被表示为现实中的对象。当在房间中引入家具时，在房间中移动所需虚拟家具时存在物理约束。如果在该位置已存在虚拟家具物品，则不允许用户在该位置“放下”另一家具物品。用户可以放下家具物品的最近位置紧邻面板上现有的家具物品。

参照图10，较小的虚拟家具物品可以堆叠在较大物品上。例如，诸如植物和电视机的物品可以放置在架子和桌子的顶部，也可以放置在地上。同样，可以重新排列放置在地上的物品，以将其堆叠在另一物品的顶部。图10示出了从地上拾取并被放在架子的顶部的植物。

参照图11，直观地删除或扔出对象需要进行以下步骤：

1)接近所期望的对象110；

2)利用立方体做出“拾取”姿势111；以及

3)用手做出投掷动作112。

参照图12，可以将特定家具物品堆叠在其它家具物品上。这实现了与特定虚拟对象的分组和集中关系120。图12示出了在集中地重新排列家具的任务中使用大立方体(用于成组对象)。

为了增加对于用户的直观性，添加了视觉和音频反馈。这增强了用户的体验，还有效地利用了用户的触觉、听觉(sound)和视觉。当发生不同的事件时添加不同的声音。这些事件包括选择家具对象、拾取、添加、重新排列和删除。此外，当家具物品与面板上的另一对象碰撞时，持续播放连续不断的警告声直至用户将该家具物品移动到新位置为止。由于提供视觉和音频反馈提高了与用户的交互，所以这使得增强的实物操作用户界面更直观。

在室内设计应用程序中使用的硬件包括家具面板和立方体。该室内设计应用程序扩展了前述的单个标记跟踪。家具面板是二维的而立方体是三维的，用于跟踪多个对象。

参照图13，扩展了用于跟踪用户ID卡的方法以跟踪共享白板卡130。使用六个标记131来跟踪面板130的位置，从而增加***的鲁棒性。根据可视标记来估算用于多个标记131的变换矩阵，因而当可用的标记很少时会引入误差。各个标记131在其内部具有独特的图案132，这使得该***能够识别这些标记131，这些标记应该水平或垂直对准，并且可以估算面板旋转。

相对于面板的计算中心133来再现陈列室。当跟踪以上特定标记时，利用预设的X位移和Y位移使用一些简单变换来计算出面板的中心133。然后根据所跟踪的标记131的数量对计算出的这些中心133进行平均。这确保了只要跟踪一个标记131就可以连续跟踪和再现面板130上的家具陈列室。

当标记131的表面接***行于视线时，由于用于识别的像素较少，所以跟踪变得更加困难。当标记翻转时，跟踪丢失。由于标记131的整个区域必须始终可见以确保成功跟踪，所以不允许标记131上的任何遮挡。这导致操纵和自然的双手交互很困难。

参照图15，该算法的一个优点在于其使得能够通过双手直接操纵立方体。当用一只手操纵立方体时，只要检测到立方体的六个面中的至少一个，就可以始终跟踪该立方体。用于跟踪立方体的算法如下：

1、检测所有的面标记150，并针对各个检测面计算对应的变换矩阵(Tcm)。

2、选择具有最高跟踪置信度的面，并识别其面ID，即顶、底、左、右、前、后。

3、根据所选择的标记与该立方体的物理关系，来计算从标记坐标系到对象坐标系151的变换矩阵(Tmo)。

4、利用Tco＝Tcm^-1×Tmo来计算从对象坐标系151到摄像机坐标系(Tco)152的变换矩阵。

图16示出了AR室内设计应用程序的执行，其中并行地搜索面板160、小立方体161和大立方体162。

为了使得用户能够在立方体接近家具分类的标记131时拾取虚拟对象，需要知道立方体和虚拟对象之间的相对距离。由于MXR工具箱返回各个标记131的摄像机坐标，所以使用标记来计算距离。使用立方体上的标记与虚拟对象的标记之间的距离来求出立方体相对于标记的接近度。

可以求出各个标记的摄像机坐标。这意味着立方体上的标记的摄像机坐标以及虚拟对象的标记的摄像机坐标由MXR工具箱提供。换言之，已知立方体标记相对于摄像机的坐标和虚拟对象标记的坐标。TA是从摄像机原点到虚拟对象标记的变换矩阵。TB是从摄像机原点到立方体标记的变换矩阵。然而，这没有给出立方体标记与虚拟对象标记之间的关系。根据这些坐标，可以求出有效距离。

通过求出TA-1，获得从虚拟对象到摄像机原点的变换矩阵。利用该信息，获得立方体相对于虚拟对象标记的相对位置。仅关心立方体和虚拟对象的接近度。因此，仅需要进行从虚拟对象到立方体所需的变换(即，Tx、Ty、Tz)，并可以忽略旋转分量。

[\begin{matrix} R_{11} & R_{12} & R_{13} & T_{x} \\ R 21 & R 22 & R 23 & T_{y} \\ R_{31} & R 32 & R 33 & T_{z} \\ 0 & 0 & 0 & 1 \end{matrix}] = [T_{A}^{- 1}] [T_{B}]

(等式1)

Tz用于测量立方体是否放置在书或面板上。这设置了用于拾取和放下对象的平台(stage)。该值与立方体相对于该立方体顶部的标记的高度相对应。然而，考虑到跟踪中的不精确，允许使用立方体的高度附近的特定范围。

Tx、Ty用于确定立方体是否位于书或面板的特定范围内。如果立方体在书附近并位于加载区域，则允许立方体处于“添加”模式。如果立方体在面板周边内或距面板中心的特定半径内，则允许重新排列、删除、添加立方体，或者将立方体堆叠到其它对象上。

存在一些用于确定立方体的状态的参数，其包括：立方体的顶面、立方体的高度、以及立方体相对于面板和书的位置。

该***通过初始化步骤进行校准，以使得能够在立方体的交互和操纵期间确定立方体的顶面。该步骤涉及在将立方体放置在桌子上时，在开始之前获得桌子的法线。因此，通过比较立方体和桌面的法线，可以在桌子上方操纵立方体时确定立方体的顶面。立方体的变换矩阵被获得为被称为tfmTable的矩阵。该变换矩阵包含与标记相对于摄像机的位置和取向有关的所有信息。准确地说，该变换矩阵是欧几里德变换矩阵，其将跟踪帧的基准帧中的点变换成摄像机中的基准帧中的点。该程序的整体结构被定义为：

[\begin{matrix} r_{11} & r_{12} & r_{13} & t_{x} \\ r_{21} & r_{22} & r_{23} & t_{y} \\ r_{31} & r_{32} & r 33 & t_{z} \end{matrix}]

省略了等式1中的最后一行，因为其对所期望的计算没有影响。最初的九个元素形成了3×3旋转矩阵并描述了对象的取向。为了确定立方体的顶面，利用通过跟踪各个面而获得的变换矩阵并求解以下等式。将用于立方体的各个面的变换矩阵称为tfmCube。

Dot_product＝tfmCube.r₁₃*tfmTable.r₁₃+

tfmCube.r₂₃*tfmTable.r₂₃+ (等式2)

tfmCube.r₃₃*tfmTable.r₃₃

立方体的利用等式2中的变换矩阵产生最大Dot_product的面被确定为立方体的顶面。还考虑立方体相对于书和面板的位置。立方体的四种位置状态被定义为：在面板上、离开面板、在书上、离开书。立方体的状态与其位置的关系提供如下：

立方体的状态	立方体的高度-t_z	立方体相对于面板和书-t_x和t_y
立方体的状态	立方体的高度-t_z	立方体相对于面板和书-t_x和t_y	在面板上	与面板相同	在面板的边界内
离开面板	超过面板	在面板的边界内	在面板上	与面板相同	在面板的边界内
离开面板	超过面板	在面板的边界内	在书上	与书的封面相同	在书(家具目录)附近
离开书	超过书的封面	在书(家具目录)附近	在书上	与书的封面相同	在书(家具目录)附近

参照图17，通过使用“+”标记作为立方体170的顶面来添加家具。这使得接近了具有所期望的家具所面对的页的家具目录。当检测到立方***于书上(在书上)171时，在立方体的顶部弹出虚拟家具对象。利用旋转运动，由于在立方体旋转的同时在立方体上弹出不同的虚拟家具物品，所以用户可以“浏览”该目录。当拾取立方体(离开书)时，在立方体上见到的最后一个虚拟家具物品被拾取172。当检测到立方体在面板上(在面板上)时，用户可以通过将立方体抬离面板(离开面板)而将家具添加到立方体173。为了重新排列家具，将立方体放置在面板上(在面板上)，并且以“右箭头”标记作为顶面。当检测到立方体被放置在面板上时，用户可以通过将立方体移动到所期望的家具的中心来“拾取”该家具。

参照图18，当家具被“拾取”(离开面板)时，在立方体的顶部再现该家具，并发出音频提示180。然后用户将面板上的立方体移动到期望位置。当选择了该位置时，用户仅将立方体抬离面板以将其放到该位置181。

参照图19，为了删除家具，将立方体放置在面板上(在面板上)，并且以“×”标记作为顶面190。当删除位于面板上的立方体时，用户可以通过将立方体移动到所期望的家具的中心来选择该家具。当成功选择了家具时，在立方体的顶部再现该家具并发出音频提示191。然后用户将该立方体抬离面板(离开面板)以删除该家具192。

当引入或重新排列家具时，应该牢记的问题是家具的物理约束。与现实相同，增强现实世界中的家具不能与另一家具冲突或“相交”。因此，当家具与另一家具冲突时，不允许用户添加该家具。

参照图20，解决家具物品冲突问题的一种途径是对四个边界坐标200和被添加到发生冲突的家具的坐标系的家具的中心进行转置。将点pt0、pt1、pt2、pt3、pt4200转置到面板上的家具的U-V轴。然后根据在面板上的家具的x-长度和y-宽度201来检查这五个点的U-V坐标。

U_N＝cosθ(X_N-X₀)+sinθ(Y_N-Y₀)

V_N＝sinθ(X_N-X₀)+cosθ(Y_N-Y₀)

其中

(U_N，V_N)	相对于面板上的家具的新的转置坐标
(U_N，V_N)	相对于面板上的家具的新的转置坐标	θ	在面板上的家具相对于X-Y坐标所成的角度
(X₀，Y₀)	在板上的家具的X-Y中心坐标	θ	在面板上的家具相对于X-Y坐标所成的角度
(X₀，Y₀)	在板上的家具的X-Y中心坐标	(X_N，Y_N)	在立方体上的家具的任何X-Y坐标(根据附图，它们代表pt0、pt1、pt2、pt3、pt4)

只有在任意U-V坐标满足U_N＜x-长度&&V_N＜y-宽度的情况下，才发出音频效果。这向用户表示：不允许他们将家具物品放在该位置而必须在放下该家具物品之前移动到另一位置。

对于可以在其顶部上堆叠物品的家具(例如，桌子和架子)，在它们的被称为堆叠的家具结构中设置标志。当检测到用于放置在该对象的顶部上的诸如植物、hi-fi单元或者电视机的对象时，该标志被设置为真。该类别的对象允许在其上放置多达四个对象。这种类型的家具(例如，植物)除了相对于面板中心的相对矩阵以外还在其结构中存储被堆叠对象的相对于桌子或架子的相对变换矩阵。当摄像机已检测到大立方体的“左箭头”或“×”顶面时，其进入集中重新排列和删除对象的模式。因此，如果要拾取桌子或架子，并且被堆叠标志为真，则可以使用存储在桌子或架子的顶部上的对象的结构中的相对变换矩阵根据该立方体对这些对象进行再现。

参照图21，虚拟对象之间的交互可以响应于立方体的空间关系。在故事场景中，利用两个立方体之间的距离来限定故事角色与其它虚拟对象之间的交互。在第一屏幕截图中，用户朝向具有行星虚拟对象的较大立方体移动具有中国公主虚拟对象的小立方体。***210持续检测小立方体和较大立方体之间的空间关系。当该空间关系处于特定参数内时，例如小立方体和较大立方体之间的距离充分靠近时，产生来自虚拟对象的响应。在该示例中，与较大立方体相关联的虚拟对象从行星变成第二屏幕截图中所示的玫瑰。

尽管针对标记描述了规则形状，然而标记可以为不规则形状。尽管描述了具有边界的标记，然而在一些实施例中可以构想不需要边界。对于不规则形状的标记，该标记的图案可以：

●使它们与其余面相区别。即，区分标记的ID；

●具有高对比度边缘，从而容易与背景分开。因此，颜色不必仅限于黑色和白色；以及

●具有至少四个用于跟踪的特征点。当计算变换矩阵时，识别至少四个特征点。然而，可以使用除了角部之外的其它特征点，例如大黑点。

所述的不规则跟踪方法可以对正方形标记的使用进行补充。当正方形的角部或边缘被遮挡时，不规则跟踪提供临时支持。

尽管在Microsoft Windows XP平台上使用Visual C++6.0编写了该交互式***210，然而其它编程语言也是可行的，并且可以使用诸如Linux和MacOS X的其它平台。

尽管已描述了Dragonfly摄像机211，然而可以使用视频分辨率至少为640×480像素的网络摄像机。

尽管在一个实施例中将***210描述为软件，然而可以将所有的软件功能硬件实现为连接至摄像机电路的电路。因此，可以构想仅通过摄像机来执行计算机软件的图像处理功能。

本领域的技术人员应该理解，在不脱离概述的本发明的范围或精神的情况下，可以对具体实施例中所示的本发明进行多种变形和/或修改。因此，这些实施例在所有方面都应被认为是示例性的而非限制性的。

Claims

1、一种用于向用户提供混合现实体验的交互式***，该***包括：

具有至少两个面的对象，每一个面都具有标记；

2、根据权利要求1所述的***，其中，所述标记未被遮挡。

3、根据权利要求1所述的***，其中，所述标记为预定形状。

4、根据权利要求3所述的***，其中，通过所述软件识别所述形状的至少一部分来识别所述标记。

5、根据权利要求4所述的***，其中，所述计算机软件利用所述形状的被识别的部分来确定所述标记的完整的预定形状。

6、根据权利要求3所述的***，其中，所述预定形状为正方形。

7、根据权利要求6所述的***，其中，所述计算机软件识别所述正方形的至少两个角以确定所述标记。

8、根据权利要求1所述的***，其中，所述标记包括具有单个缺口的不连续边界。

9、根据权利要求8所述的***，其中，所述标记包括所述边界内的图像。

10、根据权利要求9所述的***，其中，所述图像是几何图案。

11、根据权利要求10所述的***，其中，将所述图案与存储在样本库中的样本相匹配。

12、根据权利要求8所述的***，其中，所述边界的颜色产生相对于所述标记的背景颜色的高对比度，以使得能够通过所述计算机软件将背景分开。

13、根据权利要求12所述的***，其中，所述边界的颜色为黑色，并且所述背景的颜色为白色。

14、根据权利要求10所述的***，其中，如果所述边界被部分遮挡而所述边界内的图案未被遮挡，则所述计算机软件能够识别到标记。

15、根据权利要求1所述的***，该***还包括：显示设备，用于在生成所述第二场景的同时显示所述第二场景。

16、根据权利要求15所述的***，其中，所述显示设备为监视器、电视机屏幕、LCD或PDP。

17、根据权利要求15所述的***，其中，所述显示设备为所述图像采集设备的取景器，或者是用于投影图像或视频的投影仪。

18、根据权利要求15所述的***，其中，所述显示设备的视频帧速率在12至30帧每秒的范围内。

19、根据权利要求1所述的***，其中，所述图像采集设备安装在所述显示设备上方。

20、根据权利要求19所述的***，其中，所述图像采集设备和所述显示设备面向用户。

21、根据权利要求20所述的***，其中，在所述用户和所述显示设备之间操纵所述对象。

22、根据权利要求1所述的***，其中，多媒体内容包括二维图像或三维模型、视频或音频信息。

23、根据权利要求1所述的***，其中，所述对象的所述至少两个面基本上是平面。

24、根据权利要求23所述的***，其中，所述至少两个面连接在一起。

25、根据权利要求23所述的***，其中，所述对象是立方体或者多面体。

26、根据权利要求1所述的***，其中，所述对象是可折叠的。

27、根据权利要求26所述的***，其中，所述对象是用于讲故事的可折叠立方体。

28、根据权利要求1所述的***，其中，所述计算机软件安装在台式计算设备或移动计算设备上，例如个人数字助理(PDA)、移动电话、其它移动通信设备、或者具有嵌入式计算机处理器的控制盒。

29、根据权利要求1所述的***，其中，所述图像采集设备是摄像机。

30、根据权利要求29所述的***，其中，所述摄像机是CCD或CMOS视频摄像机。

31、根据权利要求29所述的***，其中，所述摄像机、计算机软件以及显示设备被设置在单个集成单元中。

32、根据权利要求29所述的***，其中，所述摄像机、计算机软件以及显示设备位于远程位置。

33、根据权利要求1所述的***，其中，对于待显示的每一个视频帧，通过将所述相关联的多媒体内容再现到所述第一场景内，来将所述相关联的多媒体内容叠加在所述第一场景上。

34、根据权利要求1所述的***，其中，在三维空间中计算所述对象的位置。

35、根据权利要求34所述的***，其中，估算所述显示设备和所述对象之间的位置关系。

36、根据权利要求1所述的***，其中，对采集到的图像进行阈值处理。

37、根据权利要求36所述的***，其中，利用连接组件算法来识别连续的黑色区域。

38、根据权利要求37所述的***，其中，利用轮廓搜索技术来识别这些黑色区域的轮廓。

39、根据权利要求38所述的***，其中，不包含四个角的轮廓被丢弃。

40、根据权利要求38所述的***，其中，包含了尺寸错误的区域的轮廓被丢弃。

41、根据权利要求38所述的***，其中，将直线拟合到正方形轮廓的各条边。

42、根据权利要求41所述的***，其中，所述直线的交点可用作估计的角部位置。

43、根据权利要求42所述的***，其中，使用投影变换将由所述角部位置描述的区域变形为标准形状。

44、根据权利要求43所述的***，其中，所述标准形状与所存储的标记样本交叉相关，以识别所述标记并确定所述对象的取向。

45、根据权利要求42所述的***，其中，所述角部位置用于确定唯一的欧几里德变换矩阵，该欧几里德变换矩阵与相对于所述标记的位置的所述显示设备的位置相关。

46、根据权利要求1所述的***，其中，所述交互式***是室内设计应用程序或者词汇教学应用程序。

47、根据权利要求1所述的***，该***还包括：至少两个对象，其中，确定所述至少两个对象之间的空间关系，以根据与所识别到的标记相关联的多媒体内容产生预定响应。

48、根据权利要求47所述的***，其中，所述空间关系是从包含以下内容的组中选择的：对象之间的距离、堆叠以及遮挡。

49、根据权利要求47所述的***，其中，所述预定响应是从包含以下内容的组中选择的：相关联的多媒体内容之间的交互、至少一个相关联的多媒体内容的动画、以及至少一个相关联的多媒体内容的音频录音的回放。

50、一种用于向用户提供混合现实体验的交互式***，该***包括：

图像采集设备，用于采集对象在第一场景中的图像；以及

51、一种用于向用户提供混合现实体验的软件应用程序，该应用程序包括：

其中，所述软件应用程序检索与所识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于所识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

52、一种检索模块，该检索模块用于检索虚拟对象以向用户提供混合现实体验，该模块包括：

53、根据权利要求52所述的检索模块，其中，所识别到的标记具有一个以上的对应虚拟对象。

54、一种相关联多媒体内容的库，用于向用户提供混合现实体验，该库包括：

识别数据字段，用于识别多媒体内容的各个条目；以及

内容数据字段，用于存储多媒体内容的条目，或者用于存储多媒体内容的条目的存储位置；

55、一种携带用于向用户提供混合现实体验的混合现实内容的信号，该信号包括：

其中，通过跟踪在各个面上具有标记的对象的至少两个面来识别所述识别到的标记，其中各个面上具有一个标记。

56、根据权利要求55所述的信号，该信号还包括：与所识别到的标记相关联的音频信息。

57、一种在用于向用户提供混合现实体验的交互式***中使用的有形对象，该对象包括：

至少两个面；以及

其中，所述边界的不连续性表示了所述边界内的图像的定位以及所述对象的取向。

58、根据权利要求57所述的对象，其中，通过跟踪所述对象的至少一个面来跟踪该对象的位置和取向。

59、一种用于有形对象的标记，该有形对象在用于向用户提供混合现实体验的交互式***中使用，该标记包括：

不连续的边界以及该边界内的图像；

由此，为了在场景中识别所述标记，在该场景内定位所述边界，并搜索所述边界内的图像以在图像库中找到匹配图像。

60、根据权利要求59所述的标记，其中，当识别到所述标记时，计算机软件检索与所述标记相关联的多媒体内容。

61、一种用于向用户提供混合现实体验的方法，该方法包括以下步骤：

在第一场景中采集具有至少两个面并且每一个面都具有标记的对象的图像；

通过跟踪所述对象的至少两个面，来跟踪所述对象在所述第一场景中的位置和取向；

识别至少一个标记；

62、一种用于跟踪对象以向用户提供混合现实体验的方法，该方法包括以下步骤：

计算所述对象的具有标记的各个面的变换矩阵；

识别具有最高跟踪置信度的面；以及

63、根据权利要求62所述的方法，该方法还包括：在所述对象的搁置位置获得所述对象的顶面的法线的初始步骤。

64、根据权利要求63所述的方法，该方法还包括以下步骤：通过使用所述变换矩阵计算产生最大点积的面来确定所述对象的顶面。

65、根据权利要求64所述的方法，其中，在所述对象的操纵期间，通过使用所述变换矩阵连续计算产生最大点积的面来确定所述对象的顶面。

66、一种用于向用户提供混合现实体验的图像采集设备，该图像采集设备包括：

图像处理模块，用于接收对象在第一场景中的采集图像；以及

其中，所述设备检索与所识别到的标记相关联的多媒体内容，并产生第二场景，以向用户提供混合现实体验，该第二场景包括在相对于所识别到的标记的相对位置叠加在所述第一场景上的所述相关联的多媒体内容。

67、一种计算机程序产品，该计算机程序产品包括用于携带计算机可执行指令的计算机可读介质，该计算机可执行指令用于：

从图像采集设备接收对象在第一场景中的采集图像；以及