CN103119627B

CN103119627B - 用于云辅助式扩增现实的可适应性框架

Info

Publication number: CN103119627B
Application number: CN201180045056.3A
Authority: CN
Inventors: A·斯瓦弥纳杉; P·沙尔马; B·江; M·R·查理; S·D·斯宾德拉; P·K·巴赫帝; V·纳拉亚南
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-09-20
Filing date: 2011-09-19
Publication date: 2017-03-08
Anticipated expiration: 2031-09-19
Also published as: JP6000954B2; ES2745739T3; JP2015144474A; WO2012040099A1; HUE047021T2; US9633447B2; JP5989832B2; EP2619728B1; JP2013541096A; KR101548834B1; KR20130060339A; US20160284099A1; US20120243732A1; CN103119627A; EP2619728A1; US9495760B2; JP6290331B2; JP2017011718A

Abstract

一种使用分布式处理来高效地处理包括图像数据等传感器数据的移动平台，在该分布式处理中，对等待时间敏感的操作是在该移动平台上执行的，而对等待时间不敏感但操作密集的操作是在远程服务器上执行的。该移动平台捕获诸如图像数据之类的传感器数据，并确定是否有将该传感器数据传送至该服务器的触发事件。该触发事件可以是该传感器数据相对于先前捕获到的传感器数据的变化，例如图像中的场景变化。当出现变化时，传感器数据可被传送给该服务器以进行处理。该服务器处理此传感器数据，并返回与此传感器数据有关的信息，诸如对图像中的对象的标识或参考图像或模型。该移动平台可随后使用所标识出的对象或参考图像或模型来执行基于参考的跟踪。

Description

用于云辅助式扩增现实的可适应性框架

A·斯瓦弥纳杉

P·沙尔马

B·江

M·R·查理

S·D·斯宾德拉

P·K·巴赫帝

V·纳拉亚南

相关申请的交叉引用

本申请要求于2010年9月20日提交的题为“An Adaptable Framework For CloudAssisted Augmented Reality（用于云辅助式扩增现实的可适应性框架）”的美国临时申请No.61/384,667、以及于2011年9月19日提交的题为“An Adaptable Framework For CloudAssisted Augmented Reality（用于云辅助式扩增现实的可适应性框架）”的美国S/N.13/235,847的优先权，上述两件申请均被转让给本申请受让人，并通过援引纳入与此。

背景

扩增现实***可将虚拟对象***到用户对现实世界的视图中。在典型的AR（扩增现实）***中可能有许多组件。这些组件包括：数据捕获、数据处理、对象检测、对象跟踪、注册、改良、和渲染组件。这些组件可彼此交互以给用户提供丰富的AR体验。然而，在典型AR***中的检测和跟踪中的若干组件可能利用计算密集型的操作，这会打扰用户的AR体验。

概述

一种使用分布式处理来高效地处理包括图像数据等传感器数据的移动平台，在该分布式处理中，对等待时间敏感的操作是在该移动平台上执行的，而对等待时间不敏感的、但操作密集的操作是在远程服务器上执行的。该移动平台捕获诸如图像数据之类的传感器数据，并确定是否有将该传感器数据传送至该服务器的触发事件。该触发事件是该传感器数据相对于先前捕获到的传感器数据的变化，例如捕获到的图像中的场景变化。当出现变化时，传感器数据被传送给该服务器以进行处理。该服务器处理此传感器数据，并返回与此传感器数据有关的信息，诸如对图像中的对象的标识。该移动平台可随后使用所标识出的对象来执行基于参考的跟踪。

在一种实现中，一种方法包括使用移动平台来捕获传感器数据；确定是否有触发事件，包括传感器数据相对于先前捕获到的传感器数据的变化；当有触发事件时将传感器数据传送给服务器；以及从该服务器接收与该传感器数据有关的信息。传感器数据可以是捕获到的对象图像，例如照片或视频帧。

在另一实现中，一种移动平台包括适配成捕获传感器数据的传感器以及无线收发机。该传感器可以是例如用于捕获对象的图像的相机。处理器被耦合到该传感器和无线收发机，并被适配成经由该传感器来捕获传感器数据，确定是否有触发事件，包括该传感器数据相对于先前捕获到的传感器数据的变化，当出现触发事件时经由该收发机将该传感器数据传送给外部处理器，以及经由该无线收发机从该外部处理器接收与该传感器数据有关的信息。

在另一实现中，一种移动平台包括用于捕获传感器数据的装置；用于确定是否有触发事件的装置，触发事件包括传感器数据相对于先前捕获到的传感器数据的变化；用于当有触发事件时将传感器数据传送给服务器的装置；以及用于从该服务器接收与该传感器数据有关的信息的装置。用于捕获传感器数据的装置是相机，并且该传感器数据是捕获到的对象图像。

在又一实现中，一种包括存储于其上的程序代码的非瞬态计算机可读介质包括用于捕获传感器数据的程序代码；用于确定是否有触发事件的程序代码，触发事件包括传感器数据相对于先前捕获到的传感器数据的变化；用于在出现触发事件时将该传感器数据传送给外部处理器的程序代码；以及用于从该外部处理器接收与该传感器数据有关的信息的代码。

附图简要说明

图1解说示出包括移动平台和远程服务器的用于分布式处理的***的框图。

图2是解说分布式处理的过程的流程图，其中对等待时间敏感的操作由移动平台执行，而对等待时间不敏感且计算密集的操作由外部处理器执行。

图3解说用于服务器辅助式AR的***的操作的框图。

图4解说用于服务器辅助式AR的呼叫流图，在其中姿态是由远程服务器提供的。

图5解说用于服务器辅助式AR的另一呼叫流图，在其中姿态不是由远程服务器提供的。

图6解说由场景变化检测器执行的方法的流程图。

图7是解说分布式处理***的性能的图表，其以最小触发间隙的函数的形式示出所需网络传输。

图8和9解说使用服务器辅助式AR过程来进行面部识别的办法。

图10和11解说使用服务器辅助式AR过程来进行视觉搜索的办法。

图12和13解说使用服务器辅助式过程来进行基于参考的跟踪的办法。

图14解说使用服务器辅助式过程来进行3D模型创建的办法。

图15是能够使用基于服务器的检测来进行分布式处理的移动平台的框图。

具体描述

如本文中所公开的分布式处理***包括一设备，该设备可决定何时将数据经由无线网络提供给服务器、或在云计算环境中经由网络提供给另一设备以进行处理。该设备也可自行处理该数据。例如，对等待时间敏感的操作可被选择成在该设备上执行，而对等待时间不敏感的操作可被选择成远程地执行以便实现更高效的处理。用于决定何时要将数据发送到服务器以进行处理的因素可包括正对该数据执行的操作是对等待时间敏感的/不敏感的、所需计算量、该设备或服务器任一方处的处理器速度/可用性、网络状况、或服务质量、及其他因素。

在一个实施例中，提供了用于扩增现实（AR）应用的包括移动平台和外部服务器的***，在其中对等待时间敏感的操作是在该移动平台上执行的，而对等待时间不敏感但计算密集的操作是远程地（例如，在该服务器上）执行的以便实现高效处理。这些结果然后可由该服务器发送给该移动平台。对AR应用使用分布式处理，最终用户就能无缝地享受AR体验。

如本文中所使用的，移动平台是指任何便携式电子设备，诸如，蜂窝或其他无线通信设备、个人通信***（PCS）设备、个人导航设备（PND）、个人信息管理器（PIM）、个人数字助理（PDA）、或者其他合适的移动设备。该移动平台可以能够接收无线通信和/或导航信号（诸如导航定位信号）。术语“移动平台”还旨在包括诸如藉由短程无线、红外、有线连接、或其他连接与个人导航设备（PND）通信的设备，不管卫星信号接收、辅助数据接收、和/或位置有关处理是发生在该设备处还是在PND处。而且，“移动平台”旨在包括能够进行AR的所有电子设备，包括无线通信设备、计算机、膝上型电脑、平板计算机等等。

图1解说示出用于使用基于服务器的对象检测和标识来进行分布式处理的***100的框图。***100包括执行对等待时间敏感的操作（诸如跟踪）的移动平台110，而远程服务器130执行对等待时间不敏感且计算密集的操作，诸如对象标识。该移动平台可包括相机112和显示器114和/或可包括运动传感器164。移动平台110可捕获对象102的图像104，该图像可被示出在显示器114上。移动平台110所捕捉到的图像104可以是静止图像（例如，相片）、或来自视频流的单帧，这两者在本文中均被称作捕捉到的图像。移动平台110可补充地或替换地从除相机112以外的其他传感器（例如，使用卫星定位***（SPS）接收机166或者一个或更多个运动传感器164，包括例如加速计、陀螺仪、电子罗盘或其他类似运动感测元件）来捕获其他传感器数据，包括位置和/或取向数据。例如，SPS可以是诸如全球定位***（GPS）、Galileo、Glonass或Compass之类的全球导航卫星***（GNSS）、或诸如日本上空的准天顶卫星***（QZSS）、印度上空的印度地区性导航卫星***（IRNSS）、中国上空的北斗之类的各种地区性***、和/或可与一个或更多个全球和/或地区性导航卫星***相关联或以其他方式能与之联用的各种扩增***（例如，基于卫星的扩增***（SBAS））的星座。

移动平台110经由网络120将捕获到的数据信息传送给服务器130，捕获到的数据信息诸如有捕获到的图像104和/或传感器数据，诸如SPS信息或来自板载运动传感器164的位置信息。捕获到的数据信息可以还包括或替换地包括上下文数据，诸如对当前正被移动平台110跟踪的任何对象的标识。网络120可以是任何无线通信网络，诸如无线广域网（WWAN）、无线局域网（WLAN）、无线个域网（WPAN）等等。服务器130处理由移动平台110提供的数据信息，并生成与该数据信息有关的信息。例如，服务器130可基于所提供的图像数据使用对象数据库140来执行对象检测和标识。服务器130将与所捕获到的数据有关的信息返回给移动平台110。例如，如果服务器130从由移动平台110提供的图像数据标识出对象，则服务器130可返回对该对象的标识，例如包括标识符，诸如该对象102的称号或标识号或参考图像106，以及可被移动平台用于扩增现实应用的任何期望的附带信息，诸如显著性指示符、信息链接等。

如果期望，则服务器130可确定移动平台110在图像104被捕捉时相对于在参考图像106中的对象102的姿态（位置和取向）并将其提供给移动平台110，参考图像106例如是从已知位置和取向所取的对象102的图像。所返回的姿态可在移动平台110中被用于引导跟踪***。换言之，移动平台110可跟踪（例如，视觉地或使用运动传感器164）从其捕捉图像104的时间到其从服务器130接收到参考图像106和姿态的时间该移动平台110的姿态上的所有增量变化。移动平台110可随后将接收到的姿态连同其跟踪到的姿态上的增量变化一起用来迅速地确定相对于对象102的当前姿态。

在另一实施例中，服务器130返回参考图像106，但不提供姿态信息，并且移动平台110通过使用对象检测算法将对象102的当前捕捉到的图像相对于对象102的参考图像106进行比较，来确定相对于对象102的当前姿态。该姿态可被用作对跟踪***的输入，由此使得能够估计相对运动。

在又一实施例中，服务器130仅返回姿态信息但不提供参考图像。在此情形中，移动平台110可将捕捉到的图像104连同姿态信息一起用来创建能后续由跟踪***使用的参考图像。替换地，移动平台110可跟踪捕捉到的图像104与后续捕捉到的图像（称作当前图像）之间在位置上的增量变化，并可将从服务器130获得的姿态连同这些增量跟踪结果一起用来计算该当前图像相对于移动平台生成的参考图像的姿态。在没有参考图像102的情况下，可使用估计姿态来扭曲（或矫正）当前图像以获得对参考图像的估计，其可被用于引导跟踪***。

补充地，为了使移动平台110向服务器130发送检测请求的频度最小化，移动平台110可仅在出现触发事件的情况下才发起检测请求。触发事件可基于图像数据或来自运动传感器164的传感器数据相对于先前捕获到的图像数据或传感器数据的变化。例如，移动平台110可使用场景变化检测器304来确定是否已发生了图像数据变化。由此，在一些实施例中，移动平台110可仅在被场景变化检测器304触发时才为检测请求经由网络与服务器130通信。场景变化检测器304例如仅当在当前图像中出现新信息时才为对象检测触发与服务器的通信。

图2是解说分布式处理的过程的流程图，其中对等待时间敏感的操作由移动平台110执行，而对等待时间不敏感且计算密集的操作由诸如服务器130之类的外部处理器执行。如所解说的，由移动平台110捕获传感器数据（202）。该传感器数据可以是捕获到的图像，例如捕捉到的照片或视频帧，或是从中派生出的信息，包括人物识别或提取出的关键点。传感器数据可还包括或替换地包括例如SPS信息、运动传感器信息、条码识别、文本检测结果、或从部分地处理该图像得到的其他结果、以及上下文信息，诸如用户行为、用户偏好、地点、用户信息或数据（例如，关于该用户的社交网络信息）、时辰、照明质量（自然相对于人工）、以及（图像中）站在近旁的人、等等。

移动平台110确定有触发事件（204），诸如传感器数据相对于先前捕获到的传感器数据的变化。例如，触发事件可以是场景变化，在其中新的或不同的对象显现在该图像中。在检测到触发事件（诸如场景变化）之后，捕获到的传感器数据被传送给服务器130（206）。当然，如果没有检测到场景变化，则传感器数据无需被传送给服务器130，藉此减少了通信和检测请求。

服务器130处理捕获到的信息以例如执行对象识别等，这在本领域中是公知的。在服务器130处理该信息之后，移动平台110从服务器130接收与该传感器数据有关的信息（208）。例如，移动平台110可接收对象标识的结果，包括例如参考图像。与传感器数据有关的信息可补充地或替换地包括以下信息，诸如位于移动平台110附近的物项（诸如建筑物、餐馆、商店中的在售产品等）、以及来自服务器的二维（2D）或三维（3D）模型、或是可用在其他过程（诸如游戏）中的信息。若期望，则可提供附加信息，包括如以上所讨论的在图像104被捕捉的时候移动平台110相对于参考图像中的该对象的姿态。如果移动平台110包括本地高速缓存，则移动平台110可存储服务器130所发送的多个参考图像。这些存储着的参考图像可被用于例如在跟踪丢失的情况下可在移动平台110中执行的后续的重检测。在一些实施例中，服务器标识图像中的多个对象（来自传感器）。在此类实施例中，可仅为所标识出的对象之一向移动平台110发送参考图像或其他对象标识符，或者与相应各个对象对应的多个对象标识符可被传送给移动平台110并由其接收。

由此，可由服务器130提供的信息可包括识别结果、关于所标识出的（诸）对象的信息、能被用于诸如跟踪之类的各种功能的关于（诸）对象的参考图像（一个或许多个）、所识别出的（诸）对象的2D/3D模型、所识别出的（诸）对象的绝对姿态、要用于显示的扩增信息、和/或关于对象的显著性信息。补充地，服务器130可发送与对象匹配有关的信息，该信息可增强移动平台110处的分类器。一个有可能的示例是当移动平台110正使用决策树来进行匹配时。在此情形中，服务器130可发送该树的诸个体节点的值以促成更准确的树构建以及后续更好的匹配。决策树的示例包括例如k均值、k维树、词汇表树、以及其他树。在k均值树的情形中，服务器130还可发送种子以初始化移动平台110上的阶层式k均值树结构，藉此允许移动平台110执行查找以用于加载恰适的树。

任选地，移动平台110可获得该移动平台相对于对象102的姿态（210）。例如，移动平台110可在不从服务器130接收任何姿态信息的情况下，通过捕捉对象102的另一图像并将此新捕捉到的图像与参考图像作比较来获得相对于该参考图像中的该对象的姿态。在服务器130提供姿态信息的场合，移动平台可通过将服务器130提供的姿态（即在初始图像104被捕捉时移动平台110相对于参考图像中的对象的姿态）与自初始图像104被捕捉时起跟踪到的在移动平台110的姿态上的变化相组合，来迅速地确定当前姿态。应注意，姿态是在有还是没有服务器130的辅助的情况下获得可取决于网络120和/或移动平台110的能力。例如，如果服务器130支持姿态估计，并且如果移动平台110和服务器130就用于传送姿态的应用编程接口（API）达成一致，那么姿态信息可被传送给移动平台110并用于跟踪。由服务器发送的对象120的姿态（210）可以是相对旋转和变换矩阵、单应性矩阵、仿射变换矩阵的形式、或其他形式。

任选地，移动平台110可随后使用接收自服务器130的数据来对该对象执行AR，诸如跟踪目标、估计在每帧中的对象姿态、以及***虚拟对象、或以其他方式使用估计的姿态通过渲染引擎来扩增用户视图或图像（212）。

图3解说用于服务器130辅助式AR的***100的操作的框图。如图3中所示，使用新的捕捉到的图像300来发起无参考***302。该无参考***302基于光流、归一化互相关（NCC）或本领域中所知的任何类似方法来执行跟踪。无参考***302标识此新的捕捉到的图像300中的特征（诸如点、线、区域及类似物），并例如使用流向量等来逐帧地跟踪这些特征。从跟踪结果获得的流向量帮助估计先前捕捉到的图像与当前捕捉到的图像之间的相对运动，并进而帮助标识运动速度。无参考***302所提供的信息由场景变化检测器304接收。场景变化检测器304将例如来自无参考***302的被跟踪特征等连同其他类型的图像统计（诸如直方图统计）和来自移动平台中的各传感器的其他可用信息一起用来估计场景中的变化。如果场景变化检测器304没有发送触发，则该过程继续以无参考***302来进行下去。如果场景变化检测器304标识出场景中的实质性变化，则场景变化检测器304发送触发信号，该触发信号可发起基于服务器的检测器308中的检测过程。如果期望，则可使用图像质量估计器306来分析图像质量以进一步控制向基于服务器的检测器308进行的请求传送。图像质量估计器306检查图像的质量，并且如果质量良好，即大于阈值，则触发检测请求。如果图像质量不良，则不触发检测，并且图像不被传送给基于服务器的检测器308。在本发明的一个实施例中，移动平台110可在已检测到场景变化之后等待良好质量图像长达有限的一段时间后再将该良好质量图像发送给服务器130以进行对象识别。

图像的质量可基于已知图像统计、图像质量衡量、以及其他类似办法。例如，捕捉到的图像的锐度可通过高通滤波并生成代表例如边强度和空间分布的一组统计来量化。如果锐度值超过该场景的“普遍锐度”（例如，如在数个先前帧上取平均所得的）或与之相当，则该图像可被分类为良好质量图像。在另一实现中，可使用诸如FAST（加速分段测试提取特征）角点或Harris角点之类的快速角点检测算法来分析图像。如果有充足数目的角点（例如，检测到的角点的数目超过阈值、或者大于该场景的“普遍角点数”（例如，如在数个先前帧上取平均所得的）或与之相当），则该图像可被分类为良好质量图像。在另一实现中，可使用从图像得到的统计（诸如边梯度量值的平均值或标准偏差）来教导学习分类器，该学习分类器可用来在良好质量图像与低劣质量图像之间进行区分。

图像的质量还可以使用传感器输入来衡量。例如，由移动平台110在迅速移动之时捕捉到的图像可能变得模糊，并且因此其质量比假使移动平台110处于静止或在缓慢移动的情况下的图像质量要差。相应地，可将来自传感器数据（例如，来自运动传感器164或来自基于视觉的跟踪）的运动估计与阈值作比较以确定结果所得的相机图像是否具有足以被发送以进行对象检测的质量。类似地，图像质量可基于所确定的图像模糊量来衡量。

另外，可提供触发时间管理器305以进一步控制向基于服务器的检测器308传送的请求的数量。触发时间管理器305维护该***的状态，并且可基于试探法和规则。例如，如果自上一触发图像以来的图像数目大于阈值（例如，1000个图像），则触发时间管理器305可生成可以超时并自动发起基于服务器的检测器308中的检测过程的触发。由此，如果已经对于过多数目的图像没有触发，则触发时间管理器305可强制实现触发，这是有用的，其用来确定在相机的视野里是否有任何附加对象。补充地，触发时间管理器305可被编程为将两个触发之间的最小分隔维持在选定值η，即，如果自上一被触发的图像起在η个图像以内，则触发时间管理器305抑制触发。使被触发的图像分隔开可能是有用的，例如，如果场景正快速变化的话。由此，如果场景变化检测器304在η个图像以内产生了不止一个触发，则仅一个被触发的图像被发送给基于服务器的检测器308，藉此减少从移动平台110去往服务器130的通信量。触发时间管理器305还可管理触发调度。例如，如果场景变化检测器304自上一触发起不到η个图像但大于μ个图像以前产生了新触发，则该新触发可被触发时间管理器305存储并推延直至相继触发之间的图像间隙至少是η的时间。作为示例，μ可以是2个图像且η≥μ，并且作为示例，η可为2、4、8、16、32、64不等。

触发时间管理器305还可管理服务器130的检测失败。例如，如果先前的基于服务器的检测尝试失败，则触发时间管理器305可周期性地产生触发以向基于服务器的检测器308重传请求。这些尝试中的每一者可使用一基于最新近捕捉到的图像的不同查询图像。例如，在检测失败之后，可由触发时间管理器305以η的周期间隙来产生周期性触发，例如，如果上一失败的检测尝试是比η个图像以前更久，则发送触发，其中η值可以是可变的。

当基于服务器的检测器308被发起时，向服务器130提供与新的捕捉到的图像300相关联的数据，该数据可包括此新的捕捉到的图像300本身、关于此新的捕捉到的图像300的信息、以及与此新的捕捉到的图像300相关联的传感器数据。如果基于服务器的检测器308标识出对象，则所找到的对象（例如，参考图像、该对象的3D模型、或其他有关信息）被提供给移动平台110，移动平台110更新其本地高速缓存310。如果基于服务器的检测器308没有找到对象，则该过程可退却到周期性触发，例如，使用触发时间管理器305来周期性触发。如果在Γ个尝试（例如，4个尝试）之后没有检测到对象,则该对象被视为不在数据库中，并且***复位到基于场景变化检测器的触发。

在找到的对象存储在本地高速缓存310中的情况下，在移动平台110上运行的对象检测器312执行对象检测过程以标识当前相机视图中的该对象以及相对于该对象的姿态，并将对象身份和姿态发送给基于参考的***314。由对象检测器312发送的姿态和对象身份可被用来初始化并且启动基于参考的***314。在每个后续捕捉到的图像（例如，视频帧）中，基于参考的***314可将相对于该对象的姿态提供给移动平台110中的渲染引擎，该渲染引擎在所显示的对象之上、或以其他形式在图像中放置期望的扩增。在一个实现中，基于服务器的检测器308可发送对象的3D模型而不是参考图像。在此类情形中，该3D模型存储在本地高速缓存310中并且后续被用作对基于参考的***314的输入。在基于参考的***314被初始化之后，基于参考的***314接收每个新的捕捉到的图像300并标识所跟踪的对象在每个新的捕捉到的图像300中的位置，藉此允许相对于所跟踪的对象来显示扩增的数据。基于参考的***314可被用于许多应用，诸如姿态估计、面部识别、建筑物识别、或其他应用。

补充地，在基于参考的***314被初始化之后，基于参考的***314标识在每个新的捕捉到的图像300中所标识出的对象出现的区域，并且此信息借助于跟踪掩模来存储。由此，诸新的相机图像300中该***有其完整信息的区域被标识并作为输入提供给无参考***302和场景变化检测器304。无参考***302和场景变化检测器304继续接收每一新的捕捉到的图像300并使用跟踪掩模来对每个新的捕捉到的图像300的其余区域（即，在其中没有完整信息的那些区域）进行操作。使用跟踪掩模作为反馈不仅帮助减少因所跟踪的对象从场景变化检测器304作出的误触发，而且还帮助减少无参考***302和场景变化检测器304的计算复杂性。

在一个实施例中，由图3中的虚线所解说，基于服务器的检测器308可补充地提供新的捕捉到的图像300中的对象相对于在参考图像中的该对象的姿态信息。由基于服务器的检测器308提供的姿态信息可连同如由无参考***302所确定的姿态变化一起被姿态更新器316用来产生经更新的姿态。经更新的姿态可随后被提供给基于参考的***314。

补充地，当跟踪暂时丢失时，可使用本地检测器318搜索本地高速缓存310来执行后续重检测。尽管图3为清楚起见将本地检测器318和对象检测器312分开解说，但是若期望，本地检测器318可实现对象检测器312，即对象检测器312可执行重检测。如果在本地高速缓存中找到该对象，则使用对象身份来重新初始化并启动基于参考的***314。

图4解说用于服务器辅助式AR的呼叫流图，在其中姿态由服务器130提供，正如由图3中的虚线和姿态更新器316所解说的。当场景变化检测器304指示视图已改变（步骤A）时，通过由***管理器320向基于服务器的检测器308提供例如新图像（其可以是jpeg或其他格式）、以及对象检测请求来发起基于服务器的检测过程（步骤B）。补充或替换信息也可被发送给检测器308，诸如包括与该图像有关的信息的传感器数据、来自传感器（诸如SPS、取向传感器读数、陀螺仪、罗盘、压力传感器、高度计等）的信息、以及用户数据（例如应用使用数据、用户简档、社交网络信息、过往搜索、地点/传感器信息等）、等等。***管理器320还向无参考***320发送跟踪该对象的命令（步骤C）。检测器308处理该数据并向***管理器320返回对象（诸如（诸）对象的参考图像）、特征（诸如SIFT特征、带描述符的线等……）、元数据（诸如用于扩增）、以及姿态的列表，以返回给AR应用（步骤D）。对象的参考图像被添加到本地高速缓存310中（步骤E），本地高速缓存310确认添加了该对象（步骤F）。无参考***320将初始图像与当前图像之间在姿态上的变化提供给检测器312（步骤G）。检测器312使用该参考图像在当前捕捉到的图像中找到该对象，以将对象ID提供给***管理器320（步骤H）。补充地，检测器312把由基于服务器的检测器308提供的姿态连同来自无参考***302的姿态变化一起用来生成当前姿态，当前姿态也被提供给***管理器320（步骤H）。***管理器320指令无参考***320停止对象跟踪（步骤I）并指令基于参考的***314启动对象跟踪（步骤J）。跟踪以基于参考的***314来继续进行，直至跟踪丢失（步骤K）。

图5解说用于服务器辅助式AR的另一呼叫流图，在其中姿态不是由服务器130提供的。该呼叫流类似于图4中所示的呼叫流，区别在于检测器308在步骤D中并不向***管理器320提供姿态信息。由此，检测器312基于当前图像和由检测器308提供的参考图像来确定姿态，并将该姿态提供给***管理器320（步骤G）。

如以上所讨论的，场景变化检测器304基于当前的捕捉到的图像相对于先前的捕捉到的图像的变化来控制向服务器130发送检测请求的频度。使用场景变化检测器304是因为期望仅在图像中出现显著的新信息时才与外部服务器130通信来发起对象检测。

图6解说由场景变化检测器304执行的方法的流程图。用于场景变化检测的过程是基于来自无参考***302（图3）的度量与图像像素直方图的组合。如以上所讨论的，无参考***302使用诸如光流、归一化互相关之类的办法和/或任何此类跟踪连贯图像之间的相对运动（例如，如点、线或区域对应性）的办法。基于直方图的方法对于其中场景的信息内容在短历时里有显著变化的某些使用情形（诸如翻书）可良好地工作，并且因此对于在场景检测过程中使用而言是有益的；无参考跟踪过程对其中在场景中的信息内容上有渐变的其他使用情形（诸如摇摄）可高效地检测变化。

由此，如图6中所解说的，提供输入图像402。该输入图像是当前的捕捉到的图像，其可为当前视频帧或照片。如果上一图像并未触发场景变化检测（404），则执行（406）场景变化检测器的初始化（406）。初始化包括将图像分成块（408），例如对于QVGA图像是8x8的块，并从每个块提取关键点，例如使用FAST（加速分段测试提取特征）角点检测器等来从每个块提取关键点，在其中保留M个最强角点（410）（其中M可为2）。当然，可替换地将其他方法用于提取关键点，诸如Harris角点、比例不变特征变换（SIFT）特征点、加速稳健特征（SURF）、或任何其他期望的方法。返回不触发信号（412）。

如果上一图像触发了场景变化检测（404），则从无参考***302获得度量（解说为光流过程420）、以及从图像像素直方图获得度量（解说为直方图过程430）。如果期望，无参考***302可使用除光流以外的其他过程（诸如归一化互相关之类）来产生度量。光流过程420跟踪来自先前图像的角点（422）（例如，使用归一化互相关），并标识它们在当前图像中的位置。这些角点可能是先前已通过将图像分成块并从每个块选择关键点来提取的，例如使用FAST角点检测器从每个块选择关键点，其中基于FAST角点阈值的M个最强的角点被保留，如以上在初始化406中所讨论的，或者在Harris角点的情形中，基于Hessian阈值的M个最强的角点被保留。在连贯的图像上对所选取的角点运行无参考跟踪，以确定当前图像中的角点位置以及在跟踪中丢失的角点。演算在当前一轮迭代中（即，在当前图像与前一图像之间）丢失的角点的总强度（424中的d）作为第一变化度量，并且计算自前一触发起（即，在当前图像与先前触发图像之间）丢失的角点的总强度（426中的D）作为第二变化度量，它们被提供用于进行视频统计演算440。直方图过程430将当前输入图像（称为C）分成B xB的块并为每一块生成彩色直方图H^C _i,j，其中i和j是在该图像中的块索引。执行这些直方图与来自第N个过去图像的对应块的直方图H^N _i,j的逐块比较（434），例如使用χ²（卡方）方法来执行比较。直方图的比较帮助确定当前图像与第N个过去图像之间的相似性，以便标识场景是否已显著变化。藉由示例，B可被选取为10。为了使用χ²方法来比较当前图像与第N个过去图像的直方图，执行以下计算：

式1

此逐块比较产生差异值的阵列f_ij。该阵列f_ij被排序并且确定直方图变化度量h，例如确定其为经排序阵列f_ij中部的一半元素的平均值（436）。还提供直方图变化度量h用于进行视频统计演算。

如以上所讨论的，若期望，则可在场景变化检测期间使用由基于参考的***314（图3）提供的跟踪掩模来减少输入图像中要监视是否有场景变化的区域。跟踪掩模标识在其中标识出对象且因此可省略场景变化监视的那些区域。由此，例如，当输入图像被分成块时（例如，在422、432），可使用跟踪掩模来标识落在具有被标识出的对象的区域内的块，并且相应地，那些块可被忽略。

视频统计演算440接收光流度量d、D和直方图变化度量h，并产生图像质量的确定，其随度量d、D和h一起被提供以用来确定是否应当触发检测。演算变化度量△并将其与阈值比较（458）以返回触发信号（460）。当然，如果变化度量△小于该阈值，则返回不触发信号。可基于光流度量d、D和直方图变化度量h来演算（456）变化度量△，例如，如下进行：

△=αd+βD+γh。式2

在此，α、β和γ是恰适地选取（452）的权重，以向这三个统计d、D和h提供相对重要性。在一个实施例中，α、β和γ的值在整个运行期间可被设为常数。在替换实施例中，α、β和γ的值可取决于接收到的关于该***的性能的可能反馈或取决于目标使用情形来适配。例如，对于涉及摇摄类型场景变化检测的应用，可将α和β的值设为与γ相比相对较高，因为在此情形中，统计d和D可能更加可靠。替换地，对于主要涉及翻书类型的使用情形的应用，可将α和β的值设为与γ相比相对较低，在此使用情形中直方图统计h可能更有教益。若期望，可基于视频统计演算440的输出来适配此阈值（454）。

在一种情形中，若期望，则场景检测过程可基于来自无参考***302的度量，而没有来自直方图的度量，例如，来自式2的变化度量△可以按γ=0来使用。在另一实现中，输入图像可被分成块，并且使用例如FAST（加速分段测试提取特征）角点检测器等来从每一块提取关键点，如以上所讨论的，在FAST角点检测器中，M个最强的角点被保留。如果在当前图像与前一图像之间（例如，与阈值相比）已有充足数目的块变化了，则确定该场景已经变化了并且返回触发信号。例如，如果所跟踪的角点的数目小于另一阈值，则可认为块已经变化了。

而且，若期望，则场景检测过程可简单地基于自前一触发起丢失的角点的总强度（426中的D）相对于图像中的总数个角点的强度，例如，来自式2的变化度量△可以按α=0且γ=0来使用。自前一触发起丢失的角点的总强度可如下来确定：

式3

在式3中，s_j是角点j的强度，t是上一触发的图像的编号，c是当前图像编号，并且Li是包含在帧i中丢失的角点的标识符的集合。若期望，可使用不同的变化度量△，诸如：

式4

其中N_T是在触发的图像中的角点总数。可将变化度量△与阈值作比较（458）。

补充地，如以上所讨论的，可由场景变化检测器304使用跟踪掩模来限制每个图像中被搜索是否有场景上的变化的区域。换言之，在触发掩模的区域以外的角点的强度的丢失就是有关的度量。由场景变化检测器304搜索的区域的大小上的减小导致能被预期将检测到的角点数目上的相应减小。由此，可使用附加参数来补偿由于跟踪掩模导致的角点丢失，例如，如下进行：

式5

补偿参数λ可被用来调整变化度量△。例如，如果场景检测过程是简单地基于自前一触发起在未掩模区域中丢失的角点的总强度（D），则来自式4的变化度量△可被修改为：

式6

其中D_c由式3提供（其中Li定义为包含在帧i中的未掩模区域中的丢失角点的标识符的集合），A_c是图像c的掩模的面积，并且A被初始化为A_t+1。

图7是解说该***针对典型的翻书使用情形的性能的图表，在此使用情形中在50秒里翻过了5页。图7解说作为以秒计的最小触发间隙的函数的用于请求对象检测所需的网络传输数目。同样的最小触发间隙所需的网络传输个数越少，意味着性能越好。解说了数条曲线，包括关于周期性触发的曲线480、关于基于光流而无直方图统计（γ=0）且无基于参考的***314（图3）的场景变化检测器（SCD）的曲线482、关于基于光流而无直方图统计（γ=0）但有基于参考的***314的场景变化检测器（SCD）的曲线484、以及关于组合式的基于光流和直方图的场景变化检测器（SCD）（如图6中所描述）连同基于参考的***314以及定时管理器305（图3）的曲线486。如从图7可见，在此翻书使用情形中，该组合式***性能胜过其他***。

图8解说使用服务器辅助式AR过程来进行面部识别的办法。如图8中所解说的，移动平台110执行数据捕获502，其包括捕获面部图像、以及捕获任何其他有用的传感器信息，诸如SPS或位置/运动传感器数据。移动平台110执行面部检测504并将关于一张或更多张脸的面部数据（其可以是面部的图像）、以及任何其他有用数据（诸如SPS或位置/运动传感器数据）提供给服务器130，如箭头506所指示。移动平台110跟踪该面部的2D运动（508）。服务器130基于所提供的面部数据例如使用从全局数据库512检索到的并存储在本地高速缓存514中的数据等来执行面部识别510。服务器130将与该面部有关的数据（例如，身份或其他期望信息）提供给移动平台110，移动平台110使用接收到的数据用名字等来注释显示在显示器114上的该面部或以其他方式提供渲染的扩增数据（516）。

图9解说使用服务器辅助式AR过程来进行面部识别的另一办法。图9与图8中所解说的办法类似，其中相像的标示元素是相同的。然而，如图9中所解说的，图像被提供给服务器130（508'）并且面部检测（504'）是由服务器130来执行的。

图10解说使用服务器辅助式AR过程来进行视觉搜索的办法。如图10中所解说的，移动平台110执行数据捕获（520），其包括捕获期望对象的图像、以及捕获任何其他有用的传感器信息，诸如SPS或位置/运动传感器数据。移动平台110执行特征检测（522）并将检出特征、以及任何其他有用数据（诸如SPS或位置/运动传感器数据）提供给服务器130，如箭头526所指示。移动平台110跟踪这些特征的2D运动（524）。服务器130基于所提供的特征例如使用从全局数据库530检索到的并存储在本地高速缓存532中的数据等来执行对象识别528。服务器130还可执行全局登记（534）以例如获得参考图像、姿态等。服务器130将与对象有关的数据（诸如参考图像、姿态等）提供给移动平台110，移动平台110使用接收到的数据来执行本地登记（536）。移动平台110可随后相对于显示在显示器114上的对象来渲染期望的扩增数据（538）。

图11解说使用服务器辅助式AR过程来进行视觉搜索的另一办法。图11与图10中所解说的办法类似，其中相像的标示元素是相同的。然而，如图11中所解说的，整个图像被提供给服务器130（526'）并且特征检测（522'）是由服务器130来执行的。

图12解说使用服务器辅助式过程来进行基于参考的跟踪的办法。如图12中所解说的，移动平台110执行数据捕获（540），其包括捕获期望对象的图像、以及捕获任何其他有用的传感器信息，诸如SPS或位置/运动传感器数据。在一些实施例中，移动平台110可生成附带信息（541），诸如文本识别或条码读数等……移动平台110执行特征检测（542）并将检出特征、以及任何其他有用数据（诸如SPS或位置/运动传感器数据）、以及附带信息（若有生成）提供给服务器130，如箭头546所指示。移动平台110例如使用点、线或区域跟踪、或密集光流之类来跟踪这些特征的2D运动（544）。在一些实施例中，服务器130可使用所提供的特征来执行多平面识别（548）。一旦这些平面已被标识出，就可例如使用从全局数据库552检索到的并存储在本地高速缓存554中的数据等来对个体的平面或平面群执行对象识别（550）。若期望，可以使用任何其他识别方法。在一些实施例中，服务器130还可执行姿态估计（555）（若期望），姿态估计可以六个自由度、用单应性、仿射、旋转和平移矩阵来提供。服务器130将与对象有关的数据（诸如参考图像）提供给移动平台110，移动平台110使用接收到的数据来执行本地登记（556），本地登记可以是本地单应性登记或本地本质矩阵登记。如以上所描述的，移动平台110可包括本地高速缓存557以存储接收到的数据，这对于后续的重新检测可能是有益的，重新检测可在假如跟踪丢失的情况下在移动平台110中执行。移动平台110可随后相对于显示在显示器114上的对象来渲染期望的扩增数据（558）。

图13解说使用服务器辅助式过程来进行基于参考的跟踪的另一办法。图13与图12中所解说的办法类似，其中相像的标示元素是相同的。然而，如图13中所解说的，整个图像被提供给服务器130（546'）并且特征检测（542'）是由服务器130来执行的。

图14解说使用服务器辅助式过程来进行3D模型创建的办法。如图14中所解说的，移动平台110执行数据捕获（560），其包括捕获期望对象的图像、以及捕获任何其他有用的传感器信息，诸如SPS或位置/运动传感器数据。移动平台110执行2D图像处理（562）并使用无参考跟踪（例如，基于光流或归一化互相关的办法）来跟踪运动（564）。移动平台110执行本地的六个自由度的登记（568）以获得对姿态的粗略估计。在某些实施例中，此数据连同这些图像可被提供给服务器130。服务器130随后可执行集束调整以改良登记（570）。在给定了一组图像以及从不同视点来看的3D点对应性的情况下，集束调整算法帮助估计该点在已知参考坐标系中的3D坐标并帮助标识相机在不同视点之间的相对运动。集束调整算法一般而言是计算密集型的操作，并且能通过从移动平台110传递附带信息以及传递补充信息（若从本地高速缓存572有补充信息可用）来在服务器侧上高效地进行。在估计了3D点的位置以及相对姿态之后，它们能被直接提供给移动平台110。替换地，可在服务器处基于数据来构建对象的3D模型，并且此类数据可被发送给移动平台110。移动平台110可随后使用从服务器130获得的信息相对于显示在显示器114上的对象来渲染期望的扩增数据（576）。

应当注意，整个***配置可以是可取决于移动平台110、服务器130、以及通信接口（例如，网络120）的能力来适配的。如果移动平台110是没有专用处理器的低端设备，则绝大多数操作可被卸载到服务器130。另一方面，如果移动平台110是具有良好计算能力的高端设备，则移动平台110可选择执行其中一些任务，并将较少些的任务卸载到服务器130。此外，该***可以是可适配的以用于取决于例如通信接口上的可用带宽等来处置不同类型的通信接口。

在一个实现中，服务器130可向移动平台110提供关于该任务、以及任务的哪些部分能被卸载到服务器130的反馈。此类反馈可基于服务器130的能力、要执行的操作的类型、通信信道中的可用带宽、移动平台110和/或服务器130的功率级等。例如，如果网络链接不良并且数据率很低，则服务器130可推荐移动平台110发送图像的较低质量版本。如果数据率很低，则服务器130还可建议移动平台对该数据执行更多处理并且将经处理的数据发送给服务器130。例如，如果通信链路具有很低的数据率，则移动平台110可计算用于对象检测的特征并发送这些特征而不是发送整个图像。如果网络链接良好或如果过去的识别图像中的对象的尝试已失败，则服务器130可替换地推荐移动平台110发送该图像的更高质量版本或更频繁地发送图像（藉此减小消息帧间隙η）。

而且，本文中引入的移动台-服务器架构还能被扩展到其中使用不止一个移动平台110的情景。例如，可以正有两个移动平台110在从不同角度观看相同3D对象，并且服务器130可从获得自这两个移动平台110的数据来执行联合的集束调整以创建该对象的良好3D模型。对于诸如多玩家游戏之类的应用或类似应用，此类应用可能是有用的。

图15是能够使用基于服务器的检测来进行分布式处理的移动平台110的框图。移动平台110包括相机112以及用户接口150，该用户接口150包括能够显示由相机112捕捉的图像的显示器114。用户接口150还可包括按键板152或其他输入设备，用户可藉此向移动平台110输入信息。若期望，可通过将虚拟按键板整合到带有触摸传感器的显示器114中来省去按键板152。例如，如果移动平台是蜂窝电话，则用户接口150还可包括话筒154和扬声器156。

移动平台110可包括无线收发机162，其可用来与外部服务器130（图3）通信，如以上所讨论的。移动平台110可任选地包括有助于AR应用的附加特征，诸如，运动传感器164（包括例如，加速计、陀螺仪、电子罗盘、或者其他类似的运动感测元件）、以及能够从卫星定位***（SPS）***接收定位信号的SPS接收机166。当然，移动平台110可包括与本公开不相关的其他元件。

移动平台110还包括控制单元170，该控制单元170被连接至相机112和无线收发机162连同其他部件（诸如，用户接口150、运动传感器164和SPS接收机166（若使用））并与它们通信。控制单元170接受并处理来自相机112的数据，并响应于此控制通过无线收发机162与外部服务器的通信，如以上所讨论的。控制单元170可由处理器171和相关联的存储器172来提供，存储器172可包括由处理器171执行以实行本文中描述的方法或方法部分的软件173。控制单元170可补充地或替换地包括硬件174和/或固件175。

控制单元170包括基于如上讨论来触发与外部服务器的通信的场景变化检测器304。图3中所解说的附加组件也可被包括，诸如触发时间管理器305和图像质量估计器306。控制单元170进一步包括无参考***302、基于参考的***314以及检测单312，检测单元312被用来基于存储在本地高速缓存中（例如，存储器172中）的对象来检测当前图像中的对象。控制单元170进一步包括扩增现实（AR）单元178以生成并在显示器114上显示AR信息。为了清楚起见，场景变化检测器304、无参考***302、基于参考的***314、检测单元312、以及AR单元178被分开解说并且解说为与处理器171分开，但它们可以是单个单元和/或基于软件173中的指令实现在处理器171中，软件173由处理器171读取并执行。将理解，如本文中所使用的，处理器171、以及场景变化检测器304、无参考***302、基于参考的***314、检测单元312、和AR单元178中的一者或更多者可以但并非必然包括一个或更多个微处理器、嵌入式处理器、控制器、专用集成电路（ASIC）、数字信号处理器（DSP）、及类似物。术语“处理器”旨在描述由***实现的功能而非专门的硬件。此外，如本文所使用的术语“存储器”是指任何类型的计算机存储介质，包括与移动平台相关联的长期、短期、或其他存储器，且并不被限定于任何特定类型的存储器或特定数目的存储器、或记忆存储在其上的介质的类型。

本文中所描述的方法体系取决于应用可藉由各种手段来实现。例如，这些方法体系可在硬件174、固件175、软件173、或其任何组合中实现。对于硬件实现，这些处理单元可以在一个或更多个专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理器件（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、处理器、控制器、微控制器、微处理器、电子器件、设计成执行本文中所描述功能的其他电子单元、或其组合内实现。由此，用于捕获传感器数据的设备可包括相机112、SPS接收机166、以及运动传感器164、还有可基于由相机112产生的图像来产生诸如文本识别或条码读数之类的附带信息的处理器、或其他用于捕获传感器数据的装置。用于确定是否有触发事件（包括传感器数据相对于先前捕获到的传感器数据的变化）的设备包括检测单元312、或其他用于确定是否有触发事件（包括传感器数据相对于先前捕获到的传感器数据的变化）的装置，其中检测单元312可由执行实施在软件173中、硬件174或固件175中的指令的处理器171来实现。用于在有触发事件时将传感器数据传送给服务器的设备包括无线收发机162或其他用于在有触发事件时将传感器数据传送给服务器的装置。用于从服务器接收与传感器数据有关的信息的设备包括无线收发机162或其他用于从服务器接收与传感器数据有关的信息的装置。用于获得移动平台相对于对象的姿态的设备包括无参考***302、无线收发机162、或其他用于获得移动平台相对于对象的姿态的装置。用于使用姿态和对象的参考图像来跟踪对象的设备包括基于参考的***314或其他用于使用姿态和对象的参考图像来跟踪对象的装置。用于确定在捕捉到的图像中是否有相对于先前的捕捉到的图像的场景变化的设备包括场景变化检测器304或其他用于确定在捕捉到的图像中是否有相对于先前的捕捉到的图像的场景变化的装置，其中场景变化检测器304可由执行实施在软件173中、或者硬件174或固件175中的指令的处理器171来实现。

对于固件和/或软件实现，这些方法体系可用执行本文中描述的功能的模块（例如，规程、函数等等）来实现。任何有形地体现指令的机器可读介质可被用来实现本文所述的方法。例如，软件173可包括存储在存储器172中并由处理器171执行的软件代码。存储器可以实现在处理器171内部或外部。

如果在固件和/或软件中实现，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上。示例包括编码成具有数据结构的非瞬态计算机可读介质和编码成具有计算机程序的计算机可读介质。计算机可读介质包括物理计算机存储介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，此类计算机可读介质可包括RAM、ROM、闪存、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质；如本文中所使用的盘（disk）和碟（disc）包括压缩碟（CD）、激光碟、光碟、数字多用碟（DVD）、软盘和蓝光碟，其中盘常常磁性地再现数据，而碟用激光光学地再现数据。以上组合也应被包括在计算机可读介质的范围内。

尽管出于指导目的结合具体实施例解说了本发明，但是本发明并不被限定于此。可作出各种适应性改编以及改动而不会脱离本发明的范围。因此，所附权利要求的精神和范围不应当被限定于前面的描述。

Claims

1.一种用于移动平台中的方法，包括：

使用移动平台来捕获传感器数据，其中所述传感器数据包括至少一个捕捉到的对象的图像；

使用包括所述至少一个捕捉到的对象的图像的所述传感器数据跟踪所述对象；

确定是否有包括所述传感器数据相对于先前捕获到的传感器数据的变化的触发事件；

当有所述触发事件时，将所述传感器数据传送给服务器，同时继续使用包括所述至少一个捕捉到的对象的图像的所述传感器数据跟踪所述对象；以及

从所述服务器接收与所述传感器数据有关的信息，

其中与所述传感器数据有关的所述信息包括对象标识，所述方法进一步包括：

捕获所述对象的附加的捕捉到的图像；

使用所述对象标识在所述附加的捕捉到的图像中标识所述对象；

基于所述对象标识来生成用于所述附加的捕捉到的图像的跟踪掩模，所述跟踪掩模指示所述附加的捕捉到的图像中标识出所述对象的区域；

将所述跟踪掩模与所述对象的所述附加的捕捉到的图像一起使用来标识所述附加的捕捉到的图像的其余区域；以及

检测包括所述附加的捕捉到的图像的所述其余区域中的场景变化的触发事件。

2.如权利要求1所述的方法，其中跟踪所述对象进一步包括使用从所述服务器接收的所述对象的参考图像。

3.如权利要求1所述的方法，所述方法进一步包括在将所述传感器数据传送给所述服务器之前确定所捕捉到的图像的质量，其中仅当所捕捉到的图像的质量优于阈值时所述传感器数据才被传送给所述服务器。

4.如权利要求3所述的方法，其中确定所捕捉到的图像的质量包括以下至少一者：分析所捕捉到的图像的锐度、分析所捕捉到的图像中的检出角点的数目、以及使用以学习分类器从所述图像推导出的统计。

5.如权利要求1所述的方法，进一步包括基于从所述服务器接收到的与所述传感器数据有关的信息相对于所述对象来渲染扩增。

6.如权利要求1所述的方法，其中与所述传感器数据有关的所述信息包括所述对象的标识。

7.如权利要求1所述的方法，其中所捕捉到的图像包括多个对象，并且与所述传感器数据有关的所述信息包括所述多个对象的标识。

8.如权利要求7所述的方法，进一步包括：

获得所述多个对象中的每一者相对于所述移动平台的姿态；以及

使用所述姿态以及与所述传感器数据有关的所述信息来跟踪所述多个对象中的每一者。

9.如权利要求1所述的方法，进一步包括：

获得所述移动平台相对于所述对象的姿态；以及

使用所述姿态以及与所述传感器数据有关的所述信息来跟踪所述对象。

10.如权利要求9所述的方法，其中与所述传感器数据有关的所述信息包括所述对象的参考图像，并且其中获得所述姿态包括从所述服务器接收基于所捕捉到的图像和所述参考图像的第一姿态。

11.如权利要求10所述的方法，进一步包括执行对所述对象的无参考跟踪，直至从所述服务器接收到所述第一姿态。

12.如权利要求10所述的方法，进一步包括：

当从所述服务器接收到所述第一姿态时，捕获所述对象的第二捕捉到的图像；

在所述捕捉到的图像与所述第二捕捉到的图像之间跟踪所述对象以确定增量变化；以及

使用所述增量变化以及所述第一姿态来获得所述移动平台相对于所述对象的姿态。

13.如权利要求10所述的方法，进一步包括：

捕获所述对象的第二捕捉到的图像；

使用所述参考图像在所述第二捕捉到的图像中检测所述对象；

使用在所述第二捕捉到的图像中检出的所述对象以及所述参考图像来获得所述移动平台相对于所述对象的姿态；以及

使用所述姿态来初始化对所述对象的基于参考的跟踪。

14.如权利要求1所述的方法，其中与所述传感器数据有关的所述信息包括以下至少一者：所述对象的二维(2D)模型、所述对象的三维(3D)模型、扩增信息、关于所述对象的显著性信息、以及与对象匹配有关的信息。

15.如权利要求1所述的方法，其中确定是否有触发事件包括确定在所捕捉到的图像中是否有相对于先前的捕捉到的图像的场景变化。

16.如权利要求15所述的方法，其中确定是否有场景变化包括：

使用所捕捉到的图像和所述先前的捕捉到的图像来确定第一变化度量；

使用所捕捉到的图像和来自先前触发事件的第二先前的捕捉到的图像来确定第二变化度量；

生成关于所捕捉到的图像的直方图变化度量；以及

使用所述第一变化度量、所述第二变化度量和所述直方图变化度量来确定所述场景变化。

17.如权利要求1所述的方法，其中所述传感器数据进一步包括以下一者或更多者：图像数据、运动传感器数据、位置数据、条码识别、文本检测结果、以及上下文信息。

18.如权利要求17所述的方法，其中所述上下文信息包括以下一者或更多者：用户行为、用户偏好、地点、关于所述用户的信息、时辰、以及照明质量。

19.如权利要求1所述的方法，其中所述传感器数据包括面部的图像，并且从所述服务器接收的所述信息包括与所述面部相关联的身份。

20.如权利要求1所述的方法，其中所述传感器数据包括以相机在不同位置捕捉到的对象的多个图像、以及对所述相机相对于所述对象的姿态的粗略估计，并且从所述服务器接收到的所述信息包括对所述姿态的改良以及所述对象的三维模型中的至少一者。

21.一种移动平台，包括：

适配成捕获传感器数据的传感器，其中所述传感器是相机，并且所述传感器数据包括至少一个捕捉到的对象的图像；

无线收发机；

耦合到所述传感器和所述无线收发机的处理器，所述处理器被适配成经由所述传感器来捕获传感器数据，使用包括所述至少一个捕捉到的对象的图像的所述传感器数据跟踪所述对象，确定是否有包括所述传感器数据相对于先前捕获到的传感器数据的变化的触发事件，当出现所述触发事件时经由所述无线收发机将所述传感器数据传送给外部处理器，同时继续使用包括所述至少一个捕捉到的对象的图像的所述传感器数据跟踪所述对象，以及经由所述无线收发机从所述外部处理器接收与所述传感器数据有关的信息，

其中与所述传感器数据有关的所述信息包括对象标识，其中所述处理器被进一步适配成捕获所述对象的附加的捕捉到的图像，使用所述对象标识在所述附加的捕捉到的图像中标识所述对象，基于所述对象标识来生成用于所述附加的捕捉到的图像的跟踪掩模，所述跟踪掩模指示所述附加的捕捉到的图像中标识出所述对象的区域，将所述跟踪掩模与所述对象的所述附加的捕捉到的图像一起使用来标识所述附加的捕捉到的图像的其余区域，以及检测包括所述附加的捕捉到的图像的所述其余区域中的场景变化的触发事件。

22.如权利要求21所述的移动平台，其中所述处理器进一步适配成使用从所述外部处理器接收的所述对象的参考图像跟踪所述对象。

23.如权利要求21所述的移动平台，其中所述处理器进一步适配成在所述传感器数据被传送给所述外部处理器之前确定所捕捉到的图像的质量，其中仅当所捕捉到的图像的质量优于阈值时所述传感器数据才被传送给所述外部处理器。

24.如权利要求23所述的移动平台，其中所述处理器通过被适配成执行以下至少一者来被适配成确定所捕捉到的图像的质量：对所捕捉到的图像的锐度分析、对所捕捉到的图像中的检出角点数目的分析；以及用从所述图像推导出的统计对学习分类器的处理。

25.如权利要求21所述的移动平台，其中所述处理器被进一步适配成基于经由所述无线收发机接收到的与所述传感器数据有关的所述信息相对于所述对象来渲染扩增。

26.如权利要求21所述的移动平台，其中与所述传感器数据有关的所述信息包括所述对象的标识。

27.如权利要求21所述的移动平台，其中所捕捉到的图像包括多个对象，并且与所述传感器数据有关的所述信息包括所述多个对象的标识。

28.如权利要求27所述的移动平台，其中所述处理器被进一步适配成获得所述多个对象中的每一者相对于所述移动平台的姿态，并且使用所述姿态以及与所述传感器数据有关的所述信息来跟踪所述多个对象中的每一者。

29.如权利要求21所述的移动平台，其中所述处理器被进一步适配成获得所述移动平台相对于所述对象的姿态，并且使用所述姿态以及与所述传感器数据有关的所述信息来跟踪所述对象。

30.如权利要求29所述的移动平台，其中与所述传感器数据有关的所述信息包括所述对象的参考图像，并且其中所述处理器被适配成从所述外部处理器接收基于所捕捉到的图像和所述参考图像的第一姿态。

31.如权利要求30所述的移动平台，其中所述处理器进一步适配成执行对所述对象的无参考跟踪，直至从所述外部处理器接收到所述第一姿态。

32.如权利要求30所述的移动平台，其中所述处理器被进一步适配成当从所述外部处理器接收到所述第一姿态时捕获所述对象的第二捕捉到的图像，在所述捕捉到的图像与所述第二捕捉到的图像之间跟踪所述对象以确定增量变化，使用所述增量变化以及所述第一姿态来获得所述移动平台相对于所述对象的姿态。

33.如权利要求30所述的移动平台，其中所述处理器被进一步适配成捕获所述对象的第二捕捉到的图像，使用所述参考图像在所述第二捕捉到的图像中检测所述对象，使用在所述第二捕捉到的图像中检出的所述对象以及所述参考图像来获得所述移动平台相对于所述对象的姿态，以及使用所述姿态来初始化对所述对象的基于参考的跟踪。

34.如权利要求21所述的移动平台，其中所述处理器被进一步适配成经由所述无线发射机从所述外部处理器接收以下至少一者：所述对象的二维(2D)模型、所述对象的三维(3D)模型、扩增信息、关于所述对象的显著性信息、以及与对象匹配有关的信息。

35.如权利要求21所述的移动平台，其中所述处理器通过被适配成确定在所捕捉到的图像中是否有相对于先前的捕捉到的图像的场景变化来被适配成确定是否有所述触发事件。

36.如权利要求35所述的移动平台，其中所述处理器通过被适配成使用所捕捉到的图像和所述先前的捕捉到的图像来确定第一变化度量、使用所捕捉到的图像和来自先前触发事件的第二先前的捕捉到的图像来确定第二变化度量、生成关于所捕捉到的图像的直方图变化度量、以及使用所述第一变化度量、所述第二变化度量和所述直方图变化度量来确定所述场景变化来被适配成确定是否有所述场景变化。

37.如权利要求21所述的移动平台，其中所述传感器数据进一步包括以下一者或更多者：图像数据、运动传感器数据、位置数据、条码识别、文本检测结果、以及上下文信息。

38.如权利要求37所述的移动平台，其中所述上下文信息包括以下一者或更多者：用户行为、用户偏好、地点、关于所述用户的信息、时辰、以及照明质量。

39.如权利要求21所述的移动平台，其中所述传感器数据包括面部的图像，并且经由所述无线收发机接收的所述信息包括与所述面部相关联的身份。

40.如权利要求21所述的移动平台，其中所述传感器数据包括以所述相机在不同位置捕捉到的对象的多个图像、以及对所述相机相对于所述对象的姿态的粗略估计，并且从所述外部处理器接收到的所述信息包括对所述姿态的改良以及所述对象的三维模型中的至少一者。

41.一种移动平台，包括：

用于捕获传感器数据的装置，其中所述传感器数据包括至少一个捕捉到的对象的图像；

用于使用包括所述至少一个捕捉到的对象的图像的所述传感器数据跟踪所述对象的装置；

用于确定是否有包括所述传感器数据相对于先前捕获到的传感器数据的变化的触发事件的装置；

用于当有所述触发事件时将所述传感器数据传送给服务器，同时继续使用包括所述至少一个捕捉到的对象的图像的所述传感器数据跟踪所述对象的装置；以及

用于从所述服务器接收与所述传感器数据有关的信息的装置，

其中与所述传感器数据有关的所述信息包括对象标识，所述移动平台进一步包括：

用于捕获所述对象的附加的捕捉到的图像的装置；

用于使用所述对象标识在所述附加的捕捉到的图像中标识所述对象的装置；

用于基于所述对象标识来生成用于所述附加的捕捉到的图像的跟踪掩模的装置，所述跟踪掩模指示所述附加的捕捉到的图像中标识出所述对象的区域；

用于将所述跟踪掩模与所述对象的所述附加的捕捉到的图像一起使用来标识所述附加的捕捉到的图像的其余区域的装置；以及

用于检测包括所述附加的捕捉到的图像的所述其余区域中的场景变化的触发事件的装置。

42.如权利要求41所述的移动平台，其中用于跟踪所述对象的装置进一步使用从所述服务器接收的所述对象的参考图像。

43.如权利要求41所述的移动平台，其中所述用于确定是否有触发事件的装置包括用于确定在所捕捉到的图像中是否有相对于先前的捕捉到的图像的场景变化的装置。