CN102204238B

CN102204238B - 便携式设备上的图像标注

Info

Publication number: CN102204238B
Application number: CN200980134248.4A
Authority: CN
Inventors: L·斯拜滋; M·维特里
Original assignee: Ecole Polytechnique Federale de Lausanne EPFL
Current assignee: Ecole Polytechnique Federale de Lausanne EPFL
Priority date: 2008-09-02
Filing date: 2009-09-02
Publication date: 2014-03-26
Anticipated expiration: 2029-09-02
Also published as: WO2010026170A1; US9953438B2; JP2012507761A; CN102204238A; KR101661269B1; EP2321953A1; US20120300089A1; EP2321953B1; JP5436559B2; KR20110066133A

Abstract

一种用于自动标注图像和视频的***将移动设备指向感兴趣的对象，例如建筑物或风景，以供设备将场景的图像及对象的标注一起显示。标注可包括名称、历史信息以及到图像、视频和音频文件的数据库的链接。可使用不同的技术确定标注的位置放置，并且通过使用多种技术，可以使定位更为精确且可靠。可根据所使用技术的精度来调整标注信息的细节级别。所需的计算可分布在标注***中，包括移动设备、服务器和互连网络，允许加标注图像适应不同复杂度级别的移动设备。可考虑标注精度和通信成本、延迟和/或功耗之间的折衷。标注数据库可以以自组织的方式更新。可将web上提供的***息转换为标注数据。

Description

便携式设备上的图像标注

技术领域

本发明涉及用于在便携式显示设备，特别是无线通信网络中的此类设备上对图像和视频进行标注(annotate)的方法。

背景技术

手持便携式设备(例如智能电话、掌上电脑、便携式媒体播放器、个人数字助理(PDA)等)的快速发展导致提出包括涉及图像处理的新颖特征和应用。在这样的应用中，即在图像标注或字幕中，用户将便携式设备指向场景(例如阿尔卑斯山风景、建筑物、或博物馆中的绘画)，并且显示器将图像和关于场景的叠加信息一起显示。此类信息可以包括例如山和住所的名称、建筑物的历史信息以及诸如广告之类的商业信息(例如餐馆菜单)。

标注信息可通过无线通信网络中的服务器提供给便携式设备。此处将具有服务器和便携式设备的通信网络的相应功能配置指定为标注***。

在标注***中，特别关注标注位置的精度和鲁棒性。精度可通过同时使用不同的技术(例如基于传感器和基于图像的技术)得以加强，并且通过选择用于确定标注位置的技术来加强鲁棒性。一旦移动设备获取图像，可使用不同的技术确定图像中标注的放置。使用不同技术来标注图像的方法和***的示例特别在US6208353和EP1246080中有所描述。

EP1622081描述了一种视频对象识别设备，用于识别视频图像中包含的对象并标注该对象。候选搜索装置读取数据库中存储的地理候选对象的位置信息和对象识别设备的位置信息。随后，该设备搜索可能已经成像的地理对象，并执行那些候选对象与图像之间的视觉比较。存在概率计算装置计算候选对象的图像被捕获的概率，并且相似性计算装置计算候选对象和视频图像的视觉特征之间的相似性。随后，使用存在概率和相似性来确定对象的图像是否被捕获。该方法可用于确定特定对象是否应该被标注，但不能指示显著点(salient point)的最可能位置或者图像中应该添加标注的位置。

WO05114476描述了一种基于移动图像的信息获取***，包括移动电话和远程识别服务器。在该***中，利用移动电话的相机(camera)所拍摄的图像被传输到执行识别过程的远程服务器。这引起对用于传输图像的高带宽需求，并引起在服务器中计算标注并将它们传回移动电话的延迟。再有，该***给出相似性得分，其与预定义阈值进行比较以确定在图像中对象是否可见，但并不指示该对象在图像中最可能的位置。

WO2007/108200描述了一种相机和图像处理程序，用于将***图像***到图像的适当位置。其涉及识别不应被所添加的标注所模糊的场景中的重要对象。图像平面被划分为25(5x 5)的小区域。该***图像的定位与相机的CPU所计算的对象分布评估值、使用人脸分布评估值，对比分布评估值和权重相关。***位置在包括在具有最小对象分布评估值的第一行和第五行内的图像平面的小区域之中选择。

发明内容

本发明的目的是更好地使用在移动标注设备中可用的不同传感器和方法以确定设备和所成像对象的位置和定向。

另一目的是改进图像中标注的放置，特别是当可能考虑不同的位置时，或当图像中的最优位置含糊不清时。

根据本发明，这些目的通过一种计算机化的方法实现，该方法用于将标注放置在场景的图像上，所述方法包括以下步骤：

(a)使用相机获得所述场景的原始图像；

(b)获得对在所述图像中表示的所述场景的特征的标注；

(c)对所述图像中多个位置中的每个位置，确定在所述位置处具有所述特征的概率；和

(d)通过将所述标注包括在所述图像中的所述概率最高的标注位置处，来形成加标注图像。

进一步包括

(e)使用位置传感器来确定所述相机的位置；

(f)使用计算机视觉装置来确定所述特征和所述特征的参考图像或模型之间的相似性；

(g)基于来自所述位置传感器的信息和来自所述计算机视觉装置的信息计算概率分布函数，所述概率分布函数指示在所述图像中每个所述位置处具有所述特征的概率。

本发明还涉及如权利要求11所述的用于将标注放置在场景的图像上的标注设备和如权利要求12所述的用于将标注放置在场景的图像上的标注***。

优选的方法确定2D或3D概率分布，此处称为概率模板(probability mask)，其表示在图像的每个点处表示所指定对象的概率。该概率依赖于用于确定图像中显著对象位置的方法。例如，计算参考候选对象和通过使用计算机视觉获得的图像特征之间的相似性的基于图像的方法，在正常照明条件下，其可以以很高的精度确定对象的位置。但是当照明太低时，或当许多外观类似的对象出现在同一场景中时，该方法可产生若干候选，即表示候选对象的概率非零的若干区域。其他情况中，计算机视觉方法不能够识别图像中存在的候选对象且产生零或明显统一的概率分布。

概率模板也可基于定位传感器所递送的信息而生成。例如，如果在标注设备中可获得诸如GPS之类的定位***，其与罗盘和倾斜仪一同在三个轴上，则可以以高精度计算设备的位置和定向，且概率模板的高概率值被分布到特定图像点周围。根据位置和定向角的精度来确定非零区域的大小。不同的便携式设备可包括不同组传感器，产生不同形状和大小的概率模板。例如，如果标注设备具有GPS和倾斜仪，但没有罗盘，则只能确定设备的偏航角和侧倾角，而不能确定方向。这种情况将对应于带状的或3D中盘状的概率模板的非零区域。

标注设备中可以具有或附加的其他传感器包括多轴加速仪和/或陀螺仪，从中可以确定设备的过去轨迹，和垂直方向。

其他传感器也可被附加到对象以标注并发射由图像采集设备接收的信号。这些传感器可包括RFID标签、信标(beacon)、或无线电发射器(例如蓝牙，WIFI或Zigbee发送器)。标注设备可确定传感器的方向和可能地到该传感器的距离(基于例如飞行时间和/或幅度测量)，并且使用无线电信号中包括的信息来识别对象。这种情况中，概率模板的非零区域可以是圆，分别地具有相对大直径的球。

进一步使用基于图像的方法和/或传感器，移动设备的位置和定向可通过使用对于通信网络的站或组件而言可用的信息来确定。例如，标注设备的位置可通过三角测量，使用不同位置的网络基站发送或接收的信号的飞行时间和/或幅度来计算。

另一种可能性是同时确定多个移动设备的位置和定向。某些设备可能具有不止一种或另一类型的传感器，用于增强精度确定，这还有利于网络中的其他标注设备。例如，一个设备具有GPS并且在没有装备GPS的第二设备附近。如果这两个设备能够通信(例如通过近距离无线接口)，则可使用测距技术确定它们之间的距离，并且第二设备的位置的估计可提供给第一设备。

不考虑用于确定位置和定向的技术，结果将产生显著对象到图像平面上的映射，具有概率模板所表示的精度。

独立于每项技术的精度，一些技术比其他技术更为可靠。例如，基于传感器的技术通常比基于图像的技术更可靠，后者可产生错误肯定(false positive)或错误否定(false negative)。特定技术的可靠性可以是先验已知的，并存储为算法所获取的预定义值。或者其可能依赖于图像和/或条件，且由不同技术使用的相应传感器或算法产生。例如，基于图像的方法的可靠性可作为计算机视觉算法的输出而产生，并依赖于图像采集条件。另一示例中，基于卫星位置传感器的可靠性可由GPS芯片和算法输出，并尤其依赖于接收到的GPS信号的数目和卫星的位置。

进一步，与图像的不同部分和不同候选对象相关联的可靠性可以是不同的；例如，图像可包括照明良好的部分(对此计算机视觉算法可产生可靠的结果)，和欠曝光或过曝光或未被良好聚焦的部分(对此该方法的可靠性就更成问题)。而且，与不那么独特的对象相比，某些对象更容易以高可靠性识别。另一示例中，基于待标注对象和标注***之间的无线电路径的方法的可靠性尤其可能依赖于距离、障碍和反射。因此，可以计算可靠性分布函数，其指示在图像的每个点处的测量的可靠性。

此外，定位的精度依赖于不同的测量，并且可能依赖于每个候选对象以及图像的每个点。例如，与具有模糊边缘的对象相比，可以更容易地以高精度相对于参考图像定位具有清晰边缘的候选对象。类似地，GPS定位***的精度一点也不恒定。因此，精度(或平均位置误差)可能与每个图像、每个候选对象和/或图像的每个点相关联。

通过结合不同技术产生的估计，考虑到概率模板以及可能地可靠性模板，鲁棒性和精度可被最大化。一种提高鲁棒性的方式是计算不同技术的概率模板之间的交集。如果交集为空，或如果两项技术产生的高概率区域没有重叠，那么这两项技术是不一致的。这种情况下，较不可靠的技术(例如基于图像的技术)所产生的结果应该被丢弃或者至少给予较低的权重。

一般地说，可以为不同的技术定义可靠性分级。如果技术的结果不一致，即概率模板的交集为空，则最不可靠的技术(或对于其他技术指示的高概率区域而言较不可靠)应该被丢弃，并且该过程对该组其余技术反复应用。一旦确定一组一致的技术，显著对象位置的精确投影可通过结合该组技术生成的测量方法而被确定。例如，结合测量方法的简单方式是加权平均，其中权重从概率模板得到。

显著对象在输入图像上的映射的最终精度可用于确定标注细节的级别。例如，如果一组对象的位置只能以低精度确定，则该组可作为一个单元被标注，而非标注每个单独对象。这可以通过使用对象的多分辨率表示来实现。例如，分级建筑物具有不同的子部分(例如状态，架构元素等)，其可被独立于建筑物本身而被标注。这些子部分可被集合成与整个建筑物的标注相关联的单个对象。或者可以将一组建筑物(例如对应于城镇的一部分)与单个标注相关联。标注中，标注的分辨率级别可通过为每个分辨率级别确定对象位置上的精度来确定。所选择的级别是给出最大分辨率，但使得加标注对象位置的混淆区域不重叠的级别。

综上，某个或某些方法能够提供不同的值：

1)在特定位置和/或整个图像处具有特定对象的概率。该值可针对整个图像和/或图像或3D场景的每个点来计算。在为每个点计算概率的情况中，计算概率密度函数(或概率模板)，其用于指示在特定位置处具有对象的概率。该概率密度函数可在图像平面上在二维中和/或在三维中(如果场景或场景中对象的三维模型可获得的话)计算。该概率可以由实值指示，例如百分比。具有特定候选的概率不为空，或至少高于阈值的点一起构成所谓的混淆区域。

2)可靠性，也就是与图像或图像的点相关联的显著对象不是错误肯定的，且该对象确实存在的概率。对于整个图像、图像的不同部分、图像中的每个点、和/或给定的候选对象，该可靠性可以是先验已知的或计算的。该可靠性可以由实值指示，例如百分比。

3)精度，也就是位置上误差的标准偏差。对于整个图像、图像中的区域、图像中的每个点、和/或给定的候选，该精度可以是先验已知的或再次计算的。

这些不同的值可进一步随时间而变化，例如在标注视频图像的过程中。

确定图像标注设备的位置和定向，应用不同的技术来将显著对象映射到图像上，以及生成最终结果所需的计算能够分布在完整标注***的不同组件上。考虑到移动设备和***中的其他组件(即服务器和其他移动设备)的计算能力，这些分布可被优化。优化可用于，例如最小化获得加标注图像中的延迟或最小化通信成本。在简单的情况中，处理能力非常有限的移动设备可以简单地将所采集的图像与传感器信息一起发送到服务器之一，并且服务器将生成结果图像并将其发送回移动设备。在具有更强大能力的移动设备的情况中，该设备附近的加标注对象的模型可以被下载，所有处理将由移动设备执行，而服务器不处理任何资源。当服务器可能变得过载时，第一种替换方案可能慢于第二种。当可能不使用许多下载的模型时，第二种替换方案在通信成本方面更为昂贵，但标注能够非常快地执行。在某种意义上介于两种替换方案之间的是，可以将计算负载分布在服务器和移动设备之中。

进一步确定标注位置的精度和成本(例如延迟、通信成本或能耗)之间的平折衷是有利的。事实上，当结合多种技术能够提高精度时，也将增加总成本。可通过计算每项技术的成本和相应精度，并然后找到这些技术之间的可用预算的最优分配来确定折衷。

标注***的商业可行性将依赖于对于用户而言可用的标注对象的数量。为将加标注对象提供给数据库，随后介绍三种示例性技术。第一种允许用户上传加标注图像或3D模型。这可直接从移动设备或通过万维网进行。因为是自组织的，该技术能够潜在地提供大量加标注对象，但难以保证服务质量。在第二种技术中，中央机构生成某个区域(例如城镇)的一组加标注对象，由此保证了内容的一致性和质量。第三种示例性技术包括使用从先前存在的图像和视频数据库(例如万维网)获取的图像和数据。这些通常被发现与位置信息、关键词和到网站的链接相关联。这些信息可被自动访问以为移动设备生成加标注对象。生成可以是实时的，并基于与感兴趣的场景或区域相关的、剔除数据重复并促成标注的简化更新的请求。

附图说明

图1是示例性标注***的示意性表示。

图2是指向建筑物的标注***中的标注移动设备的描绘。

图3是包括用于显著对象的条目的数据库的表格表示。

图4A是显示地形海拔的等高线。

图4B是场景的对象的示意性表示。

图5是图示将显著点映射到移动设备图像平面上的示意图。

图6A是图6B的显著对象位置P的概率模板或“混淆区域”的图形表示。

图6B是包括显著位置的场景的略图。

图7A是在罗盘信息不可用时候选对象的示例性概率模板的表示。

图7B是图7A中示出的对象的可能位置的略图。

图8A是具有三个局部最大值的概率模板的表示，用于在具有其他类似对象的场景中的候选对象的基于图像的检测。

图8B是包括三个具有相似外观的对象的场景的表示，对应于图8A的概率模板。

图9A到9C是使用多种技术的显著对象的检测的图示。

图10A是基于传感器的单候选方法和基于图像的三候选方法的概率模板的比较的图示。

图10B中，顶行是采集在标注数据库中存储的图像的图示，并且图10B，底行是以不同定向拍摄图像的标注的图示。

图11对应表1，是显著对象的三个级别的分辨率下的标注的图示。

图12是作为成本函数的标注位置的最终误差的图形。

具体实施方式

在图像/视频标注***中，可以将不同的技术用于图像采集。一种技术可以基于移动标注设备上传感器的使用，例如使用传感器提供关于设备位置和定向的信息。可用的传感器由不同的精度和可靠性来表征。例如，GPS***允许以依赖于可见卫星的数量的精度来确定位置。但是，当设备处于建筑物内时，GPS确定变得不可靠，并且不得不使用另一种不那么精确类型的传感器来采集所必需的位置，例如通过移动电话网络基础设施来确定位置。

根据传感器信息，标注***能够推断标注设备所观察到的场景并从数据库中获取一组可见的显著对象及其标注。传感器信息可进一步用于将这组显著对象位置映射到图像坐标，用于在对应于显著对象的位置处将标注叠加在场景的图像上。

其他传感器可以附于所述对象以标注，并发出由标注设备所接收的信号。例如，场景可包括对象(包括人)，该对象标记或装备有RFID、蓝牙、或ZigBee发送器、或任何发送射频、红外或音频/超声波信号的发送器或信标，所述信号可被图像标注设备接收并用于识别这些对象和/或用于确定在所采集图像内它们的位置。该技术可用于识别并定位例如具有无线移动设备的用户和车辆。

作为使用传感器的替代方式，图像处理和计算机视觉技术(包括人脸识别算法)可用于计算参考图像或模型和图像特征之间的相似性。将标注设备所采集的图像与存储在数据库的参考图像(其中每个图像对应于待标注的对象)进行比较。由于对于存储在数据库中的图像而言实际视角和照明条件可能不同，因此比较算法应该除去这些参数的影响。可替换地，可存储对应于不同视角和照明条件的多个图像。

另外的更为复杂的图像标注技术使用3D参考模型。在便携式设备靠近待标注的对象的情况下(也就是说视差明显的情况下)，该技术特别有利。在建筑物的情况下，例如，对象的结构与待标注的细节一同被存储在数据库中。便携式设备所采集的图像被与3D对象的可能视图进行比较，并且如果匹配视图之一，则对象被识别且相应标注被叠加到图像上。

进一步在基于传感器和基于图像技术之间选择，提供便携式设备和服务器设备之间的关于分区和分布计算任务的选择。如果便携式设备的计算能力低，则标注可完全在服务器端执行。相反的，如果便携式设备能够执行标注任务，则所有或部分标注信息数据库可被下载到该设备，而不请求在服务器端上进行处理。第一种情况中，在与服务器的数据交换中，成本以延迟的方式出现，且服务器上具有更高的计算负荷。第二种情况中，成本主要是由于从服务器下载的更大信息量而引起。

图1显示了标注***，包括四个移动设备1(包括一个或多个标注设备，例如具有标注软件和硬件能力的移动电话)和四个基站2。每个基站具有天线20，用于与移动设备1进行通信。基站中的两个还具有(每个具有另一天线21)例如卫星通信碟形天线21，用于和卫星4进行通信，卫星4用于中继通信并定位移动设备(例如通过使用全球定位***(GPS))。某些移动设备还可以包括自己的卫星定位***，例如它们自己的GPS接收器。基站通过通信链路而互连，例如陆上线路电话连接。基站连接到服务器3和相关联的数据库30，例如通过因特网。至少一个移动设备1可包括数码相机，图像标注软件和/或标注数据库。移动设备1可与基站2、与服务器3和可能相互通信以确定他们的位置，对象的位置，并产生加标注的图像。

图2显示标注移动设备1，已经采集并显示场景4的视图10，场景4包括至少一个显著对象40，此处是瑞士的洛桑大教堂，并且被显示的视图10标注有文本11，此处是“CATHEDRAL(LAUSANNE)(大教堂(洛桑))”。其他添加到图像的标注可以包括链接、位图或图形元素，例如箭头、图标、象形图、高亮元素等。

首先，为了标注由移动设备1所采集的视图10，在视图中识别显著对象40。在基本实现中，例如，显著对象由在二维或三维坐标系中放置在就其而言在数据库中可获得标注的位置处的点所表示。或者，显著对象可由表面补丁(surfacepatch)或区域表示，从而允许用户点击区域以获得标注。两种情况中，与显著对象相关联的主要信息是它们的位置，所述位置可以从一个或多个数据库与对应标注一起获得。为便于识别，可使用显著点的多种表示。

图3图示了示例性标注数据库30的一部分，该数据库可以被存储在服务器3和/或标注设备1中。对每个参考对象来说，数据库条目包括以下中的一个或多个：使用经纬度和海拔的地理位置、对象的一个或多个图像、3D模型(可选)、和期望的标注(例如这里所示的文本)。通用图像和/或3D模型还可与若干对象相关联。此外，特定的边面信息被存储，例如采集图像的相机的位置和定向、图片被拍摄的时间和日期、相机的设置等。如果显著对象是表面补丁而不是点，则还存储每个图像上的表面投影。在可替换表示中，还包括一组显示显著对象的图像。

例如，建筑物的另一表示可采用3D模型的形式。一种表示3D模型的方式是使用线框架(wire frame)，从而近似实际对象表面。此外，纹理可被存储作为参考。显著对象在3D模型上在三维中定位。与在2D图像的情况一样，可通过点或3D表面补丁或体积来指示。在后一情况下，补丁可被投影到图像上以确定显著对象的区域。

在一些情况下，有利的是可以使用另外的数据库或数据库条目来促进确定从特定位置来看哪些对象是可见的。这种数据库优选地包括移动设备周围的表面的海拔。海拔可由图4A所示的地形图表示，或由图4B中场景的对象40的几何近似表示。在实际实现中，为提高效率，两个数据库可被以不同方式组织。事实上，由于图像和3D模型可包括多个显著对象，所以有利的是，对于3D标注位置、图像和3D模型具有不同的数据库。每个数据库的条目将与一个或多个对应于标注的标识符相关联。

在基于传感器的标注的情况中，地理位置可用于确定对象是否为设备可见，哪些对象被隐藏，包括确定移动标注设备的位置和定向。例如，这可通过使用GPS、罗盘和倾斜仪获得。设备可见的显著对象通过选择数据库中包括在移动设备相机的视场41中的对象40来获得，如图5所示。对于视场中没被其他对象遮挡的对象，可确定所采集的图像上的投影。该投影对应于其中对象的标注应被放置的位置。

每个传感器的精度影响投影位置的精度。例如，在图6B中，位置P对应于待标注的对象之一。位置P的不确定性由图6A中描绘的概率分布表示，其中黑色对应于该对象在该位置的概率高，并且白色对应于该对象在该位置的概率低。概率分布对应于混淆区域42，其中包括正确的位置，并且其中对于区域内每个点具有候选对象P的概率大于零。

如果传感器的数量和/或精度不足以清楚地确定对象的位置，那么仍可以确定对象所处的区域及对应的概率分布。例如，如果GPS和倾斜仪可用，但没有罗盘，则将可以确定与对象所位于的水平线平行的线形混淆区域。这在图7A和7B中绘出。相应地，在线的区域中，概率值不为零。即使对象的位置不能完全确定，这个概率模板也可结合其他技术所给出的概率模板(例如基于传感器和图像的技术)以获得具有较高精度和可靠性的最终标注位置。

在基于图像的技术中，所采集的图像被与候选对象的一组2D参考图像和/或3D模型的投影进行比较。例如，在图3所示的数据库中，采样图像和3D模型与至少某些显著对象相关联。如果候选对象的图像或投影在输入图像中的特定位置被找到，则该位置被记录为用于所考虑的显著对象的标注的可能候选。被用于找到图像中显著对象位置的算法由位置的特定精度表征，这依赖于例如锐度、照明条件、对象自身和采样图像的数量及质量。对候选对象的搜索可被限制到最可能出现在场景中的对象，例如依赖于基于来自一个或多个传感器的信息做出的视场的粗略估计。

对于同一个显著对象，计算机视觉算法可确定几个候选位置。例如，图8B中，对一个候选对象确定了三个可能的位置(表示为A、B、C)。如在基于传感器的技术中一样，每个候选的位置精度由概率分布表示。例如，图8A中显示了一个候选的概率分布。该概率分布包括三个局部最大值，对应于与候选的参考图像类似的图像的三个特征A、B、C。

可能发生其他情况，其中计算机视觉算法没有找到候选对象的任何匹配和任何可能的位置，即使该对象存在于场景中。基于图像技术的可靠性比其他技术要低，特别是当图像采集条件比较艰难时，或者具有相似外观的若干对象在同一场景中时。

如上所述，通过使用标注***中可用的所有信息，能够确定显著对象的候选位置。例如，可以使用由基站2接收的对信号的测量以推出标注移动设备1的位置并最终推出显著对象P的标识和位置。附加的测量可由所考虑的设备附近的移动设备1获得。根据***的配置和所应用的算法，每个候选位置将由不同的概率分布来表征。

此外，特定可靠性与方法相关联，这指示出算法给出有意义结果的可能性。基于传感器技术的可靠性很高(即待标注的对象能够指示其自身的标识和位置)，例如移动设备的GPS和基于网络的地理定位的技术的可能性居中，而基于图像技术的可靠性较低。

图9显示了由不同技术给出的结果的示例，图9A是基于传感器的，图9B是基于地理定位的，图9C是基于图像的技术。对每项技术，显示不确定性区域(即其中包括候选对象的概率高过阈值的图像部分)的典型形状。

第一种方法(图9A)使用安装在移动设备和/或标注对象40内的传感器：结果非常可靠，但只能计算对象的垂直坐标，并且不确定性区域为带状。第二种技术(图9B)基于对在移动网络的基站2处发送和/或接收的信号的测量。这种情况下，移动标注设备1和对象的位置全部被计算，但精度低，即混淆区域很大。由于在一些个别情况中多径可导致移动设备的不正确定位，因此可靠性居中。第三种技术(图9C)是基于图像的，并产生同一对象的若干候选。每个候选的位置以高精度计算，但由于该方法依赖于图像采集条件，所以可靠性低。

对于每种方法，可靠性依赖于条件，并且针对每个图像或者甚至针对图像中的每个点而被确定。例如，如前所述，基于计算机视觉的技术的可靠性很大程度上依赖于照明条件，焦点和视场内候选的数量。基于GPS技术的可靠性依赖于其中接收信号的卫星的数量。这样，可对每个要标注的图像和每项技术计算新的可靠性指数，并使之与阈值相比较以便确定该技术是否提供有用的结果。

用于识别和定位图片上显著对象的不同方法的候选可被分析以除去与大多数可靠的候选不一致的候选。在图像中放置候选对象的第一个可能的过程如下：

1、按照可靠性增加的次序考虑每种方法M。

2、考虑M给出的每个对象的可能位置，并检查它是否与其他方法给出的位置兼容。如果否，则除去该位置。

3、对于M是否还有剩余的位置？如果否，则除去方法M。

4、如果存在未被分析的方法，则返回步骤1。

例如，在图10A中将基于图像的圆形不确定性区域42和由基于传感器的方法给出的带状不确定性区域42’进行比较。基于图像的技术的候选中只有候选A与基于传感器的技术的不确定性区域可兼容，因此存在其中两种概率模板都不为零的区域。在这种情况下，丢弃基于图像的技术的候选B和C。在两个不确定性区域的重叠部分内，该算法将把显著对象定位在其中组合概率或加权组合概率最高的点处。

在图像中放置候选对象的另一可能过程如下：

1、考虑每种方法M。

2、除去对于当前图像来说可靠性指数低于预定义阈值的所有方法。

3、对在视场中识别的每个显著对象，确定其在图像中最可能的位置。最可能的位置优选地基于由剩余的不同技术给出的概率分布函数。这可以包括平均对于每个点由每种技术给出的概率的步骤，或者加权平均，其中与每种概率相关联的权重依赖于每种技术的可靠性。

可以使用第三种方法，特别是当可获得指示每个点处每种或一些方法的可靠性的可靠性分布函数时。

1、连续地考虑图像的每个点。

2、除去其在该点处的可靠性低于预定义阈值的每种方法。

3、计算由在该点处具有一个候选显著对象的剩余方法给出的概率的平均。

4、图像中是否有更多的点？如果有，则返回步骤1。

5、如果该平均概率高于给定阈值，则为该标注选择依赖于最高平均概率的位置，否则丢弃该标注。

因此，在所有方法中，候选对象位于具有最高概率的点，即指示候选的最可能位置的点。具有最高概率的该点基于与不同传感器相关联的概率模板，例如通过平均概率分布函数。不是足够可靠的方法或在特定点处不可靠的方法被丢弃。该方法对可以在场景中发现的所有候选对象重复。

更一般地，一旦一组兼容的候选被确定，就通过组合由不同方法给出的位置来计算标注的最终位置。

在一个实施例中，最可能位置的计算考虑到每种方法的精度。例如，可以使用加权平均，例如

x = (\underset{i}{Σ} xi / σxi) / (\underset{i}{Σ} 1 / σxi)

y = (\underset{i}{Σ} yi / σyi) / (\underset{i}{Σ} 1 / σyi)

其中(xi，yi)是候选i的位置，并且(x，y)是标注的最终位置。参数σxi，σyi是关于候选i的位置的误差的标准偏差，并且它们与混淆区域的大小相关联；这些偏差依赖于每种方法，也经常依赖于每次测量。最终位置的精度可以从兼容的候选的概率分布而被计算。例如，这可通过计算最终位置的标准偏差的估计来实现。

提高最终标注位置的精度和鲁棒性的另一种方式是联合地应用多种技术，而不是独立地应用。采用这种方式，例如可将传感器测量和基于图像的技术结合起来。事实上，上述基于图像的技术可能对观察者的位置比较敏感。例如，如果2D模型被用于确定输入图像的特定区域和参考图像之间的匹配，那么移动设备的3D旋转可能导致不正确或错失的匹配，这在图10B中绘出。顶部图像表示采集在标注数据库30中存储的参考图像。加标注对象40在平坦表面上，其平行于相机1的图像平面，从而生成存储在数据库中的参考图像45，并且从该特定视角看，其是加标注对象的2D缩放表示(scaled representation)。作为代替，如底部图像所示，当移动设备1被用于生成加标注图像时，相机平面不必与生成参考图像期间所使用的平面平行并且与加标注对象平行，而可以与另一对象47平行。对于不同的定向，如果数据库中的图像和采集的图像之间的匹配不考虑透视投影，例如如果使用2D转换，则正确的对象40可能被错失或者与另一对象47的不正确匹配可能产生。

为了规避该风险，可以使用补偿来提高检测到所采集图像和标注数据库中的图像之间的正确匹配的概率。该补偿可以包括例如标注设备1所采集的图像的预处理以便补偿不同的视角，不同的照明条件(光度/色温/阴影等)和用于图像采集的更一般的不同条件。该补偿可基于其他传感器提供的数据(包括本地传感器，时间和日期信息等)和与参考图像或3D模型相关联的对应信息。例如，知道日期和时间可用于照明和光色补偿，并且从GPS和罗盘得知位置和定向可用于补偿视角变化引起的几何变形和视差。通常，该补偿的目的在于从所采集的图像计算其他图像或数据(例如，对应于参考图像或模型的图像采集条件的图像)以使得匹配过程更容易、更快速且更鲁棒。这样，该补偿提高了检测到所采集图像和标注数据库中的图像之间正确匹配的概率。

位置和定向以一定的误差被确定，该误差导致计算补偿图像的方式的不确定性。为此，可采样可能的位置和定向的空间。对每个采样，计算经补偿的图像并应用基于图像的技术。为减少最终候选的数量，若干种技术是可行的，例如：

-保持对应于相机的最可能位置和定向的经补偿图像的(一个或多个)候选；

-保持与数据库图像具有最好匹配的(一个或多个)候选，例如给出最小均方差的候选；

-保持所有候选，并将结果与其他上述技术进行比较，例如其他基于传感器的技术或基于3D图像的技术。

显著对象位置的精度可用于确定哪些标注应被显示在结果所得到的图像上。事实上，如果位置精度不是很高，则更适当的是降低标注细节的级别。一种方式是将显著对象组织成对应于不同分辨率的一组分级级别。

表1显示了三个级别的示例。显著对象被组织成树状，其中每个节点对应于子节点的一般性描述。通过计算树的每个对象的混淆区域和找到没有重叠区域的最高级别来确定适当级别的选择。对于每个级别，图11显示了概率分布和结果所得的标注。显然，级别2给出的细节级别相对于所获得的精度而言太高，--不同对象的不确定性区域重叠，并且标注因此可能与图片中错误的对象相关联。级别0太粗糙，因为很多显著对象未标注。细节级别的确定也受用户的影响。例如，用户可确定显著对象的分级中将被考虑的级别的范围。可替代的是根据标注位置的局部精度，允许图像的不同部分具有不同的细节级别。而且，细节级别可依赖于标注的大小，标注之间的距离和/或复原期间的缩放因子，以便避免重叠标注。

表1

由三级分辨率组织的、这里由标注文本表示的显著对象的分级组织。

由移动标注设备1，服务器3和数据库30组成的标注***被认为是单一的实体，其中计算、标注数据、海拔数据、通信、和感测能力能够被分布到***的不同组件。对每个资源的访问和使用引起的成本包括全部或部分的通信成本、获取资源的延迟、以及所消耗的能量。例如，成本C能够被计算为：

c＝K_c*C+K_d*t_d，

其中，C是通信成本，t_d是延迟，K_c，K_d是控制每个项目的权重的常数。

根据所期望的策略，成本可被每个便携式设备以不同的方式分配。例如，表2显示了与不同移动设备，不同基站和不同服务器相关联的成本。

表2

在该表中，无穷大的符号被用于特定设备中不可用的资源。该示例中，成本考虑到通信成本、延迟和功耗。当特定资源不可用时，成本被设置为无穷大。例如，“移动设备1”没有GPS，因此，与确定位置相关联的成本被设置为无穷大。然而，通过在延迟和通信方面付出代价，该设备的位置可从临近的另一移动设备(例如“移动设备2”)获得。

用于标注对象所需的信息也分布在***的组件上。例如，在表2中考虑到两个显著元素。用于标注元素1的数据在“移动设备1”上可用；因此其能够通过支付较低价格而被访问。用于标注第二元素的数据在该移动设备中不可用，并且成本为无穷大。如果需要该标注数据，则可通过支付通信成本和延迟，从而从“移动设备2”或“服务器1”获取到。

为了标注图像，移动设备需要多个参数。例如，对于基于传感器的标注，它需要位置和定向。存在多种方式来获得该信息。该信息可通过传感器而在设备上直接获得，它可从附件设备接收到，或可从通信网络接收到。每个选择与上述成本和特定性能参数相关联。该参数可以例如是相关联可靠性的指示和/或误差振幅的测量，例如标准偏差。表3中显示了与“移动设备1”的位置和定向的计算相关联的示例性性能参数。例如，能够通过使用误差标准偏差来测量性能。无穷大表示设备不能产生所希望的质量。

元素	感测位置	感测定向
			移动设备1	∞	10
移动设备2	20	20
			移动设备3	30	30
基站1	15	15
			基站2	25	25
服务器1	∞	∞

表3与通过不同资源计算某些参数相关联的性能参数

在某些情况中，通过结合不同资源可改进性能。例如，如上所述，结合基于传感器和基于图像的技术可改进标准偏差和其他参数。这可能通过支付更高的成本来实现。

对于给定的总成本，可以确定使性能最大化的资源的最优分配。标注位置的结果所得最终误差是总成本的函数。图12显示了一个示例，其将最终误差作为总成本的函数示出。通过每个标注移动设备或在整个标注***的级别上，可以动态做出所分配的资源和结果所得误差的最终决定。对于每个标注设备，并且甚至对于要标注的每个图像，决定可能都不相同。

这样，对于每个图片或每个图像标注会话来说，不同移动设备和服务器之间计算的分配可以被动态且自动地调整，以便改进标注精度、通信成本、延迟和/或功耗之间的折衷。

在一个实施例中，计算与将特定资源从***中的一个设备或从服务器之一分布到剩余设备相关联的成本。对于***中的每个节点，可以通过以下方式确定类似于图12所示的函数：通过在给定成本下分析该替换方案并且以最小误差选择。该过程可定期重复以考虑***的设备移动或修改。通过应用算法的简化版本(例如对具有类似成本和性能的资源或设备进行分组)，可降低复杂性。

如上所述，标注***基于存储在如图3和图4中所表示的显著对象数据库和海拔数据库中的信息。这些数据库可由服务提供商或标注***的用户创建。还可以允许用户添加具有相应标注的新的显著对象。而且，用户可将新的图像和3D模型关联到特定标注对象，并在中央服务器中存储这些图像和模型，以便提高未来基于图像标注的精度和鲁棒性。该操作可通过使用用于生成加标注图像的相同便携式设备或特别为此目的而设计的设备来执行。用户将设备指向显著对象的方向，并且***采集图像或视频序列。通过使用上述技术计算出设备的位置和定向，这识别设备所指向的区域。可以由同一用户或不同用户，随时间推移收集相同区域的不同视图。这些视图可以由***使用以重构场景的3D结构。一种方式是在不同视图的对应点上使用三角测量。重构的3D结构被用于创建或更新海拔数据库。而且，如果视图中包括现有的显著对象，则可以通过添加图像和3D模型，来更新显著对象数据库中的相应条目。如果用户选择新的显著对象并输入相应的标注，则在数据库中创建新的条目。当新的视图将被收集时，这将随后被更新。需要注意的是，这还可通过使用定期采集的用于标注的图像来实现。

可能的替换方案包括简化当前方法以便减少计算的次数或数据库的大小。特别感兴趣的一个版本在于：基于离便携式设备的距离来标注图像。每个用户都接收周围对象的加标注图像，并有可能修改现有的标注或更新新的加标注图像。对于图3所示的数据库，仅需要存储加标注图像和对应的观察位置的集合。这里不需要海拔数据库。

为提高标注的质量(在内容、位置和鲁棒性方面)，可使用信息的附加源，例如地形数据，加地理标签的高质量视频和图像，以及3D相机。该数据可被上传或链接到标注***并被集成或使现有数据库可以使用该数据。

生成标注数据库的内容的意义深远的方式是使用web(网络)上可用的信息。第一种方式是使用与地理位置相关联的图像数据库。此类数据库的示例包括“panoramio”，“street view”和“flickr”。这些数据库可被分析以便生成用于显著对象数据库的条目。可以通过将与图像相关联的指数用作标注文本并将图像用作基于图像的标注的模型，来创建/更新条目。

另一种可能性是使用程序扫描web以便找到与标注信息和地理位置相关联的图像。这些程序可以分析例如主要城市的网站并产生用于历史建筑物、公共设施、博物馆、商店等的标注数据。

该方法和***还可用于标注人，例如使用人脸识别算法结合蓝牙和由个人设备发出的其他信号的检测。在这种情况下，标注数据和参考图像可以例如从社会网络平台获取。

Claims

1.一种计算机化的方法，用于将标注放置在场景的图像上，包括以下步骤：

（a）使用相机获得所述场景的原始图像；

（b）获得对在所述图像中表示的所述场景的特征的标注；

（c）对所述图像中多个位置中的每个位置，确定在所述位置处具有所述特征的概率；和

（d）通过将所述标注包括在所述图像中的所述概率最高的标注位置处，来形成加标注图像；

进一步包括

（e）使用位置传感器来确定所述相机的位置；

（f）使用计算机视觉装置来确定所述特征和所述特征的参考图像或模型之间的相似性；

（g）基于来自所述位置传感器的信息和来自所述计算机视觉装置的信息计算概率分布函数，所述概率分布函数指示在所述图像中每个所述位置处具有所述特征的概率。

2.如权利要求1所述的方法，其中多种方法被用于确定所述标注位置。

3.如权利要求2所述的方法，其中所述方法中的每一种方法给出根据该方法的概率分布函数，并且其中标注被包括在通过结合由不同方法给出的多个所述概率分布函数所确定的标注位置处。

4.如权利要求2所述的方法，其中所述标注的定位的不同精度与每种方法相关联，且其中所述标注位置的计算基于最精确的方法。

5.如权利要求4所述的方法，其中确定精度分布函数，用于指示至少一种方法在所述图像的不同点处给出的定位精度。

6.如权利要求2所述的方法，其中定位所述标注的不同可靠性与每种方法相关联，且其中所述标注位置的计算基于最可靠的方法。

7.如权利要求6所述的方法，其中确定可靠性分布函数，用于指示至少一种方法在所述图像的不同点处的可靠性。

8.如权利要求2所述的方法，其中在包括所述相机、所述位置传感器的移动设备（1）与服务器（3）之间的通信成本和在所述移动设备（1）与所述服务器（3）之间的通信延迟方面计算与每种方法相关联的成本，且其中所述位置的计算基于更便宜的方法。

9.如权利要求1所述的方法，包括基于所述相机的所述位置和定向预处理所述图像以便补偿所述图像的几何变形的步骤。

10.如权利要求1所述的方法，其中确定所述特征的位置的精度；且根据所述精度调整所述标注的分辨率的级别。

11.一种标注设备，用于将标注放置于场景的图像上，包括：

（a）相机，用于获得所述场景的原始图像；

（b）第一计算装置，用于获得对在所述图像中表示的所述场景的特征的标注；

（c）第二计算装置，用于确定将所述特征放置于所述图像中多个位置中的每个位置的概率，并用于通过将所述标注包括在所述概率最高的标注位置处来形成加标注图像；

进一步包括

（d）位置传感器，用于确定所述标注设备的位置；

（e）计算机视觉装置，用于确定所述特征和所述特征的参考图像或模型之间的相似性；

（f）第三计算装置，用于基于来自所述位置传感器的信息和来自所述计算机视觉装置的信息计算概率分布函数，所述概率分布函数指示所述特征在所述图像中每个所述位置处的概率。

12.一种标注***，包括：

（a）至少一个标注设备（1），用于将标注放置在场景的图像上，包括：

-用于获得所述场景的原始图像的相机；

-第一计算装置，用于获得对在图像中表示的所述场景的特征的标注；

-第二计算装置，用于确定将所述标注放置于所述图像中多个位置中的每个位置处的概率，并用于通过将所述标注包括在所述概率最高的标注位置处来形成加标注图像；

进一步包括：

-位置传感器，用于确定所述标注设备的位置；

-计算机视觉装置，用于确定所述特征和所述特征的参考图像或模型之间的相似性；

-第三计算装置，用于基于来自所述位置传感器的信息和来自所述计算机视觉装置的信息计算概率分布函数，所述概率分布函数指示所述特征与所述图像中的每个所述位置相关联的概率；

（b）至少一个服务器（3），

其中所述标注的计算被分布在所述标注设备（1）和所述服务器（3）之间。

13.如权利要求12所述的标注***，其中通过考虑所述标注的精度、在所述标注设备（1）与所述服务器（3）之间的通信成本、在所述标注设备（1）与所述服务器（3）之间的通信延迟和/或所述标注设备（1）的功耗来自动且动态地调整所述分布。