CN105144193A - 用于估计成像设备的姿态的方法和设备 - Google Patents

用于估计成像设备的姿态的方法和设备 Download PDF

Info

Publication number
CN105144193A
CN105144193A CN201380074904.2A CN201380074904A CN105144193A CN 105144193 A CN105144193 A CN 105144193A CN 201380074904 A CN201380074904 A CN 201380074904A CN 105144193 A CN105144193 A CN 105144193A
Authority
CN
China
Prior art keywords
features descriptor
binary features
database
inquiry
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380074904.2A
Other languages
English (en)
Inventor
范力欣
冯友计
吴毅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN105144193A publication Critical patent/CN105144193A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

各实施例涉及一种用于估计摄像机姿态的方法和技术装备。该方法包括:获得用于图像中的特征点的查询二进制特征描述符;将所获得的查询二进制特征描述符的所选择的一部分放置到查询二进制树中;以及将查询二进制树中的查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态。

Description

用于估计成像设备的姿态的方法和设备
技术领域
本申请一般性地涉及计算机视觉。特别地,本申请涉及一种对成像设备(后称“摄像机”)的姿态的估计。
背景技术
现今,成像设备被携带到每个地方,因为它们通常被集成在现今的通信设备中。因此也对不同的目标捕获了照片。当图像(即照片)被摄像机捕获时,关于照片在何处拍摄的元数据对于许多基于地点的应用而言是具有很大兴趣的,例如导航、增强现实、虚拟旅游指南、广告、游戏等。
全球定位***和其他基于传感器的解决方案提供了一种对成像设备的地点的粗略估计。然而,在这一技术领域中,精确的三维(3D)摄像机位置和方向的估计现在成为焦点。本申请的目的是提供一种用于找到这种精确的3D摄像机位置和方向的解决方案。
发明内容
本发明的示例的各种方面在权利要求中加以阐述。
根据第一方面,一种方法包括:获得用于图像中的特征点的查询二进制特征描述符;将所获得的查询二进制特征描述符的所选择的一部分放置到查询二进制树中;以及将查询二进制树中的查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态。
根据第二方面,一种器件包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,该至少一个存储器和该计算机程序代码被配置为,与该至少一个处理器一起,促使该器件执行至少以下各项:获得用于图像中的特征点的查询二进制特征描述符;将所获得的查询二进制特征描述符的所选择的一部分放置到二进制树中;以及将二进制树中的查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态。
根据第三方面,一种器件,至少包括:用于获得用于图像中的特征点的查询二进制特征描述符的装置;用于将所获得的查询二进制特征描述符的所选择的一部分放置到二进制树中的装置;以及用于将二进制树中的查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态的装置。
根据第四方面,计算机程序包括:当该计算机程序在处理器上被运行时,用于获得用于图像中的特征点的查询二进制特征描述符的代码;用于将所获得的查询二进制特征描述符的所选择的一部分放置到查询二进制树中的代码;以及用于将查询二进制树中的查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态的代码。
根据第五方面,一种利用指令来编码的计算机可读介质,这些指令在由计算机运行时执行:获得用于图像中的特征点的查询二进制特征描述符;将所获得的查询二进制特征描述符的所选择的一部分放置到查询二进制树中;以及将查询二进制树中的查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态。
根据一个实施例,二进制特征描述符通过在特征点周围的区域上的二进制测试来加以获得。
根据一个实施例,该二进制测试是
其中I(x,f)是在相对特征点f具有偏移x的地方处的像素强度,并且θt是一个阈值。
根据一个实施例,数据库二进制特征描述符已经被放置到具有标识的数据库二进制树中。
根据一个实施例,根据概率评分方法从数据库图像中选择有关图像,并且对所选择的图像进行排名以用于匹配目的。
根据一个实施例,匹配进一步包括:在数据库二进制特征描述符之中搜索对于查询二进制特征描述符而言最接近的邻居。
根据一个实施例,如果在最接近的数据库二进制特征描述符与查询二进制特征描述符之间,最接近的邻居距离比率低于0.7,则确定匹配。
附图说明
在下文中,参考附图来更详细地描述各种实施例,其中
图1示出了器件的一个实施例;
图2示出了器件的布局的一个实施例;
图3示出了***的一个实施例;
图4A示出了该器件的在线模式的一个示例;
图4B示出了该器件的离线模式的一个示例;
图5示出了方法的一个实施例;以及
图6示出了方法的一个实施例。
具体实施方式
在下文中,在借助于单张照片并且使用与拍摄该照片的城市环境有关的3D点的数据集的摄像机姿态估计的上下文中,描述了若干实施例。
将照片与城市环境图片的数据集中的图片进行匹配以找出精确的3D摄像机位置和方向是非常耗时的并且因此具有挑战性。借助于本方法,对于具有数十千计图像的大规模城市场景数据集而言,能够减少用于匹配所需要的时间。
在本描述中,术语“姿态”指的是成像设备的方向和位置。在本描述中,该成像设备以术语“摄像机”或“器件”来指代,并且它能够是具有成像装置的任何通信设备或者具有通信装置的任何成像设备。该器件也能够是传统的自动或***摄像机,或者具有图像捕获能力的移动终端。图1中图示了一种器件的示例。
1.技术实施方式的一个实施例
器件151包含存储器152、至少一个处理器153和156、以及位于存储器152中的计算机程序代码154。根据图1的示例的器件还具有一个或多个用于捕获图像数据(例如,立体声视频)的摄像机155和159。该器件还可以包含一个、两个或更多用于捕获声音的麦克风157和158。该器件也可以包含传感器,用于生成和该器件与周围环境的关系有关的传感器数据。该器件还包括一个或多个显示器160,用于察看单视图的、立体(2-视图)的或者多视图的(多于2-视图的)和/或预视的图像。显示器160中的任何一个可以至少部分地在该器件的后盖上延伸。器件151还包括接口装置(例如,用户界面),其允许用户与该器件进行交互。该用户接口装置是使用以下各项中的一项或多项来加以实施的:显示器160、小键盘161、语音控制、或者其他结构。该器件被配置为例如借助于能够接收和/或发射信息的通信块(未在图1中示出)而连接到另一设备。
图2示出了根据一个示例实施例的器件的布局。器件50例如是移动终端(例如,移动电话、智能电话、摄像机设备、平板设备)或者无线通信***的其他用户设备。本发明的实施例可以被实施在任何电子设备或器件(诸如个人计算机和膝上型计算机)内。
图2中所示出的器件50包括用于包含和保护该器件的外壳30。器件50进一步包括采用例如液晶显示器形式的显示器32。在本发明的其他实施例中,该显示是适合于显示图像或视频的任何适合的显示技术。器件50可以进一步包括小键盘34或者其他数据输入装置。在本发明的其他实施例中,可以采用任何适合的数据或用户接口机制。例如,用户接口可以被实施为虚拟键盘或者数据录入***,作为触摸敏感显示器的一部分。该器件可以包括:麦克风36或者可以是数字或模拟信号输入的任何适合的音频输入。器件50可以进一步包括音频输出设备,其在本发明的实施例中可以是以下各项中的任何一项:耳机38、扬声器、或者模拟音频或数字音频输出连接。图2的器件50还包括电池40(或者在本发明的其他实施例中,该设备可以由任何适合的移动能量设备来供电,诸如太阳能电池、燃料电池或发条发电机)。根据一个实施例,该器件可以包括用于与其他设备的短距离视线通信的红外端口42。在其他实施例中,器件50可以进一步包括任何适合的短距离通信解决方案,诸如,例如,蓝牙无线连接、近场通信(NFC)连接或者USB/火线有线连接。
图3示出了***的一个示例,该器件能够在该***中运转。在图3中,不同的设备可以经由以下各项进行连接:固定网络210,诸如互联网或局域网;或者移动通信网络220,诸如全球移动通信***(GSM)网络、第三代(3G)网络、第3.5代(3.5G)网络、***(4G)网络、无线局域网(WLAN)、或其他当代和未来的网络。不同的网络借助于通信接口280连接到彼此。这些网络包括:用以处置数据的网络元件,诸如路由器和交换机(未示出);以及为了向不同的设备提供对网络的接入的通信接口,诸如基站230和231,并且基站230、231它们自己经由固定连接276或无线连接277而连接到移动网络220。
可能存在多个连接到网络的服务器,并且在图1的示例中示出了服务器240、241和242,每个都连接到移动网络220,这些服务器或者这些服务器之一可以被布置为作为用于社交联服务的计算节点(即形成计算节点的群集或者所谓的服务器农场)进行操作。上述设备中的一些设备,例如计算机240、241、242可以使得它们被布置为与位于固定网络210中的通信元件一起构成通向互联网的连接。
还存在多个终端用户设备,诸如用于目前的实施例的目的的移动电话和智能电话251、各种大小和格式的互联网接入设备(互联网平板计算机)250、个人计算机260、以及各种大小和格式的计算设备261、262。这些设备250、251、260、261、262和263也能够由多个部件构成。在这个示例中,各种设备经由通信连接被连接到网络210和220,诸如经由固定连接270、271、272和280连接到互联网,经由无线连接273连接到互联网210,经由固定连接275连接到移动网络220,以及经由无线连接278、279和282连接到移动网络220。连接271-282借助于在通信连接的相应末端处的通信接口来加以实施。这些设备250、251、260、261、262和263中的所有设备或者一些设备被配置为接入服务器240、241、242和社交网络服务。
在下文中,“3D摄像机位置和方向”指的是6-自由度的摄像机姿态(6-DOF)。
用于恢复3D摄像机姿态的方法能够在两种模式中加以使用:在线模式和离线模式。在本描述中,图4A中所示出的在线模式指的是如下模式:其中摄像机400通过通信网络415将照片上传到服务器410,并且该照片被用来查询该服务器上的数据库417。精确的3D摄像机姿态然后被服务器410恢复并且返回419回到摄像机以被用于不同的应用。服务器410包含覆盖整个城市的城市环境的数据库417。
在本描述中,图4B中所示出的离线模式指的是如下模式:其中数据库407已经预先加载在摄像机400上,并且将查询照片与摄像机400上的数据库407进行匹配。在这种情况下,数据库407相对于服务器410中的数据库417是较小的。摄像机姿态恢复由摄像机400来执行,摄像机400相比于服务器通常具有有限的存储器和计算能力。该解决方案也可以与已知的摄像机跟踪方法一起加以利用。例如,当摄像机***丢失时,能够利用用于估计摄像机姿态的实施例来重新初始化该***。例如,如果摄像机位置之间的连续性由于例如快速的摄像机运动、模糊或遮挡而被违反,则能够使用摄像机姿态估计来确定摄像机位置以再次开始跟踪。
为了本申请的目的,术语“照片”也可以被用来指代一种图像文件,该图像文件包含场景的被捕获的可视内容。该照片是视频流的静止图像或者静止拍摄(即帧)。
2.方法的一个实施例
在线模式和离线模式两者,都使用了特征点与3D数据的快速匹配。图5图示了根据一个实施例的基于二进制特征的匹配方法的一个示例。首先(图5:A),针对图像中的特征点来获得二进制特征描述符-然后(图5:B),所获得的二进制特征描述符被指配到二进制树中。最后(图5:C),将该二进制树中的二进制特征描述符与数据库图像的二进制特征描述符进行匹配来估计摄像机的姿态。
在图5中,示出了具有特征点510的查询图像500。从查询图像500中来获得二进制特征描述符。二进制特征描述符是通过对特征点510周围的补丁(patch)的二进制测试而获得的位串。术语“补丁”被用来指代像素周围的区域。该像素是由它的x和y坐标定义的中心像素,并且补丁通常包括所有的相邻像素。也可以针对每个特征点定义补丁的适当大小。
图5和6图示了方法的一个实施例。
对于数据库图像,通过使用来自已知的运动逼近(motionapproach)的结构,能够从数据库图像中的特征点轨迹来重构3D点。首先,针对与被重构的3D点相关联的数据库特征点来提取二进制特征描述符。“数据库特征点”是从数据库图像中提取的所有特征点的子集。那些不能与任何3D点相关联的特征点不被包括作为数据库特征点。因为每个3D点能够从多个图像(视点)来加以察看,所以经常存在与相同的3D点相关联的多个图像特征点(即,图像补丁)。
有可能使用用于数据库特征点的512比特的二进制特征描述符,然而,在这一实施例中,使用256比特用于减少二进制特征描述符的维度。选择准则是基于按位方差(bitwisevariance)以及所选择的比特之间的按对相关性(pairwisecorrelation)。使用所选择的256比特用于描述符的提取,不仅能够节省存储器,而且还比使用完全的512比特表现得更好。
在此之后,对多个随机化的树进行训练,以大体上使所有的数据库特征点索引化。这根据在章节3“特征索引化”之下所公开的方法来加以执行。
在该训练过程之后,参见图6,所有的数据库特征点{f}被存储在叶节点中,并且它们的标识(后称“ID”)被存储在相应的叶节点中。同时,构建数据库图像的倒向文件(invertedfile)以用于根据章节4“图像检索”中所公开的方法的图像检索。
以上公开了用于数据库图像的方法的一个实施例。然而,也相应地处理从摄像机获得的并且被使用用于摄像机姿态估计的图像(被称为“查询图像”)。
对于查询图像,用于查询图像500中的特征点的减少的二进制特征描述符(图5:510)被提取。“查询特征点”是从查询图像中提取的所有特征点的子集。查询图像的特征点被放到1-n个树的L_第1—L_第n个叶(图5)。特征点可以通过它们在该树的叶上的二进制表格而被索引化。这些树可以然后被用来根据在章节4“图像检索”之下所公开的评分策略来对数据库图像进行排名。
将查询特征点与数据库特征点进行匹配以便于具有一系列的2D-3D的对应关系。图5图示了将单个查询特征点510与数据库特征点进行匹配的过程的一个示例。查询图像的摄像机姿态通过所产生的2D-3D的对应关系来加以估计。
3.特征索引化
3D数据库点的集合被称为P={pi}。将数据库中的每个3D点pi与若干特征点相关联,其在重构过程中形成特征轨迹。使用随机化的树来将所有这些数据库特征点索引化。特征点首先通过节点测试而从树上被下降并且到达树的叶。特征的ID然后被存储在叶中。每个节点的测试是如下的简单二进制测试:
(等式1)
其中I(x,f)是在相对特征点f具有偏移x的地方处的像素强度,并且θt是一个阈值。在构建随机化的树之前,生成测试的集合Γ={τ}={(x1,x2t)}。为了对树进行训练,所有的数据库特征点被当作训练样本。与相同的3D点相关联的数据库特征点属于相同类别。给定这些训练样本,在以下的步骤中,每个树从根部被生成,根部包含所有的训练样本。
1.对于每个节点,根据每个测试τ,训练样本的集合S被划分为两个子集Sl和Sr
Sl={f|T(f)=0}
Sr={f|T(f)=1}
2.每个分区的信息增益被计算为
Δ E = E ( S ) - ( | S l | | S | E ( S l ) + | S r | | S | E ( S r ) ) ,
其中E(S)指示S的香农熵(Shannon’sentropy),并且|S|指示S中的样本的数目。
3.信息增益最大的分区被保留,并且相关联的测试τ被选择为该节点的测试。
4.针对两个子节点重复上述步骤,直到达到预设的深度。
根据一个实施例,树的数目是六个并且每个树的深度是20。
该实施例通过从二进制特征描述符图案(pattern)的短对(shortpair)来生成三个阈值{-20;0;20}和512个地点对(locationpair)而继续进行,因此总共获得1536个测试。然后,出自512个地点对中的50个地点对随机地被选取,并且所有的三个阈值用以生成每个节点的150个候选测试。注意到,使用提供了规模(scale)和旋转信息的二进制特征描述符来纠正地点对的旋转和规模。
4.图像检索
图像检索被用来滤除从无关图像中提取的描述符。这进一步加速了线性搜索的过程。图像被考虑为是视觉词袋(abagofvisualwords),因为随机化的树的节点能够自然地被视为视觉词。随机化的树被用作聚类树(clusteringtree)以生成用于图像检索的视觉词。替代在特征描述符上执行二进制测试,二进制测试直接在图像补丁上加以执行。根据一个实施例,仅叶节点被视为视觉词。
数据库图像可以根据概率评分策略来加以排名。每个数据库图像被视为一个类别,并且C={ci|i=1,…,N}表示N个类别的集合。
如已经描述的,对于查询图像,特征点(f1,…,fM)首先被下降到K个树的叶(即,词)然后,查询图像属于每个类别ci的后验概率 P ( c q = c i | { ( l 1 1 , . . . , l M 1 ) , . . . , ( l 1 K , . . . , l M K ) } ) 被估计为:
P ( c q = c i | { ( l 1 1 , ... , l M 1 ) , ... , ( l 1 K , ... , l M K ) } ) = P ( { ( l 1 1 , ... , l M 1 ) , ... , ( l 1 K , ... , l M K ) } ) | c q = c i ) P ( c q = c i ) P ( { ( l 1 1 , ... , l M 1 ) , ... , ( l 1 K , ... , l M K ) } )
因为P(cq=ci)被假设为跨所有的类别是相同的,所以仅先验概率需要被估计。在树是彼此独立的并且特征也是彼此独立的假设下。概率能够进一步被分解为 P ( { ( l 1 1 , ... , l M 1 ) , ... , ( l 1 K , ... , l M K ) } ) | c q = c i ) = Π k = 1 K Π m = 1 M P ( l m k | c q = c i ) , 其中指示ci中的特征点下降到叶的概率。
在特征索引化的过程中,另外的倒向文件被构建用于数据库图像,即{ci}。
图6示出了特征点f如何促成数据库图像的倒向文件。特征点f周围的所有扭曲(warped)补丁被下降到每个树610的叶。二进制测试对仿射变换有些敏感。因此,对于每个特征点,生成特征点f周围的9个仿射扭曲补丁。所生成的9个仿射扭曲补丁然后被下降到每个树610的叶。包含该特征点的图像(620指代图像索引)中的这些叶的频率630增加一。倒向文件简单地被估计为其中是词在图像ci中出现的频率,并且Ni是所有的词出现在图像ci中的总频率。为了避免等于0的情形,被归一化为的形式,其中L是每个树的叶的数目并且λ是经归一化的项。在我们的实施中,λ是0.1。
根据所估计的概率,数据库图像被排名并且被用来过滤掉(图5:过滤)下一邻居搜索的过程中的可能的无关特征。
然后,在数据库特征点之中搜索(图5:NN_搜索)该查询特征点的最接近的邻居,这些数据库特征点被包含在这些叶节点中并且从顶部的n个有关的图像中加以提取。
因为仅牵涉到按位的操作,所以对二进制特征描述符的提取和处理是极其高效的。
5.总结
二进制树结构被用来将所有的数据库特征描述符索引化,从而查询特征描述符与数据库描述符之间的匹配被进一步加速。图5图示了用于将单个查询特征点510与数据库特征点进行匹配(A-C)的过程的实施例。首先(图5:A),必须利用一系列的二进制测试(由等式1)来测试每个查询特征点(即,图像补丁)。取决于这些二进制测试的结果(即,一串“0”和“1”),查询图像补丁随后被指配到随机化的树的叶节点(L_第1,L_第2,L_第n)(图5:B)。然后将查询图像补丁与已经被指配到相同叶节点的数据库特征点进行匹配(图5:C)。在该***中使用了多个随机化的树,因此,图5中也示出了多个树(L_第1—L_第n)。图5没有图示数据库特征点与某些叶节点的关联。这种离线的学习过程在章节“特征索引化”中加以讨论。作为将查询特征点与数据库特征点进行匹配的结果,获得了一系列的2D-3D对应关系。查询图像的摄像机姿态通过所产生的2D-3D对应关系来加以估计。当获得了查询图像特征点与3D数据库点之间的对应关系时,所产生的匹配被用来估计摄像机姿态(图5:姿态_估计)。
在上文中,已经描述了一种基于二进制特征的定位(localization)方法。在该方法中,采用二进制描述符来代替基于直方图的描述符,其加速了整个定位过程。为了快速的二进制描述符匹配,多个随机化的树被训练以使特征点索引化。归因于节点中的简单二进制测试和对特征空间的更均匀划分,所提议的索引化策略是非常高效的。为了进一步加快匹配过程,能够使用图像检索方法来滤除从无关图像中提取的候选特征。在城市规模的数据库上的实验示出了,所提议的定位方法能够达到高速度同时保持近似的性能。本方法能够被用于在大型城市环境中的接近实时的摄像机跟踪。如果采用了使用多核的并行计算,则实时性能被预期。
本发明的各种实施例能够在如下计算机程序代码的帮助下加以实施,该计算机程序代码位于存储器中并且促使相关器件来执行本发明。例如,一种器件可以包括:用于处置、接收和发射数据的电路和电子部件;存储器中的计算机程序代码;以及处理器,当该处理器运行该计算机程序代码时,促使设备执行实施例中的特征。更进一步地,一种网络设备(如服务器)可以包括:用于处置、接收和发射数据的电路和电子部件;存储器中的计算机程序代码;以及处理器,当该处理器运行该计算机程序代码时,促使该网络设备执行实施例中的特征。
显而易见的是,本发明不仅仅被限制为上面提出的实施例,而是能够在所附权利要求的范围内加以修改。

Claims (24)

1.一种方法,包括:
-获得用于图像中的特征点的查询二进制特征描述符;
-将所获得的查询二进制特征描述符的所选择的一部分放置到查询二进制树中;以及
-将所述查询二进制树中的所述查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态。
2.根据权利要求1所述的方法,其中
-二进制特征描述符通过在特征点周围的区域上的二进制测试来加以获得。
3.根据权利要求2所述的方法,其中所述二进制测试是
Tτ(f)={0I(x1,f)<I(x2,f)+θt,
1否则
其中I(x,f)是在相对所述特征点f具有偏移x的地方处的像素强度,并且θt是一个阈值。
4.根据权利要求1或2或3所述的方法,其中所述数据库二进制特征描述符已经被放置到具有标识的数据库二进制树中。
5.根据权利要求1至4中任一项所述的方法,进一步包括:根据概率评分方法从所述数据库图像中选择有关图像,以及对所选择的图像进行排名以用于匹配目的。
6.根据权利要求1至5中任一项所述的方法,其中所述匹配进一步包括:
-在所述数据库二进制特征描述符之中搜索对于查询二进制特征描述符而言的最接近的邻居。
7.根据权利要求6所述的方法,进一步包括:
-如果在最接近的数据库二进制特征描述符与所述查询二进制特征描述符之间,最接近的邻居距离比率低于0.7,则确定匹配。
8.一种器件,包括:
至少一个处理器;以及
包括计算机程序代码的至少一个存储器,
所述至少一个存储器和所述计算机程序代码被配置为,与所述至少一个处理器一起,促使所述器件执行至少以下各项:
-获得用于图像中的特征点的查询二进制特征描述符;
-将所获得的查询二进制特征描述符的所选择的一部分放置到二进制树中;以及
-将所述二进制树中的所述查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态。
9.根据权利要求8所述的器件,其中
-二进制特征描述符通过在特征点周围的区域上的二进制测试来加以获得。
10.根据权利要求9所述的器件,其中所述二进制测试是
Tτ(f)={0I(x1,f)<I(x2,f)+θt,
1否则
其中I(x,f)是在相对所述特征点f具有偏移x的地方处的像素强度,并且θt是一个阈值。
11.根据权利要求8或9或10所述的器件,其中所述数据库二进制特征描述符已经被放置到具有标识的数据库二进制树中。
12.根据权利要求8至11中任一项所述的器件,其中所述匹配包括:根据概率评分方法从所述数据库图像中选择有关图像,以及对所选择的图像进行排名以用于匹配目的。
13.根据权利要求8至12中任一项所述的器件,其中所述匹配进一步包括:
-在所述数据库二进制特征描述符之中搜索对于查询二进制特征描述符而言最接近的邻居。
14.根据权利要求13所述的器件,其中所述至少一个存储器和所述计算机程序代码被配置为,与所述至少一个处理器一起,促使所述器件进一步执行:
-如果在最接近的数据库二进制特征描述符与所述查询二进制特征描述符之间,最接近的邻居距离比率低于0.7,则确定匹配。
15.一种器件,至少包括:
-用于获得用于图像中的特征点的查询二进制特征描述符的装置;
-用于将所获得的查询二进制特征描述符的所选择的一部分放置到二进制树中的装置;以及
-用于将所述二进制树中的所述查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态的装置。
16.一种计算机程序,包括:
当所述计算机程序在处理器上被运行时,
用于获得用于图像中的特征点的查询二进制特征描述符的代码;
用于将所获得的查询二进制特征描述符的所选择的一部分放置到查询二进制树中的代码;以及
用于将所述查询二进制树中的所述查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态的代码。
17.根据权利要求15所述的计算机程序,其中所述计算机程序是包括计算机可读介质的计算机程序产品,所述计算机可读介质承载被具体化在其中以用于与计算机一起使用的计算机程序代码。
18.一种被编码具有指令的计算机可读介质,所述指令在由计算机运行时执行:
-获得用于图像中的特征点的查询二进制特征描述符;
-将所获得的查询二进制特征描述符的所选择的一部分放置到查询二进制树中;以及
-将所述查询二进制树中的所述查询二进制特征描述符与数据库图像的数据库二进制特征描述符进行匹配来估计摄像机的姿态。
19.根据权利要求18所述的计算机可读介质,其中二进制特征描述符通过在特征点周围的区域上的二进制测试来加以获得。
20.根据权利要求19所述的计算机可读介质,其中所述二进制测试是
Tτ(f)={0I(x1,f)<I(x2,f)+θt,
1否则
其中I(x,f)是在相对所述特征点f具有偏移x的地方处的像素强度,并且θt是一个阈值。
21.根据权利要求18或19或20所述的计算机可读介质,其中所述数据库二进制特征描述符已经被放置到具有标识的数据库二进制树中。
22.根据权利要求18至21中任一项所述的计算机可读介质,进一步包括指令,所述指令在由计算机运行时执行:根据概率评分方法从所述数据库图像中选择有关图像,以及对所选择的图像进行排名以用于匹配目的。
23.根据权利要求18至22中任一项所述的计算机可读介质,进一步包括用于匹配的指令,所述用于匹配的指令在由计算机运行时执行:
-在所述数据库二进制特征描述符之中搜索对于查询二进制特征描述符而言最接近的邻居。
24.根据权利要求23所述的计算机可读介质,进一步包括指令,所述指令在由计算机运行时执行:
-如果在最接近的数据库二进制特征描述符与所述查询二进制特征描述符之间,最接近的邻居距离比率低于0.7,则确定匹配。
CN201380074904.2A 2013-03-26 2013-03-26 用于估计成像设备的姿态的方法和设备 Pending CN105144193A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/073225 WO2014153724A1 (en) 2013-03-26 2013-03-26 A method and apparatus for estimating a pose of an imaging device

Publications (1)

Publication Number Publication Date
CN105144193A true CN105144193A (zh) 2015-12-09

Family

ID=51622362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380074904.2A Pending CN105144193A (zh) 2013-03-26 2013-03-26 用于估计成像设备的姿态的方法和设备

Country Status (4)

Country Link
US (1) US20160086334A1 (zh)
EP (1) EP2979226A4 (zh)
CN (1) CN105144193A (zh)
WO (1) WO2014153724A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947975A (zh) * 2017-11-13 2019-06-28 株式会社日立制作所 图像检索装置、图像检索方法及其中使用的设定画面

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014056537A1 (en) * 2012-10-11 2014-04-17 Longsand Limited Using a probabilistic model for detecting an object in visual data
WO2015197908A1 (en) * 2014-06-27 2015-12-30 Nokia Technologies Oy A method and technical equipment for determining a pose of a device
JP6457648B2 (ja) * 2015-01-27 2019-01-23 ノキア テクノロジーズ オサケユイチア 位置特定およびマッピングの方法
EP3690736A1 (en) * 2019-01-30 2020-08-05 Prophesee Method of processing information from an event-based sensor

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050190972A1 (en) * 2004-02-11 2005-09-01 Thomas Graham A. System and method for position determination
CN105144196A (zh) * 2013-02-22 2015-12-09 微软技术许可有限责任公司 用于计算相机或对象姿态的方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691126B1 (en) * 2000-06-14 2004-02-10 International Business Machines Corporation Method and apparatus for locating multi-region objects in an image or video database
US7912288B2 (en) * 2006-09-21 2011-03-22 Microsoft Corporation Object detection and recognition system
CN102053249B (zh) * 2009-10-30 2013-04-03 吴立新 基于激光扫描和序列编码图形的地下空间高精度定位方法
KR20140112635A (ko) * 2013-03-12 2014-09-24 한국전자통신연구원 특징점 기반 영상처리 장치 및 그 영상 처리 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050190972A1 (en) * 2004-02-11 2005-09-01 Thomas Graham A. System and method for position determination
CN105144196A (zh) * 2013-02-22 2015-12-09 微软技术许可有限责任公司 用于计算相机或对象姿态的方法和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947975A (zh) * 2017-11-13 2019-06-28 株式会社日立制作所 图像检索装置、图像检索方法及其中使用的设定画面

Also Published As

Publication number Publication date
EP2979226A4 (en) 2016-10-12
WO2014153724A1 (en) 2014-10-02
EP2979226A1 (en) 2016-02-03
US20160086334A1 (en) 2016-03-24

Similar Documents

Publication Publication Date Title
Chen et al. An edge traffic flow detection scheme based on deep learning in an intelligent transportation system
CN110909630B (zh) 一种异常游戏视频检测方法和装置
CN111368943B (zh) 图像中对象的识别方法和装置、存储介质及电子装置
CN112446342B (zh) 关键帧识别模型训练方法、识别方法及装置
CN109389044B (zh) 基于卷积网络与多任务学习的多场景人群密度估计方法
CN111667001B (zh) 目标重识别方法、装置、计算机设备和存储介质
CN103679674A (zh) 一种无人飞行器实时图像拼接方法及***
CN107341442A (zh) 运动控制方法、装置、计算机设备和服务机器人
CN105574848A (zh) 用于对象的自动分割的方法和装置
CN112990390B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
CN112200041B (zh) 视频动作识别方法、装置、存储介质与电子设备
CN105144193A (zh) 用于估计成像设备的姿态的方法和设备
CN111666922A (zh) 视频匹配方法、装置、计算机设备和存储介质
Li et al. Weaklier supervised semantic segmentation with only one image level annotation per category
CN112101329A (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN115471662B (zh) 语义分割模型的训练方法、识别方法、装置和存储介质
CN111784776A (zh) 视觉定位方法及装置、计算机可读介质和电子设备
CN112887897A (zh) 终端的定位方法、装置和计算机可读存储介质
CN111401192A (zh) 基于人工智能的模型训练方法和相关装置
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN104572830A (zh) 推荐拍摄信息的处理方法及装置
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
Guo et al. Deep network with spatial and channel attention for person re-identification
CN112995757A (zh) 视频剪裁方法及装置
CN111814811A (zh) 图像信息提取方法、训练方法及装置、介质和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151209