CN101398934A - 对图像中的对象进行定位的方法和*** - Google Patents

对图像中的对象进行定位的方法和*** Download PDF

Info

Publication number
CN101398934A
CN101398934A CNA2008101658179A CN200810165817A CN101398934A CN 101398934 A CN101398934 A CN 101398934A CN A2008101658179 A CNA2008101658179 A CN A2008101658179A CN 200810165817 A CN200810165817 A CN 200810165817A CN 101398934 A CN101398934 A CN 101398934A
Authority
CN
China
Prior art keywords
descriptor
image
motion
conversion
zone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101658179A
Other languages
English (en)
Other versions
CN101398934B (zh
Inventor
法提赫·M·波里克利
恩杰尔·C·图泽尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN101398934A publication Critical patent/CN101398934A/zh
Application granted granted Critical
Publication of CN101398934B publication Critical patent/CN101398934B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及对图像中的对象进行定位的方法和***。本发明描述了用于检测和跟踪图像序列中的对象的方法和***。对于每个图像,本发明针对图像序列中当前图像内的跟踪区域确定对象描述符,其中所述跟踪区域对应于对象在前一图像中的位置。将回归函数应用于所述描述符以确定所述对象从所述前一图像到所述当前图像的运动,其中所述运动具有矩阵李群结构。使用所述对象的所述运动来更新所述跟踪区域的所述位置。

Description

对图像中的对象进行定位的方法和***
技术领域
本发明总体上涉及对图像序列中的对象进行跟踪,并且更具体地涉及对非线性运动的对象的检测和跟踪。
背景技术
跟踪是对图像序列中的对象的运动进行估计的过程。对象跟踪方法通常要求首先在某个初始图像中检测到对象。然后,可以在随后的图像中跟踪该对象。各种对象检测方法太多,而无法一一列举。跟踪方法可以分为状态空间估计器方法或模型对准方法。
状态空间估计器方法
状态空间估计器方法典型地使用马尔可夫过程(Markovian process)并构建运动参数的概率密度函数(pdf)。例如,卡尔曼滤波(Kalmanfiltering)使用正态分布。然而,卡尔曼滤波方法不能描述多峰(multi-modal)分布。
蒙特卡洛积分(Monte Carlo integration)方法(例如粒子滤波)可以跟踪包括对象姿态的任意参数化变化。然而,特别是对于更高维表示,依赖于随机采样的这些方法会使估计出的似然度退化(degenerate)。此外,这些方法的计算需求随状态变量的数量成指数增长,这使得这些方法不适于跟踪复杂的姿态变化。
模型对准(model alignment)方法
模型对准方法基于对象模型和在图像中看到的对象之间的差异而定义代价函数。通过最小化运动参数来求解该代价函数。一个示例为光流估计,其中对象模型和图像强度之间的差的平方和被最小化为迭代最小平方问题。该方法的主要难点在于该方法要求对每次迭代计算图像梯度、雅可比(Jacobian)矩阵和海赛(Hessian)矩阵,这使得该方法较慢。
其他模型对准方法通过另选地列出运动和相关代价函数的关系式而克服这一难点。在一些方法中,该运动通过使用离线过程中学习的图像梯度的线性函数来估计。该想法被扩展到使用相关向量机来学习从图像到运动的非线性映射。
然而,这些方法通过线性化来估计对运动参数的加性(additive)更新。因此,这些方法不能跟踪非线性运动。
运动估计的李群(Lie Group)理论
对于使用均值偏移(mean shift)运算的刚体运动估计,李代数可以被用来找到具有欧几里德(Euclidean)运动群结构的分布模式。已知当运动较大时,均值偏移可能失败。向量加法运算定义在李代数上以对一系列仿射运动进行积分,来跟踪仿射“蛇形”(affine snake)。
在李代数上执行加性更新来进行模板跟踪。然而,该方法未能解决矩阵乘法的不可交换性,并且进行的估计仅在对象的初始变换附近有效。
期望在对象非线性运动的同时跟踪图像序列中的对象。还期望检测初始图像中的对象。此外,如果作为检测和跟踪的基础的方法可以相同的话,将是有利的。
发明内容
本发明的实施方式提供了对图像序列中的对象进行检测和跟踪的方法。在训练期间,确定回归函数f。该回归函数将对象描述符与对象运动关联起来。在优选实施方式中,这些描述符是方位直方图(orientationhistogram)。方位直方图对于像素强度(pixel intensity)变化相对不敏感,而对于大的对象运动是精确的。对象运动具有矩阵李群结构。该运动包括大多数常见的变换,例如欧几里德运动、相似性变换、仿射运动以及平面单应性(planar homography)。
因为这些运动不依赖于欧几里德空间,所以回归函数通过最小化误差函数来确定底空间(underlying space)的几何形状。现有技术的方法将运动线性化,这隐式地做出了欧几里德空间的假设。这对于非线性运动来说是不确切的。因此,本发明使用矩阵李群结构来描述对象的运动。
本发明在李代数上构建了对象运动的模型。该模型最小化了对测地线(geodesic)误差的平方和的一阶近似。本发明使用岭回归(ridgeregression)来更新该对象模型,这使得甚至能够以少量的图像的训练集也能够准确地进行对象运动的学习。本方法在计算上是高效的,并且实时地工作。
还能够在序列的初始目标图像中检测到对象。在已经检测到对象之后,可以对该对象进行跟踪。本发明的实施方式使用相同的回归函数和李代数结构来执行对象检测和对象跟踪。
附图说明
图1是根据本发明一个实施方式的对图像序列中的对象进行跟踪的方法的流程图;
图2是根据本发明一个实施方式的对象坐标下的对象和图像坐标下的对象之间的双向变换的图;
图3是具有根据本发明一个实施方式的利用方位直方图来表示跟踪区域的框图;
图4是根据本发明实施方式的用于训练回归函数的方法的框图;
图5包括根据本发明一个实施方式的训练集的图像;
图6是针对本发明一个实施方式的跟踪方法的伪代码的框图;
图7是使用图4的经过训练的回归函数来检测图像中的对象的方法的流程图。
具体实施方式
方法概述
图1示出了根据本发明实施方式对图像序列Ii110中的运动对象115进行跟踪的方法和***100。图像序列110可由摄像机102获取。另选地,图像序列110可以从持久性存储器或通信接口提供给方法100。不失一般性,针对对象115的非线性运动来描述方法100。然而,该方法可以对具有任何运动类型的对象进行跟踪。
方法100可以运行在连接到显示设备103的处理器或微处理器中,显示设备103例如为本领域公知的电视机、投影仪、回放设备、摄像机或计算机。显示设备可以用于由该***的用户来观察对象的运动。计算机通常包括由总线连接的一个或更多个处理单元和/或微控制器、存储器以及输入/输出接口。存储器可以包括用于储存如下所述当前图像的易失性存储器,例如RAM。处理器还可以访问储存有图像序列110的持久性存储器(例如,诸如录像带和DVD的可移除储存介质)以及通信接口(例如,机顶盒、网络接口等)。应当理解,当实时地获取图像序列110时,该方法也可以对对象进行跟踪。
对我们方法的输入为图像序列。包括对象的初始图像可以被称为训练图像。其中需要检测或跟踪对象的随后图像可以被称为目标图像。对于对象检测,该序列可以限于训练图像和一个目标图像。对于图像序列110中的每个当前(目标)图像120,我们在位置160处确定(200)对象描述符130。位置160对应于先前处理过的图像中的对象115的位置。如我们在下面描述的,对象的位置由跟踪区域限定,该跟踪区域围绕图像坐标下的图像内的对象。
接着,我们对对象描述符130应用(400)回归函数f(140)。因为该函数和描述符为矩阵,所以该应用基本上为矩阵乘法。回归函数的应用的输出为运动ΔM(150)。运动ΔM(150)对应于对象115从前一图像到当前图像120的运动。
运动150被用来更新(170)跟踪区域在当前图像中的位置。然后,经更新位置处的跟踪区域可以用于对图像序列110中下一(当前)图像内的对象进行跟踪。
跟踪方法形式化(formalization)
针对对象115的参数化(parametric)运动变换A(2)来描述本发明的实施方式。参数化变换是应用于给定变量的参数的函数。这些变量包括像素特征、区域特征、像素坐标以及区域坐标。例如,这些参数包括仿射、投影运动变换以及可以由有限数量的参数表示的其他线性和非线性运动变换、刚体和非刚体运动变换。还可以利用例如相似性变换S(2)和欧几里德运动SE(2)的其他运动变换而使用本发明。
2维参数化变换A(2)由以下3×3矩阵给出
M = A b 0 1 , - - - ( 1 )
其中A为用于表示旋转、缩放以及倾斜(skew)的非奇异2×2矩阵,并且
Figure A200810165817D00092
所有参数化变换的集合形成矩阵李群结构。李群是可微的簇。对该群的运算与平滑结构兼容。因为李群是簇,所以可以利用微分学对其进行运算。如李代数中公知的,可以用局部的或线性化的李群来替代全局的李群。李代数是可以对几何对象(诸如李群和可微的簇)进行运算的代数结构。
图2示出了在对象坐标和图像坐标下对象115的位置的双向位置变换M和M-1。在对象坐标下对象115的位置为单位正方形201。在图像坐标下对象115的位置为图像202的跟踪区域160。仿射矩阵M根据下式将坐标原点203处的单位正方形201变换为包含图像中的对象的跟踪区域160
[ximg yimg1]T=M[xobj yobj  1]T             (2)
其中,下标分别表示对象坐标(obj)和图像坐标(img)。逆变换M-1也是仿射矩阵,并将图像坐标160下的对象变换为对象坐标201下的对象。
令I表示输入图像110,t为时间(帧)索引。给定到时间t的图像(即I0...t)和初始位置变换Mo,跟踪对位置变换矩阵Mt进行估计。下面描述用于检测初始图像中的对象的方法。
位置变换矩阵Mt定义对象坐标下的时间t处的跟踪区域160的位置。我们将位置变换矩阵建模为
Mt=Mt-1·ΔMt,                        (3)
并估计每一时间(帧)t处的运动变换ΔM。运动变换ΔM对应于在对象坐标203下对象从时间t-1到时间t的运动。
对象坐标下的图像为I(M-1)。我们考虑跟踪区域160内的像素值并用诸如梯度方位直方图的描述符来表示该区域。描述符(观察值)为
Figure A200810165817D00093
其中m为描述符o(130)的维数。
我们将跟踪定义为矩阵估值回归问题。给定由先前处理过的图像Mt-1的位置变换矩阵(即跟踪区域)表示的对象的前一位置以及当前图像It,我们使用下面的回归函数140来估计运动变换ΔMt150
ΔM t = f ( o t ( M t - 1 - 1 ) ) . - - - ( 4 )
因此,如下所述,跟踪简化为训练并更新回归函数f(140)。
对象描述符
图3示出了包含对象115的单位正方形201的表示。单位正方形包括在对象坐标下单位正方形201内的规则网格处确定的几个梯度方位直方图。与尺度不变特征变换(SIFT)描述符类似,每个像素对直方图的贡献与该像素的梯度大小成比例。单位正方形301被划分成6×6=36个块302,并且针对每个块确定直方图,见D.Lowe,“Distinctive image featuresfrom scale-invariant Keypoints”,Intl.J.ofComp.Vision,60(2):91-110,2004,通过引用将其合并于此。
在0和2π度之间以π/6度来量化每个直方图中的方位。因此,每个直方图为12维,并且对象描述符o为432维。在跟踪期间,跟踪区域中的***像素经常受到背景的影响。因此,在本发明的一个实施方式中,我们在跟踪区域的***附近留出10%边界,并确定单位正方形301内的对象的描述符。
回归函数
图4示出了根据本发明的实施方式训练回归函数f(140)的方法。训练结果是对回归系数Ω的估计。回归系数将对象描述符o与运动变换ΔM关联起来。对于对象跟踪和对象检测,回归函数的训练方式和将回归函数应用于图像的方式是相同的。
训练集
在训练期间,对象115的初始位置由序列110的初始(训练)图像I0 420中的初始跟踪区域160来近似。跟踪区域160通常根据图像坐标来表示对象115的位置。因此,在对象坐标下的对象115的位置的位置变换矩阵M0(460)也是已知的。对于对象检测,向训练提供包括对象的训练图像,见图7。
我们基于对象的初始位置M0(460)而生成(430)n个随机参数化运动变换矩阵{ΔM}i=1...n的集合。每个矩阵描述了对象115从初始位置M0460起可能的运动,例如平移、旋转、缩放、倾斜及其组合。通过乘以运动变换
Figure A200810165817D00111
而对位置M0(460)处的对象115进行变换。新的描述符为 o 0 i = o 0 ( ΔM i - 1 . M 0 - 1 ) . 运动变换ΔMi使对象运动到单位正方形201。每个运动变换ΔM与位置M0(460)处的对象115的描述符o相关联。运动变换确定了训练集410。训练集410包括n个样本
Figure A200810165817D00113
图5示出了初始训练集410的示例501-504。我们用符号ΔM表示训练期间的运动,并表示跟踪期间估计出的运动。下标i指代训练集中的样本,时间索引t指代跟踪期间的估计出的运动。在一些实施方式中,每个当前图像120用于在跟踪期间更新训练集。这使得回归函数适应于外观和照明的变化。
回归函数f:
Figure A200810165817D00114
为仿射矩阵。因此,考虑仿射矩阵的结构。
用于线性运动估计的常规方法使用运动ΔM(p)的参数化,并在初始值附近线性化
ΔM ( p 0 + Δp ) ≈ ΔM ( p 0 ) + ∂ ΔM ∂ p Δp . - - - ( 5 )
因为常规变换是在单位矩阵附近,所以在ΔM(p0)=I处执行线性化。常规方法通过估计增量Δp而前进。
常规方法有两个主要优点。首先,近似(approximation)对参数做出向量空间假设。第二,参数化是任意的,并且不考虑运动的结构。
我们使用李群代数来从训练集410训练回归函数f(410)。运动变换ΔM(150)在李代数上建模为描述符o(130)的线性函数。
李群
一个d维簇是一个拓扑空间,其与欧几里德空间局部地类似。该簇上的每个点具有存在同胚的邻域,该同胚将该邻域映射到
Figure A200810165817D00116
可微簇满足平滑约束。因此,能够定义该簇上的曲线的导数。该簇上点M处的导数位于向量空间中,该向量空间是该点处的切空间(tangentspace)。李群是具有可微簇的结构的群G,从而群运算、乘法以及逆是可微映射。对该群的单位元素I的切空间形成李代数g。我们用黑体大写字母指代群上的点,并用黑体小写字母指代李代数上的向量。
簇上的距离是通过连接这些点的曲线的长度来测量,并且最小长度曲线被称为测地线。对于单位元素I,存在以向量m∈g开始的唯一测地线。指数映射exp:g→G将向量m映射到该测地线到达的点。如果exp(m)=M,则测地线的长度为ρ(I,M)=‖m‖。通常,指数映射是满射(onto)而不是一对一的。因此,逆映射log:G→g仅唯一限定在单位元素I的邻域附近。如果对于任何M∈G,存在几个m∈g从而M=exp(m),则选择log(M)作为具有最小范数的向量。左乘群元素的逆M-1:G→G将点M映射到I,并将M处的切空间映射到同构(isomorhism)的李代数。利用该映射和测地线定义,通过下式测量两个群元素之间的距离
ρ ( M 1 , M 2 ) = | | log ( M 1 - 1 M 2 ) | | . - - - ( 6 )
我们在本发明的实施方式中使用的变换,例如仿射运动A(2)、相似性变换S(2)以及欧几里德运动SE(2),是一般线性群GL(3,R)的封闭子群,该一般线性群GL(3,R)为3×3非奇异方阵的群。通过下式定义矩阵的指数映射和它的逆(对数映射)
exp ( m ) = Σ n = 0 ∞ 1 n ! m n    log ( M ) = Σ n = 1 ∞ ( - 1 ) n - 1 n ( M - 1 ) n . - - - ( 7 )
通常,指数映射不满足等式exp(m1)exp(m2)=exp(m1+m2)。该映射通过以下的Baker-Campbell-Hausdorff公式由exp(m1)exp(m2)=exp(BCH(m1,m2))定义,Baker-Campbell-Hausdorff公式为
BCH ( m 1 , m 2 ) = m 1 + m 2 + 1 2 [ m 1 , m 2 ] + O ( | m 1 , m 2 | 3 ) - - - ( 8 )
其中[m1,m2]=m1m2-m2m1为李括号运算。上面描述了仿射矩阵的结构。该空间为6维簇。
仿射群的李代数是以下矩阵的集合
m = U v 0 0 - - - ( 9 )
其中,U为2×2矩阵,并且
Figure A200810165817D00126
通过选择矩阵U中的每个元素和向量v作为规范正交基,矩阵m有时被称作6维向量。
回归函数训练
在基于训练集410的训练(480)期间,估计回归系数Ω(470)。回归系数470将对象描述符o与运动变换ΔM关联起来。出于此描述目的,回归系数Ω(470)等价于回归函数140。
训练集410包括如上所述的描述符和运动变换
Figure A200810165817D00131
仿射运动矩阵不在向量空间上,并且两个运动之间的常规欧几里德距离不是有效的度量。
然而,仿射运动确实位于可微簇上。在这种情况下,有意义的误差函数是回归估计
Figure A200810165817D00132
和运动变换ΔMi之间的测地线距离的平方和
J g = Σ i = 1 n ρ 2 [ f ( o 0 i ) , Δ M i ] . - - - ( 10 )
令M1和M2为两个运动矩阵,并且令m1=log(M1)以及m2=log(M2)。使用式(8)的BCH公式,对这两个运动矩阵之间的测地线距离的一阶近似为
ρ ( M 1 , M 2 ) = | | log [ M 1 - 1 M 2 ] | |
          | | log [ exp ( - m 1 ) exp ( m 2 ) ] | |
          = | | log [ exp ( m 2 - m 1 ) + O ( | ( m 1 , m 2 ) | 2 ) ] | |
          ≈ | | m 2 - m 1 | | - - - ( 11 )
如果我们基于李代数选择d规范正交,则我们可以确定矩阵范数为两个向量之间的欧几里德距离。根据式(8)的BCH公式和李括号运算的定义,对于较小的变换来说,近似较好,从而m1和m2接近于零,或者等价地,M1和M2接近于单位矩阵I。使用式(11),式(10)的误差函数等同于最小化下式到一阶项
J a = Σ i = 1 n | | log ( f ( o 0 i ) ) - log ( ΔM i ) | | 2 . - - - ( 12 )
因为变换是在单位矩阵的小的邻域内,所以近似足够准确。
我们将回归函数定义为
f(o)=exp(g(o)),                                         (13)
并且确定函数g:该函数在李代数上对切矢量log(ΔM)进行估计。我们将函数g建模为描述符的线性函数
g(o)=oTΩ,                                         (14)
其中Ω为回归系数的m×d矩阵。令X为初始描述符的n×m矩阵,Y为到李代数的运动的映射的n×d矩阵
X = [ o 0 1 ] T · · · [ o 0 n ] T
Y = [ log ( ΔM 1 ) ] T · · · [ log ( ΔM n ) ] T - - - ( 15 )
这里,log(ΔM1)是d维向量形式。
将式(13)和(14)代入式(12),我们得到
Ja=tr[(XΩ-Y)T(XΩ-Y)],                   (16)
其中迹(tr)替代了式(12)中的求和。迹是主对角线上元素的和。如果我们将误差函数Ja对Ω求导,则最小值为Ω=(XTX)-1XTY。
对于实时跟踪,描述符的数量相对较少,例如n=200。因为描述符的数量小于特征空间的维数,m=432,n<m,所以***是欠定的(underdetermined),并且XTX变为秩亏的(rank deficient)。在这种情况下,估计使训练误差为零。然而,该误差并不推广到未来的预测,这被称为过拟合(overfitting)。
为了避免过拟合,我们对回归系数的大小提供附加的约束
Jr=tr[(XΩ-Y)T(XΩ-Y)]+λ‖Ω‖2,      (17)
这就是岭回归。岭回归用于求解很差约束的线性回归问题。
误差函数Jr的最小值为
Ω=(XTX+λI)-1XTY,                          (18)
其中I为m×m单位矩阵。正则系数λ确定了回归系数的收缩度。系数λ的较大值使运动稳定,而较小值允许帧到帧的较大运动。系数λ的最优值通过对训练序列的交叉验证(cross validation)来选择,而λ在整个跟踪中保持恒定。
回归函数更新
对象115的外观可以随时间而改变。场景中的照明量也可以改变。对于跟踪自然界户外环境中的对象尤其如此。因此,我们根据先前处理过的图像和跟踪区域来更新(450)训练集410。
在我们的实施方式中,模型更新(450)是指重新估计回归函数f,或者等价地重新估计回归系数Ω。在跟踪步骤期间,如上所述,我们生成跟踪区域160的几个(例如k=2)随机描述符。令Xu和Yu为更新后的描述符和以如式(15)所述的矩阵形式储存的运动变换,并且Ω′为先前的模型参数。在跟踪每p个帧之后,我们通过最小化以下误差函数来更新回归函数的系数
Ju=tr[(XuΩ-Yu)T(XuΩ-Yu)]+λ‖Ω‖2+γ‖Ω-Ω′‖2。     (19)
该误差函数与式(17)类似。
我们将误差函数Ju对回归系数Ω求导。最小值为
&Omega; = ( X u T X u + ( &lambda; + &gamma; ) I ) - 1 ( X u T Y u + &gamma;&Omega; &prime; ) - - - ( 20 )
参数γ对允许回归参数从上一次估计改变的量进行控制。
对象跟踪
图6示出了我们的对象跟踪方法的伪代码。我们对回归函数f(140)进行训练。该跟踪使用式(4)来估计对象从图像到图像的运动(150),并使用式(3)更新(170)位置M。
可以通过用回归函数f重复运动估计来改善跟踪。当估计出的运动ΔMt变得等于单位矩阵(identity),或者对象在当前估计出的位置处的似然度变得小于对象在前一位置处的似然度时,迭代结束。在时间t对象位于位置M处的似然度为
L ( M , t ) = | | o t ( M - 1 ) - o 0 ( M 0 - 1 ) | | - 1 , - - - ( 21 )
其中对象在前一位置处的描述符与对象在当前位置处的描述符进行比较。通常,每个图像1或2次迭代足够用于对对象进行跟踪。
对象检测
图7示出了根据本发明的实施方式来检测目标图像702中的对象区域的方法。我们从包括训练区域710中的对象的(初始)训练图像701开始。我们不知道对象在现实世界坐标下或者关于目标图像中的对象姿态的相对姿态。对于姿态,我们意指对象的3D位置和3D方位。例如,训练图像中汽车的视图可以为侧面,而目标图像中相同汽车的视图可以为正面。因为姿态可以不同,所以对象的大小在两个图像中也可以不同。我们从训练图像701生成对象描述符715,例如描述符为如上述方位直方图。另选地,可以使用其他描述符,例如外观、统计。
我们根据变换参数730将多个参数化变换720应用于训练区域710,以产生变换后的区域740。典型地,存在数百个这些变换。每个变换使对象产生不同的姿态。如上所述,变换参数730被映射到李代数。
我们为每个变换后的区域740确定(750)描述符751。我们将描述符751和参数730映射到李代数,并如上针对图4所述地训练(760)回归函数(RF)761。
我们将目标图像702划分成多个窗口770。因为我们不知道目标图像中对象的大小和位置,所以存在许多不同大小和位置的窗口。对于每个窗口,我们确定(780)窗口描述符785,并通过矩阵乘法确定到该描述符的回归函数761,以确定收敛的窗口。对于每个收敛的窗口790,我们确定窗口描述符792。
我们测量(795)从目标图像702获得的每个窗口描述符和从训练区域701获得的对象描述符之间的相似性分数。具有最高相似性分数的窗口对应于检测到的对象的位置796。
在其他维下的检测和跟踪
上面用于对象检测和跟踪的方法可以扩展到其他维。例如,我们可以检测和跟踪在3D空间中的3D对象。在相应的更高或更低的维数下定义参数化变换和描述符。例如,可以通过表面图(surface map)、体积数据或3D范围数据定义3D对象。
发明效果
相对于常规的对象跟踪,根据本发明的实施方式的检测和跟踪对象的方法具有以下优点。
本方法使用方位直方图而不是常规方法中使用的像素强度来跟踪运动。当运动较大时,直方图提供了精确的估计。并且,方位直方图对对象的照明和外观变化不敏感。
本方法使用运动群的李代数,该李代数可以更好地估计非线性运动。
本方法使用岭回归来实时更新运动模型。
本发明可以用于跟踪具有任何矩阵李群结构运动的对象。
尽管已经以优选实施方式为例描述了本发明,但是应当理解,在本发明的精神和范围内可以做出各种其他改变和修改。因此,所附权利要求的目的是涵盖落入本发明的精神和范围内的所有这种变化和修改。

Claims (18)

1.一种对图像中的对象进行定位的方法,该方法包括以下步骤:
将参数化变换的集合应用于训练图像中的区域,以确定变换后的区域的集合,其中所述参数化变换的参数被映射到李代数,并且所述区域包括对象;
确定针对每个变换后的区域的对象描述符;
根据所述参数化变换的集合和所述对象描述符的集合来训练回归函数;
从目标图像确定所述对象描述符;以及
将所述回归函数应用于所述目标图像的所述对象描述符,以确定所述对象在所述目标图像中的位置。
2.根据权利要求1所述的方法,该方法进一步包括以下步骤:
针对运动对象的目标图像序列中的每个目标图像确定所述对象描述符;以及
对每个对象描述符应用所述回归函数以确定所述运动对象的所述位置。
3.根据权利要求2所述的方法,该方法进一步包括以下步骤:
根据所述运动对象的所述位置来更新所述区域的位置。
4.根据权利要求1所述的方法,其中所述参数化变换是仿射变换。
5.根据权利要求1所述的方法,其中所述参数化变换是投影变换。
6.根据权利要求2所述的方法,其中所述图像对应于表面图。
7.根据权利要求1所述的方法,其中每个图像为体积数据集,并且所述位置为三维的。
8.根据权利要求1所述的方法,其中所述参数通过矩阵对数运算而被映射到所述李代数。
9.根据权利要求1所述的方法,其中所述区域被映射到单位区域,以确定所述对象描述符。
10.根据权利要求1所述的方法,其中所述对象描述符是方位直方图。
11.根据权利要求1所述的方法,其中所述对象描述符是协方差矩阵。
12.根据权利要求2所述的方法,其中对所述应用进行重复,直到所述运动对象的所述位置的似然度小于所述对象的前一位置的似然度。
13.根据权利要求1所述的方法,其中所述对象描述符和所述回归函数是矩阵,并且所述应用是矩阵乘法。
14.根据权利要求2所述的方法,其中在时间t处所述区域的所述位置由位置变换矩阵Mt来描述,并且在该时间t处所述对象的所述运动由运动变换ΔMt来描述,使得Mt=Mt-1·ΔMt
15.根据权利要求14所述的方法,其中所述回归函数为f,所述对象描述符为
Figure A200810165817C00031
其中m为所述对象描述符的维数,并且所述运动变换是
&Delta; M t = f ( o t ( M t - 1 - 1 ) ) .
16.根据权利要求2所述的方法,该方法进一步包括以下步骤:
针对每个目标图像更新所述回归函数的系数。
17.根据权利要求1所述的方法,该方法进一步包括以下步骤:
将所述目标图像划分成多个窗口;
确定每个窗口的所述对象描述符;
将所述回归函数应用于每个窗口的所述对象描述符,以确定每个窗口的收敛窗口;
确定每个收敛窗口的窗口描述符;
将所述区域的所述对象描述符与每个窗口描述符进行比较,以确定每个收敛窗口的相似性分数;以及
选择与具有最高分数的所述收敛窗口相关联的所述窗口,作为所述对象在所述目标图像中的所述位置。
18.一种对图像中的对象进行定位的***,该***包括:
用于将参数化变换的集合应用于训练图像中的区域以确定变换后的区域的集合的装置,其中所述参数化变换的参数被映射到李代数,并且所述区域包括对象;
用于确定针对每个变换后的区域的对象描述符的装置;
用于根据所述参数化变换的集合和映射到所述李代数的所述对象描述符的集合来训练回归函数的装置;
用于从目标图像确定所述对象描述符的装置;以及
用于将所述回归函数应用于所述目标图像的所述对象描述符以确定所述对象在所述目标图像中的位置的装置。
CN2008101658179A 2007-09-27 2008-09-23 对图像中的对象进行定位的方法和*** Expired - Fee Related CN101398934B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/862,554 2007-09-27
US11/862,554 US7961952B2 (en) 2007-09-27 2007-09-27 Method and system for detecting and tracking objects in images

Publications (2)

Publication Number Publication Date
CN101398934A true CN101398934A (zh) 2009-04-01
CN101398934B CN101398934B (zh) 2012-06-06

Family

ID=40508414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101658179A Expired - Fee Related CN101398934B (zh) 2007-09-27 2008-09-23 对图像中的对象进行定位的方法和***

Country Status (3)

Country Link
US (1) US7961952B2 (zh)
JP (1) JP4974975B2 (zh)
CN (1) CN101398934B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509309A (zh) * 2011-11-04 2012-06-20 大连海事大学 一种基于图像匹配的目标点定位***
CN102853793A (zh) * 2012-09-27 2013-01-02 中国科学院高能物理研究所 坐标变换数据处理方法和装置
CN102982556A (zh) * 2012-11-01 2013-03-20 江苏科技大学 基于流形上粒子滤波算法的视频目标跟踪方法
CN105488505A (zh) * 2015-12-31 2016-04-13 中国科学院电子学研究所 一种对具有旋转角度的目标进行识别的方法
CN107203766A (zh) * 2017-04-19 2017-09-26 杭州泽火科技有限公司 精确定位图像中字符的方法、装置及***
CN108197631A (zh) * 2012-07-23 2018-06-22 苹果公司 提供图像特征描述符的方法
CN108376242A (zh) * 2017-01-30 2018-08-07 黑莓有限公司 针对视频的持续性特征描述符
CN111742191A (zh) * 2018-02-26 2020-10-02 三菱电机株式会社 三维位置推定装置及三维位置推定方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401239B2 (en) * 2009-03-30 2013-03-19 Mitsubishi Electric Research Laboratories, Inc. Object tracking with regressing particles
TW201040893A (en) * 2009-05-12 2010-11-16 Ind Tech Res Inst Method and apparatus for recognitizing types of vehicles
KR20100124532A (ko) * 2009-05-19 2010-11-29 삼성전자주식회사 데이터 처리 장치 및 방법
KR101586007B1 (ko) * 2009-06-25 2016-01-21 삼성전자주식회사 데이터 처리 장치 및 방법
DE102010016964B4 (de) * 2010-05-17 2014-05-15 Krauss-Maffei Wegmann Gmbh & Co. Kg Verfahren und Vorrichtung zur Steuerung einer computergenerierten Anzeige eines virtuellen Objekts
US8600106B1 (en) * 2010-08-31 2013-12-03 Adobe Systems Incorporated Method and apparatus for tracking objects within a video frame sequence
CN103814384B (zh) * 2011-06-09 2017-08-18 香港科技大学 基于图像的跟踪
US8675997B2 (en) * 2011-07-29 2014-03-18 Hewlett-Packard Development Company, L.P. Feature based image registration
US9076227B2 (en) * 2012-10-01 2015-07-07 Mitsubishi Electric Research Laboratories, Inc. 3D object tracking in multiple 2D sequences
KR20140105103A (ko) * 2013-02-21 2014-09-01 삼성전자주식회사 장기의 움직임을 추적하는 방법, 장치 및 의료 영상 시스템
US20140278235A1 (en) * 2013-03-15 2014-09-18 Board Of Trustees, Southern Illinois University Scalable message passing for ridge regression signal processing
US10983041B2 (en) * 2014-02-12 2021-04-20 New York University Fast feature identification for holographic tracking and characterization of colloidal particles
JP2015206768A (ja) * 2014-04-23 2015-11-19 株式会社東芝 前景領域抽出装置、前景領域抽出方法及びプログラム
US9195903B2 (en) 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
US9245196B2 (en) * 2014-05-09 2016-01-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking people in indoor environments using a visible light camera and a low-frame-rate infrared sensor
US9373058B2 (en) 2014-05-29 2016-06-21 International Business Machines Corporation Scene understanding using a neurosynaptic system
US10115054B2 (en) 2014-07-02 2018-10-30 International Business Machines Corporation Classifying features using a neurosynaptic system
US10445885B1 (en) 2015-10-01 2019-10-15 Intellivision Technologies Corp Methods and systems for tracking objects in videos and images using a cost matrix
CN107181976B (zh) * 2017-04-28 2021-01-29 华为技术有限公司 一种弹幕显示方法及电子设备
CN109086734B (zh) * 2018-08-16 2021-04-02 新智数字科技有限公司 一种对人眼图像中瞳孔图像进行定位的方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263107A (en) * 1991-01-31 1993-11-16 Sharp Kabushiki Kaisha Receptive field neural network with shift-invariant pattern recognition
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5640492A (en) * 1994-06-30 1997-06-17 Lucent Technologies Inc. Soft margin classifier
US6112195A (en) * 1997-03-27 2000-08-29 Lucent Technologies Inc. Eliminating invariances by preprocessing for kernel-based methods
US6134344A (en) * 1997-06-26 2000-10-17 Lucent Technologies Inc. Method and apparatus for improving the efficiency of support vector machines
US7174040B2 (en) * 2002-07-19 2007-02-06 Intel Corporation Fast method for training and evaluating support vector machines with a large set of linear features
JP4144377B2 (ja) * 2003-02-28 2008-09-03 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
US6803933B1 (en) * 2003-06-16 2004-10-12 Hewlett-Packard Development Company, L.P. Systems and methods for dot gain determination and dot gain based printing
US7751643B2 (en) * 2004-08-12 2010-07-06 Semiconductor Insights Inc. Method and apparatus for removing uneven brightness in an image
US7620204B2 (en) * 2006-02-09 2009-11-17 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using covariance matrices
US7899253B2 (en) * 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509309A (zh) * 2011-11-04 2012-06-20 大连海事大学 一种基于图像匹配的目标点定位***
CN102509309B (zh) * 2011-11-04 2013-12-18 大连海事大学 一种基于图像匹配的目标点定位***
CN108197631B (zh) * 2012-07-23 2022-06-28 苹果公司 提供图像特征描述符的方法
CN108197631A (zh) * 2012-07-23 2018-06-22 苹果公司 提供图像特征描述符的方法
CN102853793B (zh) * 2012-09-27 2015-03-25 中国科学院高能物理研究所 坐标变换数据处理方法和装置
CN102853793A (zh) * 2012-09-27 2013-01-02 中国科学院高能物理研究所 坐标变换数据处理方法和装置
CN102982556B (zh) * 2012-11-01 2016-06-15 江苏科技大学 基于流形上粒子滤波算法的视频目标跟踪方法
CN102982556A (zh) * 2012-11-01 2013-03-20 江苏科技大学 基于流形上粒子滤波算法的视频目标跟踪方法
CN105488505A (zh) * 2015-12-31 2016-04-13 中国科学院电子学研究所 一种对具有旋转角度的目标进行识别的方法
CN105488505B (zh) * 2015-12-31 2019-01-11 中国科学院电子学研究所 一种对具有旋转角度的目标进行识别的方法
CN108376242A (zh) * 2017-01-30 2018-08-07 黑莓有限公司 针对视频的持续性特征描述符
CN108376242B (zh) * 2017-01-30 2023-11-14 黑莓有限公司 针对视频的持续性特征描述符
CN107203766A (zh) * 2017-04-19 2017-09-26 杭州泽火科技有限公司 精确定位图像中字符的方法、装置及***
CN107203766B (zh) * 2017-04-19 2019-08-20 杭州泽火科技有限公司 精确定位图像中字符的方法、装置及***
CN111742191A (zh) * 2018-02-26 2020-10-02 三菱电机株式会社 三维位置推定装置及三维位置推定方法
CN111742191B (zh) * 2018-02-26 2022-01-14 三菱电机株式会社 三维位置推定装置及三维位置推定方法

Also Published As

Publication number Publication date
JP2009087326A (ja) 2009-04-23
CN101398934B (zh) 2012-06-06
JP4974975B2 (ja) 2012-07-11
US20090087023A1 (en) 2009-04-02
US7961952B2 (en) 2011-06-14

Similar Documents

Publication Publication Date Title
CN101398934B (zh) 对图像中的对象进行定位的方法和***
CN111780763B (zh) 一种基于视觉地图的视觉定位方法、装置
US8401239B2 (en) Object tracking with regressing particles
Wells III Statistical approaches to feature-based object recognition
US7616807B2 (en) System and method for using texture landmarks for improved markerless tracking in augmented reality applications
CN111354043A (zh) 一种基于多传感器融合的三维姿态估计方法及装置
Micusik et al. Simultaneous surveillance camera calibration and foot-head homology estimation from human detections
US20160163114A1 (en) Absolute rotation estimation including outlier detection via low-rank and sparse matrix decomposition
CN105488541A (zh) 增强现实***中基于机器学习的自然特征点识别方法
Belter et al. Modeling spatial uncertainty of point features in feature-based RGB-D SLAM
US20170178347A1 (en) Dynamic particle filter parameterization
CN110688440B (zh) 一种适用于子地图重叠部分较少的地图融合方法
Pritts et al. Rectification from radially-distorted scales
Corpetti et al. Stochastic uncertainty models for the luminance consistency assumption
CN113822996B (zh) 机器人的位姿估计方法及装置、电子设备、存储介质
CN109191503B (zh) 基于条件随机场的遥感影像变化检测方法及***
CN109242832B (zh) 一种多时相多光谱遥感影像变化检测方法及***
Ventura et al. P1ac: Revisiting absolute pose from a single affine correspondence
Xiao et al. Monocular ORB SLAM based on initialization by marker pose estimation
Ji et al. Automatic calibration of camera sensor networks based on 3D texture map information
CN116894876A (zh) 基于实时图像的6-dof的定位方法
KR101766823B1 (ko) 불규칙한 조도 변화에 강건한 영상 기반 주행거리 측정 시스템 및 방법
Kumar et al. An efficient method for road tracking from satellite images using hybrid multi-kernel partial least square analysis and particle filter
Arevalo et al. Improving piecewise linear registration of high-resolution satellite images through mesh optimization
EP2093713A2 (en) A method of estimating a motion of a multiple camera system, a multiple camera system and a computer program product

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120606