CN1300503A - 摄像机运动参数估计方法 - Google Patents

摄像机运动参数估计方法 Download PDF

Info

Publication number
CN1300503A
CN1300503A CN99806129A CN99806129A CN1300503A CN 1300503 A CN1300503 A CN 1300503A CN 99806129 A CN99806129 A CN 99806129A CN 99806129 A CN99806129 A CN 99806129A CN 1300503 A CN1300503 A CN 1300503A
Authority
CN
China
Prior art keywords
motion
vector
camera
estimation
motion vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99806129A
Other languages
English (en)
Other versions
CN1224264C (zh
Inventor
B·莫赖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1300503A publication Critical patent/CN1300503A/zh
Application granted granted Critical
Publication of CN1224264C publication Critical patent/CN1224264C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及摄像机运动参数的估计方法。被用于细分为数据块的连续图像帧的序列,并且包括下面步骤:从所说的图像序列提取对应于两个连续的帧之间的运动的矢量,所说的运动矢量形成该摄像机速度场,预处理如此获得的该摄像机速度场,以便降低数据量和该提取的运动矢量的多相性,从所说的预处理场估计用于每一个帧对的在两个考虑帧之间的摄像机特征,并且根据所说的估计实施一个长项运动分析,以便获得对应于该估算摄像机运动参数的运动描述符。应用于MIPEG-7之内描述符的实施方案。

Description

摄像机运动参数估计方法
本发明涉及摄像机运动参数估计方法,所说的参数要成为MPEG-7中的用于作为图像索引框中的描述符。
过去的十年已经看到了可由许多人访问的大信息数据库的发展。这些数据库包括例如文本、图像、声音等几个介质类型。这种信息的表征、显示、索引、存储、传输及检索构成了该技术的有用的重要内容(issue)。不管能够考虑进行图像索引的分集的等级如何,每一信息分集都能够根据若干判据,例如根据语义信息内容、场景属性、摄像机运动参数等被随后索引。称为“多媒体内容描述接口”并且旨在根据信息内容的检索问题的MPEG-7将把描述这种多媒体内容的类属方法标准化,其使用与多媒体资料相关的描述符和描述方案,以便根据例如文本、色彩、组构、运动和语义内容的各种类型而实现快速和有效率的检索。该标准将实现能够被储存(联机或脱机)或成为数据串流(例如在互联网络中的广播或图像)的应用,并且能够以实时和非实时环境操作。
图1示出并且提供用于处理任何多媒体内容的一个可能的MPEG-7处理链路的方框示意图包括:一个在编码一侧的对所说的内容进行操作的特征提取子部件11;建立基准子部件12,包括用于得出MPEG-7定义语言的模块121和定义MPEG-7描述符及描述方案的模块122;标准描述子部件13;以及编码子部件14。MPEG-7标准的范围是子部件12,并且本发明定位在子部件12和13中。图1还示出解码一侧,包括解码子部件16(刚好在编码数据的传输之后,即储存编码数据的一个读操作),和一个搜索引擎17,应答用户控制的功能进行操作。
在MPEG-7结构中,必须生成用于许多主题的有效工具,像用于场景分析即运动分析,尤其用于摄像机运动特征提取的方法。针对运动表示,能够建议两个解决方案作为可能的用于总的运动描述符提取的基础:透视模式,以及数据块匹配方法。前者很好地适合于摄像机全局运动,但是不能表示三维的变换,致使不得不分别地描述每次全局运动的可能的三维变换。
数据块匹配运动补偿被用作预测编码处理的一部分,该预测编码处理广泛地使用在图像传输中,用于降低编码一个图像程序所需要的信息量。的确,从一帧到下一帧的一个图像的仅一小部分的变化,实现从所说的在先帧的直接预测。更确切地说,每一帧(i+1)被分成固定数目的数据块(通常正方形)。对于每一数据块(通常8×8像素)来说,在一个预定的区域上执行与一个在先基准帧(i)中的最相似的数据块的搜索。搜索准则通常是,最佳匹配数据块的搜索给出最小的预测误差,通常计算为平均绝对值差(其比例如均方差更容易计算)。对于以(x,y)定位的每一数据块(在本例中是8×8像素),则根据关系(1)从图像(i)计算预测的图像(i+1):
B(i+1)[x,y]=B(i)[x-dx,y-dy]       (1)
利用(dx,dy)= v=运动矢量,从图像(i)中的B(i)导引到图像(i+1)中的B(i+1)。
当从数据块匹配运动矢量开始估算摄像机运动时,主要的问题是,矢量的估计器的效率仅是从一个编码准则的角度测量的。运动矢量未必是对应于场景的真实运动。例如,在场景中的均匀组构的一个区域中,估计器能够选择该组构内部的任何数据块,即便该运动矢量不表示该全局运动。但是,虽然数据块匹配表示一个不总是一致的运动,但是该方法将是最好的,因为有可能变换必须每次区别地描述,并且该透视模式不能够做这件事。从如此确定的运动矢量出发,随后定义某些摄像机参数。在描述相应的定义方法之前,首先提出使用在当前描述中的摄像机模式。
考虑移动通过一个静态环境的单眼摄像机。如能够在图2中看到,假设O是摄像机的光学中心,OXYZ是相对于这台摄像机固定的一个外部坐标系,OZ是光轴。假设Tx,Ty、Tz是OXYZ相对于场景的平移速度,而Rx、Ry、Rz是其角速度。如果(X,Y,Z)是点P在三维的场景中的瞬时坐标,则P的速度分量将是:
X=-Tx-Ry.z+Rz.Y      (2)
Y=-Ty-Rz.X+Rx.Z      (3)
Z=-Tz-Rx.Y+Ry.X      (4)
P的图像位置,即p通过关系(5)在图像平面中给出:
(其中f是摄像机的焦距),并且以一个引入速度移动通过该图像平面
(ux,uy)=( x, y)          (6)在计算和替换之后,获得下面关系: u x = f . X - Z - f . X . Z - Z 2 u x = f Z ( - T x - R y . Z + R z . Y ) - f . X Z 2 ( - T z - R x . Y + R y . X ) ( 8 ) u y = f . Y - Z - f . Y . Z - Z 2 u y = f Z ( - T y - R z . X + R x . Z ) - f . Y Z 2 ( - T z - R x . Y + R y . X ) ( 10 ) 还可以被写入成: u x ( x , y ) = - f Z . ( T x - x . T z ) + x . y f . R x - f ( 1 + x 2 f 2 ) R y + y . R z ( 11 ) u y ( x , y ) = - f Z . ( T y - y . T z ) - x . y f . R y + f ( 1 + y 2 f 2 ) R x - x . R z ( 12 ) 而且,为了在这台摄像机模式中包括变焦距,假定一个变焦能够通过单一角度域中的放大率近似。如果在该场景中的最近的目标的距离比用于产生该变焦的焦距的变化大,则这样一个假设是成立的,通常是这种情况。
图3考虑了一个纯变焦。给出在时间t在的图像平面中定位的一个点(x,y)和在下一个时间t’的定位(x’,y’),由变焦沿x引入的图像速度ux=x’-x能够被表示为如下所示的Rzoom的一个函数(Rzoom由图3显示的关系(θ’-θ)/θ定义)。
可以确定:tan(θ’)=x’/f和tan(θ)=x/f,其导致
ux = x′- x=[tan(θ′)-tan(θ)].f      (13)tan(θ’)的表示式可以写成: tan ( θ ′ ) = tan [ ( θ ′ - θ ) + θ ] = tan ( θ ′ - θ ) + tan ( θ ) 1 - tan ( θ ) . tan ( θ ′ - θ ) ( 14 ) 随后假设角度差(θ’-θ)是小值,即tan(θ’-θ)可以由(θ’-θ)近似,并且(θ’-θ).tanθ<<1,则获得: u x = x ′ - x = f . [ ( θ ′ - θ ) + tan ( θ ) 1 - ( θ ′ - θ ) . tan θ - tan θ ] ( 15 ) u x = f . ( θ ′ - θ ) . ( 1 + tan 2 ( θ ) 1 - ( θ ′ - θ ) . tan θ ( 16 ) u x = f . θ . R ZOOM . 1 + tan 2 ( θ ) 1 - ( θ ′ - θ ) . tan θ ( 17 ) 其实际等于 u x = x ′ - x = f . θ . R zoom . ( 1 + tan 2 θ ) ( 18 ) 该结果能够被重新写成 u x = f . tan - 1 ( x f ) . R zoom . ( 1 + x 2 f 2 ) ( 19 ) 并且,类似地,uy由下式给出: u y = f . tan - 1 ( y f ) . R zoom . ( 1 + y 2 f 2 ) ( 20 )
速度u=(ux,uy)对应于在图像平面中由单一变焦引入的运动。因此能逻辑地定义考虑了旋转、移动(沿着X和Y轴)和变焦全部因素的总模式。
总模式能够被写为表示转动和变焦运动的转动速度与表示X和Y移动的平移速度的一个和(即分别地跟踪和急变)。
Figure A9980612900073
利用:
Figure A9980612900074
方程式中仅平移项取决于目标距离Z。
M.V.Srinivasan和al.的文章“从图像序列估计摄像机运动参数的质量”(模式识别,卷30,第4期,1997年,593-605页)描述了使用摄像机方程式(21)到(23)从图像的一个序列提取摄像机运动参数的技术。更具体地说,在所说文章的部分3(595-597页)中解释了该技术的基本原理。通过在从原始的光学流场相减时寻找产生一个流场的Rx、Ry、Rz和Rzoom的最佳值、随后产生其中的全部矢量是平行矢量的一个剩余流场执行的该技术利用基于优势扇区的准则而使用一个对来自该剩余流矢量的平行性的漂移进行最小化的迭代法。
在迭代法的每一步骤,由于当前摄像机运动参数引起的光流被根据两个不同摄像机模式之一计算。第一模式假定,该视野(或焦距f)的角度大小是公知的:这意味着方程式(23)中的比例x/f和y/f可以针对图像中的每一点计算,所说的方程式随后实现该光流的精确计算。
第二模式假定不知道该摄像机的视野。在执行方程式(23)之前需要小场近似(x/f和y/f比1小),这将导致方程式(24)和(25):
urot x□-f.Ry+y.Rz+x.Rzoom             (24)
urot y□-f.Rx-x.Rz+y.Rzoom             (25)
当摄像机的视野大且已知时,考虑了全景拍摄或倾斜失真的第一模式似乎产生更准确的结果。遗憾的是通常不知道焦距,当视野被猜想是大视野时,将导致仅在图像的有限范围上使用第二模式。但是,因为第二模式不可能区别全景拍摄和跟踪,所以该模式不是一个满意的解决方案。
虽然水平和垂直的跟踪产生的流场中全部的矢量是真正平行的,但是利用摇摄全景和倾斜产生的流场不是这样,除非摄像机的视野是小视野,例如20°×20°(大视野导致源于焦面的平面的几何的速度场中的失真)。由变焦产生的流场也失真(远离中心,运动矢量不再是放射状地取向)。如果是大视野,则产生失真可用于把平移运动从摇摄全景和倾斜中唯一地区别开。
因此,本发明的一个目的是改进用于从运动矢量中估计摄像机运动特征的方案,通过建议一个摄像机运动参数估计方法,当在大视野时,即便在视野未知的情况下,每次在物理构成上有可能实现在跟踪和全景拍摄之间的区别以及不同地执行,但当小视野时不做这种区别。
为此目的,本发明涉及一种估计方法,提供用于考虑被细分为数据块的连续图像帧的一个序列并且处理该序列,其中所说的处理操作包括对应的连续步骤:
-从所说的图像序列提取对应于两个连续的帧之间的运动的矢量,所说的运动矢量形成该摄像机速度场;
-预处理该摄像机速度场,以便降低数据量和所说提取的运动矢量的多相性;
-从所说的预处理场估计用于每一个帧对的在两个考虑帧之间的摄像机特征;
-根据所说的估计实施一个长项运动分析,以便获得对应于该估算摄像机运动参数的运动描述符。
该主要构思是,在大多数情况下,如果大视野产生在速度场中的失真,则相同的失真应该还是可用的。换句话说,如果焦距(或视野,其是与图像规模标度因数相同的信息)被包括在使用上述第一模式的最小化处理中,当视野不太小时以及当实际上存在变焦、摇摄全景、倾斜或滚动分量之一时(表示真实情况的一个重要的部分;如果视野太小或如果仅存在一个跟踪运动的话,则该焦距估计将不再有意义),该焦距应该被正确地估算。
将以实例的方式,参照附图描述本发明,其中:
图1是一个有可能的MPEG-7处理链的一个示意方框图;
图2示出与摄像机一起移动的一个摄像机外部的坐标系OXYZ,并且示出针对焦距f的在三维场景中的一个对应点P的视网膜的坐标(x,y);
图3示出包括在摄像机模式中的一个变焦模式;
图4给出执行根据本发明的估计方法的一个完整摄像机运动分析***的总图;
图5示出使用在根据本发明的***中的滤波技术;
图6示出当执行下倾(downhill)单形法时的构造一个新的单形的方式;
图7示出一个流程图,说明用于该平行价值函数的向下单纯形算法。
实施根据本发明的估计方法的一个完整方案在图4中示出。可以指出,因为MPEG-7将是一个多媒体内容描述标准,所以来指定一个具体编码类型。因此,描述符格式的一个处理必须对所有的编码数据的类型(压缩或未压缩的)都有效。然而,由于从输入帧获得的大部分视频数据通常是MPEG格式(因此存在压缩),直接地使用由MPEG运动补偿提供的运动矢量是有益的。如果该视频数据是以未压缩域得到的,则在一个运动矢量产生装置41中执行一个数据块匹配方法。
不管是那种情况,一旦已经读出或从图像序列(在两个连续帧之间)提取了运动矢量,则都提供一个下采样和滤波装置42。滤波该速度场的目标是降低该数据量和运动矢量的多相性。该操作之后是装置43中的摄像机特征的瞬时估计。该估计是根据预先描述的方法改进的,以便使用运动矢量并且在最小化处理中包括该焦距,并且实现用于每一对帧的一个特征向量。在整个所考虑的序列中的特征矢量组则最终由一个长期运动分析装置44接收,该装置44输出运动描述符,可用于在以内容为基础的检索组织结构中索引摄象机运动的序列,特别是按照MPEG-7图像索引结构索引该序列。
装置42中的预处理步骤要解决两个主要问题:运动矢量的多相性,首先是该图像的低频部分中的或在非常均匀组构场合中的运动矢量的多相性,以及该数据块的尺寸太小。根据全局信息,通过下采样该原始场并且同时抑制不一致的矢量,下采样和滤波处理被提供用于降低该矢量的总数。使用针对每一矢量计算出的一个置信掩码:根据每一运动矢量的置信等级在0和1之间的变化的判别标准,并且决定该矢量是否被考虑。置信掩码的一个实例可以被认为,针对任何理论的摄像机运动,是一个不能变化太多的运动矢量:具有接近值的相近矢量。因此能根据每一矢量到其邻近矢量的距离测量一个置信度,能够由例如其平均值表示,最好由中值表示(因为中值对大隔离误差敏感更小)。因此该置信掩码Cij由方程式(26)定义:
Ci,j=e-‖ vi,j- vmedian2    (26)
图5示出滤波技术:滤波场(右侧)包括原始场(左侧)四倍分之一的数据块数目。根据四个原始数据块的运动矢量计算表示新数据块的运动的矢量,并且根据显示的邻近数据块计算其置信度。用于新的数据块的运动矢量是原较小数据块的加权平均值: v - m , n ( filt ) = Σ i = 2 ( m - 1 ) + 1 2 ( m - 1 ) + 2 Σ j = 2 ( n - 1 ) + 1 2 ( n - 1 ) + 2 C i , j - v i , j - Σ i = 2 ( m - 1 ) + 1 2 ( m - 1 ) + 2 Σ j = 2 ( n - 1 ) + 1 2 ( n - 1 ) + 2 ( 27 )
装置43被提供用于针对帧的每一对,从滤波的运动矢量场计算一个特征矢量、包括两个被考虑帧之间的摄像机运动信息,现在详细说明该装置43执行的一个估计算法。
首先从方程式(26)计算置信掩码。随后开始并行化(parallelisation)处理。在产生的矢量的价值函数的计算中每次考虑一个运动矢量,由其置信掩码加权。随后下面方程式实现给出一个其中的全部矢量是平行的剩余(residual)场的Rx、Ry、Rz、Rzoom和焦距f的最佳值的计算: R - estim = [ R ^ x , R ^ y , R ^ z , R zoom , f ^ ] = arg min { P ( R ^ ) } ( 28 ) whereP ( R - ) = Σ i Σ j | | v - i , j residual ( R - ) | | 2 · θ i , j · C i , j ( 29 ) 具有 v - i , j residual ( R → ) = v - i , j - [ u y rot ( R → ) u x rot ( R → ) ] ( 30 ) and θ i , j = angle ( v - i , j residual , v - residual ) , v - residual = Σ i Σ j v - i , j residual . C i , j Σ i Σ j C i , j ( 31 ) 在大视野中的非移动运动的情况下,该剩余矢量将不是平行的,但是应该理想地接近于零。该见解导致由给出的方程式(32)计算β比例: β = | | Σ v → i , j residual ( R → estim ) | | Σ | | v → i , j residual ( R → estim ) | | ( 32 ) 其指示该剩余场的平行性。该是剩余流矢量的生成幅值对剩余流矢量的幅值和的比例:β=1意味着该剩余矢量被完全校准,而β=0意味着该剩余矢量彼此相互随机取向。而且,为了检测摄像机运动中重要跟踪分量的出现,通过计算下面由方程式(33)给出的比例α,该剩余流场的强度与原始流场的强度比较: a = mean ( * ) ( | | v → i , j residual ( R → estim ) | | ) mean ( * ) ( | | v → i , j | | ) ( 33 )
该"mean(*)"算子表示根据该置信掩码的参数的加权平均值。这两个比例使得能够如下所示地检测跟踪分量的存在以及总量:
A)如果β~0,没有跟踪运动;
B)如果β~1:
如果α~0,可忽略的跟踪运动;
如果α~1,重要的跟踪运动; T ^ x = - V x residual T ^ y = - V y residual 这些比例还给出结果相关的一个概念。
必须指出,平移运动的估算分量,即
Figure A9980612900133
x和 y不表示该第一模式的确切成份,而是表示在f.Tx/z和f.Ty/z的整个图像之内的一个加权平均值,因为不知道每一数据块的深度。但是,它们是该成像中的明显的跟踪运动的良好的表示。
对于该平行性价值函数来说,已经选择了下倾单形最小化算法,因为其不包含导数的计算,由于该原始场是该价值函数的一部分,所以该导数的计算将是不可能的。下倾单形法是仅需要函数求值的一个多维的方法,不象许多其他方法,例如基于全梯度方法那样。该下倾单形法没有变形。在这里它是一个本性点,因为没有该价值函数的解析形式。一个单形是几何图形,包括在N维中的N+1点(即顶点)以及所有它们的互连线段、多角形面等…:两维中单形是一个三角形,三维中单形是一个四面体等等。通常,仅考虑非退化的单形(即有限的N维体积的封闭体)。如果一个单形的任何点被取作原点,则其它N个点定义跨该N矢量空间的矢量方向。在一维最小化中,有可能标界一个最小值(两分法),以保证隔离成功。
即便在多维空间中没有模拟程序,该下倾单形法也是一个最适合这概念的一个单形法。该算法以独立变量的N个矢量开始,作为首先尝试点,然后假定构成其自己的方式下倾通过该空间,直到其相遇将要封闭的至少一个局部的最小值为止。这种方法必须不只是以单一点开始,而是以定义一个初始的单形的N+1个点开始。随后在每一步骤构造一个新的单形。如图6所示(左部分),主要步骤把函数是最大值(“最高最”)的该单形的脊点(tile point)移动通过该单形的对面而到一个较低点(反射)。这些种类的步骤节约了该单形的体积。对于扩展和收缩的过程使该单形法能够加速沿着一个改进的成功轨迹并且在最佳条件上到最终位置(home)。当获得要求的目标时,实际是当函数值中的减小量是小于某些容差ε的部分时,停止该算法。
使用的整个算法在图7的流程图给出。在初始化(开始操作)和借助函数值顺序排列(步骤62)之后,执行测试(f(.)<f(.)?)63、64、65、66、67、68:
1)f(R)<f(W’)?
a)如果“是”(Y),f(R)<f(B’)?
ⅰ)如果“是”(Y),f(E)<f(B’)?
-如果“是”(Y),由E替换W(输出71)
-如果“否”(N),由R替换W(输出72)
ⅱ)如果“否”(N),由R替换W;
b)如果“否”(N),f(R)<f(W)?
ⅰ)如果“是”(Y),由R替换W;
ⅱ)如果“否”(N),由表达式(34)定义C(计算C):
C=arg min[f(x)]pour×ε{C(+),C(-)}    (34)
并且执行进一步的测试:
2)f(C)<f(W)?
(a)如果“是”(Y),由C替换W(输出73)
(b)如果“否”(N),构成多倍收缩(输出74);
3)在输出71到74之后,f(W)-f(B)<ε?
-如果“否”(N),反馈连接朝向步骤62;
-如果“是”(Y),结束该算法(停止)。
利用下面的符号表示:
-f=RN→R,最小化函数(这里是一个平行性函数);
-W,C(-),C(+),R,E,N维点(C(-)=负收缩,C(+)=正收缩,R=反射,E=扩展,如图6中右边部分示出)
-W’,B,B’f的次最差、最佳、和次最佳值的前提(则f(B)<f(B’)<…<f(W’)<f(W));
有可能终点的计算由下式给出:
Figure A9980612900151
由于对于最佳性能的影响难于控制,所以该系数被设置为最简单的值,即:γ=2,β(+)(-)=0,5。

Claims (5)

1.一种摄像机运动参数估计方法,提供用于考虑被细分为数据块的连续图像帧的一个序列并且处理该序列,其中所说的处理操作包括对应的连续步骤:
-从所说的图像序列提取对应于两个连续的帧之间的运动的矢量,所说的运动矢量形成该摄像机速度场;
-预处理该摄像机速度场,以便降低数据量和所说提取的运动矢量的多相性;
-从所说的预处理场估计用于每一个帧对的在两个考虑帧之间的摄像机特征;
-根据所说的估计实施一个长项运动分析,以便获得对应于该估算摄像机运动参数的运动描述符。
2.根据权利要求1的方法,为了降低矢量的总量,其中所说的预处理步骤包括子步骤:
-下采样所说的运动矢量的原始速度场;
-同时根据全局信息抑制不一致的矢量。
3.根据权利要求2的方法,其中所说的预处理子步骤包括:根据四个原始数据块的运动矢量以及一个相关的置信度对表示一个新数据块的运动的一个矢量的计算操作。
4.根据权利要求3的方法,其中所说的置信度是通过从每一矢量到其邻近值的距离给出的。
5.根据权利要求4的方法,其中所说的邻近值由例如平均值或中值的一个值 v(m)表示,把置信掩码导引到具有以下类型表示的值Cij:Cij=e-‖ vi,j- v(m)‖2其中(i,j)定义该原始数据块,并且 vi,j定义其原始运动矢量。
CNB998061298A 1999-01-12 1999-12-24 摄像机运动参数估计方法 Expired - Fee Related CN1224264C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99400065 1999-01-12
EP99400065.1 1999-01-12

Publications (2)

Publication Number Publication Date
CN1300503A true CN1300503A (zh) 2001-06-20
CN1224264C CN1224264C (zh) 2005-10-19

Family

ID=8241853

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998061298A Expired - Fee Related CN1224264C (zh) 1999-01-12 1999-12-24 摄像机运动参数估计方法

Country Status (6)

Country Link
US (1) US6349114B1 (zh)
EP (1) EP1062815A1 (zh)
JP (1) JP2002535894A (zh)
KR (1) KR20010041862A (zh)
CN (1) CN1224264C (zh)
WO (1) WO2000042771A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430436A (zh) * 2015-05-20 2017-12-01 谷歌公司 全景手势的自动检测
CN109410254A (zh) * 2018-11-05 2019-03-01 清华大学深圳研究生院 一种基于目标和相机运动建模的目标跟踪方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE230140T1 (de) * 1998-09-07 2003-01-15 Thomson Multimedia Sa Bewegungsschätzungsverfahren zur reduzierung der übertragungskosten von bewegungsvektoren
GB9920256D0 (en) * 1999-08-26 1999-10-27 Wave Limited M Motion estimation and compensation in video compression
US6477326B1 (en) 2000-08-31 2002-11-05 Recon/Optical, Inc. Dual band framing reconnaissance camera
US6785427B1 (en) * 2000-09-20 2004-08-31 Arcsoft, Inc. Image matching using resolution pyramids with geometric constraints
US20020196854A1 (en) * 2001-06-15 2002-12-26 Jongil Kim Fast video encoder using adaptive hierarchical video processing in a down-sampled domain
KR100453222B1 (ko) 2001-12-17 2004-10-15 한국전자통신연구원 카메라 움직임 판별 장치 및 방법
KR20030049642A (ko) 2001-12-17 2003-06-25 한국전자통신연구원 스테레오스카픽 실사 동영상 정보와 컴퓨터 그래픽 영상합성을 위한 카메라 정보 부호화/복호화 방법
ATE364299T1 (de) * 2002-07-05 2007-06-15 Agent Video Intelligence Ltd Verfahren und system zur effektiven ereigniserkennung in einer grossen anzahl simultaner bildfolgen
US7346226B2 (en) * 2003-12-16 2008-03-18 Genesis Microchip Inc. Method and apparatus for MPEG artifacts reduction
US7457438B2 (en) * 2003-12-23 2008-11-25 Genesis Microchip Inc. Robust camera pan vector estimation using iterative center of mass
US7346109B2 (en) * 2003-12-23 2008-03-18 Genesis Microchip Inc. Motion vector computation for video sequences
US7480334B2 (en) * 2003-12-23 2009-01-20 Genesis Microchip Inc. Temporal motion vector filtering
US7499494B2 (en) * 2003-12-23 2009-03-03 Genesis Microchip Inc. Vector selection decision for pixel interpolation
US9826159B2 (en) 2004-03-25 2017-11-21 Clear Imaging Research, Llc Method and apparatus for implementing a digital graduated filter for an imaging apparatus
US8331723B2 (en) 2004-03-25 2012-12-11 Ozluturk Fatih M Method and apparatus to correct digital image blur due to motion of subject or imaging device
US10721405B2 (en) 2004-03-25 2020-07-21 Clear Imaging Research, Llc Method and apparatus for implementing a digital graduated filter for an imaging apparatus
WO2006000478A1 (de) 2004-06-23 2006-01-05 Benq Mobile Gmbh & Co. Ohg Vorrichtung und verfahren zum ermitteln einer bewegung von aufnahmebildern
JP4935355B2 (ja) 2004-08-10 2012-05-23 ソニー株式会社 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
US8422853B2 (en) 2004-08-10 2013-04-16 Sony Corporation Information signal processing method and apparatus, and computer program product
US20060215036A1 (en) * 2005-03-25 2006-09-28 Multivision Intelligent Surveillance (Hk) Ltd. Method and apparatus for video stabilization
JP2007064836A (ja) * 2005-08-31 2007-03-15 Kyushu Institute Of Technology カメラキャリブレーションの自動化アルゴリズム
KR100814715B1 (ko) * 2006-06-26 2008-03-18 한국산업기술대학교산학협력단 동영상 부호화기, 복호화기 및 그 방법
US8154604B2 (en) * 2006-08-11 2012-04-10 Mavs Lab. Inc. Camera motion parameter retrieving system and solving process
KR100793838B1 (ko) * 2006-09-27 2008-01-11 한국전자통신연구원 카메라 모션 추출장치, 이를 이용한 해상장면의 증강현실 제공 시스템 및 방법
KR101266362B1 (ko) * 2009-10-22 2013-05-23 한국전자통신연구원 카메라 트래킹 시스템, 트래킹 방법 및 이를 이용한 실사영상 합성 시스템
WO2012174090A2 (en) * 2011-06-13 2012-12-20 University Of Florida Research Foundation, Inc. Systems and methods for estimating the structure and motion of an object
EP3076656B1 (en) * 2015-04-02 2017-03-08 Axis AB Method and system for image stabilization

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2677312B2 (ja) * 1991-03-11 1997-11-17 工業技術院長 カメラワーク検出方法
US5259040A (en) * 1991-10-04 1993-11-02 David Sarnoff Research Center, Inc. Method for determining sensor motion and scene structure and image processing system therefor
DE4342305A1 (de) * 1993-12-11 1995-06-29 Thomson Brandt Gmbh Verfahren zur hierarchischen Bewegungsschätzung in einem Fernsehsignal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430436A (zh) * 2015-05-20 2017-12-01 谷歌公司 全景手势的自动检测
CN107430436B (zh) * 2015-05-20 2020-06-16 谷歌有限责任公司 全景手势的自动检测
CN109410254A (zh) * 2018-11-05 2019-03-01 清华大学深圳研究生院 一种基于目标和相机运动建模的目标跟踪方法

Also Published As

Publication number Publication date
US6349114B1 (en) 2002-02-19
CN1224264C (zh) 2005-10-19
WO2000042771A1 (en) 2000-07-20
EP1062815A1 (en) 2000-12-27
KR20010041862A (ko) 2001-05-25
JP2002535894A (ja) 2002-10-22

Similar Documents

Publication Publication Date Title
CN1300503A (zh) 摄像机运动参数估计方法
CN110570429B (zh) 一种基于三维点云的轻量级实时语义分割方法
CN110009675B (zh) 生成视差图的方法、装置、介质及设备
CN112598729B (zh) 融合激光与相机的目标物体识别与定位方法
CN111738055B (zh) 多类别文本检测***和基于该***的票据表单检测方法
CN112651262A (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN114359130A (zh) 一种基于无人机影像的道路裂缝检测方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN111818274A (zh) 基于三维光场技术的光学无人机监测方法及***
Liu et al. Building footprint extraction from unmanned aerial vehicle images via PRU-Net: Application to change detection
Bayraktar et al. Fast re-OBJ: Real-time object re-identification in rigid scenes
CN1575479A (zh) 用于运动估算的单元和方法以及设有这种运动估算单元的图像处理设备
CN116772820A (zh) 一种基于slam和语义分割的局部细化建图***及方法
CN110516527B (zh) 一种基于实例分割的视觉slam回环检测改进方法
CN116994164A (zh) 一种多模态航拍图像融合与目标检测联合学习方法
CN103236053B (zh) 一种移动平台下运动目标检测的mof方法
Li et al. Study on semantic image segmentation based on convolutional neural network
CN107730535A (zh) 一种可见光红外级联视频跟踪方法
CN103778398B (zh) 图像模糊度估计方法
Xu et al. Multimodal 3D Facade Reconstruction Using 3D LiDAR and Images
Su et al. Convolutional neural-based algorithm for port occupancy status detection of optical distribution frames
Hachisuka et al. Harbingers of NeRF-to-BIM: a case study of semantic segmentation on building structure with neural radiance fields
Liu et al. Joint Optimized Point Cloud Compression for 3d Object Detection
Peng et al. Remote sensing traffic scene retrieval based on learning control algorithm for robot multimodal sensing information fusion and human-machine interaction and collaboration
Gurram Monocular depth estimation for autonomous driving

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee