CN1300503A

CN1300503A - 摄像机运动参数估计方法

Info

Publication number: CN1300503A
Application number: CN99806129A
Authority: CN
Inventors: B·莫赖
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-01-12
Filing date: 1999-12-24
Publication date: 2001-06-20
Anticipated expiration: 2019-12-24
Also published as: US6349114B1; CN1224264C; WO2000042771A1; EP1062815A1; KR20010041862A; JP2002535894A

Abstract

本发明涉及摄像机运动参数的估计方法。被用于细分为数据块的连续图像帧的序列,并且包括下面步骤:从所说的图像序列提取对应于两个连续的帧之间的运动的矢量,所说的运动矢量形成该摄像机速度场,预处理如此获得的该摄像机速度场,以便降低数据量和该提取的运动矢量的多相性,从所说的预处理场估计用于每一个帧对的在两个考虑帧之间的摄像机特征,并且根据所说的估计实施一个长项运动分析,以便获得对应于该估算摄像机运动参数的运动描述符。应用于MIPEG－7之内描述符的实施方案。

Description

摄像机运动参数估计方法

本发明涉及摄像机运动参数估计方法，所说的参数要成为MPEG-7中的用于作为图像索引框中的描述符。

过去的十年已经看到了可由许多人访问的大信息数据库的发展。这些数据库包括例如文本、图像、声音等几个介质类型。这种信息的表征、显示、索引、存储、传输及检索构成了该技术的有用的重要内容(issue)。不管能够考虑进行图像索引的分集的等级如何，每一信息分集都能够根据若干判据，例如根据语义信息内容、场景属性、摄像机运动参数等被随后索引。称为“多媒体内容描述接口”并且旨在根据信息内容的检索问题的MPEG-7将把描述这种多媒体内容的类属方法标准化，其使用与多媒体资料相关的描述符和描述方案，以便根据例如文本、色彩、组构、运动和语义内容的各种类型而实现快速和有效率的检索。该标准将实现能够被储存(联机或脱机)或成为数据串流(例如在互联网络中的广播或图像)的应用，并且能够以实时和非实时环境操作。

图1示出并且提供用于处理任何多媒体内容的一个可能的MPEG-7处理链路的方框示意图包括：一个在编码一侧的对所说的内容进行操作的特征提取子部件11；建立基准子部件12，包括用于得出MPEG-7定义语言的模块121和定义MPEG-7描述符及描述方案的模块122；标准描述子部件13；以及编码子部件14。MPEG-7标准的范围是子部件12，并且本发明定位在子部件12和13中。图1还示出解码一侧，包括解码子部件16(刚好在编码数据的传输之后，即储存编码数据的一个读操作)，和一个搜索引擎17，应答用户控制的功能进行操作。

在MPEG-7结构中，必须生成用于许多主题的有效工具，像用于场景分析即运动分析，尤其用于摄像机运动特征提取的方法。针对运动表示，能够建议两个解决方案作为可能的用于总的运动描述符提取的基础：透视模式，以及数据块匹配方法。前者很好地适合于摄像机全局运动，但是不能表示三维的变换，致使不得不分别地描述每次全局运动的可能的三维变换。

数据块匹配运动补偿被用作预测编码处理的一部分，该预测编码处理广泛地使用在图像传输中，用于降低编码一个图像程序所需要的信息量。的确，从一帧到下一帧的一个图像的仅一小部分的变化，实现从所说的在先帧的直接预测。更确切地说，每一帧(i+1)被分成固定数目的数据块(通常正方形)。对于每一数据块(通常8×8像素)来说，在一个预定的区域上执行与一个在先基准帧(i)中的最相似的数据块的搜索。搜索准则通常是，最佳匹配数据块的搜索给出最小的预测误差，通常计算为平均绝对值差(其比例如均方差更容易计算)。对于以(x,y)定位的每一数据块(在本例中是8×8像素)，则根据关系(1)从图像(i)计算预测的图像(i+1)：

B(i+1)[x,y]=B(i)[x-dx,y-dy] (1)

利用(dx,dy)= v=运动矢量，从图像(i)中的B(i)导引到图像(i+1)中的B(i+1)。

当从数据块匹配运动矢量开始估算摄像机运动时，主要的问题是，矢量的估计器的效率仅是从一个编码准则的角度测量的。运动矢量未必是对应于场景的真实运动。例如，在场景中的均匀组构的一个区域中，估计器能够选择该组构内部的任何数据块，即便该运动矢量不表示该全局运动。但是，虽然数据块匹配表示一个不总是一致的运动，但是该方法将是最好的，因为有可能变换必须每次区别地描述，并且该透视模式不能够做这件事。从如此确定的运动矢量出发，随后定义某些摄像机参数。在描述相应的定义方法之前，首先提出使用在当前描述中的摄像机模式。

考虑移动通过一个静态环境的单眼摄像机。如能够在图2中看到，假设O是摄像机的光学中心，OXYZ是相对于这台摄像机固定的一个外部坐标系，OZ是光轴。假设Tx,Ty、Tz是OXYZ相对于场景的平移速度，而Rx、Ry、Rz是其角速度。如果(X,Y,Z)是点P在三维的场景中的瞬时坐标，则P的速度分量将是：

X=-T_x-R_y.z+R_z.Y (2)

Y=-T_y-R_z.X+R_x.Z (3)

Z=-T_z-R_x.Y+R_y.X (4)

P的图像位置，即p通过关系(5)在图像平面中给出：

(其中f是摄像机的焦距)，并且以一个引入速度移动通过该图像平面

(u_x,u_y)=( x, y) (6)在计算和替换之后，获得下面关系：

u_{x} = f . \frac{\bar{X}}{Z} - f . \frac{X . \bar{Z}}{Z^{2}}

u_{x} = \frac{f}{Z} (- T_{x} - R_{y} . Z + R_{z} . Y) - \frac{f . X}{Z^{2}} (- T_{z} - R_{x} . Y + R_{y} . X) (8)

和

u_{y} = f . \frac{\bar{Y}}{Z} - f . \frac{Y . \bar{Z}}{Z^{2}}

u_{y} = \frac{f}{Z} (- T_{y} - R_{z} . X + R_{x} . Z) - \frac{f . Y}{Z^{2}} (- T_{z} - R_{x} . Y + R_{y} . X) (10)

还可以被写入成：

u_{x} (x, y) = - \frac{f}{Z} . (T_{x} - x . T_{z}) + \frac{x . y}{f} . R_{x} - f (1 + \frac{x^{2}}{f^{2}}) R_{y} + y . R_{z} (11)

u_{y} (x, y) = - \frac{f}{Z} . (T_{y} - y . T_{z}) - \frac{x . y}{f} . R_{y} + f (1 + \frac{y^{2}}{f^{2}}) R_{x} - x . R_{z} (12)

而且，为了在这台摄像机模式中包括变焦距，假定一个变焦能够通过单一角度域中的放大率近似。如果在该场景中的最近的目标的距离比用于产生该变焦的焦距的变化大，则这样一个假设是成立的，通常是这种情况。

图3考虑了一个纯变焦。给出在时间t在的图像平面中定位的一个点(x,y)和在下一个时间t’的定位(x’,y’)，由变焦沿x引入的图像速度ux=x’-x能够被表示为如下所示的Rzoom的一个函数(Rzoom由图3显示的关系(θ’-θ)/θ定义)。

可以确定：tan(θ’)=x’/f和tan(θ)=x/f，其导致

u_x = x′- x=[tan(θ′)-tan(θ)].f (13)tan(θ’)的表示式可以写成：

\tan (θ^{'}) = \tan [(θ^{'} - θ) + θ] = \frac{\tan (θ^{'} - θ) + \tan (θ)}{1 - \tan (θ) . \tan (θ^{'} - θ)} (14)

随后假设角度差(θ’-θ)是小值，即tan(θ’-θ)可以由(θ’-θ)近似，并且(θ’-θ).tanθ＜＜1，则获得：

u_{x} = x^{'} - x = f . [\frac{(θ^{'} - θ) + \tan (θ)}{1 - (θ^{'} - θ) . \tan θ} - \tan θ] (15)

u_{x} = f . \frac{(θ^{'} - θ) . (1 + \tan^{2} (θ)}{1 - (θ^{'} - θ) . \tan θ} (16)

u_{x} = f . θ . R_{ZOOM} . \frac{1 + \tan^{2 (θ)}}{1 - (θ^{'} - θ) . \tan θ} (17)

其实际等于

u_{x} = x^{'} - x = f . θ . R_{zoom} . (1 + \tan^{2} θ) (18)

该结果能够被重新写成

u_{x} = f . \tan^{- 1} (\frac{x}{f}) . R_{zoom} . (1 + \frac{x^{2}}{f^{2}}) (19)

并且，类似地，u_y由下式给出：

u_{y} = f . \tan^{- 1} (\frac{y}{f}) . R_{zoom} . (1 + \frac{y^{2}}{f^{2}}) (20)

速度u=(u_x,u_y)对应于在图像平面中由单一变焦引入的运动。因此能逻辑地定义考虑了旋转、移动(沿着X和Y轴)和变焦全部因素的总模式。

总模式能够被写为表示转动和变焦运动的转动速度与表示X和Y移动的平移速度的一个和(即分别地跟踪和急变)。

利用：

方程式中仅平移项取决于目标距离Z。

M.V.Srinivasan和al.的文章“从图像序列估计摄像机运动参数的质量”(模式识别，卷30，第4期，1997年，593-605页)描述了使用摄像机方程式(21)到(23)从图像的一个序列提取摄像机运动参数的技术。更具体地说，在所说文章的部分3(595-597页)中解释了该技术的基本原理。通过在从原始的光学流场相减时寻找产生一个流场的Rx、Ry、Rz和Rzoom的最佳值、随后产生其中的全部矢量是平行矢量的一个剩余流场执行的该技术利用基于优势扇区的准则而使用一个对来自该剩余流矢量的平行性的漂移进行最小化的迭代法。

在迭代法的每一步骤，由于当前摄像机运动参数引起的光流被根据两个不同摄像机模式之一计算。第一模式假定，该视野(或焦距f)的角度大小是公知的：这意味着方程式(23)中的比例x/f和y/f可以针对图像中的每一点计算，所说的方程式随后实现该光流的精确计算。

第二模式假定不知道该摄像机的视野。在执行方程式(23)之前需要小场近似(x/f和y/f比1小)，这将导致方程式(24)和(25)：

u^rot _x□-f.R_y+y.R_z+x.R_zoom (24)

u^rot _y□-f.R_x-x.R_z+y.R_zoom (25)

当摄像机的视野大且已知时，考虑了全景拍摄或倾斜失真的第一模式似乎产生更准确的结果。遗憾的是通常不知道焦距，当视野被猜想是大视野时，将导致仅在图像的有限范围上使用第二模式。但是，因为第二模式不可能区别全景拍摄和跟踪，所以该模式不是一个满意的解决方案。

虽然水平和垂直的跟踪产生的流场中全部的矢量是真正平行的，但是利用摇摄全景和倾斜产生的流场不是这样，除非摄像机的视野是小视野，例如20°×20°(大视野导致源于焦面的平面的几何的速度场中的失真)。由变焦产生的流场也失真(远离中心，运动矢量不再是放射状地取向)。如果是大视野，则产生失真可用于把平移运动从摇摄全景和倾斜中唯一地区别开。

因此，本发明的一个目的是改进用于从运动矢量中估计摄像机运动特征的方案，通过建议一个摄像机运动参数估计方法，当在大视野时，即便在视野未知的情况下，每次在物理构成上有可能实现在跟踪和全景拍摄之间的区别以及不同地执行，但当小视野时不做这种区别。

为此目的，本发明涉及一种估计方法，提供用于考虑被细分为数据块的连续图像帧的一个序列并且处理该序列，其中所说的处理操作包括对应的连续步骤：

-从所说的图像序列提取对应于两个连续的帧之间的运动的矢量，所说的运动矢量形成该摄像机速度场；

-预处理该摄像机速度场，以便降低数据量和所说提取的运动矢量的多相性；

-从所说的预处理场估计用于每一个帧对的在两个考虑帧之间的摄像机特征；

-根据所说的估计实施一个长项运动分析，以便获得对应于该估算摄像机运动参数的运动描述符。

该主要构思是，在大多数情况下，如果大视野产生在速度场中的失真，则相同的失真应该还是可用的。换句话说，如果焦距(或视野，其是与图像规模标度因数相同的信息)被包括在使用上述第一模式的最小化处理中，当视野不太小时以及当实际上存在变焦、摇摄全景、倾斜或滚动分量之一时(表示真实情况的一个重要的部分；如果视野太小或如果仅存在一个跟踪运动的话，则该焦距估计将不再有意义)，该焦距应该被正确地估算。

将以实例的方式，参照附图描述本发明，其中：

图1是一个有可能的MPEG-7处理链的一个示意方框图；

图2示出与摄像机一起移动的一个摄像机外部的坐标系OXYZ，并且示出针对焦距f的在三维场景中的一个对应点P的视网膜的坐标(x,y)；

图3示出包括在摄像机模式中的一个变焦模式；

图4给出执行根据本发明的估计方法的一个完整摄像机运动分析***的总图；

图5示出使用在根据本发明的***中的滤波技术；

图6示出当执行下倾(downhill)单形法时的构造一个新的单形的方式；

图7示出一个流程图，说明用于该平行价值函数的向下单纯形算法。

实施根据本发明的估计方法的一个完整方案在图4中示出。可以指出，因为MPEG-7将是一个多媒体内容描述标准，所以来指定一个具体编码类型。因此，描述符格式的一个处理必须对所有的编码数据的类型(压缩或未压缩的)都有效。然而，由于从输入帧获得的大部分视频数据通常是MPEG格式(因此存在压缩)，直接地使用由MPEG运动补偿提供的运动矢量是有益的。如果该视频数据是以未压缩域得到的，则在一个运动矢量产生装置41中执行一个数据块匹配方法。

不管是那种情况，一旦已经读出或从图像序列(在两个连续帧之间)提取了运动矢量，则都提供一个下采样和滤波装置42。滤波该速度场的目标是降低该数据量和运动矢量的多相性。该操作之后是装置43中的摄像机特征的瞬时估计。该估计是根据预先描述的方法改进的，以便使用运动矢量并且在最小化处理中包括该焦距，并且实现用于每一对帧的一个特征向量。在整个所考虑的序列中的特征矢量组则最终由一个长期运动分析装置44接收，该装置44输出运动描述符，可用于在以内容为基础的检索组织结构中索引摄象机运动的序列，特别是按照MPEG-7图像索引结构索引该序列。

装置42中的预处理步骤要解决两个主要问题：运动矢量的多相性，首先是该图像的低频部分中的或在非常均匀组构场合中的运动矢量的多相性，以及该数据块的尺寸太小。根据全局信息，通过下采样该原始场并且同时抑制不一致的矢量，下采样和滤波处理被提供用于降低该矢量的总数。使用针对每一矢量计算出的一个置信掩码：根据每一运动矢量的置信等级在0和1之间的变化的判别标准，并且决定该矢量是否被考虑。置信掩码的一个实例可以被认为，针对任何理论的摄像机运动，是一个不能变化太多的运动矢量：具有接近值的相近矢量。因此能根据每一矢量到其邻近矢量的距离测量一个置信度，能够由例如其平均值表示，最好由中值表示(因为中值对大隔离误差敏感更小)。因此该置信掩码C_ij由方程式(26)定义：

C_i,j=e^-‖ v_i,j- v_median‖² (26)

图5示出滤波技术：滤波场(右侧)包括原始场(左侧)四倍分之一的数据块数目。根据四个原始数据块的运动矢量计算表示新数据块的运动的矢量，并且根据显示的邻近数据块计算其置信度。用于新的数据块的运动矢量是原较小数据块的加权平均值：

{\bar{v}}_{m, n} (filt) = \frac{Σ_{i = 2 (m - 1) + 1}^{2 (m - 1) + 2} Σ_{j = 2 (n - 1) + 1}^{2 (n - 1) + 2} C_{i, j} - \bar{v_{i, j}}}{Σ_{i = 2 (m - 1) + 1}^{2 (m - 1) + 2} Σ_{j = 2 (n - 1) + 1}^{2 (n - 1) + 2}} (27)

装置43被提供用于针对帧的每一对，从滤波的运动矢量场计算一个特征矢量、包括两个被考虑帧之间的摄像机运动信息，现在详细说明该装置43执行的一个估计算法。

首先从方程式(26)计算置信掩码。随后开始并行化(parallelisation)处理。在产生的矢量的价值函数的计算中每次考虑一个运动矢量，由其置信掩码加权。随后下面方程式实现给出一个其中的全部矢量是平行的剩余(residual)场的Rx、Ry、Rz、Rzoom和焦距f的最佳值的计算：

{\bar{R}}^{estim} = [{\hat{R}}_{x}, {\hat{R}}_{y}, {\hat{R}}_{z}, R_{zoom}, \hat{f}] = \arg \min {P (\hat{R})} (28)

whereP (\bar{R}) = \underset{i}{Σ} \underset{j}{Σ} {| | {\bar{v}}_{i, j}^{residual} (\bar{R}) | |}^{2} \cdot θ_{i, j} {\cdot C}_{i, j} (29)

具有

{\bar{v}}_{i, j}^{residual} (\overset{&RightArrow;}{R}) = {\bar{v}}_{i, j} - [\overset{u_{x}^{rot} (\overset{&RightArrow;}{R})}{u_{y}^{rot} (\overset{&RightArrow;}{R})}] (30)

and θ_{i, j} = angle ({\bar{v}}_{i, j}^{residual}, {\bar{v}}^{residual}),

{\bar{v}}^{residual} = \frac{\underset{i}{Σ} \underset{j}{Σ} {\bar{v}}_{i, j}^{residual} . C_{i, j}}{\underset{i}{Σ} \underset{j}{Σ} C_{i, j}} (31)

在大视野中的非移动运动的情况下，该剩余矢量将不是平行的，但是应该理想地接近于零。该见解导致由给出的方程式(32)计算β比例：

β = \frac{| | Σ^{{\overset{&RightArrow;}{v}}_{i, j}^{residual}} ({\overset{&RightArrow;}{R}}^{estim}) | |}{Σ | | {\overset{&RightArrow;}{v}}_{i, j}^{residual} ({\overset{&RightArrow;}{R}}^{estim}) | |} (32)

其指示该剩余场的平行性。该是剩余流矢量的生成幅值对剩余流矢量的幅值和的比例：β=1意味着该剩余矢量被完全校准，而β=0意味着该剩余矢量彼此相互随机取向。而且，为了检测摄像机运动中重要跟踪分量的出现，通过计算下面由方程式(33)给出的比例α，该剩余流场的强度与原始流场的强度比较：

a = \frac{{mean}^{(*)} (| | {\overset{&RightArrow;}{v}}_{i, j}^{residual} ({\overset{&RightArrow;}{R}}^{estim}) | |)}{{mean}^{(*) (| | {\overset{&RightArrow;}{v}}_{i, j} | |)}} (33)

该"mean(*)"算子表示根据该置信掩码的参数的加权平均值。这两个比例使得能够如下所示地检测跟踪分量的存在以及总量：

A)如果β～0，没有跟踪运动；

B)如果β～1：

如果α～0，可忽略的跟踪运动；

如果α～1，重要的跟踪运动；

{\hat{T}}_{x} = - V_{x}^{residual}

{\hat{T}}_{y} = - V_{y}^{residual}

这些比例还给出结果相关的一个概念。

必须指出，平移运动的估算分量，即

x和 y不表示该第一模式的确切成份，而是表示在f.Tx/z和f.Ty/z的整个图像之内的一个加权平均值，因为不知道每一数据块的深度。但是，它们是该成像中的明显的跟踪运动的良好的表示。

对于该平行性价值函数来说，已经选择了下倾单形最小化算法，因为其不包含导数的计算，由于该原始场是该价值函数的一部分，所以该导数的计算将是不可能的。下倾单形法是仅需要函数求值的一个多维的方法，不象许多其他方法，例如基于全梯度方法那样。该下倾单形法没有变形。在这里它是一个本性点，因为没有该价值函数的解析形式。一个单形是几何图形，包括在N维中的N+1点(即顶点)以及所有它们的互连线段、多角形面等…：两维中单形是一个三角形，三维中单形是一个四面体等等。通常，仅考虑非退化的单形(即有限的N维体积的封闭体)。如果一个单形的任何点被取作原点，则其它N个点定义跨该N矢量空间的矢量方向。在一维最小化中，有可能标界一个最小值(两分法)，以保证隔离成功。

即便在多维空间中没有模拟程序，该下倾单形法也是一个最适合这概念的一个单形法。该算法以独立变量的N个矢量开始，作为首先尝试点，然后假定构成其自己的方式下倾通过该空间，直到其相遇将要封闭的至少一个局部的最小值为止。这种方法必须不只是以单一点开始，而是以定义一个初始的单形的N+1个点开始。随后在每一步骤构造一个新的单形。如图6所示(左部分)，主要步骤把函数是最大值(“最高最”)的该单形的脊点(tile point)移动通过该单形的对面而到一个较低点(反射)。这些种类的步骤节约了该单形的体积。对于扩展和收缩的过程使该单形法能够加速沿着一个改进的成功轨迹并且在最佳条件上到最终位置(home)。当获得要求的目标时，实际是当函数值中的减小量是小于某些容差ε的部分时，停止该算法。

使用的整个算法在图7的流程图给出。在初始化(开始操作)和借助函数值顺序排列(步骤62)之后，执行测试(f(.)＜f(.)？)63、64、65、66、67、68：

1)f(R)＜f(W’)？

a)如果“是”(Y),f(R)＜f(B’)？

ⅰ)如果“是”(Y),f(E)＜f(B’)？

-如果“是”(Y)，由E替换W(输出71)

-如果“否”(N)，由R替换W(输出72)

ⅱ)如果“否”(N)，由R替换W；

b)如果“否”(N),f(R)＜f(W)？

ⅰ)如果“是”(Y)，由R替换W；

ⅱ)如果“否”(N)，由表达式(34)定义C(计算C)：

C=arg min[f(x)]pour×ε{C⁽⁺⁾,C^(-)} (34)

并且执行进一步的测试：

2)f(C)＜f(W)？

(a)如果“是”(Y)，由C替换W(输出73)

(b)如果“否”(N)，构成多倍收缩(输出74)；

3)在输出71到74之后，f(W)-f(B)＜ε？

-如果“否”(N)，反馈连接朝向步骤62；

-如果“是”(Y)，结束该算法(停止)。

利用下面的符号表示：

-f=R^N→R，最小化函数(这里是一个平行性函数)；

-W,C^(-),C⁽⁺⁾,R,E,N维点(C^(-)=负收缩，C⁽⁺⁾=正收缩，R=反射，E=扩展，如图6中右边部分示出)

-W’,B,B’f的次最差、最佳、和次最佳值的前提(则f(B)＜f(B’)＜…＜f(W’)＜f(W))；

有可能终点的计算由下式给出：

由于对于最佳性能的影响难于控制，所以该系数被设置为最简单的值，即：γ=2,β⁽⁺⁾=β^(-)=0,5。

Claims

1．一种摄像机运动参数估计方法，提供用于考虑被细分为数据块的连续图像帧的一个序列并且处理该序列，其中所说的处理操作包括对应的连续步骤：

2．根据权利要求1的方法，为了降低矢量的总量，其中所说的预处理步骤包括子步骤：

-下采样所说的运动矢量的原始速度场；

-同时根据全局信息抑制不一致的矢量。

3．根据权利要求2的方法，其中所说的预处理子步骤包括：根据四个原始数据块的运动矢量以及一个相关的置信度对表示一个新数据块的运动的一个矢量的计算操作。

4．根据权利要求3的方法，其中所说的置信度是通过从每一矢量到其邻近值的距离给出的。

5．根据权利要求4的方法，其中所说的邻近值由例如平均值或中值的一个值 v(m)表示，把置信掩码导引到具有以下类型表示的值C_ij：C_ij=e^-‖ v_i,j- v(m)‖²其中(i,j)定义该原始数据块，并且 v_i,j定义其原始运动矢量。