CN1293782A

CN1293782A - 视频序列描述符和使用该描述符的影像检索***

Info

Publication number: CN1293782A
Application number: CN00800099A
Authority: CN
Inventors: B·莫赖
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-02-01
Filing date: 2000-01-28
Publication date: 2001-05-02
Also published as: KR20010042310A; WO2000046695A1; EP1068576A1; JP2002536746A; US7010036B1

Abstract

本发明涉及一种描述符,用于从编制视频索引的角度,表示视频场景中任意帧序列内摄影机或者任意种类的观察器或者观察装置的运动情况。这些运动是以下基本操作中的至少一种或者几种:固定不动、左右摆动(水平转动)、跟踪(水平横向运动)、俯仰(垂直转动)、升降(垂直横向运动)、推拉镜头(改变焦距)、前后移动(沿着光轴平移)和滚动(绕光轴转动),或者这些操作中至少两种的任意组合。其中所述运动类型中的每一个类型,固定不动除外,都被进一步分成两个分量,它们代表两个不同的方向,并用直方图的方式表示,直方图中的值对应于预先定义的位移大小。本发明还涉及一种影像检索***,其中编制视频索引的装置采用所述描述符。

Description

视频序列描述符和使用该描述符的影像检索***

发明领域

本发明涉及一种描述符，用于从编制视频索引的角度表示一个视频场景里任意帧序列中摄影机或任意种类的观察器或者观察装置的运动，所述运动是以下基本操作中的至少一种或者几种：固定不动、左右摆动(水平转动)、跟踪(水平横向运动，在电影语言里也叫做行进(travelling))、俯仰(垂直转动)、升降(booming)(垂直横向运动)、推拉镜头(改变焦距)、前后移动(沿着光轴平移)和滚动(绕光轴转动)，或者这些操作中至少两种的任意组合。本发明可以广泛地用于由未来的MPEG-7标准瞄准的应用。

发明背景

影像和视频信息的存档在几个应用领域中，比方说在电视、道路交通、遥感、气象学、医学图像等等领域中，都是非常重要的任务。然而，识别跟给定查询有关的信息，或者高效地浏览大量视频文件，仍然是非常困难的。最经常地用于数据库的方法包括为储存的每一个视频分配关键词，在这些词的基础之上进行检索。

MPEG已经制定了三个标准：用于储存视听序列的MPEG-1，用于视听序列广播的MPEG-2和用于基于对象的交互式多媒体应用的MPEG-4。未来的标准，MPEG-7，将通过规定一个标准的描述符集合为视听信息检索提供一种解决方案，这个描述符集合能够用于描述各种类型的多媒体信息。MPEG-7还要为描述符和它们之间的相互关系，将定义其它描述符和结构(描述方案，也就是表示场景中包含的信息的方法)的方式标准化。这种描述将会跟内容本身相关，从而能够快速高效地搜索用户感兴趣的材料(静止画面、图形、3D模型、音频、语音、视频……)。

发明简述

本发明的目的是提出一种解决方案，用于表示视频场景中任意帧序列内摄影机(或者任意种类的观察器或者观察装置)的运动。

为了这一目的，本发明涉及到了一种描述符，就象在本说明的引言部分所说明的一样，它的特征在于每一种运动类型，除了固定不动以外，进一步地划分为两个分量，这两个分量代表两个不同的方向，并且，通过直方图的方式来表示，直方图中的值对应于预先定义的位移大小。

虽然效率还依赖于数据库***所采用的搜索方法，但是这一描述符的效率仍然是不容置疑的，因为每一个运动分量(所有可能的运动参数以及有关的速度，这些运动速度的精度最好是每帧半个像素，这样对于所有可能的应用看起来都足够了)都是独立而且精确地描述的。它的简单易懂使得大量可能的查询能够实现参数化。该描述符的应用范围非常广，因为摄影机的运动是所有基于视频内容的应用的一个关键特征(查询-检索***，还有视频监视、视频编辑……)。此外，虽然这里提出的描述符并不是真正地针对用数据量来描述的可量测性的，但是，这种描述符提供了用于分等级方案内，从而允许在大范围的时间尺度内表示摄影机运动状态的可能性。

附图简述

下面将通过实例参考附图来介绍本发明，在这些附图中：

图1～3说明基本的摄影机操作；

图4给出了完整摄影机运动分析***的一个总图，该***用于实现摄影机特征瞬间估计的一种估计方法；

图5是一个透视投影图，说明随摄影机和演出移动的摄影机外部坐标***OXYZ，并说明了对于焦距f，对应于三维场景中点P的视网膜坐标(x，y)和不同的摄影机运动参数；

图6说明了摄影机模型中的推拉镜头模型；

图7给出了用于图4的一种过滤技术；

图8说明应用本发明的描述符进行分类的基础上的一种影像检索***。

发明详述

从编制视频索引的角度来看，摄影机的操作非常重要。由于物体运动和整体运动是使静止图像和视频之间存在差别的关键特征，因此，基于视频内容的所有索引编制***都应当包括一种方法，用来有效而广义地表示运动。在以各种程度涉及摄影机运动的情况中，很清楚，摄影机是静止不动的那部分视频和摄影机在行进或者左右摆动的那部分视频在时空内容上是不同的。跟所有其它鉴别特征一样，如果通过考虑进摄影机的运动可能是一个问题的任意类型的视频和任意类型的应用这样做是可能的，在未来的MPEG-7框架中就必须对这一整体运动进行描述和表示。在视频文档中，增加整体运动的一项描述，会让用户，不管是非专家还是专业人员，能够考虑进摄影机的运动状态进行查询。这些查询，跟其它特征描述一起，应当能够根据跟摄影机运动直接或者语义上相关的信息允许检索视频镜头。

正规的摄影机操作包括大家都知道的一般性地定义的八种基本操作(见图1、2和3)，就象前面介绍过的一样，它们是固定不动、左右摆动、跟踪、俯仰、升降、推拉镜头、前后移动和滚动，以及其中至少两种操作的各种可能组合。固定不动的操作非常普通，不需要进一步介绍。左右摆动和俯仰经常使用，特别是当摄影机中心是固定不动(例如在三角架上)的时候，这种操作能够跟踪物体或者观看很大的场面(例如风景或者摩天楼)。推拉镜头常常用于将注意力集中在场景的某一部分。跟踪和前后移动在多数时候都是用于跟随移动的物体(例如行进)。滚动是例如飞机特技系列镜头的结果。所有7种摄影机运动操作(固定不动是很直观的)都会导致不同的影像点速度，它们可以被自动地模拟并提取出来。

考虑到这些操作，一个一般的摄影机运动描述符应当能够描述“摄影机运动”的特征，也就是说，能够独立地表示所有这些运动类型，以便处理它们的所有组合而不会有任何限制。这里描述的方案跟这一方法一致。每一种运动类型，除了固定不动以外，都可以进一步分成代表不同方向的两个分量。的确，如图1～3所示，左右摆动和跟踪既可以是朝左的又可以是朝右的，俯仰和升降既可以是向上的又可以是向下的，推拉镜头既可以是放大又可以是缩小，前后移动可以是向前也可以是向后，滚动可以是向左滚动(正方向)也可以是向右滚动(反方向)的。因此，这两种可能方向之间的差别使得我们总是能够用正值表示这15种类型的运动，并用跟直方图一样的方式表示它们。

首先考虑瞬间运动情形。假设每一种运动类型都是独立的，都有它自己的速度，这些运动类型将用一种统一的方式来描述。由于每一种运动类型引起的局部速度会依赖于场景深度(在平移这种情形中)或者依赖于影像点的位置(在推拉镜头、前后移动和转动这些情况下)，因此选择了一个统一的单位来表示它。速度将用影像平面内的像素／帧的值来表示，它接近人类对速度的感觉。在平移情形中，运动矢量的幅度将在整个影像中平均，因为本地速度依赖于物体的深度。在左右摆动或者俯仰这种转动情形中，速度将是在影像中心点产生的那个速度，在这个地方没有因为边界效应导致的失真。在推拉镜头、前后移动或者滚动这些情况下，运动矢量场是发散的(多少正比于到影像中心点的距离)，于是速度将用影像角落的像素位移来表示。

每一种运动的速度都用一种像素位移值来表示，从而满足效率要求，有人建议以半个像素的精度来表示。于是，为了以整数值工作，速度总是要舍入到最接近的半像素值并乘以2。给定这些定义，任意的瞬时摄影机运动都可以用这些运动类型的直方图表示，其中的值对应于半像素位移(显然，固定不动这一字段用速度术语来描述时没有任何意义：这就是为什么需要具体数据类型的原因，其中去掉了固定不动)。

摄影机运动的长期表示这种情形也必须考虑。的确，只用描述瞬时运动将是非常繁重的而且费时的。这里还建议定义一种多少有点分等级的描述，也就是说以任意的时间尺度来描述摄影机的运动。给定视频数据的一个时间窗口[n₀，n₀+N](N是窗口中的帧总数)，假设每一帧每一种运动类型的速度都已知。于是能够计算帧数N(运动类型)，其中每一种运动类型都有一个非零的幅度，并用百分比来表示在时间上的存在，按照下式定义(例如对于左右摆动)：

这样一个表达式被推广到任意类型的运动。于是，所有可能的摄影机运动在时间上的存在都将用Motion Types Histogram来表示，其中0到100之间的值对应于百分比。显然，如果窗口被缩减到单独一帧，那么这些值就只能是0或者100，具体取什么值取决于在这一帧中给定运动是存在还是不存在这一事实。

最后，为了直接访问表示视频的数据，并允许在描述符之间进行高效的比较，建议在描述中增加划分被描述窗口的时间边界，它可以是一个完整的视频序列、一个镜头(一个镜头是一系列的帧，其中没有不连续性，因此将一个视频序列分成相干时间元素时，允许例如有一个自然的索引)、一个微小片断(它是一个镜头的一部分)或者单独一帧。这些速度对应于瞬时速度在整个时间窗口上的平均(当给定类型的运动存在的时候)。

前面给出的描述符建议，通过起始点、终止点、时间上存在的每一种运动类型(用百分比表示)以及以统一单位(1／2像素／帧)表示的速度幅度，能够用于描述给定帧序列的任意摄影机运动状态。这一描述符的主要基础和优点是它的通用性(这一Camera Motion描述符考虑到了所有可能方向上所有可能的物理运动)、它的精度(任意摄影机运动精度的幅度都用半个像素来描述，即使是专业应用这也足够了)和它的灵活性，因为Camera Motion描述符可以跟很大的时间尺度范围相关联，从单独一帧到整个视频序列(它也可以跟连续时间段相关联)。

此外，这里建议的摄影机运动描述满足正式MPEG-7文件中的所有要求和评估准则，特别是视觉要求。的确，在MPEG-7要求里规定了：

(a)MPEG-7至少将支持特征“运动(在利用时间组成信息进行检索的请求这种情形下)”的视觉描述，本发明显然就是这种情况；

以及：

(b)“MPEG-7将支持用视觉化来讲能力不断增加的一个范围的多媒体数据描述，这样MPEG-7就能允许编制了索引的数据多少比较粗略的视觉化”：建议的这一描述符瞄准的特征，也就是摄影机运动，是跟“运动”相关的，以及，在涉及视频化的地方，可以想象以文本方式或者图形方式表示摄影机的操作，以获得整体视频运动的一个摘要(例如在一个情节串连图板内)。

关于视觉数据格式和类别，在MPEG-7要求中也做了规定：

(c)“MPEG-7将支持对以下数据格式进行描述：数字视频和电影(比方说MPEG-1、MPEG-2、MPEG-4)、模拟视频和电影、静止图片(比方说JPEG)、图形(比方说CAD)、三维模型(比方说VRML)、跟视频有关的组成数据等等”，本发明的确如此，因为即使在数字压缩视频数据上进行运动数据的自动提取会更加容易，跟视频内容本身相关的本建议仍然将所有视频数据格式作为目标，数字的和模拟的，其中运动信息已经包括在内容中(例如MPEG-1、MPEG-2和MPEG-4格式的运动矢量)；

(d)“MPEG-7将支持具体可以应用到以下视觉数据类型的描述：自然视频、静止图片、图形、二维动画、三维模型、组成信息”，这一点也经过了核实，因为本建议可以用于任意的动画视觉数据，象自然视频、动画或者卡通。

MPEG-7要求还涉及到了其它的一般特征，比方说：

(e)多媒体材料的抽象程度：建议的这一解决方案是一般性的，可以应用在分等级的方案内，允许以很大的时间尺度范围来表示摄影机运动(可以这样表示的不同的抽象级别是整个序列、视频镜头、一个镜头内的一个微小片段甚至单独一帧中的整体运动类型和幅度)；

(f)交叉模态：在视觉描述基础之上的查询允许检索完全不同于视觉内容(例如音频数据)的特征或者所述视频内容中不同的特定特征(已知对一个物体拍摄特写以前，很可能会有一个推拉镜头，或者风景镜头一般都会左右摆动，利用摄影机运动描述符有助于涉及到不同特征类型的搜索)；

(g)特征优先级：描述符中包括的信息的优先级划分(确定了查询参数以后)允许匹配的功能有强烈依赖于用户喜好和要求的各种含义；

(h)特征层次：虽然没有按照层次方式设计摄影机运动描述，但是，为了更加有效地用查询来处理这些数据，有可能构造不同程度的描述，例如用来表示视频场景的运动，其中还描述了每一个镜头，并如此递归下去，直到到达帧一级；

(i)时间范围的描述：这一摄影机运动描述符可以跟视频材料中不同的时间范围相关联(从整个视频--例如这一部电影一直是用一个固定不动的摄影机拍摄的--到帧一级，从而允许进行非常精细的描述)，或者跟连续的时间段相关联，例如一个镜头内不同的微型族(例如：这个镜头以20秒的一个长焦开始，以2秒钟的短俯仰结束)，因此这一关联或者是分层的(这一描述符跟整个数据有关，或者跟它的一个时间子集有关)或者是顺序的(这一描述符跟连续的时间段有关)；

(j)直接数据操作：本建议允许这样做。

此外，显然这里建议的描述符还应当考虑功能要求，例如：

(k)基于内容的检索：这一建议一个主要的目标确实是允许在内容的基础之上对多媒体数据进行有效(“你准确地得到你正在寻找的”)和高效(“你迅速得到你正在寻找的”)的检索，不管语义如何，有效性主要由这一描述的精确性来保证，它独立地考虑进了涉及到的所有可能的运动操作和幅度，效率则依赖于采用的数据库引擎和选择的检索策略；

(l)基于相似性的检索：利用本发明的描述符，能够根据相似程度进行这种检索，并对数据库内容划分等级；

(m)流型描述和储存的描述：这一建议的描述符中没有任何内容会妨碍进行所述操作；

(n)引用模拟数据：同样，这一建议的描述符对引用对象、时间基准或者模拟格式的任何其它数据没有任何限制；

(o)链接：既然定义描述在其中有效时间窗口的时刻包括在所述描述中，因此建议的这一描述符允许对被引用数据的精确定位。

这样建议的描述符必须在前面定义的运动参数的基础之上构造。虽然已经有了一些技术用来估计(摄影机或者有关观察装置的)这些运动参数，但是它们常常有一些缺点，因此更喜欢估计摄影机运动参数的一种改进方法，就象1999年12月24日提交的，引用文号为PCT／EP99／10409(PHF99503)的国际专利申请中所介绍的一样。

这一估计方法的整体实施方案用图4来说明。可以指出，既然MPEG-7将是一个多媒体内容描述标准，它就不应当规定编码类型：一个描述符的形成过程必须能够针对所有类型的编码数据工作，而不管是压缩过的还是没有压缩过的。然而，由于从输入帧中获得的多数视频数据通常都可以是MPEG格式的(因此它们是压缩过了的)，因此，直接利用MPEG运动压缩提供的运动矢量更有利。反之，如果可以获得未压缩的视频数据，于是就可以在运动矢量生成装置41中采用块匹配方法，从而获得所述矢量。

不管是什么情况，一旦从视频序列中读出或者提取出运动矢量(在两个连续帧之间)，就提供一个向下采样和过滤装置42，以便减少所述运动矢量的数据量不均匀性。这一操作以后是装置43中对摄影机特征的一个瞬时估计。这一估计是例如基于以下方法之上的。

在介绍这一方法之前，首先给出摄影机模型。考虑移过一个静态环境的一个单镜头摄影机。从图5可以看出，令O是摄影机的光学中心，OXYZ是一个相对于摄影机固定的外部坐标***，OZ是光轴，x、y、z分别是水平、垂直方向和轴线方向。令T_x、T_y、T_z是OXYZ相对于场景的平移速度，R_x、R_y、R_z是它的角速度。如果(X、Y、Z)是三维场景中一个点P的瞬时坐标，那么P的速度分量将是：

\overset{&OverBar;}{X} = - T_{x} - R_{y} \cdot Z + R_{z} \cdot Y - - - - - - (2)

\overset{&OverBar;}{Y} = - T_{y} - R_{z} \cdot X + R_{x} \cdot Z - - - - - - (3)

\overset{&OverBar;}{Z} = - T_{z} - R_{x} \cdot Y + R_{y} \cdot X - - - - - - (4)

P的影像位置p由关系(5)在影像平面给出：

(其中f是摄影机的焦距)，它会以以下引发的速度移过影像平面：

(u_{x}, u_{y}) = (\overset{&OverBar;}{x}, \overset{&OverBar;}{y}) - - - - - - (6)

经过代换和计算，得到以下关系：

u_{x} = f \cdot \frac{\overset{&OverBar;}{X}}{Z} - f \cdot \frac{X \cdot \overset{&OverBar;}{Z}}{Z^{2}} - - - - - - (7)

u_{x} = \frac{f}{Z} (- T_{x} - R_{y} \cdot Z + R_{z} \cdot Y) - \frac{f \cdot X}{Z^{2}} (- T_{z} - R_{x} \cdot Y + R_{y} \cdot X) - - - - - - (8)

以及

u_{y} = f \cdot \frac{\overset{&OverBar;}{Y}}{Z} - f \cdot \frac{Y \cdot \overset{&OverBar;}{Z}}{Z^{2}} - - - - - - (9)

u_{y} = \frac{f}{Z} (- T_{y} - R_{z} \cdot X + R_{x} \cdot Z) - \frac{f \cdot Y}{Z^{2}} (- T_{z} - R_{x} \cdot Y + R_{y} \cdot X) - - - - - - (10)

它们也可以写为：

u_{x} (x, y) = - \frac{f}{Z} (T_{x} - x \cdot T_{z}) + \frac{x \cdot y}{f} \cdot R_{x} - f (1 + \frac{x^{2}}{f^{2}}) R_{y} + y \cdot R_{z} - - - - - - (11)

u_{y} (x, y) = - \frac{f}{Z} (T_{y} - y \cdot T_{z}) - \frac{x \cdot y}{f} \cdot R_{y} + f (1 + \frac{y^{2}}{f^{2}}) R_{x} - x \cdot R_{z} - - - - - - (12)

此外，为了在摄影机模型中包括推拉镜头，假设推拉镜头可以只用角度的放大来近似。如果场景中最近物体的距离跟因为推拉镜头而改变的焦距相比很大，通常都是这种情况，那么这样一个假设就是成立的。

图6考虑了单纯的推拉操作。给定影像平面内的一个点，在时刻t它在(x，y)，在下一时刻t’它在(x’，y’)，由于推拉操作引起的x方向的影像速度u_x=x’-x可以表示为R_zoom的函数(R_zoom定义为(θ’-θ)／θ，如图6所示)，就象下面介绍的一样。

我们有：tan(θ′)=x’／f以及tan(θ)=x／f，于是：

u_x=x’-x=[tan(θ’)-tan(θ)]·f (13)tan(θ’)的表达式可以写成：

\tan (θ^{'}) = \tan [(θ^{'} - θ) + θ] = \frac{\tan (θ^{'} - θ) + \tan (θ)}{1 - \tan (θ^{'} - θ) \cdot \tan (θ)} - - - - - - (14)

然后假设角度差(θ’-θ)很小，也就是说tan(θ’-θ)可以用(θ’-θ)来近似，而且(θ’-θ)·tanθ＜＜1，我们得到：

u_{x} = x^{'} - x = f \cdot [\frac{(θ^{'} - θ) + \tan (θ)}{1 - (θ^{'} - θ) \cdot \tan (θ)} - \tan θ] - - - - - - (15)

u_{x} = f \cdot \frac{(θ^{'} - θ) (1 + \tan^{2} (θ))}{1 - (θ^{'} - θ) \cdot \tan (θ)} - - - - - - - (16)

u_{x} = f \cdot θ \cdot R_{zoom} \cdot \frac{1 + \tan^{2} (θ)}{1 - (θ^{'} - θ) \cdot \tan (θ)} - - - - - - (17)

实际上它等价于：

u_x=x’-x=f·θ·R_zoom·(1+tan²θ) (18)这一结果可以写成：

u_{x} = f \cdot \tan^{- 1} (\frac{x}{f}) \cdot R_{zoom} \cdot (1 + \frac{x^{2}}{f^{2}}) - - - - - - (19)

同理，u_y可以写成：

u_{y} = f \cdot \tan^{- 1} (\frac{y}{f}) \cdot R_{zoom} \cdot (1 + \frac{y^{2}}{f^{2}}) - - - - - - (20)

速度u=(u_x，u_y)对应于一次推拉操作在影像平面上引起的运动。下面定义一个一般性的模型，其中考虑进了所有的转动、平移(沿着X和Y轴)以及推拉镜头操作。

这个一般性的模型可以写成转动速度，表示转动和推拉镜头运动，以及平移速度，表示X和Y方向的平移，之和(也就是分别是跟踪和推拉镜头)

其中：

其中，只有平移项与物体距离Z有关。

M．V．Srinivasan等等在1997年第30卷第4期模式识别第593～605页上的文章“从视频序列对摄影机运动参数进行的定性估计”描述了，为了从影像序列中提取摄影机运动参数，利用摄影机等式(21)～(23)的一种技术。更精确地说，所述文章中的第3部分(第595～597页)介绍了这一技术的基本原理。通过寻找产生流场的最佳值Rx、Ry、R_z，从最初的光流场中减去它以后，会得到一个剩余流场，其中所有矢量都是平行的，这一技术采用迭代方法，充分利用基于区段的判据，将剩余流矢量的平行性偏差降到最小。

在这一迭代方法中的每一步里，根据两个不同摄影机模型中的一个计算由当前摄影机运动参数引起的光流。第一个模型假定视场的视角大小(或者焦距f)是已知的：这意味着对于图像内每一点都可以计算出等式(23)中的比x／f和y／f，然后利用所述等式可以计算出确切的光流。当摄影机的视场很大而且是已知的时候，这第一个模型，也就是考虑了推拉镜头或者俯仰失真的那一个，会产生更精确的结果。不巧的是，焦距有时是不知道的，这就必须使用第二个模型，怀疑视场很大的时候，只是针对有限的图像区域。按照第二个模型，应用等式(23)之前，小视场近似(x／f和y／f远小于1)于是就是必须的，由此得到以下等式(24)和(25)：

u_{x}^{rot} \approx - f \cdot R_{y} + y \cdot R_{z} + x \cdot R_{zoom} - - - - - - (24)

u_{y}^{rot} \approx - f \cdot R_{x} - x \cdot R_{z} + y \cdot R_{zoom} - - - - - - (25)

在装置43内这样进行的估计为每一对帧得到一个特征矢量。然后在被考虑的整个序列里，这一组特征矢量最终被一个长期运动分析装置44接收到。这一装置44输出运动描述符，该描述符可以用于在基于内容的检索中，尤其是在MPEG-7视频索引编制框架里，按照摄影机运动方式为这一序列编制索引。

有两个主要的问题使装置42里的预处理步骤合理：非均匀运动矢量，特别是影像的低频部分或者文理非常均匀的地方，以及块的尺寸太小。提供向下采样和过滤过程是为了通过对原来的场进行向下采样，减少矢量的数量，同时滤掉跟整体信息不相符的矢量。采用为每一个矢量计算的一个置信度掩码：它是一个标准，根据每一个运动矢量的置信程度在0和1之间变化，能够用于判断是否应当考虑这些矢量。置信掩码的一个实例可以是考虑对于任意理论上的摄影机运动，运动矢量不可能变得太多：邻近的矢量有相近的值。于是，可以根据从每一个矢量到它近邻的距离度量置信程度，它可以用例如它的平均值来表示，或者，最好是用它的中值(因为它对很大的单个误差更加不敏感)。于是，置信掩码C_i，j由等式(26)定义：

图7说明了这一过滤技术：过滤后的场(右侧)包含的方块只有原来的场(左侧)中方块数的四分之一。按照四个原来的方块的运动矢量计算出表示新方块的运动矢量，并根据图中的近邻计算出它们的置信程度。新方块的运动矢量是它的旧的较小方块的加权平均：

用来利用过滤后的运动矢量场，为每一对帧进行计算包含两个被考虑的帧之间摄影机运动信息的特征矢量的装置43，也可以采用一个估计算法，比方说现在详细讨论的这个估计算法。

首先，利用等式(26)计算置信掩码。然后开始平行化过程。每次在计算代价函数或者结果矢量的过程中考虑运动矢量的时候，都用它的置信掩码加权。然后，利用以下等式能够计算R_x、R_y、R_z、R_zoom和焦距f的最佳值，它们给出一个所有矢量都平行的剩余场：

\overset{&RightArrow;}{R^{estim}} = [{\hat{R}}_{x}, {\hat{R}}_{y}, {\hat{R}}_{z}, {\hat{R}}_{zoom}, \hat{f}] = \arg \min {P (\hat{R})} (28)

这里

P (\bar{R}) = \underset{i}{Σ} \underset{i}{Σ} | | {\overset{&RightArrow;}{V}}_{i, j}^{residual} (\bar{R}) | |^{2} \cdot θ_{i, j} \cdot C_{i, j} (29)

其中：

而且：

θ_{i, j} = angle ({\bar{ν}}_{i, j}^{residual}, {\bar{ν}}^{residual}), {\bar{ν}}^{resudal} = \frac{\underset{i}{Σ} \underset{j}{Σ} {\bar{V}}_{i, j}^{residual} \cdot C_{i, j}}{\underset{i}{Σ} \underset{j}{Σ} C_{i, j}} (31)

在大视场中非平移运动的情况下，这些剩余矢量不会平行，但应当非常理想地接近零。这样一来就能按照等式(32)计算β比)：

β = \frac{| | &Sum; {\bar{ν}}_{i, j}^{residual} ({\bar{R}}^{estim}) | |}{&Sum; | | {\bar{ν}}_{i, j}^{residual} ({\bar{R}}^{estim}) | |} (32)

它说明剩余场的平行程度。它是剩余流矢量合成矢量幅度跟剩余流矢量幅度和的比值：β=1意味着剩余矢量是完全对齐的，而β=0则意味着剩余矢量的方向都是随机的。测外，为了检查是否存在摄影机运动的明显跟踪分量(以检查摄影机运动中是否存在明显的跟踪分量)，通过计算以下等式(33)给出的a，将剩余流场的强度跟原来流场的强度进行比较：

α = \frac{mea n^{(*)} (| | {\bar{ν}}_{i, j}^{residual} ({\bar{R}}^{extim}) | |)}{mea n^{(*)} (| | {\bar{ν}}_{i, j} | |)} (33)

其中的“mean(*)”运算符表示它的变量以置信度掩码为权的加权平均。利用这两个比值能够检查是否存在跟踪分量及其大小，即：

A)如果β～0，则没有任何跟踪运动；

B)如果β～1：

如果α～0，跟踪运动就可以忽略；

如果α～1，跟踪运动就很明显：

{\hat{T}}_{x} = - ν_{x}^{residual}

{\hat{T}}_{y} = - v_{y}^{residual}

这些比值还给出了结果相关的有关信息。

必须注意，既然每一块的深度未知，估计出来的平移运动分量，也就是

并不表示第一个模型的确切分量，而是整个影像内

的一个加权平均值。然而，它们是影像中明显跟踪运动的良好表示。

本发明并不局限于前面的说明中的内容，利用它们可以获得改进或者应用，而不会偏离本发明的范围。例如，本发明还涉及到一种影像检索***，比方说图8所示的那种，它包括一个摄影机81，用于获得视频序列(能够以顺序的视频比特流的形式获得)；一个视频索引编制装置82，用于在使用所述(一个摄影机或者任意观察装置的)运动描述符得到的分类基础之上，实现索引编制方法；储存所述分类得到的数据(这些数据，有时叫做元数据，能够允许随后用户进行的检索或者浏览)的一个数据库83；一个图形用户接口84，用于对数据库执行被请求的检索以及一个视频监视器85，用于显示检索出来的信息。

Claims

1．一种描述符，用于从编制视频索引的角度，在视频场景里任意的帧序列中，表示摄像机或者任何一种观察器或者观察装置的运动，所述运动是以下基本操作中的至少一种或者几种：固定不动、左右摆动(水平转动)、跟踪(水平横向运动，在电影语言里也叫做行进(travelling))、俯仰(垂直转动)、升降(垂直横向运动)、推拉镜头(改变焦距)、前后移动(沿着光轴平移)和滚动(绕光轴转动)，或者这些操作中至少两种的任意组合，其中所述运动类型中的每一个类型，固定不动除外，都被进一步分成两个分量，它们代表两个不同的方向，并用直方图的方式表示，直方图中的值对应于预先定义的位移大小。

2．权利要求1的描述符，利用它，假设独立的每一种运动类型，通过选择一个公用单位表示它，都用一种统一的方式描述它的速度。

3．权利要求2的描述符，利用它，每一个运动类型的速度都用半个像素精度的像素位移值来表示。

4．权利要求3的描述符，利用它，为了使用整数值，速度都被舍入到最近的半个像素值，并乘以2。

5．权利要求1和3的描述符，其特征在于，通过以任意的时间尺度来表示处理的运动，这种描述是分层的。

6．权利要求4的描述符，其特征在于，给定视频数据的一个时间窗口[n₀，n₀+N](N是窗口内帧的总数)和每一帧中每一运动类型的速度，其中每一运动类型有明显速度的帧的个数N运动类型被计算出来，在时间上的存在用百分比表示，定义为：

于是，所有可能运动在时间上的存在用Motion Types Histogram来表示，其中的值，在0和100之间，对应于百分比，当这一窗口被缩小到单独一帧时，根据在这一帧中给定运动是存在还是不存在，这些值只能是0或者100。

7．将权利要求1～6中任意一个的描述符应用到影像检索***中去，该***包括一个摄影机，用于获得视频序列；一个视频索引编制装置；一个数据库；一个图形用户接口，用于对该数据库进行所请求的检索；和一个视频监视器，用于显示检索出来的信息，所述视频索引编制装置中视频编制操作是以利用摄影机运动的所述描述符获得的分类为基础的。