CN100336390C

CN100336390C - 提取用于浏览的合成视频选择的分级分解的方法和设备

Info

Publication number: CN100336390C
Application number: CNB2004100983697A
Authority: CN
Inventors: M·彼得·库恩
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-11-29
Filing date: 1999-11-29
Publication date: 2007-09-05
Anticipated expiration: 2019-11-29
Also published as: CN1620128A

Abstract

一种用于提取用于浏览的合成视频选择的分级分解的方法和设备。所述方法包括步骤：识别视频；从表示每一视频段的所述视频拍摄中收集主帧；根据摄像运动或全面的运动信息分类主帧的收集；以及建立视频的图形表示，图形表示是基于所述分类步骤的结果的、瞬间的以及与视频拍摄的每一部分有关的摄像运动信息，其中所述的图形表示建立步骤包括由节点表示视频拍摄的每一类别的步骤。元数据提取单元具有特征点选择和运动估计单元(62)，用于在视频/音频信号的压缩域中提取至少一个表示该视频/音频信号的特性的特征点。因此，能够实现处理时间或成本的降低，并且使有效处理成为可能。

Description

提取用于浏览的合成视频选择的分级分解的方法和设备

本案是申请日为1999年11月29日、申请号为99815915.8、发明名称为“视频/音频信号处理方法和视频/音频信号处理设备”的发明专利申请的分案申请。

技术领域

本发明涉及视频/音频信号处理方法和视频/音频信号处理设备，并且提供一种用于此的有效计算方法以简化(facilitate)诸如(但不限于)来自MPEG压缩领域的摄像运动提取和视频概括(video summarization)的应用。

背景技术

随着视频存储装置容量的增加，出现了为用户浏览方便进行视频内容的构建和概括的需要。元数据(即，关于数据的数据)使视频浏览成为可能，该元数据最好被自动提取。

图1描述了从在像素域中的MPEG(运动图像专家组)压缩视频提取与元数据有关的运动的现有技术。MPEG视频至像素域的全解码(Full decoding)由MPEG解码单元11执行。运动估计单元12(基于本领域技术人员都知道的光流计算或块匹配)从视频流的像素表示中计算运动矢量。参数和摄像运动计算单元13从这些运动矢量中计算涉及元数据的运动。

对于像素域中的摄像运动估计，有Ingemar J.Cox，Sebastien Roy的专利“US5,751,838：5/1998：“在两图像帧382/107间的摄像运动的校正(Correction of camera motion between two image frames：382/107)”以及出版物。

在Yi Tong Tse和Richard L.Baker的“视频压缩的全局缩放/全景估计以及补偿(Global Zoom/Pan estimation and compensation for video compression)”ICASSP 91，1991，2725-2728页中估计了视频编码的摄像缩放和全景。但是，该方法在不是已建模的那些摄像运动类型的情况下可能产生不可靠的结果。

在SPIE的1992年第1818卷的视觉通信和图像处理部分1522-1530页中发表的A.Akutsu，Y.Tonomura，H.Hashimoto，Y.Ohha的“使用运动矢量进行视频检索(Video indexing using motion vectors)”中分析了使用霍夫变换(Hough Transform)像素域中的摄像运动，然而所描述的方法没有提取摄像运动量。

在IEEE Trans.CSVT的1994年6月卷4第3册的288-296页中发表的Jong-II Park，Nobuyuki Yagi，Kazumasa Enami，Kiyoharu Aizama，MitsutoshiHatori的“对基于视频编码模型的图像序列中的摄像参数的估计(Estimationof Camera Parameters from Image Sequence for model based video coding)”以及在“信号处理：图像通信”的1996年第9卷43-53页中发表的Jong-II Park，Choong Woong Lee的“从视频组成的图像序列中进行摄像参数的强健(robust)估计(Robust estimation of camera parameters from image sequence for videocomposition)”中发现了使用纹理倾斜度的像素域中的特征点，并确定了这些特征点的运动的摄像运动。

在“信号处理：图像通信”的1996年第9卷43-53页中发表的Jong-II Park，Choong Woong Lee的“从视频组成的图像序列中进行摄像参数的强健估计(Robust estimation of camera parameters from image sequence for videocomposition)”中使用了非正常值拒绝方法使得在像素域中的摄像运动估计更强健。

在1995年的Proc.ICPC的406-409页中发表的Y.P.Tan，S.R.Kuilarni，P.J.Ramadge的“摄像运动参数估计的新方法(A new method for camera motionparameter estimation)”中描述了根据摄像运动的小总量的假设的像素域中的摄像运动估计的回归最小二乘法。

在“信号处理：图像通信”的1996年第8卷295-307页发表的Philippe Joly，Hae-Kwang Kim的“使用时空图像进行摄像工作和视频微分割的有效自动分析(Efficient automatic analysis of camera work and microsegmentation of videousing spatiotemporal images)”中基于苏贝尔算子(Sobel operator)或标准边缘检测单元以及边缘至线条图形的时空投射描述了像素域中的摄像运动估计算法。使用霍夫变换分析线条图形以提取运动方向中的边缘。

在荷兰政治地理学的“线条识别”的1997年第30卷第4册593-606页发表的M.V.Srinivasan，S.Venkatesh，R.Hosi的“从视频序列中定性估计摄像运动参数(Qualitative estimation of camera motion parameters from videosequence)”中，从像素域中的未压缩视频中提取摄像运动参数，其中分别提供摄像全景、倾斜、旋转和缩放的总量。

在ICASSP 99，1999中发表的Richard R.Schultz，Mark G.alford的“通过使用匹配特征点选择的自动块进行的投射变换的多帧综合(Multiframeintegration via the projective transform with automated block matching featurepoint selection)”建议了一种基于非线性投影变换模型的像素域中的自像素分辨率图像注册算法以便计算摄像平移、旋转、缩放、全景和倾斜。

在IEEE图像编码论文集，PCS99，1999中发表的R.S.Jasinschi，T.Naveen，P.Babic-Vovk，A.J.Tabatabai的“视在3-D摄像速度提取及其应用(Apparent 3-Dcamera velocity extraction and its Applicants)”中描述了用于数据库查询和子画面(拼接)应用的像素域中的摄像速度估计。

由于视频内容的巨大存储量，出现了越来越多的采用MPEG-1/MPEG-2或MPEG-4格式压缩的视频材料。但是，针对像素域而开发的摄像运动估计算法却不是能够直接应用到MPEG压缩领域的。因此，需要MPEG压缩位流的时间耗费解码以及像素域中的计算需求运动估计，并且必须执行摄像运动估计(图1)。

而且，为了避开像素域中的MPEG视频解压缩和摄像运动估计的计算负担，已经建议了在压缩域中执行的摄像运动估计。先前的对于压缩域中的摄像运动估计是基于使用MPEG运动矢量并将它们匹配到描述摄像运动的参数运动模型中的。

图2描述了MPEG压缩视频中的涉及元数据的运动的提取的本领域的当前状态。MPEG视频分析由MPEG位流分析单元21执行。从该分析的位流中，单元22提取运动矢量并将其传递到参数和摄像运动计算单元23。

在1997年2月的关于“图像和视频数据库V的存储和检索”的SPIE会议的论文集第3022卷200-211页中发表的V.Kobla，D.Doermann，K-I.Lin，C.Faloutsos的“使用MPEG视频的DCT和运动矢量信息的压缩域视频技术(Compressed domain video indexing techniques using DCT and motion vectorinformation in MPEG video)”中通过使用方向柱状图从MPEG压缩域运动矢量中确定“流矢量”以便确定全面的转化运动方向。但是这个基本模型不能检测摄像缩放和旋转。

在ICIP，神户，1999上发表的Roy Wang，Thomas Huang的“MPEG域的快速摄像分析(Fast Camera Motion Analysis in MPEG domain)”中描述了在MPEG域中的快速运动分析算法。该算法是基于使用来自P-帧的MPEG运动矢量和基于来自B帧的为获得I帧的内插运动矢量。参数摄像运动估计的非正常值拒绝最小二乘算法被用于加强从这些运动矢量中的摄像运动估计的可靠性。

但是，使用摄像运动估计的MPEG运动矢量具有几个缺点。

首先，在压缩的MPEG流中的运动矢量不表示真实的运动，但选择这些运动矢量是为了在编码器上快速和位速率的有效压缩，并且这些运动矢量依赖于编码器厂商的编码策略，该编码策略是没有被MPEG标准化的，可能是截然不同的。例如，与使用具有增加了的搜索范围的运动估计算法的高位速率和高质量MPEG编码相比，为了快速编码而采用低复杂运动估计算法。比较：Kluwer学院出版社，1999年6月出版的Peter Kuhn的“MPEG-4运动估计的算法、复杂分析和VLSI-架构(Complexity Analysis and VLSI-Architecturesfor MPEG-4 Motion Estimation)”，ISBN 792385160。

而且，使用MPEG运动矢量进行摄像运动估计的水平较大地依赖于MPEG的图像组(GOP)结构、视频采样速率(例如，每秒30帧)以及其他的因素，并且因此对于精确摄像运动估计来说是不可靠的。例如，市场上的某些MPEG编码器设备对具有快速运动的序列动态地改变GOP结构。

而且，MPEG运动矢量(特别是小的运动矢量)常常被噪声极大地影响并且可能不可靠。

而且，在使用某些快速运动估计算法使用受限运动估计搜索区域的情况下，可能不存在长的运动矢量。

而且，仅MPEG视频的I帧根本不包括运动矢量。因此，这里是不能使用基于使用MPEG运动矢量的算法。仅MPEG视频的I帧是有效的MPEG视频格式，由于可以进行帧精确剪切使得该MPEG视频格式被用于视频编辑中。在该领域中，涉及元数据的运动是很重要的，例如，用于确定该摄像工作。

而且，一些诸如DV和MJPEG的压缩视频格式是基于象MPEG的相似的DCT(离散余弦变换)结构的，但是不包括运动信息。因此对于这些情况不使用基于包含在压缩流中的运动矢量的摄像运动估计算法。

而且，从B帧中进行运动矢量内插获得I帧对于快速摄像或对象运动的情况是失败的，在这些情况中出现了新图像内容。

发明内容

由于本领域的上述状态，本发明的一个目的在于提供用于从压缩的视频中提取和浏览涉及元数据的运动的一种视频/音频信号处理方法和一种视频/音频信号处理设备。

在本发明中，运动元数据的主要应用包括视频概括、摄像运动表示以及基于视频浏览的运动。

根据本发明的视频/音频信号处理方法适用于处理所提供的视频/音频信号以实现上述目的。该设备包括步骤：提取至少一个表示在所述的视频/音频信号的压缩域中的所述视频/音频信号的特性的压缩域特征点；对在所述提取步骤提取的特征点执行运动估计；并通过预设数量的构成所述视频/音频信号的帧跟踪与运动矢量有关的特征点。

在根据本发明的视频/音频信号处理方法中，在压缩域中提取视频/音频信号的特征点，执行所提取的特征点的运动估计，并且跟踪与运动矢量有关的特征点。

而且，根据本发明的视频/音频信号处理设备适用于处理所提供的视频/音频信号以实现上述目的。该设备包括：提取装置，提取至少一个表示在所述的视频/音频信号的压缩域中的所述视频/音频信号的特性的压缩域特征点；运动估计装置，对在所述提取装置提取的特征点执行运动估计；以及特征点跟踪装置，通过预设数量的构成所述视频/音频信号的帧跟踪与运动矢量有关的特征点。

在根据本发明的视频/音频信号处理设备中，在压缩域中提取压缩域特征点的装置提取视频/音频信号的特征点，执行特征点的运动估计的装置执行所提取的特征点的运动估计，并且跟踪特征点的装置跟踪与运动矢量有关的特征点。

而且，一种视频/音频信号处理方法被用于处理和浏览所提供的视频/音频信号以便实现上述目的。该方法包括步骤：分级建立摄像运动转换图，其中图形建立步骤包括步骤：提供具有至少一个主摄像运动转换图和具有多个表示其他的具有用于视频序列说明的转换路径的摄像运动的图形布局；通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧(keyframe)进行浏览；以及通过摄像运动转换图，并通过说明在时间点上的摄像运动的图形表示进行浏览。

在根据本发明的视频/音频信号处理方法中，分级建立摄像运动转换图，执行通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧进行的浏览，以及执行通过摄像运动转换图，并通过说明在时间点上的摄像运动的图形表示进行的浏览。

而且，根据本发明的视频/音频信号处理设备适用于处理和浏览所提供的视频/音频信号以便实现上述目的。该设备包括：建立装置，用于分级建立摄像运动转换图，其中图形建立装置包括步骤：提供具有至少一个主摄像运动转换图和具有多个表示其他的具有用于视频序列说明的转换路径的摄像运动的图形布局；浏览装置，通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧，进行浏览；以及浏览装置，通过摄像运动转换图，并通过说明在时间点上的摄像运动的图形表示进行浏览。

在根据本发明的视频/音频信号处理设备中，通过建立图的装置分级建立摄像运动转换图，第一浏览装置执行通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧进行的浏览，以及第二浏览装置执行通过摄像运动转换图，并通过说明在时间点上的摄像运动的图形表示进行的浏览。

并且，根据本发明的视频/音频信号处理方法适用于提取用于浏览的合成视频选择的分级分解以便实现上述目的。该方法包括步骤：识别视频；从表示每一视频段的所述视频拍摄(shot)中收集主帧；根据摄像运动或全面的运动信息分类主帧的收集；以及建立视频的图形表示，该图形表示基于所述分类步骤的结果，是瞬间的，并且是与视频拍摄的每一部分有关的摄像运动信息，其中所述的图形表示建立步骤包括由时间点表示视频拍摄的每一类别的步骤，其中，在所述主帧中存在大量特征点，并且整个运动总量是低的。

在根据本发明的视频/音频信号处理方法中，识别视频，从视频拍摄中收集主帧，分类所收集的主帧，并建立视频的图形表示。

而且，在根据本发明的视频/音频信号处理设备是适用于提取用于浏览的合成视频选择的分级分解以获得上述目的。该设备包括：识别装置，用于识别视频；收集装置，用于从表示每一视频段的所述视频拍摄中收集主帧；分类装置，用于根据摄像运动或全面的运动信息分类主帧的收集；以及建立装置，用于建立视频的图形表示，该图形表示基于所述分类步骤的结果，是瞬间的，并且是与视频拍摄的每一部分有关的摄像运动信息，其中所述的图形表示建立步骤包括由时间点表示视频拍摄的每一类别的步骤，其中，在所述主帧中存在大量特征点，并且整个运动总量是低的。

在根据本发明的视频/音频信号处理设备中，识别视频的装置识别视频，收集主帧的装置从视频拍摄中收集主帧，分类的装置分类所收集的主帧，并且建立视频的图形表示的装置建立视频的图形表示。

而且，根据本发明的视频/音频信号处理方法适用于处理所提供的视频/音频信号以实现上述目的。该方法包括步骤：提取至少一个表示在所述的视频/音频信号的压缩域中的所述视频/音频信号的特性的压缩域特征点。

在根据本发明的视频/音频信号处理方法中，在压缩域中提取视频/音频信号的特征点。

而且，根据本发明的视频/音频信号处理设备适用于处理所提供的视频/音频信号以实现上述目的。该装置包括：提取装置，用于在所述视频/音频信号的压缩域中提取表示所述视频/音频信号的特性的至少一个压缩域特征点。

在根据本发明的视频/音频信号处理设备中，在压缩域中由提取压缩域特征点的装置提取视频/音频信号的特征点。

而且，根据本发明的视频/音频信号处理方法适用于处理所提供的视频/音频信号。该方法包括步骤：对在所述视频/音频信号的压缩域中的表示所述视频/音频信号的特性的至少一个特征点执行运动估计。

在根据本发明的视频/音频信号处理方法中，执行所提取特征点的运动估计。

而且，根据本发明的视频/音频信号处理设备适用于处理所提供的视频/音频信号。该设备包括：运动估计装置，用于对在所述视频/音频信号的压缩域中的表示所述视频/音频信号的特性的至少一个特征点执行运动估计。

在根据本发明的视频/音频信号处理设备中，由执行运动估计的装置执行所提取特征点的运动估计。

附图说明

图1描述了运动元数据提取的现有技术；

图2描述了运动元数据提取的其他的现有技术；

图3描述了视频浏览和元数据提取单元的概略图；

图4给出了对块和宏块的命名协定；

图5给出了压缩域特征点运动估计概念的概略图；

图6示出了元数据提取单元的数据流程图；

图7说明了MPEG位流分析、DCT-系数提取以及运动矢量提取单元；

图8示出了使用在选择块中应用的IDCT算法的特征点注册和运动估计的控制流；

图9示出了块关联度量的计算流；

图10描述了在DCT-域中的特征点选择和运动估计的控制流；

图11示出了一个8X8DCT-块的DCT系数编号方式；

图12示出了视频概括的特征点寿命的数据结构；

图13说明了摄像运动方向；

图14给出了视频浏览单元的一个例子的概略图；

图15示出了具有摄像全景、缩放和旋转主帧例子的视频浏览单元；

图16给出了视频浏览单元的图形表示。

具体实施方式

现在将参考附图说明根据本发明的实施例。

在本发明中公开了一种新的压缩域特征点选择和在多种应用情况下的运动估计算法，包括摄像运动估计、对象运动估计、视频概括、视频代码转换、运动活动测量、视频场景检测以及视频主帧检测。

用于对象识别、对象跟踪、全面运动估计以及视频概括的现存的特征点选择方法被应用于像素域中，因此需要消耗时间来进行压缩视频位流的解码。

公开的特征点选择算法直接工作在压缩域中，并且因此避免了计算的浪费和解码压缩的视频流所消耗的时间。压缩域预选择机构确定后选特征点极大地减小了计算复杂性。

特征点选择算法采用了包含在DCT(离散余弦变换)系数和MPEG(运动图像专家组)运动矢量(当存在时)中的纹理信息，并因此能够直接应用到基于DCT的压缩静止图像(如运动JPEG(联合图象专家组，)、MIPEG)和压缩的视频(如MPEG-1/MPEG-2/MPEG-4、ITU-T(国际电信同盟-电信标准部门)推荐的H.261、H.263、H.26X、或DV格式)。

本发明公开的内容，描述了在压缩域(例如使用MPEG-1)中的特征点的提取，和利用在MPEG压缩域中存在的运动矢量的这些特征的运动估计以及预测的误差能量。

而且，本发明公开了使用在压缩域中的这个特征点选择算法的下列应用。

(1)对象识别和分类

(2)用于跟踪的对象运动估计(使用例如参数运动模型或卡尔曼滤波器)

(3)全面(摄像)运动估计(使用参数摄像运动模型)

(4)使用由该方法提取的运动矢量进行运动活动计算

(5)视频代码转换(根据帧中特征点的位置确定感兴趣区域，并通过适当的量化器控制对感兴趣区域给出较多的位，使用摄像运动参数以便于再编码或为子序列编码提供运动矢量)

(6)视频场景中前景/背景分割(通过跟踪特征点的寿命，确定特征点的全面运动和对象运动)

(7)视频概括和视频场景检测(通过跟踪特征点的寿命。当大量先前存在的特征点消失并且大量新的特征点出现时，那么这是一个新场景开始的征候，可以用做视频概括)

(8)视频主帧检测(从部分视频流中检测出主帧，其中，随着时间过去，在视频流中大量的特征点没有改变)

(9)视频浏览(使用特征点和涉及根据上述分级视频表示的方法的特征点和主帧的对象/全面运动)

(10)视频拼接(通过合并几个视频帧的较小的部分以生成一个单个大的图像。这里特征点用做参考点)

图3描述了元数据提取和视频浏览单元的概略图。所描述的设备包括：存储介质31(包括光的、磁的、电的和机电的介质，如CD-ROM、DVD-RAM、DVD-ROM、视频磁带、硬盘、RAM、ROM等)、提供元数据MD30至视频浏览单元35的元数据提取单元36。元数据提取单元36和视频浏览单元35的实施可以根据可编程的计算机34，但也可能是其他的装置。视频浏览单元35由和用户人33交互的用户接口单元32控制。

现在将详细描述第一优选实施例。

这部分首先给出了全面的概览，并接着作为第一优选实施例，描述了在压缩域中的特征点选择和运动估计的基本方法。另一个优选实施例描述了和第一优选实施例不同的方法，以及该特征点和运动估计方法的应用。

图4给出了16×16像素大小的MPEG宏块(MB)和它们的8×8像素大小的块的符号。参考帧一般说是，一个在和当前时间相比的不同时间点上的帧。一般来说，在上下文中假设参考帧暂时位于当前帧的后面。在MPEG-4的情况下，参考MBcur是当前(ctr)帧或当前视频对象平面(VOP)的MB，和在MPEG-4的情况中，MBref是参考(ref)帧或参考视频平面(VOP)的MB，与当前帧或VOP比较，这些MB与不同时间场合有关。在本发明中，术语“帧”还包括在MPEG-4中使用的任意形状对象(VOP)。MV是运动矢量，它在x方向和y方向上的分量分别为MV_x和MV_y。

这里使用的“帧内”是用于在MPEG和H.26X标准和推荐中的内编码宏块，以及用于DCT的仅在DV格式和MJPEG中的编码块。“P-型”用于在MPEG和H.26X标准和推荐中的预测编码宏块，并且“B-型”用于在MPEG和H.26X标准和推荐中的双向预测宏块。

图5给出了特征点提取和运动估计方法的一般概略图。特征点(或该例子中的边缘点)是例如在亮度、颜色或纹理上具有突然地改变的地方，并且因此适用于运动估计和运动跟踪。51描述了在t＝t0的当前帧中具有一些边缘点的视频对象，例如这些边缘点中的一个在位置52。对于在t＝t1的参考帧，该边缘点52(在t＝t1的参考帧中重新编号为54)移动到位置55。该移动和运动矢量53有关。为了找到该运动矢量，在预测运动矢量周围的搜索区域56中执行运动估计技术。本发明公开的一些方法是如何在压缩域中寻找特征点的技术以及在压缩域中的两个有关的特征点之间有效地计算估计的运动的技术。固然在不同时间情况的相同的两个特征点(或在几个特征点是表示一个对象的情况中的超过两个的特征点)是联系在一起的以便找到它们的运动矢量，本发明还公开了一种在压缩域以及像素域中的特征点的签名技术。该签名技术在图8的步骤S83中将更详细地描述。

图6描述了元数据提取单元的数据流。该分析单元61是负责MPEG位流分析以及DCT-系数和运动矢量提取的，并且在图7中更详细地进行了描述。分析单元61将当前宏块的类型(I：帧内，B：双向预测，P：预测)、提取的MPEG运动矢量(如果存在该宏块类型)以及当前帧的DCT-系数(如果存在)提供到特征点选择单元以及运动估计单元62。

特征点选择单元63由特征点保真度参数控制。它从这些输入的数据中计算出当前帧的特征点坐标，并将它们传递到特征点运动估计单元64、参数和摄像运动计算单元65和视频概括单元66。从特征点选择单元63中，将候选运动矢量MV(x，y)、所需要的运动矢量决定(resolution)以及搜索区域传递到特征点运动估计单元64。在图8中描述了特征点选择和运动估计的控制流。特征点运动估计单元64从当前帧的特征点坐标以及参考帧的特征点坐标中计算运动矢量，并将这些运动矢量输出到参数和摄像运动计算单元65。

参数和摄像运动计算单元65从前面的步骤中获得运动矢量，并计算参数运动模型的参数和摄像运动参数，这些参数被传递到视频概括单元66。

视频概括单元66包括特征点寿命列表67的基本步骤以及基于场景改变检测和主帧提取单元68的特征点和运动的步骤。

特征点寿命67包括特征点坐标和签名、与特征点有关的运动矢量以及为运动矢量计算的距离测量，例如比较图12。基于场景改变检测和主帧提取单元68的特征点和运动，将场景改变的帧数目、具有相应的重要等级和摄像运动参数的主帧作为元数据传送至图3所示的视频浏览单元35。

视频概括单元66可以根据概括的深度，即具有相应的重要等级和摄像运动参数的主帧的数目，进行(可选的)外形上的控制。

图7描述了由MPEG位流分析单元71组成的分析单元，MPEG位流分析单元71例如从MPEG传送流中提取MPEG视频位流。帧-和宏块-类型提取单元72提取宏块-类型，并且在当前宏块(MB)是P-MB或B-MB(分别地是P-VOP或B-VOP)74的情况下，还使用运动矢量提取单元75为该宏块(或VOP)提取运动矢量。从预分析的位流中，DCT-系数提取单元73提取在I-帧、P-帧、B-帧(或MPEG-4中的I-VOP、P-VOP或3-VOP)中的帧内块。

图8描述了通过仅在所选择的一些块上使用IDCT(逆离散余弦变换)的特征点选择和运动估计处理。

当使用CIF格式(352×288像素)时，MPEG流的全解码(比较图1)需要对cur和ref进行2×396×4＝3168IDCT计算。但是，例如，对于摄像运动估计，仅在与运动矢量有关的cur中的6个特征点(num＝6)例如对一个6参数运动模型来说是必须的。在这个例子中，对于每一特征点，当使用小的[-4，+4]像素搜索区域(例如，在预示变量周围)时，需要cur中的一个IDCT计算和ref中的4个IDCT计算(＝5×6＝30IDCT)。这对于IDCT计算所需的计算量而言给出了相当的便利，大约减少100倍。对于大的运动，还可以使用MPEG运动矢量作为搜索区域的预示变量。当使用MPEG运动矢量作为预示变量时，[-4，+4]的搜索区域通常是足够的。但是，该搜索区域能够适当地进行选择。

在图8中，步骤S81计算当前帧中的所有8×8块的块关联度量，根据它们的关联分类这些块并根据最高关联确定cur中的块的“num”的数字。在图9中更详细地说明了块关联度量的计算。注意，仅在帧内-宏块中的块能够被选择作为“新”关联点的一个，而(一旦选择了)关联点能够通过I-帧、P-帧和B-帧被跟踪。在图9中详细描述了优选实施例的步骤S81。

在图8步骤S82中，对“num”选择的cur块，计算8×8块IDCT(以及MC、运动补偿，对于在P-宏块或B-宏块内的块)。8×8块IDCT和MC计算是本领域技术人员熟知的方法。

在图8中，步骤S83为所有的“num”cur块执行块签名提取。对于块签名的计算，这里公开了两个优选实施例：a)在像素域中的块签名的计算；以及b)在DCT域中的块签名的计算。由于必须仅对这些cur中的“num”块计算块签名，这些cur中的“num”块已经由步骤S82在像素域中进行了变换，所以从这个步骤中导致了像素域块签名的没有意义的附加计算开销。

作为一个简单的像素域块特征，所有的或选择的块的像素的数目可以被用做一个签名，并且可以使用SAD(绝对差值和)、MSE(均方误差)或诸如豪斯多夫距离(Haussdort-distance)的本领域技术人员熟知的其他标准来执行签名匹配。但是，由于这就表示效率而言不是很合适，所以在像素域中的较高电平块特征点签名是表示优选实施例的。这些较高电平签名特征包括：如Canny(在1986年的IEEE的图案分析和机器智能学报(IEEE Transactionson Pattern Analysis and Machine Intelligience)，卷8，第6册，第679-698页上，John Canny的“边缘检测的计算方法”(A computational approach to edgedetection))、Sobel、Prewitt的边缘检测技术以及、如Lucas/Kanade(在1980年的人工智能的国际联合会议会刊(International Joint Conference on ArtificialIntelligence)第674-679页上，Bruce D.Lucas and Takeo Kanade发表的“应用到立体图象的迭代图象注册技术”(An Iterative Image Registration Techniquewith an Application to Stereo Visition))、Marr/Hildreth(在1980年的伦敦皇家学院院刊卷(Proc.of the Royal Society of London B)207第187-217页发表的David Mart，Ellen Hildreth的“边缘检测理论”(Theory of edge detection))的纹理和颜色分类图像注册技术；或者能够与它们的匹配标准一起使用的、是优选实施例的、并且是本领域技术人员熟知的其他技术。

对于DCT-域块签名计算，图11中的所有的或选择的DCT-系数可以用于特征点注册。DCT-块签名的DCT-系数能够仅从亮度(Y)块或-可选择地-从色度(U，V)DCT-块中获得。这里，仅描述亮度块的DCT-系数的使用，但是本领域技术人员能够容易地执行到色度块的延伸。优选实施例包括：根据应用情况的a)D00，b)D00，D01，D02，D03；和c)所有的DCT系数。在D_hv(当前DCT-块的签名)和D_hv(表示被比较的DCT-块的签名的系数)的DCT-系数之间的距离计算的优选实施例包括：

Dis \tan ce = Σ_{h}^{h \max} Σ_{v}^{v \max} P_{hv} \cdot | C_{hv} - D_{hv} |

或

Dis \tan ce = Σ_{h}^{h \max} Σ_{v}^{v \max} P_{hv} \cdot {(C_{hv} - D_{hv})}^{2}

其中(例如h＝v＝0，并且hmax＝vmax＝7)，并且每一项可以被加权因子phv选择地加权。使用这些参数，DCT-块签名可以应用到各种应用中，例如，用于视频序列的图像拼接，可以从为视频概括或摄像运动估计选择的那些值中挑选不同的h、v、hmax、vmax、phv值。对于较高电平DCT-块签名，优选实施例还包括DCT-块活动特征、DCT-方向特征、DCT-能量特征，如在1990年学院出版社(Academic Press)出版的K.R.Rao.P.Yip的“离散余弦变换-算法、优点和应用”(Discrete Cosine Transform-Algorithms，Advantages，Applications)和在1996年Bo Shen、Ishwar K.Sethi在SPIE 2670，图象和视频数据库IV的存储和检索(Storage & retrieval for Image and Video DatabasesIV)上发表的“从压缩的图象中方向特点的提取”(Direct feature extractionfrom compressed images)”所描述的，并且这些是本领域技术人员熟知的。

在图8步骤S84中，为一个所选择的cur块计算预测运动矢量(MV)、参考块位置和搜索区域。运动预测策划极其依赖应用。例如，对于使用6参数模型的摄像运动提取，在ref中的特征点的位置能够从先前帧中获得的仿射(affine)运动模型中进行预测。相似地可以为对象跟踪预测特征点的运动。在P-宏块或B-宏块的情况下，从压缩的MPEG位流中提取的运动矢量可以被用做在ref中的搜索区域的中心。在这种情况中，并且特别在MPEG运动矢量变得小的情况中，搜索区域可以选得小些。这意味着仅4块的IDCT解码和运动补偿就已经是足够的了。在帧内-宏块的情况中，必须通过DCT-块签名或像素域块签名确定一个或几个块是否是新的。在该块是新的情况下，接着根据应用，优选实施例设置一个较大的搜索区域。

在块签名展示了该块已经存在于一个或几个距离帧中，接着从块列表的运动矢量历史中，通过本领域技术人员熟知的运动矢量预测方法能够确定下一个运动方向和搜索范围。在图8步骤S85中，对于在步骤S84中所有的在I-参考帧/、P-参考帧/、B-参考帧中的计算的块位置，计算8×8块IDCT。块位置是具有中心为在步骤S84中计算的运动矢量预示变量的在步骤S84中计算的搜索区域。对于P-参考宏块和B-参考宏块还计算MC(运动补偿)。

该技术和在MPEG-1/MPEG-2/MPEG-4标准解码器中使用的技术相同，并且是本领域技术人员熟知的。注意，IDCT(以及在P-宏块和B-宏块的情况中的MC)不仅应用在整个帧上，并且还应用到与在cur中的“num”块有关的ref中的小的搜索区域中，并且因此比整个帧的全解码是显著快的。

在图8的步骤S86中，在像素域对所有的预测MV周围的搜索区域中的ref中的搜索位置(在步骤S84中计算的二者，)执行8×8块运动估计，以便为cur中的所选择的块找到ref中的搜索区域中的最好的运动矢量。对于像素域中的8×8运动估计，优选实施例包括(但不限于)如本领域技术人员熟知的全搜索块匹配、像素回归搜索等的运动估计方法，比较1999年6月Kluwer学院出版社(Kluwer Academic Publishers)出版的Peter Kuhn的“MPEG-4运动估计的算法、复杂分析和VLSI-架构(Complexity Analysis andVLSI-Architectures for MPEG-4 Motion Estimation)”，ISBN 792385160。注意：对于P-宏块/B-宏块，由于来自MPEG-位流的运动矢量被用做运动矢量预示变量(但是在大多数情况中，它是针对16×16宏块的，并且不总是可靠的)，搜索区域(以及所需要的计算能力)可以是很小的。运动估计单元的一个优选实施例是块大小不限于8×8，但也可以覆盖使用诸如4×4以及8×8块的可变块大小的运动估计。运动估计的另一个优选实施例是一个外形可控的运动位移(displacement)分解(resolution)，它可以是例如设置成1像素、2像素或0.5像素，并且可以通过本领域技术人员熟知的方法来实施。注意：当使用特定的特征，象例如Lucas/Kanade特征时，就计算复杂性和跟踪保真度而言，最好在所计算的搜索区域内使用Lucas/Kanade/Tomasi特征***，而取代在这些特征点上执行的块-匹配运动估计。

在图8步骤S87中，使用在步骤S83中描述的相同的方法计算由最佳匹配8×8块位置的运动矢量(在步骤S86中确定)指向的ref中的块的块签名。注意：当使用DCT-块签名时最佳匹配8×8块位置的所有像素必须变换到DCT域。

在图8步骤S88中，cur中的块位置(其中刚执行过步骤S84、S85、S86、S87)、在步骤S87中计算的块签名、运动矢量以及所计算的在由最佳运动矢量(在步骤S86中计算的)指向的当前和参考块之间的距离(MSE：均方误差，SAD：绝对差值和，依据所使用的运动估计算法)被存储在一个数据结构中，优选实施例是例如在图12中所描述的实施例。在距离计算的结果是高于应用给出的门限，并且最后的“num”块已经被处理的情况下，采用一个或多个下面的策略：增加从块关联列表中获得的“num”块或者增加运动估计单元的搜索区域。这个方法允许采用压缩视频的不同内容材料和编码结构。

在图8的步骤S89中，检测在步骤S83确定的所有的“num”块是否已经都被处理了。如果所有确定的“num”块已经都被处理了(是)，则对于这一帧，基于运动估计算法的特征点停止在这里，如果不是都被处理了(否)，则进入步骤S90。

在图8步骤S90中，访问目前还没有执行运动估计的下一个确定的“num”块位置，并且再执行包括步骤S84、S85、S86、S87、S88的循环。

在图9中描述了块关联度量计算的优选实施例。块关联度量表示用于运动估计或运动跟踪的块的适应性，通常由(不限于)如边缘、颜色或其他重要的构造倾斜度的视觉特点决定。当可获得P-帧或B-帧的时候，在这些帧的P-宏块和B-宏块中包含的运动信息可以用于帮助发现描述高关联的块。

在图9步骤S91中，当前帧的宏块计数器，MBcur，被设置成零。该计数器迭代在当前帧中的所有宏块而不管它们的宏块类型(I-型、P-型或B-型)。

在图9的步骤S92中，选择与参考帧中的MBcur、MBref有关的宏块。如果存在一个MBcur的运动矢量(由于我们已经访问了压缩位流的下一个编码帧，所以这个信息是可获得的)，MBref是与运动矢量有关的宏块。如果不存在MBcur的运动矢量(或具有零长度的运动矢量)，那么MBref具有和MBcur相同的宏块号(number)。MBcur和MBref的宏块类型也是从该步骤压缩的位流中提取的。

在图9的步骤S93中，测试一条件。在MBcur的宏块类型是帧内，并且MBref是P-型或B-型宏块的情况下，进入步骤S94。

在图9的步骤S98中，测试另一个条件。在MBcur的宏块类型是P-型，并且MBref是B-型的情况下，进入步骤S99。

在图9的步骤S104中，测试另一个条件。在MBcur的宏块类型是帧内，并且MBref也是帧内的情况下，进入步骤S105。步骤S105和后续步骤处理所有的不可预测的仅DCT(DCT-only)编码MPEG格式以及其他如DV或MJPEG的格式。

在图9的步骤S94中，用于宏块内部的DCT-块的块计数器(图4)被设置成零，并且进入步骤S95。

在图9的步骤S95中，描述了block_MBcur，i关联计算的优选实施例，其中该8×8DCT块的关联定义如下：

Relevance ({block}_{MBcur, i}) = Activity ({block}_{MBcur, i})

+ k \times \frac{{MV}^{2}_{MBcur, x} + {MV}^{2}_{MBcur, y}}{DCTenergy ({block}_{MBref, i})}

其中“k”是根据应用选择的加权系数，并且对于运动估计(例如，通过块匹配)的选择不同于对于跟踪(例如，通过如Lukas/Kanade/Tomasi的特征点跟踪技术)的选择。下面定义了DCT域中的8×8块的活动测量的优选实施例，其中D_hv是DCT-系数(图11)。

Activity = Σ_{h}^{h \max} Σ_{v}^{v \max} | D_{hv} |, (h, v) &NotEqual; (0,0)

hmax＝vmax的值通常选择为7，但可以在(1...6)间进行选择以便获得较快但更多噪声的强健的实施。但是，在1990年学院出版社(Academic Press)出版的K.R.Rao.P.Yip的“离散余弦变换-算法、优点和应用”(Discrete CosineTransform-Algorithms，Advantages，Applications)中所定义的其他的DCT-活动或边缘测量也代表了本发明的可能的实施例。该DCTenergy定义为：

DCTenergy = Σ_{h}^{h \max} Σ_{v}^{v \max} | D_{hv} |

另一个具有减量计算复杂性的优选实施例是：对于每个单独的关联计算或仅使用运动矢量的和(并且不是平方和)来说，将DCT-energy项设置成1。

在图9中，步骤S96和S97迭代步骤S95四次直到MBcur的所有的四个块都被处理为止。

在图9的步骤S99中，对于宏块(图4)内部的块的块计数器被设置成零，并进入步骤S100。

在图9的步骤S100中，由于在P-宏块或B-宏块中，从先前帧(在B-帧的情况下还有将来帧)中预测宏块像素，并且没有新的特征点出现在这里，所以该块的关联被设置成零。

但是，在图9的步骤S101中，已经从其他的帧中跟踪得到的存在的块特征点仍保留在“num”当前块特征点的特征点列表中。注意，对于在步骤S82的这些特征点，由于宏块是类型P或B，所以必须执行IDCT和MC。

在图9中，步骤S102和S103迭代步骤S100和S101四次直到MBcur的所有的四个块都被处理为止。

但是，在图9的步骤S105中，对于宏块(图4)内部的块的块计数器被设置成零，并进入步骤S106。

在图9的步骤S106中，在当前宏块和参考宏块是帧内-宏块的情况下，计算MBcur的块关联。块关联计算如下：

Relevance(block_MBcur，i)＝Activity(block_MBcur，i)

+Activity(block_MBref，i)

以及

Activity ({block}_{MBref, i}) = Σ_{k = 0}^{k \max} m_{k} \times Activity ({block}_{MBref, i})

其中在DCT-域中的活动的计算如上所述。对于在参考帧中的相应块的活动计算，相应的和相邻的kmax块的几个活动测量被概括并相加成为当前块的活动。相邻块的活动还给出了子序列运动估计的搜索区域的大小的提示。值kmax依赖于帧大小以及应用约束。值m_k加权远距离的参考DCT-块的活动，并依据应用约束被确定，但是对于该优选实施例m_k是小的并且在1以下，但对于其他的(例如，计算上更多的约束)实施例也可以是零。

在图9中，步骤S107和步骤S108迭代步骤S106四次直到MBcur的所有的四个块都被处理为止。

在图9中，步骤S109和S110确定所有的当前宏块是否已经被处理并对帧MBcur的所有的宏块进行迭代。

在图9中，步骤S111涉及块关联列表的分类，与已经跟踪的特征点进行合并，并输出确定的“num”块。MBcur中的块按照它们的块关联值被存储，并且必须决定最佳的“num”特征点。分类算法是本领域技术人员熟知的。特征点数目的选择主要根据目标应周。例如，对于基于仿射6参数模型的6参数摄像运动估计，需要与它们的运动矢量相关的6个特征点。因此，在这种情况中，必须选择至少6个具有高关联的块。对于这个例子，选择描述最佳关联度量的6个块。对于视频概括，表示特征点的所选择块的数目依赖于外部选择的保真度参数。对于其他的应用，特征点的较大数目可以仅由图像中的8×8块的数目限定。在特征点的跟踪仅导致很短的运动矢量(其经常被噪声干扰)，或后面的运动估计处理导致不充足的结果(即，出现很高的距离测量)的情况中，本发明的一个优选实施例是：根据它们的相关值选择下面n个特征点直到再没有特征点剩下为止。对于特征点跟踪应用，具有高关联的新计算的块特征点必须与从远距离的帧中已经跟踪的存在的块特征点进行合并。

现在将详细描述第二优选实施例。

图10描述了使用基于DCT的运动估计的本发明的第二优选实施例。该方法具有下述优点，即对于当前块或搜索区域，没有宏块必须通过使用IDCT被从DCT-域变换至像素-域。但是，在压缩视频位流中存在P-帧或B-帧的情况中，在压缩域中必须执行运动补偿(MC)，这就使准确度呈现损失。穿越块边界的基于DCT的运动估计也可以导致准确度的损失。本发明的第二实施例的主要应用期望在于以内帧(Intra-frame)主导的视频领域，如象DV、MJPEG的压缩位流以及在广播业中经常使用的仅MPEG格式的内帧。

在图10的步骤S121中，对于cur中的所有的8×8块的块关联度量使用在图8步骤S81中所述的相同方法进行计算。

在图10的步骤S122中，计算所有的选择的“num”cur块的块签名。基本上在图8步骤S83描述的DCT-域以及在像素域中的两种方法都能使用。但是，在图10步骤S122中描述的DCT-域中的块签名方法的优点是在这一步骤上不需要IDCT，并且不进行任何IDCT也可以执行图10的完整算法。但是，对于P-宏块和B-宏块，在压缩域中或在像素域中需要运动补偿。

在图10的步骤S123中，使用在图8步骤S84中描述的相同方法计算预测的运动矢量、计算的参考块位置以及ref中的搜索区域。

在图10的步骤S124中，对于ref中的搜索区域的P-宏块和B-宏块，必须在DCT-压缩域中计算运动补偿(MC)。几个优选实施例中的一个是在1995年IEEE通信中的选择的区域期刊(IEEE Journal on Selected Areas inCommunication)卷13第1册中Shih-Fu Chang，Dayid G.Messerschmidt发表的“MC-DCT压缩视频的处理和组合”(Manipulation and Compositing ofMC-DCT Compressed Video)以及在1999年的ICASSP 99上Yoshiaki Shibata、Zhigang Chen、Roy H.Campell发表的“对于压缩域中DCT块提取的快速自由降级算法”(A fast degradation-free algorithm for DCT block extraction in thecompressed domain)中的修改版描述的算法。

在图10的步骤S125中，在DCT-域中对预测运动矢量周围的ref中的所有的搜索位置计算运动估计。对于最佳搜索位置，保存距离度量值以及运动矢量。对于在DCT-域中的运动估计的计算的优选实施例例如列出在Ut-va Koc，K.J.Ray Liu的美国专利US 5,790,686：8/1998，“基于DCT的运动补偿方法：382/107”(DCt-based motion estimation method：382/107)中。

在图10的步骤S126中，计算ref中最佳运动矢量位置的块签名。基本上在图10步骤S122描述的DCT-域以及在像素域中的两种方法都能使用。但是，在图8步骤S83中描述的DCT-域中的块签名方法的优点是在这一步骤上不需要IDCT，并且不进行任何IDCT也可以执行图10的完整算法。在像素域中的块签名方法仅需要两个IDCT，一个用于每一“num”当前块并且另一个用于压缩域运动估计的最佳转移块，其计算仍是很少的。

在图10的步骤S127中，在块列表中保存位置、块签名、运动矢量以及ref中最佳块位置的距离标准。在距离计算的结果是高于该应用给出的标准并且最后的“num”块已经被处理的情况下，可以使用下列策略的一个或多个：增加从块关联列表中获得的“num”块或者增加运动估计单元的搜索区域。这个方法允许采用压缩视频的不同内容材料和编码结构。

在图10的步骤S128中，访问确定的“num”块位置的下一个，该确定的“num”块位置的下一个目前是没有执行运动估计的。并且再次执行包括步骤S123、S124、S125、S126、S127的循环。

现在将详细描述第三优选实施例。

本发明的另一优选实施例是视频概括。这通过保持特征点(其可以由它们的特征点签名区分)以及它们的在帧中的相关位置的寿命列表、它们的运动矢量、它们的距离(运动矢量计算的距离)以及它们的签名来实现。在大量新特征点出现在新帧中的情况下，则极有可能存在有场景改变。类似地当从一个帧到下一帧消失了大量特征点时，那么也极有可能是场景改变。在这样的帧中选择场景的主帧，其中存在大量特征点并且整个运动总量是低的。

图12描述了视频概括的特征点寿命列表的数据结构的优选实施例。对于每一特征点存在一个链接的列表，为单独地标记它，给出了feature_point_id，如131、138、141所描述的。feature_point_id数据结构还包括一个obiect_id字段以便将一个或几个特征点与对象相联系。这些feature_point_id使用指针相连作为链接列表136。每个feature_point_id指向在视频流中的每一特征点的时间情况的另一列表(例如132)，其中每一项包含该特征点(例如134、135和137)在特定时间情况(例如location_0＝(x，y)，time)上的时空位置的数据、在特定时间情况上的该特征点至下一个时间情况上相同的特征点间的运动矢量(例如，MV_0＝(MV_x，MV_y))的数据、用于运动矢量的可靠性确定的特征点运动矢量计算的距离值(distance_0)，以及在相同feature_point_id下的正确的特征点相联系的特征点签名(signature_0)。注意：对于某些应用，这些数据-字段的某些是可以选择的或者需要其他的数据-字段。

这些特征点的时间情况也通过链接的列表连接，其中最后项和最初项的链接例如可以看作是如一遍一遍播放视频的一部分的功能，其中出现了对象(包含许多特征点)或特定运动图形。对于这些链接的列表，由于它们在场景中不出现，所以存在根据它们的时间feature_point_id移去的机理(mechanism)。还存在添加新feature_point_id的机理，其使用在签名空间中的特征点的距离。该签名空间中的距离确定这是否是一个新的特征点或是否是与存在的一个特征点有关的特征点。添加新feature_point_id至存在的对象的另一个机理包括自该对象的它们的空间距离。从包含在一个feature_point_id的特征段(feature-field)中的运动矢量中，可以构建该特征点在时间上的运动轨迹，这是本领域技术人员熟知的(例如，通过卡尔曼滤波器或Lucas/Kanade/Tomasi特征跟踪，但不限于此)。

属于一个object_id组(例如可以根据签名和它们位置的空间距离进行分组)的几个feature_point_id的运动矢量可以用于计算由feature_point_id识别的对象的参数运动，如本领域技术人员所熟知的。在对象被选做矩形背景帧的情况中，相似地该链接的列表可以用做表示摄像运动，这将在下面的优选实施例中详细说明。

现在将详细描述第四优选实施例。

图13描述了摄像的可能的运动方向，其包括缩放、在三个方向上的旋转以及在三个方向上的平移。本发明的一个优选实施例是使用提取的包含在图12的数据-结构中的运动元数据，以计算如压缩域中视频序列的缩放、全景、倾斜等的摄像运动。例如对于有效的视频浏览(展现主帧和它们有关的摄像运动)、视频编辑(例如剪切缩放输出端的帧上的视频)以及简化从一个压缩表示(例如，MPEG-2)至另一个压缩表示(例如，MPEG-4)的代码转换来说，摄像运动的快速和有效计算是有用的。

为了基于在图6中的62中所得到的特征点运动矢量提取摄像运动参数，优选实施例之一是使用摄像运动模型(在1997年Elsevier的图案识别(Patternrecognition)卷30第4册593-606页中M.V.Srinivasan、S.Venkatesh，R.Hosi发表的“来自视频序列的摄像运动的定性估计”(Qualitative estimation ofcamera motion parameters from video sequence))以及它的摄像运动参数提取方法：

u_x＝-r_y+Y·r_z+X·r_zoom

u_y＝r_x-X·r_z+Y·r_zoom

在这个算法中，对于每一运动矢量(u_x，u_y)，根据参数r_x、r_y、r_z和r_zoom计算上面的方程描述的合成运动矢量段，其中X和Y是图像平面的像素坐标。接着从合成的运动矢量段中减去实际的矢量段(在图6的步骤62中提供)，并且计算剩余运动矢量段的平行度(the parallelism of the residual motionvector field)。剩余运动矢量段表示摄像运动的平移分量。当剩余运动矢量段的所有运动矢量是平行的时候，找到r_x、r_y、r_z和r_zoom的最优参数。该算法例如通过改变参数r_x、r_y、r_z和r_zoom执行四维单行式最小化直到获得剩余(平移的(translatoric))运动矢量的最佳近似平行度。但是本领域技术人员所熟知的从运动矢量中确定摄像的参数运动模型或对象运动的其他方法也是可行的。

图14描述了视频浏览单元的图形表示的例子的概略图。该视频浏览单元(或视频浏览用户接口)使用运动信息(即，元数据)，特别是摄像运动元数据以便能在拍摄和主帧电平上的分级分解和视频概括。在本文中定义的拍摄是作为一序列视频帧，该序列视频帧是由一个摄像机捕捉的在时间和空间中的单个连续活动。本发明是通用的，并且这个视频浏览器不限于摄像运动而是覆盖涉及如参数对象运动的一般元数据的运动和场景。本发明不限于矩形帧，也可以用于与它们的运动元数据有关的任意形状对象的浏览。在下面的例子中，通常，描述在摄像运动和矩形对象情况下的视频浏览单元。对于视频浏览，使用分级摄像运动模型的状态转换图。

首先使用本领域技术人员熟知的倾斜度和分类技术识别相似的运动元数据段，主帧的收集从这些中得出并用于表示每一视频段。在每一段的主帧之间的摄像运动过渡弧由摄像运动参数描述，这些摄像运动参数在浏览器中被可视地表示。摄像运动的总量在视频浏览器中被描述，使得用户在小的和大的摄像运动之间可视地区分，或者在慢的和快的摄像缩放之间区分。

图14描述，例如，具有三个运动元数据状态：摄像全景、摄像缩放和摄像旋转的情况。

图14步骤151描述了在X方向具有0.5的摄像全景常数的摄像全景状态。该箭头描述了摄像全景运动的方向和它的长度、摄像运动的相对速度。摄像全景的优选图形表示之一是一个包含摄像全景的连续帧的拼接表示。该拼接表示的生成是本领域技术人员熟知的，如1996年“信号处理、图象通信”(Signal Processing，Image Communications)卷8上M.Irani，P.Anandan、J.Bergen、R.Kumar、S.Hsu发表的“视频序列的有效表示及其应用”(Efficientrepresentations of video sequences and their application)。

图14步骤152描述了在状态转换图中的摄像缩放状态的图形表示的优选实施例，其中在时间“to”上出现2的摄像缩放。在摄像缩放表示中的缩略图(thumbnail)(即主帧)表示摄像缩放的中心。在摄像缩放窗口中的箭头的长度表示相对的摄像缩放速度。至中心的箭头的方向表示缩放。穿出中心的箭头的方向表示缩放放大。

图14步骤153描述了摄像旋转的图形表示的优选实施例，其中图标中的缩略图表示摄像旋转的焦点的表示帧。该箭头描述旋转的方向，并且箭头表示摄像旋转的相对速度。

每一摄像运动图标表示特定的摄像运动状态并且在摄像运动图标之间的箭头表示在特定摄像运动状态之间的摄像运动状态转换。通过例如倾斜度技术或对在连续帧之间的摄像运动的每一类型的总量设定标准能够简单地找到转换。但是，也可以使用本领域技术人员熟知的更先进的算法。缩放的中心由所有的(人工延长的)运动矢量的相交点来确定。

图15描述了在图14中出现的视频浏览单元的扩大图。优选功能之一是在三个状态图标(161、163、164)之一上的浏览命令(优选实施例是使用鼠标点击，碰击功能键或触笔)，其将导致显示更详尽的表示。当给出浏览命令至全景状态窗口161时，摄像全景的主帧表示如162所示。当给出浏览命令至缩放状态窗口163时，摄像缩放的主帧表示如166所示。在166中，主帧168的一部分被可视地标记(优选的实施例可能是在焦点区域的缩放中心周围的不同颜色的正方形中的帧)。当给出一个命令至该颜色帧(优选实施例是使用鼠标或触笔进行点击)时，相同运动元数据的下一个较低分级电平被图形显示为167。当给出浏览命令至旋转状态窗口164时，摄像全景的主帧表示如165所示。另一个优选实施例的功能包括在三个状态图标(161、163、164)之一或主帧表示(162、165、166、167)上的播放命令(优选实施例是使用鼠标进行双击，碰击功能键或触笔)：描述这个特定的元数据的视频序列的部分(在这个例子中特定的是摄像运动)。这导致播放属于这个状态的视频序列的部分。

图16描述了视频浏览单元的功能的另一个优选实施例，当在三个状态图标(171、173、174)或它们的自坐标表示的主帧表示(比较图15)之一上给出一个绘图命令(优选实施例是使用鼠标按钮、功能键或触笔进行点击)时，显示元数据的图形表示(优选实施例：沿时间/帧数字轴的摄像运动元数据)。

产业上的可应用性

如上已经详细地描述的，根据本发明的视频/音频信号处理方法适用于处理所提供的视频/音频信号。该方法包括步骤：提取至少一个表示在视频/音频信号的压缩域中的视频/音频信号的特性的压缩域特征点；对在提取步骤提取的特征点执行运动估计；并通过预设数量的构成视频/音频信号的帧跟踪与运动矢量有关的特征点。

因此，在根据本发明的视频/音频信号处理方法中，在压缩域中提取视频/音频信号的特征点，执行所提取的特征点的运动估计，并且跟踪与运动矢量有关的特征点。从而能够实现处理上时间或成本的降低，并且使有效处理成为可能。

而且，根据本发明的视频/音频信号处理设备适用于处理所提供的视频/音频信号。该设备包括：提取装置，提取至少一个表示在视频/音频信号的压缩域中的视频/音频信号的特性的压缩域特征点；运动估计装置，对在提取装置提取的特征点执行运动估计；以及特征点跟踪装置，通过预设数量的构成视频/音频信号的帧跟踪与运动矢量有关的特征点。

因此，在根据本发明的视频/音频信号处理设备中，在压缩域中提取压缩域特征点的装置提取视频/音频信号的特征点，执行特征点的运动估计的装置执行所提取的特征点的运动估计，并且跟踪特征点的装置跟踪与运动矢量有关的特征点。从而能够实现处理上时间或成本的降低，并且使有效处理成为可能。

而且，一种视频/音频信号处理方法被用于处理和浏览所提供的视频/音频信号。该方法包括步骤：分级建立摄像运动转换图，其中图形建立步骤包括步骤：提供具有至少一个主摄像运动转换图和具有多个表示其他的具有用于视频序列的转换路径的摄像运动的时间点的图形布局；通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧进行浏览；以及通过摄像运动转换图，并通过说明在时间点上的摄像运动的图形表示进行浏览。

因此，在根据本发明的视频/音频信号处理方法中，分级建立摄像运动转换图，执行通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧进行的浏览，以及执行通过摄像运动转换图，并通过说明在时间点上的摄像运动的图形表示进行的浏览。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

而且，根据本发明的视频/音频信号处理设备适用于处理和浏览所提供的视频/音频信号。该设备包括：建立装置，用于分级建立摄像运动转换图，其中图形建立装置包括步骤：提供具有至少一个主摄像运动转换图和具有多个表示其他的具有用于视频序列说明的转换路径的摄像运动的图形布局；浏览装置，通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧，进行浏览；以及浏览装置，通过摄像运动转换图并通过说明在时间点上的摄像运动的图形表示进行浏览。

因此，在根据本发明的视频/音频信号处理设备中，通过建立图的装置分级建立摄像运动转换图，第一浏览装置执行通过摄像运动转换图，并通过说明在时间点上的摄像运动视频序列的主帧进行的浏览，以及第二浏览装置执行通过摄像运动转换图，并通过说明在时间点上的摄像运动的图形表示进行的浏览。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

并且，根据本发明的视频/音频信号处理方法适用于提取用于浏览的合成视频选择的分级分解。该方法包括步骤：识别视频；从表示每一视频段的视频拍摄中收集主帧；根据摄像运动或全面的运动信息分类主帧的收集；以及建立视频的图形表示，图形表示是基于分类步骤的结果的、瞬间的以及与视频拍摄的每一部分有关的摄像运动信息，其中图形表示建立步骤包括由时间点表示视频拍摄的每一类别的步骤。

因此，在根据本发明的视频/音频信号处理方法中，识别视频，从视频拍摄中收集主帧，分类所收集的主帧，并建立视频的图形表示。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

而且，在根据本发明的视频/音频信号处理设备是适用于提取用于浏览的合成视频选择的分级分解。该设备包括：识别装置，用于识别视频；收集装置，用于从表示每一视频段的视频拍摄中收集主帧；分类装置，用于根据摄像运动或全面的运动信息分类主帧的收集；以及建立装置，用于建立视频的图形表示，图形表示是基于分类步骤的结果的、瞬间的以及与视频拍摄的每一部分有关的摄像运动信息，其中所述的图形表示建立步骤包括由时间点表示视频拍摄的每一类别的步骤。

因此，在根据本发明的视频/音频信号处理设备中，识别视频的装置识别视频，收集主帧的装置从视频拍摄中收集主帧，分类的装置分类所收集的主帧，并且建立视频的图形表示的装置建立视频的图形表示。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

而且，根据本发明的视频/音频信号处理方法适用于处理所提供的视频/音频信号。该方法包括步骤：提取至少一个表示在视频/音频信号的压缩域中的视频/音频信号的特性的压缩域特征点。

在根据本发明的视频/音频信号处理方法中，在压缩域中提取视频/音频信号的特征点。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

而且，根据本发明的视频/音频信号处理设备适用于处理所提供的视频/音频信号。该装置包括：提取装置，用于在视频/音频信号的压缩域中提取表示所述视频/音频信号的特性的至少一个压缩域特征点。

因此，在根据本发明的视频/音频信号处理设备中，在压缩域中由提取压缩域特征点的装置提取视频/音频信号的特征点。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

而且，根据本发明的视频/音频信号处理方法适用于处理所提供的视频/音频信号。该方法包括步骤：对在视频/音频信号的压缩域中的表示视频/音频信号的特性的至少一个特征点执行运动估计。

因此，在根据本发明的视频/音频信号处理方法中，执行所提取特征点的运动估计。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

而且，根据本发明的视频/音频信号处理设备适用于处理所提供的视频/音频信号。该设备包括：运动估计装置，用于对在视频/音频信号的压缩域中的表示视频/音频信号的特性的至少一个特征点执行运动估计。

因此，在根据本发明的视频/音频信号处理设备中，由执行运动估计的装置执行所提取特征点的运动估计。从而能够实现处理时间或成本的降低，并且使有效处理成为可能。

Claims

1.一种用于提取用于浏览的合成视频选择的分级分解的方法，包括步骤：

识别视频；

从表示每一视频段的所述视频拍摄中收集主帧；

根据摄像运动或全面的运动信息分类主帧的收集；以及

建立视频的图形表示，该图形表示基于所述分类步骤的结果，是瞬间的，并且是与视频拍摄的每一部分有关的摄像运动信息，其中所述的图形表示建立步骤包括由时间点表示视频拍摄的每一类别的步骤，

其中，在所述主帧中存在大量特征点，并且整个运动总量是低的。

2.一种用于提取用于浏览的合成视频选择的分级分解的设备，包括：

识别装置，用于识别视频；

收集装置，用于从表示每一视频段的所述视频拍摄中收集主帧；

分类装置，用于根据摄像运动或全面的运动信息分类主帧的收集；以及

建立装置，用于建立视频的图形表示，该图形表示基于所述分类步骤的结果，是瞬间的，并且是与视频拍摄的每一部分有关的摄像运动信息，其中所述的图形表示建立步骤包括由时间点表示视频拍摄的每一类别的步骤，