CN101807198A

CN101807198A - 一种基于草图的视频摘要生成方法

Info

Publication number: CN101807198A
Application number: CN201010033847A
Authority: CN
Inventors: 滕东兴; 马翠霞; 杨海燕; 陈佳; 王宏安; 戴国忠
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2010-01-08
Filing date: 2010-01-08
Publication date: 2010-08-18

Abstract

本发明公开了一种基于草图的视频摘要生成方法，属于人机交互领域。本方法为：1)对视频进行镜头分割，并进行镜头筛选得到关键帧；2)对关键帧进行角色分析和场景分析；并根据角色分析确定关键帧的语义重要程度；3)计算关键帧的图像质量评估值，并根据图像质量评估值和语义重要程度值，对关键帧进行筛选；4)根据步骤3)所确定的关键帧，生成视频对象的草图；5)根据摘要绘图区域大小以及每幅草图所对应视频内容的重要程度重新设定对应草图的大小；6)利用场景分析结果确定草图所在位置，生成草图之间的连接线，对草图进行连接，生成视频摘要。本发明的方法可使草图摘要能够更加集中、有效的反应视频主要情节语义，符合用户的认知习惯。

Description

一种基于草图的视频摘要生成方法

技术领域

本发明属于人机交互领域，具体涉及一种基于草图的视频摘要生成方法。

背景技术

随着数码设备的普及和互联网技术的发展，视频资源数量呈海量式增长。数码设备的普及使得视频资源的采集成本极大的降低，人们随时随地可以借助数码DV或DC实现视频资源的采集。同时，伴随着互联网技术的发展以及流媒体技术的发展，视频借助互联网得以快速传播，使得人们获取视频资源的渠道更加便捷。正是由于这两个主要原因的存在，个人信息中视频媒体信息与日俱增，这对如何快速获得视频内容，以便于有效组织、管理视频资源提出了更高的要求。

视频的内容难以快速获取的问题和视频自身的特点有关。由于视频是一种动态的信息流，是由一系列离散的帧图像按时间顺序线性组成。视频的这种结构特性，使得当前浏览视频的主要方式大多是基于时间轴的方式。然而，基于时间轴的浏览方式只能线性的按顺序浏览，同时，时间轴与视频内容是分离的，这造成用户交互时手脑不一致，很难根据视频内容快速定位(参考文献：Dragicevic P，Ramos G，Bibiowitcz J，Nowrouzezahrai D，Balakrishnan，Singh K.Video browsing by direct manipulation.Proceeding of the twenty-sixthannual SIGCHI conference on Human factors in computing systems.NewYork：ACM，2008：237-246)。视频摘要的目的是为了解决视频内容快速获取的问题。它通常是用自动或半自动的方式对视频的结构和内容进行分析，从原始视频中提取出有意义的部分，并将它们以某种方式进行组合，形成简洁的、能够充分表现视频语义内容的概要。它是对长视频内容的简短总结，是对视频内容或语义的高度概括和描述。当前，视频摘要的主要形式是基于关键词、关键帧、或者故事板等静态方式或者是一段高度浓缩的动态视频摘要。以帧图像为主的静态形式的摘要无法有效的描述视频中的动态或隐含的信息，而通过动态摘要获得视频内容仍然需要人们线性的按序浏览视频。因此，如何利用更加简单、自然、普通用户容易达到的方式表述视频的语义，并使得用户获得更加准确、丰富的视频语义内容是有待解决的内容。

发明内容

本发明的目的在于提供一种基于草图的视频摘要生成方法，由于草图作为一种抽象的、模糊的形象化信息，可以有效地描述用户意图、表述或增强视频语义，缩小视频低层物理特征与高层语义之间的鸿沟。草图除了可以描述视频中所出现的对象等，还可以借助于特定的语义草图描述视频对象的行为等动态特征。例如，利用箭头可以描述对象的运动方向、运动轨迹、对象之间的链接关系。本发明所提出的方法主要包括对视频内容前期的预处理、视频语义分析、视频摘要的初始生成和基于交互的语义草图补全等过程。我们的目标是通过分析视频语义信息，将大量连续的静态视频帧转换成一副或几幅简单的草图形式的摘要，尽可能丰富地描述和表征视频的语义信息。针对草图在视频高层语义描述方面的应用需求特点，将草图划分为两类，一类是与人们的认知习惯普遍一致的、用于描述视频动态的或隐含信息的特殊语义符号，如描述视频对象的声音、注释、运动轨迹、运动方向等等，另一类是描述视频对象外在形状等可见信息的草图轮廓。它们共同描述视频对象的多个侧面。草图摘要的优势在于：用简洁的线条概要性的描述视频的主要内容；用富有特定含义的草图语义符号表现视频中对象的行为、声音等动态或隐含信息，传递了更加丰富的内容。

为实现上述发明目的，本发明采用如下的技术方案：

一种基于草图的视频摘要生成方法，其步骤为：

1)对视频进行镜头分割，并进行镜头筛选，得到关键帧；

2)对所述关键帧进行角色分析和场景分析；并根据角色分析确定关键帧的语义重要程度；

3)计算所述关键帧的图像质量评估值，并根据所述关键帧的图像质量评估值和语义重要程度值，对所述关键帧进行筛选；

4)根据步骤3)所确定的关键帧，提取视频关键对象的轮廓，生成视频对象的草图；

5)根据摘要绘图区域大小以及每幅草图所对应视频内容的重要程度重新设定对应草图的大小；

6)利用所述场景分析结果确定草图所在位置，生成草图之间的连接线，对草图进行连接，生成视频摘要。

进一步的，依据镜头表现内容的重要程度进行所述镜头筛选；所述镜头表现内容的重要程度的计算公式为：w_shot＝μt_shot+w_var，，其中，μ＞0，t_shot为镜头中含有的图像帧数，w_var为镜头内部各帧的灰度直方图均方差，w_shot为镜头表现内容的重要程度。

进一步的，根据角色分析和场景分析结果，采用AdaBoost分类器对每个镜头的关键帧进行语义标定和分类，并定义镜头之间的语义转换类型。

进一步的，利用从帧图像中提取到的尺度不变特征变换算法特征点个数作为所述关键帧的图像质量评估值；利用所述角色分析中的人脸检测结果确定所述关键帧的语义重要程度。

进一步的，对所述关键帧的图像质量评估值进行归一化，并根据归一化后的所述关键帧的图像质量评估值和所述人脸检测结果，利用公式w_frame＝Q_t+μN_face对所述关键帧进行筛选，其方法为：设定一阈值w_threshold，如果得到的w_frame。大于该阈值，就设定该帧为关键帧；其中，N_face为帧图像中检测到的人脸数目，μ＞0，Qt为归一化的关键帧的图像质量评估值。

进一步的，利用笔手势对所述关键帧进行进一步删减。

进一步的，在所述视频关键对象的轮廓上均匀选取若干数目的点来生成B样条曲线，然后利用该B样条曲线代替所述视频关键对象的轮廓。

进一步的，首先预定义视频对象的运动特征与语义草图的映射关系；然后利用光流算法捕捉、跟踪视频对象的运动特征，根据所述运动特征和所述映射关系生成视频对象的语义草图；所述语义草图为描述视频对象隐含语义信息的草图；所述运动特征包括运动的类型、方向、强度信息。

进一步的，所述草图的大小确定方法为：首先计算每个草图的缩放比例r_i；然后根据缩放比例对相应的帧图像进行缩放，确定所述草图的大小；所述r_i的计算公式为

r_{i} = a * \sqrt{\frac{w * h}{Σ_{i = 1}^{n} w_{i} * h_{i}} * {contrib}_{i}},

其中，α为一经验常数，w，h为全局摘要视图的宽度、高度，w_i、h_i为该草图所对应的帧图像的宽度、高度，

{Contrib}_{i} = \max (\frac{β_{i}}{Σ_{i = 1}^{n} β_{i}}, 0.1)

为该草图对于整个摘要视图的贡献值，β_i为草图所对应的视频片段的重要程度，n为草图总数。

进一步的，根据公式P＝W_time*P_time+W_rel*P_rel+W_ovl*P_ovl+P_cross确定所述草图所在位置；其中，P_time为时间序列损耗值，P_rel为镜头间的相似距离，P_ovl为草图之间的重叠程度，P_cross为连接线交叉损耗值；W_time为时间序列损耗值的权重系数、W_rel为镜头间的相似距离的权重系数、W_ovl为连接线交叉损耗值的权值系数。

进一步的，所述生成草图之间的连接线方法为：以草图的中心为连接线的起始点，通过草图之间的距离确定控制点参数，生成B样条曲线以实现对不同帧所对应草图的连接。

进一步的，采用笔手势对所述视频摘要进行补全；所述笔手势包括：描述用户意图的注释符号、描述视频音乐背景的音乐符号、描述视频角色对话的对话注释符号、描述视频对象情感特征的表情符号。

本发明的主要内容包括：

1、镜头分割与关键帧提取。本发明在对视频内容进行前期处理时，首先对视频进行镜头分割，并依据镜头重要程度进行筛选。镜头是指在一段连续的时间内摄取的一段连续的画面。本发明根据关键帧的颜色特征变化趋势利用镜头边界检测的方法将视频分割为多个镜头。由于不同的镜头内包含不同的语义信息，在整个视频中所起的重要程度也有所不同。本发明进一步依据镜头重要程度进行镜头筛选，以保证视频中重要的语义信息能够在最终生成的视频摘要中得以体现。确定各个镜头的重要程度w_shot，可以表示为

w_shot＝μt_shot+w_var，μ＞0

其中，μ为经验常数，t_shot为镜头中含有的图像帧数表示，t_shot越大，表明镜头越长，通常其所蕴含信息的重要程度越高；w_var为镜头内部各帧的灰度直方图均方差，w_var越大说明镜头内部灰度直方图变化越大，发生的事件相应也就越多。通过对每个镜头求w_shot值，可以得到镜头的重要程度排序。当用户指定所需镜头数目n时，则从视频所有镜头中选择w_shot值最高的n个镜头。

2、视频语义分析

本发明利用图像/视频分析处理技术，通过自动/半自动的方式分析并获得视频的基本语义信息，作为语义上下文进一步辅助视频摘要的生成。涉及到的视频语义内容分析包括：视频对象运动检测与跟踪、室内\室外场景分析、单人\多人角色分析等。

(a)运动检测与跟踪

对视频对象进行运动检测与跟踪的目的是利用建立运动特征(类型、方向、强度等)与语义草图之间的映射，实现用语义草图描述视频中该类动态隐含信息。本发明利用光流算法(参考文献：Zach，C.，Pock，T.，Bischof，H.：A Duality Based Approach for RealtimeTV-L1 Optical Flow.In：the Annual Symposium of the German Association for PatternRecognition(DAGM 2007).LNCS，vol.4713)捕捉、跟踪视频对象的运动路径、方向等信息；并预定义常见视频对象运动特征与语义草图的映射关系。

(b)室内\室外场景分析和单人\多人角色分析

对室内\室外场景分析的目的是利用提取的该类语义信息辅助后期的视频摘要生成过程中草图的布局，按照活动所发生场景的相似性对草图进行聚类；对单人\多人角色分析的分析主要用于步骤三中关键帧筛选。本发明采用AdaBoost分类器(参考文献：Zhang，L.，Li，M.J.，Zhang，H.J.Boosting image orientation detection with indoor vs.outdoorclassification，Proc.IEEE Workshop on Applications of Computer Vision(WACV)，2002)对每一个镜头的关键帧进行语义标定与分类。并利用人脸检测、室内/室外检测结果定义镜头之间的语义转换类型。语义转换类型即为根据不同类型的语义将镜头中各个关键帧之间的语义转换关系划分为若干分组，例如一个镜头前几帧出现一个人，后几帧出现多人，则把这个镜头归类于“一人到多人”，类似的还包括“多人到一人”，“室内到室外”，“室外到室内”等类型。

3、关键帧筛选

步骤一中利用传统算法所抽取的关键帧存在一定程度的冗余信息，不利于后期草图摘要的生成。因此，本发明在传统关键帧提取算法基础上，对关键帧做进一步的筛选。筛选过程采用自动和手工相结合的方法，以得到更加符合用户意图、有效描述视频主要内容的关键帧。首先，利用图像质量评估值和角色分析对关键帧进行自动筛选；其次，对于自动筛选结果仍不符合用户要求的，用户手工参与做进一步的筛选。

对于帧图像本身的图像质量评估，图像质量对形成的草图的效果有很大的影响。本发明利用从帧图像中提取到的尺度不变特征变换算法(简称SIFT算法)特征点个数来评估(参考文献：Ponqnumkul，S.Wanq，J.Cohen，M.Creating map-based storyboards for browsingtour videos.In proc.UIST2008，ACM Press(2008)，13-22.)。SIFT特征对于图像明显变化的区域要比那些模糊的区域更为敏感，通常在分辨率和大小相同的情况下，当帧图像较为清晰时，可以提取到的SIFT特征点会比较多；而当帧图像由于摄像机或拍摄对象的运动而出现较大的模糊区域时，可以提取到的SIFT特征点就会较少。图像质量评估值可以表示为：

Qt = \frac{\max Nf - Nt}{\max Nf - \min Nt}

其中Nt代表的是第t帧的图像质量值，maxNf代表的所有帧的最高quality值，minNf代表所有帧的最低quality值，Qt代表最终归一化的图像质量值。

对于角色分析方面，本发明做如下假设：帧图像中的人脸信息对于帧图像所代表的意义具有一定程度的说明作用，存在人脸的视频帧中人脸数目多的更能完整的表达该镜头内容。本发明利用步骤二视频语义分析中人脸检测结果，确定关键帧所描述视频内容的重要程度；再根据所得到的图像质量评估值和语义重要程度评估值。本发明利用如下公式对初始得到的关键帧进行自动筛选：

w_frame＝Q_t+μN_face

其中N_face代表帧图像中检测到的人脸数目，Qt为上面得到的归一化的图像质量值；我们通过设定阈值w_threshold，如果得到的w_frame大于阈值，就设定该帧为关键帧。对于自动筛选结果仍不符合用户要求的，本发明以用户手工参与为辅助手段，利用笔手势做进一步的删减。

4、视频关键帧的草图风格化

目前，很多基于边缘检测的方法通过图像处理可以将图像转化为素描风格，但是由于图像的复杂性和图像的质量限制，这些方法往往不能有效的生成易于理解的草图。一方面这些基于边缘检测的方法对光照强度很敏感，很难对不同光照情况下的图像进行有效的边缘检测；另一方面，即使这些方法能够有效提取出图片中的边缘，仍不能对于图像的物体进行区分，不能够判断哪些部分是人在观看时所真正关心的，生成的草图往往包含过多冗余细节。综合以上考虑，为了更好的获得帧图像的草图表示，本发明将边缘检测与用户输入相结合，采用了交互式生成草图的方法。针对步骤三中所最终确定的关键帧，为了实现将用户输入与图像中对象的边缘有效结合，提高草图生成的效率，本发明采用了文献(参考文献：Hyung W.Kang，Wenjie He，Charles K.Chui，Uday K.Chakraborty.Interactive sketchgeneration.The Visual Computer，2005，Vol.21，No.8，821-830.)所论述的改进的Livewire方法提取视频关键对象的轮廓，生成视频对象的草图描述形式，辅助用户的绘制。Livewire是一种基于动态编程的交互式的图像分割方法，其基本思想是利用动态规划方法产生图像中给定两点间的最优路径，合理地构造代价函数和选择起始点和目标点，用以提取物体的边缘。由于Livewire提取出的轮廓往往不够平滑，进一步利用B样条曲线对其进行平滑处理。B样条曲线是通过给定一组控制点而得到的一种曲线形式，曲线的大致形状可以有这些点来控制。针对Livewire方法得到的某一段不够平滑的轮廓，本发明在这段轮廓上，均匀选取一定数目的点，来生成B样条曲线代替原来的轮廓线，实现平滑处理；其中点的数目可以通过输入进行控制。

在此，所生成的图像是原始关键帧进行边缘提取后所得到的风格化草图，尚未添加描述视频对象运动特征等隐含的语义信息。因此，本发明依据步骤2中所提取的视频对象的运动路径、方向等信息所建立的该运动特征与语义草图的映射关系，得到该语义草图的类型以及其在对应视频对象中的位置，对由改进的Livewire方法所生成的风格化草图自动补充描述视频对象运动特征等的隐含语义的语义草图。

5、视频摘要初始生成

本发明基于动态规划的思想给出了视频摘要的布局算法。该算法首先根据摘要绘图区域大小以及每幅草图所对应的镜头的重要程度重新设定草图的大小，其次利用视频内容分析得到的信息确定草图所在位置，最后生成草图之间的连接线，对草图进行连接，生成视频摘要。

首先，对于草图大小的确定，本发明考虑某个帧图像所对应的草图在整体摘要视图中的可视比例问题，防止出现草图之间互相遮挡、超出摘要视图边界、摘要视图空白部分过多等现象，提出如下比例确定公式：

r_{i} = a * \sqrt{\frac{w * h}{Σ_{i = 1}^{n} w_{i} * h_{i}} * {contrib}_{i}}

其中α为一经验常数，w，h代表全局摘要视图的宽度、高度，w_i、h_i代表该帧图像的宽度、高度，

{Contrib}_{i} = \max (\frac{β_{i}}{Σ_{i = 1}^{n} β_{i}}, 0.1)

代表该草图对于整个摘要视图的贡献值，其中β是步骤二视频语义分析中所得到的该草图所对应的视频片段的重要程度。所得到的r_i则是该帧的缩放比例，原大小为(w_i，h_i)的视频帧缩放后大小为(w_i×r_i，h_i×r_i)。

其次，对于确定好大小的草图进一步确定其在全局摘要视图中所处位置。本发明综合考虑视频帧在视频中的出现顺序、帧与帧之间的相似关系、连接线出现的交叉点数目等因素，通过动态编程求解出使得目标函数最小的布局来作为最优布局。单幅草图在全局摘要视图中所处的位置可记录为：

P＝W_time*P_time+W_rel*P_rel+W_ovl*P_ovl+P_cross

目标函数由三部分组成：

(1)P_time，为时间序列损耗值，在布局中我们希望时间上靠前的帧所在位置总是要比时间上靠后的帧所在位置靠左和靠上，因此可以用不符合此规律的帧数目来作为时间序列损耗值的度量，记录为：

p_{time} = Σ_{i}^{n} δ x_{i} + Σ_{i}^{n} δ y_{i}

其中，

δ x_{i} = \{\begin{matrix} 0 & if x_{i} > x_{i - 1} \\ 1 & otherwise \end{matrix},

x_i和y_i分别是第i关键帧的坐标，n为关键帧总数。

(2)P_rel，代表镜头间的相似距离。在此，用镜头所对应的关键帧的相似度距离度量两个镜头间的相似距离，记录为：

P_{rel} = Σ_{i = 0}^{n} Σ_{j = 0}^{n} \frac{dist ({sketch}_{i}, {sketch}_{j})}{similarity ({sketch}_{i}, {sketch}_{j})}

其中，dist(sketch_i，sketch_j)为两幅草图中心之间的几何距离，

similarity(sketch_i，sketch_j)＝sum(fmat_i×fmat_j)

其中，fmat是特征矩阵，更多的视频语义特征可以加入该矩阵，在本文考虑视频语义分析中的场景分析、角色分析等基本信息作为特征，记录为：

(\begin{matrix} indoor / outdoor & face / noface \\ day / night & 0 \end{matrix})

(3)P_ovl代表草图之间的重叠程度。因为在此认为草图之间相互重叠过多会影响最终视频摘要生成的美观程度。

(4)P_cross，代表连接线交叉损耗值。

最后，渲染绘制草图之间的连接线。本发明以各关键帧所对应的草图的中心为连接线的起始点，通过草图之间的距离确定控制点参数，生成B样条曲线以实现各草图间的连接。

6、基于交互的语义草图补全

本发明以人工交互为辅助方式可以进一步对生成的视频摘要进行语义不全。传统的静态视频摘要强调***自动分析，较少考虑用户的主动参与，语义描述能力大多滞留在计算机自动分析水平阶段。然而，视频语义的分析与获取是研究视频处理中的难点，一些成熟的语义分析算法所获得语义信息是相对基本的语义信息，对于一些复杂的、具有较高层次的语义很难利用自动的方式获取。因此，本发明采用人工交互的补充方式对初始生成的视频摘要视图进行语义草图补全，进一步辅助描述部分难以通过现有视频处理方法获得的高层语义，使得草图摘要能够描述与表征更加丰富的视频内容。本发明设计了一组适宜于该应用需求的手势，用户在补全过程利用笔手势实现对视频高层语义或用户意图的补充，主要包括：描述用户意图的注释符号、描述视频音乐背景的音乐符号、描述视频角色对话的对话注释符号、描述视频对象情感特征的表情符号等。

综上，和现有技术相比，本发明具有的优点和积极效果如下：

1、本发明将草图用于视频摘要的生成过程中，利用草图能够表征包括视频对象运动路径、方向、情感等在内的动态的、或隐含的语义信息，有效的通过一种静态的表现方式描述动态的非可见信息，表达了更加丰富的视频内容，增强了静态视频摘要的描述能力。

2、本发明在生成摘要草图过程中，强调以用户意图为中心，支持用户的主动交互输入，能够有效地改善传统的视频摘要自动算法中未充分考虑用户意图的不足，免除自动提取草图时产生的各类无用或琐碎的信息，使得生成的草图摘要能够更加集中、有效的反应视频主要情节语义。

3、本发明提供了一种新的草图布局算法，算法除了考虑视频本身的时间先后顺序，也充分考虑了视频段的质量、重要程度等以用户关注度为中心的因素，使得生成的草图摘要更加符合用户的认知习惯。

附图说明

图1***概要说明图示

图2基于草图的视频摘要生成过程

图3(a)～(f)为关键帧提取

图4关键帧的草图风格化对比图示

(a)原始关键帧图像(b)Canny边缘检测生成的草图(c)交互式生成关键帧的草图

图5基于草图的视频摘要生成结果。

具体实施方式

为了使本技术领域的人员更好的理解本发明，以下结合附图进一步详细描述本发明所提供的基于草图的视频摘要生成方法，但不构成对本发明的限制。

1、选定要处理的视频资源，本示例中从某一著名电影中选取了一段长约5分钟的视频镜头作为对象；

2、采用前面步骤一、步骤二所述的方法对该视频段进行镜头分割、关键帧提取和视频语义分析等处理

3、采用前面步骤三中所述的关键帧筛选方法对前一步所得到的关键帧进行自动和手工两种方式的过滤，得到最终的关键帧，如附图3所示；

4、采用交互式方法针对每一关键帧图像生成静态形式的草图，如附图4；

5、对初始生成的草图进行处理，例如，采用B样条曲线进行平滑处理等，加入运动特征等语义草图，以增强草图的描述能力和表现效果；

6、对获得的一系列关键帧的草图按照布局算法进行自动布局。首先确定每幅帧图像的大小，然后综合考虑视频帧在视频中出现的顺序、帧与帧之间的关系和用于连接草图的连接线出现的交叉点数目等因素，求出对应的最优化布局，如附图5；

以上对本发明所述的生成草图形式的视频摘要方法进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于草图的视频摘要生成方法，其步骤为：

1)对视频进行镜头分割，并进行镜头筛选，得到关键帧；

2.如权利要求1所述的方法，其特征在于依据镜头表现内容的重要程度进行所述镜头筛选；所述镜头表现内容的重要程度的计算公式为：W_shot＝μt_shot+W_var，其中，μ＞0，t_shot为镜头中含有的图像帧数，W_var为镜头内部各帧的灰度直方图均方差，W_shot为镜头表现内容的重要程度。

3.如权利要求1所述的方法，其特征在于根据角色分析和场景分析结果，采用AdaBoost分类器对每个镜头的关键帧进行语义标定和分类，并定义镜头之间的语义转换类型。

4.如权利要求1所述的方法，其特征在于利用从帧图像中提取到的尺度不变特征变换算法特征点个数作为所述关键帧的图像质量评估值；利用所述角色分析中的人脸检测结果确定所述关键帧的语义重要程度。

5.如权利要求4所述的方法，其特征在于对所述关键帧的图像质量评估值进行归一化，并根据归一化后的所述关键帧的图像质量评估值和所述人脸检测结果，利用公式W_frame＝Q_t+μN_face对所述关键帧进行筛选，其方法为：设定一阈值w_threshold，如果得到的W_frame大于该阈值，就设定该帧为关键帧；其中，N_face为帧图像中检测到的人脸数目，μ＞0，Q_t为归一化的关键帧的图像质量评估值。

6.如权利要求5所述的方法，其特征在于利用笔手势对所述关键帧进行进一步删减。

7.如权利要求1或2或3或4或5或6所述的方法，其特征在于在所述视频关键对象的轮廓上均匀选取若干数目的点来生成B样条曲线，然后利用该B样条曲线代替所述视频关键对象的轮廓。

8.如权利要求1所述的方法，其特征在于首先预定义视频对象的运动特征与语义草图的映射关系；然后利用光流算法捕捉、跟踪视频对象的运动特征，根据所述运动特征和所述映射关系生成视频对象的语义草图；所述语义草图为描述视频对象隐含语义信息的草图；所述运动特征包括运动的类型、方向、强度信息。

9.如权利要求1所述的方法，其特征在于所述草图的大小确定方法为：首先计算每个草图的缩放比例r_i；然后根据缩放比例对相应的帧图像进行缩放，确定所述草图的大小；所述r_i的计算公式为

r_{i} = α * \sqrt{\frac{w * h}{Σ_{i = 1}^{n} w_{i} * h_{i}} * contri b_{i}},

Contri b_{i} = \max (\frac{β_{i}}{Σ_{i = 1}^{n} β_{i}}, 0.1)

10.如权利要求1所述的方法，其特征在于根据公式P＝W_time*P_time+W_rel*P_rel+W_ovl*P_ovl+P_cross确定所述草图所在位置；其中，P_time为时间序列损耗值，P_rel为镜头间的相似距离，P_ovl为草图之间的重叠程度，P_cross为连接线交叉损耗值；W_time为时间序列损耗值的权重系数、W_rel为镜头间的相似距离的权重系数、W_ovl为连接线交叉损耗值的权值系数。

11.如权利要求1所述的方法，其特征在于所述生成草图之间的连接线方法为：以草图的中心为连接线的起始点，通过草图之间的距离确定控制点参数，生成B样条曲线以实现对不同帧所对应草图的连接。

12.如权利要求1所述的方法，其特征在于采用笔手势对所述视频摘要进行补全；所述笔手势包括：描述用户意图的注释符号、描述视频音乐背景的音乐符号、描述视频角色对话的对话注释符号、描述视频对象情感特征的表情符号。