CN103150373A

CN103150373A - 一种高满意度视频摘要生成方法

Info

Publication number: CN103150373A
Application number: CN2013100751468A
Authority: CN
Inventors: 罗森林; 谢尔曼; 潘丽敏; 马舒洁; 高晓芳; 吕英
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2013-06-12

Abstract

本发明涉及一种高满意度视频摘要生成方法。本发明基于视频数据结构的特点，设计、实现了一种基于镜头聚类的视频摘要***，该***主要功能包括：多类型视频文件的编解码和播放，镜头边界检测，关键帧提取，镜头聚类，静态视频摘要，用户输入时间动态摘要的生成等。本发明适合多媒体文件管理、视频检索、影视库建设等应用场合。

Description

一种高满意度视频摘要生成方法

技术领域

本发明涉及一种高满意度视频摘要生成方法，属于多媒体信息处理领域，具体来说，属于视频信息处理领域。

背景技术

随着数字视频资源数量的迅速增加，表示、理解和提取视频结构来提供视频内容浏览和检索服务变得十分重要。其中，基于内容的视频分析技术就是其主要任务。基于内容的视频分析是指使用计算机对包含图像和声音的视频数据进行语义上的分析和理解。它的快速发展产生了很多新的相关技术研究成果和应用。在这些新兴的研究领域中，有一些应用和研究针对的问题是如何利用对视频内容的分析来减小视频存储、分类和索引的代价，以及如何提高视频的使用效率，可用性和可访问性。这就是视频摘要技术。

视频摘要技术是以自动或半自动的方式对视频的结构和内容进行分析，从原视频中提取出有意义的部分，并将它们以某种方式进行组合，形成简洁的能够充分表现视频语义内容的概要。它是对长视频内容的简短总结，通常用一段静态或者动态的图像序列来表示，并对原始信息予以保留[2]。因此它可以提供给人们一个有关原始视频基本内容的较为精练的信息，其内容可以概括原始视频的主要内容，但其长度却要比原始视频短得多。

目前视频摘要的生成方法大致可以分为四类：

1.简单的生成方法。主要有两种。一是基于时间对视频进行采样，即每隔一段时间抽取一个代表帧或者一个片段；二是快速回放的方法，通过加快帧率达到缩短播放时间的目的。这两种方法比较简单，但完全没有基于视频的内容，效果很不可靠。

2.基于视觉信息的生成方法。根据视频中颜色、纹理、形状、运动方向和强度等视觉信息，应用各种视频和图像处理技术，进行镜头探测、关键帧提取、场景聚类、运动特征提取等一系列操作，最终生成具有代表性的关键帧序列或缩略视频。这种算法完全基于视觉特征，而忽略了音频、字幕等信息对表现视频所起的作用。美国Palo Alto实验室生成的故事板（漫画书）的研究是其中的典型代表。

3.融合多特征的生成方法。该方法在基于视觉方法的基础上融入其它媒体提供的信息，来更准确的判断视频片段的重要程度。例如，采用人脸识别技术来探测新闻中重要人物的出现，采用音频处理技术来探测体育视频中的精彩片段等等。这种算法是目前研究的热点，当前大多数视频摘要方法都是基于这种思想的。

4.基于视频句法语义的生成方法。该方法不追求用模式识别技术获取视频中的数据语义，而是从视频的句法结构分析入手，探寻镜头与镜头之间、场景与场景之间的结构规则，从中分析出编导人员试图借此表现的情感和氛围，并以此为基础，将视频的句法语义尽可能完整地保存到摘要当中。这种方法的典型代表是Columbia大学Harri等人提出的基于句法语义的效用模型。这是一种新的思路，在视频模式识别技术还远远不够完善的今天，这种方法不失为生成视频摘要的一个新途径。

总的来说，视频摘要生成问题是十分复杂的，如果真正做到对环境不加任何限制，要想实现既实时快速又稳定高效的摘要生成***是非常困难的。摘要生成技术研究比较早，从现有资料来看，还存在许多问题，没有一个实现稳定实时的实际***，特别是从用户满意度的角度来看，满意度不足，仍是各种方法普遍存在的问题。

发明内容

本发明的目标是：实现一种基于镜头聚类的视频摘要***，该***主要功能包括：多类型视频文件的编解码和播放，镜头边界检测，关键帧提取，镜头聚类，静态视频摘要，用户输入时间动态摘要的生成等。

本发明的技术方案是通过如下步骤实现的：

(1)检测镜头；(2)提取每个镜头的关键帧；(3)将所有镜头按照视觉相似性分组；(4)从镜头组中提取代表帧作为静态摘要；(5)在前3步基础上，首先确定各镜头组的重要程度，再为重要程度高的镜头组分配更多的帧数，最终使用从个镜头组选取的视频帧生成摘要视频，整体过程如图1所示。

上述处理流程的具体步骤为：

步骤1，检测镜头，整体流程如图2所示，具体步骤为：

步骤1.1图像预处理。即对图像进行中值滤波预处理，提高检测的准确度。

步骤1.2闪光检测。采用基于亮度帧差的方法，整体过程如图2所示，具体方法如下：

(1)在一个窗口中取16帧图像，计算得到15个相邻帧间的亮度帧间差；

(2)计算这15个帧间亮度差值的平均值，记为VDiff_av15；

(3)获取闪光检测的阈值，T_flush=σ×VDiff_av15，选取σ=5.5；

(4)依次比较帧间差与T_flush的大小；定义当前帧差为第n帧和第n+1帧的帧间差，若当前帧差大于T_flush，且下一相邻帧差也大于T_flush，则判定第n+1帧处有闪光发生；否则，没有闪光发生。

步骤1.3切变检测。采用亮度帧差作为切变检测特征，具体过程描述如下：

(1)在一个窗口中计算得到15个相邻帧间的亮度帧间差；

(2)计算这15个帧间亮度差值的平均值VDiff_15av；

(3)计算15个亮度帧差到该视频段亮度帧差均值VDiff_15av的距离VDist(i)；

(4)计算切变检测的高阈值（Th_shot）和低阈值（Tl_shot）；

(5)依次比较当前相邻帧差与该视频段亮度帧差均值VDiff_15av，同时比较各VDist(i)与切变的高阈值Th_shot和低阈值Tl_shot，若满足判定条件，则发生切变，否则，移窗，转(1)。

所述切变的判别条件为：

(1)视频段中第j个亮度帧差大于该视频段亮度帧差均值，且第j-1和第j+1个亮度帧差小于均值；

(2)视频段中第j个亮度帧差到该视频段亮度帧差均值距离大于高阈值，且第j-1和第j+1个亮度帧差到均值距离小于低阈值。

同时满足上述两个条件，则认为第j-1与第j帧之间发生了切变。

步骤1.4渐变检测

渐变检测以步骤1.3切变检测的结果为基础，对连续两次切变之间的视频帧序列进行渐变检测。具体过程描述如下：

(1)取两个切变镜头之间的所有帧，计算相邻帧间的颜色帧差；

(2)统计该视频段中颜色帧差的数量级直方图，以直方图最大的颜色帧差数量级为基准值，对颜色帧差进行0、1量化；

(3)对量化结果进行平滑，剔除毛刺；

(4)根据判定依据确定渐变段、渐变起始帧号和终止帧号。

渐变检测是在完成切变检测后，依据切变检测结果，依次读取相邻两次切变之间的视频帧序列进行渐变检测，直到源视频帧序列的末尾。

步骤2，在步骤1的基础上，提取每个镜头的关键帧。整体流程如图3所示，具体过程如下：

步骤2.1按时间将镜头分为子镜头，具体描述如下：

(1)计算镜头内所有相邻帧间的颜色直方图距离的均值av_CDiff，公式如下。

av_CDiff = \frac{Σ_{i = nStart}^{nEnd - 1} CDiff (i, i + 1)}{nEnd - nStart}

CDiff (i, i + 1) = {(1 - \frac{Σ_{k = 0}^{255} [\min ({hr}_{i} (k), {hr}_{i + 1} (k)) + \min ({hg}_{i} (k), {hg}_{i + 1} (k)) + \min ({hb}_{i} (k), {hb}_{i + 1} (k))]}{Σ_{k = 0}^{255} [{hr}_{i} (k) + {hg}_{i} (k) + {hb}_{i} (k)]})}^{b},

上式中，b为调节指数；

(2)计算所有相邻帧间颜色直方图距离到均值的距离之和(记为DistSum)，取平均，记为av_DistSum；

(3)按照下式计算阈值：

T＝av_CDiff+av_DistSum×β

其中，β为微调参数。

(4)记nShotStart=镜头起始帧号，nShotEnd=镜头终止帧号；

(5)记nFrom＝nShotStart作为基准帧；

(6)从i＝nShotStart+1帧开始，计算后续各帧与基准帧之间的颜色直方图差值CDiff(nFrom,i)，并与阈值T比较；

●若CDiff(nFrom,i)＞T，且i!＝nShotEnd，提取nFrom与i-1帧之间最接近该段所有帧图像颜色直方图均值的图像作为关键帧，并重置基准帧nFrom＝i，继续关键帧提取，直到i＝nShotEnd；

●若i＝＝nShotEnd，提取nFrom与i帧之间最接近该段所有帧图像颜色直方图均值的图像作为关键帧。

步骤2.2子镜头关键帧集合聚类，具体方法描述如下：

(1)将上一步获取的关键帧集合中的所有关键帧各分一类；

(2)通过距离均值确定两个关键帧类的距离，寻找距离最近的两个关键帧类，记距离mindiff；

(3)若mindiff≤T+α，则合并两个关键帧类，将类号大的归入到类号小的类中。转到(2)；否则mindiff>T+α，两类间的最小距离大于阈值，则退出。α为微调参数。

步骤3，在步骤2的基础上，将所有镜头按照视觉相似性分组，整体流程如图4所示，具体过程如下：

步骤3.1，使用层次聚类确定初始分类

(1)计算视频内两两镜头相似度的均值av_Sim，公式如下；

av_Sim = \frac{Σ_{i = 1}^{nShotSum} Σ_{j = i + 1}^{nShotSum} S (i, j)}{nShotSum (nShotSum - 1) / 2}

其中，nShotSum为视频内的镜头总数。

(2)根据下式计算阈值；

T = \{\begin{matrix} av_Sim + 0.15 & av_sim \leq 0.55 \\ av_Sim + 0.05 & 0.55 < av_Sim \leq 0.75 \\ av_Sim & av_Sim > 0.75 \end{matrix}

(3)将所有镜头各分一类；

(4)对所有镜头进行循环：

●找到最相似的两镜头类i,j，设相似度为maxsim；

●若maxsim≥T，则合并i,j，将类号大的归入到类号小的类中。否则maxsim＜T，两类间的最大相似度小于阈值，则退出循环。

步骤3.2，使用K均值聚类重定位结果，具体步骤为：

(1)将层次聚类的输出作为K均值聚类的初始分类；

(2)对所有镜头进行循环：

●对任意一个镜头，通过计算该镜头与类中各镜头相似度的均值确定它与各镜头类的相似度；

●若该镜头和某类的相似度大于它与自身类的相似度，则将它重定位到相似度较大的类中；

(3)判断在循环中是否有镜头类号发生变化，若有，转到（2），否则在该次循环中所有镜头类号均没有变化，则退出循环。

步骤4，在步骤3的基础上，生成静态摘要。

步骤3通过镜头聚类把所有镜头聚合成了多个镜头组，从每个镜头组的关键帧集合中提取一帧作为代表帧；再集合所有代表帧，就可以得到静态视频摘要。

所述镜头组代表帧的计算方法为：依次计算关键帧集合中每个元素与其余各元素的相似度之和，该值最大的关键帧即为本镜头组的代表帧。

步骤5，在步骤3的基础上，生成动态摘要。整体流程如图5所示，具体步骤如下：

步骤5.1，剔除贡献度较小的镜头组

确定各镜头组权重之前，先剔除那些对反映内容贡献很小的镜头组，算法如下：

(1)计算每个镜头组包含的图像帧总数F_i；

(2)计算阈值

T_{w} = \frac{S_{nFrame}}{S_{nShot}} \times β

其中，S_nFrame为视频包含图像帧数，S_nShot为视频包含镜头数，β为调节因子，取β=2；

(3)若F_i<T_w，则该镜头组为无用镜头组。

步骤5.2，确定镜头组的权重

镜头组权重的计算原则是：镜头组的时间越长，包含的内容越丰富，权重就越大。具体算法为：

(1)计算各镜头组包含的图像帧总数F_i。

(2)计算各镜头组关键帧集合的主色直方图的平均值：

H_{av} (i) = \frac{Σ_{k = 1}^{S_{nKeyFrame}} H_{k} (i)}{S_{nKeyFrame}}

其中，S_nKeyFrame为镜头组包含的关键帧总数，H_k(i)为第k个关键帧的主颜色直方图。

(3)若S_nKeyFrame>1，通过公式(6)计算每个镜头组的关键帧集合的主颜色直方图差异度S_i，否则S_i为所有S_nKeyFrame>1的镜头组S_i的最小值：

S_{i} = Σ_{k = 1}^{S_{nKeyFrame}} D (k) - - - (6)

其中，D(k)为第k个关键帧的主颜色直方图与主颜色直方图均值的距离。

(4)计算镜头组的重要度：I_i=S_i×F_i

(5)计算所有镜头组重要度总和：

I_{s} = Σ_{i = 1}^{S_{nCluster}} I_{i}

(6)各镜头组的权重

步骤5.3，动态摘要生成

设s为用户指定的摘要时长与原始视频时长的比值，则具体生成算法描述如下：

(1)计算摘要视频所需图像帧数：

S_nSCFrame=S_nFrame×s

(2)获取有用镜头组集合及各镜头组在摘要视频中所占权重W_i；

(3)对于各有用镜头组，根据镜头组权重计算镜头组所需图像帧数：

F_Si=S_nSCFrame×W_i；

(4)提取各镜头组中的视频帧：

●提取质心镜头：若F_Si>F_nCenter，提取质心镜头全部帧，令F_Si=F_Si-F_nCenter；否则提取质心镜头的前F_Si帧，跳到(5)；

●提取首镜头：若F_Si>F_nFirst，提取首镜头全部帧，令F_Si=F_Si-F_nFirst；否则提取首镜头的前F_Si帧，跳到(5)；

●提取尾镜头：若F_Si>F_nEnd，提取尾镜头全部帧，令F_Si=F_Si-F_nEnd；否则提取尾镜头的前F_Si帧，跳到(5)；

●计算剩余镜头与质心镜头、首镜头与尾镜头的距离，按照从小到大排序；

(5)按照排序依次保留各镜头的前36帧（不足的保留全部帧），直到总帧数达到F_Si为止。

有益效果

本发明提出的镜头边界检测算法改善了渐变检测的性能，在镜头检测的准确性和全面性方面优势更加突出。

本发明提出的基于子镜头聚类的关键帧提取算法，在保证了关键帧提取的低漏选率的同时，又做到了关键帧提取的低错误率和低冗余率要求。

本发明提出的基于镜头间相似度的镜头聚类算法，利用帧间主颜色直方图特征计算帧间相似度，使用层次聚类确定初始分类，使用K均值聚类重定位结果，具有较高的聚类准确率。

本发明设计、实现的视频静、动态摘要***，实现了视频编解码、视频播放、视频镜头边界检测、关键帧提取、镜头聚类、静态摘要生成、用户输入时间动态摘要生成等功能，具有更高的准确率，具有较高的实用价值。

附图说明

图1为本发明的原理框图；

图2为本发明提出的镜头边界检测流程图；

图3为本发明提出的关键帧提取原理图；

图4为本发明的镜头分组原理图；

图5为本发明提出的动态摘要生成原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面采用镜头节奏不等的五个MTV视频（三个中国，两个欧美）作为数据源（各MTV详细信息如下表1所示），对本发明方法的实施方式做进一步详细说明。

表1实施例数据源信息

以下所有测试均在同一台计算机上完成，具体配置为：Intel双核CPU（主频1.8G），1G内存，WindowsXP SP3操作***。

静态摘要的目的是为了表现视频中所有镜头组的信息，所以本文采用镜头组的查全率和查准率作为静态摘要的评价指标。

对于动态摘要，本文通过给出在一系列特定摘要压缩比（SummaryCompression Ratio，SCR）下的用户满意度（User Satisfaction，US）来评价***。SCR为摘要视频帧数占原视频帧数的比例，US是一个0–10之间的数值，它是浏览者综合考虑动态摘要反映原始视频主要内容的程度、动态摘要的可理解程度和可观赏度给出的评分。

同时，采用提取用时对***的时间效率进行评价。提取用时是利用视频摘要***提取一个MTV视频的静态摘要和动态摘要所需时间。

采纳23名学生的评分进行终统计，为了减少评估者评测的主观性和随意性，评测前首先告诉评估者评测的次序：先观看原始视频，再浏览动态摘要。具体步骤描述如下：

(1)利用MTV视频摘要***处理数据源中的一个视频，生成静态摘要和摘要压缩比为2-9的动态摘要；

(2)计算镜头组的查全率和查准率；

(3)评估者依次给出各个压缩比下的动态摘要的用户满意度；

(4)取均值，获取各个压缩比下的动态摘要的平均用户满意度；

(5)记录视频静&动态视频摘要提取用时；

(6)对数据源的其它视频依次重复步骤(1)-(5)；

(7)计算镜头组平均查全率、查准率。

上述步骤中，每个MTV视频的静态摘要、动态摘要的生成步骤为：

步骤1，检测镜头，整体流程如图2所示，具体步骤为：

(2)计算这15个帧间亮度差值的平均值，记为VDiff_av15；

(3)获取闪光检测的阈值，T_flush=σ×VDiff_av15，选取σ=5.5；

(1)在一个窗口中计算得到15个相邻帧间的亮度帧间差；

(2)计算这15个帧间亮度差值的平均值VDiff_15av；

(4)计算切变检测的高阈值（Th_shot）和低阈值（Tl_shot）；

所述切变的判别条件为：

步骤1.4渐变检测

(3)对量化结果进行平滑，剔除毛刺；

(4)根据判定依据确定渐变段、渐变起始帧号和终止帧号。

步骤2.1按时间将镜头分为子镜头，具体描述如下：

av_CDiff = \frac{Σ_{i = nStart}^{nEnd - 1} CDiff (i, i + 1)}{nEnd - nStart}

CDiff (i, i + 1) = {(1 - \frac{Σ_{k = 0}^{255} [\min ({hr}_{i} (k), {hr}_{i + 1} (k)) + \min ({hg}_{i} (k), {hg}_{i + 1} (k)) + \min ({hb}_{i} (k), {hb}_{i + 1} (k))]}{Σ_{k = 0}^{255} [{hr}_{i} (k) + {hg}_{i} (k) + {hb}_{i} (k)]})}^{b},

上式中，b为调节指数；

(3)按照下式计算阈值：

T＝av_CDiff+av_DistSum×β

其中，β为微调参数。

(4)记nShotStart=镜头起始帧号，nShotEnd=镜头终止帧号；

(5)记nFrom＝nShotStart作为基准帧；

步骤2.2子镜头关键帧集合聚类，具体方法描述如下：

(1)将上一步获取的关键帧集合中的所有关键帧各分一类；

步骤3.1，使用层次聚类确定初始分类

(1)计算视频内两两镜头相似度的均值av_Sim，公式如下；

av_Sim = \frac{Σ_{i = 1}^{nShotSum} Σ_{j = i + 1}^{nShotSum} S (i, j)}{nShotSum (nShotSum - 1) / 2}

其中，nShotSum为视频内的镜头总数。

(2)根据下式计算阈值；

T = \{\begin{matrix} av_Sim + 0.15 & av_Sim \leq 0.55 \\ av_Sim + 0.05 & 0.55 < av_Sim \leq 0.75 \\ av_Sim & av_Sim > 0.75 \end{matrix}

(3)将所有镜头各分一类；

(4)对所有镜头进行循环：

●找到最相似的两镜头类i,j，设相似度为maxsim；

步骤3.2，使用K均值聚类重定位结果，具体步骤为：

(1)将层次聚类的输出作为K均值聚类的初始分类；

(2)对所有镜头进行循环：

步骤4，在步骤3的基础上，生成静态摘要。

步骤5.1，剔除贡献度较小的镜头组

(1)计算每个镜头组包含的图像帧总数Fi；

(2)计算阈值

T_{w} = \frac{S_{nFrame}}{S_{nShot}} \times β

(3)若F_i<T_w，则该镜头组为无用镜头组。

步骤5.2，确定镜头组的权重

(1)计算各镜头组包含的图像帧总数F_i。

(2)计算各镜头组关键帧集合的主色直方图的平均值：

H_{av} (i) = \frac{Σ_{k = 1}^{S_{nKeyFrame}} H_{k} (i)}{S_{nKeyFrame}}

S_{i} = Σ_{k = 1}^{S_{nKeyFrame}} D (k) - - - (6)

(4)计算镜头组的重要度：I_i=S_i×F_i

(5)计算所有镜头组重要度总和：

I_{s} = Σ_{i = 1}^{S_{nCluster}} I_{i}

(6)各镜头组的权重

步骤5.3，动态摘要生成

(1)计算摘要视频所需图像帧数：

S_nSCFrame=S_nFrame×s

F_Si=S_nSCFrame×W_i；

(4)提取各镜头组中的视频帧：

测试结果如下表所示。

表2镜头组查全率和查准率

表3动态摘要的平均用户满意度(US)

由表2可见，对于各类MTV，镜头组的平均查全率和查准率均为86.25%，生成的视频摘要能较好地反映视频的镜头组信息。同时，表2的数据也客观地反映了动态摘要在内容完整度方面的性能。

从表3中可以看出，随着摘要压缩比的提高，用户满意度逐渐降低，但是对于各视频，在压缩比小于5时，用户满意度均在7.5以上，说明用户对动态摘要的结果比较满意。

Claims

1.一种基于镜头聚类的高理解度视频摘要***，其特征在于，所述方法包括以下步骤：

步骤1，镜头检测。

步骤2，提取每个镜头的关键帧。

步骤3，将所有镜头按照视觉相似性分组。

步骤4，从镜头组中提取代表帧作为静态摘要。

步骤5，动态摘要生成。

2.根据权利要求1所述的方法，其特征在于，所述镜头检测方法的具体步骤为：

步骤1图像预处理。即对图像进行中值滤波预处理，提高检测的准确度。

步骤2闪光检测。采用基于亮度帧差的方法，整体过程如图2所示，具体方法如下：

(2)计算这15个帧间亮度差值的平均值，记为VDiff_av15；

(3)获取闪光检测的阈值，T_flush=σ×VDiff_av15，选取σ=5.5；

步骤3切变检测。采用亮度帧差作为切变检测特征，具体过程描述如下：

(1)在一个窗口中计算得到15个相邻帧间的亮度帧间差；

(2)计算这15个帧间亮度差值的平均值VDiff_15av；

(4)计算切变检测的高阈值（Th_shot）和低阈值（Tl_shot）；

所述切变的判别条件为：

步骤4渐变检测

(3)对量化结果进行平滑，剔除毛刺；

(4)根据判定依据确定渐变段、渐变起始帧号和终止帧号。

3.根据权利要求1所述的方法，其特征在于，所述每个镜头的关键帧的提取步骤具体包括：

步骤1按时间将镜头分为子镜头，具体描述如下：

av_CDiff = \frac{Σ_{i = nStart}^{nEnd - 1} CDiff (i, i + 1)}{nEnd - nStart}

CDiff (i, i + 1) = {(1 - \frac{Σ_{k = 0}^{255} [\min ({hr}_{i} (k), {hr}_{i + 1} (k)) + \min ({hg}_{i} (k), {hg}_{i + 1} (k)) + \min ({hb}_{i} (k), {hb}_{i + 1} (k))]}{Σ_{k = 0}^{255} [{hr}_{i} (k) + {hg}_{i} (k) + {hb}_{i} (k)]})}^{b},

上式中，b为调节指数；

(3)按照下式计算阈值：

T＝av_CDiff+av_DistSum×β

其中，β为微调参数。

(4)记nShotStart=镜头起始帧号，nShotEnd=镜头终止帧号；

(5)记nFrom＝nShotStart作为基准帧；

步骤2子镜头关键帧集合聚类，具体方法描述如下：

(1)将上一步获取的关键帧集合中的所有关键帧各分一类；

4.根据权利要求1所述的方法，其特征在于，所述将所有镜头按照视觉相似性分组的方法为：

步骤1，使用层次聚类确定初始分类

(1)计算视频内两两镜头相似度的均值av_Sim，公式如下；

av_Sim = \frac{Σ_{i = 1}^{nShotSum} Σ_{j = i + 1}^{nShotSum} S (i, j)}{nShotSum (nShotSum - 1) / 2}

其中，nShotSum为视频内的镜头总数。

(2)根据下式计算阈值；

T = \{\begin{matrix} av_Sim + 0.15 & av_Sim \leq 0.55 \\ av_Sim + 0.05 & 0.55 < av_Sim \leq 0.75 \\ av_Sim & av_Sim > 0.75 \end{matrix}

(3)将所有镜头各分一类；

(4)对所有镜头进行循环：

●找到最相似的两镜头类i,j，设相似度为maxsim；

步骤2，使用K均值聚类重定位结果，具体步骤为：

(1)将层次聚类的输出作为K均值聚类的初始分类；

(2)对所有镜头进行循环：

5.根据权利要求1所述的方法，其特征在于，所述从镜头组中提取代表帧作为静态摘要的具体方法为：

从每个镜头组的关键帧集合中提取一帧作为代表帧；再集合所有代表帧，就可以得到静态视频摘要。所述镜头组代表帧的计算方法为：依次计算关键帧集合中每个元素与其余各元素的相似度之和，该值最大的关键帧即为本镜头组的代表帧。

6.根据权利要求5所述的方法，其特征在于，所述动态摘要的具体步骤为：

步骤1，剔除贡献度较小的镜头组

(1)计算每个镜头组包含的图像帧总数F_i；

(2)计算阈值

T_{w} = \frac{S_{nFrame}}{S_{nShot}} \times β

(3)若F_i<T_w，则该镜头组为无用镜头组。

步骤2，确定镜头组的权重

(1)计算各镜头组包含的图像帧总数F_i。

(2)计算各镜头组关键帧集合的主色直方图的平均值：

H_{av} (i) = \frac{Σ_{k = 1}^{S_{nKeyFrame}} H_{k} (i)}{S_{nKeyFrame}}

S_{i} = Σ_{k = 1}^{S_{nKeyFrame}} D (k) - - - (6)

(4)计算镜头组的重要度：I_i=S_i×F_i

(5)计算所有镜头组重要度总和：

I_{s} = Σ_{i = 1}^{S_{nCluster}} I_{i}

(6)各镜头组的权重

步骤3，动态摘要生成

(1)计算摘要视频所需图像帧数：

S_nSCFrame=S_nFrame×s

F_Si=S_nSCFrame×W_i；

(4)提取各镜头组中的视频帧：