CN103942778A

CN103942778A - 一种主成分特征曲线分析的快速视频关键帧提取方法

Info

Publication number: CN103942778A
Application number: CN201410106838.9A
Authority: CN
Inventors: 陈晋音; 黄坚
Original assignee: HANGZHOU XISONG TECHNOLOGY Co Ltd
Current assignee: HANGZHOU XISONG TECHNOLOGY Co Ltd
Priority date: 2014-03-20
Filing date: 2014-03-20
Publication date: 2014-07-23

Abstract

本发明公开了一种主成分特征曲线分析的快速视频关键帧提取方法。该方法首先对视频图像帧提取视觉特征表达，接着对由所有视频图像帧特征所构成的特征矩阵X做PCA降维处理，得到图像低维特征表达Y，然后对Y中每一条特征曲线搜索曲线局部极值点，将曲线局部极值点所在的帧的图像低维特征表达加入到候选关键帧低维特征集合T中，最后对候选关键帧低维特征集合做K均值聚类，将距离聚类中心最近的候选关键帧低维特征所对应的原始视频序列图像帧作为最终视频关键帧返回，从而实现对视频关键帧的提取。本方法具有计算量小，简单易于实现的特点，能够有效地抵抗视频图像序列中存在的物体运动、颜色和光照等变化的影响。

Description

一种主成分特征曲线分析的快速视频关键帧提取方法

技术领域

本发明涉及视频关键帧提取技术，数据降维技术和聚类技术，尤其涉及采用聚类技术进行视频关键帧提前的方法。

背景技术

随着网络和多媒体技术的飞速发展，视频数据日益呈现出***式增长。对这些视频数据进行有效的管理和索引，就需要采用高效的视频镜头检测算法和视频关键帧提取算法。本发明所涉及的是视频关键帧提取技术，因此在下面对相关的视频关键帧提取技术进行简要回顾。

关键帧是指视频镜头中最重要、最具有代表性的图像帧，它包含了镜头所要表达的绝大多数语义信息。对视频提取关键帧，一方面可以便于用户对视频进行快速的浏览，另一方面将原先对整段视频进行处理的算法（如视频的识别，目标检测等），可以转化到对视频关键帧上进行相应的处理，从而提高算法的效率。

典型的视频关键帧提取算法，大致上可以划分为如下五类：

第一类方法是基于视频关键镜头边界提取关键帧。通常，这类方法将镜头的首帧和尾帧作为镜头的关键帧。相对而言，这类方法简单易行，关键帧数目确定，但是实际应用效果并不稳定。此外，这类方法依赖于镜头边界检测，实际上后者本身也是一个比较难处理的问题。

第二类方法是用计算相邻帧之间的距离来提取关键帧。比较典型的是使用曲线简化的方法。这类方法较为灵活，但是容易出现漏检的情况，所提取的关键帧也容易包含相似帧。

第三类方法是基于视频运动检测和分析的方法。比如Wolf采用光流法来分析视频中镜头。这类方法所需要的计算量比较大，算法效率并不高，但是所提取的关键帧比较符合视频运动信息。

第四类方法是采用各种聚类方法。这类方法是对视频按照其视觉特征进行聚类，然后将每类的聚类中心帧，作为视频的关键帧。这类方法所提取的关键帧数目确定，存在的不足之处在于只有当视频帧之间存在比较明显的聚类特性的时候，同时聚类数目与真实的数据聚类分布比较一致的时候，算法效果比较好。否则，由于聚类算法本身所存在的限制，导致无法准确提取出关键帧。

第五类方法是采用最优化问题求解的思路。这类方法通常是将视频关键帧提取问题转化为等价的最优化问题，然后采用特定的优化求解算法来优化相应的数学模型，最后根据优化的结果来提取视频的关键帧。

本发明所提出的方法属于第四类方法，通过将视频图像提取多种视觉特征表达，直接对图像特征矩阵做PCA出来，克服视频训练中存在的物体运动、颜色和光照等变化所带来的影响，接着通过对主成分特征曲线做曲线分析，搜索曲线局部极值点，得到候选的关键帧低维特征集合，最后在候选关键帧低维特征集合上做K均值聚类，将距离聚类中心最近的候选关键帧低维特征所对应的原始视频序列中的图像帧作为最终视频关键帧返回，从而实现对视频关键帧的提取。

发明内容

本发明的目的是克服现有视频关键帧提取算法的不足，提供一种主成分特征曲线分析的快速视频关键帧提取方法。

主成分特征曲线分析的快速视频关键帧提取方法包括如下步骤：

1)对于一段包含n帧视频图像的视频序列，提取视频序列中所有图像上的SIFT，HOG，GIST和PHOI四种图像视觉特征，并将这四种图像视觉特征依次拼接起来，得到视频序列图像帧特征所构成的特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n，其中d为图像视觉特征的维度；

2)对特征矩阵X做PCA降维处理：先将特征矩阵X中每列减去均值向量即得到接着对做特征值分解，保留前m个最大的特征值所对应的特征向量，将这m个特征向量组成低维特征投影矩阵W＝[v₁,v₂,...,v_m]∈R^d×m，最后得到图像低维特征表达Y＝W^TX＝[y₁,y₂,...,y_n]∈R^m×n，其中y_i为视频序列第i帧所对应的低维特征表达；

3)将图像低维特征表达Y按行看成是m条随时序变化的主成分特征曲线，对每一条主成分特征曲线进行分析，搜索特征曲线局部极值点，将特征曲线局部极值点所对应的视频图像帧的低维特征表达加入到候选关键帧低维特征集合T中，得到候选关键帧低维特征集T＝{y_i|y_i∈set(Y)∧y_i是特征曲线局部极值点所对应的视频帧的低维特征表达}，其中set(Y)＝{y₁,y₂,...,y_n}是Y所对应的集合表示；

4)对候选关键帧低维特征集合T做K均值聚类，得到P个聚类中，将距离聚类中心最近的P个候选关键帧低维特征所对应的原始视频序列中的图像帧作为最终视频关键帧返回，从而实现对视频关键帧的提取。

本方法具有计算量小，简单易于实现的特点，能够有效的抵抗视频图像序列中存在的物体运动、颜色和光照等变化的影响，可以实现快速视频图像关键帧提取功能。

附图说明

图1是一段自然风景视频的关键帧提取结果图；

图2是一段太极运动视频的关键帧提取结果图；

图3是一段新闻报道视频的关键帧提取结果图；

图4是一段日常行为视频的关键帧提取结果图。

具体实施方式

1)对于一段包含n帧视频图像的视频序列，提取视频序列中所有图像上的SIFT[1]，HOG[2]，GIST[3]和PHOI[4]四种图像视觉特征，并将这四种图像视觉特征依次拼接起来，得到视频序列图像帧特征所构成的特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n，其中d为图像视觉特征的维度；

参考文献

http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

http://en.wikipedia.org/wiki/Histogram_of_oriented_gradients

Oliva,Aude,and Antonio Torralba."Modeling the shape of the scene:A holistic representation of thespatial envelope."International journal of computer vision42.3(2001):145-175.

http://www.vlfeat.org/

实施例1

对一段包含11096帧的自然风景视频序列，按照前面所述的方法：

1)从视频帧图像中提取SIFT，HOG，GIST和PHOI四种图像视觉特征，总计500+576+512+2040=3628维的特征表达，将上述四种类型的图像视觉特征依次拼接起来，得到该视频序列图像帧特征所构成的特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n，其中d为3628维，n＝11096；

2)对特征矩阵X做PCA降维处理，得到500维的图像低维特征表达Y＝W^TX＝[y₁,y₂,...,y_n]∈R^m×n，其中y_i为视频序列第i帧所对应的低维特征表达；

4)对候选关键帧低维特征集合T做K均值聚类，得到15个聚类中心，将距离聚类中心最近的15个候选关键帧低维特征所对应的原始视频序列中的图像帧作为最终视频关键帧返回，结果如图1所示。

实施例2

对一段包含12444帧的太极运动视频视频序列，按照前面所述的方法：

4)从视频帧图像中提取SIFT，HOG，GIST和PHOI四种图像视觉特征，总计500+576+512+2040=3628维的特征表达，将上述四种类型的图像视觉特征依次拼接起来，得到该视频序列图像帧特征所构成的特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n，其中d为3628维，n＝12444；

5)对特征矩阵X做PCA降维处理，得到500维的图像低维特征表达Y＝W^TX＝[y₁,y₂,...,y_n]∈R^m×n，其中y_i为视频序列第i帧所对应的低维特征表达；

6)将图像低维特征表达Y按行看成是m条随时序变化的主成分特征曲线，对每一条主成分特征曲线进行分析，搜索特征曲线局部极值点，将特征曲线局部极值点所对应的视频图像帧的低维特征表达加入到候选关键帧低维特征集合T中，得到候选关键帧低维特征集T＝{y_i|y_i∈set(Y)∧y_i是特征曲线局部极值点所对应的视频帧的低维特征表达}，其中set(Y)＝{y₁,y₂,...,y_n}是Y所对应的集合表示；

4)对候选关键帧低维特征集合T做K均值聚类，得到20个聚类中心，将距离聚类中心最近的20个候选关键帧低维特征所对应的原始视频序列中的图像帧作为最终视频关键帧返回，结果如图2所示。

实施例3

对一段包含2340帧的BBC新闻视频序列，按照前面所述的方法：

7)从视频帧图像中提取SIFT，HOG，GIST和PHOI四种图像视觉特征，总计500+576+512+2040=3628维的特征表达，将上述四种类型的图像视觉特征依次拼接起来，得到该视频序列图像帧特征所构成的特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n，其中d为3628维，n＝2340；

8)对特征矩阵X做PCA降维处理，得到500维的图像低维特征表达Y＝W^TX＝[y₁,y₂,...,y_n]∈R^m×n，其中y_i为视频序列第i帧所对应的低维特征表达；

9)将图像低维特征表达Y按行看成是m条随时序变化的主成分特征曲线，对每一条主成分特征曲线进行分析，搜索特征曲线局部极值点，将特征曲线局部极值点所对应的视频图像帧的低维特征表达加入到候选关键帧低维特征集合T中，得到候选关键帧低维特征集T＝{y_i|y_i∈set(Y)∧y_i是特征曲线局部极值点所对应的视频帧的低维特征表达}，其中set(Y)＝{y₁,y₂,...,y_n}是Y所对应的集合表示；

4)对候选关键帧低维特征集合T做K均值聚类，得到20个聚类中心，将距离聚类中心最近的20个候选关键帧低维特征所对应的原始视频序列中的图像帧作为最终视频关键帧返回，结果如图3所示。

实施例4

对一段包含540帧的日常行为视频序列，按照前面所述的方法：

10)从视频帧图像中提取SIFT，HOG，GIST和PHOI四种图像视觉特征，总计500+576+512+2040=3628维的特征表达，将上述四种类型的图像视觉特征依次拼接起来，得到该视频序列图像帧特征所构成的特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n，其中d为3628维，n＝540；

11)对特征矩阵X做PCA降维处理，得到300维的图像低维特征表达Y＝W^TX＝[y₁,y₂,...,y_n]∈R^m×n，其中y_i为视频序列第i帧所对应的低维特征表达；

12)将图像低维特征表达Y按行看成是m条随时序变化的主成分特征曲线，对每一条主成分特征曲线进行分析，搜索特征曲线局部极值点，将特征曲线局部极值点所对应的视频图像帧的低维特征表达加入到候选关键帧低维特征集合T中，得到候选关键帧低维特征集T＝{y_i|y_i∈set(Y)∧y_i是特征曲线局部极值点所对应的视频帧的低维特征表达}，其中set(Y)＝{y₁,y₂,...,y_n}是Y所对应的集合表示；

4)对候选关键帧低维特征集合T做K均值聚类，得到20个聚类中心，将距离聚类中心最近的20个候选关键帧低维特征所对应的原始视频序列中的图像帧作为最终视频关键帧返回，结果如图4所示。

Claims

1.一种主成分特征曲线分析的快速视频关键帧提取方法，其特征在于包括如下步骤：