CN105025392A

CN105025392A - 基于摘要空间特征学习的视频摘要关键帧提取方法

Info

Publication number: CN105025392A
Application number: CN201510357360.1A
Authority: CN
Inventors: 李学龙; 卢孝强; 赵斌
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2015-11-04
Anticipated expiration: 2035-06-25
Also published as: CN105025392B

Abstract

本发明公开了一种基于摘要空间特征学习的视频摘要关键帧提取方法，用于解决现有视频摘要关键帧提取方法提取的关键帧质量差的技术问题。技术方案是对视频帧进行均匀采样，并对采样后的每一帧提取颜色直方图特征，将视频帧的特征矩阵X作为输入数据；利用Lipschtiz光滑的实函数，将视频帧的特征矩阵X映射到摘要空间S，利用权重矩阵W进行代表帧提取,计算两个图像指纹的汉明距离，若两个代表帧图像指纹的汉明距离H小于阈值，两个视频帧被认定为相似帧，得到满足代表性和差异性要求的关键帧集合，将其按时间顺序排列得到视频摘要。由于关键帧代表性和差异性的度量能够使视频摘要在不存在信息冗余条件下展现视频内容，提高了视频摘要关键帧的质量。

Description

基于摘要空间特征学习的视频摘要关键帧提取方法

技术领域

本发明涉及一种视频摘要关键帧提取方法，特别是涉及一种基于摘要空间特征学习的视频摘要关键帧提取方法。

背景技术

文献"S.Avila,A.Lopes,A.Luz Jr.,and A.Araujo.VSUMM:A Mechanism Designedto Produce Static Video Summaries and A novel Evaluation Method.Pattern RecognitionLetters,32(1):56–68,2011"公开了一种基于视频帧聚类的关键帧提取算法。这种算法将视频帧的颜色直方图特征作为输入数据，同时以欧式距离度量视频帧的相似性，进而利用k-均值聚类的方法将视频帧分配到不同类簇，最后选取每一个类簇中心来作为关键帧。其中，类簇中心的个数是由视频中镜头的个数决定的，而镜头边界通过相邻帧之间的欧氏距离的峰值确定，这一步骤适应了视频数据的特点。但该方法假设视频数据分布在关键帧周围，过分依赖于聚类算法。由于缺乏准确度量视频各帧间相似性的方式，数据分布的假设很难保证，往往导致聚类效果不佳，进而影响关键帧的质量。

发明内容

为了克服现有视频摘要关键帧提取方法提取的关键帧质量差的不足，本发明提供一种基于摘要空间特征学习的视频摘要关键帧提取方法。该方法对视频帧进行均匀采样，并对采样后的每一帧提取颜色直方图特征，将视频帧的特征矩阵X作为输入数据；利用Lipschtiz光滑的实函数，将视频帧的特征矩阵X映射到摘要空间S，通过目标函数，对权重矩阵W进行求解，利用权重矩阵W进行代表帧提取,通过感知哈希算法，获取视频帧的图像指纹，并计算两个图像指纹的汉明距离，若两个代表帧图像指纹的汉明距离H小于阈值，两个视频帧就被认定为相似帧，其中一帧将从代表帧集合移出。最终，得到满足代表性和差异性要求的关键帧集合，将其按时间顺序排列得到视频摘要。由于关键帧代表性和差异性的度量能够使视频摘要在不存在信息冗余的条件下展现视频内容，可以提高视频摘要关键帧的质量。

本发明解决其技术问题所采用的技术方案是：一种基于摘要空间特征学习的视频摘要关键帧提取方法，其特点是采用以下步骤：

步骤一、对视频帧进行均匀采样，然后对选取的每一个视频帧建立HSV空间的颜色直方图。其中，H通道16等分，S通道和V通道分别4等分，并将三个通道的统计数据归一化，得到每一帧的特征向量。最终，得到视频的特征矩阵X＝{x₁,x₂,...,x_n}，并将其作为输入数。其中n为均匀采样后视频帧的数目，x_n为第n帧的特征向量。

步骤二、利用Lipschtiz光滑的实函数f将特征矩阵X映射到摘要空间S，

其中，f(x_i)是第i帧在摘要空间中的描述子。由于视频数据中存在着很多信息冗余和数据联系，视频数据并不是均匀的分布在摘要空间S，而是分布在它的一个子空间上，该子空间记为M。在子空间M上，f由一组锚点的函数值{f(a_j)|a_j∈A,j＝1,2,...k}的线性组合近似，

f (x_{i}) \approx Σ_{j = 1}^{k} w_{i j} f (a_{j}), &ForAll; i = 1, 2, ..., n, - - - (2)

其中，锚点集合A定义为k-均值聚类方法得到的聚类中心，固定k的取值为视频总帧数的1/150。k-均值聚类方法将相似的帧分到同一类别中，不同的类别具有不同的内容，聚类中心是该类别中所有特征向量的均值向量，故每一个聚类中心作为Lipschtiz映射的锚点，其函数值可用来代表视频的某一方面内容，并且{f(a_j)|a_j∈A,j＝1,2,...k}完整的代表视频内容。那么，权重w_ij代表了视频第i帧对视频第j方面内容的表达能力。

步骤三、利用下面的目标函数优化求解权重矩阵W。

m i n | | f (x_{i}) - Σ_{j = 1}^{k} w_{i j} f (a_{j}) | | . - - - (3)

显然，由于存在高维诅咒，很难直接对上式进行优化求解。然而，若f是一个(α,β,p)-Lipschitz实函数，W是锚点上的非负权重矩阵，对于任意的x_i，

| | f (x_{i}) - Σ_{j = 1}^{k} w_{i j} f (a_{j}) | | \leq α | | x_{i} - Σ_{j = 1}^{k} w_{i j} a_{j} | | + β Σ_{j = 1}^{k} w_{i j} {| | x_{i} - a_{j} | |}^{1 + p}, - - - (4)

其中，α，β和p都是可调参数。为了简化问题，让α＝β＝p＝1。式(4)表明，线性组合的近似残差由(4)式的右侧限制。也就是说，在不知道映射函数f以及摘要空间S的情况下求得权重矩阵W，极大地简化了问题。优化函数如下：

\begin{matrix} \underset{W}{m i n} e (W) = {|| X - W A ||}_{F} + t r (WD) \\ s . t . w_{i j} &GreaterEqual; 0, \underset{j}{Σ} w_{i j} = 1, &ForAll; i, j \end{matrix}, - - - (5)

其中，

D＝((a_i-x_j)²)_k×n (6)

D是锚点和视频帧之间的平方欧氏距离。移除了不同权重向量之间的尺度差异。为了简化问题，用来代替||X-WA||_F，优化函数变为：

\begin{matrix} \underset{W}{m i n} e (W) = {|| X - W A ||}_{F}^{2} + tr (WD) \\ s . t . w_{i j} &GreaterEqual; 0, \underset{j}{Σ} w_{i j} = 1, &ForAll; i, j \end{matrix} . - - - (7)

步骤四、利用学到的权重矩阵W，进行代表帧的挑选。代表帧的挑选原则为：为视频的每一方面内容选取对其表达能力最强的帧作为一个代表帧。

利用下面的公式进行代表帧挑选：

{ref}_{j} = \arg \underset{i}{m a x} w_{i j}, - - - (8)

其中，ref_j为第j个代表帧。

得到了代表帧集合Ref＝{ref₁,ref₂,...,ref_k}，可见代表帧的数目和k-均值聚类中设定的类簇数目相同，代表帧集合Ref可以代表视频的主要内容，但要被选为关键帧，代表帧集合还要满足差异性。

步骤五、关键帧提取。

利用感知哈希获得代表帧的图像指纹，步骤如下：

1)代表帧被转换为灰度图，并降采样为32*32的小图，不要保持纵横比。

2)对降采样之后的帧进行离散余弦变换，只取离散余弦变换矩阵的左上角8*8的子矩阵；

3)去除8*8矩阵左上角的第一个元素，并利用8*8矩阵的另外63个元素计算平均离散余弦变换值；

4)比较8*8矩阵中元素与离散余弦变换均值的大小关系，若大于均值则将其置为1，若小于均值，则将其置为0。

通过得到的每个视频帧的图像指纹，利用下式计算指纹间的汉明距离，

H = Σ_{i = 1}^{8} Σ_{j = 1}^{8} | h_{i j}^{1} - h_{i j}^{2} | - - - (9)

当两个图像指纹的汉明距离H小于8时，去除两个代表帧的其中一个，最终获得关键帧集合。将关键帧按照时间顺序排列，生成视频摘要。

本发明的有益效果是：该方法对视频帧进行均匀采样，并对采样后的每一帧提取颜色直方图特征，将视频帧的特征矩阵X作为输入数据；利用Lipschtiz光滑的实函数，将视频帧的特征矩阵X映射到摘要空间S，通过目标函数，对权重矩阵W进行求解，利用权重矩阵W进行代表帧提取,通过感知哈希算法，获取视频帧的图像指纹，并计算两个图像指纹的汉明距离，若两个代表帧图像指纹的汉明距离H小于阈值，两个视频帧就被认定为相似帧，其中一帧将从代表帧集合移出。最终，得到满足代表性和差异性要求的关键帧集合，将其按时间顺序排列得到视频摘要。由于关键帧代表性和差异性的度量能够使视频摘要在不存在信息冗余的条件下展现视频内容，对视频摘要关键帧质量提高了20％以上。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于摘要空间特征学习的视频摘要关键帧提取方法的流程图。

图2是本发明方法与背景技术方法生成的视频摘要结果对照图。

具体实施方式

参照图1-2。本发明基于摘要空间特征学习的视频摘要关键帧提取方法具体步骤如下：

步骤1，视频数据预处理。

为了减少视频数据的冗余，首先对视频帧进行均匀采样，具体为每一秒钟取一个视频帧进行分析。然后对选取的每一个视频帧建立HSV空间的颜色直方图。其中，H通道16等分，S通道和V通道分别4等分，并将三个通道的统计数据归一化，进而得到每一帧的特征向量。最终，得到视频的特征矩阵X＝{x₁,x₂,...,x_n}，并将其作为输入数。其中n为均匀采样后视频帧的数目，x_n为第n帧的特征向量。

步骤2，将视频数据映射到高维空间。

为了更好地研究视频数据的性质，利用Lipschtiz光滑的实函数f将特征矩阵X映射到摘要空间S，

其中，f(x_i)是第i帧在摘要空间中的描述子。由于视频数据中存在着很多信息冗余和数据联系，视频数据并不是均匀的分布在摘要空间S，而是分布在它的一个子空间上，该子空间记为M。在M上，f可由一组锚点的函数值{f(a_j)|a_j∈A,j＝1,2,...k}的线性组合近似，

f (x_{i}) \approx Σ_{j = 1}^{k} w_{i j} f (a_{j}), &ForAll; i = 1, 2, ..., n, - - - (2)

其中锚点集合A定义为k-均值聚类方法得到的聚类中心，固定k的取值为视频总帧数的1/150。k-均值聚类方法将相似的帧分到同一类别中，不同的类别具有不同的内容，聚类中心是该类别中所有特征向量的均值向量，故每一个聚类中心作为Lipschtiz映射的锚点，其函数值可用来代表视频的某一方面内容，并且{f(a_j)|a_j∈A,j＝1,2,...k}可以完整的代表视频内容。那么，权重w_ij代表了视频第i帧对视频第j方面内容的表达能力。

步骤3，优化求解权重矩阵W。

W可以利用下面的目标函数进行优化求解，

m i n | | f (x_{i}) - Σ_{j = 1}^{k} w_{i j} f (a_{j}) | | . - - - (3)

| | f (x_{i}) - Σ_{j = 1}^{k} w_{i j} f (a_{j}) | | \leq α | | x_{i} - Σ_{j = 1}^{k} w_{i j} a_{j} | | + β Σ_{j = 1}^{k} w_{i j} {| | x_{i} - a_{j} | |}^{1 + p}, - - - (4)

其中，α，β和p都是可调参数。为了简化问题，让α＝β＝p＝1。式(4)表明，线性组合的近似残差可以由(4)式的右侧限制。也就是说，在不知道映射函数f以及摘要空间S的情况下求得权重矩阵W，这极大地简化了问题。优化函数如下：

\begin{matrix} \underset{W}{m i n} e (W) = {|| X - W A ||}_{F} + t r (WD) \\ s . t . w_{i j} &GreaterEqual; 0, \underset{j}{Σ} w_{i j} = 1, &ForAll; i, j \end{matrix}, - - - (5)

其中，

D＝((a_i-x_j)²)_k×n (6)

是锚点和视频帧之间的平方欧氏距离。移除了不同权重向量之间的尺度差异。

为了简化问题，用来代替||X-WA||_F，优化函数变为：

\begin{matrix} \underset{W}{m i n} e (W) = {|| X - W A ||}_{F}^{2} + t r (WD) \\ s . t . w_{i j} &GreaterEqual; 0, \underset{j}{Σ} w_{i j} = 1, &ForAll; i, j \end{matrix} . - - - (7)

步骤4，代表帧提取。

利用学到的权重矩阵W，进行代表帧的挑选。代表帧的挑选原则为：为视频的每一方面内容选取对其表达能力最强的帧作为一个代表帧。

所以利用下面的公式进行代表帧挑选：

{ref}_{j} = \arg \underset{i}{m a x} w_{i j}, - - - (8)

其中，ref_j为第j个代表帧。

这样就得到了代表帧集合Ref＝{ref₁,ref₂,...,ref_k}，可见代表帧的数目和k-均值聚类中设定的类簇数目相同，代表帧集合Ref可以代表视频的主要内容，但要被选为关键帧，代表帧集合还要满足差异性。

步骤5，关键帧提取。

利用感知哈希获得代表帧的图像指纹，步骤如下：

2)对降采样之后的帧进行离散余弦变换(DCT)，只取DCT矩阵的左上角8*8的子矩阵；

3)去除8*8矩阵左上角的第一个元素，并利用8*8矩阵的另外63个元素计算平均DCT值；

4)比较8*8矩阵中元素与DCT均值的大小关系，若大于均值则将其置为1，若小于均值，则将其置为0。

就这样的到了每个视频帧的图像指纹，然后利用下式计算指纹间的汉明距离，

H = Σ_{i = 1}^{8} Σ_{j = 1}^{8} | h_{i j}^{1} - k_{j}^{2} | - - - (9)

本发明的效果通过以下仿真实验做进一步的说明。

1.仿真条件。

本发明是在中央处理器为i5-34703.2GHz CPU、内存4G、WINDOWS 7操作***上，运用MATLAB软件进行的仿真。

2.仿真内容。

仿真中使用的数据为来自Open Video数据库的50个视频，和YouTube数据库上的30个视频。每一个视频都有5个人工生成的视频摘要，将这5个视频摘要通过去除相似帧合为一个视频摘要，作为评判标准。

为了证明算法的有效性，在Open Video数据库上选择了OV，DT，STIMO，VSUMM1，VSUMM2作为对比算法。其中，OV是利用文献"D.DeMenthon,V.Kobla,and D.Doermann.Video Summarization by Curve Simplification.in ACM InternationalConference on Multimedia,1998,pp.211–218."提出的方法得到的视频摘要；DT是在文献"P.Mundur,Y.Rao,and Y.Yesh.Keyframe-Based Video Summarization Using DelaunayClustering.International Journal on Digital Libraries,6(2):219–232,2006."提出的；STIMO是在文献"M.Furini,F.Geraci,M.Montangero,and M.Pellegrini.STIMO:stilland moving video storyboard for the web scenario.Multimedia Tools and Applications,46(1):47–69,2010."；VSUMM1和VSUMM2是在文献"S.Avila,A.Lopes,A.Luz Jr.,and A.Ara′ujo.VSUMM:A Mechanism Designed to Produce Static Video Summaries andA Novel Evaluation Method.Pattern Recognition Letters,32(1):56–68,2011."中提出的。KFESS是本发明方法所得到的结果，F是对视频摘要质量的评价指标，对比结果如表1所示：

表1

方法	OV	DT	STIMO	VSUMM1	VSUMM2	KFESS
							F	0.62	0.53	0.61	0.80	0.70	0.87

从表1可见，在Open Video数据库上，本发明的视频摘要质量要明显优于背景技术方法。

在YouTube数据库上，选用VSUMM2，seqDPP+LINEAR和seqDPP+N.NET作为对比算法。seqDPP+LINEAR和seqDPP+N.NET是在文献"B.Gong,W.Chao,K.Grauman,and F.Sha.Diverse Sequential Subset Selection for Supervised VideoSummarization,in Advances in Neural Information Processing Systems,2014,pp.2069–2077"中提出来的。对比结果如表2所示：

表2

方法	VSUMM2	SeqDPP+LINEAR	SeqDPP+N.NET	KFESS
					F	0.56	0.58	0.60	0.73

从表2可见，在YouTube数据库上，本发明方法视频摘要质量要明显优于背景技术方法。

图2是本发明方法(KFESS)与背景技术方法的生成的视频摘要结果对比图。从中看出，现有的方法生成的视频摘要要么有信息丢失，要么有信息冗余。而本发明方法(KFESS)生成的视频摘要和标准摘要几乎完全相同。

Claims

1.一种基于摘要空间特征学习的视频摘要关键帧提取方法，其特征在于包括以下步骤：

步骤一、对视频帧进行均匀采样，然后对选取的每一个视频帧建立HSV空间的颜色直方图；其中，H通道16等分，S通道和V通道分别4等分，并将三个通道的统计数据归一化，得到每一帧的特征向量；最终，得到视频的特征矩阵X＝{x₁,x₂,...,x_n}，并将其作为输入数；其中n为均匀采样后视频帧的数目，x_n为第n帧的特征向量；

其中，f(x_i)是第i帧在摘要空间中的描述子；由于视频数据中存在着很多信息冗余和数据联系，视频数据并不是均匀的分布在摘要空间S，而是分布在它的一个子空间上，该子空间记为M；在子空间M上，f由一组锚点的函数值{f(a_j)|a_j∈A,j＝1,2,…k}的线性组合近似，

f (x_{i}) \approx Σ_{j = 1}^{k} w_{i j} f (a_{j}), &ForAll; i = 1, 2, ..., n, - - - (2)

其中，锚点集合A定义为k-均值聚类方法得到的聚类中心，固定k的取值为视频总帧数的1/150；k-均值聚类方法将相似的帧分到同一类别中，不同的类别具有不同的内容，聚类中心是该类别中所有特征向量的均值向量，故每一个聚类中心作为Lipschtiz映射的锚点，其函数值可用来代表视频的某一方面内容，并且{f(a_j)|a_j∈A,j＝1,2,…k}完整的代表视频内容；那么，权重w_ij代表了视频第i帧对视频第j方面内容的表达能力；

步骤三、利用下面的目标函数优化求解权重矩阵W；

m i n | | f (x_{i}) - Σ_{j = 1}^{k} w_{i j} f (a_{j}) | |; - - - (3)

显然，由于存在高维诅咒，很难直接对上式进行优化求解；然而，若f是一个(α,β,p)-Lipschitz实函数，W是锚点上的非负权重矩阵，对于任意的x_i，

| | f (x_{i}) - Σ_{j = 1}^{k} w_{i j} f (a_{j}) | | \leq α | | x_{i} - Σ_{j = 1}^{k} w_{i j} a_{j} | | + β Σ_{j = 1}^{k} w_{i j} | | x_{i} - a_{j} | |^{1 + p}, - - - (4)

其中，α，β和p都是可调参数；为了简化问题，让α＝β＝p＝1；式(4)表明，线性组合的近似残差由(4)式的右侧限制；也就是说，在不知道映射函数f以及摘要空间S的情况下求得权重矩阵W，极大地简化了问题；优化函数如下：

\begin{matrix} \min_{W} e (W) = | | X - W A | |_{F} + t r (W D) \\ s . t . w_{i j} &GreaterEqual; 0, \underset{j}{Σ} w_{i j} = 1, &ForAll; i, j \end{matrix}, - - - (5)

其中，

D = {({(a_{i} - x_{j})}^{2})}_{k \times n} - - - (6)

D是锚点和视频帧之间的平方欧氏距离；移除了不同权重向量之间的尺度差异；为了简化问题，用来代替||X-WA||_F，优化函数变为：

\begin{matrix} \min_{W} w (W) = | | X - W A | |_{F}^{2} + t r (W D) \\ s . t . w_{i j} &GreaterEqual; 0, \underset{j}{Σ} w_{i j} = 1, &ForAll; i, j \end{matrix}, - - - (7)

步骤四、利用学到的权重矩阵W，进行代表帧的挑选；代表帧的挑选原则为：为视频的每一方面内容选取对其表达能力最强的帧作为一个代表帧；

利用下面的公式进行代表帧挑选：

{ref}_{j} = \arg \underset{i}{m a x} w_{i j}, - - - (8)

其中，ref_j为第j个代表帧；

得到了代表帧集合Ref＝{ref₁,ref₂,…,ref_k}，可见代表帧的数目和k-均值聚类中设定的类簇数目相同，代表帧集合Ref可以代表视频的主要内容，但要被选为关键帧，代表帧集合还要满足差异性；

步骤五、关键帧提取；

利用感知哈希获得代表帧的图像指纹，步骤如下：

1)代表帧被转换为灰度图，并降采样为32*32的小图，不要保持纵横比；

4)比较8*8矩阵中元素与离散余弦变换均值的大小关系，若大于均值则将其置为1，若小于均值，则将其置为0；

H = Σ_{i = 1}^{8} Σ_{j = 1}^{8} | h_{i j}^{1} - h_{i i}^{2} | - - - (9)

当两个图像指纹的汉明距离H小于8时，去除两个代表帧的其中一个，最终获得关键帧集合；将关键帧按照时间顺序排列，生成视频摘要。