CN104683885A

CN104683885A - 一种基于近邻保持重构的视频关键帧摘要提取方法

Info

Publication number: CN104683885A
Application number: CN201510058003.5A
Authority: CN
Inventors: 陈纯; 何占盈; 卜佳俊; 高珊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-02-04
Filing date: 2015-02-04
Publication date: 2015-06-03

Abstract

基于近邻保持重构的视频关键帧摘要提取方法：从视频数据库中获取视频，作为待抽取关键帧摘要的目标视频；针对每个目标视频，抽取该视频中的每一张帧图片，作为该视频关键帧摘要的备选图片库；获取备选图片库中每张帧图片的全局特征和局部特征，并以此将每张帧图片表示为一个向量；计算帧图片之间的相似度，并以此得到帧图片之间的近邻关系；利用近邻保持重构算法，从备选图片库中挑选出既包含视频主要内容又具有最小冗余信息的最优关键帧图片；将挑选出来的关键帧图片提取出来，组成该目标视频的摘要。

Description

一种基于近邻保持重构的视频关键帧摘要提取方法

技术领域

本发明涉及视频关键帧摘要提取方法的技术领域，特别是基于近邻重构的视频关键帧摘要提取方法。

背景技术

随着数码相机和摄像机在日常生活中的普及，人们总是淹没在万维网成千上万的视频数据中。为了帮助用户管理和浏览这些数量庞大的视频，研究者们通过定义最重要和最适宜的内容来将整段的视频数据压缩成为视频摘要。一个简单而有效的基于内容的视频摘要方法是基于关键帧提取的视频摘要，该方法为视频索引、视频浏览和视频检索等应用提供了合适的抽象摘要。每个视频关键帧是一个能够表示视频无声内容的静态图片，所以后续可以被其他图片处理算法所分析利用。通过浏览几张最重要的关键帧，用户可以快速了解整个视频，从而可以花费较少的时间从成千上万个视频中找到自己感兴趣的那一个。尤其是在今天，各种在线电影都会为用户提供重点时刻的关键帧以方便用户播放影片时可以跳过不感兴趣的片段同时又不错过重要的内容，为用户提供了方便有效的播放导航功能。由于电影数据量太过庞大而使得人工标注变得过于费时且不切实际，所以自动关键帧提取成为了近年来的研究热门。

研究者们已经提出了一些基于关键帧提取的视频摘要方法。然而，他们都面临同样一个问题，那就是原本充满视频信息流、音频信息流甚至文本信息流的整个视频与几张静态关键帧图片之间的信息鸿沟问题。传统的基于关键正提取的视频摘要技术主要关注于关键帧之间的区别并且往往采用聚类的方式得到关键帧。据我们所知，只有很少的研究从数据重构的角度考虑视频摘要。而且，视频中的帧流信息能量(information energy)总是呈现波浪状。这是因为随着时间的推移，视频中的重要内容帧和过渡内容帧总是交替出现导致的。而线性重构则无法体现这一时间上的结构以及视频帧的局部聚集性，所以直接将线性重构应用于视频摘要无法有效地提取出高质量的关键帧摘要。我们提出了一种全新的方法，即近邻保持重构，该方法为原视频的每一帧构建一个能够保持其近邻结构重构模型，并通过最小化整个视频与重构模型之间的误差来找到最优的关键帧集合作为原视频的关键帧摘要。我们认为从一个视频中选择几个帧图片作为高质量的关键帧摘要的话，这些帧图片应该要能够最佳重构原视频。因此，原视频与重构模型之间的重构误差天然成为了衡量关键帧质量的标准，即重构误差越小，关键帧摘要质量越好。从空间的角度考虑，我们提出的近邻保持重构算法旨在选择出那些能够张成原视频帧空间内部的固有子空间的帧集合，因此这些帧也能够覆盖原视频的核心信息。

发明内容

本发明要克服现有技术的上述缺点，提出一种基于近邻保持重构的视频关键帧摘要提取方法，以帮助用户管理和浏览互联网上数量庞大的视频数据。

一种基于近邻保持重构的视频关键帧摘要提取方法，包括：

1)从视频数据库中获取视频，作为待抽取关键帧摘要的目标视频；

2)针对每个目标视频，抽取该视频中的每一张帧图片，作为该视频关键帧摘要的备选图片库；

3)获取备选图片库中每张帧图片的全局特征和局部特征，并以此将每张帧图片表示为一个向量；

4)计算帧图片之间的相似度，并以此得到帧图片之间的近邻关系；

5)利用近邻保持重构算法，从备选图片库中挑选出既包含视频主要内容又具有最小冗余信息的最优关键帧图片；

6)将挑选出来的关键帧图片提取出来，组成该目标视频的摘要。

步骤3)所述的获取备选图片库中每张帧图片的全局特征和局部特征，并以此将每张帧图片表示为一个向量，包括：

31)提取图片的颜色直方图，得到256维的全局特征；

32)提取图片的SIFT特征点，并聚类得到500维的局部特征；

33)将两种特征合并得到756维的图片特征向量。

步骤4)所述的计算帧图片之间的相似度，包括：

41)设第i张帧图片向量为v_i，第j张帧图片向量为v_j；

42)这两张帧图片之间的相似度W_ij为：

步骤4)所述的帧图片之间的近邻关系，包括：

43)针对第i张帧图片，找到与其相似度最高的另外40张帧图片作为它的近邻，并记录第i张帧图片与它的每个近邻的相似度的值；

44)遍历所有的帧图片，找到它们的近邻并记录相似度的值。

步骤5)所述的近邻保持重构算法，包括：

51)若目标视频包含n张帧图片，用{v_i|i＝1,2,...,n}表示，即；要提取的目标摘要包含m(m＜n)张关键帧图片，用{x_k|k＝s₁,s₂,...,s_m}表示，其中每张关键帧图片都来自目标视频的原有帧，即x_k∈{v_i|i＝1,2,...n}，{s₁,s₂,...,s_m}是摘要关键帧x_k∈X在原视频帧图片集合V中的编号；

52)设原视频帧图片v_i经关键帧摘要图片集重构后为f_i(X)，其中矩阵X的每一行是一个x_k，则最小化如下近邻保持函数可以保持原视频帧图片之间的近邻结构：

∑_ij||f_i(X)-f_j(X)||²W_ij；

因为构成摘要的这些关键帧图片是从原视频帧图片中选出来的，即其中矩阵V的每一行是一个v_i，所以当这些关键帧被选定时，这几张关键帧图片的重构尤其要精确；为了体现这一点，给定摘要关键帧x_k时，设其对应的重构帧为f_k(X)，则近邻保持函数修改如下：

\underset{ij}{Σ} {| | f_{i} (X) - f_{j} (X) | |}^{2} W_{ij} + λ Σ_{k = s_{1}}^{s_{m}} {| | x_{k} - f_{k} (X) | |}^{2}

其中λ是控制两个加法因子的权重变量；

根据近邻保持函数，则我们可以得到近邻保持重构的表达式如下：

F＝λ(L+λM)^-1MV

其中矩阵F的每一行是一个f_i(X)；并引入一个大小为n×n的对角矩阵M作为标识；当i∈{s₁,s₂,...,s_m}时，M矩阵的第i个对角元素为1，其余元素都为0；这样的M矩阵可以用来标识第i个原视频帧图片是否被选择成为摘要关键帧；

经过数学上的等价转换，可以得到原视频V和近邻保持重构F之间的重构误差如下：

L (V, F; M) = {| | V - F | |}_{F}^{2} = {| | {(L + λM)}^{- 1} LV | |}_{F}^{2};

53)最小化如上式所示的重构误差，得到最优的M，并根据M的非零对角线元素挑选出既包含视频主要内容又具有最小冗余信息的最优关键帧图片。

本发明的优点是：

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图，进一步说明本发明：

一种基于近邻保持重构的视频关键帧摘要提取方法，具体步骤包括：

步骤3)所述的获取备选图片库中每张帧图片的全局特征和局部特征，并以此将每张帧图片表示为一个向量，具体包括：

31)提取图片的颜色直方图，得到256维的全局特征；

32)提取图片的SIFT特征点，并聚类得到500维的局部特征；

33)将两种特征合并得到756维的图片特征向量。

步骤4)所述的计算帧图片之间的相似度，具体包括：

31)设第i张帧图片向量为v_i，第j张帧图片向量为v_j；

32)这两张帧图片之间的相似度W_ij为：

步骤4)所述的帧图片之间的近邻关系，具体包括：

41)针对第i张帧图片，找到与其相似度最高的另外40张帧图片作为它的近邻，并记录第i张帧图片与它的每个近邻的相似度的值；

2)遍历所有的帧图片，找到它们的近邻并记录相似度的值。

步骤5)中所述的近邻保持重构算法：

∑_ij||f_i(X)-f_j(X)||²W_ij；

\underset{ij}{Σ} {| | f_{i} (X) - f_{j} (X) | |}^{2} W_{ij} + λ Σ_{k = s_{1}}^{s_{m}} {| | x_{k} - f_{k} (X) | |}^{2}

其中λ是控制两个加法因子的权重变量；

F＝λ(L+λM)^-1MV

L (V, F; M) = {| | V - F | |}_{F}^{2} = {| | {(L + λM)}^{- 1} LV | |}_{F}^{2};

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于近邻保持重构的视频关键帧摘要提取方法，包括：

2.如权利要求1所述的一种基于近邻保持重构的视频关键帧摘要提取方法，其特征在于：步骤3)所述的获取备选图片库中每张帧图片的全局特征和局部特征，并以此将每张帧图片表示为一个向量，包括：

31)提取图片的颜色直方图，得到256维的全局特征；

32)提取图片的SIFT特征点，并聚类得到500维的局部特征；

33)将两种特征合并得到756维的图片特征向量。

3.如权利要求1所述的的一种基于近邻保持重构的视频关键帧摘要提取方法，其特征在于：步骤4)所述的计算帧图片之间的相似度，包括：

41)设第i张帧图片向量为v_i，第j张帧图片向量为v_j；

42)这两张帧图片之间的相似度W_ij为：

4.如权利要求1所述的一种基于近邻保持重构的视频关键帧摘要提取方法，其特征在于：步骤4)中所述的帧图片之间的近邻关系，包括：

44)遍历所有的帧图片，找到它们的近邻并记录相似度的值。

5.如权利要求1所述的一种基于近邻保持重构的视频关键帧摘要提取方法，其特征在于：步骤5)中所述的近邻保持重构算法，包括：

51)若目标视频包含n张帧图片，用表示，即；要提取的目标摘要包含m(m＜n)张关键帧图片，用{x_k|k＝s₁,s₂,…,s_m}表示，其中每张关键帧图片都来自目标视频的原有帧，即{s₁,s₂,…,s_m}是摘要关键帧x_k∈X在原视频帧图片集合V中的编号；

∑_ij||f_i(X)-f_j(X)||²W_ij；

\underset{ij}{Σ} {| | f_{i} (X) - f_{j} (X) | |}^{2} W_{ij} + λ Σ_{k = s_{1}}^{s_{m}} {| | x_{k} - f_{k} (X) | |}^{2}

其中λ是控制两个加法因子的权重变量；

F＝λ(L+λM)^-1MV

其中矩阵F的每一行是一个f_i(X)；并引入一个大小为n×n的对角矩阵M作为标识；当i∈{s₁,s₂,…,s_m}时，M矩阵的第i个对角元素为1，其余元素都为0；这样的M矩阵可以用来标识第i个原视频帧图片是否被选择成为摘要关键帧；

L (V, F; M) = {| | V - F | |}_{F}^{2} = {| | {(L + λM)}^{- 1} LV | |}_{F}^{2};