CN105025392A - 基于摘要空间特征学习的视频摘要关键帧提取方法 - Google Patents

基于摘要空间特征学习的视频摘要关键帧提取方法 Download PDF

Info

Publication number
CN105025392A
CN105025392A CN201510357360.1A CN201510357360A CN105025392A CN 105025392 A CN105025392 A CN 105025392A CN 201510357360 A CN201510357360 A CN 201510357360A CN 105025392 A CN105025392 A CN 105025392A
Authority
CN
China
Prior art keywords
video
frame
sigma
abstract
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510357360.1A
Other languages
English (en)
Other versions
CN105025392B (zh
Inventor
李学龙
卢孝强
赵斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201510357360.1A priority Critical patent/CN105025392B/zh
Publication of CN105025392A publication Critical patent/CN105025392A/zh
Application granted granted Critical
Publication of CN105025392B publication Critical patent/CN105025392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于摘要空间特征学习的视频摘要关键帧提取方法,用于解决现有视频摘要关键帧提取方法提取的关键帧质量差的技术问题。技术方案是对视频帧进行均匀采样,并对采样后的每一帧提取颜色直方图特征,将视频帧的特征矩阵X作为输入数据;利用Lipschtiz光滑的实函数,将视频帧的特征矩阵X映射到摘要空间S,利用权重矩阵W进行代表帧提取,计算两个图像指纹的汉明距离,若两个代表帧图像指纹的汉明距离H小于阈值,两个视频帧被认定为相似帧,得到满足代表性和差异性要求的关键帧集合,将其按时间顺序排列得到视频摘要。由于关键帧代表性和差异性的度量能够使视频摘要在不存在信息冗余条件下展现视频内容,提高了视频摘要关键帧的质量。

Description

基于摘要空间特征学习的视频摘要关键帧提取方法
技术领域
本发明涉及一种视频摘要关键帧提取方法,特别是涉及一种基于摘要空间特征学习的视频摘要关键帧提取方法。
背景技术
文献"S.Avila,A.Lopes,A.Luz Jr.,and A.Araujo.VSUMM:A Mechanism Designedto Produce Static Video Summaries and A novel Evaluation Method.Pattern RecognitionLetters,32(1):56–68,2011"公开了一种基于视频帧聚类的关键帧提取算法。这种算法将视频帧的颜色直方图特征作为输入数据,同时以欧式距离度量视频帧的相似性,进而利用k-均值聚类的方法将视频帧分配到不同类簇,最后选取每一个类簇中心来作为关键帧。其中,类簇中心的个数是由视频中镜头的个数决定的,而镜头边界通过相邻帧之间的欧氏距离的峰值确定,这一步骤适应了视频数据的特点。但该方法假设视频数据分布在关键帧周围,过分依赖于聚类算法。由于缺乏准确度量视频各帧间相似性的方式,数据分布的假设很难保证,往往导致聚类效果不佳,进而影响关键帧的质量。
发明内容
为了克服现有视频摘要关键帧提取方法提取的关键帧质量差的不足,本发明提供一种基于摘要空间特征学习的视频摘要关键帧提取方法。该方法对视频帧进行均匀采样,并对采样后的每一帧提取颜色直方图特征,将视频帧的特征矩阵X作为输入数据;利用Lipschtiz光滑的实函数,将视频帧的特征矩阵X映射到摘要空间S,通过目标函数,对权重矩阵W进行求解,利用权重矩阵W进行代表帧提取,通过感知哈希算法,获取视频帧的图像指纹,并计算两个图像指纹的汉明距离,若两个代表帧图像指纹的汉明距离H小于阈值,两个视频帧就被认定为相似帧,其中一帧将从代表帧集合移出。最终,得到满足代表性和差异性要求的关键帧集合,将其按时间顺序排列得到视频摘要。由于关键帧代表性和差异性的度量能够使视频摘要在不存在信息冗余的条件下展现视频内容,可以提高视频摘要关键帧的质量。
本发明解决其技术问题所采用的技术方案是:一种基于摘要空间特征学习的视频摘要关键帧提取方法,其特点是采用以下步骤:
步骤一、对视频帧进行均匀采样,然后对选取的每一个视频帧建立HSV空间的颜色直方图。其中,H通道16等分,S通道和V通道分别4等分,并将三个通道的统计数据归一化,得到每一帧的特征向量。最终,得到视频的特征矩阵X={x1,x2,...,xn},并将其作为输入数。其中n为均匀采样后视频帧的数目,xn为第n帧的特征向量。
步骤二、利用Lipschtiz光滑的实函数f将特征矩阵X映射到摘要空间S,
其中,f(xi)是第i帧在摘要空间中的描述子。由于视频数据中存在着很多信息冗余和数据联系,视频数据并不是均匀的分布在摘要空间S,而是分布在它的一个子空间上,该子空间记为M。在子空间M上,f由一组锚点的函数值{f(aj)|aj∈A,j=1,2,...k}的线性组合近似,
f ( x i ) ≈ Σ j = 1 k w i j f ( a j ) , ∀ i = 1 , 2 , ... , n , - - - ( 2 )
其中,锚点集合A定义为k-均值聚类方法得到的聚类中心,固定k的取值为视频总帧数的1/150。k-均值聚类方法将相似的帧分到同一类别中,不同的类别具有不同的内容,聚类中心是该类别中所有特征向量的均值向量,故每一个聚类中心作为Lipschtiz映射的锚点,其函数值可用来代表视频的某一方面内容,并且{f(aj)|aj∈A,j=1,2,...k}完整的代表视频内容。那么,权重wij代表了视频第i帧对视频第j方面内容的表达能力。
步骤三、利用下面的目标函数优化求解权重矩阵W。
m i n | | f ( x i ) - Σ j = 1 k w i j f ( a j ) | | . - - - ( 3 )
显然,由于存在高维诅咒,很难直接对上式进行优化求解。然而,若f是一个(α,β,p)-Lipschitz实函数,W是锚点上的非负权重矩阵,对于任意的xi
| | f ( x i ) - Σ j = 1 k w i j f ( a j ) | | ≤ α | | x i - Σ j = 1 k w i j a j | | + β Σ j = 1 k w i j | | x i - a j | | 1 + p , - - - ( 4 )
其中,α,β和p都是可调参数。为了简化问题,让α=β=p=1。式(4)表明,线性组合的近似残差由(4)式的右侧限制。也就是说,在不知道映射函数f以及摘要空间S的情况下求得权重矩阵W,极大地简化了问题。优化函数如下:
m i n W e ( W ) = || X - W A || F + t r ( WD ) s . t . w i j ≥ 0 , Σ j w i j = 1 , ∀ i , j , - - - ( 5 )
其中,
D=((ai-xj)2)k×n    (6)
D是锚点和视频帧之间的平方欧氏距离。移除了不同权重向量之间的尺度差异。为了简化问题,用来代替||X-WA||F,优化函数变为:
m i n W e ( W ) = || X - W A || F 2 + tr ( WD ) s . t . w i j ≥ 0 , Σ j w i j = 1 , ∀ i , j . - - - ( 7 )
步骤四、利用学到的权重矩阵W,进行代表帧的挑选。代表帧的挑选原则为:为视频的每一方面内容选取对其表达能力最强的帧作为一个代表帧。
利用下面的公式进行代表帧挑选:
ref j = arg m a x i w i j , - - - ( 8 )
其中,refj为第j个代表帧。
得到了代表帧集合Ref={ref1,ref2,...,refk},可见代表帧的数目和k-均值聚类中设定的类簇数目相同,代表帧集合Ref可以代表视频的主要内容,但要被选为关键帧,代表帧集合还要满足差异性。
步骤五、关键帧提取。
利用感知哈希获得代表帧的图像指纹,步骤如下:
1)代表帧被转换为灰度图,并降采样为32*32的小图,不要保持纵横比。
2)对降采样之后的帧进行离散余弦变换,只取离散余弦变换矩阵的左上角8*8的子矩阵;
3)去除8*8矩阵左上角的第一个元素,并利用8*8矩阵的另外63个元素计算平均离散余弦变换值;
4)比较8*8矩阵中元素与离散余弦变换均值的大小关系,若大于均值则将其置为1,若小于均值,则将其置为0。
通过得到的每个视频帧的图像指纹,利用下式计算指纹间的汉明距离,
H = Σ i = 1 8 Σ j = 1 8 | h i j 1 - h i j 2 | - - - ( 9 )
当两个图像指纹的汉明距离H小于8时,去除两个代表帧的其中一个,最终获得关键帧集合。将关键帧按照时间顺序排列,生成视频摘要。
本发明的有益效果是:该方法对视频帧进行均匀采样,并对采样后的每一帧提取颜色直方图特征,将视频帧的特征矩阵X作为输入数据;利用Lipschtiz光滑的实函数,将视频帧的特征矩阵X映射到摘要空间S,通过目标函数,对权重矩阵W进行求解,利用权重矩阵W进行代表帧提取,通过感知哈希算法,获取视频帧的图像指纹,并计算两个图像指纹的汉明距离,若两个代表帧图像指纹的汉明距离H小于阈值,两个视频帧就被认定为相似帧,其中一帧将从代表帧集合移出。最终,得到满足代表性和差异性要求的关键帧集合,将其按时间顺序排列得到视频摘要。由于关键帧代表性和差异性的度量能够使视频摘要在不存在信息冗余的条件下展现视频内容,对视频摘要关键帧质量提高了20%以上。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于摘要空间特征学习的视频摘要关键帧提取方法的流程图。
图2是本发明方法与背景技术方法生成的视频摘要结果对照图。
具体实施方式
参照图1-2。本发明基于摘要空间特征学习的视频摘要关键帧提取方法具体步骤如下:
步骤1,视频数据预处理。
为了减少视频数据的冗余,首先对视频帧进行均匀采样,具体为每一秒钟取一个视频帧进行分析。然后对选取的每一个视频帧建立HSV空间的颜色直方图。其中,H通道16等分,S通道和V通道分别4等分,并将三个通道的统计数据归一化,进而得到每一帧的特征向量。最终,得到视频的特征矩阵X={x1,x2,...,xn},并将其作为输入数。其中n为均匀采样后视频帧的数目,xn为第n帧的特征向量。
步骤2,将视频数据映射到高维空间。
为了更好地研究视频数据的性质,利用Lipschtiz光滑的实函数f将特征矩阵X映射到摘要空间S,
其中,f(xi)是第i帧在摘要空间中的描述子。由于视频数据中存在着很多信息冗余和数据联系,视频数据并不是均匀的分布在摘要空间S,而是分布在它的一个子空间上,该子空间记为M。在M上,f可由一组锚点的函数值{f(aj)|aj∈A,j=1,2,...k}的线性组合近似,
f ( x i ) ≈ Σ j = 1 k w i j f ( a j ) , ∀ i = 1 , 2 , ... , n , - - - ( 2 )
其中锚点集合A定义为k-均值聚类方法得到的聚类中心,固定k的取值为视频总帧数的1/150。k-均值聚类方法将相似的帧分到同一类别中,不同的类别具有不同的内容,聚类中心是该类别中所有特征向量的均值向量,故每一个聚类中心作为Lipschtiz映射的锚点,其函数值可用来代表视频的某一方面内容,并且{f(aj)|aj∈A,j=1,2,...k}可以完整的代表视频内容。那么,权重wij代表了视频第i帧对视频第j方面内容的表达能力。
步骤3,优化求解权重矩阵W。
W可以利用下面的目标函数进行优化求解,
m i n | | f ( x i ) - Σ j = 1 k w i j f ( a j ) | | . - - - ( 3 )
显然,由于存在高维诅咒,很难直接对上式进行优化求解。然而,若f是一个(α,β,p)-Lipschitz实函数,W是锚点上的非负权重矩阵,对于任意的xi
| | f ( x i ) - Σ j = 1 k w i j f ( a j ) | | ≤ α | | x i - Σ j = 1 k w i j a j | | + β Σ j = 1 k w i j | | x i - a j | | 1 + p , - - - ( 4 )
其中,α,β和p都是可调参数。为了简化问题,让α=β=p=1。式(4)表明,线性组合的近似残差可以由(4)式的右侧限制。也就是说,在不知道映射函数f以及摘要空间S的情况下求得权重矩阵W,这极大地简化了问题。优化函数如下:
m i n W e ( W ) = || X - W A || F + t r ( WD ) s . t . w i j ≥ 0 , Σ j w i j = 1 , ∀ i , j , - - - ( 5 )
其中,
D=((ai-xj)2)k×n    (6)
是锚点和视频帧之间的平方欧氏距离。移除了不同权重向量之间的尺度差异。
为了简化问题,用来代替||X-WA||F,优化函数变为:
m i n W e ( W ) = || X - W A || F 2 + t r ( WD ) s . t . w i j ≥ 0 , Σ j w i j = 1 , ∀ i , j . - - - ( 7 )
步骤4,代表帧提取。
利用学到的权重矩阵W,进行代表帧的挑选。代表帧的挑选原则为:为视频的每一方面内容选取对其表达能力最强的帧作为一个代表帧。
所以利用下面的公式进行代表帧挑选:
ref j = arg m a x i w i j , - - - ( 8 )
其中,refj为第j个代表帧。
这样就得到了代表帧集合Ref={ref1,ref2,...,refk},可见代表帧的数目和k-均值聚类中设定的类簇数目相同,代表帧集合Ref可以代表视频的主要内容,但要被选为关键帧,代表帧集合还要满足差异性。
步骤5,关键帧提取。
利用感知哈希获得代表帧的图像指纹,步骤如下:
1)代表帧被转换为灰度图,并降采样为32*32的小图,不要保持纵横比。
2)对降采样之后的帧进行离散余弦变换(DCT),只取DCT矩阵的左上角8*8的子矩阵;
3)去除8*8矩阵左上角的第一个元素,并利用8*8矩阵的另外63个元素计算平均DCT值;
4)比较8*8矩阵中元素与DCT均值的大小关系,若大于均值则将其置为1,若小于均值,则将其置为0。
就这样的到了每个视频帧的图像指纹,然后利用下式计算指纹间的汉明距离,
H = Σ i = 1 8 Σ j = 1 8 | h i j 1 - k j 2 | - - - ( 9 )
当两个图像指纹的汉明距离H小于8时,去除两个代表帧的其中一个,最终获得关键帧集合。将关键帧按照时间顺序排列,生成视频摘要。
本发明的效果通过以下仿真实验做进一步的说明。
1.仿真条件。
本发明是在中央处理器为i5-34703.2GHz CPU、内存4G、WINDOWS 7操作***上,运用MATLAB软件进行的仿真。
2.仿真内容。
仿真中使用的数据为来自Open Video数据库的50个视频,和YouTube数据库上的30个视频。每一个视频都有5个人工生成的视频摘要,将这5个视频摘要通过去除相似帧合为一个视频摘要,作为评判标准。
为了证明算法的有效性,在Open Video数据库上选择了OV,DT,STIMO,VSUMM1,VSUMM2作为对比算法。其中,OV是利用文献"D.DeMenthon,V.Kobla,and D.Doermann.Video Summarization by Curve Simplification.in ACM InternationalConference on Multimedia,1998,pp.211–218."提出的方法得到的视频摘要;DT是在文献"P.Mundur,Y.Rao,and Y.Yesh.Keyframe-Based Video Summarization Using DelaunayClustering.International Journal on Digital Libraries,6(2):219–232,2006."提出的;STIMO是在文献"M.Furini,F.Geraci,M.Montangero,and M.Pellegrini.STIMO:stilland moving video storyboard for the web scenario.Multimedia Tools and Applications,46(1):47–69,2010.";VSUMM1和VSUMM2是在文献"S.Avila,A.Lopes,A.Luz Jr.,and A.Ara′ujo.VSUMM:A Mechanism Designed to Produce Static Video Summaries andA Novel Evaluation Method.Pattern Recognition Letters,32(1):56–68,2011."中提出的。KFESS是本发明方法所得到的结果,F是对视频摘要质量的评价指标,对比结果如表1所示:
表1
方法 OV DT STIMO VSUMM1 VSUMM2 KFESS
F 0.62 0.53 0.61 0.80 0.70 0.87
从表1可见,在Open Video数据库上,本发明的视频摘要质量要明显优于背景技术方法。
在YouTube数据库上,选用VSUMM2,seqDPP+LINEAR和seqDPP+N.NET作为对比算法。seqDPP+LINEAR和seqDPP+N.NET是在文献"B.Gong,W.Chao,K.Grauman,and F.Sha.Diverse Sequential Subset Selection for Supervised VideoSummarization,in Advances in Neural Information Processing Systems,2014,pp.2069–2077"中提出来的。对比结果如表2所示:
表2
方法 VSUMM2 SeqDPP+LINEAR SeqDPP+N.NET KFESS
F 0.56 0.58 0.60 0.73
从表2可见,在YouTube数据库上,本发明方法视频摘要质量要明显优于背景技术方法。
图2是本发明方法(KFESS)与背景技术方法的生成的视频摘要结果对比图。从中看出,现有的方法生成的视频摘要要么有信息丢失,要么有信息冗余。而本发明方法(KFESS)生成的视频摘要和标准摘要几乎完全相同。

Claims (1)

1.一种基于摘要空间特征学习的视频摘要关键帧提取方法,其特征在于包括以下步骤:
步骤一、对视频帧进行均匀采样,然后对选取的每一个视频帧建立HSV空间的颜色直方图;其中,H通道16等分,S通道和V通道分别4等分,并将三个通道的统计数据归一化,得到每一帧的特征向量;最终,得到视频的特征矩阵X={x1,x2,...,xn},并将其作为输入数;其中n为均匀采样后视频帧的数目,xn为第n帧的特征向量;
步骤二、利用Lipschtiz光滑的实函数f将特征矩阵X映射到摘要空间S,
其中,f(xi)是第i帧在摘要空间中的描述子;由于视频数据中存在着很多信息冗余和数据联系,视频数据并不是均匀的分布在摘要空间S,而是分布在它的一个子空间上,该子空间记为M;在子空间M上,f由一组锚点的函数值{f(aj)|aj∈A,j=1,2,…k}的线性组合近似,
f ( x i ) ≈ Σ j = 1 k w i j f ( a j ) , ∀ i = 1 , 2 , ... , n , - - - ( 2 )
其中,锚点集合A定义为k-均值聚类方法得到的聚类中心,固定k的取值为视频总帧数的1/150;k-均值聚类方法将相似的帧分到同一类别中,不同的类别具有不同的内容,聚类中心是该类别中所有特征向量的均值向量,故每一个聚类中心作为Lipschtiz映射的锚点,其函数值可用来代表视频的某一方面内容,并且{f(aj)|aj∈A,j=1,2,…k}完整的代表视频内容;那么,权重wij代表了视频第i帧对视频第j方面内容的表达能力;
步骤三、利用下面的目标函数优化求解权重矩阵W;
m i n | | f ( x i ) - Σ j = 1 k w i j f ( a j ) | | ; - - - ( 3 )
显然,由于存在高维诅咒,很难直接对上式进行优化求解;然而,若f是一个(α,β,p)-Lipschitz实函数,W是锚点上的非负权重矩阵,对于任意的xi
| | f ( x i ) - Σ j = 1 k w i j f ( a j ) | | ≤ α | | x i - Σ j = 1 k w i j a j | | + β Σ j = 1 k w i j | | x i - a j | | 1 + p , - - - ( 4 )
其中,α,β和p都是可调参数;为了简化问题,让α=β=p=1;式(4)表明,线性组合的近似残差由(4)式的右侧限制;也就是说,在不知道映射函数f以及摘要空间S的情况下求得权重矩阵W,极大地简化了问题;优化函数如下:
min W e ( W ) = | | X - W A | | F + t r ( W D ) s . t . w i j ≥ 0 , Σ j w i j = 1 , ∀ i , j , - - - ( 5 )
其中,
D = ( ( a i - x j ) 2 ) k × n - - - ( 6 )
D是锚点和视频帧之间的平方欧氏距离;移除了不同权重向量之间的尺度差异;为了简化问题,用来代替||X-WA||F,优化函数变为:
min W w ( W ) = | | X - W A | | F 2 + t r ( W D ) s . t . w i j ≥ 0 , Σ j w i j = 1 , ∀ i , j , - - - ( 7 )
步骤四、利用学到的权重矩阵W,进行代表帧的挑选;代表帧的挑选原则为:为视频的每一方面内容选取对其表达能力最强的帧作为一个代表帧;
利用下面的公式进行代表帧挑选:
ref j = arg m a x i w i j , - - - ( 8 )
其中,refj为第j个代表帧;
得到了代表帧集合Ref={ref1,ref2,…,refk},可见代表帧的数目和k-均值聚类中设定的类簇数目相同,代表帧集合Ref可以代表视频的主要内容,但要被选为关键帧,代表帧集合还要满足差异性;
步骤五、关键帧提取;
利用感知哈希获得代表帧的图像指纹,步骤如下:
1)代表帧被转换为灰度图,并降采样为32*32的小图,不要保持纵横比;
2)对降采样之后的帧进行离散余弦变换,只取离散余弦变换矩阵的左上角8*8的子矩阵;
3)去除8*8矩阵左上角的第一个元素,并利用8*8矩阵的另外63个元素计算平均离散余弦变换值;
4)比较8*8矩阵中元素与离散余弦变换均值的大小关系,若大于均值则将其置为1,若小于均值,则将其置为0;
通过得到的每个视频帧的图像指纹,利用下式计算指纹间的汉明距离,
H = Σ i = 1 8 Σ j = 1 8 | h i j 1 - h i i 2 | - - - ( 9 )
当两个图像指纹的汉明距离H小于8时,去除两个代表帧的其中一个,最终获得关键帧集合;将关键帧按照时间顺序排列,生成视频摘要。
CN201510357360.1A 2015-06-25 2015-06-25 基于摘要空间特征学习的视频摘要关键帧提取方法 Active CN105025392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510357360.1A CN105025392B (zh) 2015-06-25 2015-06-25 基于摘要空间特征学习的视频摘要关键帧提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510357360.1A CN105025392B (zh) 2015-06-25 2015-06-25 基于摘要空间特征学习的视频摘要关键帧提取方法

Publications (2)

Publication Number Publication Date
CN105025392A true CN105025392A (zh) 2015-11-04
CN105025392B CN105025392B (zh) 2017-12-19

Family

ID=54415033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510357360.1A Active CN105025392B (zh) 2015-06-25 2015-06-25 基于摘要空间特征学习的视频摘要关键帧提取方法

Country Status (1)

Country Link
CN (1) CN105025392B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894043A (zh) * 2016-04-27 2016-08-24 上海高智科技发展有限公司 一种视频描述语句生成方法及***
CN106780429A (zh) * 2016-11-16 2017-05-31 重庆金山医疗器械有限公司 基于感知颜色空间和关键角点的wce视频时序冗余图像数据的关键帧提取方法
CN107403086A (zh) * 2017-09-13 2017-11-28 上海中信信息发展股份有限公司 权限认证方法、装置及***
CN108881950A (zh) * 2018-05-30 2018-11-23 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN109213896A (zh) * 2018-08-06 2019-01-15 杭州电子科技大学 基于长短期记忆网络强化学习的水下视频摘要生成方法
CN110084298A (zh) * 2019-04-23 2019-08-02 北京百度网讯科技有限公司 用于检测图像相似度的方法及装置
CN110096945A (zh) * 2019-02-28 2019-08-06 中国地质大学(武汉) 基于机器学习的室内监控视频关键帧实时提取方法
CN110221979A (zh) * 2019-06-04 2019-09-10 广州虎牙信息科技有限公司 应用程序的性能测试方法、装置、设备及存储介质
CN110933520A (zh) * 2019-12-10 2020-03-27 中国科学院软件研究所 一种基于螺旋摘要的监控视频展示方法及存储介质
CN111031390A (zh) * 2019-12-17 2020-04-17 南京航空航天大学 基于动态规划的输出大小固定序列行列式点过程视频概要方法
CN111325096A (zh) * 2020-01-19 2020-06-23 北京字节跳动网络技术有限公司 直播流采样方法、装置及电子设备
CN111460961A (zh) * 2020-03-27 2020-07-28 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN111797707A (zh) * 2020-06-12 2020-10-20 武汉大学 一种基于聚类的镜头关键帧提取方法
CN111800674A (zh) * 2020-08-12 2020-10-20 国网吉林省电力有限公司吉林供电公司 一种基于差异变化算子的企业培训监控视频摘要生成方法
CN111831855A (zh) * 2020-07-20 2020-10-27 北京字节跳动网络技术有限公司 用于匹配视频的方法、装置、电子设备和介质
CN112183249A (zh) * 2020-09-14 2021-01-05 北京神州泰岳智能数据技术有限公司 一种视频处理方法和装置
CN112507842A (zh) * 2020-12-01 2021-03-16 宁波多牛大数据网络技术有限公司 一种基于关键帧提取的视频文字识别方法和装置
CN112861717A (zh) * 2021-02-05 2021-05-28 深圳市英威诺科技有限公司 视频相似度检测方法、装置、终端设备以及存储介质
CN113536035A (zh) * 2021-04-27 2021-10-22 北京工业大学 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器
CN115550684A (zh) * 2021-12-30 2022-12-30 北京智美互联科技有限公司 一种改进的视频内容过滤方法和***
CN117812440A (zh) * 2024-02-28 2024-04-02 南昌理工学院 一种监控视频摘要生成方法、***、计算机及存储介质
US12020482B2 (en) 2020-01-19 2024-06-25 Beijing Bytedance Network Technology Co., Ltd. Live streaming sampling method and apparatus, and electronic device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050180730A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Method, medium, and apparatus for summarizing a plurality of frames
CN1968358A (zh) * 2006-09-14 2007-05-23 浙江大学 基于时间约束的频繁镜头模式的视频摘要自动生成方法
CN101464893A (zh) * 2008-12-31 2009-06-24 清华大学 一种提取视频摘要的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050180730A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Method, medium, and apparatus for summarizing a plurality of frames
CN1968358A (zh) * 2006-09-14 2007-05-23 浙江大学 基于时间约束的频繁镜头模式的视频摘要自动生成方法
CN101464893A (zh) * 2008-12-31 2009-06-24 清华大学 一种提取视频摘要的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANDRA ELIZA FONTES DE AVILA ET AL.: "VSUMM: A mechanism designed to produce static video summaries and a novel evaluation method", 《PATTERN RECOGNITION LETTERS》 *
苏翠宁: "视频摘要技术研究与***实现", 《中国优秀硕士学位论文全文数据库信息科技辑,2010年第4期》 *
邓婵: "视频摘要关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑,2014年第5期》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894043A (zh) * 2016-04-27 2016-08-24 上海高智科技发展有限公司 一种视频描述语句生成方法及***
CN106780429B (zh) * 2016-11-16 2020-04-21 重庆金山医疗器械有限公司 基于感知颜色空间和关键角点的wce视频时序冗余图像数据的关键帧提取方法
CN106780429A (zh) * 2016-11-16 2017-05-31 重庆金山医疗器械有限公司 基于感知颜色空间和关键角点的wce视频时序冗余图像数据的关键帧提取方法
CN107403086A (zh) * 2017-09-13 2017-11-28 上海中信信息发展股份有限公司 权限认证方法、装置及***
CN108881950A (zh) * 2018-05-30 2018-11-23 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN109213896A (zh) * 2018-08-06 2019-01-15 杭州电子科技大学 基于长短期记忆网络强化学习的水下视频摘要生成方法
CN109213896B (zh) * 2018-08-06 2021-06-01 杭州电子科技大学 基于长短期记忆网络强化学习的水下视频摘要生成方法
CN110096945A (zh) * 2019-02-28 2019-08-06 中国地质大学(武汉) 基于机器学习的室内监控视频关键帧实时提取方法
CN110096945B (zh) * 2019-02-28 2021-05-14 中国地质大学(武汉) 基于机器学习的室内监控视频关键帧实时提取方法
CN110084298A (zh) * 2019-04-23 2019-08-02 北京百度网讯科技有限公司 用于检测图像相似度的方法及装置
CN110221979A (zh) * 2019-06-04 2019-09-10 广州虎牙信息科技有限公司 应用程序的性能测试方法、装置、设备及存储介质
CN110933520A (zh) * 2019-12-10 2020-03-27 中国科学院软件研究所 一种基于螺旋摘要的监控视频展示方法及存储介质
CN111031390B (zh) * 2019-12-17 2022-10-21 南京航空航天大学 一种输出大小固定序列行列式点过程视频概要方法
CN111031390A (zh) * 2019-12-17 2020-04-17 南京航空航天大学 基于动态规划的输出大小固定序列行列式点过程视频概要方法
US12020482B2 (en) 2020-01-19 2024-06-25 Beijing Bytedance Network Technology Co., Ltd. Live streaming sampling method and apparatus, and electronic device
CN111325096A (zh) * 2020-01-19 2020-06-23 北京字节跳动网络技术有限公司 直播流采样方法、装置及电子设备
CN111325096B (zh) * 2020-01-19 2021-04-20 北京字节跳动网络技术有限公司 直播流采样方法、装置及电子设备
WO2021143273A1 (zh) * 2020-01-19 2021-07-22 北京字节跳动网络技术有限公司 直播流采样方法、装置及电子设备
CN111460961A (zh) * 2020-03-27 2020-07-28 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN111460961B (zh) * 2020-03-27 2023-07-18 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN111797707A (zh) * 2020-06-12 2020-10-20 武汉大学 一种基于聚类的镜头关键帧提取方法
CN111831855A (zh) * 2020-07-20 2020-10-27 北京字节跳动网络技术有限公司 用于匹配视频的方法、装置、电子设备和介质
CN111800674A (zh) * 2020-08-12 2020-10-20 国网吉林省电力有限公司吉林供电公司 一种基于差异变化算子的企业培训监控视频摘要生成方法
CN112183249A (zh) * 2020-09-14 2021-01-05 北京神州泰岳智能数据技术有限公司 一种视频处理方法和装置
CN112507842A (zh) * 2020-12-01 2021-03-16 宁波多牛大数据网络技术有限公司 一种基于关键帧提取的视频文字识别方法和装置
CN112861717A (zh) * 2021-02-05 2021-05-28 深圳市英威诺科技有限公司 视频相似度检测方法、装置、终端设备以及存储介质
CN113536035A (zh) * 2021-04-27 2021-10-22 北京工业大学 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器
CN115550684A (zh) * 2021-12-30 2022-12-30 北京智美互联科技有限公司 一种改进的视频内容过滤方法和***
CN117812440A (zh) * 2024-02-28 2024-04-02 南昌理工学院 一种监控视频摘要生成方法、***、计算机及存储介质
CN117812440B (zh) * 2024-02-28 2024-06-04 南昌理工学院 一种监控视频摘要生成方法、***、计算机及存储介质

Also Published As

Publication number Publication date
CN105025392B (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN105025392A (zh) 基于摘要空间特征学习的视频摘要关键帧提取方法
CN109961051B (zh) 一种基于聚类和分块特征提取的行人重识别方法
Zhang et al. Context-aware surveillance video summarization
US8170280B2 (en) Integrated systems and methods for video-based object modeling, recognition, and tracking
Song et al. Event-based large scale surveillance video summarization
Zhang et al. Action recognition based on overcomplete independent components analysis
Souly et al. Visual saliency detection using group lasso regularization in videos of natural scenes
Lu et al. Action recognition with multi-scale trajectory-pooled 3D convolutional descriptors
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
Babu et al. Compressed domain action classification using HMM
CN110135369A (zh) 一种行为识别方法、***、设备及计算机可读存储介质
Luo et al. Traffic analytics with low-frame-rate videos
CN107194950B (zh) 一种基于慢特征分析的多人跟踪方法
Russo et al. Sports classification in sequential frames using CNN and RNN
CN111723773A (zh) 遗留物检测方法、装置、电子设备及可读存储介质
Gammulle et al. Coupled generative adversarial network for continuous fine-grained action segmentation
Peng et al. Motion boundary based sampling and 3D co-occurrence descriptors for action recognition
Choo et al. Multi-scale recurrent encoder-decoder network for dense temporal classification
CN115497124A (zh) 身份识别方法和装置及存储介质
Harjanto et al. Investigating the impact of frame rate towards robust human action recognition
Zhong et al. Unsupervised vehicle search in the wild: A new benchmark
Ji et al. News videos anchor person detection by shot clustering
Song et al. A novel video abstraction method based on fast clustering of the regions of interest in key frames
CN110460840B (zh) 基于三维密集网络的镜头边界检测方法
Zhang et al. Jointly learning dictionaries and subspace structure for video-based face recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant