CN114979801A - 基于双向卷积长短期记忆网络的动态视频摘要算法及*** - Google Patents

基于双向卷积长短期记忆网络的动态视频摘要算法及*** Download PDF

Info

Publication number
CN114979801A
CN114979801A CN202210504819.6A CN202210504819A CN114979801A CN 114979801 A CN114979801 A CN 114979801A CN 202210504819 A CN202210504819 A CN 202210504819A CN 114979801 A CN114979801 A CN 114979801A
Authority
CN
China
Prior art keywords
video
convlstm
frame
time
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210504819.6A
Other languages
English (en)
Inventor
滕国伟
乾竞元
高伟
王嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI MEDIA & ENTERTAINMENT TECHNOLOGY GROUP
University of Shanghai for Science and Technology
Original Assignee
SHANGHAI MEDIA & ENTERTAINMENT TECHNOLOGY GROUP
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI MEDIA & ENTERTAINMENT TECHNOLOGY GROUP, University of Shanghai for Science and Technology filed Critical SHANGHAI MEDIA & ENTERTAINMENT TECHNOLOGY GROUP
Priority to CN202210504819.6A priority Critical patent/CN114979801A/zh
Publication of CN114979801A publication Critical patent/CN114979801A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于双向卷积长短期记忆网络的动态视频摘要算法及***,包括如下步骤:使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征;使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数。本发明提出了端到端的基于双向卷积长短期记忆动态视频摘要网络,具有监督的编码器‑解码器视频摘要框架,可以学习视频中复杂的时空语义结构关系。

Description

基于双向卷积长短期记忆网络的动态视频摘要算法及***
技术领域
本发明涉及视频处理技术领域,具体地,涉及一种基于双向卷积长短期记忆网络的动态视频摘要算法及***。
背景技术
随着大数据时代的到来,数字信息技术的发展使得视频成为人们获取信息的重要方式,但是,视频数据的指数型增长也为人们带来了一些困扰。面对海量视频,人们观看视频需要耗费大量时间,无法高效地捕获感兴趣的内容,而且视频数据的存储和管理压力也越来越大。所以,如何高效地浏览、检索和管理视频资源成为近年来亟需解决的热点研究课题。
视频摘要技术应运而生,是解决上述问题的有效方法,它从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要。在理想情况下,视频摘要应满足两个主要目标:首先,摘要应保留原始视频的代表性结构和多样性信息,并尽可能地减少冗余,可以在最短的时间内为用户提供最大的目标视频信息;其次,摘要应与人类理解保持一致,即摘要能概括原始视频的主要内容,保留人类认为重要的信息。
公开号为CN105357594B的专利文献公开了一种基于集群及H264的视频浓缩算法的海量视频摘要生成方法,包括如下步骤:选取原始视频,并对其进行切割,得到n个长度近似相等的片段,编码格式为H264,其中n为自然数;对切割后的各片段进行视频解码,根据运动估计以及背景图来获取前景目标,并通过基于稀疏光流的误报删除及漏检修复算法,对各片段的检测率进行完善,并更新背景图;将单个包含运动信息的片段视作浓缩单元,进行压缩,压缩完成后进行拼接,生成一段完整的视频摘要。但是该专利文献与本申请的技术方案不同。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于双向卷积长短期记忆网络的动态视频摘要算法及***。
根据本发明提供的一种基于双向卷积长短期记忆网络的动态视频摘要算法,包括如下步骤:
步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
优选的,所述步骤2中,所述ConvLSTM为LSTM的扩展,所述ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构。
优选的,使用ConvLSTM对每一帧的特征图进行时空建模具体为:
采用了所述ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,…,XT}到所述ConvLSTM中,其中Xt为所述ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,…,T;
所述ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出;
在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中;
输入的特征图序列经过所述ConvLSTM的运算得到隐藏层状态序列{H1,H2,…,HT},细胞状态序列{C1,C2,…,CT},其中,Ct为t时刻的细胞状态,Ht为t时刻的隐藏层状态。
优选的,具体计算公式如下:
Figure BDA0003637046720000021
其中,Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积。
优选的,所述步骤2中,所述ConvLSTM包括前向LSTM和后向LSTM;
所述前向LSTM在过去方向上建立长期依赖关系,所述后向LSTM在未来方向上建立长期依赖关系;
所述前向LSTM和所述后向LSTM在编码信息的过程中相互独立。
优选的,所述步骤3具体为:
Figure BDA0003637046720000031
Figure BDA0003637046720000032
拼接为双向隐藏状态向量
Figure BDA0003637046720000033
并输入全连接层,然后,经过非线性映射层输出该帧t时刻的重要性分数yt,其中,
Figure BDA0003637046720000034
为t时刻所述前向LSTM的输出,
Figure BDA0003637046720000035
为t时刻所述后向LSTM的输出。
优选的,
Figure BDA0003637046720000036
其中,Wu为网络中待训练的参数权重,bu为待训练的偏置项,
Figure BDA0003637046720000037
为前向LSTM的输出,
Figure BDA0003637046720000038
为后向LSTM的输出,σ为sigmoid函数。
优选的,所述步骤4具体为:
采用核时间分割方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%,最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
优选的,
Figure BDA0003637046720000039
Figure BDA00036370467200000310
其中
Figure BDA00036370467200000311
是第i个镜头中第f帧的重要性分数,li是第i个镜头的总帧数,L为原始视频总长度,K为镜头个数,ai为选择系数,ai=1表示第i个镜头被选为关键镜头。
本发明还提供一种基于双向卷积长短期记忆网络的动态视频摘要***,包括如下模块:
模块M1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
模块M2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
模块M3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
模块M4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种新颖的端到端的基于双向卷积长短期记忆动态视频摘要网络(CLSN),具有监督的编码器-解码器视频摘要框架,可以学习视频中复杂的时空语义结构关系;
2、本发明首次将ConvLSTM应用到视频摘要的领域,可以联合考虑视频帧内的空间结构信息和视频帧间的长短期依赖关系,将视频的空间特征和时间特征进行有机融合,更加有效地学习视频的时空语义信息,使生成的摘要更贴近人类理解,克服了独立分析视频时间特征和空间特征而导致生成摘要缺乏故事性、逻辑性的问题;
3、本发明在SumMe和TVSum两个基准数据集上进行了大量的实验,在SumMe数据集上,规范设置分数达到了49.71%,增强设置分数达到了51.09%;在TVSum数据集上,规范设置分数达到了61.63%,增强设置分数达到了62.35%,实验结果证明了本发明优于其他同类型视频摘要方法。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的基于双向卷积长短期记忆网络的动态视频摘要算法的流程图;
图2为本发明CLSN网络框架结构图;
图3为本发明的基于双向卷积长短期记忆网络的动态视频摘要算法的步骤流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1~3所示,本实施例提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,包括如下步骤:
步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;ConvLSTM为LSTM的扩展,ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构;
使用ConvLSTM对每一帧的特征图进行时空建模具体为:
采用了ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,…,XT}到ConvLSTM中,其中Xt为ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,…,T;
ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出;
在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中;
输入的特征图序列经过ConvLSTM的运算得到隐藏层状态序列{H1,H2,…,HT},细胞状态序列{C1,C2,…,CT},其中,Ct为t时刻的细胞状态,Ht为t时刻的隐藏层状态;
具体计算公式如下:
Figure BDA0003637046720000051
其中Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积;
ConvLSTM包括前向LSTM和后向LSTM;
前向LSTM在过去方向上建立长期依赖关系,后向LSTM在未来方向上建立长期依赖关系;
前向LSTM和后向LSTM在编码信息的过程中相互独立。
步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;将
Figure BDA0003637046720000061
Figure BDA0003637046720000062
拼接为双向隐藏状态向量
Figure BDA0003637046720000063
并输入全连接层,然后,经过非线性映射层输出该帧t时刻的重要性分数yt,其中,
Figure BDA0003637046720000064
为t时刻前向LSTM的输出,
Figure BDA0003637046720000065
为t时刻后向LSTM的输出;
Figure BDA0003637046720000066
其中,Wu为网络中待训练的参数权重,bu为待训练的偏置项,
Figure BDA0003637046720000067
为前向LSTM的输出,
Figure BDA0003637046720000068
为后向LSTM的输出,σ为sigmoid函数。
步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数;
采用核时间分割方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%,最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频;
Figure BDA0003637046720000069
Figure BDA00036370467200000610
其中
Figure BDA00036370467200000611
是第i个镜头中第f帧的重要性分数,li是第i个镜头的总帧数,L为原始视频总长度,K为镜头个数,ai为选择系数,ai=1表示第i个镜头被选为关键镜头。
实施例2:
本实施例提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,包括如下模块:
模块M1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
模块M2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
模块M3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
模块M4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
实施例3:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,具体操作步骤如下:
步骤S1,提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤S2,视频帧的时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
步骤S3,重要性分数回归,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
步骤S4,生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释(Ground Truth)的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
视频帧时空语义建模和生成动态视频摘要,具体步骤如下:
在以往的各种研究中已经证明了LSTM在时间相关性建模任务中的稳定性和有效性,但它包含了大量的空间数据冗余,为解决该问题,本实施例采用了ConvLSTM作为核心单元,同步对视频中的时空关系进行建模。ConvLSTM是LSTM的扩展,将CNN与LSTM在模型底层结合,专门为时空序列设计的深度学习模块,在输入到状态和状态到状态的转换中都具有卷积结构,可以有效地提取视频帧内的空间结构信息。
输入视频帧中提取出的特征图序列{X1,X2,…,XT}到ConvLSTM中,其中Xt为ConvLSTM中时间步t时刻的输入,T为视频帧的数量。ConvLSTM通过输入门、遗忘门和输出门来实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出。在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中。输入的特征图经过ConvLSTM的运算可以得到隐藏层状态{H1,H2,…,HT},细胞状态{C1,C2,…,CT},具体计算公式如下:
Figure BDA0003637046720000081
其中,Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积。
在视频中,对视频帧的时空建模不仅需要考虑过去时刻的视频帧,还需要考虑未来时刻视频帧的影响,所以本实施例设计了双向的ConvLSTM模型能在过去和未来的方向上建立更好的长期依赖关系。前向和后向ConvLSTM在编码信息的过程中相互独立。将
Figure BDA0003637046720000082
Figure BDA00036370467200000811
拼接为双向隐藏状态向量
Figure BDA0003637046720000084
并输入全连接层,然后,经过非线性映射层输出该帧的重要性分数yt
Figure BDA0003637046720000085
其中,Wu为网络中待训练的参数权重,bu为待训练的偏置项,σ为sigmoid函数,
Figure BDA0003637046720000086
为前向LSTM的输出,
Figure BDA0003637046720000087
为后向LSTM的输出。
本实施例期望生成动态的视频摘要,所以需要根据帧级重要性分数获取视频中的关键镜头。本实施例采用核时间分割(Kernel Temporal Segmentation,KTS)方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si。然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%。最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
Figure BDA0003637046720000088
Figure BDA0003637046720000089
其中
Figure BDA00036370467200000810
是第i个镜头中第f帧的重要性分数,li是第i个镜头的总帧数,L为原始视频总长度,K为镜头个数,ai为选择系数,ai=1表示第i个镜头被选为关键镜头。
本实施例的目的在于提供一种新颖的动态视频摘要方法,可以精准快速地提取视频中重要片段和内容,本实施例提出了一种基于双向卷积长短期记忆网络的动态视频摘要算法,将视频摘要任务视作序列到序列的结构性预测问题,设计了一个基于双向ConvLSTM的动态视频摘要网络(CLSN),这是一个联合考虑视频时空语义信息的视频摘要框架,可以同步对视频帧内的空间结构信息和视频帧间的长短期依赖关系进行时空建模,有利于生成更符合人类理解的高质量摘要,相比于由关键帧组成的摘要,动态视频摘要由关键镜头组成,以短视频的形式呈现给用户,不仅能最大化地代表原始视频,还能更好的表达视频动态语义。
实施例4:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例中提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,算法流程如图1所示。
首先将原始视频划分成视频帧,通过InceptionResNetV2编码器提取视频帧的深度语义信息进行编码得到每一帧的空间特征图;然后将特征图输入双向卷积长短期记忆网络(Bi-ConvLSTM)解码器,对视频特征图的时空语义结构关系进行建模;接着,根据获取的视频时空语义信息回归得到每一帧的重要性分数,并根据帧级重要性分数计算镜头级重要性分数;最后,通过背包算法选择关键镜头组成动态摘要视频。训练过程中通过计算均方误差来最小化摘要视频与数据集注释的信息差,以优化网络参数,得到高质量的摘要视频。
如图2所示,一种基于双向卷积长短期记忆网络的动态视频摘要算法,具体操作步骤如下:
步骤S1,使用在Image数据集上训练好的InceptionResNetV2神经网络提取待处理视频每一帧的深度空间特征图{X1,X2,…,XT},特征图的尺寸为1536×8×8,其中深度为1536,长度与宽度均为8;
步骤S2,以视频帧特征图序列{X1,X2,…,XT}输入双向卷积长短期记忆网络(Bi-ConvLSTM)对视频每一帧的特征图进行时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系,并在ConvLSTM底层进行时空特征的有机融合,以此对视频帧进行重要性分数回归,获得每一帧的重要性分数{y1,y2,…,yT};
步骤S3,使用核函数时间分割方法(Kernel Temporal Segmentation,KTS)检测场景变化点将原始视频分割为若干个不相交的镜头{S1,S2,…,SK},根据得到的帧级重要性分数计算镜头级重要性分数{s1,s2,…,sK};
步骤S4,利用背包算法选择关键镜头生成动态摘要,并保证摘要的长度不超过原始视频的15%;
步骤S5,建立算法选择的关键镜头与数据集真实值注释(Ground Truth)之间的均方误差损失函数,进行有监督迭代训练,不断优化网络参数。
在以往的各种研究中已经证明了LSTM在时间相关性建模任务中的稳定性和有效性,但它包含了大量的空间数据冗余,为解决该问题,本实施例采用了ConvLSTM作为核心单元,同步对视频中的时空关系进行建模。ConvLSTM是LSTM的扩展,将CNN与LSTM在模型底层结合,专门为时空序列设计的深度学习模块,在输入到状态和状态到状态的转换中都具有卷积结构,可以有效地提取视频帧内的空间结构信息。
输入视频帧中提取出的特征图序列{X1,X2,…,XT}到ConvLSTM中,其中Xt为ConvLSTM中时间步t时刻的输入,T为视频帧的数量。ConvLSTM通过输入门、遗忘门和输出门来实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出。在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中。输入的特征图经过ConvLSTM的运算可以得到隐藏层状态{H1,H2,…,HT},细胞状态{C1,C2,…,CT},具体计算公式如下:
Figure BDA0003637046720000101
其中,Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积。
在视频中,对视频帧的时空建模不仅需要考虑过去时刻的视频帧,还需要考虑未来时刻视频帧的影响,所以本实施例设计了双向的ConvLSTM模型能在过去和未来的方向上建立更好的长期依赖关系。前向和后向ConvLSTM在编码信息的过程中相互独立。将
Figure BDA0003637046720000102
Figure BDA0003637046720000103
拼接为双向隐藏状态向量
Figure BDA0003637046720000104
并输入全连接层,然后,经过非线性映射层输出该帧的重要性分数yt
Figure BDA0003637046720000105
其中,Wu为网络中待训练的参数权重,bu为待训练的偏置项,σ为sigmoid函数,
Figure BDA0003637046720000106
为前向LSTM的输出,
Figure BDA0003637046720000107
为后向LSTM的输出。
本实施例期望生成动态的视频摘要,所以需要根据帧级重要性分数获取视频中的关键镜头。本实施例采用核时间分割(Kernel Temporal Segmentation,KTS)方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%。最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
Figure BDA0003637046720000111
Figure BDA0003637046720000112
其中
Figure BDA0003637046720000113
是第i个镜头中第f帧的重要性分数,li是第i个镜头的总帧数,L为原始视频总长度,K为镜头个数,ai为选择系数,ai=1表示第i个镜头被选为关键镜头。
本发明提出了一种新颖的端到端的基于双向卷积长短期记忆动态视频摘要网络,具有监督的编码器-解码器视频摘要框架,可以学习视频中复杂的时空语义结构关系。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,包括如下步骤:
步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
2.根据权利要求1所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤2中,所述ConvLSTM为LSTM的扩展,所述ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构。
3.根据权利要求2所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,使用ConvLSTM对每一帧的特征图进行时空建模具体为:
采用了所述ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,…,XT}到所述ConvLSTM中,其中Xt为所述ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,…,T;
所述ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出;
在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中;
输入的特征图序列经过所述ConvLSTM的运算得到隐藏层状态序列{H1,H2,…,HT},细胞状态序列{C1,C2,…,CT},其中,Ct为t时刻的细胞状态,Ht为t时刻的隐藏层状态。
4.根据权利要求3所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,具体计算公式如下:
Figure FDA0003637046710000021
其中,Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积。
5.根据权利要求4所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤2中,所述ConvLSTM包括前向LSTM和后向LSTM;
所述前向LSTM在过去方向上建立长期依赖关系,所述后向LSTM在未来方向上建立长期依赖关系;
所述前向LSTM和所述后向LSTM在编码信息的过程中相互独立。
6.根据权利要求5所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤3具体为:
Figure FDA0003637046710000022
Figure FDA0003637046710000023
拼接为双向隐藏状态向量
Figure FDA0003637046710000024
并输入全连接层,然后,经过非线性映射层输出该帧t时刻的重要性分数yt,其中,
Figure FDA0003637046710000025
为t时刻所述前向LSTM的输出,
Figure FDA0003637046710000026
为t时刻所述后向LSTM的输出。
7.根据权利要求6所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,
Figure FDA0003637046710000027
其中,Wu为网络中待训练的参数权重,bu为待训练的偏置项,
Figure FDA0003637046710000028
为前向LSTM的输出,
Figure FDA0003637046710000029
为后向LSTM的输出,σ为sigmoid函数。
8.根据权利要求7所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤4具体为:
采用核时间分割方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%,最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
9.根据权利要求8所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,
Figure FDA0003637046710000031
Figure FDA0003637046710000032
其中
Figure FDA0003637046710000033
是第i个镜头中第f帧的重要性分数,li是第i个镜头的总帧数,L为原始视频总长度,K为镜头个数,ai为选择系数,ai=1表示第i个镜头被选为关键镜头。
10.一种基于双向卷积长短期记忆网络的动态视频摘要***,其特征在于,包括如下模块:
模块M1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
模块M2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
模块M3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
模块M4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
CN202210504819.6A 2022-05-10 2022-05-10 基于双向卷积长短期记忆网络的动态视频摘要算法及*** Pending CN114979801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210504819.6A CN114979801A (zh) 2022-05-10 2022-05-10 基于双向卷积长短期记忆网络的动态视频摘要算法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210504819.6A CN114979801A (zh) 2022-05-10 2022-05-10 基于双向卷积长短期记忆网络的动态视频摘要算法及***

Publications (1)

Publication Number Publication Date
CN114979801A true CN114979801A (zh) 2022-08-30

Family

ID=82981155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210504819.6A Pending CN114979801A (zh) 2022-05-10 2022-05-10 基于双向卷积长短期记忆网络的动态视频摘要算法及***

Country Status (1)

Country Link
CN (1) CN114979801A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731498A (zh) * 2022-12-01 2023-03-03 石家庄铁道大学 一种联合强化学习和对比学习的视频摘要生成方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
CN112468888A (zh) * 2020-11-26 2021-03-09 广东工业大学 基于gru网络的视频摘要生成方法与***
CN114020964A (zh) * 2021-11-15 2022-02-08 上海大学 一种利用记忆网络和门控循环单元实现视频摘要的方法
EP3961490A1 (en) * 2020-08-25 2022-03-02 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and apparatus for video clip extraction, and storage medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
EP3961490A1 (en) * 2020-08-25 2022-03-02 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and apparatus for video clip extraction, and storage medium
CN112468888A (zh) * 2020-11-26 2021-03-09 广东工业大学 基于gru网络的视频摘要生成方法与***
CN114020964A (zh) * 2021-11-15 2022-02-08 上海大学 一种利用记忆网络和门控循环单元实现视频摘要的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHINGSHUN LIN等: "Sports video summarization with limited labeling datasets based on 3D neural networks", 《2019 16TH IEEE INTERNATIONAL CONFERENCE ON ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE (AVSS)》 *
HONGMEI SONG等: "Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection", 《PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 *
SHAMIT LAL等: "Online Video Summarization Predicting Future To Better Summarize Present", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
XINGJIAN SHI等: "Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting", 《NIPS"15: PROCEEDINGS OF THE 28TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731498A (zh) * 2022-12-01 2023-03-03 石家庄铁道大学 一种联合强化学习和对比学习的视频摘要生成方法

Similar Documents

Publication Publication Date Title
CN108388900B (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN110175580B (zh) 一种基于时序因果卷积网络的视频行为识别方法
WO2020088216A1 (zh) 一种音视频处理方法、装置、设备及介质
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
WO2021164326A1 (zh) 一种视频处理方法、装置、设备及计算机可读存储介质
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
US11868738B2 (en) Method and apparatus for generating natural language description information
CN115002559B (zh) 基于门控多头位置注意力机制的视频摘要算法及***
CN109213896B (zh) 基于长短期记忆网络强化学习的水下视频摘要生成方法
CN110674673A (zh) 一种关键视频帧抽取方法、装置和存储介质
Li et al. Learning hierarchical video representation for action recognition
WO2023109361A1 (zh) 用于视频处理的方法、***、设备、介质和产品
KR20230062429A (ko) 문장 기반 스케치 추천 방법 및 장치
CN115359492A (zh) 文本图像匹配模型训练方法、图片标注方法、装置、设备
CN114979801A (zh) 基于双向卷积长短期记忆网络的动态视频摘要算法及***
CN113011320B (zh) 视频处理方法、装置、电子设备及存储介质
CN111723934B (zh) 图像处理方法及***、电子设备及存储介质
Zhang et al. SOR-TC: Self-attentive octave ResNet with temporal consistency for compressed video action recognition
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN116662604A (zh) 一种基于分层Transformer的视频摘要方法
CN114511813B (zh) 视频语义描述方法及装置
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
Hari et al. Human face based approach for video summarization
Xu et al. Deep Neural Network‐Based Sports Marketing Video Detection Research
EP3401843A1 (en) A method, an apparatus and a computer program product for modifying media content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220830