CN111526434B

CN111526434B - 基于转换器的视频摘要方法

Info

Publication number: CN111526434B
Application number: CN202010329511.3A
Authority: CN
Inventors: 梁国强; 张艳宁; 吕艳兵; 李书成; 吉时雨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2021-05-18
Anticipated expiration: 2040-04-24
Also published as: CN111526434A

Abstract

本发明提供了一种基于转换器的视频摘要提取方法。首先，对选定数据集进行处理，得到模型的训练数据集；然后，构建包括自注意力机制的视频摘要转换器神经网络模型，利用自注意力机制计算视频帧之间的相似度，并通过添加先前帧的重要性得分来增强模型捕获视频帧序列全局依赖关系的能力，利用训练数据集对模型进行训练；最后，利用训练好的模型对待处理视频数据进行处理，得到每一帧的重要性得分，根据该得分选择得到视频摘要。本发明能够很好地捕获视频帧序列之间的时序信息，进而能够很好地对视频帧的重要性程度以得分的形式进行预测，且本发明的模型网络对帧序列可以以并行化的方式进行训练，具有训练时效快、所得视频摘要完整简短的优点。

Description

基于转换器的视频摘要方法

技术领域

本发明属计算机视觉、深度学习表示技术领域，具体涉及一种基于转换器的视频摘要方法。

背景技术

随着摄像机、视频分享技术的快速发展，视频的数量正在呈现***式的增长。面对海量视频数据，如何高效地从视频中提取有用信息成为一个重要的问题。作为解决该问题的一个重要技术，视频摘要技术旨在对原视频生成一个完整且简短的摘要视频，该摘要视频在时长简短的基础上又能够传递原视频要表达的信息，已经成为多媒体、计算机视觉等领域的热点。视频摘要技术综合运用了机器学习、人工智能等多方面技术，在视频检索、存储、推荐等方面具有重要的作用。

目前，大部分的视频摘要方法分为两个阶段，第一阶段是对所有视频帧进行重要性得分的预测，第二阶段是利用第一阶段的结果来选择视频的关键镜头，从而获得最终摘要结果。第一阶段是视频摘要方法的关键阶段，目前大多数方法的研究都是针对视频帧重要性得分的预测，很多方法都具有比较好的性能。如文献“Ke Zhang,Wei-Lun Chao,FeiSha,et al.Video Summarization with Long Short-Term Memory[C]//EuropeanConference on Computer Vision.Springer,Cham,2016.”中使用两个LSTM网络，一个从前往后，一个从后往前来提取视频帧的序列信息并进行视频帧重要性得分预测，该网络结构组成简单，可提取关键的序列信息，但循环神经网络难以捕捉长时的依赖关系，在处理长视频信息时，容易遗失早期的序列依赖关系；文献“Ji,Zhong,Xiong,Kailin,Pang,Yanwei,etal.Video Summarization with Attention-Based Encoder-Decoder Networks[J].2017.”采用编解码器结构来提取视频关键帧，虽然加入了注意力机制，取得了不错的效果，但编解码器依然使用LSTM网络，其复杂度与视频的长度相关，存在难以实现并行训练、耗时长的问题。

发明内容

为了克服现有技术的不足，本发明提供一种基于转换器的视频摘要方法。利用基于注意力机制的转换器，优化特征到解码器的信息流路线，将解码器输出的重要性得分与原始特征进行加权，用于预测下一帧的重要性得分，增强模型输入与输出之间的联系，实现训练的完全并行化，同时更好地捕捉全局依赖信息。

一种基于转换器的视频摘要方法，其步骤如下：

步骤1：对选定数据集中的视频进行下采样，然后使用预先训练好的神经网络提取视频每一帧的特征向量h_f∈R^d，f为帧序号，f＝1,2,...,F，F是下采样后视频的总长度，d表示特征向量的长度；一个视频所有帧的特征向量和对应的重要性分数构成训练集中的一个样本；所述的选定数据集包括TvSum和SumMe；

步骤2：使用下式生成视频帧的位置向量：

其中，PE_f(i)表示视频第f帧的位置向量的第i个元素值,i＝1,2,…,d；

然后，将视频每一帧的位置向量逐元素与其特征向量相加，对每一帧得到一个添加位置向量后的新向量x_f；

步骤3：构建视频摘要转换器神经网络模型，包括编码器和解码器两个部分，其中，编码器由两个相同结构的编码器单元顺序连接而成，每个编码器单元依次包括多头自注意力机制模块、残差连接及归一化模块1、两层的前馈网络和残差连接及归一化模块2，将添加了位置向量的视频帧序列输入到第一个编码器单元中，第二个编码器单元输出得到一个维度与输入相同的带有序列信息的中间变量Y；

解码器由两个相同结构的解码器单元顺序连接而成，每个解码器单元依次包括带有掩膜的多头自注意力机制模块、残差连接及归一化模块1、多头自注意力机制模块、残差连接及归一化模块2、两层的前馈网络和残差连接及归一化模块3；解码器有两个输入，当预测第k帧的重要性得分时，已预测得到的前k-1个视频帧的重要性得分与其特征向量的乘积为第一个解码器单元中带有掩膜的多头自注意力机制模块的输入，编码器输出的中间变量输入到每个解码器单元的多头自注意力机制模块中；在第二个解码器单元后连接线性层和sigmoid函数，输出每一帧的重要性分值预测结果；

对上述神经网络模型的输入进行初始化，具体包括：编码器单元中多头自注意力机制模块第n个头的输入初始化为：

其中，n＝1,2,3,4，在第一个编码器单元中Q₀＝K₀＝V₀＝X，X为步骤2得到的添加了位置向量的视频帧特征，在第二个编码器单元中Q₀、K₀、V₀为第一个编码器单元的输出，

为随机生成的并且需在训练过程中学习的大小为d×d的矩阵；解码器单元中带有掩膜的多头自注意力机制模块的第n个头的输入Q_n、K_n和V_n的初始化方法与编码器中多头自注意力机制模块相同，不同之处为在第一个解码器单元中

其中，h_f为步骤1得到的第f帧的特征向量，s_f为预测得到的第f帧对应的重要性得分，第二个解码器单元中Q₀、K₀、V₀为第一个解码器单元的输出；解码器单元中多头自注意力机制模块的第n个头的输入Q_n、K_n和V_n的初始化方法与编码器中多头自注意力机制模块相同，不同之处为K₀＝V₀＝Y，Q₀＝Z，其中，Y为编码器输出的中间变量，Z为所在解码器单元中残差连接及归一化模块1输出的变量；

步骤4：使用步骤1得到的训练数据集对步骤3构建的视频摘要转换器神经网络模型进行训练，设定网络的损失函数为均方损失函数

其中，L表示网络损失，s_f和s′_f分别为模型预测的视频第f帧重要性分数和数据集中人工标注的重要性分数；

步骤5：对待处理的视频数据集进行预处理，包括片段提取、降采样、特征提取和位置向量添加，得到每一帧的特征表示；然后，利用步骤4训练好的神经网络模型提取得到每一帧视频的重要性得分；利用KTS算法将视频划分为若干个场景镜头，并使用背包算法，依据视频帧的重要性得分选择出重要的视频镜头作为视频摘要，所选取的视频摘要长度不超过原视频长度的15％。

本发明的有益效果是：由于摒弃了循环神经网络，在编解码器中使用多头自注意力机制，实现了视频帧之间的关联，且在训练过程中，对解码器中多头自注意力机制模块的输入，即人工标注得分与特征向量的乘积添加掩膜，从而对视频帧序列的训练实现了完全并行化，具有训练时效快的优点；由于所设计的解码器底端输入采用特征向量与重要性得分乘积的方式，即当预测第k帧的重要性得分时，已预测得到的前k-1个视频帧的重要性得分与其特征向量的乘积作为第一个解码器单元中带有掩膜的多头自注意力机制模块的输入，实现了解码过程中不同时序输出的关联，可以通过上一时刻的输出改善下一个时刻的输出结果，从而使得序列信息更加完整，获得更好的重要性得分预测性能；从整体看，本发明构建的整个模型完全基于自注意力机制，没有循环结构及过多的卷积操作，模型简单、易实现；且自注意力机制的使用能让模型更好地关注序列之间的细节信息，编解码器的结构使得序列的全局信息更加完整。

附图说明

图1是本发明的基于转换器的视频摘要方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于转换器的视频摘要方法，其具体实现过程如下：

1、数据处理

对选定数据集中的视频进行下采样，然后使用预先训练好的神经网络提取视频每一帧的特征向量h_f∈R^d，f为帧序号，f＝1,2,...,F，F是下采样后视频的总长度，d表示特征向量的长度；一个视频所有帧的特征向量和对应的重要性分数构成训练集中的一个样本；所述的选定数据集包括TvSum和SumMe，它们包含若干个视频及人工对其每一帧标注的重要性分数s′_f；

2、添加位置向量

为了表示每一帧的位置信息，需要添加位置表示向量。使用下式生成视频帧的位置向量：

其中，PE_f(i)表示视频第f帧的位置向量的第i个元素值,i＝1,2,…,d。

然后，将视频每一帧的位置向量逐元素相加到其特征向量，每一帧得到一个添加位置向量后的新向量x_f＝h_f+PE_f，将得到的向量作为后面网络模型编码器的输入。

3、构建视频摘要转换器神经网络模型

本发明设计了用于视频摘要的转换器模型，包括编码器和解码器，使用该模型获得视频帧的重要性得分。

其中，编码器由两个相同结构的编码器单元顺序连接而成，每个单元依次由多头自注意力机制模块、残差连接及归一化模块1、两层的前馈网络和残差连接及归一化模块2组成，将步骤2得到的添加了位置表示向量的视频帧特征序列

输入到第一个编码器单元中，最终第二个编码器单元输出得到一个维度与输入X相同的带有序列信息的中间变量Y。其中，多头自注意力机制记载在文献“Ashish Vaswani,Noam Shazeer,Niki Parmar,et al.Attention is all you need[J].2017.”中。

解码器由两个相同结构的解码器单元顺序连接而成，每个单元依次由带有掩膜的多头自注意力机制模块、残差连接及归一化模块1、多头自注意力机制模块、残差连接及归一化模块2、两层的前馈网络和又一个残差连接及归一化模块3组成，解码器有两个输入，当预测第k(k＝1,2,...,F)帧的重要性得分时，前k-1个视频帧已预测得到的重要性得分与该帧特征向量的乘积作为第一个解码器单元中带有掩膜的多头自注意力机制模块的输入，而编码器输出的中间变量则输入到每个解码器单元的多头自注意力机制模块中；在最后一个解码器单元后面添加线性层和sigmoid函数，输出每一帧的重要性分值预测结果。

编码器的处理过程为：首先，编码器接收X，对多头自注意力机制模块第n(n＝1,2,3,4)个头的输入进行初始化：

其中，Q₀＝K₀＝V₀＝X，

为随机生成的并且需在训练过程中学习的大小为d×d的矩阵；然后，依据多头自注意力机制对Q_n,K_n,V_n进行处理：

M(Q₀,K₀,V₀)＝Concat(H₁,...,H₄)W^O (7)

其中，Concat为拼接函数，W^O为随机生成的并且需在训练过程中学习的大小为4d×d的矩阵，M(Q₀,K₀,V₀)为多头自注意力机制模块最终的输出；接着，进行残差连接及归一化操作；最后，使用一个两层的前馈网络和残差连接及归一化模块，对特征进行进一步的映射，并将得到的变量继续输入第二个编码器单元，最终输出得到一个维度与输入相同的带有序列信息的中间变量Y；

解码器的处理过程为：首先，当预测第k帧的重要性得分时，已预测得到的前k-1个视频帧的重要性得分与其特征向量的乘积作为第一个解码器单元的输入，即：

需要注意的是，训练过程中第一个解码器单元使用所有人工标注得分与特征向量的乘积作为输入，以实现训练的并行化，因此需要在自注意力机制模块添加掩膜，以确保预测当前帧的重要性得分时仅依赖于该帧之前的输出，而自注意力机制模块的处理过程与上述编码器中相同；

然后将上述带有掩膜的自注意力机制模块的输出进行残差连接与归一化操作得到Z，并与编码器得到的中间变量Y一同输入到解码器单元中的自注意力机制模块中：

K₀＝V₀＝Y，Q₀＝Z (9)

接着，将上一步自注意力机制模块输出的特征与原始特征进行相加、归一化，并输入到一个两层的前馈网络中，最后再次进行残差连接及归一化操作，将得到的变量输入到第二个解码器单元中；

最终，将第二个解码器单元的输出通过一个线性层和sigmoid函数，得到帧的重要性分值预测结果。

4、训练神经网络模型

使用步骤1得到的训练数据集对步骤3介绍的视频摘要转换器神经网络模型进行训练，设定网络的损失函数为均方损失函数

其中，L表示网络损失，s_f和s′_f分别为模型预测的视频第f帧重要性分数和数据集中人工标注的重要性分数，多次迭代训练后得到训练好的模型；

5、利用神经网络模型得到视频摘要

对待处理的视频数据集进行预处理，包括片段提取、降采样、特征提取和位置向量添加，得到每一帧的特征表示；然后，利用步骤4训练好的神经网络模型提取得到每一帧视频的重要性得分。最后，利用KTS算法将视频划分为多个场景镜头，并使用背包算法，依据视频帧的重要性得分选择出重要的视频镜头，即视频摘要。所选取的视频摘要长度不能超过原视频长度的15％。

Claims

1.一种基于转换器的视频摘要方法，其步骤如下：

步骤2：使用下式生成视频帧的位置向量：