CN110866510A

CN110866510A - 一种基于关键帧检测的视频描述***和方法

Info

Publication number: CN110866510A
Application number: CN201911145738.6A
Authority: CN
Inventors: 尹晓雅; 李锐; 于治楼
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-06

Abstract

本发明公开了一种基于关键帧检测视频描述***及方法，本发明包括采样模块、关键帧选择网络和视频帧描述网络，本发明还涉及一种基于关键帧检测的视频描述方法，括如下步骤：S1、采用等间隔的采样方式从待描述视频抽取视频帧；S2、基于关键帧选择网络从所抽取的视频帧中筛选包含不同信息的关键帧；S3、将筛选的关键帧送入至视频帧描述网络中生成描述文本。本发明在视频帧描述网络之前增加关键帧选择网络，所有视频帧先送入到关键帧帧选择网络进行筛选，筛选出包含不同信息的关键帧，在这过程中能够排除掉较多的重复冗余的视频帧，大大减少了视频帧描述网络处理量，降低了冗余信息的产生，降低噪声的干扰，提高了***处理效率。

Description

一种基于关键帧检测的视频描述***和方法

技术领域

本发明涉及视频处理技术领域，具体涉及一种基于关键帧检测时视频描述方法。

背景技术

视频描述任务类似于将视频内容翻译成一段自然语言，早期的视频描述方法，主要由自底向上的方法解决此类任务，首先预定多种句子模板，将组成句子的单词根据词性进行分类，通过属性学习和目标识别等方法获得图像的描述性单词，然后通过将预测单词与预定义的句子模板匹配的语言模型将它们组合起来，这种方法也简称为S-V-O(主-谓-宾)方法。随着神经网络和深度学习的发展，当前的视频描述任务以卷积网络-CNN和循环神经网络-RNN为基础，采用编码器-解码器结构。首先将视频内容编码成全局表示向量，随后采用解码器将编码得到的表示向量解码成自然语言。基于编码-解码框架的一个热门分支是利用注意力机制对输入特征进行加权，通过学习自动学得突出目标。对于图像描述任务，注意力机制的表示形式通常是针对于空间区域的注意形式。对于视频描述任务，注意力之积通常表现于时间维度，在生成输出序列中的相应单词时，自动将重点固定在表现突出的相关帧上。

现有的模型通常在编码阶段等间隔的采样一定数量的视频帧，这将会导致选取了多个具有重复和冗余视觉信息的帧。随后利用视频的局部时间结构或者全局时间结构或者同时使用两种时间结构，在给定解码RNN的情况下自动选择最相关的时间片段。在此过程中将涉及显著的计算开销，例如对于一个中等规模的深度分类模型来说，提取一个帧大小的图片的视觉特征需要数百万次浮点数的计算，和得到的效果相比，显然计算资源被极大的浪费。此外，但由于考虑的帧只是通过简单的采样进行选取，并没有经过特别的选取。而视频相邻几秒钟的时间内发生的事件通过不会有过大的变化，因此存在于相邻帧中的时间冗余没有得到解决，并且不能保证通过等间隔采样得到的帧都包含有意义的信息。这些冗余以及噪声很可能会导致模型对噪声过于敏感以及对视频内容信息产生过拟合。

综上所述，基于注意力机制的方法，尤其是时间注意力，等间隔采样帧，并在完全观察到所有视频内容的条件下进行操作，这在一些实际应用中并不适用。

发明内容

本发明的目的是针对以上不足，提供一种计算量小的基于关键帧检测的视频描述***，还提供一种计算量小的基于关键帧检测的视频描述方法。

本发明所采用技术方案是：

一种基于关键帧检测的视频描述***，包括采样模块、关键帧选择网络和视频帧描述网络，其中：

采样模块，用于以等间隔的采样方式从待描述视频抽取视频帧；

关键帧选择网络，用于在上述获取的视频帧中筛选具有不同信息的关键帧；

视频帧描述网络，基于上述关键帧生成视频描述文本。

具体的，本发明所述关键帧选择网络基于卷积神经网络搭建，所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络和循环神经网络进行特征提取，解码器采用双向LSTM并结合注意力机制。

本发明还涉及一种基于关键帧检测的视频描述方法，包括如下步骤：

S1、采用等间隔的采样方式从待描述视频抽取视频帧；

S2、基于关键帧选择网络从所抽取的视频帧中筛选包含不同信息的关键帧；

S3、将筛选的关键帧送入至视频帧描述网络中生成描述文本。

作为优选的，本发明所述关键帧选择网络基于卷积神经网络，关键帧的筛选步骤包括：

S21、所有视频帧依次送入关键帧选择网络中，通过卷积处理后获得视频帧对应的特征向量；

S22、基于当前视频帧的特征向量与上一时刻的视频帧的特征性向量进行对比，获得两者之间的差异特征向量；

S23、将所述差异特征向量送入到二分类网络中进行处理，分别获得有差异概率和无差异概率，当有差异概率大于无差异概率时，当前视频帧选择保留，作为关键帧，并作为下一比较过程的对比视频帧；当有差异概率大于无差异概率时，当前视频帧选择丢弃，该比较过程的对比视频帧仍作为一下过程的对比视频帧；

S24、重复步骤S12-S13，直至将所有视频帧处理完成。

作为优选的，本发明所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络和循环神经网络进行特征提取，解码器采用双向LSTM，并结合注意力机制，视频帧的描述步骤包括：

将上述关键帧送入到视频帧描述网络中，先通过卷积神经网络获取关键帧的特征向量，再将关键帧的特征向量送入到循环神经网络中得到视频全局表示向量，最后将视频全局表示向量送入到解码器中解码得到每时刻单词的概率，选择概率最大的单词作为候选单词，进一步生成视频的描述文本。

作为优选的，本发明所述视频帧选择网络和视频帧描述网络的建立包括如下步骤：

搭建网络结构：基于卷积神经网络搭建视频帧选择网络，基于编码器-解码器结构搭建视频帧描述网络，所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络和循环神经网络进行特征提取，解码器采用双向LSTM，并结合注意力机制。

获取原始数据：从获取的待描述视频按等间隔的采样方式抽取视频帧，并在每个视频帧中通过人工进行标注，同时将视频帧划分为训练集和测试集；

制作单词表：使用nltk对每个视频帧中的人工标注进行筛选分词，制作单词表；

预训练视频帧描述网络：通过交叉熵损失函数预训练视频描述网络，将得到的语言描述分别与真实标注计算交叉熵，同时将得到的语言描述的和作为总体损失；

训练关键帧选择网络：以预训练的视频帧描述网络为环境，使用增强学习算法训练关键帧选择网络。

联合训练：将关键帧选择网络和视频帧描述网络进行联合训练。

作为优选的，本发明所述预训练视频帧描述网络的步骤包括：

将训练集的视频进行等间隔抽取视频帧，并将抽取的视频帧人工建立标签；

通过卷积神经网络获取所述视频帧的特征向量；

将视频帧的特征向量送入到循环神经网络中得到视频全局表示向量；

将视频全局表示向量送入到解码器中解码得到每时刻单词的概率，选择概率最大的单词作为候选单词；

基于候选单词与人工建立的标签进行监督学习。

作为优选的，本发明基于上述预训练好的视频帧描述网络训练关键帧选择网络，训练关键帧选择网络的步骤包括：

将视频帧送入到关键帧选择网络中筛选出关键帧，并结合评价体系；

将筛选出的关键帧送入到训练好的视频帧描述网络中获取候选单词；

评价体系基于视频帧描述网络中的候选单词与人工标签的匹配度进行奖励优化关键帧选择网络。

本发明具有以下优点：

1、本发明在视频帧描述网络之前增加关键帧选择网络，所有视频帧先送入到关键帧帧选择网络进行筛选，筛选出包含不同信息的关键帧，在这过程中能够排除掉较多的重复冗余的视频帧，然后再将关键帧送入到视频帧描述网络中进行处理，大大减少了视频帧描述网络处理量，降低了冗余信息的产生，降低噪声的干扰，提高了***处理效率；

2、本发明的关键帧选择网络独立于视频帧描述网络而设置，在使用过程中可以根据不用情况，选择使用或者不使用关键帧选择网络，使得本发明的***更具有灵活性；

3、本发明的方法采用一个关键帧选择网络忽略内容上相似的帧，保留具有较大差异的帧，从而消除冗余，最大程度上减少计算量，降低噪声的干扰，防止过拟合，得到准确的描述结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明：

图1为本发明的视频描述方法的流程示意图

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

需要理解的是，在本发明实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。在本发明实施例中的“多个”，是指两个或两个以上。

本发明实施例中的属于“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”关系。、

实施例一

本实施例提供一种基于关键帧检测的视频描述***，包括采样模块、关键帧选择网络和视频帧描述网络，所述关键帧选择网络基于卷积神经网络搭建，所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络和循环神经网络进行特征提取，解码器采用双向LSTM并结合注意力机制。其中：

视频帧描述网络，基于上述关键帧生成视频描述文本。

实施例二

本实施例提供一种基于关键帧检测的视频描述方法，包括如下步骤：

S1、采用等间隔的采样方式从待描述视频抽取视频帧；

S2、基于关键帧选择网络从所抽取的视频帧中筛选包含不同信息的关键帧；所述关键帧选择网络基于卷积神经网络建立，具体的，关键帧的筛选包括如下步骤：

S24、重复步骤S22-S23，直至将所有视频帧处理完成。

S3、将筛选的关键帧送入至视频帧描述网络中生成描述文本。所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络和循环神经网络进行特征提取，解码器采用双向LSTM，并结合注意力机制，具体的，视频帧的描述步骤包括：将所述关键帧送入到视频帧描述网络中，先通过卷积神经网络获取关键帧的特征向量，再将关键帧的特征向量送入到循环神经网络中得到视频全局表示向量，最后将视频全局表示向量送入到解码器中解码得到每时刻单词的概率，选择概率最大的单词作为候选单词，进一步生成视频的描述文本。

本实施例中所述视频帧选择网络和视频帧描述网络的建立包括如下步骤：

S1、搭建网络结构：基于卷积神经网络搭建视频帧选择网络，基于编码器-解码器结构搭建视频帧描述网络，所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络好循环神经网络进行特征提取，解码器采用双向LSTM并结合注意力机制。

S2、获取原始数据：从获取的待描述视频按等间隔的采样方式抽取视频帧，并在每个视频帧中通过人工进行标注，同时将视频帧划分为训练集和测试集；

S3、制作单词表：使用nltk对每个视频帧中的人工标注进行筛选分词，制作单词表；

S4、预训练视频帧描述网络：通过交叉熵损失函数预训练视频描述网络，将得到的语言描述分别与真实标注计算交叉熵，同时将得到的语言描述的和作为总体损失；具体的，所述预训练视频帧描述网络的步骤包括：

S41、将训练集的视频进行等间隔抽取视频帧，并将抽取的视频帧人工建立标签；

S42、通过卷积神经网络获取所述视频帧的特征向量；

S43、将视频帧的特征向量送入到循环神经网络中得到视频全局表示向量；

S44、将视频全局表示向量送入到解码器中解码得到每时刻单词的概率，选择概率最大的单词作为候选单词；

S45、基于候选单词与人工建立的标签进行监督学习。

S5、训练关键帧选择网络：基于上述预训练好的视频帧描述网络训练关键帧选择网络，具体的，训练关键帧选择网络包括如下步骤：

S51、将训练集的视频进行等间隔抽取视频帧，并将抽取的视频帧人工建立标签；

S52、将视频帧送入到关键帧选择网络中筛选出关键帧，并结合评价体系；

S53、将筛选出的关键帧送入到训练好的视频帧描述网络中获取候选单词；

S54、评价体系基于视频帧描述网络中的候选单词与人工标签的匹配度进行奖励优化关键帧选择网络。

S6、联合训练：将关键帧选择网络和视频帧描述网络进行联合训练。经过视频帧描述网络预训练阶段和固定视频帧描述网络训练关键帧选择网络两个阶段后，视频帧描述网络和关键帧选择网络都经过了良好的预训练，但是由于视频帧描述网络在与训练时使用全部采样的视频帧作为输入，而加入关键帧选择网络后只选择了部分视频帧送入到视频帧描述网络内，所以两者之间存在着差距，通过联合训练将关键帧选择网络和视频帧描述网络结合起来。在每一次迭代中，前向传递选择关键帧，训练编解码器时，视频帧选择被视为固定的选择，并正常执行后向传播和增强梯度更新。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于关键帧检测的视频描述***，其特征在于：包括采样模块、关键帧选择网络和视频帧描述网络，其中：

视频帧描述网络，基于上述关键帧生成视频描述文本。

2.根据权利要求1所述关键帧检测的视频描述***，其特征在于：所述关键帧选择网络基于卷积神经网络搭建，所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络和循环神经网络进行特征提取，解码器采用双向LSTM并结合注意力机制。

3.一种基于关键帧检测的视频描述方法，其特征在于：包括如下步骤：

S1、采用等间隔的采样方式从待描述视频抽取视频帧；

4.根据权利要求3所述的基于关键帧检测的视频描述方法，其特征在于：所述关键帧选择网络基于卷积神经网络，关键帧的筛选步骤包括：

S24、重复步骤S12-S13，直至将所有视频帧处理完成。

5.根据权利要求4所述的基于关键帧检测的视频描述方法，其特征在于：所述视频帧描述网络基于编码器-解码器结构，编码器采用卷积神经网络和循环神经网络进行特征提取，解码器采用双向LSTM，并结合注意力机制，视频帧的描述步骤包括：

6.根据权利要求5所述的基于关键帧检测的视频描述方法，其特征在于：所述视频帧选择网络和视频帧描述网络的建立包括如下步骤：

7.根据权利要求6所述的基于关键帧检测的视频描述方法，其特征在于：所述预训练视频帧描述网络的步骤包括：

通过卷积神经网络获取所述视频帧的特征向量；

基于候选单词与人工建立的标签进行监督学习。

8.根据权利要求7所述的基于关键帧检测的视频描述方法，其特征在于：基于上述预训练好的视频帧描述网络训练关键帧选择网络，训练关键帧选择网络的步骤包括：