CN111339369A

CN111339369A - 基于深度特征的视频检索方法、***、计算机设备及存储介质

Info

Publication number: CN111339369A
Application number: CN202010115194.5A
Authority: CN
Inventors: 曾凡智; 程勇; 周燕; 陈嘉文
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-26

Abstract

本发明公开了一种基于深度特征的视频检索方法、***、计算机设备及存储介质，所述方法包括：构建卷积神经网络，所述卷积神经网络为DenseNet模型；获取多个视频；利用DenseNet模型，提取每个视频中视频帧的深度特征向量；针对每个视频，根据视频帧的深度特征向量，提取关键帧，输出关键帧集合；将每个视频与每个视频的关键帧集合建立索引关系，存入视频特征数据库；根据用户提供的图像或短视频，对视频特征数据库中的视频进行检索，输出视频检索结果。本发明实现了高准确率和高召回率的视频检索功能。

Description

基于深度特征的视频检索方法、***、计算机设备及存储介质

技术领域

本发明涉及一种基于深度特征的视频检索方法、***、计算机设备及存储介质，属于视频检索领域。

背景技术

目前，相对成熟且广泛运用于市场的是一类基于文本标注的视频检索方法。该方法需要人工提前对视频库中的视频进行归纳和注释，视频检索的结果完全依赖于用户的文字表述和人工事先标注的信息。然而，随着视频数量逐渐增大，内容更加多元化，传统的基于人工文本标注的视频检索方法渐渐不能满足人们对更高水准视频检索的需求。而基于内容的视频检索***中大多采用颜色、纹理、形状、SIFT等特征，这些特征易受到视频模糊、噪声、光照变化等影响。

近年来，深度学习在视频、图像处理领域取得了优异成绩，深度特征描述子具有强大的图像特征描述能力，该方法的检索结果能够满足人们对更高水准视频检索的需求，在安防监控、远程在线教育、影视版权保护、网络短视频审查等领域都拥有广阔的应用前景。

发明内容

有鉴于此，本发明提供了一种基于深度特征的视频检索方法、***、计算机设备及存储介质，其实现了高准确率和高召回率的视频检索功能。

本发明的第一个目的在于提供一种基于深度特征的视频检索方法。

本发明的第二个目的在于提供一种基于深度特征的视频检索***。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于深度特征的视频检索方法，所述方法包括：

构建卷积神经网络；其中，所述卷积神经网络为DenseNet模型；

获取多个视频；

利用DenseNet模型，提取每个视频中视频帧的深度特征向量；

针对每个视频，根据视频帧的深度特征向量，提取关键帧，输出关键帧集合；

将每个视频与每个视频的关键帧集合建立索引关系，存入视频特征数据库；

根据用户提供的图像或短视频，对视频特征数据库中的视频进行检索，输出视频检索结果。

进一步的，所述DenseNet模型采用DenseNet-201模型；

所述DenseNet-201模型包括依次连接的卷积层、池化层、第一稠密块、第一过渡层、第二稠密块、第二过渡层、第三稠密块、第三过渡层、第四稠密块和分类层。

进一步的，所述根据视频帧的深度特征向量，提取关键帧，输出关键帧集合，具体包括：

将第1帧设为参考帧，并作为关键帧，加入关键帧集合；

根据视频帧的深度特征向量，将当前帧与参考帧进行余弦夹角相似度计算；

若余弦夹角相似度小于阈值，则将当前帧与关键帧集合进行比较，若没有重复，则将当前帧作为关键帧，加入关键帧集合,并将当前帧更新为参考帧；

若更新的参考帧不是最后一帧，则返回根据视频帧的深度特征向量，将当前帧与参考帧进行余弦夹角相似度计算，并执行后续操作；若更新的参考帧是最后一帧，则输出关键帧集合。

进一步的，所述余弦夹角相似度计算，如下式：

其中，I_k表示当前帧的深度特征向量，I_ref表示参考帧的深度特征向量。

进一步的，根据用户提供的图像，对视频特征数据库中的视频进行检索，输出视频检索结果，具体包括：

根据用户提供的图像，利用DenseNet模型提取图像的特征，将该特征与数据库进行余弦夹角相似度比较，由大到小排序输出前N个最相似视频。

进一步的，根据用户提供的短视频，对视频特征数据库中的视频进行检索，输出视频检索结果，具体包括：

根据用户提供的短视频，利用DenseNet模型提取短视频的特征，将短视频的关键帧集合与数据库中的所有关键帧集合采用滑动窗口的形式，进行相似度匹配，按相似度由大到小排序，输出前N个最相似视频。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于深度特征的视频检索***，所述***包括：

卷积神经网络构建模块，用于构建卷积神经网络；其中，所述卷积神经网络为DenseNet模型；

视频获取模块，用于获取多个视频；

视频帧特征提取模块，用于利用DenseNet模型，提取每个视频中视频帧的深度特征向量；

关键帧提取模块，用于针对每个视频，根据视频帧的深度特征向量，提取关键帧，输出关键帧集合；

索引建立模块，用于将每个视频与每个视频的关键帧集合建立索引关系，存入视频特征数据库；

视频检索模块，用于根据用户提供的图像或短视频，对视频特征数据库中的视频进行检索，输出视频检索结果。

进一步的，所述DenseNet模型采用DenseNet-201模型；

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的视频检索方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的视频检索方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明首先使用DenseNet模型作为卷积神经网络，该DenseNet模型在ResNet模型的基础上，进一步扩展卷积神经网络连接，对于卷积神经网络中稠密块的任意一层，该层前面所有层的特征图都是这层的输入，该层的特征图是后面所有层的输入，这种设计的优点减轻了梯度消失的问题，增强了特征图的传播，提升利用率，大大较少参数量以及提取的特征更加丰富多样；其次，针对传统基于内容的视频检索所采用的颜色、纹理、形状等特征容易受到噪声、光照干扰影响，通过卷积神经网络可提取图像高度抽象、泛化鲁棒性强的深层特征，实现视频镜头分割，视频帧深度特征提取、关键帧提取、构建视频特征数据库，最后实现基于内容的视频检索功能。

2、本发明提出了一种图像深度特征描述子，在提取视频帧特征时，引入了DenseNet模型，采用倒数第二层的全连接层的特征向量作为其图像特征，该网络模型在ImageNet大规模数据集上，top5达到了95％的分类准确率，其深度特征解决了传统颜色、纹理、形状等图像特征易受噪声、光照干扰问题，具有很好的泛化推广能力，通过实验表明，该方法优于目前最先进的方法。实现了高准确率和高召回率的视频检索功能。

3、本发明视频关键帧提取的过程中引入参考帧机制，实现根据阈值自适应提取关键帧，省去了传统关键帧提取方法需先进行镜头分割和关键帧聚类过程。

4、本发明采用基于图像或短视频的检索方式来检索视频特征数据库中的视频，能够直接在海量的视频中，快速准确的找到内容特征相似的视频，基于图像或短视频的检索模型能为搜索引擎提供精确查询，使用户找到最相关的视频，以提高工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的视频检索方法的流程图。

图2为DenseNet模型的结构图。

图3为本发明实施例1的视频帧间相似度曲线图。

图4为本发明实施例1的提取关键帧的流程图。

图5为本发明实施例1的根据用户提供的图像对视频进行检索的流程图。

图6为本发明实施例1的根据短视频提供的图像对视频进行检索的流程图。

图7为本发明实施例2的视频检索***的结构框图。

图8为本发明实施例3的计算机设备的结构框图。

图9为本发明实施例3的计算机设备安装的视频检索软件中视频检索主程序的框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供了一种基于深度特征的视频检索方法，该方法包括以下步骤：

S101、构建卷积神经网络。

在计算机视觉领域，卷积神经网络已经成为最主流的方法，相较于底层物理特征，基于卷积神经网络(Convolutional Neural Networks，简称CNN)模型的图像特征，是使用训练后的卷积神经网络模型来提取单一关键帧的图像深度特征。

近几年，出现了五种经典的卷积神经网络模型，分别是AlexNet、VGGNet、InceptionNet、ResNet和DenseNet，这五种网络模型依照出现的先后顺序排序，它们分别获得了大规模视觉识别挑战赛(ILSVRC)图像识别项目2012到2017年的冠军。相较于传统的基于形状、颜色、纹理、SIFT等视频检索算法，这些网络模型在图像识别领域全都性能优秀；其中，ResNet模型可以训练出更深的卷积神经网络，从而实现更高的准确度，ResNet模型的核心是通过建立前面层与后面层之间的“短路连接”，这有助于训练过程中梯度的反向传播，从而能训练出更深的卷积神经网络，而DenseNet模型，它的基本思路与ResNet模型一致，但是它建立的是前面所有层与后面层的密集连接，如图2所示；DenseNet模型的另一大特色是通过特征在通道上的连接来实现特征重用，这些特点让DenseNet模型在参数和计算成本更少的情形下实现比ResNet模型更优的性能，DenseNet模型也因此斩获CVPR 2017的最佳论文奖。

DenseNet模型的优势主要体现在以下几个方面：1)由于密集连接方式，DenseNet模型提升了梯度的反向传播，使得网络更容易训练；2)参数更小且计算更高效，由于DenseNet模型是通过连接特征来实现短路连接，实现了特征重用，并且采用较小的增长率，每个层所独有的特征图是比较小的；3)由于特征复用，最后的分类器使用了低层特征。

本实施例的DenseNet模型采用DenseNet-201模型，该模型使用TensorFlow框架实现，其卷积层数达到201层，但参数量只有80M，属于轻量级网络模型，在ImageNet大规模数据集上，top5达到了95％的分类准确率。DenseNet-201网络结构具体参数如图3所示，包括依次连接的卷积层(Convolution)、池化层(Pooling)、第一稠密块(Dense Block1)、第一过渡层(Transition Layer1)、第二稠密块(Dense Block2)、第二过渡层(TransitionLayer2)、第三稠密块(Dense Block3)、第三过渡层(Transition Layer3)、第四稠密块(Dense Block4)和分类层(Classification layer)，其中k＝32代表通道数增长率。

表1 DenseNet-201模型结构

S102、获取多个视频。

本实施例的视频可以通过采集获取，例如通过摄像头拍摄多个视频。

S103、利用DenseNet模型，提取每个视频中视频帧的深度特征向量。

使用载入预训练参数的DenseNet-201网络模型，提取每个视频中视频帧的1920维特征向量，其特征为网络模型倒数第二层全连接层的输出。

S104、针对每个视频，根据视频帧的深度特征向量，提取关键帧，输出关键帧集合。

本实施例采用余弦夹角距离，衡量前后帧间相似度，通过阈值比较来达到关键帧提取目的，余弦夹角相似度的取值范围在[0,1]之间，余弦夹角距离的计算如下式：

其中，I_k表示当前帧的深度特征向量，I_k-1表示前一帧的深度特征向量，视频帧间相似度曲线如图3所示。

在关键帧的提取过程中，引入参考帧机制，达到同时处理渐变镜头和关键帧去重复目的，如图4所示，根据视频帧的深度特征向量，提取关键帧，输出关键帧集合，具体包括以下步骤：

S1041、将第1帧设为参考帧，并作为关键帧，加入关键帧集合。

设视频共有N个视频帧，将第1帧(即第1个视频帧)设为参考帧，并作为关键帧，加入关键帧集合。

S1042、根据视频帧的深度特征向量，将当前帧与参考帧进行余弦夹角相似度T计算。

本实施例的余弦夹角相似度T利用上述式(1)的余弦夹角距离进行计算，如下式：

S1043、若余弦夹角相似度T小于阈值e，则将当前帧与关键帧集合进行比较，若没有重复，则将当前帧作为关键帧，加入关键帧集合，并将当前帧更新为参考帧，进入步骤S1044；若余弦夹角相似度T大于或等于阈值e，则将下一帧作为当前帧，返回步骤S1042。

S1044、若更新的参考帧不是最后一帧(即第N帧)，说明循环还没有结束，则返回步骤S1042；若更新的参考帧是最后一帧，说明循环结束，则输出关键帧集合。

S105、将每个视频与每个视频的关键帧集合建立索引关系，存入视频特征数据库。

具体地，将每个视频的视频id与每个视频的关键帧集合建立索引关系，存入视频特征数据库，如下表2所示。

表2视频特征数据库

视频id(Video_id)	关键帧特征(Key_frame_feature)	时间(Time)
			视频A	关键帧1	0:30
视频A	关键帧2	1:34
			视频B	关键帧1	0:17
视频C	关键帧1	0:19

上述步骤S101～S105为视频入库阶段，而步骤S106为视频检索阶段。可以理解，上述步骤S101～S105在一台计算机设备上完成，可以在该计算机设备上进入步骤S106的视频检索阶段，也可以其他联网的计算机设备上进入步骤S106的视频检索阶段。

S106、根据用户提供的图像或短视频，对视频特征数据库中的视频进行检索，输出视频检索结果。

目前主流的视频检索主要还是以关键词检索为主，而海量视频的产生，关键词检索需耗费大量时间进行人工标记，本实施例可以利用图像检索视频和短视频检索视频两种方式来检索视频特征数据库中的视频，具体说明如下：

1)根据用户提供的图像，对视频特征数据库中的视频进行检索，输出视频检索结果。

具体地，根据用户提供的图像，利用DenseNet模型提取图像的1920维特征，将该特征与数据库进行余弦夹角相似度比较，由大到小排序输出前N个最相似视频，如图5所示。

2)根据用户提供的短视频，对视频特征数据库中的视频进行检索，输出视频检索结果。

用户可通过提供短视频来检索相似视频，如图6所示，检索过程与图像检索视频大致相同，只是利用DenseNet模型提取得到的是N×1920维特征。具体地，根据用户提供的短视频，利用DenseNet模型提取短视频的特征，将短视频的关键帧集合与数据库中的所有关键帧集合采用滑动窗口的形式，进行相似度匹配，按相似度由大到小排序，输出前N个最相似视频。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图7所示，本实施例提供了一种基于深度特征的视频检索***，该***包括卷积神经网络构建模块701、视频获取模块702、视频帧特征提取模块703、关键帧提取模块704、索引建立模块705和视频检索模块706，各个模块的具体功能如下：

所述卷积神经网络构建模块701，用于构建卷积神经网络；其中，所述卷积神经网络为DenseNet模型。

所述视频获取模块702，用于获取多个视频。

所述视频帧特征提取模块703，用于利用DenseNet模型，提取每个视频中视频帧的深度特征向量。

所述关键帧提取模块704，用于针对每个视频，根据视频帧的深度特征向量，提取关键帧，输出关键帧集合。

所述索引建立模块705，用于将每个视频与每个视频的关键帧集合建立索引关系，存入视频特征数据库。

所述视频检索模块706，用于根据用户提供的图像或短视频，对视频特征数据库中的视频进行检索，输出视频检索结果。

本实施例中各个模块的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的***仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以为计算机，如图8所示，其通过***总线801连接的处理器802、存储器、输入装置803、显示器804和网络接口805，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质806和内存储器807，该非易失性存储介质806存储有操作***、计算机程序和数据库，该内存储器807为非易失性存储介质中的操作***和计算机程序的运行提供环境，处理器802执行存储器存储的计算机程序时，实现上述实施例1的视频检索方法，如下：

获取多个视频；

利用DenseNet模型，提取每个视频中视频帧的深度特征向量；

进一步地，所述DenseNet模型采用DenseNet-201模型；

进一步地，所述根据视频帧的深度特征向量，提取关键帧，输出关键帧集合，具体包括：

将第1帧设为参考帧，并作为关键帧，加入关键帧集合；

进一步地，根据用户提供的图像，对视频特征数据库中的视频进行检索，输出视频检索结果，具体包括：

进一步地，根据用户提供的短视频，对视频特征数据库中的视频进行检索，输出视频检索结果，具体包括：

本实施例的计算机设备上可以安装能够实现上述视频检索方法的视频检索软件，视频检索软件具有视频检索算法程序，该视频检索算法程序如图9所示，其由视频入库和视频检索组成，其中视频入库主要包含构建卷积神经网络、视频帧特征提取、关键帧提取和索引建立，将视频和对应关键帧的深度特征建立索引入库，便于后面检索视频；视频检索包含用图片检索视频和用短视频检索视频。

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的考勤方法，如下：

获取多个视频；

利用DenseNet模型，提取每个视频中视频帧的深度特征向量；

进一步地，所述DenseNet模型采用DenseNet-201模型；

将第1帧设为参考帧，并作为关键帧，加入关键帧集合；

本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

综上所述，本发明首先使用DenseNet模型作为卷积神经网络，该DenseNet模型在ResNet模型的基础上，进一步扩展卷积神经网络连接，对于卷积神经网络中稠密块的任意一层，该层前面所有层的特征图都是这层的输入，该层的特征图是后面所有层的输入，这种设计的优点减轻了梯度消失的问题，增强了特征图的传播，提升利用率，大大较少参数量以及提取的特征更加丰富多样；其次，针对传统基于内容的视频检索所采用的颜色、纹理、形状等特征容易受到噪声、光照干扰影响，通过卷积神经网络可提取图像高度抽象、泛化鲁棒性强的深层特征，实现视频镜头分割，视频帧深度特征提取、关键帧提取、构建视频特征数据库，最后实现基于内容的视频检索功能。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于深度特征的视频检索方法，其特征在于，所述方法包括：

获取多个视频；

利用DenseNet模型，提取每个视频中视频帧的深度特征向量；

2.根据权利要求1所述的视频检索方法，其特征在于，所述DenseNet模型采用DenseNet-201模型；

3.根据权利要求1所述的视频检索方法，其特征在于，所述根据视频帧的深度特征向量，提取关键帧，输出关键帧集合，具体包括：

将第1帧设为参考帧，并作为关键帧，加入关键帧集合；

4.根据权利要求3所述的视频检索方法，其特征在于，所述余弦夹角相似度计算，如下式：

5.根据权利要求1-4任一项所述的视频检索方法，其特征在于，根据用户提供的图像，对视频特征数据库中的视频进行检索，输出视频检索结果，具体包括：

6.根据权利要求1-4任一项所述的视频检索方法，其特征在于，根据用户提供的短视频，对视频特征数据库中的视频进行检索，输出视频检索结果，具体包括：

7.一种基于深度特征的视频检索***，其特征在于，所述***包括：

视频获取模块，用于获取多个视频；

8.根据权利要求7所述的视频检索***，其特征在于，所述DenseNet模型采用DenseNet-201模型；

9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-6任一项所述的视频检索方法。

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-6任一项所述的视频检索方法。