CN105930402A

CN105930402A - 基于卷积神经网络的视频检索方法及***

Info

Publication number: CN105930402A
Application number: CN201610237628.2A
Authority: CN
Inventors: 刘阳; 白茂生; 魏伟; 蔡砚刚; 祁海; 李兴玉
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-09-07
Also published as: WO2017177661A1

Abstract

本发明公开了一种基于卷积神经网络的视频检索方法及***，所述方法包括：首先构建基于卷积神经网络的计算模型；通过图像数据对计算模型进行训练，得到优化计算模型；去除模型中的分类器，得到提取计算模型；对已有视频资源进行转场帧的提取，并通过提取计算模型提取得到转场帧的转场特征，建立转场特征数据库；将待检索的视频进行转场帧的提取得到转场特征，将转场特征在转场特征数据库中进行检索，得到视频的检索结果。所述基于卷积神经网络的视频检索方法及***通过将视频内的转场帧作为数据处理的对象，不仅提高了检索过程的鲁棒性，而且去除了冗余信息；通过基于卷积神经网络的计算模型进行特征的提取，提高了视频检索的速度和准确性。

Description

基于卷积神经网络的视频检索方法及***

技术领域

本发明涉及卷积神经网络技术领域，特别是指一种基于卷积神经网络的视频检索方法及***。

背景技术

随着互联网及多媒体技术的不断发展，人们越来越依赖于通过网络检索获取想要得到的信息，例如通过网络检索获取视频信息。但是由于网络中存在数量巨大的视频文件和相关内容，而用户在检索时通常都是想要获取某一个单一的视频，如何从海量的视频资源中，快速地查找到想要的视频是目前用户进行视频检索的难点。

目前，比较常用的方法一般是根据视频的标题或者人为预先在视频中手动设置的标签进行视频检索，但是这种方法存在一定的局限性，有时并不能检索得到用户满意的结果。例如：检索某一个视频的名字，由于名字的重复、语种的差异用户常常检索得到的结果还是一大堆视频，无法准确得到想要的视频。而且，针对某些特殊情形，用户有时候并不知道想要检索的视频的标题，此时用户将无法实现检索。例如：用户已有部分视频内容或者低版本的视频文件，而想要检索完整的视频或者高版本的视频文件，但是又不知道视频的标题，此时，现有的检索方法均不能较好的实现视频检索的目的。

发明内容

有鉴于此，本发明的目的在于提出一种基于卷积神经网络的视频检索方法及***，能够大大提高视频检索的速度和准确性。

基于上述目的本发明提供的一种基于卷积神经网络的视频检索方法，包括：

根据视频的检索需求，构建基于卷积神经网络的用于分类的计算模型，所述计算模型包括卷积层、池化层、全连接层以及分类器；

通过图像数据对所述计算模型进行训练，得到优化计算模型，去除优化计算模型中的分类器，得到提取计算模型；

对已有视频资源进行转场帧的提取，并通过所述提取计算模型提取得到转场帧的转场特征，建立转场特征数据库；

将待检索的视频进行转场帧的提取，通过提取计算模型提取得到视频的转场特征，将所述转场特征在所述转场特征数据库中进行检索，得到视频的检索结果。

可选的，所述基于卷积神经网络的用于分类的计算模型包括依次连接的卷积层C1、卷积层C2、池化层P2、卷积层C3、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6、全连接层fc7、全连接层fc8以及分类器。

进一步，所述6个卷积层的核大小均不大于5×5，且所述卷积层C1的核大小为3×3，卷积层C2的核大小为3×3。

进一步，所述卷积层C3的核大小为5×5，所述池化层P2、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6的核大小均为3×3；

所述卷积层C1、卷积层C2、卷积层C3、卷积层C4、卷积层C5、卷积层C6的步数均为1，所述池化层P2、池化层P3、池化层P6的步数均为2；

所述卷积层C1、卷积层C2、卷积层C4、卷积层C5、卷积层C6的pad值均为1，所述卷积层C3的pad值为2，所述池化层P2、池化层P3、池化层P6的pad值为0；

所述卷积层C1、卷积层C2的卷积核的个数均为96个，所述卷积层C3、卷积层C6的卷积核的个数均为256个，所述卷积层C4、卷积层C5的卷积核的个数均为384个。

可选的，所述全连接层fc7、全连接层fc8的节点数目分别为4096、1000；且所述全连接层fc7采用dropout方式进行数据处理；

所述分类器为softmax分类器。

可选的，所述卷积层C1、卷积层C2、卷积层C3、卷积层C4、卷积层C5、卷积层C6以及所述全连接层fc7均采用激活函数LEAKY RELU进行数据的激活处理。

可选的，所述进行转场帧的提取的方法为：

按照预设的算法，判断所述当前视频帧的前后两帧Y平面的灰度直方图之差是否大于预设的视频阈值，若是，则当前视频帧为转场帧，否则，当前视频帧不是转场帧；

算法公式如下：

Σ_{i = 0}^{255} | H_{p} [i] - H_{n} [i] | > T

其中，所述Hp[i]、Hn[i]分别为当前视频帧的前一帧和后一帧的Y平面的灰度直方图对应的数值，T为预设的视频阈值。

进一步，所述预设的视频阈值T的计算公式为：

T＝width*height/8，其中，width和height分别为视频帧的宽度和高度。

本发明还提供了一种基于卷积神经网络的视频检索***，包括：

构建模块，用于根据视频的检索需求，构建基于卷积神经网络的用于分类的计算模型，将构建的计算模型发送给训练模块，所述计算模型包括卷积层、池化层、全连接层以及分类器；

训练模块，用于接收所述构建模块发送的计算模型，通过图像数据对所述计算模型进行训练，得到优化计算模型，去除优化计算模型中的分类器，得到提取计算模型；将提取计算模型发送给数据库模块和检索模块；

数据库模块，用于接收所述训练模块发送的提取计算模型，对已有视频资源进行转场帧的提取，并通过所述提取计算模型提取得到转场帧的转场特征，建立转场特征数据库；

检索模块，用于接收所述训练模块发送的提取计算模型，将待检索的视频进行转场帧的提取，通过提取计算模型提取得到视频的转场特征，将所述转场特征在所述数据库模块中的转场特征数据库中进行检索，得到视频的检索结果。

所述分类器为softmax分类器。

可选的，所述进行转场帧的提取的方法为：

算法公式如下：

Σ_{i = 0}^{255} | H_{p} [i] - H_{n} [i] | > T

进一步，所述预设的视频阈值T的计算公式为：

从上面所述可以看出，所述基于卷积神经网络的视频检索方法及***通过建立基于卷积神经网络的用于分类的计算模型，去除计算模型中的分类器，进而得到基于卷积神经网络的提取计算模块，将现有所有的视频资源根据所述提取计算模块提取得到转场帧的转场特征，并建立转场特征数据库，最后通过所述转场特征数据库可以实现视频的快速检索。所述基于卷积神经网络的视频检索方法及***通过将视频内的转场帧作为数据处理的对象，不仅提高了检索过程的鲁棒性，而且去除了冗余信息；通过采用基于卷积神经网络的计算模型进行特征的提取，大大提高了视频检索的速度和准确性。

附图说明

图1为本发明提供的基于卷积神经网络的视频检索方法的实施例的流程图；

图2为本发明提供的卷积神经网络计算模型的结构示意图；

图3为本发明提供的基于卷积神经网络的视频检索***的实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

参照图1所示，为本发明提供的基于卷积神经网络的视频检索方法的实施例的流程图。所述基于卷积神经网络的视频检索方法，包括：

步骤101，根据视频的检索需求，构建基于卷积神经网络的用于分类的计算模型，所述计算模型包括卷积层、池化层、全连接层以及分类器；

其中，所述卷积神经网络(Convolutional Neural Network，CNN)是近年发展起来，并引起广泛重视的一种高效识别方法。目前，卷积神经网络已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。同时根据卷积神经网络的分类特性，还可以扩展到其他应用领域中，例如：本发明中用于视频或图片特征的提取。所述基于卷积神经网络的用于分类的计算模型是指用于进行特征提取并最终实现分类的一类计算模型。其计算模型中包含多个卷积层、池化层以及全连接层，所述卷积层用于特征的提取，池化层用于特征数据的降维，也即在保证数据有效性的基础上大大减少数据量，全连接层实现数据映射，分类器用于实现特征的分类。

步骤102，通过图像数据对所述计算模型进行训练，得到优化计算模型，去除优化计算模型中的分类器，得到提取计算模型；

其中，所述图像数据通常为现有图像数据库中的图像数据，例如：imagenet数据库。通过迭代训练，逐步完成使得计算模型完成自我学习的过程，称为优化的计算模型。将模型最后的分类器去除后，剩余的计算模型只能实现图片或视频特征的提取，也即得到一个训练后的提取计算模型。

步骤103，对已有视频资源进行转场帧的提取，并通过所述提取计算模型提取得到转场帧的转场特征，建立转场特征数据库；

其中，将所有能够获得的视频通过所述提取计算模型提取得到转场特征后，建立转场特征数据库，当用户后续进行检索时，可以通过转场特征实现视频的检索。所述转场特征数据库通常只需要建立一次，就能够实现后续所有视频的检索，而且，在其他相关领域中所述转场特征数据库也能够重复使用。

步骤104，将待检索的视频进行转场帧的提取，通过提取计算模型提取得到视频的转场特征，将所述转场特征在所述转场特征数据库中进行检索，得到视频的检索结果。

其中，待检索的视频通常为残缺的视频、部分视频、或者较低版本的视频等，而用户想要通过这些视频检索得到更好的、完整的视频。将待检索的视频同样通过所述提取计算模型提取得到视频的转场特征，然后在步骤103中已建立的转场特征数据库中检索，能够得到与待检索的视频相关的视频结果。

由上述实施例可知，所述基于卷积神经网络的视频检索方法通过建立基于卷积神经网络的用于分类的计算模型，将训练后的计算模型中的分类器去除后，能够得到基于卷积神经网络的提取计算模块，将所有的视频资源根据所述提取计算模块提取得到转场帧的转场特征，并建立转场特征数据库，最后通过所述转场特征数据库可以实现视频的快速检索。所述基于卷积神经网络的视频检索方法及***通过将视频内的转场帧作为数据处理的对象，不仅提高了检索过程的鲁棒性，而且去除了冗余信息；通过采用基于卷积神经网络的计算模型进行特征的提取，大大提高了视频检索的速度和准确性。

需要说明的是：所述视频检索的方法不仅仅用于视频的检索，同样适用于图片、音频等多媒体文件的检索，只需要相应的建立多媒体的特征数据库。

在一些优选的实施例中，所述基于卷积神经网络的用于分类的计算模型包括依次连接的卷积层C1、卷积层C2、池化层P2、卷积层C3、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6、全连接层fc7、全连接层fc8以及分类器。这样，通过前端两个卷积层的连续特征提取，能够进一步提高计算模型的特征提取的效率和速度。

优选的，所述池化层采用平均值进行池化处理。

可选的，在本发明一个实施例中，所述计算模型采用2个全连接层，最后的全连接层fc8输出特征为1000维特征。并且为了防止过拟合，全连接层中采用了dropout的方式。训练时采用softmax分类器。

完成上述计算模型的设计后，利用ImageNet图像数据库对上述网络进行分类训练。训练迭代次数为30万次。完成训练后，将上述模型中的softmax层去掉，利用模型中其他部分进行特征提取工作，特征输出为模型中的全连接层fc8。

建立视频数据库：对所有现有视频资源，依次进行转场帧提取，之后利用训练好的模型(去除softmax层)对转场帧进行特征提取，并保存，这样一个视频会得到一个特征向量。将所有视频的特征向量进行保存，以便后续检索时应用。

检索：对于待检索的视频，首先进行转场帧提取，之后利用训练好的模型进行特征提取，最后利用kd tree算法，根据已提取的特征以及整个视频库的特征进行快速检索。

在另一些优选的实施例中，所述6个卷积层的核大小均不大于5×5，且所述卷积层C1的核大小为3×3，卷积层C2的核大小为3×3。这样，依次连接的卷积层由于具有较小的核，能够更有效地提取视频或图片的特征数据，同时还减少了神经网络计算模型的参数，对于提升特征提取的速度以及防止过度拟合有较大的作用。

其中，所述卷积层的步数指卷积层的核每次移动的步长，所述pad值是指在输入数据的周围是否添加一圈数据参与运算，pad值的大小也即添加数据的圈数。这样，能够进一步提高计算模型的处理效率和速度，进而提高视频特征提取的效率。

在本发明一些较佳的实施例中，所述全连接层fc7、全连接层fc8的节点数目分别为4096、1000；且所述全连接层fc7采用dropout方式进行数据处理；所述分类器为softmax分类器。这里，所述的节点数目也可以理解为特征数目。所述dropout方式是通过随机开启一定数目的数据，而将剩下的数据丢弃，这样能够有效地防止数据的过拟合，进而提高特征提取的速度和效率。

进一步，所述卷积层C1、卷积层C2、卷积层C3、卷积层C4、卷积层C5、卷积层C6以及所述全连接层fc7均采用激活函数LEAKY RELU进行数据的激活处理。所述激活函数是将上一次的输出数据通过激活函数中的算法计算得到新的输出结果，将所述新的输出结果作为下一层的输入数据。同时，本发明所采用的激活函数LEAKY RELU相比于传统的激活函数RELU，在函数值小于零时，也具有一定的输出值，也即使得函数值小于零这一部分的数据也可以参与训练过程。这里，当函数值小于0时，输出值为输入值乘以一个系数a，所述系数a优选采用固定值。

在本发明可选的实施例中，所述进行转场帧的提取的方法为：

算法公式如下：

Σ_{i = 0}^{255} | H_{p} [i] - H_{n} [i] | > T

对于输入的视频，考虑到视频中含有大量的帧信息，如果对视频的每一个帧都进行检测，则会非常耗时。故本发明首先对视频的重要帧进行提取。这里的重要帧是指能够很好的代表视频内容的帧。在视频中，一般关键帧可以表示视频的大致内容，但考虑到关键帧在多次编码后会发生变化，为了提高***的鲁棒性，本发明将视频内的转场帧作为处理对象，保证了鲁棒性的同时，去除了冗余信息，最终提高了视频检索的准确率和速度。

进一步，所述预设的视频阈值T的计算公式为：

可选的，本发明准备训练样本约130万张图像，对卷积神经网络进行训练，获得优化计算模型。然后利用模型对网络中现有的视频库进行特征提取并建库。其中训练模型中卷积层采用标准偏差为0.01的高斯分布进行初始化。LEAKYRELU函数的a参数为0.01。全连接层中参数采用标准偏差为0.002的高斯分布进行初始化。dropout模块的参数为0.5。训练过程采用反向传播算法(BP算法)进行参数的训练及更新。本发明中一共训练30万次迭代。

参照图2所示，为本发明提供的基于卷积神经网络的计算模型的结构示意图。所述基于卷积神经网络的计算模型包括：依次连接的卷积层C1、卷积层C2、池化层P2、卷积层C3、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6、全连接层fc7、全连接层fc8以及分类器SVM。所有卷积层以及全连接层fc7均通过激活函数LEAKY RELU进行数据的处理，使得前一层的数据能够向下一层传递。且所述全连接层fc7采用dropout方式进行数据处理。

参照图3所示，为本发明提供的基于卷积神经网络的视频检索***的实施例的结构示意图。所述基于卷积神经网络的视频检索***包括：

构建模块301，用于根据视频的检索需求，构建基于卷积神经网络的用于分类的计算模型，将构建的计算模型发送给训练模块302，所述计算模型包括卷积层、池化层、全连接层以及分类器；

训练模块302，用于接收所述构建模块301发送的计算模型，通过图像数据对所述计算模型进行训练，得到优化计算模型，去除优化计算模型中的分类器，得到提取计算模型；将提取计算模型发送给数据库模块303和检索模块304；

数据库模块303，用于接收所述训练模块302发送的提取计算模型，对已有视频资源进行转场帧的提取，并通过所述提取计算模型提取得到转场帧的转场特征，建立转场特征数据库；

检索模块304，用于接收所述训练模块302发送的提取计算模型，将待检索的视频进行转场帧的提取，通过提取计算模型提取得到视频的转场特征，将所述转场特征在所述数据库模块303中的转场特征数据库中进行检索，得到视频的检索结果。

由上述实施例可知，所述基于卷积神经网络的视频检索***通过所述构建模块301建立基于卷积神经网络的用于分类的计算模型，通过所述训练模块302训练得到优化计算模型，去除优化计算模型中的分类器，得到提取计算模型；通过所述数据库模块303建立了基于转场帧的转场特征数据库，最后通过所述检索模块304实现视频的准确检索。所述基于卷积神经网络的视频检索***通过将视频内的转场帧作为数据处理的对象，不仅提高了检索过程的鲁棒性，而且去除了冗余信息；通过采用基于卷积神经网络的计算模型进行特征的提取，大大提高了视频检索的速度和准确性。

优选的，本发明采用卷积神经网络进行视频整体特征的提取与组合，利用kd tree算法完成检索，检索结果具有准确、快速等优点。

在一些可选的实施例中，所述基于卷积神经网络的用于分类的计算模型包括依次连接的卷积层C1、卷积层C2、池化层P2、卷积层C3、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6、全连接层fc7、全连接层fc8以及分类器。

在另一些可选的实施例中，所述6个卷积层的核大小均不大于5×5，且所述卷积层C1的核大小为3×3，卷积层C2的核大小为3×3。

在一些优选的实施例中，所述卷积层C3的核大小为5×5，所述池化层P2、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6的核大小均为3×3；

在另一些优选的实施例中，所述全连接层fc7、全连接层fc8的节点数目分别为4096、1000；且所述全连接层fc7采用dropout方式进行数据处理；所述分类器为softmax分类器。

可选的，所述进行转场帧的提取的方法为：

算法公式如下：

Σ_{i = 0}^{255} | H_{p} [i] - H_{n} [i] | > T

进一步，所述预设的视频阈值T的计算公式为：

在一些可选的实施例中，本发明所述的基于卷积神经网络的视频检索***应用于手机、电脑、平板、智能电视等各类智能终端设备中，或者，还可以用于各类服务器中，例如网页搜索的服务器中。同时，将本发明所述基于卷积神经网络的视频检索***中的部分模块分别作为终端、服务器的功能模块也属于本发明保护的范围。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的视频检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于卷积神经网络的用于分类的计算模型包括依次连接的卷积层C1、卷积层C2、池化层P2、卷积层C3、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6、全连接层fc7、全连接层fc8以及分类器。

3.根据权利要求2所述的方法，其特征在于，所述6个卷积层的核大小均不大于5×5，且所述卷积层C1的核大小为3×3，卷积层C2的核大小为3×3。

4.根据权利要求3所述的方法，其特征在于，所述卷积层C3的核大小为5×5，所述池化层P2、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6的核大小均为3×3；

5.根据权利要求2所述的方法，其特征在于，所述全连接层fc7、全连接层fc8的节点数目分别为4096、1000；且所述全连接层fc7采用dropout方式进行数据处理；

所述分类器为softmax分类器。

6.根据权利要求2所述的方法，其特征在于，所述卷积层C1、卷积层C2、卷积层C3、卷积层C4、卷积层C5、卷积层C6以及所述全连接层fc7均采用激活函数LEAKY RELU进行数据的激活处理。

7.根据权利要求1所述的方法，其特征在于，所述进行转场帧的提取的方法为：

算法公式如下：

Σ_{i = 0}^{255} | H_{p} [i] - H_{n} [i] | > T

8.根据权利要求7所述的方法，其特征在于，所述预设的视频阈值T的计算公式为：

9.一种基于卷积神经网络的视频检索***，其特征在于，包括：

10.根据权利要求9所述的***，其特征在于，所述基于卷积神经网络的用于分类的计算模型包括依次连接的卷积层C1、卷积层C2、池化层P2、卷积层C3、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6、全连接层fc7、全连接层fc8以及分类器。

11.根据权利要求10所述的***，其特征在于，所述6个卷积层的核大小均不大于5×5，且所述卷积层C1的核大小为3×3，卷积层C2的核大小为3×3。

12.根据权利要求11所述的***，其特征在于，所述卷积层C3的核大小为5×5，所述池化层P2、池化层P3、卷积层C4、卷积层C5、卷积层C6、池化层P6的核大小均为3×3；

13.根据权利要求10所述的***，其特征在于，所述全连接层fc7、全连接层fc8的节点数目分别为4096、1000；且所述全连接层fc7采用dropout方式进行数据处理；

所述分类器为softmax分类器。

14.根据权利要求10所述的***，其特征在于，所述卷积层C1、卷积层C2、卷积层C3、卷积层C4、卷积层C5、卷积层C6以及所述全连接层fc7均采用激活函数LEAKY RELU进行数据的激活处理。

15.根据权利要求9所述的***，其特征在于，所述进行转场帧的提取的方法为：

算法公式如下：

Σ_{i = 0}^{255} | H_{p} [i] - H_{n} [i] | > T

16.根据权利要求15所述的***，其特征在于，所述预设的视频阈值T的计算公式为：