CN112241470B

CN112241470B - 一种视频分类方法及***

Info

Publication number: CN112241470B
Application number: CN202011016801.9A
Authority: CN
Inventors: 吉长江
Original assignee: Beijing Moviebook Science And Technology Co ltd
Current assignee: Beijing Moviebook Science And Technology Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2024-02-02
Anticipated expiration: 2040-09-24
Also published as: CN112241470A

Abstract

本申请提供了一种视频分类方法及***，在本申请提供的方法中，先获取待分类视频数据，并提取待分类视频数据的至少一个视频关键帧；再将各视频关键帧输入预设的目标检测网络中进行训练，生成各视频关键帧的关键帧向量；然后将各视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，输出待分类视频数据的深度特征视频矩阵；最后基于所述深度特征视频矩阵对待分类视频数据进行分类并生成分类标签。基于本申请提供的视频分类方法及***，将视频的不同特征进行融合形成了深度特征视频矩阵，解决了现有技术中存在的视频多种特征提取不全面的问题，提高了视频分类的准确性。

Description

一种视频分类方法及***

技术领域

本申请涉及视频数据处理领域，特别是涉及一种视频分类方法及***。

背景技术

视频数据是大数据的最重要来源，视频分类有助于多媒体内容的理解，其中对于各种应用例如基于视频内容的检索数据库、在线视频索引、视频存档和标识视频等均有重要作用。

为了对视频进行分类，需要用特征向量表示视频，以利于之后的分析处理。一般有两种类型的视频分类方法：经典的基于手工特征的方法和基于深度学习的方法。现在经常使用的视频分类方法是在视频帧上训练深度网络。同一视频的所有帧均带有视频标签，然后在所有视频的帧上训练模型。为了对视频进行分类，将其所有帧分别进行分类，然后将所有帧的多数标签作为视频的标签。

现有的传统特征向量提取方法存在不能很好地代表视频结构的问题，即使将视频视为许多帧以考虑时间信息，也不能完全代表视频结构。而在基于深度学习的方法中，多种特征的融合情况不够全面和准确。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种视频分类方法，包括：

获取待分类视频数据，并提取所述待分类视频数据的至少一个视频关键帧；

将各所述视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各所述视频关键帧生成各所述视频关键帧的关键帧向量；

将各所述视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过所述深度特征视频矩阵模型输出所述待分类视频数据的深度特征视频矩阵；

基于所述深度特征视频矩阵对所述待分类视频数据进行分类，生成所述待分类视频数据的分类标签。

可选地，所述将各所述视频关键帧输入预设是目标检测网络中进行训练，并基于训练后的各所述视频关键帧生成各所述视频关键帧的关键帧向量，包括：

将各所述视频关键帧输入预设的RetinaNet网络，通过所述RetinaNet网络检测各所述视频关键帧包括的识别对象；

判断各所述识别对象的属性参数，并对各所述识别对象进行分类；其中，所述识别对象的属性参数包括对象类别、识别分数和/或边界框；

基于分类后的所述识别对象生成各所述视频关键帧的关键帧向量。

可选地，所述基于分类后的所述识别对象生成各所述视频关键帧的关键帧向量，包括：

对于各所述视频关键帧，计算所述视频关键帧中每个识别对象出现的次数，生成出现向量；

计算所有识别对象的识别分数之和，生成分数向量；

获取所述视频关键帧包括的对象类别以及各对象类别的次数，生成二进制向量；

获取每个识别对象的边界框并输入预设的神经网络，通过所述神经网络训练生成ConvPool矢量。

可选地，所述将各所述视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过所述深度特征视频矩阵模型输出所述待分类视频数据的深度特征视频矩阵，包括：

将各所述视频关键帧的出现向量、分数向量、二进制向量和ConvPool矢量输入预设的矩阵进行融合，形成各所述视频关键帧的深度特征帧矩阵；

将各所述视频关键帧的深度特征帧矩阵进行融合，形成所述待分类视频数据的深度特征视频矩阵。

可选地，所述基于所述深度特征视频矩阵对所述待分类视频数据进行分类，生成所述待分类视频数据的分类标签，包括：

将所述待分类视频数据的深度特征视频矩阵作为所述待分类视频数据的最终特征向量输入预设的视频分类器，通过所述视频分类器采用随机森林算法对所述待分类视频数据进行分类，得到分类结果；

基于所述分类结果生成所述待分类视频数据的分类标签。

根据本申请的另一个方面，提供了一种视频分类***，包括：

视频关键帧提取模块，其配置成获取待分类视频数据，并提取所述待分类视频数据的至少一个视频关键帧；

关键帧向量生成模块，其配置成将各所述视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各所述视频关键帧生成各所述视频关键帧的关键帧向量；

深度特征视频矩阵输出模块，其配置成将各所述视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过所述深度特征视频矩阵模型输出所述待分类视频数据的深度特征视频矩阵；

视频数据分类模块，其配置成基于所述深度特征视频矩阵对所述待分类视频数据进行分类，生成所述待分类视频数据的分类标签。

可选地，所述关键帧向量生成模块，还配置成：

可选地，其特征在于，所述关键帧向量生成模块，还配置成：

计算所有识别对象的识别分数之和，生成分数向量；

可选地，所述深度特征视频矩阵输出模块，还配置成：

可选地，所述视频数据分类模块，还配置成：

基于所述分类结果生成所述待分类视频数据的分类标签。

本申请提供了一种视频分类方法及***，在本申请提供的方法中，先获取待分类视频数据，并提取待分类视频数据的至少一个视频关键帧；再将各视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各视频关键帧生成各视频关键帧的关键帧向量；然后将各视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过深度特征视频矩阵模型输出待分类视频数据的深度特征视频矩阵；最后基于深度特征视频矩阵对待分类视频数据进行分类，生成所述待分类视频数据的分类标签。

基于本申请提供的视频分类方法及***，将每个视频转换为深度特征视频矩阵，再对视频进行分类验证，可进一步提升视频分类的准确性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的视频分类方法流程示意图；

图2是根据本申请实施例的视频分类***结构示意图；

图3是根据本申请实施例的计算设备示意图；

图4是根据本申请实施例的计算机可读存储介质示意图。

具体实施方式

在两种类型的视频分类方法中：第一类是经典的基于手工特征的方法，包含提取传统全局和局部特征的方法，例如包括拍摄次数、平均颜色直方图、方向梯度直方图(Histogram ofOriented Gradient，简称HOG)、光流直方图(HistogramsofOrientedOptical Flow，简称HOF)以及分类器(SVM，KNN等)或聚类算法。在第一种方法中，采用基于视频的特征或者基于帧的特征。基于视频的特征例如平均镜头长度，平均面部数量等。基于帧的特征是从帧序列(视频中的所有帧或镜头的关键帧)中提取的特征，然后将从帧中提取的特征映射到一个或多个向量中，以表示整个视频。基于帧的特征可以是全局特征，例如颜色直方图，也可以是局部特征，例如尺度不变特征变换(Scale-invariant featuretransform，简称SIFT)，加速稳健特征(Speeded Up RobustFeatures，简称SURF)，HOG等。

第二类是基于深度学习的方法，采用从选定关键帧中提取的特征作为视频分类的依据。最近随着深度学习技术的出现，学习更强大的特征表示变得更加容易。

图1是根据本申请实施例的视频分类方法流程示意图。参见图1所知，本申请实施例提供的视频分类方法可以包括：

步骤S101：获取待分类视频数据，并提取待分类视频数据的至少一个视频关键帧；

步骤S102：将各视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各视频关键帧生成各视频关键帧的关键帧向量；

步骤S103：将各视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过深度特征视频矩阵模型输出待分类视频数据的深度特征视频矩阵；

步骤S104：基于深度特征视频矩阵对待分类视频数据进行分类，生成待分类视频数据的分类标签。

本申请提供了一种视频分类方法，在本申请提供的方法中，先获取待分类视频数据，并提取待分类视频数据的至少一个视频关键帧；再将各视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各视频关键帧生成各视频关键帧的关键帧向量；然后将各视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过深度特征视频矩阵模型输出待分类视频数据的深度特征视频矩阵；最后基于深度特征视频矩阵对待分类视频数据进行分类，生成所述待分类视频数据的分类标签。

基于本申请提供的视频分类方法，通过提取视频的不同特征并进行融合形成了深度特征视频矩阵，基于该深度特征视频矩阵对视频进行分类，使得在进行视频分类时可以兼顾视频的多种特征，从而进一步提升视频分类的准确性。下面对上述步骤S101～步骤S104进行详细说明。

首先执行步骤S101，获取需要分类的视频数据，并在视频数据中提取至少一个关键帧。

本申请实施例中的待分类视频数据获取时选用的是实验数据集，即BlipTv数据集的dev部分。该数据集包含两组视频：训练集和测试集，训练集包含5288个视频，测试集包含约9000个视频。

从实验数据集中获取了待分类视频数据后，对待分类视频数据中的关键帧进行提取，而且提取到的关键帧数量为至少一个，可以是多个，提取的关键帧数量，本发明不做限定。

提取到多个关键帧之后，如步骤S102所述，将多个关键帧进行训练，训练是在预设的目标检测网络中进行的，并基于训练后的各视频关键帧生成各视频关键帧的关键帧向量。

在本申请一可选实施例中，生成关键帧向量时，可以先将各视频关键帧输入预设的RetinaNet网络，通过RetinaNet网络检测各视频关键帧包括的识别对象；其次，判断各识别对象的属性参数，并对各识别对象进行分类；其中，识别对象的属性参数包括对象类别、识别分数和/或边界框；最后，基于分类后的识别对象生成各视频关键帧的关键帧向量。

其中，Retinanet网络是一种目标检测网络，是由一个骨干网络和两个有特定任务的子网络组成的单一网络，骨干网络负责在整个图像上计算卷积特征，第一个子网络在骨干网络的输出上执行图像分类任务，第二个子网络负责卷积边框回归，可以解决目标检测问题正负样本非平衡的问题。

在本发明实施例中，通过RetinaNet网络，可以快速识别各视频关键帧中所有可以识别的对象，并且获取识别对象的类别、识别分数和/或边界框。进一步地，可以通过对象的各个属性，对各个识别对象进行分类。并且基于各识别对象的属性，计算各视频关键帧的关键帧向量。

可选地，计算各视频关键帧的关键帧向量过程可以如下：

S1，对于各视频关键帧，计算视频关键帧中每个识别对象出现的次数，生成出现向量；

S2，计算所有识别对象的识别分数之和，生成分数向量；

S3，获取视频关键帧包括的对象类别以及各对象类别的次数，生成二进制向量；

S4，获取每个识别对象的边界框并输入预设的神经网络，通过神经网络训练生成ConvPool矢量。

基于各视频关键帧的各个识别对象，通过上述四个向量的计算，准确地定位各视频关键帧的关键帧向量。

获取到视频关键帧的关键帧向量之后，接着执行步骤S103，将各视频关键帧的关键帧向量，输入预设的深度特征视频矩阵模型，并通过深度特征视频矩阵模型输出待分类视频数据的深度特征视频矩阵。

在本申请一可选实施例中，将各视频关键帧的关键帧向量，即出现向量、分数向量、二进制向量和ConvPool矢量输入预设的矩阵进行融合，形成各视频关键帧的深度特征帧矩阵；然后将各视频关键帧的深度特征帧矩阵进行融合，形成待分类视频数据的深度特征视频矩阵。

最后执行步骤S104，基于深度特征视频矩阵对待分类视频数据进行分类，生成待分类视频数据的分类标签。

将待分类视频数据的深度特征视频矩阵作为待分类视频数据的最终特征向量输入预设的视频分类器，通过视频分类器采用随机森林算法对待分类视频数据进行分类，得到分类结果；最后基于分类结果生成待分类视频数据的分类标签。

举例来讲，首先获取待视频分类数据后，从中提取多个视频关键帧。将每个视频定义为V_i，i表示视频编号。对于每个视频，提取其关键视频帧KF_ij，即V_i＝{KF_ij,j＝1,...,S_i}，j表示视频i的关键帧的编号，其中S_i为视频V_i中提取到的关键帧个数。

然后，将提取到的多个视频关键帧都通过在COCO数据集预训练过的RetinaNet网络中进行训练，该方法用于检测每个关键帧KF_ij中的对象列表，并将它们分类为预训练模型中提供的80个类别之一，例如人、汽车、飞机和马。对于每个检测到的物体，需考虑其类别，识别分数和包围它的边界框。

对于每一个关键帧KF_ij，计算四个向量：

(1)出现向量OV_ij

是维度为80的向量，该向量对出现在关键帧KF_ij中的80个类别中的每个类别的对象进行计数，例如关键帧中出现了两个人，一条狗，一只猫，那么对应于80维向量中的人的那一列数值为2，狗的一列数据为1，猫的一列数据为1，其余数值0。

(2)分数向量OV_ij

由于每个检测到的对象都有一个检测分数，因此我们计算维度为80的分数向量，其中包含关键帧KF_ij中所有对象的分数之和。

(3)二进制向量SV_ij

二进制向量类似于出现向量，但是它计算二进制数而不是计算关键帧中检测到的80个类别中每个类别的次数。在这种情况下，矢量是80维矢量，例如关键帧中出现了两个人，一条狗，一只猫，那么人、狗、猫的类别值为1，其余类别值为0。

(4)ConvPool矢量convPV_ij

对于KF_ij中的每个检测到的对象，我们将包围区域通过CNN网络进行训练，该网络会生成一个名为convPV_ij的128维矢量。该网络由两个连续的卷积层，一个最大池化层和一个平均池化层组成。

接着，上述四个向量被链接到一个名为DFFM_ij的矩阵(深度特征帧矩阵)，如下所示：

然后再将每个视频V_i中的所有关键帧KF_ij的DFFM_ij矩阵进行融合，形成深度特征视频矩阵DFVM_i:

最后，将深度特征视频矩阵作为视频的最终特征向量，并采用随机森林算法作为最终的视频分类器，对待分类视频数据进行分类，生成待分类视频数据的分类标签。基于本发明实施例提供的视频分类方法，将深度特征视频矩阵作为视频的最终特征向量并作为视频分类器的输入进行视频分类，可有效提升视频分类的准确率。随机森林算法指的是利用多棵树对样本进行训练并预测的一种分类器，本领域技术人员已熟知其根据特征向量进行分类的方法，因此，此处不多赘述。

本申请实施例针对现有方法中存在的视频特征融合不全面的问题，提出一种视频分类方法，这是一种新的基于深度学习的视频分类方法，通过提取待分类视频的视频关键帧以较优的表示视频结构，并根据视频关键帧中的识别对象生成待分类视频的关键帧向量，从而对视频关键帧中的多种特征进行全面且准确融合，以将每个视频转换为深度特征视频矩阵，再采用有监督分类器对视频进行分类验证，在快速对视频进行分类的同时，有效提升视频分类的准确性。

基于同一发明构思，如图2所示，本申请实施例还提供了一种视频分类***，包括：

视频关键帧提取模块210，其配置成获取待分类视频数据，并提取待分类视频数据的至少一个视频关键帧；

关键帧向量生成模块220，其配置成将各视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各视频关键帧生成各视频关键帧的关键帧向量；

深度特征视频矩阵输出模块230，其配置成将各视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过深度特征视频矩阵模型输出待分类视频数据的深度特征视频矩阵；

视频数据分类模块240，其配置成基于深度特征视频矩阵对待分类视频数据进行分类，生成待分类视频数据的分类标签。

在本申请另一可选实施例中，关键帧向量生成模块220，其还可以配置成：

将各视频关键帧输入预设的RetinaNet网络，通过RetinaNet网络检测各视频关键帧包括的识别对象；

判断各识别对象的属性参数，并对各识别对象进行分类；其中，识别对象的属性参数包括对象类别、识别分数和/或边界框；

基于分类后的所述识别对象生成各视频关键帧的关键帧向量。

对于各视频关键帧，计算视频关键帧中每个识别对象出现的次数，生成出现向量；

计算所有识别对象的识别分数之和，生成分数向量；

获取视频关键帧包括的对象类别以及各对象类别的次数，生成二进制向量；

获取每个识别对象的边界框并输入预设的神经网络，通过神经网络训练生成ConvPool矢量。

在本申请另一可选实施例中，深度特征视频矩阵输出模块230，其还可以配置成：

将各视频关键帧的出现向量、分数向量、二进制向量和ConvPool矢量输入预设的矩阵进行融合，形成各视频关键帧的深度特征帧矩阵；

将各视频关键帧的深度特征帧矩阵进行融合，形成待分类视频数据的深度特征视频矩阵。

在本申请另一可选实施例中，视频数据分类模块240，其还可以配置成：

将待分类视频数据的深度特征视频矩阵作为待分类视频数据的最终特征向量输入预设的视频分类器，通过视频分类器采用随机森林算法对待分类视频数据进行分类，得到分类结果；

基于分类结果生成待分类视频数据的分类标签。

本申请提供了一种视频分类方法及***，在本申请提供的方法中，先获取待分类视频数据，并提取待分类视频数据的至少一个视频关键帧；再将各视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各视频关键帧生成各视频关键帧的关键帧向量；然后将各视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过深度特征视频矩阵模型输出待分类视频数据的深度特征视频矩阵；最后基于深度特征视频矩阵对所述待分类视频数据进行分类，生成待分类视频数据的分类标签。

基于本申请提供的视频分类方法及***，将视频的不同特征进行融合形成了深度特征视频矩阵，解决了现有技术中存在的视频多种特征提取不全面的问题，提高了视频分类的准确性。

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器320、处理器310和存储在所述存储器320内并能由所述处理器310运行的计算机程序，该计算机程序存储于存储器320中的用于程序代码的空间330，该计算机程序在由处理器310执行时实现用于执行任一项根据本发明的方法步骤331。

本申请实施例还提供了一种计算机可读存储介质。参照图4，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序331′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频分类方法，包括：

将各所述视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各所述视频关键帧生成各所述视频关键帧的关键帧向量，包括：将各所述视频关键帧输入预设的RetinaNet网络，通过所述RetinaNet网络检测各所述视频关键帧包括的识别对象；判断各所述识别对象的属性参数，并对各所述识别对象进行分类；其中，所述识别对象的属性参数包括对象类别、识别分数和/或边界框；基于分类后的所述识别对象生成各所述视频关键帧的关键帧向量，包括：对于各所述视频关键帧，计算所述视频关键帧中每个识别对象出现的次数，生成出现向量；计算所有识别对象的识别分数之和，生成分数向量；获取所述视频关键帧包括的对象类别以及各对象类别的次数，生成二进制向量；获取每个识别对象的边界框并输入预设的神经网络，通过所述神经网络训练生成ConvPool矢量；

将各所述视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过所述深度特征视频矩阵模型输出所述待分类视频数据的深度特征视频矩阵，包括：将各所述视频关键帧的出现向量、分数向量、二进制向量和ConvPool矢量输入预设的矩阵进行融合，形成各所述视频关键帧的深度特征帧矩阵；将各所述视频关键帧的深度特征帧矩阵进行融合，形成所述待分类视频数据的深度特征视频矩阵；

2.根据权利要求1所述的方法，其特征在于，所述基于所述深度特征视频矩阵对所述待分类视频数据进行分类，生成所述待分类视频数据的分类标签，包括：

基于所述分类结果生成所述待分类视频数据的分类标签。

3.一种视频分类***，包括：

关键帧向量生成模块，其配置成将各所述视频关键帧输入预设的目标检测网络中进行训练，并基于训练后的各所述视频关键帧生成各所述视频关键帧的关键帧向量，包括：将各所述视频关键帧输入预设的RetinaNet网络，通过所述RetinaNet网络检测各所述视频关键帧包括的识别对象；判断各所述识别对象的属性参数，并对各所述识别对象进行分类；其中，所述识别对象的属性参数包括对象类别、识别分数和/或边界框；基于分类后的所述识别对象生成各所述视频关键帧的关键帧向量，包括：对于各所述视频关键帧，计算所述视频关键帧中每个识别对象出现的次数，生成出现向量；计算所有识别对象的识别分数之和，生成分数向量；获取所述视频关键帧包括的对象类别以及各对象类别的次数，生成二进制向量；获取每个识别对象的边界框并输入预设的神经网络，通过所述神经网络训练生成ConvPool矢量；

深度特征视频矩阵输出模块，其配置成将各所述视频关键帧的关键帧向量输入预设的深度特征视频矩阵模型，通过所述深度特征视频矩阵模型输出所述待分类视频数据的深度特征视频矩阵，包括：将各所述视频关键帧的出现向量、分数向量、二进制向量和ConvPool矢量输入预设的矩阵进行融合，形成各所述视频关键帧的深度特征帧矩阵；将各所述视频关键帧的深度特征帧矩阵进行融合，形成所述待分类视频数据的深度特征视频矩阵；

4.根据权利要求3所述的***，其特征在于，所述视频数据分类模块，还配置成：

基于所述分类结果生成所述待分类视频数据的分类标签。