CN110751030A

CN110751030A - 一种视频分类方法、设备及***

Info

Publication number: CN110751030A
Application number: CN201910866433.8A
Authority: CN
Inventors: 刘卓龙
Original assignee: Xiamen Wangsu Co Ltd
Current assignee: Xiamen Wangsu Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-02-04
Also published as: US20240046644A1; EP4016375A1; WO2021046957A1

Abstract

本发明公开了一种视频分类方法、设备及***，其中，所述方法包括：将待分类视频划分为多个视频片段，并针对每个视频片段，提取所述视频片段中各个视频帧的帧特征，以及提取所述各个视频帧对应的音频数据的音频特征；将提取的各个所述帧特征整合为所述视频片段的视频特征，并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征；根据各个所述视频片段的音视频特征，预测所述待分类视频所属的视频种类。本申请提供的技术方案，能够提高视频分类的精度。

Description

一种视频分类方法、设备及***

技术领域

本发明涉及互联网技术领域，特别涉及一种视频分类方法、设备及***。

背景技术

在各类视频服务中，对视频进行分类并打上类别标签已经是一种广泛采用的做法。对视频内容进行分类，一方面可以让用户快速定位到自己感兴趣的内容，另一方面，各种视频推荐技术也可以基于视频的类别标签进行更好的实施。

在过去，视频服务提供商通常使用人工标注的方式来对视频进行分类。但随着视频数量的急剧增大、人工成本的增高以及机器学习的发展，使用机器学习技术对视频进行分类的方式逐渐取代了人工分类。

目前，可以通过递归神经网络(Recurrent Neural Network，RNN)、局部聚合描述符(Vector of Locally Aggregated Descriptors，VLAD)神经网络(例如netVLAD、neXtVLAD)等方式来自动对视频进行分类。然而，这些机器学习的方式也会存在一定的缺陷。例如，RNN可以学习大量的长期信息，能够用于处理具备前后依赖性的数据，但是RNN可记忆的信息长度有限，对于较长的视频无法具备较高的分类精度。NetVLAD和neXtVLAD在对视频进行分类时，通常是将整个视频数据一并处理，但是这样会忽略视频中前后场景之间的联系，也会导致分类精度不够高的问题。

发明内容

本申请的目的在于提供一种视频分类方法、设备及***，能够提高视频分类的精度。

为实现上述目的，本申请一方面提供一种视频分类方法，所述方法包括：将待分类视频划分为多个视频片段，并针对每个视频片段，提取所述视频片段中各个视频帧的帧特征，以及提取所述各个视频帧对应的音频数据的音频特征；将提取的各个所述帧特征整合为所述视频片段的视频特征，并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征；根据各个所述视频片段的音视频特征，预测所述待分类视频所属的视频种类。

为实现上述目的，本申请另一方面还提供一种视频分类设备，所述视频分类设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的视频分类方法。

为实现上述目的，本申请另一方面还提供一种视频分类***，待分类视频被划分为多个视频片段，所述视频分类***中包括第一网络分支、第二网络分支和递归神经网络，其中，所述第一网络分支中包括第一卷积神经网络和局部聚合描述符神经网络，所述第二网络分支中包括第二卷积神经网络，其中：所述第一卷积神经网络用于针对每个视频片段，提取所述视频片段中各个视频帧的帧特征；所述局部聚合描述符神经网络，用于将提取的各个所述帧特征整合为所述视频片段的视频特征；所述第二卷积神经网络，用于提取所述各个视频帧对应的音频数据的音频特征；所述递归神经网络，用于接收由所述视频特征和所述音频特征拼接而成的音视频特征，并根据各个所述视频片段的音视频特征，预测所述待分类视频所属的视频种类。

由上可见，本申请提供的技术方案，可以将VLAD神经网络和RNN相结合，从而通过结合后的***解决彼此的缺陷。具体地，在对视频进行分类时，可以采用两个网络分支，其中，第一网络分支可以用于处理视频片段中的视频帧，第二网络分支可以用于处理视频片段对应的音频数据。在第一网络分支中，可以通过第一CNN提取出视频片段中各个视频帧的帧特征。后续，VLAD神经网络可以将视频片段的各个帧特征整合为该视频片段的视频特征。需要说明的是，由第一CNN提取出的帧特征，可以是一个特征向量，由于视频片段中包含多个视频帧，那么各个帧特征便可以构成一个特征矩阵。而经过VLAD神经网络后，可以将该特征矩阵降维成一个一维数组，这样便可以实现数据的压缩。后续，VLAD神经网络输出的结果可以与第二网络分支输出的音频特征进行拼接，从而得到该视频片段的音视频特征。

经过上述的处理方式，每个视频片段都可以具备自身的音视频特征，并且该音视频特征是降维后的结果。这样，假设待分类视频中具备L个视频帧，而每个视频片段中具备N个视频帧，那么待分类视频经过上述的处理，便可以得到L/N个音视频特征，这样，相当于极大地压缩了待分类视频的长度。后续，将压缩得到的音视频特征依次输入RNN，便可以利用RNN的记忆特性，对存在前后关联的音视频特征进行分析。同时，由于RNN并非是对待分类视频进行逐帧分析，而是分析压缩后的音视频特征，因此需要记忆的数据量会大幅减少，从而符合RNN无法记忆过长信息的特性，进而能够得到比较精确的分类结果。

此外，本申请提供的技术方案，不仅仅对视频片段的视频帧进行分析，同时还会对视频片段对应的音频数据进行同步分析，从而利用了视频帧与音频数据之间的强关联性，进一步保证了视频分类的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施方式中视频分类***的结构示意图；

图2是本发明实施方式中视频分类方法的步骤示意图；

图3是本发明实施方式中RNN的数据处理示意图；

图4是本发明实施方式中标题数据的预测示意图；

图5是本发明实施方式中视频分类设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本申请提供一种视频分类方法，该方法可以应用于如图1所示的视频分类***中。具体地，请参阅图1，视频分类***可以包括两个网络分支，其中，第一网络分支可以包括第一CNN和VLAD神经网络，VLAD神经网络例如可以是netVLAD或者neXtVLAD。第二网络分支可以包括第二CNN。两个网络分支的结果可以经过拼接之后，进入RNN，并由RNN预测出待分类视频所属的视频种类。

需要说明的是，通过机器学习的方式来预测视频种类，通常都会存在两个阶段，一个是训练阶段，另一个是预测阶段。在训练阶段和预测阶段中，对于待分类视频而言，***的处理方式都是类似的。只不过，在训练阶段，待分类视频已经经过人工标注的方式，预先知晓了待分类视频的实际视频种类。已经标识了实际视频种类的待分类视频，可以作为训练阶段的训练样本。视频分类***对上述的待分类视频进行预测后，可以根据预测结果与实际视频种类之间的偏差，来对视频分类***进行校正，使得校正后的视频分类***能够更加准确地进行视频分类。完成训练后的视频分类***，便可以进入预测阶段。在预测阶段，针对输入的待分类视频，无法知晓它所属的实际视频种类。而是经过完成训练的视频分类***，对该待分类视频的数据进行处理，并将最终的输出结果表征的视频种类，作为该待分类视频预测得到的视频种类。

请参阅图1和图2，本申请一个实施方式中，上述的视频分类方法可以包括以下步骤。

S1：将待分类视频划分为多个视频片段，并针对每个视频片段，提取所述视频片段中各个视频帧的帧特征，以及提取所述各个视频帧对应的音频数据的音频特征。

在本实施方式中，可以预先将待分类视频划分为多个视频片段。在进行视频片段的划分时，可以确定各个视频片段中包含的视频帧的数量，并根据该数据量进行视频片段的划分。例如，假设各个视频片段中可以包含N个视频帧，而待分类视频的总帧数为L，那么待分类视频便可以被划分为L/N个视频片段。通常而言，L可以是N的整数倍，这样可以保证划分得到的各个视频片段中都包含相同的视频帧数量，从而为后续的数据处理提供一个统一的前提。当然，在实际应用中，L也可以不是N的整数倍。这样，划分得到的最后一个视频片段中，视频帧的数量通常会小于N。为了保证后续数据处理的统一性，可以通过视频帧补足的方式，将最后一个视频片段中的视频帧扩充至N。视频帧补足的方式也可以多种多样，例如可以对最后一个视频片段进行视频帧插值，在相邻的两个视频帧之间，通过插值的方式构建出一个新的视频帧，从而扩充视频帧的数量。又例如，还可以将最后一个视频帧复制多遍，直至视频片段中的视频帧数量达到N为止。

在本实施方式中，在将待分类视频划分为多个视频片段后，可以针对每个视频片段进行相同的处理。具体地，可以通过第一CNN提取视频片段中各个视频帧的帧特征。

在一个实施方式中，首先可以将视频片段中的各个视频帧转换为对应的位图图像。具体地，可以检测视频帧中各个像素点的像素值，并将视频帧转换为由像素值表示的位图图像。该位图图像中的各个像素值，可以与视频帧中各个像素点的排列顺序保持一致。

在本实施方式中，在将视频片段中的各个视频帧转换为位图图像后，可以将转换得到的位图图像依次输入第一CNN，从而通过第一CNN分别提取各个位图图像的特征向量，该特征向量便可以作为各个视频帧的帧特征。在实际应用中，CNN中可以包括多个层结构，例如，CNN中可以包括卷积层、激活函数层、池化层以及全连接层等，其中，每个层结构的数量也可以不止一个。在卷积层中，可以通过预先选择的卷积核，依次对位图图像中的各个局部图像进行卷积运算，从而得到由卷积值构成的卷积图像。后续，通过激活函数层和池化层，可以进一步地筛选卷积图像中局部图像的取值。最终，通过全连接层，可以将原本通过矩阵表示的位图图像，处理为一个特征向量，该特征向量便可以作为经过第一CNN提取的视频帧的帧特征。这样，对于视频片段中的每个视频帧而言，经过第一CNN处理后，均可以具备自身的帧特征。

考虑到视频片段的画面与声音通常会具备较强的关联性，因此为了利用这种强关联性，在本实施方式中，可以采用第二CNN，提取视频片段对应的音频数据的音频特征。具体地，可以从待分类视频中截取出视频片段对应的音频数据，并将该音频数据转换为量化数据。在实际应用中，可以对音频数据进行多种数学运算，从而得到对应的量化数据。例如，可以求取音频数据的频谱图或者语谱图，并将频谱图或者语谱图作为音频数据的量化数据。此外，还可以计算计算音频数据的功率谱密度或者短时自相关函数，并将功率谱密度或者短时自相关函数作为音频数据的量化数据。

在本实施方式中，在得到音频数据的量化数据后，可以将该量化数据输入第二CNN进行处理。第二CNN可以根据多个层结构，将矩阵形式的量化数据转换为特征向量。这样，从量化数据中提取出的特征向量，便可以作为音频数据的音频特征。

S3：将提取的各个所述帧特征整合为所述视频片段的视频特征，并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征。

如果直接将第一CNN提取得到的各个视频帧的帧特征输入RNN中，那么当待分类视频的时长较长时，RNN在处理比较靠后的帧特征时，会由于可记忆的信息长度有限，导致比较靠前的帧特征的缺失，从而会导致最终的分类结果不精确。鉴于此，在本实施方式中，在经过第一CNN得到视频片段的各个视频帧的帧特征后，可以通过VLAD神经网络，将各个帧特征整合为视频片段的视频特征。这样，对于同一个视频片段而言，其对应的就不是多个帧特征，而是可以对应一个视频特征。通过这样的处理方式，假设待分类视频共计有L个视频帧，每个视频片段具备N个视频帧，那么便可以将待处理的特征数据的数量从L降低至L/N。

在本实施方式中，VLAD神经网络可以包括netVLAD或者neXtVLAD，在实际应用中，可以根据所需处理的数据量灵活选用。VLAD神经网络可以将视频片段视为一个整体进行处理，从而得到该视频片段的一个一维数组。具体地，经过第一CNN之后，视频片段的每个帧特征可以通过特征向量来表示，那么可以根据各个帧特征表征的特征向量构建一个特征矩阵。在该特征矩阵中，每一行可以代表一个特征向量，因此，该特征矩阵的行数，可以与视频片段中包含的视频帧的数量一致。在构建得到特征矩阵后，可以将该特征矩阵输入VLAD神经网络，从而利用VLAD神经网络的特性，将该特征矩阵处理为一个一维数组。该一维数组，便可以作为该视频片段的视频特征。这样，原先每个视频片段对应的特征矩阵，可以通过VLAD神经网络，降维成一个一维数组。

在本实施方式中，由于音频数据经过第二CNN处理后的音频特征也是一个一维数组(实际上就是一个特征向量)，那么，为了体现音频片段的视频帧和音频数据之间的关联性，可以将视频特征和音频特征进行拼接，从而作为一个整体进行后续的数据分析。具体地，可以将两个一维数组拼接为一个一维数组，并将拼接得到的一维数组作为视频片段的音视频特征。举例来说，假设视频片段的视频特征为(1，2，3)，该视频片段的音频数据的音频特征为(4，5，6)，那么拼接后的音视频特征可以是(1，2，3，4，5，6)。

S5：根据各个所述视频片段的音视频特征，预测所述待分类视频所属的视频种类。

在本实施方式中，待分类视频中的各个视频片段均可以按照上述的方式处理得到音视频特征。由于待分类视频中各个视频片段的内容是具备前后关联性的，因此通过RNN来处理待分类视频的各个音视频特征可以具备较好的分类精度。请参阅图3，各个视频片段的音视频特征可以依次输入RNN模型中，当各个视频片段的音视频特征均输入完毕后，RNN模型可以输出最后的分类结果。

如图3所示，各个视频片段的音视频数据，可以按照视频片段在待分类视频中的播放顺序，被依次输入RNN模型。RNN模型在得到第一个音视频特征的处理结果后，可以将第一个音视频特征的处理结果作为辅助数据，连同第二个音视频特征一并处理，从而体现出前后音视频特征之间的关联性。也就是说，RNN在对当前视频片段的音视频特征进行处理时，可以将上一个视频片段的处理结果作为辅助数据，与当前视频片段的音视频特征一并处理，从而得到当前视频片段的处理结果。该处理结果又可以作为下一个音视频特征的辅助数据进行处理，从而延续前面的音视频特征对后面的音视频特征的影响。当RNN对各个视频片段的音视频特征均完成处理后，便可以将输出结果表征的视频种类作为待分类视频所属的视频种类。

具体地，RNN的输出结果可以是一个概率向量，概率向量中的各个向量元素可以是不同的概率值，这些向量元素可以与不同的预测结果一一对应。例如，当前待确定的视频种类为娱乐、旅游、动作、科幻、动画这五大类，那么概率向量中可以具备与这五大类一一对应的五个概率值。在确定待分类视频所属的视频种类时，可以从概率向量中识别出最大的概率值，并将该最大的概率值对应的视频种类，作为待分类视频预测得到的视频种类。

在一个实施方式中，为了增强视频分类***的泛用性，可以在RNN之前添加一个全连接层(fully connected layer)。这样，拼接得到的音视频特征可以经过全连接层的处理后再输入RNN。

在一个实施方式中，为了进一步提高视频分类的准确度，可以根据待分类视频的标题数据进行视频种类的预测，并将两种预测结果进行综合比对，从而确定出待分类视频的最终视频种类。请参阅图4，在本实施方式中，在获取到待分类视频的标题数据后，可以通过常规的分词处理，从而标题数据中提取出具备实际含义的词汇。然后，可以将提取出的词汇作为词汇序列输入至自然语言处理(Natural Language Processing，NLP)模型中。在实际应用中，NLP模型可以采用BERT(Bidirectional Encoder Representations fromTransformers，基于变换器的双向编码描述)网络，在BERT网络中，可以将输入的词汇序列中各个词汇转换为对应的词向量，并通过MLM(Masked Language Model，完形填空)和NSP(Next Sentence Prediction，下一语句预测)策略，对词向量进行分析，最终确定出输入的词汇序列对应的视频种类。

在本实施方式中，BERT网络的输出结果也可以是一个概率向量，该概率向量也可以与待确定的视频种类一一对应。这样，基于音视频特征和标题数据可以分别得到第一预测结果和第二预测结果，后续，可以根据第一预测结果和第二预测结果确定待分类视频的最终视频种类。由于第一预测结果和第二预测结果均可以为概率向量，那么可以采用加权平均的方式来计算最终的概率向量。具体地，可以分别为两个概率向量分配各自的权重系数，这两个权重系数的和可以是1，根据分配的权重系数可以按照以下公式对两个概率向量进行加权平均运算：

P_c＝a·P₁+(1-a)P₂

其中，P_c表示加权平均后的概率向量，a表示第一预测结果的权重系数，P₁表示第一预测结果表征的概率向量，P₂表示第二预测结果表征的概率向量。

在本实施方式中，在加权平均得到概率向量后，可以识别加权平均运算后的概率向量中概率值最大的目标向量元素，并将目标向量元素表征的视频种类作为待分类视频的最终视频种类。这样，通过综合两个预测结果，可以使得最终的分类结果更加精确。

在一个实施方式中，在训练阶段，可以通过比对预测结果和真实结果，不断地对各个神经网络中的参数进行调节。此外，还可以对视频片段中包含的视频帧的数量以及上述的权重系数进行调节。具体地，若待分类视频的最终视频种类与待分类视频的实际视频种类不一致，可以对上述的权重系数进行调整，以使得根据调整后的权重系数确定的最终视频种类与实际视频种类保持一致。另外，若预测得到的待分类视频的视频种类与待分类视频的实际视频种类不一致，还可以对各个视频片段中包含的视频帧的数量进行调整，以使得根据调整后的视频帧的数量预测得到的视频种类与实际视频种类保持一致。上述的参数调整过程，可以择一进行，也可以同时进行，本申请对此并不做限定。

请参阅图5，本申请还提供一种视频分类设备，所述视频分类设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，可以实现上述的视频分类方法。

请参阅图1，本申请还提供一种视频分类***，待分类视频被划分为多个视频片段，所述视频分类***中包括第一网络分支、第二网络分支和递归神经网络，其中，所述第一网络分支中包括第一卷积神经网络和局部聚合描述符神经网络，所述第二网络分支中包括第二卷积神经网络，其中：

所述第一卷积神经网络用于针对每个视频片段，提取所述视频片段中各个视频帧的帧特征；

所述局部聚合描述符神经网络，用于将提取的各个所述帧特征整合为所述视频片段的视频特征；

所述第二卷积神经网络，用于提取所述各个视频帧对应的音频数据的音频特征；

所述递归神经网络，用于接收由所述视频特征和所述音频特征拼接而成的音视频特征，并根据各个所述视频片段的音视频特征，预测所述待分类视频所属的视频种类。

在一个实施方式中，所述视频分类***还包括BERT网络和综合预测单元，其中：

所述BERT网络，用于根据所述待分类视频的标题数据预测所述待分类视频所属的视频种类；

所述综合预测单元，用于根据基于音视频特征得到的第一预测结果和基于标题数据得到的第二预测结果，确定所述待分类视频的最终视频种类。

在一个实施方式中，所述综合预测单元包括：

加权平均模块，用于分别为两个概率向量分配各自的权重系数，并根据分配的所述权重系数对所述两个概率向量进行加权平均运算；

概率值识别模块，用于识别加权平均运算后的概率向量中概率值最大的目标向量元素，并将所述目标向量元素表征的视频种类作为所述待分类视频的最终视频种类。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对***和设备的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

将待分类视频划分为多个视频片段，并针对每个视频片段，提取所述视频片段中各个视频帧的帧特征，以及提取所述各个视频帧对应的音频数据的音频特征；

将提取的各个所述帧特征整合为所述视频片段的视频特征，并将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征；

根据各个所述视频片段的音视频特征，预测所述待分类视频所属的视频种类。

2.根据权利要求1所述的方法，其特征在于，提取所述视频片段中各个视频帧的帧特征包括：

将所述视频片段中的各个视频帧转换为对应的位图图像；

分别提取各个所述位图图像的特征向量，并将提取的各个所述特征向量作为各个所述视频帧的帧特征。

3.根据权利要求1或2所述的方法，其特征在于，将提取的各个所述帧特征整合为所述视频片段的视频特征包括：

根据各个所述帧特征表征的特征向量构建特征矩阵，并将所述特征矩阵处理为一维数组；所述一维数组作为整合后的所述视频特征。

4.根据权利要求1所述的方法，其特征在于，提取所述各个视频帧对应的音频数据的音频特征包括：

将所述音频数据转换为量化数据，并提取所述量化数据的特征向量；所述量化数据的特征向量作为所述音频数据的音频特征。

5.根据权利要求1所述的方法，其特征在于，所述视频特征和所述音频特征均为一维数组；将所述视频特征和所述音频特征拼接为所述视频片段的音视频特征包括：

将两个一维数组拼接为一个一维数组，并将拼接得到的一维数组作为所述音视频特征。

6.根据权利要求1或5所述的方法，其特征在于，根据各个所述视频片段的音视频特征，预测所述待分类视频所属的视频种类包括：

根据视频片段在所述待分类视频中的播放顺序，依次将各个所述视频片段的音视频特征输入递归神经网络中；其中，所述递归神经网络在对当前视频片段的音视频特征进行处理时，将上一个视频片段的处理结果作为辅助数据，与所述当前视频片段的音视频特征一并处理，以得到所述当前视频片段的处理结果；

当所述递归神经网络对各个所述视频片段的音视频特征均完成处理后，将输出结果表征的视频种类作为所述待分类视频所属的视频种类。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述待分类视频的标题数据，并根据所述标题数据预测所述待分类视频所属的视频种类；

根据基于音视频特征得到的第一预测结果和基于标题数据得到的第二预测结果，确定所述待分类视频的最终视频种类。

8.根据权利要求7所述的方法，其特征在于，所述第一预测结果和所述第二预测结果均为概率向量；确定所述待分类视频的最终视频种类包括：

分别为两个概率向量分配各自的权重系数，并根据分配的所述权重系数对所述两个概率向量进行加权平均运算；

识别加权平均运算后的概率向量中概率值最大的目标向量元素，并将所述目标向量元素表征的视频种类作为所述待分类视频的最终视频种类。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

若所述待分类视频的最终视频种类与所述待分类视频的实际视频种类不一致，对所述权重系数进行调整，以使得根据调整后的权重系数确定的最终视频种类与所述实际视频种类保持一致。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若预测得到的所述待分类视频的视频种类与所述待分类视频的实际视频种类不一致，对各个所述视频片段中包含的视频帧的数量进行调整，以使得根据调整后的视频帧的数量预测得到的视频种类与所述实际视频种类保持一致。

11.一种视频分类设备，其特征在于，所述视频分类设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至10中任一所述的方法。

12.一种视频分类***，其特征在于，待分类视频被划分为多个视频片段，所述视频分类***中包括第一网络分支、第二网络分支和递归神经网络，其中，所述第一网络分支中包括第一卷积神经网络和局部聚合描述符神经网络，所述第二网络分支中包括第二卷积神经网络，其中：

13.根据权利要求12所述的视频分类***，其特征在于，所述视频分类***还包括BERT网络和综合预测单元，其中：

14.根据权利要求13所述的视频分类***，其特征在于，所述综合预测单元包括：