CN114329070A

CN114329070A - 视频特征提取方法、装置、计算机设备和存储介质

Info

Publication number: CN114329070A
Application number: CN202111408061.8A
Authority: CN
Inventors: 李传俊; 许有疆; 胡智超
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-04-12

Abstract

本申请涉及一种视频特征提取方法、装置、计算机设备和存储介质。所述方法包括：获取视频数据；对视频数据进行拆解，得到与视频数据对应的拆分数据，拆分数据包括视频帧集合以及视频片段集合；对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对视频片段集合中视频片段进行片段特征提取，得到片段特征信息；在视频帧个数维度上对视觉特征信息进行卷积，得到第一特征信息；在视频片段数维度上对片段特征信息进行卷积，得到第二特征信息；根据第一特征信息和第二特征信息，得到视频特征信息。采用本方法能够提高视频数据识别率。

Description

视频特征提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视频特征提取方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了视频特征提取技术，视频特征提取技术是指从视频数据中提取特征信息，以便利用特征信息对视频数据进行识别，比如，可以利用特征信息对视频数据进行分类，以确定视频数据的类别。

然而，传统方法在进行视频特征提取时，所提取出的图像特征无法充分描述视频数据的特征，从而在利用特征信息进行识别时会导致识别不准确，降低视频数据识别率。

发明内容

在此，有必要针对上述技术问题，提供一种能够提高视频数据识别率的视频特征提取方法、装置、计算机设备、存储介质和计算机程序产品。

一种视频特征提取方法，所述方法包括：

获取视频数据；

对视频数据进行拆解，得到与视频数据对应的拆分数据，拆分数据包括视频帧集合以及视频片段集合；

对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对视频片段集合中视频片段进行片段特征提取，得到片段特征信息；

在视频帧个数维度上对视觉特征信息进行卷积，得到第一特征信息；

在视频片段数维度上对片段特征信息进行卷积，得到第二特征信息；

根据第一特征信息和第二特征信息，得到视频特征信息。

一种视频特征提取装置，所述装置包括：

获取模块，用于获取视频数据；

拆解模块，用于对视频数据进行拆解，得到与视频数据对应的拆分数据，拆分数据包括视频帧集合以及视频片段集合；

特征提取模块，用于对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对视频片段集合中视频片段进行片段特征提取，得到片段特征信息；

第一卷积模块，用于在视频帧个数维度上对视觉特征信息进行卷积，得到第一特征信息；

第二卷积模块，用于在视频片段数维度上对片段特征信息进行卷积，得到第二特征信息；

处理模块，用于根据第一特征信息和第二特征信息，得到视频特征信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取视频数据；

根据第一特征信息和第二特征信息，得到视频特征信息。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取视频数据；

根据第一特征信息和第二特征信息，得到视频特征信息。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取视频数据；

根据第一特征信息和第二特征信息，得到视频特征信息。

上述视频特征提取方法、装置、计算机设备、存储介质和程序产品，通过获取视频数据，对视频数据进行拆解，得到包括视频帧集合以及视频片段集合的拆分数据，对视频帧集合中视频帧进行帧特征提取，能够得到视觉特征信息，通过对视频片段集合中视频片段进行片段特征提取，能够得到片段特征信息，进而通过在视频帧个数维度上对视觉特征信息进行卷积，能够在连续视频帧之间建模，得到带有时序的第一特征信息，通过在视频片段数维度上对片段特征信息进行卷积，能够基于视频片段数维度在连续视频帧之间建模，得到带有时序的第二特征信息，从而可以根据带有时序的第一特征信息和第二特征信息，得到充分描述视频数据的特征的视频特征信息，能够提高视频数据识别率。

附图说明

图1为一个实施例中视频特征提取方法的流程示意图；

图2为一个实施例中ViT(Vision Transformer，视觉Transformer)网络的示意图；

图3为一个实施例中TSM(Temporal Shift Module for Efficient VideoUnderstanding，用于高效视频理解的时间移位模块)网络的示意图；

图4为一个实施例中根据预设卷积核对视觉特征信息进行卷积的示意图；

图5为一个实施例中文本特征提取的示意图；

图6为一个实施例中视频分类模型的示意图；

图7为一个实施例中得到特征信息的过程示意图；

图8为另一个实施例中视频特征提取方法的流程示意图；

图9为一个实施例中视频特征提取装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能技术领域。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中涉及的主要是计算机视觉技术方向，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在一个实施例中，如图1所示，提供了一种视频特征提取方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以为区块链上的节点。本实施例中，该方法包括以下步骤：

步骤102，获取视频数据。

具体的，当需要对视频数据进行视频特征提取时，服务器会获取视频数据。

步骤104，对视频数据进行拆解，得到与视频数据对应的拆分数据，拆分数据包括视频帧集合以及视频片段集合。

其中，对视频数据进行拆解是指对视频数据进行拆分和解析，得到视频特征提取所需要的拆分数据。拆分数据包括视频帧集合以及视频片段集合，其中的视频帧集合是指由对视频数据进行抽帧得到的视频帧组成的集合，在对视频数据进行抽帧时，每秒获取帧数可按照需要自行设置，比如，每秒获取帧数可以为1，则在进行视频抽帧时每秒提取1帧。其中的视频片段集合是指由对视频数据进行片段划分所得到的视频片段组成的集合，在对视频数据进行片段划分时，每个视频片段的时长可按照需要自行设置，比如，每个视频片段的时长可以为8秒，则每8秒截取一个视频片段。

具体的，在得到视频数据后，服务器会对视频数据进行拆解，根据预先设置的每秒获取帧数对视频数据进行抽帧，得到视频帧集合，并根据预先设置的视频片段的时长对视频数据进行片段划分，得到视频片段集合。

步骤106，对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对视频片段集合中视频片段进行片段特征提取，得到片段特征信息。

具体的，服务器会对视频帧集合中视频帧分别进行帧特征提取，以得到与每帧视频帧对应的视觉特征信息。其中，这里的帧特征提取具体可以是指进行视觉语义特征提取，服务器会视频帧拆分为多个小块，再建立不同小块之间的联系，得到与视频帧对应的视觉特征信息。举例说明，此处的帧特征提取，可通过预先训练的ViT网络实现，ViT网络是Transformer结构在图像任务上的成功应用，如图2所示，ViT网络将视频帧表示成N x N的小块，并以transformer模块建立不同小块之间的联系，最后得到整个视频帧的特征表达以及对应的预测结果。

其中，transformer模块的结构如图2所示，包括Embedded Patches(嵌入块)模块、Norm(标准化)模块、Multi-Head Attention(多头注意力机制)模块、Norm、MLP(多层感知层)模块，其中的Embedded Patches模块用于对视频帧进行分割，得到多个patch(块)，再通过将所有像素通道串联在一个patch中，将每个patch展平为一维patch嵌入，然后将其线性投影到所需的输入维，Norm模块用于进行标准化，Multi-Head Attention模块用于利用注意力机制建立不同小块之间的联系，有助于捕捉到更丰富的特征，MLP模块用于处理非线性可分离的问题，在本实施例中主要用于对输入进行映射，将输入映射到输出。本实施例中，具体可以利用预先训练的ViT 384网络抽取视频帧特征，抽取该ViT 384网络倒数第2个隐藏层的特征作为其表达该视频帧的特征，即视觉特征信息。

具体的，服务器会对视频片段集合中视频片段分别进行片段特征提取，以得到每个视频片段对应的片段特征信息。其中，这里的片段特征提取具体可以是指基于移动视频帧来进行片段特征提取，即在每个视频片段中，通过移动连续视频帧上的特征来进行片段特征提取，即在每个视频片段中，在对视频片段中每帧视频帧进行帧特征提取，得到对应的视频帧的特征之后，针对当前视频帧，将上一视频帧的部分特征保留下来，替换掉当前视频帧的部分特征，使得当前视频帧获得上一视频帧的时间信息，将当前视频帧的部分特征保留下来，替换掉与当前视频帧对应的下一视频帧的部分特征，使得下一视频帧获得当前视频帧的时间信息，依次替换连续视频帧的特征，使得每一帧视频帧都保留有上一视频帧的特征。上面提到的移动视频帧的方式为单向移动，进一步的，本实施例中还可以采用双向移动，即在对视频片段中最后一帧视频帧的特征进行替换之后，将该最后一帧视频帧的部分特征保留下来，替换掉与最后一帧视频帧对应的上一视频帧的特征，依次替换连续视频帧的特征，直到替换到视频片段中的首帧视频帧为止，完成双向移动。

举例说明，本实施例中的片段特征提取，可通过预先训练的TSM网络实现，TSM网络通过移动连续视频帧上的特征来增加网络对时序信息的建模能力，从而可以得到带有时序信息的片段特征信息。如图3所示，(a)为未进行连续视频帧移动之前的视频片段中视频帧的特征，(b)为双向移动连续视频帧的示意图，(c)为单向移动连续视频帧的示意图。

步骤108，在视频帧个数维度上对视觉特征信息进行卷积，得到第一特征信息。

其中，在视频帧个数维度上进行卷积，可以将视觉特征信息的线性扩张进行变化，将原本单纯的维度扩张替换为多个不同时序的扩张操作，从而将时序信息进行一些弥补，能提取到视频帧直接带有时序的特征。

具体的，服务器会在视频帧个数维度上，根据多个预设卷积核，分别对视觉特征信息进行卷积，得到与预设卷积核对应的第一卷积特征信息，再拼接第一卷积特征信息，对拼接后的第一卷积特征信息进行特征聚合，得到第一特征信息，通过在视频帧个数维度上进行卷积操作，相当于在连续视频帧之间建模，也就能够得到带有时序的第一卷积特征信息。其中，预设卷积核的大小和数量可以按照需要进行设置，比如，预设卷积核可以为核大小分别为1*1、1*3以及1*5的一维卷积。举例说明，当预设卷积核为核大小分别为1*1、1*3以及1*5的一维卷积时，在视频帧个数维度上对视觉特征信息进行卷积时，服务器会分别在每一帧、每三帧、每五帧进行一次卷积，得到第一卷积特征信息。举例说明，如图4所示，X表示视觉特征信息，X1、X2和X3分别为与预设卷积核对应的第一卷积特征信息，通过拼接第一卷积特征信息，即可得到拼接后的第一卷积特征信息，即X4。

步骤110，在视频片段数维度上对片段特征信息进行卷积，得到第二特征信息。

其中，在视频片段数维度上进行卷积，可以将片段特征信息的线性扩张进行变化，将原本单纯的维度扩张替换为多个不同时序的扩张操作，从而将时序信息进行一些弥补，能提取到视频帧直接带有时序的特征。

具体的，服务器会在视频片段数维度上，根据多个预设卷积核，分别对片段特征信息进行卷积，得到与预设卷积核对应的第二卷积特征信息，再拼接第二卷积特征信息，对拼接后的第二卷积特征信息进行特征聚合，得到第二特征信息，通过在视频片段数维度上进行卷积操作，相当于基于视频片段数维度在连续视频帧之间建模，也就能够得到带有时序的第二卷积特征信息。其中，预设卷积核的大小和数量可以按照需要进行设置，比如，预设卷积核可以为核大小分别为1*1、1*3以及1*5的一维卷积。举例说明，当预设卷积核为核大小分别为1*1、1*3以及1*5的一维卷积时，在视频片段数维度上对片段特征信息进行卷积时，服务器会分别在每一个片段、每三个片段、每五个片段进行一次卷积，得到第二卷积特征信息。

步骤112，根据第一特征信息和第二特征信息，得到视频特征信息。

具体的，在得到第一特征信息和第二特征信息后，服务器会拼接第一特征信息和第二特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息。在得到拼接特征信息后，服务器会计算拼接特征信息中各通道对应的加权参数，利用加权参数对多通道特征信息进行更新，得到更新后的拼接特征信息，以根据更新后的拼接特征信息，得到视频特征信息。其中，计算拼接特征信息中各通道对应的加权参数是指通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

举例说明，服务器可以通过预先训练SENet(Squeeze-and-Excitation Networks)网络去计算拼接特征信息中各通道对应的加权参数，SENet网络的处理方式为：首先对卷积得到的特征图进行Squeeze(挤压)操作，得到channel(通道)级的全局特征，然后对全局特征进行Excitation(激发)操作，学习各个channel间的关系，也得到不同channel的权重，最后乘以原来的特征图得到最终特征。本实施例中，即对拼接特征信息进行Squeeze(挤压)操作，得到通道级的全局特征，然后对全局特征进行Excitation(激发)操作，学习各个通道间的关系，也得到拼接特征信息中各通道对应的加权参数，最后将加权参数乘以对应通道的特征信息，得到更新后的拼接特征信息。本质上，SENet模块是在channel维度上做attention(注意力)或者gating(门)操作，这种注意力机制让模型可以更加关注信息量最大的channel特征，而抑制那些不重要的channel特征。

上述视频特征提取方法，通过获取视频数据，对视频数据进行拆解，得到包括视频帧集合以及视频片段集合的拆分数据，对视频帧集合中视频帧进行帧特征提取，能够得到视觉特征信息，通过对视频片段集合中视频片段进行片段特征提取，能够得到片段特征信息，进而通过在视频帧个数维度上对视觉特征信息进行卷积，能够在连续视频帧之间建模，得到带有时序的第一特征信息，通过在视频片段数维度上对片段特征信息进行卷积，能够基于视频片段数维度在连续视频帧之间建模，得到带有时序的第二特征信息，从而可以根据带有时序的第一特征信息和第二特征信息，得到充分描述视频数据的特征的视频特征信息，能够提高视频数据识别率。

在一个实施例中，在视频帧个数维度上对视觉特征信息进行卷积，得到第一特征信息包括：

在视频帧个数维度上，根据多个预设卷积核，分别对视觉特征信息进行卷积，得到与预设卷积核对应的第一卷积特征信息；

拼接第一卷积特征信息，并对拼接后的第一卷积特征信息进行特征聚合，得到第一特征信息。

具体的，服务器会在视频帧个数维度上，根据多个预设卷积核，分别对视觉特征信息进行卷积，得到与预设卷积核对应的第一卷积特征信息，再拼接第一卷积特征信息，对拼接后的第一卷积特征信息进行特征聚类，利用特征聚类结果将拼接后的第一卷积特征信息转换为全局特征信息，即第一特征信息。其中，对拼接后的第一卷积特征信息进行特征聚类具体可以是指K-means聚类，通过利用K-means聚类可以得到与拼接后的第一卷积特征信息对应的K个聚类中心，从而可以利用K个聚类中心，计算拼接后的第一卷积特征信息在这K个聚类中心的差值分布，来将拼接后的第一卷积特征信息转换为全局特征信息，即第一特征信息。

举例说明，本实施例中，可以采用预先训练的NextVLAD(Next Vector of LocalAggregated Descriptors，下一个局部聚合描述符向量)网络对拼接后的第一卷积特征信息进行特征聚类，得到第一特征信息。NextVLAD网络是基于VLAD(Vector of LocalAggregated Descriptors，局部聚合描述符向量)网络的改进，VLAD网络是图像特征提取方法的一种，它的计算流程为：先对全部的N*D特征图进行K-means聚类，获得K个聚类中心，再利用公式，将N*D的局部特征图转为一个全局特征图V，全局特征图的尺寸为K*D。其中，公式如下：

其中，x_i表示第i个局部特征，c_k表示第k个聚类中心，x_i和c_k都是D维向量，a_k(x_i)是一个符号函数，如果x_i不属于聚类中心c_k，a_k(x_i)＝0；如果x_i属于聚类中心c_k，a_k(x_i)＝1。

NextVLAD网络对VLAD网络的改进在于a_k(x_i)不再是简单的符号函数，而是一个权重函数，使得x_i与c_k越接近，a_k(x_i)越接近1，反之越接近0，且增加了VLAD层的非线性参数，降低了VLAD网络的输出层参数，使得整体参数降低，此处的权重参数可按照需要自行设定，主要能满足条件即可，本实施例在此处不做具体限定。通过这样的改进，需要通过聚类获得的参数c_k变成了需要通过训练得到，这样就可以把VLAD变成了一个分类问题，通过设定有K个分类，对NextVLAD网络进行预先训练，就可以计算局部特征在这K个分类的差值来得到全局特征V(j,k)。

本实施例中，通过在视频帧个数维度上，根据多个预设卷积核，分别对视觉特征信息进行卷积，能够在连续视频帧之间建模，提取到视频帧直接带有时序的第一卷积特征信息，通过拼接第一卷积特征信息，并对拼接后的第一卷积特征信息进行特征聚合，得到第一特征信息，能够通过特征聚合实现对特征维度的转化。

在一个实施例中，在视频片段数维度上对片段特征信息进行卷积，得到第二特征信息包括：

在视频片段数维度上，根据多个预设卷积核，分别对片段特征信息进行卷积，得到与预设卷积核对应的第二卷积特征信息；

拼接第二卷积特征信息，并对拼接后的第二卷积特征信息进行特征聚合，得到第二特征信息。

具体的，服务器会在视频片段数维度上，根据多个预设卷积核，分别对片段特征信息进行卷积，得到与预设卷积核对应的第二卷积特征信息，再拼接第二卷积特征信息，对拼接后的第二卷积特征信息进行特征聚类，利用特征聚类结果将拼接后的第二卷积特征信息转换为全局特征信息，即第二特征信息。其中，对拼接后的第二卷积特征信息进行特征聚类具体可以是指K-means聚类，通过利用K-means聚类可以得到与拼接后的第二卷积特征信息对应的K个聚类中心，从而可以利用K个聚类中心，计算拼接后的第二卷积特征信息在这K个聚类中心的差值分布，来将拼接后的第二卷积特征信息转换为全局特征信息，即第二特征信息。举例说明，本实施例中，可以采用预先训练的NextVLAD网络对拼接后的第二卷积特征信息进行特征聚类，得到第二特征信息。

本实施例中，通过在视频片段数维度上，根据多个预设卷积核，分别对片段特征信息进行卷积，能够基于视频片段数维度在连续视频帧之间建模，提取到视频片段直接带有时序的第二卷积特征信息，通过拼接第二卷积特征信息，并对拼接后的第二卷积特征信息进行特征聚合，得到第二特征信息，能够通过特征聚合实现对特征维度的转化。

在一个实施例中，根据第一特征信息和第二特征信息，得到视频特征信息包括：

拼接第一特征信息和第二特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息；

确定拼接特征信息中各通道对应的加权参数；

根据加权参数，对多通道特征信息进行更新，得到更新后的拼接特征信息；

根据更新后的拼接特征信息，得到视频特征信息。

具体的，服务器会拼接第一特征信息和第二特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息。在得到拼接特征信息后，服务器会计算拼接特征信息中各通道对应的加权参数，利用加权参数对多通道特征信息进行更新，得到更新后的拼接特征信息，对更新后的拼接特征信息进行降维，得到视频特征信息。其中，计算拼接特征信息中各通道对应的加权参数是指通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。对更新后的拼接特征信息进行降维，得到视频特征信息可以通过全连接层实现，通过在更新后的拼接特征信息后接入预先训练的全连接层，可以利用全连接层对更新后的拼接特征信息进行分类，从而可以在得到分类结果前，将全连接层的倒数第二个隐藏层的特征作为视频特征信息。

本实施例中，通过拼接第一特征信息和第二特征信息，得到拼接特征信息，确定拼接特征信息中各通道对应的加权参数，能够利用加权参数，实现对拼接特征信息的更新，提升有用的特征并抑制用处不大的特征，以便根据更新后的拼接特征信息，得到视频特征信息。

在一个实施例中，拆分数据还包括音频片段集合；

视频特征提取方法还包括：

对音频片段集合中音频片段进行音频特征提取，得到音频特征信息；

在音频片段数维度上对音频特征信息进行卷积，得到第三特征信息；

根据第一特征信息和第二特征信息，得到视频特征信息包括：

拼接第一特征信息、第二特征信息和第三特征信息，得到视频特征信息。

其中，音频片段合集是指由对视频数据对应音频进行片段划分所得到的音频片段组成的集合，在对视频数据对应音频进行片段划分时，每个音频片段的时长可按照需要自行设置，比如，每个音频片段的时长可以为3秒，则每3秒截取一个音频片段。

具体的，在对视频数据进行拆解时，服务器会对视频数据进行转换，得到视频数据对应音频，对视频数据对应音频进行片段划分，得到音频片段集合，对音频片段集合中音频片段进行傅里叶变换，得到与音频片段对应的频谱图，再对频谱图进行特征提取，得到音频特征信息，在音频片段数维度上对音频特征信息进行卷积，得到第三特征信息。在得到第三特征信息后，服务器会拼接第一特征信息、第二特征信息和第三特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息。在得到拼接特征信息后，服务器会计算拼接特征信息中各通道对应的加权参数，利用加权参数对多通道特征信息进行更新，得到更新后的拼接特征信息，以根据更新后的拼接特征信息，得到视频特征信息。其中，计算拼接特征信息中各通道对应的加权参数是指通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。举例说明，服务器可以通过预先训练SENet网络去计算拼接特征信息中各通道对应的加权参数。

本实施例中，通过根据音频片段集合，得到第三特征信息，拼接第一特征信息、第二特征信息和第三特征信息，得到视频特征信息，能够同时结合音频以及视频帧来描述视频特征，能够得到更为全面的视频特征信息。

在一个实施例中，拆分数据还包括视频文本数据；

视频特征提取方法还包括：

对视频文本数据进行文本特征提取，得到第四特征信息；

拼接第一特征信息、第二特征信息和第四特征信息，得到视频特征信息。

其中，视频文本数据是指对视频数据进行抽帧得到视频帧后，对所得到的视频帧进行文本识别所得到的数据。

具体的，在对视频数据进行拆解时，在通过抽帧得到视频帧后，服务器会进一步对视频帧进行文本识别，以提取出与视频数据对应的视频文本数据，再对视频文本数据进行文本特征提取，得到第四特征信息，从而可以通过第一特征信息、第二特征信息和第四特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息。

具体的，在得到拼接特征信息后，服务器会计算拼接特征信息中各通道对应的加权参数，利用加权参数对多通道特征信息进行更新，得到更新后的拼接特征信息，以根据更新后的拼接特征信息，得到视频特征信息。其中，计算拼接特征信息中各通道对应的加权参数是指通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。举例说明，服务器可以通过预先训练SENet网络去计算拼接特征信息中各通道对应的加权参数。

本实施例中，通过对视频文本数据进行文本特征提取，得到第四特征信息，拼接第一特征信息、第二特征信息和第四特征信息，得到视频特征信息，能够同时结合视频文本数据以及视频帧来描述视频特征，能够得到更为全面的视频特征信息。

在一个实施例中，拆分数据还包括音频片段集合以及视频文本数据；

视频特征提取方法还包括：

对视频文本数据进行文本特征提取，得到第四特征信息；

拼接第一特征信息、第二特征信息、第三特征信息和第四特征信息，得到视频特征信息。

具体的，拆分数据还包括音频片段合集以及视频文本数据，服务器会根据音频片段集合，得到第三特征信息，并根据视频文本数据进行文本特征提取，得到第四特征信息，拼接第一特征信息、第二特征信息、第三特征信息和第四特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息。在得到拼接特征信息后，服务器会计算拼接特征信息中各通道对应的加权参数，利用加权参数对多通道特征信息进行更新，得到更新后的拼接特征信息，通过对更新后的拼接特征信息进行降维，得到视频特征信息。其中，计算拼接特征信息中各通道对应的加权参数是指通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。举例说明，服务器可以通过预先训练SENet网络去计算拼接特征信息中各通道对应的加权参数。

本实施例中，通过同时结合音频、视频帧以及视频文本数据来描述视频特征，能够得到更为全面的视频特征信息。

在一个实施例中，在音频片段数维度上对音频特征信息进行卷积，得到第三特征信息包括：

在音频片段数维度上，根据多个预设卷积核，分别对音频特征信息进行卷积，得到与预设卷积核对应的第三卷积特征信息；

拼接第三卷积特征信息，并对拼接后的第三卷积特征信息进行特征聚合，得到第三特征信息。

具体的，服务器会在音频片段数维度上，根据多个预设卷积层，分别对音频特征信息进行卷积，得到与预设卷积核对应的第三卷积特征信息，再拼接第三卷积特征信息，对拼接后的第三卷积特征信息进行特征聚合，得到第三特征信息。其中，根据多个预设卷积，分别对音频特征信息进行卷积，得到与预设卷积核对应的第三卷积特征信息的方式与上述实施例中根据多个预设卷积，分别对片段特征信息进行卷积，得到与预设卷积核对应的第二卷积特征信息的方式相似，本实施例在此处不再撰述。对拼接后的第三卷积特征信息进行特征聚合，得到第三特征信息的方式与上述实施例中对拼接后的第二卷积特征信息进行特征聚合，得到第二特征信息的方式相似，本实施例在此处不再撰述。其中，对频谱图进行特征提取，得到音频特征信息可以采用预先训练的MusiCNN(用于音乐音频标记的预先训练的音乐激励卷积神经网络)网络实现，在预先训练MusiCNN网络后，提取MusiCNN网络的倒数第一层的全连接层可得到音频特征信息。

本实施例中，通过在音频片段数维度上，根据多个预设卷积核，分别对音频特征信息进行卷积，能够基于音频片段在连续视频帧之间建模，提取到音频片段直接带有时序的第三卷积特征信息，通过拼接第三卷积特征信息，并对拼接后的第三卷积特征信息进行特征聚合，得到第三特征信息，能够通过特征聚合实现对特征维度的转化。

在一个实施例中，对视频文本数据进行文本特征提取，得到第四特征信息包括：

提取视频文本数据中每段文本数据的文本特征；

对文本特征进行特征维度转换，得到第四特征信息。

具体的，服务器会先对视频文本数据中每段文本数据进行特征提取，提取视频文本数据中每段文本数据的文本特征，再对文本特征进行特征维度转换，将文本特征转换为特定维度的文本特征，即第四特征信息。

具体的，服务器可以先利用预先训练的BERT(Bidirectional EncoderRepresentation from Transformers，双向Transformer的Encoder)网络提取视频文本数据中每段文本数据的特征，再利用预先训练的TextCNN(TextConvolutional NeuralNetworks，文本卷积神经网络)网络将所提取到的每段文本数据的特征转换为特定维度的文本特征，即第四特征信息。其中的特定维度可按照需要自行设置，比如，特定维度可以为与第一特征信息和第二特征信息的单特征类别的特征维度一致。

其中，BERT网络是一个预训练的语言表征模型，它利用MLM(masked languagemodel，掩码语言模型)进行预训练并且采用深层的双向Transformer组件来构建整个模型，可以生成能够融合左右上下文信息的深层双向语言表征。本实施例中，在利用预先训练的BERT网络提取视频文本数据中每段文本数据的特征时，主要是提取BERT网络的倒数第一层作为每段文本数据的特征。TextCNN网络包括嵌入层、卷积层、最大池化层以及全连接层，其中的嵌入层用于对输入数据进行编码，得到输入数据的嵌入表示，卷积层用于基于嵌入表示提取输入数据的特征，最大池化层用于对卷积后所提取出的特征取最大值，然后拼接在一起作为输出，全连接用于基于最大池化层的输出特征，得到最后的输出结果，即第四特征信息。

举例说明，如图5所示，为根据视频文本数据进行文本特征提取，得到第四特征信息的示意图，其中，假定特定维度为1*768维。服务器在通过抽帧得到视频帧后，会进一步对视频帧进行文本识别，以提取出与视频数据对应的视频文本数据，再先利用预先训练的BERT网络提取视频文本数据中每段文本数据的特征，再利用预先训练的TextCNN网络将所提取到的每段文本数据的特征转换为特定维度的文本特征。

本实施例中，通过先提取视频文本数据中每段文本数据的文本特征，再对文本特征进行特征维度转换，能够实现对与视频文本数据对应的第四特征信息的获取。

在一个实施例中，本申请中的视频特征提取方法，可基于预先训练的视频分类模型实现，该视频分类模型以携带视频类别标注的样本视频数据为训练样本，通过对训练样本进行训练，可得到预先训练的视频分类模型。如图6所示，在该视频分类模型中包括ViT网络、TSM网络、NetVLAD+模块、MusiCNN网络、BERT网络、TextCNN网络、SENet网络以及全连接层。其中，ViT网络用于对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，TSM网络用于对视频片段集合中视频片段进行片段特征提取，得到片段特征信息，MusiCNN网络用于对根据音频片段集合中音频片段得到的频谱图进行特征提取，得到音频特征信息，BERT网络和TextCNN网络用于对视频文本数据进行文本特征提取，得到第四特征信息，NetVLAD+模块接在ViT网络、TSM网络以及MusiCNN网络后，用于对输出的视觉特征信息、片段特征信息以及音频特征信息进行卷积和特征聚合，得到对应的第一特征信息、第二特征信息以及第三特征信息。SENet网络用于对拼接特征信息(拼接第一特征信息、第二特征信息、第三特征信息以及第四特征信息后得到)进行学习，确定拼接特征信息中各通道对应的加权参数，利用加权参数对拼接特征信息进行更新。全连接层用于对更新后的拼接特征信息进行分类，以得到视频分类结果，通过比对视频分类结果和样本视频数据携带的视频类别标注，即可实现对视频分类模型的训练。需要说明的是，全连接层的倒数第二个隐藏层的特征即可作为视频特征信息，因此，在预先训练完成视频分类模型后，服务器将视频数据输入预先训练的视频分类模型后，提取全连接层的倒数第二个隐藏层的特征，即可得到视频数据对应的视频特征信息。

进一步的，第一特征信息、第二特征信息以及第三特征信息的特征维度是相同的，第四特征信息的特征维度与第一特征信息、第二特征信息以及第三特征信息的单特征类别的特征维度一致。通过上述ViT网络、TSM网络、NetVLAD+模块、MusiCNN网络、BERT网络、TextCNN网络以及NetVLAD+模块得到对应特征信息的过程可以如图7所示，此处假设视频数据包括M帧视频帧。

针对视频帧提取特征，服务器会先对视频数据进行抽帧，得到视频帧集合(包括M帧视频帧)，接着再用ViT网络对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息(M*D维度，其中D为单帧视觉特征信息对应的特征维度)，在ViT网络后接上NetVLAD+模块，将视觉特征信息从M*D维度转换为固定的K*D维度。

同时，服务器会对视频数据进行划分，得到视频片段集合，假设以每8秒视频数据作为一个视频片段，则可以得到M/8个视频片段，服务器会利用TSM网络对视频片段进行片段特征提取，得到片段特征信息((M/8)*D维度，其中D为单个视频片段对应的特征维度)，在TSM网络后接上NetVLAD+模块，将片段特征信息转换为固定的K*D维度。

针对音频帧提取特征，服务器会对视频数据进行转换，得到视频数据对应音频数据，对音频数据进行划分，得到音频片段集合，假设以每3秒音频数据作为一个音频片段，则可以得到M/3个音频片段，服务器会先通过傅里叶变换将音频片段转换为对应的频谱图，再利用MusiCNN网络对频谱图进行特征提取，得到音频特征信息，在MusiCNN网络后接上NetVLAD+模块，将音频特征信息转换为固定的K*D维度。

对于视频数据内文本，服务器会利用文本识别从视频数据中提取出视频文本数据(假设包括M段文字)，再使用BERT网络提取视频文本数据中每段文本数据的特征(M*D维度，其中D为单段文本数据的特征维度)，使用TextCNN网络将每段文本数据的特征转换为特定维度(D维)的第四特征信息。

采用本申请的视频特征提取方法所提取到的视频特征信息，可以应用于视频分类，能够提高视频数据的标签和分类的准确率，尤其是对于一些与时间相关的标签提升明显，从而可以提升视频内容推荐等工作的指标，实现精准视频内容推荐。举例说明，在针对舞蹈动作类的视频数据进行分类时，采用本申请的视频特征提取方法所提取到的视频特征信息，由于包含时序特征，能够更好的识别出舞蹈种类，而无时序的特征识别率会较低。

在一个实施例中，如图8所示，通过一个流程示意图来说明本申请的视频特征提取方法，该视频特征提取方法具体包括以下步骤：

步骤802，获取视频数据；

步骤804，对视频数据进行拆解，得到与视频数据对应的拆分数据，拆分数据包括视频帧集合、视频片段集合、音频片段集合以及视频文本数据；

步骤806，对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对视频片段集合中视频片段进行片段特征提取，得到片段特征信息；

步骤808，在视频帧个数维度上，根据多个预设卷积核，分别对视觉特征信息进行卷积，得到与预设卷积核对应的第一卷积特征信息；

步骤810，拼接第一卷积特征信息，并对拼接后的第一卷积特征信息进行特征聚合，得到第一特征信息；

步骤812，在视频片段数维度上，根据多个预设卷积核，分别对片段特征信息进行卷积，得到与预设卷积核对应的第二卷积特征信息；

步骤814，拼接第二卷积特征信息，并对拼接后的第二卷积特征信息进行特征聚合，得到第二特征信息；

步骤816，对音频片段集合中音频片段进行音频特征提取，得到音频特征信息；

步骤818，在音频片段数维度上，根据多个预设卷积核，分别对音频特征信息进行卷积，得到与预设卷积核对应的第三卷积特征信息；

步骤820，拼接第三卷积特征信息，并对拼接后的第三卷积特征信息进行特征聚合，得到第三特征信息；

步骤822，对视频文本数据进行文本特征提取，得到第四特征信息；

步骤824，拼接第一特征信息、第二特征信息、第三特征信息和第四特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息；

步骤826，确定拼接特征信息中各通道对应的加权参数；

步骤828，根据加权参数，对多通道特征信息进行更新，得到更新后的拼接特征信息；

步骤830，根据更新后的拼接特征信息，得到视频特征信息。

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种视频特征提取装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块902、拆解模块904、特征提取模块906、第一卷积模块908、第二卷积模块910和处理模块912，其中：

获取模块902，用于获取视频数据；

拆解模块904，用于对视频数据进行拆解，得到与视频数据对应的拆分数据，拆分数据包括视频帧集合以及视频片段集合；

特征提取模块906，用于对视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对视频片段集合中视频片段进行片段特征提取，得到片段特征信息；

第一卷积模块908，用于在视频帧个数维度上对视觉特征信息进行卷积，得到第一特征信息；

第二卷积模块910，用于在视频片段数维度上对片段特征信息进行卷积，得到第二特征信息；

处理模块912，用于根据第一特征信息和第二特征信息，得到视频特征信息。

上述视频特征提取装置，通过获取视频数据，对视频数据进行拆解，得到包括视频帧集合以及视频片段集合的拆分数据，对视频帧集合中视频帧进行帧特征提取，能够得到视觉特征信息，通过对视频片段集合中视频片段进行片段特征提取，能够得到片段特征信息，进而通过在视频帧个数维度上对视觉特征信息进行卷积，能够在连续视频帧之间建模，得到带有时序的第一特征信息，通过在视频片段数维度上对片段特征信息进行卷积，能够基于视频片段数维度在连续视频帧之间建模，得到带有时序的第二特征信息，从而可以根据带有时序的第一特征信息和第二特征信息，得到充分描述视频数据的特征的视频特征信息，能够提高视频数据识别率。

在一个实施例中，第一卷积模块还用于在视频帧个数维度上，根据多个预设卷积核，分别对视觉特征信息进行卷积，得到与预设卷积核对应的第一卷积特征信息，拼接第一卷积特征信息，并对拼接后的第一卷积特征信息进行特征聚合，得到第一特征信息。

在一个实施例中，第二卷积模块还用于在视频片段数维度上，根据多个预设卷积核，分别对片段特征信息进行卷积，得到与预设卷积核对应的第二卷积特征信息，拼接第二卷积特征信息，并对拼接后的第二卷积特征信息进行特征聚合，得到第二特征信息。

在一个实施例中，处理模块还用于拼接第一特征信息和第二特征信息，得到拼接特征信息，拼接特征信息包括多通道特征信息，确定拼接特征信息中各通道对应的加权参数，根据加权参数，对多通道特征信息进行更新，得到更新后的拼接特征信息，根据更新后的拼接特征信息，得到视频特征信息。

在一个实施例中，拆分数据还包括音频片段集合；特征提取模块还用于对音频片段集合中音频片段进行音频特征提取，得到音频特征信息，在音频片段数维度上对音频特征信息进行卷积，得到第三特征信息；处理模块还用于拼接第一特征信息、第二特征信息和第三特征信息，得到视频特征信息。

在一个实施例中，拆分数据还包括视频文本数据；特征提取模块还用于对视频文本数据进行文本特征提取，得到第四特征信息；处理模块还用于拼接第一特征信息、第二特征信息和第四特征信息，得到视频特征信息。

在一个实施例中，拆分数据还包括音频片段集合以及视频文本数据；特征提取模块还用于对音频片段集合中音频片段进行音频特征提取，得到音频特征信息，在音频片段数维度上对音频特征信息进行卷积，得到第三特征信息，对视频文本数据进行文本特征提取，得到第四特征信息；处理模块还用于拼接第一特征信息、第二特征信息、第三特征信息和第四特征信息，得到视频特征信息。

在一个实施例中，特征提取模块还用于在音频片段数维度上，根据多个预设卷积核，分别对音频特征信息进行卷积，得到与预设卷积核对应的第三卷积特征信息，拼接第三卷积特征信息，并对拼接后的第三卷积特征信息进行特征聚合，得到第三特征信息。

在一个实施例中，特征提取模块还用于提取视频文本数据中每段文本数据的文本特征，对文本特征进行特征维度转换，得到第四特征信息。

关于视频特征提取装置的具体限定可以参见上文中对于视频特征提取方法的限定，在此不再赘述。上述视频特征提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频特征信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频特征提取方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频特征提取方法，其特征在于，所述方法包括：

获取视频数据；

对所述视频数据进行拆解，得到与所述视频数据对应的拆分数据，所述拆分数据包括视频帧集合以及视频片段集合；

对所述视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对所述视频片段集合中视频片段进行片段特征提取，得到片段特征信息；

在视频帧个数维度上对所述视觉特征信息进行卷积，得到第一特征信息；

在视频片段数维度上对所述片段特征信息进行卷积，得到第二特征信息；

根据所述第一特征信息和所述第二特征信息，得到视频特征信息。

2.根据权利要求1所述的方法，其特征在于，所述在视频帧个数维度上对所述视觉特征信息进行卷积，得到第一特征信息包括：

在视频帧个数维度上，根据多个预设卷积核，分别对所述视觉特征信息进行卷积，得到与所述预设卷积核对应的第一卷积特征信息；

拼接所述第一卷积特征信息，并对拼接后的第一卷积特征信息进行特征聚合，得到第一特征信息。

3.根据权利要求1所述的方法，其特征在于，所述在视频片段数维度上对所述片段特征信息进行卷积，得到第二特征信息包括：

在视频片段数维度上，根据多个预设卷积核，分别对所述片段特征信息进行卷积，得到与所述预设卷积核对应的第二卷积特征信息；

拼接所述第二卷积特征信息，并对拼接后的第二卷积特征信息进行特征聚合，得到第二特征信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征信息和所述第二特征信息，得到视频特征信息包括：

拼接所述第一特征信息和所述第二特征信息，得到拼接特征信息，所述拼接特征信息包括多通道特征信息；

确定所述拼接特征信息中各通道对应的加权参数；

根据所述加权参数，对所述多通道特征信息进行更新，得到更新后的拼接特征信息；

根据更新后的拼接特征信息，得到视频特征信息。

5.根据权利要求1所述的方法，其特征在于，所述拆分数据还包括音频片段集合以及视频文本数据；

所述视频特征提取方法还包括：

对所述音频片段集合中音频片段进行音频特征提取，得到音频特征信息；

在音频片段数维度上对所述音频特征信息进行卷积，得到第三特征信息；

对所述视频文本数据进行文本特征提取，得到第四特征信息；

所述根据所述第一特征信息和所述第二特征信息，得到视频特征信息包括：

拼接所述第一特征信息、所述第二特征信息、所述第三特征信息和所述第四特征信息，得到视频特征信息。

6.根据权利要求5所述的方法，其特征在于，所述在音频片段数维度上对所述音频特征信息进行卷积，得到第三特征信息包括：

在音频片段数维度上，根据多个预设卷积核，分别对所述音频特征信息进行卷积，得到与预设卷积核对应的第三卷积特征信息；

拼接所述第三卷积特征信息，并对拼接后的第三卷积特征信息进行特征聚合，得到第三特征信息。

7.根据权利要求5所述的方法，其特征在于，所述对所述视频文本数据进行文本特征提取，得到第四特征信息包括：

提取所述视频文本数据中每段文本数据的文本特征；

对所述文本特征进行特征维度转换，得到第四特征信息。

8.一种视频特征提取装置，其特征在于，所述装置包括：

获取模块，用于获取视频数据；

拆解模块，用于对所述视频数据进行拆解，得到与所述视频数据对应的拆分数据，所述拆分数据包括视频帧集合以及视频片段集合；

特征提取模块，用于对所述视频帧集合中视频帧进行帧特征提取，得到视觉特征信息，并对所述视频片段集合中视频片段进行片段特征提取，得到片段特征信息；

第一卷积模块，用于在视频帧个数维度上对所述视觉特征信息进行卷积，得到第一特征信息；

第二卷积模块，用于在视频片段数维度上对所述片段特征信息进行卷积，得到第二特征信息；

处理模块，用于根据所述第一特征信息和所述第二特征信息，得到视频特征信息。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。