CN116630868A

CN116630868A - 视频分类方法、视频分类装置、介质及电子设备

Info

Publication number: CN116630868A
Application number: CN202310920394.1A
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-22
Anticipated expiration: 2043-07-26
Also published as: CN116630868B

Abstract

本申请提供一种视频分类方法、视频分类装置、介质及电子设备。所述视频分类方法包括：获取待分类视频；将所述待分类视频输入神经网络模型进行转换处理，获取所述待分类视频转换后的图像；通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征。通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。所述视频分类方法能够增强视频分类的识别效果，即提高视频分类精度。

Description

视频分类方法、视频分类装置、介质及电子设备

技术领域

本申请属于视频处理领域，涉及一种视频分类方法，特别是涉及一种视频分类方法、视频分类装置、介质及电子设备。

背景技术

随着互联网和移动设备的高速发展，视频的浏览、推荐、编辑等需求也与日俱增，视频分类作为基础的能力之一，目前也有了较为广泛的研究和应用。

目前的视频分类方法，一般是将视频输入到神经网络中，由三维的卷积神经网络对视频进行分类，这种将视频作为单一信息的视频分类方法，在分类效果上并不理想。因此目前的视频分类方法存在视频分类精度不高的问题。

发明内容

本申请的目的在于提供一种视频分类方法、视频分类装置、介质及电子设备，用于解决目前的视频分类方法存在的视频分类精度不高的问题。

第一方面，本申请提供一种视频分类方法，所述视频分类方法包括：获取待分类视频；将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，并通过所述神经网络模型对所述图像进行处理获取所述图像的特征，所述神经网络模型包括填充模块、第一卷积模块和全连接模块，将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，并通过所述神经网络模型对所述图像进行处理获取所述图像的特征的实现方法包括：通过所述填充模块对所述待分类视频进行填充处理获取所述图像；通过所述第一卷积模块对所述图像进行特征抽取处理，获取所述图像的第一顶点特征；通过所述全连接模块对所述第一顶点特征和邻接矩阵进行处理获取第二顶点特征和边特征；通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征；通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。

在所述视频分类方法中，通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征，并通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果，相当于将图像的特征与所述待分类视频的特征交互，并基于此实现视频分类。相比于将视频作为单一信息的视频分类方法，所述视频分类方法能够增强视频分类的识别效果，即提高视频分类精度。

于本申请的一实施例中，所述图像的特征包括所述第二顶点特征和所述边特征，所述神经网络模型还包括若干个第一自注意力模型中的第一编码模块和第二卷积模块，通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征的实现方法包括：通过堆叠的所述第一编码模块对第一视频特征进行处理，以获取第二视频特征，所述第一视频特征由所述第二卷积模块对所述图像进行特征抽取处理获取，所述待分类视频的特征为所述第一视频特征；通过所述神经网络模型对所述第二顶点特征、所述边特征和所述第二视频特征进行第一特征融合处理获取所述融合特征。

于本申请的一实施例中，所述神经网络模型还包括若干个第一交叉注意力网络，通过所述神经网络模型对所述第二顶点特征、所述边特征和所述第二视频特征进行第一特征融合处理获取所述融合特征的实现方法包括：通过堆叠的所述第一交叉注意力网络对所述第二顶点特征、所述边特征和所述第二视频特征进行前期特征融合，获取前期融合特征；通过所述神经网络模型对所述第二顶点特征、所述第二视频特征和所述前期融合特征进行第二特征融合处理获取所述融合特征。

于本申请的一实施例中，所述神经网络模型还包括第二编码模块、第三编码模块、第四编码模块和第二交叉注意力网络，通过所述神经网络模型对所述第二顶点特征、所述第二视频特征和所述前期融合特征进行第二特征融合处理获取所述融合特征的实现方法包括：通过所述第二编码模块对所述第二顶点特征进行处理获取第一键向量；通过所述第三编码模块对所述前期融合特征进行处理获取第一查询向量；通过所述第四编码模块对所述第二视频特征进行处理获取第一值向量；通过所述第二交叉注意力网络对所述第一键向量、所述第一查询向量和所述第一值向量进行第一后期特征融合获取第二值向量；通过所述神经网络模型对所述第二值向量、所述第一键向量和所述第一值向量进行第三特征融合处理获取所述融合特征。

于本申请的一实施例中，所述神经网络模型还包括第五编码模块、第六编码模块、第三交叉注意力网络和第四交叉注意力网络，通过所述神经网络模型对所述第二值向量、所述第一键向量和所述第一值向量进行第三特征融合处理获取所述融合特征的实现方法包括：通过所述第五编码模块对所述第一键向量进行处理获取第二查询向量和第三值向量；通过所述第六编码模块对所述第一值向量进行处理获取第二键向量、第三查询向量和视频特征；通过所述第三交叉注意力网络对所述第二查询向量、第二值向量和所述第二键向量进行第二后期特征融合获取第三键向量；通过所述第四交叉注意力网络对所述第三查询向量、所述第三值向量和所述第三键向量进行第三后期特征融合获取所述融合特征。

于本申请的一实施例中，通过所述神经网络模型对所述融合特征和所述视频特征进行处理获取所述融合特征的分类概率和所述视频特征的分类概率；对所述融合特征的分类概率和所述视频特征的分类概率进行加权处理获取所述视频分类结果。

第二方面，本申请提供一种视频分类装置，所述视频分类装置包括：视频获取模块，用于获取待分类视频；视频转换模块，用于将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，所述神经网络模型包括填充模块、第一卷积模块和全连接模块，将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像包括：通过所述填充模块对所述待分类视频进行填充处理获取所述图像；图像处理模块，用于通过所述神经网络模型对所述图像进行处理获取所述图像的特征，通过所述神经网络模型对所述图像进行处理获取所述图像的特征包括：通过所述第一卷积模块对所述图像进行特征抽取处理，获取所述图像的第一顶点特征；通过所述全连接模块对所述第一顶点特征和邻接矩阵进行处理获取第二顶点特征和边特征；融合处理模块，用于通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征；视频分类模块，用于通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。

第三方面，本申请提供一种计算机可读存储介质，其上存储有一计算机程序，该计算机程序被处理器执行时实现本申请第一方面任一项所述视频分类方法。

第四方面，本申请提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本申请第一方面任一项所述视频分类方法。

如上所述，本申请所述视频分类方法、视频分类装置、介质及电子设备，具有以下有益效果：

附图说明

图1显示为本申请实施例运行所述视频分类方法的硬件结构示意图。

图2显示为本申请实施例所述视频分类方法的流程图。

图3显示为本申请实施例将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，并通过所述神经网络模型对所述图像进行处理获取所述图像的特征的实现方法流程图。

图4显示为本申请实施例通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征的实现方法流程图。

图5显示为本申请实施例通过所述神经网络模型对所述第二顶点特征、所述边特征和所述第二视频特征进行第一特征融合处理获取所述融合特征的实现方法的流程图。

图6显示为本申请实施例通过所述神经网络模型对所述第二顶点特征、所述第二视频特征和所述前期融合特征进行第二特征融合处理获取所述融合特征的实现方法的流程图。

图7显示为本申请实施例通过所述神经网络模型对所述第二值向量、所述第一键向量和所述第一值向量进行第三特征融合处理获取所述融合特征的实现方法的流程图。

图8显示为本申请实施例通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果的实现方法的流程图。

图9显示为本申请实施例所述视频分类方法的流程图。

图10显示为本申请实施例所述视频分类装置的结构示意图。

元件标号说明：10 电子设备，110 存储器， 120 处理器，1210 中央处理器， 1220神经网络处理器， 12210 神经网络实施引擎， 12220 专用硬件电路， 122210 矩阵计算单元， 122220 矢量计算单元， 1000 视频分类装置， 1010 视频获取模块， 1020 视频转换模块， 1030 图像处理模块， 1040 融合处理模块， 1050 视频分类模块， S11-S14 步骤，S21-S23 步骤， S31-S32 步骤， S41-S42 步骤， S51-S55 步骤， S61-S64 步骤， S71-S72步骤。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细描述。

本申请实施例所提供的视频分类方法可以在计算机电子设备中运行。以图1为例，图1为所述视频分类方法的电子设备的硬件结构框图。电子设备10包括存储器110和处理器120，所述处理器120可以为中央处理器1210或专用的神经网络处理器1220，所述神经网络处理器1220包括神经网络实施引擎12210和专用硬件电路12220，所述专用硬件电路12220包括矩阵计算单元122210和矢量计算单元122220。

可选地，所述神经网络处理器12220是使用专用硬件电路12220执行神经网络计算的处理器，所述专用硬件电路12220是用于执行神经网络计算的集成电路并且包括硬件执行矢量-矩阵乘法的矩阵计算单元122210和矢量计算单元122220。

可选地，所述神经网络实施引擎12210用于生成指令，供所述专用硬件电路12220执行，指令由所述专用硬件电路12220执行时，使所述专用硬件电路12220执行由神经网络指定的运算以从接收到的神经网络输入生成神经网络输出。

如图2所示，本实施例了提供一种视频分类方法，所述视频分类方法可以通过计算机设备的处理器实现，所述视频分类方法包括：

S11，获取待分类视频。

可选地，所述待分类视频是指还未被分类的视频，通常是指视频数据集中的一部分，这些视频还没有被标记或分类。待分类视频可能来自不同的来源，例如网络摄像头、电视广播、社交媒体等。待分类视频可能包含各种类型的内容，例如电影、电视节目、新闻、体育赛事、广告等。

S12，将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，并通过所述神经网络模型对所述图像进行处理获取所述图像的特征。所述神经网络模型包括填充模块、第一卷积模块和全连接模块，如图3所示，将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，并通过所述神经网络模型对所述图像进行处理获取所述图像的特征的实现方法包括：S21，通过所述填充模块对所述待分类视频进行填充处理获取所述图像；S22，通过所述第一卷积模块对所述图像进行特征抽取处理，获取所述图像的第一顶点特征；S23，通过所述全连接模块对所述第一顶点特征和邻接矩阵进行处理获取第二顶点特征和边特征。

可选地，所述填充模块用于将所述待分类视频填充到固定长度，所述填充处理可以为将所述待分类视频按照所述固定长度进行扩展或截断，例如所述待分类视频经过所述填充处理后共五秒，固定分辨率为224*224，所述图像可以为每秒的帧图像，所述图像可以为单通道灰度图。

可选地，所述第一卷积模块用于对所述图像进行二维卷积操作，所述第一顶点特征即可以为所述第一卷积模块抽取的图像特征，所述第一顶点特征通常涉及到所述图像的边缘和角点等区域。所述第一卷积模块可以包括512个卷积核，所述第一顶点特征可以为所述第一卷积模块抽取的长度为512的向量。

可选地，所述第二顶点特征可以和所述第一顶点特征相同也可以不同，可根据实际情况而定。

可选地，所述邻接矩阵的行数和列数可以由所述图像数量决定，所述邻接矩阵的行数和所述邻接矩阵的列数可以相同，可以通过所述邻接矩阵的值表示所述图像之间的邻居关系，所述邻接矩阵的行数和列数可以用于表示所述图像的个数，所述邻接矩阵的第i行表示第i个所述图像，所述邻接矩阵的第j列表示第j个所述图像，当所述邻接矩阵的第i行第j列的值为1时，则表示第j张所述图像为第i张图像的邻居。所述邻接矩阵可以表示为：

在S中，的值为1，其它元素值均为0。/>表示S邻接矩阵中第i行第i+1列的值，i可以表示为0到所述邻接矩阵的行数之间的值。

例如所述图像的数量为5，则所述邻接矩阵为5×5的矩阵可以表示为：

可选地，所述全连接模块用于对所述第一顶点特征和所述邻接矩阵进行组合和转换，并输出所述第二顶点特征和所述边特征。所述第二顶点特征和所述边特征与所述第一顶点特征的长度相同，例如所述第一顶点特征为512维的向量，所述第二顶点特征和所述边特征也为512维的向量。

可选地，所述转换处理可以指的是对所述待分类视频的一种分解处理，用于将所述待分类视频分解为帧图像，所述帧图像即可以为所述图像。

可选地，所述图像的特征可以指的是从所述图像中提取的代表图像内容的特征。

S13，通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征。

可选地，所述特征融合处理可以指的是将所述待分类视频的特征和所述图像的特征进行整合和融合，所述融合特征即为所述待分类视频的特征和所述图像的特征整合和融合后的特征。

可选地，所述神经网络模型为训练好的神经网络模型，关于所述神经网络模型的训练过程此处不再赘述。

S14，通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。

可选地，所述待分类视频的特征可以指的是从所述待分类视频中提取的代表视频内容的特征。

根据以上描述可知，本实施例所述视频分类方法包括：获取待分类视频；将所述待分类视频输入神经网络模型进行转换处理，获取所述待分类视频转换后的图像；通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征；通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。

所述图像的特征包括所述第二顶点特征和所述边特征，所述神经网络模型还包括若干个自注意力模型中的第一编码模块和第二卷积模块，如图4所示，本实施例提供一种通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征的实现方法，包括：

S31，通过堆叠的所述第一编码模块对所述第一视频特征进行处理，以获取第二视频特征，所述第一视频特征由所述第二卷积模块对所述图像进行特征抽取处理获取，所述待分类视频的特征为所述第一视频特征。

可选地，所述第二卷积模块也用于对所述图像进行二维卷积操作，所述第二卷积模块和所述第一卷积模块的区别仅在于具体结构或参数可能不同。所述第一视频特征即可以为所述第二卷积模块抽取的图像特征，同样所述第一视频特征也可以为所述第二卷积模块抽取的长度为512的向量。

可选地，所述自注意力模型可以为Transformer模型，所述第一编码模块可以为Transformer模型中的编码模块，在所述堆叠的所述第一编码模块中，所述第一编码模块的个数本实施例不明确限制，所述第一编码模块的具体结构或参数可以不同。所述第二视频特征为所述堆叠的所述第一编码模块对所述第一视频特征进行特征提取和特征编码后输出的特征。所述堆叠的所述第一编码模块即为多个串联组成的第一编码模块。

S32，通过所述神经网络模型对所述第二顶点特征、所述边特征和所述第二视频特征进行第一特征融合处理获取所述融合特征。

可选地，所述第一特征融合处理可以指的是将所述第二顶点特征、所述边特征和所述第二视频特征合并为一个特征向量的过程，该特征向量即为所述融合特征。

所述神经网络模型还包括若干个第一交叉注意力网络，如图5所示，本实施例提供一种通过所述神经网络模型对所述第二顶点特征、所述边特征和所述第二视频特征进行第一特征融合处理获取所述融合特征的实现方法，包括：

S41，通过堆叠的所述第一交叉注意力网络对所述第二顶点特征、所述边特征和所述第二视频特征进行前期特征融合，获取前期融合特征。

可选地，交叉注意力网络中的交叉注意力层可以用于对所述第二顶点特征、所述边特征和所述第二视频特征之间的交互信息建模，从而实现特征融合，所述前期融合特征即可以为所述第一交叉注意力网络对所述第二顶点特征、所述边特征和所述第二视频特征进行特征融合后输出的特征。由于本实施例还可以通过多个不同的交叉注意力网络实现多次特征融合，因此所述前期特征融合可以指的是通过所述第一交叉注意力网络实现的特征融合。另外，所述第一交叉注意力网络的结构或参数可以不同，所述堆叠的所述第一交叉注意力网络的个数可以根据实际情况灵活设置，本实施例在此并不做明确限定。

S42，通过所述神经网络模型对所述第二顶点特征、所述第二视频特征和所述前期融合特征进行第二特征融合处理获取所述融合特征。

可选地，所述第二特征融合处理可以指的是将所述第二顶点特征、所述第二视频特征和所述前期融合特征合并为一个特征向量的过程，该特征向量即为所述融合特征。

所述神经网络模型还包括第二编码模块、第三编码模块、第四编码模块和第二交叉注意力网络，如图6所示，本实施例提供一种通过所述神经网络模型对所述第二顶点特征、所述第二视频特征和所述前期融合特征进行第二特征融合处理获取所述融合特征的实现方法，包括：

S51，通过所述第二编码模块对所述第二顶点特征进行处理获取第一键向量。

可选地，键向量是用于在交叉注意力网络中计算注意力权重的向量，所述第一键向量可以为所述第二编码模块对所述第二顶点特征处理后输出的向量。

S52，通过所述第三编码模块对所述前期融合特征进行处理获取第一查询向量。

可选地，查询向量也是用于在交叉注意力网络中计算注意力权重的向量，所述第一查询向量可以为所述第三编码模块对所述前期融合特征处理后输出的向量。

S53，通过所述第四编码模块对所述第二视频特征进行处理获取第一值向量。

可选地，值向量是用于在交叉注意力网络中计算注意力权重后，根据注意力权重加权求和得到的向量。所述第一值向量可以为所述第四编码模块对所述第二视频特征处理后输出的向量。

S54，通过所述第二交叉注意力网络对所述第一键向量、所述第一查询向量和所述第一值向量进行第一后期特征融合获取第二值向量。

可选地，所述第二值向量可以为所述第二交叉注意力网络对所述第一键向量、所述第一查询向量和所述第一值向量进行特征融合输出的向量。为将不同的交叉注意力网络进行特征融合的过程进行区分，所述第一交叉注意力网络进行特征融合的过程为前期特征融合，非第一交叉注意力网络进行特征融合的过程为后期特征融合。

S55，通过所述神经网络模型对所述第二值向量、所述第一键向量和所述第一值向量进行第三特征融合处理获取所述融合特征。

可选地，所述第三特征融合处理可以指的是将所述第二值向量、所述第一键向量和所述第一值向量合并为一个特征向量的过程，该特征向量即为所述融合特征。

所述神经网络模型还包括第五编码模块、第六编码模块、第三交叉注意力网络和第四交叉注意力网络，如图7所示，本实施例提供一种通过所述神经网络模型对所述第二值向量、所述第一键向量和所述第一值向量进行第三特征融合处理获取所述融合特征的实现方法，包括：

S61，通过所述第五编码模块对所述第一键向量进行处理获取第二查询向量和第三值向量。

可选地，所述第二查询向量和所述第三值向量为所述第五编码模块对所述第一键向量进行处理后输出的向量。

S62，通过所述第六编码模块对所述第一值向量进行处理获取第二键向量、第三查询向量和视频特征。

可选地，所述第二键向量、所述第三查询向量和所述视频特征为所述第六编码模块对所述第一值向量进行处理后输出的向量。

可选地，所述第二键向量、所述第三查询向量和所述视频特征可以为相同的向量，由于功能不同故命名时有所不同。

S63，通过所述第三交叉注意力网络对所述第二查询向量、第二值向量和所述第二键向量进行第二后期特征融合获取第三键向量。

S64，通过所述第四交叉注意力网络对所述第三查询向量、所述第三值向量和所述第三键向量进行第三后期特征融合获取所述融合特征。根据以上描述可知，本实施例通过第二交叉注意力网络、第三交叉注意力网络、第四交叉注意力网络将第二编码模块、第三编码模块、第四编码模块输出的向量交替作为键向量、查询向量和值向量进行特征融合，能够进一步提高视频分类的识别效果，即进一步提高视频分类精度。

于本发明的实施例中，所述神经网络模型具有堆叠的特征融合模块，各所述特征融合模块均包括所述第二编码模块、所述第三编码模块、所述第四编码模块、所述第五编码模块、所述第六编码模块、所述堆叠的第一交叉注意力网络、所述第二交叉注意力网络、所述第三交叉注意力网络、所述第四交叉注意力网络，所述视频分类方法还包括：通过所述堆叠的特征融合模块对所述融合特征、所述视频特征和所述第三值向量进行处理，获取优化后的融合特征和优化后的视频特征，在所述堆叠的特征融合模块对所述融合特征、所述视频特征和所述第三值向量进行处理的过程中，各所述特征融合模块对其输入进行一次第一特征融合处理，所述特征融合模块的输入可以由与其串联的上一个特征融合模块中第五编码模块的输出、第六编码模块的输出和第四交叉注意力网络的输出构成，各所述特征融合模块中的第一交叉注意力网络、所述第二交叉注意力网络、所述第三交叉注意力网络、所述第二编码模块、所述第三编码模块、所述第四编码模块、所述第五编码模块、所述第六编码模块等的结构或参数可以不同。所述堆叠的特征融合模块即可以由若干个特征融合模块串联组成，通过所述堆叠的特征融合模块进行处理获取的优化后的融合特征和优化后的视频特征，相比于直接获取的所述融合特征和所述视频特征的视频分类效果更好。

于本发明的实施例中，所述第一编码模块、所述第二编码模块、所述第三编码模块、所述第四编码模块、所述第五编码模块和所述第六编码模块均包括自注意力层和多层感知机层，所述第一编码模块、所述第二编码模块、所述第三编码模块、所述第四编码模块、所述第五编码模块和所述第六编码模块仅仅为了表示编码模块的结构或参数可能不同，用第一、第二、第三、第四、第五、第六加以区分。同理，所述第一交叉注意力网络、所述第二交叉注意力网络、所述第三交叉注意力网络和所述第四交叉注意力网络均包括交叉注意力层和多层感知机层，所述第一交叉注意力网络、所述第二交叉注意力网络、所述第三交叉注意力网络和所述第四交叉注意力网络也仅仅为了表示交叉注意力网络的结构或参数不同，所述第一键向量、所述第二键向量、所述第三键向量仅仅为了表示键向量的值可能不同，查询向量和值向量与键向量类似，本实施例对此不再赘述。

如图8所示，所述待分类的视频特征为所述视频特征，本实施例提供一种通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果的实现方法，包括：

S71，通过所述神经网络模型对所述融合特征和所述视频特征进行处理获取所述融合特征的分类概率和所述视频特征的分类概率。

可选地，所述神经网络模型包括全连接层和分类概率计算层，通过所述神经网络模型对所述融合特征和所述视频特征进行处理获取所述融合特征的分类概率和所述视频特征的分类概率的实现方法包括：所述全连接层和所述分类概率计算层对对所述融合特征和所述视频特征进行处理获取所述融合特征的分类概率和所述视频特征的分类概率。所述分类概率计算层可以为Soft-Max层。

S72，对所述融合特征的分类概率和所述视频特征的分类概率进行加权处理获取所述视频分类结果。

可选地，所述融合特征的分类概率的权重和所述视频特征的分类概率的权重可以根据实际情况灵活设置，所述融合特征的分类概率的权重可以为0.6，所述视频特征的分类概率的权重可以为0.4。

为清楚表明所述神经网络模型的结构以及所述视频分类方法的过程，请参阅图9。

本申请实施例所述视频分类方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

如图10所示，本实施例提供一种视频分类装置1000，所述视频分类装置1000包括：

视频获取模块1010，用于获取待分类视频。

视频转换模块1020，用于将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，所述神经网络模型包括填充模块、第一卷积模块和全连接模块，将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像包括：通过所述填充模块对所述待分类视频进行填充处理获取所述图像。

图像处理模块1030，用于通过所述神经网络模型对所述图像进行处理获取所述图像的特征，通过所述神经网络模型对所述图像进行处理获取所述图像的特征包括：通过所述第一卷积模块对所述图像进行特征抽取处理，获取所述图像的第一顶点特征；通过所述全连接模块对所述第一顶点特征和邻接矩阵进行处理获取第二顶点特征和边特征。

融合处理模块1040，用于通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征。

视频分类模块1050，用于通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。

本实施例提供的视频分类装置1000中，所述视频获取模块1010与图2所示的视频分类方法的步骤S11对应，所述视频转换模块1020和所述图像处理模块1030与步骤S12和步骤S12的子步骤S21-S23对应，所述融合处理模块1040、所述视频分类模块1050与S13和S14一一对应，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例提供一种电子设备，所述电子设备包括存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行图2所示的视频分类方法。

本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetic tape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本申请实施例还可以提供一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种视频分类方法，其特征在于，所述视频分类方法包括：

获取待分类视频；

将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，并通过所述神经网络模型对所述图像进行处理获取所述图像的特征；所述神经网络模型包括填充模块、第一卷积模块和全连接模块，将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，并通过所述神经网络模型对所述图像进行处理获取所述图像的特征的实现方法包括：通过所述填充模块对所述待分类视频进行填充处理获取所述图像；通过所述第一卷积模块对所述图像进行特征抽取处理，获取所述图像的第一顶点特征；通过所述全连接模块对所述第一顶点特征和邻接矩阵进行处理获取第二顶点特征和边特征；

通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征；

通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。

2.根据权利要求1所述的视频分类方法，其特征在于，所述图像的特征包括所述第二顶点特征和所述边特征，所述神经网络模型还包括若干个自注意力模型中的第一编码模块和第二卷积模块，通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征的实现方法包括：

通过堆叠的所述第一编码模块对第一视频特征进行处理，获取第二视频特征，所述第一视频特征由所述第二卷积模块对所述图像进行特征抽取处理获取，所述待分类视频的特征为所述第一视频特征；

通过所述神经网络模型对所述第二顶点特征、所述边特征和所述第二视频特征进行第一特征融合处理获取所述融合特征。

3.根据权利要求2所述的视频分类方法，其特征在于，所述神经网络模型还包括若干个第一交叉注意力网络，通过所述神经网络模型对所述第二顶点特征、所述边特征和所述第二视频特征进行第一特征融合处理获取所述融合特征的实现方法包括：

通过堆叠的所述第一交叉注意力网络对所述第二顶点特征、所述边特征和所述第二视频特征进行前期特征融合，获取前期融合特征；

通过所述神经网络模型对所述第二顶点特征、所述第二视频特征和所述前期融合特征进行第二特征融合处理获取所述融合特征。

4.根据权利要求3所述的视频分类方法，其特征在于，所述神经网络模型还包括第二编码模块、第三编码模块、第四编码模块和第二交叉注意力网络，通过所述神经网络模型对所述第二顶点特征、所述第二视频特征和所述前期融合特征进行第二特征融合处理获取所述融合特征的实现方法包括：

通过所述第二编码模块对所述第二顶点特征进行处理获取第一键向量；

通过所述第三编码模块对所述前期融合特征进行处理获取第一查询向量；

通过所述第四编码模块对所述第二视频特征进行处理获取第一值向量；

通过所述第二交叉注意力网络对所述第一键向量、所述第一查询向量和所述第一值向量进行第一后期特征融合获取第二值向量；

通过所述神经网络模型对所述第二值向量、所述第一键向量和所述第一值向量进行第三特征融合处理获取所述融合特征。

5.根据权利要求4所述的视频分类方法，其特征在于，所述神经网络模型还包括第五编码模块、第六编码模块、第三交叉注意力网络和第四交叉注意力网络，通过所述神经网络模型对所述第二值向量、所述第一键向量和所述第一值向量进行第三特征融合处理获取所述融合特征的实现方法包括：

通过所述第五编码模块对所述第一键向量进行处理获取第二查询向量和第三值向量；

通过所述第六编码模块对所述第一值向量进行处理获取第二键向量、第三查询向量和视频特征；

通过所述第三交叉注意力网络对所述第二查询向量、第二值向量和所述第二键向量进行第二后期特征融合获取第三键向量；

通过所述第四交叉注意力网络对所述第三查询向量、所述第三值向量和所述第三键向量进行第三后期特征融合获取所述融合特征。

6.根据权利要求5所述的视频分类方法，其特征在于，所述待分类视频的特征为所述视频特征，通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果的实现方法包括：

通过所述神经网络模型对所述融合特征和所述视频特征进行处理获取所述融合特征的分类概率和所述视频特征的分类概率；

对所述融合特征的分类概率和所述视频特征的分类概率进行加权处理获取所述视频分类结果。

7.一种视频分类装置，其特征在于，所述视频分类装置包括：

视频获取模块，用于获取待分类视频；

视频转换模块，用于将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像，所述神经网络模型包括填充模块、第一卷积模块和全连接模块，将所述待分类视频输入神经网络模型进行转换处理获取所述待分类视频转换后的图像包括：通过所述填充模块对所述待分类视频进行填充处理获取所述图像；

图像处理模块，用于通过所述神经网络模型对所述图像进行处理获取所述图像的特征，通过所述神经网络模型对所述图像进行处理获取所述图像的特征包括：通过所述第一卷积模块对所述图像进行特征抽取处理，获取所述图像的第一顶点特征；通过所述全连接模块对所述第一顶点特征和邻接矩阵进行处理获取第二顶点特征和边特征；

融合处理模块，用于通过所述神经网络模型对所述待分类视频的特征和所述图像的特征进行特征融合处理获取融合特征；

视频分类模块，用于通过所述神经网络模型对所述融合特征和所述待分类视频的特征进行处理获取视频分类结果。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-6任一项所述视频分类方法。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1-6任一项所述视频分类方法。