CN110399841B

CN110399841B - 一种视频分类方法、装置及电子设备

Info

Publication number: CN110399841B
Application number: CN201910684309.XA
Authority: CN
Inventors: 李涛; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2022-03-25
Anticipated expiration: 2039-07-26
Also published as: CN110399841A

Abstract

本公开关于一种视频分类方法、装置及电子设备。方法包括：针对多个模态中的每个模态，提取待处理视频在该模态上的特征；获取待处理的视频文件，作为待处理视频；利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值，所述注意力值用于表示所述待处理视频在该模态上的特征与所述待处理视频在其他模态上的特征间的上下文关系；融合所述待处理视频在每个模态上的所述注意力值，得到所述待处理视频的融合特征；利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射。可以使得融合特征能够有效的反映出不同模态上的特征间的上下文关系，进而得到更准确的分类结果。

Description

一种视频分类方法、装置及电子设备

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频分类方法、装置及电子设备。

背景技术

在一些应用场景中，出于实际需求需要对视频进行分类，例如，短视频平台需要对上传的视频进行分类。在对视频进行分类的过程中，为了能够充分获取视频的相关特征，可以从视频相关的多个模态进行分析。例如，可以综合该视频的视频图像、附属文本、语音等模态上的特征，对该视频进行分类。

相关技术中，往往是将视频在多个模态上的特征首尾拼接后，作为该视频的特征，输入至后续的全连接层，以对拼接得到的特征进行特征到分类结果的端到端的映射，得到该视频的分类结果。该方案将不同模态上的特征视为相互独立的特征，但是视频在不同模态上的特征可能是相互依赖的，因此该方案通过拼接得到的特征无法准确的表达视频真实的特征，因此导致得到的分类结果不够准确。

发明内容

本公开提供一种视频分类方法、装置及电子设备，以至少解决相关技术中视频分类结果不够准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分类方法，包括：

获取待处理的视频文件，作为待处理视频；

针对多个模态中的每个模态，提取待处理视频在该模态上的特征；

利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值，所述注意力值用于表示所述待处理视频在该模态上的特征与所述待处理视频在其他模态上的特征间的上下文关系；

融合所述待处理视频在每个模态上的所述注意力值，得到所述待处理视频的融合特征；

利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射。

在一种可能的实施例中，所述利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值，包括：

分别计算待处理视频在该模态与所述多个模态中各个模态上特征的相似度，作为各个模态对应的权重；

对各个模态上的特征与对应的权重的乘积进行叠加，得到叠加结果，作为待处理视频在该模态上的注意力值。

在一种可能的实施例中，所述融合所述待处理视频在每个模态上的所述注意力值，得到所述待处理视频的融合特征，包括：

拼接所述待处理视频在每个模态上的所述注意力值，得到拼接结果，作为多头注意力值；

将所述多头注意力值输入至预先经过训练的前馈神经子网络，得到所述前馈神经子网络的输出，作为所述待处理视频的融合特征，所述前馈神经子网络用于将多头注意力值映射至融合特征。

在一种可能的实施例中，所述前馈神经子网络包括前馈神经元；

所述将所述多头注意力值输入至预先经过训练的前馈神经子网络，得到所述前馈神经子网络的输出，作为所述待处理视频的融合特征，包括：

将所述多头注意力值输入至预先经过训练的所述前馈神经元，得到所述前馈神经元的输出，作为所述待处理视频的残差，所述残差用于表示所述待处理视频的融合特征与所述多头注意力值的差值，所述前馈神经元用于将多头注意力值映射至待处理视频的残差；

将所述待处理视频的残差与所述多头注意力值进行元素级加法，得到所述待处理视频的融合特征。

融合所述待处理视频在每个模态上的所述注意力值，得到融合结果；

判断利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值重复执行的次数是否少于预设次数阈值；

如果所述次数不少于所述预设次数阈值，将所述融合结果作为所述待处理视频的融合特征。

在一种可能的实施例中，所述方法还包括：

如果所述次数少于所述预设次数阈值，将所述融合结果作为所述待处理视频在所述各个模态上的新的特征，返回执行所述利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值的步骤。

根据本公开实施例的第二方面，提供一种视频分类装置，包括：

视频获取模块，用于获取待处理的视频文件，作为待处理视频；

特征提取模块，被配置为执行针对多个模态中的每个模态，提取待处理视频在该模态上的特征；

注意力模块，被配置为执行利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值，所述注意力值用于表示所述待处理视频在该模态上的特征与所述待处理视频在其他模态上的特征间的上下文关系；

融合模块，被配置为执行融合所述待处理视频在每个模态上的所述注意力值，得到所述待处理视频的融合特征；

分类模块，用于利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射。

在一种可能的实施例中，所述注意力模块，具体被配置为执行分别计算待处理视频在该模态与所述多个模态中各个模态上特征的相似度，作为各个模态对应的权重；

在一种可能的实施例中，所述融合模块，具体被配置为执行拼接所述待处理视频在每个模态上的所述注意力值，得到拼接结果，作为多头注意力值；

所述融合模块，具体被配置为执行将所述多头注意力值输入至预先经过训练的所述前馈神经元，得到所述前馈神经元的输出，作为所述待处理视频的残差，所述残差用于表示所述待处理视频的融合特征与所述多头注意力值的差值，所述前馈神经元用于将多头注意力值映射至待处理视频的残差；

在一种可能的实施例中，所述融合模块，具体被配置为执行融合所述待处理视频在每个模态上的所述注意力值，得到融合结果；

在一种可能的实施例中，所述融合模块，还被配置为执行如果所述次数少于所述预设次数阈值，将所述融合结果作为所述待处理视频在所述各个模态上的新的特征，返回执行所述利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值的步骤。

根据本公开实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面中任一所述的视频分类方法。

根据本公开实施例的第四方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面中任一所述的视频分类方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的视频分类方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

可以通过多头注意力机制，使得得到的融合特征除了能够反映待处理视频在各个模态上的特征，还能够有效的反映出待处理视频在不同模态上的特征之间的上下文关系，而该上下文关系可以体现出待处理视频在不同模态上的特征之间的依赖性，因此该融合特征可以更全面的表达出待处理视频的特征，进而使得可以得到更准确的分类结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频分类方法的流程图。

图2是根据一示例性实施例示出的一种应用于视频分类中的多模态特征融合网络的网络结构示意图；

图3是根据一示例性实施例示出的一种视频分类装置的结构示意图；

图4是根据一示例性实施例示出的一种用于视频分类的电子设备的框图；

图5是根据一示例性实施例示出的另一种用于视频分类的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频分类方法的流程图，如图1所示，该视频分类方法可以用于具有视频分类功能的电子设备中，包括以下步骤。

在步骤S11中，获取待处理的视频文件，作为待处理视频。

可以是从本地存储设备读取待处理的视频文件，也可以是接收其他电子设备发送的待处理的视频文件。示例性的，以应用于短视频平台中用于视频***的服务器为例，该服务器可以是接收客户端上传的视频文件，作为待处理的视频文件。

在步骤S12中，针对多个模态中的每个模态，提取待处理视频在该模态上的特征。

根据应用场景的不同，多个模态中所包括的模态也可以不同。例如，多个模态可以包括视频的视频图像、附属文本、视频的语音等。每个模态上的特征可以用一个特征向量的形式表示。为描述方便，假设多个模态一共包括m个模态，分别记为模态1-模态m。在一种可能的实施例中，待处理视频在一个模态上的特征，可以是利用卷积神经网络(CNN)或循环神经网络(RNN)提取到的，其中，待处理视频在不同模态上的特征，可以是利用不同方式提取到的，例如，待处理视频在模态1上的特征可以是利用CNN提取到的，在模态2上的特征可以是利用RNN提取到的。

为描述方便，下文中假设待处理视频在每个模态行的特征均为一个128维的特征向量，并将模态i上的特征向量记为f_i，在其他实施例中，特征向量的维度也可以是其他值，本实施例对此不做限制。

在步骤S13中，利用多头自注意力机制，计算待处理视频在该模态上的注意力值。

其中，注意力值用于表示待处理视频在该模态上的特征与待处理视频在其他模态上的特征间的上下文关系。在一种可能的实施例中，可以是分别计算待处理视频在该模态与待多个模态中各个模态上的特征的相似度，作为各个模态对应的权重。对各个模态上的特征与对应的权重的乘积进行叠加，得到叠加结果，作为待处理视频在该模态上的注意力值。

为描述方便，下文中将模态i上的注意力值记为Head_i，以计算Head₁为例，可以是分别计算f₁与f₁的相似度、f₁与f₂的相似度、…、f₁与f_m的相似度，将这m个相似度分别记为S₁₁-S_1m，其中S_1i表示f₁与f_i的相似度，则

在一种可能的实施例中，可以是由f₁、f₂、…、f_m组成一个n*128维的矩阵，将该矩阵称为矩阵A，相似度可以是利用Softmax(归一化指数函数)函数计算得到的，则上式可以改写为：

其中，Q(Query，查询)、K(Key，键)、V(Value，值)为三个相同的矩阵，并且均等于矩阵A，

K、T、d_k为预设的参数。并且，在计算不同模态上的注意力值时，

可以不同。

在步骤S14中，融合待处理视频在每个模态上的注意力值，得到待处理视频的融合特征。

在一种可能的实施例中，可以是将每个模态上注意力值相互拼接，得到拼接结果，作为多头注意力值，记为MultiHead。并将MultiHead输入至预先经过训练的前馈神经子网络，得到该前馈神经子网络的输出，作为待处理视频的融合特征。其中，前馈神经子网络用于将多头注意力映射至融合特征。

MultiHead可以是通过下式确定得到的：

MultiHead＝Concat(Head₁，Head₂…Head_m)

其中，Concat为用于首尾拼接的函数。根据应用场景的不同，前馈神经子网络的结构可以不同，在一种可能的实施例中，前馈神经子网络中可以包括前馈神经元。该前馈神经元用于将多头注意力值映射至待处理视频的残差，残差用于表示待处理视频的融合特征与多头注意力值的差值。在该实施例中，在得到前馈神经元的输出后，将该输出与多头注意力值进行元素级加法，得到待处理视频的融合特征。

可以理解的是，如果将待处理视频的理论上的融合特征记为y，则前馈神经子网络实现的是由MultiHead到y的端到端映射，将理论上的该映射记为H(MultiHead)。为了提高得到的融合特征的准确性，需要训练前馈神经子网络以使得前馈神经子网络所拟合的函数尽可能的接近H(MultiHead)。在该训练过程中，可能因梯度消失导致前馈神经子网络所拟合的函数与H(MultiHead)相差较大，进而造成得到的融合特征准确性较低。

而选用该实施例，由于前馈神经元实现的是由MultiHead到残差的映射，而残差可以表示为y-MultiHead，即H(MultiHead)-MultiHead。因此，在训练过程中需要前馈神经元拟合的函数尽可能与F(MultiHead)＝H(MultiHead)-MultiHead接近，由于F(MultiHead)可以视为H(MultiHead)中的一部分，因此相比于H(MultiHead)更小，所以在训练过程中出现梯度消失的可能性更低。因此选用该实施例可以有效解决上述技术问题。

在一种可能的实施例中，可以融合待处理视频在每个模态上的注意力值，得到融合结果，判断利用多头注意力机制，计算待处理视频在该模态上的注意力值重复执行的次数是否少于预设次数阈值。如果该次数不少于预设次数阈值，将融合结果作为待处理视频的融合特征，如果该次数少于预设次数阈值，将融合结果作为待处理视频在各个模态上的新的特征，返回执行利用多头注意力机制，计算待处理视频在该模态上的注意力值的步骤。

可以理解的是，多头注意力机制可以视为对待处理视频的特征进行映射，以利用了另一种形式表示待处理视频的特征，因此融合待处理视频在每个模态上的注意力值，得到的融合结果可以视为待处理视频在各个模态上的新的特征。而随着利用多头注意力机制，计算待处理视频在该模态上的注意力值重复执行的次数的增多，得到的注意力值越能够反映待处理视频在不同模态上的特征之间的上下文关系，因此如果该次数不少于预设次数阈值，则可以认为得到的注意力值已经能够充分反映待处理视频在不同模态上的特征之间的上下文关系，而如果该次数少于预设次数阈值，则可以认为得到的注意力值尚不能够分反映待处理视频在不同模态上的特征之间的上下文关系，需要将融合结果作为待处理视频在各个模态上的新的特征，返回执行利用多头注意力机制，计算待处理视频在该模态上的注意力值的步骤。

在步骤S15中，利用预先训练得到的模型，对融合特征进行映射，得到待处理视频的分类结果。

其中，该模型用于实现融合特征到分类结果的映射，该模型可以基于传统机器学习训练得到的模型，也可以是基于深度学习训练得到的神经网络模型，本实施例对此不做限制。该模型的输入为融合特征，输出为对应的分类结果。

本实施例可以是通过一个神经网络实现的，也可以是通过多个神经网络实现，本实施例对此不做限制。选用该实施例，可以通过多头注意力机制，使得得到的融合特征除了能够反映待处理视频在各个模态上的特征，还能够有效的反映出了待处理视频在不同模态上的特征之间的上下文关系，而该上下文关系可以体现出不同模态上特征之间的依赖性，因此该融合特征可以更好的表达待处理视频的特征。

为更清楚的对本发明实施例提供的视频分类方法中得到融合特征的流程进行说明，下面将以融合待处理视频在m个模态上的特征得到融合特征为例进行说明。可以参见图2，图2所示为本发明实施例提供的应用于视频分类的多模态特征融合网络的一种网络结构示意图，其中包括m个用于提取特征的CNN或RNN，每个CNN或RNN的输入为待处理视频在一个模态上的信息，输出为用于表示待处理视频在该模态上的特征的128维向量。所有CNN或RNN的输出组成一个m*128维的矩阵。

该矩阵被输入至h个连续的双向传输(Transformer)单元200，其中每个双向传输单元200包括多头注意力子网络210和前馈神经子网络220，其中前馈神经子网络220包括前馈神经元221和元素级加法单元222。其中，多头注意力子网络用于将输入的特征矩阵中的特征映射至多头注意力值，多头注意力值的计算可以参见前述S13中的相关描述，在此不再赘述，对于不同多头注意力子网络210中的网络参数可以不同。

前馈神经子网络可以参见前述S14的相关描述，在此不再赘述。除第一个双向传输单元外的其他双向传输单元的输入，为上一个双向传输单元的输出，可以理解的是，每个双向传输单元的输出都可以视为待处理视频的新的特征矩阵，而该特征矩阵可以用于表示待处理视频在各个模态上的特征。因此，其他双向传输单元的原理，和第一个双向传输单元的原理是相同的，不再赘述。最后一个双向传输单元的输出可以作为待处理视频的融合特征。双向传输单元的数量h在不同的应用场景中，可以根据实际需求而不同，本实施例对此不做限制。

图3是根据一示例性实施例示出的一种视频分类装置框图。该装置包括视频获取模块301、特征提取模块302、注意力模块303、融合模块304以及分类模块305。

视频获取模块301，被配置为执行获取待处理的视频文件，作为待处理视频；

特征提取模块302，被配置为执行针对多个模态中的每个模态，提取待处理视频在该模态上的特征；

注意力模块303，被配置为执行利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值，所述注意力值用于表示所述待处理视频在该模态上的特征与所述待处理视频在其他模态上的特征间的上下文关系；

融合模块304，被配置为执行融合所述待处理视频在每个模态上的所述注意力值，得到所述待处理视频的融合特征；

分类模块305，用于利用预先训练得到的模型，对融合特征进行映射，得到待处理视频的分类结果，该模型用于实现融合特征到分类结果的映射。

在一种可能的实施例中，所述注意力模块303，具体被配置为执行分别计算待处理视频在该模态与所述多个模态中各个模态上特征的相似度，作为各个模态对应的权重；

在一种可能的实施例中，所述融合模块304，具体被配置为执行拼接所述待处理视频在每个模态上的所述注意力值，得到拼接结果，作为多头注意力值；

所述融合模块304，具体被配置为执行将所述多头注意力值输入至预先经过训练的所述前馈神经元，得到所述前馈神经元的输出，作为所述待处理视频的残差，所述残差用于表示所述待处理视频的融合特征与所述多头注意力值的差值，所述前馈神经元用于将多头注意力值映射至待处理视频的残差；

在一种可能的实施例中，所述融合模块304，具体被配置为执行融合所述待处理视频在每个模态上的所述注意力值，得到融合结果；

在一种可能的实施例中，融合模块304，还被配置为执行如果所述次数少于所述预设次数阈值，将所述融合结果作为所述待处理视频在所述各个模态上的新的特征，返回执行所述利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值的步骤。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于视频分类的电子设备400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理***，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当电子设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当电子设备400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件414可以检测到电子设备400的打开/关闭状态，组件的相对定位，例如所述组件为电子设备400的显示器和小键盘，传感器组件414还可以检测电子设备400一个组件的位置改变，用户与电子设备400接触的存在或不存在，电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于电子设备400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G等)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器404，上述指令可由电子设备400的处理器420执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种用于视频分类的电子设备的另一种框图。例如，电子设备可以被提供为一服务器。参照图5，可以包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述视频分类方法。

该电子设备还可以包括一个电源组件526被配置为执行该电子设备的电源管理，一个有线或无线网络接口550被配置为将该电子设备连接到网络，和一个输入输出(I/O)接口558。该电子设备可以操作基于存储在存储器532的操作***，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似……。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待处理的视频文件，作为待处理视频；

针对多个模态中的每个模态，提取所述待处理视频在该模态上的特征；

利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射；

其中，所述融合所述待处理视频在每个模态上的所述注意力值，得到所述待处理视频的融合特征，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用多头自注意力机制，计算所述待处理视频在该模态上的注意力值，包括：

3.根据权利要求1所述的方法，其特征在于，所述前馈神经子网络包括前馈神经元；

4.一种视频分类装置，其特征在于，包括：

分类模块，用于利用预先训练得到的模型，对所述融合特征进行映射，得到所述待处理视频的分类结果，所述模型用于实现融合特征到分类结果的映射；

其中，所述融合模块，具体被配置为执行拼接所述待处理视频在每个模态上的所述注意力值，得到拼接结果，作为多头注意力值；

5.根据权利要求4所述的装置，其特征在于，所述注意力模块，具体被配置为执行分别计算待处理视频在该模态与所述多个模态中各个模态上特征的相似度，作为各个模态对应的权重；

6.根据权利要求4所述的装置，其特征在于，所述前馈神经子网络包括前馈神经元；

7.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的视频分类方法。

8.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至3中任一项所述的视频分类方法。