CN110096617B

CN110096617B - 视频分类方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110096617B
Application number: CN201910357559.2A
Authority: CN
Inventors: 龙翔; 何栋梁; 李甫; 迟至真; 周志超; 赵翔; 李鑫; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2021-08-10
Anticipated expiration: 2039-04-29
Also published as: CN110096617A

Abstract

本发明提供一种视频分类方法、装置、电子设备及计算机可读存储介质。该方法包括：获得待分类视频的第一特征序列；其中，第一特征序列中的特征按照时间顺序排列；将第一特征序列输入目标金字塔注意力网络，获得目标金字塔注意力网络输出的第一输出结果；根据第一输出结果，获得目标向量；根据目标向量，对待分类视频进行分类。与现有技术相比，本发明实施例能够有效地提高视频的分类效率，并且，目标金字塔注意力网络采用的是注意力型方法，其能够提取和融合视频的最有效特征以用于视频分类，这样能够较好地保证分类结果的准确性。

Description

视频分类方法、装置、电子设备及计算机可读存储介质

技术领域

本发明实施例涉及视频分类技术领域，尤其涉及一种视频分类方法、装置、电子设备及计算机可读存储介质。

背景技术

视频分类是计算机视觉中最重要、最基本的任务之一，视频分类是指通过分析、理解视频的相关信息，将视频分到事先定义好的类别中去，视频分类在视频搜索、视频推荐等应用场景下起着关键作用，视频分类还是视频标签、视频监视、视频标题生成等视频技术的重要依赖。

目前，常用的视频分类方式为：将视频的所有帧直接输入用于进行视频分类的设备，以得到该设备输出的分类结果。采用这种方式时，需要分析视频的所有帧，视频的分类效率非常低。

发明内容

本发明实施例提供一种视频分类方法、装置、电子设备及计算机可读存储介质，以解决现有的视频分类方式的分类效率低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供一种视频分类方法，所述方法包括：

获得待分类视频的第一特征序列；其中，所述第一特征序列中的特征按照时间顺序排列；

将所述第一特征序列输入目标金字塔注意力网络，获得所述目标金字塔注意力网络输出的第一输出结果；

根据所述第一输出结果，获得目标向量；

根据所述目标向量，对所述待分类视频进行分类。

第二方面，本发明实施例提供一种视频分类装置，所述装置包括：

第一获得模块，用于获得待分类视频的第一特征序列；其中，所述第一特征序列中的特征按照时间顺序排列；

第二获得模块，用于将所述第一特征序列输入目标金字塔注意力网络，获得所述目标金字塔注意力网络输出的第一输出结果；

第三获得模块，用于根据所述第一输出结果，获得目标向量；

分类模块，用于根据所述目标向量，对所述待分类视频进行分类。

第三方面，本发明实施例提供一种电子设备，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述视频分类方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频分类方法的步骤。

本发明实施例中，为了实现视频的分类，可以先将待分类视频的第一特征序列输入目标金字塔注意力网络，然后根据目标金字塔注意力网络输出的第一输出结果，获得目标向量，最后根据目标向量，对待分类视频进行分类即可。可见，本发明实施例中，利用待分类视频的第一特征序列，以及目标金字塔注意力网络，即可实现视频的分类，这样，与现有技术中必须对待分类视频中的所有帧进行分析的情况相比，本发明实施例能够有效地提高视频的分类效率，并且，目标金字塔注意力网络采用的是注意力型方法，其能够提取和融合视频的最有效特征以用于视频分类，这样能够较好地保证分类结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的视频分类方法的流程图；

图2是本发明实施例提供的视频分类方法的原理图之一；

图3是充电插头的使用序列图；

图4是本发明实施例提供的视频分类方法的原理图之二；

图5是本发明实施例提供的视频分类方法的原理图之三；

图6是本发明实施例提供的视频分类装置的结构框图；

图7是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

下面首先对本发明实施例提供的视频分类方法进行说明。

需要说明的是，本发明实施例提供的视频分类方法应用于电子设备。具体地，电子设备可以为服务器，当然，电子设备的类型并不局限于服务器，其也可以为其他类型的，能够用于进行视频分类的设备，本发明实施例对电子设备的类型不做任何限定。

参见图1，图中示出了本发明实施例提供的视频分类方法的流程图。如图1所示，该方法包括如下步骤：

步骤101，获得待分类视频的第一特征序列；其中，第一特征序列中的特征按照时间顺序排列。

在步骤101中，电子设备可以利用基于卷积神经网络(Convolutional NeuralNetworks,CNN)的模型，进行视频的关键特征提取，以得到待分类视频的第一特征序列；其中，第一特征序列中的特征可以按照时间由早至晚的顺序排列。可以理解的是，CNN是一类包含卷积计算，且具有深度结构的前馈神经网络(Feedforward Neural Networks，FNN)，CNN还是深度学习(deep learning)的代表算法之一。

步骤102，将第一特征序列输入目标金字塔注意力网络，获得目标金字塔注意力网络输出的第一输出结果。

这里，目标金字塔注意力网络中可以仅包括一种类型的金字塔注意力网络，例如，目标金字塔注意力网络中可以仅包括时间金字塔注意力网络或通道金字塔注意力网络；或者，目标金字塔注意力网络中可以包括至少两种类型的金字塔注意力网络，例如，目标金字塔注意力网络中可以同时包括时间金字塔注意力网络和通道金字塔注意力网络。

如果目标金字塔注意力网络中包括至少两种类型的金字塔注意力网络，在步骤102中，可以将第一特征序列分别输入每种类型的金字塔注意力网络，以分别获得每种类型的金字塔注意力网络输出的第一输出结果，并根据每种类型的金字塔注意力网络的第一输出结果，执行后续的步骤103。

步骤103，根据第一输出结果，获得目标向量。

这里，目标向量为能够代表整个待分类视频的特征的向量。需要说明的是，根据第一输出结果，获得目标向量的具体实现形式多样，为了布局清楚，后续进行举例介绍。

步骤104，根据目标向量，对待分类视频进行分类。

需要说明的是，本发明实施例中涉及的视频类别总共可以有K种，依次为B₁、B₂、……、B_K；其中，K为大于1的整数。在根据目标向量，对待分类视频进行分类后，电子设备得到的分类结果中可以包括K个概率值，依次为G₁、G₂、……、G_K；其中，G₁为待分类视频属于B₁这种视频类别的概率值，G₂为待分类视频属于B₂这种视频类别的概率值，……，G_K为待分类视频属于B_K这种视频类别的概率值。

在步骤104中，如果待分类视频分类时，进行的是单标签的适配，那么，G₁、G₂、……、G_K这K个概率值的和值为1；如果待分类视频分类时，进行的是多标签的适配，那么，G₁、G₂、……、G_K这K个概率值的和值可能为1，也可能不为1。

可选地，根据目标向量，对待分类视频进行分类，包括：

将目标向量输入全连接网络，以获得全连接网络输出的，待分类视频的分类结果。

这里，全连接网络可以认为是一个预先训练好，存储在电子设备本地的分类模型；其中，分类模型可以是将大量视频的目标向量作为输入，大量视频的类型作为输出进行训练得到。具体地，分类模型可以由电子设备自身训练得到；或者，分类模型可以由其他设备训练好之后分发给电子设备。

本实施例中，只需将目标向量输入全连接网络，即可获得待分类视频的分类结果，因此，得到待分类视频的分类结果的操作实施起来非常便捷。

可选地，目标金字塔注意力网络为时间金字塔注意力网络；

第一输出结果中包括时间尺度互异的M个特征序列集合，每个特征序列集合由第一特征序列按照相应时间尺度分割得到的各第二特征序列构成，每个特征序列集合中的第二特征序列按照时间顺序排列，每个第二特征序列中的特征按照时间顺序排列，M为大于1的整数。

这里，M的取值可以为2、3、4、5、6或者大于6的整数，在此不再一一列举。另外，由于各特征序列集合的时间尺度互异，每个特征序列集合中的第二特征序列的数量可以是不同的。

假设待分类视频的第一特征序列为图2中的X₍₁₎₁，X₍₁₎₁中包括按照时间顺序排列的特征x₁、特征x₂、特征x₃、特征x₄、特征x₅、特征x₆、特征x₇和特征x₈，在将X₍₁₎₁输入时间金字塔注意力网络之后，时间金字塔注意力网络输出的第一输出结果中可以包括3个特征序列集合。也就是说，M的取值为3，这时，可以认为时间金字塔注意力网络的金字塔层级为3层，例如为图2中的level 1、level 2和level 3，其中，level 1、level 2和level 3可以分别对应不同时间尺度的特征序列集合。

具体地，level 1对应的特征序列集合可以由一个第二特征序列构成，X₍₁₎作为这个第二特征序列。level 2对应的特征序列集合可以由X₍₂₎₁和X₍₂₎₂这两个第二特征序列构成；其中，X₍₂₎₁中包括按照时间顺序排列的x₁、x₂、x₃和x₄，X₍₂₎₂中包括按照时间顺序排列的x₅、x₆、x₇和x₈；level 3对应的特征序列集合可以由X₍₃₎₁、X₍₃₎₂、X₍₃₎₃和X₍₃₎₄这四个第二特征序列构成；其中，X₍₃₎₁中包括按照时间顺序排列的x₁和x₂，X₍₃₎₂中包括按照时间顺序排列的x₃和x₄，X₍₃₎₃中包括按照时间顺序排列的x₅和x₆，X₍₃₎₄中包括按照时间顺序排列的x₇和x₈。

容易看出，level 1对应的特征序列集合是将X₍₁₎₁从时间上划分为一份得到的，level 2对应的特征序列集合是将X₍₁₎₁从时间上划分为两等份得到的，level 3对应的特征序列集合是将X₍₁₎₁从时间上划分为四个等份得到的。

这样，电子设备能够得到包括level 1对应的特征序列集合，level 2对应的特征序列集合，以及level 3对应的特征序列集合的第一输出结果。接下来，可以根据第一输出结果，获得目标向量，并根据目标向量，实现对待分类视频的分类。

需要说明的是，在进行视频的分类时，如果完全不考虑视频的时序性，所有特征放在一个无序集合中，所有关键特征在一组中被同等对待，完全忽略特征之间的时序关联，这在一些场景中是有效的，但在另一些场景中是无效的。举例而言，如图3所示，如果所有关键特征都在一个组中无序对待，则无法区分用户的操作到底是将充电插头***插座中，还是将充电插头从插座中拔出。

有鉴于此，本实施例中，可以使用时间金字塔注意力网络，先将待分类视频的第一特征序列分割为若干时间尺度下的若干个第二特征序列，然后得到若干时间尺度的特征序列集合，特征序列集合中的第二特征序列均按照时间顺序排列，第二特征序列中的特征也按照时间顺序排列，这样能够在无序的注意力机制中引入时序性，以有效地解决强时序依赖的视频分类问题。可见，本实施例不仅适用于弱时序依赖场景下的视频分类，也适用于强时序依赖场景下的视频分类。

可选地，M的值越大，待分类视频的视频时长越长。

具体地，电子设备中可以预先存储有视频时长范围与M的取值之间的对应关系；其中，10分钟至15分钟这个视频时长范围可以与5这个取值对应，5分钟至10分钟这个视频时长范围可以与4这个取值对应，0分钟至5分钟这个视频时长范围可以与3这个取值对应。

那么，在待分类视频的视频时长位于10分钟至15分钟这个视频时长范围的情况下，第一输出结果中可以包括时间尺度互异的5个特征序列集合，这时，时间金字塔注意力网络的时间金字塔的层级为5级。在待分类视频的视频时长位于0分钟至5分钟这个视频时长范围的情况下，第一输出结果中可以包括时间尺度互异的3个特征序列集合，这时，时间金字塔注意力网络的时间金字塔的层级为3级。

可见，本实施例中，在使用时间金字塔注意力网络时，时间金字塔的层级不是完全固定不变的，时间金字塔的层级可以根据待分类视频的视频时长的长短进行灵活地调整，以使得时间金字塔的层级与待分类视频的视频时长相匹配，从而保证分类效率和分类效果。

可选地，根据第一输出结果，获得目标向量，包括：

分别将第一输出结果中的每个第二特征序列输入通道金字塔注意力网络，以获得通道金字塔注意力网络分别输出的，每个第二特征序列对应的第二输出结果；

根据各第二特征序列对应的第二输出结果，获得目标向量；

其中，任一第二特征序列对应的第二输出结果中包括特征细粒度互异的N个子特征序列集合，每个子特征序列集合由一第二特征序列按照相应特征细粒度进行分割得到的各子特征序列构成，每个子特征序列中的子特征按照时间顺序排列，N为大于1的整数。

这里，N的取值可以为2、3、4、5、6或者大于6的整数，在此不再一一列举。另外，M的取值和N的取值可以相同，也可以不同。

假设通道金字塔注意力网络用CPAtt表示，如图2所示，在得到包括X₍₁₎、X₍₂₎₁、X₍₂₎₂、X₍₃₎₁、X₍₃₎₂、X₍₃₎₃和X₍₃₎₄这7个第二特征序列的第一输出结果之后，电子设备可以分别将这7个第二特征序列输入CPAtt，以获得CPAtt输出的，7个第二特征序列对应的7个第二输出结果。

假设上述7个第二特征序列中的某一第二特征序列也可以表示为图4中的X⁽¹⁾¹，且X⁽¹⁾¹中包括按照时间顺序排列的特征x₁、特征x₂、……、特征x_L，在将X⁽¹⁾¹输入通道金字塔注意力网络之后，通道金字塔注意力网络输出的第二输出结果中可以包括特征细粒度互异的3个子特征序列集合。也就是说，N的取值为3，这时，可以认为通道金字塔注意力网络的金字塔层级为3层，例如为图4中的level 1、level 2和level 3，level 1、level 2和level 3可以分别对应不同特征细粒度的子特征序列集合。

具体地，level 1对应的子特征序列集合由一个子特征序列构成，X⁽¹⁾¹作为这个子特征序列。level 2对应的子特征序列集合可以由X⁽²⁾¹和X⁽²⁾²这两个子特征序列构成；其中，X⁽²⁾¹中包括由x₁分割得到的两个子特征中的一者、由x₂分割得到的两个子特征中的一者，……，由x_L分割得到的两个子特征中的一者，X⁽²⁾²中包括由x₁分割得到的两个子特征中的另一者、由x₂分割得到的两个子特征中的另一者，……，由x_L分割得到的两个子特征中的另一者。level3对应的子特征序列集合可以由X⁽³⁾¹、X⁽³⁾²、X⁽³⁾³和X⁽³⁾⁴这四个子特征序列构成；其中，X⁽³⁾¹中包括由x₁分割得到的四个子特征中的第一者，由x₂分割得到的四个子特征中的第一者，……，由x_L分割得到的四个子特征中的第一者；X⁽³⁾²中包括由x₁分割得到的四个子特征中的第二者，由x₂分割得到的四个子特征中的第二者，……，由x_L分割得到的四个子特征中的第二者，X⁽³⁾³和X⁽³⁾⁴中包括的内容依此类推，在此不再赘述。

需要说明的是，其他第二特征序列对应的第二输出结果中包括的内容参照上述说明即可，在此不再赘述。之后，可以根据各第二特征序列对应的第二输出结果，获得目标向量。

在一种具体实施方式中，任一第二输出结果中还包括其所包括的每个子特征序列中的每个子特征对应的权重；

根据各第二特征序列对应的第二输出结果，获得目标向量，包括：

针对每个第二输出结果中的每个子特征序列，根据其中的每个子特征以及相应权重，进行加权求和，得到相应的特征向量；

根据所有子特征序列对应的特征向量，进行拼接运算，得到拼接向量；

将拼接向量作为目标向量。

具体地，对于上述的X⁽²⁾¹这个子特征序列，假设其包括的子特征依次为x₁₁、x₂₁、……、x_L1，其中，x₁₁、x₂₁、……、x_L1均为向量形式，且x₁₁对应的权重为z₁、x₂₁对应的权重为z₂、x_L1对应的权重为z_L，那么，X⁽²⁾¹对应的特征向量y可以采用下述公式计算得到：

y＝x₁₁z₁+x₂₁z₂+……+x_L1z_L

需要说明的是，其他子特征序列对应的特征向量的计算方式参照上述对X⁽²⁾¹这个子特征序列的说明即可，在此不再赘述。在得到所有子特征序列对应的特征向量之后，可以对这些特征向量进行拼接运算，以得到用于作为目标向量的拼接向量。

需要说明的是，图4中的Att可以认为是特征向量的计算操作，图2和图4中的Contact可以认为是向量的拼接操作。如图4所示，可以对X⁽²⁾¹对应的特征向量和X⁽²⁾²对应的特征向量进行拼接运算，以得到第一拼接向量，例如得到图4中的y⁽²⁾；对X⁽³⁾¹对应的特征向量、X⁽³⁾²对应的特征向量、X⁽³⁾³对应的特征向量和X⁽³⁾⁴对应的特征向量进行拼接运算，以得到第二拼接向量，例如得到图4中的y3⁽³⁾。接下来，再对X⁽¹⁾¹对应的特征向量(例如图4中的y⁽¹⁾)、第一拼接向量和第二拼接向量进行拼接运算，以得到第三拼接向量，该第三拼接向量与上述7个第二特征序列中的某一第二特征序列对应。

之后，还可以按照与上述流程类似的方式，得到与其他6个第二特征序列对应的6个第三拼接向量，也就在说，最终能够得到X₍₁₎、X₍₂₎₁、X₍₂₎₂、X₍₃₎₁、X₍₃₎₂、X₍₃₎₃和X₍₃₎₄这7个第二特征序列对应的7个第三拼接向量。这时，如图2所示，可以对X₍₂₎₁对应的第三拼接向量和X₍₂₎₂对应的第三拼接向量进行拼接运算，以得到第四拼接向量，例如得到图2中的y₍₂₎；对X₍₃₎₁对应的第三拼接向量、X₍₃₎₂对应的第三拼接向量、X₍₃₎₃对应的第三拼接向量和X₍₃₎₄对应的第三拼接向量进行拼接运算，以得到第五拼接向量，例如得到图2中的y₍₃₎。接下来，再对X₍₂₎₁对应的第三拼接向量(例如图2中的y₍₁₎)、第四拼接向量和第五拼接向量进行拼接运算，从而得到用于作为目标向量的拼接向量。

需要说明的是，在进行视频的分类时，如果电子设备直接为每个特征计算一个权重，每个特征的权重可以直接用于视频分类，但在许多情况下，待分类视频中仅有部分通道有助于视频分类。举例而言，如图5所示，待分类视频中可以包括Frame1和Frame2两个视频帧，这两个视频帧均有助于视频分类，但是，这两个视频帧中的重要通道是明显不同的，Frame1的重要通道对应矩形框510围设的区域，Frame2的重要通道对应矩形框520围设的区域。在图5的基础上，如果为两个视频帧的整个特征分别指定权重，如图5中左下角所示，只能为两个视频帧提供相对平衡的权重，例如，为Feature1和Feature2这两个特征指定的权重可以均为0.5，这样，无关噪声的权重也为0.5，两个特征的重要通道会在加权平均后变弱，这会导致视频分类的准确性较低。

有鉴于此，本实施例中，可以使用通道金字塔注意力网络，从粗到细，逐步将每个特征分割为若干个子特征，并为每个子特征指定相应的权重，这样，如图5中右下角所示，可以将每个特征中的重要部分的权重设置为1.0，并将不重要部分的权重设置为0.0，例如，可以将Feature1这个特征位于上半部分的子特征的权重设置为1.0，将Feature1这个特征位于下半部分的子特征的权重设置为0.0，并且，可以将Feature2这个特征位于上半部分的子特征的权重设置为0.0，将Feature2这个特征位于下半部分的子特征的权重设置为1.0，这样，在后续进行加权运算之后，重要的通道信息能够得到完全保留，这样有利于得到更为准确的分类结果。可见，本实施例中，通过使用通道金字塔注意力网络，能够有效地保证分类结果的准确性。

可选地，N的值越大，待分类视频的视频时长越长。

具体地，电子设备中可以预先存储有视频时长范围与N的取值之间的对应关系；其中，10分钟至15分钟这个视频时长范围可以与5这个取值对应，5分钟至10分钟这个视频时长范围可以与4这个取值对应，0分钟至5分钟这个视频时长范围可以与3这个取值对应。

那么，在待分类视频的视频时长位于10分钟至15分钟这个视频时长范围的情况下，每个第二输出结果中可以包括特征细粒度互异的5个子特征序列集合，这时，通道金字塔注意力网络的通道金字塔的层级为5级。在待分类视频的视频时长位于0分钟至5分钟这个视频时长范围的情况下，每个第二输出结果中可以包括特征细粒度互异的3个子特征序列集合，这时，通道金字塔注意力网络的通道金字塔的层级为3级。

可见，本实施例中，在使用通道金字塔注意力网络时，通道金字塔的层级不是完全固定不变的，通道金字塔的层级可以根据待分类视频的视频时长的长短进行灵活地调整，以使得通道金字塔的层级与待分类视频的视频时长相匹配，从而保证分类效率和分类效果。

可选地，第一特征序列的数量为至少两个，每个第一特征序列对应的特征类型互异。

这里，第一特征序列的数量可以为两个、三个、四个或者四个以上，在此不再一一列举。

在一种具体实施方式中，至少两个第一特征序列可以包括第一目标特征序列、第二目标特征序列和第三目标特征序列；其中，

第一目标特征序列对应的特征类型为图像特征类型，第二目标特征序列对应的特征类型为光流特征类型，第三目标特征序列对应的特征类型为语音特征类型。

在另一种具体实施方式中，至少两个第一特征序列可以仅包括第一目标特征序列和第二目标特征序列；其中，

第一目标特征序列对应的特征类型为图像特征类型、光流特征类型和语音特征类型中的任一项；第二目标特征序列对应的特征类型为图像特征类型、光流特征类型和语音特征类型中的任一项。

需要说明的是，不同特征类型的第一特征序列可以认为是待分类视频的不同模态特征，通过使用至少两个第一特征序列进行视频分类，能够实现多模态融合，从而提高分类的鲁棒性和精度。

可见，本实施例中，可以基于待分类视频的多模态特征，用时间金字塔注意力网络和通道金字塔注意力网络这两种金字塔注意力网络，来进行视频的分类。具体来说，可以首先使用基于卷积神经网络的模型提取视频的图像特征、光流特征和语音特征等关键特征，然后将各种特征类型的第一特征序列依次经过时间时间金字塔注意力网络和通道金字塔注意力网络，之后再将各种特征类型的特征连接融合，得到代表整个待分类视频的特征的目标向量，最后通过一个全连接网络进行分类，从而得到待分类视频在各个类别上可能的概率，至此就实现了视频的分类。

通过上述方式，能够利用时间金字塔注意力网络克服现有技术中不考虑时序信息的弱点，并能够利用通道金字塔注意力网络来提高整体分类准确性和分类效率，这样，本实施例中的视频分类方法在单标签、多标签、短视频、长视频、弱时序依赖、强时序依赖的视频分类场景下，都得到很好的结果，并且，该方法的应用可以减少对于不同分类场景的训练和调优时间，整个流程更加简洁智能，节约人力成本。

下面对本发明实施例提供的视频分类装置进行说明。

参加图6，图中示出了本发明实施例提供的视频分类装置600的结构框图。如图6所示，视频分类装置600包括：

第一获得模块601，用于获得待分类视频的第一特征序列；其中，第一特征序列中的特征按照时间顺序排列；

第二获得模块602，用于将第一特征序列输入目标金字塔注意力网络，获得目标金字塔注意力网络输出的第一输出结果；

第三获得模块603，用于根据第一输出结果，获得目标向量；

分类模块604，用于根据目标向量，对待分类视频进行分类。

可选地，目标金字塔注意力网络为时间金字塔注意力网络；

可选地，M的值越大，待分类视频的视频时长越长。

可选地，第三获得模块603，包括：

第一获得单元，用于分别将第一输出结果中的每个第二特征序列输入通道金字塔注意力网络，以获得通道金字塔注意力网络分别输出的，每个第二特征序列对应的第二输出结果；

第二获得单元，用于根据各第二特征序列对应的第二输出结果，获得目标向量；

可选地，N的值越大，待分类视频的视频时长越长。

可选地，任一第二输出结果中还包括其所包括的每个子特征序列中的每个子特征对应的权重；

第二获得单元，包括：

第一获得子单元，用于针对每个第二输出结果中的每个子特征序列，根据其中的每个子特征以及相应权重，进行加权求和，得到相应的特征向量；

第二获得子单元，用于根据所有子特征序列对应的特征向量，进行拼接运算，得到拼接向量；

确定子单元，用于将拼接向量作为目标向量。

可选地，分类模块604，具体用于：

可选地，至少两个第一特征序列包括第一目标特征序列、第二目标特征序列和第三目标特征序列；其中，

下面对本发明实施例提供的电子设备进行说明。

参见图7，图中示出了本发明实施例提供的电子设备700的结构示意图。如图7所示，电子设备700包括：处理器701、存储器703、用户接口704和总线接口。

处理器701，用于读取存储器703中的程序，执行下列过程：

获得待分类视频的第一特征序列；其中，第一特征序列中的特征按照时间顺序排列；

将第一特征序列输入目标金字塔注意力网络，获得目标金字塔注意力网络输出的第一输出结果；

根据第一输出结果，获得目标向量；

根据目标向量，对待分类视频进行分类。

在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器701代表的一个或多个处理器和存储器703代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备，用户接口704还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器701负责管理总线架构和通常的处理，存储器703可以存储处理器701在执行操作时所使用的数据。

可选地，目标金字塔注意力网络为时间金字塔注意力网络；

可选地，M的值越大，待分类视频的视频时长越长。

可选地，处理器701，具体用于：

根据各第二特征序列对应的第二输出结果，获得目标向量；

可选地，N的值越大，待分类视频的视频时长越长。

处理器701，具体用于：

将拼接向量作为目标向量。

可选地，处理器701，具体用于：

优选地，本发明实施例还提供一种电子设备，包括处理器701，存储器703，存储在存储器703上并可在所述处理器701上运行的计算机程序，该计算机程序被处理器701执行时实现上述视频分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

根据所述第一输出结果，获得目标向量；

根据所述目标向量，对所述待分类视频进行分类；

所述目标金字塔注意力网络为时间金字塔注意力网络；

所述第一输出结果中包括时间尺度互异的M个特征序列集合，每个所述特征序列集合由所述第一特征序列按照相应时间尺度分割得到的各第二特征序列构成，每个所述特征序列集合中的所述第二特征序列按照时间顺序排列，每个所述第二特征序列中的特征按照时间顺序排列，M为大于1的整数；

所述根据所述第一输出结果，获得目标向量，包括：

分别将所述第一输出结果中的每个所述第二特征序列输入通道金字塔注意力网络，以获得所述通道金字塔注意力网络分别输出的，每个所述第二特征序列对应的第二输出结果；

根据各所述第二特征序列对应的第二输出结果，获得目标向量；

其中，任一所述第二特征序列对应的第二输出结果中包括特征细粒度互异的N个子特征序列集合，每个所述子特征序列集合由一所述第二特征序列按照相应特征细粒度进行分割得到的各子特征序列构成，每个所述子特征序列中的子特征按照时间顺序排列，N为大于1的整数。

2.根据权利要求1所述的方法，其特征在于，M的值越大，所述待分类视频的视频时长越长。

3.根据权利要求1所述的方法，其特征在于，N的值越大，所述待分类视频的视频时长越长。

4.根据权利要求1所述的方法，其特征在于，任一所述第二输出结果中还包括其所包括的每个所述子特征序列中的每个所述子特征对应的权重；

所述根据各所述第二特征序列对应的第二输出结果，获得目标向量，包括：

针对每个所述第二输出结果中的每个所述子特征序列，根据其中的每个所述子特征以及相应权重，进行加权求和，得到相应的特征向量；

根据所有所述子特征序列对应的特征向量，进行拼接运算，得到拼接向量；

将所述拼接向量作为目标向量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标向量，对所述待分类视频进行分类，包括：

将所述目标向量输入全连接网络，以获得所述全连接网络输出的，所述待分类视频的分类结果。

6.根据权利要求1所述的方法，其特征在于，所述第一特征序列的数量为至少两个，每个所述第一特征序列对应的特征类型互异。

7.根据权利要求6所述的方法，其特征在于，至少两个所述第一特征序列包括第一目标特征序列、第二目标特征序列和第三目标特征序列；其中，

所述第一目标特征序列对应的特征类型为图像特征类型，所述第二目标特征序列对应的特征类型为光流特征类型，所述第三目标特征序列对应的特征类型为语音特征类型。

8.一种视频分类装置，其特征在于，所述装置包括：

分类模块，用于根据所述目标向量，对所述待分类视频进行分类；

所述目标金字塔注意力网络为时间金字塔注意力网络；

所述第三获得模块，包括：

第一获得单元，用于分别将所述第一输出结果中的每个所述第二特征序列输入通道金字塔注意力网络，以获得所述通道金字塔注意力网络分别输出的，每个所述第二特征序列对应的第二输出结果；

第二获得单元，用于根据各所述第二特征序列对应的第二输出结果，获得目标向量；

9.根据权利要求8所述的装置，其特征在于，M的值越大，所述待分类视频的视频时长越长。

10.根据权利要求8所述的装置，其特征在于，N的值越大，所述待分类视频的视频时长越长。

11.根据权利要求8所述的装置，其特征在于，任一所述第二输出结果中还包括其所包括的每个所述子特征序列中的每个所述子特征对应的权重；

所述第二获得单元，包括：

第一获得子单元，用于针对每个所述第二输出结果中的每个所述子特征序列，根据其中的每个所述子特征以及相应权重，进行加权求和，得到相应的特征向量；

第二获得子单元，用于根据所有所述子特征序列对应的特征向量，进行拼接运算，得到拼接向量；

确定子单元，用于将所述拼接向量作为目标向量。

12.根据权利要求8所述的装置，其特征在于，所述分类模块，具体用于：

13.根据权利要求8所述的装置，其特征在于，所述第一特征序列的数量为至少两个，每个所述第一特征序列对应的特征类型互异。

14.根据权利要求13所述的装置，其特征在于，至少两个所述第一特征序列包括第一目标特征序列、第二目标特征序列和第三目标特征序列；其中，

15.一种电子设备，其特征在于，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频分类方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视频分类方法的步骤。