CN111859023B

CN111859023B - 视频分类方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111859023B
Application number: CN202010531316.9A
Authority: CN
Inventors: 乔宇; 王亚立; 李先航; 周志鹏; 邹静
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2024-05-03
Anticipated expiration: 2040-06-11
Also published as: CN111859023A; WO2021248859A1; WO2021248859A9

Abstract

本申请属于图像处理领域，公开了一种视频分类方法、装置、设备及计算机可读存储介质。所述视频分类方法包括获取待分类视频；将所述待分类视频输入到已训练的视频分类模型中处理，输出所述待分类视频的分类结果；其中，所述视频分类模型包括特征提取层和全连接层，所述特征提取层用于通过二维卷积提取空间特征信息，通过池化提取时间特征信息，以及融合所述空间特征信息和时间特征信息输出融合特征信息，所述全连接层用于对所述融合特征信息进行全连接处理，得到所述分类结果。本申请实施例相对于三维卷积核计算，通过池化获得待分类视频的时间维度的特征信息，所采用的二维卷积可以大大的减少卷积参数的计算，有利于降低视频分类的计算量。

Description

视频分类方法、装置、设备及计算机可读存储介质

技术领域

本申请属于图像处理领域，尤其涉及视频分类方法、装置、设备及计算机可读存储介质。

背景技术

为了便于对图像管理，可通过深度学习的方式，对图像内容进行识别和分类。近年来，随着卷积神经网络在图像分类任务上取得的重大突破，通过二维卷积神经网络对图像分类的准确度甚至超过了人类分类的准确度。

在使用二维卷积神经网络对图像进行精准分类的同时，也可以将其应用于由图像构成的视频的分类。由于视频数据相较于静态图片多了一个时间维度，为了提取视频中的时间维度的信息，通常采用包括时间维度的三维卷积核，在时间和空间上同时提取特征。但是，通过三维卷积核进行卷积计算时，相对于二维卷积计算，会增加额外的参数，导致计算量增大。

发明内容

有鉴于此，本申请实施例提供了视频分类方法、装置、设备及计算机可读存储介质，以解决现有技术中通过三维卷积核进行卷积计算视频分类时，相对于二维卷积计算，会增加额外参数，导致计算量增大的问题。

本申请实施例的第一方面提供了一种视频分类方法，所述方法包括：

获取待分类视频，所述待分类视频包括多个视频帧；

将所述待分类视频输入到已训练的视频分类模型中处理，输出所述待分类视频的分类结果；其中，所述视频分类模型包括特征提取层和全连接层，所述特征提取层用于通过二维卷积提取所述多个视频帧的空间特征信息，并通过池化提取所述多个视频帧的时间特征信息，以及融合所述空间特征信息和时间特征信息输出融合特征信息，所述全连接层用于对所述特征提取层输出的融合特征信息进行全连接处理，得到所述分类结果。

结合第一方面，在第一方面的第一种可能实现方式中，所述特征提取层包括N个特征提取子层，N≥1，所述N个特征提取子层中第一个特征提取子层的输入信息为所述多个视频帧，前一个特征提取子层的输出信息为后一个特征提取子层的输入信息，第N个特征提取子层的输出信息为所述特征提取层输出的融合特征信息；所述N个特征提取子层中的每个特征提取子层包括大感受野上下文特征提取分支和小感受野核心特征提取分支，所述N个特征提取子层中的每个特征提取子层对输入信息的处理，包括：

通过大感受野上下文特征提取分支对所述输入信息进行池化处理，提取所述输入信息的时间特征信息；

通过小感受野核心特征提取分支对所述输入信息进行二维卷积处理，提取所述输入信息的空间特征信息；

对大感受野上下文特征提取分支提取到的时间特征信息和小感受野核心特征提取分支提取到的空间特征信息进行融合，得到输出信息。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，通过大感受野上下文特征提取分支对所述输入信息进行池化处理，提取所述输入信息的时间特征信息，包括：

通过大感受野上下文特征提取分支对所述输入信息进行三维池化处理，得到池化信息；

通过大感受野上下文特征提取分支对所述池化信息进行二维卷积处理，得到时间特征信息。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，通过大感受野上下文特征提取分支对所述输入信息进行三维池化处理，得到池化信息，包括：

通过大感受野上下文特征提取分支中的三维池化核{t,K,K}对所述输入信息进行池化处理，得到池化信息，其中，t为时间方向的核大的小，且t小于或等于视频时长，K为池化核在图像所在的二维空间的大小，所述三维池化核为单次池化计算时所选定的池化像素的大小。

结合第一方面的第三种可能实现方式，在第一方面的第四种可能实现方式中，在所述特征提取层包括的N个三维池化核中，N个三维池化核的大小完全相同，或者N个三维池化核的大小完全不同，或者N个三维池化核中部分池化核的大小相同，所述三维池化核为单次池化计算时所选定的池化像素的大小。

结合第一方面的第三种或第四种可能实现方式，在第一方面的第五种可能实现方式中，N个三维池化核的大小完全不同包括：

随着特征信息提取的先后，逐步增加所述三维池化核的大小。

结合第一方面的第五种可能实现方式，在第一方面的第六种可能实现方式中，逐步增加所述三维池化核的大小，包括：

逐步增加所述三维池化核的时间方向的大小；

或者，逐步增加所述三维池化核在视频帧所在的二维空间的维度的大小；

或者，逐步增加所述三维池化核的时间方向的大小和视频帧所在的二维空间的维度的大小。

结合第一方面的第二种可能实现方式，在第一方面的第七种可能实现方式中，所述大感受野上下文特征提取分支中的二维卷积处理的卷积参数，与所述小感受野核心特征提取分支中的二维卷积处理的卷积参数相同。

结合第一方面，在第一方面的第八种可能实现方式中，融合所述空间特征信息和时间特征信息输出融合特征信息，包括：

将所述空间特征信息的图像，与所述时间特征信息的图像叠加，生成所述融合特征信息。

第二方面，本申请实施例提供了一种视频分类装置，所述装置包括：

待分类视频获取单元，用于获取待分类视频，所述待分类视频包括多个视频帧；

分类单元，用于将所述待分类视频输入到已训练的视频分类模型中处理，输出所述待分类视频的分类结果；其中，所述视频分类模型包括特征提取层和全连接层，所述特征提取层用于通过二维卷积提取所述多个视频帧的空间特征信息，并通过池化提取所述多个视频帧的时间特征信息，以及融合所述空间特征信息和时间特征信息输出融合特征信息，所述全连接层用于对所述特征提取层输出的融合特征信息进行全连接处理，得到所述分类结果。

本申请实施例的第三方面提供了一种视频分类设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，使得视频分类设备实现如第一方面任一项所述视频分类方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述视频分类方法。

本申请实施例与现有技术相比存在的有益效果是：本申请通过分类模型通过二维卷积提取待分类视频中的多个视频帧的空间特征信息，通过池化提取多个视频帧的时间特征信息，并融合时间特征信息和空间特征信息，通过全连接层得到分类结果。由于本申请通过池化即可获得待分类视频的时间特征信息，相对于三维卷积核计算，本申请在保留时间特征信息的同时，所采用的二维卷积计算方式，可以大大的减少卷积参数的计算，有利于降低视频分类的计算量。并且本申请实施例可以***任意二维卷积网络对视频进行分类，有利于提高视频分类方法多样性和通用性。

附图说明

图1是本申请实施例提供的的视频分类应用场景示意图；

图2是现有技术采用三维卷积进行视频分类的示意图；

图3是本申请实施例提供的一种视频分类方法的实现流程示意图；

图4是本申请实施例提供的视频分类方法的实现示意图；

图5是本申请实施例提供的一种视频分类的实现示意图；

图6是本申请实施例提供的又一种视频分类的实现示意图；

图7是本申请实施例提供的一种视频分类装置的示意图；

图8是本申请实施例提供的视频分类设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

随着视频数据的兴起，越来越多的场景中需要使用到视频分类技术。通过本申请实施例所述的视频分类方法对视频进行分类管理，可以有效的提高视频使用的便利性。

比如，在智能监控领域，通过视频分类技术，将采集的监控视频进行分类，判断视频内容是否存在异常。本申请所述视频分类方法，对于动作帧的变化快慢不敏感，对于不同持续时长的动作均可以有效的进行建模，通过建模对监控视频进行分类，可以帮忙用户快速的查找到关键的监控信息，或者及时向监控人员发送异常提醒，使监控人员能够及时的处理监控视频中的异常。

比如，当设备中存储有大量的视频时，可以通过视频分类技术，可以将大量的视频分类为不同场景、不同心情、不同风络等类型的视频，从而便于用户快速的找到所需要的视频。

比如，对于智能体育运动训练或视频辅助裁判方面，包括较快动作的运动视频，比如投篮、体操或速滑等视频，以及较慢动作的运动视频，比如瑜珈视频等。可通过本申请所述视频分类方法对运动快慢时间不敏感的特性，对运动视频中的动作进行分类。

又比如，如图1所示，在视频娱乐平台中，平台服务器接收终端A上传的自己拍摄的视频，对所上传的视频进行分类处理，得到终端A所上传的视频的类别。当上传的视频数量越来越多时，对于同一类别的视频的数量也越来越多。当其它终端，比如终端B浏览时，通过预先分类结果，得到终端B浏览的视频类别。平台可以根据终端B所浏览的视频的类别，在相同类别中寻找其它视频并推荐给终端B，提升用户浏览视频的使用体验。

然而，目前较为常用的视频分类算法中，如图2所示，选用包括时间信息的三维卷积核，比如3*1*1的时间卷积核，对待分类视频进行卷积操作。三维卷积核包括图像的宽度W、高度H以及时长T，在进行卷积计算时，除了空间特征的参数计算，比如图2所示的图像中宽度W、高度H所在维度的参数的计算，还包括时间维度的参数计算。相比于传统的二维卷积核，三维卷积核增加了时间维度的参数计算，增加大量的参数，提高了视频分类的计算量。

为了降低视频分类计算时的计算量，本申请实施例提供了一种视频分类方法，如图3所示，所述视频分类方法包括：

在步骤S301中，获取待分类视频，待分类视频包括多个视频帧。

本申请实施例所述的待分类视频，可以为用户终端中存储的视频、监控设备所采集的视频或视频娱乐平台接收到的平台用户所上传的视频。当所述视频为监控设备所采集的视频时，可以根据预先设定的时间周期，将实时采集的视频划分为若干个子视频段，对所采集的子视频段进行分类，从而判断子视频段中是否所存在异常。

所述待分类视频中包括多个视频帧，且多个视频帧按照时间顺序依次排列。根据待分类视频，可以确定每个视频帧的宽度W和高度H的空间信息。根据视频帧之间的时间间隔和初始播放时间，可以确定各个视频帧所对应的播放时间。

在步骤S302中，将所述待分类视频输入到已训练的视频分类模型中处理，输出所述待分类视频的分类结果；其中，所述视频分类模型包括特征提取层和全连接层，所述特征提取层用于通过二维卷积提取所述多个视频帧的空间特征信息，并通过池化提取所述多个视频帧的时间特征信息，以及融合所述空间特征信息和时间特征信息输出融合特征信息，所述全连接层用于对所述特征提取层输出的融合特征信息进行全连接处理，得到所述分类结果。

所述特征提取层可以包括大感受野上下文特征提取分支和小感受野核心特征提取分支。其中，大感受野上下文特征提取分支用于提取时间特征信息，或者也可以提取包括时间特征信息的时空特征信息，所述上下文特征也即时间特征信息。所述大感受野，可以通过多个特征提取子层级联的方式获得，也可以通过逐渐增加三维池化核的大小的方式获得。所述小感受野核心特征提取分支用于提取待分类视频中的每个视频帧中的二维平面的空间特征信息。所述特征提取层还用于将提取的时间特征信息和空间特征信息融合，得到融合特征信息。即，通过双分支结构，可以有效的获取到由大感受野上下文提取分支所提取上下文信息，以及小感受野核心特征提取分支所提取的核心特征。

在可能的实现方式中，所述视频分类模型中，所述特征提取层可以包括N特征提取子层，其中，N大于或等于1。

比如，所述特征提取层可以包括1个特征提取子层，通过一个特征提取子层输出融合特征信息，通过全连接层对所述融合特征信息进行全连接处理，得到所述分类结果。

当所述N大于或等于2时，前一个或前一级的特征提取子层的输出信息，作为后一个或后一级的特征提取子层的输入信息。比如，第i个特征提取子层输出的融合特征信息，作为第i+1个特征提取子层的输入信息。其中，第i个特征提取子层所输出的融合的特征信息，融合有时间特征信息和空间特征信息，可以由第i+1个特征提取子层通过池化进一步提取特征信息。其中，i大于或等于1且小于N。

其中，所述融合特征信息，是指对时间特征信息和空间特征信息进行了融合处理后的特征信息。所述融合处理，可以是指特征信息的叠加。比如，可以是时间特征信息对应的图像，与空间特征信息对应的图像，进行像素的叠加处理。

为了使得融合时的时间特征信息和空间特征信息所对应的图像的尺寸一致，当对输入信息进行池化处理时，可以使得池化处理的输入信息与池化处理的输出信息所对应的图像的尺寸的一致。

在一种实现方式中，可以对输入信息进行填充Padding处理，即对输入的特征图像或视频帧，在时间维度，或者还包括空间维度进行填充，从而使得池化核对填充后的输入信息进行池化处理后，得到的输出信息的尺寸，与未填充的输入信息的尺寸一致。

比如，在确定了输入信息的尺寸为n，池化核的大小为f，步长为s，填充大小为p，输出信息的尺寸为o，可以根据公式：

来计算需要填充的大小。

比如，对于池化核大的小为3*3*3、步长为1的池化操作，为了得到输出信息与输入信息的尺寸相同，可以选用填充参数padding的大小为2。

其中，池化核大的小为3*3*3，是指池化核在被池化的图像所在的二维平面的维度大小为3*3，单位可以为像素或者其它预定的长度单位。在时间维度的长度为3，单位可以为视频时长，比如3秒视频时长，通过视频时长可以确定该视频时长所对应的视频帧的数量。当然，所述三维池化核的定义可以不局限于此，还可以直接通过视频帧的数量来确定池化核在时间维度的大小。

所述二维卷积，是指对视频帧的图像所在平面的维度，即宽度和高度这两个维度所进行的卷积。所选用的卷积核大的小为二维空间的卷积核。

二维卷积提取空间特征信息时，可以基于预定的固定大小的卷积核来完成空间特征信息的提取。当然，也可以选用现有的神经网络模型，比如可以为LeNet架构的卷积神经网络、AlexNet架构的卷积神经网络、ResNet架构的卷积神经网络、Google架构的卷积神经网络、VGGNet架构的卷积神经网络等神经网络模型，提取空间特征信息。因此，在对空间特征信息提取的过程中，无需改变卷积神经网络本身对视频帧的识别能力，获得待分类视频中的视频帧的空间特征信息，即视频帧在宽度W和高度H维度所包括的特征信息。

由于本申请所述的视频分类方法中可以***任意的二维卷积网络，达到三维卷积网络对时间特征信息采集的效果，并且不需要特征的硬件或深度学习平台的优化，从而也不需要借助于特定的网络设计，因而能够有效的提高本申请所述视频分类方法的通用性。

并且，相对于目前使用的即插即用的视频识别模块，包括如时间位移模块TSM和非局部神经网络nonlocal视频识别模块，在保证了分类结果准确性的前提下，有利于降低分类过程中的计算量。

在可能的实现方式中，可以通过大感受野上下文特征提取分支对所述输入信息进行三维池化处理，得到池化信息，然后再通过大感受野上下文特征提取分支对所述池化信息进行二维卷积处理，得到时间特征信息。

比如，在图4所示的视频分类方法结构示意图中，所述二维卷积通过基于单个视频帧的图像所在的二维平面进行卷积操作，在不会增加对二维图像的特征信息的提取复杂度的前提下，获取待分类视频的各帧图像的空间特征信息，即获取各个视频帧的宽度W和高度H维度的特征信息。

在一种实现方式中，所述二维卷积的卷积核，可以表示为：{C1，C2，1，K，K}，其中C1表示输入的特征图像的通道数，C2表示输出特征图像的通道数，卷积核中的“1”所在的位置，表示卷积核时间维度，“1”表示其卷积核不在时间维度扩展，即每次进行二维卷积时，仅仅是针对同一视频帧的图像进行卷积，K表示该卷积核在视频帧所在的二维空间上的大小。

通过池化提取时间特征信息，所述池化处理可以包括最大池化、平均池化或全局平均池化等池化处理方式。比如，当选用最大池化的操作时，可以根据池化核选择需要池化的像素，并选择像素值最大的像素，作为池化后的像素值。

在一种实现方式中，所述三维池化核可以表示为{t，K，K}，其中t表示池化核在时间方向的大小，K表示池化核在图像所在的二维空间的大小。特定的，我们可以设定t＝3或者t＝T(视频长度，或者视频时长所对应的视频帧数量或图像数量)。由于池化操作不需要进行卷积计算，仅需要比较数值大小即可，所以所需要的计算量非常小。

对于时间方向大小的参数t所选择的大小的不同，在池化过程中所对应的视频帧的数量也不同。根据池化步长的设定，同一视频帧可以作为不同池化核所池化的对象。当池化核中的K值大于1时，表示池化核同时还对二维空间中的多个像素或区域进行池化。为了便于后续融合，在池化时，可以采用带有填充padding的池化操作，对池化后的图像的边缘进行填充，保证池化前后的输入信息与输出信息的图像的尺寸的一致性。

在池化处理后，对池化处理的输出信息进行卷积处理。池化后的输出信息融合了相邻时空上t*K*K大小的时空信息，再通过二维卷积的方式，对所述池化后的输出信息进行卷积操作，得到多个视频帧的时间特征信息。

在一种实现方式中，所述小感受野核心特征提取分支和大感受野上下文特征提取分支的卷积操作，可以通过共享参数的方式，使用相同的卷积参数进行卷积操作。从而使得提取时间特征信息时，不需要引入新的计算时间维度的特征信息的卷积参数，可以在获取时间特征信息，不需要增加时间特征信息的计算参数，减少视频分类模型的计算量。

在N个特征提取子层中所包括的N个三维池化核中，可以为任意两个三维池化核的大小均不相同，或者也可以为N个三维池化核的大小均相同，或者也可以为部分三维池化核的大小相同，部分三维池化核的大小不同。

在可能的实现方式中，所述大感受野上下文特征提取分支的三维池化处理所采用的三维池化核，可以采用不同大小的时间维度或不同大小的空间维度。

比如，调整所述三维池化所采用的池化核的大小，可以包括调整所述三维池化核中的时间维度或时间方向的大小，或三维池化核在视频帧所在的二维空间的维度的大小，或者三维池化核在时间维度和空间维度的大小，得到不同大小的三维池化核，通过不同大小的三维池化核，计算得到相应的时空特征信息，该时空特征信息包括时间特征信息。

在可能的实现方式中，可以通过逐步增大池化核的大小，包括逐步增加池化核在时间维度的大小，或者逐步增加池化核的视频帧所在的二维空间的大小，或者同时增加池化核在时间维度的大小和视频帧所在的二维空间的维度，得到池化后的特征图像，从而通过不同池化核所池化后得到的不同时长特征的时间特征信息，逐步融合得到更加细粒度的时空特征信息。

在提取所述时间特征信息时，如图4所示，由于空间特征信息和时间特征信息所对应的图像，采用相同的卷积参数进行卷积操作，因此，时空特征信息和时间特征信息的图像的对应点所代表的信息具有空间一致性，即空间特征信息和时间特征信息的大小一致，可以采用空间上逐点相加的策略，得到融合特征信息。

通过融合空间特征信息和时间特征信息所得到的融合特征信息，且空间特征信息通过二维卷积提取了视频帧的空间特征，时间特征信息通过池化提取了图像的时空特征，因而融合特征信息包括待分类视频中的图像的空间特征和时空特征，通过全连接层综合所述融合特征信息，根据综合的融合特征信息，对待分类视频进行分类，得到视频分类结果。比如，可以根据预先设定的全连接层权重系数，对所述融合特征信息进行全连接计算，根据计算结果与预设的分类标准进行比较，确定视频分类结果。

由于在视频分类过程中不需要增加时间维度的卷积参数的计算，只需要进行简单的池化操作，即可有效的获取待分类视频的时空特征信息，有利于减少计算的参数量，降低视频分类计算复杂度。

在本申请可能的实现方式中，所述视频分类模型可以包括两个或两个以上的特征提取层，通过两个或两个以上的特征提取层，可以提取两个或两个以上的时空特征图像(待分类视频属于时空特征图像中的一种)。比如，在图5所示的视频分类实现示意图中，特征提取层包括两个特征提取子层，在本申请实施例中，所述特征提取层可以简称为SmallBig单元。如图5所示，视频分类模型中的特征提取层包括两个特征提取子层，分别为SmallBig单元1和SmallBig单元2，且在先的特征提取子层SmallBig单元1所提取的融合特征信息，可以作为下一级特征提取子层SmallBig单元2的输入，根据第二级特征提取子层SmallBig单元2所得到的融合特征信息，由全连接层进行视频分类，输出视频所属类别。

具体的，如图5所示，待分类视频输入至第一级特征提取层SmallBig单元1，对其中包括的多个视频帧进行二维卷积的第一卷积操作，得到多个视频帧所包括的空间特征信息。经过对待分类视频的视频帧在时间维度的第一池化操作，包括对待分类视频中的多个视频帧，采用预定时长参数的三维池化核进行池化处理。对于池化后的图像，再进一步通过与第一卷积操作的卷积参数共享的方式，即采用第一卷积操作的卷积参数，对池化后的图像进行二维卷积的第二卷积操作，得到时间特征信息。然后将时空特征信息与时间特征信息融合，得到融合特征信息。根据时间特征信息和空间特征信息所对应的图像的尺寸的一致信息，将空间特征信息和时间特征信息所对应的图像的对应像素点进行像素相加，得到包括空间特征和时空特征的融合特征信息，所述融合特征信息可以包括多帧图像。

将融合特征信息输入至第二级的特征提取子层SmallBig单元2，对融合特征信息中的每个通道的图像，经过第三卷积操作，进一步得到SmallBig单元1的融合特征信息中的空间特征信息。对SmallBig单元1输出的融合特征信息中的多个通道的图像，根据通道的时间顺序，在时间维度对所述融合特征信息进行第二池化操作，对第二池化操作得到的池化信息进行第四卷积操作，进一步提取SmallBig单元1的融合特征信息中的多个图像的时间特征信息。其中，第四卷积操作与第三卷积操作采用相同的卷积参数。

当然，不必局限于此，所述特征提取子层SmallBig单元的个数还可以包括三个或者三个以上。如图6为本申请实施例提供的一种通过三个特征提取子层进行视频分类的实现示意图，在图5的基础上，增加了第三级的特征提取子层SmallBig单元3。经由第二级的卷积操作和第二级的池化操作分别对第一级的特征提取子层SmallBig单元1所输出的融合特征信息处理，第二级的特征提取子层SmallBig单元2融合处理后的时间特征信息和空间特征信息，得到第二级的特征提取子层SmallBig单元2输出的融合特征信息。第三级的特征提取子层SmallBig单元3通过二维卷积和池化，分别对所述第二级的特征提取子层SmallBig单元2输出的融合特征信息进行处理，进一步提取时间特征信息和空间特征信息，融合得到第三级的特征提取子层SmallBig单元3输出的融合特征信息。

在可能的实现方式中，所述特征提取层还用于将所述待分类视频与所述特征提取层输出的融合特征信息叠加，构成残差连接来更新所述融合特征信息。

比如，对于图6所示的视频分类模型，在第三级的特征提取子层SmallBig单元3中，所融合的数据包括第三级的特征提取子层SmallBig单元3所计算得到的时间特征信息和空间特征信息，还叠加有待分类视频，将待分类视频与第三级的特征提取子层所提取的时间特征信息和空间特征信息融合，构成残差连接结构，使得训练时，新加入的参数不会影响到原先的预训练图像网络的参数，有利于提升图像网络的预训练效果，并且通过引入残差，有利于加快收敛，提高视频分类模型的训练效率。

如图6所示，第一级的特征提取子单元采用的卷积核大的小为第一卷积核，池化采用第一池化核，第二级的特征提取子单元采用的卷积核大的小为第二卷积核，池化采用第二池化核，第三级的特征提取子单元所采用的卷积核大的小为第三卷积核，池化采用第三池化核。

在可能的实现方式中，所述二维卷积采用的第一卷积核和第三卷积操作所采用的第三卷积核，小于第二卷积操作所采用的第二卷积核的大小。在一种实现方式中，图6所示，所述第一卷积核和第三卷积核大的小为1*1*1，第二卷积核大的小为1*3*3。通过第一卷积核和第三卷积核，可以完成多个通道和时空信息的融合。通过第二卷积核，可以用于完成时空特征的提取。

在可能的实现方式中，第一池化核和第二池化核，可以小于第三池化操作所采用的第三池化核大的小。在一种实现方式中，如图6所示，池化的第一池化核和第二池化核大的小为3*3*3，第三池化核大的小为3*3*T，其中T可以为视频时长，或者也可以为视频时长所对应的视频帧的数量。当所述T为视频时长时，t为时长。当所述T为视频时长对应的视频帧数量时，t为视频帧数量。通过第一池化核和第二池化核，可以捕捉相邻三帧中的立体空间中的9个像素点的池化值，比如最大值池化。通过第三池化核，可以提取整个视频长度的视频帧的时间特征。通过在时间维度逐渐增加时间感受野，结合卷积学习的空间特征，使得输出的融合特征信息具有全局的时间感受紧随。并且，在SmallBig单元1和SmallBig单元3增加了两次空间上局部的感受野，使得整体模块的空间感受野也得到了增加。

在实际应用中，本申请所述的视频分类***，可以使用随机梯度下降算法(SGD)等优化算法进行训练，数据集可以采用主流的视频任务数据。通过在数据集训练的实验结果可知，在该网络结构中，本申请所述的视频分类方法，能够提供更高的精度、更快的收敛性和更好的鲁棒性，与目前最先进的网络相比，我们的仅输入8帧图像的视频分类识别，以更高的精度优于输入32帧的Nonlocal-R50(非局部R50网络)，并且使用比输入128帧的Nonlocal-R50少4.9倍的每秒浮点运算次数(英文全称为floating-point operations persecond，英文简称为GFlops)，但具有相同的精度。此外，同样的的GFlops下，本申请所述视频分类方法输入8帧的性能，优于当前最先进的36帧输入的快慢结合R50网络(英文全称为SlowFast-R50)。这些结果表明，本申请所述的用于视频分类的视频分类模型是一种准确、高效的视频分类模型。

另外，本申请还提供了一种视频分类模型训练方法，该方法包括：获取样本视频集中的样本视频，以及样本视频的样本分类结果，所述样本视频包括多个视频帧；通过二维卷积提取样本视频中的空间特征信息；通过池化提取样本视频中的时间特征信息；融合所述空间特征信息和时间特征信息，得到融合特征信息，对所述融合特征信息进行全连接处理，得到模型分类结果；将所述模型分类结果与样本分类结果，对二维卷积的参数进行修正，并返回执行通过二维卷积提取样本视频中的空间特征信息的步骤，直至所述模型分类结果与所述样本分类结果满足预设条件，得到已训练的视频分类模型。

所述视频分类模型的结构与图2所示的视频分类方法所采用的神经网络模型一致，在此不作重复赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图7为本申请实施例提供的一种视频分类装置的示意图，所述视频分类装置包括：

待分类视频获取单元701，用于获取待分类视频，所述待分类视频包括多个视频帧；

分类单元702，用于将所述待分类视频输入到已训练的视频分类模型中处理，输出所述待分类视频的分类结果；其中，所述视频分类模型包括特征提取层和全连接层，所述特征提取层用于通过二维卷积提取所述多个视频帧的空间特征信息，并通过池化提取所述多个视频帧的时间特征信息，以及融合所述空间特征信息和时间特征信息输出融合特征信息，所述全连接层用于对所述特征提取层输出的融合特征信息进行全连接处理，得到所述分类结果。

图7所述的视频分类装置，与图3所示的视频分类方法对应。通过所述视频分类装置，可以执行上述任一实施例所描述的视频分类方法。

图8是本申请一实施例提供的视频分类设备的示意图。如图8所示，该实施例的视频分类设备8包括：处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82，例如视频分类程序。所述处理器80执行所述计算机程序82时实现上述各个视频分类方法实施例中的步骤。或者，所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序82可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器81中，并由所述处理器80执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述视频分类设备8中的执行过程。

所述视频分类设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述视频分类设备可包括，但不仅限于，处理器80、存储器81。本领域技术人员可以理解，图8仅仅是视频分类设备8的示例，并不构成对视频分类设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述视频分类设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述视频分类设备8的内部存储单元，例如视频分类设备8的硬盘或内存。所述存储器81也可以是所述视频分类设备8的外部存储设备，例如所述视频分类设备8上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述视频分类设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述视频分类设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取待分类视频，所述待分类视频包括多个视频帧；

将所述待分类视频输入到已训练的视频分类模型中处理，输出所述待分类视频的分类结果；其中，所述视频分类模型包括特征提取层和全连接层，所述特征提取层用于通过二维卷积提取所述多个视频帧的空间特征信息，并通过池化提取所述多个视频帧的时间特征信息，以及融合所述空间特征信息和时间特征信息输出融合特征信息，所述全连接层用于对所述特征提取层输出的融合特征信息进行全连接处理，得到所述分类结果；

所述特征提取层包括N个特征提取子层，N≥1，所述N个特征提取子层中第一个特征提取子层的输入信息为所述多个视频帧，前一个特征提取子层的输出信息为后一个特征提取子层的输入信息，第N个特征提取子层的输出信息为所述特征提取层输出的融合特征信息；所述N个特征提取子层中的每个特征提取子层包括大感受野上下文特征提取分支和小感受野核心特征提取分支，所述N个特征提取子层中的每个特征提取子层对输入信息的处理，包括：

2.根据权利要求1所述的方法，其特征在于，通过大感受野上下文特征提取分支对所述输入信息进行池化处理，提取所述输入信息的时间特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，通过大感受野上下文特征提取分支对所述输入信息进行三维池化处理，得到池化信息，包括：

4.根据权利要求3所述的方法，其特征在于，在所述特征提取层包括的N个三维池化核中，N个三维池化核的大小完全相同，或者N个三维池化核的大小完全不同，或者N个三维池化核中部分池化核的大小相同，所述三维池化核为单次池化计算时所选定的池化像素的大小。

5.根据权利要求3或4所述的方法，其特征在于，N个三维池化核的大小完全不同包括：

6.根据权利要求5所述的方法，其特征在于，逐步增加所述三维池化核的大小，包括：

逐步增加所述三维池化核的时间方向的大小；

7.根据权利要求2所述的方法，其特征在于，所述大感受野上下文特征提取分支中的二维卷积处理的卷积参数，与所述小感受野核心特征提取分支中的二维卷积处理的卷积参数相同。

8.根据权利要求1的方法，其特征在于，融合所述空间特征信息和时间特征信息输出融合特征信息，包括：

9.一种视频分类装置，其特征在于，所述装置包括：

分类单元，用于将待分类视频获取单元所获取的所述待分类视频输入到已训练的视频分类模型中处理，输出所述待分类视频的分类结果；其中，所述视频分类模型包括特征提取层和全连接层，所述特征提取层用于通过二维卷积提取所述多个视频帧的空间特征信息，并通过池化提取所述多个视频帧的时间特征信息，以及融合所述空间特征信息和时间特征信息输出融合特征信息，所述全连接层用于对所述特征提取层输出的融合特征信息进行全连接处理，得到所述分类结果，所述特征提取层包括N个特征提取子层，N≥1，所述N个特征提取子层中第一个特征提取子层的输入信息为所述多个视频帧，前一个特征提取子层的输出信息为后一个特征提取子层的输入信息，第N个特征提取子层的输出信息为所述特征提取层输出的融合特征信息；所述N个特征提取子层中的每个特征提取子层包括大感受野上下文特征提取分支和小感受野核心特征提取分支，所述N个特征提取子层中的每个特征提取子层对输入信息的处理，包括：通过大感受野上下文特征提取分支对所述输入信息进行池化处理，提取所述输入信息的时间特征信息；通过小感受野核心特征提取分支对所述输入信息进行二维卷积处理，提取所述输入信息的空间特征信息；对大感受野上下文特征提取分支提取到的时间特征信息和小感受野核心特征提取分支提取到的空间特征信息进行融合，得到输出信息。

10.一种视频分类设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使得视频分类设备实现如权利要求1至8任一项所述方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。