CN111582230A

CN111582230A - 基于空时特征的视频行为分类方法

Info

Publication number: CN111582230A
Application number: CN202010434466.8A
Authority: CN
Inventors: 徐杰; 宋瑞; 廖静茹; 张昱航
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-08-25

Abstract

本发明公开了一种基于空时特征的视频行为分类方法，涉及视频识别技术领域，其构建的双通道网络结构包括空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络，空间特征提取网络与时间特征提取网络并联后，与特征融合网络和softmax网络依次串联，所述空间特征提取网络为inception网络，所述时间特征提取网络包括依次串联的MotionNet网络、带OFF子网络的inception网络，所述MotionNet网络包括下采样网络和上采样网络，所述下采样网络包括若干卷积层，所述上采样网络包括若干反卷积层，MotionNet网络能大幅度提高时间流的光流提取速度，MotionNet网络结合带OFF子网络的inception网络能更充足的提取光流特征，通过将空间特征和时间特征融合后，利用空时特征进行视频分类，提高了视频分类正确率。

Description

基于空时特征的视频行为分类方法

技术领域

本发明涉及视频识别技术领域，具体而言，涉及一种基于空时特征的视频行为分类方法。

背景技术

目前，视频行为分类方法主要包括基于多通道的视频行为分类方法和基于三维卷积的视频行为分类方法。

基于多通道的视频行为分类方法主要以two stream模型为典型代表，该模型主要包括三个部分：以提取空间特征为主要任务的空间流，以提取运动信息为主要特征的时间流以及融合两部分特征的融合层。空间流将视频的RGB帧作为输入，利用卷积神经网络的多层网络结构，局部特征提取，逐层提取深度语义信息和特征选择等特点提取输入的RGB帧中所包含的物品信息。时间流将连续的光流作为输入，利用二维卷积核将对连续的光流进行特征提取，提取出光流中可能存在的动作特征，利用产生的运动特征进行视频行为分类。融合层主要是将空间流生成的空间特征和时间流生成的动作特征寻找合适的权重进行融合，最终对视频进行行为分类，生成对应的行为得分，将最高的得分类别作为输出类别。

基于多通道的视频行为分类方法存在以下缺陷：

1)使用原始的VGG网络提取光流特征，其无法充分的提取光流特征。

2)使用传统的光流计算方法，由于传统的光流计算方法不仅需要巨大的计算力而且还需要大量的时间，导致基于多通道的模型速度受到光流计算方法的速度限制低于14fps。

基于三维卷积的视频行为分类方法是使用三维卷积核对视频行为分类，如C3D网络，其使用8个卷积层逐步提取视频中空间特征和时间特征，再使用8个卷积层来减少特征的维度，减少计算量，最后使用两个全连接层和softmax层来综合空时特征进行分类。网络中所使用的的所有三维卷积核都是3x3x3的大小，在时间维度和空间维度上的步长都是1。每个框中表示过滤器的数量，从pool1到pool5的池化层都是三维池化层，除了pool1的池化核大小为1x2x2之外所有的池化核的尺寸都是2x2x2。在网络中，所有的全连接层的神经元都为4096个。C3D通过三维卷积可以直接对视频进行行为分类，这使它的速度大大提升，可以达到600帧每秒，并且准确率在UCF101上可以达到85.2％。

基于三维卷积的视频行为分类方法存在以下缺陷：

由于3D卷积操作相对于原始的二维卷积多出了一个维度，因此C3D参数量规模相比于传统的基于二维卷积的模型更大，对于数据集要求更加的严格，需要大量的数据来训练网络，这将花费更多计算力和计算时间。

发明内容

本发明在于提供一种基于空时特征的视频行为分类方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

一种基于空时特征的视频行为分类方法，包括：

S1、获取视频数据集，将其分成训练集和测试集，对训练集进行预处理后从中提取得到训练视频RGB帧集，对测试集进行预处理后从中提取测试视频RGB帧集；

S2、构建双通道网络结构，其包括空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络，空间特征提取网络与时间特征提取网络并联后，与特征融合网络和softmax网络依次串联，所述空间特征提取网络为inception网络，所述时间特征提取网络包括依次串联的Motionnet网络、带OFF子网络的inception网络，所述Motionnet网络包括下采样网络和上采样网络，所述下采样网络包括若干卷积层，所述上采样网络包括若干反卷积层；

S3、利用训练视频RGB帧集训练若干轮双通道网络结构，每轮训练过程中所采用的训练视频RGB帧不相同，保存最后一轮得到的网络结构参数，得到视频行为分类网络模型；

S4、将测试视频RGB帧集输入所述视频行为分类网络模型，输出视频行为分类结果。

本技术方案的技术效果是：使用新的神经网络MotionNet代替传统的光流计算方法，大幅度提高时间流的光流提取速度；将OFF子网络加入到原本处理光流特征的inception网络中，进一步提取特征，能更充足的提取光流特征。通过特征融合网络将空间特征和时间特征融合后，利用空时特征进行视频分类，提高了视频分类正确率。

进一步地，所述步骤S1中，预处理包括：使用拉伸或者压缩方法将视频RGB帧大小处理为224x224。

本技术方案的技术效果是：保证输入大小与网络输入大小一致。

进一步地，对于双通道网络结构的每一轮训练，其训练过程包括：

将训练视频RGB帧输入空间特征提取网络，提取得到行为空间特征；

将训练视频RGB帧输入Motionnet网络，计算得到光流；

将计算得到的光流输入到带OFF子网络的inception网络中，提取得到行为光流特征；

利用特征融合网络，将行为空间特征和行为光流特征进行加权融合，得到空时特征；

将空时特征输入softmax网络中，得到训练分类结果，根据训练分类结果和训练视频RGB帧，对空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络进行梯度更新。

本技术方案的技术效果是：可以充分的迭代网络参数，让网络可以学习到正确的空时特征提取方式。

更进一步地，所述行为空间特征的提取方法具体为：

将训练视频RGB帧分成多段；

对于每段训练视频RGB帧，将其第一帧输入空间特征提取网络提取空间特征；

将从各段训练视频RGB帧提取到的空间特征进行融合，得到所述行为空间特征。

本技术方案的技术效果是：分段采样可以减少视频输入的数据量，并且增强网络对视频整体的理解。

更进一步地，所述Motionnet网络的下采样网络包括6个卷积层，上采样网络包括5个反卷积层，所述训练视频RGB帧的帧数量为11。

本技术方案的技术效果是：能先对RGB中的空间特征进行提取深层语义信息，再分析其语义信息更好的计算出光流。

更进一步地，所述Motionnet网络包括三个损失函数，各损失函数的权重值不同，且该三个损失函数***所述MotionNet网络的最后一层，且分别为针对重构后的两帧图像之间的像素级错误而生成的损失函数、平滑度损失函数和结构相似损失函数。

本技术方案的技术效果是：可以使Motionnet网络能够更加全面准确和高效的生成光流。

更进一步地，所述针对重构后的两帧图像之间的像素级错误而生成的损失函数如下：

其中，v^x和v^y分别是光流中x和y方向的速度，n是输入的视频RGB帧。

本技术方案的技术效果是：其中使用了凸误差函数减少异常值的影响，可以帮助神经网络在细节上更正错误，针对像素级的差异进行调节，使生成的光流更加的逼近与原本的真实的光流。

更进一步地，所述平滑度损失函数如下：

其中，L_am代表平滑度损失函数，

分别代表光流中x方向对于x，y方向上的变化量，

分别代表光流中y方向上对于x，y方向上的变化量。

本技术方案的技术效果是：不会出现孔径问题。

更进一步地，所述结构相似损失函数如下：

其中，I₁代表真实图像，I′₁代表计算出的图像，SSIM函数如下：

SSIM(x，y)＝(l(x，y))^α+(c(x，y))^β+(s(x，y))^γ

其中x，y分别指代两张图片，并且α＞0，β＞0，γ＞0，其中l(x，y)是亮度比较，c(x，y)是对比度比较，s(x，y)是结构比较，

其中，u_x和u_y分别代表x，y的平均值，σ_x和σ_y分别代表x，y的标准差，σ_xy代表x，y的协方差，c₁，c₂，c₃分别代表常数。

本技术方案的技术效果是：SSIM函数可以帮助网络学习全面的结构而不是只局限于局部的相似。

更进一步地，所述步骤S3中，双通道网络结构的训练次数为15000次。

本技术方案的技术效果是：使用较大额训练次数可以缓慢的寻找到网络的参数的最优值，确定网络学习到正确的特征。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是实施例中所述基于空时特征的视频行为分类方法流程图；

图2是实施例中所述Motionnet网络的结构示意图；

图3是实施例中所述双通道网络结构的示意图；

图4是实施例中所述空间特征提取网络的结构示意图；

图5是实施例中所述特征融合网络的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参照图1～图5，本实施例所述基于空时特征的视频行为分类方法，包括：

S1、获取视频数据集，将其分成训练集和测试集，对训练集进行预处理后从中提取得到训练视频RGB帧集，对测试集进行预处理后从中提取测试视频RGB帧集。

其中，预处理过程包括：使用拉伸或者压缩方法将视频RGB帧大小处理为224x224大小。

在本实施例中，训练集的视频RGB帧数量是测试集的视频RGB帧数量的两倍。

在本实施例中，用OPENCV2中VideoCapture提取视频中的RGB帧。

S2、构建双通道网络结构，如图3所示，其包括空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络，空间特征提取网络与时间特征提取网络并联后，与特征融合网络和softmax网络依次串联，空间特征提取网络为inception网络，时间特征提取网络包括依次串联的Motionnet网络、带OFF子网络的inception网络，Motionnet网络包括下采样网络和上采样网络，下采样网络包括若干逐层提取特征的卷积层，上采样网络包括若干反卷积层。

在本实施例中，为了提高光流计算速度，设计了新的神经网络-Motionnet网络，以此代替传统的光流计算网络。光流计算本质上是计算相邻两帧之间的一张速度图像，所以Motionnet网络将光流计算问题看作是图片的重构问题，通过提取相邻两张图像的特征来构建出光流图像。

其中，下采样网络的任务是提取相邻两帧的图像特征，上采样网络是为了通过下采样网络提取的特征恢复出对应的光流图像，对应尺寸的下采样网络和上采样网络直接连接，这是为了使用对应大小的特征层来进一步细节化计算的光流，Motionnet网络结构如图2所示。

S3、利用训练视频RGB帧集训练若干轮双通道网络结构，每轮训练过程中所采用的训练视频RGB帧不相同，保存最后一轮得到的网络结构参数，得到视频行为分类网络模型。

在本实施例中，双通道网络结构的训练次数为15000次。

在本实施例中，对于双通道网络结构的每一轮训练，其训练过程包括：

(1)将训练视频RGB帧输入空间特征提取网络，提取得到行为空间特征。

在本实施例中，空间特征提取网络采用inception网络，其结构如图4所示，结构(a)和结构(b)在模型中交替使用，它们之间的主要差异在于结构(a)相比于结构(b)多一路特征提取，因此它们可以提取到不同的特征。结构(a)和结构(b)每层都是用多个卷积核来提取特征，每个卷积核都上3x3的大小，可以得到不同的特征，在使用多个卷积核来提取特征的同时，先使用1x1的卷积核进行降维，这样可以在提取给更多特征的同时减少计算量，加快模型的运行速度，同时在参数减少的情况下，可以一定程度上的防止过拟合。显然，由于一层卷积网络由多个1x1和3x3的卷积核组成，可以加深网络的深度，能一定程度上的加深网络的非线性表达能力。

该网络的输入是单帧视频RGB图像，由于视频中可能存在不同位置的空间特征不同等原因，比如打篮球这一动作，在视频的一开始可能只是人物的入场，只包含人物并不存在篮球，而到视频后面才存在篮球这一物品特征，针对这一因素，本实施例所述行为空间特征的提取方法具体为：

将训练视频RGB帧平均分成多段，对于每段训练视频RGB帧，将其第一帧输入空间特征提取网络提取空间特征；例如如果将打篮球这一视频分为三段，则在视频一开始和视频中间以及视频结尾都抽取一帧RGB图像作为输入提取空间特征，最后将从各段训练视频RGB帧提取到的空间特征进行融合，得到行为空间特征。

(2)将训练视频RGB帧输入Motionnet网络，计算得到光流，将计算得到的光流输入到带OFF子网络的inception网络中，提取得到行为光流特征。

如图2所示，Motionnet网络的下采样网络包括6个卷积层，上采样网络包括5个反卷积层，输入的连续图片先由下采样网络的6个卷积层逐层提取特征，从224x224的大小每层尺寸减少一半，最终变成512个7x7的特征图大小。上采样网络从7x7的特征图使用5层反卷积层进行逐步恢复出224x224的光流图，而且分别在x_conv5，x_conv4，x_conv3，x_conv2都有来自对应尺寸大小的下采样层的特征图的特征，这一步可以帮助网络恢复部分细节。总体来说，Motionnet网络输入2帧相邻的224x224x3的图像，计算出对应的224x224x2的光流，其中2维分别是光流对应在x和y方向的速度。这样设计可以使Motionnet网络和其他网络直接相连形成一个端到端的网络，而不需要单独对Motionnet网络进行训练。

在本实施例中，使用Motionnet网络直接在网络中进行计算，不用提前计算好光流，可以大幅度的减少计算时间。如图3所示，光流特征的提取不再使用光流作为输入，直接将视频RGB帧作为输入，利用Motionnet网络进行计算，其中，输入11帧连续的视频RGB帧，Motionnet网络产生10帧光流，每帧光流分别有x和y方向的光流图，一共有20张光流图，即输入为224x224x3x11，输入为224x224x2x10。最后将Motionnet网络生成的光流输入到inception网络中进行进一步提取时间特征。为了更好的提取光流中的时间特征，我们将OFF(optical flow guided feature)子网络加入到传统的提取特征的inception网络中，OFF子网络可以帮助inception网络通过光流提取更多的时间特征。

在本实施例中，对于Motionnet网络，为了更好地学习光流特征，我们在不同的尺度设计了不同的参数，由于收缩部分和扩张部分之间的跳跃连接，中间损失可以使其他损失规律化，并引导早期层更快地收敛到最终目标。为了更加准确和高效的生成光流，Motionnet网络设计了三个损失函数来帮助网络进行训练，各损失函数的权重值不同，且该三个损失函数***MotionNet网络的最后一层，这三个损失函数如下：

1)针对重构后的两帧之间的像素级错误而生成的损失函数：

其中v^x和v^y分别是光流中x和y方向的速度，n是输入的RGB帧。利用前一帧的像素点的值减去后一帧对应光流的速度移动后的像素点的值，对比是否为对应的值，总体的损失函数值就是输入的n帧RGB图像在使用生成的光流之后所对应的的差值，这里MotionNet使用一个凸误差函数，为了减少异常值的影响，MotionNet使用ρ(x)＝(x²+∈²)^α这个函数来避免。这个损失函数可以帮助神经网络在细节上更正错误，针对像素级的差异进行调节，使生成的光流更加的逼近与原本的真实的光流。在这里损失函数的α值设置为0.3，最终这个损失函数的整体权重设置为1。

2)平滑度损失函数解决了在估计非纹理区域中的运动时导致模糊的光圈问题，显示如下：

由于从局部计算像素的移速很容易出现孔径问题，所以我们假设像素的移动速度都是偏小的，不会出现大幅度的移动，加入对像素移动的速度的限制，因此对光流的个方向速度的变化加入损失函数进行限制。对于平滑度损失函数中，α值设置为0.4，平滑度损失函数的整体权重设置为2。

3)Motionnet使用了一个结构相似损失函数(SSIM)来帮助网络学习RGB帧直接的结构，其损失函数展示如下：

其中SSIM函数如下：

SSIM(x，y)＝(l(x，y))^α+(c(x，y))^β+(s(x，y))^γ

x，y分别指代两张图片，并且α＞0，β＞0，γ＞0。其中l(x，y)是亮度比较，c(x，y)是对比度比较，s(x，y)是结构比较。具体函数如下：

u_x和u_y分别代表x，y的平均值，σ_x和σ_y分别代表x，y的标准差，σ_xy代表x，y的协方差，而c₁，c₂，c₃分别代表常数；

SSIM函数可以帮助网络学习全面的结构而不是只局限于局部的相似，其中α值设置为0.4，SSIM函数的整体权重设置为1。

综合上述三个损失函数可以使Motionnet网络更加全面的学习光流的特征，最终在三个损失函数的作用下使motionnet生成的光流与真实的光流相差无几。

(3)利用特征融合网络，将行为空间特征和行为光流特征进行加权融合，得到空时特征。

在传统的双通道网络中，空间特征只输入RGB帧，而时间特征只将处理后的光流作为输入，这样一来，在各个通道中只存在一种特征，RGB帧只包含空间特征，很难直接提取时间特征，而光流只留下了运动信息不包含空间特征。因此在以往的模型中，很难做到同时将空间特征和时间特征进行融合处理，然而，因为我们的时间通道的输入不再是光流，而是连续的RGB帧，一次在Motionnet计算光流的过程中，势必会产生大量的空间特征，这样我们的模型可以将空间特征和时间特征融合使用以到达提升正确率的目的。

如图5所示，由于Motionnet在计算光流之前，为了更准确的计算光流，会先在前半部分的下采样网络提取RGB帧中的空间特征，然后在根据相邻两帧提取到的空间特征进行对比，计算对应的光流。因此，我们将Motionnet前半部分下采样中的最后一层conv6_1提取出来，然后直接将其连接到提取光流特征的带有OFF子网络的inception网络的最后一层inception_5b，再将融合后的特征输入到softmax网络进行视频行为分类。

(4)将空时特征输入softmax网络中，得到训练分类结果，根据训练分类结果和训练视频RGB帧，对空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络进行梯度更新。

按照上述实施方式，本发明中的视频行为分类网络模型，在UCF-101数据集、HMDB51数据集、MSR Daily Activity3D数据集和Florence 3D action数据集进行训练与测试，并且与各数据集上的顶尖模型进行对比分析。

UCF-101和HMDB51数据集是视频行为分类领域广泛使用的两个数据集，提出的模型这两个数据集的正确率是现阶段大部分研究者默认的评价的指标之一。UCF-101数据集一共具有13320部视频，一共具有101类，每类视频有接近100部视频，视频内容全部来自于现实生活。我们将UCF-101分为两部分，训练集选取9537部视频对模型进行训练，余下的3783部视频作为测试。HMDB51数据集一共具有6849部视频，其中选取5222部视频作为训练集，余下1627部视频作为测试集。

MSR Daily Activity3D数据集是使用Kinect设备进行记录的，它一共具有16类日常行为动作，分别是喝酒、吃饭、看书、打电话、在纸上写字、使用笔记本电脑、使用吸尘器、振作起来、安静地坐着、扔纸、玩游戏、躺在沙发上、散步、弹吉他、站起来、坐下。这个数据集有10个实验人员，被要求每个类别动作做两次，一次站着一次坐着。该数据集一共具有320个视频，我们每类动作选3部视频作为测试，其余作为训练集。

Florence 3D action数据集是由佛罗伦萨大学在2012年收集的数据集，它包括9项活动：挥手、喝酒瓶、接电话、鼓掌、系紧花边、坐下、站起来、看表、鞠躬。在实验过程中，10名受试者被要求执行上述动作2/3次。这一共产生了215视频样本。本文选取165部视频作为训练集，其余50部视频作为测试集。

1)模型速度与正确率的比较

本发明中所述视频行为分类网络模型在效率上与其他先进模型进行比较，表1总结了不同的算法对应的速度与正确率。本发明中所述视频行为分类网络模型没有使用传统的光流提取方法，而是使用了MotionNet计算光流，并且在inception网络中加入OFF子网络进行进一步提取特征，因此在速度和正确率上都有不错的表现。如表1所示，与MID+RGB相比，我们的模型不仅在速度上比它快，而且在准确率上也高出不少。相比于没有使用光流作为输入的模型，比如RGB+EMV-CNN和TSN(RGB)，由于缺少光流提供的时间特征，因此在准确率上我们的模型比它们要高。相比于使用了传统光流作为输入的模型，比如TSN和I3D，尽管它们正确率很高，但是我们的模型的正确率也相差无几，而且由于传统光流方法提取速度很慢，这些模型的速度通常都会小于等于14fps，然而我们的模型由于使用MotionNet计算光流，速度可以达到140fps。总的来说，对于使用光流的模型，在速度上会具有很大的优势，但是由于缺少时间特征的输入，在正确率上会偏低。而对于使用光流的模型，光流特征可以帮助模型大幅度的提升正确率，但是由于传统的光流算法提取速度很慢，低于14fps，导致模型整体速度会下降，使整体的模型速度小于等于14fps。我们的模型使用神经网络MotionNet来代替传统光流的提取，大幅度的提升速度的同时，还保证了模型正确率高于绝大部分模型。

表1 在UCF-101上速度与准确率对比

Method	Speed(fps)	Acc.
			MDI+RGB[27]	＜131	76.9％
TSN(RGB)[29]	680	85.5％
			RGB+EMV-CNN[28]	390	86.4％
TSN(Flow)[29]	14	87.9％
			Hidden Two-Stream[25]	120.48	89.8％
TSN(RGB+RGB Diff)[29]	340	91.0％
			Two-Stream I3D(RGB+Flow)[30]	＜14	93.4％
Ours	140	91.5％

2)单类动作正确率分析

由于视频的内容，时长，帧率，帧数等信息的不同，本发明所述视频行为分类网络模型在不同类的表现也会不一样，为了证明我们提出的模型的有效性，我们将各个类别的正确率单独计算出来，并且与Hidden Two-Stream模型进行比较。

表2 部分具体类别对比

Video Class	Hidden Two-Stream	Our Model
			ApplyEyeMakeup	0.8863	0.9772
Bowling	0.9302	0.9534
			GolfSwing	0.7692	0.8974
HandstandPushups	0.8928	0.9285
			Lunges	0.7567	0.9459
Mixing	0.8444	0.9770

如表2所示，我们提出的模型在UCF-101中有39个类别高于Hidden Two-Stream，有49个类别正确率与Hidden Two-Stream相等，并且大部分类别的正确率都高于90％。具体类比正确率对比如表3-3，对于ApplyEyeMakeup这一类别，Hidden Two-Stream只有88.63％，相比之下，我们的模型可以达到97.72％。同样的在Lunges这一类别，Hidden Two-Stream只有75.67％，相对的，我们的模型确可以达到94.59％。相比于Hidden Two-Stream，我们的模型加入了空时特征以及将OFF子网络加入到了处理光流特征的inception网络中，显然这些方式能够大幅度的提升正确率。然而在Brushing teeth，Hammering，Nunchucks等三个动作上，我们的模型正确率低于60％，由于这些动作单一，容易与其他动作混淆，导致分类正确率低，这也我们的模型是下一步的改进方向。

3)不同数据集上正确率对比

本发明所述视频行为分类网络模型在UCF-101，HMDB51，MSR Daily Activity3D，Florence 3D action等四个数据集上的正确率与其他的顶尖模型的正确率进行对比分析。

UCF-101数据集：表3总结了一些顶尖模型与我们的模型在UCF-101数据集上的对比，我们的模型只使用了视频RGB作为输入，获得了91.5％的正确率。与Two-Stream TSN模型进行对比，我们的模型比Two-StreamTSN高出了5.8％。同时，与一些使用空间特征和时间特征进行融合的2D CNNs，比如Two-stream+LSTM和Key-volume mining CNN，我们的模型依旧比它们高出6个点以上。对于部分使用3D CNN的模型，比如TLE(C3D CNN)和C3D，它们直接利用3D卷积核来提取视频中的空间特征和时间特征来进行建模，我们提出的模型依旧是表现最好的。相比于MiCT-Net，MiCT模块使3D CNN能够以更少的3D时空融合、更小的模型、更快的速度来提取到更深的视频时空特征，MiCT-Net提出利用3D和2D特征图之间的相关性，让3D和2D卷积共享空间信息，最终MiCT-Net可以获得88.9％的正确率，相比之下，我们提出的模型可以达到91.5％的正确率，略微高于MiCT-Net。

表3 在UCF-101上只使用RGB帧作为输入的正确率对比

Method	UCF-101
		Slow fusion[34]	65.4％
C3D[2]	44.0％
		Two-stream[12]	73.0％
Two-stream fusion[13]	82.6％
		Two-stream+LSTM[14]	82.6％
TSN[29]	85.7％
		F<sub>S</sub>TCN[35]	71.3％
ST-ResNet[36]	82.2％
		Key-volume mining CNN[31]	84.5％
TLE(C3D CNN)[32]	86.3％
		TLE(BN-Inception)[32]	86.9％
I3D[30]	84.5％
		P3D ResNet[37]	88.6％
MiCT-Net[33]	88.9％
		Ours	91.5％

HMDB51数据集：表4展示了部分顶尖模型与我们的模型在HMDB51上的对比，由于HMDB51数据集相比于UCF-101场景更加复杂，动作更加多样，因此在正确率上，大部分模型正确率都偏低。如表4所示，在仅使用视频RGB帧作为输入的情况下，我们的模型在这个数据集的正确率上依旧略微高于其他的模型。对比MiCT-Net，在UCF-101上可以达到88.9％，在HMDB51也达到了63.8％。相比之下，我们的模型可以达到67.9％，这是因为HMDB51数据集更加的复杂，在不使用光流特征的情况下，很难直接从RGB帧中获得运动信息，而我们的模型使用MotionNet在RGB帧中计算出光流，具有一定的优势，因此表现会更加的好一点。

表4 在HMDB51上只使用RGB帧作为输入的正确率对比

Method	HMDB51
		C3D[2]	49.3％
Two-stream[12]	40.5％
		Two-stream fusion[13]	47.1％
Two-stream+LSTM[14]	47.1％
		TSN[29]	54.6％
F<sub>S</sub>TCN[35]	42.0％
		ST-ResNet[36]	43.4％
TLE(C3D CNN)[32]	60.3％
		TLE(BN-Inception)[32]	63.2％
I3D[30]	49.8％
		MiCT-Net[33]	63.8％
Ours	67.9％

MSR Daily Activity 3D数据集：MSR Daily Activity 3D视频行为分类数据集相比于UCF-101和HMDB51数据集具有更多的关于行为的特征，比如图像深度信息和骨骼点位置等信息。如表5所示，我们的模型只使用其中的视频RGB帧作为输入，并没有使用深度信息和骨骼点位置等信息而且由于该数据集的视频时长较短，导致我们的模型在时间流上的运动特征提取具有很大的困难，却得到了与部分使用了所有特征的顶尖模型同一层次的正确率，甚至正确率高于大部分的模型。相比于同样只使用视频RGB帧的KPS PoseActionRGBAction模型，虽然它们的正确率可以达到80％，而我们的正确率可以比它们高出3.3％。与其他的使用多种特征的模型相比较，我们的模型在正确率上依旧高于绝大部分顶尖模型的正确率，只有SNV模型的正确率比我们的模型高一点，但是由于我们的模型只依赖于视频本身，而不需要提供更多的特征，我们的模型要比SNV模型更加的简洁和实用。

表5 在MSR Daily Activity 3D上正确率对比

Method	Accuracy
		Discriminative trajectorylet[39]	75.0％
Local HOPC+STK-D[40]	78.8％
		Multimodel Multipart Learning[41]	79.4％
Local HON4D[42]	80.0％
		DP[43]	80.0％
LRTS[44]	80.6％
		KPS PoseAction RGBAction[38]	81.0％
Skeleton embedded motion body partition[45]	81.3％
		SNV(Joint Trajectory Align)[46]	86.3％
ours	83.3％

表6 在Florence 3D Action上正确率对比

Method	Accuracy
		NBNN Bag-of-Poses[50]	82.00％
Riemannian Manifold[51]	87.04％
		RF-PCA[52]	89.67％
PAM+Pose Feature[48]	90.23％
		Lie Group[49]	90.88％
SHOF+NBNN[47]	92.19％
		ours	91.25％

Florence 3D Action数据集：Florence 3D Action数据集与MSR Daily Activity3D数据集相似，也具有关于运动的骨骼位置特征，而且相比于MSR Daily Activity 3D数据集，Florence 3D Action数据集中不仅总视频数量较少，而且视频的时长更加的短，一部视频往往只有10帧左右，然而我们提出的模型在时间流上的输入至少是连续的11帧，因此我们对Florence 3D Action数据集中帧数少于11的视频进行补偿，即将最后一帧复制成好几帧。由于Florence 3D Action数据集的特点，导致我们提出的模型在时间流上的表现不佳，主要作为一个空间流的补充。尽管如此，如表6所示，我们的模型也获得了相当不错的表现，在仅使用视频帧作为输入的情况下，我们的方法得到了91.25％的正确率，相比于其他的使用所有的特征的方法，我们的方法高于绝大部分顶尖模型，以0.94％的差异仅次于SHOF+NBNN方法。相比于PAM+Pose Feature和Lie Group，我们的方法在正确率上略微高于他们。相比于NBNN Bag-of-Poses和Riemannian Manifold，我们的方法还是比较具有优势的。

综上所述，采用本发明所述视频行为分类网络模型进行频行为分类，无论在大的数据集UCF-101和HMDB51上，还是在小的数据集MSR Daily Activity 3D和Florence 3DAction上，都取得了相当不错的表现，在正确率上都达到了顶尖水平，由此可见，我们的方法在视频行为分类这个任务上是相当高效且准确的。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。