CN111582230A - 基于空时特征的视频行为分类方法 - Google Patents

基于空时特征的视频行为分类方法 Download PDF

Info

Publication number
CN111582230A
CN111582230A CN202010434466.8A CN202010434466A CN111582230A CN 111582230 A CN111582230 A CN 111582230A CN 202010434466 A CN202010434466 A CN 202010434466A CN 111582230 A CN111582230 A CN 111582230A
Authority
CN
China
Prior art keywords
network
video
training
space
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010434466.8A
Other languages
English (en)
Inventor
徐杰
宋瑞
廖静茹
张昱航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010434466.8A priority Critical patent/CN111582230A/zh
Publication of CN111582230A publication Critical patent/CN111582230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于空时特征的视频行为分类方法,涉及视频识别技术领域,其构建的双通道网络结构包括空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络,空间特征提取网络与时间特征提取网络并联后,与特征融合网络和softmax网络依次串联,所述空间特征提取网络为inception网络,所述时间特征提取网络包括依次串联的MotionNet网络、带OFF子网络的inception网络,所述MotionNet网络包括下采样网络和上采样网络,所述下采样网络包括若干卷积层,所述上采样网络包括若干反卷积层,MotionNet网络能大幅度提高时间流的光流提取速度,MotionNet网络结合带OFF子网络的inception网络能更充足的提取光流特征,通过将空间特征和时间特征融合后,利用空时特征进行视频分类,提高了视频分类正确率。

Description

基于空时特征的视频行为分类方法
技术领域
本发明涉及视频识别技术领域,具体而言,涉及一种基于空时特征的视频行为分类方法。
背景技术
目前,视频行为分类方法主要包括基于多通道的视频行为分类方法和基于三维卷积的视频行为分类方法。
基于多通道的视频行为分类方法主要以two stream模型为典型代表,该模型主要包括三个部分:以提取空间特征为主要任务的空间流,以提取运动信息为主要特征的时间流以及融合两部分特征的融合层。空间流将视频的RGB帧作为输入,利用卷积神经网络的多层网络结构,局部特征提取,逐层提取深度语义信息和特征选择等特点提取输入的RGB帧中所包含的物品信息。时间流将连续的光流作为输入,利用二维卷积核将对连续的光流进行特征提取,提取出光流中可能存在的动作特征,利用产生的运动特征进行视频行为分类。融合层主要是将空间流生成的空间特征和时间流生成的动作特征寻找合适的权重进行融合,最终对视频进行行为分类,生成对应的行为得分,将最高的得分类别作为输出类别。
基于多通道的视频行为分类方法存在以下缺陷:
1)使用原始的VGG网络提取光流特征,其无法充分的提取光流特征。
2)使用传统的光流计算方法,由于传统的光流计算方法不仅需要巨大的计算力而且还需要大量的时间,导致基于多通道的模型速度受到光流计算方法的速度限制低于14fps。
基于三维卷积的视频行为分类方法是使用三维卷积核对视频行为分类,如C3D网络,其使用8个卷积层逐步提取视频中空间特征和时间特征,再使用8个卷积层来减少特征的维度,减少计算量,最后使用两个全连接层和softmax层来综合空时特征进行分类。网络中所使用的的所有三维卷积核都是3x3x3的大小,在时间维度和空间维度上的步长都是1。每个框中表示过滤器的数量,从pool1到pool5的池化层都是三维池化层,除了pool1的池化核大小为1x2x2之外所有的池化核的尺寸都是2x2x2。在网络中,所有的全连接层的神经元都为4096个。C3D通过三维卷积可以直接对视频进行行为分类,这使它的速度大大提升,可以达到600帧每秒,并且准确率在UCF101上可以达到85.2%。
基于三维卷积的视频行为分类方法存在以下缺陷:
由于3D卷积操作相对于原始的二维卷积多出了一个维度,因此C3D参数量规模相比于传统的基于二维卷积的模型更大,对于数据集要求更加的严格,需要大量的数据来训练网络,这将花费更多计算力和计算时间。
发明内容
本发明在于提供一种基于空时特征的视频行为分类方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
一种基于空时特征的视频行为分类方法,包括:
S1、获取视频数据集,将其分成训练集和测试集,对训练集进行预处理后从中提取得到训练视频RGB帧集,对测试集进行预处理后从中提取测试视频RGB帧集;
S2、构建双通道网络结构,其包括空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络,空间特征提取网络与时间特征提取网络并联后,与特征融合网络和softmax网络依次串联,所述空间特征提取网络为inception网络,所述时间特征提取网络包括依次串联的Motionnet网络、带OFF子网络的inception网络,所述Motionnet网络包括下采样网络和上采样网络,所述下采样网络包括若干卷积层,所述上采样网络包括若干反卷积层;
S3、利用训练视频RGB帧集训练若干轮双通道网络结构,每轮训练过程中所采用的训练视频RGB帧不相同,保存最后一轮得到的网络结构参数,得到视频行为分类网络模型;
S4、将测试视频RGB帧集输入所述视频行为分类网络模型,输出视频行为分类结果。
本技术方案的技术效果是:使用新的神经网络MotionNet代替传统的光流计算方法,大幅度提高时间流的光流提取速度;将OFF子网络加入到原本处理光流特征的inception网络中,进一步提取特征,能更充足的提取光流特征。通过特征融合网络将空间特征和时间特征融合后,利用空时特征进行视频分类,提高了视频分类正确率。
进一步地,所述步骤S1中,预处理包括:使用拉伸或者压缩方法将视频RGB帧大小处理为224x224。
本技术方案的技术效果是:保证输入大小与网络输入大小一致。
进一步地,对于双通道网络结构的每一轮训练,其训练过程包括:
将训练视频RGB帧输入空间特征提取网络,提取得到行为空间特征;
将训练视频RGB帧输入Motionnet网络,计算得到光流;
将计算得到的光流输入到带OFF子网络的inception网络中,提取得到行为光流特征;
利用特征融合网络,将行为空间特征和行为光流特征进行加权融合,得到空时特征;
将空时特征输入softmax网络中,得到训练分类结果,根据训练分类结果和训练视频RGB帧,对空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络进行梯度更新。
本技术方案的技术效果是:可以充分的迭代网络参数,让网络可以学习到正确的空时特征提取方式。
更进一步地,所述行为空间特征的提取方法具体为:
将训练视频RGB帧分成多段;
对于每段训练视频RGB帧,将其第一帧输入空间特征提取网络提取空间特征;
将从各段训练视频RGB帧提取到的空间特征进行融合,得到所述行为空间特征。
本技术方案的技术效果是:分段采样可以减少视频输入的数据量,并且增强网络对视频整体的理解。
更进一步地,所述Motionnet网络的下采样网络包括6个卷积层,上采样网络包括5个反卷积层,所述训练视频RGB帧的帧数量为11。
本技术方案的技术效果是:能先对RGB中的空间特征进行提取深层语义信息,再分析其语义信息更好的计算出光流。
更进一步地,所述Motionnet网络包括三个损失函数,各损失函数的权重值不同,且该三个损失函数***所述MotionNet网络的最后一层,且分别为针对重构后的两帧图像之间的像素级错误而生成的损失函数、平滑度损失函数和结构相似损失函数。
本技术方案的技术效果是:可以使Motionnet网络能够更加全面准确和高效的生成光流。
更进一步地,所述针对重构后的两帧图像之间的像素级错误而生成的损失函数如下:
Figure BDA0002501710520000041
其中,vx和vy分别是光流中x和y方向的速度,n是输入的视频RGB帧。
本技术方案的技术效果是:其中使用了凸误差函数减少异常值的影响,可以帮助神经网络在细节上更正错误,针对像素级的差异进行调节,使生成的光流更加的逼近与原本的真实的光流。
更进一步地,所述平滑度损失函数如下:
Figure BDA0002501710520000042
其中,Lam代表平滑度损失函数,
Figure BDA0002501710520000043
分别代表光流中x方向对于x,y方向上的变化量,
Figure BDA0002501710520000044
分别代表光流中y方向上对于x,y方向上的变化量。
本技术方案的技术效果是:不会出现孔径问题。
更进一步地,所述结构相似损失函数如下:
Figure BDA0002501710520000045
其中,I1代表真实图像,I′1代表计算出的图像,SSIM函数如下:
SSIM(x,y)=(l(x,y))α+(c(x,y))β+(s(x,y))γ
其中x,y分别指代两张图片,并且α>0,β>0,γ>0,其中l(x,y)是亮度比较,c(x,y)是对比度比较,s(x,y)是结构比较,
Figure BDA0002501710520000046
Figure BDA0002501710520000047
Figure BDA0002501710520000048
其中,u_x和u_y分别代表x,y的平均值,σx和σy分别代表x,y的标准差,σxy代表x,y的协方差,c1,c2,c3分别代表常数。
本技术方案的技术效果是:SSIM函数可以帮助网络学习全面的结构而不是只局限于局部的相似。
更进一步地,所述步骤S3中,双通道网络结构的训练次数为15000次。
本技术方案的技术效果是:使用较大额训练次数可以缓慢的寻找到网络的参数的最优值,确定网络学习到正确的特征。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是实施例中所述基于空时特征的视频行为分类方法流程图;
图2是实施例中所述Motionnet网络的结构示意图;
图3是实施例中所述双通道网络结构的示意图;
图4是实施例中所述空间特征提取网络的结构示意图;
图5是实施例中所述特征融合网络的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参照图1~图5,本实施例所述基于空时特征的视频行为分类方法,包括:
S1、获取视频数据集,将其分成训练集和测试集,对训练集进行预处理后从中提取得到训练视频RGB帧集,对测试集进行预处理后从中提取测试视频RGB帧集。
其中,预处理过程包括:使用拉伸或者压缩方法将视频RGB帧大小处理为224x224大小。
在本实施例中,训练集的视频RGB帧数量是测试集的视频RGB帧数量的两倍。
在本实施例中,用OPENCV2中VideoCapture提取视频中的RGB帧。
S2、构建双通道网络结构,如图3所示,其包括空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络,空间特征提取网络与时间特征提取网络并联后,与特征融合网络和softmax网络依次串联,空间特征提取网络为inception网络,时间特征提取网络包括依次串联的Motionnet网络、带OFF子网络的inception网络,Motionnet网络包括下采样网络和上采样网络,下采样网络包括若干逐层提取特征的卷积层,上采样网络包括若干反卷积层。
在本实施例中,为了提高光流计算速度,设计了新的神经网络-Motionnet网络,以此代替传统的光流计算网络。光流计算本质上是计算相邻两帧之间的一张速度图像,所以Motionnet网络将光流计算问题看作是图片的重构问题,通过提取相邻两张图像的特征来构建出光流图像。
其中,下采样网络的任务是提取相邻两帧的图像特征,上采样网络是为了通过下采样网络提取的特征恢复出对应的光流图像,对应尺寸的下采样网络和上采样网络直接连接,这是为了使用对应大小的特征层来进一步细节化计算的光流,Motionnet网络结构如图2所示。
S3、利用训练视频RGB帧集训练若干轮双通道网络结构,每轮训练过程中所采用的训练视频RGB帧不相同,保存最后一轮得到的网络结构参数,得到视频行为分类网络模型。
在本实施例中,双通道网络结构的训练次数为15000次。
在本实施例中,对于双通道网络结构的每一轮训练,其训练过程包括:
(1)将训练视频RGB帧输入空间特征提取网络,提取得到行为空间特征。
在本实施例中,空间特征提取网络采用inception网络,其结构如图4所示,结构(a)和结构(b)在模型中交替使用,它们之间的主要差异在于结构(a)相比于结构(b)多一路特征提取,因此它们可以提取到不同的特征。结构(a)和结构(b)每层都是用多个卷积核来提取特征,每个卷积核都上3x3的大小,可以得到不同的特征,在使用多个卷积核来提取特征的同时,先使用1x1的卷积核进行降维,这样可以在提取给更多特征的同时减少计算量,加快模型的运行速度,同时在参数减少的情况下,可以一定程度上的防止过拟合。显然,由于一层卷积网络由多个1x1和3x3的卷积核组成,可以加深网络的深度,能一定程度上的加深网络的非线性表达能力。
该网络的输入是单帧视频RGB图像,由于视频中可能存在不同位置的空间特征不同等原因,比如打篮球这一动作,在视频的一开始可能只是人物的入场,只包含人物并不存在篮球,而到视频后面才存在篮球这一物品特征,针对这一因素,本实施例所述行为空间特征的提取方法具体为:
将训练视频RGB帧平均分成多段,对于每段训练视频RGB帧,将其第一帧输入空间特征提取网络提取空间特征;例如如果将打篮球这一视频分为三段,则在视频一开始和视频中间以及视频结尾都抽取一帧RGB图像作为输入提取空间特征,最后将从各段训练视频RGB帧提取到的空间特征进行融合,得到行为空间特征。
(2)将训练视频RGB帧输入Motionnet网络,计算得到光流,将计算得到的光流输入到带OFF子网络的inception网络中,提取得到行为光流特征。
如图2所示,Motionnet网络的下采样网络包括6个卷积层,上采样网络包括5个反卷积层,输入的连续图片先由下采样网络的6个卷积层逐层提取特征,从224x224的大小每层尺寸减少一半,最终变成512个7x7的特征图大小。上采样网络从7x7的特征图使用5层反卷积层进行逐步恢复出224x224的光流图,而且分别在x_conv5,x_conv4,x_conv3,x_conv2都有来自对应尺寸大小的下采样层的特征图的特征,这一步可以帮助网络恢复部分细节。总体来说,Motionnet网络输入2帧相邻的224x224x3的图像,计算出对应的224x224x2的光流,其中2维分别是光流对应在x和y方向的速度。这样设计可以使Motionnet网络和其他网络直接相连形成一个端到端的网络,而不需要单独对Motionnet网络进行训练。
在本实施例中,使用Motionnet网络直接在网络中进行计算,不用提前计算好光流,可以大幅度的减少计算时间。如图3所示,光流特征的提取不再使用光流作为输入,直接将视频RGB帧作为输入,利用Motionnet网络进行计算,其中,输入11帧连续的视频RGB帧,Motionnet网络产生10帧光流,每帧光流分别有x和y方向的光流图,一共有20张光流图,即输入为224x224x3x11,输入为224x224x2x10。最后将Motionnet网络生成的光流输入到inception网络中进行进一步提取时间特征。为了更好的提取光流中的时间特征,我们将OFF(optical flow guided feature)子网络加入到传统的提取特征的inception网络中,OFF子网络可以帮助inception网络通过光流提取更多的时间特征。
在本实施例中,对于Motionnet网络,为了更好地学习光流特征,我们在不同的尺度设计了不同的参数,由于收缩部分和扩张部分之间的跳跃连接,中间损失可以使其他损失规律化,并引导早期层更快地收敛到最终目标。为了更加准确和高效的生成光流,Motionnet网络设计了三个损失函数来帮助网络进行训练,各损失函数的权重值不同,且该三个损失函数***MotionNet网络的最后一层,这三个损失函数如下:
1)针对重构后的两帧之间的像素级错误而生成的损失函数:
Figure BDA0002501710520000081
其中vx和vy分别是光流中x和y方向的速度,n是输入的RGB帧。利用前一帧的像素点的值减去后一帧对应光流的速度移动后的像素点的值,对比是否为对应的值,总体的损失函数值就是输入的n帧RGB图像在使用生成的光流之后所对应的的差值,这里MotionNet使用一个凸误差函数,为了减少异常值的影响,MotionNet使用ρ(x)=(x2+∈2)α这个函数来避免。这个损失函数可以帮助神经网络在细节上更正错误,针对像素级的差异进行调节,使生成的光流更加的逼近与原本的真实的光流。在这里损失函数的α值设置为0.3,最终这个损失函数的整体权重设置为1。
2)平滑度损失函数解决了在估计非纹理区域中的运动时导致模糊的光圈问题,显示如下:
Figure BDA0002501710520000082
由于从局部计算像素的移速很容易出现孔径问题,所以我们假设像素的移动速度都是偏小的,不会出现大幅度的移动,加入对像素移动的速度的限制,因此对光流的个方向速度的变化加入损失函数进行限制。对于平滑度损失函数中,α值设置为0.4,平滑度损失函数的整体权重设置为2。
3)Motionnet使用了一个结构相似损失函数(SSIM)来帮助网络学习RGB帧直接的结构,其损失函数展示如下:
Figure BDA0002501710520000083
其中SSIM函数如下:
SSIM(x,y)=(l(x,y))α+(c(x,y))β+(s(x,y))γ
x,y分别指代两张图片,并且α>0,β>0,γ>0。其中l(x,y)是亮度比较,c(x,y)是对比度比较,s(x,y)是结构比较。具体函数如下:
Figure BDA0002501710520000084
Figure BDA0002501710520000091
Figure BDA0002501710520000092
u_x和u_y分别代表x,y的平均值,σx和σy分别代表x,y的标准差,σxy代表x,y的协方差,而c1,c2,c3分别代表常数;
SSIM函数可以帮助网络学习全面的结构而不是只局限于局部的相似,其中α值设置为0.4,SSIM函数的整体权重设置为1。
综合上述三个损失函数可以使Motionnet网络更加全面的学习光流的特征,最终在三个损失函数的作用下使motionnet生成的光流与真实的光流相差无几。
(3)利用特征融合网络,将行为空间特征和行为光流特征进行加权融合,得到空时特征。
在传统的双通道网络中,空间特征只输入RGB帧,而时间特征只将处理后的光流作为输入,这样一来,在各个通道中只存在一种特征,RGB帧只包含空间特征,很难直接提取时间特征,而光流只留下了运动信息不包含空间特征。因此在以往的模型中,很难做到同时将空间特征和时间特征进行融合处理,然而,因为我们的时间通道的输入不再是光流,而是连续的RGB帧,一次在Motionnet计算光流的过程中,势必会产生大量的空间特征,这样我们的模型可以将空间特征和时间特征融合使用以到达提升正确率的目的。
如图5所示,由于Motionnet在计算光流之前,为了更准确的计算光流,会先在前半部分的下采样网络提取RGB帧中的空间特征,然后在根据相邻两帧提取到的空间特征进行对比,计算对应的光流。因此,我们将Motionnet前半部分下采样中的最后一层conv6_1提取出来,然后直接将其连接到提取光流特征的带有OFF子网络的inception网络的最后一层inception_5b,再将融合后的特征输入到softmax网络进行视频行为分类。
(4)将空时特征输入softmax网络中,得到训练分类结果,根据训练分类结果和训练视频RGB帧,对空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络进行梯度更新。
S4、将测试视频RGB帧集输入所述视频行为分类网络模型,输出视频行为分类结果。
按照上述实施方式,本发明中的视频行为分类网络模型,在UCF-101数据集、HMDB51数据集、MSR Daily Activity3D数据集和Florence 3D action数据集进行训练与测试,并且与各数据集上的顶尖模型进行对比分析。
UCF-101和HMDB51数据集是视频行为分类领域广泛使用的两个数据集,提出的模型这两个数据集的正确率是现阶段大部分研究者默认的评价的指标之一。UCF-101数据集一共具有13320部视频,一共具有101类,每类视频有接近100部视频,视频内容全部来自于现实生活。我们将UCF-101分为两部分,训练集选取9537部视频对模型进行训练,余下的3783部视频作为测试。HMDB51数据集一共具有6849部视频,其中选取5222部视频作为训练集,余下1627部视频作为测试集。
MSR Daily Activity3D数据集是使用Kinect设备进行记录的,它一共具有16类日常行为动作,分别是喝酒、吃饭、看书、打电话、在纸上写字、使用笔记本电脑、使用吸尘器、振作起来、安静地坐着、扔纸、玩游戏、躺在沙发上、散步、弹吉他、站起来、坐下。这个数据集有10个实验人员,被要求每个类别动作做两次,一次站着一次坐着。该数据集一共具有320个视频,我们每类动作选3部视频作为测试,其余作为训练集。
Florence 3D action数据集是由佛罗伦萨大学在2012年收集的数据集,它包括9项活动:挥手、喝酒瓶、接电话、鼓掌、系紧花边、坐下、站起来、看表、鞠躬。在实验过程中,10名受试者被要求执行上述动作2/3次。这一共产生了215视频样本。本文选取165部视频作为训练集,其余50部视频作为测试集。
1)模型速度与正确率的比较
本发明中所述视频行为分类网络模型在效率上与其他先进模型进行比较,表1总结了不同的算法对应的速度与正确率。本发明中所述视频行为分类网络模型没有使用传统的光流提取方法,而是使用了MotionNet计算光流,并且在inception网络中加入OFF子网络进行进一步提取特征,因此在速度和正确率上都有不错的表现。如表1所示,与MID+RGB相比,我们的模型不仅在速度上比它快,而且在准确率上也高出不少。相比于没有使用光流作为输入的模型,比如RGB+EMV-CNN和TSN(RGB),由于缺少光流提供的时间特征,因此在准确率上我们的模型比它们要高。相比于使用了传统光流作为输入的模型,比如TSN和I3D,尽管它们正确率很高,但是我们的模型的正确率也相差无几,而且由于传统光流方法提取速度很慢,这些模型的速度通常都会小于等于14fps,然而我们的模型由于使用MotionNet计算光流,速度可以达到140fps。总的来说,对于使用光流的模型,在速度上会具有很大的优势,但是由于缺少时间特征的输入,在正确率上会偏低。而对于使用光流的模型,光流特征可以帮助模型大幅度的提升正确率,但是由于传统的光流算法提取速度很慢,低于14fps,导致模型整体速度会下降,使整体的模型速度小于等于14fps。我们的模型使用神经网络MotionNet来代替传统光流的提取,大幅度的提升速度的同时,还保证了模型正确率高于绝大部分模型。
表1 在UCF-101上速度与准确率对比
Method Speed(fps) Acc.
MDI+RGB[27] <131 76.9%
TSN(RGB)[29] 680 85.5%
RGB+EMV-CNN[28] 390 86.4%
TSN(Flow)[29] 14 87.9%
Hidden Two-Stream[25] 120.48 89.8%
TSN(RGB+RGB Diff)[29] 340 91.0%
Two-Stream I3D(RGB+Flow)[30] <14 93.4%
Ours 140 91.5%
2)单类动作正确率分析
由于视频的内容,时长,帧率,帧数等信息的不同,本发明所述视频行为分类网络模型在不同类的表现也会不一样,为了证明我们提出的模型的有效性,我们将各个类别的正确率单独计算出来,并且与Hidden Two-Stream模型进行比较。
表2 部分具体类别对比
Video Class Hidden Two-Stream Our Model
ApplyEyeMakeup 0.8863 0.9772
Bowling 0.9302 0.9534
GolfSwing 0.7692 0.8974
HandstandPushups 0.8928 0.9285
Lunges 0.7567 0.9459
Mixing 0.8444 0.9770
如表2所示,我们提出的模型在UCF-101中有39个类别高于Hidden Two-Stream,有49个类别正确率与Hidden Two-Stream相等,并且大部分类别的正确率都高于90%。具体类比正确率对比如表3-3,对于ApplyEyeMakeup这一类别,Hidden Two-Stream只有88.63%,相比之下,我们的模型可以达到97.72%。同样的在Lunges这一类别,Hidden Two-Stream只有75.67%,相对的,我们的模型确可以达到94.59%。相比于Hidden Two-Stream,我们的模型加入了空时特征以及将OFF子网络加入到了处理光流特征的inception网络中,显然这些方式能够大幅度的提升正确率。然而在Brushing teeth,Hammering,Nunchucks等三个动作上,我们的模型正确率低于60%,由于这些动作单一,容易与其他动作混淆,导致分类正确率低,这也我们的模型是下一步的改进方向。
3)不同数据集上正确率对比
本发明所述视频行为分类网络模型在UCF-101,HMDB51,MSR Daily Activity3D,Florence 3D action等四个数据集上的正确率与其他的顶尖模型的正确率进行对比分析。
UCF-101数据集:表3总结了一些顶尖模型与我们的模型在UCF-101数据集上的对比,我们的模型只使用了视频RGB作为输入,获得了91.5%的正确率。与Two-Stream TSN模型进行对比,我们的模型比Two-StreamTSN高出了5.8%。同时,与一些使用空间特征和时间特征进行融合的2D CNNs,比如Two-stream+LSTM和Key-volume mining CNN,我们的模型依旧比它们高出6个点以上。对于部分使用3D CNN的模型,比如TLE(C3D CNN)和C3D,它们直接利用3D卷积核来提取视频中的空间特征和时间特征来进行建模,我们提出的模型依旧是表现最好的。相比于MiCT-Net,MiCT模块使3D CNN能够以更少的3D时空融合、更小的模型、更快的速度来提取到更深的视频时空特征,MiCT-Net提出利用3D和2D特征图之间的相关性,让3D和2D卷积共享空间信息,最终MiCT-Net可以获得88.9%的正确率,相比之下,我们提出的模型可以达到91.5%的正确率,略微高于MiCT-Net。
表3 在UCF-101上只使用RGB帧作为输入的正确率对比
Method UCF-101
Slow fusion[34] 65.4%
C3D[2] 44.0%
Two-stream[12] 73.0%
Two-stream fusion[13] 82.6%
Two-stream+LSTM[14] 82.6%
TSN[29] 85.7%
F<sub>S</sub>TCN[35] 71.3%
ST-ResNet[36] 82.2%
Key-volume mining CNN[31] 84.5%
TLE(C3D CNN)[32] 86.3%
TLE(BN-Inception)[32] 86.9%
I3D[30] 84.5%
P3D ResNet[37] 88.6%
MiCT-Net[33] 88.9%
Ours 91.5%
HMDB51数据集:表4展示了部分顶尖模型与我们的模型在HMDB51上的对比,由于HMDB51数据集相比于UCF-101场景更加复杂,动作更加多样,因此在正确率上,大部分模型正确率都偏低。如表4所示,在仅使用视频RGB帧作为输入的情况下,我们的模型在这个数据集的正确率上依旧略微高于其他的模型。对比MiCT-Net,在UCF-101上可以达到88.9%,在HMDB51也达到了63.8%。相比之下,我们的模型可以达到67.9%,这是因为HMDB51数据集更加的复杂,在不使用光流特征的情况下,很难直接从RGB帧中获得运动信息,而我们的模型使用MotionNet在RGB帧中计算出光流,具有一定的优势,因此表现会更加的好一点。
表4 在HMDB51上只使用RGB帧作为输入的正确率对比
Method HMDB51
C3D[2] 49.3%
Two-stream[12] 40.5%
Two-stream fusion[13] 47.1%
Two-stream+LSTM[14] 47.1%
TSN[29] 54.6%
F<sub>S</sub>TCN[35] 42.0%
ST-ResNet[36] 43.4%
TLE(C3D CNN)[32] 60.3%
TLE(BN-Inception)[32] 63.2%
I3D[30] 49.8%
MiCT-Net[33] 63.8%
Ours 67.9%
MSR Daily Activity 3D数据集:MSR Daily Activity 3D视频行为分类数据集相比于UCF-101和HMDB51数据集具有更多的关于行为的特征,比如图像深度信息和骨骼点位置等信息。如表5所示,我们的模型只使用其中的视频RGB帧作为输入,并没有使用深度信息和骨骼点位置等信息而且由于该数据集的视频时长较短,导致我们的模型在时间流上的运动特征提取具有很大的困难,却得到了与部分使用了所有特征的顶尖模型同一层次的正确率,甚至正确率高于大部分的模型。相比于同样只使用视频RGB帧的KPS PoseActionRGBAction模型,虽然它们的正确率可以达到80%,而我们的正确率可以比它们高出3.3%。与其他的使用多种特征的模型相比较,我们的模型在正确率上依旧高于绝大部分顶尖模型的正确率,只有SNV模型的正确率比我们的模型高一点,但是由于我们的模型只依赖于视频本身,而不需要提供更多的特征,我们的模型要比SNV模型更加的简洁和实用。
表5 在MSR Daily Activity 3D上正确率对比
Method Accuracy
Discriminative trajectorylet[39] 75.0%
Local HOPC+STK-D[40] 78.8%
Multimodel Multipart Learning[41] 79.4%
Local HON4D[42] 80.0%
DP[43] 80.0%
LRTS[44] 80.6%
KPS PoseAction RGBAction[38] 81.0%
Skeleton embedded motion body partition[45] 81.3%
SNV(Joint Trajectory Align)[46] 86.3%
ours 83.3%
表6 在Florence 3D Action上正确率对比
Method Accuracy
NBNN Bag-of-Poses[50] 82.00%
Riemannian Manifold[51] 87.04%
RF-PCA[52] 89.67%
PAM+Pose Feature[48] 90.23%
Lie Group[49] 90.88%
SHOF+NBNN[47] 92.19%
ours 91.25%
Florence 3D Action数据集:Florence 3D Action数据集与MSR Daily Activity3D数据集相似,也具有关于运动的骨骼位置特征,而且相比于MSR Daily Activity 3D数据集,Florence 3D Action数据集中不仅总视频数量较少,而且视频的时长更加的短,一部视频往往只有10帧左右,然而我们提出的模型在时间流上的输入至少是连续的11帧,因此我们对Florence 3D Action数据集中帧数少于11的视频进行补偿,即将最后一帧复制成好几帧。由于Florence 3D Action数据集的特点,导致我们提出的模型在时间流上的表现不佳,主要作为一个空间流的补充。尽管如此,如表6所示,我们的模型也获得了相当不错的表现,在仅使用视频帧作为输入的情况下,我们的方法得到了91.25%的正确率,相比于其他的使用所有的特征的方法,我们的方法高于绝大部分顶尖模型,以0.94%的差异仅次于SHOF+NBNN方法。相比于PAM+Pose Feature和Lie Group,我们的方法在正确率上略微高于他们。相比于NBNN Bag-of-Poses和Riemannian Manifold,我们的方法还是比较具有优势的。
综上所述,采用本发明所述视频行为分类网络模型进行频行为分类,无论在大的数据集UCF-101和HMDB51上,还是在小的数据集MSR Daily Activity 3D和Florence 3DAction上,都取得了相当不错的表现,在正确率上都达到了顶尖水平,由此可见,我们的方法在视频行为分类这个任务上是相当高效且准确的。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于空时特征的视频行为分类方法,其特征在于,包括:
S1、获取视频数据集,将其分成训练集和测试集,对训练集进行预处理后从中提取得到训练视频RGB帧集,对测试集进行预处理后从中提取测试视频RGB帧集;
S2、构建双通道网络结构,其包括空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络,空间特征提取网络与时间特征提取网络并联后,与特征融合网络和softmax网络依次串联,所述空间特征提取网络为inception网络,所述时间特征提取网络包括依次串联的Motionnet网络、带OFF子网络的inception网络,所述Motionnet网络包括下采样网络和上采样网络,所述下采样网络包括若干卷积层,所述上采样网络包括若干反卷积层;
S3、利用训练视频RGB帧集训练若干轮双通道网络结构,每轮训练过程中所采用的训练视频RGB帧不相同,保存最后一轮得到的网络结构参数,得到视频行为分类网络模型;
S4、将测试视频RGB帧集输入所述视频行为分类网络模型,输出视频行为分类结果。
2.根据权利要求1所述基于空时特征的视频行为分类方法,其特征在于,所述步骤S1中,预处理包括:使用拉伸或者压缩方法将视频RGB帧大小处理为224x224。
3.根据权利要求1所述基于空时特征的视频行为分类方法,其特征在于,对于双通道网络结构的每一轮训练,其训练过程包括:
将训练视频RGB帧输入空间特征提取网络,提取得到行为空间特征;
将训练视频RGB帧输入Motionnet网络,计算得到光流;
将计算得到的光流输入到带OFF子网络的inception网络中,提取得到行为光流特征;
利用特征融合网络,将行为空间特征和行为光流特征进行加权融合,得到空时特征;
将空时特征输入softmax网络中,得到训练分类结果,根据训练分类结果和训练视频RGB帧,对空间特征提取网络、时间特征提取网络、特征融合网络以及softmax网络进行梯度更新。
4.根据权利要求3所述基于空时特征的视频行为分类方法,其特征在于,所述行为空间特征的提取方法具体为:
将训练视频RGB帧分成多段;
对于每段训练视频RGB帧,将其第一帧输入空间特征提取网络提取空间特征;
将从各段训练视频RGB帧提取到的空间特征进行融合,得到所述行为空间特征。
5.根据权利要求3所述基于空时特征的视频行为分类方法,其特征在于,所述Motionnet网络的下采样网络包括6个卷积层,上采样网络包括5个反卷积层,所述训练视频RGB帧的帧数量为11。
6.根据权利要求3所述基于空时特征的视频行为分类方法,其特征在于,所述Motionnet网络包括三个损失函数,各损失函数的权重值不同,且该三个损失函数***所述MotionNet网络的最后一层,且分别为针对重构后的两帧图像之间的像素级错误而生成的损失函数、平滑度损失函数和结构相似损失函数。
7.根据权利要求6所述基于空时特征的视频行为分类方法,其特征在于,所述针对重构后的两帧图像之间的像素级错误而生成的损失函数如下:
Figure FDA0002501710510000021
其中,vx和vy分别是光流中x和y方向的速度,n是输入的视频RGB帧。
8.根据权利要求6所述基于空时特征的视频行为分类方法,其特征在于,所述平滑度损失函数如下:
Figure FDA0002501710510000022
其中,Lam代表平滑度损失函数,
Figure FDA0002501710510000023
分别代表光流中x方向对于x,y方向上的变化量,
Figure FDA0002501710510000024
分别代表光流中y方向上对于x,y方向上的变化量。
9.根据权利要求6所述基于空时特征的视频行为分类方法,其特征在于,所述结构相似损失函数如下:
Figure FDA0002501710510000025
其中,I1代表真实图像,I′1代表计算出的图像,SSIM函数如下:
SSIM(x,y)=(l(x,y))α+(c(x,y))β+(s(x,y))γ
其中x,y分别指代两张图片,并且α>0,β>0,γ>0,其中l(x,y)是亮度比较,c(x,y)是对比度比较,s(x,y)是结构比较,
Figure FDA0002501710510000026
Figure FDA0002501710510000031
Figure FDA0002501710510000032
其中,u_x和u_y分别代表x,y的平均值,σx和σy分别代表x,y的标准差,σxy代表x,y的协方差,c1,c2,c3分别代表常数。
10.根据权利要求3所述基于空时特征的视频行为分类方法,其特征在于,所述步骤S3中,双通道网络结构的训练次数为15000次。
CN202010434466.8A 2020-05-21 2020-05-21 基于空时特征的视频行为分类方法 Pending CN111582230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434466.8A CN111582230A (zh) 2020-05-21 2020-05-21 基于空时特征的视频行为分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434466.8A CN111582230A (zh) 2020-05-21 2020-05-21 基于空时特征的视频行为分类方法

Publications (1)

Publication Number Publication Date
CN111582230A true CN111582230A (zh) 2020-08-25

Family

ID=72113981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434466.8A Pending CN111582230A (zh) 2020-05-21 2020-05-21 基于空时特征的视频行为分类方法

Country Status (1)

Country Link
CN (1) CN111582230A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814922A (zh) * 2020-09-07 2020-10-23 成都索贝数码科技股份有限公司 一种基于深度学习的视频片段内容匹配方法
CN112329925A (zh) * 2020-11-26 2021-02-05 北京奇艺世纪科技有限公司 模型生成方法、特征提取方法、装置及电子设备
CN112347963A (zh) * 2020-11-16 2021-02-09 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN112446348A (zh) * 2020-12-08 2021-03-05 电子科技大学 一种基于特征谱流的行为识别方法
CN112528733A (zh) * 2020-10-29 2021-03-19 西安工程大学 一种网络的异常行为识别方法
CN112686193A (zh) * 2021-01-06 2021-04-20 东北大学 基于压缩视频的动作识别方法、装置及计算机设备
CN112906456A (zh) * 2020-12-29 2021-06-04 周口师范学院 一种基于帧间特征的人群异常行为检测方法及***
CN116310516B (zh) * 2023-02-20 2023-11-21 交通运输部水运科学研究所 船舶分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109919107A (zh) * 2019-03-11 2019-06-21 青岛科技大学 一种基于深度学习的交警手势识别方法及无人车
CN110889375A (zh) * 2019-11-28 2020-03-17 长沙理工大学 用于行为识别的隐双流协作学习网络及方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109919107A (zh) * 2019-03-11 2019-06-21 青岛科技大学 一种基于深度学习的交警手势识别方法及无人车
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN110889375A (zh) * 2019-11-28 2020-03-17 长沙理工大学 用于行为识别的隐双流协作学习网络及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUYANG SUN ET AL: "Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YI ZHU ET AL: "Hidden Two-Stream Convolutional Networks for Action Recognition", 《ASIAN CONFERENCE ON COMPUTER VISION ACCV 2018》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814922A (zh) * 2020-09-07 2020-10-23 成都索贝数码科技股份有限公司 一种基于深度学习的视频片段内容匹配方法
CN112528733A (zh) * 2020-10-29 2021-03-19 西安工程大学 一种网络的异常行为识别方法
CN112528733B (zh) * 2020-10-29 2024-03-22 西安工程大学 一种基于改进inceptionv3网络的人体异常行为识别方法
CN112347963A (zh) * 2020-11-16 2021-02-09 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN112347963B (zh) * 2020-11-16 2023-07-11 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN112329925B (zh) * 2020-11-26 2023-12-15 北京奇艺世纪科技有限公司 模型生成方法、特征提取方法、装置及电子设备
CN112329925A (zh) * 2020-11-26 2021-02-05 北京奇艺世纪科技有限公司 模型生成方法、特征提取方法、装置及电子设备
CN112446348A (zh) * 2020-12-08 2021-03-05 电子科技大学 一种基于特征谱流的行为识别方法
CN112446348B (zh) * 2020-12-08 2022-05-31 电子科技大学 一种基于特征谱流的行为识别方法
CN112906456A (zh) * 2020-12-29 2021-06-04 周口师范学院 一种基于帧间特征的人群异常行为检测方法及***
CN112906456B (zh) * 2020-12-29 2024-02-27 周口师范学院 一种基于帧间特征的人群异常行为检测方法及***
CN112686193B (zh) * 2021-01-06 2024-02-06 东北大学 基于压缩视频的动作识别方法、装置及计算机设备
CN112686193A (zh) * 2021-01-06 2021-04-20 东北大学 基于压缩视频的动作识别方法、装置及计算机设备
CN116310516B (zh) * 2023-02-20 2023-11-21 交通运输部水运科学研究所 船舶分类方法及装置

Similar Documents

Publication Publication Date Title
CN111582230A (zh) 基于空时特征的视频行为分类方法
Pan et al. Deepfake detection through deep learning
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
Biswas et al. Structural recurrent neural network (SRNN) for group activity analysis
Tran et al. Two-stream flow-guided convolutional attention networks for action recognition
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和***
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
US20210326638A1 (en) Video panoptic segmentation
CN108921047B (zh) 一种基于跨层融合的多模型投票均值动作识别方法
CN113239869A (zh) 基于关键帧序列和行为信息的两阶段行为识别方法及***
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
Wang et al. Basketball shooting angle calculation and analysis by deeply-learned vision model
Martin et al. 3D attention mechanism for fine-grained classification of table tennis strokes using a Twin Spatio-Temporal Convolutional Neural Networks
CN112052795A (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
Pahuja et al. Enhancing Salient Object Segmentation Through Attention.
CN114677704B (zh) 一种基于三维卷积的时空特征多层次融合的行为识别方法
CN115527275A (zh) 基于P2CS_3DNet的行为识别方法
Kousalya et al. Prediction of Best Optimizer for Facial Expression Detection using Convolutional Neural Network
Li et al. SAT-Net: Self-attention and temporal fusion for facial action unit detection
Ludwig et al. Improving Model Performance for Plant Image Classification With Filtered Noisy Images.
Chaturvedi et al. Constrained manifold learning for videos
Ma et al. SeeMore: a spatiotemporal predictive model with bidirectional distillation and level-specific meta-adaptation
Pattanajak et al. Improving a 3-D Convolutional Neural Network Model Reinvented from VGG16 with Batch Normalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825

RJ01 Rejection of invention patent application after publication