CN111027394B - 基于孪生三维卷积神经网络的行为分类方法 - Google Patents

基于孪生三维卷积神经网络的行为分类方法 Download PDF

Info

Publication number
CN111027394B
CN111027394B CN201911103231.4A CN201911103231A CN111027394B CN 111027394 B CN111027394 B CN 111027394B CN 201911103231 A CN201911103231 A CN 201911103231A CN 111027394 B CN111027394 B CN 111027394B
Authority
CN
China
Prior art keywords
optical flow
flow field
network
representing
twin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911103231.4A
Other languages
English (en)
Other versions
CN111027394A (zh
Inventor
周圆
李鸿儒
李绰
李孜孜
杨晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911103231.4A priority Critical patent/CN111027394B/zh
Publication of CN111027394A publication Critical patent/CN111027394A/zh
Application granted granted Critical
Publication of CN111027394B publication Critical patent/CN111027394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于孪生三维卷积神经网络的行为分类方法,步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;步骤3,计算得到总损失函数为,表达式为:L=Lcls+αLflow;步骤4,利用反向传播技术优化网络参数,使网络性能达到最优。本发明算法具有速度与准确率上的双重优势。

Description

基于孪生三维卷积神经网络的行为分类方法
技术领域
本发明涉及视频语音理解邻域,特别涉及一种视频中行为的分类方法。
背景技术
行为分类是视频理解领域的重要分支,生成视频锦集、文字描述视频内容等更高层次的任务都以行为分类为基础。行为分类是一种通过提取视频的抽象语义信息并根据语义信息判断视频所包含的动作类别的技术。目前,视频分类问题尚无最优解,一类算法只利用了视频的空间特征,忽略了视频的时间特征,使得分类算法的效果不尽人意;另一类算法同时利用了时间与空间两种特征,这类方法通过光流场描述视频时间特征,并把时间特征抽象后用于行为分类,但是光流场的计算速度无法应用于实时行为分类的场景,并且光流场不是描述视频时间特征的最佳方法,基于光流场的行为分类算法的性能依旧有很大的提升空间。
随着深度神经网络技术的发展,许多新颖有效的框架可以提取和抽象不同种类的特征。
发明内容
本发明旨在提出一种基于孪生三维卷积神经网络的行为分类方法,该方法通过绕过光流场提取过程,以达到提升行为分类算法速度的目的;此外算法还将引入新的时间信息抽象方式,以达到提升行为分类算法性能的目的。
本发明的一种基于孪生三维卷积神经网络的行为分类方法,该方法包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
Figure RE-GDA0002377447760000021
其中,
Figure RE-GDA0002377447760000022
pclass表示类别的预测向量,a表示训练数据的标签向量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
Figure RE-GDA0002377447760000023
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量, v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中 ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L 的值不再下降为止,得到最终的网络参数。
与现有技术相比,本发明的一种基于孪生三维卷积神经网络的行为分类方法在算法上具有速度与准确率上的双重优势。
附图说明
图1是孪生三维卷积神经网络框架及流程示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案进行详细描述。
如图1所示,为本发明所基于的的孪生三维卷积神经网络框架示意图。包括抽象时间特征分支网络与抽象空间特征分支网络,两支分支的结构相同,使用的卷积核都为三维卷积核。抽象时间特征经过反卷积网络生成光流场。抽象特征的拼接为首尾相接,即
Figure RE-GDA0002377447760000031
其中fcat表示拼接后的特征,fs表示抽象空间特征,ft表示抽象时间特征,且fs,/>
Figure RE-GDA0002377447760000032
分类器由全连接层构成,全连接层的输出维度等于需要划分的种类数量。
本发明的基于孪生三维卷积神经网络的行为分类方法整体流程,具体包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
Figure RE-GDA0002377447760000041
其中,
Figure RE-GDA0002377447760000042
pclass表示类别的预测向量,a表示训练数据的标签向量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
Figure RE-GDA0002377447760000043
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量, v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中 ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L 的值不再下降为止,得到最终的网络参数。
本发明需要使用网络实现相应功能,网络中两支分支的结构相同,具体结构及参数如表1所示。
表1
层名 卷积核结构,通道数,步长
Conv1a 3×3×3,64,stride,1×1×1
Pool1 1×2×2,stride1,1×2×2
Conv2a 3×3×3,128,stride,1×1×1
Pool2 2×2×2,stride,2×2×2
Conv3a 3×3×3,256,stride,1×1×1
Conv3b 3×3×3,256,stride,1×1×1
Pool3 2×2×2,stride,2×2×2
Conv4a 3×3×3,512,stride,1×1×1
Conv4b 3×3×3,512,stride,1×1×1
Pool4 2×2×2,stride,2×2×2
Conv5a 3×3×3,512,stride,1×1×1
Conv5b 3×3×3,512,stride,1×1×1
Pool5 2×2×2,stride,2×2×2
所用反卷积网络结构与参数如表2所示。
表2
Figure RE-GDA0002377447760000051
Figure RE-GDA0002377447760000061
中的调整图像帧的长宽为112×112,步骤3中权重α为0.3,反向传播选用的优化器为随机梯度下降优化器,一个训练批次包含30个视频,初始学习率为0.003,并且每迭代150k此下降一半,迭代1.9m此后停止。
在常用行为分类数据集UCF101上进行了实验。衡量算法准确性的指标为准确率,实验结果汇总在表1中,为突显算法的优越性,一些主流算法被列入表3作为对比。从准确率来看,本发明的算法性能优异,可准确判别大多数行为的类别。
表1
算法 准确率
C3D 85.2%
Two Stream 88.0%
MoFAP 88.3%
LTC 91.7%
本发明 92.1%
此外,本发明的算法避开了传统的光流提取方法,速度大幅提高,在Tesla V100GPU 平台上,以320×240作为输入视频的分辨率,可达到500帧每秒(500FPS)的速度。而基于光流提取的行为分类算法,都无法达到实时处理视频(25FPS)的速度,由此可看出本发明算法在速度与准确率上的双重优势。

Claims (1)

1.一种基于孪生三维卷积神经网络的行为分类方法,其特征在于,该方法具体包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
Figure FDA0004130291790000011
其中,
Figure FDA0004130291790000012
pclass表示类别的预测向量,a表示训练数据的标签向量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
Figure FDA0004130291790000013
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量,v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中
ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L的值不再下降为止,得到最终的网络参数。
CN201911103231.4A 2019-11-12 2019-11-12 基于孪生三维卷积神经网络的行为分类方法 Active CN111027394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911103231.4A CN111027394B (zh) 2019-11-12 2019-11-12 基于孪生三维卷积神经网络的行为分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911103231.4A CN111027394B (zh) 2019-11-12 2019-11-12 基于孪生三维卷积神经网络的行为分类方法

Publications (2)

Publication Number Publication Date
CN111027394A CN111027394A (zh) 2020-04-17
CN111027394B true CN111027394B (zh) 2023-07-07

Family

ID=70201356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911103231.4A Active CN111027394B (zh) 2019-11-12 2019-11-12 基于孪生三维卷积神经网络的行为分类方法

Country Status (1)

Country Link
CN (1) CN111027394B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273835A (zh) * 2017-06-07 2017-10-20 南京航空航天大学 基于视频分析的暴力行为智能检测方法
CN107729993A (zh) * 2017-10-30 2018-02-23 国家新闻出版广电总局广播科学研究院 利用训练样本及折中度量的3d卷积神经网络构建方法
CN109934195A (zh) * 2019-03-21 2019-06-25 东北大学 一种基于信息融合的反欺骗三维人脸识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273835A (zh) * 2017-06-07 2017-10-20 南京航空航天大学 基于视频分析的暴力行为智能检测方法
CN107729993A (zh) * 2017-10-30 2018-02-23 国家新闻出版广电总局广播科学研究院 利用训练样本及折中度量的3d卷积神经网络构建方法
CN109934195A (zh) * 2019-03-21 2019-06-25 东北大学 一种基于信息融合的反欺骗三维人脸识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Suguo Zhu et al..Multimodal activity recognition with local block CNN and attention-based spatial weighted CNN.《Journal of Visual Communication and Image Representation》.2019,38-43. *
梁锐.视频语义分析若干问题研究.《知网》.2018,1-80. *

Also Published As

Publication number Publication date
CN111027394A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN110032942B (zh) 基于时域分段及特征差分的动作识别方法
Zhou et al. AGLNet: Towards real-time semantic segmentation of self-driving images via attention-guided lightweight network
Yu et al. Bisenet: Bilateral segmentation network for real-time semantic segmentation
CN111709304B (zh) 一种基于时空注意力增强特征融合网络的行为识别方法
CN109829443A (zh) 基于图像增强与3d卷积神经网络的视频行为识别方法
US20190188567A1 (en) Dynamic neural network surgery
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN110084266B (zh) 一种基于视听特征深度融合的动态情感识别方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111539290B (zh) 视频动作识别方法、装置、电子设备及存储介质
US20220222796A1 (en) Image processing method and apparatus, server, and storage medium
CN112016682B (zh) 视频表征学习、预训练方法及装置、电子设备、存储介质
CN110443784B (zh) 一种有效的显著性预测模型方法
CN108647599B (zh) 结合3d跃层连接和循环神经网络的人体行为识别方法
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN112200096A (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN110852295A (zh) 一种基于多任务监督学习的视频行为识别方法
CN115797835A (zh) 一种基于异构Transformer的无监督视频目标分割算法
CN115578614A (zh) 图像处理模型的训练方法、图像处理方法和装置
Wu et al. Cross-fiber spatial-temporal co-enhanced networks for video action recognition
CN114783053A (zh) 基于空间注意力和分组卷积的行为识别方法及***
CN111027394B (zh) 基于孪生三维卷积神经网络的行为分类方法
Im et al. Analysis and optimization of CNN-based semantic segmentation of satellite images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant