CN111027394B - 基于孪生三维卷积神经网络的行为分类方法 - Google Patents
基于孪生三维卷积神经网络的行为分类方法 Download PDFInfo
- Publication number
- CN111027394B CN111027394B CN201911103231.4A CN201911103231A CN111027394B CN 111027394 B CN111027394 B CN 111027394B CN 201911103231 A CN201911103231 A CN 201911103231A CN 111027394 B CN111027394 B CN 111027394B
- Authority
- CN
- China
- Prior art keywords
- optical flow
- flow field
- network
- representing
- twin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000003287 optical effect Effects 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 19
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 18
- 238000007635 classification algorithm Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于孪生三维卷积神经网络的行为分类方法,步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;步骤3,计算得到总损失函数为,表达式为:L=Lcls+αLflow;步骤4,利用反向传播技术优化网络参数,使网络性能达到最优。本发明算法具有速度与准确率上的双重优势。
Description
技术领域
本发明涉及视频语音理解邻域,特别涉及一种视频中行为的分类方法。
背景技术
行为分类是视频理解领域的重要分支,生成视频锦集、文字描述视频内容等更高层次的任务都以行为分类为基础。行为分类是一种通过提取视频的抽象语义信息并根据语义信息判断视频所包含的动作类别的技术。目前,视频分类问题尚无最优解,一类算法只利用了视频的空间特征,忽略了视频的时间特征,使得分类算法的效果不尽人意;另一类算法同时利用了时间与空间两种特征,这类方法通过光流场描述视频时间特征,并把时间特征抽象后用于行为分类,但是光流场的计算速度无法应用于实时行为分类的场景,并且光流场不是描述视频时间特征的最佳方法,基于光流场的行为分类算法的性能依旧有很大的提升空间。
随着深度神经网络技术的发展,许多新颖有效的框架可以提取和抽象不同种类的特征。
发明内容
本发明旨在提出一种基于孪生三维卷积神经网络的行为分类方法,该方法通过绕过光流场提取过程,以达到提升行为分类算法速度的目的;此外算法还将引入新的时间信息抽象方式,以达到提升行为分类算法性能的目的。
本发明的一种基于孪生三维卷积神经网络的行为分类方法,该方法包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量, v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中 ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L 的值不再下降为止,得到最终的网络参数。
与现有技术相比,本发明的一种基于孪生三维卷积神经网络的行为分类方法在算法上具有速度与准确率上的双重优势。
附图说明
图1是孪生三维卷积神经网络框架及流程示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案进行详细描述。
如图1所示,为本发明所基于的的孪生三维卷积神经网络框架示意图。包括抽象时间特征分支网络与抽象空间特征分支网络,两支分支的结构相同,使用的卷积核都为三维卷积核。抽象时间特征经过反卷积网络生成光流场。抽象特征的拼接为首尾相接,即其中fcat表示拼接后的特征,fs表示抽象空间特征,ft表示抽象时间特征,且fs,/>分类器由全连接层构成,全连接层的输出维度等于需要划分的种类数量。
本发明的基于孪生三维卷积神经网络的行为分类方法整体流程,具体包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量, v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中 ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L 的值不再下降为止,得到最终的网络参数。
本发明需要使用网络实现相应功能,网络中两支分支的结构相同,具体结构及参数如表1所示。
表1
层名 | 卷积核结构,通道数,步长 |
Conv1a | 3×3×3,64,stride,1×1×1 |
Pool1 | 1×2×2,stride1,1×2×2 |
Conv2a | 3×3×3,128,stride,1×1×1 |
Pool2 | 2×2×2,stride,2×2×2 |
Conv3a | 3×3×3,256,stride,1×1×1 |
Conv3b | 3×3×3,256,stride,1×1×1 |
Pool3 | 2×2×2,stride,2×2×2 |
Conv4a | 3×3×3,512,stride,1×1×1 |
Conv4b | 3×3×3,512,stride,1×1×1 |
Pool4 | 2×2×2,stride,2×2×2 |
Conv5a | 3×3×3,512,stride,1×1×1 |
Conv5b | 3×3×3,512,stride,1×1×1 |
Pool5 | 2×2×2,stride,2×2×2 |
所用反卷积网络结构与参数如表2所示。
表2
中的调整图像帧的长宽为112×112,步骤3中权重α为0.3,反向传播选用的优化器为随机梯度下降优化器,一个训练批次包含30个视频,初始学习率为0.003,并且每迭代150k此下降一半,迭代1.9m此后停止。
在常用行为分类数据集UCF101上进行了实验。衡量算法准确性的指标为准确率,实验结果汇总在表1中,为突显算法的优越性,一些主流算法被列入表3作为对比。从准确率来看,本发明的算法性能优异,可准确判别大多数行为的类别。
表1
算法 | 准确率 |
C3D | 85.2% |
Two Stream | 88.0% |
MoFAP | 88.3% |
LTC | 91.7% |
本发明 | 92.1% |
此外,本发明的算法避开了传统的光流提取方法,速度大幅提高,在Tesla V100GPU 平台上,以320×240作为输入视频的分辨率,可达到500帧每秒(500FPS)的速度。而基于光流提取的行为分类算法,都无法达到实时处理视频(25FPS)的速度,由此可看出本发明算法在速度与准确率上的双重优势。
Claims (1)
1.一种基于孪生三维卷积神经网络的行为分类方法,其特征在于,该方法具体包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量,v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中
ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L的值不再下降为止,得到最终的网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103231.4A CN111027394B (zh) | 2019-11-12 | 2019-11-12 | 基于孪生三维卷积神经网络的行为分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911103231.4A CN111027394B (zh) | 2019-11-12 | 2019-11-12 | 基于孪生三维卷积神经网络的行为分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027394A CN111027394A (zh) | 2020-04-17 |
CN111027394B true CN111027394B (zh) | 2023-07-07 |
Family
ID=70201356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911103231.4A Active CN111027394B (zh) | 2019-11-12 | 2019-11-12 | 基于孪生三维卷积神经网络的行为分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027394B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273835A (zh) * | 2017-06-07 | 2017-10-20 | 南京航空航天大学 | 基于视频分析的暴力行为智能检测方法 |
CN107729993A (zh) * | 2017-10-30 | 2018-02-23 | 国家新闻出版广电总局广播科学研究院 | 利用训练样本及折中度量的3d卷积神经网络构建方法 |
CN109934195A (zh) * | 2019-03-21 | 2019-06-25 | 东北大学 | 一种基于信息融合的反欺骗三维人脸识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
-
2019
- 2019-11-12 CN CN201911103231.4A patent/CN111027394B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273835A (zh) * | 2017-06-07 | 2017-10-20 | 南京航空航天大学 | 基于视频分析的暴力行为智能检测方法 |
CN107729993A (zh) * | 2017-10-30 | 2018-02-23 | 国家新闻出版广电总局广播科学研究院 | 利用训练样本及折中度量的3d卷积神经网络构建方法 |
CN109934195A (zh) * | 2019-03-21 | 2019-06-25 | 东北大学 | 一种基于信息融合的反欺骗三维人脸识别方法 |
Non-Patent Citations (2)
Title |
---|
Suguo Zhu et al..Multimodal activity recognition with local block CNN and attention-based spatial weighted CNN.《Journal of Visual Communication and Image Representation》.2019,38-43. * |
梁锐.视频语义分析若干问题研究.《知网》.2018,1-80. * |
Also Published As
Publication number | Publication date |
---|---|
CN111027394A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032942B (zh) | 基于时域分段及特征差分的动作识别方法 | |
Zhou et al. | AGLNet: Towards real-time semantic segmentation of self-driving images via attention-guided lightweight network | |
Yu et al. | Bisenet: Bilateral segmentation network for real-time semantic segmentation | |
CN111709304B (zh) | 一种基于时空注意力增强特征融合网络的行为识别方法 | |
CN109829443A (zh) | 基于图像增强与3d卷积神经网络的视频行为识别方法 | |
US20190188567A1 (en) | Dynamic neural network surgery | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN110084266B (zh) | 一种基于视听特征深度融合的动态情感识别方法 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN111539290B (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
US20220222796A1 (en) | Image processing method and apparatus, server, and storage medium | |
CN112016682B (zh) | 视频表征学习、预训练方法及装置、电子设备、存储介质 | |
CN110443784B (zh) | 一种有效的显著性预测模型方法 | |
CN108647599B (zh) | 结合3d跃层连接和循环神经网络的人体行为识别方法 | |
CN112766062B (zh) | 一种基于双流深度神经网络的人体行为识别方法 | |
CN111062410B (zh) | 基于深度学习的星型信息桥气象预测方法 | |
CN109948721A (zh) | 一种基于视频描述的视频场景分类方法 | |
CN112200096A (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
CN110852295A (zh) | 一种基于多任务监督学习的视频行为识别方法 | |
CN115797835A (zh) | 一种基于异构Transformer的无监督视频目标分割算法 | |
CN115578614A (zh) | 图像处理模型的训练方法、图像处理方法和装置 | |
Wu et al. | Cross-fiber spatial-temporal co-enhanced networks for video action recognition | |
CN114783053A (zh) | 基于空间注意力和分组卷积的行为识别方法及*** | |
CN111027394B (zh) | 基于孪生三维卷积神经网络的行为分类方法 | |
Im et al. | Analysis and optimization of CNN-based semantic segmentation of satellite images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |