CN109977904A - 一种基于深度学习的轻量型的人体动作识别方法 - Google Patents

一种基于深度学习的轻量型的人体动作识别方法 Download PDF

Info

Publication number
CN109977904A
CN109977904A CN201910269644.3A CN201910269644A CN109977904A CN 109977904 A CN109977904 A CN 109977904A CN 201910269644 A CN201910269644 A CN 201910269644A CN 109977904 A CN109977904 A CN 109977904A
Authority
CN
China
Prior art keywords
layer
network
module
shallow
convolutional layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910269644.3A
Other languages
English (en)
Inventor
魏维
何冰倩
魏敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN201910269644.3A priority Critical patent/CN109977904A/zh
Publication of CN109977904A publication Critical patent/CN109977904A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学***均融合的方式对双流结果进行融合,从而得到最终的识别结果。采用基于深度学习的轻量型的人体动作识别方法,能够在保证识别精度不降低的前提下,大幅减少模型参数量。

Description

一种基于深度学习的轻量型的人体动作识别方法
技术领域
本发明涉及图形图像处理技术领域,具体涉及一种有监督的基于深度学习的轻量型的人体动作识别模型方法。
背景技术
人体动作识别要解决的主要问题是如何将摄像机或传感器采集到的视频序列通过分析和处理,使得计算机能够“理解”视频中的人类的动作和行为,对安全监控、娱乐方式等方面都有重要的研究意义,而基于视频的人体动作识别在人机交互、虚拟现实、智能家居设备等领域也都有着广泛应用。对于许多人工智能***来说,人体动作识别或人类行为理解是必不可少的。例如,在视频监控***中包含着数百小时的监控视频,如果手动的去遍历监控视频,不仅工作乏味冗长,效率也是十分低下。通过利用人体动作识别技术,就可以对监控视频中的人体的动作进行识别和理解,从而有效地自动检测恶意行为和异常行为。
基于视频的人体动作识别任务本身存在巨大的挑战性。形成巨大挑战的原因主要有两个方面,一方面是视频环境因素,另一方面是动作类别本身的复杂度。视频光照的变化、摄像机的抖动、视角的变化等都是属于视频环境因素。视频中的运动场景总是多种多样的,即使在室内这样视频背景相对固定的环境内,光照的变化、对行为人的遮挡,都会对人体动作识别任务造成一定的影响。而对于动作类别本身的复杂度,主要是动作类间和类内差异及多样性问题。比如“慢跑”、“散步”和“跑步”这三个不同类别,由于动作速度等原因,会造成不同类别间差异较小的问题;而对于相同的动作,由于视角等原因也会造成相同类别的动作有较大的不同差异问题。
自深度学习网络模型LeNet网络的提出,并在手写数字识别任务上取得可观的成果后,国内外学者相继提出各种基于深度学习的网络模型并应用于人体动作识别,比如AlexNet、VggNet、GoogleNet、ResNet、DenseNet等等。AlexNet和VggNet均是通过加深网络深度的方式来提高网络性能,GoogleNet和ResNet采用增加网络模型的宽度或深度的方式来提高网络性能,这些网络在图片识别和分类以及人体动作识别等领域均取得了非常可观的成绩。尽管通过对网络模型增加三层权重层的实验证明浅层学习网络对复杂函数的表示以及模型的泛化能力均具有一定的局限性,但是随着网络层数的不断叠加和宽度的不断扩展,也会带来一些问题:比如参数量巨大、网络的计算复杂度较大、网络越深越容易出现梯度消失等问题。而且盲目增加网络深度会出现准确率包含或者下降的情况,从而带来网络模型的退化问题。
基于视频的人体动作识别任务与基于静态图像的图片识别任务的主要区别在于视频序列不仅包含图像的外观信息还包含时间序列上的运动信息,而单图像的分析识别不需要去考虑时间上的信息,因此,为了弥补二维卷积神经网络模型不能有效结合视频序列中的运动信息,逐渐利用三维卷积神经网络模型或者双流卷积神经网络模型对视频中的人体动作进行识别。这些模型在一定程度上考虑了视频序列具有运动信息的特性,但是仍然存在关注提高识别准确率的精度时网络结构仍然变得越来越深的问题。
综上所述,本申请发明人在实现本申请发明技术方案的过程中,发现目前基于深度学习的人体动作识别模型或方法至少存在如下技术问题:
一、通过加深网络深度和拓宽网络宽度来提高网络模型的识别性能,大幅度增加了网络模型的计算量,且由于参数量过多,容易出现梯度消失、识别率不升反降的问题。
二、目前的轻量型深度学习网络模型,尽管在一定程度上压缩了模型规模,减少了参数量,但是在基于视频的人体动作识别问题上,难以应对有效提取包含复杂关联关系的时空特征问题。
发明内容
为解决现有基于深度学习的人体动作识别模型参数量大、网络过深过重等问题,本发明提供了一种基于深度学习的轻量型的人体动作识别方法。该方法包含了一种浅层和深层网络相结合的轻量型的深度学习网络,利用网络中浅层多尺度模块对视频序列中的局部特征进行不同尺度的描述,利用网络中深度网络模块对提取到的多尺度特征进行有效融合和表征,最后形成基于深度学习的轻量型的人体动作识别模型,有效实现减少模型的参数量而不损失精度。
一方面,本发明通过下述技术方案实现:
一种基于深度学习的轻量型的人体动作识别方法,其具体步骤如下:
步骤1:将包含人体动作的视频数据进行处理,得到RGB数据帧序列和光流数据帧序列;
步骤2:构建一种浅层和深层网络相结合的轻量型的深度学习网络(Alightweight deep learning network model combining shallow and deep networks,SDNet),该网络包含浅层多尺度模块和深层网络模块;
步骤3:利用步骤2中构建的SDNet网络构建基于深度学习的轻量型的人体动作识别模型,模型为双流模型,即包含时间流和空间流;
步骤4:利用步骤3中构建的基于深度学习的轻量型的人体动作识别模型对视频序列的RGB数据和光流数据进行处理,得到人体动作分类结果。
另一方面,本发明提出了一种浅层和深层网络相结合的轻量型的深度学习网络(Alightweight deep learning network model combining shallow and deep networks,SDNet),该网络包含浅层多尺度模块(Shallow multi-scale module,SMSM)和深层网络模块(Deep networks module,DNM):
所述浅层多尺度模块用于获取原始RGB数据帧序列和光流数据帧序列的人体动作局部特征;
所述深层网络模块用于融合浅层多尺度模块提取的人体动作局部特征,并生成高层特征。
进一步,所述一种浅层和深层网络相结合的轻量型的深度学习网络的网络结构设计如下:
(a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为32,以ReLU函数作为该层的激活函数,ReLU函数的公式如下:
ReLU(x)=max(0,x)
(b)池化层S1:利用最大池化层(Max Pooling)对C1层获得的特征图进行重采样,池化的核大小为,步长为2;
(c1)浅层多尺度模块SMSM-1:该模块包含三个分支,每个分支包含三层不同卷积核的卷积层,模块内所有卷积层的过滤器数目为64;
(c2)浅层多尺度模块SMSM-2:该模块包含三个分支,每个分支包含三层不同卷积核的卷积层,模块内所有卷积层的过滤器数目为128;
(c3)浅层多尺度模块SMSM-3:该模块包含三个分支,每个分支包含三层不同卷积核的卷积层,模块内所有卷积层的过滤器数目为256;
(d)卷积层C2:该层包含两个部分,第一个部分的主要作用是对密集连接的浅层多尺度模块进行连接(concatenation),经过concatenation函数对特征图进行合并连接;第二个部分是卷积层,其卷积核大小为,步长为1,过滤器数目为256,该层不包含非线性激活函数;
(e)深层网络模块DNM。
进一步,所述一种浅层和深层网络相结合的轻量型的深度学习网络的网络结构中(c1)层的浅层多尺度模块SMSM-1的网络结构设计为:
1)分支1:
(a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(b)卷积层C2:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为1,以ReLU函数作为该层的激活函数。膨胀后的卷积核尺寸计算方式如下:
卷积膨胀后卷积核大小=卷积核系数(卷积膨胀前卷积核大小-1)+1
(c)卷积层C3:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
2)分支2:
(a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(b)卷积层C2:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(c)卷积层C3:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
3)分支3:
(a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(b)卷积层C2:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为3,以ReLU函数作为该层的激活函数;
(c)卷积层C3:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为3,以ReLU函数作为该层的激活函数;
4)连接层concatenation:该层利用concatenation函数对三个分支的特征图进行连接;
5)池化层S1:利用最大池化层(Max Pooling)对C1层获得的特征图进行重采样,池化的核大小为,步长为2。
进一步,所述一种浅层和深层网络相结合的轻量型的深度学习网络的网络结构中(c2)层的浅层多尺度模块SMSM-2的网络结构设计除卷积层的过滤器数目为128,其余同SMSM-1结构。
进一步,所述一种浅层和深层网络相结合的轻量型的深度学习网络的网络结构中(c3)层的浅层多尺度模块SMSM-3的网络结构设计除卷积层的过滤器数目为256,其余同SMSM-1结构。
优选地,所述一种浅层和深层网络相结合的轻量型的深度学习网络的网络结构中(c1)(c2)(c3)三个浅层多尺度模块SMSM采用密集连接的方式,即(c1)SMSM-1连接(c2)SMSM-2和(d)卷积层C2,SMSM-2连接(c3)SMSM-3和(d)卷积层C2。
进一步,所述一种浅层和深层网络相结合的轻量型的深度学习网络的网络结构中(e)层的深层网络模块DNM网络结构设计为:
(a)卷积层C1:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(b)MLP卷积层C2:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(c)卷积层C3:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(d)池化层S1:利用最大池化层(Max Pooling)对C3层获得的特征图进行重采样,池化的核大小为,步长为2;
(e)卷积层C4:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(f)MLP卷积层C5:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(g)卷积层C6:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(h)池化层S2:利用全局平均池化层(Global Average Pooling)对C6的特征图进行全局平均池化操作,以该层代替全连接层,以减少参数量。
又一方面,本发明构建了基于深度学习的轻量型的人体动作识别模型,该模型为双流模型,即包含时间流和空间流,模型具体结构如下:
(a)输入层:时间流输入数据为视频序列的光流数据,帧尺寸为;空间流输入数据为视频序列的RGB数据,帧尺寸仍为;
(b)SDNet:该部分时间流网络和空间流网络均由SDNet组成,以SDNet提取视频序列的时空特征;
(c)池化层S1:利用时间金字塔池化层(TPP)将时间流网络和空间流网络的视频帧级的特征聚合成视频级表示。时间金字塔池化水平设置为,即时间金字塔采用3层金字塔形式;
(d)全连接层FC:包含1024组滤波器。即设置1024个神经元与S1相连接,以ReLU作为激活函数;
(e)softmax层:利用Softmax分析器对FC层得到的特征值计算不同类别的相对概率,得到class score。Softmax函数定义如下:
其中,Vi是分类器Softmax前级即FC层输出单元的输出。i表示类别索引,总类别数为C。pi表示当前元素的指数与所有元素指数和的比值,max(pi)为其类别分数class score;
(f)融合层:该层利用决策融合规则融合时间流和空间流的class score,得到动作分类结果。融合时的时间流和空间流的识别置信度设置为1∶1。
本发明相较于现有技术具有如下的优点和有益效果:
1、本发明采用浅层和深层网络相结合的轻量型的深度学习网络对视频序列中的时空特征进行提取,利用密集连接的浅层多尺度模块和深度网络模块实现了模型参数量的大幅减少,避免了网络过深的问题。
2、本发明构建的基于深度学习的轻量型的人体动作识别模型利用双流网络结构,能够有效捕捉时空线索,更好利用人体动作的时空信息,增强人体动作识别模型的识别能力和泛化能力。
3、本发明在保持精度水平和目前前沿方法的动作识别准确率大致一致的前提下,明显减少了模型参数量,压缩了模型规模。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的浅层和深层网络相结合的轻量型的深度学习网络图示。
图2为本发明的浅层和深层网络相结合的轻量型的深度学习网络中浅层多尺度模块SMSM-1示例图。
图3为本发明的基于深度学习的轻量型的人体动作识别模型图示。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
如图3所示,首先,本发明利用提出的浅层和深层网络相结合的轻量型的深度学***均融合的方式对双流结果进行融合,从而得到最终的识别结果。该方法主要包括以下步骤:
步骤1:将包含人体动作的视频数据进行处理,得到RGB数据帧序列和光流数据帧序列;
步骤2:构建一种浅层和深层网络相结合的轻量型的深度学习网络(Alightweight deep learning network model combining shallow and deep networks,SDNet),该网络包含浅层多尺度模块(Shallow multi-scale module,SMSM)和深层网络模块(Deep networks module,DNM)。其中,浅层多尺度模块用于获取原始RGB数据帧序列和光流数据帧序列的人体动作局部特征;深层网络模块用于融合浅层多尺度模块提取的人体动作局部特征,并生成高层特征。
浅层和深层网络相结合的轻量型的深度学习网络(SDNet)的网络结构如下:
(a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为32,以ReLU函数作为该层的激活函数,ReLU函数的公式如下:
ReLU(x)=max(0,x)
(b)池化层S1:利用最大池化层(Max Pooling)对C1层获得的特征图进行重采样,池化的核大小为,步长为2;
(c1)浅层多尺度模块SMSM-1:该模块包含三个分支,和一个连接层和一个池化层。如图2所示,具体结构如下:
(c1-1)分支1:
(c1-1-a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(c1-1-b)卷积层C2:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为1,以ReLU函数作为该层的激活函数。膨胀后的卷积核尺寸计算方式如下:
卷积膨胀后卷积核大小=卷积核系数(卷积膨胀前卷积核大小-1)+1
(c1-1-c)卷积层C3:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(c1-2)分支2:
(c1-2-a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(c1-2-b)卷积层C2:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(c1-2-c)卷积层C3:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(c1-3)分支3:
(c1-3-a)卷积层C1:取卷积核大小为,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(c1-3-b)卷积层C2:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为3,以ReLU函数作为该层的激活函数;
(c1-3-c)卷积层C3:取卷积核大小为,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为3,以ReLU函数作为该层的激活函数;
(c1-4)连接层concatenation:该层利用concatenation函数对三个分支的特征图进行连接;
(c1-5)池化层S1:利用最大池化层(Max Pooling)对C1层获得的特征图进行重采样,池化的核大小为,步长为2。
(c2)浅层多尺度模块SMSM-2:该模块也包含三个分支,和一个连接层和一个池化层。每个分支的卷积层的过滤器数目为128,其余同SMSM-1;
(c3)浅层多尺度模块SMSM-3:该模块也包含三个分支,和一个连接层和一个池化层。每个分支的卷积层的过滤器数目为256,其余同SMSM-1;
(d)卷积层C2:该层包含两个部分,第一个部分的主要作用是对密集连接的浅层多尺度模块进行连接(concatenation),经过concatenation函数对特征图进行合并连接;第二个部分是卷积层,其卷积核大小为,步长为1,过滤器数目为256,该层不包含非线性激活函数;
优选地,如图1所示,(c1)(c2)(c3)三个浅层多尺度模块SMSM采用密集连接的方式,即(c1)SMSM-1连接(c2)SMSM-2和(d)卷积层C2,SMSM-2连接(c3)SMSM-3和(d)卷积层C2。
(e)深层网络模块DNM。该模块的网络结构为:
(e-a)卷积层C1:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(e-b)MLP卷积层C2:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(e-c)卷积层C3:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(e-d)池化层S1:利用最大池化层(Max Pooling)对C3层获得的特征图进行重采样,池化的核大小为,步长为2;
(e-e)卷积层C4:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(e-f)MLP卷积层C5:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(e-g)卷积层C6:卷积核大小为,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(e-h)池化层S2:利用全局平均池化层(Global Average Pooling)对C6的特征图进行全局平均池化操作,以该层代替全连接层,以减少参数量。
步骤3:利用步骤2中构建的SDNet网络构建基于深度学习的轻量型的人体动作识别模型,该模型为双流模型,即包含时间流和空间流。该模型如图3所示,具体结构如下:
(a)输入层:时间流输入数据为视频序列的光流数据,帧尺寸为224×224;空间流输入数据为视频序列的RGB数据,帧尺寸仍为224×224;
(b)SDNet:该部分时间流网络和空间流网络均由SDNet组成,以SDNet提取视频序列的时空特征;
(c)池化层S1:利用时间金字塔池化层(TPP)将时间流网络和空间流网络的视频帧级的特征聚合成视频级表示。时间金字塔池化水平设置为{4×4×1,2×2×1,1×1×1},即时间金字塔采用3层金字塔形式;
(d)全连接层FC:包含1024组滤波器。即设置1024个神经元与S1相连接,以ReLU作为激活函数;
(e)softmax层:利用Softmax分析器对FC层得到的特征值计算不同类别的相对概率,得到class score,Softmax函数定义如下:
其中,Vi是分类器Softmax前级即FC层输出单元的输出。i表示类别索引,总类别数为C,pi表示当前元素的指数与所有元素指数和的比值,max(pi)为其类别分数class score;
(f)融合层:该层利用决策融合规则融合时间流和空间流的class score,得到动作分类结果。融合时的时间流和空间流的识别置信度设置为1∶1。
步骤4:利用步骤3中构建的基于深度学习的轻量型的人体动作识别模型对视频序列的RGB数据和光流数据进行处理,得到人体动作分类结果。
先在ImageNet数据集上进行了本发明模型的预训练和参数微调,然后对动作识别数据集UCF101和HMDB51进行了基于深度学习的轻量型的人体动作识别模型方法处理,最后在数据集UCF101和HMDB51上分别取得了94.0%和69.4%的动作识别准确率,而模型参数量仅为19M。由此可知,本文提出的基于深度学习的轻量型的人体动作识别模型不仅能够对视频中的人体动作进行有效识别,还相较于近年人体动作识别模型大幅减少了参数量,节省了计算成本。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的轻量型的人体动作识别方法,其特征在于,包括以下步骤:
步骤1:将包含人体动作的视频数据进行处理,得到RGB数据帧序列和光流数据帧序列;
步骤2:构建一种浅层和深层网络相结合的轻量型的深度学习网络(A lightweightdeep learning network model combining shallow and deep networks,SDNet),该网络包含浅层多尺度模块和深层网络模块;
步骤3:利用步骤2中构建的SDNet网络构建基于深度学习的轻量型的人体动作识别模型,该模型为双流模型,即包含时间流和空间流;
步骤4:利用步骤3中构建的基于深度学习的轻量型的人体动作识别模型对视频序列的RGB数据和光流数据进行处理,得到人体动作分类结果。
2.如权利要求1所述的方法,其特征在于,在步骤2中,构建一种浅层和深层网络相结合的轻量型的深度学习网络(A lightweight deep learning network model combiningshallow and deep networks,SDNet),该网络包含浅层多尺度模块(Shallow multi-scalemodule,SMSM)和深层网络模块(Deep networks module,DNM):
所述浅层多尺度模块用于获取原始RGB数据帧序列和光流数据帧序列的人体动作局部特征;
所述深层网络模块用于融合浅层多尺度模块提取的人体动作局部特征,并生成高层特征。
3.如权利要求1所述的方法,其特征在于,在步骤2中,构建一种浅层和深层网络相结合的轻量型的深度学习网络(SDNet),该网络的网络结构设计为:
(a)卷积层C1:取卷积核大小为3×3×3,步长为1,卷积层的过滤器数目为32,以ReLU函数作为该层的激活函数,ReLU函数的公式如下:
ReLU(x)=max(0,x)
(b)池化层S1:利用最大池化层(Max Pooling)对C1层获得的特征图进行重采样,池化的核大小为2×2×2,步长为2;
(c1)浅层多尺度模块SMSM-1:该模块包含三个分支,每个分支包含三层不同卷积核的卷积层,模块内所有卷积层的过滤器数目为64;
(c2)浅层多尺度模块SMSM-2:该模块包含三个分支,每个分支包含三层不同卷积核的卷积层,模块内所有卷积层的过滤器数目为128;
(c3)浅层多尺度模块SMSM-3:该模块包含三个分支,每个分支包含三层不同卷积核的卷积层,模块内所有卷积层的过滤器数目为256;
(d)卷积层C2:该层包含两个部分,第一个部分的主要作用是对密集连接的浅层多尺度模块进行连接(concatenation),经过concatenation函数对特征图进行合并连接;第二个部分是卷积层,其卷积核大小为1×1×1,步长为1,过滤器数目为256,该层不包含非线性激活函数;
(e)深层网络模块DNM。
4.如权利要求3所所述的方法,其特征在于,(c1)层的浅层多尺度模块SMSM-1的网络结构设计为:
1)分支1:
(a)卷积层C1:取卷积核大小为1×1×1,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(b)卷积层C2:取卷积核大小为3×3×3,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为1,以ReLU函数作为该层的激活函数。膨胀后的卷积核尺寸计算方式如下:
卷积膨胀后卷积核大小=卷积核系数×(卷积膨胀前卷积核大小-1)+1
(c)卷积层C3:取卷积核大小为3×3×3,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
2)分支2:
(a)卷积层C1:取卷积核大小为1×1×1,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(b)卷积层C2:取卷积核大小为3×3×3,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(c)卷积层C3:取卷积核大小为3×3×3,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
3)分支3:
(a)卷积层C1:取卷积核大小为1×1×1,步长为1,卷积层的过滤器数目为64,以ReLU函数作为该层的激活函数;
(b)卷积层C2:取卷积核大小为3×3×3,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为3,以ReLU函数作为该层的激活函数;
(c)卷积层C3:取卷积核大小为3×3×3,步长为1,卷积层的过滤器数目为64,卷积膨胀系数为3,以ReLU函数作为该层的激活函数;
4)连接层concatenation:该层利用concatenation函数对三个分支的特征图进行连接;
5)池化层S1:利用最大池化层(Max Pooling)对C1层获得的特征图进行重采样,池化的核大小为2×2×1,步长为2。
5.如权利要求3所所述的方法,其特征在于,(c2)层的浅层多尺度模块SMSM-2的网络结构设计除卷积层的过滤器数目为128,其余同权利要求4。
6.如权利要求3所所述的方法,其特征在于,(c3)层的浅层多尺度模块SMSM-3的网络结构设计除卷积层的过滤器数目为256,其余同权利要求4。
7.如权利要求3所所述的方法,其特征在于,(c1)(c2)(c3)三个浅层多尺度模块SMSM采用密集连接的方式,即(c1)SMSM-1连接(c2)SMSM-2和(d)卷积层C2,SMSM-2连接(c3)SMSM-3和(d)卷积层C2。
8.如权利要求3所述的方法,其特征在于,(e)层的深层网络模块DNM网络结构设计为:
(a)卷积层C1:卷积核大小为3×3×3,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(b)MLP卷积层C2:卷积核大小为1×1×1,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(c)卷积层C3:卷积核大小为3×3×3,步长为1,过滤器数目为512,卷积膨胀系数为2,以ReLU函数作为该层的激活函数;
(d)池化层S1:利用最大池化层(Max Pooling)对C3层获得的特征图进行重采样,池化的核大小为2×2×2,步长为2;
(e)卷积层C4:卷积核大小为3×3×3,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(f)MLP卷积层C5:卷积核大小为1×1×1,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(g)卷积层C6:卷积核大小为3×3×3,步长为1,过滤器数目为512,卷积膨胀系数为1,以ReLU函数作为该层的激活函数;
(h)池化层S2:利用全局平均池化层(Global Average Pooling)对C6的特征图进行全局平均池化操作,以该层代替全连接层,以减少参数量。
9.如权利要求1所述的方法,其特征在于,在步骤3中,构建基于深度学习的轻量型的人体动作识别模型,该模型为双流模型,即包含时间流和空间流,模型具体结构如下:
(a)输入层:时间流输入数据为视频序列的光流数据,帧尺寸为224×224;空间流输入数据为视频序列的RGB数据,帧尺寸仍为224×224;
(b)SDNet:该部分时间流网络和空间流网络均由SDNet组成,以SDNet提取视频序列的时空特征;
(c)池化层S1:利用时间金字塔池化层(TPP)将时间流网络和空间流网络的视频帧级的特征聚合成视频级表示。时间金字塔池化水平设置为{4×4×1,2×2×1,1×1×1},即时间金字塔采用3层金字塔形式;
(d)全连接层FC:包含1024组滤波器。即设置1024个神经元与S1相连接,以ReLU作为激活函数;
(e)softmax层:利用Softmax分析器对FC层得到的特征值计算不同类别的相对概率,得到class score,Softmax函数定义如下:
其中,Vi是分类器Softmax前级即FC层输出单元的输出。i表示类别索引,总类别数为C,pi表示当前元素的指数与所有元素指数和的比值,max(pi)为其类别分数class score;
(f)融合层:该层利用决策融合规则融合时间流和空间流的class score,得到动作分类结果。融合时的时间流和空间流的识别置信度设置为1∶1。
CN201910269644.3A 2019-04-04 2019-04-04 一种基于深度学习的轻量型的人体动作识别方法 Pending CN109977904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910269644.3A CN109977904A (zh) 2019-04-04 2019-04-04 一种基于深度学习的轻量型的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910269644.3A CN109977904A (zh) 2019-04-04 2019-04-04 一种基于深度学习的轻量型的人体动作识别方法

Publications (1)

Publication Number Publication Date
CN109977904A true CN109977904A (zh) 2019-07-05

Family

ID=67082966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910269644.3A Pending CN109977904A (zh) 2019-04-04 2019-04-04 一种基于深度学习的轻量型的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN109977904A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN111368666A (zh) * 2020-02-25 2020-07-03 上海蠡图信息科技有限公司 一种基于新型池化及注意力机制双流网络的活体检测方法
CN111666852A (zh) * 2020-05-28 2020-09-15 天津大学 一种基于卷积神经网络的微表情双流网络识别方法
CN111738357A (zh) * 2020-07-24 2020-10-02 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备
CN112244863A (zh) * 2020-10-23 2021-01-22 京东方科技集团股份有限公司 信号识别方法、信号识别装置、电子设备及可读存储介质
CN112308885A (zh) * 2019-07-29 2021-02-02 顺丰科技有限公司 基于光流的暴力抛扔检测方法、装置、设备和存储介质
CN112686329A (zh) * 2021-01-06 2021-04-20 西安邮电大学 基于双核卷积特征提取的电子喉镜图像分类方法
CN112749684A (zh) * 2021-01-27 2021-05-04 萱闱(北京)生物科技有限公司 心肺复苏术训练和评估的方法及装置、设备、存储介质
CN113836969A (zh) * 2020-06-23 2021-12-24 山西农业大学 一种基于双流的异常事件检测方法
CN114037930A (zh) * 2021-10-18 2022-02-11 苏州大学 基于时空增强网络的视频动作识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106845329A (zh) * 2016-11-11 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度卷积特征多通道金字塔池化的动作识别方法
CN107240066A (zh) * 2017-04-28 2017-10-10 天津大学 基于浅层和深层卷积神经网络的图像超分辨率重建算法
CN107862376A (zh) * 2017-10-30 2018-03-30 中山大学 一种基于双流神经网络的人体图像动作识别方法
CN108875674A (zh) * 2018-06-29 2018-11-23 东南大学 一种基于多列融合卷积神经网络的驾驶员行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106845329A (zh) * 2016-11-11 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度卷积特征多通道金字塔池化的动作识别方法
CN107240066A (zh) * 2017-04-28 2017-10-10 天津大学 基于浅层和深层卷积神经网络的图像超分辨率重建算法
CN107862376A (zh) * 2017-10-30 2018-03-30 中山大学 一种基于双流神经网络的人体图像动作识别方法
CN108875674A (zh) * 2018-06-29 2018-11-23 东南大学 一种基于多列融合卷积神经网络的驾驶员行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FISHER YU 等: "MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS", 《ICLR 2016》 *
YIFAN WANG 等: "End-to-End Image Super-Resolution via Deep and Shallow Convolutional Networks", 《DIGITAL OBJECT IDENTIFIER》 *
杨天明 等: "基于视频深度学习的时空双流人物动作识别模型", 《计算机应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN112308885A (zh) * 2019-07-29 2021-02-02 顺丰科技有限公司 基于光流的暴力抛扔检测方法、装置、设备和存储介质
CN111368666A (zh) * 2020-02-25 2020-07-03 上海蠡图信息科技有限公司 一种基于新型池化及注意力机制双流网络的活体检测方法
CN111368666B (zh) * 2020-02-25 2023-08-18 上海蠡图信息科技有限公司 一种基于新型池化及注意力机制双流网络的活体检测方法
CN111666852A (zh) * 2020-05-28 2020-09-15 天津大学 一种基于卷积神经网络的微表情双流网络识别方法
CN113836969A (zh) * 2020-06-23 2021-12-24 山西农业大学 一种基于双流的异常事件检测方法
CN111738357A (zh) * 2020-07-24 2020-10-02 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备
CN111738357B (zh) * 2020-07-24 2020-11-20 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备
CN112244863A (zh) * 2020-10-23 2021-01-22 京东方科技集团股份有限公司 信号识别方法、信号识别装置、电子设备及可读存储介质
CN112686329A (zh) * 2021-01-06 2021-04-20 西安邮电大学 基于双核卷积特征提取的电子喉镜图像分类方法
CN112749684A (zh) * 2021-01-27 2021-05-04 萱闱(北京)生物科技有限公司 心肺复苏术训练和评估的方法及装置、设备、存储介质
CN114037930A (zh) * 2021-10-18 2022-02-11 苏州大学 基于时空增强网络的视频动作识别方法

Similar Documents

Publication Publication Date Title
CN109977904A (zh) 一种基于深度学习的轻量型的人体动作识别方法
Yang et al. Visual perception enabled industry intelligence: state of the art, challenges and prospects
Liu et al. Survey of video based small target detection
CN107862300A (zh) 一种基于卷积神经网络的监控场景下行人属性识别方法
CN102332095B (zh) 一种人脸运动跟踪方法和***以及一种增强现实方法
CN108985192A (zh) 一种基于多任务深度卷积神经网络的视频烟雾识别方法
Ming et al. Simple triplet loss based on intra/inter-class metric learning for face verification
CN110210539A (zh) 多级深度特征融合的rgb-t图像显著性目标检测方法
Houshmand et al. Facial expression recognition under partial occlusion from virtual reality headsets based on transfer learning
Sen et al. Face mask detection for covid_19 pandemic using pytorch in deep learning
CN110232361B (zh) 基于三维残差稠密网络的人体行为意图识别方法与***
CN110334607B (zh) 一种视频人体交互行为识别方法及***
CN110082821A (zh) 一种无标签框微地震信号检测方法及装置
CN110472634A (zh) 基于多尺度深度特征差值融合网络的变化检测方法
CN110022422A (zh) 一种基于密集连接网络的视频帧序列生成方法
CN107194380A (zh) 一种复杂场景下人脸识别的深度卷积网络及学习方法
CN110070027A (zh) 基于智能物联网***的行人重识别方法
Le et al. Cross-resolution feature fusion for fast hand detection in intelligent homecare systems
CN109583334A (zh) 一种基于时空关联神经网络的动作识别方法及其***
CN115063836A (zh) 一种基于深度学习的行人跟踪与重识别方法
Sun et al. YOLO-P: An efficient method for pear fast detection in complex orchard picking environment
CN114333002A (zh) 基于图深度学习和人脸三维重建的微表情识别方法
CN113705384B (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN117392568A (zh) 一种复杂场景下无人机巡检变电设备的方法
CN117475134A (zh) 基于多尺度跨层特征融合网络的伪装目标检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190705