CN109446923B - 基于训练特征融合的深度监督卷积神经网络行为识别方法 - Google Patents

基于训练特征融合的深度监督卷积神经网络行为识别方法 Download PDF

Info

Publication number
CN109446923B
CN109446923B CN201811176393.6A CN201811176393A CN109446923B CN 109446923 B CN109446923 B CN 109446923B CN 201811176393 A CN201811176393 A CN 201811176393A CN 109446923 B CN109446923 B CN 109446923B
Authority
CN
China
Prior art keywords
video
local
layer
descriptor
evolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811176393.6A
Other languages
English (en)
Other versions
CN109446923A (zh
Inventor
李侃
李杨
王欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201811176393.6A priority Critical patent/CN109446923B/zh
Publication of CN109446923A publication Critical patent/CN109446923A/zh
Application granted granted Critical
Publication of CN109446923B publication Critical patent/CN109446923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于训练特征融合的深度监督卷积神经网络行为识别方法,属于人工智能计算机视觉领域。本方法提取目标视频的多层卷积特征,设计局部演化池化层,利用局部演化池化层将视频卷积特征映射到一个包含时间信息的向量上,从而提取到目标视频的局部演化描述符;通过使用VLAD编码方法,将多个局部演化描述符编码成基于元动作的视频级表示;利用卷积网络多层级之间信息的互补性,将多层级分类结果集成得到最终分类结果。本发明充分利用时间信息构建视频级表示,有效提高了视频行为识别的准确率。同时,通过集成多层级的预测结果提高了网络中间层的判别性,从而提高了网络整体的性能。

Description

基于训练特征融合的深度监督卷积神经网络行为识别方法
技术领域
本发明涉及一种基于视频的行为识别方法,特别涉及一种基于训练特征融合的深度卷积神经网络行为识别方法,属于人工智能计算机视觉领域。
背景技术
目前,人体行为识别是智能视频分析领域的研究热点,也是视频理解任务的重要研究方向。近年来,在视频监控、异常事件监测、基于内容的视频检索等方面取得了广泛关注。然而,由于人类行为的复杂性、多变性、视频背景信息的干扰等因素,使得如何为视频建立适当的时空级表示成为关键。
早期研究主要致力于识别理想场景下的简单动作,采用基于人工设计特征的行为识别方法,例如,基于三维直方图(HOG3D)的方法、基于光流直方图(HOF)的方法、基于运动边界直方图的方法等等。这些方法通过以描述时空兴趣点(STIP)为中心的区域特征来构建视频的表示,并用来识别视频中的动作。
随着多媒体技术的快速发展,网络以及监控视频中的数据迅速增长,基于真实场景的人体行为识别技术越来越受到关注。由于人体外形、视角、光照和背景变化及摄像头的移动等问题,传统的基于人工设计特征的行为识别方法已经难以在这些真实场景下取得理想效果。
近年来,随着深度学习在计算机视觉领域的快速发展和应用,一系列基于深度模型的人体视频行为识别方法被提出。例如,从单帧的层次识别视频中的行为、通过使用RGB帧和光流的双流网络捕捉视频中的运动信息、通过探索视频流上的三维卷积网络来学习视频片段的时空特征等,以及后来提出的双流膨胀三维卷积网络(I3D),它将卷积神经网络结构中二维的卷积和池化核集扩展为三维,这使得网络无缝地学习视频的时空特征成为可能。
然而,现有的卷积神经网络结构只能够对单帧或视频短片段进行建模,缺少直接对视频的长时序结构信息进行建模的能力。因此,现有的基于深度模型的行为识别方法采用了不同的策略来获取视频长时序的时空特征。这些策略主要分为两类:(1)深度卷积特征编码及池化方法,即,利用深度卷积网络来提取帧或视频片段的卷积特征,然后采用时空编码或者池化的方法构建全局的视频级表示。但是,这种方法构造的视频表示是无序的,没有考虑到视频帧与帧之间的时序和演变关系。(2)通过考虑视频的时序结构来构建视频级表示,即,将多个帧或视频片段的深度特征输入到时序模型如LSTM、GRU或排序函数中,将其融合成视频级表示。但是,这种方法会在一定程度上缺失视频的空间局部信息。
发明内容
本发明的目的在于为了克服现有技术存在的缺陷,针对目前基于深度特征的长时序视频表示方法中存在的问题,从如何为视频建立适当的时空级表示的层面出发来识别人物行为,提出了一种基于训练特征融合的深度监督卷积神经网络行为识别方法。
本发明通过以下技术方案实现。
一种基于训练特征融合的深度监督卷积神经网络行为识别方法,包括以下步骤:
步骤1:采集用于训练的视频数据,形成训练数据集。
对训练视频数据集中的视频进行预处理,提取全部视频帧,并将其裁剪成相同尺寸。
步骤2:对训练数据集中的视频进行帧采样。
对训练数据集中的每个视频进行均匀的帧采集。在整个视频跨度上,以
Figure BDA0001823862180000021
为时间间隔,均匀采集T个RGB帧[I1,I2,...,IT],其中,Tz为某视频总时长,令It表示第t个采集到的视频帧,第t帧对应到第t时刻。
步骤3:扩充训练数据集。
将从每个视频采集到的视频帧全部进行反转操作,使之成为新的视频,从而扩充训练数据集,使视频数据集中的视频数目为之前的2倍。
步骤4:提取训练视频帧的多层卷积特征。
首先,从标准的CNN(卷积神经网络)架构中选取M个卷积层,用于提取视频帧的多层卷积特征。由于识别行为通常需要诸如物体部分或身体部分在内的高水平语义信息,因此本发明从卷积网络的顶层卷积层中选择用于产生特征图的M个卷积层。
之后,将采集到的视频V的T个RGB帧[I1,I2,...,IT]输入到该卷积网络中,并提取每个RGB帧在这M个卷积层中产生的特征图。对于每个RGB帧,在每个选定卷积层都会获得空间大小为N×N,包含C个通道的特征图。对于整个视频V,将会获得M×T个空间大小为N×N,包含C个通道的特征图。
步骤5:对视频帧的多层特征图进行特征聚合,得到视频级表示。具体方法如下:
步骤5.1:使用局部演化排序池化方法,提取视频V的局部演化描述符。
将视频V的多帧在同一卷积层下得到的T个特征图作为输入,然后将每帧的特征图分解为一组局部空间特征,最后对每个空间位置的局部空间特征的演化信息进行建模生成局部演化描述符。具体方法如下:
步骤5.1.1:经步骤4,视频V的T帧[I1,I2,...,IT]中的每一帧在某选定卷积层均获取空间大小N×N并且包含C个通道的特征图,这些特征图表示为[fm1,fm2,...,fmT]。分别连接每个特征图上每个空间位置上所有通道的值,t∈{1,...,T},从而将每个特征图分解为多个局部空间特征。对于每一帧,将获得N×N个C维的局部空间特征。
步骤5.1.2:对T帧[I1,I2,...,IT]的每个空间位置的演化信息进行建模,生成视频V局部演化描述符。具体方法如下:
步骤5.1.2.1:对于某一个特定的空间位置,将T帧的局部空间特征按照时间顺序排列表示为[ri1,ri2,…,rit,...,riT],其中i={1,...,N×N},
Figure BDA0001823862180000031
为第t时刻上第i个空间位置的局部空间特征,
Figure BDA0001823862180000032
为C维的实数向量空间,即rit为C维实数向量空间上的向量。
步骤5.1.2.2:建模第i个空间位置的演化信息。定义一个排序(Rank)函数,为每一个时刻计算一个分数值:
S(t,i∣e)=eTdit (1)
其中,
Figure BDA0001823862180000033
为第t时刻上第i个空间位置的平均局部空间特征,
Figure BDA0001823862180000034
本发明设定一个约束关系:后面时刻对应的分数值大于前面的时刻对应的分数值,即
Figure BDA0001823862180000041
参数e可以反映这些局部空间特征的时间顺序。对参数e进行学习可以认为是一个凸优化问题:
Figure BDA0001823862180000042
目标函数E(e)的第一项是通用的二次正则化项,第二项是软计数损失函数hinge-loss。
步骤5.1.2.3:优化目标函数E(e),将一系列局部空间特征映射到向量e上。e包含对这些局部空间特征的排序信息,即为局部演化描述符。本方法使用近似技术解决方程式的优化问题,从而将该操作嵌入CNN网络当中。最终,上述目标函数的解简化为:
Figure BDA0001823862180000043
其中,αt=2(T-t+1)-(T+1)(HT-Ht-1),
Figure BDA0001823862180000044
为参数,该权重通过排序池化(RankPooling)得到。上述解看作第i个空间位置在T个采集到的时刻上的局部空间特征的加权相加。
步骤5.1.2.4:基于上述排序函数的近似解,设计局部演化排序池化层。该层输入T帧N×N×C大小的卷积特征图,输出N×N个C维的局部演化描述符向量[e1,e2,...,eN×N]。
步骤5.2:使用基于局部演化描述符的VLAD(局部聚合向量)编码方法,将视频的局部演化描述符编码为基于元动作的视频级的表示。
本方法基于“一个动作是由一组元动作组成”的想法,提出了基于局部演化描述符的VLAD编码方法,将多个局部演化描述符编码成基于元动作的表示,从而构建紧凑的语义级别的表示。具体步骤如下:
步骤5.2.1:使用K个元动词单词,将特征空间
Figure BDA0001823862180000045
划分为K单元,设每个单元的锚定点为ak
步骤5.2.2:将步骤5.1中得到的视频V的一系列局部演化描述符[e1,e2,...,eN×N]中的每个局部演化描述符,分配给上述K个单元中的其中一个单元,并记录局部演化描述符ei与锚定点ak之间的残差向量。
步骤5.2.3:将残差向量进行求和。
Figure BDA0001823862180000051
式(4)中,
Figure BDA0001823862180000052
表示描述符ei的软分配,锚定点ak在该公式中是一个可通过训练调节的超参数;ei-ak表示局部演化描述符与第k个锚定点之间的残差。通过公式得到的hk表示第k个单元中的聚合描述符。
步骤5.2.4:得到该视频的局部演化描述符与每个锚定点间的残差之和,视频V可表示为v=[h1,h2,...,hK],
Figure BDA0001823862180000053
C为实数空间的维度,K为元动作单元的个数,所以,ν为实数空间上C×K大小的矩阵。
基于上式可微分,且允许将误差梯度反向传播到网络的较低层,因此本发明设计了基于局部演化描述符的VLAD编码层。
步骤6:对于选取的M个卷积层,并行在每一层进行上述步骤5、步骤6操作,得到该视频在每个选定卷积层的视频级特征表示。
对多个卷积层得到的视频级表示进行动作识别,是本发明提出的基于深度监督的动作识别方法。
步骤7:将步骤6中得到的在每一层的视频级表示输入到相应的分类器中,得到视频V在M个选定卷积层上的分类结果。具体方法如下:
步骤7.1:为了整合网络的卷积和聚合操作中的所有参数,定义:
Figure BDA0001823862180000054
Figure BDA0001823862180000055
其中,B表示卷积层的总数。设b={1,...,B},
Figure BDA0001823862180000056
表示第b个卷积层的参数。M表示本发明选取的卷积层的个数,由于在每个选取的卷积层上均得到一个分类结果,故每个选取的卷积层与一个特征聚合操作和一个分类器相连,所以特征聚合操作的个数为M,分类器的个数也为M。设m={1,...,M},故
Figure BDA0001823862180000061
表示第m个选取的卷积层上的特征聚合操作的权重,
Figure BDA0001823862180000062
表示第m个选取的卷积层上所连分类器的权重。
步骤7.2:定义合并所有输出层分类错误的损失函数:
Figure BDA0001823862180000063
其中,L表示动作分类的视频级交叉熵损失函数,定义为:
Figure BDA0001823862180000064
其中,g为视频V的真实标签,g∈A,A={A1,...,Az}定义了所有动作类别,类别数量为Z,Ai表示动作集A中的第i个动作类别,sm表示第m个卷积层预测得到的动作类别。
步骤8:将M个选定卷积层的分类结果进行集成。
本发明提出了一种分类集成方法来融合多层级的预测结果,该方法对在各个卷积层得到分值使用对应的权值求和,以充分利用多层级信息的互补性。对应的权值通过基于注意力的方法分配。具体方法如下:
步骤8.1:令融合后的预测结果F表示为:
Figure BDA0001823862180000065
其中,
Figure BDA0001823862180000066
表示集成权重,其中
Figure BDA0001823862180000067
是一个Z维的向量,通过注意力(Attention)机制分配权重得到,sm表示第m个卷积层预测的动作类别。
集成层的损失函数定义为:
Figure BDA0001823862180000068
其中,y=argmax(F)表示最终预测得到的动作类别,
Figure BDA0001823862180000069
为最终预测动作类别为Ai的概率。
步骤8.2:在训练集上最小化以下目标函数,学习得到所有的参数W,wc,wf
Figure BDA0001823862180000071
步骤9:使用梯度下降算法优化上述损失函数,通过反向传播调整模型参数,直至损失函数收敛。此时,该基于可训练特征融合的深度卷积神经网络行为识别模型已训练完成。
步骤10:使用步骤9中训练好的模型,对未知视频V′中的人物行为进行识别。具体步骤如下:
步骤10.1:将未知视频V′按照步骤1和步骤2中的方法进行预处理以及帧采样,得到对V′均匀采集的T个RGB帧[I′1,I′2,...,I′T]。
步骤10.2:按照步骤4所述方法,提取未知视频的多层卷积特征。对于V′的每个RGB帧,在每个选定卷积层都将会获取空间大小为N×N,包含C个通道的特征图。对于整个未知视频V′,将会获得M×T个空间大小为N×N,包含C个通道的特征图。
步骤10.3,按照步骤5、步骤6所述方法,得到V′在M个选定卷积层每一层上的视频级特征表示。具体步骤如下:
首先,按照步骤5.1所述方法,使用局部演化排序池化方法得到V′在每一选定卷积层上的N×N个C维的局部演化描述符向量[e′1,e′2,...,e′N×N],
然后,按照步骤5.2所述方法,使用基于局部演化描述符的VLAD编码方式将[e′1,e′2,...,e′N×N]编码为基于元动作的视频级表示v′=[h′1,h′2,...,h′K],
Figure BDA0001823862180000072
最后,按照步骤6所述方法,在M个选定卷积层上并行进行上述操作,在每一层上得到V′的视频级表示。
步骤10.4:按照步骤7所述方法,获得V′在M个选定卷积层上的分类结果,s′m表示V′在第m个卷积层上预测得到的动作类别结果。按照步骤8所述方法,使用分类集成方法对多层的分类结果进行集成,得到最终对未知视频的分类结果。F′表示融合后的预测结果:
Figure BDA0001823862180000073
其中,
Figure BDA0001823862180000074
是一个Z维的向量,s′m表示第m个卷积层预测的动作类别。
上述过程执行完毕后,即可得到对未知视频中人物行为的预测结果。
有益效果
本发明对比现有技术,具有以下有益效果:
(1)所提出特征聚合操作将局部演化排序池化操作和基于局部演化描述符的VLAD编码操作合二为一,并提出局部演化排序池化层和基于局部演化描述符的VLAD编码层,简化了方法的实施;
(2)所提出的局部演化排序池化方法,通过建模每个空间位置的时间演化信息来捕获更多关于动作的细节;
(3)所提出的基于局部演化描述符的VLAD编码方式通过将局部演化描述符投影到一个语义空间,生成了更具有判别力的视频表示;
(4)所提出深度监督动作识别方法在单个网络中构建多层级的视频表示,并产生多个预测结果;
(5)所提出多层级分类结果集成方法通过集成多层级的预测结果提高了网络中间层的判别性,从而提高了网络整体的性能。
附图说明
图1为本发明整体逻辑结构图。
图2为本发明方法的步骤详述及参数传播。包含模型训练步骤以及本发明所提出的特征聚合方法,以及深度监督动作识别方法。
图3为本发明方法的流程图。
具体实施方式
下面将结合附图对本发明的具体实施方法做进一步的详细说明。
本发明的执行环境是有计算机实现以下三个主要功能构成:一、多层卷积特征提取功,该功能是提取视频每一帧的在多层特征图。二、特征聚合功能,包含局部演化描述池化层,该层的功能是将每一层得到的多帧特征图编码为局部演化描述符;以及基于局部演化描述符的VLAD编码层,该层的功能是将局部演化描述符编码成基于元动作的视频级表示。三、深度监督动作识别方法,该方法的功能是用上面得到的多层的视频级表示来识别视频中的人物动作,并将多层的分类结果进行集成得到最终的预测结果。本发明的整体逻辑结构图见图1。
如图3所示,为本发明一种基于可训练特征融合的深度监督卷积神经网络行为识别方法的流程图。
下面对本发明提出一种基于可训练特征融合的深度监督卷积神经网络行为识别方法的具体实施例作更详细的描述。
根据附图3中(b)所示模型训练阶段流程图,模型训练阶段的具体实施方法为:
步骤1:对训练视频数据集中的视频进行预处理,提取全部视频帧,并裁剪成尺寸为224px×224px。
步骤2:对训练视频中的每个视频,以时间间隔为
Figure BDA0001823862180000091
均匀采集10个RGB帧[I1,I2,...,I10],Tz为某视频总时长,It表示某视频第t个采集到视频帧,为了方便起见,某训练视频的第t帧对应为其的第t时刻。
步骤3:将数据集中每个视频采集到的视频帧均进行反转操作,使之成为新的视频以扩充训练数据集,使得视频数据集中视频数目为之前的2倍。
步骤4:提取训练视频帧的多层卷积特征,本发明在预训练好的CNN架构中选取了3个卷积层:Mixed5_a层、Mixed5_b层和Mixed5_c层用于产生视频帧的特征图。将采集到的视频V的10个RGB帧[I1,I2,...,I10]输入到该卷积网络中,对于每个RGB帧,在每个选定卷积层都会获得空间大小为64×64,包含3个通道的特征图。对于整个视频V,将会获得3×10个空间大小为64×64,包含3个通道的特征图。
步骤5:对视频帧的多层特征图进行特征聚合,得到视频级的表示,具体方法如下:
步骤5.1,将每个训练视频采集的RGB帧输入到局部演化排序池化层得到每个训练视频的局部演化描述符。
步骤5.1.1,经过步骤4中,训练视频V的10帧[I1,I2,...,I10]中的每一帧在Mixed5_a层均获取空间大小64×64并且包含3个通道的特征图,这些特征图可表示为[fm1,fm2,...,fm10]。连接mt上每个空间位置上所有通道的值,t∈{1,...,10},从而将fmt特征图分解为64×64个3维的局部空间特征。
步骤5.1.2,对T帧[I1,I2,...,I10]的每个空间位置的演化信息进行建模,生成视频V局部演化描述符,具体方法如下:
步骤5.1.2.1,将某一特定空间位置i的局部空间特征按照时间顺序进行排序,得到表示[ri1,ri2,…rit,…,ri10],其中i={1,...,64},
Figure BDA0001823862180000101
为第t时刻上第i个空间位置的局部空间特征,
Figure BDA0001823862180000102
为3维的实数向量空间,即rit为3维实数向量空间上的向量。
步骤5.1.2.2,使用排序函数S(t,i∣e)=e10dit为每一个时刻t计算一个分数值,其中
Figure BDA0001823862180000103
为第t时刻上第i个空间位置的平均局部空间特征,
Figure BDA0001823862180000104
1~10对应为时刻,设q∈{1,...,10}为t∈{1,...,10}之后的时刻,则有S(q,i∣e)>S(t,i∣e)。找出所有满足条件的q>t,计算E(e):
Figure BDA0001823862180000105
步骤5.1.2.3,优化E(e),将一系列局部空间特征映射到一个向量e。e即为该训练视频的局部演化描述符:
e=argmineE(e)
使用近似技术简化E(e)的解为:
Figure BDA0001823862180000106
其中,αt=2(10-t+1)-(10+1)(H10-Ht-1),
Figure BDA0001823862180000107
该权重通过排序池化(RankPooling)得到。上述解可以看作第i个空间位置在所有采集到的10个时刻的局部空间特征的加权相加。
步骤5.1.2.4,学得的e向量即为该训练视频第i个空间位置的局部演化描述符,输入整个训练视频,在Mixed5_a层将得到64×64个3维的局部演化描述符向量[e1,e2,...,e64×64]。
步骤5.2:将每个训练视频的局部演化描述符向量输入到基于局部演化描述符的VLAD编码层得到每个训练视频的视频级表示。
步骤5.2.1,使用32个元动词单词将特征空间
Figure BDA0001823862180000108
划分为32个单元,然后将局部演化描述符e1,e2,...,e64×64分配给这32个单元中的其中一个单元。记录局部演化描述符ei与每个元动作锚定点ak之间的残差向量(ei-ak)。
步骤5.2.2,将这些残差向量求和,得到第k个单元中的聚合描述符hk
Figure BDA0001823862180000111
步骤5.2.3,该训练视频可以表示为v=[h1,h2,...,h32],
Figure BDA0001823862180000112
v为实数空间上3×32大小的矩阵。
步骤6:并行在Mixed5_a层Mixed5_b层和Mixed5_c层执行上述步骤5中操作,得到每个训练视频在这3个卷积层上的视频级表示。
步骤7:获得训练视频在多个卷积层的分类结果。
将步骤6中得到的在每一层的视频级表示输入到相应的分类器中得到在该卷积层的分类结果。具体方法如下:
步骤7.1,定义参数,整个网络卷积层的总数为B,第b个卷积层的参数表示为
Figure BDA0001823862180000113
本发明选取的卷积层为Mixed5_a层Mixed5_b层和Mixed5_c层3层,由于在每个选取的卷积层上均得到一个分类结果,故每个选取的卷积层与一个特征聚合操作和一个分类器相连,所以特征聚合操作的个数为3,分类器的个数也为3。则第m个选取的卷积层上的特征聚合操作的权重为
Figure BDA0001823862180000114
第m个选取的卷积层上所连分类器的权重为
Figure BDA0001823862180000115
Figure BDA0001823862180000116
Figure BDA0001823862180000117
步骤7.2,合并所有输出层分类错误的损失函数定义为:
Figure BDA0001823862180000118
其中L表示动作分类的视频级交叉熵损失函数。
设A={A1,...,A51}定义了训练数据集中所有的动作类别,类别数量为51类。该训练视频的真实标签为g∈A,sm表示第m个卷积层预测的动作类别。则交叉熵损失函数为:
Figure BDA0001823862180000119
步骤8:将多层的分类结果进行集成。
步骤8.1,集成后的预测结果为:
Figure BDA0001823862180000121
其中
Figure BDA0001823862180000122
表示集成权重,其中
Figure BDA0001823862180000123
是一个Z维的向量,通过注意力分配权重得到。集成层的损失函数定义为:
Figure BDA0001823862180000124
其中,
Figure BDA0001823862180000125
表示最终预测得到的动作类别,P(y=Ai∣V,W,wcm,wf为最终预测动作类别为Ai的概率。
步骤8.2,最小化目标函数
Figure BDA0001823862180000126
学习得到所有的参数W,wc,wf
步骤9:使用梯度下降算法优化损失函数
Figure BDA0001823862180000127
通过反向传播调整模型参数,直至损失函数收敛,此时该基于可训练特征融合的深度卷积神经网络行为识别模型已训练完成。
步骤10:使用步骤9中训练好的模型对未知视频V′中的人物行为进行识别,具体步骤如下:
步骤10.1,对输入的未知视频按照步骤1和步骤2进行预处理以及帧采样,提取未知视频全部视频帧并裁剪成尺寸为224px×224px。以时间间隔为
Figure BDA0001823862180000128
均匀采集10个RGB帧[I′1,I′1,...,I′10],0.4s为未知视频总时长,I′t表示某视频第t个采集到视频帧。
步骤10.2,按照步骤4中的方法,提取未知视频的多层卷积特征,对于V′的每个RGB帧,在每个选定卷积层都会获得空间大小为64×64,包含3个通道的特征图。对于整个未知视频V′,将会获得3×10个空间大小为64×64,包含3个通道的特征图。
步骤10.3:按照步骤5、步骤6中的方法,得到V′在3个选定卷积层每一层上的视频级特征表示,具体步骤如下:
首先按照步骤5.1中的方法,使用局部演化排序池化方法得到V′在每一选定卷积层上的64×64个3维的局部演化描述符向量[e′1,e′1,...,e′64×64],
然后按照步骤5.2中的方法,使用基于局部演化描述符的VLAD编码方式将[e′1,e′1,...,e′64×64]编码为基于元动作的视频级表示v′=[h′1,h′2,...,h′32],
Figure BDA0001823862180000131
v′为实数空间上3×32大小的矩阵。
最后按照步骤6中的方法,在3个选定卷积层Mixed5_a层、Mixed5_b层和Mixed5_c层上并行进行上述操作,在每一层上得到V′的视频级表示。
步骤10.4,按照步骤7中的方法获得V′在3个选定卷积层上的分类结果,s′m表示未知视频V′在第m个卷积层上预测得到的动作类别结果。按照步骤8中的方法,使用分类集成方法对多层的分类结果进行集成,得到最终对未知视频的分类结果:
Figure BDA0001823862180000132
其中
Figure BDA0001823862180000133
表示集成权重。
上述过程执行完毕后,即可得到对未知视频中人物行为的预测结果为“跑步”。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于训练特征融合的深度监督卷积神经网络行为识别方法,其特征在于,包括以下步骤:
步骤1:采集用于训练的视频数据,形成训练数据集;
步骤2:对训练数据集中的每个视频进行均匀帧采样;
步骤3:扩充训练数据集,将从每个视频采集到的视频帧全部进行反转操作,使之成为新的视频,从而扩充训练数据集,使视频数据集中的视频数目为之前的2倍;
步骤4:提取训练视频帧的多层卷积特征;
首先,从标准的卷积神经网络架构中选取M个卷积层,用于提取视频帧的多层卷积特征;
之后,将采集到的视频V的T个RGB帧[I1,I2,...,IT]输入到该卷积网络中,并提取每个RGB帧在这M个卷积层中产生的特征图;对于每个RGB帧,在每个选定卷积层都会获得空间大小为N×N,包含C个通道的特征图;对于整个视频V,将会获得M×T个空间大小为N×N,包含C个通道的特征图;
步骤5:对视频帧的多层特征图进行特征聚合,得到视频级表示,具体方法如下:
步骤5.1:使用局部演化排序池化方法,提取视频V的局部演化描述符:
首先,将视频V的多帧在同一卷积层下得到的T个特征图作为输入,然后将每帧的特征图分解为一组局部空间特征,最后对每个空间位置的局部空间特征的演化信息进行建模生成局部演化描述符;
步骤5.2:使用基于局部演化描述符的局部聚合向量编码方法,将视频的局部演化描述符编码为基于元动作的视频级的表示;
步骤6:对于选取的M个卷积层,并行在每一层进行上述步骤5、步骤6操作,得到该视频在每个选定卷积层的视频级特征表示;
步骤7:将步骤6中得到的在每一层的视频级表示输入到相应的分类器中,得到视频V在M个选定卷积层上的分类结果;
步骤8:将M个选定卷积层的分类结果进行集成,具体方法如下:
步骤8.1:令融合后的预测结果F表示为:
Figure FDA0003209263570000011
其中,
Figure FDA0003209263570000021
wf表示集成权重,
Figure FDA0003209263570000022
是一个Z维的向量,通过注意力机制分配权重得到,sm表示第m个卷积层预测的动作类别;
集成层的损失函数定义为:
Figure FDA0003209263570000027
其中,y=argmax(F),y表示最终预测得到的动作类别,
Figure FDA0003209263570000023
为最终预测动作类别为Ai的概率;
步骤8.2:在训练集上最小化以下目标函数,学习得到所有的参数W,wc,wf
Figure FDA0003209263570000024
步骤9:使用梯度下降算法优化上述损失函数,通过反向传播调整模型参数,直至损失函数收敛;
步骤10:使用步骤9中训练好的模型,对未知视频V′中的人物行为进行识别,具体步骤如下:
步骤10.1:将未知视频V′按照步骤1和步骤2中的方法进行预处理以及帧采样,得到对V′均匀采集的T个RGB帧[I′1,I′2,...,I′T];
步骤10.2:按照步骤4所述方法,提取未知视频的多层卷积特征;对于V′的每个RGB帧,在每个选定卷积层都将会获取空间大小为N×N,包含C个通道的特征图;对于整个未知视频V′,将会获得M×T个空间大小为N×N,包含C个通道的特征图;
步骤10.3,按照步骤5、步骤6所述方法,得到V′在M个选定卷积层每一层上的视频级特征表示;具体步骤如下:
首先,按照步骤5.1所述方法,使用局部演化排序池化方法得到V′在每一选定卷积层上的N×N个C维的局部演化描述符向量[e′1,e′2,...,e′N×N],
然后,按照步骤5.2所述方法,使用基于局部演化描述符的VLAD编码方式将[e′1,e′2,...,e′N×N]编码为基于元动作的视频级表示v′=[h′1,h′2,...,h′K],
Figure FDA0003209263570000025
Figure FDA0003209263570000026
最后,按照步骤6所述方法,在M个选定卷积层上并行进行上述操作,在每一层上得到V′的视频级表示;
步骤10.4:按照步骤7所述方法,获得V′在M个选定卷积层上的分类结果,s′m表示V′在第m个卷积层上预测得到的动作类别结果;按照步骤8所述方法,使用分类集成方法对多层的分类结果进行集成,得到最终对未知视频的分类结果;F′表示融合后的预测结果:
Figure FDA0003209263570000031
其中,
Figure FDA0003209263570000032
是一个Z维的向量,s′m表示第m个卷积层预测的动作类别。
2.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法,其特征在于,所述步骤2进行均匀帧采样的方法为:
在整个视频跨度上,以
Figure FDA0003209263570000033
为时间间隔,均匀采集T个RGB帧[I1,I2,...,IT],其中,Tz为某视频总时长,令It表示第t个采集到的视频帧,第t帧对应到第t时刻。
3.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法,其特征在于,所述步骤5.1的具体实现方法如下:
步骤5.1.1:经步骤4,视频V的T帧[I1,I2,...,IT]中的每一帧在某选定卷积层均获取空间大小N×N并且包含C个通道的特征图,这些特征图表示为[fm1,fm2,...,fmT];
分别连接每个特征图上每个空间位置上所有通道的值,t∈{1,...,T},从而将每个特征图分解为多个局部空间特征;
对于每一帧,将获得N×N个C维的局部空间特征;
步骤5.1.2:对T帧[I1,I2,...,IT]的每个空间位置的演化信息进行建模,生成视频V局部演化描述符。
4.如权利要求3所述的基于训练特征融合的深度监督卷积神经网络行为识别方法,其特征在于,所述步骤5.1.2的具体实现方法如下:
步骤5.1.2.1:对于某一个特定的空间位置,将T帧的局部空间特征按照时间顺序排列表示为[ri1,ri2,…,rit,...,riT],其中i={1,...,N×N},
Figure FDA0003209263570000034
为第t时刻上第i个空间位置的局部空间特征,
Figure FDA0003209263570000035
为C维的实数向量空间,即rit为C维实数向量空间上的向量;
步骤5.1.2.2:建模第i个空间位置的演化信息;定义一个排序函数,为每一个时刻计算一个分数值:
S(t,i∣e)=eTdit (5)
其中,
Figure FDA0003209263570000041
为第t时刻上第i个空间位置的平均局部空间特征,
Figure FDA0003209263570000042
Figure FDA0003209263570000043
设定一个约束关系:后面时刻对应的分数值大于前面的时刻对应的分数值,即
Figure FDA0003209263570000044
参数e反映这些局部空间特征的时间顺序;对参数e进行学习认为是一个凸优化问题:
Figure FDA0003209263570000045
目标函数E(e)的第一项是通用的二次正则化项,第二项是软计数损失函数hinge-loss;
步骤5.1.2.3:优化目标函数E(e),将一系列局部空间特征映射到向量e上;e包含对这些局部空间特征的排序信息,即为局部演化描述符;上述目标函数的解简化为:
Figure FDA0003209263570000046
Figure FDA0003209263570000047
其中,αt=2(T-t+1)-(T+1)(HT-Ht-1),
Figure FDA0003209263570000048
为参数,该权重通过排序池化得到,上述解看作第i个空间位置在T个采集到的时刻上的局部空间特征的加权相加;
步骤5.1.2.4:基于上述排序函数的近似解,设计局部演化排序池化层;该层输入T帧N×N×C大小的卷积特征图,输出N×N个C维的局部演化描述符向量[e1,e2,...,eN×N]。
5.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法,其特征在于,所述步骤5.2的具体实现方法如下:
步骤5.2.1:使用K个元动词单词,将特征空间
Figure FDA0003209263570000049
划分为K单元,设每个单元的锚定点为ak
步骤5.2.2:将步骤5.1中得到的视频V的一系列局部演化描述符[e1,e2,...,eN×N]中的每个局部演化描述符,分配给步骤5.2.1划分的K个单元中的其中一个单元,并记录局部演化描述符ei与锚定点ak之间的残差向量;
步骤5.2.3:将残差向量进行求和;
Figure FDA0003209263570000051
式(8)中,
Figure FDA0003209263570000052
表示描述符ei的软分配,锚定点ak在该公式中是一个通过训练调节的超参数;ei-ak表示局部演化描述符与第k个锚定点之间的残差;通过公式得到的hk表示第k个单元中的聚合描述符;
步骤5.2.4:得到该视频的局部演化描述符与每个锚定点间的残差之和,视频V表示为
Figure FDA0003209263570000053
Figure FDA0003209263570000054
C为实数空间的维度,K为元动作单元的个数;v为实数空间上C×K大小的矩阵。
6.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法,其特征在于,所述步骤7的具体实现方法如下:
步骤7.1:定义:
Figure FDA0003209263570000055
Figure FDA0003209263570000056
其中,B表示卷积层的总数;设b={1,...,B},
Figure FDA0003209263570000057
表示第b个卷积层的参数;M表示选取的卷积层的个数;设m={1,...,M},故
Figure FDA0003209263570000058
表示第m个选取的卷积层上的特征聚合操作的权重,
Figure FDA0003209263570000059
表示第m个选取的卷积层上所连分类器的权重;
步骤7.2:定义合并所有输出层分类错误的损失函数:
Figure FDA00032092635700000510
其中,L表示动作分类的视频级交叉熵损失函数,定义为:
Figure FDA00032092635700000511
其中,g为视频V的真实标签,g∈A,A={A1,...,Az}定义了所有动作类别,类别数量为Z,Ai表示动作集A中的第i个动作类别,sm表示第m个卷积层预测得到的动作类别。
CN201811176393.6A 2018-10-10 2018-10-10 基于训练特征融合的深度监督卷积神经网络行为识别方法 Active CN109446923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811176393.6A CN109446923B (zh) 2018-10-10 2018-10-10 基于训练特征融合的深度监督卷积神经网络行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811176393.6A CN109446923B (zh) 2018-10-10 2018-10-10 基于训练特征融合的深度监督卷积神经网络行为识别方法

Publications (2)

Publication Number Publication Date
CN109446923A CN109446923A (zh) 2019-03-08
CN109446923B true CN109446923B (zh) 2021-09-24

Family

ID=65546295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811176393.6A Active CN109446923B (zh) 2018-10-10 2018-10-10 基于训练特征融合的深度监督卷积神经网络行为识别方法

Country Status (1)

Country Link
CN (1) CN109446923B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084151B (zh) * 2019-04-10 2023-02-28 东南大学 基于非局部网络深度学习的视频异常行为判别方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN110188635B (zh) * 2019-05-16 2021-04-30 南开大学 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法
CN110119749A (zh) * 2019-05-16 2019-08-13 北京小米智能科技有限公司 识别产品图像的方法和装置、存储介质
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、***及介质
CN110334589B (zh) * 2019-05-23 2021-05-14 中国地质大学(武汉) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN110135386B (zh) * 2019-05-24 2021-09-03 长沙学院 一种基于深度学习的人体动作识别方法和***
CN110390336B (zh) * 2019-06-05 2023-05-23 广东工业大学 一种提高特征点匹配精度的方法
CN110378208B (zh) * 2019-06-11 2021-07-13 杭州电子科技大学 一种基于深度残差网络的行为识别方法
CN110334321B (zh) * 2019-06-24 2023-03-31 天津城建大学 一种基于兴趣点数据的城市轨交站区功能识别方法
CN110457996B (zh) * 2019-06-26 2023-05-02 广东外语外贸大学南国商学院 基于vgg-11卷积神经网络的视频运动对象篡改取证方法
CN110348494A (zh) * 2019-06-27 2019-10-18 中南大学 一种基于双通道残差神经网络的人体动作识别方法
CN112241673B (zh) * 2019-07-19 2022-11-22 浙江商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN110633630B (zh) * 2019-08-05 2022-02-01 中国科学院深圳先进技术研究院 一种行为识别方法、装置及终端设备
CN110533101A (zh) * 2019-08-29 2019-12-03 西安宏规电子科技有限公司 一种基于深度神经网络子空间编码的图像分类方法
CN110765854B (zh) * 2019-09-12 2022-12-02 昆明理工大学 一种视频动作识别方法
CN110826522A (zh) * 2019-11-15 2020-02-21 广州大学 人体异常行为监控方法、***、存储介质及监控设备
CN111079674B (zh) * 2019-12-22 2022-04-26 东北师范大学 一种基于全局和局部信息融合的目标检测方法
CN111103275B (zh) * 2019-12-24 2021-06-01 电子科技大学 Pat先验信息辅助的基于cnn和自适应ekf的动态fmt重建方法
CN111242044B (zh) * 2020-01-15 2022-06-28 东华大学 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法
CN111325149B (zh) * 2020-02-20 2023-05-26 中山大学 一种基于投票的时序关联模型的视频动作识别方法
CN111325155B (zh) * 2020-02-21 2022-09-23 重庆邮电大学 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
WO2021204143A1 (en) * 2020-04-08 2021-10-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods for action localization, electronic device and storage medium
CN111860432B (zh) * 2020-07-30 2023-11-24 中国海洋大学 用于视频时空表征学习的三元关系协作模块及建模方法
CN112347963B (zh) * 2020-11-16 2023-07-11 申龙电梯股份有限公司 一种电梯挡门行为识别方法
CN112541081B (zh) * 2020-12-21 2022-09-16 中国人民解放军国防科技大学 一种基于领域自适应的可迁移谣言检测方法
CN112699786B (zh) * 2020-12-29 2022-03-29 华南理工大学 一种基于空间增强模块的视频行为识别方法及***
CN112668495B (zh) * 2020-12-30 2024-02-02 东北大学 一种基于全时空卷积模块的暴力视频检测算法
CN112784698B (zh) * 2020-12-31 2024-07-02 杭州电子科技大学 基于深层次时空信息的无参考视频质量评价方法
CN112990013B (zh) * 2021-03-15 2024-01-12 西安邮电大学 一种基于稠密边界时空网络的时序行为检测方法
CN113221693B (zh) * 2021-04-29 2023-07-28 苏州大学 一种动作识别方法
CN113139530B (zh) * 2021-06-21 2021-09-03 城云科技(中国)有限公司 一种睡岗行为检测方法、装置及其电子设备
CN113327299B (zh) * 2021-07-07 2021-12-14 北京邮电大学 一种基于联合采样结构的神经网络光场方法
CN114758304B (zh) * 2022-06-13 2022-09-02 江苏中腾石英材料科技股份有限公司 一种高纯圆角石英粉的过筛设备及其过筛控制方法
CN117332352B (zh) * 2023-10-12 2024-07-05 国网青海省电力公司海北供电公司 一种基于BAM-AlexNet的避雷器信号缺陷识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701507A (zh) * 2016-01-13 2016-06-22 吉林大学 基于动态随机池化卷积神经网络的图像分类方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107169415A (zh) * 2017-04-13 2017-09-15 西安电子科技大学 基于卷积神经网络特征编码的人体动作识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701507A (zh) * 2016-01-13 2016-06-22 吉林大学 基于动态随机池化卷积神经网络的图像分类方法
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
CN107169415A (zh) * 2017-04-13 2017-09-15 西安电子科技大学 基于卷积神经网络特征编码的人体动作识别方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法

Also Published As

Publication number Publication date
CN109446923A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446923B (zh) 基于训练特征融合的深度监督卷积神经网络行为识别方法
Wang et al. Depth pooling based large-scale 3-d action recognition with convolutional neural networks
Asadi-Aghbolaghi et al. A survey on deep learning based approaches for action and gesture recognition in image sequences
CN110175580B (zh) 一种基于时序因果卷积网络的视频行为识别方法
Zhu et al. Temporal cross-layer correlation mining for action recognition
Özyer et al. Human action recognition approaches with video datasets—A survey
Gan et al. You lead, we exceed: Labor-free video concept learning by jointly exploiting web videos and images
Wang et al. Gan-knowledge distillation for one-stage object detection
Serpush et al. Complex human action recognition using a hierarchical feature reduction and deep learning-based method
Sekma et al. Human action recognition based on multi-layer fisher vector encoding method
Balasubramanian et al. Analysis of facial emotion recognition
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
Bai et al. Correlative channel-aware fusion for multi-view time series classification
CN112633377A (zh) 一种基于生成对抗网络的人体行为预测方法及***
Ding et al. A lightweight action recognition method for unmanned-aerial-vehicle video
Xue et al. Crowd scene analysis encounters high density and scale variation
Serpush et al. Complex human action recognition in live videos using hybrid FR-DL method
Mahjoub et al. A flexible high-level fusion for an accurate human action recognition system
Bux Vision-based human action recognition using machine learning techniques
Sudhakaran et al. Top-down attention recurrent VLAD encoding for action recognition in videos
Yang et al. Attentional fused temporal transformation network for video action recognition
Kontopoulos et al. TraClets: Harnessing the power of computer vision for trajectory classification
Zhao et al. Research on human behavior recognition in video based on 3DCCA
Dey et al. Umpire’s Signal Recognition in Cricket Using an Attention based DC-GRU Network
Butt et al. Leveraging Transfer Learning for Spatio-Temporal Human Activity Recognition from Video Sequences.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant