CN113591797B - 一种深度视频行为识别方法 - Google Patents

一种深度视频行为识别方法 Download PDF

Info

Publication number
CN113591797B
CN113591797B CN202110967362.8A CN202110967362A CN113591797B CN 113591797 B CN113591797 B CN 113591797B CN 202110967362 A CN202110967362 A CN 202110967362A CN 113591797 B CN113591797 B CN 113591797B
Authority
CN
China
Prior art keywords
convolution
projection
layer
depth
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110967362.8A
Other languages
English (en)
Other versions
CN113591797A (zh
Inventor
杨剑宇
黄瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110967362.8A priority Critical patent/CN113591797B/zh
Publication of CN113591797A publication Critical patent/CN113591797A/zh
Application granted granted Critical
Publication of CN113591797B publication Critical patent/CN113591797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种深度视频行为识别方法,包括以下步骤:将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;将每个行为样本的动态图像输入特征提取模块并提取特征;将每个行为样本的动态图像所提取到的特征进行连接,并将连接后的特征输入全连接层;构造四流人体行为识别网络;计算每个训练行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,并输入四流人体行为识别网络,训练四流人体行为识别网络至收敛;计算待测试行为样本的每个动态图像,并将计算后的每个动态图像输入训练好的四流人体行为识别网络,实现行为识别。

Description

一种深度视频行为识别方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种深度视频行为识别方法。
背景技术
目前,人体行为识别是计算机视觉领域的一个重要课题。它在视频监控、人机交互等领域有着广泛的应用。
传统的方法聚焦于设计手工特征提取深度视频中的时空信息,然后使用支持向量机等分类器进行分类。但是这些方法提取的是浅层的特征,实验结果不太理想。由于计算机的发展,越来越多的学者使用深度神经网络进行人体行为识别。其中,卷积神经网络对图像、视频有强大的学习能力,因此使用卷积神经网络对深度视频进行分析,进行人体行为识别是一个不错的选择。有学者提出使用三维卷积神经网络提取深度行为视频中的深层时空特征,但是直接将深度视频输入卷积神经网络,不能很好的利用深度视频中的三维信息。而且三维卷积神经网络相比于二维卷积神经神经网络有更多的参数,需要更多的训练数据使网络收敛,在数据集较小的情况下,三维卷积神经网络的表现一般。
因此,针对上述行为识别算法问题,提出一种深度视频行为识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,其目的在于,提供一种深度视频行为识别方法,解决了现有识别方法提取的深层特征未能充分利用深度行为视频中的三维信息的问题。
一种深度视频行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
3)将每个行为样本的动态图像输入特征提取模块并提取特征;
4)将每个行为样本的动态图像所提取到的特征进行连接,并将连接后的特征输入全连接层;
5)构造四流人体行为识别网络;
6)计算每个训练行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,并输入四流人体行为识别网络,训练四流人体行为识别网络至收敛;
7)计算待测试行为样本的每个动态图像,并将计算后的每个动态图像的输入训练好的四流人体行为识别网络,实现行为识别。
优选的是,所述步骤1)中投影序列的获得方式为:
每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
V={It|t∈[1,N]},
其中,t表示时间索引,N是行为样本的深度视频V的总帧数;ItR×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离,di∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V进行顶面投影得到的投影序列。
优选的是,所述步骤2)中的动态图像的计算方式为:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
其中,表示对行向量it中的每个元素求算术平方根,记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量;
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
其中,表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为A的向量,A=R×C;uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中帧图像的排序由前到后,得分递增,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,u′即为行为样本的深度视频V的正面投影序列Vfront的动态图像。
优选的是,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元、平均池化层、全连接层1和全连接层2;其中首先将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元,再将多特征融合单元的输出M6输入至平均池化层,然后将平均池化层的输出S输入全连接层1,全连接层1的神经元的个数为D1,全连接层1的输出Q1的计算方式如下:
Q1=φrelu(W1·S+θ1),
其中,φrelu是relu激活函数,W1是全连接层1的权重,θ1是全连接层1的偏置向量;
全连接层1的输出Q1输入全连接层2,全连接层2的神经元的个数为D2,全连接层2的输出Q2的计算方式如下:
Q2=φrelu(W2·Q12),
其中,W2是全连接层2的权重,θ2是全连接层2的偏置向量,全连接层2的输出即为特征提取模块提取的特征;
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入特征提取模块,提取特征
优选的是,所述步骤4)中的特征连接为,将提取到的特征连接成一个向量,输入激活函数为softmax的全连接层3,全连接层3的输出Q3的计算方式如下:
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,表示将特征/>连接成一个向量,θ3是全连接层3的偏置向量。
优选的是,所述步骤5)构建四流人体行为识别网络为:该网络的输入为行为样本的深度视频的投影序列的动态图像,输出为Q3,网络的损失函数L为,
其中,G是总训练样本数量K是行为样本类别数,是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:
其中,lg是第g个样本的标签值。
优选的是,所述步骤7)中行为识别为:计算待测试行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输入训练好的四流行为识别网络,得到对当前测试行为视频样本所属行为类别预测的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别。
优选的是,所述Vfront投影序列获取方式:
Vfront={Ft|t∈[1,N]},其中,FtR×C表示将动作样本的深度视频V的第t帧深度图像进行正面投影得到的投影图;深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值纵坐标值/>像素值/>可用公式表示为:
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
Vright投影序列获取方式:
Vright={Rt|t∈[1,N]},其中,RtR×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值纵坐标值/>横坐标值/>用公式表示为:
其中f2为将横坐标值xi映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为/>深度值为/>的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值;
Vleft投影序列获取方式:
Vleft={Lt|t∈[1,N]},其中,LtR×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值纵坐标值/>横坐标值/>对于投影到左侧面投影图上同一坐标/>处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为深度值为/>的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值;
Vtop投影序列获取方式:
Vtop={Tt|t∈[1,N]},其中,OtD×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值像素值/>纵坐标值/>对于投影到投影图上同一坐标/>处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为深度值为/>的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
优选的是,所述卷积单元1包含2个卷积层和1个最大池化层;每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C1
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C1,输出为C2
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C2,输出为C3
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C3,输出为C4
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C4,输出为C5
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5
卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2
卷积单元3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5
将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有512个卷积核,卷积核的大小为1×1,卷积层6的输出为M6
多特征融合单元的输出为卷积层6的输出为M6
本发明具有以下有益效果:1)基于深度视频的行为识别不会获取人的外观等信息,保护人的隐私;同时深度视频不易受到光照的影响,而且能够提供更加丰富的关于行为的三维信息;
2)将深度视频投影到不同的平面,能够获取行为不同维度的信息,将这些信息结合起来,能够使人体行为识别更加容易;在训练网络时,只使用4张动态图像作为视频的紧凑表示输入网络,对计算机设备的性能要求不高。
附图说明
图1为本发明的流程图
图2为提取模块的流程图。
图3为四流人体行为识别网络的流程图。
图4为实施例中挥手行为的平面投影示意图。
图5为实施例中挥手行为正面投影动态图像。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施方式,本发明的实施方式,参见图1-5,一种深度视频行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,得到4个投影序列;
2)计算每个行为样本的4个投影序列的动态图像,得到每个行为样本的4张动态图像;
3)将4张动态图像分别输入特征提取模块提取特征;
4)将4张动态图像提取的特征连接,输入全连接层;
5)构造四流人体行为识别网络;
6)计算每个训练行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输入四流人体行为识别网络,训练网络至收敛;
7)计算每个测试行为样本的4张动态图像,输入训练好的四流人体行为识别网络,实现行为识别。
步骤1)中投影序列的获取:
每一个行为样本由该样本的深度视频中的所有帧组成,对于任一行为样本的深度视频V来说:
V={It|t∈[1,N]},
其中,t表示时间索引,N是行为样本的深度视频V的总帧数;ItR×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离,di∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V分别投影到正面、右侧面、左侧面、顶面四个平面。此时,行为样本的深度视频V可以表示成四个投影图序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V进行顶面投影得到的投影序列;
Vfront={Ft|t∈[1,N]},其中,FtR×C表示将行为样本的深度视频V的第t帧深度图像进行正面投影得到的投影图;深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值纵坐标值/>像素值/>可用公式表示为:
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮。
Vright={Rt|t∈[1,N]},其中,RtR×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,可能存在不止一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;因此,应该保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值。为此,从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值纵坐标值/>横坐标值/>用公式表示为:
其中f2为将横坐标值xi映射到[0,255]区间的线性函数;当x不断增大,会有新的点与之前已经被投影的点被投影到投影图的同一位置,保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为/>深度值为/>的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值。
Vleft={Lt|t∈[1,N]},其中,LtR×D表示第t帧深度图像进行左侧面投影得到的投影图;与获取右侧面投影图相似,当有多个点投影到左侧面投影图的同一位置时,应该保留距离投影平面最远的点;为此,从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值纵坐标值/>横坐标值/>对于投影到左侧面投影图上同一坐标/>处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为深度值为/>的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值。
Vtop={Tt|t∈[1,N]},其中,OtD×C表示第t帧深度图像从顶面投影得到的投影图。当有多个点投影到顶面投影图的同一位置时,应该保留距离投影平面最远的点;为此,从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值像素值/>纵坐标值/>对于投影到投影图上同一坐标处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为深度值为/>的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
步骤2中动态图像的获取:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,其动态图像的计算方式如下:
首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
其中,表示对行向量it中的每个元素求算术平方根;记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量;
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
其中,表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为A的向量,A=R×C。uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中越排在后面的帧图像,得分越高,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,称u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。
行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
步骤3中提取特征模块的特征提取:
如图2所示,将行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入特征提取模块提取特征。特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元、平均池化层、全连接层1、全连接层2。
卷积单元1包含2个卷积层和1个最大池化层。每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C1
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C1,输出为C2
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C2,输出为C3
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C3,输出为C4
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C4,输出为C5
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5
卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2
卷积单元3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5
将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有512个卷积核,卷积核的大小为1×1,卷积层6的输出为M6
多特征融合单元的输出为卷积层6的输出为M6
将多特征融合单元的输出M6输入平均池化层,平均池化层的输出为S,平均池化层的输出S输入全连接层1,全连接层1的神经元的个数为D1,全连接层1的输出Q1的计算方式如下:
Q1=φrelu(W1·S+θ1),
其中,φrelu是relu激活函数,W1是全连接层1的权重,θ1是全连接层1的偏置向量;
全连接层1的输出Q1输入全连接层2,全连接层2的神经元的个数为D2,全连接层2的输出Q2的计算方式如下:
Q2=φrelu(W2·Q12),
其中,W2是全连接层2的权重,θ2是全连接层2的偏置向量。全连接层2的输出即为特征提取模块提取的特征;
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入特征提取模块,能够提取到特征
步骤4)中将步骤3)中提取到的特征进行连接:
将每个行为样本的深度视频的四个投影序列的动态图像输入特征提取模块得到的特征连接,输入激活函数为softmax的全连接层3;全连接层3的输出Q3的计算方式如下:
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,表示将特征/>连接成一个向量,θ3是全连接层3的偏置向量。
步骤5)构造四流人体行为识别网络:
如图3所示,该网络的输入为行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出Q3;网络的损失函数L为:
其中,G是总训练样本数量,K是行为样本类别数,是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:/>
其中,lg是第g个样本的标签值。
步骤6)计算每个训练行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输入四流人体行为识别网络,训练网络至收敛。
步骤7)计算每个测试行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输入训练好的四流行为识别网络,得到对当前测试行为视频样本预测的所属的各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
实施例:
如图4-5所示,
1)行为样本集总样本数为2400,共8个行为类别,每个行为类别有300个样本。每个行为类别中随机选取三分之二的样本划入训练集,剩下的三分之一划入测试集,得到共1600个训练样本,800个测试样本。
每一个行为样本由该样本深度视频中的所有帧组成。以任一行为样本的深度视频V为例:
V={It|t∈[1,50]},
其中,t表示时间索引,该行为样本共有50帧。It240×240为行为样本的深度视频V的第t帧深度图像的矩阵表示,该帧深度图像的行数、列数均为240。表示矩阵为实数矩阵。It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离。
行为样本的深度视频V分别投影到正面、右侧面、左侧面、顶面四个平面。此时,行为样本的深度视频V可以表示成四个投影图序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V投影到顶面得到的投影序列。
Vfront={Ft|t∈[1,50]},其中,Ft240×240表示将行为样本的深度视频V的第t帧深度图像进行正面投影得到的投影图。深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值纵坐标值/>像素值/>可用公式表示为:
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮。
Vright={Rt|t∈[1,50]},其中,Rt240×240表示将第t帧深度图像进行右侧面投影得到的投影图。在对深度图像进行右侧面投影时,可能存在不止一个点被投影到投影图上的同一位置。而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点。因此,应该保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值。为此,从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值纵坐标值/>横坐标值/>用公式表示为:
其中f2为将横坐标值xi映射到[0,255]区间的线性函数。当x不断增大,可能会有新的点与之前已经被投影的点被投影到投影图的同一位置,应当保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为/>深度值为/>的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值。
Vleft={Lt|t∈[1,50]},其中,Lt240×240表示第t帧深度图像进行左侧面投影得到的投影图。与获取右侧面投影图相似,当有多个点投影到左侧面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值纵坐标值/>横坐标值/>对于投影到左侧面投影图上同一坐标/>处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为深度值为/>的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值。
Vtop={Tt|t∈[1,50]},其中,Ot240×240表示第t帧深度图像从顶面投影得到的投影图。当有多个点投影到顶面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值像素值/>纵坐标值/>对于投影到投影图上同一坐标/>处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为深度值为/>的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
2)计算每个行为样本的深度视频的4个投影序列的动态图像,得到每个行为样本的4张动态图像。以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,50]}为例,其动态图像的计算方式如下:
首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
其中,表示对行向量it中的每个元素求算术平方根。记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量。
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
其中,表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为57600的向量。uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中越排在后面的帧图像,得分越高,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈240×240,称u′为行为样本的深度视频V的正面投影序列Vfront的动态图像。图4为挥手行为正面投影动态图像。
行为样本的深度视频V的右侧面、左侧面、和顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
3)将行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入特征提取模块提取特征。特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元、平均池化层、全连接层1、全连接层2。
卷积单元1包含2个卷积层和1个最大池化层。每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元1的输出为C1
卷积单元2包含2个卷积层和1个最大池化层。每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元2的输入为C1,输出为C2
卷积单元3包含3个卷积层和1个最大池化层。每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元3的输入为C2,输出为C3
卷积单元4包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元4的输入为C3,输出为C4
卷积单元5包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元5的输入为C4,输出为C5
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5
卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2
卷积单元3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5
将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有512个卷积核,卷积核的大小为1×1,卷积层6的输出为M6
多特征融合单元的输出为卷积层6的输出为M6
将多特征融合单元的输出M6输入平均池化层,平均池化层的输出为S,平均池化层的输出S输入全连接层1,全连接层1的神经元的个数为4096,全连接层1的输出Q1的计算方式如下:
Q1=φrelu(W1·S+θ1),
其中,φrelu是relu激活函数,W1是全连接层1的权重,θ1是全连接层1的偏置向量。
全连接层1的输出Q1输入全连接层2,全连接层2的神经元的个数为1000,全连接层2的输出Q2的计算方式如下:
Q2=φrelu(W2·Q12),
其中,W2是全连接层2的权重,θ2是全连接层2的偏置向量。全连接层2的输出即为特征提取模块提取的特征。
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入特征提取模块,能够提取到特征
4)将每个行为样本的深度视频的四个投影序列的动态图像输入特征提取模块得到的特征连接,输入激活函数为softmax的全连接层3。全连接层3的输出Q3的计算方式如下:
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,表示将特征/>连接成一个向量,θ3是全连接层3的偏置向量。
5)构造四流人体行为识别网络,该网络的输入为行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出Q3。网络的损失函数L为:
其中,是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:
其中,lg是第g个样本的标签值。
6)计算每个训练行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输入四流人体行为识别网络,训练网络至收敛。
7)计算每个测试行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输入训练好的四流人体行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
relu激活函数,其公式为f(x)=max(0,x),该函数的输入是x,输出是x和0中较大的那个数。
Softmax激活函数,其公式为其中i表示全连接层第i个神经元的输出,j表示全连接层第j个神经元的输出,n为全连接层的神经元的个数,Si表示全连接层第i个神经元经过softmax激活函数的输出。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种深度视频行为识别方法,其特征在于,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
3)将每个行为样本的动态图像输入特征提取模块并提取特征;
4)将每个行为样本的动态图像所提取到的特征进行连接,并将连接后的特征输入全连接层;
5)构造四流人体行为识别网络,该网络的输入为行为样本的深度视频的投影序列的动态图像,输出为Q3,网络的损失函数L为,
其中,G是总训练样本数量,K是行为样本类别数,是第g个行为样本的网络输出,lg是第g个行为样本期望的输出,其中lg的第p维数据定义为:
其中,lg是第g个样本的标签值;
6)计算每个训练行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,并输入四流人体行为识别网络,训练四流人体行为识别网络至收敛;
7)计算待测试行为样本的每个动态图像,并将计算后的每个动态图像输入训练好的四流人体行为识别网络,实现行为识别,具体的是计算待测试行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像,输入训练好的四流人体行为识别网络,得到对当前测试行为视频样本所属行为类别预测的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别。
2.根据权利要求1所述的一种深度视频行为识别方法,其特征在于,所述步骤1)中投影序列的获得方式为:
每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
V={It|t∈[1,N]},
其中,t表示时间索引,N是行为样本的深度视频V的总帧数;ItR×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;It(xi,yi)=di,表示第t帧深度图像上坐标为(xi,yi)的点pi的深度值,即点pi与深度相机的距离,di∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
V={Vfront,Vright,Vleft,Vtop},
其中,Vfront表示行为样本的深度视频V进行正面投影得到的投影序列,Vright表示行为样本的深度视频V进行右侧面投影得到的投影序列,Vleft表示行为样本的深度视频V进行左侧面投影得到的投影序列,Vtop表示行为样本的深度视频V进行顶面投影得到的投影序列。
3.根据权利要求1所述的一种深度视频行为识别方法,其特征在于,所述步骤2)中的动态图像的计算方式为:
以行为样本的深度视频V的正面投影序列Vfront={Ft|t∈[1,N]}为例,首先对Ft进行向量化,即将Ft的行向量连接成新的行向量it
对行向量it中的每个元素求算术平方根,得到新的向量wt,即:
其中,表示对行向量it中的每个元素求算术平方根,记wt为行为样本的深度视频V的正面投影序列Vfront的第t帧的帧向量;
计算行为样本的深度视频V的正面投影序列Vfront的第t帧图像的特征向量vt,计算方式如下:
其中,表示对行为样本的深度视频V的正面投影序列Vfront的第1帧图像到第t帧图像的帧向量求和;
计算行为样本的深度视频V的正面投影序列Vfront第t帧图像Ft的得分Bt,计算公式如下:
Bt=uT·vt
其中,u为维度为A的向量,A=R×C;uT表示对向量u转置;uT·vt表示计算对向量u转置后得到的向量与特征向量vt的点积;
计算u的值,使正面投影序列Vfront中帧图像的排序由前到后,得分递增,即t越大,得分Bt越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bc、Bj分别表示行为样本的深度视频V的正面投影序列Vfront第c帧图像的得分、第j帧图像的得分,max{0,1-Bc+Bj}表示选取0和1-Bc+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与Ft相同尺寸的图像形式,得到u′∈R×C,u′即为行为样本的深度视频V的正面投影序列Vfront的动态图像。
4.根据权利要求1所述的一种深度视频行为识别方法,其特征在于,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元、平均池化层、全连接层1和全连接层2;其中首先将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元,再将多特征融合单元的输出M6输入至平均池化层,然后将平均池化层的输出S输入全连接层1,全连接层1的神经元的个数为D1,全连接层1的输出Q1的计算方式如下:
Q1=φrelu(W1·S+θ1),
其中,φrelu是relu激活函数,W1是全连接层1的权重,θ1是全连接层1的偏置向量;
全连接层1的输出Q1输入全连接层2,全连接层2的神经元的个数为D2,全连接层2的输出Q2的计算方式如下:
Q2=φrelu(W2·Q12),
其中,W2是全连接层2的权重,θ2是全连接层2的偏置向量,全连接层2的输出即为特征提取模块提取的特征;
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入特征提取模块,提取特征
5.根据权利要求1所述的一种深度视频行为识别方法,其特征在于,所述步骤4)中的特征连接为,将提取到的特征连接成一个向量,输入激活函数为softmax的全连接层3,全连接层3的输出Q3的计算方式如下:
其中,φsoftmax表示softmax激活函数,W3是全连接层3的权重,表示将特征/>连接成一个向量,θ3是全连接层3的偏置向量。
6.根据权利要求2所述的一种深度视频行为识别方法,其特征在于,所述Vfront投影序列获取方式:
Vfront={Ft|t∈[1,N]},其中,FtR×C表示将动作样本的深度视频V的第t帧深度图像进行正面投影得到的投影图;深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ft中的点的横坐标值纵坐标值/>像素值/>可用公式表示为:
其中f1为将深度值di映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
Vright投影序列获取方式:
Vright={Rt|t∈[1,N]},其中,RtR×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di,分别决定投影图Rt中的点的像素值纵坐标值/>横坐标值/>用公式表示为:
其中f2为将横坐标值xi映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即其中xm=maxxi,xi∈XR,XR为深度图像中所有纵坐标值为/>深度值为/>的点的横坐标的集合,maxxi,xi∈XR表示集合XR中的横坐标的最大值;
Vleft投影序列获取方式:
Vleft={Lt|t∈[1,N]},其中,LtR×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定投影图Lt中的点的像素值纵坐标值/>横坐标值/>对于投影到左侧面投影图上同一坐标/>处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f3为将横坐标值xn映射到[0,255]区间的线性函数,xn=minxi,xi∈XL,XL为深度图像中所有纵坐标值为深度值为/>的点的横坐标的集合,minxi,xi∈XL表示集合XL中横坐标最小值;
Vtop投影序列获取方式:
Vtop={Tt|t∈[1,N]},其中,OtD×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点pi的横坐标值xi、纵坐标值yi、深度值di分别决定该点投影到投影图Ot中的点的横坐标值像素值/>纵坐标值/>对于投影到投影图上同一坐标/>处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f4为将纵坐标值yq映射到[0,255]区间的线性函数,yq=maxyi,yi∈YO,其中YO为深度图像中所有横坐标值为深度值为/>的点的纵坐标的集合,maxyi,yi∈YO表示集合YO中纵坐标的最大值。
7.根据权利要求4所述的一种深度视频行为识别方法,其特征在于,所述卷积单元1包含2个卷积层和1个最大池化层;每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C1
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C1,输出为C2
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C2,输出为C3
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C3,输出为C4
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C4,输出为C5
多特征融合单元的输入为卷积单元1的输出C1、卷积单元2的输出C2、卷积单元3的输出C3、卷积单元4的输出C4、卷积单元5的输出C5
卷积单元1的输出C1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M1
卷积单元2的输出C2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M2
卷积单元3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M3
卷积单元4的输出C4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M4
卷积单元5的输出C5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M5
将卷积层1的输出M1、卷积层2的输出M2、卷积层3的输出M3、卷积层4的输出M4、卷积层5的输出M5按通道连接,输入卷积层6,卷积层6有512个卷积核,卷积核的大小为1×1,卷积层6的输出为M6
多特征融合单元的输出为卷积层6的输出为M6
CN202110967362.8A 2021-08-23 2021-08-23 一种深度视频行为识别方法 Active CN113591797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110967362.8A CN113591797B (zh) 2021-08-23 2021-08-23 一种深度视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110967362.8A CN113591797B (zh) 2021-08-23 2021-08-23 一种深度视频行为识别方法

Publications (2)

Publication Number Publication Date
CN113591797A CN113591797A (zh) 2021-11-02
CN113591797B true CN113591797B (zh) 2023-07-28

Family

ID=78238846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110967362.8A Active CN113591797B (zh) 2021-08-23 2021-08-23 一种深度视频行为识别方法

Country Status (1)

Country Link
CN (1) CN113591797B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610046B (zh) * 2021-08-23 2023-09-26 苏州大学 一种基于深度视频联动特征的行为识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740833A (zh) * 2016-02-03 2016-07-06 北京工业大学 一种基于深度序列的人体行为识别方法
CN107066979A (zh) * 2017-04-18 2017-08-18 重庆邮电大学 一种基于深度信息和多维度卷积神经网络的人体动作识别方法
CN108280421A (zh) * 2018-01-22 2018-07-13 湘潭大学 基于多特征深度运动图的人体行为识别方法
CN108537196A (zh) * 2018-04-17 2018-09-14 中国民航大学 基于运动历史点云生成的时空分布图的人体行为识别方法
CN108805093A (zh) * 2018-06-19 2018-11-13 华南理工大学 基于深度学习的手扶电梯乘客摔倒检测算法
CN109460734A (zh) * 2018-11-08 2019-03-12 山东大学 基于层次动态深度投影差值图像表示的视频行为识别方法及***
CN110084211A (zh) * 2019-04-30 2019-08-02 苏州大学 一种动作识别方法
CN113221694A (zh) * 2021-04-29 2021-08-06 苏州大学 一种动作识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740833A (zh) * 2016-02-03 2016-07-06 北京工业大学 一种基于深度序列的人体行为识别方法
CN107066979A (zh) * 2017-04-18 2017-08-18 重庆邮电大学 一种基于深度信息和多维度卷积神经网络的人体动作识别方法
CN108280421A (zh) * 2018-01-22 2018-07-13 湘潭大学 基于多特征深度运动图的人体行为识别方法
CN108537196A (zh) * 2018-04-17 2018-09-14 中国民航大学 基于运动历史点云生成的时空分布图的人体行为识别方法
CN108805093A (zh) * 2018-06-19 2018-11-13 华南理工大学 基于深度学习的手扶电梯乘客摔倒检测算法
CN109460734A (zh) * 2018-11-08 2019-03-12 山东大学 基于层次动态深度投影差值图像表示的视频行为识别方法及***
CN110084211A (zh) * 2019-04-30 2019-08-02 苏州大学 一种动作识别方法
CN113221694A (zh) * 2021-04-29 2021-08-06 苏州大学 一种动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Discriminative Pose Analysis for Human Action Recognition;Xiaofeng Zhao et al.;《2020 IEEE 6th World Forum on Internet of Things (WF-IoT)》;第1-6页 *
基于深度数据的人体行为识别;刘婷婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;正文全文 *

Also Published As

Publication number Publication date
CN113591797A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN112307958B (zh) 基于时空外观运动注意力网络的微表情识别方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及***
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN111709902B (zh) 基于自注意力机制的红外和可见光图像融合方法
CN105069400B (zh) 基于栈式稀疏自编码的人脸图像性别识别***
WO2021143101A1 (zh) 人脸识别方法和人脸识别装置
CN109784249B (zh) 一种基于变分级联信息瓶颈的置乱人脸识别方法
CN111046964B (zh) 一种基于卷积神经网络的人和车辆红外热图像识别方法
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN103218609B (zh) 一种基于隐最小二乘回归的多姿态人脸识别方法及其装置
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN112580590A (zh) 一种基于多语义特征融合网络的指静脉识别方法
Wang et al. GKFC-CNN: Modified Gaussian kernel fuzzy C-means and convolutional neural network for apple segmentation and recognition
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN110097029B (zh) 基于Highway网络多视角步态识别的身份认证方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN109063643B (zh) 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN111488951B (zh) 一种用于rgb-d图像分类的对抗度量学习模型生成方法
CN117671787A (zh) 一种基于Transformer的康复动作评估方法
CN113591797B (zh) 一种深度视频行为识别方法
CN111882516A (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN111259759A (zh) 基于域选择迁移回归的跨数据库微表情识别方法及装置
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及***
CN114036553A (zh) 一种结合k匿名的行人身份隐私保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant