CN110852182A - 一种基于三维空间时序建模的深度视频人体行为识别方法 - Google Patents

一种基于三维空间时序建模的深度视频人体行为识别方法 Download PDF

Info

Publication number
CN110852182A
CN110852182A CN201910999089.XA CN201910999089A CN110852182A CN 110852182 A CN110852182 A CN 110852182A CN 201910999089 A CN201910999089 A CN 201910999089A CN 110852182 A CN110852182 A CN 110852182A
Authority
CN
China
Prior art keywords
space
dimensional
time
human body
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910999089.XA
Other languages
English (en)
Other versions
CN110852182B (zh
Inventor
肖阳
王焱乘
曹治国
姜文祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910999089.XA priority Critical patent/CN110852182B/zh
Publication of CN110852182A publication Critical patent/CN110852182A/zh
Application granted granted Critical
Publication of CN110852182B publication Critical patent/CN110852182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三维空间时序建模的深度视频人体行为识别方法,属于数字图像识别领域,包括:逐帧对深度图像中人***置进行标注;将包含人体行为的深度图像转换为三维空间点云数据;对三维空间点云数据进行不同尺度大小的体素化,得到多尺度三维张量;将同一尺度的三维张量均匀划分为多个时间段,对每个时间段对应的三维张量进行空间时序编码,得到多尺度多时间段的三维张量时空序列;将三维张量时空序列转化为高维空间点云数据并进行随机采样,得到人体行为时空特征;将人体行为时空特征输入训练好的3D目标点云分类模型进行分类,得到行为分类结果。本发明能够充分挖掘深度图像立体信息,实现高效鲁棒的对人体各种行为进行识别。

Description

一种基于三维空间时序建模的深度视频人体行为识别方法
技术领域
本发明属于数字图像识别领域,更具体地,涉及一种基于三维空间时序建模的深度视频人体行为识别方法。
背景技术
在计算机视觉领域中,基于深度视频下的人体行为识别受到了越来越多的研究者关注,并且已经成为了研究的热点之一,该技术广泛应用于视频监控,多媒体数据分析,人机交互等。
目前针对深度视频行为识别的方法主要有三类:基于人体骨架的方法,基于原始深度图的方法和融合骨架与深度图的方法;基于人体骨架的识别方法是目前最常见的方法,人体骨架由于没有环境噪声的干扰,可以简单明确地描述人体运动的姿态信息,并且在现有的行为数据集上取得了较好的结果,但是这种方法的前提是建立于一个精准估计的人体骨架信息,而人体骨架信息提取技术并不能完全正确提取,尤其是在特殊的环境中,人体骨架信息很难获取;基于深度图像的人体行为识别方法将基于3D时序空间的人体行为投影到2D平面进行识别,可以获取更多的环境与人物信息,但人体行为的3D信息依然没有被有效提取,并且由于环境噪声在2D平面中表现明显,使得其行为的时空信息很难能够被有效地挖掘提取,对算法模型的鲁棒性与拟合性有着更高程度的要求。
总体而言,现有深度视频行为识别方法存在不能精确提取人体骨架信息,深度视频信息没有被最大化提取,且容易受到环境噪声的影响,导致识别准确度低的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于三维空间时序建模的深度视频人体行为识别方法,其目的在于解决,现有深度视频形行为识别方法基于二维平面进行识别,不能有效提取深度视频的三维信息,且容易受到环境噪声的影响,造成识别准确度低的技术问题。
为实现上述目的,本发明提供了一种基于三维空间时序建模的深度视频人体行为识别方法,包括:
(1)逐帧对深度图像中人***置进行标注,得到包含人体行为部分的深度图像;
(2)将所述深度图像的像素坐标转换为三维空间点云数据;
(3)对所述三维空间点云数据进行不同尺度大小的体素化,得到多尺度三维张量;
(4)将同一尺度的三维张量均匀划分为多个时间段,对每个时间段对应的三维张量进行空间时序编码,得到多尺度多时间段的三维张量时空序列;
(5)将所述三维张量时空序列转化为高维空间点云数据,并对所述高维空间点云数据进行随机采样,得到人体行为时空特征;
(6)将所述人体行为时空特征输入训练好的3D目标点云分类模型进行分类,得到行为分类结果。
进一步地,步骤(1)具体包括:
(1.1)利用人体骨架信息将每一帧深度图像中的人体行为部分框出,得到包含人体行为的标注框;
(1.2)每一帧深度图像表示为A*B的矩阵,将所述标注框以外的非人***置对应的矩阵值置为0;其中每个矩阵值的索引对应该位置的像素坐标,每个矩阵值对应该像素坐标的位置点与深度相机的距离。
进一步地,根据深度相机内参,步骤(2)所述深度图像的像素坐标与世界坐标系下的三维空间点云对应关系为:
Figure BDA0002240714830000031
其中,u、v为图像中每一像素所在坐标位置,fx,fy为深度相机焦距,cx,cy为深度相机中心点。
进一步地,步骤(3)具体包括:
(3.1)设定不同大小的体素值,对空间进行均匀划分,得到多个空间网格;
(3.2)将存在点云数据的空间网格对应的体素值置为1,其余空间网格对应的体素值置0,得到不同体素大小对应的多尺度三维张量。
进一步地,步骤(4)所述对每个时间段对应的三维张量进行空间时序编码,具体包括:
(01)根据排序函数S(v;u)=ut·vt对帧图像进行评分;
其中,ut表示优化排序函数得到的向量的转置,
Figure BDA0002240714830000032
表示第t帧深度图像的平均特征,xt表示为第t帧深度图像,
Figure BDA0002240714830000033
表示第t帧深度图像经过体素化后得到的三维张量;
(02)通过rankSVM优化所述排序函数的参数u,使得越往时间序列后面的帧图像具有越大的得分;
(03)将参数u的最优值转换为W*H*D的张量,作为该时间段对应的同一尺度的三维张量经过空间时序编码后的三维张量时空序列;其中,H、W、D分别表示该尺度下体素化后的点云在三维空间X轴、Y轴、Z轴上体素的数量大小。
进一步地,步骤(5)具体包括:
(5.1)提取三维张量时空序列索引对应的空间位置信息,和其元素值对应的时序信息,得到M个高维点云数据(x,y,z,c1,…,cm),其中,m为深度视频经过时间划分得到的视频段数,M表示三维张量时空序列中具有运动信息的点特征的个数,c表示张量值的在对应坐标位置下的运动信息;
(5.2)在M个高维点云数据(x,y,z,c1,…,cm)中随机选取K个,作为人体行为时空特征。
进一步地,采用旋转平移的数据增强方式对人体行为时空特征进行数据增强后,输入训练好的3D目标点云分类模型进行分类。
进一步地,所述3D目标点云分类模型包括依次连接的多层感知器和非局部机制NetVLAD网络;
所述多层感知器,用于人体行为时空特征进行采样分组,并对每组行为时空特征进行特征提取,得到多组局部特征;
所述非局部机制NetVLAD网络,对多组局部特征进行聚合,得到非局部特征。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明方法通过对平面深度图像中的人体行为进行检测,有效筛选出人体的空间位置,将包含人体行为的深度图像转换为点云序列,以还原人体行为的空间信息,便于后续获取更丰富的人体行为特征;在此基础上,对点云序列进行体素化以及空间时序编码,从而充分挖掘深度视频的空间几何特点,有效提高了人体行为识别的准确率。
(2)本发明方法在现有的点云分类网络PointNet++基础上采用一种基于self-attention的非局部区域特征融合模块,通过结合全局行为特征与局部运动明显的特征,进一步提高了人体行为识别的准确率。
(3)本发明通过对分类网络的输入做进一步数据增强,即对输入点云在空间做随机任意角度的旋转,使得分类模型对不同视角下的人体行为识别更加具有鲁棒性。
附图说明
图1是本发明实施例提供的一种基于三维空间时序建模的深度视频人体行为识别方法的流程示意图;
图2是本发明实施例提供的一种基于原始的深度图像转换成点云对应的物理含义示意图;
图3是本发明实施例提供的点云序列经过体素化后得到的可视化结果;
图4是本发明实施例提供的一种体素化序列经过空间时序编码之后得到3维空间张量的可视化结果;
图5是本发明实施例提供的点云分类网络结构示意图;
图6是本发明实施例提供的基于self-attention的非局部区域特征融合模块结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于三维空间时序建模的深度视频人体行为识别方法,包括人体目标检测,深度图像转换点云,点云体素化,对体素化后的张量进行时序编码,对编码后的张量采样得到时空特征,将特征送入点云分类网络进行训练与测试。以下结合实例来具体阐述本发明提供的基于三维空间时序建模的深度视频人体行为识别方法。
如图1所示,本发明实施例提供的基于三维空间时序建模的深度视频人体行为识别方法包括以下步骤:
(1)逐帧对深度图像中人***置进行标注,得到包含人体行为部分的深度图像;
具体地,利用人体骨架信息将每一帧深度图像中的人体行为部分框出,得到包含人体行为的标注框;将每一帧深度图像表示为A*B的矩阵(A、B分别为深度图像基于像素数量长宽),每个矩阵值的索引对应该位置的像素坐标,矩阵的每一个值对应着该像素坐标的位置点与深度相机的距离,本发明只采用包括人体行为的深度图部分,因此将标注边框以外的非人***置对应的矩阵值置为0。
(2)将包含人体行为的深度图像的像素坐标转换为三维空间点云数据;
本发明通过点云化还原人体行为的空间信息,以便后面获取更丰富的人体行为特征,具体地,如图2所示,设相机坐标点即光心为世界坐标系原点O,深度图像中心点为O′,将深度图像中的M′点转换成世界坐标系的M点,M点在世界坐标系z轴上投影为A点,存在相似三角形的映射关系:OM′O′相似于OMA,即可以得到
Figure BDA0002240714830000061
进一步根据相机内参可以得到深度图像的像素坐标与世界坐标系下的三维空间点云对应关系为:
Figure BDA0002240714830000062
其中,u、v为图像中每一像素所在坐标位置,fx,fy为深度相机焦距,cx,cy为深度相机中心点。
(3)对所述三维空间点云数据进行不同尺度大小的体素化,得到多尺度三维张量;
具体地,步骤(3)具体包括:(3.1)设定不同大小的体素值,对空间进行均匀划分,得到多个空间网格;(3.2)将存在点云数据的空间网格对应的体素值置为1,其余空间网格对应的体素值置0,得到不同体素大小对应的多尺度三维张量。步骤(2)中获得的每一帧深度图像转为点云数据即M*(x,y,z),计算一段视频下所有点云集在x、y、z轴上的最大、最小值记为hx、hy、hz和lx、ly、lz,从而得到人体行为在世界坐标系下的空间位置大小,设体素化体素大小为a*a*a,从而得到深度行为在3D空间中的体素数目为
Figure BDA0002240714830000063
包含人体行为的深度图像经过点云化和体素化的可视化结果如图3所示。
(4)将同一尺度的三维张量均匀划分为多个时间段,对每个时间段对应的三维张量进行空间时序编码,得到多尺度多时间段的三维张量时空序列;
具体地,步骤(4)所述对每个时间段对应的三维张量进行空间时序编码,具体包括:
(01)根据排序函数S(v;u)=ut·vt对帧图像进行评分;其中,ut表示优化排序函数得到的向量的转置,表示第t帧深度图像的平均特征,xt表示为第t帧深度图像,
Figure BDA0002240714830000072
表示第t帧深度图像经过体素化后得到的三维张量;(02)通过rankSVM优化所述排序函数的参数u,使得越往时间序列后面的帧图像具有越大的得分;(03)将参数u的最优值转换为W*H*D的张量,作为该时间段对应的同一尺度的三维张量经过空间时序编码后的三维张量时空序列;其中,H、W、D分别表示该尺度下体素化后的点云在三维空间x、y、z轴上体素的数量大小。
本发明使用结构风险最小化和最大间隔优化框架,目标优化问题可以表示为:
Figure BDA0002240714830000073
第一项为正则化项,第二项是hinge-loss的误差惩罚项。上式被证明是一个凸优化问题,可以使用RankSVM进行求解,优化得到的参数u*可以作为整个特征张量序列的一个新的表示。参数u*经过resize之后变成W*H*D的3维张量特征,与
Figure BDA0002240714830000074
特征维度一致。
对上式进行简化,用d表示想获得的较好的参数u:
Figure BDA0002240714830000081
开始,第一个近似解
Figure BDA0002240714830000082
所以可以得到
Figure BDA0002240714830000084
对左边的数列求和可以得到
αt=2(N-t+1)-(N+1)(HN-Ht-1)
其中
Figure BDA0002240714830000085
因此最终想获得的W*H*D的张量特征变成了:
Figure BDA0002240714830000086
在本发明实施例中,使用αt=2(N-t+1)对张量特征序列进行处理,公式αt=2(T-t+1)-(T+1)(HT-Ht-1)中的第二项略去不影响编码的效果,减少了很多时间上的消耗。经过rankPooling编码后的结果可视化如图4所示,本发明实施例将原始视频平均分为四段,每一段有1/2的重叠部分,另外再加上原始全部序列时间段,一共可以得到5个时间序列的3维张量。
(5)将所述三维张量时空序列转化为高维空间点云数据,并对所述高维空间点云数据进行随机采样,得到人体行为时空特征;
具体地,步骤(5)具体包括:
(5.1)提取三维张量时空序列索引对应的空间位置信息,和其元素值对应的时序信息,得到M个高维点云数据(x,y,z,c1,…,cm),其中,m为深度视频经过时间划分得到的视频段数,M表示三维张量时空序列中具有运动信息的点特征的个数,c表示张量值的在对应坐标(x,y,z)位置下的运动信息;
进一步具体地,对于编码后得到的张量,其索引代表着空间位置信息,张量中元素的值代表着空间时序编码后得到时序信息,如果张量的值为0就说明在对应的位置上不存在运动信息,对于多个时间段得到的3维张量,筛选掉其在同一索引下值全部为0的体素,通过对提取张量索引的空间信息以及张量值的运动信息,并将信息保存为高维点云格式(x,y,z,c1,…,c5),由此可以得到M个高维点云数据(x,y,z,c1,…,cm)。
(5.2)在M个高维点云数据(x,y,z,c1,…,cm)中随机选取K个,作为人体行为时空特征。
进一步具体地,如果M<K时,选取全部的M个点集,再从M个点中随机抽取(K-M)个点作为重复点,最终得到K个点数据,作为分类网络的输入;其中K值大小依据网络输入模型的大小,以及M值的整体水平设定,本发明实施例选取的K值为2048。
(6)将所述人体行为时空特征输入训练好的3D目标点云分类模型进行分类,得到行为分类结果。
具体地,在输入点云分类模型前,本发明实施例采用旋转平移的数据增强方式对人体行为时空特征进行数据增强,其旋转公式如下:
Figure BDA0002240714830000091
Figure BDA0002240714830000092
其中,Rx、Ry表示点云在世界坐标系中绕x、y轴的旋转矩阵,β、α表示旋转的度数,通过矩阵乘法,点云旋转过程可表示为:x′=x*(Rx*Ry)T,x表示输入点云,x′表示旋转后得到的点云,本发明实例中,设置β范围-10°~+10°,α范围-45°~+45°。数据集进行旋转数据增强之后,可以提高本发明模型对不同视角下行为的鲁棒性。
在本发明在现有的点云分类网络PointNet采用的多层共享感知器神经网络基础上,采用一种基于self-attention的非局部区域特征融合模块,对经过高维空间映射的局部特征进行融合,能够进一步发掘点云之间的联系,抓获不同位置点集之间的依赖关系,从而获取人体运动不同时空位置之间的共性,增强行为特征的辨识能力。行为分类模型结构如图5所示,包括依次连接的多层感知器和非局部机制NetVLAD网络;该模型首先利用最邻近法则将输入点云进行采样分组,将每一个分组的点云送入到权重共享的多层感知器得到局部特征,然后采用非局部机制的NetVLAD网络对该分组的局部特征进行聚合。
非局部机制NetVLAD网络结构如图6所示,设输入为N个d维点特征{xi},VLAD参数设为K个聚类中心{ck},最终VLAD的输出为K*d维的描述特征并用V来表示。NetVLAD网络的聚合公式如下:
Figure BDA0002240714830000101
其中,ak(Xi)用来表示该点是否属于第k个聚类簇,可以用softmax形式近似表示为:
Figure BDA0002240714830000102
其中
Figure BDA0002240714830000103
bk均是网络可学参数,
Figure BDA0002240714830000104
可以用来表达点特征与第k个簇中心点的距离,从而网络可以获得聚合之后的特征V,基于此,采用非局部特征模块来挖掘VLAD不同簇心得到的特征之间的相互关联性,非局部特征的计算公式如下:
Figure BDA0002240714830000111
设输入V为K*C形状的特征,Vi代表一个NetVLAD簇的聚类中心得到的特征,Vi是一个长度为C的列向量,i用于指示点的位置。f用于计算两个点特征向量之间的相似度,g是一个映射函数,可以用多元感知器来实现。
相似性度量函数f可以选择的有很多种,如高斯度量,嵌入的高斯度量(EmbeddedGaussian),本发明采用嵌入高斯度量方式,其公式如下:
Figure BDA0002240714830000112
其中,θ、φ函数可以用线性映射函数即感知器函数表示如下:
Figure BDA0002240714830000113
最终的公式可以如下表示:
Figure BDA0002240714830000114
以此作为非局部NetVLAD模块的输出,进入下一阶段特征学习。
本发明实施例使用新加坡南洋理工大学提出的NTU RGBD行为数据集按照步骤(1)-(5)进行特征的提取和编码,然后对步骤(6)的分类网络进行端到端训练,但本发明不限于该数据集。训练过程中本发明使用了NTU RGBD120数据集,因此输出的结果是120类,其中包含了日常的行为82类,医疗中的行为12类,多人交互行为26类。分类结果表明本发明提出的方法能够能够有效的获取3D人体运动信息,并且在分类结果上取得了目前最好的成绩。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,包括:
(1)逐帧对深度图像中人***置进行标注,得到包含人体行为部分的深度图像;
(2)将所述深度图像的像素坐标转换为三维空间点云数据;
(3)对所述三维空间点云数据进行不同尺度大小的体素化,得到多尺度三维张量;
(4)将同一尺度的三维张量均匀划分为多个时间段,对每个时间段对应的三维张量进行空间时序编码,得到多尺度多时间段的三维张量时空序列;
(5)将所述三维张量时空序列转化为高维空间点云数据,并对所述高维空间点云数据进行随机采样,得到人体行为时空特征;
(6)将所述人体行为时空特征输入训练好的3D目标点云分类模型进行分类,得到行为分类结果。
2.根据权利要求1所述的一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,步骤(1)具体包括:
(1.1)利用人体骨架信息将每一帧深度图像中的人体行为部分框出,得到包含人体行为的标注框;
(1.2)每一帧深度图像表示为A*B的矩阵,将所述标注框以外的非人***置对应的矩阵值置为0;其中每个矩阵值的索引对应该位置的像素坐标,每个矩阵值对应该像素坐标的位置点与深度相机的距离。
3.根据权利要求1或2所述的一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,根据深度相机内参,步骤(2)所述深度图像的像素坐标与世界坐标系下的三维空间点云对应关系为:
Figure FDA0002240714820000021
其中,u、v为图像中每一像素所在坐标位置,fx,fy为深度相机焦距,cx,cy为深度相机中心点。
4.根据权利要求1-3任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,步骤(3)具体包括:
(3.1)设定不同大小的体素值,对空间进行均匀划分,得到多个空间网格;
(3.2)将存在点云数据的空间网格对应的体素值置为1,其余空间网格对应的体素值置0,得到不同体素大小对应的多尺度三维张量。
5.根据权利要求1-4任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,步骤(4)所述对每个时间段对应的三维张量进行空间时序编码,具体包括:
(01)根据排序函数S(v;u)=ut·vt对帧图像进行评分;
其中,ut表示优化排序函数得到的向量的转置,
Figure FDA0002240714820000022
表示第t帧深度图像的平均特征,xt表示为第t帧深度图像,
Figure FDA0002240714820000023
表示第t帧深度图像经过体素化后得到的三维张量;
(02)通过rankSVM优化所述排序函数的参数u,使得越往时间序列后面的帧图像具有越大的得分;
(03)将参数u的最优值转换为W*H*D的张量,作为该时间段对应的同一尺度的三维张量经过空间时序编码后的三维张量时空序列;其中,H、W、D分别表示该尺度下体素化后的点云在三维空间X轴、Y轴、Z轴上体素的数量大小。
6.根据权利要求1-5任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,步骤(5)具体包括:
(5.1)提取三维张量时空序列索引对应的空间位置信息,和其元素值对应的时序信息,得到M个高维点云数据(x,y,z,c1,…,cm),其中,m为深度视频经过时间划分得到的视频段数,M表示三维张量时空序列中具有运动信息的点特征的个数,c表示在对应坐标(x,y,z)位置下的运动信息;
(5.2)在M个高维点云数据(x,y,z,c1,…,cm)中随机选取K个,作为人体行为时空特征。
7.根据权利要求1-6任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,采用旋转平移的数据增强方式对人体行为时空特征进行数据增强后,输入训练好的3D目标点云分类模型进行分类。
8.根据权利要求1-7任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法,其特征在于,所述3D目标点云分类模型包括依次连接的多层感知器和非局部机制NetVLAD网络;
所述多层感知器,用于人体行为时空特征进行采样分组,并对每组行为时空特征进行特征提取,得到多组局部特征;
所述非局部机制NetVLAD网络,对多组局部特征进行聚合,得到非局部特征。
CN201910999089.XA 2019-10-21 2019-10-21 一种基于三维空间时序建模的深度视频人体行为识别方法 Active CN110852182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910999089.XA CN110852182B (zh) 2019-10-21 2019-10-21 一种基于三维空间时序建模的深度视频人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910999089.XA CN110852182B (zh) 2019-10-21 2019-10-21 一种基于三维空间时序建模的深度视频人体行为识别方法

Publications (2)

Publication Number Publication Date
CN110852182A true CN110852182A (zh) 2020-02-28
CN110852182B CN110852182B (zh) 2022-09-20

Family

ID=69596732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910999089.XA Active CN110852182B (zh) 2019-10-21 2019-10-21 一种基于三维空间时序建模的深度视频人体行为识别方法

Country Status (1)

Country Link
CN (1) CN110852182B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932822A (zh) * 2020-07-11 2020-11-13 广州融康汽车科技有限公司 一种乘员身***置报警装置
CN112001298A (zh) * 2020-08-20 2020-11-27 佳都新太科技股份有限公司 行人检测方法、装置、电子设备和存储介质
CN112215101A (zh) * 2020-09-27 2021-01-12 武汉科技大学 一种基于注意力机制的三维目标识别方法及***
CN112989930A (zh) * 2021-02-04 2021-06-18 西安美格智联软件科技有限公司 一种自动监测消防通道堵塞的方法、***、介质、终端
CN113111760A (zh) * 2021-04-07 2021-07-13 同济大学 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113269218A (zh) * 2020-12-30 2021-08-17 威创集团股份有限公司 基于改进的vlad算法的视频分类方法
CN113536997A (zh) * 2021-07-01 2021-10-22 深圳中智明科智能科技有限公司 基于图像识别和行为分析的智能安防***及方法
CN113536892A (zh) * 2021-05-13 2021-10-22 泰康保险集团股份有限公司 姿态识别方法、装置、可读存储介质及电子设备
CN115131562A (zh) * 2022-07-08 2022-09-30 北京百度网讯科技有限公司 三维场景分割方法、模型训练方法、装置和电子设备
CN117953544A (zh) * 2024-03-26 2024-04-30 安徽农业大学 一种目标行为监测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955682A (zh) * 2014-05-22 2014-07-30 深圳市赛为智能股份有限公司 基于surf兴趣点的行为识别方法及装置
CN105894571A (zh) * 2016-01-22 2016-08-24 冯歆鹏 一种处理多媒体信息的方法及装置
US20190004533A1 (en) * 2017-07-03 2019-01-03 Baidu Usa Llc High resolution 3d point clouds generation from downsampled low resolution lidar 3d point clouds and camera images
CN109993103A (zh) * 2019-03-29 2019-07-09 华南理工大学 一种基于点云数据的人体行为识别方法
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955682A (zh) * 2014-05-22 2014-07-30 深圳市赛为智能股份有限公司 基于surf兴趣点的行为识别方法及装置
CN105894571A (zh) * 2016-01-22 2016-08-24 冯歆鹏 一种处理多媒体信息的方法及装置
US20190004533A1 (en) * 2017-07-03 2019-01-03 Baidu Usa Llc High resolution 3d point clouds generation from downsampled low resolution lidar 3d point clouds and camera images
CN109993103A (zh) * 2019-03-29 2019-07-09 华南理工大学 一种基于点云数据的人体行为识别方法
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG XIAO ET AL.: ""Action Recognition for Depth Video using Multi-view Dynamic Images"", 《ARXIV》 *
刘婷婷 等: ""多视角深度运动图的人体行为识别"", 《中国图象图形学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932822A (zh) * 2020-07-11 2020-11-13 广州融康汽车科技有限公司 一种乘员身***置报警装置
CN112001298A (zh) * 2020-08-20 2020-11-27 佳都新太科技股份有限公司 行人检测方法、装置、电子设备和存储介质
CN112001298B (zh) * 2020-08-20 2021-09-21 佳都科技集团股份有限公司 行人检测方法、装置、电子设备和存储介质
CN112215101A (zh) * 2020-09-27 2021-01-12 武汉科技大学 一种基于注意力机制的三维目标识别方法及***
CN113269218A (zh) * 2020-12-30 2021-08-17 威创集团股份有限公司 基于改进的vlad算法的视频分类方法
CN112989930A (zh) * 2021-02-04 2021-06-18 西安美格智联软件科技有限公司 一种自动监测消防通道堵塞的方法、***、介质、终端
CN113111760A (zh) * 2021-04-07 2021-07-13 同济大学 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113111760B (zh) * 2021-04-07 2023-05-02 同济大学 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113536892A (zh) * 2021-05-13 2021-10-22 泰康保险集团股份有限公司 姿态识别方法、装置、可读存储介质及电子设备
CN113536892B (zh) * 2021-05-13 2023-11-21 泰康保险集团股份有限公司 姿态识别方法、装置、可读存储介质及电子设备
CN113536997A (zh) * 2021-07-01 2021-10-22 深圳中智明科智能科技有限公司 基于图像识别和行为分析的智能安防***及方法
CN115131562A (zh) * 2022-07-08 2022-09-30 北京百度网讯科技有限公司 三维场景分割方法、模型训练方法、装置和电子设备
CN115131562B (zh) * 2022-07-08 2023-06-13 北京百度网讯科技有限公司 三维场景分割方法、模型训练方法、装置和电子设备
CN117953544A (zh) * 2024-03-26 2024-04-30 安徽农业大学 一种目标行为监测方法及***

Also Published As

Publication number Publication date
CN110852182B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN110852182B (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
Shi et al. From points to parts: 3d object detection from point cloud with part-aware and part-aggregation network
Yang et al. Pixor: Real-time 3d object detection from point clouds
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN107742102B (zh) 一种基于深度传感器的手势识别方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN110706248A (zh) 一种基于slam的视觉感知建图算法及移动机器人
CN106295568A (zh) 基于表情和行为双模态结合的人类自然状态情感识别方法
CN108921926A (zh) 一种基于单张图像的端到端三维人脸重建方法
CN104182765A (zh) 一种互联网图像驱动的三维模型最优视图自动选择方法
CN110751097B (zh) 一种半监督的三维点云手势关键点检测方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN114998934A (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
CN114639115A (zh) 一种人体关键点与激光雷达融合的3d行人检测方法
CN112396655A (zh) 一种基于点云数据的船舶目标6d位姿估计方法
Fei et al. Self-supervised learning for pre-training 3d point clouds: A survey
CN115272599A (zh) 一种面向城市信息模型的三维语义地图构建方法
CN114299339A (zh) 一种基于区域相关性建模的三维点云模型分类方法及***
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
Kanaujia et al. Part segmentation of visual hull for 3d human pose estimation
Hou et al. Multi-modal feature fusion for 3D object detection in the production workshop
CN113724329A (zh) 融合平面与立体信息的目标姿态估计方法、***和介质
CN102663369A (zh) 基于surf高效匹配核的人体运动跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant