CN110852182A

CN110852182A - 一种基于三维空间时序建模的深度视频人体行为识别方法

Info

Publication number: CN110852182A
Application number: CN201910999089.XA
Authority: CN
Inventors: 肖阳; 王焱乘; 曹治国; 姜文祥
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-28
Anticipated expiration: 2039-10-21
Also published as: CN110852182B

Abstract

本发明公开了一种基于三维空间时序建模的深度视频人体行为识别方法，属于数字图像识别领域，包括：逐帧对深度图像中人***置进行标注；将包含人体行为的深度图像转换为三维空间点云数据；对三维空间点云数据进行不同尺度大小的体素化，得到多尺度三维张量；将同一尺度的三维张量均匀划分为多个时间段，对每个时间段对应的三维张量进行空间时序编码，得到多尺度多时间段的三维张量时空序列；将三维张量时空序列转化为高维空间点云数据并进行随机采样，得到人体行为时空特征；将人体行为时空特征输入训练好的3D目标点云分类模型进行分类，得到行为分类结果。本发明能够充分挖掘深度图像立体信息，实现高效鲁棒的对人体各种行为进行识别。

Description

一种基于三维空间时序建模的深度视频人体行为识别方法

技术领域

本发明属于数字图像识别领域，更具体地，涉及一种基于三维空间时序建模的深度视频人体行为识别方法。

背景技术

在计算机视觉领域中，基于深度视频下的人体行为识别受到了越来越多的研究者关注，并且已经成为了研究的热点之一，该技术广泛应用于视频监控，多媒体数据分析，人机交互等。

目前针对深度视频行为识别的方法主要有三类：基于人体骨架的方法，基于原始深度图的方法和融合骨架与深度图的方法；基于人体骨架的识别方法是目前最常见的方法，人体骨架由于没有环境噪声的干扰，可以简单明确地描述人体运动的姿态信息，并且在现有的行为数据集上取得了较好的结果，但是这种方法的前提是建立于一个精准估计的人体骨架信息，而人体骨架信息提取技术并不能完全正确提取，尤其是在特殊的环境中，人体骨架信息很难获取；基于深度图像的人体行为识别方法将基于3D时序空间的人体行为投影到2D平面进行识别，可以获取更多的环境与人物信息，但人体行为的3D信息依然没有被有效提取，并且由于环境噪声在2D平面中表现明显，使得其行为的时空信息很难能够被有效地挖掘提取，对算法模型的鲁棒性与拟合性有着更高程度的要求。

总体而言，现有深度视频行为识别方法存在不能精确提取人体骨架信息，深度视频信息没有被最大化提取，且容易受到环境噪声的影响，导致识别准确度低的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于三维空间时序建模的深度视频人体行为识别方法，其目的在于解决，现有深度视频形行为识别方法基于二维平面进行识别，不能有效提取深度视频的三维信息，且容易受到环境噪声的影响，造成识别准确度低的技术问题。

为实现上述目的，本发明提供了一种基于三维空间时序建模的深度视频人体行为识别方法，包括：

(1)逐帧对深度图像中人***置进行标注，得到包含人体行为部分的深度图像；

(2)将所述深度图像的像素坐标转换为三维空间点云数据；

(3)对所述三维空间点云数据进行不同尺度大小的体素化，得到多尺度三维张量；

(4)将同一尺度的三维张量均匀划分为多个时间段，对每个时间段对应的三维张量进行空间时序编码，得到多尺度多时间段的三维张量时空序列；

(5)将所述三维张量时空序列转化为高维空间点云数据，并对所述高维空间点云数据进行随机采样，得到人体行为时空特征；

(6)将所述人体行为时空特征输入训练好的3D目标点云分类模型进行分类，得到行为分类结果。

进一步地，步骤(1)具体包括：

(1.1)利用人体骨架信息将每一帧深度图像中的人体行为部分框出，得到包含人体行为的标注框；

(1.2)每一帧深度图像表示为A*B的矩阵，将所述标注框以外的非人***置对应的矩阵值置为0；其中每个矩阵值的索引对应该位置的像素坐标，每个矩阵值对应该像素坐标的位置点与深度相机的距离。

进一步地，根据深度相机内参，步骤(2)所述深度图像的像素坐标与世界坐标系下的三维空间点云对应关系为：

其中，u、v为图像中每一像素所在坐标位置，f_x,f_y为深度相机焦距，c_x,c_y为深度相机中心点。

进一步地，步骤(3)具体包括：

(3.1)设定不同大小的体素值，对空间进行均匀划分，得到多个空间网格；

(3.2)将存在点云数据的空间网格对应的体素值置为1，其余空间网格对应的体素值置0，得到不同体素大小对应的多尺度三维张量。

进一步地，步骤(4)所述对每个时间段对应的三维张量进行空间时序编码，具体包括：

(01)根据排序函数S(v；u)＝u^t·v_t对帧图像进行评分；

其中，u^t表示优化排序函数得到的向量的转置，

表示第t帧深度图像的平均特征，x_t表示为第t帧深度图像，

表示第t帧深度图像经过体素化后得到的三维张量；

(02)通过rankSVM优化所述排序函数的参数u，使得越往时间序列后面的帧图像具有越大的得分；

(03)将参数u的最优值转换为W*H*D的张量，作为该时间段对应的同一尺度的三维张量经过空间时序编码后的三维张量时空序列；其中，H、W、D分别表示该尺度下体素化后的点云在三维空间X轴、Y轴、Z轴上体素的数量大小。

进一步地，步骤(5)具体包括：

(5.1)提取三维张量时空序列索引对应的空间位置信息，和其元素值对应的时序信息，得到M个高维点云数据(x,y,z,c₁,…,c_m)，其中，m为深度视频经过时间划分得到的视频段数，M表示三维张量时空序列中具有运动信息的点特征的个数，c表示张量值的在对应坐标位置下的运动信息；

(5.2)在M个高维点云数据(x,y,z,c₁,…,c_m)中随机选取K个，作为人体行为时空特征。

进一步地，采用旋转平移的数据增强方式对人体行为时空特征进行数据增强后，输入训练好的3D目标点云分类模型进行分类。

进一步地，所述3D目标点云分类模型包括依次连接的多层感知器和非局部机制NetVLAD网络；

所述多层感知器，用于人体行为时空特征进行采样分组，并对每组行为时空特征进行特征提取，得到多组局部特征；

所述非局部机制NetVLAD网络，对多组局部特征进行聚合，得到非局部特征。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明方法通过对平面深度图像中的人体行为进行检测，有效筛选出人体的空间位置，将包含人体行为的深度图像转换为点云序列，以还原人体行为的空间信息，便于后续获取更丰富的人体行为特征；在此基础上，对点云序列进行体素化以及空间时序编码，从而充分挖掘深度视频的空间几何特点，有效提高了人体行为识别的准确率。

(2)本发明方法在现有的点云分类网络PointNet++基础上采用一种基于self-attention的非局部区域特征融合模块，通过结合全局行为特征与局部运动明显的特征，进一步提高了人体行为识别的准确率。

(3)本发明通过对分类网络的输入做进一步数据增强，即对输入点云在空间做随机任意角度的旋转，使得分类模型对不同视角下的人体行为识别更加具有鲁棒性。

附图说明

图1是本发明实施例提供的一种基于三维空间时序建模的深度视频人体行为识别方法的流程示意图；

图2是本发明实施例提供的一种基于原始的深度图像转换成点云对应的物理含义示意图；

图3是本发明实施例提供的点云序列经过体素化后得到的可视化结果；

图4是本发明实施例提供的一种体素化序列经过空间时序编码之后得到3维空间张量的可视化结果；

图5是本发明实施例提供的点云分类网络结构示意图；

图6是本发明实施例提供的基于self-attention的非局部区域特征融合模块结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于三维空间时序建模的深度视频人体行为识别方法，包括人体目标检测，深度图像转换点云，点云体素化，对体素化后的张量进行时序编码，对编码后的张量采样得到时空特征，将特征送入点云分类网络进行训练与测试。以下结合实例来具体阐述本发明提供的基于三维空间时序建模的深度视频人体行为识别方法。

如图1所示，本发明实施例提供的基于三维空间时序建模的深度视频人体行为识别方法包括以下步骤：

具体地，利用人体骨架信息将每一帧深度图像中的人体行为部分框出，得到包含人体行为的标注框；将每一帧深度图像表示为A*B的矩阵(A、B分别为深度图像基于像素数量长宽)，每个矩阵值的索引对应该位置的像素坐标，矩阵的每一个值对应着该像素坐标的位置点与深度相机的距离，本发明只采用包括人体行为的深度图部分，因此将标注边框以外的非人***置对应的矩阵值置为0。

(2)将包含人体行为的深度图像的像素坐标转换为三维空间点云数据；

本发明通过点云化还原人体行为的空间信息，以便后面获取更丰富的人体行为特征，具体地，如图2所示，设相机坐标点即光心为世界坐标系原点O，深度图像中心点为O′，将深度图像中的M′点转换成世界坐标系的M点，M点在世界坐标系z轴上投影为A点，存在相似三角形的映射关系：OM′O′相似于OMA，即可以得到

进一步根据相机内参可以得到深度图像的像素坐标与世界坐标系下的三维空间点云对应关系为：

具体地，步骤(3)具体包括：(3.1)设定不同大小的体素值，对空间进行均匀划分，得到多个空间网格；(3.2)将存在点云数据的空间网格对应的体素值置为1，其余空间网格对应的体素值置0，得到不同体素大小对应的多尺度三维张量。步骤(2)中获得的每一帧深度图像转为点云数据即M*(x,y,z)，计算一段视频下所有点云集在x、y、z轴上的最大、最小值记为hx、hy、hz和lx、ly、lz，从而得到人体行为在世界坐标系下的空间位置大小，设体素化体素大小为a*a*a,从而得到深度行为在3D空间中的体素数目为

包含人体行为的深度图像经过点云化和体素化的可视化结果如图3所示。

具体地，步骤(4)所述对每个时间段对应的三维张量进行空间时序编码，具体包括：

(01)根据排序函数S(v；u)＝u^t·v_t对帧图像进行评分；其中，u^t表示优化排序函数得到的向量的转置，表示第t帧深度图像的平均特征，x_t表示为第t帧深度图像，

表示第t帧深度图像经过体素化后得到的三维张量；(02)通过rankSVM优化所述排序函数的参数u，使得越往时间序列后面的帧图像具有越大的得分；(03)将参数u的最优值转换为W*H*D的张量，作为该时间段对应的同一尺度的三维张量经过空间时序编码后的三维张量时空序列；其中，H、W、D分别表示该尺度下体素化后的点云在三维空间x、y、z轴上体素的数量大小。

本发明使用结构风险最小化和最大间隔优化框架，目标优化问题可以表示为：

第一项为正则化项，第二项是hinge-loss的误差惩罚项。上式被证明是一个凸优化问题，可以使用RankSVM进行求解，优化得到的参数u^*可以作为整个特征张量序列的一个新的表示。参数u^*经过resize之后变成W*H*D的3维张量特征，与

特征维度一致。

对上式进行简化，用d表示想获得的较好的参数u：

从

开始，第一个近似解

所以可以得到

对左边的数列求和可以得到

α_t＝2(N-t+1)-(N+1)(H_N-H_t-1)

其中

因此最终想获得的W*H*D的张量特征变成了：

在本发明实施例中，使用α_t＝2(N-t+1)对张量特征序列进行处理，公式α_t＝2(T-t+1)-(T+1)(H_T-H_t-1)中的第二项略去不影响编码的效果，减少了很多时间上的消耗。经过rankPooling编码后的结果可视化如图4所示，本发明实施例将原始视频平均分为四段，每一段有1/2的重叠部分，另外再加上原始全部序列时间段，一共可以得到5个时间序列的3维张量。

具体地，步骤(5)具体包括：

(5.1)提取三维张量时空序列索引对应的空间位置信息，和其元素值对应的时序信息，得到M个高维点云数据(x,y,z,c₁,…,c_m)，其中，m为深度视频经过时间划分得到的视频段数，M表示三维张量时空序列中具有运动信息的点特征的个数，c表示张量值的在对应坐标(x,y,z)位置下的运动信息；

进一步具体地，对于编码后得到的张量，其索引代表着空间位置信息，张量中元素的值代表着空间时序编码后得到时序信息，如果张量的值为0就说明在对应的位置上不存在运动信息，对于多个时间段得到的3维张量，筛选掉其在同一索引下值全部为0的体素，通过对提取张量索引的空间信息以及张量值的运动信息，并将信息保存为高维点云格式(x,y,z,c₁,…,c₅)，由此可以得到M个高维点云数据(x,y,z,c₁,…,c_m)。

进一步具体地，如果M<K时，选取全部的M个点集，再从M个点中随机抽取(K-M)个点作为重复点，最终得到K个点数据，作为分类网络的输入；其中K值大小依据网络输入模型的大小，以及M值的整体水平设定，本发明实施例选取的K值为2048。

具体地，在输入点云分类模型前，本发明实施例采用旋转平移的数据增强方式对人体行为时空特征进行数据增强，其旋转公式如下：

其中，R_x、R_y表示点云在世界坐标系中绕x、y轴的旋转矩阵，β、α表示旋转的度数，通过矩阵乘法，点云旋转过程可表示为：x′＝x*(R_x*R_y)^T，x表示输入点云，x′表示旋转后得到的点云，本发明实例中，设置β范围-10°～+10°，α范围-45°～+45°。数据集进行旋转数据增强之后，可以提高本发明模型对不同视角下行为的鲁棒性。

在本发明在现有的点云分类网络PointNet采用的多层共享感知器神经网络基础上，采用一种基于self-attention的非局部区域特征融合模块，对经过高维空间映射的局部特征进行融合，能够进一步发掘点云之间的联系，抓获不同位置点集之间的依赖关系，从而获取人体运动不同时空位置之间的共性，增强行为特征的辨识能力。行为分类模型结构如图5所示，包括依次连接的多层感知器和非局部机制NetVLAD网络；该模型首先利用最邻近法则将输入点云进行采样分组，将每一个分组的点云送入到权重共享的多层感知器得到局部特征，然后采用非局部机制的NetVLAD网络对该分组的局部特征进行聚合。

非局部机制NetVLAD网络结构如图6所示，设输入为N个d维点特征{x_i}，VLAD参数设为K个聚类中心{c_k}，最终VLAD的输出为K*d维的描述特征并用V来表示。NetVLAD网络的聚合公式如下：

其中，a_k(X_i)用来表示该点是否属于第k个聚类簇，可以用softmax形式近似表示为：

其中

b_k均是网络可学参数，

可以用来表达点特征与第k个簇中心点的距离，从而网络可以获得聚合之后的特征V，基于此，采用非局部特征模块来挖掘VLAD不同簇心得到的特征之间的相互关联性，非局部特征的计算公式如下：

设输入V为K*C形状的特征，V_i代表一个NetVLAD簇的聚类中心得到的特征，V_i是一个长度为C的列向量，i用于指示点的位置。f用于计算两个点特征向量之间的相似度，g是一个映射函数，可以用多元感知器来实现。

相似性度量函数f可以选择的有很多种，如高斯度量，嵌入的高斯度量(EmbeddedGaussian)，本发明采用嵌入高斯度量方式，其公式如下：

其中，θ、φ函数可以用线性映射函数即感知器函数表示如下：

最终的公式可以如下表示：

以此作为非局部NetVLAD模块的输出，进入下一阶段特征学习。

本发明实施例使用新加坡南洋理工大学提出的NTU RGBD行为数据集按照步骤(1)-(5)进行特征的提取和编码，然后对步骤(6)的分类网络进行端到端训练，但本发明不限于该数据集。训练过程中本发明使用了NTU RGBD120数据集，因此输出的结果是120类，其中包含了日常的行为82类，医疗中的行为12类，多人交互行为26类。分类结果表明本发明提出的方法能够能够有效的获取3D人体运动信息，并且在分类结果上取得了目前最好的成绩。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，包括：

(2)将所述深度图像的像素坐标转换为三维空间点云数据；

2.根据权利要求1所述的一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，步骤(1)具体包括：

3.根据权利要求1或2所述的一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，根据深度相机内参，步骤(2)所述深度图像的像素坐标与世界坐标系下的三维空间点云对应关系为：

4.根据权利要求1-3任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，步骤(3)具体包括：

5.根据权利要求1-4任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，步骤(4)所述对每个时间段对应的三维张量进行空间时序编码，具体包括：

(01)根据排序函数S(v；u)＝u^t·v_t对帧图像进行评分；

其中，u^t表示优化排序函数得到的向量的转置，

表示第t帧深度图像的平均特征，x_t表示为第t帧深度图像，

表示第t帧深度图像经过体素化后得到的三维张量；

6.根据权利要求1-5任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，步骤(5)具体包括：

(5.1)提取三维张量时空序列索引对应的空间位置信息，和其元素值对应的时序信息，得到M个高维点云数据(x,y,z,c₁,…,c_m)，其中，m为深度视频经过时间划分得到的视频段数，M表示三维张量时空序列中具有运动信息的点特征的个数，c表示在对应坐标(x,y,z)位置下的运动信息；

7.根据权利要求1-6任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，采用旋转平移的数据增强方式对人体行为时空特征进行数据增强后，输入训练好的3D目标点云分类模型进行分类。

8.根据权利要求1-7任一项所述的一种基于三维空间时序建模的深度视频人体行为识别方法，其特征在于，所述3D目标点云分类模型包括依次连接的多层感知器和非局部机制NetVLAD网络；