CN108846348B

CN108846348B - 一种基于三维骨骼特征的人体行为识别方法

Info

Publication number: CN108846348B
Application number: CN201810577437.XA
Authority: CN
Inventors: 冯子亮; 齐凌云; 黄潇逸; 董朋林; 丁健伟; 邓茜文; 韩震博; 闫秋芳; 赵洋; 赵伟
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2022-02-11
Anticipated expiration: 2038-06-07
Also published as: CN108846348A

Abstract

本发明提供一种基于三维骨骼特征的人体行为识别方法，使用三维人体行为序列中的人体骨骼关节点三维坐标信息，得到骨骼关节点运动投影特征向量，使用分类算法对骨骼关节点运动投影特征向量进行训练并分类，可以对实现人体行为的识别。该方法仅使用了骨骼的三维坐标信息，通过对骨骼关节点的时空投影，较为精确地表达了所有骨骼关节点在运动过程中的时空关系；具有使用的数据量小，计算复杂度低等优点，有利于提高在实际应用中的实时性。

Description

一种基于三维骨骼特征的人体行为识别方法

技术领域

本发明涉及计算机视觉技术领域及人体行为识别技术领域，尤其涉及一种基于三维骨骼特征的人体行为识别方法。

背景技术

人体行为识别技术旨在让计算机理解人体行为，进而实现各种交互和处理。按照人体行为的复杂程度，大致可以将人体行为分成三类：个体行为、交互行为和群体行为；本发明关注个体行为的识别。

早期的行为识别技术主要使用普通摄像头获取的彩色图像序列来实现，但由于普通摄像头在成像时将三维场景映射成二维图像，丢失了三维信息，使得行为识别非常容易受到复杂背景干扰、光照强度变化以及相机运动等因素的影响，导致识别结果不理想。

随着Kinect等深度传感器的出现，因其可以获得深度等三维信息，人们开始利用它们来进行人体行为识别研究，主要使用获得的深度和三维骨骼信息，但目前在应用上依然存在很多问题。

目前人体行为识别存在的挑战和难点问题主要有：

（1）深度数据的数据量较大，导致行为识别计算复杂，运算速度较慢；

（2）深度数据的准确性受场景影响较大，如拍摄角度和行为遮挡等都会影响采集的深度数据的准确性。

发明内容

本发明提供一种基于三维骨骼特征的人体行为识别方法，通过对人体骨骼关节点进行时空投影，对投影图进行子格划分，减少了计算数据量，降低了计算复杂度。

一种基于三维骨骼特征的人体行为识别方法，其特征在于，包含以下步骤。

步骤S1，获得单个行为的三维人体行为序列数据，所述序列数据包含人体骨骼关节点的三维坐标信息。

步骤S2，将所述三维人体行为序列数据中每帧的骨骼关节点坐标，从相机坐标系转换到人体坐标系，然后再投影到人体坐标系中由坐标轴构成的三个正交平面中。

步骤S3，将所述三维人体行为序列数据中各帧数据在人体坐标系三个正交平面的投影点，分别进行累加，形成三个骨骼关节点运动投影图。

步骤S4，对三个骨骼关节点运动投影图进行归一化和子格划分。

步骤S5，统计每个子格的骨骼关节点投影点数量，形成骨骼关节点运动投影特征向量，并归一化到[0,1]区间。

步骤S6，使用分类算法对归一化后的骨骼关节点运动投影特征向量进行训练，获得分类参数，最终实现人体行为识别。

所述相机坐标系，包括：

相机坐标系是以相机为原点的三维坐标系，通常相机的成像平面为xy平面，相机光轴方向为z轴方向，构成右手坐标系。

所述人体坐标系，包括：

人体坐标系是以人体为中心的三维坐标系，通常以骨骼关节点中最下面一个脊柱关节点作为原点，人体垂直于地面方向为z轴方向，人体左右方向为y方向，人体前后方向为x方向，构成右手坐标系；该坐标系为相对坐标系，即在运动过程中，若仅仅是人***置改变而各关节点的相对位置不变，各关节点在相机坐标系中的值会改变，但在人体坐标系中的值不改变。

所述骨骼关节点运动投影图，包括：

骨骼关节点运动投影图包含三个二维投影图，每个投影图由三维人体行为序列数据中各帧的三维骨骼关节点在对应平面的二维投影坐标点累加组成，其实质是三维骨骼关节点数据在对应平面的时空投影。

所述在对应平面的二维投影坐标点累加，包括：

每投影一次，就将投影图中投影位置处的值加1；即将该平面投影视为二维图像，该图像某坐标位置处的值，即为落在该投影点的关节点数量。

所述对骨骼关节点运动投影图进行归一化及子格划分，包括：

将三个骨骼关节点运动投影图分别进行归一化，形成固定大小的图像；

将归一化之后的骨骼关节点运动投影图划分成形如m*n个大小相同的矩形子格。

所述形成骨骼关节点运动投影特征向量，包括：

分别统计三个骨骼关节点运动投影图中每个子格中骨骼关节点数量，形成三个维度的形如m*n*3的骨骼关节点运动投影特征向量；

所述统计每个子格的骨骼关节点数量，即将运动投影图中该子格范围内所有点的值累加，因为每一个位置点的值等同于投影在该点的骨骼关节点的次数。

所述归一化到[0,1]区间，包括：

将三个维度的骨骼关节点运动投影特征向量，除以该行为序列数据的帧数，再除以每帧中的骨骼点数，得到归一化的骨骼关节点运动投影特征向量，该向量中每个元素的值均位于[0,1]区间范围内。

所述步骤S6，使用分类算法对归一化后的骨骼关节点运动投影特征向量进行训练，获得分类参数，最终实现人体行为识别，包括：

针对包含多个人体及多个行为的三维人体行为序列数据集，计算归一化的骨骼关节点运动投影特征向量，使用分类算法进行训练，并按照训练集和测试集的划分方法，用训练集数据进行分类训练，用测试集数据进行测试，从而获得分类器的最佳分类参数，最终实现对人体行为的识别。

与现有技术相比，本发明具有如下优点：

（1）本发明仅使用行为序列中的骨骼关节点三维坐标数据，具有数据量小、计算复杂度低的特点；

（2）本发明使用的骨骼关节点投影运动投影图及特征向量，其实质是骨骼关节点的时空投影，较为精确地表达了所有骨骼关节点在运动过程中的时空关系；

（3）本发明通过生成运动投影图和对其进行的子格划分，降低了计算复杂度，有利于提高在实际应用中的实时性。

附图说明

图1为本发明的方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面对本发明实施例中的技术方案进行更加详细和完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

一种基于三维骨骼特征的人体行为识别方法，如图1所示，包含以下步骤。

步骤S1，使用公开的三维人体行为数据集，包括：

如采用MSR Action 3D数据集，每帧可以得到20个骨骼关节点三维数据。

步骤S2，对每帧的骨骼关节点数据进行投影，包括：

对人体行为序列数据的每一帧，将骨骼关节点的三维坐标，从相机坐标系转换到人体坐标系，再投影到人体坐标系中由坐标轴构成的三个正交平面。

所述从相机坐标系转换到人体坐标系，包括：

设相机坐标系光轴朝前为z轴正方向，垂直向上为y轴正方向，正对相机向右为x轴正方向；

设人体坐标系垂直地面向上为z轴正方向，向前为x轴正方向，向左为y轴正方向；

设相机坐标系的坐标轴为ox, oy和oz，人体坐标系的坐标轴为ox’、oy’和oz’，人体坐标系原点在相机坐标系中的坐标为(x0,y0,z0)，则相机坐标系中任意一点(x,y,z)，转换成人体坐标系中的坐标为(x’, y’,z’)，两之间的转换公式如下：

其中，a1、b1、c1、a2、b2、c2、a3、b3、c3分别是人体坐标系中坐标轴ox’、oy’和oz’与相机坐标系中坐标轴ox、oy和oz的夹角。

步骤S3，将各帧的骨骼关节点投影数据累加，形成骨骼关节点运动投影图，包括：

将人体行为序列数据的每一帧，在人体坐标系的三个正交面上的全部投影点进行累加，形成该序列数据的三个骨骼关节点运动投影图。

若每帧包含20个关节点，该序列有n帧，则累加完毕后每个平面都有20*n个投影点，三个平面一共有3*20*n个投影点。

所述在人体坐标系的三个正交面上的全部投影点进行累加，形成该序列数据的三个骨骼关节点运动投影图，包括：

骨骼关节点运动投影图包含三个二维投影图，每个投影图由三维人体行为序列数据中各帧中的三维骨骼点在对应平面的二维投影坐标点累加组成，其实质是三维骨骼节点数据在对应平面的时空投影；

每投影一次，就将投影图投影位置处的值加1；即将该平面投影视为二维图像，该图像某坐标位置处的值，即为落在该投影点的关节点数量。

步骤S4，将骨骼关节点运动投影图分别进行归一化和子格划分，包括：

将三个骨骼关节点运动投影图分别进行归一化，形成固定大小的图像，如512*512；

将归一化之后的骨骼关节点运动投影图，划分成形如m*n个大小相同的矩形子格，即将图像划分成m*n个子格，如划分为4*4的子格，每个子格的尺寸为128*128；

这样可去掉由于不同人体尺寸和镜头距离的不同而引入的骨骼关节点运动投影图尺寸差异，使形成的三个投影图具有可比较性。

步骤S5，生成归一化的骨骼关节点运动投影特征向量，包括：

统计每个子格的骨骼关节点投影点数量，形成骨骼关节点运动投影特征向量；即累加骨骼关节点运动投影图中每个子格内各点的值，形成三个维度的形如m*n*3的骨骼关节点运动投影特征向量；如形成4*4*3的向量；

所述归一化是指归一化到[0,1]区间，即将三个维度的骨骼关节点运动投影特征向量，除以该行为序列数据的帧数，再除以每帧中的骨骼点数，得到归一化的骨骼关节点运动投影特征向量，该向量中每个元素的值均位于[0,1]区间范围内；

如该序列数据包含K帧，每帧包含20个骨骼关节点，则将三个维度的骨骼关节点运动投影特征向量，除以K*20，则为归一化的骨骼关节点运动投影特征向量。

步骤S6，使用分类算法对骨骼关节点运动投影特征向量进行训练，包括：

使用交叉验证测试的方法，选择一半的数据作为训练数据集，其余一半作为测试数据集；

使用分类算法进行训练，并按照训练集和测试集的划分方法，用训练集数据进行分类训练，用测试集数据进行测试，从而获得最佳的分类参数。

步骤S7，针对三维人体行为数据序列使用分类算法完成行为识别，包括：

将获得的三维人体行为数据序列，按照上述S2-S5的步骤，生成归一化的骨骼关节点运动投影特征向量，然后使用之前获得的分类参数，使用分类算法对本次行为数据进行识别。

所述分类算法可使用支持向量机（SVM: Support Vector Machine）。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然

可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于三维骨骼特征的人体行为识别方法，其特征在于，包含以下步骤：

步骤S1，获得单个行为的三维人体行为序列数据，所述序列数据包含人体骨骼关节点的三维坐标信息；

步骤S2，将所述三维人体行为序列数据中每帧的骨骼关节点坐标，从相机坐标系转换到人体坐标系，然后再投影到人体坐标系中由坐标轴构成的三个正交平面中；

步骤S3，将所述三维人体行为序列数据中各帧数据在人体坐标系三个正交平面的投影图，分别进行累加，形成三个骨骼关节点运动投影图；

所述骨骼关节点运动投影图，包括：

骨骼关节点运动投影图包含三个二维投影图，每个投影图由三维人体行为序列数据中各帧的三维骨骼点在对应平面的二维投影坐标点累加组成，其实质是三维骨骼节点数据在对应平面的时空投影；

所述在对应平面的二维投影坐标点累加，包括：

每投影一次，即将投影图中投影位置处的值加1；即将该平面投影视为二维图像，该图像某坐标位置处的值，即为落在该投影点的关节点数量；

步骤S4，对三个骨骼关节点运动投影图进行归一化和子格划分，包括：

将归一化之后的骨骼关节点运动投影图划分成m*n个大小相同的矩形子格；

步骤S5，统计每个子格中骨骼关节点的投影点数量，形成骨骼关节点运动投影特征向量，并归一化到[0,1]区间；包括：

分别统计三个骨骼关节点运动投影图中每个子格中骨骼关节点数量，即将该子格范围内所有点的值累加，形成三个维度的m*n*3的骨骼关节点运动投影特征向量；

将三个维度的骨骼关节点运动投影特征向量，除以该行为序列数据的帧数，再除以每帧中的骨骼点数，得到归一化到[0,1]区间的骨骼关节点运动投影特征向量；

步骤S6，使用分类算法对归一化后的骨骼关节点运动投影特征向量进行训练并分类。

2.根据权利要求1所述的方法，其特征在于，包括：

相机坐标系是以相机为原点的三维坐标系，相机的成像平面为xy平面，相机光轴方向为z轴方向，构成右手坐标系；

人体坐标系是以人体为中心的三维坐标系，以最下面一个脊柱关节点作为原点，人体垂直于地面方向为z轴方向，人体左右方向为y方向，人体前后方向为x方向，构成右手坐标系；该坐标系为相对坐标系。

3.根据权利要求1所述的方法，其特征在于，使用分类算法对归一化的骨骼关节点运动投影特征向量进行训练并分类，包括：

针对包含多个人体及多个行为的三维人体行为序列数据集，计算归一化的骨骼关节点运动投影特征向量，使用分类算法进行训练，并按照训练集和测试集的划分方法，用训练集数据进行分类训练，用测试集数据进行测试，从而获得分类器的最佳分类参数，实现对人体行为的识别。