CN106909890B

CN106909890B - 一种基于部位聚类特征的人体行为识别方法

Info

Publication number: CN106909890B
Application number: CN201710057722.4A
Authority: CN
Inventors: 孔德慧; 贾文浩; 孙彬; 王少帆
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2020-02-11
Anticipated expiration: 2037-01-23
Also published as: CN106909890A

Abstract

本发明公开一种基于部位聚类特征的人体行为识别方法，包括：步骤1、在训练阶段，首先通过姿态估计提取训练视频每一帧的部位聚类特征点，之后计算每一帧每一个特征点的局部位置偏移和全局位置偏移；然后收集所有训练视频的特征点偏移量信息，并使用K‑means聚类算法对偏移量信息进行聚类，得到聚类中心，即形成码本，然后根据码本用一组关节特征点的直方图来表示当前的训练视频；步骤2、在测试阶段，对一个测试视频，首先通过上述训练阶段构成的码本建立直方图，之后通过朴素贝叶斯最近邻分类方法比较测试阶段直方图与训练阶段的直方图的差异进行行为识别。采用本发明的技术方案，具有很高的识别率。

Description

一种基于部位聚类特征的人体行为识别方法

技术领域

本发明属于计算机视觉和模式识别领域，尤其涉及一种基于部位聚类特征的人体行为识别方法。

背景技术

近几年，人类行为识别得到了越来越多的关注，通过分析人与物体的交互来理解人们在做什么甚至推断其意图，显得尤为关键，因此自动进行人体动作的理解与识别对许多人工智能***来说是至关重要的，这可以广泛应用到许多实际应用中，比如智能视频监控、运动检索、人机交互以及医疗保健等许多领域中。例如，为了建造一个能智能化地服务于人类的人机交互***，该***不仅需要感知人体的运动，而且还要理解人体动作的语义并推断其意图。

目前传统的动作识别分类方法主要是通过RGB相机获取视频序列来进行行为识别，这种情况下所获得的视频是一个按照时间先后顺序排列的2D的RGB图像序列。基于RGB信息的人体动作识别在过去数十年间取得了很大进展，许多方法相继被提出，这些方法包括人体关键姿态、运动模板、剪影和时－空形状等。基于时空检测的方法可以进行准确的相似度测量，还有基于密集运动轨迹的方法由于具有出色的性能而备受人们的关注。

尽管以上这些方法在相关标准测试数据集上均取得了较好的识别结果，但是由于人体动作具有高度的灵活性，人体的姿态、运动、衣着具有显著的个体差异性，相机视角、相机的运动、光照条件的变化、遮挡、自遮挡并同时包含人－物的交互以及复杂的时－空结构等因素的综合影响，使得人体动作识别仍极具挑战性。而且RGB信息很容易受到环境因素的影响，比如光照、背景的改变等都会带来不同程度的干扰，此外对于不同的两个行为，RGB图像可能会非常相似，这将会给动作识别分类带来很大的困难。

随着科技的发展，传感器技术的进步，使得高清晰低廉的深度传感器变为可能，例如微软公司的Kinect和华硕公司的Xtion PRO LIVE。由深度相机采集的深度映射图像中的每个像素记录着场景的深度值，与普通的RGB图像中像素所表示的光强度值截然不同。深度传感器的引入能够极大地拓展计算机***感知三维世界并提取低层视觉信息的能力。深度传感器较传统RGB相机在人体动作识别方面具有无可比拟的优势，即它不受光照条件的影响，具有颜色与纹理不变性，而且RGBD相机不仅可以获得RGB序列还可以同时获得深度序列，同时深度信息能极大简化目标的检测与分割任务。如果从单个视角，不同的行为可能有相似的2D投影，此时深度图可以提供额外的体型信息来区分不同的行为。所以近几年，大量研究学者的研究工作侧重于采用3D信息研究行为识别，而且通过RGBD相机获取的3D信息对人体姿态的估计有显著的改善。

其中Lu等提出了用于识别人体动作的有效方案：通过计算人体关节3D位置的局部位置偏移来识别人体的动作。然而，这种方法没有考虑到时间序列的特性，使记录关节信息的直方图失去了序列的连续信息；而且他们的方法没有考虑在动作识别中码本形成阶段中的每个关节的运动独立性。

此外，Microsoft的Kinect相机在拍摄人体的时候不仅能够得到人体的深度图而且同时还能够提供人体的16个关节点位置信息，大多数学者的研究都是基于Microsoft的Kinect提供的关节点信息来进行人体动作识别的，但是Kinect在拍摄人体的时候，前20帧左右会用来判断识别人体在画面中的位置，此时不能够提供人体的关节点位置信息，另外当人体动作幅度比较大的时候，比如人体从直立状态过渡到踢腿动作的时候，Kinect给出的关节点位置会有相当大的偏移，不够准确，如图1所示。

发明内容

本发明要解决的技术问题是，提供一种基于部位聚类特征的人体行为识别方法，具有很高的识别率。

为实现上述目的，本发明采用如下技术方案：

一种基于部位聚类特征的人体行为识别方法包括：

步骤1、在训练阶段，首先通过姿态估计提取训练视频每一帧的部位聚类特征点，之后计算每一帧每一个特征点相对于之前某一帧对应的特征点的位置偏移；然后收集所有训练视频的特征点偏移量信息，并使用K-means聚类算法对偏移量信息进行聚类，得到聚类中心，即形成码本，然后根据码本用一组关节特征点的直方图来表示当前的训练视频；

步骤2、在测试阶段，对一个测试视频，首先通过上述训练阶段构成的码本建立直方图，之后通过朴素贝叶斯最近邻分类方法(NBNN)比较测试阶段直方图与训练阶段的直方图的差异进行行为识别。

作为优选，所述步骤1包括以下步骤：

步骤1.1、人体姿态特征点提取，包括以下步骤

步骤1.1.1、首先需要准确地定位人体肢端点位置，然后以肢端点为中心，实现人体区域划分，以测地距离作为分类的依据，使用最近邻分类算法作为分类的工具，将人体深度像素划分为六大部分，即头部、左手臂、右手臂、左腿部、右腿部，躯干部，人体部位分类依据下述公式进行分类，

其中Ω_i′，i’＝0，…，5表示分类的六个人体块，它们对应头部、左手臂、右手臂、左腿部、右腿部，躯干部；v表示人体中某一个像素点，e^i′表示第i’个肢端点，即左手右手或者左脚右脚，当i’＝0时，e^i’代表人体的中心点，||v-e^i′||_geod表示像素v到肢端点e^i’的测地距离。

步骤1.1.2、使用了基于K-means的区域聚类算法提取人体的分部位特征点，即在上述得到人体肢端点部位块中进行聚类，根据人体的关节点的表示方式，提取聚类特征点以表征不同的人体姿态。

步骤1.2、人体动作序列特征向量的计算

分为以下几个步骤：

步骤1.2.1、计算位置偏移量：对于一个n帧的视频序列F，每一帧m个特征点的3D坐标f(t)可以通过人体姿态估计获得：

f(t)＝φ(t)＝{θ₁(t),θ₂(t),...,θ_m(t)}，t∈{1,2,…,n}

其中θ_i(t)＝(x_i(t),y_i(t),z_i(t))，i∈{1,2,…,m}，θ_i(t)表示f(t)的第i个人体特征点的3D坐标信息,m表示特征点的数量。

通过计算当前第t帧与第一帧的特征点位置偏移信息获取动作序列的全局偏移信息：

f_i1＝θ_i(t)-θ_i(1)

通过计算当前第t帧与第(t-Δt)帧的特征点位置偏移信息获取动作序列的局部偏移信息：

f_i2＝θ_i(t)-θ_i(t-Δt)

其中，Δt是一个时间间隔。

获取第t帧所有人体特征点的偏移信息之后，第t帧所有特征点的特征信息可以通过全局偏移信息f₁(t)和局部偏移信息f₂(t)两部分来表示，如下所示：

f₁(t)＝[f₁₁(t),f₂₁(t),…,f_m1(t)]

f₂(t)＝[f₁₂(t),f₂₂(t),…,f_m2(t)]。

步骤1.2.2、视频对应的动作序列特征向量的获取

假设每个训练视频所有人体特征点已经用一组偏移信息表示，收集到的所有视频的每个特征点的全局偏移向量用R₁表示，即其中

对应的是第j个训练视频的第i个特征点的第t帧，收集到的所有视频的每个特征点的局部偏移向量用R₂表示，即

其中

对应的是第j个训练视频的第i个特征点的第t帧，设R＝R₁∪R₂，之后使用K-means算法对R进行聚类形成码本{b_k}，k＝1,2,....,K，每一个码字就是每一个聚类的中心，这里采用欧氏距离的聚类度量方法。

设每一个训练视频F＝{f(t)}，t＝1,2,...,n，其中n表示的是帧数，在每一帧f(t)每一个人体特征点i的全局偏移向量f_1i(t)或者局部偏移向量f_2i(t)都会在码本{b_k}中找到欧氏距离最短的码字，即

因此，F中每一个特征点i运动也就是视频中特征点i的所有位置偏移量f_1i(t)和f_2i(t)，每个特征点的位置偏移量可以进一步通过一个直方图h_i来表示，该直方图是一个关于每个码字频率的直方图，由

和

组成，其中

来表示第i个特征点的全局偏移量直方图,

表示第i个特征点的局部偏移量直方图,即

其中#{}是一个记分函数。最后F就可以用一组所有特征点的直方图来表示，即F＝{h_i}，i＝1,2,...,m,其中h_i对应的是第i个特征点的直方图。

作为优选，步骤2中使用朴素贝叶斯最近邻分类方法(Native BayesNearestNeighbor ClassifierNBNN)进行动作分类：已知一组特征点直方图表示的视频序列F＝{h_i}，i＝1,2,...,m，其中m是特征点的数量，

选用基于NBNN图像分类的最初概念应用到基于NBNN视频分类，也就是行为识别，计算的是关节直方图-类别的距离而不是视频-类别的距离或者视频-视频的距离，如下所示：

其中

表示在第c类行为的第i个特征点中与h_i最近邻的直方图，即

其中h′_i(c)表示行为类c中第i个特征点的直方图。

附图说明

图1为Microsoft Kinect给出的错误关节点示意图；

图2为本发明人体行为识别方法流程示意图；

图3为基于测地距离的肢端特征检测示意图；

图4为基于测地距离的人体区域标记示意图；

图5为基于聚类的姿态特征提取示意图；

图6a为当前帧的全局偏移示意图；

图6b为当前帧的局部偏移示意图；

图7为根据特征点全局和局部位置偏移形成聚类中心和直方图的过程图；

图8为不同情况下动作识别率比较图；

图9为本发明的方法进行动作识别分类的结果示意图；

图10为基于关节点特征使用Lu等人的方法进行动作识别分类的结果示意图；

图11为基于关节点特征使用本发明的方法进行动作识别分类的结果示意图。

具体实施方式

本发明实例提供一种基于部位聚类特征的人体行为识别方法，为了避免人体关节点位置信息不够准确，采用人体分部位聚类中心作为表征人体姿态的特征点；为了利用动作序列信息的全局特性，本发明在序列特征向量中添加全局位置偏移来弥补仅使用局部位置偏移信息进行识别的缺陷。基于此，需要解决的关键问题包括：人体姿态特征的提取；人体动作序列特征向量的计算；动作识别分类。

本发明以人体运动时的深度图像序列为输入数据，来计算人体动作类别作为输出；其中,计算的核心环节是采用人体姿态特征的空间位置的偏移量构造特征向量来描述一个行为序列(包括全局偏移信息和局部偏移信息),并以此为依据实现动作分类。

一种基于部位聚类特征的人体行为识别方法包括：

步骤1、在训练阶段，首先通过姿态估计提取训练视频每一帧的部位聚类特征点，之后计算每一帧每一个特征点相对于之前某一帧对应的特征点的位置偏移；然后收集所有训练视频的特征点偏移量信息，并使用K-means聚类算法对偏移量信息进行聚类，得到聚类中心，也就是形成成码本，然后根据码本用一组关节特征点的直方图来表示当前的训练视频；

步骤2、在测试阶段，对一个测试视频，首先通过上述训练阶段构成的码本建立直方图，之后通过朴素贝叶斯最近邻分类方法(NBNN)比较测试阶段直方图与训练阶段的直方图的差异进行行为识别,如图2所示。

所述步骤1包括以下步骤：

步骤1.1、人体姿态特征点提取

在此阶段，使用了Kinect拍摄实际人体采集深度数据，然后将深度数据转换成点云。

如图3所示。首先需要准确地定位人体肢端点(左右手、左右脚和头)位置(以人体几何中心点为源点采用基于测地距离的迪杰斯特拉算法进行肢端点定位)。然后以肢端点为中心，实现人体区域划分。

如图4所示，以测地距离作为分类的依据，使用最近邻分类算法作为分类的工具，将人体深度像素划分为六大部分，即头部、左手臂、右手臂、左腿部、右腿部，躯干部。人体部位分类依据下述公式(1)进行分类。

其中Ω_i’，i’＝0，...，5表示分类的六个人体块，它们对应头部、左手臂、右手臂、左腿部、右腿部，躯干部。v表示人体中某一个像素点，e^i’表示第i’个肢端点，即左手右手或者左脚右脚，当i’＝0时，e^i′代表人体的中心点。||v-e^i′||_geod表示像素v到肢端点e^i′的测地距离。公式(1)即表示第i′个部位中的所有像素到第i’个肢端点e^i’的测地距离要小于到其他肢端点的测地距离。

为了能够有效地表征人体姿态，本方法使用了基于K-means的区域聚类算法提取人体的分部位特征点，即在上述得到人体肢端点部位块中进行聚类。如图5所示。事实上，聚类点个数(即特征点数量)m过少时,特征的表达力欠缺，聚类点个数过多则特征规律性较差。本发明比照常用的人体16个关节点的表示方式，提取m＝15个聚类特征点以表征不同的人体姿态。

步骤1.2、人体动作序列特征向量的计算

分为以下几个步骤：

f(t)＝φ(t)＝{θ₁(t),θ₂(t),…,θ_m(t)}，t∈{1,2,...,n} (2)

其中θ_i(t)＝(x_i(t),y_i(t),z_i(t))，i∈{1,2,...,m}，θ_i(t)表示f(t)的第i个人体特征点的3D坐标信息,m表示特征点的数量。

本发明通过计算当前第t帧与第一帧的特征点位置偏移信息获取动作序列的全局偏移信息：

f_i1＝θ_i(t)-θ_i (1)

f_i2＝θ_i(t)-θ_i(t-Δt)

如图6所示，其中Δt是一个时间间隔，它可以平衡偏移量的精度和噪声鲁棒性的能力。Δt值越大，那么噪声的鲁棒性就更好，但是计算精度就会降低，反之，鲁棒性则较差，精度会更高。该值根据不同动作序列数据库的实际情况而定。

f₁(t)＝[f₁₁(t),f₂₁(t),...,f_m1(t)]

f₂(t)＝[f₁₂(t),f₂₂(t),...,f_m2(t)]

步骤1.2.2、视频对应的动作序列特征向量的获取：假设每个训练视频所有人体特征点已经用一组偏移信息表示。收集到的所有视频的每个特征点的全局偏移向量用R₁表示，即

其中对应的是第j个训练视频的第i个特征点的第t帧。收集到的所有视频的每个特征点的局部偏移向量用R₂表示，即

其中

对应的是第j个训练视频的第i个特征点的第t帧。设R＝R₁∪R₂。之后使用K-means算法对R进行聚类形成码本{b_k}，k＝1,2,....,K，每一个码字就是每一个聚类的中心，这里采用欧氏距离的聚类度量方法。

设每一个训练视频F＝{f(t)}，t＝1,2,...,n。n表示的是帧数。在每一帧f(t)每一个人体特征点i的全局偏移向量f_1i(t)或者局部偏移向量f_2i(t)都会在码本{b_k}中找到欧氏距离最短的码字，即

因此，F中每一个特征点i运动也就是视频中特征点i的所有位置偏移量f_1i(t)和f_2i(t)。每个特征点的位置偏移量可以进一步通过一个直方图h_i来表示，该直方图是一个关于每个码字频率的直方图，由

和组成，其中

来表示第i个特征点的全局偏移量直方图,

表示第i个特征点的局部偏移量直方图,即

其中#{}是一个记分函数。最后F就可以用一组所有特征点的直方图来表示，即F＝{h_i}，i＝1,2,...,m,其中h_i对应的是第i个特征点的直方图，如图7所示。

步骤2中使用朴素贝叶斯最近邻分类方法(Native Bayes Nearest NeighborClassifierNBNN)进行动作分类：已知一组特征点直方图表示的视频序列F＝{h_i}，i＝1,2,...,m，其中m是特征点的数量，一般情况下很容易将这一组直方图结合起来成为一个直方图进行分类。这样就会失去人体特征点空间的独立性。人体特征点的空间信息在辨别不同的行为时可以提供额外的线索，所以要充分考虑人体特征点的独立性。

本发明选用基于NBNN图像分类的最初概念应用到基于NBNN视频分类，也就是行为识别，计算的是关节直方图-类别的距离而不是视频-类别的距离或者视频-视频的距离，如下所示：

其中

表示在第c类行为的第i个特征点中与h_i最近邻的直方图，即其中h′_i(c)表示行为类c中第i个特征点的直方图。

公式(7)即表示对于输入的测试视频序列，得到每一个特征点的直方图，然后统计m个特征点的直方图与训练视频每一类行为的直方图的差，具有最小差的对应行为类c^*，即被认为当前视频F所对应的行为类。

把上述方法已经应用到Kinect2获取的深度图像序列，取得了不错的实验结果。在实验中我们选用640×480的RGBD图像，采集环境为室内，采集光照为日光灯,采集了6个人，每个人7种动作，每个动作做两遍，总共84个视频序列，共计6343帧，其中动作分别包括抬手、挥手、蹲下、踢腿、弯腰、身体左右摇摆、身体前后摆动等。

进行实验时，对于每个动作选取用于训练集和测试集的比例为2:1，随机进行挑选，共进行了50次随机试验，得到的平均识别准确率为98.07％。同样的视频序列，在相同实验条件下，即进行同样次数实验，训练集和测试集的比例相同，使用Lu等人的方法，得到的平均识别率为95.00％。采用Microsoft Kinect提供的关节点使用本发明的方法进行动作识别分类，得到的平均识别率为96.43％，可见基于部位的聚类特征点作为动作识别分类依据的有效性。

如图8、9、10、11所示和表1给出了本发明的方法与Lu等人的方法和基于Kinect提供的关节点使用本方法进行动作识别分类的不同结果比较示意图，可以看出本发明提出的方法在大部分动作下有着很高的识别率。

综上所述，本发明提出的基于人体分部位聚类特征的人体动作识别分类方法经过验证，能够取得很理想的分类结果。

表1不同情况下的识别精度与识别结果表

Claims

1.一种基于部位聚类特征的人体行为识别方法，其特征在于，包括：

步骤2、在测试阶段，对一个测试视频，首先通过上述训练阶段构成的码本建立直方图，之后通过朴素贝叶斯最近邻分类方法比较测试阶段直方图与训练阶段的直方图的差异进行行为识别；

所述步骤1包括以下步骤：

步骤1.1、人体姿态特征点提取，包括以下步骤

其中Ω_i′，i′＝0，...，5表示分类的六个人体块，它们对应头部、左手臂、右手臂、左腿部、右腿部，躯干部；v表示人体中某一个像素点，e^i′表示第i′个肢端点，即左手右手或者左脚右脚，当i′＝0时，e^i′代表人体的中心点，||v-e^i’||_geod表示像素v到肢端点e^i’的测地距离

步骤1.1.2、使用了基于K-means的区域聚类算法提取人体的分部位特征点，即在上述得到人体肢端点部位块中进行聚类，根据人体的关节点的表示方式，提取聚类特征点以表征不同的人体姿态；

步骤1.2、人体动作序列特征向量的计算

分为以下几个步骤：

f(t)＝φ(t)＝{θ₁(t),θ₂(t),…,θ_m(t)}，t∈{1,2,…,n}

其中θ_i(t)＝(x_i(t),y_i(t),z_i(t))，i∈{1,2,…,m}，θ_i(t)表示f(t)的第i个人体特征点的3D坐标信息,m表示特征点的数量；

f_i1＝θ_i(t)-θ_i(1)

f_i2＝θ_i(t)-θ_i(t-Δt)

其中，Δt是一个时间间隔；

f₁(t)＝[f₁₁(t),f₂₁(t),...,f_m1(t)]

f₂(t)＝[f₁₂(t),f₂₂(t),...,f_m2(t)]

步骤1.2.2、视频对应的动作序列特征向量的获取

假设每个训练视频所有人体特征点已经用一组偏移信息表示，收集到的所有视频的每个特征点的全局偏移向量用R₁表示，即

其中

其中

对应的是第j个训练视频的第i个特征点的第t帧，设R＝R₁∪R₂，之后使用K-means算法对R进行聚类形成码本{b_i}，其中采用欧氏距离的聚类度量方法，每一个码字就是K个聚类的中心,也就是{b_k}，k＝1,2,....,K；

因此，F中每一个特征点i运动也就是视频中特征点i的所有位置偏移量f_1i(t)和f_2i(t)，每个特征点的位置偏移量可以进一步通过一个直方图h_i来表示，该直方图是一个关于每个码字频率的直方图，由和组成，其中

来表示第i个特征点的全局偏移量直方图,

表示第i个特征点的局部偏移量直方图,即

其中#{}是一个记分函数，最后F就可以用一组所有特征点的直方图来表示，即F＝{h_i}，i＝1,2,...,m,其中h_i对应的是第i个特征点的直方图。

2.如权利要求1所述的基于部位聚类特征的人体行为识别方法，其特征在于，步骤2中使用朴素贝叶斯最近邻分类方法(Native Bayes Nearest Neighbor Classifier NBNN)进行动作分类：已知一组特征点直方图表示的视频序列F＝{h_i}，i＝1,2,...,m，其中m是特征点的数量；

其中