CN103473530A

CN103473530A - 基于多视图和多模态特征的自适应动作识别方法

Info

Publication number: CN103473530A
Application number: CN2013103866069A
Authority: CN
Inventors: 高赞; 张桦; 徐光平; 薛彦兵; 申晓霞; 宋健明
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2013-12-25
Anticipated expiration: 2033-08-30
Also published as: CN103473530B

Abstract

一种基于多视图和多模态特征的自适应动作识别方法。具体包括：视频预处理；目标运动变化过程多视图描述；等级金字塔特征提取；多视图深度和RGB模型构建；多视图模型选择，推断及多模态特征结果融合。本发明首先针对可见光图像动作识别常遇到的光照变化和阴影等困难，提出基于多视图和多模态特征进行动作识别；其次本发明针对单一视图的局限性，提出了目标运动变化过程多视图描述，它能够比较全面的捕获深度和RGB图像序列中目标的变化过程；再次本发明公开的等级金字塔特征既有空间分辨能力也有细节描述能力，具有非常好的鲁棒性和区分性；最后，根据环境光线的变化情况，自适应的进行多模态特征的融合，进一步提高动作识别方法的性能和稳定性。

Description

基于多视图和多模态特征的自适应动作识别方法

技术领域

本发明属于计算机视觉和模式识别技术领域，设计了一种基于多视图和多模态特征的自适应动作识别方法，解决利用可见光图像进行动作识别的困难，并提高动作识别的准确性和鲁棒性，可以用于对监控视频中人体目标的动作识别，实现对监控视频的智能化管理。

背景技术

随着计算机技术和信息技术的发展，对基于视频的人体动作分析的需求越来越迫切，在诸如智能监控、家居安全、智能机器人、运动员辅助训练等***中，动作分析起到了越来越重要的作用。然而早期的人体动作识别大多是利用普通的RGB图像序列进行动作分析，这样会受到光照、阴影、色度、环境变化等因素的干扰。

利用深度图像进行人体动作识别是近年来兴起的技术。这主要得益于深度图摄像机的成本降低，特别是微软推出 Kinect设备。与可见光图像不同，深度图像像素值仅与物体空间位置有关，不会受光照、阴影、色度、环境变化等因素的干扰，能够有效地突破可见光图像识别遇到的问题和瓶颈。在一定的空间范围内，深度图像可以用来进行 3D 空间中的动作识别，代替可见光摄像机的双目视觉。因为人体运动分析在高级人机交互、视频会议、安全监控、医疗诊断、基于内容的图像存储和检索等方面，具有潜在的经济价值和广泛的应用前景，因此利用深度图像进行动作分析得到国内外广大机器视觉研究者们的关注。

在计算机视觉和模式识别相关研究领域中，提高人体动作识别的准确性和稳定性一直是最活跃的研究问题之一，并且能够设计出一种鲁棒的动作描述法也是一个重点和难点。由于利用可见光图像会受到光照、阴影、色度、环境变化等因素的干扰，在识别目标的动作时，基于可见光的方法常常失败，当光线发生较大变化时，例如，夜晚，其性能将急剧下降。因此，近些年利用深度图像进行动作识别成为该领域主流方法，但是由于目标差异较大，同时，即使相同目标的动作也存在差异，这给人体动作识别带来了很大困难。

发明内容

本发明的目的是解决基于可见光的动作识别方法识别性能不稳定，当光线发生较大变化时，例如，夜晚，其性能将急剧下降的问题，同时，由于观察视角的不同，从某个观察视角，不能全面的捕获目标运动历史变化过程，因此，本发明提出一种基于多视图和多模态特征的自适应动作识别方法，用于对视频监控中目标动作进行识别，以实现对监控视频的智能分析。

本发明提供的基于多视图和多模态特征的自适应动作识别方法，克服了现有技术的不足并提高了动作识别的准确性，能够很好的应用于现实生活中。该方法具体包含以下步骤：

第1、视频预处理

预处理包括对输入的深度图像和RGB图像序列滤波去噪，同时，通过Kinect设备的红外装置，可以测出目标与摄像头的近似距离，在该距离值的基础上，增加0.5米获得对应的大阈值，减去1米获得对应的小阈值。当某像素的深度值大于大阈值或小于小阈值时，将该像素标记为0，否则标记为1，这样，能够移除背景对目标的干扰；

第2、目标运动变化过程多视图描述

由于环境光线的变化，将对RGB图像序列有较大的影响，同时，由于观察视角的不同，从某个观察视角，不能全面地捕获目标运动历史变化过程，因此，提出了基于RGB图像和深度图像的多视图目标运动历史变化过程，捕获目标的运动变化，即：

（1）捕获深度视频序列人体变化过程，获得对应的多视图深度运动历史图像；

（2）捕获RGB视频序列人体运动变化过程，获得对应的深度限制RGB图的多视图运动历史图像；

第3、等级金字塔特征提取

在第2步获得的多视图深度运动历史图像和深度限制RGB图的多视图运动历史图像的基础上，分别寻找图像中非零像素，从而获得对应的人体历史运动的矩形区域，并在该区域内，提取等级金字塔特征描述对应的人体动作，其中人体动作包括：(1) 弯腰鞠躬，(2) 原地起跳且手抬起，(3) 跳远，(4) 单手挥手，(5) 原地跳起手不动，(6)跑步，(7)侧移， (8)单脚走路，(9) 双手挥手，(10) 双脚走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)网球、羽毛球等发球，(15)高尔夫摇杆击球，(16) 拳击，(17) 太极云手。

第4、多视图深度模型构建和多视图RGB模型构建

网路中公共的动作数据集DHA中每个样本都包括RGB和深度图像序列，同时，该数据集被划分为训练数据集和测试数据集，按照第3步的方法，为DHA训练数据集中的每个样本分别提取深度图像序列和RGB图像序列上的多视图的等级金字塔特征，并将每个样本的不同视图的特征串联，然后，在训练数据集上，分别训练基于深度的多视图等级金字塔特征和基于RGB的多视图等级金字塔特征的支持向量机模型；

第5、多视图模型选择，模型推断以及多模态特征结果融合

在公共动作数据集DHA中测试数据集上，按照第3步的方法，提取深度和RGB运动历史图像上的多视图的等级金字塔特征，同时，计算RGB矩形区域内平均亮度，根据其光线的亮暗情况，自适应的选择已经训练好的模型。当环境光线较暗时，RGB图像序列非常模糊，无法进行动作识别，因此，采用基于深度的多视图等级金字塔特征的支持向量机模型，反之，则采用基于深度和RGB融合的多视图，多模态特征的支持向量机模型。即将测试样本中提取基于深度的多视图特征和基于RGB的多视图特征分别输入到模型中，模型将自动地对样本的动作类别进行判断，并给出对应的属于某个动作类别的概率，最后，融合多模态特征的结果。

本发明方法首先针对可见光图像动作识别常遇到的困难，例如，光照变化、阴影和遮挡等变化，引入基于深度图的动作识别方法，同时，针对观察视角的不同，从某个观察视角，不能全面的捕获目标运动历史变化过程，因此，本发明提出了目标运动变化过程多视图描述，它能够比较全面的捕获深度图像序列和RGB图像序列中人体动作的变化过程；再次本发明公开的等级金字塔特征既有空间分辨能力也有细节描述能力，且具有非常好的鲁棒性和区分性；最后、根据环境光线的变化情况，自适应的进行多模态特征的融合，进一步的提高动作识别方法的性能和稳定性。

本发明的优点和有益效果：

1）通过引入基于深度图像的动作识别方法，解决由于光照、阴影、色度、环境变化等因素带来的影响；2）本发明公开的目标运动变化过程多视图描述，能够比较全面的捕获深度图像序列和RGB图像序列中人体动作的变化过程，克服由于观察视角的不同，从某个观察视角，不能全面的捕获目标运动历史变化过程的困难；3）本发明公开的等级金字塔特征既具有空间分辨能力也具有细节描述能力，且具有很好的鲁棒性和区分性，很大程度上提高动作识别的准确性。4) 根据环境光线的变化情况，自适应的进行多模态特征的融合，进一步的提高动作识别方法的性能和稳定性。

附图说明

图1为本发明的流程图。

图2从左至右分别为“单手挥手”动作的(a)RGB图像和(b)深度图像。

图3从左至右分别为“高尔夫摇杆击球”动作的(a)RGB图像和(b)RGB图人体剪影图像。

图4 从左至右分别为基于深度图的“鞠躬”动作的(a)正视图，(b)俯视图和(c)左视图的运动历史过程。

图5 从左至右分别为基于RGB图的“单手挥”动作的(a)正视图，(b)俯视图和(c)左视图的运动历史过程。

图6 为“双手挥动”的正视图下等级金字塔特征的提取过程。

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例1

如图1所示，为本发明基于多视图和多模态特征的自适应动作识别方法的操作流程图，该方法的操作步骤包括：

步骤01视频预处理

对输入的深度图像和RGB图像序列滤波去噪，同时，通过Kinect设备的红外装置，可以测出目标与摄像头的大概距离，根据该距离值，加上0.5米获得大阈值，减去1米获得小阈值，例如，在本实施例中，目标与摄像头的距离大约为2米，则大阈值为2.5米，小阈值为1米。当某像素的深度值大于大阈值或小于小阈值时，将该像素标记为0，否则标记为1，这样，可以移除背景对目标的干扰；其结果如图2（a)和（b）所示。具体定义为：

Figure 2013103866069100002DEST_PATH_IMAGE002

(1)

其中

Figure 2013103866069100002DEST_PATH_IMAGE004

代表深度图像中像素的深度值，

代表两个不同的阈值，且

，实施例中，

= 2.5，

=1。其中图像去噪采用均值滤波方法。

步骤02目标运动历史变化过程多视图描述

（1）深度运动过程多视图描述：

任意长度的N帧视频，例如N=23、31、54，由于观察视角的不同，从某个观察视角，不能全面的捕获目标运动历史变化过程，因此，本发明提出了基于多视图的目标运动历史变化过程，具体包括正视图、俯视图和左视图的目标运动历史变化过程。下面依次介绍不同视图的目标运动历史变化过程：

(a) 正视图下的目标运动历史变化过程

为了描述连续运动序列的深度变化过程，针对每个非零像素，计算N帧中该像素位置的最大值和最小值，获得对应的最大值和最小值图像，将这两幅图像做差，并取绝对值，获得对应的正视图下的目标运动历史变化过程，其效果图如图3（a）所示，具体定义如下所示：

(2)

(3)

(4)

其中表示帧

在像素位置

的深度值，

代表N帧中每个非零像素位置的最大值，

代表N帧中每个非零像素位置的最小值，

代表N帧的深度差值运动历史图像。

(b) 俯视图下的目标运动历史变化过程

假设存在N帧运动图像序列，图像的分辨率为m*n。首先，计算N帧运动图像序列的相邻两帧的帧差，并取绝对值，这样，可以获得N-1帧图像序列，其次，针对每幅帧差图像的每列，分别计算当前列所有像素值的和，因此，每幅帧差图像变成了1*n的向量，再次，依次对N-1帧图像序列分别处理，并将这些1*n的向量累积，变成了(N-1)*n的图像，该图像被称为俯视图下的目标运动历史变成过程，其效果图如图3(b)所示，具体定义如下所示：

(5)

(6)

其中

表示帧

在像素位置的深度值，B是对应的深度帧差图像，表示针对每幅帧差图像的每列，分别计算当前列所有像素值的和所形成的1*n的向量。

(c)左视图下的目标运动历史变化过程

同理，假设存在N帧运动图像序列，图像的分辨率为m*n。首先，计算N帧运动图像序列的相邻两帧的帧差，并取绝对值，这样，可以获得N-1帧图像序列，其次，针对每幅帧差图像的每行，分别计算当前行所有像素值的和，因此，每幅帧差图像变成了m*1的向量，再次，依次对N-1帧图像序列分别处理，并将这些m*1的向量累积，变成了m*(N-1)的图像，该图像被称为左视图下的目标运动历史变成过程，其效果图如图4(c)所示，具体定义如下所示：

B(i,j,t)=D(i,j,t+1)-D(i,j,t),t∈[1...N-1] (7)

D_{L} (i, 1, t) = \underset{i}{Σ} B (i, j, t), t &Element; [1 . . . N - 1] - - - (8)

其中D(i,j,t)表示帧t在像素位置(i,j)的深度值，B表示对应的深度帧差图像，D_T表示针对每幅帧差图像的每行，分别计算当前行所有像素值的和所形成的m*1的向量。

（2）RGB图像运动过程多视图描述：正如步骤01所述，在深度图中根据距离比较容易将前景与背景分开，因此，首先，在捕获RGB图像运动变化过程之前，使用去除背景的深度图对RGB图像进行过滤，从而获得RGB图像中人体的大致区域（如图3（b）所示），这样就去除了RGB图像的背景，防止了差值运动历史图受背景的干扰；

(9)

其中

代表t帧RGB图像在像素位置为的亮度值，

表示帧

在像素位置

的深度值。在此基础上，按照深度运动过程多视图描述方法，获得对应的RGB图下的正视图、俯视图和左视图的目标运动历史变化过程。由于过程和深度图的多视图运动历史变化过程一样，所以就不依次赘述了。

步骤03等级金字塔特征提取

在步骤02中获得的不同模态的多视图运动历史图像的基础上，首先遍历搜索该图像的非零像素从而找到包含人体剪影的矩形框，其次，由于梯度方向直方图(Histogram of Orientated Gradients，HOG)是描述人体形状信息的一种有效方法。HOG特征通过提取局部区域的边缘或梯度的分布，可以很好地表征局部区域内目标的边缘或梯度结构，进而表征人体的形状。实际上，在HOG特征中，虽然考虑到图像空间位置的分布，但没有考虑到图像不同空间尺度划分表示对分类性能的影响，基于此，本文提出使用塔式梯度方向直方图(Pyramid Histogram of Orientated Gradients ，PHOG)作为人体动作的描述子，它不仅描述了人体动作的形状信息，而且还描述了人体动作的空间信息，形状信息和空间信息对动作识别都是非常有帮助的。因此，在该矩形区域内，提取等级金字塔特征，具体包括以下步骤：

a) 不同模态的多视图运动历史图像的边缘信息。采用Canny 边缘检测提取人体图像的边缘轮廓用于描述形状。

b）对不同模态的多视图运动历史图像进行若干层级的金字塔分割，如图6所示。在本发明中，将图像分成四层，第一层是整个图像；第二层是将整个图像均分为四个子区域；而第三层和第四层都是将前一层中的子区域再进一步均分成更小的四个子区域，可见后一层子区域只是前一层区域的1/4大小。

c）在每个层次级别上提取子区域的梯度方向直方图（HOG）特征，在提取子区域的HOG特征时，本发明中梯度方向取值范围为[0, 360]度，图像梯度方向直方图分成K=20个部分，统计梯度方向处于各区间内的像素点个数，并在各区间上累加各像素点梯度幅值作为该区间的权值，并表示到梯度方向直方图中。

d）将得到的各个层级的HOG特征级联在一起就获得最终的PHOG特征。本发明中采用四层结构，并且K=20，所以本发明中的单一视图的PHOG特征一共是

维。其具体过程如图6所示，同时，HOG和PHOG依次参考如下文献：

(HOG) N. Dalal, B. Triggs. Histograms of oriented gradients for human detection[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005, 1: 886- 893.

(PHOG) A. Bosch, A. Zisserman, X. Munoz. Representing Shape with a Spatial Pyramid Kernel[C]. Proc of the 6th ACM International Conference on Image and Video Retrieval, Amsterdam, Netherlands, 2007, page(s): 401-408.

步骤04多视图深度模型构建和多视图RGB模型构建

SVM是Vapnik等人提出的以结构风险最小化理论（Structural Risk Minimization, SRM）为核心的一种统计学***面，尽可能地将两类样本正确分开，同时使正负样本集的分类间隔最大，最终获得最佳推广性能。本发明在DHA动作训练数据集上，分别训练基于深度的多视图等级金字塔特征的支持向量机模型、基于RGB的多视图等级金字塔特征的支持向量机模型。在训练模型的过程中，使用LIBSVM工具箱来训练模型，并找到最优的模型参数，其具体方法见参考文献：LIBSVM: www.csie.ntu.edu.tw/～cjlin/Lib-svm/。

步骤05 多视图模型选择，模型推断以及多模态特征结果融合

由于实际情况中环境光线常常发生变化，当光线暗淡时，RGB图像将非常暗，对应的目标非常模糊，这将导致基于常见光的算法性能急剧下降，因此，在本发明中，根据RGB图像中矩形区域中的亮度平均值，确定所需的模型，当平均亮度值过小时，则直接采用基于深度的多视图等级金字塔特征的支持向量机模型，否则采用基于多视图和多模态特征的支持向量机模型，其具体定义如下：

(10)

(11)

(12)

其中，

代表RGB的亮度图像，

分别代表图像的宽度和高度，

表示当前RGB图像的平均亮度，

表示模型选择的阈值，

表示基于深度的多视图等级金字塔特征的模型，

表示同时选择基于深度和RGB的多视图，多模态特征的支持向量机模型，在实施例中，

=80。

表示基于深度的多视图等级金字塔特征的预测某样本为动作类别a时，其对应的概率，

表示基于RGB的多视图等级金字塔特征的预测某样本为动作类别a时，其对应的概率，

表示在预测预测某样本为动作类别a时，自适应融合多模态特征结果后其对应的概率。

当图像平均亮度较小时，RGB图像中目标非常模糊，其对应的运动历史直方图也较模糊，无法进行动作识别，因此，此时自适应的选择基于深度的多模态支持向量机模型。同时，由于RGB信息和深度数据之间存在一定的互补特性，当它们融合时，能够进一步的提高算法的性能，因此，当光线比较亮时，选择基于深度和RGB的多视图，多模态特征的支持向量机模型，即将测试样本中提取基于深度的多视图特征和基于RGB的多视图特征分别输入到模型中，模型将自动地对样本的动作类别进行判断，并给出对应的属于某个动作类别的概率，最后，根据公式(12)融合多模态特征的结果。

在测试过程中，针对每个测试样本，首先按照步骤03特征提取过程，提取多模态，多视图的等级金字塔特征，并将对应的特征输入到已经选择的模型中，支持向量机模型将自动对样本（在DHA数据集上，包括17个动作类别，每个动作由21个不同的人录制（12个男的9个女的），每个人做一次，总共是357*2个视频序列，动作类别具体为(1) 弯腰鞠躬，(2) 原地起跳且手抬起，(3) 跳远，(4) 单手挥手，(5) 原地跳起手不动，(6)跑步，(7)侧移， (8)单脚走路，(9) 双手挥手， (10) 双脚走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)网球、羽毛球等发球，(15)高尔夫摇杆击球，(16) 拳击，(17) 太极云手）进行分类，给出对应的动作类别标签。

为了说明本发明中多视图的有效性，首先在公共的MSR Action3D[Li et.al 2010]深度动作数据集上进行了多视图效果的评测，在该数据集中，包括20个动作，它们分别是：1）单手举高挥舞胳膊，2）单手水平挥舞胳膊，3）敲打，4）抓手，5）冲拳，6）高抛，7）画x，8）画对号，9）画圆，10）鼓掌，11）双手挥舞，12）侧面打拳，13）鞠躬，14）向前踢腿，15）侧面踢腿，16）慢跑，17）打网球，18）网球发球，19）打高尔夫球，20）捡起东西，并扔掉。其中10个人做以上动作，并重复三次动作。为了评估的公平，公正性，本发明中严格按照文献( Li et al. 2010)的实验设置进行评估，同时，为了说明本发明的优越性，还与当前最具代表性的方法[1-2]进行了比较，其实验结果如表1所示。

从表1可以看出本发明的基于深度的多视图等级金字塔特征的动作识别方法具有较好的优越性和稳定性。

[1.] W. Li, Z. Zhang, and Z. Liu. Action recognition based on a bag of 3D points[C]. In Human Communicative Behavior Analysis Workshop (in conjunction with CVPR), 2010, page(s): 9 - 14.

[2.] X. Yang, and Y. Tian. EigenJoints-based Action Recognition Using Na?ve-Bayes-Nearest-Neighbor[C]. IEEE Workshop on CVPR. 2012, page(s): 14 -19。

表1

为了进一步的说明本发明的有效性，在公共的、具有挑战性的动作识别DHA数据集上进行了评测，同时，由于等分法存在一定的巧合性，因此，本发明使用留一法进行模型性能评估。具体过程为：将全部样本按人（例如：共21个人）分成21份，首先取出其中一份，用剩下的20份作为训练集来生成预测模型，并采用该预留的样本评测模型性能，紧接着再把取出的那份样本放回原来的样本集中，取出另一份作为测试集，剩下样本构成训练集，构建预测模型，并用预留的这份样本验证模型的性能……，重复21次以上实验，计算21次的平均性能，并以此结果作为本发明的性能评价。

通过在DHA数据集的试验结果表明，当仅使用单一视图的深度数据或RGB数据时，其性能大约在92%，而基于本发明提出的基于深度的多视图等级金字塔特征和基于RGB的多视图等级金字塔特征的性能分别为95%和95.6%，而当采用本文提出的基于深度和RGB图的多视图，多模态特征的自适应动作识别方法时，其性能更是达到98.2%，进一步提高了算法的性能，其性能比当前的the-state-of-the-art算法( Lin 等 2012)的准确率提高了11.2%。DHA数据集具体见参考文献 Yan-Ching Lin, Min-Chun Hua, Wen-Huang Cheng, Yung-Huan Hsieh, Hong-Ming Chen, Human Action Recognition and Retrieval Using Sole Depth Information, ACM MM 2012。

综上所述，本发明的提出的基于多视图和多模态特征的自适应动作识别方法，具有较好的优越性和稳定性，比当前的the-state-of-the-art方法都有一定的提高。

Claims

1.一种基于多视图和多模态特征的自适应动作识别方法，该方法具体包含以下步骤：

第1、视频预处理

预处理包括对输入的深度图像和RGB图像序列滤波去噪，同时，通过Kinect设备的红外装置，测出目标与摄像头的近似距离，在该距离值的基础上，增加0.5米获得对应的大阈值，减去1米获得对应的小阈值；当某像素的深度值大于大阈值或小于小阈值时，将该像素标记为0，否则标记为1，这样，能够移除背景对目标的干扰；

第2、目标运动变化过程多视图描述

第3、等级金字塔特征提取

在第2步获得的多视图深度运动历史图像和深度限制RGB图的多视图运动历史图像的基础上，分别寻找图像中非零像素，从而获得对应的人体历史运动的矩形区域，并在该区域内，提取等级金字塔特征描述对应的人体动作，其中人体动作包括：(1) 弯腰鞠躬，(2) 原地起跳且手抬起，(3) 跳远，(4) 单手挥手，(5) 原地跳起手不动，(6)跑步，(7)侧移， (8)单脚走路，(9) 双手挥手，(10) 双脚走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)网球、羽毛球等发球，(15)高尔夫摇杆击球，(16) 拳击，(17) 太极云手；

第4、多视图深度模型构建和多视图RGB模型构建

网络中公开的动作数据集DHA中每个样本都包括RGB和深度图像序列，同时，该数据集被划分为训练数据集和测试数据集，按照第3步的方法，为DHA训练数据集中的每个样本分别提取深度图像序列和RGB图像序列上的多视图的等级金字塔特征，并将每个样本的不同视图的特征串联，然后，在训练数据集上，分别训练基于深度的多视图等级金字塔特征和基于RGB的多视图等级金字塔特征的支持向量机模型；

第5、多视图模型选择，模型推断以及多模态特征结果融合

在公共动作数据集DHA中测试数据集上，按照第3步的方法，提取深度和RGB运动历史图像上的多视图的等级金字塔特征，同时，计算RGB矩形区域内平均亮度，根据光线的亮暗情况，自适应的选择已经训练好的模型；当环境光线较暗时，RGB图像序列非常模糊，无法进行动作识别，因此，采用基于深度的多视图等级金字塔特征的支持向量机模型，反之，则采用基于深度和RGB融合的多视图，多模态特征的支持向量机模型，即将测试样本中提取基于深度的多视图特征和基于RGB的多视图特征分别输入到模型中，模型将自动地对样本的动作类别进行判断，并给出对应的属于某个动作类别的概率，最后，融合多模态特征的结果。

2.根据权利要求1所述的方法，其特征在于该方法首先针对可见光图像动作识别常遇到的光照变化、阴影和遮挡困难，引入基于深度图的动作识别方法，同时，针对观察视角的不同，从某个观察视角，不能全面的捕获目标运动历史变化过程，因此，本发明提出了目标运动变化过程多视图描述，它能够比较全面的捕获深度和RGB图像序列中人体动作的变化过程；再次本发明公开的等级金字塔特征既有空间分辨能力也有细节描述能力，且具有非常好的鲁棒性和区分性；最后、根据环境光线的变化情况，自适应的进行多模态特征的融合，进一步的提高动作识别方法的性能和稳定性。