CN103295016B

CN103295016B - 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法

Info

Publication number: CN103295016B
Application number: CN201310259191.9A
Authority: CN
Inventors: 高赞; 申晓霞; 张桦; 薛彦兵; 徐光平
Original assignee: Tianjin University of Technology
Current assignee: Beijing Azuaba Technology Co.,Ltd.
Priority date: 2013-06-26
Filing date: 2013-06-26
Publication date: 2017-04-12
Anticipated expiration: 2033-06-26
Also published as: CN103295016A

Abstract

一种基于深度与RGB信息和多尺度多方向等级层次特征的行为识别方法。具体包含以下步骤：视频预处理；目标运动变化过程描述；多尺度多方向等级层次特征提取；模型构建；模型选择和推断。本发明首先利用深度图像进行行为识别能够克服可见光图像行为识别常遇到的困难，如光照变化、阴影、物体遮挡等因素的干扰；其次本发明提出的深度差值运动历史图像和深度限制RGB图差值运动历史图像能很好捕获深度图像序列和RGB图像序列中人体行为的变化过程；再次本发明公开的多尺度多方向等级层次特征既有空间分辨能力也有细节描述能力，且具有很好的鲁棒性和区分性；最后、根据光线的亮暗，可自主选择模型，进一步提高了行为识别算法的适应性。

Description

基于深度与RGB信息和多尺度多方向等级层次特征的行为识别方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种基于深度与RGB信息和多尺度多方向等级层次特征的行为识别方法，解决利用可见光图像进行行为识别的困难，并提高行为识别的准确性和鲁棒性，可以用于对监控视频中人体目标的行为识别，实现对监控视频的智能化管理。

背景技术

随着计算机技术和信息技术的发展，对基于视频的人体行为分析的需求越来越迫切，在诸如智能监控、家居安全、智能机器人、运动员辅助训练等***中，行为分析起到了越来越重要的作用。然而早期的人体行为识别大多是利用普通的RGB图像序列进行行为分析，这样会受到光照、阴影、色度、环境变化等因素的干扰。

利用深度图像进行人体行为识别是近年来兴起的技术。这主要得益于深度图摄像机的成本降低，特别是微软推出 Kinect设备。与可见光图像不同，深度图像像素值仅与物体空间位置有关，不会受光照、阴影、色度、环境变化等因素的干扰，能够有效地突破可见光图像识别遇到的问题和瓶颈。在一定的空间范围内，深度图像可以用来进行 3D 空间中的行为识别，代替可见光摄像机的双目视觉。因为人体运动分析在高级人机交互、视频会议、安全监控、医疗诊断、基于内容的图像存储和检索等方面，具有潜在的经济价值和广泛的应用前景，因此利用深度图像进行行为分析得到国内外广大机器视觉研究者们的关注。

在计算机视觉和模式识别相关研究领域中，提高人体行为识别的准确性和稳定性一直是最活跃的研究问题之一，并且能够设计出一种鲁棒的行为描述法也是一个重点和难点。由于利用可见光图像会受到光照、阴影、色度、环境变化等因素的干扰，在识别目标的行为时，基于可见光的方法常常失败，当光线发生较大变化时，例如，夜晚，其性能将急剧下降。因此，近些年利用深度图像进行行为识别成为该领域主流方法，但是由于目标差异较大，同时，即使相同目标的行为也存在差异，这给人体行为识别带来了很大困难。

发明内容

本发明的目的是解决基于可见光的行为识别方法识别性能不稳定，当光线发生较大变化时，例如，夜晚，其性能将急剧下降的问题，提出了一种基于深度与RGB信息和多尺度多方向等级层次特征的行为识别方法，用于对视频监控中目标行为进行识别，以实现对监控视频的智能分析。

本发明提供的基于深度与RGB信息和多尺度多方向等级层次特征的行为识别方法，克服了现有技术的不足并提高了行为识别的准确性，能够很好的应用于现实生活中。该方法具体包含以下步骤：

第1、视频预处理

预处理包括对输入的深度和RGB图像序列滤波去噪，同时，根据目标距离信息设置阈值，当某像素的深度值大于该阈值时，将该像素标记为0，否则标记为1，这样，可以移除背景对目标的干扰；

第2、运动变化过程描述

（1）捕获深度视频序列人体变化过程，获得深度差值运动历史图像；

（2）捕获RGB视频序列人体运动变化过程，获得深度限制RGB图差值运动历史图像；

第3、多尺度多方向等级层次特征提取

在第2步获得的深度差值运动历史图像和深度限制RGB图差值运动历史图像的基础上，分别寻找图像中非零像素，从而获得对应的人体历史运动的矩形区域，并在该区域内，提取多尺度多方向的等级层次特征描述对应的人体行为；

第4、不同模型构建

在公共行为数据集DHA上（每个样本都包括RGB和深度图像序列，同时，该数据集被划分为训练数据集和测试数据集），按照第3步的方法，为训练数据集中的每个样本分别提取深度图像序列和RGB图像序列上的多尺度多方向的等级层次特征，然后，在训练数据集上分别训练基于深度的多尺度多方向的等级层次特征和基于深度、RGB融合的多尺度多方向的等级层次特征的支持向量机模型；

第5、模型选择和推断

在公共行为数据集DHA中测试数据集上，按照第3步的方法，提取深度和RGB运动历史图像上的多尺度多方向的等级层次特征，同时，计算RGB矩形区域内平均亮度，根据其光线的亮暗情况，选择不同的、已训练好的模型，当光线较暗时，采用基于深度的多尺度多方向的等级层次特征的支持向量机模型，反之，则采用深度、RGB融合的多尺度多方向的等级层次特征的支持向量机模型，将测试样本中提取的特征输入到选择的模型中，模型将自动地对样本的行为类别进行判断。

本发明第3步所述的人体行为包括17个行为类别，具体为(1) 弯腰鞠躬，(2) 原地起跳且手抬起， (3) 跳远，(4) 单手挥手，(5) 原地跳起手不动，(6)跑步，(7)侧移， (8)单脚走路，(9) 双手挥手， (10) 双脚走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)网球、羽毛球等发球，(15)高尔夫摇杆击球，(16) 拳击， (17) 太极云手。

本发明方法通过利用深度图解决由于光照变化、阴影、物体遮挡以及环境变化因素带来的难题，同时提出的深度差值运动历史图像和深度限制RGB图差值运动历史图像能够很好地捕获运动变化过程，对后续的识别工作有很大帮助，其次多尺度多方向等级层次特征提高了行为识别率，最后，根据光线的亮暗，能够自主的选择模型，进一步提高了行为识别方法的适应性。

本发明的优点和有益效果：

1）通过在深度图像上提取运动特征进行行为识别解决由于光照、阴影、色度、环境变化等因素带来的影响；2）在深度图中根据目标距离比较容易将前景与背景分开，将深度图与RGB图相与能够获得人体剪影的大概区域，这也解决了利用RGB图像进行识别时难以将人体分割出来的困难；3）本发明公开的多尺度多方向的等级层次特征既具有空间分辨能力也具有细节描述能力，且具有很好的鲁棒性和区分性，很大程度上提高行为识别的准确性。4) 根据光线的亮暗，可以自主的选择模型，进一步提高了行为识别算法的适应性。

附图说明

图1为本发明的流程图。

图2从左至右分别为“单手挥手”行为的RGB图像 (a)、深度图像(b)和深度差值运动历史图像 (c)。

图3从左至右分别为“高尔夫摇杆击球”行为的RGB图像(a)、RGB图人体剪影图像(b)和深度限制RGB图差值运动历史图像 (c）。

图4 为DDMHI_MSMD_HBM特征提取过程。

图5 为DLRDMHI_MSMD_HBM特征提取过程。

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例1

如图1所示，为本发明基于深度与RGB信息和多尺度多方向等级层次特征的行为识别方法的操作流程图，该方法的操作步骤包括：

步骤01视频预处理

对输入的深度和RGB图像序列滤波去噪，同时，通过Kinect设备的红外装置，可以测出目标与摄像头的大概距离，根据该距离值，加上0.5获得大阈值，减去1获得小阈值，例如，在实时例中，目标与摄像头的距离大约为2米，则大阈值为2.5米，小阈值为1米。当某像素的深度值大于大阈值或小于小阈值时，将该像素标记为0，否则标记为1，这样，可以移除背景对目标的干扰；其结果如图2（a)和（b）所示。具体定义为：

(1)

其中代表深度图像中像素的深度值，代表两个不同的阈值，且，实施例中，= 2.5， =1。其中图像去噪采用均值滤波方法。

步骤02运动历史变化过程描述

（1）深度图运动过程描述：针对任意长度的N帧视频，例如N=23、31、41、54，

为了描述连续运动序列的深度变化过程，针对每个非零像素，计算N帧中该像素位置的最大值和最小值，并将最大值和最小值做差，获得的图像被命名为深度差值运动历史图像（Depth Difference Motion History Image，简称DDMHI）。如图2（c），展示了N帧“单手挥手”行为的深度差值运动历史图像。具体定义如下所示：

(2)

(3)

(4)

其中表示帧在像素位置的深度值，代表N帧中每个非零像素位置的最大值，代表N帧中每个非零像素位置的最小值，代表N帧的深度差值运动历史图像。

（2）RGB图像运动过程描述：正如步骤01所述，在深度图中根据距离比较容易将前景与背景分开，因此，首先，在捕获RGB图像运动变化过程之前，使用去除背景的深度图对RGB图像进行过滤，从而获得RGB图像中人体的大致区域（如图3（b）所示），这样就去除了RGB图像的背景，防止了差值运动历史图受背景的干扰；其次，针对每个非零像素，计算N帧中该像素位置的最大值和最小值，并将最大值和最小值做差，获得的图像被命名为深度限制RGB图差值运动历史图像（Depth Limit RGB Difference Motion History Image，简称DLRDMHI）。如图3（c）展示了N帧“高尔夫摇杆击球”行为的深度限制RGB图差值运动历史图像。具体定义如下：

(5)

(6)

(7)

(8)

其中代表t帧RGB图像在像素位置为的亮度值，表示帧在像素位置的深度值，I代表人体剪影RGB图像，代表N帧人体剪影RGB图像中每个非零像素位置的最大值，代表N帧人体剪影RGB图像中每个非零像素位置的最小值，代表N帧的深度限制RGB图差值运动历史图像。

步骤03多尺度多方向等级层次特征提取

在步骤02中获得的DDMHI和DLRDMHI运动历史图像的基础上，首先遍历搜索非零像素，从而找到包含人体剪影的矩形框；其次分别针对DDMHI和DLRDMHI运动历史图像提取多尺度多方向的等级层次特征，它们分别被命名为DDMHI_MSMD_HBM特征和DLRDMHI_MSMD_HBM特征。

提取DDMHI_MSMD_HBM特征，具体包括以下步骤：

1)首先利用不同方向和空间分辨率的 Gabor滤波器（式9）对DDMHI进行滤波，

得到滤波后的图像（式11），本发明使用4个尺度8个方向的滤波器对图像进行滤波，共得到4*8=32幅图像，具体如图4所示，其具体定义如下所示：

（9）

（10）

（11）

其中，为滤波器的尺度，K为正常数，为高斯函数的标准差，，i=1,2…,为尺度下的方向总数，为尺度，方向下的滤波器，为DDMHI，为图像在经过尺度，方向的滤波器滤波后的结果。具体见参考文献 J. Daugman, “Two-dimensional spectral analysis of cortical receptive field profiles”, VisionResearch, 20:847-856, 1980.

2)在滤波后的图像上通过等级层次方法将图像依次等比例划分为不同大小的块，

分别是8*8块、4*4块、2*2块、1*2块、2*1块，总共是88块（具体划分方法如图4所示），将每一小块的像素平均值作为特征，所有块的特征联合在一起构成一个滤波图像的特征向量；

3)最后，将4个尺度8个方向的滤波图像，共32幅图像的特征向量级联起来

作为最终的特征描述，一共是4*8*88=2816维；

4）对于DLRDMHI_MSMD_HBM特征提取算法和DDMHI_MSMD_HBM特征提取算法一样，重复以上过程，具体如图5所示；

5）考虑到深度特征和RGB特征的互补特性，将特征DLRDMHI_MSMD_HBM和特征DDMHI_MSMD_HBM串联，构建区分性更好的特征；

步骤04不同模型构建

SVM是Vapnik等人提出的以结构风险最小化理论（Structural RiskMinimization, SRM）为核心的一种统计学***面，尽可能地将两类样本正确分开，同时使正负样本集的分类间隔最大，最终获得最佳推广性能。本发明在DHA行为训练数据集上，分别训练基于深度的多尺度多方向的等级层次特征的支持向量机模型、基于深度与RGB融合的多尺度多方向的等级层次特征的支持向量机模型，在训练模型的过程中，使用LIBSVM工具箱来训练模型，并找到最优的模型参数，其具体方法见参考文献：LIBSVM: www.csie.ntu.edu.tw/∼cjlin/Lib-svm/。

步骤05 模型选择和模型推断

由于实际情况中环境光线常常发生变化，当光线暗淡时，RGB图像将非常暗，对应的目标非常模糊，这将导致算法的性能急剧下降，因此，在本发明中，根据RGB图像中矩形区域中的亮度平均值，确定所需的模型，当平均亮度值过小时，则直接采用基于深度的多尺度多方向的等级层次特征的支持向量机模型，否则采用基于深度与RGB融合的多尺度多方向的等级层次特征的支持向量机模型，其具体定义如下：

(12)

(13)

其中，代表RGB的亮度图像，分别代表图像的宽度和高度，表示当前RGB图像的平均亮度，表示模型选择的阈值，表示基于深度特征的模型，表示基于深度和RGB融合特征的模型，在实施例中，=80。当图像平均亮度较小时，RGB图像中目标非常模糊，其对应的运动历史直方图也较模糊，因此，此时选择基于深度特征的模型。同时，由于RGB信息和深度数据之间存在一定的互补特性，当它们融合时，能够进一步的提高算法的性能，因此，当光线比较亮时，选择基于深度和RGB融合特征的模型。

在测试过程中，针对每个测试样本，首先按照步骤03特征提取过程，提取DLRDMHI_MSMD_HBM和DDMHI_MSMD_HBM特征，并将对应的特征输入到已经选择的模型中，支持向量机模型将自动对样本的行为（在DHA数据集上，包括17个行为类别，每个行为由21个不同的人录制（12个男的9个女的），每个人做一次，总共是357*2个视频序列，行为类别具体为(1) 弯腰鞠躬，(2) 原地起跳且手抬起，(3) 跳远，(4) 单手挥手，(5) 原地跳起手不动，(6)跑步，(7)侧移， (8)单脚走路，(9) 双手挥手， (10) 双脚走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)网球、羽毛球等发球，(15)高尔夫摇杆击球，(16) 拳击，(17) 太极云手）进行分类，给出对应的行为类别标签。

为了进一步的说明本发明的有效性，在公共的、具有挑战性的行为识别DHA数据集上进行了评测，同时，由于等分法存在一定的巧合性，因此，本发明使用留一法进行模型性能评估。具体过程为：将全部样本按人（例如：共21个人）分成21份，首先取出其中一份，用剩下的20份作为训练集来生成预测模型，并采用该预留的样本评测模型性能，紧接着再把取出的那份样本放回原来的样本集中，取出另一份作为测试集，剩下样本构成训练集，构建预测模型，并用预留的这份样本验证模型的性能……，重复21次以上实验，计算21次的平均性能，并以此结果作为本发明的性能评价。

通过在DHA数据集的试验结果表明，当仅使用深度数据时，SVM线性核和RBF核的准确率都达到88%以上，而基于本发明提出的DLRDMHI_MSMD_HBM特征时，SVM线性核和RBF核的性能则都达到91%，而当深度和RGB特征融合时，此时算法性能达到93.5%，进一步提高了算法的性能，其性能比当前的the-state-of-the-art算法的准确率提高了6.5%。DHA数据集具体见参考文献 Yan-Ching Lin, Min-Chun Hua, Wen-Huang Cheng, Yung-Huan Hsieh,Hong-Ming Chen, Human Action Recognition and Retrieval Using Sole DepthInformation, ACM MM 2012。

Claims

1.一种基于深度与RGB信息和多尺度多方向等级层次特征的行为识别方法，该方法具体包含以下步骤：

第1、视频预处理

预处理包括对输入的深度和RGB图像序列滤波去噪，同时，通过Kinect设备的红外装置，可以测出目标与摄像头的大概距离，距离单位为米，根据该距离值，加上0.5米获得大阈值，减去1米获得小阈值；当某像素的深度值大于大阈值或小于小阈值时，将该像素标记为0，否则标记为1，这样，能够移除背景对目标的干扰；

第2、运动变化过程描述

(1)捕获深度视频序列人体变化过程，获得深度差值运动历史图像；

(2)捕获RGB视频序列人体运动变化过程，获得RGB差值运动历史图像；

第3、多尺度多方向等级层次特征提取

在第2步获得的深度差值运动历史图像和RGB差值运动历史图像的基础上，分别寻找图像中非零像素，从而获得对应的人体历史运动的矩形区域，并在该区域内，提取多尺度多方向的等级层次特征描述对应的人体行为；

第4、不同模型构建

公共行为数据集DHA中每个样本都包括RGB和深度图像序列，同时，该数据集被划分为训练数据集和测试数据集，按照第3步的方法，为DHA的训练数据集中的每个样本分别提取深度图像序列和RGB图像序列上的多尺度多方向的等级层次特征，然后，在训练数据集上分别训练基于深度的多尺度多方向的等级层次特征和基于深度、RGB融合的多尺度多方向的等级层次特征的支持向量机模型；

第5、模型选择和模型推断

在公共行为数据集DHA中测试数据集上，按照第3步的方法，提取深度和RGB差值运动历史图像上的多尺度多方向的等级层次特征，同时，计算RGB矩形区域内平均亮度，根据其光线的亮暗情况，选择不同的、已训练好的模型，即，当光线较暗时，平均亮度小于预先设定的阈值，因此，采用基于深度的多尺度多方向的等级层次特征的支持向量机模型，反之，则采用深度、RGB融合的多尺度多方向的等级层次特征的支持向量机模型，将测试样本中提取的特征输入到选择的模型中，模型将自动地对样本的行为类别进行判断。

2.根据权利要求1所述的方法，其特征在于该方法通过利用深度图解决由于光照变化、阴影、物体遮挡以及环境变化因素带来的难题，同时提出的深度差值运动历史图像和RGB差值运动历史图像能够很好地捕获运动变化过程，对后续的识别工作有很大帮助，其次多尺度多方向等级层次特征提高了行为识别率，最后，根据光线的亮暗，能够自主的选择模型，进一步提高了行为识别方法的适应性。

3.根据权利要求1所述的方法，其特征在于第3步所述的人体行为包括17个行为类别，具体为(1)弯腰鞠躬，(2)原地起跳且手抬起，(3)跳远，(4)单手挥手，(5)原地跳起手不动，(6)跑步，(7)侧移，(8)单脚走路，(9)双手挥手，(10)双脚走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)网球或羽毛球的发球，(15)高尔夫摇杆击球，(16)拳击，(17)太极云手。