CN103440471B

CN103440471B - 基于低秩表示的人体行为识别方法

Info

Publication number: CN103440471B
Application number: CN201310163241.3A
Authority: CN
Inventors: 张向荣; 焦李成; 杨浩; 杨阳; 侯彪; 王爽; 马文萍; 马晶晶
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-05-05
Filing date: 2013-05-05
Publication date: 2016-08-10
Anticipated expiration: 2033-05-05
Also published as: CN103440471A

Abstract

本发明公开了一种基于低秩表示的人体行为识别，主要解决现有技术对视频中的行为识别率低的问题。其识别过程为：(1)输入所有视频，利用k均值对所有行为检测到的局部特征进行聚类得到一个码书；(2)通过带有系数归一化约束的低秩表示LRR对每个视频的所有特征进行编码；(3)将每个视频的编码系数向量化，得到每个视频的最终表示；(4)将得到最终表示的所有视频分组，一组作为训练样本，一组作为测试样本，利用训练样本的视频表示组成字典；(5)基于新组成的字典上，利用稀疏表示对测试样本进行编码并确定测试样本的类标,完成测试样本中人体行为的识别。本发明增强了视频表示的判别性，提高了对视频中人体行为的识别率，可用于智能监控。

Description

基于低秩表示的人体行为识别方法

技术领域

本发明属于机器学习、计算机视觉领域，涉及对视频中人物行为的识别，可用于视频中目标检测及跟踪的后处理。

背景技术

人体行为识别包括从视频序列中抽取相关的视觉信息，并用一种合适的方式进行表达，最后解释这些信息以实现学习和识别人的行为，研究人体的行为模式将为人们的生活带来全新的交互方式。

近年来，特征包BoF模型被成功应用于图像分类和行为识别领域。在行为识别领域，它把视频序列描述成一系列视觉关键词的统计直方图。视觉关键词统计直方图的构建分为以下几个步骤：

第一步，利用局部特征检测器，如Harris3D检测子，Hessian检测子，Cuboid检测子等，自动检测出视频中感兴趣的区域，并用相应的描述子对其进行描述；

第二步，利用K均值将所有视频局部特征描述符进行聚类，形成若干个聚类中心，即

视觉关键词，聚类中心的个数或称词包的大小可事先由人为确定。

第三步，计算每个视频中局部特征描述符与每个聚类中心的欧式距离，距离最小的聚类中心被认为是该局部特征的视觉关键词，统计视频中所有局部特征关键词的数目，形成视觉关键词直方图。

尽管特征包模型简单有效，但由于视频中的局部特征数目多而且复杂，需要成千上万个视觉关键词才能获得比较好的识别结果，而且特征包模型并没有考虑视觉关键词的内部结构信息。

2010年，X.Yan等人将特征包模型与有效人体区域包结合在一起，由于有效人体区域包描述了两个局部特征的关系，这样就弥补了特征包没有考虑局部特征之间关系的不足。参见X.Yan，Y.Luo，《Making full use ofspatial-temporal interest points:an adaboost approach for actionrecognition》，International Conference on Image Processing。

2010年，Y.Zhu等人将局部特征与稀疏表示结合在一起，提出了一个新的具有判别性表达方式，参见Y.Zhu，X.Zhao，Y.Fu，Y.Liu，《Sparse codingon local spatial-temporal volumes for human action recognition》，AsianConference on Computer Vision。

2011年，Z.Lu等人通过l₁图的构建和谱嵌入结合起来。该方法考虑了视觉关键词的流形结构，其得到的表示是紧致的而且具有判别性。参见Z.Lu，Y.Peng，《Latent semantic learning with structured sparse representation forhuman action recognition》，ICCV。

以上提到的改善方法均存在以下不足：只考虑稀疏性，没有考虑数据的整体结构性，所以无法获取视频局部特征中的全局结构信息，识别率低。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于低秩表示的人体行为识别方法，以获取视频局部特征中的全局结构信息，提高识别率。

实现本发明的技术思路是：考虑视觉关键词的全局结构，对所获取的局部特征进行编码，将其应用到人体行为识别领域，具体步骤如下：

（1）输入所有视频，每个视频中只含有一种行为，利用Cuboid特征检测和描述算法中的Cuboid检测子和描述子分别对视频中的行为进行局部特征检测和描述；

（2）利用k均值法，对所有视频的行为局部特征进行聚类，形成一个码书：其中：a_k表示每个聚类中心，k=1，2，…，l，l表示聚类中心的个数，d表示聚类中心的维数；

（3）利用带有系数归一化约束的低秩表示LRR，在码书A上对每个视频中的行为所包含的局部特征进行编码：

（3a）假设视频中的行为有n个局部特征，用表示，其中：x_i表示第i个局部特征，i=1，2，…，n，d表示局部特征的维数；

（3b）在码书A上，利用如下公式进行编码：

\min_{Z, E} {| | Z | |}_{*} + λ {| | E | |}_{2,1}, s \cdot t \cdot X = AZ + E, 1 Z = \hat{1}

其中：Z表示局部特征在码书A上的编码系数，E表示噪声，||·||_*表示一种矩阵奇异值之和的核函数，参数λ用来权衡低秩和噪声的影响，||E||_2，1表示对E的l_2，1范数，E_ij为E的第i行第j列元素，矩阵1和中每个元素均为1；

（3c）利用中间变量J代替(3b)中的Z，将编码公式转化为：

\min_{Z, E, J} {| | J | |}_{*} + λ {| | E | |}_{2,1}, s \cdot t \cdot X = AZ + E, Z = J, 1 Z = \hat{1}

由此将对Z的多约束优化问题简化为对J的单约束优化，利用增强拉格朗日乘子ALM算法对该公式进行求解，得到一个行为的所有局部特征对应的编码系数

（4）对每个人体行为的局部特征，根据步骤（3c）中得到的编码系数，应用max pooling算法，将每个人体行为表示成一个l维的列向量:

z^{*} = [{\hat{z}}_{1}, {\hat{z}}_{2}, \cdot \cdot \cdot, {\hat{z}}_{k}, \cdot \cdot \cdot, {\hat{z}}_{l}], k = 1,2, \cdot \cdot \cdot, l

其中i=1，2，…，n，z_ki表示Z的第k行第i列元素;

（5）把一个动作者的所有行为视频作为测试样本集，其他动作者的所有行为视频作为训练集，训练集样本个数为m，利用所有训练样本的编码系数组成字典j＝1，2，...，c，其中m是字典原子个数，j是字典的类别标号，c为总类别数；

（6）利用随机生成的线性变换矩阵对每个测试样本进行降维，b＜＜l，得到降维后的测试样本：并通过下式得到每个测试样本的编码系数β：

\min_{β} {| | \hat{y} - RDβ | |}_{2}^{2} + η {| | β | |}_{1},

其中，||·||₂表示向量的l₂范数，||·||₁表示向量的l₁范数，R均值为0，方差为1，D是训练样本组成的字典，η是用于平衡重建误差和编码稀疏性的参数，取值范围为0-1；

（7）计算测试样本在每类字典上的残差

r_{j} (\hat{y}) = {| | \hat{y} - {RD}_{j} β_{j} | |}_{2}^{2} / {| | β_{j} | |}_{2}, j = 1,2, \cdot \cdot \cdot, c

其中：β_j是测试样本在第j类字典D_j上的编码系数，如果在第j类字典上的残差最小，则赋予测试样本的类标为j；

（8）重复步骤（5）-（7），依次对每个动作者的所有行为进行分类，得到所有动作者的所有行为类标，并用分类标号对应不同的人体行为。

本发明与现有技术相比，具有以下优点：

1、本发明用码书对特征描述符进行编码，相比于经典的特征包模型，可以大幅增加其描述的准确性；

2、本发明采用的编码方式不仅考虑视频特征的稀疏性，还考虑了其全局结构信息，所以相比于稀疏表示更具有判别性，从而能够提高人体行为识别率；

3、本发明采用的编码方式对干扰信息具有鲁棒性，对拍摄角度具有明显的容忍性。

附图说明

图1是本发明的流程图；

图2是本发明实验中所用的三种数据集；

图3是本发明在Weizmann数据集和KTH数据集上的分类混淆矩阵图；

具体实施方式

参照图1，本发明主要包括两个部分：视频表示、视频分类。下面分别介绍这两部分的实施步骤：

一.视频表示

步骤1，输入所有视频，每个视频中只包含一种人体行为，利用Cuboid检测子和描述子分别对视频中的行为进行局部特征检测和描述。

视频中的行为指的是走、跑、跳、拳击等这些人体动作，所有视频由若干个动作者分别执行完成，每个动作者依次完成所有行为，一个视频中只含有一个动作者的一种行为；

利用Cuboid检测子对视频进行局部特征检测的实现方式是:将视频划分为大小均等的局部块，计算出一个局部块内每个像素点的响应函数值R：

R＝(I*g*h_ev)²+(I*g*h_od)²，

其中:I表示局部块中的当前像素点的灰度值，g是二维高斯核函数，h_ev、h_od为一对Garbor滤波算子。

具有最大响应函数值的像素点就是检测到的局部特征点，由此方式依次检测得到视频中所有局部块的局部特征点；

利用Cuboid描述子对视频进行局部特征描述的实现方式是：在以特征点为中心的一个长方体范围内，利用内部所有d个像素点的灰度值组成一个向量x作为特征点上的特征描述，由此得到当前特征点的局部特征描述，依次完成视频中所有n个特征点的局部特征描述，得到整个视频的局部特征描述：

其中：x_i表示第i个局部特征，i=1，2，…，n，n表示特征点个数，d表示局部特征描述的维数。

步骤2，利用所有视频中的局部特征描述建立码书。

利用k均值法，对所有视频中的所有局部特征描述进行聚类，将得到的聚类中心组成一个码书：

其中：a_u表示第u个聚类中心，u=1，…，l，l表示聚类中心的个数。

步骤3，利用码书依次对每个视频中的所有局部特征描述进行编码。

利用带有系数归一化约束的低秩表示LRR，在码书A上对一个视频中所包含的局部特征描述进行编码：

\min_{Z, E} {| | Z | |}_{*} + λ {| | E | |}_{2,1}, s \cdot t \cdot X = AZ + E, 1 Z = \hat{1}

其中：Z表示局部特征在码书A上的编码系数，E表示噪声，||·||_*表示一种矩阵奇异值之和的核函数，参数λ用来权衡低秩和噪声的影响，||E||_2，1表示对E的l_2，1范数，矩阵1和中每个元素均为1。

步骤4，利用增强拉格朗日乘子法对步骤3中的公式进行求解，得到当前视频的所有局部特征对应的编码系数：i=1，2，…，n，依次得到所有视频的编码系数。

步骤5，将每个视频的编码系数向量化，得到每个视频的最终表示。

5a)利用Max-pooling算法对将步骤4中编码系数Z的每一行取最大值：

{\hat{z}}_{k} = \max (| z_{k 1} |, | z_{k 2} |, \cdot \cdot \cdot, | z_{ki} |, \cdot \cdot \cdot, | z_{kn} |), k = 1,2, \cdot \cdot \cdot, l,

其中z_ki表示编码系数Z的第k行第i列元素;

5b)用编码系数每一行的最大值组成一个列向量：k＝1，2，...，l，这样每个视频就被表示成一个l维的列向量z^*。

二.视频分类

步骤6，对所有动作者进行编号、分组，利用训练样本组建字典。

对所有动作者分配编号，并将1号动作者的所有视频均作为测试样本，其他动作者的所有视频作为训练集；

设训练集中样本的个数为m，利用所有训练样本的视频表示组成字典：D_j表示第j类字典，j＝1，2，...，c，m是字典原子个数，c是字典类别总数。

步骤7，对所有测试样本的视频表示进行降维。

依次对每个测试样本的视频表示z^*进行降维，得到降维后的测试样本：

\hat{y} = {Rz}^{*}

其中：是随机生成的线性变换矩阵，b＜＜l，其每一行元素服从均值为0，方差为1的高斯分布。

步骤8，利用字典依次对每个降维后测试样本进行稀疏编码。

利用字典D依次对每个降维后的测试样本进行稀疏编码，得到降维后测试样本在每类字典上的编码系数：

\hat{β} = \arg \min {{| | \hat{y} - RDβ | |}_{2}^{2} + η {| | β | |}_{1}},

其中，||·||₂表示向量的l₂范数，||·||₁表示向量的l₁范数，R的均值为0，R的方差为1，D是训练样本组成的字典，η是用于平衡重建误差和编码稀疏性的参数，η取值范围为0-1。

步骤9，利用编码系数依次计算每个降维后测试样本在每类字典上的残差，根据残差大小对相应测试样本进行分类。

9a)计算一个测试样本在每类字典上的残差

r_{j} (\hat{y}) = {| | \hat{y} - {RD}_{j} β_{j} | |}_{2}^{2} / {| | β_{j} | |}_{2}, j = 1, \cdot \cdot \cdot, c

其中：β_j是当前测试样本在第j类字典D_j上的编码系数;

9b)根据测试样本在每类字典上的残差大小，找到产生最小残差的字典D_j，将该字典D_j的类标j作为当前测试样本的类标，j=1，…，c，依次完成对所有测试样本的分类。

步骤10，将2号动作者的所有视频均作为测试样本，利用包括1号动作在内的其它动作者的所有视频组成新的字典，然后参照步骤6-9完成对2号动作者所有视频的分类。

步骤11，参照步骤10依次完成所有动作者的所有视频的分类，即最终完成对所有视频中人体行为的识别。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件

仿真实验在Intel Core(TM)2Duo CPU、主频2.33GHz，内存2G，Windows7平台上的MATLAB7.12上进行。本实验分别在Weizmann数据集、KTH数据集和Weizmann robust数据集上利用本发明方法进行分类测试，并与传统方法进行了结果对比，最后在Weizmann数据集上对本发明方法中的参数进行鲁棒性分析。

2.仿真内容与结果

仿真1，在Weizmann数据集上使用本发明方法进行识别测试的实验。

本实验对图2(a)所示的Weizmann数据集进行识别测试。表1给出了分别使用本发明方法和现有CRC方法对Weizmann数据集进行识别的实验结果对比；图3(a)给出了本发明方法在Weizmann数据集上识别结果的混淆矩阵图。

表1本发明方法与CRC方法在Weizmann数据集上的分类结果对比

使用方法	正确率
		CRC	90.8%
本发明方法	93.2%

从表1可以看出，本发明方法要比CRC方法识别效果好。CRC方法在识别时只考虑了对测试样本的重构误差，而本发明方法不仅考虑到了对测试样本的重构误差，还加入了稀疏性约束，促使测试样本在与其实际类别相同的字典原子上具有更大的残差，从而能够提升测试样本的识别正确率。实验结果证明，本发明方法能够对人体行为进行有效的表征，并在有效表示的基础上达到了较好的人体行为识别效果。

从图3（a）中分类结果的混淆矩阵可以具体看出，本发明方法对Weizmann数据集中的所有人体行为均取得了较高的识别率。图3（a）中，本发明对跑步以外的所有人体行为进行了正确的分类，只有两个跑步的视频被错分成跨越行为，这是因为跑步和跨越具有非常相近的动作方式，所检测到的局部特征有很多都是相似的，所以在对这两种行为进行编码时得到的编码系数也有可能相似,继而被误判。

仿真2，在KTH数据集上使用本发明方法进行识别的实验。

本实验对图2(b)所示KTH数据集进行分类测试。表2给出了给出了分别使用本发明方法和CRC方法在KTH数据集上进行识别的实验结果结果对比；图3(b)给出了本发明在KTH数据集上分类结果的混淆矩阵图。

表2本发明方法与CRC方法在KTH数据集上的分类结果对比

分类方法	正确率
		CRC	96.9%
本发明方法	98.0%

从表2中可以以看出，本发明在KTH数据集上的识别正确率依然优于CRC方法，这进一步证明，本发明中所使用的分类方法能够有效保证对于测试样本的正确识别。

从图3(b)中分类结果的混淆矩阵可以看出，本发明对于KTH数据集中所有人体行为均有良好的识别率。由于本发明采用了LRR方法对视频中的局部特征进行编码表示，使得最终的视频表示更具有判别性，从而保证了对人体行为的较高识别能力。

仿真3，本发明在Weizmann robustness上进行的鲁棒性实验

表2给出了本发明在图2（c）中所示的Weizmann robustness数据集上进行的鲁棒性仿真实验结果，表3是对视角变化鲁棒性测试结果，表4是对遮挡的鲁棒性测试结果。

表3本发明在Weizmann robustness上进行视角鲁棒性测试的结果

拍摄角度/度	特征包模型	本发明方法
			n=0	行走	行走
n=9	行走	行走
			n=18	行走	行走
n=27	行走	行走
			n=36	行走	行走
n=45	行走	行走
			n=54	行走	行走
n=63	弯腰	行走
			n=72	行走	跨越
n=81	行走	跨越

表4本发明方法在Weizmann robustness上对受到遮挡的行走的识别结果

行走方式	特征包模型	本发明方法
			拎包	弯腰	行走
拎箱子	横行	行走
			牵狗	招手	行走
高抬腿式	弯腰	行走
			并腿式	行走	行走
梦游式	行走	行走
			腿部被遮挡	招手	行走
正常	行走	行走
			全身受到垂直遮挡	行走	行走
穿着裙子	招手	行走

从表3和表4可以看出，本发明对拍摄角度的变化有一定的容忍性以及对部分遮挡具有鲁棒性，相对于传统的特征包模型有较好的结果。

从表3中可以看出，当拍摄角度在0到63度变化时，本发明方法可以稳定识别视频中的人体行为。而表4则显示，本发明在人体行为受到部分遮挡时依然能够保证正确的识别结果，即具有对视频中遮挡的鲁棒性。

Claims

1.一种基于低秩表示的人体行为识别方法，包括如下步骤：

(1)输入所有视频，每个视频中只含有一种行为，利用Cuboid特征检测和描述算法中的Cuboid检测子和描述子分别对视频中的行为进行局部特征检测和描述；

(2)利用k均值法，对所有视频的行为局部特征进行聚类，形成一个码书：其中：a_k表示每个聚类中心，k＝1,2,…,l，l表示聚类中心的个数，d表示聚类中心的维数；

(3)利用带有系数归一化约束的低秩表示LRR，在码书A上对每个视频中的行为所包含的局部特征进行编码：

(3a)假设视频中的行为有n个局部特征，用表示，其中：x_i表示第i个局部特征，i＝1,2,…,n，d表示局部特征的维数；

(3b)在码书A上，利用如下公式进行编码：

min_Z,E||Z||_*+λ||E||_2,1,s.t.X＝AZ+E，

其中：Z表示局部特征在码书A上的编码系数，E表示噪声，||·||_*表示一种矩阵奇异值之和的核函数，参数λ用来权衡低秩和噪声的影响，||E||_2,1表示对E的l_2,1范数，即E_ij为E的第i行第j列元素，矩阵1和中每个元素均为1；

(3c)利用中间变量J代替(3b)中的Z，将编码公式转化为：

min_Z,E,J||J||_*+λ||E||_2,1，s.t.X＝AZ+E,Z＝J,

(4)对每个人体行为的局部特征，根据步骤(3c)中得到的编码系数，应用maxpooling算法，将每个人体行为表示成一个l维的列向量:

z^{*} = {[{\hat{z}}_{1}, {\hat{z}}_{2}, ..., {\hat{z}}_{k}, ..., {\hat{z}}_{l}]}^{T}, k = 1, 2, ..., l

其中z_ki表示Z的第k行第i列元素；

(5)把一个动作者的所有行为视频作为测试样本集，其他动作者的所有行为视频作为训练集，训练集样本个数为m，利用所有训练样本的编码系数组成字典其中m是字典原子个数，j是字典的类别标号,c为总类别数；

(6)利用随机生成的线性变换矩阵对每个测试样本进行降维，b远小于l，得到降维后的测试样本：并通过下式得到每个测试样本的编码系数β：

\min_{β} | | \hat{y} - R D β | |_{2}^{2} + η | | β | |_{1},

其中，||·||₂表示向量的2范数，||·||₁表示向量的1范数，R均值为0，方差为1，D是训练样本组成的字典，η是用于平衡重建误差和编码稀疏性的参数，取值范围为0-1；

(7)计算测试样本在每类字典上的残差

r_{j} (\hat{y}) = | | \hat{y} - {RD}_{j} β_{j} | |_{2}^{2} / | | β_{j} | |_{2}, j = 1, 2, ..., c

(8)重复步骤(5)-(7)，依次对每个动作者的所有行为进行分类，得到所有动作者的所有行为类标，并用分类标号对应不同的人体行为。