CN104091169A

CN104091169A - 基于多特征融合的行为识别方法

Info

Publication number: CN104091169A
Application number: CN201310688324.4A
Authority: CN
Inventors: 徐向民; 张源; 王在炯; 杨倩倩
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2014-10-08

Abstract

本发明公开了一种基于多特征融合的行为识别方法，包括下述步骤：S1、对训练集和测试集的视频进行预处理；S2、对步骤S1预处理后的视频，检测特征点；S3、对视频中的特征立方体，提取代表不同信息的描述子，形成综合描述子；S4、利用步骤S3提取出来的训练集的描述子，使用K-SVD算法训练字典；S5、对步骤S3提取出来测试集的描述子，进行特征融合，用级联字典分类算法进行分类。本发明对能量信息、空间信息、时间信息进行多特征融合，抽象出本质的运动特征，描述子信息提取全面，***鲁棒性好。

Description

基于多特征融合的行为识别方法

技术领域

本发明涉及图像识别与处理的技术领域，特别涉及一种基于多特征融合的行为识别方法。

背景技术

在计算机视觉领域中，行为识别随着人体运动分析的发展在智能视频监控领域具有越来越高的应用价值。但是由于：1）数据采集的环境复杂多样，行为序列背景分割技术还不十分完善;2）在时间尺度上以及空间尺度上，同一种行为或者相似行为通常具有不同的含义；3）由于分类器的学习能力有限而且兴趣点提取的几种方法有利有弊，所以同一段视频行为同时被判别为属于几个类别常常发生。以上种种因素使得人体行为识别成为一个非常具有挑战性的研究领域。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于多特征融合的行为识别方法。

本发明的目的通过下述技术方案实现：

基于多特征融合的行为识别方法，包括下述步骤：

S1、对训练集和测试集的视频进行预处理；

S2、对步骤S1预处理后的视频，检测特征点；

S3、对视频中的特征立方体，提取代表不同信息的描述子，形成综合描述子；

S4、利用步骤S3提取出来的训练集的描述子，使用K-SVD算法训练字典；

S5、对步骤S3提取出来测试集的描述子，进行特征融合，用级联字典分类算法进行分类。

步骤S1中对视频进行预处理的具体方法为：

S11、采用平滑滤波的方法降低噪声的影响；

S12、采用光照补偿的方法保证图像的对比度,补偿光照的影响；

S13、通过背景建模的方法实现提取运动前景，其中采用：a）多层混合背景模型融合彩色空间的颜色测量和局部的纹理特征对背景进行建模；b）利用交叉双边滤波器强化相似区域，更好地检测结果和保留边界信息。

步骤S2中，采用Harris3D角点提取算法来检测特征点，具体为：

S21、使用初始空间尺度和时间尺度稀疏选定的组合，以及积分尺度和在时间和空间上找到时空角点函数H(8)的极大值点这些点就是兴趣点；

S22、对每个兴趣点pj进行处理；

S23、在(x_j,y_j,t_j)处计算和在周边那些和δ=-0.25,0,0.25的地方计算出联合尺度

S24、选出那些使得最大化的联合积分尺度

S25、如果或者用积分尺度局部尺度

{\overset{~ 2}{σ}}_{i, j} = \frac{1}{s} \overset{~ 2}{σ_{i, j}}, \overset{~ 2}{τ_{i, j}} = \frac{1}{s} \overset{~ 2}{τ_{i, j}}

在最靠近(x_j,y_j,t_j)的位置处重新提取兴趣点

\tilde{p_{j}} = (\tilde{x_{j}}, {\tilde{y}}_{j}, {\tilde{t}}_{j}, {\overset{~ 2}{σ}}_{l, j}, {\overset{~ 2}{τ}}_{l, j});

令然后返回步骤S23重新开始执行。

步骤S2中，采用Cuboid Feature的角点检测算法来检测特征点，具体为：

将视频图像的像素点序列记为I，根据响应函数

R=(I*g*h_ev)²+(I*g*h_od)²，计算每个像素点序列的响应值R，计算得到一组

响应值R，R的极大值点即为所求兴趣点；

其中

\begin{matrix} h_{ev} (t, τ, w) = - \cos (2 πtw) e^{- t^{2} / τ^{2}} \\ h_{od} (t, τ, w) = - \sin (2 πtw) e^{{- t}^{2} / τ^{2}} \end{matrix}

其中w=4π；

其中g(x,y;σ)是2D高斯平滑滤波来提供空间兴趣点的探测，h_ev和h_od是1DGabor滤波器的正交对。

步骤S3中，在时空兴趣点周围提取局部块，计算其光流信息，根据光流的角度、强度计算其统计信息，得到光流的统计直方图，作为运动特征描述子；所述运动特征描述子包括HOF，HOG3D和LMP描述子。

进一步的，所述HOF提取算法的具体步骤如下：

（1）对视频每一帧计算光流，得到光流场；

（2）对每一帧光流场进行直方图统计，得到每帧的描述子；

（3）对每帧的描述子向量求和，得到特征立方体的描述子。

进一步的，所述hog3D描述子的计算方法如下：

（1）利用sobel算子对图像分别在两个维度进行差分运算，得到矢量图；

（2）对矢量图进行直方图统计，得到每帧的描述子；

（3）对每帧的描述子向量求和，得到特征立方体的描述子。

进一步的，LMP描述子的计算方法如下：

滤波后的立方体记为v∈IR^η×η×l，由l个小平面组成；对每一个像素点在时间上计算二、三、四阶中心矩；定义对应于v的高阶矩矩阵；

M_r=[m_ij]i,j=1,2,Lη

其中

m_{ij} = \frac{1}{l} Σ_{i = 1}^{l} {(v_{ijt})}^{r}

v_ijt表示第l个小平面，位置为{i,j}的像素点的灰度值；

每一个高阶矩矩阵M_r,r={2,3,4}可以变换为一个向量m_r∈IR^η2，对于r的说那个不同取值，高阶矩矩阵可以整合为一个矩阵m∈IR^d，其中d=3η²：

m = [\begin{matrix} m_{2} \\ m_{3} \\ m_{4} \end{matrix}]

向量m为LMP描述子。

步骤S4中，K-SVD训练字典的具体方法为：

1）稀疏编码；

固定Φ，计算X，即：

\min_{X} {{| | Y - φX | |}_{F}^{2}} s . t . {| | x | |}_{0} \leq k;

为解决上式描述的NP难的优化问题，采用正交匹配追踪求解

2）字典更新：

字典Φ中的元素相继被更新，允许X中相关系数的变化；

更新字典中的元素涉及计算秩1近似的误差矩阵：

E_{i} = Y - {\tilde{Φ}}_{i} {\tilde{X}}_{i};

其中是Φ除去第i列形成的矩阵，是X除去第i行形成的，秩1近似通过使E_i为奇异值矩阵实现。

步骤S5中，用级联字典分类算法进行分类的具体方法为：

S51、对训练集视频的特征向量，用K-SVD算法训练字典；

S52、由这些字典Φ1、Φ2、···Φk生成新的字典Φc：

Φc=[Φ1|Φ2|···|Φk]；

S53、对测试集视频的特征向量Q，通过正交匹配追踪找到其稀疏表示Χ_Q：

\min_{XQ} {| | Q - φ_{C} X_{Q} | |}_{2}^{2}

s.t.||X||₀≤k3；

S54、ΧQ可以写成：

Χ_Q=[Χ_Φ1|ΧΦ₂|···|Χ_ΦΚ]，其中，Χ_Φι是Φ_ι的系数矩阵；

S55、对Χ_Q进行分类：

类=argmax_{i∈1,2,…,C}||Χ_Φι||₀。

本发明相对于现有技术具有如下的优点及效果：

1、本发明对视频分别提取代表能量信息、空间信息、时间信息的描述子，形成综合描述子。在分类阶段，利用级联字典方法计算重构误差最小时的类别。即对能量信息、空间信息、时间信息进行多特征融合，抽象出本质的运动特征，描述子信息提取全面，***鲁棒性好。

2、本发明利用稀疏编码理论进行图像识别，提高了分类效果。稀疏编码是一种模拟哺乳动物初级视觉***主视皮层V1区简单细胞感受野的编码方法。利用k-svd算法对稀疏0范数问题优化求解进行字典学习，利用级联字典计算重构误差进行动作分类，提高了在行为识别中的分类正确率。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例基于多特征融合的行为识别方法，包括下述步骤：

S1、对训练集和测试集的视频进行预处理；

S2、对步骤S1预处理后的视频，检测特征点；

步骤S1中，视频预处理的具体步骤如下：

对视频图像进行高斯滤波，降低噪声对运动前景提取的影响，高斯滤波函数如下；

G (x, y) = \frac{1}{{2 πσ}^{2}} e^{- \frac{x^{2} + y^{2}}{{2 σ}^{2}}}

对视频图像采用直方图均衡化的方法减轻背景光照对运动前景提取的影响；

混合高斯背景模型融合彩色空间的颜色测量和局部的纹理特征对背景进行建模，具体方法如下:

对于每一个象素，背景模型主要是由一个混合高斯模型（GMM）,K个基于CSLBP直方图的混合纹理模型和一个基于颜色特征的单高斯模型组成。

A：用GMM描述像素灰度值变化,每一个像素的灰度值用K个高斯分布描述,通常K值取3～5,K值的大小取决于计算机内存及对算法的速度要求，定义像素点灰度值用变量Xt表示,其概率密度函数可用如下K个3维高斯函数表示:

P (X_{t}) = Σ_{i = 1}^{K} w_{i, t} \cdot η (X_{t}, μ_{i, t}, Σ_{i, t})

式中,w_i,t为第i个高斯分布在t时刻的权重,且有是t时刻的第i个高斯分布,其均值为μ_i,t,协方差矩阵∑_i,t。

d_{p} (p) = η (X_{t}, μ_{i, t}, Σ_{i, t}) = \frac{1}{{(2 π)}^{\frac{n}{2}} {| Σ_{i, t} |}^{1 / 2}} e^{- \frac{1}{2} {(X_{t} - μ_{i, t})}^{T} Σ_{i, t} {(X_{t} - μ_{i, t})}^{- 1}})

i=1,K,K

式中,n表示X_t的维数,为了降低计算量,通常认为R,G,B3个通道相互独立,并有相同的方差,则有∑_i,t=σ_i ²I,σ_i ²表示方差,I为单位；

B：每个像素点处的纹理模型是对以该像素为中心的一块局部区域内的直方图的统计描述，具体表示为：{(h₁,w₁),(h₂,w₂),K,(h_k,w_k)}，其中w_i为第i个纹理模型的权重，h_i为第i个模型的一个纹理描述向量，具体是指以该像素为中心、长宽皆为R的一个正方形邻域内的CSLBP直方图。

其中，CSLBP直方图计算方法如下：对于图像中任意一点n_c，将其邻域内的点（例如周围点n₀～n₇，是以点n_c为圆心，半径为R的圆上的8个相互等距的点，对于不是正好处于某一像素上的点，需双线性插值法来得到其像素值），与nc进行比较来计算CSLBP值，具体计算方法如下式所示：

{CSLBP}_{R, N, T} (x, y) = Σ_{i = 0}^{(N / 2) - 1} s (n_{i} - n_{i + (N / 2)}) 2^{i}

s (x) \{\begin{matrix} 1 L & x &GreaterEqual; T \\ 0 L & otherwise \end{matrix}

其中，N为n_c的邻域个数，R为邻域半径（单位像素），而T(≥0)为一个阈值。

设像素点位置为（x，y），该像素点处的直方图描述的第i位按下式计算：

H (i) = \underset{x - R / 2 < x' < x + R / 2, y - R / 2 < y' < y + R / 2}{Σ} δ (V (x', y') - i)

δ (v) = \{\begin{matrix} 1, v = 0 \\ 0, otherwise \end{matrix}

其中，R表示所取邻域大小，V（x'，y'）表示点（x，y）的CSLBP值。

C:单高斯颜色模型是对该像素点颜色的历史分布的描述，具体表示为：{μ,∑}，其中μ为该像素点的颜色均值向量，∑为颜色变化协方差矩阵:

Σ_{k} = σ_{k}^{2} I .

模型相似度计算：

GMM:

d_{p} (p) = η (X_{t}, μ_{i, t}, Σ_{i, t}) = \frac{1}{{(2 π)}^{\frac{n}{2}} {| Σ_{i, t} |}^{1 / 2}} e^{- \frac{1}{2} {(X_{t} - μ_{i, t})}^{T} Σ_{i, t} {(X_{t} - μ_{i, t})}^{- 1}})

i=1,K,K

CSLBP纹理模型：

对于当前帧中的一个像素点p，首先计算像素点p局部区域内的CSLBP纹理直方图描述H_n，然后计算其与每个纹理模型中直方图H₀间的相似度，即得出与每个模型的纹理相似度。纹理相似度的计算采用巴氏距离衡量法：

d_{t} (p) = \sqrt{\frac{\underset{j}{Σ} \sqrt{H_{ni} (p) * H_{oi} (p)}}{N}};

其中N为直方图的长度，H，H_ni分别为直方图的第i位。

单高斯颜色模型：

当前像素点在颜色特征上的相似度计算采用高斯概率密度进行衡量：

d_{c} (p) = η (c (p), μ, Σ) = \frac{1}{{(2 π)}^{\frac{1}{2}} {| Σ |}^{1 / 2}} e^{- \frac{1}{2} {(c (p) - μ)}^{T} Σ {(c (p) - μ)}^{- 1}})

其中，c(p)为当前帧中的像素点p处的颜色向量。

根据公式：

d_tc(p)=w_p(p)·d_p(p)+w_t(p)·d_t(p)+(w_c(p))^k·d_c(p)；

其中d_tc(p)为背景模型和当前帧图像在相同像素位置p处的总体相似度；d_p(p)为混合高斯上的相似度；d_t(p)为纹理上相似度；d_c(p)为颜色上的相似度；w_p(p)为混合高斯信息贡献权重；w_t(p)为纹理信息贡献权重；w_c(p)为颜色信息贡献权重，且有w_c(p)=1-w_t(p)；而k为比例因子，用于控制颜色信息的贡献权重。

可以计算出当前模型与各个模型间的相似度。将相似度按从小打到排序，如果相似度中的最大值小于设定的阈值Th，则认为没有一个模型与当前模型匹配，那么此时该像素在特征上与模型的匹配程度就置为0；如果相似度中的最大值大于设定阈值，则认为存在于当前模型相匹配的模型。

利用交叉双边滤波器强化相似区域，为下一步提取运动特征做准备，交叉双边滤波函数如下：

g (i, j) \frac{Σ_{k, l} f (k, l) w (i, j, k, l)}{Σ_{k, l} w (i, j, k, l)}

其中g(i,j)为输出像素，f(k,l)为输入像素（为输出像素点周边像素），w(i,j,k,l)为权重系数。

步骤S2中，特征点的提取的具体步骤为：

本实施例采用两种常用的时空兴趣点检测方法：一是常用的Harris角点检测方法的3D推广，二是Cuboid Feature的角点检测方法。

Harris3D角点提取算法如下：

1、使用初始空间尺度和时间尺度稀疏选定的组合，以及积分尺度和在时间和空间上找到时空角点函数H(8)的极大值点这些点就是兴趣点；

2、for每个兴趣点pj do；

3、在(x_j,y_j,t_j)处计算和在周边那些和δ=-0.25,0,0.25的地方计算出联合尺度

4、选出那些使得最大化的联合积分尺度

5、if或者

用积分尺度局部尺度在最靠近(x_j,y_j,t_j)的位置处重新提取兴趣点令然后goto步骤3；

6、end。

Cuboid Feature的算法如下：

Cuboid Feature的角点检测方法通过空域高斯滤波与时域Gabor滤波叠加实现。

对输入视频进行时空域兴趣点检测，通过响应函数R=(I*g*h_ev)²+(I*g*h_od)²；

其中

\begin{matrix} h_{ev} (t, τ, w) = - \cos (2 πtw) e^{- t^{2} / τ^{2}} \\ h_{od} (t, τ, w) = - \sin (2 πtw) e^{{- t}^{2} / τ^{2}} \end{matrix}

其中w=4π；

其中g(x,y;σ)是2D高斯平滑滤波来提供空间兴趣点的探测，h_ev和h_od是1DGabor滤波器的正交对来提供时间兴趣点的探测。通过计算视频图像中每一个点的响应函数，然后最大值就是兴趣点。

步骤S3中，采用分别代表能量信息、空间信息和时间信息的三种类型的运动特征描述子。

（1）光流的梯度直方图（HOF）：

在时空兴趣点周围提取局部块，计算其光流信息，根据光流的角度、强度计算其统计信息，得到光流的统计直方图，作为运动特征描述子。

HOF提取算法如下：

输入：光流序列F_k，定义n个图像分区，时间基准点Tr

输出：HOF描述子——n个和n个序列，其中，i∈[1,n]，和分别描述T_r前后的运动；

●用时域中值滤波模板对每三帧一组的光流序列F_k-1,F_k,F_k+1,k∈[2,t_max-1]进行处理，已达到时域平滑的目的。

●丢弃向量以外的预定义的感兴趣区域（包括人）；

●在T_r处分割F_k，F_b包括T_r之前的光流场，F_a包括T_r之后的光流场：

F_b=F(t<T_r)，F_a=F(t≥T_r)；

●初始化2n个空序列，n个序列对应T_r前的运动，n个序列对应T_r后的运动；

●for每个光流图像F_b(k)和F_a(k)，k∈[2,t_max]do；

●将每个光流场分割成n个子区域Fⁱ；

●for每个子区域Fⁱ，i∈[1,n]do；

●在时刻k计算区域Fⁱ(k)在时刻k的二维直方图Hⁱ(k,v,θ)=hist(Fⁱ(k))，直方图的两个维度分别量化成幅值v和方向θ；

●在二维直方图中找出最大计数的bin即

●基于最大计数的bin，生成符号S_vθ；

●将S_vθ加入子区域的符号序列：Sⁱ←{Sⁱ,S_vθ}；

●end for

●for所有序列和i∈[1,n]do；

●去除序列中的重复的符号；

●end for。

（2）hog3D描述子的计算基本与hof相同，具体方法简述如下：

1、利用sobel算子对图像分别在两个维度进行差分运算，得到矢量图。

2、对矢量图进行直方图统计，得到每帧的描述子。

3、对每帧的描述子向量求和，得到特征立方体的描述子。

（3）LMP算法描述子具体为：

特征点与规格为(η×η×l)的时空立方体一一对应，每个立方体可以捕捉局部时空信号的变化，代表重要的行为模式。这些立方体是从视频V中提取的。为得到每个时空立方体的鲁棒描述子，对立方体执行空间2D高斯滤波以忽略空间域细微的变化。空间域高斯滤波增强了描述子的抗噪性能。

滤波后的立方体记为v∈IR^η×η×l，由l个小平面组成。对每一个像素点在时间上计算二、三、四阶中心矩。定义对应于v的高阶矩矩阵

M_r=[m_ij]i,j=1,2,Lη；

其中

m_{ij} = \frac{1}{l} Σ_{i = 1}^{l} {(v_{ijt})}^{r};

vijt表示第l个小平面，位置为{i,j}的像素点的灰度值。

每一个高阶矩矩阵M_r,r={2,3,4}可以变换为一个向量m_r∈IR^η2。对于r的说那个不同取值，高阶矩矩阵可以整合为一个矩阵m∈IR^d，其中d=3η²：

m = [\begin{matrix} m_{2} \\ m_{3} \\ m_{4} \end{matrix}];

向量m为LMP描述子。

步骤S4是用描述子训练超完备字典和响应的稀疏表示。

字典训练理论：

考虑一组低维描述子我们希望训练一个字典Φ∈IR^n×m(m>n)，通过字典Φ，Y有一个稀疏表示每个x_i包含k(k<<n)个非零项。可以表述为如下优化问题：

\min_{φ, X} {{| | Y - φX | |}_{F}^{2}} s . t . {| | x | |}_{0} \leq k

其中||·||_F表示Frobenius范数，||·||₀表示l₀准范数，即向量中非零元素的数量。

K-SVD算法

为解决上式，本***使用K-SVD算法，K-SVD算法利用迭代求解，分为以下两步：

1)稀疏编码；2）字典更新

稀疏编码：固定Φ，计算X，即

\min_{X} {{| | Y - φX | |}_{F}^{2}} s . t . {| | x | |}_{0} \leq k;

为解决上式描述的NP难的优化问题，本发明采用正交匹配追踪（OMP）求解。

字典更新：

字典Φ中的元素相继被更新，允许X中相关系数的变化。

更新字典中的元素涉及计算秩1近似的误差矩阵

E_{i} = Y - {\tilde{Φ}}_{i} {\tilde{X}}_{i}

步骤S5特征融合与动作分类具体为：

行为识别通过字典学习算法实现。采集大量训练集视频和测试集视频，按以上步骤提取特征向量，用提取出来的训练集的特征向量来训练字典。由这些字典级联成一个新的字典Φc。利用Φc，求出测试集视频的特征向量的稀疏表示，然后用级联字典（Concatenated Dictionary）分类算法进行分类。

级联字典分类算法如下：

●对训练集视频的特征向量，用K-SVD算法训练字典。

●由这些字典Φ1、Φ2、···Φk生成新的字典Φc：

Φc=[Φ1|Φ2|···|Φk]；

●对测试集视频的特征向量Q，通过OMP（正交匹配追踪）找到其稀疏表示Χ_Q：

\min_{XQ} {| | Q - φ_{C} X_{Q} | |}_{2}^{2}

s.t.||X||₀≤k3；

●ΧQ可以写成：

Χ_Q=[Χ_Φ1|Χ_Φ2|···|Χ_ΦΚ]，其中，Χ_Φι是Φ_ι的系数矩阵。

●对Χ_Q进行分类：

类=argmax_{i∈1,2,…,C}||Χ_Φι||₀。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于多特征融合的行为识别方法，其特征在于，包括下述步骤：

S1、对训练集和测试集的视频进行预处理；

S2、对步骤S1预处理后的视频，检测特征点；

2.根据权利要求1所述基于多特征融合的行为识别方法，其特征在于，步骤S1中对视频进行预处理的具体方法为：

S11、采用平滑滤波的方法降低噪声的影响；

3.根据权利要求1所述基于多特征融合的行为识别方法，其特征在于，步骤S2中，采用Harris3D角点提取算法来检测特征点，具体为：

S22、对每个兴趣点pj进行处理；

S23、在(xj,yj,tj)处计算和在周边那些和δ=-0.25,0,0.25的地方计算出联合尺度

S24、选出那些使得最大化的联合积分尺度

S25、如果或者用积分尺度局部尺度在最靠近(x_j,y_j,t_j)的位置处重新提取兴趣点

令然后返回步骤S23重新开始执行。

4.根据权利要求1所述基于多特征融合的行为识别方法，其特征在于，步骤S2中，采用Cuboid Feature的角点检测算法来检测特征点，具体为：

将视频图像的像素点序列记为I，根据响应函数

响应值R，R的极大值点即为所求兴趣点；

其中其中w=4/π；

5.根据权利要求1所述的基于多特征融合的行为识别方法，其特征在于，步骤S3中，在时空兴趣点周围提取局部块，计算其光流信息，根据光流的角度、强度计算其统计信息，得到光流的统计直方图，作为运动特征描述子；所述运动特征描述子包括HOF，HOG3D和LMP描述子。

6.根据权利要求5所述的基于多特征融合的行为识别方法，其特征在于，所述HOF提取算法的具体步骤如下：

（1）对视频每一帧计算光流，得到光流场；

（2）对每一帧光流场进行直方图统计，得到每帧的描述子；

（3）对每帧的描述子向量求和，得到特征立方体的描述子。

7.根据权利要求5所述的基于多特征融合的行为识别方法，其特征在于，所述hog3D描述子的计算方法如下：

（2）对矢量图进行直方图统计，得到每帧的描述子；

（3）对每帧的描述子向量求和，得到特征立方体的描述子。

8.根据权利要求5所述的基于多特征融合的行为识别方法，其特征在于，LMP描述子的计算方法如下：

M_r=[m_ij]i,j=1,2,Lη

其中

v_ijt表示第l个小平面，位置为{i,j}的像素点的灰度值；

向量m为LMP描述子。

9.根据权利要求1所述基于多特征融合的行为识别方法，其特征在于，步骤S4中，K-SVD训练字典的具体方法为：

1）稀疏编码；

固定Φ，计算X，即：

为解决上式描述的NP难的优化问题，采用正交匹配追踪求解；

2）字典更新：

字典Φ中的元素相继被更新，允许X中相关系数的变化；

更新字典中的元素涉及计算秩1近似的误差矩阵：

10.根据权利要求1所述基于多特征融合的行为识别方法，其特征在于，步骤S5中，用级联字典分类算法进行分类的具体方法为：

S51、对训练集视频的特征向量，用K-SVD算法训练字典；

S52、由这些字典Φ1、Φ2、···Φ_k生成新的字典Φ_c：

Φc=[Φ1|Φ2|···|Φk]；

s.t.||X||₀≤k3；

S54、Χ_Q可以写成：

Χ_Q=[Χ_Φ1|Χ_Φ2|···|Χ_ΦΚ]，其中，Χ_Φι是Φ_ι的系数矩阵； S55、对ΧQ进行分类：

类=argmax_{i∈1,2,…,C}||ΧΦι||₀。