CN105095863A

CN105095863A - 基于相似性权值的半监督字典学习的人体行为识别方法

Info

Publication number: CN105095863A
Application number: CN201510414039.2A
Authority: CN
Inventors: 张向荣; 焦李成; 孙志豪; 马文萍; 侯彪; 白静; 马晶晶; 冯婕
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2015-11-25
Anticipated expiration: 2035-07-14
Also published as: CN105095863B

Abstract

本发明公开了一种基于相似性权值的半监督字典学习的人体行为识别方法，主要解决现有技术有监督方法对人体行为识别率低的问题。其识别过程为：(1)将输入的数据集划分成测试样本和训练样本；(2)对所有样本进行局部特征检测，随机选取有标签样本的局部特征得到初始化字典；(3)根据初始化字典，使用半监督方法进行字典学习；(4)使用学到的字典对所有样本进行组稀疏编码，得到每个样本的编码矩阵；(5)将每个样本的编码矩阵进行向量化得到最终表示；(6)利用每个样本的最终表示和稀疏表示分类方法对测试样本分类，完成测试样本中人体行为的识别。本发明增强了字典学习的判别性，提高了人体行为识别率，可用于视频中目标检测。

Description

基于相似性权值的半监督字典学习的人体行为识别方法

技术领域

本发明属于模式识别技术领域，特别涉及视频中目标人物行为的识别方法，可用于视频中目标检测。

背景技术

人体行为识别是指识别出视频序列中目标的行为信息，为之后的处理工作做准备，其包括从视频序列中检测出相关的目标视觉信息，并用一种合适的方式进行表达，最后解释这些信息以实现学习和识别人的行为。

近年来，无监督和有监督字典学习已经成功应用于图像分类和行为识别领域。在人体行为识别领域，它们的区别是否用到有标签的视频序列，其中无监督字典学习没有用到视频的标签信息，而有监督字典学习刚好相反。最终通过学习到的字典进行识别等后续工作。对于有监督字典学习分为以下几个步骤：

第一步，获取局部特征：利用局部特征检测器，如Harris3D检测子,Hessian检测子,Cuboid检测子等，自动检测出视频中感兴趣的区域，并用相应的描述子对其进行描述；

第二步，获取初始化字典：利用K均值将所有视频局部特征描述符进行聚类，从而得到若干个聚类中心，而这些聚类中心就是所谓的视觉关键词，聚类中心的个数或称作词包的大小可事先由人为设定。

第三步，获取字典：对目标函数进行求解，一般包括重复进行的二个步骤，即求解编码系数和字典学习交替进行，直到终止条件达到。

可以看出有监督的字典学习相对于无监督字典学习使用到了视频序列的标签信息，而不同的有监督字典学习方法就在于如何使用标签信息。但因为实际生活中目标的标签获取需要耗费大量的人力物力，实际生活中的视频往往是无标签的。而且有监督字典学习方法也没有考虑无标签样本信息。

2014年，Y.Sun等人在组稀疏的基础上，引入一个加权的组稀疏约束项，该约束项的目的是尽可能的使得同一类的字典原子参与视频的编码，从而提出了一种更具判别性的有监督字典学习方法，该方法充分利用了有标签样本的信息，但并未使用无标签的信息，具体参见SunY,LiuQ,TangJ,etal.Learningdiscriminativedictionaryforgroupsparserepresentation.[J].IEEETransactionsonImageProcessing,2014,23(9):3816-3828。

上述方法虽然可以得到更具判别性的字典，提高识别精度，但该方法的不足也是明显的：其只考虑有标记样本，没有考虑无标记样本的信息，没有充分的利用样本的信息；而实际上往往有标签样本获取的难度很大，无标签的样本却可以容易获取且大量存在，如何充分提取并利用大量无标签样本的信息，成为该领域的关键所在。

发明内容

本发明的目的在于提出一种基于相似性权值的半监督字典学习的人体行为识别方法，以通过提取无标签视频的信息，提高人体行为识别精度。

本发明的技术思路是：引入无标签视频，来获取更具判别性的字典从而得到每个视频的编码，将其应用到人体行为识别中，其实现步骤包括如下：

(1)输入包含c类行为的视频数据集，其中包括训练数据集和测试数据集，训练数据集由n_L个带有类别标签的视频数据和n_U个无标签视频数据组成，测试数据集由n_T个带测试视频数据组成，每个视频作为一个样本只含有一种行为；

(2)提取每个视频数据的局部特征：利用空时域的Harris角点检测方法对每个视频进行局部特征区域检测，在提取到的局部特征区域提取视频的梯度直方图特征和光流直方图特征，并把得到的这两种特征进行拼接，获得每个视频中行为的局部特征；

(3)从训练样本集中，通过对每一类视频样本的局部特征进行随机采样得到初始化字典D⁽⁰⁾∈R^d×m，其中：d表示样本局部特征的维数，m表示字典原子的个数；

3a)假设训练样本第i类视频样本的局部特征为其中：n_i表示第i类训练样本有标签样本的个数，i＝1,2,...,c，c表示视频样本的类别数；

3b)对训练样本的第i类视频样本的局部特征Xⁱ进行随机采样得到第i类的初始化类别字典将获得的所有初始化类别字典进行拼接得到初始化字典其中：d表示局部特征的维数，b表示每类初始化类别字典的原子个数，m是初始化字典的原子个数，即m＝c*b。

(4)构造用于编码的权重矩阵A^(t)∈R^m×n，其中：n表示所有训练样本的个数即n＝n_L+n_U，t＝0,1,...,Τmax，Τmax表示最大迭代次数，权重矩阵的每一列表示对应样本的权重向量；

(5)使用第t次迭代获得的字典D^(t)，通过优化下面的目标函数对第l个视频样本的局部特征进行编码，得到第l个视频样本的第t次迭代的编码矩阵

\min_{B_{l}^{(t)}} \frac{1}{2} | | Y^{l} - D^{(t)} B_{l}^{(t)} | |_{F}^{2} + λ_{1} | | B_{l}^{(t)} | |_{1, 1} + λ_{2} | | d i a g (A_{\cdot l}^{(t)}) B_{l}^{(t)} | |_{2, 1}

其中，Y^l表示第l个视频样本的局部特征，l＝1,2,....,n，是权重矩阵A^(t)的第l列，||·||_F表示F范数，||·||_1,1表示矩阵的1,1范数即表示编码矩阵的第p行，||·||₁表示向量的1范数，||·||_2,1表示矩阵的2,1范数，上式第一项表示视频样本编码的重构误差项，是对编码矩阵的稀疏性约束项，是组稀疏约束项，该组稀疏约束项用以约束参与编码的字典原子来自于同一类的类别字典，λ₁是稀疏约束项参数，λ₂是组稀疏约束项参数；

(6)通过优化下面的目标函数更新字典获得第t+1次迭代的字典D^(t+1)：

\min_{D^{(t + 1)}} Σ_{l = 1}^{n} \frac{1}{2} | | Y^{l} - D^{(t + 1)} B_{l}^{(t)} | |_{F}^{2} + λ_{3} \underset{i < j}{Σ} Σ_{j = 1}^{c} | | {(D_{i}^{(t + 1)})}^{T} D_{j}^{(t + 1)} | |_{F}^{2}

其中，是对类别字典的相似性约束项，用以增加类别字典间的判别性，(·)^T表示转置运算，λ₃是相似性约束项的参数；

(7)重复步骤(4)-(6)，直到目标函数收敛或达到最大迭代次数，得到最终字典D；

(8)使用最终字典D，通过优化下式的目标函数得到每个视频样本的编码矩阵B_g：

\min_{B_{g}} \frac{1}{2} | | Y^{g} - {DB}_{g} | |_{F}^{2} + γ | | B_{g} | |_{2, 1}, g = 1, 2, ..., h,

其中，||·||_F表示F范数，||·||_2,1表示2,1范数，上式第一项是视频样本编码的重构误差项，||B_g||_2,1是对编码矩阵B_g的组稀疏约束项，h表示所有视频样本的个数即h＝n_L+n_U+n_T，γ为组稀疏约束项的参数；

(9)对所有视频样本的局部特征，根据步骤(7)中得到的编码矩阵B_g，应用最大池化算法，将每个视频样本表示成一个m维的编码向量z_g:

z_{g} = {[{\hat{z}}_{1}, {\hat{z}}_{2}, .. {\hat{z}}_{k} ., {\hat{z}}_{m}]}^{T}, k = 1, 2, .., m

其中，

{\hat{z}}_{k} = m a x (| B_{g | k 1} |, | B_{g | k 2} |, .., | B_{g | k q} |, ..., | B_{g | k K} |),

g＝1,2,...,h，q＝1,2,...,K，B_g|kq表示第g个视频样本编码矩阵B_g的第k行q列，K表示这个视频的局部特征个数；

(10)利用所有训练样本的编码向量组成稀疏表示分类字典由类别标签为i的所有训练样本的编码向量组成，i是字典的类别标签i＝1,2,...,c，c为类别总数,n_L是训练样本中有标签样本的总数，即表示第i类有标签样本的个数；

(11)根据分类字典对步骤(9)得到的每个测试样本的编码向量进行稀疏编码，由下式得到测试样本在分类字典上的编码系数β：

\min_{β} {| | \hat{y} - \hat{D} β | |_{2}^{2} + η | | β | |_{1}},

其中，||·||₂表示向量的2范数，||·||₁表示向量的1范数，η是用于平衡重建误差和编码稀疏性的参数，η取值范围为0～1；

(12)利用编码系数β依次计算每个测试样本在每类分类字典上的残差

r_{i} (\hat{y}) = | | \hat{y} - {\hat{D}}_{i} β_{i} | |_{2}^{2} / | | β_{i} | |_{2}, i = 1, ..., c

其中，β_i是当前测试样本在第i类字典上的编码系数；

(13)根据残差的大小对测试样本进行分类,找到产生最小残差的分类类别字典将该字典的标签i作为当前测试样本的标签，依次完成对所有测试样本的分类。

本发明与现有技术相比，具有以下优点：

1、本发明使用的半监督字典学习方法，相对于有监督字典学习方法和无监督字典学习方法，充分考虑了大量存在的无标签样本的信息，在有标签样本很少的情况下，更能体现出它相对于有监督字典学习方法和无监督字典学习方法的优势，更加符合实际应用的情况。

2、本发明使用k近邻方法得到无标签样本的权值向量，通过权重向量引入了特征的局部空间信息，增强了最终字典表示视频样本的判别性。

附图说明

图1是本发明的实现示意图；

图2是本发明实验中所用的Weizmann数据集中截取的样本帧图像；

图3是本发明实验中所用的KTH数据集中截取的样本帧图像；

图4是本发明在Weizmann数据集上的分类混淆矩阵图；

图5是本发明在KTH数据集上的分类混淆矩阵图。

具体实施方式

参照图1，本发明主要包括三个部分：字典学习、视频表示、视频分类。下面分别介绍这三部分的实施步骤：

一、字典学习

步骤1：对所有视频样本进行训练样本和测试样本的划分。

1a)输入人体行为识别数据集的所有视频样本以及它们的真实标签i，按照数据集作者建议的方法选取其中n个视频样本作为训练样本，数据集中剩余的h-n个视频样本作为测试样本，其中，i∈{1,2,...,c}，i表示该视频样本的类别标签，c表示视频样本的类别标签总数，h表示所有视频样本的个数；

1b)根据数据集中训练样本的真实标签i，从真实标签为i的视频样本中选取w个视频样本作为真实标签已知的样本，即有标签样本；将训练样本中剩余的视频样本作为真实标签未知的样本，即无标签样本；得到有标签样本的个数为w*c，无标签样本的个数为n-w*c。

步骤2：输入所有的训练样本、测试样本和训练样本中有标签样本的真实标签i，获得每个视频样本的局部特征。

每个视频样本中只含有一种人体行为，利用空时域的Harris角点检测方法对视频中的行为进行局部特征区域检测，在提取到的局部特征区域提取视频中行为的梯度直方图特征和光流直方图特征，并把得到的这两种特征进行拼接，获得一个视频样本的局部特征集合：

X_{a}^{i} = [x_{1}, x_{2}, ..., x_{q}, ..., x_{b_{a}^{i}}] &Element; R^{d \times b_{a}^{i}},

其中，表示训练样本中有标签样本的第i类第a个视频样本的局部特征集合，a＝1,2,...,n_i,n_i表示第i类训练样本有标签样本的个数，x_q表示该视频样本的第q个局部特征，表示训练样本中有标签样本的第i类第a个视频样本的局部特征个数，d表示局部特征的维数。

步骤3:利用训练样本中所有有标签视频样本的局部特征建立初始化字典D⁽⁰⁾。

3a)设训练样本第i类视频样本的局部特征集合为

3b)对训练样本的第i类视频样本的局部特征集合Xⁱ进行随机采样，得到第i类的初始化类别字典将获得的所有初始化类别字典进行拼接得到初始化字典其中：i＝1,2,...,c，d表示局部特征的维数，b表示每类初始化类别字典的原子个数，m是初始化字典的原子个数，即m＝c*b。

步骤4：构造第t次迭代的权重矩阵A^(t)。

4a)对于训练样本中的每个有标签样本，按照如下步骤得到它的权重向量：

4a1)利用下式得到该视频样本权重向量的第p个元素

其中，p＝1,2,...,m，l＝1,2,...,n；

4a2)计算权重向量的每个元素值得到该视频样本的权重向量

4b)计算训练样本中的每个无标签视频样本的权重向量：

4b1)用k近邻方法求出该视频样本每个局部特征在第t次迭代字典D^(t)中的k个近邻字典原子，并得到该视频样本近邻矩阵L∈R^m×K的第p行第s列L_ps：

其中，p＝1,2,...,m，s＝1,2,...,K，K表示这个视频中的局部特征个数；

4b2)计算近邻矩阵L的每个元素值L_ps，得到该视频样本的近邻矩阵L；

4b3)对矩阵L按行进行求和，得到一个列向量设为LL；

4b4)根据得到的列向量LL，利用下式得到该视频样本权重向量的第p个元素

其中p＝1,2,...,m，δ为尺度参数，LL_p表示列向量的第p个元素，max(LL)表示求列向量LL的最大元素值；

4b5)计算权重向量的每个元素值得到该视频样本的权重向量

4c)计算权重矩阵A^(t)∈R^m×n中每一列对应的训练样本的权重向量得到所有训练样本的权重矩阵A^(t)，其中，n表示所有训练样本有标签样本的个数,且有t＝0,1,...,max，max表示最大迭代次数，权重矩阵的每一列对应一个训练样本的权重向量。

步骤5：使用第t次迭代得到的字典D^(t)，对每个训练样本进行编码。

5a)对于训练样本中第l个视频样本Y^l,得到求解该视频样本第t次迭代编码矩阵的目标函数，如公式<1>所示：

\min_{B_{l}^{(t)}} \frac{1}{2} | | Y^{l} - D^{(t)} B_{l}^{(t)} | |_{F}^{2} + L | | B_{l}^{(t)} | |_{1, 1} + λ_{2} | | d i a g (A_{\cdot l}^{(t)}) B_{l}^{(t)} | |_{2, 1}, - - - < 1 >

其中l＝1,2,....,n，是权重矩阵A^(t)的第l列，||·||_F表示F范数，||·||_1,1表示1,1范数，||·||_2,1表示2,1范数,式中第一项表示视频样本编码的重构误差项，是对编码矩阵的稀疏性约束项，是组稀疏约束项，该组稀疏约束项用以约束参与编码的字典原子来自于同一类的类别字典,λ₁是稀疏约束项参数，λ₂是组稀疏约束项参数；

5b)优化公式<1>,得到该视频样本第t次迭代的编码矩阵

5b1)通过公式<1>对编码矩阵中的第l个视频样本编码矩阵的第r行第q列进行求导，得到下式：

\frac{\partial f}{\partial B_{l | r q}^{(t)}} = \underset{j &NotEqual; r}{Σ} B_{l | r q}^{(t - 1)} (d_{j}^{(t)} \cdot d_{r}^{(t)}) - Y_{\cdot r}^{l} \cdot d_{r}^{(t)} + | | d_{r}^{(t)} | |_{2}^{2} B_{l | r q}^{(t)} + λ_{1} \frac{\partial}{\partial B_{l | r q}^{(t)}} | | B_{l | r q}^{(t)} | |_{1} + λ_{2} A_{r l}^{(t)} \frac{B_{l | r q}^{(t)}}{| | B_{l | r \cdot}^{(t)} | |_{2}} - - - < 2 >

其中，

f = \frac{1}{2} | | Y^{l} - D^{(t)} B_{l}^{(t)} | |_{F}^{2} + L | | B_{l}^{(t)} | |_{1, 1} + λ_{2} | | d i a g (A_{\cdot l}^{(t)}) B_{l}^{(t)} | |_{2, 1},

||·||₂表示向量的2范数，表示向量2范数的平方，·表示二个向量的内积运算，表示第t次迭代第l个视频样本编码矩阵的第r行第q列，表示第t次迭代第l个视频样本编码矩阵的第r行，q表示视频样本的第q个局部特征，表示字典D^(t)的第r列，r＝1,2,...,m；

5b2)令公式<2>等于零,得到下式：

B_{l | r q}^{(t)} = {\begin{matrix} (1 - λ_{2} \frac{A_{r l}^{(t)}}{| | v_{q}^{'} λ_{1} | |_{2}}) \frac{v_{q}^{'} - λ_{1}}{| | d_{r}^{(t)} | |_{2}^{2}} & v_{q}^{'} > λ_{1} \\ 0 & v_{q}^{'} < λ_{1} \end{matrix}, - - - < 3 >

其中v'_q＝max(v_q,0)，

ν_{q} = Y_{\cdot r}^{l} \cdot d_{r}^{(t)} - \underset{j &NotEqual; r}{Σ} B_{l | r q}^{(t - 1)} (d_{j}^{(t)} \cdot d_{r}^{(t)});

5b3)计算第t次迭代编码矩阵中的每个元素值得到该视频样本的编码矩阵

步骤6：更新字典，得到每一次的迭代字典。

6a)得到求解第t+1次的迭代字典D^(t+1)的目标函数，如公式<4>所示：

\min_{D^{(t + 1)}} Σ_{l = 1}^{n} \frac{1}{2} | | Y^{l} - D^{(t + 1)} B_{l}^{(t)} | |_{F}^{2} + λ_{3} \underset{i < j}{Σ} Σ_{j = 1}^{c} | | {(D_{i}^{(t + 1)})}^{T} D_{j}^{(t + 1)} | |_{F}^{2} - - - < 4 >

其中，是对类别字典的相似性约束项，用以增加类别字典间的判别性，(·)^T表示转置运算，表示第t+1次迭代第i类的类别字典，λ₃是相似性约束项的参数；

6b)通过公式<4>对第t+1次迭代字典D^(t+1)中第r个字典原子进行求导且令其结果等于零，得到下式:

d_{r}^{(t + 1)} = {(ν (r, r) + λ_{3} M \cdot M^{T})}^{- 1} u (:, r) - - - < 5 >

其中，r∈{1,2,...,m}，i∈{1,2,...,c}，局部字典M是字典D^(t)剔除第i个类类别字典后所形成的局部字典，即(·)^T表示转置运算，(·)^-1表示矩阵的求逆运算，

u (:, r) = v v (:, r) - D^{(t)} \cdot v (:, r) + v (r, r) \cdot d_{r}^{(t)},

v = \underset{l}{Σ} B_{l}^{(t)} \cdot {(B_{l}^{(t)})}^{T}, ν ν = \underset{l}{Σ} Y^{l} \cdot {(B_{l}^{(t)})}^{T};

6c)通过计算第t+1次迭代字典D^(t+1)中的每个字典原子得到第t+1次的迭代字典D^(t+1)。

步骤7：重复步骤(4)-(6)，直到目标函数收敛或达到最大迭代次数,得到最终字典D。

二、视频编码

步骤8:使用最终字典D，通过优化下式的目标函数得到每个视频样本的编码矩阵B_g：

\begin{matrix} \min_{B_{g}} \frac{1}{2} | | Y^{g} - {DB}_{g} | |_{F}^{2} + γ | | B_{g} | |_{2, 1} & g = 1, 2, ..., h \end{matrix}

其中，||·||_F表示F范数，||·||_2,1表示2,1范数，上式第一项是视频样本编码的重构误差项，||B_g||_2,1是对编码矩阵B_g的组稀疏约束项，γ为组稀疏约束项的参数。

步骤9：将每个编码矩阵向量化，得到每个样本的最终表示编码向量。

9a)利用maxpooling算法对将步骤7中得到的每个视频样本的编码矩阵B_g的每一行取最大值：

{\hat{z}}_{k} = m a x (| B_{g | k 1} |, | B_{g | k 2} |, .., | B_{g | k i} |, ..., | B_{g | k K} |),

其中，g＝1,2,...,h，k＝1,2,...,m，B_g|ki表示第g个视频样本编码矩阵B_g的第k行第i列，K表示这个视频的局部特征个数；

9b)用编码矩阵每一行的最大值组成一个列向量：k＝1,2,...,m，这样每个视频样本就被表示成一个m维的编码向量z^*。

三、视频分类

步骤10：利用训练样本组建分类字典

设训练样本中有标签样本的个数为N_l＝w*c，利用训练样本中所有有标签样本的编码向量组成分类字典表示第i类分类类别字典，i＝1,2,...,c，m是字典原子个数，c是字典类别总数。

步骤11：利用分类字典依次对步骤(10)得到的每个测试样本编码向量进行稀疏编码,得到测试样本在分类字典上的编码系数β：

\min_{β} {| | \hat{y} - \hat{D} β | |_{2}^{2} + η | | β | |_{1}},

其中，||·||₂表示向量的2范数，||·||₁表示向量的1范数，η是用于平衡重建误差和编码稀疏性的参数，η取值范围为0～1。

步骤12：利用编码系数依次计算每个测试样本在每个分类类别字典上的残差

r_{i} (\hat{y}) = | | \hat{y} - {\hat{D}}_{i} β_{i} | |_{2}^{2} / | | β_{i} | |_{2}, i = 1, ..., c,

其中，β_i是当前测试样本在第i类分类类别字典上的编码系数。

步骤13：根据测试样本在每个分类类别字典上的残差，对测试样本进行分类。

根据测试样本在每个分类类别字典上的残差找到产生最小残差的分类类别字典将该分类类别字典的类标i作为测试样本的类标，i∈{1,2,...,c}。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件

仿真实验在AMDA6-6310CPU、主频1.80GHz，内存4G，Windows7平台上的MATLAB7.14上进行。本实验分别在Weizmann数据集和KTH数据集上利用本发明方法进行测试，并与Y.Sun,Q.Liu,J.Tang，D.Tao，LearningDiscriminationDictionaryforGroupSparseRepresentation，ImageProcessing.文中的有监督字典学习方法进行对比。实验使用的数据集为Weizmann数据集和KTH数据集。其中：

Weizmann数据集包含93个视频，所有视频来自于9个不同的人动作，每个人演示不同的10个行为动作，即c＝10，该数据集视频的部分样本帧截图如图2所示。这些动作包含：walk,run,jump,side,bend,waveone,wavetwo,pjump,jac,和skip，由于有一个人演示了两次walk,runandskip这三种行为，从这个人的walk,runandskip三种行为中分别去除一个视频样本，使用剩余的90个视频样本进行仿真实验。仿真实验中选择其中5个人的行为动作作为训练样本，n＝50，剩余的视频样本作为测试样本h-n＝40；

KTH数据集包含600个视频，该数据集视频的部分样本帧截图如图3所示。该数据集是由25个人在4个不同的场景下完成的，包括6个行为动作，即c＝6，分别是：walk，jog，run，box，hwavandhclap，视频的背景是固定的，只有一小部分视频中视角有一些轻微的变化。仿真实验中按照作者的建议，选取其中8个人的行为动作作为训练样本，即第11-18个人的行为动作，n＝192；选取其中10个人的行为动作作为测试样本，即第2,3,5-10,22个人的行为动作，h-n＝216。

2.仿真内容与结果

仿真1，在Weizmann数据集上使用本发明方法进行识别测试的仿真实验。

随着训练样本中的每类有标签样本个数w的变化，用本发明方法和现有的有监督方法对Weizmann数据集进行识别，其结果如表1。

表1.本发明与现有的有监督方法在Weizmann数据集上的分类结果对比

从表1可以看出，本发明的识别效果整体上是优于现有的有监督方法的。现有的有监督方法在字典学习时只引入了对有标签样本的重构误差和有标签样本的信息，而本发明方法不仅引入了对有标签样本的重构误差，还加入了稀疏性约束和类别字典相似性约束，并且同时引入了无标签样本的信息，从而能够提升测试样本的识别正确率。实验结果证明，本发明方法能够得到更具判别性的字典，从而可以对人体行为动作进行有效的表示，并在有效表示的基础上达到了较好的人体行为识别效果。

当w＝4时，使用本发明方法对Weizmann数据集分类结果的混淆矩阵图，如图4所示。从图4中可以看出，本发明方法对Weizmann数据集中的所有人体行为动作均取得了很好的识别率。

仿真2，随着训练样本中的每类有标签样本个数w的变化，使用本发明方法和现有的有监督方法对KTH数据集进行识别，其结果如表2。

表2.本发明与现有的有监督方法在KTH数据集上的分类结果对比

从表2中可以以看出，本发明在KTH数据集上的识别正确率优于现有监督方法，比现有监督的方法提升了近1％的正确率，这进一步证明，本发明中所使用的字典学习方法能够有效保证对于测试样本的正确识别。

当w＝8时，使用本发明方法对KTH数据集分类结果的混淆矩阵图，如图5所示。从图5中可以看出，本发明对于KTH数据集中大部分人体行为动作均有良好的识别率，而对于run这个行为动作的识别率不是很高，这是由于run和jog两种行为动作比较相似的原因。由于本发明采用了半监督的字典学习方法进行字典的学习，引入了更多的样本判别信息，并对视频中的局部特征进行编码表示，使得最终的视频表示更具有判别性，从而保证了对人体行为的较高识别能力。

Claims

1.基于相似性权重的半监督字典学习的人体行为识别方法，包括如下步骤：

(1)输入包含c类行为的视频数据集，其中包括训练数据集和测试数据集，训练数据集由n_L个带有类别标签的视频数据和n_U个无标签视频数据组成，测试数据集由n_T个测试视频数据组成，每个视频作为一个样本只含有一种行为；

\min_{B_{l}^{(t)}} \frac{1}{2} | | Y^{l} - D^{(t)} B_{l}^{(t)} | |_{F}^{2} + λ_{1} | | B_{l}^{(t)} | |_{1, 1} + λ_{2} | | d i a g (A_{. l}^{(t)}) B_{l}^{(t)} | |_{2, 1}

\min_{D^{(t + 1)}} Σ_{l = 1}^{n} \frac{1}{2} | | Y^{l} - D^{(t + 1)} B_{l}^{(t)} | |_{F}^{2} + λ_{3} \underset{i < j}{Σ} Σ_{j = 1}^{c} | | {(D_{i}^{(t + 1)})}^{T} D_{j}^{(t + 1)} | |_{F}^{2}

\min_{B_{g}} \frac{1}{2} | | Y^{g} - {DB}_{g} | |_{F}^{2} + γ | | B_{g} | |_{2, 1}, g = 1, 2, ..., h,

z_{g} = {[{\hat{z}}_{1}, {\hat{z}}_{2}, .. {\hat{z}}_{k} ., {\hat{z}}_{m}]}^{T}, k = 1, 2, .., m

其中，g＝1,2,...,h，q＝1,2,...,K，B_g|kq表示第g个视频样本编码矩阵B_g的第k行q列，K表示这个视频的局部特征个数；

\min_{β} {| | \hat{y} - \hat{D} β | |_{2}^{2} + η | | β | |_{1}},

r_{i} (\hat{y}) = | | \hat{y} - {\hat{D}}_{i} β_{i} | |_{2}^{2} / | | β_{i} | |_{2}, i = 1, ..., c

其中，β_i是当前测试样本在第i类字典上的编码系数；

(13)根据残差i＝1,...,c的大小对测试样本进行分类,找到产生最小残差的分类类别字典将该字典的标签i作为当前测试样本的标签，依次完成对所有测试样本的分类。

2.根据权利要求1所述的基于相似性权重的半监督字典学习的人体行为识别方法，其中步骤(4)所述的构造权重矩阵A^(t)∈R^m×n，按如下步骤进行：

4a)计算训练样本集中的每个有标签视频样本的权重向量：

其中，对于第l个视频样本且该视频样本是无标签样本，表示该样本的编码向量的第p个元素，p＝1,2,...,m，b表示类别字典的原子个数，l＝1,2,...,n，i∈{1,2,...,c}；

4b)计算训练样本集中的每个无标签视频样本的权重向量：

4b1)用k近邻方法求出该视频样本每个局部特征在第t次迭代字典D^(t)中的k个近邻字典原子，并得到该视频样本近邻矩阵L∈R^m×K，其第p行第s列元素L_ps为：

4b2)对近邻矩阵L每一行进行求和，得到一个列向量LL∈R^m；

4b3)根据得到的列向量LL，利用下式得到第l个视频样本且该样本是无标签样本的权重向量的第p个元素

4c)计算权重矩阵A^(t)中每一列对应的训练样本的权重向量得到权重矩阵A^(t)。