CN111507243B

CN111507243B - 一种基于格拉斯曼流形分析的人体行为识别方法

Info

Publication number: CN111507243B
Application number: CN202010293342.2A
Authority: CN
Inventors: 徐增敏; 李姣芬; 李向利; 丁勇; 李春海; 蒙儒省; 罗劲锋; 徐波
Original assignee: Guilin Anview Technology Co ltd; Guilin University of Electronic Technology
Current assignee: Guilin Anview Technology Co ltd; Guilin University of Electronic Technology
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2022-08-19
Anticipated expiration: 2040-04-15
Also published as: CN111507243A

Abstract

本发明公开了一种基于格拉斯曼流形分析的人体行为识别方法，包括获取数据集的所有训练样本映射到格拉斯曼流形空间；对类内样本点距离和类间样本点距离进行建模；重新定义数据集上的训练样本；建立组合学习模型；对组合学习模型进行迭代求解。以多种特征建模设计分类器模型。从已标注和未标注的行为视频中，基于自定义图模型，通过标签传播方法生成未标注视频的虚拟标签，并使用多流形分析揭示特征数据相关性。对于每种类型特征，既单独保留近邻数据点的局部结构一致性，又在训练集中使用多种特征数据点的全局一致性，来预测未标注样本的标签数据，在标注数据不足时，训练出一种人体行为视频的多分类器，从而提高人体行为识别的准确度。

Description

一种基于格拉斯曼流形分析的人体行为识别方法

技术领域

本发明涉及视频分析处理技术领域，尤其涉及一种基于格拉斯曼流形分析的人体行为识别方法。

背景技术

人体行为识别是智能视频分析领域的研究热点，近几年来受到学术界及工程界的广泛重视。面向的应用包括人体行为属性分析与预判、视频监控、智能家具、人机交互等等。然而，提升人体行为识别的准确率和效率依旧是一个难题。其主要在于以下几个方面：一、类内和类间数据的差异：对于不同的行为之间，存在较大的差异。但是也存在一些特殊的类别之间差异很小，比如KTH数据库中的慢跑和跑步，二者相似度高；二、场景和视频采集条件：随着多媒体时代的到来，互联网上涌现出大量的视频资源，这些视频主要的场景都是以自我为角度下进行拍摄与监控场景下的角度完全不同，并且极少数的监控视频会放到互联网上。目前国内外有多个人体行为数据库供研究人员使用，但仍然难以达到工业级需求。

在过去的几十年里，对人体行为识别的研究主要分成了主要的两种：传统人工特征提取以及近几年流行的深度学习特征提取。常见的行为特征可分为静态特征、动态特征、时空特征和描述性特征。静态特征主要提取的是人体的尺寸大小，边缘，轮廓等等。静态特征可以很好的表示人体的整体信息，为行为识别提供有效信息。但是静态特征依赖着对背景环境的分割，在复杂背景下难以提取较好的静态特征；动态特征不考虑人体的整体信息，从视频中提取出人体运动的信息，其主要包括了人体的运动方向，运动轨迹以及运动速度等等。运动特征表示的是人体的运动信息，其容易收到噪声，颜色等影响。一般用光流法提取运动特征；时空特征利用一段有序的视频序列作为一个整体来分析和处理。时空特征在视频尺度、视频方向和拍摄视频时光照的改变下依然具有良好的稳定性，但是时空特征容易受到背景物体运动所带来的影响。描述性特征主要是对视频人体行为进行描述分类，其能准确的表示人体行为,不过依赖于标注者的专业程度以及标注同类视频的数量,其人工成本消耗最大。

虽然现有行为识别方法可以降低学习动作模型的难度，但这些模型仍存在局限性：现有的行为识别算法评估了不同动作之间共享结构的重要性，但是忽略了类内紧凑性和类间可分性；而近年来流行的半监督学习可以从原始特征空间出发，探索特征间的相关性，充分利用现有数据。能有利于提高人体行为识别因数据量不足带来的性能损失。当前半监督方法虽然可以通过矩阵变换，及交替最小二乘法求解非凸优化问题，但特征子空间中的样本距离度量方法在标注数据不足时可能失准，从而导致人体行为识别精度低。

发明内容

本发明的目的在于提供一种基于格拉斯曼流形分析的人体行为识别方法，旨在解决标注数据不足时，人体行为识别准确度低的问题。

为实现上述目的，本发明提供了一种基于格拉斯曼流形分析的人体行为识别方法，包括：

获取视频数据集的所有训练样本，并将训练样本映射到格拉斯曼流形空间，并定义预测函数；

对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模；

重新定义数据集上的训练样本；

在格拉斯曼流形空间上建立组合学习模型，作为分类器训练的损失函数；

对组合学习模型进行迭代求解，直至满足终止条件停止计算，输出分类结果，并基于分类结果建立人体行为识别的特征空间转换模型。

在一实施方式中，获取视频数据集的所有训练样本，并将训练样本映射到格拉斯曼流形空间，并定义预测函数，具体包括：

基于映射函数将样本点映射至格拉斯曼流形空间；

对数据集的所有训练样本定义一个预测标签矩阵；

基于度量流形空间上数据点相似性的核函数方法和线性约束定义预测函数。

在一实施方式中，对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模，具体包括：

在格拉斯曼流形空间上标定第一数量个已标注样本点；

基于类内最近邻图和类间最近邻图建模。

在一实施方式中，重新定义数据集上的训练样本，具体包括：

划分训练样本为已标注训练样本和未标注训练样本；

基于预测标签矩阵、类内最近邻图、类间最近邻图和对角标注矩阵，建立格拉斯曼流形与标签一致性函数。

在一实施方式中，在格拉斯曼流形空间上建立组合学习模型，作为分类器训练的损失函数，具体包括：

采用范数正则化损失函数，更新格拉斯曼流形与标签一致性函数。

在一实施方式中，对组合学习模型进行迭代求解，直至满足终止条件停止计算，输出分类结果，并基于分类结果建立人体行为识别的特征空间转换模型，具体包括：

基于PBB方法和迹运算，重新标定更新后的格拉斯曼流形与标签一致性函数为目标函数；

基于目标函数的近似静止点，得到迭代终止条件，当满足迭代终止条件时，则停止计算输出分类结果。

本发明的一种基于格拉斯曼流形分析的人体行为识别方法，通过获取视频数据集的所有训练样本，并将训练样本映射到格拉斯曼流形空间，并定义预测函数；对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模；重新定义数据集上的训练样本；在格拉斯曼流形空间上建立组合学习模型，作为分类器训练的损失函数；对组合学习模型进行迭代求解，直至满足终止条件停止计算，输出分类结果，并基于分类结果建立人体行为识别的特征空间转换模型。以多种特征建模的方式来设计人体行为识别的分类器模型。从已标注和未标注的行为视频中，可以提取出的多种特征包括底层动作特征、视频类别标签、转换空间特征三类。基于自定义图模型，可以通过标签传播方法生成未标注视频的虚拟标签，并使用多流形分析来揭示特征数据的相关性。对于每种类型的特征，既能单独保留近邻数据点的局部结构一致性，又能在训练集中使用多种特征数据点的全局一致性，来预测未标注样本的标签数据。通过这种半监督学习方式，在标注数据不足时，训练出一种人体行为视频的多分类器，从而提高人体行为识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于格拉斯曼流形分析的人体行为识别方法的流程示意图；

图2是各分类器算法在3个公开数据集上，每类使用3个标注样本协同训练的性能对比图；

图3是各分类器算法在3个公开数据集上，每类使用5个标注样本协同训练后的性能对比图；

图4是各分类器算法在3个公开数据集上，每类使用10个标注样本协同训练后的性能对比图；

图5是各分类器算法在3个公开数据集上，每类使用15个标注样本协同训练后的性能对比图；

图6是三种最优化方法在JHMDB数据集上的收敛曲线示意图；

图7是类内流形和类间流形对KGMA性能的影响示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，图1是本发明实施例提供的一种基于格拉斯曼流形分析的人体行为识别方法的流程示意图，具体的，所述基于格拉斯曼流形分析的人体行为识别方法可以包括以下步骤：

S101、获取视频数据集的所有训练样本，并将训练样本映射到格拉斯曼流形空间，并定义预测函数；

本发明实施例中，基于映射函数将样本点映射至格拉斯曼流形空间；为了发掘行为识别应用中的特征相关性，在格拉斯曼流形空间中有n个训练样本点

其中

为了保持局部几何结构的同时，最大化样本点的判别能力，可通过映射函数α:X_i→F_i，将样本点X_i映射到一个新的流形空间F_i。对数据集

的所有训练样本，定义了一个预测标签矩阵

其中

是第i个样本数据点

的预测向量。存在度量流形空间上数据点相似性的核函数方法k_i,j＝<X_i,X_j>。通过线性约束

可将预测函数F定义为：

f(X_i)＝F_i＝(<α₁,X_i〉,〈α₂,X_i〉,...,〈α_r,X_i〉)^T； (1)

可定义A_l＝(a_l1,...,a_ln)^T,K_i＝(k_i1,...,k_in)^T，得到

因此

其中

与合页损失(hinge loss)和逻辑斯谛损失(logist loss)等其它损失函数相比，最小二乘损失函数在求解速度和精度上相对更优。定义对角矩阵

其中Y_i∈{0,1}^n×1是第i个样本数据点

对应真实标签所做对角矩阵的向量。为了求出投影变换矩阵

并以此作为新训练出的多分类器，可以通过最小二乘回归求解以下最优化问题：

其中η为正则化参数，

表示Frobenius范数，

负责控制模型复杂度以防止过拟合。

S102、对格拉斯曼流形空间上的类内样本点距离和类间样本点距离进行建模；

本发明实施例中，线性判别分析(LDA)是一种有监督统计学习方法，通过寻找一种线性投影，可以最大化类间不相似性，以及最小化类内不相似性。由于LDA已经成功应用于各种计算机视觉问题(如人脸识别等)，但这种方法仍无法获取数据的局部结构信息，而且难以处理多模态聚类与数据离群值等问题。因此，考虑使用邻域嵌入来定义一个图模型(V，G)，并用V表示对应顶点的集合，以及连接顶点对的边的集合；而对称矩阵G描述顶点对之间的相似性。基于图模型的对角矩阵D和拉普拉斯矩阵L可定义为L＝D-G，D的对角元素为

D(i,i)＝∑_j≠iG(i,j)。

可在格拉斯曼流形空间上进行基于图嵌入模型的特征分析。在向量空间中给定一张图，通过将数据点映射到另一个向量空间，且保持图顶点对之间的相似性，图嵌入分析能最大化特征的判别力。该问题可通过广义特征分析进行求解。首先，在格拉斯曼流形空间M上，给定第一数量即N个已标注样本点

其中

C表示类别数。格拉斯曼流形空间M的局部几何结构，可通过定义类内最近邻图G_w和类间最近邻图G_b来建模，公式如下：

公式(4)中N_w(X_i)是v个近邻点

组成的集合，且对应标签l_i相同，而公式(5)中N_b(X_i)则表示v个不同类别标签的近邻点。

令映射函数为α:X_i→Y_i，可将格拉斯曼流形空间M上的数据点映射到一个新的流形空间M′。为了使得相同类图模型Gw的相连顶点尽量靠近，且不同类图模型G_b的相连顶点尽量拉远，可定义以下2个目标函数：

公式(6)将惩罚那些在新流形空间M′映射得较远的同类近邻点，而公式(7)则惩罚那些在新流形空间M′映射得较近的不同类样本点。存在一种格拉斯曼核函数方法k_i,j＝〈X_i,X_j〉，可在流形空间上度量数据点之间的相似性，通过线性约束

可将映射后的函数Y定义为：

Y_i＝(〈α₁,X_i>,<α₂,X_i>,...,<α_r,X_i>)^T； (8)

可定义A_l＝(a_l1,...,a_ln)^T,K_i＝(k_i1,...,k_in)^T，得到

因此公式(6)可以简化为：

其中

由于L_b＝D_b-G_b，故公式(7)可简化为：

可在公式(6)上加入一个约束项，使得这个最小化问题转为最大化问题，即令

等于一个常量1，公式(6)可变为以下最大化问题：

服从约束

通过转换公式，整体最优化目标函数可得：

其中β是一个拉格朗日乘子，负责目标函数的正则化。通过以下广义特征值求解问题可以算出公式(13)的最优解：

所求投影变换矩阵

等价于求解瑞利商的r个最大特征向量：

通过求出的映射矩阵

在格拉斯曼流形上的图像匹配问题已经变为向量空间的分类问题。对于任一待查询图像集X_q，可用一个映射矩阵

和一个核函数的向量来表达，即

其中K_q＝(〈X₁,X_q>,<X₂,X_q〉,...,〈X_N,X_q〉)^T。与此相似，一个检索结果数据点X_i可以用

的r维向量来表达，并使用最近邻法和支持向量机等分类方法对X_q进行标注。在格拉斯曼流形空间上的类内样本点距离和类间样本点距离，可通过公式(4)和(5)的最近邻图Gw和类间最近邻图Gb来建模。将格拉斯曼流形空间的判别信息定义为：

其中，β是一个控制类内流形紧凑性和类间流形可分性的正则化参数。tr(·)为迹运算，L_w＝D_w-G_w为拉普拉斯矩阵，D_W和D_b为对角矩阵，且

S103、重新定义数据集上的训练样本；

本发明实施例中，为了让已标注样本和未标注样本数据同时参与基于图模型的半监督训练，划分训练样本为已标注训练样本和未标注训练样本；具体为重新定义训练数据集为

其中

和

分别表示已标注训练样本和未标注训练样本两个子集。

的标注矩阵为

其中

图嵌入预测标签矩阵

应该与G_w,G_b和对角标注矩阵

保持一致性，因此格拉斯曼流形与标签一致性的公式可以定义为：

S104、在格拉斯曼流形空间上建立组合学习模型，作为分类器训练的损失函数；

本发明实施例中，为了整合多特征分析和以上公式，在格拉斯曼流形空间上提出一个新的组合学习模型。采用Frobenius范数正则化损失函数，更新格拉斯曼流形与标签一致性函数，即公式(17)可重写为：

其中，μ＞0,η＞0,β＞0为正则项。

由于公式(18)是一个无约束凸优化问题，因此可用交替最小二乘法(ALS)来求全局最优解。虽然相关性矩阵只会在极少数情况下出现奇异，但是投影梯度法能避免矩阵求逆求解问题，并得出比ALS更好的最优解。

S105、对组合学习模型进行迭代求解，直至满足终止条件停止计算，输出分类结果，并基于分类结果建立人体行为识别的特征空间转换模型。

本发明实施例中，通用无约束最小化问题可以用PBB方法和迹运算来迭代求解，重新标定更新后的格拉斯曼流形与标签一致性函数为目标函数，即将公式(18)重新定义为一个新的目标函数

如果

是公式(1-19)的一个近似静止点，那么它应该满足公式(19)的KKT条件，即迭代终止条件可改写为：

其中ε是一个非负极小值，当满足迭代终止条件时，则停止计算输出分类结果。

梯度方法会通过以下公式生成一些数值点

其中σ_t为非单调线性搜索的步长，

作为可调线性搜索步长，由以下公式决定：

可调线性搜索步长有2种选择

其中

由于公式(23)的可调线性搜索步长能令目标函数变成非单调函数，因此

的值可能会在迭代过程中忽然增高引起震荡。为了保证

的收敛性，使用了全局非单调线性搜索技术：

其中C_t为Armoji线性搜索方法的参数。为了克服非线性搜索技术的缺点，使用加权平均函数值以取代传统最大函数值：

其中τ∈(0,1]。

实验及结果分析，为了比较PBB、SPG和ALS在求解目标函数公式(19)上的差异，在此将使用SPG求解核化流形空间目标函数的方法称为核化谱投影梯度法(KSPG)，将使用ALS求解核化流形空间目标函数的方法称为核化交替最小二乘法(KALS)。实验中使用了三个数据集，分别是JHMDB、HMDB51和UCF101。JHMDB是HMDB51的一个子集，有928个剪辑视频，包含21个动作类别。HMDB51数据集包含6766个视频序列，记录51个动作类别。UCF101数据集收集了13320个视频剪辑，包括101个动作类别。在测试集方面，提供JHMDB和HMDB51数据集上的标准测试集，以及UCF101数据集上第一个分组的测试集。

对于JHMDB和HMDB51数据集进行分组。对于UCF101数据集，由于计算复杂度和内存资源有限，故在此只使用了第一个分组的训练集和测试集。其中，将每一类随机选取30个视频作为训练样本，包括有标签的和无标签的样本，并沿用原始测试集来比较平均识别率。

对于手工制作的特征，使用HOG+HOF+MBH描述符提取改进的稠密轨迹特征iDT。通过PCA和L₂范数归一化，将维数D降为198。在基于256000个随机采样特征的用K阶高斯训练GMM码本，每个动作视频经过PowerL₂归一化后形成2DK＝6336维的Fv表示，其中K＝16。当gmmSize＝16时行为识别的结果如图2至图5所示。

对于深度学习特征，选用时序分割网络TSN提取的深度特征。重新训练3×c、5×c、10×c、15×c的TSN模型，然后提取3×c、5×c、10×c、15×c的全局池化特征，分别通过相应的TSN模型，将rgb+flow 2048维度与Power L₂归一化，行为识别结果如表1所示。

表1算法性能对比，使用深度特征TSN，15c个已标注样本和15c个未标注样本

以JHMDB数据集为例，实验先从原训练集中，随机选取每类30个视频样本组成一个新的子训练集(即30×c个训练样本)。从子训练集中随机选取每类m(m＝3,5,10,15)个视频作为已标注样本。当m＝10时，表示有10×c个标注样本，剩下30×c-10×c个视频作为为标注样本，一起参与半监督学***均精度和均方差。

为了验证发明所提方法在半监督行为识别应用中的有效性，本实验对比算法SVM-x²、SVM-linear、SFC(子空间特征相关性算法)、SFS(即子空间特征选择算法)、MFC(即多特征相关性算法)的基础上，增加了KSPG、KALS两种算法进行性能对比。其中SFC、SFS、MFC、KGMA、KSPG、和KALS都是半监督学习算法，而SVM-x²、SVM-linear属于全监督分类器。

对于半监督参数，包括SFS、SFC、MFC、KGMA、KSPG、KALS的η,β,μ，使用的取值范围为{10^-4,10^-3,10^-2,10^-1,1,10¹,10²,10³,10⁴}。由于KGMA使用了PBB求解目标函数(19)的最优值，导致训练迭代过程中会出现函数值震荡的非单调收敛情况，如图6所示，因此仅用绝对误差很难停止迭代，所以将训练过程中前后两次目标函数值的相对误差作为迭代终止条件，其中公式(20)的非负极小常数ε设为10^-4。

实验还评估了投影映射核k^[proj]、以及典型相关核k^[CC]、以及两者组合的核函数k^[proj+CC]。实验结果指出，在某些数据集上k^[proj]会比k^[CC]效果更好，反之亦然，这可能是因为这两种核适用于不同的数据分布。对于k^[proj+CC]而言，混合系数δ^[proj],δ^[CC]均设为1。通过δ^[proj+CC]组合两种核函数发现，这比单独使用两种核时效果更好，进一步说明了k^[proj]和k^[CC]分别表征了核化流形空间上不同的数据分布，验证了所提出典型相关核函数方法的有效性。

最优方法对比，针对发明所提目标函数(19)，表2列出了三种最优化方法的数值计算结果。在JHMDB数据集上，当使用维度2048的深度特征TSN时，仅用每类15个标注样本和15个未标注样本进行训练，并设置相同的半监督参数η,β,μ，即可通过运行时间、迭代次数、误差、相对误差和目标函数值，来比较相同目标函数求解过程中的性能差异。其中图6为三种最优化方法的收敛曲线图，需要注意的是，由于SPG和PBB都是非单调最优化方法，而且函数值震荡幅度较大，为避免ALS单调收敛的数值能够看出迭代次数和收敛过程，因此在图6中忽略了SPG和PBB前29次的收敛曲线，只从第30步迭代开始显示数据。

如表2所示，对于随机选取的一个视频行为数据样本，经过TSN网络提取出的深度特征，ALS的迭代次数最少，运行时间最短，单次计算速度最快，仅为0.1220秒；PBB的迭代次数最多，运行时间最长，单次计算速度最慢，竟达0.4212秒；而SPG各项指标均属适中。结合图2至图5和表1可知，虽然本发明所提算法KGMA采用了PBB最优化方法，但是整体识别率仍然在核化格拉斯曼流形空间上取得最高性能。

表2三种最优化方法的数值计算结果(JHMDB上用15 c个已标注样本)

本实验以线性分类器SVM作为基准线，根据表1和图2至图5的结果显示：本发明所提方法在三个数据集上，对比所有半监督算法和全监督算法，均取得了最高的识别率。如图2至图5所示，当增加已标注样本数量，或者扩大半监督参数η,β,μ的取值范围时，所有半监督分类器都能取得更好的识别效果。当使用手工特征iDT+FV时，将3×c、5×c、10×c、15×c的各项识别率做平均之后，本发明所提算法在JHMDB、HMDB51、UCF101上分别提升了2.97％、2.59％、2.40％，当使用深度特征TSN时，所提算法的平均识别率在JHMDB、HMDB51、UCF101上分别提升了2.21％、3.77％、2.23％，与只用已标注样本的全监督线性分类器SVM相比，使用了未标注样本的行为识别效果更好。

以上结果可以说明：首先，本发明算法不仅利用了半监督学习的优点，还利用了类内紧凑性和类间可分性的特点。因此，当标注样本数量较少时，可以比其它方法提升更多的性能。其次，引入更多未标注样本增加训练样本数，通过核化格拉斯曼流形特征分析，加强了特征子空间的几何结构信息，使用PBB方法和KKT条件求解目标函数最优化问题，在数值计算精度上得到了一定程度提高，并在三个数据集上取得了最好的行为识别结果。

本实验也评估了类内流形和类间流形对KGMA性能的影响，见图7。在JHMDB的split2分组上仅用15×c个已标注样本，根据经验设置半监督参数η＝10³,μ＝10^-1，并令β的值从10^-4变到10⁴。从图7可以看出，识别精度出现明显震荡，当β＝10⁴时当前行为识别精度达到最高值。由于β控制着类内流形和类间流形结构的比例，所以当类内流形结构看作常量1时，可以认为

表示类间流形结构作用更大，反之亦然。当β＝0时，表示没有使用类间流形结构；而当β→+∞时，表示没有使用类内流形结构。综上所述，当格拉斯曼流形空间同时使用适当比例的类内紧凑性和类间可分性时，本发明识别方法可以进一步提高转换矩阵的分类器性能。

本发明提出了一个新的半监督学习算法，通过在格拉斯曼流形空间上的核化多特征分析，发掘多种特征之间的相关性以提升行为识别性能。在三个数据集上所做实验表明，当标注样本相对较少时，半监督学习训练出的转换矩阵，可以当作行为识别的分类器，并且比同类半监督算法的精度更优。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。