CN107784293A - 一种基于全局特征和稀疏表示分类的人体行为识别方法 - Google Patents

一种基于全局特征和稀疏表示分类的人体行为识别方法 Download PDF

Info

Publication number
CN107784293A
CN107784293A CN201711111597.7A CN201711111597A CN107784293A CN 107784293 A CN107784293 A CN 107784293A CN 201711111597 A CN201711111597 A CN 201711111597A CN 107784293 A CN107784293 A CN 107784293A
Authority
CN
China
Prior art keywords
mrow
mtd
dictionary
msub
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711111597.7A
Other languages
English (en)
Other versions
CN107784293B (zh
Inventor
李策
杨峰
李若童
刘瑞莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology Beijing CUMTB
Original Assignee
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology Beijing CUMTB filed Critical China University of Mining and Technology Beijing CUMTB
Priority to CN201711111597.7A priority Critical patent/CN107784293B/zh
Publication of CN107784293A publication Critical patent/CN107784293A/zh
Application granted granted Critical
Publication of CN107784293B publication Critical patent/CN107784293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于全局特征和稀疏表示分类的人体行为识别方法。对视频帧进行高斯核卷积滤波预处理,差分法提取运动前景像素;据参数在时空维度对像素值采样确定运动区域,调整视频帧的大小初步降维,将每帧视频按列拼接成向量组合得到特征向量;将特征向量按列拼接成特征矩阵后第二次降维,求得特征矩阵构成最初特征字典,对字典初始化后采用类别一致K次矩阵奇异值分解法进行字典学习,据所得字典求得输入信号稀疏编码,编码送入分类器输出行为类别;统计字典学习参数并实现实时行为识别。本发明得出兼具重构性能和分类性能的字典和线性分类器,可用于提高人体行为识别效率,适用于安防监控、基于内容的视频检索、虚拟现实等科学领域。

Description

一种基于全局特征和稀疏表示分类的人体行为识别方法
技术领域
本发明涉及视频监控图像与视频处理技术领域,尤其涉及一种基于全局特征和稀疏表示分类的人体行为识别方法。
背景技术
近年来,随着智能视频监控***的高速发展,运动目标检测作为智能视频监控***中重要环节,成为了当前计算机视觉的热点研究问题。运动目标检测是从视频序列帧中将前景运动区域从背景图像中分割提取出来。在智能视频监控***中,运动目标检测效果对后期目标跟踪、行为理解、目标分类等有着决定性的作用。目前,视频运动目标检测方法主要包括光流法、帧间差分法、背景减除法等,其中,背景减除法由于计算量小、实时性好、运行效率高等特点,成为当前运动目标检测最常用的方法。
背景减除法的关键在于背景模型的建立与实时更新,只有保证背景模型的准确性,才能较好地检测出运动目标。在实际复杂环境中,背景模型抗干扰能力较差,易受外界光照变化,摄像机抖动等因素影响,导致背景模型与实际背景产生偏差,易将一些伪目标判定为目标对象。
近年来,随着机器学习、模式识别与计算机视觉技术的不断融合,基于视频内容的理解近年来逐渐成为视频图像处理领域的研究热点。人体行为识别是在细致和准确地提取运动目标特征后,通过有效的分类识别算法进行人体行为识别。在特征提取阶段,全局特征主要基于人体的全部轮廓来描述人体的运动信息。而在识别阶段。稀疏表示理论目前被广泛地应用于图像压缩编码、图像复原和图像分类等问题,其功能同人脑视觉神经方面的能力和学习能力有一定的相似性,实质上是对庞大数据集的一种降维表示分类。基于稀疏表示的分类算法计算速度快,一般要先收集来自于不同类别的样本的特征以建立字典。类别一致的K次矩阵奇异值分解法用于构造稀疏表示中过完备字典,可以得到一个小巧的、统一的字典以及简单的线性多类分类器,在实际复杂环境中模型抗干扰能力强,成为当前最常用的构建稀疏表示字典的方法。
目前人体行为识别领域存在一些问题,如视频中场景的复杂性、行为的类内差异性、行为的类间相似性和缺乏全面准确的运动特征表示,导致在实际复杂环境中,特征表示易受外界环境变化影响,分类模型抗干扰能力较差,人体行为识别准确率较低。
本发明提出了一种基于全局特征和稀疏表示分类的人体行为识别方法,适用于安防监控、基于内容的视频检索、人机交互及虚拟现实等等科学领域。
发明内容
本发明针对现有技术中的上述问题,结合目前在模式识别领域表现优异的基于稀疏表示的分类方法,本发明提出一种基于全局特征和稀疏表示分类的人体行为识别方法,该方法能全面表示场景中行为的运动特征,提高分类模型的鲁棒性和人体行为识别的准确率,适用于安防监控、基于内容的视频检索、人机交互及虚拟现实等等科学领域。
为了达到上述目的,本发明采用的技术方案如下:
本发明涉及一种基于全局特征和稀疏表示分类的人体行为识别方法,包括以下步骤:
步骤(1)、获取人体行为视频,对视频帧进行高斯核卷积滤波预处理;
步骤(2)、差分法提取运动前景像素;
步骤(3)、根据参数在时空维度对像素值采样确定运动区域;
步骤(4)、调整视频帧的大小进行初步降维,将每帧视频按列拼接成向量,然后将多帧向量组合起来得到特征向量;
步骤(5)、将全部特征向量按列拼接构成特征矩阵,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维;
步骤(6)、第二次降维后的特征矩阵构成了最初的特征字典,对特征字典进行初始化操作,初始化结束后采用类别一致的K次矩阵奇异值分解法进行字典学习,得到期望的字典、线性分类器;
步骤(7)、输入测试样本,求得其在步骤(6)得到的字典下的稀疏编码,将得到的稀疏编码送入分类器,然后根据步骤(6)得到的线性分类器来估算输入的测试样本的行为类别;
步骤(8)、统计结果、调整特征提取、字典学习参数;再返回步骤2;
本发明的有益效果是,该方法在使用简单易得的行为特征构造字典的情况下,还能保证识别准确率,对实时行为识别有一定的参考价值。
附图说明
下面结合附图和实施例对本发明进一步说明:
图1为本发明实施例的总体流程图;
图2为本发明实施例特征提取窗口示例;
图3为本发明实施例字典学习窗口示例;
图4为本发明实施例行为识别窗口示例;
图5为本发明实施例采集视频上的识别结果示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明,以下实施例不构成对本发明的限定。
如图1所示,本发明方法的实施流程具体包括以下步骤:
S1010:获取人体行为视频,采用MATLAB内置的视频读取函数将得到的每个视频片段转换为一个h×w×F的三维矩阵,h为视频帧的高度,w为视频帧的宽度,第三维F的数值代表了视频的帧数,h×w为视频的每一帧的大小。
S1110:在视频预处理阶段,先通过高斯核对视频的每一帧进行高斯卷积滤波。
S1120:对视频帧图像使用差分法获取包含运动前景信息的前景图像,对前景图像进行均值滤波以平滑噪声。
S1130:根据参数(h,w,patchWin,srs,trs,tprLen)在时空维度对像素值采样确定运动区域,其中,h为视频帧的高度,w为视频帧的宽度,srs为采样点的空间分布,例如,srs=5代表在每行及每列均每隔5个像素点进行一次采样,trs为采样点在时间维度的分布,例如trs=5代表每隔5帧进行一次采样,patchWin决定了采样点周围立方体的长和宽,tprLen决定了采样点周围立方体的帧数跨度;为了获得更显著的运动响应,将每一帧及其前后两帧的像素累加作为当前帧的运动区域;在确定运动区域时,采用采样的方式,采样间隔分为空间间隔与时间间隔,在某个采样点上的运动累计(像素值的累加)若是超过了设定的阈值,则将该采样点周围由参数patchWin和tprLen决定的的视频立方体的像素值标记为运动块,若某个采样点上的像素值的累加小于设定阈值则该采样点周围由参数patchWin和tprLen决定的视频立方体像素值被置为零,否则不做改变。
S1140:在通过时空像素值采样统计完运动区域后,将视频帧调整大小以降低拼接特征的维数进行初步降维,具体操作为:将每一帧图像按列拼接成向量,N帧图像的向量首尾相接组合成一个特征向量。
S1150:将视频帧图像全部特征向量按列拼接构成特征矩阵,来自不同类别的特征数量一致且位置相邻,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维。该特征提取方法类似于基于人体轮廓的运动能量图,提取速度快,计算量小。因此,特征向量的维数就由确定运动区域的参数来决定,而时空像素值采样的频率也会影响特征的质量。上述特征提取的参数包含6项内容:h、w、patchWin、srs、trs、tprLen,。
如图2所示,在特征提取时,首先点击“输入视频”按钮,选择输入视频的文件路径,然后在参数设置中填入特征提取时的参数,各个参数的含义如上所介绍。接着确定特征文件存放的位置,点击“选择文件位置”按钮设置特征存储位置。最后点击“开始提取特征”进行特征提取。在输入视频时可选择多个文件,以便于视频批量处理,减少手动操作次数。
S1160:第二次降维后的特征矩阵构成了最初的特征字典。该字典还要通过类别一致的K次矩阵奇异值分解法去学习,来产生兼具重构性能与分类性能的字典以及一个简单的分类矩阵。
在通过类别一致的K次矩阵奇异值分解法对字典学习之前,还有一个特征字典初始化的过程。初始化的输入参数为之前求得的特征字典、特征的类别、迭代次数和迭代阈值,输出为初始化的字典D、线性变换矩阵A、线性分类参数W以及训练特征的最优编码矩阵。
字典初始化过程中,采用多元岭回归模型以及二次平方损失和l2范数正则化项初始化线性变换矩阵A线性分类参数W,公式如下:
A=(XXt1I)-1XQt
W=(XXt1I)-1XHt
其中,X表示输入样本在特征字典下的稀疏编码矩阵;Q是训练样本的类别矩阵,其列数等于训练样本数,行数等于字典原子数;H为输入样本的类别矩阵,其列数等于训练样本数,行数等于类别数;λ1是正则化参数,I表示单位矩阵,t表示对矩阵转置。岭回归是对最小二乘法的改良,最小二乘法(又称最小平方法)是一种通过最小化误差的平方和寻找数据的最佳函数匹配优化方法。当未知模型具有多元自变量,且自变量的相关系数较高时,岭回归就是为了解决最小二乘法的回归系数误差特别大的问题。例如矩阵中某些数据列可以由其余的数据列近似地线性表示时,|X′X|≈0,因此设想为X′X加上一个正常数矩阵kI(k>0),则X′X+kI接近奇异的程度会比X′X的程度小得多。在字典初始化的过程中,主要是根据给定的迭代次数和迭代阈值,对每个类别的子字典分别进行初始化,然后将不同类别的子字典拼接在一起作为初始化的字典。
在字典初始化过程结束后,进入字典学习阶段,有两种类别一致的的字典学习方法可以生成兼具信号重构性能及信号分类性能的字典,第一种类别一致的K次矩阵奇异值分解法(记作LCD1),按照公式(1)对字典进行学习,第二种类别一致的K次矩阵奇异值分解法(记作LCD2),按照公式(2)对字典进行学习,公式(1)和公式(2)具体如下:
其中,D表示初始化的字典,W表示线性分类参数,X表示所有输入样本在特征字典下的稀疏编码矩阵,A表示线性变换矩阵,Y表示输入样本,T0表示稀疏编码的稀疏度、α表示稀疏编码误差项的贡献系数、β表示分类器的误差项的贡献系数,xi表示第i个输入样本在特征字典下的稀疏编码。
这两种字典学习方法和传统字典学习方法只计算重构误差的不同之处在于,公式(1)的方法加入了具有判别功能的稀疏编码误差项用于约束使得Q与AX近似。而Q之所以具有判别性是因为它使来自于同一类别的字典元素和输入信号具有相同的稀疏编码,这个编码在整个字典学习过程中是固定的,虽然在字典训练过程中,字典元素是在不断更新的。。
在字典学习过程中,还有几个重要的参数需要通过反复实验来确定其最佳取值。它们是:稀疏编码的稀疏度T0、稀疏编码误差项的贡献系数α、分类器的误差项的贡献系数β、字典初始化时的迭代次数以及字典学习时的迭代次数。这些值的确认虽然可以参照以往的实验,但是更多地还是要根据实验数据的情况去反复测量以取得最佳取值。为提高公式(2)求解的效率,将其改写为:
其中,
则公式(2)学习的目标为:
通过得到期望得到的字典变换参数以及线性分类器其中,K表示类别数目,A={a1...aK}为线性变换矩阵,D={d1...dK}为初始化的字典,W={w1...wK}为线性分类参数,aK表示第K个线性变换向量,dK表示第K个字典向量,wK表示第K个线性分类向量。
在字典学习的过程结束后,得到的数据为字典以及线性分类器对于新输入的测试样本y,首先求得其在字典下的稀疏编码,然后将该稀疏编码送入线性分类器,得到的向量中最大元素所在的位置即为样本y的类别。
在实验过程中,还要将采集到的特征分成训练集和测试集两部分。为了更充分地利用样本以及更充分地覆盖样本,因此采用k折交叉验证法进行测试实验。k折交叉验证是指:(1)将全部样本集合S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个子集有m/k个样本,相应的子集记作{s1,s2,...,sk};(2)每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作为训练集;(3)根据训练集训练出模型或者假设函数;(4)把这个模型放到测试集上,得到分类率;(5)计算k次求得的分类率的平均值,作为该模型或者假设函数的真实分类率。该方法的实验次数多、实验时间久、计算任务重,需要训练k次,测试k次。但是该方法充分利用了所有样本,得到的结果更接近真实值,因此采用k折交叉验证的方式对样本集进行实验。
如图3所示,在特征提取结束后,点击左上角“字典学习”菜单,进入字典学习界面。首先选择特征文件和字典存储的位置,然后设置字典学习的参数。最后点击“开始字典学习”按钮进行字典的学习。
S1170:输入信号稀疏编码,编码送入分类器,输出行为类别;
如图4所示,在字典学习结束后,点击***左上角“行为识别”菜单,进入行为识别界面。首先需要选择字典文件和输入视频文件,然后点击“开始识别”按钮,接下来***就会读入视频、抽取特征,然后利用已经选择的字典和分类器,来求解并输出测试样本的行为类别。对于输入样本y,首先求得它在字典下的稀疏编码表示:
然后将公式(3)表示的稀疏编码送入到线性分类器使用线性分类器来估算输入样本y的类别标签j:
其中,l∈Rm是类别标签向量。
S1180:统计结果、调整特征提取、字典学习参数;再次进行识别分类。
在KTH数据集的实验中,为了更充分地将采集样本用于字典训练,采用10折交叉验证法。样本特征数据选择其中的90%作为训练样本,10%作为测试样本。共进行10次实验,取10次结果的平均值作为最终结果。在分割样本特征数据时,由于相邻帧的动作具有连续性,因此没有采取传统的随机分割法,而采取等距离采样法。
以下表格数据为在KTH数据集上,采用LCD1方法学习字典时基于稀疏表示的分类识别结果的混淆矩阵。其中每一行的数据和为100。
以下表格数据为在KTH数据集上,采用LCD2方法学习字典后,基于稀疏表示的分类识别结果的混淆矩阵。
以下表格数据为本文框架中的LCD1和LCD2算法的识别结果的对比。
由上述统计结果可以看出,最高识别率出现在打拳行为中,分类准确率为100%;最低分类率为87%,出现在慢跑行为中。有70%的动作种类的识别率在90%以上。分类正确率较低的动作,集中在走路、慢跑、跑步三种行为,原因在于这三种行为的轮廓特征相似,只是动作的频率不同。在同其他识别方法的横向对比中可以看出,本文提出的识别方法的识别率和经典方法基本持平。甚至略高于经典算法。
在UCF sports数据集实验中,同样采用10折交叉验证方式统计平均识别结果。
以下表格为在UCF sports数据集上,采用LCD2方法进行字典学习后,在基于稀疏表示的算法框架下的实验结果。
在该数据集上的实验结果LCD2优于LCD1。实验结果可以看出,有90%的动作类别的识别正确率高于80%。
以下表格为UCF sports数据集上,本发明所述方法的实验结果对比。
可以看出,本发明所述的方法在UCF sports数据上的结果略低于KTH数据的结果,原因可能在于UCF sports数据集中的视频场景较为复杂,还需要改进特征提取的方式以抽取出更具鲁棒性的行为特征。
S1190:进行验证得出识别的行为类别。
如图5所示,为了进一步验证该行为识别算法,采集了4段同学在走廊中走路的视频、4段拍手的视频作为补充验证。将采集到的视频进行压缩后送入基于MATLAB的人体行为识别***,经验证得到了正确的行为类别。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种基于全局特征和稀疏表示分类的人体行为识别方法,其特征在于,包括以下步骤:
步骤(1)、获取人体行为视频,采用MATLAB内置的视频读取函数将获得的每个视频片段转换为一个h×w×F的三维矩阵,h为视频帧的高度,w为视频帧的宽度,第三维F的数值代表了视频的帧数,h×w为视频的每一帧的大小;
步骤(2)、视频预处理阶段,先通过高斯核对视频的每一帧进行高斯卷积滤波,然后对视频帧图像使用差分法获取前景图像,对前景图像进行均值滤波以平滑噪声;
步骤(3)、根据参数(h,w,pathWin,srs,trs,tprlen)在时空维度对像素值采样确定运动区域,其中,h为视频帧的高度,w为视频帧的宽度,srs为采样点的空间分布,trs为采样点在时间维度的分布,patchWin决定了采样点周围立方体的长和宽,tprLen决定了采样点周围立方体的帧数跨度;为了获得更显著的运动响应,将每一帧及其前后两帧的像素累加作为当前帧的运动区域;在确定运动区域时,采用采样的方式;采样间隔分为空间间隔与时间间隔,在某个采样点上的像素值的累加若是超过了设定的阈值,则将该采样点周围由参数patchWin和tprLen决定的的视频立方体的像素值标记为运动块,若某个采样点上的像素值的累加小于设定的阈值则该采样点周围由参数patchWin和tprLen决定的视频立方体像素值被置为零,否则不做改变;
步骤(4)、在时空维度对像素值采样确定完运动区域之后,将视频帧调整大小以降低拼接特征的维数进行初步降维,具体为:将每一帧图像按列拼接成向量,N帧图像的向量首尾相接组合成一个特征向量;
步骤(5)、将全部特征向量按列拼接构成特征矩阵,来自不同类别的特征数量一致且位置相邻,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维;
步骤(6)、第二次降维后的特征矩阵构成了最初的特征字典;对特征字典进行初始化操作:输入得到的特征字典、特征的类别、迭代次数和迭代阈值,对每个类别的子字典分别进行初始化,然后将不同类别的子字典拼接在一起作为初始化的字典。初始化操作的输出为初始化的字典D、线性变换矩阵A、初线性分类参数W以及训练特征的最优编码矩阵;在字典初始化过程中,使用多元岭回归的方法以及二次平方损失和l2范数正则化项初始化线性分类参数W和线性变换矩阵A,公式如下:
A=(XXt1I)-1XQt, (1)
W=(XXt1I)-1XHt, (2)
其中,X表示输入样本在特征字典下的编码矩阵;Q是训练样本的类别矩阵,其列数等于训练样本数,行数等于字典原子数;H为输入样本的类别矩阵,其列数等于训练样本数,行数等于类别数,λ1是正则化参数,I表示单位矩阵,t表示矩阵转置;
在字典初始化过程结束后,进入字典学习阶段,采用类别一致的K次矩阵奇异值分解法进行字典学习,公式表示如下:
<mrow> <mtable> <mtr> <mtd> <mrow> <mo>&lt;</mo> <mi>D</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>A</mi> <mo>,</mo> <mi>X</mi> <mo>&gt;</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>D</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>A</mi> <mo>,</mo> <mi>X</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mi>Y</mi> <mo>-</mo> <mi>D</mi> <mi>X</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&amp;alpha;</mi> <mo>|</mo> <mo>|</mo> <mi>Q</mi> <mo>-</mo> <mi>A</mi> <mi>X</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;beta;</mi> <mo>|</mo> <mo>|</mo> <mi>H</mi> <mo>-</mo> <mi>W</mi> <mi>X</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo>&amp;ForAll;</mo> <mi>i</mi> <mo>,</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>0</mn> </msub> <mo>&amp;le;</mo> <msub> <mi>T</mi> <mn>0</mn> </msub> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中,D表示初始化的字典,W表示线性分类参数,X表示所有输入样本在特征字典下的稀疏编码矩阵,A表示线性变换矩阵,Y表示输入样本,α表示稀疏编码误差项的贡献系数,β表示分类器的误差项的贡献系数,T0表示稀疏编码的稀疏度,xi表示第i个输入样本在特征字典下的稀疏编码;
为提高公式(3)求解的效率,将公式(3)改写为:
<mrow> <mtable> <mtr> <mtd> <mrow> <mo>&lt;</mo> <mi>D</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>A</mi> <mo>,</mo> <mi>X</mi> <mo>&gt;</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>D</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>A</mi> <mo>,</mo> <mi>X</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>Y</mi> </mtd> </mtr> <mtr> <mtd> <msqrt> <mi>&amp;alpha;</mi> </msqrt> <mi>Q</mi> </mtd> </mtr> <mtr> <mtd> <msqrt> <mi>&amp;beta;</mi> </msqrt> <mi>H</mi> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>D</mi> </mtd> </mtr> <mtr> <mtd> <msqrt> <mi>&amp;alpha;</mi> </msqrt> <mi>A</mi> </mtd> </mtr> <mtr> <mtd> <msqrt> <mi>&amp;beta;</mi> </msqrt> <mi>W</mi> </mtd> </mtr> </mtable> </mfenced> <mi>X</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <mo>&amp;ForAll;</mo> <mi>i</mi> <mo>,</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>0</mn> </msub> <mo>&amp;le;</mo> <msub> <mi>T</mi> <mn>0</mn> </msub> <mo>,</mo> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中,
则公式(3)学习的目标为:
<mrow> <mtable> <mtr> <mtd> <mrow> <mo>&lt;</mo> <msub> <mi>D</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>,</mo> <mi>X</mi> <mo>&gt;</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <msub> <mi>D</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>,</mo> <mi>X</mi> </mrow> </munder> <mo>{</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>D</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mi>X</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>}</mo> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <mo>&amp;ForAll;</mo> <mi>i</mi> <mo>,</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>0</mn> </msub> <mo>&amp;le;</mo> <msub> <mi>T</mi> <mn>0</mn> </msub> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
通过得到期望得到的字典变换参数以及线性分类器其中,K表示类别数目,A={a1...aK}为线性变换矩阵,D={d1...dK}为初始化的字典,W={w1...wK}为线性分类参数,aK表示第K个线性变换向量,dK表示第K个字典向量,wK表示第K个线性分类向量;
步骤(7)、行为类别识别:输入样本为y,首先求得它在字典下的稀疏编码:
<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> <mo>=</mo> <mi>arg</mi> <munder> <mi>min</mi> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> </munder> <mo>{</mo> <mo>|</mo> <mo>|</mo> <mi>y</mi> <mo>-</mo> <mover> <mi>D</mi> <mo>^</mo> </mover> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>}</mo> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo>|</mo> <mo>|</mo> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> <mo>|</mo> <msub> <mo>|</mo> <mn>0</mn> </msub> <mo>&amp;le;</mo> <msub> <mi>T</mi> <mn>0</mn> </msub> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
然后将公式(6)表示的稀疏编码送入到线性分类器使用线性分类器来估算输入样本y的类别j:
<mrow> <mi>j</mi> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <mi>l</mi> <mo>=</mo> <mover> <mi>W</mi> <mo>^</mo> </mover> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
其中,l∈Rm是类别向量;
步骤(8)、统计结果、调整特征提取、字典学习参数,再次进行识别分类。
CN201711111597.7A 2017-11-13 2017-11-13 一种基于全局特征和稀疏表示分类的人体行为识别方法 Active CN107784293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711111597.7A CN107784293B (zh) 2017-11-13 2017-11-13 一种基于全局特征和稀疏表示分类的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711111597.7A CN107784293B (zh) 2017-11-13 2017-11-13 一种基于全局特征和稀疏表示分类的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN107784293A true CN107784293A (zh) 2018-03-09
CN107784293B CN107784293B (zh) 2018-08-28

Family

ID=61431878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711111597.7A Active CN107784293B (zh) 2017-11-13 2017-11-13 一种基于全局特征和稀疏表示分类的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN107784293B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334910A (zh) * 2018-03-30 2018-07-27 国信优易数据有限公司 一种事件检测模型训练方法以及事件检测方法
CN108665484A (zh) * 2018-05-22 2018-10-16 国网山东省电力公司电力科学研究院 一种基于深度学习的危险源识别方法与***
CN108845302A (zh) * 2018-08-23 2018-11-20 电子科技大学 一种k近邻变换真假目标特征提取方法
CN109214442A (zh) * 2018-08-24 2019-01-15 昆明理工大学 一种基于列表和身份一致性约束的行人重识别算法
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN109598189A (zh) * 2018-10-17 2019-04-09 天津大学 一种基于特征降维的视频分类方法
CN109684506A (zh) * 2018-11-22 2019-04-26 北京奇虎科技有限公司 一种视频的标签化处理方法、装置和计算设备
CN110116254A (zh) * 2019-05-05 2019-08-13 中国石油天然气集团有限公司 油气集输用双金属复合管环焊接头缺陷预测与控制方法
CN110163041A (zh) * 2018-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频行人再识别方法、装置及存储介质
CN110378262A (zh) * 2019-07-08 2019-10-25 深圳大学 基于加性高斯核的核非负矩阵分解人脸识别方法、装置、***及存储介质
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN111340057A (zh) * 2018-12-19 2020-06-26 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN111339367A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN111488840A (zh) * 2020-04-15 2020-08-04 桂林电子科技大学 一种基于多任务学习模型的人体行为分类方法
CN112149839A (zh) * 2020-10-09 2020-12-29 北京百度网讯科技有限公司 高维特征的表示学习方法、装置、设备以及存储介质
CN112434553A (zh) * 2020-10-15 2021-03-02 北京工业大学 一种基于深度字典学习的视频鉴别方法及***
CN113673325A (zh) * 2021-07-14 2021-11-19 南京邮电大学 一种多特征人物情绪识别方法
CN113822279A (zh) * 2021-11-22 2021-12-21 中国空气动力研究与发展中心计算空气动力研究所 基于多特征融合的红外目标检测方法、装置、设备及介质
CN113901863A (zh) * 2021-08-18 2022-01-07 北京理工大学 基于加权组稀疏贝叶斯学习的人体活动分类方法
CN113987267A (zh) * 2021-10-28 2022-01-28 上海数禾信息科技有限公司 视频文件的标签生成方法、装置、计算机设备和存储介质
CN115514974A (zh) * 2018-09-05 2022-12-23 Lg电子株式会社 对视频信号进行解码/编码及发送数据的方法及介质
CN117898689A (zh) * 2024-01-18 2024-04-19 德心智能科技(常州)有限公司 基于毫米波雷达的血压检测方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945375A (zh) * 2012-11-20 2013-02-27 天津理工大学 多约束下的多视角监控视频行为检测和识别方法
US8577154B2 (en) * 2008-06-16 2013-11-05 University Of Southern California Automated single viewpoint human action recognition by matching linked sequences of key poses
CN103440471A (zh) * 2013-05-05 2013-12-11 西安电子科技大学 基于低秩表示的人体行为识别方法
CN103699874A (zh) * 2013-10-28 2014-04-02 中国计量学院 基于surf流和lle稀疏表示的人群异常行为识别方法
CN104091169A (zh) * 2013-12-12 2014-10-08 华南理工大学 基于多特征融合的行为识别方法
CN105930792A (zh) * 2016-04-19 2016-09-07 武汉大学 一种基于视频局部特征字典的人体动作分类方法
CN106529594A (zh) * 2016-11-08 2017-03-22 上海理工大学 应用于大数据行为识别的监督降维算法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577154B2 (en) * 2008-06-16 2013-11-05 University Of Southern California Automated single viewpoint human action recognition by matching linked sequences of key poses
CN102945375A (zh) * 2012-11-20 2013-02-27 天津理工大学 多约束下的多视角监控视频行为检测和识别方法
CN103440471A (zh) * 2013-05-05 2013-12-11 西安电子科技大学 基于低秩表示的人体行为识别方法
CN103699874A (zh) * 2013-10-28 2014-04-02 中国计量学院 基于surf流和lle稀疏表示的人群异常行为识别方法
CN104091169A (zh) * 2013-12-12 2014-10-08 华南理工大学 基于多特征融合的行为识别方法
CN105930792A (zh) * 2016-04-19 2016-09-07 武汉大学 一种基于视频局部特征字典的人体动作分类方法
CN106529594A (zh) * 2016-11-08 2017-03-22 上海理工大学 应用于大数据行为识别的监督降维算法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334910A (zh) * 2018-03-30 2018-07-27 国信优易数据有限公司 一种事件检测模型训练方法以及事件检测方法
CN108334910B (zh) * 2018-03-30 2020-11-03 国信优易数据股份有限公司 一种事件检测模型训练方法以及事件检测方法
CN110163041A (zh) * 2018-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频行人再识别方法、装置及存储介质
CN108665484A (zh) * 2018-05-22 2018-10-16 国网山东省电力公司电力科学研究院 一种基于深度学习的危险源识别方法与***
CN108845302A (zh) * 2018-08-23 2018-11-20 电子科技大学 一种k近邻变换真假目标特征提取方法
CN109214442A (zh) * 2018-08-24 2019-01-15 昆明理工大学 一种基于列表和身份一致性约束的行人重识别算法
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN109241903B (zh) * 2018-08-30 2023-08-29 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN115514974A (zh) * 2018-09-05 2022-12-23 Lg电子株式会社 对视频信号进行解码/编码及发送数据的方法及介质
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN110969066B (zh) * 2018-09-30 2023-10-10 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN109598189A (zh) * 2018-10-17 2019-04-09 天津大学 一种基于特征降维的视频分类方法
CN109598189B (zh) * 2018-10-17 2023-04-28 天津大学 一种基于特征降维的视频分类方法
CN109684506B (zh) * 2018-11-22 2023-10-20 三六零科技集团有限公司 一种视频的标签化处理方法、装置和计算设备
CN109684506A (zh) * 2018-11-22 2019-04-26 北京奇虎科技有限公司 一种视频的标签化处理方法、装置和计算设备
CN111340057A (zh) * 2018-12-19 2020-06-26 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN111340057B (zh) * 2018-12-19 2023-07-25 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN110116254A (zh) * 2019-05-05 2019-08-13 中国石油天然气集团有限公司 油气集输用双金属复合管环焊接头缺陷预测与控制方法
CN110378262B (zh) * 2019-07-08 2022-12-13 深圳大学 基于加性高斯核的核非负矩阵分解人脸识别方法、装置、***及存储介质
CN110378262A (zh) * 2019-07-08 2019-10-25 深圳大学 基于加性高斯核的核非负矩阵分解人脸识别方法、装置、***及存储介质
CN111339367B (zh) * 2020-02-18 2022-10-18 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN111339367A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN111488840A (zh) * 2020-04-15 2020-08-04 桂林电子科技大学 一种基于多任务学习模型的人体行为分类方法
CN112149839B (zh) * 2020-10-09 2024-06-07 北京百度网讯科技有限公司 高维特征的表示学习方法、装置、设备以及存储介质
CN112149839A (zh) * 2020-10-09 2020-12-29 北京百度网讯科技有限公司 高维特征的表示学习方法、装置、设备以及存储介质
CN112434553B (zh) * 2020-10-15 2024-04-19 北京工业大学 一种基于深度字典学习的视频鉴别方法及***
CN112434553A (zh) * 2020-10-15 2021-03-02 北京工业大学 一种基于深度字典学习的视频鉴别方法及***
CN113673325B (zh) * 2021-07-14 2023-08-15 南京邮电大学 一种多特征人物情绪识别方法
CN113673325A (zh) * 2021-07-14 2021-11-19 南京邮电大学 一种多特征人物情绪识别方法
CN113901863A (zh) * 2021-08-18 2022-01-07 北京理工大学 基于加权组稀疏贝叶斯学习的人体活动分类方法
CN113987267A (zh) * 2021-10-28 2022-01-28 上海数禾信息科技有限公司 视频文件的标签生成方法、装置、计算机设备和存储介质
CN113822279B (zh) * 2021-11-22 2022-02-11 中国空气动力研究与发展中心计算空气动力研究所 基于多特征融合的红外目标检测方法、装置、设备及介质
CN113822279A (zh) * 2021-11-22 2021-12-21 中国空气动力研究与发展中心计算空气动力研究所 基于多特征融合的红外目标检测方法、装置、设备及介质
CN117898689A (zh) * 2024-01-18 2024-04-19 德心智能科技(常州)有限公司 基于毫米波雷达的血压检测方法及***
CN117898689B (zh) * 2024-01-18 2024-07-05 德心智能科技(常州)有限公司 基于毫米波雷达的血压检测方法及***

Also Published As

Publication number Publication date
CN107784293B (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN107784293A (zh) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
Fernando et al. Learning end-to-end video classification with rank-pooling
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110889672B (zh) 一种基于深度学习的学生打卡及上课状态的检测***
Zhang et al. Random Gabor based templates for facial expression recognition in images with facial occlusion
Wang et al. Fast sign language recognition benefited from low rank approximation
D’Eusanio et al. A transformer-based network for dynamic hand gesture recognition
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
Zhu et al. Efficient action detection in untrimmed videos via multi-task learning
Ma et al. WALKING WALKing walking: Action Recognition from Action Echoes.
Hua et al. Depth estimation with convolutional conditional random field network
CN109255289A (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN110839156A (zh) 一种基于视频图像的未来帧预测方法及模型
Wan et al. CSMMI: Class-specific maximization of mutual information for action and gesture recognition
CN112668492A (zh) 一种自监督学习与骨骼信息的行为识别方法
Kindiroglu et al. Temporal accumulative features for sign language recognition
CN105469050A (zh) 基于局部时空特征描述与金字塔词汇树的视频行为识别方法
CN103593661A (zh) 一种基于排序方法的人体动作识别方法
Zhenhua et al. FTCF: Full temporal cross fusion network for violence detection in videos
Gündüz et al. Turkish sign language recognition based on multistream data fusion
Islam et al. Representation for action recognition with motion vector termed as: SDQIO
Sahoo et al. DISNet: A sequential learning framework to handle occlusion in human action recognition with video acquisition sensors
Cai et al. Performance analysis of distance teaching classroom based on machine learning and virtual reality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant