CN106909890B - 一种基于部位聚类特征的人体行为识别方法 - Google Patents

一种基于部位聚类特征的人体行为识别方法 Download PDF

Info

Publication number
CN106909890B
CN106909890B CN201710057722.4A CN201710057722A CN106909890B CN 106909890 B CN106909890 B CN 106909890B CN 201710057722 A CN201710057722 A CN 201710057722A CN 106909890 B CN106909890 B CN 106909890B
Authority
CN
China
Prior art keywords
human body
histogram
video
clustering
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710057722.4A
Other languages
English (en)
Other versions
CN106909890A (zh
Inventor
孔德慧
贾文浩
孙彬
王少帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710057722.4A priority Critical patent/CN106909890B/zh
Publication of CN106909890A publication Critical patent/CN106909890A/zh
Application granted granted Critical
Publication of CN106909890B publication Critical patent/CN106909890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于部位聚类特征的人体行为识别方法,包括:步骤1、在训练阶段,首先通过姿态估计提取训练视频每一帧的部位聚类特征点,之后计算每一帧每一个特征点的局部位置偏移和全局位置偏移;然后收集所有训练视频的特征点偏移量信息,并使用K‑means聚类算法对偏移量信息进行聚类,得到聚类中心,即形成码本,然后根据码本用一组关节特征点的直方图来表示当前的训练视频;步骤2、在测试阶段,对一个测试视频,首先通过上述训练阶段构成的码本建立直方图,之后通过朴素贝叶斯最近邻分类方法比较测试阶段直方图与训练阶段的直方图的差异进行行为识别。采用本发明的技术方案,具有很高的识别率。

Description

一种基于部位聚类特征的人体行为识别方法
技术领域
本发明属于计算机视觉和模式识别领域,尤其涉及一种基于部位聚类特征的人体行为识别方法。
背景技术
近几年,人类行为识别得到了越来越多的关注,通过分析人与物体的交互来理解人们在做什么甚至推断其意图,显得尤为关键,因此自动进行人体动作的理解与识别对许多人工智能***来说是至关重要的,这可以广泛应用到许多实际应用中,比如智能视频监控、运动检索、人机交互以及医疗保健等许多领域中。例如,为了建造一个能智能化地服务于人类的人机交互***,该***不仅需要感知人体的运动,而且还要理解人体动作的语义并推断其意图。
目前传统的动作识别分类方法主要是通过RGB相机获取视频序列来进行行为识别,这种情况下所获得的视频是一个按照时间先后顺序排列的2D的RGB图像序列。基于RGB信息的人体动作识别在过去数十年间取得了很大进展,许多方法相继被提出,这些方法包括人体关键姿态、运动模板、剪影和时-空形状等。基于时空检测的方法可以进行准确的相似度测量,还有基于密集运动轨迹的方法由于具有出色的性能而备受人们的关注。
尽管以上这些方法在相关标准测试数据集上均取得了较好的识别结果,但是由于人体动作具有高度的灵活性,人体的姿态、运动、衣着具有显著的个体差异性,相机视角、相机的运动、光照条件的变化、遮挡、自遮挡并同时包含人-物的交互以及复杂的时-空结构等因素的综合影响,使得人体动作识别仍极具挑战性。而且RGB信息很容易受到环境因素的影响,比如光照、背景的改变等都会带来不同程度的干扰,此外对于不同的两个行为,RGB图像可能会非常相似,这将会给动作识别分类带来很大的困难。
随着科技的发展,传感器技术的进步,使得高清晰低廉的深度传感器变为可能,例如微软公司的Kinect和华硕公司的Xtion PRO LIVE。由深度相机采集的深度映射图像中的每个像素记录着场景的深度值,与普通的RGB图像中像素所表示的光强度值截然不同。深度传感器的引入能够极大地拓展计算机***感知三维世界并提取低层视觉信息的能力。深度传感器较传统RGB相机在人体动作识别方面具有无可比拟的优势,即它不受光照条件的影响,具有颜色与纹理不变性,而且RGBD相机不仅可以获得RGB序列还可以同时获得深度序列,同时深度信息能极大简化目标的检测与分割任务。如果从单个视角,不同的行为可能有相似的2D投影,此时深度图可以提供额外的体型信息来区分不同的行为。所以近几年,大量研究学者的研究工作侧重于采用3D信息研究行为识别,而且通过RGBD相机获取的3D信息对人体姿态的估计有显著的改善。
其中Lu等提出了用于识别人体动作的有效方案:通过计算人体关节3D位置的局部位置偏移来识别人体的动作。然而,这种方法没有考虑到时间序列的特性,使记录关节信息的直方图失去了序列的连续信息;而且他们的方法没有考虑在动作识别中码本形成阶段中的每个关节的运动独立性。
此外,Microsoft的Kinect相机在拍摄人体的时候不仅能够得到人体的深度图而且同时还能够提供人体的16个关节点位置信息,大多数学者的研究都是基于Microsoft的Kinect提供的关节点信息来进行人体动作识别的,但是Kinect在拍摄人体的时候,前20帧左右会用来判断识别人体在画面中的位置,此时不能够提供人体的关节点位置信息,另外当人体动作幅度比较大的时候,比如人体从直立状态过渡到踢腿动作的时候,Kinect给出的关节点位置会有相当大的偏移,不够准确,如图1所示。
发明内容
本发明要解决的技术问题是,提供一种基于部位聚类特征的人体行为识别方法,具有很高的识别率。
为实现上述目的,本发明采用如下技术方案:
一种基于部位聚类特征的人体行为识别方法包括:
步骤1、在训练阶段,首先通过姿态估计提取训练视频每一帧的部位聚类特征点,之后计算每一帧每一个特征点相对于之前某一帧对应的特征点的位置偏移;然后收集所有训练视频的特征点偏移量信息,并使用K-means聚类算法对偏移量信息进行聚类,得到聚类中心,即形成码本,然后根据码本用一组关节特征点的直方图来表示当前的训练视频;
步骤2、在测试阶段,对一个测试视频,首先通过上述训练阶段构成的码本建立直方图,之后通过朴素贝叶斯最近邻分类方法(NBNN)比较测试阶段直方图与训练阶段的直方图的差异进行行为识别。
作为优选,所述步骤1包括以下步骤:
步骤1.1、人体姿态特征点提取,包括以下步骤
步骤1.1.1、首先需要准确地定位人体肢端点位置,然后以肢端点为中心,实现人体区域划分,以测地距离作为分类的依据,使用最近邻分类算法作为分类的工具,将人体深度像素划分为六大部分,即头部、左手臂、右手臂、左腿部、右腿部,躯干部,人体部位分类依据下述公式进行分类,
其中Ωi′,i’=0,…,5表示分类的六个人体块,它们对应头部、左手臂、右手臂、左腿部、右腿部,躯干部;v表示人体中某一个像素点,ei′表示第i’个肢端点,即左手右手或者左脚右脚,当i’=0时,ei’代表人体的中心点,||v-ei′||geod表示像素v到肢端点ei’的测地距离。
步骤1.1.2、使用了基于K-means的区域聚类算法提取人体的分部位特征点,即在上述得到人体肢端点部位块中进行聚类,根据人体的关节点的表示方式,提取聚类特征点以表征不同的人体姿态。
步骤1.2、人体动作序列特征向量的计算
分为以下几个步骤:
步骤1.2.1、计算位置偏移量:对于一个n帧的视频序列F,每一帧m个特征点的3D坐标f(t)可以通过人体姿态估计获得:
f(t)=φ(t)={θ1(t),θ2(t),...,θm(t)},t∈{1,2,…,n}
其中θi(t)=(xi(t),yi(t),zi(t)),i∈{1,2,…,m},θi(t)表示f(t)的第i个人体特征点的3D坐标信息,m表示特征点的数量。
通过计算当前第t帧与第一帧的特征点位置偏移信息获取动作序列的全局偏移信息:
fi1=θi(t)-θi(1)
通过计算当前第t帧与第(t-Δt)帧的特征点位置偏移信息获取动作序列的局部偏移信息:
fi2=θi(t)-θi(t-Δt)
其中,Δt是一个时间间隔。
获取第t帧所有人体特征点的偏移信息之后,第t帧所有特征点的特征信息可以通过全局偏移信息f1(t)和局部偏移信息f2(t)两部分来表示,如下所示:
f1(t)=[f11(t),f21(t),…,fm1(t)]
f2(t)=[f12(t),f22(t),…,fm2(t)]。
步骤1.2.2、视频对应的动作序列特征向量的获取
假设每个训练视频所有人体特征点已经用一组偏移信息表示,收集到的所有视频的每个特征点的全局偏移向量用R1表示,即其中
Figure GDA0002276946340000033
对应的是第j个训练视频的第i个特征点的第t帧,收集到的所有视频的每个特征点的局部偏移向量用R2表示,即
Figure GDA0002276946340000034
其中
Figure GDA0002276946340000035
对应的是第j个训练视频的第i个特征点的第t帧,设R=R1∪R2,之后使用K-means算法对R进行聚类形成码本{bk},k=1,2,....,K,每一个码字就是每一个聚类的中心,这里采用欧氏距离的聚类度量方法。
设每一个训练视频F={f(t)},t=1,2,...,n,其中n表示的是帧数,在每一帧f(t)每一个人体特征点i的全局偏移向量f1i(t)或者局部偏移向量f2i(t)都会在码本{bk}中找到欧氏距离最短的码字,即
Figure GDA0002276946340000041
因此,F中每一个特征点i运动也就是视频中特征点i的所有位置偏移量f1i(t)和f2i(t),每个特征点的位置偏移量可以进一步通过一个直方图hi来表示,该直方图是一个关于每个码字频率的直方图,由
Figure GDA0002276946340000042
Figure GDA0002276946340000043
组成,其中
Figure GDA0002276946340000044
来表示第i个特征点的全局偏移量直方图,
Figure GDA0002276946340000045
表示第i个特征点的局部偏移量直方图,即
Figure GDA0002276946340000046
Figure GDA0002276946340000047
其中#{}是一个记分函数。最后F就可以用一组所有特征点的直方图来表示,即F={hi},i=1,2,...,m,其中hi对应的是第i个特征点的直方图。
作为优选,步骤2中使用朴素贝叶斯最近邻分类方法(Native BayesNearestNeighbor ClassifierNBNN)进行动作分类:已知一组特征点直方图表示的视频序列F={hi},i=1,2,...,m,其中m是特征点的数量,
选用基于NBNN图像分类的最初概念应用到基于NBNN视频分类,也就是行为识别,计算的是关节直方图-类别的距离而不是视频-类别的距离或者视频-视频的距离,如下所示:
Figure GDA0002276946340000049
其中
Figure GDA00022769463400000411
表示在第c类行为的第i个特征点中与hi最近邻的直方图,即
Figure GDA00022769463400000410
其中h′i(c)表示行为类c中第i个特征点的直方图。
附图说明
图1为Microsoft Kinect给出的错误关节点示意图;
图2为本发明人体行为识别方法流程示意图;
图3为基于测地距离的肢端特征检测示意图;
图4为基于测地距离的人体区域标记示意图;
图5为基于聚类的姿态特征提取示意图;
图6a为当前帧的全局偏移示意图;
图6b为当前帧的局部偏移示意图;
图7为根据特征点全局和局部位置偏移形成聚类中心和直方图的过程图;
图8为不同情况下动作识别率比较图;
图9为本发明的方法进行动作识别分类的结果示意图;
图10为基于关节点特征使用Lu等人的方法进行动作识别分类的结果示意图;
图11为基于关节点特征使用本发明的方法进行动作识别分类的结果示意图。
具体实施方式
本发明实例提供一种基于部位聚类特征的人体行为识别方法,为了避免人体关节点位置信息不够准确,采用人体分部位聚类中心作为表征人体姿态的特征点;为了利用动作序列信息的全局特性,本发明在序列特征向量中添加全局位置偏移来弥补仅使用局部位置偏移信息进行识别的缺陷。基于此,需要解决的关键问题包括:人体姿态特征的提取;人体动作序列特征向量的计算;动作识别分类。
本发明以人体运动时的深度图像序列为输入数据,来计算人体动作类别作为输出;其中,计算的核心环节是采用人体姿态特征的空间位置的偏移量构造特征向量来描述一个行为序列(包括全局偏移信息和局部偏移信息),并以此为依据实现动作分类。
一种基于部位聚类特征的人体行为识别方法包括:
步骤1、在训练阶段,首先通过姿态估计提取训练视频每一帧的部位聚类特征点,之后计算每一帧每一个特征点相对于之前某一帧对应的特征点的位置偏移;然后收集所有训练视频的特征点偏移量信息,并使用K-means聚类算法对偏移量信息进行聚类,得到聚类中心,也就是形成成码本,然后根据码本用一组关节特征点的直方图来表示当前的训练视频;
步骤2、在测试阶段,对一个测试视频,首先通过上述训练阶段构成的码本建立直方图,之后通过朴素贝叶斯最近邻分类方法(NBNN)比较测试阶段直方图与训练阶段的直方图的差异进行行为识别,如图2所示。
所述步骤1包括以下步骤:
步骤1.1、人体姿态特征点提取
在此阶段,使用了Kinect拍摄实际人体采集深度数据,然后将深度数据转换成点云。
如图3所示。首先需要准确地定位人体肢端点(左右手、左右脚和头)位置(以人体几何中心点为源点采用基于测地距离的迪杰斯特拉算法进行肢端点定位)。然后以肢端点为中心,实现人体区域划分。
如图4所示,以测地距离作为分类的依据,使用最近邻分类算法作为分类的工具,将人体深度像素划分为六大部分,即头部、左手臂、右手臂、左腿部、右腿部,躯干部。人体部位分类依据下述公式(1)进行分类。
Figure GDA0002276946340000061
其中Ωi’,i’=0,...,5表示分类的六个人体块,它们对应头部、左手臂、右手臂、左腿部、右腿部,躯干部。v表示人体中某一个像素点,ei’表示第i’个肢端点,即左手右手或者左脚右脚,当i’=0时,ei′代表人体的中心点。||v-ei′||geod表示像素v到肢端点ei′的测地距离。公式(1)即表示第i′个部位中的所有像素到第i’个肢端点ei’的测地距离要小于到其他肢端点的测地距离。
为了能够有效地表征人体姿态,本方法使用了基于K-means的区域聚类算法提取人体的分部位特征点,即在上述得到人体肢端点部位块中进行聚类。如图5所示。事实上,聚类点个数(即特征点数量)m过少时,特征的表达力欠缺,聚类点个数过多则特征规律性较差。本发明比照常用的人体16个关节点的表示方式,提取m=15个聚类特征点以表征不同的人体姿态。
步骤1.2、人体动作序列特征向量的计算
分为以下几个步骤:
步骤1.2.1、计算位置偏移量:对于一个n帧的视频序列F,每一帧m个特征点的3D坐标f(t)可以通过人体姿态估计获得:
f(t)=φ(t)={θ1(t),θ2(t),…,θm(t)},t∈{1,2,...,n} (2)
其中θi(t)=(xi(t),yi(t),zi(t)),i∈{1,2,...,m},θi(t)表示f(t)的第i个人体特征点的3D坐标信息,m表示特征点的数量。
本发明通过计算当前第t帧与第一帧的特征点位置偏移信息获取动作序列的全局偏移信息:
fi1=θi(t)-θi (1)
通过计算当前第t帧与第(t-Δt)帧的特征点位置偏移信息获取动作序列的局部偏移信息:
fi2=θi(t)-θi(t-Δt)
如图6所示,其中Δt是一个时间间隔,它可以平衡偏移量的精度和噪声鲁棒性的能力。Δt值越大,那么噪声的鲁棒性就更好,但是计算精度就会降低,反之,鲁棒性则较差,精度会更高。该值根据不同动作序列数据库的实际情况而定。
获取第t帧所有人体特征点的偏移信息之后,第t帧所有特征点的特征信息可以通过全局偏移信息f1(t)和局部偏移信息f2(t)两部分来表示,如下所示:
f1(t)=[f11(t),f21(t),...,fm1(t)]
f2(t)=[f12(t),f22(t),...,fm2(t)]
步骤1.2.2、视频对应的动作序列特征向量的获取:假设每个训练视频所有人体特征点已经用一组偏移信息表示。收集到的所有视频的每个特征点的全局偏移向量用R1表示,即
Figure GDA0002276946340000071
其中对应的是第j个训练视频的第i个特征点的第t帧。收集到的所有视频的每个特征点的局部偏移向量用R2表示,即
Figure GDA0002276946340000073
其中
Figure GDA0002276946340000074
对应的是第j个训练视频的第i个特征点的第t帧。设R=R1∪R2。之后使用K-means算法对R进行聚类形成码本{bk},k=1,2,....,K,每一个码字就是每一个聚类的中心,这里采用欧氏距离的聚类度量方法。
设每一个训练视频F={f(t)},t=1,2,...,n。n表示的是帧数。在每一帧f(t)每一个人体特征点i的全局偏移向量f1i(t)或者局部偏移向量f2i(t)都会在码本{bk}中找到欧氏距离最短的码字,即
Figure GDA0002276946340000075
因此,F中每一个特征点i运动也就是视频中特征点i的所有位置偏移量f1i(t)和f2i(t)。每个特征点的位置偏移量可以进一步通过一个直方图hi来表示,该直方图是一个关于每个码字频率的直方图,由
Figure GDA0002276946340000076
组成,其中
Figure GDA0002276946340000078
来表示第i个特征点的全局偏移量直方图,
Figure GDA0002276946340000079
表示第i个特征点的局部偏移量直方图,即
Figure GDA00022769463400000710
Figure GDA00022769463400000711
Figure GDA00022769463400000712
其中#{}是一个记分函数。最后F就可以用一组所有特征点的直方图来表示,即F={hi},i=1,2,...,m,其中hi对应的是第i个特征点的直方图,如图7所示。
步骤2中使用朴素贝叶斯最近邻分类方法(Native Bayes Nearest NeighborClassifierNBNN)进行动作分类:已知一组特征点直方图表示的视频序列F={hi},i=1,2,...,m,其中m是特征点的数量,一般情况下很容易将这一组直方图结合起来成为一个直方图进行分类。这样就会失去人体特征点空间的独立性。人体特征点的空间信息在辨别不同的行为时可以提供额外的线索,所以要充分考虑人体特征点的独立性。
本发明选用基于NBNN图像分类的最初概念应用到基于NBNN视频分类,也就是行为识别,计算的是关节直方图-类别的距离而不是视频-类别的距离或者视频-视频的距离,如下所示:
其中
Figure GDA0002276946340000082
表示在第c类行为的第i个特征点中与hi最近邻的直方图,即其中h′i(c)表示行为类c中第i个特征点的直方图。
公式(7)即表示对于输入的测试视频序列,得到每一个特征点的直方图,然后统计m个特征点的直方图与训练视频每一类行为的直方图的差,具有最小差的对应行为类c*,即被认为当前视频F所对应的行为类。
把上述方法已经应用到Kinect2获取的深度图像序列,取得了不错的实验结果。在实验中我们选用640×480的RGBD图像,采集环境为室内,采集光照为日光灯,采集了6个人,每个人7种动作,每个动作做两遍,总共84个视频序列,共计6343帧,其中动作分别包括抬手、挥手、蹲下、踢腿、弯腰、身体左右摇摆、身体前后摆动等。
进行实验时,对于每个动作选取用于训练集和测试集的比例为2:1,随机进行挑选,共进行了50次随机试验,得到的平均识别准确率为98.07%。同样的视频序列,在相同实验条件下,即进行同样次数实验,训练集和测试集的比例相同,使用Lu等人的方法,得到的平均识别率为95.00%。采用Microsoft Kinect提供的关节点使用本发明的方法进行动作识别分类,得到的平均识别率为96.43%,可见基于部位的聚类特征点作为动作识别分类依据的有效性。
如图8、9、10、11所示和表1给出了本发明的方法与Lu等人的方法和基于Kinect提供的关节点使用本方法进行动作识别分类的不同结果比较示意图,可以看出本发明提出的方法在大部分动作下有着很高的识别率。
综上所述,本发明提出的基于人体分部位聚类特征的人体动作识别分类方法经过验证,能够取得很理想的分类结果。
表1不同情况下的识别精度与识别结果表
Figure GDA0002276946340000091

Claims (2)

1.一种基于部位聚类特征的人体行为识别方法,其特征在于,包括:
步骤1、在训练阶段,首先通过姿态估计提取训练视频每一帧的部位聚类特征点,之后计算每一帧每一个特征点相对于之前某一帧对应的特征点的位置偏移;然后收集所有训练视频的特征点偏移量信息,并使用K-means聚类算法对偏移量信息进行聚类,得到聚类中心,即形成码本,然后根据码本用一组关节特征点的直方图来表示当前的训练视频;
步骤2、在测试阶段,对一个测试视频,首先通过上述训练阶段构成的码本建立直方图,之后通过朴素贝叶斯最近邻分类方法比较测试阶段直方图与训练阶段的直方图的差异进行行为识别;
所述步骤1包括以下步骤:
步骤1.1、人体姿态特征点提取,包括以下步骤
步骤1.1.1、首先需要准确地定位人体肢端点位置,然后以肢端点为中心,实现人体区域划分,以测地距离作为分类的依据,使用最近邻分类算法作为分类的工具,将人体深度像素划分为六大部分,即头部、左手臂、右手臂、左腿部、右腿部,躯干部,人体部位分类依据下述公式进行分类,
Figure FDA0002276946330000011
其中Ωi′,i′=0,...,5表示分类的六个人体块,它们对应头部、左手臂、右手臂、左腿部、右腿部,躯干部;v表示人体中某一个像素点,ei′表示第i′个肢端点,即左手右手或者左脚右脚,当i′=0时,ei′代表人体的中心点,||v-ei’||geod表示像素v到肢端点ei’的测地距离
步骤1.1.2、使用了基于K-means的区域聚类算法提取人体的分部位特征点,即在上述得到人体肢端点部位块中进行聚类,根据人体的关节点的表示方式,提取聚类特征点以表征不同的人体姿态;
步骤1.2、人体动作序列特征向量的计算
分为以下几个步骤:
步骤1.2.1、计算位置偏移量:对于一个n帧的视频序列F,每一帧m个特征点的3D坐标f(t)可以通过人体姿态估计获得:
f(t)=φ(t)={θ1(t),θ2(t),…,θm(t)},t∈{1,2,…,n}
其中θi(t)=(xi(t),yi(t),zi(t)),i∈{1,2,…,m},θi(t)表示f(t)的第i个人体特征点的3D坐标信息,m表示特征点的数量;
通过计算当前第t帧与第一帧的特征点位置偏移信息获取动作序列的全局偏移信息:
fi1=θi(t)-θi(1)
通过计算当前第t帧与第(t-Δt)帧的特征点位置偏移信息获取动作序列的局部偏移信息:
fi2=θi(t)-θi(t-Δt)
其中,Δt是一个时间间隔;
获取第t帧所有人体特征点的偏移信息之后,第t帧所有特征点的特征信息可以通过全局偏移信息f1(t)和局部偏移信息f2(t)两部分来表示,如下所示:
f1(t)=[f11(t),f21(t),...,fm1(t)]
f2(t)=[f12(t),f22(t),...,fm2(t)]
步骤1.2.2、视频对应的动作序列特征向量的获取
假设每个训练视频所有人体特征点已经用一组偏移信息表示,收集到的所有视频的每个特征点的全局偏移向量用R1表示,即
Figure FDA0002276946330000021
其中
Figure FDA0002276946330000022
对应的是第j个训练视频的第i个特征点的第t帧,收集到的所有视频的每个特征点的局部偏移向量用R2表示,即
Figure FDA0002276946330000023
其中
Figure FDA0002276946330000024
对应的是第j个训练视频的第i个特征点的第t帧,设R=R1∪R2,之后使用K-means算法对R进行聚类形成码本{bi},其中采用欧氏距离的聚类度量方法,每一个码字就是K个聚类的中心,也就是{bk},k=1,2,....,K;
设每一个训练视频F={f(t)},t=1,2,...,n,其中n表示的是帧数,在每一帧f(t)每一个人体特征点i的全局偏移向量f1i(t)或者局部偏移向量f2i(t)都会在码本{bk}中找到欧氏距离最短的码字,即
Figure FDA0002276946330000025
因此,F中每一个特征点i运动也就是视频中特征点i的所有位置偏移量f1i(t)和f2i(t),每个特征点的位置偏移量可以进一步通过一个直方图hi来表示,该直方图是一个关于每个码字频率的直方图,由组成,其中
Figure FDA0002276946330000028
来表示第i个特征点的全局偏移量直方图,
Figure FDA0002276946330000029
表示第i个特征点的局部偏移量直方图,即
Figure FDA00022769463300000210
Figure FDA00022769463300000212
其中#{}是一个记分函数,最后F就可以用一组所有特征点的直方图来表示,即F={hi},i=1,2,...,m,其中hi对应的是第i个特征点的直方图。
2.如权利要求1所述的基于部位聚类特征的人体行为识别方法,其特征在于,步骤2中使用朴素贝叶斯最近邻分类方法(Native Bayes Nearest Neighbor Classifier NBNN)进行动作分类:已知一组特征点直方图表示的视频序列F={hi},i=1,2,...,m,其中m是特征点的数量;
选用基于NBNN图像分类的最初概念应用到基于NBNN视频分类,也就是行为识别,计算的是关节直方图-类别的距离而不是视频-类别的距离或者视频-视频的距离,如下所示:
Figure FDA0002276946330000031
其中
Figure FDA0002276946330000032
表示在第c类行为的第i个特征点中与hi最近邻的直方图,即其中h′i(c)表示行为类c中第i个特征点的直方图。
CN201710057722.4A 2017-01-23 2017-01-23 一种基于部位聚类特征的人体行为识别方法 Active CN106909890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710057722.4A CN106909890B (zh) 2017-01-23 2017-01-23 一种基于部位聚类特征的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710057722.4A CN106909890B (zh) 2017-01-23 2017-01-23 一种基于部位聚类特征的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN106909890A CN106909890A (zh) 2017-06-30
CN106909890B true CN106909890B (zh) 2020-02-11

Family

ID=59207591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710057722.4A Active CN106909890B (zh) 2017-01-23 2017-01-23 一种基于部位聚类特征的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN106909890B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520250B (zh) * 2018-04-19 2021-09-14 北京工业大学 一种人体运动序列关键帧提取方法
CN108564047B (zh) * 2018-04-19 2021-09-10 北京工业大学 一种基于3d关节点序列的人体行为识别方法
CN109272523B (zh) * 2018-08-13 2021-03-16 西安交通大学 基于改进cvfh和crh特征的随机堆放活塞位姿估计方法
CN111249691B (zh) * 2018-11-30 2021-11-23 百度在线网络技术(北京)有限公司 一种基于形体识别的运动员训练方法和***
US11179064B2 (en) * 2018-12-30 2021-11-23 Altum View Systems Inc. Method and system for privacy-preserving fall detection
CN110163103B (zh) * 2019-04-18 2021-07-30 中国农业大学 一种基于视频图像的生猪行为识别方法和装置
CN110121103A (zh) * 2019-05-06 2019-08-13 郭凌含 视频自动剪辑合成的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715493A (zh) * 2015-03-23 2015-06-17 北京工业大学 一种运动人体姿态估计的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI506461B (zh) * 2013-07-16 2015-11-01 Univ Nat Taiwan Science Tech 人體動作的辨識方法與裝置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715493A (zh) * 2015-03-23 2015-06-17 北京工业大学 一种运动人体姿态估计的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Efficient action recognition via local position offset of 3D skeletal body joints";Guoliang Lu etc.;《Springer Science+Business Media New York》;20150118;论文第3-5节 *

Also Published As

Publication number Publication date
CN106909890A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN106909890B (zh) 一种基于部位聚类特征的人体行为识别方法
WO2020042419A1 (zh) 基于步态的身份识别方法、装置、电子设备
Iwama et al. The OU-ISIR gait database comprising the large population dataset and performance evaluation of gait recognition
Uddin et al. Human activity recognition using body joint‐angle features and hidden Markov model
Guo et al. Multiview cauchy estimator feature embedding for depth and inertial sensor-based human action recognition
CN103679142B (zh) 一种基于空间约束的目标人体识别方法
Gao et al. Multi-perspective and multi-modality joint representation and recognition model for 3D action recognition
Asif et al. Privacy preserving human fall detection using video data
Medioni et al. Identifying noncooperative subjects at a distance using face images and inferred three-dimensional face models
CN106295568A (zh) 基于表情和行为双模态结合的人类自然状态情感识别方法
Tian et al. Robust 3-d human detection in complex environments with a depth camera
Singh et al. Human activity recognition based on silhouette directionality
CN104463099B (zh) 一种基于图的半监督耦合度量的多角度步态识别方法
CN109086659A (zh) 一种基于多模道特征融合的人体行为识别方法和装置
CN110032940A (zh) 一种视频行人重识别的方法和***
Cong et al. Weakly supervised 3d multi-person pose estimation for large-scale scenes based on monocular camera and single lidar
Ahmed et al. Joint-triplet motion image and local binary pattern for 3d action recognition using kinect
Chai et al. Human gait recognition: approaches, datasets and challenges
Munaro et al. An evaluation of 3d motion flow and 3d pose estimation for human action recognition
Uddin et al. A thermal camera-based activity recognition using discriminant skeleton features and rnn
Li et al. Real-time action recognition by feature-level fusion of depth and inertial sensor
Liu et al. An effective view and time-invariant action recognition method based on depth videos
CN109359578A (zh) 加权融合三通道特征步态表征方法
Ladjailia et al. Automated detection of similar human actions using motion descriptors
Benhamida et al. Human Action Recognition and Coding based on Skeleton Data for Visually Impaired and Blind People Aid System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant