CN107341471A - 一种基于双层条件随机场的人体行为识别方法 - Google Patents

一种基于双层条件随机场的人体行为识别方法 Download PDF

Info

Publication number
CN107341471A
CN107341471A CN201710537393.3A CN201710537393A CN107341471A CN 107341471 A CN107341471 A CN 107341471A CN 201710537393 A CN201710537393 A CN 201710537393A CN 107341471 A CN107341471 A CN 107341471A
Authority
CN
China
Prior art keywords
mrow
random field
behavior
msup
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710537393.3A
Other languages
English (en)
Other versions
CN107341471B (zh
Inventor
刘天亮
董晓栋
戴修斌
高尚
罗杰波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710537393.3A priority Critical patent/CN107341471B/zh
Publication of CN107341471A publication Critical patent/CN107341471A/zh
Application granted granted Critical
Publication of CN107341471B publication Critical patent/CN107341471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双层条件随机场的人体行为识别方法,属于计算机视觉的行为识别领域。首先,分别提取RGB‑D视频中行为动作主体的人体姿态和可能与其相互交互的物体信息特征,计算交互物体在RGB‑D视频分割后得到的各个小视频得分信息作为全局特征。然后,建模顶层条件随机场以捕捉人体行为间的高阶相关性,建模底层条件随机场以丰富人体行为内部的潜在结构,最终构建双层条件随机场的判别分类模型。接着,采用精确推理和结构化支持向量机分类器学习双层条件随机场的判别分类模型参数。最后,根据学习得到的模型参数和即得模型预测测试视频中人体行为类别。本发明在一定程度上提高了人体行为动作的识别准确度。

Description

一种基于双层条件随机场的人体行为识别方法
技术领域
本发明涉及计算机视觉行为识别技术领域,特别是一种基于双层条件随机场(Double-layer conditional random fields model for human action recognition,DL-CRFs)的人体行为识别方法。
背景技术
视频序列中的人体行为识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题,因其在商业、医疗和体育等领域中广泛的应用价值,一直是人们研究的热点。
文献[Koppula H S,Gupta R,Saxena A.Learning Human Activities andObject Affordances from RGB-D Videos[J].International Journal of RoboticsResearch,2013,32(8):951-970.]根据人体行为的复杂程度将人体行为分为高级行为(high-level activity)和简单行为(action)。简单行为指过程中最多只有一个交互物体的不可分割的行为,一般持续时间很短,例如:接触、放置、打开、关闭等。高级行为指由一系列连续的简单行为构成的复杂行为,例如烹饪食物,它一般包含了打开(微波炉)、接触(食物)、移动(食物)、放置(食物)、关闭(微波炉)。同时,这说明对于视频中一个序列的简单行为,具有两层意义的相关性:简单行为内部潜在的相关性,例如移动食物,移动水杯,不同的交互物体具有不同含义,并且有些交互物体不具备移动特性,例如只有关闭或者打开门,而不能移动(门);一系列的连续简单行为之间具有相关性,例如关闭(微波炉)一定是在打开(微波炉)之后的某一时刻发生。所以当以识别简单行为通过建模上述两层意义的相关性,提高人体行为识别的准确率。
近几年,针对室内场景视频的人体简单行为识别研究(以下均称为行为识别研究)主要使用概率图模型的方法对人体行为进行分类解析。根据学习方法的不同,常见的概率图模型主要分为两种结构:生成模型和判决模型。生成模型:首先建模样本数据的联合概率分布p(x,y),然后再得到条件概率p(y|x),常见的生成模型有:隐马尔可夫模型(HiddenMarkov Model)、贝叶斯网络(DBNs)、半马尔可夫模型(Semi-Markov Models)。生成模型明显的不足之处在于,当输入的样本数据之间存在较为复杂的相关性时,联合分布的建模将变得复杂甚至不准确。相反,判决模型对条件概率p(y|x)建模,例如隐条件随机场(HiddenCRFs)、环状条件随机场(Loopy CRFs),它不需要考虑输入样本数据之间的复杂性,就可以衍生出准确而有效的推断。因此对于视频序列的人体行为识别,判决模型有利于融合从视频中提取的不同特征。
在判决模型中,线性条件随机场由于可以运用精确推理方法计算,有效、稳健而备受欢迎,但是它只能捕捉人体行为状态之间的低阶相关性,而不能有效的捕捉目标行为状态内部的潜在结构和人体行为状态之间的高阶相关性,例如物体与行为在空间维结构信息、行为与行为之间在时间维上的语义信息。所以,现有的行为识别研究加入隐状态来建模行为复杂的语义信息。实验结果证明通过判别模型中隐状态确实捕捉到行为的语义信息,从而提高行为识别的准确。文献[Hu N,Englebienne G,Lou Z,et al.Learning latentstructure for activity recognition[C]//IEEE International Conference onRobotics and Automation.IEEE,2014:1048-1053.]从RGB-D视频中提取人体姿态特征和物体信息,通过在条件随机场模型加入隐状态来捕捉视频中人体行为的上下文语义信息。文献[Wang L,Qiao Y,Tang X.La-tent Hierarchical Model of Temporal Structurefor Complex Activity Classification.[J].IEEE Transactions on Image ProcessingA Publication of the IEEE Signal Processing Society,2014,23(2):810.]提出了一种将子行为作为隐状态来识别复杂的高级行为的分层模型。文献[Chatzis S P,DemirisY.The Infinite-Order Conditional Random Field Model for Sequential DataModeling[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2013,35(6):1523-1534.]提出了一种无穷阶条件随机场对序列化数据建模,同时使用了一种序列记忆(sequence memorizer)的方法建模标签序列中无穷阶的相关性。然而上述现有的基于概率图模型的行为识别方法,都未曾同时考虑人体行为状态内部的潜在结构和人体行为状态之间的高阶相关性,仍然存在识别准确率低的问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于双层条件随机场的人体行为识别方法,将人体姿态和交互物体作为预测行为标签的内部的潜在结构——中间状态,建立一个包含底层输入数据、中间状态和预测行为标签的底层条件随机场,以丰富人体行为内部的潜在结构;将全局特征作为顶层输入数据,建立顶层输入数据和预测行为标签的顶层条件随机场,以捕捉行为之间的高阶相关性;最终构成完整的双层条件随机场模型。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于双层条件随机场的人体行为识别方法,包括以下步骤:
步骤A、获取包含人体行为RGB视频信息和深度信息的RGB-D训练视频样本,并将每个训练视频样本分割为多个连续的视频段;
步骤B、从获取得到的深度信息中提取出行为动作主体人的人体骨架结构信息;联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征;对上述特征进行处理得到行为表示特征和全局特征;
步骤C、构建行为表示特征、人体姿态和交互物体组成的中间状态、预测行为标签序列三部分链接而成的底层条件随机场;构建全局特征和预测行为标签序列链接而成的顶层条件随机场,结合底层和顶层条件随机场构建完整视频段的双层条件随机场模型;
步骤D、将步骤C建立的双层条件随机场模型融合为一个线性的概率图模型,并对该线性的概率图模型应用精确推理方法计算出最优的预测行为标签序列;
步骤E,利用最大-间隔算法,加入精确推理的过程,通过标准的结构化SVM学习步骤D中得到的线性的概率图模型的最优参数;
步骤F,根据步骤C构建的双层条件随机场模型和步骤E学习得到的最优参数,输入测试视频样本的数据,从而识别出测试视频样本中对应的行为标签。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤B中:
联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,将上述特征串联后得到的行为表示特征x={x1,···,xt,···,xT}作为底层输入数据,其中,1≤t≤T,T表示分割视频段的数目,xt表示第t个视频段的行为表示特征;
将交互物体完全出现或部分出现在各个视频段中的得分串联,得到的全局特征xa作为顶层输入数据。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤C中人体姿态和交互物体组成的中间状态,采用k-means聚类法处理底层输入数据,经过十次k-means聚类,初始化中间状态ht和ot;其中,ht和ot分别表示第t个视频段的人体姿态和交互物体。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤C中双层条件随机场模型的势能函数ψ(y,h,o,x,xa;ω),其具体表示如下:
其中,t表示训练视频样本分割后的第t个视频段,xa表示该训练样本的全局特征,ω1、ω2、ω3、ω4均表示模型的参数,yt表示第t个视频段的预测行为标签;表示xt与联合状态(yt,ht,ot)的依赖性,为xt到特征空间的映射函数;ω2(yt,ht,ot)表示联合状态(yt,ht,ot)内部的yt和ht、ot的耦合性;ω3(ht,ot)表示ht和ot的相关性;ω4(yt-1,yt,xa)表示在xa的限制条件下yt-1和yt的相关性。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤D中计算出最优的预测行为标签序列,所述最优的预测行为标签序列为:
其中,Y表示训练视频样本的行为标签序列的集合。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,求解对双层条件随机场模型进行以下推理过程:
将双层条件随机场模型中的yt,ht,ot合并为联合状态(yt,ht,ot),因此底层的模型结构看作一个线性条件随机场;由于底层和顶层具有相同的输出,因此将底层和顶层两个条件随机场融合为一个线性结构;从而求解最优的预测行为标签序列转变为递归的动态规划过程:
将此过程遍历整个视频,记录每次势能函数得到最大得分时的y1,···yt,···yT-1,,最后得到第T视频段的预测行为标签:再由得到行为预测行为标签反向递推第T-1视频段的预测行为标签以此类推直至得到
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤E包含以下子步骤:
步骤E1,概率图模型的最优参数ω由下述正则项表达式计算:
其中,λ为均衡权重值,N表示训练视频样本的总数,yi分别表示第i个训练视频样本的实际行为标签序列和预测行为标签序列,表示和yi差异的损失函数;
步骤E2,对进行边缘化替代,求出的上边界,将计算参数ω变成如下凸最优化问题:
其中,松弛变量ξi表示第i个训练视频样本的替代损失函数,Y表示训练视频样本的行1标签序列的集合,hi、oi、xi分别表示第i个训练视频样本的人体姿态、交互物体、行为表示特征、全局特征;
步骤E3,将损失函数作为概率图模型中的额外的一部分因子,采用步骤D中精确推理方法计算采用结构化支持向量机SSVM求解上述凸最优化问题。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤A具体如下:采用Kinect深度传感器获取人体行为的RGB-D训练视频样本;将每个训练视频样本分割为具有统一长度的多个连续的视频段。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明基于双层条件随机场的人体行为识别方法,在建模时引入并增加了当前行为动作相关因素内部的潜在结构和序列行为动作之间的高阶相关性,对行为动作过程中包含的人体外形差异、复杂场景和交互物体等都具有显著的鲁棒性,在一定程度上能提高人体行为动作的识别准确度。
附图说明
图1是本发明基于双层条件随机场的人体行为识别方法的流程图示意图。
图2是本发明提出的双层条件随机场的模型示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
为解决背景技术中提出的问题,本发明引入双层条件随机场模型(DL-CRFs),通过底层和顶层两个模块分别同时捕捉人体行为状态内部的潜在结构和人体行为状态之间的高阶相关性。
如图1所示是本发明基于双层条件随机场的人体行为识别方法的流程图示意图:
步骤A、获取包含人体行为RGB视频信息和深度信息的RGB-D训练视频样本,并将每个训练视频样本分割为多个连续的视频段。
步骤B,特征提取:利用OpenNI从获取得到的深度信息中提取出行为动作主体人的人体骨架结构信息。联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征;对上述特征进行处理、得到行为表示特征和全局特征;
步骤B1,将人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,串联后得到的行为表示特征作为底层输入数据。
步骤B2,将交互物体完全出现或部分出现在各个视频段中的得分串联,得到的全局特征作为顶层输入数据。
步骤B3,采用现有的k-means聚类法[Y.Zhuang,Y.Rui,T.S.Huang,andS.Mehrotra,"Adaptive key frame extraction using unsupervised clustering."pp.866-870]处理底层输入数据,经过十次k-means聚类,初始化中间表示变量ht和ot,其中,T表示分割视频段的数目,xt表示第t个视频段的行为表示特征
步骤C,DL-CRFs模型构建:构建当行为表示特征、人体姿态和交互物体组成的中间状态、预测行为标签三部分链接而成的底层条件随机场;构建全局特征和预测行为标签序列链接而成的顶层条件随机场,结合底层和顶层条件随机场构建完整视频段的双层条件随机场模型。
结合图2定义双层条件随机场模型的目标函数和势能函数。针对底层(Bottomlayer)输入数据x、顶层(Top layer)输入数据xa,其对应的目标层(Target-state layer)的行为标签序列y的概率可以表示为如下目标函数:
其中,ψ(y,h,o,x,xa;ω)∈R为双层条件随机场模型的势能函数,衡量x、xa、中间层(Intermediate layer)的人体姿态h和交互物体o,以及预测行为标签序列y之间的相关性,ω为模型参数。为实现底层和顶层条件随机场的作用,势能函数ψ(y,h,o,x,xa;ω)由两部分组成:
其中,t=1,···,T表示训练视频样本分割后的第t个视频段,ω1、ω2、ω3、ω4均表示模型的参数,xt、yt、ht、ot分别表示第t个视频段的行为表示特征、预测行为标签、人体姿态和交互物体,
步骤C1,在底层条件随机场中,首先直接建模行为表示特征与中间状态、预测行为标签之间的依赖性,从而避免其他任何条件假设;其次建模预测行为标签和中间状态的耦合性;最后建模人体姿态和交互物体之间相关性。
1.行为表示特征xt和中间状态、预测行为标签的联合状态(yt,ht,ot)的依赖性:
其中,为输入数据xt到特征空间的映射函数。
2.预测行为标签yt和中间状态ht和ot的耦合性:
ψ2(yt,ht,ot;ω2)=ω2(yt,ht,ot) (4)
3.人体姿态ht和交互物体ot之间相关性:
ψ3(ht,ot;ω3)=ω3(ht,ot) (5)
步骤C2,在顶层条件随机场中,建模在全局特征xa的限制下当前时刻的预测行为标签yt与前一时刻的预测行为标签yt-1之间的相关性:
ψ4(yt-1,yt,xa;ω4)=ω4(yt-1,yt,xa) (6)
步骤D、模型推理:将双层条件随机场模型中的yt,ht,ot的联合状态(yt,ht,ot)看做一个整体,不考虑其内部结构,底层结构将变为线性条件随机场,所以提出双层条件随机场模型可以看作由底层和顶层两个线性条件随机场组成,通过公式(5),我们将底层和顶层融合为一个整体的线性结构,因此精确推理在我们模型中是可控制的。
在给定图模型和参数ω的情况下,通过精确推理找出能够最大化目标函数的y:
直接对公式(7)求解是一个N-P难题,本发明根据线性条件随机场的维特比解法,将公式(7)转变为递归的动态规划问题:
y0是初始值,设为0;
将此过程迭代整个视频,计算势能函数的最大得分并记录每次迭代结果y1,···yt,···yT-1,,最后得到第T个视频段的预测行为标签
根据公式(8)再反向推到出依次类推得到整个视频段的预测行为标签序列
步骤E,DL-CRFs参数学习:采用最大-间隔算法(Max-margin),学习所构造的双层条件随机场模型的参数。在训练数据集中包含N组训练视频样本,xi、yi分别表示第i个训练视频样本的行为表示特征、实际行为标签序列和全局特征。
步骤E1,本发明中模型学习的目的为找出最优的模型参数ω,使得预测行为标签和实际标签的差异最小。为防止过拟合现象,本发明给出对应的正则项表达式:
其中λ为均衡权重值,表示由公式(7)所获得的第i个训练视频样本的预测行为标签序列。表示第i训练视频样本的预测行为标签序列和实际行为标签序列差异的损失函数。具体表示为:
其中,Ti表示第i个训练视频样本分割视频段的数目,分别表示第i训练视频样本的第t个视频段的实际行为标签和预测行为标签。
步骤E2,对进行边缘化替代,求出的上边界。故而将计算模型参数ω变成如下凸最优化问题:
其中,松弛变量ξi表示第i个训练视频样本的替代损失函数,Y表示训练视频样本的行为标签序列的集合,hi、oi、xi分别表示第i个训练视频样本的人体姿态、交互物体、行为表示特征、全局特征。
步骤E3,将损失函数作为概率图模型中的额外的一部分因子,采用步骤D中精确推理方法计算然后采用结构化支持向量机(Structural-Support Vector Machine,SSVM)求解上述凸最优化问题。
步骤F、将测试视频样本经过步骤A、B处理,得到相应的测试视频样本的数据,根据步骤C建模的双层条件随机场和步骤E学习得到的参数,输入测试视频样本的数据,从识别出测试视频样本中对应的行为标签。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (8)

1.一种基于双层条件随机场的人体行为识别方法,其特征在于,包括以下步骤:
步骤A、获取包含人体行为RGB视频信息和深度信息的RGB-D训练视频样本,并将每个训练视频样本分割为多个连续的视频段;
步骤B、从获取得到的深度信息中提取出行为动作主体人的人体骨架结构信息;联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征;对上述特征进行处理得到行为表示特征和全局特征;
步骤C、构建行为表示特征、人体姿态和交互物体组成的中间状态、预测行为标签序列三部分链接而成的底层条件随机场;构建全局特征和预测行为标签序列链接而成的顶层条件随机场,结合底层和顶层条件随机场构建完整视频段的双层条件随机场模型;
步骤D、将步骤C建立的双层条件随机场模型融合为一个线性的概率图模型,并对该线性的概率图模型应用精确推理方法计算出最优的预测行为标签序列;
步骤E,利用最大-间隔算法,加入精确推理的过程,通过标准的结构化SVM学习步骤D中得到的线性的概率图模型的最优参数;
步骤F,根据步骤C构建的双层条件随机场模型和步骤E学习得到的最优参数,输入测试视频样本的数据,从而识别出测试视频样本中对应的行为标签。
2.根据权利要求1所述的一种基于双层条件随机场的人体行为识别方法,其特征在于,所述步骤B中:
联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,将上述特征串联后得到的行为表示特征x={x1,…,xt,…,xT}作为底层输入数据,其中,1≤t≤T,T表示分割视频段的数目,xt表示第t个视频段的行为表示特征;
将交互物体完全出现或部分出现在各个视频段中的得分串联,得到的全局特征xa作为顶层输入数据。
3.根据权利要求2所述的一种基于双层条件随机场的人体行为识别方法,其特征在于,所述步骤C中人体姿态和交互物体组成的中间状态,采用k-means聚类法处理底层输入数据,经过十次k-means聚类,初始化中间状态ht和ot;其中,ht和ot分别表示第t个视频段的人体姿态和交互物体。
4.根据权利要求3所述的一种基于双层条件随机场的人体行为识别方法,其特征在于,所述步骤C中双层条件随机场模型的势能函数ψ(y,h,o,x,xa;ω),其具体表示如下:
其中,t表示训练视频样本分割后的第t个视频段,xa表示该训练样本的全局特征,ω1、ω2、ω3、ω4均表示模型的参数,yt表示第t个视频段的预测行为标签;表示xt与联合状态(yt,ht,ot)的依赖性,为xt到特征空间的映射函数;ω2(yt,ht,ot)表示联合状态(yt,ht,ot)内部的yt和ht、ot的耦合性;ω3(ht,ot)表示ht和ot的相关性;ω4(yt-1,yt,xa)表示在xa的限制条件下yt-1和yt的相关性。
5.根据权利要求4所述的一种基于双层条件随机场的人体行为识别方法,其特征在于,所述步骤D中计算出最优的预测行为标签序列,所述最优的预测行为标签序列为:
<mrow> <mover> <mi>y</mi> <mo>^</mo> </mover> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>y</mi> <mo>&amp;Element;</mo> <mi>Y</mi> </mrow> </munder> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>,</mo> <mi>h</mi> <mo>,</mo> <mi>o</mi> <mo>,</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>x</mi> <mi>a</mi> </msub> <mo>;</mo> <mi>&amp;omega;</mi> <mo>)</mo> </mrow> </mrow>
其中,Y表示训练视频样本的行为标签序列的集合。
6.根据权利要求5所述的一种基于双层条件随机场的人体行为识别方法,其特征在于,求解 对双层条件随机场模型进行以下推理过程:
将双层条件随机场模型中的yt,ht,ot合并为联合状态(yt,ht,ot),因此底层的模型结构看作一个线性条件随机场;由于底层和顶层具有相同的输出,因此将底层和顶层两个条件随机场融合为一个线性结构;从而求解最优的预测行为标签序列转变为递归的动态规划过程:
将此过程遍历整个视频,记录每次势能函数得到最大得分时的y1,…yt,…yT-1,,最后得到第T视频段的预测行为标签:再由得到行为预测行为标签反向递推第T-1视频段的预测行为标签以此类推直至得到
7.根据权利要求4所述的一种基于双层条件随机场的人体行为识别方法,其特征在于,所述步骤E包含以下子步骤:
步骤E1,概率图模型的最优参数ω由下述正则项表达式计算:
<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>&amp;omega;</mi> </munder> <mo>{</mo> <mfrac> <mi>&amp;lambda;</mi> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>&amp;omega;</mi> <mo>|</mo> <mo>|</mo> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>L</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>,</mo> <msup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mo>}</mo> </mrow>
其中,λ为均衡权重值,N表示训练视频样本的总数,yi分别表示第i个训练视频样本的实际行为标签序列和预测行为标签序列,表示和yi差异的损失函数;
步骤E2,对进行边缘化替代,求出的上边界,将计算参数ω变成如下凸最优化问题:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>&amp;omega;</mi> <mo>,</mo> <mi>&amp;xi;</mi> </mrow> </munder> <mo>{</mo> <mfrac> <mi>&amp;lambda;</mi> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>&amp;omega;</mi> <mo>|</mo> <mo>|</mo> <mo>+</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>}</mo> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo>&amp;ForAll;</mo> <mi>i</mi> <mo>&amp;Element;</mo> <mo>{</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>}</mo> <mo>,</mo> <mo>&amp;ForAll;</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>&amp;Element;</mo> <mi>Y</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
<mrow> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>,</mo> <msup> <mi>h</mi> <mi>i</mi> </msup> <mo>,</mo> <msup> <mi>o</mi> <mi>i</mi> </msup> <mo>,</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>;</mo> <mi>&amp;omega;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <msup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msup> <mo>,</mo> <msup> <mi>h</mi> <mi>i</mi> </msup> <mo>,</mo> <msup> <mi>o</mi> <mi>i</mi> </msup> <mo>,</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>a</mi> <mi>i</mi> </msubsup> <mo>;</mo> <mi>&amp;omega;</mi> <mo>)</mo> </mrow> <mo>&amp;GreaterEqual;</mo> <mi>L</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>,</mo> <msup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> </mrow>
其中,松弛变量ξi表示第i个训练视频样本的替代损失函数,Y表示训练视频样本的行为标签序列的集合,hi、oi、xi分别表示第i个训练视频样本的人体姿态、交互物体、行为表示特征、全局特征;
步骤E3,将损失函数作为概率图模型中的额外的一部分因子,采用步骤D中精确推理方法计算采用结构化支持向量机SSVM求解上述凸最优化问题。
8.根据权利要求1所述的一种基于双层条件随机场的人体行为识别方法,其特征在于,所述步骤A具体如下:采用Kinect深度传感器获取人体行为的RGB-D训练视频样本;将每个训练视频样本分割为具有统一长度的多个连续的视频段。
CN201710537393.3A 2017-07-04 2017-07-04 一种基于双层条件随机场的人体行为识别方法 Active CN107341471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710537393.3A CN107341471B (zh) 2017-07-04 2017-07-04 一种基于双层条件随机场的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710537393.3A CN107341471B (zh) 2017-07-04 2017-07-04 一种基于双层条件随机场的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN107341471A true CN107341471A (zh) 2017-11-10
CN107341471B CN107341471B (zh) 2019-10-01

Family

ID=60218359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710537393.3A Active CN107341471B (zh) 2017-07-04 2017-07-04 一种基于双层条件随机场的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN107341471B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986107A (zh) * 2018-06-15 2018-12-11 大连理工大学 基于光谱分析和骨架涂鸦的序列化可视人体切片图像自动分割方法
CN109903339A (zh) * 2019-03-26 2019-06-18 南京邮电大学 一种基于多维融合特征的视频群体人物定位检测方法
CN111353519A (zh) * 2018-12-24 2020-06-30 北京三星通信技术研究有限公司 用户行为识别方法和***、具有ar功能的设备及其控制方法
CN116070001A (zh) * 2023-02-03 2023-05-05 深圳市艾莉诗科技有限公司 基于互联网的信息定向抓取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930250A (zh) * 2012-10-23 2013-02-13 西安理工大学 一种多尺度条件随机场模型的动作识别方法
CN103577804A (zh) * 2013-10-21 2014-02-12 中国计量学院 基于sift流和隐条件随机场的人群异常行为识别方法
CN103810496A (zh) * 2014-01-09 2014-05-21 江南大学 基于图像深度信息的3d高斯空间人体行为识别方法
CN104217226A (zh) * 2014-09-09 2014-12-17 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN104598890A (zh) * 2015-01-30 2015-05-06 南京邮电大学 一种基于rgb-d视频的人体行为识别方法
CN105740815A (zh) * 2016-01-29 2016-07-06 南京邮电大学 一种基于深度递归分层条件随机场的人体行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930250A (zh) * 2012-10-23 2013-02-13 西安理工大学 一种多尺度条件随机场模型的动作识别方法
CN103577804A (zh) * 2013-10-21 2014-02-12 中国计量学院 基于sift流和隐条件随机场的人群异常行为识别方法
CN103810496A (zh) * 2014-01-09 2014-05-21 江南大学 基于图像深度信息的3d高斯空间人体行为识别方法
CN104217226A (zh) * 2014-09-09 2014-12-17 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN104598890A (zh) * 2015-01-30 2015-05-06 南京邮电大学 一种基于rgb-d视频的人体行为识别方法
CN105740815A (zh) * 2016-01-29 2016-07-06 南京邮电大学 一种基于深度递归分层条件随机场的人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AN-ANLIU ET AL: "Coupled hidden conditional random fields for RGB-D human action recognition", 《SIGNAL PROCESSING》 *
TIANLIANG LIU ET AL: "Deep Recursive and Hierarchical Conditional Random Fields for Human Action", 《2016 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
ZHENG ZHANG ET AL: "Distributed Human Action Recognition via 2D Conditional Random Field", 《 PROCEEDING ICDSC "14 PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON DISTRIBUTED SMART CAMERAS》 *
李艳丽: "一种双层条件随机场的场景解析方法", 《计算机学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986107A (zh) * 2018-06-15 2018-12-11 大连理工大学 基于光谱分析和骨架涂鸦的序列化可视人体切片图像自动分割方法
CN108986107B (zh) * 2018-06-15 2021-09-28 大连理工大学 基于光谱分析和骨架涂鸦的序列化可视人体切片图像自动分割方法
CN111353519A (zh) * 2018-12-24 2020-06-30 北京三星通信技术研究有限公司 用户行为识别方法和***、具有ar功能的设备及其控制方法
CN109903339A (zh) * 2019-03-26 2019-06-18 南京邮电大学 一种基于多维融合特征的视频群体人物定位检测方法
CN109903339B (zh) * 2019-03-26 2021-03-05 南京邮电大学 一种基于多维融合特征的视频群体人物定位检测方法
CN116070001A (zh) * 2023-02-03 2023-05-05 深圳市艾莉诗科技有限公司 基于互联网的信息定向抓取方法及装置
CN116070001B (zh) * 2023-02-03 2023-12-19 深圳市艾莉诗科技有限公司 基于互联网的信息定向抓取方法及装置

Also Published As

Publication number Publication date
CN107341471B (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN111523047B (zh) 基于图神经网络的多关系协同过滤算法
Wang et al. Temporal relational modeling with self-supervision for action segmentation
Chen et al. Automatic social signal analysis: Facial expression recognition using difference convolution neural network
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN107480704A (zh) 一种具有遮挡感知机制的实时视觉目标跟踪方法
CN105095862A (zh) 一种基于深度卷积条件随机场的人体动作识别方法
CN107341471A (zh) 一种基于双层条件随机场的人体行为识别方法
Li et al. Attention, suggestion and annotation: a deep active learning framework for biomedical image segmentation
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及***
CN116129286A (zh) 基于知识图谱的图神经网络遥感图像分类方法
Soleimani et al. Generic semi-supervised adversarial subject translation for sensor-based activity recognition
CN113704438B (zh) 一种基于分层注意力机制的异构图的会话推荐方法
Han et al. One-shot video graph generation for explainable action reasoning
Yoon et al. Evolution of deep learning-based sequential recommender systems: from current trends to new perspectives
Cao et al. QMEDNet: A quaternion-based multi-order differential encoder–decoder model for 3D human motion prediction
Al-Dyani et al. Improvements of bat algorithm for optimal feature selection: A systematic literature review
Saranya et al. FBCNN-TSA: An optimal deep learning model for banana ripening stages classification
Ilioudi et al. Deep learning for object detection and segmentation in videos: Toward an integration with domain knowledge
CN116089874A (zh) 一种基于集成学习和迁移学习的情感识别方法及装置
Christoforidis et al. Recommending points of interest in LBSNs using deep learning techniques
Zhao et al. Toward Label-Efficient Emotion and Sentiment Analysis.
Zhang et al. Cross-Supervised multisource prototypical network: A novel domain adaptation method for multi-source few-shot fault diagnosis
Tang An action recognition method for volleyball players using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171110

Assignee: Nanjing Nanyou Information Industry Technology Research Institute Co. Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: X2019980001257

Denomination of invention: Human action recognition method based on double layers of conditional random fields

Granted publication date: 20191001

License type: Common License

Record date: 20191224

EE01 Entry into force of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: NANJING NANYOU INSTITUTE OF INFORMATION TECHNOVATION Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2019980001257

Date of cancellation: 20220304

EC01 Cancellation of recordation of patent licensing contract