CN104966052A

CN104966052A - 基于属性特征表示的群体行为识别方法

Info

Publication number: CN104966052A
Application number: CN201510313098.0A
Authority: CN
Inventors: 陈昌红; 豆贺贺; 干宗良
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2015-06-09
Filing date: 2015-06-09
Publication date: 2015-10-07

Abstract

本发明公开了一种基于属性特征表示的群体行为识别方法，主要解决在识别过程中，预处理复杂，后期建模复杂等问题。识别过程包括特征词典的获取、视频属性向量的获得和测试视频行为预测。方法包括：原始视频序列划分为包含一定帧数视频，视频划分栅格立方体，提取栅格立方体描述符，获得特征词典；根据词典获得视频的描述符，对训练视频标定属性向量，根据训练视频得到属性分类模型，预测得到测试视频属性向量；利用训练视频，学习得到不同动作的分类模型，预测测试视频的动作类别。该方法无需对人体进行跟踪和姿态估计，使得群体行为识别变得简单易行，同时其识别效果良好，在视频监控中具有重要的应用。

Description

基于属性特征表示的群体行为识别方法

技术领域

本发明涉及图像处理与模式识别领域，尤其涉及一种基于属性特征表示的群体行为识别方法。

背景技术

近年来，由于视频监督、人机交互、基于视频的内容检索的需求越来越大，人体行为识别渐渐成为了计算视觉和模式识别的研究热点之一。目前的人体行为识别算法仍集中于人体标准姿势和简单行为的识别与理解方面，近年来利用机器学习工具构建人体行为模型的研究已经取得了一定的进展。但是现在识别较好的只是在一些简单的行为上，对于复杂的群体行为还没有一个框架简单，模型复杂度低的，易于实施的方法。未来的发展趋势是如何借助先进的视觉算法和人工智能等领域的成果，将现有简单的行为识别与语义理解推广到更为复杂场景下的自然语言描述，并能够根据外部环境进行自主的学习与理解。

对于群体运动行为，参与运动的人的数目比较多，每个人的运动状态也是不尽相同的，不仅要跟踪到单个人的运动状态，还要考虑到人与人之间的关系，这就需要建立一个复杂的模型。Nabi提出了使用姿态来进行群体行为的识别，姿态就是人体各个关节节点的一种结构关系，不同的结构关系就代表一种姿态，并且训练得到了150种姿态检测器。但是这种方法没有考虑到单个人的运动状态，以及它们之间的关系，是一种从宏观上来把握整体运动。它的抗干扰能力是很强的，普适性也是很强的，但是它没有得到帧与帧之间的运动信息，并且用这个特征直接关联到标签，效果一般。Liu提出了在运动行为中提取高层语义即属性概念，这些高层语义，不仅仅是人的某个动作是否存在，而且还包含环境因素。使用属性概念在单个人行为中取得了非常好的效果。Kong Yu把属性应用到群体行为识别方法中，虽然取得了良好的效果，但是，它需要对交互行为中的每一个人进行跟踪，这就需要很大的预处理工作，并且在识别时使用的模型非常复杂，参数调节比较繁琐，在实际应用中很难做到实时性，这样会限制它的应用场合。

对于复杂的群体行为识别中，传统方法具有预处理复杂，模型复杂度高等不足。

发明内容

本发明所要解决的技术问题是针对背景技术中所涉及的缺陷，提供一种基于属性特征表示的群体行为识别方法。

本发明为解决上述技术问题采用以下技术方案：

基于属性特征表示的群体行为识别方法，包括如下步骤：

步骤1)，将原始动作视频序列划分为若干视频，将视频划分为训练视频和测试视频两组，并基于训练视频构建视频的特征词典；

步骤2)，根据视频高层语义概念，标定训练视频的属性，使得每个训练视频对应一个属性向量；

步骤3)，根据所述特征词典提取训练视频的描述符后，基于训练视频的描述符和属性向量进行训练得到属性分类模型；

步骤4)，根据所述训练视频的属性向量提取其基于属性的视频描述符后，训练得到预先设定的动作数据库中各个动作的分类模型；

步骤5)，根据所述特征词典提取测试视频的描述符；

步骤6)，根据所述测试视频的描述符，使用属性分类模型提取测试视频的属性向量；

步骤7)，根据所述测试视频的属性向量，提取测试视频基于属性的视频描述符；

步骤8)，对所述测试视频基于属性的视频描述符，运用所述分类模型获得测试视频中包含的动作类别。

作为本发明基于属性特征表示的群体行为识别方法进一步的优化方案，所述步骤1)具体包括：

步骤1.1)，将视频的每一帧划分成大小相同、两两不相交的栅格后，以视频的每一帧相同位置的栅格为时间轴方向结合形成一个栅格立方体，将视频若干栅格立方体；

步骤1.2)，对于视频的每一帧图片，利用预先设定的姿态检测器库来提取图片的姿态；

步骤1.3)，视频每一帧图片中，对于任意一个栅格，根据包含此栅格的帧的姿态获取栅格的描述符，并将栅格立方体的每个栅格的描述符依次串联起来，得到栅格立方体基于姿态的描述符；

步骤1.4)，对于视频中所有栅格立方体，根据栅格立方体的描述符和预设的显著性公式计算出栅格立方体的显著值后，把栅格立方体显著值与预先设定的显著阈值进行比较，删除显著值小于等于预先设定的显著阈值的栅格立方体；

步骤1.5)，采用梯度公式，提取栅格立方体基于梯度的描述符；

步骤1.6)，将栅格立方体的基于姿态的描述符和基于梯度的描述符串联起来，得到栅格立方体的描述符；

步骤1.7)，对训练视频中所有保留的栅格立方体的描述符进行K-means聚类，形成视频的特征词典。

作为本发明基于属性特征表示的群体行为识别方法进一步的优化方案，所述步骤1.2)的详细步骤如下：

步骤1.2.1)，对于视频的每一帧图片，根据不同尺度，把图片划分为一定数量的图像块，针对每一个图像块，采用预先设定的姿态检测器库中的姿态检测器依次对其进行检测，得到姿态检测器库中各个姿态检测器与其的匹配度，将匹配度最高的姿态检测器对应的姿态作为该图像块中的姿态，并记录此匹配值为其类似度；

步骤1.2.2)，对于所有提取出的姿态，将其类似度与预设的类似度阈值进行比较，删除类似度低于类似度阈值的姿态。

作为本发明基于属性特征表示的群体行为识别方法进一步的优化方案，所述步骤3)具体包括:

步骤3.1)，对于所有训练视频中的每一个视频，利用所述特征词典，根据视频中的栅格立方体的描述符计算其与词典中所有词的欧式距离，将栅格立方体划归为距离最小的词，得到视频的词频直方图，归一化之后得到视频的描述符；

步骤3.2)，根据训练视频的描述符和属性向量，使用线性支持向量机，学习得到属性的分类模型。

作为本发明基于属性特征表示的群体行为识别方法进一步的优化方案，所述步骤4)具体包括：

步骤4.1)，根据训练视频的属性向量，得到属性向量内属性之间的关系，属性向量内每两个属性之间的关系使用一个四维向量来表示，将属性向量内所有两两属性间关系的向量串联得到训练视频的属性关系向量；

步骤4.2)，将训练视频的属性向量和训练视频的属性关系向量进行串联，得到训练视频的基于属性的描述符；

步骤4.3)，采用训练视频的基于属性的描述符，使用支持向量机训练得到预先设定的动作数据库中各个动作的分类模型。

作为本发明基于属性特征表示的群体行为识别方法进一步的优化方案，将原始视频序列划分为视频时，视频所包含的帧数为10，视频的每一帧图片中划分的栅格大小为40*40，栅格立方体的小为40*40*10，姿态类别的数目为150个，视频的栅格立方体基于姿态的描述符是1500维向量，视频的栅格立方体基于梯度的描述符是216维向量。

作为本发明基于属性特征表示的群体行为识别方法进一步的优化方案，所述训练视频的属性向量中属性之间的关系为以下四种：

{(0,0),(0,1),(1,0),(1,1)}。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

在群体行为识别中，现在的一般方法是先得到原子行为，再通过原子行为之间的关系得到总的群体行为的表示，但是人体受到遮挡，背景复杂等影响，导致原子行为之间的建模变得困难。本发明，是不需要对群体行为中的个体进行跟踪的，并且前期操作非常简单，很容易就可以得到视频块的描述符。通过高层语义概念-属性，得到一个具有良好分辨力的描述符。本方法不需要使用复杂的模型并且其实施简单，能够很好的识别群体行为，对于未来视频监控的群体行为预测具有重要作用。

附图说明

图1是本发明的主流程图；

图2是在Collective Activity Dataset(CAD)上的实验结果；

图3是在Collective Activity Dataset 2(CAD2)上的实验结果。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，本发明公开了一种基于属性特征表示的群体行为识别方法，包括如下步骤：

步骤1)，构建视频的特征词典；

步骤1.1)，把数据库中的原始视频序列划分为一系列包含有10帧的视频，对于所有的视频划分为两部分：训练视频和测试视频。对于每一帧图片要把它划分为大小相同、两两不相交的栅格，栅格大小为40*40。视频中每一帧相同位置的栅格以时间方向结合在一起，形成栅格立方体，其大小为40*40*10。

步骤1.2)，姿态是人体各个关节节点的一种结构关系，不同结构关系的节点可构成不同的姿态，根据各个关节节点之间的关系，可以标定150个姿态，经过训练可以得到150个姿态检测器，组成姿态检测器库，在本发明中是利用姿态检测器库中这150个姿态检测器来检测得到每一帧的姿态，检测方法是窗口扫描法，对于视频的每一帧图片，根据不同尺度，把图片划分为一定数量的图像块，针对每一个图像块，采用预先设定的姿态检测器库中的姿态检测器依次对其进行检测，得到姿态检测器库中各个姿态检测器与其的匹配度，将匹配度最高的姿态检测器对应的姿态作为该图像块中的姿态，并记录此匹配值为其类似度。对于所有提取出的姿态，将其类似度与预设的类似度阈值进行比较，删除类似度低于类似度阈值的姿态。类似度阈值取0.5。

步骤1.3)，采用姿态检测器得到视频每一帧图片的姿态(姿态类别p＝1,2,3,…,150)，假设其中的一个姿态为a,其中有一个栅格为g；那么姿态对栅格的激励可以通过公式(1)来计算：

v = \frac{area (a \cap g)}{area (a \cup g)} - - - (1)

公式(1)中v表示姿态a对栅格g的激励值，两个方块面积的交并比，area()表示的是面积。

对于姿态类别p，对一个栅格g的激励可以使用公式(2)进行计算，其中|P(p)|表示在图片帧中，检测得到的所有姿态类别p的数目。c_i表示的是姿态类别p的第i个检测结果的类似度，v(p)_i表示的是类别姿态p的第i个检测结果对栅格g的激励值，v(p)表示的是类别姿态p对栅格g的激励值，i为大于等于1小于等于|P(p)|的自然数。

v (p) = Σ_{i = 1}^{| P (p) |} c_{i} v {(p)}_{i} - - - (2)

把所有的姿态类别对栅格的激励值，连接起来作为一个向量，得到栅格的描述符，如公式(3)所示,v_t表示的是在第t帧，所有姿态类别对栅格g产生的激励，形成的栅格g的描述符。

v_t＝[v(1),v(2),...,v(150)]^T (3)

视频的栅格立方体是由栅格组成，把视频的栅格立方体的每一个栅格描述符以时间方向依次连接起来，得到栅格立方体的描述符如公式(4)所示，T表示转置，TPOS表示栅格立方体的描述符。

TPOS = {[v_{1}^{T}, v_{2}^{T}, . . ., v_{t}^{T}]}^{T} - - - (4)

步骤1.4)，并不是每一个栅格立方体都是有用的，定义一个显著性测量公式(5)，s表示显著值，||TPOS||₁表示TPOS描述符的一范数，把栅格立方体显著值与预先设定的显著阈值比较，保留大于显著阈值的栅格立方体。显著阈值取10。

s＝||TPOS||₁ (5)

步骤1.5)，对于视频的保留的栅格立方体，根据公式(5)、(6)计算栅格立方体的基于梯度的描述符，维数为216维。

G_x1＝V(x1+1,y1,t)-V(x1-1,y1,t)

G_y1＝V(x1,y1+1,t)-V(x1,y1-1,t) (6)

G_t＝V(x1,y1,t+1)-V(x1,y1,t-1)

对每一个像素计算其角度值：

θ＝tan^-1(G_y1/G_x1)∈[-π,π]

公式(6)中V表示栅格立方体，G_x1，G_y1，G_t分别表示的像素在x1方向，y1方向，时间t方向的梯度值，公式(7)中，表示像素在(x1,y1,t)处t轴方向与x1,y1轴方向的夹角，θ表示像素在(x1,y1,t)处y1轴与x1轴的夹角。

步骤1.6)，把视频的每一个栅格立方体的基于姿态的描述符和基于梯度的描述符串联起来，得到视频栅格立方体的描述符。

步骤1.7)，对训练视频所有保留的栅格立方体的描述符进行K-means聚类，形成视频的特征词典。K取256；

步骤2)，视频的高层语义概念，即是属性概念，从视频的宏观概念上提取出这些属性，比如视频中跑步动作，可以提取出身体在快速平移这个属性，排队这个动作可以提取出人的身体的形心形成一条直线等诸如此类的视频属性。观察训练视频标定出22个视频属性(例如：运动、静止、户外等)，对于每个训练视频可根据标定视频属性，提取训练视频的属性向量，属性存在用1表示，属性不存在用0表示。

步骤3)，提取属性分类模型；

步骤3.2)，根据训练视频的描述符和属性向量，使用支持向量机，学习得到属性的分类模型。参数选择g＝0.5,c＝100。

步骤4)，视频动作分类模型；

步骤4.1)，根据训练视频的属性向量，得到属性向量内属性之间的关系，视频属性向量内每两个属性之间的关系使用一个四维向量来表示，这个四维向量为{(0,0),(0,1),(1,0),(1,1)}，比如两个属性都不存在(0，0)，那么这两个属性之间的关系向量为(1，0，0，0)，视频属性向量内所有两两属性间关系的向量串联得到视频的属性关系向量；

步骤4.2)，根据训练视频的属性向量和训练视频的属性关系向量，串联可得到训练视频的基于属性的描述符其组成如公式(8)所示，x表示的是视频的描述符，y表示的是视频的动作标签，a表示属性向量，A表示{1，2，3，…，22}数字集合，f_w表示判别函数，表示第i个属性的权系数，表示第j个属性和第k个属性之间关系的权系数；

步骤4.3)，采用训练视频的基于属性的描述符，使用支持向量机训练得到预先设定动作数据库的不同动作的分类模型。模型参数是w。

φ₁(x,a_j；y)表示的是视频第j个属性的影响，φ₂(a_j,a_k；y)表示的是视频第j个属性和第k个属性之间关系向量，

通过最小化公式(9)目标函数可以学习得到模型参数w。

\min_{w} λ {| | w | |}^{2} + Σ_{i = 1}^{n} \max (0,1 - y_{i} f_{w} (x_{i})) - - - (9)

公式(9)包含两部分，第一部分是系数为λ的w的L₂范数，是正则化项；第二项是经验风险。可以通过梯度下降法来求得目标函数的最小值，进而求得权重w。

步骤5)，对于测试视频，利用视频特征词典，提取测试视频的描述符；

步骤6)，对于测试视频，根据所述测试视频的描述符，使用所述的属性分类模型，提取测试视频的属性向量；

步骤8)，对测试视频的基于属性的视频描述符，可以通过公式(10)判定测试视频的动作类别，Y是数据库中动作标签的集合，y^*是测试视频的标签预测结果，x是视频的描述符。判断的标准是取得分最高的那个权重的标签作为测试视频的动作类别标签。

y^*＝argmax_y∈Y f_w(x,y) (10)

本发明的有效性可以通过Collective Activity Dataset(CAD)和Collective Activity Dataset 2(CAD2)得到验证,其中CAD数据库包含5个动作分别是过马路(crossing),排队(queueing),谈话(talking),走路(walking),等待(waiting)。这五个动作都是在非常复杂的背景下拍摄得到的，并且伴随有摄像机的抖动。由于走路(walking)的动作,更像是一个单个的动作，而非是一个集体的动作，因此去除了走路(walking)动作,新增添了两个动作慢跑(jogging)和跳舞(dancing)动作，组成了Collective Activity Dataset 2(CAD2)。我们的实验就是在这在这两个数据库上分别实施的，对于所有的视频我们从每类动作中任意抽取一个作为测试，余下的作为训练。

图2给出了CAD实验结果对比，图3给出了CAD2的实验结果对比。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于属性特征表示的群体行为识别方法，其特征在于，包括如下步骤：

步骤5)，根据所述特征词典提取测试视频的描述符；

2.根据权利要求1所述的基于属性特征表示的群体行为识别方法，其特征在于，所述步骤1)具体包括：

步骤1.1)，将视频的每一帧划分成大小相同、两两不相交的栅格后，以视频的每一帧相同位置的栅格为时间轴方向结合形成一个栅格立方体，将视频划分为若干栅格立方体；

3.根据权利要求2所述的基于属性特征表示的群体行为识别方法，其特征在于，所述步骤1.2)的详细步骤如下：

4.根据权利要求3所述的基于属性特征表示的群体行为识别方法，其特征在于，所述步骤3)具体包括:

5.根据权利要求4所述的基于属性特征表示的群体行为识别方法，其特征在于，所述步骤4)具体包括：

6.根据权利要求5所述的基于属性特征表示的群体行为识别方法，其特征在于，将原始视频序列划分为视频时，视频所包含的帧数固定为10，视频的每一帧图片中划分的栅格大小为40*40，栅格立方体的小为40*40*10，姿态类别的数目为150个，视频的栅格立方体基于姿态的描述符是1500维向量，视频的栅格立方体基于梯度的描述符是216维向量。

7.根据权利要求5所述的基于属性特征表示的群体行为识别方法，其特征在于，所述训练视频的属性向量中属性之间的关系为以下四种：

{(0,0),(0,1),(1,0),(1,1)}。