CN110580456A

CN110580456A - 基于相干约束图长短时记忆网络的群体活动识别方法

Info

Publication number: CN110580456A
Application number: CN201910778094.8A
Authority: CN
Inventors: 舒祥波; 张瑞鹏; 唐金辉; 严锐; 宋砚
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-12-17

Abstract

本发明提供了一种基于相干约束图长短时记忆网络的群体活动识别方法，包括以下步骤：(1)将所有人的CNN特征作为相干约束图长短时记忆网络的输入，共同学***均，得到群体活动的概率类向量，从而推断出群体活动的类别。

Description

基于相干约束图长短时记忆网络的群体活动识别方法

技术领域

本发明涉及计算机视觉领域动作识别技术，特别是一种基于相干约束图长短时记忆网络的群体活动识别方法。

背景技术

传统的动作识别诸如单人识别和两个人交互的动作识别通常由一个人或两个人在一个视频中出现，在过去的几十年里，这类任务已经取得了令人满意的性能。与传统的人类行为相比，群体活动是场景中较为复杂但又较为常见的行为。与单人活动和两人互动不同，团体活动通常由多人同时进行。因此，在群体活动识别中，我们需要对多个个体的行为及其相互作用进行建模。这是一个细粒度的识别任务，与传统的单人动作识别或两个人交互识别相比，难度要大得多。

得益于循环神经网络(RNN)的成功，特别是对于长短时记忆网络(LSTM)的发展，近年来，群体活动识别取得了一定的进展。通过回顾现有的与群体活动识别相关的深度学***等的，这就抑制了一些相干运动对整个活动的贡献，夸大了一些与群体活动无关的离群运动。

发明内容

本发明的目的在于提供一种基于相干约束图长短时记忆网络的群体活动识别方法。

实现本发明目的的技术方案为：一种基于相干约束图长短时记忆网络的群体活动识别方法，包括以下步骤：

步骤1，使用一个预先训练好的卷积神经网络CNN模型，提取跟踪的边界框中每个人的CNN特征；

步骤2，将所有人的CNN特征作为相干约束图长短时记忆网络CCG-LSTM的输入，共同学习所有人在时空上下文相干性约束下随时间的个体运动状态；

步骤3，利用全局上下文相干性的注意力机制，学习不同运动对应的注意力因子，通过注意力因子得到在全局上下文相干性约束下的每个个体的运动状态；

步骤4，在每个时间步中，相干约束图长短时记忆网络CCG-LSTM中的聚合长短时记忆网络LSTM将所有由不同注意力因子得到的单个个体的运动状态聚合为整个活动的隐藏表示；

步骤5，在每个时间步中将每个活动的隐藏表示输入到softmax分类器中；

步骤6，对每个时间步的softmax分类器的输出进行平均，推断出群体活动的类别。

进一步地，步骤1具体包括如下步骤：对于每个视频片段，采用在Dlib库中的对象***在一定的时间步内跟踪每个人周围的一组边界框，对象***提取了每个边界框中每个人的CNN特征。

进一步地，步骤1中若某一帧中***未跟踪到人，则这帧图像中用一个全零矩阵弥补所缺失的对象人的特征。

进一步地，步骤2具体包括如下步骤：

步骤201，给定一个T帧的视频片段，其描述了含有V个人的群体活动，表示第v个人在第t帧的CNN特征，其中t∈{1,2,...,T}，v∈{1,2,...,V}；

步骤202，把群体活动的特征在空间域和时间域表示为图结构其中E^t是邻接矩阵；

步骤203，构造相干约束图长短时记忆网络CCG-LSTM，时间步t下CCG-LSTM中第v个节点的运动状态计算公式如下

其中

其中，对于第v个节点，为输入门，为遗忘门，为输出门，为邻接遗忘门，为时间置信门，为空间上下文置信门，φ(·)是一个多层感知机，表示第v个节点在时间步t-1的运动状态，表示第i个节点在时间步t-1的运动状态i属于第v个节点的邻接节点，表示第v个节点和第i在时间步t-1的关系权重，是第v个人的空间上下文状态，W_*、U_*、G_*是权重矩阵，b_*是偏置向量，*指的是下标为i、g、o、f和σ(·)表示sigmoid激活函数，表示tanh激活函数，⊙表示按元素乘，Φ(v)表示第v个节点的邻接节点，表示第v个节点的空间上下文记忆状态，是经W_p变换矩阵维度变换后的空间上下文状态，是经W_x变换矩阵维度变换后的特征，是运动状态投影到另一个维度空间的变量，参数ρ为控制函数输入范围，是指第v个节点的空间上下文记忆状态，是指第v个节点的相应邻节点的记忆状态。

进一步地，步骤3具体包括如下步骤：

步骤301，获取所有个体运动状态的平均运动状态来表示该时间步整体活动的隐藏表示，即

步骤302，使用一个注意力模型学习注意因子来衡量个体活动对整体活动的贡献其中γ是一个参数；

步骤303，通过注意力因子得到在全局上下文相干性约束下的第v个节点的运动状态

进一步地，步骤4具体包括如下步骤：

在空间域中使用聚合LSTM将所有人的运动状态聚合为一个隐藏的整个活动在时间步长t时的人对人的表示：

其中，表示聚合LSTM的隐藏状态，z^t是整个活动在时间步t的隐藏表示，为全局上下文相干性约束下的第v个个体的运动状态。

进一步地，步骤5具体包括如下步骤：

将群体活动在时间步t的隐藏表示z^t(t＝1,2,...,T)放入softmax分类器中得到y^t＝softmax(z^t),t＝1,2,...,T。

进一步地，步骤6具体包括如下步骤：

对所有的softmax分类器的输出进行平均，得到群体活动的概率类向量从而得到分类结果。

本发明与现有技术相比，具有以下优点：(1)考虑在时空上下文相干(STCC)约束下扩展图LSTM，通过探索空间和时间域上的个体运动来理解群体活动；(2)测量个体运动在全局上下文相干(GCC)约束下自身与整个活动的一致性来量化该运动对群体活动的贡献，可以有效地识别群体活动。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1是本发明的流程图。

图2是基于相干约束图长短时记忆网络的群体活动识别方法的可视化图。

表1为不同方法对排球数据集的识别精度。

具体实施方式

1.种基于相干约束图长短时记忆网络的群体活动识别方法，包括学习个体在时空上下文相干约束下的运动状态、量化在全局上下文相干约束下的个体运动对群体活动的贡献、采用聚合LSTM获取群体活动的隐藏表示、获取群体活动的概率类向量四个过程。

学习个体在时空上下文相干约束下的运动状态包括以下步骤：

步骤1，使用一个预先训练好的卷积神经网络(CNN)模型，提取被检测和跟踪的边界框中每个人的CNN特征，其中采用的卷积神经网络可以兼容AlexNet,VGG,ResNet和GoogLeNet。

步骤2，在普通的图长短时记忆网络(Graph LSTM)中添加时间置信门和空间上下文置信门来学习所有个体的时间上下文相干性约束和空间上下文相干性约束。

步骤3，在步骤1中得到的个体的CNN特征作为相干约束图长短时记忆网络的输入，共同学习所有个体在时空上下文相干性约束下随时间的个体运动状态。采用的步骤如下：

a、给定一个T帧的视频片段，其描述了含有V个人的群体活动表示第v个人在第t帧的CNN特征，其中t∈{1,2,...,T}，v∈{1,2,...,V}。

b、把群体活动的特征在空间域和时间域表示为图结构：

其中E^t是邻接矩阵。

c、构造相干约束图长短时记忆网络，对于第v个节点，为输入门，为遗忘门，为输出门，为邻接遗忘门，为时间置信门，为空间上下文置信门，φ(·)是一个多层感知机，表示第v个节点在时间步t-1的运动状态，表示第i个节点在时间步t-1的运动状态i属于第v个节点的邻接节点，表示第v个节点和第i在时间步t-1的关系权重，是第v个人的空间上下文状态，W_*、U_*、G_*是权重矩阵，b_*是偏置向量，*指的是下标为i、g、o、f和σ(·)表示sigmoid激活函数，表示tanh激活函数，⊙表示按元素乘，Φ(v)表示第v个节点的邻接节点，表示第v个节点的空间上下文记忆状态，是经W_p变换矩阵维度变换后的空间上下文状态，是经W_x变换矩阵维度变换后的特征，是运动状态投影到另一个维度空间的变量，参数ρ为控制函数输入范围，是指第v个节点的空间上下文记忆状态，是指第v个节点的相应邻节点的记忆状态；在时间步t，CCG-LSTM中第v个节点的运动状态计算公式如下：

得到个体运动状态

量化在全局上下文相干约束下的个体运动对群体活动的贡献包括以下步骤：

步骤4，利用全局上下文相干性的注意力机制，通过学***均运动状态来近似这部分整体活动的隐藏表示，即

步骤5，使用一个注意力模型学习注意因子来衡量步骤3个体活动对步骤4整体活动的贡献其中γ是一个参数。

步骤6，通过步骤5的注意力因子得到在全局上下文相干性约束下的第v个节点的运动状态

采用聚合LSTM获取群体活动的隐藏表示包括以下步骤：

步骤7，在空间域中使用聚合LSTM将步骤6)所有个体的运动状态聚合为一个隐藏的整个活动在时间步长t时的人对人的表示：

其中表示聚合LSTM的隐藏状态，z^t是整个活动在时间步t的隐藏表示。

获取群体活动的概率类向量包括以下步骤：

步骤8，将步骤7群体活动在时间步t的隐藏表示z^t(t＝1,2,...,T)放入softmax分类器中得到：y^t＝softmax(z^t),t＝1,2,...,T。

步骤9)、对步骤8)所有的softmax分类器的输出进行平均，得到群体活动的概率类向量：从而得到分类结果。

表1为不同方法对排球数据集的识别精度

Claims

1.一种基于相干约束图长短时记忆网络的群体活动识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1具体包括如下步骤：

对于每个视频片段，采用在Dlib库中的对象***在一定的时间步内跟踪每个人周围的一组边界框，对象***提取了每个边界框中每个人的CNN特征。

3.根据权利要求2所述的方法，其特征在于，步骤1中若某一帧中***未跟踪到人，则这帧图像中用一个全零矩阵弥补所缺失的对象人的特征。

4.根据权利要求1所述的方法，其特征在于，步骤2具体包括如下步骤：

步骤202，把群体活动的特征在空间域和时间域表示为图结构θ^t＝{S^t,E^t}(t＝1,2,...,T)，其中E^t是邻接矩阵；

其中

其中，对于第v个节点，为输入门，为遗忘门，为输出门，为邻接遗忘门，为时间置信门，为空间上下文置信门，φ(·)是一个多层感知机，表示第v个节点在时间步t-1的运动状态，表示第i个节点在时间步t-1的运动状态i属于第v个节点的邻接节点，表示第v个节点和第i在时间步t-1的关系权重，是第v个人的空间上下文状态，W_*、U_*、G_*是权重矩阵，b_*是偏置向量，*指的是下标为i、g、o、f和σ(·)表示sigmoid激活函数，表示tanh激活函数，⊙表示按元素乘，Φ(v)表示第v个节点的邻接节点，表示第v个节点的空间上下文记忆状态，W_p:W_x:W_q: 是经W_p变换矩阵维度变换后的空间上下文状态，是经W_x变换矩阵维度变换后的特征，是运动状态投影到另一个维度空间的变量，参数ρ为控制函数输入范围，是指第v个节点的空间上下文记忆状态，是指第v个节点的相应邻节点的记忆状态。

5.根据权利要求1所述的方法，其特征在于，步骤3具体包括如下步骤：

6.根据权利要求1所述的方法，其特征在于，步骤4具体包括如下步骤：

7.根据权利要求1所述的方法，其特征在于，步骤5具体包括如下步骤：

将群体活动在时间步t的隐藏表示z^t(t＝1,2,...,T)放入softmax分类器中得到y^t＝soft max(z^t),t＝1,2,...,T。

8.根据权利要求1所述的方法，其特征在于，步骤6具体包括如下步骤：