CN110580456A - 基于相干约束图长短时记忆网络的群体活动识别方法 - Google Patents

基于相干约束图长短时记忆网络的群体活动识别方法 Download PDF

Info

Publication number
CN110580456A
CN110580456A CN201910778094.8A CN201910778094A CN110580456A CN 110580456 A CN110580456 A CN 110580456A CN 201910778094 A CN201910778094 A CN 201910778094A CN 110580456 A CN110580456 A CN 110580456A
Authority
CN
China
Prior art keywords
time
node
activity
lstm
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910778094.8A
Other languages
English (en)
Inventor
舒祥波
张瑞鹏
唐金辉
严锐
宋砚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201910778094.8A priority Critical patent/CN110580456A/zh
Publication of CN110580456A publication Critical patent/CN110580456A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于相干约束图长短时记忆网络的群体活动识别方法,包括以下步骤:(1)将所有人的CNN特征作为相干约束图长短时记忆网络的输入,共同学***均,得到群体活动的概率类向量,从而推断出群体活动的类别。

Description

基于相干约束图长短时记忆网络的群体活动识别方法
技术领域
本发明涉及计算机视觉领域动作识别技术,特别是一种基于相干约束图长短时记忆网络的群体活动识别方法。
背景技术
传统的动作识别诸如单人识别和两个人交互的动作识别通常由一个人或两个人在一个视频中出现,在过去的几十年里,这类任务已经取得了令人满意的性能。与传统的人类行为相比,群体活动是场景中较为复杂但又较为常见的行为。与单人活动和两人互动不同,团体活动通常由多人同时进行。因此,在群体活动识别中,我们需要对多个个体的行为及其相互作用进行建模。这是一个细粒度的识别任务,与传统的单人动作识别或两个人交互识别相比,难度要大得多。
得益于循环神经网络(RNN)的成功,特别是对于长短时记忆网络(LSTM)的发展,近年来,群体活动识别取得了一定的进展。通过回顾现有的与群体活动识别相关的深度学***等的,这就抑制了一些相干运动对整个活动的贡献,夸大了一些与群体活动无关的离群运动。
发明内容
本发明的目的在于提供一种基于相干约束图长短时记忆网络的群体活动识别方法。
实现本发明目的的技术方案为:一种基于相干约束图长短时记忆网络的群体活动识别方法,包括以下步骤:
步骤1,使用一个预先训练好的卷积神经网络CNN模型,提取跟踪的边界框中每个人的CNN特征;
步骤2,将所有人的CNN特征作为相干约束图长短时记忆网络CCG-LSTM的输入,共同学习所有人在时空上下文相干性约束下随时间的个体运动状态;
步骤3,利用全局上下文相干性的注意力机制,学习不同运动对应的注意力因子,通过注意力因子得到在全局上下文相干性约束下的每个个体的运动状态;
步骤4,在每个时间步中,相干约束图长短时记忆网络CCG-LSTM中的聚合长短时记忆网络LSTM将所有由不同注意力因子得到的单个个体的运动状态聚合为整个活动的隐藏表示;
步骤5,在每个时间步中将每个活动的隐藏表示输入到softmax分类器中;
步骤6,对每个时间步的softmax分类器的输出进行平均,推断出群体活动的类别。
进一步地,步骤1具体包括如下步骤:对于每个视频片段,采用在Dlib库中的对象***在一定的时间步内跟踪每个人周围的一组边界框,对象***提取了每个边界框中每个人的CNN特征。
进一步地,步骤1中若某一帧中***未跟踪到人,则这帧图像中用一个全零矩阵弥补所缺失的对象人的特征。
进一步地,步骤2具体包括如下步骤:
步骤201,给定一个T帧的视频片段,其描述了含有V个人的群体活动,表示第v个人在第t帧的CNN特征,其中t∈{1,2,...,T},v∈{1,2,...,V};
步骤202,把群体活动的特征在空间域和时间域表示为图结构其中Et是邻接矩阵;
步骤203,构造相干约束图长短时记忆网络CCG-LSTM,时间步t下CCG-LSTM中第v个节点的运动状态计算公式如下
其中
其中,对于第v个节点,为输入门,为遗忘门,为输出门,为邻接遗忘门,为时间置信门,为空间上下文置信门,φ(·)是一个多层感知机,表示第v个节点在时间步t-1的运动状态,表示第i个节点在时间步t-1的运动状态i属于第v个节点的邻接节点,表示第v个节点和第i在时间步t-1的关系权重,是第v个人的空间上下文状态,W*、U*、G*是权重矩阵,b*是偏置向量,*指的是下标为i、g、o、f和σ(·)表示sigmoid激活函数,表示tanh激活函数,⊙表示按元素乘,Φ(v)表示第v个节点的邻接节点,表示第v个节点的空间上下文记忆状态, 经Wp变换矩阵维度变换后的空间上下文状态,经Wx变换矩阵维度变换后的特征,是运动状态投影到另一个维度空间的变量,参数ρ为控制函数输入范围,是指第v个节点的空间上下文记忆状态,是指第v个节点的相应邻节点的记忆状态。
进一步地,步骤3具体包括如下步骤:
步骤301,获取所有个体运动状态的平均运动状态来表示该时间步整体活动的隐藏表示,即
步骤302,使用一个注意力模型学习注意因子来衡量个体活动对整体活动的贡献其中γ是一个参数;
步骤303,通过注意力因子得到在全局上下文相干性约束下的第v个节点的运动状态
进一步地,步骤4具体包括如下步骤:
在空间域中使用聚合LSTM将所有人的运动状态聚合为一个隐藏的整个活动在时间步长t时的人对人的表示:
其中,表示聚合LSTM的隐藏状态,zt是整个活动在时间步t的隐藏表示,为全局上下文相干性约束下的第v个个体的运动状态。
进一步地,步骤5具体包括如下步骤:
将群体活动在时间步t的隐藏表示zt(t=1,2,...,T)放入softmax分类器中得到yt=softmax(zt),t=1,2,...,T。
进一步地,步骤6具体包括如下步骤:
对所有的softmax分类器的输出进行平均,得到群体活动的概率类向量从而得到分类结果。
本发明与现有技术相比,具有以下优点:(1)考虑在时空上下文相干(STCC)约束下扩展图LSTM,通过探索空间和时间域上的个体运动来理解群体活动;(2)测量个体运动在全局上下文相干(GCC)约束下自身与整个活动的一致性来量化该运动对群体活动的贡献,可以有效地识别群体活动。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明的流程图。
图2是基于相干约束图长短时记忆网络的群体活动识别方法的可视化图。
表1为不同方法对排球数据集的识别精度。
具体实施方式
1.种基于相干约束图长短时记忆网络的群体活动识别方法,包括学习个体在时空上下文相干约束下的运动状态、量化在全局上下文相干约束下的个体运动对群体活动的贡献、采用聚合LSTM获取群体活动的隐藏表示、获取群体活动的概率类向量四个过程。
学习个体在时空上下文相干约束下的运动状态包括以下步骤:
步骤1,使用一个预先训练好的卷积神经网络(CNN)模型,提取被检测和跟踪的边界框中每个人的CNN特征,其中采用的卷积神经网络可以兼容AlexNet,VGG,ResNet和GoogLeNet。
步骤2,在普通的图长短时记忆网络(Graph LSTM)中添加时间置信门和空间上下文置信门来学习所有个体的时间上下文相干性约束和空间上下文相干性约束。
步骤3,在步骤1中得到的个体的CNN特征作为相干约束图长短时记忆网络的输入,共同学习所有个体在时空上下文相干性约束下随时间的个体运动状态。采用的步骤如下:
a、给定一个T帧的视频片段,其描述了含有V个人的群体活动表示第v个人在第t帧的CNN特征,其中t∈{1,2,...,T},v∈{1,2,...,V}。
b、把群体活动的特征在空间域和时间域表示为图结构:
其中Et是邻接矩阵。
c、构造相干约束图长短时记忆网络,对于第v个节点,为输入门,为遗忘门,为输出门,为邻接遗忘门,为时间置信门,为空间上下文置信门,φ(·)是一个多层感知机,表示第v个节点在时间步t-1的运动状态,表示第i个节点在时间步t-1的运动状态i属于第v个节点的邻接节点,表示第v个节点和第i在时间步t-1的关系权重,是第v个人的空间上下文状态,W*、U*、G*是权重矩阵,b*是偏置向量,*指的是下标为i、g、o、f和σ(·)表示sigmoid激活函数,表示tanh激活函数,⊙表示按元素乘,Φ(v)表示第v个节点的邻接节点,表示第v个节点的空间上下文记忆状态, 经Wp变换矩阵维度变换后的空间上下文状态,经Wx变换矩阵维度变换后的特征,是运动状态投影到另一个维度空间的变量,参数ρ为控制函数输入范围,是指第v个节点的空间上下文记忆状态,是指第v个节点的相应邻节点的记忆状态;在时间步t,CCG-LSTM中第v个节点的运动状态计算公式如下:
得到个体运动状态
量化在全局上下文相干约束下的个体运动对群体活动的贡献包括以下步骤:
步骤4,利用全局上下文相干性的注意力机制,通过学***均运动状态来近似这部分整体活动的隐藏表示,即
步骤5,使用一个注意力模型学习注意因子来衡量步骤3个体活动对步骤4整体活动的贡献其中γ是一个参数。
步骤6,通过步骤5的注意力因子得到在全局上下文相干性约束下的第v个节点的运动状态
采用聚合LSTM获取群体活动的隐藏表示包括以下步骤:
步骤7,在空间域中使用聚合LSTM将步骤6)所有个体的运动状态聚合为一个隐藏的整个活动在时间步长t时的人对人的表示:
其中表示聚合LSTM的隐藏状态,zt是整个活动在时间步t的隐藏表示。
获取群体活动的概率类向量包括以下步骤:
步骤8,将步骤7群体活动在时间步t的隐藏表示zt(t=1,2,...,T)放入softmax分类器中得到:yt=softmax(zt),t=1,2,...,T。
步骤9)、对步骤8)所有的softmax分类器的输出进行平均,得到群体活动的概率类向量:从而得到分类结果。
表1为不同方法对排球数据集的识别精度

Claims (8)

1.一种基于相干约束图长短时记忆网络的群体活动识别方法,其特征在于,包括以下步骤:
步骤1,使用一个预先训练好的卷积神经网络CNN模型,提取跟踪的边界框中每个人的CNN特征;
步骤2,将所有人的CNN特征作为相干约束图长短时记忆网络CCG-LSTM的输入,共同学习所有人在时空上下文相干性约束下随时间的个体运动状态;
步骤3,利用全局上下文相干性的注意力机制,学习不同运动对应的注意力因子,通过注意力因子得到在全局上下文相干性约束下的每个个体的运动状态;
步骤4,在每个时间步中,相干约束图长短时记忆网络CCG-LSTM中的聚合长短时记忆网络LSTM将所有由不同注意力因子得到的单个个体的运动状态聚合为整个活动的隐藏表示;
步骤5,在每个时间步中将每个活动的隐藏表示输入到softmax分类器中;
步骤6,对每个时间步的softmax分类器的输出进行平均,推断出群体活动的类别。
2.根据权利要求1所述的方法,其特征在于,步骤1具体包括如下步骤:
对于每个视频片段,采用在Dlib库中的对象***在一定的时间步内跟踪每个人周围的一组边界框,对象***提取了每个边界框中每个人的CNN特征。
3.根据权利要求2所述的方法,其特征在于,步骤1中若某一帧中***未跟踪到人,则这帧图像中用一个全零矩阵弥补所缺失的对象人的特征。
4.根据权利要求1所述的方法,其特征在于,步骤2具体包括如下步骤:
步骤201,给定一个T帧的视频片段,其描述了含有V个人的群体活动,表示第v个人在第t帧的CNN特征,其中t∈{1,2,...,T},v∈{1,2,...,V};
步骤202,把群体活动的特征在空间域和时间域表示为图结构θt={St,Et}(t=1,2,...,T),其中Et是邻接矩阵;
步骤203,构造相干约束图长短时记忆网络CCG-LSTM,时间步t下CCG-LSTM中第v个节点的运动状态计算公式如下
其中
其中,对于第v个节点,为输入门,为遗忘门,为输出门,为邻接遗忘门,为时间置信门,为空间上下文置信门,φ(·)是一个多层感知机,表示第v个节点在时间步t-1的运动状态,表示第i个节点在时间步t-1的运动状态i属于第v个节点的邻接节点,表示第v个节点和第i在时间步t-1的关系权重,是第v个人的空间上下文状态,W*、U*、G*是权重矩阵,b*是偏置向量,*指的是下标为i、g、o、f和σ(·)表示sigmoid激活函数,表示tanh激活函数,⊙表示按元素乘,Φ(v)表示第v个节点的邻接节点,表示第v个节点的空间上下文记忆状态,Wp:Wx:Wq: 经Wp变换矩阵维度变换后的空间上下文状态,经Wx变换矩阵维度变换后的特征,是运动状态投影到另一个维度空间的变量,参数ρ为控制函数输入范围,是指第v个节点的空间上下文记忆状态,是指第v个节点的相应邻节点的记忆状态。
5.根据权利要求1所述的方法,其特征在于,步骤3具体包括如下步骤:
步骤301,获取所有个体运动状态的平均运动状态来表示该时间步整体活动的隐藏表示,即
步骤302,使用一个注意力模型学习注意因子来衡量个体活动对整体活动的贡献其中γ是一个参数;
步骤303,通过注意力因子得到在全局上下文相干性约束下的第v个节点的运动状态
6.根据权利要求1所述的方法,其特征在于,步骤4具体包括如下步骤:
在空间域中使用聚合LSTM将所有人的运动状态聚合为一个隐藏的整个活动在时间步长t时的人对人的表示:
其中,表示聚合LSTM的隐藏状态,zt是整个活动在时间步t的隐藏表示,为全局上下文相干性约束下的第v个个体的运动状态。
7.根据权利要求1所述的方法,其特征在于,步骤5具体包括如下步骤:
将群体活动在时间步t的隐藏表示zt(t=1,2,...,T)放入softmax分类器中得到yt=soft max(zt),t=1,2,...,T。
8.根据权利要求1所述的方法,其特征在于,步骤6具体包括如下步骤:
对所有的softmax分类器的输出进行平均,得到群体活动的概率类向量从而得到分类结果。
CN201910778094.8A 2019-08-22 2019-08-22 基于相干约束图长短时记忆网络的群体活动识别方法 Pending CN110580456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910778094.8A CN110580456A (zh) 2019-08-22 2019-08-22 基于相干约束图长短时记忆网络的群体活动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910778094.8A CN110580456A (zh) 2019-08-22 2019-08-22 基于相干约束图长短时记忆网络的群体活动识别方法

Publications (1)

Publication Number Publication Date
CN110580456A true CN110580456A (zh) 2019-12-17

Family

ID=68811636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910778094.8A Pending CN110580456A (zh) 2019-08-22 2019-08-22 基于相干约束图长短时记忆网络的群体活动识别方法

Country Status (1)

Country Link
CN (1) CN110580456A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112315456A (zh) * 2020-10-07 2021-02-05 南京理工大学 基于跳接注意力机制的人体动作预测方法
CN112861332A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于图网络的集群动力学预测方法
CN117992615A (zh) * 2024-04-03 2024-05-07 中国科学技术大学 一种基于组合范畴语法与大模型记忆插件的情绪识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINHUI TANG 等: ""Coherence Constrained Graph LSTM for Group Activity Recognition"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE ( EARLY ACCESS )》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112315456A (zh) * 2020-10-07 2021-02-05 南京理工大学 基于跳接注意力机制的人体动作预测方法
CN112861332A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于图网络的集群动力学预测方法
CN117992615A (zh) * 2024-04-03 2024-05-07 中国科学技术大学 一种基于组合范畴语法与大模型记忆插件的情绪识别方法

Similar Documents

Publication Publication Date Title
Wang et al. Predrnn: A recurrent neural network for spatiotemporal predictive learning
Gu et al. Dynamic facial analysis: From bayesian filtering to recurrent neural network
US20240144566A1 (en) Image classification through label progression
Liu et al. Hard negative generation for identity-disentangled facial expression recognition
Singh et al. A deeply coupled ConvNet for human activity recognition using dynamic and RGB images
Du et al. Representation learning of temporal dynamics for skeleton-based action recognition
Buxton Learning and understanding dynamic scene activity: a review
Saputra et al. Learning monocular visual odometry through geometry-aware curriculum learning
JP2023549582A (ja) ビデオ行動認識のための多重解像度アテンション・ネットワーク
CN110503680A (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
CN110580456A (zh) 基于相干约束图长短时记忆网络的群体活动识别方法
Zhang et al. Federated multidomain learning with graph ensemble autoencoder GMM for emotion recognition
Nojavanasghari et al. Interactive generative adversarial networks for facial expression generation in dyadic interactions
Shyr et al. Sufficient dimension reduction for visual sequence classification
KR20200061294A (ko) 머신 러닝을 이용하여 은닉 이미지를 추론하는 방법 및 장치
Yin et al. Graph-based normalizing flow for human motion generation and reconstruction
Li Dance art scene classification based on convolutional neural networks
CN116071794A (zh) 一种行为数据学习风格画像生成方法、***、设备和介质
KR20230017126A (ko) 딥러닝 기반의 행동 인식 시스템 및 그 방법
Cate et al. Deepface: Face generation using deep learning
Zhu Reconstruction of missing markers in motion capture based on deep learning
Shu et al. The research and implementation of human posture recognition algorithm via OpenPose
CN111178141B (zh) 一种基于注意力机制的lstm人体行为识别方法
Sun et al. SimpleMeshNet: end to end recovery of 3d body mesh with one fully connected layer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191217

WD01 Invention patent application deemed withdrawn after publication