CN112633209B - 一种基于图卷积神经网络的人类动作识别方法 - Google Patents

一种基于图卷积神经网络的人类动作识别方法 Download PDF

Info

Publication number
CN112633209B
CN112633209B CN202011600579.7A CN202011600579A CN112633209B CN 112633209 B CN112633209 B CN 112633209B CN 202011600579 A CN202011600579 A CN 202011600579A CN 112633209 B CN112633209 B CN 112633209B
Authority
CN
China
Prior art keywords
graph
network
neural network
video
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011600579.7A
Other languages
English (en)
Other versions
CN112633209A (zh
Inventor
毛克明
李翰鹏
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202011600579.7A priority Critical patent/CN112633209B/zh
Publication of CN112633209A publication Critical patent/CN112633209A/zh
Application granted granted Critical
Publication of CN112633209B publication Critical patent/CN112633209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图卷积神经网络的人类动作识别方法,准备人类动作视频数据,并进行标注,并根据不同种类的动作对视频标签进行标注;使用openpose姿态估计算法对人类动作视频数据进行骨骼关键点特征的提取,然后通过骨骼点主流网络计算相邻帧骨骼关键点变化速度并进行特征拼接;对骨骼关键点进行筛选并通过角度分支网络计算筛选的骨骼关键点的夹角并进行特征拼接;将拼接好的数据传入图神经网络;将图卷积从空间域扩展到时间域;使用一个交叉注意力模型来增强网络的性能;人类动作识别。本发明能够将输入的视频中的人类所表现的动作识别出来并输出,并具有良好的易用性和鲁棒性,为人工智能技术在动作识别领域实际落地奠定一定的基础。

Description

一种基于图卷积神经网络的人类动作识别方法
技术领域
本发明涉及计算机视觉技术领域,特别是一种基于图卷积神经网络的人类动作识别方法。
背景技术
人工智能技术已经辐射到各行各业,动作识别技术更是诸多热门应用和需求的关键技术,已经成了当下计算机视觉领域最受关注的方向之一。例如在智能监控摄像头中对人类异常行为的检测和报警,在视频中对人类行为的分类和检索,包括采用在高画质游戏中的动作采集技术,可以将职业演员的动作放入游戏之中,给玩家带来沉浸感。相信在未来动作识别技术将会有越来越多的应用。
目前计算机视觉领域常常将类似技术应用在人类动作识别方向,其中主要分为两种方法,一种是基于视频的RGB和光流的方法,另一种是基于人类骨骼关键点的方法。其中基于视频的RGB和光流的方法可以对任务进行端到端的学习,但是对视频提取光流是一项非常繁重的任务,虽然目前已有各种方法来减小提取光流带来的损耗,但是光流对动作识别始任务始终是一种强有力的特征。而基于人类骨骼关键点的方法是在姿态估计技术发展成熟后新兴起的一种动作识别方法,与传统基于视频的RGB和光流的方法相比较,它可以对人类行为进行更有效的建模,因为传统方法无法避免背景和光线变换带来的影响。另一方面它需要使用姿态估计算法对视频进行特征提取,在这方面要比传统方法多一个步骤。另外,现有的针对动作识别方法只是简单的利用了骨骼关键点数据,而描述动作的信息不只是坐标,角度和其变化的速度也是动作识别特征描述的一个重要元素。
因此,针对目前该领域的现状,与动作本身的复杂性,需要一种针对该任务的具有深度学习理论基础和描述元素更多的人类动作识别方法。
发明内容
本发明的目的是针对目前该领域的现状,与动作本身的复杂性,提供一种基于图卷积神经网络的人类动作识别方法。
为达到上述目的,本发明是按照以下技术方案实施的:
一种基于图卷积神经网络的人类动作识别方法,包括如下步骤:
步骤1:准备人类动作视频数据,并进行标注,并根据不同种类的动作对视频标签进行标注;
步骤2:使用openpose姿态估计算法对人类动作视频数据进行骨骼关键点特征的提取,然后通过骨骼点主流网络计算相邻帧骨骼关键点变化速度并进行特征拼接;对骨骼关键点进行筛选并通过角度分支网络计算筛选的骨骼关键点的夹角并进行特征拼接;
步骤3:将拼接好的数据传入图神经网络;
步骤4:将图卷积从空间域扩展到时间域;
步骤5:使用一个交叉注意力模型来增强网络的性能;
步骤6:构建由九个时空卷积模块加全局池化层,和Softmax层组成的图卷积神经网络,全局池化层作用为对图结构中的节点特征进行汇总,以将节点级的特征升级为图级别的特征,再通过Softmax层输出人类动作视频中人的动作编号。
进一步地,所述步骤2具体包括:
步骤2.1:首先对视频进行裁剪,保证每个视频中人类位于视频中央;
步骤2.2:使用openpose姿态估计算法进行人体骨骼关键点提取,对视频S取15个等分点S=(T1,...,T2,...,T3,...,T4,...,T5,...,T6,....,T15),将每个点的骨骼关键点数据保存下来,每次提取出18个骨骼关键点,分别代表人体的18个部位,将单帧视频的长度设置为L,视频宽度设为W,对提取的骨骼关键点坐标进行归一化处理,用Tn表示第n帧的骨骼关键点数据,那么归一化后的Tn:
其中xn为第n个骨骼关键点的横坐标,yn为第n个骨骼关键点的纵坐标,Tn即为归一化后的第n帧的骨骼关键点坐标;
步骤2.3:计算相邻帧关键点变化速度,速度Vn:
Vn=((x1n-x1n-1,y1n-y1n-1),(x2n-x2n-1,y2n-y2n-1),...,(x18n-x18n-1,y18n-y18n-1))
;其中x和y的具体意义与步骤2.2中相同;获得速度V之后进行特征拼接,拼接后的总特征Dn:
Dn=Cancate(Tn,Tn′,Vn);
其中Tn和Tn'分别表示在n时刻侧面和前面获得的归一化骨骼关键点坐标,Cancate函数表示对括号内变量进行拼接;
步骤2.4:对openpose提取的的骨骼关键点进行筛选,保存左膝盖、右膝盖、左腰、右腰、左肩膀、右肩膀、左手肘、右手肘;
步骤2.5:计算夹角:
(5)膝盖:
(6)腰:
(7)肩膀:
(8)手肘:
进一步地,所述步骤3具体包括:
步骤3.1:采用openpose姿态估计算法识别出的默认人体骨骼结构作为图神经网络的基础连接,将图神经网络结构的邻接矩阵设为Ak,表示第k层网络的邻接矩阵,是一个N×N的二维矩阵,其中N等于18,表示18个骨骼关键点;A(n1,n2)位置表示n1和n2位置的连接状态,值为1表示相连,值为0表示不相连;
步骤3.2:将图神经网络结构的邻接矩阵设为Bk,它表示第k层的动作结构邻接矩阵;该矩阵也是一个N×N的二维矩阵,含义与A的含义相同,不同的是该矩阵没有固定的值,它的每一个元素都是一个可训练的参数;
步骤3.3:将图神经网络结构的邻接矩阵设置为Ck,格式与A和B一致,Ck(n1,n2):
该过程是一个归一化的高斯嵌入法,来计算任意两个骨骼关键点之间的相似性,θ与分别为两个嵌入方法,T表示矩阵转置,让最后输出维度不变;Softmax方法使最后的值变为0和1,表示相连与否;最后图神经网络的输出公式为:
其中fin和fout分别表示该层网络的输入和输出,K表示图神经网络的总层数,W表示卷积参数。
进一步地,所述步骤4具体包括:
对于点nij,定义i表示第i帧,j表示第j个骨骼关键点,每次时间域卷积仅涉及相同的骨骼关键点,则有公式:
W是卷积参数,第n层的输出。
进一步地,所述步骤5具体包括:
步骤5.1:交叉注意力通过骨骼关节角度网络分支的特征图来增强主网络流的表达能力,其公式为:
fattention=(1+Attention)*fout
步骤5.2:Attention的计算方法为:
Attention=g(fself,fcross)*fout
其中fself是主网络输出特征图的自注意力权重,fcross为关节角度和主网络数据的交叉注意力权重,二者相加为主网络特征图增加权重,其中g表示将二者维度变换到fout的维度并相加,其中fcross为:
其中v(T,N,d)为主网络特征图,其中N为主网络数据骨骼关节点的数量,d表示每个关节点的特征维度;a(T,k,m)为关节角度网络特征图,k表示骨骼关节角度数据的关节数量,m为其维度。
进一步地,所述步骤6具体包括:
步骤6.1:输入先进行保留一个残差连接到该模块最后,第一个操作是进行空间域图卷积,然后是批量归一化操作BatchNormalization,ReLU激活层,系数为0.5的dropout层,然后进行空间图卷积,再接一个批量归一化操作BatchNormalization和ReLU激活层,网络总结构是由九个时空卷积模块加全局池化层,和Softmax层组成。
步骤6.2:网络中的全局池化层作用为对图结构中的节点特征进行汇总,以将节点级的特征升级为图级别的特征,再通过Softmax层输出本次视频中人的动作编号。
与现有技术相比,本发明的一种基于图卷积神经网络的人类动作识别方法,能够将输入的视频中的人类所表现的动作识别出来并输出,并具有良好的易用性和鲁棒性,为人工智能技术在动作识别领域实际落地奠定一定的基础。
附图说明
图1为本发明的基于图卷积神经网络的人类动作识别方法的流程图。
图2为交叉注意力网络结构。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定发明。
如图1、图2所示,本实施例提供了一种基于图卷积神经网络的人类动作识别方法,包括以下几个步骤:
步骤1:准备人类动作视频数据,并进行标注,并根据不同种类的动作对视频标签进行标注,从0开始;
步骤2.1:对基础数据进行特征提取和特征设计作为运动信息特征;
步骤2.1.1:首先对视频进行裁剪,保证每个视频中人类位于视频中央;
步骤2.1.2:使用openpose姿态估计算法进行人体骨骼关键点提取,我们对视频S取15个等分点S=(T1,...,T2,...,T3,...,T4,...,T5,...,T6,....,T15),将每个点的骨骼关键点数据保存下来。每次提取出18个骨骼关键点,分别代表人体的18个部位。将单帧视频的长度设置为L,视频宽度设为W,对提取的骨骼关键点坐标进行归一化处理,用Tn表示第n帧的骨骼关键点数据,那么归一化后的Tn:
其中xn为第n个骨骼关键点的横坐标,yn为第n个骨骼关键点的纵坐标,Tn即为归一化后的第n帧的骨骼关键点坐标。
步骤2.1.3:计算相邻帧关键点变化速度,速度Vn:
Vn=((x1n-x1n-1,y1n-y1n-1),(x2n-x2n-1,y2n-y2n-1),...,(x18n-x18n-1,y18n-y18n-1))
其中x和y的具体意义与步骤2.2中相同。获得速度V之后我们进行特征拼接,拼接后的总特征Dn:
Dn=Cancate(Tn,Tn′,Vn)
其中Tn和T′n分别表示在n时刻侧面和前面获得的归一化骨骼关键点坐标,Cancate函数表示对括号内变量进行拼接。
步骤2.2:对骨骼点数据进一步提炼作为高阶信息,并以此类数据与步骤2.1中数据组成双流网络相互补充;
步骤2.2.1:因为关节角度对动作类别影响至关重要,所以对openpose提取的的人体骨骼关键点进行筛选,我们保存左膝盖、右膝盖、左腰、右腰、左肩膀、右肩膀、左手肘、右手肘;
步骤2.2.2:计算夹角:
(1)膝盖:
(2)腰:
(3)肩膀:
(4)手肘:
步骤3:将拼接好的数据传入图神经网络,其中图神经网络结构主要包括三个部分;
步骤3.1:第一个部分采用openpose姿态估计算法识别出的默认人体骨骼结构作为图神经网络的基础连接,这一部分基础结构的作用是适应人类的基础运动形式,对任何形式的动作都具有一定的建模能力,我们将该图结构的邻接矩阵设为Ak,表示第k层网络,他是一个N×N的二维矩阵,其中N等于18,表示18个骨骼关键点。A(n1,n2)位置表示n1和n2位置的连接状态,值为1表示相连,值为0表示不相连;
步骤3.2:第二个部分为了弥补基础结构对动作多样性的拟合能力,我们将该结构的邻接矩阵设为Bk,它表示第k层的结构邻接矩阵。该矩阵也是一个N×N的二维矩阵,含义与A的含义相同,不同的是该矩阵没有固定的值,它的每一个元素都是一个可训练的参数,由训练阶段自动学习哪些连接方式对动作有更好的弥补作用;
步骤3.3:第三部分是一个数据驱动的图结构,对于每一个不同的动作他都有不同的值,我们将该矩阵设置为Ck,格式与A和B一致,Ck(n1,n2):
该过程是一个归一化的高斯嵌入法,来计算任意两个骨骼关键点之间的相似性,θ与分别为两个嵌入方法,T表示矩阵转置,让最后输出维度不变。Softmax方法使最后的值变为0和1,表示相连与否。最后图神经网络的输出公示为:
其中fin和fout分别表示该层网络的输入和输出,K表示图神经网络的总层数,A矩阵B矩阵C矩阵在定义在上面步骤中介绍过了,W表示卷积参数;
步骤4:将图卷积从空间域扩展到时间域,对于点nij,此时我们定义i表示第i帧,j表示第j个骨骼关键点,我们每次时间域卷积仅涉及相同的谷歌关键点,则有公式:
W是卷积参数,第n层的输出,其它变量定义与其相同。
步骤5:使用一个交叉注意力模型来增强网络的性能,具体步骤如下,其结构如图2所示:
步骤5.1:交叉注意力通过骨骼关节角度网络分支的特征图来增强主网络流的表达能力,其公式为:
fattention=(1+Attention)*fout
该自注意力模型是一个残差注意力模型,因为当网络层数加深时,简单的注意力堆叠会导致一些特征消失。
步骤5.2:Attention的计算方法为:
Attention=g(fself,fcross)*fout
其中fself是主网络输出特征图的自注意力权重,fcross为关节角度和主网络数据的交叉注意力权重,二者相加为主网络特征图增加权重。其中g表示将二者维度变换到fout的维度并相加。其中fcross为:
其中v(T,N,d)为主网络特征图,其中N为主网络数据骨骼关节点的数量,d表示每个关节点的特征维度;a(T,k,m)为关节角度网络特征图,k表示骨骼关节角度数据的关节数量,m为其维度。该公式分别计算了两个网络不同关节点之间的关联,并作为交叉注意力使用。
步骤6:空间域和时间域的卷积细节由步骤3和步骤4详细介绍,一个时空图卷积模块是一个完整的***。输入先进行保留一个残差连接到该模块最后,第一个操作是进行空间域图卷积,然后是批量归一化操作BatchNormalization,ReLU激活层,系数为0.5的dropout层,然后进行空间图卷积,再接一个批量归一化操作BatchNormalization和ReLU激活层。而网络的两个分支分别是由九个时空卷积模块加全局池化层,和Softmax层组成。最终通过Softmax分类器得到动作类别。
当然,在使用本实施例的图卷积神经网络来识别人类动作之前,要先进行模型的训练,训练部分使用Pytorch框架,使用CrossEntropy交叉熵损失函数,其公式为:
Loss=-[ylogy`+(1-y)log(1-y`)]
其中y为样本的label,y`为我们模型预测的结果。在训练时我们将batch size设置为64.使用动量为0.9的SGD随机梯度下降法进行优化,并将权重衰减设置为0.0001,共计30个epoch。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (4)

1.一种基于图卷积神经网络的人类动作识别方法,其特征在于,包括如下步骤:
步骤1:准备人类动作视频数据,并进行标注,并根据不同种类的动作对视频标签进行标注;
步骤2:使用openpose姿态估计算法对人类动作视频数据进行骨骼关键点特征的提取,然后通过骨骼点主流网络计算相邻帧骨骼关键点变化速度并进行特征拼接;对骨骼关键点进行筛选并通过角度分支网络计算筛选的骨骼关键点的夹角并进行特征拼接;
步骤2.1:首先对视频进行裁剪,保证每个视频中人类位于视频中央;
步骤2.2:使用openpose姿态估计算法进行人体骨骼关键点提取,对视频S取15个等分点S=(T1,...,T2,...,T3,...,T4,...,T5,...,T6,....,T15),将每个点的骨骼关键点数据保存下来,每次提取出18个骨骼关键点,分别代表人体的18个部位,将单帧视频的长度设置为L,视频宽度设为W,对提取的骨骼关键点坐标进行归一化处理,用Tn表示第n帧的骨骼关键点数据,那么归一化后的Tn:
其中xn为第n个骨骼关键点的横坐标,yn为第n个骨骼关键点的纵坐标,Tn即为归一化后的第n帧的骨骼关键点坐标;
步骤2.3:计算相邻帧关键点变化速度,速度Vn:
Vn=((x1n-x1n-1,y1n-y1n-1),(x2n-x2n-1,y2n-y2n-1),...,(x18n-x18n-1,y18n-y18n-1));
其中x和y的具体意义与步骤2.2中相同;获得速度V之后进行特征拼接,拼接后的总特征Dn:
Dn=Cancate(Tn,T′n,Vn);
其中Tn和T′n分别表示在n时刻侧面和前面获得的归一化骨骼关键点坐标,Cancate函数表示对括号内变量进行拼接;
步骤2.4:对openpose提取的的骨骼关键点进行筛选,保存左膝盖、右膝盖、左腰、右腰、左肩膀、右肩膀、左手肘、右手肘;
步骤2.5:计算夹角:
(1)膝盖:
(2)腰:
(3)肩膀:
(4)手肘:
步骤3:将拼接好的数据传入图神经网络;
步骤4:将图卷积从空间域扩展到时间域;
步骤5:使用一个交叉注意力模型来增强网络的性能;
步骤5.1:交叉注意力通过骨骼关节角度网络分支的特征图来增强主网络流的表达能力,其公式为:
fattention=(1+Attention)*fout
步骤5.2:Attention的计算方法为:
Attention=g(fself,fcross)*fout
其中fself是主网络输出特征图的自注意力权重,fcross为关节角度和主网络数据的交叉注意力权重,二者相加为主网络特征图增加权重,其中g表示将二者维度变换到fout的维度并相加,其中fcross为:
其中v(T,N,d)为主网络特征图,其中N为主网络数据骨骼关节点的数量,d表示每个关节点的特征维度;a(T,k,m)为关节角度网络特征图,k表示骨骼关节角度数据的关节数量,m为其维度;
步骤6:构建由九个时空卷积模块加全局池化层,和Softmax层组成的图卷积神经网络,全局池化层作用为对图结构中的节点特征进行汇总,以将节点级的特征升级为图级别的特征,再通过Softmax层输出人类动作视频中人的动作编号。
2.根据权利要求1所述的基于图卷积神经网络的人类动作识别方法,其特征在于,所述步骤3具体包括:
步骤3.1:采用openpose姿态估计算法识别出的默认人体骨骼结构作为图神经网络的基础连接,将图神经网络结构的邻接矩阵设为Ak,表示第k层网络的邻接矩阵,是一个N×N的二维矩阵,其中N等于18,表示18个骨骼关键点;A(n1,n2)位置表示n1和n2位置的连接状态,值为1表示相连,值为0表示不相连;
步骤3.2:将图神经网络结构的邻接矩阵设为Bk,它表示第k层的动作结构邻接矩阵;该矩阵也是一个N×N的二维矩阵,含义与A的含义相同,不同的是该矩阵没有固定的值,它的每一个元素都是一个可训练的参数;
步骤3.3:将图神经网络结构的邻接矩阵设置为Ck,格式与A和B一致,Ck(n1,n2):
该过程是一个归一化的高斯嵌入法,来计算任意两个骨骼关键点之间的相似性,θ与分别为两个嵌入方法,T表示矩阵转置,让最后输出维度不变;Softmax方法使最后的值变为0和1,表示相连与否;最后图神经网络的输出公式为:
其中fin和fout分别表示该层网络的输入和输出,K表示图神经网络的总层数,W表示卷积参数。
3.根据权利要求2所述的基于图卷积神经网络的人类动作识别方法,其特征在于,所述步骤4具体包括:
对于点nij,定义i表示第i帧,j表示第j个骨骼关键点,每次时间域卷积仅涉及相同的骨骼关键点,则有公式:
W是卷积参数,第n层的输出。
4.根据权利要求3所述的基于图卷积神经网络的人类动作识别方法,其特征在于,所述步骤6具体包括:
步骤6.1:输入先进行保留一个残差连接到该模块最后,第一个操作是进行空间域图卷积,然后是批量归一化操作BatchNormalization,ReLU激活层,系数为0.5的dropout层,然后进行空间图卷积,再接一个批量归一化操作BatchNormalization和ReLU激活层,网络总结构是由九个时空卷积模块加全局池化层,和Softmax层组成;
步骤6.2:网络中的全局池化层作用为对图结构中的节点特征进行汇总,以将节点级的特征升级为图级别的特征,再通过Softmax层输出本次视频中人的动作编号。
CN202011600579.7A 2020-12-29 2020-12-29 一种基于图卷积神经网络的人类动作识别方法 Active CN112633209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011600579.7A CN112633209B (zh) 2020-12-29 2020-12-29 一种基于图卷积神经网络的人类动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011600579.7A CN112633209B (zh) 2020-12-29 2020-12-29 一种基于图卷积神经网络的人类动作识别方法

Publications (2)

Publication Number Publication Date
CN112633209A CN112633209A (zh) 2021-04-09
CN112633209B true CN112633209B (zh) 2024-04-09

Family

ID=75286366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011600579.7A Active CN112633209B (zh) 2020-12-29 2020-12-29 一种基于图卷积神经网络的人类动作识别方法

Country Status (1)

Country Link
CN (1) CN112633209B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255514B (zh) * 2021-05-24 2023-04-07 西安理工大学 基于局部场景感知图卷积网络的行为识别方法
CN113378656B (zh) * 2021-05-24 2023-07-25 南京信息工程大学 一种基于自适应图卷积神经网络的动作识别方法和装置
CN113361352A (zh) * 2021-05-27 2021-09-07 天津大学 基于行为识别的学生课堂行为分析的监控方法及***
CN113392743B (zh) * 2021-06-04 2023-04-07 北京格灵深瞳信息技术股份有限公司 异常动作检测方法、装置、电子设备和计算机存储介质
CN114613011A (zh) * 2022-03-17 2022-06-10 东华大学 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
CN114998990B (zh) * 2022-05-26 2023-07-25 深圳市科荣软件股份有限公司 一种工地人员安全行为识别方法及装置
CN115050101B (zh) * 2022-07-18 2024-03-22 四川大学 一种基于骨骼和轮廓特征融合的步态识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532960A (zh) * 2019-08-30 2019-12-03 西安交通大学 一种基于图神经网络的目标辅助的动作识别方法
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及***
CN111709321A (zh) * 2020-05-28 2020-09-25 西安交通大学 一种基于图卷积神经网络的人体行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532960A (zh) * 2019-08-30 2019-12-03 西安交通大学 一种基于图神经网络的目标辅助的动作识别方法
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及***
CN111709321A (zh) * 2020-05-28 2020-09-25 西安交通大学 一种基于图卷积神经网络的人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Action Recognition Based on Spatial Temporal Graph Convolutional Networks;Wanqiang Zheng等;《Proceedings of the 3rd International Conference on Computer Science and Application EngineeringOctober 2019》;1-5 *
Skeleton-Based Action Recognition With Directed Graph Neural Networks;Lei Shi等;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;7912-7921 *
基于机器视觉的运动姿态分析***研究;陈永康;《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》(第2期);H134-354 *
基于深度学习的行为识别算法综述;赫磊;邵展鹏;张剑华;周小龙;;计算机科学(第S1期);149-157 *

Also Published As

Publication number Publication date
CN112633209A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112633209B (zh) 一种基于图卷积神经网络的人类动作识别方法
CN109685115B (zh) 一种双线性特征融合的细粒度概念模型及学习方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN106709461B (zh) 基于视频的行为识别方法及装置
KR102450374B1 (ko) 데이터 인식 및 트레이닝 장치 및 방법
Liu et al. Multi-objective convolutional learning for face labeling
CN111291809B (zh) 一种处理装置、方法及存储介质
CN110222718B (zh) 图像处理的方法及装置
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN105631398A (zh) 识别对象的方法和设备以及训练识别器的方法和设备
CN109919085B (zh) 基于轻量型卷积神经网络的人人交互行为识别方法
Xia et al. Face occlusion detection based on multi-task convolution neural network
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN113516227B (zh) 一种基于联邦学习的神经网络训练方法及设备
CN110765960B (zh) 一种自适应多任务深度学习的行人再识别方法
CN111582095A (zh) 一种轻量级行人异常行为快速检测方法
CN108073851A (zh) 一种抓取手势识别的方法、装置及电子设备
CN110633624A (zh) 一种基于多特征融合的机器视觉人体异常行为识别方法
CN114882521A (zh) 基于多分支网络的无监督行人重识别方法及装置
CN114596589A (zh) 一种基于交互级联轻量化transformers的域自适应行人重识别方法
CN113361549A (zh) 一种模型更新方法以及相关装置
CN110598746A (zh) 一种基于ode求解器自适应的场景分类方法
CN114463837A (zh) 基于自适应时空卷积网络的人体行为识别方法及***
Liu Human face expression recognition based on deep learning-deep convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant