CN112801060A - 运动动作识别方法及装置、模型、电子设备、存储介质 - Google Patents

运动动作识别方法及装置、模型、电子设备、存储介质 Download PDF

Info

Publication number
CN112801060A
CN112801060A CN202110371059.1A CN202110371059A CN112801060A CN 112801060 A CN112801060 A CN 112801060A CN 202110371059 A CN202110371059 A CN 202110371059A CN 112801060 A CN112801060 A CN 112801060A
Authority
CN
China
Prior art keywords
building block
space
sequence
layer
time graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110371059.1A
Other languages
English (en)
Inventor
蔡建平
何喆
林型双
顾鹏坤
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN202110371059.1A priority Critical patent/CN112801060A/zh
Publication of CN112801060A publication Critical patent/CN112801060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种运动动作识别方法及装置、模型、电子设备、存储介质,包括:采集姿态估计设备获取的运动动作的骨架序列;将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。

Description

运动动作识别方法及装置、模型、电子设备、存储介质
技术领域
本专利涉及深度神经网络技术领域,尤其涉及一种运动动作识别方法及装置、模型、电子设备、存储介质。
背景技术
智能运动设备需要拥有识别人体动作类别的功能,以判断使用者的健身动作(如深蹲,俯卧撑,仰卧起坐等),而人体关节序列的变化对于识别人体动作类别是至关重要的。用于建模关节序列变化的传统方法通常依赖于人工设计的特征,因此导致有限的表达能力和泛化困难。为了克服这些限制,我们需要一种新方法,该方法可以自动捕获关节序列的空间和时间变化模式。最近,将卷积神经网络(CNN)泛化为任意图结构的图卷积神经网络(GCN)受到越来越多的关注,并成功地在许多应用中被采用,例如图像分类,文档分类和半监督学习等。
时空图卷积模型首次将图卷积应用于人体动作分类任务中。时空图卷积模型虽然能够很好的建模人体骨架序列的变化,但由于卷积操作的局部性,时空图卷积模型不能很好的表示大范围的时空依赖,但这对于识别一些运动动作是至关重要的。
发明内容
本申请实施例的目的是提供一种运动动作识别方法及装置、模型、电子设备、存储介质,以解决时空图卷积模型中存在的无法建模大范围时空依赖的问题。
根据本申请实施例的第一方面,提供一种运动动作识别方法,包括:采集姿态估计设备获取的运动动作的骨架序列;将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
根据本申请实施例的第二方面,提供一种运动动作识别装置,包括:采集模块,用于采集姿态估计设备获取的运动动作的骨架序列;识别模块,用于将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
根据本申请实施例的第三方面,提供一种非局部时空图卷积模型,包括:所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
根据本申请实施例的第四方面,提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请使用姿态估计设备获取运动动作骨架序列,将获取的骨架序列输入训练好的非局部时空图卷积模型得到运动动作识别结果。人体骨架序列的变化对于识别人体动作类别是至关重要的,时空图卷积模型虽然能够很好的建模人体骨架序列的变化,但由于卷积操作的局部性,时空图卷积模型不能很好的表示大范围的时空依赖,但这对于识别一些运动动作是至关重要的,本申请的非局部时空图卷积模型采用了非局部操作、跳连接与时空图卷积相结合的方式,能有效解决这一问题。通过非局部操作能够增强时空图卷积模型在一帧上对人体关节点之间关系的建模能力,即空间建模能力。通过跳连接能够让序列信息在模型中更好的传递,从而增强时间建模能力。非局部操作、跳连接与时空图卷积相结合使得时空图卷积拥有更好的时空建模能力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种运动动作识别方法的流程图。
图2是根据一示例性实施例示出的时空图卷积使用的骨架序列的时空图,图2中的点表示身体的关节,人体关节之间的边是根据人体的自然连接来定义的,帧间边连接连续帧之间的相同节点,关节坐标作为时空图卷积的输入。
图3是根据一示例性实施例示出的距离划分策略示意图。
图4是根据一示例性实施例示出的非局部时空图卷积模型结构图。
图5是根据一示例性实施例示出的非局部层结构图。
图6是根据一示例性实施例示出的一种运动动作识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
图1是根据一示例性实施例示出的一种运动动作识别方法的流程图,参考图1,本发明实施例的提供一种运动动作识别方法,该方法可以包括:
步骤S11,采集姿态估计设备获取的运动动作的骨架序列;
步骤S12,将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;
其中所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
由上述实施例可知,人体骨架序列的变化对于识别人体动作类别是至关重要的,时空图卷积模型虽然能够很好的建模人体骨架序列的变化,但由于卷积操作的局部性,时空图卷积模型不能很好的表示大范围的时空依赖,但这对于识别一些运动动作是至关重要的,本申请的非局部时空图卷积模型采用了非局部操作、跳连接与时空图卷积相结合的方式,能有效解决这一问题。
在步骤S11的具体实施中,采集姿态估计设备获取的运动动作的骨架序列;
具体地,本实施例姿态估计设备采用Azure Kinect DK 深度摄像头,当然不局限于此;通过深度摄像头捕获运动动作视频中的运动骨架序列。
在一种可能的实现方式中,深度摄像头捕获的运动动作视频包括连续的图像帧组成的视频,图像中的人物在进行某种运动,如俯卧撑、深蹲、引体向上等。
在步骤S12的具体实施中,将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;
具体地,图4是根据一示例性实施例示出的非局部时空图卷积模型结构图。参照图4,所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一B1、构建块二B2、构建块三B3、构建块四B4和构建块五B5,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
其中,所述时空图卷积模型的实现步骤包括:
(1)在运动动作骨架序列上构造关节的时空图,参考图2,其中所述运动动作骨架序列包含多个帧,每帧包含人体骨架图;
具体地,骨架序列通常由每个帧中每个人体关节的2D或3D坐标表示。在我们的实际应用中,我们主要采用Azure Kinect DK进行关节点位数据的采集。在时空图卷积模型中,使用时空图对关节序列进行分层表示。
时空图卷积模型在一个拥有
Figure 998669DEST_PATH_IMAGE001
个关节点和
Figure 446968DEST_PATH_IMAGE002
帧的关节序列上构建了一个无向 时空图
Figure 757863DEST_PATH_IMAGE003
。在这个图中,节点集
Figure 933499DEST_PATH_IMAGE004
Figure 279029DEST_PATH_IMAGE005
表 示第
Figure 632650DEST_PATH_IMAGE006
帧上第
Figure 165263DEST_PATH_IMAGE007
个关节点),包含节点序列中所有关节点,节点
Figure 895321DEST_PATH_IMAGE005
上的坐标向量作为 特征向量输入时空图卷积模型。边集
Figure 846091DEST_PATH_IMAGE008
包含两个子集,第一个子集
Figure 105034DEST_PATH_IMAGE009
Figure 656101DEST_PATH_IMAGE010
表示第
Figure 924271DEST_PATH_IMAGE006
帧上第
Figure 228083DEST_PATH_IMAGE011
个关节点,且与
Figure 923506DEST_PATH_IMAGE005
形成人体关节 点之间的自然连接边),其中
Figure 696290DEST_PATH_IMAGE012
是人体关节点之间的自然连接边的集合,描述同一帧中关 节点之间的连接。第二个子集
Figure 768151DEST_PATH_IMAGE013
包含帧间边,连接连续帧之间的相同关 节点。因此,
Figure 693513DEST_PATH_IMAGE014
中同一个特定关节点
Figure 294259DEST_PATH_IMAGE007
的所有边表示该关节点随时间变化的轨迹。
(2)在运动动作骨架序列的一帧空间图上,定义基于距离的采样函数;
具体地,在
Figure 554339DEST_PATH_IMAGE015
时刻的单个帧上,有
Figure 164312DEST_PATH_IMAGE001
个关节点和骨骼边
Figure 448574DEST_PATH_IMAGE016
。在传统卷积中,当输入是2D网格时,卷积运算的输出特 征图还是2D网格。使用单个步长和适当的填充,输出特征图的大小可以与输入特征图的大 小相同。在下面的介绍中,我们将假定这种情况。考虑卷积核大小为
Figure 751380DEST_PATH_IMAGE017
,对通道数为
Figure 233177DEST_PATH_IMAGE018
的输入特征图
Figure 646841DEST_PATH_IMAGE019
进行传统卷积操作。在空间位置
Figure 281215DEST_PATH_IMAGE020
处的输出值为:
Figure DEST_PATH_IMAGE021
其中,采样函数
Figure 286080DEST_PATH_IMAGE022
遍历位置
Figure 255174DEST_PATH_IMAGE020
的邻居,权重函数
Figure 941370DEST_PATH_IMAGE023
提供c维实空间中的权重向 量,用于和c维输入特征向量计算内积。然后,通过将以上公式扩展到输入特征图位于空间 图上的情况,来定义图上的卷积运算。
在图像上,采样函数
Figure 194365DEST_PATH_IMAGE024
被定义在中心位置
Figure 838973DEST_PATH_IMAGE020
的相邻像素上。在图上, 可以相似地将采样函数定义在节点
Figure 29783DEST_PATH_IMAGE005
的相邻集
Figure 785250DEST_PATH_IMAGE025
上。这里
Figure 128637DEST_PATH_IMAGE026
代表从
Figure 944147DEST_PATH_IMAGE010
Figure 622253DEST_PATH_IMAGE005
任意路径的最小长度,
Figure 181410DEST_PATH_IMAGE027
表示可选择的路径长 度。因此,采样函数
Figure 894151DEST_PATH_IMAGE028
可以被写为
Figure 864250DEST_PATH_IMAGE029
(3)在空间图上定义节点到标签的映射函数,采用距离划分策略来实现所述映射函数;
具体地,我们采用了距离划分策略来实现标签映射
Figure 29652DEST_PATH_IMAGE030
。具体策略将在以下进行介 绍,可结合图3。
距离划分策略是根据节点到根节点
Figure 126921DEST_PATH_IMAGE005
的距离
Figure 694169DEST_PATH_IMAGE031
,其中
Figure 585901DEST_PATH_IMAGE032
表示同一帧 中的其他关节点,划分邻近集。在时空图卷积模型中,设置
Figure 254911DEST_PATH_IMAGE033
,邻近集会被划分为两 个子集,
Figure 155871DEST_PATH_IMAGE034
代表根节点,
Figure 577625DEST_PATH_IMAGE035
代表剩余的邻接节点。因此,时空图卷积模型将拥 有两个不同的权重向量,它们能够对局部差异性进行建模。形式地,有
Figure 905838DEST_PATH_IMAGE036
Figure 295100DEST_PATH_IMAGE037
(4)基于所述的映射函数,定义权重函数;
具体地,将关节点
Figure 999751DEST_PATH_IMAGE005
的邻近集
Figure 541591DEST_PATH_IMAGE038
按照距离划分策略划分为固定的两个 子集,每个子集都有一个数字标签。因此,我们有映射
Figure 40705DEST_PATH_IMAGE039
,将邻近的节 点映射到对应子集的标签。权重函数
Figure 418728DEST_PATH_IMAGE040
可以通过
Figure 661491DEST_PATH_IMAGE041
维 的索引张量来实现或
Figure 57837DEST_PATH_IMAGE042
(5)基于所述的采样函数和权重函数,将传统卷积推广到空间图卷积;
具体地,现在将传统卷积重写为图卷积的形式
Figure 727853DEST_PATH_IMAGE043
归一化项
Figure 85847DEST_PATH_IMAGE044
等于相应子集的基数。加入 这一项是为了平衡不同子集对输出的贡献。结合采样函数和权重函数,得
Figure 866722DEST_PATH_IMAGE045
(6)将所述的采样函数和映射函数扩展到时间维度,从而将所述空间图卷积操作推广到时空域;
具体地,制定了空间图卷积之后,现在进入在关节点序列内对时空动态建模的任务。我们将邻域的概念扩展为还包括时间上连接的关节点
Figure 383154DEST_PATH_IMAGE046
参数
Figure 224071DEST_PATH_IMAGE047
控制邻近图中的时间范围,因此能被称为时间卷积核大小,
Figure 311107DEST_PATH_IMAGE048
表示第
Figure 895672DEST_PATH_IMAGE048
帧。为了完成在时空图上的卷积,时空图卷积也需要采样函数,采样函数与权重函数与空间 图的相同,标签映射
Figure DEST_PATH_IMAGE049
不同。因为时间轴是规则的,时空图卷积直接将以
Figure 797769DEST_PATH_IMAGE005
为根节点 的时空邻域标签映射
Figure 544008DEST_PATH_IMAGE049
改为
Figure 616875DEST_PATH_IMAGE050
通过这种方式,时空图卷积模型在构造的时空图上定义了明确的卷积运算。
(7)分别在空间图上进行空间图卷积和时间维度上进行时间卷积来实现时空图卷积模型。
具体地,基于图的卷积的实现不像2D或3D卷积那么简单。在这里,我们提供用于骨架动作识别的时空图卷积的详细实现信息。
一帧内人体关节点连接由邻接矩阵
Figure DEST_PATH_IMAGE051
表示,单位矩阵
Figure 536289DEST_PATH_IMAGE052
表示自连接。
在单帧情况下,对于距离划分策略,邻接矩阵
Figure 761734DEST_PATH_IMAGE051
被拆分成多个矩阵
Figure 695186DEST_PATH_IMAGE053
Figure 6082DEST_PATH_IMAGE054
Figure 932450DEST_PATH_IMAGE055
。因此空间图卷积可以通过下式实现
Figure 12401DEST_PATH_IMAGE056
相似地,
Figure 366022DEST_PATH_IMAGE057
,其中
Figure 413481DEST_PATH_IMAGE058
表示
Figure 143540DEST_PATH_IMAGE059
中第
Figure 77998DEST_PATH_IMAGE007
行第
Figure 602520DEST_PATH_IMAGE007
列的元素,
Figure 638740DEST_PATH_IMAGE060
表示
Figure 906911DEST_PATH_IMAGE061
中第
Figure 961454DEST_PATH_IMAGE007
行第
Figure 922457DEST_PATH_IMAGE062
列的元素,
Figure 678929DEST_PATH_IMAGE059
Figure 485211DEST_PATH_IMAGE061
的度矩 阵。设置
Figure DEST_PATH_IMAGE063
来避免
Figure 190999DEST_PATH_IMAGE061
中的全零行。
实际上,在时空情况下,我们可以将输入特征图表示为
Figure 57324DEST_PATH_IMAGE064
维的张量。我们 分别通过在张量的第三维度即空间维度上进行空间图卷积和张量的第二维度上进行时间 卷积来实现时空图卷积。
图5是根据一示例性实施例示出的非局部层结构图,非局部层包括
Figure 68137DEST_PATH_IMAGE065
的2D卷 积。
Figure 678109DEST_PATH_IMAGE066
,表示输入张量,其中
Figure 441666DEST_PATH_IMAGE002
表示帧数,
Figure 478892DEST_PATH_IMAGE001
表示关节点数,
Figure 481395DEST_PATH_IMAGE067
表示特 征通道数。
Figure 895059DEST_PATH_IMAGE068
Figure 717651DEST_PATH_IMAGE069
Figure 706205DEST_PATH_IMAGE070
,和
Figure 940877DEST_PATH_IMAGE071
表示
Figure 892652DEST_PATH_IMAGE065
的 2D 卷积,
Figure 647113DEST_PATH_IMAGE072
表示矩阵相乘,
Figure 26142DEST_PATH_IMAGE073
表示逐元素 相加。
非局部层的具体计算步骤如下:
步骤一:
Figure 748110DEST_PATH_IMAGE074
(注:
Figure 18423DEST_PATH_IMAGE075
,
Figure 876658DEST_PATH_IMAGE076
Figure 957746DEST_PATH_IMAGE077
分别代表
Figure 635852DEST_PATH_IMAGE068
Figure 680163DEST_PATH_IMAGE069
Figure 392904DEST_PATH_IMAGE071
这三个
Figure 113735DEST_PATH_IMAGE065
的 2D 卷积的权重)
步骤二:
Figure 544716DEST_PATH_IMAGE078
(注:
Figure 885394DEST_PATH_IMAGE079
表示非局部层的输出,
Figure 452641DEST_PATH_IMAGE080
代表
Figure 609953DEST_PATH_IMAGE070
这个
Figure 262651DEST_PATH_IMAGE065
的 2D 卷积的权重)
我们在此较为详细的介绍数据在模型中的流动。
我们首先将关节序列输入到批量归一化层以归一化数据。数据接着输入构建块一,我们将得到两个相同的输出,其中一个输出将直接作为构建块五的一个跳输入,另一个输出输入构建块二。构建块二将得到两个相同的输出,其中一个输出将直接作为构建块四的一个跳输入,另一个输出输入构建块三。构建块三的输出与构建块二的跳输入连接起来作为构建块四的输入。构建块四的输出与构建块一的跳输入连接起来作为构建块五的输入。各个构建块的输入输出特征通道数分别为(1,16),(16,32),(32,64),(64,128),(128,256)。各个构建块由两个时空图卷积模型和非局部层组成。Resnet 机制应用于每个时空图卷积模型中。而且,在每个时空图卷积模型之后,我们以0.5的概率随机丢弃特征,以避免过拟合。之后,对构建块五的输出进行全局平均池化,以获取每个运动动作骨架序列的256维特征向量。最后,我们将它们提供给SoftMax分类器以得到分类结果。
其中,全局平均池化的计算方法为:
Figure 898032DEST_PATH_IMAGE081
其中
Figure 336098DEST_PATH_IMAGE082
Figure 664311DEST_PATH_IMAGE083
Figure 538726DEST_PATH_IMAGE084
Figure 243377DEST_PATH_IMAGE085
的计算方法为:
Figure 34484DEST_PATH_IMAGE086
其中
Figure 268019DEST_PATH_IMAGE082
Figure 895310DEST_PATH_IMAGE087
完成模型的构建后,训练时,我们将使用具有0.1的学习率的随机梯度下降来训练模型。每隔10个周期,我们会将学习率降低0.1。
为了验证本发明实施例提供的方法的效果,选用NTU RGB+D作为数据集,和现有的ST-GCN和2s-AGCN进行比较,来凸显本方法以及模型的效果。
这里简单先介绍一下NTU RGB+D(可参考文献:Amir Shahroudy, Jun Liu, Tian-Tsong Ng, Gang Wang: NTU RGB+D: A Large Scale Dataset for 3D Human ActivityAnalysis. CVPR 2016: 1010-1019),NTU RGB+D是一个大规模的动作识别数据集,包含从40个不同的对象和3个不同的摄像机视角捕获的60个动作种类的56,578个骨架序列。每个骨架图都包含25个人体关节作为节点,并将其在空间中的3D位置作为初始特征。动作的每一帧都包含1到2个对象。NTU RGB+D的制作者建议在两种设置下报告分类的准确性:(1)Cross-Subject(X-Sub),其中将40个对象分为训练和测试组,分别得出40,091和16,487个训练和测试示例。(2)Cross-View(X-View),从相机1收集的所有18,932个样本都用于测试,其余37,646个样本用于训练。
在NTU RGB+D这个数据集上进行了实验,实验结果如表1所示。实验结果显示本发明实施例提供的方法实现了较大的性能提升。
表1为在NTU RGB+D 数据集的两种设置下,本发明实施例提供的方法与ST-GCN和2s-AGCN的准确率比较。
Figure 872493DEST_PATH_IMAGE088
其中,ST-GCN可参考文献:Sijie Yan, Yuanjun Xiong, Dahua Lin: SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition.AAAI 2018: 7444-7452。2s-AGCN可参考文献:Lei Shi, Yifan Zhang, Jian Cheng,Hanqing Lu: Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition. CVPR 2019: 12026-12035。
与前述的运动动作识别方法的实施例相对应,本申请还提供了运动动作识别装置的实施例。
图6是根据一示例性实施例示出的一种运动动作识别装置框图。参照图6,该装置可以包括:
采集模块31,用于采集姿态估计设备获取的运动动作的骨架序列;
识别模块32,用于将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的运动动作识别方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的运动动作识别方法。
本发明实施例还提供一种非局部时空图卷积模型,包括:所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
关于上述实施例中的非局部时空图卷积模型,其中各个部分的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (6)

1.一种运动动作识别方法,其特征在于,包括:
采集姿态估计设备获取的运动动作的骨架序列;
将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;
所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
2.根据权利要求1所述的方法,其特征在于,所述姿态估计设备采用 Azure Kinect DK深度摄像头。
3.一种运动动作识别装置,其特征在于,包括:
采集模块,用于采集姿态估计设备获取的运动动作的骨架序列;
识别模块,用于将所述骨架序列输入训练好的非局部时空图卷积模型,得到运动动作识别结果;
所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
4.一种非局部时空图卷积模型,其特征在于,包括:所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成,所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五,所述构建块一和构建块五之间还有额外的跳连接,所述构建块二和构建块四之间还有额外的跳连接,每个构建块由两个时空图卷积模型和一个非局部层组成。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1所述的方法。
6.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1所述方法的步骤。
CN202110371059.1A 2021-04-07 2021-04-07 运动动作识别方法及装置、模型、电子设备、存储介质 Pending CN112801060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110371059.1A CN112801060A (zh) 2021-04-07 2021-04-07 运动动作识别方法及装置、模型、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110371059.1A CN112801060A (zh) 2021-04-07 2021-04-07 运动动作识别方法及装置、模型、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN112801060A true CN112801060A (zh) 2021-05-14

Family

ID=75816376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110371059.1A Pending CN112801060A (zh) 2021-04-07 2021-04-07 运动动作识别方法及装置、模型、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112801060A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919232A (zh) * 2019-03-11 2019-06-21 西安电子科技大学 基于卷积神经网络和非局部连接网络的图像分类方法
CN110532925A (zh) * 2019-08-22 2019-12-03 西安电子科技大学 基于时空图卷积网络的驾驶员疲劳检测方法
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及***
CN111460928A (zh) * 2020-03-17 2020-07-28 中国科学院计算技术研究所 一种人体动作识别***及方法
CN111601088A (zh) * 2020-05-27 2020-08-28 大连成者科技有限公司 一种基于单目摄像头坐姿识别技术的坐姿监控***
CN111612046A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 特征金字塔图卷积神经网络及其在3d点云分类中的应用
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN111814719A (zh) * 2020-07-17 2020-10-23 江南大学 一种基于3d时空图卷积的骨架行为识别方法
CN111860267A (zh) * 2020-07-13 2020-10-30 浙大城市学院 一种基于人体骨骼关节点位的多通道健身运动识别方法
CN111950406A (zh) * 2020-07-28 2020-11-17 深圳职业技术学院 一种手指静脉识别方法、装置及存储介质
CN112232106A (zh) * 2020-08-12 2021-01-15 北京工业大学 一种二维到三维人体姿态估计方法
CN112528811A (zh) * 2020-12-02 2021-03-19 建信金融科技有限责任公司 行为识别方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919232A (zh) * 2019-03-11 2019-06-21 西安电子科技大学 基于卷积神经网络和非局部连接网络的图像分类方法
CN110532925A (zh) * 2019-08-22 2019-12-03 西安电子科技大学 基于时空图卷积网络的驾驶员疲劳检测方法
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及***
CN111460928A (zh) * 2020-03-17 2020-07-28 中国科学院计算技术研究所 一种人体动作识别***及方法
CN111612046A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 特征金字塔图卷积神经网络及其在3d点云分类中的应用
CN111601088A (zh) * 2020-05-27 2020-08-28 大连成者科技有限公司 一种基于单目摄像头坐姿识别技术的坐姿监控***
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN111860267A (zh) * 2020-07-13 2020-10-30 浙大城市学院 一种基于人体骨骼关节点位的多通道健身运动识别方法
CN111814719A (zh) * 2020-07-17 2020-10-23 江南大学 一种基于3d时空图卷积的骨架行为识别方法
CN111950406A (zh) * 2020-07-28 2020-11-17 深圳职业技术学院 一种手指静脉识别方法、装置及存储介质
CN112232106A (zh) * 2020-08-12 2021-01-15 北京工业大学 一种二维到三维人体姿态估计方法
CN112528811A (zh) * 2020-12-02 2021-03-19 建信金融科技有限责任公司 行为识别方法和装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
LEI SHI等: "Non-Local Graph Convolutional Networks for Skeleton-Based Action Recognition", 《ARXIV:1805.07694V2》 *
LEI SHI等: "Skeleton-Based Action Recognition With Multi-Stream Adaptive Graph Convolutional Networks", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 》 *
LEI SHI等: "Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
SIJIE YAN等: "Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition", 《ARXIV:1801.07455V2》 *
XIAOLONG WANG等: "Non-local Neural Networks", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
曹毅等: "时空自适应图卷积神经网络的骨架行为识别", 《华中科技大学学报》 *
王志华: "基于时空图卷积神经网络的人体动作识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄晨: "基于姿态序列的视频人体动作识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
Liu et al. Trajectorycnn: a new spatio-temporal feature learning network for human motion prediction
Xia et al. Multi-scale mixed dense graph convolution network for skeleton-based action recognition
Das et al. Where to focus on for human action recognition?
CN110472604B (zh) 一种基于视频的行人与人群行为识别方法
Obinata et al. Temporal extension module for skeleton-based action recognition
Geng et al. Human action recognition based on convolutional neural networks with a convolutional auto-encoder
CN109558781A (zh) 一种多视角视频识别方法及装置、设备和存储介质
Bruce et al. Multimodal fusion via teacher-student network for indoor action recognition
CN112131908A (zh) 基于双流网络的动作识别方法、装置、存储介质及设备
Fan et al. Context-aware cross-attention for skeleton-based human action recognition
CN108228844A (zh) 一种图片筛选方法及装置、存储介质、计算机设备
CN108647571A (zh) 视频动作分类模型训练方法、装置及视频动作分类方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
Zhang et al. Graph convolutional LSTM model for skeleton-based action recognition
Jiang et al. Inception spatial temporal graph convolutional networks for skeleton-based action recognition
Wei et al. Dynamic hypergraph convolutional networks for skeleton-based action recognition
Chen et al. Hierarchical posture representation for robust action recognition
Xu et al. Adaptive feature selection with reinforcement learning for skeleton-based action recognition
Pang et al. Self-adaptive graph with nonlocal attention network for skeleton-based action recognition
Xiaolong Simulation analysis of athletes’ motion recognition based on deep learning method and convolution algorithm
CN112801060A (zh) 运动动作识别方法及装置、模型、电子设备、存储介质
Mora et al. Convolutional Neural Networks-based plant disease detection implemented on low-power consumption device
CN114782992A (zh) 一种超关节与多模态网络及其在行为识别方法
CN112926517B (zh) 一种人工智能监控方法
Raju Exercise detection and tracking using MediaPipe BlazePose and Spatial-Temporal Graph Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514