CN112801060A

CN112801060A - 运动动作识别方法及装置、模型、电子设备、存储介质

Info

Publication number: CN112801060A
Application number: CN202110371059.1A
Authority: CN
Inventors: 蔡建平; 何喆; 林型双; 顾鹏坤; 张帅
Original assignee: Zhejiang University City College ZUCC
Current assignee: Zhejiang University City College ZUCC
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-05-14

Abstract

本申请公开了一种运动动作识别方法及装置、模型、电子设备、存储介质，包括：采集姿态估计设备获取的运动动作的骨架序列；将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

Description

运动动作识别方法及装置、模型、电子设备、存储介质

技术领域

本专利涉及深度神经网络技术领域，尤其涉及一种运动动作识别方法及装置、模型、电子设备、存储介质。

背景技术

智能运动设备需要拥有识别人体动作类别的功能，以判断使用者的健身动作（如深蹲，俯卧撑，仰卧起坐等），而人体关节序列的变化对于识别人体动作类别是至关重要的。用于建模关节序列变化的传统方法通常依赖于人工设计的特征，因此导致有限的表达能力和泛化困难。为了克服这些限制，我们需要一种新方法，该方法可以自动捕获关节序列的空间和时间变化模式。最近，将卷积神经网络（CNN）泛化为任意图结构的图卷积神经网络（GCN）受到越来越多的关注，并成功地在许多应用中被采用，例如图像分类，文档分类和半监督学习等。

时空图卷积模型首次将图卷积应用于人体动作分类任务中。时空图卷积模型虽然能够很好的建模人体骨架序列的变化，但由于卷积操作的局部性，时空图卷积模型不能很好的表示大范围的时空依赖，但这对于识别一些运动动作是至关重要的。

发明内容

本申请实施例的目的是提供一种运动动作识别方法及装置、模型、电子设备、存储介质，以解决时空图卷积模型中存在的无法建模大范围时空依赖的问题。

根据本申请实施例的第一方面，提供一种运动动作识别方法，包括：采集姿态估计设备获取的运动动作的骨架序列；将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

根据本申请实施例的第二方面，提供一种运动动作识别装置，包括：采集模块，用于采集姿态估计设备获取的运动动作的骨架序列；识别模块，用于将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

根据本申请实施例的第三方面，提供一种非局部时空图卷积模型，包括：所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

根据本申请实施例的第四方面，提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第五方面，提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请使用姿态估计设备获取运动动作骨架序列，将获取的骨架序列输入训练好的非局部时空图卷积模型得到运动动作识别结果。人体骨架序列的变化对于识别人体动作类别是至关重要的，时空图卷积模型虽然能够很好的建模人体骨架序列的变化，但由于卷积操作的局部性，时空图卷积模型不能很好的表示大范围的时空依赖，但这对于识别一些运动动作是至关重要的，本申请的非局部时空图卷积模型采用了非局部操作、跳连接与时空图卷积相结合的方式，能有效解决这一问题。通过非局部操作能够增强时空图卷积模型在一帧上对人体关节点之间关系的建模能力，即空间建模能力。通过跳连接能够让序列信息在模型中更好的传递，从而增强时间建模能力。非局部操作、跳连接与时空图卷积相结合使得时空图卷积拥有更好的时空建模能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种运动动作识别方法的流程图。

图2是根据一示例性实施例示出的时空图卷积使用的骨架序列的时空图，图2中的点表示身体的关节，人体关节之间的边是根据人体的自然连接来定义的，帧间边连接连续帧之间的相同节点，关节坐标作为时空图卷积的输入。

图3是根据一示例性实施例示出的距离划分策略示意图。

图4是根据一示例性实施例示出的非局部时空图卷积模型结构图。

图5是根据一示例性实施例示出的非局部层结构图。

图6是根据一示例性实施例示出的一种运动动作识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

图1是根据一示例性实施例示出的一种运动动作识别方法的流程图，参考图1，本发明实施例的提供一种运动动作识别方法，该方法可以包括：

步骤S11，采集姿态估计设备获取的运动动作的骨架序列；

步骤S12，将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；

其中所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

由上述实施例可知，人体骨架序列的变化对于识别人体动作类别是至关重要的，时空图卷积模型虽然能够很好的建模人体骨架序列的变化，但由于卷积操作的局部性，时空图卷积模型不能很好的表示大范围的时空依赖，但这对于识别一些运动动作是至关重要的，本申请的非局部时空图卷积模型采用了非局部操作、跳连接与时空图卷积相结合的方式，能有效解决这一问题。

在步骤S11的具体实施中，采集姿态估计设备获取的运动动作的骨架序列；

具体地，本实施例姿态估计设备采用Azure Kinect DK 深度摄像头，当然不局限于此；通过深度摄像头捕获运动动作视频中的运动骨架序列。

在一种可能的实现方式中，深度摄像头捕获的运动动作视频包括连续的图像帧组成的视频，图像中的人物在进行某种运动，如俯卧撑、深蹲、引体向上等。

在步骤S12的具体实施中，将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；

具体地，图4是根据一示例性实施例示出的非局部时空图卷积模型结构图。参照图4，所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一B1、构建块二B2、构建块三B3、构建块四B4和构建块五B5，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

其中，所述时空图卷积模型的实现步骤包括：

（1）在运动动作骨架序列上构造关节的时空图，参考图2，其中所述运动动作骨架序列包含多个帧，每帧包含人体骨架图；

具体地，骨架序列通常由每个帧中每个人体关节的2D或3D坐标表示。在我们的实际应用中，我们主要采用Azure Kinect DK进行关节点位数据的采集。在时空图卷积模型中，使用时空图对关节序列进行分层表示。

时空图卷积模型在一个拥有

个关节点和

帧的关节序列上构建了一个无向时空图

。在这个图中，节点集

（

表示第

帧上第

个关节点），包含节点序列中所有关节点，节点

上的坐标向量作为特征向量输入时空图卷积模型。边集

包含两个子集，第一个子集

（

表示第

帧上第

个关节点，且与

形成人体关节点之间的自然连接边），其中

是人体关节点之间的自然连接边的集合，描述同一帧中关节点之间的连接。第二个子集

包含帧间边，连接连续帧之间的相同关节点。因此，

中同一个特定关节点

的所有边表示该关节点随时间变化的轨迹。

（2）在运动动作骨架序列的一帧空间图上，定义基于距离的采样函数；

具体地，在

时刻的单个帧上，有

个关节点和骨骼边

。在传统卷积中，当输入是2D网格时，卷积运算的输出特征图还是2D网格。使用单个步长和适当的填充，输出特征图的大小可以与输入特征图的大小相同。在下面的介绍中，我们将假定这种情况。考虑卷积核大小为

，对通道数为

的输入特征图

进行传统卷积操作。在空间位置

处的输出值为：

其中，采样函数

遍历位置

的邻居，权重函数

提供c维实空间中的权重向量，用于和c维输入特征向量计算内积。然后，通过将以上公式扩展到输入特征图位于空间图上的情况，来定义图上的卷积运算。

在图像上，采样函数

被定义在中心位置

的相邻像素上。在图上，可以相似地将采样函数定义在节点

的相邻集

上。这里

代表从

到

任意路径的最小长度，

表示可选择的路径长度。因此，采样函数

可以被写为

（3）在空间图上定义节点到标签的映射函数，采用距离划分策略来实现所述映射函数；

具体地，我们采用了距离划分策略来实现标签映射

。具体策略将在以下进行介绍，可结合图3。

距离划分策略是根据节点到根节点

的距离

，其中

表示同一帧中的其他关节点，划分邻近集。在时空图卷积模型中，设置

，邻近集会被划分为两个子集，

代表根节点，

代表剩余的邻接节点。因此，时空图卷积模型将拥有两个不同的权重向量，它们能够对局部差异性进行建模。形式地，有

和

。

（4）基于所述的映射函数，定义权重函数；

具体地，将关节点

的邻近集

按照距离划分策略划分为固定的两个子集，每个子集都有一个数字标签。因此，我们有映射

，将邻近的节点映射到对应子集的标签。权重函数

可以通过

维的索引张量来实现或

（5）基于所述的采样函数和权重函数，将传统卷积推广到空间图卷积；

具体地，现在将传统卷积重写为图卷积的形式

归一化项

等于相应子集的基数。加入这一项是为了平衡不同子集对输出的贡献。结合采样函数和权重函数，得

（6）将所述的采样函数和映射函数扩展到时间维度，从而将所述空间图卷积操作推广到时空域；

具体地，制定了空间图卷积之后，现在进入在关节点序列内对时空动态建模的任务。我们将邻域的概念扩展为还包括时间上连接的关节点

参数

控制邻近图中的时间范围，因此能被称为时间卷积核大小，

表示第

帧。为了完成在时空图上的卷积，时空图卷积也需要采样函数，采样函数与权重函数与空间图的相同，标签映射

不同。因为时间轴是规则的，时空图卷积直接将以

为根节点的时空邻域标签映射

改为

通过这种方式，时空图卷积模型在构造的时空图上定义了明确的卷积运算。

（7）分别在空间图上进行空间图卷积和时间维度上进行时间卷积来实现时空图卷积模型。

具体地，基于图的卷积的实现不像2D或3D卷积那么简单。在这里，我们提供用于骨架动作识别的时空图卷积的详细实现信息。

一帧内人体关节点连接由邻接矩阵

表示，单位矩阵

表示自连接。

在单帧情况下，对于距离划分策略，邻接矩阵

被拆分成多个矩阵

且

和

。因此空间图卷积可以通过下式实现

相似地，

，其中

表示

中第

行第

列的元素，

表示

中第

行第

列的元素，

是

的度矩阵。设置

来避免

中的全零行。

实际上，在时空情况下，我们可以将输入特征图表示为

维的张量。我们分别通过在张量的第三维度即空间维度上进行空间图卷积和张量的第二维度上进行时间卷积来实现时空图卷积。

图5是根据一示例性实施例示出的非局部层结构图，非局部层包括

的2D卷积。

，表示输入张量，其中

表示帧数，

表示关节点数，

表示特征通道数。

，

，和

表示

的 2D 卷积，

表示矩阵相乘，

表示逐元素相加。

非局部层的具体计算步骤如下：

步骤一：

（注：

,

和

分别代表

，

和

这三个

的 2D 卷积的权重）

步骤二：

（注：

表示非局部层的输出，

代表

这个

的 2D 卷积的权重）

我们在此较为详细的介绍数据在模型中的流动。

我们首先将关节序列输入到批量归一化层以归一化数据。数据接着输入构建块一，我们将得到两个相同的输出，其中一个输出将直接作为构建块五的一个跳输入，另一个输出输入构建块二。构建块二将得到两个相同的输出，其中一个输出将直接作为构建块四的一个跳输入，另一个输出输入构建块三。构建块三的输出与构建块二的跳输入连接起来作为构建块四的输入。构建块四的输出与构建块一的跳输入连接起来作为构建块五的输入。各个构建块的输入输出特征通道数分别为（1，16），（16，32），（32，64），（64，128），（128，256）。各个构建块由两个时空图卷积模型和非局部层组成。Resnet 机制应用于每个时空图卷积模型中。而且，在每个时空图卷积模型之后，我们以0.5的概率随机丢弃特征，以避免过拟合。之后，对构建块五的输出进行全局平均池化，以获取每个运动动作骨架序列的256维特征向量。最后，我们将它们提供给SoftMax分类器以得到分类结果。

其中，全局平均池化的计算方法为：

其中

，

，

。

的计算方法为：

其中

，

。

完成模型的构建后，训练时，我们将使用具有0.1的学习率的随机梯度下降来训练模型。每隔10个周期，我们会将学习率降低0.1。

为了验证本发明实施例提供的方法的效果，选用NTU RGB+D作为数据集，和现有的ST-GCN和2s-AGCN进行比较，来凸显本方法以及模型的效果。

这里简单先介绍一下NTU RGB+D（可参考文献：Amir Shahroudy, Jun Liu, Tian-Tsong Ng, Gang Wang: NTU RGB+D: A Large Scale Dataset for 3D Human ActivityAnalysis. CVPR 2016: 1010-1019），NTU RGB+D是一个大规模的动作识别数据集，包含从40个不同的对象和3个不同的摄像机视角捕获的60个动作种类的56,578个骨架序列。每个骨架图都包含25个人体关节作为节点，并将其在空间中的3D位置作为初始特征。动作的每一帧都包含1到2个对象。NTU RGB+D的制作者建议在两种设置下报告分类的准确性：（1）Cross-Subject（X-Sub），其中将40个对象分为训练和测试组，分别得出40,091和16,487个训练和测试示例。（2）Cross-View（X-View），从相机1收集的所有18,932个样本都用于测试，其余37,646个样本用于训练。

在NTU RGB+D这个数据集上进行了实验，实验结果如表1所示。实验结果显示本发明实施例提供的方法实现了较大的性能提升。

表1为在NTU RGB+D 数据集的两种设置下，本发明实施例提供的方法与ST-GCN和2s-AGCN的准确率比较。

其中，ST-GCN可参考文献：Sijie Yan, Yuanjun Xiong, Dahua Lin: SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition.AAAI 2018: 7444-7452。2s-AGCN可参考文献：Lei Shi, Yifan Zhang, Jian Cheng,Hanqing Lu: Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition. CVPR 2019: 12026-12035。

与前述的运动动作识别方法的实施例相对应，本申请还提供了运动动作识别装置的实施例。

图6是根据一示例性实施例示出的一种运动动作识别装置框图。参照图6，该装置可以包括：

采集模块31，用于采集姿态估计设备获取的运动动作的骨架序列；

识别模块32，用于将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的运动动作识别方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上述的运动动作识别方法。

本发明实施例还提供一种非局部时空图卷积模型，包括：所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

关于上述实施例中的非局部时空图卷积模型，其中各个部分的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种运动动作识别方法，其特征在于，包括：

采集姿态估计设备获取的运动动作的骨架序列；

将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；

所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

2.根据权利要求1所述的方法，其特征在于，所述姿态估计设备采用 Azure Kinect DK深度摄像头。

3.一种运动动作识别装置，其特征在于，包括：

采集模块，用于采集姿态估计设备获取的运动动作的骨架序列；

识别模块，用于将所述骨架序列输入训练好的非局部时空图卷积模型，得到运动动作识别结果；

4.一种非局部时空图卷积模型，其特征在于，包括：所述非局部时空图卷积模型由批量归一化层、构建块组、全局平均池化层以及Softmax层依次堆叠而成，所述构建块组包括依次连接的构建块一、构建块二、构建块三、构建块四和构建块五，所述构建块一和构建块五之间还有额外的跳连接，所述构建块二和构建块四之间还有额外的跳连接，每个构建块由两个时空图卷积模型和一个非局部层组成。

5.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1所述的方法。

6.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1所述方法的步骤。