CN110929637B

CN110929637B - 一种图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN110929637B
Application number: CN201911139594.3A
Authority: CN
Inventors: 谷宇章; 杨洪业; 张晓林
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-05-16
Anticipated expiration: 2039-11-20
Also published as: CN110929637A

Abstract

本申请涉及一种图像识别方法、装置、电子设备及存储介质，通过获取人体骨架图像序列；确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量；确定多个帧间差分值集合；基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量；基于相对坐标张量和时间差分张量确定输入张量；基于已训练的动作识别模型对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。本申请利用人体骨架关节点信息来构建基于图卷积网络的动作识别模型的输入张量，进行动作识别，可以提升对人类动作识别的准确度。

Description

一种图像识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

理解人的行为是计算机视觉中最重要的任务之一，因为它可以促进人机交互、机器人技术和游戏控制等广泛的应用。由三维关节位置组成的骨架为描述人类行为提供了良好的表达。

近年来，随着微软kinect等三维数据采集设备的快速发展，骨架数据的获取变得更加容易。此外，骨架本身是人体的高级特征，对外观或表象具有不变性，这就消除了表示和理解不同动作类别的困难。最重要的是，骨架对噪声具有鲁棒性，而且在计算和存储方面都很高效。因此，基于骨架的动作识别近年来受到越来越多的关注。

以往的研究大多是直接将关节坐标矢量输入循环神经网络(Recurrent NeuralNetwork，RNN)，或者将骨架序列编码成伪图像，并利用卷积神经网络(ConvolutionalNeural Networks，CNN)对时空动力学进行建模。

然而，这些方法很少探索关节之间的内在依赖性。为了捕获这种依赖关系，应该完全理解框架数据。就数据结构而言，骨架是一种特殊的图形，其顶点是关节，边是骨架。因此，应用图卷积网络(Graph Convolutional Network，GCN)挖掘人体的结构信息，可以获得比非图卷积网络更好的性能，可以提高对人类动作识别的准确度。

发明内容

本申请实施例提供了一种图像识别方法、装置、电子设备及存储介质，可以提升对人类动作识别的准确度。

一方面，本申请实施例提供了一种图像识别方法，包括：

获取人体骨架图像序列；人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致；

确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；相对坐标集合中的相对坐标与骨架关节点集合中的骨架关节点一一对应；

基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量；

根据人体骨架图像序列对应的多个相对坐标集合确定多个帧间差分值集合；

基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量；

基于相对坐标张量和时间差分张量确定输入张量；

基于已训练的动作识别模型对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。

另一方面，本申请实施例提供了一种图像识别装置，包括：

第一获取模块，用于获取人体骨架图像序列；人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致；

第一确定模块，用于确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；相对坐标集合中的相对坐标与骨架关节点集合中的骨架关节点一一对应；

第二确定模块，用于基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量；

第三确定模块，用于根据人体骨架图像序列对应的多个相对坐标集合确定多个帧间差分值集合；

第四确定模块，用于基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量；

第五确定模块，用于基于相对坐标张量和时间差分张量确定输入张量；

动作识别模块，用于基于已训练的动作识别模型对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。

另一方面，本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的图像识别方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的图像识别方法。

本申请实施例提供的一种图像识别方法、装置、电子设备及存储介质具有如下有益效果：

通过获取人体骨架图像序列；人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致；确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；相对坐标集合中的相对坐标与骨架关节点集合中的骨架关节点一一对应；基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量；根据人体骨架图像序列对应的多个相对坐标集合确定多个帧间差分值集合；基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量；基于相对坐标张量和时间差分张量确定输入张量；基于已训练的动作识别模型对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。本申请利用人体骨架关节点信息来构建基于图卷积网络的动作识别模型的输入张量，进行动作识别，可以提升对人类动作识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种应用场景的示意图；

图2是本申请实施例提供的一种图像识别方法的流程示意图；

图3是本申请实施例提供的一种人体骨架数据集的示意图

图4是本申请实施例提供的一种人体骨架的示意图；

图5是本申请实施例提供的一种相对坐标张量的结构示意图；

图6是本申请实施例提供的一种输入张量的结构示意图；

图7是本申请实施例提供的一种动作识别模型的结构示意图；

图8是本申请实施例提供的一种卷积层的结构示意图；

图9是本申请实施例提供的一种已训练的邻接矩阵的示意图；

图10是本申请实施例提供的一种时空注意力提取操作的流程示意图；

图11是本申请实施例提供的一种图像识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请实施例提供的一种应用场景的示意图，包括数据处理模块101和动作识别模型102，由数据处理模块101和动作识别模型102组成的整体获取人体骨架图像序列后，依次经过数据处理模块101和动作识别模型102输出人体骨架图像序列对应的动作类别。

人体骨架图像序列输入数据处理模块101；其中，人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致。数据处理模块101确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；相对坐标集合中的相对坐标与骨架关节点集合中的骨架关节点一一对应；数据处理模块101基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量。数据处理模块101根据人体骨架图像序列对应的多个相对坐标集合确定多个帧间差分值集合，并基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量；数据处理模块101将相对坐标张量和时间差分张量串联作为输入张量，将输入张量输入已训练的动作识别模型102，动作识别模型102对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。

可选的，在另一种应用场景中，该数据处理模块101还可以作为动作识别模型102的一部分，人体骨架图像序列作为动作识别模型102的输入，经动作识别模型102输出人体骨架图像序列对应的动作类别。

可选的，数据处理模块101和动作识别模型102可以被设置在同一个设备中，比如移动终端、计算机终端、服务器或者类似的运算装置；可选的，数据处理模块101和动作识别模型102可以被设置在多个设备中，该多个设备处于一个***中；可选的，数据处理模块101和动作识别模型102可以被设置在一个平台上。因此，本申请实施例的执行主体可以是移动终端、计算机终端、服务器或者类似的运算装置；可以是某个***，还可以是某个平台。

以下介绍本申请一种图像识别方法的具体实施例，图2是本申请实施例提供的一种图像识别方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法可以包括：

S201：获取人体骨架图像序列；人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致。

本申请实施例中，人体骨架图像序列可以通过深度传感器(如微软Kinect)采集得到，通过深度传感器采集得到的数据还包括每帧人体骨架图像中骨架关节点的三维坐标信息。

目前有大量的开源人体骨架数据集用于实验验证。例如，NTU RGB+D数据集由3个微软Kinect相机同时捕获，涉及60个动作类别，包含50,000多个动作样本，以及每个动作样本的视频、深度图像序列和三维骨架数据。请参阅图3，图3是本申请实施例提供的一种人体骨架数据集的示意图，图3(a)是NTU RGB+D数据集的三维骨架数据，包括25个关节点的三维坐标信息。三维坐标信息是通过Kinect相机中的骨骼跟踪技术获得的，骨骼追踪技术通过处理深度数据来建立人体各个关节的坐标，它能够确定人体的各个部分，例如哪部分是手，头部，以及身体，还有他们所在的空间位置。类似的，除NTU RGB+D数据集之外，还有HDM05数据集，如图3(b)所示，其包含的三维骨架数据包括31个关节点的三维坐标信息。

S203：确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；相对坐标集合中的相对坐标与骨架关节点集合中的骨架关节点一一对应。

本申请实施例中，每帧人体骨架图像的骨架关节点集合的数量可以根据具体算法确定，在基于NTU RGB+D数据集获取的每帧人体骨架图像的骨架关节点集合的数量为25个，该数据集还包括该25个关节点对应的三维坐标信息集合。

一种可选的确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合的实施方式为，从骨架关节点集合中确定出根节点；确定每帧人体骨架图像中的骨架关节点集合中每个骨架关节点基于述骨架关节点集合中根节点的相对坐标，得到相对坐标集合。

下面通过一个具体的例子对上文进行说明，请参阅图4，图4是本申请实施例提供的一种人体骨架的示意图，为了便于说明，这里假设某算法确定的关节点数为5个。通过深度传感器获取连续10帧的人体骨架图像，同时获取到每帧人体骨架图像中5个骨架关节点的三维坐标信息集合。例如第1帧中5个骨架关节点的三维坐标信息分别为：头部关节点A₁(90,90,90)，手部关节点B₁(100,80,60)，手部关节点C₁(80,100,60)，腿部关节点D₁(100,80,0)，腿部关节点E₁(80,100,0)，再例如第2帧中5个骨架关节点的三维坐标信息分别为：A₂(90,90,92)，B₂(100,80,62)，C₂(80,100,62)，D₂(100,80,10)，E₂(80,100,10)，再例如第10帧中5个骨架关节点的三维坐标信息分别为：A₁₀(90,90,110)，B₁₀(100,80,80)，C₁₀(80,100,80)，D₁₀(100,80,50)，E₁₀(80,100,50)；从该5个骨架关节点A,B,C,D,E中确定根节点为头部关节点A，其次确定每帧中5个骨架关节点相对于头部关节点A的相对坐标，得到相对坐标集合；其中，每帧人体骨架图像中的头部关节点A即为原点(0,0,0)。例如第1帧的相对坐标集合包括A’₁(0,0,0)，B’₁(10，-10,-30)，C’₁(-10,10,-30)，D’₁(10,-10,-90)，E’₁(-10,10,-90)，第2帧的相对坐标集合包括A’₂(0,0,0)，B’₂(10，-10,-30)，C’₂(-10,10,-30)，D’₂(10,-10,-82)，E’₂(-10,10,-82)，第10帧的相对坐标集合包括A’₁₀(0,0,0)，B’₁₀(10，-10,-30)，C’₁₀(-10,10,-30)，D’₁₀(10,-10,-70)，E’₁₀(-10,10,-70)。

S205：基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量。

本申请实施例中，将人体骨架数据转换为张量C×T×V，请参阅图5，图5是本申请实施例提供的一种相对坐标张量的结构示意图，其中C表示通道数(本申请中人体骨架关节点用三维坐标信息来表示，即通道数为3)，三个通道x、y、z分别表示人体骨架图像中每帧图像的骨架关节点集合在该通道上的相对坐标集合；T表示人体骨架图像的帧号序列；V表示人体骨架的关节点序列。

S207：根据人体骨架图像序列对应的多个相对坐标集合确定多个帧间差分值集合。

本申请实施例中，根据每帧中的根关节将骨架关节点集合对应的三维坐标信息集合转换为相对坐标集合之后，根据人体骨架图像序列对应的多个相对坐标集合逐通道(x通道、y通道、z通道)确定多个帧间差分值集合，帧间差分值为某骨架关节点在相邻两帧图像之间的相对位移。

基于上述的例子继续说明。例如逐通道计算关节点D关于第2帧图像与第1帧图像之间的帧间差分值，x通道上关节点D的帧间差分值为0，y通道上关节点D的帧间差分值为0，z通道上关节点D的帧间差分值为8，表示人体腿部动作仅在Z轴方向上发生了变化；又例如逐通道计算关节点B关于第2帧图像与第1帧图像之间的帧间差分值，在x通道、y通道和z通道上的帧间差分值均为0，表示人体手部动作在任意方向上均未发生变化。

S209：基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量。

S211：基于相对坐标张量和时间差分张量确定输入张量。

本申请实施例中，除构造上述的相对坐标张量用于获取人体动作在空间域内的特征之外，还基于上述帧间差分值集合构造时间差分张量用于提取人体动作在时间域上的特征，将时间差分张量与相对坐标张量串联作为输入张量C×T×V。请参阅图6，图6是本申请实施例提供的一种输入张量的结构示意图，其中，三个通道x、y、z分别表示人体骨架图像中每帧图像的骨架关节点集合在该通道上的相对坐标集合；另外三个通道△x、△y、△z分别表示每帧图像中骨架关节点集合对应的相对坐标集合基于上一帧图像中骨架关节点集合对应的相对坐标集合分别在对应的x通道、y通道、z通道上的帧间差分值集合。

S213：基于已训练的动作识别模型对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。

本申请实施例中，动作识别模型可以是基于图卷积网络模型进行改进的网络模型，该动作识别模型可以包括：输入层、1个批量归一化层(Batch Normalization，BN)、10个卷积层、1个全局平均池化层(Global Average Pooling，GAP)、1个全连接层(FullyConnected，FC)和输出层。其中每层卷积层包括1个伪图卷积模块、1个时空注意力提取模块和1个时间卷积模块。将获取的人体骨架图像序列输入到动作识别模型的输入层，经输入层确定输入张量后传递至批量归一化层，批量归一化层的目的是通过批处理规范化层对动作识别模型的输入进行规范化，如此可以避免梯度的消失和***，提高训练速度。然后将批量归一化层处理后的输入张量依次经10个卷积层提取特征张量，将最终卷积层输出的特征张量馈入全局平均池化层，全局平均池化层的目的是减少特征维度。然后将全局平均池化层输出的张量馈送到全连接层中，得到人体骨架图像序列的分类打分，最后通过输出层的Softmax分类模块完成人体动作分类识别。

下面介绍一种可选的动作识别模型的结构，请参阅图7，图7是本申请实施例提供的一种动作识别模型的结构示意图，依次为输入层、批量归一化层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层、全局平均池化层、全连接层和输出层。一个具体的例子中：

输入层的作用可以是数据处理的作用，执行步骤S201-S211，获取人体骨架图像序列，确定输入张量。

批量归一化层的作用是实现数据的规范化，该技术为本领域内技术人员的公知常识，这里不再赘述。

请参阅图8，图8是本申请实施例提供的一种卷积层的结构示意图，本申请实施例中的10个卷积层的结构均可以参考该结构，包括1个伪图卷积模块、1个时空注意力提取模块和1个时间卷积模块。由于输入张量为6个通道，因此第一卷积层的伪图卷积模块具有6个输入通道，还具有64个用于输出的通道。第二卷积层、第三卷积层和第四卷积层的伪图卷积模块分别具有64个输入通道和64个输出通道。第五卷积层的伪图卷积模块具有64个输入通道和128个输出通道。第六卷积层和第七卷积层的伪图卷积模块分别具有128个输入通道和128个输出通道。第八卷积层的伪图卷积模块具有128个输入通道和256个输出通道。第九卷积层和第十卷积层分别具有256个输入通道和256个输出通道。其中，第五卷积层和第八卷积层的步长可以设置为2。

将前序第十层卷积层的输出张量馈入全局池化层，全局池化层将从人体骨架图像序列获取256维特征向量。

在全局池化层之后，将输出张量馈送到全连接层中，以得到人体骨架图像序列对应的动作分类打分，然后通过输出层的Softmax分类模块完成人体动作分类识别。

本申请实施例中，每层卷积层均包括1个伪图卷积模块、1个时空注意力提取模块和1个时间卷积模块。10个卷积层的伪图卷积模块均用于获取已训练的邻接矩阵，基于上一层卷积层输出的张量与邻接矩阵的乘积，进行伪图卷积操作，得到空间特征张量；然后时空注意力提取模块基于空间特征张量进行时空注意力提取操作，得到时空校准特征张量；时空校准特征张量包括多个不同权重的特征平面；最后，时间卷积模块对时空校准特征张量进行时间卷积操作，得到该层卷积层的输出张量。

一种可选的基于上一层卷积层输出的张量与邻接矩阵的乘积，进行伪图卷积操作，得到空间特征张量的实施方式中，可以根据公式(1)确定空间特征张量：

其中，f_out表示空间特征张量；W_i表示权重；f_in表示上一层卷积层输出的张量；

表示已训练的邻接矩阵；n表示每层中的邻接矩阵数量；i表示每个伪图卷积模块中的第i个邻接矩阵。

本申请实施例中，每层卷积层中伪图卷积模块对应的已训练的邻接矩阵互不相同。请参阅图9，图9是本申请实施例提供的一种已训练的邻接矩阵的示意图。图9中第一行展示了现有技术中基于NTU-RGB+D Cross-Subject训练得到的原始邻接矩阵，这些邻接矩阵仅表示了人体骨架关节点中存在物理直连关系的关节点之间的连接关系，通过训练并保持固定。图9中第二行和第三行为本申请实施例基于NTU-RGB+D Cross-Subject训练得到的10个邻接矩阵，第二行第一列可以是第一层卷积层的伪图卷积模块中的矩阵，第三行最后一列可以是第十层卷积层的伪图卷积模块中的矩阵，本申请实施例提出的邻接矩阵通过学习关节点之间的物理直连关系和非物理直连关系，并进行训练得到10个互不相同的邻接矩阵，分别作用于10个卷积层，如此可以提取多级语义信息，可以提取到增强模型的灵活性。这里，由于是可学习的邻接矩阵，与现有技术中预定义图和归一化邻接矩阵无关，因此称为伪图卷积模块。

本申请实施例中，考虑到骨架关节点在三维方向上的位置和运动状态对动作的分类有不同的贡献，且某些包含突出特征的帧在区分动作种类中起着重要作用。因此，本申请实施例提供的卷积层中通过时空注意力提取模块进行时空注意力提取操作，得到时空校准特征张量。

下面介绍一种可选的通过时空注意力提取模块进行时空注意力提取操作，得到时空校准特征张量的实施方式。请参阅图10，图10是本申请实施例提供的一种时空注意力提取操作的流程示意图。首先，使用全局平均池化逐通道提取信息，其次经全连接层和ReLU非线性操作层来减少通道数量，再用一个全连接层和ReLU非线性操作层来恢复通道数，通过这种方式可以校准空间特征；为了重新校准时间特征，首先对通道轴和时间轴进行交换，得到张量T×C×V，然后应用上述相同的操作，重新校准时间特征后，再将特征张量改回原始形状。Hadamard积用于混合空间特征和时间特征，将混合张量更改为V×T×C之后，采用1×1卷积提取时空注意力张量，将原始输入张量乘以该时空注意力张量，得到时空校准特征张量。

可选的，时间校准操作可以针对上一层卷积层时间卷积操作之后获得的特征进行时间校准；时间校准操作还可以在时间卷积之前提高该层卷积层中某些重要帧的权重，然后再进行时间卷积操作，如此，有助于高质量的特征提取。

本申请实施例中，动作识别模型的训练过程种的所有实验均可以基于PyTorch深度学习框架进行。使用带有Nesterov动量的随机梯度下降(SGD)进行优化，学习率、动量和重量衰减可以分别设置为0.1、0.9和0.0001。利用概率为0.2的Dropout来减轻训练期间的过拟合。

中的所有元素均初始化为1。选择交叉熵作为反向传播梯度的损失函数。

下面分别基于NTU-RGB+D数据集和HDM05数据集将本申请实施例提供的方法和其他几种基于骨架的动作识别方法进行了比较。

对于NTU-RGB+D数据集，该数据集的每个样本中最多有两个人，每个样本的最大帧数为300。对于少于300帧的样本，重复这些样本，直到达到300帧。批量大小设置为32。学习率设置为0.1，并在第20个epoch和第40个epoch除以10。培训过程在第60个epoch结束。本申请实施例中基于两个常见的基准训练本申请提出的方法：Cross-Subject和Cross-View。在测试阶段分别计算其他16种方法与本申请方法(PGCN-TCA)对于top-1分类识别的准确度。表1为比较结果，其中在Cross-Subject基准中本申请实施例提供的方法(PGCN-TCA)对于top-1分类的准确度为88.0％，仅次于2s-AGCN，但优于大多数现有方法；在Cross-View基准中本申请实施例提供的方法(PGCN-TCA)对于top-1分类的准确度为93.6％，仅次于2s-AGCN，但优于大多数现有方法，准确度较高。

表1：NTU-RGB+D数据集上Cross-Subject和Cross-View的top-1分类的准确度比较

NO.	Methods	Cross-Subject(％)	Cross-View(％)
				1	Lie Group	50.1	52.8
2	H-RNN	59.1	64.0
				3	Deep LSTM	60.7	67.3
4	ST-LSTM+TS	69.2	77.7
				5	Temporal Conv	74.3	83.1
6	Visualize CNN	76.0	82.6
				7	Visualize CNN	79.6	84.8
8	ST-GCN	81.5	88.3
				9	MANs	82.7	93.2
10	DPRL	83.5	89.8
				11	SR-TSL	84.8	92.4
12	HCN	86.5	91.1
				13	PB-GCN	87.5	93.2
14	RA-GCN	85.9	93.5
				15	AS-GCN	86.8	94.2
16	2s-AGCN	88.5	95.1
				17	PGCN-TCA	88.0	93.6

对于HDM05数据集，每个样本中的最大帧数为901。对于少于901帧的样本，重复直到其达到901帧。批量大小设置为16。学习率也设置为0.1，并在第100个epoch除以10。训练过程在第120个epoch结束。采用随机评估的方式进行10次评估，每次评估随机选择数据集中一半的序列用于训练，其余序列用于测试。在每次评估中，分别计算其他7种方法与本申请实施例提供的方法(PGCN-TCA)对于top-1分类的准确度。表2为比较结果，其中，本申请实施例提供的方法仅次于PB-GCN，优于大多数现有方法。

表2：HDM05数据集上的top-1分类准确度比较

根据上述实验结果可知，本申请实施例提供的图像识别方法，基于人体骨架图像序列确定的动作分类准确度较高。

本申请实施例还提供了一种图像识别装置，图11是本申请实施例提供的一种图像识别装置的结构示意图，如图11所示，该装置包括：

第一获取模块1101，用于获取人体骨架图像序列；人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致；

第一确定模块1102，用于确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；相对坐标集合中的相对坐标与骨架关节点集合中的骨架关节点一一对应；

第二确定模块1103，用于基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量；

第三确定模块1104，用于根据人体骨架图像序列对应的多个相对坐标集合确定多个帧间差分值集合；

第四确定模块1105，用于基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量；

第五确定模块1106，用于基于相对坐标张量和时间差分张量确定输入张量；

动作识别模块1107，用于基于已训练的动作识别模型对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。

本申请实施例中的装置与方法实施例基于同样地申请构思。

本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的图像识别方法。

本申请的实施例还提供了一种存储介质，存储介质可设置于服务器之中以保存用于实现方法实施例中一种图像识别方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述图像识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的图像识别方法、装置、电子设备或存储介质的实施例可见，本申请中通过获取人体骨架图像序列；人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致；确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；相对坐标集合中的相对坐标与骨架关节点集合中的骨架关节点一一对应；基于相对坐标集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定相对坐标张量；根据人体骨架图像序列对应的多个相对坐标集合确定多个帧间差分值集合；基于多个帧间差分值集合、骨架关节点的数量和人体骨架图像序列中图像的帧数确定时间差分张量；基于相对坐标张量和时间差分张量确定输入张量；基于已训练的动作识别模型对输入张量进行动作识别，得到人体骨架图像序列对应的动作类别。本申请利用人体骨架关节点信息来构建基于图卷积网络的动作识别模型的输入张量，进行动作识别，可以提升对人类动作识别的准确度。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

获取人体骨架图像序列；所述人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致；

确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；所述相对坐标集合中的相对坐标与所述骨架关节点集合中的骨架关节点一一对应；

基于所述相对坐标集合、所述骨架关节点的数量和所述人体骨架图像序列中图像的帧数确定相对坐标张量；

基于所述多个帧间差分值集合、所述骨架关节点的数量和所述人体骨架图像序列中图像的帧数确定时间差分张量；

基于所述相对坐标张量和所述时间差分张量确定输入张量；

基于已训练的动作识别模型对所述输入张量进行动作识别，得到所述人体骨架图像序列对应的动作类别；

其中，所述动作识别模型包括用于提取特征张量的多个卷积层，所述多个卷积层中每个卷积层包括伪图卷积模块、时空注意力提取模块和时间卷积模块；所述伪图卷积模块用于获取已训练的邻接矩阵，基于上一卷积层输出的张量与邻接矩阵的乘积，进行伪图卷积操作，得到空间特征张量；所述邻接矩阵为可学***面；所述时间卷积模块用于对所述时空校准特征张量进行时间卷积操作，得到所述卷积层的输出张量。

2.根据权利要求1所述的方法，其特征在于，所述确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合，包括：

确定所述人体骨架图像序列中每帧人体骨架图像的骨架关节点集合的坐标信息集合；

从骨架关节点集合中确定出根节点；

确定所述每帧人体骨架图像中的所述骨架关节点集合中每个骨架关节点基于所述述骨架关节点集合中根节点的相对坐标，得到所述相对坐标集合。

3.根据权利要求1所述的方法，其特征在于，所述动作识别模型包括：

输入层、1个批量归一化层、10个卷积层、1个全局平均池化层、1个全连接层和输出层。

4.根据权利要求3所述的方法，其特征在于，所述基于已训练的动作识别模型对所述输入张量进行动作识别，包括：

获取已训练的邻接矩阵；

基于所述输入张量与所述邻接矩阵的乘积，进行伪图卷积操作，输出空间特征张量；

通过全局平均池化对所述空间特征张量C×T×V逐通道提取信息，通过全连接层和ReLU非线性操作层减少通道数量，通过一个全连接层和ReLU非线性操作层来恢复通道数，以校准空间特征；

对所述空间特征张量的通道轴和时间轴进行交换得到张量T×C×V，通过全局平均池化对所述张量T×C×V逐通道提取信息，通过全连接层和ReLU非线性操作层减少通道数量，通过一个全连接层和ReLU非线性操作层来恢复通道数，以校准时间特征；将张量T×C×V改回原始形状C×T×V；

通过Hadamard积混合空间特征和时间特征，将混合张量更改为V×T×C，采用1×1卷积提取时空注意力张量，将原始输入的所述空间特征张量C×T×V乘以所述时空注意力张量，得到时空校准特征张量；

对所述时空校准特征张量进行时间卷积操作，得到输出张量；

其中，所述10个卷积层中每个卷积层对应的已训练的邻接矩阵互不相同。

5.一种图像识别装置，其特征在于，包括：

第一获取模块，用于获取人体骨架图像序列；所述人体骨架图像序列包括连续多帧人体骨架图像；每帧人体骨架图像的骨架关节点一致；

第一确定模块，用于确定每帧人体骨架图像的骨架关节点集合中对应的相对坐标集合；所述相对坐标集合中的相对坐标与所述骨架关节点集合中的骨架关节点一一对应；

第二确定模块，用于基于所述相对坐标集合、所述骨架关节点的数量和所述人体骨架图像序列中图像的帧数确定相对坐标张量；

第四确定模块，用于基于所述多个帧间差分值集合、所述骨架关节点的数量和所述人体骨架图像序列中图像的帧数确定时间差分张量；

第五确定模块，用于基于所述相对坐标张量和所述时间差分张量确定输入张量；

动作识别模块，用于基于已训练的动作识别模型对所述输入张量进行动作识别，得到所述人体骨架图像序列对应的动作类别；

6.根据权利要求5所述的装置，其特征在于，

所述第一确定模块，还用于确定所述人体骨架图像序列中每帧人体骨架图像的骨架关节点集合的坐标信息集合；从骨架关节点集合中确定出根节点；确定所述每帧人体骨架图像中的所述骨架关节点集合中每个骨架关节点基于所述述骨架关节点集合中根节点的相对坐标，得到所述相对坐标集合。

7.根据权利要求5所述的装置，其特征在于，所述动作识别模型包括：

8.根据权利要求7所述的装置，其特征在于，

所述动作识别模块，还用于获取已训练的邻接矩阵；基于所述输入张量与所述邻接矩阵的乘积，进行伪图卷积操作，输出空间特征张量；通过全局平均池化对所述空间特征张量C×T×V逐通道提取信息，通过全连接层和ReLU非线性操作层减少通道数量，通过一个全连接层和ReLU非线性操作层来恢复通道数，以校准空间特征；对所述空间特征张量的通道轴和时间轴进行交换得到张量T×C×V，通过全局平均池化对所述张量T×C×V逐通道提取信息，通过全连接层和ReLU非线性操作层减少通道数量，通过一个全连接层和ReLU非线性操作层来恢复通道数，以校准时间特征；将张量T×C×V改回原始形状C×T×V；通过Hadamard积混合空间特征和时间特征，将混合张量更改为V×T×C，采用1×1卷积提取时空注意力张量，将原始输入的所述空间特征张量C×T×V乘以所述时空注意力张量，得到时空校准特征张量；对所述时空校准特征张量进行时间卷积操作，得到输出张量；其中，所述10个卷积层中每个卷积层对应的已训练的邻接矩阵互不相同。

9.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一所述的图像识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4任一所述的图像识别方法。