CN114882493A

CN114882493A - 一种基于图像序列的三维手部姿态估计与识别方法

Info

Publication number: CN114882493A
Application number: CN202110089991.5A
Authority: CN
Inventors: 梁晓辉; 李琴
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-08-09

Abstract

本发明提供一种三维手部姿态估计与识别方法，该方法包括：获取相机拍摄的深度图像序列，使用神经网络分别提取图像和时间特征，然后拼接图像特征与二维关节预测特征，利用邻接矩阵表示的手部结构图，不断校正关节点坐标信息，推断被遮挡的关节点的位置信息；将回归得到的手部三维关节坐标信息进行处理，得到手部的骨架图，引入时空注意力机制模型，训练图网络实现手势的动作识别分类；最后将这两部分的研究内容进行整合，结合实际需求，搭建了基于图像序列的三维手部姿态估计与识别***。本发明提高了手部姿态估计的准确度，基本能够达到实时性。

Description

一种基于图像序列的三维手部姿态估计与识别方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及三维手部姿态估计与识别方法。

背景技术

随着计算机视觉技术的发展，人与数字媒体的交互不再拘泥于鼠标、键盘等操控方式，手势也成为了重要的交互方式。手势交互可以分为手部姿态估计和手势识别两个部分，他们都拥有广阔的应用场景。

目前的手部姿态估计技术主要分为两类，一类是基于可穿戴设备的手部姿态估计技术，一类是基于计算机视觉的手部姿态估计技术。由于可穿戴设备较为昂贵且笨重，导致用户体验不佳，因此，基于计算机视觉的手部姿态估计技术更具有应用前景，也更加受到研究人员的关注。目前常用的基于计算机视觉的手部姿态估计任务大多采用深度学习的方式，以人手的图像作为输入，学习图像特征以及从图像到手部姿态的映射关系。虽然基于单帧图像的深度学习方法在手部姿态估计领域取得了巨大的发展，然而由于单帧图像缺少时序信息，并且手部本身存在自遮挡、高自由度、结构复杂等固有特点，所以手部姿态估计技术在抗遮挡性与泛化性上非常具有挑战性。

动态手势识别由于其广泛的应用潜力，也引起了越来越多的关注，可以应用于人机交互领域，给用户提供更加自然、直观的交互方式。然而，开发高精度的手势识别***仍然具有挑战性，因为不同用户执行同一手势的多种可能方式导致了较高的类内方差，从而造成识别上的困难。早期的动态手势识别研究主要以R(Red，红)G(Green，绿)B(Blue，蓝)相机捕获的二维视频作为输入，不可避免地造成了价值意义较高的三维空间信息的丢失，而且视频中含有大量的不相关信息，导致基于视频的模型不容易学习到有用的信息，并带来遮挡和光变等额外挑战。由于手部骨骼可以清晰地描述手部的运动状态，对类内多样性有较强的鲁棒性，所以近年来，基于骨架的手势识别成为一个活跃的研究领域。但是基于骨架的手势识别高度依赖于获取的手部关节点的精度，对自遮挡和视点变化很敏感。

发明内容

针对上述手部姿态估计和手势识别存在的问题，本发明在输入上使用多帧的连续图像序列代替单帧图像，引入卷积神经网络和循环神经网络网络，表征顺序数据的输出与先前获取的信息之间的关系，缓解由噪声或帧缺失引起的大预测误差的问题。引入图网络模型进行关系结构推理，对关节点未知信息进行推断，提升三维手部姿态估计的准确度、抗遮挡性。由于手骨架也包含了丰富的手部结构信息，对变化的光照条件和遮挡情况更有鲁棒性。所以本文采用基于回归姿态序列的手势识别方法，通过前一章提出的手部姿态估计方法得到一系列具有三维坐标信息的手关节序列对手势进行识别。

本发明的出发点为这样一个客观事实：人们在进行需要估计手部姿态的交互行为时，由于可穿戴设备较为昂贵且笨重，所以倾向于用相机来捕获图像进行姿态估计，比如虚拟体感游戏，如果能够使用图像代替目前常用的数据手套、手柄作为数据输入来源，就可以使用户摆脱硬件的束缚，给用户提供更加真实的人造虚拟环境，实现沉浸式的交互体验。在一些需要触摸屏控制的设备上，使用手势交互更加的自然、便捷，比如高级驾驶辅助***，驾驶员使用手势与***交互来改变车内各种参数，控制汽车内部的各个功能，从而将更多的注意力放在马路上，可以在一定程度上提高驾驶的安全性，减少交通事故的发生概率。智能家居使用手势控制取代传统的按键或者触摸屏控制，可以使用户感到更加便捷和自然。

本发明与现有技术相比的优点在于：第一，本发明输入连续的多帧图像序列，通过学习图像特征和相邻帧之间的时序特征，充分利用相邻帧间的相关信息以及手工模型的可解释性，捕获了更多的时空特征，使得二维关节预测更加准确。第二，本发明利用图结构来模拟手部姿态，同时使用二维和三维的损失函数，对网络的不同阶段进行约束，使得网络可以更好的学习，从而更准确地完成完整的三维手部姿态估计，并在遮挡场景下也能取得较好的结果，保证回归的实时性。第三，本发明将回归得到的手部三维关节坐标信息视为完整骨架，引入时空注意力机制模型，利用时空信息学习手部关节点和边的特征，设计图网络来学习动态图中的边权值，提高了手势识别的准确率。第四，本发明提出的方法在多个数据集上进行了实验，取得了较为准确的实体链接效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的***模块设计图；

图2是本发明的三维手部姿态估计与识别方法的一些实施例的流程图；

图3是本发明的三维手部姿态估计框架图；

图4是本发明的动态手势识别流程图。

具体实施方式

下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

下面将结合附图，对本发明的实施例进行描述。

如图1所示，是本发明的***实现模块设计图，包括数据输入模块、交互界面模块、核心功能模块和数据输出模块。

数据输入模块包括从深度相机实时读取手部图像序列，以及对回归的关节序列进行处理；交互界面模块主要设计了***与用户间的交互界面及响应函数；核心功能模块包含手部区域提取、二维关节预测、三维手部姿态估计和基于回归序列的动态手势识别四个部分，定义了这四个部分的实现过程；数据输出模块绘制***接收到输入图像后在核心功能层求解的中间结果和最终结果。

具体的，手部图像序列采集模块主要负责实时获取深度摄像机捕获的深度图像，并对图像进行处理和转化，使得能够调用预训练好的模型实现实时回归。本模块使用实感三维相机(例如，Intel Realsense300)作为输入设备，可以实时获取摄像机摄取的视频流，将每一帧的深度图像提取出来。

继续参考图2，示出了根据本发明的三维手部姿态估计与识别方法的一些实施例的流程200。该三维手部姿态估计与识别方法，包括以下步骤：

步骤201，获取深度图像序列，对深度图像序列进行预处理。

在一些实施例中，三维手部姿态估计与识别方法的执行主体可以通过各种方式获取深度图像序列。其中，获取手部深度图像时，人手位于目标用户的胸部前方，人手可以包含右手。可以通过固定摄像机角度来采集手部深度图像。可以通过灰度化、几何变换和图像增强对深度图像序列进行预处理。

步骤202，从深度图像序列中的每个深度图像中提取手部区域，得到手部区域集合。

在一些实施例中，三维手部姿态估计与识别方法的执行主体可以从深度图像序列中的每个深度图像中提取手部区域，得到手部区域集合。如图3所示的三维手部姿态估计框架图中。手部区域提取模块在深度图像中检测提取手部区域，定义手是与相机之间的距离满足预定阈值的物体。其中，预定阈值可以是10厘米。基于深度阈值分割深度图像中的手部图像，设阈值为S，根据深度d获取深度值在[d-S，d+S]范围内的像素，确定深度图像中的手部图像的质心，从深度图像中提取以手部图像的质心为中心的固定大小的立方体，将深度值归一化为[-1，1]。采用双线性调整大小，深度值比该立方体的背面更远的点被定义为深度不可用的点，深度值赋为1。最后确定边界并投影到三维空间。边界可以是深度阈值的边界。

在一些实施例的一些可选的实现方式中，提取手部区域，可以包括以下步骤：

第一步，定义手是与相机之间的距离满足预定阈值的物体。基于深度阈值分割深度图像中手部图像。其中，设阈值为S，根据深度d获取深度值在[d-S，d+S]范围内的像素。预定阈值可以是10厘米。

第二步，确定深度图像中手部图像的质心，输出质心的横坐标、纵坐标和竖坐标，从深度图像中提取以手部图像的质心为中心的固定大小的立方体，将提取的立方体大小调整为96×96的深度值块。通过手部区域提取模块确定手部图像的质心，输出质心的横坐标、纵坐标和竖坐标。以及提取以手部图像的质心为中心的固定大小的立方体，将提取的立方体大小调整为96×96的深度值块。

第三步，对深度值进行归一化处理，以及确定深度阈值的边界并进行三维投影，得到手部区域。

作为示例，将深度值归一化为[-1，1]。采用双线性调整大小，深度值比该立方体的背面更远的点被定义为深度不可用的点，深度值赋为1，最后计算边界并投影到三维空间。深度不可用的点可以是深度图像上背景信息中的点。

步骤203，训练神经网络以提取时序特征集合与图像特征集合，基于神经网络，生成二维关节坐标信息集合和二维关节预测特征集合。

在一些实施例中，三维手部姿态估计与识别方法的执行主体可以训练神经网络以提取时序特征集合与图像特征集合，基于神经网络，生成二维关节坐标信息集合和二维关节预测特征集合。如图3所示的三维手部姿态估计框架图中。二维关节预测模块主要为预测二维关节坐标，使用CNN(Convolutional Neural Networks，卷积神经网络)提取每帧的图像特征，CNN的网络结构由五个卷积层和一个全连接层组成，输入为深度图像序列，输出为关节对应的二维信息。卷积核大小为5×5，步长为2，后接ConvRNN(ConvolutionalRecurrent Neural Network，卷积循环神经网络)模块，隐藏层的不同时刻的不同特征映射。特征映射公式如下：

其中，t表示时刻的序号。i表示序号。j表示输出特征映射的序号。h表示输出。

表示在t时刻隐藏层的第j个特征映射的输出。f()表示激活函数。v和u表示卷积核。v_ij和u_ij表示用于第i个输入特征映射和第j个输出特征映射之间的连接的卷积核。M和N表示输入的特征映射组。b表示偏置。b_j表示第j个特征图的偏置。x表示输入。x^t表示t时刻的输入。h^t-1表示t-1时刻隐藏层的输出。

前馈全部采用卷积形式，为2Dloss(二维损失值)添加时序约束，最后将获取到的图像的抽象特征映射重构为一维向量，然后将其输入RNN(Recurrent Neural Network，循环神经网络)模块，得到二维关节坐标信息。其中，ConvRNN模块是由卷积神经网络和循环神经网络相结合的模块。

在一些实施例的一些可选的实现方式中，训练神经网络以提取时序特征集合与图像特征集合，基于神经网络，生成二维关节坐标信息集合和二维关节预测特征集合，可以包括以下步骤：

第一步，使用卷积神经网络提取每帧的图像特征，提出了将卷积神经网络和循环神经网络相结合的模块，利用相结合的模块进行特征提取，采用带泄露修正线性单元作为激活函数，使输出数据在负轴上保持一定的梯度，使神经元保持可更新性。其中，带泄露修正线性单元可以是神经网络中的激活函数(例如，Leaky ReLU激活函数)。负轴可以是平面直角坐标系中原点左边的横轴。

第二步，将获取到的图像的抽象特征映射重构为一维向量，然后将一维向量输入循环神经网络模块，生成二维关节坐标信息集合和二维关节预测特征集合。

步骤204，拼接图像特征集合与二维关节预测特征集合，利用邻接矩阵表示的手部结构图，设计训练图网络以校正关节坐标信息，确定被遮挡的关节的位置信息，完成三维手部姿态估计，得到手部三维关节序列信息。

在一些实施例中，三维手部姿态估计与识别方法的执行主体可以拼接图像特征集合与二维关节预测特征集合，利用邻接矩阵表示的手部结构图，设计训练图网络以校正关节坐标信息，确定被遮挡的关节的位置信息，完成三维手部姿态估计，得到手部三维关节序列信息。如图3所示的三维手部姿态估计框架图中。三维手部姿态估计模块主要是在前述网络进行手部二维关节点预测的基础上，利用预测得到的二维关节信息、特征以及手骨架结构信息来推断手部关节点的深度信息及并校正手部姿态坐标。将图像特征与每个关节点预测的x轴(横轴)、y轴(纵轴)特征进行拼接，将横轴特征、纵轴特征与用邻接矩阵表示的手部结构图输入到网络进行特征学习，使用图卷积神经网络进行关系结构推理。

在一些实施例的一些可选的实现方式中，拼接图像特征集合与二维关节预测特征集合，利用邻接矩阵表示的手部结构图，设计训练图网络以校正关节坐标信息，确定被遮挡的关节的位置信息，完成三维手部姿态估计，可以包括以下步骤：

第一步，利用得到的二维关节坐标信息在每一帧上构建手部关节点的手部结构图。其中，可以通过神经网络模型在每一帧上构建手部关节点的手部结构图。

第二步，将传统的卷积迁移到手部结构图上，把拉普拉斯算子的特征函数变为手部结构图对应的拉普拉斯矩阵的特征向量。

计算过程为每一个关节点将自身的特征信息经过变换之后发送给邻域节点，对关节点的特征信息进行抽取变换。然后每个关节点将邻域节点的特征信息聚合起来，对关节点的局部结构信息进行融合。最后对融合后的局部结构信息应用非线性变换，增加模型的表达能力。

卷积计算公式定义如下：

其中，σ()表示激活函数。y表示输出的特征向量。α表示预设参数集合。i表示序号。α_i表示预设参数集合中的第i个预设参数。J表示卷积核的感受野大小。L表示拉普拉斯矩阵。Lⁱ表示第i阶拉普拉斯矩阵。x表示输入的手部结构图。

第三步，添加长范围依赖模块，学习手部结构图中节点之间的全局和长范围内的依赖关系，通过计算节点之间的响应函数为所有位置特征的加权和来设置特征更新机制，完成三维手部姿态估计，获取长范围依赖关系的操作公式如下：

其中，x表示输入信号。k表示手部结构图中要计算响应函数的节点。j表示手部结构图中的其它节点。g()表示一元函数。T表示矩阵的转置。W_x表示权值矩阵。J表示卷积核的感受野大小。m表示时间节点。

表示k节点m时刻的输入信号。

表示k节点m+1时刻的输入信号。

表示k节点m时刻的输入信号的转置。

步骤205，对回归得到的手部三维关节序列信息进行处理，得到手部的骨架图序列。

在一些实施例中，三维手部姿态估计与识别方法的执行主体可以对回归得到的手部三维关节序列信息进行处理，得到手部的骨架图序列。如图4所示的动态手势识别流程图中。关节序列处理模块主要是将回归得到的三维手部姿态信息序列进行保存与处理。将三维手部姿态估计网络对手部深度图像实时回归得到的手部三维关节序列信息以二维数组形式写入到文件中，直至相机停止拍摄。其中，二维数组中的第一维可以是手势序列的帧数t，共t行，二维数组中的第二维可以是回归的手部姿态参数，共14×3列，将每段序列抽帧为16帧并保存到列表中。

在一些实施例的一些可选的实现方式中，对回归得到的手部三维关节序列信息进行处理，得到手部的骨架图序列，可以包括以下步骤：

第一步，将实时回归得到的手部三维关节序列信息以二维数组形式写入到文件中，直至相机停止拍摄。其中，二维数组中的第一维为这段手势序列的帧数，二维数组中的第二维是回归的手部姿态参数。可以通过编程的方法将二维数组写入文件。

第二步，对手势序列抽取预定数目帧然后归一化，保存到列表中。其中，预定数目帧可以是16帧。归一化可以是图像归一化。

步骤206，引入时空注意力机制模型，基于骨架图序列实现手势的动作识别分类。

在一些实施例中，三维手部姿态估计与识别方法的执行主体可以引入时空注意力机制模型，基于骨架图序列实现手势的动作识别分类。其中，时空注意力机制模型可以是神经网络(例如，卷积神经网络)模型。基于骨架图序列实现手势的动作识别分类可以是将骨架图序列输入至时空注意力机制模型实现手势的动作识别分类。

在一些实施例的一些可选的实现方式中，引入时空注意力机制模型，基于骨架图序列实现手势的动作识别分类，可以包括以下步骤：

第一步，对于一个预设帧的视频，从每一帧中提取预定数目个手部关节点来表示手部骨架，得到手部骨架图序列。其中，预设帧可以是16帧。预定数目个可以是14个。该手部骨架图序列构造全连通骨架图。全连通骨架图的节点表示手关节点，全连通骨架图的边包含连接不同关节点的骨架边以及连接同一关节点的时间边。

如图4所示的动态手势识别流程图中。构造手骨架序列图模块主要是从视频每一帧中提取14个手部关节点来表示手部骨架，由该手骨架序列构造全连通骨架图G＝(V，E)。其中，V表示全连通骨架图的节点。E表示全连通骨架图的边。全连通骨架图的节点表示手关节点，全连通骨架图的边包含连接不同关节点的骨架边以及连接同一关节点的时间边。

作为示例，令V＝{v_ti|t＝1，...T，i＝1，...N}表示节点集合，包含了一个骨架序列的所有关节点，其中每一帧包含14个关节点。T表示时间总数。N表示节点总数。图上定义了两种类型的边，空间边E_S＝v_(t，i)→v_(t，j)(i≠j)和时间边E_F＝v_(t，i)→v_(k，i)(t≠k)。其中，v表示节点。t，k表示时间。i和j表示序号。v_(t，i)表示第t时刻第i节点。v_(t，j)表示第t时刻第j节点。v_(k，i)表示第k时刻第i节点。

第二步，如图4所示的动态手势识别流程图中。时空注意力模型搭建和手势分类模块主要是从手骨架图中提取空间和时间信息，对手势进行识别分类。将节点特征输入到空间注意模型进行来编码并更新空间信息，将所有节点的信息聚合为查询特征，计算节点的查询向量和键值向量之间的缩放点积，将结果归一化，缩放点积的公式如下：

其中，t表示时间。i和j表示不同的节点。d表示缩放点积。p表示空间注意点的序号。d^p表示在第p个空间注意点时的缩放点积。

是节点(t，i)和节点(t，j)的缩放点积。K表示键值向量。Q表示查询向量。K^p表示在第p个空间注意点时的键值向量。Q^p表示在第p个空间注意点时的查询向量。

表示节点(t，i)的键值向量和节点(t，j)查询向量内积运算。dim是键值向量、查询向量和值向量的维数。w表示权值。w^p表示在第p个空间注意点的权值。

是节点(t，i)和节点(t，j)之间的权值。N表示节点总个数。n表示序号。exp()表示指数函数。

将更新后的节点特征反馈到时间注意模型来进一步学习时间信息，对手骨架输入序列所携带的时空信息进行编码。

具体的，

是节点(t，i)和节点(t，j)的缩放点积。

表示节点(t，i)的键值向量和节点(t，j)查询向量内积运算。dim是键值向量、查询向量和值向量的维数。

是节点(t，i)和节点(t，j)之间的权值，将所有时间边的权值设置为0，以阻止信息在时间域内传递。更新后的节点特征反馈到时间注意模型来进一步学***均池化为一个向量输入分类器进行手势识别。

第三步，构造权值函数，在卷积的每一层添加一个可学习的掩码，先确定各个关节点之间的缩放点积矩阵。然后进行时空掩膜操作，根据学习到的空间边中的空间的权值来分析每个节点对邻域节点的影响力。根据学习到的时间边中的时间的权值，使模型集中于时间域。最后实现手势的动作识别分类。其中，确定各个关节点之间的缩放点积矩阵可以通过以下公式得到：

其中，W表示缩放点积矩阵。Q表示查询矩阵。K表示键值矩阵。T表示转置。K^T表示键值矩阵的转置。

表示张量积。

可以通过以下公式进行时空掩膜操作，得到空间边中的空间的权值和时间边中的时间的权值：

其中，

表示权值矩阵。S表示空间边。T表示时间边。m表示矩阵。

表示空间边的权值矩阵。

表示时间边的权值矩阵。W表示缩放点积矩阵。S_m表示空间掩码矩阵。T_m表示时间掩码矩阵。⊙表示矩阵的点乘。Softmax()表示激活函数。inf表示预设权值。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种三维手部姿态估计与识别方法，包括：

(1)获取深度图像序列，对深度图像序列进行预处理；

(2)从深度图像序列中的每个深度图像中提取手部区域，得到手部区域集合；

(3)训练神经网络以提取时序特征集合与图像特征集合，基于神经网络，生成二维关节坐标信息集合和二维关节预测特征集合；

(4)拼接图像特征集合与二维关节预测特征集合，利用邻接矩阵表示的手部结构图，设计训练图网络以校正关节坐标信息，确定被遮挡的关节的位置信息，完成三维手部姿态估计，得到手部三维关节序列信息；

(5)对回归得到的手部三维关节序列信息进行处理，得到手部的骨架图序列；

(6)引入时空注意力机制模型，基于骨架图序列实现手势的动作识别分类。

2.根据权利要求1所述的方法，其中，所述获取深度图像序列，包括：

采集手部深度图像，得到深度图像序列，其中，人手位于目标用户的胸部前方，人手包含右手。

3.根据权利要求2所述的方法，其中，所述从深度图像序列中的每个深度图像中提取手部区域，得到手部区域集合，包括：

(3.1)定义手是与相机之间的距离满足预定阈值的物体，基于深度阈值分割深度图像中的手部图像，设阈值为S，根据深度d获取深度值在[d-S，d+S]范围内的像素；

(3.2)确定深度图像中的手部图像的质心，输出质心的横坐标、纵坐标和竖坐标，从深度图像中提取以手部图像的质心为中心的固定大小的立方体，将提取的立方体大小调整为96×96的深度值块；

(3.3)对深度值进行归一化处理，以及确定深度阈值的边界并进行三维投影，提取手部区域，得到手部区域集合。

4.根据权利要求3所述的方法，其中，所述训练神经网络以提取时序特征集合与图像特征集合，基于神经网络，生成二维关节坐标信息集合和二维关节预测特征集合，包括：

使用卷积神经网络提取每帧的图像特征，提出了将卷积神经网络和循环神经网络相结合的模块，利用相结合的模块进行特征提取，采用带泄露修正线性单元作为激活函数，使输出数据在负轴上保持一定的梯度，使神经元保持可更新性；

将获取到的图像的抽象特征映射重构为一维向量，然后将一维向量输入循环神经网络模块，生成二维关节坐标信息集合和二维关节预测特征集合。

5.根据权利要求4所述的方法，其中，所述拼接图像特征集合与二维关节预测特征集合，利用邻接矩阵表示的手部结构图，设计训练图网络以校正关节坐标信息，确定被遮挡的关节的位置信息，完成三维手部姿态估计，包括：

(5.1)利用得到的二维关节坐标信息在每一帧上构建手部关节点的手部结构图；

(5.2)将传统的卷积迁移到手部结构图上，把拉普拉斯算子的特征函数变为手部结构图对应的拉普拉斯矩阵的特征向量；

卷积计算公式定义如下：

其中，σ()表示激活函数，y表示输出的特征向量，α表示预设参数集合，i表示序号，α_i表示预设参数集合中的第i个预设参数，J表示卷积核的感受野大小，L表示拉普拉斯矩阵，Lⁱ表示第i阶拉普拉斯矩阵，x表示输入的手部结构图；

(5.3)添加长范围依赖模块，学习手部结构图中节点之间的全局和长范围内的依赖关系，通过计算节点之间的响应函数为所有位置特征的加权和来设置特征更新机制，完成三维手部姿态估计，获取长范围依赖关系的操作公式如下：

其中，x表示输入信号，k表示手部结构图中要计算响应函数的节点，j表示手部结构图中的其它节点，g()表示一元函数，T表示矩阵的转置，W_x表示权值矩阵，J表示卷积核的感受野大小，m表示时间节点，

表示k节点m时刻的输入信号，

表示k节点m+1时刻的输入信号，

表示k节点m时刻的输入信号的转置。

6.根据权利要求5所述的方法，其中，所述对回归得到的手部三维关节序列信息进行处理，得到手部的骨架图序列，包括：

将实时回归得到的手部三维关节序列信息以二维数组形式写入到文件中，直至相机停止拍摄，其中，二维数组中的第一维为手势序列的帧数，二维数组中的第二维是回归的手部姿态参数；

对手势序列抽取预定数目帧，然后进行归一化处理，以及将手势序列保存到列表中，得到手部的骨架图序列。

7.根据权利要求6所述的方法，其中，所述引入时空注意力机制模型，基于骨架图序列实现手势的动作识别分类，包括：

(7.1)对于一个预设帧的视频，从每一帧中提取预定数目个手部关节点来表示手部骨架，得到手部骨架图序列，其中，该手部骨架图序列用于构造全连通骨架图，全连通骨架图的节点表示手关节点，全连通骨架图的边包含连接不同关节点的骨架边以及连接同一关节点的时间边；

(7.2)将节点特征输入到空间注意模型进行编码并更新空间信息，完成节点特征的更新，将所有节点的信息聚合为查询特征，计算节点的查询向量和键值向量之间的缩放点积，将结果归一化，缩放点积的公式如下：

其中，t表示时间，i和j表示不同的节点，d表示缩放点积，p表示空间注意点的序号，d^p表示在第p个空间注意点时的缩放点积，

是节点(t，i)和节点(t，j)的缩放点积，K表示键值向量，Q表示查询向量，K^p表示在第p个空间注意点时的键值向量，Q^p表示在第p个空间注意点时的查询向量，

表示节点(t，i)的键值向量和节点(t，j)查询向量内积运算，dim是键值向量、查询向量和值向量的维数，W表示权值，W^p表示在第p个空间注意点时的权值，

是节点(t，i)和节点(t，j)之间的权值，N表示节点总个数，n表示序号，exp()表示指数函数；

将更新后的节点特征反馈到时间注意模型来进一步学习时间信息，对手骨架输入序列所携带的时空信息进行编码；

(7.3)构造权值函数，在卷积的每一层添加一个可学习的掩码，先计算各个关节点之间的缩放点积矩阵，然后进行时空掩膜操作，根据学习到的空间边中的空间的权值来分析每个节点对邻域节点的影响力，根据学习到的时间边中的时间的权值，使模型集中于时间域，最后实现手势的动作识别分类。