CN111814626A

CN111814626A - 一种基于自注意力机制的动态手势识别方法和***

Info

Publication number: CN111814626A
Application number: CN202010607626.4A
Authority: CN
Inventors: 侯建华; 麻建; 项俊; 王超; 方长江; 蓝华
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-23
Anticipated expiration: 2040-06-29
Also published as: CN111814626B

Abstract

本发明公开了一种基于自注意力机制的动态手势识别方法，包括：获取视频图像序列，对该视频图像序列进行采样，以获取多个网络输入数据，将获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中。本发明采用多模输入策略来描述动态手势的发生过程，并且利用非局部信息统计的空间自注意力机制计算出特征图上任意距离的两个元素之间的依赖关系，进而直接获取整个特征图上全局信息对任意元素的影响。这种方式不仅不会丢失细节信息，而且拥有计算效率高、可迁移能力强等优点，并能解决现有的动态手势识别算法中存在的时间资源、计算资源消耗大、缺少对手势发生的关键区域的突出以及非关键区域的抑制等技术问题。

Description

一种基于自注意力机制的动态手势识别方法和***

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于自注意力机制(Self-attention mechanism)的动态手势识别方法和***。

背景技术

动态手势识别是计算机视觉领域的一大研究热点，其主要目的在于从连续的图像序列中提取鲁棒的时空域特征，并根据该特征正确的识别出序列所携带手势的类别。目前，作为现代人机交互的一种重要方法，动态手势识别技术已经广泛应用手语识别、智能驾驶、智能家居等领域。

现有的动态手势识别方法主要采用基于深度学习的算法，其拥有良好的特征学习与表达能力，能够在复杂场景下取得一定的识别性能，获得了广泛的关注和发展，已然成为当下的主流实现方法。根据空间信息与时序信息的编码方式，常用的基于深度学习的算法可以分成两大类：一类是基于2D卷积神经网络(2D Convolutional Neural Networks，简称2DCNNs)的双流(Two stream)网络，另一类是基于3D卷积神经网络(3D ConvolutionalNeural Networks,3DCNNs)的网络。

然而，上述基于深度学习的算法仍然存在一些不可忽略的缺陷：

第一、由于现存的多数算法都直接对输入数据进行分析处理，未经过稀疏采样，因此，该类算法较大的占用了时间资源和计算资源。

第二、由于动态手势形成过程复杂且环境干扰较大，因此该类算法缺少对手势发生的关键区域的突出以及非关键区域的抑制。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于自注意力机制的动态手势识别方法和***。其目的在于，采用多模输入策略来描述动态手势的发生过程，并且利用非局部信息统计的空间自注意力机制计算出特征图上任意距离的两个元素之间的依赖关系，进而直接获取整个特征图上全局信息对任意元素的影响。这种方式不仅不会丢失细节信息，而且拥有计算效率高、可迁移能力强等优点，并能解决现有的动态手势识别算法中存在的时间资源、计算资源消耗大、缺少对手势发生的关键区域的突出以及非关键区域的抑制等技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于自注意力机制的动态手势识别方法，包括以下步骤：

(1)获取视频图像序列，对该视频图像序列进行采样，以获取多个网络输入数据，包括RGB模态数据、深度模态数据、以及光流模态数据；

(2)将步骤(1)获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中，以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值，并对同一动态手势类别对应的所有预测概率值取平均值，从而获得对应于每个动态手势类别的RGB模态输出结果；

(3)将步骤(1)获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中，以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值，并对同一动态手势类别对应的所有预测概率值取平均值，从而获得对应于每个动态手势类别的深度模态输出结果；

(4)将步骤(1)获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中，以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值，并对同一动态手势类别对应的所有预测概率值取平均值，从而获得对应于每个动态手势类别的光流模态输出结果；

(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和，以获得对应于每个动态手势类别的类别预测概率值，将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。

优选地，步骤(1)具体为，首先将获得的视频图像序列V均匀分成N个视频段[v₁,v₂,…v_N]，从每个视频段v_i中随机选取一帧图片s_i，并获取该帧图片s_i的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据，其中N为自然数，其最小值为1，最大值为获得的视频图像序列V中的总帧数，且有i∈[1,N]。

优选地，第一、第二和第三神经网络模型的结构均为：

第一层是卷积模块层，由卷积层、BN层、激活函数、池化层按顺序前后串联形成；

第二层是卷积模块层，由卷积层、BN层、激活函数按顺序前后串联形成；

第三层是卷积模块层，由卷积层、BN层、激活函数、池化层按顺序前后串联形成；

第四层是自注意力模块层，包括多个卷积层与池化层；

第五层是自注意力模块层，其与第四层具有完全相同的结构；

第六层是输出模块层，其是由池化层、归一化层(Softmax)按顺序前后串联形成。

优选地，每个自注意力模块层包括四路一级卷积分支；

第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成；

第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成；

第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成；

第一路一级卷积分支是由一个1*1的卷积层形成，且与四路二级卷积分支分别串联，用于实现自注意力机制。

优选地，第一路二级卷积分支的输出数据等于输入数据x∈R^C×W×H，其中C、W和H分别表示输入数据的通道数、宽和高，

在第二路二级卷积分支中，输入数据x∈R^C×W×H首先经过一个1*1的卷积层后，通过重塑操作变换为二维矩阵f(x)∈R^C×M，然后该二维矩阵通过转置操作变为f(x)^T。

在第三路二级卷积分支中，输入数据x∈R^C×W×H首先经过一个1*1的卷积层后，通过重塑操作变换为二维矩阵g(x)∈R^C×M；

在第四路二级卷积分支中，输入数据x∈R^C×W×H首先经过一个1*1的卷积层后，通过重塑操作变换为二维矩阵h(x)∈R^C×M；

随后，将第二路二级卷积分支中转置后获得的f(x)^T与第三路二级卷积分支中重塑后获得的g(x)进行相乘，获得乘积HM′＝f(x)^T*g(x)，然后对乘积进行归一化处理，以获得归一化结果

随后，将归一化结果

进行转置处理，并将转置后的结果

与第四路二级卷积分支中重塑后产生的结果h(x)进行相乘，以获得乘积：

最后，将乘积HM进行重塑处理，并根据重塑处理结果与输入数据x生成二级卷积分支的最终处理结果FA：

FA＝x+gamma*R_C×W×H(HM)

其中，gamma是一个可学习的参数，初值为0，其随着自注意力机制的不断学习，该值将逐渐更新到合适的数值；R_C×W×H(HM)表示将HM的空间维度从C×M重塑为C×W×H。

优选地，第一、第二和第三神经网络模型中的每一个神经网络模型都是通过以下过程训练得到的：

(a)获取动态手势数据集，并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。

(b)根据步骤(a)获得的训练集，并使用神经网络模型的损失函数计算神经网络模型的损失值。

(c)根据步骤(b)获得的损失值，并利用反向传播算法对神经网络模型的所有权重参数进行更新和优化，以获得更新后的神经网络模型；

(d)对步骤(c)更新后的神经网络模型进行迭代训练，直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(b)和(c)，直到该网络模型的损失值达到最小为止，从而得到迭代训练后的神经网络模型；

(e)使用步骤(a)获得的数据集中的测试集对步骤(d)迭代训练后的第一神经网络模型进行迭代验证，直到获得的分类精度达到最优为止，从而获得训练好的神经网络模型。

优选地，神经网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵，具体为：

其中，m表示神经网络单次处理的样本个数，n表示步骤(a)的训练集中所包括的动态手势类别数，y_i，j表示第i个样本在第j类上的真实标签，

表示第i个样本在第j类上的预测概率值。

优选地，步骤(c)中，权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值，偏置参数的初始值设为0，反向传播算法是采用Adam-Optimizer作为优化器。

按照本发明的另一方面，提供了一种基于自注意力机制的动态手势识别***，包括：

第一模块，用于获取视频图像序列，对该视频图像序列进行采样，以获取多个网络输入数据，包括RGB模态数据、深度模态数据、以及光流模态数据；

第二模块，用于将第一模块获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中，以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值，并对同一动态手势类别对应的所有预测概率值取平均值，从而获得对应于每个动态手势类别的RGB模态输出结果；

第三模块，用于将第一模块获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中，以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值，并对同一动态手势类别对应的所有预测概率值取平均值，从而获得对应于每个动态手势类别的深度模态输出结果；

第四模块，用于将第一模块获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中，以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值，并对同一动态手势类别对应的所有预测概率值取平均值，从而获得对应于每个动态手势类别的光流模态输出结果；

第五模块，用于将第二模块得到的对应于每个动态手势类别的RGB模态输出结果、第三模块得到的对应于每个动态手势类别的深度模态输出结果、以及第四模块得到的对应于每个动态手势类别的光流模态输出结果进行加权求和，以获得对应于每个动态手势类别的类别预测概率值，将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明由于采用了步骤(1)对获得的视频图像序列进行稀疏采样，再将采样结果送入神经网络模型。相比于将所有的视频图像序列作为网络输入，不仅大大减少了输入数据的冗余信息，而且减少了神经网络的计算量，降低了时间资源、计算资源的消耗。因此能够解决现有方法中存在的时间资源、计算资源的消耗大的问题。

(2)本发明由于采用了步骤(2)、(3)和(4)，在动态手势识别网络模型的构建过程中实现了自注意力机制，同时借助自注意力机制，在网络特征的学习过程中考虑了特征图上全局信息对任意元素的影响，且对任意两元素之间的依赖关系进行了***化建模，突出了特征图的关键部分，抑制了非关键部分。因此解决了现有方法中存在的缺少对手势发生的关键区域的突出以及非关键区域的抑制问题。

(3)本发明由于采用了步骤(5)，利用RGB模态、深度模态以及光流模态来共同描述一个动态手势的发生过程，融合了多个模态的判别信息，增强了算法的鲁棒性，提高了动态手势识别的稳定性。

附图说明

图1是本发明基于自注意力机制的动态手势识别方法的流程示意图；

图2是本发明方法的步骤(1)中获取的多个网络输入数据，其中图2(a)是RGB模态数据，图2(b)是深度模态数据，图2(c)是垂直方向的光流数据，图2(d)是水平方向的光流数据；

图3是本发明方法的步骤(2)中所用的卷积模块层结构示意图；

图4是本发明方法的步骤(2)中所用的输出模块层结构示意图；

图5是本发明方法的步骤(2)中所用的自注意力模块层结构示意图；

图6是本发明方法的步骤(5)的工作示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于自注意力机制的动态手势识别方法，包括以下步骤：

(1)获取视频图像序列，对该视频图像序列进行采样，以获取多个网络输入数据，包括彩色(RGB)模态数据(如图2(a)所示)、深度(Depth)模态数据(如图2(b)所示)、以及光流(Flow)模态数据(如图2(c)和(d)所示)；

具体而言，本步骤首先是将获得的视频图像序列V均匀分成N个视频段[v₁,v₂,…v_N]，从每个视频段v_i中随机选取一帧图片s_i，并获取该帧图片s_i的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据(它们用作后续神经网络模型的输入)，其中N为自然数，其最小值为1，最大值为获得的视频图像序列V中的总帧数，且有i∈[1,N]。

本步骤中，对同一动态手势类别对应的所有预测概率值取平均值，就是将一个动态手势类别对应的所有预测概率值进行求和，然后除以N。

具体而言，本发明的第一神经网络模型架构如下：

第一层是卷积模块层，由卷积层、批归一化(Batch Normalization，简称BN)层、激活函数、池化层按顺序前后串联形成。其中，卷积核尺寸为7*7，卷积步长为1*1，激活函数采用ReLU，池化层采用最大池化。

第二层是卷积模块层(如图3所示)，由卷积层、BN层、激活函数按顺序前后串联形成。其中，卷积核尺寸为1*1，卷积步长为1*1，激活函数采用ReLU。

第三层是卷积模块层，由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中，卷积核尺寸为3*3，卷积步长为1*1，激活函数采用ReLU，池化层采用最大池化。

第四层是自注意力模块层(如图5所示)。自注意力模块层包括多个卷积层与池化层。每个自注意力模块层的输入数据都将经过四路一级卷积分支，获得四个卷积结果。将四路一级卷积分支的卷积结果前后串联获得该模块的输出结果。每路一级卷积分支有着不同的卷积核尺寸或卷积层串联顺序。

第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成；第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成；第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成。第一路一级卷积分支是由一个1*1的卷积层形成，且与四路二级卷积分支分别串联，用于实现自注意力机制。

将二级卷积分支的输入数据表示为x∈R^C×W×H，其中R表示实数域，C、W和H分别表示输入数据的通道数、宽和高。

在四路二级卷积分支中，第一路二级卷积分支不做任何操作，输出数据等于输入数据x∈R^C×W×H，

在第二路二级卷积分支中，输入数据x∈R^C×W×H首先经过一个1*1的卷积层后，通过重塑操作(Reshape)变换为二维矩阵f(x)∈R^C×M，然后该二维矩阵通过转置操作变为f(x)^T。

在第三路二级卷积分支中，输入数据x∈R^C×W×H首先经过一个1*1的卷积层后，通过重塑操作(Reshape)变换为二维矩阵g(x)∈R^C×N；

在第四路二级卷积分支中，输入数据x∈R^C×W×H首先经过一个1*1的卷积层后，通过重塑操作(Reshape)变换为二维矩阵h(x)∈R^C×M；

随后，将归一化结果

进行转置处理，并将转置后的结果

FA＝x+gamma*R_C×W×H(HM)

第五层是自注意力模块层，第五层与第四层具有完全相同的结构，在此不再赘述。

第六层是输出模块层(如图4所示)，其是由池化层、归一化层(Softmax)按顺序前后串联形成。其中，池化层采用平均池化。

本发明第一神经网络模型是通过以下步骤训练获得的：

(2-1)获取动态手势数据集，并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。

在本步骤中，获取的动态手势数据集是例如Sheffield KInect Gesture(SKIG)数据集、ChaLearn LAP Isolated Gesture(IsoGD)数据集。

(2-2)根据步骤(2-1)获得的训练集，并使用第一神经网络模型的损失函数计算第一神经网络模型的损失值。

优选地，该网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵(Softmax cross-entropy)。

(2-3)根据步骤(2-2)获得的损失值，并利用反向传播算法对第一神经网络模型的所有权重参数进行更新和优化，以获得更新后的第一神经网络模型；

具体而言，权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值，偏置参数的初始值设为0；

具体而言，为了加快损失值的下降速度，本步骤中的反向传播算法是采用Adam-Optimizer作为优化器，这是由于该优化器具有动量以及自适应学习率的优势。

(2-4)对步骤(2-3)更新后的第一神经网络模型进行迭代训练，直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(2-2)和(2-3)，直到该网络模型的损失值达到最小为止，从而得到迭代训练后的第一神经网络模型；

第一神经网络模型的损失函数L为：

其中，m表示神经网络单次处理的样本个数，n表示步骤(2-1)的训练集中所包括的动态手势类别数，y_i，j表示第i个样本在第j类上的真实标签，

表示第i个样本在第j类上的预测概率值。

(2-5)使用步骤(2-1)获得的数据集中的测试集对步骤(2-4)迭代训练后的第一神经网络模型进行迭代验证，直到获得的分类精度达到最优为止，从而获得训练好的第一神经网络模型。

具体而言，本发明的第二神经网络模型架构如下：

第一层是卷积模块层，由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中，卷积核尺寸为7*7，卷积步长为1*1，激活函数采用ReLU，池化层采用最大池化。

第四层和第五层都是自注意力模块层，其结构和上述第一神经网络模型中的自注意力模块层完全相同，在此不再赘述。

第六层是输出模块层(如图4所示)，由池化层、归一化层(Softmax)按顺序前后串联形成。其中，池化层采用平均池化。

本发明第二神经网络模型是通过以下步骤训练获得的：

(3-1)获取动态手势数据集，并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。

(3-2)根据步骤(3-1)获得的训练集，并使用第二神经网络模型的损失函数计算第二神经网络模型的损失值。

(3-3)根据步骤(3-2)获得的损失值，并利用反向传播算法对第二神经网络模型的所有权重参数进行更新和优化，以获得更新后的第二神经网络模型；

(3-4)对步骤(3-3)更新后的第二神经网络模型进行迭代训练，直到该第二神经网络模型的损失函数达到最小为止重复迭代步骤(3-2)和(3-3)，直到该网络模型的损失值达到最小为止，从而得到迭代训练后的第二神经网络模型；

第二神经网络模型的损失函数L为：

其中，m表示神经网络单次处理的样本个数，n表示步骤(3-1)的训练集中所包括的动态手势类别数，y_i，j表示第i个样本在第j类上的真实标签，

表示第i个样本在第j类上的预测概率值。

(3-5)使用步骤(3-1)获得的数据集中的测试集对步骤(3-4)迭代训练后的第二神经网络模型进行迭代验证，直到获得的分类精度达到最优为止，从而获得训练好的第二神经网络模型。

具体而言，本发明的第三神经网络模型架构如下：

第六层是输出模块层(如图5所示)，由池化层、归一化层(Softmax)按顺序前后串联形成。其中，池化层采用平均池化。

本发明第三神经网络模型是通过以下步骤训练获得的：

(4-1)获取动态手势数据集，并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。

(4-2)根据步骤(4-1)获得的训练集，并使用第三神经网络模型的损失函数计算第三神经网络模型的损失值。

(4-3)根据步骤(4-2)获得的损失值，并利用反向传播算法对第三神经网络模型的所有权重参数进行更新和优化，以获得更新后的第三神经网络模型；

(4-4)对步骤(4-3)更新后的第三神经网络模型进行迭代训练，直到该第三神经网络模型的损失函数达到最小为止重复迭代步骤(4-2)和(4-3)，直到该第三神经网络模型的损失值达到最小为止，从而得到迭代训练后的第三神经网络模型；

第三神经网络模型的损失函数L为：

其中，m表示神经网络单次处理的样本个数，n表示步骤(4-1)的训练集中所包括的动态手势类别数，y_i，j表示第i个样本在第j类上的真实标签，

表示第i个样本在第j类上的预测概率值。

(4-5)使用步骤(4-1)获得的数据集中的测试集对步骤(4-4)迭代训练后的第三神经网络模型进行迭代验证，直到获得的分类精度达到最优为止，从而获得训练好的第三神经网络模型。

(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和，以获得对应于每个动态手势类别的类别预测概率值(如图6所示)。将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。

具体而言，步骤(5)融合了三种不同模态对同一动态手势的类别预测，其中对三种模态输出结果进行加权求和时，任意两个模态输出结果之间的权重比范围为1:0.1到1:10，优选为1:1。

总而言之，本发明提出了一种基于自注意力机制的动态手势识别算法，该算法沿用了经典的双流(Two-stream)的思想，通过在New inception(即本发明提出的四路一级卷积分支的架构)框架中嵌入自注意力机制来增强特征图上的关键信息，并且利用多模输入策略实现对动态手势更全面、更详细、更高级的描述。

实验结果

本发明实验环境：CPU为2枚Intel Xeon(R)@2.20GHz，GPU为四块NVIDIATitan X12GB，内存为128GB，在ubuntu16.04操作***下，采用pytorch编程实现本文算法。具体的参数设置如下：采样帧数为16，batch_size大小取10，初始学习率取0.01，每迭代20次，学习率下降到10％。

为了说明自注意力机制在本发明中的有效性，我们做了相关的对比试验。“-”表示基于Inception v2且不使用自注意力机制的网络模型，“+”表示本发明中基于Inceptionv2且使用自注意力机制的网络模型，在Sheffield KInect Gesture(SKIG)数据集和ChaLearn LAP Isolated Gesture(IsoGD)数据集上分别微调这两个网络，表1和表2分别给出了SKIG和isoGD上的测试结果。

表1 SKIG测试结果

表2 isoGD测试结果

由表1和表2可知，使用自注意力机制后本发明算法在SKIG数据集的三种模态上的精确度分别提高了7.76％、3.33％和0.36％，在isoGD数据集的三种模态上的精确度分别提高了4.47％、2.87％和0.36％。因此表明了自注意力机制可以增强特征表达的鲁棒性，提高动态手势识别算法的性能。

表3 SKIG测试结果对比

表3给出了本发明在SKIG上的测试结果以及与其它主流算法的对比。从表3中可以看出，在SKIG数据集上，本发明达到了最优的识别效果。M3D+LSTM、R3DCNN、MRNN分别利用3维卷积神经网络或RNN或LSTM从序列中直接提取空间时序特征，做动态手势识别，它们的性能都略低于本发明算法，证明了本发明基于注意力机制做动态手势识别的有效性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力机制的动态手势识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的动态手势识别方法，其特征在于，步骤(1)具体为，首先将获得的视频图像序列V均匀分成N个视频段[v₁，v₂，...v_N]，从每个视频段v_i中随机选取一帧图片s_i，并获取该帧图片s_i的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据，其中N为自然数，其最小值为1，最大值为获得的视频图像序列V中的总帧数，且有i∈[1，N]。

3.根据权利要求1所述的动态手势识别方法，其特征在于，第一、第二和第三神经网络模型的结构均为：

第四层是自注意力模块层，包括多个卷积层与池化层；

第六层是输出模块层，其是由池化层、归一化层按顺序前后串联形成。

4.根据权利要求3所述的动态手势识别方法，其特征在于，

每个自注意力模块层包括四路一级卷积分支；

5.根据权利要求4所述的动态手势识别方法，其特征在于，

第一路二级卷积分支的输出数据等于输入数据x∈R^C×W×H，其中C、W和H分别表示输入数据的通道数、宽和高，

随后，将归一化结果

进行转置处理，并将转置后的结果

FA＝x+gamma*R_C×W×H(HM)

6.根据权利要求1所述的动态手势识别方法，其特征在于，第一、第二和第三神经网络模型中的每一个神经网络模型都是通过以下过程训练得到的：

(a)获取动态手势数据集，并将该动态手势数据集数据按4∶1的比例划分为训练集与测试集。

7.根据权利要求6所述的动态手势识别方法，其特征在于，神经网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵，具体为：

表示第i个样本在第j类上的预测概率值。

8.根据权利要求7所述的动态手势识别方法，其特征在于，步骤(c)中，权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值，偏置参数的初始值设为0，反向传播算法是采用Adam-Optimizer作为优化器。

9.一种基于自注意力机制的动态手势识别***，其特征在于，包括：

第二模块，用于将第一模块获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中，以获得对应于每个RGB模态数据的动态手势类别的预测概率值，并对所有预测概率值取平均值，从而获得RGB模态输出结果；

第三模块，用于将第一模块获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中，以获得对应于每个深度模态数据的动态手势类别的预测概率值，并对所有预测概率值取平均值，从而获得深度模态输出结果；

第四模块，用于将第一模块获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中，以获得对应于每个光流模态数据的动态手势类别的预测概率值，并对所有预测概率值取平均值，从而获得光流模态输出结果；

第五模块，用于将第二模块得到的RGB模态输出结果、第三模块得到的深度模态输出结果、以及第四模块得到的光流模态输出结果进行加权求和，以获得最终的类别预测概率值。以概率值为依据，将最大概率值所对应的动态手势类别作为最终的输出结果。