CN111209861A - 一种基于深度学习的动态手势动作识别方法 - Google Patents

一种基于深度学习的动态手势动作识别方法 Download PDF

Info

Publication number
CN111209861A
CN111209861A CN202010011805.1A CN202010011805A CN111209861A CN 111209861 A CN111209861 A CN 111209861A CN 202010011805 A CN202010011805 A CN 202010011805A CN 111209861 A CN111209861 A CN 111209861A
Authority
CN
China
Prior art keywords
gesture
joint
probability
joint point
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010011805.1A
Other languages
English (en)
Other versions
CN111209861B (zh
Inventor
张烨
陈威慧
樊一超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010011805.1A priority Critical patent/CN111209861B/zh
Publication of CN111209861A publication Critical patent/CN111209861A/zh
Application granted granted Critical
Publication of CN111209861B publication Critical patent/CN111209861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的动态手势动作识别方法,包括:步骤一,构建手势关节点坐标识别网络,利用改进的CPM模型对手势视频进行处理,输出单视点下的手势关节点坐标;步骤二,采集单视点视频数据;以单视点的形式对手势视频样本进行采集,即用一个普通的网络摄像头从多个角度捕捉用户的手势数据,其中包括:(2.1)定义基本手势元素;(2.2)选取手势关节点;(3)准备训练样本数据集;步骤三,输出手势高斯热图和手势关节点坐标;步骤四,构造手势序列识别网络,网络模型构造的具体流程如下:(4.1)定义激活函数;(4.2)选择损失函数;(4.3)建立模型;最后,将步骤三得到的关节点坐标输入标准手势序列识别网络,得到手势动作序列。

Description

一种基于深度学习的动态手势动作识别方法
技术领域
本发明涉及一种基于深度学习的动态手势动作识别方法。
技术背景
在计算机视觉的发展浪潮下,利用卷积神经网络对人体手势动作进行识别已经成为新的研究方向。在手势动作识别方面,基于卷积神经网络的方法与传统方法相比,具有成本和耗时更低、识别效率更高的优点,省下了手势分割、人工提取特征和模板匹配的步骤,降低了模型的复杂度。但目前的手势识别方法仅仅是识别静态手势或动态手势是属于哪一类手势,属于对单个手势进行识别,没有对连续且有时间上的重叠的动态手势进行识别,究其原因就是因为没有一套针对组合的连续动作的识别框架,这也就导致此类手势识别无法在实际生产应用中发挥作用。
发明内容
本发明要克服现有技术的上述缺点,提出一种基于计算机视觉的手势动作识别方法。
本发明首先对CPM模型进行改进,以构建手势关节点坐标识别网络模型,然后在单视点下采集手势视频,接着将采集到的视频传入标准手势关节点坐标识别网络,得到手势高斯热图和关节点坐标。再把关节点坐标输入标准手势序列识别网络,得到手势动作序列,最终实现对连续动作的识别。
为实现上述目的,本发明采用以下技术方案:
一种基于深度学习的动态手势动作识别方法,包括如下步骤:
步骤一,构建手势关节点坐标识别网络;
本发明利用改进的CPM模型对手势视频进行处理,输出单视点下的手势关节点坐标,其实现流程如下:
(1)选择手势关节点估计的基础网络模型;
本发明选择VGG-13作为手势关节点估计的基础网络模型。
(2)设置感受野的;
感受野的大小与卷积或池化的滑动窗口有关,将两者看成是一个映射,将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内,表示为fk s,其中s表示滑动窗口的步长,k表示卷积核或池化核的大小,其映射关系为:
Figure BDA0002356368640000011
其中:xn,xn+1为第n层和第n+1层的特征图。本发明的基本网络结构是基于VGG-13的,对于VGG-13的第一个部分,包含了两个卷积和一个池化,这三个结构形成了一个级联,因此映射过程在网络中多次重复,形成一个多级映射。各环节的感受野与卷积核或池化核的参数如表1所示:
表1级联下各层特征图对应的感受野和卷积核参数
Figure BDA0002356368640000021
记RFn为第n个特征图的感受野,Kn为第n个卷积层的卷积核或池化核的大小,Sn为Kn的步长,由表1中的感受野规律,可以归纳推导出感受野与步长以及卷积核大小的关系。
在第一层卷积后特征图的感受野大小为卷积核的大小:
RF1=K1 (2)
当步长为1时,第n≥2个特征图的感受野大小为:
RFn=RFn-1+(Kn-1) (3)
对于步长不为1的情况,有n≥2:
RFn=RFn-1+(Kn-1)×Sn (4)
(3)提取特征;
本发明利用基础网络模型VGG-13对图像进行特征提取。
首先定义第p个关节在图像像素中的位置坐标为Yp,则有,
Figure BDA0002356368640000022
其中集合Z代表图像中所有像素的位置。
设有P个需要预测的关节点,目标是得到所有P个关节点坐标Y:
Y=(Y1,Y2,…,Yp) (6)
由以上关系可知,Y是Z的子集。
接着定义一个多阶段的预测分类器gt(x),用于预测每个阶段中每个关节点所在位置。在每个阶段t∈{1,2,…T},预测分类器都会将图像中的一点z赋给Yp,并在每个阶段都会给每个手势关节点生成一个热图,具体的表达式为:
Figure BDA0002356368640000023
当分类器在第一阶段预测手势关节点位置时,会产生一个热图和相对应的手势关节点置信得分:
Figure BDA0002356368640000024
其中b1 p(Yp=z)是分类器在第一阶段预测第p个手势关节点在z位置处时的手势关节点置信得分。
对于接下来的每一个阶段,第p个手势关节点在z位置处的置信得分可以表示为:
Figure BDA0002356368640000031
其中,u,v代表图像中某一处位置z的坐标值。
在后续阶段t(t≥2),基于前一阶段的热图和手势关节点的置信得分,继续为每个手势关节点赋更加精确的位置坐标z,这个更加精确的位置z是基于第一阶段分类器所提取的图像特征和前一阶段的分类器所提取到的图片上下文信息共同决定的,同样的,后续每个阶段的预测分类器仍然产生属于每个阶段的手势关节点热图对应的手势关节点置信得分:
Figure BDA0002356368640000032
其中,ψt(z,bt-1)表示一种置信得分与图像上下文信息之间的映射,X′z表示上一阶段在位置z周边所提取到的图像特征。
在以上过程的不断重复下,每个阶段都基于前一阶段的图像上下文信息和第一阶段提取到的图像特征对第p个手势关节点的位置做出修正,这种逐渐微调的过程使得模型最终估计出较为准确的手势关节点坐标位置。
步骤二,采集单视点视频数据;
本发明以单视点的形式对手势视频样本进行采集,即用一个普通的网络摄像头从多个角度捕捉用户的手势数据,其中:
(1)定义基本手势元素;
本发明重新定义了对视觉识别的基本动作元素,并将确定的具体可识别的基本动作元素,称为基本手势元素,并对其符号进行了定义。
(2)选取手势关节点;
本发明通过对手势关节点进行识别,将识别的关节点按照顺序进行连线、标号,形成一个手姿势的骨架,通过对手骨架姿势的识别实现对手的姿势的识别,且将此过程定义为手势估计。手指弯曲时,手指通常分为三小段,使手指呈现不同的弯曲程度,这三段之间的连接点恰好是手指的关节点,因此,本发明选取每个手指的指尖部位的点作为手指的起始关节点,然后连接各自手指上三小段之间上的关节点,接着每根手指上的末尾关节点都与手腕处的一个关节点相连,选定了模型的关节点之后,将模型的关节点按照一定的顺序标号、连接,以形成手势骨架。
(3)准备训练样本数据集;
基于卷积神经网络对图像或视频内容识别的基础是有标准的数据集。因此本发明在单视点下对基本手势元素进行视频采集,以建立基本手势元素数据库。
同时,对于已有的一个大数据集,通常将其划分为训练集、验证集、测试集。三个子集两两之间无交集,三者的并集为全集,由于来自同一个数据集,因此三个子集是独立同分布的。验证集和测试集均用于测试模型的准确率,且两者均与模型训练时的梯度下降过程无关,但由于验证集的参与,其验证结果调节了模型迭代数和学习率,即模型有了一个参数调整的过程,因此认为验证集参与了模型的训练。
步骤三,输出手势高斯热图和手势关节点坐标;
本发明采用热图的形式对手势关节点的真实值进行标注,同时也采用热图作为模型的输出,其中生成的手势关节点热图是以图像中关节点所在像素区域的某一个点为中心,以具体的像素点个数为半径,画出一个圆域,将关节点所在的区域划分出来,作为关节点出现的概率区域,在该区域的中心颜色最深,表示关节点在这个位置的概率最大,而后区域的颜色由中心向外逐渐变浅。这种颜色会在中心达到尖峰,四周逐渐变浅的图像形式与高斯函数图像有着相似之处,因此可利用高斯函数来生成各个关节点区域的热图。本发明中热图的坐标是(x,y)的形式,即有二维高斯函数的公式:
Figure BDA0002356368640000041
式中,x0,y0表示手势关节点的坐标真实值;x,y表示手势关节点热图区域像素点的坐标值;
Figure BDA0002356368640000042
表示二维高斯函数的幅度值;σ2表示x,y的标准差。
对于手势关节热图的概率区域大小,本发明将其定义为半径为1的圆域,其中对于二维高斯函数的幅度A给定值为1,σ给定值为1.5,则生成一个二维高斯函数的分布图像。
在原图片的基础上生成二维高斯函数分布形态的热点图,该热图基于手势关节点区域的中心坐标,生成一个呈高斯分布的概率区域,在这个区域的中心处的概率值最大,也就是二维高斯函数的尖峰中心点,越向四周扩散,概率值越小。以概率值最大的尖峰点为中心的高斯概率区域中,所有点的总和是超过1的,但在这个概率区域中,所有像素点位置出现手势关节点的概率总和应该为1,为此,对该区域内所有的像素点的函数值进行加和,将每一个像素点对应的函数值除以像素点函数值的总和,以此保证所有点的概率和为1,处理方式如下所示:
Figure BDA0002356368640000044
式中:p(x,y)表示处理后的像素点存在关节点的概率大小;f(x,y)表示概率区域内的像素点对应的二维高斯函数值;Σf(x,y)表示所有像素点的函数值的总和。
在本发明中,将这些基于二维高斯函数生成的热图称为高斯热图,在模型的每一个阶段,都会输出所有关节点的高斯热图,即每一个关节点对应一张高斯热图。
步骤四,构造手势序列识别网络;
网络模型构造的具体流程如下:
(1)定义激活函数;
本发明涉及的循环神经网络的层数并不多,在网络层次不深的情况下梯度消失的问题相对较小,因此在循环神经网络中采用Tanh作为激活函数。
Tanh激活函数是双曲正切函数,Tanh及其导数的表达式如下所示:
Figure BDA0002356368640000043
Figure BDA0002356368640000051
(2)选择损失函数;
本发明在网络的最后一层需要输出基本手势元素的类别,采用多分类的Softmax损失函数计算出输入的视频中的手势分别属于每个类别的概率,最后模型输出对该视频中手势的预测结果为每个类别中概率最大的那个类别。
假设x是循环神经网络输入到Softmax层的一组特征向量,W和b是Softmax的参数,则Softmax的第一步是对每个类别进行打分,计算各类别的分值Logit:
Logit=WTx+b (15)
接着,用Softmax将每个类别的分值转化为各自的概率值:
Figure BDA0002356368640000052
其中,i表示第i个手势类别,ei表示第i个手势的分值。
至此模型输出了每个手势类别的概率分布,这个概率分布是一个预测值,将其称为q(x),而每个手势还带有一个实际标签,也就是一个真正的概率分布,称其为p(x)。由于Softmax函数又称为交叉熵损失函数,而交叉熵描述的是两个概率分布之间的距离问题,其可以定义为:
H(p,q)=-Σp(x)logq(x) (22)
假设p(x)=(A,B,C),q(x)=(u,v,w),且p(x)是真实值,q(x)是预测值,则通过q(x)来表示p(x)的交叉熵为:
H((A,B,C),(u,v,w))=-(Alogu+Blogv+Clogw) (23)
当q(x)和p(x)的位置互换时,两者的交叉熵是不同。交叉熵是通过概率来衡量一个事件的出现可能性的,一个事件出现的可能性越大,这个事件包含的信息量越小,即熵值越小,因此当预测的概率分布q(x)与真实值p(x)之间越靠近,两者的交叉熵就越小,意味着模型的输出与真实值就越接近,模型的预测越准确。
(3)建立模型;
在模型中X=(x1,x2,x3,...,xT)是按照时间序列展开的视频帧,这些时序帧作为循环神经网络的输入,每一帧中包含的信息是每个手势的关节点坐标值,时间序列的长度设为T。第一个隐藏层的隐状态为H=(h1 (1),h2 (1),...,hT (1)),则对第一个隐藏层的隐状态,有:
Figure BDA0002356368640000053
其中,第一个隐藏层隐的第一个序列的隐状态为:
Figure BDA0002356368640000054
对于第二个隐藏层,其输入由前一个时刻的隐状态和上一个隐藏中同样处于当前时刻的隐状态的输入共同决定,则第二个隐藏层的隐状态可以表示为:
Figure BDA0002356368640000061
其中,第二个隐藏层的首个序列的隐状态为:
Figure BDA0002356368640000062
对于最后的输出为每种手势的预测分类结果,Y=(Y1,Y2,Y3,Y4,…,Yn),有:
Yi=Softmax(VhT+c) (28)
其中i=(1,2,3,4,…,n),U、W、V均为参数矩阵,用于对输入和隐藏层的隐状态进行矩阵变换,b、c均为偏置,所有的参数是在网络的各个阶段是共享的。
最后,将步骤三得到的关节点坐标输入标准手势序列识别网络,就可以得到手势动作序列。
本发明的优点是:
本发明基于计算机视觉技术,提出了一种融合循环神经网络的手势识别算法,对生产过程中员工的手势动作进行识别。其突出特点是:针对实际生产中连续的复杂动作难以通过计算机视觉技术识别的问题,对CPM模型进行改进,建立手势关节点坐标识别网络模型来获取单视点下采集的手势视频样本的手势关节点坐标,并将其输入校正完毕的标准手势序列识别网络,得到手势动作序列,实现对连续动作的识别。
附图说明
图1是本发明的VGG-13的模型结构;
图2是本发明的选取的21个手势关节点示意图;
图3是本发明的手势关节点标号与骨架示意图;
图4a~图4e是本发明的5种基本手势元素视频样本的截图;其中图4a是空手移动,图4b是释放或放置,图4c是旋转,图4d是载荷移动,图4e是抓取;
图5是本发明的二维高斯函数分布图;
图6是本发明的Tanh激活函数及其导函数分布图;
图7是本发明的循环神经网络结构示意图;
图8是本发明的五个手势类别的循环神经网络结构示意图;
图9是本发明的最小化损失函数的梯度下降过程;
图10是本发明的单视点下模型对五种基本手势元素识别的准确率变化情况;
图11是本发明基于深度学习的动态手势动作识别方法的流程图。
具体实施方式
下面结合附图,进一步说明本发明的技术方案。
基于以上问题,本发明提出了一种基于计算机视觉的手势动作识别方法,首先对CPM模型进行改进,以构建手势关节点坐标识别网络模型,然后在单视点下采集手势视频,接着将采集到的视频传入标准手势关节点坐标识别网络,得到手势高斯热图和关节点坐标。再把关节点坐标输入标准手势序列识别网络,得到手势动作序列,最终实现对连续动作的识别。
为了验证本发明提出的方法的可行性和优越性,现选取五种基本手势进行验证及测试,包括如下步骤:
步骤一,构建手势关节点坐标识别网络;
本发明利用改进的CPM模型对手势视频进行处理,输出单视点下的手势关节点坐标,其实现流程如下:
(1)选择手势关节点估计的基础网络模型;
本发明选择VGG-13作为手势关节点估计的基础网络模型,VGG-13由5组卷积组、5个池化组、3个全连接和1个softmax分类层构成。
(2)设置感受野;
感受野的大小与卷积或池化的滑动窗口有关,将两者看成是一个映射,将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内,表示为fks,其中s表示滑动窗口的步长,k表示卷积核或池化核的大小,其映射关系为:
Figure BDA0002356368640000071
其中:xn,xn+1为第n层和第n+1层的特征图。
本发明的基本网络结构是基于VGG-13的,对于VGG-13的第一个部分,包含了两个卷积和一个池化,这三个结构形成了一个级联,因此映射过程在网络中多次重复,形成一个多级映射。考虑一个原始图像的6×6区域,对于第一种设计过程,卷积的层数是两层,每一层的卷积核的大小都是3×3,步长都为1,池化层是1层,池化核大小为2×2,步长为2。对于第一个卷积层输出的特征图,由于卷积核的大小为3×3,则特征图中的一个像素点在原始图像上的感受野为3×3。对于第二个卷积层输出的特征图,该层卷积核的大小仍为3×3,则第二个特征图上的像素点在第一个特征图上的感受野同样为3×3,此时第一个特征图上的3×3区域需要反推回原始图像,根据第一层与原图像的感受野关系,可以从图像上直观推出第一层特征图的3×3区域对应原图像的5×5区域,即第二个卷积层输出的特征图在原始图像上的感受野是5×5。对于最后一个池化层的特征图,经过池化之后输出的是单个的像素点,则该特征图在第二个特征图上对应的感受野为2×2,同理,此时该区域对应第一个特征图上的感受野是4×4,再次反推,则在原图像上对应的感受野应该是6×6,这也就意味着最后一个池化层输出的特征图对应在原图像的感受野就是6×6。各环节的感受野与卷积核或池化核的参数如表1所示,且原始图像对自己的感受野是1×1:
表1级联下各层特征图对应的感受野和卷积核参数
Figure BDA0002356368640000072
记RFn为第n个特征图的感受野,Kn为第n个卷积层的卷积核或池化核的大小,Sn为Kn的步长,由表1中的感受野规律,可以归纳推导出感受野与步长以及卷积核大小的关系。
在第一层卷积后特征图的感受野大小为卷积核的大小:
RF1=K1 (2)
当步长为1时,第n≥2个特征图的感受野大小为:
RFn=RFn-1+(Kn-1) (3)
对于步长不为1的情况,有n≥2:
RFn=RFn-1+(Kn-1)×Sn (4)
若将这个级联结构的设计改成单个卷积层,也能达到等效的感受野,此时的卷积核的大小为6×6,步长为1,根据公式(2),第一层卷积后输出特征图的感受野等于卷积核的大小,即6×6。而本发明选择VGG-13作为基础网络结构,是因为VGG-13对于感受野结构的利用,即用两个卷积和一个池化的级联结构代替一个6×6的卷积,有以下好处:1)减小网络参数;2)加强网络的非线性结构。
(3)提取特征;
本发明利用基础网络模型VGG-13对图像进行特征提取。
首先定义第p个关节在图像像素中的位置坐标为Yp,则有,
Figure BDA0002356368640000081
其中集合Z代表图像中所有像素的位置。
设有P个需要预测的关节点,目标是得到所有P个关节点坐标Y:
Y=(Y1,Y2,…,Yp) (6)
由以上关系可知,Y是Z的子集。
接着定义一个多阶段的预测分类器gt(x),用于预测每个阶段中每个关节点所在位置。在每个阶段t∈{1,2,…T},预测分类器都会将图像中的一点z赋给Yp,并在每个阶段都会给每个手势关节点生成一个热图,具体的表达式为:
Figure BDA0002356368640000082
当分类器在第一阶段预测手势关节点位置时,会产生一个热图和相对应的手势关节点置信得分:
Figure BDA0002356368640000083
其中b1 p(Yp=z)是分类器在第一阶段预测第p个手势关节点在z位置处时的手势关节点置信得分。
对于接下来的每一个阶段,第p个手势关节点在z位置处的置信得分可以表示为:
Figure BDA0002356368640000084
其中,u,v代表图像中某一处位置z的坐标值。
在后续阶段t(t≥2),基于前一阶段的热图和手势关节点的置信得分,继续为每个手势关节点赋更加精确的位置坐标z,这个更加精确的位置z是基于第一阶段分类器所提取的图像特征和前一阶段的分类器所提取到的图片上下文信息共同决定的,同样的,后续每个阶段的预测分类器仍然产生属于每个阶段的手势关节点热图对应的手势关节点置信得分:
Figure BDA0002356368640000091
其中,ψt(z,bt-1)表示一种置信得分与图像上下文信息之间的映射,Xz′表示上一阶段在位置z周边所提取到的图像特征。
在以上过程的不断重复下,每个阶段都基于前一阶段的图像上下文信息和第一阶段提取到的图像特征对第p个手势关节点的位置做出修正,这种逐渐微调的过程使得模型最终估计出较为准确的手势关节点坐标位置。
步骤二,采集单视点视频数据;
本发明以单视点的形式对手势视频样本进行采集,即用一个普通的网络摄像头从多个角度捕捉用户的手势数据,其中:
(1)定义基本手势元素;
本发明对视觉识别的基本动作元素在模特法、十八种动素等基础上进行了调整,重新定义了动作识别元素,确定了5项具体可识别的基本动作元素,并称之为基本手势元素,即空手移动、载荷移动、旋转、抓取、释放或放置,并对其符号进行了定义,分别表示Empty Move、With Move、Turn、Grasp、Release,具体如表2所示:
表2基本手势元素表
Figure BDA0002356368640000092
(2)选取手势关节点;
本发明通过对手势关节点进行识别,将识别的关节点按照顺序进行连线,形成一个手姿势的骨架,通过对骨架姿势的识别实现对手的姿势的识别,且将该过程定义为手势估计。
手指弯曲时,可以看到手指分为三小段,使手指呈现不同的弯曲程度,这三段之间的连接点恰好是手指的关节点,因此,本发明选取每个手指的指尖部位的点作为手指的起始关节点,然后连接各自手指上三小段之间上的关节点,最后,每根手指上的末尾关节点都与手腕处的一个关节点相连,形成一个手的姿势的骨架,即共选取21个手势关节点。
选定了模型的关节点之后,将模型的关节点按照一定的顺序标号、连接,以形成手势骨架。手腕处的关节点是每根手指最终的连接点,因此将此关节点作为手势关节点的起始点,标为1号。接着按照关节点的空间距离,从下往上依次对大拇指的四个关节点标为2、3、4、5,即指尖处为每根手指的末端,同样地,按从下往上的顺序以对每根手指进行标号。
(3)准备训练样本数据集;
基于卷积神经网络对图像或视频内容识别的基础是有标准的数据集。由于本发明需要识别的是特定5种基本手势元素,因此建立一个以5种基本手势元素为标准的短视频手势元素样本数据集。
在单视点下对5种基本手势元素进行视频采集,每种手势采集500个1到2秒的短视频,由20个不同的人完成,每种手势每人拍摄50个短视频,总计5000个手势短视频,以建立基本手势元素数据库。
对于已有的一个大数据集,若想要完成一个有监督学习的模型的训练并对其准确率进行测试,通常会按照一定的比例,如8:1:1,将大数据集划分为训练集、验证集、测试集。三个子集两两之间无交集,三者的并集为全集,由于来自同一个数据集,因此三个子集是独立同分布的。验证集和测试集虽然都用于测试模型的准确率,且两者均与模型训练时的梯度下降过程无关,但由于验证集的参与,其验证结果调节了模型迭代数和学习率,即模型有了一个参数调整的过程,因此认为验证集参与了模型的训练。
基于以上数据集的划分规则,在保证样本是独立同分布的情况下,通过均匀随机抽样的方式,将发明的5000个视频样本按8:1:1划分为训练集、验证集、测试集。划分后的训练集、验证集、测试集的样本组成如下表3,表4,表5所示。
表3基本手势元素训练集样本组成
Figure BDA0002356368640000101
表4基本手势元素验证集样本组成
Figure BDA0002356368640000102
表5基本手势元素测试集样本组成
Figure BDA0002356368640000111
步骤三,输出手势高斯热图和手势关节点坐标;
本发明采用热图的形式对手势关节点的真实值进行标注,同时也采用热图作为模型的输出,其中生成的手势关节点热图是以图像中关节点所在像素区域的某一个点为中心,以具体的像素点个数为半径,画出一个圆域,将关节点所在的区域划分出来,作为关节点出现的概率区域,在该区域的中心颜色最深,表示关节点在这个位置的概率最大,而后区域的颜色由中心向外逐渐变浅。这种颜色会在中心达到尖峰,四周逐渐变浅的图像形式与高斯函数图像有着相似之处,因此可利用高斯函数来生成各个关节点区域的热图。本发明中热图的坐标是(x,y)的形式,即有二维高斯函数的公式:
Figure BDA0002356368640000112
式中,x0,y0表示手势关节点的坐标真实值;x,y表示手势关节点热图区域像素点的坐标值;
Figure BDA0002356368640000113
表示二维高斯函数的幅度值;σ2表示x,y的标准差。
对于手势关节热图的概率区域大小,本发明将其定义为半径为1的圆域,其中对于二维高斯函数的幅度A给定值为1,σ给定值为1.5,则生成一个二维高斯函数的分布图像。
在原图片的基础上生成二维高斯函数分布形态的热点图,该热图基于手势关节点区域的中心坐标,生成一个呈高斯分布的概率区域,在这个区域的中心处的概率值最大,也就是二维高斯函数的尖峰中心点,越向四周扩散,概率值越小。以概率值最大的尖峰点为中心的高斯概率区域中,所有点的总和是超过1的,但在这个概率区域中,所有像素点位置出现手势关节点的概率总和应该为1,为此,对该区域内所有的像素点的函数值进行加和,将每一个像素点对应的函数值除以像素点函数值的总和,以此保证所有点的概率和为1,处理方式如下所示:
Figure BDA0002356368640000114
式中:p(x,y)表示处理后的像素点存在关节点的概率大小;f(x,y)表示概率区域内的像素点对应的二维高斯函数值;Σf(x,y)表示所有像素点的函数值的总和。
在本发明中,将这些基于二维高斯函数生成的热图称为高斯热图,在模型的每一个阶段,都会输出所有关节点的高斯热图,即每一个关节点对应一张高斯热图。
步骤四,构造手势序列识别网络;
网络模型构造的具体流程如下:
(1)定义激活函数;
本发明涉及的循环神经网络的层数并不多,在网络层次不深的情况下梯度消失的问题相对较小,因此在循环神经网络中采用Tanh作为激活函数。
Tanh激活函数是双曲正切函数,Tanh及其导数的表达式如下所示:
Figure BDA0002356368640000121
Figure BDA0002356368640000122
(2)选择损失函数;
本发明在网络的最后一层需要输出基本手势元素的类别,采用多分类的Softmax损失函数计算出输入的视频中的手势分别属于每个类别的概率,最后模型输出对该视频中手势的预测结果为每个类别中概率最大的那个类别。
假设x是循环神经网络输入到Softmax层的一组特征向量,W和b是Softmax的参数,则Softmax的第一步是对每个类别进行打分,计算各类别的分值Logit:
Logit=WTx+b (15)
接下来,Softmax将每个类别的分数转化为各自的概率值,假设五个手势类别的分值分别为(c,d,e,f,g),则Softmax将其转为概率值的公式可以表达为:
Figure BDA0002356368640000123
其中,i表示第i个手势类别,ei表示第i个手势的分值。则五个手势类别的概率可以表示为:
Figure BDA0002356368640000124
Figure BDA0002356368640000125
Figure BDA0002356368640000126
Figure BDA0002356368640000127
Figure BDA0002356368640000128
至此模型输出了五个手势类别的概率分布,这个概率分布是一个预测值,将其称为q(x),而该手势还带有一个实际标签,也就是一个真正的概率分布,称其为p(x)。由于Softmax函数又称为交叉熵损失函数,而交叉熵描述的是两个概率分布之间的距离问题,其可以定义为:
H(p,q)=-∑p(x)logq(x) (22)
假设p(x)=(A,B,C),q(x)=(u,v,w),且p(x)是真实值,q(x)是预测值,则通过q(x)来表示p(x)的交叉熵为:
H((A,B,C),(u,v,w))=-(Alogu+Blogv+Clogw) (23)
当q(x)和p(x)的位置互换时,两者的交叉熵是不同。交叉熵是通过概率来衡量一个事件的出现可能性的,一个事件出现的可能性越大,这个事件包含的信息量越小,即熵值越小,因此当预测的概率分布q(x)与真实值p(x)之间越靠近,两者的交叉熵就越小,意味着模型的输出与真实值就越接近,模型的预测越准确。
(3)建立模型;
在模型中X=(x1,x2,x3,...,xT)是按照时间序列展开的视频帧,这些时序帧作为循环神经网络的输入,每一帧中包含的信息是每个手势的关节点坐标值,时间序列的长度设为T。第一个隐藏层的隐状态为H=(h1 (1),h2 (1),...,hT (1)),则对第一个隐藏层的隐状态,有:
Figure BDA0002356368640000131
其中,第一个隐藏层隐的第一个序列的隐状态为:
Figure BDA0002356368640000132
对于第二个隐藏层,其输入由前一个时刻的隐状态和上一个隐藏中同样处于当前时刻的隐状态的输入共同决定,则第二个隐藏层的隐状态可以表示为:
Figure BDA0002356368640000133
其中,第二个隐藏层的首个序列的隐状态为:
Figure BDA0002356368640000134
对于最后的输出为五种手势的预测分类结果,Y=(Y1,Y2,Y3,Y4,Y5),有:
Yi=Softmax(VhT+c) (28)
其中i=(1,2,3,4,5),U、W、V均为参数矩阵,用于对输入和隐藏层的隐状态进行矩阵变换,b、c均为偏置,所有的参数是在网络的各个阶段是共享的。
最后,将步骤三得到的关节点坐标输入标准手势序列识别网络,就可以得到手势动作序列。
(4)基于梯度下降法的模型更新;
神经网络利用梯度下降算法,将输出层的损失函数反向传播回网络,求得参数对损失的贡献率,以此实现对网络中的参数进行逐层的更新。梯度即微分中的导数,实际的模型中损失函数的参数是多元的,因此需要对多元函数的参数求偏导数,梯度的定义为:
Figure BDA0002356368640000141
对于最小化优化问题,梯度下降法的原理是损失函数J(θ12,…,θn)沿着其中一个参数梯度下降得最快的方向前进一个步长,损失函数的值下降得最快,这里的步长又称为学习率,则参数的更新过程可以表示为以下过程:
1)选择一个梯度下降的方向作为最小化损失函数的方向。被选择的最快的梯度下降方向为某一个参数的梯度最大方向:
Figure BDA0002356368640000142
2)选择梯度下降的步长,即学习速率η。
3)对权值进行调整和更新:
θi←θi-η·ΔθJ(θi) (31)
梯度按照以上过程逐层向前传播,形成一个链式的求导过程,每一次各层参数都按照以上三个步骤进行更新,直至模型训练完毕,找到最优解。
(5)训练模型;
本发明输入的是视频序列,视频序列是按照时间顺序排列的帧序列,因此每一个状态下的输入是每一时刻输入的视频帧。对于时间长度为T的帧序列,在每一个时刻都有损失函数L(t),则所有时刻的损失之和构成总的损失函数为:
Figure BDA0002356368640000143
紧接着对输入视频进行预测分类,使其与给定的真实标签尽可能一致,因此是一个将预测值与真实值尽量靠近的过程,即最小化损失函数。为了达到最小化损失函数的目的,就要对网络中的参数进行更新。每一个时刻序列的输出为o(t),损失L(t)是由o(t)经过Softmax函数转换而来,因此在损失函数的梯度反向传播的过程中,首先需要对输出o(t)中包含的参数V,c求梯度,分别为:
Figure BDA0002356368640000144
Figure BDA0002356368640000145
对于单个序列上的损失函数只需对这个时刻上的参数V,c求梯度,而参数W,U,b的梯度都与隐藏层的梯度有关,从循环神经网络的结构可以看出,t时刻隐藏层的梯度不仅与当前这个时刻的序列的损失函数有关,还与t+1时刻的损失函数有关。则首先定义t时刻隐藏层的梯度,记为δ(t):
Figure BDA0002356368640000151
则由于t时刻隐藏层的梯度有两个时刻损失函数共同决定的原因,其真实的梯度为t时刻损失函数对隐藏层的偏导数与t+1时刻损失函数对隐藏层的偏导数之和,即:
Figure BDA0002356368640000152
对于最后一个帧序列T,由于该序列已经处于末尾阶段。其隐藏层的梯度不再受到下一个时刻的损失函数的梯度影响,则末尾序列的梯度可以表示为:
Figure BDA0002356368640000153
接下来就可以对参数W、U、b进行梯度的计算了,对于W,有梯度:
Figure BDA0002356368640000154
对于U,其梯度为:
Figure BDA0002356368640000155
对于b,有梯度:
Figure BDA0002356368640000156
经过以上反向传播过程的反复进行,参数值不断得到更新,达到损失函数最优化的目的,最终使模型收敛,达到一个较好的手势分类准确率。
(6)分析实验结果;
本发明的实验开发环境如下表6和表7所示,表6列出了实验电脑的硬件环境,表7列出了实验的开发环境,包括开发语言、开发框架等具体内容,表8列出了模型的参数。
表6实验电脑配置
Figure BDA0002356368640000157
表7实验开发环境
Figure BDA0002356368640000161
表8训练参数
Figure BDA0002356368640000162
对单视点下采集到的视频样本进行训练,将单视点下的视频数据按照上文提到的训练集、验证集、测试集8:1:1的比例进行划分,在本发明中,5种手势样本的标签设置为:空手移动、载荷移动、旋转、抓取、释放,然后按照表8设置的参数进行模型的训练,初始化学习率为0.001,学习衰减率为0.94,运用梯度下降法进行反向传播训练,随着训练迭代次数的增加,模型训练后的参数越来越接近真实情况,此时学习率会衰减,衰减后最小的学习率为0.0001。训练时所读取的视频帧的大小为408×720,视频长度在1~2秒之间,因此每次读取的视频帧的长度不定,每完成一步迭代之后会对损失函数的值进行一次输出。随着训练的进行,损失函数会不断下降,模型的准确率会不断上升,然后趋于稳定,最终达到收敛。
本发明的优点是:
本发明基于计算机视觉技术,提出了一种融合循环神经网络的手势识别算法,对生产过程中员工的手势动作进行识别。其突出特点是:针对实际生产中连续的复杂动作难以通过计算机视觉技术识别的问题,对CPM模型进行改进,建立手势关节点坐标识别网络模型来获取单视点下采集的手势视频样本的手势关节点坐标,并将其输入校正完毕的标准手势序列识别网络,得到手势动作序列,实现对连续动作的识别。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于深度学习的动态手势动作识别方法,包括下列步骤:
步骤一,构建手势关节点坐标识别网络;
利用改进的CPM模型对手势视频进行处理,输出单视点下的手势关节点坐标,其实现流程如下:
(1.1)选择手势关节点估计的基础网络模型;
选择VGG-13作为手势关节点估计的基础网络模型;
(1.2)设置感受野;
感受野的大小与卷积或池化的滑动窗口有关,将两者看成是一个映射,将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内,表示为fks,其中s表示滑动窗口的步长,k表示卷积核或池化核的大小,其映射关系为:
Figure FDA0002356368630000011
其中:xn,xn+1为第n层和第n+1层的特征图;
基本网络结构基于VGG-13,对于VGG-13的第一个部分,包含了两个卷积和一个池化,这三个结构形成了一个级联,因此映射过程在网络中多次重复,形成一个多级映射;各环节的感受野与卷积核或池化核的参数如表1所示:
表1级联下各层特征图对应的感受野和卷积核参数
Figure FDA0002356368630000012
记RFn为第n个特征图的感受野,Kn为第n个卷积层的卷积核或池化核的大小,Sn为Kn的步长,由表1中的感受野规律,可以归纳推导出感受野与步长以及卷积核大小的关系;
在第一层卷积后特征图的感受野大小为卷积核的大小:
RF1=K1 (2)
当步长为1时,第n≥2个特征图的感受野大小为:
RFn=RFn-1+(Kn-1) (3)
对于步长不为1的情况,有n≥2:
RFn=RFn-1+(Kn-1)×Sn (4)
(1.3)提取特征;
利用基础网络模型VGG-13对图像进行特征提取;
首先定义第p个关节在图像像素中的位置坐标为Yp,则有,
Figure FDA0002356368630000021
其中集合Z代表图像中所有像素的位置;
设有P个需要预测的关节点,目标是得到所有P个关节点坐标Y:
Y=(Y1,Y2,…,Yp) (6)
由以上关系可知,Y是Z的子集;
接着定义一个多阶段的预测分类器gt(x),用于预测每个阶段中每个关节点所在位置;在每个阶段t∈{1,2,…T},预测分类器都会将图像中的一点z赋给Yp,并在每个阶段都会给每个手势关节点生成一个热图,具体的表达式为:
Figure FDA0002356368630000022
当分类器在第一阶段预测手势关节点位置时,会产生一个热图和相对应的手势关节点置信得分:
Figure FDA0002356368630000023
其中b1 p(Yp=z)是分类器在第一阶段预测第p个手势关节点在z位置处时的手势关节点置信得分;
对于接下来的每一个阶段,第p个手势关节点在z位置处的置信得分可以表示为:
Figure FDA0002356368630000024
其中,u,v代表图像中某一处位置z的坐标值;
在后续阶段t(t≥2),基于前一阶段的热图和手势关节点的置信得分,继续为每个手势关节点赋更加精确的位置坐标z,这个更加精确的位置z是基于第一阶段分类器所提取的图像特征和前一阶段的分类器所提取到的图片上下文信息共同决定的,同样的,后续每个阶段的预测分类器仍然产生属于每个阶段的手势关节点热图对应的手势关节点置信得分:
Figure FDA0002356368630000025
其中,ψt(z,bt-1)表示一种置信得分与图像上下文信息之间的映射,X′z表示上一阶段在位置z周边所提取到的图像特征;
在以上过程的不断重复下,每个阶段都基于前一阶段的图像上下文信息和第一阶段提取到的图像特征对第p个手势关节点的位置做出修正,这种逐渐微调的过程使得模型最终估计出较为准确的手势关节点坐标位置;
步骤二,采集单视点视频数据;
以单视点的形式对手势视频样本进行采集,即用一个普通的网络摄像头从多个角度捕捉用户的手势数据,其中:
(2.1)定义基本手势元素;
重新定义了对视觉识别的基本动作元素,并将确定的具体可识别的基本动作元素,称为基本手势元素,并对其符号进行了定义;
(2.2)选取手势关节点;
通过对手势关节点进行识别,将识别的关节点按照顺序进行连线、标号,形成一个手姿势的骨架,通过对手骨架姿势的识别实现对手的姿势的识别,且将此过程定义为手势估计;手指弯曲时,手指通常分为三小段,使手指呈现不同的弯曲程度,这三段之间的连接点恰好是手指的关节点,因此,选取每个手指的指尖部位的点作为手指的起始关节点,然后连接各自手指上三小段之间上的关节点,接着每根手指上的末尾关节点都与手腕处的一个关节点相连,选定了模型的关节点之后,将模型的关节点按照一定的顺序标号、连接,以形成手势骨架;
(3)准备训练样本数据集;
基于卷积神经网络对图像或视频内容识别的基础是有标准的数据集;因此在单视点下对基本手势元素进行视频采集,以建立基本手势元素数据库;
同时,对于已有的一个大数据集,通常将其划分为训练集、验证集、测试集;三个子集两两之间无交集,三者的并集为全集,由于来自同一个数据集,因此三个子集是独立同分布的;验证集和测试集均用于测试模型的准确率,且两者均与模型训练时的梯度下降过程无关,但由于验证集的参与,其验证结果调节了模型迭代数和学习率,即模型有了一个参数调整的过程,因此认为验证集参与了模型的训练;
步骤三,输出手势高斯热图和手势关节点坐标;
采用热图的形式对手势关节点的真实值进行标注,同时也采用热图作为模型的输出,其中生成的手势关节点热图是以图像中关节点所在像素区域的某一个点为中心,以具体的像素点个数为半径,画出一个圆域,将关节点所在的区域划分出来,作为关节点出现的概率区域,在该区域的中心颜色最深,表示关节点在这个位置的概率最大,而后区域的颜色由中心向外逐渐变浅;这种颜色会在中心达到尖峰,四周逐渐变浅的图像形式与高斯函数图像有着相似之处,因此可利用高斯函数来生成各个关节点区域的热图;热图的坐标是(x,y)的形式,即有二维高斯函数的公式:
Figure FDA0002356368630000031
式中,x0,y0表示手势关节点的坐标真实值;x,y表示手势关节点热图区域像素点的坐标值;
Figure FDA0002356368630000041
表示二维高斯函数的幅度值;σ2表示x,y的标准差;
对于手势关节热图的概率区域大小,将其定义为半径为1的圆域,其中对于二维高斯函数的幅度A给定值为1,σ给定值为1.5,则生成一个二维高斯函数的分布图像;
在原图片的基础上生成二维高斯函数分布形态的热点图,该热图基于手势关节点区域的中心坐标,生成一个呈高斯分布的概率区域,在这个区域的中心处的概率值最大,也就是二维高斯函数的尖峰中心点,越向四周扩散,概率值越小;以概率值最大的尖峰点为中心的高斯概率区域中,所有点的总和是超过1的,但在这个概率区域中,所有像素点位置出现手势关节点的概率总和应该为1,为此,对该区域内所有的像素点的函数值进行加和,将每一个像素点对应的函数值除以像素点函数值的总和,以此保证所有点的概率和为1,处理方式如下所示:
Figure FDA0002356368630000042
式中:p(x,y)表示处理后的像素点存在关节点的概率大小;f(x,y)表示概率区域内的像素点对应的二维高斯函数值;∑f(x,y)表示所有像素点的函数值的总和;
将这些基于二维高斯函数生成的热图称为高斯热图,在模型的每一个阶段,都会输出所有关节点的高斯热图,即每一个关节点对应一张高斯热图;
步骤四,构造手势序列识别网络;
网络模型构造的具体流程如下:
(4.1)定义激活函数;
由于涉及的循环神经网络的层数并不多,在网络层次不深的情况下梯度消失的问题相对较小,因此在循环神经网络中采用Tanh作为激活函数;
Tanh激活函数是双曲正切函数,Tanh及其导数的表达式如下所示:
Figure FDA0002356368630000043
Figure FDA0002356368630000044
(4.2)选择损失函数;
在网络的最后一层需要输出基本手势元素的类别,采用多分类的Softmax损失函数计算出输入的视频中的手势分别属于每个类别的概率,最后模型输出对该视频中手势的预测结果为每个类别中概率最大的那个类别;
假设x是循环神经网络输入到Softmax层的一组特征向量,W和b是Softmax的参数,则Softmax的第一步是对每个类别进行打分,计算各类别的分值Logit:
Logit=WTx+b (15)
接着,用Softmax将每个类别的分值转化为各自的概率值:
Figure FDA0002356368630000051
其中,i表示第i个手势类别,ei表示第i个手势的分值;
至此模型输出了每个手势类别的概率分布,这个概率分布是一个预测值,将其称为q(x),而每个手势还带有一个实际标签,也就是一个真正的概率分布,称其为p(x);由于Softmax函数又称为交叉熵损失函数,而交叉熵描述的是两个概率分布之间的距离问题,其可以定义为:
H(p,q)=-∑p(x)logq(x) (22)
假设p(x)=(A,B,C),q(x)=(u,v,w),且p(x)是真实值,q(x)是预测值,则通过q(x)来表示p(x)的交叉熵为:
H((A,B,C),(u,v,w))=-(Alogu+Blogv+Clogw) (23)
当q(x)和p(x)的位置互换时,两者的交叉熵是不同;交叉熵是通过概率来衡量一个事件的出现可能性的,一个事件出现的可能性越大,这个事件包含的信息量越小,即熵值越小,因此当预测的概率分布q(x)与真实值p(x)之间越靠近,两者的交叉熵就越小,意味着模型的输出与真实值就越接近,模型的预测越准确;
(4.3)建立模型;
在模型中X=(x1,x2,x3,...,xT)是按照时间序列展开的视频帧,这些时序帧作为循环神经网络的输入,每一帧中包含的信息是每个手势的关节点坐标值,时间序列的长度设为T;第一个隐藏层的隐状态为H=(h1 (1),h2 (1),...,hT (1)),则对第一个隐藏层的隐状态,有:
Figure FDA0002356368630000052
其中,第一个隐藏层隐的第一个序列的隐状态为:
Figure FDA0002356368630000053
对于第二个隐藏层,其输入由前一个时刻的隐状态和上一个隐藏中同样处于当前时刻的隐状态的输入共同决定,则第二个隐藏层的隐状态可以表示为:
Figure FDA0002356368630000054
其中,第二个隐藏层的首个序列的隐状态为:
Figure FDA0002356368630000055
对于最后的输出为每种手势的预测分类结果,Y=(Y1,Y2,Y3,Y4,…,Yn),有:
Yi=Softmax(VhT+c) (28)
其中i=(1,2,3,4,…,n),U、W、V均为参数矩阵,用于对输入和隐藏层的隐状态进行矩阵变换,b、c均为偏置,所有的参数是在网络的各个阶段是共享的;
最后,将步骤三得到的关节点坐标输入标准手势序列识别网络,得到手势动作序列。
CN202010011805.1A 2020-01-06 2020-01-06 一种基于深度学习的动态手势动作识别方法 Active CN111209861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010011805.1A CN111209861B (zh) 2020-01-06 2020-01-06 一种基于深度学习的动态手势动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010011805.1A CN111209861B (zh) 2020-01-06 2020-01-06 一种基于深度学习的动态手势动作识别方法

Publications (2)

Publication Number Publication Date
CN111209861A true CN111209861A (zh) 2020-05-29
CN111209861B CN111209861B (zh) 2022-03-18

Family

ID=70789567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010011805.1A Active CN111209861B (zh) 2020-01-06 2020-01-06 一种基于深度学习的动态手势动作识别方法

Country Status (1)

Country Link
CN (1) CN111209861B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881994A (zh) * 2020-08-03 2020-11-03 杭州睿琪软件有限公司 识别处理方法及设备和非暂态计算机可读存储介质
CN111950341A (zh) * 2020-06-19 2020-11-17 南京邮电大学 一种基于机器视觉的实时手势识别方法及手势识别***
CN112102451A (zh) * 2020-07-28 2020-12-18 北京云舶在线科技有限公司 一种基于普通摄像头的无穿戴虚拟直播方法及设备
CN112699837A (zh) * 2021-01-13 2021-04-23 新大陆数字技术股份有限公司 一种基于深度学习的手势识别方法及设备
CN112862096A (zh) * 2021-02-04 2021-05-28 百果园技术(新加坡)有限公司 一种模型训练和数据处理方法、装置、设备及介质
CN113196289A (zh) * 2020-07-02 2021-07-30 浙江大学 人体动作识别方法、人体动作识别***及设备
CN113269089A (zh) * 2021-05-25 2021-08-17 上海人工智能研究院有限公司 基于深度学习的实时手势识别方法及***
CN113313161A (zh) * 2021-05-24 2021-08-27 北京大学 基于旋转不变的规范等变网络模型的物体形状分类方法
CN113743247A (zh) * 2021-08-16 2021-12-03 电子科技大学 基于Reders模型的手势识别方法
CN114185429A (zh) * 2021-11-11 2022-03-15 杭州易现先进科技有限公司 手势关键点定位或姿态估计的方法、电子装置和存储介质
CN114499712A (zh) * 2021-12-22 2022-05-13 天翼云科技有限公司 一种手势识别方法、设备及存储介质
CN115273244A (zh) * 2022-09-29 2022-11-01 合肥工业大学 基于图神经网络的人体动作识别方法和***
TWI787841B (zh) * 2021-05-27 2022-12-21 中強光電股份有限公司 影像識別方法
US20230107097A1 (en) * 2021-10-06 2023-04-06 Fotonation Limited Method for identifying a gesture
CN116645727A (zh) * 2023-05-31 2023-08-25 江苏中科优胜科技有限公司 一种基于Openpose模型算法的行为捕捉识别方法
CN116959120A (zh) * 2023-09-15 2023-10-27 中南民族大学 一种基于手部关节的人手姿态估计方法及***
CN116974369A (zh) * 2023-06-21 2023-10-31 广东工业大学 术中医学影像操作方法、***、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法
WO2019006473A1 (en) * 2017-06-30 2019-01-03 The Johns Hopkins University ACTION RECOGNITION SYSTEMS AND METHOD USING MICRO-DOPPLER SIGNATURES AND RECURRING NEURAL NETWORKS
CN110287844A (zh) * 2019-06-19 2019-09-27 北京工业大学 基于卷积姿势机和长短时记忆网络的交警手势识别方法
CN110458046A (zh) * 2019-07-23 2019-11-15 南京邮电大学 一种基于关节点提取的人体运动轨迹分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991372A (zh) * 2017-03-02 2017-07-28 北京工业大学 一种基于混合深度学习模型的动态手势识别方法
WO2019006473A1 (en) * 2017-06-30 2019-01-03 The Johns Hopkins University ACTION RECOGNITION SYSTEMS AND METHOD USING MICRO-DOPPLER SIGNATURES AND RECURRING NEURAL NETWORKS
CN110287844A (zh) * 2019-06-19 2019-09-27 北京工业大学 基于卷积姿势机和长短时记忆网络的交警手势识别方法
CN110458046A (zh) * 2019-07-23 2019-11-15 南京邮电大学 一种基于关节点提取的人体运动轨迹分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUEH WU等: "Applying hand gesture recognition and joint tracking to a TV controller using CNN and Convolutional Pose Machine", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
卢兴沄: "一种类人机器人手势识别算法及其实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950341A (zh) * 2020-06-19 2020-11-17 南京邮电大学 一种基于机器视觉的实时手势识别方法及手势识别***
CN113196289A (zh) * 2020-07-02 2021-07-30 浙江大学 人体动作识别方法、人体动作识别***及设备
CN112102451A (zh) * 2020-07-28 2020-12-18 北京云舶在线科技有限公司 一种基于普通摄像头的无穿戴虚拟直播方法及设备
CN112102451B (zh) * 2020-07-28 2023-08-22 北京云舶在线科技有限公司 一种基于普通摄像头的无穿戴虚拟直播方法及设备
CN111881994B (zh) * 2020-08-03 2024-04-05 杭州睿琪软件有限公司 识别处理方法及设备和非暂态计算机可读存储介质
CN111881994A (zh) * 2020-08-03 2020-11-03 杭州睿琪软件有限公司 识别处理方法及设备和非暂态计算机可读存储介质
CN112699837A (zh) * 2021-01-13 2021-04-23 新大陆数字技术股份有限公司 一种基于深度学习的手势识别方法及设备
CN112862096A (zh) * 2021-02-04 2021-05-28 百果园技术(新加坡)有限公司 一种模型训练和数据处理方法、装置、设备及介质
CN113313161A (zh) * 2021-05-24 2021-08-27 北京大学 基于旋转不变的规范等变网络模型的物体形状分类方法
CN113313161B (zh) * 2021-05-24 2023-09-26 北京大学 基于旋转不变的规范等变网络模型的物体形状分类方法
CN113269089A (zh) * 2021-05-25 2021-08-17 上海人工智能研究院有限公司 基于深度学习的实时手势识别方法及***
CN113269089B (zh) * 2021-05-25 2023-07-18 上海人工智能研究院有限公司 基于深度学习的实时手势识别方法及***
TWI787841B (zh) * 2021-05-27 2022-12-21 中強光電股份有限公司 影像識別方法
CN113743247A (zh) * 2021-08-16 2021-12-03 电子科技大学 基于Reders模型的手势识别方法
US20230107097A1 (en) * 2021-10-06 2023-04-06 Fotonation Limited Method for identifying a gesture
US11983327B2 (en) * 2021-10-06 2024-05-14 Fotonation Limited Method for identifying a gesture
CN114185429B (zh) * 2021-11-11 2024-03-26 杭州易现先进科技有限公司 手势关键点定位或姿态估计的方法、电子装置和存储介质
CN114185429A (zh) * 2021-11-11 2022-03-15 杭州易现先进科技有限公司 手势关键点定位或姿态估计的方法、电子装置和存储介质
CN114499712A (zh) * 2021-12-22 2022-05-13 天翼云科技有限公司 一种手势识别方法、设备及存储介质
CN114499712B (zh) * 2021-12-22 2024-01-05 天翼云科技有限公司 一种手势识别方法、设备及存储介质
CN115273244B (zh) * 2022-09-29 2022-12-20 合肥工业大学 基于图神经网络的人体动作识别方法和***
CN115273244A (zh) * 2022-09-29 2022-11-01 合肥工业大学 基于图神经网络的人体动作识别方法和***
CN116645727B (zh) * 2023-05-31 2023-12-01 江苏中科优胜科技有限公司 一种基于Openpose模型算法的行为捕捉识别方法
CN116645727A (zh) * 2023-05-31 2023-08-25 江苏中科优胜科技有限公司 一种基于Openpose模型算法的行为捕捉识别方法
CN116974369A (zh) * 2023-06-21 2023-10-31 广东工业大学 术中医学影像操作方法、***、设备及存储介质
CN116974369B (zh) * 2023-06-21 2024-05-17 广东工业大学 术中医学影像操作方法、***、设备及存储介质
CN116959120A (zh) * 2023-09-15 2023-10-27 中南民族大学 一种基于手部关节的人手姿态估计方法及***
CN116959120B (zh) * 2023-09-15 2023-12-01 中南民族大学 一种基于手部关节的人手姿态估计方法及***

Also Published As

Publication number Publication date
CN111209861B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN111209861B (zh) 一种基于深度学习的动态手势动作识别方法
CN111191627B (zh) 一种多视点下提高动态手势动作识别准确率的方法
CN105975931B (zh) 一种基于多尺度池化的卷积神经网络人脸识别方法
Lim et al. Isolated sign language recognition using convolutional neural network hand modelling and hand energy image
Amor et al. Action recognition using rate-invariant analysis of skeletal shape trajectories
Chaudhary et al. Intelligent approaches to interact with machines using hand gesture recognition in natural way: a survey
CN111695457B (zh) 一种基于弱监督机制的人体姿态估计方法
CN110458046B (zh) 一种基于关节点提取的人体运动轨迹分析方法
CN113221663B (zh) 一种实时手语智能识别方法、装置及***
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
EP4099213A1 (en) A method for training a convolutional neural network to deliver an identifier of a person visible on an image, using a graph convolutional neural network
CN112800990B (zh) 一种实时人体动作识别和计数方法
CN113191243B (zh) 基于相机距离的人手三维姿态估计模型建立方法及其应用
CN111709268A (zh) 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN110163130B (zh) 一种用于手势识别的特征预对齐的随机森林分类***及方法
Kowdiki et al. Adaptive hough transform with optimized deep learning followed by dynamic time warping for hand gesture recognition
Ikram et al. Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
Memmesheimer et al. Gesture recognition on human pose features of single images
Postnikov et al. Conditioned human trajectory prediction using iterative attention blocks
CN114898464A (zh) 一种基于机器视觉的轻量化精准手指语智能算法识别方法
CN114202801A (zh) 基于注意力引导空域图卷积简单循环单元的手势识别方法
CN114973305A (zh) 一种针对拥挤人群的精确人体解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant