CN111709310B - 一种基于深度学习的手势跟踪与识别方法 - Google Patents
一种基于深度学习的手势跟踪与识别方法 Download PDFInfo
- Publication number
- CN111709310B CN111709310B CN202010452860.4A CN202010452860A CN111709310B CN 111709310 B CN111709310 B CN 111709310B CN 202010452860 A CN202010452860 A CN 202010452860A CN 111709310 B CN111709310 B CN 111709310B
- Authority
- CN
- China
- Prior art keywords
- gesture
- network model
- frame
- target
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000003064 k means clustering Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 4
- 238000004091 panning Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的手势跟踪与识别方法,主要步骤为:1)采集若干手势彩色图像;2)标记出手势彩色图像的手部区域框;对手势彩色图像进行分类;3)建立手势数据集;4)搭建Darknet‑53卷积神经网络模型;5)预训练;6)将训练后Darknet‑53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中;7)使用k‑means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框;8)得到训练后的YOLOv3网络模型;9)训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。本发明对流式视频中手势的识别准确率可达到95%以上,识别速度达到50frames/s以上。
Description
技术领域
本发明涉及目标检测与手势识别技术领域,具体是一种基于深度学习的手势跟踪与识别方法。
背景技术
人类能够很容易识别手势,经过一段时间的学习,人们可以快速地用手势进行交流。近年来,大量的研究致力于开发对手势图像进行识别并分类为预设类别的***。这种***已经在游戏和电子设备控制、机器人控制、虚拟现实环境和自然语言通信等领域中得到应用。
基于手势识别的人机交互中,最重要的是对手部进行快速、准确的跟踪定位,由于实时视频中的手部图像有光照强度、自遮挡、运动速度快以及尺度变化等问题,在实际应用中对人的手势进行实时追踪并进行识别是困难的。传统的手势识别方法中,有的使用了特定的传感设备,如数据手套、肌电传感器等,但这将应用限制在有限的场景内;同时,多个摄像头的使用也严重限制了应用场景;目前大多数研究都依赖于深度摄像头拍摄的深度图像,但深度摄像头并不像普通的摄像头那么普遍,且只能在室内环境稳定地使用。上述传统方法在识别时间和识别率上都有待提高。
发明内容
本发明的目的是解决现有技术中存在的问题。
为实现本发明目的而采用的技术方案是这样的,一种基于深度学习的手势跟踪与识别方法,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理。
进一步,采集手势彩色图像的装置为摄像头。
进一步,对所述手势彩色图像进行预处理方法为:利用数据增强方法对手势彩色图像进行扩充。数据增强方法包括翻转、平移和添加噪声。
进一步,所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。
2)标记出手势彩色图像的手部区域框。对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件。
3)建立手势数据集。所述手势数据集包括手势彩色图像和对应的标签。
4)搭建Darknet-53卷积神经网络模型。
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型。
进一步,所述训练数据集为Egohands数据集。
进一步,对Darknet-53卷积神经网络模型进行预训练的方法为:将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中,利用梯度下降算法不断更新Darknet-53卷积神经网络权重,直至Darknet-53卷积神经网络权重满足阈值,得到训练好的Darknet-53卷积神经网络模型。
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化。
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。
进一步,k-means聚类时,每个手部区域框和聚类中心的重合度满足下式:
d(box,centroid)=1-IOU(box,centroid)。 (1)
式中,d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离。IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。IOU表示交并比。
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,得到训练后的YOLOv3网络模型。
进一步,训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。 (2)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数。
其中,置信度损失Lconf(o,c)如下所示:
式中,表示预测目标边界框i内是否存在目标的Sigmoid概率。/>oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1。
目标类别损失Lcla(O,C)如下所示:
式中,表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。
目标定位损失Lloc(l,g)如下所示:
式中,表示预测边界框坐标的偏移量。/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量。(bx,by,bw,bh)为预测的目标边界框参数。(cx,cy,pw,ph)为默认框参数。(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。(x,y)代表检测框中心相对网络位置的偏移。(w,h)表示检测框的宽和高。
其中,预测边界框横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的/>分别满足下式:
Ground Truth与默认框之间的横坐标偏移量纵坐标偏移量/>宽的偏移量和高的偏移量/>分别满足下式:
9)获取实时视频流,并以视频帧方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。
进一步,对实时视频图像进行识别的主要步骤如下:
9.1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框。
9.2)对特征图进行手势类别识别,主要步骤如下:
9.2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas<ε1,则将第a个建议框置0。ε1为概率阈值。a初始值为1,s初始值为1。
9.2.2)令a=a+1,并返回步骤9.2.1),直至r*n*n个建议框的概率均计算完毕。
9.2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框。
9.2.4)令s=s+1,并返回步骤9.2.1),直至k类手势类别均识别完毕。
9.2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。建议框为手部区域框。
本发明的技术效果是毋庸置疑的。本发明可以通过普通彩色摄像头对复杂背景下的手势图像进行实时的跟踪定位与准确识别。本发明提供的一种基于深度学习的手势跟踪与识别方法,该方法与现有方法相比,实时性更好、识别率更高、鲁棒性更强。本发明对流式视频中手势的识别准确率可达到95%以上,识别速度达到50frames/s以上。
附图说明
图1为检测示意图;
图2为YOLOv3网络的结构图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1,一种基于深度学习的手势跟踪与识别方法,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理。
进一步,采集手势彩色图像的装置为摄像头。
进一步,对所述手势彩色图像进行预处理方法为:利用数据增强方法对手势彩色图像进行扩充。数据增强方法包括翻转、平移和添加噪声。
进一步,所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。
2)标记出手势彩色图像的手部区域框。对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件。
3)建立手势数据集。所述手势数据集包括手势彩色图像和对应的标签。
4)搭建Darknet-53卷积神经网络模型。
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型。
进一步,所述训练数据集为Egohands数据集。
进一步,对Darknet-53卷积神经网络模型进行预训练的方法为:将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中,利用梯度下降算法不断更新Darknet-53卷积神经网络权重,直至Darknet-53卷积神经网络权重满足阈值,得到训练好的Darknet-53卷积神经网络模型。
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化。Darknet-53为深度学习框架。
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。本实施例k=9。
进一步,k-means聚类时,每个手部区域框和聚类中心的重合度满足下式:
d(box,centroid)=1-IOU(box,centroid)。 (1)
式中,d(box,centroid)为每个手部区域框中心box和聚类中心centroid的最短距离。IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。IOU(Intersection over Union)表示交并比。
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,改进候选框参数,得到训练后的YOLOv3网络模型。
进一步,训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。 (2)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数。
其中,置信度损失Lconf(o,c)如下所示:
式中,表示预测目标边界框i内是否存在目标的Sigmoid概率。/>oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1。
目标类别损失Lcla(O,C)如下所示:
式中,表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。/>Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。i表示任意预测目标边界框,j表示目标类型。
目标定位损失Lloc(l,g)如下所示:
式中,表示预测边界框坐标的偏移量。/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量。(bx,by,bw,bh)为预测的目标边界框参数。(cx,cy,pw,ph)为默认框参数。(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。(x,y)代表检测框中心相对网络位置的偏移。(w,h)表示检测框的宽和高。
其中,预测边界框横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的/>分别满足下式:
式中,为预测目标边界框i边界框横坐标、纵坐标、宽和高。为预测目标边界框i对应的默认框横纵坐标。/>为预测目标边界框i对应的默认框宽和高。
Ground Truth(真实框)与默认框之间的横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的偏移量/>分别满足下式:
式中,为与预测目标边界框i匹配的Ground Truth与默认框之间的横坐标、纵坐标、宽和高。
9)获取实时视频流,并以视频帧(例如RGB图像)方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。
进一步,对实时视频图像进行识别的主要步骤如下:
9.1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框。尺度分别为13*13,26*26,52*52。
9.2)对特征图进行手势类别识别,主要步骤如下:
9.2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas<ε1,则将第a个建议框置0。ε1为概率阈值。a初始值为1,s初始值为1。
9.2.2)令a=a+1,并返回步骤9.2.1),直至r*n*n个建议框的概率均计算完毕。
9.2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框。
9.2.4)令s=s+1,并返回步骤9.2.1),直至k类手势类别均识别完毕。
9.2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。建议框为手部区域框。
实施例2:
一种基于深度学习的手势跟踪与识别方法,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理。
2)标记出手势彩色图像的手部区域框。对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件。
3)建立手势数据集。所述手势数据集包括手势彩色图像和对应的标签。
4)搭建Darknet-53卷积神经网络模型。
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型。
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化。
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框。将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数。
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,得到训练后的YOLOv3网络模型。YOLOv3网络的结构图如图2所示。
9)获取实时视频流,并以视频帧方式输入到训练后的YOLOv3网络模型中。训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息。在调用彩色摄像头时,可以获取单张图片进行静态识别,或者对动态的视频流进行实时的手势跟踪与识别。
实施例3:
一种基于深度学习的手势跟踪与识别方法,主要步骤见实施例2,其中,训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)。 (1)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数。
其中,置信度损失Lconf(o,c)如下所示:
式中,表示预测目标边界框i内是否存在目标的Sigmoid概率。/>oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1。
目标类别损失Lcla(O,C)如下所示:
式中,表示网络预测目标边界框i内存在第j类目标的Sigmoid概率。/>Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。
目标定位损失Lloc(l,g)如下所示:
式中,表示预测边界框坐标的偏移量。/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量。(bx,by,bw,bh)为预测的目标边界框参数。(cx,cy,pw,ph)为默认框参数。(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。(x,y)代表检测框中心相对网络位置的偏移。(w,h)表示检测框的宽和高。
其中,预测边界框横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的/>分别满足下式:
Ground Truth与默认框之间的横坐标偏移量纵坐标偏移量/>宽的偏移量和高的偏移量/>分别满足下式:
实施例4:
一种基于深度学习的手势跟踪与识别方法,主要步骤见实施例2,其中,对实时视频图像进行识别的主要步骤如下:
1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框。尺度分别为13*13,26*26,52*52。
2)对特征图进行手势类别识别,主要步骤如下:
2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas<ε1,则将第a个建议框置0。ε1为概率阈值。a初始值为1,s初始值为1。
2.2)令a=a+1,并返回步骤2.1),直至r*n*n个建议框的概率均计算完毕。
2.3)以概率大小对非0建议框进行降序排列。用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框。
2.4)令s=s+1,并返回步骤2.1),直至k类手势类别均识别完毕。
2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零。概率最大的建议框对应的手势类别即为视频帧的手势类别。
实施例5:
一种基于深度学习的手势跟踪与识别方法的实验,主要步骤如下:
1)搭建整个基于深度学习的手势跟踪与识别方法的实验环境:Windows10操作***的计算机,CPU为Intel(R)Core(TM)i7-4790,GPU为INVDIA GTX 1070Ti,使用pytorch深度学习框架,采集图像的摄像头为Logitech C525。
2)图像的预处理。
3)手势图像的检测计算:
基础网络部分Darknet-53对图片进行特征提取,为了处理不同尺寸的图像,采取同一个网络,选取不同的卷积层的特征图进行包围框的回归。不同的卷积层的特征图具有不同的感受野,在同一个网络,不同的特征图上的特征值代表了原始图像上面不同尺寸的图像块。特定的卷积层负责处理特征尺寸的物体。YOLOv3模型进行手势识别是一个回归与分类的过程。预测目标边框是一个回归的过程,识别目标框中的手势所属类别是一个分类过程。总损失函数为定位偏移量损失、置信度损失和分类损失的加权和:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g) (2)
目标置信度预测目标矩形框内存在目标的概率,置信度损失Lconf(o,c)采用二值交叉熵损失,其中oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1,表示预测目标边界框i内是否存在目标的Sigmoid概率:
其中
目标类别损失Lcla(O,C)同样采用二值交叉熵损失,其中Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在。表示网络预测目标边界框i内存在第j类目标的Sigmoid概率:
其中
目标定位损失Lloc(l,g)采用真实偏差值与预测偏差值之差的平方和,其中表示预测边界框坐标的偏移量,/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量,(bx,by,bw,bh)为预测的目标边界框参数,(cx,cy,pw,ph)为默认框参数,(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。
4)判定机制的计算:
模型识别手势的具体过程如下:
将图像以416*416的分辨率输入网络,得到三种不同尺度(13*13,26*26,52*52)的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生3个建议框。
在某一手势类别中,将该类概率少于阈值(取0.5)的建议框设置为0,然后该类概率对剩余的建议框进行排序。最后用非极大值抑制算法(阈值取0.5)去掉重复率较高的建议框,对于筛选后的建议框,取所有类别中概率最高的值保留,其余置零。若保留的值不为0,则建议框中为此概率值对应类别的手势,若值为0,说明此建议框中没有手势图像,跳过即可。
Claims (8)
1.一种基于深度学习的手势跟踪与识别方法,其特征在于,主要包括以下步骤:
1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理;
2)标记出手势彩色图像的手部区域框;对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件;
3)建立手势数据集;所述手势数据集包括手势彩色图像和对应的标签;
4)搭建Darknet-53卷积神经网络模型;
5)利用训练数据集对Darknet-53卷积神经网络模型进行预训练,得到训练后的Darknet-53卷积神经网络模型;
6)将训练后Darknet-53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化;
7)使用k-means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框;将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数;
8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,得到训练后的YOLOv3网络模型;
9)获取实时视频流,并以视频帧方式输入到训练后的YOLOv3网络模型中;利用训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息;
训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g); (1)
式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数;
其中,置信度损失Lconf(o,c)如下所示:
式中,表示预测目标边界框i内是否存在目标的Sigmoid概率;/>oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1;
目标类别损失Lcla(O,C)如下所示:
式中,表示网络预测目标边界框i内存在第j类目标的Sigmoid概率;
Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在;
目标定位损失Lloc(l,g)如下所示:
式中,表示预测边界框坐标的偏移量;/>表示与之匹配的Ground Truth与默认框之间的坐标偏移量;(x,y)代表检测框中心相对网络位置的偏移;(w,h)表示检测框的宽和高;
其中,预测边界框横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的/>分别满足下式:
式中,(cx,cy,pw,ph)为默认框参数;(bx,by,bw,bh)为预测的目标边界框参数;下标i表示预测目标边界框i;
Ground Truth与默认框之间的横坐标偏移量纵坐标偏移量/>宽的偏移量/>和高的偏移量/>分别满足下式:
式中,(gx,gy,gw,gh)为与之匹配的真实目标边界框参数。
2.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,采集手势彩色图像的装置为摄像头。
3.根据权利要求1所述的一种基于深度学***移和添加噪声。
4.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,所述训练数据集为Egohands数据集。
5.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。
6.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对Darknet-53卷积神经网络模型进行预训练的方法为:将训练数据集中的手部图像和标签文件输入到Darknet-53卷积神经网络中,利用梯度下降算法不断更新Darknet-53卷积神经网络权重,直至Darknet-53卷积神经网络权重满足阈值,得到训练好的Darknet-53卷积神经网络模型。
7.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,k-means聚类时,每个手部区域框和聚类中心的重合度满足下式:
d(box,centroid)=1-IOU(box,centroid); (13)
式中,d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离;IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。
8.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对实时视频图像进行识别的主要步骤如下:
1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框;
2)对特征图进行手势类别识别,主要步骤如下:
2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas<ε1,则将第a个建议框置0;ε1为概率阈值;a初始值为1,s初始值为1;
2.2)令a=a+1,并返回步骤2.1),直至r*n*n个建议框的概率均计算完毕;
2.3)以概率大小对非0建议框进行降序排列;用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框;
2.4)令s=s+1,并返回步骤2.1),直至k类手势类别均识别完毕;
2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零;概率最大的建议框对应的手势类别即为视频帧的手势类别;建议框为手部区域框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010452860.4A CN111709310B (zh) | 2020-05-26 | 2020-05-26 | 一种基于深度学习的手势跟踪与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010452860.4A CN111709310B (zh) | 2020-05-26 | 2020-05-26 | 一种基于深度学习的手势跟踪与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709310A CN111709310A (zh) | 2020-09-25 |
CN111709310B true CN111709310B (zh) | 2024-02-02 |
Family
ID=72538284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010452860.4A Active CN111709310B (zh) | 2020-05-26 | 2020-05-26 | 一种基于深度学习的手势跟踪与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709310B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132090A (zh) * | 2020-09-28 | 2020-12-25 | 天地伟业技术有限公司 | 一种基于yolov3的烟火自动检测预警方法 |
CN112242002B (zh) * | 2020-10-09 | 2022-07-08 | 同济大学 | 基于深度学习的物体识别和全景漫游方法 |
CN112506342B (zh) * | 2020-12-04 | 2022-01-28 | 郑州中业科技股份有限公司 | 基于动态手势识别的人机交互方法及*** |
CN112396666A (zh) * | 2020-12-09 | 2021-02-23 | 广西双英集团股份有限公司 | 基于手势识别的装配过程智能控制方法 |
CN112699967B (zh) * | 2021-01-18 | 2024-03-12 | 武汉大学 | 一种基于改进深度神经网络的远距离机场目标检测方法 |
CN113158757B (zh) * | 2021-02-08 | 2023-04-07 | 海信视像科技股份有限公司 | 显示设备及手势控制方法 |
CN113297956B (zh) * | 2021-05-22 | 2023-12-08 | 温州大学 | 一种基于视觉的手势识别方法及*** |
CN113191335A (zh) * | 2021-05-31 | 2021-07-30 | 景德镇陶瓷大学 | 基于深度学习的日用陶瓷类型识别方法 |
CN113569656B (zh) * | 2021-07-02 | 2023-08-29 | 广州大学 | 一种基于深度学习的考场监控方法 |
CN113627265A (zh) * | 2021-07-13 | 2021-11-09 | 深圳市创客火科技有限公司 | 无人机控制方法、装置及计算机可读存储介质 |
CN114167978A (zh) * | 2021-11-11 | 2022-03-11 | 广州大学 | 一种搭载于建筑机器人的人机交互*** |
CN114067103A (zh) * | 2021-11-23 | 2022-02-18 | 南京工业大学 | 一种基于YOLOv3的管道第三方破坏智能识别方法 |
CN114332933A (zh) * | 2021-12-29 | 2022-04-12 | 苏州臻迪智能科技有限公司 | 一种模型训练、手势识别方法、装置、设备及介质 |
CN117523679A (zh) * | 2024-01-08 | 2024-02-06 | 成都运达科技股份有限公司 | 一种驾驶员手势识别方法、***及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241913A (zh) * | 2018-09-10 | 2019-01-18 | 武汉大学 | 结合显著性检测和深度学习的船只检测方法及*** |
CN109255375A (zh) * | 2018-08-29 | 2019-01-22 | 长春博立电子科技有限公司 | 基于深度学习的全景图像对象检测方法 |
CN109325454A (zh) * | 2018-09-28 | 2019-02-12 | 合肥工业大学 | 一种基于YOLOv3的静态手势实时识别方法 |
CN109697407A (zh) * | 2018-11-13 | 2019-04-30 | 北京物灵智能科技有限公司 | 一种图像处理方法及装置 |
CN109740454A (zh) * | 2018-12-19 | 2019-05-10 | 贵州大学 | 一种基于yolo-v3的人体体态识别方法 |
CN110084313A (zh) * | 2019-05-05 | 2019-08-02 | 厦门美图之家科技有限公司 | 一种生成物体检测模型的方法 |
CN110135398A (zh) * | 2019-05-28 | 2019-08-16 | 厦门瑞为信息技术有限公司 | 基于计算机视觉的双手脱离方向盘检测方法 |
CN110796168A (zh) * | 2019-09-26 | 2020-02-14 | 江苏大学 | 一种基于改进YOLOv3的车辆检测方法 |
CN110852164A (zh) * | 2019-10-10 | 2020-02-28 | 安徽磐众信息科技有限公司 | 一种基于YOLOv3的自动检测违章建筑方法及*** |
CN110852190A (zh) * | 2019-10-23 | 2020-02-28 | 华中科技大学 | 一种融合目标检测与手势识别的驾驶行为识别方法及*** |
CN110889332A (zh) * | 2019-10-30 | 2020-03-17 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于面试中微表情的说谎检测方法 |
CN111104820A (zh) * | 2018-10-25 | 2020-05-05 | 中车株洲电力机车研究所有限公司 | 一种基于深度学习的手势识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11734910B2 (en) * | 2018-02-21 | 2023-08-22 | Robert Bosch Gmbh | Real-time object detection using depth sensors |
-
2020
- 2020-05-26 CN CN202010452860.4A patent/CN111709310B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255375A (zh) * | 2018-08-29 | 2019-01-22 | 长春博立电子科技有限公司 | 基于深度学习的全景图像对象检测方法 |
CN109241913A (zh) * | 2018-09-10 | 2019-01-18 | 武汉大学 | 结合显著性检测和深度学习的船只检测方法及*** |
CN109325454A (zh) * | 2018-09-28 | 2019-02-12 | 合肥工业大学 | 一种基于YOLOv3的静态手势实时识别方法 |
CN111104820A (zh) * | 2018-10-25 | 2020-05-05 | 中车株洲电力机车研究所有限公司 | 一种基于深度学习的手势识别方法 |
CN109697407A (zh) * | 2018-11-13 | 2019-04-30 | 北京物灵智能科技有限公司 | 一种图像处理方法及装置 |
CN109740454A (zh) * | 2018-12-19 | 2019-05-10 | 贵州大学 | 一种基于yolo-v3的人体体态识别方法 |
CN110084313A (zh) * | 2019-05-05 | 2019-08-02 | 厦门美图之家科技有限公司 | 一种生成物体检测模型的方法 |
CN110135398A (zh) * | 2019-05-28 | 2019-08-16 | 厦门瑞为信息技术有限公司 | 基于计算机视觉的双手脱离方向盘检测方法 |
CN110796168A (zh) * | 2019-09-26 | 2020-02-14 | 江苏大学 | 一种基于改进YOLOv3的车辆检测方法 |
CN110852164A (zh) * | 2019-10-10 | 2020-02-28 | 安徽磐众信息科技有限公司 | 一种基于YOLOv3的自动检测违章建筑方法及*** |
CN110852190A (zh) * | 2019-10-23 | 2020-02-28 | 华中科技大学 | 一种融合目标检测与手势识别的驾驶行为识别方法及*** |
CN110889332A (zh) * | 2019-10-30 | 2020-03-17 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于面试中微表情的说谎检测方法 |
Non-Patent Citations (3)
Title |
---|
Gesture-based bootstrapping for egocentric hand segmentation [arXiv];Yubo Zhang等;arXiv;第12页 * |
Real-Time Hand Gesture Recognition Based on Deep Learning YOLOv3 Model;Mujahid, A等;APPLIED SCIENCES-BASEL;第11卷(第9期);文献号4164 * |
面向显著性目标检测的SSD改进模型;余春艳;徐小丹;钟诗俊;;电子与信息学报(第11期);第19-26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111709310A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709310B (zh) | 一种基于深度学习的手势跟踪与识别方法 | |
CN110097051B (zh) | 图像分类方法、装置及计算机可读存储介质 | |
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数***及方法 | |
CN106845487B (zh) | 一种端到端的车牌识别方法 | |
Ibraheem et al. | Survey on various gesture recognition technologies and techniques | |
EP3092619B1 (en) | Information processing apparatus and information processing method | |
CN103390164B (zh) | 基于深度图像的对象检测方法及其实现装置 | |
US20160259980A1 (en) | Systems and methodologies for performing intelligent perception based real-time counting | |
CN110378281A (zh) | 基于伪3d卷积神经网络的组群行为识别方法 | |
CN110796018B (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN111199220B (zh) | 电梯内人员检测与人数统计的轻量化深度神经网络方法 | |
CN110765906A (zh) | 一种基于关键点的行人检测算法 | |
CN110298297A (zh) | 火焰识别方法和装置 | |
CN111444764A (zh) | 一种基于深度残差网络的手势识别方法 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、***及存储介质 | |
CN109377511B (zh) | 基于样本组合和深度检测网络的运动目标跟踪方法 | |
CN116363738A (zh) | 一种基于多移动目标的人脸识别方法、***及存储介质 | |
Silanon | Thai Finger‐Spelling Recognition Using a Cascaded Classifier Based on Histogram of Orientation Gradient Features | |
Cao et al. | Learning spatial-temporal representation for smoke vehicle detection | |
CN114724251A (zh) | 一种在红外视频下基于骨架序列的老人行为识别方法 | |
CN106056078A (zh) | 一种基于多特征回归式集成学习的人群密度估计方法 | |
Avola et al. | Machine learning for video event recognition | |
Nayakwadi et al. | Natural hand gestures recognition system for intelligent hci: A survey | |
Echoukairi et al. | Improved Methods for Automatic Facial Expression Recognition. | |
Zhou et al. | Learning a superpixel-driven speed function for level set tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |