CN110502981A - 一种基于彩色信息和深度信息融合的手势识别方法 - Google Patents

一种基于彩色信息和深度信息融合的手势识别方法 Download PDF

Info

Publication number
CN110502981A
CN110502981A CN201910624625.8A CN201910624625A CN110502981A CN 110502981 A CN110502981 A CN 110502981A CN 201910624625 A CN201910624625 A CN 201910624625A CN 110502981 A CN110502981 A CN 110502981A
Authority
CN
China
Prior art keywords
gesture
depth
information
cromogram
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910624625.8A
Other languages
English (en)
Inventor
吴浩
李公法
李蔚
谌东海
蒋国璋
陶波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Wuhan University of Science and Technology WHUST
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN201910624625.8A priority Critical patent/CN110502981A/zh
Publication of CN110502981A publication Critical patent/CN110502981A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于彩色信息和深度信息融合的手势识别方法,通过Kinect采集手势的彩色图和深度图,并进行对齐;将对齐后彩色图和深度图通过迁移学习分别训练手势的CNN模型,分别得到基于彩色图的手势识别模型和基于深度图的手势识别模型;然后将两种模型进行输出层的融合,得到基于彩色信息和深度信息融合的手势识别模型,通过实时的kinect采集的图像,输入到模型中,得到实时的手势识别标签和置信度分数。本发明提出的基于彩色信息和深度信息的手势识别方法,充分考虑到物体的彩色信息和深度信息,可以在复杂环境下,读取手势信息,通过识别手势与显示器进行交互。

Description

一种基于彩色信息和深度信息融合的手势识别方法
技术领域
本发明属于图像处理与智能交互技术领域,涉及一种手势识别方法,特别涉及一种基于彩色信息和深度信息融合的手势识别方法。
背景技术
随着科技的发展,人机交互的研究与应用受到越来越多的学者关注。其中,手势识别作为人机交互的一个主要分支,是人机交互领域的重要研究课题之一。人机交互中的手势对使用者来说具有便捷、交互性强、表达内容丰富等优点,一直是人机交互领域的首要选择。
手势识别大都是基于图像来进行识别的,彩色图像提供了外观和纹理等信息,但是在大量的场景中,由于光照和背景的影响,导致目标手部姿态与背景区域外观有一定相似度造成难以区分的情况。深度信息能够提供形状信息,并且对光照具有较强的鲁棒性,但是不能提供其他的颜色、纹理等信息,用于识别手势。单独使用深度信息或者彩色信息都会有自己的局限性,识别效果不佳。
鉴于此需要一种提高手势识别率的有效方法,克服目前单独使用深度图或者彩色图进行手势识别的缺陷,提高手势识别率。
发明内容
为了解决上述技术问题,本发明提供了一种基于彩色信息和深度信息融合的手势识别方法,可以在复杂场景下,读取手势的彩色信息和深度信息,通过精确识别手势与显示器进行交互。
本发明所采用的技术方案是:一种基于彩色信息和深度信息融合的手势识别方法,其特征在于,包括以下步骤:
步骤1:读取手势图片的彩色图和深度图,并将彩色图和深度图进行对齐;
步骤2:通过采集的彩色图数据,对图片的手势进行标签标注,将标注过的图片输入到卷积神经网络CNN模型中,通过训练的卷积神经网络CNN模型,得到基于彩色图的手势识别模型;
步骤3:通过采集到的深度图数据,通过彩色图的标签标注文件,将深度数据转换成训练文件,将有标签的深度图输入到卷积神经网络CNN模型中,通过训练的卷积神经网络CNN模型,得到基于深度图的手势预测模型;
步骤4:将得到的基于彩色图的手势预测模型和基于深度图的手势预测模型进行融合,得到基于彩色信息和深度信息融合的手势预测模型;
步骤5:实时获取手势图片,基于彩色和深度融合的手势预测模型,对手势进行实时识别。
本发明的有益效果在于,通过双流网络架构,将基于彩色信息和深度信息的手势识别模型的检测结果进行融合,充分考虑两者结合后的手势信息,提高手势识别率,同时读取彩色信息和深度信息,通过手势识别与显示器进行交互。
彩色图可以充分考虑到提取物体的颜色、纹理等信息,而深度图可以提取物体的深度信息,深度信息可以避免光照、环境等因素的影响,将两种信息充分结合起来,使用卷积神经网络训练模型,使手势识别达到实际应用的要求。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的检测结果融合的网络框架;
图3为本发明实施的基于卷积神经网络的融合结构的检测模型。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1和图2,本发明提供的一种基于彩色信息和深度信息融合的手势识别方法,包括以下步骤:
步骤1:通过kinect读取手势的彩色图和深度图,并将彩色图和深度图进行对齐;
本实施例中,kinect可以同时读取物体的彩色图和深度图,但是两张图在空间中不是完全对齐的,因此需要进行坐标转换,将彩色图和深度图进行对齐操作,在后期步骤2、3中进行训练模型时,可以运用同一个标签文件,将图片转换成带有标签的训练文件。
步骤2:通过采集的彩色图数据,对图片的手势进行标签标注,将标注过的图片输入到卷积神经网络CNN模型中,通过训练的卷积神经网络CNN模型,得到基于彩色图的手势识别模型;
本实施例中,步骤2的具体步骤如下:
步骤2.1:首先对彩色图中手势进行人工标签标注,然后将标签文件与彩色图一起转换成训练用的文件;
步骤2.2:进行迁移学习训练CNN模型,采用ssd_mobilenet作为网络框架基础,ssd_mobilenet网络输入彩色图,通过卷积神经网络CNN的不断迭代,从彩色图中的六个不同尺度的特征上提取包括颜色,形状,纹理等在内的特征,最后完成基于彩色图的手势识别模型。
卷积网络内根据不同的卷积核大小,进行卷积计算后就会得到特征图,不同的尺度请见图3;
步骤3:通过采集到的深度图数据,通过彩色图的标签标注文件,将深度数据转换成训练文件,将有标签的深度图输入到卷积神经网络CNN模型中,通过训练的卷积神经网络CNN模型,得到基于深度图的手势预测模型;
本实施例中,步骤3的具体步骤如下:
步骤3.1:首先对利用步骤2.1中彩色图的标签文件,然后将标签文件与深度图一起转换成训练用的文件;
步骤3.2:进行迁移学习训练CNN模型,采用ssd_mobilenet作为网络框架基础,ssd_mobilenet网络输入深度图,通过卷积神经网络CNN的不断迭代,从彩色图中的六个不同尺度的特征图上提取包括颜色,形状,纹理等在内的特征,最后完成基于深度图的手势识别模型。
卷积网络内根据不同的卷积核大小,进行卷积计算后就会得到特征图,不同的尺度请见图3;
步骤4:将得到的基于彩色图的手势预测模型和基于深度图的手势预测模型进行融合,得到基于彩色信息和深度信息融合的手势预测模型;
本实施例中,将得到的基于彩色图的手势预测模型和基于深度图的手势预测模型进行非极大值抑制后的输出进行融合,得到基于彩色信息和深度信息融合的手势预测模型;
请见图3,本实施例采用独立卷积网络分别对彩色图和深度图经过卷积,池化、Flatten、全连接操作后,通过concatenate层对彩色及深度网络通道的全连接层输出信息在输出层进行融合,得到融合模型;
其中,经过卷积,池化、Flatten、全连接操作后,通过concatenate层对彩色及深度网络通道的全连接层输出信息进行融合,共同通过输出层进行输出;
其中,卷积网络的第l层的第j个神经元输出为 为上层输出,fc(.)为卷积层的激活函数,M为选择的输入特征图的集合,wl为卷积网络第l层的权重,bl为网络层第l层的偏置;表示l层中i通道中j个神经元的输出,表示第l层中的输入特征图的集合;
当第l层是池化层时,该层第j个神经元的输出为
其中,fp(.)为卷积层的激活函数,p(.)为池化函数;
当l层是全连接层时,该层第j个神经元的输出为
其中,fF(.)为全连接层的激活函数,为全连接层第l层的偏置,为全连接层第l层的权重;
经过若干全连接层后,最后一层为Softmax输出层,该输出层与普通全连接层的区别在于,其激活函数为Softmax函数;
其中,融合函数为其中为第h层的第j个神经元的输出,fF为Softmax的激活函数;为彩色图像通道的权重和偏置,为深度图像通道的权重和偏置;为深度图像通道和彩色图像通道中最后一层输出层得到的神经元;为第h层中彩色通道和深度通道的输入特征图的集合。
步骤5:实时获取手势图片,基于彩色和深度融合的手势预测模型,对手势进行实时识别。
本实施例中,通过kinect实时获取手势图片,将图片输入到基于彩色和深度融合的手势预测模型,对手势进行实时识别,并实时输出手势标签数据与置信度分数。
本发明提出的基于彩色信息和深度信息融合的手势识别方法,可以在复杂环境下,充分考虑两者结合后的手势信息,进行高效手势识别,并通过手势识别与显示器进行交互。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于彩色信息和深度信息融合的手势识别方法,其特征在于,包括以下步骤:
步骤1:读取手势的彩色图和深度图,并将彩色图和深度图进行对齐;
步骤2:通过采集的彩色图数据,对图片的手势进行标签标注,将标注过的图片输入到卷积神经网络CNN模型中,通过训练的卷积神经网络CNN模型,得到基于彩色图的手势识别模型;
步骤3:通过采集到的深度图数据,通过彩色图的标签标注文件,将深度数据转换成训练文件,将有标签的深度图输入到卷积神经网络CNN模型中,通过训练的卷积神经网络CNN模型,得到基于深度图的手势预测模型;
步骤4:将得到的基于彩色图的手势预测模型和基于深度图的手势预测模型进行融合,得到基于彩色信息和深度信息融合的手势预测模型;
步骤5:实时获取手势图片,基于彩色和深度融合的手势预测模型,对手势进行实时识别。
2.根据权利要求1所述的基于彩色信息和深度信息融合的手势识别方法,其特征在于:步骤2中,采用迁移学习的方法训练卷积神经网络CNN模型,采用ssd_mobilenet作为网络框架基础,ssd_mobilenet网络输入彩色图,通过卷积神经网络CNN的不断迭代,从彩色图中的六个不同尺度的特征图上提取特征,最后完成基于彩色图的手势识别模型。
3.根据权利要求1所述的基于彩色信息和深度信息融合的手势识别方法,其特征在于:步骤3中,采用迁移学习的方法训练CNN模型,采用ssd_mobilenet作为网络框架基础,ssd_mobilenet网络输入深度图,通过卷积神经网络CNN的不断迭代,从深度图中的六个不同尺度的特征图上提取特征,最后完成基于深度图的手势识别模型。
4.根据权利要求1所述的基于彩色信息和深度信息融合的手势识别方法,其特征在于:步骤4中,将得到的基于彩色图的手势预测模型和基于深度图的手势预测模型进行非极大值抑制后的输出进行融合,得到基于彩色信息和深度信息融合的手势预测模型。
5.根据权利要求1所述的基于彩色信息和深度信息融合的手势识别方法,其特征在于:步骤4中,采用独立卷积网络分别对彩色图和深度图经过卷积,池化、Flatten、全连接操作后,通过concatenate层对彩色及深度网络通道的全连接层输出信息在输出层进行融合,得到融合模型;
其中,经过卷积,池化、Flatten、全连接操作后,通过concatenate层对彩色及深度网络通道的全连接层输出信息进行融合,共同通过输出层进行输出;
其中,卷积网络的第l层的第j个神经元输出为为上层输出,fc(.)为卷积层的激活函数,M为选择的输入特征图的集合,wl为卷积网络第l层的权重,bl为网络层第l层的偏置;表示l层中i通道中j个神经元的输出,表示第l层中的输入特征图的集合;
当第l层是池化层时,该层第j个神经元的输出为
其中,fp(.)为卷积层的激活函数,p(.)为池化函数;
当l层是全连接层时,该层第j个神经元的输出为
其中,fF(.)为全连接层的激活函数,为全连接层第l层的偏置,为全连接层第l层的权重;
经过若干全连接层后,最后一层为Softmax输出层,该输出层与普通全连接层的区别在于,其激活函数为Softmax函数;
其中,融合函数为其中为第h层的第j个神经元的输出,fF为Softmax的激活函数;为彩色图像通道的权重和偏置,为深度图像通道的权重和偏置;为深度图像通道和彩色图像通道中最后一层输出层得到的神经元;为第h层中彩色通道和深度通道的输入特征图的集合。
6.根据权利要求1-5任意一项所述的基于彩色信息和深度信息融合的手势识别方法,其特征在于:步骤4中,通过kinect实时采集到的图片输入到融合后的模型中,实时输出手势识别的标签数据和置信度分数。
CN201910624625.8A 2019-07-11 2019-07-11 一种基于彩色信息和深度信息融合的手势识别方法 Pending CN110502981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910624625.8A CN110502981A (zh) 2019-07-11 2019-07-11 一种基于彩色信息和深度信息融合的手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910624625.8A CN110502981A (zh) 2019-07-11 2019-07-11 一种基于彩色信息和深度信息融合的手势识别方法

Publications (1)

Publication Number Publication Date
CN110502981A true CN110502981A (zh) 2019-11-26

Family

ID=68585647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910624625.8A Pending CN110502981A (zh) 2019-07-11 2019-07-11 一种基于彩色信息和深度信息融合的手势识别方法

Country Status (1)

Country Link
CN (1) CN110502981A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160173A (zh) * 2019-12-19 2020-05-15 深圳市优必选科技股份有限公司 一种基于机器人的手势识别方法及机器人
CN111816166A (zh) * 2020-07-17 2020-10-23 字节跳动有限公司 声音识别方法、装置以及存储指令的计算机可读存储介质
CN113240044A (zh) * 2021-06-01 2021-08-10 北京理工大学 一种基于多Kinect的人体骨骼数据融合评价方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808131A (zh) * 2017-10-23 2018-03-16 华南理工大学 基于双通路深度卷积神经网络的动态手势识别方法
CN108932500A (zh) * 2018-07-09 2018-12-04 广州智能装备研究院有限公司 一种基于深度神经网络的动态手势识别方法及***
CN109344701A (zh) * 2018-08-23 2019-02-15 武汉嫦娥医学抗衰机器人股份有限公司 一种基于Kinect的动态手势识别方法
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808131A (zh) * 2017-10-23 2018-03-16 华南理工大学 基于双通路深度卷积神经网络的动态手势识别方法
CN108932500A (zh) * 2018-07-09 2018-12-04 广州智能装备研究院有限公司 一种基于深度神经网络的动态手势识别方法及***
CN109344701A (zh) * 2018-08-23 2019-02-15 武汉嫦娥医学抗衰机器人股份有限公司 一种基于Kinect的动态手势识别方法
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘壮等: "双通道Faster R-CNN在RGB-D手部检测中的应用", 《计算机科学》 *
宋立飞等: "多尺度输入3D卷积融合双流模型的行为识别方法", 《计算机辅助设计与图形学学报》 *
江都等: "基于双目视觉的手势识别研究", 《长江大学学报(自科版)》 *
王锟等: ""基于卷积神经网络的嵌入式手势检测算法"", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160173A (zh) * 2019-12-19 2020-05-15 深圳市优必选科技股份有限公司 一种基于机器人的手势识别方法及机器人
CN111160173B (zh) * 2019-12-19 2024-04-26 深圳市优必选科技股份有限公司 一种基于机器人的手势识别方法及机器人
CN111816166A (zh) * 2020-07-17 2020-10-23 字节跳动有限公司 声音识别方法、装置以及存储指令的计算机可读存储介质
CN113240044A (zh) * 2021-06-01 2021-08-10 北京理工大学 一种基于多Kinect的人体骨骼数据融合评价方法
CN113240044B (zh) * 2021-06-01 2021-12-24 北京理工大学 一种基于多Kinect的人体骨骼数据融合评价方法

Similar Documents

Publication Publication Date Title
Tian et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
CN107168527B (zh) 基于区域卷积神经网络的第一视角手势识别与交互方法
Wang et al. Actionness estimation using hybrid fully convolutional networks
CN102831404B (zh) 手势检测方法及***
CN108256421A (zh) 一种动态手势序列实时识别方法、***及装置
CN109961024A (zh) 基于深度学习的小麦田间杂草检测方法
CN103839267B (zh) 一种基于形态学建筑物指数的建筑物提取方法
CN108108674A (zh) 一种基于关节点分析的行人再识别方法
CN107391709A (zh) 一种基于新型注意模型进行图像字幕生成的方法
CN110502981A (zh) 一种基于彩色信息和深度信息融合的手势识别方法
CN105718878A (zh) 基于级联卷积神经网络的第一视角空中手写和空中交互方法
CN105536205A (zh) 一种基于单目视频人体动作感知的上肢训练***
CN109543630A (zh) 基于深度学习的遥感影像林地提取方法及***、存储介质、电子设备
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN106909887A (zh) 一种基于cnn和svm的动作识别方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN104361313A (zh) 一种基于多核学习异构特征融合的手势识别方法
CN108280488A (zh) 基于共享神经网络的可抓取物体识别方法
CN111597870A (zh) 一种基于注意力机制与多任务学习的人体属性识别方法
CN105069745A (zh) 基于普通图像传感器及增强现实技术的带表情变脸***及方法
CN113297988B (zh) 一种基于域迁移和深度补全的物体姿态估计方法
CN109886153A (zh) 一种基于深度卷积神经网络的实时人脸检测方法
CN112906550B (zh) 一种基于分水岭变换的静态手势识别方法
Vishwakarma et al. Simple and intelligent system to recognize the expression of speech-disabled person

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191126