CN113780140A - 基于深度学习的手势图像分割与识别方法以及装置 - Google Patents

基于深度学习的手势图像分割与识别方法以及装置 Download PDF

Info

Publication number
CN113780140A
CN113780140A CN202111016595.6A CN202111016595A CN113780140A CN 113780140 A CN113780140 A CN 113780140A CN 202111016595 A CN202111016595 A CN 202111016595A CN 113780140 A CN113780140 A CN 113780140A
Authority
CN
China
Prior art keywords
gesture
convolution
convolution kernel
segmentation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111016595.6A
Other languages
English (en)
Other versions
CN113780140B (zh
Inventor
崔振超
雷玉
齐静
杨文柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University
Original Assignee
Hebei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University filed Critical Hebei University
Priority to CN202111016595.6A priority Critical patent/CN113780140B/zh
Publication of CN113780140A publication Critical patent/CN113780140A/zh
Application granted granted Critical
Publication of CN113780140B publication Critical patent/CN113780140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的手势图像分割与识别方法以及装置。本发明中方法首先预处理手势图像,使其图像的大小尺寸固定。其次,在复杂背景中通过密集分割网络密集的连接不同空洞率的空洞卷积获取在不同视野上的手势多尺度信息,以提高特征表述的精确性。另外,为了融合不同层级上的细节和空间位置信息,提升整体网络的分割性能,密集分割网络采用编码器‑解码器结构,去掉了冗余的背景信息,实现了手势图像的精准分割。最后将仅仅保留手势图像的掩膜图输入到手势识别网络中,采用改进算法进行识别。通过本发明可以提高手势图像的分割性能,从而提高手势图像的识别率。

Description

基于深度学习的手势图像分割与识别方法以及装置
技术领域
本发明涉及人机交互、计算机视觉领域,具体地说是一种基于深度学习的手势图像分割与识别方法以及装置。
背景技术
基于手势识别的手势交互是人机交互领域中基本的交互方式之一,是机器视觉、计算机应用领域研究的重点方向之一。手势识别在无人机云台、AR(Augmented Reality)、VR(Virtual Reality)等领域有着广泛的应用,并且在多种环境中有着较强的优势,例如非接触环境、声音嘈杂或安静的环境等,所以如何增加手势识别的鲁棒性以及性能至关重要。
目前,手势交互方法主要分为基于传感设备以及基于视觉两种。对于基于传感设备的手势识别,如中国专利申请201810542738.9公开了一种手势识别方法及装置,用以提高手势识别的准确率,减少误操作。所述方法包括:当检测到触摸操作时,检测触点的运动轨迹;触点的运动轨迹用于表示控制终端设备的手势;检测触点的当前移动速率;根据当前移动速率与运动轨迹识别手势。中国专利申请201510552869.1公开了一种3D手势识别方法,包括以下步骤:S1、物理硬件对用户手势的3D坐标数据进行实时采集;S2、物理硬件对采集到的3D坐标数据进行预处理,形成反馈数据;S3、数据处理软件对反馈数据进行识别处理;S4、***输出数据识别处理结果。其可以有效解决手势识别需处理大量的数据,过程复杂,软件处理效率低的问题,但是需要额外设备的支持。由此可知,基于传感器的手势识别需要昂贵的辅助设备,交互方式不够友好自然,难以满足实际人机交互中的需求。
基于视觉的手势识别,如在文献[1]中,Wei等人则将目标检测模型SSD(singleshot multi-box detector,SSD)融合在手势分割中,但其中对肤色概率图进行阈值分割时,造成了手部细节信息的丢失。中国专利申请201910130815.4提出了改进胶囊网络与算法的手势图像分割与识别方法,其采用深度学习中的改进胶囊网络检测手部并生成二值化图像用于手势识别,包括以下步骤:拍摄和收集复杂背景下的手势图像;构建及训练U型残差胶囊网络获得二值化手势图像;定位手势矩形包围框;构建及训练改进矩阵胶囊网络实现手势图像的识别。但是目前基于视觉的手势识别方法在复杂背景、非均匀光照条件下,现有的网络收敛速度较慢,手势识别率并不高。
目前的技术研究多是应用于实际人机交互的手势识别方面,且需要额外设备支持。此外,由于手势的多变性,手部检测的结果易产生丰富的背景,从而干扰手势识别,降低交互性。所以如何有效的开发出识别速度快,受外部光照、环境影响不大的手势识别技术是值得研究的。经过相关技术检索发现,目前尚无充分满足以上要求的手势识别技术。
发明内容
本发明的目的就是提供一种基于深度学习的手势图像分割与识别方法以及装置,以解决现有方法对复杂背景下的手势图像识别率不高的问题。
本发明是这样实现的:一种基于深度学习的手势图像分割与识别方法,包括如下步骤:
a、对输入的手势图像进行重置大小操作,使图像大小尺寸固定;
b、把步骤a中手势图像输入到密集分割网络中,以此对密集分割网络进行训练,训练好后得到密集分割网络模型;
所述密集分割网络包括编码器和和解码器;编码器又包括深度卷积神经网络模块和改进型空洞空间金字塔池化模块;
所述改进型空洞空间金字塔池化模块包括并行和级联两种模式;在并行模式下,使用不同的空洞率对输入的特征图进行特征编码,以获取手势的多尺度信息;在级联模式中,除第一层、第二层之外的每一层都将并行模式的输出串联上一层的输出;然后再采用不同空洞率的反卷积,自下而上地与并行模式的输出相连接;
c、采用训练好的密集分割网络模型对手势图像进行分割,并对分割结果进行二值化处理;
d、将分割出的二值化手势图像输入到手势识别网络中,利用不同手势形状的手势图像训练手势识别网络,训练好后得到手势识别网络模型;
e、采用训练好的手势识别网络模型分类出不同形状的手势,实现手势图像的识别。
步骤b中,在并行模式中,使用的空洞率为{20,21,22,...,2n}的空洞卷积,其中一共包括n+1个空洞卷积对特征图进行多尺度特征提取。
取n=4,并行模式的输出见下式:
Figure BDA0003240045570000021
其中,x表示输入的特征图,d表示空洞率为{20,21,22,…,24}的数组,Hk,d(x)表示卷积核大小为k、空洞率为d的空洞卷积,oi表示5个并行模式的输出,从上到下依次为o0、o1、o2、o3、o4
级联模式的输出见下式:
Figure BDA0003240045570000031
pi表示级联模式的输出,
Figure BDA0003240045570000032
表示不同尺度的特征在通道上进行拼接;
采用不同空洞率的反卷积,自下而上地与并行模式的输出相连接,反卷积的具体公式如下:
Figure BDA0003240045570000033
Figure BDA0003240045570000034
式中,qj表示反卷积之后的输出,y表示改进型空洞空间金字塔池化模块的输出,DH3,d[j]表示卷积核为3,空洞率为d的反卷积。
所述深度卷积神经网络模块包括一个7×7的卷积核、一个3×3的卷积核以及4个残差组。4个残差组分别如下:第一个残差组共有3个残差块,每个残差块有3层,分别是1×1×64的卷积核、3×3×64的卷积核、1×1×256的卷积核,共9层,空洞率d=1,步长s=2;第二个残差组共有4个残差块,每个残差块有3层,分别是1×1×128的卷积核、3×3×128的卷积核、1×1×512的卷积核,共12层,空洞率d=1,步长s=1;第三个残差组共有6个残差块,每个残差块有3层,分别是1×1×256的卷积核、3×3×256的卷积核、1×1×1024的卷积核,共18层,空洞率d=2,步长s=1;第四个残差组共有3个残差块,每个残差块有3层,分别是1×1×512的卷积核、3×3×512的卷积核、1×1×2048的卷积核,共9层,空洞率d=4,步长s=1。
步骤b中,解码器的具体解码过程如下:将改进型空洞空间金字塔池化模块的输出结果与第四个残差组经过1×1卷积操作的特征在通道上进行特征拼接,将拼接结果进行第一次二倍上采样;接着将第一次二倍上采样的结果与第一个残差组经过1×1卷积操作的特征在通道上进行拼接,继续进行第二次二倍上采样;接着将第二次二倍上采样的结果与经过7×7卷积、1×1卷积操作的特征在通道上进行特征拼接,继续进行第三次二倍上采样;最后,依次使用3×3卷积核、3×3卷积核、1×1卷积核来细化手势分割的结果。
步骤d中,所述手势识别网络包括三个卷积层以及用于特征提取的激活函数ReLu和最大值池化MaxPooling,一个全连接层和一个Softmax层;
训练手势识别网络包括如下步骤:
进行第一组卷积操作:进行一次19×19×64的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作;
进行第二组卷积操作:进行一次17×17×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作;
进行第三组卷积操作:进行一次15×15×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作;
将第三组卷积操作的结果依次输入到Softmax层、全连接层输出最后的手势分类结果。
与上述方法对应的基于深度学习的手势图像分割与识别装置,包括如下模块:
手势图像获取模块,与预处理模块相接,用于获取彩色手势图像;
预处理模块,分别与所述手势图像获取模块、密集分割网络训练模块相接,用于对彩色手势图像进行裁剪操作,为密集分割网络训练模块提供固定大小的输入图像;
密集分割网络训练模块,分别与所述预处理模块和二值化图像获取模块相接,利用预处理模块输出的输入图像,训练手势分割模型,以获得优化后的分割模型,并输出手势分割结果;
二值化图像获取模块,分别与所述密集分割网络训练模块和手势识别模型训练模块相接,用于获取二值化手势图像;以及
手势识别模型训练模块,与所述二值化图像获取模块相接,利用二值化手势图像训练手势识别模型,以获得优化后的手势识别模型,并输出手势分类结果。
由于手势的多变性,手部检测的结果易产生丰富的背景,从而干扰手势识别,降低交互性。针对此问题,本发明提供一种基于深度学习的手势图像分割与识别方法,该方法基于密集分割网络和改进的手势识别网络,真正做到了手势局部特征和全局特征的融合,丰富了特征表达。本发明在类肤色、手脸遮挡以及非均匀的光照条件等情况下,都具有较强的鲁棒性并能够获得更高的识别率。
本发明所提供的一种基于深度学习的手势图像分割与识别方法的优点在于:
对于复杂背景中的手势存在尺度多样的问题,本发明在IASPP中的并行和级联模式中设计了不同的空洞率,并将不同空洞率的空洞卷积堆叠在一起,获得了不同感受野上的手势多尺度信息,丰富了特征表达。由此可知,IASPP将全局、高级的语义特征与局部、细节的语义特征联合在一起过滤了背景中的冗余信息,有助于提升分割精度。
本发明利用获取高级语义信息的编码器和利用编码阶段的信息对图进行放大以恢复图像的细节信息的解码器,得到了更加准确的手势分割结果。
本发明总体性能比一般主流算法更好,且更加适用于人机产品上。改进的手势识别网络的有益效果是:比原有网络方法更能有效提高手势识别率,在识别不同光照的手势图像时,比传统CNN方法的手势识别效果更好。
附图说明
图1为本发明的方法流程图。
图2为本发明中密集分割网络的训练图。
图3为本发明中手势识别网络的训练图。
图4为本发明中IASPP框架图。
图5为本发明中密集分割网络框架图。
图6为本发明整体网络框架图。
图7、图8为本发明与其他算法的分割效果对比图。
具体实施方式
本发明所提供的基于深度学习的手势图像分割与识别方法,大体来说包括如下3个步骤:
步骤1:对所有复杂背景下的手势图像,进行重置大小(resize操作),使其图像大小尺寸固定。
步骤2:把复杂背景下经过resize操作的手势图像输入到密集分割网络中,以此对密集分割网络进行训练,输出训练后的密集分割网络模型。最后使用训练后的密集分割网络模型输出二值化手势图像。
步骤3:将步骤2中分割出的手势图像输入到手势识别网络中,利用不同手势形状的手势图像训练手势识别网络,输出训练后的手势识别网络模型。使用此网络模型分类出每种不同的手势,实现手势图像的识别。
由于手势的多变性,手部检测的结果易产生丰富的背景,从而干扰手势识别,降低交互性。针对此问题,本发明提出了密集分割+手势识别的策略。手势分割可极大化地去除背景带来的冗余信息,减少对手势识别算法的干扰,从而提高手势识别的精确度。为了提高手势分割的精确度,本发明提出一种改进的空洞空间金字塔池化方法((Improved AtrousSpatial Pyramid Pooling,IASPP),该方法结合了级联模式和并行模式进行特征提取,获得了更加丰富的手部特征信息。
在复杂背景下用提出的密集分割网络过滤掉冗余的背景,把手势图像分割出来,将定位出来的手势区域输入到手势识别网络,采用改进算法进行识别。本发明提高了手势图像的分割性能,从而提高了手势图像的识别率。
上述步骤2中的密集分割网络主要由三部分组成,依次为:深度卷积神经网络(deep convolutional neural network,DCNN)、空洞空间金字塔池化(IASPP)模块和解码器。
结合图5,步骤2中其密集分割网络的输入是512×512×3的RGB图像,编码部分由DCNN和IASPP模块组成。其中DCNN是由1个7×7的卷积核(图中用Conv来表示),1个3×3的卷积核以及4个残差组构成的特征提取的骨干网络。如下面表1所示,第一个残差组共有3个残差块,每个残差块有3层分别是1×1×64的卷积核,3×3×64的卷积核,1×1×256的卷积核,共9层,空洞率d=1,步长s=2;第二个残差组共有4个残差块,每个残差块有3层分别是1×1×128的卷积核,3×3×128的卷积核,1×1×512的卷积核,共12层,空洞率d=1,步长s=1;第三个残差组共有6个残差块,每个残差块有3层分别是1×1×256的卷积核,3×3×256的卷积核,1×1×1024的卷积核,共18层,空洞率d=2,步长s=1;第四个残差组共有3个残差块,每个残差块有3层分别是1×1×512的卷积核,3×3×512的卷积核,1×1×2048的卷积核,共9层,空洞率d=4,步长s=1。
表1深度卷积神经网络(DCNN)参数设置
Figure BDA0003240045570000061
值得注意的是为了使解码器(Decoder)在减少计算量的同时融合更多的局部细节信息,在DCNN中的7×7卷积核,第一个残差组以及第四个残差组的输出特征后添加了1×1的卷积核。最后RGB图像在经过DCNN的特征提取之后,由第四个残差组最终输出的特征图变为原始图像的1/8。第四个残差组输出的特征图作为IASPP模块的输入。
如图4所示,密集分割网络中IASPP的设计构架结合了并行和级联两种模式。在并行模式下,本发明使用空洞率为{20,21,22,…,2n}的空洞卷积对输入的特征图进行特征编码,以获取手势的多尺度信息。本发明具体实施例中设置n=4,即共包括5个空洞卷积对特征图进行了多尺度特征提取,以产生更加丰富的特征表达。
取n=4,并行模式的输出定义为公式(1):
Figure BDA0003240045570000071
其中,x表示输入的特征图,用d表示空洞率为{20,21,22,…,24}的数组,用Hk,d(x)来表示卷积核大小为k、空洞率为d的空洞卷积,oi表示5个并行模式的输出,由图4可知从上到下依次为o0、o1、o2、o3、o4
在级联模式中,除第一、二层之外的每一层都将并行模式的输出串联上一层的输出,以更加密集的方式提取手势信息,产生更好的特征表达。具体地,首先使用k=3,d=2的空洞卷积对并行模式的输出结果o1继续进行特征提取,输出的结果为p1。接着使用k=3,d=4的空洞卷积对o2与p1在通道上进行拼接之后的特征继续进行特征提取,输出的结果为p2。最后使用k=3,d=8的空洞卷积对o3与p2在通道上进行拼接之后的特征继续进行特征提取,输出的结果为p3
IASPP中级联模式的输出定义为公式(2)。其中用
Figure BDA0003240045570000072
表示不同尺度的特征在通道上进行拼接(图4中英文表示为Concat,拼接也即串联),pi表示级联模式的输出。
Figure BDA0003240045570000073
由于图像分割对像素的空间位置信息极为敏感,为了在恢复图像大小的同时融合更多细节信息,本发明设计了带有不同空洞率的反卷积(在图4中用TC来表示),自下而上的与并行模式的输出相连接,用以恢复局部特征,使得图像边缘更加光滑。首先使用k=3,d=8的反卷积(即TC1)对o4与p3在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q1;接着使用k=3,d=4的反卷积(即TC2)对o3与q1在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q2;然后使用k=3,d=2的反卷积(即TC3)对o2与q2在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q3;再使用k=3,d=2的反卷积(即TC4)对o1与q3在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q4。最后IASPP的输出y既是o0与q4在通道上进行拼接之后的特征。
上段话用公式来表示如下:
Figure BDA0003240045570000081
Figure BDA0003240045570000082
式中,qj表示反卷积之后的输出,y表示IASPP最后的输出,DH3,d[j]表示卷积核为3,空洞率为d的反卷积。
本发明将DCCN中第四个残差组的输出特征图作为IASPP的输入,其利用不同空洞率的空洞卷积对DCNN输出的2048维特征进行特征编码,在丰富特征表达的同时挖掘多尺度的上下文信息。
结合图5所示,为了在解码(Decoder)过程中恢复更多的细节特征,在DCNN中选择了7×7卷积核、第一个残差组、第四个残差组的三个尺度特征。并且使用了三个上采样操作来调整特征图的大小,在每次上采样后将其与来自编码部分的特征图连接起来。解码过程具体是:首先将IASPP的输出结果y与第四个残差组经过1×1卷积操作的特征在通道上进行特征拼接,将拼接结果进行第一次二倍上采样(图中用Up表示);接着将第一次二倍上采样的结果与第一个残差组经过1×1卷积操作的特征在通道上进行拼接,继续进行第二次二倍上采样;接着将第二次二倍上采样的结果与经过7×7卷积,1×1卷积操作的特征在通道上进行特征拼接,继续进行第三次二倍上采样。最后,依次使用3×3卷积核,3×3卷积核,1×1卷积核来细化手势分割的结果。
在上述步骤3中,将来自密集分割网络的信息输入到手势识别网络模型中,继续进行分类。
如图6所示,在手势识别网络模型中,由三个卷积层以及用于特征提取的激活函数ReLu和最大值池化MaxPooling,一个Softmax层和一个全连接层构成了手势分类网络。在分类过程中,首先将密集分割网络模型的输出随机分为训练集和测试集,然后再作为输入输入到手势分类层。在手势分类方法中,所执行的操作依序包括第一组卷积操作(第一组卷积进行一次19×19×64的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作);第二组卷积操作(第二组卷积进行一次17×17×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作);第三组卷积操作(第三组卷积进行一次15×15×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作);最后将第三组卷积操作的结果依次输入到Softmax层,全连接层输出最后的手势分类结果。
结合图2和图3,与上述方法所对应的一种基于深度学习的手势图像分割与识别装置,包括以下模块:
手势图像获取模块,与第一预处理模块相接,用于获取彩色手势图像。
第一预处理模块,分别与所述手势图像获取模块、密集分割网络训练模块相接,用于对彩色手势图像进行裁剪操作,为密集分割网络训练模块提供固定大小的输入图像。
密集分割网络训练模块,分别与所述第一预处理模块和手势图像分割模块相接,利用第一预处理模块输出的输入图像,训练手势分割模型,以获得优化后的分割模型。
手势图像分割模块,分别与所述密集分割网络训练模块和图像分割结果输出模块相接,用于通过优化的手势分割模型对手势进行分割。
图像分割结果输出模块,与所述手势图像分割模块相接,用于将分割后的手势图像进行输出。
第一预处理模块处理后的数据分为训练数据和测试数据,密集分割网络训练模块使用训练数据训练密集分割网络模型,使分割图像与真实的手势分割标签进行交叉熵损失计算来获得分割网络整体损失,使用反向传播思想来不断的减小损失从而拟合分割模型,得出稳定的分割模型。采用优化后的密集分割网络模型对测试数据或其他非测试数据进行手势图像分割,最终由图像分割结果输出模块输出手势图像分割结果。
图2中的输出作为图3中的输入,即:由图像分割结果输出模块输出的手势图像分割结果进入二值化图像获取模块,通过二值化图像获取模块获取二值化手势图像。具体地,二值化图像获取是将分割结果送入sigmoid函数中将其调整到0-1的范围内,并使用基于阈值的方法来获得最终的二值化图像。如大于0.5则为1,否则为0。
二值化图像获取模块还与第二预处理模块相接,第二预处理模块用于对二值化手势图像进行裁剪操作,为手势识别模型训练模块提供固定大小的输入图像。
手势识别模型训练模块与第二预处理模块相接,用于对固定大小的二值化手势图像进行识别。具体是:在手势识别模型训练模块中,首先构建手势识别模型,手势识别模型由三个卷积层(第一层中有64个卷积核,其大小为19×19,第二层中有128个卷积核,其大小17×17,第三层中有128个卷积核,卷积核的大小分别为15×15,步长都为2)以及用于特征提取的ReLu和MaxPooling层,一个全连接层和一个Softmax层构成;初始化参数,进行手势模型识别,将识别结果与真实标签进行交叉熵损失计算,如果损失达到预期,则获得手势识别模型,否则,使用反向传播思想来不断的减小损失,更新参数,继续进行手势模型识别。
在手势识别模型训练模块中,同样需要将分割模型的输出随机分为训练集和测试集,然后再作为输入输入到手势识别模型。
细化来说,如图1所示,本发明所提供的基于深度学习的手势图像分割与识别方法,包括如下步骤:
步骤1:输入彩色手势图像。本发明实施例中所输入的彩色手势图像选自公共视数据集OUTHANDS和HGR数据集中。所输入的彩色手势图像,是为后续训练和验证网络模型打基础的。
步骤2:对输入图像进行预处理使得图像达到固定维度。
将手势图像调整(裁剪、重置大小)到512×512像素大小,本步骤中,OUTHANDS数据集中其预处理后图像数量为3000张,其中2000张图像作为训练集,1000张图像作为验证集。HGR数据集预处理后图像数量为899张,其中630张图像作为训练集,269张图像作为验证集。
步骤3:构建密集分割网络。
本步骤中所设置的密集分割网络是针对复杂背景中的手势而专门设计。该步骤的神经网络结构图如图5所示,该步骤中的IASPP模块结构图如图4所示。本步骤具体如下:
将步骤2中的训练数据(此处仅利用预处理后的训练集)作为步骤3的输入图像。对输入图像首先进行两个卷积操作,所用的卷积核大小依次为7×7,3×3,接着依次送入第一残差组,第二残差组,第三残差组,第四残差组。最后RGB图像在经过DCNN的特征提取之后,由第四个残差组最终输出的特征图变为原始图像的1/8。
将第四个残差组的输出特征图作为IASPP模块的输入,特征图进入IASPP模块之后,在并行模式下,首先利用五个不同空洞率的卷积核对特征层进行卷积操作,由于用到了不同空洞率的卷积核,因此得到不同大小的特征层,在丰富特征表达的同时挖掘多尺度的上下文信息,由图4可知从上到下依次为o0、o1、o2、o3、o4。在级联模式中,首先使用k=3,d=2的空洞卷积对并行模式的输出结果o1继续进行特征提取,输出的结果为p1。接着使用k=3,d=4的空洞卷积对o2与p1在通道上进行拼接之后的特征继续进行特征提取,输出的结果为p2。最后使用k=3,d=8的空洞卷积对o3与p2在通道上进行拼接之后的特征继续进行特征提取,输出的结果为p3
本发明还设计了带有不同空洞率的反卷积,自下而上的与并行模式的输出相连接,用以恢复局部特征,使得图像边缘更加光滑。首先使用k=3,d=8的反卷积对o4与p3在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q1;接着使用k=3,d=4的反卷积对o3与q1在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q2;然后使用k=3,d=2的反卷积对o2与q2在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q3;使用k=3,d=2的反卷积对o1与q3在通道上进行拼接之后的特征图进行图像大小还原,其输出的结果为q4。最后IASPP模块的输出y既是o0与q4在通道上进行拼接之后的特征。
对于解码器,为了在解码过程中恢复更多的细节特征,本文选择了7×7卷积核、第一个残差组、第四个残差组的三个尺度特征。并且使用了三个上采样操作来调整特征图的大小,上采样操作是将特征层中每一层特征采用线性插值的方式扩充到相应维度,而其层数不变。最后,使用3×3和1×1卷积核来细化手势分割的结果。
步骤4:使用手势数据对手势分割模型进行拟合训练得出稳定的分割模型
将手势图像作为输入送入密集分割网络中得出分割结果,并与真实的手势分割标签进行交叉熵损失计算来获得密集分割网络整体损失。并使用反向传播思想来不断的减小损失从而拟合分割模型,得出稳定的密集分割模型。通过本步骤,最终训练得到基于卷积神经网络的手势分割模型,依据分割模型可对手势图像进行分割。
步骤5:步骤4中得出的分割结果进行二值化处理
即将分割结果送入sigmoid函数中将其调整到0-1的范围内,并使用基于阈值的方法来获得最终的二值化图像。如大于0.5则为1,否则为0。
步骤6:构建手势识别模型
该模型由三个卷积层以及用于特征提取的ReLu和MaxPooling,一个全连接层和一个Softmax层构成手势分类层。
在分类算法中,首先步骤5中的二值化图像进行随机裁剪操作,裁剪比例为原始图像(512×512)的0.75-1倍不等,然后再重置图像大小为512×512像素并作为输入图像输入到手势分类层。
其所执行的操作依序包括第一组卷积操作(第一组卷积进行一次19×19×64的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作);第二组卷积操作(第二组卷积进行一次17×17×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作);第三组卷积操作(第三组卷积进行一次15×15×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作);最后将第三组卷积操作的结果依次输入到Softmax层,全连接层输出最后的手势分类结果。其中手势识别模型中使用分类的交叉熵损失来训练识别模型,对网络模型参数进行调整,训练完成后,保存模型参数。
步骤7:图像分类
当完成模型的训练后,对于一张测试图像,首先需经过密集分割网络来获取手势分割图,接着使用经过二值化的图像继而送入手势识别模型进行最终分类。
为了进一步证明本发明提出的密集分割+手势分类组合型模型的有效性,本发明实施例在OUTHANDS和HGR公共数据集上进行手势分割实验,在NUS-II数据集上与其他基于深度学习的识别算法进行了对比。
如表2所示,本发明提出的密集分割+手势分类的识别精度可达98.61%,比手势识别算法提高了3.99%,并且在优于其他对比算法的同时其运行时间并没有大幅度增加。由此可见,本发明提出的分割算法可极大化的过滤背景中的干扰信息,提高手势识别的准确率。
表2在OUTHANDS数据集上的识别率
Figure BDA0003240045570000121
从表3中,可以看出基于密集分割网络的分割算法在手势分割方面有着较大优势,其中准确率(Precision,Pr)、召回率(Recall,Re)、平衡F分数(F-score)及ROC曲线下方的面积大小(AUC)等指标分别达到了0.9948、0.9929、0.9939、0.9982。这些评价指标均高于对比算法,这说明了本发明所提方法在各方面优于对比算法。
表3本文算法与机器学习方法在HGR数据集下的对比结果
Figure BDA0003240045570000122
为了进一步证明本发明提出的密集分割+手势识别算法可以提高手势识别率,在NUS-II数据集上与其他基于深度学习的算法进行了对比。结果如表4所示,由表4可知,本发明方法的手势识别率可达98.63%,比次优算法提高了0.33%。由此可见,本发明可使得手势与背景的分割更加准确,可进一步提高手势识别率。
表4在NUS-II数据集上的识别率
Figure BDA0003240045570000131
图7和图8示出了本发明方法与其他方法分割和识别手势的结果对比图。由图中可以看成,本发明方法(对应IASPP-ResNet)相比其他方法与真实标签(GT)更为接近,可见本发明方法要优于其他方法。
本发明说明书中所涉及到的参考文献如下:
[1]卫保国,徐勇,刘金玮,周佳明.融合SSD目标检测的自适应手势分割方法[J].信号处理,2020,36(07):1038-1047.
WEI Bao-guo,XU Yong,LIU Jin-wei,ZHOU Jia-ming.Adaptive gesturesegmentation based on SSD object detection[J].Journal of Signal Processing,2020,36(07):1038-1047.(in Chinese)
[2]Adithya V,Rajesh R.A deep convolutional neural network approachfor static hand gesture recognition[J].Procedia Computer Science,2020,171:2353-2361.
[3]Zhang Q,Yang M,Kpalma K,et al.Segmentation of hand posture againstcomplex backgrounds based on saliency and skin colour detection[J].IAENGInternational Journal of Computer Science,2018,45(3):435-444.
[4]J.Sun,T.Ji,S.Zhang,J.Yang,G.Ji.Research on the hand gesturerecognition based on deep learning[A].2018 12th International Symposium onAntennas,Propagation and EM Theory(ISAPE)[C].Hangzhou,China:IEEE,2018.1-4.
[5]Arenas J O P,Moreno R J,
Figure BDA0003240045570000132
R D H.Convolutional neural networkwith a DAG architecture for control of a robotic arm by means of handgestures[J].Contemporary Engineering Sciences,2018,11(12):547-557.
[6]Tan Y S,Lim K M,Tee C,et al.Convolutional neural network withspatial pyramid pooling for hand gesture recognition[J].Neural Computing andApplications,2020:1-13.

Claims (10)

1.一种基于深度学习的手势图像分割与识别方法,其特征是,包括如下步骤:
a、对输入的手势图像进行重置大小操作,使图像大小尺寸固定;
b、把步骤a中手势图像输入到密集分割网络中,以此对密集分割网络进行训练,训练好后得到密集分割网络模型;
所述密集分割网络包括编码器和和解码器;编码器又包括深度卷积神经网络模块和改进型空洞空间金字塔池化模块;
所述改进型空洞空间金字塔池化模块包括并行和级联两种模式;在并行模式下,使用不同的空洞率对输入的特征图进行特征编码,以获取手势的多尺度信息;在级联模式中,除第一层、第二层之外的每一层都将并行模式的输出串联上一层的输出;然后再采用不同空洞率的反卷积,自下而上地与并行模式的输出相连接;
c、采用训练好的密集分割网络模型对手势图像进行分割,并对分割结果进行二值化处理;
d、将分割出的二值化手势图像输入到手势识别网络中,利用不同手势形状的手势图像训练手势识别网络,训练好后得到手势识别网络模型;
e、采用训练好的手势识别网络模型分类出不同形状的手势,实现手势图像的识别。
2.根据权利要求1所述的基于深度学习的手势图像分割与识别方法,其特征是,步骤b中,在并行模式中,使用的空洞率为{20,21,22,...,2n}的空洞卷积,其中一共包括n+1个空洞卷积对特征图进行多尺度特征提取。
3.根据权利要求2所述的基于深度学习的手势图像分割与识别方法,其特征是,取n=4,并行模式的输出见下式:
Figure FDA0003240045560000011
其中,x表示输入的特征图,d表示空洞率为{20,21,22,…,24}的数组,Hk,d(x)表示卷积核大小为k、空洞率为d的空洞卷积,oi表示5个并行模式的输出,从上到下依次为o0、o1、o2、o3、o4
级联模式的输出见下式:
Figure FDA0003240045560000012
pi表示级联模式的输出,
Figure FDA0003240045560000013
表示不同尺度的特征在通道上进行拼接;
采用不同空洞率的反卷积,自下而上地与并行模式的输出相连接,反卷积的具体公式如下:
Figure FDA0003240045560000021
Figure FDA0003240045560000022
式中,qj表示反卷积之后的输出,y表示改进型空洞空间金字塔池化模块的输出,DH3,d[j]表示卷积核为3,空洞率为d的反卷积。
4.根据权利要求1所述的基于深度学习的手势图像分割与识别方法,其特征是,步骤b中,所述深度卷积神经网络模块包括一个7×7的卷积核、一个3×3的卷积核以及4个残差组。
5.根据权利要求4所述的基于深度学习的手势图像分割与识别方法,其特征是,4个残差组分别如下:第一个残差组共有3个残差块,每个残差块有3层,分别是1×1×64的卷积核、3×3×64的卷积核、1×1×256的卷积核,共9层,空洞率d=1,步长s=2;第二个残差组共有4个残差块,每个残差块有3层,分别是1×1×128的卷积核、3×3×128的卷积核、1×1×512的卷积核,共12层,空洞率d=1,步长s=1;第三个残差组共有6个残差块,每个残差块有3层,分别是1×1×256的卷积核、3×3×256的卷积核、1×1×1024的卷积核,共18层,空洞率d=2,步长s=1;第四个残差组共有3个残差块,每个残差块有3层,分别是1×1×512的卷积核、3×3×512的卷积核、1×1×2048的卷积核,共9层,空洞率d=4,步长s=1。
6.根据权利要求5所述的基于深度学习的手势图像分割与识别方法,其特征是,步骤b中,解码器的具体解码过程如下:将改进型空洞空间金字塔池化模块的输出结果与第四个残差组经过1×1卷积操作的特征在通道上进行特征拼接,将拼接结果进行第一次二倍上采样;接着将第一次二倍上采样的结果与第一个残差组经过1×1卷积操作的特征在通道上进行拼接,继续进行第二次二倍上采样;接着将第二次二倍上采样的结果与经过7×7卷积、1×1卷积操作的特征在通道上进行特征拼接,继续进行第三次二倍上采样;最后,依次使用3×3卷积核、3×3卷积核、1×1卷积核来细化手势分割的结果。
7.根据权利要求1所述的基于深度学习的手势图像分割与识别方法,其特征是,步骤d中,所述手势识别网络包括三个卷积层以及用于特征提取的激活函数ReLu和最大值池化MaxPooling,一个全连接层和一个Softmax层;
训练手势识别网络包括如下步骤:
进行第一组卷积操作:进行一次19×19×64的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作;
进行第二组卷积操作:进行一次17×17×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作;
进行第三组卷积操作:进行一次15×15×128的卷积,接着进行ReLu激活,最后利用最大池化操作作为下采样操作;
将第三组卷积操作的结果依次输入到Softmax层、全连接层输出最后的手势分类结果。
8.一种基于深度学习的手势图像分割与识别装置,其特征是,包括如下模块:
手势图像获取模块,与预处理模块相接,用于获取彩色手势图像;
预处理模块,分别与所述手势图像获取模块、密集分割网络训练模块相接,用于对彩色手势图像进行裁剪操作,为密集分割网络训练模块提供固定大小的输入图像;
密集分割网络训练模块,分别与所述预处理模块和二值化图像获取模块相接,利用预处理模块输出的输入图像,训练手势分割模型,以获得优化后的分割模型,并输出手势分割结果;
二值化图像获取模块,分别与所述密集分割网络训练模块和手势识别模型训练模块相接,用于获取二值化手势图像;以及
手势识别模型训练模块,与所述二值化图像获取模块相接,利用二值化手势图像训练手势识别模型,以获得优化后的手势识别模型,并输出手势分类结果;
在所述密集分割网络训练模块中,密集分割网络包括编码器和和解码器;编码器又包括深度卷积神经网络模块和改进型空洞空间金字塔池化模块;所述改进型空洞空间金字塔池化模块包括并行和级联两种模式;在并行模式下,使用不同的空洞率对输入的特征图进行特征编码,以获取手势的多尺度信息;在级联模式中,除第一层、第二层之外的每一层都将并行模式的输出串联上一层的输出;然后再采用不同空洞率的反卷积,自下而上地与并行模式的输出相连接。
9.根据权利要求8所述的基于深度学习的手势图像分割与识别装置,其特征是,所述深度卷积神经网络模块包括一个7×7的卷积核、一个3×3的卷积核以及4个残差组;4个残差组分别如下:第一个残差组共有3个残差块,每个残差块有3层,分别是1×1×64的卷积核、3×3×64的卷积核、1×1×256的卷积核,共9层,空洞率d=1,步长s=2;第二个残差组共有4个残差块,每个残差块有3层,分别是1×1×128的卷积核、3×3×128的卷积核、1×1×512的卷积核,共12层,空洞率d=1,步长s=1;第三个残差组共有6个残差块,每个残差块有3层,分别是1×1×256的卷积核、3×3×256的卷积核、1×1×1024的卷积核,共18层,空洞率d=2,步长s=1;第四个残差组共有3个残差块,每个残差块有3层,分别是1×1×512的卷积核、3×3×512的卷积核、1×1×2048的卷积核,共9层,空洞率d=4,步长s=1。
10.根据权利要求8所述的基于深度学习的手势图像分割与识别装置,其特征是,在手势识别模型训练模块中,利用了由三个卷积层以及用于特征提取的激活函数ReLu和最大值池化MaxPooling,一个全连接层和一个Softmax层构成的手势识别网络。
CN202111016595.6A 2021-08-31 2021-08-31 基于深度学习的手势图像分割与识别方法以及装置 Active CN113780140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111016595.6A CN113780140B (zh) 2021-08-31 2021-08-31 基于深度学习的手势图像分割与识别方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111016595.6A CN113780140B (zh) 2021-08-31 2021-08-31 基于深度学习的手势图像分割与识别方法以及装置

Publications (2)

Publication Number Publication Date
CN113780140A true CN113780140A (zh) 2021-12-10
CN113780140B CN113780140B (zh) 2023-08-04

Family

ID=78840393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111016595.6A Active CN113780140B (zh) 2021-08-31 2021-08-31 基于深度学习的手势图像分割与识别方法以及装置

Country Status (1)

Country Link
CN (1) CN113780140B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241245A (zh) * 2021-12-23 2022-03-25 西南大学 一种基于残差胶囊神经网络的图像分类***
CN114333804A (zh) * 2021-12-27 2022-04-12 北京达佳互联信息技术有限公司 音频分类识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194659A (ja) * 2011-03-15 2012-10-11 Shinsedai Kk ジェスチャ認識装置、ジェスチャ認識方法、及び、コンピュータプログラム
CN108334814A (zh) * 2018-01-11 2018-07-27 浙江工业大学 一种基于卷积神经网络结合用户习惯性行为分析的ar***手势识别方法
KR20180130869A (ko) * 2017-05-30 2018-12-10 주식회사 케이티 손 제스처를 검출하는 컨볼루션 신경망, 그리고 손 제스처에 의한 기기 제어시스템
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN112950652A (zh) * 2021-02-08 2021-06-11 深圳市优必选科技股份有限公司 机器人及其手部图像分割方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194659A (ja) * 2011-03-15 2012-10-11 Shinsedai Kk ジェスチャ認識装置、ジェスチャ認識方法、及び、コンピュータプログラム
KR20180130869A (ko) * 2017-05-30 2018-12-10 주식회사 케이티 손 제스처를 검출하는 컨볼루션 신경망, 그리고 손 제스처에 의한 기기 제어시스템
CN108334814A (zh) * 2018-01-11 2018-07-27 浙江工业大学 一种基于卷积神经网络结合用户习惯性行为分析的ar***手势识别方法
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN112950652A (zh) * 2021-02-08 2021-06-11 深圳市优必选科技股份有限公司 机器人及其手部图像分割方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI QIAN, ET AL: "Temporal Segment Connection Network for Action Recognition", IEEE ACCESS, vol. 8, pages 179118 - 179127, XP011812974, DOI: 10.1109/ACCESS.2020.3027386 *
王龙;刘辉;王彬;李鹏举: "结合肤色模型和卷积神经网络的手势识别方法", 计算机工程与应用, vol. 53, no. 6, pages 209 - 214 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241245A (zh) * 2021-12-23 2022-03-25 西南大学 一种基于残差胶囊神经网络的图像分类***
CN114241245B (zh) * 2021-12-23 2024-05-31 西南大学 一种基于残差胶囊神经网络的图像分类***
CN114333804A (zh) * 2021-12-27 2022-04-12 北京达佳互联信息技术有限公司 音频分类识别方法、装置、电子设备及存储介质
CN114333804B (zh) * 2021-12-27 2024-07-12 北京达佳互联信息技术有限公司 音频分类识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113780140B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
Kowsalya et al. Recognition of Tamil handwritten character using modified neural network with aid of elephant herding optimization
CN109948453B (zh) 一种基于卷积神经网络的多人姿态估计方法
CN110909801B (zh) 基于卷积神经网络的数据分类方法、***、介质及设备
CN111209921A (zh) 基于改进的YOLOv3网络的车牌检测模型及构建方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN114529982B (zh) 基于流式注意力的轻量级人体姿态估计方法及***
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN113159232A (zh) 一种三维目标分类、分割方法
CN113780140B (zh) 基于深度学习的手势图像分割与识别方法以及装置
CN113920516B (zh) 一种基于孪生神经网络的书法字骨架匹配方法及***
CN112966574A (zh) 人体三维关键点预测方法、装置及电子设备
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN110555383A (zh) 一种基于卷积神经网络和3d估计的手势识别方法
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
CN114937285A (zh) 动态手势识别方法、装置、设备及存储介质
CN110555406B (zh) 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法
CN116797640A (zh) 一种面向智能伴行巡视器的深度及3d关键点估计方法
CN113673325B (zh) 一种多特征人物情绪识别方法
CN112580721B (zh) 一种基于多分辨率特征融合的目标关键点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant