CN111814626A - 一种基于自注意力机制的动态手势识别方法和*** - Google Patents

一种基于自注意力机制的动态手势识别方法和*** Download PDF

Info

Publication number
CN111814626A
CN111814626A CN202010607626.4A CN202010607626A CN111814626A CN 111814626 A CN111814626 A CN 111814626A CN 202010607626 A CN202010607626 A CN 202010607626A CN 111814626 A CN111814626 A CN 111814626A
Authority
CN
China
Prior art keywords
dynamic gesture
layer
convolution
neural network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010607626.4A
Other languages
English (en)
Other versions
CN111814626B (zh
Inventor
侯建华
麻建
项俊
王超
方长江
蓝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202010607626.4A priority Critical patent/CN111814626B/zh
Publication of CN111814626A publication Critical patent/CN111814626A/zh
Application granted granted Critical
Publication of CN111814626B publication Critical patent/CN111814626B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自注意力机制的动态手势识别方法,包括:获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,将获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中。本发明采用多模输入策略来描述动态手势的发生过程,并且利用非局部信息统计的空间自注意力机制计算出特征图上任意距离的两个元素之间的依赖关系,进而直接获取整个特征图上全局信息对任意元素的影响。这种方式不仅不会丢失细节信息,而且拥有计算效率高、可迁移能力强等优点,并能解决现有的动态手势识别算法中存在的时间资源、计算资源消耗大、缺少对手势发生的关键区域的突出以及非关键区域的抑制等技术问题。

Description

一种基于自注意力机制的动态手势识别方法和***
技术领域
本发明属于模式识别技术领域,更具体地,涉及一种基于自注意力机制(Self-attention mechanism)的动态手势识别方法和***。
背景技术
动态手势识别是计算机视觉领域的一大研究热点,其主要目的在于从连续的图像序列中提取鲁棒的时空域特征,并根据该特征正确的识别出序列所携带手势的类别。目前,作为现代人机交互的一种重要方法,动态手势识别技术已经广泛应用手语识别、智能驾驶、智能家居等领域。
现有的动态手势识别方法主要采用基于深度学习的算法,其拥有良好的特征学习与表达能力,能够在复杂场景下取得一定的识别性能,获得了广泛的关注和发展,已然成为当下的主流实现方法。根据空间信息与时序信息的编码方式,常用的基于深度学习的算法可以分成两大类:一类是基于2D卷积神经网络(2D Convolutional Neural Networks,简称2DCNNs)的双流(Two stream)网络,另一类是基于3D卷积神经网络(3D ConvolutionalNeural Networks,3DCNNs)的网络。
然而,上述基于深度学习的算法仍然存在一些不可忽略的缺陷:
第一、由于现存的多数算法都直接对输入数据进行分析处理,未经过稀疏采样,因此,该类算法较大的占用了时间资源和计算资源。
第二、由于动态手势形成过程复杂且环境干扰较大,因此该类算法缺少对手势发生的关键区域的突出以及非关键区域的抑制。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自注意力机制的动态手势识别方法和***。其目的在于,采用多模输入策略来描述动态手势的发生过程,并且利用非局部信息统计的空间自注意力机制计算出特征图上任意距离的两个元素之间的依赖关系,进而直接获取整个特征图上全局信息对任意元素的影响。这种方式不仅不会丢失细节信息,而且拥有计算效率高、可迁移能力强等优点,并能解决现有的动态手势识别算法中存在的时间资源、计算资源消耗大、缺少对手势发生的关键区域的突出以及非关键区域的抑制等技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于自注意力机制的动态手势识别方法,包括以下步骤:
(1)获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
(2)将步骤(1)获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
(3)将步骤(1)获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
(4)将步骤(1)获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值,将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
优选地,步骤(1)具体为,首先将获得的视频图像序列V均匀分成N个视频段[v1,v2,…vN],从每个视频段vi中随机选取一帧图片si,并获取该帧图片si的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据,其中N为自然数,其最小值为1,最大值为获得的视频图像序列V中的总帧数,且有i∈[1,N]。
优选地,第一、第二和第三神经网络模型的结构均为:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第二层是卷积模块层,由卷积层、BN层、激活函数按顺序前后串联形成;
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第四层是自注意力模块层,包括多个卷积层与池化层;
第五层是自注意力模块层,其与第四层具有完全相同的结构;
第六层是输出模块层,其是由池化层、归一化层(Softmax)按顺序前后串联形成。
优选地,每个自注意力模块层包括四路一级卷积分支;
第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成;
第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成;
第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成;
第一路一级卷积分支是由一个1*1的卷积层形成,且与四路二级卷积分支分别串联,用于实现自注意力机制。
优选地,第一路二级卷积分支的输出数据等于输入数据x∈RC×W×H,其中C、W和H分别表示输入数据的通道数、宽和高,
在第二路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵f(x)∈RC×M,然后该二维矩阵通过转置操作变为f(x)T
在第三路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵g(x)∈RC×M
在第四路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵h(x)∈RC×M
随后,将第二路二级卷积分支中转置后获得的f(x)T与第三路二级卷积分支中重塑后获得的g(x)进行相乘,获得乘积HM′=f(x)T*g(x),然后对乘积进行归一化处理,以获得归一化结果
Figure BDA0002559733360000041
随后,将归一化结果
Figure BDA0002559733360000042
进行转置处理,并将转置后的结果
Figure BDA0002559733360000043
与第四路二级卷积分支中重塑后产生的结果h(x)进行相乘,以获得乘积:
Figure BDA0002559733360000044
最后,将乘积HM进行重塑处理,并根据重塑处理结果与输入数据x生成二级卷积分支的最终处理结果FA:
FA=x+gamma*RC×W×H(HM)
其中,gamma是一个可学习的参数,初值为0,其随着自注意力机制的不断学习,该值将逐渐更新到合适的数值;RC×W×H(HM)表示将HM的空间维度从C×M重塑为C×W×H。
优选地,第一、第二和第三神经网络模型中的每一个神经网络模型都是通过以下过程训练得到的:
(a)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
(b)根据步骤(a)获得的训练集,并使用神经网络模型的损失函数计算神经网络模型的损失值。
(c)根据步骤(b)获得的损失值,并利用反向传播算法对神经网络模型的所有权重参数进行更新和优化,以获得更新后的神经网络模型;
(d)对步骤(c)更新后的神经网络模型进行迭代训练,直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(b)和(c),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的神经网络模型;
(e)使用步骤(a)获得的数据集中的测试集对步骤(d)迭代训练后的第一神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的神经网络模型。
优选地,神经网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵,具体为:
Figure BDA0002559733360000051
其中,m表示神经网络单次处理的样本个数,n表示步骤(a)的训练集中所包括的动态手势类别数,yi,j表示第i个样本在第j类上的真实标签,
Figure BDA0002559733360000052
表示第i个样本在第j类上的预测概率值。
优选地,步骤(c)中,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0,反向传播算法是采用Adam-Optimizer作为优化器。
按照本发明的另一方面,提供了一种基于自注意力机制的动态手势识别***,包括:
第一模块,用于获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
第二模块,用于将第一模块获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
第三模块,用于将第一模块获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
第四模块,用于将第一模块获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
第五模块,用于将第二模块得到的对应于每个动态手势类别的RGB模态输出结果、第三模块得到的对应于每个动态手势类别的深度模态输出结果、以及第四模块得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值,将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于采用了步骤(1)对获得的视频图像序列进行稀疏采样,再将采样结果送入神经网络模型。相比于将所有的视频图像序列作为网络输入,不仅大大减少了输入数据的冗余信息,而且减少了神经网络的计算量,降低了时间资源、计算资源的消耗。因此能够解决现有方法中存在的时间资源、计算资源的消耗大的问题。
(2)本发明由于采用了步骤(2)、(3)和(4),在动态手势识别网络模型的构建过程中实现了自注意力机制,同时借助自注意力机制,在网络特征的学习过程中考虑了特征图上全局信息对任意元素的影响,且对任意两元素之间的依赖关系进行了***化建模,突出了特征图的关键部分,抑制了非关键部分。因此解决了现有方法中存在的缺少对手势发生的关键区域的突出以及非关键区域的抑制问题。
(3)本发明由于采用了步骤(5),利用RGB模态、深度模态以及光流模态来共同描述一个动态手势的发生过程,融合了多个模态的判别信息,增强了算法的鲁棒性,提高了动态手势识别的稳定性。
附图说明
图1是本发明基于自注意力机制的动态手势识别方法的流程示意图;
图2是本发明方法的步骤(1)中获取的多个网络输入数据,其中图2(a)是RGB模态数据,图2(b)是深度模态数据,图2(c)是垂直方向的光流数据,图2(d)是水平方向的光流数据;
图3是本发明方法的步骤(2)中所用的卷积模块层结构示意图;
图4是本发明方法的步骤(2)中所用的输出模块层结构示意图;
图5是本发明方法的步骤(2)中所用的自注意力模块层结构示意图;
图6是本发明方法的步骤(5)的工作示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种基于自注意力机制的动态手势识别方法,包括以下步骤:
(1)获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括彩色(RGB)模态数据(如图2(a)所示)、深度(Depth)模态数据(如图2(b)所示)、以及光流(Flow)模态数据(如图2(c)和(d)所示);
具体而言,本步骤首先是将获得的视频图像序列V均匀分成N个视频段[v1,v2,…vN],从每个视频段vi中随机选取一帧图片si,并获取该帧图片si的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据(它们用作后续神经网络模型的输入),其中N为自然数,其最小值为1,最大值为获得的视频图像序列V中的总帧数,且有i∈[1,N]。
(2)将步骤(1)获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
本步骤中,对同一动态手势类别对应的所有预测概率值取平均值,就是将一个动态手势类别对应的所有预测概率值进行求和,然后除以N。
具体而言,本发明的第一神经网络模型架构如下:
第一层是卷积模块层,由卷积层、批归一化(Batch Normalization,简称BN)层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为7*7,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第二层是卷积模块层(如图3所示),由卷积层、BN层、激活函数按顺序前后串联形成。其中,卷积核尺寸为1*1,卷积步长为1*1,激活函数采用ReLU。
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为3*3,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第四层是自注意力模块层(如图5所示)。自注意力模块层包括多个卷积层与池化层。每个自注意力模块层的输入数据都将经过四路一级卷积分支,获得四个卷积结果。将四路一级卷积分支的卷积结果前后串联获得该模块的输出结果。每路一级卷积分支有着不同的卷积核尺寸或卷积层串联顺序。
第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成;第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成;第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成。第一路一级卷积分支是由一个1*1的卷积层形成,且与四路二级卷积分支分别串联,用于实现自注意力机制。
将二级卷积分支的输入数据表示为x∈RC×W×H,其中R表示实数域,C、W和H分别表示输入数据的通道数、宽和高。
在四路二级卷积分支中,第一路二级卷积分支不做任何操作,输出数据等于输入数据x∈RC×W×H
在第二路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作(Reshape)变换为二维矩阵f(x)∈RC×M,然后该二维矩阵通过转置操作变为f(x)T
在第三路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作(Reshape)变换为二维矩阵g(x)∈RC×N
在第四路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作(Reshape)变换为二维矩阵h(x)∈RC×M
随后,将第二路二级卷积分支中转置后获得的f(x)T与第三路二级卷积分支中重塑后获得的g(x)进行相乘,获得乘积HM′=f(x)T*g(x),然后对乘积进行归一化处理,以获得归一化结果
Figure BDA0002559733360000101
随后,将归一化结果
Figure BDA0002559733360000102
进行转置处理,并将转置后的结果
Figure BDA0002559733360000103
与第四路二级卷积分支中重塑后产生的结果h(x)进行相乘,以获得乘积:
Figure BDA0002559733360000104
最后,将乘积HM进行重塑处理,并根据重塑处理结果与输入数据x生成二级卷积分支的最终处理结果FA:
FA=x+gamma*RC×W×H(HM)
其中,gamma是一个可学习的参数,初值为0,其随着自注意力机制的不断学习,该值将逐渐更新到合适的数值;RC×W×H(HM)表示将HM的空间维度从C×M重塑为C×W×H。
第五层是自注意力模块层,第五层与第四层具有完全相同的结构,在此不再赘述。
第六层是输出模块层(如图4所示),其是由池化层、归一化层(Softmax)按顺序前后串联形成。其中,池化层采用平均池化。
本发明第一神经网络模型是通过以下步骤训练获得的:
(2-1)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
在本步骤中,获取的动态手势数据集是例如Sheffield KInect Gesture(SKIG)数据集、ChaLearn LAP Isolated Gesture(IsoGD)数据集。
(2-2)根据步骤(2-1)获得的训练集,并使用第一神经网络模型的损失函数计算第一神经网络模型的损失值。
优选地,该网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵(Softmax cross-entropy)。
(2-3)根据步骤(2-2)获得的损失值,并利用反向传播算法对第一神经网络模型的所有权重参数进行更新和优化,以获得更新后的第一神经网络模型;
具体而言,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0;
具体而言,为了加快损失值的下降速度,本步骤中的反向传播算法是采用Adam-Optimizer作为优化器,这是由于该优化器具有动量以及自适应学习率的优势。
(2-4)对步骤(2-3)更新后的第一神经网络模型进行迭代训练,直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(2-2)和(2-3),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的第一神经网络模型;
第一神经网络模型的损失函数L为:
Figure BDA0002559733360000111
其中,m表示神经网络单次处理的样本个数,n表示步骤(2-1)的训练集中所包括的动态手势类别数,yi,j表示第i个样本在第j类上的真实标签,
Figure BDA0002559733360000112
表示第i个样本在第j类上的预测概率值。
(2-5)使用步骤(2-1)获得的数据集中的测试集对步骤(2-4)迭代训练后的第一神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的第一神经网络模型。
(3)将步骤(1)获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
具体而言,本发明的第二神经网络模型架构如下:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为7*7,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第二层是卷积模块层(如图3所示),由卷积层、BN层、激活函数按顺序前后串联形成。其中,卷积核尺寸为1*1,卷积步长为1*1,激活函数采用ReLU。
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为3*3,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第四层和第五层都是自注意力模块层,其结构和上述第一神经网络模型中的自注意力模块层完全相同,在此不再赘述。
第六层是输出模块层(如图4所示),由池化层、归一化层(Softmax)按顺序前后串联形成。其中,池化层采用平均池化。
本发明第二神经网络模型是通过以下步骤训练获得的:
(3-1)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
在本步骤中,获取的动态手势数据集是例如Sheffield KInect Gesture(SKIG)数据集、ChaLearn LAP Isolated Gesture(IsoGD)数据集。
(3-2)根据步骤(3-1)获得的训练集,并使用第二神经网络模型的损失函数计算第二神经网络模型的损失值。
优选地,该网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵(Softmax cross-entropy)。
(3-3)根据步骤(3-2)获得的损失值,并利用反向传播算法对第二神经网络模型的所有权重参数进行更新和优化,以获得更新后的第二神经网络模型;
具体而言,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0;
具体而言,为了加快损失值的下降速度,本步骤中的反向传播算法是采用Adam-Optimizer作为优化器,这是由于该优化器具有动量以及自适应学习率的优势。
(3-4)对步骤(3-3)更新后的第二神经网络模型进行迭代训练,直到该第二神经网络模型的损失函数达到最小为止重复迭代步骤(3-2)和(3-3),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的第二神经网络模型;
第二神经网络模型的损失函数L为:
Figure BDA0002559733360000131
其中,m表示神经网络单次处理的样本个数,n表示步骤(3-1)的训练集中所包括的动态手势类别数,yi,j表示第i个样本在第j类上的真实标签,
Figure BDA0002559733360000132
表示第i个样本在第j类上的预测概率值。
(3-5)使用步骤(3-1)获得的数据集中的测试集对步骤(3-4)迭代训练后的第二神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的第二神经网络模型。
(4)将步骤(1)获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
具体而言,本发明的第三神经网络模型架构如下:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为7*7,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第二层是卷积模块层(如图3所示),由卷积层、BN层、激活函数按顺序前后串联形成。其中,卷积核尺寸为1*1,卷积步长为1*1,激活函数采用ReLU。
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成。其中,卷积核尺寸为3*3,卷积步长为1*1,激活函数采用ReLU,池化层采用最大池化。
第四层和第五层都是自注意力模块层,其结构和上述第一神经网络模型中的自注意力模块层完全相同,在此不再赘述。
第六层是输出模块层(如图5所示),由池化层、归一化层(Softmax)按顺序前后串联形成。其中,池化层采用平均池化。
本发明第三神经网络模型是通过以下步骤训练获得的:
(4-1)获取动态手势数据集,并将该动态手势数据集数据按4:1的比例划分为训练集与测试集。
在本步骤中,获取的动态手势数据集是例如Sheffield KInect Gesture(SKIG)数据集、ChaLearn LAP Isolated Gesture(IsoGD)数据集。
(4-2)根据步骤(4-1)获得的训练集,并使用第三神经网络模型的损失函数计算第三神经网络模型的损失值。
优选地,该网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵(Softmax cross-entropy)。
(4-3)根据步骤(4-2)获得的损失值,并利用反向传播算法对第三神经网络模型的所有权重参数进行更新和优化,以获得更新后的第三神经网络模型;
具体而言,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0;
具体而言,为了加快损失值的下降速度,本步骤中的反向传播算法是采用Adam-Optimizer作为优化器,这是由于该优化器具有动量以及自适应学习率的优势。
(4-4)对步骤(4-3)更新后的第三神经网络模型进行迭代训练,直到该第三神经网络模型的损失函数达到最小为止重复迭代步骤(4-2)和(4-3),直到该第三神经网络模型的损失值达到最小为止,从而得到迭代训练后的第三神经网络模型;
第三神经网络模型的损失函数L为:
Figure BDA0002559733360000151
其中,m表示神经网络单次处理的样本个数,n表示步骤(4-1)的训练集中所包括的动态手势类别数,yi,j表示第i个样本在第j类上的真实标签,
Figure BDA0002559733360000152
表示第i个样本在第j类上的预测概率值。
(4-5)使用步骤(4-1)获得的数据集中的测试集对步骤(4-4)迭代训练后的第三神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的第三神经网络模型。
(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值(如图6所示)。将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
具体而言,步骤(5)融合了三种不同模态对同一动态手势的类别预测,其中对三种模态输出结果进行加权求和时,任意两个模态输出结果之间的权重比范围为1:0.1到1:10,优选为1:1。
总而言之,本发明提出了一种基于自注意力机制的动态手势识别算法,该算法沿用了经典的双流(Two-stream)的思想,通过在New inception(即本发明提出的四路一级卷积分支的架构)框架中嵌入自注意力机制来增强特征图上的关键信息,并且利用多模输入策略实现对动态手势更全面、更详细、更高级的描述。
实验结果
本发明实验环境:CPU为2枚Intel Xeon(R)@2.20GHz,GPU为四块NVIDIATitan X12GB,内存为128GB,在ubuntu16.04操作***下,采用pytorch编程实现本文算法。具体的参数设置如下:采样帧数为16,batch_size大小取10,初始学习率取0.01,每迭代20次,学习率下降到10%。
为了说明自注意力机制在本发明中的有效性,我们做了相关的对比试验。“-”表示基于Inception v2且不使用自注意力机制的网络模型,“+”表示本发明中基于Inceptionv2且使用自注意力机制的网络模型,在Sheffield KInect Gesture(SKIG)数据集和ChaLearn LAP Isolated Gesture(IsoGD)数据集上分别微调这两个网络,表1和表2分别给出了SKIG和isoGD上的测试结果。
表1 SKIG测试结果
Figure BDA0002559733360000161
表2 isoGD测试结果
Figure BDA0002559733360000162
由表1和表2可知,使用自注意力机制后本发明算法在SKIG数据集的三种模态上的精确度分别提高了7.76%、3.33%和0.36%,在isoGD数据集的三种模态上的精确度分别提高了4.47%、2.87%和0.36%。因此表明了自注意力机制可以增强特征表达的鲁棒性,提高动态手势识别算法的性能。
表3 SKIG测试结果对比
Figure BDA0002559733360000171
表3给出了本发明在SKIG上的测试结果以及与其它主流算法的对比。从表3中可以看出,在SKIG数据集上,本发明达到了最优的识别效果。M3D+LSTM、R3DCNN、MRNN分别利用3维卷积神经网络或RNN或LSTM从序列中直接提取空间时序特征,做动态手势识别,它们的性能都略低于本发明算法,证明了本发明基于注意力机制做动态手势识别的有效性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于自注意力机制的动态手势识别方法,其特征在于,包括以下步骤:
(1)获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
(2)将步骤(1)获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的RGB模态输出结果;
(3)将步骤(1)获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的深度模态输出结果;
(4)将步骤(1)获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的多个动态手势类别中每一个动态手势类别的预测概率值,并对同一动态手势类别对应的所有预测概率值取平均值,从而获得对应于每个动态手势类别的光流模态输出结果;
(5)将步骤(2)得到的对应于每个动态手势类别的RGB模态输出结果、步骤(3)得到的对应于每个动态手势类别的深度模态输出结果、以及步骤(4)得到的对应于每个动态手势类别的光流模态输出结果进行加权求和,以获得对应于每个动态手势类别的类别预测概率值,将所有类别预测概率值中最大值所对应的动态手势类别作为最终的手势识别结果。
2.根据权利要求1所述的动态手势识别方法,其特征在于,步骤(1)具体为,首先将获得的视频图像序列V均匀分成N个视频段[v1,v2,...vN],从每个视频段vi中随机选取一帧图片si,并获取该帧图片si的RGB模态数据、深度模态数据、以及流模态数据作为网络输入数据,其中N为自然数,其最小值为1,最大值为获得的视频图像序列V中的总帧数,且有i∈[1,N]。
3.根据权利要求1所述的动态手势识别方法,其特征在于,第一、第二和第三神经网络模型的结构均为:
第一层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第二层是卷积模块层,由卷积层、BN层、激活函数按顺序前后串联形成;
第三层是卷积模块层,由卷积层、BN层、激活函数、池化层按顺序前后串联形成;
第四层是自注意力模块层,包括多个卷积层与池化层;
第五层是自注意力模块层,其与第四层具有完全相同的结构;
第六层是输出模块层,其是由池化层、归一化层按顺序前后串联形成。
4.根据权利要求3所述的动态手势识别方法,其特征在于,
每个自注意力模块层包括四路一级卷积分支;
第四路一级卷积分支由1*1的卷积层、3*3的卷积层、3*3的卷积层按顺序前后串联形成;
第三路一级卷积分支由平均池化层、1*1的卷积层按顺序前后串联形成;
第二路一级卷积分支由1*1的卷积层、3*3的卷积层按顺序前后串联形成;
第一路一级卷积分支是由一个1*1的卷积层形成,且与四路二级卷积分支分别串联,用于实现自注意力机制。
5.根据权利要求4所述的动态手势识别方法,其特征在于,
第一路二级卷积分支的输出数据等于输入数据x∈RC×W×H,其中C、W和H分别表示输入数据的通道数、宽和高,
在第二路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵f(x)∈RC×M,然后该二维矩阵通过转置操作变为f(x)T
在第三路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵g(x)∈RC×M
在第四路二级卷积分支中,输入数据x∈RC×W×H首先经过一个1*1的卷积层后,通过重塑操作变换为二维矩阵h(x)∈RC×M
随后,将第二路二级卷积分支中转置后获得的f(x)T与第三路二级卷积分支中重塑后获得的g(x)进行相乘,获得乘积HM′=f(x)T*g(x),然后对乘积进行归一化处理,以获得归一化结果
Figure FDA0002559733350000031
随后,将归一化结果
Figure FDA0002559733350000032
进行转置处理,并将转置后的结果
Figure FDA0002559733350000033
与第四路二级卷积分支中重塑后产生的结果h(x)进行相乘,以获得乘积:
Figure FDA0002559733350000034
最后,将乘积HM进行重塑处理,并根据重塑处理结果与输入数据x生成二级卷积分支的最终处理结果FA:
FA=x+gamma*RC×W×H(HM)
其中,gamma是一个可学习的参数,初值为0,其随着自注意力机制的不断学习,该值将逐渐更新到合适的数值;RC×W×H(HM)表示将HM的空间维度从C×M重塑为C×W×H。
6.根据权利要求1所述的动态手势识别方法,其特征在于,第一、第二和第三神经网络模型中的每一个神经网络模型都是通过以下过程训练得到的:
(a)获取动态手势数据集,并将该动态手势数据集数据按4∶1的比例划分为训练集与测试集。
(b)根据步骤(a)获得的训练集,并使用神经网络模型的损失函数计算神经网络模型的损失值。
(c)根据步骤(b)获得的损失值,并利用反向传播算法对神经网络模型的所有权重参数进行更新和优化,以获得更新后的神经网络模型;
(d)对步骤(c)更新后的神经网络模型进行迭代训练,直到该第一神经网络模型的损失函数达到最小为止重复迭代步骤(b)和(c),直到该网络模型的损失值达到最小为止,从而得到迭代训练后的神经网络模型;
(e)使用步骤(a)获得的数据集中的测试集对步骤(d)迭代训练后的第一神经网络模型进行迭代验证,直到获得的分类精度达到最优为止,从而获得训练好的神经网络模型。
7.根据权利要求6所述的动态手势识别方法,其特征在于,神经网络模型的损失函数为网络预测的动态手势类别与真实类别之间的交叉熵,具体为:
Figure FDA0002559733350000041
其中,m表示神经网络单次处理的样本个数,n表示步骤(a)的训练集中所包括的动态手势类别数,yi,j表示第i个样本在第j类上的真实标签,
Figure FDA0002559733350000042
表示第i个样本在第j类上的预测概率值。
8.根据权利要求7所述的动态手势识别方法,其特征在于,步骤(c)中,权重参数的初始值是使用标准差为0.1的截断式正态分布输出的随机值,偏置参数的初始值设为0,反向传播算法是采用Adam-Optimizer作为优化器。
9.一种基于自注意力机制的动态手势识别***,其特征在于,包括:
第一模块,用于获取视频图像序列,对该视频图像序列进行采样,以获取多个网络输入数据,包括RGB模态数据、深度模态数据、以及光流模态数据;
第二模块,用于将第一模块获得的多个网络输入数据中的所有RGB模态数据输入到训练好的第一神经网络模型中,以获得对应于每个RGB模态数据的动态手势类别的预测概率值,并对所有预测概率值取平均值,从而获得RGB模态输出结果;
第三模块,用于将第一模块获得的多个网络输入数据中的所有深度模态数据输入到训练好的第二神经网络模型中,以获得对应于每个深度模态数据的动态手势类别的预测概率值,并对所有预测概率值取平均值,从而获得深度模态输出结果;
第四模块,用于将第一模块获得的多个网络输入数据中的所有光流模态数据输入到训练好的第三神经网络模型中,以获得对应于每个光流模态数据的动态手势类别的预测概率值,并对所有预测概率值取平均值,从而获得光流模态输出结果;
第五模块,用于将第二模块得到的RGB模态输出结果、第三模块得到的深度模态输出结果、以及第四模块得到的光流模态输出结果进行加权求和,以获得最终的类别预测概率值。以概率值为依据,将最大概率值所对应的动态手势类别作为最终的输出结果。
CN202010607626.4A 2020-06-29 2020-06-29 一种基于自注意力机制的动态手势识别方法和*** Expired - Fee Related CN111814626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010607626.4A CN111814626B (zh) 2020-06-29 2020-06-29 一种基于自注意力机制的动态手势识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010607626.4A CN111814626B (zh) 2020-06-29 2020-06-29 一种基于自注意力机制的动态手势识别方法和***

Publications (2)

Publication Number Publication Date
CN111814626A true CN111814626A (zh) 2020-10-23
CN111814626B CN111814626B (zh) 2021-01-26

Family

ID=72856366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010607626.4A Expired - Fee Related CN111814626B (zh) 2020-06-29 2020-06-29 一种基于自注意力机制的动态手势识别方法和***

Country Status (1)

Country Link
CN (1) CN111814626B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597884A (zh) * 2020-12-22 2021-04-02 中国科学院计算技术研究所 手势识别模型的训练方法、手势识别方法及***
CN113158757A (zh) * 2021-02-08 2021-07-23 海信视像科技股份有限公司 显示设备及手势控制方法
CN113239824A (zh) * 2021-05-19 2021-08-10 北京工业大学 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN113466852A (zh) * 2021-06-08 2021-10-01 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN114390760A (zh) * 2022-01-20 2022-04-22 北方工业大学 一种灯光控制方法及***
WO2022266853A1 (en) * 2021-06-22 2022-12-29 Intel Corporation Methods and devices for gesture recognition
CN117975573A (zh) * 2024-03-29 2024-05-03 华南理工大学 基于CNN-Transformer混合模型的手语翻译方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013027091A1 (en) * 2011-07-28 2013-02-28 Arb Labs Inc. Systems and methods of detecting body movements using globally generated multi-dimensional gesture data
CN103530619B (zh) * 2013-10-29 2016-08-31 北京交通大学 基于rgb-d数据构成的少量训练样本的手势识别方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN109299396A (zh) * 2018-11-28 2019-02-01 东北师范大学 融合注意力模型的卷积神经网络协同过滤推荐方法及***
CN110334584A (zh) * 2019-05-20 2019-10-15 广东工业大学 一种基于区域全卷积网络的手势识别方法
CN110569738A (zh) * 2019-08-15 2019-12-13 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
US10600334B1 (en) * 2018-12-11 2020-03-24 NEX Team Inc. Methods and systems for facilitating interactive training of body-eye coordination and reaction time

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013027091A1 (en) * 2011-07-28 2013-02-28 Arb Labs Inc. Systems and methods of detecting body movements using globally generated multi-dimensional gesture data
CN103530619B (zh) * 2013-10-29 2016-08-31 北京交通大学 基于rgb-d数据构成的少量训练样本的手势识别方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN109299396A (zh) * 2018-11-28 2019-02-01 东北师范大学 融合注意力模型的卷积神经网络协同过滤推荐方法及***
US10600334B1 (en) * 2018-12-11 2020-03-24 NEX Team Inc. Methods and systems for facilitating interactive training of body-eye coordination and reaction time
CN110334584A (zh) * 2019-05-20 2019-10-15 广东工业大学 一种基于区域全卷积网络的手势识别方法
CN110569738A (zh) * 2019-08-15 2019-12-13 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIU, XIAOYU等: "Spatio-temporal Attention Network for Video Instance Segmentation", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS》 *
WANG H等: "Large-Scale Multimodal Gesture Recognition Using Heterogeneous Networks", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS (ICCVW)》 *
沙洁等: "基于视觉的动态手势识别综述", 《计算机科学与应用》 *
高志杰: "基于循环三维卷积神经网络和注意力机制的手势识别", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597884A (zh) * 2020-12-22 2021-04-02 中国科学院计算技术研究所 手势识别模型的训练方法、手势识别方法及***
CN113158757A (zh) * 2021-02-08 2021-07-23 海信视像科技股份有限公司 显示设备及手势控制方法
CN113158757B (zh) * 2021-02-08 2023-04-07 海信视像科技股份有限公司 显示设备及手势控制方法
CN113239824A (zh) * 2021-05-19 2021-08-10 北京工业大学 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN113239824B (zh) * 2021-05-19 2024-04-05 北京工业大学 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN113466852A (zh) * 2021-06-08 2021-10-01 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN113466852B (zh) * 2021-06-08 2023-11-24 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
WO2022266853A1 (en) * 2021-06-22 2022-12-29 Intel Corporation Methods and devices for gesture recognition
CN114390760A (zh) * 2022-01-20 2022-04-22 北方工业大学 一种灯光控制方法及***
CN114390760B (zh) * 2022-01-20 2023-11-21 北方工业大学 一种灯光控制方法及***
CN117975573A (zh) * 2024-03-29 2024-05-03 华南理工大学 基于CNN-Transformer混合模型的手语翻译方法和***

Also Published As

Publication number Publication date
CN111814626B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN111814626B (zh) 一种基于自注意力机制的动态手势识别方法和***
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN110443805B (zh) 一种基于像素密切度的语义分割方法
Dong et al. Crowd counting by using top-k relations: A mixed ground-truth CNN framework
CN109344920B (zh) 顾客属性预测方法、存储介质、***及设备
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN110175551A (zh) 一种手语识别方法
CN111339818A (zh) 一种人脸多属性识别***
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
CN115222998B (zh) 一种图像分类方法
Zhu et al. Training strategies for cnn-based models to parse complex floor plans
Xu et al. Graphical modeling for multi-source domain adaptation
CN113807176A (zh) 一种基于多知识融合的小样本视频行为识别方法
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
Li et al. Transformer for object detection: Review and benchmark
Wen et al. Cross-modality salient object detection network with universality and anti-interference
CN114743027A (zh) 弱监督学习引导的协同显著性检测方法
CN115860113B (zh) 一种自对抗神经网络模型的训练方法及相关装置
Liu et al. A weight-incorporated similarity-based clustering ensemble method
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
Tang et al. A deep map transfer learning method for face recognition in an unrestricted smart city environment
He et al. ECS-SC: Long-tailed classification via data augmentation based on easily confused sample selection and combination
CN113283530B (zh) 基于级联特征块的图像分类***
Rui et al. EDite-HRNet: Enhanced Dynamic Lightweight High-Resolution Network for Human Pose Estimation
Okazaki et al. Multi-task learning regression via convex clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210126