CN115953839A - 一种基于循环架构与坐标系回归的实时2d手势估计方法 - Google Patents

一种基于循环架构与坐标系回归的实时2d手势估计方法 Download PDF

Info

Publication number
CN115953839A
CN115953839A CN202211675766.0A CN202211675766A CN115953839A CN 115953839 A CN115953839 A CN 115953839A CN 202211675766 A CN202211675766 A CN 202211675766A CN 115953839 A CN115953839 A CN 115953839A
Authority
CN
China
Prior art keywords
module
model
feature map
regression
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211675766.0A
Other languages
English (en)
Other versions
CN115953839B (zh
Inventor
李观喜
张磊
梁倬华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ziweiyun Technology Co ltd
Original Assignee
Guangzhou Ziweiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ziweiyun Technology Co ltd filed Critical Guangzhou Ziweiyun Technology Co ltd
Priority to CN202211675766.0A priority Critical patent/CN115953839B/zh
Publication of CN115953839A publication Critical patent/CN115953839A/zh
Application granted granted Critical
Publication of CN115953839B publication Critical patent/CN115953839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于循环架构与坐标系回归的实时2D手势估计方法,属于实时2D手势估计技术领域,其核心模块包括图像采集模块、轻量级神经网络算法模块,循环架构模块,关键点回归模块;本发明中,坐标系回归的优点是算法消耗的时间短和资源少,能在移动端、嵌入式或是低成本硬件成本平台上实现运行实时并且端到端的全微分训练;使用循环架构模块,增强模型对视频中动态手势估计的效果;该基于循环架构与坐标系回归的实时2D手势估计方法可以实现在移动端、嵌入式或低成本硬件实时、高精度的检测效果,能有效缓解视频中由于运动模糊以及自我遮挡的导致模型检测性能下降的问题,实现产品的快速落地。

Description

一种基于循环架构与坐标系回归的实时2D手势估计方法
技术领域
本发明属于实时2D手势估计技术领域,尤其涉及一种基于循环架构与坐标系回归的实时2D手势估计方法。
背景技术
2D手势估计技术主要是检测手部的21个关键点,可以通过关键点描述不同手势表达的信息;手部2D关键点检测是计算机视觉的基础性算法之一,在计算机视觉的其他相关领域的研究中有很重要的作用。目前元宇宙的主要硬件载体设备有AR\VR等设备,通过摄像头就可以采集到图像,通过分析用户手势表达的信息进行相对应得反馈。
2D手势估计相对于身体姿态估计,其实是个很具有挑战性的任务。因为手部关节更加灵活、动作灵敏和受自我遮挡的影响,2D手势估计的效果可能下降。目前使用基于高斯热图的方法成为技术的主流方向并且效果也得到了一致的认可,在工业互联网时代,嵌入式与人工智能相结合是一个必然的发展趋势,那么在移动端、嵌入式或是低成本硬件平台上运行基于高斯热图的方法2D手势估计算法通常无法达到实时的效果,对于动态手势带来的运动模糊以及本身的自我遮挡问题,该方法的检测效果也不尽人意;由于基于高斯热图的方法内存消耗多以及推理速度慢的问题,想在低成本的硬件中运行该技术,会出现极大延迟,往往会对整个产品的体验带来不适感。
因此,发明一种基于循环架构与坐标系回归的实时2D手势估计方法显得非常必要。
发明内容
为了解决上述技术问题,本发明提供一种基于循环架构与坐标系回归的实时2D手势估计方法,以解决上述提到的问题。一种基于循环架构与坐标系回归的实时2D手势估计方法,其核心模块包括图像采集模块、轻量级神经网络算法模块、循环架构模块和关键点回归模块,所述图像采集模块为单目摄像头;
所述轻量级神经网络算法模块采用的MobileNetV3作为轻量级骨干模型提取特征,由多个阶段组成,内有多组深度可分离卷积组成;
所述循环架构模块通过MobileNetV3主干网络获取特征信息,通过一个循环架构模块;循环机制可以在连续的视频流中自己学习哪些信息应该保留,并且自适应的同时保留长期和短期的时间信息能力,使得循环机制适合我们的需求;
所述关键点回归模块通过循环架构模块输出得到的特征图作为该关键点回归模块的输入,分别通过2个FC层;FC1输出2D骨骼关键点的坐标信息,FC2输出2D骨骼关键点的得分信息;由于需要对回归结果进行监督,所以添加标准化流模块进行辅助训练。
优选的,所述轻量级神经网络算法模块中,深度可分离卷积主要分为两个过程,分别是逐通道卷积和逐点卷积;逐通道卷积的一个卷积核负责一个通道,一个通道只被一个卷积核卷积,这个过程产生的特征图通道数与输入通道数完全一致;逐点卷积使用1x1的卷积,将逐通道卷积输出的特征图在深度方向上进行加权组合,生产新的特征图;
优选的,添加SE结构模块得到新的特征矩阵;其中当步长为1,且输入特征矩阵与输出特征矩阵的大小相同进行shortcut连接;MobileNetV3主干模型输出特征图后添加LR-ASPP模块增加感受野,提高对整体模型的精度,将输入通道的特征图分为两个分支,左分支经过1x1的卷积核输出特征图P1,右分支经过全局平局池化层和1x1卷积核以及Sigmod模块后输出特征图P2,并对特征图P1与特征图P2相乘后输出新的特征图;
优选的,在模型的最后一个阶段内,替换所有原有的激活函数,使用SiLu激活函数;输入Zk的第k个SiLU的激活ak由sigmoid函数乘以其输入计算得出ak(zk)=zkσ(zk),其中sigmoid函数的公式1,对于较大Zk值,SiLU的激活基本等于ReLU的函数,但不同ReLU,SiLU激活并不是单调递增的,相反对于Zk≈1.28,它的全局最小值为-0.28;SiLU具有自稳定特点,导数为零的全局最小值在权重起到了缓冲的作用,作为隐式正则化器抑制了大数量权重的学习,在实际的测试中发现会对该模型的性能有提升,并且等同于全部Stage都替换SiLU函数的效果,因此只需用在最后一个Stage即可。
优选的,所述循环架构模块中,特征图输入进到循环架构模块时,会将输入特征图的通道平均分成特征图P3和特征图P4,对特征图P4通过ConvGRU输出的输出特征图P5和记忆单元特征图ht,拼接特征图P3和特征图P4,输出特征图P6。
优选的,所述关键点回归模块中,标准化流模块能将一些基本的简单分布转换为任意的的复杂分布,理论来说只要变换足够复杂,那么可以拟合出任意的目标分布;在实际的训练过程中,我们使用的就是神经网络,因此神经网络理论上是可以接近任意的函数,因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的;在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
优选的,训练分为四个阶段分别为阶段1、阶段2、阶段3和阶段4,阶段1在没有循环架构模块的情况下,我们可以使用零散数据集进行模型训练,获得一个合适的预训练模型,在实际的测试对比中发现尽管使用MobileNetV3的分类预训练模型作为关键点模型的预训练模型,但是对比于使用关键点模型的预训练模型,对于模型的后期的训练能带来更快的损失收缩以及对模型性能有一定的提高。
优选的,阶段2在视频流数据上进行15帧的训练,我们设置一个较短的序列长度T=15帧,这样网络可以快速更新;阶段3将T帧增加到50帧,将学习率降低为原来的一半,并保留阶段1的超参数训练模型,这使得我们的模型可以看到更长的序列信息并学习长序列间的依赖关系。
优选的,阶段4使用视频流数据以及零散数据进行整合训练少量的迭代数,对于零散数据,我们将其视为只有1帧的视频序列,这可以迫使模型即使在没有重复或是连续的信息的情况下也能保持着鲁棒性。
其中,鲁棒性是健壮和强壮的意思;它也是在异常和危险情况下***生存的能力;比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性;所谓鲁棒性,也是指控制***在一定的参数摄动下,维持其它某些性能的特性。
与现有技术相比,本发明具有如下有益效果:
本发明中,首先我们基于坐标系回归的2D手势估计方法,坐标系回归的优点是算法消耗的时间短和资源少,能在移动端、嵌入式或是低成本硬件成本平台上实现运行实时并且端到端的全微分训练。基于高斯热图的方法从图像输入到坐标回归并不是一个端到端可微分模型,从高斯热图到坐标点是需要通过argmax方式得到的,并且该过程不可导;但是基于坐标回归的方式中全卷积的结果将位置信息转换为坐标值,对于这种隐晦的信息转换,其非线性很强,模型在训练中不容易收敛,因此我们使用标准化流模块解决该问题,实现在嵌入式端即快速并且高精度的效果;
对于视频中动态手势带来的运动模糊以及本身的自我遮挡问题,虽然有许多为视频应用而设计的,但是都是单个帧作为独立的图像处理,但都忽略了视频中最广泛存在的时间信息;因此我们使用循环架构模块,增强模型对视频中动态手势估计的效果。由于在视频中,模型可以了解到前一帧并对当前帧进行预测,在单帧可能模糊的情况下,模型可以通过参考之前帧的更好的预测关键点,大大提高了模型的清晰性;该方法可以应用于所有视频,而不需要任何的辅助输入;根据我们设定的模型训练策略,能有效的生成高精度的模型;这也将很大程度上能解决动态手势造成的运动模糊和自我遮挡的问题;
因此我们提出了一种基于循环架构与坐标系回归的实时2D手势估计方法,可以实现在移动端、嵌入式或低成本硬件实时、高精度的检测效果,能有效缓解视频中由于运动模糊以及自我遮挡的导致模型检测性能下降的问题,实现产品的快速落地。
附图说明
图1是本发明的模块框图。
图2是本发明的轻量级神经网络算法模块的流程框图。
图3是本发明的整体模型的流程框图。
图4是本发明的训练策略的流程框图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
以下结合附图对本发明做进一步描述:
实施例:
如附图1至附图4所示
本发明提供一种基于循环架构与坐标系回归的实时2D手势估计方法,其核心模块包括图像采集模块、轻量级神经网络算法模块、循环架构模块和关键点回归模块,图像采集模块为单目摄像头;轻量级神经网络算法模块采用的MobileNetV3作为轻量级骨干模型提取特征,由多个阶段组成,内有多组深度可分离卷积组成;循环架构模块通过MobileNetV3主干网络获取特征信息,通过一个循环架构模块;循环机制可以在连续的视频流中自己学习哪些信息应该保留,并且自适应的同时保留长期和短期的时间信息能力,使得循环机制适合我们的需求;关键点回归模块通过循环架构模块输出得到的特征图作为该关键点回归模块的输入,分别通过2个FC层;FC1输出2D骨骼关键点的坐标信息,FC2输出2D骨骼关键点的得分信息;由于需要对回归结果进行监督,所以添加标准化流模块进行辅助训练。
本实施例中,轻量级神经网络算法模块中,深度可分离卷积主要分为两个过程,分别是逐通道卷积和逐点卷积;逐通道卷积的一个卷积核负责一个通道,一个通道只被一个卷积核卷积,这个过程产生的特征图通道数与输入通道数完全一致;逐点卷积使用1x1的卷积,将逐通道卷积输出的特征图在深度方向上进行加权组合,生产新的特征图;添加SE结构模块得到新的特征矩阵;其中当步长为1,且输入特征矩阵与输出特征矩阵的大小相同进行shortcut连接;MobileNetV3主干模型输出特征图后添加LR-ASPP模块增加感受野,提高对整体模型的精度,将输入通道的特征图分为两个分支,左分支经过1x1的卷积核输出特征图P1,右分支经过全局平局池化层和1x1卷积核以及Sigmod模块后输出特征图P2,并对特征图P1与特征图P2相乘后输出新的特征图;
在模型的最后一个阶段内,替换所有原有的激活函数,使用SiLu激活函数;输入Zk的第k个SiLU的激活ak由sigmoid函数乘以其输入计算得出ak(zk)=zkσ(zk),其中sigmoid函数的公式1,对于较大Zk值,SiLU的激活基本等于ReLU的函数,但不同ReLU,SiLU激活并不是单调递增的,相反对于Zk≈1.28,它的全局最小值为-0.28;SiLU具有自稳定特点,导数为零的全局最小值在权重起到了缓冲的作用,作为隐式正则化器抑制了大数量权重的学习,在实际的测试中发现会对该模型的性能有提升,并且等同于全部Stage都替换SiLU函数的效果,因此只需用在最后一个Stage即可:
Figure SMS_1
本实施例中,循环架构模块中,特征图输入进到循环架构模块时,会将输入特征图的通道平均分成特征图P3和特征图P4,对特征图P4通过ConvGRU输出的输出特征图P5和记忆单元特征图ht,拼接特征图P3和特征图P4,输出特征图P6;在形式上ConvGRU的定义如下:
zt=σ(wzx*xt+wzh*ht-1+bz)
rt=σ(wrx*xt+wrh*ht-1+br)
Figure SMS_2
Figure SMS_3
其中*和。表示卷积和对应位置元素的乘积,tanh和σ表示双曲函数和Sigmod函数;w和b是卷积核和偏置项。隐藏层ht既作为输出,又作为下一个时间的循环状态的ht-1;初始循环状态h0是一个全零张量。
关键点回归模块中,标准化流模块能将一些基本的简单分布转换为任意的的复杂分布,理论来说只要变换足够复杂,那么可以拟合出任意的目标分布;在实际的训练过程中,我们使用的就是神经网络,因此神经网络理论上是可以接近任意的函数,因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的;在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P;那么该标准化流模块的损失函数Lmle可以设置为如下
Figure SMS_4
其中φ为标准化流模型的可学习参数,μg为数据的骨骼关键点坐标,
Figure SMS_5
为回归模块预测出来的骨骼关键点坐标,
Figure SMS_6
为回归模块预测出来的骨骼关键点得分。
本实施例中,训练分为四个阶段分别为阶段1、阶段2、阶段3和阶段4,阶段1在没有循环架构模块的情况下,我们可以使用零散数据集进行模型训练,获得一个合适的预训练模型,在实际的测试对比中发现尽管使用MobileNetV3的分类预训练模型作为关键点模型的预训练模型,但是对比于使用关键点模型的预训练模型,对于模型的后期的训练能带来更快的损失收缩以及对模型性能有一定的提高;阶段2在视频流数据上进行15帧的训练,我们设置一个较短的序列长度T=15帧,这样网络可以快速更新;阶段3将T帧增加到50帧,将学习率降低为原来的一半,并保留阶段1的超参数训练模型,这使得我们的模型可以看到更长的序列信息并学习长序列间的依赖关系;阶段4使用视频流数据以及零散数据进行整合训练少量的迭代数,对于零散数据,我们将其视为只有1帧的视频序列,这可以迫使模型即使在没有重复或是连续的信息的情况下也能保持着鲁棒性。
本发明中,首先我们基于坐标系回归的2D手势估计方法,坐标系回归的优点是算法消耗的时间短和资源少,能在移动端、嵌入式或是低成本硬件成本平台上实现运行实时并且端到端的全微分训练;基于高斯热图的方法从图像输入到坐标回归并不是一个端到端可微分模型,从高斯热图到坐标点是需要通过argmax方式得到的,并且该过程不可导;但是基于坐标回归的方式中全卷积的结果将位置信息转换为坐标值,对于这种隐晦的信息转换,其非线性很强,模型在训练中不容易收敛,因此我们使用标准化流模块解决该问题,实现在嵌入式端即快速并且高精度的效果;
对于视频中动态手势带来的运动模糊以及本身的自我遮挡问题,虽然有许多为视频应用而设计的,但是都是单个帧作为独立的图像处理,但都忽略了视频中最广泛存在的时间信息;因此我们使用循环架构模块,增强模型对视频中动态手势估计的效果。由于在视频中,模型可以了解到前一帧并对当前帧进行预测,在单帧可能模糊的情况下,模型可以通过参考之前帧的更好的预测关键点,大大提高了模型的清晰性。该方法可以应用于所有视频,而不需要任何的辅助输入;根据我们设定的模型训练策略,能有效的生成高精度的模型;这也将很大程度上能解决动态手势造成的运动模糊和自我遮挡的问题;
因此我们提出了一种基于循环架构与坐标系回归的实时2D手势估计方法,可以实现在移动端、嵌入式或低成本硬件实时、高精度的检测效果,能有效缓解视频中由于运动模糊以及自我遮挡的导致模型检测性能下降的问题,实现产品的快速落地。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:其核心模块包括图像采集模块、轻量级神经网络算法模块、循环架构模块和关键点回归模块,所述图像采集模块为单目摄像头;
所述轻量级神经网络算法模块采用的MobileNetV3作为轻量级骨干模型提取特征,由多个阶段组成,内有多组深度可分离卷积组成;
所述循环架构模块通过MobileNetV3主干网络获取特征信息,通过一个循环架构模块;循环机制可以在连续的视频流中自己学习哪些信息应该保留,并且自适应的同时保留长期和短期的时间信息能力,使得循环机制适合我们的需求;
所述关键点回归模块通过循环架构模块输出得到的特征图作为该关键点回归模块的输入,分别通过2个FC层;FC1输出2D骨骼关键点的坐标信息,FC2输出2D骨骼关键点的得分信息;由于需要对回归结果进行监督,所以添加标准化流模块进行辅助训练。
2.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:所述轻量级神经网络算法模块中,深度可分离卷积主要分为两个过程,分别是逐通道卷积和逐点卷积;逐通道卷积的一个卷积核负责一个通道,一个通道只被一个卷积核卷积,这个过程产生的特征图通道数与输入通道数完全一致;逐点卷积使用1x1的卷积,将逐通道卷积输出的特征图在深度方向上进行加权组合,生产新的特征图。
3.如权利要求2所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:添加SE结构模块得到新的特征矩阵;其中当步长为1,且输入特征矩阵与输出特征矩阵的大小相同进行shortcut连接;MobileNetV3主干模型输出特征图后添加LR-ASPP模块增加感受野,提高对整体模型的精度,将输入通道的特征图分为两个分支,左分支经过1x1的卷积核输出特征图P1,右分支经过全局平局池化层和1x1卷积核以及Sigmod模块后输出特征图P2,并对特征图P1与特征图P2相乘后输出新的特征图。
4.如权利要求3所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:在模型的最后一个阶段内,替换所有原有的激活函数,使用SiLu激活函数;输入Zk的第k个SiLU的激活ak由sigmoid函数乘以其输入计算得出ak(zk)=zkσ(zk),其中sigmoid函数的公式1,对于较大Zk值,SiLU的激活基本等于ReLU的函数,但不同ReLU,SiLU激活并不是单调递增的,相反对于Zk≈1.28,它的全局最小值为-0.28;SiLU具有自稳定特点,导数为零的全局最小值在权重起到了缓冲的作用,作为隐式正则化器抑制了大数量权重的学习,在实际的测试中发现会对该模型的性能有提升,并且等同于全部Stage都替换SiLU函数的效果,因此只需用在最后一个Stage即可。
5.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:所述循环架构模块中,特征图输入进到循环架构模块时,会将输入特征图的通道平均分成特征图P3和特征图P4,对特征图P4通过ConvGRU输出的输出特征图P5和记忆单元特征图ht,拼接特征图P3和特征图P4,输出特征图P6。
6.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:所述关键点回归模块中,标准化流模块能将一些基本的简单分布转换为任意的的复杂分布,理论来说只要变换足够复杂,那么可以拟合出任意的目标分布;在实际的训练过程中,我们使用的就是神经网络,因此神经网络理论上是可以接近任意的函数,因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的;在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
7.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:训练分为四个阶段,分别为阶段1、阶段2、阶段3和阶段4,阶段1在没有循环架构模块的情况下,我们可以使用零散数据集进行模型训练,获得一个合适的预训练模型,在实际的测试对比中发现尽管使用MobileNetV3的分类预训练模型作为关键点模型的预训练模型,但是对比于使用关键点模型的预训练模型,对于模型的后期的训练能带来更快的损失收缩以及对模型性能有一定的提高。
8.如权利要求7所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:阶段2在视频流数据上进行15帧的训练,我们设置一个较短的序列长度T=15帧,这样网络可以快速更新;阶段3将T帧增加到50帧,将学习率降低为原来的一半,并保留阶段1的超参数训练模型,这使得我们的模型可以看到更长的序列信息并学习长序列间的依赖关系。
9.如权利要求8所述的基于循环架构与坐标系回归的实时2D手势估计方法,其特征在于:阶段4使用视频流数据以及零散数据进行整合训练少量的迭代数,对于零散数据,我们将其视为只有1帧的视频序列,这可以迫使模型即使在没有重复或是连续的信息的情况下也能保持着鲁棒性。
CN202211675766.0A 2022-12-26 2022-12-26 一种基于循环架构与关键点回归的实时2d手势估计方法 Active CN115953839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211675766.0A CN115953839B (zh) 2022-12-26 2022-12-26 一种基于循环架构与关键点回归的实时2d手势估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211675766.0A CN115953839B (zh) 2022-12-26 2022-12-26 一种基于循环架构与关键点回归的实时2d手势估计方法

Publications (2)

Publication Number Publication Date
CN115953839A true CN115953839A (zh) 2023-04-11
CN115953839B CN115953839B (zh) 2024-04-12

Family

ID=87296332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211675766.0A Active CN115953839B (zh) 2022-12-26 2022-12-26 一种基于循环架构与关键点回归的实时2d手势估计方法

Country Status (1)

Country Link
CN (1) CN115953839B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172412A (zh) * 2024-05-14 2024-06-11 中科晶锐(苏州)科技有限公司 一种利用2d图像进行3d人体姿态定位还原的方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191627A (zh) * 2020-01-06 2020-05-22 浙江工业大学 一种多视点下提高动态手势动作识别准确率的方法
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN113095262A (zh) * 2021-04-21 2021-07-09 大连理工大学 一种基于多任务信息互补的三维体素手势姿态估计方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN114519868A (zh) * 2022-02-22 2022-05-20 广东新王牌智能信息技术有限公司 一种基于坐标系回归的实时骨骼关键点识别方法及***
CN114882524A (zh) * 2022-04-15 2022-08-09 华南理工大学 一种基于全卷积神经网络的单目三维手势估计方法
CN114882493A (zh) * 2021-01-22 2022-08-09 北京航空航天大学 一种基于图像序列的三维手部姿态估计与识别方法
CN115171149A (zh) * 2022-06-09 2022-10-11 广州紫为云科技有限公司 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法
WO2022262878A1 (zh) * 2021-06-16 2022-12-22 华南理工大学 基于ltc-dnn的视觉惯导组合导航***与自学习方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191627A (zh) * 2020-01-06 2020-05-22 浙江工业大学 一种多视点下提高动态手势动作识别准确率的方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN114882493A (zh) * 2021-01-22 2022-08-09 北京航空航天大学 一种基于图像序列的三维手部姿态估计与识别方法
CN113095262A (zh) * 2021-04-21 2021-07-09 大连理工大学 一种基于多任务信息互补的三维体素手势姿态估计方法
WO2022262878A1 (zh) * 2021-06-16 2022-12-22 华南理工大学 基于ltc-dnn的视觉惯导组合导航***与自学习方法
CN114519868A (zh) * 2022-02-22 2022-05-20 广东新王牌智能信息技术有限公司 一种基于坐标系回归的实时骨骼关键点识别方法及***
CN114882524A (zh) * 2022-04-15 2022-08-09 华南理工大学 一种基于全卷积神经网络的单目三维手势估计方法
CN115171149A (zh) * 2022-06-09 2022-10-11 广州紫为云科技有限公司 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周全;甘屹;何伟铭;孙福佳;杨丽红;: "基于LHPN算法的手势姿态估计方法研究", 软件, no. 07, 15 July 2020 (2020-07-15) *
路昊;石敏;李昊;朱登明;: "基于深度学习的动态场景相机姿态估计方法", 高技术通讯, no. 01, 15 January 2020 (2020-01-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172412A (zh) * 2024-05-14 2024-06-11 中科晶锐(苏州)科技有限公司 一种利用2d图像进行3d人体姿态定位还原的方法及装置

Also Published As

Publication number Publication date
CN115953839B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
Qin et al. U2-Net: Going deeper with nested U-structure for salient object detection
CN111079646B (zh) 基于深度学习的弱监督视频时序动作定位的方法及***
CN110956126A (zh) 一种联合超分辨率重建的小目标检测方法
CN112508014A (zh) 一种基于注意力机制的改进YOLOv3目标检测方法
CN116186612A (zh) 六氟化硫回收利用管理***
Negi et al. Predictive analytics for recognizing human activities using residual network and fine-tuning
CN116704431A (zh) 水污染的在线监测***及其方法
CN115953839A (zh) 一种基于循环架构与坐标系回归的实时2d手势估计方法
Ayachi et al. An edge implementation of a traffic sign detection system for Advanced driver Assistance Systems
CN114359554A (zh) 一种基于多感受野上下文语义信息的图像语义分割方法
CN116432736A (zh) 神经网络模型优化方法、装置及计算设备
CN114202473A (zh) 一种基于多尺度特征和注意力机制的图像复原方法及装置
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN117115616A (zh) 一种基于卷积神经网络的实时低照度图像目标检测方法
Zhao et al. Probability-based channel pruning for depthwise separable convolutional networks
Liu et al. Flexi-compression: a flexible model compression method for autonomous driving
Run-Hua et al. SCAM-YOLOv5: Improved YOLOv5 based on spatial and channel attention module
CN116001253A (zh) 双向拉伸薄膜厚度在线修复装置
CN113255459B (zh) 一种基于图像序列的车道线检测方法
Long et al. Cascaded feature enhancement network model for real-time video monitoring of power system
CN117036658A (zh) 一种图像处理方法及相关设备
Shan et al. KAConv: Kernel attention convolutions
Li et al. Lightweight human pose estimation using heatmap-weighting loss
Lee et al. SGNet: Design of optimized DCNN for real-time face detection
Rui et al. Fast Real-time Semantic Segmentation Network with an Asymmetric Encoder-Decoder Structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant