CN115953839A

CN115953839A - 一种基于循环架构与坐标系回归的实时2d手势估计方法

Info

Publication number: CN115953839A
Application number: CN202211675766.0A
Authority: CN
Inventors: 李观喜; 张磊; 梁倬华
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-11
Anticipated expiration: 2042-12-26
Also published as: CN115953839B

Abstract

本发明提供一种基于循环架构与坐标系回归的实时2D手势估计方法，属于实时2D手势估计技术领域，其核心模块包括图像采集模块、轻量级神经网络算法模块，循环架构模块，关键点回归模块；本发明中，坐标系回归的优点是算法消耗的时间短和资源少，能在移动端、嵌入式或是低成本硬件成本平台上实现运行实时并且端到端的全微分训练；使用循环架构模块，增强模型对视频中动态手势估计的效果；该基于循环架构与坐标系回归的实时2D手势估计方法可以实现在移动端、嵌入式或低成本硬件实时、高精度的检测效果，能有效缓解视频中由于运动模糊以及自我遮挡的导致模型检测性能下降的问题，实现产品的快速落地。

Description

一种基于循环架构与坐标系回归的实时2D手势估计方法

技术领域

本发明属于实时2D手势估计技术领域，尤其涉及一种基于循环架构与坐标系回归的实时2D手势估计方法。

背景技术

2D手势估计技术主要是检测手部的21个关键点，可以通过关键点描述不同手势表达的信息；手部2D关键点检测是计算机视觉的基础性算法之一，在计算机视觉的其他相关领域的研究中有很重要的作用。目前元宇宙的主要硬件载体设备有AR\VR等设备，通过摄像头就可以采集到图像，通过分析用户手势表达的信息进行相对应得反馈。

2D手势估计相对于身体姿态估计，其实是个很具有挑战性的任务。因为手部关节更加灵活、动作灵敏和受自我遮挡的影响，2D手势估计的效果可能下降。目前使用基于高斯热图的方法成为技术的主流方向并且效果也得到了一致的认可，在工业互联网时代，嵌入式与人工智能相结合是一个必然的发展趋势，那么在移动端、嵌入式或是低成本硬件平台上运行基于高斯热图的方法2D手势估计算法通常无法达到实时的效果，对于动态手势带来的运动模糊以及本身的自我遮挡问题，该方法的检测效果也不尽人意；由于基于高斯热图的方法内存消耗多以及推理速度慢的问题，想在低成本的硬件中运行该技术，会出现极大延迟，往往会对整个产品的体验带来不适感。

因此，发明一种基于循环架构与坐标系回归的实时2D手势估计方法显得非常必要。

发明内容

为了解决上述技术问题，本发明提供一种基于循环架构与坐标系回归的实时2D手势估计方法，以解决上述提到的问题。一种基于循环架构与坐标系回归的实时2D手势估计方法，其核心模块包括图像采集模块、轻量级神经网络算法模块、循环架构模块和关键点回归模块，所述图像采集模块为单目摄像头；

所述轻量级神经网络算法模块采用的MobileNetV3作为轻量级骨干模型提取特征，由多个阶段组成，内有多组深度可分离卷积组成；

所述循环架构模块通过MobileNetV3主干网络获取特征信息，通过一个循环架构模块；循环机制可以在连续的视频流中自己学习哪些信息应该保留，并且自适应的同时保留长期和短期的时间信息能力，使得循环机制适合我们的需求；

所述关键点回归模块通过循环架构模块输出得到的特征图作为该关键点回归模块的输入，分别通过2个FC层；FC1输出2D骨骼关键点的坐标信息，FC2输出2D骨骼关键点的得分信息；由于需要对回归结果进行监督，所以添加标准化流模块进行辅助训练。

优选的，所述轻量级神经网络算法模块中，深度可分离卷积主要分为两个过程，分别是逐通道卷积和逐点卷积；逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的特征图通道数与输入通道数完全一致；逐点卷积使用1x1的卷积，将逐通道卷积输出的特征图在深度方向上进行加权组合，生产新的特征图；

优选的，添加SE结构模块得到新的特征矩阵；其中当步长为1，且输入特征矩阵与输出特征矩阵的大小相同进行shortcut连接；MobileNetV3主干模型输出特征图后添加LR-ASPP模块增加感受野，提高对整体模型的精度，将输入通道的特征图分为两个分支，左分支经过1x1的卷积核输出特征图P1，右分支经过全局平局池化层和1x1卷积核以及Sigmod模块后输出特征图P2，并对特征图P1与特征图P2相乘后输出新的特征图；

优选的，在模型的最后一个阶段内，替换所有原有的激活函数，使用SiLu激活函数；输入Zk的第k个SiLU的激活ak由sigmoid函数乘以其输入计算得出a_k(z_k)＝z_kσ(z_k)，其中sigmoid函数的公式1，对于较大Zk值，SiLU的激活基本等于ReLU的函数，但不同ReLU，SiLU激活并不是单调递增的，相反对于Zk≈1.28，它的全局最小值为-0.28；SiLU具有自稳定特点，导数为零的全局最小值在权重起到了缓冲的作用，作为隐式正则化器抑制了大数量权重的学习，在实际的测试中发现会对该模型的性能有提升，并且等同于全部Stage都替换SiLU函数的效果，因此只需用在最后一个Stage即可。

优选的，所述循环架构模块中，特征图输入进到循环架构模块时，会将输入特征图的通道平均分成特征图P3和特征图P4，对特征图P4通过ConvGRU输出的输出特征图P5和记忆单元特征图ht，拼接特征图P3和特征图P4，输出特征图P6。

优选的，所述关键点回归模块中，标准化流模块能将一些基本的简单分布转换为任意的的复杂分布，理论来说只要变换足够复杂，那么可以拟合出任意的目标分布；在实际的训练过程中，我们使用的就是神经网络，因此神经网络理论上是可以接近任意的函数，因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的；在模型训练过程中，回归模块会拟合出简单分布的输出值，通过标准化流模块对拟合出来的结果值进行变换，让变换后的结果更接近目标的分布P。

优选的，训练分为四个阶段分别为阶段1、阶段2、阶段3和阶段4，阶段1在没有循环架构模块的情况下，我们可以使用零散数据集进行模型训练，获得一个合适的预训练模型，在实际的测试对比中发现尽管使用MobileNetV3的分类预训练模型作为关键点模型的预训练模型，但是对比于使用关键点模型的预训练模型，对于模型的后期的训练能带来更快的损失收缩以及对模型性能有一定的提高。

优选的，阶段2在视频流数据上进行15帧的训练，我们设置一个较短的序列长度T＝15帧，这样网络可以快速更新；阶段3将T帧增加到50帧，将学习率降低为原来的一半，并保留阶段1的超参数训练模型，这使得我们的模型可以看到更长的序列信息并学习长序列间的依赖关系。

优选的，阶段4使用视频流数据以及零散数据进行整合训练少量的迭代数，对于零散数据，我们将其视为只有1帧的视频序列，这可以迫使模型即使在没有重复或是连续的信息的情况下也能保持着鲁棒性。

其中，鲁棒性是健壮和强壮的意思；它也是在异常和危险情况下***生存的能力；比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性；所谓鲁棒性，也是指控制***在一定的参数摄动下，维持其它某些性能的特性。

与现有技术相比，本发明具有如下有益效果：

本发明中，首先我们基于坐标系回归的2D手势估计方法，坐标系回归的优点是算法消耗的时间短和资源少，能在移动端、嵌入式或是低成本硬件成本平台上实现运行实时并且端到端的全微分训练。基于高斯热图的方法从图像输入到坐标回归并不是一个端到端可微分模型，从高斯热图到坐标点是需要通过argmax方式得到的，并且该过程不可导；但是基于坐标回归的方式中全卷积的结果将位置信息转换为坐标值，对于这种隐晦的信息转换，其非线性很强，模型在训练中不容易收敛，因此我们使用标准化流模块解决该问题，实现在嵌入式端即快速并且高精度的效果；

对于视频中动态手势带来的运动模糊以及本身的自我遮挡问题，虽然有许多为视频应用而设计的，但是都是单个帧作为独立的图像处理，但都忽略了视频中最广泛存在的时间信息；因此我们使用循环架构模块，增强模型对视频中动态手势估计的效果。由于在视频中，模型可以了解到前一帧并对当前帧进行预测，在单帧可能模糊的情况下，模型可以通过参考之前帧的更好的预测关键点，大大提高了模型的清晰性；该方法可以应用于所有视频，而不需要任何的辅助输入；根据我们设定的模型训练策略，能有效的生成高精度的模型；这也将很大程度上能解决动态手势造成的运动模糊和自我遮挡的问题；

因此我们提出了一种基于循环架构与坐标系回归的实时2D手势估计方法，可以实现在移动端、嵌入式或低成本硬件实时、高精度的检测效果，能有效缓解视频中由于运动模糊以及自我遮挡的导致模型检测性能下降的问题，实现产品的快速落地。

附图说明

图1是本发明的模块框图。

图2是本发明的轻量级神经网络算法模块的流程框图。

图3是本发明的整体模型的流程框图。

图4是本发明的训练策略的流程框图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如后。

以下结合附图对本发明做进一步描述：

实施例：

如附图1至附图4所示

本发明提供一种基于循环架构与坐标系回归的实时2D手势估计方法，其核心模块包括图像采集模块、轻量级神经网络算法模块、循环架构模块和关键点回归模块，图像采集模块为单目摄像头；轻量级神经网络算法模块采用的MobileNetV3作为轻量级骨干模型提取特征，由多个阶段组成，内有多组深度可分离卷积组成；循环架构模块通过MobileNetV3主干网络获取特征信息，通过一个循环架构模块；循环机制可以在连续的视频流中自己学习哪些信息应该保留，并且自适应的同时保留长期和短期的时间信息能力，使得循环机制适合我们的需求；关键点回归模块通过循环架构模块输出得到的特征图作为该关键点回归模块的输入，分别通过2个FC层；FC1输出2D骨骼关键点的坐标信息，FC2输出2D骨骼关键点的得分信息；由于需要对回归结果进行监督，所以添加标准化流模块进行辅助训练。

本实施例中，轻量级神经网络算法模块中，深度可分离卷积主要分为两个过程，分别是逐通道卷积和逐点卷积；逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的特征图通道数与输入通道数完全一致；逐点卷积使用1x1的卷积，将逐通道卷积输出的特征图在深度方向上进行加权组合，生产新的特征图；添加SE结构模块得到新的特征矩阵；其中当步长为1，且输入特征矩阵与输出特征矩阵的大小相同进行shortcut连接；MobileNetV3主干模型输出特征图后添加LR-ASPP模块增加感受野，提高对整体模型的精度，将输入通道的特征图分为两个分支，左分支经过1x1的卷积核输出特征图P1，右分支经过全局平局池化层和1x1卷积核以及Sigmod模块后输出特征图P2，并对特征图P1与特征图P2相乘后输出新的特征图；

在模型的最后一个阶段内，替换所有原有的激活函数，使用SiLu激活函数；输入Zk的第k个SiLU的激活ak由sigmoid函数乘以其输入计算得出a_k(z_k)＝z_kσ(z_k)，其中sigmoid函数的公式1，对于较大Zk值，SiLU的激活基本等于ReLU的函数，但不同ReLU，SiLU激活并不是单调递增的，相反对于Zk≈1.28，它的全局最小值为-0.28；SiLU具有自稳定特点，导数为零的全局最小值在权重起到了缓冲的作用，作为隐式正则化器抑制了大数量权重的学习，在实际的测试中发现会对该模型的性能有提升，并且等同于全部Stage都替换SiLU函数的效果，因此只需用在最后一个Stage即可：

本实施例中，循环架构模块中，特征图输入进到循环架构模块时，会将输入特征图的通道平均分成特征图P3和特征图P4，对特征图P4通过ConvGRU输出的输出特征图P5和记忆单元特征图ht，拼接特征图P3和特征图P4，输出特征图P6；在形式上ConvGRU的定义如下：

z_t＝σ(w_zx*x_t+w_zh*h_t-1+b_z)

r_t＝σ(w_rx*x_t+w_rh*h_t-1+b_r)

其中*和。表示卷积和对应位置元素的乘积，tanh和σ表示双曲函数和Sigmod函数；w和b是卷积核和偏置项。隐藏层ht既作为输出，又作为下一个时间的循环状态的ht-1；初始循环状态h0是一个全零张量。

关键点回归模块中，标准化流模块能将一些基本的简单分布转换为任意的的复杂分布，理论来说只要变换足够复杂，那么可以拟合出任意的目标分布；在实际的训练过程中，我们使用的就是神经网络，因此神经网络理论上是可以接近任意的函数，因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的；在模型训练过程中，回归模块会拟合出简单分布的输出值，通过标准化流模块对拟合出来的结果值进行变换，让变换后的结果更接近目标的分布P；那么该标准化流模块的损失函数L_mle可以设置为如下

其中φ为标准化流模型的可学习参数，μ_g为数据的骨骼关键点坐标，

为回归模块预测出来的骨骼关键点坐标，

为回归模块预测出来的骨骼关键点得分。

本实施例中，训练分为四个阶段分别为阶段1、阶段2、阶段3和阶段4，阶段1在没有循环架构模块的情况下，我们可以使用零散数据集进行模型训练，获得一个合适的预训练模型，在实际的测试对比中发现尽管使用MobileNetV3的分类预训练模型作为关键点模型的预训练模型，但是对比于使用关键点模型的预训练模型，对于模型的后期的训练能带来更快的损失收缩以及对模型性能有一定的提高；阶段2在视频流数据上进行15帧的训练，我们设置一个较短的序列长度T＝15帧，这样网络可以快速更新；阶段3将T帧增加到50帧，将学习率降低为原来的一半，并保留阶段1的超参数训练模型，这使得我们的模型可以看到更长的序列信息并学习长序列间的依赖关系；阶段4使用视频流数据以及零散数据进行整合训练少量的迭代数，对于零散数据，我们将其视为只有1帧的视频序列，这可以迫使模型即使在没有重复或是连续的信息的情况下也能保持着鲁棒性。

本发明中，首先我们基于坐标系回归的2D手势估计方法，坐标系回归的优点是算法消耗的时间短和资源少，能在移动端、嵌入式或是低成本硬件成本平台上实现运行实时并且端到端的全微分训练；基于高斯热图的方法从图像输入到坐标回归并不是一个端到端可微分模型，从高斯热图到坐标点是需要通过argmax方式得到的，并且该过程不可导；但是基于坐标回归的方式中全卷积的结果将位置信息转换为坐标值，对于这种隐晦的信息转换，其非线性很强，模型在训练中不容易收敛，因此我们使用标准化流模块解决该问题，实现在嵌入式端即快速并且高精度的效果；

对于视频中动态手势带来的运动模糊以及本身的自我遮挡问题，虽然有许多为视频应用而设计的，但是都是单个帧作为独立的图像处理，但都忽略了视频中最广泛存在的时间信息；因此我们使用循环架构模块，增强模型对视频中动态手势估计的效果。由于在视频中，模型可以了解到前一帧并对当前帧进行预测，在单帧可能模糊的情况下，模型可以通过参考之前帧的更好的预测关键点，大大提高了模型的清晰性。该方法可以应用于所有视频，而不需要任何的辅助输入；根据我们设定的模型训练策略，能有效的生成高精度的模型；这也将很大程度上能解决动态手势造成的运动模糊和自我遮挡的问题；

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：其核心模块包括图像采集模块、轻量级神经网络算法模块、循环架构模块和关键点回归模块，所述图像采集模块为单目摄像头；

2.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：所述轻量级神经网络算法模块中，深度可分离卷积主要分为两个过程，分别是逐通道卷积和逐点卷积；逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的特征图通道数与输入通道数完全一致；逐点卷积使用1x1的卷积，将逐通道卷积输出的特征图在深度方向上进行加权组合，生产新的特征图。

3.如权利要求2所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：添加SE结构模块得到新的特征矩阵；其中当步长为1，且输入特征矩阵与输出特征矩阵的大小相同进行shortcut连接；MobileNetV3主干模型输出特征图后添加LR-ASPP模块增加感受野，提高对整体模型的精度，将输入通道的特征图分为两个分支，左分支经过1x1的卷积核输出特征图P1，右分支经过全局平局池化层和1x1卷积核以及Sigmod模块后输出特征图P2，并对特征图P1与特征图P2相乘后输出新的特征图。

4.如权利要求3所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：在模型的最后一个阶段内，替换所有原有的激活函数，使用SiLu激活函数；输入Zk的第k个SiLU的激活ak由sigmoid函数乘以其输入计算得出a_k(z_k)＝z_kσ(z_k)，其中sigmoid函数的公式1，对于较大Zk值，SiLU的激活基本等于ReLU的函数，但不同ReLU，SiLU激活并不是单调递增的，相反对于Zk≈1.28，它的全局最小值为-0.28；SiLU具有自稳定特点，导数为零的全局最小值在权重起到了缓冲的作用，作为隐式正则化器抑制了大数量权重的学习，在实际的测试中发现会对该模型的性能有提升，并且等同于全部Stage都替换SiLU函数的效果，因此只需用在最后一个Stage即可。

5.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：所述循环架构模块中，特征图输入进到循环架构模块时，会将输入特征图的通道平均分成特征图P3和特征图P4，对特征图P4通过ConvGRU输出的输出特征图P5和记忆单元特征图ht，拼接特征图P3和特征图P4，输出特征图P6。

6.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：所述关键点回归模块中，标准化流模块能将一些基本的简单分布转换为任意的的复杂分布，理论来说只要变换足够复杂，那么可以拟合出任意的目标分布；在实际的训练过程中，我们使用的就是神经网络，因此神经网络理论上是可以接近任意的函数，因此在标准化流模型的一系列复杂转换可以通过叠加在FC层实现的；在模型训练过程中，回归模块会拟合出简单分布的输出值，通过标准化流模块对拟合出来的结果值进行变换，让变换后的结果更接近目标的分布P。

7.如权利要求1所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：训练分为四个阶段，分别为阶段1、阶段2、阶段3和阶段4，阶段1在没有循环架构模块的情况下，我们可以使用零散数据集进行模型训练，获得一个合适的预训练模型，在实际的测试对比中发现尽管使用MobileNetV3的分类预训练模型作为关键点模型的预训练模型，但是对比于使用关键点模型的预训练模型，对于模型的后期的训练能带来更快的损失收缩以及对模型性能有一定的提高。

8.如权利要求7所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：阶段2在视频流数据上进行15帧的训练，我们设置一个较短的序列长度T＝15帧，这样网络可以快速更新；阶段3将T帧增加到50帧，将学习率降低为原来的一半，并保留阶段1的超参数训练模型，这使得我们的模型可以看到更长的序列信息并学习长序列间的依赖关系。

9.如权利要求8所述的基于循环架构与坐标系回归的实时2D手势估计方法，其特征在于：阶段4使用视频流数据以及零散数据进行整合训练少量的迭代数，对于零散数据，我们将其视为只有1帧的视频序列，这可以迫使模型即使在没有重复或是连续的信息的情况下也能保持着鲁棒性。