CN111460976A

CN111460976A - 一种数据驱动的基于rgb视频的实时手部动作评估方法

Info

Publication number: CN111460976A
Application number: CN202010237076.1A
Authority: CN
Inventors: 李冕; 王天予; 王毅杰
Original assignee: Shanghai Pnx Information Technology Co ltd; Shanghai Jiaotong University
Current assignee: Shanghai Pnx Information Technology Co ltd; Shanghai Jiaotong University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111460976B

Abstract

一种数据驱动的基于RGB视频的实时手部动作评估方法，属基于视频处理的人类行为分析领域。包含手部姿势估计单元和动作评价单元；手部姿势估计单元用于从本帧图像中提取手部关键点坐标；动作评价单元用于预测手部动作质量的评分，并对如何提高的分给出建议；通过基于深度学习的方法进行手势估计和组织，进行动作质量评估。其解决了在摄像头视角不断变化过程中所提取特征与真实场景下人手部细节的匹配准确度，同时能够提高整体动作识别和评估的计算/运算效率，实现了手部动作的实时虚拟重建，能够对人类手部动作进行实时性和准确性地评估，提高了整个动作评估的准确性和鲁棒性。可广泛用于基于视觉的手部姿态估计、动作质量评估方法等领域。

Description

一种数据驱动的基于RGB视频的实时手部动作评估方法

技术领域

本发明属于基于视频处理的人类行为分析领域，尤其涉及一种基于RGB视频的手部动作实时评估方法。

背景技术

近年来，计算机视觉领域的快速发展，引导出了许多从图像和视频中进行对象检测和动作识别的可靠方法。为此，学术界逐渐开始探索基于视频的人体动作质量评估领域。

目前，在人体的宏观动作上已经取得了很多进展。

在论文“评估行动的质量”(哈米德·皮尔西亚瓦斯、卡尔·冯德里克和安东尼奥·托拉巴，2014年欧洲计算机视觉会议。斯普林格国际出版社，556-571。HamedPirsiavash,Carl Vondrick,and Antonio Torralba.2014.Assessing the Quality ofActions.In 2014European Conference on Computer Vision(ECCV).SpringerInternational Publishing,556–571.)中，提出了一种基于线性支持向量回归(L-SVR)的方法，该方法在底层和高层的时空特征上进行了训练。

在论文“基于Kinect的健身运动识别与评价”(王毅等，《计算机科学与应用》，2018年7月27日，P1134-1145)中，提出了一种基于KNN的微调方法，该方法根据静态骨架数据和模板模型之间的相似性对运动物体的表现进行分类。

但是，上述现有的这些方法不能确保在所提取的人体特征与视频反映的真实物理部分之间建立一致的一对一匹配关系。例如，在论文“评估行动的质量”中相机的角度变化会相应地将现实中的右腿映射到图像中左腿的特征。当涉及到是人的手而不是身体时，会出现很大困难，因为一双手的协作更复杂，而这种匹配错误对评估带来的影响是不容忽视的。

因此，目前对手部动作评估的探索仍然非常有限。换句话说，到目前为止，尚没有方法研究对于手部动作的相应评估。

实际上，对于手部动作的评估与一般意义上的人体动作评估有本质上的不同。

对于那些基于手的动作，表现通常取决于手部姿势中的细节。例如，可以根据受训者的手部姿势(例如持手术刀的姿势)部分地对其进行手术培训的评估。同时，手部动作涉及人的两只手以及每只手的不同状态(正反面等等)，在进行评估时需要辨识出这些从而组成合理的特征。

基于视频的手部动作质量评估非常重要，许多场景都需要这一技术来促进对基于手的训练过程的自动评估。这种评估通常包含两部分：表现得分和手势中哪一部分最需要改进以及如何进行调整。受训者可以根据该技术提供的反馈，自主提高自己的表现。因此，该项技术解决了通常情况下没有或者缺乏的专家指示。此外，由于该项技术基于摄像头，受训者可以摆脱可穿戴式传感器，从而以更加逼真和自然的方式进行训练。

对于手部动作的评估基于手部姿势估计。手部姿势估计是指提取出手部各个关节二维或者三维坐标从而估计姿势的过程和方法。

在传统的手势估计方法中，无论是生成类的方法还是区分类的方法，都依赖于深度摄像头采集到的RGB-D(RGB+Depth Map，深度图像)图片或视频，导致了实施成本非常高且对设备性能的高要求。

近些年来，学术界提出了一些基于深度学习的仅依赖于普通RGB图像和视频的有效方法。这种方法通常包括三个部分：手的分割，姿势估计以及估计姿势的改进和细化。

但是，这些方法仍然存在一些未解决的问题。首先，它们几乎不仔细考虑计算效率的问题。对于实际应用的场景，实时性的在线评估是非常重要的一个要求，因此对于计算效率有较高要求。另外，它们在进行估计姿势的改进时，也不考虑两只手的整体性，整体性的考虑是指将视频中的两只手与真实的左手和右手进行对应，同时确保提取出的手的特征与真实情况下的各个手指关节对应正确。

除了学术界上的发展，也有不少专利文献提出了与手部动作分析相关的技术，例如，授权公告日为2018年11月27日，授权公告号为CN 105160323B的中国发明专利，公开了一种手势识别方法，旨在基于图像的深度信息和颜色信息来快速并且准确地识别使用者的手势。该技术方案非常依赖于预设的信息：预设的手部结构模板来确定手部轮廓的待测特征点序列，预设的特征点序列来匹配动作名称和位置，预设手势表来匹配手势。这使得场景变化便需要修改预设的模板。而且，该技术方案明基于包含深度信息的图像，依赖于深度信息来提取所需的特征点，给数据采集设备增加了额外的要求。

又例如，在授权公告日为2015年8月26日，授权公告号为CN 103034851B的中国发明专利中，公开了一种自学习的基于肤色模型的手部跟踪装置及方法，其提供了基于颜色深度信息和尺度不变特征变换的精确手部运动识别方法，可以在手部受干扰或者被遮挡时保持稳定性和准确性。但是，该技术方案最终是基于手部轮廓和指尖位置来实现跟踪，这对于手部动作的评估是不够的，要实现手部动作的评估，需要能反映完整手势的特征。该技术方案同样依赖于深度信息来提取所需的特征点。同时，该技术方案也是基于比较地识别视频中手部运动类型，导致在新的场景中需要更大的代价去建立对比正样本。

上述专利文献中的技术方案，主要针对手部的识别和追踪，并没有涉及实时手部动作的评估问题。同时，这些技术方案所分析的都是手部的宏观特征，没有深入到手部结构(例如：某个手指的状况或动作变化)的细节信息。进一步，这些技术方案都没有考虑到相机角度改变带来的错误对应问题，即都假设了一种稳定的相机视角。

如何解决在摄像头视角不断变化过程中所提取特征与真实场景下人手部细节的匹配准确度，提高整体动作识别和评估的计算/运算效率，提高整个动作评估的准确性和鲁棒性，是对手部动作进行实时评估工作中急待解决的问题。

发明内容

本发明所要解决的技术问题是提供一种数据驱动的基于RGB视频的实时手部动作评估方法。其针对基于视频处理的人类行为分析领域中手部动作评估的研究空白、人体动作评估中特征与真实物理部分对应错误问题和动作评估***的实时性问题，提出了基于RGB视频的实时手部动作识别和评估方法，来解决在摄像头视角不断变化过程中所提取特征与真实场景下人手部细节的匹配准确度，同时能够提高整体动作识别和评估的计算/运算效率，实现了手部动作的实时虚拟重建，能够对人类手部动作进行实时性和准确性地评估，提高整个动作评估的准确性和鲁棒性。

本发明的技术方案是：提供一种数据驱动的基于RGB视频的实时手部动作评估方法，其特征是：

1)获取手部待识别视频；

2)对该待识别视频进行手部区域分割；

3)根据所分割出来的手部区域，计算每个位置被选为关键点的概率，来获取二维手部关键点位置；

4)根据提取的二维手部关键点位置，预测三维手部关键点位置；

5)根据手部肤色以及结构，识别手部的状态，相应调整手势特征，并为整个视频得到时空特征；

6)基于所述的时空特征，用“长短期记忆网络”、“离散余弦变换+支持向量分类器”以及“离散傅里叶变换+支持向量分类器”三种模型进行比较验证，预测手部动作的质量等级；

7)通过基于深度学习的方法进行手势估计和组织，实现手部动作的实时虚拟重建，进行手部动作的质量评估。

其中，所述的手势估计和组织，至少包括：对于包含显示人的两只手的图像帧的常规RGB视频，提取两只手的姿势作为每个静态帧的特征。

所述的手势估计和组织，通过手分割模块，2D手姿势估计模块，3D手姿势估计模块和手姿势组织模块来实现。

具体的，所述的手分割模块用于在每帧图像中识别并分割出人类手部所在的区域，使用来自Egohands数据集的数据构建模型；

所述的2D手姿势估计模块用于提取出手部各关节点的二维坐标信息，利用每个像素点被选为关键点的概率的关键点得分图来得到二维的手部姿势；

所述的3D手姿势估计模块用于将前一个模块提取出的二维手姿势提升到三维，根据从2D手姿势估计模块获得的不完整和嘈杂的关键点得分图来预测相对和标准化的三维坐标；

所述的手姿势组织模块用来区分视频每一帧中的左手和右手，以及每只手的不同几何状态，然后应调整原始的粗略姿势，使其与实际情况相符。

进一步的，所述的手分割模块，通过裁剪覆盖待分割部分的灵活区域，在不影响准确度的情况下，大幅度提高模块的计算效率。

具体的，所述的计算效率，通过重建计算成本RCC和评估计算比ACR来表示；

其中，重建计算成本RCC用于表示每帧手势估计的计算时间；

评估计算比ACR用于表示动作质量评估的计算时间与视频持续时间的比值；

所述的重建计算成本RCC量化了动作的虚拟表示与真实动作的同步程度；

所述的评估计算比ACR衡量了提供及时评估和反馈的程度。

进一步的，所述手部动作的质量评估，通过绩效评估模块和反馈指示模块来实现。

更进一步的，所述的绩效评估包括：将关节的三维相对位置用作每帧的特征，然后建立模型来分析整个视频的时空信息并输出分数。

更进一步的，所述的反馈指示包括：提供的反馈指示受训者应如何调整其静态姿势中的每一个，给出最需要调整的关节以及对应的使得最终分数提升最大的调整方向，通过建立起动作与得分之间的因果关系，来实现受训者最终分数的最大改善。

其所述的反馈指示，通过最大化最终分数相对于每帧的特征的梯度来实现。

与现有技术比较，本发明的优点是：

1.本技术方案在整体上通过基于RGB视频实现自动手部动作评估解决了在训练场景中缺乏专家实时监督的问题，极大地提高了训练的效率；

2.本技术方案通过提高手的分割时的运算效率和多线程并行运算框架(视频读取、视频处理、特征组织)提高了整体的运算效率，为手部动作的实时虚拟重建提供了机会，在特征提取中达到基本与视频播放速度同步的效果，在动作评估中达到视频播放后及时给出反馈的效果；

3.本技术方案通过在特征提取中增加特征组织的步骤，提高了在摄像头视角不断变化过程中所提取特征与真实场景下人手部细节的匹配准确度，从而提高了整个动作评估的准确性和鲁棒性。

附图说明

图1是本发明的方法流程示意图；

图2是本发明手部分割模块的结构示意图；

图3是本发明二维姿势估计模块的结构示意图；

图4是本发明三维姿势估计模块的结构示意图；

图5是本发明手部姿势整合模块的结构示意图；

图6是本发明动作质量评估模块的结构示意图；

图7是本发明判断左手几何状态的流程示意图；

图8a、图8b、图8c分别是本发明一个实施例中的图形效果示意图；

图9是在折纸数据集上差的表现水平的RCC指标的均值和标准差示意图；

图10是在折纸数据集上一般的表现水平的RCC指标的均值和标准差示意图；

图11是在折纸数据集上好的表现水平的RCC指标的均值和标准差示意图；

图12是在折纸数据集上差的表现水平的前5出现次数的关节示意图；

图13是在折纸数据集上一般的表现水平的前5出现次数的关节示意图；

图14是在折纸数据集上好的表现水平的前5出现次数的关节示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

包含深度信息的图像(亦称图像深度)是指存储每个像素所用的位数，它也是用来度量图像的色彩分辨率的。它确定了彩色图像的每个像素可能有的色彩数，或者确定灰度图像的每个像素可能有的灰度级数，其决定了色彩图像中可能出现的最多的色彩数，或者灰度图像中的最大灰度等级。虽然像素深度或图像深度可以很深，但各种显示装置的颜色深度却受到限制。例如，标准VGA支持4位16种颜色的彩色图像，多媒体应用中推荐至少用8位256种颜色。由于设备的限制，加上人眼分辨率的限制，一般情况下，不一定要追求特别深的像素深度。此外，像素深度越深，所占用的存储空间越大。相反，如果像素深度太浅，那也影响图像的质量，图像看起来让人觉得很粗糙和很不自然。

针对现有三维手部姿势估计方法无法同时识别左、右手，以及基于视频的动作自动评估主要集中针对身体动作的现状，本发明的技术方案提出了一种数据驱动的基于RGB视频的实时手部动作评估方法。

本发明的技术方案主要包含两大组成部分：

1)手部姿势估计单元：包括手部分割模块、二维姿势估计模块、三维姿势估计模块和手部姿势整合模块，用于从本帧图像中提取手部关键点坐标；

2)动作评价单元：包括长短期记忆网络模型、离散余弦变换+支持向量分类器和离散傅立叶变换+支持向量分类器，用于预测手部动作质量的评分，并对如何提高的分给出建议；

所述手部姿势估计单元的手部分割模块能为手部姿态估计奠定坚实的基础。在实际场景中的应用手部分割需要认真考虑计算效率。然而，许多现有的方法不能满足这些要求。如果背景复杂或肤色变化剧烈，这些方法的性能会急剧下降。同时，这些方法忽略了计算效率的问题。

在现有技术中，实现手的分割，是一个用来自Egohands数据集的数据建立的模型，该数据集具有高质量的注释，在48个不同的环境中，有4800个含有手的图像。模型经训练后应用于视频的每一帧。需要注意的是，从原始图像中裁剪分割的部分通常是速度的瓶颈，因为此操作需要识别边界上的所有像素，所以，本发明的技术方案不会沿着检测到的盒子的精确边界裁剪，相反，可以覆盖被检测到的盒子的柔性区域。

所述二维手部姿态估计模块，根据编码-解码器结构来实现该步骤。用关键点得分图估计2D手部姿势，该图表示每个位置被选为关键点的概率。利用编码器生成的图像特征表示预测初始得分图。关于采用编码-解码器结构来实现二维手部姿态估计模块的具体实现方法，可参考论文“卷积姿势机”(世恩·魏、和瓦润·罗摩克里希纳、金出武雄和亚瑟·谢赫，2016年IEEE国际计算机视觉与模式识别会议。IEEE出版社,4724–4732。Shih-EnWei,Varun Ramakrishna,Takeo Kanade,and Yaser Sheikh.2016.Convolutional PoseMachines.In 2016IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE Press,4724–4732.)中所述，在此不再详述。

所述三维手部姿态估计模块，用论文“从单个RGB图像学习估计3D手势”(克里斯蒂安·齐默尔曼和托马斯·布鲁克斯，2017年IEEE国际计算机视觉会议。IEEE出版社，4903-4911。Christian Zimmermann and Thomas Brox.2017.Learning to Estimate 3D HandPose From Single RGB Images.In 2017IEEE International Conference on ComputerVision(ICCV).IEEE Press,4903–4911.)中的PosePrior网络得出。该网络基于最后一步得到的有确实的和有噪声的关键点得分图来预测相对正则化的三维坐标。

所述手部姿势整合模块基于前面的步骤估计出粗糙的手姿势。

由于现有的肢体动作质量评价并不保证所提取的肢体关键点的位置是否很好地对应于视频中人体的每个部分。例如，由于摄像机角度的巨大变化，运动员的左腿和右腿有时会出现混乱。然而，这种不匹配将导致评估质量下降，因此有必要在提取的空间信息和实际情况之间保持一对一匹配。在本技术方案的含有手的场景中，区分了左手和右手，并且进一步区分了视频每帧中每只手的不同的状态，然后调整原始的粗糙手的姿势，使其在不同相机位置的情况下与现实相符。

图1中，给出了本发明技术方案对于手部动作评估方法的流程图。该手部动作评估方法，包括以两个关键步骤：通过基于深度学习的方法进行手势估计和组织，进行动作质量评估。

进一步的，给定视频的每个帧首先经历四个模块：手分割，二维手姿势估计，三维手姿势估计和手姿势组织。然后按从静态手势组成时空动态动作，整个动态动作经过评估模块，评估动作的好坏程度。

更进一步，评估模块还提供相应反馈，表明最有希望的改进。

具体的，第一个步骤是手势估计和组织。对于包含人的两只手的图像帧

的常规RGB视频，提取两只手的姿势作为每个静态帧的特征。第t帧的特征定义为一组坐标p^j(t)＝(x^j(t),y^j(t),z^j(t)),j∈[1,2m]，该坐标表示与双手关节相对应的2m个关键点的位置(在本例中m＝21)。实施此过程有四个模块：手分割，2D手姿势估计，3D手姿势估计和手姿势组织。

图2给出了本发明手部分割模块的结构示意图，由图可知，手部分割模块包括单发多盒探测器。

手分割模块用于在每帧图像中识别并分割出人类手部所在的区域。鲁棒的手分割模块将为后续提取准确的手部姿势打下坚实的基础。考虑到在实际场景中的应用，计算效率也是很重要的一个方面。

但是，大多数现有方法无法满足这些要求。如果背景不同寻常或肤色有明显变化，那些方法的性能会急剧下降。而且，它们没有认真考虑计算效率的影响。该模块使用来自Egohands数据集的数据构建模型，该数据集具有高质量注释，其中手位于48种不同环境下的4800张图像中。

将训练后的模型应用于视频流的每帧。可以注意到，计算效率的瓶颈通常在于裁剪原始图像中的待分割区域，因为往往需要识别边界上的所有像素。该模块不会沿着检测到的盒子的精确边界进行裁剪。相反，裁剪覆盖待分割部分的灵活区域。这使得在几乎不影响准确度的情况下大幅提高了模块的计算效率。

图3给出了本发明二维姿势估计模块的结构示意图。

二维手姿势估计模块用于提取出手部各关节点的二维坐标信息。

该模块根据编码器-解码器结构来实现。提取手部各关节点的二维坐标信息转化为了在手部图像中找出关键点的任务。利用每个像素点被选为关键点的概率的关键点得分图来得到二维的手部姿势。

具体的，对于每只手，把第j个关节的像素坐标记为Y_j,目标是预测所有的坐标Y＝(Y₁,…,Y_m)。模块包含了一系列多分类预测器g_t(·)，对于每一帧t∈{1,…,T}对应的预测器将图像的某个像素点坐标分配给各个关节Y_l＝z，基于在位置z上提取出来的特征x_z以及前面一个分类器得到的各Y_l邻近像素的上下文信息。定义分类器将第t帧的关节l赋予位置z＝(u,v)^T得到的概率为

定义

为从b_t-1到上下文特征的映射。于是有

通过在所有帧上的更新，完整的关键点得分图可以被构建，从而提取出所有关节点的二维坐标信息。

图4给出了本发明三维姿势估计模块的结构示意图。

三维手姿势估计模块用于将前一个模块提取出的二维手姿势提升到三维。模块根据从前一个模块获得的不完整和嘈杂的关键点得分图来预测相对和标准化的三维坐标。

首先基于二维位置信息，训练一个网络去预测相对应的在典范框架中的三维坐标；接着，估计典范框架与相对框架之间的转换。特别的，对于后者，需要估计一个旋转矩阵R(w^rel)，包含两步。第一步，需要找到围绕x轴和z轴的旋转R_xz使得关节点在典范框架下与y轴对齐：

第二步，计算一个围绕y轴的旋转R_y，使得

而整个旋转矩阵即为这两个旋转的乘积。这些估计都属于视角估计的问题。

经过前面的模块，已经估计出粗略的三维手势。现有对于人体动作评价的文章根据粗略的身体姿势来进行后续的评价，而不会确认提取出来的位置信息是否与视频中显示的人体的各个部位相吻合。例如，在有些基于奥林匹克运动数据集的实验中，运动员的左腿和右腿有时会由于摄像机角度的巨大变化而产生错误的对应(右腿提取出来的位置信息对应到左腿的特征)。由于这种匹配错误将导致后续评价的准确性降低，有必要加入手姿势组织模块来确保提取的关节位置信息与实际情况之间保持一致的一对一匹配。

图5给出了本发明手部姿势整合模块的结构示意图。

如图5中所示，手部姿势整合模块用来区分视频每一帧中的左手和右手，以及每只手的不同几何状态。然后应调整原始的粗略姿势，使其与实际情况相符，而与相机的状况无关。

具体的，尽管手部分割模块是在区分左手和右手的第一视角数据集上训练的，该模块仍采用了一种校正机制来提高其鲁棒性。首先会在图像中检测双手所连接的前臂部分。如果这些区域延伸到框架的下边界，则说明相机处于第一视角，在这种情况下在图像中位置靠左的手分割部分对应左手，而靠右的部分对应右手。否则，说明相机处于观察者的视角，此时颠倒对应关系。

每只手定义和区分四种状态：手心摊开，握拳向上，手背摊开，握拳向下。

图7给出了区分左手四个几何状态的详细算法，右手算法的工作原理与左手完全相同。首先将每只手分割部分的图像从RGB转换为HSV颜色空间。然后使用轻微的高斯模糊进行处理，以便可以更好地将人类皮肤与具有类似HSV的其他对象区分开(在本技术方案中将其视为噪声)。之后，从手的表面采样椭圆形区域，并检查区域的灰度。由于人的手背往往比手心更暗，因此可以识别出手的正反面。此外，计算手的周长和面积以确定手处于握拳还是摊开的状态。当面积和周长大于等于其各自阈值时，被判定为摊开状；反之，被判定为握拳状态。对于处于握拳状态的情况，当前帧之前的第十五帧(代表握拳前即将握拳的状态)被用来计算灰度值并判断正反面，因为握拳时的手对应的灰度值会同时包含正反面的要素，容易导致判断出现错误。

考虑最后的效果，左手的握拳向上和手心摊开状态与右手的握拳向下和手背摊开状态是等效的。因此，双手的所有状态归结为对左手和右手的不同处理。具体的，对于左手，使用原来提取得到的三维坐标；对于右手，将原来提取得到的三维坐标沿z轴进行翻折。

具体的，第二个步骤是手部动作评估。

图6给出了本发明动作质量评估模块的结构示意图。

基于组织好的两只手的三维姿势，可以对视频中展示的手的动作进行质量评估。评估包括两个模块：绩效评估和反馈指示。对于前者，将关节的三维相对位置(从左手到右手)用作每帧的特征。然后建立模型来分析整个视频的时空信息并输出分数。对于后者，提供的反馈指示受训者应如何调整其静态姿势中的每一个，以实现最终分数的最大改善。这是通过最大化最终分数相对于每帧的特征的梯度来实现的。

对于模块一“绩效评估模块”，第t帧中第j个关节的特征为p^j(t)＝[x^j(t),y^j(t),z^j(t)],j∈[1,2m]，其中所有的坐标都是相对于手掌心的经过归一化的。然后，有组织地拼接所有2m个关节(两只手)的特征，得到φ(t)＝[p⁽¹⁾(t),…,p^(2m)(t)]，表征每帧中的动作的高层次信息。

实现自动评估的主要方法有两种：学习和典型示例。前者提出了一种机器学习问题，其中从专家(亦称专家数据库)那里收集标记的数据以训练评分模型，然后模型可以泛化完成任务。后者将观察到的视频与手部动作的基准视频进行比较，以评估手部动作的质量。本模块采用第一种方法，因为第二种方法在多个理想执行的要求下表现不好。具体来说，为了确保得分无偏，第二种方法必须包含数量众多且表现良好的动作作为基准。

考虑到静态姿势在完成动作中是相互关联的，因此有必要探索整个视频的时空特征。

在本发明的技术方案中，用“长短期记忆网络”、“离散余弦变换+支持向量分类器”以及“离散傅里叶变换+支持向量分类器”三种模型进行比较验证。

对于第一种模型“长短期记忆网络”，该任务与其他时间序列数据具有相似性，对于这些时间序列数据，已证明使用长短期记忆单元增强的递归神经网络表现很好。因此，利用1层LSTM网络对动作的时序方面进行建模。

对于第二种模型“离散余弦变换+支持向量分类器”，将离散时间余弦变换应用于时间序列特征，以获得频域中的合成表示。然后，对定义数量的低频分量进行支持向量分类器(回归器)处理，以给出分数。

对于第三种模型“离散傅里叶变换+支持向量分类器”，离散时间余弦变换可以简单地用离散时间傅立叶变换代替。

训练网络以使目标分数和预测分数之间的平均绝对误差(MAE)最小化：

其中S_n和

分别是视频n中真实的分数和预测得到的概率向量。

对于模块二“反馈指示模块”，除了量化手势效果的表现评估外，还有必要提供反馈来指示受训者如何进行姿势调整以改善总体得分。作为视频的关键特征，手部关节的坐标揭示了需要分析的手部动作质量的所有细节。但是，发现并纠正每个关节是不切实际的，因为视频中的受训者将重点放在改进每次训练的最关键问题上。此外，关节之间的物理约束需要相当复杂的数学分析。为此，基于先前的评估模型，该模块仅考虑受训者如何最有效地提高得分。在此采用其中一个模型LSTM来演示一般的分析过程。

该模块通过计算输出得分相对于最后一帧(t₀)所提取出的特征的导数来完成此任务。因为LSTM模型在整个视频的进程中捕获了重要的时空特征，而忽略了相对琐碎的特征。在t₀帧中的输出门表示为

O(t₀)＝σ(W_oφ(t₀)+U_oO(t₀-1)+b_o)

其中σ(·)表示sigmoid函数，W_o和U_o是共享的参数矩阵，b_o是偏置项。为了简单起见，记

Q_m(t₀)＝σ(W_mφ(t₀)+U_mO(t₀-1)+b_m)

K_m(t₀)＝tanh(W_mφ(t₀)+U_mO(t₀-1)+b_m)

总体的概率向量

相对于输入φ(t₀)的梯度计算为

其中H(·)是softmax函数的导函数，W′和b′分别是全连接层的权重矩阵和偏置项，以及

A＝tanh(K_a(t₀)Q_i(t₀)+Q_f(t₀)h(t₀-1))

计算得到的梯度可以表示成3×6m的矩阵。目标是选择对应好的表现的行向量中的最大元素

得到的结果反映了最需要调整的关节以及对应的使得最终分数提升最大的调整方向。进一步，也可以通过LSTM的反向传播计算t＝1,2,…,t₀-1帧相应的值。

因此，可以建立起动作与得分之间的因果关系。

据我们所知，目前没有用于手部动作评价的公开数据集。大多数相关数据集都处理手势识别和基于人体的动作质量评估。为此，我们建立了自己的折纸视频数据集。

手部动作评估的任务要求捕获清晰的动作，以完全反映表演者的手势。

显然，医疗手术是一个不错的选择。但是，几乎不可能大规模观察和记录那些手术视频。此外，医疗手术中所展现的技能通常反映在操作的工具上，而不是反映在手本身上。

折纸是一种经济有效的解决方案。另一个问题是，应该为数据集指定某些标准，即不应有太多可以等同地定义为好或坏的动作集。因此，作为本发明所述方法的效果展示，仅选择了折纸中的一个基本动作：将一张方形纸折叠成8×8个小正方形。

专家根据以下规则将表现情况分为三个等级：

1.较高的水平体现在，在操作过程中，需要非常仔细地折叠纸张；纵向折叠纸张时，应确保两个边缘严格重叠；此外，折痕应薄且清晰，以使纸张在四次对折后仍能承受折弯而不会破裂；苛刻的要求为常规程序增加了一些额外的程序；

2.中等水平体现在，应相对小心地折叠纸张；但是，在过程中不必确保所有边缘都严格重叠；最终，方块边缘会清晰但不是特别实在；

3.较差的水平体现在，会非常不小心地折叠纸张；不在乎两个边缘是否严格重叠；小方块的最终边缘不明确且无法辨认；基本策略始终是纵向折叠纸张，而没有停下来检查边缘。

144个折纸动作的短视频，其中44个被专家标注为好的动作、66个被标注为中等的动作、34个被标注为差的动作。该数据集按照5:1的比例分成训练集和测试集，并且保证各个标注的动作视频等比例地分布在两个集中。

贝叶斯优化方法为训练集上的三个评估模型提供了最佳的超参数集。

在绩效评估方面，准确度和计算效率是两大至关重要的考量。

对前述的三种模型(“长短期记忆网络”、“离散余弦变换+支持向量分类器”以及“离散傅里叶变换+支持向量分类器”)在测试集上的准确度，在不同的指标(见下表1)和类(见下表2)下进行了比较。

总体上，这三个模型具有良好的性能。LSTM得到了最高的准确率，但在AUC上最低。虽然它可以很好地预测好的表现所对应的数据，但其性能在其他级别(尤其是坏级别)的表现上会下降。

根本原因是LSTM对时域变化(例如时间跨度和动作阶段)敏感。好级别的表现在这些方面有所突出。同时，后两个模型的特点是对时间序列数据进行整合和浓缩，因此在三个级别的动作数据上展现出更加平衡的结果。

可以归纳出，LSTM更适合应用在那些对时间敏感的动作上，而DCT+SVC在评估严格遵循标准规则的动作方面显示出更多优势。

表1

表2

计算效率对基于视频的方法也非常重要，尤其是当它们被应用于实际场景中时。假设本发明的技术方案应用于旨在促进基于虚拟现实的训练***，则应确保计算效率，以便可以进行实时手部重建并及时进行动作质量评估。

为此，本技术方案定义了两个新的指标：重建计算成本(RCC，ReconstructionComputational Cost)，用于表示每帧手势估计的计算时间；评估计算比(ACR，AssessmentComputational Ratio)，用于表示动作质量评估的计算时间与视频持续时间的比值。由于手部姿势的提取和组织随着视频动作的进行而进行，重建计算成本RCC量化了动作的虚拟表示与真实动作的同步程度。另一方面，评估计算比ACR衡量提供及时评估和反馈的程度。

实验在装有CPU Intel Xeon Bronze 3106，GPU 1080Ti和内存大小16GB的计算机上进行。针对每一个动作表现水平，研究了数据集中每个视频的重建计算成本RCC的均值和方差(参见图9至图11所示)。

在图9，图10和图11中的英文标注及中文译文对照如下：

Time–时间；Mean–均值，Variance-方差，Video ID–视频编号。

事实证明，该值主要在0.08s左右波动。这说明对于正常的每秒12帧(fps)的视频(每帧0.083s)，组织良好的手势几乎与正在进行的动作同步。对于较高fps的视频，可以通过跳帧来改善RCC，即不考虑每个滑动窗口中那些质量较差的帧。RCC和精度之间的权衡可以根据特定需求进行平衡。

因此，此方法为手部动作的实时虚拟重建提供了机会。

此外，三种动作表现水平的视频在评估计算比ACR上的平均值分别为0.23、0.077和0.11。这表明此方法可以在动作完成后的较短时间内提供反馈。

除了效绩评估外，还展示了对每帧提供有关如何调整手势的反馈。

图8a至图8c中展示了几个例子。其中，图8a和图8b为经过手势估计和组织步骤后得到的两只手的区域；图8c为综合两只手所有关节得到的需要调整最多的关节(即，具有最大梯度量的关节，该关节在图8c中由圆圈指定，而最大梯度的方向则由箭头指定)。

进一步，可以研究执行特定动作时经常出现问题的关节。这可以为管理人员更好地完善训练计划提供启示。具体的，对于每只手，记录每个关节被选为最需要在整个视频中调整的总次数。

图12至图14中展示了每个手在每种表现等级上总次数前五的关节，反映了比较需要进行调整的关节。

在图12，图13和图14中的英文标注及中文译文对照如下：

Number of Occurrence–出现次数，Thumb–大拇指，Ring–无名指，Palm–手掌心，Index–食指，Pinky–小拇指，Middle–中指。

其中图12对应坏的表现等级，图13对应中等的表现等级，图14对应好的表现等级。每张图左边代表左手的情况，右边代表右手的情况。通过观察这些图，可以得出一些关于动作执行者的手的有趣见解。

可以观察到，拇指尖几乎超过了其余所有拇指，这表明其在折纸中的重要性。根本原因是，这个关节对清晰可识别的折痕(评估规则的核心部分)做出了最大贡献。

无名指用来帮助从后方包裹折痕。其在左手上比右手上显示出更多问题。这体现了那些折纸人更加习惯使用自己的右手。

食指是折纸中的另一个重要手指，在左手的所有三种情况下都出现在前五名中。这说明了与上一段相同的有关折纸人的信息。

由于在表现不佳的情况下左手和右手的总次数极不平衡，可以得出结论，折纸人左手缺乏灵活性会直接导致最终表现水平的下降。

综上，本发明的技术方案，主要包含两大组成部分：手部姿势估计(特征提取)和动作评估。

对于第一个部分，本发明的技术方案基于视频的每一帧，首先利用卷积神经网络在图像中分割出人的两只手，在对分割区域进行裁剪时基于少量参数而不是所有像素点，从而提高了计算效率；其次，利用卷积姿势机对每一只手分别进行关键点检测，提取出二维的关节点坐标；然后利用神经网络将二维的关节点坐标提升到三维，作为每只手的手势特征；最后，根据手部肤色以及结构识别出滑动窗内左手和右手以及它们的状态(握拳向上，握拳向下，手背摊开，手心摊开)，相应调整手势的特征，并为整个视频得到时空特征。

对于第二个部分，本发明的技术方案基于时空特征建立了三个模型(长短期记忆网络，离散余弦变换+支持向量分类器，离散傅立叶变换+支持向量分类器)分别来预测视频中所反映的手部动作的表现情况。

进一步的，本发明的技术方案还提供了一种机制，可以针对每帧中的每个关节计算最终表现相对于其三维坐标的梯度然后给出如何调整姿势以便快速提高表现的指示。

本发明的技术方案，针对基于视频处理的人类行为分析领域中手部动作评估的研究空白、人体动作评估中特征与真实物理部分对应错误问题和动作评估***的实时性问题，提出了基于RGB视频的实时手部动作识别和评估方法，来解决在摄像头视角不断变化过程中所提取特征与真实场景下人手部细节的匹配准确度，同时能够提高整体动作识别和评估的计算/运算效率，实现了手部动作的实时虚拟重建，能够对人类手部动作进行实时性和准确性地评估，提高整个动作评估的准确性和鲁棒性。

本发明可广泛用于基于视觉的手部姿态估计、动作质量评估方法等领域。

Claims

1.一种数据驱动的基于RGB视频的实时手部动作评估方法，其特征是：

1)获取手部待识别视频；

2)对该待识别视频进行手部区域分割；

2.按照权利要求1所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的手势估计和组织，至少包括：对于包含显示人的两只手的图像帧的常规RGB视频，提取两只手的姿势作为每个静态帧的特征。

3.按照权利要求1所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的手势估计和组织，通过手分割模块，2D手姿势估计模块，3D手姿势估计模块和手姿势组织模块来实现。

4.按照权利要求3所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的手分割模块用于在每帧图像中识别并分割出人类手部所在的区域，使用来自Egohands数据集的数据构建模型；

5.按照权利要求3所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的手分割模块，通过裁剪覆盖待分割部分的灵活区域，在不影响准确度的情况下，大幅度提高模块的计算效率。

6.按照权利要求5所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的计算效率，通过重建计算成本RCC和评估计算比ACR来表示；

其中，重建计算成本RCC用于表示每帧手势估计的计算时间；

所述的评估计算比ACR衡量了提供及时评估和反馈的程度。

7.按照权利要求1所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述手部动作的质量评估，通过绩效评估模块和反馈指示模块来实现。

8.按照权利要求7所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的绩效评估包括：将关节的三维相对位置用作每帧的特征，然后建立模型来分析整个视频的时空信息并输出分数。

9.按照权利要求7所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的反馈指示包括：提供的反馈指示受训者应如何调整其静态姿势中的每一个，给出最需要调整的关节以及对应的使得最终分数提升最大的调整方向，通过建立起动作与得分之间的因果关系，来实现受训者最终分数的最大改善。

10.按照权利要求9所述的数据驱动的基于RGB视频的实时手部动作评估方法，其特征是所述的反馈指示，通过最大化最终分数相对于每帧的特征的梯度来实现。