CN111898571A

CN111898571A - 动作识别***及方法

Info

Publication number: CN111898571A
Application number: CN202010777343.4A
Authority: CN
Inventors: 李亚林; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-11-06

Abstract

本发明提供动作识别***及方法。上述方法包括：在预测阶段，获取当前帧图像对应的姿态特征数据；姿态特征数据包括：人体骨架各关节点在当前帧的三维位置特征、角度特征和模值比特征；其中，角度特征包括：位置相关联的关节点之间所构成角度的角度值，以及，非关联关节点之间所构成角度的角度值；角度特征和模值比特征根据三维位置特征计算得到；将连续N帧图像的姿态特征数据，组合为动态特征数据；N为正整数；连续N帧图像包括：当前帧图像和当前帧图像之前的N‑1帧图像；将动态特征数据输入训练好的机器学习模型，由训练好的机器学习模型决策出识别结果；识别结果包括识别出的动作类别，识别出的动作类别属于多种预设动作类别中的一种。

Description

动作识别***及方法

技术领域

本发明涉及计算机领域，特别涉及一种动作识别***及方法。

背景技术

人体动作识别具有较高的应用价值，例如，在智能家居、3D游戏等人机交互场景中，都对人体动作识别存在需求。

目前一种人体动作识别方式是基于深度学习模型进行分类的动作识别算法，将连续多帧图像输入深度学习模型，由深度学习网络自行提取特征并基于特征进行识别，此类算法复杂度高，原因之一是针对每一帧图像提取的特征一般上百维或几百维，无法达到实时性。

发明内容

有鉴于此，本发明实施例提供一种动作识别***及方法，以提高动作识别的实时性。

为实现上述目的，本发明实施例提供如下技术方案：

一种动作识别方法，包括：

在预测阶段，获取当前帧图像对应的姿态特征数据；所述姿态特征数据包括：人体骨架各关节点在当前帧的三维位置特征、角度特征和模值比特征；其中，所述角度特征包括：位置相关联的关节点之间所构成角度的角度值，以及，非关联关节点之间所构成角度的角度值；所述角度特征和模值比特征根据所述三维位置特征计算得到；

将连续N帧图像的姿态特征数据，组合为动态特征数据；N为正整数；所述连续N帧图像包括：所述当前帧图像和所述当前帧图像之前的N-1帧图像；

将所述动态特征数据输入训练好的机器学习模型，由所述训练好的机器学习模型决策出识别结果；所述识别结果包括识别出的动作类别，所述识别出的动作类别属于多种预设动作类别中的一种。

可选的，所述人体骨架各关节点至少包括：头部中心骨骼点、肩中心骨骼点、肩关节点、肘关节点、手部关节点、脊柱点、胯部关节点、膝关节点和脚部关系点。

可选的，位置相关联的关节点之间构成的角度包括：肩中心骨骼点、肩关节点和肘关节点构成的角度，肩关节点、肘关节点和手部关节点构成的角度，脊柱点、胯部关节点和膝盖关节点构成的角度，以及，胯部关节点、膝关节点和脚部关节点构成的角度；非相关联的关节点之间构成的角度包括：肩关节点、肘关节点和脊柱点构成的角度，肘关节点、手部关节点和脊柱点构成的角度，胯部关节点、膝盖关节点和脊柱点构成的角度，以及，膝关节点、脚部关节点和脊柱点构成的角度。

可选的，所述肩关节点包括：第一肩关节点和第二肩关节点；所述肘关节点包括：第一肘关节点和第二肘关节点；所述手部关节点包括：第一腕关节点和第二腕关节点；所述胯部关节点包括：第一胯部关节点和第二胯部关节点；所述膝关节点包括：第一膝关节点和第二膝关节点；所述脚部关系点包括：第一踝关节点和第二踝关节点；所述第一肩关节点、第一肘关节点、第一腕关节点、第一胯部关节点、第一膝关节点和第一踝关节点位于同一侧；所述第二肩关节点、第二肘关节点、第二腕关节点、第二胯部关节点、第二膝关节点和第二踝关节点位于同一侧；所述模值比特征至少包括：第一至第八向量分别与基准向量的模值比；第一向量的端点包括：第一肩关节点和第一肘关节点；第二向量的端点包括：第一腕关节点和脊柱点；第三向量的端点包括：第二肩关节点和第二肘关节点；第四向量的端点包括：第二腕关节点和脊柱点；第五向量的端点包括：第一膝关节点和脊柱点；第六向量的端点包括：第一踝关节点和脊柱点；第七向量的端点包括：第二膝关节点和脊柱点；第八向量的端点包括：第二踝关节点和脊柱点；所述基准向量的端点则包括：头部中心骨骼点和肩中心骨骼点。

可选的，还包括：在训练阶段，对机器学习模型执行多次迭代训练；其中，每一次迭代训练包括：机器学习模型基于训练集中图像样本进行学习，得到学习后的机器学习模型；其中，每一图像样本包括连续多帧图像及对应的标签，标签中的动作类别属于所述多种预设动作类别中的一种；将测试集中图像样本的动态特征数据输入学习后的机器学习模型，根据所述学习后的机器学习模型所输出的识别结果和图像样本的标签，对所述学习后的机器学习模型进行参数学习和优化。

可选的，所述多种预设动作类别中的部分或全部动作类别为用户自定义动作类别。

可选的，在进入训练阶段之前，还包括：接收用户输入的连续多帧图像；接收用户输入的标签设置信息；根据所述标签设置信息，为所述用户输入的连续多帧图像中的每一帧图像关联标签；其中，每一帧图像所关联的标签的内容包括：用户自定义的一种动作类别或代表无动作发生的类别；将对应同一类别的连续多帧图像划分为至少一个图像样本；将所述图像样本分配至训练集或测试集。

可选的，在预测阶段，还包括：对所述识别结果进行后处理，以矫正识别出的动作类别。

一种动作识别***，包括特征提取模块、组合模块和动作识别模块；所述动作识别模块包括训练好的机器学习模型；

其中：

特征提取模块，用于：在预测阶段，获取当前帧图像对应的姿态特征数据；所述姿态特征数据包括：人体骨架各关节点在当前帧的三维位置特征、角度特征和模值比特征；其中，所述角度特征包括：位置相关联的关节点之间所构成角度的角度值，以及，非关联关节点之间所构成角度的角度值；所述角度特征和模值比特征根据所述三维位置特征计算得到；

组合模块，用于将连续N帧图像的姿态特征数据，组合为动态特征数据，并将所述动态特征数据输入所述训练好的机器学习模型；N为正整数；所述连续N帧图像包括：所述当前帧图像和所述当前帧图像之前的N-1帧图像；

所述训练好的机器学习模型用于：决策出识别结果；所述识别结果包括识别出的动作类别，所述识别出的动作类别属于多种预设动作类别中的一种。

可选的，还包括：训练模块，用于：在训练阶段，对机器学习模型执行多次训练；其中，每一次迭代训练包括：机器学习模型基于训练集中的图像样本进行学习，得到学习后的机器学习模型；其中，每一图像样本包括连续多帧图像及对应的标签，标签中的动作类别属于所述多种预设动作类别中的一种；将测试集中的图像样本的动态特征数据输入学习后的机器学习模型，根据所述学习后的机器学习模型所输出的识别结果和图像样本的标签，对所述学习后的机器学习模型进行参数学习和优化。

可见，在本发明实施例中，在使用机器学习模型进行动作识别之前，预先进行了特征提取，所提取的特下包括人体骨架各关节点的三维位置特征、角度特征和模值比特征。所提取的特征相对维度低，实时性好。

同时，本发明实施例不仅提取了位置相关联的关节点间的角度值，还提取了非关联关节点(位置)间的角度关系，这使得特征的表征力更强，提升了识别效果，与现有方式相比，在降低特征维度的同时，还保证了识别的精准度。

附图说明

图1为本发明实施例提供的动作识别***的一种示例性结构；

图2为本发明实施例提供的人体骨架各关节点模型示意图；

图3为本发明实施例提供的动作识别方法的一种示例性流程；

图4为本发明实施例提供的迭代训练的示例性流程；

图5为本发明实施例提供的动作识别方法的另一种示例性流程；

图6为本发明实施例提供的迭代训练的另一示例性流程；

图7为本发明实施例提供的动作识别***的另一种示例性结构；

图8a-8e为本发明实施例提供的识别结果的显示效果。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结如下：

深度图像：depth image，也被称为距离影像(range image)，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像；

3D：3Dimensional，三维。

本发明提供一种动作识别***及方法，以提高动作识别的实时性。

请参见图1，上述动作识别***的一种示例性结构包括：特征提取模块1、组合模块2和动作识别模块3。

特征提取模块1用于在预测阶段，获取当前帧图像对应的姿态特征数据。

具体的，姿态特征数据可包括：人体骨架各关节点在当前帧的3D位置特征、角度特征和模值比特征，其中，角度特征和模值比特征都是通过3D位置特征计算得到的。

3D位置包括各关节点所在图像的像素点的二维坐标(x,y坐标)和深度值(z坐标)。

在一个示例中，特征提取模块1包括：摄像模组和姿态特征数据提取单元，其中摄像模组包括拍摄普通图像(例如普通RGB图像)的器件(例如摄像头)，以及，拍摄深度图像的器件(例如深度相机)。

深度相机又称之为3D相机。普通相机拍摄到的图片(2D图像)能看到相机视角内的所有物体并记录下来，但是其所记录的数据不包含这些物体距离相机的距离。通过深度相机获取到的数据，可准确知道图像中每个点离摄像头距离，这样加上该像素点在2D图像中的(xy)坐标，就能获取图像中每个像素点的三维空间坐标。

姿态特征数据提取单元可利用骨架检测算法获得各关节点所在图像的像素点的二维坐标(xy坐标)，再根据关节点的3D位置特征计算得到角度特征和模值比特征。

在另一个示例中，特征提取模块1可包括3D体感摄影机和姿态特征数据提取单元，其中3D体感摄影机可直接输出关节点的3D位置特征，姿态特征数据提取单元可根据关节点的3D位置特征计算得到角度特征和模值比特征。

在一个示例中，请参图2，人体骨架各关节点模型包括：

头部中心骨骼点，图2中以0表示，也可称为关节点0；

肩中心骨骼点，图2中以1表示，也可称为关节点1；

肩关节点，肩关节点进一步包括：右(第一)肩关节点和左(第二)肩关节点，图2中分别以2和5表示，也可称为关节点2和关节点5；

肘关节点，肘关节点进一步包括：右(第一)肘关节点和左(第二)肘关节点，图2中分别以3和6表示，也可称为关节点3和关节点6；

手部关节点，手部关节点进一步包括：右(第一)腕关节点和左(第二)腕关节点，图2中分别以4和7表示，也可称为关节点4和关节点7；

脊柱点，图2中以8表示，也可称为关节点8；

胯部关节点，胯部关节点进一步包括：右(第一)胯关节点和左(第二)胯关节点，图2中分别以9和12表示，也可称为关节点9和关节点12；

膝关节点，膝关节点进一步包括：右(第一)膝关节点和左(第二)膝关节点，图2中分别以10和13表示，也可称为关节点10和关节点13；

脚部关系点，脚部关节点进一步包括：右(第一)踝关节点和左(第二)踝关节点，图2中分别以11和14表示，也可称为关节点11和关节点14。

图2中一共体现了15个关节点，本领域技术人员可根据实际需要，酌情增减。

通过图2可见，第一肩关节点、第一肘关节点、第一腕关节点、第一胯部关节点、第一膝关节点和第一踝关节点位于同一侧；第二肩关节点、第二肘关节点、第二腕关节点、第二胯部关节点、第二膝关节点和第二踝关节点位于同一侧。

组合模块2用于：将连续N帧图像的姿态特征数据，组合为动态特征数据。

至于动作识别模块3，其可与特征提取模块1和组合模块2安装于同一设备中，也可部署在动作识别服务器中，通过网络与组合模块2进行通讯。

此外，上述***还可包括输出模块4，用于输出与人交互的信息。例如，识别出的动作，此外，还可包括提示音、报警等等。

下面将结合方法介绍各模块的用途。

图3示出了在预测阶段，上述动作识别***所执行的动作识别方法的一种示例性流程，包括：

S1：获取当前帧图像对应的姿态特征数据。

具体的，可由前述的特征提取模块1执行步骤S1，相关介绍请参见前述介绍，在此不作赘述。

前已述及，姿态特征数据可包括：人体骨架各关节点在当前帧的3D位置特征、(向量间的夹角)角度特征和模值比特征。

通过向量之间的夹角和模比值构成的特征模型描述人体运动过程，对于运动描述变得更加精确。

可根据关节点的3D位置特征计算得到角度特征和模值比特征，现介绍如何计算。

角度特征包括：位置相关联的关节点之间所构成角度的角度值，以及，非关联关节点之间所构成角度的角度值。

其中，位置相关联的关节点之间构成的角度示例性的包括但不限于：肩中心骨骼点、肩关节点和肘关节点构成的角度(例如图2中的θ₁和θ₃)，肩关节点、肘关节点和手部关节点构成的角度(例如图2中的θ₂和θ₄)，脊柱点、胯部关节点和膝盖关节点构成的角度(例如图2中的θ₅和θ₆)，以及，胯部关节点、膝关节点和脚部关节点构成的角度(例如图2中的θ₇和θ₈)。

在一个示例中，非相关联的关节点之间构成的角度包括：

肩关节点、肘关节点和脊柱点构成的角度；

具体的，请参见图2，可包含：同侧第一肩关节点(节点2)、第一肘关节点(节点3)和脊柱点(节点8)构成的θ₉，以及，同侧第二肩关节点(节点5)、第二肘关节点(节点6)和脊柱点构成的θ₁₁。

或者，可包含节点2-节点8-节点3构成的角度；节点5-节点8-节点6构成的角度。

肘关节点、手部关节点和脊柱点构成的角度；

具体的，请参见图2，可包含：同侧第一肘关节点(节点3)、第一手部关节点(节点4)和脊柱点(节点8)构成的θ₁₀，以及，同侧第二肘关节点(节点6)、第二手部关节点(节点7)和脊柱点构成的θ₁₂。

或者，可包含节点3-节点8-节点4构成的角度；节点6-节点8-节点7构成的角度。

胯部关节点、膝盖关节点和脊柱点构成的角度；

具体的，请参见图2，可包含：同侧第一胯部关节点(节点9)、第一膝盖关节点(节点10)和脊柱点(节点8)构成的θ₁₃，以及，同侧第二胯部关节点(节点12)、第二膝盖关节点(节点13)和脊柱点构成的θ₁₅。

或者，可包含节点9-节点8-节点10构成的角度；节点12-节点8-节点13构成的角度。

膝关节点、脚部关节点和脊柱点构成的角度；

具体的，请参见图2，可包含：同侧第一膝关节点(节点10)、第一脚部关节点(节点11)和脊柱点(节点8)构成的θ₁₄，以及，同侧第二膝关节点(节点13)、第二脚部关节点(节点14)和脊柱点构成的θ₁₆。

上述角度可以描述上肢、下肢相对于躯干的角度变化，能够较好的表征特定动作的变化属性。

在另一个示例中，非相关联的关节点之间构成的角度可包括：

肩关节点、肘关节点和肩中心点构成的角度；

具体的，请参见图2，可包含：同侧第一肩关节点(节点2)、第一肘关节点(节点3)和肩中心点(节点1)构成的θ₉，以及，同侧第二肩关节点(节点5)、第二肘关节点(节点6)和肩中心点构成的θ₁₁。

或者，可包含节点2-节点1-节点3构成的角度；节点5-节点1-节点6构成的角度。

肘关节点、手部关节点和肩中心点构成的角度；

具体的，请参见图2，可包含：同侧第一肘关节点(节点3)、第一手部关节点(节点4)和肩中心点(节点1)构成的θ₁₀，以及，同侧第二肘关节点(节点6)、第二手部关节点(节点7)和肩中心点构成的θ₁₂。

或者，可包含节点3-节点1-节点4构成的角度；节点6-节点1-节点7构成的角度。

胯部关节点、膝盖关节点和肩中心点构成的角度；

具体的，请参见图2，可包含：同侧第一胯部关节点(节点9)、第一膝盖关节点(节点10)和肩中心点(节点1)构成的θ₁₃，以及，同侧第二胯部关节点(节点12)、第二膝盖关节点(节点13)和肩中心点构成的θ₁₅。

或者，可包含节点9-节点1-节点10构成的角度；节点12-节点1-节点13构成的角度。

膝关节点、脚部关节点和肩中心点构成的角度；

具体的，请参见图2，可包含：同侧第一膝关节点(节点10)、第一脚部关节点(节点11)和肩中心点(节点1)构成的θ₁₄，以及，同侧第二膝关节点(节点13)、第二脚部关节点(节点14)和肩中心点构成的θ₁₆。

上述角度可以描述上肢、下肢相对于肩部的角度变化，也能够较好的表征特定动作的变化属性。

在又一示例中，可包含前两示例中的全部或部分角度。

下面介绍模值比特征。模值比特征示例性的包括但不限于：第一至第八向量分别与基准向量的模值比；

其中，请参见图2，第一向量L₁的端点包括：第一肩关节点(关节点2)和第一肘关节点(关节点3)；

第二向量L₂的端点包括：第一腕关节点(关节点4)和脊柱点(关节点8)；

第三向量L₃的端点包括：第二肩关节点(关节点5)和第二肘关节点(关节点6)；

第四向量L₄的端点包括：第二腕关节点(关节点7)和脊柱点(关节点8)；

第五向量L₅的端点包括：第一膝关节点(关节点10)和脊柱点(关节点8)；

第六向量L₆的端点包括：第一踝关节点(关节点11)和脊柱点(关节点8)；

第七向量L₇的端点包括：第二膝关节点(关节点12)和脊柱点(关节点8)；

第八向量L₈的端点包括：第二踝关节点(关节点14)和脊柱点(关节点8)。

基准向量L₀的端点则包括：头部中心骨骼点(关节点0)和肩中心骨骼点(关节点1)。

用计算公式表达则为：

式中，mr₁至mr₈属于模值比特征。

至此，姿态特征数据共包括69个特征参数，可表示为：

F＝{P₀₀，P₀₁，P₀₂，P₁₀，P₁₁，P_ij，…，P₁₄₀，P₁₄₁，P₁₄₂，θ₁，θ₂，…，θ₁₆，mr₁，mr₂，…，mr₈}

式中P_ij代表坐标点的x、y、z值，例如，P₀₀-P₀₂表示关节点0的x、y、z轴坐标，z为深度值，P₁₀-P₁₂表示关节点1的x、y、z轴坐标，以此类推，不作赘述。F表示姿态数据。

S2：将连续N帧图像的姿态特征数据，组合为动态特征数据。

可由前述的组合模块2执行步骤S2。

一个动作可能包含多个姿态，因此，在后续的动作识别时，是基于连续N帧的动态特征数据进行决策的。

N为时域连续帧数阈值，可根据视频帧率设定。

动态特征数据D可表示为：D={F₁；F₂；…；F_N}。其中，F_N表示当前帧的姿态特征数据，F₁-F_N-1当前帧之前的N-1帧的姿态特征数据。

在一个示例中，可采用获取一帧去除一帧的方式组合动态特征数据。

假定N＝12，则获取到第12帧的姿态特征数据后，将第1-12帧的姿态特征数据组合成动态特征数据。

而在获取到第13帧的姿态特征数据后，将第2-13帧的姿态特征数据组合成动态特征数据，以此类推，不作赘述。

S3：将动态特征数据输入训练好的机器学习模型，由训练好的机器学习模型决策出识别结果。

可由前述的动作识别模块3执行步骤S3。

机器学习模型示例性的可为：SVM分类器、朴素贝叶斯模型、决策树等。识别结果包括识别出的动作类别，识别出的动作类别属于多种预设动作类别中的一种。

其中，上述多种预设动作类别中的部分或全部动作类别为用户自定义动作类别。也即，通过用户自定义动作类别，令本发明保护的动作识别方案具有普遍通用性，而不是只能围绕某些设计好的默认动作类别进行识别。

在本发明其他实施例中，在将动态特征数据输入训练好的机器学习模型之前，还可对动态特征数据进预处理。

预处理可由组合模块2执行，或由独立的预处理单元执行。

在一个示例中，预处理示例性地可包括：标准化处理、正则化处理和防越界处理。

其中，标准化是对样本间的同一属性进行标准化处理，目的是提高精度，以及加速算法收敛。

标准化和正则化目的是加快求最优解的速度，提高模型精度，同时可以在一个参考系中考虑数据，使得数据的异常扰动对最终结果影响较小。

防越界处理是对超出图像分辨率的节点坐标进行剔除。

可见，在本发明实施例中，在使用机器学习模型进行动作识别之前，预先进行了特征提取，所提取的特下包括人体骨架各关节点的三维位置特征、角度特征和模值比特征。与现有基于深度学习网络提取的特征相比，本发明实施例所提取的特征相对维度低，实时性好。

与此同时，本发明实施例不仅提取了位置相关联的关节点间的角度值，还提取了非关联关节点(位置)间的角度关系，这使得特征的表征力更强，提升了识别效果，与现有方式相比，在降低特征维度的同时，还保证了识别的精准度。

另外，模值比方面，也增加了各关节点和脊柱点的关联，同样的提升了特征的表现力。

上述的机器学习模型，例如SVM分类器需要进行训练。尤其是在用户自定义动作类别的情况下，需要进行训练。

在训练之前，需准备好训练样本。

以用户自定义了举左手，举右手，举双手，左挥手，右挥手5个动态动作为例。

用户可通过如下操作准备训练样本：

输入连续多帧图像以及标签设置信息。具体的，每一帧图像可包括深度图像和2D彩色图像。

动作识别***可根据标签设置信息，为用户输入的连续多帧图像中的每一帧图像关联标签，得到图像样本。

其中，每一图像样本包括连续多帧图像及对应的标签，每一帧图像所关联的标签的内容包括：用户自定义的一种动作类别或代表无动作发生的类别；

假定，用户自定义了举手、下蹲、挥手三个动作，用户可输入一段视频，对视频的图像打标签，每一标签的内容可包含举手、下蹲、挥手或无动作这四类中的任一类。

在一个示例中，用户在输入标签设置信息时，可连选视频中的多张图像，对其统一输入动作类别。

动作识别***根据标签将视频分解为对应不同动作类别的连续多帧图像，例如，第1-20帧对应举手，第21-40帧对应下蹲等等。

当然，用户也可针对每一自定义的动作类别，输出一段或多段视频，对视频统一添加标签信息，动作识别***再根据标签信息为视频中的每一帧图像关联标签。

此外，用户还可输入与非自定义动作类别对应的一段或多段视频，对视频统一添加标签信息，动作识别***再根据标签信息为视频中的每一帧图像关联标签。

需要说明的是，标签内容为无动作的图像样本是负样本，其余标签对应的图像样本是正样本。

以举手、下蹲、挥手为例，这三类动作之外的动作，都属于“无动作”。

进一步的，可将对应同一类别的连续多帧图像划分为至少一个图像样本，每一图像样本可包括连续N帧的图像及关联标签。

沿用前例，假定第1-20帧对应举手这一类别，可将第1-20帧进一步划分为多个图像样本：例如，第1-12帧划分为一图像样本，第2-13帧划分为一图像样本、第3-14帧划分为一图像样本，以此类推，不作赘述。

得到图像样本后，可将图像样本分配至训练集或测试集。

图像样本被分至训练集和测试集为常规操作，在此不作赘述。

下面介绍训练阶段。

在训练阶段，可对机器学习模型执行多次迭代训练。其中，每一次迭代训练包括：

机器学习模型基于训练集中的图像样本进行学习，得到学习后的机器学习模型；

将测试集中的图像样本的动态特征数据输入学习后的机器学习模型，根据学习后的机器学习模型所输出的识别结果和图像样本的标签，对该学习后的机器学习模型进行参数学习和优化。

在一个示例中，请参见图4，迭代训练包括：

S41：获取图像样本中各帧图像的姿态特征数据。

姿态特征数据的相关介绍可参见前述步骤S1的记载，在此不作赘述。

具体的，请参见图6，可每获取一帧的3D位置就判断是否达到N帧，若达到，执行下一步骤，计算角度特征和模值比特征。

S42：将各帧图像的姿态特征数据，组合为动态特征数据。

此步骤与前述的S2相类似，在此不作赘述。

S43：对动态特征数据进预处理。

标准化是对样本间的同一属性进行标准化处理，目的是提高精度，以及加速算法收敛。

防越界处理是对超出图像分辨率的节点坐标进行剔除。

S44：将预处理后的动态特征数据输入机器学习模型，由机器学习模型进行学习，得到学习后的机器学习模型。

S45：将测试集中图像样本的(经预处理后)动态特征数据输入学习后的机器学习模型，根据学习后的机器学习模型所输出的识别结果和图像样本的标签，对学习后的机器学习模型进行参数学习和优化。

具体的，可根据学习后的机器学习模型所输出的识别结果和相应标签计算正确率。正确率反应了模型性能的好坏，通过正确率可以直观的了解模型的训练程度，用于判断何时停止训练。一般当测试集的正确率不改变或者训练损失(Loss)不变的时候，认为模型训练完毕。

若模型在训练集上准确率比较高，而测试集上的准确率比较低，模型处于过拟合状态；而当模型训练集和测试集上准确率都比较低，模型处于欠拟合状态。

以SVM分类器为例，简单介绍在过拟合状态和欠拟合状态时，如何进行参数调整。

SVM分类器可使用线性核或RBF(Radial Basis Function Kernel，径向基核函数)核。作为一个具体的实施例，可使用线性核。

当使用线性核时，在参数优化时，主要调节的是正则化参数C的范围；而当使用RBF核时，为维持模型在过拟合和欠拟合之间的平衡，往往最佳的参数范围是C比较大，gamma比较小；或者C比较小，gamma比较大。也就是说当模型欠拟合时，需要增大C或者增大gamma，不能同时增加，这是因为调节后如果模型过拟合，就很难判断原因；同理，模型欠拟合的时候，需要减小C或者减小gamma。

对测试集中的图像样本，如何获取动态特征数据请参见S41至S43，在此不作赘述。

在本发明其他实施例中，在上述预测阶段中，请参见图5，在步骤S3之后，还可包括如下步骤：

S4：对识别结果进行后处理，以矫正识别出的动作类别。

在得到识别结果(动作类别)后，如果训练过程中样本太少或某些动作比较类似的话，可能导致识别出的动作类别错误，此种情况下，可采用步骤S4对动作类别进行矫正，以提升准备性。

当然，若识别结果本身已经很准确了，则不必执行步骤S4。

在一个示例中，可预先设置预设的动作类别所对应的后处理逻辑(包括判断条件)，以进行矫正。

以举手为例，可设置举手动作对应的判断条件包括：手部关节点高于肩中心骨骼点。满足这一条件，才最终判定为举手动作，对不符合条件但模型输出的识别结果为举手的图像帧便可以予以矫正。

具体的，可判断准确率是否满足要求，若不满足，设置后处理逻辑，在预测阶段予以执行。

下面介绍动作识别***。请参见图1，上述动作识别***的一种示例性结构包括：特征提取模块1、组合模块2和动作识别模块3。

动作识别模块3包括训练好的机器学习模型。

其中，特征提取模块1，用于：在预测阶段，获取当前帧图像对应的姿态特征数据；

相关介绍请参见本文前述记载，在此不作赘述。

组合模块2，用于将连续N帧图像的姿态特征数据，组合为动态特征数据，并将动态特征数据输入训练好的机器学习模型；

训练好的机器学习模型用于：决策出识别结果。

识别结果包括动作类别。识别出的动作类别属于多种预设动作类别中的一种。

其中，上述多种预设动作类别中的部分或全部动作类别为用户自定义动作类别。

相关介绍请参见本文前述记载，在此不作赘述。

在本发明其他实施例中，请参见图7，上述***还可包括后处理模块5，用于对识别结果进行后处理，以矫正识别出的动作类别，得到最终的动作类别。在本实施例中，可由后处理模块5向输出模块4输出最终的动作类别。

相关介绍请参见本文前述记载，在此不作赘述。

在本发明其他实施例中，仍请参图7，上述***还可包括：

训练模块6，用于：

在训练阶段，对机器学习模型执行多次迭代训练；

其中，每一次迭代训练包括：

机器学习模型基于训练集中的图像样本进行学习，得到学习后的机器学习模型；其中，每一图像样本包括连续多帧图像及对应的标签，标签中的动作类别属于多种预设动作类别中的一种；

将测试集中图像样本的动态特征数据输入学习后的机器学习模型，根据学习后的机器学习模型所输出的识别结果和图像样本的标签，对学习后的机器学习模型进行参数学习和优化。

相关介绍请参见本文前述记载，在此不作赘述。

在本发明其他实施例中，在进入训练阶段之前，上述训练模块6还可用于：

接收用户输入的连续多帧图像；

接收用户输入的标签设置信息；

根据标签设置信息，为用户输入的连续多帧图像中的每一帧图像关联标签；其中，每一帧图像所关联的标签的内容包括：用户自定义的一种动作类别或代表无动作发生的类别；

将对应同一类别的连续多帧图像划分为至少一个图像样本；

将图像样本分配至训练集或测试集。

相关介绍请参见本文前述记载，在此不作赘述。

根据用户定义的动作不同，样本数量不同的情况下，精度(正确率)也略有不同。以统一在Kinect v2设备中获取人体骨架关节点的3D位置，连续帧数N取值12为例，具体的识别精度如下表1-3所示。

其中，表1总样本为4000，包括2000正样本，每个动作400；表2总样本为10000，包括5000正样本，每个动作1000；表3总样本为38000，包括2000正样本，每个动作5000。

表中的特征1中未加非关联关节点间的角度值(也即未加前述的θ₉至θ₁₆)，特征2添加了非关联关节点间的角度值。通过比较可以看出，后者的表征能力更加突出，动作识别率也更高。

	左挥手	右挥手	举左手	举右手	举双手
						特征1	36.4％	33.3％	42.1％	40.9％	37.7％
特征2	43.6％	39.4％	45.0％	44.3％	39.9％

表1

	左挥手	右挥手	举左手	举右手	举双手
						特征1	66.7％	69.1％	71.9％	69.5％	69.1％
特征2	67.9％	73.4％	73.6％	72.9％	73.1％

表2

	左挥手	右挥手	举左手	举右手	举双手
						特征1	90.3％	93.1％	94.3％	93.6％	93.4％
特征2	92.7％	94.3％	95.1％	93.9％	94.1％

表3

实验效果如图8a-8e所示，需要说明的是，图8a-8e所示是对连续的多帧图片识别的结果，但在一张图片上展示了最终的显示结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及模型步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或模型的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、WD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种动作识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，

所述人体骨架各关节点至少包括：头部中心骨骼点、肩中心骨骼点、肩关节点、肘关节点、手部关节点、脊柱点、胯部关节点、膝关节点和脚部关系点。

3.如权利要求2所述的方法，其特征在于，

位置相关联的关节点之间构成的角度包括：肩中心骨骼点、肩关节点和肘关节点构成的角度，肩关节点、肘关节点和手部关节点构成的角度，脊柱点、胯部关节点和膝盖关节点构成的角度，以及，胯部关节点、膝关节点和脚部关节点构成的角度；

非相关联的关节点之间构成的角度包括：肩关节点、肘关节点和脊柱点构成的角度，肘关节点、手部关节点和脊柱点构成的角度，胯部关节点、膝盖关节点和脊柱点构成的角度，以及，膝关节点、脚部关节点和脊柱点构成的角度。

4.如权利要求1所述的方法，其特征在于，

所述肩关节点包括：第一肩关节点和第二肩关节点；

所述肘关节点包括：第一肘关节点和第二肘关节点；

所述手部关节点包括：第一腕关节点和第二腕关节点；

所述胯部关节点包括：第一胯部关节点和第二胯部关节点；

所述膝关节点包括：第一膝关节点和第二膝关节点；

所述脚部关系点包括：第一踝关节点和第二踝关节点；

所述第一肩关节点、第一肘关节点、第一腕关节点、第一胯部关节点、第一膝关节点和第一踝关节点位于同一侧；所述第二肩关节点、第二肘关节点、第二腕关节点、第二胯部关节点、第二膝关节点和第二踝关节点位于同一侧；

所述模值比特征至少包括：第一至第八向量分别与基准向量的模值比；

第一向量的端点包括：第一肩关节点和第一肘关节点；

第二向量的端点包括：第一腕关节点和脊柱点；

第三向量的端点包括：第二肩关节点和第二肘关节点；

第四向量的端点包括：第二腕关节点和脊柱点；

第五向量的端点包括：第一膝关节点和脊柱点；

第六向量的端点包括：第一踝关节点和脊柱点；

第七向量的端点包括：第二膝关节点和脊柱点；

第八向量的端点包括：第二踝关节点和脊柱点；

所述基准向量的端点则包括：头部中心骨骼点和肩中心骨骼点。

5.如权利要求4所述的方法，其特征在于，还包括：

在训练阶段，对机器学习模型执行多次迭代训练；其中，每一次迭代训练包括：

机器学习模型基于训练集中图像样本进行学习，得到学习后的机器学习模型；其中，每一图像样本包括连续多帧图像及对应的标签，标签中的动作类别属于所述多种预设动作类别中的一种；

将测试集中图像样本的动态特征数据输入学习后的机器学习模型，根据所述学习后的机器学习模型所输出的识别结果和图像样本的标签，对所述学习后的机器学习模型进行参数学习和优化。

6.如权利要求所述的方法，其特征在于，所述多种预设动作类别中的部分或全部动作类别为用户自定义动作类别。

7.如权利要求5所述的方法，其特征在于，

在进入训练阶段之前，还包括：

接收用户输入的连续多帧图像；

接收用户输入的标签设置信息；

根据所述标签设置信息，为所述用户输入的连续多帧图像中的每一帧图像关联标签；其中，每一帧图像所关联的标签的内容包括：用户自定义的一种动作类别或代表无动作发生的类别；

将对应同一类别的连续多帧图像划分为至少一个图像样本；

将所述图像样本分配至训练集或测试集。

8.如权利要求7所述的方法，其特征在于，在预测阶段，还包括：

对所述识别结果进行后处理，以矫正识别出的动作类别。

9.一种动作识别***，其特征在于，包括特征提取模块、组合模块和动作识别模块；所述动作识别模块包括训练好的机器学习模型；

其中：

10.如权利要求9所述的***，其特征在于，还包括：

训练模块，用于：

在训练阶段，对机器学习模型执行多次训练；

其中，每一次迭代训练包括：

机器学习模型基于训练集中的图像样本进行学习，得到学习后的机器学习模型；其中，每一图像样本包括连续多帧图像及对应的标签，标签中的动作类别属于所述多种预设动作类别中的一种；

将测试集中的图像样本的动态特征数据输入学习后的机器学习模型，根据所述学习后的机器学习模型所输出的识别结果和图像样本的标签，对所述学习后的机器学习模型进行参数学习和优化。