CN111310590A

CN111310590A - 一种动作识别方法及电子设备

Info

Publication number: CN111310590A
Application number: CN202010064081.7A
Authority: CN
Inventors: 师雪琴; 柴新新; 杨锐; 姚保岐
Original assignee: Beijing Simi Xiongdi Weilai Technology Co ltd
Current assignee: Beijing Simi Xiongdi Weilai Technology Co ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-19
Anticipated expiration: 2040-01-20
Also published as: CN111310590B

Abstract

本发明公开了一种动作识别方法及电子设备，用于解决现有技术中无法准确、快速实现动作识别的问题。该方法包括：通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息；将所述多个关节点的特征信息按照所述目标对象的肢体结构，分为多组关节点的特征信息；分别对所述多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息；基于动作识别模型、以及所述数据预处理后的多组关节点的特征信息，识别所述目标对象的连续多帧图像对应的动作类别。

Description

一种动作识别方法及电子设备

技术领域

本发明涉及动作识别技术领域，尤其涉及一种动作识别方法及电子设备。

背景技术

随着人机交互技术的迅猛发展，用户不再满足于只通过键盘、鼠标和操控杆与机器进行交互，而是希望能够通过肢体动作和姿态等更高级的方式向机器发送指令等方式与机器进行交互，这就对动作识别技术有了更高的要求。

目前，动作识别技术已应用于媒体教学、游戏娱乐、医疗保健、安监***和虚拟现实等领域。现有的动作识别技术需要研究人员对相机获取到的图像进行处理，才可获得人体关节点的三维坐标，而这则就会增加研究人员的工作量，降低动作识别的效率。此外，实现动作识别技术常需要的设备也较为昂贵，这极大地限制了动作识别技术的应用范围。

因此，如何更准确、更快速地实现动作识别，仍然需要进一步的解决方案。

发明内容

本发明实施例提供一种动作识别方法及电子设备，以解决现有技术中无法准确、快速实现动作识别的问题。

为了解决上述技术问题，本发明是这样实现的：第一方面，本发明实施例提供了一种动作识别方法，包括：

通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息；

将所述多个关节点的特征信息按照所述目标对象的肢体结构，分为多组关节点的特征信息；

分别对所述多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息；

基于动作识别模型、以及所述数据预处理后的多组关节点的特征信息，识别所述目标对象的连续多帧图像对应的动作类别；

其中，所述特征信息包括所述多个关节点的名称、所述多个关节点的三维坐标、以及所述多个关节点的三维坐标的时间戳，一组关节点包括多个关节点，所述动作识别模型是基于多组训练样本训练得到的，一组训练样本包括一个对象在执行动作时的连续多帧图像中的多个关节点的特征信息。

第二方面，本发明实施例还提供一种动作识别装置，包括：

第一获取单元，用于通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息；

第一分组单元，用于将所述多个关节点的特征信息按照所述目标对象的肢体结构，分为多组关节点的特征信息；

数据预处理单元，用于分别对所述多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息；

识别单元，用于基于动作识别模型、以及所述数据预处理后的多组关节点的特征信息，识别所述目标对象的连续多帧图像对应的动作类别；

第三方面，本发明实施例还提供一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

第四方面，本发明实施例还提供一种可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

本发明提供的动作识别方法，能够通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息；将多个关节点的特征信息按照所述目标对象的肢体结构，分为多组关节点的特征信息；分别对多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息；基于动作识别模型、以及数据预处理后的多组关节点的特征信息，识别目标对象的连续多帧图像对应的动作类别。

这样能够通过深度相机直接获取关节点的特征信息，再按照肢体结构对多个关节点的特征信息分组，从而提高多组关节点的特征信息的内相关性，并降低每组关节点的特征信息的外相关性，既有效地保持了各组关节点的特征信息的独立性，又联合了各组关节点的特征信息的识别结果，进而提高了动作识别模型进行动作识别的准确度，提高了动作识别的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种动作识别方法的实现流程示意图；

图2为本发明实施例提供的动作识别方法的一种关节点分组的示意图；

图3为本发明实施例提供的动作识别方法的一种动作识别模型的结构示意图；

图4为本发明实施例提供的一种动作识别装置的结构示意图；

图5为本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

为解决现有技术中无法准确、快速实现动作识别的问题，本发明提供一种动作识别方法，该方法的执行主体，可以但不限于手机、平板电脑、可穿戴设备等能够被配置为执行本发明实施例提供的该方法用户终端中的至少一种，或者，该方法的执行主体，还可以是能够执行该方法的客户端或服务器。

为便于描述，下文以该方法的执行主体为能够执行该方法的电子设备为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为电子设备只是一种示例性的说明，并不应理解为对该方法的限定。

具体地，本发明提供的动作识别方法包括：通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息；将多个关节点的特征信息按照目标对象的肢体结构，分为多组关节点的特征信息；分别对多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息；基于动作识别模型、以及数据预处理后的多组关节点的特征信息，识别目标对象的连续多帧图像对应的动作类别。

其中，特征信息包括所述多个关节点的名称、多个关节点的三维坐标、以及多个关节点的三维坐标的时间戳，一组关节点包括多个关节点，动作识别模型是基于多组训练样本训练得到的，一组训练样本包括一个对象在执行动作时的连续多帧图像中的多个关节点的特征信息。

本发明提供的动作识别方法，能够通过深度相机直接获取关节点的特征信息，再按照肢体结构对多个关节点的特征信息分组，从而提高多组关节点的特征信息的内相关性，并降低每组关节点的特征信息的外相关性，既有效地保持了各组关节点的特征信息的独立性，又联合了各组关节点的特征信息的识别结果，进而提高了动作识别模型进行动作识别的准确度，提高了动作识别的效率。

下面结合图1所示的动作识别方法的实现流程示意图，对该方法的实施过程进行详细介绍，包括：

步骤101，通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息；

其中，多个关节点的特征信息包括多个关节点的名称、多个关节点的三维坐标、以及多个关节点的三维坐标的时间戳。一般情况下，深度相机会将镜头中心作为关节点的三维坐标的原点，具体地，建立三维坐标的方式可以通过修改程序进行设置。

应理解，现有的动作识别技术需要通过高端相机获取目标对象在执行动作时的图像，然后有研发人员对获取到的图像进行处理，以得到目标对象的各个关节点的三维坐标。而本发明实施例运用以Kinect为代表的深度相机的硬件***和软件***，能够直接获取目标对象各个关节点在三维空间中的三维坐标，这样可以减少研发人员等对相机获得图像的处理工作。

具体地，若目标对象想要做出投球的动作，则可以将手从胸前抬起，并在手抬至头顶时做出抛球的动作。此时，即使目标对象的手中没有球，深度相机也能通过动作捕捉程序以如30帧/秒的预设采集速率，来采集目标对象的关节点的特征信息。

步骤102，将多个关节点的特征信息按照所述目标对象的肢体结构，分为多组关节点的特征信息；

应理解，通常情况下，若直接将目标对象的所有关节点的特征信息作为动作识别模型的输入，没有利用到多个关节点之间的空间信息，这样，动作识别的准确率就会被大大降低。

因此，在本发明实施例中，通过深度相机可以根据肢体结构，将目标对象的关节点分为5个关节点组，以提高每个关节点组的内部关节点之间的内相关性，并降低关节点组与关节点组之间的外相关性。而这5个关节点组可以分别作为动作识别模型的5个内部输入，并分别输出5个动作识别的分部结果，最后通过动作识别模型将这5个动作识别的分部结果以加权的方式进行组合，获得准确率较高的动作识别结果。

如图2所示，为本发明实施例提供的动作识别方法的一种关节点分组的示意图。根据目标对象的肢体结构，可将目标对象的关节点分为躯干关节点组21、左臂关节点组22、右臂关节点租23、左腿关节点组24和右腿关节点组25。

其中，躯干关节点组21包括头部关节点211、颈部关节点212、颈下脊椎关节点213、脊椎中部关节点214和脊椎基部关节点215；左臂关节点租22包括左肩关节点221、左肘关节点222、左腕关节点223、左手关节点224、左手尖关节点225和左拇指关节点226；右臂关节点租23包括右肩关节点231、右肘关节点232、右腕关节点233、右手关节点234、右手尖关节点235和右拇指关节点236。

此外，左腿关节点组24包括左臀关节点241、左膝关节点242、左踝关节点243和左脚关节点；右腿关节点组25包括右臀关节点251、右膝关节点252、右踝关节点253和右脚关节点。

应理解，本发明实施例提供的获取关节点的部位、以及关节点的分组方式可以体现目标对象的肢体动作，也可根据本发明实施例的应用场景，来确定关节点的获取和分组。

步骤103，分别对多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息；

可选地，深度相机获取到的多组关节点的特征信息并不能直接输入至动作识别模型中，在此之前，还需要对多组关节点的特征信息进行数据预处理。具体地，在本发明实施例中，分别对多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息，包括：

基于多组关节点的特征信息，分别获取每个关节点在执行动作过程中的三维坐标的算数平均值、与每个关节点在执行动作过程中的三维坐标的差值，以得到多组关节点的相对坐标；

对多组关节点的相对坐标进行归一化处理，以使得多组关节点的相对坐标在指定区域范围内；

将存储有归一化处理后的多组关节点的特征信息的日志文件的格式转换为数据文件的格式。

具体地，首先，可以只考虑同一关节点在不同时间的三维坐标之间的变化量，从而避免三维坐标的值较为复杂而影响到动作识别的结果。可分别获取目标对象在执行动作过程中的，每个关节点的三维坐标的算术平均值；再基于每个关节点的三维坐标的算术平均值，计算出各个三维坐标与对应的三维坐标的算术平均之间的差值，并将计算得出的差值作为关节点的相对坐标。

如对于某一关节点的三维坐标分别为(x₁,y₁,z₁)、(x₂,y₂,z₂)、(x₃,y₃,z₃)…(x_n,y_n,z_n)，那么这些三维坐标的算术平均值为:

因此，各个三维坐标与对应的三维坐标的算术平均之间的差值分别为

即该关节点的相对坐标为

以某一关节点的三维坐标分别为(1,3,4)、(2,6,7)和(3,9,4)为例，那么这些三维坐标的算术平均值为((1+2+3)/3，(3+6+9)/3，(4+7+4)/3)＝(2,6,5)，因此，这3个三维坐标对应的相对坐标分别为(-1,-3,-1)、(0,0,2)和(1,3,-1)。

然后，为了将多组关节点的三维坐标的值控制在指定范围内，可分别对上述得到的多组关节点的相对坐标按照如下的公式，进行归一化处理：

其中，(x^{^},y^{^},z^{^})为多组关节点的相对坐标，x_max、y_max和z_max分别为相对坐标中最大的坐标值。

以某一关节点的相对坐标为(-1,-3,-1)、(0,0,2)和(1,3,-1)为例，对这些相对坐标进行归一化处理后得到的坐标分别为

(0,0,1)和

由此可见，归一化处理能够将多组关节点的相对坐标的值控制在[-1,1]的范围内，这为动作识别模型对多组关节点的三维坐标的分析，降低了工作量，提高了效率。

最后，为了使得动作识别模型不需要对存储文件进行解读，就能够直接从文件中获取多组关节点的特征信息，可将存储有归一化处理后的多组关节点的特征信息的日志文件的格式转换为数据文件的格式。

具体地，如“csv”文件的数据文件可将归一化处理后的多组关节点的相对坐标、以及其对应的时间戳等特征信息，以二维表格的形式有规律地排列整齐，这就有利于动作识别模型对更快地获取多组关节点的特征信息。

以深度相机是Kinect为例，可利用Kinect的软件开发工具包，获取存储有多组关节点的特征信息的如“log”文件的日志文件，在按照上述步骤对多组关节点的特征信息进行数据预处理之后，可将存储有数据预处理后的多组关节点的特征信息的日志文件的格式，转换为如“csv”文件的数据文件格式。

可选地，在进行上述文件格式转换操作时，可基于多组关节点的三维坐标对应的时间戳，按照预设的时间长度，依次将多组关节点的特征信息细分为多个特征信息小组，且一组关节点的特征信息对应于多个特征信息小组，一个特征信息小组包括时间连续的多个关节点的特征信息。

这样，可以分别对上述多个特征信息小组进行动作识别，以使得动作识别模型能够分别从各个预设的时间长度中识别目标对象的动作类别，输出该多个特征信息小组对应的多个识别结果，这样能够提高动作识别模型的准确率。

步骤104，基于动作识别模型、以及数据预处理后的多组关节点的特征信息，识别目标对象的连续多帧图像对应的动作类别。

可选地，在上述步骤中，可对多个关节点的特征信息进行数据预处理，以得到数据预处理后的多组关节点的特征信息，即多个特征信息小组，然后分别对这多个特征信息小组进行动作识别操作，以使得动作识别模型能够根据权重，综合考虑每个特征信息小组的动作识别结果，得到综合计算后的动作识别结果。

应理解，在本发明提供的动作识别模型中，前一个特征信息小组的动作识别结果可作为后一个特征信息小组的识别操作的输入，即前一个特征信息小组的动作识别结果会影响后一个特征信息小组的识别结果。这样既可以有效地保持多个关节组之间的相对独立性，又可以结合动作识别模型中每个特征信息小组的之间的联系，从而大大降低了动作识别模型的误差率，提高了动作识别模型的准确率。

具体地，基于动作识别模型、以及数据预处理后的多组关节点的特征信息，识别目标对象的连续多帧图像对应的动作类别，包括：

分别对数据预处理后的多组关节点的特征信息进行动作识别操作；

基于每组关节点的特征信息的动作识别结果和对应的权重，通过加权的方式，获取多组关节点的特征信息的动作识别结果；

基于多组关节点的特征信息的动作识别结果，识别目标对象的连续多帧图像对应的动作类别。

应理解，动作识别模型的输出可以是目标对象的动作可能是各动作类别的概率，这样可以选择概率最高的动作类别作为动作识别模型的最终识别结果。

可选地，为了建立并训练本发明实施例提供的动作识别模型，在通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息之后，本发明实施例提供的方法还包括：

通过深度相机，获取多个对象在执行动作时的连续多帧图像中的多个训练样本，一个训练样本包括多个关节点的特征信息，多个关节点的特征信息包括多个关节点的名称、多个关节点的三维坐标、多个关节点的三维坐标对应的时间戳、以及多个关节点对应的动作类别标签；

分别将多个训练样本按照所述多个对象的肢体结构，分为多个对象的多组训练样本，其中，一个对象对应于多组训练样本；

分别对多个对象的多组训练样本进行样本预处理操作，以得到样本预处理后的多个对象的多组训练样本；

基于样本预处理后的多个对象的多组训练样本，通过迭代训练得到动作识别模型。

应理解，在本发明实施例中，由于样本预处理的步骤与数据预处理的目的大致相同，所以样本预处理的步骤与数据预处理的步骤也类似，本发明实施例在此不再赘述。

具体地，首先，可以只考虑同一关节点在不同时间的三维坐标之间的变化量，从而避免三维坐标的值较为复杂而影响到动作识别的结果。具体可先分别获取多个训练样本中各个关节点的三维坐标的算术平均值；再基于这些算术平均值，计算出训练样本中各个关节点的三维坐标与算术平均之间的差值，并将计算得出的差值作为训练样本中的关节点的相对坐标。计算过程与数据预处理中的计算过程一致，在此不再赘述。

然后，为了将多组训练样本中的三维坐标的值控制在指定范围内，可分别对上述得到的多组训练样本中的关节点的相对坐标按照公式，进行归一化处理，此部分的样本预处理过程与数据预处理部分的归一化处理过程一致，在此不再赘述。这样，能够将多组训练样本中的关节点的相对坐标的值控制在[-1,1]的范围内，这为动作识别模型对多组训练样本中的关节点的三维坐标的分析，降低了工作量，提高了效率。

最后，为了使得动作识别模型不需要对存储文件进行解读，就能够直接从文件中获取多组训练样本，可将存储有归一化处理后的多组训练样本的日志文件的格式转换为数据文件的格式。

可选地，在分别对所述多个对象的多组训练样本进行样本预处理操作，以得到样本预处理后的多个对象的多组训练样本之后，本发明实施例提供的方法还包括：

基于多组训练样本中的多个关节点的三维坐标对应的时间戳，按照预设的时间长度，依次将多组训练样本分为多个训练样本小组，一组训练样本对应于多个训练样本小组，一个训练样本小组包括时间连续的多个关节点的特征信息；

将存储有多个训练样本小组的日志文件的格式转换为数据文件。

这样，可以分别对上述多个训练样本小组进行动作识别，以使得动作识别模型能够分别从各个预设的时间长度的训练样本中识别多个对象的动作类别，并与对应的关节点的动作类别标签进行比对，从而对应修改动作识别模型中的参数，以提高动作识别模型的准确率。

可选地，为了能够结合多个训练样本小组的空间特征和时间特征的关联性，既能够有效地保持多个关节组之间的相对独立性，又能够结合动作识别模型中每个特征信息小组的之间的联系，可以分别对多个训练样本小组进行动作识别训练，最后综合所有的动作识别的训练结果，并对动作识别模型中的参数进行调整。

具体地，在本发明实施例中，基于样本预处理后的多组训练样本，通过迭代训练得到动作识别模型，包括：

基于多个训练样本小组中的多个关节点对应的动作类别标签，获取多个训练样本小组的训练结果；

基于多个训练样本小组的训练结果，对其他训练样本小组进行动作识别模型的训练，其他训练样本小组为所述多个训练样本小组中，除已经进行过动作识别模型训练的训练样本小组以外的训练样本小组。

应理解，在上述分别对多个训练样本小组进行动作识别操作、并验证识别结果准确度的过程中，前一个训练样本小组的动作识别结果会作为后一个训练样本小组的识别操作的输入，即前一个训练样本小组的动作识别结果会影响后一个训练样本小组的识别结果。

下面以基于部分感知长短期记忆网络(Part-Aware Long Short-Term Memory,PLSTM)神经网络建立的动作识别模型为例，对动作识别模型的内部结果进行描述。

如图3所示，为本发明实施例提供的动作识别方法的一种动作识别模型的结构示意图，其对应的结构公式可以如下：

其中，t表示第t帧处，P∈{1,...,P}表示各个关节点，

第t帧处关节点P的特征信息，i_P、f_P、g_P和o分别表示模型中的输入门控单元格、忘记门控单元格、输入调制门控单元格和输出门控单元格，h_t为网络隐藏层函数，c_t表示模型中细胞的当前状态。

此外，W^p和W_o为本动作识别模型中的权重参数，Sigm和Tanh为本动作识别模型中的两个激活函数，能够激活函数增加模型的非线性，提高模型的表达能力。

PLSTM中的存储单元格相当于神经网络模型的节点，能够根据权重的大小来开始传递数据或终止传递数据，从而实现对输入的数据流的控制，并利用逆向传播误差和梯度的下降来调整权重的迭代，来实现将多组训练样本的训练结果联系在一起，降低了动作识别模型的误差率。

本发明实施例还提供一种动作识别装置400，如图4所示，包括：

第一获取单元401，用于通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息；

第一分组单元402，用于将所述多个关节点的特征信息按照所述目标对象的肢体结构，分为多组关节点的特征信息；

数据预处理单元403，用于分别对所述多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息；

识别单元404，用于基于动作识别模型、以及所述数据预处理后的多组关节点的特征信息，识别所述目标对象的连续多帧图像对应的动作类别；

可选地，在一种实施方式中，所述数据预处理单元403，用于：

基于所述多组关节点的特征信息，分别获取每个关节点在执行动作过程中的三维坐标的算数平均值、与每个关节点在执行动作过程中的三维坐标的差值，以得到所述多组关节点的相对坐标；

对所述多组关节点的相对坐标进行归一化处理，以使得所述多组关节点的相对坐标在指定区域范围内；

可选地，在一种实施方式中，所述识别单元404，用于：

分别对所述数据预处理后的多组关节点的特征信息进行动作识别操作；

基于所述每组关节点的特征信息的动作识别结果和对应的权重，通过加权的方式，获取所述多组关节点的特征信息的动作识别结果；

基于所述多组关节点的特征信息的动作识别结果，识别所述目标对象的连续多帧图像对应的动作类别。

可选地，在一种实施方式中，在所述第一获取单元401通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息之后，所述装置还包括：

第二获取单元405，用于通过深度相机，获取多个对象在执行动作时的连续多帧图像中的多个训练样本，一个训练样本包括多个关节点的特征信息，所述多个关节点的特征信息包括所述多个关节点的名称、所述多个关节点的三维坐标、所述多个关节点的三维坐标对应的时间戳、以及所述多个关节点对应的动作类别标签；

第二分组单元406，用于分别将所述多个训练样本按照所述多个对象的肢体结构，分为所述多个对象的多组训练样本，其中，一个对象对应于多组训练样本；

样本预处理单元407，用于分别对所述多个对象的多组训练样本进行样本预处理操作，以得到样本预处理后的所述多个对象的多组训练样本；

迭代训练单元408，用于基于所述样本预处理后的所述多个对象的多组训练样本，通过迭代训练得到所述动作识别模型。

可选地，在一种实施方式中，在所述样本预处理单元407分别对所述多个对象的多组训练样本进行样本预处理操作，以得到样本预处理后的所述多个对象的多组训练样本之后，所述装置还包括：

第三分组单元409，用于基于所述多组训练样本中的多个关节点的三维坐标对应的时间戳，按照预设的时间长度，依次将所述多组训练样本分为多个训练样本小组，一组训练样本对应于多个训练样本小组，一个训练样本小组包括时间连续的多个关节点的特征信息；

格式转换单元410，用于将存储有所述多个训练样本小组的日志文件的格式转换为数据文件。

可选地，在一种实施方式中，所述迭代训练单元408，用于：

基于所述多个训练样本小组中的多个关节点对应的动作类别标签，获取所述多个训练样本小组的训练结果；

基于所述多个训练样本小组的训练结果，对其他训练样本小组进行动作识别模型的训练，所述其他训练样本小组为所述多个训练样本小组中，除已经进行过动作识别模型训练的训练样本小组以外的训练样本小组。

动作识别装置400能够实现图1～图3的方法实施例的方法，具体可参考图1～图3所示实施例的动作识别方法，不再赘述。

图5是本说明书的一个实施例提供的电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成操作步骤的展示装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本说明书图1～图3所示实施例揭示的动作识别方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1～图3的方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种动作识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述分别对所述多组关节点的特征信息进行数据预处理操作，以得到数据预处理后的多组关节点的特征信息，包括：

3.如权利要求1所述的方法，其特征在于，所述基于动作识别模型、以及所述数据预处理后的多组关节点的特征信息，识别所述目标对象的连续多帧图像对应的动作类别，包括：

4.如权利要求1所述的方法，其特征在于，在所述通过深度相机，获取目标对象在执行动作时的连续多帧图像中的多个关节点的特征信息之后，所述方法还包括：

通过深度相机，获取多个对象在执行动作时的连续多帧图像中的多个训练样本，一个训练样本包括多个关节点的特征信息，所述多个关节点的特征信息包括所述多个关节点的名称、所述多个关节点的三维坐标、所述多个关节点的三维坐标对应的时间戳、以及所述多个关节点对应的动作类别标签；

分别将所述多个训练样本按照所述多个对象的肢体结构，分为所述多个对象的多组训练样本，其中，一个对象对应于多组训练样本；

分别对所述多个对象的多组训练样本进行样本预处理操作，以得到样本预处理后的所述多个对象的多组训练样本；

基于所述样本预处理后的所述多个对象的多组训练样本，通过迭代训练得到所述动作识别模型。

5.如权利要求4所述的方法，其特征在于，在所述分别对所述多个对象的多组训练样本进行样本预处理操作，以得到样本预处理后的所述多个对象的多组训练样本之后，所述方法还包括：

基于所述多组训练样本中的多个关节点的三维坐标对应的时间戳，按照预设的时间长度，依次将所述多组训练样本分为多个训练样本小组，一组训练样本对应于多个训练样本小组，一个训练样本小组包括时间连续的多个关节点的特征信息；

将存储有所述多个训练样本小组的日志文件的格式转换为数据文件。

6.如权利要求4或5所述的方法，其特征在于，所述基于所述样本预处理后的多组训练样本，通过迭代训练得到所述动作识别模型，包括：

7.一种动作识别的装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述数据预处理单元，用于：

9.一种电子设备，包括：

处理器；以及

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：