CN116824686A

CN116824686A - 一种动作识别方法和相关装置

Info

Publication number: CN116824686A
Application number: CN202210278157.5A
Authority: CN
Inventors: 张莹; 李琛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2023-09-29

Abstract

本申请公开一种动作识别方法和相关装置，可应用于云技术、人工智能、智慧交通、辅助驾驶、车载场景等各种场景。在对目标对象进行拍摄得到待识别图像帧时，获取目标对象在待识别图像帧中的二维关节点位置信息，将二维关节点位置信息作为动作识别模型的输入，根据二维关节点位置信息，利用特征生成模块进行特征生成得到目标特征向量，再根据目标特征向量利用预测模块进行预测，得到目标对象的每个关节点的动作旋转参数和动作位移参数，从而根据动作旋转参数和动作位移参数，利用运动学分析模块进行运动学分析，得到对应的关节点的三维关节点位置信息。从而大大降低动作识别模型的计算量和计算时间，提高动作识别效率，实现实时动作识别。

Description

一种动作识别方法和相关装置

技术领域

本申请涉及计算机视觉领域，特别是涉及一种动作识别方法和相关装置。

背景技术

人工智能(Artificial Intelligence，AI)是研究和开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的科学技术。近年来，随着人工智能的发展，基于人工智能的计算机视觉技术也得到了快速发展，人体动作识别作为其中的一个重要方法，在安防、人机交互、对象理解、对象特效、游戏娱乐、影视制作、三维(3D)建模等多个领域都有较大的应用前景。

目前，在进行动作识别时，可以根据输入的图像或视频直接估计人体参数化模型的体型和动作参数，例如先用卷积网络提取一段视频中每一帧图像的图像特征，再用时序网络模块捕捉动作序列的时序信息来得到更准确的动作估计。

然而，这种方法主要采用大模型如ResNet-50等编码图像特征来实现3D人体动作识别，计算量大，计算时间长，动作识别效率低，难以实现实时动作识别。

发明内容

为了解决上述技术问题，本申请提供了一种动作识别方法和相关装置，大大降低了动作识别模型的计算量和计算时间，提高了动作识别效率，便于实现实时动作识别。同时由于计算量的减小，也大大降低了动作识别模型的网络结构复杂度，易于基于轻量型网络实现动作识别，更加适用于移动终端实现实时动作识别。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种动作识别方法，所述方法包括：

在对目标对象进行拍摄得到待识别图像帧时，获取所述目标对象在所述待识别图像帧中的二维关节点位置信息；

根据所述二维关节点位置信息，利用动作识别模型的特征生成模块进行特征生成，得到目标特征向量；

根据所述目标特征向量，利用所述动作识别模型的预测模块进行预测，得到所述目标对象的每个关节点的动作旋转参数和动作位移参数；

根据所述动作旋转参数和所述动作位移参数，利用所述动作识别模型的运动学分析模块进行运动学分析，得到对应的关节点的三维关节点位置信息。

一方面，本申请实施例提供一种动作识别装置，所述装置包括获取单元、生成单元、预测单元和分析单元：

所述获取单元，用于在对目标对象进行拍摄得到待识别图像帧时，获取所述目标对象在所述待识别图像帧中的二维关节点位置信息；

所述生成单元，用于根据所述二维关节点位置信息，利用动作识别模型的特征生成模块进行特征生成，得到目标特征向量；

所述预测单元，用于根据所述目标特征向量，利用所述动作识别模型的预测模块进行预测，得到所述目标对象的每个关节点的动作旋转参数和动作位移参数；

所述分析单元，用于根据所述动作旋转参数和所述动作位移参数，利用所述动作识别模型的运动学分析模块进行运动学分析，得到对应的关节点的三维关节点位置信息。

一方面，本申请实施例提供一种用于动作识别的电子设备，所述电子设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行前述方面所述的动作识别方法。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述方面所述的动作识别方法。

一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述方面所述的动作识别方法。

由上述技术方案可以看出，在对目标对象进行拍摄得到待识别图像帧时，首先获取目标对象在待识别图像帧中的二维关节点位置信息，然后将二维关节点位置信息作为动作识别模型的输入，以便通过动作识别模型根据二维关节点位置信息预测三维关节点位置信息，实现动作识别。由于动作识别模型的输入是二维关节点位置信息，而非图像或者视频，因此无需动作识别模型通过复杂处理从图像或者视频包含的大量信息中提取二维关节点位置信息，从而大大降低了动作识别模型的计算量和计算时间，也大大降低了动作识别模型的网络结构复杂度。在通过动作识别模型预测三维关节点位置信息，可以根据二维关节点位置信息利用动作识别模型的特征生成模块进行特征生成，得到目标特征向量，再根据目标特征向量，利用动作识别模型的预测模块进行预测，得到目标对象的每个关节点的动作旋转参数和动作位移参数，从而根据动作旋转参数和动作位移参数，利用动作识别模型的运动学分析模块进行运动学分析(例如前向运动学分析)，得到对应的关节点的三维关节点位置信息。可见，本方案通过将动作识别所需的二维关节点位置信息直接作为动作识别模型的输入，大大降低了动作识别模型的计算量和计算时间，提高了动作识别效率，便于实现实时动作识别。同时由于计算量的减小，也大大降低了动作识别模型的网络结构复杂度，易于基于轻量型网络实现动作识别，更加适用于移动终端实现实时动作识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种动作识别方法的应用场景架构图；

图2为本申请实施例提供的一种动作识别方法的流程图；

图3为本申请实施例提供的一种动作识别模型的结构图；

图4为本申请实施例提供的一种按照三维关节点位置信息生成目标对象的动画的示意图；

图5为本申请实施例提供的针对人体动作估计结果的示意图；

图6为本申请实施例提供的针对3D角色驱动的效果示意图；

图7为本申请实施例提供的一种动作识别模型的训练方法的流程图；

图8为本申请实施例提供的Fusion Block和FC Block的网络结构；

图9为本申请实施例提供的一种动作识别装置的结构图；

图10为本申请实施例提供的一种终端的结构图；

图11为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

人体动作识别的应用范围十分广泛，可用于安防、人机交互、对象理解、对象(人体)特效、游戏娱乐、影视/短视频制作、三维(3D)建模等各种领域。例如，可以利用人体动作识别定位人体关节点的三维关节点位置信息，进而实现3D建模来模拟人体运动，进一步可以用于制作电影电视；也可以通过定位人体关节点的三维关节点位置信息进行对象理解，包括理解对象(例如人体)的运动情况，例如理解人体是摆动手臂、跳舞，还是做其他运动；还可以基于人体的动作识别，为人体添加人体特效；还可以实现人机交互、游戏娱乐，比如体感游戏就是通过对人体进行动作识别来实现游戏互动的，等等，此处不再逐一举例。

需要说明的是，随着移动终端的广泛应用，人们的生活、工作基本上离不开移动终端，在移动终端上实现实时动作识别也逐渐成为人们的需求。而相关技术提供的动作识别方法，主要采用大模型如ResNet-50等编码图像特征来实现3D人体动作识别，计算量大，计算时间长，动作识别效率低，难以实现实时动作识别，也难以应用于移动终端。

为了解决上述技术问题，本申请实施例提供一种动作识别方法，该方法通过将动作识别所需的二维关节点位置信息直接作为动作识别模型的输入，大大降低了动作识别模型的计算量和计算时间，提高了动作识别效率，便于实现实时动作识别。同时由于计算量的减小，也大大降低了动作识别模型的网络结构复杂度，易于基于轻量型网络实现动作识别，更加适用于移动终端实现实时动作识别。

如图1所示，图1示出了一种动作识别方法的应用场景架构图。在该应用场景中可以包括终端101。终端101可以是移动终端，也可以是固定终端，本申请实施例主要以终端101是移动终端进行介绍。终端101例如可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶、车载场景等。

以终端101是移动终端，移动终端是手机为例，若通过手机拍摄目标对象(目标对象例如是人体、动物等等，本申请实施例主要以目标对象是人体为例)，从而实时为目标对象添加特效动画，例如在拍摄到的目标对象上添加铠甲这一特效动画，则需要对目标对象进行动作识别，从而根据三维关节点位置信息为目标对象添加与目标对象当前动作匹配的铠甲。

具体的，在对目标对象进行拍摄得到待识别图像帧时，手机可以首先获取目标对象在待识别图像帧中的二维关节点位置信息。关节点可以是用于表示目标对象上可以运动的关节的点，例如可以包括右脚跟、左脚跟，右膝盖、左膝盖，右臀部、左臀部，右手腕、左手腕，右手肘、左手肘，右肩膀、左肩膀，头，等等。二维关节点位置信息用于体现目标对象的关节点在待识别图像帧中的位置，可以是预先提取得到的。

手机将二维关节点位置信息作为动作识别模型的输入，以便通过动作识别模型根据二维关节点位置信息预测三维关节点位置信息，实现动作识别。由于动作识别模型的输入是二维关节点位置信息，而非图像或者视频，因此无需动作识别模型通过复杂处理从图像或者视频包含的大量信息中提取二维关节点位置信息，从而大大降低了动作识别模型的计算量和计算时间，也大大降低了动作识别模型的网络结构复杂度。

在通过动作识别模型预测三维关节点位置信息，手机可以根据二维关节点位置信息，利用动作识别模型的特征生成模块进行特征生成，得到目标特征向量，再根据目标特征向量，利用动作识别模型的预测模块进行预测，得到目标对象的每个关节点的动作旋转参数和动作位移参数，从而根据动作旋转参数和动作位移参数，利用动作识别模型的运动学分析模块进行运动学分析(例如前向运动学分析)，得到对应的关节点的三维关节点位置信息。三维关节点位置信息可以体现出目标对象在三维空间中所做出的动作，进而根据三维关节点位置信息为目标对象添加与目标对象当前动作匹配的铠甲。其中，添加与目标对象当前动作匹配的铠甲后的展示结果可以参见图1中102所示。

可以理解的是，本申请实施例提供的方法可以涉及人工智能，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

本申请实施例提供的方法具体可以涉及计算机视觉技术(Computer Vision，CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例主要涉及行为识别、3D技术等。

本申请实施例提供的方法还可以涉及机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如，基于机器学习训练得到动作识别模型。

接下来，将以移动终端执行动作识别方法为例，结合附图对本申请实施例提供的动作识别方法进行详细介绍。

参见图2，图2示出了一种动作识别方法的流程图，所述方法包括：

S201、在对目标对象进行拍摄得到待识别图像帧时，获取所述目标对象在所述待识别图像帧中的二维关节点位置信息。

若通过移动终端拍摄目标对象(目标对象例如是人体、动物等等，本申请实施例主要以目标对象是人体为例)，从而实时对目标对象进行动作识别时，移动终端可以获取目标对象在待识别图像帧中的二维关节点位置信息。

S202、根据所述二维关节点位置信息，利用动作识别模型的特征生成模块进行特征生成，得到目标特征向量。

移动终端将二维关节点位置信息输入至动作识别模型，以便通过动作识别模型根据二维关节点位置信息预测三维关节点位置信息，实现动作识别。动作识别模型可以包括特征生成模块、预测模块和运动学分析模块，动作识别模型可以是预先训练得到的，后续将对动作识别模型的训练方法进行详细介绍。

移动终端将二维关节点位置信息输入至动作识别模型后，可以根据二维关节点位置信息利用特征生成模块进行特征生成，得到目标特征向量。其中，二维关节点位置信息可以用X表示。

可以理解的是，在对待识别图像帧进行动作识别时，若待识别图像帧并非第一个图像帧，例如前一图像帧和待识别图像帧位于同一图像帧序列，在图像帧序列中前一图像帧在待识别图像帧之前且与待识别图像帧相邻，由于动作通常是连续的，目标对象在待识别图像帧所做出的动作与在其前一图像帧所做出的动作通常不会变化很大，因此，为了保证预测结果的稳定性，可以在对待识别图像帧进行动作识别时，有效的利用前一图像帧的相关信息来稳定预测结果。

在这种情况下，特征生成模块可以包括第一特征提取模块和第一特征融合模块，此时S202的实现方式可以是先获取二维关节点位置信息的特征提取结果，然后根据二维关节点位置信息的特征提取结果，利用第一特征提取模块生成待识别图像帧对应的第一特征向量，然后获取前一图像帧的相关信息例如前一图像帧对应的第一特征向量，从而通过第一特征融合模块将待识别图像帧对应的第一特征向量与前一图像帧对应的第一特征向量进行特征融合，得到目标特征向量。

通过上述方式可以有效的利用前一图像帧的相关信息增强待识别图像帧的特征向量，从而得到包括更加丰富信息的目标特征向量，以便可以根据更加丰富的信息对待识别图像帧中目标对象进行动作识别，从而稳定预测结果。

在一些情况下，特征生成模块可以包括多层特征提取模块，以多层特征提取模块依次是第二特征提取模块和第一特征提取模块为例，从动作识别模块的输入到输出方向，特征提取模块提取的特征向量越来越能体现三维关节点的位置。为了可以实现更加精准的特征融合，特征生成模块中还包括多层特征融合模块，当多层特征提取模块依次是第二特征提取模块和第一特征提取模块时，多层特征融合模块依次是第二特征融合模块和第一特征融合模块，且第二特征提取模块和第二特征融合模块位于第一特征提取模块之前，此时动作识别模型可以参见图3所示。在图3中，动作识别模型可以包括特征生成模块301、预测模块302和运动学分析模块303，特征生成模块301包括第二特征提取模块3011、第二特征融合模块3012、第一特征提取模块3013和第一特征融合模块3014。

在这种情况下，获取二维关节点位置信息的特征提取结果的方式可以是通过第二特征提取模块对二维关节点位置信息进行特征提取，得到待识别图像帧对应的第二特征向量，进而将待识别图像帧对应的第二特征向量确定为特征提取结果。相应的，根据二维关节点位置信息的特征提取结果，利用第一特征提取模块生成待识别图像帧对应的第一特征向量的方式可以是通过第二特征融合模块将待识别图像帧对应的第二特征向量与前一图像帧对应的第二特征向量进行融合，得到融合特征向量；通过第一特征提取模块对融合特征向量进行编码处理得到第一特征向量。

需要说明的是，第二特征提取模块3011位于第一特征提取模块3013之前，相对于第一特征提取模块3013，第二特征提取模块3011提取的是早期特征向量，因此，第二特征提取模块3011可以称为早期特征提取模块，表示为Early Stage；第一特征提取模块3013可以称为后期特征提取模块，表示为Late Stage；相应的，第二特征融合模块3012可以称为早期特征融合模块，表示为Early Fusion；第一特征融合模块3014可以称为后期特征融合模块，表示为Late Fusion；第二特征提取模块3011对二维关节点位置信息进行特征提取，得到的第二特征向量可以称为待识别图像帧的早期特征向量，表示为其中t为帧数，表示待识别图像帧为第t个图像帧；前一图像帧对应的第二特征向量可以称为前一图像帧的早期特征向量，表示为/>其中t-1为帧数，表示前一图像帧为第t-1个图像帧；第二特征融合模块3012输出的融合特征向量可以称为融合后的早期特征向量，可以表示为/>第一特征提取模块3013输出的第一特征向量可以称为待识别图像帧的后期特征向量，可以表示为/>前一图像帧对应的第一特征向量可以称为前一图像帧的后期特征向量，表示为/>第一特征融合模块3014输出的目标特征向量可以称为融合后的后期特征向量，表示为/>

与相关技术相比，相关技术所使用的时序网络模块所针对的是一个拍摄好的视频，需要进行动作识别的待识别图像帧的前后帧图像是可见的，并不适合实时动作识别，而本申请实施例使用的仅是前一图像帧，更加适合实时动作识别，更加适合移动终端。

S203、根据所述目标特征向量，利用所述动作识别模型的预测模块进行预测，得到所述目标对象的每个关节点的动作旋转参数和动作位移参数。

在提取得到目标特征向量后，根据目标特征向量利用预测模块进行预测得到目标对象的每个关节点的动作旋转参数和动作位移参数。在一种可能的实现方式中，由于动作旋转参数和动作位移参数是不同的参数，二者对于目标特征向量的侧重点可能略有不同，因此动作旋转参数和动作位移参数可以是分别基于预测模块的不同分支网络预测得到的。具体的，参见图3所示，预测模块302可以包括旋转参数预测模块3021和位移预测模块3022。旋转参数预测模块3021可以表示为Quat Head，Quat Head可以根据目标特征向量进行预测，得到目标对象的每个关节点的动作旋转参数Q；位移预测模块3022可以表示为TransHead，位移预测模块3022可以根据目标特征向量进行预测，得到目标对象的每个关节点的动作位移参数T。

S204、根据所述动作旋转参数和所述动作位移参数，利用所述动作识别模型的运动学分析模块进行运动学分析，得到对应的关节点的三维关节点位置信息。

参见图3所示，移动终端可以根据动作旋转参数和动作位移参数，利用运动学分析模块303进行运动学分析，得到对应的关节点的三维关节点位置信息。运动学分析模块可以表示为FK Layer，运动学分析通常可以包括前向运动学分析和后向运动学分析，本申请实施例主要通过前向运动学分析计算出三维关节点位置信息。其中，三维关节点位置信息可以通过J表示。

在一种可能的实现方式中，动作识别模型还可以包括判别器网络，例如图3所示，判别器网络可以包括第一判别器网络304，第一判别器网络304可以基于三维关节点位置信息判别动作的真假，第一判别器网络304可以通过D_J表示；又如判别器网络还可以包括第二判别器网络305，第二判别器网络305可以基于动作旋转参数判别动作的真假，第二判别器网络305可以通过D_Q表示。不过判别器网络主要用于动作识别模型训练过程中，当使用动作识别模型进行动作识别时，无需使用判别器网络，故将在动作识别模型训练过程中对判别器网络做详细介绍。

在得到三维关节点位置信息后，移动终端可以按照三维关节点位置信息，生成目标对象的动画。该动画可以是驱动目标对象对应的3D模型的动画，也可以是为目标对象添加人体特效的动画。例如人体特效是盔甲，当移动终端显示的目标对象如图4中(a)图所示，则基于本申请实施例进行动作识别后，基于动作识别得到的三维关节点位置信息添加盔甲这一人体特效的示意图可以参见图4中(b)图所示。

本申请实施例对所提供的动作识别方法进行了定量评测和定性评测。其中，得到的定量评测结果可以参见表1所示：

表1

在表1中，MPJPE(Mean Per Joint Position Error，关节点坐标误差平均值、PVE(PerVertex error，3D模型所有顶点坐标误差的平均值)和PA-MPJPE(Procrustes AlignedMean Per Joint Position Error)都是量化评测的评测指标，PA-MPJPE是先对预测输出进行刚性变换(例如平移、旋转和缩放)向对应的真值对齐后，再计算MPJPE。从表1可以看出，本申请实施例提供的方法在各个评测指标上的数值都小于相关技术，因此可以看出，本申请实施例提供的动作识别方法与相关技术提供的动作识别方法计算量大大降低，并在业务评测整理的合成数据集MOCAP和现实数据集3DPW上有明显性能提升。

定性评测结果可以参见图5和图6所示，其中，图5是针对人体动作估计结果的示意图，通过实际拍摄视频进行测试，从图5可以看出本申请实施例提供的方法可以准确估计视频中的人体动作，图5中(a)图为对人体拍摄的视频，图5中(b)图为人体动作估计结果；另外，还可以也随机选取视频与3D角色来测试驱动效果，从图6可以看出本申请实施例提供的动作识别方法能够应用到3D角色驱动等人体特效中，图6中(a)为对人体拍摄的视频，图6中(b)图为3D角色驱动的人体特效。

接下来，将对动作识别模型的训练方法进行详细介绍。为了训练得到动作识别模型，首先构建其对应的初始网络模型，初始网络模型包括特征生成初始模块、预测初始模块和运动学分析初始模块，参见图7所示，所述方法包括：

S701、获取历史对象在历史图像帧中的二维关节点历史位置信息。

在本申请实施例中，可以将历史对象在历史图像帧中的二维关节点历史位置信息作为训练样本，以训练得到动作识别模型。通常情况下，作为训练样本的二维关节点历史位置信息为多个历史图像帧分别对象的二维关节点历史位置信息，可以将多个二维关节点历史位置信息批量输入至初始网络模型中。

S702、根据所述二维关节点历史位置信息，利用所述特征生成初始模块进行特征生成，得到目标历史特征向量。

S703、根据所述目标历史特征向量，利用所述预测初始模块进行预测，得到所述历史对象的每个关节点的动作历史旋转参数和动作历史位移参数。

S704、根据所述动作历史旋转参数和所述动作历史位移参数，利用所述运动学分析初始模块进行运动学分析，得到对应的关节点的三维关节点历史位置信息。

需要说明的是，S701-S704与动作识别模型使用过程中S201-S204的实现方式类似，此处不再赘述。

S705、根据所述三维关节点历史位置信息构建目标损失函数。

S706、根据所述目标损失函数对所述初始网络模型的模型参数进行优化调整，得到所述动作识别模型。

在通过运动学分析初始模块预测得到三维关节点历史位置信息后，为了对初始网络模型进行训练，可以基于三维关节点历史位置信息构建目标损失函数，进而根据目标损失函数对所述初始网络模型进行优化调整，直到目标损失函数满足预设条件，停止训练，得到动作识别模型。

需要说明的是，在本申请实施例中，动作识别模型的训练可以在终端上执行，也可以在服务器上执行，本申请实施例对此不做限定。其中服务器可以是独立的服务器，也可以是集成服务器，还可以是云服务器等。

在一种可能的实现方式中，动作识别模型还可以包括第一判别器网络，故初始网络模型还可以包括第一判别器网络，用于判别预测得到的三维关节点历史位置信息的真假。进一步的，动作识别模型还可以包括第二判别器网络，故初始网络模型还包括第二判别器网络，用于判别动作历史旋转参数的真假。

本申请实施例通过判别器网络例如第一判别网络和第二判别网络来判断动作的真假，从而进一步强化动作的流畅性。

在本申请实施例提供的动作识别模型参见图3所示时，动作识别模型的具体网络结构如表2所示：

表2

其中，B为视频帧序列的采样数量，T为帧数，FC Block表示全连接模块，FusionBlock表示融合模块，BN(Batch Normalization)表示批量归一化(即标准化)，ReLU是激活函数，GRU是门控循环单元。

图8示出了Fusion Block和FC Block的网络结构，其中，801是Fusion Block的网络结构，当Fusion Block作为第二特征融合模块时，Fusion Block的输入例如可以是前一图像帧对应的第二特征向量和待识别图像帧的第二特征向量，输出可以是融合特征向量；802是FC Block的网络结构。

需要说明的是，表2中定义的网络结构的具体设计仅仅是一种示例，其网络结构可以根据计算资源来增加或减少，如FC Block和Fusion Block的设计可以适当增加全连接层数，也可以增加或减少输出通道数量，等等。

需要说明的是，目标损失函数是训练动作识别模型的关键，目标损失函数是否对动作识别的结果(例如三维关节点位置信息)进行了全面约束，将影响训练得到的动作识别模型进行动作识别的准确性。为此，本申请实施例采用了多种损失函数来约束生成动作的准确性、稳定性、与合理性，以便可以利用动作识别模型得到更逼真更准确的动作识别的结果。

基于此，S705的实现方式可以是根据三维关节点历史位置信息分别构建动作识别损失函数、动作变化损失函数和对抗损失函数，动作识别损失函数用于衡量动作识别的准确性，动作变化损失函数用于衡量不同图像帧之间动作变化的稳定性，对抗损失函数用于衡量动作识别的合理性；根据动作识别损失函数、动作变化损失函数和对抗损失函数中至少一种，构建目标损失函数。

目标损失函数可以表示为：

L_all＝L_action+L_quat-velo+L_gan

其中，L_all为目标损失函数，L_action为动作识别损失函数，L_quat-velo为动作变化损失函数，L_gan为对抗损失函数。

在一种可能的实现方式中，基于图2对应的实施例的论述，动作识别模型还可以包括第一判别器网络，故初始网络模型还可以包括第一判别器网络，此时根据三维关节点历史位置信息构建对抗损失函数的方式可以是通过第一判别器网络对三维关节点历史位置信息进行判别得到第一判别结果，进而根据三维关节点历史位置信息和第一判别结果构建对抗损失函数。

为了进一步强化动作流畅性，动作识别模型还可以包括第二判别器网络，故初始网络模型还包括第二判别器网络，基于此，本申请实施例还可以根据第二判别器网络对动作历史旋转参数进行判别得到第二判别结果，此时根据三维关节点历史位置信息和第一判别结果构建对抗损失函数的方式可以是根据三维关节点历史位置信息、第一判别结果和第二判别结果构建对抗损失函数。

针对动作识别的合理性，采用生成对抗来判断动作的真假，此时对抗损失函数可以表示为：

L_gan＝w_gan(L_gan-Q+L_gan-J)

其中，为L2损失函数，/>和/>分别为第二判别器网络的第二判别结果和第一判别器网络的第一判别结果，Q_pred表示预测得到的动作历史旋转参数，Q_gt表示动作旋转参数真值，J_pred表示预测得到的三维关节点历史位置信息，J_gt表示位置信息真值，L_gan表示对抗损失函数，L_gan-Q表示第二判别器网络的损失函数，L_gan-J表示第一判别器网络的损失函数，w_gan表示权重，可以根据实际需求进行设置。

在一种可能的实现方式中，根据三维关节点历史位置信息构建动作识别损失函数的方式可以是根据三维关节点历史位置信息和位置信息真值，确定第一损失函数；根据三维关节点历史位置信息对应的动作历史旋转参数和动作旋转参数真值，确定第二损失函数；根据三维关节点历史位置信息对应的动作历史位移参数和位移参数真值，确定第三损失函数；然后对第一损失函数、第二损失函数和第三损失函数进行加权求和，得到动作识别损失函数。

针对动作识别的准确性，本申请实施例分别约束了动作历史旋转参数、动作历史位移参数和三维关节点历史位置信息与各自对应的真值相近，即动作识别损失函数可以通过以下公式计算：

L_action＝w_quatL_quat+w_transL_trans+w_jointL_joint

其中，L_joint为第一损失函数，L_quat为第二损失函数，L_trans为第三损失函数，为L1损失函数，Q，R，O为动作历史旋转参数的3种表示方式，运动学分析初始模块输出的通常是动作历史旋转参数的6维表示O后，可以转换为四元数表示Q和旋转矩阵表示R，其中，Q_pred、R_pred、O_pred分别表示预测得到的不同表示方式的动作历史旋转参数，Q_gt、R_gt、O_gt分别表示不同表示方式的动作旋转参数真值，T_pred表示预测得到的动作历史位移参数，T_gt表示位移参数真值，J_pred表示预测得到的三维关节点历史位置信息，J_gt表示位置信息真值。w_quat、w_trans、w_joint分别表示每个损失函数对应的权重，可以根据实际需求进行设置。

在一种可能的实现方式中，根据三维关节点历史位置信息构建动作变化损失函数的方式可以是根据任意两个历史图像帧对应的三维关节点历史位置信息之间的差值和第一差值真值，确定第四损失函数；根据所述任意两个历史图像帧对应的动作历史旋转参数之间的差值和第二差值真值，确定第五损失函数；根据所述任意两个历史图像帧对应的动作历史位移参数之间的差值和第三差值真值，确定第六损失函数；然后对第四损失函数、第五损失函数和第六损失函数进行加权求和，得到动作变化损失函数。

针对动作稳定性，本申请实施例分别约束了动作历史旋转参数的变化、动作历史位移参数的变化、三维关节点历史位置信息的变化与各自对应的变化真值相近，即动作变化损失函数可以通过以下公式计算：

L_velo＝w_velo(L_quat-velo+L_trans-velo+L_joint-velo)

其中，L_joint-velo为第四损失函数，L_quat-velo为第五损失函数，L_trans-velo为第六损失函数，w_velo为每个损失函数的权重，可以根据实际需求设置，为L1损失函数。分别为不同表示方式下的任意两个历史图像帧对应的动作历史旋转参数之间的差值，/>分别为不同表示方式下的第二差值真值，/>为预测任意两个历史图像帧对应的动作历史位移参数之间的差值，/>为第三差值真值，/>为预测任意两个历史图像帧对应的三维关节点历史位置信息之间的差值，/>为第一差值真值。

在一种可能的实现方式中，上述各个权重可以设置为w_quat＝10.0，w_joint＝20.0，w_trans＝15.0，w_velo＝5.0，w_gan＝0.1。每个权重可以根据实际需求进行调整，本申请实施例对各个权重的值不做限定。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图2对应实施例提供的动作识别方法，本申请实施例还提供一种动作识别装置900。参见图9，所述动作识别装置900包括获取单元901、生成单元902、预测单元903和分析单元904：

所述获取单元901，用于在对目标对象进行拍摄得到待识别图像帧时，获取所述目标对象在所述待识别图像帧中的二维关节点位置信息；

所述生成单元902，用于根据所述二维关节点位置信息，利用动作识别模型的特征生成模块进行特征生成，得到目标特征向量；

所述预测单元903，用于根据所述目标特征向量，利用所述动作识别模型的预测模块进行预测，得到所述目标对象的每个关节点的动作旋转参数和动作位移参数；

所述分析单元904，用于根据所述动作旋转参数和所述动作位移参数，利用所述动作识别模型的运动学分析模块进行运动学分析，得到对应的关节点的三维关节点位置信息。

在一种可能的实现方式中，所述特征生成模块包括第一特征提取模块和第一特征融合模块，所述生成单元902，具体用于：

获取所述二维关节点位置信息的特征提取结果；

根据所述二维关节点位置信息的特征提取结果，利用所述第一特征提取模块生成所述待识别图像帧对应的第一特征向量；

通过所述第一特征融合模块将所述待识别图像帧对应的第一特征向量与前一图像帧对应的第一特征向量进行特征融合，得到所述目标特征向量，所述前一图像帧和所述待识别图像帧位于同一图像帧序列，在所述图像帧序列中所述前一图像帧在所述待识别图像帧之前且与所述待识别图像帧相邻。

在一种可能的实现方式中，所述特征生成模块还包括第二特征提取模块和第二特征融合模块，在所述动作识别模型中所述第二特征提取模块和所述第二特征融合模块位于所述第一特征提取模块之前，所述生成单元902，具体用于：

通过所述第二特征提取模块对所述二维关节点位置信息进行特征提取，得到所述待识别图像帧对应的第二特征向量；

将所述待识别图像帧对应的第二特征向量确定为所述特征提取结果；

通过所述第二特征融合模块将所述待识别图像帧对应的第二特征向量与所述前一图像帧对应的第二特征向量进行融合，得到融合特征向量；

通过所述第一特征提取模块对所述融合特征向量进行编码处理得到所述第一特征向量。

在一种可能的实现方式中，所述生成单元902，还用于：

按照所述三维关节点位置信息，生成所述目标对象的动画。

在一种可能的实现方式中，所述动作识别模型对应的初始网络模型包括特征生成初始模块、预测初始模块和运动学分析初始模块，所述装置还包括训练单元，所述训练单元，用于：

获取历史对象在历史图像帧中的二维关节点历史位置信息；

根据所述二维关节点历史位置信息，利用所述特征生成初始模块进行特征生成，得到目标历史特征向量；

根据所述目标历史特征向量，利用所述预测初始模块进行预测，得到所述历史对象的每个关节点的动作历史旋转参数和动作历史位移参数；

根据所述动作历史旋转参数和所述动作历史位移参数，利用所述运动学分析初始模块进行运动学分析，得到对应的关节点的三维关节点历史位置信息；

根据所述三维关节点历史位置信息构建目标损失函数；

根据所述目标损失函数对所述初始网络模型的模型参数进行优化调整，得到所述动作识别模型。

在一种可能的实现方式中，所述训练单元，具体用于：

根据所述三维关节点历史位置信息分别构建动作识别损失函数、动作变化损失函数和对抗损失函数，所述动作识别损失函数用于衡量动作识别的准确性，所述动作变化损失函数用于衡量不同图像帧之间动作变化的稳定性，所述对抗损失函数用于衡量动作识别的合理性；

根据所述动作识别损失函数、所述动作变化损失函数和所述对抗损失函数中至少一种，构建所述目标损失函数。

在一种可能的实现方式中，所述初始网络模型还包括第一判别器网络，所述训练单元，具体用于：

通过所述第一判别器网络对所述三维关节点历史位置信息进行判别，得到第一判别结果；

根据所述三维关节点历史位置信息和所述第一判别结果构建所述对抗损失函数。

在一种可能的实现方式中，所述初始网络模型还包括第二判别器网络，所述训练单元，还用于；

根据所述第二判别器网络对所述动作历史旋转参数进行判别，得到第二判别结果；

所述训练单元，具体用于：

根据所述三维关节点历史位置信息、所述第一判别结果和所述第二判别结果构建所述对抗损失函数。

在一种可能的实现方式中，所述训练单元，具体用于：

根据所述三维关节点历史位置信息和位置信息真值，确定第一损失函数；

根据所述三维关节点历史位置信息对应的动作历史旋转参数和动作旋转参数真值，确定第二损失函数；

根据所述三维关节点历史位置信息对应的动作历史位移参数和位移参数真值，确定第三损失函数；

对所述第一损失函数、所述第二损失函数和所述第三损失函数进行加权求和，得到所述动作识别损失函数。

在一种可能的实现方式中，所述训练单元，具体用于：

根据相邻两个历史图像帧对应的三维关节点历史位置信息之间的差值和第一差值真值，确定第四损失函数；

根据所述相邻两个历史图像帧对应的动作历史旋转参数之间的差值和第二差值真值，确定第五损失函数；

根据所述相邻两个历史图像帧对应的动作历史位移参数之间的差值和第三差值真值，确定第六损失函数；

对所述第四损失函数、所述第五损失函数和所述第六损失函数进行加权求和，得到所述动作变化损失函数。

本申请实施例还提供了一种用于动作识别的电子设备，该电子设备可以是终端，以终端为移动终端中的智能手机为例：

图10示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图10，智能手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。输入单元1030可包括触控面板1031以及其他输入设备1032，显示单元1040可包括显示面板1041，音频电路1060可以包括扬声器1061和传声器1062。可以理解的是，图10中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1080是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行智能手机的各种功能和处理数据。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

在本实施例中，智能手机中的处理器1080可以执行以下步骤：

本申请实施例还提供一种服务器，请参见图11所示，图11为本申请实施例提供的服务器1100的结构图，服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作***1141，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

在本实施例中，需要由服务器1100中的中央处理器1122执行的步骤可以基于图11所示的服务器结构实现。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的动作识别方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种动作识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述特征生成模块包括第一特征提取模块和第一特征融合模块，所述根据所述二维关节点位置信息，利用动作识别模型的特征生成模块进行特征生成，得到目标特征向量，包括：

获取所述二维关节点位置信息的特征提取结果；

3.根据权利要求2所述的方法，其特征在于，所述特征生成模块还包括第二特征提取模块和第二特征融合模块，在所述动作识别模型中所述第二特征提取模块和所述第二特征融合模块位于所述第一特征提取模块之前，所述获取所述二维关节点位置信息的特征提取结果，包括：

所述根据所述二维关节点位置信息的特征提取结果，利用所述第一特征提取模块生成所述待识别图像帧对应的第一特征向量，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

按照所述三维关节点位置信息，生成所述目标对象的动画。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述动作识别模型对应的初始网络模型包括特征生成初始模块、预测初始模块和运动学分析初始模块，所述方法还包括：

获取历史对象在历史图像帧中的二维关节点历史位置信息；

根据所述三维关节点历史位置信息构建目标损失函数；

6.根据权利要求5所述的方法，其特征在于，所述根据所述三维关节点历史位置信息和所述第一判别结果构建所述目标损失函数，包括：

7.根据权利要求6所述的方法，其特征在于，所述初始网络模型还包括第一判别器网络，根据所述三维关节点历史位置信息构建所述对抗损失函数的方式包括：

8.根据权利要求7所述的方法，其特征在于，所述初始网络模型还包括第二判别器网络，所述方法还包括；

所述根据所述三维关节点历史位置信息和所述第一判别结果构建所述对抗损失函数，包括：

9.根据权利要求6所述的方法，其特征在于，根据所述三维关节点历史位置信息构建所述动作识别损失函数的方式包括：

10.根据权利要求6所述的方法，其特征在于，根据所述三维关节点历史位置信息构建所述动作变化损失函数的方式包括：

11.一种动作识别装置，其特征在于，所述装置包括获取单元、生成单元、预测单元和分析单元：

12.根据权利要求11所述的装置，其特征在于，所述特征生成模块包括第一特征提取模块和第一特征融合模块，所述生成单元，具体用于：

获取所述二维关节点位置信息的特征提取结果；

13.一种用于动作识别的电子设备，其特征在于，所述电子设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-10任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码当被处理器执行时使所述处理器执行权利要求1-10任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。