WO2021184619A1

WO2021184619A1 - 一种人体运动姿态识别评价方法及其***

Info

Publication number: WO2021184619A1
Application number: PCT/CN2020/103074
Authority: WO
Inventors: 庄文芹; 谢世朋
Original assignee: 南京未艾信息科技有限公司
Priority date: 2020-03-19
Filing date: 2020-07-20
Publication date: 2021-09-23
Also published as: CN111401270A

Abstract

一种人体运动姿态识别评价方法及其装置，该方法包括以下步骤：S01：采集视频图像测试数据集，将视频图像测试数据集中的数据进行数据处理；S02：将数据处理后的测试数据输入训练后的LSTM神经网络模型中进行人体运动姿态的识别，输出识别结果；S03：将输出的识别结果与标准运动数据进行对比，根据对比的结果对所识别出的人体运动姿势的标准程度进行评价；该方法及其装置不仅能捕获长期的时间信息，还能通过时域注意力和空域注意力机制捕获人体动作的复杂时空线索，极大地提高了对人体运动姿态识别的准确率。

Description

一种人体运动姿态识别评价方法及其***

技术领域

本发明涉及姿态识别技术领域，更具体的说是涉及一种人体运动姿态识别评价方法及其***。

背景技术

目前，随着人机交互技术飞速发展，人体姿态识别技术越来越受到重视。姿态识别作为人体行为识别的重要组成部分，近年来逐渐成为计算机视觉领域的一个重要的研究热点。

现有的姿态识别方法主要包括2种，其一是基于基于运动传感器的人体姿态识别，其二是基于图像分析的人体姿态识别；基于传感器的识别技术主要通过让研究人员携带传感器来进行采集相关运动数据，常用地传感器主要包括加速度计、磁阻传感器、陀螺仪等，利用传感器获取研究人员的运动信息后，结合及其学习的相关方法，对人的姿态做出识别，这种方法对姿态的识别结果主要受到特征提取方式即传感器使用和分类器选择的影响，对于姿态识别来说不够准确；基于图像的分析方法，通过提取研究人员的图像来作为研究分析的特征，目前基于图像的方法多采用堆图像高宽比、形状复杂性变化、离心率等分析图像的轮廓特征结合K-means或SVM来判别人的姿态类别，然而上述传统的方法往往难以在大量复杂相似的样本上取得好的分类效果。

另外，现有技术中，无论是在体育测试或是运动锻炼时，对被测试者所完成的动作是否标准基本采用的是人工判断的方法，无法做出客观准确的评价。

因此，提出一种速度快、精度高的人体运动姿态识别方法以及对运动姿态是否标准进行准确评价的方法是本领域技术人员所亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种人体运动姿态识别评价方法及其***，能够有效解决现有技术中的人体运动姿态识别技术不够精确且速度较慢的问题，且进一步提供了对所识别到的运动姿态进行评价，另外还有效解决了现有技术中无法对人体运动姿态进行客观评价的人体。

为了实现上述目的，本发明采用如下技术方案：

一种人体运动姿态识别评价方法，包括以下步骤：

S01：采集视频图像测试数据集，将视频图像测试数据集中的数据进行数据处理；

S02：将数据处理后的测试数据输入训练后的LSTM神经网络模型中进行人体运动姿态的识别，输出识别结果；

S03：将输出的识别结果与标准运动数据进行对比，根据对比的结果对所识别出的人体运动姿势的标准程度进行评价；

其中，所述LSTM神经网络模型的训练过程包括以下步骤：

S11：获取视频图像样本数据集；

S12：将所述视频图像样本数据集中的样本数据输入LSTM神经网络模型中，在神经网络模型的目标函数中引入对关节点和神经元相连的权重的约束，根据权重的大小分别针对不同帧和不同关节点的数据进行分类，完成基于内容类型对不同帧和不同关节点重要性进行分配的学习；

S13：将得到的分类结果进行反向传播实现权重的更新，并循环执行S12中的内容。

优选的，S01中的数据处理内容包括：对所采集到的视频图像样本数据集进行时域分割和内容类型判断；并将分割后的视频序列进行预处理，得到RGB图像和视频帧的光流。

优选的，S02的具体内容包括：

(1)提取时间流特征和空间流特征，提取时空信息形成固定长度的特征向量，并提取视频帧的深度特征，同时利用时空特征融合策略融合所提取到的所有特征；

(2)根据序列内容类型，将融合后的特征向量进行空域注意力计算和时域注意力计算，分别得到空域特征和时域特征；

(3)将步骤(1)和步骤(2)中得到的特征进行融合，得到分类结果，完成人体动作识别。

一种人体运动姿态识别评价***，包括：图像采集模块、数据处理模块、LSTM神经网络模型、模型训练模块、数据中心和姿态评价模块；

所述图像采集模块，用于采集视频图像测试数据集；

所述数据处理模块，用于对所采集到的视频图像测试数据集进行数据处理；

所述LSTM神经网络模型，用于将数据处理后的测试数据输入训练后的LSTM神经网络模型中进行人体运动姿态的识别，输出识别结果；

所述模型训练模块，用于所述LSTM神经网络模型进行训练；

所述数据中心，用于存储标准运动数据；

所述姿态评价模块，用于调取所述数据中心中的标准运动数据，并将输出的识别结果与标准运动数据进行对比，得到所识别出的人体运动姿势的标准程度的评价结果。

优选的，所述数据处理模块具体用于对所采集到的视频图像样本数据集进行时域分割和内容类型判断；并将分割后的视频序列进行预处理，得到RGB图像和视频帧的光流。

优选的，所述LSTM神经网络模型包括LSTM主网络、空域注意力子网络、时域注意力子网络和特征融合模块；

所述LSTM主网络，用于提取时间流特征和空间流特征，提取时空信息形成固定长度的特征向量，并提取视频帧的深度特征，同时利用时空特征融合策略融合所提取到的所有特征；

所述空域注意力子网络，用于针对不同内容类型来自动学习对不同关节点重要性进行分配，并在识别的过程中进行空域注意力计算，得到空域特征；

所述时域注意力子网络，用于针对不同内容类型来自动学习对不同帧重要性进行分配，并在识别的过程中进行时域注意力计算，得到时域特征；

所述特征融合模块，用于控制特征进行融合，得到最终分类结果。

优选的，所述模型训练模块具体用于获取视频图像样本数据集，将所述视频图像样本数据集中的样本数据输入LSTM神经网络模型中，在神经网络模型的目标函数中引入对关节点和神经元相连的权重的约束，并进一步控制所述空域注意力子网络和所述时域注意力子网络完成对不同关节点和不同帧的重要性分配的学习。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种人体运动姿态识别评价方法及其***，LSTM模型本身作为循环神经网络，能够通过保存时间序列信息来捕获长期的时空依赖关系，还能有效避免梯度消失的现象，然而本发明还在LSTM网络的基础上添加空域注意力机制和时域注意力机制，使本发明中的方法和***不仅能捕获长期的时间信息，还能通过时域注意力和空域注意力机制捕获人体动作的复杂时空线索，极大地提高了对人体运动姿态识别的准确率。另外，本发明中还能对所识别到的人体姿态与标准的姿态进行对比从而得到客观准确的评价，解决了现有技术中动作评价主观、难以统一标准的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种人体运动姿态识别评价方法的流程示意图。

图2附图为本发明提供的一种人体运动姿态识别评价***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种人体运动姿态识别评价方法，如图1所示，包括以下步骤：

其中，LSTM神经网络模型的训练过程包括以下步骤：

S11：获取视频图像样本数据集；

S12：将视频图像样本数据集中的样本数据输入LSTM神经网络模型中，在神经网络模型的目标函数中引入对关节点和神经元相连的权重的约束，根据权重的大小分别针对不同帧和不同关节点的数据进行分类，完成基于内容类型对不同帧和不同关节点重要性进行分配的学习；

为了进一步实现上述技术方案，S01中的数据处理内容包括：对所采集到的视频图像样本数据集进行时域分割和内容类型判断；并将分割后的视频序列进行预处理，得到RGB图像和视频帧的光流。

为了进一步实现上述技术方案，S02的具体内容包括：

一种人体运动姿态识别评价***，如图2所示，包括：图像采集模块、数据处理模块、LSTM神经网络模型、模型训练模块、数据中心和姿态评价模块；

图像采集模块，用于采集视频图像测试数据集；

数据处理模块，用于对所采集到的视频图像测试数据集进行数据处理；

LSTM神经网络模型，用于将数据处理后的测试数据输入训练后的LSTM神经网络模型中进行人体运动姿态的识别，输出识别结果；

模型训练模块，用于LSTM神经网络模型进行训练；

数据中心，用于存储标准运动数据；

姿态评价模块，用于调取数据中心中的标准运动数据，并将输出的识别结果与标准运动数据进行对比，得到所识别出的人体运动姿势的标准程度的评价结果。

为了进一步实现上述技术方案，数据处理模块具体用于对所采集到的视频图像样本数据集进行时域分割和内容类型判断；并将分割后的视频序列进行预处理，得到RGB图像和视频帧的光流。

为了进一步实现上述技术方案，LSTM神经网络模型包括LSTM主网络、空域注意力子网络、时域注意力子网络和特征融合模块；

LSTM主网络，用于提取时间流特征和空间流特征，提取时空信息形成固定长度的特征向量，并提取视频帧的深度特征，同时利用时空特征融合策略融合所提取到的所有特征；

空域注意力子网络，用于针对不同内容类型来自动学习对不同关节点重要性进行分配，并在识别的过程中进行空域注意力计算，得到空域特征；

时域注意力子网络，用于针对不同内容类型来自动学习对不同帧重要性进行分配，并在识别的过程中进行时域注意力计算，得到时域特征；

特征融合模块，用于控制特征进行融合，得到最终分类结果。

为了进一步实现上述技术方案，模型训练模块具体用于获取视频图像样本数据集，将视频图像样本数据集中的样本数据输入LSTM神经网络模型中，在神经网络模型的目标函数中引入对关节点和神经元相连的权重的约束，并进一步控制空域注意力子网络和时域注意力子网络完成对不同关节点和不同帧的重要性分配的学习。

需要说明的是，该***是通过上述的方法实现的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种人体运动姿态识别评价方法，其特征在于，包括以下步骤：

S01：采集视频图像测试数据集，将视频图像测试数据集中的数据进行数据处理；

S02：将数据处理后的测试数据输入训练后的LSTM神经网络模型中进行人体运动姿态的识别，输出识别结果；

S03：将输出的识别结果与标准运动数据进行对比，根据对比的结果对所识别出的人体运动姿势的标准程度进行评价；

其中，所述LSTM神经网络模型的训练过程包括以下步骤：

S11：获取视频图像样本数据集；

S12：将所述视频图像样本数据集中的样本数据输入LSTM神经网络模型中，在神经网络模型的目标函数中引入对关节点和神经元相连的权重的约束，根据权重的大小分别针对不同帧和不同关节点的数据进行分类，完成基于内容类型对不同帧和不同关节点重要性进行分配的学习；

S13：将得到的分类结果进行反向传播实现权重的更新，并循环执行S12中的内容。
根据权利要求1所述的一种人体运动姿态识别评价方法，其特征在于，S01中的数据处理内容包括：对所采集到的视频图像样本数据集进行时域分割和内容类型判断；并将分割后的视频序列进行预处理，得到RGB图像和视频帧的光流。
根据权利要求2所述的一种人体运动姿态识别评价方法，其特征在于，S02的具体内容包括：

(1)提取时间流特征和空间流特征，提取时空信息形成固定长度的特征向量，并提取视频帧的深度特征，同时利用时空特征融合策略融合所提取到的所有特征；

(2)根据序列内容类型，将融合后的特征向量进行空域注意力计算和时域注意力计算，分别得到空域特征和时域特征；

(3)将步骤(1)和步骤(2)中得到的特征进行融合，得到分类结果，完成人体动作识别。
一种人体运动姿态识别评价***，其特征在于，包括：图像采集模块、数据处理模块、LSTM神经网络模型、模型训练模块、数据中心和姿态评价模块；

所述图像采集模块，用于采集视频图像测试数据集；

所述数据处理模块，用于对所采集到的视频图像测试数据集进行数据处理；

所述LSTM神经网络模型，用于将数据处理后的测试数据输入训练后的LSTM神经网络模型中进行人体运动姿态的识别，输出识别结果；

所述模型训练模块，用于所述LSTM神经网络模型进行训练；

所述数据中心，用于存储标准运动数据；

所述姿态评价模块，用于调取所述数据中心中的标准运动数据，并将输出的识别结果与标准运动数据进行对比，得到所识别出的人体运动姿势的标准程度的评价结果。
根据权利要求4所述的一种人体运动姿态识别评价***，其特征在于，所述数据处理模块具体用于对所采集到的视频图像样本数据集进行时域分割和内容类型判断；并将分割后的视频序列进行预处理，得到RGB图像和视频帧的光流。
根据权利要求4所述的一种人体运动姿态识别评价***，其特征在于，所述LSTM神经网络模型包括LSTM主网络、空域注意力子网络、时域注意力子网络和特征融合模块；

所述LSTM主网络，用于提取时间流特征和空间流特征，提取时空信息形成固定长度的特征向量，并提取视频帧的深度特征，同时利用时空特征融合策略融合所提取到的所有特征；

所述空域注意力子网络，用于针对不同内容类型来自动学习对不同关节点重要性进行分配，并在识别的过程中进行空域注意力计算，得到空域特征；

所述时域注意力子网络，用于针对不同内容类型来自动学习对不同帧重要性进行分配，并在识别的过程中进行时域注意力计算，得到时域特征；

所述特征融合模块，用于控制特征进行融合，得到最终分类结果。
根据权利要求6所述的一种人体运动姿态识别评价***，其特征在于，所述模型训练模块具体用于获取视频图像样本数据集，将所述视频图像样本数据集中的样本数据输入LSTM神经网络模型中，在神经网络模型的目标函数中引入对关节点和神经元相连的权重的约束，并进一步控制所述空域注意力子网络和所述时域注意力子网络完成对不同关节点和不同帧的重要性分配的学习。