CN112101102A

CN112101102A - 一种基于人工智能获取rgb视频中3d肢体动作的方法

Info

Publication number: CN112101102A
Application number: CN202010789617.1A
Authority: CN
Inventors: 方浩树; 何书廉; 刘烨斌; 陆晓飞; 徐阳
Original assignee: Yiyun Zhixing Shenzhen Technology Co ltd
Current assignee: Yiyun Zhixing Shenzhen Technology Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-12-18

Abstract

本发明涉及人体动作识别获取技术领域，尤指一种基于人工智能获取RGB视频中3D肢体动作的方法。本发明基于人工智能获取RGB视频中3D肢体动作的方法通过服务器端接收包含人体的RGB视信息，进而从视频中计算出人体的位置，对人体信息进行数据标准化，再从视频中人体的位置及人体关键点的位置计算出特征数据，然后将特征数据输入到本地存储的深度学习模型，该深度学习模型利用本发明所收集的大量包含人体的RGB视频数据训练而成，深度学习模型输出肢体关键点相对应的三维数值，最后通过自动优化肢体关键点相对应的三维数值为最终结果，从而实现输出更加细致的肢体动作。

Description

一种基于人工智能获取RGB视频中3D肢体动作的方法

技术领域

本发明涉及人体动作识别获取技术领域，尤指一种基于人工智能获取RGB 视频中3D肢体动作的方法。

背景技术

随着计算机视觉技术的发展，利用视频采集设备进行动作识别成为研究重点。现有的动作识别方法需要从视频流中提取关节位置等数据，并将这些数据输入至三层双向长短时记忆循环人工神经网络中，由该神经网络提取数据的动态特征。随后，将提取出来的动态特征输入至分类器网络，最终获取与视频流的数据相应的动作类型。

目前，以深度学习为基础的视频分析技术发展迅速，如：姿态估计，动作跟踪,人脸特征点检测等，大量重要讯息都可从视频及图像中以计算器视觉算法抽取出来。对于从视频中对肢体动作进行识别，现在的技术一般只输出简陋的信息(如：站立，坐着等)作肢体动作的标签，无法输出比较细致的肢体动作。

发明内容

为解决上述问题，本发明提供一种基于人工智能获取RGB视频中3D肢体动作的方法，主要针对肢体动作识别实用性，研发深度学习模型直接从RGB视频中的肢体动作进行分析，并输出肢体关键点相对应的三维数值数值表达细致的肢体动作。

为实现上述目的，本发明采用的技术方案是：一种基于人工智能获取RGB 视频中3D肢体动作的方法，其算法步骤如下：

S1.服务器端接收包含人体的RGB视频信息；

S2.从视频中计算出人体的位置：从视频中取出每一帧并以图像格式作暂存，并把每一张图片输入人体关键点侦测***以取得关键点的X及Y坐标；

S3.从视频中计算出人体特征点检测：基于取得的关键点坐标抽取人体特征，并且以人体不同部份区分特征点群；

S4.对人体信息进行数据标准化：对每一个特征点群进行数据标准化；

S5.提取人体信息的特征数据：已标准化的特征点群将成为不同的特征数据；

S6.将特征数据输入到本地存储的深度学习模型；

S7.深度学习模型计算出肢体关键点相对应的三维数值；

S8.对输出的肢体关键点相对应的三维数值进行自动优化。

进一步地，在S1中，用户经网络接口上传视频到服务器，服务器接收的人体信息为用户选择的人体信息。

进一步地，在S1中，包含人体的RGB视频的获取方式为拍摄或从本地获取。

其中，在S3中，人体部分包括左手臂、右手臂、左腿、右腿、躯干及头部。

进一步地，在S4中，以P＝{p1,p2,...,pn}为所有(n个)特征点，标准化的特征点群P’计算方法如下:

Q＝P/(max(P)–min(P))

P’＝Q-mean(Q)。

进一步地，在S7中，以特征数据P’作输入并计算出肢体关键点相对应的三维数值bs＝P’*M+b，其中M及b分别为深度网络的卷积核参数与偏置层参数，该参数将从深度学习训练过程中求取。

进一步地，在S7中，深度学习模型利用多层神经网络，在训练数据中学习人体信息的特征数据与肢体关键点相对应的三维数值的相关性。

本发明的有益效果在于：本发明基于人工智能获取RGB视频中3D肢体动作的方法通过服务器端接收包含人体的RGB视信息，进而从视频中计算出人体的位置，对人体信息进行数据标准化，再从视频中人体的位置及人体关键点的位置计算出特征数据，然后将特征数据输入到本地存储的深度学习模型，该深度学习模型利用本发明所收集的大量包含人体的RGB视频数据训练而成，深度学习模型输出肢体关键点相对应的三维数值，最后通过自动优化肢体关键点相对应的三维数值为最终结果，从而实现输出更加细致的肢体动作。

附图说明

图1是本实施例的流程框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。本申请可以以多种不同的形式来实现，并不限于本实施例所描述的实施方式。提供以下具体实施方式的目的是便于对本申请公开内容更清楚透彻的理解。

请参阅图1所示，本发明关于一种基于人工智能获取RGB视频中3D肢体动作的方法，其算法步骤如下：

S1.服务器端接收包含人体的RGB视频信息：用户经网络接口(如网站以 HTTP超文本传输协议)上传视频到服务器，服务器接收的人体信息为用户选择的人体信息，其中包含人体的RGB视频的获取方式为拍摄或从本地获取；

S3.从视频中计算出人体特征点检测：基于取得的关键点坐标抽取人体特征，我们以人体不同部份区分特征点群，当中包括左手臂、右手臂、左腿、右腿、躯干及头部；

S4.对人体信息进行数据标准化：对每一个特征点群进行数据标准化，以P ＝{p1,p2,...,pn}为所有(n个)特征点为例，标准化的特征点群P’计算方法如下:

Q＝P/(max(P)–min(P))

P’＝Q-mean(Q)；

S6.将特征数据输入到本地存储的深度学习模型；

S7.深度学习模型计算出肢体关键点相对应的三维数值：深度学习模型利用多层神经网络，在训练数据中学习人体信息的特征数据与肢体关键点相对应的三维数值的相关性，以特征数据P’作输入并计算出肢体关键点相对应的三维数值bs＝P’*M+b，其中M及b分别为深度网络的卷积核参数与偏置层参数，该参数将从深度学习训练过程中求取；

S8.对输出的肢体关键点相对应的三维数值自动优化。

从上可知，本实施例获取RGB视频中3D肢体动作的方法主要包括以下步骤：从视频中计算出人体的位置；从视频中计算出人体关键点检测；提取人体关键点的特征数据；将特征数据输入到深度学习模型，计算出肢体关键点相对应的三维数值数值。其中，本实施例深度学习模型利用多层神经网络，在训练数据中学习人体关键点的特征数据与肢体关键点相对应的三维数值的相关性。此外，本实施例还收集大量包含人体的RGB视频数据，并对每段视频标注肢体关键点相对应的三维数值,供深度学习模型训练之用。

与现有技术相比，本实施例获取RGB视频中3D肢体动作的方法为：首先，通过RGB视频中的肢体影像分析人体的微小变化及动作，并利用深度学习模型识别肢体动作；当分析肢体动作中肢体部位的微小变化时，获取人体关键点信息，并提取该人体关键点信息的特征码；然后，将提取的特征码作为深度学习模型的输入信息；最后，通过深度学习模型将接收的特征码进行分析，并计算出肢体关键点相对应的三维数值作为反馈。本实施例在肢体动作识别过程中，直接使用RGB视频，无需其他的硬件如深度摄影机或某一品牌的智能电话，并输出详细的肢体关键点相对应的三维数值表达细致的动作，可应用于影视、3D 动画、虚拟角色等。

需要进一步说明的是，除非另有明确的规定和限定，术语“获取”“提取”“输出”等术语应做广义理解，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本实用中的具体含义。

以上实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种基于人工智能获取RGB视频中3D肢体动作的方法，其特征在于：其算法步骤如下：

S1.服务器端接收包含人体的RGB视频信息；

S6.将特征数据输入到本地存储的深度学习模型；

S7.深度学习模型计算出肢体关键点相对应的三维数值；

S8.对输出的肢体关键点相对应的三维数值进行自动优化。

2.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法，其特征在于：在S1中，用户经网络接口上传视频到服务器，服务器接收的人体信息为用户选择的人体信息。

3.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法，其特征在于：在S1中，包含人体的RGB视频的获取方式为拍摄或从本地获取。

4.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法，其特征在于：在S3中，人体部分包括左手臂、右手臂、左腿、右腿、躯干及头部。

5.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法，其特征在于：在S4中，以P＝{p1,p2,...,pn}为所有(n个)特征点，标准化的特征点群P’计算方法如下:

Q＝P/(max(P)–min(P))

P’＝Q-mean(Q)。

6.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法，其特征在于：在S7中，以特征数据P’作输入并计算出肢体关键点相对应的三维数值bs＝P’*M+b，其中M及b分别为深度网络的卷积核参数与偏置层参数，该参数将从深度学习训练过程中求取。

7.根据权利要求1所述的一种基于人工智能获取RGB视频中3D肢体动作的方法，其特征在于：在S7中，深度学习模型利用多层神经网络，在训练数据中学习人体信息的特征数据与肢体关键点相对应的三维数值的相关性。