CN113516005B

CN113516005B - 一种基于深度学习和姿态估计的舞蹈动作评价***

Info

Publication number: CN113516005B
Application number: CN202110341970.8A
Authority: CN
Inventors: 吴子朝; 陈豪; 张�成; 杨萍
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2024-02-09
Anticipated expiration: 2041-03-30
Also published as: CN113516005A

Abstract

本发明公开了一种基于深度学***。

Description

一种基于深度学习和姿态估计的舞蹈动作评价***

技术领域

本发明涉及深度学习技术领域，特别是涉及一种基于深度学习和姿态估计的舞蹈动作评价***。

背景技术

现今，舞蹈越来越融入人们的日常生活，更多的人开始接触并练***，从而有效提高舞蹈水平。

现有的舞蹈评价方式大多是人工评价，舞蹈动作学习仍是以舞蹈教师言传身教为主，评价与教学方式都存在诸多制约；由舞蹈老师评价的评价体系往往受限于人的精力，随着时间的推移，注意力不集中容易出现误判的现象，且由于评价人的评价标准不一，往往同一舞蹈动作会得到不同的评价，其次通过舞蹈老师评价受到空间和时间上的制约，而数字化评价则不会受到精力、空间与时间等因素的制约。

目前已经出现通过舞者穿戴的动作捕捉设备捕捉舞者的动作数据，再通过得到的动作数据与标准舞蹈数据进行对比给出评价的数字化评价方式，但这种方式不仅在技术上复杂低效，且动作捕捉设备成本较高，穿戴设备进行舞蹈也会妨碍舞者的发挥。如果通过舞者佩戴LED灯饰对动作数据进行选择性采集，又存在数据量不足的问题，进而影响到数字化评价的结果。

发明内容

针对现有技术的不足，本发明提出了一种基于深度学习和姿态估计的舞蹈动作评价***，能够解决目前舞蹈评价***中缺少数字化统一化评价标准和需额外穿戴设备来实现数字化评价的问题。

一种基于深度学习和姿态估计的舞蹈动作评价***，包括数据采集单元、VideoPose3D关节点坐标提取模块、动作分析神经网络舞蹈编码模块和舞蹈评价模块；

所述数据采集单元通过RGB摄像装置采集舞蹈视频，作为评价使用的数据输入到VideoPose3D关节点坐标提取模块；

作为优选，所述RGB摄像装置为手机、摄像机等拍摄装置；

作为优选，所述数据采集模块拍摄的舞蹈视频数据中，舞者位于视频中央，占视频中的主体部分。

VideoPose3D关节点坐标提取模块，将接收的舞蹈视频通过VideoPose3D的处理，提取得到人体骨架图，然后获得人体关节点的坐标数据信息；将人体关节点的坐标数据信息输入到动作分析神经网络舞蹈编码模块；

所述动作分析神经网络舞蹈编码模块接收人体关节点的坐标数据信息，采用动作分析神经网络算法对坐标数据信息进行编码。将舞蹈动作序列中的每一帧按时间顺序依次输入LSTM网络中，在对动作编码的同时，LSTM网络中同层之间还有时间序列上的信息交互；LSTM网络的输出经过归一化后进入Attention层，进一步集合关节点之间的信息，最后，该层输出E经过数据归一化层和多个全连接层后得到最终的舞蹈动作编码。

作为优选，动作分析神经网络中全连接层的数量为2个。

动作分析神经网络算法使用MMD_NCA损失函数L_{MMD_NCA}作为约束，其公式如下：

其中，X、Y为两个不同分布的序列，x_i,x′_i表示来自X分布的采样，y_i,y′_i表示来自Y分布的采样，MMD[K,X,Y]²的计算结果为分布X,Y在编码空间中的距离，n、m分别为被X，Y的序列长度，K为高斯核函数；X⁺表示和X为同一类舞蹈动作的舞蹈序列,与X是正例关系；M表示舞蹈动作的数量，C＝{C₁,C₂,…,C_M}为数据集中的与X不是同一类的舞蹈动作集，表示C中的一个舞蹈序列，与X是负例关系。动作分析神经网络算法将坐标数据映射到编码空间中。

所述损失函数L_{MMD_NCA}通过反向传播约束网络，优化网络参数，在编码空间中将同类舞蹈聚类在一起，将不同类舞蹈在编码空间中的距离拉远，从而达到优化舞蹈动作编码的目的。

所述舞蹈评价模块将动作分析神经网络舞蹈编码模块输出的编码与标准舞蹈动作序列编码进行对比，计算余弦相似度θ：

其中，x_i为输入的舞者动作中的一帧的编码，y_i表示对应的标准舞蹈动作片段中的一帧的编码，n为帧数。

将相似度计算结果对应转化成相应的评价，从而完成对舞者舞蹈动作的正确评价，实现舞蹈姿势的教学和矫正，调高跳舞者的舞蹈水平。

本发明具有以下有益效果：

1、使用RGB摄像装置获取用于评价的动作数据，拍摄难度小，表演者无需额外穿戴用于动作捕捉的体感设备，简单快捷；

2、使用VideoPose3D提取人体的骨架关节点坐标数据，根据输入动作分析神经网络的数据，得到正确的评价，可对舞蹈表演者的舞蹈姿态进行教学和矫正，从而有效的提高舞者的舞蹈水平。

3、在动作分析神经网络中使用了MMD_NCA损失对网络编码结果进行约束，降低最终网络编码结果的误差，从而极大程度优化了舞蹈姿态评价的准确性。

附图说明

图1为舞蹈评价***的工作流程图；

图2为动作分析神经网络的结构图；

图3为动作分析神经网络训练示意图；

具体实施方式

以下结合附图对本发明作进一步的解释说明；

一种基于深度学习和姿态估计的舞蹈动作评价***，包括数据采集单元、VideoPose3D关节点坐标提取模块、动作分析神经网络舞蹈编码模块和舞蹈评价模块；如图1所示为基于深度学习和姿态估计的舞蹈评价***的工作流程示意图，包括4个主要步骤：

S1、以一台摄像设备作为数据采集设备，拍摄以舞者为画面中心主体的舞蹈视频作为输入数据，或通过摄像头实时采集数据；

S2、使用VideoPose3D作为骨架关节点提取工具，处理采集到的舞蹈视频数据，获得视频中舞者的骨架关节点坐标数据；

所述的VideoPose3D是一种自顶向下的算法，所述自顶向下的算法即先探测视频帧中的每一个人体检测框，在从舞蹈视频中提取每一帧人体骨架的过程中，VideoPose3D先在视频中探测人物，产生人体检测框，再从人体检测框内提取人体骨架，最后计算得到关节点坐标数据。

S3、采用动作分析神经网络算法对步骤S2处理后得到的数据进行编码；图2为动作分析神经网络结构的示意图，当VideoPose3D成功从输入的舞蹈视频中提取出舞者的人体关节点坐标数据后，将坐标数据作为动作分析神经网络的输入，输入为一个动作序列，序列中的每一帧的动作由某一时刻的人体关节点坐标集表示；

所述的动作分析神经网络包含一个LSTM网络、Attention层、多个归一化层和少量全连接层；

所述的LSTM网络为循环神经网络的一个变种，其在处理长序列内容时效果更好，LSTM网络种的每个隐藏神经元接受来自外部或是前一层的输入，同时接受来自同一层前后时间帧上的神经元的单元记忆和单元状态，处理、计算输入后将结果传向下一层。

所述attention结构通过提高动作序列中动作区分度较大的动作帧在编码过程中的权重，实现LSTM计算过程中区分度较高的舞蹈姿态的区分，attention的数学计算公式如下：

r＝W_s2tanh(W_s1S^T) (4)

其中S为动作序列，S^T表示动作序列矩阵的转置，r表示attention map，r_i为r中的第i个元素，Ws1和Ws2是需要学习的权重矩阵，a_i为得分，聚合为向量A＝[a1,a2,…],计算得到最后的输出为E＝A*S；

舞蹈动作序列中的每一帧按时间顺序依次输入LSTM网络的神经元中，LSTM中同层之间有信息上的交互，从而能够获取更多时间序列上的信息减少动作编码过程中的信息损失，所述的同层之间的信息交互，不仅是按时间方向有交互，在逆时间方向同样有信息上的交互；将LSTM的输出结果进行归一化操作，防止网络梯度***，直接将计算结果传入Attention层中；Attention层的输入E再进过归一化层对数据归一化和2个全连接层后得到最终的舞蹈动作编码。

图3为动作分析神经网络的训练示意图，使用MMD_NCA损失函数作为约束来更好的实现舞蹈动作的编码与区分。

MMD_NCA损失L_{MMD_NCA}用于优化不同舞蹈动作直接的区分和相同舞蹈动作的聚合，该损失使得动作相似的动作在编码空间中的距离尽可能的相近，不相同的动作在编码空间中将被尽可能的拉远，其中计算不同分布序列之间X,Y的距离使用的是MMD算法即最大均方误差，数学计算公式如下：

上述公式中X、Y为两个不同分布的序列，x_i,x′_i表示来自X分布的采样，y_i,y′_i表示来自Y分布的采样，MMD[K,X,Y]²的计算结果为分布X,Y在编码空间中的距离，n、m分别为被X，Y的序列长度，K为高斯核函数；

再加入NCA即最近邻成分分析算法来提高区分的准确率，损失函数L_{MMD_NCA}为：

X⁺表示和X为同一类舞蹈动作的舞蹈序列,C＝{C₁,C₂,…,C_M}为数据集中的与X不是同一类的舞蹈动作集，表示与C中的一个舞蹈序列，与X是负例关系。

对动作分析神经网络进行多次重复训练的过程，每一次训练从训练数据中随机采样一个锚定样本，少量正样本，和相对多的负样本，再将三类样本的样本数据编码同时输入网络的损失函数中对网络参数进行优化。

S4、将动作分析神经网络算法输出的编码与标准舞蹈动作序列编码进行比对，给出评价。

Claims

1.一种基于深度学习和姿态估计的舞蹈动作评价***，其特征在于：该***包括数据采集单元、VideoPose3D关节点坐标提取模块、动作分析神经网络舞蹈编码模块和舞蹈评价模块；

所述VideoPose3D关节点坐标提取模块将接收的舞蹈视频通过VideoPose3D的处理，提取得到人体骨架图，然后获得人体关节点的坐标数据信息；将人体关节点的坐标数据信息输入到动作分析神经网络舞蹈编码模块；

所述动作分析神经网络舞蹈编码模块接收人体关节点的坐标数据信息，采用动作分析神经网络算法对坐标数据信息进行编码，并且使用MMD_NCA损失函数L_{MMD_NCA}作为约束，通过反向传播约束网络，优化网络参数；

编码过程为：将舞蹈动作序列中的每一帧按时间顺序依次输入LSTM网络中，在对动作编码的同时，LSTM网络中同层之间还有时间序列上的信息交互；LSTM网络的输出归一化后进入Attention层，进一步集合关节点之间的信息，最后，该层输出E经过数据归一化层和多个全连接层后得到舞蹈动作编码；

损失函数L_{MMD_NCA}为：

其中，X、Y为两个不同分布的序列，x_i,x′_i表示来自X分布的采样，y_i,y′_i表示来自Y分布的采样，MMD[K,X,Y]²的计算结果为分布X,Y在编码空间中的距离，n、m分别为被X，Y的序列长度，K为高斯核函数；X⁺表示和X为同一类舞蹈动作的舞蹈序列,与X是正例关系；M表示舞蹈动作的数量，C＝{C₁,C₂,…,C_M}为数据集中的与X不是同一类的舞蹈动作集，表示C中的一个舞蹈序列，与X是负例关系；动作分析神经网络算法将坐标数据映射到编码空间中；

所述舞蹈评价模块将动作分析神经网络舞蹈编码模块输出的编码与标准舞蹈动作序列编码进行对比，计算余弦相似度，再将相似度计算结果转化成相应的指标，完成舞蹈动作评价。

2.如权利要求1所述一种基于深度学习和姿态估计的舞蹈动作评价***，其特征在于：所述的RGB摄像装置为手机或摄像机。

3.如权利要求1所述一种基于深度学习和姿态估计的舞蹈动作评价***，其特征在于：采集的舞蹈视频中，舞者位于视频中央。

4.如权利要求1所述一种基于深度学习和姿态估计的舞蹈动作评价***，其特征在于：VideoPose3D先探测舞蹈视频中人***置，产生人体检测框，再提取人体骨架，计算得到人体关节点的坐标数据信息。

5.如权利要求1所述一种基于深度学习和姿态估计的舞蹈动作评价***，其特征在于：动作分析神经网络中全连接层的数量为2个。

6.如权利要求1所述一种基于深度学习和姿态估计的舞蹈动作评价***，其特征在于：余弦相似度计算公式为：

其中，x_i为输入的舞者动作中的一帧的编码，y_i表示对应的标准舞蹈动作片段中的一帧的编码，n为帧数，θ为相似度。