CN110826500B

CN110826500B - 基于运动链接空间的对抗性网络估计3d人体姿态的方法

Info

Publication number: CN110826500B
Application number: CN201911085729.2A
Authority: CN
Inventors: 薛裕明; 谢军伟; 李�根; 罗鸣; 童同; 高钦泉
Original assignee: Fujian Imperial Vision Information Technology Co ltd
Current assignee: Fujian Imperial Vision Information Technology Co ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-04-14
Anticipated expiration: 2039-11-08
Also published as: CN110826500A

Abstract

本发明涉及一种基于运动链接空间的对抗性网络估计3D人体姿态的方法。采用卷积神经网络，从单目设备采集的图像中估计人体关键节点的三维坐标，具体以单目RGB图像作为输入，采用运动链接空间和对抗网络技术，不仅解决了过拟合现象，而且提高了3D人体姿态估计精度和准确性。

Description

基于运动链接空间的对抗性网络估计3D人体姿态的方法

技术领域

本发明涉及图像内容理解，尤其涉及一种基于运动链接空间的对抗性网络估计3D人体姿态的方法。

背景技术

当前人工智能技术在图像内容理解，视频增强，语音识别等领域都带来了巨大的突破。尤其是在图像内容理解中，3D人体姿态识别技术在康复医疗、视频监控、高级人机交互等领域具有很高的应用价值。

3D人体姿态估计是指从单目或者多目图像中预测人体姿态三维坐标的技术。3D人体姿态估计大致可分为以下三种方法：

第一种方法是采用数学运算或机器学习的方式，根据多目摄像头之间位置关系和拍摄角度等信息计算空间坐标系，预测其对应的深度图，并可以估计任何一个角度的2D图像。但是，其缺点在于不仅需要多目摄像头采集的图像，而且不能改变采集设备的摆放位置。

第二种方法是仅使用单个采集设备，先从单张图像中直接计算2D人体姿态坐标，其后通过简单的矩阵相乘或轻量级网络学习的方式估计其对应的3D人体姿态。但是，由于缺乏原始图像输入，可能会丢失空间信息，从而导致3D坐标的准确性不高；另外，这种方法仅依赖于2D姿态输入信息，所以其误差会在3D估计过程中会放大。

第三种方法是通过深度学习的方法计算从单目RGB图像到3维坐标的端到端映射关系。与前两种方法相比，这种方法从效率和性能上都具有明显的提升。

虽然3D人体姿态估计取得了一定的进步，但是依然需要额外的采集设备信息和存在深度神经网络极容易出现过拟合现象。

因此，本发明将仅以单目RGB图像作为输入，采用运动链接空间和对抗网络技术，不仅解决了过拟合现象，而且提高了3D人体姿态估计精度和准确性。

发明内容

本发明的目的在于提供一种基于运动链接空间的对抗性网络估计3D人体姿态的方法，该方法采用卷积神经网络，从单目设备采集的图像中估计人体关键节点的三维坐标，提高了3D人体姿态估计精度和准确性。

为实现上述目的，本发明的技术方案是：一种基于运动链接空间的对抗性网络估计3D人体姿态的方法，包括如下步骤：

步骤S1、采用单目设备采集人体彩色图像I，其后进行图像归一化，并且利用2D和3D人体数据集进行标注，分别获取2D人体骨骼坐标P和3D人体骨骼坐标M∈R^3×n；采用原始图像和人体骨骼坐标进行镜像和裁剪，进行图像数据增广；

步骤S2、3D人体骨骼坐标生成网络：采用弱监督的生成对抗网络学习解决数据过拟合的问题，其中特征提取阶段采用如下计算公式：

F＝R(BN(W₁*I_g+B₁)) (1)

式中，R表示非线性激活函数LeakyRelu，W₁，B₁分别表示特征提取阶段中卷积层的权重和偏置，BN表示归一化函数，I_g表示输入图片，F表示特征提取阶段得到的输出结果；之后，再经过卷积块、重塑模块，以及再分别经过两个全连接层，即得到对应的3D人体骨骼坐标；

步骤S3、采用卷积神经网络估计摄像头坐标参数K∈R^2×3，以辅助反向投影层；

步骤S4、基于步骤S1标注获得的3D人体骨骼坐标以及步骤S2、3D人体骨骼坐标生成网络生成的3D人体骨骼坐标，采用运动链接空间的Wasserstein GAN的判别器，计算人体骨骼的链接角度和长度，同时将输入图像与3D人体骨骼坐标融合输入到卷积神经网络中，以提升人体结构即3D人体骨骼坐标生成的准确性；

步骤S5、通过反向投影层，基于步骤S3计算的摄像头坐标参数K∈R^2×3，将3D人体骨骼坐标转换为2D人体骨骼坐标；

P'＝KM (2)

式中，P'为预测的2D人体骨骼坐标；

步骤S6、预测3D人体姿态关键节点的损失函数，M∈R^3×n表示3D人体骨骼坐标，亦即3D人体姿态关键节点位置，坐标m_i(x,y,z)表示人体的其中一个关键节点位置，i＝1，……，n，并在最后一个输出层进行reshape操作，从而获取3D人体坐标；

步骤S7、渐进训练策略：将训练过程分为预设的多个子训练周期，采用步进增长策略依次进行子训练周期的训练；训练开始时将原始图像缩放成小图片并佐以大学习率开始训练，且每完成一个子训练周期后逐步增大彩色原始图像并逐步减小学习率；当完成一个子训练周期后生成的3D人体骨骼坐标与其对应的标定数据存在较大出入时，继续进行反向传播，利用梯度下降优化算法更新卷积权值参数和偏置参数再执行步骤S2；当在完成一个子训练周期后生成的3D人体骨骼坐标达到预期或完成所有预设的子训练周期的次数后，则获得最终结果。

在本发明一实施例中，所述3D人体姿态关键节点的损失函数等于：

W(P_r,P_g)+λL_cam

其中，W(P_r,P_g)表示WGAN的损失函数，输入包含两部分，P_g标是一批输入为生成的数据(包含图像与对应生成的3D人体骨骼坐标)，P_r表示一批输入为真实数据(包含图像与对应真实标注的3D人体骨骼坐标)，

表示判别为真实3D人体骨骼的损失值，

表示判别为生成3D人体骨骼的损失值；||f||_L≤1表示函数f的Lipschitz常数为1，意思就是在要求函数f的Lipschitz常数||f||_L不超过1的条件下，对所有可能满足条件的f取到

的上界；L_cam表示摄像头估计网络的损失函数，λ取0～1，trace为计算对应矩阵的迹，|| ||_F为F范数，K∈R^2×3，I₂是2*2的单位矩阵。

相较于现有技术，本发明具有以下有益效果：

本发明公开的一种基于运动链接空间的对抗性网络估计3D人体姿态的方法的创新性主要体现在两个方面：第一，以弱监督的方式，使用深度神经网络模型来生成人体3D骨骼框架，且生成精准，效果甚佳，可以满足大部分的人体动作分析需求。第二，首次引入3D坐标与图像相融合，以及KCS网络层同时引入判别网络，对判别网络做出了升级，对3D结构的生成拥有巨大的辅助作用。本发明的目的在于提供一种基于运动链接空间的对抗性网络估计3D人体姿态的方法，通过对抗生成网络，辅助以KCS网络层以及摄像头反向投影网络，使生成的3D人体姿态，准确可靠。

附图说明

图1为本发明图1是本发明基于运动链接空间的对抗性网络估计3D人体姿态的方法生成3D人体骨骼坐标部分的网络结构；

图2是本发明基于运动链接空间的对抗性网络估计3D人体姿态的方法摄像头估计网络结构；

图3是本发明基于运动链接空间的对抗性网络估计3D人体姿态的方法的判别器部分；

图4是本发明基于运动链接空间的对抗性网络估计3D人体姿态的方法基本流程图；

图5是本发明基于运动链接空间的对抗性网络估计3D人体姿态的方法效果图。

具体实施方式

下面结合附图1-5，对本发明的技术方案进行具体说明。

如图4所示，本发明一种基于运动链接空间的对抗性网络估计3D人体姿态的方法，其目的在于采用卷积神经网络，从单目设备采集的图像中估计人体关键节点的三维坐标，具体实现过程如下：

步骤1：

为了训练模型，选取大量的彩色人体图像作为输入I，其后进行图像归一化，并且利用2D和3D人体数据集进行标注，获得每个人体的2D与3D坐标为P、M。通过对彩色原始图像和标注信息做镜像翻转，随机改变亮度、色度饱和度，得到大量的增广图片数据，以匹配数据对的方式进行存储，作为深度学习的训练数据集。同时也对训练集上2D坐标P(p₁,p₂,...p_n)；3D坐标M(m₀,m₁,...,m_n)，M∈R^3×n；做了归一化处理，可以进一步提升模型的收敛速度，提升模型精度，防止梯度***。

步骤2：

生成器部分1：3D人体骨骼坐标生成网络。与传统方法相比，本发明采用弱监督的生成对抗网络学习解决数据过拟合的问题，具体步骤详情如下：

特征提取阶段由卷积层、批正则化层和LeakyRelu激活函数组成，其计算公式是：

F＝R(BN(W₁*I_g+B₁)) (1)

式中，R表示非线性激活函数LeakyRelu，W₁，B₁分别表示特征提取阶段中卷积层的权重和偏置，BN表示归一化函数，I_g表示输入图片，F表示特征提取阶段得到的输出结果；之后，再经过卷积块、重塑模块(flatten)，以及再分别经过两个全连接层，即得到对应的3D人体骨骼坐标；

步骤3：

生成器部分2：为了人体姿态估计的准确性，本发明采用卷积神经网络估计摄像头坐标参数K∈R^2×3，其目的在于辅助反向投影层，将3D人体骨骼坐标反向投影至其对应的2D人体骨骼坐标，与原始输入图像中的2D坐标对比，计算反向投影loss，从而防止过拟合现象。由于K作为矩阵转换必须具有如下性质：

KK^t＝s²I₂ (2)

其中s是投影的缩放因子，I₂是2*2的单位矩阵，由于s是不确定的量，本发明把K矩阵中最大的奇异值赋给它。计算公式方法如下：

摄像头估计网络的损失函数如下：

其中trace为计算对应矩阵的迹，|| ||_F为F范数，K∈R^2×3。

通过训练如图2所示的网络获取输出，即获得反向投影的矩阵K，把3D人体骨骼坐标转换为2D骨骼坐标：

P'＝KM (5)

步骤4：

判别器部分：如图3所示，为了判别人体结构生成的准确性，本发明采用了一种运动链接空间[2](KCS：kinematic chain space)的WassersteinGAN[1]的判别器，其目的在于更合理的计算链接角度和长度。同时，本发明采用输入图像与3D人体骨骼框架融合输入到卷积神经网络中，增加3D骨骼与原图是否贴合的特征。

KCS层是本发明引入的能够提升人体姿态表示的网络层。KCS矩阵是表示人体姿态的重要方法，它包含关节链接节点和骨骼长度。一块骨骼b_k可以表示为第r和第t个节点的链接。

b_k＝p_r-p_t＝Mc (6)

c＝(0,...,0,1,0,...,0,-1,0,...,0)^T (7)

r的位置为1，t的位置为-1。最终的整个人体骨架被定义为：

B＝(b₁,b₂,...,b_n) (8)

通过链接多个c向量得到了矩阵C，从而B可以表示为。

B＝MC (9)

KCS矩阵的计算方式如下：

通过添加Ψ矩阵到网络层中，可以发现，在对角线上拥有每根骨骼的长度，在其他位置任意两个骨骼之间的角度表示。相比其他方法中的计算欧式距离的矩阵，该算法采用矩阵运算的形式，有效提升了运行速度，该部分主要用于提取骨骼特征，对虚拟构建的骨骼能最快的做出判断。

为了增加3D骨骼与原图是否贴合的特征，本发明增加了第二部分输入，即原图与3D骨骼合并作为输入，通过卷积神经网络提取特征。具体做法是，把新增加的3D图像部分，初始化为一个width,height,depth的浮点矩阵，初始值全部为0.5，其中width，height为与原图相等的宽度和高度，depth为3D人体的最大深度值，并把每一个输入3D人体的点赋值为1.0。如图3所示。

本发明将两部分提取的特征链接起来，在接下来的网络中添加了两个全链接层，每个包含90个神经元。最终做出3D骨骼坐标是来自于谁的判断。

步骤5：

损失函数：预测3D人体姿态关键节点的损失函数：W(P_r,P_g)+λL_cam，M∈R^3×n表示3D人体姿态关键节点位置，坐标mi(x,y,z)表示人体的其中一个关键节点位置，并在最后一个输出层进行reshape操作，从而获取3D人体坐标。判别器部分采用Wassersteinloss[1]作为该部分的损失函数如下所示：

其中，W(P_r,P_g)表示WGAN的损失函数，输入包含两部分，P_g标是一批输入为生成的数据，P_r表示一批输入为真实数据，

表示判别为真实3D人体骨骼的损失值，

的上界；

摄像头估计网络的损失函数如下：

其中trace为计算对应矩阵的迹，|| ||_F为F范数，K∈R^2×3，I₂是2*2的单位矩阵。

步骤6：

渐进训练策略。将训练过程分为预设的多个子训练周期，采用步进增长策略依次进行子训练周期的训练；训练开始时将原始图像缩放成小图片并佐以大学习率开始训练，且每完成一个子训练周期后逐步增大彩色原始图像并逐步减小学习率。

当完成一个子训练周期后生成的3D人体骨骼坐标与其对应的标定数据存在较大出路时，则继续进行反向传播，利用梯度下降优化算法更新卷积权值参数和偏置参数再执行步骤2；当在完成一个子训练周期后生成的3D人体骨骼坐标达到预期或完成所有预设的子训练周期的次数后，则获得最终结果。其原因在于在原始图片缩放成小图片的基础上开始训练，并佐以大学习率。在训练周期结束后增大输入图片，再减小学习率再次进行训练。以此类推，这样可以让分辨率更高的图片在低分辨率图片的基础上增强精度，增加网络的鲁棒性。

参考文献：

[1].M.Arjovsky,S.Chintala,and L.Bottou.Wasserstein generativeadversarial networks.In D.Precup and Y.W.Teh,editors,Proceedings of the 34thInternational Conference on Machine Learning,volume 70of Proceedings ofMachine Learning Research,pages 214–223,International Convention Centre,Sydney,Australia,06–11Aug 2017.PMLR.3,4,5

[2]B.Wandt,H.Ackermann,and B.Rosenhahn.A kinematic chain space formonocular motion capture.In ECCV Workshops,Sept.2018.1,2,4,8。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于运动链接空间的对抗性网络估计3D人体姿态的方法，其特征在于，包括如下步骤：

F＝R(BN(W₁*I_g+B₁)) (1)

式中，R表示非线性激活函数LeakyRelu，W₁，B₁分别表示特征提取阶段中卷积层的权重和偏置，BN表示归一化函数，Ig表示输入图片，F表示特征提取阶段得到的输出结果；之后，再经过卷积块、重塑模块，以及再分别经过两个全连接层，即得到对应的3D人体骨骼坐标；

步骤S4、基于步骤S1标注获得的3D人体骨骼坐标以及步骤S2、3D人体骨骼坐标生成网络生成的3D人体骨骼坐标，采用运动链接空间的WassersteinGAN的判别器，计算人体骨骼的链接角度和长度，同时将输入图像与3D人体骨骼坐标融合输入到卷积神经网络中，以提升3D人体骨骼坐标生成的准确性；

P'＝KM (2)

式中，P'为预测的2D人体骨骼坐标；

2.根据权利要求1所述的一种基于运动链接空间的对抗性网络估计3D人体姿态的方法，其特征在于，所述3D人体姿态关键节点的损失函数等于：

W(P_r,P_g)+λL_cam

表示判别为真实3D人体骨骼的损失值，