CN112633220A

CN112633220A - 一种基于双向序列化建模的人体姿态估计方法

Info

Publication number: CN112633220A
Application number: CN202011610311.1A
Authority: CN
Inventors: 刘振广; 封润洋; 陈豪明; 王勋; 钱鹏
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09
Anticipated expiration: 2040-12-30
Also published as: CN112633220B

Abstract

本发明公开了一种基于双向序列化建模的人体姿态估计方法，以连续的3帧作为输入，充分利用视频的时序信息计算每个关节的大致空间范围，然后从更小的范围内回归关节的具***置，从而更好地解决人体姿态估计任务中固有的遮挡、运动模糊等问题，使得模型的泛化性更强，具有更高的准确率。本发明充分利用了视频的时序信息，增强了模型的推理能力，能够更好地对人体关键部位进行估计，在安防、短视频平台等需要实时抽取姿态进行分析的行业具有重要意义。

Description

一种基于双向序列化建模的人体姿态估计方法

技术领域

本发明属于人体姿态估计技术领域，具体涉及一种基于双向序列化建模的人体姿态估计方法。

背景技术

人体姿态估计是计算机视觉中的一项前沿研究领域，它的目标在于定位出图片或视频中的人体关键部位(如手腕、脚踝)，从而实现人体姿态估计。人体姿态估计是沟通机器与人之间的桥梁，具有重大的实际意义，已经广泛应用于很多领域，例如舞台动画领域，通过识别人的姿态动作可以产生实时可交互的动画效果；自动驾驶领域，通过预测行人的运动趋势可以提前避免车祸的发生；安防领域，通过识别特定的姿态序列可以检测异常行为。

目前，人体姿态估计方法主要分为两类：(1)自顶向下，首先检测出图片中所有的人***置，通常用矩形边界框标注人体；然后通过人体关节部位检测器识别每个人体的关节；接着利用仿射变换把裁剪后的人物姿态信息映射回原始图片，从而实现图片中所有人体姿态估计。自顶向下的方法将人物位置检测任务与人体关节检测任务分离，集中于姿态估计方法本身，因而具有较高的准确率，但是花费的检测时间与图片中人物数量呈正相关，并且该方法需要使用目标检测技术，位置坐标的检测质量将会直接影响姿态估计的最终结果。(2)自底向上，首先检测出图片中所有人体的关节位置信息，然后把属于同一个人的关节坐标进行聚类，从而对图片中所有人体进行姿态估计。自底向上的方法效率较高，检测时间受图片中人物数量影响较小，但准确率稍有落后。

上述主流的人体姿态估计方法包括自顶向下与自底向上都是针对于静态图片设计的网络架构，擅长于单帧图片中的人体姿态估计，用于视频时，通常是把视频分解为单帧，然后对每帧进行姿态估计，然而这些方法存在很大的局限性，即只能捕获单张图片的表观信息。一般情况下1帧即1/25秒，是非常短暂的，因此视频两帧之间图像不会发生非常大的变化，具有很高的相似性，由于视频相邻帧之间存在丰富的几何一致性，这种额外线索可以用于校正被遮挡或运动模糊等难以预测的关键点。

传统基于图片的姿态估计方法并无法有效利用对这些额外信息，导致其无法处理视频序列中经常发生的人物高度纠缠、互相遮挡、运动模糊等情况，因而在视频姿态估计中难以取得很好的结果。针对这一问题，文献[Flowing ConvNets for Human PoseEstimation in Videos-[CODE]–Pfister.T,Charles.J&Zisserman.A(ICCV 2015)]提出计算每两帧之间的稠密光流信息，然后使用基于流的时间信息来矫正初始的姿态估计；当光流能正确计算时，这种方法取得了很好的效果，然而光流的计算受图片质量、遮挡等影响很大，在视频中无法精确计算所有的光流信息，且光流信息的计算往往需要大量的算力支持。也有学者提出使用长短期记忆网络(Long Short-Term Memory，LSTM)直接对视频进行建模以捕获时序信息，然而由于LSTM网络本身架构限制，这种方法只有在视频帧中人物比较稀疏时才能取得比较好的效果，当用于复杂场景中时，依然无法处理遮挡、运动模糊等情况。

发明内容

鉴于上述，本发明提供了一种基于双向序列化建模的人体姿态估计方法，以连续的3帧作为输入，充分利用视频的时序信息计算每个关节的大致空间范围，然后从更小的范围内回归关节的具***置，从而更好地解决人体姿态估计任务中固有的遮挡、运动模糊等问题，使得模型的泛化性更强，具有更高的准确率。

一种基于双向序列化建模的人体姿态估计方法，包括如下步骤：

(1)收集用于人体姿态估计的视频数据集并对其进行预处理；

(2)对于视频数据集中一段完整的视频，以连续3帧视频图像作为一组样本，并对视频图像中人体各关键部位坐标进行人工标记；

(3)构建双向连续性卷积神经网络，利用大量样本对该卷积神经网络进行训练，得到人体姿态估计模型；

(4)将连续3帧待估计的视频图像输入至所述人体姿态估计模型中，输出得到其中第2帧视频图像中人物的姿态估计结果即人体各关键部位坐标。

进一步地，所述步骤(1)中对于视频数据集中的每一帧视频图像，通过YOLOv5算法检测图像中的人体ROI(感兴趣区域，即人物位置边界框)位置坐标，并将该ROI放大25％。

进一步地，所述双向连续性卷积神经网络由Backbone网络、姿态时间合并网络、姿态残差融合网络以及姿态矫正网络组成，其中Backbone网络用于初步计算输入样本的三帧视频图像中人体的姿态特征向量h_i-1、h_i、h_i+1，三个特征向量叠加后得到向量Ф(h)分别输入至姿态时间合并网络和姿态残差融合网络，姿态时间合并网络用于编码人体每个关节的大致空间范围得到特征向量ξ(h)，姿态残差融合网络用于计算人体的姿态残差向量ψ(h)，进而将ξ(h)及其叠加ψ(h)后的特征向量η输入到姿态矫正网络中计算得到人体姿态预测结果。

进一步地，所述姿态时间合并网络由三个残差块(Residual Block)堆叠组成，向量Ф(h)按关节顺序重组后作为该网络的输入，输出特征向量ξ(h)；所述姿态残差融合网络由五个残差块堆叠组成，其首先将样本中第二帧与第一帧的姿态特征向量以及第二帧与第三帧的姿态特征向量分别做差，同时通过带有权重的级联(concatenate)得到张量ζ作为该网络的输入，输出姿态残差向量ψ(h)，张量ζ的具体表达式如下：

进一步地，所述残差块由一个3×3大小的卷积层、批量归一化层以及Relu激活层依次连接组成，姿态时间合并网络中的残差块采用分组卷积，分组数groups＝17(按COCO数据集的关键点标准，一共有17个关键点)；姿态残差融合网络中的残差块未使用分组卷积，分组数groups＝1。

进一步地，所述姿态矫正网络由五个平行的可形变卷积组成，五个可形变卷积的扩张率分别为3、6、9、12、15，每个可形变卷积以特征向量ξ(h)与η堆叠后的结果作为输入，输出预测的高斯热图，对五个卷积分别输出的五张高斯热图取平均即得到人体姿态预测结果。

进一步地，所述步骤(3)中对双向连续性卷积神经网络进行训练的过程分为两步：首先训练Backbone网络，然后固定Backbone网络参数，训练姿态时间合并网络、姿态残差融合网络以及姿态矫正网络。

进一步地，训练Backbone网络的具体过程为：逐一将样本所有视频图像中的人体ROI输入Backbone网络，计算整个双向连续性卷积神经网络输出的人体姿态预测结果与样本对应的人工标记信息之间的损失函数L1，根据损失函数L1通过反向传播反复更新Backbone网络参数，直至损失函数L1收敛，所述损失函数L1的表达式如下：

其中：N为标注的人体关键部位数量，H_{gt_i}为一组样本中所有人体ROI第i个关键部位人工标记的坐标经转换生成高斯热图叠加后的结果，H_{pred_i}为一组样本中所有人体ROI第i个关键部位通过双向连续性卷积神经网络预测输出的坐标经转换生成高斯热图叠加后的结果，‖ ‖₂表示L2范数，v_i表示第i个关键部位在样本图像中是否有标签，若有则其取值为1，否则其取值为0。

进一步地，训练姿态时间合并网络、姿态残差融合网络以及姿态矫正网络的具体过程为：首先固定训练好的Backbone网络参数，然后逐一将样本所有视频图像中的人体ROI输入Backbone网络，计算整个双向连续性卷积神经网络输出的人体姿态预测结果与样本对应的人工标记信息之间的损失函数L2，根据损失函数L2通过反向传播反复更新姿态时间合并网络、姿态残差融合网络以及姿态矫正网络的参数，直至损失函数L2收敛，所述损失函数L2的表达式如下：

其中：N为标注的人体关键部位数量，G_{gt_i}为一组样本的第2帧视频图像中人体ROI第i个关键部位人工标记坐标经转换生成的高斯热图，G_{pred_i}为一组样本的第2帧视频图像中人体ROI第i个关键部位通过双向连续性卷积神经网络预测输出坐标经转换生成的高斯热图，‖ ‖₂表示L2范数，v_i表示第i个关键部位在样本图像中是否有标签，若有则其取值为1，否则其取值为0。

进一步地，所述步骤(4)的具体实现过程为：将连续3帧待估计的视频图像中同一人物的人体ROI输入人体姿态估计模型中输出得到一张高斯热图，通过对该高斯热图进行转换计算得到第2帧视频图像中同一人物的关键部位坐标信息，进而将坐标信息映射到第2帧视频图像中并按顺序将这些关键部位进行链接即可产生人体骨架的预测结果，从而实现人体姿态估计。

本发明基于双向连续性的人体姿态估计方法，主要使用具有不同空洞率的可形变卷积网络作为预测模型；可形变卷积网络是传统卷积神经网络的一种变体，传统卷积神经网络卷积核均为方形，而一般的物体例如人体等并非方形，用传统的卷积网络会有一定局限性，可形变卷积网络可以通过学习卷积核每个像素的偏移参数，得到任意形状的卷积核，更好地适应各种形状的物体；每个卷积层采用不同的空洞率对应着不同的感受野，空洞率越大，对应着更大的感受野，可以捕获偏向全局的信息，反之较小的空洞率可以捕获更加细腻的局部信息；因此，可形变卷积网络的设计对于视频中的人体姿态估计更加合理。

本发明充分利用了视频的时序信息，增强了模型的推理能力，能够更好地对人体关键部位进行估计，在安防、短视频平台等需要实时抽取姿态进行分析的行业具有重要意义，其有益技术效果主要体现在以下两个方面：

1.本发明通过准确的姿态估计算法，更好的推测出被遮挡和运动模糊的关键点，具有更准确、更快速的检测特点。

2.本发明针对视频设计，更加符合各种应用场景，同时采用了分组卷积、空洞卷积等，以更少的参数量取得更好的效果，使得姿态估计能够进行实时应用。

附图说明

图1为本发明人体姿态估计方法的流程示意图。

图2为Residual Block结构及其堆叠方式示意图。

图3为本发明双向连续性卷积神经网络的结构示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，本发明基于双向连续性的人体姿态估计方法，包括如下步骤：

(1)收集并选择人体姿态估计视频数据集，对数据集进行预处理。

本实施方式中训练数据采用PoseTrack数据集，该数据集用于人体姿态跟踪任务，其中很多视频都存在人物遮挡和运动模糊的情况，这极大的增加了对这类视频进行人体姿态估计的难度。本实施方式是一种自上而下方法，因此需要对数据集做预处理：首先通过YOLO V5检测算法检测待估计帧每个人的位置边界框，然后将每个边界框放大25％裁剪前后帧，得到同一个人的三帧图像。

(2)构建双向连续性卷积神经网络模型作为人体姿态估计模型。

如图3所示，双向连续性卷积神经网络(DCPose)主要由以下几部分组成：Backbone网络模块、姿态时间合并模块模块PTM、姿态残差融合模块模块PRF、姿态矫正网络模块PCN。本实施方式中Backbone网络模块采用高分辨率网络HRNet，初步计算输入的三张图片中人物姿态得到特征向量h_i-1、h_i、h_i+1，三个向量叠加得到向量Ф(h)，输入两个并行的分支；姿态时间合并模块编码每个关节的大致空间范围ξ(h)，姿态残差融合模块得到姿态残差向量ψ(h)，接着将特征向量ξ(h)、特征向量ξ(h)与ψ(h)叠加的特征向量η输入到姿态矫正网络中得到最终姿态预测结果。

姿态时间合并模块由三个堆叠的残差块(Residual Block)组成，一组样本经过Backbone网络得到特征向量Ф(h)，按关节顺序重组作为该模块输入，输出特征向量ξ(h)；其中每个残差块采用分组卷积，参数groups＝17(按COCO数据集的关键点标准，一共有17个关键点)。

姿态残差融合模块由五个堆叠的残差块组成，首先该组样本第一帧与第二帧、第三帧与第二帧的姿态特征向量分别作差，同时通过带有权重的级联得到张量ζ作为该模块输入，输出姿态残差向量ψ(h)，其中张量ξ可形式化为：

如图2所示，残差块由一个3*3卷积层、一个批量归一化层、一个Relu激活层组成；姿态时间合并模块和姿态残差融合模块直接由数个残差块级联而成，不同之处在于组成PTM模块的三个残差块卷积层中groups参数为17，相应的PRF模块未使用分组卷积，此时卷积层中groups参数为1。

姿态矫正网络由五个平行的可形变卷积组成，并且分别设置扩张率为：3、6、9、12、15，每个可形变卷积以特征向量ξ(h)和η堆叠作为输入，输出一个预测的高斯热图，最终五个热图作取平均值得到最终的预测结果。

(3)将步骤(1)中预处理后的数据输入模型，以L距离作为损失函数更新参数、训练模型。

DCPose采用单独训练的方法，首先训练Backbone网络，然后固定Backbone网络，训练其它部分网络。

DCPose把视频每帧作为当前待估计帧，向前后各取一帧以分割成数个子图片序列，每个子图片序列长度为3，并且每个子图片序列中有所有人体关键点位置标签信息，然后把每个分割后的子图片序列作为DCPose的输入。

Backbone网络首先加载官方预训练模型参数，然后输入一组子图片序列，输出姿态特征向量，与真实的姿态向量计算均方误差得到每帧的损失值，损失函数L表达式如下：

其中：H_{gt_i}为子序列中所有人第i个关键部位真实坐标经转换生成的高斯热图叠加后的结果，H_{pred_i}为子序列中所有人第i个关键部位预测的坐标转换生成的高斯热图叠加后的结果，‖ ‖₂表示L2范数，N为人体标注的关键部位数量，v_i表示该坐标是否有标注，如果有标注则取值为1，否则为0。

Backbone网络训练完成后，固定其参数，每个子图片序列输入DCPose网络，经过Backbone网络得到姿态特征向量Ф(h)，维度为[4,51,96,72]；然后输入PTM网络得到特征向量ξ(h)，维度为[4,17,96,72]，输入PRF网络得到特征向量ψ(h)，维度为[4,128,96,72]；接着将特征向量ξ(h)和特征向量ξ(h)、ψ(h)叠加的向量η，维度为[4,145,96,72]一起输入PCN网络，其中每个可形变卷积层输出姿态特征向量，维度为[4,17,96,72]；5个不同的姿态特征向量取均值得到最终的高斯热图。

DCPose训练时主要采用了L2 Loss，在每个输入双向连续性卷积神经网络的图片序列中，真正需要估计姿态的是第2帧，因此不能通过第1帧和第3计算损失值；第2帧损失函数计算与Backbone网络训练时损失函数基本相同，唯一不同之处在于H_{gt_i}为样本第2帧中的人物第i个关键部位真实坐标经转换生成的高斯热图的结果，H_{pred_i}为第2帧中人物i个关键部位预测的坐标转换生成的高斯热图的结果；通过充分利用前后帧双向信息，网络具备更精确的预测能力。

(4)模型训练完成后，输入测试集，输出人体姿态估计结果，具体实现过程如下：

4.1测试集输入训练好的模型，得到每帧的高斯热图。

4.2通过高斯热图坐标转换算法，我们从步骤4.1的最终高斯热图进行计算得到人体关键部位坐标信息，然后使这些坐标信息映射到原始图片中，从而得到这些关键部位的位置，最后按照顺序将这些关键部位进行链接既可以产生人体骨架的预测结果，从而达到人体姿态估计的目标。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于双向序列化建模的人体姿态估计方法，包括如下步骤：

(1)收集用于人体姿态估计的视频数据集并对其进行预处理；

2.根据权利要求1所述的人体姿态估计方法，其特征在于：所述步骤(1)中对于视频数据集中的每一帧视频图像，通过YOLOv5算法检测图像中的人体ROI位置坐标，并将该ROI放大25％。

3.根据权利要求1所述的人体姿态估计方法，其特征在于：所述双向连续性卷积神经网络由Backbone网络、姿态时间合并网络、姿态残差融合网络以及姿态矫正网络组成，其中Backbone网络用于初步计算输入样本的三帧视频图像中人体的姿态特征向量h_i-1、h_i、h_i+1，三个特征向量叠加后得到向量Φ(h)分别输入至姿态时间合并网络和姿态残差融合网络，姿态时间合并网络用于编码人体每个关节的大致空间范围得到特征向量ξ(h)，姿态残差融合网络用于计算人体的姿态残差向量ψ(h)，进而将ξ(h)及其叠加ψ(h)后的特征向量η输入到姿态矫正网络中计算得到人体姿态预测结果。

4.根据权利要求3所述的人体姿态估计方法，其特征在于：所述姿态时间合并网络由三个残差块堆叠组成，向量Φ(h)按关节顺序重组后作为该网络的输入，输出特征向量ξ(h)；所述姿态残差融合网络由五个残差块堆叠组成，其首先将样本中第二帧与第一帧的姿态特征向量以及第二帧与第三帧的姿态特征向量分别做差，同时通过带有权重的级联得到张量ζ作为该网络的输入，输出姿态残差向量ψ(h)，张量ζ的具体表达式如下：

5.根据权利要求4所述的人体姿态估计方法，其特征在于：所述残差块由一个3×3大小的卷积层、批量归一化层以及Relu激活层依次连接组成，姿态时间合并网络中的残差块采用分组卷积，分组数groups＝17；姿态残差融合网络中的残差块未使用分组卷积，分组数groups＝1。

6.根据权利要求3所述的人体姿态估计方法，其特征在于：所述姿态矫正网络由五个平行的可形变卷积组成，五个可形变卷积的扩张率分别为3、6、9、12、15，每个可形变卷积以特征向量ξ(h)与η堆叠后的结果作为输入，输出预测的高斯热图，对五个卷积分别输出的五张高斯热图取平均即得到人体姿态预测结果。

7.根据权利要求3所述的人体姿态估计方法，其特征在于：所述步骤(3)中对双向连续性卷积神经网络进行训练的过程分为两步：首先训练Backbone网络，然后固定Backbone网络参数，训练姿态时间合并网络、姿态残差融合网络以及姿态矫正网络。

8.根据权利要求7所述的人体姿态估计方法，其特征在于：训练Backbone网络的具体过程为：逐一将样本所有视频图像中的人体ROI输入Backbone网络，计算整个双向连续性卷积神经网络输出的人体姿态预测结果与样本对应的人工标记信息之间的损失函数L1，根据损失函数L1通过反向传播反复更新Backbone网络参数，直至损失函数L1收敛，所述损失函数L1的表达式如下：

其中：N为标注的人体关键部位数量，H_{gt_i}为一组样本中所有人体ROI第i个关键部位人工标记的坐标经转换生成高斯热图叠加后的结果，H_{pred_i}为一组样本中所有人体ROI第i个关键部位通过双向连续性卷积神经网络预测输出的坐标经转换生成高斯热图叠加后的结果，|| ||₂表示L2范数，v_i表示第i个关键部位在样本图像中是否有标签，若有则其取值为1，否则其取值为0。

9.根据权利要求7所述的人体姿态估计方法，其特征在于：训练姿态时间合并网络、姿态残差融合网络以及姿态矫正网络的具体过程为：首先固定训练好的Backbone网络参数，然后逐一将样本所有视频图像中的人体ROI输入Backbone网络，计算整个双向连续性卷积神经网络输出的人体姿态预测结果与样本对应的人工标记信息之间的损失函数L2，根据损失函数L2通过反向传播反复更新姿态时间合并网络、姿态残差融合网络以及姿态矫正网络的参数，直至损失函数L2收敛，所述损失函数L2的表达式如下：

其中：N为标注的人体关键部位数量，G_{gt_i}为一组样本的第2帧视频图像中人体ROI第i个关键部位人工标记坐标经转换生成的高斯热图，G_{pred_i}为一组样本的第2帧视频图像中人体ROI第i个关键部位通过双向连续性卷积神经网络预测输出坐标经转换生成的高斯热图，||||₂表示L2范数，v_i表示第i个关键部位在样本图像中是否有标签，若有则其取值为1，否则其取值为0。

10.根据权利要求1所述的人体姿态估计方法，其特征在于：所述步骤(4)的具体实现过程为：将连续3帧待估计的视频图像中同一人物的人体ROI输入人体姿态估计模型中输出得到一张高斯热图，通过对该高斯热图进行转换计算得到第2帧视频图像中同一人物的关键部位坐标信息，进而将坐标信息映射到第2帧视频图像中并按顺序将这些关键部位进行链接即可产生人体骨架的预测结果，从而实现人体姿态估计。