CN112131959B

CN112131959B - 一种基于多尺度特征强化的2d人体姿态估计方法

Info

Publication number: CN112131959B
Application number: CN202010883889.8A
Authority: CN
Inventors: 邵展鹏; 刘鹏; 胡超群; 周小龙
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2024-03-22
Anticipated expiration: 2040-08-28
Also published as: CN112131959A

Abstract

一种基于多尺度特征强化的2D人体姿态估计方法，包括以下步骤：1)首先对输入图片提取一个具有高表征能力的特征，通过分离注意力模块对不同尺度的特征进行跨通道的交互；2)对得到不同尺度的特征图构建多级预测网络，每一阶段的特征进行横向传播和向下传播融合，在保证语义信息的同时融合较多的空间分辨率信息；3)构建高分辨率调整网络对多级预测网络的定位结果进行微调，将多级特征通过转置卷积上采样到最大分辨率，然后进行级联操作，对损失较大的关键点进行定位；4)整个网络结构构建完成后，需要对其输入数据进行处理和设置参数。本发明提高了整个网络对不同尺度关键点的检测能力。

Description

一种基于多尺度特征强化的2D人体姿态估计方法

技术领域

本发明涉及到计算机视觉中人体姿态估计任务，具体地涉及一种基于多尺度特征强化的2D人体姿态估计方法。

背景技术

人体姿态估计作为动作识别、姿势跟踪、人机交互等诸多视觉任务的基础而成为了当前热门研究领域之一。它具有广泛的应用前景，包括虚拟现实，智能监控以及机器人等领域。随着深度卷积神经网络的发展，对于人体姿态估计任务也涌现出很多优秀的解决方案。但是由于人体可能出现的场景复杂多变，而且一张图片上的人物的个数不一，很容易发生互相遮挡和自遮挡。相机距离人体的距离和视角不同会导致图片中人物的大小不一，图片的质量也很容易受到光照等环境因素的影响。所以人体姿态估计仍是一个亟需解决的重大挑战。

在早期研究中，主要是通过人为的选择特征和适当模型对人体建模，应用最多的是树模型和随机森林模型，传统方法对图像的处理要求较高，在实际应用中有一定的局限性。随着深度结构应用于人体姿态估计，姿态估计的性能得到了大大的提高。目前的研究热点是多人姿态估计，多人姿态估计面临更多的挑战而且更接近于实际场景，主流的解决方案分为自顶向下的方法和自底向上的方法。

自底向上的方法首先检测出图像中所有的关键点，然后将得到的关键点以聚类的方式分配给图片中不同的个体。该方法优势在于不会随着图片的人数的增加而线性的增加处理时间，代价是精度低于自顶向下方法。一些研究人员提出部分关联场，将两个关键点之间的关系构建为一个二维向量，很好地避免了不同人体之间的关键点连接错误的问题，但该方法由于关键点定位的局限性无法在低分辨率和拥挤场景中取的较好的结果。自顶向下的方法首先检测出图片中的人体，然后对检测到的人体进行关键点预测，不仅需要解决单人姿态估计中的挑战，还面临着人体提议的不精确和重复检测。一些方法针对不同的人体关键点，将其分为两类单独处理，先通过全局定位网络对易检测的关键点进行定位，然后对难以检测的关键点通过级联网络进行定位。但现在由于网络在传播过程中会损失较多的语义信息和分辨率信息，使得网络不能很好地对不同尺寸的人体进行定位。

发明内容

为了解决上述现有人体姿态估计方法中存在的问题，本发明提出一种基于多尺度特征强化的2D人体姿态估计方法，该方法首先通过ResNeSt骨干网络进行特征提取，在该阶段引入分离注意力模块，对不同尺度的特征进行跨通道交互，然后对得到的特征构建一个多级预测网络，对所有关键点进行检测。该网络损失了较多的空间信息，所以本发明对不同尺度的特征通过转置卷积进行上采样，将四个阶段的特征级联在一起，对多级预测网络的定位结果进行微调，融合两阶段的结果，输出最终的定位结果。

本发明解决其技术问题所采用的技术方案是：

一种基于多尺度特征强化的2D人体姿态估计方法，所述方法包括以下步骤：

1)获取高表征能力的抽象特征：

将预处理后的图片输入ResNeSt骨干网络，通过分离注意力模块对不同维度的特征进行跨通道交互，去掉最后的分类层并输出四个阶段的特征；

2)构建多级预测网络：

通过步骤1)获取四个分辨率不同的特征，对于这四个阶段的特征构建一个强化特征的功能金字塔，由于顶层特征点在传播过程中损失了较多的语义信息，所以使用特征强化策略对高层特征进行融合强化；

3)构建高分辨率调整网络：

构建一个高分辨率调整网络对前一个阶段预测损失较大的关键点进行位置调整，通过转置卷积对多级预测网络的中的特征进行上采样，很好地结合上采样和卷积操作，对扩张后的特征进行级联操作，为较小尺度的关键点引入了较为丰富的空间细节；

4)整体网络的训练设置：

将所有输入图片设置为4:3的高宽比，然后使用人体检测器获取每张图片中的人体实例，输入的实例尺寸设置为384×288，使用MSE损失函数对训练过程中误差进行梯度回传；网络的初始学习率设置为5e-4，权重衰减为1e-5，使用Adam 优化器，每训练6个批次后学习率减少为原来的一半，一个训练20个批次。

进一步，所述步骤1)中，考虑到表征能力更强的特征最后的定位结果至关重要，所以使用针对像素级的视觉任务的特征提取网络ResNeSt,通过分离注意力模块对不同尺度的特征进行跨通道交互；

首先将特征图分为K个基数组，每组内再次拆分为R组，即特征组的总数为 G＝KR，对每个组的特征单独应用一些变换特征组的中间表示为：

其中表示不同的变换函数，G表示总的特征组数，第k个基数组的输入为：

其中对于k∈1,2,...,K，有H,W和C分别表示特征图的高，宽和通道数。

再进一步，所述步骤2)中，通过骨干网络获取到四个不同分辨率的特征后，构建了一个金字塔结构的多级预测网络来保持不同尺度的语义信息和空间分辨率信息，由于顶层特征通过大小为1×1卷积核进行降维，损失了较多的语义信息，直接导致各层语义信息的缺失；使用一个特征增强模块，有效的对顶层特征进行强化，有效的改善了整个多级预测网络的表征能力；

然后对多级特征网络的进行分别预测，首先使用1×1卷积消除由于特征叠加产生的混叠效应，然后对其应用一个BN(Batch Normalization)层进行归一化处理，接着使用ReLU激活函数处理，再通过3×3卷积将256维的特征降到最终所需的维度17维，最后将得到的热图上采样到输出大小，再次进行归一化处理，有效的提升了模型的泛化能力。

更进一步，所述步骤3)中，按步骤2)中的方法进行全局定位后，仍有一些较小的，被遮挡的关键点检测误差较大，构建一个高分辨率微调网络，将不同尺度的特征集成到一起，将多级预测网络中的特征图通过若干瓶颈模块进行特征细化，然后通过不同次数的转置卷积层将其上采样到输出大小；

经过转置卷积获取到四个相同大小的高分辨率特征，对每个特征分别进行尺度归一化和ReLU函数处理，将其按照第一个维度级联在一起,然后使用大小为3 ×3的卷积核对其进行最后的预测，对输出结果进行尺度归一化后输出，为了防止在对较小目标进行修改的同时对较大人体关键点的位置造成干扰，在网络训练的梯度回传过程中，只对损失值较大的关键点位置进行修改。

本发明的技术构思为：使用骨干网络得到高表达能力的的特征，并基于这些特征构建了一个特征增强的多级预测网络，对所有的关键点进行初步定位，然后构建高分辨率调整网络，在特征图中通过转置卷积和级联操作引入较多的空间上下文信息，对误差较大的关键点进行位置调整。最后将两个阶段的输出融合得到最终的定位结果。

本发明的有益效果主要表现在：本发明通过将ResNeSt骨干网络应用于人体姿态估计任务，并且对得到的特征构造多级预测网络，针对特征传播中的损失使用特征强化策略，有效的保证了多级预测网络卓越的性能，并针对误差较大的关键点构建高分辨率微调网络，通过转置卷积有效的将上采样和卷积操作结合在一起，提高了整个网络对不同尺度关键点的检测能力。综合两个阶段的预测结果，对不同场景下的关键点预测均有较好的性能和一定的鲁棒性。

附图说明

图1是本发明技术方案的总体流程示意图；

图2是本发明技术方案的网络结构图；

图3是特征提取网络的模块示意图；

图4是特征增强策略流程示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于多尺度特征强化的2D人体姿态估计方法，包括以下步骤：

1)对输入图片提取高表征能力的特征：

本发明考虑到表征能力更强的特征最后的定位结果至关重要，所以我们使用针对像素级视觉任务的特征提取网络ResNeSt，如图3所示，通过分离注意力模块对不同尺度的特征进行跨通道交互；

其中表示不同的变换函数，G表示总的特征组数。第k个基数组的输入为：

其中对于k∈1,2,...,K，有H,W和C分别表示特征图的高，宽和通道数。带有通道的权重统计量的全局上下文信息/>可以通过跨维度的全局平均池化得出：

每个特征图通道都是使用注意力分离模块后加权组合生成的，第c个通道的计算公式为：

其中是经softmax层计算之后得到的权重：

s^k表示全局空间信息，映射关系通该值来确定每个通道的权重，接着将每个基数组的输出按通道维度连接起来，即V＝Concat{V¹,V²,...V^K},每个模块的输出为Y，可以表示为：

其中V表示基数组的输出，表示跳跃连接的输出；

2)构建多级预测网络，对所有关键点进行预定位，具体如下：

通过骨干网络获取到4个不同分辨率的特征后，我们构建了一个金字塔结构的多级预测网络来保持不同尺度的语义信息和空间分辨率信息。由于顶层特征通过大小为1×1卷积核进行降维，损失了较多的语义信息，直接导致各层语义信息的缺失。本发明使用一个特征增强模块，如图4所示，有效的对顶层特征进行强化，有效的改善了整个多级预测网络的表征能力。将顶层特征首先通过空间自适应池化，为三个分辨率的特征，并且维度为256维，然后再使用加权融合的方式将三个特征图上采样到原来大小进行融合，得到了一个维度降低分辨率不变的特征，最后将该特征与原来的特征进行融合，如图2中网络结构所示；

然后对多级特征网络的进行分别预测，首先使用1×1卷积消除由于特征叠加产生的混叠效应，然后对其应用一个BN(Batch Normalization)层进行归一化处理，接着使用ReLU激活函数处理，再通过3×3卷积将256维的特征降到最终所需的维度17维(人体关键点的个数)最后将得到的热图上采样到输出大小，再次进行归一化处理，有效的提升了模型的泛化能力；

3)构建高分辨率微调网络，对较小尺度的关键点位置进一步调整，具体步骤如下：

按步骤2中的方法进行全局定位后，仍有一些较小的，被遮挡的关键点检测误差较大。如图2所示，本发明构建一个高分辨率微调网络，将不同尺度的特征集成到一起。将多级预测网络中的特征图通过若干瓶颈模块进行特征细化，然后通过不同次数的转置卷积层将其上采样到输出大小。转置卷积的输入通道和输出通道都是256维，卷积核的大小设置为4×4，步长为2，填充为1；

经过转置卷积获取到四个相同大小的高分辨率特征，对每个特征分别进行尺度归一化和ReLU函数处理，将其按照第一个维度级联在一起,然后使用大小为3 ×3的卷积核对其进行最后的预测，对输出结果进行尺度归一化后输出。为了防止在对较小目标进行修改的同时对较大人体关键点的位置造成干扰，在网络训练的梯度回传过程中，只对损失值较大的关键点位置进行修改；

4)整个网络结构构建完成后，需要对其输入数据进行处理和设置参数，步骤如下：

将所有输入图片设置为4:3的高宽比，然后使用人体检测器获取每张图片中的人体实例，输入的实例尺寸设置为384×288，使用MSE损失函数对训练过程中误差进行梯度回传。网络的初始学习率设置为5e-4,权重衰减为1e-5,使用Adam优化器，每训练6个批次后学习率减少为原来的一半，一个训练20个批次；

经过上述步骤的操作，即可实现特征强化的2D人体姿态估计。

以上结合插图所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度特征强化的2D人体姿态估计方法，其特征在于，所述方法包括以下步骤：

1)获取高表征能力的抽象特征：

2)构建多级预测网络：

3)构建高分辨率调整网络：

4)整体网络的训练设置：

将所有输入图片设置为4:3的高宽比，然后使用人体检测器获取每张图片中的人体实例，输入的实例尺寸设置为384×288，使用MSE损失函数对训练过程中误差进行梯度回传；网络的初始学习率设置为5e-4，权重衰减为1e-5，使用Adam优化器，每训练6个批次后学习率减少为原来的一半，一个训练20个批次。

2.如权利要求1所述的一种基于多尺度特征强化的2D人体姿态估计方法，其特征在于，所述步骤1)中，考虑到表征能力更强的特征最后的定位结果至关重要，所以使用针对像素级的视觉任务的特征提取网络ResNeSt,通过分离注意力模块对不同尺度的特征进行跨通道交互；

首先将特征图分为K个基数组，每组内再次拆分为R组，即特征组的总数为G＝KR，对每个组的特征单独应用一些变换特征组的中间表示为：

3.如权利要求1或2所述的一种基于多尺度特征强化的2D人体姿态估计方法，其特征在于，所述步骤2)中，通过骨干网络获取到四个不同分辨率的特征后，构建了一个金字塔结构的多级预测网络来保持不同尺度的语义信息和空间分辨率信息，由于顶层特征通过大小为1×1卷积核进行降维，损失了较多的语义信息，直接导致各层语义信息的缺失；使用一个特征增强模块，有效的对顶层特征进行强化，有效的改善了整个多级预测网络的表征能力；

然后对多级特征网络进行分别预测，首先使用1×1卷积消除由于特征叠加产生的混叠效应，然后对其应用一个BN层进行归一化处理，接着使用ReLU激活函数处理，再通过3×3卷积将256维的特征降到最终所需的维度17维，最后将得到的热图上采样到输出大小，再次进行归一化处理，有效的提升了模型的泛化能力。

4.如权利要求1或2所述的一种基于多尺度特征强化的2D人体姿态估计方法，其特征在于，所述步骤3)中，按步骤2)中的方法进行全局定位后，仍有一些较小的，被遮挡的关键点检测误差较大，构建一个高分辨率微调网络，将不同尺度的特征集成到一起，将多级预测网络中的特征图通过若干瓶颈模块进行特征细化，然后通过不同次数的转置卷积层将其上采样到输出大小；

经过转置卷积获取到四个相同大小的高分辨率特征，对每个特征分别进行尺度归一化和ReLU函数处理，将其按照第一个维度级联在一起,然后使用大小为3×3的卷积核对其进行最后的预测，对输出结果进行尺度归一化后输出，为了防止在对较小目标进行修改的同时对较大人体关键点的位置造成干扰，在网络训练的梯度回传过程中，只对损失值较大的关键点位置进行修改。