CN109271933B

CN109271933B - 基于视频流进行三维人体姿态估计的方法

Info

Publication number: CN109271933B
Application number: CN201811080931.1A
Authority: CN
Inventors: 李帅; 胡韬; 于洋; 付延生
Original assignee: Qingdao Research Institute Of Beihang University
Current assignee: Qingdao Research Institute Of Beihang University
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2021-11-16
Anticipated expiration: 2038-09-17
Also published as: CN109271933A

Abstract

本发明所述基于视频流进行三维人体姿态估计的方法，基于深度学习的方法对视频流进行三维人体3D姿态估计，避免因二维视觉分析错误所导致的诸多缺陷，充分地利用视频帧间的时间关系，提高视频流3D姿态推断结果的准确性与实时性。包括有，视频第n(n≥2)帧，1)输入当前帧二维图像，采用浅层神经网络模块生成图像浅层图；2)第(n‑1)帧生成的人体二维关节点热力图、当前帧生成的图像浅层图，一并输入至LSTM模块以生成深层次特征图；3)当前帧生成的深层图像特征图输出至残差模块，生成当前帧的人体二维关节点热力图；4)当前帧的人体二维关节点热力图输出至三维关节点推断模块，进行二维至三维的空间映射；以上每帧生成的人体三维关节点热力图叠加，生成三维人体姿态估计的视频流。

Description

基于视频流进行三维人体姿态估计的方法

技术领域

本发明涉及针对二维图像视频流进行三维人体姿态估计的方法，属于虚拟现实技术领域。

背景技术

人体的3D姿态估计，是将人体的若干个关节(例如头部，肩部，肘部等)的3D位置精确地估算出来。由于失去了深度信息，从二维RGB视频流中估计人体的3D关节点的位置是计算机视觉领域的一个很大挑战。

随着深度神经网络(Deep Convolutional Networks)的发展，越来越多的技术创新聚焦于基于端到端的深度神经网络进行三维人体骨架检测。现有较为常见的三维人体姿态估计方法，主要有以下两种技术路线：

两段式3D关节点推断，如后附图1所示，该方法分成两个阶段，第一阶段，利用现有的二维关节点推断模型，精准地估计人体2D关节点的位置，一般用二维关节点热力图表示；第二阶段，利用上一阶段产生的2D关节点热力图和中间层特征图产生人体三维关节点的数学表达式。

端对端的3D关节点推断，如后附图2所示，该推断模型的输入为RGB图像，输出为人体3D数学表达式。

如上所述，现有三维人体姿态估计具有以下技术缺陷：A、一般直接输出人体关节点3D坐标，这对于网络来说是非常难学习的，因为特征空间到3D姿态空间的学习任务是一个高度非线性的学习任务，具有较高的非线性缺点；B、进行关节点3D推断时，神经网络的中间特征并未得到充分利用，难以将不同尺度、维度的特征信息结合起来，生成推断效果较差；C、基于视频流的3D姿态推断过程中，计算量增幅较大，从而使得最终的推断效果达不到实时性要求，实际应用效果较差；D、基于视频流的3D姿态推断过程中，并未利用每帧间的时空关系，从而无法解决关节点被遮挡及消失的问题。

有鉴于此，特提出本专利申请。

发明内容

本发明所述基于视频流进行三维人体姿态估计的方法，其目的在于解决上述现有技术存在的问题而基于深度学习的方法对视频流进行三维人体3D姿态估计，主要包括三维人体姿态模型生成、关节点的空间关系建立和视频帧间时间相关性捕捉，从而避免因二维视觉分析错误所导致的诸多缺陷，充分地利用视频帧间的时间关系，提高视频流3D姿态推断结果的准确性与实时性。

为实现上述发明目的，所述基于视频流进行三维人体姿态估计的方法，包括有以下实施步骤：

视频第一帧，1)输入当前帧二维图像，采用沙漏网络模块进行人体二维姿态的提取，生成第一帧的人体二维关节点热力图；2)将当前帧的人体二维关节点热力图输出至三维关节点推断模块，进行二维至三维的空间映射以生成人体三维关节点热力图；

视频第二帧，1)输入当前帧二维图像，采用浅层神经网络模块生成图像浅层图；2)第一帧生成的人体二维关节点热力图、当前帧生成的图像浅层图，一并输入至LSTM模块以生成深层次特征图；3)当前帧生成的深层图像特征图输出至残差模块，生成当前帧的人体二维关节点热力图；4)当前帧的人体二维关节点热力图输出至三维关节点推断模块，进行二维至三维的空间映射以生成人体三维关节点热力图；

视频第n(n≥2)帧，1)输入当前帧二维图像，采用浅层神经网络模块生成图像浅层图；2)第(n-1)帧生成的人体二维关节点热力图、当前帧生成的图像浅层图，一并输入至LSTM模块以生成深层次特征图；3)当前帧生成的深层图像特征图输出至残差模块，生成当前帧的人体二维关节点热力图；4)当前帧的人体二维关节点热力图输出至三维关节点推断模块，进行二维至三维的空间映射以生成人体三维关节点热力图；

以上每帧生成的人体三维关节点热力图叠加，生成三维人体姿态估计的视频流。如上所述，为充分地利用每帧间的时空关系，主要综合运用沙漏网络(HourglassNetwork)、浅层神经网络、LSTM(Long Short-Term Memory，长短期记忆)模块、残差模块和三维关节点推断模块进行三维人体姿态估计。其中，

沙漏模块，用以进行人体2D姿态提取以精确地预测、生成人体二维关节点的热力图；

浅层神经网络，用以输出单帧图像的特征图；

LSTM模块，以沙漏模块产生的人体2D关节点热力图和浅层神经网络产生的图像特征图为输入，生成当前帧的深层次特征图；

残差模块，以LSTM模块生成的当前帧深层图像特征图为输入，生成人体二维关节点；

三维关节点推断模块，利用沙漏模块提取的2D关节点和估计的深度进行2D到3D空间的映射，最终生成人体三维关节点坐标。

针对沙漏网络的进一步优化与补充方案是，一阶沙漏网络(Hourglass)包括以下并联的结构：

上半路具有M输入通道和N输出通道的若干个初级模块；

下半路具有串联的降采样1/2池化层、若干个初级模块、升采样最近邻插值模块；

n(n≥2)阶沙漏网络具有以下结构：

将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络，其他的上、下半路结构与(n-1)阶沙漏网络相同。

具体地，上半路将M个通道的数据提取得到N通道的数据。在串联的若干个初级模块中，两个相邻的初级模块，后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数。

下半路同样将M个通道的数据提取得到N通道的数据，不同的是在原本输入一半的尺寸上进行的，即串联有降采样1/2池化层、初级模块和升采样最近邻插值模块。

在n阶沙漏网络中，是将(n-1)阶沙漏网络(Hourglass)下半路中的初级模块替换为(n-1)阶沙漏网络，通过将该初级模块替换为一个新的沙漏网络，将n-1阶沙漏网络扩增为n阶沙漏网络。

综上内容，基于视频流进行三维人体姿态估计的方法具有以下优点：

1、充分利用视频帧间时间关系，提高了视频流3D姿态推断结果的准确性与实时性。

2、有效地降低了从“特征空间”到“3D姿态空间”学习任务的非线性程度，实现了一种科学的表示方法与学习方法。

3、实现了一种进行人体3D姿态估计的“端到端”的深度学习网络，进行人体关节点3D推断过程中避免了累积误差的产生。

4、实现最大化地利用神经网络的中间特征，将不同尺度、维度的特征结合起来，产生出最佳的推断效果。

5、直接减小了计算量，使得最终的推断效果达到实时性的要求，实用性较强。

附图说明

图1是现有技术中两段式估计方法示意图；

图2是现有技术中端对端估计方法示意图；

图3是本申请所述基于视频流进行三维人体姿态估计方法流程图；

图4是所述初级模块(Residual)的结构示意图；

图5是一阶沙漏模块的结构示意图；

图6是二阶沙漏模块的结构示意图；

图7是所述浅层神经网络的结构示意图；

图8是三维关节点推断模块流程图。

具体实施方式

下面结合附图和实施示例对本发明作进一步详细地描述。

实施例1，如图3所示，基于视频流进行三维人体姿态估计的方法如下：

视频第三帧，1)输入当前帧二维图像，采用浅层神经网络模块生成图像浅层图；2)第2帧生成的人体二维关节点热力图、当前帧生成的图像浅层图，一并输入至残差模块以生成深层次特征图；3)当前帧生成的深层图像特征图输出至残差模块，生成当前帧的人体二维关节点热力图；4)当前帧的人体二维关节点热力图输出至三维关节点推断模块，进行二维至三维的空间映射以生成人体三维关节点热力图；

以上每帧生成的人体三维关节点热力图叠加，生成三维人体姿态估计的视频流。

在视频第一帧中，沙漏模块进行人体2D姿态提取，生成精确预测人体二维关节点的热力图耗时100ms；

在视频第二帧、第三帧中，浅层神经网络输出单帧图像的特征图，耗时为20ms/帧；LSTM模块，根据沙漏网络产生的人体2D关节点热力图和浅层神经网络产生的图像特征图，生成当前帧的深层次特征图，耗时10ms/帧；残差模块，其输入为LSTM模块产生的当前帧深层图像特征图，生成人体二维关节点，耗时10ms/帧；三维关节点推断模块，利用沙漏模块提取的2D关节点和估计的深度，进行2D至3D空间的映射，耗时10ms/帧；

即，视频第一帧的三维关节点推断需要120ms，对于其后每帧仅需要60ms，从而使得在保证三维人体姿态估计精度的同时，又可保证估计方法的实时效率。

在人体2D姿态估计当中，对于神经网络的输出结构进行迭代处理，在多个处理阶段产生预测。这些中间的预测结果，会逐渐完善以产生更加准确的估计结果。“沙漏模块”就是这种设计结构，其采用级联的方案多次预测结果，逐步修正结果。

本申请所述的“沙漏模块”，是由初级模块(Residual Module)组成。

如图4所示，所述的初级模块(Residual Module)，是一个具有M通道的特征图，输出的是一个具有N通道的特征图。

第一行为卷积路，由三个核尺度不同的卷积层，圆角矩形表示为一个卷积操作，其中的文字写明了该卷积操作的参数，共分为3行，分别是输入特征的通道数，卷积核的尺寸以及输出特征的通道数；

第二行为跳级路，只包含一个核尺度为1的卷积层；跳级路的输入输出通道数相同，这一路为单位映射。

所有卷积层的步长为1，pading为0，不改变数据长和宽尺寸，只对数据深度(channel)进行变更。

上述初级模块(Residual Module)，可由两个参数控制：输入深度M和输出深度N，实现对任意尺寸图像的操作。

初级模块(Residual Module)，提取了较高层次的特征(卷积路)，同时保留了原有层次的信息(跳级路)，其可以看做是一个保尺寸的高级“卷积”层。

如图5所示，一阶沙漏模块的输入是M通道的特征图，输出是N通道的特征图。其上半路包含3个串联的初级模块(Residual)，两个相邻的初级模块中，后一个初级模块的输入通道数总是等于前一个初级模块的输出通道数，以逐步提取更深层次特征。

下半路同样将M个通道的数据提取得到N通道的数据，不同的是在原本输入一半的尺寸上进行的。具有串联的降采样1/2池化层、5个初级模块、升采样最近邻插值模块。

具体地，上半路在原尺度进行，下半路经历了先降采样(带有/2字样的矩形)再升采样(带有*2的矩形)的过程。

其中，降采样模块使用最大池化，升采样模块使用最近邻插值。

一阶沙漏网络(Hourglass)，通过将输入的M通道的特征图分成两路处理。其中一个支路，是在原始的尺度上进行；另外一路，是在一个较低尺度上进行，最后在各自的支路上处理完毕之后进行融合。使得神经网络具有较高的识别和表达能力，能够对不同尺度的特征信息进行较好的甄选，以便提取到影响最终结果的本质特征。

如图6所示，二阶沙漏网络(Hourglass)，是一阶沙漏网络(Hourglass)的虚线框部分替换成一个一阶沙漏网络(输入通道256，输出通道N)。

即二阶沙漏网络(Hourglass)，是将一阶沙漏网络(Hourglass)的下半路中的第4个初级模块替换为一阶沙漏网络(Hourglass)。

在二阶沙漏网络(Hourglass)中，下半路组成了两次降采样，再两次升采样的过程。

二阶沙漏网络(Hourglass)，在降采样的支路上进行了最大相对于原始数据尺寸为1/4的降采样，相对于一阶沙漏网络(Hourglass)更加凸显了尺度信息的差异性。

为了进一步增加综合不同尺度的信息，本申请可采取n阶沙漏网络(Hourglass)，即经历最多n次的降采样，而每次降采样之前，分出上半路保留原尺度信息；每次升采样之后，和上一个尺度的数据相加；两次降采样之间，使用三个初级模块提取特征；在两次相加之间，使用一个初级模块(Residual)提取特征。即n阶沙漏网络(Hourglass)，可提取从原始尺度到1/2ⁿ尺度的中间特征。

n(n≥2)阶沙漏网络，是将(n-1)阶沙漏网络下半路的一个初级模块替换为(n-1)阶沙漏网络，其他的上、下半路结构与(n-1)阶沙漏网络相同。

对于n阶与(n-1)阶沙漏网络来说，下半路被替换的初级模块位置可以相同，也可以不相同。在本实施例中，n阶与(n-1)阶沙漏网络的下半路被替换的初级模块均是第4个。

如图7所示，所述浅层神经网络，是对单帧图像进行处理以提取图像特征。在本申请中，浅层神经网络采用VGG16去除最后的全连接层和Soft-max层。

所述的LSTM模块，是一种特定形式的RNN(Recurrent neural network，循环神经网络)，而RNN是一系列能够处理序列数据的神经网络的总称。

在本申请中，利用LSMT模块来做帧与帧之间的衔接，输入为上一帧的热力图和当前帧的浅层神经网络输出特征，输出的是当前帧深层次特征。

如下述公式所示，

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

f_t表示遗忘门，在LSTM模块中先决定会从细胞状态中丢弃什么信息，这个决定通过此遗忘门来完成。即该遗忘门会读取h_{t-1}和x_t，输出一个在0到1之间的数值给每个在细胞状态C_{t-1}中的数字；1表示“完全保留”，0表示“完全舍弃”。

i_t表示输入门，其确定什么样的新信息被存放在细胞状态中。包含有以下两部分，第一部分，sigmoid层称“输入门层”决定什么值将要被更新；第二部分，一个tanh层创建一个新的候选值向量，C_t，会被加入到状态中。

O_t表示输出门，C_t-1更新为C_t。将旧状态与f_t相乘，丢弃掉确定需要丢弃的信息。接着加上i_t*C_t。即生成新的候选值，根据决定更新每个状态的程度进行变化。

所述的残差模块，是一种深度卷积网络，具有更易优化、能够通过增加相当的深度来提高准确率的特点。

本申请所述的残差模块，即对现有技术中通常使用的残差模块，去除其中的全连接层和Soft-max层，用其剩余模块来做特征组合的学习。

本申请所述的残差模块，其输入为LSTM模块根据前几帧补充的当前帧深层特征图，输出为人体二维关节点数学表达式，因此能够在保持沙漏模块精度的基础上提升整体估计方法的运行效率。

如图8所示，本申请所述的人体三维关节点推断模块，利用将沙漏模块产生的2D热力图以及浅层神经网络提取中间层图像特征作为输入，对关节点深度进行预测，其输出是一个P*1的向量，用来表示预测到的每个关节点深度信息，然后再将P*P的关节点热力图和P*1的关节点深度图组合形成三维人体姿态的数学表达式。

三维关节点推断，能够通过深度学习的方法而基于单张RGB图片获取深度信息。这种方法建立在大型的目标数据库基础上，如人脸数据库、场景数据库。首先，通过学习的方法，对数据库中的每个目标进行特征提取(包括亮度、深度、纹理、几何形状、相互位置)；然后，对特征建立概率函数；最后，将重建目标与数据库中相似目标的相似程度表示为概率的大小，取概率最大的目标深度为重建目标深度，再结合纹理映射或插值方法进行三维重建。

本申请采用的三维关节点推断，即通过前几个模块提取的特征，经过深度学习模型预测出二维图片的人体关节点深度信息，结合前一阶段产生的人体二维关节点，产生人体三维关节点。

与现有技术不同的是，本申请所述基于视频流进行三维人体姿态估计的方法，使用深度学习方法对视频流进行人体3D姿态估计，该方法主要包括以下几部分：

1、三维人体姿态模型生成

采用沙漏模块、人体三维关节点推断模块，建立三维人体姿态估计模型。该模型分成两部分，第一部分为一个Generator网络，生成人体的三维姿态，第二部分是一个Discriminator网络，用来判断Generator生成的姿态优劣，通过两个网络相互作用，可以使得两个网络的性能相互提升，最终得到一个高精度的三维人体姿态。

2、关节点的空间关系建立

采用浅层神经网络、残差模块，通过空间关系的建立并优化上述三维人体姿态模型，用以学习关节点的空间配置信息。

可通过采用DropoutAutoencoder(DAE)组件基于去噪自动编码器，用于学习对噪声数据具有鲁棒性的表示，扩展架构以更明确地推断人类骨骼的空间配置。在输入层之后直接引入脱落层，其效果是从骨架中完全随机地移除关节，而不是简单地干扰它们的位置和角度。然后，恢复完整姿势的唯一方法是通过来自相邻关节的推断来重建缺失的关节角度信息。

3、视频帧间时间相关性捕捉

采用LSTM模块，用以学习视频每帧间的连续性，以此达到学习时间维度信息的目的。

通过多级卷积神经网络(CNN)能够实现关于单幅图像人体姿态估计。尽管在静态图像上具有优越的性能，但是这些模型在视频上的应用不仅是计算密集型的，而且还受到性能退化和轻弹的影响。

在本申请中，提出了一种新的循环网络来解决上述问题。将权重共享方案强加给多级CNN，其可以重写为递归神经网络(RNN)，从而显著加快调用视频网络的速度。在视频每帧间采用长短期记忆(LSTM)单元，在每帧间强加几何一致性方面非常有效，可很好地处理视频中的输入质量下降，同时成功稳定顺序输出。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于视频流进行三维人体姿态估计的方法，其特征在于：包括有以下实施步骤，

视频第n帧，1)输入当前帧二维图像，采用浅层神经网络模块生成图像浅层图；2)第(n-1)帧生成的人体二维关节点热力图、当前帧生成的图像浅层图，一并输入至LSTM模块以生成深层次特征图；3)当前帧生成的深层图像特征图输出至残差模块，生成当前帧的人体二维关节点热力图；4)当前帧的人体二维关节点热力图输出至三维关节点推断模块，进行二维至三维的空间映射以生成人体三维关节点热力图；其中，n为3,4,5...的整数；

2.根据权利要求1所述的基于视频流进行三维人体姿态估计的方法，其特征在于：

一阶沙漏网络包括以下并联的结构，

上半路具有M输入通道和N输出通道的若干个初级模块；

n阶所述的沙漏网络，是将(n-1)阶沙漏网络下半路的任一初级模块替换为(n-1)阶沙漏网络。

3.根据权利要求2所述的基于视频流进行三维人体姿态估计的方法，其特征在于：所述的初级模块，具有M通道输入和N通道输出；

初级模块包括以下并联的结构，

第一行为卷积路，由三个核尺度不同的卷积层串联构成；

第二行为跳级路，包含一个核尺度为1、输入与输出通道数相同的卷积层。