CN116129051A

CN116129051A - 一种基于图和注意力交织的三维人体姿态估计方法及***

Info

Publication number: CN116129051A
Application number: CN202310074209.1A
Authority: CN
Inventors: 刘宏; 王体; 李文豪; 游盈萱; 丁润伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-05-16

Abstract

本发明涉及一种基于图和注意力交织的三维人体姿态估计方法及***。该***通过预训练的二维姿态检测器从图像特征中提取人体的二维骨架信息；将二维骨架嵌入到高维空间；利用图和注意力交织的网络模块挖掘骨架的局部和全局信息；利用U型结构的多层感知机模块捕获骨架的多层次信息；利用回归头模块将高维数据回归到三维骨架；利用关节点的平均误差作为模型训练的损失函数。本发明结合了图卷积和注意力机制在捕获骨架的局部和全局信息上的优势，允许图卷积模块和注意力模块之间双向通信以优势互补，可有效加强模型对人体骨架的建模能力，能够估计得到更接近真实三维姿态的结果。

Description

一种基于图和注意力交织的三维人体姿态估计方法及***

技术领域

本发明属于机器视觉中的目标识别和智能人机交互领域，具体涉及一种基于图和注意力交织的三维人体姿态估计方法和***。

背景技术

人体姿态估计的目的是在图片、视频等对象中描绘出人体形态，包括目标识别、图像分割、回归检测等多方面的任务。相比二维姿态估计，三维人体姿态估计对人体姿态的表述比二维姿态更为精准，拥有更高的研究价值。时下，三维人体姿态估计任务已成为计算机视觉领域的研究热点，也是很多研究工作的基础，从图像或视频中提取出的人体三维姿态可进一步用于动作识别、三维网格重建等任务。

现有的三维人体姿态估计方法可大体划分为两类：(1)基于直接回归的三维人体姿态估计。该类方法无需借助二维姿态表示，直接从二维图形中预测三维姿态坐标。这类方法的优势是可以实现端到端的网络训练，但对网络结构和数据预处理的要求较高。(2)基于二维骨架的三维人体姿态估计。该类方法通常分为两阶段，先用预训练好的二维姿态估计网络提取出骨架序列，再将得到的骨架输入到三维姿态估计网络中进行维度提升。得益于现有二维姿态估计算法的成熟，基于二维骨架的三维人体姿态估计方法大大降低了整个任务的复杂性，性能也优于基于直接回归的方法，成为主流。该方案可大幅降低网络结构的复杂度，更容易在真实环境中部署。一个典型的案例是利用由全连接层构建的网络(MartinezJ,Hossain R,Romero J,et al.A simple yet effective baseline for 3D human poseestimation.in Proceedings of theIEEE International Conference on ComputerVision(ICCV).2017:2640-2649.)将二维姿态提升到三维姿态，通过一系列实验证明了该方案的可行性，说明了简单轻量化的网络可以用于从二维人体姿态到三维人体姿态的映射。

尽管三维人体姿态估计于近些年来已取得了长足发展，但仍面临着一些研究难点，主要包括遮挡、二维到三维映射中固有的深度模糊性、数据集匮乏等挑战。

发明内容

针对现有技术存在的问题，本发明的目的是提供一种基于图和注意力交织的三维人体姿态估计方法及***。本发明利用图卷积和注意力机制同时关注人体骨架的局部和全局信息，进一步让二者之间可进行通信，优势互补，实现更加鲁棒的人体骨架建模。此外，本发明所设计的U型结构多层感知机简单高效，可用于捕获骨架结构的多层次信息。

本发明采用的技术方案如下：

一种基于图和注意力交织的三维人体姿态估计方法，包括以下步骤：

将三维人体姿态估计数据集中的图像作为训练图像；

利用二维姿态检测器从输入的训练图像中提取人体的二维骨架信息；

利用骨架嵌入模块将提取的二维骨架信息映射到至高维空间，得到高维向量；

利用图和注意力交织的网络模块挖掘骨架嵌入模块得到的高维向量中蕴含的人体骨架的局部和全局信息；

利用U型结构的多层感知机模块从图和注意力交织的网络模块的输出中提取人体骨架的多层次信息；

利用回归头模块对提取的人体骨架的多层次信息进行回归，输出得到三维骨架；

利用关节点的均方误差作为损失函数，对回归头模块估计出的三维骨架进行监督学习，以训练三维人体姿态估计模型；

将二维姿态检测器从待估计图像中提取的二维骨架信息作为训练好的三维人体姿态估计模型的输入，依次经过骨架嵌入模块，图和注意力交织的网络模块，U型结构的多层感知机模块和回归头模块，最后输出得到三维人体姿态估计结果。

进一步地，所述三维人体姿态估计是针对图像中能检测出的人体进行的。

进一步地，上述方法中前两个步骤属于预处理阶段，包括数据集中训练图像的获取与二维骨架的提取。

进一步地，所述二维骨架信息为利用现有的二维人体姿态估计算法直接从图像中估计得到的结果。

进一步地，所述的骨架嵌入模块包含多层全连接网络，逐步将二维骨架映射到高维空间。

进一步地，所述图和注意力交织的网络模块将图卷积网络和注意力机制结合，来捕获人体骨架的全局和局部信息。所述图和注意力交织的网络模块包含两种策略：1)由图到注意力(Graph2Attention，G2A)：将由图卷积块提取的人体拓扑结构信息注入到注意力块，让注意力块在图卷积块的指引下更好地学习到人体骨架的结构信息；2)由注意力到图(Attention2Graph，A2G)：将由注意力块捕获的骨架关节点之间的全局关联送入图卷积块，让图卷积块在关注邻居节点的同时，对全局信息也有较好的感知。

进一步地，所述图卷积块的结构结合了人体骨架的拓扑结构先验，用于捕获人体骨架的局部信息。所述局部信息是指每个关键点着重关注与其临近的节点，对于较远的节点，则倾向于忽略与其的联系。

进一步地，所述人体骨架的拓扑结构先验指用于表示人体骨架的邻接矩阵中，每个关节点不仅与自身相连，也与其相邻的关节点相邻，骨架中对称的关节点相连。借助邻接矩阵将骨架结构的固有特征进行表达。

进一步地，所述注意力块用于捕获人体骨架的全局信息。所述全局信息是指每个关节点都与所有关节点之间建立联系，每一个关节点对整个骨架都有全局的感知。

进一步地，所述U型结构的多层感知机模块由3层全连接网络组成。第一层全连接网络的输出相较输入在通道维度上减半，第二层全连接网络的输入输出保持通道维度不变，第三层全连接网络则将输出的通道维度提升到和输入一致。其中维度一致的地方保持short cut连接，如第一层全连接网络的输入和第3层全连接网络的输出之间采用shortcut连接，第二层全连接网络的输入和输出之间保持short cut连接。

进一步地，所述的回归头模块包含2层全连接网络，用于将高维的特征回归到具体的关节点坐标。

一种基于图和注意力交织的三维人体姿态估计***，其包括：

预处理单元，用于获取三维人体姿态估计数据集中的训练图像，并采用二维人体姿态检测器从输入的训练图像中提取二维骨架信息；

模型训练单元，利用骨架嵌入模块将提取的二维骨架信息映射到高维空间，利用图和注意力交织的网络模块捕获骨架的局部和全局信息，利用U型结构的多层感知机模块捕获骨架的多层次信息，最后利用回归头模块将高维特征回归得到三维骨架，利用关节点的均方误差作为三维人体姿态估计监督学习的损失函数，训练三维人体姿态估计模型；

三维人体姿态估计单元，采用预训练好的二维姿态估计检测器提取待估计图像中人体的二维骨架信息，将提取的二维骨架信息依次输入训练完成的骨架嵌入模块，图和注意力交织的网络模块，U型结构的多层感知机模块，回归头模块，输出得到三维人体姿态估计结果。

本发明的有益效果如下：

本发明通过对图卷积网络和注意力机制的创新结合，可解决现有网络结构对人体骨架的局部和全局信息挖掘不充分的问题。在图和注意力交织的网络模块中，结合了人体骨架拓扑结构先验的图卷积块结构用于捕获人体骨架的局部信息，注意力块则用于捕获人体骨架的全局信息，二者之间相互通信优势互补，增强模型对骨架局部和全局的感知能力。进一步，所提出的U型结构的多层感知机模块用于捕获骨架中蕴含的多层次信息。

本发明的效果图如图2所示，可以看出本发明能够精准地估计出各种复杂人体动作对应的三维人体姿态。相比于MGCN方法(Zhiming Zou and Wei Tang,Modulatedgraphconvolutional network for 3D human pose estimation,”in Proceedings ofthe IEEE InternationalConference on Computer Vision(ICCV),2021,pp.11477–11487.),我们的方法能够估计更接近真实三维姿态的结果。该发明可被引入目标识别***、人机交互***中，实现更加完备的智能监控技术。

附图说明

图1.本发明的基于图和注意力交织的三维人体姿态估计方法流程图。

图2.本发明的三维人体姿态估计效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明的基于图和注意力交织的三维人体姿态估计方法的流程图，包括以下几个步骤:

步骤1：输入训练集图像及其对应的数据标签。在实际训练过程中，输入的图像数据通常为一批数据，以保证在训练优化过程中模型参数可以被稳定地优化。

步骤2：用二维姿态估计检测器提取输入的训练图像中的人体姿态。本实施例利用现有的方法CPN(Chen Y,Wang Z,Peng Y,et al.Cascaded pyramid network for multi-person poseestimation.Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition(CVPR).2018:7103-7112.)对步骤1的图像进行二维人体姿态估计，得到二维关节点坐标

其中N为关节点数量，设置为17。

步骤3：对步骤2得到的二维关键点坐标使用骨架嵌入模块(由多层全连接网络组成)进行编码得到高维向量

其中通道个数C设置为512。

步骤4：图和注意力交织的网络模块对骨架局部和全局信息的获取。本发明将图卷积网络和注意力机制结合，具备两种引导策略(Graph2Attention和Attention2Graph)，让图卷积和注意力机制来更好地学习人体骨架的表示。

其中，由图到注意力(Graph2Attention)策略是为了引导注意力块学习到人体骨架的拓扑先验。将由图卷积块捕获的骨架信息f_graph注入到注意力块，具体的计算公式如下：

其中，s_G2A是f_graph的缩放因子，Softmax是一种将数值向量归一化为一个概率分布向量的激活函数，Q,K,V分别为注意力机制中的查询矩阵、键矩阵和值矩阵,d表示矩阵Q,K,V的维度，X_G2A表示给注意力块中的矩阵乘积引入来自图卷积的局部信息后的结果。有了来自图卷积块的骨架信息引导，注意力机制对人体骨架关联信息捕获的能力得到加强。

其中，由注意力到图(Attention2Graph)策略是为了弥补图卷积块在捕获全局依赖方面的不足。将由注意力块捕获的人体骨架全局信息f_global反馈给图卷积块，让图卷积块对骨架的全局关联有更好的认识。具体计算公式如下：

X_A2G＝G₁+s_A2G·f_global,

其中，G₁表示图卷积块中的第一个图卷积层，s_A2G是针对人体骨架全局信息f_global的缩放因子，X_A2G表示给G₁引入来自注意力块的全局信息后的结果。通过这种方式，骨架的全局信息也能更好地被图卷积块感知。

在来自双方互补信息的交织引导下，图卷积块和注意块的感知能力都得到了增强。最后，将图卷积块和注意块的输出相加。计算公式可表示为：

X_IGA＝G₂(X_A2G)+Proj(X_G2A),

其中，G₂(.)表示图卷积块中的第二个图卷积层，Proj(·)是包含2个线性层的投影头，X_IGA表示在互补信息引导下的图卷积块和注意力块输出的加和。

步骤5：对步骤4得到的特征进一步输入到U型结构的多层感知机模块，进一步提取骨架的多层次信息。该模块沿通道维度进行上下采样。首先将输入X_IGA送入通道维度减半的下采样投影层X_down，紧接着是通道维度保持不变的中间层X_mid，最后是将输出通道维度加倍的上采样投影层X_up。具体公式计算如下：

X_down＝MLP_down(LN(X_IGA)),

X_mid＝MLP_mid(X_down)+X_down,

X_up＝MLP_up(X_mid)+X_IGA,

其中MLP(·)是包含一个线性层的MLP块，LN表示层归一化操作(LayerNormalization)。经过在通道维度的上下采样，骨架中包含的语义信息得到有效捕获。

步骤6：对步骤5的得到特征使用回归头模块即两层全连接网络进行回归，得到预测的三维姿态关节点

步骤7：对步骤6预测到的三维骨架使用关节点的均方误差损失函数计算其与三维姿态真值的误差，从而对骨架嵌入模块、图和注意力交织的网络模块、U型结构的多层感知机模块和回归头模块进行训练。均方误差的定义为：

其中，N＝17表示关节点数量，J_i为第i个三维关节点真值的坐标，X_i为预测的第i个三维关节点的坐标。

步骤8：对于待估计图像进行三维人体姿态估计：首先利用二维姿态检测器从待估计图像中提取人体的二维骨架信息，再将提取的二维信息输入到训练完成的骨架嵌入模块、图和注意力交织的网络模块、U型结构的多层感知机模块和回归头模块，输出得到三维人体姿态估计结果。

本发明的效果图如图2所示，可看出本发明可对各种人体动作实现精确的三维人体姿态估计。

基于同一发明构思，本发明的另一实施例为一种基于图和注意力交织的三维人体姿态估计***，其包括：

三维人体姿态估计单元，采用预训练好的二维姿态估计检测器提取图像中人体的二维骨架信息，将提取的二维骨架信息依次输入训练完成的骨架嵌入模块，图和注意力交织的网络模块，U型结构的多层感知机模块，回归头模块，输出得到三维人体姿态估计结果。

其中各单元、各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的最佳实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。

Claims

1.一种基于图和注意力交织的三维人体姿态估计方法，包括以下步骤：

将三维人体姿态估计数据集中的图像作为训练图像；

利用图和注意力交织的网络模块挖掘骨架嵌入模块得到的高维向量中蕴含的骨架的局部和全局信息；

利用关节点的均方误差作为监督学习的损失函数，对回归头模块估计出的三维骨架进行监督学习，以训练三维人体姿态估计模型；

将二维姿态检测器从待估计图像中提取的二维骨架信息作为训练好的三维姿态估计模型的输入，依次经过骨架嵌入模块，图和注意力交织的网络模块，U型结构的多层感知机模块和回归头模块，最后输出得到三维人体姿态估计的结果。

2.如权利要求1所述的方法，其特征在于，所述图和注意力交织的网络模块包含图卷积块和注意力块，同时结合了图卷积和注意力机制在捕获人体骨架局部和全局特征的优势，并允许二者之间进行通信，以加强模型对骨架的建模能力。

3.如权利要求2所述的方法，其特征在于，所述图卷积块结合了人体骨架的拓扑结构先验，用于捕获人体骨架的局部信息；所述局部信息是指每个关键点着重关注与其临近的节点，对于较远的节点，则倾向于忽略与其的联系。

4.如权利要求3所述的方法，其特征在于，所述人体骨架的拓扑结构先验指用于表示人体骨架的邻接矩阵中，每个关节点不仅与自身相连，也与其相邻的关节点相邻，骨架中对称的关节点相连，借助邻接矩阵将骨架结构的固有特征进行表征。

5.如权利要求2所述的方法，其特征在于，所述注意力块用于捕获人体骨架的全局信息；所述全局信息是指每个关节点都与所有关节点之间建立联系，每一个关节点对整个骨架都有全局的感知。

6.如权利要求1所述的方法，其特征在于，所述U型结构的多层感知机模块由3层全连接网络组成；第一层全连接网络的输出较输入在通道维度上减半，第二层全连接网络的输入和输出在通道维度上保持不变，第三层全连接网络则将输出的通道维度提升到和输入一致；其中维度一致的地方保持short cut连接，包括第一层全连接网络的输入和第3层全连接网络的输出之间采用short cut连接，第二层全连接网络的输入和输出之间保持shortcut连接。

7.如权利要求1所述的方法，其特征在于，所述骨架嵌入模块包含多层全连接网络，逐步将二维输入映射到高维空间；所述回归头模块包含2层全连接网络，用于将高维的特征回归到具体的关节点坐标。

8.一种基于图和注意力交织的三维人体姿态估计***，其包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。