CN115908753A

CN115908753A - 一种全身人体网格表面重建方法及相关装置

Info

Publication number: CN115908753A
Application number: CN202310015456.4A
Authority: CN
Inventors: 林靖; 曾爱玲; 李昱; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-04
Anticipated expiration: 2043-01-06
Also published as: CN115908753B

Abstract

本申请公开了一种全身人体网格表面重建方法及相关装置，方法包括确定目标图像的交互特征令牌和交互人体令牌；基于交互人体令牌确定人体参数，基于交互特征令牌获得多分辨率的特征图及模块令牌，基于模块令牌及多分辨率的特征图确定模块参数；基于人体参数及模块参数确定全身人体网络表面。本实施例将人体令牌与特征令牌进行交互，使得人体令牌学习到全局的人体依赖关系，提高人体参数的准确性；同时，通过关键点特征引导多分辨率的特征图进行交互学习，这样既可以学习到关键点间的自相关性和依赖关系，又可以以从多分辨率的特征图中学习到图像信息以及视觉线索，提高脸部参数和手部参数的准确性，进而提高了全身人体网络表面的准确性。

Description

一种全身人体网格表面重建方法及相关装置

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种全身人体网格表面重建方法及相关装置。

背景技术

近年来，人体网格表面重建任务得到了极大的发展，并且广泛应用于虚拟设备、虚拟换装及动作捕捉等任务上。全身人体网格表面重建致力于从单目图像上估计出身体姿态、手姿势以及脸部表情。目前的人体网格表面重建任务普遍是多阶段的“复制-粘贴”范式，使用三个单独的网络，分别估计身体、手、脸的网格，最终再将三者进行融合，这样范式忽略了人体、手和脸之间的交互，影响全身人体网格表面的准确性，从而导致全身人体网格表面存在不真实的问题。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种全身人体网格表面重建方法及相关装置。

为了解决上述技术问题，本申请实施例第一方面提供了一种全身人体网格表面重建方法，所述的方法包括：

基于预训练的重建网络模型中的模块感知编码器和包含人的目标图像，确定所述目标图像对应的特征令牌，并将所述特征令牌与所述目标图像的人体令牌进行交互，以得到交互特征令牌和交互人体令牌；

基于所述模块感知编码器及所述交互特征令牌获得多分辨率的特征图，并基于所述模块感知编码器及所述交互人体令牌确定人体参数；

基于所述重建网络模型中的模块感知解码器和多分辨率的特征图中的最低分辨率的目标特征图，确定手部和脸部的关键点位置信息，并基于所述关键点位置信息及所述目标特征图确定模块令牌；

基于所述模块感知解码器、所述模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数；

基于所述人体参数及所述模块参数，确定所述目标图像的全身人体网络表面。

所述全身人体网格表面重建方法，其中，所述基于预训练的重建网络模型中的模块感知编码器和包含人的目标图像，确定所述目标图像对应的特征令牌具体包括：

将所述包含人的目标图像输入预训练的重建网络模型中的模块感知编码器，通过所述模块感知编码器将所述目标图像划分为若干图像块，并基于所述若干图像块确定若干候选特征向量；

将各候选特征向量与各候选特征向量的位置嵌入相结合，以得到目标图像的特征令牌。

所述全身人体网格表面重建方法，其中，所述感知编码器将包括Transformer编码器，所述将所述特征令牌与所述目标图像的人体令牌进行交互，以得到交互特征令牌和交互人体令牌具体包括：

将所述特征令牌与所述人体令牌进行拼接，以得到输入令牌；

将所述输入令牌输入Transformer编码器，通过所述Transformer编码器输出交互特征令牌和交互人体令牌。

所述全身人体网格表面重建方法，其中，所述基于所述模块感知编码器及所述交互特征令牌获得多分辨率的特征图具体包括：

通过所述模块感知编码器将所述交互特征令牌拼接为目标特征图；

对所述目标特征图进行上采样操作，以得到多分辨率的特征图，其中，所述多分辨率的特征图包括目标特征图。

所述全身人体网格表面重建方法，其中，所述基于所述重建网络模型中的模块感知解码器和多分辨率的特征图中的最低分辨率的目标特征图，确定手部和脸部的关键点位置信息具体包括：

通过所述重建网络模型中的模块感知解码器在多分辨率的特征图中的最低分辨率的目标特征图中选取手部特征块和脸部特征块；

基于选取到的手部特征块和脸部特征块，确定关键点热力图；

基于所述关键点热力图，确定手部和脸部的关键点位置信息。

所述全身人体网格表面重建方法，其中，所述模块感知解码器配置有注意力机制和交叉注意力机制，所述基于所述模块感知解码器、所述模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数具体包括：

利用所述模块感知解码器的自注意力机制对模块令牌进行学习，得到更新模块令牌；

利用所述模块感知解码器的交叉注意力机制对所述更新模块令牌和多分辨率的特征图进行学习，以得到所述目标图像对应的模块参数。

所述全身人体网格表面重建方法，其中，所述基于所述人体参数及所述模块参数，确定所述目标图像的全身人体网络表面具体包括：

将所述人体参数及所述模块参数输入预训练的全身人体参数化模型；

通过所述全身人体参数化模型输出所述目标图像的全身人体网络表面。

所述全身人体网格表面重建方法，其中，所述重建网络模型的训练过程中所采用的损失函数为：

其中，表示损失函数，表示全身人体网络表面的损失项，表示预设关键点的三维位置损失项；表示预设关键点的二维位置损失项，表示手部检测框和脸部检测框的损失项。

本申请实施例第二方面提供了一种全身人体网格表面重建***，所述的***包括：

模块感知编码器，用于确定包含人的目标图像对应的特征令牌，并将所述特征令牌与所述目标图像的人体令牌进行交互，以得到交互特征令牌和交互人体令牌，基于所述交互特征令牌获得多分辨率的特征图，以及基于所述交互人体令牌确定人体参数；

模块感知解码器，用于多分辨率的特征图中的最低分辨率的目标特征图，确定手部和脸部的关键点位置信息，并基于所述关键点位置信息及所述目标特征图确定模块令牌，以及基于所述模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数；

确定模块，用于基于所述人体参数以及所述模块参数确定所述目标图像的全身人体网络表面。

本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的全身人体网格表面重建方法中的步骤。

本申请实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的全身人体网格表面重建方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种全身人体网格表面重建方法及相关装置，方法包括基于预训练的重建网络模型中的模块感知编码器和包含人的目标图像，确定目标图像的交互特征令牌和交互人体令牌；基于所述模块感知编码器及所述交互特征令牌获得多分辨率的特征图，并基于所述模块感知编码器所述交互人体令牌确定人体参数；基于所述重建网络模型中的模块感知解码器和多分辨率的特征图中的目标特征图，确定手部和脸部的关键点位置信息，并基于所述关键点位置信息确定模块令牌；基于所述模块感知解码器、模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数；基于所述人体参数以及所述模块参数确定所述目标图像的全身人体网络表面。本实施例将人体令牌与特征令牌进行交互得到交互人体令牌和交互特征令牌，使得人体令牌学习到全局的人体依赖关系，提高人体参数的准确性；同时，将基于关键点确定的模块令牌与多分辨率的特征图进行交互学习，这样既可以使得模块令牌学习到关键点间的自相关性和依赖关系，又可以通过关键点引导交叉学习以从多分辨率的特征图中学习到图像信息以及视觉线索，提高了脸部参数和手部参数的准确性，进而提高了全身人体网络表面的准确性，保证了提高全身人体网格表面的真实性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的全身人体网格表面重建方法的流程图。

图2为本申请提供的全身人体网格表面重建方法的原理流程图。

图3为本申请提供的全身人体网格表面重建***的结构原理图。

图4为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种全身人体网格表面重建方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

经过研究发现，近年来，人体网格表面重建任务得到了极大的发展，并且广泛应用于虚拟设备、虚拟换装及动作捕捉等任务上。全身人体网格表面重建致力于从单目图像上估计出身体姿态、手姿势以及脸部表情。目前的人体网格表面重建任务普遍是多阶段的“复制-粘贴”范式，使用三个单独的网络，分别估计身体、手、脸的网格，最终再将三者进行融合，这样方法忽略了人体、手和脸之间的交互，影响全身人体网格表面的准确性，从而导致全身人体网格表面存在不真实的问题。

为了解决上述问题，在本申请实施例中，包括基于预训练的重建网络模型中的模块感知编码器和包含人的目标图像，确定目标图像的交互特征令牌和交互人体令牌；基于所述模块感知编码器及所述交互特征令牌获得多分辨率的特征图，并基于所述模块感知编码器所述交互人体令牌确定人体参数；基于所述重建网络模型中的模块感知解码器和多分辨率的特征图中的目标特征图，确定手部和脸部的关键点位置信息，并基于所述关键点位置信息确定模块令牌；基于所述模块感知解码器、模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数；基于所述人体参数以及所述模块参数确定所述目标图像的全身人体网络表面。本实施例将人体令牌与特征令牌进行交互得到交互人体令牌和交互特征令牌，使得人体令牌学习到全局的人体依赖关系，提高人体参数的准确性；同时，将基于关键点确定的模块令牌与多分辨率的特征图进行交互学习，这样既可以使得模块令牌学习到关键点间的自相关性和依赖关系，又可以通过关键点引导交叉学习以从多分辨率的特征图中学习到图像信息以及视觉线索，提高了脸部参数和手部参数的准确性，进而提高了全身人体网络表面的准确性，保证了提高全身人体网格表面的真实性。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种全身人体网格表面重建方法，所述方法应用一预先训练的重建网络模型，其中，重建网络模型包括模块感知编码器和模块感知解码器，模块感知编码器和模块感知解码器相连接，模块感知编码器用于确定交互特征令牌以及人体参数，模块感知解码器用于确定模块参数。模块感知编码器至少包括Transformer编码器，模块感知解码器包括若干解码单元，解码单元包括自注意力机制层、交互注意力机制层和前馈网络层。此外，重建网络模型的训练过程中所采用的损失函数为：

其中，表示损失函数，表示全身人体网络表面的损失项，表示预设关键点的三维位置损失项；表示预设关键点的二维位置损失项，表示手部检测框和脸部检测框的损失项，用于对手部区域和脸部区域进行监督。

如图1所示，本实施例提供的全身人体网格表面重建方法具体包括：

S10、基于预训练的重建网络模型中的模块感知编码器和包含人的目标图像，确定所述目标图像对应的特征令牌，并将所述特征令牌与所述目标图像的人体令牌进行交互，以得到交互特征令牌和交互人体令牌。

具体地，目标图像为预先获取的包含有人的图像，其中，目标图像可以是通过图像采集设备拍摄的，可以是外部设备发送的，也可以是通过网络获取的。特征令牌包括若干特征向量，其中，若干特征向量中的每一特征向量均包含为特征信息以及位置信息，特征信息用于反映特征向量对应的图像区域中的内容信息，位置信息用于反映特征向量对应的图像区域的区域位置。

在一个实现方式中，所述基于预训练的重建网络模型中的模块感知编码器和包含人的目标图像，确定所述目标图像对应的特征令牌具体包括：

具体地，若干图像块中的每个图像块的图像尺寸均相同，并且若干图像块中的任意两个图像块互不重叠，例如，若干图像块为通过对目标图像进行等分得到，或者是，若干图像块为将目标图像按照预设划分尺寸划分得到，并对于不满足预设划分尺寸的图像区域进行图像填充以使填充后图像的图像尺寸等于预设划分尺寸等。若干候选特征向量与若干图像块一一对应，用于反映其对应的图像块的图像信息，候选特征向量的位置嵌入用于反映候选特征向量对应的图像块在目标图像的区域位置。

模块感知编码器可以包括一特征令牌获取模块，通过所述特征令牌获取模块确定目标图像对应的特征令牌，其中，特征令牌获取模块可以包括切分单元、卷积单元、激活单元以及加法器，切分单元与卷积单元和激活单元相连接，卷积单元和激活单元均与加法器相连接，通过切分单元将目标图像切分为若干图像块，通过卷积单元将每个图像块转换为一候选特征向量；通过激活单元将各图像块的位置信息转换为位置嵌入，通过加法器将各候选特征向量与其对应的位置嵌入进行联接，以得到特征令牌。

所述交互特征令牌为通过模块感知编码器将特征令牌与人体令牌进行交互学习得到的，交互特征令牌学习到了人体各部分区域之间的信息交互。交互人体令牌为通过模块感知编码器将人体令牌与特征令牌进行交互学习得的，交互人体令牌从特征令牌中学习到全局的人体依赖关系以及外观信息。本实施例通过将人体令牌和特征令牌进行交互，可以学习到身体、手部和脸部之间的联系，从而可以使得后续基于交互人体令牌和交互特征令牌确定全身人体网格表面的准确性，提高全身人体网格表面的真实性。

进一步，特征令牌与人体令牌的交互学习可以通过Transformer编码器进行的，也可以其他网络模型实现的。在一个实现方式中，如图2所示，所述模块感知编码器包括Transformer编码器，所述将所述特征令牌与所述目标图像的人体令牌进行交互，以得到交互特征令牌和交互人体令牌具体包括：

具体地，所述人体令牌为基于目标图像确定人体特征所形成的，也就是说，在获取到目标图像后，会对目标图像进行特征提取以得到目标图像对应的若干人体特征向量，并将获取到的若干人体特征向量形成的特征向量序列作为人体令牌。其中，人体特征向量可以通过特征提取模块提取得到，特征提取模块为独立于模块感知编码器的网络模型，在获取到目标图像后，将目标图像分别输入模块感知编码器和特征提取模块，通过特征提取模块提取人体令牌，在将人体令牌输入模块感知编码器；或者是，特征提取模块为模块感知编码器的一组成部分，即模块感知编码器可以包括特征提取模块，特征提取模块与Transformer编码器相连接，在获取到目标图像后，将目标图像输入模块感知编码器，通过模块感知编码器中的特征提取模块提取人体令牌。此外，所述特征提取模块可以采用现有的网络模型，例如，VGG-16，ResNet50等网络。

特征令牌包括若干特征向量，人体令牌包括若干人体向量，将特征令牌与人体令牌拼接指的是将特征令牌包括若干特征向量与人体令牌包括若干人体向量沿向量排布方向拼接，其中，向量排布方向可以为从特征令牌到人体令牌的方向，或者是，从人体令牌到特征令牌的方向。例如，特征向量包括特征向量a和特征向量b，人体令牌包括人体向量c和人体向量d，拼接得到的输出令牌可以为特征向量a-特征向量b-人体向量c-人体向量d。

S20、基于所述模块感知编码器及所述交互特征令牌获得多分辨率的特征图，并基于所述模块感知编码器及所述交互人体令牌确定人体参数。

具体地，人体参数用于进行全身人体网格表面重建，其中，人体参数可以包括人体中各关节的旋转角度、人体形状以及用于拍摄目标图像的相机参数等。所述人体参数可以通过对交互人体令牌进行回归得到，例如，如图2所示，模块感知编码器包括全连接单元，通过全连接单元对交互人体令牌进行回归得到人体参数，其中，全连接单元可以包括若干全连接层，全连接层的数量可以实际需求确定，例如，全连接单元包括3个全连接层，4个全连接层等。

多分辨率的特征图包括多张分辨率不相同的特征图，分别记为，其中，的分辨率互不相同。例如，多分辨率的特征图包括特征图A、特征图B和特征图C，特征图A的分辨率为128*128，特征图B的分辨率为256*256，特征图C的分辨率为512*512。在一个实现方式中，所述基于所述模块感知编码器及所述交互特征令牌获得多分辨率的特征图具体包括：

对所述目标特征图进行上采样操作，以得到多分辨率的特征图。

具体地，目标特征图为通过将交互特征令牌中的多条特征向量进行向量拼接得到，多分辨率的特征图包括目标特征图以及通过对所述目标特征图进行上采样操作的多张上采样特征图，其中，对所述目标特征图进行上采样操作的多张上采样特征图的过程可以为：先对目标特征图进行上采样操作得到上采样特征图，然后在上采样特征图进行上采样，依次类推直至得到预设数量的特征图。也就是说，可以预先设置上采样倍数以及上采样次数，先按照上采样倍数对目标特征图进行上采样操作，然后在对采样得到的上采样特征图按照上采样倍数进行上采样操作，依次类推，直至上采样操作的次数达到上采样次数，以得到多分辨率的特征图。

本实施例通过对目标特征图进行上采样来确定多分辨的特征图，可以得到多种高分辨率的特征图，这样提高手部和脸部的分辨率，解决了因手部和脸部的分辨率过小而导致的手部和脸部重建准确性低的问题。

此外，在实际应用中，在获取到目标特征图后，除了上述采样过程来确定多张上采样特图外，还可以通过对目标特征图进行不同采样倍数的上采样操作得到，例如，分别对目标特图进行2倍、4倍以及8倍的上采样操作来得上采样特征图，从而得到多分辨率的特征图。另外，本实施例中的上采样操作可以采用双线性插值等。

S30、基于所述重建网络模型中的模块感知解码器和多分辨率的特征图中的最低分辨率的目标特征图，确定手部和脸部的关键点位置信息，并基于所述关键点位置信息及所述目标特征图确定模块令牌。

具体地，关键点位置信息用于反映关键点在目标特征图中的位置，其包括手部区域的各关键点的位置信息和脸部区域的各关键点的位置信息，其中，关键点位置信息可以是像素坐标，也可以是区域坐标，当关键点位置信息为像素坐标时，基于关键点位置信息可以在目标特征图中选取到关键点；当关键点位置信息为区域坐标时，基于关键点位置信息可以在目标特征图中选取到包含关键点的一个图像区域，通过选取到的图像区域可以学习到关键点的下上文信息。

在一个实现方式中，所述基于所述重建网络模型中的模块感知解码器和多分辨率的特征图中的最低分辨率的目标特征图，确定手部和脸部的关键点位置信息具体包括：

具体地，目标特征图为多分辨率的特征图中的最低分辨率的特征图，手部特征块和脸部特征块均为目标特征图中的部分图像区域，其中，手部特征块为手部特征对应的图像区域，脸部特征块为脸部特征对应的图像区域。在本实施例中，手部特征块和脸部特征块可以使用可微分的感兴趣区域对齐操作从目标特征图中裁剪出的，当然，在其他实现方式中，可以采用其他方式获取手部特征块和脸部特征块，例如，通过感兴趣区域提取网络结构等。

在获取到手部特征块和脸部特征块后，可以分别对手部特征块和脸部特征块确定手部关键点的热力图和脸部关键点的热力图，然后基于获取到的手部关键点的热力图和脸部关键点的热力图确定手部和脸部的关键点位置信息，其中，手部和脸部的关键点位置信息包括各手部关键点的位置信息以及各脸部关键点的位置信息。在本实施例中，手部关键点和脸部关键点可以预先标定的，例如，脸部关键点包括预先标定的68个关键特征点，手部关键点包括手部关节点等。

在一个实现方式中，模块感知解码器可以包括拼接单元、上采样单元以及定位单元，拼接单元与模块感知解码器中的Transformer编码器相连接、上采样单元以及定位单元相连接，将Transformer编码器输出的交互特征令牌拼接为目标特征图，上采样单元用于对目标特征图进行上采样以得到多分辨率的特征图，生成单元用于基于目标特征图确定关键点位置信息，并基于关键点位置信息以及目标特征图确定模块令牌。当然在实际应用中，拼接单元、上采样单元以及定位单元可以形成一个独立于模块感知解码器的中间处理模块，通过中间处理模块确定模块感知解码器对应的多分辨率的特征图以及模块令牌。

进一步，在获取到手部和脸部的关键点位置信息后，基于手部和脸部的关键点位置信息，从目标特征图中采样得到模块令牌，其中，模块令牌可以为基于关键点位置信息确定的关键点形成的特征向量，也包括多条特征向量，多条特征向量的数量与关键点位置信息的数量相同，每条特征向量均是根据一关键点位置信息对应的图像区域确定，即将特征向量为将关键点位置信息对应的图像区域进行向量转换得到的。

S40、基于所述模块感知解码器、所述模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数。

具体地，模块参数包括脸部参数和手部参数，其中，脸部参数包括人脸表情以及人脸偏航角，手部参数包括手部旋转角度，手部旋转角度可以包括手部各关节点的旋转角度。所述模块感知解码器配置有注意力机制和交叉注意力机制，通过注意力机制对模块令牌进行学习，建立模块令牌之间的自相似性和依赖关系，通过交互注意力机制对模块令牌和多分辨率的特征图进行学习，并通过模块令牌携带的关键点信息来引导交互注意力机制对多分辨率的特征图进行学习，以从多分辨率的特征图中捕获到与全身人体网格表面有作用的图像信息以及视觉线索，这样一方面保证手部和脸部的高分辨率的前提下通过注意力机制学习图像特征，避免细节信息的丢失，另一方面可以通过模块感知解码器捕捉到人体的全局依赖关系以及模块令牌所包括的特征信息与关键点之间的依赖关系。

在一个实现方式中，如图2所示，所述基于所述模块感知解码器、所述模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数具体包括：

具体地，所述模块感知解码器包括解码单元，解码单元包括自注意力机制层和交叉注意力机制层，其中，解码单元的输出项包括模块令牌和多分辨率的特征图，自注意力机制层的输入项为模块令牌，交叉注意力机制层的输入项为多分辨率的特征图和更新模块令牌。所述自注意力机制层的输入项包括Q、V和K，通过对Q、V和K进行交互学习得到更新模块令牌，其中，Q、V和K均为基于模块令牌确定，例如，将模块令牌分别作为Q值、V值和K值等。交叉注意力机制的输入项包括更新模块令牌和多分辨率的特征图，其中，多分辨率的特征图可以为交叉注意力机制的V值，更新模块令牌可以为交叉注意力机制的Q值和K值等。

此外，解码单元还可以包括前馈网络层，通过预前馈网络层对基于交叉注意力机制层输出的交互特征进行学习。当然，在实际应用中，模块感知解码器可以包括N个依次连接的解码单元，相邻两个解码单元中前一解码单元输出的目标模块令牌为后一解码单元的输入项，并每个解码单元的输入项均包括多分辨率的特征图。

进一步，在通过解码单元确定最后的目标模块令牌后，可以通过一全连接单元基于目标模块令确定目标图像对应的模块参数。可以理解的是，模块感知解码器包括全连接单元，全连接单元与位于最后的解码单元相连接，通过对最后的解码单元输出的目标模块令牌进行回归，得到目标图像对应的模块参数。其中，全连接单元可以包括若干全连接层，例如，包括2个全连接层，3个全连接层等。

S50、基于所述人体参数及所述模块参数，确定所述目标图像的全身人体网络表面。

具体地，所述人体参数和模块参数用于重建全身人体网络表面，其中，全身人体网络表面可以通过现有的全身人体参数化模型确定，也就是说，在获取到人体参数和模块参数后，通过全身人体参数化模型将人体参数和模块参数转换为全身人体网络表面。

基于此，在一个实现方式中，所述基于所述人体参数及所述模块参数，确定所述目标图像的全身人体网络表面具体包括：

具体地，全身人体参数化模型为预先训练好的，其可以为重建网络模型的一部分，也可以是与重建网络模型相互独立的网络模型，其中，全身人体参数化模型可以采用SMPL-X模型，或者SMPL模型等。在一个典型实现方式中，全身人体参数化模型为重建网络模型的一部分，使得重建网络模型为一个独立网络模型，通过重建网络模型可以直接确定全身人体网络表面，这样便于重建网络模型的部署，保证其在工业界的应用。

综上所述，本实施例提供了一种全身人体网格表面重建方法及相关装置，方法包括确定目标图像的交互特征令牌和交互人体令牌；基于交互人体令牌确定人体参数，基于交互特征令牌获得多分辨率的特征图及模块令牌，基于模块令牌及多分辨率的特征图确定模块参数；基于人体参数及模块参数确定全身人体网络表面。本实施例将人体令牌与特征令牌进行交互，使得人体令牌学习到全局的人体依赖关系，提高人体参数的准确性；同时，通过关键点特征引导多分辨率的特征图进行交互学习，这样既可以学习到关键点间的自相关性和依赖关系，又可以以从多分辨率的特征图中学习到图像信息以及视觉线索，提高脸部参数和手部参数的准确性，进而提高了全身人体网络表面的准确性。

基于上述全身人体网格表面重建方法，本实施例提供了一种全身人体网格表面重建***，如图3所示，所述的***包括：

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的全身人体网格表面重建方法中的步骤。

基于上述全身人体网格表面重建方法，本申请还提供了一种终端设备，如图4所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种全身人体网格表面重建方法，其特征在于，所述的方法包括：

2.根据权利要求1所述全身人体网格表面重建方法，其特征在于，所述基于预训练的重建网络模型中的模块感知编码器和包含人的目标图像，确定所述目标图像对应的特征令牌具体包括：

将包含人的目标图像输入预训练的重建网络模型中的模块感知编码器，通过所述模块感知编码器将所述目标图像划分为若干图像块，并基于所述若干图像块确定若干候选特征向量；

3.根据权利要求2所述全身人体网格表面重建方法，其特征在于，所述感知编码器将包括Transformer编码器，所述将所述特征令牌与所述目标图像的人体令牌进行交互，以得到交互特征令牌和交互人体令牌具体包括：

4.根据权利要求1所述全身人体网格表面重建方法，其特征在于，所述基于所述模块感知编码器及所述交互特征令牌获得多分辨率的特征图具体包括：

5.根据权利要求1所述全身人体网格表面重建方法，其特征在于，所述基于所述重建网络模型中的模块感知解码器和多分辨率的特征图中的最低分辨率的目标特征图，确定手部和脸部的关键点位置信息具体包括：

6.根据权利要求1所述全身人体网格表面重建方法，其特征在于，所述模块感知解码器配置有注意力机制和交叉注意力机制，所述基于所述模块感知解码器、所述模块令牌及多分辨率的特征图，确定所述目标图像对应的模块参数具体包括：

7.根据权利要求1所述全身人体网格表面重建方法，其特征在于，所述基于所述人体参数及所述模块参数，确定所述目标图像的全身人体网络表面具体包括：

8.根据权利要求1所述全身人体网格表面重建方法，其特征在于，所述重建网络模型的训练过程中所采用的损失函数为：

9.一种全身人体网格表面重建***，其特征在于，所述的***包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任意一项所述的全身人体网格表面重建方法中的步骤。

11.一种终端设备，其特征在于，包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的全身人体网格表面重建方法中的步骤。