CN111968208B

CN111968208B - 一种基于人体软组织网格模型的人体动画合成方法

Info

Publication number: CN111968208B
Application number: CN202010645245.5A
Authority: CN
Inventors: 王卓薇; 林伟达
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2023-10-03
Anticipated expiration: 2040-07-07
Also published as: CN111968208A

Abstract

本发明公开了一种基于人体软组织网格模型的人体动画合成方法，首先利用特征金字塔网络对图像提取不同维度的特征，再通过区域‑特征对齐技术将不同维度的特征输入到后续的人体部位分割，软组织纹理以及姿态估计等任务中。根据三维姿态和软组织纹理使得原图中人物映射到三维人体软组织网格模型，实现人体软组织网格模型的重建，再通过人体软组织网格模型重定向实现人体动画合成。使用人体软组织网格模型与深度学习结合的方法，能够精确地捕捉到人体软组织运动，使合成的人体动画细节表现更丰富。

Description

一种基于人体软组织网格模型的人体动画合成方法

技术领域

本发明涉及影视制作、虚拟现实动作捕捉的算法领域，具体涉及一种基于人体网格模型重定向的软组织运动人体动画合成方法。

背景技术

目前以光学动作捕捉***为代表的动作捕捉***依赖于设置物理跟踪点、依赖激光和光敏传感器等昂贵臃肿的外部设备来确定运动物体的位置，同时需要繁杂的后期处理工作；并且因为设置物理跟踪点数量有限，它们几乎难以捕捉到精准的软组织运动。

当前动画重定向合成技术局限于骨骼动画方案，由骨骼来描述动作信息，用蒙皮来表示人体网格与骨骼之间的关系从而得到人体动画，而无法捕获到细腻的人体软组织运动。

发明内容

本发明的目的是提供一种基于人体网格模型重定向的软组织运动人体动画合成方法，用以解决现有技术难以捕捉精准的软组织运动且需要繁杂后期处理工作的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于人体软组织网格模型的人体动画合成方法，包括以下步骤：

将视频帧输入特征金字塔网络提取包含低层特征高分辨率和高层特征高语义信息的特征图；

将所述特征图送入多任务级联模块中，为不同任务候选框在特征图上分配对应的区域，并输出到不同的任务分支中，从而为不同的任务分支分配对应的特征图；

利用所述分配的特征图输入到用于人体二维姿态估计的深度高分辨率表示网络生成二维姿态，再将二维姿态输入到用于人体三维姿态估计的基于时域空洞卷积网络预测人体软组织网格模型的三维姿态；

在所述分配的特征图上通过用于对象检测和分割的基于区域卷积神经网络进行人体部位分割，以及通过对所述网络的特征层进行卷积的方法回归其软组织UV纹理图，生成人体软组织网格模型的人体表面形状；

根据人体软组织网格模型的三维姿态和人体表面形状重构人体软组织网络模型；

对于重构的人体软组织网格模型，利用人体软组织网格模型判别池进行判别是否正确并进行纠正处理，最终输出纠正的人体软组织网格模型；

对于转移的风格化动画角色，利用输出的人体软组织模型拟合到风格化动画角色上，最终输出生成的人体动画。

进一步地，所述将视频帧输入特征金字塔网络提取包含低层特征高分辨率和高层特征高语义信息的特征图，包括：

对于输入特征金字塔网络的视频帧，利用残差网络进行特征提取，生成不同分辨率的特征图，这些特征图形成自下而上的通路；最顶层的特征图通过池化操作又形成从上至下的通道，不同分辨率特征图经过卷积操作后与相邻特征图池化后的对应元素相加进行连接，最终输出特征图。

进一步地，对于从特征金字塔提取出来同时包含保持高分辨率低层特征和高层特征高语义信息的特征图，在原图上存在对不同的任务有不同的感兴趣区域；利用基于RoIAlign多任务级联模块处理，在原图上对不同任务感兴趣的区域在特征图上准确分配对应的特征图，最终输出到用于人体二维姿态估计的深度高分辨率表示网络进行二维姿态估计任务和用于对象检测和分割的基于区域卷积神经网络进行人体部位分割任务中作为输入。

进一步地，所述将二维姿态输入到用于人体三维姿态估计的基于时域空洞卷积网络预测人体软组织网格模型的三维姿态，包括：

对于深度高分辨率表示网络输出的二维关节点，利用时域空洞卷积网络进行预测三维姿态，本实施例中时域空洞卷积网络将视频帧，每帧通道为34作为输入，应用卷积核大小为W＝3，空洞因子d＝1，来输出通道C＝1024的特征图，随后连接批量归一化，激活函数ReLu，正则化dropout；同时应用B＝4个残差网络风格的残差块，来形成一个跳跃连接，每个残差块执行过滤器大小为W＝1的空洞因子的卷积操作；最终分别将每个残差块的输出和正则化的输出对应元素相加进行连接，得到三维姿态。

进一步地，所述在所述分配的特征图上通过用于对象检测和分割的基于区域卷积神经网络进行人体部位分割，其中所述基于区域卷积神经网络通过对人体部位进行分类并生成边界框和掩码，并将网络的特征输出到UV纹理空间推理任务中，使得人体部位分割与UV纹理推理任务共享特征；人体部位分割为图像上的人物像素点UV纹理推理提供更小的起始范围。

进一步地，所述根据人体软组织网格模型的三维姿态和人体表面形状重构人体软组织网络模型，包括：

对于所述的三维姿态θ和人体表面形状β，利用θ确定模型的基本姿态，β确定模型的软组织形变，最终输出重构人体软组织网格模型，使得原图中人物的像素映射到三维密集人体表面模型，实现人物的动作捕捉。

进一步地，所述对于重构的人体软组织网格模型，利用人体软组织网格模型判别池进行判别是否正确并进行纠正处理，包括：

对于生成人体软组织网格模型Θ，可分离为人体表面形状β和姿态θ组成，因此可以独立训练人体表面形状β和姿态θ的鉴别器D_θ和D_β；其中k个关节点的姿态θ的鉴别器D_θ可以分解为k个旋转角度鉴别器和一个的整体姿态鉴别器/>人体表面形状β鉴别器D_β由一个表面形状β的鉴别器D_β，因此一共生成了k+2个鉴别器，其生成的损失函数如下：

上式中，D(Θ)输出值为0或1，1代表该鉴别器鉴别的关节或表面形状为合理，0为不合理，其中，D_θ鉴别器判断关节的角度是否合理，D_β判断形成的体形是否符合人体结构学，最终输出模型Θ是否合理；并通过最小化损失函数，提供弱监督学习以矫正关节角度，人物形状。

进一步地，所述对于转移的风格化动画角色，利用输出的人体软组织模型拟合到风格化动画角色上，最终输出生成的人体动画，包括：

对于下载的风格化动画角色，利用规则化的方法将其拟合到预测出来的人体软组织网格模型Θ，首先将动画角色拟合到人体软组织网格模型Θ的姿态θ作为初始化，确定基本姿态，再经过将动画角色的初始化网格形状替换为人体软组织网格模型Θ的软组织形变β来进行形状变化建模，最终产生合理的动画。

一种终端设备，包括包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现基于人体软组织网格模型的人体动画合成方法的步骤。

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现基于人体软组织网格模型的人体动画合成方法的步骤。

与现有技术相比，本发明具有以下技术特点：

本发明利用特征金字塔网络提取不同维度的特征，其提取出来的低层特征保证了边缘信息，高层特征又保证了高语义信息，为后续任务提供了丰富特征表示。基于RoIAlign多任务级联架构通过感兴趣区域对齐使得不同的特征图可以同时精确映射回原图，将不同的特征图分配给对应的任务分支，通过多个任务的深度监督提升效果，并能够利用相关任务协同作用和不同监督来源的互补优点，有效克服了现有技术需要大量后期处理工作、难以精确捕捉软组织运动的问题。

附图说明

图1为本发明方法的整体流程示意图；

图2为HRNet网络结构图；

图3为FPN横向连接和自上而下连接方式示意图；

图4为VideoPose三维时域空洞卷积网络结构图。

具体实施方式

本发明提出一种端到端的包含软组织运动人体动画合成方法，摒除了目前动画重定向的骨骼动画方案，转而采取人体软组织网格模型重定向到目标动画模型。本发明提出一种利用深度学习的方法学习目标人物三维姿态θ的骨架关键点坐标的同时，学习人体软组织表面形状β的UV纹理(视频截帧像素对应到人体软组织网格模型软组织表面连续点的坐标)。根据人物三维姿态θ和人体表面形状β即可重构人体软组织网格模型，通过将人体软组织网格模型重定向生成人体动画。

其中，本发明将动作捕捉使用一个人体网格模型来表现，该模型由可分离的姿态θ和人体表面β构成，因此可以独立训练人体表面形状β和姿态θ的鉴别器。鉴别器充当弱监督，隐含地学习每个关节的角度限制，并且不鼓励人们形成不寻常的体形。本发明时域空洞卷积网络预测三维姿态的方法，从视频中探究时域信息进而产生更稳定的预测，减少对噪声的敏感性。本发明通过人体部位分割首先粗略估计像素所属的位置，然后通过训练的回归器指出每个区域中的像素i在这个人体密集点模型上该区域上的确切坐标，使用UV纹理表示。如何将深度学习与SMPL人体网格模型结合起来用于动作捕捉，且能提高动作捕捉精度是本项目需要解决的一个重要科学问题。

参见图1至图4，本发明的一种基于人体软组织网格模型的人体动画合成方法，包括以下步骤：

步骤1，将视频帧输入特征金字塔网络FPN提取包含低层特征高分辨率和高层特征高语义信息的特征图

对于输入FPN的视频帧，利用残差网络ResNet进行特征提取，生成不同分辨率的特征图，这些不同分辨率特征图经过卷积操作后与相邻特征图池化后的对应元素相加进行连接，最终输出特征图。

在本方案中，FPN的作用是生成同时包含保持低层特征高分辨率和高层特征高语义信息的特征图；这些特征图彼此相互影响并最终生成代表低层信息和高层信息的特征图集合。当使用ResNet架构时，可以生成不同分辨率的特征图，这些特征图形成自下而上的通路；最顶层的特征图通过池化操作又形成从上至下的通道，当对不同分辨率特征图卷积后与相邻特征图池化后的对应元素相加进行连接，最终输出特征图。由于最终输出的特征图融合了不同分辨率的特征图，因此可以作为下一步的人体部位分割、UV纹理推理以及二维姿态估计等任务的输入特征。

步骤2，将步骤1输出的特征图送入基于区域-特征对齐RoIAlign多任务级联模块中，为不同任务候选框region proposal在特征图上分配对应的区域，并输出到不同的任务分支中，从而为不同的任务分支分配对应的特征图。

对于步骤1输出的特征图，利用基于区域-特征对齐RoIAlign多任务级联模块，进行不同任务候选框在特征图上的区域分配，最终输出到不同的任务分支。

对于从特征金字塔FPN提取出来同时包含保持高分辨率低层特征和高层特征高语义信息的特征图，在原图上存在对不同的任务有不同的感兴趣区域。利用基于RoIAlign多任务级联模块处理，在原图上对不同任务感兴趣的区域在特征图上准确分配对应的特征图，最终输出到用于人体二维姿态估计的深度高分辨率表示网络(人体软组织网格模型)进行二维姿态估计任务和用于对象检测和分割的基于区域卷积神经网络Mask-RCNN进行人体部位分割任务中作为输入。

在本方案中，RoIAlign的作用是使得后续二维人体姿态估计，人体部位分割任务共同作用在FPN输出的特征图上，无偏差地将原图上不同任务候选框在特征图上分配区域，这些不同的任务候选框准确地分配到特征图上不同的区域，输入到各自特定任务分支，并使得将三维姿态估计的输出特征融合到UV纹理推理的输入特征图中，使相关任务的级联操作成为可能。由于人体二维姿态估计任务和人体部位分割任务在FPN输出的特征图上共享特征，因此可以这两个任务可以同时级联进行。

步骤3，将步骤2分配的特征图输入到用于人体二维姿态估计的深度高分辨率表示网络HRNet生成二维姿态，再将二维姿态输入到用于人体三维姿态估计的基于时域空洞卷积网络VideoPose3D预测人体软组织网格模型Θ的三维姿态θ。

步骤3.1，特征图经过HRNet生成二维姿态

对于步骤2分配的特征图，利用HRNet进行二维姿态估计，最终将二维姿态的关节点作为步骤3.2的VideoPose3D的输入。

在本方案中，HRNet的作用是采用并联结构把不同分辨率的子网络，用新的方式连在一起，网络结构如图2所示，最终输出二维姿态估计。由于并联结构融合了各种不同尺度的表征，保持高分辨率表征，不只靠从低分辨率表征里，恢复高分辨率表征，因此二维姿态估计效果明显提升。

通过时域空洞卷积网络，从视频中探究时域上下文信息进而产生更稳定的预测，减少对噪声的敏感性。由于时域空洞卷积模型是一种带有残差连接的全卷积结构，采用一个密集二维姿态序列作为输入，可以同时处理二维姿态信息和时间维度信息，使用卷积结构对时间感受野有着精确的控制，这有利于三维姿态预测模型的时间依赖性。另外，采用空洞卷积来建模长时间依赖性，同时保持效率。因此最后一个输出包含所有输入序列的时域上下文信息的一个三维姿态，更加鲁棒。

步骤3.2，二维姿态经过VideoPose3D预测人物三维姿态

对于步骤3.1输出的二维姿态估计，利用VideoPose3D进行三维姿态估计。

在本方案中，VideoPose3D的作用是基于二维关节点的时域空洞卷积网络预测三维姿态，由于在视频中探究时域信息，因此产生更稳定的预测，减少对噪声的敏感性。VideoPose3D在生成三维姿态策略上使用了时域空洞卷积捕获长序列信息，生成的三维姿态特征在输出上更稳定。

对于HRNet输出的二维关节点，利用时域空洞卷积网络进行预测三维姿态，本实施例中时域空洞卷积网络将243个视频帧，每帧通道为34的(分别表示17个二维关节点的x和y轴坐标)作为输入，应用卷积核大小为W＝3，空洞因子d＝1，来输出通道C＝1024的特征图，随后连接批量归一化BatchNorm，激活函数ReLu，正则化dropout。同时应用B＝4个残差网络风格的残差块，来形成一个跳跃连接，每个残差块执行过滤器大小为W＝1的空洞因子的卷积操作。最终分别将每个残差块的输出和正则化的输出对应元素相加进行连接。

步骤4，在步骤2中分配的特征图上通过用于对象检测和分割的基于区域卷积神经网络Mask-RCNN进行人体部位分割以及通过对Mask-RCNN特征层进行卷积的方法回归其软组织UV纹理图，生成人体软组织网格模型Θ的人体表面形状β。

步骤4.1，对特征图进行人体部位分割

对于步骤2分配的特征图，利用Mask-RCNN进行人体部位分割，输出特征图用于UV纹理空间推理任务中。

在本方案中，Mask-RCNN的作用是对人体部位进行分类并生成边界框和掩码，并将Mask-RCNN的特征输出到UV纹理空间推理任务中，使得人体部位分割与UV纹理推理任务共享特征。人体部位分割为图像上的人物像素点UV纹理推理提供更小的起始范围。

步骤4.2，推理软组织UV纹理，生成人体软组织网格模型Θ的人体表面形状β。

对于步骤4.1中通过Mask-RCNN生成的特征图，利用卷积操作回归图像上人物的UV纹理贴图坐标，生成人体软组织网格模型Θ的人体表面形状β。

在本方案中，回归人物UV纹理的作用是建立人体表面形状β的数值表示，捕获人物软组织形变。

步骤5，根据人体软组织网格模型Θ的三维姿态θ和人体表面形状β重构人体软组织网络模型。

对于步骤3输出的三维姿态θ和步骤4产生的人体表面形状β，利用θ确定模型的基本姿态，β确定模型的软组织形变，最终输出重构人体软组织网格模型，使得原图中人物的像素映射到三维密集人体表面模型，实现人物的动作捕捉。

在本方案中，通过膨胀三维姿态骨干生成一个确定了姿态的人体模型，再将人体表面形状β贴合到该人体模型中，由于融合了三维姿态θ和人体表面形状β，因此可以生成一个人体软组织网格模型。

步骤6，人体软组织网格模型重定向

对于重构的人体软组织网格模型，利用人体软组织网格模型判别池进行判别是否正确并进行纠正处理，最终输出纠正的人体软组织网格模型。

在本方案中，使用由数据驱动生成的人体软组织网格模型判别池，判别池的作用是鉴别器充当弱监督，隐含地学习每个关节的角度限制，因此可以纠正输入。

对于生成人体软组织网格模型Θ，可分离为人体表面形状β和姿态θ组成，因此可以独立训练人体表面形状β和姿态θ的鉴别器D_θ和D_β。其中k个关节点的姿态θ的鉴别器D_θ可以分解为k个旋转角度鉴别器和一个的整体姿态鉴别器/>人体表面形状β鉴别器D_β由一个表面形状β的鉴别器D_β，因此一共生成了k+2个鉴别器，其生成的损失函数如下，其中D(Θ)输出值为0或1，1代表该鉴别器鉴别的关节或表面形状为合理，0为不合理。

在本方案中，D_θ鉴别器判断关节的角度是否合理；D_β判断形成的体形是否符合人体结构学，最终输出模型Θ是否合理。并通过最小化损失函数，提供弱监督学习以矫正关节角度，人物形状。

步骤7，人体软组织网格模型重定向

对于转移的风格化动画角色，利用步骤6输出的人体软组织模型Θ拟合到风格化动画角色上，最终输出生成的人体动画。

对于下载的风格化动画角色，利用规则化的方法将其拟合到预测出来的人体软组织网格模型Θ。首先将动画角色拟合到人体软组织网格模型Θ的姿态θ作为初始化，确定基本姿态，再经过将动画角色的初始化网格形状替换为人体软组织网格模型Θ的软组织形变β来进行形状变化建模，最终产生合理的动画。

在本方案中，重定向的作用是将人体软组织模型Θ中的姿态和软组织形变β来进行形状变化建模，人体软组织网格模型Θ的姿态θ的作用是确定人物基本姿态，由于逐点替换人体软组织网格模型Θ的软组织形变β为风格化动画角色的表面形状β，因此可以生成准确，精致的软组织运动的动画角色，将整个视频序列输出的人体软组织网格模型映射到人体动画上。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于人体软组织网格模型的人体动画合成方法，其特征在于，包括以下步骤：

对于转移的风格化动画角色，利用输出的人体软组织模型拟合到风格化动画角色上，最终输出生成的人体动画；

所述将二维姿态输入到用于人体三维姿态估计的基于时域空洞卷积网络预测人体软组织网格模型的三维姿态，包括：

对于深度高分辨率表示网络输出的二维关节点，利用时域空洞卷积网络进行预测三维姿态，时域空洞卷积网络将视频帧，每帧通道为34作为输入，应用卷积核大小为W＝3，空洞因子d＝1，来输出通道C＝1024的特征图，随后连接批量归一化，激活函数，正则化；同时应用B＝4个残差网络风格的残差块，来形成一个跳跃连接，每个残差块执行过滤器大小为W＝1的空洞因子的卷积操作；最终分别将每个残差块的输出和正则化的输出对应元素相加进行连接，得到三维姿态；

所述对于重构的人体软组织网格模型，利用人体软组织网格模型判别池进行判别是否正确并进行纠正处理，包括：

2.根据权利要求1所述的基于人体软组织网格模型的人体动画合成方法，其特征在于，所述将视频帧输入特征金字塔网络提取包含低层特征高分辨率和高层特征高语义信息的特征图，包括：

3.根据权利要求1所述的基于人体软组织网格模型的人体动画合成方法，其特征在于，对于从特征金字塔提取出来同时包含保持高分辨率低层特征和高层特征高语义信息的特征图，在原图上存在对不同的任务有不同的感兴趣区域；利用基于RoIAlign多任务级联模块处理，在原图上对不同任务感兴趣的区域在特征图上准确分配对应的特征图，最终输出到用于人体二维姿态估计的深度高分辨率表示网络进行二维姿态估计任务和用于对象检测和分割的基于区域卷积神经网络进行人体部位分割任务中作为输入。

4.根据权利要求1所述的基于人体软组织网格模型的人体动画合成方法，其特征在于，所述在所述分配的特征图上通过用于对象检测和分割的基于区域卷积神经网络进行人体部位分割，其中所述基于区域卷积神经网络通过对人体部位进行分类并生成边界框和掩码，并将网络的特征输出到UV纹理空间推理任务中，使得人体部位分割与UV纹理推理任务共享特征；人体部位分割为图像上的人物像素点UV纹理推理提供更小的起始范围。

5.根据权利要求1所述的基于人体软组织网格模型的人体动画合成方法，其特征在于，所述根据人体软组织网格模型的三维姿态和人体表面形状重构人体软组织网络模型，包括：

6.根据权利要求1所述的基于人体软组织网格模型的人体动画合成方法，其特征在于，所述对于转移的风格化动画角色，利用输出的人体软组织模型拟合到风格化动画角色上，最终输出生成的人体动画，包括：

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现根据权利要求1至6中任一权利要求所述方法的步骤。

8.一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现根据权利要求1至6中任一权利要求所述方法的步骤。