CN113924600A

CN113924600A - 基于单个图像的实时身体动画

Info

Publication number: CN113924600A
Application number: CN202080041830.2A
Authority: CN
Inventors: 叶戈尔·涅姆钦诺夫; 谢尔盖·戈尔巴秋克; 亚历山大·马什拉博夫; 叶戈尔·斯皮林; 雅罗斯拉夫·索科洛夫; 安德烈·斯米尔金; 伊戈尔·图赫
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2019-06-07
Filing date: 2020-05-20
Publication date: 2022-01-11
Also published as: US10839586B1; US20220207810A1; US20200388064A1; US11727617B2; US11308676B2; WO2020247174A1; US20230343012A1; EP3980974A1; KR20220017900A; US20210019929A1

Abstract

本申请提供用于基于单个图像的身体动画的***及方法。示例性方法包括：接收输入图像，输入图像包括人的身体；将输入图像分割成身体部分及背景部分，其中，身体部分包括与人的身体对应的像素；将模型适配到身体部分，其中，模型被配置成接收表示身体的姿势的姿势参数并且生成输出图像，输出图像包括采用姿势的身体的图像；接收一系列另外的姿势参数，一系列另外的姿势参数中的每一个表示身体的另外的姿势中的一个；将一系列另外的姿势参数中的每一个提供到模型，以生成采用另外的姿势的身体的一系列输出图像；以及基于一系列输出图像生成输出视频。

Description

基于单个图像的实时身体动画

技术领域

本公开大体来说涉及数字图像处理。更具体来说，本公开涉及用于基于单个图像的实时身体动画的方法及***。

背景技术

身体动画可用于许多应用，例如广告、娱乐节目、社交媒体网络、计算机游戏、视频、视频对话、虚拟现实、增强现实等。基于单个相片的人的身体的动画在各种应用中可尤其有用。例如，相片上的人可通过执行与真实视频相似的运动而“活跃起来”，例如跳舞、表演杂技、打斗等等。基于单个相片的人的身体的动画需要创建特定人的身体的现实模型并且使模型在场景中执行动作或交互。

发明内容

以简化形式提供此部分来介绍一系列概念，一系列概念将在以下的具体实施方式部分进行进一步描述。此发明内容不旨在标识要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定要求保护的主题的范围。

根据本公开的一个实施例，提供一种用于基于单个图像的实时身体动画的方法。方法可包括由计算装置接收输入图像。输入图像可包括人的身体。方法还可包括由计算装置将输入图像分割成身体部分及背景部分。身体部分可包括输入图像与人的身体对应的像素。方法还可包括由计算装置将模型适配到身体部分。模型可被配置成接收表示身体的姿势的一组姿势参数且基于一组姿势参数生成输出图像。输出图像可包括采用姿势的身体的图像。方法还可包括由计算装置接收一系列另外的多组姿势参数。另外的多组姿势参数中的每一个可表示身体的另外的姿势中的至少一个。方法可包括由计算装置将一系列另外的多组姿势参数中的另外的每一组提供到模型，以生成采用另外的姿势的身体的一系列输出图像。方法还可包括由计算装置基于一系列输出图像生成输出视频，其中，输出视频的每一帧包括输出图像中的至少一个。

分割输入图像可由神经网络执行。一系列另外的多组姿势参数可基于运动视频生成。运动视频可以采用另外的姿势的另一人为特征。

模型可包括位于三维(3D)空间中的一组关节点。关节点可指示关节在身体中的位置。模型可包括网格，网格包括位于3D空间中的网格点。网格点中的每一个可被分配有一组蒙皮权重。蒙皮权重中的每一个可与关节点中的至少一个相关联。模型可包括纹理映射，纹理映射用于在网格上生成纹理。

一组姿势参数可包括关节点相对于参考点的旋转角度。生成输出图像可包括通过变换网格点来变换网格。网格点中的每一个可旋转一定角度。角度可基于关节点的旋转角度以及蒙皮权重确定。生成输出图像还可包括将纹理映射应用于经变换的网格，以生成经变换的网格的纹理。

模型的适配可包括基于身体部分确定通用模型。通用模型可包括指示身体中的关节的一组关键点及指示身体的形状的一组形状参数。适配还可包括基于身体部分确定身体图像的第一轮廓且基于通用模型确定身体图像的第二轮廓。适配还可包括确定一组成对的点。成对的点中的每一对可包括位于第一轮廓上的第一点及位于第二轮廓上的第二点。适配还可包括基于一组成对的点使通用模型翘曲以获取翘曲模型。适配还可包括基于翘曲模型确定网格以及一组关节点。

一组关节点可基于网格生成。一组关节点可包括一组关键点。纹理映射可通过使网格展开以生成网格的二维(2D)表示而生成。生成纹理映射还可包括针对网格的2D表示的每个面确定面是否对应于身体在输入图像中可见的一部分。如果面对应于身体在输入图像中可见的一部分，则可将身体部分的分割分配到网格的2D表示的面。如果面不对应于身体在输入图像中可见的一部分，则可基于身体部分生成预测面且可将预测面分配到网格的2D表示的面。

一组关键点可由第一神经网络确定，并且通用模型可由第二神经网络确定。

根据另一实施例，提供一种用于基于单个图像的实时身体动画的***。***可包括至少一个处理器及存储处理器可执行代码的存储器，其中，至少一个处理器可被配置成在执行处理器可执行代码时实施用于基于图像的身体实时动画的上述方法的操作。

根据本公开的又一方面，提供一种非暂时性处理器可读介质，非暂时性处理器可读介质存储处理器可读指令。当处理器可读指令由处理器执行时，处理器可读指令使处理器实施用于基于单个图像的实时身体动画的上述方法。

示例的附加目的、优点及新颖特征将部分地在以下说明中阐述，且在审核以下说明及附图后将部分地对所属领域中的技术人员来说变得显而易见或者可通过示例的生成或操作来得到了解。可通过在所附权利要求中特别指出的方法、手段及组合来实现及获取概念的目的及优点。

附图说明

在附图的各图中以示例及非限制的方式示出实施例，其中相同的参考标记表示相似的元件。

图1是示出示例性环境的方块图，在示例性环境中可实践用于基于单个图像的实时身体动画的方法。

图2是示出根据示例性实施例的用于基于单个图像的身体动画的***的方块图。

图3示出示例性输入图像及显示人的轮廓的分割掩模。

图4示出关键点的示例图。

图5示出基于分割掩模确定的示例性第一轮廓以及被确定为通用模型在输入图像上的投影的示例性第二轮廓。

图6示出示例性重心映射、示例性深度映射、示例性法线映射、对应的翘曲重心映射、翘曲深度映射及翘曲法线映射的正面。

图7示出重心坐标的可视化。

图8示出示例性点云以及基于点云生成的网格。

图9示出示例性翘曲深度映射、示例性翘曲法线映射、基于翘曲深度映射及翘曲法线映射生成的示例性点云以及基于点云生成的示例性网格。

图10示出示例性输入图像、适配到输入图像的通用模型的网格以及重构网格。

图11示出示例性3D表面到2D表面的UV展开过程。

图12示出立方体的示例性3D表面到2D表面的UV展开过程。

图13示出示例性3D模型的动画。

图14是示出动画过程期间单个图像的示例性变换的流程图。

图15是示出根据一个示例性实施例的用于基于单个图像的实时身体动画的方法的流程图。

图16示出可用于实施基于单个图像的实时身体动画的方法的示例性计算机***。

具体实施方式

实施例的以下详细说明包括对附图的参考，附图形成详细说明的一部分。此部分中描述的方法不是权利要求的现有技术且通过包含在此部分中而不被承认为现有技术。附图示出根据示例性实施例的例示。这些示例性实施例(在本文中也被称为“示例”)被足够详细地描述以使所属领域中的技术人员能够实践本主题。在不背离要求保护的范围的条件下，可对实施例进行组合，可利用其他实施例或者可进行结构、逻辑及操作上的改变。因此，以下详细说明不应被视为具有限制性意义且范围由所附权利要求及其等效内容界定。

可使用各种技术来实施本公开。例如，可通过在计算机***上运行的软件和/或通过利用微处理器的组合或其他专门设计的应用专用集成电路(ASIC)、可编程逻辑装置或其任意组合的硬件来实施本文中描述的方法。具体来说，可通过驻留在非暂时性存储介质(例如盘驱动器或计算机可读介质)上的一系列计算机可执行指令来实施本文中描述的方法。应注意，本文中所公开的方法可由计算装置(例如移动装置、个人计算机、服务器、网络节点等等)来实施。

就本专利文件的目的而言，除非另有说明或在其使用上下文中另有明确的意图，否则用语“或(or)”和“及(and)”应指“及/或(and/or)”。除非另有说明或者使用“一个或多个”明显不合适，否则用语“一个(a)”应指“一个或多个(one or more)”。用语“包括(comprise)”、“包括(comprising)”、“包括(include)”及“包括(including)”是可互换的而并非旨在进行限制。例如，用语“包括(including)”应被解释为“包括但不限于”。

本公开涉及用于基于单个图像的实时身体动画的方法及***。本公开的方法及***可被设计成在移动装置(例如智能手机、平板电脑或移动电话等)上实时工作，而不需要连接到互联网或使用服务器端计算资源，但实施例可扩展到涉及网络服务或基于云的资源的方法。

本公开的一些实施例可使得能够实现基于单个输入图像的人的身体的实时动画。可分割输入图像以获取身体的分割掩模。可对输入图像进行分析以获取表示身体的关节的关键点的图形并恢复身体的姿势。可将通用模型适配到身体的输入图像及关键点的图形。通用模型可在具有不同身体形状及姿势的不同人的图像数据集上进行训练。可进一步使用通用模型及分割掩模生成将被用于动画的身体的3D模型。3D模型实质上可适配到身体的轮廓。3D模型可包括指示关节在身体中的位置的一组关节点、3D点的重构网格、重构网格中的3D点的蒙皮权重、以及用于对预收缩网格进行纹理化的纹理映射。3D模型可接收表示姿势的一组姿势参数。可基于3D模型及一组姿势参数来对采用姿势的身体的图像进行渲染。

可进一步使用3D模型在输入图像中对身体进行动画绘制。例如，可向3D模型提供表示另外的姿势的一系列另外的多组姿势参数，以生成一系列帧。所生成的帧中的每一帧可包括采用另外的姿势中的一个的身体的图像。可进一步使用所生成的帧生成以执行运动的身体为特征的视频，其中，在执行运动时，身体采用另外的姿势。可从运动数据库选择一系列另外的多组姿势参数。运动数据库中的运动中的每一个可以一组姿势参数的形式表示运动。可使用执行运动的真实演员的运动捕捉移动来预先生成运动数据库中的运动。也可使用通用模型及用于通用模型可视化的编辑器预先生成运动数据库中的运动。

现在参照附图描述示例性实施例。附图是理想化示例性实施例的示意性例示。因此，本文中所论述的示例性实施例不应被理解为限制于本文中呈现的特定例示，相反，这些示例性实施例可包括偏差且不同于本文中呈现的例示，对于所属领域中的技术人员来说应显而易见。

图1是示出示例性环境100的方块图，在示例性环境100中可实践用于基于单个图像的实时身体动画的方法。环境100可包括计算装置105。计算装置105可指移动装置，例如移动电话、智能手机或平板电脑。然而，在另外的实施例中，计算装置105可指个人计算机、膝上型计算机、上网本、机顶盒、电视装置、多媒体装置、个人数字助理、游戏控制台、娱乐***、信息娱乐***、车载计算机或任何其他计算装置。

在某些实施例中，计算装置105可包括用于基于单个图像的身体动画的***200。***200可被实施为存储在计算装置110的存储器中且可由计算装置110的一个或多个处理器执行的指令。***200可接收输入图像110及一组姿势参数130。输入图像可至少包括人的身体115以及背景120。在一些其他实施例中，输入图像可存储在计算装置110中或者存储在以通信方式与计算装置110连接的基于云的计算资源中。

一组姿势参数130可表示身体115可采用的一个或多个姿势。在一些实施例中，姿势参数可表示与身体115相关联的关键点相对于三维(3D)空间中的参考点和/或3D空间中的轴线的旋转角度。例如，关键点可表示与身体115相关联的骨架中的关节(也被称为关节点)。当根据旋转角度旋转关键点时，身体115可采用与旋转角度相关联的姿势。

在一些实施例中，***200可对输入图像进行分析且生成帧150。帧150可包括采用与姿势参数相关联的姿势的身体115的图像。可选地，帧150还可包括其他物体的图像，例如输入图像110的背景120的图像。一组姿势参数130可表示身体115在特定运动期间可采取的一组连续的姿势，例如舞蹈动作、杂技跳跃、打斗动作等等。***200可生成一组连续的帧，其中，连续的帧中的每一帧对应于连续的姿势参数中的一个。***200可基于一组连续的帧进一步生成输出视频140。输出视频可包括身体115执行由一组连续的姿势参数定义的特定运动的图像。

图2是示出根据示例性实施例的用于基于单个图像的身体动画的***200的方块图。***200可包括分割及姿势估测模块205、通用模型适配模块210、重构模块215、装配及蒙皮模块220、纹理模块225、运动数据库230、及动画模块235。

分割及姿势估测模块205可被配置成接收输入图像110。输入图像110可包括表示人的身体115的图像的像素。模块205可被配置成生成分割掩模。分割掩模可为显示输入图像110上的人的轮廓的图像。

图3示出图像110的示例及显示人的轮廓的分割掩模310。分割掩模可包括与人的身体115的像素(身体部分)对应的“白色”像素320以及与输入图像110中的静止像素(背景部分)对应的“黑色”像素330。

身体部分320与背景部分330中的输入图像的分割可由神经网络来施行，神经网络被配置成针对输入图像110上的每一个像素确定像素是否对应于人的身体。执行分割的神经网络的架构可包括顺序卷积，随后是转置卷积及上采样。当数据从较早的层传递到最后的层时，架构还可包括对称的层以及在这些对称的层之间的“桥”。在一些实施例中，为实现更快的推断，可减小输入图像的形状。在某些实施例中，可对输入图像应用填充，以使神经网络在任何形状的图像上运行。可将分割掩模310进一步提供到网格重构模块215及纹理模块225。

返回图2，模块205还可基于输入图像确定输入图像中的身体的姿势。姿势可以图形的形式确定。图形可包括一组关键点以及连接关键点中的一些关键点的边缘。

图4示出示例性图形410及示例性图形420。图形410及图形420二者均包括与人的关节或人的关键部位(例如眼睛、鼻子、脖子、肩膀、腿、肘部等)有关的关键点。图形420包括比图形410多的人的面部区域中的关键点。

另外的神经网络可被配置成基于输入图像确定关键点的预定义图形(例如图形410或图形420)。每一个关键点可在输入图像的平面中的XY坐标及3D空间中的XYZ坐标二者中来表示。用于确定关键点的神经网络可具有带有特殊架构的轻量级卷积。例如，可使用单独的卷积确定XY坐标且确定XYZ坐标。可基于大量准备好的可证明信息(“地面实况”数据)以监督的方式训练神经网络。可将关键点的图形进一步提供给通用模型适配模块210。

返回图2，通用模型适配模块210可被配置成基于输入图像以及关键点的图形生成通用模型。通用模型可表示一般人的外表及人的姿势。通用模型可包括形状参数。形状参数可包括表示人的身体的形状的3D点的向量。通用模型还可包括姿势参数的向量，其中，姿势参数中的每一个确定身体中的至少关节的轴角旋转。身体的关节可对应于关键点的图形中的关键点。在一些实施例中，可使用通用模型生成表示人的身体的网格。

可将通用模型设计得足够复杂，以涵盖人的各种形状以及姿势。另一方面，通用模型在计算方面并不复杂。通用模型可以是固定零模型的参数化函数、形状参数及姿势参数。通用模式可表示真人可执行的各种不同形状及姿势的人体。将通用模型表示为参数化函数可使得能够节省计算装置的存储器，且可使得能够使用优化的矩阵计算来计算运动，以提高计算速度。

通用模型可由神经网络在两个数据集上进行训练。第一数据集可包括对呈不同姿势的人的3D扫描。第二数据集可包括对不同形状的人的身体的扫描。训练的目标是优化通用模型的可训练参数，以使扫描与使用通用模型重构的图像之间的差异最小化。由于两个数据集可不同，因此可基于第一数据集训练与姿势相关的通用模型的参数，且可基于第二数据集训练与形状相关的参数

通用模型还可包括与人的头部相关的姿势参数。与头部相关的姿势参数可用于表示眉毛、下巴等等。可使用包括面部形状及面部表情的第三数据集学习与人的头部相关的姿势参数。在第一数据集、第二数据集及第三数据集上训练的参数可对齐，以使参数以相同的方式影响通用模型，即使这些参数是在不同的数据集上训练的。

在一些实施例中，由通用模型学习的参数可包括蒙皮权重、形状系数、姿势参数及关节回归因子。蒙皮权重可表示用于确定每一个关节如何影响与通用模型相关联的网格的每一个顶点的值。网格可表示人的身体的形状。可使用蒙皮权重对网格进行动画绘制。蒙皮权重可由N_joints×N_vertices矩阵表示，其中，N_joints是关节的数量，且N_vertices是网格中的顶点的数量。形状系数可用于使用形状参数变更初始通用模型，以使通用模型在身高、体重、腰围、低臀围等方面适当成形。关节回归因子可包括用于确定人的关节相对于人的形状的初始位置的值。关节参数可由与蒙皮权重的矩阵相似的矩阵来表示。在训练之后，通用模型可基于一组形状参数及一组姿势参数生成人体的形状及姿势。

可使用神经网络将通用模型适配到输入图像110。神经网络可被配置成通过卷积编码器传递输入图像。卷积编码器的输出可进一步传递到迭代回归因子，迭代回归因子输出通用模型的形状参数及姿势参数。迭代回归因子可使重投影误差最小化。重投影误差可被计算为输入图像上的人的真实关节与预测关节之间的差。

其中，K是关节的数量，x_real(i)是真实关节的坐标，且x_pred(i)是预测关节的坐标。在重投影误差中可仅考虑当前可见的关节。

迭代回归因子可包括生成式对抗网络(GAN)。GAN可用于确保所生成的通用模型看起来像真实的人网格。可使用传统的GAN目标，传统的GAN目标由以下公式给出：

min_Dmax_GE_x～Pdatalog(D(x))+E_Z～Pz(Z)log(1-D(G(z)))

为在移动装置上实施神经网络，可通过与MobileNet中使用的方法相似的方法来执行卷积。GAN可以是使用如TensorFlow的框架的能力来实施。可将通用模型提供给重构模块215。

重构模块215可被配置成基于通用模型及分割掩模生成将在动画中使用的3D模型。通用模型可描述有限的人体形状空间。通用模型可不表示衣服、头发、手上的手指位置、以及人的其他特定细节。通用模型可用于创建3D模型。3D模型可绘制尽可能多的特定人形状的细节。具体来说，3D模型可被构造成实质上精确地适配到输入图像中的人的轮廓。换句话说，3D模型可被构造成覆盖分割掩模中的轮廓。在另外的实施例中，3D模型可被构造成覆盖输入图像上的人的头发、衣服及手指，以使3D模型的动画看起来逼真。

3D模型可包括位于三维(3D)空间中的重构网格以及一组关节点。关节点可指示关节在身体中的位置。重构网格可包括与通用模型的网格的3D点不同的3D点。重构网格的点中的每一个可被分配有一组蒙皮权重。蒙皮权重中的每一个可与关节点中的至少一个相关联。3D模型还可包括纹理映射，以在网格上生成纹理。

模块215可生成由模块210生成的通用模型的深度映射、法线映射及重心映射。在一些实施例中，深度映射、法线映射及重心映射可经由通用模型的前侧及后侧二者的便携式网络图形(png)图像来呈现。模块215可确定输入图像中的人的身体的第一轮廓及第二轮廓。可基于分割掩模来确定第一轮廓。第二轮廓可被确定为通用模型在输入图像上的投影。

图5示出基于分割掩模确定的示例性第一轮廓以及被确定为通用模型在输入图像上的投影的示例性第二轮廓。模块215可将位于第一轮廓的周线上的边界点540与位于第二轮廓的周线上的边界点550相匹配。边界点540可使用输入图像中的身体的关键点530的坐标来确定。关键点530可由模块205中的神经网络确定。边界点550可基于关节位置来确定，关节位置是基于通用模型确定的。边界点540中的每一个可作为第一轮廓的周线上的最接近关键点530中的一个的点被发现。边界点550中的每一个可作为第二轮廓的周线上的最接近基于通用模型确定的关节位置中的一个的点被发现。

在边界点540与边界点550匹配之后，模块215可在边界点540与边界点550之间进行线性插值560，以获取位于边界点之间的点。使用关键点530及关节位置来匹配边界点可比利用动态规划基于将距离最小化来匹配边界点更快且更准确，这是由于其是在当前现有方法中施行。

可通过使用关于边界点之间的点的信息的平均值坐标算法使法线映射、深度映射及重心映射进一步翘曲。因此，翘曲法线映射、翘曲重心映射及翘曲深度映射与分割掩模中的原始的人的轮廓适配，且可进一步用于确定动画的3D模型。

图6示出示例性重心映射610、示例性深度映射620、示例性法线映射630以及对应的翘曲重心映射640、翘曲深度映射650及翘曲法线映射660的正面。模块215可通过针对每一个点(例如输入图像中的像素)存储坐标(x，y)及z值来存储深度映射。可通过针对每一个(x，y)坐标存储在此点处的法线向量来存储法线映射，法线向量是轴坐标x、y、z中的3D向量(Nx，Ny，Nz)。可通过针对每一个(x，y)坐标存储以下内容来存储重心映射：1)与通用模型相关联的网格中的面的索引，其中，面包括投影点(x，y)；以及2)前两个重心坐标(α及β)。第三个重心坐标可从α及β计算出来。

图7示出重心坐标的可视化。

返回图2，模块215可进一步构建重构网格。首先，可基于翘曲深度映射及翘曲法线映射生成点云。在翘曲深度映射及翘曲法线映射中，每一个点由6个值表示：坐标(x，y，z)及法线向量(Nx，Ny，Nz)。生成点云可包括生成(x，y，z)点的密集点云。用于身体的前侧表面的第一网格与用于身体的后侧表面的第二网格可通过穿过点云而进一步单独生成。可进一步将第一网格与第二网格合并成表示身体的3D表面的一个重构网格。重构网格可与分割掩模中的轮廓适配。在生成重构网格期间，模块215可在翘曲之前针对网格的每一个顶点存储通用模型的深度映射及法线映射的(x，y)坐标。

图8示出示例性点云810以及基于点云810生成的网格820。

图9示出示例性翘曲深度映射910、示例性翘曲法线映射920、基于翘曲深度映射910及翘曲法线映射920生成的示例性点云930、以及基于点云930生成的示例性网格940。

图10示出示例性输入图像1010、与输入图像1010适配的通用模型的网格1020、以及3D模型的重构网格1030。重构网格1030可与输入图像1010中的人的轮廓相匹配。

返回图2，装配及蒙皮模块220可确定由模块215生成的重构网格中的顶点的蒙皮权重。关节点的蒙皮权重及位置可进一步用于对网格进行动画绘制。

在一些实施例中，关节点的位置可被认为与在模块210中确定的通用模型中的位置相同。在其他实施例中，可通过对通用模型的蒙皮权重及关节回归因子应用翘曲来导出关节点的位置。在某些实施例中，关节点的位置可通过将关节点的位置翘曲成起始姿势来确定。翘曲可基于关节点在起始姿势中的位置的2D投影来确定。

可使用以下程序确定重构网格中的顶点的蒙皮权重。对于重构网格中的每一个顶点，模块220可确定翘曲深度映射、翘曲法线映射及翘曲重心映射上的(x，y)坐标。模块220可基于翘曲重心映射进一步确定通用模型中与(x，y)坐标对应的点。模块220可基于点进一步确定通用模块的网格的面的索引及面的重心坐标。点的蒙皮权重可被确定为面的三个顶点的蒙皮权重(根据通用模型)的加权平均值，其中，权重由面的重心坐标确定。确定蒙皮权重的此种方式可比翘曲蒙皮权重矩阵更快，这是由于确定蒙皮权重的此种方式使得能够飞快确定顶点的蒙皮权重，而无需处理及存储重构网格中所有顶点的所有蒙皮权重。然而，在某些实施例中，可针对重构网格的所有顶点确定蒙皮权重矩阵并将其存储在计算装置的存储器中。

纹理模块225可为重构网格生成纹理映射。可使用输入图像及分割掩模生成纹理映射。生成纹理映射可包括重构网格的UV展开，以获取UV纹理映射。纹理映射可以如下的方式设计：所有其他重构网格均具有相同的UV纹理映射，即使其他重构网格在轮廓、顶点的数量及面的数量方面可能有所不同。此可使得能够将纹理从针对输入图像及分割掩模生成的一个重构网格转移到针对相同输入图像及相同分割掩模生成的另一重构网格。此也可使得能够修改纹理映射以改变例如输入图像中的颜色及衣服。

UV展开可被定义为将3D物体的表面平整成2D表面的过程。UV是表面的点的顶点的坐标(也被称为纹理坐标)。

图11示出示例性3D表面1110到2D表面1120的UV展开过程。

图12示出立方体1210的示例性3D表面到2D表面1220的UV展开过程。2D表面1220可用作立方体1210的3D表面的纹理映射。应注意，位于立方体1210的边缘1230附近的两个不同面上的两个邻近的点可对应于2D表面中以隔开方式位于纹理映射的两个不同部分处的两个点。

在生成重构网格期间，模块215可追踪重构网格中的面的三个顶点与通用模型的网格中的三个点A、B及C(未必是顶点)之间的对应关系。通用模型还可包括纹理映射。模块225可确定通用模型的纹理映射上的与重构网格中的面的顶点对应的坐标。使用由三个点A、B及C确定的通用模型的纹理映射上的三角形，可进一步生成重构网格的纹理映射上的面。如果三个点A、B及C位于通用模型的纹理映射的不同部分上，则三角形A、B、C可被分成多个三角形，其中，三角形中的每一个位于通用模型的纹理映射的相同部分上。所描述的方法使得能够为具有相同边界及语义的重构网格创建UV展开。例如，在针对3D模型的所有重构网格生成的纹理映射中，人的面部的纹理可位于相同的位置处。

重构网格的投影与人的轮廓相匹配。因此，通过将包括人的身体在内的输入图像的对应分割视为纹理的可见部分，重构网格的前侧(纹理的可见部分)可被纹理化。修复重构网格的纹理的看不见的部分可以不同的方式执行。例如，可通过将前侧的纹理镜像化或者基于前侧合成纹理来对重构网格的相对侧进行纹理化。也可使用基于算法或神经网络的修复方法来填充纹理的所有看不见的部分。修复可使用基于坐标的方法来执行，其中，纹理不被表示为彩色图片，而是原始输入图像上的点的坐标，其中，颜色是从点获取的。通过此种方式，纹理可具有清晰及逼真的颜色而不会模糊。

可基于来自不同视角的人的图像来训练用于修复看不见的部分的神经网络。通过神经网络可预测看不见的纹理。在训练神经网络期间，3D模型可生成具有从某个角度看不到的纹理的图像。然后可将经渲染的图像与“地面实况”进行比较。然后可使用反向传播确定神经网络的权重。

在一些实施例中，为获取连贯且可靠的看起来良好的纹理网格，可首先在由3D模型生成的图像中绘制看不见的部分且然后将其转移到纹理映射。3D模型可从不同的视角生成图像，其中突出显示看不见的部分。然后可使用生成式神经网络或更简单的算法来填充图像上的“洞”。纹理网格可反投影到3D模型的纹理映射，从而使用恢复的零件替换以前缺少的零件。

返回图2，动画模块235可基于一系列多组姿势参数生成具有输入图像中的人的运动的特征的输出视频的帧。一系列多组姿势参数可存储在运动数据库230中。一系列多组姿势参数可表示至少一个运动。一系列多组姿势参数中的每一组可用于生成输出视频的一个帧。可通过使用由真实演员执行的移动的运动捕捉并将这些移动数字化来获取一系列多组姿势参数。在一些实施例中，一系列多组姿势参数可由在编辑器中使用通用模型操作的3D运动设计者人工生成。运动数据库可包括表示不同运动的不同系列的多组姿势参数，例如舞蹈、杂技等等。

可通过使用与姿势对应的一组姿势参数来重新计算3D模型来生成每一帧。因此，可生成重构网格的顶点在3D空间中的新的位置，并且使用纹理映射对其进行纹理化，以生成采用姿势的人的身体的图像。图像可***到框架中。可使用动画绘制装配模型的标准动画绘制程序，标准动画绘制程序包括通过以下公式计算每一个关节点的旋转矩阵：

其中，rot(...)是4×4刚性矩阵的旋转部分，且j是4×4刚性矩阵的平移部分。

可将旋转矩阵转换成对偶四元数、与蒙皮权重混合、归一化且然后转换回刚性变换矩阵。需要刚性变换矩阵来确保混合变换的刚性并防止蒙皮伪影。具有对偶四元数的旋转-平移运动(刚性变换)可被定义为：

对偶四元数可按如下公式进行混合：

其中w-是蒙皮权重系数，q-是变换对偶四元数的向量。在其他实施例中，可使用线性混合蒙皮来混合旋转矩阵。在这些实施例中，旋转矩阵可通过旋转矩阵的线性组合的求和来混合，其中，线性组合的系数被归一化。

图13示出示例性3D模型1300的动画。图像1310包括由3D模型基于来自一系列多组姿势参数中的第一组姿势参数生成的身体的图像。图像1320包括由3D模型基于来自一系列多组姿势参数中的第二组姿势参数生成的身体的图像。

图14是示出在动画绘制期间单个图像的示例性变换的流程图。过程1400可由图2中所示的***200来执行。输入图像110可包括人的身体。可将输入图像110提供给分割及姿势估测模块205，以生成人的轮廓的分割掩模310。模块205还可生成指示人的身体的关节的位置的一组关键点410。通用模型适配模块210可进一步使用一组关键点410及输入图像来生成通用模型1020。可将通用模型1020及分割掩模310提供给重构模块215，以生成将在动画中使用的3D模型1030。3D模型1030可由装配及蒙皮模块220进一步处理以估测蒙皮权重。可进一步使用3D模型1030的重构网格及分割掩模生成纹理映射以对重构网格进行纹理化。图像1410示出由3D模型生成的图像，其中，重构网格使用纹理映射进行纹理化。图像1420示出包括由动画模块235基于一组姿势参数生成的图像的帧。

图15是示出根据一个示例性实施例的用于基于单个图像的实时身体动画的方法1500的流程图。方法1500可由计算装置105及***200执行。

方法1500可在方块1505中以接收输入图像开始进行。输入图像包括人的身体。

在方块1510中，方法1500可包括将输入图像分割成身体部分及背景部分。身体部分可包括与人的身体对应的输入图像的像素。

在方块1515中，方法1500可包括将模型适配到身体部分。模型可被配置成接收表示身体的姿势的一组姿势参数并且基于一组姿势参数生成输出图像。输出图像可包括采用姿势的身体的图像。

在方块1520中，方法1500可包括接收一系列另外的多组另外的姿势参数。另外的多组中的每一个可表示身体的另外的姿势中的至少一个。

在方块1525中，方法1500可包括将一系列另外的多组姿势参数中的另外的每一组提供到模型，以生成采用另外的姿势的身体的一系列输出图像。

在方块1530中，方法1500可包括基于一系列输出图像生成输出视频。输出视频的每一帧可包括一系列输出图像中的至少一个输出图像。

图16示出可用于实施本文中描述的方法的示例性计算***1600。计算***1600可在类似计算装置105及***200的上下文中实施。

如图16中所示，计算***1600的硬件组件可包括一个或多个处理器1610以及存储器1620。存储器1620部分地存储由处理器1610执行的指令及数据。当***1600运行时，存储器1620可存储可执行代码。***1600还可包括可选的大容量存储装置1630、可选的便携式存储介质驱动器1640、一个或多个可选的输出装置1650、一个或多个可选的输入装置1660、可选的网络接口1670以及一个或多个可选的***装置1680。计算***1600还可包括一个或多个软件组件1695(例如，可实施本文中描述的肖像动画方法的软件组件)。

图16中所示的组件被绘制为经由单个总线1690进行连接。组件可通过一个或多个数据传输构件或数据网络进行连接。处理器1610与存储器1620可经由本地微处理器总线进行连接，且大容量存储装置1630、***装置1680、便携式存储装置1640及网络接口1670可经由一个或多个输入/输出(I/O)总线进行连接。

可使用磁盘驱动器、固态磁盘驱动器或光盘驱动器实施的大容量存储装置1630是用于存储供处理器1610使用的数据及指令的非易失性存储装置。大容量存储装置1630可存储用于实施本文中描述的实施例的***软件(例如，软件组件1695)。

便携式存储介质驱动器1640与便携式非易失性存储介质(例如光盘(CD)或数字视频光盘(DVD))结合操作，以向计算***1600输入数据及代码以及从计算***1600输出数据及代码。用于实施本文中描述的实施例的***软件(例如，软件组件1695)可存储在此种便携式介质上且经由便携式存储介质驱动器1640输入到计算***600。

可选的输入装置1660提供用户接口的一部分。输入装置1660可包括用于输入字母数字及其他信息的字母数字小键盘(例如键盘)或者定点装置(例如鼠标、轨迹球、指示笔或光标方向键)。输入装置1660还可包括照相机或扫描仪。另外，如图16中所示的***1600包括可选的输出装置1650。合适的输出装置包括扬声器、打印机、网络接口及监视器。

网络接口1670可用于经由一个或多个通信网络(例如一个或多个有线网络、无线网络或光学网络，包括例如互联网、内联网、局域网(LAN)、广域网(WAN)、蜂窝电话网络、蓝牙无线电及基于IEEE 802.11的射频网络等)与外部装置、外部计算装置、服务器及联网***进行通信。网络接口1670可为网络接口卡，例如以太网卡、光学收发器、射频收发器或可发送及接收信息的任何其他类型的装置。可选的***装置1680可包括任何类型的计算机支持装置，以向计算机***添加附加功能。

包含在计算***1600中的组件旨在表示广泛类别的计算机组件。因此，计算***1600可以是服务器、个人计算机、手持计算装置、电话、移动计算装置、工作站、小型计算机、大型计算机、网络节点或任何其他计算装置。计算***1600还可包括不同的总线配置、联网平台、多处理器平台等等。可使用各种操作***(OS)(包括UNIX、Linux、Windows、MacintoshOS、Palm OS及其他合适的操作***)。

上述功能中的一些功能可由存储在存储介质(例如，计算机可读介质或处理器可读介质)上的指令组成。指令可由处理器检索及执行。存储介质的一些示例是存储器装置、磁带、磁盘等。当由处理器执行时，指令可进行操作以指导处理器根据本发明进行操作。所属领域中的技术人员熟悉指令、处理器及存储介质。

值得注意的是，适合执行本文中描述的处理的任何硬件平台均合适与本发明一起使用。本文中使用的用语“计算机可读存储介质(computer-readable storage medium)”及“计算机可读存储介质(computer-readable storage media)”是指参与向处理器提供指令以供执行的任何介质。此种介质可采取多种形式，包括但不限于非易失性介质、易失性介质及传输介质。非易失性介质包括例如光盘或磁盘，例如固定盘。易失性介质包括动态存储器，例如***随机存取存储器(RAM)。传输介质包括同轴电缆、铜配线及光纤等，包括包含总线的一个实施例的配线。传输介质也可采用声波或光波的形式，例如在射频(RF)及红外(IR)数据通信期间生成的声波或光波。计算机可读介质的常见形式包括例如软磁盘、软盘、硬盘、磁带、任何其他磁介质、光盘只读存储器(ROM)盘、DVD、任何其他光学介质、具有标记或孔图案的任何其他物理介质、RAM、可编程只读存储器(PROM)、电可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、任何其他存储芯片或盒式磁盘、载波或计算机可读取的任何其他介质。

在将一个或多个指令的一个或多个序列传送到处理器以供执行时，可涉及各种形式的计算机可读介质。总线将数据传送到***RAM，处理器从***RAM检索并执行指令。***处理器接收到的指令可在处理器执行之前或之后可选地存储在固定磁盘上。

因此，已描述用于基于单个图像的实时身体动画的方法及***。尽管已参照具体的示例性实施例描述了实施例，然而显而易见的是，在不背离本申请的更广泛的精神及范围的条件下，可对这些示例性实施例进行各种修改及改变。因此，说明书及附图被认为是示例性的而不是限制性的。

Claims

1.一种用于基于单个图像的身体动画的方法，所述方法包括：

由计算装置接收输入图像，所述输入图像包括人的身体；

由所述计算装置将所述输入图像分割成身体部分及背景部分，其中，所述身体部分包括所述输入图像的像素，所述像素对应于所述人的身体；

由所述计算装置将模型适配到所述身体部分，其中，所述模型被配置成：

接收表示所述身体的姿势的一组姿势参数；并且

基于一组所述姿势参数生成输出图像，所述输出图像包括采用所述姿势的身体的图像；

由所述计算装置接收一系列另外的多组姿势参数，另外的多组所述姿势参数中的每一组表示身体的另外的姿势中的至少一个；

由所述计算装置将一系列另外的多组所述姿势参数中的每一组提供到所述模型，以生成采用另外的姿势的所述身体的一系列输出图像；以及

由所述计算装置并且基于一系列所述输出图像生成输出视频，其中，所述输出视频的每一帧包括所述输出图像中的至少一个。

2.根据权利要求1所述的方法，其中，分割所述输入图像由神经网络执行。

3.根据权利要求1所述的方法，其中，一系列另外的多组所述姿势参数基于运动视频生成，其中，所述运动视频的帧以采用另外的所述姿势的另一人为特征。

4.根据权利要求1所述的方法，其中，所述模型包括：

在三维(3D)空间中的一组关节点，所述关节点指示关节在所述身体中的位置；

网格，所述网格包括在3D空间中的网格点，所述网格点中的每一个被分配有一组蒙皮权重，所述蒙皮权重中的每一个与所述关节点中的至少一个相关联；以及

纹理映射，以在所述网格上生成纹理。

5.根据权利要求4所述的方法，其中：

一组所述姿势参数包括所述关节点相对于参考点的旋转角度；并且

生成所述输出图像包括：

通过变换所述网格点来变换所述网格，其中，所述网格点中的每一个旋转一定角度，所述角度是基于所述关节点的旋转角度以及所述蒙皮权重确定的；以及

将所述纹理映射应用于经变换的网格，以生成经变换的网格的纹理。

6.根据权利要求4所述的方法，其中，适配所述模型包括：

基于所述身体部分确定通用模型，所述通用模型包括指示所述身体中的关节的一组关键点及指示所述身体的形状的一组形状参数；

基于所述身体部分确定身体图像的第一轮廓；

基于所述通用模型确定所述身体图像的第二轮廓；

确定一组成对的点，其中，所述成对的点中的每一对包括位于所述第一轮廓上的第一点及位于所述第二轮廓上的第二点；

基于一组所述成对的点使所述通用模型翘曲以获取翘曲模型；以及

基于所述翘曲模型确定所述网格以及一组所述关节点。

7.根据权利要求6所述的方法，其中，一组所述关节点是基于所述网格生成的。

8.根据权利要求6所述的方法，其中，一组所述关节点是一组所述关键点。

9.根据权利要求6所述的方法，其中，所述纹理映射是通过以下方式生成的：

使所述网格展开以生成所述网格的二维(2D)表示；并且

针对所述网格的2D表示的每个面：

确定所述面是否对应于所述身体在所述输入图像中可见的一部分；

基于确定所述面对应于所述身体在所述输入图像中可见的一部分，将所述身体部分的分割分配到所述网格的2D表示的所述面；并且

基于确定所述面不对应于所述身体在所述输入图像中可见的一部分：

基于所述身体部分生成预测面；并且

将所述预测面分配到所述网格的2D表示的所述面。

10.根据权利要求6所述的方法，其中，一组所述关键点是由第一神经网络确定的，并且所述通用模型是由第二神经网络确定的。

11.一种用于基于单个图像的身体动画的***，所述***包括至少一个处理器、存储处理器可执行代码的存储器，其中，至少一个所述处理器被配置成在执行所述处理器可执行代码时实施以下操作：

接收输入图像，所述输入图像包括人的身体；

将所述输入图像分割成身体部分及背景部分，其中，所述身体部分包括所述输入图像的像素，所述像素对应于所述人的身体；

将模型适配到所述身体部分，其中，所述模型被配置成：

接收表示所述身体的姿势的一组姿势参数；并且

基于一组所述姿势参数生成输出图像，所述输出图像包括采用所述姿势的所述身体的图像；

接收一系列另外的多组姿势参数，一系列另外的所述姿势参数中的每一个表示所述身体的另外的姿势中的至少一个；

将另外的多组所述姿势参数中的每一组提供到所述模型，以生成采用另外的姿势的所述身体的一系列输出图像；以及

基于一系列所述输出图像生成输出视频，其中，所述输出视频的每一帧包括所述输出图像中的至少一个。

12.根据权利要求11所述的***，其中，分割所述输入图像由神经网络执行。

13.根据权利要求11所述的***，其中，一系列另外的所述姿势参数基于运动视频生成，其中，所述运动视频的帧以采用另外的所述姿势的另一人为特征。

14.根据权利要求11所述的***，其中，所述模型包括：

纹理映射，以在所述网格上生成纹理。

15.根据权利要求14所述的***，其中：

所述姿势参数包括所述关节点相对于参考点的旋转角度；并且

生成所述输出图像包括：

16.根据权利要求14所述的***，其中，适配所述模型包括：

基于所述身体部分确定身体图像的第一轮廓；

基于所述通用模型确定所述身体图像的第二轮廓；

基于一组所述成对的点使所述通用模型翘曲以获取重构模型；以及

基于所述重构模型确定所述网格以及一组所述关节点。

17.根据权利要求16所述的***，其中，一组所述关节点基于所述网格生成。

18.根据权利要求16所述的***，其中，一组所述关节点是一组所述关键点。

19.根据权利要求16所述的***，其中，所述纹理映射是通过以下方式生成的：

使所述网格展开以生成所述网格的二维(2D)表示；并且

针对所述网格的2D表示的每个面：

确定所述面是否对应于所述身体在输入图像中可见的一部分；

基于确定所述面对应于所述身体在输入图像中可见的一部分，将所述身体部分的分割分配到所述网格的2D表示的所述面；并且

基于确定所述面不对应于所述身体在输入图像中可见的一部分：

基于所述身体部分生成预测面；并且

将所述预测面分配到所述网格的2D表示的所述面。

20.一种非暂时性处理器可读介质，具有存储在所述非暂时性处理器可读介质上的指令，当所述指令由一个或多个处理器执行时，使一个或多个所述处理器实施用于基于单个图像的身体动画的方法，所述方法包括：

接收输入图像，所述输入图像包括人的身体；

将模型适配到所述身体部分，其中，所述模型被配置成：

接收表示所述身体的姿势的姿势参数；并且

基于所述姿势参数生成输出图像，所述输出图像包括采用所述姿势的所述身体的图像；

接收一系列另外的姿势参数，一系列另外的所述姿势参数中的每一个表示所述身体的另外的姿势中的至少一个；

将一系列另外的所述姿势参数中的另外的每一组姿势参数提供到所述模型，以生成采用另外的所述姿势的所述身体的一系列输出图像；以及

基于一系列所述输出图像生成输出视频，其中，所述输出视频的每一帧包括一系列所述输出图像中的至少一个。