CN101473352A

CN101473352A - 表演驱动的脸部动画

Info

Publication number: CN101473352A
Application number: CNA2007800228088A
Authority: CN
Inventors: 保劳格·哈瓦尔达尔; 马克·萨格尔; 乔希·奥乔亚
Original assignee: Sony Corp; Sony Pictures Entertainment Inc
Current assignee: Sony Corp; Sony Pictures Entertainment Inc
Priority date: 2006-04-24
Filing date: 2007-04-24
Publication date: 2009-07-01
Also published as: US20110175921A1; AU2007244921B2; JP2013054761A; EP2011087A4; EP2011087A2; US20100045680A1; WO2007127743A3; NZ572324A; JP2009534774A; CA2650796C; AU2007244921A1; WO2007127743A2; US8279228B2; CA2650796A1; JP5344358B2

Abstract

一种使数字脸部模型动画化的方法，该方法包括：定义多个动作单元；经由动作者的表演来校准该多个动作单元中的每个动作单元；捕捉第一脸部姿态数据；确定多个权重，该多个权重中的每个权重唯一地对应于每个动作单元，该多个权重表征该多个动作单元的加权组合，该加权组合近似第一脸部姿态数据；通过对将每个权重应用到每个动作单元的结果进行组合来生成加权激活；将加权激活应用到数字脸部模型；以及利用对加权激活的输入用户调节来重新校准多个动作单元中的至少一个动作单元。

Description

表演驱动的脸部动画

与相关申请的交叉引用

本申请要求2006年4月24日提交的题为“PERFORMANCE DRIVENFACIAL ANIMATION”的共同未决的美国临时专利申请No.60/794,790的优先权。上述专利申请的公开内容通过引用被结合于此。

技术领域

本发明一般地涉及运动捕捉，更具体而言涉及用于利用诸如从运动捕捉***获得的运动捕捉数据和从视频数据获得的视频图像之类的表演数据(performance data)来生成脸部动画(facial animation)的方法和***。

背景技术

模拟脸部、其运动以及以看起来真实的方式呈现它是一个困难的问题，虽然从建模的角度以及呈现的角度来看，已经取得了实现外表真实的脸部的进步。更困难的问题是以真实且可信的方式使数字脸部动画化，这种动画将经得起严格审查，其中动画表演之中的微小瑕疵通常都是不可接受的。虽然有经验的动画制作者可以经由传统的关键帧技术来尝试令人满意的脸部动画(程式化的且真实的)，但是，要使所需的结果接近真实影像，这将是一项特别耗时的复杂任务。

除了关键帧技术之外，基于主成分分析(principal componentanalysis)的其他方法也已经被实现来从表演数据开发动画脸部模型。这些方法一般从该数据生成最低维度的模型。另外，由于是基于数学的解决方案，因此这样开发的脸部模型通常在一个或多个方面上看起来不自然。另外，当主成分不对应于能够被调节以实现所需结果的自然的、可识别的脸部运动时，所产生的低维度导致对脸部模型的开发后修改，这对于用户来说很困难且不直观。也就是说，基本向量(利用主成分分析获得)不对应于艺术家以后可以编辑的任何逻辑表达式子集。例如，根据表演数据，可以将同时发生的唇角上升和眉毛上升解读为单成分激活。但是，单成分激活可能不会被分离成唇角和眉毛分别的激活。这样，只希望调节唇角上升的动画制作者如果不也激活眉毛成分就可能无法做到这一点。

因此，需要一种克服了以上所述的传统***中存在的这些严重问题的***和方法。

发明内容

本发明提供了用于利用表演数据来生成脸部动画的方法和***，所述表演数据例如是从运动捕捉***获得的运动捕捉数据和从视频数据获得的视频图像。

在一个方面中，公开了一种使数字脸部模型动画化的方法。该方法包括：定义多个动作单元；经由动作者的表演来校准该多个动作单元中的每个动作单元；捕捉第一脸部姿态数据；确定多个权重，该多个权重中的每个权重唯一地对应于每个动作单元，该多个权重表征该多个动作单元的加权组合，该加权组合近似第一脸部姿态数据；通过对将每个权重应用到每个动作单元的结果进行组合来生成加权激活；将加权激活应用到数字脸部模型；以及利用对加权激活的输入用户调节来重新校准多个动作单元中的至少一个动作单元。

在另一个方面中，一种使数字脸部模型动画化的方法包括：定义多个动作单元，每个动作单元包括第一脸部姿态数据和激活；利用从多个捕捉到的校准表演得出的校准姿态数据来校准第一脸部姿态数据，该多个捕捉到的校准表演中的每个校准表演对应于每个动作单元；从该多个捕捉到的校准表演中的另一个校准表演得出第二脸部姿态数据；确定多个权重，该多个权重中的每个权重唯一地对应于每个动作单元，该多个权重表征脸部姿态数据的加权组合，该加权组合近似第二脸部姿态数据；通过对将每个权重应用到激活的结果进行组合来生成加权激活；将加权激活应用到数字脸部模型；以及利用对加权激活的输入用户调节来重新校准第一脸部姿态数据和激活。

在另一个方面中，公开了一种用于将脸部运动捕捉数据重定位到数字脸部模型的***。该***包括：FACS模块，用于管理多个动作单元；重定位模块，用于利用脸部运动捕捉数据和多个动作单元来为数字脸部模型生成至少一个加权激活；动画模块，用于通过将至少一个加权激活应用到数字脸部模型来生成脸部动画帧；以及调谐接口(tuning interface)模块，用于根据对脸部动画的输入用户调节来为FACS模块生成经重新校准的动作单元。

在另一个方面中，一种数字脸部动画的方法包括：捕捉脸部运动数据；标注脸部运动数据；稳定脸部运动数据；利用FACS矩阵来清洁脸部运动数据；对脸部运动数据进行正规化；利用FACS矩阵来将脸部运动数据重定位到数字脸部模型上；以及执行对FACS矩阵的多维调谐。

本领域的普通技术人员在阅读以下详细描述和附图之后将更容易明白本发明的其他特征和优点。

附图说明

本发明的结构和操作方面的细节一部分可通过研究附图来收集，在附图中：

图1是示出使数字脸部模型动画化的方法的流程图；

图2是示出对FACS矩阵的动作单元进行重新校准的方法的流程图；

图3是用于使数字脸部模型动画化的***的功能框图；

图4是示出表演驱动的脸部动画的方法的流程图；

图5是运动捕捉集合上的动作者的图像；

图6A是示出中性脸部姿态的三部图；

图6B是示出眉毛降低脸部姿态的三部图；

图6C是示出唇角拉牵脸部姿态的三部图；

图7A是示出嘴部张大脸部姿态的三部图；

图7B是示出唇部拉伸脸部姿态的三部图；

图8是示出脸部运动捕捉数据质量的可变性的三部图；

图9示出了FACS姿态的加权组合的权重的示例性计算；

图10A是示出动画人物的部分张开的嘴部的示例性唇部发音的图像；

图10B是示出动画人物的完全张开的嘴部的示例性唇部发音的图像；

图10C是示出动画人物的闭合嘴部的示例性唇部发音的图像；

图11示出了调谐阶段之前和之后的示例性FACS姿态；

图12示出了调谐操作之前和之后的解析的动画帧的示例；

图13示出了调谐操作之前和之后的解析的动画帧的另一个示例；

图14A示出了计算机***和用户的表示；并且

图14B是示出容宿着脸部动画***的计算机***的功能框图。

具体实施方式

这里公开的某些实现方式提供了实现用于捕捉一个或多个动作者或对象的运动的技术的***和方法。例如，这里公开的一种方法利用了运动捕捉(“MOCAP”)***、通过附着于动作者的光学标记和相机来捕捉多个动作者的身体和脸部运动以及表面。MACAP***从捕捉到的图像构建数据，以用于电影的动画中。

实现方式中提供的特征包括但不限于利用脸部动作编码***(FACS)来清洁并稳定脸部数据，而不考虑捕捉介质(例如，包括普通的低/高分辨率视频和MOCAP)为何；使用FACS的脸部动画；FACS的动作单元的多维调谐。FACS由Paul Eckmann和Wallace Friesen提出，并且基于来自于心理学的、被深入研究的脸部表情集合库，它是驱动计算机图形(CG)模型的基础。

在阅读本说明书之后，本领域的技术人员将很清楚如何在各种替换实现方式和替换应用中实现本发明。但是，虽然这里将描述本发明的各种实现方式，但是应当明白，这些实施例只是以示例方式而不是限制方式给出的。这样，这里对各种替换实现方式的详细描述不应当被理解为限制所附权利要求中所记载的本发明的范围或幅度。

当需要精确复制动作者的表演时，许多方法的做法是跟踪动作者的脸部上的特征并且利用从这些被跟踪的特征得出的信息来直接驱动数字人物。这些特征例如包括：对几个标记样本的使用、脸部上的曲线或轮廓、以及脸部上的变形表面。这些方法旨在将从动作的表演得出的数据程序化地转化成数字计算机图形(“CG”)脸部上的动画。这些方法的成功经常取决于数据的质量、最终动画中所要求的精确度和真实度、以及脸部校准。实现所需的最终产品通常也要求艺术家(跟踪者、脸部装配者、技术动画制作者)和软件技术专家两者的专业技能。建立脸部处理流水线以最终产生同时捕捉的许多动作者的表演的数百个镜头以及要求来自艺术家和动画制作者的输入和控制，提出了另外的重大挑战。

表演应当被理解为对动作者的脸部的视觉捕捉。在大多数情况下，动作者正在独自或者与其他动作者成组地说话和做出表情。这一点通常是通过捕捉动作者的视频表演来完成的。视频帧可以单纯用于供动画制作者参考、用于进一步的处理以提取点样本，或者用于使3D表面形变，然后该3D表面被重定位(retarget)到数字脸部模型上。在能够使用2D或3D重建数据之前必须克服各种技术障碍，包括校准相机、跟踪点以及重建3D信息。

诸如音频之类的其他媒体类型已被用于捕捉视频表演并驱动数字脸部模型。大多数工作都近似了讲话时的唇部和嘴部运动，但却没有关于脸部的其他区域(例如眉毛、眼睛和人物的整体表情)的明确信息。这些属性必须在后处理期间隐含得出或者添加。在一种实现方式中，脸部虚饰(puppeteering)被用于驱动数字脸部模型。在另一种实现方式中，诸如虚拟手套(cyber glove)之类的控制设备被用于输入控制命令，并且手指运动被重定位到数字脸部模型上。

虽然这些用于驱动数字脸部模型的捕捉形式已经产生了结果，但是用于驱动脸部动画的数据的常见形式是用于对重定位到数字脸部模型上的某些脸部特征点进行重建的光学数据。

存在不同的捕捉脸部表情的方式。在一种实现方式中，MOCAP***同时捕捉身体和脸部的数据。脸部数据被定位到动画人物上，该动画人物的脸部是程式化的，并不符合实际动作者的脸部。在另一种实现方式中，图像的目的在于产生关于某一人物的真实动画，希望该动画看起来真实，并且其脸部的表演也是真实的。在另一种实现方式中，脸部MOCAP数据是在坐姿中单独获取的，并且所生成的脸部动画被与关键帧式身体镜头相混合。

使数据驱动的脸部动画良好地工作是一种挑战，因为存在许多要求，这些要求产生不同级别的数据质量，包括所使用的不同类型的***、同时捕捉的人的数目、以及仅限脸部相对于脸部和身体都捕捉的性质。MOCAP***可以支持多种方法，因此可以适应于这些、其他和各种生产要求。

在一种实现方式中，利用放置在“捕捉体积”(capture volume)中各处的多个相机(例如，200个相机)来同时捕捉脸部和身体运动。示例性的捕捉体积的长、宽和高分别为20英尺×20英尺×16英尺。多个红外标记(例如，80个标记)被耦合到动作者的脸部并用于捕捉动作者的表演。将会明白，也可以使用相机、捕捉体积和标记的其他配置。在后处理期间，利用多个相机的位置来在3D上重建所捕捉的数据。可以使用诸如IMAGEWORKS^TM的专有IMAGEMOTION^TM技术之类的适合于捕捉和处理MOCAP数据的工具。取决于该体积的大小、相机分辨率、光和信号的强度以及其他有关参数，在运动捕捉体积中动作的动作者的数目可以从较低的数目到较高的数目变化。

在典型的MOCAP会话期间，指示所有动作者分开站立。每个动作者随后各自表演标准的T姿态姿势，在这种姿势中腿部被并在一起，手伸出，并且脸部放松到中性姿势。T姿态对于后处理期间MOCAP数据中的身体和脸部两者的搜索和标准化都是有用的。另外，在捕捉体积中的所有动作者返回到标准T姿态，并且脸部返回到放松的中性姿势时，每个MOCAP“镜头”结束。T姿态被脸部流水线用于正规化过程中，以确保在MOCAP表演的第二天标记的放置例如对应于校准那天的标记放置(也称为“主T姿态”)。图5示出了在捕捉体积中各自做出T姿态的动作者。在运动捕捉自适应(称为ADR会话)的另一种情况下，只有一个动作者在坐姿中动作，并且传感器对着该动作者脸部。在这种情况下，T姿态将对应于脸部的中性姿态，只不过没有身体姿势。

根据脸部动作编码***(“FACS”)，人类脸部具有成组地一起工作的肌肉，这些组被称为“动作单元”(action unit)。FACS提供了一种框架，用于确定某些动作单元何时被触发，以及如何向每个动作单元指派脸部姿态中的相对影响。FACS最初是设计来供心理学家和行为科学家理解脸部表现和行为的，但它也适用于其他领域。

脸部表情已被分类成72个不同的动作单元。每个动作单元定义一个产生脸部外观的瞬间变化的肌肉活动(“激活”)。对于不同的人，脸部外观的这些变化取决于脸部解剖体构造而有所不同，所述解剖体构造例如是骨骼结构、脂肪堆积、皱纹、各种脸部特征的形状，以及其他有关脸部外观。但是，在这些动作单元被触发时，在人与人之间可以看到某些共性。FACS中使用的动作单元是基于脸部动作在脸部上的位置以及所涉及的脸部动作的类型的。例如，上半脸部具有影响眉毛、前额和眼睑的肌肉；嘴部和唇部周围的下半脸部形成另一组。这些肌肉中的每一个成组地工作，以形成动作单元；并且这些动作单元可以被进一步分解成脸部的左部和右部区域，这些左部和右部区域可被非对称且彼此独立地触发。一般来说，FACS所建议的所有动作单元都为可用于CG动画中的动态脸部表情提供了宽广基础。

运动捕捉***可以将FACS用作捕捉脸部MOCAP数据并在动画人物的脸部上并重定位脸部MOCAP数据的基础。在MOCAP表演之前，每个动作者表演一系列校准姿态，这些校准姿态包括所有动作单元的极端版本。与动作单元相对应的重建的3D脸部姿态数据捕捉了被该动作者用来表演该动作单元的极端脸部表情。在一种实现方式中，FACS包括64个姿态，其中一些被分成左侧位置和右侧位置。在另一种实现方式中，还包括与发出的音素相对应的18个音素姿态。

图6A-6C和7A-7B示出了在基于FACS的MOCAP***中使用的几个动作单元。如上所述，FACS提出了超过72个动作单元，这些动作单元包括涉及脸部肌肉和头部运动的表情。图6A是示出中性脸部姿态的三部图；图6B是示出眉毛降低脸部姿态的三部图；图6C是示出唇角拉牵脸部姿态的三部图；图7A是示出嘴部张大脸部姿态的三部图；图7B是示出唇部拉伸脸部姿态的三部图。在图6A-6C和7A-7B的情况下，实际FACS参考、动作者的表演和人物上重定位的表情被从左至右示出。

如上所述，在一种实现方式中，数据捕捉是利用对在捕捉空间中表演的一个或多个动作者的身体和脸部运动进行捕捉的光学***来执行的。该实现方式使用包括红外相机在内的被动光学组件来捕捉标记所反射的红外光。这样捕捉的图像是低熵图像，该图像大部分包括没有感测到红外光的黑区域，以及表示反射性标记的白点。图像中的白点的大小取决于以下因素而有所不同：该点是身体标记(大)还是脸部标记(小)、动作者(从而标记)与相机的距离、以及是否发生任何掩蔽，其中掩蔽通常是由动作者引起的。

低熵图像提供了至少两个优点：(1)相机可以按更高的清晰度和更高的帧速率(一般在60Hz)来捕捉和记录图像；以及(2)对所捕捉的标记图像的3D重建跨不同视角点的多幅图像对每个标记进行三角测量，以在空间中定位该标记。通过只使用黑背景上的白点，大大提高了自动将相应点关联起来的能力。

在3D重建之后，标记由多个数据帧中的空间位置(即，x，y，z)来表示。但是，数据通常是有噪声的，并不是在所有数据帧上都具有时间关联性(即，一致的标注)，并且可能具有缝隙。图8是示出脸部运动捕捉数据质量的可变性的三部图。图8的最左部分示出的是良好质量数据的示例。图8的中部示出的是较低质量数据的示例。另外，图8的最右部分示出的是恶劣质量数据的示例。在从脸部数据模型和数据的时间关联性两者取得信息的基于学习的方法中，可以解决这些问题。

为每个数据帧重建的标记可以有身体标记和脸部标记两者。身体标记和脸部标记都要求在脸部数据处理之前进行标注。也就是说，每个标记被指派以一个唯一的标识，该标识在数据帧之间是保持不变的。根据其轨迹来标注所有身体和脸部标记是一个麻烦且易出错的过程，尤其是当该体积中有大量标记可见时更是如此。在一种实现方式中，使用了基于身体标记(较大)和脸部标记(较小)的大小相异性的两步过程。首先，执行3D重建，其中忽略脸部标记，并且只重建并标注身体标记(通常根据基于速度的约束)。接下来，执行3D重建，以获取脸部标记，但这通常也将捕捉身体标记。通过消除在第一步中标注的所有标记来去除身体标记，只留下脸部数据。在另一种实现方式中，基于为相应动作者的脸部特别定制的动作单元的库(“FACS矩阵”)来自动标注脸部标记。

在表演期间，动作者一般在捕捉体积中四处移动。这种运动导致了在动作者讲话和做表演的同时，脸部标记伴随着身体而平移。为了将脸部标记数据重定位到数字脸部模型上，通过抵消身体和头部运动的平移和旋转效应来稳定脸部数据，是有益的。对于稳定来说，尤其存在困难，因为在动作者表演时，脸部标记不一定经历到标准位置的刚性变换。刚性运动是由头部旋转和动作者的运动引起的，但是当动作者做表情和讲话时，许多脸部标记相对于其刚性预测而改变了位置。对于反变换，几个稳定点对应关系一般足以解决。但是，经常难以逐帧地确定哪些标记相对稳定、只经受了刚性的变换，哪些未经历与表演和讲话有关的其他运动。标记的3D重建位置中的噪声可能进一步阻碍对刚性变换的确定。

在一种实现方式中，通过首先利用一般不会由于脸部表情而移动的标记(例如耦合到头部、耳朵和鼻骨的标记)执行全局(或粗略)稳定，来调用分级解决方案。然后利用通过确定相对于脸部表面模型的标记运动进行的局部(或精细)稳定来改进该解决方案。

在脸部数据已被稳定之后，脸部数据可能由于以下原因而缺失了标记：掩蔽、相机中缺乏可见性、3D重建中的差错导致的噪声和/或误标注的标记。在一种实现方式中，使用一种清洁和过滤工具，其包括基于良好脸部模型数据的学习***。该清洁和过滤工具生成对缺失的标记的位置的估计、去除噪声，并且总体上确保所有标记的存活。该***可被缩放来处理由各种各样的脸部表情生成的数据，并且可以被调谐以修改脸部数据的动态。

清洁工具利用根本的FACS理论来将标记组织成肌肉组。肌肉运动可用于概率性地估计缺失的标记的可能位置。缺失的标记位置在空间上是在相邻点中估计的，在时间上是通过分析标记的运动范围来估计的。在一种实现方式中，对于每个动作者调谐概率模型和相应的标记肌肉分组。

一旦已经确定(或者估计)了所有标记位置，则使用标准的频率变换来去除数据中的噪声。将会明白，通常被分类为噪声的高频分量也可能表示动作者的肌肉的迅速有效运动以及动作者的脸部表情的变化。

当捕捉较长的表演时，例如跨越一天以上的电影时，动作者一般会去除并重新附着运动捕捉标记。虽然采取了一些步骤来确保每次标记被放置在脸部上的相同位置，但是每日位置上标记放置之间的微小差异是很常见的。这些差异可能严重影响下文描述的重定位解决方案。因此，正规化是一个重要的部分，其调节标记放置，以便每日位置的差异不会损害动作者所表演的脸部表情的程度，并且脸部表情被准确地转移到数字脸部模型上。

在一种实现方式中，正规化是分两步完成的。每个MOCAP镜头开始和结束于动作者表演T姿态，如联系图5所述。后续的MOCAP镜头中每个动作者的T姿态被与校准期间确定的动作者的主T姿态相对齐。将T姿态与主T姿态对齐依赖于对各种松弛的地标标记的使用。例如，使用眼睛和嘴部的角落，因为预期它们每天的变化将非常小。根据T姿态和主T姿态的对齐中的差异来计算每个标记的偏移向量。偏移向量被应用到相应MOCAP镜头的T姿态，以便T姿态中的每个标记都与主T姿态的标记完全对齐。这些偏移在该日期间通过动作者的表演而被传播，从而对所有帧中的数据进行了正规化。

如上所述，FACS提供了被认为代表了大多数脸部表情的一组动作单元或姿态。在一种实现方式中，捕捉动作者表演的与对应于FACS姿态(即，动作单元)的脸部表情有关的校准姿态的MOCAP帧。一些校准姿态被分解成左侧和右侧，以捕捉动作者的脸部可能表现出的不对称性。然后，在FACS矩阵的所有FACS姿态(即，动作单元)的空间中分析动作者的表演的传入帧。从而可将动作单元看作脸部基本向量，并且为传入数据帧计算每个的权重。确定动作单元(即，脸部基本向量、FACS姿态)的加权组合，以近似传入数据帧中的新姿态。

图9示出了FACS姿态的加权组合的权重w₁，w₂...w_n的示例性计算。对权重w₁，w₂...w_n的计算确定了与n个FACS动作单元中的每一个相关联的影响。在一种实现方式中，对权重的计算包括线性优化。在另一种实现方式中，对权重的计算包括非线性优化。

权重被应用到相关联的n个FACS动作单元以生成加权的激活。加权的激活被转移到利用脸部肌肉***来装配的数字脸部模型上。

在一种实现方式中，与FACS姿态相对应的动画人物的脸部姿态是由艺术家利用脸部装配来生成的。在另一种实现方式中，数字脸部模型建立是基于IMAGEWORKS^TM的专有人物脸部***的。该人物脸部***帮助推拉数字脸部模型的顶点，以便所得到的变形与人类脸部的面貌一致。

数字脸部模型包括不同的筋膜层(fascia layer)，这些筋膜层被混合以在数字脸部模型上创建最终的脸部变形。在一种实现方式中，筋膜层包括允许脸部肌肉变形的肌肉层(muscle layer)、允许颌部运动的颌部层(jaw layer)、控制不同脸部区域中的皮肤凸起的体积层(volumelayer)、以及用于发音的唇部运动的发音层(articulation layer)。肌肉层包括头骨贴片，其中有使脸部变形的肌肉控制。肌肉控制由从MOCAP数据生成的加权激活所激活。颌部帮助控制数字脸部模型的颌部的运动。体积层向数字脸部模型上发生的变形添加体积。它帮助模拟皱纹和其他脸部变形，这些可以由从MOCAP数据生成的加权激活来触发。发音层涉及唇部变形时的形状。具体地，它帮助控制唇部的卷动和体积，尤其是当在脸部表情中唇部扁起或者起皱时。图10A是示出动画人物的部分张开的嘴部的示例性唇部发音的图像。图10B是示出动画人物的完全张开的嘴部的示例性唇部发音的图像。图10C是示出动画人物的闭合嘴部的示例性唇部发音的图像。

筋膜层可被构造到数字脸部模型上。传入的MOCAP数据被映射或者说重定位到数字脸部模型上，作为触发筋膜层的加权激活。如上所述，MOCAP数据的传入帧是在FACS矩阵的所有动作单元(即，脸部基本向量)的空间中被分析的。所得到的权重量化了FACS矩阵的每个动作单元在触发筋膜层时施加的比例影响。但是，因为权重是利用数学方法来获得的(例如，线性和非线性优化)，所以所得到的在数字脸部模型上创建的表情有时不能复制被自然地识别为发出所需表情的脸部变形。也就是说，虽然利用各种映射解决方案实现的脸部重定位在数学意义上可能是最优地正确的，但是所得到的脸部表情可能不符合最终的动画镜头的所需外表或者要求。

这些不符合的结果的原因可能有若干个。动作者可能没有根据最初为FACS矩阵规定的校准姿态而表演，从而导致动作单元不代表动作者的表演；在将数学上正确的标记数据映射到美学上设计的脸部时，可能出现重定位不一致；数字脸部模型可能不太符合动作者的脸部；动作者的脸部上的标记放置可能每天都不同(这是不利的)；以及/或者所需的动画可能与动作者所表演的动作不一致，例如当所需的表情不存在于MOCAP数据中时，或者尝试夸大所捕捉的表情时。

多维调谐***可使用由动画制作者提供的调谐反馈来减小不正确的数学解决方案的影响。这在数学上是可实现的，因为FACS矩阵的脸部基本向量模仿了真实人类表情，并且因此可以很容易被动画制作者所编辑。在执行了FACS解析和重定位之后，动画制作者可以调节一个或多个所选的帧(例如，具有不可接受的结果的5至10个帧)，以实现就动画制作者的艺术判断而言的“正确外表”。调节是通过修改由与所选帧中的姿态相关联的FACS解析得到的权重来执行的。修改后的姿态随后被用于更新和优化FACS矩阵。更新后的FACS矩阵于是包括基于运动的实际标记范围的动作单元以及修改后的权重。在一种实现方式中，非线性数学优化工具被用于优化动作单元姿态数据和激活级别。在调谐过程中，通过修改权重从艺术家或用户取得艺术输入，从而使整套表情紧密匹配用户的需要。这是在几个帧上完成的。调谐过程随后从所有改变后的权重中学习，从而得到新的/修改后的FACS矩阵。修改后的FACS矩阵被用于对MOCAP数据的后续解析中，以便将动画制作者所提供的调节后加权应用到所选帧中的姿态上。FACS库中的修改也被包括在其他帧中，从而生成整个动画上的改进结果。另外，如果修改后的FACS库生成仍不令人满意的结果，则动画制作者可以执行进一步的调节以构建更新后的FACS库。

图11示出了调谐操作之前和之后的示例性FACS姿态。图11的左侧图像示出了在调谐之前和之后覆盖的唇部关闭音素位置。图11的右侧图像示出了调谐之前和之后的唇部绷紧姿态。基于动画制作者在几个调谐帧上校正后的加权值，新的标记位置(黑色)已被调节到优化的位置。该变化在所示出的两个姿态上示出，但是取决于动画制作者的输入调节的性质，通常发生在更多姿态上。

图12和图13示出了调谐操作之前和之后的解析的动画帧的示例。在图12中，左侧图像示出了利用初始的校准后的FACS矩阵来解析的帧；右侧图像示出了利用修改后(调谐后)的FACS矩阵来解析的同一帧。所产生的影响集中于姿态的右唇绷紧。在图13中，左侧图像示出了利用初始的校准后的FACS矩阵来解析的帧；右侧图像示出了利用修改后(调谐后)的FACS矩阵来解析的同一帧。动作者正在发出单词“please”的开头部分。利用初始的校准后的FACS矩阵的解析没有示出唇部闭合以说出第一音节，而使用修改后的FACS矩阵的解析则示出了唇部闭合。

图1是示出使数字脸部模型动画化的方法100的流程图。在110，为FACS矩阵定义动作单元。在一种实现方式中，如上所述，FACS矩阵包括64个动作单元，每个动作单元定义一起工作以生成特定的脸部表情的脸部肌肉组的群组。动作单元还可被进一步分解以表示脸部的左侧和右侧，从而构成非对称脸部姿态。

在120，对FACS矩阵的动作单元进行校准。一般来说，每个动作者具有唯一的、个人化的FACS矩阵。在一种实现方式中，每个动作单元是通过对动作者对与该动作单元相对应的姿态的表演进行运动捕捉来校准的。脸部标记数据如上所述被捕捉、进行FACS清洁和稳定，并且与特定动作单元相对应地被指派给FACS矩阵。在另一种实现方式中，动作者以极端方式表演姿态，以确立在表演期间执行姿态时标记偏离的预期界限。

在校准(在120处)完成之后，在表演期间获取MOCAP数据。在130，当在表演和获取期间生成MOCAP数据时，一次一帧地接收新的脸部姿态数据。MOCAP数据的帧包括表示捕捉空间中的脸部标记位置的体积性(3D)数据。在一种实现方式中，在被接收之前(在130处)，该体积性数据被进行FACS清洁和稳定，如上所述。

在140，确定权重，该权重表征了近似新的脸部姿态数据的动作单元的加权组合。动作单元表示某些脸部肌肉组的激活，并且可被认为是脸部基本向量，如上所述。这样，一个或多个动作单元-包括FACS矩阵中的所有动作单元-被用作在加权组合中近似新的脸部姿态数据的成分。也就是说，新的脸部姿态数据被表征为FACS矩阵中的预定动作单元的某种组合。对权重的确定涉及将与每个动作单元相关联的脸部姿态数据的加权组合最优地拟合到新的脸部姿态数据。在一种实现方式中，诸如最小二乘拟合之类的线性优化被用于计算权重的最佳组合。在另一种实现方式中，非线性优化被用于执行拟合。

一旦确定了权重(在140处)，就在150处生成加权激活。在一种实现方式中，权重被应用到与每个动作单元相关联的肌肉组激活，并且所得到的激活被组合以生成加权激活。在160，加权激活随后被应用到数字脸部模型。

如果有更多的MOCAP数据帧可用于处理(在170处判定)，则在130处接收MOCAP数据的新帧，并且该过程如上所述地继续。如果没有更多MOCAP数据帧可用，则该过程通过在180处重新校准FACS矩阵而继续。在一种实现方式中，根据用户的命令，在更多MOCAP数据帧可用的同时着手进行对FACS矩阵的重新校准(在180处)。

对FACS矩阵的重新校准(在180处)可包括从用户接收对加权激活的调节。例如，如果用户希望修改特定帧中的某个姿态，则用户可以选择该帧并且调节用于生成加权激活的权重。由于权重对应于预定的动作单元，并且动作单元对应于不同的脸部运动(即，某些脸部肌肉组的激活)，因此可以通过操纵与控制想要改变的姿态的特定方面的脸部肌肉组相对应的权重来调节姿态。例如，在嘴部的左角的运动被定义在某一动作单元中的情况下，通过操纵与该动作单元相关联的权重，将数字模型的嘴部的左角移动到更极端的位置或者不那么极端的位置。这样，例如，动画制作者或者艺术家能够通过操纵脸部的自然成分(即，动作单元)来控制脸部表情的各个方面。

图2是示出对FACS矩阵的动作单元进行的重新校准(在180处)的流程图。在200处，选择包含用户希望修改的数字脸部模型上的姿态的帧。例如，在数千个数据帧中，可以选择5至10个帧来进行脸部数据的修改。在210，对于每个选择的帧，修改权重以生成所需的脸部姿态。在一种实现方式中，对应的动作单元被相应地修改以包括调节后的权重，并被导出到FACS矩阵。这样，FACS矩阵被用这些特定动作单元的新版本进行了更新，其中这些动作单元已被修改以适应用户对与它们相关联的特定脸部姿态的预期。在另一种实现方式中，利用更新后的FACS矩阵来重新处理原来根据图1所示的方法处理的那个数据集。虽然被调节的特定帧的数据现在将以更符合需要的方式被重定位到数字脸部模型上，但是修改后的动作单元在加权方面而言对其仍然起着重要作用的其他脸部姿态数据也将以提高动画的整体质量的方式被重定位。

图3是用于使数字脸部模型动画化的***300的功能框图，其包括重定位模块310、FACS模块320、动画模块330和调谐接口模块340。

重定位模块310从FACS模块320接收经过清洁和稳定的脸部MOCAP数据以及动作单元。FACS模块320接收经过清洁和稳定的校准数据，并且在FACS矩阵中维护多个动作单元，其功能在上文中描述。经清洁和稳定的校准数据被用于对FACS模块320所维护的FACS矩阵的动作单元进行校准。重定位模块310根据其中确定的权重来生成加权激活，这些权重表征了近似由接收到的脸部MOCAP数据表示的脸部姿态数据的动作单元的加权组合。

动画模块330接收加权激活并生成动画数据。动画数据包括根据加权激活来激活数字脸部模型的结果。在一种实现方式中，动画模块330维护数字脸部模型，并且包括装配单元332，该装配单元332被用于在数字脸部模型上生成筋膜层。具体地，筋膜层是数字脸部模型的成分，其中加权激活被应用到这些成分以生成动画数据。在另一种实现方式中，动画模块330包括转移单元334，该转移单元334将加权激活应用到数字脸部模型的筋膜层。

调谐接口模块340被配置为接收输入用户调节，并且被用户用来为FACS模块320所维护的FACS矩阵生成经重新校准的动作单元。在一种实现方式中，调谐接口模块340包括帧选择单元342，该帧选择单元342被用户用来选择这样的动画数据帧：在这些动画数据帧中，所得到的数字脸部模型的姿态被认为是不令人满意的。帧选择单元342可用于从动画数据的帧中选择任意数目的帧。在另一种实现方式中，调谐接口模块340包括权重修改单元344，该权重修改单元344被用户用来修改与适当的动作单元相对应的权重，以便调节数字脸部模型的姿态，以实现所需的结果。一旦权重已被调节到用户满意的程度，调谐接口模块340就将关于调节后的动作单元的信息传达给FACS模块320，在FACS模块320中，该信息被接收并用于更新FACS矩阵。

图4是示出表演驱动的脸部动画的方法400的流程图。在410，捕捉脸部运动数据。在一种实现方式中，如上所述，部署在捕捉空间中各处的MOCAP相机被用于捕捉耦合到动作者的身体和脸部的反射性标记所反射的红外光。反射的光呈现为黑背景上的白点，其中白点表示图像中的标记。来自MOCAP相机的图像被用于重建标记位置所在的体积性数据中的顺序帧。在420，从体积性数据中分割出脸部数据(尤其是通过过滤掉身体数据)，并且进行标注。在430，使脸部数据稳定，如上所述。然后，在440，利用FACS矩阵来清洁脸部数据。然后，在450，对脸部数据进行正规化，以去除例如由于标记放置的每日变化而导致的位置偏移差异。

在460，利用FACS矩阵的动作单元的加权组合，脸部数据被逐帧地重定位到数字脸部模型。然后，在470，用户执行多维调谐，其中构成数字脸部模型上的姿态的动作单元被用户修改，以实现更合乎需要的结果。修改后的动作单元作为更新被结合到FACS矩阵中。更新后的FACS矩阵随后被用于生成更高质量的动画输出。

图14A示出了计算机***1400和用户1402的表示。用户1402可使用计算机***1400来处理和管理表演驱动的脸部动画。计算机***1400存储和执行脸部动画***1416，该脸部动画***1416处理脸部MOCAP数据。

图14B是示出容宿着脸部动画***1416的计算机***1400的功能框图。控制器1410是可编程处理器，其控制计算机***1400及其组件的操作。控制器1410从存储器1420或嵌入式控制器存储器(未示出)中加载指令，并执行这些指令以控制***。在其执行时，控制器1410以软件***的形式提供脸部动画***1416。或者，该服务可作为控制器1410或计算机***1400中的单独组件实现。

存储器1420临时存储数据，以供计算机***1400的其他组件使用。在一种实现方式中，存储器1420被实现为RAM。在另一种实现方式中，存储器1420还包括长期或永久存储器，例如闪存和/或ROM。

存储装置1430临时或长期存储数据，以供计算机***1400的其他组件使用，例如用于存储被脸部动画***1416使用的数据。在一种实现方式中，存储装置1430是硬盘驱动器。

介质设备1440接收可移动介质并且对***的介质进行数据读取和/或写入。在一种实现方式中，介质设备1440是光盘驱动器。

用户接口1450包括用于从计算机***1400的用户接受用户输入并向用户呈现信息的组件。在一种实现方式中，用户接口1450包括键盘、鼠标、音频扬声器和显示器。控制器1410使用来自用户的输入来调节计算机***1400的操作。

I/O接口1460包括一个或多个I/O端口，以连接到相应的I/O设备，例如外部存储装置或补充设备(例如，打印机或PDA)。在一种实现方式中，I/O接口1460的端口包括诸如以下端口：USB端口、PCMCIA端口、串行端口和/或并行端口。在另一种实现方式中，I/O接口1460包括用于与外部设备进行无线通信的无线接口。

网络接口1470包括有线和/或无线网络连接，例如支持以太网连接的RJ-45或“Wi-Fi”接口(包括但不限于802.11)。

计算机***1400包括计算机***中的其他典型硬件和软件(例如，电源、冷却装置、操作***)，但为了简单起见这些组件在图14B中没有被具体示出。在其他实现方式中，可以使用计算机***的不同配置(例如，不同的总线或存储配置或多处理器配置)。

应当明白，以上已经就其功能概括地描述了联系上述附图和这里公开的实现方式描述的各种示例性逻辑块、模块和方法。此外，模块或子单元内的功能分组是为了描述简单。具体的功能或者步骤可被从一个模块或子单元移动到另一个，而不会脱离本发明。

一种实现方式包括一个或多个可编程处理器和相应的计算机***组件来存储和执行计算机指令，例如提供运动捕捉***的各种子***(例如，利用FACS技术的校准、矩阵构建、清洁、稳定、正规化、重定位和调谐)。

另外的变化和实现方式也是可能的。例如，运动捕捉***所支持的动画可用于电影、电视、广告、在线或离线计算机内容(例如，web广告或计算机帮助***)、视频游戏、计算机游戏或任何其他动画计算机图形视频应用。在另一个示例中，可以使用不同类型的运动捕捉技术和标记，例如光学标记而不是红外、有源光学(例如，LED)、无线电(例如，RFID)、绘画、加速计、变形测量，等等。在另一个示例中，艺术输入和数学过程的组合被用于模拟利用重定位解决方案来激活的脸部。在另一个示例中，数学的、试探的和基于美学的规则被开发来增强动画人物说话时数字脸部模型上的肌肉和皮肤运动的逼真度。

以上对所公开的实现方式的描述被提供来使得本领域的任何技术人员能够作出或使用本发明。本领域的技术人员将很容易明白对这些实现方式的各种修改，并且这里描述的一般原理可被应用到其他实现方式，而不会脱离本发明的精神或范围。因此，应当理解，这里给出的描述和附图表示本发明的实现方式，因此代表了本发明所宽泛设想的主题。还应当理解，本发明的范围完全涵盖对于本领域的技术人员来说显而易见的其他实现方式，并且本发明的范围因此仅由所附权利要求限定。

Claims

1.一种使数字脸部模型动画化的方法，该方法包括：

定义多个动作单元；

经由动作者的表演来校准所述多个动作单元中的每个动作单元；

捕捉第一脸部姿态数据；

确定多个权重，所述多个权重中的每个权重唯一地对应于所述每个动作单元，所述多个权重表征所述多个动作单元的加权组合，所述加权组合近似所述第一脸部姿态数据；

通过对将所述每个权重应用到所述每个动作单元的结果进行组合来生成加权激活；

将所述加权激活应用到所述数字脸部模型；以及

利用对所述加权激活的输入用户调节来重新校准所述多个动作单元中的至少一个动作单元。

2.如权利要求1所述的方法，其中，所述每个动作单元包括第二脸部姿态数据和激活。

3.如权利要求2所述的方法，其中，所述校准每个动作单元的步骤包括：

利用从与所述每个动作单元相对应的校准表演得出的校准姿态数据来校准所述每个动作单元的所述第二脸部姿态数据。

4.如权利要求3所述的方法，还包括

清洁并稳定所述校准姿态数据。

5.如权利要求2所述的方法，其中，所述加权组合包括

所述每个动作单元的所述第二脸部姿态数据的加权组合。

6.如权利要求5所述的方法，其中，所述确定多个权重的步骤包括：

对所述第二脸部姿态的加权组合和所述第一脸部姿态数据之间的对应关系的优化。

7.如权利要求6所述的方法，其中，所述优化包括线性优化。

8.如权利要求7所述的方法，其中，所述线性优化包括最小二乘方法。

9.如权利要求6所述的方法，其中，所述优化包括非线性优化。

10.如权利要求2所述的方法，其中，生成加权激活的步骤包括

对将所述每个权重应用到所述每个动作单元的所述激活的结果进行组合。

11.如权利要求2所述的方法，其中，所述重新校准至少一个动作单元的步骤包括

重新校准所述第二脸部姿态数据。

12.如权利要求2所述的方法，其中，所述重新校准至少一个动作单元的步骤包括

重新校准所述激活。

13.如权利要求2所述的方法，其中，所述每个动作单元的所述激活针对筋膜层。

14.如权利要求13所述的方法，其中，所述筋膜层包括肌肉层。

15.如权利要求13所述的方法，其中，所述筋膜层包括颌部层。

16.如权利要求13所述的方法，其中，所述筋膜层包括体积层。

17.如权利要求13所述的方法，其中，所述筋膜层包括发音层。

18.如权利要求1所述的方法，其中，所述多个动作单元构成FACS矩阵。

19.如权利要求1所述的方法，还包括

清洁并稳定所述第一脸部姿态数据。

20.一种使数字脸部模型动画化的方法，该方法包括：

定义多个动作单元，每个动作单元包括第一脸部姿态数据和激活；

利用从多个捕捉到的校准表演得出的校准姿态数据来校准所述第一脸部姿态数据，所述多个捕捉到的校准表演中的每个校准表演对应于所述每个动作单元；

从所述多个捕捉到的校准表演中的另一个校准表演得出第二脸部姿态数据；

确定多个权重，所述多个权重中的每个权重唯一地对应于所述每个动作单元，所述多个权重表征所述脸部姿态数据的加权组合，所述加权组合近似所述第二脸部姿态数据；

通过对将所述每个权重应用到所述激活的结果进行组合来生成加权激活；

将所述加权激活应用到所述数字脸部模型；以及

利用对所述加权激活的输入用户调节来重新校准所述第一脸部姿态数据和所述激活。

21.一种用于将脸部运动捕捉数据重定位到数字脸部模型的***，该***包括：

FACS模块，用于管理多个动作单元；

重定位模块，用于利用所述脸部运动捕捉数据和所述多个动作单元来为所述数字脸部模型生成至少一个加权激活；

动画模块，用于通过将所述至少一个加权激活应用到所述数字脸部模型来生成脸部动画帧；以及

调谐接口模块，用于根据对所述脸部动画的输入用户调节来为所述FACS模块生成经重新校准的动作单元。

22.如权利要求21所述的***，其中，所述动画模块包括

装配单元，用于生成所述数字脸部模型。

23.如权利要求22所述的***，其中，所述装配单元在所述数字脸部模型上生成至少一个筋膜层。

24.如权利要求23所述的***，其中，所述动画模块包括

转移模块，用于将所述至少一个加权激活应用到所述至少一个筋膜层。

25.如权利要求21所述的***，其中，所述调谐接口模块包括

帧选择单元，用于选择所述脸部动画帧以便进行调谐。

26.如权利要求21所述的***，其中，所述调谐接口模块包括

权重修改单元，用于调节所述至少一个加权激活以实现所述数字脸部模型的所需姿态。

27.一种数字脸部动画的方法，该方法包括：

捕捉脸部运动数据；

标注所述脸部运动数据；

稳定所述脸部运动数据；

利用FACS矩阵来清洁所述脸部运动数据；

对所述脸部运动数据进行正规化；

利用所述FACS矩阵来将所述脸部运动数据重定位到数字脸部模型上；以及

执行对所述FACS矩阵的多维调谐。