CN107924452B

CN107924452B - 用于图像中的脸部对准的组合形状回归

Info

Publication number: CN107924452B
Application number: CN201580080380.7A
Authority: CN
Inventors: 姚安邦; Y·陈
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2022-07-19
Anticipated expiration: 2035-06-26
Also published as: US20200117936A1; CN107924452A; US11132575B2; WO2016206114A1; US10528839B2; US20180137383A1

Abstract

组合形状回归被描述为一种用于图像中的脸部对准和脸部陆标检测的技术。如所描述的，各回归阶段可被构建用于脸部陆标检测***的多个蕨。在一个示例中，使用脸部形状、使用脸部分量群、以及使用个别脸部点对来在训练图像集上执行回归以学习该图像集中的每一相应图像的形状增量。基于这一回归来构建蕨。执行附加回归以用于构建附加蕨。这些蕨随后被组合以构建脸部陆标检测***。

Description

用于图像中的脸部对准的组合形状回归

领域

本说明书涉及确定用于静止图像或视频图像的脸部对准，且具体地涉及使用基于训练的回归。

背景

随着数字相机在便携式、耐用以及桌面设备中的激增，存在对以新方式使用这些相机的相关需求。这些方式中的一些对相机的视野内的脸部起作用。通过识别并解释脸部，提供了许多新功能，诸如标识已知用户、将用户的表情解释为命令或其他输入、将用户的表情映射到化身以用于聊天会话、确定用户是否正关注用户的视野中的某一事物，等等。通过识别脸部，计算***可能够应用数字化妆、发型、帽子、衣物、以及其他时尚外表。可执行二维和三维脸部网格生成以及许多其他增强成像功能。这些功能在便携式和可穿戴设备(诸如智能电话、运动相机、以及头戴式设备)中是有用的，并且在笔记本、台式机、游戏以及娱乐***中也是有用的。

在许多技术中，为了识别并解释脸部，首先标识脸部区域。这可针对针对单个图像或视频中的图像序列来完成。这些图像可以是二维或三维的。一旦***确定特定区域可能具有脸部，随后确定该脸部的对准。脸部对准是一种定位语义脸部陆标点(诸如耳、眼、鼻、口、下巴和脸颊)集合的位置的技术。这些脸部陆标点随后可被用来确定头部所面向的方向，以跟踪眼睛移动、识别或区分两个不同脸部，等等。脸部对准被用于许多计算机视觉***(包括脸部识别、脸部特征跟踪、以及动画)中。

脸部对准因不同人的脸部之间的差异并且因在一个人改变表情时造成的差异而变得困难。在人转头或在头部被部分阻挡或遮挡或者被另一人或物体阻挡时，出现另一困难。脸部对准也因脸部后的背景的不同和脸部周围的照明的变化而变得困难。

附图说明

各实施例作为示例而非限制在所附附图中示出，在附图中，同样的参考编号指代同样的元件。

图1是根据一实施例的多阶段回归***的框图。

图2是根据一实施例的包含指示了初始脸部形状的脸部的示例图像的示图。

图3是根据一实施例的包含指示了脸部分量群的相同脸部的示例图像的示图。

图4是根据一实施例的包含指示了一些点对的相同脸部的示例图像的示图。

图5是根据一实施例的包含指示了脸部区域和点对索引图像特征的脸部的示例图像的示图。

图6是根据一实施例的包含指示了脸部区域和点对索引图像特征的另一脸部的示例图像的示图。

图7是根据一实施例的图像训练过程的过程流程图。

图8是根据一实施例的蕨(fern)形式的二叉决策树。

图9是根据一实施例的使用蕨集合来检测脸部陆标的过程流程图。

图10是根据一实施例的包括交互式视频演示的计算设备的框图。

详细描述

通过训练来生成脸部陆标模型，并且随后可通过将蕨回归应用通过经训练特征来将新图像拟合到该模型。多阶段回归可在每一回归阶段具有蕨。通过训练，该***学习捕获脸部陆标的外观和几何关系的变化的级联蕨。一旦脸部陆标快速且可靠地被标识出，各种不同操作可被执行，诸如脸部识别、脸部特征跟踪、注视估计、表情或情绪确定，等等。

本文描述了具有用于快速收敛的高效回归且还具有细粒度特征区分的脸部对准技术。为此，如本文描述的CSR(组合形状回归)被用作由粗到细回归方法。所描述的CSR办法将整体脸部形状驱动的全局回归、脸部分量驱动的群回归、和个别点对驱动的局部回归灵活地组合成统一框架。除了CSR之外，还通过考虑陆标点对之间的几何关系来使用PPIIF(点对索引的图像特征)。PPIIF在渐进学习形状增量的过程中引入几何不变式约束。通过将PPIIF整合到CSR的框架，呈现了全新脸部对准技术。

如本文描述的，一起使用组合形状回归(CSR)和点对索引图像特征(PPIIF)获得了准确且快速的形状对准。这一技术不依赖于直接全局或局部回归。所描述的技术可在以下三个方面来考虑：(1)CSR，回归合成，它将整体脸部形状驱动的全局回归、脸部分量驱动的群回归和个别点对驱动的局部回归组合成统一框架，这提供由粗到细脸部对准过程；(2)通过将几何不变式约束用于考虑陆标点对之间的几何关系的规程(PPIIF)中来渐进地学习形状增量，这提供了用于处置脸部姿态、脸部表情、部分遮挡等等中的复杂变化的更好能力；(3)将PPIIF整合到CSR以极大地减少用于在训练中收敛的级联阶段。在许多实现中，只使用数百级联阶段，而其他技术可能需要数千级联阶段。

可以用由K个阶段构成的加性级联来扩充基本形状回归方法。可通过将迭代应用于训练数据来学习特征映射函数F_k和线性加权函数W_k。在确立这两个函数之后，随后给出脸部图像I和由一组P个语义脸部陆标点{(x₁，y₁)，(x₂，y₂)，...，(x_P，y_P)}构成的初始脸部形状S₀，目标脸部形状S_est可如下直接计算得到：

其中ΔS_k(S_k-1，I)是阶段k处的脸部形状增量，并且它可以如下根据式2计算得到：

ΔS_k(S_k-1，I)＝W_kF_k(S_k-1，I)。 (式2)

根据这一定义，很清楚，这样的方法的性能直接取决于渐进地学习的特征映射函数F_k和线性加权函数W_k。为了学习它们，两个目标可以是：(1)设计用于快速收敛的高效回归方法；以及(2)设计用于训练数据的特征空间的细粒度划分的一类区分特征。这些目标以及其他目标被满足，如下所述。

1.组合形状回归

图1的用于本文描述的组合形状回归的级联架构的简化框图。初始脸部形状120被应用作为输入。随后是三类回归策略HFSDGR(整体脸部形状驱动的全局回归)122、FCDGR(脸部分量驱动的群回归)124以及IPPDLR(个别点对驱动的局部回归)126。IPPDLR被馈送回第二HFSDGR 128以产生所估计的脸部形状130作为输出。如图所示，可以在各阶段中采取三种类型的回归阶段，其中第一阶段是HFSDGR，第二阶段[K1+1，K2]是FCDGR，第三阶段[K2+1，K3]是IPPLDR，且第四和最终阶段[K3+1，K]是第二HFSDGR。

在图2-4中示出了三种语义成群方法以及它们在三个相应回归策略中的应用。图2是包含脸部的示例图像的示图。初始脸部形状120已被提供。在一些实施例中，所有手动注释的训练脸部形状图像的均值形状被用作初始启动脸部形状。另选地，来自训练图像的任何脸部形状或来自训练图像的脸部形状的任何随机采样的线性组合可被用作初始脸部形状。使用HFSDGR 122，整体形状驱动的成群将这一图像与初始图像相比较并将整个脸部形状202作为单个群204。可以应用与ESR(显式形状回归)的学习过程相似的学习过程。

图3是包含脸部202的相同示例图像的示图。FCDGR 124被用作脸部分量驱动的成群。该回归根据脸部分量将各陆标划分成一组语义群。每一分量被分开地标识，诸如左眉220、右眉228、左眼222、左脸颊224、下唇226，等等。可以在每一语义群上分开地完成学习。这方面提升了HFSDGR的整个脸部形状以获得更多细节和特异性。

图4是包含脸部202的相同示例图像的示图。通过使用个别点对驱动的成群来应用IPPDLR 126。每一陆标对被认为是群，并且在每一自动选择的陆标对上完成学习。在这一示例中，存在从鼻到脸颊的第一对和从右嘴角到下巴235的第二对。这些是作为示例提供的。可以使用远远更多的对。

在该实现中，CSR的级联结构具有图1中所示的四部分。HFSDGR 122被用来在第一K1阶段快速获得粗略和充分的脸部形状。随后，在后续K2-K1阶段，FCDGR 124被应用来细化脸部形状。此外，在后续K3-K2阶段，IPPDLR 126被用来细调脸部形状。最后，在最后K-K3阶段，使用具有不同参数的第二HFSDGR 128来避免可能的过拟合以产生最终所估计的脸部形状。因此，这一CSR是由非常粗到细的脸部对准技术。该技术以具大致形状的粗开始，并且进展通过各阶段到具各个别点对的细。通过在多个阶段中从粗到细，在一些实施例中，只使用几百级联阶段就能在训练中达到收敛。这降低了CSR的最终模型的大小。

2.点对索引图像特征

尽管CSR提供了由粗到细脸部形状回归框架，本文描述的PPIIF提供了训练数据的特征空间的细粒度划分以学习决策树和CSR的每一回归阶段中包含的相应形状增量。令(x_i，y_i)和(x_j，y_j)为脸部形状S中的陆标i和j的位置，PPIIF可被定义为横贯分别在位置(x_i，y_i)和(x_j，y_j)处的这两个陆标点i和j的位置的线上的任意点。

PPIIF(x_ij，y_ij)＝a(x_i，y_i)+(1-a)(x_j，y_j)，其中a∈R。 (式3)

图5是包含脸部502以示出PPIIF的示例应用的示例图像。存在两个个别点对，第一对使用右眼504作为一个陆标以及左嘴角506作为另一陆标。线508被画出在这两个陆标之间并且索引510被确定在线508上。第二对陆标是右下巴512和左脸颊516。线被画出在这两个陆标之间并且索引标记518通过上式3被确定。

图6是该图像中不同位置中的不同人的非常不同的脸部602的示例。出于解说目的，使用相同的两个陆标对。第一点对同样是右眼604作为一个陆标以及左嘴角606作为另一陆标。线608被画出在这两个陆标之间并且索引610被确定。第二对陆标同样是右下巴612和左脸颊616。线被画出在这两个陆标之间并且索引标记618被确定。

图5和6进一步示出包围脸部的主特征的矩形520、620。如图所示，这些矩形提供了所标识的脸部的一般大小。矩形随后可被用来将脸部归一化成与训练数据中的脸部的大小相对应的标准大小。在所解说的示例中，脸部是大致相同的大小。在其他示例中，脸部可归因于距相机的距离或归因于不同人具有不同大小的脸部而不同。

图5和6中示出的图像和相应脸部形状是归一化的样本，即对于左/右/上/下侧填充图像区域，它们具有相同的脸部形状大小(如按宽度和高度测量的)。实际图像中的脸部形状可能归因于距相机的距离或归因于不同人具有不同大小的脸部或不同脸部姿态等而大小不同。为了更容易地识别脸部陆标位置，图像数据可被归一化。换言之，脸部大小可以在任何进一步操作之前归一化。

在各实施例中，训练源脸部图像在大小方面不同并且相应经注释脸部形状也在宽度和高度方面不同。首先，为所有经注释脸部形状计算包围陆标点的最小正面外接矩形520、620。在各实施例中，矩形是每一经注释脸部形状的最小正面外接矩形。矩形的左上角被计算为陆标点的水平和垂直坐标的最小值，并且其右下角被计算为陆标点的水平和垂直坐标的最大值。

在确定最小矩形后，可通过用保留高宽比的某附加大小填充来在大小方面放大每一矩形。作为示例，高度和宽度可乘以某一因子，诸如0.5。这维持高度和宽度的相同比率，同时补偿了陆标点中的可能误差。最后，图像可被裁剪以只留下经放大脸部区域。这些经裁剪图像随后可被归一化成标准大小。在一个实施例中，该大小可以是256x256。然而，所需大小可被选择成适合所需准确度和***的计算资源。在训练数据被归一化的情况下，更容易作出比较且更容易构建蕨。

如通过比较图5和6的示例所示出的，在陆标被选择为处于相同位置时，在这两个图像中获得了相同PPIIF 510、518、610、618，尽管脸部姿态和脸部表情明显不同。这两个图像还示出了a的相同值。这部分地因为PPIIF利用陆标对之间的几何关系。因此，PPIIF可被用来在学习过程中引入几何不变式约束并且因此达到训练数据的特征空间的细粒度划分。

图7是使用包括多阶段回归的以上讨论的原理中的一些的图像训练过程的过程流程图。在702，使用脸部形状在训练图像集上执行第一回归。这一第一回归可包括学习脸部陆标的外观的变型以及学习脸部陆标的关系的变型。在一些实施例中，使用脸部形状的回归可包括将该图像集中的每一图像的形状差异计算为经归一化地面真值脸部形状与每一图像的每一脸部形状之间的差异。在一些实施例中，在执行任何回归之前，所有脸部形状大小被归一化成所选标准。

在704，使用图像中的脸部分量群来执行第一回归。这可以按各种不同方式中的任一种来完成。在一些实施例中，脸部陆标被根据脸部分量划分成各语义群集合，其中每一分量被分开地标识。在每一语义群上与每一其他语义群分开地完成学习。

在706，使用该训练图像集的各图像中的各单独脸部点对来执行第一回归。这一回归考虑了陆标点对之间的几何关系。在一些实施例中，这可通过在渐进地学习形状增量时使用几何不变式约束来完成。脸部点对是个别的，因为学习可以在每一脸部点对上与每一其他脸部点对分开地完成。如图5和6中所示，线可被画出在一脸部点对的两个脸部点之间，并且所画线上的索引标记可被确定。回归的这些部分可以按所描述的次序执行，其中结果彼此补充并且从粗到细运行。

在这一第一回归后，在708可构建蕨。在710，执行附加回归，且在712，构建附加蕨。在714，当完成回归时，蕨被组合以构建完成的脸部陆标检测***。

如在ESR(显式形状回归)中，蕨可被用来执行数据划分。每一蕨是具有一组二元测试的二叉决策树结构。每一图像在遍历通过该回归的每一阶段时向下通过所有蕨。蕨是将来自所有训练样本的特征划分成某一数目(诸如2^N)的元(bin)的某一数目(N)的特征和阈值(N)的合成。每一个元与最佳地匹配要被标识的新图像的回归输出相对应。然而，与ESR不同，代替原始特征，使用PPIIF。蕨是具有N个PPIIF对的合成的二叉决策树。每一PPIIF对被共享给其相应层处的所有内部节点。通过比较PPIIF对的灰度级值，到达任何内部节点的数据被进一步拆分成两部分。

相应地，对于包含N个PPIIF对的蕨，整个训练数据集被划分成2^N个元。这在图8的示例中示出，其中具有五个可能的对并且因此具有五个阶段。与第n元有关的形状增量(ΔS_k(n))可如下在式4中计算：

其中An表示落在第n元中的训练形状样本，

和S_m分别表示A_n中的第m训练样本的地面真值脸部形状和前一步骤中所估计的脸部形状。每n个ΔS_k值提供一叶节点。

图8是用于应用点对索引图像特征来选择脸部形状的蕨形式的二叉决策树。层t₁处的根节点802以两个陆标或点开始，所述陆标或点被指示为PPIIF₁和PPIIF₂。这两个点的强度被比较并且相应地执行划分。在指定为t₂的下一层804，比较点3和4。作出划分并且作出下一层808另一比较。通过蕨作出强度比较或灰度级比较，该***选择从树到节点812、814处的层的分支，直至到达层t₅之后的叶节点816。这一叶节点816对应于特定元。

存在未被选择的许多其他节点，诸如图8中所示的806、810、818、820、822。可使用置于每一节点内的一些样本来计算W_k和S_k以使这些节点全部被预排序。

3.使用CSR和PPIIF学习形状增量

上文描述的总体过程可被概括成具有多个阶段，如下所述。首先，存在训练阶段。对于训练阶段，脸部图像样本I₁的训练集T被用来设置参数。特征映射函数F_k和线性加权函数W_k被确定，PPIIF被选择，并且使用训练数据来确定二叉决策树。训练集T可被如下定义：

在此，S_l(0)表示初始脸部形状，且

表示脸部图像样本I_l中的经归一化地面真值脸部形状。

对于训练，存在基于针对k的三个不同阈值的四个不同阶段范围，其中k表示该过程的阶段。第一阶段针对k＝1到K₁

如果1≤k≤K₁

对于这一情形，HFSDGR 122被如上所述地使用。相应地，使用经归一化地面真值脸部形状和每一新(k)脸部形状之间的差异来计算所有训练样本的当前形状差异。这可被表达为一组(k)差异：

使用所有差异，一组Q个候选PPIIF可被确定并且随后可通过选择具有与当前形状差异集合的前N个相关(即N个最接近的相关)的N个PPIIF来制定蕨。

接着，计算所制定的蕨的所有元的形状增量。

最后，通过添加新形状增量来更新所有训练样本的当前形状。

第二阶段针对k在从K₁到K₂的范围中的情形。

如果K₁＜k≤K₂

对于这一情形，FCDGR 124被使用，使得与每一其他陆标群分开地作出与每一脸部分量驱动的陆标群相关的确定。

各操作在其它方面类似于上述那些操作，其中当前形状差异被首先计算，随后候选PPIIF被确定以使用与当前形状差异集合的前几个相关来更多地制定蕨。形状增量被计算并且当前形状被更新。

第三阶段针对k在从K₂到K₃的范围中的情形。

如果K₂＜k≤K₃

在这一情形中，IPPDLR 126被使用，使得关于每一陆标点对作出确定。各操作在其它方面类似于以上针对HFSDGR描述的那些操作。当前形状差异首先被计算，随后确定候选PPIIF以使用与当前形状差异集合的前几个相关来制定蕨。形状增量被计算并且当前形状被更新。

第四阶段针对k在K₃以上的范围中的情形。这一阶段是第二HFSDGR 128。

如果K₃＜k

针对第一HFSDGR的操作被重复，但现在使用来自阶段2和3的更准确的参数。来自这四个阶段的结果则是所有阶段处的所选PPIIF、相关蕨以及形状增量。

一旦训练完成，就可使用在图8的上下文中描述的蕨决策树基于训练集来分析新图像。

图9是如本文所描述的用于使用蕨决策树来用于脸部陆标检测***的过程流程图。在902，接收具有初始脸部区域和脸部形状的初始图像。如果没有找到脸部区域，则该过程结束。在904，通过多个阶段的多个训练特征将蕨回归应用于脸部区域内接收到的脸部形状。如上所述，在这完成之前，脸部大小可被归一化。回归可包括以上参考图1描述的所有阶段，包括脸部形状、脸部分量群、以及个别脸部点对。对于蕨回归的每一阶段，图像中的各位置被递增到新位置以在每一阶段之后提供新脸部形状。最终脸部形状驱动的回归随后可被应用。在906，基于该回归来标识脸部陆标位置。

本文描述了新脸部对准方法。与基于可变形模型的方法和基于形状回归的方法相比，该方法提供了高准确度、高速度、以及低存储器使用。这一方法还帮助提供用于基于视觉的脸部分析应用(包括脸部识别、数字脸部化妆、2D/3D脸部网格生成、脸部特征跟踪、以及用于游戏或化身视频聊天的动画，等等)的软件栈。这一方法还提供补充相机电话平台中的某些高级相机成像模块的软件/硬件栈。它还可被用在许多其他应用中，包括智能电话、平板、膝上型设备、传统PC、以及一体机或二合一设备。

如本文描述的，使用了基于回归的脸部对准办法，其中没有从局部或全局回归方法中直接学习形状增量。改为从使用整体脸部形状驱动的全局回归(本文中称为HFSDGR)、脸部分量驱动的群回归(本文中称为FCDGR)以及个别点对驱动的局部回归(本文中称为IPPDLR)中或者在任何各种不同相关组合中联合地学习加性形状增量。陆标点对之间的几何关系被用作区分特征以及几何不变式约束来训练最终模型。另外，使用了级联回归办法，它允许使用远远更少的存储器而不需要任何种类的压缩。

如上所提及的，不需要直接全局或局部回归。而是，使用由粗到细脸部对准方法，它将整体脸部形状驱动的全局回归、脸部分量驱动的群回归、和个别点对驱动的局部回归灵活地组合成统一框架。所描述的PPIIF考虑了陆标点对之间的几何关系。结果，几何不变式约束可被引入从训练数据渐进地学习形状增量的规程。这提供了高得多的性能。

基于形状回归的脸部对准方法通过使用线性回归从训练数据集迭代地学习特征映射函数和线性加权矩阵。在使用中，该***应当能够快速收敛在特定脸部上，并且能够使用训练数据的特征空间来区分精细特征。然而，完全的全局或局部回归往往很慢。作为示例，如果在回归的每一步骤处与脸部形状有关的所有陆标增量被共同地学习，则该回归变得非常长。存在着由不同脸部姿态、脸部表情、部分遮挡或任何特定脸部图像中的类似效果所造成的附加困难。结果，人脸是非刚性物体，并且甚至对于同一张脸而言相对尺寸和比例也可改变。

图10是根据一个实现的单个计算设备100的框图。计算设备100容纳***板2。板2可包括多个组件，包括但不限于处理器4和至少一个通信封装6。通信封装被耦合到一个或多个天线16。处理器4物理地且电气地耦合至板2。

取决于其应用，计算设备100可包括可物理耦合以及电耦合到板2或者可不物理耦合以及不电耦合到板2的其他组件。这些其他组件可包括但不限于易失性存储器(例如DRAM)8、非易失性存储器(例如ROM)9、闪存(未示出)、图形处理器12、数字信号处理器(未示出)、加密处理器(未示出)、芯片组14、天线16、显示器18(诸如触摸屏显示器)、触摸屏控制器20、电池22、音频编码解码器(未示出)、视频编码解码器(未示出)、功率放大器24、全球定位***(GPS)装置26、指南针28、加速度计(未示出)、陀螺仪(未示出)、扬声器30、相机32、话筒阵列34、以及大容量存储装置(诸如硬盘驱动器)10、紧凑盘(CD)(未示出)、数字多功能盘(DVD)(未示出)等等)。这些组件可耦合到***板2、安装到***板、或与其他组件中的任一者相组合。

通信封装6使得有线和/或无线通信能用于去往以及来自计算设备100的数据传递。术语“无线”及其衍生词可用于描述电路、设备、***、方法、技术、通信信道等，其可通过使用经调制的电磁辐射，通过非固态介质来传播数据。尽管相关联的设备在一些实施例中可能不包含任何线，但是该术语并不暗示相关联的设备不包含任何线。通信封装6可实现多种无线或有线标准或协议中的任一种，包括但不限于Wi-Fi(IEEE 802.11系列)、WiMAX(IEEE 802.16系列)、IEEE 802.20、长期演进(LTE)、EV-DO、HSPA+、HSDPA+、HSUPA+、EDGE、GSM、GPRS、CDMA、TDMA、DECT、蓝牙及其以太网衍生物以及称为3G、4G、5G以及更高的任何其它无线和有线协议。计算设备100可包括多个通信封装6。例如，第一通信封装6可专用于较短程的无线通信，如，Wi-Fi和蓝牙；第二通信封装6可专用于较长程的无线通信，如，GPS、EDGE、GPRS、CDMA、WiMAX、LTE、Ev-DO等。

相机32耦合到用于执行如本文所述的格式转换、编码和解码、降噪和3D映射的图像处理芯片36。处理器4耦合到图像处理芯片以驱动各过程、设置参数，等等。

在多个实现中，计算设备100可以是眼镜、膝上型设备、上网本、笔记本、超极本、智能手机、平板、个人数字助理(PDA)、超移动PC、移动电话、桌面计算机、服务器、机顶盒、娱乐控制单元、数字照相机、便携式音乐播放器或数字视频记录仪。计算设备可以是固定的、便携式的或可穿戴的。在进一步的实现中，计算设备100可以是处理数据的任何其他电子设备。

各实施例可被实现为一个或多个存储器芯片、控制器、CPU(中央处理单元)、微芯片或使用母板互连的集成电路、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)的一部分。

对“一个实施例”、“实施例”、“示例实施例”、“各实施例”等等的引用指示如此描述的各实施例可包括特定特征、结构或特性，但是，不是每一个实施例都必定包括该特定特征、结构或特征。此外，一些实施例可以具有针对其他实施例所描述的特征中的一些或全部，或完全不具有这些特征。

在所附描述以及权利要求书中，可以使用术语“耦合”及其派生词。“耦合”被用来指示两个或更多元件彼此协作或进行交互，但是，它们之间可以具有或可以不具有介于中间物理组件或电组件。

如权利要求中所使用，除非明确说明，否则用于描述普通元件的序数词“第一”、“第二”、“第三”等仅仅指示参照类似元件的不同实例，且不旨在暗示如此描述的这些元件必须在时间、空间、按等级或按任意其它方式在给定序列中。

附图以及前述描述给出了诸实施例的示例。本领域技术人员将理解，所描述的元件中的一个或多个可以合并成单个功能元件。或者，某些元件可以被拆分成多个功能元件。可以将来自一个实施例的元件添加到另一实施例中。例如，本文中所描述的过程的顺序可以改变，并且不限于本文中所描述的方式。此外，任何流程图的动作都不一定以图示的顺序来实现；也不一定需要执行所有这些动作。此外，不依赖于其他动作的那些动作也可以与其他动作并行地执行。各实施例的范围绝非由这些特定示例限制。众多变型(无论是否在说明书中显式地给出)，诸如结构、尺寸以及材料的使用方面的差异是可能的。诸实施例的范围至少与由所附权利要求书给出的范围一样广泛。

以下示例关于进一步的实施例。能以各种方式将不同的实施例的各种特征所包括的某些特征及被排除的其特征相结合以适应各种不同的应用。一些实施例涉及一种构建用于脸部陆标检测***的多个蕨的各回归阶段的方法，包括：使用训练图像集中的脸部形状来在这些图像上执行第一回归；使用训练图像集中的脸部分量群来在这些图像上执行第一回归；使用训练图像集中的各个别脸部点对来在这些图像上执行第一回归，以学习所述图像集中的每一相应图像的形状增量；基于所述第一回归来构建蕨；使用所述训练图像集中的脸部形状、使用脸部分量群以及使用个别脸部点对来在这些图像上执行附加回归；基于所述附加回归来构建附加蕨；以及将各个蕨组合以构建所述脸部陆标检测***。

在一些实施例中，执行第一回归包括学习脸部陆标的外观的变型。

在一些实施例中，执行第一回归包括学习脸部陆标的关系的变型。

在一些实施例中，使用图像中的脸部形状来执行第一回归包括：将所述图像集中的每一图像的形状差异计算为经归一化地面真值脸部形状与每一图像的每一脸部形状之间的差异；确定与所述地面真值脸部形状具有最接近相关的候选点对索引的图像特征的集合；以及使用所确定的排名靠前候选集合来构建蕨。

在一些实施例中，执行第一回归包括首先使用脸部形状执行回归，随后在使用脸部形状执行回归之后，使用脸部分量群执行回归，再后在使用脸部分量群执行回归之后，使用个别脸部点对来执行回归。

在一些实施例中，使用脸部分量群包括根据脸部分量将脸部陆标划分成各语义群集合，其中每一分量被分开地标识。

在一些实施例中，使用脸部分量群包括在每一语义群上与每一其他语义群分开地学习。

在一些实施例中，使用个别脸部点对来执行回归包括考虑陆标点对之间的几何关系。

在一些实施例中，使用个别脸部点对来执行回归包括在渐进地学习形状增量时引入几何不变式约束。

在一些实施例中，使用个别脸部点对包括在每一脸部点对上与每一其他脸部点对分开地学习。

在一些实施例中，使用个别脸部点对包括在一对的两个脸部点之间画线并确定所画线上的索引标记。

进一步实施例包括将图像集中的图像中的脸部形状大小归一化。

一些实施例涉及一种定位图像中的脸部陆标位置的方法，包括：接收具有初始脸部形状的初始图像；将蕨回归应用通过多个经训练特征的多个阶段，第一特征是脸部形状，第二特征是脸部分量群，且第三特征是个别脸部点对；以及基于所应用的蕨回归来标识脸部陆标位置。

在一些实施例中，对于蕨回归的每一阶段，图像中的各位置被递增到新位置以在每一阶段之后提供新脸部形状。

在一些实施例中，用于蕨回归包括：应用第一多个基于回归的蕨来更新所述图像中的脸部形状；应用第二多个基于回归的蕨来更新先前脸部形状中的各脸部分量群；应用第三多个基于回归的蕨来更新先前脸部形状中的各个别脸部点对；以及应用第四多个基于回归的蕨来更新先前脸部形状中的所标识的脸部形状的精细特征。

一些实施例涉及一种计算***，包括：用于存储训练图像集的存储器；用于接收包含脸部的图像的图像传感器；以及成像处理器，其用于接收所述训练图像集并通过以下操作来构建用于脸部陆标检测***的多个蕨的各回归阶段：使用训练图像集中的脸部形状来在这些图像上执行第一回归；使用训练图像集中的脸部分量群来在这些图像上执行第一回归；使用训练图像集中的各个别脸部点对来在这些图像上执行第一回归，以学习所述图像集中的每一相应图像的形状增量；基于所述第一回归来构建蕨；使用所述训练图像集中的脸部形状、使用脸部分量群以及使用个别脸部点对来在这些图像上执行附加回归；基于所述附加回归来构建附加蕨；以及将各个蕨组合以构建所述脸部陆标检测***，所述成像处理器用于将所述蕨存储在能由所述脸部陆标检测***访问的存储器中以供在由所述图像传感器捕获的图像上使用。

在一些实施例中，使用个别脸部点对包括在每一脸部点对上与每一其他脸部点对分开地学习，在一对的两个脸部点之间画线，以及确定所画线上的索引标记。

Claims

1.一种构建用于脸部陆标检测***的多个蕨的各回归阶段的方法，所述方法包括：

使用训练图像集中的脸部形状来在这些图像上执行第一回归；

使用训练图像集中的脸部分量群来在这些图像上执行第一回归；

使用训练图像集中的各个别脸部点对来在这些图像上执行第一回归，以学习所述图像集中的每一相应图像的形状增量；

基于所述第一回归来构建蕨；

使用所述训练图像集中的脸部形状、使用脸部分量群、以及使用个别脸部点对来在这些图像上执行附加回归；

基于所述附加回归来构建附加蕨；以及

将各个蕨组合以构建所述脸部陆标检测***，

其中执行第一回归包括用个别脸部点对来执行回归，并且其中用个别脸部点对来执行回归包括在渐进地学习形状增量时引入几何不变式约束。

2.如权利要求1所述的方法，其特征在于，执行第一回归包括学习脸部陆标的外观的变型。

3.如权利要求1或2所述的方法，其特征在于，执行第一回归包括学习脸部陆标的关系的变型。

4.如权利要求1-2中的任何一者所述的方法，其特征在于，使用所述图像中的脸部形状来执行第一回归包括：

将所述图像集中的每一图像的形状差异计算为经归一化地面真值脸部形状与每一图像的每一脸部形状之间的差异；

确定与所述地面真值脸部形状具有最接近相关的候选点对索引的图像特征的集合；以及

使用所确定的排名靠前候选集合来构建蕨。

5.如权利要求1-2中的任一者所述的方法，其特征在于，执行第一回归包括首先使用脸部形状执行回归，随后在使用脸部形状执行回归之后，使用脸部分量群执行回归，再后在使用脸部分量群执行回归之后，使用个别脸部点对来执行回归。

6.如权利要求1-2中的任一者所述的方法，其特征在于，使用脸部分量群包括根据脸部分量将脸部陆标划分成各语义群集合，其中每一分量被分开地标识。

7.如权利要求6所述的方法，其特征在于，使用脸部分量群包括在每一语义群上与每一其他语义群分开地学习。

8.如权利要求5所述的方法，其特征在于，使用个别脸部点对来执行回归包括考虑陆标点对之间的几何关系。

9.如权利要求1-2中的任一者所述的方法，其特征在于，使用个别脸部点对包括在每一脸部点对上与每一其他脸部点对分开地学习。

10.如权利要求9所述的方法，其特征在于，使用个别脸部点对包括在一对的两个脸部点之间画线并确定所画线上的索引标记。

11.如权利要求1-2中的任一者所述的方法，其特征在于，进一步包括将所述图像集中的图像中的脸部形状大小归一化。

12.一种定位图像中的脸部陆标位置的方法，包括：

接收具有初始脸部形状的初始图像；

将蕨回归应用通过多个经训练特征的多个阶段，第一特征是脸部形状，第二特征是脸部分量群，且第三特征是个别脸部点对；以及

基于所应用的蕨回归来标识脸部陆标位置，

其中应用蕨回归包括在渐进地学习形状增量时引入几何不变式约束。

13.如权利要求12所述的方法，其特征在于，对于所述蕨回归的每一阶段，所述图像中的各位置被递增到新位置以在每一阶段之后提供新脸部形状。

14.如权利要求12或13所述的方法，其特征在于，应用蕨回归包括：

应用第一多个基于回归的蕨来更新所述图像中的脸部形状；

应用第二多个基于回归的蕨来更新先前脸部形状中的各脸部分量群；

应用第三多个基于回归的蕨来更新所述先前脸部形状中的各个别脸部点对；以及

应用第四多个基于回归的蕨来更新所述先前脸部形状中的所标识的脸部形状的精细特征。

15.一种计算***，包括：

用于存储训练图像集的存储器；

用于接收包含脸部的图像的图像传感器；以及

成像处理器，其用于接收所述训练图像集并通过以下操作来构建用于脸部陆标检测***的多个蕨的各回归阶段：使用训练图像集中的脸部形状来在这些图像上执行第一回归；使用训练图像集中的脸部分量群来在这些图像上执行第一回归；使用训练图像集中的各个别脸部点对来在这些图像上执行第一回归，以学习所述图像集中的每一相应图像的形状增量；基于所述第一回归来构建蕨；使用所述训练图像集中的脸部形状、使用脸部分量群、以及使用个别脸部点对来在这些图像上执行附加回归；基于所述附加回归来构建附加蕨；以及将各个蕨组合以构建所述脸部陆标检测***，

所述成像处理器用于将所述蕨存储在能由所述脸部陆标检测***访问的存储器中以供在由所述图像传感器捕获的图像上使用，

16.如权利要求15所述的计算***，其特征在于，使用所述图像中的脸部形状执行第一回归包括：

使用所确定的排名靠前候选集合来构建蕨。

17.如权利要求15或16所述的计算***，其特征在于，执行第一回归包括首先使用脸部形状执行回归，随后在使用脸部形状执行回归之后，使用脸部分量群执行回归，再后在使用脸部分量群执行回归之后，使用个别脸部点对来执行回归。

18.如权利要求15-17中的任一者所述的计算***，其特征在于，使用个别脸部点对包括在每一脸部点对上与每一其他脸部点对分开地学习，在一对的两个脸部点之间画线，以及确定所画线上的索引标记。

19.一种其上存储有指令的计算机可读介质，所述指令当由计算机处理器执行时使所述处理器执行如权利要求1至14中任一项所述的方法。

20.一种计算设备，包括用于执行如权利要求1至14中任一项所述的方法的装置。