CN103443804B

CN103443804B - 面部标志检测方法

Info

Publication number: CN103443804B
Application number: CN201180069791.8A
Authority: CN
Inventors: 刘昂; Y.杜; 王涛; ***; 栗强; 张益民
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2019-02-19
Anticipated expiration: 2031-03-31
Also published as: CN103443804A; US20140050358A1; EP2691915A4; WO2012129727A1; US9471829B2; EP2691915A1

Abstract

可通过首先剪切图像中的所检测面部的面部矩形区域、并且至少部分基于该面部矩形区域生成积分图像来执行检测图像中所检测的面部的面部标志。随后，可对面部矩形区域的每个面部标志运行级联分类器，以便至少部分基于积分图像来产生每个面部标志的一个响应图像。可建立多个主动形状模型（ASM）初始化。ASM搜索可至少部分基于响应图像对每个ASM初始化来执行，每个ASM搜索产生具有成本的搜索结果。最后，可选择具有最低成本函数的ASM搜索的搜索结果，所选搜索结果指示图像中的面部标志的位置。

Description

面部标志检测方法

技术领域

一般来说，本公开涉及图像处理领域。更具体来说，本发明的一实施例涉及由处理***中的处理器所运行以用于分析面部图像的面部标志检测处理。

背景技术

随着嵌入式计算装置中的增加计算能力的进步，面部识别应用变得越来越普遍，例如数码相机中的自动聚焦/自动白平衡/自动曝光（3A）处理和微笑快门、智能电话上的基于化身的通信以及手持计算装置上的面部识别登录能力。在这些面部分析应用中，面部标志检测是重要处理步骤，这是因为面部标志检测模块的输出结果的精度极大地影响随后的面部图像处理步骤的性能。另外，面部标志检测是面部识别处理流水线中最费时模块之一。因此，快速面部标志检测处理对于面部分析应用、特别是对于具有有限计算能力的嵌入式平台（例如智能电话和移动因特网装置（MID））会是重要的。

近来，对面部标志检测技术的研究已经增加。人的面部上的主要标志点包括眼角、嘴角和鼻尖。检测任务是在找到面部的近似区域之后识别这些点的准确位置。这通常是不平凡的任务，因为面部特征的外观因不同的头部姿势、面部表情、不均匀照明、附件和潜在闭塞而存在显著变化。良好的面部标志检测过程应当能够处理所有这些变化。

至少存在若干已知方式，其中主动形状模型（ASM）和主动外观模型（AAM）是最典型的方法。在T.F.Cootes和C.J.Taylor的“Statistical Models of Appearance forComputer Vision（用于计算机视觉的外观的统计模型）”（University of Manchester，2004年3月8日）中示出这些模型。ASM/AAM使用统计方法来捕获训练集合中的示例变化，并且优化成本函数以使形状模型适合新示例。近年来，在ASM/AAM框架中提出了改进，例如利用高级图像特征或者分级的由粗到细搜索。这些方法改进标志检测的精度，但是另一方面，计算成本显著增加，并且它不能在现代嵌入式计算平台上达到实时性能。例如，如LiZhang、Haizhou Ai和Shihong Lao的“Robust Face Alignment Based on HierarchicalClassifier Network（基于分级分类器网络的健壮面部对齐）”（Proceedings of theEuropean Conference on Computer Vision （ECCV） Workshop Human ComputerInterface （HCI） 2006，第1-11页）中公开的一种方法对于由已知处理***进行的近实时使用过慢。相应地，期望面部标志检测处理的更好并且更高效方法。

附图说明

参照附图提供详细描述。不同附图中的相同参考标号的使用表示相似或相同项。

图1是按照本发明的一个实施例、作为面部图像处理***的部分的面部标志检测部件的图。

图2是按照本发明的一个实施例的面部标志检测处理的流程图。

图3是按照本发明的一个实施例、用于对象检测的分类器级联的图。

图4是按照本发明的一个实施例、用于嘴角分类器的一组示例训练图像。

图5是按照本发明的一个实施例的响应图像和平滑结果的示例。

图6是按照本发明的一个实施例的标志点之间的几何关系。

图7是按照本发明的一个实施例的面部图像中的一组示例检测标志点。

图8是按照本发明的一个实施例的不实用面部形状的图。

图9是示出按照本发明的一个实施例的面部特征的比率分布的一组图表。

图10是按照本发明的一个实施例、对形状参数的三个示例ASM初始化的图。

图11是按照本发明的一个实施例的面部标志检测结果的误差分布的图。

图12-14是按照本发明的一个实施例的面部标志的一组示例检测结果。

图15和图16示出可用于实现本文所论述的一些实施例的处理***的实施例的框图。

具体实施方式

本发明的实施例提供用于面部标志检测的快速有效方法。在一个实施例中，哈尔（Haar）级联分类器可投入主动形状模型（ASM）框架中。级联分类器可成功地用于面部检测中，并且哈尔型特征能够通过积分图像来加速，其使面部标志检测准确并且迅速。ASM框架确保形状拟合处于有效形状空间中。为了防止ASM搜索落入局部最小值，多个配置可用于初始化形状参数。为了节省计算，本发明的实施例仅检测六个标志点（双眼的内/外角、嘴的左/右角）。这六个点对于面部对齐和许多其它面部相关任务一般是充分的。本发明的实施例执行面部标志检测处理比已知现有技术方法快大约五倍。

在以下描述中，提出许多具体细节，以便提供对各个实施例的透彻理解。但是，即使没有这些具体细节也可实施本发明的各个实施例。在其它情况下，没有详细描述众所周知的方法、过程、部件和电路，以免影响对本发明的具体实施例的理解。此外，可使用诸如集成半导体电路（“硬件”）、组织成计算机可读存储介质上存储的一个或多个程序的计算机可读指令（“软件”）或者硬件和软件的某种组合之类的各种手段，来执行本发明的实施例的各个方面。为了便于本公开，提到“逻辑”将表示硬件、软件（包括例如控制处理器的操作的微码）、固件或者它们的某种组合。

哈尔型特征是对象识别处理中使用的数字图像特征。其得名是因为它们与哈尔小波的直观相似性，并且用于第一实时面部检测器中。历史上，仅与图像强度（即，在图像的每个和每一个像素的RGB像素值）一起工作使特征计算的任务是计算量极大的。在Constantine Papageorgiou、Michael Oren和Tomaso Poggio的“A General Frameworkfor Object Detection（对象检测的一般框架）”（International Conference onComputer Vision，1998）中，Papageorgiou等人论述了与基于哈尔小波的备选特征集合而不是通常的图像强度一起工作。如Paul Viola和Michael Jones的“Rapid ObjectDetection Using a Boosted Cascade of Simple Features（使用简单特征的增强级联的快速对象检测）”（Conference on Computer Vision and Pattern Recognition，2001）中所公开，Viola和Jones适配了使用哈尔小波的概念，并且开发了所谓的哈尔型特征。哈尔型特征考虑在检测窗口的特定位置的相邻矩形区域，合计这些区域中的像素强度，并且计算它们之间的差。这个差然后用于分类图像的分部。例如，考虑具有人的面部的图像数据库。共同观察结果是，在所有面部之中，眼部区域比脸颊区域要暗。因此，用于面部检测的共同哈尔特征是位于眼部和脸颊区域上方的一组两个相邻矩形。这些矩形的位置相对于就像目标对象（这种情况下的面部）的边界框那样起作用的检测窗口来定义。

在Viola-Jones对象检测框架的检测阶段，目标大小的窗口在输入图像之上移动，并且对于图像的各分部来计算哈尔型特征。这个差然后与将非对象与对象分离的已学习阈值进行比较。因为这种哈尔型特征只是弱学习器或分类器（其检测质量比随机猜测略高），所以大量哈尔型特征是以充分精度来描述对象所需的。在Viola-Jones对象检测框架中，哈尔型特征因此按照称作分类器级联的某种形式来组织，以便形成强学习器或分类器。哈尔型特征优于大多数其它特征的一个优点是其计算速度。由于积分图像的使用，任何大小的哈尔型特征可在恒定时间（在一种情况下，对于2矩形特征大约60个微处理器指令）来计算。

本发明的实施例处理从照相机所捕获的面部图像。图1是按照本发明的一些实施例的处理***100的图。处理***包括应用102、照相机104和显示器111。在各个实施例中，处理***可以是个人计算机（PC）、膝上型计算机、上网本、平板计算机、手持计算机、智能电话、移动因特网装置（MID）或者任何其它固定或移动处理装置。在一些实施例中，照相机可以是处理***的整体部分。在其它实施例中，照相机可以是处理***外部的，但是在通信上与处理***耦合。在一个实施例中，由照相机所捕获的图像可通过网络或者有线或无线接口传递给处理***供分析。应用102可以是将要在处理***上运行的应用程序。在各个实施例中，例如，应用程序可以是独立程序或者另一个程序的一部分（例如诸如插件）、万维网浏览器、图像处理应用、游戏或者多媒体应用。应用102可包括面部分析部件106，面部分析部件106分析由照相机所捕获的图像以检测人的面部。在一个实施例中，面部分析部件106可包括：面部检测部件107，检测图像中的人的面部；面部标志检测部件108，检测所检测面部中的面部标志；以及其它面部分析部件109。在各个实施例中，其它面部分析部件109包括执行面部对齐、性别识别、微笑识别和/或面部识别处理中的一个或多个的部件。在一个实施例中，应用102、面部分析部件106、面部检测部件107、面部标志检测部件108和/或其它面部分析部件109可实现为硬件部件、固件部件、软件部件或者硬件、固件和/或软件部件中的一个或多个的组合而作为处理***100的部分。

在一个实施例中，用户可操作处理***100，以便从照相机104捕获一个或多个图像。所捕获的一个或多个图像可为了各种目的而输入到应用102。应用可将一个或多个图像传递给面部分析部件106，以用于确定一个或多个图像中的面部特性。面部分析部件106可使用面部标志检测部件108来检测一个或多个图像中的面部标志。包括面部分析的应用处理的结果可在显示器111上示出。

面部检测处理可对于来自照相机的输入图像来执行，以便检测图像中的面部。可使用任何已知的面部检测过程，只要该过程产生所检测面部的矩形图像。输入数据包括一个或多个2D图像。在一个实施例中，2D图像包括某个帧速率fps的视频帧序列，其中每个视频帧具有图像分辨率（W×H）。大多数现有面部检测方式遵循Paul Viola和Michael Jones的“Rapid Object Detection Using a Boosted Cascade of Simple Features”（Conference on Computer Vision and Pattern Recognition，2001）中所示的众所周知Viola-Jones框架。但是，基于本发明人所执行的实验，在一个实施例中，Gabor特征和级联模型与Viola-Jones框架配合使用可实现面部检测的相对高精度。为了改进处理速度，在本发明的实施例中，面部检测可分解为多个连续帧。可对每一个视频帧来预测面部数量#f、帧中的位置（x,y）以及采用宽度和高度（w,h）表示的面部大小。面部检测处理107产生一个或多个面部数据集（#f,[x,y,w,h]）。

一些已知面部检测算法将面部检测任务实现为二值模式分类任务。也就是说，将图像的给定部分的内容变换为特征，此后对示例面部所训练的分类器判定图像的那个特定区域是否为面部。通常采用窗口滑动技术。也就是说，分类器用于将所有位置和标度的图像的（通常正方形或矩形）部分分类为面部或非面部（背景图案）。

面部模型能够包含面部的外观、形状和运动。Viola-Jones对象检测框架是实时提供竞争对象检测速率的对象检测框架。它主要通过面部检测的问题来推动。

对象检测框架的部件包括特征类型和评估、学习算法以及级联架构。在特征类型和评估部件中，由对象检测框架所采用的特征普遍涉及矩形区域中的图像像素之和。通过使用称作积分图像的图像表示，能够以恒定时间评估矩形特征，这给予它们优于其更复杂相对体的显著速度优点。

在本发明的实施例中，新形状模型可用于描述六个面部标志点（例如左眼角、右眼角和嘴角）的位置。在传统ASM中，形状变化模式通过对样本数据集的统计分析来得出，但是本发明的实施例的形状模型可通过先验知识来人为定义。这使形状模型描述更为紧凑并且使每个变化模式更为语义的。尽管仅使用几个形状参数，但本发明的实施例的形状模型设法适合大范围的面部变化。为了防止ASM搜索落入局部最小值，可使用执行多个初始化的新的有效方法。初始化基于来自哈尔级联分类器的概率响应。将具有成本函数的最小值的搜索结果视作最终输出。这个策略极大地改进面部标志检测处理的精度。

在级联架构部件中，通过学习过程所生成的强分类器的评估能够迅速进行，但不是快到足以实时运行。为此，强分类器按照复杂度顺序级联地设置，其中各连续分类器仅对通过先前分类器的那些所选样本来训练。如果在级联中的任何级，分类器拒绝检测中的子窗口，则不执行进一步处理，并且级联架构部件继续搜索下一个子窗口。

在面部检测处理107期间定位面部区域之后，本发明的实施例检测诸如嘴和眼角之类的面部特征的准确位置。标志是面部中的感兴趣点。左眼、右眼和鼻子基部都是标志的示例。标志检测过程影响面部相关应用的整体***性能，这是因为其精度显著影响连续处理的性能，例如面部对齐、面部识别和化身动画。用于面部标志检测处理的两种典型方法是主动形状模型（ASM）和主动外观模型（AAM）。ASM和AAM使用从加标签的数据所训练的统计模型，以便捕获形状和纹理的变化。在T.F. Cootes和C.F. Taylor的“Statistical Modelsof Appearance for Computer Vision”（Imaging Science and BiomedicalEngineering, University of Manchester，2004年3月8日）中公开了ASM。

在一个实施例中，面部标志检测处理108采用健壮的增强分类器来捕获局部纹理的各种变化。另外，为了防止最佳形状搜索落入局部最小值，多个配置可用于初始化形状参数。

在一个实施例中，级联分类器可在面部图像的感兴趣区域运行，以便生成每个面部标志的概率响应图像。在位置（x,y）的级联分类器的概率输出近似为：

，

其中，f _i是训练过程期间所指定的第i级分类器的假肯定率（f _i的典型值为0.5），以及k（x,y）指示在当前位置成功地通过多少级分类器。能够看到，得分越大，则当前像素属于目标面部标志的概率越高。

图2是按照本发明的一个实施例的面部标志检测处理的流程图。如果在输入图像中检测面部，则在框202处，可剪切图像的面部矩形区域，并且可计算积分图像。积分图像又称作求和面积表，其用于快速计算哈尔型特征。

在框204，对于图像中的每个面部特征，可训练单独级联分类器，并且运行每个级联分类器以输出当前潜在面部标志的概率得分。这样，在框206处，可得到图像的每个潜在面部标志的至少一个响应图像，其表示在所剪切图像的位置的面部标志的可能性。

但是，级联分类器的输出可能不够准确，并且有时可返回多个响应。还需要考虑不同标志之间的几何限制。几何关系可在ASM训练中学习，以及每个潜在面部标志的概率响应图像可用于计算ASM搜索期间的每个潜在标志点的成本。为了防止局部最小值被选择，可在框208处建立多个ASM初始化。

可在框210、210、…214处对每个ASM初始化执行ASM搜索，其中每个ASM搜索输出搜索结果。搜索结果包括表示六个面部特征可能所在的图像中的点的六对坐标。在框216，可选择搜索结果。在一个实施例中，从框210、212、…214所输出的具有最低成本函数的搜索结果可被选择作为面部标志检测部件108的输出数据。这个输出数据表示图像中的六个标志点的最可能位置（（x₁,y₁）,（x₂,y₂）,（x₃,y₃）,（x₄,y₄）,（x₅,y₅）,（x₆,y₆））。

在一个实施例中，级联分类器和概率响应图像可确定如下。图3是按照本发明的一个实施例、用于对象检测的分类器级联的图。如图3所示，级联结构包括一系列级分类器302、304、…306。在一个实施例中，级联结构可如Paul Viola和Michael Jones的“RapidObject Detection Using a Boosted Cascade of Simple Features”（Conference onComputer Vision and Pattern Recognition（CVPR），2001）中所示那样来设置。级联分类器是一组连锁级分类器，其中不可能的示例会在早期级被拒绝。当检测窗口300经过分类器的级联结构时，它通过的级越多，则越可能是肯定示例。

在一个实施例中，可对每个潜在面部标志来训练单独级联分类器。在一个实施例中，在圣地亚哥的加利福尼亚大学（UCSD）的机器感知实验室（MPLab）GENKI面部数据库可用作训练数据集。MPLab GENKI数据库是包含跨越大范围的照明条件、地理位置、个人身份和种族性的面部的图像的扩大数据库。GENKI数据库可见于因特网的http://mplab-ucsd-edu/wordpress/?page_id=398（其中每个“.”用“-”取代，以防止从本文档的万维网访问）。面部图像可归一化成96×96像素，并且然后采用围绕面部标志点的16×16像素的小片（patch）来剪切而作为训练示例。由于嘴/眼的左/右角看起来是对称的，所以在一个实施例中，可以仅需要训练两个分类器。一个分类器用于左眼角，另一分类器用于左嘴角。图像小片可水平地翻转，以便检测右角。

图4是按照本发明的一个实施例、用于嘴角分类器的一组示例训练图像。嘴角分类器可用于依次分析每个面部图像小片以训练分类器。

图5是按照本发明的一个实施例的响应图像和平滑结果的图。在本例中，当左嘴角的级联分类器应用于图5的样本面部图像500时，结果是概率响应图像502。在一个实施例中，高斯平滑过程可应用于概率响应图像502，从而产生平滑图像504。能够看到，围绕左嘴角的区域获得比其它区域要高许多的响应。

由于概率响应通常不是足够可靠的，所以在一个实施例中，可分析不同面部标志点之间的几何关系。在一个实施例中，这能够通过构建参数形状模型并且使用ASM搜索框架进行。

在ASM搜索中，每个标志点的成本可表示为：

其中，P（x,y）是在位置（x,y）的标志的概率得分。

ASM成本函数可定义为：

其中，S是下面将引入的形状控制参数，以及调节项考虑标志点之间的几何限制。

通过使ASM成本函数为最小，ASM搜索将查找面部图像中的一个或多个标志点的最佳位置。

在一个实施例中，几何限制和成本函数可确定如下。可检测面部上的六个标志点，即，双眼的内/外角以及嘴的右/右角。为了组成简单几何关系，假定眼角的四个点形成看起来与嘴角线平行的直线。另外，假定面部标志点始终是水平对称的。这样，这六个标志点（示出为实心圆圈）能够通过如图6所示的三个参数（L ₁、L ₂、L ₃）描述为六个标志点600所形成的基本形状。L ₁测量双眼外角之间的距离，L ₂测量嘴的宽度，以及L ₃测量嘴-眼距离（即，与眼角和嘴角之间的线垂直的线）。对于面部图像中的形状搜索，可引入三个附加参数（t _x、t _y、θ），以便描述如图6中示出为602的基本形状的平移和旋转。因此，在一个实施例中，可使用六个参数S=（L ₁,L ₂,L ₃,t _x,t _y,θ），以便对ASM式搜索中的标志点的位置进行建模。注意，在原始ASM概念中，形状变化模式从对形状示例的统计分析来得出，而在本发明的一个实施例中，三种变化模式（L ₁、L ₂、L ₃）可基于先验知识来人为定义。

图7是按照本发明的一个实施例的面部图像中的一组示例检测标志点。图7示出在适合GENKI数据库中的示例图像的同时的基本形状的描述能力。能够看到，形状参数S=（L ₁,L ₂,L ₃,t _x,t _y,θ）设法覆盖大范围面部形状变化。

图8是按照本发明的一个实施例的不实用面部形状的图。如果L ₁、L ₂、L ₃取任意值，则不实用面部形状可如同800和802中那样生成。因此，可需要在变化模式L ₁、L ₂和L ₃之间引入限制。

在ASM/AAM统计模型中，为了防止生成无效示例，变化模式的系数可限制在之内，（λ_i是样本统计中的本征矢量的本征值）。在一个实施例中，简化策略可用于构造成本函数。首先，关于L ₁与L ₂、还有L ₁与L ₃之间的比率的统计可通过经验数据来确定。图9是示出按照本发明的一个实施例的GENKI数据库中的面部特征的比率分布的一组图表。

假定L ₂/L ₁和L ₃/L ₁相互无关，并且它们均是高斯分布，将几何限制作为调节项加入成本函数中：

其中，u _i和是比率的平均数和方差，以及参数K _i（i=1,2）是确定有效形状的相对重要性和分类器响应的高可能性的权重。

在一个实施例中，高斯-牛顿迭代可用于使ASM搜索的成本函数为最小。给定形状参数的初始估计，高斯-牛顿法高效地运行，并且基于本申请人的实验它一般将在10个步骤中收敛。但是，由于ASM搜索中的许多局部最小成本得分，初始估计极大地影响面部标志点的最终位置的质量。为了应对这个问题，多组初始值可提供给形状参数（图2的框208），以及ASM搜索可运行多次（图2的框210、212、214）。在一个实施例中，将具有成本函数的最小值的搜索结果选择（图2的框216）作为最终输出。

图10是按照本发明的一个实施例、形状参数的三个示例ASM初始化的图。对于每个标志点，对应级联分类器将建议具有面部图像中的最大概率的“最佳”位置。在一个实施例中，可拣选它们之中的四个点，以便估计ASM搜索的初始化的最佳拟合形状参数。由于存在从六个可用点中拣选四个点的若干组合，所以点的不同组合可提供多个ASM搜索的不同初始化。图10中，在每个示例1000、1002和1004，四个实心点用于估计初始形状参数，而其它两个空心点未使用。

一些实验结果描述如下。给定六个标志点的地面实况，定义相对误差测量r _e以评估检测算法的精度：

其中，e _i是每个单独标志位置的点对点误差，以及L1是地面实况中的眼部的两个外角的距离。

图11是按照本发明的一个实施例的面部标志检测结果的误差分布的图。图11示出对公共可用FaceTracer数据集来操作的本发明的实施例的累积误差分布。此数据集是从因特网收集的现实世界面部图像的大集合。它覆盖年龄和种族、表情和照明的大范围变化。累积误差分布示出具有误差的多少所检测图像小于r _e。从图11能够看到，本发明的实施例以r _e<0.15来处理95%的面部图像。为了使问题直观，图11还示出具有r _e=0.15的标志检测结果的样本图像，其中眼部的两个外角之间的距离为42个像素，以及标志点的最大偏差为6个像素。这表明，r _e=0.15在大多数面部对齐情况下一般是可接受的。

在面部区域提取之后，面部面积可归一化为96×96图像小片供标志点检测。这确保检测时间与面部图像大小无关。在一个实施例中，执行时间的大多数花费在通过运行级联分类器来计算标志响应图像上，之后接着基于高斯-牛顿的ASM迭代。表1示出分别运行于样本台式计算机和基于Atom的上网本、对GENKI数据库进行操作的热模块的平均时间分类的示例。

表1

表2比较本发明的一个实施例以及如Li Zhang、Haizhou Ai和Shihong Lao的“Robust Face Alignment Based on Hierarchical Classifier Network”（Proceedingsof the Human Computer Interface （HCI）/ European Conference on Computer Vision（ECCV） Workshop，Lecture Notes in Computer Science （LNCS） 3979，第1-11页，2006年）中公开的已知过程的运行速度。当应用于视频时，在一个实施例中可通过利用视频帧的一致性来引入面部标志点的跟踪模式。它表示前一帧中的搜索结果被视为当前帧中的ASM初始化。这个策略以极少精度损失来加速视频中的面部标志检测。由于Zhang等人的过程没有跟踪模式，所以表2中仅示出其检测。通过比较，本发明的一个实施例比Zhang等人的过程的实现要快至少五倍。本发明的实施例的高效标志检测器在可从Intel Corporation（例如）购买的、能够广泛用于具有有限计算和功率资源的嵌入式平台中的Atom处理器上实现改进实时性能。

表2

为了进一步调查本发明的实施例的健壮性，在具有各种表情、姿势、胡子、太阳镜以及还在画线面部上测试本方式。图12-14是按照本发明的一个实施例的面部标志的一组示例检测结果。能够看到，本发明的实施例在各种情况下以及甚至在极端情况下也相当健壮。

本发明的实施例提供使用哈尔级联分类器和几何限制的快速准确面部标志检测器。由于增加的效率，这种面部标志检测可在具有有限计算资源的嵌入式计算平台上有效执行。在一个示例基于Atom处理器的***上，本发明的实施例能够每秒处理高达50个面部，这提供优良的实时性能并且引起低功率消耗。精度也可与其它已知现有技术过程兼容。基于准确以及要求极低计算资源的优点，本发明的实施例的标志检测器可广泛地用于计算平台的许多面部分析应用中。

图15示出处理***1500的一个实施例的框图。在各个实施例中，***1500的部件的一个或多个可设置在能够执行本文中参照本发明的一些实施例所论述的操作的一个或多个的各种电子计算装置中。例如，例如通过按照本文所论述的操作处理指令、运行子例程等，处理***1500的部件的一个或多个可用于执行参照图1-14所论述的操作。另外，本文中（例如参照图15和/或图16）所论述的各种存储装置可用于存储数据、操作结果等。在一个实施例中，通过网络1503（例如经由网络接口装置1530和/或1630）所接收的数据可存储在处理器1502（和/或图16的1602）中存在的高速缓存（例如一个实施例中的L1高速缓存）中。这些处理器则可应用本文中按照本发明的各个实施例所论述的操作。

更具体来说，处理***1500可包括经由互连网络1504进行通信的一个或多个处理单元1502或处理器。因此，在一些实施例中，本文所论述的各种操作可由处理器来执行。此外，处理器1502可包括通用处理器、网络处理器（其处理通过计算机网络1503所传递的数据）或者（包括简化指令集计算机（RISC）处理器或者复杂指令集计算机（CISC）的）其它类型的处理器。此外，处理器1502可具有单核或多核设计。具有多核设计的处理器1502可将不同类型的处理器核集成在同一个集成电路（IC）管芯上。具有多核设计的处理器1502还可实现为对称或不对称多处理器。此外，可由***1500的一个或多个部件来执行参照图1-14所论述的操作。在一个实施例中，处理器（例如处理器1 1502-1）可包括作为硬连线逻辑（例如电路）或微码的面部标志检测部件108、面部分析部件106和/或应用102。在一个实施例中，图15所示的多个部件可包含在单个集成电路（例如芯片上***（SOC））上。

芯片组1506还可与互连网络1504进行通信。芯片组1506可包括图形和存储控制集线器（GMCH）1508。GMCH 1508可包括与存储器1512进行通信的存储控制器1510。存储器1512可存储数据，例如来自照相机104的图像1511。数据可包括由处理器1502或者计算***1500中包含的任何其它装置运行的指令序列。此外，存储器1512可存储诸如面部标志检测部件108之类的程序、与可执行文件对应的指令、映射等中的一个或多个。该数据（包括指令、照相机图像、面部模型和暂时存储阵列）的相同或者至少一部分可存储在盘驱动1528和/或处理器1502内的一个或多个高速缓存中。在本发明的一个实施例中，存储器1512可包括一个或多个易失性存储装置（或存储器），例如随机存取存储器（RAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、静态RAM（SRAM）或者其它类型的存储装置。还可使用非易失性存储器、例如硬盘。例如多个处理器和/或多个***存储器等附加装置可经由互连网络1504进行通信。

GMCH 1508还可包括与显示器1516进行通信的图形接口1514。在本发明的一个实施例中，图形接口1514可经由加速图形端口（AGP）与显示器1516进行通信。在本发明的一个实施例中，显示器1516可以是可通过例如信号转换器与图形接口1514进行通信的平板显示器，其中信号转换器将诸如视频存储器或***存储器之类的存储装置中存储的图像的数字表示转换为由显示器1516来理解和显示的显示信号。接口1514所产生的显示信号可在由显示器1516来理解并且随后在显示器1516上显示之前经过各种控制装置。在一个实施例中，由面部标志检测部件108所处理的照相机图像、面部模型和面部标志可在显示器上向用户显示。

集线器接口1518可允许GMCH 1508和输入/输出（I/O）控制集线器（ICH）1520进行通信。ICH 1520可提供到与计算***1500进行通信的I/O装置的接口。ICH 1520可通过诸如外设部件互连（PCI）桥接器、通用串行总线（USB）控制器或者其它类型的外设桥接器或控制器之类的外设桥接器（或控制器）1524来与链路1522进行通信。桥接器1524可提供处理器1502与***装置之间的数据路径。可使用其它类型的拓扑。多个链路也可例如通过多个桥接器或控制器来与ICH 1520进行通信。此外，在本发明的各个实施例中，与ICH 1520进行通信的其它外设可包括集成驱动电子设备（IDE）或小型计算机***接口（SCSI）硬驱动、USB端口、键盘、鼠标、并行端口、串行端口、软盘驱动、数字输出支持（例如数字视频接口（DVI））、照相机104或者其它装置。

链路1522可与音频装置1526、一个或多个盘驱动1528以及可与计算机网络1503（例如诸如因特网）进行通信的网络接口装置1530进行通信。在一个实施例中，装置1530可以是能够进行有线或无线通信的网络接口控制器（NIC）。其它装置可经由链路1522进行通信。在本发明的一些实施例中，各种部件（例如网络接口装置1530）也可与GMCH 1508进行通信。另外，可组合处理器1502、GMCH 1508和/或图形接口1514，以形成单个芯片。在一个实施例中，图像1511和/或面部标志检测部件108可从计算机网络1503来接收。在一个实施例中，面部分析部件106和/或面部标志检测部件108可以是由处理器1502所运行的万维网浏览器的插件。

另外，计算***1500可包括易失性和/或非易失性存储器（或存储）。例如，非易失性存储器可包括下列一个或多个：只读存储器（ROM）、可编程ROM（PROM）、可擦除PROM（EPROM）、电EPROM（EEPROM）、盘驱动（例如1528）、软盘、压缩盘ROM（CD-ROM）、数字多功能盘（DVD）、闪速存储器、磁-光盘、或者能够存储电子数据（例如包括指令）的其它类型的非易失性机器可读介质。

在一个实施例中，***1500的部件可设置成诸如参照图16所论述之类的点对点（PtP）配置。例如，处理器、存储器和/或输入/输出装置可通过多个点对点接口进行互连。

更具体来说，图16示出按照本发明的一个实施例、设置成点对点（PtP）配置的计算***1600。具体来说，图16示出其中处理器、存储器和输入/输出装置通过多个点对点接口来互连的***。参照图1-14所论述的操作可由***1600的一个或多个部件来执行。

如图16所示，***1600可包括多个处理器，为了清楚起见仅示出其中的两个，即处理器1602和1604。处理器1602和1604每个可包括本地存储控制器集线器（MCH）1606和1608（在一些实施例中，它们可与图15的GMCH 1508相同或相似），以便与存储器1610和1612耦合。存储器1610和/或1612可存储诸如参照图15的存储器1512所论述的那些之类的各种数据。

处理器1602和1604可以是诸如参照图15的处理器1502所论述的那些之类的任何适当处理器。处理器1602和1604可分别使用点对点（PtP）接口电路1616和1618经由PtP接口1614来交换数据。处理器1602和1604每个可使用点对点接口电路1626、1628、1630和1632经由单独PtP接口1622和1624来与芯片组1620交换数据。芯片组1620还可使用PtP接口电路1637经由高性能图形接口1636来与高性能图形电路1634交换数据。

可通过使用处理器1602和1604来提供本发明的至少一个实施例。例如，处理器1602和/或1604可执行图1-14的操作的一个或多个。但是，本发明的其它实施例可存在于图16的***1600内的其它电路、逻辑单元或装置中。此外，本发明的其它实施例可遍及图16所示的若干电路、逻辑单元或装置分布。

芯片组1620可使用PtP接口电路1641耦合到链路1640。链路1640可具有与其耦合的一个或多个装置，例如桥接器1642和I/O装置1643。经由链路1644，桥接器1643可耦合到其它装置，例如键盘/鼠标1645、参照图15所论述的网络接口装置1630（例如可耦合到计算机网络1503的调制解调器、网络接口卡（NIC）等）、音频I/O装置1647和/或数据存储装置1648。在一个实施例中，数据存储装置1648可存储可由处理器1602和/或1604来运行的面部标志检测部件代码1649。

在本发明的各个实施例中，本文中例如参照图1-16所论述的操作可实现为硬件（例如逻辑电路）、软件（包括例如控制诸如参照图15和图16所论述的处理器之类的处理器的操作的微码）、固件或者它们的组合，其可作为计算机程序产品来提供，例如包括有形机器可读或计算机可读介质，其上存储了用于对计算机（例如计算装置的处理器或另一逻辑）编程的指令（或者软件过程），以执行本文所论述的操作。机器可读介质可包括诸如本文所论述的那些之类的存储装置。

说明书中提到“一个实施例”或“实施例”表示结合该实施例所描述的具体特征、结构或特性可包含在至少一个实现中。词语“在一个实施例中”在本说明书的各个位置的出现可以或者可以不是全部指同一个实施例。

在描述和权利要求书中，还可使用术语“耦合”和“连接”及其派生词。在本发明的一些实施例中，“连接”可用于表示两个或更多元件相互直接物理或电接触。“耦合”可表示两个或更多元件直接物理或电接触。但是，“耦合”也可表示两个或更多元件可以不是相互直接接触，但仍然可相互配合或交互。

另外，这样的计算机可读介质可作为计算机程序产品来下载，其中程序可通过数据信号的方式、经由通信链路（例如总线、调制解调器或网络连接）从远程计算机（例如服务器）传递到请求计算机（例如客户端）。

因此，虽然已经通过结构特征和/或方法动作特定的语言来描述了本发明的实施例，但是要理解，要求保护的主题可以并不局限于所描述的特定特征或动作。而是，特定特征和动作作为实现要求保护的主题的样本形式来公开。

Claims

1.一种检测图像中所检测的面部中的面部标志的方法，包括：

剪切所述图像中的所检测面部的面部矩形区域，并且至少部分基于所述面部矩形区域来生成积分图像；

对所述面部矩形区域的每个面部标志运行级联分类器，以便至少部分基于所述积分图像来产生每个面部标志的响应图像；

建立多个主动形状模型ASM初始化；

至少部分基于所述响应图像对每个所述ASM初始化来执行ASM搜索，每个ASM搜索产生具有成本的搜索结果；以及

选择具有最低成本函数的所述ASM搜索的搜索结果，所述所选搜索结果指示所述图像中的所述面部标志的位置。

2.如权利要求1所述的方法，其中，所述面部标志包括面部的内眼角和外眼角以及左嘴角和右嘴角。

3.如权利要求2所述的方法，其中，所述搜索结果包括表示所述面部标志在所述图像中所在的位置的六对坐标。

4.如权利要求1所述的方法，其中，所述ASM初始化至少部分基于来自级联分类器的概率响应。

5.如权利要求1所述的方法，其中，分类器按照复杂度顺序级联设置，其中每个连续分类器仅对通过先前分类器的那些所选样本来训练。

6.如权利要求1所述的方法，其中，ASM搜索包括分析不同面部标志点之间的几何关系。

7.一种执行图像分析处理的处理***，包括：

面部检测部件，分析图像以检测所述图像中的面部；以及

面部标志检测部件，分析所述面部图像以检测面部标志，所述面部标志检测部件适合：剪切所述图像中的所检测面部的面部矩形区域，并且至少部分基于所述面部矩形区域来生成积分图像；对所述面部矩形区域的每个面部标志运行级联分类器以至少部分基于所述积分图像来产生每个面部标志的响应图像；建立多个主动形状模型ASM初始化；至少部分基于所述响应图像来执行每个所述ASM初始化的ASM搜索，每个ASM搜索产生具有成本的搜索结果；以及选择具有最低成本函数的所述ASM搜索的搜索结果，所述所选搜索结果指示所述图像中的所述面部标志的位置。

8.如权利要求7所述的处理***，其中，所述面部标志包括面部的内眼角和外眼角以及左嘴角和右嘴角。

9.如权利要求8所述的处理***，其中，所述搜索结果包括表示所述面部标志在所述图像中所在的位置的六对坐标。

10.如权利要求7所述的处理***，其中，所述面部标志检测部件还适合至少部分基于来自级联分类器的概率响应来执行ASM初始化。

11.如权利要求7所述的处理***，其中，分类器按照复杂度顺序级联设置，其中每个连续分类器仅对通过先前分类器的那些所选样本来训练。

12.如权利要求7所述的处理***，其中，所述面部标志检测部件还适合通过分析不同面部标志点之间的几何关系来执行ASM搜索。

13.一种执行图像分析处理的处理***，包括：

照相机，捕获图像；

面部检测部件，分析所述图像以检测所述图像中的面部；

面部标志检测部件，分析所述面部图像以检测面部标志，所述面部标志检测部件适合：剪切所述图像中的所检测面部的面部矩形区域，并且至少部分基于所述面部矩形区域来生成积分图像；对所述面部矩形区域的每个面部标志运行级联分类器以至少部分基于所述积分图像来产生每个面部标志的响应图像；建立多个主动形状模型ASM初始化；至少部分基于所述响应图像来执行每个所述ASM初始化的ASM搜索，每个ASM搜索产生具有成本的搜索结果；以及选择具有最低成本函数的所述ASM搜索的搜索结果，所述所选搜索结果指示所述图像中的所述面部标志的位置；以及

显示器，显示所述图像。

14.如权利要求13所述的处理***，其中，所述面部标志包括面部的内眼角和外眼角以及左嘴角和右嘴角。

15.如权利要求14所述的处理***，其中，所述搜索结果包括表示所述面部标志在所述图像中所在的位置的六对坐标。

16.如权利要求13所述的处理***，其中，所述面部标志检测部件还适合至少部分基于来自级联分类器的概率响应来执行ASM初始化。

17.如权利要求13所述的处理***，其中，分类器按照复杂度顺序级联设置，其中每个连续分类器仅对通过先前分类器的那些所选样本来训练。

18.如权利要求13所述的处理***，其中，所述面部标志检测部件还适合通过分析不同面部标志点之间的几何关系来执行ASM搜索。

19.一种检测图像中所检测的面部中的面部标志的***，包括：

用于剪切所述图像中的所检测面部的面部矩形区域并且至少部分基于所述面部矩形区域来生成积分图像的部件；

用于对所述面部矩形区域的每个面部标志运行级联分类器以便至少部分基于所述积分图像来产生每个面部标志的响应图像的部件；

用于建立多个主动形状模型ASM初始化的部件；

用于至少部分基于所述响应图像对每个所述ASM初始化来执行ASM搜索的部件，每个ASM搜索产生具有成本的搜索结果；以及

用于选择具有最低成本函数的所述ASM搜索的搜索结果的部件，所述所选搜索结果指示所述图像中的所述面部标志的位置。

20.如权利要求19所述的***，其中，所述面部标志包括面部的内眼角和外眼角以及左嘴角和右嘴角。

21.如权利要求20所述的***，其中，所述搜索结果包括表示所述面部标志在所述图像中所在的位置的六对坐标。

22.如权利要求19所述的***，其中，所述ASM初始化至少部分基于来自级联分类器的概率响应。

23.如权利要求19所述的***，其中，分类器按照复杂度顺序级联设置，其中每个连续分类器仅对通过先前分类器的那些所选样本来训练。

24.如权利要求19所述的***，其中，ASM搜索包括分析不同面部标志点之间的几何关系。