CN1717695A

CN1717695A - 脸部检测及跟踪

Info

Publication number: CN1717695A
Application number: CNA2003801044897A
Authority: CN
Inventors: R·M·S·波尔特尔; R·拉姆巴鲁思; S·海恩斯; J·利文
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Corp
Priority date: 2002-11-29
Filing date: 2003-11-28
Publication date: 2006-01-04
Anticipated expiration: 2023-11-28
Also published as: US20060104487A1; CN1320490C; EP1565870A1; WO2004051551A1; WO2004051551A8; JP2006508461A; GB0227895D0; GB2395779A

Abstract

用于在视频序列中的图像之间跟踪所检测脸部的脸部检测设备包括：第一脸部检测器，用于检测图像中脸部的出现；第二脸部检测器，用于检测图像中脸部的出现；第一脸部检测器具有比第二脸部检测器更高的检测门限，使得第二脸部检测器更可能检测到第一脸部检测器在其中没有检测到脸部的区域中的脸部；以及脸部位置预测器，用于根据按视频序列的测试顺序的一个或多个先前图像中的所检测脸部位置来预测按视频序列的测试顺序的下一个图像中的脸部位置；其中：如果第一脸部检测器在预测脸部位置的预定门限图像距离内检测到脸部，则脸部位置预测器采用所检测位置来产生下一个位置预测；如果第一脸部检测器未能在预测脸部位置的预定门限图像距离内检测到脸部，则脸部位置预测器采用第二脸部检测器所检测的脸部位置来产生下一个位置预测。

Description

脸部检测及跟踪

本发明涉及脸部检测。

在文献中提出了许多人脸检测算法，包括所谓的特征脸、脸部模板匹配、可变形模板匹配或神经网络分类的使用。它们之中没有一个是完善的，每个一般都具有相关的优缺点，没有一个提供了关于图像包含脸部的绝对可靠指示；相反，它们都基于概率评估、基于对图像以及对图像是否至少具有包含脸部的一定可能性的数学分析。根据它们的应用，算法一般将门限似然值设置得相当高，以便试图避免对脸部的错误检测。

包括捕捉图像的序列的视频资料中的脸部检测比检测静止图像中的脸部稍微更复杂一些。特别是，希望在序列中的一个图像中检测的脸部可通过某种方式链接到序列的另一个图像中的检测脸部。它们(可能)是同一张脸或者它们(可能)是碰巧处于相同图像序列中的两张不同的脸？

以这种方式尝试“跟踪”序列中的脸部的一种方式是检查相邻图像中的两张脸是否具有相同或极相似的图像位置。但是，这种方法因脸部检测方案的概率性质而会遇到一些问题。一方面，如果似然门限(对于要进行的脸部检测)设置得高，则在序列中可能存在一些图像，其中脸部出现，但没有被算法检测到，例如因为该脸部的拥有人将他的头部转向侧面，或者他的脸部分被遮蔽，或者他挠鼻子，或者许多可能的原因之一。另一方面，如果门限似然值设置得低，则错误检测的比例将会增加，并且可能让不是脸部的对象在整个图像序列中被成功跟踪。

因此，需要一种更可靠的技术用于连续图像的视频序列中的脸部检测。

本发明提供一种脸部检测设备，用于在视频序列中的图像之间跟踪所检测的脸部，该设备包括：

第一脸部检测器，用于检测图像中脸部的出现；

第二脸部检测器，用于检测图像中脸部的出现；

第一脸部检测器具有比第二脸部检测器更高的检测门限，使得第二脸部检测器更可能检测到第一脸部检测器在其中没有检测到脸部的区域中的脸部；以及

脸部位置预测器，用于根据按视频序列的测试顺序的一个或多个先前图像中的所检测脸部位置来预测按视频序列的测试顺序的下一个图像中的脸部位置；

其中：

如果第一脸部检测器在预测脸部位置的预定门限图像距离中检测到脸部，则脸部位置预测器采用所检测位置来产生下一个位置预测；

如果第一脸部检测器未能在预测脸部位置的预定门限图像距离内检测到脸部，则脸部位置预测器采用第二脸部检测器所检测的脸部位置来产生下一个位置预测。

本发明通过添加具有较低级检测的另一个脸部检测器，使得第二脸部检测器更可能检测到第一脸部检测器在其中没有检测到脸部的区域中的脸部的违反直觉的步骤，来解决以上问题。这样，第一脸部检测器的检测门限不需要过度放宽，但第二脸部检测器可用于覆盖第一脸部检测器“遗漏”的任何图像。可单独进行关于是否接受有效利用第二脸部检测器的输出的脸部跟踪结果的判定。

大家理解，测试顺序可以是向前或向后的时间顺序。甚至两种顺序都可采用。

本发明的其它各个相应方面及特征在所附权利要求书中定义。

现在仅通过举例、参照附图来描述本发明的实施例，附图中，同样的部件由同样的标号来定义，图中：

图1是用作脸部检测***和/或非线性编辑***的通用计算机***的示意图；

图2是采用脸部检测的摄像录像机(便携式摄像录像机)的示意图；

图3是示意图，说明训练过程；

图4是示意图，说明检测过程；

图5示意说明特征图；

图6示意说明产生特征块的抽样过程；

图7和图8示意说明特征块集合；

图9示意说明构建表示块位置的直方图的过程；

图10示意说明直方图格编号的产生；

图11示意说明脸部概率的计算；

图12a至12f是采用以上方法产生的直方图的示意实例；

图13a至13g示意说明所谓的多标度脸部检测；

图14示意说明脸部跟踪算法；

图15a和15b示意说明用于肤色检测的搜索区的导出；

图16示意说明应用于肤色检测的面具；

图17a至17c示意说明图16的面具的使用；

图18是示意距离图；

图19a至19c示意说明当应用于视频画面时的脸部跟踪的使用；

图20示意说明非线性编辑***的显示屏幕；

图21a和21b示意说明剪辑图标；

图22a至22c示意说明梯度预处理技术；

图23示意说明电视会议***；

图24和图25更详细地示意说明电视会议***；

图26是流程图，示意说明图23至25的***的一种操作模式；

图27a和27b是与图26的流程图有关的示例图像；

图28是流程图，示意说明图23至25的***的操作的另一种模式；

图29和30是与图28的流程图有关的示例图像；

图31是流程图，示意说明图23至25的***的操作的另一种模式；

图32是与图31的流程图有关的示例图像；以及

图33和图34是流程图，示意说明图23至25的***的操作的其它模式；

图1是用作脸部检测***和/或非线性编辑***的通用计算机***的示意图。计算机***包括处理单元10，其中(除其它传统组件之外)还具有中央处理器(CPU)20、诸如随机存取存储器(RAM)的存储器30以及诸如盘驱动器的非易失性存储器40。计算机***可连接到诸如局域网或因特网(或两者)的网络50。还提供了键盘60、鼠标或其它用户输入装置70及显示屏幕80。技术人员会知道，通用计算机***可包括在此不需要描述的其它许多传统部件。

图2是采用脸部检测的摄像录像机(便携式摄像录像机)的示意图。便携式摄像录像机100包括镜头110，它将图像聚焦到电荷耦合器件(CCD)图像捕捉装置120上。所得电子形式的图像由图像处理逻辑130处理，以便记录在诸如盒式磁带的记录媒体140上。装置120捕捉的图像还显示在可通过目镜160查看的用户显示器150上。

为了捕捉与图像关联的声音，使用了一个或多个麦克风。它们在通过软性电缆连接到便携式摄像录像机的意义上可以是外部麦克风，或者可安装在便携式摄像录像机主体本身上。来自麦克风的模拟音频信号由音频处理装置170处理，从而产生用于记录在存储媒体140中的适当音频信号。

要注意，视频和音频信号可通过数字形式或模拟形式或者甚至两种形式记录在存储媒体140中。因此，图像处理装置130和音频处理装置170可包括模数转换级。

便携式摄像录像机用户能够通过用户控件180来控制镜头110的性能的各方面，其中用户控件180促使镜头控制装置190向镜头110发送电控制信号200。诸如聚焦和变焦之类的属性通常以这种方式控制，但镜头光圈或其它属性也可由用户控制。

示意说明其它两种用户控件。按钮210被提供用来开始及停止记录到记录媒体140中。例如，控件210的一次推按可开始记录，以及另一次推按可停止记录，或者控件可能需要保持在推按状态以便让记录开始进行，或者一次推按可开始记录一定的时段、例如五秒。在这些装置的任一个中，从便携式摄像录像机录制操作中设置每个“拍摄”的开始和结束发生之处(连续记录时段)在技术上极为简单。

图2示意所示的另一个用户控件是“出色镜头标记器”(GSM)220，它可由用户操作，使“元数据”(关联数据)与视频和音频资料相关联地存储到记录媒体140中，表明这个特定镜头***作者主观认为在某个方面“出色”(例如，演员表演极优秀，新闻记者正确地讲出每个单词，等等)。

元数据可记录在记录媒体140的某个备用容量(例如“用户数据”)中，取决于所使用的特定格式和标准。或者，元数据可存储在单独的存储媒体、如可拆卸MemoryStick^RTM存储器(未示出)中，或者元数据可存储在外部数据库(未示出)中，例如通过无线链路(未示出)传递到这种数据库。元数据可以不仅包含GSM信息，而且还包含拍摄边界、镜头属性、用户(例如在键盘上(未示出))输入的字母数字信息、来自全球定位***接收器(未示出)的地理位置信息等等。

到目前为止，描述已经包括元数据使能便携式摄像录像机。现在，将描述脸部检测可应用于这种便携式摄像录像机的方式。

便携式摄像录像机包括脸部检测器装置230。下面将更详细地描述适当的装置，但对于这个部分的描述，以下说明是足够的：脸部检测器装置230接收来自图像处理装置130的图像，并检测或尝试检测这些图像是否包含一个或多个脸部。脸部检测器可输出脸部检测数据，它可以是“是/否”标记形式，或者可能更详细说明，使数据可包含脸部的图像坐标、如每个所检测脸部中的眼睛位置的坐标。这种信息可作为另一种元数据来处理，并以上述其它格式的任一种来存储。

如以下所述，可通过在检测过程中采用其它类型的元数据来帮助脸部检测。例如，脸部检测器230接收来自镜头控制装置190的控制信息，以表明镜头110的当前聚焦和变焦设定。它们可通过提供在图像的前景中可能出现的任何脸部的预计图像大小的初始指示，来辅助脸部检测器。在这方面，要注意，它们之间的聚焦和变焦设定定义便携式摄像录像机100与被拍摄的人之间的预计间隔，还定义镜头110的放大率。从这两个属性，根据平均脸部尺寸，就能够计算所得图像数据中的脸部的预计大小(以像素为单位)。

传统的(已知的)语音检测器240接收来自音频处理装置170的音频信息，并检测这种音频信息中是否存在语音。语音的存在可能是相应图像中出现脸部的可能性高于没有检测到语音的情况的指示符。

最后，GSM信息220和拍摄信息(来自控件210)提供给脸部检测器230，以表明拍摄边界以及用户认为是最有用的那些镜头。

毫无疑问，如果便携式摄像录像机基于模拟录制技术，则可能需要进一步的模数转换器(ADC)来处理图像和音频信息。

本实施例采用安排为两个阶段的脸部检测技术。图3是说明训练阶段的示意图，以及图4是说明检测阶段的示意图。

与一些先前提出的脸部检测方法(参见以下参考文献4和5)不同，本方法基于分成若干部分而不是作为整体对脸部进行建模。这些部分可以是脸部特征的假定位置上集中的块(所谓的“有选择抽样”)或者以定期间隔对脸部抽样的块(所谓的“定期抽样”)。本描述主要包含定期抽样，因为在经验测试中发现这提供更好的结果。

在训练阶段，分析过程应用于已知包含脸部的一组图像以及(可选地)应用于已知不包含脸部的另一组图像(“非脸部图像”)。分析过程构建脸部及非脸部特征的数学模型，稍后可将测试图像与它进行比较(在检测阶段)。

因此，为了构建数学模型(图3的训练过程310)，基本步骤如下：

1.从归一化为具有相同眼睛位置的脸部图像集合300，定期将各脸部抽样为小块。

2.对各块计算属性；这些属性在下面进一步说明。

3.将属性量化为可管理数量的不同值。

4.量化属性则经过组合以产生关于该块位置的单一量化值。

5.单一量化值则记录为直方图、如图5的示意直方图中的条目。关于所有训练图像中的所有块位置的共同直方图信息320组成脸部特征的数学模型的基础。

通过对于大量的测试脸部图像重复以上步骤，为每个可能的块位置准备这样一种直方图。测试数据在以下附录A中进一步描述。因此，在采用8×8块的阵列的***中，准备64个直方图。在处理的稍后部分，将测试量化属性与直方图数据进行比较；整个直方图用于对数据建模的事实意味着不需要作出关于它是否按照参数化分布、如高斯或其它分布的假设。为了节省数据存储空间(必要时)，相似的直方图可被合并，使得同一个直方图可再用于不同的块位置。

在检测阶段，为了将脸部检测器应用于测试图像350，测试图像中的连续窗口按照如下所述来处理340：

6.窗口被定期抽样为一系列块，以及关于各块的属性按照以上1-4级来计算并量化。

7.每个块位置的量化属性值的相应“概率”从相应直方图中查找。也就是说，对于每个块位置，相应量化属性被产生并与先前关于那个块位置产生的直方图进行比较。下面将描述直方图产生“概率”数据的方式。

8.以上获得的所有概率共同相乘，以便形成最终概率，它与某个门限相比，以便将窗口分类为“脸部”或“非脸部”。大家知道，“脸部”或“非脸部”的检测结果是基于概率的度量而不是绝对检测。有时，没有包含脸部的图像可能被错误地检测为“脸部”，即所谓的错误肯定。在另一些时候，包含脸部的图像可能被错误地检测为“非脸部”，即所谓的错误否定。任何脸部检测***的目标是减小错误肯定的比例和错误否定的比例，但大家无疑会理解，采用当前技术，将这些比例减小到零即使不是不可能的，也是困难的。

如上所述，在训练阶段，一组“非脸部”图像可用来产生相应的“非脸部”直方图集合。然后，为了实现脸部的检测，从非脸部直方图产生的“概率”可与单独的门限比较，使得让测试窗口包含脸部，概率必需在该门限以下。或者，脸部概率与非脸部概率的比率可与某个门限比较。

可通过对原始训练集合应用“合成变化”330，例如位置、取向、大小、纵横比、背景景物、照明强度及频率内容的变化，来产生额外的训练数据。

现在描述属性的导出及其量化。在本技术中，属性针对所谓的特征块来测量，特征块是表示可在窗口图像中出现的不同类型的块的核心块(或特征向量)。首先参照图6来描述特征块的生成。

特征块创建

本实施例中的属性基于所谓的特征块。特征块被设计成具有训练集合中的块的良好表示能力。因此，通过对来自训练集合的块的大集合执行主要成分分析来创建它们。这个过程在图6中示意表示，并在附录B中更详细地描述。

训练***

采用不同的两个训练块集合来进行实验。

特征块集I

最初使用一个块集合，它们取自训练集合中的25个脸部图像。每16个像素抽样出16×16块，因此没有重叠。这种抽样如图6所示。可以看到，从每个64×64训练图像中产生16个块。这产生总共400个训练块。

从这些训练块中产生的前10个特征块如图7所示。

特征块集II

从更大的训练块集合中产生第二特征块集合。这些块取自训练集合中的500个脸部图像。在这种情况下，每8个像素抽样出16×16块，因此重叠8个像素。这从每个64×64训练图像产生49个块，并产生总共24500个训练块。

从这些训练块中产生的前12个特征块如图8所示。

经验结果表明，特征块集II提供略微优于集合I的结果。这是因为它是从取自脸部图像的更大训练块集合中计算的，因此在表示脸部中变化时感觉更好。但是，性能的改进不是很大。

构建直方图

对64×64脸部图像中的各抽样块位置构建直方图。直方图的数量取决于块间隔。例如，对于16个像素的块间隔，有16个可能的块位置，因此采用16个直方图。

用来构建表示单个块位置的直方图的过程如图9所示。直方图采用M个脸部图像的大训练集合400来创建。对于每个脸部图像，该过程包括：

-从脸部图像中的位置(i，j)提取相关块410。

-对该块计算基于特征块的属性，并从这些属性确定相关格编号420。

-递增直方图中的相关格编号430。

对训练集合中的M个图像中的每个重复这个过程，以便创建提供属性的出现频率的分布的良好表示的直方图。理论上，M极大、例如数千。这可通过采用由一组原始脸部以及各原始脸部的数百个合成变化组成的训练集合更方便地实现。

产生直方图格编号

直方图格编号采用以下过程从给定块中产生，如图10所示。16×16块440从64×64窗口或脸部图像中提取。该块投影到A个特征块的集合450上，以便产生一组“特征块权”。这些特征块权是本实现中使用的“属性”。它们的范围为-1至+1。这个过程在附录B中更详细地描述。每个权量化为固定数量的等级L，以便产生一组量化属性470，w_i，i＝1...A。量化权组合为单个值，如下所示：

h＝w₁.L^A-1+w₂L^A-2+w₃L^A-3+...+w_A-1L¹+w_AL⁰

其中，所产生的值h为直方图格编号480。注意，直方图中的格的总数由L^A给出。

格“内容”、即产生那个格编号的属性集合的出现频率在除以训练图像数量M后可视作概率值。但是，由于概率与门限比较，因此实际上不需要除以M，因为这个值将在计算中抵消。因此，在以下论述中，格“内容”将称作“概率值”，并将它们当作概率值来处理，即使在严格意义上它们实际上是出现频率。

以上过程用于训练阶段以及检测阶段。

脸部检测阶段

脸部检测过程包括对具有移动的64×64窗口的测试图像抽样，并计算各窗口位置的脸部概率。

脸部概率的计算如图11所示。对于窗口中的每个块位置，块的格编号490按照先前部分所述来计算。采用块的位置的适当直方图500，查找每个格编号并确定那个格编号的概率510。然后对所有块计算这些概率的对数之和520，以便产生脸部概率值P_face(另外还称作对数似然值)。

这个过程产生整个测试图像的概率“图”。换言之，对于图像上的每个可能的窗口中心位置导出概率值。所有这些概率值组合为矩形(或任何)形状的阵列则被认为是与那个图像对应的概率“图”。

然后，这个图被反转，使得查找脸部的过程涉及查找反转图中的最小值。采用所谓的基于距离的技术。这种技术可总结如下：选择反转概率图中具有最小值的图(像素)位置。如果这个值大于门限(TD)，则不再选择其它脸部。这是终止标准。否则，与所选中心像素位置对应的脸部尺寸的块被取消(即从后续计算中省略)，以及对图像的其余部分重复候选脸部位置查找程序，直至达到终止标准。

非脸部方法

非脸部模型包括表示非脸部图像中的属性的概率分布的另外一组直方图。直方图以对于脸部模型完全相同的方式来创建，但训练图像包含非脸部而不是脸部的实例。

在检测过程中，计算两个对数概率值，一个采用脸部模型以及一个采用非脸部模型。然后，通过只是从脸部概率中减去非脸部概率将它们组合。

P_combined＝P_face-P_nonface

P_combined则用来代替P_face以产生概率图(在反转之前)。

注意，从P_face中减去P_nonface的原因是因为这些是对数概率值。

直方图实例

图12a至12f表示通过上述训练过程产生的直方图的一些实例。

图12a、12b和12c从脸部图像的训练集合中得出，以及图12d、12e和12f从非脸部图像的训练集合中得出。具体是：

	脸部直方图	非脸部直方图
	脸部直方图	非脸部直方图	整个直方图	图12a	图12d
在大约h＝1500处的主峰值上放大	图12b	图12e	整个直方图	图12a	图12d
在大约h＝1500处的主峰值上放大	图12b	图12e	在大约h＝1570的区域上进一步放大	图12c	图12f

可以清楚地看到，峰值在脸部直方图和非脸部直方图中处于不同位置。

多标度脸部检测

为了检测测试图像中的不同大小的脸部，测试图像按一系列因子缩放，以及对各标度产生距离(即概率)图。在图13a至13c中，图像及其相应距离图以三种不同标度来表示。该方法对于最小标度上的大(中心)对象给予最佳响应(最高概率或最小距离)(图13a)，以及对于较大标度上的较小对象(在主图的左侧)给予较好的响应。(图中较暗的色彩表示反转图中较低的值，或者换言之，表示其中有脸部的较高概率)。通过首先查找对所有标度给予最佳响应的位置，在不同标度上提取候选脸部位置。也就是说，在所有标度上的所有概率图之间建立最高概率(最小距离)。这个候选位置是被标记为脸部的第一个。以该脸部位置为中心的窗口则在各标度从概率图中消除。被消除窗口的大小与概率图的标度成比例。

这种缩放消除过程的实例如图13a至13c所示。具体来说，所有图上的最高概率见于最大标度图的左侧(图13c)。与脸部的假定大小对应的区域530在图13c中被封锁。对应但经过缩放的区域532、534在更小的图中被封锁。

大于测试窗口的区域可在图中被封锁，以免重叠检测。具体来说，由测试窗口的宽/长的一半的边界围绕的等于测试窗口大小的区域适合避免这种重叠检测。

通过搜索下一个最佳响应并连续消除相应窗口，来检测其它脸部。

处理标度之间允许的间隔受到该方法对大小变化的敏感度的影响。在此标度不变的初步研究中发现，该方法对大小的变化不是过分敏感，因为在某个标度给出良好响应的脸部往往在相邻标度也给予良好响应。

以上描述涉及即使图像中的脸部的大小在检测过程开始时不是已知的情况下检测脸部。多个标度脸部检测的另一个方面是在不同标度的两个或两个以上并行检测的使用，以便验证检测过程。如果例如要检测的脸部被部分遮蔽或者此人戴着帽子等，则这可能具有优势。

图13d至13g示意说明这个过程。在训练阶段，在围绕整个测试脸部(图13d)的窗口(如上所述分为相应的块)上训练***，以便产生“全脸部”直方图数据，以及还在扩大标度的窗口上进行训练，使得只有测试脸部的中心区域被包含(图13e)，以便产生“放大”直方图数据。这产生两组直方图数据。一组涉及图13d的“全脸部”窗口，以及另一组涉及图13e的“中心脸部区域”。

在检测阶段，对于任何给定的测试窗口536，窗口应用于测试图像的两个不同标度，使得在一个中(图13f)测试窗口围绕整个脸部预计大小，以及在另一个中(图13g)测试窗口包含那个预计大小的脸部的中心区域。这些均按照如上所述来处理，与适合窗口类型的直方图数据的相应集合进行比较。来自各并行过程的对数概率在应用与门限的比较之前被相加。

将多标度脸部检测的这两个方面结合在一起，引起需要存储的数据量的极佳节省。

具体来说，在这些实施例中，图13a至13c的安排所用的多个标度以几何序列排列。在本实例中，序列中的各标度与序列中的相邻标度相比的倍数为然后，对于参照图13d至13g所述的并行检测，更大标度、中心区域检测在序列中高3步、即“全脸部”标度的

倍的标度上采用与在序列中高3步的标度有关的属性数据来执行。因此，除多个标度的范围的极端外，几何数列意味着图13d至13g的并行检测始终可采用对于序列中高三步的另一个多标度产生的属性数据来执行。

两个过程(多标度检测和并行标度检测)可按照各种方式来组合。例如，图13a至13c的多标度检测过程可首先被应用，然后图13d至13g的并行标度检测过程可被应用在多标度检测过程中标识的区域(和标度)。但是，通过以下步骤可实现属性数据的便捷有效利用：

-对于各标度上的测试窗口导出属性(如图13a至13c中)

-将那些属性与“全脸部”直方图数据比较，以便产生距离图的“全脸部”集合

-将属性与“放大”直方图数据比较，以便产生距离图的“放大”集合

-对于各标度n，将标度n的“全脸部”距离图与标度n+3的“放大”距离图组合

-从组合距离图导出脸部位置，如以上参照图13a至13c所述

可执行进一步的并行测试，以便检测不同姿势，例如看正前方、略向上、下、左、右方看等等。在这里，需要直方图数据的相应集合，以及结果最好采用“最大”函数来组合，即，提供最高概率的姿势转到确定门限，而其它的则被放弃。

脸部跟踪

现在将描述脸部跟踪算法。跟踪算法针对提高图像序列中的脸部检测性能。

跟踪算法的最初目标是检测图像序列的每帧中的每个脸部。但是，大家认识到，有时序列中的脸部可能没有被检测到。在这些情况下，跟踪算法可帮助遗漏脸部检测之间的内插。

最后，脸部跟踪的目标是能够从属于图像序列中的相同画面的帧的各集合中输出一些有用的元数据。这可能包括：

-脸部数量。

-各脸部的“面部照片”(用于人脸的图像的口语词汇，源自涉及警察文件照片的术语)。

-各脸部首次出现的帧号。

-各脸部最后出现的帧号。

-各脸部的身份(匹配在先前画面中看到的脸部或者匹配脸部数据库)-这还要求某种脸部识别。

跟踪算法采用对于图像序列的各帧独立运行的脸部检测算法的结果，作为它的起始点。由于脸部检测算法有时可能遗漏(没有检测到)脸部，因此对遗漏脸部内插的某种方法是有用的。为此，卡尔曼滤波器用来预测脸部的下一个位置，以及肤色匹配算法用来帮助脸部的跟踪。另外，由于脸部检测算法往往产生错误接受，因此拒绝它们的某种方法也是有用的。

算法如图14示意所示。

下面将详细地描述算法，但总的来说，输入视频数据545(表示图像序列)被提供给本申请中所述的类型的脸部检测器以及肤色匹配检测器550。脸部检测器尝试检测各图像中的一个或多个脸部。当检测到脸部时，卡尔曼滤波器560被设置用于跟踪那个脸部的位置。卡尔曼滤波器对序列中的下一个图像中的同一个脸部产生预测位置。眼睛位置比较器570、580检测脸部检测器540是否在下一个图像中的那个位置(或者在那个位置的某个门限距离之内)检测到脸部。如果发现情况是这样，则那个检测到的脸部位置用来更新卡尔曼滤波器，以及过程继续进行。

如果在预测位置或其附近没有检测到脸部，则使用肤色匹配方法550。这是较低精确的脸部检测技术，它设置成具有比脸部检测器540更低的接受门限，使得即使在脸部检测器无法在那个位置进行肯定检测时，肤色匹配技术也能够检测(它所认为的)脸部。如果通过肤色匹配检测到“脸部”，则其位置被传递给卡尔曼滤波器作为更新位置，以及过程继续进行。

如果脸部检测器450或者肤色检测器550没有发现匹配，则预测位置用来更新卡尔曼滤波器。

所有这些结果均服从于接受标准(见下文)。因此，例如，在整个序列中根据一个肯定检测以及其余的作为预测、或者其余的作为肤色检测被跟踪的脸部将被拒绝。

单独的卡尔曼滤波器用于在跟踪算法中跟踪各脸部。

为了采用卡尔曼滤波器来跟踪脸部，必须创建表示脸部的状态模型。在模型中，每个脸部的位置由包含左、右眼的坐标的四维向量来表示，左、右眼的坐标又根据与窗口的中心位置的预定关系及所用标度来导出：

其中k是帧号。

脸部的当前状态根据其位置、速度和加速度以十二维向量来表示：

\hat{z} (k) = [\begin{matrix} p (k) \\ \overset{\cdot}{p} (k) \\ \overset{\cdot \cdot}{p} (k) \end{matrix}]

所检测的第一脸部

跟踪算法不进行任何操作，直到它接收到具有表明存在脸部的脸部检测结果的帧为止。

为这个帧中的每个检测的脸部对卡尔曼滤波器进行初始化。其状态采用脸部的位置以及采用零速度及加速度进行初始化：

{\hat{z}}_{a} (k) = [\begin{matrix} p (k) \\ 0 \\ 0 \end{matrix}]

它还被分配了其它一些属性：状态模型误差协方差Q和观察误差协方差R。卡尔曼滤波器的误差协方差P也被初始化。这些参数在下面更详细地描述。在后一帧以及每个后续帧的开始，执行卡尔曼滤波器预测过程。

卡尔曼滤波器预测过程

对于每个现有的卡尔曼滤波器，脸部的下一个位置采用如下所示的标准卡尔曼滤波器预测方程来预测。滤波器采用先前状态(在帧k-1处)以及其它一些内部和外部变量来估算滤波器的当前状态(在帧k处)。

状态预测方程：

{\hat{z}}_{b} (k) = Φ (k, k - 1) {\hat{z}}_{a} (k - 1)

协方差预测方程：P_b(k)＝Φ(k，k-1)P_a(k-1)Φ(k，k-1)^T+Q(k)其中

表示更新帧k的滤波器之前的状态，表示更新帧k-1的滤波器之后的状态(或者在它是新滤波器时则为初始化状态)，以及Φ(k，k-1)为状态转变矩阵。各种状态转变矩阵采用以下所述方式来实验。同样，P_b(k)表示更新帧k的滤波器之前的滤波器误差协方差，以及P_a(k-1)表示更新前一帧的滤波器之后的滤波器误差协方差(或者在它是新滤波器时则为初始化值)。P_b(k)可被认为是对其精度建模的滤波器中的内部变量。

Q(k)是状态模型的误差协方差。Q(k)的高值意味着滤波器状态的预测值(即脸部的位置)将假定为具有高等级误差。通过调整这个参数，滤波器的性能可以改变并且可能对脸部检测进行改进。

状态转变矩阵

状态转变矩阵Φ(k，k-1)确定如何进行下一个状态的预测。采用运动方程，可对Φ(k，k-1)导出下列矩阵：

Φ (k, k - 1) = [\begin{matrix} I_{4} & I_{4} Δt & \frac{1}{2} I_{4} {(Δt)}^{2} \\ O_{4} & I_{4} & I_{4} Δt \\ O_{4} & O_{4} & I_{4} \end{matrix}]

其中O₄为4×4零矩阵，以及1₄为4×4身份矩阵。Δt可以仅设置为1(即t的单位为帧周期)。

这个状态转变矩阵对位置、速度和加速度建模。但是，已经发现，当没有脸部检测可用于校正所预测状态时，加速度的使用往往使脸部预测加速趋向于图像的边缘。因此，没有采用加速度的更简单的状态转变矩阵是优选的：

Φ (k, k - 1) = [\begin{matrix} I_{4} & I_{4} Δt & O_{4} \\ O_{4} & I_{4} & O_{4} \\ O_{4} & O_{4} & O_{4} \end{matrix}]

各卡尔曼滤波器的预测眼睛位置

与当前帧中的所有脸部检测结果(如果有的话)进行比较。如果眼睛位置之间的距离低于给定门限，则脸部检测可假定为属于与卡尔曼滤波器所建模的相同的脸部。脸部检测结果则作为脸部当前状态的观察y(k)来处理：

y (k) = [\begin{matrix} p (k) \\ 0 \\ 0 \end{matrix}]

其中p(k)为脸部检测结果中的眼睛的位置。这个观察在卡尔曼滤波器更新阶段用来帮助校正预测。

肤色匹配

肤色匹配没有用于成功匹配脸部检测结果的脸部。只对其位置已经由卡尔曼滤波器预测、但在当前帧中没有匹配脸部检测结果、因而没有观察数据帮助更新卡尔曼滤波器的脸部执行肤色匹配。

在第一种技术中，对于每个脸部，从前一帧中提取以脸部的前一个位置为中心的椭圆区域。脸部窗口610中的这种区域600的一个实例如图16示意所示。色彩模型采用来自这个区域的色度数据来播种(seed)，以便根据高斯模型产生Cr和Cb值的平均值及协方差的估算值。

然后，搜索当前帧中的预测脸部位置周围的区域，以及选择同样对椭圆区域求平均的最佳匹配色彩模型的位置。如果色彩匹配满足给定的相似性标准，则这个位置用作脸部当前状态的观察y(k)，其方式与对于前一部分中的脸部检测结果所述的方式相同。

图15a和15b示意说明搜索区域的产生。具体来说，图15a示意说明下一个图像630中的脸部的预测位置620。在肤色匹配中，对于脸部搜索围绕下一个图像中的预测位置620的搜索区域640。

如果色彩匹配没有满足相似性标准，则没有可靠的观察数据可用于当前帧。相反，预测状态用作观察：

y (k) = {\hat{z}}_{b} (k)

以上所述的肤色匹配方法采用简单高斯肤色模型。该模型被播种在以前一帧的脸部为中心的椭圆区域上，并用来查找当前帧中的最佳匹配椭圆区域。但是，为了提供可能的更好性能，开发了另外两种方法：彩色直方图方法和彩色面具方法。现在将描述这些方法。

彩色直方图方法

在这种方法中，不是采用高斯分布对所跟踪脸部的色彩分布建模，而是采用彩色直方图。

对于前一帧中的每个所跟踪脸部，计算脸部周围的方形窗口内的Cr和Cb值的直方图。为此，对于每个像素，Cr和Cb值首先被组合为单个值。然后，计算直方图，它测量整个窗口中这些值的出现频率。由于组合Cr和Cb值的数量很大(256×256种可能组合)，因此这些值在计算直方图之前被量化。

已经对前一帧中的所跟踪脸部计算直方图之后，直方图用于当前帧，以便尝试通过查找具有最相似色彩分布的图像的区域来估算脸部的最可能的新位置。如图15a和15b示意所示，这通过以对于当前帧的搜索区域中的一系列窗口位置完全相同的方式计算直方图来进行。这个搜索区域覆盖预测脸部位置周围的给定区域。然后，通过计算前一帧中所跟踪脸部的原始直方图与当前帧中的每个直方图之间的均方误差(MSE)来比较直方图。当前帧中的脸部的估算位置通过最小MSE的位置给出。

可对这个算法进行各种修改，包括：

-采用三通道(Y、Cr和Cb)而不是两个(Cr、Cb)。

-改变量化等级的数量。

-将窗口分为块，并计算各块的直方图。这样，彩色直方图方法变为位置相关。在这个方法中将每对直方图之间的MSE求和。

-将块的数量改变为窗口所划分的数量。

-改变实际使用的块-例如省略可能只是部分包含脸部像素的外侧块。

对于这些技术的经验试验中使用的测试数据，采用以下条件来取得最佳结果，但其它条件集合可能采用不同测试数据提供同样良好或更好的结果：

-3通道(Y、Cr和Cb)。

-对每个通道有8个量化等级(即直方图包含8×8×8＝512格)。

-将窗口分为16个块。

-采用全部16个块。

彩色面具方法

这个方法基于以上首先描述的方法。它采用高斯肤色模型来描述脸部的像素分布。

在以上首先描述的方法中，以脸部为中心的椭圆区域用于色彩匹配脸部，因为这可以感觉到使背景像素的数量减小或最小，可能使模型降级。

在本彩色面具模型中，例如通过应用RGB或YCrCb的平均值及协方差以设置高斯模型的参数(或者可使用缺省色彩模型、如高斯模型，参见下文)，类似的椭圆区域仍然用于对前一帧中原始跟踪脸部播种色彩模型。但是，当搜索当前帧中的最佳匹配时没有使用。而是根据来自前一帧的原始脸部窗口中的像素分布来计算面具区域。通过查找最佳匹配色彩模型的窗口中50％的像素来计算面具。一个实例如图17a至17c所示。具体来说，图17a示意说明测试中的初始窗口；图17b示意说明用来播种色彩模型的椭圆窗口；以及图17c示意说明最接近匹配色彩模型的50％的像素所定义的面具。

为了估算当前帧中的脸部的位置，搜索(如以前那样)预测脸部位置周围的搜索区域，以及对各像素计算与色彩模型的“距离”。“距离”表示各维中按该维中方差归一化的平均值的差值。所得距离图像的一个实例如图18所示。对于这个距离图中的每个位置(或者对于减小的抽样位置集合以减少计算时间)，对于面具形状区域对距离图像的像素求平均。具有最低平均距离的位置则被选作对这个帧中的脸部的位置的最佳估算。

因此，这个方法与原始方法的不同之处在于，面具形状区域而不是椭圆区域用于距离图像。这允许色彩匹配方法采用色彩和形状两种信息。

两个变型被提出并以技术的经验试验来实现：

(a)高斯肤色模型采用来自以前一帧中的所跟踪脸部为中心的椭圆区域的Cr和Cb的平均值及协方差来播种。

(b)缺省高斯肤色模型用来计算前一帧中的面具以及计算当前帧中的距离图像。

现在进一步描述高斯肤色模型的使用。用于肤色类的高斯模型采用YCbCr彩色空间的色度分量来构建。然后可测量测试像素与肤色类的相似性。因此，这个方法提供对各像素的肤色似然性估算，而与基于特征脸的方法无关。

设w为测试像素的CbCr值的向量。w属于肤色类S的概率通过二维高斯来建模：

p (w | S) = \frac{\exp [- \frac{1}{2} (w - μ_{s}) Σ_{s}^{- 1} (w - μ_{s})]}{2 π {| Σ_{s} |}^{\frac{1}{2}}}

其中分布的平均值μ_s和协方差矩阵∑_s(先前)从肤色值的训练集合中估算。

肤色检测在独立使用时没有被认为是有效的脸部检测器。这是因为可能存在与肤色相似、但不一定是脸部的图像的许多区域，例如身体的其它部位。但是，它可通过采用对于本脸部跟踪***所述的组合方法，用于提高基于特征块的方法的性能，存储对于是否接受脸部检测的眼睛位置或肤色匹配的眼睛位置作为卡尔曼滤波器的观察、或者是否没有观察被接受所进行的判定。这些稍后用来评估通过各卡尔曼滤波器建模的脸部的当前有效性。

卡尔曼滤波器更新步骤

更新步骤用于根据状态预测和观察数据来确定当前帧的滤波器的适当输出。它还根据预测状态与观察状态之间的误差来更新滤波器的内部变量。

下列方程用于更新步骤：

卡尔曼增益方程 K(k)＝P_b(k)H^T(k)(H(k)P_b(k)H^T(k)+R(k))^-1

状态更新方程

{\hat{z}}_{a} (k) = {\hat{z}}_{b} (k) + K (k) [y (k) - H (k) {\hat{z}}_{b} (k)]

协方差更新方程 P_a(k)＝P_b(k)-K(k)H(k)P_b(k)

在这里，K(k)表示卡尔曼增益，即卡尔曼滤波器内部的另一个变量。它用于根据所观察状态y(k)来确定预测状态应当调整的程度。

H(k)是观察矩阵。它确定可观察到状态的哪些部分。在我们的情况下，仅可观察到脸部的位置而不是它的速度或加速度，因此下列矩阵用于H(k)：

H (k) = [\begin{matrix} I_{4} & O_{4} & O_{4} \\ O_{4} & O_{4} & O_{4} \\ O_{4} & O_{4} & O_{4} \end{matrix}]

R(k)是观察数据的误差协方差。按照与Q(k)类似的方式，R(k)的高值意味着滤波器状态的观察值(即脸部检测结果或色彩匹配)将假定为具有高等级误差。通过调整这个参数，滤波器的性能可以改变并且可能为脸部检测作出改进。对于我们的实验，发现R(k)相对Q(k)的大值是适合的(这意味着预测脸部位置被当作比观察更可靠来处理)。注意，允许逐帧改变这些参数。因此，调查的关注未来区域可根据观察是基于脸部检测结果(可靠的)还是基于色彩匹配(不太可靠的)来调整R(k)和Q(k)的相对值。

对于各卡尔曼滤波器，已更新的状态用作对脸部位置的最终判定。这个数据输出到文件并存储。

不匹配的脸部检测结果作为新的脸部处理。对于这些的每个对新的卡尔曼滤波器进行初始化。以下情况的脸部被消除：

-离开图像的边缘和/或

-缺少支持它们的当前迹象(当根据卡尔曼滤波器预测而不是脸部检测结果或色彩匹配，存在高比例的观察时)。

对于这些脸部，关联的卡尔曼滤波器被移去，并且没有数据输出到文件。作为与此方法的一个可选差异，在检测到脸部离开图像的情况下，一直到它离开图像之前的帧的跟踪结果可被存储并作为有效的脸部跟踪结果来处理(只要这些结果满足用于验证跟踪结果的其它任何标准)。

这些规则可正式化并通过加入一些附加变量来构建：

预测_接受_比率_门限：如果在跟踪给定脸部过程中，已接受的卡尔曼预测脸部位置的比例超出这个门限，则所跟踪的脸部被拒绝。这在当前设置为0.8。

检测_接受_比率_门限：在最后一遍通过所有帧期间，如果对于给定脸部，已接受的脸部检测的比例下降到低于这个门限，则所跟踪的脸部被拒绝。这在当前设置为0.08。

最小_帧：在最后一遍通过所有帧期间，如果对于给定脸部，出现次数小于“最小_帧”，则该脸部被拒绝。这仅在序列尾部附近才可能出现。“最小_帧”在当前设置为5。

最终_预测_接受_比率_门限和最小_帧2：在最后一遍通过所有帧期间，如果对于给定的跟踪脸部，出现次数小于“最小_帧2”，并且已接受的卡尔曼预测脸部位置的比例超过“最终_预测_接受_比率_门限”，则该脸部被拒绝。这同样仅在序列尾部附近才可能出现。“最终_预测_接受_比率_门限”在当前设置为0.5，以及“最小_帧2”在当前设置为10。

最小_眼睛_间距：另外，如果脸部被跟踪，使得眼睛间距减小到低于给定最小距离，则它们在这时被删除。如果卡尔曼滤波器错误地认为眼睛距离正变得更小，并且没有其它迹象、如脸部检测结果来校正这种假设，则可能发生这种情况。如果没有校正，则眼睛距离最终将变为零。作为一种可选备选方案，可强制实行最小或下限眼睛间隔，使得在所检测的眼睛间隔减小到最小眼睛间隔时，检测过程继续搜索具有那种眼睛间隔、但不是更小眼睛间隔的脸部。

要注意，跟踪过程不限于以向前的时间方向跟踪视频序列。假设图像数据保持可存取(即该过程不是实时的，或者图像数据被缓冲以供临时连续使用)，则整个跟踪过程可按照相反的时间方向来执行。或者，当进行第一次脸部检测时(通常为视频序列的中途)，跟踪过程可能按两个时间方向开始。作为另一个选项，跟踪过程可按照两个时间方向通过视频序列，其中的结果经过组合，使得(例如)满足接受标准的所跟踪脸部作为有效结果被包含，而不管跟踪按哪个方向进行。

脸部跟踪的重叠规则

当脸部被跟踪时，可能会让脸部跟踪变得重叠。当出现这种情况时，在至少一部分应用中，跟踪之一应当被删除。一组规则用来确定哪个脸部跟踪在发生重叠时应当继续保持。

当脸部被跟踪时，有三种可能的跟踪类型：

D：脸部检测—脸部的当前位置通过新脸部检测来确认

S：肤色跟踪—没有脸部检测，但已经发现适当的肤色跟踪

P：预测—没有适当的脸部检测，也没有肤色跟踪，因此，采用来自卡尔曼滤波器的预测脸部位置。

下列表格定义两个脸部跟踪彼此重叠时的优先顺序：

因此，如果两种跟踪都属于同一类型，则最大脸部尺寸确定哪一种跟踪被保持。否则，所检测跟踪具有高于肤色或预测跟踪的优先级。肤色跟踪具有高于预测跟踪的优先级。

在上述跟踪方法中，对于不能与现有跟踪匹配的每个脸部检测启动脸部跟踪。这可能导致许多错误检测被错误地跟踪，并在最后由现有规则之一(例如，由与“预测_接受_比率_门限”关联的规则)拒绝之前持续若干帧。

另外，用于拒绝跟踪的现有规则(例如与变量“预测_接受_比率_门限”和“检测_接受_比率_门限”有关的那些规则)对跟踪将头转向侧面相当长时间的某个人抱有偏见。实际上，常常希望继续跟踪这样做的某个人。

现在将描述一种解决方案。

解决方案的第一部分帮助防止错误检测导致错误跟踪。仍然对于不匹配现有跟踪的每个脸部检测在内部启动脸部跟踪。但是，它不从算法输出。为了让这个跟踪被保持，跟踪中的前f帧必须是脸部检测(即属于类型D)。如果所有的前f帧都属于类型D，则跟踪被保持，并且脸部位置自帧f起从算法输出。

如果所有的前n帧都不属于类型D，则脸部跟踪被终止，并且对此跟踪不输出脸部位置。

f通常设置为2、3或5。

解决方案的第二部分允许侧面的脸部被跟踪较长时期，而不是因低“检测_接受_比率”而让它们的跟踪终止。为了实现这个目的，在脸部匹配±30°特征块的情况下，与变量“预测_接受_比率_门限”和“检测_接受_比率_门限”有关的测试没有使用。而是一个选择将包括下列标准以保持脸部跟踪：

每n帧需要g个连续脸部检测以保持脸部跟踪。

其中g通常设置为f的相似值、如1-5帧，以及n对应于希望能够跟踪把头转离照相机例如10秒(＝250或300帧，取决于帧速率)的某个人的最大帧数。

这还可与“预测_接受_比率_门限”和“检测_接受_比率_门限”规则结合。或者，可基于滚动来应用“预测_接受_比率_门限”和“检测_接受_比率_门限”，例如对于只是最后30帧而不是自跟踪开始起。

拒绝脸部跟踪的另一个标准是超过所谓的“不良色彩门限”。在这个测试中，所跟踪的脸部位置由肤色来验证(无论哪一个接受类型-脸部检测或卡尔曼预测)。与预计肤色的距离超过给定“不良色彩门限”的任何脸部的跟踪被终止。

在上述方法中，脸部的肤色仅在肤色跟踪过程中被检查。这意味着非肤色错误检测可被跟踪，或者脸部跟踪可通过采用预测脸部位置漂移到非肤色位置。

为了对此进行改进，无论哪一种脸部的接受类型(检测、肤色或卡尔曼预测)，其肤色均被检查。如果它与肤色的距离(差异)超过“不良_色彩_门限”，则脸部跟踪被终止。

实现此的一种有效方式是采用在肤色跟踪过程中所计算的与各像素的肤色的距离。如果对于脸部区域(无论对于面具形状区域、对于椭圆区域或者对于整个脸部窗口，取决于正使用哪一种肤色跟踪方法)求平均的这个度量超过固定门限，则脸部跟踪被终止。

拒绝脸部跟踪的另一个标准是其方差极低或极高。下面在图22a至22c的说明之后描述这种技术。

在图14示意所示的跟踪***中，包括其它三个特征。

拍摄边界数据560(来自与测试中的图像序列关联的元数据；或者在图2的照相机中产生的元数据)定义图像序列中的每个连续“拍摄”的极限。卡尔曼滤波器在拍摄边界被重置，并且不被允许将预测继续到后续拍摄，因为预测将是无意义的。

用户元数据542和照相机设定元数据544作为输入提供给脸部检测器540。这些也可用于非跟踪***中。以上描述了照相机设定元数据的实例。用户元数据可含例如以下所述的信息：

-节目的类型(例如新闻、访谈、戏剧)

-脚本信息、如“远景镜头”、“半身特写”等的说明(产生脸部尺寸的预计子范围的照相机拍摄的特定类型)，每个镜头中包含多少人(同样产生脸部尺寸的预计子范围)等等。

-体育运动相关信息-体育运动往往采用标准视野和镜头从固定的照相机位置拍摄。通过在元数据中指定它们，也可得到脸部尺寸的子范围。

节目的类型与在图像或图像序列中可预计的脸部的类型相干。例如，在新节目中，预计对于图像序列的许多部分看到单个脸部，占据(比如)10％的屏幕面积。取不同标度的脸部的检测可响应这个数据来加权，使得对大约这个尺寸的脸部给予提高的概率。另一个备选或附加方法是，搜索范围被减小，使得不是以所有可能的标度来搜索脸部，而仅搜索标度的子集。这可降低脸部检测过程的处理要求。在基于软件的***中，软件可更快地运行和/或在较低能力的处理器中运行。在基于硬件的***(例如包括专用集成电路(ASIC)或现场可编程门阵列(FPGA)***)中，硬件需求可能被降低。

以上所述的其它类型的用户元数据也可以这种方式来应用。例如，“预计脸部尺寸”子范围可存储在存储器30所保存的查找表中。

对于照相机元数据，例如镜头110的当前聚焦和变焦设定，它们也可通过提供在图像的前景中可能出现的任何脸部的预计图像大小的初始指示，来辅助脸部检测器。在这方面，要注意，它们之间的聚焦和变焦设定定义便携式摄像录像机100与被拍摄的人之间的预计间隔，还定义镜头110的放大率。从这两个属性，根据平均脸部尺寸，就能够计算所得图像数据中的脸部的预计尺寸(以像素为单位)，同样产生用于搜索的尺寸的子范围或者预计脸部尺寸的加权。

这个配置便于在电视会议或所谓的数字标牌环境中使用。

在电视会议配置中，用户可将视频资料分类为“单个发言人”、“两人组”、“三人组”等，以及根据这个分类，脸部检测器可导出预计脸部尺寸，并且可以搜索及突出显示图像中的一个或多个脸部。

在数字标牌环境中，广告资料可在视频屏幕上显示。脸部检测用来检测正查看广告资料的人的脸部。

跟踪算法的优点

脸部跟踪技术具有三个主要好处：

-通过在没有脸部检测结果可获得的帧中使用卡尔曼滤波和肤色跟踪，允许遗漏的脸部被填充。这提高了在图像序列上的真实接受速率。

-提供脸部链接：通过成功地跟踪某个脸部，算法自动地知道在未来帧中检测的脸部是属于同一个人还是属于不同的人。因此，画面元数据可容易地从这个算法中产生，其中包括画面中的脸部数量、它们所在的帧以及提供每个脸部的典型面部照相。

-错误脸部检测往往被拒绝，因此，这些检测往往不会在图像之间转发。

图19a至19c示意说明当应用于视频画面时的脸部跟踪的使用。

具体来说，图19a示意说明视频画面800，其中包含连续视频图像(例如字段或帧)810。

本例中，图像810包含一个或多个脸部。具体来说，画面中的所有图像810都包含脸部A，在图像810的示意表示中的左上方位置示出。另外，一部分图像包含脸部B，在图像810的示意表示中的右下方位置示意表示。

脸部跟踪过程应用于图19a的场景。适当地在整个场景成功地跟踪脸部A。在一个图像820中，脸部没有被直接检测所跟踪，但上述肤色匹配技术和卡尔曼滤波技术意味着检测在“遗漏”图像820的任一侧可以是连续的。图19b的表示表明脸部在各图像中出现的检测概率。可以看到，概率在图像830处最高，因此检测到包含脸部A的图像部分840用作关于脸部A的“图片标志”。图片标志将在下面更详细地描述。

同样，脸部B采用不同置信等级来检测，但图像850产生出现脸部B的最高检测概率。因此，检测到包含脸部B的相应图像的部分(部分860)用作场景中的脸部B的图片标志。(或者，图像的更宽部分或者甚至整个图像无疑可用作图片标志)。

对于每个所跟踪的脸部，需要单个代表性脸部图片标志。完全根据脸部概率输出脸部图片标志不一定始终提供最佳图片标志质量。为了获得最佳图片质量，最好是将选择判定偏向于或转向以与图片标志相同分辨率、如64×64像素检测到的脸部。

为了获得最佳质量的图片标志，可应用下列方案：

(1)使用已检测到的(不是色彩跟踪/卡尔曼跟踪的)脸部

(2)使用在脸部检测过程中提供高概率、即至少门限概率的脸部

(3)使用尽可能接近64×64像素的脸部，以便减小标度改变伪像并提高图像质量

(4)不使用(如果可能的话)跟踪中的极早脸部，即跟踪序列的预定初始部分(例如跟踪序列的10％或20帧等)中的脸部，以免这表示脸部仍然极远(即很小)和模糊。

可实现这个目的的一些规则如下所述：

对于每个脸部检测：

计算度量M＝脸部_率*尺寸_加权，其中，尺寸_加权＝MIN((脸部_尺寸/64)^x，(64/脸部_尺寸)^x)，以及x＝0.25。然后，取M为最大的脸部图片标志。

这对于各脸部尺寸的脸部概率给出下列加权：

脸部_尺寸尺寸_加权

16 0.71

19 0.74

23 0.77

27 0.81

32 0.84

38 0.88

45 0.92

54 0.96

64 1.00

76 0.96

91 0.92

108 0.88

128 0.84

152 0.81

181 0.77

215 0.74

256 0.71

304 0.68

362 0.65

431 0.62

512 0.59

实际上，这可采用查找表来进行。

为了使加权函数不太严格，可采用比0.25更小的乘方，例如x＝0.2或0.1。

这种加权技术可应用于整个脸部跟踪，或者只应用于前N帧(相对于从那些N帧中选择不良大小的脸部来应用加权)。N例如可以只表示前一秒或两秒(25-50帧)。

另外，比起以+-30度(或其它任何姿势)检测到的那些脸部，优先选择正面检测到的脸部。

图20示意说明非线性编辑***的显示屏幕。

非线性编辑***被完善地建立，并且一般实现为在通用计算***、如图1的***中运行的软件程序。这些编辑***允许视频、音频和其它资料被编辑成输出媒体产品，其方式是不取决于各个媒体项(例如视频镜头)被捕捉的顺序。

图20的示意显示屏幕包括在其中可查看视频剪辑的观看区900、一组剪辑图标910(下面将进一步描述)以及包含编辑视频镜头930的表示的“时间线”920，其中每个镜头可选地包含指示那个镜头的内容的图片标志940。

在一个等级，按照参照图19a至19c所述导出的脸部图片标志可用作每个编辑镜头的图片标志940，因此，在可能比原始捕捉镜头更短的镜头的编辑长度内，表示产生最高脸部概率值的脸部检测的图片标志可***时间线，以表示来自那个镜头的代表图像。概率值可与可能高于基本脸部检测门限的某个门限进行比较，使得仅具有高置信等级的脸部检测被用于以这种方式产生图片标志。如果在编辑镜头中检测到一个以上的脸部，则具有最高概率的脸部可被显示，或者一个以上的脸部图片标志可在时间线中显示。

非线性编辑***中的时间线通常能够被缩放，使得对应于显示屏幕的完整宽度的线长度可表示输出媒体产品中的各种不同的时段。因此，例如，如果两个相邻镜头之间的特定边界被编辑到帧精度，则时间线可经过“扩展”，使得显示屏幕的宽度表示输出媒体产品中的较短时段。另一方面，为了其它目的、例如使输出媒体产品的概览可视化，时间线标度可缩小，使得在显示屏幕的宽度上可查看更长的时段。因此，根据时间线标度的扩展或缩小的等级，可能存在或多或少的屏幕区域可用于显示构成输出媒体产品的每个编辑的镜头。

在扩展时间线标度中，可以完全存在超过适合于构成输出媒体产品的每个编辑镜头的一个图片标志(如图19a至19c所示导出的)的足够空间。但是，随着时间线标度被缩小，这可能不再可行。在这些情况下，镜头可共同分组为“序列”，其中，每个序列可在大到足以容纳阶段图片标志的显示屏幕大小上显示。然后，从该序列中，具有最高相应概率值的脸部图片标志被选取用于显示。如果在序列中没有检测到脸部，则任意图像或者没有图像可显示在时间线中。

图20还示意表示两个“脸部时间线”925、935。它们采用“主”时间线920来确定标度。每个脸部时间线涉及单个跟踪脸部，并显示包含那个跟踪脸部的输出编辑序列的部分，有可能用户可观察某些脸部涉及同一个人，但跟踪算法没有将其相互关联。用户可通过选取脸部时间线的相干部分(采用多个项目的标准Windows^RTM选择技术)，然后再单击“链接”屏幕按钮(未示出)，来“链接”这些脸部。脸部时间线则可反映整组脸部检测到一个更长跟踪的脸部的链接。图21a和21b示意说明剪辑图标的两种变体910’和910”。它们显示在图20的显示屏幕上，以便允许用户选择用于包含在时间线中并编辑其起始和结束位置(输入和输出点)的个别剪辑。因此，每个剪辑图标表示存储在***中的整个相应剪辑。

在图21a中，剪辑图标910”由单个脸部图片标志912以及可包含例如定义那个剪辑的位置及长度的时间代码信息的文本标记区域914来表示。在图21b所示的一个备选配置中，可通过采用多部分剪辑图标来包含一个以上的脸部图片标志916。

剪辑图标910的另一个可能性是，它们提供“脸部汇总”，使得所有所检测脸部表示为按照它们(在源资料或者在编辑输出序列中)出现的顺序的一组剪辑图标910。同样，属于同一个人、但没有被跟踪算法相互关联的脸部可由主观上观察到它们是相同脸部的用户来链接。用户可选取相干脸部剪辑图标910(采用多个项目的标准Windows^RTM选择技术)，然后再单击“链接”屏幕按钮(未示出)。跟踪数据则可反映整组脸部检测到一个更长跟踪的脸部的链接。

另一种可能性是，剪辑图标910可提供超链接，使得用户可点击图标910其中之一，它将使相应的剪辑在观看区900中播放。

类似的技术例如可用于监控或闭路电视(CCTV)***中。每当脸部被跟踪或者每当脸部被跟踪至少预定帧数时，关于在其中跟踪那个脸部的连续视频部分来产生与剪辑图标910类似的图标。以类似于图20中的剪辑图标的方式来显示该图标。单击图标引发在其中跟踪特定脸部的视频部分的重播(在类似于观看区900的窗口中)。大家知道，可通过这种方式来跟踪多个不同的脸部，以及相应的视频部分可重叠或者甚至完全重合。

图22a至22c示意说明梯度预处理技术。

已经指出，显示极小像素变化的图像窗口可能往往被基于特征脸或特征块的脸部检测配置检测为脸部。因此，提出预处理步骤以便从脸部检测过程中消除极小像素变化的区域。在多标度***的情况下(参见上文)，预处理步骤可在每个标度执行。

基本过程是，“梯度测试”应用于整个图像上的每个可能的窗口位置。各窗口位置的预定像素位置、例如在那个窗口位置中心处或者附近的像素根据应用于那个窗口的测试结果被标记或标注。如果测试表明窗口具有极小像素变化，则那个窗口位置不用于脸部检测过程。

第一步骤如图22a所示。这表示图像中的任意窗口位置上的窗口。如上所述，预处理在每个可能的窗口位置重复进行。参照图22a，虽然梯度预处理可应用于整个窗口，但已经发现，如果预处理应用于测试窗口1010的中心区域1000，则得到更好的结果。

参照图22b，基于梯度的度量从窗口中(或者从图22a所示的窗口的中心位置)导出，它是在窗口中提取的水平和垂直两个方向的所有相邻像素1011之间的绝对差的平均值。每个窗口中心位置采用这个基于梯度的度量来标注，从而产生图像的梯度“图”。所得梯度图则与门限梯度值比较。基于梯度的度量位于门限梯度值以下的任何窗口位置从关于那个图像的脸部检测过程中排除。

可使用其它基于梯度的度量，例如像素方差或者来自平均像素值的平均绝对像素差。

基于梯度的度量最好关于像素亮度值来执行，但无疑可应用于彩色图像的其它图像分量。

图22c示意说明从示例图像中导出的梯度图。在这里，较低梯度区域1070(表示为阴影)从脸部检测中排除，并且只使用较高梯度区域1080。上述实施例涉及脸部检测***(包含训练和检测阶段)以及它在摄像录像机和编辑***中可能的使用。大家知道，存在其它许多对这类技术的可能的使用，例如(且不限于)安全监控***、一般的媒体处理(例如磁带录像机控制器)、电视会议***等等。

在其它实施例中，具有高像素差的窗口位置也可被标记或标注，并且也从脸部检测过程中排除。“高”像素差意味着以上结合图22b所述的度量超过上门限值。

因此，梯度图按照上述方式产生。梯度度量低于前面所述的(第一)门限梯度值的任何位置均从脸部检测处理中排除，如梯度度量高于上门限值的任何位置那样。

上文提出，“下门限”处理最好应用于测试窗口1010的中心部分1000。同样的情况可适用于“上门限”处理。这将意味着，只有单个梯度度量需要关于各窗口位置来导出。或者，如果关于下门限测试使用整个窗口，则整个窗口同样可关于上门限测试使用。同样，只有单个梯度度量需要对各窗口位置来导出。但是，无疑能够使用两个不同的配置，使得(例如)测试窗口1010的中心部分1000用于对下门限测试导出梯度度量，但关于上门限测试使用整个测试窗口。

如前面所述，拒绝脸部跟踪的另一个标准是其方差或梯度度量极低或极高。

在这种技术中，跟踪脸部位置通过来自受关注图的区域的方差来验证。只有所检测标度上的图的脸部尺寸区域才按照脸部被存储，以用于下一个跟踪重复。

尽管上述梯度预处理，仍然能够让肤色跟踪或卡尔曼预测脸部移动到图像的(非脸部状)低或高方差区域。因此，在梯度预处理过程中，现有脸部跟踪周围的区域的方差值(或梯度值)被存储。

当进行(采用任何接受类型，或脸部检测、肤色或卡尔曼预测)对脸部的下一个位置的最终判定时，针对受关注图的区域中已存储的方差(或梯度)值来验证该位置。如果发现该位置具有极高或极低方差(或梯度)，则被认为是非脸部状，以及脸部跟踪终止。这防止脸部跟踪漂移到图像的低(或高)方差背景区域。

或者，即使梯度预处理没有使用，也可重新计算新脸部位置的方差。在任何一种情况下，所用的方差度量可以是传统方差或者相邻像素的差值的总和(梯度)或其它任何方差类型的度量。

图23示意说明电视会议***。两个电视会议站1100、1110通过例如因特网、局域网或广域网、电话线路、高比特率租用线路、ISDN线路等网络连接1120进行连接。这些站的每个简单来说包括摄像机以及关联的发送设备1130、显示器以及关联的接收设备1140。电视会议的参与者通过其相应站的摄像机被观看，以及他们的语音由那个站的一个或多个麦克风(图23中未示出)来拾取。音频和视频信息经由网络1120传送到另一个站的接收器1140。在这里，摄像机捕捉的图像被显示，以及参与者的语音在扬声器等中产生。

大家知道，两个以上的站可包含在电视会议中，但这里的论述为了简洁起见而仅限于两个站。

图24示意说明作为一个摄像机/发送设备到一个显示器/接收设备的连接的一个通道。

在摄像机/发送设备处，提供摄像机1150、采用上述技术的脸部检测器1160、图像处理器1170和数据格式器及发射器1180。麦克风1190检测参与者的语音。

音频、视频和(可选的)元数据信号经由网络连接1120从格式器及发射器1180传送到显示器/接收设备1140。可选地，控制信号经由网络连接1120从显示器/接收设备1140接收。

在显示器/接收设备处，提供例如显示屏幕及相关电子设备的显示器和显示处理器1200、用户控件1210以及例如数模(DAC)转换器、放大器和扩音器等音频输出装置1220。

一般来说，脸部检测器1160检测(以及可选地跟踪)来自摄像机1150的捕捉图像中的脸部。脸部检测作为控制信号传递给图像处理器1170。图像处理器可通过各种不同方式动作，下面将进行描述，但图像处理器1170基本上在摄像机1150所捕捉的图像经由网络1120传送之前改变它们。这种操作背后的一个重要目的是更好地利用网络连接1120可传送的可用带宽或比特率。在这里要注意，在大部分商业应用中，适合于电视会议用途的网络连接1120的成本随着不断提高的比特率要求而增加。在格式器及发射器1180处，来自图像处理器1170的图像与来自麦克风1190的音频信号(例如已经通过模数转换器(ADC)转换)以及可选地与定义图像处理器1170执行的处理的性质的元数据相结合。

下面将描述电视会议***的各种操作模式。

图25是电视会议***的进一步示意表示。在这里，脸部检测器1160、图像处理器1170、格式器及发射器1180以及显示器及显示处理器1200的处理器方面的功能性由可编程个人计算机1230来执行。显示屏幕上所示的示意显示(1200的一部分)表示采用脸部检测的电视会议的一种可能模式，将在下面参照图31进行描述，也就是说，只有包含脸部的那些图像部分才从一个位置传送到另一个位置，然后再在另一个位置以平铺或镶嵌图形式来显示。如上所述，下面将描述这种操作模式。

图26是流程图，示意说明图23至25的***的一种操作模式。图26、28、31、33和34的流程图分为在摄像机/发送器端(1130)执行的操作以及在显示器/接收器端(1140)执行的操作。

因此，参照图26，摄像机1150在步骤1300捕捉图像。在步骤1310，脸部检测器1160检测已捕捉图像中的脸部。理论上，脸部跟踪(如上所述)用来避免脸部检测中的任何伪中断，以及提供让特定人的脸部在整个电视会议会话中以相同方式来处理。

在步骤1320，图像处理器1170响应脸部检测信息而裁剪已捕捉图像。这可按照如下方式进行：

-首先标识脸部检测器1160检测的最左上的脸部

-检测那个脸部的最左上端，这形成已裁剪图像的左上角

-对于最右下的脸部以及那个脸部的最右下端重复进行，以便形成已裁剪图像的右下角

-根据这两个坐标以矩形形状裁剪该图像。

已裁剪图像则由格式器及发射器1180传送。在这种情况下，不需要传送附加元数据。图像的裁剪允许与全图像相比在比特率方面的降低，或者允许在保持相同比特率的同时改进传送质量。

在接收器处，已裁剪图像在步骤1130以全屏幕显示形式显示。

可选的，用户控件1210可在图像被裁剪的模式与图像没有被裁剪的模式之间切换图像处理器1170。这可使接收器端的参与者可以看到整个房间或只是图像的脸部相关部分。

用于裁剪图像的另一种技术如下所述：

-标识最左和最右的脸部

-保持镜头的纵横比，定位图片上半部分的脸部

在裁剪的一个备选方案中，摄像机可以变焦，使得所检测脸部在传送图像中的特征更为显著。例如，这可与对于所得图像的比特率减小技术结合。为了实现这个目的，让摄像机的方向(摇摄/俯仰)以及镜头变焦属性的控制可用于图像处理器(由图24中的虚线1155表示)

图27a和27b是与图26的流程图有关的示例图像。图27a表示摄像机1150所捕捉的全屏幕图像，而图27b则表示那个图像的变焦形式。

图28是流程图，示意说明图23至25的***的另一种操作模式。步骤1300与图26所示的相同。

在步骤1340，例如通过在用于显示的脸部周围绘制方框，已捕捉图像中的每个脸部被标识和突出显示。每个脸部还例如采用任意标记a、b、c...来标注。在这里脸部跟踪对于避免标记之间以后的任何混淆极为有用。所标注图像被格式化，并传送给接收器，其中，它在步骤1350被显示。在步骤1360，用户例如通过键入与要显示的脸部相关的标记，来选择那个脸部。选择作为控制数据回传给图像处理器1170，它在步骤1370隔离所需脸部。所需脸部传送到接收器。在步骤1380，显示所需脸部。用户能够通过步骤1360选择不同的脸部来取代当前显示的脸部。同样，因为仅用于选择要显示的脸部，因此选择屏幕可用较低比特率传送，所以这个配置允许带宽的可能节省。或者，如前面所述，一旦被选取，各个脸部可用提高的比特率传送，以便实现更好质量的图像。

图29是与图28的流程图有关的示例图像。在这里，三个脸部已经被标识，并标注为a、b和c。通过将那三个字母中的一个键入用户控件1210，用户可选择那些脸部中的一个用于全屏幕显示。这可通过主图像的裁剪或者通过摄像机变焦到那个脸部来实现，如以上所述。图30表示一个备选表示，在其中，每个脸部的所谓缩略图图像作为选择菜单在接收器上显示。

图31是流程图，示意说明图23至25的***的另一种操作模式。步骤1300和1310与图26中的那些对应。

在步骤1400，图像处理器1170和格式器及发射器1180进行配合，只传送与所捕捉脸部相关的缩略图图像。在步骤1410，它们在接收器端作为脸部的菜单或镶嵌图显示。可选地，在步骤1420，用户可以只选择一个脸部用于放大显示。这可包括让其它脸部以较小格式显示在同一个屏幕上，或者其它脸部可在使用放大显示时被隐藏。因此，这种配置与图28的配置的差别在于，与所有脸部相关的缩略图图像被传送给接收器，以及在接收器端进行如何显示缩略图的选择。

图32是与图31的流程图有关的示例图像。在这里，初始屏幕可显示三个缩略图1430，但图32所示的背景是，属于参与者c的脸部已经选择用于在显示屏幕的左侧的放大显示。但是，与其它参与者相关的缩略图仍然保持，使得用户可进行对于要以放大形式显示的下一个脸部的明智选择。

应当注意，至少在主图像被裁剪的***中，虽然考虑***中存在的任何处理延迟，但在这些实例中涉及的缩略图图像是“现场”缩略图图像。也就是说，随着参与者的所捕捉图像变化，缩略图图像在时间上变化。在采用摄像机变焦的***中，缩略图可能是静态的，或者第二摄像机可用来捕捉更宽角度的场景。

图33是流程图，示意说明另一个操作模式。在这里，步骤1300和1310与图26中的那些对应。

在步骤1440，与被检测到最接近有效麦克风的脸部有关的缩略图脸部图像被传送。这无疑依靠具有一个以上麦克风以及定义哪个参与者坐在哪个麦克风附近的预先选择或元数据。这可通过简单的菜单驱动表条目由各电视会议站的用户预先设置。有效麦克风被认为是具有在某个时间(例如一秒)上平均的最大幅度音频信号的麦克风。低通滤波装置可用来避免例如响应咳嗽或物体跌落、或者两个参与者同时说话而过于频繁地改变有效麦克风。

在步骤1450，显示所传送的脸部。步骤1460表示当前有效麦克风的准连续检测。

检测可能是例如单个有效麦克风的检测，或者简单的三角测量技术可根据多个麦克风来检测发言人的位置。

最后，图34是流程图，示意说明另一种操作模式，在其中，步骤1300和1310同样与图26中的那些对应。

在步骤1470，直接围绕每个脸部的所捕捉图像的部分以较高分辨率被传送，以及背景(所捕捉图像的其它部分)以较低分辨率发送。这可实现比特率方面的有用节省，或者允许每个脸部周围的图像的部分的增强。可选地，可传送定义每个脸部的位置的元数据，或者这些位置可在接收器处通过记录图像的不同部分的分辨率来得出。

在步骤1480，在接收器端，图像被显示，以及脸部被可选地标注，供用户在步骤1490进行选择，这个选择可使所选脸部以类似于图32的配置的较大格式显示。

虽然图23至34的描述涉及电视会议***，但同样的技术可应用于例如安全监控(CCTV)***。在这里，一般不需要返回通道，但如图24所示的配置中，提供摄像机/发送器装置作为CCTV摄像机以及接收器/显示器装置在监测现场提供，该配置可采用与对于电视会议所述的同样的技术。

大家知道，以上所述的本发明的实施例无疑至少部分可采用软件控制的数据处理设备来实现。例如，以上示意说明或描述的一个或多个组件可作为软件控制的通用数据处理装置或定制的程序控制的数据处理装置、如专用集成电路和现场可编程门阵列等来实现。大家知道，提供这种软件或程序控制的计算机程序以及存储这种计算机程序的存储、传送或其它提供媒体被视作本发明的一些方面。

参考文献列表和附录如下。为了消除疑虑，要注意，列表和附录组成本描述的一部分。通过引用将这些文档全部结合于此。

参考文献

1.H.Schneiderman和T.Kanade的“应用于脸部和汽车的三维对象检测的统计模型”(IEEE Conference on Computer Vision and PatternDetection，2000)。

2.H.Schneiderman和T.Kanade的“对象检测的局部外观和空间关系的概率建模”(IEEE Conference on Computer Vision and PatternDetection，1998)。

3.H.Schneiderman的“应用于脸部和汽车的三维对象检测的统计方法”(PhD thesis，Robotics Institute，Camegie Mellon University，2000)。

4.E.Hjelmas和B.K.Low的“脸部检测：通论”(Computer Visionand Image Understanding，No.83，第236-274页，2001年)。

5.M.-H.Yang、D.Kriegman和N.Ahuja的“检测图像中的脸部：通论”(IEEE Trans.on Pattern Analysis and machine Intelligence，vol.24，no.1，第34-58页，2002年1月)。

附录A：训练脸部集合

一个数据库由位于室内背景前面的对象的数千个图像组成。以上技术的实验实现中使用的另一个训练数据库由具有范围从正面到左、右侧面的视图的人头的超过一万个八位灰度级图像组成。技术人员无疑会理解，各种不同的训练集合可以使用，可选地确定轮廓以反映局部人群的脸部特征。

附录B-特征块

在脸部检测和识别的特征脸方法中(参考文献4和5)，每个m乘以n的脸部图像被重新排序，使得它由长度mn的向量来表示。每个图像则可看作是mn维空间的点。一组图像映射到这个大空间中的点的集合。

在整体配置中相似的脸部图像不是随机地分布在这个mn维图像空间中，因此它们可通过较低维的子空间来描述。采用主成分分析(PCA)，可找出最能说明整个图像空间中的脸部图像的分布的向量。PCA包含确定与原始脸部图像对应的协方差矩阵的主特征向量。这些向量定义脸部图像的子空间，通常称作脸部空间。每个向量表示m乘以n的图像，并且是原始脸部图像的线性组合。由于向量是与原始脸部图像对应的协方差矩阵的特征向量，以及由于它们在外观上是脸形，因此它们常常称作特征脸[4]。

当未知图像出现时，它被投影到脸部空间。这样，以特征脸的加权和来表达它。

在本实施例中，密切相关的方法用来产生和应用与脸部图像块相关的所谓“特征块”或特征向量。块的网格应用于脸部图像(在训练集合中)或测试窗口(在检测阶段中)，以及在每个块位置应用与特征脸过程极相似的基于特征向量的过程。(或者在一个备选实施例中，为了节省数据处理，该过程对块位置组应用一次，产生一组特征块，供任何块位置上使用)。技术人员会理解，一些块、例如通常表示图像的鼻子特征的中心块在判定脸部是否存在时可能更为重要。

计算特征块

特征块的计算包含以下步骤：

(1).使用N_T个图像的训练集合。它们被分为每个的大小为m×n的图像块。因此，对于每个块位置，得到一组图像块，其中一个来自各图像中的那个位置：

(2).块的归一化训练集合按照以下方式计算：

来自原始训练集合的每个图像块I_o ^t归一化为具有平均值零和L2范数1，从而产生相应的归一化图像块I^t。对于每个图像块I_o ^t，t＝1...N_T：

I^{t} = \frac{{I_{o}}^{t} - mean_{I_{o}}^{t}}{| | {I_{o}}^{t} - mean_{I_{o}}^{t} | |}

其中

mean_{I_{o}}^{t} = \frac{1}{mn} Σ_{i = 1}^{m} Σ_{j = 1}^{n} {I_{o}}^{t} [i, j]

以及

| | {I_{o}}^{t} - mean_{I_{o}}^{t} | | = \sqrt{Σ_{i = 1}^{m} Σ_{j = 1}^{n} {({I_{o}}^{t} [i, j] - mean_{I_{o}}^{t})}^{2}}

(即，L2范数为(I_o ^t-mean_I_o ^t))

(3).向量的训练集合

通过每个图像块I^t的像素元素的词典重新排序来形成。也就是说，每个m乘以n图像块I^t重新排序为长度N＝mn的向量x^t。

(4).计算偏差向量集合

D = {x^{t}}_{t = 1}^{N_{T}} .

D具有N行和N_T列。

(5).计算协方差矩阵∑：

∑＝DD^T

∑是大小为N×N的对称矩阵。

(7).整个特征向量集合P和协方差矩阵∑的特征值λ_i(i＝1，...，N)通过解下式来给出：

Λ＝P^T∑P

在这里，Λ是沿其对角线(按照幅度顺序)具有特征值λ_i的N×N对角矩阵，以及P是包含每个长度为N的N个特征向量的集合的N×N矩阵。这个分解又称作Karhunen-Loeve变换(KLT)。

特征向量可看作是一组特征，它们共同表示脸部图像块之间的变化的特征。它们形成正交基，通过它可表示任何图像块，即，原则上，任何图像可通过特征向量的加权和无误地表示。

如果图像空间中的数据点的数量(训练图像的数量)小于空间的维数(N_T＜N)，则仅存在N_T个有意义的特征向量。其余特征向量将具有关联的特征值零。因此，由于通常N_T＜N，因此，i＞N_T时的所有特征值将为零。

另外，由于训练集合中的图像块在整体配置上相似(它们全部从脸部导出)，因此，只有一部分其余特征向量将表现图像块之间的极大差异的特征。这些是具有最大关联特征值的特征向量。具有较小关联特征值的其它其余特征向量没有表现这种大差异的特征，因此它们对于检测或区分脸部不是有用的。

因此，在PCA中，只有具有最大幅度特征值的M个主要特征向量被考虑，其中，M＜N_T，即执行部分KLT。简言之，PCA提取与最大幅度特征值对应的KLT基础的较低维子空间。

由于主成分描述脸部图像之间的最强变化，因此在外观上，它们可能与脸部块的部分相似，并且在此称作特征块。但是，同样可使用术语“特征向量”。

采用特征块的脸部检测

未知图像与脸部或其面相的相似性可通过确定图像由脸部空间表示的准确程度来度量。这个过程采用与训练过程中使用的相同的块网格逐块执行。

这个过程的第一级包含将图像投影到脸部空间。

图像到脸部空间的投影

在将图像投影到脸部空间之前，对图像执行与对于训练集合执行的大致相同的预处理步骤：

(1).得到大小为m×n的测试图像块：I_o。

(2).原始测试图像块I_o归一化为具有平均值零和L2范数1，从而产生归一化测试图像块I：

I = \frac{I_{o} - mean_I_{o}}{| | I_{o} - mean_I_{o} | |}

其中

mean_I_{o} = \frac{1}{mn} Σ_{i = 1}^{m} Σ_{j = 1}^{n} I_{o} [i, j]

以及

| | I_{o} - mean_I_{o} | | = \sqrt{Σ_{i = 1}^{m} Σ_{j = 1}^{n} {(I_{o} [i, j] - mean_I_{o})}^{2}}

(即，L2范数为(I_o-mean_I_o))

(3).偏差向量通过图像的像素元素的词典重新排序来计算。图像重新排序为长度N＝mn的偏差向量x^t。

在这些预处理步骤之后，偏差向量x采用以下简单步骤被投影到脸部空间：

(4).到脸部空间的投影包含将偏差向量x变换为它的特征块成分。这包含与M个主特征向量(特征块)P_i(i＝1，...，M)的简单乘法。每个权y_i按照以下方式得出：

y_{i} = P_{i}^{T} x

其中P_i是第i个特征向量。

权y_i(i＝1，...M)描述在表示输入脸部块时各特征块的作用。

相似外观的块将具有相似的权集合，而不同外观的块则具有不同的权集合。因此，权在此用作用于在脸部检测过程中对脸部块分类的特征向量。

Claims

1.一种脸部检测设备，用于在视频序列中的图像之间跟踪所检测的脸部，所述设备包括：

第一脸部检测器，用于检测所述图像中脸部的出现；

第二脸部检测器，用于检测所述图像中脸部的出现；

所述第一脸部检测器具有比所述第二脸部检测器更高的检测门限，使得所述第二脸部检测器更可能检测到所述第一脸部检测器在其中没有检测到脸部的区域中的脸部；以及

脸部位置预测器，用于根据按所述视频序列的测试顺序的一个或多个先前图像中所检测的脸部位置来预测按所述视频序列的测试顺序的下一个图像中的脸部位置；

其中：

如果所述第一脸部检测器在所述预测脸部位置的预定门限图像距离内检测到脸部，则所述脸部位置预测器采用所述检测位置来产生下一个位置预测；

如果所述第一脸部检测器未能在所述预测脸部位置的预定门限图像距离内检测到脸部，则所述脸部位置预测器采用所述第二脸部检测器所检测的脸部位置来产生下一个位置预测。

2.如权利要求1所述的设备，其特征在于，所述第一脸部检测器可用于：

从每个连续图像的区域中导出一组属性；

将所述导出属性与指示脸部出现的属性进行比较；

根据所述导出属性与指示脸部出现的所述属性之间的相似性来导出脸部出现的概率；以及

将所述概率与门限概率进行比较。

3.如权利要求2所述的设备，其特征在于，所述属性包含图像区域到一个或多个图像特征向量上的投影。

4.如以上权利要求中的任一项所述的设备，其特征在于，所述第二脸部检测器可用于将图像区域的色彩与和人的皮肤关联的色彩进行比较。

5.如权利要求4所述的设备，其特征在于，所述设备可用于在所述第二检测器检测到所检测脸部与肤色相差超过门限量时放弃脸部跟踪。

6.如以上权利要求中的任一项所述的设备，其特征在于，所述脸部位置预测器仅响应所述第一脸部检测器进行的脸部检测而起动。

7.如以上权利要求中的任一项所述的设备，其特征在于，如果所述第一和第二脸部检测器都未能在所述预测脸部位置的预定门限图像距离内检测到脸部，则所述脸部位置预测器采用所预测的脸部位置来产生下一个位置预测。

8.如权利要求7所述的设备，其特征在于，所述设备设置为，如果对于超过预定比例的图像，所述脸部位置预测器采用所预测的脸部位置来产生下一个位置预测，则放弃脸部跟踪检测。

9.如以上权利要求中的任一项所述的设备，其特征在于，所述设备设置为，如果对于超过预定比例的图像，所述脸部位置预测器采用所述第二脸部检测器所检测的脸部位置来产生下一个位置预测，则放弃脸部跟踪检测。

10.如以上权利要求中的任一项所述的设备，其特征在于，如果对于一个图像跟踪两个脸部，则一个跟踪被放弃，使得：

基于所述第一检测器进行的检测的跟踪具有高于基于所述第二检测器进行的检测或预测位置的跟踪的优先级；以及

基于所述第二检测器进行的检测的跟踪具有高于基于预测位置的跟踪的优先级。

11.如权利要求10所述的设备，其特征在于，如果对于一个图像通过相同检测器跟踪两个脸部，则一个跟踪被放弃，使得具有较大检测脸部的跟踪被保持。

12.如以上权利要求中的任一项所述的设备，其特征在于，要求所述第一检测器进行的至少两个连续脸部检测来启动脸部跟踪。

13.如以上权利要求中的任一项所述的设备，其特征在于，每n帧要求所述第一检测器进行的至少g个脸部检测(其中g＜n)来保持脸部跟踪。

14.如以上权利要求中的任一项所述的设备，其特征在于，所述设备可用于在所检测脸部具有低于第一门限量或者高于第二门限量的像素间方差时放弃脸部跟踪。

15.电视会议设备，包括如以上权利要求中的任一项所述的设备。

16.监控设备，包括如权利要求1-14中的任一项所述的设备。

17.一种在视频序列中的图像之间跟踪所检测的脸部的方法，所述方法包括以下步骤：

采用第一脸部检测器来检测所述图像中脸部的出现；

采用第二脸部检测器来检测所述图像中脸部的出现；

根据按所述视频序列的测试顺序的一个或多个先前图像中的所检测脸部位置来预测按所述视频序列的测试顺序的下一个图像中的脸部位置；

其中：

如果所述第一脸部检测器在所述预测脸部位置的预定门限图像距离内检测到脸部，则所述脸部位置预测步骤采用所检测位置来产生下一个位置预测；以及

如果所述第一脸部检测器未能在所述预测脸部位置的预定门限图像距离内检测到脸部，则所述脸部位置预测步骤用所述第二脸部检测器所检测的脸部位置来产生下一个位置预测。

18.计算机软件，具有用于执行如权利要求17所述的方法的程序代码。

19.一种提供媒体，用于提供如权利要求18所述的程序代码。

20.如权利要求19所述的媒体，其特征在于，所述媒体为存储媒体。

21.如权利要求20所述的媒体，其特征在于，所述媒体为传输媒体。