CN101861118A

CN101861118A - 用于发现和跟踪双眼的方法和装置

Info

Publication number: CN101861118A
Application number: CN200880116337A
Authority: CN
Inventors: 恩里科·泽思丘
Original assignee: SeeReal Technologies GmbH
Current assignee: SeeReal Technologies GmbH; SeeReal Technologies SA
Priority date: 2007-11-16
Filing date: 2008-11-12
Publication date: 2010-10-13
Anticipated expiration: 2028-11-12
Also published as: KR20100105591A; CN101861118B; JP5470262B2; JP2011508289A; KR101550474B1; US20100303294A1; US8477996B2; TWI366454B; DE102007056528B3; TW200938162A; WO2009062945A1

Abstract

在用于发现进而跟踪至少一个脸部的双眼的三维坐标的方法中，推荐以下步骤：接收包括来自至少一个图像传感器的至少一个数字视频信号的序列的图像数据，在图像数据中发现或跟踪已发现的眼睛，确定发现或跟踪的眼睛的三维坐标；分配发现或跟踪的眼睛以形成双眼以及提供双眼的三维坐标，其中，在所述图像数据中发现眼睛包括以下步骤：识别图像数据中的一个或多个脸部，确定至少一个识别的脸部的三维坐标，在识别的脸部建立第一搜索区域以及在第一搜索区域发现至少一只眼睛，以及其中，在所述图像数据中跟踪已发现的眼睛的包括以下步骤：在识别的脸部建立第二搜索区域以及在第二搜索区域跟踪双眼的眼睛。

Description

用于发现和跟踪双眼的方法和装置

本发明涉及一种用于实时发现并进而跟踪至少一张脸上的双眼的三维坐标的非接触式方法。

例如，与接触式方法不同，用于发现和跟踪脸部的非接触式方法不需要任何额外手段，例如头戴式摄像机或聚光灯。这些非接触式方法的优点在于要跟踪的对象的自由移动不会受到物理手段的任何限制，并且使用这种手段不会让使用者感到厌烦。

非接触式检测和跟踪方法是公知的现有技术。例如，专利文件US 6539 100 B1和专利文件EP 0 350 957 B1公开了如何借助从已记录的图像中提取的特定脸部和眼睛特征来检测观察者的观看方向。专利文件US 6539 100 B1描述了用于找出观察者正在观看哪个对象的方法，专利文件EP0 350 957 B1还具有在一段特定时期跟踪眼睛运动的目的。

专利文件DE 197 31 303 A1公开了一种即使头和眼睛快速和大范围运动时也能测量眼睛观看方向的非接触式无头盔的方法和装置。眼睛被红外光照射，通过光学***成像并且由至少一个图像传感器记录；随后，观看方向处理器处理因此生成的图像，然后在监视器上显示，其中观看方向处理器可以通过主处理器设置为通过寻找眼瞳中心位置和确定角膜反射来确定观看方向。

专利文件WO 03/079 902 A1也描述了一种在各种照明条件下实时检测和跟踪眼睛的非接触式方法。通过执行以下步骤来检测眼睛：记录两个主动照明图像，其中一个图像表示眼睛的“亮瞳孔效果”以及另一个图像表示眼睛的“暗瞳孔效果”；生成这两个图像的差分图像，生成的差分图像仅示出两个图像对比度不同之处的差异；标示出差分图像中的差异点作为可能的眼睛；以及为了能高概率地在差分图像中分辨出眼睛和非眼睛，将可能的眼睛与预先记录的作为参考图像的眼睛以及非眼睛的图像进行比较。通过使用卡尔曼滤波器以及将预期的眼睛位置与差分图像中实际检测的眼睛位置进行比较来检测图像中的眼睛，然后跟踪眼睛。如果比较没有产生任何结果，借助于聚类算法在进一步的步骤中确定眼睛的位置，聚类算法基于可能的眼睛位置在图像中的亮度对它们的位置进行聚类，并且将这些聚类与预期位置进行比较。

该公知技术方法存在一些缺点。一方面，检测和跟踪眼睛的过程利用了基于具有“亮瞳孔效果”的图像和具有“暗瞳孔效果”的图像使用隔行扫描方法生成的图像，这两个图像是逐个记录的，而不是由一个图像传感器同时记录的。通过隔行扫描方法与图像的叠加一起记录时间上不重合的图像不允许对眼睛的可靠实时检测和跟踪，该方法旨在减少传输的图像数据量。另一方面，由于眼睛到光源的距离增加时主动照明减少，其导致不再能将要检测的眼睛与差分图像中的其他对象或噪声区分开，因此该方法仅允许检测和跟踪空间上非常接近图像传感器的眼睛。

专利文件WO2007/019842尝试消除这些缺点，其使用分层组织程序找出眼睛位置，其中从整个视频帧(VF)的数据量到目标脸部区域(GZ)的数据量，最后是目标眼睛区域(AZ)的数据量，要处理的数据量逐渐减少。此外，每个程序或每组程序始终在一个专用计算单元上执行，以使它们平行运行。不过，专利文件WO2007/019842并没有解释如何发现和跟踪眼睛。

然而，实时检测和跟踪眼睛是人机交互的决定性因素。因此，特别需要提供一种能精确地实时发现和跟踪眼睛的检测和跟踪眼睛的方法。

精确和高效确定Z方向上的位置也是必要的，尤其在脸部可能在所有空间方向进行大幅快速移动的动态应用环境中。这种动态应用例如包括自动立体或全息显示，只有在空间和时间上精确确定了观察者的眼睛位置，期望的图像效果才会出现，这样自动立体或全息图像信息就可以导向实际的眼睛位置。与此相反，在现有技术中公知的静态应用中，例如用于监测驾驶员和飞行员的装置，由于在这些应用中对象的移动范围在所有空间方向通常都限制到最小，因此检测和跟踪范围相当小。

现有技术中公知的方法还存在不能实时传送眼睛位置信息的问题，尤其是识别和跟踪多个脸部时。

因此，本发明的目的是提供一种允许在足够大的检测和跟踪范围内可靠、精确并高效地在所有三个空间方向实时发现和跟踪一个或多个脸部的眼睛位置的方法，其仅产生低的计算量。特别是，本发明的目的是能高效和精确发现至少一只眼睛。

该目的根据本发明中包括以下步骤的方法来实现：接收至少一个图像传感器的一个或多个作为视频信号的序列提供的图像数据；在图像数据中发现眼睛或跟踪已发现的眼睛；确定发现或跟踪的眼睛的三维坐标；分配发现或跟踪的眼睛以形成双眼；以及提供双眼的三维坐标。

在优选实施例中，图像数据以至少一个图像传感器记录的视频序列的形式接收。或者也可以使用其他传输方式接收图像数据，例如以单一图像的形式。

发现眼睛的处理步骤包括以下步骤：识别图像数据中的一个或多个脸部；确定至少一个识别的脸部的三维坐标；在识别的脸部定义第一搜索区域；以及在该第一搜索区域发现至少一只眼睛。在现有技术中，已知有多种用于识别图像中脸部的方法和装置，其通过引用的方式全部包括在这里，其通常以二维坐标形式输出识别的脸部的位置信息。现有技术中已知，或通过使用其他任何已知的方法例如距离测量，对从两个图像传感器接收的图像数据进行立体分析可以更好地得到使脸部位置的三维坐标完整的Z坐标。确定了脸部三维信息后，可以通过使用已知的脸部眼睛位置模型来确定很可能包括脸部至少一个眼睛的区域。如果对于已识别脸部没有适用的模型，执行搜索眼睛的区域可以包括整张脸。该区域理解为并且以下将称为眼睛的第一搜索区域，并且随后的发现眼睛的步骤全部限定在此第一搜索区域中。在接下来的步骤中，在第一搜索区域中发现至少一只眼睛。在例如由于闭眼而没有发现眼睛的情况下，就认为该图像中的脸部没有可检测的眼睛，因此认为不存在眼睛。在所有其他情况下，在随后的处理步骤中对每个脸部上已发现的眼睛进行进一步的处理。在小的搜索区域搜索眼睛通常比在包括整个脸部甚至整个图像的搜索区域中搜索更快地得出结果。

在进一步的处理步骤中，确定已发现的眼睛的三维坐标。在优选实施例中，使用其他立体分析来实现，或者可以使用任何其他已知的确定物体三维坐标的方法。然后，将已发现的眼睛分配形成双眼，其中将可以基于眼睛的三维坐标计算出的两只眼睛之间的距离与已知双眼模型的两眼间隔进行比较，或使用其他任何合适的分配方法，例如这里优选为分类法。由于可以使用已知脸-眼模型基于这些数据发现眼睛以及脸部的位置，因此最好对双眼形式的已发现的眼睛进行进一步处理以确定双眼的三维坐标，因而减少了随后跟踪已识别脸部所需的数据量。

跟踪已发现的双眼通常包括在已识别脸部定义至少一个第二搜索区域以及在该搜索区域跟踪双眼的眼睛的步骤。根据一方面，为每只眼睛定义第二搜索区域。在这里，发现眼睛步骤中确定的双眼作为进一步跟踪的起点。基于眼睛的三维坐标定义跟踪调查的双眼的眼睛的区域。因此定义的最好比第一搜索区域小的区域理解为并且称为跟踪眼睛的第二搜索区域。因此定义的双眼的跟踪允许即使眼睛或脸部快速或大范围移动时也能定义足够小的第二搜索区域，以使实时跟踪双眼成为可能。

发现至少一只眼睛进一步包括以下步骤：根据已识别的脸部距提供图像数据的图像传感器的距离计算眼睛部分的预期尺寸；根据已识别的脸部距提供图像数据的图像传感器的距离计算灰度值作为第一搜索区域中分割的阈值；预处理第一搜索区域以提高对比度；预处理之后分割第一搜索区域；计算分割的第一搜索区域中的一个或多个结合区域，结合区域是灰度值至少近似相等的相邻像素的集合；确定每个计算的结合区域的尺寸；以及将眼睛部分的预期尺寸与结合区域的确定尺寸相比较，如果结合区域的确定尺寸与眼睛部分的预期尺寸至少近似相符，那么结合区域就表示一只发现的眼睛。因此，调整图像数据中的对比度以更清楚地将图像数据中的眼睛相关部分与其他对象区分。此外，使用该方法能找到从图像传感器提供的图像数据得到的更远的眼睛。

根据本发明的一方面，预处理步骤包括第一搜索区域中的灰度值直方图均衡化。

根据本发明的另一方面，跟踪已发现的眼睛进一步包括以下步骤：根据已识别的脸部距提供图像数据的图像传感器的距离计算眼睛部分的预期尺寸；确定第二搜索区域中的最小灰度值；以及迭代该灰度值作为第二搜索区域中的阈值，当检测到至少两个眼睛时停止迭代。迭代包括以下步骤：根据已识别的脸部距图像传感器提供的图像数据的距离，从当前迭代步骤以及最小灰度值计算灰度值作为第二搜索区域中分割的阈值；分割第二搜索区域；计算分割的第二搜索区域中的一个或多个结合区域，结合区域是灰度值至少近似相等的相邻像素的集合；确定每个已计算结合区域的尺寸；以及将眼睛部分的预期尺寸与结合区域的确定尺寸相比较，如果结合区域的确定尺寸与眼睛部分的预期尺寸至少近似相符，那么结合区域就表示一只跟踪的眼睛。因为这些处理步骤，使得可以实时跟踪特别是位于更远处的眼睛，与传统方法相比，可以提供关于眼睛三维坐标的更精确的结果。

根据本发明的另一方面，借助于例如二进位图像法的有效方法来实现搜索区域的分割。此外，根据优选实施例，通过使用具有支持向量机的分类法将眼睛分配形成双眼，该分类基于给定眼睛和非眼睛与已发现眼睛的相似度来确定哪些眼睛属于一双眼睛。然而，将眼睛分配形成双眼并不限于一种分类法也不限于使用支持向量机。

如果在计算机上运行，本发明还涉及控制执行根据本发明的方法的计算机程序。

本发明还涉及一种用于发现以及随后跟踪至少一个脸部上的双眼的三维坐标的装置，该装置具有用于接收图像数据的器件，该图像数据包括来自至少一个图像传感器的至少一个数字视频信号的序列，用于在图像数据中发现眼睛的器件，用于跟踪图像数据中已发现的眼睛的器件，用于确定已发现或跟踪的眼睛的三维坐标的器件，用于将已发现或跟踪的眼睛分配形成双眼的器件，以及用于提供双眼的三维坐标的器件。跟踪图像数据中已发现的眼睛的器件进一步包括识别图像数据中一个或多个脸部的构件，确定至少一个已识别的脸部的三维坐标的构件，在已识别的脸部定义第一搜索区域的构件，以及在第一搜索区域发现至少一只眼睛的构件。特别的，跟踪图像数据中已发现的眼睛的器件包括在已识别的脸部定义第二搜索区域的构件和在第二搜索区域中跟踪双眼的眼睛的构件。

本发明的其他优选特点在从属权利要求中定义。

以下将仅出于示意以及没有任何限制的目的，并且参考附图说明本发明的优选实施例，其中：

图1所示为根据本发明的方法的流程图；

图2所示为示出了根据本发明实施例发现眼睛的过程的流程图；

图3所示为根据本发明实施例具有在脸部定义的第一搜索区域的图像数据；

图4所示为示出了根据本发明实施例跟踪已发现的眼睛的过程的流程图；

图5所示为根据本发明实施例具有在脸部定义的第二搜索区域的图像数据；

图6所述为示出了根据本发明实施例将眼睛分配形成双眼的过程的流程图；

图7所述为根据本发明实施例的装置；以及

图8所述为根据本发明实施例以面向对象设计的计算机程序的程序流程图。

图1所示为根据本发明方法的第一实施例，所述方法能在至少25Hz的刷新频率下实时发现和跟踪多达4个观察者的眼睛。因此，该方法能在每秒至少25帧图像的检测和跟踪频率下处理多达4个观察者，或在例如每秒60帧图像的检测和跟踪频率下处理一个观察者。步骤110中接收图像数据，该图像数据由一个或多个图像传感器记录并以视频序列的形式通过例如串行接口的传输手段传输。这里优选的实施例中，图像传感器记录的图像数据由主动照明设备照明。以光照明图像传感器的检测范围以使图像传感器记录图像。这里优选为红外光照射，其波长范围约为700-950nm，根据本发明的实施例，最好是850nm。主动照明旨在突出图像数据中受试者的眼睛。

当主动照明设置于相对远离图像传感器的光轴时，就会产生所谓的“暗瞳孔效果”，这时瞳孔与其环境相比看上去尤其黑。对于“亮瞳孔效果”，主动照明设置于靠近图像传感器的光轴，因此与照相中的“红眼效果”一样，发射的光线从眼睛的背景反射并且由图像传感器记录。

根据本发明的实施例，“暗瞳孔效果”是优选的效果。也可以利用其他效果，例如表示瞳孔比它的环境亮的“亮瞳孔效果”，以使眼睛或眼睛相关部分与环境区分开。

图像传感器设计成与主动照明配合，使得即使眼睛远离图像传感器，也可以几乎无误地实现眼睛的检测和跟踪。检测范围并不受限于根据本发明的方法，检测范围受限于使用的图像传感器。这里的优选实施例中，根据实际使用的图像传感器，该检测范围覆盖了距离图像传感器0.5m到3.5m的范围。然而，根据本发明的方法，如果使用合适的图像传感器，也可以达到更大的检测范围。图像数据可以使用公知的视频数据压缩方法压缩，或是可用于进一步处理的原始数据。

为脸部识别步骤115提供接收的图像数据。利用现有技术的脸部检测方法进行脸部识别。在步骤115中，图像数据中的脸部通常借助于图案识别程序识别。一旦脸部被识别，确定脸部相对于图像传感器的空间位置的坐标就被确定，该坐标最好是三维坐标的形式。在执行方法之前定义三维坐标的坐标系的原点；在使用一个图像传感器的优选实施例中，其由图像传感器的光轴以及图像传感器自身确定，在使用两个图像传感器的实施例中，其由连接图像传感器光轴的部分的中心以及图像传感器自身确定。三维坐标可以通过对至少两个图像传感器记录的二维图像的立体分析来优选地确定。在立体分析中，在图像数据中找到已识别的脸部的差异。该差异是立体图像的图像数据中一个像素的坐标的距离，该距离在图像数据中通过使用至少两个图像传感器从具有不同坐标的记录的图像中的不同方向检测空间中的一个点表示(如果两个图像传感器都检测到该点)。测量图像传感器以寻找反映立体图像中的像素与空间中的点相对于提供图像数据的图像传感器的距离的差异的函数，反之亦然。然后使用该函数确定距图像传感器的距离，并且基于该距离可以确定三维坐标的Z坐标。或者，可以使用现有技术中公知的任何其他方法来确定Z坐标。

在一实施例中进一步优选的是，基于三维坐标确定脸部距提供图像数据的图像传感器的距离。脸部距图像传感器的距离也可以使用其他方法确定，例如，使用激光测距。

步骤115中，图像数据中的脸部识别和图像数据接收最好同步执行，以使图像数据用于搜索还未被检测或在跟踪过程中已跟丢的脸部。因此在优选实施例中，存储已识别脸部以及它们的位置。进一步设计优选的方法以使独立于步骤130中的眼睛跟踪执行新脸部的识别。如果在图像数据中识别出脸部，在步骤120中检查是否已经跟踪这些脸部。可以基于存储的脸部特征，例如眼睛间距或脸部比例，或优选的是基于三维坐标进行检查。如果检查的结果是还未跟踪已识别的脸部，那就是还未找到该脸部的眼睛或双眼。在该实施例中，步骤125中通过在已识别脸部定义至少一个第一搜索区域以及在定义的搜索区域中寻找至少一个眼睛来发现脸部的眼睛。如果脸部已经被跟踪，通过定义第二搜索区域来执行进一步的跟踪，在该区域中，跟踪脸部双眼中的至少一只眼睛。在一实施例中，第一搜索区域最好比第二搜索区域大。在优选实施例中，步骤125和130中，至少一只眼睛在每个第一搜索区域中被发现然后在第二搜索区域被跟踪。最好在确定了坐标，优选是三维坐标后，执行步骤135中将发现或跟踪的眼睛分配形成双眼。发现或跟踪的双眼用于进一步处理，例如，用于重复执行方法或其他应用，这不是此处描述的实施例的一部分。在步骤140中，例如通过合适的接口720提供双眼的三维坐标，以由计算机725做进一步的处理，这将参考图7在以下描述。

该方法的其他优选实施例将参考图2和图3进行说明。图2中所示的过程详细说明了图1中步骤125中发现眼睛的操作。如果发现还未跟踪脸部并因此而没有找到脸部的眼睛，该过程将开始。基于当前图像数据和已识别的脸部的三维坐标发现眼睛。在处理步骤210中，在已识别的脸部定义至少一个第一搜索区域310，第一搜索区域的尺寸取决于选择的脸部检测方法的特点和准确性。在优选实施例中，第一搜索区域的尺寸约为50mmx50mm。借助于已确定的脸部三维坐标和脸部几何学确定第一搜索区域310。基于该信息，可以计算该脸部的眼睛最有可能位于的区域，以便基于该计算的区域在图像数据中确定第一搜索区域。图3示出了在图像320中定义的第一搜索区域310，脸部的每只眼睛对应一个第一搜索区域，借助于“暗瞳孔效果”确定所述眼睛。仅在各第一搜索区域执行进一步的处理步骤，以产生脸部的探查区域变得更小的效果，进而对计算量以及方法的效率产生积极影响。基于脸部距提供图像数据的图像传感器的距离，步骤215中计算已识别的脸部的眼睛部分的尺寸。在一实施例中，这个眼睛部分是眼瞳，因为当使用“暗瞳孔效果”时，其对于眼睛的其他部分来说特别突出。在另一个实施例中，除了眼瞳外，还使用虹膜作为眼睛相关部分。可以基于已识别的脸部的三维坐标计算距离，或使用现有技术中公知的任何其他方法。另外，距离值最好移交到步骤125中以供进一步使用。通过采用适当的算法计算眼瞳的预期尺寸，这里不再详述。发现眼睛的进一步步骤包括在步骤220中计算用于分割第一搜索区域的阈值。

这里，分割是一种图像处理方法，其中，与被关注的内容相关的区域通过按特定同质标准结合相邻像素来生成。在优选实施例中，使用灰度值作为同质标准。在图像处理中，灰度值是单个像素的亮度或强度值。必须要注意的是，灰度值与图像数据的颜色无关。

在优选实施例中，图像数据包括从白到黑256级的灰度值。根据已识别的脸部距提供图像数据的图像传感器的距离计算灰度值作为随后处理步骤中使用的阈值。因为当距图像传感器的距离变化时图像数据中的亮度和强度值改变，所以计算阈值时最好考虑该距离。在接下来的步骤225中，预处理第一搜索区域以进一步将图像的相关部分，例如眼瞳或眼瞳及虹膜，与图像的其他部分区分开。

这里的优选实施例中，该预处理步骤包括在第一搜索区域中灰度值直方图均衡化。在直方图均衡化中，使用均衡函数转换图像数据中的灰度值或色度值的统计分布以实现灰度值或色彩的更好的分布，因而提高对比度以及归一化搜索区域内图像数据内容。这旨在减少图像数据中不同亮度的影响，图像数据中不同亮度的影响缘于脸部距提供图像数据的图像传感器的距离以及从而减少的主动照明效果或另外的照明效果，例如具有高比例的红外光的入射阳光，从而为进一步处理生成相似对比度值。

一旦因此处理了第一搜索区域内的图像数据，在步骤230中进行分割。以使用任何合适的方法进行该分割，该分割允许基于像素灰度值分配像素。根据一实施例，优选的分割方法是像素二进位图像法。步骤220中计算的阈值用于该二进位图像法。如果第一搜索区域内的像素的灰度值低于阈值，像素的值为1，如果它们的灰度值高于阈值，它们的值为0。也可以使用相反的像素二进位图像法，即，如果像素的灰度值低于阈值，像素的值为0，如果它们的灰度值高于阈值，它们的值为1。这就实现了在第一搜索区域中，只有高于阈值的相关像素的值为1，因此呈现为黑，并且所有其他像素的值为0，因此呈现为白。在接下来的处理步骤235中，在分割的搜索区域计算结合区域。结合区域是相邻像素基于相同特性，例如关于它们的灰度，合到一起的区域。

在优选实施例中，计算8-像素结合区域，在特殊情况下其表现出比例如4-像素结合区域更好的像素结合。然后考虑邻近一个像素的所有8个像素，并且计算这些邻近像素是否具有相同的灰度值。在4-像素结合区域的情况下，仅考虑水平和垂直像素。所有具有相同灰度值的像素被分配到同一个结合区域。根据一实施例，灰度值在一定范围内的像素分配到一个共同的结合区域。

在接下来的步骤240中，确定已计算的结合区域的尺寸。然后将每个已计算结合区域的已确定尺寸与瞳孔或眼睛部分的预期尺寸相比较。如果在尺寸比较步骤245中发现结合区域的尺寸与眼瞳的预期尺寸大致相同，就认为该结合区域是一只眼睛。在所以其他情况下，结合区域不是眼睛。不言而喻，可以因此在第一搜索区域中发现多只眼睛，这在分配处理步骤135中进一步处理以形成双眼。根据该实施例，发现眼睛的处理步骤结束于提供已发现的眼睛的步骤250。如果在第一搜索区域中没有找到眼睛，则以更大的第一搜索区域重复该步骤，或者终止于没有在已识别脸部检测到眼睛。

在另一个优选实施例中，通过测量大量测试图案和测试图案序列的检测性能，得到并优化阈值、计算阈值的算法、或计算阈值的算法的参数。这样做时，例如由于当距提供图像数据的图像传感器的距离增加时主动照明的功率和效果降低，所以考虑脸部或眼睛距提供图像数据的图像传感器的距离。计算阈值的一种实用算法为：

阈值＝最小亮度值+初始值+(最大距离-距离)/100

其中，最小亮度值是要分割的区域中像素的最低亮度，初始值是在基于在上述优化测量中确定的值定义的数值，最大距离是以mm为单位的观察者距提供图像数据的图像传感器的最大可能距离，距离是以mm为单位的观察者距提供图像数据的图像传感器的实际距离。

现参考图4和图5说明本发方法的其他优选实施例。图4所示的方法详细说明了图1中步骤130中跟踪眼睛的各个操作。与发现眼睛的步骤相比，当跟踪已发现的眼睛时，基于已知的眼睛位置，在步骤410中定义用于跟踪眼睛的第二搜索区域。第二搜索区域最好定义的比相应的第一搜索区域小。第二搜索区域的尺寸通常大致与眼睛的尺寸相符，根据图像传感器记录的图像数据的刷新率以及眼睛移动的自由度和移动速度，第二搜索区域的尺寸可以动态扩大。在另一优选实施例中，假设眼睛完全被搜索区域覆盖，第二搜索区域的尺寸约为20mmx15mm。如下所述，在脸部320定义第二搜索区域510。当图1中执行到处理步骤130时，从之前已执行的步骤已得到要被跟踪眼睛的三维坐标，特别是之前图像数据的步骤140。例如，基于眼睛的多个之前的三维坐标确定已发现和被跟踪眼睛是否在特定方向以特定速度作相对移动。如果是，可以计算当前图像中眼睛的预测位置。现有技术中已知有多种方法可以实现该目的，这些方法通过引用的方式全部包括在这里。然后考虑眼睛的预测位置相应地定义第二搜索区域。在其他没有检测到相对移动或在前一步骤中第一次发现眼睛的情况下，基于前一步骤140中发现的眼睛位置定义第二搜索区域。

图5中示出了在已识别的脸部320示例性定义第二搜索区域510。将这些与图3中的搜索区域310比较时，可以清楚地看到，第二搜索区域510要小得多，由于第二搜索区域中数量较少的像素，因此计算量降低。

定义第二搜索区域后，根据眼睛距提供图像数据的图像传感器的距离，在步骤415中计算眼睛部分的尺寸。例如，如上述步骤215中所述执行计算。随后，在步骤420中确定第二搜索区域中的最小灰度值。借助于现有技术中公知的图像处理方法再次确定最小灰度值。步骤420确定的最小灰度值在以后的迭代中继续使用。迭代包括以下步骤：计算灰度值作为用于分割的当前阈值(步骤425)；分割搜索区域(步骤430)；计算结合区域(步骤435)；确定结合区域的尺寸(步骤440)；以及比较确定的尺寸与预期尺寸(步骤445)。完成步骤445后，如果发现至少两个眼睛，迭代将在步骤450终止。在所有其他情况下，将执行另一个迭代步骤。在优选实施例中，不论比较步骤中已发现的眼睛的数量是多少，迭代步骤的次数限制为4，以便在第四个迭代步骤后，迭代将终止，因此仅提供目前已发现的眼睛。在每个迭代步骤中，首先确定灰度值，其然后用作随后的分割的阈值。考虑到眼睛距提供图像数据的图像传感器的距离、步骤425得到的最小灰度值以及当前迭代步骤，借助公知方法确定当前阈值。在每个迭代步骤中，进一步调整阈值以使随后的分割中，借助于阈值，将图像数据中更多区域列为可能包含眼睛的区域。

根据上述实施例的眼睛跟踪过程结束于提供了可跟踪眼睛的步骤455。

可以使用一些公知的如上所述的分割方法。在优选实施例中，二进位图像法作为图像处理函数。如上所述，如果像素的灰度值低于阈值，像素的值为0，如果它们的灰度值高于阈值，像素的值为1，反之亦然。

二进位图像法后，如上所述计算结合区域。上述的8-像素结合区域是优选的结合区域类型。然后，确定每个结合区域的尺寸。然后，将该确定的尺寸与眼睛部分，例如这里优选为眼瞳的预期尺寸进行比较。如果预期尺寸与确定尺寸大致相同，就认为找到一只眼睛。对每个计算的结合区域都执行比较。将所有结合区域的尺寸与眼睛部分的预期尺寸都进行比较后，就会确定在该迭代步骤中发现了多少只眼睛。如果发现至少两只眼睛，将终止对当前图像数据中的眼睛的跟踪。然后，利用已发现的眼睛，根据图1的程序继续执行步骤135。

有利的是，当例如已执行了4个迭代步骤时，迭代也将终止。根据可用的计算资源，如果仍没有发现至少两只眼睛，迭代或者也可以在较少或更多的迭代步骤后终止。

根据步骤125中使用的计算算法以及所产生的参数计算迭代步骤中用于分割的阈值，最好如下执行计算：

阈值＝最小亮度值+初始值+迭代值+(最大距离-距离)/100

其中迭代值是范围从0到X，步长为1的值，其表示已执行的迭代步骤的次数。迭代步骤的最大次数X可以通过对上述测量中得到的值进行优化来确定。这里描述的实施例中，迭代的最大次数为4。

在第二搜索区域中跟踪眼睛时，可能在完成了定义的最大次数的迭代步骤后仍没有发现眼睛。在这种情况下，例如以更大的第二搜索区域重复跟踪眼睛的步骤，或重新执行发现眼睛的步骤。

根据一实施例，当定义第二搜索区域时，假定如果双眼的三维坐标从在一个图像中发现到在随后图像中跟踪没有或仅微小改变，则随后图像之后的图像中双眼的三维坐标将再次(几乎)相同。相反，如果跟踪的双眼的三维坐标经过一些图像已经与发现眼睛时的初始三维坐标相差很远，可以借助上述由移动定义的移动向量以及使用例如卡尔曼滤波器的公知方法得到的移动速度来总体上预测三维坐标继而预测下一帧图像的第二搜索区域。

现参考图6来说明本方法的其他优选实施例。图6所示的程序详细说明了图1步骤135中分配眼睛以形成一双眼睛的操作。在发现以及跟踪眼睛步骤中检测到的眼睛分配形成双眼。首先，在步骤610中，如上所述确定那些检测到的眼睛的三维坐标。在优选实施例中，通过使用分类法分配眼睛以形成双眼。分类法是将对象分组到类的方法和准则。可以使用现有技术中公知的分类器，只要它们适用于分配图像数据中对象。在优选实施例中，分类器为支持向量机。支持向量机将一组对象划分为类，使得类界被尽可能宽的自由范围的对象所围绕。作为该划分的前提，支持向量机由待区分组的训练对象教示。在优选实施例中，示出各种眼睛的第一套图像和示出了各种没有眼睛的第二套图像在步骤615中形成。通常在程序执行之前形成这些图像，但也可以在分配眼睛以形成双眼的步骤执行前立即形成。在步骤620中，用这两套图像教示支持向量机，以使图像数据中眼睛的分类成为可能。然后，已发现或跟踪的眼睛通过与支持向量机625的图案比较进行比较，如果它们表现出与这些类一定程度的一致，将它们添加到眼睛的一类或是没有眼睛的一类。可以将分类的结果再提供给支持向量机作为训练对象。然后，支持向量机分配已添加到眼睛一类的眼睛以形成双眼。根据上述的实施例的分配眼睛以形成双眼终止于提供配好的双眼的步骤635。

现参考图7说明用于实时发现和随后跟踪双眼的三维坐标的装置的优选实施例。附图示出了平行设置(例如两个都安装在一个共同的托架结构上)的两个图像传感器710，用于每个图像传感器的主动照明器件715，用于将每个图像传感器的图像数据传输至执行根据本发明方法的中央控制计算机725的器件720。在优选实施例中，设计图像传感器710与照明器件715配合，以使它们记录表示“暗瞳孔效果”的图像数据。对于特定的检测范围，图像传感器安装非自动对焦光学***，以保证使用的图像传感器能够提供足够清晰的图像数据。有利的是，可以使用例如覆盖了0.5m到3.5m或更大的检测范围、或覆盖了0.5m到1.5m的小范围，和/或1.8m和3.0m检测范围的图像传感器。根据实施例，可以只包括一个光源的主动照明器件715优选设计为发出波长约为850nm的脉冲红外光。通过要被发现以及被跟踪对象相对于图像传感器的空间位置来确定与图像传感器相关的主动照明的设置。控制计算机725通过用于传输每个图像传感器的图像数据的器件720控制图像传感器对图像数据的记录，主动照明也通过这些传输器件打开和关闭。根据一实施例，用于传输每个图像传感器的图像数据的器件720以单个串行接口的形式实现。

在另一优选实施例中，例如以时钟脉冲发生器的形式来实现对图像传感器和主动照明的同步控制。图像传感器记录的图像通过传输器件720传输至中央控制计算机725。目前市面上可得的控制计算机725的硬件组件允许以每秒25帧或更多图像的检测和跟踪频率执行根据本发明的用于发现和跟踪多达4个观察者的方法。使用紧凑的硬件组件，这样它们例如可以集成在监视器的外壳上。可以通过另一个接口(未示出)传输控制计算机725发现和跟踪的眼睛以作他用。在优选的实施例中，用于传输图像数据的器件720以及另外的接口都以串行接口的形式实现。在优选实施例中，装置设置为实时执行该方法，也就是在对应于当前接收的图像数据的每个图像中发现和跟踪眼睛。

优选地，以控制计算机例如控制计算机725的可执行计算机程序的形式进一步实现根据本发明的方法。现将参考图8说明计算机程序形式的优选实施例。图8所示的实施例描述了根据面向对象模式的计算机程序一个程序草图，草图能使本领域的技术人员在一个适当的开发环境中以面向对象方式实施计算机程序。

以下介绍的对象和实例部分地实现了多个上述流程步骤，或在对象和实例中将它们结合。因此，这些对象和实例以及其中执行的流程步骤的名称与上述流程步骤不同；然而，这并不意味着进程是不同的。以下说明的实施例应仅解释为根据本发明的方法的面向对象的一种可能的物理形式。

控制主实例810作为一个主循环并因此作为以下详细说明的用于控制进程步骤或进程组的控制实例。主实例810中表示并执行以下流程步骤：

-采集图像数据；

-调用跟踪实例820；

-对于所有作为有效眼睛位置检测的眼睛位置，通过跟踪实例820计算眼睛的三维坐标；

-用限制三维坐标在允许范围内的方法进行过滤，根据另外的实施例，过滤步骤包括噪声过滤和基于脸部三维运动速度预计算或预测三维位置，以补偿***的延迟。有利的是，预测60ms的三维位置，因为这是通常的***延迟。***延迟在此是指从接收图像数据到输出双眼三维坐标经过的时间；

-通过输出接口870传输产生的三维坐标以便能够对结果进行进一步相应处理。

输入信息包括以一个或多个图像传感器提供的数字视频信号序列的形式获得的图像数据。输出信息包括所有双眼的三维坐标。

实施多个情境实例840-1，…，840-n以表现用于协调和管理脸部检测115，眼睛检测125以及眼睛跟踪130的相互影响的管理架构。为每个情境程序840分配一个脸部检测实例850以发现脸部115，以及一个眼睛检测实例860以在脸部检测实例850确定的相应眼睛搜索区域中发现眼睛125。因此，眼睛检测实例860发现的眼睛属于脸部检测实例850发现的脸部。如果没有分配至对象，情境840定义为未占用，因此对于跟踪新的对象是可用的。

情境实例840的主要流程步骤包括：

-对每个对象各管理一个脸部检测850和眼部检测860的实例；

-在一个对象处于允许的检测和跟踪范围时，调用这两个实例850，860到该对象；

-情境840的可控分配和管理，如果处于检测和跟踪范围中的对象少于情境840可用，则情境840可以保持为未占用，并且如果占用了所有情境840，就不能再发现和跟踪更多的对象。

此外，由跟踪实例820协调和管理情境840内的各脸部检测和眼部检测实例850，860的相互影响。跟踪实例820的主要流程步骤包括：

-初始化脸部检测850和眼睛检测860的两个检测对象；

-管理情境实例840-1，…840-n；

-接收来自脸部检测850的脸部坐标以及传送至脸部处理实例830；

-分配新发现脸部到未占用的情境840；

-为每个已占用情境840的脸部和眼睛检测850，860调用算法；

-计算所有双眼的三维坐标；

输入信息包括图像数据，输出信息包括所有双眼的三维坐标。

跟踪实例820的特殊步骤包括：

-检查输入接口880是否有新的脸部坐标正在处理，并且读取这些数据以及将它们添加至当前脸部位置的列表；

-如果至少一个情境840可用，调用脸部处理实例830；

-无论在情境840中脸部是否已被跟踪，检查处理实例830的备选脸部，并且清除被发现是多余的备选脸部；

-将识别为新脸部的剩余脸部分配至未占用情境840的脸部检测850；

-用以下步骤迭代所有情境840-1，…，840-n：

о调用脸部检测850；

о如果脸部检测850正在跟踪脸部，调用眼睛检测860；否则，标记当前情境840为未占用；

о如果眼睛检测860处于搜索模式，并且如果确定了备选眼睛，那么：

■使用脸部检测850选择最佳备选眼睛；

■转换眼睛检测860至跟踪模式；

о处理下一个被占用的情境840，直到处理完所有情境840。

脸部检测850接收的脸部坐标由脸部处理实例830进行分析，脸部处理实例830基于这些坐标编辑识别为有效脸部的备选脸部列表。

该脸部处理实例830的步骤包括：

-管理脸部检测850发现的脸部；

-基于脸部检测850发现的脸部，编辑识别为有效脸部的备选脸部列表；

-基于立体图像中的不一致计算脸部距提供图像数据的图像传感器的距离。

输入信息包括图像数据和用于脸部搜索的搜索区域，输出信息包括已发现的脸部和它们的坐标的列表。

作为特殊函数，脸部处理实例830包括以下步骤：

-如果当前脸部位置列表已经改变，那么：

о分析该列表；

о通过立体分析计算有效脸部距提供图像数据的图像传感器的距离并且将位于检测和跟踪范围内的脸部添加至备选脸部列表。

相应的脸部检测程序850管理要跟踪的脸部。

从脸部处理实例830的脸部列表中分配一个脸部给脸部检测850。跟踪脸部直到它移出检测和跟踪范围。脸部检测程序850的步骤包括：

-管理已发现脸部的位置；

-计算用于眼睛检测860的搜索区域；

-从相应的眼睛检测860的可能的备选双眼列表中决定最好的双眼。

输入信息包括：

-图像数据；

-关于已发现脸部的信息；

-用于脸部跟踪850的搜索区域；

-备选双眼的列表；

输出信息包括：

-已发现的脸部和它们的坐标的列表；

-用于眼睛检测860的搜索区域；

-已选择的双眼。

作为特殊函数，该脸部检测实例850包括以下步骤：

-如果当前脸部位置的列表已经变化，那么：

о更新脸部位置；

о重设已发现/丢失的参考计数器；该参考计算器用于计量在多少随后图像中再也没有检测到已发现脸部；

-否则，如果列表保持不变，那么：

о如果眼睛检测跟踪眼睛，那么：

■基于眼睛位置计算脸部位置；

■计算脸部/眼睛的距离；

о否则：

■脸部丢失并且已发现/丢失参考计数器增值。然而，脸部仍然计为已发现脸部；

■只要已发现/丢失参考计数器不超过特定的预设值，将继续存储之前的脸部位置；否则，脸部被视为不再存在。

使用眼睛检测实例860来执行眼睛检测和跟踪，其在搜索模式下在定义的搜索区域检测眼睛，或在跟踪模式下跟踪已发现眼睛。因此，基于评定标准，可以确定可能的双眼并编辑备选列表。

眼睛检测实例860的步骤包括：

-管理已发现双眼的位置；

-初始化眼睛搜索；

-计算用于跟踪的搜索区域；

-跟踪眼睛位置；

-确定已发现的备选眼睛的置信度并且编辑预期备选；

输入信息包括：

-图像数据；

-用于眼睛搜索和跟踪的搜索区域；

-关于已发现的脸部的信息；

输出信息包括：

-双眼以及它们的坐标。

该眼睛检测实例860的特殊函数包括以下步骤：

-如果眼睛检测860处于搜索模式，那么：

о通过脸部检测850确定眼睛搜索区域；

о使用在眼睛搜索区域内检测眼睛的算法；

-否则，如果眼睛检测860处于跟踪模式，那么：

о基于眼睛速度计算并预测或推断搜索区域的新位置以及它的尺寸，该速度借助于之前的眼睛位置以及观察者距提供图像数据的图像传感器的距离确定；

о使用在搜索区域内跟踪眼睛的算法；

-如果发现备选，那么：

о进行各种测试以确定预期的备选双眼。测试以及标准包括：

■相互关联以及与脸部位置相关的眼睛的位置；

■眼睛间距和倾角；

■基于亮度图案分类在已发现位置和周围位置区域中设置置信度，以后将使用具有较好置信度的周围位置提高位置的精确度；

о基于产生的评价标准编辑备选列表；

-如果眼睛检测860处于跟踪模式，那么：

о如果确定了备选，那么：

■选择最接近预期眼睛位置的备选双眼；

■更新当前眼睛位置作为新的结果；

о否则，如果没有找到备选或没有找到合适的备选，那么：

■转换眼睛检测860至搜索模式并且重复搜索。

如上所述，上述的本发明的实施例借助于合适的硬件和软件实现，例如数字信号处理装置(DSP)和/或可编程数字集成电路(FPGA)以及适当的***设备和控制程序，该控制程序在控制计算机上方便地执行，例如合适的个人电脑。

根据一实施例，所称的计算机程序作为软件部分存储或执行，例如以源代码形式存储在ROM中，或者作为硬件部分，例如作为ASIC或FPGA中的逻辑电路。如果计算机程序例如存储为控制计算机内存中的软件部分，在根据包括例如用于执行软件部分的快速数字信号处理器(DSP)的实施例的操作过程中由控制计算机执行。

根据实施例，数据载体是机器可读的数据载体，例如存储了计算机程序的CD-ROM或ROM。

Claims

1.用于发现进而跟踪至少一个脸部的双眼的三维坐标的方法，包括以下步骤：

a)接收包括来自至少一个图像传感器的至少一个数字视频信号的序列的图像数据；

b)在图像数据中发现或跟踪已发现的眼睛；

c)确定发现或跟踪的眼睛的三维坐标；

d)分配发现或跟踪的眼睛以形成双眼；以及

e)输出双眼的三维坐标；

其中，在图像数据中发现眼睛的进程包括以下步骤：

f)识别图像数据中的一个或多个脸部；

g)确定至少一个识别的脸部的三维坐标；

h)在识别的脸部定义第一搜索区域；以及

i)在第一搜索区域发现至少一只眼睛；

其中，在图像数据中跟踪已发现的眼睛的进程包括以下步骤：

j)在识别的脸部定义第二搜索区域；以及

k)在第二搜索区域跟踪双眼的眼睛；

其特征在于，在第一搜索区域中发现至少一只眼睛的进程包括以下步骤：

l)根据识别的脸部距提供图像数据的图像传感器的距离计算眼睛部分的预期尺寸；

m)根据识别的脸部距提供图像数据的图像传感器的距离计算灰度值作为第一搜索区域分割的阈值；

n)预处理第一搜索区域以提高对比度；

o)预处理后分割第一搜索区域；

p)计算已分割的第一搜索区域中的一个或多个结合区域，结合区域是灰度值至少近似相等的相邻像素的集合；

q)确定每个已计算的结合区域的尺寸；以及

r)将眼睛部分的预期尺寸与已确定的结合区域的尺寸相比较，如果已确定的结合区域的尺寸至少与眼睛部分的预期尺寸大致相符，则结合区域代表发现的眼睛。

2.根据权利要求1所述的方法，其特征在于，在第二搜索区域跟踪双眼的眼睛的进程包括以下步骤：

s)根据已识别的脸部距提供图像数据的图像传感器的距离计算眼睛部分的预期尺寸；

t)确定第二搜索区域中的最小灰度值；

u)迭代灰度值作为第二搜索区域的阈值，当检测到至少两个眼睛时迭代终止，包括以下步骤：

v)根据已识别的脸部距提供图像数据的图像传感器的距离，从当前迭代步骤以及最小灰度值计算灰度值作为分割第二搜索区域的阈值；

w)分割第二搜索区域；

x)计算已分割的第二搜索区域中的一个或多个结合区域，结合区域是灰度值至少近似相等的相邻像素的集合；

y)确定每个已计算的结合区域的尺寸；

z)将眼睛部分的预期尺寸与确定的结合区域的尺寸相比较，如果已确定的结合区域的尺寸至少与眼睛部分的预期尺寸大致相符，则结合区域代表跟踪的眼睛。

3.根据上述权利要求中的一个所述的方法，其特征在于，分割是每个像素的二进位图像化，当像素低于阈值时，它们的值为1，当像素高于阈值时，它们的值为0，或者相反，当像素低于阈值时，它们的值为0，当像素高于阈值时，它们的值为1。

4.根据上述权利要求中的一个所述的方法，其特征在于，步骤n)中的预处理是灰度值直方图均衡化。

5.根据上述权利要求中的一个所述的方法，其特征在于，结合区域是8-像素结合区域。

6.根据上述权利要求中的一个所述的方法，其特征在于，眼睛部分包括瞳孔，或瞳孔和虹膜。

7.根据上述权利要求中的一个所述的方法，其特征在于，分配发现或跟踪的眼睛以形成双眼包括分类。

8.根据权利要求7所述的方法，其特征在于由支持向量机执行分类。

9.根据权利要求8所述的方法，其特征在于，支持向量机由一个或多个眼睛和/或无眼睛图像教示。

10.根据上述权利要求中的一个所述的方法，其特征在于，识别图像数据中一个或多个脸部包括将识别的脸部的三维坐标与之前步骤已识别的脸部的三维坐标进行比较。

11.根据上述权利要求中的一个所述的方法，其特征在于，确定脸部的三维坐标包括对图像数据的立体分析。

12.根据上述权利要求中的一个所述的方法，其特征在于，识别脸部距提供图像数据的图像传感器的距离包括基于脸部三维坐标计算脸部的距离。

13.根据上述权利要求中的一个所述的方法，其特征在于，在记录图像数据过程中，用红外光主动照明脸部。

14.根据上述权利要求中的一个所述的方法，其特征在于，该方法发现和跟踪距离图像传感器约0.5m到3.5m的双眼。

15.根据上述权利要求中的一个所述的方法，其特征在于，第一搜索区域的尺寸大于第二搜索区域的尺寸。

16.根据上述权利要求中的一个所述的方法，其特征在于，第一搜索区域的尺寸约为50mm×50mm。

17.根据上述权利要求中的一个所述的方法，其特征在于，第二搜索区域的尺寸约为20mm×15mm。

18.根据上述权利要求中的一个所述的方法，其特征在于，该方法实时执行。

19.一种计算机程序，如果其在计算机上运行，控制执行与根据上述权利要求中的一个所述的方法相同的方法。

20.一种数据载体，根据权利要求19所述的计算机程序存储在该数据载体上。

21.用于发现并进而跟踪至少一个脸部的双眼的三维坐标的装置，所述装置设计成能够执行根据权利要求1-18中的一个所述的方法。