CN106796449A

CN106796449A - 视线追踪方法及装置

Info

Publication number: CN106796449A
Application number: CN201580044543.6A
Authority: CN
Inventors: 张晓明; 彭勤牧
Original assignee: Hong Kong Baptist University HKBU
Current assignee: Hong Kong Baptist University HKBU
Priority date: 2014-09-02
Filing date: 2015-07-20
Publication date: 2017-05-31
Anticipated expiration: 2035-07-20
Also published as: US9563805B2; CN106796449B; US20160063303A1; WO2016034021A1

Abstract

一种涉及视线追踪***的方法和装置的发明。特别地，本发明还涉及在通常环境下利用通用摄像机的视线追踪***的方法和装置，以低成本和操作简单为特点。本发明还涉及一种精确视线追踪***的方法和装置，能容许大的光照变化。

Description

视线追踪方法及装置

技术领域

本发明涉及一种视线追踪***的方法和装置。特别地但非排他地，本发明还涉及在通常环境下利用通用摄像机的视线追踪***的方法和装置。本发明还涉及一种精确视线追踪***的方法和装置，其能容许大的光照变化。

背景技术

在人机互动、虚拟现实、眼疾诊断等领域，视线追踪有着吸引人的潜在应用前景。例如，它可帮助残疾人有效控制计算机。并且，它可以使普通用户用眼睛控制鼠标，令他们能在诸如水果忍者的游戏中加速焦点的选择。并且，用户视线和面部信息的整合能提高现有门禁控制***的安全性。最近，视线追踪还被认知科学家们广泛用于研究人类认知、记忆等。根据这一路线，视线追踪与视觉显著性检测密切相关，该技术揭示了一个人的注意力的焦点。

发明内容

本发明的实施例之一提供了一种视线追踪***的方法和装置。特别地，本发明涉及在通常环境下利用通用摄像机的视线追踪***的方法和装置，具有低成本和操作简单的特点。本发明还涉及一种精确视线追踪***的方法和装置，其能容许大的光照变化。

在本发明第一方面的第一实施例中，提供了一种视线追踪方法，其利用至少一台图像捕捉装置和至少一台计算处理器来实现、包括一种探测至少一个眼睛虹膜中心和至少一个眼角的方法，以及一种用于头部姿势估计的加权自适应算法(weighted adaptivealgorithm)。

在本发明第一方面的第二实施例中，提供了一种视线追踪方法，进一步包含：

一种探测和提取操作，从至少一幅捕捉图像中探测并提取至少一个眼部区域，且探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角，从而形成至少一个眼矢量；

一种映射操作，其为至少一个眼矢量和在至少一个视线目标上的至少一个视线点之间的关系提供一个或多个参数。

一种估计操作，其估计和结合映射于头部姿势估计的至少一个视线点，以得到期待的视线点，其中实现视线追踪。

在本发明第一方面的第三实施例中，提供了一种视线追踪方法，其中，从至少一幅捕捉图像中探测并提取至少一个眼部区域的探测和提取操作进一步包含：

一种局部敏感直方图方法，以应对至少一幅捕捉图像在光照上的差别；

一种主动形状模型，从经处理的至少一幅捕捉图像中提取面部特征。

在本发明第一方面的第四实施例中，提供了一种视线追踪方法，其中的用于从至少一幅捕捉图像中探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角的探测和提取操作进一步包含：

一种眼睛虹膜中心探测方法，该方法将至少一个眼部区域的强度能量和边界强度相结合以定位至少一个眼睛虹膜中心；

一种眼角探测方法，进一步包含基于曲率尺度空间和模板匹配复检方法的多尺度眼角探测器。

在本发明第一方面的第五实施例中，提供了一种视线追踪方法，其中的至少一个眼矢量用虹膜中心p_iris和眼角p_corner通过如下关系式定义：

Gaze_vector＝p_corner-p_iris。

在本发明第一方面的第六实施例中，提供了一种视线追踪方法，其中的头部姿势估计进一步包含一种嵌入到POSIT(AWPOSIT)算法中的自适应加权面部特征。

在本发明第一方面的第七实施例中，提供了一种视线追踪方法，其中的AWPOSIT算法在算法1中实现。

在本发明第一方面的第八实施例中，提供了一种视线追踪方法，其中该方法在算法2中实现。

在本发明第二方面的第一实施例中，提供了一种视线追踪装置，该装置在软件计算机逻辑中实现本发明第一方面所述的方法。

在本发明第二方面的第二实施例中，提供了一种视线追踪装置，其中的软件计算机逻辑在跨越一个或多个通信网络的一个或多个计算平台上执行。

在本发明第三方面的第一实施例中，提供了一种视线追踪装置，该装置在硬件逻辑中实现本发明第一方面所述的方法。

在本发明第三方面的第二实施例中，提供了一种视线追踪装置，其中的硬件逻辑在跨越一个或多个通信网络的一个或多个计算平台上执行。

在本发明进一步的实施例中，该方法在一个或多个硬件平台上可执行的软件中实现。

按照本发明的第四方面，提供了一种视线追踪方法，利用至少一台图像捕捉装置和至少一台计算处理器实施，该方法包括如下步骤：

探测与用户的至少一个眼睛虹膜中心以及至少一个眼角相关联的用户的虹膜和眼角位置，从而确定一个与用户的视线方向相关联的眼矢量；以及-处理眼矢量，应用于为用户头部姿势造模的头部姿势估计模型，从而设计出一种或多种最终的用户视线点。

在第四方面的第一个实施例中，探测用户虹膜和眼角位置的步骤包括如下步骤：-从用户的至少一幅捕捉图像中探测并提取至少一个眼部区域；且-从至少一个眼部区域探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角，从而确定至少一个眼矢量。

在第四方面的第二个实施例中，该方法进一步包括如下步骤：通过将至少一个眼矢量映射到至少一个视线目标确定至少一个用户初始视线点，将其应用于头部姿势估计模型。

在第四方面的第三个实施例中，用头部姿势估计模型处理该眼矢量的步骤包括：将用户的至少一个初始视线点应用于头部姿势估计模型以设计出用户的至少一个相应的最终用户视线点的步骤。

在第四方面的第四个实施例中，从至少一幅捕捉图像中探测并提取至少一个眼部区域的步骤进一步包括如下步骤：-利用一种局部敏感直方图方法，以应对至少一幅捕捉图像在光照上的差别；以及-利用一种主动形状模型，以从经处理的至少一幅捕捉图像中提取面部特征。

在第四方面的第五个实施例中，从至少一幅捕捉图像中探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角的步骤中进一步包含如下步骤：-利用一种眼睛虹膜中心探测方法，该方法将至少一个眼部区域的强度能量和边界强度相结合以定位至少一个眼睛虹膜中心；以及-利用一种眼角探测方法，该方法具有基于曲率尺度空间和模板匹配复检方法的多尺度眼角探测器。

在第四方面的第六个实施例中，至少一个眼矢量通过虹膜中心p_iris和眼角p_corner通过如下关系式定义：

Gaze_vector＝p_corner-p_iris。

在第四方面的第七个实施例中，头部位置估计进一步包含一种嵌入到POSIT(AWPOSIT)算法中的自适应加权面部特征(adaptive weighted facial features)。

在第四方面的第八实施例中，AWPOSIT算法在算法1中实现。

在第四方面的第九实施例中，该方法在算法2中实现。

在第四方面的第十实施例中，探测至少一个眼睛虹膜中心以及至少一个眼角的方法，以及头部姿势估计的加权自适应算法利用计算机软件实现。

在第四方面的第十一实施例中，软件计算机逻辑在跨越一个或多个通信网络的一个或多个计算平台上执行。

在第四方面的第十二实施例中，探测至少一个眼睛虹膜中心以及至少一个眼角的方法，以及头部姿势估计的加权自适应算法在硬件逻辑中实现。

在第四方面的第十三实施例中，硬件逻辑在跨越一个或多个通信网络的一个或多个计算平台上执行。

按照本发明的第五方面，提供了一种视线追踪***，具有至少一台图像捕捉装置和至少一台计算处理器，该***包括：

-一种眼睛探测模块，被设置用于探测与用户的至少一个眼睛虹膜中心以及至少一个眼角相关联的用户的虹膜和眼角位置，从而确定与用户的视线方向相关联的眼矢量；以及一个视线追踪处理器，其用于处理眼矢量，以为了用户头部姿势造模的头部姿势估计模型的应用，从而设计出一个或多个最终的用户视线点。

在第五方面的第一个实施例中，眼睛探测模块包括：-一个图像处理器，用于从用户的至少一幅用户的捕捉图像中探测并提取至少一个眼部区域；以及

-一个图像功能块，用于从至少一个眼部区域探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角，从而确定至少一个眼矢量。

在第五方面的第二个实施例中，该方法进一步包括：一个视线目标映射模块，通过将至少一个眼矢量映射到至少一个视线目标，确定应用于头部姿势估计模型的至少一个用户初始视线点。

在第五方面的第三个实施例中，该视线目标映射模块进一步用于：将用户的至少一个初始视线点应用于头部姿势估计模型以设计出至少一个相应的最终用户视线点。

本领域技术人员能理解，除非有特定记载，本发明此处的描述可进行变化和修改。

本发明包括全部上述的变化和修改。单独地或共同地，本发明还包括说明书所涉及或表明的全部步骤和特征，以及任意一种、全体组合或者任意两种或以上步骤或特征的组合。

在本说明书中，除非上下文有相反记载，术语“包含(comprise)”，或其变形如“包含(comprises)”或“包含(comprising)”，理解为包括了记载的要素或要素组合，且不排除任何其他的要素或要素组合。需要注意的是，这样的公开，特别是在权利要求和/或段落中，诸如“包含(comprises)”、“包含(comprised)”、“包含(comprising)”等术语具有美国专利法上的含义；例如，可以表示“包括(includes)”、“包括(included)”、“包括(including)”等等；且诸如“主要含有(consisting essentially of)”或“主要含有(consistsessentially of)”的术语具有其在美国专利法上的含义，例如，它们包括了未明确记载的要素，但排除了现有技术已发现的要素，或者影响发明的基本特征或新颖性特征的要素。

进一步地，在说明书和权利要求书中，除非上下文有相反记载，术语“包括(include)”，或其变形如“包括(includes)”或“包括(including)”，理解为包括了记载的要素或要素组合，且不排除任何其他的要素或要素组合。

在本发明及其应用的详细描述中给出了所有选定术语的其他定义。除非有相反定义，全部使用的术语含义与本领域技术人员的通常理解相同。

本领域技术人员可通过以下描述明确本发明的其他方面和优点。

附图说明

本发明上述的以及其他的目的和特征将通过如下与附图相结合的发明描述更加明确，其中：

图1：显示了(a)在红外线光线下的典型图像；(b)在可见光下的眼睛图像；

图2：显示了所建议方法的程序；

图3：显示了(左栏)：输入框；(右栏)：利用局部敏感直方图的结果；

图4：显示了(左栏)：在灰度图像上的ASM结果；(右栏)：将ASM结果映射到原始图像上并提取眼部区域；

图5：首行显示了不同眼部区域，而底行给出了虹膜中心的探测结果；

图6A：显示了左眼眼角模板；

图6B：显示了右眼眼角模板；

图7：首行显示：眼部区域，底行显示：眼角的探测结果；

图8：显示了受试者被要求看屏幕上的九个位置；

图9：显示3D点p在像面上的透视投影；

图10：显示姿势估计的一个示例；

图11：显示BioID数据组上的结果示例；

图12：显示在波士顿大学头部姿势数据组上的头部运动示例；

图13：显示了视线追踪***的设置，屏幕尺寸为1280×1024；

图14：显示了对不同受试者的平均精确度；

图15：显示了视线点表示为圆点，目标点表示为叉号，x轴和y轴对应屏幕坐标；

图16：显示了对不同受试者的平均精确度；

图17：显示了视线点表示为圆点，目标点表示为叉号，x轴和y轴对应屏幕坐标；并且

图18：显示了面部特征的定位。

具体实施方式

此处描述的任何具体实施例不限制本发明范围。以下实施例仅用于举例。

由于不希望被理论所局限，发明人通过他们对视线追踪的试验、验证及研究发现，过去几十年内已经提出了很多方法。早期视线追踪技术大部分利用如隐形眼镜和电极等侵入性装置，这些装置要求与用户的身体接触。这些方法会不可避免地引起用户稍有不适。而且，已经报道了一些通过如头盔的头戴式装置进行视线追踪的结果。这些技术的侵入性较小，但从实践角度看，仍不便于广泛应用。相反，基于视频的视线追踪技术逐渐成为主流，该方法可提供非侵入性的有效方法，因此更适于日常使用。

可应用的基于视频的视线方法包括两种成像技术：红外成像及与之相对的可视成像。前者需要红外摄像机及红外光源以捕捉红外图像，而后者通常利用高分辨率摄像机以拍摄普通图像。图1表明了它们之间的区别的示例。由于红外成像技术利用不可见的红外光源以得到受控光照和更高对比度的图像，因此它不仅能降低光照条件的影响，还能产生虹膜和瞳孔之间的明显对比(例如明-暗眼睛效应)，以及瞳孔-角膜反射，即著名的瞳孔角膜反射特性(PCCR)。因此，基于红外成像的方法能很好地进行视线追踪。文献记载，大多数基于视频的方法都属于此类。然而，基于红外成像的视线追踪***普遍相当昂贵。另外，该方法还有三个潜在缺点：(1)在其他红外光源干扰下，红外成像***不再可靠；(2)并非所有用户都产生明-暗效应，而这会导致视线追踪的失败；以及(3)目前红外光源在玻璃上的反射仍是棘手问题。

与红外成像方法相比，可视成像方法不需要特定的红外装置和红外光源，因此避免了上述问题。实际上，他们不仅能在通常环境下进行视线追踪，并且对环境中的玻璃和红外光源不敏感。显而易见，从实践角度来看，这项技术具有更吸引人的应用前景。然而，可视成像方法面临更多挑战，因为其在自然环境下工作，而自然光为非受控光，因此通常导致较低对比度的图像。并且，虹膜中心的探测比瞳孔中心的探测更加困难，因为虹膜通常会被上眼睑部分阻挡。

在一个实施例中，本发明的目的是提供一种在通常环境下利用通用摄像机的视线追踪***的方法和装置，具有低成本和操作简单的特点。本发明的进一步目的是提供一种精确视线追踪***的方法和装置，能容许大的光照变化。

此部分或本文件任何其他部分所引用或指明的任何参考文献都不应被理解为承认这些参考文献能作为本申请的现有技术。

本发明的一个实施方案提供一种视线追踪***的方法和装置。特别地，本发明涉及在通常环境下利用通用摄像机的视线追踪***的方法和装置，具有低成本和操作简单的特点。本发明还涉及一种精确视线追踪***的方法和装置，能容许大的光照变化。

在本发明第一方面的第一实施方案中，提供了一种视线追踪方法，利用至少一台图像捕捉装置和至少一台计算处理器实现，该方法包括一种探测至少一个眼睛虹膜中心和至少一个眼角的方法，以及一种头部姿势估计的加权自适应算法。

在本发明第一方面的第二实施方案中，提供了一种视线追踪方法，进一步包含：

一种映射操作，其提供至少一个眼矢量和在至少一个视线目标上的至少一个视线点之间关系的一个或多个参数。

一种估计操作，其估计和结合映射于头部姿势估计的至少一个的视线点，以得到期待的视线点，其中实现视线追踪。

在本发明第一方面的第三实施方案中，提供了一种视线追踪方法，其中，从至少一幅捕捉图像中探测并提取至少一个眼部区域的探测和提取操作进一步包含：

在本发明第一方面的第四实施方案中，提供了一种视线追踪方法，其中的用于从至少一幅捕捉图像中探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角的探测和提取操作进一步包含：

在本发明第一方面的第五实施方案中，提供了一种视线追踪方法，其中的至少一个眼矢量通过虹膜中心p_iris和眼角p_corner通过如下关系式定义：

Gaze_vector＝p_corner-p_iris。

在本发明第一方面的第六实施方案中，提供了一种视线追踪方法，其中的头部姿势估计进一步包含一种嵌入到POSIT(AWPOSIT)算法中的自适应加权面部特征。

在本发明第一方面的第七实施方案中，提供了一种视线追踪方法，其中的AWPOSIT算法在算法1中实现。

在本发明第一方面的第八实施方案中，提供了一种视线追踪方法，其中该方法在算法2中实现。

在本发明第二方面的第一实施方案中，提供了一种视线追踪装置，该装置在软件计算机逻辑中实现本发明第一方面所述的方法。

在本发明第二方面的第二实施方案中，提供了一种视线追踪装置，其中的软件计算机逻辑在跨越一个或多个通信网络的一个或多个计算平台上执行。

在本发明第三方面的第一实施方案中，提供了一种视线追踪装置，该装置在硬件逻辑中实现本发明第一方面所述的方法。

按照本发明的第四方面，具有至少一台图像捕捉装置和至少一台计算处理器的视线追踪***包括：

-一种眼睛探测模块，用于探测与用户的至少一个眼睛虹膜中心以及至少一个眼角相关联的用户的虹膜和眼角位置，从而确定与用户的视线方向相关联的眼矢量；以及一个视线追踪处理器，用于处理眼矢量，以应用于头部姿势估计模型为用户的头部姿势造模，从而设计出用户的一个或多个最终视线点。

在第四方面的第一个实施方案中，眼睛探测模块包括：-一个图像处理器，用于从用户的至少一幅捕捉图像中探测并提取至少一个眼部区域；以及-一个图像功能块，用于从至少一个眼部区域探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角，从而确定至少一个眼矢量。

在第四方面的第二个实施方案中，该方法进一步包括：一个视线目标映射模块，通过将至少一个眼矢量映射到至少一个视线目标，该模块用于确定用户的至少一个初始视线点，应用于头部姿势估计模型。

一个实施例方法

在本发明的一个实施例中，焦点为可视成像，并提供一种在通常环境下利用通用摄像机进行视线追踪的方法，以低成本和操作简单为特点。首先，从面部视频探测并提取眼部区域。然后结合强度能量和边界强度以有效定位虹膜中心并找到眼角。进一步，为了弥补头部运动引起视线误差，采用正弦头部模型(SHM)模拟3D头部形状，并提出一种嵌入到POSIT算法中的自适应加权面部特征(adaptive weighted facial features)(以下简称为AWPOSIT)，从而能很好估计头部姿势。最后通过整合眼矢量和头部运动信息进行视线追踪。实验结果表明与现有技术相比上述方法显示出令人期待的结果。

因此，本发明该实施例的主要贡献包括两方面：

1)该方法容许大的光照改变，鲁棒地提取眼部区域，并且提供了能达到更高精确度的虹膜中心和眼角的探测方法。

2)提出一种新颖的姿势估计的加权自适应算法，能降低姿势估计误差从而提高视线追踪的精确度。

本部分回顾基于可视成像的视线追踪的相关工作，其可被粗略分为两条主线：基于特征的方法和基于外观的方法。基于特征的视线追踪依靠眼部区域的特征提取，例如，虹膜中心和虹膜轮廓，其提供眼睛移动的信息。文献记载了一些按这条主线所完成的工作。例如，Zhu等人，在他们的论文中，J.Zhu and J.Yang,(“亚像素视线追踪”，Fifth IEEEInternational Conference on Automatic Face and Gesture Recognition，2002，第124-129页)从强度图像中进行了特征提取。利用预设的眼角滤镜提取眼角，并利用***的Sobel边缘幅度算子探测眼睛虹膜中心。然后，通过线性映射函数确定视线方向。在该***中，用户被要求保持头部稳定，因为视线方向对头部姿势敏感。另外，Valenti等人的“结合头部姿势和眼睛定位信息进行视线估计”，(R.Valenti,N.Sebe,and T.Gevers，IEEETransactions on Image Processing，第21卷，第2期，第802-815页，2012)计算了眼睛定位，头部姿势，并将其相互结合从而提高视线估计的精确度。进一步，Torricelli等人的“自然头部运动下基于神经的远程视线追踪器”，(D.Torricelli,S.Conforto,M.Schmid,和T.DAlessio，Computer Methods and Programs in Biomedicine，第92卷，第1期，第66-78页，2008)利用虹膜和眼角探测方法得到几何特征，利用广义回归神经网络(GRNN)将该特征映射到屏幕坐标上。通常，***的预估精确度主要依赖于GRNN的输入矢量，如果输入矢量的任何元素出现微小偏差都会使精确度变差。另外，Ince和Kim的I.F.Ince和J.W.Kim,“一种利用低分辨率的网络摄像机图像的2D视线估计***”，(EURASIP Journal on Advances inSignal Processing,第2011年卷，第1期，第1-11页，2011)开发了一种低成本的视线追踪***，其利用了基于形状和强度的可变瞳孔中心探测和运动确定算法。

他们的***可在低分辨率视频序列中进行，但是其精确度对头部姿势敏感。相反，基于外观的视线追踪与基于特征的方法相比，并不明确提取特征，而是利用图像内容信息以估计视线。依这条主线，Sugano等人的Y.Sugano,Y.Matsushita,Y.Sato,and H.Koike在“一种用于非限制性视线估计的增长式学习方法”，(Computer Vision–ECCV 2008,2008，第656-667页)中公开了一种在增长式学习框架内的在线学习算法，该算法用于通过用户在个人电脑显示器上的操作(如鼠标点击)进行视线估计。每次鼠标点击，他们通过鼠标屏幕坐标创造出一个训练样本，作为与特征(例如头部姿势和眼睛图像)相关联的视线标记。因此得到大量样本非常缓慢。为了减少训练成本，Lu等人的F.Lu,T.Okabe,Y.Sugano,andY.Sato,“一种用于基于外观视线估计的免头部姿势方法”，(BMVC,2011，第1-11页)提出了一种分解方案，其包括初始估计和后续弥补。因此、能够利用训练样本可有效进行视线估计。并且，Nguyen等人的B.L.Nguyen,“视线追踪”，(International Conference onComputing and Communication Technologies,2009，第1-4页)利用一种新的训练模型，以检测并追踪眼睛，然后采用经裁剪的眼部图像训练高斯过程函数，用于视线估计。在他们的应用中，训练程序后用户必须在摄像机前稳定他/她的头部位置。相似地，Williams等人的O.Williams,A.Blake,and R.Cipolla,“利用s^3gp的稀疏和半监督视觉映射”，(IEEEInternational Conference on Computer Vision and Pattern Recognition，第1卷，2006年，第230-237页)提出了一种稀疏且半监督的高斯过程模型以推断视线，其简化了收集训练数据的过程。但是，很多未标记样本仍被利用。进一步，H.-C.Lu,G.-L.Fang,C.Wang,and Y.-W.Chen,“一种利用局部模式模型和支持向量回归因子的视线追踪新方法”，(Signal Processing，第90卷，第4期，第1290-1299页，2010)提出了一种基于局部模式模型(LPM)和支持向量回归因子(SVR)的视线追踪***。该***利用LPM从眼部区域提取材质特征，并提供空间坐标给支持向量回归因子(SVR)从而获得视线映射功能。相反，Lu等人的Lu,Y.Sugano,T.Okabe,and Y.Sato,“通过自适应线性回归从外观推断人类视线”(IEEEInternational Conference on Computer Vision(ICCV),2011，第153-160页)引入了一种自适应线性回归模型，以利用少量训练样本从眼睛外观推断视线。

总之，基于外观的方法能免于精心设计代表视线的视觉特征。它利用整个眼部图像作为高维输入，通过分类器预测视线。分类器的建立需要大量训练样本，该样本由受试者在不同条件下看向屏幕不同位置的眼部图像组成。这些技术通常对图像分辨率要求较少，但主要缺点是对头部运动和光线变化以及训练型号敏感。相反，基于特征的方法能够提取显著的视觉特征以代表视线，即使在轻微的光照变化下也能表现出可接受的视线精确度，但无法容许头部运动。在R.Valenti,N.Sebe,and T.Gevers,的工作中，“结合头部姿势和眼睛定位信息进行视线估计”(IEEE Transactions on Image Processing,第21卷，第2期，第802–815页,2012)以及D.Torricelli,S.Conforto,M.Schmid,and T.DAlessio,“自然头部运动下基于神经的远程视线追踪器”(Computer Methods and Programs in Biomedicine,第92卷,第1期,第66–78页,2008)通过将头部运动纳入考虑以估计视线，从而弥补头部运动时的视线变化。

在本发明的一个实施方案中，为了利用通用摄像机在通常环境下进行视线追踪，运用了一种基于特征的新方法来实现。在面部图像中，最明显的视线特征是虹膜中心和眼角。当用户看向屏幕上的不同位置时，眼球在眼眶中运动。眼角可被看作一个参照点，而眼球中虹膜中心的位置变动指示了视线。因此，通过眼角和虹膜中心形成的视线矢量包含了视线方向的信息，可用于视线追踪。但是，视线矢量可能也对头部运动敏感，当头部运动时产生视线偏差。因此，应估计头部姿势以弥补头部运动。上述方法的程序在图2中阐明。在阶段1，提取包含所有眼部运动信息的眼部区域。继而探测虹膜中心和眼角以形成眼矢量。产生一组眼矢量后，利用阶段2得到映射函数的参数，以描述眼矢量和屏幕上的视线点之间的关系。在阶段1和阶段2中，还涉及一个校准程序，以计算从眼矢量到显示器屏幕坐标的映射过程。当校准阶段完成后，进入阶段3，即完成头部姿势估计和视线点映射，而阶段1和阶段2仅提供数据性的视线点。最终，将眼矢量和头部姿势信息结合以得到视线点。

A.眼部区域探测

为得到眼矢量，首先应定位眼部区域。当受到非受控光线和自由头部运动的干扰时，传统的面部探测方法不能提供眼部区域的精确信息。因此，要求一种能处理光照和姿势问题的有效方法。这里公开了一种精确探测眼部区域的两步方法。

在第一阶段，利用局部敏感直方图应对不同的光线。与正常的强度直方图相比，局部敏感直方图嵌入了空间信息，并根据距计算直方图的像素位置的距离指数地下降。表3显示了一个局部敏感直方图的应用实例，其中三幅不同光照的图像通过局部敏感直方图被转化成具有一致光照的图像。

在第二阶段，采用主动形状模型(ASM)在灰度图像上提取面部特征，通过该操作可有效消除光照变化。这里给出了利用ASM提取面部特征的细节信息。

(1)选择特征：选择明显特征，将每一个表示为(x_i,y_i)，所以其可表达为一个矢量x，例如x＝(x₁,···x_n,y₁,···,y_n)^T。

(2)数据形状模型：通过一组标志点n描述一个面部形状。排列一组标志点(训练图像)从而分析以及合成训练组中的新形状。利用PCA方法：

其中是平均形状，P含有对应于最大特征值的特征矢量端值t。b_i是受限于的形状参数，目的在于生成合理形状。

(3)拟合：通过转换因子T,旋转因子θ和缩放因子s，使模型形状拟合新输入的形状，其为：

其中y是含有面部特征的矢量。因此，可以从面部特征精确提取眼部区域。图4显示了一个示例，其中在不同光照和头部姿势下探测每一框架中的眼部区域，相应地在图4的右顶角阐明。

B.探测眼部特征

在眼部区域，虹膜中心和眼角是两个明显特征，从中我们可以估计视线方向。因此下述两方面分别着重于探测虹膜中心和眼角。

1)虹膜中心探测：一旦从之前步骤提取了眼部区域，即可探测眼部区域中的虹膜中心。首先估计虹膜半径。然后，利用强度能量和边界强度信息的组合定位虹膜中心。为了精确估计半径，利用L₀梯度最小化方法让眼部区域平滑，这能消除噪音像素并同时保留边缘。继而，通过颜色强度得到虹膜中心的粗略估计。然后，在眼部区域应用坎尼边缘检测器(Canny edge detector)。可观察到存在一些长度较短的无效边缘。然后使用距离过滤器消除距离粗略虹膜中心过近或过远的无效边缘。进一步，应用随机抽样一致性算法(RANSAC)以估计虹膜的圆圈模型的参数。对虹膜边缘点应用RANSAC算法后可计算出虹膜半径r。

最后，结合强度能量和边缘强度以定位虹膜中心。特别地，强度能量和边缘强度相应地用E₁和E₂表示，具体为：

E₁＝∑(I*S_r) (3)

其中，I是眼部区域，S_r是与虹膜具有同样半径的圆圈窗口。g_x和g_y相应地是像素的水平和垂直梯度。为了探测虹膜中心，应将圆圈窗口的强度能量最小化并将虹膜边缘的边界强度最大化。参数τ是两者间的平衡，其为：

其中(x_c,y_c)是虹膜中心的坐标。积分区间是和因为这样的虹膜边缘范围通常不会与眼睑重合。而虹膜边缘的弧度对应于半径为r的圆圈中弧度的同样范围。通过加和每个位于圆弧的像素的边缘强度进行积分计算。图5说明了虹膜中心探测结果(用箭头指明)，且子图(a)-(c)在同一视频序列。子图(a)为第一框架，其中可利用上述算法精确探测虹膜中心。因此，得到虹膜半径，将其作为随后框架中虹膜探测的已有知识。所以能做出这样的假设：虹膜半径不会随着用户和电脑屏幕间的长距离而变化，从而能很好地探测到子图(b)-(c)中的眼睛图像的虹膜中心。

2)眼角探测：通常，内眼角被视为视线估计的参考点，因为其对面部表情变化和眼睛状态不敏感，并且比外眼角更加明显。所以，应鲁棒并精确地探测内眼角以保证视线方向的精确性。

在一个实施方案中，提出了一种基于曲率尺度空间(CSS)和模板匹配复检方法的多尺度眼角探测器。该程序在上述提到的平滑眼部图像上执行。利用坎尼算子(Cannyoperator)生成边缘地图，然后从边缘地图提取边缘等高线并填补小空白。每个点μ的曲率定义如下：

其中Δx_μ＝(x_μ+l-x_μ-l)/2,Δy_μ＝(y_μ+l-y_μ-l)/2,Δ²x_μ＝(Δx_μ+l-Δx_μ-l)/2,Δ²y_μ＝(Δy_μ+l-Δy_μ-l)/2，且l是一个小步骤。在取决于原始等高线的平均曲率(k_ori)的不同尺度下计算每条等高线曲率。高斯过滤器g＝exp(-x²/σ²)的尺度参数σ设置为σ²＝0.3*k_ori。考虑到将局部最大值作为初始角，其绝对曲率应高于一个阈值，该阈值是临近局部最小值曲率的两倍。然后，当T交接点非常接近其他角时将其去除。并且为每个角计算角度。候选内眼角的角度落在限定范围[120°,250°]内，因为眼角是两条眼睑曲线的交叉点。然后基于该条件筛选真正候选内眼角。然后，使用眼部模板，该模板从眼睛训练图像轮流生成，从而找到最佳匹配角作为内眼角。为构建眼角模板，收集不同年龄的10个男性和10个女性的眼睛图像，从中选择20个内眼块。每个块的尺寸为13×13，每个块的中心对应于人工标记的眼角。如图6所示，内眼模板通过平均20个块建立。

最后，利用模板匹配方法定位具有最佳应答的眼角。利用归一化相关系数可定义该方法：

其中I是眼睛图像，是平均值，T是模板，也是平均值。图7显示了角探测结果(用箭头指明)。

C.眼矢量和校准

发明人保持头部稳定，研究屏幕板上不同位置时，用虹膜中心p_iris和眼角p_corner，例如g＝p_corner-p_iris定义眼矢量。利用映射函数提供视线信息以得到屏幕坐标。校准程序为：给用户呈现一组目标点让其注视，同时记录相应的眼矢量。然后，眼矢量和屏幕上坐标之间的关系由映射函数决定。不同的映射函数可用于屏幕上的视线点，如简单的线性模型，或支持向量回归(SVR)模型，以及多项式模型。实践中，简单线性模型的精确度不够，SVR模型需要充足的校准数据。幸运的是，二阶多项函数代表了校准点和估计值精确度之间的较好平衡。在校准阶段，利用二阶多项函数，要求用户注视图8所示的9个点。计算眼矢量并获知相应的屏幕位置。继而，二阶多项式可作为映射函数应用，通过眼矢量计算屏幕上的视线点，如场景位置。其为，

其中(u_x,u_y)为屏幕位置，且(g_x,g_y)是眼矢量，(a₁,···,a₅)和(b₁,···,b₅)是映射函数的参数，该参数可通过最小二乘法得到。定量计算机屏幕的投影误差后，发现虹膜中心或眼角的一个像素偏差会导致屏幕上约一百个像素偏差。因此，利用映射函数,可在每一框架内有效计算用户的视线点。

D.头部姿势估计

这部分阐释了视频序列中的面部特征追踪和头部姿势估计算法。过去曾开发了不同的头部姿势估计方法，其中大多数要求具有一台立体摄像机，或头部形状的精确3D数据，或头部旋转不大。解决全部这些问题的***通常由于对头部模型的复杂表现或精确初始化无法进行实时工作。通常为了简单化，通过测量头部的实际宽度和半径，将人类头部可被模型化为椭圆体或圆柱体。一些工作利用圆柱头部模型(CHM)估计头部姿势，能实时进行并粗略追踪头部状态。

为了改善头部姿势估计，利用正弦头部模型(SHM)更好模拟3D头部形状，在正弦分布面，2D的面部特征可以和3D位置关联。在每一视频框架追踪2D面部特征时，可利用2D-3D转换方法得到头部姿势信息。比例正交投影迭代变换算法(POSIT)是一种2D-3D转换方法，给出一组2D图像和3D目标点能有效得到3D模型的姿势(旋转和转化)。由于经典的POSIT算法基于一组2D点和3D目标点估计3D模型的姿势时，认为2D点和3D目标点的贡献一致，因此为了更好地进行头部姿势估计，提出了AWPOSIT算法。由于其置信度，2D面部特征在重新构建姿势信息时实际上具有不同的显著性。如果不能精确探测特征，经典POSIT算法估计姿势的总体精确性锐减。相反，所述AWPOSIT在这种情况下更有效，并能利用关键特征信息得到更精确的姿势估计。实施细节如下：

正弦头部模型假设头部形状模拟为三维正弦(如图9所示)而面部近似于正弦分布面。继而，3D正弦的运动是刚体运动，可通过框架F_i.的姿势矩阵M进行参数化。姿势矩阵包括框架i内的旋转矩阵R和转化矩阵T，例如，

其中R为旋转矩阵R∈R^3×3,且T为转化矢量T∈R^3×1，例如M₁到M₄是列向量。因为每个框架的头部姿势根据初始姿势计算，初始框架(标准正面)的旋转和转化矩阵可以设置在0。在初始框架执行ASM模型得到2D面部特征。然后用时间序列框架内的LK光流算法追踪这些特征。由于这些面部特征与正弦分布面模型上的3D点相关，其运动被认为是对头部动作的概括，通过***模型的视觉投影用于建立正弦分布面上的3D点和它们在2D图像平面投影之间的关系。图9显示了正弦分布面上的3D点p＝(x,y,z)^T和它在图像平面上的投影点q＝(u,v)^T之间的关系，其中u和v根据下式计算:

f是摄像机焦距。

如上所述，2D面部特征在重新建立姿势信息上具有不同的显著性。在衡量面部特征重要性时要考虑两个因素：(1)面部特征的鲁棒性，以及(2)3D表面上面部特征的正常方向。第一个因素对于靠近眼睛和鼻子的能被鲁棒探测的特征具有更大权重。将其表示为w_1i，例如，为面部特征i设定一个权重w_1i，该权重根据经验设定，附录部分给出关于权重的更多细节。第二个因素利用面部特征的正常方向衡量其贡献。正常方向可通过之前姿势估计。使单位矢量代表初始正面姿势的正常方向。每个面部点具有其正常矢量且表示面部特征i的显著性。表示特征i的总权重。然后将正常化得到权重W_i，例如

2D面部点表示为P_2D，正弦分布面模型上的3D点表示为P_3D。算法1中给出AWPOSIT算法

在追踪模型中，通过初始正脸的2D面部特征对球形头部动作取值。然后用LK光流追踪这些特征，执行AWPOSIT，得到视频框架中的姿势信息。在AWPOSIT中无法收敛时，停止追踪模式操作并自动进行重新初始化以再次检测2D面部特征，然后回到追踪模式。图10中显示了一个头部姿势估计的例子，其中三维旋转角度(例如俯仰角、偏摆角、翻滚角)可从旋转矩阵R中获得。

当头部姿势算法能够进行，可通过头部运动弥补视线偏差。估计头部姿势并计算头部运动引起的相应位移(Δu_x,Δu_y)。假设头部初始3D坐标表示为(x₀,y₀,z₀)，其在图像平面上的投影位置为(u₀,v₀)。发生头部运动时，头部坐标是(x′,y′,z′)。通过AWPOSIT估计相应的参数R和T。其为：

因此，可通过下式计算位移(Δux,Δu_y)：

根据以上部分，提取眼矢量，采用校准映射函数得到屏幕上的视线点(u_x,u_y)。结合眼矢量的视线方向和头部姿势位移，得到最终视线点，例如：

s_x＝u_x+Δu_x (12)

s_y＝u_y+Δu_y

所述***的实施步骤总结在算法2中。

IV.实验结果

进行实验以评估眼部特征探测和头部姿势估计以及最终视线估计的精确度。在以下部分，描述并讨论了每一部分的细节。

A.眼睛中心探测结果

在眼部特征探测中，眼睛中心探测是一项困难得多的任务。眼睛中心探测的精确度直接影响视线估计。为了评估上述算法的眼睛中心探测的精确度，利用数据组BioID进行检查，该数据组由收集自不同光照和尺度变化下的23个受试者的1,521副灰度图像组成。在一些情况下，眼睛是闭上的或隐藏在眼镜后。数据组提供了眼睛中心的真实值。该数据组难度大并真实，在眼部定位文献中广泛应用。

为测量精确度，O.Jesorsky,K.J.Kirchberg,和R.W.Frischholz，“利用hausdorff距离的鲁棒面部探测”(2001，第90-95页)Jesorsky等人提出的正常化偏差e应用于本发明，例如：

其中d_left和d_right是估计眼睛中心和实际眼睛中心之间的Euclidean距离，d是实际眼睛间的Euclidean距离。

表I

不同方法的表现-BIoID数据组

表I分别地定量显示了正常化偏差小于0.05和0.1时与其他方法比较的结果。可以看出，在虹膜区域精确定位的情况下(例如e≤0.1)，本方法优于其他方法，正常化偏差e≤0.05意味着更加精确的虹膜中心定位，本方法与其他方法相比也达到了更好的精确度。图11显示了BioID数据组中的虹膜中心结果(箭头所示)。本方法可在诸如姿势、照明、尺度改变的不同情况下工作。在闭眼或有眼镜的多数情况下，由于眼睛区域的鲁棒探测，仍可粗略估计虹膜中心。但是，由于ASM不能提取面部特征，大的头部姿势可能会导致一些失败发生。

B.头部姿势估计结果

由于视线由眼矢量和头部运动决定，头部姿势估计用于弥补视线，从而减少视线偏差。波士顿大学提供了一种用于行为估计的头部姿势数据组。总体来说，通过三个旋转角度(例如俯仰角(pitch)、偏摆角(yaw)、翻滚角(roll))的标准误差(RMSE)衡量姿势估计偏差。

表Ⅱ中，通过与其他三种方法比较对姿势估计进行评估。An和Chung在K.H.An andM.J.Chung,“利用简单的椭球模型进行3D头部追踪和姿势-鲁棒2D结构基于映射的面部识别”(IEEE International Conference on Intelligent Robots and Systems,2008，第307–312页中)利用3D椭球模型模拟头部得到姿势信息，Sung等人在J.Sung,T.Kanade,和D.Kim,“结合主动表观模型和圆柱头部模型进行姿势鲁棒面部追踪”(InternationalJournal of Computer Vision,第80卷,第2期,第260–274页,2008)提出结合主动表观模型和圆柱头部模型(CHM)估计姿势。与该工作相似，Valenti等人在R.Valenti,N.Sebe,andT.Gevers,“结合头部姿势和眼睛定位信息以进行视线估计”(IEEE Transactions onImage Processing,第21卷,第2期,第802–815页,2012)提出一种结合了眼部定位提示和CHM以估计姿势的混合方法。在J.Sung,T.Kanade,和D.Kim,“通过结合主动表观模型和圆柱头部模型进行姿势鲁棒面部追踪”(International Journal of Computer Vision,第80卷,第2期,第260–274页,2008)提供了与以下文献相似的结果：R.Valenti,N.Sebe,和T.Gevers,“结合头部姿势和眼睛定位信息进行视线估计”(IEEE Transactions on ImageProcessing,第21卷,第2期,第802–815页,2012)该方法利用正弦头部模型和自适应加权POSIT，得到了更精确的头部姿势。

表II

不同方法的表现-波士顿大学头部姿势数据组

图12(a-c)显示了3个头部运动的追踪示例，分别包括俯仰角、偏摆角、翻滚角的头部旋转。每个姿势追踪示例在一个由200个框架组成的视频序列中进行。图12(d-f)显示了估计头部转动角以及实际值。

C.视线估计

在视线追踪***中，用一个单独摄像机得到图像序列。图13显示了该***的设置。由设置在计算机显示器下方的Logitech网络摄像机组成，受试者和屏幕板之间的距离约为70cm。实验使用的摄像机分辨率(960x 720像素)，硬件配置为Intel Core(TM)i7CPU3.40GHz，在本例中是实施本发明视线追踪***的计算平台。这是实验性设置，本发明的视线追踪还可以在跨越不同软件和硬件的一个平台或跨越一个或多个网络的多个平台上实施。重要的是，本发明要求一个通用的视频捕捉装置用于捕捉被视线追踪的受试者的图像，以及一个用于实施本发明视线追踪方法的处理平台。

在实验中，用两部分评估本发明***的表现，包括无头部运动的视线追踪和有头部运动的视线追踪。前者适用于只能移动眼睛的严重病人，后者可服务于注视屏幕时伴有自然头部运动的普通用户。在非受控光条件下的不同时间进行试验，光线可来自荧光灯，LED或日光。

在定量视线偏差时，使用角度(A_dg)评估视线追踪***的表现。通过下面的等式表达角度：

其中A_d是被估计的视线位置和真实观察位置之间的距离，A_g代表受试者和屏幕板之间的距离。

1)无头部运动的视线追踪：在这部分，进行视线追踪方法，并要求受试者保持头部稳定。实验中使用了12个受试者，包括男性和女性，具有不同照明，其中四人戴眼镜。

受试者被要求注视屏幕上的不同位置。记录估计的视线点，然后根据目标点位置计算角度。图14显示了不同受试者的平均精确度。可以看出，一些用户获得了更高的视线精确度，这可能由不同因素决定，如眼睛特点，头部的轻微运动或甚至是个人态度。表III显示了无头部运动的不同方法的表现。本追踪***的视线偏差约为1.28，与下列工作相比并非最佳精确度：O.Williams,A.Blake,and R.Cipolla,“使用s^3gp的稀疏半监控视觉映射”，(IEEE International Conference on Computer Vision and Pattern Recognition,第1卷,2006,第230–237页)以及F.Lu,Y.Sugano,T.Okabe,和Y.Sato,“通过自适应线性回归从外观推断人类视线”(IEEE International Conference on Computer Vision(ICCV),2011,第153–160页)。但本发明模型对光线改变鲁棒，且不要求视线估计的训练样本。相反Williams’的模型，O.Williams,A.Blake,and R.Cipolla,“使用s^3gp的稀疏半监控视觉映射”，IEEE International Conference on Computer Vision and Pattern Recognition,第1卷,2006,第230–237页，要求91个训练样本，Lu的模型，F.Lu,Y.Sugano,T.Okabe,和Y.Sato,“通过自适应线性回归从外观推断人类视线”(IEEE International Conferenceon Computer Vision(ICCV),2011,第153–160页)要求9个训练样本，这在实际情况下有些许不便。另一方面，由于上述两个工作属于基于外观的方法，他们只能在假设固定头部的情况下进行估计。而Valenti模型，R.Valenti,N.Sebe,and T.Gevers,“结合头部姿势和眼睛定位信息进行视线估计”(IEEE Transactions on Image Processing,第21卷,第2期,第802–815页,2012)以及本发明模型，均对头部姿势鲁棒。而Zhu等人的模型，J.Zhu和J.Yang,“亚像素视线追踪”(Fifth IEEE International Conference on Automatic Face andGesture Recognition,2002,第124–129页)以及Nguyen等人的B.L.Nguyen,“视线追踪”(International Conference on Computing and Communication Technologies,2009,第1–4页)也要求固定的头部条件，因为这些工作都不涉及头部动作。

视线在屏幕上的点显示于图15。总体来说，视线偏差在x方向和y方向是不同的。在多数情况下，y方向的视线偏差大于x方向，因为眼睑遮盖了部分虹膜，导致了y方向精确性的降低。另一个原因是y方向上的眼睛移动范围比x方向上的小。所以更小的y方向上的眼部移动更加难以被探测。

表III

无头部运动时不同方法的表现

2)有头部运动的视线追踪:实践中，应用时保持头部固定对用户来说有些疲劳。一些现有的视线追踪方法在头部运动时产生视线偏差，尽管很轻微。因此，在视线追踪程序中必须纳入头部姿势估计以弥补头部运动。

图16描述了不同受试者的平均精确度，这些受试者被允许在注视屏幕上的点时移动头部。可以看出，有头部运动时比头部稳定时产生更大的视线偏差。更大的偏差主要由于头部姿势估计以及在非正面更难探测眼部特征。值得注意的是，头部运动是限于一个小范围内的，在x和y方向上约是3cm×3cm，在z方向上的改变是2cm。否则，由于结合了如追踪程序等其他因素，视线偏差会快速增长。表IV显示了有头部运动时不同方法的表现。实际上，难以用一个数据组来评估不同模型的表现，但仍尝试在相似条件下对它们进行比较。

本发明追踪***的视线偏差约为2.27。Valenti等人的工作，R.Valenti,N.Sebe,and T.Gevers,“结合头部姿势和眼睛定位信息进行视线估计”(IEEE Transactions onImage Processing,第21卷,第2期,第802–815页,2012)得到介于2-5之间的精确度，且没有提供头部运动范围的信息。进一步，Lu等人的工作，F.Lu,T.Okabe,Y.Sugano,and Y.Sato,“一种用于基于外观视线估计的免头部姿势方法”(BMVC,2011,第1–11页)得到与本发明相比略差的结果。Y.Sugano,Y.Matsushita,Y.Sato和H.Koike,“一种用于非限制性视线估计的增长式学习方法”(Computer Vision–ECCV 2008,2008,第656–667页)其视线精确度即使在使用1000个训练样本后仍然不高，在实际应用中有所不便。相反，本发明的视线***只使用一个单独的通用摄像机来捕捉面部视频，且在正常环境中运行良好。但是，在本发明***中也存在失败案例。一个示例是当视线方向与头部姿势不一致时，例如用户转动头部但注视相反方向。另一个示例是当用户有明显面部表情时，比如笑，这引起面部特征定位的大的偏差，使得屏幕上投影的偏差大于数百像素。然而，通过实验和研究，发明人可以避免这些情况并方便地使用本发明***。

表IV

有头部运动时不同方法的表现

图17显示了屏幕上的视线点。显然，y方向上的视线偏差也大于x方向。并可看出屏幕上的视线偏差是不一致的。相反，向屏幕边缘的视线偏差略微增长。因为当用户注视屏幕边缘点时，眼球向眼眶边缘移动，此时虹膜严重被眼睑覆盖，因此虹膜中心的精确度轻微降低。

V.结论

构建一个在正常环境下基于一个单独通用摄像机的视线追踪模型。本发明实施例新颖性的一个方面在于：利用强度能量和边界强度定位虹膜中心，利用多尺度眼角探测器精确探测眼角。进一步，提出AWPOSIT算法改善头部姿势估计。所以将眼睛中心、眼角形成的眼矢量和头部运动信息结合，使视线估计达到更高的精确度和鲁棒性。与现有对比例比较的实验结果显示出本发明方法的有效性。

附录I

图18显示了68个面部特征的定位。在AWPOSIT算法中，权重矢量w₁对面部特征的不同赋值表明他们不同的重要性。具体地，强特征应该被赋予更大权重，因为他们给姿势估计提供了更可信的信息。这些特征被分为六类，每一类根据他们在实验中的鲁棒性得到不同权重：

(1)面颊点w1(1:15)＝0.011；

(2)眉毛点w1(16:27)＝0.017；

(3)眼睛点w1(28:37)＝0.011；

(4)鼻子点w1(38:48)＝0.026；

(5)嘴点w1(49:67)＝0.011；

(6)鼻尖点w1(68)＝0.03；

工业实用性

本发明涉及一种视线追踪***的方法和装置。具体地，本发明涉及一种在通常环境下利用通用摄像机的视线追踪***的方法和装置，具有低成本和操作简单的特点。本发明还涉及一种精确视线追踪***的方法和装置，能容许大的光照变化。

如果期望的话，这里讨论的不同功能可以按不同顺序和/或同时进行。进一步，如果希望，一种或多种上面描述的功能是可选择或可结合的。

这里描述的实施例可使用通用目的或特定的运算装置、计算机处理器或电子电路完成，其中电子电路包括但不限于数据信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)以及其他按照本发明的教导编程或构建的可编程逻辑装置。基于本发明的教导，软件或电子领域的技术人员可以顺利制造通用目的或特定的运算装置中运行的计算机指令或软件代码、计算机处理器或可编程逻辑装置。

在一些实施方案中，本发明包括存有计算机指令或软件代码的计算机存储介质，可用于程序计算机或微处理器以实现本发明的任何进程。存储介质可以包括但不限于软盘、光盘、蓝光光盘、DVD、CD-ROMs,以及磁光盘、ROMs、RAMs、闪存装置，或任何适用于存储指令、代码和/或数据的媒介或装置。

尽管上述发明通过不同实施例和示例描述，应当理解的是，其他实施例也包含在用下列权利要求和它们的等同形式所表达的本发明的范围内。进一步地，上述具体示例理解为仅是描述性的，而非以任何形式限制本发明。除非进一步描述，任何本领域技术人员可以基于这里的描述以最大范围利用本发明。这里引用的所有公开出版物以参考文献的整体形式引入。

Claims

1.利用至少一台图像捕捉装置以及至少一台计算处理器实施的一种视线追踪方法，包括下述步骤：

-探测与用户的至少一个眼睛虹膜中心和至少一个眼角相关联的用户的虹膜和眼角位置，以确定一个与用户视线方向相关联的眼矢量；并且

-在头部姿势估计模型应用中运行眼矢量，以用于对用户头部姿势造模，从而设计出用户的一个或多个最终视线点。

2.根据权利要求1所述的一种视线追踪方法，其中探测用户虹膜和眼角位置的步骤包括以下步骤：

-从用户的至少一幅捕捉的图像中探测并提取至少一个眼部区域；并且

-从至少一个眼部区域探测并提取至少一个眼睛虹膜中心以及相应的至少一个眼角，以确定至少一个眼矢量。

3.根据权利要求2所述的一种视线追踪方法，进一步包括下述步骤：通过将至少一个眼矢量映射到至少一个视线目标，确定应用于头部姿势估计模型的用户的至少一个初始视线点。

4.根据权利要求3所述的一种视线追踪方法，其中的步骤：用头部姿势估计模型运行眼矢量，包括以下步骤：将用户的至少一个初始视线点应用于头部姿势估计模型，从而设计出至少一个相应的用户最终视线点。

5.根据权利要求2所述的方法，其中从至少一幅捕捉图像中探测并提取至少一个眼部区域的步骤进一步包括：

-利用一种局部敏感直方图方法，以应对至少一幅捕捉图像在照明上的差别；并且

-利用一种主动形状模型，以从经处理的至少一幅捕捉图像中提取面部特征。

6.根据权利要求2所述的方法，其中从至少一幅捕捉图像探测和提取至少一个眼睛虹膜中心和它相应的至少一个眼角的步骤进一步包括以下步骤：

-利用一种眼睛虹膜中心探测方法，该方法将至少一个眼部区域的强度能量和边界强度相结合以定位至少一个眼睛虹膜中心；

-利用一种眼角探测方法，该方法具有一个基于曲率尺度空间和模板匹配复检方法的多尺度眼角探测器。

7.根据权利要求2所述的方法，其中至少一个眼矢量用虹膜中心p_iris和眼角p_corner通过如下关系式定义：

Gaze_vector＝p_corner-p_iris。

8.根据权利要求3所述的方法，其中头部姿势估计进一步包括一种嵌入到POSIT(AWPOSIT)算法的自适应加权面部特征。

9.根据权利要求8所述的方法，其中AWPOSIT算法在算法1中实施。

10.根据权利要求4所述的方法，其中该方法在算法2中实施。

11.一种实施权利要求1所述方法的***，其中用于探测至少一个眼睛虹膜中心和至少一个眼角的方法，以及用于头部姿势估计的加权自适应算法用计算机软件实施。

12.根据权利要求11所述的装置，其中软件计算机逻辑在跨越一个或多个通信网络的一个或多个计算平台上执行。

13.一种实施权利要求3所述方法的装置，其中用于探测至少一个眼睛虹膜中心和至少一个眼角的方法，以及用于头部姿势估计的加权自适应算法在硬件逻辑中实施。

14.根据权利要求13所述的装置，其中硬件逻辑在跨越一个或多个通信网络的一个或多个计算平台上执行。

15.具有至少一台图像捕捉装置和至少一台计算处理器的视线追踪***包括：

-一种眼睛探测模块，用于探测与用户的至少一个眼睛虹膜中心以及至少一个眼角相关联的用户的虹膜和眼角位置，从而确定与用户的视线方向相关联的眼矢量，以及；

-一个视线追踪处理器，用于处理眼矢量，以用于头部姿势估计模型为用户头部姿势造模，从而设计出用户的一个或多个最终视线点。

16.根据权利要求15所述的一种视线追踪***，其中眼睛探测模块包括：

-一个图像处理器，用于从用户的至少一幅捕捉图像中探测并提取至少一个眼部区域；以及

17.根据权利要求16所述的视线追踪***，进一步包括：一个视线目标映射模块，通过将至少一个眼矢量映射到至少一个视线目标，以确定用于头部姿势估计模型的用户的至少一个初始视线点。

18.根据权利要求17所述的视线追踪***，其中视线目标映射模块进一步用于：将用户的至少一个初始视线点应用于头部姿势估计模型以设计出用户的至少一个相应的最终视线点。

19.一种视线追踪方法，利用至少一个图像捕捉装置和至少一个计算处理器实施，包括一种用于探测至少一个眼睛虹膜中心和至少一个眼角的方法，以及一种用于头部姿势估计的加权自适应算法。

20.根据权利要求19所述的方法，进一步包括：

一种探测和提取操作，以从至少一幅捕捉图像中探测并提取至少一个眼部区域，并探测并提取至少一个眼睛虹膜中心及其相应的至少一个眼角，从而形成至少一个眼矢量；

一种映射操作，其提供至少一个眼矢量和在至少一个视线目标上的至少一个视线点之间的关系的一个或多个参数；

一种估计操作，其估计和结合至少一个映射于头部姿势估计的视线点，以得到期待的视线点，其中实现视线追踪。