CN109716268B

CN109716268B - 眼部和头部跟踪

Info

Publication number: CN109716268B
Application number: CN201780058410.3A
Authority: CN
Inventors: M·M·西迪基; S·J·雷; A·孙达拉拉詹; R·巴尔迪亚; 韦昭仪; 原昌
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2016-09-22
Filing date: 2017-09-22
Publication date: 2022-05-17
Anticipated expiration: 2037-09-22
Also published as: CN109716268A; US10496163B2; WO2018057947A1; US20200183492A1; US20180081434A1; US11281288B2; US20180081427A1

Abstract

本公开描述了用于检测并跟踪用户的视线和头部运动的***、方法和计算机可读介质。一般来讲，公开了用于识别用户的瞳孔位置并使用该信息结合用户头部的三维(3D)模型来执行视线跟踪操作的技术。更具体地，本文所公开的技术利用瞳孔梯度信息来细化初始瞳孔位置估计。一旦被识别，瞳孔的位置可与3D头部姿态信息结合以生成准确稳健的视线检测机制。

Description

眼部和头部跟踪

相关申请的交叉引用

本申请根据35U.S.C.§119(e)要求于2016年9月22日提交的美国临时申请62/398,380和于2016年9月22日提交的美国临时申请62/398,398的优先权，其内容全部以引用方式并入本文。

背景技术

本公开整体涉及对眼部和头部移动的检测。更具体地，但并非限制性地，本公开涉及用于检测瞳孔位置以及利用该信息和头部模型来跟踪视线的技术。

最近已经注意到，使用视频序列进行三维(3D)头部跟踪，或使用多个图像进行姿态估计是稳健面部分析和面部识别的必要前提。眼部跟踪通常形成这些操作的基础，并且可被认为是以电子方式定位人的视点，或跟踪并记录人的视点的移动的过程。在实施过程中，通过定位和跟踪来自所施加的光源的角膜反射来提供眼部跟踪。由于红外光或近红外光是人眼无法感知的，因此通常被用作光源；红外光或近红外光经过瞳孔，但由虹膜反射，从而在瞳孔和虹膜之间产生分化。

发明内容

在一个实施方案中，所公开的概念提供了一种用于在第一时间段期间从第一图像捕获设备和第二图像捕获设备中的每个图像捕获设备捕获一个或多个图像的方法；在第一时间段期间，从第一光发射器和第三光发射器而不是从第二光发射器和第四光发射器发射光——示例性光发射器包括红外或近红外光发射器。在一个实施方案中，第一图像捕获设备和第二图像捕获设备彼此并置；第一光发射器和第二光发射器彼此并置并且被布置到第一图像捕获设备的第一侧；并且第三光发射器和第四光发射器彼此并置并且被布置到第二图像捕获设备的第二侧。所公开的方法可通过在第二时间段期间从第一图像捕获设备和第二图像捕获设备中的每个图像捕获设备捕获一个或多个图像来继续；并且在第二时间段期间，从第二光发射器和第四光发射器而不是从第一光发射器、第三光发射器发射光。在一个实施方案中，第一图像捕获设备和第二图像捕获设备可被配置为具有不完全重叠的视场(例如，用于提供立体图像信息)。在一些实施方案中，本发明所公开的方法可进一步包括利用在第一时间段期间捕获的一个或多个图像检测第一眼睛；确定第一眼睛的初始瞳孔位置，其中所述初始瞳孔位置以第一二维(2D)区域来限定；识别完全在第一区域内的第二区域；识别完全在第一区域之外的第三区域；将介于第二区域和第三区域之间的那一区识别为第四区域，所述第四区域包括多个像素；确定第四区域中的像素的至少一部分的梯度；从所述多个像素中识别第一组像素，其中第一组像素中的每个像素具有满足第一标准的梯度值；并且基于第一组像素识别第一眼睛的经更新的瞳孔位置。在其它实施方案中，本发明所公开的方法可包括基于第一眼睛的经更新的瞳孔位置来确定第一视线方向。在其它实施方案中，本发明所公开的方法还可包括基于在不同时间捕获的多个捕获图像来确定第一眼睛的多个视线方向。在另一个实施方案中，各种方法可体现在计算机可执行程序代码中并存储在非暂态存储设备中。在另一个实施方案中，该方法可在具有图像捕获能力的电子设备中实现。

在一个实施方案中，本发明所公开的概念描述了一种用于接收一组瞳孔的一个或多个立体图像、根据立体图像来计算所述一组瞳孔中的每个瞳孔的位置、基于一个或多个立体图像来确定头部姿态、基于所确定的头部姿态来识别所述一组瞳孔在头部中的位置，以及使用头部姿态和所述一组瞳孔中的每个瞳孔的位置来识别视线的方法，其中所述一组瞳孔中的每个瞳孔为头部的眼睛的一部分。在另一个实施方案中，各种方法可体现在计算机可执行程序代码中并存储在非暂态存储设备中。在另一个实施方案中，该方法可在具有图像捕获能力的电子设备中实现。

附图说明

图1以流程图形式示出了根据一个实施方案的瞳孔识别操作。

图2示出了根据一个实施方案的图像捕获操作。

图3以流程图形式示出了根据一个实施方案的初始的瞳孔识别操作。

图4以流程图形式示出了根据一个实施方案的瞳孔位置细化操作。

图5示出了由先前的光照技术生成的瞳孔眩光。

图6以框图形式示出了根据一个实施方案的新型灯光和相机布置。

图7A和图7B示出了根据本公开的由灯光和相机布置产生的瞳孔眩光运动。

图8以框图形式示出了根据一个实施方案的用于执行瞳孔定位和视线跟踪的***。

图9以框图形式示出了根据一个实施方案的用于执行瞳孔定位和视线跟踪的***。

图10以框图形式示出了根据一个或多个实施方案的用于检测视线的方法。

图11以流程图形式示出了根据一个或多个实施方案的用于确定每只眼睛的中心的方法。

图12以框图形式示出了根据一个实施方案的计算机***。

图13以框图形式示出了根据一个实施方案的多功能电子设备。

具体实施方式

本公开涉及检测并跟踪用户的视线和头部运动的***、方法和计算机可读介质。一般来讲，公开了用于识别用户的瞳孔位置并使用该信息结合用户头部的三维(3D)模型来执行视线跟踪操作的技术。更具体地，本文所公开的技术利用瞳孔梯度信息来细化初始瞳孔位置估计。一旦被识别，瞳孔的位置可与3D头部姿态信息结合以生成准确稳健的视线检测机制。

在以下描述中，为了解释的目的，阐述了很多具体细节以便提供对所公开构思的彻底理解。作为该描述的一部分，本公开的附图中的一些附图以框图形式表示结构和设备，以避免模糊所公开构思的新颖方面。为了清晰起见，可能未对实际具体实施的所有特征进行描述。此外，本公开中所使用的语言已主要被选择用于可读性和指导性目的，并且可能没有被选择为划定或限定本发明的主题，从而诉诸于所必需的权利要求以确定此类发明主题。在本公开中提到“一个实施方案”或“实施方案”意指结合该实施方案所述的特定特征、结构或特性被包括在所公开主题的至少一个实施方案中，并且多次提到“一个实施方案”或“实施方案”不应被理解为必然地全部涉及相同的实施方案。

应当理解，在任何实际具体实施的开发中(如在任何软件和/或硬件开发项目中那样)，必须要作出许多决策以实现开发者的特定目标(例如，符合与***和商务相关的约束条件)，并且这些目标在不同具体实施之间可能是不同的。还应当理解，此类开发工作可能是复杂并且耗时的，但尽管如此，对于在受益于本公开而设计和实施眼部跟踪***的那些普通技术人员而言，这仍然是他们的日常工作。

参见图1，根据本公开的瞳孔识别操作100可以捕获包括一个或多个面部的多个图像来开始(框105)。从所捕获的图像中可识别出一只或多只眼睛，并且可从这些眼睛中找到对应的初始瞳孔位置(框110)。在一个实施方案中，捕获图像可以是具有2-4百万像素(MP)分辨率的静态图像的时间序列。在另一个实施方案中，捕获图像可为以每秒15帧到每秒240帧(fps)之间的速率所捕获的视频图像的时间序列。应该指出的是，给定实施方案所需的图像分辨率和捕获速率取决于特定具体实施的操作需求。然后可细化初始瞳孔位置(框115)并结合其他二维(2D)信息或可用的三维(3D)信息使用(框120)以确定用户的视线方向(125)；其可表示为三维空间中的向量，该向量的方向指示用户的视线。

参见图2，根据框105的一个示例性图像捕获处理捕获立体视频图像序列(框200)，包括左通道序列200L和右通道序列200R。在标准化(框205)创建左通道图像序列205L和右通道图像序列205R之后，可检测到人脸并识别出其中的特征点位置(框210)以产生脸部图像序列210R和210L。

参见图3，在一个实施方案中，初始瞳孔定位操作110可以分离图像序列210L和210R中的每个所检测到的眼睛(框300)开始。以举例的方式，示出分离的一双眼睛300A，其中每个虹膜300B和瞳孔300C封闭在边界框300D内。一旦分离，就可生成每只眼睛的梯度图像(框305)。在一些具体实施中，可在生成梯度图像之前对分离的眼睛图像进行滤波或平滑化。在一个实施方案中，可通过获取每个像素的亮度值的梯度来获得梯度图像。在另一个实施方案中，可通过获取每个像素的红色(G)、绿色(G)或蓝色(B)通道值的梯度来获得梯度图像。例如，元素305A示出了区域300E的梯度。然后可对每个梯度图像进行滤波(框310)。在一个实施方案中，滤波可基于围绕每个像素(例如，像素310B)的邻域(例如，区域310A)。一个示例性的基于邻域的滤波操作为非最大值操作，其中像素值(例如，梯度像素310B)被替换为相应邻域(例如，区域310A)中的所有像素的最大值。虽然示例性区域310A被示出为3×3的像素，但该区域可以是对预期具体实施有意义的任何尺寸或形状(例如，5×5，4×8，6×9或7×3)。从滤波后的梯度图像中，可找到表示每个像素的显著性的等值线图(框315)。首先，应当认识到，梯度图在每个像素处提供大小和方向。梯度值表示像素值的变化量(例如，强度或颜色)，并且方向指示垂直于该像素处的边缘的方向(例如，指向最大黑度的区域)。基于这种识别，可通过将初始的空(例如，零值)等值线图与根据框305生成的梯度图重叠来生成显著性等值线图315A。对于初始的空等值线图中的每个像素，来自梯度图的沿像素排列或贯穿像素的每个梯度可导致像素值递增(例如，递增“1”)。穿过给定像素的梯度越大，所得的显著性等值线图(参见例如对应于由边界框300D限定的眼睛区域的显著性等值线图315A)中的像素对应值越大。所得的显著性等值线图(例如，315A)可用于识别下面的瞳孔的初始椭圆边界(框320)。在实施过程中，已发现将软阈值应用于等值线图315A中的每个像素是有益的。所得图像320A可产生两个或更多个鲜明对比的区域。例如，对应于瞳孔的320B亮区和对应于非瞳孔区域的暗区320C。然后，椭圆320D可适应区域320C，从而识别初始瞳孔位置。尽管每个具体实施可具有其自身特定的软阈值，但一个例示性阈值可以是90％。即，显著性等值线图315A中的大于等值线图的最大值的90％(或任何所选择的阈值)的所有像素值可保持不变。所有其他像素可被设置为零。

参见图4，根据一个实施方案的瞳孔位置细化操作115可由将初始识别的瞳孔位置“括在一起”开始(框400)。通过举例的方式，示出眼睛区域400A具有初始瞳孔位置椭圆320以及第一托架椭圆400B和第二托架椭圆400C。在一个实施方案中，内部椭圆400B可具有初始椭圆320D的75％的半径并且外部椭圆400C可具有初始椭圆320D的125％的半径。在另一个实施方案中，所选择的百分比的值可取决于初始椭圆320D的尺寸。在另一个实施方案中，可以通过最大化给定成本函数来确定内椭圆尺寸和外椭圆尺寸。例如，一种方法可从初始椭圆320开始，并且使半径缩小给定量，直到诸如对比度之类的目标函数达到最大化。类似地，一种方法可从初始椭圆320开始，并使半径增大给定量，直到另一目标函数或同一目标函数达到最大化。无论选择哪种方法，都应生成初始椭圆320D所在的区域(环域)。接着，可确定(由内部椭圆400B和外部椭圆400C创建的)环域中的每个向量的梯度(框405)。如区域405A所示，这种操作可识别2个或更多个区域。第一区域(例如，区域405A)包括梯度值相对一致的梯度值(表示为白线)。其他区域(例如，区域405B)包括与区域405A中的梯度值不一致的梯度值。应当认识到，可存在两个以上的区域。然而，已发现大多数梯度彼此一致，而其他梯度与这些梯度和它们本身不一致。如本文所用，“一致的”是指相对相同的梯度值或幅值。在一个实施方案中，在平均梯度幅值的20％内的值可被认为是一致的。这些值可变化的量可随具体实施的不同而变化，其可被视为整个***操作的调谐参数。已发现，不一致区域对应于较亮的区域，而一致的值对应于暗区域(如预期的瞳孔)。然后可选择来自区域405A的第一环形像素(框410)并进行检查以确定其值是否一致(框415)。如果所选择的像素的梯度值不一致(框415的“否”分支)，则可拒绝像素(框420)，并进行进一步的检查以确定是否仍有另外的环形像素待处理(框425)。如果所选择的像素的梯度值是一致的(框415的“是”分支)，则可对像素重新编码(框430)。在一个实施方案中，每个此类像素可以通过其在眼部区域405A中的2D位置(x_i,y_i)和梯度值(g_i)来唯一地识别。如果仍有另外的环形像素待查看(框425的“是”分支)，则可选择下一个像素(框435)，此处在瞳孔位置细化操作115之后可在框415处继续。如果没有更多需检测的环形像素(框425的“否”分支)，则根据框430记录的像素可用于适应如椭圆440A所示的新的/经修改的椭圆(框440)。

参见图5，已发现眼镜500通常会产生眩光区域505和510，而且此类眩光区域可使下面的瞳孔模糊不清。参见图6，为了克服由眩光区域与目标瞳孔重叠带来的困难，已经开发出新型相机和灯光布置600。如图所示，相机和灯光布置600包括一对立体的相机605，每一侧上分别有一对光发射器610和605。参见图7A，当发射器1和3被照明时，眩光区域700和705可沿第一方向移动，而在图7B中，当发射器2和4被照明时，眩光区域710和715可沿第二(不同)方向移动。通过另选地用发射器1-3和2-4对目标进行照明，可导致眼镜引起的眩光区域移动，从而使至少一个瞳孔暴露出来。在一些实施方案中，当发射器1和3被激活时可捕获第一图像，并且当发射器2和4被激活时可捕获另一图像。在其他实施方案中，在每个发射器对的每次激活期间可捕获多个图像。发射器610和615可发射在700-1,000纳米(nm)的近红外(nIR)范围内的光。例如，可使用常用的720nm发射器。

图8以框图形式示出了根据一个实施方案的用于执行瞳孔定位和视线跟踪的***800。***800示出具有一对光发射器的一对立体相机805L和805R。如上所述，该对立体相机可用于确定瞳孔位置。在一个或多个实施方案中，该对立体相机805L和805R还可用于确定用户的视线向量。在一个或多个实施方案中，视线检测由在810L和810R处执行2D脸部检测和特征点对齐开始。根据一个或多个其他实施方案，可执行任何类型的脸部检测。例如，可基于特征检测或使用模型***来检测脸部。在一个或多个实施方案中，可使用特征检测来识别特征点。特征点可识别脸部的可识别特征。例如，可检测识别出眉毛或眼角的形状的特征点。

根据一个或多个实施方案，特征点的位置允许头部姿态估计830和2D瞳孔定位815L和815R。在一些实施方案中，可以任意种方式进行头部姿态估计。使用脸部检测和特征点对齐的一个示例可包括执行当前头部相对于测试的一组头部姿态的回归分析。即，可将各种特征点的关系与测试的一组图像中的其他特征点的关系进行比较，其中测试的该组图像中的头部姿态是已知的。又如，可基于脸部的各种特征点的几何分析来确定头部姿态。例如，线性映射可提供相比于模型的有关面部特征结构的几何形状的信息。某些特征点可适于确定地面实况对准。例如，两只眼睛通常是对齐的。在一个或多个实施方案中，可分析特征点以确定与地面实况的对齐，从而确定头部姿态。

关于瞳孔定位，可使用任意种方法，包括上述方法。以举例的方式，可使用图3所示的方法来识别瞳孔的位置。在2D瞳孔位置已在815L处被识别为左眼并在815R处被识别为右眼之后，可执行3D瞳孔三角测量(框820)。在框825处，可确定视线。在一个或多个实施方案中，确定视线可涉及确定瞳孔相对于眼睛的位置。头部姿态和瞳孔位置可用于检测视线。视线检测的过程将在下文中相对于图10和图11更详细地描述。

图9以框图形式示出了根据另一实施方案的用于执行瞳孔定位和视线跟踪的***900。***900可作为相对于图8所描绘和描述的步骤的替代形式来执行。具体地讲，在800中，图像和深度信息是从立体相机***805L和805R中的立体图像中获得的，而在***900中，额外的深度信息可通过深度传感器930来获得。用于确定或获取深度信息的示例性技术包括光三角测量法、结构光法、飞行时间、干涉测量法和编码孔径技术。根据一个或多个实施方案，一个或多个深度传感器可提供信息，根据该信息可生成头部的深度图。基于从深度传感器930接收的深度信息，可确定粗略头部姿态935。例如，可将在深度图中所检测到的特征结构的几何形状与模型进行比较，以确定头部姿态的初始猜测值或粗略头部姿态。在框940，粗略头部姿态可与来自910L和910R的2D脸部检测信息和特征点对齐数据进行比较，这些信息数据基于从立体相机***905L和905R所接收的立体图像。可基于粗略头部姿态935和从来自910L和910R的2D脸部检测信息和特征点对齐数据中所接收的图像信息来细化粗略头部姿态。

经细化的头部姿态估计940可用于在925处检测视线。类似于800所示的流程图，在***900中，视线检测925可涉及确定瞳孔相对于眼睛的位置。瞳孔的位置可通过915L和915R处的初始瞳孔定位步骤来确定，以确定瞳孔的2D位置。瞳孔的位置还可基于3D瞳孔三角测量操作920来确定。

虽然***900和800各自描绘了使用一组立体相机和深度传感器来检测视线，但在一个或多个其他实施方案中，可使用不同的硬件。也就是说，在一些实施方案中，可使用不同类型的相机或不同数量的相机来采集深度信息和图像。因此，可使用可用于确定一组眼睛的3D位置的任何数据来检测视线。视线检测的过程将在下文中相对于图10和图11更详细地描述。

图10以流程图形式示出了根据一个或多个实施方案的用于检测视线的方法1000。根据一个实施方案，操作1000示出了对视线检测925或825的更详细描述。尽管以特定顺序描述了各种步骤，但应当理解，在一个或多个实施方案中，可以不同的顺序执行各种步骤，或者可以同时执行一些步骤。此外，一些步骤可能不必要，或者可添加其他动作。此外，为了便于解释，将参照图9说明各种步骤。然而，应当理解，各种步骤也可适用于图8或上述其他附图。此外，各种步骤也可适用于在各种实施例中未具体描述的其他实施方案。

操作1000开始于1005，在此处确定每只眼睛的中心。如实施例1050所示，眼睛中心1055R和1055L可识别眼球的中心。眼球的中心可指示例如每只眼睛的枢轴点。根据一个或多个实施方案，可以多种方式确定每只眼睛的中心。在一个实施方案中，在940处确定的头部姿态可指示眼睛的大***置。例如，由立体相机在905L和905R所捕获的各种图像和来自深度传感器930的深度信息，在可用的情况下，可用于确定每只眼睛的位置。下文将参考图11更详细地解释使用头部姿态来确定每只眼睛的中心。也可以多种方式来识别每只眼睛的中心。以举例的方式，可跟踪受检者(即，视线正被检测的人)的眼睛的运动。给出眼睛随时间推移的转动，可确定眼睛的枢转点。在一个实施方案中，可引导受检者凝视多个已知目标。可分析各种视线向量以识别共同的眼睛中心。又如，一旦瞳孔定位在915L和915R处，就可使用一些已知的测量来推断眼睛的尺寸。即，如果瞳孔的大小是已知的，则可使用瞳孔大小与眼睛半径的已知比值的通用参考来粗略地估计眼睛半径。

操作1000在1010处继续，在此可计算针对每只眼睛的从眼睛瞳孔的中心到眼睛的中心的初始向量1060R和1060L。根据一个或多个实施方案，可以包括上述方式的任意种方式来确定每只眼睛的瞳孔。在1015处，可将从瞳孔中心到眼睛中心的初始向量投影到环境中，如1065R和1065L所示。然后，在1020处，基于视线向量1065R和1065L的交点来确定眼睛的视线1070。

图11以流程图形式示出了根据一个或多个实施方案的用于确定每只眼睛的中心的方法1100。操作1100描述了确定每只眼睛1005的中心的更详细形式的一个或多个实施方案。尽管以特定顺序描述了各种步骤，但应当理解，在一个或多个实施方案中，可以不同的顺序执行各种步骤，或者可以同时执行一些步骤。此外，一些步骤可能不必要，或者可添加其他动作。此外，为了便于解释，将参照图9说明各种步骤。然而，应当理解，各种步骤也可适用于图8或上述其他附图。此外，各种操作也可适用于在各种实施例中未具体描述的其他实施方案。

操作1100从1105开始，在此从立体图像中获得脸部特征点。根据一个或多个实施方案，立体图像可从一对立体相机中获得，诸如905L和905R。然而，立体图像可由任何其他一个或多个立体相机获得。根据一些实施方案，面部特征点可指示面部中的可识别特征。在一个或多个实施方案中，可使用深度分析、特征提取或任何其他方法或方法的组合来识别面部特征点。面部特征点的示例在1150中示出。在示例1150中，各种特征点指示面部特征，例如眉毛、鼻子、嘴唇和眼角。流程图在1110处继续，此处在一个或多个实施方案中，从例如深度传感器采集另外的传感器数据。

例示性操作1100在1115处继续，此处可确定粗略头部姿态。具体地，在某些实施方案中，可利用从一个或多个深度传感器接收的深度信息来生成深度图。深度图可提供头部的大***置。在一个或多个实施方案中，在1120处，深度图可与在1105中获得的面部特征点一起用于针对模型数据进行回归分析，以确定经细化的头部位置和取向。示例1155示出了x轴、y轴和z轴中位置的实施例，以及所确定的头部的翻滚角、俯仰角和偏航角。根据一个或多个实施方案，每只眼睛的中心可基于在1130处执行的回归分析来确定。根据一个或多个实施方案，回归分析可提供用于获得每只眼睛的位置的模型。此外，根据一个或多个其他实施方案，可基于瞳孔的尺寸来估计眼睛半径。回归分析还可提供模型数据，以便在图像中的眼睛的一部分被遮挡的情况下使用。因此，模型可指示眼睛应当在何处。

参考图12，本发明所公开的瞳孔位置和视线跟踪操作可由代表性的计算机***1200(例如，通用计算机***，诸如台式计算机、膝上型电脑、笔记本电脑或平板电脑***，或者游戏设备)来执行。计算机***1200可被容纳在单个计算设备中或空间地分布在两个或更多个不同位置之间。计算机***1200可包括一个或多个处理器1205、存储器1210、一个或多个存储装置设备1215、图形硬件1220、设备传感器1225、图像捕获模块1230、通信接口1235、用户接口适配器1240和显示适配器1245——所有这些均可经由***总线或背板1250进行耦接。

处理器模块或电路1205可包括一个或多个处理单元，每个处理单元可包括至少一个中央处理单元(CPU)和/或至少一个图形处理单元(GPU)；每个处理器继而可包括一个或多个处理内核。每个处理单元可基于精简指令集计算机(RISC)或复杂指令集计算机(CISC)架构或任何其他合适的架构。处理器模块1205可以是片上***、集成电路(IC)的封装集合，或附接到一个或多个衬底上的IC集合。存储器1210可包括由处理器1205、图形硬件1220、设备传感器1225、图像捕获模块1230、通信接口1235、用户接口适配器1240和显示适配器1245所使用的一个或多个不同类型的介质(通常为固态，但不一定如此)。例如，存储器1210可包括存储器高速缓存、只读存储器(ROM)、和/或随机存取存储器(RAM)。存储装置1215可包括一个或多个非暂态存储介质，包括例如磁盘(固定盘、软盘和可移除盘)和磁带、光学介质(诸如CD-ROM和数字视频光盘(DVD))，以及半导体存储器设备(诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储器1210和存储装置1215可用于保持媒体(例如音频、图像和视频文件)、偏好信息、设备配置文件信息、被组织成一个或多个模块且以任何期望的计算机编程语言编写的计算机程序指令或代码和任何其他合适的数据。当由处理器1205和/或图形硬件1220和/或设备传感器1225和/或图像捕获模块内的功能元件1230执行时，此类计算机程序代码可实施本文所述的一种或多种方法(例如，图1-图4中所公开的操作中的任何一者或多者)。图形硬件模块或电路1220可以是用于处理图形和/或帮助处理器1205执行计算任务的专用计算硬件。在一个实施方案中，图形硬件1220可包括一个或多个GPU，和/或一个或多个可编程GPU，并且每个此类单元可包括一个或多个处理内核。设备传感器1225可包括但不必限于，旋光度传感器、光学传感器阵列、加速度计、声音传感器、气压传感器、接近传感器、环境光传感器、振动传感器、陀螺仪传感器、指南针、气压计、磁力仪、热敏电阻传感器、静电传感器、温度传感器、热传感器、温度计、光传感器、差分光传感器、不透明度传感器、散射光传感器、衍射传感器、折射传感器、反射传感器、偏振传感器、相位传感器、荧光传感器、磷光传感器、像素阵列、微像素阵列、旋转传感器、速度传感器、倾斜仪、日射强度计、动量传感器，以及如图5-图7所示的相机和灯条。图像捕获模块或电路1230可包括一个或多个图像传感器、一个或多个透镜组件，以及能够进行图像捕获操作(静态或视频)的任何其他已知成像部件。在一个实施方案中，一个或多个图像传感器可包括电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器。图像捕获模块1230还可包括被实现为专用硬件、软件或该两者的组合的图像信号处理(ISP)流水线。ISP流水线可对从图像传感器接收的原始图像(也称为原始图像文件)执行一个或多个操作，并且可将处理后的图像数据提供至处理器1205、存储器1210、存储装置1215、图形硬件1220、通信接口1235和显示适配器1245。通信接口1235可用于将计算机***1200连接到一个或多个网络。例示性网络包括但不限于本地网络(诸如通用串行总线(USB)网络)、组织的局域网以及广域网(诸如互联网)。通信接口1235可使用任何合适的技术(例如，有线或无线技术)和协议(例如，传输控制协议(TCP)、互联网协议(IP)，用户数据报协议(UDP)、互联网控制消息协议(ICMP)、超文本传输协议(HTTP)、邮局协议(POP)、文件传输协议(FTP)和互联网消息访问协议(IMAP))。用户接口适配器1240可用于连接麦克风1250、扬声器1255、指针设备1260、键盘1265(或其他输入设备诸如触敏元件)，和单独的图像捕获元件1270——其可以利用或无法利用自身图形硬件1220或图像捕获模块1230所提供的功能。显示器适配器1245可用于连接也可提供触摸输入能力的一个或多个显示单元1275。***总线或底板1250可包括一个或多个连续(如图所示)或不连续的通信链路，并且可形成总线网络、通信网络或包含一个或多个开关装置的构造。***总线或底板1250可至少部分地包括在网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或它们的组合中。

参考图13，其示出了根据一个实施方案的示例性移动电子设备1300的简化功能框图。电子设备1300可为例如移动电话、个人媒体设备、笔记本电脑***或台式计算机***。如图所示，电子设备1300可包括处理器模块或电路1305、显示器1310、用户界面模块或电路1315、图形硬件模块或电路1320、设备传感器1325、麦克风1330、音频编解码器1335、扬声器1340、通信模块或电路1345、图像捕获模块或电路1350、视频编解码器1355、存储器1360、存储装置1365和通信总线1370。

处理器1305、显示器1310、用户界面1315、图形硬件1320、设备传感器1325、通信电路1345、图像捕获模块或电路1350、存储器1360和存储装置1365可具有相同或类似的类型并且提供与上文相对于图12描述的类似命名的部件相同的功能。经由麦克风1330获得的音频信号可至少部分地由音频编解码器1335处理。如此捕获的数据可被存储在存储器1360和/或存储装置1365中并且/或者通过扬声器1340输出。来自图像捕获模块或电路1350的输出可至少部分地通过一个或多个视频编解码器1355和/或处理器1305和/或图形硬件1320来处理。因此，所捕获的图像可被存储在存储器1360和/或存储装置1365中。

一个示例包括一种用于检测视线的方法，包括接收一组瞳孔的一个或多个立体图像，其中所述一组瞳孔中的每个瞳孔为头部的眼睛的一部分；根据立体图像计算所述一组瞳孔中的每个瞳孔的第一位置；基于一个或多个立体图像来确定头部姿态；基于所确定的头部姿态来识别所述一组瞳孔相对于头部的第二位置，并且利用第一位置和第二位置来识别视线。

基于一个或多个立体图像来确定头部姿态任选地包括：检测一个或多个立体图像中的头部的脸部，识别脸部的一个或多个特征点，基于所识别的特征点来计算头部的粗略姿态。

上述实例任选地包括基于所识别的脸部的一个或多个特征点来定位每个瞳孔。特征点可选自由以下项组成的组：眉毛、鼻子、嘴唇和眼角。

上述实例任选地包括从深度传感器获取脸部的深度信息；以及基于所述深度信息来计算粗略头部姿态，其中所述视线还利用粗略头部姿势进行计算。

识别视线任选地包括，针对一组眼睛中的每只眼睛：确定眼睛的中心，计算从眼睛的瞳孔的中心到眼睛的中心的初始向量，以及将初始矢量从瞳孔的中心投影到环境中以获得视线向量；以及基于每只眼睛的视线向量的交点来检测眼睛的视线。

基于一个或多个立体图像来确定头部姿态任选地包括：获得多个头部模型，针对多个头部模型执行一组瞳孔的一个或多个立体图像的回归分析，以及基于回归分析来确定头部估计姿态。

应当理解，以上描述旨在是示例性的而非限制性的。已呈现材料以使得本领域的任何技术人员能够作出并使用受权利要求保护的公开事项，并在特定实施方案的上下文中提供该材料，其变化对于本领域的技术人员而言将是显而易见的(例如，可彼此结合使用所公开的实施方案中的一些实施方案)。例如，在初始瞳孔定位操作110的描述中，已将显著性等值线图描述为与相关梯度图具有1:1的像素对应关系。本领域的普通技术人员应认识到这并非必要的。此外，可对用于生成显著性等值线图的梯度图进行滤波或不进行滤波。此外，在根据框320(图3)的操作期间，可应用除所描述的“软阈值”之外的滤波操作。在一个或多个实施方案中，可省略、重复和/或以不同本发明所述顺序执行公开的一个或多个步骤。因此，图1-图4中示出的步骤或动作的特定布置不应理解为限制本发明所公开的主题的范围。因此，要求保护的主题的范围应该参考所附权利要求以及这些权利要求的等同物的全部范围来确定。在所附权利要求中，术语“包括(including)”和“其中(in which)”被用作相应术语“包括(comprising)”和“其中(wherein)”的通俗英语等同形式。

Claims

1.一种用于捕获图像的***，所述***包括：

第一图像捕获设备，所述第一图像捕获设备具有第一视场；

第二图像捕获设备，所述第二图像捕获设备紧邻所述第一图像捕获设备并具有第二视场，其中所述第二视场与所述第一视场不完全重叠；

第一光发射器和第二光发射器，所述第一光发射器和所述第二光发射器彼此相邻并且被布置到所述第一图像捕获设备的第一侧并被配置为向所述第一视场和所述第二视场中发射光；

第三光发射器和第四光发射器，所述第三光发射器和所述第四光发射器彼此相邻并且被布置在所述第二图像捕获设备的第二侧并被配置为向所述第一视场和所述第二视场中发射光；和

控制***，所述控制***可操作地耦接到所述第一图像捕获设备和所述第二图像捕获设备以及所述第一光发射器、所述第二光发射器、所述第三光发射器和所述第四光发射器中的每一者，所述控制***被配置为：

在第一时间段期间，仅使得所述第一光发射器、所述第二光发射器、所述第三光发射器和所述第四光发射器中的所述第一光发射器和所述第三光发射器发射光，

使得所述第一图像捕获设备和所述第二图像捕获设备在所述第一时间段期间各自捕获包括第一眼睛的一个或多个第一图像，

在第二时间段期间，仅使得所述第一光发射器、所述第二光发射器、所述第三光发射器和所述第四光发射器中的所述第二光发射器和所述第四光发射器发射光，所述第二时间段发生在所述第一时间段之后，并且

使得所述第一图像捕获设备和所述第二图像捕获设备在所述第二时间段期间各自捕获包括所述第一眼睛的一个或多个第二图像，以及

基于所述一个或多个第一图像和所述一个或多个第二图像中的至少一个图像来确定所述第一眼睛的初始瞳孔位置，相比在所述一个或多个第一图像和所述一个或多个第二图像中的其它图像，在所述一个或多个第一图像和所述一个或多个第二图像中的所述至少一个图像中所述第一眼睛更少地被眩光区域遮挡。

2.根据权利要求1所述的***，其中所述第一光发射器、所述第二光发射器、所述第三光发射器和所述第四光发射器包括红外光发射器。

3.根据权利要求1所述的***，其中：

所述第二光发射器比所述第一光发射器更接近所述第一图像捕获设备；并且

所述第三光发射器比所述第四光发射器更接近所述第二图像捕获设备。

4.根据权利要求3所述的***，其中所述第一光发射器和所述第三光发射器在所述第一时间段期间同时发射光。

5.根据权利要求1所述的***，其中所述光发射器和所述图像捕获设备按以下顺序依次对齐成单行：第一光发射器、第二光发射器、第一图像捕获设备、第二图像捕获设备、第三光发射器和第四光发射器。

6.根据权利要求1所述的***，其中所述控制***被进一步配置为：

利用所述一个或多个第一图像和所述一个或多个第二图像中的所述至少一个图像检测所述第一眼睛，其中所述初始瞳孔位置以二维(2D)的第一区域来限定；

识别完全在所述第一区域内的第二区域；

识别完全在所述第一区域之外的第三区域；

将介于所述第二区域和所述第三区域之间的区识别为第四区域，所述第四区域包括多个像素；

确定所述第四区域中的所述像素的至少一部分的梯度；

从所述多个像素中识别第一组像素，其中所述第一组像素中的每个像素具有满足第一标准的梯度值；以及

基于所述第一组像素识别所述第一眼睛的经更新的瞳孔位置。

7.根据权利要求6所述的***，其中所述控制***被进一步配置为基于所述第一眼睛的经更新的瞳孔位置来确定第一视线方向。

8.根据权利要求7所述的***，其中所述控制***被进一步配置为基于在不同时间捕获的多个捕获图像来确定所述第一眼睛的多个视线方向。

9.一种非暂态程序存储设备，所述非暂态程序存储设备包括被存储在其上的指令，所述指令使得一个或多个处理器：

在第一时间段期间，使得光仅从包括第一光发射器、第二光发射器、第三光发射器和第四光发射器的光发射器组中的第一光发射器和第三光发射器发射，

在所述第一时间段期间，使得第一图像捕获设备和第二图像捕获设备各自捕获包括第一眼睛的一个或多个第一图像，其中：

所述第一图像捕获设备具有第一视场，

所述第二图像捕获设备具有第二视场，

所述第二视场与所述第一视场不完全重叠，

所述第一光发射器和所述第二光发射器彼此相邻并且被布置到所述第一图像捕获设备的第一侧，并且

所述第三光发射器和所述第四光发射器彼此相邻并且被布置到所述第二图像捕获设备的第二侧，

在第二时间段期间，使得光仅从所述光发射器组中的所述第二光发射器和所述第四光发射器发射，所述第二时间段发生在所述第一时间段之后，

在所述第二时间段期间，使得所述第一图像捕获设备和所述第二图像捕获设备各自捕获包括所述第一眼睛的一个或多个第二图像，以及

10.根据权利要求9所述的非暂态程序存储设备，其中所述第一光发射器、所述第二光发射器、所述第三光发射器和所述第四光发射器包括红外光发射器。

11.根据权利要求9所述的非暂态程序存储设备，还包括使一个或多个处理器执行以下操作的指令：

识别完全在所述第一区域内的第二区域；

识别完全在所述第一区域之外的第三区域；

确定所述第四区域中的所述像素的至少一部分的梯度；

12.根据权利要求11所述的非暂态程序存储设备，所述非暂态程序存储设备被进一步配置为基于所述第一眼睛的经更新的瞳孔位置来确定第一视线方向。

13.根据权利要求12所述的非暂态程序存储设备，还包括使所述一个或多个处理器基于在不同时间捕获的多个捕获图像来确定所述第一眼睛的多个视线方向的指令。

14.一种用于捕获图像的方法，包括：

在第一时间段期间，仅从第一光发射器、第二光发射器、第三光发射器和第四光发射器中的第一光发射器和第三光发射器发射光，在所述第一时间段期间，从第一图像捕获设备和第二图像捕获设备中的每个图像捕获设备捕获一个或多个第一图像，其中：

所述第一图像捕获设备和所述第二图像捕获设备彼此相邻，所述第一光发射器和所述第二光发射器彼此相邻并且被布置到所述第一图像捕获设备的第一侧，并且

所述第三光发射器和所述第四光发射器彼此相邻并且被布置到所述第二图像捕获设备的第二侧；

在第二时间段期间，仅从所述第一光发射器、所述第二光发射器、所述第三光发射器和所述第四光发射器中的所述第二光发射器和所述第四光发射器发射光，所述第二时间段发生在所述第一时间段之后，

在所述第二时间段期间，从所述第一图像捕获设备和所述第二图像捕获设备中的每个图像捕获设备捕获一个或多个图像，以及基于所述一个或多个第一图像和所述一个或多个第二图像中的至少一个图像来确定第一眼睛的初始瞳孔位置，相比在所述一个或多个第一图像和所述一个或多个第二图像中的其它图像，在所述一个或多个第一图像和所述一个或多个第二图像中的所述至少一个图像中所述第一眼睛更少地被眩光区域遮挡。

15.根据权利要求14所述的方法，其中所述第一光发射器、所述第二光发射器、所述第三光发射器和所述第四光发射器包括红外光发射器。

16.根据权利要求14所述的方法，其中所述第一图像捕获设备具有第一视场，所述第二图像捕获设备具有第二视场，并且所述第二视场与所述第一视场不完全重叠。

17.根据权利要求14所述的方法，还包括：

识别完全在所述第一区域内的第二区域；

识别完全在所述第一区域之外的第三区域；

确定所述第四区域中的所述像素的至少一部分的梯度；

18.根据权利要求17所述的方法，还包括基于所述第一眼睛的经更新的瞳孔位置来确定第一视线方向。

19.根据权利要求18所述的方法，还包括基于在不同时间捕获的多个捕获图像来确定所述第一眼睛的多个视线方向。

20.根据权利要求14所述的方法，其中：