CN112114659A

CN112114659A - 用于确定用户的精细的注视点的方法和***

Info

Publication number: CN112114659A
Application number: CN202010500200.9A
Authority: CN
Inventors: 杰弗里·库珀
Original assignee: Tobii AB
Current assignee: Tobii AB
Priority date: 2019-06-19
Filing date: 2020-06-04
Publication date: 2020-12-22
Also published as: SE1950758A1; SE543229C2

Abstract

公开了一种眼睛跟踪***、一种头戴式设备、一种计算机程序、一种载体以及一种在眼睛跟踪***中用于确定用户的精细的注视点的方法。在该方法中，确定该用户的视线会聚距离。此外，获得该用户的视野的至少一部分的空间表示，并且获得该空间表示的至少一部分的深度数据。基于所确定的视线会聚距离和所获得的深度数据来确定该空间表示的显著性数据，并且基于所确定的显著性数据来确定该用户的精细的注视点。

Description

用于确定用户的精细的注视点的方法和***

技术领域

本公开内容涉及眼睛跟踪领域。具体地，本公开内容涉及一种确定用户的精细的注视点的方法和***。

背景技术

眼睛/注视跟踪功能被引入到诸如虚拟现实(VR)应用和增强现实(AR)应用等越来越多的应用中。通过引入这种眼睛跟踪功能可以确定用户的估计的注视点，该估计的注视点进而可以用作其他功能的输入。

当在眼睛跟踪***中确定用户的估计的注视点时，表示用户的估计的注视点的信号可能会例如由于眼睛跟踪***的测量误差而出现偏差。即使用户在某一时间段内实际将视线聚焦在同一点上，在该时间段内的不同测量周期中也可能确定出用户的不同的注视点。在US 2016/0291690 A1中，将用户的视野的显著性数据连同用户眼睛的注视方向一起使用，以便更可靠地确定用户所注视的关注点。然而，确定用户的视野的显著性数据需要处理，并且即使使用了该显著性数据，所确定的关注点也可能与实际关注点不同。

期望提供一种相比于已知方法提供更强健且更准确的注视点的眼睛跟踪技术。

发明内容

本公开内容的目的是提供一种方法和***，该方法和***试图缓解、减轻或消除上述现有技术缺陷中的一个或多个。

该目的通过根据所附权利要求的方法、眼睛跟踪***、头戴式设备、计算机程序和载体来达成。

根据一个方面，提供了一种在眼睛跟踪***中用于确定用户的精细的注视点的方法。在该方法中，确定该用户的视线会聚距离，获得该用户的视野的至少一部分的空间表示，并且获得该空间表示的至少一部分的深度数据。基于所确定的视线会聚距离和所获得的深度数据来确定该空间表示的显著性数据，并且然后基于所确定的显著性数据来确定该用户的精细的注视点。

显著性数据为用户的视野中的属性提供度量并且被表示在空间表示中，从而指示这些属性引起人们视觉注意的可能性。确定空间表示的显著性数据意味着确定与空间表示的至少一部分相关的显著性数据。

空间表示的至少一部分的深度数据指示从用户的眼睛到用户的视野中与该空间表示的至少一部分相对应的对象或特征的距离。取决于应用(例如，AR或VR)，这些距离是真实的或虚拟的。

视线会聚距离指示用户的注视点正聚焦的位置距用户眼睛的距离。可以使用确定会聚距离的任何方法来确定该会聚距离，诸如基于用户眼睛的注视方向和这些方向之间的交点的方法、或者基于瞳孔间距的方法。

另外基于所确定的视线会聚距离和对于该空间表示的至少一部分所获得的深度数据来确定显著性数据使得确定显著性数据能够更快并且需要更少的处理。其进一步使得能够确定用户的精细的注视点，该精细的注视点是对用户的关注点的更准确的估计。

在一些实施例中，确定空间表示的显著性数据包括识别空间表示中的与在包括所确定的视线会聚距离的预定范围内所获得的深度数据相对应的第一深度区域。然后，确定空间表示的第一深度区域的显著性数据。

所识别的空间表示的第一深度区域与用户的视野的至少一部分中的对象或特征相对应，这些对象或特征在包括所确定的视线会聚距离的预定范围内。相比与空间表示的具有预定范围外的深度数据的区域相对应的对象或特征，用户通常更可能正看着这些预定范围内的对象或特征中之一。因此，确定第一深度区域的显著性数据并且基于所确定的显著性数据来确定精细的注视点是有益的。

在一些实施例中，确定该空间表示的显著性数据包括：识别该空间表示的与在包括该视线会聚距离的该预定范围外所获得的深度数据相对应的第二深度区域，以及对于确定该空间表示的第二深度区域的显著性数据作出抑制。

所识别的空间表示的第二深度区域与用户的视野的至少一部分中的对象或特征相对应，这些对象或特征在包括所确定的视线会聚距离的预定范围外。相比与空间表示的具有预定范围内的深度数据的区域相对应的对象或特征，用户通常不太可能正看着这些预定范围外的对象或特征中之一。因此，对于确定第二深度区域的显著性数据进行抑制是有益的，以避免可能不必要或甚至可能提供误导结果的处理，因为用户不太可能看着与空间表示的具有预定范围外的深度数据的区域相对应的对象和/或特征。相比还在不采用所确定的用户的视线会聚距离和空间表示的至少一部分的深度数据的情况下确定显著性数据的方法，这将减少为确定显著性数据所使用的处理功率。

在一些实施例中，确定改善的注视点包括根据所确定的显著性数据，将该用户的精细的注视点确定为与最高显著性相对应的点。所确定的精细的注视点将因此是在某些方面最可能吸引视觉注意的点。再加上使用所识别的第一深度区域的显著性数据——该第一深度区域与确定空间表示的与在包括所确定的视线会聚距离的预定范围内所获得的深度数据相对应，所确定的精细的注视点将因此是在第一深度区域内在某些方面最可能吸引视觉注意的点。

在一些实施例中，确定空间表示的显著性数据包括：基于视觉显著性来确定空间表示的第一显著性数据，基于所确定的视线会聚距离和所获得的深度数据来确定空间表示的第二显著性数据，以及基于第一显著性数据和第二显著性数据来确定显著性数据。该第一显著性数据可以例如基于高对比度、鲜艳的颜色、大小、运动等。在可选的归一化和加权之后，将不同类型的显著性数据组合在一起。

在一些实施例中，该方法进一步包括：确定用户的新视线会聚距离，基于该新视线会聚距离确定空间表示的新显著性数据，以及基于新显著性数据确定用户的新的精细的注视点。因此，可以基于随时间确定的新的视线会聚距离来确定动态的新的精细的注视点。设想了若干种替代方案，例如仅使用当前确定的新的视线会聚距离或在预定时间段内确定的视线会聚点的均值。

在一些实施例中，该方法进一步包括：确定用户的多个注视点，以及基于所确定的用户的多个注视点来识别空间表示的裁剪区域。优选地，确定显著性数据然后包括确定该空间表示的所识别的裁剪区域的显著性数据。

相比与裁剪区域外的区域相对应的点，用户通常更可能正看着与裁剪区域相对应的点。因此，确定裁剪区域的显著性数据并且基于所确定的显著性数据来确定精细的注视点是有益的。

在一些实施例中，该方法进一步包括对于确定该空间表示的在该空间表示的所识别的裁剪区域外的区域的显著性数据进行抑制。

相比与裁剪区域相对应的点，用户通常不太可能正看着与裁剪区域外的区域相对应的点。因此，对于确定裁剪区域外的区域的显著性数据进行抑制以避免可能不必要或甚至可能提供误导结果的处理是有益的，因为用户不太可能看着与裁剪区域外的区域相对应的点。相对于另外在未基于用户的所确定的注视点进行裁剪的情况下确定显著性数据的方法，这将减少用于确定显著性数据所使用的处理功率。

在一些实施例中，获得深度数据包括获得该空间表示的所识别的裁剪区域的深度数据。通过获得所识别的裁剪区域的深度数据，并且不必获得裁剪区域外的区域的深度数据，可以仅基于所识别的裁剪区域的所获得的深度数据来确定在裁剪区域内的显著性数据。因此，可以进一步减少确定显著性数据所需的处理量。

在一些实施例中，该方法进一步包括确定多个所确定的该用户的注视点中的每一个注视点的相应的视线会聚距离。

在一些实施例中，该方法进一步包括确定该用户的新的注视点。在所确定的新的注视点在所识别的裁剪区域内的情况下，将新的裁剪区域识别为与所识别的裁剪区域相同。在替代方案中，在所确定的新的注视点在所识别的裁剪区域外的情况下，识别包括所确定的新的注视点并且不同于所识别的裁剪区域的新的裁剪区域。

如果确定对于该用户所确定的新的注视点在所识别的裁剪区域内，则该用户可能看着该裁剪区域内的点。通过在这种情况下维持相同的裁剪区域，可以再次使用任何基于所识别的裁剪区域所确定的显著性数据。因此，不需要为基于所识别的裁剪区域来确定显著性而进行进一步的处理。

在一些实施例中，分别在连续的时间间隔中确定该用户的连续的注视点。此外，针对每个时间间隔，确定用户正在凝视还是扫视。在该用户正在凝视的情况下，确定精细的注视点。在该用户正在扫视的情况下，对于确定精细的注视点作出抑制。如果用户正在凝视，则用户可能在该时间点正看着某个点，并且因此，可能正确地确定精细的注视点。另一方面，如果用户正在扫视，则用户在该时间点不太可能看着某个点，并且因此，不太可能正确地确定精细的注视点。这些实施例将使得处理能够减少，同时如果可能正确地确定精细的注视点则进行这种确定。

在一些实施例中，分别在连续的时间间隔中确定该用户的连续的注视点。此外，针对每个时间间隔，确定该用户是否正处于平稳跟随。在该用户正处于平稳跟随的情况下，分别确定包括这些连续的注视点的连续的裁剪区域，使得所识别的连续的裁剪区域遵循该平稳跟随。如果确定了平稳跟随，则在确定裁剪区域遵循该平稳跟随的情况下，几乎不需要附加处理就可确定连续的裁剪区域。

在一些实施例中，空间表示是图像，诸如真实世界的2D图像、真实世界的3D图像、虚拟环境的2D图像或虚拟环境的3D图像。数据可能来自照片传感器、虚拟3D场景，也可能来自另一种类型的图像传感器或空间传感器。

根据第二方面，提供了一种用于确定用户的注视点的眼睛跟踪***。该眼睛跟踪***包括处理器和存储器，所述存储器包含可由所述处理器执行的指令。该眼睛跟踪***能操作以确定该用户的视线会聚距离，并且获得该用户的视野的至少一部分的空间表示。该眼睛跟踪***进一步能操作以获得该空间表示的至少一部分的深度数据，并且基于所确定的视线会聚距离和所获得的深度数据来确定该空间表示的显著性数据。该眼睛跟踪***进一步能操作以基于所确定的显著性数据确定该用户的精细的注视点。

根据第二方面的该眼睛跟踪***的实施例可以例如包括与根据第一方面的方法的任何实施例的特征相对应的特征。

根据第三方面，提供了一种用于确定用户的注视点的头戴式设备。该头戴式设备包括处理器和存储器，所述存储器包含可由所述处理器执行的指令。该头戴式设备能操作以确定该用户的视线会聚距离，并且获得该用户的视野的至少一部分的空间表示。该头戴式设备进一步能操作以获得该空间表示的至少一部分的深度数据，并且基于所确定的视线会聚距离和所获得的深度数据来确定该空间表示的显著性数据。该头戴式设备进一步能操作以基于所确定的显著性数据来确定该用户的精细的注视点。

在一些实施例中，该头戴式设备进一步包括透明显示器与非透明显示器之一。

根据第三方面的该头戴式设备的实施例可以例如包括与根据第一方面的方法的任何实施例的特征相对应的特征。

根据第四方面，提供了一种计算机程序。该计算机程序包括指令，这些指令当由至少一个处理器执行时使该至少一个处理器确定该用户的视线会聚距离，并且获得该用户的视野的空间表示。进一步地，使该至少一个处理器获得该空间表示的至少一部分的深度数据，并且基于所确定的视线会聚距离和所获得的深度数据来确定该空间表示的显著性数据。进一步地，使该至少一个处理器基于所确定的显著性数据来确定该用户的精细的注视点。

根据第四方面的该计算机程序的实施例可以例如包括与根据第一方面的方法的任何实施例的特征相对应的特征。

根据第五方面，提供了一种包括根据第四方面的计算机程序的载体。该载体是电子信号、光信号、无线电信号和计算机可读存储介质之一。

根据第五方面的该载体的实施例可以例如包括与根据第一方面的方法的任何实施例的特征相对应的特征。

附图说明

现在将参考附图在以下说明性且非限制性的详细描述中描述这些和其他方面。

图1是展示了根据本公开内容的方法的实施例的流程图。

图2包括展示了根据本公开内容的方法的实施例的步骤的结果的图像。

图3是展示了根据本公开内容的方法的步骤的流程图。

图4是展示了根据本公开内容的方法的进一步步骤的流程图。

图5是展示了根据本公开内容的方法的又进一步步骤的流程图。

图6是展示了根据本公开内容的眼睛跟踪***的实施例的框图。

所有附图都是示意性的，不一定按比例绘制，并且通常仅示出为了阐明相应示例所必需的部分，而其他部分可以被省略或仅被暗示出。

具体实施方式

下文将参考附图对本公开内容的各方面进行更全面的描述。然而，本文公开的方法、眼睛跟踪***、头戴式设备、计算机程序以及载体可以以许多不同的形式实现，并且不应被解释为限于本文所阐述的方面。贯穿全部附图，在附图中相同的附图标记表示相似的元件。

显著性数据为用户的视野中的属性提供度量并且被表示在空间表示中，从而指示这些属性引起人类视觉注意的可能性。为此，最可能引起人类视觉注意的属性中的一些例如是颜色、运动、取向和比例。可以使用显著性模型来确定这种显著性数据。显著性模型通常预测什么东西会吸引人类视觉注意。许多显著性模型基于模拟早期视觉处理的生物学似真的特征集的模型，基于例如某一区域与其周围事物的不同程度来确定该区域的显著性数据。

在用户的视野的空间表示中，可以使用显著性模型来识别对刺激物的注意选择具有不同程度贡献的不同的视觉特征，并且产生指示空间表示中不同点的显著性的显著性数据。然后，可以基于所确定的显著性数据来确定更可能与用户所注视的关注点相对应的精细的注视点。

当以显著性模型在例如呈2D图像形式的空间表示上确定了显著性数据时，可以根据某一视觉属性分析图像的每个像素的显著程度，并且针对该属性为每个像素分配显著性值。一旦针对每个像素计算了显著性，像素之间的显著性的差异就是已知的。可选地，然后可以将显著像素一起分组到显著区域中，以简化特征结果。

在使用图像作为到模型的输入的情况下，现有技术的显著性模型通常使用自下而上的方法来计算显著性。本发明人已经认识到，可以使用来自眼睛跟踪***的关于用户的附加的自上而下的所确定的信息，以实现对用户所注视的关注点的更准确的估计和/或使显著性模型更快地运行。由眼睛***提供的自上而下的信息可以是用户的一个或多个所确定的视线会聚距离。由眼睛***提供的进一步的自上而下的信息可以是用户的一个或多个所确定的注视点。然后，基于自上而下的信息确定针对空间表示的显著性数据。

图1是展示了在眼睛跟踪***中用于确定用户的精细的注视点的方法100的实施例的流程图。在该方法中，确定110用户的视线会聚距离。视线会聚距离指示用户视线正聚焦在的位置与用户眼睛的距离。可以使用确定会聚距离的任何方法来确定该会聚距离，诸如基于用户眼睛的注视方向和这些方向之间的交点的方法、基于飞行时间测量的方法以及基于瞳孔间距的方法。在其中执行方法100的眼睛跟踪***可能例如是头戴式***(诸如增强现实(AR)眼镜或虚拟现实(VR)眼镜)，但也可能是非头戴式而相反地远离用户的眼睛跟踪***。进一步地，该方法包括获得120用户的视野的至少一部分的空间表示的步骤。空间表示可能例如是由在眼睛跟踪***中或远离眼睛跟踪***的一个或多个照相机捕获的用户的视野的至少一部分的数字图像。此外，获得130空间表示的至少一部分的深度数据。用户的视野的空间表示的深度数据指示从用户的眼睛到用户的视野中的对象或特征的点或部分的真实或虚拟距离。深度数据分别关联于空间表示中的与用户的视野的对象或特征的点或部分相对应的点或部分。因此，空间表示中的某个点或区域——其表示用户的视野中的某个对象或特征上的点或者该对象或特征的部分——将具有指示从用户的眼睛到对象或特征上的该点或该部分的距离的深度数据。例如，空间表示可以是从头戴式设备中的相隔一定横向距离的两个面向外的相机拍摄得到的两个图像(立体图像)。然后，可以通过分析这两个图像确定从用户的眼睛到用户的视野中的对象或特征的点或部分的距离。由此确定的深度数据可以分别联系于这两个图像的与用户的视野中的对象或特征的点或部分相对应的点或部分。空间表示的其他示例也是可能的，诸如基于飞行时间测量的3D网格或者即时定位与地图构建(SLAM)。基于所确定的视线会聚距离和所获得的深度数据，确定140空间表示的显著性数据。最后则基于所确定的显著性数据来确定150用户的精细的注视点。

取决于应用，用户的视野的空间表示的深度数据指示从用户的眼睛到视野中的对象或特征的点或部分的真实或虚拟距离。在空间表示包括用户的视野的至少一部分的真实世界对象或特征的表示的场合下，由深度数据指示的距离通常是真实的，即，这些距离指示从用户的眼睛到在空间表示中表示的真实世界对象或特征的真实距离。在空间表示包括用户的视野的至少一部分的虚拟对象或特征的表示的场合下，由深度数据指示的距离在被用户观察时通常是虚拟的，即，这些距离指示从用户的眼睛到在空间表示中表示的虚拟对象或特征的虚拟距离。

所确定的视线会聚距离和所获得的深度数据可以用于改善对显著性数据的确定，从而使得它们提供确定精细的信息，可以根据该精细的信息来确定精细的注视点。例如，可以识别空间表示中的一个或多个区域，这些区域与视野中的对象或特征的部分相对应，这些区域与用户眼睛的距离与所确定的视线会聚距离一致。通过添加信息——该信息指示空间表示的哪些区域更可能与用户注视的关注点相对应——可以将所识别的一个或多个区域用于精炼显著性数据。此外，在确定空间表示的显著性数据之前，可以将空间表示的所识别的一个或多个区域用作某种形式的过滤器。以这种方式，仅对空间表示的与视野中的对象或特征的部分相对应的这些区域确定显著性数据，这些区域与用户眼睛的距离与所确定的视线会聚距离一致。

具体地，确定140空间表示的显著性数据可以包括识别142空间表示的第一深度区域，该第一深度区域与在包括所确定的视线会聚距离的预定范围内获得的深度数据相对应。可以取决于例如所确定的视线会聚距离的准确性、所获得的深度数据的准确性以及其他因素而将该范围设置得更宽或更窄。然后，确定144空间表示的第一深度区域的显著性数据。

空间表示的所识别的第一深度区域与用户的视野的至少一部分中的对象或特征相对应，这些对象或特征在包括所确定的视线会聚距离的预定范围内。相比与空间表示的具有预定范围外的深度数据的区域相对应的对象或特征，用户通常更可能正看着前述预定范围内的对象或特征中之一。因此，对第一深度区域的识别提供了可用于识别用户所注视的关注点的进一步信息。

除了确定第一深度区域之外，确定空间表示的显著性数据优选地还包括识别空间表示的第二深度数据，该第二深度数据与在包括视线会聚距离的预定范围外所获得的深度数据相对应。与第一深度区域相反，对于空间表示的第二深度区域不确定显著性数据。相反，在识别出第二深度区域之后，该方法明确抑制对第二深度区域的显著性数据进行确定。

空间表示的所识别的第二深度区域与用户的视野的至少一部分中的对象或特征相对应，这些对象或特征在包括所确定的视线会聚距离的预定范围外。相比与空间表示的具有预定范围内的深度数据的区域相对应的对象或特征，用户通常不太可能正看着前述预定范围外的对象或特征中之一。因此，抑制对于第二深度区域的显著性数据进行确定以避免可能不必要或甚至可能提供误导结果的处理是有益的，因为用户不太可能看着与空间表示的具有预定范围外的深度数据的区域相对应的对象和/或特征。

通常，由于用户所注视的关注点在正常情况下会随时间改变，因此重复执行方法100以随时间产生新的精细的注视点。因此，方法100通常进一步包括：确定用户的新视线会聚距离，基于该新视线会聚距离确定空间表示的新显著性数据，以及基于新显著性数据确定用户的新的精细的注视点。因此，基于随时间确定的新的视线会聚距离来确定动态的新的精细的注视点。设想了若干种替代方案，诸如例如仅使用当前确定的新的视线会聚距离或在预定时间段内确定的视线会聚点的均值。此外，如果用户的视野也随时间变化，则获得新的空间表示并且获得新的空间表示的至少一部分的新的深度数据。

由眼睛***提供的附加的自上而下的信息可以是用户的一个或多个所确定的注视点。方法100可以进一步包括确定132用户的多个注视点，以及基于用户的所确定的多个注视点来识别134空间表示的裁剪区域。通常，该多个注视点是在某一时间段内确定的。通常，所确定的多个注视点中的所确定的各个注视点可以彼此不同。这可能是因为用户在该时间段内看着不同的点，也可能是因为所确定的各个注视点的误差，即，用户可能实际上在该时间段内看着同一点，但是所确定的各个注视点仍然彼此不同。裁剪区域优选地包括所确定的多个注视点中的全部注视点。裁剪区域的大小可以取决于例如所确定的注视点的准确性，使得较高的准确性将导致较小的裁剪区域。

相比与裁剪区域外的区域相对应的点，用户通常更可能正看着与裁剪区域相对应的点。因此，确定裁剪区域的显著性数据并且基于所确定的显著性数据来确定精细的注视点是有益的。此外，由于相比与裁剪区域外的区域相对应的点用户更可能正看着与裁剪区域相对应的点，因此可以抑制对于在空间表示的所识别的裁剪区域外的空间表示的区域的显著性数据进行确定。相比对空间表示的所有区域确定显著性数据，对于空间表示的在所识别的裁剪区域外的每个区域不确定显著性数据，将减少所需的处理量。通常，在用户看着剪裁区域内的某一点的概率维持在较高水平时，可以使裁剪区域显著小于整个空间表示。因此，抑制对裁剪区域外的空间表示的区域的显著性数据进行确定可以显著减少处理量。

作为在确定显著性数据时使用所识别的裁剪区域的补充或替代方案，可以在获得深度数据时使用裁剪区域。例如，由于相比与裁剪区域外的区域相对应的点用户更可能正看着与裁剪区域相对应的点，因此可以对于所识别的裁剪区域获得深度数据，并且不需要对裁剪区域外的区域获得深度数据。然后，可以仅基于所识别的裁剪区域的所获得的深度数据来确定裁剪区域内的显著性数据。因此，可以减少用于获得深度数据和确定显著性数据所需的处理量。

方法100可以进一步包括确定用户的至少第二视线会聚距离。然后，识别该空间表示的第一深度区域，该第一深度区域与基于所述确定的视线会聚距离和所确定的至少第二视线会聚距离而确定的范围内的深度数据相对应。然后，确定空间表示的第一深度区域的显著性数据。

空间表示的所识别的第一深度区域与用户的视野的至少一部分中的对象或特征相对应，这些对象或特征是在基于所确定的视线会聚距离和所确定的至少第二视线会聚距离而确定的范围内。相比与空间表示的具有该范围外的深度数据的区域相对应的对象或特征，用户通常更可能正看着前述范围内的这些对象或特征中的一个。因此，对第一深度区域的识别提供了可用于识别用户所注视的关注点的进一步信息。

存在用于基于所确定的视线会聚距离和所确定的至少第二视线会聚距离来确定范围的若干种替代方案。在第一示例中，可以确定所确定的视线会聚距离和所确定的至少第二视线会聚距离中的最大视线会聚距离和最小视线会聚距离。然后，可以将最大视线会聚距离和最小视线会聚距离用于识别空间表示的的第一深度区域，该第一深度区域与在包括所确定的最大视线会聚距离和最小视线会聚距离的范围内的所获得的深度数据相对应。可以取决于例如所确定的视线会聚距离的准确性、所获得的深度数据的准确性以及其他因素而将该范围设置为更宽或更窄。作为示例，该范围可以设置为从所确定的最小视线会聚距离到最大视线会聚距离。然后，确定空间表示的第一深度区域的显著性数据。

在第一示例中，空间表示的所识别的第一深度区域与用户的视野的至少一部分中的对象或特征相对应，这些对象或特征在包括所确定的最大视线会聚距离和最小视线会聚距离的范围内。相比与空间表示的具有该范围外的深度数据的区域相对应的对象或特征，用户通常更可能正看着前述范围内的这些对象或特征中的一个。因此，根据第一示例对第一深度区域的识别提供了可用于识别用户注视的关注点的进一步的信息。

在第二示例中，可以确定用户的所确定的视线会聚距离与所确定的至少第二视线会聚距离的均值视线会聚距离。然后，可以将均值视线会聚距离用于识别空间表示的第一深度区域，该第一深度区域与在包括所确定的均值视线会聚距离的范围内的所获得的深度数据相对应。可以取决于例如所确定的视线会聚距离的准确性、所获得的深度数据的准确性以及其他因素而将该范围设置得更宽或更窄。然后，可以确定空间表示的第一深度区域的显著性数据。

在第二示例中，空间表示的所识别的第一深度区域与用户的视野的至少一部分中的对象或特征相对应，这些对象或特征在包括所确定的均值视线会聚距离的范围内。相比与空间表示的具有该范围外的深度数据的区域相对应的对象或特征，用户通常更可能正看着前述范围内的这些对象或特征中的一个。因此，根据第二示例对第一深度区域的识别提供了可用于识别用户注视的关注点的进一步的信息。

根据所确定的显著性数据，可以将用户的精细的注视点确定150为与最高显著性相对应的点。所确定的改善的注视点将因此是在某些方面最可能吸引视觉注意的点。再加上使用与确定144空间表示的所识别的第一深度区域的显著性数据——该第一深度区域与在包括所确定的视线会聚距离的预定范围内的所获得的深度数据相对应，所确定的精细的注视点将因此是在第一深度区域内在某些方面最可能吸引视觉注意的点。这可以进一步结合识别132多个注视点、识别134包括所确定的多个注视点的裁剪区域、以及仅获得130裁剪区域的深度数据。此外，可以仅确定146所识别的裁剪区域，并且可选地可以仅确定所识别的深度区域的显著性数据，或者可以与所识别的深度区域的显著性数据组合以使得仅对裁剪区域内的深度区域产生显著性数据。所确定的精细的注视点将因此是在裁剪区域内的第一深度区域内在某些方面最可能吸引视觉注意的点。

确定空间表示的显著性数据可以包括：基于视觉显著性来确定空间表示的第一显著性数据，基于所确定的视线会聚距离和所获得的深度数据来确定空间表示的第二显著性数据，以及基于第一显著性数据和第二显著性数据来确定显著性数据。视觉显著性是物品、或图像中的物品吸引视觉注意的能力(自下而上，即，该值是未知的，但是可以从算法中推测)。更详细地，视觉显著性是区别性的主观感知品质，其使得世界上的某些物品从其周围事物中突显出来并且立即引起我们的注意。视觉显著性可以基于颜色、对比度、形状、取向、运动或任何其他感知特性。

一旦已经基于所确定的视线会聚距离和所获得的深度数据计算出的不同的显著性特征(诸如视觉显著性和深度显著性)的显著性数据，就可以将它们归一化并组合以形成主显著性结果。深度显著性与用户所看着的深度相关(自上而下，即，该值是已知的)。符合所确定的会聚距离的距离被认为示更显著的。当组合显著性特征时，可以对每个特征进行均等地加权或者根据哪些特征被估计为对视觉注意的影响最大和/或与平均值或预期值相比哪些特征具有最高的最大显著性值令每个特征具有不同的权重。显著性特征的组合可以通过赢者通吃(Winner-Take-All)机制确定。可选地，可以将主显著性结果转换为主显著性图：整体显著性的地形图表示。这对于人类观察者来说是有用的步骤，但在将显著性结果用作计算机程序的输入的情况下这不是必需的步骤。在主显著性结果中，某一单个空间位置应该突显为最显著的。

图2包括展示了来自根据本公开内容的方法的实施例的步骤的结果的图像。呈图像210形式的用户的视野的至少一部分的空间表示是用于确定精细的注视点的方法的输入。在图像210中确定多个注视点，并且识别裁剪区域，该剪裁区域包括如图像215所展示的多个所确定的注视点。此外，获得用户的视野的至少一部分的立体图像220，识别如图像225所展示的裁剪区域，并且基于立体图像220的获得裁剪区域(如在图像230中所展示)的深度数据。然后，接收用户的视线会聚距离(该视线会聚距离在本示例中为3.5m)，并且将第一深度区域确定为裁剪区域中与在视线会聚距离左右的范围内的深度数据相对应的区域。在本示例中，该范围是3m<x<4m，并且所得的第一深度区域展示在图像235中。确定在240中展示的裁剪区域的视觉显著性，以产生以裁剪区域的显著性图245的形式展示的显著性数据。将显著性图245与图像235中展示的第一深度区域组合成裁剪区域内的第一深度区域的显著性图250。精细的注视点是这样的点：其被识别为在裁剪区域内的第一深度区域中具有最高显著性的点。此点在图像255中被展示为黑色圆点。

图3是展示了根据本公开内容的方法的步骤的流程图。总体上，该流程图展示了与基于新的所确定的注视点来随时间识别裁剪区域有关(例如，与如图1所展示的方法的实施例有关)的步骤。所识别的裁剪区域是先前已经基于多个先前确定的注视点识别出的裁剪区域。然后，确定310新的注视点。在所确定的新的注视点在所识别的裁剪区域内的情况下320，不改变所识别的裁剪区域而是继续使用该裁剪区域，并且确定310新的注视点。看待这种情况的替代方式是，新裁剪区域被确定为与所识别的裁剪区域相同。在所确定的新的注视点不在所识别的裁剪区域内(即，在所识别的裁剪区域外)的情况下320，确定330包括所确定的新的注视点的新的裁剪区域。在这种情况下，新的裁剪区域将与所识别的裁剪区域不同。

图4是展示了根据本公开内容的方法的进一步步骤的流程图。总体上，该流程图展示了与基于新的所确定的注视点来随时间确定精细的注视点有关(例如，与如图1所展示的方法的实施例有关)的步骤。分别在连续的时间间隔中确定410用户的连续的注视点。此外，针对每个时间间隔，确定420用户正在凝视还是扫视(saccading)。在用户正在凝视的情况下420，确定430精细的注视点。在该用户正在扫视的情况下420，对于确定精细的注视点作出抑制。如果用户正在凝视，则用户可能在该时间点正看着某个点，并且因此，可能正确地确定精细的注视点。另一方面，如果用户正在扫视，则用户在该时间点不太可能看着某个点，并且因此，不太可能正确地确定精细的注视点。参照图1，这可能例如意味着只有在确定用户正在凝视的情况下才执行方法100。

图5是展示了根据本公开内容的方法的又进一步步骤的流程图。总体上，该流程图展示了与基于所确定的注视点来随时间识别裁剪区域有关(例如，与如图1所展示的方法的实施例有关)的步骤。所识别的裁剪区域是先前已经基于多个先前确定的注视点识别出的裁剪区域。分别在连续的时间间隔中确定510用户的连续的注视点。此外，针对每个时间间隔，确定520用户是否正平稳跟随(smooth pursuit)。在用户正平稳跟随的情况下520，基于该平稳跟随来确定530新的裁剪区域。如果确定了平稳跟随，则在确定裁剪区域遵循该平稳跟随的情况下，几乎不需要附加处理即可确定连续的裁剪区域。例如，连续的裁剪区域可能具有相同的形状，并且可以简单地以与用户的平稳跟随相同的方向和速度相对于彼此移动。在用户未在平稳跟随的情况下520，确定包括多个注视点的新的裁剪区域，该多个注视点包括所确定的新的注视点。

图1包括在具有实线边框的框中展示的一些步骤和在具有虚线边框的框中展示的一些步骤。包括在具有实线边框的框中的步骤是包括在最广泛的示例实施例中的操作。包括在具有虚线边框的框中的步骤是可以包括在边框示例实施例中、或者可以作为这些边框示例实施例的一部分、或者是可以作为这些边框示例实施例的操作的补充而采取的进一步操作。并非所有步骤都需要按顺序执行，并且并非所有操作都需要执行。此外，这些步骤中的至少一些可以并行执行。

如本文例如关于图1至图5所公开的用于确定用户的精细的注视点的方法及其步骤可以在眼睛跟踪***600中实施，例如在图6的头戴式设备中实施。眼睛跟踪***600包括处理器610和载体620，该载体包括例如呈计算机程序形式的计算机可执行指令630，这些指令当由处理器610执行时使眼睛跟踪***600执行该方法。载体620可以例如是电子信号、光信号、无线电信号、暂时性计算机可读存储介质和非暂时性计算机可读存储介质。

本领域技术人员认识到，本发明决不限于上述实施例。相反，在所附权利要求的范围内可以进行许多修改和变化。

另外地，在实践所要求保护的发明时，本领域的技术人员可以通过研究附图、公开内容以及所附权利要求书来理解和实现所公开实施例的变体。在权利要求中，词语“包括”不排除其他要素或步骤，并且不定冠词“一”或“一个”并不排除多个。本文所使用的术语仅出于描述公开内容的特定方面的目的，而不旨在限制本发明。本公开内容提及的功能单元之间任务的划分不一定对应于划分为多个物理单元；相反，一个物理部件可以具有多个功能，并且一个任务可以通协作的过若干物理部件以分布式方式来执行。计算机程序可以存储/分布在合适的非暂时性介质(诸如与其他硬件一起提供的或作为其他硬件的一部分而提供的光学存储介质或固态介质)上，但是也可以诸如经由互联网或其他有线或无线电信***以其他形式来分配。在相互不同的从属权利要求中引述某些措施/特征这个单纯的事实并不表明不能有利地使用这些措施/特征的组合。方法步骤不一定必须以它们在权利要求或本文描述的实施例中出现的顺序来执行，除非明确描述了要求一定的顺序。权利要求中的任何附图标记都不应该被理解为对范围进行限制。

Claims

1.一种在眼睛跟踪***中用于确定用户的精细的注视点的方法，所述方法包括：

确定所述用户的视线会聚距离；

获得所述用户的视野的至少一部分的空间表示；

获得所述空间表示的至少一部分的深度数据；

基于确定的视线会聚距离和获得的深度数据来确定所述空间表示的显著性数据；以及

基于确定的显著性数据来确定所述用户的精细的注视点。

2.如权利要求1所述的方法，其中，确定所述空间表示的显著性数据包括：

识别所述空间表示的第一深度区域，所述第一深度区域与在包括所述确定的视线会聚距离的预定范围内的获得的深度数据相对应；以及

确定所述空间表示的所述第一深度区域的显著性数据。

3.如权利要求1和2中任一项所述的方法，其中，确定所述空间表示的显著性数据包括：

识别所述空间表示的第二深度区域，所述第二深度区域与在包括所述视线会聚距离的所述预定范围外的获得的深度数据相对应；以及

对于确定所述空间表示的所述第二深度区域的显著性数据予以抑制。

4.如权利要求1至3中任一项所述的方法，其中，确定精细的注视点包括：

根据确定的显著性数据，将所述用户的所述精细的注视点确定为与最高显著性相对应的点。

5.如权利要求1至4中任一项所述的方法，其中，确定显著性数据包括：

基于视觉显著性来确定所述空间表示的第一显著性数据；

基于所述确定的视线会聚距离和所述获得的深度数据来确定所述空间表示的第二显著性数据；以及

基于所述第一显著性数据和所述第二显著性数据确定显著性数据。

6.如权利要求1至5中任一项所述的方法，进一步包括：

确定所述用户的新的视线会聚距离；

基于所述新的视线会聚距离来确定所述空间表示的新的显著性数据；以及

基于所述新的显著性数据来确定所述用户的新的精细的注视点。

7.如权利要求1至6中任一项所述的方法，进一步包括：

确定所述用户的多个注视点；以及

基于所述用户的确定的所述多个注视点来识别所述空间表示的裁剪区域。

8.如权利要求7所述的方法，其中，确定显著性数据包括：

确定所述空间表示的识别的裁剪区域的显著性数据。

9.如权利要求7和8中任一项所述的方法，进一步包括：

对于确定所述空间表示的在所述空间表示的识别的裁剪区域外的区域的显著性数据进行抑制。

10.如权利要求7至9中任一项所述的方法，其中，获得深度数据包括：

获得所述空间表示的识别的裁剪区域的深度数据。

11.如权利要求2中任一项所述的方法，进一步包括：

确定所述用户的至少第二视线会聚距离，

其中，识别所述空间表示的所述第一深度区域，所述第一深度区域与基于所述用户的所述确定的视线会聚距离和所述确定的至少第二视线会聚距离的范围内的获得的深度数据相对应。

12.如权利要求7至11中任一项所述的方法，进一步包括：

确定所述用户的新的注视点；

在确定的新的注视点在所述识别的裁剪区域内的情况下，将新的裁剪区域识别为与所述识别的裁剪区域相同；或者

在确定的新的注视点在所述识别的裁剪区域外的情况下，识别包括所述确定的新的注视点并且不同于所述识别的裁剪区域的新的裁剪区域。

13.如权利要求7至12中任一项所述的方法，其中，分别在连续的时间间隔中确定所述用户的连续的注视点，进一步包括，针对每个时间间隔：

确定所述用户正在凝视还是扫视；

在所述用户正在凝视的情况下，确定精细的注视点；以及

在所述用户正在扫视的情况下，对于确定精细的注视点予以抑制。

14.如权利要求7至12中任一项所述的方法，其中，分别在连续的时间间隔中确定所述用户的连续的注视点，进一步包括，针对每个时间间隔：

确定所述用户是否正平稳跟随；以及

在所述用户正平稳跟随的情况下，识别分别包括所述连续的注视点的连续的裁剪区域，使得识别的连续的裁剪区域遵循所述平稳跟随。

15.如权利要求1至14中任一项所述的方法，其中，所述空间表示是图像。

16.一种用于确定用户的注视点的眼睛跟踪***，所述眼睛跟踪***包括处理器和存储器，所述存储器包含可由所述处理器执行的指令，通过执行所述指令，所述眼睛跟踪***能操作以：

确定所述用户的视线会聚距离；

获得所述用户的视野的至少一部分的空间表示；

获得所述空间表示的至少一部分的深度数据；

基于确定的显著性数据来确定所述用户的精细的注视点。

17.一种用于确定用户的注视点的头戴式设备，所述头戴式设备包括处理器和存储器，所述存储器包含可由所述处理器执行的指令，通过执行所述指令，所述头戴式设备能操作以：

确定所述用户的视线会聚距离；

获得所述用户的视野的至少一部分的空间表示；

获得所述空间表示的至少一部分的深度数据；

基于确定的显著性数据来确定所述用户的精细的注视点。

18.如权利要求17所述的头戴式设备，进一步包括透明显示器与非透明显示器之一。

19.一种计算机程序，所述计算机程序包括指令，所述指令当由至少一个处理器执行时，使所述至少一个处理器：

确定所述用户的视线会聚距离；

获得所述用户的视野的空间表示；

获得所述空间表示的至少一部分的深度数据；

基于确定的显著性数据来确定所述用户的精细的注视点。

20.一种载体，所述载体包括根据权利要求19所述的计算机程序，其中，所述载体是电子信号、光信号、无线电信号和计算机可读存储介质之一。