CN116091541A

CN116091541A - 眼动追踪方法、装置、电子设备、存储介质和程序产品

Info

Publication number: CN116091541A
Application number: CN202211653531.1A
Authority: CN
Inventors: 张环宇
Original assignee: Zeku Technology Shanghai Corp Ltd
Current assignee: Zeku Technology Shanghai Corp Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-05-09

Abstract

本申请涉及一种眼动追踪方法、装置、电子设备、存储介质和程序产品。所述方法包括：获取待检测图像；根据所述待检测图像和预设的检测模型进行眼动追踪，得到眼动追踪结果；其中，所述检测模型为根据样本图像、所述样本图像对应的增强图像和教师模型对初始检测模型进行训练得到的。采用本方法能够准确地进行眼动追踪。

Description

眼动追踪方法、装置、电子设备、存储介质和程序产品

技术领域

本申请涉及眼动追踪技术领域，特别是涉及一种眼动追踪方法、装置、电子设备、存储介质和程序产品。

背景技术

随着模式识别与计算机视觉技术的发展，眼动追踪技术得到了广泛应用。眼动追踪技术通过测量眼睛的运动情况估计眼睛的凝视点，从而实时追踪眼睛的变化，根据眼睛的变化对用户的状态和需求进行预测。

传统技术中，主要是利用训练好的神经网络模型学习人脸图像中眼部特征到注视方向之间的映射关系，以进行眼动追踪。然而，传统的眼动追踪方法，存在准确度较低的问题。

发明内容

本申请实施例提供了一种眼动追踪方法、装置、电子设备、存储介质和程序产品，可以准确地进行眼动追踪。

第一方面，本申请实施例提供了一种眼动追踪方法，包括：

获取待检测图像；

根据所述待检测图像和预设的检测模型进行眼动追踪，得到眼动追踪结果；其中，所述检测模型为根据样本图像、所述样本图像对应的增强图像和教师模型对初始检测模型进行训练得到的。

第二方面，本申请实施例提供了一种眼动追踪装置，包括：

第一获取模块，用于获取待检测图像；

第二获取模块，用于根据所述待检测图像和预设的检测模型进行眼动追踪，得到眼动追踪结果；其中，所述检测模型为根据样本图像、所述样本图像对应的增强图像和教师模型对初始检测模型进行训练得到的。

第三方面，本申请实施例提供了一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如第一方面所述的眼动追踪方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的眼动追踪方法的步骤。

上述眼动追踪方法、装置、电子设备、存储介质和程序产品，由于预设的检测模型是根据样本图像、样本图像对应的增强图像和教师模型对初始检测模型进行训练得到的，通过样本图像、样本图像对应的增强图像和教师模型能够对初始检测模型进行准确地训练，使得得到的检测模型的准确度较高，从而能够根据待检测图像和预设的检测模型进行准确度较高的眼动追踪，得到准确度较高的眼动追踪结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中眼动追踪方法的应用环境图；

图2为一个实施例中眼动追踪方法的流程图；

图3为另一个实施例中眼动追踪方法的流程图；

图4为另一个实施例中眼动追踪方法的流程图；

图5为另一个实施例中眼动追踪方法的流程图；

图6为另一个实施例中眼动追踪方法的流程图；

图7为另一个实施例中眼动追踪方法的流程图；

图8为另一个实施例中眼动追踪方法的流程图；

图9为另一个实施例中眼动追踪方法的流程图；

图10为另一个实施例中眼动追踪方法的流程图；

图11为一个实施例中检测模型的训练流程示意图；

图12为一个实施例中眼动追踪装置的结构框图；

图13为另一个实施例中眼动追踪装置的结构框图；

图14为另一个实施例中眼动追踪装置的结构框图；

图15为另一个实施例中眼动追踪装置的结构框图；

图16为另一个实施例中眼动追踪装置的结构框图；

图17为另一个实施例中眼动追踪装置的结构框图；

图18为另一个实施例中眼动追踪装置的结构框图；

图19为另一个实施例中眼动追踪装置的结构框图；

图20为一个实施例中计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的眼动追踪方法，可以应用于如图1所示的应用环境中。其中，电子设备102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上，也可以放在云上或其他网络服务器上。电子设备102可以向服务器104发送获取请求，从服务器104中获取对应的信息。其中，电子设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种眼动追踪方法，以该方法应用于图1中的电子设备为例进行说明，包括以下步骤：

S201，获取待检测图像。

其中，待检测图像为使用电子设备的用户的图像。可选的，待检测图像中可以包括有人脸，也可以不包括人脸。可选的，待检测图像可以为利用电子设备的摄像头进行拍摄得到的图像。可选的，获取的待检测图像可以为用户的正面图像，也可以为用户的侧面图像等等，又或者，获取的待检测图像可以为用户远离电子设备的图像，也可以为用户靠近电子设备的图像。可选的，待检测图像可以是用户使用电子设备进行阅读时采集的图像，也可以是用户使用电子设备观看视频时采集的图像等等，本实施例在此不做限制。可选的，获取的待检测图像中可以为包括有一个用户的图像，也可以为包括有多个用户的图像。

S202，根据待检测图像和预设的检测模型进行眼动追踪，得到眼动追踪结果；其中，检测模型为根据样本图像、样本图像对应的增强图像和教师模型对初始检测模型进行训练得到的。

其中，样本图像对应的增强图像为对样本图像进行翻转、平移等变换处理所得到的，进一步地，检测模型为预先根据样本图像、样本图像对应的增强图像和教师模型对初始检测模型进行弱监督训练得到的，也就是说，在对初始检测模型进行训练的过程中，可以将初始检测模型作为学生模型，利用教师模型指导初始检测模型的学习训练，并利用样本图像、样本图像对应的增强图像对初始检测模型进行训练，进而得到训练好的检测模型，从而根据根据训练好的检测模型和待检测图像进行眼动追踪，得到眼动追踪结果。

可以理解的是，可以将根据待检测图像和检测模型得到的眼动追踪结果应用到不同的眼动追踪场景中。示例性地，可以将得到的眼动追踪结果应用到注视不熄屏的场景中，即根据眼动追踪结果控制电子设备的屏幕亮屏或者熄屏，或者，也可以将得到的眼动追踪结果应用到自动翻页的场景中，即在使用电子设备的自动阅读功能时，可以根据眼动追踪结果控制电子设备的屏幕进行翻页，又或者，也可以将得到的眼动追踪结果应用到护眼提示的场景中，即根据眼动追踪结果确定人眼与电子设备的摄像头的距离，根据人眼与电子设备的摄像头的距离进行护眼提示。

上述眼动追踪方法中，由于预设的检测模型是根据样本图像、样本图像对应的增强图像和教师模型对初始检测模型进行训练得到的，通过样本图像、样本图像对应的增强图像和教师模型能够对初始检测模型进行准确地训练，使得得到的检测模型的准确度较高，从而能够根据待检测图像和预设的检测模型进行准确度较高的眼动追踪，得到准确度较高的眼动追踪结果。

在上述根据待检测图像和预设的检测模型进行眼动追踪，得到眼动追踪结果的场景中，在一个实施例中，上述检测模型包括检测网络和追踪网络；如图3所示，上述S202，包括：

S301，将待检测图像输入检测网络，得到待检测图像中的人脸关键点。

其中，人脸关键点可以表征用户的头部姿态，例如，人脸关键点可以包括人脸中2个眼球的中心点，鼻尖1个点和下颌1个点。可选的，在本实施例中，可以将待检测图像输入检测网络中进行特征提取，利用提取的特征对待检测图像进行分析，得到待检测图像中的人脸关键点。可选的，在将待检测图像输入检测网络之前，还可以对待检测图像进行平滑、滤波等处理，去除待检测图像中的噪声点，进而将处理后的待检测图像输入到检测网络中，得到待检测图像中的人脸关键点。

S302，根据人脸关键点和追踪网络，获取眼动追踪结果。

可选的，在本实施例中，可以将人脸关键点输入追踪网络，获取眼动追踪结果，例如，获取的眼动追踪结果可以是人眼的注视点估计结果；或者，也可以将人脸关键点输入追踪网络，得到待检测图像中的人眼图像，进而利用得到的人眼图像进行眼动追踪，得到眼动追踪结果。

本实施例中，通过将待检测图像输入检测网络，能够准确地得到待检测图像中的人脸关键点，进而根据人脸关键点和追踪网络能够准确地获取眼动追踪结果，提高了获取的眼动追踪结果的准确度。

本实施例中将对得到待检测图像中的人脸关键点的过程加以详细说明。在一个实施例中，上述检测网络包括主干网络、人脸识别网络和关键点检测网络；如图4所示，上述S301，包括：

S401，将待检测图像输入主干网络中，得到待检测图像的特征。

其中，主干网络可以为轻量级的MobileNetV2网络，或者，也可以为resnet网络，本实施例在此不对主干网络的类型加以限制，可以根据电子设备的处理能力选择对应的主干网络。可选的，在本实施例中，可以通过主干网络中的卷积层对待检测图像进行特征提取，得到待检测图像的特征。

S402，将待检测图像的特征输入人脸识别网络中，得到待检测图像对应的人脸图像。

在本实施例中，可以在上述主干网络后连接人脸识别网络，通过人脸识别网络对主干网络提取出来的待检测图像的特征进行分析识别，从而输出待检测图像对应的人脸图像。需要说明的是，待检测图像对应的人脸图像为待检测图像的中的人脸局部图像，另外，本实施例中得到的人脸图像为包括左脸和右脸的人脸图像，若识别出的人脸图像只包括左脸图像或只包括右脸图像，则可以将只包括左脸图像或只包括右脸图像的人脸图像剔除。

S403，将人脸图像输入关键点检测网络中，得到人脸关键点。

在本实施例中，关键点检测网络为预先训练好的能够识别人脸图像中关键点的网络，可以将上述得到的人脸图像输入关键点检测网络中，通过关键点检测网络对人脸图像进行识别，从而得到人脸图像中的人脸关键点。

本实施例中，将待检测图像输入检测网络的主干网络中，能够通过主干网络准确地得到待检测图像的特征，从而可以将待检测图像的特征输入检测网络的人脸识别网络中，准确地得到待检测图像对应的人脸图像，进而可以将得到的人脸图像输入检测网络的关键点检测网络中，通过关键点检测网络对人脸图像进行准确地处理，准确地得到人脸图像中的人脸关键点。

在上述根据人脸关键点和检测模型的追踪网络，获取眼动追踪结果的场景中，在一种场景中，获取的眼动追踪结果可以为注视点估计结果。在一个实施例中，如图5所示，上述S302，包括：

S501，将人脸关键点和人脸图像输入识别网络中，得到待检测图像对应的人眼图像。

其中，人眼图像为人脸图像中的左右眼图像，在本实施例中，可以将上述得到的人脸关键点和人脸图像输入追踪网络的识别网络中，通过识别网络对人脸图像进行截取，得到人眼图像，例如，识别网络可以以上述人脸关键点中的2个眼球中心为中心点，以人脸图像中的1/3人脸宽度为边，截取左右眼图，得到待检测图像对应的人眼图像；又或者，识别网络可以以上述人脸关键点中的2个眼球中心为中心点，以人脸图像中的1/4人脸宽度为边，截取左右眼图，得到待检测图像对应的人眼图像。

S502，根据人脸关键点和人眼图像，得到第一注视点估计结果。

可选的，在本实施例中，追踪网络中还可以包括分析网络，可以将人脸关键点和人眼图像输入该分析网络中，得到第一注视点估计结果；或者，也可以是通过预设算法对人脸关键点和人眼图像进行分析，得到第一注视点估计结果。进一步地，在本实施例中，在电子设备的屏幕显示状态为亮屏状态下，若上述第一注视点估计结果表示人眼注视点位于电子设备的屏幕之外的区域，例如，若第一注视点估计结果表示人眼注视点位于电子设备的屏幕之外的向外扩展1cm的区域，则可以控制电子设备的屏幕熄屏，也就是说，在电子设备的屏幕显示状态为亮屏状态下，可以根据第一注视点估计结果，在人眼注视电子设备的屏幕时不熄屏，在人眼不注视电子设备的屏幕时熄屏。或者，作为另一种可选的实施方式，在本实施例中，在电子设备的屏幕显示状态为熄屏状态下，若上述第一注视点估计结果表示注视点位于电子设备的屏幕上，则控制电子设备的屏幕亮屏，也就是说，在电子设备的屏幕显示状态为息屏状态下，可以根据第一注视点估计结果，在人眼注视电子设备的屏幕时亮屏。

本实施例中，通过将人脸关键点和人脸图像输入识别网络中，能够准确地得到待检测图像对应的人眼图像，进而可以根据人脸关键点和人眼图像，准确地得到第一注视点估计结果，确保得到的第一注视点估计结果的准确度。

在上述得到人眼图像的场景中，还可以进一步地基于人眼图像获取虹膜分割后的人眼图像，利用虹膜分割后的人眼图像进行眼动追踪。在上述实施例的基础上，在一个实施例中，上述追踪网络还包括分割网络和估计网络，如图6所示，上述方法还包括：

S601，将人眼图像输入分割网络中，得到虹膜分割后的人眼图像。

其中，分割网络可以为由卷积层和池化层组成的网络，在本实施例中，可以将人眼图像输入该分割网络中，通过卷积层和池化层对输入的人眼图像进行处理，得到虹膜分割后的人眼图像。

S602，将人脸关键点、人眼图像和虹膜分割后的人眼图像输入估计网络中，得到第二注视点估计结果。

在本实施例中，可以在分割网络后接估计网络，通过该估计网络对人脸关键点、人眼图像和虹膜分割后的人眼图像进行处理，得到第二注视点估计结果。可以理解的是，在本实施例中得到的第二注视点估计结果是利用人脸关键点、人眼图像和虹膜分割后的人眼图像得到的，通过虹膜分割后的人眼图像能够获取更加丰富的人眼信息，能够进一步地确保得到的注视点估计结果的准确度，使得得到的第二注视点估计结果更加的准确。

S603，若第二注视点估计结果表示注视点位于电子设备的屏幕的预设区域，则控制电子设备进行翻页操作。

在本实施例中，可以将上述得到的第二注视点估计结果用于电子设备的智能阅读模式中，即若第二注视点估计结果表示注视点位于电子设备的屏幕的预设区域，则控制电子设备进行翻页操作。可选的，本实施例中的预设区域可以为电子设备的底部区域，也就是说，当第二注视点估计结果表示注视点位于电子设备的屏幕底部时可以控制电子设备进行自动翻页，实现智能阅读。

本实施例中，通过将人眼图像输入分割网络中，能够通过分割网络对人眼图像进行准确地分割，得到准确度较高的虹膜分割后的人眼图像，从而可以将人脸关键点、人眼图像和虹膜分割后的人眼图像输入估计网络中，得到第二注视点估计结果，并在第二注视点估计结果表示注视点位于电子设备的屏幕的预设区域时，控制电子设备进行翻页操作，由于得到的第二注视点估计结果的准确度较高，因此，也确保了控制电子设备进行翻页操作的准确度。

在上述得到虹膜分割后的人眼图像后，还可以根据虹膜分割后的人眼图像进行护眼提示。在一个实施例中，如图7所示，上述方法还包括：

S701，根据虹膜分割后的人眼图像，获取虹膜面积。

可选的，在本实施例中，可以对虹膜分割后的人眼图像中的虹膜进行计算，获取人眼图像中虹膜的面积。例如，在本实施例中，可以利用虹膜分割后的人眼图像中虹膜的宽度和长度，获取人眼图像中虹膜的面积。

S702，根据虹膜面积，得到人眼到电子设备摄像头的距离。

可以理解的是，人眼到电子设备摄像头的距离越近虹膜面积越大，人眼到电子设备摄像头的距离越远虹膜面积越小。在本实施例中，可以根据此关系和人眼图像中虹膜的虹膜面积，得到人眼到电子设备摄像头的距离。

S703，若距离小于预设距离阈值，则控制电子设备输出护眼提示信息。

在本实施例中，若确定人眼到电子设备摄像头的距离小于预设距离阈值，则说明人眼距离电子设备过近，可以控制电子设备输出护眼提示信息，以提醒用户保持和电子设备的距离。可选的，在本实施例中，可以控制电子设备输出文字护眼提示信息，也可以控制电子设备输出语音护眼提示信息，本实施例在此不做限制。

本实施例中，根据虹膜分割后的人眼图像，能够准确地获取人眼图像中虹膜面积，从而可以根据虹膜面积，准确地得到人眼到电子设备摄像头的距离，这样在人眼到电子设备摄像头的距离小于预设距离阈值时，控制电子设备输出护眼提示信息，能够及时准确地提醒用户保持和电子设备之间的距离，使得用户在使用电子设备的同时，能够对眼睛进行保护。

本实施例中将对上述用到的检测模型的训练过程加以详细说明。在一个实施例中，上述初始检测模型包括初始检测网络和初始追踪网络，如图8所示，上述方法还包括：

S801，将样本图像输入初始检测网络，得到样本图像中的样本人脸关键点。

在本实施例中，可以将上述样本图像输入初始检测网络中，通过初始检测网络对样本图像进行特征提取等处理，得到样本图像中的样本人脸关键点。可选的，本实施例中的初始检测网络中可以包括卷积层等神经网络层，可以通过初始检测网络的卷积层等神经网络层对样本图像进行处理，得到样本图像中的样本人脸关键点。

S802，根据样本人脸关键点和初始追踪网络，获取第一样本眼动追踪结果。

可选的，在本实施例中，可以将样本人脸关键点输入到初始追踪网络中，通过初始追踪网络对样本人脸关键点进行处理，获取第一样本眼动追踪结果。可以理解的是，本实施例中得到的第一样本眼动追踪结果可以为对样本图像中的人眼注视点的估计结果。

S803，根据第一样本眼动追踪结果、增强图像和教师模型，对初始检测模型进行训练，得到检测模型。

可选的，在本实施例中，可以将初始检测模型作为学生模型，利用教师模型指导初始检测模型的训练，并将样本图像对应的增强图像输入初始检测模型中，得到增强图像对应的输出，进而利用上述得到的第一样本眼动追踪结果、增强图像对应的输出和教师模型，对初始检测模型进行训练，得到上述检测模型。

本实施例中，将样本图像输入初始检测网络中，能够通过初始检测网络得到样本图像中的样本人脸关键点，从而可以根据样本人脸关键点和初始追踪网络，获取第一样本眼动追踪结果，进而可以根据第一样本眼动追踪结果、样本图像对应的增强图像和教师模型对初始检测模型进行训练，由于该训练过程中利用教师模型能够加快初始检测模型的收敛速度，提升初始检测模型的训练效率，能够快速地得到训练好的检测模型。

在上述将样本图像输入初始检测网络中，得到样本图像中的样本人脸关键点的场景中，在一个实施例中，上述初始检测网络包括初始主干网络、初始人脸识别网络和初始关键点检测网络，如图9所示，上述S801，包括：

S901，将样本图像输入初始主干网络中，得到样本图像的第一样本特征。

其中，初始主干网络可以为轻量级的MobileNetV2网络，或者，也可以为resnet网络，本实施例在此不对初始主干网络的类型加以限制，可以根据电子设备的处理能力选择对应的初始主干网络。可选的，在本实施例中，可以通过初始主干网络中的卷积层对样本图像进行特征提取，得到样本图像的第一样本特征。

S902，将第一样本特征输入初始人脸识别网络中，得到样本图像对应的样本人脸图像。

在本实施例中，可以在上述初始主干网络后连接初始人脸识别网络，通过初始人脸识别网络对初始主干网络提取出来的样本图像的第一样本特征进行分析识别，从而输出样本图像对应的样本人脸图像。需要说明的是，样本图像对应的样本人脸图像为样本图像的中的人脸局部图像。

S903，将样本人脸图像输入初始关键点检测网络中，得到样本人脸关键点。

在本实施例中，可以将上述得到的样本人脸图像输入初始关键点检测网络中，通过初始关键点检测网络对样本人脸图像进行识别，从而得到样本人脸图像中的样本人脸关键点。

本实施例中，将样本图像输入初始检测网络的初始主干网络中，能够通过初始主干网络准确地得到样本图像的第一样本特征，从而可以将样本图像的第一样本特征输入初始检测网络的初始人脸识别网络中，准确地得到样本图像对应的样本人脸图像，进而可以将得到的样本人脸图像输入初始检测网络的初始关键点检测网络中，通过初始关键点检测网络对样本人脸图像进行准确地处理，准确地得到样本人脸图像中的样本人脸关键点。

在上述对初始检测模型进行训练的场景中，可以利用上述得到的第一样本特征、第一样本眼动追踪结果、增强图像和教师模型对初始检测模型进行训练，得到上述检测模型。在一个实施例中，如图10所示，上述S803，包括：

S1001，将增强图像输入初始主干网络中，得到增强图像的第二样本特征。

可选的，在本实施例中，可以通过初始主干网络中的卷积层对样本图像对应的增强图像进行特征提取，得到增强图像的第二样本特征。可以理解的是，若本实施例中样本图像对应的增强图像为样本图像对应的多个增强图像，则得到的第二样本特征为多个增强图像对应的第二样本特征。

S1002，将样本图像输入教师模型，得到第二样本眼动追踪结果。

其中，教师模型为预先训练好的能够处理样本图像的模型，在本实施例中，可以将样本图像输入教师模型中，得到第二样本眼动追踪结果，通过第二样本眼动追踪结果指导初始检测模型的训练。

S1003，根据第一样本特征、第二样本特征、第一样本眼动追踪结果、第二样本眼动追踪结果和样本图像对应的金标准眼动追踪结果，对初始检测模型进行训练，得到检测模型。

可选的，在本实施例中，如图11所示，上支路中的初始主干网络为复用的主干网络MobileNetV2，主干网络的表征输出经过转换器将主干网络的表征输出转换到弱监督学***均值，上支路中的初始主干网络的输入为样本图像的增强图像，上支路中初始主干网络的输出和下支路中初始主干网络的输出需要被最小化相似度，此部分为初始检测模型的第三部分损失函数，这一支路实现即为弱监督学习的另一重要部分，通过在数据表征空间用这种学习损失来最大化同一个数据示例的不同视图的表征一致性。

通过以上的描述，在本实施例中可以根据上述第一样本特征和第二样本特征，获取初始检测模型的第一损失函数的值，根据上述第一样本眼动追踪结果和样本图像对应的金标准眼动追踪结果，获取初始检测模型的第二损失函数的值，根据第二样本眼动追踪结果和金标准眼动追踪结果，获取初始检测模型的第三损失函数的值，进而利用第一损失函数的值、第二损失函数的值和第三损失函数的值，对初始检测模型进行训练，得到上述检测模型。可选的，在本实施例中，可以利用第一损失函数的值、第二损失函数的值和第三损失函数的值的加权和，对初始检测模型进行训练，得到上述检测模型。

进一步地，作为一种可选的实施方式，在对初始检测模型训练好后，可以对得到的检测模型进行量化处理，减小得到的检测模型的网络规模，将量化后的检测模型部署在电子设备中，示例性地，作为一种可选的实施方式，可以将得到的检测模型量化为8bit的检测模型，进而部署在电子设备中。

本实施例中，通过将样本图像对应的增强图像输入初始主干网络中，能够得到增强图像的第二样本特征，将样本图像输入教师模型，能够得到第二样本眼动追踪结果，从而可以利用得到的第一样本特征、第二样本特征、第一样本眼动追踪结果、第二样本眼动追踪结果和样本图像对应的金标准眼动追踪结果，对初始检测模型进行准确地训练，得到准确度较高的检测模型。

为了便于本领域技术人员的理解，以下对本公开提供的眼动追踪方法进行详细介绍，该方法可以包括：

S1，将样本图像输入初始检测网络的初始主干网络中，得到样本图像的第一样本特征。

S2，将第一样本特征输入初始检测网络的初始人脸识别网络中，得到样本图像对应的样本人脸图像。

S3，将样本人脸图像输入初始检测网络的初始关键点检测网络中，得到样本人脸关键点。

S4，根据样本人脸关键点和初始检测网络的初始追踪网络，获取第一样本眼动追踪结果。

S5，将增强图像输入初始主干网络中，得到增强图像的第二样本特征。

S6，将样本图像输入教师模型，得到第二样本眼动追踪结果。

S7，根据第一样本特征和第二样本特征，获取第一损失函数的值。

S8，根据第一样本眼动追踪结果和金标准眼动追踪结果，获取第二损失函数的值。

S9，根据第二样本眼动追踪结果和金标准眼动追踪结果，获取第三损失函数的值。

S10，根据第一损失函数的值、第二损失函数的值和第三损失函数的值，对初始检测模型进行训练，得到检测模型。

S11，获取待检测图像。

S12，将待检测图像输入检测模型的主干网络中，得到待检测图像的特征。

S13，将待检测图像的特征输入检测模型的人脸识别网络中，得到待检测图像对应的人脸图像。

S14，将人脸图像输入检测模型的关键点检测网络中，得到人脸关键点。

S15，将人脸关键点和人脸图像输入检测模型的识别网络中，得到待检测图像对应的人眼图像。

S16，根据人脸关键点和人眼图像，得到第一注视点估计结果。

S17，在电子设备的屏幕显示状态为亮屏状态下，若第一注视点估计结果表示注视点位于电子设备的屏幕之外的区域，则控制电子设备的屏幕息屏；或者，

在电子设备的屏幕显示状态为息屏状态下，若第一注视点估计结果表示注视点位于电子设备的屏幕上，则控制电子设备的屏幕亮屏。

S18，将人眼图像输入检测模型的分割网络中，得到虹膜分割后的人眼图像。

S19，将人脸关键点、人眼图像和虹膜分割后的人眼图像输入检测模型的估计网络中，得到第二注视点估计结果。

S20，若第二注视点估计结果表示注视点位于电子设备的屏幕的预设区域，则控制电子设备进行翻页操作。

S21，根据虹膜分割后的人眼图像，获取虹膜面积。

S22，根据虹膜面积，得到人眼到电子设备摄像头的距离。

S23，若人眼到电子设备摄像头的距离小于预设距离阈值，则控制电子设备输出护眼提示信息。

需要说明的是，针对上述步骤中的描述可以参见上述实施例中相关的描述，且其效果类似，本实施例在此不再赘述。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的眼动追踪方法的眼动追踪装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个眼动追踪装置实施例中的具体限定可以参见上文中对于眼动追踪方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种眼动追踪装置，包括：第一获取模块10和第二获取模块11，其中：

第一获取模块10，用于获取待检测图像。

第二获取模块11，用于根据待检测图像和预设的检测模型进行眼动追踪，得到眼动追踪结果；其中，检测模型为根据样本图像、样本图像对应的增强图像和教师模型对初始检测模型进行训练得到的。

本实施例提供的眼动追踪装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在上述实施例的基础上，如图13所示，可选的，上述检测模型包括检测网络和追踪网络；上述第二获取模块11，包括：第一获取单元111和第二获取单元112，其中：

第一获取单元111，用于将待检测图像输入检测网络，得到待检测图像中的人脸关键点。

第二获取单元112，用于根据人脸关键点和追踪网络，获取眼动追踪结果。

在上述实施例的基础上，可选的，上述检测网络包括主干网络、人脸识别网络和关键点检测网络；上述第一获取单元111，用于将待检测图像输入主干网络中，得到待检测图像的特征；将待检测图像的特征输入人脸识别网络中，得到待检测图像对应的人脸图像；将人脸图像输入关键点检测网络中，得到人脸关键点。

在上述实施例的基础上，可选的，上述追踪网络包括识别网络；上述第二获取单元112，用于将人脸关键点和人脸图像输入识别网络中，得到待检测图像对应的人眼图像；根据人脸关键点和人眼图像，得到第一注视点估计结果。

在上述实施例的基础上，如图14所示，可选的，上述装置还包括：第一控制模块12和第二控制模块13，其中：

第一控制模块12，用于在电子设备的屏幕显示状态为亮屏状态下，若第一注视点估计结果表示注视点位于电子设备的屏幕之外的区域，则控制电子设备的屏幕息屏。

第二控制模块13，用于在电子设备的屏幕显示状态为息屏状态下，若第一注视点估计结果表示注视点位于电子设备的屏幕上，则控制电子设备的屏幕亮屏。

在上述实施例的基础上，如图15所示，可选的，上述追踪网络还包括分割网络和估计网络，上述装置还包括：分割模块14、估计模块15和第三控制模块16，其中：

分割模块14，用于将人眼图像输入分割网络中，得到虹膜分割后的人眼图像。

估计模块15，用于将人脸关键点、人眼图像和虹膜分割后的人眼图像输入估计网络中，得到第二注视点估计结果。

第三控制模块16，用于若第二注视点估计结果表示注视点位于电子设备的屏幕的预设区域，则控制电子设备进行翻页操作。

在上述实施例的基础上，如图16所示，可选的，上述装置还包括：第三获取模块17、第四获取模块18和第四控制模块19，其中：

第三获取模块17，用于根据虹膜分割后的人眼图像，获取虹膜面积。

第四获取模块18，用于根据虹膜面积，得到人眼到电子设备摄像头的距离。

第四控制模块19，用于若距离小于预设距离阈值，则控制电子设备输出护眼提示信息。

在上述实施例的基础上，如图17所示，可选的，上述初始检测模型包括初始检测网络和初始追踪网络，上述装置还包括：第五获取模块20、第六获取模块21和训练模块22，其中：

第五获取模块20，用于将样本图像输入初始检测网络，得到样本图像中的样本人脸关键点。

第六获取模块21，用于根据样本人脸关键点和初始追踪网络，获取第一样本眼动追踪结果。

训练模块22，用于根据第一样本眼动追踪结果、增强图像和教师模型，对初始检测模型进行训练，得到检测模型。

在上述实施例的基础上，如图18所示，可选的，上述初始检测网络包括初始主干网络、初始人脸识别网络和初始关键点检测网络；上述第五获取模块20，包括：第三获取单元201、第四获取单元202和第五获取单元203，其中：

第三获取单元201，用于将样本图像输入初始主干网络中，得到样本图像的第一样本特征。

第四获取单元202，用于将第一样本特征输入初始人脸识别网络中，得到样本图像对应的样本人脸图像。

第五获取单元203，用于将样本人脸图像输入初始关键点检测网络中，得到样本人脸关键点。

在上述实施例的基础上，如图19所示，可选的，上述训练模块22，包括：第六获取单元221、第七获取单元222和训练单元223，其中：

第六获取单元221，用于将增强图像输入初始主干网络中，得到增强图像的第二样本特征。

第七获取单元222，用于将样本图像输入教师模型，得到第二样本眼动追踪结果。

训练单元223，用于根据第一样本特征、第二样本特征、第一样本眼动追踪结果、第二样本眼动追踪结果和样本图像对应的金标准眼动追踪结果，对初始检测模型进行训练，得到检测模型。

在上述实施例的基础上，可选的，上述训练单元223，用于根据第一样本特征和第二样本特征，获取第一损失函数的值；根据第一样本眼动追踪结果和金标准眼动追踪结果，获取第二损失函数的值；根据第二样本眼动追踪结果和金标准眼动追踪结果，获取第三损失函数的值；根据第一损失函数的值、第二损失函数的值和第三损失函数的值，对初始检测模型进行训练，得到检测模型。

本实施例提供的眼动追踪装置，可以执行上述方法实施例，其实现原理和技术效果类似，

在此不再赘述。

上述眼动追踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是电子设备，其内部结构图可以如图20所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种眼动追踪方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图20中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行眼动追踪方法的步骤。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行眼动追踪方法。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种眼动追踪方法，其特征在于，所述方法包括：

获取待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述检测模型包括检测网络和追踪网络；所述根据所述待检测图像和预设的检测模型进行眼动追踪，得到眼动追踪结果，包括：

将所述待检测图像输入所述检测网络，得到所述待检测图像中的人脸关键点；

根据所述人脸关键点和所述追踪网络，获取所述眼动追踪结果。

3.根据权利要求2所述的方法，其特征在于，所述检测网络包括主干网络、人脸识别网络和关键点检测网络；所述将所述待检测图像输入所述检测网络，得到所述待检测图像中的人脸关键点，包括：

将所述待检测图像输入所述主干网络中，得到所述待检测图像的特征；

将所述待检测图像的特征输入所述人脸识别网络中，得到所述待检测图像对应的人脸图像；

将所述人脸图像输入所述关键点检测网络中，得到所述人脸关键点。

4.根据权利要求3所述的方法，其特征在于，所述追踪网络包括识别网络；所述根据所述人脸关键点和所述追踪网络，获取所述眼动追踪结果，包括：

将所述人脸关键点和所述人脸图像输入所述识别网络中，得到所述待检测图像对应的人眼图像；

根据所述人脸关键点和所述人眼图像，得到第一注视点估计结果。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在电子设备的屏幕显示状态为亮屏状态下，若所述第一注视点估计结果表示注视点位于所述电子设备的屏幕之外的区域，则控制所述电子设备的屏幕息屏；或者，

在所述电子设备的屏幕显示状态为息屏状态下，若所述第一注视点估计结果表示注视点位于所述电子设备的屏幕上，则控制所述电子设备的屏幕亮屏。

6.根据权利要求4所述的方法，其特征在于，所述追踪网络还包括分割网络和估计网络，所述方法还包括：

将所述人眼图像输入所述分割网络中，得到虹膜分割后的人眼图像；

将所述人脸关键点、所述人眼图像和所述虹膜分割后的人眼图像输入所述估计网络中，得到第二注视点估计结果；

若所述第二注视点估计结果表示注视点位于电子设备的屏幕的预设区域，则控制所述电子设备进行翻页操作。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述虹膜分割后的人眼图像，获取虹膜面积；

根据所述虹膜面积，得到人眼到电子设备摄像头的距离；

若所述距离小于预设距离阈值，则控制所述电子设备输出护眼提示信息。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述初始检测模型包括初始检测网络和初始追踪网络，所述方法还包括：

将所述样本图像输入所述初始检测网络，得到所述样本图像中的样本人脸关键点；

根据所述样本人脸关键点和所述初始追踪网络，获取第一样本眼动追踪结果；

根据所述第一样本眼动追踪结果、所述增强图像和所述教师模型，对所述初始检测模型进行训练，得到所述检测模型。

9.根据权利要求8所述的方法，其特征在于，所述初始检测网络包括初始主干网络、初始人脸识别网络和初始关键点检测网络；所述将所述样本图像输入所述初始检测网络，得到所述样本图像中的样本人脸关键点，包括：

将所述样本图像输入所述初始主干网络中，得到所述样本图像的第一样本特征；

将所述第一样本特征输入所述初始人脸识别网络中，得到所述样本图像对应的样本人脸图像；

将所述样本人脸图像输入所述初始关键点检测网络中，得到所述样本人脸关键点。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一样本眼动追踪结果、所述增强图像和所述教师模型，对所述初始检测模型进行训练，得到所述检测模型，包括：

将所述增强图像输入所述初始主干网络中，得到所述增强图像的第二样本特征；

将所述样本图像输入所述教师模型，得到第二样本眼动追踪结果；

根据所述第一样本特征、所述第二样本特征、所述第一样本眼动追踪结果、所述第二样本眼动追踪结果和所述样本图像对应的金标准眼动追踪结果，对所述初始检测模型进行训练，得到所述检测模型。

11.根据权利要求10所述的方法，其特征在于，所述根据所述第一样本特征、所述第二样本特征、所述第一样本眼动追踪结果、所述第二样本眼动追踪结果和所述样本图像对应的金标准眼动追踪结果，对所述初始检测模型进行训练，得到所述检测模型，包括：

根据所述第一样本特征和所述第二样本特征，获取第一损失函数的值；

根据所述第一样本眼动追踪结果和所述金标准眼动追踪结果，获取第二损失函数的值；

根据所述第二样本眼动追踪结果和所述金标准眼动追踪结果，获取第三损失函数的值；

根据所述第一损失函数的值、所述第二损失函数的值和所述第三损失函数的值，对所述初始检测模型进行训练，得到所述检测模型。

12.一种眼动追踪装置，其特征在于，包括：

第一获取模块，用于获取待检测图像；

13.一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述的眼动追踪方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。