CN109508679B

CN109508679B - 实现眼球三维视线跟踪的方法、装置、设备及存储介质

Info

Publication number: CN109508679B
Application number: CN201811375929.7A
Authority: CN
Inventors: 张国生; 李东; 冯广; 章云
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2023-02-10
Anticipated expiration: 2038-11-19
Also published as: CN109508679A

Abstract

本发明公开了一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质，包括：将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态；将所述人脸图像输入至预先构建的眼球动作检测网络，得到所述人脸图像的眼球动作；将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量。本发明所提供的方法、装置、设备以及计算机可读存储介质，可以从二维的人脸图像中提取到被拍摄者眼球的三维视线方向向量，具有广泛的应用场景。

Description

实现眼球三维视线跟踪的方法、装置、设备及存储介质

技术领域

本发明涉及眼球跟踪技术领域，特别是涉及一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质。

背景技术

眼球跟踪算法的研究已经有较为成熟的成果，且已经成功地在很多商业应用上实现，例如VR/AR技术，虽然传统的眼球跟踪技术能够实现较高的精度，然而现阶段眼球跟踪算法基本上是基于传统的图像处理方法，依赖于昂贵的红外设备，且需要在头部安装特殊的检测设备，检测眼球的特征。传统的图像处理方法检测精度受光线变化的影响，且检测距离受到严重的约束。所以急需一种能通过普通摄像头拍摄的一种RGB图像实现眼球跟踪的算法。在计算机视觉领域，深度卷积神经网络已经在很多方面取得了重大成果，例如目标检测、实例分割等等。

现有技术中也有相应的基于深度学习的眼球跟踪技术，具体步骤如下：获取视网膜病变影像数据；对视网膜病变影像数据进行数据标注，得到标注数据；建立初始深度学习网络；将视网膜病变影像数据输入初始深度学习网络中，输出得到相应的预测数据；利用损失函数对视网膜病变影像数据相应的标注数据和预测数据进行比较，得到比较结果；根据比较结果，调节初始深度学习网络中的参数，直到比较结果达到预设阈值，得到最终的深度学习网络模型；利用深度学习网络模型对待测视网膜病变影像数据进行处理，得到相应的眼球中心坐标以及眼球直径。

因此现有的眼球跟踪技术中，一种是基于传统的图像处理算法实现眼球跟踪技术，虽然这类算法已经有较为成熟的商业应用，然而传统的图像处理算法检测精度受光线变化的影响，而且依赖于昂贵的头部佩戴红外线设备，头部的便捷性体验较差，检测距离也受到约束。另一种是基于深度学习算法的眼球跟踪算法，然而现有的基于技术中基于深度学习算法的眼球跟踪算法仅能检测眼球中心位置及眼球直径，仅包含眼球动作的二维信息，应用场景受到约束。

综上所述可以看出，如何通过二维人脸图像获取眼球的三维视线方向向量是目前有待解决的问题。

发明内容

本发明的目的是提供一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质，以解决现有技术中基于深度学习的眼球跟踪算法只能检测出眼球的二维信息的问题。

为解决上述技术问题，本发明提供一种实现眼球三维视线跟踪的方法，包括：将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态；将所述人脸图像输入至预先构建的眼球动作检测网络，得到所述人脸图像的眼球动作；将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量。

优选地，所述将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态前包括：

采集多幅具有头部姿态和眼球视线的三维标签的人脸图像，构建人脸图像数据集，其中，所述人脸图像为RGB图像；

构建初始头部姿态检测网络和初始眼球动作检测网络；

利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练，得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络。

优选地，所述采集多幅具有头部姿态和眼球视线的三维标签的人脸图像，构建人脸图像数据集包括：

利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像，得到人脸图像第一子集合；

所述面阵摄像头阵列中每行摄像头采集到多幅人脸图像，表示所述数据提供者在y方向不同的头部姿态；

所述面阵摄像头阵列中每列摄像头采集到的多幅人脸图像，表示所述数据提供者在p方向不同的头部姿态；

对所述面阵摄像头阵列采集到的所述人脸图像分别进行顺时针和逆时针方向的旋转，得到表示所述数据提供者在r方向不同的头部姿态的人脸图像第二子集合；

合并所述人脸图像第一子集合和所述人脸图像第二子集合得到所述人脸图像数据集。

优选地，所述利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像包括：

采集所述每幅人脸图像时，记录所述数据提供者眼球正视的显示屏上的动点，从而确定所述数据提供者眼球视线的三维向量标签，且同时记录每幅人脸图像中的头部姿态。

优选地，所述构建初始头部姿态检测网络包括：

以Alex NET模型为基本结构，构建所述初始头部检测网络，所述初步头部检测网络的网络结构为：

C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3)；

其中，C(k,s,c)表示卷积核尺寸为k，卷积步长为s，通道数为c的卷积层，P(k,s)表示核尺寸为k，步长为s的最大值池化层，BN表示批归一化，PReLU表示激活函数，FC(n)表示全连接层，神经元个数为n。

优选地，所述利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练包括：

利用所述人脸图像数据集对所述头部姿态检测网络和所述初始眼球动作检测网络进行训练；

其中，损失函数Loss₁＝Loss_h+Loss_e为所述初步头部姿态检测网络的损失函数

和所述初步眼球动作检测网络损失函数

之和。

优选地，将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量前包括：

利用所述头部姿态检测网络和所述眼球动作检测网络分别对所述人脸数据集合中的人脸图像进行检测，得到每幅人脸图像的头部姿态和眼球动作；

利用所述各幅人脸图像的头部姿态和眼球动作对预先建立的初始三维视线向量检测网络进行训练，从而得到完成训练的三维视线向量检测网络；

当前损失函数Loss₂＝Loss₁+Loss_g＝Loss_h+Loss_e+Loss_g为损失函数Loss₁和所述初始三维视线向量检测网络损失函数

之和。

本发明还提供了一种实现眼球三维视线跟踪的装置，包括：

头部姿态检测模块，用于将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态；

眼球动作检测模块，用于将所述人脸图像输入至预先构建的眼球动作检测网络，得到所述人脸图像的眼球动作；

三维视线检测模块，用于将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量。

本发明还提供了一种实现眼球三维视线跟踪的设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种实现眼球三维视线跟踪的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种实现眼球三维视线跟踪的方法的步骤。

本发明所提供的实现眼球三维视线跟踪的方法，将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到了所述人脸图像中的头部姿态。将所述人脸图像输入至所述预先构建的眼球动作检测网络中，得到所述人脸图像中的眼球动作。将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，以便于根据几何约束并通过视线转换网络得到所述人脸图像中眼球的三维视线方向向量。本发明所述提供的眼球跟踪方法，基于深度学习网络，从二维的人脸图像中提取被拍摄者的头部姿态和眼球动作，并将所述头部姿态和所述眼球动作输入预先训练好的三维视线向量检测网络内，得到所述人脸图像中被拍摄者眼球的三维视线方向向量。本发明所提供的方法具体广泛的应用领域，通过人脸图像得到眼球的三维视线向量方向可以用于安全驾驶的监控领域、人机交互领域、心理研究领域等；解决了现有技术中通过深度神经网络实现眼球跟踪技术时，只能检测到眼球中心位置和眼球直径，不具有广泛应用场景的问题。相对应的，本发明所提供的装置、设备以及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的实现眼球三维视线跟踪的方法的第一种具体实施例的流程图；

图2为本发明所提供的实现眼球三维视线跟踪的方法的第二种具体实施例的流程图；

图3为本发明实施例提供的一种实现眼球三维视线跟踪的装置的结构框图。

具体实施方式

本发明的核心是提供一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质，可以通过二维人脸图像得到眼球的三维视线向量，具有广泛应用场景。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的实现眼球三维视线跟踪的方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态；

所述将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态前首先采集多幅具有头部姿态和眼球视线的三维标签的人脸图像，构建人脸图像数据集；并构建初始头部姿态检测网络和初始眼球动作检测网络；利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练，得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络。

为了使所述初始头部姿态检测网络和所述初始眼球动作检测网络具有更好的泛化能力，在本实施例中采集的人脸图像数据集合需要具备以下特征：a、具有广泛的分布，尽可能的覆盖所有的头部姿态和眼球动作，同时数据图像还应该包括不同光线强度，甚至包括眼镜反光干扰。B、人脸图像数据集合具有头部姿态和眼球视线的三维标签。c、人脸图像数据集合中的人脸图像优选一般的RGB图像，而不是依赖于特定的摄像头设备。

为了使所述人脸图像数据集合具有更广泛的分布，本实施例采用了一个3×4摄像头阵列，通过不同的摄像头视角来代表不同的头部姿态。但是面阵摄像头阵列仅能代表头部姿态在(y,p)两个方向的不同，所以，为了得到头部姿态在r方向不同，对采集的人脸图像分别进行顺逆时针进行旋转，来表示头部的侧头摆动动作的变化，对应的每个头部姿态，摄像头所在阵列的位置及图像旋转的角度对应一个头部姿态的标签(y^GT,p^GT,r^GT)。

为了获取更加丰富的眼球动作，在采集所述人脸图像数据集的同时，让数据提供者眼球跟踪注视显示屏的一个动点，显示屏幕的动点包含随机字母，需要数据提供者识别字母以确保数据提供者眼球正注视着屏幕的动点，从而保证数据标签的准确性，以获取不同的眼球动作,对应每一个眼球跟踪的位置，记录此时的眼球视线向量标签(φ^GT,θ^GT)。在采集人脸图像数据集合的同时记录每幅人脸图像中头部姿态和所对应的眼球视线的三维向量标签。

在本实施例中，采集所述人脸图像数据集合时，只需要采集人脸RGB图像，无需依赖于其它特殊设备，相对于需要依赖于昂贵的头部佩戴红外线设备的现有技术，不仅降低了应用成本，而且由于头部自由无约束，从而具有更好的便捷性。

构建所述初始头部姿态检测网络、所述初步眼球动作检测网络和初始三维视线向量检测网络之前，首先叙述本实施例所采用的几何分析和坐标体系。本实施例共采用两个坐标系，头部坐标系(X_h,Y_h,Z_h)和摄像头坐标系(X_c,Y_c,Z_c)，g为视线向量。为了进一步简化头部姿态的表示，本发明实施例采用了三维的球形旋转角表示(y,p,r)，其中y表示偏航角(沿着Y_h轴的旋转角)，p表示倾斜角(沿着X_h轴的旋转角)，r表示偏航角(沿着Z_h轴的旋转角)。而眼球的动作采用二维的球形坐标体系(θ,φ)表示，其中θ和φ分别表示视线向量与头部坐标系的水平和垂直方向上的夹角。

在所述头部坐标体系中用眼球动作来描述视线向量如下所示：

g_h＝[-cos(φ)sin(θ),sin(φ),-cos(φ)cos(θ)]^T

摄像头坐标系(X_c,Y_c,Z_c)则定义为以摄像头中心为原点，摄像头深度方向为Z_c轴，垂直于深度方向的平面的两个方向分别为X_c,Y_c轴。由于网络最终输出的三维视线向量是在摄像头坐标系表示的，所以本发明实施例定义g_c为摄像头坐标系下的三维视线向量，根据几何学知识可知，g_c取决于g_h，g_h是在头部坐标系下定义的，所以可以得到本发明实施例的整体映射关系：

步骤S102：将所述人脸图像输入至预先构建的眼球动作检测网络，得到所述人脸图像的眼球动作；

步骤S103：将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量。

将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线向量。

为了重复利用现有的数据集，本实施例中的网络采用了端对端的结构，先分别建立初始头部姿态检测网络和所述眼球动作检测网络，然后将两部分网络的结构检测结果输入到一个全连接网络，得到最后的三维视线向量，网络分成两个分支，上部分分支用于检测头部姿态，下部分用于检测眼球动作，然后经过几何约束的视线转换层，得到摄像头坐标系的视线三维方向向量。

基于上述实施例，在本实施例中，为了重复利用采集到的人脸图像数据集，本实施例采用了端对端的结构，先分别建立头部姿态检测的网络和眼球动作检测的网络，然后将两部分网络的结构检测结果输入到一个全连接网络，得到最后的三维视线向量，网络分成两个分支，上部分分支用于检测头部姿态，下部分用于检测眼球动作，然后经过几何约束的视线转换层，得到摄像头坐标系的视线三维方向向量。请参考图2，图2为本发明所提供的实现眼球三维视线跟踪的方法的第二种具体实施例的流程图；具体操作步骤如下：

步骤S201：利用面阵摄像头阵列采集多幅数据提供者的人脸图像，并记录每幅人脸图像中的头部姿态和眼球动作的三维向量标签，得到人脸图像第一子集合；

步骤S202：对所述人脸图像第一子集合中的人脸图像分别进行顺时针和逆时针方向的旋转，得到人脸图像第二子集合；

步骤S203：合并所述人脸图像第一子集合和所述人脸图像第二子集合得到所述人脸图像数据集；

步骤S204：利用所述人脸图像数据集合分别对预先构建的初始头部姿态检测网络和初始眼球动作检测网络进行训练，得到目标头部姿态检测网络和目标眼球检测网络；

所述初始头部姿态检测网络的基本网络结构采用了Alex Net的结构，对其进行相应的简化和修改。网络的层数不变，但每一层的通道数进行了适当的减少，同时将局部响应归一化改为批归一化，激活函数采用PReLU。所述初始头部姿态检测网络的网络结构如下：C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3)

其中，其中，C(k,s,c)表示卷积核尺寸为k，卷积步长为s，通道数为c的卷积层，P(k,s)表示核尺寸为k，步长为s的最大值池化层，BN表示批归一化，PReLU表示激活函数，FC(n)表示全连接层，神经元个数为n。

所述眼球动作检测网络的输入为人脸图像的原始图片所截取的眼睛区域，分左眼和右眼两部分，由于两部分网络完全对称，下面将对其部分进行详细说明，将眼球图像块调整到一致大小36x36，然后经过卷积神经网络和全连接网络，所述初始眼球动作检测网络结构如下：C(11,2,96)-BN-PReLU-P(2,2)-C(5,1,256)-BN-PReLU-P(2,2)-C(3,1,384)-BN-PReLU-P(2,2)-C(1,1,64)-BN-PReLU-P(2,2)-FC(128)-FC(2)。

步骤S205：利用所述目标头部姿态检测网络和所述目标眼球动作检测网络对所述人脸图像数据集中的各幅人脸进行检测，得到所述各幅人脸图像的头部姿态和眼球动作；

步骤S206：利用所述人脸图像数据集合中每幅人脸图像的头部姿态和眼球动作输入至预先构建的初始三维视线向量检测网络进行训练，得到所述目标三维视线向量检测网络；

所述初始三维视线向量检测网络由所述目标头部姿态检测网络得到的(y,p,r)和所述目标眼球动作检测网络得到的(θ,φ)作为所述初始三维视线向量检测网络的输入，所述初始三维视线向量检测网络为两层全连接网络，网络第一层神经元个数为128，最后层神经元个数为3，对应三维视线向量。

对所述头部姿态检测网络和所述初始眼球动作检测网络进行训练时，损失函数Loss₁＝Loss_h+Loss_e为所述初步头部姿态检测网络的损失函数

和所述初步眼球动作检测网络损失函数

之和。

利用对所述预先建立的初始三维视线向量检测网络进行训练时，当前损失函数Loss₂＝Loss₁+Loss_g＝Loss_h+Loss_e+Loss_g为损失函数Loss₁和所述初始三维视线向量检测网络损失函数

之和。

Loss_h＝||h-h^GT||₂,h＝{y,p,r}

Loss_e＝||e-e^GT||₂,e＝{φ,θ}

Loss_g＝||g_c-g_c ^GT||₂,g_c＝{x,y,z}

步骤S207：将待检测的人脸图像输入至所述目标头部姿态检测网络，得到所述待检测的人脸图像中的头部姿态；

步骤S208：将所述待检测的人脸图像输入至所述目标眼球动作检测网络，得到所述待检测的人脸图像的眼球动作；

步骤S209：将所述待检测的人脸图像的头部姿态和所述待检测的人脸图像的眼球动作输入至所述目标三维视线向量检测网络，得到所述待检测的人脸图像中眼球的三维视线方向向量。

现有技术中眼球识别中仅进行了眼球中心位置的二维标注，最终只能得到眼球的二维信息，所以应用受到局限，而本实施例所提供的方法同样基于深度神经网络，但本实施例不仅处理了眼球的动作信息，还进行了头部姿态的预测，同时预测了眼球三维视线向量，从而具有更高层次的信息，也具有更好的应用价值。本实施例中网络训练采用了端对端的分步训练，在第一步训练过程中，可以充分利用现有的头部姿态的数据集和眼球动作数据集，从而极大的增加了训练的数据集，让本实施例中深度网络具有更好的泛化能力。

请参考图3，图3为本发明实施例提供的一种实现眼球三维视线跟踪的装置的结构框图；具体装置可以包括：

头部姿态检测模块100，用于将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态；

眼球动作检测模块200，用于将所述人脸图像输入至预先构建的眼球动作检测网络，得到所述人脸图像的眼球动作；

三维视线检测模块300，用于将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量。

本实施例的实现眼球三维视线跟踪的装置用于实现前述的实现眼球三维视线跟踪的方法，因此实现眼球三维视线跟踪的装置中的具体实施方式可见前文中的实现眼球三维视线跟踪的方法的实施例部分，例如，头部姿态检测模块100，眼球动作检测模块200，三维视线检测模块300，分别用于实现上述实现眼球三维视线跟踪的方法中步骤S101，S102和S103，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种实现眼球三维视线跟踪的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种实现眼球三维视线跟踪的方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种实现眼球三维视线跟踪的方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种实现眼球三维视线跟踪的方法，其特征在于，包括：

将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态；

将所述人脸图像输入至预先构建的眼球动作检测网络，得到所述人脸图像的眼球动作；

将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量；

所述将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态前包括：采集多幅具有头部姿态和眼球视线的三维标签的人脸图像，构建人脸图像数据集，其中，所述人脸图像为RGB图像；构建初始头部姿态检测网络和初始眼球动作检测网络；利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练，得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络；

所述初始头部姿态检测网络的网络结构为：

所述初始眼球动作检测网络结构为：

C(11,2,96)-BN-PReLU-P(2,2)-C(5,1,256)-BN-PReLU-P(2,2)-C(3,1,384)-BN-PReLU-P(2,2)-C(1,1,64)-BN-PReLU-P(2,2)-FC(128)-FC(2)；

其中，C(k,s,c)表示卷积核尺寸为k，卷积步长为s，通道数为c的卷积层，P(k,s)表示核尺寸为k，步长为s的最大值池化层，BN表示批归一化，PReLU表示激活函数，FC(n)表示全连接层，神经元个数为n；

所述将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量前包括：

利用所述头部姿态检测网络和所述眼球动作检测网络分别对所述人脸图像数据集中的人脸图像进行检测，得到每幅人脸图像的头部姿态和眼球动作；

所述初始三维视线向量检测网络为两层全连接网络，网络第一层神经元个数为128，最后层神经元个数为3，对应三维视线向量。

2.如权利要求1所述的方法，其特征在于，所述采集多幅具有头部姿态和眼球视线的三维标签的人脸图像，构建人脸图像数据集包括：

3.如权利要求2所述的方法，其特征在于，所述利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像包括：

采集所述数据提供者的人脸图像时，记录所述数据提供者眼球正视的显示屏上的动点，从而确定所述数据提供者眼球视线的三维向量标签，且同时记录每幅人脸图像中的头部姿态。

4.如权利要求1所述的方法，其特征在于，所述利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练包括：

其中，损失函数Loss₁＝Loss_h+Loss_e为初步头部姿态检测网络的损失函数Loss_h和初步眼球动作检测网络的损失函数Loss_e之和。

5.如权利要求4所述的方法，其特征在于，所述将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量前包括：

当前损失函数Loss₂＝Loss₁+Loss_g＝Loss_h+Loss_e+Loss_g为损失函数Loss₁和所述初始三维视线向量检测网络损失函数Loss_g之和。

6.一种实现眼球三维视线跟踪的装置，其特征在于，包括：

头部姿态检测模块，用于将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态；所述将待检测的人脸图像输入至预先构建的头部姿态检测网络，得到所述人脸图像中的头部姿态前包括：采集多幅具有头部姿态和眼球视线的三维标签的人脸图像，构建人脸图像数据集，其中，所述人脸图像为RGB图像；构建初始头部姿态检测网络和初始眼球动作检测网络；利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练，得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络；所述初始头部姿态检测网络的网络结构为：C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3)；所述初始眼球动作检测网络结构为：C(11,2,96)-BN-PreLU-P(2,2)-C(5,1,256)-BN-PReLU-P(2,2)-C(3,1,384)-BN-PReLU-P(2,2)-C(1,1,64)-BN-PReLU-P(2,2)-FC(128)-FC(2)；其中，C(k,s,c)表示卷积核尺寸为k，卷积步长为s，通道数为c的卷积层，P(k,s)表示核尺寸为k，步长为s的最大值池化层，BN表示批归一化，PReLU表示激活函数，FC(n)表示全连接层，神经元个数为n；

三维视线检测模块，用于将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量；所述将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络，得到所述人脸图像中眼球的三维视线方向向量前包括：利用所述头部姿态检测网络和所述眼球动作检测网络分别对所述人脸图像数据集中的人脸图像进行检测，得到每幅人脸图像的头部姿态和眼球动作；利用所述各幅人脸图像的头部姿态和眼球动作对预先建立的初始三维视线向量检测网络进行训练，从而得到完成训练的三维视线向量检测网络；所述初始三维视线向量检测网络为两层全连接网络，网络第一层神经元个数为128，最后层神经元个数为3，对应三维视线向量。

7.一种实现眼球三维视线跟踪的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述一种实现眼球三维视线跟踪的方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种实现眼球三维视线跟踪的方法的步骤。