CN111209811B

CN111209811B - 一种实时检测眼球注意力位置的方法及***

Info

Publication number: CN111209811B
Application number: CN201911371128.8A
Authority: CN
Inventors: 戚鹏飞
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2024-04-09
Anticipated expiration: 2039-12-26
Also published as: CN111209811A

Abstract

本发明公开了一种实时检测眼球注意力位置的方法及***，包括以下步骤，图像采集模块分别获取人物对象的原始图片；所述原始图片输入opencv经过分割计算后输出输入数据；根据所述输入数据对应构建神经网络结构模型；采集标注训练数据；所述训练数据输入所述神经网络结构模型中进行模型训练并完成模型的训练参数设置；预测结果处理模块将所述神经网络结构模型生成的预测结果还原为原尺寸。本发明的有益效果：提升眼睛轮廓边缘识别精度，较传统识别结果有极大提高；以双眼瞳孔中心点为原点建立直角坐标系，可以准确地识别除左右两个方向外，眼球注意力在四个象限的准确位置，实用程度极大提高。

Description

一种实时检测眼球注意力位置的方法及***

技术领域

本发明涉及视觉处理的技术领域，尤其涉及一种实时检测眼球注意力位置的方法及实时检测眼球注意力位置的***。

背景技术

近年来在智能控制发展越来越快速的今天，人们对图像捕捉和识别技术进行了研究并将其广泛应用于各种智能产品。既开创了一个新的热门研究领域，还极大的促进了电子产品的智能化进程，方便了人们的生活。而近年来，眼球作为一种新的信息来源越来越被人们所关注，其运动轨迹可以通过合理的研究从而判断出人们的意图，是一种被忽视了的控制方式，而且眼球的控制相比于其他如动作捕捉控制等控制方式要具有一定的便利性和低功耗需求，丰富了人机交互的方式。目前眼球捕捉的主要方式便是通过识别技术，但是图像识别一般精度不足以处理瞳孔这么微小的物体的运动轨迹，而且对大量图片所需的处理时间较长，而这些都主要取决于硬件上各组件的性能和识别算法的优良。因此，如何提高眼球捕捉的实时性和精度问题成为该技术领域的关注重点。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的一个技术问题是：提供一种实时检测眼球注意力位置的方法，提升眼睛轮廓边缘识别精度。

为解决上述技术问题，本发明提供如下技术方案：一种实时检测眼球注意力位置的方法，包括以下步骤，图像采集模块分别获取人物对象的原始图片；所述原始图片输入opencv经过分割计算后输出输入数据；根据所述输入数据对应构建神经网络结构模型；采集标注训练数据；所述训练数据输入所述神经网络结构模型中进行模型训练并完成模型的训练参数设置；预测结果处理模块将所述神经网络结构模型生成的预测结果还原为原尺寸，所述眼球注意力位置返回以所述图像采集模块为原点的直角坐标中的位置。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：所述输入数据包括以下获取步骤，将所述原始图片经过opencv的haarcascade模型分割出左眼、右眼和脸部3幅图片，并同时计算出人脸在画面中所占的位置；将所述左眼图片、所述右眼图片、所述脸部图片和所述脸部网格共4个输入数据传递至所述神经网络结构模型。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：输入opencv的图片为所述图像采集模块采集到的所述原始图片，且所述原始图片的分辨率1920x1080，以及通道数分别为3个。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：所述神经网络结构模型包括以下构建步骤，所述原始图片的数据获取；所述神经网络结构模型的输入数据准备；构建所述神经网络结构模型神经网络结构单元。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：所述左眼、右眼的图片分割获取包括将所述原始图片输入opencv的haarcascade_eye眼部识别单元，得到左右眼的两组x、y、w、h坐标，根据坐标切割出左右眼两幅图片。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：所述脸部图片分割获取包括将所述原始图片输入opencv的haarcascade_frontface面部识别单元，获取面部的x、y、w、h四个坐标，根据坐标切割出面部图片。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：所述脸部网格的获取包括将所述原始图片平均分成5x5的网格，每个网格中若面部占比超过50％，则将该网格位置标注为1否则标注为0，得到大小为5x5的面部位置mask。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：所述神经网络结构单元包括左右特征提取网络结构、面部特征提取网络结构和特征合并，其中所述特征合并包括将左、右眼特征图拉直、再将面部特征图拉直以及脸部位置mask结果拉直，将四者合并最终输出二维结果，代表所述眼球注意力位置为原点坐标系上的x和y。

作为本发明所述实时检测眼球注意力位置的方法的一种优选方案，其中：所述标注训练数据包括以下采集步骤，采用方格板作为标尺；采集观测者面部图片，观测者每次注视方格板中的一个点，拍摄观测者面部照片的同时，记录下其所注视的格子，所述方格板共计30个格子，每人采集30张面部照片和对应的格子位置；随机选取10名观测者，重复上述操作，得到300张1920x1080分辨率的图片和同样数量的相对应的格子位置；将图片保存在img目录下，格子位置换算成坐标系后保存在label目录下。

本发明解决的另一个技术问题是：提供一种实时检测眼球注意力位置的***，提升眼睛轮廓边缘识别精度。

为解决上述技术问题，本发明提供如下技术方案：一种实时检测眼球注意力位置的***，其特征在于：包括图像采集模块、神经网络结构模型和预测结果处理模块；所述图像采集模块用于分别获取人物对象的原始图片后构建所述神经网络结构模型；所述神经网络结构模型用于将输入的人物对象的眼球注意力输出为预测结果；所述预测结果处理模块接收的所述预测结果，用于将所述眼球注意力位置返回以所述图像采集模块为原点的直角坐标中的位置。

本发明的有益效果：提升眼睛轮廓边缘识别精度，较传统识别结果有极大提高；以双眼瞳孔中心点为原点建立直角坐标系，可以准确地识别除左右两个方向外，眼球注意力在四个象限的准确位置，实用程度极大提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述实时检测眼球注意力位置的方法的整体流程结构示意图；

图2为本发明第一种实施例所述左右特征提取网络结构的示意图；

图3为本发明第一种实施例所述面部特征提取网络结构的示意图；

图4为本发明第一种实施例所述Flatten层实现的示意图；

图5为本发明第一种实施例所述Flatten层神经网络进行可视化的示意图；

图6为本发明第一种实施例所述方格板的示意图；

图7为本发明第一种实施例所述神经网络结构模型训练的示意图；

图8为本发明第二种实施例所述实时检测眼球注意力位置的***的整体原理结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

在大数据时代中，机器学***台上的推荐***，搜索引擎中的推荐***，手机图像识别文字，语音转化文字，AlphaGo战胜世界围棋大师，这都是深度学习的杰作，深度学习已经不仅仅应用于科学研究，已经慢慢的走近了人类的生活，改善人类的生活，深度学习通过机器减少人类的工作量，提高了相应的效率。深度学习是机器学习的一个分支。深度学习的结构特征为含有多个隐层的深层感知器，将低层的特征点通过一系列组合，形成复杂的高层，用来寻找数据特征以及属性特征。

对于眼球的跟踪，传统检测方法基于传统视觉处理技术，存在两个问题：一是眼睛轮廓分割结果精度不高，与真值偏差较大，影响最终判定结果；二是受人眼构造影响，对眼球左右移动判断精度尚可，但上下移动判定结果较差或无法判定，原因是由于眼眶是一个扁的椭圆形，眼球在眼眶内横向移动范围远远超过纵向移动范围，传统方法对纵向范围的移动无法达到能够识别的精度。传统视觉处理方法中运用提取通道、计算梯度、高斯滤波等方法得出眼球坐标。眼眶范围检测不准，导致瞳孔位置判断失误。本实施例利用深度学习方法采集用户面部照片，分为左眼右眼图片、脸部图片和facegrid，进入神经网络模型，评估头部姿势和凝视方向，返回以摄像头为原点的直角坐标中，用户当前注意力所在的象限位置x，y坐标。

参照图1的示意，示意为本实施例提出的一种实时检测眼球注意力位置的方法，具体包括以下步骤：

S1：图像采集模块100分别获取人物对象的原始图片，通俗的说，这一步作用是准备数据，采集眼睛和面部的照片传递给下一步神经网络进行眼球跟踪识别。

S2：原始图片输入opencv经过分割计算后输出输入数据，本步骤中输入数据包括以下获取步骤：将原始图片经过opencv的haarcascade模型分割出左眼、右眼和脸部3幅图片，并同时计算出人脸在画面中所占的位置；将左眼图片、右眼图片、脸部图片和脸部网格共4个输入数据传递至神经网络结构模型200。其中输入opencv的图片为图像采集模块100采集到的原始图片，且原始图片的分辨率1920x1080，以及通道数分别为(r、g、b)3个。

S3：根据输入数据对应构建神经网络结构模型200，神经网络结构模型200包括以下构建步骤：

S31：原始图片的数据获取：

S32：神经网络结构模型200的输入数据准备：

左眼、右眼的图片分割获取包括将原始图片输入opencv的haarcascade_eye眼部识别单元，得到左右眼的两组x、y、w、h坐标，根据坐标切割出左右眼两幅图片；

脸部图片分割获取包括将原始图片输入opencv的haarcascade_frontface面部识别单元，获取面部的x、y、w、h四个坐标，根据坐标切割出面部图片；

脸部网格的获取包括将原始图片平均分成5x5的网格，每个网格中若面部占比超过50％，则将该网格位置标注为1否则标注为0，得到大小为5x5的面部位置mask。

还需要说明的是，

与上述对应4个输入，神经网络结构前半部分由四个通道构成：

左眼通道：该通道包含四个卷积层，提取左眼特征；

右眼通道：该通道同样包含四个卷积层，与左眼通道共享参数；

面部通道：该通道结构与左/右眼通道相同，但不共享参数；

位置通道：该通道没有卷积层，接入FC层后与上述特征进行合并。

上述四个通道的数据经过拉直、合并之后，进入最终的FC层，输出两个结果，即为眼球注意力所在位置的x、y坐标。最终FC层的输入维度为256，即左眼特征、右眼特征、脸部特征、脸部网格(facegrid)f四个特征向量合并后的维度，输出维度为2。

S33：构建神经网络结构模型200神经网络结构单元：神经网络结构单元包括左右特征提取网络结构、面部特征提取网络结构和特征合并，其中特征合并包括将左、右眼特征图拉直、再将面部特征图拉直以及脸部位置mask结果拉直，将四者合并最终输出二维结果，代表眼球注意力位置为原点坐标系上的x和y。

本步骤还需要说明的是，参照图2的示意，其中左右特征提取网络结构如下：

CONV-E1：kernal_size(11*11)filter_number(96)

CONV-E2：kernal_size(5*5)filter_number(256)

CONV-E3：kernal_size(3*3)filter_number(384)

CONV-E4：kernal_size(1*1)filter_number(64)

E1-E4为4层卷积操作，kernal_size为卷积核大小，这里分别是11*11、5*5、3*3、1*1大小的矩阵；Filter_number为卷积核数量，即输出Tensor的维度。

参照图3的示意，其中面部特征提取网络结构如下：

参数同眼部特征提取网络，即：

CONV-F1：kernal_size(11*11)filter_number(96)

CONV-F2：kernal_size(5*5)filter_number(256)

CONV-F3：kernal_size(3*3)filter_number(384)

CONV-F4：kernal_size(1*1)filter_number(64)

F1-F4为4层卷积操作，kernal_size为卷积核大小，这里分别是11*11、5*5、3*3、1*1大小的矩阵。Filter_number为卷积核数量，即输出Tensor的维度。

特征合并是将左右眼特征图拉直、再将面部特征图拉直，以及脸部位置mask结果拉直，四者合并，最终输出2维结果，代表坐标系上的x和y。

参照图4～5的示意，拉直过程为输入数据经过Flatten操作后，进入一个FC层，Flatten层用来将输入“压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。

S4：采集标注训练数据。本步骤中标注训练数据包括以下采集步骤：

采用参照图6的方格板作为标尺；

采集观测者面部图片，观测者每次注视方格板中的一个点，拍摄观测者面部照片的同时，记录下其所注视的格子，方格板共计30个格子，每人采集30张面部照片和对应的格子位置；

随机选取10名观测者，重复上述操作，得到300张1920x1080分辨率的图片和同样数量的相对应的格子位置；将图片保存在img目录下，格子位置换算成坐标系后保存在label目录下。

S5：训练数据输入神经网络结构模型200中进行模型训练并完成模型的训练参数设置。参照图7的示意，本实施例中训练参数设置如下：

Epoch：300

Step：500

Lr：0.0001

动量因子：0.9

LossFunction：MCELoss

BatchSize：2

在2080显卡上整个训练过程耗时10小时。

S6：预测结果处理模块300将神经网络结构模型200生成的预测结果还原为原尺寸，眼球注意力位置返回以图像采集模块100为原点的直角坐标中的位置。具体是神经网络生成的预测结果为分辨率224x224下的位置坐标，通过resize还原到1920x1080的原尺寸。

本实施例提升眼睛轮廓边缘识别精度，较传统识别结果有极大提高，结合眼球识别算法，总体识别准确率>90％；以双眼瞳孔中心点为原点建立直角坐标系，可以准确地识别除左右两个方向外，眼球注意力在四个象限的准确位置，实用程度极大提高。

场景一：

针对本实施例取得“总体识别准确率>90％”的效果加以验证，做传统识别结果和本方法识别的对比，对本方法中采用的技术效果加以验证说明，本实施例选择的不同方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

传统的技术方案，例如基于单帧图像的眼球追踪、基于视频帧的眼球追踪等，对单帧图像的检测算法YOLO而言，其将每个卷积层对应的特征图进行上采样的特征融合，得到更加明显的特征信息，对所有卷积层的特征图进行预测，利用边框回归等训练方式，得到最终的眼球位置信息，通过单帧图像的检测算法眼球追踪在眼球类小目标上存在精确度问题。同时视频帧的YOLO算法与递归神经网络相结合，其处理在视频帧中，前后信息的空间关联性较大，对前后帧图像中的特征信息进行空间关联上的学习，在眼球被外界因素产生遮挡的情况下，利用前后5帧图像信息的置信图对眼球位置信息进行预测，存在眼球被遮挡时追踪效果不明显的问题。

本实施例中基于本方法检测眼球位置和传统基于视频帧的眼球追踪技术分别做仿真测试实验，验证本方法的检测准确度。

测试环境如下：

操作***window10专业版64(DirectX12)。

处理器：英特尔[email protected]四核。

显卡：NvidiaGeForceGTX10603GB。

使用了Tensorflow的框架，工具为Unity3d2017。

训练的数据集：Kaggle数据集，图像数据为96*967000张人脸图像数据，30个类别的人脸关键点标注数据；ImageNet分类数据集，ImageNet标注数据集为120万张图像数据，1000个类别。

测试的数据集：OTB50。

准确率上评价规则为在帧图像序列中眼球追踪结果的中心位置与真实标记位置中心点的距离在一定阈值内的帧数占全部帧数的百分比。

公式为：

其中Box_T为眼球追踪的框体，Box_G为真实标注的框体。

分别运行以下检测方法，最终实际软件输出的仿真测试结果如下表1。

表1：实验结果。

检测方法	数据集	准确率	速度/s
				Fastest DPM	OTB50	81.9	4.61
R-CNN Minus R	OTB50	85.6	0.83
				Fast R-CNN	OTB50	89.1	2.77
本方法	OTB50	91.8	1.57
				Faster R-CNN ZF	OTB50	62.1	24
YOLO VGG-16	OTB50	78.2	17

通过上表得出结论，基于本申请的检测方法精度可以达到百分之91.8，效果与Fast R-CNN准确率相近，但在速度上巨大的优势。

实施例2

参照图8的示意，示意为本实施例中提出的一种实时检测眼球注意力位置的***，该***包括图像采集模块100、神经网络结构模型200和预测结果处理模块300。

进一步的更加具体的，本实施例中图像采集模块100用于分别获取人物对象的原始图片后构建神经网络结构模型200；神经网络结构模型200用于将输入的人物对象的眼球注意力输出为预测结果；预测结果处理模块300接收的预测结果，用于将眼球注意力位置返回以图像采集模块100为原点的直角坐标中的位置。其中图像采集模块100为摄像机或摄像头，神经网络结构模型200和预测结果处理模块300为运行计算机内的软件程序，通过上述实施例的算法程实现实时检测眼球注意力位置的跟踪。且不难理解的是，通过芯片集成的方式，神经网络结构模型200和预测结果处理模块300都对应写入各自计算程序的处理线路板硬件，通过集成的方式组成处理芯片硬件。

如在本申请所使用的，术语“组件”、“模块”、“***”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地***、分布式***中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它***进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种实时检测眼球注意力位置的方法，其特征在于：包括以下步骤，

图像采集模块(100)分别获取人物对象的原始图片；

所述原始图片输入opencv经过分割计算后输出输入数据；

根据所述输入数据对应构建神经网络结构模型(200)；

采集标注训练数据；

所述训练数据输入所述神经网络结构模型(200)中进行模型训练并完成模型的训练参数设置；

预测结果处理模块(300)将所述神经网络结构模型(200)生成的预测结果还原为原尺寸，预测结果处理模块(300)以原始图片中获取的双眼瞳孔中心点为原点，建立直角坐标系，并返回眼球注意力位置的准确信息；

除了左右方向外，所述预测结果处理模块(300)能够精确识别眼球注意力在四个象限的位置；

根据所述输入数据对应构建神经网络结构模型，包括以下获取步骤，

将所述原始图片经过opencv的haarcascade模型分割出左眼、右眼和脸部3幅图片，并同时计算出人脸在画面中所占的位置；

将左眼图片、右眼图片、脸部图片和脸部网格共4个输入数据传递至所述神经网络结构模型(200)；

输入opencv的图片为所述图像采集模块(100)采集到的所述原始图片，且所述原始图片的分辨率1920x1080，以及通道数分别为(r、g、b)3个；

所述神经网络结构模型(200)包括以下构建步骤，

所述原始图片的数据获取；

所述神经网络结构模型(200)的输入数据准备；

构建所述神经网络结构模型(200)神经网络结构单元；

所述神经网络结构模型(200)的输入数据准备还包括，

左眼、右眼的图片分割获取包括将所述原始图片输入opencv的haarcascade_eye眼部识别单元，得到左右眼的两组x、y、w、h坐标，根据坐标切割出左右眼两幅图片；

脸部图片分割获取包括将所述原始图片输入opencv的haarcascade_frontface面部识别单元，获取面部的x、y、w、h四个坐标，根据坐标切割出面部图片；

脸部网格的获取包括将所述原始图片平均分成5x5的网格，每个网格中若面部占比超过50％，则将该网格位置标注为1否则标注为0，得到大小为5x5的面部位置mask；

神经网络结构前半部分由四个通道构成：

左眼通道：该通道包含四个卷积层，提取左眼特征；

面部通道：该通道结构与左/右眼通道相同，但不共享参数；

位置通道：该通道没有卷积层；

上述四个通道的数据经过拉直、合并之后，进入最终的FC层，输出两个结果，即为眼球注意力所在位置的x、y坐标；最终FC层的输入维度为256，即左眼特征、右眼特征、脸部特征、脸部网格四个特征向量合并后的维度，输出维度为2；

所述神经网络结构单元包括左右眼特征提取网络结构、面部特征提取网络结构和特征合并，其中所述特征合并包括将左、右眼特征图拉直、再将面部特征图拉直以及脸部位置mask结果拉直，将四者合并最终输出二维结果，代表所述眼球注意力位置为原点坐标系上的x和y；

所述左右眼特征提取网络结构如下：

CONV-E1：kernal_size(11*11)filter_number(96)

CONV-E2：kernal_size(5*5)filter_number(256)

CONV-E3：kernal_size(3*3)filter_number(384)

CONV-E4：kernal_size(1*1)filter_number(64)

E1-E4为4层卷积操作，kernal_size为卷积核大小，这里分别是11*11、5*5、3*3、1*1大小的矩阵；Filter_number为卷积核数量，即输出Tensor的维度；

所述面部特征提取网络结构如下：

参数同眼部特征提取网络，即：

CONV-F1：kernal_size(11*11)filter_number(96)

CONV-F2：kernal_size(5*5)filter_number(256)

CONV-F3：kernal_size(3*3)filter_number(384)

CONV-F4：kernal_size(1*1)filter_number(64)

F1-F4为4层卷积操作，kernal_size为卷积核大小，这里分别是11*11、5*5、3*3、1*1大小的矩阵；Filter_number为卷积核数量，即输出Tensor的维度；

所述标注训练数据包括以下采集步骤，

采用方格板作为标尺；

采集观测者面部图片，观测者每次注视方格板中的一个点，拍摄观测者面部照片的同时，记录下其所注视的格子，所述方格板共计30个格子，每人采集30张面部照片和对应的格子位置；

随机选取10名观测者，重复上述操作，得到300张1920x1080分辨率的图片和同样数量的相对应的格子位置；

将图片保存在img目录下，格子位置换算成坐标系后保存在label目录下。