CN114115535A

CN114115535A - 基于银河锐华移动操作的眼动追踪、识别方法及

Info

Publication number: CN114115535A
Application number: CN202111342322.0A
Authority: CN
Inventors: 沈震昊; 高元均; 徐冬晨; 陆平; 王千
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-01

Abstract

本发明提供了一种基于银河锐华移动操作***的眼动追踪、识别方法及***，包括如下步骤：步骤1：人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸，供后续模块的使用；步骤2：眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位；步骤3：根据眼睛与眼球的定位，计算眼球的位置；步骤4：计算出眼动姿态。本发明通过眼动跟踪及识别方法跟踪眼球的运动轨迹并且识别多种眼动姿态，为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑。

Description

基于银河锐华移动操作***的眼动追踪、识别方法及***

技术领域

本发明涉及眼动追踪技术领域，具体地，涉及一种基于银河锐华移动操作***的眼动追踪、识别方法及***。

背景技术

银河锐华移动操作***是面对战术指挥、移动侦察、单兵终端等智能装备发展需求，结合国产低功耗处理器和通信设备的发展现状，由国防科技大学牵头，联合中电32所共同研制而成。银河锐华移动操作***基于Linux+HTML5技术路线，兼容安卓驱动，为满足国产移动操作***自主化、个性化、实时性和高安全性需求的前提下，***进一步支持军用安全通信、安全数据管理、智能人机交互、服务化应用管理。基于智能手持、平板、可穿戴等移动终端设备提供国产化解决方案。

当眼睛看向不同方向时，眼部会有细微的变化，这些变化会产生可以提取的特征，眼动跟踪技术通过这些特征的检测与分析计算出眼球的位置和运动来跟踪眼睛的注视点，眼动跟踪研究最关注的事件是确定人类或者动物看的地方(比如：“注视点”或“凝视点”)。眼动跟踪方法经历了从早期观察到侵入式再到非侵入式的发展过程。早期的基于观察和侵入式的方法非常的不友好并且不舒适，现阶段眼动跟踪技术主要采用基于眼动视频监测的非侵入式方法。

眼动跟踪技术应用广泛，在心理学与神经科学研究(认知心理学研究、神经科学研究、社会心理学研究、视觉感知研究、灵长类和犬类动物研究等)、用户体验与交互研究(网页可用性、移动端可用性、软件可用性、游戏可用性、视线交互研究)、市场研究与消费者调研(购物行为研究、包装设计研究、广告研究)、医学研究与医疗应用等众多领域都已有应用，目前眼动跟踪技术的研究及应用大多是关注眼睛的注视区域或目标。眼动跟踪技术有多种应用载体，其中最热门的载体设备就是手机(三星和LG都推出了搭载有眼球追踪技术的产品)，在电脑、汽车等设备上也有应用。

与当今商用智能终端/眼动议前端采集，使用后端云平台计算识别方法相比，军用或其他特殊领域移动终端多为无互联网环境且通常搭载于计算与存储资源受限的硬件平台，因此YROS移动终端操作***的眼动跟踪及识别方法需要同时兼顾存算的高效性和算法的精确性，确保在低资源环境下仍够能够保持较高的识别精度表现。

公开号为CN111967363A的专利文献公开了一种基于微表情识别和眼动追踪的对情绪预测的方法，包括如下步骤：(1)输入被观测者接受某种信号刺激后的面部视频，进行微表情识别；(2)输入被观测者接受某种信号刺激后的面部视频，进行眼动追踪；(3)将步骤(1)中的微表情识别结果与步骤(2)中的眼动追踪结果相融合，判断当前被观测者的抑郁、焦虑、压力情感状态。但是该专利文献仍然存在在计算存储资源受限硬件平台下不能保持较高的识别率。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于银河锐华移动操作***的眼动追踪、识别方法及***。

根据本发明提供的一种基于银河锐华移动操作***的眼动追踪、识别方法，包括如下步骤：

步骤1：人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸，供后续模块的使用；

步骤2：眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位；

步骤3：根据眼睛与眼球的定位，计算眼球的位置；

步骤4：计算出眼动姿态。

优选的，所述步骤2包括如下步骤：

步骤2.1：检测出人脸中的眼睛区域；

步骤2.2：在眼睛区域内进行眼球的定位。

优选的，所述步骤1中，所述人脸检测模块的算法采用基于卷积神经网络的深度学习模型。

优选的，所述深度学习模型采用Basic_conv网络层、2layer_conv网络层、4layer_conv网络层以及maxpooling2x2S2网络层。

优选的，所述Basic_conv网络层的卷积操作为3x3的depthwise卷积操作或1x1的pointwise卷积操作。

优选的，所述2layer_conv网络层由两个Basic_conv网络层堆叠而成，所述4layer_conv网络层由四个Basic_conv网络层网络层堆叠而成。

优选的，所述maxpooling2x2S2网络层是池化核大小为2x2，滑动步伐大小为2的最大池化层。

优选的，所述人脸检测模块算法的训练数据集采用WIDER Face数据集。

优选的，所述步骤2中，采用级联回归器的方法对人脸中的人眼进行关键点定位。

本发明还提供一种基于银河锐华移动操作***的眼动追踪及识别***，包括如下模块：

检测模块：通过人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸，供后续模块的使用；

定位模块：通过眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位；

位置计算模块：根据眼睛与眼球的定位，计算眼球的位置；

姿态计算模块：计算出眼动姿态。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过眼动跟踪、识别方法跟踪眼球的运动轨迹并且识别多种眼动姿态，为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑；

2、本发明通过结合先进的深度学***台下仍能保持较高的识别率；

3、本发明采用了一种基于梯度的办法计算出眼球中心的坐标，该方法定位精度高并且非常鲁棒；

4、本发明采用了一种级联回归器的方法对人脸中的人眼进行关键点定位，该方法不仅定位精确而且计算高效，能够在YROS平台上高效的运行。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的基于银河锐华移动操作***的眼动追踪、识别方法的总体框图；

图2为本发明的眼动识别的主要功能模块图；

图3为本发明的基于卷积神经网络的深度学习人脸检测模型架构图；

图4为本发明的眼球定位示意图；

图5为本发明的眼动追踪识别示意图；

图6为本发明一实施例的具体实施例流程步骤图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本实施例提供一种基于银河锐华移动操作***的眼动追踪、识别方法，包括如下步骤：

步骤1：人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸，供后续模块的使用。人脸检测模块的算法采用基于卷积神经网络的深度学习模型，深度学习模型采用Basic_conv网络层、2layer_conv网络层、4layer_conv网络层以及maxpooling2x2S2网络层。Basic_conv网络层的卷积操作为3x3的depthwise卷积操作或1x1的pointwise卷积操作，2layer_conv网络层由两个Basic_conv网络层堆叠而成，4layer_conv网络层由四个Basic_conv网络层网络层堆叠而成，maxpooling2x2S2网络层是池化核大小为2x2，滑动步伐大小为2的最大池化层。人脸检测模块算法的训练数据集采用WIDER Face数据集。

步骤2：眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位。步骤2包括如下步骤：步骤2.1：检测出人脸中的眼睛区域；步骤2.2：在眼睛区域内进行眼球的定位。采用级联回归器的方法对人脸中的人眼进行关键点定位。

步骤3：根据眼睛与眼球的定位，计算眼球的位置。

步骤4：计算出眼动姿态。

实施例2：

本实施例一种基于银河锐华移动操作***的眼动追踪、识别***，包括如下模块：

位置计算模块：根据眼睛与眼球的定位，计算眼球的位置；

姿态计算模块：计算出眼动姿态。

实施例3：

本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。

本实施例提供一种基于银河锐华移动操作***(简称YROS)的眼动跟踪及识别方法，具体涉及眼动跟踪及识别方法的实现，实现YROS移动终端操作***平台上的高效眼动跟踪与识别。

YROS平台眼动追踪和识别主要流程如图1所示，首先通过摄像头捕获(或一段视频)的连续图像进行人脸检测，然后对检测到的人脸进行眼睛定位，接下来对眼睛中的眼球进行定位，进一步计算眼球的位置，最后计算出眼动姿态。

眼动识别模块主要由3个子模块组成，如图2所示，分为人脸检测模块、眼睛/眼球定位模块以及眼动跟踪及识别模块。

1、人脸检测模块：

人脸检测模块的主要作用是从YROS平台摄像头捕获(或一段视频)的连续图像中检测出人脸以供后续模块的使用。人脸检测是本申请方法中的第一步，也是至关重要的一步，该步骤直接与外部环境接触，因此存在着多变性。所以，人脸检测算法需要有极高的鲁棒性，准确的检测出人脸区域，从而为后续处理步骤营造一个较为理想的处理环境。本申请方法中的人脸检测算法采用了基于卷积神经网络(Convolutional Neural Networks,CNNs)的深度学***台，使模型算法可在YROS平台上进行高效的运行。

CNN模型算法主要使用了Basic_conv、2layer_conv、4layer_conv以及maxpooling2x2S2网络层。Basic_conv网络层的卷积操作包含可选的两种，一种是3x3的depthwise卷积操作，另一种是1x1的pointwise卷积操作,这都是非常高效的卷积操作方式(实际上，该模型架构中只包含上述2种卷积操作方式，这也是该模型能够高效运行的主要原因)，除此之外，Basic_conv层中还包含激活函数relu。Basic_conv具体如何执行，需要根据传入的参数而定(比如传入参数：32,16,false,true,true；就表示输入通道为32，卷积核数量为16，不使用3x3的depthwise卷积操作，使用1x1的pointwise卷积操作，使用relu激活函数)。2layer_conv网络层由两个Basic_conv网络层堆叠而成，4layer_conv网络层由两个2layer_conv网络层也即四个Basic_conv网络层堆叠而成。maxpooling2x2S2网络层是池化核大小为2x2滑动步伐大小也为2的最大池化层。同时通过使用10种不同尺度的先验人脸检测框用以提高人脸检测的性能，分别是10,16，24，32,48，64,96，128，192，256。这10种不同尺度的先验框分别应用于不同层级的特征图，较小的尺度对应于较小感受野的特征图帮助检测较小的人脸，较大的尺度对应于较大感受野的特征图帮助检测较大的人脸。这10种尺度的先验框分成了四组应用于4种不同层级的特征图最后得到4个输出分支，对这4个分支的输出统一进行快速非极大值抑制(Fast Non-Maximum Suppression)处理后得到最终的输出。

最终使用WIDER Face数据集作为本申请方法中使用的人脸检测算法的训练数据集，使用的10种不同尺度的先验人脸检测框是通过对WIDER Face数据集中标注的人脸框数据进行聚类计算而来。

2、眼睛/眼球定位模块：

眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位，首先是检测出人脸中的眼睛区域，然后在眼睛区域内进行眼球的定位。接下来，我们分别对眼睛定位与眼球定位采用的方法进行介绍。

2.1眼睛定位：

本申请中我们采用了一种级联回归器的方法对人脸中的人眼进行关键点定位，该方法不仅定位精确而且计算高效，能够在YROS平台上高效的运行。

为了对眼睛定位方法进行描述，我们先介绍一些符号约定。X_i∈R²表示人脸I中的第i个眼睛关键点的x,y坐标。用

表示I中所有的眼睛关键点，我们也时常将向量S称之为形状(眼睛关键点坐标可以描绘出眼睛的形状)，我们使用S′_t表示当前对S的估计。级联中的每一个回归器r_t(·,·)从I和S′_t中预测一个更新向量，并将其添加到当前估计S′_t中以改进估计(得到新的估计)：

S′_t+1＝S′_t+r_t(I,S′_t)

级联的关键点是回归器r_t基于特征进行预测，例如从I计算并且关联到当前估计的S′_t的像素强度值。这在整个过程中引入了某种形式的几何不变性，随着级联的进行，我们可以更确定人脸上眼睛的精确语义位置。

注意，如果初始估计S′₀属于这个空间则保证由集成扩展的输出范围位于训练数据的线性子空间。因此，我们不需要对预测施加额外的限制，这大大简化了我们的方法。初始估计S′₀可以简单地选择为训练数据中心的平均形状，并根据通用人脸检测器的边界框输出进行缩放。为了训练每个r_t，我们使用梯度提升算法与平方和误差损失。眼睛定位算法的训练数据集是本申请方法中人脸检测模块中使用的人脸检测算法检测出的人脸组成的数据集。

经过眼睛定位之后，我们可以获取到人脸中的眼睛区域，这里我们使用符号I′表示，经过定位的眼睛区域接下来会用于眼球定位。

2.2眼球定位：

眼球定位实质是计算出眼球中心(通常可以认为是瞳孔)的位置坐标，本申请方法中我们采用了一种基于梯度的办法计算出眼球中心的坐标，该方法定位精度高并且非常鲁棒。

几何上，可以通过分析图像梯度的矢量场来检测圆形物体的圆心，因此，我们可以通过图像梯度来计算出眼球中心。接下来，我们对这个计算过程以数学形式的方式进行介绍，实际上我们用数学方法描述了一个可能的中心和所有图像梯度的方向之间的关系。

如图4所示，假设c是一个可能的中心，g_i是位置x_i的梯度向量，标准化的位移矢量d_i应该与梯度g_i有相同的方向(除了符号)。如果我们使用(图像)梯度的向量场，我们可以通过计算标准化位移向量(与固定中心相关)和梯度向量g_i之间的点积来利用这个向量场。在像素位置为x_i,i∈{1,2,...,N}的图像中圆形物体的最佳中心c^*则为：

将位移向量d_i缩放到单位长度，以便对所有像素位置获得相等的权重。为了提高对光照和对比度线性变化的鲁棒性，梯度向量也应该按单位长度缩放。只考虑具有显著量值的梯度向量，即忽略均匀区域的梯度，可以降低计算复杂度。为了获得图像梯度，我们计算偏导数

但是其他计算图像梯度的方法不会显著改变目标函数的行为。

3、眼动跟踪及识别模块：

在本申请方法中，眼动跟踪即跟踪眼球的运动，具体使用一个九宫格进行描述眼球的移动位置；眼动识别即识别眼动的姿态具体包括：闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼。可对不同的眼动姿态进行指令编码为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑。

3.1眼动跟踪：

在眼睛/眼球定位模块中，我们已经获取到了眼睛与眼球中心的定位(以关键点坐标进行描述)，其中眼睛的位置由多个关键点坐标表达，眼球中心只有一个关键点坐标进行表达，眼动跟踪是跟踪眼球中心在眼眶(即由泪窝、上眼睑、外眼角以及下眼睑包含的区域)区域内的位置变化。如图5所示，c代表眼球中心点，k₁,k₂,k₃,k₄是眼眶在四个方位的最靠外侧的眼睛关键点，这也是眼动跟踪过程中主要需要用到的眼睛关键点。通过分别计算眼球中心c与四个关键点k₁,k₂,k₃,k₄的距离来确定眼球位于眼眶中的方位，图5中的眼球位于眼眶的中心方位，对应的九宫格中的中间宫格被点亮。

3.2眼动姿态识别：

眼动姿态识别与眼动跟踪同时进行，眼动姿态的识别通常需要对持续的眼动跟踪的结果进行分析才能识别一个眼动姿态(眼动本身也是一个持续的过程)，当检测到有闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼中的任何一个眼动姿态时便会提示输出该眼动姿态。

如图6所示，具体实施流程分为3个步骤，其中人脸检测模块包含人脸检测步骤，眼睛/眼球定位模块包含眼睛定位与眼球中心定位，眼动跟踪及识别模块包含眼动跟踪与眼动姿态识别。

a、人脸检测：

输入的图像数据可来自视频文件也可来自于摄像头的实时采集，图像数据被输入到人脸检测模块，人脸检测算法检测出图像中的人脸。

b、眼睛/眼球定位：

检测出来的人脸区域被输入到眼睛/眼球定位模块，首先是通过眼睛关键点检测对人脸中的眼睛进行定位，每只眼睛通过检测出的8个关键点(其中包含了泪窝点、上眼睑点、外眼角点以及下眼睑点)进行定位。

接下来就是通过眼球中心检测算法对眼球中心进行定位，通常检测到的眼球中心就在瞳孔位置上。

c、眼动跟踪及识别：

已经检测到了眼睛的位置(眼眶)和眼球中心的位置，那么就可以根据眼球中心关键点坐标与眼睛关键点坐标计算出眼球中心在眼眶内的方位，从而实现了眼动跟踪，我们使用一个九宫格实时的显示眼动跟踪的结果。

眼动姿态的识别需要对连续的眼动轨迹以及闭眼情况进行分析，通过对眼动跟踪的结果进行分析，本申请方法支持对闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼共计11种眼动姿态进行识别。实际上这11种眼动姿态基本包含了日常所有的眼动姿态。在眼动跟踪持续进行的同时，眼动姿态识别算法也持续的接收每一个眼动跟踪结果，并进行计算是否存在上述的11种眼动姿态，如果存在便进行输出提示。一旦识别一个眼动姿态，眼动姿态识别算法便会清除之前的跟踪轨迹。

本专利申请基于银河锐华移动操作***实现了一种新型的眼动跟踪及识别方法。通过眼动跟踪及识别方法跟踪眼球的运动轨迹并且识别多种眼动姿态(具体如下：闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼)，为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，包括如下步骤：

步骤3：根据眼睛与眼球的定位，计算眼球的位置；

步骤4：计算出眼动姿态。

2.根据权利要求1所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述步骤2包括如下步骤：

步骤2.1：检测出人脸中的眼睛区域；

步骤2.2：在眼睛区域内进行眼球的定位。

3.根据权利要求1所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述步骤1中，所述人脸检测模块的算法采用基于卷积神经网络的深度学习模型。

4.根据权利要求3所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述深度学习模型采用Basic_conv网络层、2layer_conv网络层、4layer_conv网络层以及maxpooling2x2S2网络层。

5.根据权利要求4所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述Basic_conv网络层的卷积操作为3x3的depthwise卷积操作或1x1的pointwise卷积操作。

6.根据权利要求4所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述2layer_conv网络层由两个Basic_conv网络层堆叠而成，所述4layer_conv网络层由四个Basic_conv网络层网络层堆叠而成。

7.根据权利要求4所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述maxpooling2x2S2网络层是池化核大小为2x2，滑动步伐大小为2的最大池化层。

8.根据权利要求3所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述人脸检测模块算法的训练数据集采用WIDER Face数据集。

9.根据权利要求1所述的基于银河锐华移动操作***的眼动追踪、识别方法，其特征在于，所述步骤2中，采用级联回归器的方法对人脸中的人眼进行关键点定位。

10.一种基于银河锐华移动操作***的眼动追踪、识别***，其特征在于，包括如下模块：

位置计算模块：根据眼睛与眼球的定位，计算眼球的位置；

姿态计算模块：计算出眼动姿态。