CN109508679B - 实现眼球三维视线跟踪的方法、装置、设备及存储介质 - Google Patents
实现眼球三维视线跟踪的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109508679B CN109508679B CN201811375929.7A CN201811375929A CN109508679B CN 109508679 B CN109508679 B CN 109508679B CN 201811375929 A CN201811375929 A CN 201811375929A CN 109508679 B CN109508679 B CN 109508679B
- Authority
- CN
- China
- Prior art keywords
- detection network
- eyeball
- dimensional
- face image
- prelu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 210000005252 bulbus oculi Anatomy 0.000 claims abstract description 146
- 238000001514 detection method Methods 0.000 claims abstract description 145
- 210000003128 head Anatomy 0.000 claims abstract description 129
- 230000009471 action Effects 0.000 claims abstract description 43
- 230000033001 locomotion Effects 0.000 claims abstract description 37
- 230000036544 posture Effects 0.000 claims description 86
- 210000001508 eye Anatomy 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 230000001815 facial effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004424 eye movement Effects 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000004438 eyesight Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 208000017442 Retinal disease Diseases 0.000 description 5
- 206010038923 Retinopathy Diseases 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质,包括:将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。本发明所提供的方法、装置、设备以及计算机可读存储介质,可以从二维的人脸图像中提取到被拍摄者眼球的三维视线方向向量,具有广泛的应用场景。
Description
技术领域
本发明涉及眼球跟踪技术领域,特别是涉及一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质。
背景技术
眼球跟踪算法的研究已经有较为成熟的成果,且已经成功地在很多商业应用上实现,例如VR/AR技术,虽然传统的眼球跟踪技术能够实现较高的精度,然而现阶段眼球跟踪算法基本上是基于传统的图像处理方法,依赖于昂贵的红外设备,且需要在头部安装特殊的检测设备,检测眼球的特征。传统的图像处理方法检测精度受光线变化的影响,且检测距离受到严重的约束。所以急需一种能通过普通摄像头拍摄的一种RGB图像实现眼球跟踪的算法。在计算机视觉领域,深度卷积神经网络已经在很多方面取得了重大成果,例如目标检测、实例分割等等。
现有技术中也有相应的基于深度学习的眼球跟踪技术,具体步骤如下:获取视网膜病变影像数据;对视网膜病变影像数据进行数据标注,得到标注数据;建立初始深度学习网络;将视网膜病变影像数据输入初始深度学习网络中,输出得到相应的预测数据;利用损失函数对视网膜病变影像数据相应的标注数据和预测数据进行比较,得到比较结果;根据比较结果,调节初始深度学习网络中的参数,直到比较结果达到预设阈值,得到最终的深度学习网络模型;利用深度学习网络模型对待测视网膜病变影像数据进行处理,得到相应的眼球中心坐标以及眼球直径。
因此现有的眼球跟踪技术中,一种是基于传统的图像处理算法实现眼球跟踪技术,虽然这类算法已经有较为成熟的商业应用,然而传统的图像处理算法检测精度受光线变化的影响,而且依赖于昂贵的头部佩戴红外线设备,头部的便捷性体验较差,检测距离也受到约束。另一种是基于深度学习算法的眼球跟踪算法,然而现有的基于技术中基于深度学习算法的眼球跟踪算法仅能检测眼球中心位置及眼球直径,仅包含眼球动作的二维信息,应用场景受到约束。
综上所述可以看出,如何通过二维人脸图像获取眼球的三维视线方向向量是目前有待解决的问题。
发明内容
本发明的目的是提供一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质,以解决现有技术中基于深度学习的眼球跟踪算法只能检测出眼球的二维信息的问题。
为解决上述技术问题,本发明提供一种实现眼球三维视线跟踪的方法,包括:将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。
优选地,所述将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态前包括:
采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集,其中,所述人脸图像为RGB图像;
构建初始头部姿态检测网络和初始眼球动作检测网络;
利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练,得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络。
优选地,所述采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集包括:
利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像,得到人脸图像第一子集合;
所述面阵摄像头阵列中每行摄像头采集到多幅人脸图像,表示所述数据提供者在y方向不同的头部姿态;
所述面阵摄像头阵列中每列摄像头采集到的多幅人脸图像,表示所述数据提供者在p方向不同的头部姿态;
对所述面阵摄像头阵列采集到的所述人脸图像分别进行顺时针和逆时针方向的旋转,得到表示所述数据提供者在r方向不同的头部姿态的人脸图像第二子集合;
合并所述人脸图像第一子集合和所述人脸图像第二子集合得到所述人脸图像数据集。
优选地,所述利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像包括:
采集所述每幅人脸图像时,记录所述数据提供者眼球正视的显示屏上的动点,从而确定所述数据提供者眼球视线的三维向量标签,且同时记录每幅人脸图像中的头部姿态。
优选地,所述构建初始头部姿态检测网络包括:
以Alex NET模型为基本结构,构建所述初始头部检测网络,所述初步头部检测网络的网络结构为:
C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3);
其中,C(k,s,c)表示卷积核尺寸为k,卷积步长为s,通道数为c的卷积层,P(k,s)表示核尺寸为k,步长为s的最大值池化层,BN表示批归一化,PReLU表示激活函数,FC(n)表示全连接层,神经元个数为n。
优选地,所述利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练包括:
利用所述人脸图像数据集对所述头部姿态检测网络和所述初始眼球动作检测网络进行训练;
优选地,将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量前包括:
利用所述头部姿态检测网络和所述眼球动作检测网络分别对所述人脸数据集合中的人脸图像进行检测,得到每幅人脸图像的头部姿态和眼球动作;
利用所述各幅人脸图像的头部姿态和眼球动作对预先建立的初始三维视线向量检测网络进行训练,从而得到完成训练的三维视线向量检测网络;
本发明还提供了一种实现眼球三维视线跟踪的装置,包括:
头部姿态检测模块,用于将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;
眼球动作检测模块,用于将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;
三维视线检测模块,用于将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。
本发明还提供了一种实现眼球三维视线跟踪的设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种实现眼球三维视线跟踪的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种实现眼球三维视线跟踪的方法的步骤。
本发明所提供的实现眼球三维视线跟踪的方法,将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到了所述人脸图像中的头部姿态。将所述人脸图像输入至所述预先构建的眼球动作检测网络中,得到所述人脸图像中的眼球动作。将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,以便于根据几何约束并通过视线转换网络得到所述人脸图像中眼球的三维视线方向向量。本发明所述提供的眼球跟踪方法,基于深度学习网络,从二维的人脸图像中提取被拍摄者的头部姿态和眼球动作,并将所述头部姿态和所述眼球动作输入预先训练好的三维视线向量检测网络内,得到所述人脸图像中被拍摄者眼球的三维视线方向向量。本发明所提供的方法具体广泛的应用领域,通过人脸图像得到眼球的三维视线向量方向可以用于安全驾驶的监控领域、人机交互领域、心理研究领域等;解决了现有技术中通过深度神经网络实现眼球跟踪技术时,只能检测到眼球中心位置和眼球直径,不具有广泛应用场景的问题。相对应的,本发明所提供的装置、设备以及计算机可读存储介质,均具有上述有益效果。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的实现眼球三维视线跟踪的方法的第一种具体实施例的流程图;
图2为本发明所提供的实现眼球三维视线跟踪的方法的第二种具体实施例的流程图;
图3为本发明实施例提供的一种实现眼球三维视线跟踪的装置的结构框图。
具体实施方式
本发明的核心是提供一种实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质,可以通过二维人脸图像得到眼球的三维视线向量,具有广泛应用场景。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的实现眼球三维视线跟踪的方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;
所述将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态前首先采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集;并构建初始头部姿态检测网络和初始眼球动作检测网络;利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练,得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络。
为了使所述初始头部姿态检测网络和所述初始眼球动作检测网络具有更好的泛化能力,在本实施例中采集的人脸图像数据集合需要具备以下特征:a、具有广泛的分布,尽可能的覆盖所有的头部姿态和眼球动作,同时数据图像还应该包括不同光线强度,甚至包括眼镜反光干扰。B、人脸图像数据集合具有头部姿态和眼球视线的三维标签。c、人脸图像数据集合中的人脸图像优选一般的RGB图像,而不是依赖于特定的摄像头设备。
为了使所述人脸图像数据集合具有更广泛的分布,本实施例采用了一个3×4摄像头阵列,通过不同的摄像头视角来代表不同的头部姿态。但是面阵摄像头阵列仅能代表头部姿态在(y,p)两个方向的不同,所以,为了得到头部姿态在r方向不同,对采集的人脸图像分别进行顺逆时针进行旋转,来表示头部的侧头摆动动作的变化,对应的每个头部姿态,摄像头所在阵列的位置及图像旋转的角度对应一个头部姿态的标签(yGT,pGT,rGT)。
为了获取更加丰富的眼球动作,在采集所述人脸图像数据集的同时,让数据提供者眼球跟踪注视显示屏的一个动点,显示屏幕的动点包含随机字母,需要数据提供者识别字母以确保数据提供者眼球正注视着屏幕的动点,从而保证数据标签的准确性,以获取不同的眼球动作,对应每一个眼球跟踪的位置,记录此时的眼球视线向量标签(φGT,θGT)。在采集人脸图像数据集合的同时记录每幅人脸图像中头部姿态和所对应的眼球视线的三维向量标签。
在本实施例中,采集所述人脸图像数据集合时,只需要采集人脸RGB图像,无需依赖于其它特殊设备,相对于需要依赖于昂贵的头部佩戴红外线设备的现有技术,不仅降低了应用成本,而且由于头部自由无约束,从而具有更好的便捷性。
构建所述初始头部姿态检测网络、所述初步眼球动作检测网络和初始三维视线向量检测网络之前,首先叙述本实施例所采用的几何分析和坐标体系。本实施例共采用两个坐标系,头部坐标系(Xh,Yh,Zh)和摄像头坐标系(Xc,Yc,Zc),g为视线向量。为了进一步简化头部姿态的表示,本发明实施例采用了三维的球形旋转角表示(y,p,r),其中y表示偏航角(沿着Yh轴的旋转角),p表示倾斜角(沿着Xh轴的旋转角),r表示偏航角(沿着Zh轴的旋转角)。而眼球的动作采用二维的球形坐标体系(θ,φ)表示,其中θ和φ分别表示视线向量与头部坐标系的水平和垂直方向上的夹角。
在所述头部坐标体系中用眼球动作来描述视线向量如下所示:
gh=[-cos(φ)sin(θ),sin(φ),-cos(φ)cos(θ)]T
摄像头坐标系(Xc,Yc,Zc)则定义为以摄像头中心为原点,摄像头深度方向为Zc轴,垂直于深度方向的平面的两个方向分别为Xc,Yc轴。由于网络最终输出的三维视线向量是在摄像头坐标系表示的,所以本发明实施例定义gc为摄像头坐标系下的三维视线向量,根据几何学知识可知,gc取决于gh,gh是在头部坐标系下定义的,所以可以得到本发明实施例的整体映射关系:
步骤S102:将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;
步骤S103:将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。
将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线向量。
为了重复利用现有的数据集,本实施例中的网络采用了端对端的结构,先分别建立初始头部姿态检测网络和所述眼球动作检测网络,然后将两部分网络的结构检测结果输入到一个全连接网络,得到最后的三维视线向量,网络分成两个分支,上部分分支用于检测头部姿态,下部分用于检测眼球动作,然后经过几何约束的视线转换层,得到摄像头坐标系的视线三维方向向量。
基于上述实施例,在本实施例中,为了重复利用采集到的人脸图像数据集,本实施例采用了端对端的结构,先分别建立头部姿态检测的网络和眼球动作检测的网络,然后将两部分网络的结构检测结果输入到一个全连接网络,得到最后的三维视线向量,网络分成两个分支,上部分分支用于检测头部姿态,下部分用于检测眼球动作,然后经过几何约束的视线转换层,得到摄像头坐标系的视线三维方向向量。请参考图2,图2为本发明所提供的实现眼球三维视线跟踪的方法的第二种具体实施例的流程图;具体操作步骤如下:
步骤S201:利用面阵摄像头阵列采集多幅数据提供者的人脸图像,并记录每幅人脸图像中的头部姿态和眼球动作的三维向量标签,得到人脸图像第一子集合;
步骤S202:对所述人脸图像第一子集合中的人脸图像分别进行顺时针和逆时针方向的旋转,得到人脸图像第二子集合;
步骤S203:合并所述人脸图像第一子集合和所述人脸图像第二子集合得到所述人脸图像数据集;
步骤S204:利用所述人脸图像数据集合分别对预先构建的初始头部姿态检测网络和初始眼球动作检测网络进行训练,得到目标头部姿态检测网络和目标眼球检测网络;
所述初始头部姿态检测网络的基本网络结构采用了Alex Net的结构,对其进行相应的简化和修改。网络的层数不变,但每一层的通道数进行了适当的减少,同时将局部响应归一化改为批归一化,激活函数采用PReLU。所述初始头部姿态检测网络的网络结构如下:C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3)
其中,其中,C(k,s,c)表示卷积核尺寸为k,卷积步长为s,通道数为c的卷积层,P(k,s)表示核尺寸为k,步长为s的最大值池化层,BN表示批归一化,PReLU表示激活函数,FC(n)表示全连接层,神经元个数为n。
所述眼球动作检测网络的输入为人脸图像的原始图片所截取的眼睛区域,分左眼和右眼两部分,由于两部分网络完全对称,下面将对其部分进行详细说明,将眼球图像块调整到一致大小36x36,然后经过卷积神经网络和全连接网络,所述初始眼球动作检测网络结构如下:C(11,2,96)-BN-PReLU-P(2,2)-C(5,1,256)-BN-PReLU-P(2,2)-C(3,1,384)-BN-PReLU-P(2,2)-C(1,1,64)-BN-PReLU-P(2,2)-FC(128)-FC(2)。
步骤S205:利用所述目标头部姿态检测网络和所述目标眼球动作检测网络对所述人脸图像数据集中的各幅人脸进行检测,得到所述各幅人脸图像的头部姿态和眼球动作;
步骤S206:利用所述人脸图像数据集合中每幅人脸图像的头部姿态和眼球动作输入至预先构建的初始三维视线向量检测网络进行训练,得到所述目标三维视线向量检测网络;
所述初始三维视线向量检测网络由所述目标头部姿态检测网络得到的(y,p,r)和所述目标眼球动作检测网络得到的(θ,φ)作为所述初始三维视线向量检测网络的输入,所述初始三维视线向量检测网络为两层全连接网络,网络第一层神经元个数为128,最后层神经元个数为3,对应三维视线向量。
利用对所述预先建立的初始三维视线向量检测网络进行训练时,当前损失函数Loss2=Loss1+Lossg=Lossh+Losse+Lossg为损失函数Loss1和所述初始三维视线向量检测网络损失函数之和。
Lossh=||h-hGT||2,h={y,p,r}
Losse=||e-eGT||2,e={φ,θ}
Lossg=||gc-gc GT||2,gc={x,y,z}
步骤S207:将待检测的人脸图像输入至所述目标头部姿态检测网络,得到所述待检测的人脸图像中的头部姿态;
步骤S208:将所述待检测的人脸图像输入至所述目标眼球动作检测网络,得到所述待检测的人脸图像的眼球动作;
步骤S209:将所述待检测的人脸图像的头部姿态和所述待检测的人脸图像的眼球动作输入至所述目标三维视线向量检测网络,得到所述待检测的人脸图像中眼球的三维视线方向向量。
现有技术中眼球识别中仅进行了眼球中心位置的二维标注,最终只能得到眼球的二维信息,所以应用受到局限,而本实施例所提供的方法同样基于深度神经网络,但本实施例不仅处理了眼球的动作信息,还进行了头部姿态的预测,同时预测了眼球三维视线向量,从而具有更高层次的信息,也具有更好的应用价值。本实施例中网络训练采用了端对端的分步训练,在第一步训练过程中,可以充分利用现有的头部姿态的数据集和眼球动作数据集,从而极大的增加了训练的数据集,让本实施例中深度网络具有更好的泛化能力。
请参考图3,图3为本发明实施例提供的一种实现眼球三维视线跟踪的装置的结构框图;具体装置可以包括:
头部姿态检测模块100,用于将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;
眼球动作检测模块200,用于将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;
三维视线检测模块300,用于将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量。
本实施例的实现眼球三维视线跟踪的装置用于实现前述的实现眼球三维视线跟踪的方法,因此实现眼球三维视线跟踪的装置中的具体实施方式可见前文中的实现眼球三维视线跟踪的方法的实施例部分,例如,头部姿态检测模块100,眼球动作检测模块200,三维视线检测模块300,分别用于实现上述实现眼球三维视线跟踪的方法中步骤S101,S102和S103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种实现眼球三维视线跟踪的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种实现眼球三维视线跟踪的方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种实现眼球三维视线跟踪的方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的实现眼球三维视线跟踪的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (8)
1.一种实现眼球三维视线跟踪的方法,其特征在于,包括:
将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;
将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;
将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量;
所述将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态前包括:采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集,其中,所述人脸图像为RGB图像;构建初始头部姿态检测网络和初始眼球动作检测网络;利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练,得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络;
所述初始头部姿态检测网络的网络结构为:
C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3);
所述初始眼球动作检测网络结构为:
C(11,2,96)-BN-PReLU-P(2,2)-C(5,1,256)-BN-PReLU-P(2,2)-C(3,1,384)-BN-PReLU-P(2,2)-C(1,1,64)-BN-PReLU-P(2,2)-FC(128)-FC(2);
其中,C(k,s,c)表示卷积核尺寸为k,卷积步长为s,通道数为c的卷积层,P(k,s)表示核尺寸为k,步长为s的最大值池化层,BN表示批归一化,PReLU表示激活函数,FC(n)表示全连接层,神经元个数为n;
所述将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量前包括:
利用所述头部姿态检测网络和所述眼球动作检测网络分别对所述人脸图像数据集中的人脸图像进行检测,得到每幅人脸图像的头部姿态和眼球动作;
利用所述各幅人脸图像的头部姿态和眼球动作对预先建立的初始三维视线向量检测网络进行训练,从而得到完成训练的三维视线向量检测网络;
所述初始三维视线向量检测网络为两层全连接网络,网络第一层神经元个数为128,最后层神经元个数为3,对应三维视线向量。
2.如权利要求1所述的方法,其特征在于,所述采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集包括:
利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像,得到人脸图像第一子集合;
所述面阵摄像头阵列中每行摄像头采集到多幅人脸图像,表示所述数据提供者在y方向不同的头部姿态;
所述面阵摄像头阵列中每列摄像头采集到的多幅人脸图像,表示所述数据提供者在p方向不同的头部姿态;
对所述面阵摄像头阵列采集到的所述人脸图像分别进行顺时针和逆时针方向的旋转,得到表示所述数据提供者在r方向不同的头部姿态的人脸图像第二子集合;
合并所述人脸图像第一子集合和所述人脸图像第二子集合得到所述人脸图像数据集。
3.如权利要求2所述的方法,其特征在于,所述利用面阵摄像头阵列中各个摄像头分别采集数据提供者的人脸图像包括:
采集所述数据提供者的人脸图像时,记录所述数据提供者眼球正视的显示屏上的动点,从而确定所述数据提供者眼球视线的三维向量标签,且同时记录每幅人脸图像中的头部姿态。
4.如权利要求1所述的方法,其特征在于,所述利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练包括:
利用所述人脸图像数据集对所述头部姿态检测网络和所述初始眼球动作检测网络进行训练;
其中,损失函数Loss1=Lossh+Losse为初步头部姿态检测网络的损失函数Lossh和初步眼球动作检测网络的损失函数Losse之和。
5.如权利要求4所述的方法,其特征在于,所述将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量前包括:
当前损失函数Loss2=Loss1+Lossg=Lossh+Losse+Lossg为损失函数Loss1和所述初始三维视线向量检测网络损失函数Lossg之和。
6.一种实现眼球三维视线跟踪的装置,其特征在于,包括:
头部姿态检测模块,用于将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态;所述将待检测的人脸图像输入至预先构建的头部姿态检测网络,得到所述人脸图像中的头部姿态前包括:采集多幅具有头部姿态和眼球视线的三维标签的人脸图像,构建人脸图像数据集,其中,所述人脸图像为RGB图像;构建初始头部姿态检测网络和初始眼球动作检测网络;利用所述人脸图像数据集分别对所述初始头部姿态检测网络和所述初始眼球动作检测网络进行训练,得到完成训练的所述头部姿态检测网络和所述眼球动作检测网络;所述初始头部姿态检测网络的网络结构为:C(3,1,6)-BN-PReLU-P(2,2)-C(3,1,16)-BN-PReLU-P(2,2)-C(3,1,24)-BN-PReLU-C(3,1,24)-PReLU(3,1,16)-BN-PReLU-P(2,2)-FC(256)-FC(128)-PReLU-FC(3);所述初始眼球动作检测网络结构为:C(11,2,96)-BN-PreLU-P(2,2)-C(5,1,256)-BN-PReLU-P(2,2)-C(3,1,384)-BN-PReLU-P(2,2)-C(1,1,64)-BN-PReLU-P(2,2)-FC(128)-FC(2);其中,C(k,s,c)表示卷积核尺寸为k,卷积步长为s,通道数为c的卷积层,P(k,s)表示核尺寸为k,步长为s的最大值池化层,BN表示批归一化,PReLU表示激活函数,FC(n)表示全连接层,神经元个数为n;
眼球动作检测模块,用于将所述人脸图像输入至预先构建的眼球动作检测网络,得到所述人脸图像的眼球动作;
三维视线检测模块,用于将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量;所述将所述头部姿态和所述眼球动作输入至预先构建的三维视线向量检测网络,得到所述人脸图像中眼球的三维视线方向向量前包括:利用所述头部姿态检测网络和所述眼球动作检测网络分别对所述人脸图像数据集中的人脸图像进行检测,得到每幅人脸图像的头部姿态和眼球动作;利用所述各幅人脸图像的头部姿态和眼球动作对预先建立的初始三维视线向量检测网络进行训练,从而得到完成训练的三维视线向量检测网络;所述初始三维视线向量检测网络为两层全连接网络,网络第一层神经元个数为128,最后层神经元个数为3,对应三维视线向量。
7.一种实现眼球三维视线跟踪的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述一种实现眼球三维视线跟踪的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种实现眼球三维视线跟踪的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375929.7A CN109508679B (zh) | 2018-11-19 | 2018-11-19 | 实现眼球三维视线跟踪的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375929.7A CN109508679B (zh) | 2018-11-19 | 2018-11-19 | 实现眼球三维视线跟踪的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508679A CN109508679A (zh) | 2019-03-22 |
CN109508679B true CN109508679B (zh) | 2023-02-10 |
Family
ID=65749029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811375929.7A Active CN109508679B (zh) | 2018-11-19 | 2018-11-19 | 实现眼球三维视线跟踪的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508679B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110058694B (zh) | 2019-04-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 视线追踪模型训练的方法、视线追踪的方法及装置 |
CN110191234B (zh) * | 2019-06-21 | 2021-03-26 | 中山大学 | 一种基于注视点分析的智能终端解锁方法 |
CN110555426A (zh) * | 2019-09-11 | 2019-12-10 | 北京儒博科技有限公司 | 视线检测方法、装置、设备及存储介质 |
CN110909611B (zh) * | 2019-10-29 | 2021-03-05 | 深圳云天励飞技术有限公司 | 一种关注区域检测方法、装置、可读存储介质及终端设备 |
CN111178278B (zh) * | 2019-12-30 | 2022-04-08 | 上海商汤临港智能科技有限公司 | 视线方向确定方法、装置、电子设备及存储介质 |
CN111847147B (zh) * | 2020-06-18 | 2023-04-18 | 闽江学院 | 一种无接触眼动式电梯楼层输入方法及装置 |
CN112114671A (zh) * | 2020-09-22 | 2020-12-22 | 上海汽车集团股份有限公司 | 一种基于人眼视线的人车交互方法、装置和存储介质 |
CN114529731A (zh) * | 2020-10-30 | 2022-05-24 | 北京眼神智能科技有限公司 | 人脸特征点定位及属性分析方法、装置、存储介质及设备 |
CN112465862B (zh) * | 2020-11-24 | 2024-05-24 | 西北工业大学 | 一种基于跨域深度卷积神经网络的视觉目标跟踪方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391574A (zh) * | 2014-11-14 | 2015-03-04 | 京东方科技集团股份有限公司 | 视线处理方法、***、终端设备及穿戴式设备 |
CN105740846A (zh) * | 2016-03-02 | 2016-07-06 | 河海大学常州校区 | 一种基于深度相机的水平视角估计及校准方法 |
CN106598221A (zh) * | 2016-11-17 | 2017-04-26 | 电子科技大学 | 基于眼部关键点检测的3d视线方向估计方法 |
JP2017213191A (ja) * | 2016-05-31 | 2017-12-07 | 富士通株式会社 | 視線検出装置、視線検出方法、及び視線検出プログラム |
CN107818310A (zh) * | 2017-11-03 | 2018-03-20 | 电子科技大学 | 一种基于视线的驾驶员注意力检测方法 |
CN108171218A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于深度外观注视网络的视线估计方法 |
CN108229284A (zh) * | 2017-05-26 | 2018-06-29 | 北京市商汤科技开发有限公司 | 视线追踪及训练方法和装置、***、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5044237B2 (ja) * | 2006-03-27 | 2012-10-10 | 富士フイルム株式会社 | 画像記録装置、画像記録方法、および画像記録プログラム |
CN103809737A (zh) * | 2012-11-13 | 2014-05-21 | 华为技术有限公司 | 一种人机交互方法及装置 |
WO2017013913A1 (ja) * | 2015-07-17 | 2017-01-26 | ソニー株式会社 | 視線検出装置、アイウェア端末、視線検出方法及びプログラム |
-
2018
- 2018-11-19 CN CN201811375929.7A patent/CN109508679B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391574A (zh) * | 2014-11-14 | 2015-03-04 | 京东方科技集团股份有限公司 | 视线处理方法、***、终端设备及穿戴式设备 |
CN105740846A (zh) * | 2016-03-02 | 2016-07-06 | 河海大学常州校区 | 一种基于深度相机的水平视角估计及校准方法 |
JP2017213191A (ja) * | 2016-05-31 | 2017-12-07 | 富士通株式会社 | 視線検出装置、視線検出方法、及び視線検出プログラム |
CN106598221A (zh) * | 2016-11-17 | 2017-04-26 | 电子科技大学 | 基于眼部关键点检测的3d视线方向估计方法 |
CN108229284A (zh) * | 2017-05-26 | 2018-06-29 | 北京市商汤科技开发有限公司 | 视线追踪及训练方法和装置、***、电子设备和存储介质 |
CN107818310A (zh) * | 2017-11-03 | 2018-03-20 | 电子科技大学 | 一种基于视线的驾驶员注意力检测方法 |
CN108171218A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于深度外观注视网络的视线估计方法 |
Non-Patent Citations (1)
Title |
---|
基于3D人眼模型的视线跟踪技术综述;周小龙,汤帆扬,管秋,华敏;《计算机辅助设计与图形学学报》;20170915;第09卷(第29期);1579-1589 * |
Also Published As
Publication number | Publication date |
---|---|
CN109508679A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508679B (zh) | 实现眼球三维视线跟踪的方法、装置、设备及存储介质 | |
CN108229284B (zh) | 视线追踪及训练方法和装置、***、电子设备和存储介质 | |
WO2020125499A1 (zh) | 一种操作提示方法及眼镜 | |
US10157477B2 (en) | Robust head pose estimation with a depth camera | |
Gorodnichy et al. | Nouse ‘use your nose as a mouse’perceptual vision technology for hands-free games and interfaces | |
US10755438B2 (en) | Robust head pose estimation with a depth camera | |
Qiao et al. | Viewport-dependent saliency prediction in 360 video | |
US11703949B2 (en) | Directional assistance for centering a face in a camera field of view | |
WO2022156640A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN110363133B (zh) | 一种视线检测和视频处理的方法、装置、设备和存储介质 | |
EP3874458A1 (en) | Cross-domain image translation | |
US11574424B2 (en) | Augmented reality map curation | |
Schauerte et al. | Saliency-based identification and recognition of pointed-at objects | |
CN111710036A (zh) | 三维人脸模型的构建方法、装置、设备及存储介质 | |
US20170316610A1 (en) | Assembly instruction system and assembly instruction method | |
JP2023545190A (ja) | 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム | |
CN111046734A (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
Emery et al. | OpenNEEDS: A dataset of gaze, head, hand, and scene signals during exploration in open-ended VR environments | |
Sidenko et al. | Eye-tracking technology for the analysis of dynamic data | |
JP2022095332A (ja) | 学習モデル生成方法、コンピュータプログラム及び情報処理装置 | |
Funes Mora et al. | Eyediap database: Data description and gaze tracking evaluation benchmarks | |
CN112099330B (zh) | 基于外部相机和穿戴式显控设备的全息人体重建方法 | |
WO2022178210A1 (en) | Clustered dynamic graph convolutional neural network (cnn) for biometric three-dimensional (3d) hand recognition | |
Li et al. | Estimating gaze points from facial landmarks by a remote spherical camera | |
Kumano et al. | Automatic gaze analysis in multiparty conversations based on collective first-person vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |