CN109344714B

CN109344714B - 一种基于关键点匹配的视线估计方法

Info

Publication number: CN109344714B
Application number: CN201811011543.8A
Authority: CN
Inventors: 李宏亮; 颜海强; 尹康; 袁欢; 梁小娟; 邓志康
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2022-03-15
Anticipated expiration: 2038-08-31
Also published as: CN109344714A

Abstract

本发明公开了一种基于关键点匹配的视线估计方法，属于计算机视觉领域的视线估计。本发明通过深度网络初步定位瞳孔关键点之后，采用SGBM模板匹配方法去进一步修正瞳孔中心位置。相比于现有的视线估计方法能够更精确的定位瞳孔中心位置，尤其是对于头部或眼球偏置较大的情况。本发明的实施，能够有效的提升视线估计的精度，相比于瞳孔角膜反射方法，只采用了单个网络摄像头，大大降低了设备成本。相比于现有基于单图像处理的方法，不需要限制头部的姿态，算法的鲁棒性大大增加。通过于3D人脸模型的匹配，避免的目前已有数据库无法表示所有姿态的局限性，从而增加了该方法的实用性。

Description

一种基于关键点匹配的视线估计方法

技术领域

本发明提出一种基于关键点匹配的视线估计方法，是一种计算机视觉领域的视线估计新型技术。

背景技术

随着计算机科学的发展，人机交互逐渐成为了一个热门的领域。人眼视线能够反映人的关注信息，也属于人机交互中重要的信息输入源。基于视线估计的人机交互在军事、医疗、娱乐等领域有着广阔的发展前景。

目前实用的视线估计技术主要是基于瞳孔角膜反射技术(PCCR)，使用近红外光源使用户眼睛的角膜和瞳孔上产生反射图像，然后使用图像传感器采集眼睛与反射的图像，最后基于三维眼球模型计算眼睛在空间中的位置和视线。这个方法虽然具有较高的精度，但是受限于昂贵的传感器设备难以普及。

针对上述问题，出现了基于3D人脸模型的视线估计方法。它只需要摄像头采集的图片作为输入数据，对采集到的图片进行关键点定位，并结合已知的模型估计头部姿态以及眼球中心位置，然后结合检测到的瞳孔中心位置得到视线角度。

但现有的基于3D人脸模型的视线估计方法在计算瞳孔中心位置时，由于数据库的局限性不能够涵盖所有现实的情况，对于头部姿态或眼部偏置较大的情况下存在较大的误差，导致最终对视线的估计出现极大偏差。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种结合深度网络以及模板匹配的方法来精确定位瞳孔中心，增加方案的可行性。

本发明的基于关键点匹配的视线估计方法，包括下列步骤：

步骤一、检测目标人脸：

将摄像头采集的视频流输入训练好的人脸检测网络模型(选择惯用的人脸检测网络模型，例如MobileNet-SSD)进行人脸检测，截取其中尺寸最大的人脸作为视线检测的目标人脸图像；

再对所述目标人脸图像进行尺寸归一化处理后，作为人脸关键点检测网络模型(选择对应的惯用的检测网络模型即可，例如SE-Net)的输入，用于获取目标人脸图像的人脸关键点以及瞳孔中心。

步骤二、人脸关键点检测以及瞳孔中心初步定位：

基于选择的人脸关键点检测网络模型，输入尺寸归一化处理后的目标人脸图像，得到人脸关键点和2个初始瞳孔中心在当前目标人脸图像上的坐标，并将其转换为视频图像上(即归一化之前的)的坐标，所述人脸关键点包括4个眼部关键点，左右眼分别包括两个关键点(眼睛的两个端点)；

步骤三、头部姿态估计及眼球定位：

通过透视n点算法(PNP算法，pespective-n-point)，将检测到的人脸关键点与标准三维人脸关键点相匹配得到人脸相对于摄像头的空间位置和旋转角度；

从而得到2个初始瞳孔中心的三维坐标，以及4个眼部关键点的三维坐标；

在三维坐标下，分别取左右眼的两个眼部关键点的中点沿头部姿态方向后12mm作为左、右眼球中心位置；

步骤四、修正瞳孔中心位置：

在三维坐标下，根据检测到的4个眼部关键点截取左眼和右眼图片，利用半全局匹配SGBM方法重新定位瞳孔中心点，若当前得到的匹配点(重新定位的瞳孔中心点)的置信度大于0.7，则认为该匹配点可信；并取两次可信匹配点的中值作为最终的瞳孔中心位置；

步骤五、视线方向估计：

在三维坐标下，计算眼球中心到瞳孔中心的光轴信息，得到当前视线方向。得到当前视线方向。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明提出的基于关键点匹配的视线估计方法能够有效的提升视线估计的精度，相比于瞳孔角膜反射方法，只采用了单个网络摄像头，大大降低了设备成本。相比于现有基于单图像处理的方法，不需要限制头部的姿态，算法的鲁棒性大大增加。通过于3D人脸模型的匹配，避免的目前已有数据库无法表示所有姿态的局限性，从而增加了该方法的实用性。

附图说明

图1是本发明的处理过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

现有的视线估计方法对于瞳孔中心定位的误差较大，尤其是对于头部姿态较大的情况。本发明尝试通过SE-Net(Squeeze-and-Excitation Networks)来初步定位人脸关键点和瞳孔中心，然后再采用SGBM匹配算法(半全局匹配)得到的瞳孔中心对结果进行修正，进一步提高瞳孔定位精度。

首先，对摄像头读取的图片进行人脸检测，裁取其中尺度最大的人脸作为需要估计视线的目标，并归一化到标准的大小。基于SE-Net网络检测人脸的人脸特征点(例常用的68个关键点)以及2个瞳孔中心位置。

接着，利用透视n点算法(PNP)将检测到的68个人脸关键点与标准的3D人脸关键点相匹配得到人脸相对与摄像头在空间中的位置以及旋转角度。

然后，采用本发明提出的方法，根据已经得到的眼部关键点分别截取左眼和右眼的图片，采用半全局块匹配算法(SGBM)将眼部图片与标准瞳孔图片相匹配，找到匹配结果中置信度最高的点作为瞳孔中心，若匹配到的置信度大于0.7,则认为匹配到的位置是可信的，这时取两次瞳孔定位结果计算最终定位结果，计算公式如下：

其中，P_SeNet为SE-Net得到的瞳孔检测结果，P_SGBM为SGBM得到的瞳孔检测结果，T为SGBM得到的瞳孔中心置信度，置信度越大代表检测的结果越准确。

最后，取眼部关键点的中心沿头部偏置方向12mm作为眼球中心，结合眼球中心和瞳孔中心的向量得到最终的视线方向。

本发明通过深度网络初步定位瞳孔关键点之后，采用SGBM模板匹配方法去进一步修正瞳孔中心位置。相比于现有的视线估计方法能够更精确的定位瞳孔中心位置，尤其是对于头部或眼球偏置较大的情况。

实施例

参见图1，本发明主要包括如下几个步骤：检测目标人脸、人脸关键点检测以及瞳孔中心初步定位、头部姿态估计及眼球定位、修正瞳孔中心位置、视线方向估计。

步骤一、检测目标人脸。

将摄像头采集的视频流输入训练好的人脸检测网络(MobileNet-SSD)进行人脸检测，截取其中尺寸最大的人脸作为视线检测的目标人脸，将其归一化到300*300的大小作为关键点检测网络的输入。

步骤二、人脸关键点检测以及瞳孔中心初步定位。

采用SE-Net作为基础网络进行人脸关键点以及瞳孔中心检测的模型训练，在训练过程中采用L1loss作为损失函数，进一步提高定位精度。将300*300的人脸图片传入训练好的模型，得到68个关键点和2个瞳孔中心在人脸图片上的坐标，接着，将这些坐标转换成原图上的坐标。其中，L1loss表达式为：

其中f(x_i)表示第i个输入数据的模型预测结果，y_i表示对应的标签结果，m表示每次输入模型的数据个数。

步骤三、头部姿态估计及眼球定位。

利用得到的68个关键的在视频图片上的二维坐标和现有的68点人脸三维坐标模型采用PNP算法估算人脸相对于摄像头的空间位置和旋转角度。接着取两个眼部关键点的中点沿头部姿态方向后12mm作为眼球中心。

步骤四、修正瞳孔中心位置。

根据检测到的4个眼部关键点截取左眼和右眼图片，利用SGBM方法搜索瞳孔中心，得到中心位置和相应的置信度，置信度越大则准确率越高。若置信度大于0.7，则结合两次的定位结果得到最终的瞳孔中心位置。

步骤五、视线方向估计。

取眼球中心和瞳孔中心的三维坐标，计算该光轴信息就是最终得到的视线方向。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于关键点匹配的视线估计方法，其特征在于，包括下列步骤：

步骤一、检测目标人脸：

将摄像头采集的视频流输入训练好的人脸检测网络模型进行人脸检测，截取其中尺寸最大的人脸作为视线检测的目标人脸图像；

对所述目标人脸图像进行尺寸归一化处理；

步骤二、人脸关键点检测以及瞳孔中心初步定位：

基于选择的人脸关键点检测网络模型，输入尺寸归一化处理后的目标人脸图像，得到人脸关键点和2个初始瞳孔中心在当前目标人脸图像上的坐标，并将其转换为视频图像上的坐标，所述人脸关键点包括4个眼部关键点，左右眼分别包括两个关键点；

步骤三、头部姿态估计及眼球定位：

通过透视n点算法，将检测到的人脸关键点与标准三维人脸关键点相匹配得到人脸相对于摄像头的空间位置和旋转角度；

步骤四、修正瞳孔中心位置：

在三维坐标下，根据检测到的4个眼部关键点截取左眼和右眼图片，利用半全局匹配SGBM方法重新定位瞳孔中心点，若当前得到的匹配点的置信度大于0.7，则认为该匹配点可信；并取两次可信匹配点的中值作为最终的瞳孔中心位置；

步骤五、视线方向估计：

在三维坐标下，计算眼球中心到瞳孔中心的光轴信息，得到当前视线方向。

2.如权利要求1所述的方法，其特征在于，所述目标人脸图像的归一化尺寸为300*300。