CN111796681A

CN111796681A - 人机交互中基于差分卷积的自适应视线估计方法及介质

Info

Publication number: CN111796681A
Application number: CN202010647088.1A
Authority: CN
Inventors: 罗元; 陈旭
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-20

Abstract

本发明请求保护一种人机交互中基于差分卷积的自适应视线估计方法及介质，该方法包括步骤：S1，对人脸图像进行预处理，利用MTCNN算法进行人脸检测与人眼区域定位，并提取人眼特征信息；S2，直接利用人脸图像估计头部姿态；S3，利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图，进行初步视线估计；S4，利用差分卷积网络，通过训练，预测眼睛的凝视差异；S5，利用凝视差异对初步实现估计结果进行校准，输出最终视线估计结果。通过在公开数据集Eyediap上进行验证，并与近年性能良好的视线估计模型进行比较，结果均表明本文提出的视线估计模型在头部***的状态下可以更准确的估计视线方向。

Description

人机交互中基于差分卷积的自适应视线估计方法及介质

技术领域

本发明属于图像处理与模式识别领域，特别是一种基于差扥卷积的自适应视线估计方法。

背景技术

随着计算机视觉、人工智能等领域的高速发展，视线估计技术的研究引起了广泛的关注。视线是分析人类行为和心理状态的一个十分重要非语言线索，是人注意力与兴趣的表现之一，视线信息有助于推断人的内心状态或意图，可以更好地理解个体之间的互动。因此，视线估计在很多研究领域都发挥着重要的作用，如：人机交互、虚拟现实、社会交互分析、医疗等。

广义的视线估计泛指对于眼球、眼动、视线等相关的研究。一般来说，视线估计方法可以分为基于模型的方法和基于表观的方法两大类。基于模型的方法的基本思想是基于眼睛角膜反射等特征，结合3D眼球先验知识，估计视线方向。而基于外观的方法则是直接提取眼睛的视觉特征，训练回归模型，学习一个将外观映射到视线方向的模型，从而进行视线估计。通过对比分析，基于模型的方法获得的精度较高，但对图片的质量和分辨率要求也较高，为了达到这一目的，通常要求使用专门的硬件，且对用户的头部姿态等移动性产生很大限制；而基于外观的方法对低分辨率和高噪声的图像表现更好，但模型的训练需要大量数据，并且容易出现过拟合现象。随着深度学习的崛起以及大量数据集的公开，基于表观的方法受到越来越多关注。

目前，虽然对视线估计技术的研究取得了很大的进步，但由于个体之间眼睛形状和眼内结构的差异性，通用模型获得的精度有限，同时，用户头部的移动幅度会对实验结果产生较大影响，会降低识别精度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种人机交互中基于差分卷积的自适应视线估计方法及介质。本发明的技术方案如下：

一种人机交互中基于差分卷积的自适应视线估计方法，其包括以下步骤：

S1、对人脸图像进行利用双线性差值法进行多尺度缩放的预处理，利用优化的多任务级联卷积神经网络算法进行人脸检测的同时实现瞳孔中心定位，并提取人眼特征信息；

S2、利用人脸图像直接进行头部姿态估计；

S3、利用卷积神经网络的全连接层自动融合步骤S1的头部姿态和步骤S2的人眼特征图，进行初步视线估计；

S4、利用差分卷积网络，通过训练预测眼睛的凝视差异量；

S5、利用获得的凝视差异量对初步实现估计结果进行校准，输出最终视线估计结果。

所述步骤S1利用优化的多任务级联卷积神经网络算法，输出5个人脸特征点，实现在进行人脸检测同时完成瞳孔中心定位。

多任务级联卷积神经网络算法输出就包括瞳孔中心位置。

进一步的，所述步骤S2利用人脸图像直接进行头部姿态估计，具体包括：采用随机回归森林的实时头部姿态估计***来对头部位置和朝向进行定位，用T_t＝[T_x,T_y,T_z]表示t时刻头部所在的位置信息，R_t＝[R_y,R_p,R_r]表示t时刻头部的旋转角度信息，则t时刻头部偏转参数可记为h_t＝(T_t,R_t)。

进一步的，所述步骤S3利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图，进行初步视线估计，具体包括：

采用基于卷积神经网络的方法，将3@48×72的眼睛图像I作为输入，其中3表示眼睛图像的通道数，48×72表示眼睛图像的大小，对图像进行预处理后，应用到卷积层，并将得到的特征图谱输入全连接层，最后在全连接层通过训练一个线性回归得到初步视线方向g_p(I)，其损失函数为：

其中，g_gt(I)为真实视线方向，D为训练数据集，|·|为基数运算图。

进一步的，所述步骤S4利用差分卷积网络，通过训练预测眼睛的凝视差异量，具体包括：

差分卷积是分析某个样本与相邻样本的模式方向，差分计算通过计算样本激活间的差异反映连续样本的变化；

差分卷积网络采用并行的结构，而并行结构的每个分支都由三个卷积层组成，每个卷积层都经过批处理归一化和ReLU单元，在第一个层与第二层后应用最大池化，以缩小图像尺寸；在第三层后，将两张输入图像的特征图进行归一化处理并拼接成一个新的张量，然后在张量上应用两个全连接层来预测两张输入图像的凝视差异。

进一步的，所述差分卷积网络选择ReLU函数作为卷积层和全连接层的激活函数，其公式表示为：

f(x)＝max(0,x) (10)

其中，x是输入，f(x)是经过ReLU单元之后的输出；

利用损失函数训练视线估计模型，用d^p(I,J)表示差分网络预测的凝视差异，则损失函数L_d为：

其中，I为测试图像，F为参考图像，D^k为训练集D的子集，只包含第k个人的一只眼睛的图像。

进一步的，所述S5利用获得的凝视差异量对初步实现估计结果进行校准，输出最终视线估计结果，具体为：通过差分卷积网络来预测测试图像I与参考图像F之间的差异d^p(I,J)，并结合真实的注视值g_gt(F)来预测最终的视线方向g_gt(F)+d^p(I,J)，公式为：

其中，D_c为参考图像的校准集，w(·)是对每个预测的重要性进行加权。

一种存储介质，所述存储介质为计算机可读存储介质，其存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以上任一项所述的方法。

本发明的优点及有益效果如下：

目前，大多数基于表观的视线估计方法是直接从单个人脸或者眼睛图像回归视线方向。但是，由于不同个体间眼睛形状和眼内结构存在差异，通用模型获得精度有限，其输出通常表现出高变异以及与主体相关的偏差。同时，当头部偏转角度过大时，视线估计结果也会受到较大影响。故本文针对以上问题，提出了一种基于差分卷积的自适应视线估计方法。引入差分卷积，直接训练一个差分卷积神经网络来预测同一受试者的两个眼睛输入图像之间的凝视差异，然后利用凝视差异对初步实现估计结果进行校准。此外，在模型中融合头部姿态信息，以提高视线估计***的鲁棒性。

通过在公开数据集Eyediap上测试，实验表明，当融入头部姿态信息，利用差分网络进行校准时，视线估计误差最小。可见差分卷积的引入可以有效地校准视线估计结果，降低视线估计的误差，且融合头部姿态信息可以使***对头部姿态变化具有较好的鲁棒性。为了更明确地进行不同模型对视线估计效果的对比，将本文提出的算法模型与其他基于卷积神经网络的视线估计方法进行对比，本文提出的模型对视线估计的误差更小，取得了优越的性能。

附图说明

图1是本发明提供优选实施例基于差分卷积网络(DNet)的视线估计框架图；

图2为差分卷积网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

S1，对人脸图像利用双线性差值法进行多尺度缩放的预处理，利用优化的多任务级联卷积神经网络算法(在本发明中，采用的是现有算法，因此本发明略写)进行人脸检测的同时实现瞳孔中心定位，并提取人眼特征信息；

S2，利用人脸图像直接进行头部姿态估计。采用随机回归森林的实时头部姿态估计***来对头部位置和朝向进行定位。用T_t＝[T_x,T_y,T_z]表示t时刻头部所在的位置信息，R_t＝[R_y,R_p,R_r]表示t时刻头部的旋转角度信息，则t时刻头部偏转参数可记为h_t＝(T_t,R_t)。

S3，利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图，进行初步视线估计，采用基于卷积神经网络的方法，将3@48×72的眼睛图像I作为输入，其中3表示眼睛图像的通道数，48×72表示眼睛图像的大小。对图像进行预处理后，应用到卷积层，并将得到的特征图谱输入全连接层，最后在全连接层通过训练一个线性回归得到初步视线方向g_p(I)。其损失函数为：

S4，利用差分卷积网络，通过训练预测眼睛的凝视差异。差分卷积是分析某个样本与相邻样本的模式方向，差分计算通过计算样本激活间的差异反映连续样本的变化。

差分卷积网络采用并行的结构，而并行结构的每个分支都由三个卷积层组成，每个卷积层都经过批处理归一化和ReLU单元。在第一个层与第二层后应用最大池化，以缩小图像尺寸。在第三层后，将两张输入图像的特征图进行归一化处理并拼接成一个新的张量。然后在张量上应用两个全连接层来预测两张输入图像的凝视差异。

差分卷积网络选择ReLU函数作为卷积层和全连接层的激活函数，其公式表示为：

f(x)＝max(0,x) (10)

其中，x是输入，f(x)是经过ReLU单元之后的输出。

S5，利用获得的凝视差异量对初步实现估计结果进行校准，输出最终视线估计结果。通过差分卷积网络来预测测试图像I与参考图像F之间的差异d^p(I,J)，并结合真实的注视值g_gt(F)来预测最终的视线方向g_gt(F)+d^p(I,J)，公式为：

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，包括以下步骤：

S1、对人脸图像利用双线性差值法进行多尺度缩放的预处理，利用优化的多任务级联卷积神经网络算法进行人脸检测的同时实现瞳孔中心定位，并提取人眼特征信息；

S2、利用人脸图像直接进行头部姿态估计；

S4、利用差分卷积网络，通过训练预测眼睛的凝视差异量；

2.根据权利要求1所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述步骤S1利用优化的多任务级联卷积神经网络算法，输出5个人脸特征点，实现在进行人脸检测同时完成瞳孔中心定位。

多任务级联卷积神经网络算法输出就包括瞳孔中心位置。

3.根据权利要求2所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述步骤S2利用人脸图像直接进行头部姿态估计，具体包括：采用随机回归森林的实时头部姿态估计***来对头部位置和朝向进行定位，用T_t＝[T_x,T_y,T_z]表示t时刻头部所在的位置信息，R_t＝[R_y,R_p,R_r]表示t时刻头部的旋转角度信息，则t时刻头部偏转参数可记为h_t＝(T_t,R_t)。

4.根据权利要求3所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述步骤S3利用卷积神经网络的全连接层自动融合头部姿态和人眼特征图，进行初步视线估计，具体包括：

5.根据权利要求4所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述步骤S4利用差分卷积网络，通过训练预测眼睛的凝视差异量，具体包括：

6.根据权利要求5所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述差分卷积网络选择ReLU函数作为卷积层和全连接层的激活函数，其公式表示为：

f(x)＝max(0,x) (10)

其中，x是输入，f(x)是经过ReLU单元之后的输出；

7.根据权利要求6所述的一种人机交互中基于差分卷积的自适应视线估计方法，其特征在于，所述S5利用获得的凝视差异量对初步实现估计结果进行校准，输出最终视线估计结果，具体为：通过差分卷积网络来预测测试图像I与参考图像F之间的差异d^p(I,J)，并结合真实的注视值g_gt(F)来预测最终的视线方向g_gt(F)+d^p(I,J)，公式为：

8.一种存储介质，所述存储介质为计算机可读存储介质，其存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以上权利要求1-7任一项所述的方法。