CN108334832A

CN108334832A - 一种基于生成对抗网络的视线估计方法

Info

Publication number: CN108334832A
Application number: CN201810078939.8A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2018-07-27

Abstract

本发明中提出的一种基于生成对抗网络的视线估计方法，其主要内容包括：生成纹理、生成真实数据和对眼部进行细化，其过程为，先自动将面部图像与3D模型的水平方向和垂直方向的纹理空间对齐，然后不成对的像素级别域适应技术将合成图像映射到真实域，再使用视线方向的注释和合成数据预训练视线方向估计器，最后在整个映射过程中执行细化网络以保持视线方向，使用预训练网络作为从合成到真实再到合成的转换循环约束。本发明使用新颖的对抗训练方法，将渲染的合成图像映射到逼真的域，可以在实际图像上获得更准确的视线估计，而不需要使用任何来自真实用户的额外标记数据；对于极端头部姿态、模糊、远距离等情况，也能产生具有鲁棒性的视线估计。

Description

一种基于生成对抗网络的视线估计方法

技术领域

本发明涉及视线估计领域，尤其是涉及了一种基于生成对抗网络的视线估计方法。

背景技术

人眼视线方向估计是人机交互技术的重要分支，主要研究对人类眼睛运动特性的检测和识别，它除了可以推断人所关注的目标对象或区域，进一步分析研究人的心理活动等情况，还可以利用眼睛的运动行为来实现对外部设备和***的控制。在交通领域的应用中，它可以检测汽车驾驶员的疲劳状态，判断驾驶员是否为疲劳驾驶；如果驾驶员眼睛一直盯着某个方向不变，说明他很有可能已经走神或者可能会导致走神而发生交通意外。在军事、航空领域中，还可以通过眼睛的转动行为来实现人对外部设备的控制，例如空军飞行员在驾驶飞机的同时，如果发现目标而需要完成其他任务，可以通过眼睛的运动来控制设备并执行任务。在医疗康复领域中，其还可以帮助运动障碍患者或残疾人通过眼睛与外界计算机和医疗设备等进行信息沟通和命令传达等交互操作，甚至可以通过视线来控制计算机操作，从而使他们能和正常人一样使用计算机，或者在没有外人帮助下，通过视线来调节相关设备等等。然而，传统的视线估计方法仍存在一些技术限制，如虹膜轮廓的大部分容易受到眼睑和睫毛遮挡，难以准确判断视线方向；即使使用了对抗网络，训练时也不太稳定，因此只能用于处理小的灰度图像。

本发明提出了一种基于生成对抗网络的视线估计方法，先自动将面部图像与3D模型的水平方向和垂直方向的纹理空间对齐，然后不成对的像素级别域适应技术将合成图像映射到真实域，再使用视线方向的注释和合成数据预训练视线方向估计器，最后在整个映射过程中执行细化网络以保持视线方向，使用预训练网络作为从合成到真实再到合成的转换循环约束。本发明使用新颖的对抗训练方法，将渲染的合成图像映射到逼真的域，可以在实际图像上获得更准确的视线估计，而不需要使用任何来自真实用户的额外标记数据；对于极端头部姿态、模糊、远距离等情况，也能产生具有鲁棒性的视线估计。

发明内容

针对容易受到眼睑和睫毛遮挡，难以准确判断视线方向等问题，本发明的目的在于提供一种基于生成对抗网络的视线估计方法，先自动将面部图像与3D模型的水平方向和垂直方向的纹理空间对齐，然后不成对的像素级别域适应技术将合成图像映射到真实域，再使用视线方向的注释和合成数据预训练视线方向估计器，最后在整个映射过程中执行细化网络以保持视线方向，使用预训练网络作为从合成到真实再到合成的转换循环约束。

为解决上述问题，本发明提供一种基于生成对抗网络的视线估计方法，其主要内容包括：

(一)生成纹理；

(二)生成真实数据；

(三)对眼部进行细化。

其中，所述的视线估计方法，首先，模拟器根据指定的照明条件、视线方向和皮肤形成眼睛区域的3D场景；为了扩展原始基于主成分的纹理模型的有限多样性，自动将面部图像与3D模型的UV(水平方向和垂直方向)纹理空间对齐，使得能够呈现具有无限量纹理的眼部区域的图像；为了改善真实性，不成对的像素级别域适应技术将合成图像映射到真实域；这一步需要提供未标记的真实眼睛区域图像；由于数据是模拟的，因此可以使用视线方向的注释和合成数据预训练视线方向估计器；最后，为了在整个映射过程中执行细化网络以保持视线方向，使用预训练网络作为从合成到真实再到合成的转换循环约束。

其中，所述的生成纹理，几何三维眼睛区域表面通过UV映射技术而具有纹理；使用从前面拍摄的高分辨率面部图像的大数据集来增加皮肤纹理的多样性；每个图像都会为3D模型生成一个UV纹理。

进一步地，所述的为3D模型生成一个UV纹理，首先检测面部图像上的标记关键点，通过旋转、平移和缩放，计算原始面部图像上的标记关键点与3D模型的UV空间上的对应点之间的最小欧几里得距离；最后，为了说明非刚性变形，根据源点和目标点之间的差异，应用一个平滑的图像变形；通过此过程可以生成了五百万个不同的皮肤纹理。

其中，所述的生成真实数据，虽然上一步生成的纹理在图像的皮肤区域看起来很逼真，但眼睛本身仍然是合成的；由于虹膜状态可能是检测视线方向最重要的特征，为了提高性能，还需要生成在这个区域看起来真实的数据；为了转换域，需要使用从互联网取得的大量眼睛区域的未标记真实图像；由于在两个域的图像之间没有对应关系，所以需要从不成对的图像到图像的转换方法开始。

进一步地，所述的从不成对的图像到图像的转换方法，该方法将图像从一个域映射到另一个域，而且不给定训练数据中的像素对齐；细化模型将渲染的图像作为输入并生成具有真实性的图像；将合成的眼部区域图像的空间表示为S，将真实的眼部区域图像的空间表示为R；不成对的图像到图像的平移过程涉及四个不同的网络G、F、D_S和D_R。

进一步地，所述的四个不同的网络，G表示一个学习S到R映射图像的映射器网络；F表示一个学习R到S映射图像的映射器网络；D_S表示从合成域S学习检测图像的鉴别器网络；D_R表示从真实域R学习检测图像的鉴别器网络；

为了训练G从合成域S映射到真实域R，使用最小二乘生成对抗损失：

其中，使用0.9来稳定训练过程，使用等价的损失函数来训练网络F和D_R；优化上述损失函数训练网络G和F，目的是将图像从一个域映射到另一个域。

进一步地，所述的映射，在整个映射过程中并没有强制保留图像特征，理论上，网络可以产生记忆并从目标域产生单个图像，并使损失最小化；为了产生所需的映射，需要额外的约束；在该方法的原始公式中，提出了以下损失函数，称为循环一致性损失：

这种损失强制F和G对由另一个网络产生的图像进行编码和解码；因此，该体系结构可以认为是两个交错的自动编码器；该框架将合成图像映射到真实图像，同时保留眼部区域的几何结构；使用L1范数重建损失，因为它鼓励网络产生更清晰的图像。

其中，所述的对眼部进行细化，检测眼睛的视线方向需要分析从虹膜边界的投影，这样可以就推断出的眼球的所处的状态；因此，在眼球周围保持场景的几何结构比其他部位更为重要；为了执行转换框架来保存对于视线注释更重要的图像特征，需要预先训练附加的估计网络，表示为仅在合成图像上检测3D视线方向；由于合成数据具有眼睛光轴的标定好的真实标签，且潜在空间是低维的，所以网络E的架构被设计成过度拟合，并以最小误差预测视线方向；接着使用E作为循环转换的附加约束，将图像从合成域S映射到真实域R并且返回到S：

把这个限制称为视线周期一致性损失。

进一步地，所述的视线方向，用额外的损失来训练框架，进一步保留了虚拟真实图像中的视线方向；

训练程序的完整目标如上式所示。

附图说明

图1是本发明一种基于生成对抗网络的视线估计方法的***流程图。

图2是本发明一种基于生成对抗网络的视线估计方法的生成纹理过程。

图3是本发明一种基于生成对抗网络的视线估计方法的生成真实数据和对眼部进行细化。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于生成对抗网络的视线估计方法的***流程图。主要包括生成纹理，生成真实数据和对眼部进行细化。

视线估计方法，首先，模拟器根据指定的照明条件、视线方向和皮肤形成眼睛区域的3D场景；为了扩展原始基于主成分的纹理模型的有限多样性，自动将面部图像与3D模型的UV(水平方向和垂直方向)纹理空间对齐，使得能够呈现具有无限量纹理的眼部区域的图像；为了改善真实性，不成对的像素级别域适应技术将合成图像映射到真实域；这一步需要提供未标记的真实眼睛区域图像；由于数据是模拟的，因此可以使用视线方向的注释和合成数据预训练视线方向估计器；最后，为了在整个映射过程中执行细化网络以保持视线方向，使用预训练网络作为从合成到真实再到合成的转换循环约束。

生成真实数据，虽然上一步生成的纹理在图像的皮肤区域看起来很逼真，但眼睛本身仍然是合成的；由于虹膜状态可能是检测视线方向最重要的特征，为了提高性能，还需要生成在这个区域看起来真实的数据；为了转换域，需要使用从互联网取得的大量眼睛区域的未标记真实图像；由于在两个域的图像之间没有对应关系，所以需要从不成对的图像到图像的转换方法开始。

该方法将图像从一个域映射到另一个域，而且不给定训练数据中的像素对齐；细化模型将渲染的图像作为输入并生成具有真实性的图像；将合成的眼部区域图像的空间表示为S，将真实的眼部区域图像的空间表示为R；不成对的图像到图像的平移过程涉及四个不同的网络G、F、D_S和D_R。

G表示一个学习S到R映射图像的映射器网络；F表示一个学习R到S映射图像的映射器网络；D_S表示从合成域S学习检测图像的鉴别器网络；D_R表示从真实域R学习检测图像的鉴别器网络；

在整个映射过程中并没有强制保留图像特征，理论上，网络可以产生记忆并从目标域产生单个图像，并使损失最小化；为了产生所需的映射，需要额外的约束；在该方法的原始公式中，提出了以下损失函数，称为循环一致性损失：

图2是本发明一种基于生成对抗网络的视线估计方法的生成纹理过程。几何三维眼睛区域表面通过UV映射技术而具有纹理；使用从前面拍摄的高分辨率面部图像的大数据集来增加皮肤纹理的多样性；每个图像都会为3D模型生成一个UV纹理。

首先检测面部图像上的标记关键点，通过旋转、平移和缩放，计算原始面部图像上的标记关键点与3D模型的UV空间上的对应点之间的最小欧几里得距离；最后，为了说明非刚性变形，根据源点和目标点之间的差异，应用一个平滑的图像变形；通过此过程可以生成了五百万个不同的皮肤纹理。

其中，图(a)为典型UV纹理中的眼睛区域标记关键点的位置；为了提取新的纹理，首先自动检测真实图像(b)中的眼睛区域标志，然后计算最佳的二维相似变换，将人脸图像与三维模型的UV空间对齐，如图(c)所示为这种映射的结果，红色的点对应于标准UV纹理中的地标的位置，蓝色的点对应于刚性映射标记关键点的位置；最后，执行非刚性图像变形来计算图(d)中所示的像素级对齐。

图3是本发明一种基于生成对抗网络的视线估计方法的生成真实数据和对眼部进行细化。检测眼睛的视线方向需要分析从虹膜边界的投影，这样可以就推断出的眼球的所处的状态；因此，在眼球周围保持场景的几何结构比其他部位更为重要；为了执行转换框架来保存对于视线注释更重要的图像特征，需要预先训练附加的估计网络，表示为仅在合成图像上检测3D视线方向；由于合成数据具有眼睛光轴的标定好的真实标签，且潜在空间是低维的，所以网络E的架构被设计成过度拟合，并以最小误差预测视线方向；接着使用E作为循环转换的附加约束，将图像从合成域S映射到真实域R并且返回到S：

把这个限制称为视线周期一致性损失。

用额外的损失来训练框架，进一步保留了虚拟真实图像中的视线方向；

训练程序的完整目标如上式所示。

其中，图(a)为两个独立的生成对抗性网络；图(b)为合成-真实-合成循环一致性损失；图(c)为真实-合成-真实循环一致性损失；图(d)为合成-真实-合成视线周期一致性损失。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于生成对抗网络的视线估计方法，其特征在于，主要包括生成纹理(一)；生成真实数据(二)；对眼部进行细化(三)。

2.基于权利要求书1所述的视线估计方法，其特征在于，首先，模拟器根据指定的照明条件、视线方向和皮肤形成眼睛区域的3D场景；为了扩展原始基于主成分的纹理模型的有限多样性，自动将面部图像与3D模型的UV(水平方向和垂直方向)纹理空间对齐，使得能够呈现具有无限量纹理的眼部区域的图像；为了改善真实性，不成对的像素级别域适应技术将合成图像映射到真实域；这一步需要提供未标记的真实眼睛区域图像；由于数据是模拟的，因此可以使用视线方向的注释和合成数据预训练视线方向估计器；最后，为了在整个映射过程中执行细化网络以保持视线方向，使用预训练网络作为从合成到真实再到合成的转换循环约束。

3.基于权利要求书1所述的生成纹理(一)，其特征在于，几何三维眼睛区域表面通过UV映射技术而具有纹理；使用从前面拍摄的高分辨率面部图像的大数据集来增加皮肤纹理的多样性；每个图像都会为3D模型生成一个UV纹理。

4.基于权利要求书3所述的为3D模型生成一个UV纹理，其特征在于，首先检测面部图像上的标记关键点，通过旋转、平移和缩放，计算原始面部图像上的标记关键点与3D模型的UV空间上的对应点之间的最小欧几里得距离；最后，为了说明非刚性变形，根据源点和目标点之间的差异，应用一个平滑的图像变形；通过此过程可以生成了五百万个不同的皮肤纹理。

5.基于权利要求书1所述的生成真实数据(二)，其特征在于，虽然上一步生成的纹理在图像的皮肤区域看起来很逼真，但眼睛本身仍然是合成的；由于虹膜状态可能是检测视线方向最重要的特征，为了提高性能，还需要生成在这个区域看起来真实的数据；为了转换域，需要使用从互联网取得的大量眼睛区域的未标记真实图像；由于在两个域的图像之间没有对应关系，所以需要从不成对的图像到图像的转换方法开始。

6.基于权利要求书5所述的从不成对的图像到图像的转换方法，其特征在于，该方法将图像从一个域映射到另一个域，而且不给定训练数据中的像素对齐；细化模型将渲染的图像作为输入并生成具有真实性的图像；将合成的眼部区域图像的空间表示为S，将真实的眼部区域图像的空间表示为R；不成对的图像到图像的平移过程涉及四个不同的网络G、F、D_S和D_R。

7.基于权利要求书6所述的四个不同的网络，其特征在于，G表示一个学习S到R映射图像的映射器网络；F表示一个学习R到S映射图像的映射器网络；D_S表示从合成域S学习检测图像的鉴别器网络；D_R表示从真实域R学习检测图像的鉴别器网络；

8.基于权利要求书7所述的映射，其特征在于，在整个映射过程中并没有强制保留图像特征，理论上，网络可以产生记忆并从目标域产生单个图像，并使损失最小化；为了产生所需的映射，需要额外的约束；在该方法的原始公式中，提出了以下损失函数，称为循环一致性损失：

9.基于权利要求书1所述的对眼部进行细化(三)，其特征在于，检测眼睛的视线方向需要分析从虹膜边界的投影，这样可以就推断出的眼球的所处的状态；因此，在眼球周围保持场景的几何结构比其他部位更为重要；为了执行转换框架来保存对于视线注释更重要的图像特征，需要预先训练附加的估计网络，表示为E:仅在合成图像上检测3D视线方向；由于合成数据具有眼睛光轴的标定好的真实标签，且潜在空间是低维的，所以网络E的架构被设计成过度拟合，并以最小误差预测视线方向；接着使用E作为循环转换的附加约束，将图像从合成域S映射到真实域R并且返回到S：

把这个限制称为视线周期一致性损失。

10.基于权利要求书9所述的视线方向，其特征在于，用额外的损失来训练框架，进一步保留了虚拟真实图像中的视线方向；

训练程序的完整目标如上式所示。