CN114241179A

CN114241179A - 一种基于自步学习的视线估计方法

Info

Publication number: CN114241179A
Application number: CN202111480164.5A
Authority: CN
Inventors: 孟明明; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-25

Abstract

该发明公开了一种基于自步学习的视线方法，属于计算机视觉领域。该方法首先选择使用深度回归森林作为基本框架，同时，引入了两个独立的子网络进行特征提取，并把提取的特征通过特征融合网络进行特征融合，提高了网络特征提取的能力，接着引入回归森林的结构做为回归模型，用以估计出输入图像视线方向的概率分布，并基于此概率分布计算预测结果和样本的熵，最终采用自步学习的方法训练整个网络模型，并利用样本的熵修正其在自步学习排序中的顺序，以完成整个模型的训练。通过上述方法，本发明充分利用了深度回归森林和自步学习训练方法的优势，提高了模型在视线估计任务上的精度和鲁棒性。

Description

一种基于自步学习的视线估计方法

技术领域

本发明属于计算机视觉领域，主要涉及基于图像的视线估计问题；主要应用于影视娱乐产业，人机交互以及机器视觉理解等方面。

背景技术

视线估计是指给定包含眼部区域的图像输入，利用计算机技术对图像进行分析处理，进而估计出输入图像中眼睛的视线方向。目前影视娱乐、人机交互以及机器视觉理解等领域，对视线估计的需求越来越大。例如，通过摄像头可以实时计算出视线的方向，提升人机交互的效率；在公共场所的行为分析中，通过视线估计可以更好的辅助分析监测对象的视觉行为等。现有的视线估计方法，主要分为基于模型估计和基于外观估计的方法。

基于模型的视线估计方法是一种早期方法，其基本原理可以分为三个步骤。第一个步骤是使用分类器从图形中粗略地提取眼睛位置，并使用基于形状的方法定位眼睛的中心；第二个步骤是检测眼睛区域，并以角膜边缘为基础建模覆盖眼睛区域的二维椭圆轮廓；第三个步骤是将二维的椭圆轮廓反投影到三维空间来定位眼睛的光轴方向，然后结合光轴方向和屏幕的交点来估计视线的注视方向。这类方法依赖于对眼睛图像的精准建模，对输入图像质量要求较高，抗干扰能力差，估计精度也常常难以达到要求。参考文献：Wood E,Bulling A.Eyetab:Model-based gaze estimation on unmodified tablet computers,Proceedings of the Symposium on Eye Tracking Research and Applications.2014:207-210.

基于外观的视线估计方法则是直接通过眼睛图像计算得到视线方向，具体做法是通过大量带有标签的眼睛图像去训练模型，从而使模型学习到从眼睛图像直接估计出视线方向的映射函数。这种方法的好处在于能够避免复杂的眼睛几何形状建模的过程，降低了对输入眼睛图像的质量要求，提高了估计精度。但其缺点在于训练依赖大量精准的有标签的图像进行模型训练，并且模型的鲁棒性能不高，在跨人估计的任务场景中，视线估计精度可能会出现显著下降，无法进行有效的跨人迁移预测。参考文献：Fischer T,Chang H J,Demiris Y.Rt-gene:Real-time eye gaze estimation in natural environments,Proceedings of the European Conference on Computer Vision(ECCV).2018:334-352.

近年来，基于外观的视线估计方法越来越成熟，对视线估计的精度和鲁棒性也有了更高的要求。目前的方法在模型训练上还存在一定问题，不能达到足够的精度和鲁棒性。本发明针对该领域，并考虑以上不足之处，提出了一种基于自步学习的视线估计方法，在精度和鲁棒性上都取得了显著的提升。

发明内容

本发明是一种基于自步学习的视线估计方法，解决现有技术中视线估计精度不高且鲁棒性较差的问题。

该方法首先选择深度回归森林做为基本框架，训练图片由左眼和右眼的图像对构成，并且单眼图像被归一化至36*60*3的大小。针对左眼和右眼分别构建特征提取网络，并把左右眼提取到的特征做为特征融合网络的输入，进而获得融合特征向量，再把融合特征向量做为回归森林的输入特征，进而通过回归森林估计输入图像的视线方向。通过在模型训练的过程中引入自步学习的策略，并基于样本不确定性对样本的排序进行修正，逐步把训练样本加入训练过程，最终完成模型的训练。在训练好模型以后，只需要把左右眼图像分别输入到训练好的网络模型，就可以估计出视线方向。通过上述方法，本发明利用了深度回归森林和自步学习的优势，提出了基于自步学习的视线估计方法，提高了模型的估计精度和鲁棒性。算法的总体结构示意图参见图1。

为了方便描述本发明内容，首先对一些术语进行定义。

定义1：正态分布。也称常态分布，又名高斯分布，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若随机变量x，其概率密度函数满足

其中μ为正态分布的数学期望，σ²为正态分布的方差，则称其满足正态分布，常记作

定义2：Relu函数。又称修正线性单元,是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数，表达式为f(x)＝max(0，x)。

定义3：Sigmoid函数。用表达式

定义。

因而本发明技术方案为一种基于自步学习的视线估计方法，该方法包括：

步骤1：对数据集进行预处理；

获取数据集，数据集由图像及其对应的标注信息组成，根据标注信息提取每张图像的左右眼区域，并随机打乱左右眼图像对的顺序；最后对图片像素值进行归一化至范围[-1,1]；

步骤2：构建卷积神经网络，卷积神经网络包括特征提取网络和特征融合网络；

1)构建特征提取网络；特征提取网络由两个结构完全一样的子网络组成，每个子网络接受单眼图像作为输入，输出特征向量；一个子网络由5个卷积块和1层标准全连接层构成，其中5个卷积块分别由2、2、3、3和3层标准卷积层构成，卷积块之间加入步长为2的最大池化层，第5个卷积块后也接一个步长为2的最大池化层，最后再连接一层标准全连接层，输出对应的特征向量；标准卷积层、标准全连接层、子网络和特征提取网络如图3所示。

2)构建特征融合网络；特征融合网络以左右眼对应的特征向量作为输入，输出融合特征向量；特征融合网络由2个标准全连接层和1个未经激活的全连接层构成，输入的两个特征向量首先进行级联，然后再通过特征融合网络输出融合特征向量；特征融合网络如图4所示。

步骤3：构建回归森林；回归森林由5棵完全二叉树构成，每棵树深度为6，对每棵树而言，由31个内部节点和32个叶子节点构成，每个内部节点拥有一个拆分函数，而每个叶子节点拥有一个高斯分布；根据第n个内部节点的拆分函数，计算出当前内部节点向左移动的概率s_n，计算所有内部节点向左移动的概率以后，从根节点出发，根据内部节点的左移概率可以计算到达每一个叶子节点的到达概率w_l，再根据到达每个叶子的概率和叶子的分布，计算出当前这棵树的预测结果；最后把5棵树预测结果的均值作为最终视线估计的结果；

步骤4：总神经网络；利用步骤2中特征提取网络分别提取左右眼图像的特征向量f_l，f_r；再把提取的特征向量f_l，f_r作为特征融合网络输入，进而得到融合特征向量f；最后基于融合特征向量和拆分函数计算回归森林中每棵树内部节点的左移概率，进而计算出在最终的预测结果；总神经网络结构示意图参见图1。

步骤5：设计损失函数；把步骤1中获得的第i对左右眼图像对记作x_i，y_i表示第i对图像的标签，v_i表示第i对样本的权重，θ表示特征提取网络和特征融合网络的参数，Π表示回归森林叶子高斯分布的参数，则损失函数可以表示为：

其中

表示在当前模型参数的情况下取得y_i的概率，H_i表示第i对样本的熵，γ表示熵的权重系数，λ为学习过程的控制参数，这两个参数均为模型的超参数；整个模型的目标是最大化上面的损失函数；

步骤6：基于自步学习训练总神经网络；按照自步学习策略完成网络模型的训练；

步骤7：采用训练完成的总神经网络对实际图像中的视线进行估计。

进一步的，所述步骤3的具体方法为：

步骤3.1：计算每个内部节点的左移概率：拆分函数s_n(x_i；θ)：x_i→[0，1]，拆分函数由网络参数θ决定，把输入样本x_i映射到0到1之间的标量，表征样本到达当前节点后，应该以多大的概率划分到左子树；拆分函数的具体形式如下：

其中σ(·)是sigmoid函数，

是索引函数表示在第n个拆分节点选取融合特征f的第

个元素，

表示对样本x_i而言，第n个拆分节点的值；

步骤3.2：计算达到叶子的概率：对于每一个样本对而言，根据拆分节点的左移概率，计算从根节点出发，到达各个叶子节点的概率，到达概率的计算由下式给出：

其中[·]是指示函数，条件为真返回1，否则返回0；

分别表示以拆分节点n的左右儿子为根节点的子树的节点集合；

步骤3.3：计算单棵树的预测结果：用高斯分布

表示叶子节点的分布状态，y_i表示视线角度的取值，μ表示高斯分布的均值，

表示高斯分布的方差，考虑到一棵树由多个叶子节点构成，最终的预测结果由所有叶子的按照其到达概率加权平均表示，其形式如下：

其中，

表示到达叶子

的概率，

表示叶子

在y_i处的概率，

表示树

的叶子集合；

步骤3.4：计算回归森林的预测结果：样本最终的预测结果是多棵树预测结果的平均，由下式给出：

其中，K表示回归森林中树的数量，

是第k棵树的预测结果，π_k是第k棵树的叶子分布参数；

进一步的，所述步骤5中样本熵的计算方法为：

由于单棵树是由多个叶子分布加权求和得到，这样的混合高斯分布的积分是非平凡的，这里计算单棵树熵的下界来近似单棵树熵的真实值，下界由下式计算：

其中

是第k棵树的预测结果，π_k是第k棵树的叶子分布参数，那么，样本的熵由多棵树熵的平均值得到，由下式计算：

本发明的创新之处在于：

1)使用两个独立的子网络分别提取左右眼图像的特征，并对提取后的特征进行了特征融合。如图6所示。

2)引入了回归森林的结构做为回归模型，回归估计出输入图像视线方向的概率分布，并基于此概率分布计算预测结果和样本的熵。

3)引入自步学习的学习范式训练深度回归森林模型，并结合样本的不确定性，修正样本在自步学习中的排序顺序，提升模型的预测精度和鲁棒性。

附图说明

图1为本发明方法主要网络结构图

图2为本发明标准卷积块和标准全连接块示意图。

图3为本发明特征提取网络结构示意图。

图4为本发明特征融合网络示意图。

图5为本发明回归森林结构示意图。

图6为本发明自步学习的模型训练算法流程图。

具体实施方式

步骤1：对数据集进行预处理；

获取MPIIGaze数据集，MPIIGaze数据集由15个人的图像及其对应的标注信息的组成，其中每个人拥有1500张图像；根据标注信息提取每张图像的左右眼区域，使得单眼的图像大小为36*60*3，并随机打乱左右眼图像对的顺序；最后对图片像素值进行归一化至范围[-1,1]；

步骤2：构建卷积神经网络和回归森林；

1)构建特征提取网络；特征提取网络由两个结构完全一样的子网络组成，每个子网络接受单眼图像作为输入，输出特征向量；一个子网络由5个卷积块和1层标准全连接层构成，其中5个卷积块分别由2、2、3、3和3层标准卷积层构成，卷积块之间加入步长为2的最大池化层，第5个卷积块后也接一个步长为2的最大池化层，最后再连接一层标准全连接层，输出对应的特征向量。标准卷积层、标准全连接层、子网络和特征提取网络如图2所示。

2)构建特征融合网络；特征融合网络以左右眼对应的特征向量作为输入，输出融合特征向量；特征融合网络由2个标准全连接层和1个未经激活的全连接层构成，输入的两个特征向量首先进行级联，然后再通过特征融合网络输出融合特征向量。特征融合网络如图2所示。

步骤3：构建回归森林；回归森林由5棵完全二叉树构成，每棵树深度为6。对每棵树而言，由31个内部节点和32个叶子节点构成，每个内部节点拥有一个拆分函数，而每个叶子节点拥有一个高斯分布。根据第n个内部节点的拆分函数，计算出当前内部节点向左移动的概率s_n。计算所有内部节点向左移动的概率以后，从根节点出发，根据内部节点的左移概率可以计算到达每一个叶子节点的到达概率w_l，再根据到达每个叶子的概率和叶子的分布，计算出当前这棵树的预测结果。最后把5棵树预测结果的均值作为最终视线估计的结果。

步骤4：总神经网络；利用步骤2中特征提取网络分别提取左右眼图像的特征向量f_l，f_r；再把提取的特征向量f_l，f_r作为特征融合网络输入，进而得到融合特征向量f；最后基于融合特征向量和拆分函数计算回归森林中每棵树内部节点的左移概率，进而计算出在最终的预测结果。总神经网络结构示意图参见图1。

其中

表示在当前模型参数的情况下取得y_i的概率，H_i表示第i对样本的熵，γ表示熵的权重系数，λ为学习过程的控制参数，这两个参数均为模型的超参数。整个模型的目标是最大化上面的损失函数。

步骤6：基于自步学习训练网络模型；按照自步学习策略完成网络模型的训练，设置自步学习的总步数为6，以及从第1步到第6步使用的样本数量为总样本数量的50％、60％，70％、80％、90％、100％。初始化λ⁰，γ⁰保证有50％的数据加入到第1步训练中。在每一步训练时，最大化步骤5中的损失函数，更新网络参数和回归森林参数，并在训练结束后，调整λ，γ，确保对应比例的样本被加入到下一步的训练过程。基于自步学习的模型训练算法流程图参见图3。

步骤7：测试阶段，取待测试的图像，按照步骤1的方法进行预处理，然后把预处理后的图像对作为步骤6中训练好模型的输入，从而获得测试图像的视线估计结果。实验结果在MPIIGaze数据集上平均误差为4.45°；较之前方法提升了0.17°。

进一步的，所述步骤3的具体方法为：

步骤3.1：计算每个内部节点的左移概率：拆分函数s_n(x_i；θ)：x_i→[0，1]，拆分函数由网络参数θ决定，把输入样本x_i映射到0到1之间的标量，表征样本到达当前节点后，应该以多大的概率划分到左子树。拆分函数的具体形式如下：

其中σ(·)是sigmoid函数，

是索引函数表示在第n个拆分节点选取融合特征f的第

个元素，

表示对样本x_i而言，第n个拆分节点的值；。

其中[·]是指示函数，条件为真返回1，否则返回0；

分别表示以拆分节点n的左右儿子为根节点的子树的节点集合。

步骤3.3：计算单棵树的预测结果：用高斯分布

表示叶子节点的分布状态，考虑到一棵树由多个叶子节点构成，最终的预测结果由所有叶子的按照其到达概率加权平均表示，其形式如下：

进一步的，所述步骤5的具体方法为：

步骤5.1：计算样本的预测结果：根据步骤3的方法，计算出回归森林的预测结果

步骤5.2：计算样本的熵：由于单棵树是由多个叶子分布加权求和得到，这样的混合高斯分布的积分是非平凡的，这里计算单棵树熵的下界来近似单棵树熵的真实值，下界由下式计算：

其中

是第k棵树的预测结果，Π_k是第k棵树的叶子分布参数。那么，样本的熵由多棵树熵的平均值得到，由下式计算：

Claims

1.一种基于自步学习的视线估计方法，该方法包括：

步骤1：对数据集进行预处理；

1)构建特征提取网络；特征提取网络由两个结构完全一样的子网络组成，每个子网络接受单眼图像作为输入，输出特征向量；一个子网络由5个卷积块和1层标准全连接层构成，其中5个卷积块分别由2、2、3、3和3层标准卷积层构成，卷积块之间加入步长为2的最大池化层，第5个卷积块后也接一个步长为2的最大池化层，最后再连接一层标准全连接层，输出对应的特征向量；

2)构建特征融合网络；特征融合网络以左右眼对应的特征向量作为输入，输出融合特征向量；特征融合网络由2个标准全连接层和1个未经激活的全连接层构成，输入的两个特征向量首先进行级联，然后再通过特征融合网络输出融合特征向量；

步骤4：总神经网络；利用步骤2中特征提取网络分别提取左右眼图像的特征向量f_l，f_r；再把提取的特征向量f_l，f_r作为特征融合网络输入，进而得到融合特征向量f；最后基于融合特征向量和拆分函数计算回归森林中每棵树内部节点的左移概率，进而计算出在最终的预测结果；

步骤5：设计损失函数；把步骤1中获得的第i对左右眼图像对记作x_i，y_i表示第i对图像的标签，v_i表示第i对样本的权重，θ表示特征提取网络和特征融合网络的参数，∏表示回归森林叶子高斯分布的参数，则损失函数可以表示为：