CN105426882B - 一种人脸图像中快速定位人眼的方法 - Google Patents

一种人脸图像中快速定位人眼的方法 Download PDF

Info

Publication number
CN105426882B
CN105426882B CN201510991486.4A CN201510991486A CN105426882B CN 105426882 B CN105426882 B CN 105426882B CN 201510991486 A CN201510991486 A CN 201510991486A CN 105426882 B CN105426882 B CN 105426882B
Authority
CN
China
Prior art keywords
human eye
positioning
human
error
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510991486.4A
Other languages
English (en)
Other versions
CN105426882A (zh
Inventor
马越
贺光辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201510991486.4A priority Critical patent/CN105426882B/zh
Publication of CN105426882A publication Critical patent/CN105426882A/zh
Application granted granted Critical
Publication of CN105426882B publication Critical patent/CN105426882B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Ophthalmology & Optometry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器学***均,确定出人眼的坐标位置,并且有着较好的实时性。本发明进一步提高定位的精度,基于二叉树的低复杂度算法使得时间消耗降低,本发明基于CART模型从大量多样化人眼样本中进行学习得到回归树,鲁棒性也得到的很好的提升,实现了显著的性能增益,可应用于人眼定位领域中。

Description

一种人脸图像中快速定位人眼的方法
技术领域
本发明属于计算机视觉与图像处理领域,具体是一种人脸图像中快速定位人眼的方法,应用于人眼识别领域中。
背景技术
不管是人与人之间交流,还是人机交互的过程中,人眼作为面部最重要的特征之一,对人眼的定位有着非常重要的作用。在互联网时代伊始,隐私信息的保护和其安全性就开始成为了热点问题,而虹膜识别作为比指纹安全性更高的一种方法,进入了人们的视野。虹膜识别的编码空间丰富,每个人的虹膜纹路都独一无二并且容易区分。不仅如此,人体中的虹膜在不同光照条件下可以表现出不同的性状,因此只有活体虹膜可以通过检测,这就杜绝了类似复制指纹之类的安全隐患,使得虹膜识别成为了目前安全性最高的身份识别技术。但人们希望在友好的用户体验下获得尽可能高的安全性。一个用户友好的例子就是人脸识别,在开放式的场合(如安检、门禁),人脸可以在用户并不察觉的情况下被硬件设备捕获,因此不会给用户带来额外负担。
在人机交互领域,人眼定位也有着广泛的应用。随着Google Glass等头戴式可穿戴设备的出现,人们开始寻求除了键盘鼠标组合之外的新颖交互方式,距离设备最近的人眼就成为了其中的热门备选。目前已经有一些近距离的硬件设备问世,例如Pupil Labs公司开发了一个采用头戴式组件和一些摄像头组成的类似眼镜的设备,用来捕捉用户的眼球运动。这些人眼追踪技术可以让人们在不使用双手的情况下使用双眼控制浏览网页,可以辅助玩家对游戏中的人物运动进行控制,还可以运用于虚拟现实等应用场景中。而人眼中心的定位是这类人机交互技术中的重要一环。当人眼目光在屏幕上移动的时候,眼球的转动十分微小,因此若要实现网页浏览甚至在屏幕上的点击操作等精细控制的话,精确的人眼定位技术将不可或缺。
人眼定位在其他领域也有广泛的应用。例如针对疲劳驾驶引起的恶***通事故,许多研究使用车载设备观察司机的眼球移动、眼睑关闭、面部表情、头部移动等方式判断司机是否疲劳驾驶,并在出现疲劳驾驶时采取必要措施。近十几年来,人眼定位受到越来越多学术界和工业界的关注。
目前在人眼定位方面已经有许多相对成熟的方法。如:M.Ressel在Proceedingsof the 1996ACM conference on Computer supported cooperative work上发表的“Anintegrating,transformation-oriented approach to concurrency control and undoin group editors”利用霍夫变换对规则的几何物体进行识别,在图中定位人眼。M.Asadifard and J.Shanbezadeh在Proceedings of the InternationalmultiConferenceofngineers and Computer Scientists上发表的“Automatic adaptivecenter of pupil detection usingface detection and cdf analysis”利用主动形状模型(ASM)将面部特征点作为整体建模,利用特征点相互之间的关系实现定位。最近几年,随着机器学习算法在诸多领域深度和广度的增加,其在人眼定位方面的应用也越来越多。如:。根据Haar特征与Adaboost分类器在人脸检测中出色的表现,Y.Ma et al在AutomaticFace and Gesture Recognition,2004.Proceedings.Sixth IEEEInternational Conference上发表的“Robust precise eye location underprobabilistic framework”利用相似的方法人眼定位,通过级联多个简单的分类器,强调之前的分类器中的错误不断训练新的分类器,最终组合出强分类器。尽管这些方法相对成熟,但各有不用的优点和不足,缺点主要集中在,对于复杂度不高的方法,其精确度不能突破瓶颈,而对于精确度能够达到要求的方法,其复杂度过高又使得实时性达不到要求。人眼定位的很多场景都是对实时性和准确性有较高要求的,这就需要找到一种能够在两方面都表现出色的方法。
发明内容
为了解决如上问题,本发明提供了一种人脸图像中的快速定位人眼方法。
本发明的技术解决方案如下:
一种人脸图像中快速定位人眼的方法,其特点在于,包括如下步骤:
步骤1、以随机森林机器学习算法为基础,训练得到一定数量决策树,通过集成技术形成随机森林;
步骤2、输入待测人脸图像,并转化为灰度图,即是二维矩阵;
步骤3、利用步骤1中的得到的随机森林,对步骤2得到灰度值的二维矩阵的使用多级定位结构,即从一个固定的人眼粗定位区域开始,依据当前的定位结果,作为下一次定位区域的中心,逐级缩小搜索范围,不断迭代直到最后一级完成后返回定位结果,确定人眼的位置坐标;
步骤4、将步骤3中有随机森林中多颗决策树得到多个人眼坐标加权平均,得到最终人眼定位的结果。
所述步骤1中以随机森林机器学习算法为基础的训练过程,具体步骤如下:
1.1),将输入的人脸样本灰度图像做归一化处理,图片的左上角、右上角、右下角的坐标分别为(0,0)、(1,0)、(1,1)。
1.2),作为随机森林的“种子”,对样本做多样化处理,在标准样本的基础上,进行随机化处理,分别在横坐标、纵坐标方向以及图片尺寸上做一定范围内的随机偏移,同时在一定角度内做随机转动,生成多姿态的训练样本;
1.3),将1.2)得到的二维矩阵,取其最直接的特征值,图像中像素点的灰度坐标值,作为输入,人眼的坐标作为输出,决策树是一颗满二叉树,即在根节点和每一个中间结点训练并保存基于不同点坐标之间灰度差分I(I1)-I(I2)和一个阈值T,我们定义对图像I的二值测试(binary test)为:
优先的,此二叉树为决策树,我们通过自适应梯度提升决策树算法得到,具体步骤如下:
首先,初始化拟合误差函数:
其中,F(x)是决策树函数,为拟合误差;
进一步地,计算向负梯度方向计算伪残差,即
其中,我们定义损失函数为,
L(yi,F(xi))=1/2(yi-F(xi))2
代入得到,
进一步地,更新拟合伪残差:
其中,h(xi;α)为拟合结果,例如第一次的拟合结果为h(xi;α1)
进一步的,更新权重和拟合残差乘数:
进一步地,更新模型,m=1→M,M次后迭代结束:
Fm(x)=Fm-1(x)+γρmh(x;αm)
其中,1<γ≤0,γ即是学习率,γ的大小决定了迭代的收敛速度。
1.4),使用1.3)的方法,将n张图片分为两类,分别挂载到根节点的左右两个子节点上,在随后的第一层,有根据二值测试分为一共四类图片,以此类推,到达适当树深时截止;
1.5),针对1.4)中的分类效果,同时也可以用估计的聚集程度,即误差的平方和来表征,因此训练的目的为最小化以下误差:
其中Sl和Sr分别为按照某种特征和阈值分类产生的左、右子节点中坐标组成的集合。训练停止的条件为到达指定树的深度时或者指定误差大小。
由于需要定位图片的预测结果是同一类样本的坐标的平均,所以是对预测结果的一个估计,所以这个估计的聚集程度越多,进行预测的可信度也越高,证明训练的效果越好,其中,估计的聚集程度可以用方差来表示,但是考虑到需要保证每个节点上挂载的图片的数量,即尽量保证分类的平均,因此使用误差的平方和最为合适。因此我们得到训练的目标是最小化以下误差:
其中,i=1,2,…,2d,表示第i类,对应为第i个叶节点,2d为叶节点的总数,Si表示第i类对应的集合,就是在第i个叶节点的图片的集合。
但在实际应用中,二叉树本身就是一个非线性***,同时考虑到所有的影响因素也是非常困难和复杂的。因此本文的决策树训练过程采用贪婪法,从根节点开始按照深度依次确定每个节点上的特征参数及其阈值,使使得公式(1)小。注意此时训练样本的并没有在叶节点上,但是随着深度的推进,我们都把当前节点作为叶节点,依然用Qtree来代表所有样本到所属类别估计中心的欧式距离平方和。由于每次只训练一个节点,所以只有这个节点的训练样本会发生改变。所以训练每个节点时,需要遍历并选择最好的特征及阈值,使得被分类之后形成的两类具有最小的方差,因此目标函数变为:
其中,Sl与Sr分别代表的左右子节点的集合。
与现有技术相比,本发明的有益效果是:
1)本发明进一步提高定位的精度,基于二叉树的低复杂度算法使得时间消耗降低,本发明基于CART模型从大量多样化人眼样本中进行学习得到回归树,鲁棒性也得到的很好的提升。
2)针对单一回归树模型定位能力较弱的情况,本发明通过随机森林以及梯度提升决策树这两种集成技术将反复学习得到的多个弱***组合成为一个强***。
3)根据人眼定位的应用环境,本发明的决策树在定位过程中不断地缩小定位区域的范围,并引入了定位结果的样本权重以进一步地改进随机森林以及梯度提升决策树的训练过程以及预测过程,最终实现了显著的性能增益。
4)基于CART模型的人眼定位可以在仅有低分辨率图像的情况下以极低的运算代价,实现优于绝大多数其余模型的定位精度与鲁棒性,所需代价只是少量额外的存储空间,因此对于快速人眼定位来说是一个很好的选择。
附图说明
图1为本发明人脸图像中的快速定位人眼方法的流程图;
图2多姿态训练样本生成样例;
图3为梯度提升决策树运用集成技术人眼定位的过程;
图4多级定位结构效果图。
图5单颗决策树结构。
具体实施方式
为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
图1为本发明人脸图像中的快速定位人眼的方法的流程图,包括如下步骤:
步骤一、以随机森林机器学习算法为基础,通过训练得到25棵树深为11的决策树;
首先,如图2所示,对样本做归一化和多样化处理,图片的左上角、右上角、右下角的坐标分别为(0,0)、(1,0)、(1,1),在标准样本的基础上,进行随机化处理,分别在横坐标、纵坐标方向以及图片尺寸上做一定范围内的随机偏移,同时在一定角度内做随机转动,生成多姿态的训练样本;
通过梯度提升决策树,如图3所示,γ=0.4时的梯度提升决策树,不断地修正前进的方向从而更精确地到达人眼中心位置,得到更好的效果。
显然单颗决策树一定是一个弱分类器,运用集成技术将这些树组成随机森林,形成强分类器。
步骤二、输入人脸图片,并且转化为灰度值二位矩阵;
步骤三、如图5所示,利用步骤一中的每一个决策树模型,决策树是一颗二叉树,并且通常为一颗满二叉树,从二叉树的根节点开始,在每个非叶节点上问一个预先训练并保存好的问题,根据该问题的回答结果选择前进到根节点的左儿子还是右儿子,直到前进到决策树的叶节点。一共得到25个人眼坐标。
使用5级定位结构,确定人眼的位置坐标。如图2所示,本发明为了提高准确率,采用了多级定位结构,也称为金字塔结构,通过不断缩小定位的范围来提高精度:从一个固定的较大的ROI(Region of Interest)开始,依据当前的ROI定位结果作为下一级更小的ROI的区域中心,然后不断迭代直到返回最后一级ROI的定位结果。
步骤四、将步骤三得到的25个人眼坐标取平均,得到最终人眼定位的结果。

Claims (3)

1.一种人脸图像中快速定位人眼的方法,其特征在于,包括如下步骤:
步骤1、以随机森林机器学习算法为基础,训练得到一定数量决策树,通过集成技术形成随机森林;
步骤2、输入待测人脸图像,并转化为灰度图,即是二维矩阵;
步骤3、利用步骤1中的得到的随机森林,对步骤2得到灰度值的二维矩阵的使用多级定位结构,即从一个固定的人眼粗定位区域开始,依据当前的定位结果,作为下一次定位区域的中心,逐级缩小搜索范围,不断迭代直到最后一级完成后返回定位结果,确定人眼的位置坐标;
步骤4、将步骤3中有随机森林中多颗决策树得到多个人眼坐标加权平均,得到最终人眼定位的结果;
所述步骤1中以随机森林机器学习算法为基础的训练过程,具体步骤如下:
步骤1.1)将输入的人脸样本灰度图像做归一化处理,得到标准训练样本,人脸样本灰度图像的左上角、右上角、右下角的坐标分别为(0,0)、(1,0)、(1,1);
步骤1.2)对标准训练样本做多样化处理:分别在横坐标、纵坐标方向以及图片尺寸上做一定范围内的随机偏移,同时在一定角度内做随机转动,生成多姿态的训练样本;
步骤1.3)根据多姿态的训练样本的二维矩阵,取其最直接的特征值,将图像中像素点的灰度坐标值,作为输入,人眼的坐标作为输出,得到二叉树,即在根节点和每一个中间结点训练并保存基于不同点坐标之间灰度差分I(I1)-I(I2)和一个阈值T,定义对图像I的二值测试(binary test)为:
步骤1.4)根据二叉树,将输入的n张多姿态训练样本分为两类,分别挂载到根节点的左右两个子节点上,在随后的第一层,有根据二值测试分为一共四类图片,以此类推,到达指定树深时或指定误差大小时截止。
2.根据权利要求1所述的一种人脸图像中快速定位人眼的方法,其特征在于,所述步骤1中以随机森林机器学习算法为基础的训练过程,还包括:
步骤1.5)对步骤1.4)得到的训练结果进行误差验证,判断是否为最小化误差,公式如下:
式中Qnode就是最小误差,代表所有样本到所属类别估计中心的欧式距离平方和,Sl和Sr分别为按照某种特征和阈值分类产生的被分成两类的左、右子节点中坐标组成的集合。
3.根据权利要求1所述的一种人脸图像中快速定位人眼的方法,其特征在于,所述步骤1.3)得到二叉树的具体步骤如下:
步骤1.31)初始化拟合误差函数,公式如下:
其中,F(x)是决策树函数,为拟合误差;
步骤1.32)计算向负梯度方向计算伪残差,公式如下:
步骤1.33)更新拟合伪残差:
其中,h(xi;α)为拟合结果,第一次的拟合结果为h(xi;α1))
步骤1.34)更新权重和拟合残差乘数:
步骤1.34)更新模型,m=1→M,M次后迭代结束:
Fm(x)=Fm-1(x)+γρmh(x;αm)
其中,1<γ≤0,γ即是学习率,γ的大小决定了迭代的收敛速度。
CN201510991486.4A 2015-12-24 2015-12-24 一种人脸图像中快速定位人眼的方法 Expired - Fee Related CN105426882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510991486.4A CN105426882B (zh) 2015-12-24 2015-12-24 一种人脸图像中快速定位人眼的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510991486.4A CN105426882B (zh) 2015-12-24 2015-12-24 一种人脸图像中快速定位人眼的方法

Publications (2)

Publication Number Publication Date
CN105426882A CN105426882A (zh) 2016-03-23
CN105426882B true CN105426882B (zh) 2018-11-20

Family

ID=55505081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510991486.4A Expired - Fee Related CN105426882B (zh) 2015-12-24 2015-12-24 一种人脸图像中快速定位人眼的方法

Country Status (1)

Country Link
CN (1) CN105426882B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862285A (zh) * 2017-11-07 2018-03-30 哈尔滨工业大学深圳研究生院 一种人脸对齐方法
JP7288905B2 (ja) * 2017-12-01 2023-06-08 1キュービー インフォメーション テクノロジーズ インコーポレイテッド ロバスト推定問題の確率的最適化のためのシステムおよび方法
CN108732559B (zh) * 2018-03-30 2021-09-24 北京邮电大学 一种定位方法、装置、电子设备及可读存储介质
CN109522871B (zh) * 2018-12-04 2022-07-12 北京大生在线科技有限公司 一种基于随机森林的人脸轮廓定位方法及***
CN111260149B (zh) * 2020-02-10 2023-06-23 北京工业大学 一种二噁英排放浓度预测方法
CN114021705A (zh) * 2022-01-04 2022-02-08 浙江大华技术股份有限公司 模型的精度确定方法以及相关装置、设备
CN114529857A (zh) * 2022-02-25 2022-05-24 平安科技(深圳)有限公司 用户在线状态的识别方法、装置、服务器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093215A (zh) * 2013-02-01 2013-05-08 北京天诚盛业科技有限公司 人眼定位方法及装置
CN104766059A (zh) * 2015-04-01 2015-07-08 上海交通大学 快速精确的人眼定位方法及基于人眼定位的视线估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7155036B2 (en) * 2000-12-04 2006-12-26 Sony Corporation Face detection under varying rotation
EP2713307B1 (en) * 2012-09-28 2018-05-16 Accenture Global Services Limited Liveness detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093215A (zh) * 2013-02-01 2013-05-08 北京天诚盛业科技有限公司 人眼定位方法及装置
CN104766059A (zh) * 2015-04-01 2015-07-08 上海交通大学 快速精确的人眼定位方法及基于人眼定位的视线估计方法

Also Published As

Publication number Publication date
CN105426882A (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
CN105426882B (zh) 一种人脸图像中快速定位人眼的方法
US10776470B2 (en) Verifying identity based on facial dynamics
CN110021051B (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN106068514B (zh) 用于在不受约束的媒体中识别面孔的***和方法
CN106372581B (zh) 构建及训练人脸识别特征提取网络的方法
CN109101865A (zh) 一种基于深度学习的行人重识别方法
CN110490158B (zh) 一种基于多级模型的鲁棒人脸对齐方法
CN108182397B (zh) 一种多姿态多尺度的人脸验证方法
CN110348330A (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
CN111091075B (zh) 人脸识别方法、装置、电子设备及存储介质
JP2022527818A (ja) ユーザの眼に関連する幾何学的変数を推定する方法及びシステム
CN108537181A (zh) 一种基于大间距深度度量学习的步态识别方法
Shen et al. Facial expression recognition from infrared thermal videos
CN112001215B (zh) 一种基于三维唇动的文本无关说话人身份识别方法
KR101676101B1 (ko) 동적보상퍼지신경네트워크(dcfnn)를 기반으로 한 얼굴인식 알고리즘
CN103544478A (zh) 一种全方位人脸检测的方法及***
Kurdthongmee et al. A yolo detector providing fast and accurate pupil center estimation using regions surrounding a pupil
Xu et al. A novel method for hand posture recognition based on depth information descriptor
CN110378414A (zh) 基于进化策略的多模态生物特征融合的身份识别方法
Taher et al. An extended eye movement tracker system for an electric wheelchair movement control
Li et al. Multi-level Fisher vector aggregated completed local fractional order derivative feature vector for face recognition
Amudha et al. Suitability of genetic algorithm and particle swarm optimization for eye tracking system
CN112200169A (zh) 用于训练模型的方法、装置、设备以及存储介质
CN112800941A (zh) 基于非对称辅助信息嵌入网络的人脸反欺诈方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181120