CN103198330B - 基于深度视频流的实时人脸姿态估计方法 - Google Patents

基于深度视频流的实时人脸姿态估计方法 Download PDF

Info

Publication number
CN103198330B
CN103198330B CN201310086776.5A CN201310086776A CN103198330B CN 103198330 B CN103198330 B CN 103198330B CN 201310086776 A CN201310086776 A CN 201310086776A CN 103198330 B CN103198330 B CN 103198330B
Authority
CN
China
Prior art keywords
face
real
attitude estimation
depth map
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310086776.5A
Other languages
English (en)
Other versions
CN103198330A (zh
Inventor
姚莉
肖阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201310086776.5A priority Critical patent/CN103198330B/zh
Publication of CN103198330A publication Critical patent/CN103198330A/zh
Application granted granted Critical
Publication of CN103198330B publication Critical patent/CN103198330B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度视频流的实时人脸姿态估计方法,其步骤包括抽样及训练和实时估计两个阶段,在抽样及训练阶段,获取各个脸部角度的景深图;然后对各个角度的景深图做随机取样,得到训练样本集;再采用监督学***均,得到最终的人脸姿态结果。本发明提供的基于深度视频流的实时人脸姿态估计方法,避免了光照等因素对最终结果的影响,并且拥有良好的实时性和准确性。

Description

基于深度视频流的实时人脸姿态估计方法
技术领域
本发明涉及了一种识别方法,特别是涉及了一种基于深度视频流的实时人脸姿态估计方法。
背景技术
目前用户与计算机的交互方式主要通过键盘、鼠标和触摸屏,这种交互方式都要借助于特定的硬件输入设备。自然人机交互方式成为目前研究的重点,例如:人体姿态、人脸姿态、人脸表情分析等。另外,在人脸识别中,人脸姿态估计也有着很重要的应用。通过人脸姿态估计后,可以在识别之前根据人脸姿态先对照片做变形处理,然后再进行识别,可大大提高人脸识别的准确率。
现有的人脸姿态估计方法都是基于二维图像和视频的,此类方法还存在如下的问题:
1) 采集数据易受到噪声干扰。传统的二维图像和视频易受到光照影响,光照会完全改变图片中某些区域的灰度值和纹理信息,使得训练阶段样本集不可能照顾到所有可能的情况,从而在泛化阶段准确率直线下降。
2) 特征缺失条件下准确率下降严重。这类方法通过某个脸部特征(鼻子、眼睛等)去估计脸部姿态。该类方法首先将需要的特征从整个人脸中提取出来,然后根据该特征的几何形状去判断实际脸部姿态。但是,在该特征无法辨认或遮挡的情况下,该类方法就无法判断人脸姿态或给出一个及其不准确的结果。
3) ***运行过程中需要人工干预。这类方法将物体跟踪的思想应用于人脸姿态估计。该类方法需要在***开始运行时初始化人脸位置,并且,当人脸快速移动或遇到遮挡物时容易丢失目标。
近年来,随着深度视频流采集设备(例如微软的kinect、爱动体感设备、CyWee、绿动体感运动机iSec等 )逐步进入普通消费群体,深度视频流所提供的时间轴上的三维景深数据为人脸姿态估计提供了新的参考信息,同时也为新方法的提供了基础。
发明内容
本发明主要是针对现在市场的要求,提供了一种具有及时性高、准确性强的基于深度视频流的实时人脸姿态估计方法。
为了实现上述目的,本发明提供以下技术方案:
本发明提供了一种基于深度视频流的实时人脸姿态估计方法,其步骤包括:抽样及训练阶段和实时估计阶段;在抽样及训练阶段,其步骤包括:获取头部各个角度的人脸景深图,并标注其鼻尖位置和偏转角度;将人脸景深图转换为人脸积分图;在人脸积分图中随机抽样得到训练样本集;采用监督学***均法处理剩下的姿态估计结果,得到最终姿态结果。
在本发明一个较佳实施例中,所述的获取头部各个角度的人脸景深图的方法具体为利用三维人脸模型重新渲染生成人脸景深图或利用实际采集的方式获取人脸景深图。
在本发明一个较佳实施例中,所述在人脸积分图中随机抽样得到训练样本集的具体步骤包括:从人脸积分图中随机抽取一定规格的切片样本;去除删除空白区域过多的切片样本和深度值过于平缓的切片样本;在每个切片样本上标记其中心点与鼻尖位置的偏移量和对应的脸部姿态,得到训练样本集。
在本发明一个较佳实施例中,所述的监督学习方法所采用的学习模型包括随机森林、决策树、神经网络和贝叶斯网络。
在本发明一个较佳实施例中,所述的获取景深图视频流和普通视频流的视频帧中的脸部位置的具体步骤包括:利用景深图视频流中的深度信息过滤背景;利用普通视频流的图像帧中的肤色和纹理信息找到脸部位置。
在本发明一个较佳实施例中,所述的针对视频帧中的脸部位置进行随机取样得到待分类样本集的具体步骤包括:在视频帧中的脸部位置上抽取一定规格的切片样本;抛弃空白区域过多的切片样本和深度值过于平缓的的切片样本;利用切片样本得到待分类样本集。
在本发明一个较佳实施例中,所述的剔除异常的姿态估计结果具体步骤包括:采用均值漂移算法找到最密集的姿态估计结果的中心;抛弃离最密集的姿态估计结果的中心相差较远的结果。
本发明的有益效果是:本发明所述的基于深度视频流的实时人脸
姿态估计方法,这种景深数据较二维照片而言,不受光照等噪声的影响,增加了估计结果的准确性,并使得实时姿态估计成为可能;本发明采不会出现丢失目标的情况,本发明可以作为自然人机交互的有效途径,还可以为人脸相关的模式识别问题提供预处理。
附图说明
图1是本发明基于深度视频流的实时人脸姿态估计方法一较佳实施例的流程示意图;
图2是切片样本和测试选取示意图;
图3是空白区域过多的切片示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1至图3,图1是本发明基于深度视频流的实时人脸姿态估计方法一较佳实施例的结构示意图;图2是切片样本和测试选取示意图;图3是空白区域过多的切片示意图。
本发明提供了一种基于深度视频流的实时人脸姿态估计方法,其步骤包括:抽样及训练阶段和实时估计阶段;在抽样及训练阶段,其步骤包括:获取头部各个角度的人脸景深图,并标注其鼻尖位置和偏转角度;将人脸景深图转换为人脸积分图;在人脸积分图中随机抽样得到训练样本集;采用监督学***均法处理剩下的姿态估计结果,得到最终姿态结果。
本发明能直接从脸部全局入手估计脸部姿态,计算量较低;以三维景深图为估计依据,利用随机森林作为学习模型构建分类器,训练时间和泛化时间都较快;对各种脸部情况都能保持一定的鲁棒性和完全的实时性。
所述的获取头部各个角度的人脸景深图的方法具体为利用三维人脸模型重新渲染生成人脸景深图或利用实际采集的方式获取人脸景深图。
所述在人脸积分图中随机抽样得到训练样本集的具体步骤包括:从人脸积分图中随机抽取一定规格的切片样本;去除删除空白区域过多的切片样本和深度值过于平缓的切片样本;在每个切片样本上标记其中心点与鼻尖位置的偏移量和对应的脸部姿态,得到训练样本集。
所述的监督学习方法所采用的学习模型包括随机森林、决策树、神经网络和贝叶斯网络。
以随机森林作为模型进行学习时,首先采用bootstrap方法为森林中各颗树抽取样本集。树中的每个节点,都代表一个样本测试。测试选取的特征为切片样本中任意两个不相交的一定规格的矩形块的景深均值的差值。到达节点的样本集经过测试之后会被分为2部分。选取具有最佳区分度的测试。最佳区分度是指进入左右节点的样本子集对应的脸部姿态和鼻尖位置差异最大。当到达节点的样本集数量过少或生成新节点将超过可允许的树最大深度时,就不再为该节点安排测试生成子节点。
重复以上步骤可以得到一个完整的随机森林模型。
采用随机森林作为基本学习模型,该模型在训练时间和泛化时间上都有较为满意的表现,所以使得实时姿态估计成为可能。
下面结合附图说明随机森林训练和泛化过程,对本发明做进一步阐述:
切片样本:
在切片样本和测试选取示意图中,虚线矩形框部分为实际采用的切片样本;在空白区域过多的切片示意图中,虚线框部分是需要抛弃的切片样本。实际训练时,样本集由若干的切片样本和测试选取示意图中的虚线矩形切片组成。
测试特征选取:
在切片样本和测试选取示意图中,在虚线矩形框中包含有2个小矩形。这两个小矩形就代表了测试时一种可能的矩形区域选取情况。计算时,将矩形1中的所有深度值的均值减去矩形2中的所有深度值的均值得到差值,然后与一个阈值比较,决定该切片样本的去向(进入左子节点还是右子节点)。公式如下:
最佳样本区分度定义:
对于每个树节点,需要找到具有最佳区分度的测试。如前面所示,每个切片样本都标注了其距离鼻尖的偏移量和对应的人脸偏转角度。在下式中,ρ表示到达当前节点的切片样本集合,ρi经过某个测试后左或右子节点中的切片样本集合。Σ表示切片样本集合中距离鼻尖偏移量和脸部偏转角度的方差。
一次比较优秀的测试应该使子节点中的样本相似度更高。所以,始终应该选取使②式最大的测试。
在训练阶段,针对不同脸部姿态抽取若干所述切片样本和测试选取示意图中的切片样本,将这些样本利用以上说的测试选择方法不断为树生成子节点,直到节点中样本数不足或节点深度超过上限。
本发明巧妙的利用了深度视频流中的三维景深数据作为估计基础,这种景深数据较二维照片而言,不受光照等噪声的影响,增加了估计结果的准确性,而且,本发明采用的是逐帧估计的思路,因此,该方法在实际应用中,不需要人工初始化,并且不会出现丢失目标的情况。
在泛化阶段,从实际采集的脸部景深图中,按照与训练抽样相同的方式抽样,然后将待测试样本输入随机森林,得到大量结果并保存。然后剔除远离估计中心的结果,将剩下的结果做加权平均得到最终结果。
所述的获取景深图视频流和普通视频流的视频帧中的脸部位置的具体步骤包括:利用景深图视频流中的深度信息过滤背景;利用普通视频流的图像帧中的肤色和纹理信息找到脸部位置。
所述的针对视频帧中的脸部位置进行随机取样得到待分类样本集的具体步骤包括:在视频帧中的脸部位置上抽取一定规格的切片样本;抛弃空白区域过多的切片样本和深度值过于平缓的的切片样本;利用切片样本得到待分类样本集。
所述的剔除异常的姿态估计结果具体步骤包括:采用均值漂移算法找到最密集的姿态估计结果的中心;抛弃离最密集的姿态估计结果的中心相差较远的结果。
本发明所述的基于深度视频流的实时人脸姿态估计方法,这种景深数据较
二维照片而言,不受光照等噪声的影响,增加了估计结果的准确性,并使得实时姿态估计成为可能;本发明采不会出现丢失目标的情况,本发明可以作为自然人机交互的有效途径,还可以为人脸相关的模式识别问题提供预处理。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于深度视频流的实时人脸姿态估计方法,其特征在于:步骤包括:抽样及训练阶段和实时估计阶段;
在抽样及训练阶段,其步骤包括:
获取头部各个角度的人脸景深图,并标注其鼻尖位置和偏转角度;
将人脸景深图转换为人脸积分图;
在人脸积分图中随机抽样得到训练样本集;
采用监督学习方法进行训练,得到分类器;
在实时估计阶段,其步骤包括:
实时采集得到景深图视频流和普通视频流;
获取景深图视频流和普通视频流的视频帧中的脸部位置;
针对视频帧中的脸部位置进行随机取样得到待分类样本集;
将待分类样本集中所有样本输入分类器,得到姿态估计结果;
剔除异常的姿态估计结果;
采用加权平均法处理剩下的姿态估计结果,得到最终姿态结果。
2.根据权利要求1所述的基于深度视频流的实时人脸姿态估计方法,其特征在于,所述的获取头部各个角度的人脸景深图的方法具体为利用三维人脸模型重新渲染生成人脸景深图或利用实际采集的方式获取人脸景深图。
3.根据权利要求1所述的基于深度视频流的实时人脸姿态估计方法,其特征在于,所述在人脸积分图中随机抽样得到训练样本集的具体步骤包括:
从人脸积分图中随机抽取一定规格的切片样本;
删除空白区域过多的切片样本和深度值过于平缓的切片样本;
在每个切片样本上标记其中心点与鼻尖位置的偏移量和对应的脸部姿态,得到训练样本集。
4.根据权利要求1所述的基于深度视频流的实时人脸姿态估计方法,其特征在于,所述的监督学习方法所采用的学习模型包括随机森林、决策树、神经网络和贝叶斯网络。
5.根据权利要求1所述的基于深度视频流的实时人脸姿态估计方法,其特征在于,所述的获取景深图视频流和普通视频流的视频帧中的脸部位置的具体步骤包括:
利用景深图视频流中的深度信息过滤背景;
利用普通视频流的图像帧中的肤色和纹理信息找到脸部位置。
6.根据权利要求1所述的基于深度视频流的实时人脸姿态估计方法,其特征在于,所述的针对视频帧中的脸部位置进行随机取样得到待分类样本集的具体步骤包括:
在视频帧中的脸部位置上抽取一定规格的切片样本;
抛弃空白区域过多的切片样本和深度值过于平缓的的切片样本;
利用切片样本得到待分类样本集。
7.根据权利要求1所述的基于深度视频流的实时人脸姿态估计方法,其特征在于,所述的剔除异常的姿态估计结果具体步骤包括:
采用均值漂移算法找到最密集的姿态估计结果的中心;
抛弃离最密集的姿态估计结果中心相差较远的结果。
CN201310086776.5A 2013-03-19 2013-03-19 基于深度视频流的实时人脸姿态估计方法 Expired - Fee Related CN103198330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310086776.5A CN103198330B (zh) 2013-03-19 2013-03-19 基于深度视频流的实时人脸姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310086776.5A CN103198330B (zh) 2013-03-19 2013-03-19 基于深度视频流的实时人脸姿态估计方法

Publications (2)

Publication Number Publication Date
CN103198330A CN103198330A (zh) 2013-07-10
CN103198330B true CN103198330B (zh) 2016-08-17

Family

ID=48720861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310086776.5A Expired - Fee Related CN103198330B (zh) 2013-03-19 2013-03-19 基于深度视频流的实时人脸姿态估计方法

Country Status (1)

Country Link
CN (1) CN103198330B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760809B (zh) * 2014-12-19 2019-05-31 联想(北京)有限公司 用于头部姿态估计的方法和设备
EP3709271B1 (en) * 2016-09-15 2022-11-02 Google LLC Image depth prediction neural networks
CN106991376B (zh) * 2017-03-09 2020-03-17 Oppo广东移动通信有限公司 结合深度信息的侧脸验证方法及装置与电子装置
CN107844797A (zh) * 2017-09-27 2018-03-27 华南农业大学 一种基于深度图像的哺乳母猪姿态自动识别的方法
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN109858342B (zh) * 2018-12-24 2021-06-25 中山大学 一种融合手工设计描述子和深度特征的人脸姿态估计方法
CN109918990A (zh) * 2019-01-08 2019-06-21 深圳禾思众成科技有限公司 一种人脸实时跟踪方法、设备及计算机可读存储介质
CN113823135B (zh) * 2021-09-30 2023-06-27 创泽智能机器人集团股份有限公司 一种基于机器人的辅助教学方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043966A (zh) * 2010-12-07 2011-05-04 浙江大学 基于部分主分量分析和姿态估计联合的人脸识别方法
CN102147851A (zh) * 2010-02-08 2011-08-10 株式会社理光 多角度特定物体判断设备及多角度特定物体判断方法
CN102467655A (zh) * 2010-11-05 2012-05-23 株式会社理光 多角度人脸检测方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689033B2 (en) * 2003-07-16 2010-03-30 Microsoft Corporation Robust multi-view face detection methods and apparatuses

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147851A (zh) * 2010-02-08 2011-08-10 株式会社理光 多角度特定物体判断设备及多角度特定物体判断方法
CN102467655A (zh) * 2010-11-05 2012-05-23 株式会社理光 多角度人脸检测方法和***
CN102043966A (zh) * 2010-12-07 2011-05-04 浙江大学 基于部分主分量分析和姿态估计联合的人脸识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Real-time Multi-view Face Tracking in Videos;Yao Li, Dong Zhong-fan;《Intelligent Computing and Intelligent Systems (ICIS), 2010 IEEE International Conference on 》;20101031;第2卷;618 - 621 *

Also Published As

Publication number Publication date
CN103198330A (zh) 2013-07-10

Similar Documents

Publication Publication Date Title
CN103198330B (zh) 基于深度视频流的实时人脸姿态估计方法
Tao et al. An object detection system based on YOLO in traffic scene
CN104123545B (zh) 一种实时表情特征提取及表情识别方法
Wang et al. Kinect based dynamic hand gesture recognition algorithm research
CN104143079B (zh) 人脸属性识别的方法和***
CN109034210A (zh) 基于超特征融合与多尺度金字塔网络的目标检测方法
CN105574510A (zh) 一种步态识别方法及装置
CN103258193B (zh) 一种基于kod能量特征的群体异常行为识别方法
CN103218605B (zh) 一种基于积分投影与边缘检测的快速人眼定位方法
Arif et al. Automated body parts estimation and detection using salient maps and Gaussian matrix model
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN105139039A (zh) 视频序列中人脸微表情的识别方法
CN103618918A (zh) 一种智能电视的显示控制方法及装置
CN103440645A (zh) 一种基于自适应粒子滤波和稀疏表示的目标跟踪算法
CN103226388A (zh) 一种基于Kinect的手写方法
CN103810490A (zh) 一种确定人脸图像的属性的方法和设备
CN103020614B (zh) 基于时空兴趣点检测的人体运动识别方法
CN104517100B (zh) 手势预判方法和***
CN107808376A (zh) 一种基于深度学习的举手检测方法
Shi et al. Moving target detection algorithm in image sequences based on edge detection and frame difference
CN104036550A (zh) 基于形状语义的建筑立面激光雷达点云解译与重建的方法
CN105069745A (zh) 基于普通图像传感器及增强现实技术的带表情变脸***及方法
Mo et al. Background noise filtering and distribution dividing for crowd counting
CN104301585A (zh) 一种运动场景中特定种类目标实时检测方法
CN106127112A (zh) 基于dlle模型的数据降维与特征理解方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20170319