CN107871106A - 人脸检测方法和装置 - Google Patents

人脸检测方法和装置 Download PDF

Info

Publication number
CN107871106A
CN107871106A CN201610852174.XA CN201610852174A CN107871106A CN 107871106 A CN107871106 A CN 107871106A CN 201610852174 A CN201610852174 A CN 201610852174A CN 107871106 A CN107871106 A CN 107871106A
Authority
CN
China
Prior art keywords
face
network
different levels
face feature
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610852174.XA
Other languages
English (en)
Other versions
CN107871106B (zh
Inventor
毛秀萍
张祥德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Eyes Intelligent Technology Co ltd
Shenzhen Aiku Smart Technology Co ltd
Beijing Eyecool Technology Co Ltd
Original Assignee
Beijing Eyecool Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Eyecool Technology Co Ltd filed Critical Beijing Eyecool Technology Co Ltd
Priority to CN201610852174.XA priority Critical patent/CN107871106B/zh
Publication of CN107871106A publication Critical patent/CN107871106A/zh
Application granted granted Critical
Publication of CN107871106B publication Critical patent/CN107871106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供了一种人脸检测方法和装置,该方法包括:采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;将多个人脸特征向量融合成一个人脸特征向量;对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量;对两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果;同时对两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果。本发明可使用于人脸检测和姿态估计的特征对图像的描述更加丰富,准确度更高,降低后续人脸检测的失误率;并能够同时执行多个相关任务,提升单个任务的性能。提高任务处理效率。

Description

人脸检测方法和装置
技术领域
本发明涉及人脸识别技术领域,特别是涉及一种人脸检测方法和装置。
背景技术
人脸检测是指从输入图像中确定所有人脸(如果存在)的位置和大小的过程。作为人脸信息处理中的一项关键技术,人脸检测是许多自动人脸图像分析应用的前提和基础,如人脸识别、人脸配准、人脸追踪、人脸属性识别(性别、年龄、表情)等。自上世纪90年代以来,人脸检测逐步取得了重大进展,近年来在安全访问控制、视觉监测、基于内容的检索和新一代人机界面等领域得到了广泛的应用,成为模式识别与计算机视觉领域内一项受到普遍重视、研究十分活跃的课题。
头部姿态估计问题作为人脸识别问题中的一项关键技术,受到了越来越多的关注。姿态问题是影响人脸识别***性能的重要因素,当识别非正面的人脸时,***的性能会急剧的下降。因此解决姿态估计问题是提高人脸识别***性能的一个重要的途径,具有重要的应用价值。头部姿态估计的任务是确定头部相对摄像机角度的方向。给定一张人脸图像,其姿态由上下翻转(pitch),左右翻转(yaw),平面内旋转(roll)的三种角度构成。
深度学习是近十年来人工智能领域取得的最重要的突破之一,作为深度网络的一类重要分支,深度卷积神经网络在诸如人脸识别、目标分类、物体检测等领域取得重大进展。且网络学习到的特征可以同时用于多任务,如分类、检测、物体分割等。越来越多的研究人员尝试利用深度卷积网络来提升人脸检测的效果。
目前,现有的人脸检测算法分为以下三种:Boosting(一种用来提高弱分类算法准确度的方法)变种、可变部件模型(DPM,deformable part model)、卷积神经网络(CNN)以及深度卷积神经网络(DCNN)。
Boosting变种算法的代表方法是Adaboost(一种迭代算法)人脸检测器及其变种。该Adaboost人脸检测算法的检测器包括三个主要内容:级联结构、积分图和Adaboost分类器。其中,级联结构是指一种多层结构的分类器,在级联结构中,每一层的分类器都是通过Adaboost方法训练得到的,训练每一层的分类器需要以下几个步骤:1)计算矩形特征的值;2)遍历特征得到弱分类器;3)将弱分类器组合成强分类器。Adaboost算法是Boosting学习方法中最具代表性的算法,Adaboost迭代算法可分为3步:1)初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N;2)训练弱分类器;3)将各个训练得到的弱分类器组合成强分类器,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。
虽然,该经典的Adaboost人脸检测算法能很好地处理正面和接近正面的人脸,但是当面对复杂姿态、多角度的人脸时,检测性能大幅下降。
另一种检测方法是DPM,它是一种通用的的物体检测算法,DPM算法采用了改进后的梯度方向直方图(HOG,Histogram of oriented gradient)特征,利用支持向量机(SVM)分类器和滑动窗口(Sliding Windows)检测思想,针对目标的多视角问题,采用了多组件(Component)的策略,针对目标本身的形变问题,采用了基于图结构(PictorialStructure)的部件模型策略。此外,它还会将样本的所属的模型类别,部件模型的位置等作为潜变量(Latent Variable),采用多示例学习(Multiple-instance Learning)来自动确定。DPM应用于人脸检测时,将人脸看成部件的集合,通过有监督或无监督的训练的定义这些部件,通常需要训练一个隐SVM分类器来找到这些部件以及部件之间的几何关系。
但是DPM检测器由于需要对每一个候选位置解决一个隐SVM问题;而且,为了为取得最佳性能,还需要训练多个DPM模型;此外,在一些基于DPM的模型中,训练过程需要特征点的标注,这些都会导致计算量比较大。
另一种CNN以及DCNN方法,作为利用神经网络实现人脸检测的方法,虽然可以对人脸进行特征提取和分类,但是,CNN的优化是一个非凸问题,容易造成网络学习困难,且深度网络的模型复杂度较高,需要进行超大量计算,对硬件支持要求比较高,并且需要大规模的标签数据;另外,一般的深度网络仅利用最高层级网络作特征处理分类等任务,这样会对深度网络各层级特征理解不充分,而仅利用高层特征通常并不足以充分描述图像,因此,识别的特征并不准确,从而容易造成人脸检测失误率高。
而对于人脸姿态估计的方法,则可以分为基于模型的方法和基于表观的方法。
其中,基于模型的方法首先利用某种几何模型表示人脸的结构和形状,并通过提取某些特征,在模型和图像之间建立起对应关系,然后通过几何或者其它方法实现人脸姿态的估计。采用基于模型的姿态估计方法的理论依据是人脸具有一定的空间几何结构。在假设头部为刚体的情况下,头部的姿态变化可以认为是刚体的运动。
但是,基于模型的头部姿态估计方法是通过特征点匹配来估计人脸的姿态,此类方法通常严重依赖于特征点的准确定位,另外还需要一个3维的正面的“标准模型”。且在一般的基于模型的姿态估计方法中,往往假设了头部是一个刚体。但是,实际上头部并不完全是刚体。此外,在光照条件变化的情况下检测和跟踪头部特征点非常困难,因此造成基于模型的方法也受到光照条件变化的影响。
另一种,基于表观的方法是假定在三维空间中的人脸姿态与二维人脸图像的某些性质存在一定的联系,用大量样本通过统计方法找到这种关系。通过对含有各种姿态的人脸图像的学习,在大量训练样本的基础上建立一个能够正确估计姿态的分类器,如SVM等,然后使用该分类器估计测试图像中的人脸图像的姿态。
但是,基于表观的姿态估计方法严重依赖于人脸检测的结果,即,只有在完成了人脸检测后,才可以进行姿态估计,这样两个任务无法同时进行,会降低人脸识别效率。而且,还会易于受光照条件变化的影响,此外,分类器的一些局限也限制了其性能的提高,例如分类器的分类结果往往受训练样本的分布情况的影响,计算量和存储空间需求往往较大。另外基于表观的方法需要通过分类算法估计姿态的大概范围或者用回归算法来估计得到准确的姿态角度。对于分类算法,估计出的姿态值是离散的,只能给出人脸图像的大概姿态范围。而对于回归算法来说,虽然能够给出准确的连续的姿态,但是需要大量的连续姿态下的人脸图像作为训练样本。这些缺点决定了基于表观的方法的鲁棒性较差,在实际***中难以得到理想的结果。
针对相关技术中所存在的检测的人脸特征准确度低,从而造成人脸检测失误率高的问题以及姿态估计严重依赖人脸检测的结果,从而造成任务处理效率低的问题。
发明内容
本发明实施例所要解决的技术问题是提供一种人脸检测方法和装置,以解决现有技术所存在的检测的人脸特征准确度低,从而造成人脸检测失误率高的问题以及姿态估计严重依赖人脸检测的结果,从而造成任务处理效率低的问题。
为了解决上述问题,根据本发明的一个方面,本发明公开了一种人脸检测方法,包括:
采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
将所述多个人脸特征向量融合成一个人脸特征向量;
对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量;
对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果;
同时对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果。
根据本发明的另一方面,本发明还公开了一种人脸检测装置,包括:
提取模块,用于采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
融合模块,用于将所述多个人脸特征向量融合成一个人脸特征向量;
降维模块,用于对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量;
人脸检测模块,用于对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果;
姿态估计模块,用于同时对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果。
与现有技术相比,本发明实施例包括以下优点:
借助于本发明上述实施例的技术方案,本发明实施例通过将不同层级的特征融合,可以使用于人脸检测和姿态估计的特征对图像的描述更加丰富,准确度更高,降低后续人脸检测的失误率;而且,通过将融合后的特征同时用于人脸检测和姿态估计,这样不仅可以同时执行多个相关的任务,而且还可以提升单个任务的性能。提高任务处理效率。
附图说明
图1是本发明实施例的一种人脸检测方法的步骤流程图;
图2是本发明实施例的一种对卷积神经网络模型进行训练的步骤流程图;
图3是本发明实施例的一种用于训练的卷积神经网络模型的示意图;
图4是本发明实施例的一种用于检测的卷积神经网络模型的示意图;
图5A是本发明实施例的一种待测图像的原图示意图;
图5B是本发明实施例的一种待测图像的图像金字塔的示意图;
图6是本发明实施例一种人脸检测装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
第一实施例
参照图1,示出了本发明的一种人脸检测方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
其中,卷积神经网络模型具有多个不同层级网络,并且不同层级网络所提取的特征所包含的信息也是分层分布的,低层网络提取的特征着重刻画边缘和角点,包含更好的定位特征,因此适合学习姿态估计等任务;高层网络提取的特征为对应类别相关的特征,因此适合学习复杂的分类任务,如人脸检测等。在本发明实施例中,可以采用深度神经网络模型的不同层级网络分别提取不同类型的特征;
并且,每一层级网络的下采样层都会有一个输出结果,该输出结果(即该层级网络输出的多维度的特征向量)作为下一个层级网络的输入,这样在一个待测人脸图像输入至卷积神经网络模型的第一个层级网络后,该层级网络的中间输出结果会作为第二个层级网络的输入继续进行特征提取处理,最后,针对一个图像,每个层级网络都会有一个特征向量的输出,而每个层级网络所提取的特征的侧重点又不同。
步骤102,将所述多个人脸特征向量融合成一个人脸特征向量;
其中,为了使得对任意一个人脸图像提取的特征能够对图像实现更加丰富的网络描述,提高检测到的人脸特征的准确度,这里可以将各个层级网络提取的人脸特征向量进行融合连接,形成一个人脸特征向量。
步骤103,对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量;
其中,由于将多个人脸特征向量连接后得到的一个人脸特征向量的维度较高,特征之间也存在冗余,因此,可以通过在卷积神经网络模型的不同层级网络之后增加另外两个全连接层,并利用线性映射将高位的特征映射到低纬度的空间中,这样就可以得到两个维度相同的人脸特征向量。
步骤104,对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果;
步骤105,同时对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果。
其中,为了提高任务的处理效率,在本发明实施例中可以采用经过训练的卷积神经网络模型对将降维后得到两个人脸特征向量分别进行人脸检测和姿态估计,这样,在姿态估计时无需依赖人脸检测的结果,提高了任务的处理效率。
借助于本发明上述实施例的技术方案,本发明实施例通过将不同层级的特征融合,可以使用于人脸检测和姿态估计的特征对图像的描述更加丰富,准确度更高,降低后续人脸检测的失误率;而且,通过将融合后的特征同时用于人脸检测和姿态估计,这样不仅可以同时执行多个相关的任务,而且还可以提升单个任务的性能。提高任务处理效率。
第二实施例
在上述实施例的基础上,本实施例进一步论述本发明的人脸检测方法。
在采用上述卷积神经网络模型对人脸进行特征提取之前,还需要对该卷积神经网络模型进行训练,在训练之前,根据本发明实施例的方法还需要准备训练样本。
本发明实施例利用宽脸(WIDER FACE)数据库的训练集来生成人脸检测和姿态估计的训练样本。WIDER FACE共包含3,2203张图片,39,3703张人脸标注。分为61个场景,如游行、聚会、节日、会议等。在每一个场景下,可以随机选取40%、10%、50%的样本分别用作训练样本、验证样本和测试样本。并且,在上述标注中,除了人脸框标注外,还有遮挡程度、姿态、场景的标注。WIDER FACE是迄今规模最大的人脸检测数据库。
在一个可选的实施例中,根据本发明实施例的训练样本的准备步骤包括:选用包含人脸标注的人脸数据集作为训练样本,对所述训练样本中的训练图像进行剪裁;根据剪裁得到的图像与真实人脸标注的重叠程度,确定所述训练样本中的正样本和负样本;将所述正样本和所述负样本按照预设比例输入至所述卷积神经网络模型以对所述卷积神经网络模型进行训练。
具体而言,在本实施例中,可以将WIDER FACE中选取的上述40%的样本作为训练样本,对所述训练样本中的一大张训练图像进行剪裁,得到多个很多区域图像;可以将剪裁得到的区域图像与真实人脸标注的IOU大于0.65的区域作为正样本,与真实标注的IOU小于0.3的区域作为负样本,训练样本中正、负样本的比例可以为1:3;在需要训练时,就可以将上述比例的训练样本输入至卷积神经网络模型来对该模型进行训练。其中,IOU为两个区域交的面积与两个区域的并的面积的比值如公式1所示:
当然,需要注意的是,这里在定义IOU比值大于多少或小于多少为正、负样本时,所采用的阈值0.65和0.3并不用于限制本发明,该阈值可以根据实际需要灵活调整。
那么,在准备好训练样本后,在执行步骤101之前,就可以对该卷积神经网络模型进行训练,图2示出了本发明实施例的卷积神经网络模型的训练流程图,具体包括如下步骤:
步骤201,采用中间损失训练所述卷积神经网络模型的不同层级网络;
在执行步骤201时,根据本发明的一个实施例,可以通过以下子步骤来实现:
S11,采用所述卷积神经网络模型的不同层级网络对输入的训练样本提取不同层级网络的多个多维度的人脸特征向量;
S12,采用所述卷积神经网络模型的不同层级网络中的多个全连接层,对所述多个多维度的人脸特征向量进行降维,得到对应不同层级网络的多个一维人脸特征向量;
S13,采用所述卷积神经网络模型的不同层级网络中的多个第一分类网络对所述的多个一维人脸特征向量分别作人脸分类,得到多个人脸分类结果,所述人脸分类结果为输入的训练样本为人脸的概率;
S14,采用分类损失函数对所述多个人脸分类结果分别进行计算,得到所述多个第一分类网络的多个中间损失;
S15,依据每个中间损失对产生所述中间损失的所有层级网络的参数进行调整,以训练所述不同层级网络。
具体而言,在本实施例中,图3示出了本发明实施例的用作训练的卷积神经网络模型,表1为该模型的网络结构参数,用于解释该图3所示的模型。
表1
其中,该卷积神经网络模型包括13个卷积层Conv1_1~Conv5_3;
参照图3所示的模型,从列的方向上看,该模型示出了五个层级网络,每个层级网络包括相应列的卷积层和下采样层,并且五个层级网络还分别包括全连接层ip1_1、ip2_1、ip3_1、ip4_1、ip5_1以及分类网络层ip1_2、ip2_2、ip3_2、ip4_2、ip5_2。其中,每个层级网络中的全连接层和分类网络层无法单独工作,它们是相互依存的。那么当一个训练样本(input sample)输入至该模型后,会进入第一个层级网络的卷积层Conv1_1、Conv1_2依次作卷积运算,再进入第一次下采样,得到一个三维的人脸特征向量;然后,该三维人脸特征向量会进入该层级网络的全连接层ip1_1进行降维处理,得到一个一维的人脸特征向量并进入分类网络;同时该三维人脸特征向量还会进入下一层级网络的卷积层Conv2_1继续进行特征提取,具体的操作步骤和在第一个层级的网络类似,在此不再赘述。
这样,每个层级网络的下采样层都会输入相应全连接层ip1_1、ip2_1……ip5_1一个多维度的人脸特征向量进行降维处理,从而得到对应层级的一维人脸特征向量;
那么为了对每个层级网络的一维人脸特征向量进行特征学习,本发明实施例还在该卷积神经网络模型不同层级网络中的各个全连接层的下方添加了分类网络层ip1_2、ip2_2……ip5_2,这样每个层级网络产生的一维人脸特征向量还会进入相应的分类网络(这里为softmax分类网络)进行分类处理,通过分类网络的分类处理,对每个人脸特征向量都可以得到一个对应的概率值,用于表示该人脸特征向量对应的图像为人脸的概率。
然后,本发明实施例可以采用分类损失函数对每个分类网络输出的概率分别进行公式2的计算,可以得到多个中间损失。
其中,对样本xi,定义其人脸检测的softmax损失函数为:
其中,pi表示xi为人脸的概率,概率值pi通过softmax分类网络计算得到。标注表示样本xi的真实标注。
这样可以得到五个中间损失,分别记为losst,t∈{1,2,...5}。
然后,就可以依据每个中间损失对产生所述中间损失的所有层级网络的参数进行调整,以训练所述不同层级网络。
也就是说,参照图3,由于第一个层级网络的第一个人脸特征向量是经过第一个层级网络的Conv1_1、Conv2_1以及pool1的操作而得到的,因此,第一个中间损失(detectionloss1)用于对第一个层级网络的Conv1_1、Conv2_1以及pool1的参数进行调整;而由于第二个层级网络的第二个人脸特征向量是经过第一个层级网络的Conv1_1、Conv2_1以及pool1的操作以及第二个层级网络的Conv2_1、Conv2_2以及pool2的操作而得到的,因此,第二个中间损失(detection loss2)用于对第一个层级网络的Conv1_1、Conv2_1以及pool1的参数以及第二个层级网络的Conv2_1、Conv2_2以及pool2的参数均进行调整;而第三、四、五个中间损失(detection loss1)所调整的目标层级网络与第二个中间损失所调整的层级网络的方法类似,在此不再赘述。
也就是说,每个中间损失会参与到产生该损失的所有层级网络的参数训练中,如detection loss3会参与到第1、2、3层级网络的参数训练中。
可选地,在上述每一个卷积层和全连接层之后,还可以对各层的输出结果进行ReLU非线性激活。那么在使用中间损失训练好的卷积的神经网络模型后,就可以初始化卷积神经网络的13个卷积层和5个下采样层的参数,从而进行后续的人脸检测网络以及姿态估计网络的训练。
步骤202,采用人脸检测的损失训练所述卷积神经网络模型的人脸检测网络以及所述不同层级网络;
其中,参照图3,每个人脸特征向量在经过全连接层降维后,一路进入分类网络进行分类,另一路会和相邻层级全连接层的人脸特征向量进行全连接,从而训练人脸检测网络和姿态估计网络。
因此,在执行步骤202之前,在一个实施例中,根据本发明实施例的方法还包括:采用未经过训练的卷积神经网络模型对训练样本提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;将未经过训练的卷积神经网络模型得到的所述多个人脸特征向量融合成一个人脸特征向量;通过在所述卷积神经网络模型中增加两个全连接层,对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量。
具体而言,参照图3,将五个中间层级网络的五个人脸特征向量连接起来得到一个1472维的特征(如图3所示的concat_all 1472),由于该特征的维数较高,特征之间存在冗余。因此,可以在concat_all 1472后通过增加两个全连接层(即图3中concat_all 1472引出的两个箭头),并利用线性映射将该高维的特征映射到较低维的空间中。这样通过两个全连接层可以得到2个512维的特征向量(即ipt_1 512、ipt_2 512),分别用于人脸检测和姿态估计两个任务。
然后就可以执行步骤202,而在执行步骤202时,根据本发明的一个实施例,可以通过以下子步骤来实现:
子步骤S21,采用所述人脸检测网络的分类网络对所述两个人脸特征向量中的一个人脸特征向量作人脸分类,得到人脸分类结果,所述人脸分类结果为输入的训练样本为人脸的概率;
子步骤S22,采用分类损失函数对所述人脸分类结果进行计算,得到所述分类网络的分类损失;
子步骤S23,采用所述分类损失训练所述卷积神经网络模型的所述人脸检测网络的所述分类网络;
具体而言,参照图3,ipt_1 512输出的512维的人脸特征向量会同时用于人脸检测(即face detection)和检测框回归(即Bbox regression),也就是说,在ipt_1 512处输出的两个箭头表示人脸检测网络,进入人脸检测的箭头为分类网络,该分类网络与中间的层级网络中的分类网络相同。人脸检测是一个二分类问题,本发明实施例利用训练样本中的正、负样本作为人脸分类的样本,并采用公式3所示的softmax损失函数来训练该第二分类网络。对样本xi,其人脸分类的softmax损失函数为:
其中,pi表示xi为人脸的概率,概率值pi通过softmax分类网络计算得到。标注表示样本xi的真实标注。其中,公式3和公式2实质相同,只是下标存在区域,另外,此处网络的分类损失为所有样本的分类损失的平均,这点也是与公式2的区别。
最后,就可以利用分类损失来训练该人脸检测网络的第二分类网络。
子步骤S24,计算作人脸分类的所述人脸特征向量的检测框的目标坐标值;
子步骤S25,计算所述目标坐标值的第一欧几里得损失;
子步骤S26,依据所述第一欧几里得损失对所述卷积神经网络模型的所述人脸检测网络的所述检测框的回归目标以及所述不同层级网络的参数进行调整,以训练所述人脸检测网络和所述不同层级网络。
具体而言,在执行子步骤S21~S23时,会有候选窗口来检测人脸,对每一个候选窗口,其与该人脸的真实后续窗口的位置之间会存在距离,因此,需要对人脸的检测框的位置进行回归训练。对每一个正样本,可以计算检测框(即候选窗口)回归的目标值为:
其中,[x′1,y′1,x'2,y'2]为候选窗口的坐标,[x1,y1,x2,y2]为候选窗口对应的真实标注,回归的目标为对于负样本,网络输出向量[-1,-1,-1,-1]。
然后,采用公式5计算该回归目标的欧几里得损失:
最后,依据lossbbox_regi来对所述卷积神经网络模型的所述人脸检测网络的所述检测框的回归目标进行训练,即对检测框的位置做出微调,由于模型确定出的包含人脸的检测框的位置与真实人脸的位置存在偏差,所以需要进行检测框回归;以及依据lossbbox_regi来对所述卷积神经网络模型的图3所示的5个层级网络的参数进行调整,从而实现对人脸检测网络和所述不同层级网络的训练。
步骤203,采用姿态估计的损失训练所述卷积神经网络模型的姿态估计网络以及所述不同层级网络。
在执行步骤203时,根据本发明的一个实施例,可以采用如下子步骤来实现:
子步骤S31,对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果,其中,所述姿态估计结果包括不同类型的角度姿态标注;
子步骤S32,计算正样本的真实角度姿态标注与所述姿态估计结果之间的第二欧几里得损失;
子步骤S33,依据所述第二欧几里得损失对所述卷积神经网络模型的所述姿态估计网络的参数以及所述不同层级网络的参数进行调整,以训练所述姿态估计网络和所述不同层级网络。
具体而言,头部姿态由pitch(p),yaw(y),roll(r)三种角度构成,分别代表上下翻转,左右翻转,平面内旋转的角度。
在利用卷积神经网络模型对ipt_2 512的人脸特征向量作姿态估计处理后,可以得到一个姿态估计结果,这里,为网络估计的姿态标注。然后,可以采用公式6计算正样本xj的网络轨迹的姿态标注与该样本的真实姿态标注之间的欧几里得损失:
其中,(pj,yj,rj)为样本xj的真实姿态标注,为网络估计的姿态标注。
其中,网络姿态估计的损失为所有正样本欧几里得损失的平均值。
最后,就可以依据所述第二欧几里得损失或者所有正样本欧几里得损失的平均值来对所述卷积神经网络模型的所述姿态估计网络的参数以及所述不同层级网络的参数进行调整,以训练所述姿态估计网络和所述不同层级网络。
其中,所述人脸检测网络和所述姿态估计网络为并行网络。
综上,在对卷积神经网络模型进行训练时,整个网络的参数是由上述各种损失联合训练得到的,其中,每个损失用于训练网络结构中产生该损失的过程中所使用的所有网络。
其中,经过图2的训练流程后,卷积神经网络模型的总损失为如公式7所示的各损失的加权和:
其中,
而各个损失的权重,在训练模型之前已经设定好,在本例中,各个权重为:
λinter=0.1,λdet=1.0,λbbox_reg=0.5,λpose=0.5.
借助于本发明上述实施例的技术方案,本发明实施例通过在卷积神经网络模型的中间层增加分类网络,能够利用分类损失对各个中间层的卷积参数和下采样参数进行调整,以训练各中间层;并通过设置全连接层可以将各个中间层的特征向量进行连接和融合,以用于后续的人脸检测和姿态估计,能够对卷积神经网络进行人脸检测和姿态估计的并行训练,提高训练速度同时还能训练各个中间层级网络。
第三实施例
在上述实施例的基础上,下面结合图4继续论述本发明实施例的人脸检测方法。
为了检测到不同大小的人脸,在一个实施例中,在执行步骤101之前,还可以对待测人脸图像生成人脸金字塔,具体包括:采用图像金字塔方法对待测人脸图像作缩放处理,得到属于同一原图的不同尺寸的多个待测人脸图像;将所述多个待测人脸图像依次输入至预先经过训练的卷积神经网络模型进行人脸检测。
在本例中,可以将一个如图5A所示的待测图像放大到6倍,由于训练样本大小为224×224,此时最小可以检测到37×37大小的人脸,之后再将放大后的图像逐步缩小,直到图像的短边大于等于224,本例中的放缩系数设为得到如图5B所示的图像金字塔,即,属于同一原图的不同尺寸的多个待测人脸图像。
然后,在进行人脸检测时,就可以将所述多个待测人脸图像依次输入至经过第二实施例描述的训练后的卷积神经网络模型进行人脸检测。
另外,在一个可选的实施例中,参照图4,在执行步骤101之前,对于训练过程图3所用的5个分类网络ip1_2,ip2_2,ip3_2,ip4_2,ip2_2可以去掉,而只保留ip1_1~ip5_1;此外,还可以将图3所示不同层级网络中的5个全连接层ip1_1~ip5_1分别转换成全卷积层,卷积核的大小和步长如图4所示,例如,fc_conv(112,64)表示卷积核大小为112,步长为16。
在完成了全卷积层的转换以及生成图像金字塔后,就可以执行第一实施例中的步骤101~步骤105,具体参照第一实施例,在此不再对每个步骤进行详细阐述。
具体而言,可以将如图5B所示的图像金字塔中的每一幅图像依次输入至经如图4所示的卷积神经网络模型,参照图4,图4中的各层含义与图3中的含义相同,具体参照表1,在此不再赘述。
这样,每一幅金字塔图形(input image)输入至卷积神经网络模型后,分别向前计算,得到各中间层的特征feaipt_1,t=1,2,...5;
然后,将各中间层的特征融合(feature fusion),连接在一起,得到一个三维的特征feaconcat_all(维度为1472)。
假设某尺度下卷积神经网络模型的输入图像(即input image)记为F,大小为M×N,那么最终得到的feaconcat_all的维数为:
接着,融合后的特征再通过两个全卷积层进行降维,就可以得到2个维度相同的人脸特征向量:
两个维度为512的人脸特征向量分别用于人脸检测和姿态估计,在对人脸特征向量作人脸检测处理后,可以得到人脸检测结果。
具体而言,在执行步骤104时,可以通过以下方式来实现:
对上述两个维度512的人脸特征向量中的一个人脸特征向量作人脸检测处理,可以得到人脸分类的响应图和检测框回归的响应图,其中,人脸分类的响应图中的每一个点对应输入的待测人脸图像中的一个224x224的检测窗口,且所述人脸分类的响应图中的数值表示该检测窗口为人脸的概率(即置信度,即公式2中的pi);然后,可以在人脸分类的响应图中确定高于预设阈值的点所对应的目标检测窗口;接着,按照输入的所述待测人脸图像的缩放尺寸,对所述目标检测窗口进行缩放;将缩放处理后的所述目标检测窗口在原图中所对应的图像确定为人脸区域;
这样就可以得到某一个尺寸的待测人脸图像(一个尺寸的人脸金字塔图像)的人脸区域,然后还需要确定该人脸区域的位置,因此,在执行步骤104时,还需要确定所述检测框回归的响应图中对应所述目标检测窗口的回归结果(即目标检测窗口的微调至包含人脸区域的坐标位置),所述回归结果为所述目标检测窗口在原图中的坐标;最后,根据所述回归结果确定所述人脸区域的位置。
同时在执行步骤105,对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果时,可以得到姿态估计的响应图,然后依据该姿态估计的响应图来确定步骤104中所检测到的人脸区域的姿态情况(例如上下翻转角度、左右翻转角度和平面内旋转的角度)。
那么,经过上述流程,就可以得到图5B所示的图像金字塔中一个尺寸的待测人脸图像的人脸检测结果和姿态估计结果;
然后,需要继续依次将其他尺寸的图像金字塔中的待测人脸图像输入至图4所示的模型进行人脸检测和姿态估计,流程类似于第一个输入的待测人脸图像的检测流程,在此不再赘述。
这样就可以得到针对同一个原图检测到的不同尺寸的人脸检测结果和姿态估计结果;
可选地,在一个实施例中,为了消除多余的检测窗口,找到最佳的人脸检测位置,提高检测窗口位置的准确性,根据本发明实施例的检测方法还可以包括:将所述不同尺寸的多个待测人脸图像所分别对应的目标检测窗口聚类,构成窗口集合;确定所述窗口集合中数值最大的目标检测窗口;将所述窗口集合中与所述数值最大的目标检测窗口的重叠程度大于预设重叠阈值的目标检测窗口删除;对经过删除操作的所述窗口集合循环执行所述确定所述窗口集合中数值最大的目标检测窗口的步骤以及删除重叠程度大于第一预设重叠阈值的目标检测窗口的步骤,直至所述窗口集合中剩下一个数值最大的目标检测窗口。
换句话说,每个尺寸的图像金字塔图像在经过图4所示的模型进行处理后,都会得到一个包含人脸的检测窗口(即目标检测窗口),这里可以将这些检测窗口聚集在一起,构成一个窗口集合;然后,在窗口集合中找到置信度最大的检测窗口;接着,将窗口结合中所有与置信度最大的检测窗口的IOU(参照公式1)大于预设重叠阈值的检测窗口删除。然后,在从窗口集合中剩余的检测窗口中找出置信度最大的检测窗口,重复上述过程,直至所述窗口集合中剩下一个数值最大的目标检测窗口。
可选地,在另一个实施例中,为了消除多余的检测窗口,找到最佳的人脸检测位置,提高检测窗口位置的准确性,根据本发明实施例的检测方法还可以包括:将所述不同尺寸的多个待测人脸图像所分别对应的目标检测窗口聚类,构成窗口集合;确定所述窗口集合中数值最大的目标检测窗口;将所述窗口集合中与所述数值最大的目标检测窗口的重叠程度大于第二预设重叠阈值的目标检测窗口重新聚类;计算重新聚类的各个目标检测窗口在原图中的坐标的平均坐标;根据所述平均坐标确定最终检测窗口;将重新聚类的各个目标检测窗口在人脸分类的响应图中数值的平均值确定为所述最终检测窗口在人脸分类的响应图中的数值。
换句话说,每个尺寸的图像金字塔图像在经过图4所示的模型进行处理后,都会得到一个包含人脸的检测窗口(即目标检测窗口),这里可以将这些检测窗口聚集在一起,构成一个窗口集合;然后,在窗口集合中找到置信度最大的检测窗口;然后,将窗口集合中所有与该置信度最高的检测窗口的IOU大于第二重叠阈值的检测窗口重新聚为一类;将重新聚类中所有检测窗口在原图中的坐标位置作平均数,得到平均坐标;根据该平均坐标可以得到新的检测窗口,将重新聚类的所有检测窗口的置信度的平均值作为该新的检测窗口的置信度,即可以将重新聚类的各个目标检测窗口在人脸分类的响应图中数值的平均值确定为所述最终检测窗口在人脸分类的响应图中的数值。
借助于本发明实施例的上述技术方案,可以对需要检测的一个原图,检测得到对应该同一原图的不同尺寸的人脸图像,提高了检测到的人脸图像的可用性;另外,只需用户提供一张待测图像,即可实现多种尺寸的人脸检测结果,提高了人脸图像的检测效率,无需用户输入多张尺寸的待测图像。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
与上述本发明实施例所提供的方法相对应,参照图6,示出了本发明一种人脸检测装置实施例的结构框图,具体可以包括如下模块:
提取模块601,用于采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
融合模块602,用于将所述多个人脸特征向量融合成一个人脸特征向量;
降维模块603,用于对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量;
人脸检测模块604,用于对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果;
姿态估计模块605,用于同时对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果。
可选地,所述装置还包括如下未示出的模块以及子模块:
剪裁模块,用于选用包含人脸标注的人脸数据集作为训练样本,对所述训练样本中的训练图像进行剪裁;
确定样本模块,用于根据剪裁得到的图像与真实人脸标注的重叠程度,确定所述训练样本中的正样本和负样本;
输入样本模块,用于将所述正样本和所述负样本按照预设比例输入至所述卷积神经网络模型以对所述卷积神经网络模型进行训练。
可选地,所述装置还包括:
中间损失训练模块,用于采用中间损失训练所述卷积神经网络模型的不同层级网络;
人脸检测损失训练模块,用于采用人脸检测的损失训练所述卷积神经网络模型的人脸检测网络以及所述不同层级网络;
姿态估计损失训练模块,用于采用姿态估计的损失训练所述卷积神经网络模型的姿态估计网络以及所述不同层级网络;
其中,所述人脸检测网络和所述姿态估计网络为并行网络。
可选地,所述中间损失训练模块包括:
提取子模块,用于采用所述卷积神经网络模型的不同层级网络对输入的训练样本提取不同层级的多个多维度的人脸特征向量;
降维子模块,用于采用所述卷积神经网络模型的不同层级网络中的多个全连接层,对所述多个多维度的人脸特征向量进行降维,得到对应不同层级网络的多个一维人脸特征向量;
分类子模块,用于采用所述卷积神经网络模型的不同层级网络中的多个第一分类网络对所述的多个一维人脸特征向量分别作人脸分类,得到多个人脸分类结果,所述人脸分类结果为输入的训练样本为人脸的概率;
计算中间损失子模块,用于采用分类损失函数对所述多个人脸分类结果分别进行计算,得到所述多个第一分类网络的多个中间损失;
中间损失训练子模块,用于依据每个中间损失对产生所述中间损失的所有层级网络的参数进行调整,以训练所述不同层级网络。
可选地,所述装置还包括:
训练提取模块,用于采用未经过训练的卷积神经网络模型对训练样本提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
训练融合模块,用于将未经过训练的卷积神经网络模型得到的所述多个人脸特征向量融合成一个人脸特征向量;
降维增加全连接模块,用于通过在所述卷积神经网络模型中增加两个全连接层,对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量。
可选地,所述人脸检测损失训练模块包括:
人脸分类子模块,用于采用所述人脸检测网络的第二分类网络对所述两个人脸特征向量中的一个人脸特征向量作人脸分类,得到人脸分类结果,所述人脸分类结果为输入的训练样本为人脸的概率;
计算分类损失子模块,用于采用分类损失函数对所述人脸分类结果进行计算,得到所述分类网络的分类损失;
分类损失训练子模块,用于采用所述分类损失训练所述卷积神经网络模型的所述人脸检测网络的所述第二分类网络;
计算坐标子模块,用于计算作人脸分类的所述人脸特征向量的检测框的目标坐标值;
第一计算欧几里得损失子模块,用于计算所述目标坐标值的第一欧几里得损失;
人脸检测损失训练子模块,用于依据所述第一欧几里得损失对所述卷积神经网络模型的所述人脸检测网络的所述检测框的回归目标进行训练以及所述不同层级网络的参数进行调整,以训练所述人脸检测网络和所述不同层级网络。
可选地,所述姿态估计损失训练模块包括:
姿态估计子模块,用于对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果,其中,所述姿态估计结果包括不同类型的角度姿态标注;
第二计算欧几里得损失子模块,用于计算正样本的真实角度姿态标注与所述姿态估计结果之间的第二欧几里得损失;
姿态估计损失训练子模块,用于依据所述第二欧几里得损失对所述卷积神经网络模型的所述姿态估计网络的参数以及所述不同层级网络的参数进行调整,以训练所述姿态估计网络和所述不同层级网络。
借助于本发明上述实施例的技术方案,本发明实施例通过将不同层级的特征融合,可以使用于人脸检测和姿态估计的特征对图像的描述更加丰富,准确度更高,降低后续人脸检测的失误率;而且,通过将融合后的特征同时用于人脸检测和姿态估计,这样不仅可以同时执行多个相关的任务,而且还可以提升单个任务的性能。提高任务处理效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种人脸检测方法和一种人脸检测装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种人脸检测方法,其特征在于,所述方法包括:
采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
将所述多个人脸特征向量融合成一个人脸特征向量;
对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量;
对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果;
同时对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果。
2.根据权利要求1所述的方法,其特征在于,所述采用预经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量的步骤之前,所述方法还包括:
将预先经过训练的卷积神经网络模型中不同层级网络中的多个全连接层转换为多个全卷积层。
3.根据权利要求1所述的方法,其特征在于,对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果的步骤,包括:
对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸分类的响应图和检测框回归的响应图,其中,人脸分类的响应图中的每一个点对应输入的待测人脸图像中的一个检测窗口,且所述人脸分类的响应图中的数值表示该检测窗口为人脸的概率;
确定所述人脸分类的响应图中数值高于预设阈值的点所对应的目标检测窗口;
按照输入的所述待测人脸图像的缩放尺寸,对所述目标检测窗口进行缩放;
将缩放处理后的所述目标检测窗口在原图中所对应的图像确定为人脸区域;
确定所述检测框回归的响应图中对应所述目标检测窗口的回归结果,所述回归结果为所述目标检测窗口在原图中的坐标;
根据所述回归结果确定所述人脸区域的位置。
4.根据权利要求3所述的方法,其特征在于,所述对所述两个人脸特征向量执行人脸检测处理以及姿态估计处理的步骤之后,所述方法还包括:
将所述不同尺寸的多个待测人脸图像所分别对应的目标检测窗口聚类,构成窗口集合;
确定所述窗口集合中数值最大的目标检测窗口;
将所述窗口集合中与所述数值最大的目标检测窗口的重叠程度大于第一预设重叠阈值的目标检测窗口删除;
对经过删除操作的所述窗口集合循环执行所述确定所述窗口集合中数值最大的目标检测窗口的步骤以及删除重叠程度大于第一预设重叠阈值的目标检测窗口的步骤,直至所述窗口集合中剩下一个数值最大的目标检测窗口。
5.根据权利要求3所述的方法,其特征在于,所述对所述两个人脸特征向量执行人脸检测处理以及姿态估计处理的步骤之后,所述方法还包括:
将所述不同尺寸的多个待测人脸图像所分别对应的目标检测窗口聚类,构成窗口集合;
确定所述窗口集合中数值最大的目标检测窗口;
将所述窗口集合中与所述数值最大的目标检测窗口的重叠程度大于第二预设重叠阈值的目标检测窗口重新聚类;
计算重新聚类的各个目标检测窗口在原图中的坐标的平均坐标;
根据所述平均坐标确定最终检测窗口;
将重新聚类的各个目标检测窗口在人脸分类的响应图中数值的平均值确定为所述最终检测窗口在人脸分类的响应图中的数值。
6.根据权利要求1所述的方法,其特征在于,所述采用经过训练的卷积神经网络模型对待测人脸图像提取不同层级的多个人脸特征,得到对应不同层级网络的多个人脸特征向量的步骤之前,所述方法还包括:
选用包含人脸标注的人脸数据集作为训练样本,对所述训练样本中的训练图像进行剪裁;
根据剪裁得到的图像与真实人脸标注的重叠程度,确定所述训练样本中的正样本和负样本;
将所述正样本和所述负样本按照预设比例输入至所述卷积神经网络模型以对所述卷积神经网络模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量的步骤之前,所述方法还包括:
采用中间损失训练所述卷积神经网络模型的不同层级网络;
采用人脸检测的损失训练所述卷积神经网络模型的人脸检测网络以及所述不同层级网络;
采用姿态估计的损失训练所述卷积神经网络模型的姿态估计网络以及所述不同层级网络;
其中,所述人脸检测网络和所述姿态估计网络为并行网络。
8.根据权利要求7所述的方法,其特征在于,所述采用中间损失训练所述卷积神经网络模型的不同层级网络的步骤包括:
采用所述卷积神经网络模型的不同层级网络对输入的训练样本提取不同层级的多个多维度的人脸特征向量;
采用所述卷积神经网络模型的不同层级网络中的多个全连接层,对所述多个多维度的人脸特征向量进行降维,得到对应不同层级网络的多个一维人脸特征向量;
采用所述卷积神经网络模型的不同层级网络中的多个第一分类网络对所述的多个一维人脸特征向量分别作人脸分类,得到多个人脸分类结果,所述人脸分类结果为输入的训练样本为人脸的概率;
采用分类损失函数对所述多个人脸分类结果分别进行计算,得到所述多个第一分类网络的多个中间损失;
依据每个中间损失对产生所述中间损失的所有层级网络的参数进行调整,以训练所述不同层级网络。
9.根据权利要求7所述的方法,其特征在于,所述采用人脸检测的损失训练所述卷积神经网络模型的人脸检测网络以及所述不同层级网络的步骤之前,所述方法还包括:
采用未经过训练的卷积神经网络模型对训练样本提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
将未经过训练的卷积神经网络模型得到的所述多个人脸特征向量融合成一个人脸特征向量;
通过在所述卷积神经网络模型中增加两个全连接层,对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量。
10.根据权利要求9所述的方法,其特征在于,所述采用人脸检测的损失训练所述卷积神经网络模型的人脸检测网络以及所述不同层级网络的步骤,包括:
采用所述人脸检测网络的第二分类网络对所述两个人脸特征向量中的一个人脸特征向量作人脸分类,得到人脸分类结果,所述人脸分类结果为输入的训练样本为人脸的概率;
采用分类损失函数对所述人脸分类结果进行计算,得到所述分类网络的分类损失;
采用所述分类损失训练所述卷积神经网络模型的所述人脸检测网络的所述第二分类网络;
计算作人脸分类的所述人脸特征向量的检测框的目标坐标值;
计算所述目标坐标值的第一欧几里得损失;
依据所述第一欧几里得损失对所述卷积神经网络模型的所述人脸检测网络的所述检测框的回归目标进行训练以及所述不同层级网络的参数进行调整,以训练所述人脸检测网络和所述不同层级网络。
11.根据权利要求9所述的方法,其特征在于,所述采用姿态估计的损失训练所述卷积神经网络模型的姿态估计网络以及所述不同层级网络的步骤,包括:
对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果,其中,所述姿态估计结果包括不同类型的角度姿态标注;
计算正样本的真实角度姿态标注与所述姿态估计结果之间的第二欧几里得损失;
依据所述第二欧几里得损失对所述卷积神经网络模型的所述姿态估计网络的参数以及所述不同层级网络的参数进行调整,以训练所述姿态估计网络和所述不同层级网络。
12.一种人脸检测装置,其特征在于,所述装置包括:
提取模块,用于采用预先经过训练的卷积神经网络模型对待测人脸图像提取不同层级网络的多个人脸特征,得到对应不同层级网络的多个人脸特征向量;
融合模块,用于将所述多个人脸特征向量融合成一个人脸特征向量;
降维模块,用于对融合处理后的人脸特征向量作降维处理,得到维度相同的两个人脸特征向量;
人脸检测模块,用于对所述两个人脸特征向量中的一个人脸特征向量作人脸检测处理,得到人脸检测结果;
姿态估计模块,用于同时对所述两个人脸特征向量中的另一个人脸特征向量作姿态估计处理,得到姿态估计结果。
CN201610852174.XA 2016-09-26 2016-09-26 人脸检测方法和装置 Active CN107871106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610852174.XA CN107871106B (zh) 2016-09-26 2016-09-26 人脸检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610852174.XA CN107871106B (zh) 2016-09-26 2016-09-26 人脸检测方法和装置

Publications (2)

Publication Number Publication Date
CN107871106A true CN107871106A (zh) 2018-04-03
CN107871106B CN107871106B (zh) 2021-07-06

Family

ID=61751856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610852174.XA Active CN107871106B (zh) 2016-09-26 2016-09-26 人脸检测方法和装置

Country Status (1)

Country Link
CN (1) CN107871106B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446688A (zh) * 2018-05-28 2018-08-24 北京达佳互联信息技术有限公司 人脸图像性别判断方法、装置、计算机设备及存储介质
CN108596087A (zh) * 2018-04-23 2018-09-28 合肥湛达智能科技有限公司 一种基于双网络结果的驾驶疲劳程度检测回归模型
CN108920999A (zh) * 2018-04-16 2018-11-30 深圳市深网视界科技有限公司 一种头部角度预测模型训练方法、预测方法、设备和介质
CN109194927A (zh) * 2018-10-19 2019-01-11 天津天地基业科技有限公司 基于深度学习的车载目标追踪云台相机设备
CN109598212A (zh) * 2018-11-20 2019-04-09 北京知道创宇信息技术有限公司 一种人脸检测方法及装置
CN109711358A (zh) * 2018-12-28 2019-05-03 四川远鉴科技有限公司 神经网络训练方法、人脸识别方法及***和存储介质
CN109799905A (zh) * 2018-12-28 2019-05-24 深圳云天励飞技术有限公司 一种手部跟踪方法和广告机
CN109815814A (zh) * 2018-12-21 2019-05-28 天津大学 一种基于卷积神经网络的人脸检测方法
CN109829997A (zh) * 2018-12-19 2019-05-31 新大陆数字技术股份有限公司 人员考勤方法及***
CN109858552A (zh) * 2019-01-31 2019-06-07 深兰科技(上海)有限公司 一种用于细粒度分类的目标检测方法及设备
CN110059804A (zh) * 2019-04-15 2019-07-26 北京迈格威科技有限公司 待搜索网络训练方法、数据处理方法及装置
CN110309841A (zh) * 2018-09-28 2019-10-08 浙江农林大学 一种基于深度学习的山核桃常见害虫识别方法
CN110335248A (zh) * 2019-05-31 2019-10-15 上海联影智能医疗科技有限公司 医学图像病灶检测方法、装置、计算机设备和存储介质
CN110458005A (zh) * 2019-07-02 2019-11-15 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法
CN110472570A (zh) * 2019-08-14 2019-11-19 旭辉卓越健康信息科技有限公司 一种基于自适应权重的人脸识别多路径深度神经网络方法
CN110555354A (zh) * 2018-05-31 2019-12-10 北京深鉴智能科技有限公司 特征筛选方法和装置、目标检测方法和设备、电子设备及存储介质
CN111062995A (zh) * 2019-11-28 2020-04-24 重庆中星微人工智能芯片技术有限公司 生成人脸图像的方法、装置、电子设备和计算机可读介质
CN111260692A (zh) * 2020-01-20 2020-06-09 厦门美图之家科技有限公司 人脸跟踪方法、装置、设备及存储介质
CN111274994A (zh) * 2020-02-13 2020-06-12 腾讯科技(深圳)有限公司 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112133311A (zh) * 2020-09-18 2020-12-25 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质
CN112906446A (zh) * 2019-12-04 2021-06-04 深圳云天励飞技术有限公司 人脸检测方法、装置、电子设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095833B (zh) * 2014-05-08 2019-03-15 中国科学院声学研究所 用于人脸识别的网络构建方法、识别方法及***
CN106575367B (zh) * 2014-08-21 2018-11-06 北京市商汤科技开发有限公司 用于基于多任务的人脸关键点检测的方法和***
US20160259980A1 (en) * 2015-03-03 2016-09-08 Umm Al-Qura University Systems and methodologies for performing intelligent perception based real-time counting
CN105488468B (zh) * 2015-11-26 2019-10-18 浙江宇视科技有限公司 一种目标区域的定位方法和装置
CN105760488B (zh) * 2016-02-17 2020-06-16 北京大学 基于多层次特征融合的图像表达方法和装置
CN105574215B (zh) * 2016-03-04 2019-11-12 哈尔滨工业大学深圳研究生院 一种基于多层特征表示的实例级图像搜索方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920999A (zh) * 2018-04-16 2018-11-30 深圳市深网视界科技有限公司 一种头部角度预测模型训练方法、预测方法、设备和介质
CN108596087A (zh) * 2018-04-23 2018-09-28 合肥湛达智能科技有限公司 一种基于双网络结果的驾驶疲劳程度检测回归模型
CN108596087B (zh) * 2018-04-23 2020-09-15 合肥湛达智能科技有限公司 一种基于双网络结果的驾驶疲劳程度检测回归模型
CN108446688B (zh) * 2018-05-28 2020-01-07 北京达佳互联信息技术有限公司 人脸图像性别判断方法、装置、计算机设备及存储介质
CN108446688A (zh) * 2018-05-28 2018-08-24 北京达佳互联信息技术有限公司 人脸图像性别判断方法、装置、计算机设备及存储介质
CN110555354A (zh) * 2018-05-31 2019-12-10 北京深鉴智能科技有限公司 特征筛选方法和装置、目标检测方法和设备、电子设备及存储介质
CN110309841A (zh) * 2018-09-28 2019-10-08 浙江农林大学 一种基于深度学习的山核桃常见害虫识别方法
CN109194927A (zh) * 2018-10-19 2019-01-11 天津天地基业科技有限公司 基于深度学习的车载目标追踪云台相机设备
CN109598212A (zh) * 2018-11-20 2019-04-09 北京知道创宇信息技术有限公司 一种人脸检测方法及装置
CN109829997A (zh) * 2018-12-19 2019-05-31 新大陆数字技术股份有限公司 人员考勤方法及***
CN109815814A (zh) * 2018-12-21 2019-05-28 天津大学 一种基于卷积神经网络的人脸检测方法
CN109815814B (zh) * 2018-12-21 2023-01-24 天津大学 一种基于卷积神经网络的人脸检测方法
CN109711358B (zh) * 2018-12-28 2020-09-04 北京远鉴信息技术有限公司 神经网络训练方法、人脸识别方法及***和存储介质
CN109799905A (zh) * 2018-12-28 2019-05-24 深圳云天励飞技术有限公司 一种手部跟踪方法和广告机
CN109711358A (zh) * 2018-12-28 2019-05-03 四川远鉴科技有限公司 神经网络训练方法、人脸识别方法及***和存储介质
CN109858552A (zh) * 2019-01-31 2019-06-07 深兰科技(上海)有限公司 一种用于细粒度分类的目标检测方法及设备
CN109858552B (zh) * 2019-01-31 2021-01-26 深兰科技(上海)有限公司 一种用于细粒度分类的目标检测方法及设备
CN110059804A (zh) * 2019-04-15 2019-07-26 北京迈格威科技有限公司 待搜索网络训练方法、数据处理方法及装置
CN110335248A (zh) * 2019-05-31 2019-10-15 上海联影智能医疗科技有限公司 医学图像病灶检测方法、装置、计算机设备和存储介质
CN110335248B (zh) * 2019-05-31 2021-08-17 上海联影智能医疗科技有限公司 医学图像病灶检测方法、装置、计算机设备和存储介质
CN110458005B (zh) * 2019-07-02 2022-12-27 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法
CN110458005A (zh) * 2019-07-02 2019-11-15 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法
CN110472570A (zh) * 2019-08-14 2019-11-19 旭辉卓越健康信息科技有限公司 一种基于自适应权重的人脸识别多路径深度神经网络方法
CN111062995A (zh) * 2019-11-28 2020-04-24 重庆中星微人工智能芯片技术有限公司 生成人脸图像的方法、装置、电子设备和计算机可读介质
CN111062995B (zh) * 2019-11-28 2024-02-23 重庆中星微人工智能芯片技术有限公司 生成人脸图像的方法、装置、电子设备和计算机可读介质
CN112906446A (zh) * 2019-12-04 2021-06-04 深圳云天励飞技术有限公司 人脸检测方法、装置、电子设备及计算机可读存储介质
CN111260692A (zh) * 2020-01-20 2020-06-09 厦门美图之家科技有限公司 人脸跟踪方法、装置、设备及存储介质
CN111274994A (zh) * 2020-02-13 2020-06-12 腾讯科技(深圳)有限公司 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN111274994B (zh) * 2020-02-13 2022-08-23 腾讯科技(深圳)有限公司 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN111950515B (zh) * 2020-08-26 2022-10-18 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN111950515A (zh) * 2020-08-26 2020-11-17 重庆邮电大学 一种基于语义特征金字塔网络的小人脸检测方法
CN112133311B (zh) * 2020-09-18 2023-01-17 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质
CN112133311A (zh) * 2020-09-18 2020-12-25 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质

Also Published As

Publication number Publication date
CN107871106B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN107871106A (zh) 人脸检测方法和装置
CN111291739B (zh) 面部检测、图像检测神经网络训练方法、装置和设备
JP5227639B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
CN109410242A (zh) 基于双流卷积神经网络的目标跟踪方法、***、设备及介质
WO2022252274A1 (zh) 基于PointNet网络点云分割及虚拟环境生成方法和装置
CN103729885B (zh) 多视角投影与三维注册联合的手绘场景三维建模方法
CN110287880A (zh) 一种基于深度学习的姿态鲁棒性人脸识别方法
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN105574510A (zh) 一种步态识别方法及装置
KR102252439B1 (ko) 이미지에서 오브젝트 검출 및 표현
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及***
CN110399809A (zh) 多特征融合的人脸关键点检测方法及装置
CN106407958A (zh) 基于双层级联的面部特征检测方法
Cheng et al. Augmented reality dynamic image recognition technology based on deep learning algorithm
CN114036969B (zh) 一种多视角情况下的3d人体动作识别算法
CN112489119A (zh) 一种增强可靠性的单目视觉定位方法
CN111027586A (zh) 一种基于新型响应图融合的目标跟踪方法
CN110263855A (zh) 一种利用共基胶囊投影进行图像分类的方法
CN104732247B (zh) 一种人脸特征定位方法
CN108073883A (zh) 大规模人群属性识别方法及装置
Saabni Facial expression recognition using multi Radial Bases Function Networks and 2-D Gabor filters
Wu et al. Deep texture exemplar extraction based on trimmed T-CNN
Mosella-Montoro et al. Residual attention graph convolutional network for geometric 3D scene classification
Wang et al. Intelligent sports feature recognition system based on texture feature extraction and SVM parameter selection
Visalatchi et al. Intelligent Vision with TensorFlow using Neural Network Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 071800 Beijing Tianjin talent home (Xincheng community), West District, Xiongxian Economic Development Zone, Baoding City, Hebei Province

Patentee after: BEIJING EYECOOL TECHNOLOGY Co.,Ltd.

Address before: 100085 20 / F, building 4, yard 1, shangdishi street, Haidian District, Beijing 2013

Patentee before: BEIJING EYECOOL TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221101

Address after: 071800 Beijing Tianjin talent home (Xincheng community), West District, Xiongxian Economic Development Zone, Baoding City, Hebei Province

Patentee after: BEIJING EYECOOL TECHNOLOGY Co.,Ltd.

Patentee after: Beijing Eyes Intelligent Technology Co.,Ltd.

Patentee after: SHENZHEN AIKU SMART TECHNOLOGY CO.,LTD.

Address before: 071800 Beijing Tianjin talent home (Xincheng community), West District, Xiongxian Economic Development Zone, Baoding City, Hebei Province

Patentee before: BEIJING EYECOOL TECHNOLOGY Co.,Ltd.