CN107871102A

CN107871102A - 一种人脸检测方法及装置

Info

Publication number: CN107871102A
Application number: CN201610849655.5A
Authority: CN
Inventors: 宋丽; 段旭; 张祥德
Original assignee: Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyecool Technology Co Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2018-04-03

Abstract

本发明提供一种人脸检测方法和装置，该方法包括：将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口；将第M‑1人脸候选窗口的规模调整为第M卷积神经网络的规模后输入第M卷积神经网络，第M卷积神经网络检测第M‑1人脸候选窗口的人脸区域，在检测到的人脸区域标注第M人脸候选窗口，M＝2、3、……、N，N≥3；采用全局非极大值抑制的方法将第N人脸候选窗口和第N‑1人脸候选窗口合并为人脸精选窗口；其中，第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联。本发明还提供另一种人脸检测方法和装置。该方法和装置可精准高效地检测人脸区域。

Description

一种人脸检测方法及装置

技术领域

本发明涉及人脸检测技术领域，特别是涉及一种人脸检测方法及装置。

背景技术

随着人工智能以及信息技术的飞速发展，人机交互、信息安全等方面的问题体现了计算机视觉的重要性。利用计算机与用户之间的交互模拟人与人之间的“沟通”，这个已经成为技术发展急需解决的关键问题。人脸检测是其中的一种基本技术，也是人机交互中许多人脸分析问题的关键步骤。

人脸检测是针对给出任意一幅图像，利用检测算法判断其是否含有人脸，若有，判断图像中人脸的位置、大小和姿态等信息。相比于其他的生物特征检测技术，具有友好，方便等特点。人脸检测的应用不仅局限在人脸识别***内，而且在图像检索、视频处理与监测等方面也有着重要的应用价值。人脸检测技术近年来一直是众多科研和商业机构的研究热点。

人脸检测容易受到肤色、表情、遮挡、光照等影响。同时由于人脸检测技术在广泛地实际应用中必须解决上述人脸多样性和多变性以及背景的复杂性的影响以提高检测速度和精度，因此人脸检测技术受到了更多的关注。

早期的人脸检测可分为四大类方法：基于先验知识、基于特征不变、模板匹配、基于统计理论。但是早期的人脸识别研究主要针对具有较强约束条件的人脸图像(如无背景的图像)，往往假设人脸位置已知或很容易获得，此种情况下人脸检测尚未被重视起来。基于统计理论的方法是当前比较流行的方法，其能有效地解决复杂背景下的人脸检测问题，直到Viola and Jones提出的Adaboost级联的方法，首次实现了实时人脸检测，使其实际生活中的应用具有了可行性，如数码相机。近年来，计算机硬件水平的提升，对数据的存储和分析能力不断增强，深度学习方法在人脸检测中的应用，使得一批新的人脸检测算法被提出。因此，现有技术中人脸检测方法大体分为：传统人脸检测方法和基于Region Proposal的深度学习算法。

其中，传统人脸检测方法首先在给定的图像上采用滑动窗口的策略以不同的尺度、长宽比对整幅图像进行遍历，选择一些候选的区域，然后对这些区域提取SIFT，HOG等特征，最后使用训练的SVM，Adaboost等分类器进行分类。但是，这种方法中，基于滑动窗口的区域选择策略没有针对性，时间复杂度高，产生大量冗余的窗口。面对人脸的多样性和多变性以及背景的复杂性等因素时，人工设计的特征对于这类变化并没有很好的鲁棒性。

其中，基于Region Proposal的深度学习算法，首先根据Region Proposal预先找到图像中人脸可能出现的位置，在保证高召回率的同时选取少量的窗口。然后用卷积神经网络CNN对候选区域进行检测，实际上是特征提取和二分类的过程。主要思想是利用某种方法产生高质量的人脸预选窗口，再对预选窗口进行分类。但是，这种方法的训练步骤繁琐，占用空间大，处理图像速度较慢。

发明内容

本发明实施例提供一种人脸检测方法，以解决现有技术中的人脸检测方法效率低，精准性低的问题。

本发明实施例提供一种人脸检测装置，以解决现有技术中的人脸检测装置检测人脸区域的效率低，精准性低的问题。

第一方面，提供一种人脸检测方法，包括：将待检测图像输入第一卷积神经网络，所述第一卷积神经网络检测所述待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口；将所述第M-1人脸候选窗口的规模调整为第M卷积神经网络的规模后输入所述第M卷积神经网络，所述第M卷积神经网络检测所述第M-1人脸候选窗口的人脸区域，在检测到的人脸区域标注第M人脸候选窗口，其中，M＝2、3、……、N，N≥3；采用全局非极大值抑制的方法将所述第N人脸候选窗口和第N-1人脸候选窗口合并为人脸精选窗口；其中，所述第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联。

第二方面，提供一种人脸检测方法，包括：将待检测图像输入第一卷积神经网络，所述第一卷积神经网络检测所述待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口；将所述待检测图像分解为多个第M人脸候选窗口，并将所述第M人脸候选窗口输入所述第M卷积神经网络，所述第M卷积神经网络检测每一所述第M人脸候选窗口是否为人脸窗口，其中，所述第M人脸候选窗口的规模为所述第M卷积神经网络的规模，其中，M＝2、3、……、N-1，N≥3；采用全局非极大值抑制的方法将检测为人脸窗口的所述第一人脸候选窗口到所述第N-1人脸候选窗口合并得到第N人脸候选窗口；将所述第N人脸候选窗口的规模调整为第N卷积神经网络的规模后输入所述第N卷积神经网络，所述第N卷积神经网络检测所述第N人脸候选窗口的人脸区域，在检测到的人脸区域标注人脸精选窗口；其中，所述第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络。

第三方面，提供一种人脸检测装置，包括：第一人脸候选窗口标注模块，用于将待检测图像输入第一卷积神经网络，所述第一卷积神经网络检测所述待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口；第M-1人脸候选窗口标注模块，用于将所述第M-1人脸候选窗口的规模调整为第M卷积神经网络的规模后输入所述第M卷积神经网络，所述第M卷积神经网络检测所述第M-1人脸候选窗口的人脸区域，在检测到的人脸区域标注第M人脸候选窗口，其中，M＝2、3、……、N，N≥3；人脸精选窗口标注模块，用于采用全局非极大值抑制的方法将所述第N人脸候选窗口和第N-1人脸候选窗口合并为人脸精选窗口；其中，所述第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联。

第四方面，提供一种人脸检测装置，包括：第一人脸候选窗口标注模块，用于将待检测图像输入第一卷积神经网络，所述第一卷积神经网络检测所述待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口；第M人脸候选窗口标注模块，用于将所述待检测图像分解为多个第M人脸候选窗口，并将所述第M人脸候选窗口输入所述第M卷积神经网络，所述第M卷积神经网络检测每一所述第M人脸候选窗口是否为人脸窗口，其中，所述第M人脸候选窗口的规模为所述第M卷积神经网络的规模，其中，M＝2、3、……、N-1，N≥3；第N人脸候选窗口合并模块，用于采用全局非极大值抑制的方法将检测为人脸窗口的所述第一人脸候选窗口到所述第N-1人脸候选窗口合并得到第N人脸候选窗口；人脸精选窗口标注模块，用于将所述第N人脸候选窗口的规模调整为第N卷积神经网络的规模后输入所述第N卷积神经网络，所述第N卷积神经网络检测所述第N人脸候选窗口的人脸区域，在检测到的人脸区域标注人脸精选窗口；其中，所述第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络。

本发明实施例的一种检测方法和装置中，第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联，通过各卷积神经网络依次检测人脸区域，逐级筛选人脸候选窗口，可在筛选后的窗口中检测人脸区域，从而可在检测精确性的基础上，更加高效地检测待检测图像中的人脸区域。

本发明实施例另一种检测方法和装置中，第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络，通过第一至第N-1卷积神经网络分别检测待检测图像的人脸区域，再将其检测的人脸区域合并处理后输入到第N卷积神经网络中检测人脸区域，使得输入第N卷积神经网络的人脸候选窗口较少遗漏人脸区域，从而可在保证检测效率的基础上，更加精确地检测待检测图像中的人脸区域。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例的人脸检测方法的流程图；

图2是本发明实施例的采用分类检测法检测的过程中各类型窗口示意图；

图3是本发明实施例的阶段级联网络的结构图；

图4是本发明实施例的12-net卷积神经网络的另一种结构图；

图5是本发明第二实施例的人脸检测方法的流程图；

图6是本发明第三实施例的人脸检测装置的一种结构框图；

图7是本发明第三实施例的人脸检测装置的另一种结构框图；

图8是本发明第四实施例的人脸检测装置的一种结构框图；

图9是本发明第四实施例的人脸检测装置的另一种结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

一方面，本发明第一实施例提供了一种人脸检测方法。该第一实施例的多个卷积神经网络中，第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联。其中，小规模的卷积神经网络主要进行人脸区域的提取和筛选；中规模的卷积神经网络进一步过滤候选窗口，拒绝掉大量的冗余窗口；大规模的卷积神经网络更精确地检测及标注人脸区域。如图1所示，为本发明第一实施例的人脸检测方法的流程图。该第一实施例的人脸检测方法具体包括如下的步骤：

步骤S101：将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口。

其中，每一人脸区域可能标注至少一个第一人脸候选窗口。

由于第一卷积神经网络的规模较小，而待检测图像的规模相对于第一卷积神经网络的规模较大，并且第一卷积神经网络只需要初步筛选出人脸候选窗口，因此，输入第一卷积神经网络的待检测图像可以是原图，即不需要整体缩放或者分解为多个小图像，以提高第一卷积神经网络检测人脸区域的效率。

优选的，为了能够得到更加精确的第一人脸候选窗口，可以将待检测图像分解为多个小图像。每个小图像的规模为第一卷积神经网络的规模。该多个小图像是将待检测图像拆分得到的，多个小图像组合起来得到该待检测图像。

优选的，该第一卷积神经网络为12-net卷积神经网络，即规模为12×12。

步骤S102：将第M-1人脸候选窗口的规模调整为第M卷积神经网络的规模后输入第M卷积神经网络，第M卷积神经网络检测第M-1人脸候选窗口的人脸区域，在检测到的人脸区域标注第M人脸候选窗口。

其中，M＝2、3、……、N，N≥3。每一人脸区域可能标注至少一个第M人脸候选窗口。

该步骤中的“调整”指的是：将第M-1人脸候选窗口的规模整体缩放为第M卷积神经网络的规模。由于第M卷积神经网络的网络结构的最后一层生成的特征图的规模为3×3，因此，若输入该卷积神经网络的人脸候选窗口的规模大于该卷积神经网络的规模，则最后输出的特征图的规模大于3×3的规模，当该特征图全连接到规模为128×1的fc层时，有些特征没有被利用到；若输入该卷积神经网络的人脸候选窗口的规模小于该卷积神经网络的规模，则该人脸候选窗口在通过该卷积神经网络的处理后可能会小于该卷积神经网络的下一层的规模，例如小于3×3的规模，使得该卷积神经网络无法再检测该人脸候选窗口。因此，优选的，本步骤中需要先将人脸候选窗口的规模整体缩放为该卷积神经网络的规模。

优选的，N＝3，则该级联的卷积神经网络为三层卷积神经网络。更优选的，第二卷积神经网络为24-net卷积神经网络，即规模为24×24；第三卷积神经网络为48-net卷积神经网络，即规模为48×48。

步骤S103：采用全局非极大值抑制的方法将第N人脸候选窗口和第N-1人脸候选窗口合并为人脸精选窗口。

其中，合并的第N人脸候选窗口和第N-1人脸候选窗口都是对应同一个人脸区域的人脸候选窗口。通过全局非极大值抑制方法处理的窗口可以为不同规模的窗口。该全局非极大值抑制的方法具体如下：

1、存储第N人脸候选窗口和第N-1人脸候选窗口的左上角和右下角坐标以及得分，并计算每个第N人脸候选窗口和第N-1人脸候选窗口的面积，且将没被抑制的第N人脸候选窗口和第N-1人脸候选窗口按分类得分排序。该分类得分表明该第N人脸候选窗口和第N-1人脸候选窗口为人脸区域的概率，得分越高，概率越高。

2、以得分最高的第N人脸候选窗口或者第N-1人脸候选窗口为基准窗口，将其余窗口按得分从低到高依次与基准窗口求重叠率，重叠率＝两个窗口相交的面积/较小的窗口面积。

3、设定重叠率阈值，当重叠率大于该阈值时，抑制该低分窗口，重复步骤1直到没有能被抑制的窗口。

4、处理不同规模的第N人脸候选窗口和第N-1人脸候选窗口的包含问题，将完全包含于大窗口的小窗口抑制。

优选的，步骤S101和步骤S102中检测人脸区域的方法为：分类检测法或者热图像检测法。若检测人脸区域的方法为分类检测法，则第一人脸候选窗口到第N-1人脸候选窗口均为通过窗口边框回归和非极大值抑制方法处理后的窗口。第N人脸候选窗口为通过窗口边框回归方法处理后的窗口。

其中，分类检测法是通过卷积神经网络将检测区域区分为人脸区域和非人脸区域，将检测的人脸区域还原到待检测图像中的对应位置，并可用矩形窗口标注人脸区域。

采用该种方法获得的初步标注窗口相对于人脸区域的真实位置有一定的偏差，因此，需要对该初步标注窗口的位置进行微调，使得微调后得到的回归窗口更接近人脸区域的真实位置。该人脸的真实位置一般也用矩形窗口来表示。该微调的过程可以通过边框窗口回归的方式实现。

其中，窗口边框回归的方法具体如下：

使用四维向量(x,y,w,h)来表示矩形窗口，该四维向量分别表示窗口中心坐标和宽高。如图2所示，虚线框P表示初步标注窗口，实线框G表示真实位置窗口，可以看出初步标注窗口与真实位置窗口存在一定的误差。窗口边框回归的目标是寻找一种映射关系从初步标注窗口P到与真实位置窗口G更接近的回归窗口G’。即给定(P_x,P_y,P_w,P_h)，寻找映射f，使得f(P_x,P_y,P_w,P_h)＝(G’_x,G’_y,G’_w,G’_h)，并且(G’_x,G’_y,G’_w,G’_h)≈(G_x,G_y,G_w,G_h)。

将初步标注窗口P变换为回归窗口G’的简单思路是先平移，再放缩：

1、首先考虑尺度不变的平移变换(Δx,Δy)，其中，Δx＝P_wd_x(P)，Δy＝P_hd_y(P)，则有

G'_x＝P_wd_x(P)+P_x (1)，

G'_y＝P_hd_y(P)+P_y (2)。

然后考虑对数空间的放缩变换(S_w,S_h)，即S_w＝P_wd_w(P)，S_h＝P_hd_h(P)，则有

G'_w＝P_wexp(d_w(P)) (3)，

G'_h＝P_hexp(d_h(P)) (4)。

通过公式(1)～(4)可知，需要学习的是四个变换：d_x(P)，d_y(P)，d_w(P)，d_h(P)。当初步标注窗口和真实位置比较接近时，才能用来训练针对窗口位置的线性回归模型进行窗口微调，选用的是与真实位置窗口的IoU>0.6的窗口。

线性回归针对输入向量x的特征，学***移量(t_x,t_y)和尺度缩放(t_w,t_h)是由真实位置窗口G和初步标注窗口P参数得到的：

t_x＝(G_x-P_x)/P_w (5)，

t_y＝(G_y-P_y)/P_h (6)，

t_w＝log(G_w/P_w) (7)，

t_h＝log(G_h/P_h) (8)。

所以将目标函数表示为d*(P)＝w_* ^Tφ(P)，其中w_*＝(x,y,w,h)'是待学习的参数，φ(P)是输入初步标注窗口P的特征向量，d_*(P)为得到的预测值(*表示x,y,w,h，每种变换对应一个目标函数)，损失函数为：

函数优化目标为：

用梯度下降法或者最小二乘法可得到w_*。

根据学习得到的参数w_*，对于测试图像，首先经过网络提取特征φ(P)，输出的是预测变化d_*(P)＝w_* ^Tφ(P)，根据公式(1)～(4)计算出接近实际值的回归窗口G’。

通过上述的过程，得到第N人脸候选窗口。

通过卷积神经网络检测并且经过窗口边框回归处理后的一个人脸区域可能会有多个窗口，则对于第一人脸候选窗口到第N-1人脸候选窗口，还需通过非极大值抑制(NMS)方法对多个同一人脸区域的回归窗口进行处理以减少窗口的数量，找到最佳的人脸检测区域。非极大值抑制方法的本质是搜索局部极大值，抑制非极大值元素。优选的，通过非极大值抑制方法处理的窗口为同一规模的窗口。该非极大值抑制方法具体的过程如下：

1、存储每个回归窗口的左上角和右下角坐标以及得分，并计算每个回归窗口的面积，且将没被抑制的回归窗口按分类得分排序。该分类得分表明该回归窗口为人脸区域的概率，得分越高，概率越高。

2、以得分最高的回归窗口为基准窗口，将其余回归窗口按得分从低到高依次与基准窗口求重叠率。

其中，重叠率＝两个窗口相交的面积/该组窗口面积。

3、设定重叠率阈值，当重叠率大于该阈值时，抑制该低分窗口，重复步骤1和2直到没有能被抑制的窗口。

通过上述的过程，最终得到第一人脸候选窗口到第N-1人脸窗口。

其中，热图像检测法通过每一卷积神经网络采用全卷积网络，其检测人脸区域得到的人脸热图像为每一卷积神经网络反卷积得到的特征图响应的可视化结果。该可视化结果可通过颜色反应，不同的该区域为人脸的概率对应不用的颜色。根据人脸热图像的颜色差异可以获知该区域为人脸的概率，从而可将概率大于一定阈值的区域通过人脸候选窗口标注。通过热图像检测法可找到概率高的区域作为人脸候选窗口，无需再通过窗口边框回归和非极大值抑制的方法对窗口进行处理。热图像检测法特别适合于检测规模较大的待检测图像。

以依次为12-net，24-net和48-net的三级卷积神经网络为例，说明该卷积神经网络分类检测的过程。如图3所示，图中的@代表数量可自行设定合理值，fc表示全连接。输入第一卷积神经网络12-net的待检测图像连续两次经过卷积核大小为3×3的卷积conv层得到8×8大小的特征图(图中经过一次3×3卷积得到10×10大小的特征图)，再通过2×2步长为2的最大池化max-p(max-pooling)层，得到4×4大小的特征图，再经过4×4的卷积conv层得到16维特征向量，该12-net是一个全卷积网络(即用卷积层替换全连接层，可节省计算量和方便获得候选窗口位置)。该特征向量后接两个并行层：分类层cls和回归层bbox reg(bounding-box regression)。分类层输出的是二维向量，表示检测的区域是否是人脸的概率。回归层是对人脸区域的初步标注窗口通过窗口边框回归进行位置微调得到回归窗口，输出的是由中心点坐标及宽高构成的可以表示出一个回归窗口的四维向量。输入第二卷积神经网络24-net的第一人脸候选窗口的规模为24×24，经过连续两个3×3的卷积conv层得到20×20的特征图，又经过3×3步长为2的最大池化max-p层，得到9×9的特征图，又经过2个3×3的卷积conv层得到5×5的特征图，再经过3×3步长为1的最大池化max-p层得到3×3的特征图，最后全连接层将前一层的特征图拉伸为128维的特征向量，后接分类层和回归层。该回归层输出第二卷积神经网络的回归窗口。输入第三卷积神经网络48-net的第二人脸候选窗口的规模为48×48，经过3组卷积conv层和最大池化max-p层的交替得到4×4大小的特征图，又经过一个2×2的卷积conv层得到3×3大小的特征图，全连接层将其拉伸成256维的特征向量，后接分类层和回归层。该回归层输出第三卷积神经网络的回归窗口。

优选的，为了使前向计算更方便，可调整池化pooling层的核长与步长，使12-net的卷积conv和池化pooling的操作均由3x3大小的核构成，网络结构可用图4表示的网络结构来替换。

优选的，在步骤S101之前，该第一实施例的方法还可以包括如下的步骤：

训练每一卷积神经网络。

其中，训练每一卷积神经网络的样本训练库的构建方式包括：

对于正样本，每一卷积神经网络的样本训练库的正样本可以是相同。具体的，将人脸图像作为每一卷积神经网络的样本训练库的正样本。

对于负样本，每一卷积神经网络的样本训练库的负样本有区别。具体的，对于第一卷积神经网络，将随机裁剪的与标准人脸标定框的IoU<0.3的图像作为第一卷积神经网络的样本训练库的负样本。其中，IoU(intersection over union)表示两个有重叠的边界框，交集面积与并集面积的比例。

将第M-1卷积神经网络检测为正样本的负样本图像作为第M卷积神经网络的负样本。

例如，对于依次为12-net，24-net和48-net的三级卷积神经网络，如果一个负样本图像(即非人脸图像)在12-net卷积神经网络中被检测为正样本，则该负样本图像作为训练24-net的样本训练库中的负样本。同样地，如果一个一个负样本图像(即非人脸图像)在24-net卷积神经网络中被检测为正样本，则该负样本图像作为训练48-net卷积神经网络的样本训练库中的负样本。

通过上述的方式构建每一卷积神经网络的样本训练库，使训练得到的每一级卷积神经网络更加精确。

将待检测图像构造图像金字塔获得多个尺度的图像。

例如，将待检测图像按0.3、0.5、0.6、0.8和1的比例缩小，形成5级图像金字塔。

通过构造图像金字塔可以获得不同规模的图像，有利于对人脸区域的多尺度的检测。此外，由于训练的步骤中采用的样本的规模有限，如果在检测人脸区域的过程中只检测一个规模的待检测图像，则有可能该待检测图像的规模不在训练的样本的规模的范围内，则该卷积神经网络的检测结果相对不精准，因此，也优选采用构造图像金字塔来获得不同规模的待检测图像，从而可提高该待检测图像的规模与训练的样本的规模匹配的概率，从而可进一步提高检测精度。

当构造了图像金字塔后，第一卷积神经网络检测的人脸区域还原到原始规模的待检测图像中，并按照构造的图像金字塔的比例还原。第M卷积神经网络检测的人脸区域还原到原始规模的待检测图像中，并按照输入第M卷积神经网络的第M-1人脸候选窗口的规模与第M卷积神经网络的比例还原。

例如，待检测图像的规模为120×120，构造图像金字塔获得5个尺度的待检测图像，第一卷积神经网络为12-net卷积神经网络，即第一卷积神经网络的规模为12×12，缩放比例为0.3、0.5、0.6、0.8和1，分类检测法为例。该待检测图像构造图像金字塔得到的5幅图像的规模分别为到36×36，60×60，72×72，96×96，120×120，则第一卷积神经网络检测的人脸区域按照构造的图像金字塔的上述5个缩放比例还原到120×120的待检测图像中。例如，第二卷积神经网络为24-net卷积神经网络，即第二卷积神经网络的规模为24×24，若输入第二卷积神经网络的第一人脸候选窗口的规模为40×40，则第二卷积神经网络检测的人脸区域按照40:24的比例还原到120×120的待检测图像中。

综上，本发明第一实施例的人脸检测方法，第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联，通过各卷积神经网络依次检测人脸区域，逐级筛选人脸候选窗口，可在筛选后的窗口中检测人脸区域，从而可在检测精确性的基础上，更加高效地检测待检测图像中的人脸区域。

第二实施例

本发明第二实施例提供了一种人脸检测方法。该第二实施例的多个卷积神经网络中，第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络。其中，小规模的卷积神经网络主要进行人脸区域的提取和筛选；中规模的卷积神经网络进一步过滤候选窗口，拒绝掉大量的冗余窗口；大规模的卷积神经网络更精确地检测及标注人脸区域。如图5所示，为本发明第二实施例的人脸检测方法的流程图。该第二实施例的人脸检测方法具体包括如下的步骤：

步骤S201：将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口。

其中，每一人脸区域可能标注至少一个第一人脸候选窗口。

优选的，该第一卷积神经网络12-net卷积神经网络，即规模为12×12。

步骤S202：将待检测图像分解为多个第M人脸候选窗口，并将第M人脸候选窗口输入第M卷积神经网络，第M卷积神经网络检测每一第M人脸候选窗口是否为人脸窗口。

其中，第M人脸候选窗口的规模为第M卷积神经网络的规模，M＝2、3、……、N-1，N≥3。

同步骤S201，步骤S202中输入第M卷积神经网络的该分解后的每个小图像的规模为第M卷积神经网络的规模。该多个小图像是将待检测图像拆分得到的，多个小图像组合起来得到该待检测图像。

步骤S203：采用全局非极大值抑制的方法将检测为人脸窗口的第一人脸候选窗口到第N-1人脸候选窗口合并得到第N人脸候选窗口。

其中，合并的第一人脸候选窗口到第N-1人脸候选窗口都是对应同一个人脸区域的人脸候选窗口。通过全局非极大值抑制方法处理的窗口可以为不同规模的窗口。该全局非极大值抑制的方法具体如下：

1、存储第一人脸候选窗口到第N-1人脸候选窗口的左上角和右下角坐标以及得分，并计算每个第一人脸候选窗口到第N-1人脸候选窗口的面积，且将没被抑制的第一人脸候选窗口到第N-1人脸候选窗口按分类得分排序。该分类得分表明该第一人脸候选窗口到第N-1人脸候选窗口为人脸区域的概率，得分越高，概率越高。

2、以得分最高的第一人脸候选窗口到第N-1人脸候选窗口中的一个人脸候选窗口为基准窗口，将其余窗口按得分从低到高依次与基准窗口求重叠率，重叠率＝两个窗口相交的面积/较小的窗口面积。

4、处理不同规模的第一人脸候选窗口到第N-1人脸候选窗口的包含问题，将完全包含于大窗口的小窗口抑制。

步骤S204：将第N人脸候选窗口的规模调整为第N卷积神经网络的规模后输入第N卷积神经网络，第N卷积神经网络检测第N人脸候选窗口的人脸区域，在检测到的人脸区域标注人脸精选窗口。

优选的，步骤S201、S202、S204中检测人脸区域的方法为：分类检测法或者热图像检测法。该分类检测法和热图像法与第一实施例中的方法相同，在此不再赘述。若检测人脸区域的方法为分类检测法，则第一人脸候选窗口到第N-1人脸候选窗口、以及人脸精选窗口均为通过窗口边框回归和非极大值抑制方法处理后的窗口。更优选的，通过非极大值抑制方法处理的窗口为同一规模的窗口。该窗口边框回归的方法和非极大值方法与第一实施例中的方法相同，在此不再赘述。

优选的，该第二实施例的方法也包括训练每一卷积神经网络和将待检测图像构造图像金字塔获得多个尺度的图像的步骤，其与第一实施例的方法相同，在此不再赘述。

综上，本发明第二实施例的人脸检测方法，第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络，通过第一至第N-1卷积神经网络分别检测待检测图像的人脸区域，再将其检测的人脸区域合并处理后输入到第N卷积神经网络中检测人脸区域，使得输入第N卷积神经网络的人脸候选窗口较少遗漏人脸区域，从而可在保证检测效率的基础上，更加精确地检测待检测图像中的人脸区域。

第三实施例

本发明还提供了一种人脸检测装置。用于该人脸检测装置的多个卷积神经网络中，第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联。其中，小规模的卷积神经网络主要进行人脸区域的提取和筛选；中规模的卷积神经网络进一步过滤候选窗口，拒绝掉大量的冗余窗口；大规模的卷积神经网络更精确地检测及标注人脸区域。如图6所示，为本发明第三实施例的人脸检测装置的结构框图。该第三实施例的人脸检测装置具体包括如下的模块：

第一人脸候选窗口标注模块301，用于将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口。

第M-1人脸候选窗口标注模块302，用于将第M-1人脸候选窗口的规模调整为第M卷积神经网络的规模后输入第M卷积神经网络，第M卷积神经网络检测第M-1人脸候选窗口的人脸区域，在检测到的人脸区域标注第M人脸候选窗口。

其中，M＝2、3、……、N，N≥3。

人脸精选窗口标注模块303，用于采用全局非极大值抑制的方法将第N人脸候选窗口和第N-1人脸候选窗口合并为人脸精选窗口。

优选的，N＝3，第一卷积神经网络为12-net卷积神经网络，即规模为12×12；第二卷积神经网络为24-net卷积神经网络，即规模为24×24；第三卷积神经网络为48-net卷积神经网络，即规模为48×48。

优选的，第一人脸候选窗口标注模块301和第M-1人脸候选窗口标注模块302检测人脸区域的方法为：分类检测法或者热图像检测法。

优选的，若第一人脸候选窗口标注模块301和第M-1人脸候选窗口标注模块302检测人脸区域的方法为分类检测法，则第一人脸候选窗口到第N-1人脸候选窗口均为通过窗口边框回归和非极大值抑制方法处理后的窗口；第N人脸候选窗口为通过窗口边框回归方法处理后的窗口。更优选的，通过非极大值抑制方法处理的窗口为同一规模的窗口。

优选的，如图7所示，该人脸检测装置还包括：

训练模块304，用于将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口的步骤之前，训练每一卷积神经网络。

优选的，该人脸检测装置还包括：

构造模块305，用于将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口的步骤之前，将待检测图像构造图像金字塔获得多个尺度的图像。

对于装置实施例而言，由于其与第一实施例的方法基本相似，所以描述的比较简单，相关之处参见该方法实施例的部分说明即可。

综上，本发明第三实施例的人脸检测装置，用于该装置的第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联，通过各卷积神经网络依次检测人脸区域，逐级筛选人脸候选窗口，可在筛选后的窗口中检测人脸区域，从而在检测精确性的基础上，可更加高效地检测待检测图像中的人脸区域。

第四实施例

本发明还提供了一种人脸检测装置。用于该人脸检测装置的多个卷积神经网络中，第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络。其中，小规模的卷积神经网络主要进行人脸区域的提取和筛选；中规模的卷积神经网络进一步过滤候选窗口，拒绝掉大量的冗余窗口；大规模的卷积神经网络更精确地检测及标注人脸区域。如图8所示，为本发明第四实施例的人脸检测装置的结构框图。该第四实施例的人脸检测装置具体包括如下的模块：

第一人脸候选窗口标注模块401，用于将待检测图像输入第一卷积神经网络，第一卷积神经网络检测所述待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口。

第M人脸候选窗口标注模块402，用于将待检测图像分解为多个第M人脸候选窗口，并将第M人脸候选窗口输入第M卷积神经网络，第M卷积神经网络检测每一第M人脸候选窗口是否为人脸窗口。

第N人脸候选窗口合并模块403，用于采用全局非极大值抑制的方法将检测为人脸窗口的第一人脸候选窗口到第N-1人脸候选窗口合并得到第N人脸候选窗口。

人脸精选窗口标注模块404，用于将第N人脸候选窗口的规模调整为第N卷积神经网络的规模后输入第N卷积神经网络，第N卷积神经网络检测第N人脸候选窗口的人脸区域，在检测到的人脸区域标注人脸精选窗口。

优选的，第一人脸候选窗口标注模块401、第M人脸候选窗口标注模块402和人脸精选窗口标注模块404检测人脸区域的方法均为：分类检测法或者热图像检测法。

优选的，若第一人脸候选窗口标注模块401、第M人脸候选窗口标注模块402和人脸精选窗口标注模块404检测人脸区域的方法为分类检测法，则第一人脸候选窗口到第N-1人脸候选窗口、以及人脸精选窗口均为通过窗口边框回归和非极大值抑制方法处理后的窗口。更优选的，通过非极大值抑制方法处理的窗口为同一规模的窗口。

优选的，如图9所示，该人脸检测装置还包括：

训练模块405，用于将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口的步骤之前，训练每一卷积神经网络。

优选的，该人脸检测装置还包括：

构造模块406，用于将待检测图像输入第一卷积神经网络，第一卷积神经网络检测待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口的步骤之前，将待检测图像构造图像金字塔获得多个尺度的图像。

对于装置实施例而言，由于其与第二实施例的方法基本相似，所以描述的比较简单，相关之处参见该方法实施例的部分说明即可。

综上，本发明第四实施例的人脸检测装置，用于该装置的第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络，通过第一至第N-1卷积神经网络分别检测待检测图像的人脸区域，再将其检测的人脸区域合并处理后输入到第N卷积神经网络中检测人脸区域，使得输入第N卷积神经网络的人脸候选窗口较少遗漏人脸区域，从而可在保证检测效率的基础上，更加精确地检测待检测图像中的人脸区域。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种人脸检测方法，其特征在于，包括：

将待检测图像输入第一卷积神经网络，所述第一卷积神经网络检测所述待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口；

将所述第M-1人脸候选窗口的规模调整为第M卷积神经网络的规模后输入所述第M卷积神经网络，所述第M卷积神经网络检测所述第M-1人脸候选窗口的人脸区域，在检测到的人脸区域标注第M人脸候选窗口，其中，M＝2、3、……、N，N≥3；

采用全局非极大值抑制的方法将所述第N人脸候选窗口和第N-1人脸候选窗口合并为人脸精选窗口；

其中，所述第一至第N卷积神经网络按照卷积神经网络的规模从小到大的顺序级联。

2.根据权利要求1所述的方法，其特征在于，检测人脸区域的方法为：分类检测法或者热图像检测法。

3.根据权利要求2所述的方法，其特征在于，若检测人脸区域的方法为分类检测法，则所述第一人脸候选窗口到所述第N-1人脸候选窗口均为通过窗口边框回归和非极大值抑制方法处理后的窗口；所述第N人脸候选窗口为通过窗口边框回归方法处理后的窗口。

4.根据权利要求3所述的方法，其特征在于，通过非极大值抑制方法处理的窗口为同一规模的窗口。

5.一种人脸检测方法，其特征在于，包括：

将所述待检测图像分解为多个第M人脸候选窗口，并将所述第M人脸候选窗口输入所述第M卷积神经网络，所述第M卷积神经网络检测每一所述第M人脸候选窗口是否为人脸窗口，其中，所述第M人脸候选窗口的规模为所述第M卷积神经网络的规模，M＝2、3、……、N-1，N≥3；

采用全局非极大值抑制的方法将检测为人脸窗口的所述第一人脸候选窗口到所述第N-1人脸候选窗口合并得到第N人脸候选窗口；

将所述第N人脸候选窗口的规模调整为第N卷积神经网络的规模后输入所述第N卷积神经网络，所述第N卷积神经网络检测所述第N人脸候选窗口的人脸区域，在检测到的人脸区域标注人脸精选窗口；

其中，所述第N卷积神经网络为所有卷积神经网络中规模最大的卷积神经网络。

6.根据权利要求5所述的方法，其特征在于，检测人脸区域的方法为：分类检测法或者热图像检测法。

7.根据权利要求6所述的方法，其特征在于，若检测人脸区域的方法为分类检测法，则所述第一人脸候选窗口到所述第N-1人脸候选窗口、以及所述人脸精选窗口均为通过窗口边框回归和非极大值抑制方法处理后的窗口。

8.根据权利要求7所述的方法，其特征在于，通过非极大值抑制方法处理的窗口为同一规模的窗口。

9.一种人脸检测装置，其特征在于，包括：

第一人脸候选窗口标注模块，用于将待检测图像输入第一卷积神经网络，所述第一卷积神经网络检测所述待检测图像中的人脸区域，在检测到的人脸区域标注第一人脸候选窗口；

第M-1人脸候选窗口标注模块，用于将所述第M-1人脸候选窗口的规模调整为第M卷积神经网络的规模后输入所述第M卷积神经网络，所述第M卷积神经网络检测所述第M-1人脸候选窗口的人脸区域，在检测到的人脸区域标注第M人脸候选窗口，其中，M＝2、3、……、N，N≥3；

人脸精选窗口标注模块，用于采用全局非极大值抑制的方法将所述第N人脸候选窗口和第N-1人脸候选窗口合并为人脸精选窗口；

10.一种人脸检测装置，其特征在于，包括：

第M人脸候选窗口标注模块，用于将所述待检测图像分解为多个第M人脸候选窗口，并将所述第M人脸候选窗口输入所述第M卷积神经网络，所述第M卷积神经网络检测每一所述第M人脸候选窗口是否为人脸窗口，其中，所述第M人脸候选窗口的规模为所述第M卷积神经网络的规模，M＝2、3、……、N-1，N≥3；

第N人脸候选窗口合并模块，用于采用全局非极大值抑制的方法将检测为人脸窗口的所述第一人脸候选窗口到所述第N-1人脸候选窗口合并得到第N人脸候选窗口；

人脸精选窗口标注模块，用于将所述第N人脸候选窗口的规模调整为第N卷积神经网络的规模后输入所述第N卷积神经网络，所述第N卷积神经网络检测所述第N人脸候选窗口的人脸区域，在检测到的人脸区域标注人脸精选窗口；