CN107871101A

CN107871101A - 一种人脸检测方法及装置

Info

Publication number: CN107871101A
Application number: CN201610849651.7A
Authority: CN
Inventors: 段旭; 张祥德
Original assignee: Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyecool Technology Co Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2018-04-03

Abstract

本发明实施例提供一种人脸检测方法，包括：采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量；采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量；将相同维度的所述第一图像特征向量和所述第二图像特征向量融合得到第三图像特征向量；将所述第三图像特征向量降维得到第四图像特征向量；根据所述第四图像特征向量，采用训练后的分类器检测各个所述候选窗口是否为人脸区域。本发明实施例还提供一种人脸检测装置。本发明实施例通过两个深度卷积神经网络分别提取候选人脸图像中的图像特征向量并融合该图像特征向量，并通过降维处理，不仅可更加精确地检测人脸，还可提高检测的效率。

Description

一种人脸检测方法及装置

技术领域

本发明涉及人脸检测技术领域，特别是涉及一种人脸检测方法及装置。

背景技术

人脸检测是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果存在则返回所有人脸的位置和大小等信息。常用的人脸检测方法有基于提升级联的方法、基于DPM的方法、基于卷积神经网络(CNN)以及深度卷积神经网络(DCNN)的方法。但是现有技术的方法一般采用单个网络提取图像特征向量，图像特征信息的表达不丰富，无法解决姿态变化的影响等检测问题，从而影响人脸检测结果。

发明内容

本发明实施例提供一种人脸检测方法，以解决现有技术中的检测方法的图像特征信息的表达不丰富以及姿态变化的影响等检测问题。

本发明实施例提供一种人脸检测装置，以解决现有技术中的人脸检测装置检测的图像特征信息的表达不丰富以及姿态变化的影响等检测问题。

第一方面，提供一种人脸检测方法，包括：采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量；采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量；将相同维度的所述第一图像特征向量和所述第二图像特征向量融合得到第三图像特征向量；将所述第三图像特征向量降维得到第四图像特征向量；根据所述第四图像特征向量，采用训练后的分类器检测各个所述候选窗口是否为人脸区域。

第二方面，提供一种人脸检测装置，包括：第一提取模块，用于采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量；第二提取模块，用于采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量；融合模块，用于将相同维度的所述第一图像特征向量和所述第二图像特征向量融合得到第三图像特征向量；降维模块，用于将所述第三图像特征向量降维得到第四图像特征向量；检测模块，用于根据所述第四图像特征向量，采用训练后的分类器检测各个所述候选窗口是否为人脸区域。

这样，本发明实施例中，通过两个深度卷积神经网络分别提取候选人脸图像中的图像特征向量并将分别提取的图像特征向量融合得到融合后的图像特征向量，该融合后的图像特征向量表达的图像信息丰富，可减少姿态变化对检测的影响，同时通过对融合后的图像特征向量降维，可解决图像特征向量的稀疏性等问题，并降低了计算的复杂度，不仅可更加精确地检测人脸，还可提高检测的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的人脸检测方法的流程图；

图2是本发明实施例的图像金字塔的示意图；

图3是本发明实施例的offset max-pooling方法的示意图；

图4是本发明实施例的全卷积网络特征映射示意图；

图5是本发明另一个实施例的人脸检测方法的流程图；

图6是本发明另一个实施例的人脸检测方法的采用NMS方法得到检测框的结果示意图；其中，(a)是采用NMS方法处理之前的输入图像中的人脸检测框分布图，(b)是采用NMS-Max方法处理之后的输入图像中的人脸检测框分布图，(c)是采用NMS-Average方法处理之后的输入图像中的人脸检测框分布图；

图7是本发明实施例的本发明实施例的人脸检测方法检测得到的召回率-误检数曲线图；

图8是采用本发明实施例的人脸检测方法的部分测试结果；

图9是本发明实施例的人脸检测装置的一种结构示意图；

图10是本发明实施例的人脸检测装置的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种人脸检测方法。如图1所示，为本发明实施例的人脸检测方法的流程图。该实施例的人脸检测方法具体包括如下的步骤：

步骤S101：采用训练后的第一深度卷积神经网络提取输入图像中各个候选窗口的第一图像特征向量。

其中，深度卷积神经网络(Deep Convolutional Neural Network，DCNN)通过构建具有多个隐藏层的学习模型对输入信息进行分级表达。其强调模型结构的深度，明确突出特征学习的重要性，通过逐层特征变换将原始输入信息传输到不同层，每层通过一个数字滤波器获得输入数据的最显著特征，使得分类更加准确。

因此，采用第一深度卷积神经网络提取的第一图像特征向量是候选窗口中最显著的图像特征向量。

步骤S102：采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量。

第二深度卷积神经网络也具有深度卷积神经网络的特性，因此，第二深度卷积神经网络提取的第二图像特征向量也是候选窗口中最显著的图像特征向量。

第二深度卷积神经网络和第一深度卷积神经网络是两个不同的网络，因此，这两个网络提取的图像特征向量有区别，从而可丰富图像特征信息的表达。

步骤S103：将相同维度的第一图像特征向量和第二图像特征向量融合得到第三图像特征向量。

融合后的第三图像特征向量的维度是第一图像特征向量的维度和第二图像特征向量的维度之和。因此，相对于第一图像特征向量和第二图像特征向量，第三图像特征向量是一个高维的图像特征向量。该融合是在第一图像特征向量后连接第二图像特征向量。

通过融合的步骤，使得融合后的图像特征向量能够弥补单个网络提取的图像特征信息表达不充分的缺陷，有利于充分学习图像特征，刻画数据丰富的内在信息。

步骤S104：将第三图像特征向量降维得到第四图像特征向量。

当图像特征向量的维数较高时，计算时间复杂度较高，此外，图像特征向量之间往往存在一定的相关性从而造成信息冗余。通过降维，既可得到能反映分类本质的图像特征向量，又能降低计算时间的复杂度因此，降维后的图像特征向量可对人脸各部分信息进行综合表达，使得在无约束环境下的人脸检测有了较大提升。

步骤S105：根据第四图像特征向量，采用训练后的分类器检测各个候选窗口是否为人脸区域。

分类器可通过对第四图像特征向量分类，得到每个候选窗口的置信度。将得到的每个候选窗口的置信度与预设的置信度比较。将高于该预设的置信度的候选窗口判断为人脸区域，低于该预设的置信度的候选窗口判断为非人脸区域，从而实现检测人脸的功能。

综上，本发明实施例的人脸检测方法，通过两个深度卷积神经网络分别提取候选人脸图像中的图像特征向量并将分别提取的图像特征向量融合得到融合后的图像特征向量，该融合后的图像特征向量表达的图像信息丰富，可减少姿态变化对检测的影响，同时通过对融合后的图像特征向量降维，可解决图像特征向量的稀疏性等问题，并降低了计算的复杂度，不仅可更加精确地检测人脸，还可提高检测的效率。

在本发明一优选的实施例中，在步骤S101之前，该实施例的方法还可以包括如下的步骤：

构造图像金字塔获得多个尺度的输入图像。

如图2所示，为本发明实施例的图像金字塔的示意图。通过构造图像金字塔可以获得不同尺度的输入图像，考虑到处理的效率，优选的，选取缩放尺度为8，缩放系数为0.9057构造图像金字塔。例如，当后续的步骤中采用的检测窗口的大小为224×224，采用该图像金字塔可以检测到最小尺寸为224/8＝28像素的人脸，利用缩放系数可连续检测到28到图片大小范围内的人脸。

通过上述的步骤生成了不同尺度的候选人脸图像，在某种尺度下不容易检测到的特征在另外的尺度下很容易检测到，从而可以更有效地提取图像特征向量。

在本发明一优选的实施例中，该实施例方法中的第一深度卷积神经网络为Clarifai网络，如表1所示，为Clarifai网络的网络结构。Clarifai网络的第一个卷积层可采用相对较小的7×7感受区域进行滤波，对输入图像进行密集过滤处理。Clarifai网络的结构保证在第一层网络和第二层网络包含更多的图像特征信息，从而可提升分类性能。

表1 Clarifai网络的网络结构

在本发明一优选的实施例中，在步骤S101之前，还包括对Clarifai网络进行训练的步骤。该训练的步骤包括：

按照初始学习率设为10^-4，动量为0.9，以第一样本训练库中的正样本和负样本的比例为1:3～1:10，对该Clarifai网络进行微调训练。

选取的该第一样本训练库中的正样本和负样本的比例可根据样本的裁剪情况通过实验比较确定，优选为1:5。训练过程中，优选的，每批次处理128个样本，可避免一次处理量太大从而使得效率低。

在采用第一样本训练库对该Clarifai网络进行微调训练之前，可预先在ImageNet2012训练集上训练得到的模型对Clarifai网络进行参数初始化，从而可优先优化该Clarifai网络的参数，例如权值等，减少后续训练的次数，提高效率。

其中，第一样本训练库中的正样本可选自WIDER FACE数据集。WIDERFACE数据集包含不同尺寸、姿态变化、复杂遮挡、表情和光照等具有较大变化的图像。由于缩放尺度较大，可以检测到较小尺寸的人脸区域，并且对于严重遮挡、模糊和较大姿态变化等复杂情况的人脸检测具有鲁棒性。第一样本训练库中的负样本可选自AFLW数据集。

具体的，第一样本训练库通过如下的方式构建：

(1)按照与第一人脸标定框的IOU大于第一阈值的标准剪裁WIDER_train子集中的样本得到第一样本。其中，IOU(intersection over union)作为一种重叠区域的评价标准，被定义为两个检测框的相交区域的面积比上两个检测框的合并区域面积。

其中，WIDER FACE数据集包括WIDER_train子集。IOU(intersection over union)作为一种重叠区域的评价标准，被定义为两个有重叠的边界框的相交区域的面积比上合并区域的面积。

第一人脸标定框为WIDER_train子集中的样本上的人脸标定框。该第一阈值优选为0.65。

(2)按照与第二人脸标定框的交除并IOU大于第二阈值的标准剪裁WIDER_val子集中的样本，并选取剪裁后的WIDER_val子集中尺寸大于预设像素的样本作为第二样本。

其中，WIDER FACE数据集包括WIDER_val子集。由于WIDER_train子集中小尺寸样本占较大比重，为了扩大样本数量，再采用WIDER_val子集。

第二人脸标定框为WIDER_val子集中的样本上的人脸标定框。优选的，该第二阈值优选为0.65。该预设像素优选为80像素。优选的，每批次处理64个样本，可避免一次处理量太大从而使得效率低。

(3)将第一样本和第二样本共同作为第一样本训练库的正样本。

(4)按照与第三人脸标定框的交除并IOU小于第三阈值的标准剪裁AFLW数据集中的样本得到第三样本。

优选的，该第三阈值优选为0.3。

(5)将第三样本作为第一样本训练库的负样本。

(6)将第一训练库的正样本和负样本都固定为采用深度卷积神经网络提取图像特征向量的检测窗口的大小。

例如，采用Clarifai网络提取第一图像特征向量，则将第一训练库的正样本和负样本都固定为224×224的大小。

(7)采用减均值的预处理方法处理正样本和负样本，并将正样本和负样本进行镜像翻转处理，得到镜像翻转处理后的正样本和负样本。

该镜像翻转处理后的正样本和负样本可扩充第一样本训练库中的样本，从而更有利于网络训练。

在本发明一优选的实施例中，该第二深度卷积神经网络为VGG Net-D网络，如表2所示，为VGG Net-D网络的网络结构。VGG Net-D网络的卷积层可采用较小的3×3的感受区域进行滤波，间接增加了网络深度。卷积的过程中，卷积的步长为1，由于该步长较小，从而可保证图像特征信息不会丢失。

表2 VGG Net-D网络的网络结构

在步骤S101之前，还包括对VGG Net-D网络进行训练的步骤。该训练的步骤包括：按照初始学习率设为10^-3，动量为0.9，以第一样本训练库中的正样本和负样本的比例为1:3～1:10，对VGG Net-D网络进行微调训练。

选取的该第一样本训练库中的正样本和负样本的比例可根据样本的裁剪情况通过实验比较确定，优选为1:5。

在采用第一样本训练库对该VGG Net-D网络进行微调之前，可预先在ImageNet2012训练集上训练得到的模型对VGG Net-D网络进行参数初始化，从而可优先优化该VGGNet-D网络的参数，例如权值等，减少后续训练的次数，提高效率。

该第一样本训练库与前述的第一样本训练库相同，在此不再赘述。

应当理解的是，上述用于两种网络微调训练的第一训练库可以采用其他的数据集。选择的数据集需包含丰富的人脸标注，包括遮挡、姿态变化和各种活动场景等多种情况下的样本。

如果采用原始的滑动窗口方法提取图像的特征向量，计算量很大，因此，在本发明一优选的实施例中，因此，可以将Clarifai网络和VGG Net-D网络中的全连接层转换成全卷积层，转换后的层参数也随之变换。采用全卷积网络，首先对整幅图像进行特征提取，然后对得到的特征图像进行卷积操作，因此可减小计算量，并可以处理任意大小的输入图像。

步骤S101和步骤S102对深度卷积神经网络的最后一个卷积层处理后的特征图采用平移池化offset max-pooling方法提取图像特征向量，即只在Pool5层采用offset max-pooling，在其他层仍然采用普通的池化方法。应当理解的是，本实施例的方法只在检测的过程中对深度卷积神经网络的最后一个卷积层处理后的特征图采用平移池化offset max-pooling方法提取图像特征向量，而在训练网络的阶段并不采用该方法。

具体的，采用offset max-pooling方法提取图像特征向量的步骤如下：

第一步：得到深度卷积神经网络的最后一个卷积层处理后的特征图。

该最后一个卷积层在Clarifai网络中是conv5卷积层。该最后一个卷积层在VGGNet-D网络中是conv5_3卷积层。

第二步：按照平移量，产生不同的平移特征图。如图3所示，利用3×3的最大池化max-pooling层对得到的特征图进行池化操作，会产生4种平移特征图(offset max-pooling feature map)，由于每个检测窗口对应不同的输入图像的位置，所以通过这种密集滑动窗口的方式可以找到检测窗口和人脸区域很好的匹配，此方法相当于将滑动步长由2减小到1，由于检测步长较小，从而实现了密集滑动窗口检测，从而实现了多位置的检测。

上述得到的平移特征图再依次输入到随后的网络中处理。

步骤S101和步骤S102最终提取的图像特征向量为fc6-conv层的图像特征向量。fc6-conv层是fc6层转换成卷积层得到的。fc6-conv层中具有较高级的图像特征，因此，选择提取fc6-conv层的图像特征向量，可使检测效果更好。

如图4所示，对于全卷积网络中在fc6-conv层得到的6×6大小的特征图对应的是输入图像中的一个224×224的检测窗口，通过前向计算得到每一个检测窗口在fc6-conv层的固定维数的图像特征向量。

在本发明一优选的实施例中，由于步骤S101和步骤S102均是提取的fc6-conv层的图像特征向量。该层的图像特征向量的维度均为4096维。因此，步骤S103中融合后的第三图像特征向量的维度是8192维。

在本发明一优选的实施例中，步骤S104中的降维的方法为主成分分析PCA方法。该PCA方法是一种把多个特征映射为少数几个综合特征的一种统计分析方法。该方法得到的综合特征尽可能地反映原始变量信息，彼此之间互不相关，从而达到降维去噪的目的。PCA方法需要进行零均值化处理。对于本发明实施例的方法，可以在将输入图像输入卷积神经网络之前，对输入图像的图像特征向量进行零均值化预处理，即输入图像的图像特征向量通过减去常量均值从而实现对输入图像进行零均值化处理。该常量均值为根据卷积神经网络的规模确定。因此，在步骤S104中，无需再进行零均值化处理，该PCA方法只需对第三图像特征向量的协方差矩阵进行奇异值分解，然后按照特征值的大小选取第三图像特征向量构造投影矩阵。本发明实施例中的PCA模型也是经过训练后的模型。本发明实施例中PCA方法选取按从大到小排序的特征值的顺序满足特征阈值的的第三图像特征向量构造投影方向矩阵。优选的，该特征阈值为50％，即排序在前50％的第三特征向量。通过构造该投影矩阵实现了降维的目的。

通过采用PCA方法进行特征降维和选择，可以得到能反映分类本质的综合特征，解决了图像特征向量的稀疏性等问题，同时降低了计算的复杂度。

在本发明一优选的实施例中，步骤S105中的分类器为支持向量机SVM分类器。该SVM分类器是一种分类模型，其基本模型定义为特征空间上间隔最大的线性分类器，利用核技巧可成为非线性分类器，支持向量机的学习策略是间隔最大化，最终转化为一个凸二次规划问题的求解。

优选的，SVM分类器的训练方式包括：

以第二样本训练库中的正样本和负样本的比例为1:1训练支持向量机SVM分类器。

该第二样本训练库通过如下的方式构建：

(1)按照第一人脸标定框的标准剪裁WIDER_train子集中的样本和按照第二人脸标定框的标准剪裁WIDER_val子集中的样本，将上述剪裁得到的样本共同作为第四样本。

(2)按照与第三人脸标定框的交除并IOU小于第三阈值的标准剪裁AFLW数据集中的样本得到第三样本。

优选的，该第三阈值优选为0.3。

(3)将第四样本作为第二样本训练库的正样本，第三样本作为第二样本训练库的负样本。

采用第二样本训练库训练SVM分类器的过程如下：

首先，选用多项式核函数作为最终的核函数代入到分类函数中，该分类函数为：

其中，w和b为分类超平面的法向量和截距，k(x_i,x)为多项式核函数。

然后，引入松弛因子，采用Lagrange乘数法得到优化目标为：

其中C是一个已经确定的常量，用于控制目标函数中的各项权重。ξ_i(i＝1,2,...,n)为松弛变量，对应数据点x_i允许偏离函数间隔的值。α_i为拉格朗日乘子，将其转化为对偶问题得到：

最后，利用SMO算法求解参数，得到最终的分类模型。

优选的，步骤S105中得到的每个候选窗口的置信度对应输入图像中的一个224×224的检测窗口的置信度。SVM分类器具有较小的导致错误分类的风险。

虽然采用图像金字塔的方法可以得到多尺度的检测信息，但是导致输出的人脸检测框有较高重叠，因此，在本发明一优选的实施例中，如图5所示，在步骤S105之后，还包括：

步骤S106：根据检测得到的人脸区域，在输入图像上标注人脸检测框。

步骤S107：若多个人脸检测框的重叠面积大于参考阈值，则根据多个人脸检测框得到一个最优人脸检测框。

其中，最优人脸检测框指的是最能代表人脸区域的检测框。

优选的，该方法为非极大值抑制NMS方法。该NMS方法(Non-maximal suppresion)是一种人脸检测框的后处理方法，其目的是保证每个人脸对象只对应一个检测框，消除多余的重叠检测框后得到最佳的检测区域。如图6(a)所示，是采用NMS方法处理之前的输入图像中的人脸检测框分布图。首先采用NMS-Max方法找到具有最高置信度的人脸检测框后，移除所有IOU大于一定重叠阈值的人脸检测框。如图6(b)所示，是采用NMS-Max方法处理之后的输入图像中的人脸检测框分布图。然后采用NMS-Average方法将满足重叠阈值的人脸检测框合并为一个人脸检测框，并将最高置信度作为合并后的人脸检测框的置信度,如图6(c)所示，是采用NMS-Average方法处理之后的输入图像中的人脸检测框分布图。

下面以一具体测试例对本发明的方法的效果做进一步说明。

采用FDDB数据集作为测试样本，该数据集是目前用于衡量人脸检测的标准数据集，共2846张图像，5171个标注人脸，其中包含不同姿态、光照、低分辨率和失焦等复杂情况的图像。如表3所示，为不同网络测试结果比较。

表3 不同网络测试结果比较

网络名称	召回率	误检数目
			Clarifai网络	85.32％	2000
VGG Net-D	85.70％	2000
			Clarifai和VGG网络特征融合	87.24％	2000

由表3可以看出，采用本发明的方法提取网络融合后的图像特征包含丰富的特征表达，弥补了单个网络特征提取的不足，其检测性能要优于单网络。如图7所示，为本发明实施例的人脸检测方法检测得到的召回率-误检数True positive rate-False positives曲线。该曲线表明误检数为2000时，测试集的召回率达到87.24％。从该曲线中也可看出，本发明实施例的人脸检测方法的检测性能好。如图8所示，为采用本发明实施例的人脸检测方法的部分测试结果。

本发明还提供了一种人脸检测装置。如图9所示，为本发明实施例的人脸检测装置的结构框图。该人脸检测装置具体包括如下的模块：

第一提取模块901，用于采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量。

优选的，第一深度卷积神经网络为Clarifai网络。对Clarifai网络的最后一个卷积层处理后的特征图采用平移池化offset max-pooling方法提取图像特征向量。最终提取的第一图像特征向量为fc6-conv层的图像特征向量。

第二提取模块902，用于采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量。

优选的，第二深度卷积神经网络为VGG Net-D网络。对VGG Net-D网络的最后一个卷积层处理后的特征图采用平移池化offset max-pooling方法提取图像特征向量。最终提取的第二图像特征向量为fc6-conv层的图像特征向量。

融合模块903，用于将相同维度的第一图像特征向量和第二图像特征向量融合得到第三图像特征向量。

降维模块904，用于将第三图像特征向量降维得到第四图像特征向量。

优选的，该降维的方法为主成分分析PCA方法。本发明实施例中PCA方法选取按从大到小排序的特征值的顺序满足特征阈值的第三图像特征向量构造投影方向矩阵。优选的，该特征阈值为50％，即排序在前50％的第三特征向量。

检测模块905，用于根据第四图像特征向量，采用训练后的分类器检测各个候选窗口是否为人脸区域。

优选的，该分类器为支持向量机SVM分类器。

优选的，本发明实施例的装置还包括：

第一训练模块906，用于按照初始学习率设为10^-4，动量为0.9，以第一样本训练库中的正样本和负样本的比例为1:3～1:10，对Clarifai网络进行微调。

优选的，本发明实施例的装置还包括：

第二训练模块907，用于按照初始学习率设为10^-3，动量为0.9，以第一样本训练库中的正样本和负样本的比例为1:3～1:10，对VGG Net-D网络进行微调训练。

优选的，本发明实施例的装置还包括：

第三训练模块908，用于以第二样本训练库中的正样本和负样本的比例为1:1训练支持向量机SVM分类器。其中，支持向量机SVM分类器的分类决策函数中的核函数为多项式核函数。

优选的，本发明实施例的装置还包括：

构造模块909，用于构造图像金字塔获得多个尺度的输入图像。

优选的，本发明实施例的装置还包括：

标注模块910，用于根据检测得到的人脸区域，在输入图像上标注人脸检测框。

合并模块911，用于若多个人脸检测框的重叠面积大于参考阈值，则根据多个人脸检测框得到一个最优人脸检测框。

更优选的，该根据多个人脸检测框得到一个最优人脸检测框的方法为非极大值抑制NMS方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

综上，本发明实施例的人脸检测装置，通过两个深度卷积神经网络分别提取候选人脸图像中的图像特征向量并将分别提取的图像特征向量融合得到融合后的图像特征向量，该融合后的图像特征向量表达的图像信息丰富，可减少姿态变化对检测的影响，同时通过对融合后的图像特征向量降维，可解决图像特征向量的稀疏性等问题，并降低了计算的复杂度，不仅可更加精确地检测人脸，还可提高检测的效率。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种人脸检测方法，其特征在于，包括：

采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量；

采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量；

将相同维度的所述第一图像特征向量和所述第二图像特征向量融合得到第三图像特征向量；

将所述第三图像特征向量降维得到第四图像特征向量；

根据所述第四图像特征向量，采用训练后的分类器检测各个所述候选窗口是否为人脸区域。

2.根据权利要求1所述的方法，其特征在于，所述第一深度卷积神经网络为Clarifai网络，所述第一深度卷积神经网络的训练方式包括：

按照初始学习率设为10^-4，动量为0.9，以第一样本训练库中的正样本和负样本的比例为1:3～1:10，对所述Clarifai网络进行微调训练。

3.根据权利要求1所述的方法，其特征在于，所述第二深度卷积神经网络为VGG Net-D网络，所述第二深度卷积神经网络的训练方式包括：

按照初始学习率设为10^-3，动量为0.9，以第一样本训练库中的正样本和负样本的比例为1:3～1:10，对所述VGG Net-D网络进行微调训练。

4.根据权利要求1所述的方法，其特征在于，

所述采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量的步骤中，对所述第一深度卷积神经网络的最后一个卷积层处理后的特征图采用平移池化offset max-pooling方法提取图像特征向量；

所述采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量的步骤中，对所述第二深度卷积神经网络的最后一个卷积层处理后的特征图采用平移池化offset max-pooling方法提取图像特征向量。

5.根据权利要求1所述的方法，其特征在于，所述将所述第三图像特征向量降维得到第四图像特征向量的方法为主成分分析PCA方法。

6.根据权利要求1所述的方法，其特征在于，所述分类器为支持向量机SVM分类器，所述分类器的训练方式包括：

以第二样本训练库中的正样本和负样本的比例为1:1训练所述支持向量机SVM分类器，其中，所述支持向量机SVM分类器的分类决策函数中的核函数为多项式核函数。

7.根据权利要求1所述的方法，其特征在于，所述采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量的步骤之前，所述方法还包括：

构造图像金字塔获得多个尺度的输入图像。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第四图像特征向量，采用训练后的分类器检测各个所述候选窗口是否为人脸区域的步骤之后，所述方法还包括：

根据检测得到的所述人脸区域，在所述输入图像上标注人脸检测框；

若多个所述人脸检测框的重叠面积大于参考阈值，则根据多个所述人脸检测框得到一个最优人脸检测框。

9.根据权利要求8所述的方法，其特征在于，所述根据多个所述人脸检测框得到一个最优人脸检测框的方法为非极大值抑制NMS方法。

10.一种人脸检测装置，其特征在于，包括：

第一提取模块，用于采用训练后的第一深度卷积神经网络提取输入图像中的各个候选窗口的第一图像特征向量；

第二提取模块，用于采用训练后的第二深度卷积神经网络提取输入图像中的各个候选窗口的第二图像特征向量；

融合模块，用于将相同维度的所述第一图像特征向量和所述第二图像特征向量融合得到第三图像特征向量；

降维模块，用于将所述第三图像特征向量降维得到第四图像特征向量；

检测模块，用于根据所述第四图像特征向量，采用训练后的分类器检测各个所述候选窗口是否为人脸区域。