CN108090417A

CN108090417A - 一种基于卷积神经网络的人脸检测方法

Info

Publication number: CN108090417A
Application number: CN201711204234.8A
Authority: CN
Inventors: 刘琳; 姜飞; 申瑞民
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-05-29

Abstract

本发明涉及一种基于卷积神经网络的人脸检测方法，包括以下步骤：1)建立人脸检测模型，该模型采用RFCN网络结构，所述RFCN网络结构包括基于特征融合的特征提取层；2)获取样本集；3)对步骤1)中建立的人脸检测模型进行训练；4)以训练后的人脸检测模型对待测图片进行人脸检测。与现有技术相比，本发明具有准确率和检全率较高、对于复杂场景下有良好的适应效果等优点。

Description

一种基于卷积神经网络的人脸检测方法

技术领域

本发明涉及人脸识别技术领域，尤其是涉及一种基于卷积神经网络的人脸检测方法。

背景技术

人脸检测是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题，因其在商业、医疗和军事等领域中广泛的应用价值，一直是人们研究的热点。然而，在现实场景下，复杂图像中的人脸经常会存在遮挡严重的情况，这给人脸检测带来巨大的挑战，所以提出一种能够适应于严重遮挡的人脸检测方法仍然是研究的难点。

文献“Object Detection via Region-based Fully Convolutional Networks”(Dai,J., Li,Y.,He,K.,Sun,J.:R-FCN:.In:30th Conference on Neural InformationProcessing Systems,pp.379-387.Barcelona)公开一种基于区域全卷积神经网络的目标检测方法，该方法基础网络采用ResNet101，为RFCN网络结构，子网络分为Region ProposalNetwork(RPN)和分类网络，整体网络结构如图1所示。ResNet提取feature maps的过程共4个阶段，分别记为res1，res2，res3，res4。res4之后通过卷积运算与RPN子网络和分类子网连接。RPN子网络与分类子网共享ResNet所提取的 feature maps，使得特征的提取只需进行一次运算，极大地提高了运算效率。

RPN网络用于提取region proposals，也就是可能的人脸区域。rpn_bbox_pred层回归得每个region相对于anchor的偏移量。anchor是基于原始输入图片所生成的不同尺度scale和长宽比ratio的矩形框。每个anchor值加上rpn_bbox_pred得到的针对每个anchor的偏移量就是RPN层需要输出的region的位置。rpn_cls_prob输出每个region是前景物体和背景的概率。proposal层对rpn_bbox_pred层以及 rpn_cls_prob层的结果进行整合，根据前景概率进行排序，然后利用非极大值抑制 non maximum supression(NMS)算法获取若干regions。(训练时提取2000个，测试时提取300个)。分类网络基于ResNet的第五阶段res5继续提取特征后得到深度为C*k*k的score maps。k为超参数，取值3；C表示最终分类的类别数(包含背景类)，取值2(人脸|背景)。RFCN利用Position-sensitive ROIPooling层，对RPN网络获取的每个region，在score maps上做基于位置的average pooling。它对region 的每个位置都分别提取特征，通过对所有位置的投票得出最终的结果。通过RPN 子网络和分类子网络最终可得到人脸所在的位置region，以及每个region为人脸的概率。

该目标检测方法在训练过程中，选择公共数据集WIDER FACE作为样本集，先获取在ImageNet上预训练的RFCN模型，然后在准备好的样本集上再开始训练。最终以训练后的模型进行人脸检测。

上述现有方法虽然能获得一定精度，但还存在以下缺点：1、对于人脸遮挡敏感，有较多遮挡的情况下检测困难，在WIDER FACE上mAP仅有0.77；2、对于较小的人脸或者侧脸检测不佳。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于卷积神经网络的人脸检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于卷积神经网络的人脸检测方法，包括以下步骤：

1)建立人脸检测模型，该模型采用RFCN网络结构，所述RFCN网络结构包括基于特征融合的特征提取层；

2)获取样本集；

3)对步骤1)中建立的人脸检测模型进行训练；

4)以训练后的人脸检测模型对待测图片进行人脸检测。

进一步地，所述特征提取层中，将res3的输出层与res4的输出层相叠加融合。

进一步地，所述步骤2)中，样本集的样本数量大于3万个。

进一步地，所述步骤3)的训练采用caffe框架，包括：

301)在ImageNet上对所述人脸检测模型进行预训练；

302)采用所述样本集对经预训练后人脸检测模型再次进行训练。

进一步地，所述步骤4)中，对所述待测图片进行多尺度检测。

进一步地，所述多尺度检测具体为：

401)对所述待测图片进行多个尺寸的伸缩处理；

402)利用训练后的人脸检测模型对每个尺寸下获得的图片分别进行人脸检测，获得多个人脸检测结果；

403)对所述多个人脸检测结果进行合并筛选，获得最终检测结果。

进一步地，所述步骤403)中，采用NMS算法对所述多个人脸检测结果进行合并筛选。

与现有技术相比，本发明具有以下有益效果：

1)本发明建立了一个改进型的人脸检测模型，在特征提取过程中，对res3的输出与res4的输出进行特征融合，且融合得到的特征可以被同时应用到RPN和分类网络两个子网中，大大提高了人脸检测的准确率和检全率。

2)本发明在对被测图片进行检测时，采用多尺度检测方式，能够获取到更多被遮挡的人脸以及小分辨率人脸的信息，进一步提高了人脸检测的准确率和检全率。

3)本发明样本集的样本数量大于3万个，保证了检测模型的准确性。

4)本发明对于复杂场景下有良好的适应效果，尤其针对人脸遮挡严重和小脸的场景，经过大量的测试，准确率和检全率均达到90％以上。

附图说明

图1为现有方法的整体网络结构示意图；

图2为现有的RPN子网络结构示意图；

图3为本发明特征融合的网络结构示意图；

图4为本发明的整体网络结构示意图；

图5为本发明的检测流程示意图；

图6为本发明的检测效果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于卷积神经网络的人脸检测方法，包括以下步骤：1)建立人脸检测模型，该模型采用RFCN网络结构，所述RFCN网络结构包括基于特征融合的特征提取层；2)获取样本集；3)对步骤1)中建立的人脸检测模型进行训练；4)以训练后的人脸检测模型对待测图片进行人脸检测。通过上述方法可以对复杂场景进行准确率和检全率更高的人脸检测。

上述检测方法的关键点在于：

a、模型结构改进

模型结构的改进主要在于网络中间层特征融合。在ResNet101的结构中，前四个阶段到res4为止，共做了4次pooling操作，越深的卷积pooling网络使得每个 feature map的感受野越大，学习到的语义特征也越高级。但是对于遮挡严重的人脸或者较小的人脸，其具备的特征本身就有限，提取高层次的语义特征使得其有限的局部特征更容易丢失。也就是说，对于暴露出的特征有限的物体，大的感受野对检测起到的作用不如小的感受野。因此为了正确检测小人脸以及遮挡严重的人脸，本发明将res3的输出层与res4的输出层相叠加融合，使网络在res4层学习到的特征同时具有高级语义特征以及低级局部特征。选择在res4进行融合的原因是将融合得到的特征可以被同时应用到RPN和分类网络两个子网中。特征融合的网络结构如图3所示，res4b22_relu是res4的输出，res4b22_dcov是对res4的输出结果的上采样，使res4的feature map与res3的feature map保持相同大小的尺寸，res3_scale 扩充res3的channel数，保持和res4feature map相同大小的深度。由于deconvolution 操作会只能加倍成偶数或者奇数，而pooling前的操作是偶数还是奇数是不定的，因此需要利用crop操作将deconvolution后的feature map裁剪到与res3相同的尺寸。改进后的整体网络结构如图4所示。

b、训练阶段

第一步：制作样本

样本集来源为公共数据集WIDER FACE，总共包含32,203张图片，393,703 个人脸样本。按照PASCAL VOC数据集的格式制作，PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，因此人脸样本按此标准制作。样本存放规范具体为：JPEGImages中存放包含人脸的样本图片，Annotations中存放对应样本图片的详细信息以及图片中人脸目标的包围框坐标，其中人脸框位置标记形式由左上角坐标和左下角坐标组成，Annotation采用xml文件格式存储。

第二步：训练模型

对于模型的训练采用caffe框架。首先获取在ImageNet上预训练的改进的RFCN模型，然后在准备好的样本集上再开始训练。训练的超参数表1所示。

表1：训练的超参数设置

iterations	500000	batch size	1
				base learning rate	0.001	k	3
momentum	0.9	scale	1,2,4
				weight_decay	0.0005	ratio	0.5,1,2

训练得到模型文件face_model.caffemodel，利用该模型文件即可检测人脸。

c、检测人脸

针对复杂场景下的人脸检测，我们希望获取到更多被遮挡的人脸以及小分辨率人脸的信息。因此在检测时，对图片进行多尺度的处理，将每个尺度的图片均进行一次检测，然后对检测的结果利用NMS算法进行合并筛选，从而得到最终的检测结果，其流程如图5所示。

在WIRDER FACE上的mAP达到0.897，检测效果如图6所示。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于卷积神经网络的人脸检测方法，其特征在于，包括以下步骤：

2)获取样本集；

3)对步骤1)中建立的人脸检测模型进行训练；

4)以训练后的人脸检测模型对待测图片进行人脸检测。

2.根据权利要求1所述的基于卷积神经网络的人脸检测方法，其特征在于，所述特征提取层中，将res3的输出层与res4的输出层相叠加融合。

3.根据权利要求1所述的基于深度学习的举手检测方法，其特征在于，所述步骤2)中，样本集的样本数量大于3万个。

4.根据权利要求1所述的基于卷积神经网络的人脸检测方法，其特征在于，所述步骤3)的训练采用caffe框架，包括：

301)在ImageNet上对所述人脸检测模型进行预训练；

5.根据权利要求1所述的基于卷积神经网络的人脸检测方法，其特征在于，所述步骤4)中，对所述待测图片进行多尺度检测。

6.根据权利要求5所述的基于卷积神经网络的人脸检测方法，其特征在于，所述多尺度检测具体为：

401)对所述待测图片进行多个尺寸的伸缩处理；

7.根据权利要求6所述的基于卷积神经网络的人脸检测方法，其特征在于，所述步骤403)中，采用NMS算法对所述多个人脸检测结果进行合并筛选。