CN109886159B

CN109886159B - 一种非限定条件下的人脸检测方法

Info

Publication number: CN109886159B
Application number: CN201910091271.5A
Authority: CN
Inventors: 王慧燕
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2021-03-26
Anticipated expiration: 2039-01-30
Also published as: CN109886159A

Abstract

本发明提供一种非限定条件下的人脸检测方法，包括如下步骤：S1）图像预处理；S2）设计基于深度卷积的人脸检测网络；S3）人脸检测网络前向传播；S4）采用非极大值抑制算法；S5）得到最终检测结果。本发明的优点为：适用范围广，效果和速度均可达到state‑of‑art级别，有助于提升行人坐标准确性，降低误检发生概率，缓解深层网络梯度弥散问题，加快网络收敛过程。

Description

一种非限定条件下的人脸检测方法

技术领域

本发明涉及计算机图像处理技术领域，具体涉及一种基于深度卷积神经网络、结合多尺度特征金字塔的非限定条件下的人脸检测方法。

背景技术

人脸检测技术作为多种视觉任务的基础，在图像处理与模式识别领域占据十分重要的地位。近些年，伴随着基于神经网络的人工智能的快速发展，人脸检测技术越来越多地应用在各类视觉任务中，例如人证比对、会议签到、人脸闸机、人脸识别等任务的前提即为高精度、高准确率的人脸检测方法。

早期的人脸检测技术依赖手工构造特征，配合传统机器学习进行。例如著名的Haar特征和使用AdaBoost算法的人脸检测算法，利用滑动窗口对图像进行扫描，对滑动窗口内的目标提取Haar特征，再使用AdaBoost算法进行分类。该算法不但时间消耗巨大，而且效果也不尽如人意。

随着人工智能技术的不断进步，基于神经网络的目标检测方法层出不穷，最具代表性的方法有MTCNN、YOLO、SSD以及Faster RCNN。其中，MTCNN采用小型神经网络分类配合滑动窗口进行快速检测，可达到不错的检测效果和速度，但是泛化性能较差，对特定场景需要重新训练；YOLO和SSD采用深层次的卷积网络，通过一次性对每个特征图的锚点进行分类和偏差回归实现检测过程，此类方法在速度上较快，泛化性能较好，但在精度上有所损失；二阶段的Faster RCNN算法性能相对其他几种是最好的，但是由于全连接层的介入使得计算量极具增加，难以应用于要求实时性的工业应用场景。

发明内容

本发明的目的是提供一种有助于提升行人坐标准确性、降低误检发生概率、缓解深层网络梯度弥散问题、加快网络收敛过程的非限定条件下的人脸检测方法。

为了达到上述目的，本发明通过以下技术方案来实现：

一种非限定条件下的人脸检测方法，包括如下步骤：

S1）图像预处理

对于从网上收集到的公开数据集，对所有的图片进行水平翻转作数据增强；

对于自行收集的1080p视频数据，提取可用于人脸检测的视频帧，对每一帧进行人脸手工或机器标注，对视频帧中出现的每个人脸进行尺度缩小，在缩小的图像上裁切包含人脸的图像作为最终的训练图像；

S2）设计基于深度卷积的人脸检测网络

以VGG16作为卷积层提取特征，删除最后的全连接层，增加inception结构和扩张卷积结构；整个网络包含6个block，在低层的3个feature map相对较大的block使用特征金字塔进行特征融合，在每个融合后的卷积模块后加一个3*3的卷积层，然后将低层的3个输出和其他3个未进行特征融合的卷积模块的最后一层输出均增加分类损失函数和回归损失函数；

将人工标注的多尺度的图像样本减去ImageNet均值（104,117,123）并归一化到[0,1],然后通过网络数据层输入到网络中进行训练；对各层的分类损失函数采用均匀分布初始化权重；采用随机梯度下降算法优化网络权重，训练网络模型直至收敛；

S3）人脸检测网络前向传播

将步骤S1）中得到的训练图像输入到训练好的网络模型中做前向传播操作，计算各层特征金字塔输出的分类结果和回归结果，分类结果表示该锚点的目标是行人或背景的概率，回归结果表示预测结果相对于锚点的偏差；

筛选出锚点目标为行人的概率超过阈值的锚点，再去除锚点对应预测的偏差，用预测出的偏差修正锚点坐标，得到初步的预测结果P1；

S4）采用非极大值抑制算法

对初步得到的检测结果P1按照概率进行排序，过滤掉局部非最大概率的检测结果，得到预测结果P2；

S5）得到最终检测结果

预测结果为目标框的左上角坐标（x1，y1）与目标框的宽和高（x2，y2），过滤超出图像范围的预测结果；

若x2大于图像宽度，x2修改为图像宽度；若y2大于图像高度，y2修改为图像高度；若x1，y1小于0，将x1，y1修正为0；

得到最终的检测结果P3。

进一步地，在步骤S1）中，所述对视频帧中出现的每个人脸进行的尺度缩小，在原有图像尺寸上分别缩小至[*0.9，*0.8，*0.7]，在缩小的图像上截取700*700像素的包含人脸的图像，然后在700*700像素的图像上裁剪640*640像素的图像作为最终的训练图像。

本发明与现有技术相比，具有以下优点：

本发明一种非限定条件下的人脸检测方法，以VGG16作为卷积层提取特征，使用特征金字塔结构设计人脸检测网络，再联合各层的分类损失函数和回归损失函数，提升人脸检测的效果，尤其是小目标人脸检测的效果。本发明可应用于各种类型的视频监控检测***，尤其是人脸卡口相机的监控，本发明适用范围广，效果和速度均可达到state-of-art级别，有助于提升行人坐标准确性，降低误检发生概率，缓解深层网络梯度弥散问题，加快网络收敛过程。

附图说明

图1是本发明一种非限定条件下的人脸检测方法的流程示意图。

图2是本发明一种非限定条件下的人脸检测方法的人脸检测网络结构示意图。

具体实施方式

下面结合附图，对本发明的实施例作进一步详细的描述。

本发明一种非限定条件下的人脸检测方法，经过训练后得到的网络模型，可以实现端到端的人脸检测；当视频帧进入网络，输出检测结果的概率和目标的位置信息；经过非极大值抑制和概率筛选，可得到人脸的具体坐标。

一种非限定条件下的人脸检测方法，包括如下步骤：

S1）图像预处理

对于从网上收集到的公开数据集，采用水平翻转作数据增强；

对于自行收集的1080p视频数据，提取可用于人脸检测的视频帧，对每一帧进行人脸手工或机器标注，对视频帧中出现的每个人脸进行尺度缩小，在原有图像尺寸上分别缩小至[*0.9，*0.8，*0.7]，在缩小的图像上截取700*700像素的包含人脸的图像，然后在700*700像素的图像上裁剪640*640像素的图像作为最终的训练图像。

S2）设计基于深度卷积的人脸检测网络

以VGG16作为卷积层提取特征，删除最后的全连接层，增加inception结构和扩张卷积结构；整个网络包含6个block，block是将网络整体截成6个部分，每个部分的featuremap的大小都不一样，在低层的3个block使用特征金字塔进行特征融合，特征金字塔指的是多种尺度的特征，在每个融合后的卷积模块后加一个3*3的卷积层，该卷积层不改变特征图的大小，可防止两个不同层特征融合后发生混叠效应，然后将低层的3个输出和其他3个未进行特征融合的卷积模块的最后一层输出均增加分类损失函数和回归损失函数；

将人工标注的多尺度的图像样本减去ImageNet均值（104,117,123）并归一化到[0,1],然后通过网络数据层输入到网络中进行训练，训练数据包含图像以及图像中包含所有人脸的坐标信息；对各层的分类损失函数通过均匀分配的方式配置权重；采用随机梯度下降算法优化网络权重，训练网络模型直至收敛。

S3）人脸检测网络前向传播

将步骤S1）中得到的训练图像输入到训练好的网络模型中做前向传播操作，利用Softmax函数计算各层特征金字塔输出的分类结果，利用逻辑回归函数计算各层特征金字塔输出的回归结果，分类结果表示该锚点的目标是行人或背景的概率，回归结果表示预测结果相对于锚点的偏差；回归偏差offset={dx,dy,dw,dh},其中dx,dy,dw,dh表示预测结果对于当前设置的anchor box的横坐标偏移量、纵坐标偏移量、宽度偏移倍数和高度偏移倍数。锚点表示为anchor={x,y,w,h}，其中(x,y)表示当前使用的anchor box的中心坐标，w和h表示宽和高；

筛选出锚点目标为行人的概率超过阈值的锚点，再去除锚点对应预测的偏差，用预测出的偏差修正锚点坐标，得到初步的预测结果P1={x+dx-w*dw/2,y+dy-h*dh/2,x+dx+w*dw/2,y+dy+h*dh/2}，预测结果是左上角的坐标和右下角的坐标。

S4）采用非极大值抑制算法

对初步得到的检测结果P1按照概率进行排序，进行非极大值抑制处理，遍历每一个候选框，将与之交并比超过0.35且概率较小的候选框去除，过滤掉局部非最大概率的检测结果，得到预测结果P2。

S5）得到最终检测结果

预测结果P2为目标框的左上角坐标（x1，y1）与目标框的宽和高（x2，y2），过滤超出图像范围的预测结果；

得到最终的检测结果P3。

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种非限定条件下的人脸检测方法，其特征在于包括如下步骤：

S1）图像预处理

S2）设计基于深度卷积的人脸检测网络

S3）人脸检测网络前向传播

将步骤S1）中得到的训练图像输入到训练好的网络模型中做前向传播操作，计算各层特征金字塔输出的分类结果和回归结果，分类结果表示锚点的目标是行人或背景的概率，回归结果表示预测结果相对于锚点的偏差；

S4）采用非极大值抑制算法

S5）得到最终检测结果

得到最终的检测结果P3。

2.根据权利要求1所述的一种非限定条件下的人脸检测方法，其特征在于：在步骤S1）中，所述对视频帧中出现的每个人脸进行的尺度缩小，在原有图像尺寸上分别缩小至[*0.9，*0.8，*0.7]，在缩小的图像上截取700*700像素的包含人脸的图像，然后在700*700像素的图像上裁剪640*640像素的图像作为最终的训练图像。