CN111898410A

CN111898410A - 无约束场景下的基于上下文推理的人脸检测方法

Info

Publication number: CN111898410A
Application number: CN202010531633.0A
Authority: CN
Inventors: 徐琴珍; 杨哲; 邵文韬; 刘茵茵; 侯坤林; 朱颖; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-11-06

Abstract

本发明提供了一种在无约束场景下的基于上下文推理的人脸检测方案，属于多媒体信号处理领域。本发明将训练集进行数据增广，以VGGNet‑16作为基础特征提取网络，通过低层级特征金字塔网络加权地融合不同层特征，并在预测环节采用上下文辅助预测模块扩充子网络以加深、加宽网络模型，引入自适应锚点取样的数据增强方式和多尺度训练方法，增强了模型对于尺度的适应力。本发明不仅可提取出最具表达力的描述信息，还能较好地弥补未被充分提取的面部特征，且可优化对面部特征的利用率，适用于检测难度较高的无约束场景，尤其对微小的、模糊的、遮挡的人脸也能实现精准检测。

Description

无约束场景下的基于上下文推理的人脸检测方法

技术领域

本发明属于图像处理技术领域，涉及一种无约束场景下的基于上下文推理的人脸检测方法。

背景技术

智能化终端设备的普及深刻地影响着人类的思维方式，对其社交本质有了全新的定义。人脸检测是计算机视觉领域中最贴合日常生活的应用，它将人类从繁重的视觉处理工作中解脱出来，转而用机器去分析和汇总图像、视频中的指定信息，对时代社会的发展产生了深远的影响。在智能手机上，iPhone X、华为Mate20pro分别在IOS平台、安卓平台实现3D人脸识别解锁，更好地保护了隐私；在安防监控中，可以通过人脸识别技术去追踪和捕获不法分子，加强了治安维护力度；在财产安全方面，支付宝率先推出刷脸支付、信用贷款进行身份认证，提高效率的同时也保证了安全性。

早期主流的人脸检测方法，大都基于人工设计的模板匹配技术，对无遮挡的正面清晰人脸的检测效果较好，尽管易于实现，且几乎不受光照、图片成像质量影响，但由于人脸的高可塑性，无法制定出完全有效的人脸模板以适应姿势、尺度等的变化，导致精度受限。仅仅通过机械地比对手工特征与目标人脸之间的自相关性来判定图像中是否存在人脸的传统人脸检测方法并不适用于无约束场景。

随着深度学习的飞速发展，基于卷积神经网络的人脸检测方法以其强大的表征学习与非线性建模能力逐步取代了传统人脸检测方法，显著提升了检测性能，尤其对于毫无遮挡的清晰人脸几乎都可以达到百分之百的准确率。但是，在自然场景下的无约束人脸极易受到遮挡、光照、表情、姿态等外部环境因素的干扰，造成面部特征提取、利用不充分；此外，尺寸较小的低分辨率人脸更是瓶颈所在，以小尺寸锚点对小人脸进行密集采样，极易产生过多的背景负样本，造成误检率上升。现有无约束场景下的人脸检测方法其准确率尚显不足，未能取得令人满意的效果。

发明内容

为解决上述问题，本发明提供了一种无约束场景下的基于上下文推理的人脸检测方法，着重在以下两方面进行改进和优化：一方面，充分提取面部特征，尤其是更具表达力的描述信息，通过低层级特征金字塔网络加权地融合不同层级的特征，并在预测环节采用上下文辅助预测模块扩充子网络，更深、更宽的网络模型可以较好地弥补未被充分提取的面部特征；另一方面，引入自适应锚点取样的数据增强方式和多尺度方法，增强了模型对于尺度的适应力，进而提高对于面部特征的利用率。

为了达到上述目的，本发明提供如下技术方案：

无约束场景下的基于上下文推理的人脸检测方法，包括如下步骤：

步骤1，对WIDER FACE(目前最为权威的人脸检测基准)训练集进行数据增广；

步骤2，基于步骤1的增广图片，以VGGNet-16(经典的深度卷积神经网络)作为基础特征提取网络，通过低层级特征金字塔网络加权地融合不同层的特征，并在预测环节采用上下文辅助预测模块扩充子网络，进而加深、加宽网络模型；

步骤3，在训练参数初始化后，应用多尺度训练方法指导模型的自主学习过程，当损失收敛后保存模型，并进行检测。

进一步的，所述步骤1具体包括如下子步骤：

步骤1.1：对WIDER FACE训练集中的图片进行水平翻转和随机裁剪，作为初步预处理，具体操作为：首先将输入图像扩展为原先尺寸的4倍，接着再对每一张图片进行镜像水平翻转，最后随机地裁剪出640×640的区域大小，即应用下式进行处理：

x_preprocess＝Crop(Flip(Extend(x_input)))

式中，x_input表示输入的训练集图片，Extend操作是采用填充均值的方式进行图片扩展，Flip操作表示随机地进行水平翻转，Crop为随机裁剪操作，x_preprocess则表示相应的初步预处理结果，其尺寸统一为640×640；

步骤1.2：采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰，再次对步骤1.1中得到的初步预处理结果x_preprocess进行不同程度地增强，进而得到综合处理后的增广图片x_process，如下式所示：

式中，Color操作表示色彩抖动方式，Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。

步骤1.3：采用自适应锚点取样方法对某图像中的人脸进行重塑，以此引入具有更高概率的更大人脸，具体操作为：在某一图像中选取一个大小为s_face的人脸，预设第i层特征图(i＝0,1,…,5)上的锚点尺度s_i如下式所示：

s_i＝2⁴⁺ⁱ

将第i层特征图上与人脸大小s_face最接近的锚点的索引表示为：

其中，

为第i层特征图的锚点尺度；

之后再在集合{max(0,i_anchor-1),1,…,min(5,i_anchor+1)}中依次选取索引i_result，最后将原图s_face调整大小至s_result：

以此得到该图像的整体尺寸的缩放比例为s^*：

s^*＝s_result/s_face

通过将原始样本图片按照s*缩放后，再随机裁剪出包含了选中人脸的640×640区域，即为经过自适应锚点取样后的训练样本图片。

进一步的，所述步骤2具体包括如下子步骤：

步骤2.1：通过VGGNet-16对增广的输入图片进行基础特征抽取，其中分别选取conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2、conv7_2作最后的预测，其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5；

步骤2.2：通过低层级特征金字塔网络加权地融合低层细节特征与高层语义特征，可提取出更具表现力的描述信息，记步骤2.1中用作预测的较浅的、较深的特征图分别为φ_i、φ_i+1，H表示作用在较高层级特征图上的2倍上采样操作，θ代表上采样操作的相关参数，则加权融合后所生成的新特征图可表示如下：

φ′_i＝α*φ_i+β*H(φ_i；θ)

式中，α和β是平衡二者的超参数，等式左侧所得到的新特征图将继续与较低层的特征图递归地进入低层级特征金字塔网络，直至最低层；

步骤2.3：将上述步骤中所得到的加权融合后的特征图送入上下文辅助预测模块，各子网络选择拼接方式融合实现通道并联，进而加深、加宽网络模型。

进一步的，所述步骤3具体包括如下子步骤：

步骤3.1：对训练参数进行初始化；

步骤3.2：应用多尺度训练方法，在训练过程中划分三个尺度，分别对应不同分辨率的图像，且每个分辨率下的感兴趣区域都有其指定范围：若真值框的大小在该范围内，则被标记为正确，反之为错误；在生成锚点并为其分配标签时，需要首先检测该锚点是否与某个标记为错误的真值框的重叠部分占比超过一定比例，若存在，则该锚点即被视为错误锚点，否则为正确锚点；被判定为错误的锚点在训练时会被无效化，并不会加入到反向传播的过程中而对参数产生影响；

步骤3.3：采用smooth L1损失、softmax损失分别学习和监督位置回归、类别打分，当该二者的损失和不再上升，而是稳定在一个较小值域时，则可停止训练，存储模型，并进行检测；反之，则返回步骤3.1。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明弥补了现有方法对更具表现力的信息的忽视，通过低层级特征金字塔网络对低层细节信息与高层语义信息进行加权融合，且上下文辅助预测模块以扩充子网络的方式加深、加宽网络模型，补救了未被充分提取的面部特征。

2.本发明进一步加强了模型对于尺度的敏感度和适应力，引入自适应锚点取样的数据增强方式和多尺度训练方法，提高了对于面部特征的利用率，取得了良好的增益。

3.本发明在面向无约束场景下具有尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆等这些属性的人脸时，也能保持较高的检测精确率，抗干扰力较强，具有极高的可塑性和综合性。

附图说明

图1为本发明基于上下文推理的人脸检测方法的流程图。

图2为本发明基于上下文推理的人脸检测方法的网络模型图。

图3为人脸图像处理增强方式示意图。

图4为自适应锚点取样前后训练样本数据分布对比图。

图5为低层级特征金字塔网络结构示意图。

图6为低层级特征金字塔网络融合特征可视化。

图7为上下文辅助预测模块结构示意图。

图8为用训练好的模型对WIDER FACE测试集上的人脸样本进行检测的效果图。

图9为训练好的模型在WIDER FACE的Easy、Medium、Hard验证集上的检测精度。

图10为用训练好的模型对无约束的人脸进行检测的效果图。

附图中照片原图均为彩色图片，因专利提交要求，现修改为灰度形式。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

以WIDER FACE(目前最为权威的人脸检测基准)数据集为例，结合附图对本发明在无约束场景下基于上下文推理的人脸检测方法的具体实施方式作进一步详细说明，其流程如图1所示，包括以下步骤：

步骤1：对WIDER FACE训练集进行数据增广，主要包括以下三个方面：

x_preprocess＝Crop(Flip(Extend(x_input)))

式中，x_input表示输入的训练集图片，Extend操作是采用填充均值的方式进行图片扩展，Flip操作表示随机地进行水平翻转，Crop为随机裁剪操作，x_preprocess则表示相应的初步预处理结果，其尺寸统一为640×640。数据增强操作的示例如图3所示，其中第一行是原始的任意尺寸的输入图像，第二行是将相应的图进行尺寸放缩至原先尺寸的4倍，第三、四行是经过翻转、裁剪后的部分样本的图片初步预处理增强结果。

步骤1.2：采用色彩抖动、噪声扰动方式来模拟无约束场景下的干扰。下面简要对这两种数据增强方式进行介绍：

色彩抖动：考虑到光照强弱、背景氛围、拍摄情况等不尽相同，根据任意生成的随机因子以分别调整输入图像的饱和度、亮度、对比度、锐度。

噪声扰动：主要涉及高斯白噪声、椒盐噪声的加入，其中，高斯噪声是指噪声幅度服从高斯分布，即某一个强度的噪声点个数最大，离这个强度越远的噪声点个数越少，是一种加性噪声；椒盐噪声则是一种脉冲噪声，可通过随机改变某一些像素点的值而在原始图像上产生黑白相间的亮暗点噪声，说得形象一些，就像把椒盐撒在图像上一样，是一种逻辑噪声。

综上，再次对步骤1.1中得到的初步预处理结果x_preprocess进行不同程度地增强，进而得到综合处理后的增广图片x_process，如下式所示：

式中，Color操作表示色彩抖动方式，Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声。数据增强操作的示例如图3所示，第五行是对第四行裁剪出的图片进行色彩抖动增强方式，第六、七行是对第四行裁剪出的图片分别增加不同程度的高斯噪声和椒盐噪声，以增强模型对于任意环境外因的检测稳定性。

s_i＝2⁴⁺ⁱ

其中，

为第i层特征图的锚点尺度；

以此得到该图像的整体尺寸的缩放比例为s^*：

s^*＝s_result/s_face

通过将原始样本图片按照s*缩放后，再随机裁剪出包含了选中人脸的640×640区域，即为经过自适应锚点取样后的训练样本图片。图4展示了自适应锚点取样对WIDERFACE训练数据分布的影响，分别按照姿势属性、遮挡属性、模糊属性和光照属性进行比较，图中的虚线表示原先各个属性的样本分布情况，实线则表示相应的属性样本经过自适应锚点取样后的分布情况。

步骤2：基于步骤1的增广图片，以VGGNet-16作为基础特征提取网络，通过低层级特征金字塔网络加权地融合不同层的特征，并在预测环节采用上下文辅助预测模块扩充子网络，进而加深、加宽网络模型，主要包括以下几个步骤：

步骤2.1：通过VGGNet-16对增广的输入图片进行基础特征抽取，其中分别选取conv3_3、conv4_3、conv5_3、conv_fc7、conv6_2、conv7_2作最后的预测，其特征图尺寸分别为160×160、80×80、40×40、20×20、10×10、5×5。

φ′_i＝α*φ_i+β*H(φ_i；θ)

式中，α和β是平衡二者的超参数，这里为α、β分别赋值为4、1，主要是考虑到，让判别中、小尺度人脸能力强的特征图能够发挥更大的价值，且有利于削弱较差特征图所带来的负面干扰，等式左侧所得到的新特征图将继续与较低层的特征图递归地进入低层级特征金字塔网络，直至最低层。图5以VGGNet-16网络的conv5_3、conv_fc7为例，绘制了低层级特征金字塔网络的结构示意图，其中，conv5_3、conv_fc7的特征图尺寸分别为40×40、20×20。图6是对低层级特征金字塔网络融合后的特征的可视化，提取出的高层特征相当抽象，对于小的、模糊的、部分遮挡的人脸较为不利，而在融合各高底层的特征后，可以在较大程度上弥补面部的细节信息。

步骤2.3：将上述步骤中所得到的加权融合后的特征图送入上下文辅助预测模块，一方面扩大感受野使得预测模块更加深入以辅助分类，另一方面增加无残差子模块使得模型更加广泛化以辅助定位，各子网络选择拼接方式(Concatenate)融合实现通道并联，进而加深、加宽网络模型。图7是上下文辅助预测模块的结构示意图，它不仅保留了丰富的上下文信息，还在一定程度上弥补了低层级特征图的表征能力的不足，尽管低层级特征对于检测中、小尺寸的人脸很有帮助。

步骤3：在训练参数初始化后，应用多尺度训练方法指导模型的自主学习过程，当损失收敛后保存模型，并进行检测，主要包括以下几个步骤：

步骤3.1：对训练参数进行初始化，具体设置如下表1所示。

表1训练参数设置

其中，优化器选用动量值为0.9的随机梯度下降(SGD，Stochastic GradientDescent)方法；同时，为了防止过拟合，设置权重衰减值为10^-5。需要注意的是，考虑到网络学习过程的不断深入，对学习率有如下设置：随着迭代次数增加，当迭代次数在设置的步进列表{30000,40000,50000}中时，学习率降为原先的0.1，这样做可以防止网络参数在接近全局最优解时，由于学习率过大而导致错过最优值的意外情况发生。

步骤3.2：应用多尺度训练方法，在训练过程中划分三个尺度，分别对应不同分辨率的图像，且每个分辨率下的感兴趣区域都有其指定范围：若真值框的大小在该范围内，则被标记为正确，反之为错误；在生成锚点并为其分配标签时，需要首先检测该锚点是否与某个标记为错误的真值框的重叠部分占比超过30％，若存在，则该锚点即被视为错误锚点，否则为正确锚点；被判定为错误的锚点在训练时会被无效化，并不会加入到反向传播的过程中而对参数产生影响。具体设置为下表2所示。

表2多尺度训练方法参数设置

分辨率	0～16	16～128	>128
				尺度变换	*2.0	*1.0	*0.5
感兴趣区域	16～32	32～64	64～256

步骤3.3：采用smooth L1损失指导位置回归的训练，其表达式为：

式中，y⁽ⁱ⁾代表真实的位置标签，

代表模型预测的坐标标签信息，Ω表示先验框为正样本的区域集合。

采用softmax损失指导类别打分的训练，其表达式为：

式中，x_k表示实际的类别标签，z_m表示softmax层的输入，f(z_m)表示softmax层所预测的输出，T是训练数据集上的类别数。

这二者的损失和L可表示为：

L＝L_loc+L_conf

综上所述，本发明基于上下文推理的人脸检测方法的整体网络结构如图2所示。

步骤3.4：当渐进式损失不再上升，而稳定在一个较小值域(如(0,1])时，则可停止训练；否则，返回步骤3.1。

步骤3.5：停止训练，保存模型，并进行检测。用训练好的模型对WIDER FACE测试集中涉及尺度不一、模糊不清、光照强弱、姿势各异、面部遮挡以及化妆这些属性的部分人脸样本进行检测，用矩形框标注人脸，如图8所示，在这些高难度的无约束场景下依然能保持较高的检测精度。本发明的模型大小为91M，在公开的WIDER FACE的Easy、Medium、Hard验证集上的精度分别达到93.8％、92.5％、86.7％，如图9所示，在同等级模型尺寸范围内取得了良好的增益。本发明应用场景广泛，适用于各类无约束场景下的人脸检测任务，具有极高的综合性和泛化性，如图10所示，采用本发明方法对任意捕获的无约束人脸进行检测，仍具有较高的准确率。本发明在GPU(图形处理器)平台上的每秒可检测图片数可达51张，在只用CPU(中央处理器)的情况下，每秒也可以检测39幅图片，符合人脸检测任务中的实时性要求。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.无约束场景下的基于上下文推理的人脸检测方法，其特征在于，包括如下步骤：

步骤1，对WIDERFACE训练集进行数据增广；

步骤2，基于步骤1的增广图片，以VGGNet-16作为基础特征提取网络，通过低层级特征金字塔网络加权地融合不同层的特征，并在预测环节采用上下文辅助预测模块扩充子网络，进而加深、加宽网络模型；

2.根据权利要求1所述的无约束场景下的基于上下文推理的人脸检测方法，其特征在于，所述步骤1具体包括如下子步骤：

步骤1.1：对WIDERFACE训练集中的图片进行水平翻转和随机裁剪，作为初步预处理，具体操作为：首先将输入图像扩展为原先尺寸的4倍，接着再对每一张图片进行镜像水平翻转，最后随机地裁剪出640×640的区域大小，即应用下式进行处理：

x_preprocess＝Crop(Flip(Extend(x_input)))

式中，Color操作表示色彩抖动方式，Noise(Gaussian)、Noise(Salt&pepper)操作分别表示为图片加高斯噪声、椒盐噪声；

步骤1.3：采用自适应锚点取样方法对某图像中的人脸进行重塑，以此引入具有更高概率的更大人脸，具体操作为：在某一图像中选取一个大小为s_face的人脸，预设第i层特征图上的锚点尺度s_i如下式所示：

s_i＝2⁴⁺ⁱ

其中，i＝0,1,…,5；

其中，

为第i层特征图的锚点尺度；

以此得到该图像的整体尺寸的缩放比例为s^*：

s^*＝s_result/s_face

3.根据权利要求1所述的无约束场景下的基于上下文推理的人脸检测方法，其特征在于，所述步骤2具体包括如下子步骤：

步骤2.2：通过低层级特征金字塔网络加权地融合低层细节特征与高层语义特征，提取出更具表现力的描述信息，记步骤2.1中用作预测的较浅的、较深的特征图分别为φ_i、φ_i+1，H表示作用在较高层级特征图上的2倍上采样操作，θ代表上采样操作的相关参数，则加权融合后所生成的新特征图可表示如下：

φ_i'＝α*φ_i+β*H(φ_i；θ)

4.根据权利要求1所述的无约束场景下的基于上下文推理的人脸检测方法，其特征在于，所述步骤3具体包括如下子步骤：

步骤3.1：对训练参数进行初始化；