CN109657551B

CN109657551B - 一种基于上下文信息增强的人脸检测方法

Info

Publication number: CN109657551B
Application number: CN201811361695.0A
Authority: CN
Inventors: 陈龙; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2023-11-14
Anticipated expiration: 2038-11-15
Also published as: CN109657551A

Abstract

本发明涉及一种基于上下文信息增强的人脸检测方法，包括：收集不同场景下的包含人脸目标的图像数据，并将每张图像中所包含的人脸目标标记出来；图像数据集划分；设计基于上下文信息增强的深度卷积网络结构；设计上下文信息增强的子网络；设计多路径增强子网络；设计检测子网络。

Description

一种基于上下文信息增强的人脸检测方法

技术领域

本发明涉及人脸识别、身份验证、安防监控、门禁考勤等计算机视觉相关领域的人脸检测方法，特别是涉及小尺度目标检测与基于深度卷积神经网络的人脸检测方法。

背景技术

目标检测是计算机视觉领域中重要研究领域之一，随着深度学习技术的不断完善与发展，基于深度学习的目标检测技术已经在诸多现实领域中具有广泛的应用。而人脸检测任务作为其中一个重要的研究方向已获得了长足的发展，且随着信息化的不断加深，基于人脸检测技术的个人身份认证、安防监控、门禁考勤、客流统计等人工智能技术逐渐出现在安全、商业等诸多应用场景中。

人脸检测任务是指利用相关的算法与模型将图像或视频数据中存在的感兴趣目标与背景区分出来，同时利用检测框的形式给出人脸目标在图像中所在的位置信息。图1中展示了两个基于人脸检测的人工智能技术在不同场景下的应用示例图。传统的考勤门禁***是采用刷卡的方式进行信息的统计，但这种方式存在很多弊端，如：忘记带卡、代刷卡等现象；后来出现了指纹打卡的形式，但会存在因手部的变化会使得识别效果受到严重影响的问题；而图1(a)中基于人脸检测技术的方法则有效地避免了上述问题，且更加便捷、高效。图1(b)中，为了统计商业活动中的客流信息，监控***会实时进行采集，并分析不同顾客的消费习惯及客流分布情况。

人脸检测任务的目标是找到图像中存在的人脸目标及其位置信息，在约束环境下，图像中的人脸目标比较显著，且受到的环境影响较小，故该情况下的算法研究已达到一个较好的水平；但在非约束环境下，存在较多的影响因素，如：人脸的尺寸变化范围很大、光照条件不一、成像质量不同、面部遮挡等问题，导致在该情况下的人脸检测任务存在极大的困难和挑战。在经典的目标检测算法中主要分为两类：双阶段方法[1]主要包含候选位置的生成以及候选目标的分类两个步骤；单阶段方法[2]则是直接在图像中同时完成候选目标的生成与分类。两者相比而言，双阶段方法具有更高的准确率，单价段方法的检测速度更快。

而开放环境下人脸检测的难点在于解决多尺度以及目标信息匮乏等问题，现有的检测方法中通过图像金字塔[1][3]、特征金字塔[2][4][5]以及引入上下文信息[3][6]等方法来解决上述问题。但当前针对于单阶段检测模型中不能较好地融入上下文信息的问题。

参考文献：

[1]Ren S,He K,GirshickR,et al.Faster R-CNN:towards real-time objectdetection with regionproposalnetworks[C]//International Conference onNeuralInformation Processing Systems.MIT Press,2015:91-99.

[2]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[J].2015:21-37.

[3]Hu P,RamananD.Finding tiny faces[C]//IEEE Conference onComputerVision and Pattern Recognition.IEEE Computer Society,2017:1522-1530.

[4]C.-Y.Fu,W.Liu,A.Ranga,A.Tyagi,A.C.Berg,DSSD:Deconvolutional SingleShot Detector,CoRR abs/1701.06659,2017.

[5]T.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and S.Belongie,FeaturePyramid Networks for ObjectDetection,Proc.IEEE ComputerVision andPatternRecognition,2017.

[6]Cai Z,Fan Q,Feris R S,et al.A UnifiedMulti-scale DeepConvolutional NeuralNetwork forFast Object Detection[C]//European Conferenceon Computer Vision.Springer,Cham,2016:354-370.

发明内容

本发明的目的是提供一种人脸目标检测性能较好，可以提高算法对开放环境下人脸检测的鲁棒性的。本发明在单阶段网络中利用不同尺度的检测分支，并引入多感受野的、多语义层级的上下文特征，以此来使得网络能够得到候选目标更加丰富的特征信息，帮助网络提升在非约束环境下对小尺度人脸目标、存在遮挡的人脸目标的检测性能。技术方案如下：

一种基于上下文信息增强的人脸检测方法，包含以下步骤：

(1)收集不同场景下的包含人脸目标的图像数据，并将每张图像中所包含的人脸目标标记出来，标注内容为每个目标在图像中的位置信息以及相对于目标的标签信息，来作为每张图像的标签信息；

(2)图像数据集划分：将收集到的数据集划分为：训练集、验证集以及测试集；

(3)设计基于上下文信息增强的深度卷积网络结构：包括设计网络结构中的主干子网络结构，包括其中的卷积层、池化层、非线性激活层等的相关结构及其参数的设置，设计训练过程中的训练策略及其所需的损失函数，并选择合适的方法实现对所设计模型的参数初始化；

(4)设计上下文信息增强的子网络：采用跨层之间的跳连接来传递卷积层之间的信息，利用尺寸较小的卷积核堆叠的方式等效出较大卷积核的特性；引入深度可分离卷积，将进行三维卷积的同时考虑区域与通道，变换为先只考虑局部区域，再考虑通道间的关系，进而将区域与通带分离开来，对于主干子网络中每一个特征分支输出的特征图，均利用该模块进一步提取候选目标的上下文信息，作为参考特征来辅助网络模型对人脸目标的判别；

(5)设计多路径增强子网络：将不同分支经过上下文信息增强后的特征做进一步不同路径间多语义层级的特征融合，将相邻路径中高语义层级的特征经过上采样与低语义层级特征进行融合，低语义层级的特征经过下采样与高语义层级特征相融合，经过该操作得到的特征图作为检测子网络的输入特征图；

(6)设计检测子网络：给网络模型输入图像，经过(4)和(5)设计的子网络的基础特征提取、上下文信息增强与多语义特征融合得到最终的输出特征，该特征通过检测子网络计算出每个候选目标的置信概率与位置偏移量，进而根据预先设置的状态阈值对其进行判别，最终得到输入图像中人脸目标的检测结果。

采用本发明中的方法实现简单，便于将该方法应用到需要增强上下文信息的目标检测器中，在保证检测效率的同时，引入更加丰富的上下文信息与不同语义级别的特征信息，有效地提高了单阶段网络在复杂环境下对感兴趣目标的检测性能，有助于对小尺度目标与存在遮挡问题目标的检测任务。

附图说明

图1物体检测的应用示例(a)考勤门禁(b)客流信息统计

图2传统的深度卷积网络应用于目标检测方法示意

图3本发明中设计的基于上下文信息增强的人脸目标检测方法示例

图4本发明所提出方法中的上下文信息增强子网络示例

图5上下文信息增强模块中采用的可分离卷积示例

图1中描述了本发明在各个现实场景中的实际应用示例。

图2中描述了传统的基于深度卷积网络的目标检测方法的应用示例。

图3中描述了本发明中所涉及的开放场景中基于上下文信息增强的人脸目标检测方法的示例。

图4描述了本发明中设计的上下文信息增强子网络示例。

图5描述了本发明中上下文信息增强模块所采用的可分离卷积示例。

具体实施方式

下面将结合附图来进一步对本发明进行描述。

图2中描述的是传统深度卷积网络的目标检测方法应用在目标检测中的示例。该种方法的结构较为简单，只是由多个卷积层、池化层进行串联式的堆叠而成，这些卷积层的卷积核大小固定，每层相对的感受野固定，进而获得到的特征信息有限。其工作流程为：将原始的图像数据输入到预先设计的深度卷积网络中，经过特征提取之后，直接对候选目标进行分类与回归，进而得到感兴趣目标的类别信息与位置信息。其中所提取到的特征相对固化，尤其对于尺寸较小或存在遮挡等问题的目标所提取到的有效信息就更加难以满足要求，无法较好的反应出目标的特性。

图3中描述了本发明中所提出的基于上下文增强的人脸目标检测方法的示例。该深度网络模型主要包含四个部分：主干子网络、上下文信息增强子网络、多路径增强子网络和检测子网络。其中主干子网络主要是用于提取候选目标中的通用性特征，该特征主要反映候选目标的基础特性。上下文信息增强子网络主要包含两个部分：上下文信息增强(如图4中所示)与深度可分离卷积(如图5中所示)，其作用是引入候选目标的上下文信息，用于缓解由于目标所含的信息匮乏而难以检测的问题。多路径增强子网络用于融合不同语义层级的特征，增强算法模型的特征表达能力。检测子网络是基于模型前期提取出的特征信息，利用特定的目标分类器实现对人脸目标的判别与预测。

上下文信息的引入对于复杂场景下的人脸检测至关重要，增强网络对候选目标的特征表达能力，有助于提高网络对不同场景下人脸的鲁棒性。本发明中的方法应用于人脸检测任务中主要包含三个步骤：数据集的准备、设计并训练基于上下文信息增强的人脸检测模型、测试/应用检测模型。其具体实施步骤描述如下：

(1)准备训练/测试网络所需的图像数据集。

(a)准备标注好的图像数据，所选的图像数据应包含有不同场景下的人脸目标。由于基于深度卷积网络的目标检测方法是有监督学习中的一种，故在对此模型进行训练是需要对所选数据进行相应的标注，其中包括人脸目标的位置信息与类别信息。

(b)处理数据集。将所准备的数据集分别按照一定的比例划分为训练集、验证集、测试集，训练集用于对深度卷积网络的训练，验证集用于选择最佳的训练模型，测试集用于后期测试设计模型的性能或实际应用时使用。

(c)数据增强。为进一步提高网络的泛化性能，应运用随机反转、随机平移、随机裁剪等方法对数据进行增强，进而提升模型对不同场景下人脸目标的检测效果。

(2)设计并训练基于上下文信息增强的人脸检测模型。

(a)设计基于上下文信息增强的单阶段检测器。其中包括选取合适的提取图像基础特征的主干子网络，以及检测框子网络包含的融合上下文信息模块的设置，子模块中所用的串行的滤波器的个数，卷积核的大小以及用于多路径增强的子网络结构等细节设置。

(b)设计上下文信息增强子网络结构。该结构利用采用跨层之间的跳连接来增大感受野，相比于一般方法，该结构能够在增大感受野的同时减少网络参数量的增加，且模拟出更加丰富的特征层级，并减轻了深度卷积网络中的梯度消失问题；最大限度地利用了不同语义层级的特征，丰富了网络所提取的特征信息。既实现了利用多感受野特征来丰富目标的上下文信息，又在一定程度上减少了特征提取模块的参数，同时有效地利用以及丰富了不同的卷积层特征，增强了该模块的特征表达能力。但由于用到稠密的跳连接结构，在此模块中靠后的层级输入是前面输出的叠加，导致计算量会增大。故在此处引入深度可分离卷积的结构，这样既减少了模型所需的参数量，又降低了该模块在提取上下文信息过程中的运算量，使得网络模型在提高对难例样本检测精度的同时，不增加计算量与运算时间，提高算法的检测效率。

(c)初始化网络参数。设置训练阶段的相关超参数，包括迭代次数、学习率以及网络最终收敛条件等。

(d)模型优化。设定训练的损失函数，该损失函数包括候选窗口提取的损失函数和候选窗口分类的损失函数。根据反向传播算法，不断更新网络的权重参数。当迭代次数结束时，所学习的权重参数为最终的网络参数。

(3)测试/应用已训练好的检测网络模型。

给定用于测试网络模型的图像数据，将其输入到已训练好的检测模型中来提取出该图像中所包含的人脸目标。首先，通过前期的主干子网络实现对候选目标基础的信息的提取；再利用本发明中所设计的上下文增强方法来引入更多的上下文信息；其次利用多路径增强子网络实现多语义层级的特征融合；然后通过检测子网络对候选目标做出判别，并输出潜在的人脸目标；最终利用非极大值抑制对这些检测窗口进行合并，经过偏移得到更加准确的检测框结果。

Claims

1.一种基于上下文信息增强的人脸检测方法，包含以下步骤：

（1）收集不同场景下的包含人脸目标的图像数据，并将每张图像中所包含的人脸目标标记出来，标注内容为每个目标在图像中的位置信息以及相对于目标的标签信息，来作为每张图像的标签信息；

（2）图像数据集划分：将收集到的数据集划分为：训练集、验证集以及测试集；

（3）设计基于上下文信息增强的深度卷积网络结构，包括，

设计上下文信息增强的子网络：采用跨层之间的跳连接来传递卷积层之间的信息，利用尺寸较小的卷积核堆叠的方式等效出较大卷积核的特性；引入深度可分离卷积，将进行三维卷积的同时考虑区域与通道，变换为先只考虑局部区域，再考虑通道间的关系，进而将区域与通带分离开来，对于主干子网络中每一个特征分支输出的特征图，均利用上下文信息增强的子网络进一步提取候选目标的上下文信息，作为参考特征来辅助网络模型对人脸目标的判别；

设计多路径增强子网络：将不同分支经过上下文信息增强后的特征做进一步不同路径间多语义层级的特征融合，将相邻路径中高语义层级的特征经过上采样与低语义层级特征进行融合，低语义层级的特征经过下采样与高语义层级特征相融合，经过操作得到的特征图作为检测子网络的输入特征图；

（4）设计检测子网络：给网络模型输入图像，经过（3）设计的深度卷积网络结构的基础特征提取、上下文信息增强与多语义特征融合得到最终的输出特征，该特征通过检测子网络计算出每个候选目标的置信概率与位置偏移量，进而根据预先设置的状态阈值对其进行判别，最终得到输入图像中人脸目标的检测结果。