CN108875624A

CN108875624A - 基于多尺度的级联稠密连接神经网络的人脸检测方法

Info

Publication number: CN108875624A
Application number: CN201810605067.6A
Authority: CN
Inventors: 秦华标; 黄波
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-23
Anticipated expiration: 2038-06-13
Also published as: CN108875624B

Abstract

本发明公开了基于多尺度的级联稠密连接神经网络的人脸检测方法，属于图像处理和计算机视觉领域，适用于人脸识别、人脸表情识别、驾驶员疲劳检测等智能***。本发明包括区域提名网络的构建方法和多级稠密连接卷积网络模型的构建方法，具体包括：收集标注了人脸矩形框（bounding box）信息的人脸图片，形成一个符合各个子网络输入条件的训练数据集合；构造一个泛化能力强的级联稠密连接神经网络；利用训练数据集合分别训练各个子网络，并得到整体网络模型；最后利用该该整体网络模型，检测图片中的多姿态人脸。本发明通过在网络中引入了稠密连接的方式，使得网络能够充分提取人脸特征信息，从而提高多姿态下人脸检测的准确率。

Description

基于多尺度的级联稠密连接神经网络的人脸检测方法

技术领域

本发明属于图像处理和计算机视觉领域，具体是一种基于多尺度的级联稠密连接神经网络的人脸检测方法。

背景技术

人脸图像中包含了丰富的信息，对人脸图像的研究与分析是计算机视觉领域的重要方向和研究热点。比如在人脸识别、人群监控、摄影、人机交互和疲劳驾驶等各种人工智能应用中，人脸检测都是这些技术中关键的第一步，只有检测到人脸，后面的分析与研究才会有价值。

近十几年来，已有大量的学者对多姿态人脸检测算法进行了深入的研究，总体来说，多姿态人脸检测算法主要分为以下两大类：基于传统的机器学习方法和基于深度学习的方法。

传统的机器学习算法一般是通过大量的样本训练得到分类器，以判别是人脸还是非人脸。在测试阶段，最常用的方法是使用滑动窗口算法。首先，将输入图像缩放成各种不同的大小，建立图像金字塔。然后对于金字塔中的每一层图像的每个位置，取出一个固定大小的图片，称之为一个窗口。接着，在这个窗口中提取特征。最后，用训练好的分类器去判断这个窗口中是否是人脸。一般情况下，人脸检测算法需要分类的窗口数量非常非常多，对于一个分辨率为640×480的图片，一共大约有几十万个窗口，如何在短时间内准确的处理完这些窗口是每个人脸检测算法需要考虑的问题。另外在特征提取过程中，传统的机器学习算法提取的都是手工特征，例如：哈尔(Haar)特征，局部二值模式(Local Binary Pattern，LBP)特征，梯度直方图(Histogram of Oriented Gradient，HOG)特征。这些手工特征因为加入了设计者的先验知识，所以只能针对某些特定背景下的人脸有较高的准确率，难以应用于三维空间中多姿态人脸等复杂条件下。基于深度学习的方法在目前的人脸检测领域已经占据主导地位，主要的神经网络架构包括卷积神经网络(CNN)、深度置信网(DBN)、自动编码器(Auto-encoder)，其中在人脸检测中运用最为成功的是卷积神经网络。比如基于级联的卷积神经网络(Cascade CNNs)和基于多任务的卷积神经网络(MTCNN)，这些网络采用卷积层自动提取稳定的人脸特征，检测效果相对于传统机器学习算法得到了很大提升。但是目前基于深度学习的人脸检测模型往往是由数据驱动，用网络来拟合训练数据集，泛化性能较弱，在没有多姿态训练数据集参与训练的条件下很难检测到多姿态下的人脸。

因此，需要提出一种泛化性能更强的多姿态人脸检测算法，在没有多姿态人脸数据集参与训练的情况下也能提高人脸检测率。

发明内容

本发明的目的是解决人脸检测易受到姿态变化影响的问题，提供基于多尺度的级联稠密连接神经网络的人脸检测方法。本发明通过设计一个提取特征能力和泛化能力更强的级联稠密连接网络，然后利用收集并处理过的训练数据集训练该网络模型，最后利用训练完成的模型来检测人脸，实现对多姿态下的人脸也能达到很好效果的算法。

本发明的至少通过如下技术方案之一实现。

基于多尺度的级联稠密连接神经网络的人脸检测方法，该方法包括区域提名网络的构建方法和多级稠密连接卷积网络模型的构建方法：

区域提名网络的构建方法为：在区域提名网络的多个卷积层都进行可能包含人脸区域的得分预测和边框的预测；然后淘汰得分小于设定阈值的区域块，将剩下的区域块进行非极大值抑制来得到最终的可能包含人脸的区域；最后将预测得到的人脸区域送进第二级的稠密连接卷积网络；

多级稠密连接卷积网络模型的构建方法为：利用卷积层不断提取人脸更加抽象的特征，同时将低层卷积层提取到的特征与高层卷积层提取到的特征进行连接；然后在最后一层卷积层接入全局平均池化层，对前一层预测的人脸区域进行精细分类和边框回归；最后将剩下的人脸区域送进第三级稠密连接卷积网络，进行更加精细的分类和边框回归，从而预测得到最终的人脸区域。

进一步的，利用区域提名网络的不同卷积层提取更多高质量(即人脸区域在候选区域中占比尽可能大)的包含人脸的候选区域，防止因提取的候选区域过少的而造成的漏检；采用在区域提名网络的最后两个卷积层分别接上分类层和回归层，进行人脸区域得分的预测和边框回归；最后淘汰得分低于阈值T₁的候选框，将剩下的候选框进行非极大值抑制从而得到最终预测结果；T₁取值范围为0～1。

进一步的，通过引入全局平均池化层取代传统的全连接层来进行人脸的分类和回归；在每一级稠密连接网络的最后一个卷积层后接入全局平均池化层，对前一层卷积网络输出的每一张特征图求整体平均值，充分地学***均池化层后接入多分类(softmax)层来对前一级预测的人脸区域进行分类和回归。

进一步的，通过构建级联的卷积稠密连接网络来提取人脸特征并进行精细的分类和回归，在每一级的稠密连接网络中能有多个密集连接块，每个密集连接块由多个卷积层构成，相同密集连接块的卷积层必须能生成相同大小的特征图；在同一个密集连接块中，每一层卷积层的输入由前面所有卷积层生成的特征图相连而成；两个相邻的密集连接块由过渡层相连接；第二级和第三级网络分别由包含两个密集连接块和三个密集连接块的稠密连接卷积网络组成，对第一级预测的人脸区域进行逐级淘汰和位置精修；所述过渡层包括一个卷积层和一个池化层。

进一步实施的，基于多尺度的级联稠密连接神经网络的人脸检测方法，该方法包括：(1)收集标注了人脸矩形框信息的人脸图片，形成一个初始训练数据集合D₁，利用D₁生成符合第一级网络输入格式的子训练数据集D₂；(2)设计一个可以提取更多高质量候选区域的区域提名网络，并利用子训练数据集D₂训练该子网络模型，然后将初始训练数据集合D₁送入该子网络模型进行检测，由检测的结果生成下一级的训练数据D₃；(3)设计提取特征能力和泛化能力更强的级联(两级)稠密连接网络，将D₃送入稠密连接网络的第一级进行训练生成子网络模型，然后将D₁送入区域提名网络和第一级稠密连接网络组成的网络中进行检测，由检测的结果生成下一级稠密连接网络的训练数据集D₄，再利用D₄训练第二级级联稠密连接网络；(4)利用训练得到的网络模型，检测待测试图片中的多姿态人脸。

进一步的，所述的步骤(1)，包括：将人脸数据集D₁预处理为符合级联网络中第一级网络输入格式的子训练数据集D₂，其分辨率的大小为12×12。该子训练数据集含有三种类型的训练图片：人脸图像，部分人脸图像，非人脸图像。三种类型图片的标签信息制作如下：人脸图像标记为1，部分人脸图像标记为-1，非人脸图像标记为0。其中，人脸和部分人脸图像还标记有人脸矩形框信息，非人脸图像的人脸矩形框信息用-1标记。

进一步的，所述的步骤(2)，包括：利用区域提名网络的不同卷积层提取更多高质量的包含人脸的候选区域，防止因提取的候选区域过少而造成的漏检。该方法采用在区域提名网络的最后两个卷积层分别接上分类层和回归层，进行人脸区域得分的预测和边框回归；最后淘汰得分低于阈值T₁(T₁取值范围为0～1，本方法取0.9)的候选框，将剩下的候选框进行非极大值抑制从而得到最终预测结果。然后用预处理后的数据集D₂训练该区域提名网络，在训练完成之后将D₁输入该网络进行检测，并把检测结果中的人脸矩形框与D₁相对应图片的真实人脸矩形框信息计算交并比(Intersection over Union，IOU)，IOU>0.85标记为人脸样本，0.55<IOU<0.7的标记为部分人脸样本，IOU<0.35标记为非人脸样本，生成下一级网络的训练数据集D₃，D₃的图像分辨率为24×24。

进一步的，所述的步骤(3)，包括：构建级联的卷积稠密连接网络来提取人脸特征并进行精细的分类和回归，在每一级的稠密连接网络中可以有多个密集连接块，每个密集连接块由多个卷积层构成，相同密集连接块的卷积层必须可以生成相同大小的特征图；在同一个密集连接块中，每一层卷积层的输入由前面所有卷积层生成的特征图相连而成；两个相邻的密集连接块由过渡层(一个卷积层和一个池化层)相连接；稠密连接网络的最后一个卷积层后接入全局平均池化层，对前一层卷积网络输出的每一张特征图求整体平均值，特征图的个数应与分类的类别数保持一致。利用D₃训练第一级的稠密连接网络，在训练完成之后，将D₁送入区域提名网络和第一级稠密连接网络组成的网络之中进行级联的检测，然后生成子训练数据集D₄，D₄的图像分辨率为48×48，生成方法与步骤(2)一样。最后，利用D₄训练第二级稠密连接网络。

进一步的，所述的步骤(4)，包括：将区域提名网络和两级稠密连接网络进行级联，构成一个三级级联的网络整体。然后将一张新的图片进行金字塔尺度变换，变换比例为0.709，将变换后的图片输入第一级的区域提名网络模型中，产生大量的人脸分类得分和人脸矩形框回归向量，淘汰得分低于阈值T₁(T₁取值范围为0～1，本方法取0.9)的人脸矩形框，将剩下的人脸矩形框进行非极大值抑制从而得到最终预测结果；然后将预测的结果输入到第二级网络模型中，同样淘汰得分低于阈值T₂(T₂取值范围为0～1，本方法取0.7)的人脸矩形框，再利用非极大值抑制算法筛选重叠较大的人脸矩形框；最后将预测结果输入到第三级网络模型中，输出人脸分类的得分和人脸矩形框信息，同样淘汰得分低于阈值T₃(T₃取值范围为0～1，本方法取0.8)的人脸矩形框，再利用非极大值抑制算法筛选重叠较大的人脸矩形框，得到最终的预测结果。

与现有技术相比，本发明具有如下优点和效果：本发明通过让区域提名网络预测更多的候选区域，能有效防止人脸的漏检；同时引入了提取特征能力更强的稠密连接网络，用全局平均池化层取代全连接层，能够进一步的提升网络的泛化能力。因此，本发明的模型在多姿态下的效果更好。

附图说明

图1a、图1b分别为训练阶段和测试阶段的流程图。

图2a、图2b、图2c分别为三个子网络的网络结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明，但本发明的实施不限于此。需指出的是，以下若有未特别详细说明之过程，均是本领域技术人员可参照现有技术实现的。

本实施方式中，所提出的基于多尺度的级联稠密连接神经网络的多姿态人脸检测算法能一定程度上克服多姿态带来的影响。

本实施方式中，在训练阶段，如图1a所示，具体实施方式如下。

步骤1：首先制作符合第一级网络输入格式的训练子集D₂，分辨率大小为12×12。将现有的人脸数据集D₁随机截取出三种类型的子图像块：人脸图、部分人脸图、非人脸图。标签信息制作如下：人脸图像标记为1，部分人脸图像标记为-1，非人脸图像标记为0。其中，人脸和部分人脸图像还标记有人脸矩形框信息，非人脸图像的矩形框信息用-1标记。然后将大小为12×12的子训练数据集D₂输入第一级网络(区域提名网络)中，采用随机梯度下降法更新网络的参数，总迭代22轮(遍历完一遍所有的训练数据集称为一轮)，初始学习率设置为0.01，当训练到第6轮时，学习率设置为0.001，达到第16轮时，学习率设置为0.0001，直到训练完毕。

区域提名网络的目标函数为：

其中N表示训练样本的个数，j为1表示分类任务，j为2表示边界框回归任务，i表示第i个样本，α_j表示不同任务的权重，表示样本x_i的类型指示，表示不同任务的损失函数，如下(2)为分类任务的损失，(3)为边界框回归任务的损失。

其中表示样本x_i的真实标签，其值为0或1，0表示非人脸，1表示人脸，p_i表示网络将样本x_i判定为人脸的概率。

公式(3)中的i表示第i个样本，表示网络预测的每个候选窗的边界框位置增量，表示真实的边界框位置增量，以四维实数向量表示。

步骤2：利用得到的区域提名网络模型来生成第二级网络的训练数据D₃并训练第二级网络。首先将D₁送进区域提名网络进行检测，得到人脸得分的预测和人脸矩形框的预测；淘汰得分低于阈值T₁(T₁取值范围为0～1，本方法取0.9)的人脸矩形框，将剩下的人脸矩形框进行非极大值抑制从而得到最终预测结果，并把预测结果中的人脸矩形框与D₁相对应图片的真实人脸矩形框信息计算IOU，IOU>0.85标记为人脸样本，0.55<IOU<0.7的标记为部分人脸样本，IOU<0.35标记为非人脸样本，生成下一级网络的训练数据集D₃，D₃的图像分辨率为24×24。将生成的训练数据集D₃送入第三级网络进行训练，总共训练18轮，初始学习率设置为0.01，当训练到第6轮时，学习率设置为0.001，达到第12轮时，学习率设置为0.0001，直到训练完毕。采用的损失函数与第一级网络一样。

步骤3：利用前两级训练好的模型生成第三级网络的训练数据集D₄，并完成第三级网络的训练。将D₁送入区域提名网络和第一级稠密连接网络组成的网络之中进行级联的检测，采用与步骤2一样的方法生成子训练数据集D₄，D₄的图像分辨率为48×48。最后，利用D₄训练第二级稠密连接网络，总共训练18轮，初始学习率设置为0.01，当训练到第6轮时，学习率设置为0.001，达到第12轮时，学习率设置为0.0001，直到训练完毕。采用的损失函数与第一级网络一样。

本实施方式中，测试阶段，如图1b所示，将一张新的图片进行金字塔尺度变换，变换比例为0.709，将变换后的图片输入第一级的区域提名网络模型中，产生大量的人脸分类得分和人脸矩形框回归向量，淘汰得分低于阈值T₁(T₁取值范围为0～1，本方法取0.9)的人脸矩形框，将剩下的人脸矩形框进行非极大值抑制从而得到最终预测结果；然后将预测的结果输入到第二级网络模型中，同样淘汰得分低于阈值T₂(T₂取值范围为0～1，本方法取0.7)的人脸矩形框，再利用非极大值抑制算法筛选重叠较大的人脸矩形框；最后将预测结果输入到第三级网络模型中，输出人脸分类得分和人脸矩形框信息，同样淘汰得分低于阈值T₃(T₃取值范围为0～1，本方法取0.8)的人脸矩形框，再利用非极大值抑制算法筛选重叠较大的人脸矩形框，得到最终的预测结果。

Claims

1.基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于，该方法包括区域提名网络的构建方法和多级稠密连接卷积网络模型的构建方法：

2.如权利要求1所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于利用区域提名网络的不同卷积层提取更多高质量的包含人脸的候选区域，防止因提取的候选区域过少的而造成的漏检；采用在区域提名网络的最后两个卷积层分别接上分类层和回归层，进行人脸区域得分的预测和边框回归；最后淘汰得分低于阈值T₁的候选框，将剩下的候选框进行非极大值抑制从而得到最终预测结果；T₁取值范围为0～1。

3.如权利要求1所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于引入全局平均池化层取代传统的全连接层来进行人脸的分类和回归；在每一级稠密连接网络的最后一个卷积层后接入全局平均池化层，对前一层卷积网络输出的每一张特征图求整体平均值，充分地学***均池化层后接入softmax层来对前一级预测的人脸区域进行分类和回归。

4.如权利要求3所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于构建级联的卷积稠密连接网络来提取人脸特征并进行精细的分类和回归，在每一级的稠密连接网络中能有多个密集连接块，每个密集连接块由多个卷积层构成，相同密集连接块的卷积层必须能生成相同大小的特征图；在同一个密集连接块中，每一层卷积层的输入由前面所有卷积层生成的特征图相连而成；两个相邻的密集连接块由过渡层相连接；第二级和第三级网络分别由包含两个密集连接块和三个密集连接块的稠密连接卷积网络组成，对第一级预测的人脸区域进行逐级淘汰和位置精修；所述过渡层包括一个卷积层和一个池化层。

5.如权利要求1所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于具体包括如下步骤：

(1)收集标注了人脸矩形框信息的人脸图片，形成一个初始训练数据集合D₁，利用D₁生成符合第一级网络输入格式的子训练数据集D₂；

(2)设计一个能提取更多高质量候选区域的区域提名网络，并利用子训练数据集D₂训练该子网络模型，然后将初始训练数据集合D₁送入该子网络模型进行检测，由检测的结果生成下一级的训练数据D₃；

(3)设计提取特征能力和泛化能力更强的级联稠密连接网络，将D₃送入稠密连接网络的第一级进行训练生成子网络模型，然后将D₁送入区域提名网络和第一级稠密连接网络组成的网络中进行检测，由检测的结果生成下一级稠密连接网络的训练数据集D₄，再利用D₄训练第二级级联稠密连接网络；

(4)利用训练得到的网络模型，检测待测试图片中的多姿态人脸。

6.如权利要求5所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于所述的步骤(1)具体包括：将人脸数据集D₁预处理为符合级联网络中第一级网络输入格式的子训练数据集D₂，其分辨率的大小为12×12；该子训练数据集含有三种类型的训练图片：人脸图像，部分人脸图像，非人脸图像；三种类型图片对应的标签信息制作如下：人脸图像标记为1，部分人脸图像标记为-1，非人脸图像标记为0；其中，人脸和部分人脸图像还标记有人脸矩形框信息，非人脸图像的人脸矩形框信息用-1标记。

7.如权利要求5所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于所述步骤(2)具体包括：利用区域提名网络的不同卷积层提取更多高质量的包含人脸的候选区域，防止因提取的候选区域过少而造成的漏检；采用在区域提名网络的最后两个卷积层分别接上分类层和回归层，进行人脸区域得分的预测和边框回归；最后淘汰得分低于阈值T₁的候选框，将剩下的候选框进行非极大值抑制从而得到最终预测结果；然后用预处理后的数据集D₂训练该区域提名网络，在训练完成之后将D₁输入该网络进行检测，并把检测结果中的人脸矩形框与D₁相对应图片的真实人脸矩形框信息计算交并比，交并比>0.85标记为人脸样本，0.55<交并比<0.7的标记为部分人脸样本，交并比<0.35标记为非人脸样本，生成下一级网络的训练数据集D₃，D₃的图像分辨率为24×24。

8.如权利要求5所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于步骤(3)具体包括：构建级联的卷积稠密连接网络来提取人脸特征并进行精细的分类和回归，在每一级的稠密连接网络中有多个密集连接块，每个密集连接块由多个卷积层构成，相同密集连接块的卷积层必须可以生成相同大小的特征图；在同一个密集连接块中，每一层卷积层的输入由前面所有卷积层生成的特征图相连而成；两个相邻的密集连接块由过渡层相连接；稠密连接网络的最后一个卷积层后接入全局平均池化层，对前一层卷积网络输出的每一张特征图fe特征图求整体平均值，特征图的个数应与分类的类别数保持一致；利用D₃训练第一级的稠密连接网络，在训练完成之后，将D₁送入区域提名网络和第一级稠密连接网络组成的网络之中进行级联的检测，然后生成子训练数据集D₄，D₄的图像分辨率为48×48，生成方法与步骤(2)一样；最后，利用D₄训练第二级稠密连接网络。

9.如权利要求5所述的基于多尺度的级联稠密连接神经网络的人脸检测方法，其特征在于步骤(4)具体包括：将区域提名网络和两级稠密连接网络进行级联，构成一个三级级联的网络整体；然后将一张新的图片进行金字塔尺度变换，变换比例为0.709，将变换后的图片输入第一级的区域提名网络模型中，产生大量的人脸分类得分和人脸矩形框回归向量，淘汰得分低于阈值T₁的人脸矩形框，将剩下的人脸矩形框进行非极大值抑制从而得到最终预测结果；然后将预测的结果输入到第二级网络模型中，同样淘汰得分低于阈值T₂的人脸矩形框，再利用非极大值抑制算法筛选重叠较大的人脸矩形框；最后将预测结果输入到第三级网络模型中，输出人脸矩形框的得分和人脸矩形框信息，同样淘汰得分低于阈值T₃的人脸矩形框，再利用非极大值抑制算法筛选重叠较大的人脸矩形框，得到最终的预测结果，T₁、T₂、T₃的取值为0～1。