CN110189255B

CN110189255B - 基于两级检测的人脸检测方法

Info

Publication number: CN110189255B
Application number: CN201910455695.5A
Authority: CN
Inventors: 于力; 刘意文; 邹见效; 杨瞻远; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2023-01-17
Anticipated expiration: 2039-05-29
Also published as: CN110189255A

Abstract

本发明公开了一种基于两级检测的人脸检测方法，首先对对人脸检测模型和基于GAN网络的超分辨率重建模型分别进行训练，然后将待检测的人脸图像输入人脸检测模型，得到人脸目标各个候选区域的坐标信息以及该候选区域属于人脸的置信度值，根据置信度值进行初步判断，然后将待确定人脸目标输入至基于GAN网络的超分辨率重建模型中的生成器进行进一步判断。本发明采用两级检测，可以有效提高对低分辨率人脸图像的检测率。

Description

基于两级检测的人脸检测方法

技术领域

本发明属于低分辨率人脸检测技术领域，更为具体地讲，涉及一种基于两级检测的人脸检测方法。

背景技术

人脸检测问题最初是作为人脸识别***的一个子问题出现的，随着研究的不断深入而渐渐成为一个独立的课题。当前的人脸检测技术交叉融合了机器学习、计算机视觉、模式识别和人工智能等领域，成为了所有人脸影像分析衍生应用的基础，并对这些衍生***的响应速度与精准检测能力都有重大影响。在人脸检测应用场景不断拓展的过程中，逐渐遇到了由于各种原因导致输入的人脸图像尺寸过小或质量过低等问题，对于这些低分辨率的人脸图像，人脸检测***的准确率经常会出现大幅下降。通常将低质量和小尺寸的人脸图像的检测问题统称为低分辨率人脸检测。

当前的人脸检测算法本质都是一个二分类问题，基本流程为先从待检测区域提取有效特征，然后凭借这些特征来判断是否存在人脸，低分辨率人脸检测也是在这个基础上进行研究的。低分辨率人脸具有三个特点：信息量少、噪声多和可利用工具较少，这导致我们无法从候选区域提取到足够多的有效特征来表达这个区域，从特征表达层面来看，在传统方法中表现为无法提取到足够多用于表达低分辨率人脸的有效特征；在深度神经网络中表现为前面的卷积层无法提供足够强有力特征图谱，而后面的卷积层中无法提供足够多的低分辨率人脸区域的特征，这个先天不足导致检测低分辨率人脸非常困难。

为了解决低分辨率人脸检测问题，许多优秀的学者做了大量针对性的研究，综合来看，国内外学者对这个问题的处理主要集中在三个方向进行，分别是寻找对于人脸区域的分辨率稳健特征表达方法、针对低分辨率人脸的特点设计新的分类器和图像超分辨率方法。需要认识到的是，当前针对低分辨率小人脸检测的研究仍处于发展阶段，还需要解决的问题较多，一方面，如何有效地提取出低分辨率人脸的上下文信息并融入到检测网络之中，为低分辨率人脸检测器提供更好的性能仍需进一步的探索；另一方面，一个完整的人脸检测***，必然是全尺度的人脸检测***，这就要求我们在处理低分辨率人脸检测问题的时候，还必须考虑到对其他尺度人脸的检测能力，事实上，正是这种多尺度检测的融合问题导致现在的低分辨率人脸检测***要么精度较低，要么处理速度很慢，这是亟待解决的一大难题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于两级检测的人脸检测方法，先通过人脸检测模型对人脸图像进行过滤，然后对待确定样本采用基于GAN网络的超分辨率重建模型进行进一步检测，以提高对低分辨率人脸图像的检测率。

为实现上述发明目的，本发明基于深度学习的人脸检测方法包括以下步骤：

S1：获取若干人脸图像训练样本，每个训练样本包括一张含有人脸的图像和人脸目标信息，采用以上人脸图像训练样本对人脸检测模型进行训练；

S2：获取若干超分辨率人脸图像重建训练样本，每个训练样本包括一张含有人脸的低分辨率图像和对应的高分辨率图像，采用超分辨率人脸图像重建训练样本对基于GAN网络的超分辨率重建模型进行训练，基于GAN网络的超分辨率重建模型包括生成器G和判别器D；

S3：将待检测的人脸图像输入人脸检测模型，得到人脸目标各个候选区域的坐标信息以及该候选区域属于人脸的置信度值C；预设置信度阈值T₁和T₂，并且0＜T₁＜T₂＜1；对于各个候选区域，如果对应的置信度值C≥T₂，则判定该候选区域存在人脸目标，将其作为人脸目标区域进行输出，如果对应的置信度值T₁≤C＜T₂，则将该候选区域作为待确定人脸目标，否则判定该候选区域不存在人脸目标，不进行输出；

S4：将各个待确定人脸目标输入至基于GAN网络的超分辨率重建模型中的生成器G，生成超分辨率重建图像R，然后将其输入至判别器D，由判别器判断其是否是合格的超分辨率重建图像以及是否包含人脸目标，如果图像R既是合格超分辨率重建图像并包含人脸目标，则判定对应的候选区域存在人脸目标，将其作为人脸目标区域进行输出，否则判定其不存在人脸目标。

本发明基于两级检测的人脸检测方法，首先对对人脸检测模型和基于GAN网络的超分辨率重建模型分别进行训练，然后将待检测的人脸图像输入人脸检测模型，得到人脸目标各个候选区域的坐标信息以及该候选区域属于人脸的置信度值，根据置信度值进行初步判断，然后将待确定人脸目标输入至基于GAN网络的超分辨率重建模型中的生成器进行进一步判断。本发明采用两级检测，可以有效提高对低分辨率人脸图像的检测率。

附图说明

图1是本发明基于两级检测的人脸检测方法的具体实施方式流程图；

图2是R-FCN网络的结构示意图；

图3是本实施例中改进后的边框回归算法流程图；

图4是SRGAN网络中生成器的结构图；

图5是SRGAN网络中判别器的结构图；

图6是本次实验验证中三种方法的PR曲线图；

图7是本次实验验证中SFD人脸检测方法的检测结果示例图；

图8是本次实验验证中R-FCN人脸检测方法的检测结果示例图；

图9是本次实验验证中本发明的检测结果示例图；

图10是本次实验验证中三种方法对清晰检测样本集进行人脸检测的PR曲线图；

图11是本次实验验证中三种方法对一般模糊检测样本集进行人脸检测的PR曲线图；

图12是本次实验验证中三种方法对严重模糊检测样本集进行人脸检测的PR曲线图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于两级检测的人脸检测方法的具体实施方式流程图。如图1所示，本发明基于两级检测的人脸检测方法的具体步骤包括：

S101：训练人脸检测模型：

获取若干人脸图像训练样本，每个训练样本包括一张含有人脸的图像和人脸目标信息，采用以上人脸图像训练样本对人脸检测模型进行训练。

S102：训练超分辨率重建模型：

获取若干超分辨率人脸图像重建训练样本，每个训练样本包括一张含有人脸的低分辨率图像和对应的高分辨率图像，采用超分辨率人脸图像重建训练样本对基于GAN网络的超分辨率重建模型进行训练，基于GAN(Generative Adversarial Network，生成对抗网络)网络的超分辨率重建模型包括生成器G和判别器D。

S103：采用人脸检测模型进行初步检测：

将待检测的人脸图像输入人脸检测模型，得到人脸目标各个候选区域的坐标信息以及该候选区域属于人脸的置信度值C。预设置信度阈值T₁和T₂，并且0＜T₁＜T₂＜1。对于各个候选区域，如果对应的置信度值C≥T₂，则判定该候选区域存在人脸目标，将其作为人脸目标区域进行输出，如果对应的置信度值T₁≤C＜T₂，则将该候选区域作为待确定人脸目标，否则判定该候选区域不存在人脸目标，不进行输出。

S104：采用超分辨率重建模型进行检测：

将各个待确定人脸目标输入至基于GAN网络的超分辨率重建模型中的生成器G，生成超分辨率重建图像SR，然后将其输入至判别器D，由判别器判断其是否是合格的超分辨率重建图像以及是否包含人脸目标，如果图像SR既是合格超分辨率重建图像并包含人脸目标，则判定对应的候选区域存在人脸目标，将其作为人脸目标区域进行输出，否则判定其不存在人脸目标。

采用以上基于两级检测的人脸检测方法，采用超分辨率重建模型作为人脸检测模型的辅助，对置信度不太高的候选区域进行进一步检测，从而避免人脸目标的漏检和误检，提高检测性能。

就人脸检测模型而言，可以根据需要选择具体的人脸检测模型，本实施例中选用R-FCN网络作为人脸检测模型，并且针对低分辨率人脸检测进行改进，以提高检测效果。R-FCN网络是在传统的Faster R-CNN结构基础上进行了改造，其核心设计思想是利用FasterRCNN中提出的RPN(Reginal Proposal Network，区域生成网络)网络的基础上，引入位置敏感信息，把ROI层后移，利用位置敏感特征图来计算待检测图像中实体属于各个类别的概率，可以在在保持较高定位精度的同时，大幅提高检测速率。图2是R-FCN网络的结构示意图。如图2所示，R-FCN的工作流程可以简述如下：

将图像输入一个预训练好的分类网络中(图2中使用了ResNet-101网络的Conv4之前的网络)，固定其对应的网络参数。在预训练网络的最后一个卷积层获得的特征图(feature map)上存在3个分支：

第1个分支就是在该特征图上面进行RPN操作，获得相应的候选区域ROI，具体方法为：在特征图上根据预设参数生成锚框(Anchors)，锚框是一组在整个输入图像上具有不同大小和长宽比的区域。然后识别出包含前景的锚框，使用边框回归算法将锚框转化为目标包围框(Bounding Box)，使其能更紧密的拟合所包含的前景对象。

第2个分支就是在该特征图上获得一个K*K*(C+1)维的位置敏感得分映射(position-sensitive score map)，用来进行分类。

第3个分支就是在该特征上获得一个4*K*K维的位置敏感得分映射，用来进行回归；

最后，在K*K*(C+1)维的位置敏感得分映射和4*K*K维的位置敏感得分映射上面分别执行位置敏感的ROI池化操作(Position-Sensitive Rol Pooling，这里使用的是平均池化操作)，获取各个候选区域的置信度和位置信息，再通过置信度判定得到对应的类别。

本实施例中首先对锚框的生成参数进行了改进。传统R-FCN网络中，生成锚框时采用三种尺度和三种长宽比，默认情况下三种尺度分别为{128*128,256*256,512*512}，三种长宽比为{1:1,1:2,2:1}，那么可以得到9种尺寸。当检测目标是较小的人脸时，容易发生小人脸区域的漏检。因此本实施例中将锚框的生成尺度修改为{16*16,32*32,128*128,256*256,512*512}五种尺度，同样每种尺度生成长宽比{1:1,1:2,2:1}三种锚框，共计15种尺寸。添加的两种小尺度用来检测小人脸，后面保留的三种尺度用来提取常规大小的人脸区域。

就边框回归算法而言，现有技术多采用NMS(Non Maximum Suppression，非极大值抑制算法)算法，其核心思路是寻找局部最大值，抑制非极大值，主要就是通过迭代的形式，不断地以置信度最高的锚框去与其他锚框计算交并比(Intersection-over-Union，IoU，表示候选框与标定框的交叠率)，过滤那些交并比较大的框。然而经研究发现，NMS算法存在以下问题：

1)NMS算法会将存在重叠部分的临近候选框的置信度强行置0，即在操作中直接粗暴的把IoU值大于阈值的候选框强行删除，若此时一个真实的待检测目标出现在重叠区域内，很大几率会导致这个目标检测失败，增大漏检率，降低平均检出率。

2)利用NMS算法进行边框回归时候，其交并比判定阈值N_t很难确定最优值，设置太大会增加误检率，太小又会增加漏检率。

为了解决以上问题，本实施例中在NMS算法的基础上对边框回归算法进行了改进。图3是本实施例中改进后的边框回归算法流程图。如图3所示，本实施例中改进后的边框回归算法的具体步骤包括：

S301：初始化数据：

记包含背景的锚框集合B＝{b₁,b₂,…,b_N}，b_n表示第n个锚框，n＝1,2,…,N，N表示包含背景的锚框数量，记各个锚框的置信度为s_n。初始化保留锚框集合

S302：选取当前最优锚框：

从当前锚框集合B中选取置信度最大的锚框，记其为当前最优锚框b′，将当前最优锚框b′加入保留锚框集合D，将当前最优锚框b′从锚框集合B中删除。

S303：判断是否锚框集合B为空，如果是，边框回归结束，否则进入步骤S304。

S304：更新置信度：

对于当前锚框集合B中的每个锚框b_n，计算其与当前最优锚框b′的交并比iou(b′,b_i)，然后采用以下公式更新各个锚框b_n的置信度s_n：

其中，N_t为预设的交并比阈值。

然后返回步骤S302。

就基于GAN网络的超分辨率重建模型而言，本实施例中采用SRGAN网络。SRGAN网络是当前一种使用广泛、效果优秀的超分辨率图像重建模型，基于GAN(GenerativeAdversarial Network，生成对抗网络)网络训练而成。SRGAN网络由一个生成器G和一个判别器D共同组成。图4是SRGAN网络中生成器的结构图。图5是SRGAN网络中判别器的结构图。生成器的核心是其中的多个残差块，每个残差块包含两个3*3的卷积层，卷积层后接批归一化层(batch normalization,BN)和PReLU作为激活函数，两个2×亚像素卷积层(sub-pixelconvolution layers)被用来增大特征尺寸。判别器D采用的是一个类似VGG19的网络结构，但是没有进行maxpooling池化。判别器D部分包含8个卷积层，伴随网络的不断加深，特征数量不断增加，特征尺寸不断减小，采用LeakyReLU作为激活函数，最后利用两个全连接层和最终的sigmoid激活函数获得学习到的真实样本的概率。

现有的SRGAN网络存在模型难以训练和分布重叠的问题，经研究发现，这些问题源于在传统SRGAN网络中采用KL散度和JS散度作为衡量真实样本分布与生成样本分布间的距离的标准。本实施例中经过研究，采用EM散度来解决以上问题。EM散度是一种对称的散度，其定义为：

设Ω∈Rⁿ是一个有界连续开集，S是Ω中所有Radon概率分布的集合，如果对某个p≠1,k＞0，则EM散度的计算公式如下：

其中，P_r和P_g表示两个不同概率分布，P_u表示一个随机概率分布，inf表示最下界，x表示服从P_r分布的样本，

表示服从P_g分布的样本，

表示样本x和

的一个随机线性组合，P_u表示样本

的概率分布，k和p分别表示一个常数，

是Ω上所有具有紧支持性质的一阶可微函数的函数空间，||||表示求取范数。

EM散度的优势在于对两个不同的分布，即使它们之间没有重叠部分，仍然能够反映两个分布间的距离。这意味着在训练中能够时刻提供有意义的梯度，让整个SRGAN网络能够稳定的训练，可以有效解决原始SRGAN网络训练过程中可能出现的由于梯度消失导致的模式崩溃等问题。在本实施例中，基于EM散度对模型训练中目标函数进行了改进。基于EM散度改进后的SRGAN网络的最大最小问题的优化目标函数：

其中，x表示真实高分辨率样本，z表示输入生成器G的低分辨率样本，G(z)为生成器G中生成的超分辨率重建样本，P_g表示超分辨重建样本的概率分布，P_r表示真实高分辨率样本的概率分布，D(x)、D(G(z))分别表示判别器D判断高分辨率样本、超分辨率重建样本是否为真实样本的概率，E[]表示数学期望，

表示真实高分辨率样本x和超分辨率重建样本G(z)的一个随机线性组合，P_u表示样本

的概率分布，k和p分别表示一个常数。

在训练过程中，将上述优化目标函数分解为两个优化问题：

1、对分辨器D的优化：

2、对生成器G的优化：

基于以上技术推导，本发明对SRGAN模型的训练方法进行改进，得到更优势的SRGAN模型，从而提高超分辨率人脸图像重建结果的质量。具体训练方法为：

首先获取若干高分辨率人脸图像I^HR，经过下采样得到对应的低分辨率人脸图像I^LR，每幅高分辨率人脸图像I^HR和对应的低分辨率人脸图像I^LR构成一个训练样本，从而得到训练样本集。本实施例中，采用高斯金字塔进行下采样，首先将原图像作为最底层图像G0(高斯金字塔的第0层)，利用高斯核(5*5)对其进行卷积，然后对卷积后的图像进行下采样(去除偶数行和列)得到上一层图像G1，迭代进行完成4倍下采样。

然后采用所得到的训练样本集对SRGAN网络进行训练，训练过程中生成器G的优化目标函数为：

判别器D的优化目标函数为：

其中，x表示真实的高分辨率人脸图像，z表示输入生成器G的低分辨率人脸图像，G(z)为生成器G中生成的超分辨率重建人脸图像，P_g表示超分辨重建人脸图像的概率分布，P_r表示真实的高分辨率人脸图像的概率分布，D(x)、D(G(z))分别表示判别器D判断高分辨率人脸图像、超分辨率重建人脸图像是否为真实人脸图像的概率，E[]表示数学期望，

表示真实高分辨率人脸图像x和超分辨率重建人脸图像G(z)的一个随机线性组合，P_u表示样本

的概率分布，k和p分别表示一个常数。

在SRGAN网络的训练过程中，先由生成器G对每个训练样本X中的低分辨率人脸图像I^LR进行超分辨率重建，具体方法为：由生成器G对训练样本X中的低分辨率人脸图像I^LR进行上采样，得到超分辨率重建人脸图像I^SR。由于本实施例中是对高分辨率人脸图像I^HR进行4倍下采样得到低分辨率人脸图像I^SR，因此在生成超分辨率重建人脸图像I^SR的上采样倍数也为4。

然后将低分辨率人脸图像I^LR对应的高分辨率人脸图像I^HR和由生成器G生成的超分辨率重建人脸图像I^SR输入判别器D，根据以下公式计算训练样本的损失函数L_SR：

其中，

表示训练样本的内容损失函数，其计算公式如下：

其中，

表示基于均方差误差的内容损失函数，其计算公式如下：

其中，W表示高分辨率人脸图像I^HR的宽，H表示高分辨率人脸图像I^HR的高，r表示下采样因子，

表示高分辨率人脸图像I^HR中坐标为(x,y)的像素点的像素值，

表示超分辨率重建人脸图像I^SR中坐标为(x,y)的像素点的像素值。

表示VGG损失，计算公式如下：

其中，i表示判别器D中VGG-19网络中最大池化层序号，j表示与第i层最大池化层和第i+1层最大池化层之间的卷积层序号，在现有VGG-19网络中，最大池化层数量为5，两个相邻最大池化层之间的卷积层数量为2或4。φ_i,j表示判别器D中VGG-19网络的第i层最大池化层之后的第j个卷积层获取的特征图，W_i,j表示特征图φ_i,j的宽，H_i,j表示特征图φ_i,j的高。

表示对抗损失，这一部分损失函数使SRGAN网络通过“欺骗”判别器从而偏向生成输出更接近自然图像的输出，其计算公式如下：

其中，

表示判别器D将生成器生成的超分辨率重建人脸图像(即I^SR)当作真实高分辨率人脸图像的概率，下标θ_D、θ_G分别表示判别器D和生成器G的网络参数，w表示网络参数的维度序号，w＝1,2,…,W，W表示网络参数的维度。

由于本发明中超分辨率重建模型需要检测超分辨率重建图像中是否包含人脸目标，为了更好地满足此需求，在计算损失函数的时候加入分类损失L_clc，计算公式如下：

其中，{y₁,y₂,…,y_v,…,y_V}表示高分辨率人脸图像I^HR是否是人脸的标定数据，V表示高分辨率人脸图像I^HR中标定的人脸区域数量，取值范围为{0,1}。

由于本实施中经过改进的优化目标函数没有log项，因此可以优选Adam优化算法实现生成器G和判别器的目标函数优化，从而提高训练效率。就生成器G而言，利用Adam优化算法降序更新生成器G的权重w_G：

其中，

表示权重w_G的下降的梯度，z_m表示超分辨率重建人脸图像I^SR中第m个像素的值，m＝1,2,…,M，M表示像素数量，D(G(z_m))表示判别器D判断超分辨率重建人脸图像I^SR中第m个像素为高分辨率人脸图像I^HR中像素的概率，α表示学习率，β₁表示一阶矩估计的指数衰减率，β₂表示二阶矩估计的指数衰减率。Adam优化算法三个参数的典型取值为α＝0.00001、β₁＝0.9和β₂＝0.999。

利用Adam优化算法降序更新判别器D的权重w_D：

其中，

表示权重w_D下降的梯度，x_m表示高分辨率人脸图像I^HR第m个像素的值，D(x_m)表示判别器D判断高分辨率人脸图像I^HR第m个像素为高分辨率人脸图像I^HR中像素的概率，

表示

下降的梯度，

μ_m＝m/M，

表示判别器D判断

为高分辨率人脸图像I^HR中中像素的概率。

在本实施例中，优选交替更新生成器G的权重w_G和判别器D的权重w_D，即首先固定生成器G的参数，更新判别器D的参数，然后固定判别器D的参数，更新生成器G的参数，如此交替进行。

为了更好地说明本发明的技术效果，采用一组低分辨率人脸图像对本发明进行实验验证。本次实验验证中人脸检测模型采用本实施例中进行了锚框生成参数改进和边框回归算法改进的R-FCN模型，基于GAN网络的超分辨率重建模型采用经本实施例中改进训练方法得到的SRGAN模型。在人脸检测模型和基于GAN网络的超分辨率重建模型进行训练时，采用Wider Face训练样本集，并从61个分类中各随机抽取10张图像，共计610张图像作为检测图像。为了实现技术效果的对照，本次实验验证中选取SFD人脸检测方法和R-FCN人脸检测方法作为对比方法。

为了评估本发明人脸检测方法与对比方法的技术效果，选用PR曲线作为评估标准。PR曲线是以查准率(Precision)为纵坐标、查全率(Recall)为横坐标画出来的曲线。

图6是本次实验验证中三种方法的PR曲线图。如图6所示，本发明在三种人脸检测方法中，PR曲线整体更加靠近右上角，其mAP(Mean Average Precision,即平均AP(平均精确度)值)值为0.947，也是三组数据中表现最好的。

图7是本次实验验证中SFD人脸检测方法的检测结果示例图。图8是本次实验验证中R-FCN人脸检测方法的检测结果示例图。图9是本次实验验证中本发明的检测结果示例图。比较图7至图9可知，本发明一共检测出14张人脸，高于另外两种方法分别为11和9张人脸的结果，表现出了更优秀的检测性能。

接下来对不同清晰度下的图像样本进行人脸检测。Wider Face训练样本集中标注了各个人脸目标的模糊度(blur)属性，分为清晰、一般模糊和严重模糊三种，据此从不同模糊程度的图像样本上提取若干样本构成检测样本集。图10是本次实验验证中三种方法对清晰检测样本集进行人脸检测的PR曲线图。图11是本次实验验证中三种方法对一般模糊检测样本集进行人脸检测的PR曲线图。图12是本次实验验证中三种方法对严重模糊检测样本集进行人脸检测的PR曲线图。如图11至图12所示，三种方法在样本清晰度较高的时候，都能很好的检测到人脸部分，而且差距不是很大，mAP值都非常高；在样本模糊程度一般的测试组中，三种算法mAP值有略微下降，但是仍然都超过97％，说明在一般模糊程度下，三种方法都具有非常好的检测能力，并不会对它们构成太大的挑战。同时能够发现，本发明在人脸模糊程度一般的时候，已经开始相对于SFD和R-FCN有了一些优势，但是并不明显；在检测样本严重模糊的情况下，三种方法的差距开始出现，其中SFD表现最差，与检测模糊度为清晰的样本时候相比，mAP下降了大约10个百分点，而本发明下降幅度最小，大概只下降了5个百分点上下，在此情况下，本发明mAP值比原始R-FCN模型高出大约2个百分点，PR曲线能较明显的将另两种对比方法的PR曲线包裹起来，因此相对于另外两种方法，在低分辨率情况下，本发明拥有更好的稳定性和更高的检测率。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于两级检测的人脸检测方法，其特征在于，包括以下步骤：

S4：将各个待确定人脸目标输入至基于GAN网络的超分辨率重建模型中的生成器G，生成超分辨率重建图像SR，然后将其输入至判别器D，由判别器判断其是否是合格的超分辨率重建图像以及是否包含人脸目标，如果图像SR既是合格超分辨率重建图像并包含人脸目标，则判定对应的候选区域存在人脸目标，将其作为人脸目标区域进行输出，否则判定其不存在人脸目标。

2.根据权利要求1所述的人脸检测方法，其特征在于，所述人脸检测模型采用R-FCN网络。

3.根据权利要求2所述的人脸检测方法，其特征在于，所述R-FCN网络中锚框的生成尺度包括五种尺度{16*16,32*32,128*128,256*256,512*512}，三种长宽比{1:1,1:2,2:1}。

4.根据权利要求1所述的人脸检测方法，其特征在于，所述基于GAN网络的超分辨率重建模型采用SRGAN网络。

5.根据权利要求4所述的人脸检测方法，其特征在于，所述SRGAN网络采用以下方法训练得到：

首先获取若干高分辨率人脸图像I^HR，经过下采样得到对应的低分辨率人脸图像I^LR，每幅高分辨率人脸图像I^HR和对应的低分辨率人脸图像I^LR构成一个训练样本，从而得到训练样本集；

判别器D的优化目标函数为：

表示真实高分辨率人脸图像x和超分辨率重建人脸图像G(z)的一个随机线性组合，k和p分别表示一个常数。

6.根据权利要求5所述的人脸检测方法，其特征在于，所述SRGAN网络训练过程中，根据以下公式计算训练样本的损失函数L_SR：

其中，

表示训练样本的内容损失函数，

表示对抗损失，L_clc表示分类损失。

7.根据权利要求5所述的人脸检测方法，其特征在于，所述SRGAN网络训练过程中，采用Adam优化算法实现生成器G和判别器D的目标函数优化，具体方法为：

利用Adam优化算法，降序更新生成器G的权重w_G：

其中，

表示权重w_G的下降的梯度，z_m表示超分辨率重建人脸图像I^SR中第m个像素的值，m＝1,2,…,M，M表示像素数量，D(G(z_m))表示判别器D判断超分辨率重建人脸图像I^SR中第m个像素为高分辨率人脸图像I^HR中像素的概率，α表示学习率，β₁表示一阶矩估计的指数衰减率，β₂表示二阶矩估计的指数衰减率；

利用Adam优化算法降序更新判别器D的权重w_D：

其中，

表示

下降的梯度，

μ_m＝m/M，

表示判别器D判断

为高分辨率人脸图像I^HR中像素的概率。

8.根据权利要求7所述的人脸检测方法，其特征在于，所述生成器G和判别器D的目标函数优化时交替更新生成器G的权重w_G和判别器D的权重w_D。