CN111738069A

CN111738069A - 人脸检测方法、装置、电子设备及存储介质

Info

Publication number: CN111738069A
Application number: CN202010404206.6A
Authority: CN
Inventors: 孟欢欢; 柴振华
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-10-02

Abstract

本申请公开了人脸检测方法、装置、电子设备及存储介质，该方法通过生成人脸检测图像的特征图，特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图；根据原始特征图确定人脸位置偏移；根据人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图；基于可变卷积特征图确定人脸检测结果。本申请的有益效果在于，本申请基于可变卷积，根据多尺度原始特征图得出的人脸位置偏移对融合特征图像中的人脸特征表达能力进行改善，显著提高了人脸检测的准确度，提升了人脸检测模型的性能，且计算方法简单、计算量小、计算效率高，极大的扩展了人脸检测的应用场景，尤其适用于多目标人脸检测。

Description

人脸检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像识别领域，具体涉及人脸检测方法、装置、电子设备及存储介质。

背景技术

人脸检测是指在图片中定位出人脸的位置和大小，是人脸识别、人脸属性(年龄、性别等)等人脸智能分析的基础。近年来深度学习在该领域取得了长足的进步，其大致可分为三类：级联的方法、两阶段的方法、单阶段的方法。

其中，级联的方法一般会使用多个模型，是一个逐步过滤非人脸样本并求精人脸位置的方法，但是其速度不稳定，对于有多个人脸的图片速度较慢。

两阶段的方法是在第一阶段生成候选区域，然后在第二阶段对候选区域进行分类和回归，其检测准确率较高，但两阶段的方法存在着速度慢的严重缺陷。

单阶段的方法是直接通过分类和回归定位人脸位置，中科院电子所提出了选择性细化网络(Selective Refinement Network)方法，通过在小尺度人脸上过滤易分类的负样本，改善正负样本数量的均衡性，在大尺度人脸上迭代求精人脸的位置，改善大尺度人脸的定位精度，该方法速度较快，但检测准确率还有待进一步提高。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的人脸检测方法、装置、电子设备及存储介质。

依据本申请的一个方面，提供了一种人脸检测方法，该方法包括：

生成人脸检测图像的特征图，特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图；

根据原始特征图确定人脸位置偏移；

根据人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图；

基于可变卷积特征图确定人脸检测结果。

可选的，在上述方法中，生成人脸检测图像的特征图包括：

以自底向上和下采样的方式生成人脸检测图像的原始特征图；

以自顶向下和下采样的方式生成与各原始特征图对应的融合特征图。

可选的，在上述方法中，以自顶向下和上采样的方式生成与各原始特征图对应的融合特征图包括：

根据目标融合特征图对应的原始特征图的通道数量，以及目标融合特征图的上层融合特征图的通道数量，确定目标融合特征图的权重。

可选的，在上述方法中，根据原始特征图确定人脸位置偏移包括：

对各原始特征图分别进行锚点框回归；

根据各原始特征图的锚点框回归结果，以及各锚点框回归结果对应的锚点框确定人脸位置偏移。

可选的，在上述方法中，基于可变卷积特征图确定人脸检测结果包括：

对各原始特征图分别进行锚点框分类和锚点框回归；

根据第一类原始特征图的锚点框分类结果，对与第一类原始特征图对应的第一类融合特征图进行锚点框分类；

根据第二类原始特征图的锚点框回归结果，对与第二类原始特征图对应的第二类融合特征图进行锚点框回归；

根据第一类原始特征图的锚点框回归结果、第一类融合特征图的锚点框分类结果、第二类原始特征图的锚点框分类结果、第二类融合特征图的锚点框回归结果确定人脸检测结果；

其中，第一类原始特征图是第二类原始特征图的下层特征图。

可选的，以上所述方法还包括：

对原始特征图和融合特征图分别进行感受野增强处理。

可选的，以上所述方法是基于人脸检测模型实现的，所述人脸检测模型是通过如下方式训练得到的：

将训练图像输入到人脸检测模型中，得到人脸检测结果；

根据训练图像的标注信息以及人脸检测结果计算多类损失函数值，其中，损失函数包括以下所述的至少一种：人脸分类损失函数、人脸位置损失函数、关键点损失函数、人脸分割函数；

根据损失函数值对人脸检测模型的参数进行更新。

依据本申请的又一方面，提供了一种人脸检测装置，该装置包括：

特征图生成单元，用于生成人脸检测图像的特征图，所述特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图；

特征图处理单元，用于根据所述原始特征图确定人脸位置偏移；根据所述人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图；

检测单元，用于基于所述可变卷积特征图确定人脸检测结果。

可选的，在上述装置中，特征图生成单元，用于以自底向上和下采样的方式生成人脸检测图像的原始特征图；以自顶向下和下采样的方式生成与各原始特征图对应的融合特征图。

可选的，在上述装置中，特征图生成单元，用于根据目标融合特征图对应的原始特征图的通道数量，以及目标融合特征图的上层融合特征图的通道数量，确定目标融合特征图的权重。

可选的，在上述装置中，特征图处理单元，用于对各原始特征图分别进行锚点框回归；以及用于根据各原始特征图的锚点框回归结果，以及各锚点框回归结果对应的锚点框确定人脸位置偏移。

可选的，在上述装置中，检测单元，用于对各原始特征图分别进行锚点框分类和锚点框回归；用于根据第一类原始特征图的锚点框分类结果，对与第一类原始特征图对应的第一类融合特征图进行锚点框分类；用于根据第二类原始特征图的锚点框回归结果，对与第二类原始特征图对应的第二类融合特征图进行锚点框回归；以及用于根据第一类原始特征图的锚点框回归结果、第一类融合特征图的锚点框分类结果、第二类原始特征图的锚点框分类结果、第二类融合特征图的锚点框回归结果确定人脸检测结果；其中，第一类原始特征图是第二类原始特征图的下层特征图。

可选的，以上所述装置中：特征图处理单元，还用于对原始特征图和融合特征图分别进行感受野增强处理。

可选的，以上所述装置是基于人脸检测模型实现的，所述人脸检测模型是通过如下方式训练得到的：将训练图像输入到人脸检测模型中，得到人脸检测结果；根据训练图像的标注信息以及人脸检测结果计算多类损失函数值，其中，损失函数包括以下所述的至少一种：人脸分类损失函数、人脸位置损失函数、关键点损失函数、人脸分割函数；根据损失函数值对人脸检测模型的参数进行更新。

依据本申请的又一方面，提供了一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如上任一的方法。

依据本申请的再一方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现如上任一的方法。

由上述可知，本申请的技术方案，通过生成人脸检测图像的特征图，特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图；根据原始特征图确定人脸位置偏移；根据人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图；基于可变卷积特征图确定人脸检测结果。本申请的有益效果在于，基于可变卷积，根据多尺度原始特征图得出的人脸位置偏移对融合特征图像中的人脸特征表达能力进行改善，显著提高了人脸检测的准确度，提升了人脸检测模型的性能，且计算方法简单、计算量小、计算效率高，极大的扩展了人脸检测的应用场景，尤其适用于多目标人脸检测。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的人脸检测方法的流程示意图；

图2示出了根据本申请一个实施例的基于可变卷积特征图确定人脸检测结果的流程示意图；

图3示出了根据本申请另一个实施例的人脸检测方法的流程示意图；

图4示出了根据本申请一个实施例的人脸检测装置的结构示意图；

图5示出了根据本申请一个实施例的电子设备的结构示意图；

图6示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请的构思在于，针对单阶段两步法未充分利用第一步输出的定位信息去改善第二步的特征，同时也未考虑自底向上和自顶向下的特征在融合时各通道的权重的问题，利用原始特征图得出的初步人脸位置信息，基于可变卷积，对与原始特征图对应的融合特征图进行修正，并对不同特征赋予不同权重，从而获得更加准确的人脸检测结果，有效解决了背景技术中所提出的问题，以下将举例说明。

图1示出了根据本申请一个实施例的人脸检测方法的流程示意图，该方法包括：

步骤S110：生成人脸检测图像的特征图，特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图。

人脸检测技术在越来越多的领域得到应用，如人脸美颜、相册分类等等。本申请旨在提供一种检测准确率高、计算量小、计算速率快的人脸检测方法。

首先，生成人脸检测图像的特征图，特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图。

本申请在描述图像特征时，是通过多尺度进行表达的，多尺度表达是在一定尺度范围内描述目标结构，其基本思想是对原始信号嵌入一族尺寸参数变化的信号，大尺度下信号的结构应该是小尺度下信号的简化，多尺度表达方式包括但不限于图像金字塔表达、尺度空间表达等。

本申请中，原始特征图中涉及的图像特征包括但不限于颜色特征、形状特征、边缘特征、纹理特征以及空间关系特征等等。

在进行特征提取时，可先对图像进行自动分割，划分出图像中所包含的对象或颜色区域，然后根据这些区域提取图像特征；也可以简单地将图像均匀地划分为若干规则子块，然后对每个图像子块提取特征。

关于特征提取的算法，可为现有技术中的任意一种，如：哈尔(Haar)特征提取法、LBP(Local Binary Pattern局部二值模式)特征提取法、SIFT(Scale-invariant featuretransform，尺度不变特征变换)特征提取法等，具体可利用机器学习模型实现，机器学习模型的结构可以采用卷积神经网络(Convolutional Neural Networks，CNN)等。这里以常见的卷积神经网络结构ResNet作为示例，进行简单说明。

ResNet的主要思想是在网络中增加了直连通道，即Highway Network的思想，在ResNet出现前的网络结构是性能输入做一个非线性变换，而Highway Network则允许保留之前网络层的一定比例的输出。这样的话这一层的神经网络可以不用学习整个的输出，而是学习上一个网络输出的残差，传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，同时还有导致梯度消失或者梯度***，导致很深的网络无法训练。ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。

在得到多个尺度的原始特征图后，将其特征进行融合，得到与各原始特征图对应的融合特征图。特征提取是从低层次到高层的语义特征的提取过程。比如对于人脸特征的提取，网络的低层提取的特征只是一些轮廓特征，随着网络的深入提取的特征可能是眼睛，鼻子等更高的语义特征，到最后网络到达最深的层是可能就提取到了整张人脸轮廓的特征了。

但是随着网络的加深，每一层都会丢失一些信息，到最后一层就会丢掉比较多的信息。为了解决这个问题，可以将多个尺度的原始特征图的特征进行融合，得到与各原始特征图对应的融合特征图，其基本思想是认为在该层网络进行卷积操作之前，将上一层的原始特征图加上该层的原始特征图，这样就可以保留上一层的一些信息，减少该层信息的丢失。

关于特征融合的算法可采用现有技术中的任意一种，包括但不限于：基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、以及基于深度学习理论算法。如基于稀疏表示理论的特征融合算法是对样本提取多特征后建立特征联合稀疏矩阵，这个矩阵就是多特征融合的结果，该方法就是将不同类型的特征的字典进行融合。又如基于深度学习理论的特征融合算法，就是将多个神经网络得到的特征进行融合就得到了融合的特征。步骤S120：根据原始特征图确定人脸位置偏移。

本申请利用可变卷积对与原始特征图对应的融合特征图进行修正，其中，可变卷积相对于标准卷积增加的一个偏移的变量，从而使得卷积的采样范围可以在规则格点附近有一定程度的调整空间，本申请中，这个偏移的变量就是根据原始特征图确定的人脸位置偏移。

人脸位置偏移也可称为人脸位置偏移量，如采用锚点框进行采样，人脸位置偏移可以理解为对人脸位置进行回归后的结果与原锚点框在原图的绝对位置的偏移。具体可以这样理解，假设人脸位置回归后的锚点框的标签(label)为：左上(xlu1，ylu2)、右下(xrd，yrd2)，原锚点框实际在原图的绝对坐标为(x1，y1)(x2，y2)，那么左上的人脸位置偏移就是定义为：(x1-xlu1)/(x2-x1)，这是个归一化的数据，同理可以得到左上、右下、右下的人脸位置偏移，更加通俗简单的理解就是左上、右下的x和y坐标基于原锚点框宽和高往上和往下偏移了多少倍。

网络在根据原始特征图做人脸位置的偏移回归的时候，通常使用的是经过初步遴选的含有人脸(positives face)的或者部分含有人脸(parts face)的图像，因为如果用不含有人脸(negative face)的背景图像做回归，会造成回归结果的不准确性，对于部分含有人脸的图像，网络可以根据局部特征，如鼻子、眼睛、耳朵等来进行回归。

步骤S130：根据人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图。

可变卷积，又称为可变形卷积(deformable convolution)。标准卷积网络所用的模块中几何结构是固定的，其几何变换建模的能力本质上是有限的，其适应几何形变的原因是标准卷积中的规则格点采样，为了削弱这个限制，对卷积核中每个采样点的位置都增加了一个偏移的变量，通过这些变量，卷积核就可以在当前位置附近随意的采样，而不再局限于之前的规则格点，这样扩展后的卷积操作被称为可变形卷积，这也是可变形卷积相对于标准卷积网络最大的不同。

本申请中将上述得到的人脸位置偏移作为可变卷积针对标准卷积额外增加的偏移的变量，这样可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整，其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化，从而适应不同物体的形状、大小等几何形变。

步骤S140：基于可变卷积特征图确定人脸检测结果。

在通过采用可变卷积根据人脸位置偏移对各融合特征图进行处理后，得到可变卷积特征图，在该图中，人脸的信息都被充分的描述，可根据该图确定人脸检测结果，人脸检测结果可以包括但不限于人脸的大小和位置等信息。

由图1所示的方法可以看出，本申请基于可变卷积，根据多尺度原始特征图得出的人脸位置偏移对融合特征图像中的人脸特征表达能力进行改善，显著提高了人脸检测的准确度，提升了人脸检测模型的性能，且计算方法简单、计算量小、计算效率高，极大的扩展了人脸检测的应用场景，尤其适用于多目标人脸检测，如在亲子图像检测的实验中，本申请取得了良好的效果。

在本申请的一个实施例中，在上述方法中，生成人脸检测图像的特征图包括：以自底向上和下采样的方式生成人脸检测图像的原始特征图；以自顶向下和下采样的方式生成与各原始特征图对应的融合特征图。

本实施例推荐在对图像特征进行多尺寸表达时采用金字塔影像表达，根据原始人脸检测图像生成图像金字塔，图像金字塔是以多分辨率来解释图像的一种结构，一般按照2ⁿ(n＝0,1,2….)取平均数得到最底层的影像对应的原始图像，然后通过如4*4个像素平均，即构成2级影像级，如此类推，即可构成多级金字塔影像，即每一级(2ⁱ)影像的像素总数等于前一级(2^i-1)影像以4的倍数缩小。金字塔的层数可根据影像的分辨率、影像可能的噪声以及影像的大小等相关因素进行计算。生成人脸检测图像的原始特征图的过程中，在生成较大尺度的原始特征图时，可采用自底向上的模式，具体的可参考附图2，图2是根据本实施例的基于可变卷积特征图确定人脸检测结果的流程示意图，将第n层(n为自然数)原始特征图记为Cn，其中C3、C4、C5是采用自底向上的模式进行采样这样每一层的像素都不断减少，能够大量减少计算量；但是在生成较小尺度的原始特征图(C6、C7)时，为了不损失精度，也可以采取下采样的方式，由于尺度较小的特征图不需要大量的计算资源，这样既保障计算速度的同时，又保障了检测的准确性。

同理，在生成与各原始特征图对应的融合特征图时，在尺度较大(P3、P4、P5)时，可以以自顶向下的方式，在尺度较小(P6、P7)时，可采用下采样的方式生成与各原始特征图对应的融合特征图。

在本申请的一个实施例中，在上述方法中，以自顶向下和上采样的方式生成与各原始特征图对应的融合特征图包括：根据目标融合特征图对应的原始特征图的通道数量，以及目标融合特征图的上层融合特征图的通道数量，确定目标融合特征图的权重。

在现有技术中，在特征融合时，对各个特征的通道的权重未加考虑，本实施例赋予各特征各通道不同的权重。本实施例推荐的赋予权重的方法为：根据目标融合特征图对应的原始特征图的通道数量，以及目标融合特征图的上层融合特征图的通道数量，确定目标融合特征图的权重。

将第n层(n为自然数)原始特征图记为Cn，将与之相对应的融合特征图记为Pn，以P4为例，其计算方式如式1所示：

P4＝Conv(W_c4*Conv(C4)+W_p4*Upsample(P5)) (1)

其中，W_c4向量的元素个数与Conv(C4)特征的通道数相等，W_p4与Upsample(P5)的通道数相等。在利用人脸检测模型实现本申请的技术方案时，人脸检测模型训练阶段可以学习到W_c4与W_p4，其元素值均大于0，且W_c4与W_p4对应元素之和为1。

在本申请的一个实施例中，在上述方法中，根据原始特征图确定人脸位置偏移包括：对各原始特征图分别进行锚点框回归；根据各原始特征图的锚点框回归结果，以及各锚点框回归结果对应的锚点框确定人脸位置偏移。

铺设锚点框(anchor)的检测方式能够快速、准确的对图像中的目标进行检测，本实施例中，采用锚点框确认人脸的初步位置以及偏移量。具体的，先在各原始特征图上铺设锚点框，如采用滑窗的方式，然后对各原始特征图分别进行锚点框回归，得到根据各原始特征图的锚点框回归结果，其结果包含但不限于锚点框的两个角或四个角的坐标，根据回归后锚点框的坐标与其相对应的回归前锚点框的坐标即可得到人脸位置偏移。

在本申请的一个实施例中，在上述方法中，基于可变卷积特征图确定人脸检测结果包括：对各原始特征图分别进行锚点框分类和锚点框回归；根据第一类原始特征图的锚点框分类结果，对与第一类原始特征图对应的第一类融合特征图进行锚点框分类；根据第二类原始特征图的锚点框回归结果，对与第二类原始特征图对应的第二类融合特征图进行锚点框回归；根据第一类原始特征图的锚点框回归结果、第一类融合特征图的锚点框分类结果、第二类原始特征图的锚点框分类结果、第二类融合特征图的锚点框回归结果确定人脸检测结果；其中，第一类原始特征图是第二类原始特征图的下层特征图。

如图2所示，是根据本实施例的基于可变卷积特征图确定人脸检测结果的流程示意图，确定人脸检测结果分为2个主要步骤，附图标记1为分类(classification)步骤，附图标记2为回归(regression)步骤。各尺度的原始特征图分为第一类原始特征图(C3、C4、C5)和第二类原始特征图(C6、C7)，第一类原始特征图对应分类步骤，第二类原始特征图对应回归步骤；与第一类原始特征图对应的融合特征图为第一类融合特征图(P3、P4、P5)，与第二类原始特征图对应的融合特征图为第二类融合特征图(P6、P7)。其中，第一类原始特征图是第二类原始特征图的下层特征图，即C3、C4、C5是C6、C7的下层图像，P3、P4、P5是P6、P7的下层图像。

首先，对各原始特征图分别进行锚点框分类和锚点框回归，即C3-C7每一层都是独立地作锚点框分类和回归。

然后根据第一类原始特征图的锚点框分类结果，对第一类融合特征图进行锚点框分类，这是由于C3、C4、C5是下层图像，负样本(无人脸信息的背景图像)多，所以通过P3、P4、P5再进行一次分类。而由于使用下层特征图的主要目标是检测出人脸检测图像中的小尺度人脸，此时如果对P3、P4、P5再做一次回归的效果并不明显，所以P3、P4、P5只做分类，这样遴选出大量的负样本既大幅度节省了计算资源，提高了计算效率，又保障了检测的准确性。

根据第二类原始特征图的锚点框回归结果，对第二类融合特征图进行锚点框回归，由于C6、C7是上层特征图，再通过P6、P7做一次回归使得检测结果更精准。由于利用上层特征图的主要目标是检测出人脸检测图像中的大尺度人脸，而分类在C6、C7上已经能够得到较为准确的结果，因此可以不利用P6、P7再进行分类。

最后，根据第一类原始特征图的锚点框回归结果(C3、C4、C5的回归结果)、第一类融合特征图的锚点框分类结果(P3、P4、P5的分类结果)、第二类原始特征图的锚点框分类结果(C6、C7的分类结果)、第二类融合特征图的锚点框回归结果(P6、P7的回归结果)，确定人脸检测结果。

由此，实现了在下层特征图上有选择地进行锚点框分类，在上层特征图上有选择地进行锚点框回归，可以节约计算资源并提高计算效率。当然，也可以在P3-P5上再次进行锚点框回归，以及在P6-P7上再次进行锚点框分类，最后直接以P3-P7得到的锚点框分类结果和锚点框回归结果确定人脸检测结果。

在本申请的一个实施例中，以上所述方法还包括：对原始特征图和融合特征图分别进行感受野增强处理。

感受野的定义为卷积神经网络每一层输出的特征图上的像素点在原始输入图像上映射的区域的大小，即感受野表示输入空间中一个特定神经网络特征的范围区域，包括该特征的位置(感受野的中心位置)，以及区域大小(感受野的大小)，因此，一个特征的感受野可以采用区域的中心位置和特征大小进行描述。

大的感受野对学习长距离的空间位置关系(long-range spatialrelationship)，建立内隐空间模型(implicit spatial model)等都有帮助，因此实施例通过对原始特征图和融合特征图分别进行感受野增强处理来提高其性能。

本申请对增加感受野的方法不作限制，可采用现有技术中的任意一种或几种的组合，例如包括但不限于增加池化层、增加卷积核的kernel size(业内暂无中文名)、增加卷积层的个数等方法。

在本申请的一个实施例中，以上所述方法是基于人脸检测模型实现的，所述人脸检测模型是通过如下方式训练得到的：将训练图像输入到人脸检测模型中，得到人脸检测结果；根据训练图像的标注信息以及人脸检测结果计算多类损失函数值，其中，损失函数包括以下所述的至少一种：人脸分类损失函数、人脸位置损失函数、关键点损失函数、人脸分割函数；根据损失函数值对人脸检测模型的参数进行更新。

人脸检测模型的模型训练主要由以下几个步骤：将训练图像输入人脸检测模型，得到人脸图像的人脸检测结果以及训练图像的标签。

根据训练图像的标签和人脸检测结果计算损失值，最后根据损失值对人脸检测模型的参数进行更新。

本实施例中涉及的损失函数为人脸分类损失函数(Focal Loss)、人脸位置损失函数(Complete Iou Loss)、关键点损失函数(Landmark Loss)、人脸分割损失函数(Segmentation Loss)中的一种或几种的组合，本实施推荐一种以上的组合形式作为一种优选方案，这样显著提高了本申请中人脸检测模型的综合性能，进一步提高了检测的准确性。

具体的，将人脸分类结果通过人脸分类损失函数计算人脸分类损失值；前景背景分类结果通过人脸分割损失函数计算人脸分割损失值；人脸位置预测结果通过人脸位置损失函数计算人脸位置损失值；关键点位置回归结果通过关键点损失函数计算关键点损失值，具体算法，不再赘述。

图3示出了根据本申请另一个实施例的人脸检测方法的流程示意图。

首先生成人脸检测图像的特征图，包括多个尺度的原始特征图(C3-C7)和与各原始特征图对应的融合特征图(P3-P7)。其中，C3-C7和P3-P7的意义同前文，不再赘述。

对各原始特征图(C3-C7)进行感受野增强处理，并对其进行第一步分类和第一步回归，得到C3-C7的第一步分类结果和第一步回归结果。

根据C3-C7的第一步回归结果以及锚点框的位置确定人脸位置偏移量；并对各融合特征图(P3-P7)进行感受野增强处理，根据感受野增强后的各原始特征图，以及上述得到的人脸位置偏移量进行可变卷积，得到各融合特征图的可变卷积特征图。

根据可变卷积后的P3-P5结合C3-C5的第一步分类结果进行第二步分类,得到P3-P5的第二步分类结果；根据可变卷积后的P6、P7结合C6、C7的第一步回归结果进行第二步回归,得到P6、P7的第二步回归结果。

根据C3-C5的第一步回归结果，P3-P5的第二步分类结果；C6、C7的第一步分类结果，P6、P7的第二步回归结果，确定人脸检测结果。

图4示出了根据本申请一个实施例的人脸检测装置的结构示意图；该人脸检测装置400包括：

特征图生成单元410，用于生成人脸检测图像的特征图，所述特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图。

关于特征融合的算法可采用现有技术中的任意一种，包括但不限于：基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、以及基于深度学习理论算法。如基于稀疏表示理论的特征融合算法是对样本提取多特征后建立特征联合稀疏矩阵，这个矩阵就是多特征融合的结果，该方法就是将不同类型的特征的字典进行融合。又如基于深度学习理论的特征融合算法，就是将多个神经网络得到的特征进行融合就得到了融合的特征。

特征图处理单元420，用于根据所述原始特征图确定人脸位置偏移；根据所述人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图。

检测单元430，用于基于所述可变卷积特征图确定人脸检测结果。

在本申请的一个实施例中，在上述装置中，特征图生成单元410，用于以自底向上和下采样的方式生成人脸检测图像的原始特征图；以自顶向下和下采样的方式生成与各原始特征图对应的融合特征图。

在本申请的一个实施例中，在上述装置中，特征图生成单元410，用于根据目标融合特征图对应的原始特征图的通道数量，以及目标融合特征图的上层融合特征图的通道数量，确定目标融合特征图的权重。

在本申请的一个实施例中，在上述装置中，特征图处理单元420，用于对各原始特征图分别进行锚点框回归；以及用于根据各原始特征图的锚点框回归结果，以及各锚点框回归结果对应的锚点框确定人脸位置偏移。

在本申请的一个实施例中，在上述装置中，检测单元430，用于对各原始特征图分别进行锚点框分类和锚点框回归；用于根据第一类原始特征图的锚点框分类结果，对与第一类原始特征图对应的第一类融合特征图进行锚点框分类；用于根据第二类原始特征图的锚点框回归结果，对与第二类原始特征图对应的第二类融合特征图进行锚点框回归；以及用于根据第一类原始特征图的锚点框回归结果、第一类融合特征图的锚点框分类结果、第二类原始特征图的锚点框分类结果、第二类融合特征图的锚点框回归结果确定人脸检测结果；其中，第一类原始特征图是第二类原始特征图的下层特征图。

在本申请的一个实施例中，以上所述装置中：特征图处理单元420，还用于对原始特征图和融合特征图分别进行感受野增强处理。

在本申请的一个实施例中，以上所述装置是基于人脸检测模型实现的，所述人脸检测模型是通过如下方式训练得到的：将训练图像输入到人脸检测模型中，得到人脸检测结果；根据训练图像的标注信息以及人脸检测结果计算多类损失函数值，其中，损失函数包括以下所述的至少一种：人脸分类损失函数、人脸位置损失函数、关键点损失函数、人脸分割函数；根据损失函数值对人脸检测模型的参数进行更新。

需要说明的是，上述实施例中的人脸检测装置可分别用于执行前述实施例中的人脸检测方法，因此不再一一进行具体的说明。

由以上所述可知，本申请通过生成人脸检测图像的特征图，特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图；根据原始特征图确定人脸位置偏移；根据人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图；基于可变卷积特征图确定人脸检测结果。本申请的有益效果在于，基于可变卷积，根据多尺度原始特征图得出的人脸位置偏移对融合特征图像中的人脸特征表达能力进行改善，显著提高了人脸检测的准确度，且计算方法简单、计算量小、计算效率高，极大的扩展了人脸检测的应用场景，尤其适用于多目标人脸检测。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，申请方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的人脸检测装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图5示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备500包括处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如，用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。图6示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531，可以被电子设备500的处理器510读取，当计算机可读程序代码531由电子设备500运行时，导致该电子设备500执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种人脸检测方法，其特征在于，包括：

生成人脸检测图像的特征图，所述特征图包括多个尺度的原始特征图和与各原始特征图对应的融合特征图；

根据所述原始特征图确定人脸位置偏移；

根据所述人脸位置偏移对各融合特征图进行可变卷积，得到各融合特征图的可变卷积特征图；

基于所述可变卷积特征图确定人脸检测结果。

2.根据权利要求1所述的方法，其特征在于，所述生成人脸检测图像的特征图包括：

3.根据权利要求2所述的方法，其特征在于，所述以自顶向下和上采样的方式生成与各原始特征图对应的融合特征图包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述原始特征图确定人脸位置偏移包括：

对各原始特征图分别进行锚点框回归；

根据各原始特征图的锚点框回归结果，以及各锚点框回归结果对应的锚点框确定所述人脸位置偏移。

5.根据权利要求1所述的方法，其特征在于，所述基于所述可变卷积特征图确定人脸检测结果包括：

对各原始特征图分别进行锚点框分类和锚点框回归；

根据第一类原始特征图的锚点框分类结果，对与所述第一类原始特征图对应的第一类融合特征图进行锚点框分类；

根据第二类原始特征图的锚点框回归结果，对与所述第二类原始特征图对应的第二类融合特征图进行锚点框回归；

其中，所述第一类原始特征图是所述第二类原始特征图的下层特征图。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述原始特征图和所述融合特征图分别进行感受野增强处理。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法是基于人脸检测模型实现的，所述人脸检测模型是通过如下方式训练得到的：

将训练图像输入到人脸检测模型中，得到人脸检测结果；

根据训练图像的标注信息以及所述人脸检测结果计算多类损失函数值，其中，所述损失函数包括以下所述的至少一种：人脸分类损失函数、人脸位置损失函数、关键点损失函数、人脸分割函数；

根据所述损失函数值对人脸检测模型的参数进行更新。

8.一种人脸检测装置，其特征在于，该装置包括：

9.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。