CN109670452A

CN109670452A - 人脸检测方法、装置、电子设备和人脸检测模型

Info

Publication number: CN109670452A
Application number: CN201811566552.3A
Authority: CN
Inventors: 李帮怀; 俞刚; 袁野
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-23

Abstract

本发明提供了一种人脸检测方法、装置、电子设备和人脸检测模型，属于图像检测技术领域。本发明提供的人脸检测方法、装置、电子设备和人脸检测模型，通过特征提取网络提取待检测图像的特征图，将特征图输入多任务分支网络。多任务分支网络包括并行的第一分类分支网络和第二分类分支网络，第一分类分支网络用于确定特征图中是否包含人脸，第二分类分支网络用于确定特征图中的人脸是否为活体人脸。结合第一分类分支网络输出的第一分类结果和第二分类分支网络输出的第二分类结果，确定待检测图像的人脸检测结果。因此，通过并行的第一分类分支网络和第二分类分支网络，可以同时进行人脸检测和活体检测，提高检测过程的整体效率。

Description

人脸检测方法、装置、电子设备和人脸检测模型

技术领域

本发明属于图像检测技术领域，尤其是涉及一种人脸检测方法、装置、电子设备和人脸检测模型。

背景技术

随着电子设备的日益智能化，人脸检测(Face Detection)技术不仅广泛应用于安全访问和设备解锁等场景中，而且也应用于安防领域中的人脸闸机、城市安防***等场景。在人脸检测技术的实际应用过程中，往往存在一些“假”人脸，比如海报、雕塑、卡通人脸等，这些“假”人脸不是所需要的人脸。因此人们希望在检测过程中过滤掉“假”人脸，例如，在刷脸支付过程中就需要避免“假”人脸的攻击。

现有技术中解决“假”人脸干扰或攻击的问题，一般采用活体检测技术，活体检测步骤通常在人脸检测步骤之后执行，基于人脸检测步骤输出的检测结果进行活体检测。但是，如果人脸检测步骤输出大量的“假”人脸，会增加活体检测步骤的负担，进而影响整个检测过程的效率。

发明内容

有鉴于此，本发明的目的在于提供一种人脸检测方法、装置、电子设备和人脸检测模型，可以同时进行人脸检测和活体检测，提高检测过程的整体效率。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种人脸检测方法，包括：

通过特征提取网络提取待检测图像的特征图；

将所述特征图输入多任务分支网络，至少得到第一分类结果和第二分类结果；所述多任务分支网络至少包括并行的第一分类分支网络和第二分类分支网络；所述第一分类分支网络用于确定所述特征图中是否包含人脸，输出第一分类结果；所述第二分类分支网络用于确定所述特征图中的人脸是否为活体人脸，输出第二分类结果；

结合所述第一分类结果和所述第二分类结果，确定所述待检测图像的人脸检测结果。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述多任务分支网络还包括与所述第一分类分支网络和所述第二分类分支网络并行的回归分支网络；所述回归分支网络用于确定所述特征图中人脸的位置，输出包围所述人脸的人脸框的坐标；

将所述特征图输入多任务分支网络，至少得到第一分类结果和第二分类结果的步骤，包括：将所述特征图输入多任务分支网络，得到第一分类分支网络输出的第一分类结果、第二分类分支网络输出的第二分类结果和回归分支网络输出的人脸框的坐标；

结合所述第一分类结果和所述第二分类结果，确定所述待检测图像的人脸检测结果的步骤，包括：结合所述第一分类结果、第二分类结果和人脸框的坐标，确定所述待检测图像的人脸检测结果。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述特征提取网络包括残差网络和特征融合网络，所述残差网络和所述特征融合网络均采用金字塔网络结构；通过特征提取网络提取待检测图像的特征图的步骤，包括：

将所述待检测图像输入所述残差网络，得到所述残差网络输出的多个尺度的特征响应图；

将所述多个尺度的特征响应图输入所述特征融合网络，得到所述特征融合网络输出的多个尺度的特征图；所述特征融合网络包括多个网络层，每个所述网络层对应输入一种尺度的特征响应图，输出对应尺度的特征图。

结合第一方面或第一方面的上述任一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，获取训练图像样本集；所述训练图像样本集包括多张训练图像；

采用所述训练样本集对所述特征提取网络和所述多任务分支网络进行训练。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述训练图像携带有预先设置的第一分类标签、第二分类标签和回归标签；所述多任务分支网络包括第一分类分支网络、第二分类分支网络和回归分支网络；采用所述训练样本集对所述特征提取网络和所述多任务分支网络进行训练的步骤，包括：

从所述训练图像样本集中随机选取训练图像，通过所述特征提取网络提取所述训练图像的特征图；

将所述训练图像的特征图输入所述多任务分支网络；

通过所述第一分类分支网络对所述训练图像的特征图进行分类处理；

基于所述第一分类分支网络输出的第一分类处理结果和所述第一分类标签确定第一分类损失值；

通过所述第二分类分支网络对所述训练图像的特征图进行分类处理；

基于所述第二分类分支网络输出的第二分类处理结果和所述第二分类标签确定第二分类损失值；

通过所述回归分支网络对所述训练图像的特征图进行回归处理；

基于所述回归分支网络输出的回归处理结果和所述回归标签确定回归损失值；

基于所述第一分类损失值、第二分类损失值和回归损失值对所述特征提取网络和所述多任务分支网络进行训练。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，基于所述第一分类分支网络输出的第一分类处理结果和所述第一分类标签确定第一分类损失值的步骤，包括：采用焦点损失函数，根据所述第一分类处理结果和所述第一分类标签确定第一分类损失值；

基于所述第二分类分支网络输出的第二分类处理结果和所述第二分类标签确定第二分类损失值的步骤，包括：采用焦点损失函数，根据所述第二分类处理结果和所述第二分类标签确定第二分类损失值。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，基于所述回归分支网络输出的回归处理结果和所述回归标签确定回归损失值的步骤，包括：

采用交并比损失函数，根据所述回归处理结果和所述回归标签确定回归损失值。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，基于所述第一分类损失值、第二分类损失值和回归损失值对所述特征提取网络和所述多任务分支网络进行训练的步骤，包括：

计算所述第一分类损失值、第二分类损失值和回归损失值的加权和，作为整体损失值；

基于所述整体损失值对所述特征提取网络和所述多任务分支网络进行训练。

第二方面，本发明实施例还提供一种人脸检测模型，包括特征提取网络和与所述特征提取网络连接的多任务分支网络，所述多任务分支网络至少包括并行的第一分类分支网络和第二分类分支网络；所述特征提取网络用于提取待检测图像的特征图；所述第一分类分支网络用于确定所述特征图中是否包含人脸；所述第二分类分支网络用于确定所述特征图中的人脸是否为活体人脸。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述多任务分支网络还包括与所述第一分类分支网络和所述第二分类分支网络并行的回归分支网络；所述回归分支网络用于确定所述特征图中人脸的位置。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述第一分类分支网络、第二分类分支网络和回归分支网络均为基于锚点的分支网络。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述特征提取网络包括残差网络和特征融合网络，所述特征融合网络包括多个网络层，每个网络层分别与并行的第一分类分支网络、第二分类分支网络和回归分支网络连接。

第三方面，本发明实施例提供了一种人脸检测装置，包括：

特征提取模块，用于通过特征提取网络提取待检测图像的特征图；

人脸检测模块，用于将所述特征图输入多任务分支网络，至少得到第一分类结果和第二分类结果；所述多任务分支网络至少包括并行的第一分类分支网络和第二分类分支网络；所述第一分类分支网络用于确定所述特征图中是否包含人脸，输出第一分类结果；所述第二分类分支网络用于确定所述特征图中的人脸是否为活体人脸，输出第二分类结果；结合所述第一分类结果和所述第二分类结果，确定所述待检测图像的人脸检测结果。

第四方面，本发明实施例提供了一种电子设备，包括图像采集装置、存储器和处理器；

所述图像采集装置，用于采集图像数据；

所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。

第五方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种人脸检测方法、装置、电子设备和人脸检测模型，通过特征提取网络提取待检测图像的特征图，将特征图输入多任务分支网络。多任务分支网络包括并行的第一分类分支网络和第二分类分支网络，第一分类分支网络用于确定特征图中是否包含人脸，第二分类分支网络用于确定特征图中的人脸是否为活体人脸。结合第一分类分支网络输出的第一分类结果和第二分类分支网络输出的第二分类结果，确定待检测图像的人脸检测结果。因此，通过并行的第一分类分支网络和第二分类分支网络，可以同时进行人脸检测和活体检测，提高检测过程的整体效率。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种人脸检测方法的流程图；

图3示出了本发明实施例所提供的一种人脸检测模型的结构示意图；

图4示出了本发明实施例所提供的一种人脸检测装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中通常在人脸检测步骤之后再执行活体检测步骤，导致整个检测过程的效率降低，基于此，本发明实施例提供了一种人脸检测方法、装置、电子设备和人脸检测模型。以下结合附图和具体实施方式对本发明实施例提供的人脸检测方法、装置、电子设备和人脸检测模型进行详细说明。

实施例一：

首先，参照图1来描述用于实现本发明实施例的人脸检测方法的示例电子设备100。该示例电子设备100可以是智能手机、平板电脑、相机等移动终端；还可以是身份验证设备(如考勤机、人证一体机等)、监控器或监控中心的服务器等其它设备。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108，还可以包括图像采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理器(CPU)、图形处理器(Graphics ProcessingUnit，GPU)或者具有数据处理能力、图像处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的图像分割功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种图像等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储器104中以供其它组件使用。

电子设备100上还设置有一个或多个补光灯，补光灯对应于图像采集装置设置，用于当环境光线不足，影响图像采集装置的图像采集效果时，为所述图像采集装置进行补光。补光灯可以采用红外补光灯，如近红外LED灯、激光红外灯等。红外补光灯发出不可见红外光，在暗光环境中为图像采集装置进行补光。

实施例二：

本实施例提供了一种人脸检测方法，可以同时进行人脸检测和活体检测，提高检测过程的整体效率。图2示出了该人脸检测方法的流程图。该需要说明的是，在图2的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。以下对本实施例进行详细介绍。

如图2所示，本实施例提供的人脸检测方法，包括如下步骤：

步骤S202，通过特征提取网络提取待检测图像的特征图。

其中，待检测图像可以是图像采集装置实时采集的图像，也可以为预先存储的图像。另外，待检测图像可以是图片格式的图像，也可以是视频中的图像帧，本发明实施例不作限制。

在一种可选的实施例中，特征提取网络可以包括多个卷积层，或者采用全卷积神经网络(Fully Convolutional Neuron networks，FCN)实现。全卷积神经网络可以包括至少一个卷积层、至少一个池化层和至少一个上采样层。卷积层和池化层可以间隔设置，即相邻的池化层之间可以设置一个或多个卷积层。每个卷积层包括一个或多个用于从待检测图像的像素矩阵中提取特征信息的第一卷积核，用第一卷积核按照一定的步长遍历待检测图像的像素矩阵，得到至少一个特征值，由至少一个特征值组成卷积特征图。池化层用于将卷积层输出的卷积特征图进行降维处理，减小卷积特征图的尺度，全卷积神经网络的池化层输出池化特征图。上采样层连接在最后一个池化层之后，用于将最后一个池化层输出的池化特征图放大，得到待检测图像的特征图，输出的特征图的大小与待检测图像的大小相同。

在另一种可选的实施例中，特征提取网络可以包括残差网络和特征融合网络，所述残差网络和所述特征融合网络均采用特征金字塔网络(Feature Pyramid Network，FPN)的网络结构。将待检测图像输入残差网络进行特征提取，得到残差网络输出的多个尺度的特征响应图；将多个尺度的特征响应图输入特征融合网络进行特征融合，得到特征融合网络输出的多个尺度的特征图。其中，特征融合网络包括多个网络层，每个网络层对应输入一种尺度的特征响应图，输出对应尺度的特征图。

步骤S204，将特征图输入多任务分支网络，至少得到第一分类结果和第二分类结果。

其中，多任务分支网络至少包括并行的第一分类分支网络和第二分类分支网络。第一分类分支网络用于确定所述特征图中是否包含人脸，输出

第一分类结果，第一分类结果用于标示特征图中是否包含人脸。第二分类分支网络用于确定所述特征图中的人脸是否为活体人脸，输出第二分类结果，第二分类结果用于标示特征图中是否包含活体人脸。

具体地说，第一分类分支网络可以采用基于锚点(anchor)的分支网络，锚点可理解为候选框，所述特征图中每个位置均可对应设置多种候选框。第一分类分支网络对特征图进行卷积计算，并利用归一化函数对卷积计算结果进行归一化处理，得到每个候选框对应的第一置信度。所述第一置信度指相应的候选框中包含人脸的概率。其中，归一化函数可以采用Sigmoid函数。

第二分类分支网络也可以采用基于锚点的分支网络。第二分类分支网络对特征图进行卷积计算，并利用归一化函数对卷积计算结果进行归一化处理，得到每个候选框对应的第二置信度。所述第二置信度指相应的候选框中包含活体人脸的概率。其中，归一化函数可以采用Sigmoid函数。

步骤S206，结合第一分类结果和第二分类结果，确定待检测图像的人脸检测结果。

对于上述候选框，如果第一置信度和第二置信度均超过设定阈值，即该候选框包含人脸的概率和包含活体人脸的概率都较高时，可以确定该候选框中包含人脸。如果第一置信度超过设定阈值，但第二置信度未达到设定阈值，即该候选框中包含人脸，但该人脸并非活体人脸，则认为该候选框中不包含人脸，可以防止“假”人脸的攻击。

可选地，上述多任务分支网络还可以包括回归分支网络，回归分支网络与第一分类分支网络和第二分类分支网络并行，回归分支网络用于确定特征图中人脸的位置，输出包围人脸的人脸框的坐标，例如，输出的人脸框的坐标可以包括四个数值：人脸框的左上角坐标和人脸框的长宽。

将特征提取网络输出的特征图输入多任务分支网络，得到第一分类分支网络输出的第一分类结果、第二分类分支网络输出的第二分类结果和回归分支网络输出的人脸框的坐标，结合第一分类结果、第二分类结果和回归分支网络输出的人脸框的坐标，确定待检测图像的人脸检测结果。

本发明实施例提供的人脸检测方法，通过特征提取网络提取待检测图像的特征图，将特征图输入多任务分支网络。多任务分支网络包括并行的第一分类分支网络和第二分类分支网络，第一分类分支网络用于确定特征图中是否包含人脸，第二分类分支网络用于确定特征图中的人脸是否为活体人脸。结合第一分类分支网络输出的第一分类结果和第二分类分支网络输出的第二分类结果，确定待检测图像的人脸检测结果。因此，通过并行的第一分类分支网络和第二分类分支网络，可以同时进行人脸检测和活体检测，提高检测过程的整体效率。

图3示出了本发明实施例所采用的一种人脸检测模型，该人脸检测模型包括依次连接的特征提取网络和多任务分支网络。以下结合图3介绍本发明的一种具体应用实例，在该应用实例中，特征提取网络包括残差网络和特征融合网络，多任务分支网络包括并行的第一分类分支网络、第二分类分支网络和回归分支网络。基于此，该应用实例提供的人脸检测方法具体包括如下步骤：

(1)将待检测图像输入特征提取网络，通过残差网络的多个特征提取层，输出多个尺度的特征响应图，多个尺度的特征响应图对应输入特征融合网络的多个网络层，通过自上而下的特征融合，得到多个尺度的特征图。

示例性地，残差网络和特征融合网络可以采用Resnet网络。残差网络和特征融合网络的网络结构可以参见图3所示。在图3中，残差网络包括三个特征提取层，每个特征提取层输出一个尺度的特征响应图，每个特征提取层输出的特征响应图的尺度与其它特征提取层不同。一种可选的网络结构为：每个特征提取层包括至少一个卷积层和至少一个池化层，卷积层用于提取待检测图像中的特征信息，生成特征响应图，池化层用于缩小特征响应图的尺度。另一种可选的网络结构为：每个特征提取层包括多个卷积层，其中，至少一个卷积层的步长大于或等于2，用于缩小特征响应图的尺度，起到与池化层相同的作用。与残差网络相对应地，特征融合网络包括三个网络层，每个网络层对应输入一种尺度的特征响应图，输出对应尺度的特征图。除第一网络层之外，每层网络层将上一网络层传递的特征图与本层网络层接收到的特征响应图进行融合，得到本层网络层的特征响应图传递至下一网络层。

待检测图像输入残差网络后，残差网络的三个特征提取层输出三个特征响应图，分别为第一特征响应图、第二特征响应图和第三特征响应图。在图3中，第一特征响应图位于最下方，第三特征响应图位于最上方，第一特征响应图、第二特征响应图和第三特征响应图的尺度依次减小。三个特征响应图依次输入特征融合网络对应的网络层。其中，第一网络层包括卷积层，第二网络层和第三网络层包括上采样层和卷积层。第一网络层对应输入第三特征响应图，第三特征响应图经第一网络层的卷积层，得到第一特征图；第一特征图经第二网络层的上采样层后尺度放大，第二网络层对应输入第二特征响应图，第二特征响应图和尺度放大的第一特征图经第二网络层的卷积层进行特征融合，得到第二特征图。第二特征图经第三网络层的上采样层后尺度放大，第三网络层对应输入第一特征响应图，第一特征响应图和尺度放大的第二特征图经第三网络层的卷积层进行特征融合，得到第三特征图。因此，特征融合网络输出三个特征图，分别为第一特征图、第二特征图和第三特征图。第一特征图、第二特征图、第三特征图和第四特征图的尺度依次增大。

示例性地，残差网络的每个特征提取层可以将输入的特征响应图缩小至原来的1/2。特征融合网络的每个网络层可以将输入的特征图放大至原来的2倍。

为了能够扩大人脸的检测范围，检测不同大小的人脸，可以进一步增加残差网络和特征融合网络的层数。实际应用中，可以根据实际需求而灵活删减残差网络和特征融合网络的层数。

采用残差网络和特征融合网络，可以获取待检测图像的多个不同尺度的特征图，感受野的变化范围也较大，可以检测出不同大小的人脸。残差网络中高层的特征提取层感受野更大，对待检测图像中相对比较大的人脸有比较好的检出率，而低层的特征提取层则对较小的人脸的检出率更好。因此，特征融合网络通过融合不同特征提取层输出的特征响应图，可以提高对不同大小的人脸的检测效果。

(2)将多个尺度的特征图均输入多任务分支网络，结合多任务分支网络中第一分类分支网络、第二分类分支网络和回归分支网络的输出结果，确定待检测图像的人脸检测结果。

具体地，特征融合网络的每个网络层分别与并行的第一分类分支网络、第二分类分支网络和回归分支网络连接，多个尺度的特征图均输入并行的

第一分类分支网络、第二分类分支网络和回归分支网络，第一分类分支网络输出特征图的第一分类结果，第一分类结果用于标示特征图中是否包含人脸。第二分类分支网络输出特征图的第二分类结果，第二分类结果用于标示特征图中是否包含活体人脸。回归分支网络输出包围人脸的人脸框的坐标。结合第一分类分支网络、第二分类分支网络和回归分支网络的输出结果，确定待检测图像中的人脸区域，输出最终的人脸检测结果。

其中，第一分类分支网络包括多个卷积层，主要用于人脸/非人脸的分类。将特征图输入第一分类分支网络，第一分类分支网络可以判断输入的特征图中是否包含人脸，输出包含人脸的概率，即人脸在待检测图像中出现的可能性。

第二分类分支网络包括多个卷积层，主要用于真人(活体)/非真人的分类。将特征图输入第二分类分支网络，第二分类分支网络可以判断输入的特征图中是否包含活体人脸，输出包含活体人脸的概率，即活体人脸在待检测图像中出现的可能性。

回归分支网络也包括多个卷积层，主要用于人脸定位，定位任务也可认为是回归任务。将特征图输入回归分支网络，回归分支网络可以确定输入的特征图中人脸的位置，即人脸在待检测图像中的位置。回归分支网络可以输出标示人脸位置的矩形包围框。

在一可选的实施例中，人脸检测模型可以采用RetinaNet网络，RetinaNet网络是一个有监督的神经网络模型。在模型训练阶段，可以采用焦点损失函数(Focal Loss)解决训练样本分布不均衡带来的问题。

为了使特征提取网络和多任务分支网络可以直接应用于对待检测图像进行人脸检测，输出较为准确可靠的结果，需要预先对特征提取网络和多任务分支网络进行训练。以下详细说明特征提取网络和多任务分支网络的训练过程。

获取训练图像样本集；所述训练图像样本集包括多张训练图像。采用训练样本集对特征提取网络和多任务分支网络进行训练。

可选地，训练图像中携带有预先设置的第一分类标签、第二分类标签和回归标签。其中，第一分类标签用于标示出训练图像中的人脸，第二分类标签用于标示出训练图像中的活体人脸，回归标签为在训练图像中人工标注的人脸框的坐标。多任务分支网络包括第一分类分支网络、第二分类分支网络和回归分支网络。对多任务分支网络的三个分支网络，进行端到端并行的训练。具体地，特征提取网络和多任务分支网络的训练过程包括如下步骤：

(a)从训练图像样本集中随机选取训练图像，通过特征提取网络提取训练图像的特征图。

(b)将训练图像的特征图输入所述多任务分支网络。

(c)通过第一分类分支网络对训练图像的特征图进行分类处理，基于第一分类分支网络输出的第一分类处理结果和第一分类标签确定第一分类损失值。

例如，可以采用焦点损失函数(Focal Loss)，根据第一分类处理结果和第一分类标签确定第一分类损失值。由于训练图像样本集中负样本的量通常会远大于正样本的量，即绝大多数训练图像是不包含人脸的。为了避免正负样本不均衡影响训练好的人脸检测模型的检测效果，所以采用焦点损失函数，焦点损失函数在现有的交叉熵损失函数(Cross-Entropy Loss,CE Loss)的基础上进行改进得到，在交叉熵损失函数的表达式上增加了与人脸存在概率成反比的系数，可对正负样本对损失值的贡献进行自动调节，进而对交叉熵损失函数的结果进行了校正，有助于减小正负样本不均衡对模型的影响，有效提升模型整体的检测准确度。

(d)通过第二分类分支网络对训练图像的特征图进行分类处理；基于第二分类分支网络输出的第二分类处理结果和第二分类标签确定第二分类损失值。

同理，可以采用焦点损失函数，根据第二分类处理结果和第二分类标签确定第二分类损失值，以减小正负样本分布不均衡对模型的影响。

(e)通过回归分支网络对训练图像的特征图进行回归处理；基于回归分支网络输出的回归处理结果和回归标签确定回归损失值。

譬如，可以采用交并比损失函数(Intersection-Over-Union Loss，IOU Loss)，根据回归处理结果和回归标签确定回归损失值。其中，回归分支网络输出的回归处理结果为回归得到的人脸框的位置的四个数值，包括人脸框的左上角坐标(x,y)和人脸框的长宽(w,h)。现有的损失函数(如L1Loss，L2Loss等)均未将上述四个数值看作一个整体，而是分别计算四个数值与标签中的数值的差或平方差，因此损失值的计算不准确。

在本发明实施例中，交并比损失函数的公式如下：

其中，L_IOU为回归损失值，pred为回归分支网络输出的目标人脸框，target为回归标签的标注人脸框，Intersection(pred，target)为目标人脸框与标注人脸框的重叠区域，Union(pred，target)为目标人脸框与标注人脸框的总体区域。

由上述公式可以看出，本发明实施例所采用的交并比损失函数将回归分支网络输出的四个数值看作一个整体，将四个数值代表的目标人脸框与标注人脸框直接进行对比，根据两个框的重叠程度确定回归损失值，得到的回归损失值更合理，更准确。

(f)基于第一分类损失值、第二分类损失值和回归损失值对特征提取网络和多任务分支网络进行训练。

具体地，可以计算第一分类损失值、第二分类损失值和回归损失值的加权和，作为整体损失值，即分别对第一分类损失值、第二分类损失值和回归损失值进行加权后求和，得到整体损失值；基于整体损失值对特征提取网络和多任务分支网络进行训练。

可选地，在上述步骤(c)和步骤(d)中，确定第一分类损失值和第二分类损失值时，可以结合交并比计算损失值，交并比为特征图中的候选框与标注人脸框的重叠程度。下面以确定第二分类损失值为例进行说明：如果某个候选框与标注人脸框的交并比大于第一预设值(如0.5)，将该候选框作为正例候选框，计算第二分类分支网络输出的第二分类处理结果中该候选框的置信度与第二分类标签的第一标注值之间的差值，作为第一差值。其中，第一标记值为正样本所对应的标注值。如果某个候选框与标注人脸框的交并比小于第二预设值(如0.4)，将该候选框作为负例候选框，计算第二分类分支网络输出的第二分类处理结果中该候选框的置信度与第二分类标签的第二标注值之间的差值，作为第二差值。其中，第二标记值为负样本所对应的标注值。基于第一差值和第二差值，确定第二分类分支网络的第二分类损失值。确定第一分类分支网络的第一分类损失值的过程与上述确定第二分类损失值的过程相同，在此不再赘述。

实施例三：

与上述人脸检测方法相对应地，本实施例提供了一种人脸检测模型，如图3所示，该人脸检测模型包括特征提取网络和与特征提取网络连接的多任务分支网络。多任务分支网络至少包括并行的第一分类分支网络和第二分类分支网络；第一分类分支网络用于确定所述特征图中是否包含人脸；第二分类分支网络用于确定特征图中的人脸是否为活体人脸。多任务分支网络还可以包括与第一分类分支网络和所述第二分类分支网络并行的回归分支网络；回归分支网络用于确定特征图中人脸的位置。

其中，特征提取网络用于提取待检测图像的特征图。特征提取网络可以包括残差网络和特征融合网络，特征融合网络包括多个网络层，每个网络层分别与并行的第一分类分支网络、第二分类分支网络和回归分支网络连接。

示例性地，残差网络可以包括三个特征提取层，每个特征提取层输出一个尺度的特征响应图，每个特征提取层输出的特征响应图的尺度与其它特征提取层不同。与残差网络相对应地，特征融合网络包括三个网络层，每个网络层对应输入一种尺度的特征响应图，输出对应尺度的特征图。因此，待检测图像通过特征提取网络，可以得到多个尺度的特征图。

在一具体实施例中，第一分类分支网络、第二分类分支网络和回归分支网络可以分别包括依次连接的五个卷积层，对于每个子网络而言，前四个卷积层的网络参数相同，第五个卷积层与前四个卷积层的网络参数不同。例如，第一分类分支网络、第二分类分支网络和回归分支网络的前四个卷积层对应的参数可以均为W×H×256，其中，W×H为对应卷积层处理的特征图的长和宽，256为对应卷积层的输出维度。输出维度可以理解为卷积层中卷积核的数量。在实际应用中，第一分类分支网络、第二分类分支网络和回归分支网络的前四个卷积层可以网络参数共享，以增强网络的自组织性。

所述第一分类分支网络、第二分类分支网络和回归分支网络均为基于锚点的分支网络，网络参数主要包括锚点的参数。锚点可理解为候选框，所述锚点的参数包括锚点面积(scale)和锚点长宽比(aspects)。一种锚点的参数可表征一种锚点。在一种具体实施例中，为了减小计算量，加快检测速度，可以设置4种锚点，即设置锚点面积分别为和2，锚点面积的单位为像素区域，锚点长宽比分别为1:1和1:1.5。2种面积和2种长宽比可以组合形成4种锚点，特征图中每个位置均对应4种锚点。由于特征图为经过特征提取后得到的，特征图上的锚点尺寸较小，但将特征图的锚点映射至原待检测图像时，每个锚点都会对应一个比较大的区域，可能包含若干个像素点。诸如，对于一幅大小为W×H的特征图，该特征图中包括W×H个位置(可以理解为W×H个像素点)，则可对应W×H×4个锚点，也即，对应W×H×4个候选框。

各个分支网络的最后一个卷积层的输出随着分支网络类型的不同而不同，也可以说，第一分类分支网络、第二分类分支网络和回归分支网络的主要不同之处在于最后一个卷积层。

对于第一分类分支网络，其最后一个卷积层输出的是特征图中每个位置上的多个候选框包含人脸的概率，其输出维度与特征图中每个位置上的候选框的数量、特征图中待检测目标的类别数量有关，可以表示为K₁×N。其中N为每个位置上候选框的数量，K₁为类别数量。在本发明实施例中，待检测目标为人脸，K₁为1。则第一分类分支网络的最后一个卷积层的输出维度为N。可以理解为，第一分类分支网络可基于锚点直接预测包含人脸的候选框。

对于第二分类分支网络，其最后一个卷积层输出的是特征图中每个位置上的多个候选框包含活体人脸的概率，其输出维度与特征图中每个位置上的候选框的数量、特征图中待检测目标的类别数量有关，可以表示为K₂×N。其中N为每个位置上候选框的数量，K₂为类别数量。在本发明实施例中，待检测目标为活体人脸，K₂为1。则第二分类分支网络的最后一个卷积层的输出维度为N。可以理解为，第二分类分支网络可基于锚点直接预测包含活体人脸的候选框。

对于回归分支网络，其最后一个卷积层输出的是特征图中每个位置上的多个候选框的位置修正参数，其输出维度与特征图中每个位置上的候选框的数量、特征图中待检测目标的类别数量，以及每个锚点的位置修正参数的个数有关。其中，每个锚点的位置修正参数指每个锚点相对于真实框的位置修正参数，位置修正参数共4个。真实框表征了待检测目标所在的正确位置。因此回归分支网络的最后一个卷积层的输出维度可以表示为4×K₃×N，其中N为每个位置上候选框的数量，K₃为类别数量。当K₃为1时，回归分支网络的最后一个卷积层的输出维度为4N。回归分支网络可对于每个候选框的位置进行精细的调整，以准确的定位人脸区域。

实施例四：

对应于上述方法实施例，本实施例提供了一种人脸检测装置，参见图4所示的一种人脸检测装置的结构示意图，该装置包括：

特征提取模块41，用于通过特征提取网络提取待检测图像的特征图；

人脸检测模块42，用于将所述特征图输入多任务分支网络，至少得到第一分类结果和第二分类结果；所述多任务分支网络至少包括并行的第一分类分支网络和第二分类分支网络；所述第一分类分支网络用于确定所述特征图中是否包含人脸，输出第一分类结果；所述第二分类分支网络用于确定所述特征图中的人脸是否为活体人脸，输出第二分类结果；结合所述第一分类结果和所述第二分类结果，确定所述待检测图像的人脸检测结果。

在一种可选的实施例中，所述特征提取网络包括残差网络和特征融合网络，所述特征提取模块41还可以用于：将所述待检测图像输入所述残差网络，得到所述残差网络输出的多个尺度的特征响应图；将所述多个尺度的特征响应图输入所述特征融合网络，得到所述特征融合网络输出的多个尺度的特征图；所述特征融合网络包括多个网络层，每个所述网络层对应输入一种尺度的特征响应图，输出对应尺度的特征图。

所述多任务分支网络还包括与所述第一分类分支网络和所述第二分类分支网络并行的回归分支网络；所述回归分支网络用于确定所述特征图中人脸的位置，输出包围所述人脸的人脸框的坐标。所述人脸检测模块42还可以用于：将所述特征图输入多任务分支网络，得到第一分类分支网络输出的第一分类结果、第二分类分支网络输出的第二分类结果和回归分支网络输出的人脸框的坐标；结合所述第一分类结果、第二分类结果和人脸框的坐标，确定所述待检测图像的人脸检测结果。

在一种可选的实施例中，上述人脸检测装置还可以包括训练模块，训练模块与特征提取模块41连接，用于获取训练图像样本集；所述训练图像样本集包括多张训练图像；采用所述训练样本集对所述特征提取网络和所述多任务分支网络进行训练。

所述训练图像携带有预先设置的第一分类标签、第二分类标签和回归标签；所述多任务分支网络包括第一分类分支网络、第二分类分支网络和回归分支网络。所述训练模块还可以用于：从所述训练图像样本集中随机选取训练图像，通过所述特征提取网络提取所述训练图像的特征图；将所述训练图像的特征图输入所述多任务分支网络；通过所述第一分类分支网络对所述训练图像的特征图进行分类处理；基于所述第一分类分支网络输出的第一分类处理结果和所述第一分类标签确定第一分类损失值；通过所述第二分类分支网络对所述训练图像的特征图进行分类处理；基于所述第二分类分支网络输出的第二分类处理结果和所述第二分类标签确定第二分类损失值；通过所述回归分支网络对所述训练图像的特征图进行回归处理；基于所述回归分支网络输出的回归处理结果和所述回归标签确定回归损失值；基于所述第一分类损失值、第二分类损失值和回归损失值对所述特征提取网络和所述多任务分支网络进行训练。

所述训练模块还可以用于：采用焦点损失函数，根据所述第一分类处理结果和所述第一分类标签确定第一分类损失值；采用焦点损失函数，根据所述第二分类处理结果和所述第二分类标签确定第二分类损失值；采用交并比损失函数，根据所述回归处理结果和所述回归标签确定回归损失值。以及用于：计算所述第一分类损失值、第二分类损失值和回归损失值的加权和，作为整体损失值；基于所述整体损失值对所述特征提取网络和所述多任务分支网络进行训练。

本发明实施例提供了一种人脸检测装置，通过特征提取网络提取待检测图像的特征图，将特征图输入多任务分支网络。多任务分支网络包括并行的第一分类分支网络和第二分类分支网络，第一分类分支网络用于确定特征图中是否包含人脸，第二分类分支网络用于确定特征图中的人脸是否为活体人脸。结合第一分类分支网络输出的第一分类结果和第二分类分支网络输出的第二分类结果，确定待检测图像的人脸检测结果。因此，通过并行的第一分类分支网络和第二分类分支网络，可以同时进行人脸检测和活体检测，提高检测过程的整体效率。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，包括图像采集装置、存储器、处理器。所述图像采集装置，用于采集图像数据；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方法实施例所记载的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述前述方法实施例所提供的方法的步骤，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种人脸检测方法，其特征在于，包括：

通过特征提取网络提取待检测图像的特征图；

2.根据权利要求1所述的方法，其特征在于，所述多任务分支网络还包括与所述第一分类分支网络和所述第二分类分支网络并行的回归分支网络；所述回归分支网络用于确定所述特征图中人脸的位置，输出包围所述人脸的人脸框的坐标；

3.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括残差网络和特征融合网络，所述残差网络和所述特征融合网络均采用金字塔网络结构；通过特征提取网络提取待检测图像的特征图的步骤，包括：

4.根据权利要求1～3中任一项所述的方法，其特征在于，所述通过特征提取网络提取待检测图像的特征图的步骤之前，所述方法还包括：

获取训练图像样本集；所述训练图像样本集包括多张训练图像；

5.根据权利要求4所述的方法，其特征在于，所述训练图像携带有预先设置的第一分类标签、第二分类标签和回归标签；所述多任务分支网络包括第一分类分支网络、第二分类分支网络和回归分支网络；采用所述训练样本集对所述特征提取网络和所述多任务分支网络进行训练的步骤，包括：

将所述训练图像的特征图输入所述多任务分支网络；

6.根据权利要求5所述的方法，其特征在于，基于所述第一分类分支网络输出的第一分类处理结果和所述第一分类标签确定第一分类损失值的步骤，包括：采用焦点损失函数，根据所述第一分类处理结果和所述第一分类标签确定第一分类损失值；

7.根据权利要求5所述的方法，其特征在于，基于所述回归分支网络输出的回归处理结果和所述回归标签确定回归损失值的步骤，包括：

8.根据权利要求5所述的方法，其特征在于，基于所述第一分类损失值、第二分类损失值和回归损失值对所述特征提取网络和所述多任务分支网络进行训练的步骤，包括：

9.一种人脸检测模型，其特征在于，包括特征提取网络和与所述特征提取网络连接的多任务分支网络，所述多任务分支网络至少包括并行的第一分类分支网络和第二分类分支网络；所述特征提取网络用于提取待检测图像的特征图；所述第一分类分支网络用于确定所述特征图中是否包含人脸；所述第二分类分支网络用于确定所述特征图中的人脸是否为活体人脸。

10.根据权利要求9所述的人脸检测模型，其特征在于，所述多任务分支网络还包括与所述第一分类分支网络和所述第二分类分支网络并行的回归分支网络；所述回归分支网络用于确定所述特征图中人脸的位置。

11.根据权利要求10所述的人脸检测模型，其特征在于，所述第一分类分支网络、第二分类分支网络和回归分支网络均为基于锚点的分支网络。

12.根据权利要求10所述的人脸检测模型，其特征在于，所述特征提取网络包括残差网络和特征融合网络，所述特征融合网络包括多个网络层，每个网络层分别与并行的第一分类分支网络、第二分类分支网络和回归分支网络连接。

13.一种人脸检测装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括图像采集装置、存储器和处理器；

所述图像采集装置，用于采集图像数据；

所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1～8中任一项所述的方法的步骤。

15.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1～8中任一项所述的方法的步骤。