CN112560825A

CN112560825A - 人脸检测方法、装置、电子设备以及可读存储介质

Info

Publication number: CN112560825A
Application number: CN202110202066.9A
Authority: CN
Inventors: 罗伯特·罗恩思; 赵磊; 马原
Original assignee: Beijing Pengsi Technology Co ltd
Current assignee: Beijing Pengsi Technology Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-03-26
Anticipated expiration: 2041-02-23
Also published as: CN112560825B; CN113688663A

Abstract

本公开实施例公开了一种人脸检测方法、装置、电子设备以及可读存储介质。该人脸检测方法包括：通过主干卷积神经网络处理人脸图像数据，其中，所述主干卷积神经网络包括多个处理阶段，每个所述处理阶段输出第一特征图；通过特征融合网络处理多个所述第一特征图，得到多个第二特征图；基于所述多个第二特征图，确定多个预测框；获取在柔性最大值运算下表明置信度的第一阈值；将所述第一阈值转化为在加减运算下表明置信度的第二阈值；基于所述预测框和所述第二阈值确定预测结果。通过将柔性最大值的阈值比较转化为加减运算的阈值比较，极大地节省了计算量，提高了处理效率，也降低了在终端部署模型的难度。

Description

人脸检测方法、装置、电子设备以及可读存储介质

技术领域

本公开涉及人脸识别技术领域，具体涉及一种人脸检测方法、装置、电子设备以及可读存储介质。

背景技术

随着人体身份识别核验技术和图像智能检测识别技术的不断发展，人脸识别技术也日趋成熟，人脸识别应用越来越趋于终端，web端，并且输入条件的降低使人机交互更加便利。一般来说人脸识别技术包含人脸检测技术、人脸关键点定位技术、人脸特征提取技术和人脸属性分析技术。本发明人发现，现有人脸检测算法计算量大，耗时多难以在终端（例如门禁）中部署。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种人脸检测方法、装置、电子设备以及可读存储介质。

第一方面，本公开实施例中提供了一种人脸检测方法。

具体地，所述人脸检测方法，包括：

通过主干卷积神经网络处理人脸图像数据，其中，所述主干卷积神经网络包括多个处理阶段，每个所述处理阶段输出第一特征图；

通过特征融合网络处理多个所述第一特征图，得到多个第二特征图；

基于所述多个第二特征图，确定多个预测框；

获取在柔性最大值运算下表明置信度的第一阈值；

将所述第一阈值转化为在加减运算下表明置信度的第二阈值；

基于所述预测框和所述第二阈值确定预测结果。

结合第一方面，本公开在第一方面的第一种实现方式中，通过下式将所述第一阈值转化为所述第二阈值：

，其中，t₁为第一阈值，t₂为第二阈值。

结合第一方面，本公开在第一方面的第二种实现方式中，所述主干卷积神经网络包括交替设置的多个普通卷积层和多个深度可分离卷积层。

结合第一方面、第一方面的第一种或第二种实现方式中的任一项，本公开在第一方面的第三种实现方式中，所述通过特征融合网络处理多个所述第一特征图，得到多个第二特征图包括：

通过第一融合子网络处理多个所述第一特征图，用于在所述第一特征图之间融合特征，得到多个第三特征图；

通过第二融合子网络分别处理所述多个第三特征图，得到多个第二特征图。

结合第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，多个所述第一特征图至少包括特征图C1和特征图C2，所述特征图C1的尺寸大于特征图C2的尺寸，所述通过第一融合子网络处理多个所述第一特征图，用于在所述第一特征图之间融合特征，得到多个第三特征图包括：

分别通过1×1的卷积层处理所述特征图C1和C2，得到通道数相同的特征图M1和P2；

对P2上采样得到特征图M2_up，并与M1叠加，得到特征图M1_add；

通过3×3的卷积层处理M1_add，得到特征图P1，

其中，P1和P2为第三特征图，所述上采样使用最近邻插值算法实现。

结合第一方面的第三种实现方式，本公开在第一方面的第五种实现方式中，所述通过第二融合子网络分别处理所述多个第三特征图，得到多个第二特征图包括对每个第三特征图P执行以下操作：

通过具有第一输出通道数的卷积层处理P，得到特征图S1；

通过具有第二输出通道数的卷积层处理P，得到特征图T；

通过两个卷积通道分别处理T，得到特征图S2和S3，其中，S2和S3的通道数为所述第二输出通道数；

按通道叠加S1、S2和S3，得到具有预定通道数的第二特征图F。

结合第一方面、第一方面的第一种至第五种实现方式中的任一项，本公开在第一方面的第六种实现方式中，所述基于所述多个第二特征图，确定多个预测框包括：

基于所述第二特征图中的像素点确定锚点位置；

基于所述第二特征图的尺寸确定锚点框的尺寸，其中，所述第二特征图的尺寸与所述锚点框的尺寸之间呈负相关关系；

基于所述第二特征图的下采样倍率和所述锚点框的尺寸确定各个锚点位置产生的预测框的密度；

基于所述锚点位置、锚点框的尺寸以及各个锚点位置产生的预测框的密度确定多个预测框，每个所述预测框包括以下信息：所述预测框的位置和尺寸，所述预测框为正样本的第一置信度以及所述预测框为负样本的第二置信度。

结合第一方面的第六种实现方式，本公开在第一方面的第七种实现方式中，所述基于所述预测框和所述第二阈值确定预测结果包括：

基于所述第一置信度和所述第二置信度的差值，确定预测得分大于第二阈值的预测框；

通过二叉树插值和中序排序算法对所述预测得分大于第二阈值的预测框按照预测得分排序，得到排序结果；

根据所述排序结果，通过非极大值抑制处理所述预测得分大于第二阈值的预测框，以过滤重复的预测框，得到预测结果。

结合第一方面、第一方面的第一种至第七种实现方式中的任一项，本公开在第一方面的第八种实现方式中，该方法还包括：

获得样本图像；

将所述样本图像的亮度映射到特定区间，以构造增广图像；

基于所述样本图像和所述增广图像训练包括所述主干卷积神经网络和特征融合网络在内的人脸检测模型。

第二方面，本公开实施例中提供了一种人脸检测装置。

具体地，所述人脸检测装置，包括：

特征提取模块，被配置为通过主干卷积神经网络处理人脸图像数据，其中，所述主干卷积神经网络包括多个处理阶段，每个所述处理阶段输出第一特征图；

特征融合模块，被配置为通过特征融合网络处理多个所述第一特征图，得到多个第二特征图；

预测框确定模块，被配置为基于所述多个第二特征图，确定多个预测框；

阈值获取模块，被配置为获取在柔性最大值运算下表明置信度的第一阈值；

阈值转化模块，被配置为将所述第一阈值转化为在加减运算下表明置信度的第二阈值；

结果确定模块，被配置为基于所述预测框和所述第二阈值确定预测结果。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种到第八种实现方式中任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种到第八种实现方式中任一项所述的方法。

根据本公开实施例提供的技术方案，通过将柔性最大值的阈值比较转化为加减运算的阈值比较，极大地节省了计算量，提高了处理效率，也降低了在终端部署模型的难度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。以下是对附图的说明。

图1示出根据本公开实施例的人脸检测方法的流程图。

图2示出根据本公开实施例的通过特征融合网络处理多个所述第一特征图，得到多个第二特征图的流程图。

图3示出根据本公开实施例的通过第一融合子网络处理多个所述第一特征图，得到多个第三特征图的流程图。

图4示出根据本公开实施例的通过第二融合子网络分别处理所述多个第三特征图，得到多个第二特征图的流程图。

图5示出根据本公开实施例的第二融合子网络的结构示意图。

图6示出根据本公开实施例的基于所述多个第二特征图，确定多个预测框的流程图。

图7A~图7D示出根据本公开实施例的锚点框扩充的示意图。

图8示出根据本公开实施例的基于所述预测框和所述第二阈值确定预测结果的流程图。

图9示出根据本公开实施例的模型训练方法的流程图。

图10示出根据本公开实施例的人脸检测装置的框图。

图11示出根据本公开实施例的电子设备的框图。

图12示出根据本公开实施例的适于实现人脸检测方法的计算机***的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开实施例的人脸检测方法的流程图。

如图1所示，该方法包括操作S110~S160。

在操作S110，通过主干卷积神经网络处理人脸图像数据，其中，所述主干卷积神经网络包括多个处理阶段，每个所述处理阶段输出第一特征图；

在操作S120，通过特征融合网络处理多个所述第一特征图，得到多个第二特征图；

在操作S130，基于所述多个第二特征图，确定多个预测框；

在操作S140，获取在柔性最大值运算下表明置信度的第一阈值；

在操作S150，将所述第一阈值转化为在加减运算下表明置信度的第二阈值；

在操作S160，基于所述预测框和所述第二阈值确定预测结果。

根据本公开实施例的技术方案，通过将柔性最大值的阈值比较转化为加减运算的阈值比较，极大地节省了计算量，提高了处理效率，也降低了在终端部署模型的难度。

根据本公开实施例，人脸图像数据可以是单张图像的图像数据，也可以是视频帧的图像数据。人脸图像数据例如可以通过摄像头采集，例如门禁***可以收集摄像头采集的图像数据，利用人脸识别算法识别图像中是否包含有权限的人的人脸，从而控制门禁的状态。

根据本公开实施例，主干卷积神经网络例如可以采用各种已有的神经网络模型，用于提取图像的特征。主干卷积神经网络分为多个处理阶段，每个处理阶段执行完成后输出一个第一特征图。可选地，主干卷积神经网络在输入层到输出层的方向上，数据的尺寸逐渐减小，因此，在先的处理阶段输出的第一特征图的尺寸大于在后的处理阶段输出的第一特征图的尺寸，从而形成特征金字塔。

根据本公开实施例，特征融合网络用于进一步挖掘多个第一特征图中的特征，形成多个第二特征图。得到的第二特征图用于生成多个预测框，每个预测框可以包括以下信息：所述预测框的位置和尺寸，所述预测框为正样本的第一置信度以及所述预测框为负样本的第二置信度。

通常在这一步生成的预测框的数量较多，为了获得最终的预测结果，需要在众多的预测框中筛选出满足一定条件的少量预测框。

根据通常理解，第一置信度和第二置信度之和应当为1，但由于第一置信度和第二置信度分别独立生成，二者之间并无约束关系，因此可能出现第一置信度和第二置信度之和大于1或小于1的情况。例如第一置信度为0.2，第二置信度为0.1，在这种情况下，直接使用第一置信度得到预测框为正样本的概率很小的结论是错误的。

在处理类似的问题上，一些相关技术对两个置信度执行柔性最大值运算softmax。例如，对于第一置信度为0.2，第二置信度为0.1的情况，计算修正后的第一置信度为

=0.52，修正后的第二置信度为

=0.48。对所有待判别的对象做上述处理后，可以通过阈值对各个对象进行统一衡量。本发明人发现，这种方法计算量较大，在面对数量众多的预测框的筛选问题上，其性能表现不能令人满意。

本公开实施例提出了通过加减运算的阈值衡量预测框是否满足预设条件的方法。例如，假设上述softmax方法中设定的第一阈值为0.6，为了选出经softmax处理后，修正后的第一置信度大于0.6的数据，本公开实施例的方法将其转化为第一置信度和第二置信度的差值大于0.4的比较方式，例如，对于第一置信度为0.2，第二置信度为0.1的情况，二者的差值为0.1，不大于0.4，不满足条件，对于第一置信度为0.6，第二置信度为0.1的情况，二者的差值为0.5，大于0.4，满足条件。通过这种方式，将指数运算转换为加减运算，极大地降低了运算量，可用于实现在终端快速人脸检测的算法。

根据本公开实施例，可以通过下式将所述第一阈值转化为第二阈值：

其中，t₁为第一阈值，t₂为第二阈值。

下面就这种方法的合理性进行说明。

根据softmax公式：

其中，a₁为第一置信度，a₀为第二置信度，S₁为修正后的第一置信度，S₀为修正后的第二置信度。

若S₁大于第一阈值t₁，则由于

，可以得到：

上式等价于

，由于ln函数单调递增，则两面同时取对数，不等式依然成立，即：

当第一阈值t₁确定时，

是常量，设该常量为t₂，即：

当第一阈值t₁固定时，只需计算一次t₂值，便可直接用第一置信度a₁和第二置信度a₀的差值计算得分是否满足条件。

本公开实施例提供的方法通过计算一次常量巧妙比对softmax阈值，与针对每个对象计算softmax的方法相比，二者的效果一致。当输入网络的大小固定时，例如可以产生8208个预测框，如果每个预测框都计算softmax，需要计算8208次softmax运算，而本方案只需要计算一次第二阈值，就可以把大量的softmax运算简化为加减运算，因此，本公开实施例的方法可以在数据后处理阶段大大降低计算量，提高检测效率。

根据本公开实施例，所述主干卷积神经网络包括交替设置的多个普通卷积层和多个深度可分离卷积层。

通过采用深度可分离卷积替代普通卷积来提取特征，在保证足够的网络深度的同时，可以进一步降低参数量，进而降低计算量。

假设卷积核大小为K_h × K_w，输入通道数为C_in，输出通道数为C_out，输出特征图的宽和高分别为W和H，这里忽略偏置项。

对于标准卷积层：

参数数量为：params = K_h × K_w× C_in× C_out

每秒所执行的浮点运算次数FLOPs为：params×H×W

而对于深度可分离卷积：

在进行 depthwise 卷积时只使用了一种维度为in_channels的卷积核进行特征提取（没有进行特征组合）；在进行 pointwise 卷积时只使用了output_channels 种维度为in_channels 1×1 的卷积核进行特征组合，按照不同比例(可学习的参数)进行相加的。

参数数量由原来的K_h × K_w× C_in× C_out变为了K_h × K_w× C_in×1 + 1 × 1×C_in× C_out，若K_h = 3，K_w = 3，C_out=64，参数量大约会减少到原来的1/8~1/9。

根据本公开实施例，主干神经网络结构例如可以实现为表1所示的形式。其中Conv表示普通卷积层后接批标准化层（Batch Normalization，BN）和激活层（例如ReLU）， Convdw表示深度可分离卷积层后接批标准化层和激活层，S2代表步长为2，S1代表步长为1，padding模式为SAME模式。其中C1, C2, C3为三个分支的输出，即三个第一特征图。

表1

卷积类型/步长	卷积核尺寸	输入尺寸
			Conv / S2	3×3×3×8	192×128×3
Conv dw / S1	3×3×8 dw	96×64×8
			Conv / S1	1×1×8×16	96×64×8
Conv dw / S2	3×3×16 dw	96×64×16
			Conv / S1	1×1×16×32	48×32×16
Conv dw / S1	3×3×32 dw	48×32×32
			Conv / S1	1×1×32×32	48×32×32
Conv dw / S2	3×3×32 dw	48×32×32
			Conv / S1	1×1×32×64	24×16×32
Conv dw / S1	3×3×64 dw	24×16×64
			Conv / S1 (C1)	1×1×64×64	24×16×64
Conv dw / S2	3×3×64 dw	24×16×64
			Conv / S1	1×1×64×128	12×8×64
Conv dw / S1	3×3×128 dw	12×8×128
			Conv / S1	1×1×128×128	12×8×128
Conv dw / S1	3×3×128 dw	12×8×128
			Conv / S1	1×1×128×128	12×8×128
Conv dw / S1	3×3×128 dw	12×8×128
			Conv / S1	1×1×128×128	12×8×128
Conv dw / S1	3×3×128 dw	12×8×128
			Conv / S1 (C2)	1×1×128×128	12×8×128
Conv dw / S2	3×3×128 dw	12×8×128
			Conv / S1	1×1×128×256	6×4×128
Conv dw / S1	3×3×256 dw	6×4×256
			Conv / S1(C3)	1×1×256×256	6×4×256

根据本公开实施例，特征融合网络例如可以包括第一融合子网络和第二融合子网络。

如图2所示，操作S120可以包括操作S210和S220。

在操作S210，通过第一融合子网络处理多个所述第一特征图，用于在所述第一特征图之间融合特征，得到多个第三特征图；

在操作S220，通过第二融合子网络分别处理所述多个第三特征图，得到多个第二特征图。

通过两次融合，可以增加不同的感受野，可注意到不同尺寸的人脸，有助于改善人脸检测效果。

根据本公开实施例，多个所述第一特征图至少包括特征图C1和特征图C2，所述特征图C1的尺寸大于特征图C2的尺寸。如上文所述，第一特征图例如可以包括C1，C2和C3。

如图3所示，操作S210可以包括操作S310~S330。

在操作S310，分别通过1×1的卷积层处理所述特征图C1和C2，得到通道数相同的特征图M1和P2；

在操作S320，对P2上采样得到特征图M2_up，并与M1叠加，得到特征图M1_add；

在操作S330，通过3×3的卷积层处理M1_add，得到特征图P1，其中，P1和P2为第三特征图。

根据本公开实施例，所述上采样例如可以通过最近邻插值算法实现。如下所示：左侧为小特征图，右侧为上采样两倍的最近邻插值得到的特征图：

通过最近邻值插值算法，可以在上采样的过程中最大程度地保留特征图的语义信息（有利于分类），从而与上采样过程中相应的具有丰富的空间信息(高分辨率，有利于定位)的特征图进行融合，从而得到既有良好的空间信息又有较强烈的语义信息的特征图。

本公开的一种实施方式中，该第一融合子网络例如可以参见表2所示意的形式。

表2

根据本公开实施例，主干网络得到C1，C2和C3三个分支的输出后，送入特征融合网络将顶层的特征与底层特征进行特征融合，特征融合即自顶向下的过程通过上采样(up-sampling)的方式将顶层的小特征图放大到上一个阶段的特征图一样的大小。

如表2所示，C1，C2，C3层分别先经过1×1卷积，改变特征图的通道数(所有M层的通道数一致，例如本公开实施例中设置d=64)得到M1，M2，M3。M3通过上采样得到M3_up，再和M2对应位置相加，得到M2_add。M2_add通过上采样得到M2_up，再和M1对应位置相加，得到M1_add。M1_add，M2_add层特征图再经过3×3卷积(减轻最近邻近插值带来的混叠影响，周围的数都相同)，得到最终的P1，P2，P3层特征，即第三特征图。

可以了解，表2所示意的实施例中的C2、C3、M2、P3（M3）、M3_up、M2_add和P2分别相当于操作S310~S330中描述的C1、C2、M1、P2、M2_up、M1_add和P1。其原因是表2所示意的实施例中存在三个第一特征图，因而导致序号移位。

根据本公开实施例，特征融合层后将P1，P2，P3通过第二融合子网络进一步融合不同感受野的信息。

如图4所示，操作S220可以包括操作S410~S440。

在操作S410，通过具有第一输出通道数的卷积层处理P，得到特征图S1；

在操作S420，通过具有第二输出通道数的卷积层处理P，得到特征图T；

在操作S430，通过两个卷积通道分别处理T，得到特征图S2和S3，其中，S2和S3的通道数为所述第二输出通道数；

在操作S440，按通道叠加S1、S2和S3，得到具有预定通道数的第二特征图F。

下面参照图5所示意的第二融合子网络进行说明。

图5示出根据本公开实施例的第二融合子网络的结构示意图。

如图5所示，第二融合子网络可以是一个三分支网络。对于任一第三特征图，例如P1，首先执行卷积核大小为3×3，输出通道为32的普通卷积，然后进行批标准化，得到S1；P1再经过卷积核3×3输出通道为16的卷积、批标准化层、Relu激活层之后得到T2，T2再经过卷积核3×3输出通道为16的卷积层、批标准化层得到S2；T2经过另一个卷积核3×3输出通道为16的卷积层、批标准化层、Relu激活层之后得到T3，T3经过卷积核3×3输出通道为16的卷积层、批标准化层得到S3，最后将S1，S2，S3按通道维度进行拼接之后经过Relu激活层得到第二特征图F1，F1仍然是64通道的特征图。同理，可以对P2和P3分别进行以上处理得到F2和F3。

类似地，以上所示意的实施例中的P1和T2分别相当于操作S410~S440中描述的P和T。

本发明人发现，现有检测算法还存在对较小人脸检测效果不佳的问题，为此，本公开实施例提出了在生成预测框时对较小视野下的锚点框的数量进行扩充的方案。

如图6所示，操作S130可以包括操作S610~S640。

在操作S610，基于所述第二特征图中的像素点确定锚点位置；

在操作S620，基于所述第二特征图的尺寸确定锚点框的尺寸，其中，所述第二特征图的尺寸与所述锚点框的尺寸之间呈负相关关系；

在操作S630，基于所述第二特征图的下采样倍率和所述锚点框的尺寸确定各个锚点位置产生的预测框的密度；

在操作S640，基于所述锚点位置、锚点框的尺寸以及各个锚点位置产生的预测框的密度确定多个预测框。

根据本公开实施例，第二特征图F1，F2，F3的大小与原始输入图像之间的下采样倍率例如分别是8，16，32。由于经过的卷积层越多，下采样倍率越高，对应的感受野也越大。本公开实施例可以定义多种不同尺寸的锚点框，例如可以定义分别为16×16，32×32，64×64，128×128，256×256以及512×512的锚点框。在下采样倍率较小的第二特征图（尺寸较大的第二特征图）上使用较小尺寸的锚点框预测，在下采样倍率较大的第二特征图（尺寸较小的第二特征图）上使用较大尺寸的锚点框预测。例如，在F1上使用16×16和32×32两种尺寸的锚点框预测，在F2上使用64×64和128×128两种尺寸的锚点框预测，在F3上使用256×256和512×512两种尺寸的锚点框预测。

通常地，每个锚点位置预测一组不同宽高比和不同尺寸的锚点框，例如，在宽高比为1:1、1:1.5和1.5:1，尺寸为16×16和32×32的情况下，每个锚点位置预测3×2=6个锚点框。在本公开实施例中，宽高比固定为1:1，对于特征图F1而言，每个锚点位置预测16×16和32×32两个锚点框，而对于特征图F3而言，每个锚点位置预测256×256和512×512两个锚点框。

显然，在这种情况下，较小尺寸的锚点框相对于大尺寸的锚点框会比较稀疏。这也是为什么小目标检测效果不佳的重要原因。为了解决上述问题，本公开实施例提出增加部分特征图的锚点框的密度。增加锚点框密度是指，在每个锚点位置，对于各个宽高比和锚点框尺寸的组合，都预测多个锚点框。例如，可以对密度不足的锚点框以中心进行偏移加倍，如图7A-图7D所示。

可以定义16×16尺寸的锚点框密度增加4倍，32×32尺寸的锚点框密度增加2倍，64×64尺寸的锚点框密度增加2倍，这样使得F1特征层每个像素位置得到4×4+2×2=20个预测偏移量（16个16×16的锚点框和4个32×32的锚点框），F2特征层每个像素位置预测2×2+1×1=5个预测偏移量（4个64×64的锚点框和1个128×128的锚点框），F3特征层每个像素位置预测1×1+1×1=2个预测偏移量（1个256×256的锚点框和1个512×512的锚点框）。

表3示意出本公开实施例的不同尺寸的锚点框的选择、各锚点框对应的密度以及锚点框的步长除以锚点框尺寸的比例。

表3

锚点框尺寸	下采样倍率	锚点框密度	锚点框步长	比例
					16×16	8	N=4	2=8/4	2/16=1/8
32×32	8	N=2	4=8/2	4/32=1/8
					64×64	16	N=2	8=16/2	8/64=1/8
128×128	16	N=1	16=16/1	16/128=1/8
					256×256	32	N=1	32=32/1	32/256=1/8
512×512	32	N=1	32=32/1	32/512=1/16

如表3所示，定义锚点框的步长为下采样的倍率除以锚点框的密度，并且定义锚点框的步长除以锚点框的尺寸比例为固定值（例如1/8，其中锚点框尺寸512×512的情况下为保证锚点框密度不低于1，该比例确定为1/16）。

即，F1特征图大小为24×16，每个像素负责预测4×4个尺寸为16的锚点框和2×2个尺寸为32的锚点框，每个像素得到20个预测框；F2特征图大小为12×8，每个像素负责预测2×2个尺寸为64的锚点框和1×1个尺寸为128的锚点框，每个像素得到5个预测框；F3特征图大小为6×4，每个像素负责预测1×1个尺寸为256的锚点框和1×1个尺寸为512的锚点框，每个像素得到2个预测框。总共产生24×16×20 + 12×8×5 + 6×4×2 = 8208个预测框。

根据本公开实施例，每个所述预测框包括以下信息：所述预测框的位置和尺寸，所述预测框为正样本的第一置信度以及所述预测框为负样本的第二置信度，例如可以表示为（x,y,w,h,a₁,a₀），其中，x,y为预测框相对于锚点的偏移量，w,h为预测框相对于锚点框的变化量，a₁,a₀为正样本的第一置信度以及所述预测框为负样本的第二置信度，该些数据基于第二特征图生成。

本公开实施例的方法增加用于预测较小人脸的锚点框的密度，提高较小人脸的检测率。

如图8所示，操作S160可以包括操作S810~S830。

在操作S810，基于所述第一置信度和所述第二置信度的差值，确定预测得分大于第二阈值的预测框；

在操作S820，通过二叉树插值和中序排序算法对所述预测得分大于第二阈值的预测框按照预测得分排序，得到排序结果；

在操作S830，根据所述排序结果，通过非极大值抑制处理所述预测得分大于第二阈值的预测框，以过滤重复的预测框，得到预测结果。

根据本公开实施例，得到F1，F2，F3特征层的预测结果后，进入到预测框的后处理阶段，例如，可以利用上文所述阈值转换的方法将预测分值低于0.3的预测框认为是负样本过滤掉，预测分值高于0.3的预测框根据预测分值进行降序排序，然后进行NMS(非极大值抑制)把IOU(重叠区域面积除以并集面积)大于0.5的框认为是重复的预测框进一步过滤掉，得到预测结果。可选地，还可以进一步根据***定义的另一阈值（比如0.8 或0.5）将保留下来的并且得分大于该阈值的预测框作为预测结果进行输出。

在使用NMS(非极大值抑制)过滤重复预测框时，需要根据得分进行排序，以保留置信度最高的预测框，抑制重复的得分较低的预测框。常规排序算法的时间复杂度为O(n²)，本公开实施例可以采用二叉树插值和二叉树中序查找使得排序的时间复杂度为O(Log₂n)到O(n)之间，进一步提高处理效率。

此外，本发明人发现，现有人脸检测算法在逆光，暗光，戴口罩等复杂场景下，人脸漏检率高，误报率高。因此，本公开实施例提出通过对训练样本进行增广的方法缓解上述问题，提高复杂场景下的人脸检测率。

图9示出根据本公开实施例的模型训练方法的流程图。

如图9所示，该方法在图1~图8所示意的任一实施例的基础上，还可以包括操作S910~S930。

在操作S910，获得样本图像；

在操作S920，将所述样本图像的亮度映射到特定区间，以构造增广图像；

在操作S930，基于所述样本图像和所述增广图像训练包括所述主干卷积神经网络和特征融合网络在内的人脸检测模型。

根据本公开实施例，可以对输入的视频帧或者图像的RGB数据进行预处理，例如，可以采用线性拉伸处理图像中各个像素的亮度值：

y=(x -min(x)) ×(dmax-dmin))/(max(x) - min(x)+1.0) + dmin

其中x代表输入图像， min(x)代表图像中像素亮度的最小值， max(x)代表图像中像素亮度的最大值， dmax， dmin 分别代表将图片映射到目标区域的最大值和最小值。

出于对逆光情况的数据增强考虑，使用最大最小值线性拉伸方式调节训练图像亮度，随机地将训练数据亮度映射到特定区间，例如155-255，使训练样本中出现一定数量的过曝光或逆光场景下的数据，从而使训练后的模型能对逆光和光照强烈的数据有更好的泛化能力。

类似地，也可以将亮度映射到较小的数值区间，以增强模型对黑暗场景的数据的泛化能力。

本公开实施例提供了一种基于深度可分离卷积神经网络的人脸检测方法，通过人机接口输入视频帧或图像的RGB数据，对数据进行归一化预处理，将预处理后的数据输入主干卷积神经网络以获取三个不同阶段的初步特征图。然后将不同阶段的特征图输入特征融合层进行特征融合并输出融合后的三个特征图，再将每个特征层进行三个分支的卷积神经网络以进一步提取特征，将每个特征层用于不同尺寸的预测框的预测。最后经过后处理过滤掉负样本和重叠度较高的预测框，将置信度得分高于阈值的预测框进行输出。该方法能够降低运算量并提高对较小人脸的检测能力。

图10示出根据本公开实施例的人脸检测装置的框图。其中，该装置1000可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图10所示，所述信息处理装置1000包括特征提取模块1010、特征融合模块1020、预测框确定模块1030、阈值获取模块1040、阈值转化模块1050以及结果确定模块1060。

特征提取模块1010，被配置为通过主干卷积神经网络处理人脸图像数据，其中，所述主干卷积神经网络包括多个处理阶段，每个所述处理阶段输出第一特征图；

特征融合模块1020，被配置为通过特征融合网络处理多个所述第一特征图，得到多个第二特征图；

预测框确定模块1030，被配置为基于所述多个第二特征图，确定多个预测框；

阈值获取模块1040，被配置为获取在柔性最大值运算下表明置信度的第一阈值；

阈值转化模块1050，被配置为将所述第一阈值转化为在加减运算下表明置信度的第二阈值；

结果确定模块1060，被配置为基于所述预测框和所述第二阈值确定预测结果。

根据本公开实施例，通过下式将所述第一阈值转化为第二阈值：

，其中，t₁为第一阈值，t₂为第二阈值。

根据本公开实施例，所述通过特征融合网络处理多个所述第一特征图，得到多个第二特征图包括：

根据本公开实施例，多个所述第一特征图至少包括特征图C1和特征图C2，所述特征图C1的尺寸大于特征图C2的尺寸，所述通过第一融合子网络处理多个所述第一特征图，得到多个第三特征图包括：

对P2上采样得到特征图M2_up，并与M1叠加，得到特征图M1_add；

通过3×3的卷积层处理M1_add，得到特征图P1，

根据本公开实施例，所述通过第二融合子网络分别处理所述多个第三特征图，得到多个第二特征图包括对每个第三特征图P执行以下操作：

通过具有第一输出通道数的卷积层处理P，得到特征图S1；

通过具有第二输出通道数的卷积层处理P，得到特征图T；

按通道叠加S1、S2和S3，得到具有预定通道数的第二特征图F。

根据本公开实施例，所述基于所述多个第二特征图，确定多个预测框包括：

基于所述第二特征图中的像素点确定锚点位置；

根据本公开实施例，所述基于所述预测框和所述第二阈值确定预测结果包括：

根据本公开实施例，该装置还可以包括训练模块，被配置为获得样本图像，将所述样本图像的亮度映射到特定区间，以构造增广图像，以及基于所述样本图像和所述增广图像训练包括所述主干卷积神经网络和特征融合网络在内的人脸检测模型。

本公开还公开了一种电子设备，图11示出根据本公开的实施例的电子设备的结构框图。

如图11所示，所述电子设备1100包括存储器1101和处理器1102，其中，所述存储器1101用于存储支持电子设备执行上述任一实施例中的信息处理方法或代码生成方法的程序，所述处理器1102被配置为用于执行所述存储器1101中存储的程序。

根据本公开实施例，所述存储器1101用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1102执行以实现如上文任一实施例所描述的人脸检测方法。

如图12所示，计算机***1200包括处理单元1201，其可以根据存储在只读存储器（ROM）1202中的程序或者从存储部分1208加载到随机访问存储器（RAM）1203中的程序而执行上述实施例中的各种处理。在RAM 1203中，还存储有***1200操作所需的各种程序和数据。处理单元 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出（I/O）接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。其中，所述处理单元1201可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机***中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种人脸检测方法，包括：

基于所述多个第二特征图，确定多个预测框；

获取在柔性最大值运算下表明置信度的第一阈值；

基于所述预测框和所述第二阈值确定预测结果。

2.根据权利要求1所述的方法，其中，通过下式将所述第一阈值转化为所述第二阈值：

，其中，t₁为第一阈值，t₂为第二阈值。

3.根据权利要求1所述的方法，其中，所述主干卷积神经网络包括交替设置的多个普通卷积层和多个深度可分离卷积层。

4.根据权利要求1~3任一项所述的方法，其中，所述通过特征融合网络处理多个所述第一特征图，得到多个第二特征图包括：

5.根据权利要求4所述的方法，其中，多个所述第一特征图至少包括特征图C1和特征图C2，所述特征图C1的尺寸大于特征图C2的尺寸，所述通过第一融合子网络处理多个所述第一特征图，用于在所述第一特征图之间融合特征，得到多个第三特征图包括：

对P2上采样得到特征图M2_up，并与M1叠加，得到特征图M1_add；

通过3×3的卷积层处理M1_add，得到特征图P1，

6.根据权利要求4所述的方法，其中，所述通过第二融合子网络分别处理所述多个第三特征图，得到多个第二特征图包括对每个第三特征图P执行以下操作：

通过具有第一输出通道数的卷积层处理P，得到特征图S1；

通过具有第二输出通道数的卷积层处理P，得到特征图T；

按通道叠加S1、S2和S3，得到具有预定通道数的第二特征图F。

7.根据权利要求1~3任一项所述的方法，其中，所述基于所述多个第二特征图，确定多个预测框包括：

基于所述第二特征图中的像素点确定锚点位置；

8.根据权利要求7所述的方法，其中，所述基于所述预测框和所述第二阈值确定预测结果包括：

9.根据权利要求1~3任一项所述的方法，还包括：

获得样本图像；

将所述样本图像的亮度映射到特定区间，以构造增广图像；

10.一种人脸检测装置，包括：

11.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1~9任一项所述方法的步骤。

12.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1~9任一项所述方法的步骤。