CN112307889B

CN112307889B - 一种基于小型辅助网络的人脸检测算法

Info

Publication number: CN112307889B
Application number: CN202010998860.4A
Authority: CN
Inventors: 刘庆杰; 马田瑶; 王蕴红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-07-26
Anticipated expiration: 2040-09-22
Also published as: CN112307889A

Abstract

本发明公开了一种基于小型辅助网络的人脸检测算法，在已有的人脸检测网络基础上，针对特征提取网络，增加根据其网络结构设计出的小型辅助网络，在使用人脸检测数据集训练网络时，使得该辅助网络可以根据检测任务的特点进行从零训练，并使用该辅助网络对应层的特征对主网络特征图进行补充。

Description

一种基于小型辅助网络的人脸检测算法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种基于小型辅助网络进行人脸检测的算法。

背景技术

人脸检测是大部分人脸相关任务，如人脸识别、跟踪、关键点检测等，不可缺少的步骤，在日常生活以及安保领域都有着广泛的应用。

从概念上来讲，人脸检测是目标检测的一种特殊情形，即只针对人脸进行检测，是一个二分类问题，包括分类和定位两个子任务。基于这一点，目标检测的基本框架也可以用于人脸检测。通常检测框架主要包括两个部分，特征提取模块和检测模块。特征提取模块首先对输入图像进行卷积池化等操作，提取对检测有用的特征。检测模块针对两个子任务，进行分类和位置回归。

检测任务有着多尺度的特点，即在一张图片中，物体尺度可能变化较大，所以检测中通常采用多层特征图，浅层特征特征图检测小尺度目标，深层特征图由于感受野较大，用来检测较大尺度目标。但是考虑到网络的特点，即深层特征包含对分类有益的高级语义信息，浅层特征中语义信息少，所以通常在检测模块中加入Feature Pyramid Network(FPN)如图一，进行多尺度特征融合，将深层特征中的高级语义信息传递给浅层特征。

除了检测模块，特征提取模块也发挥着至关重要的作用。它提取出的特征直接决定着检测的效果。而现有人脸检测的特征提取网络采用的是在分类任务上预训练出的模型，它的好处是，相比于人脸检测数据集，分类数据集规模大，可以训练更深的网络，且防止过拟合。但是同时也存在一个不可忽视的缺点，检测任务和分类任务不同，分类任务的关键是最后生成的特征图包含对分类有益的高级语义信息，而检测任务，正如上文中提到的，需要多层不同尺度的特征。所以，不同于分类任务，检测中浅层特征图和深层特征图都发挥着重要的作用。由于任务间的差别，直接微调分类任务预训练出的模型来提取特征，会使得浅层特征中信息不足，除此之外，由于小尺度人脸存在分辨率小、模糊等问题，在经过一系列下采样操作后，可用信息会有较大损失，所以网络不利于小物体的检测。

当前的人脸检测算法在特征提取方面存在一定的问题，即浅层特征图中可用信息较少，不利于小尺度人脸检测。

发明内容

为了解决上述已有技术存在的不足，本发明提出一种基于小型辅助网络进行特征提取的人脸检测算法，在已有的人脸检测网络基础上，针对特征提取网络，增加根据其网络结构设计出的小型辅助网络，在使用人脸检测数据集训练网络时，使得该辅助网络可以根据检测任务的特点进行从零训练，并使用该辅助网络对应层的特征对主网络特征图进行补充。本发明的具体技术方案如下：

一种基于小型辅助网络的人脸检测算法，包括以下步骤：

S1：在特征提取网络中，同时使用主网络即Mnet和辅助网络即Anet，其中，Anet是根据Mnet设计出的小型特征辅助网络，用于对Mnet产生的浅层特征进行信息补充；Mnet和Anet融合之后得到多层特征；

S2：将步骤S1中Mnet和Anet融合之后得到多层特征通过特征金字塔网络FPN进行有机融合，增加浅层特征中的高级语义信息，扩大浅层特征感受野；

S3：步骤S2输出的多层特征分别进行分类和定位。

进一步地，所述步骤S1中的所述辅助网络与所述主网络的步长相同，所述辅助网络只对所述主网络的前三层特征进行补充，所述辅助网络与所述主网络的结构相似，学习能力相匹配。

进一步地，所述主网络为MobileNet V2，最后一层为在MobileNet V2的基础上增加的3x3卷积额外层，步长为2，用来生成10x10大小的特征图；MobileNet V2为InvertedResidual模块堆叠，主网络使用大小分别为160x160，80x80，40x40，20x20，10x10的特征图c2,c3,c4,c5,c6，对应步长分别为4，8，16，32，64；

在辅助网络中，使用InvertedResidual模块堆叠，采用和MobileNet V2中相同大小且步长为2的卷积操作，随后使用步长为2的深度可分离卷积进行下采样，生成与特征图c2,c3,c4大小对应相等的特征图c2′,c3′,c4′；

对应特征图相加即c2+c2′,c3+c3′，c4+c4′，实现对特征图c2,c3,c4的信息补充，增加其所含的有效信息量。

进一步地，所述步骤S1中的主网络为Resnet50，网络结构中使用的是BottleNeck，使用特征s2,s3,s4,s5,s6用于后续的特征融合；

辅助网络中使用3x3卷积提取特征，用Anet(Resnet50)-conv表示使用3x3卷积的辅助网络，在Anet(Resnet50)-conv中首先使用大小为7x7，步长为2的卷积以及步长为2的最大池化对输入图片进行下采样处理，再使用两个大小为3x3，步长为1的卷积，生成和特征s2大小相同的特征s2′，之后采用两个大小为3x3，步长为2的卷积处理特征s2′，生成分别和特征s3,s4大小相等的特征s3′,s4′，s2′,s3′和s4′通道数分别为256，512和1024，s2′,s3′,s4′对s2,s3,s4进行信息补充。

进一步地，所述步骤S1中的辅助网络为对Anet(Resnet50)-conv的结构进行改进后得到的辅助网络结构Anet(Resnet50)-conv_little，使用3x3卷积提取特征，与FPN特征融合结构结合，减少辅助网络通道数，通过FPN特征融合结构首先对输入的特征进行1x1卷积改变其通道数，Anet(Resnet50)-conv_little生成的s2″,s3″,s4″直接对经过FPN中1x1卷积后的特征b2,b3,b4分别补充信息，s2″,s3″,s4″,b2,b3,b4通道数均为256。

进一步地，所述步骤S1中的辅助网络为对Anet(Resnet50)-conv的结构进行改进后得到的辅助网络结构Anet(Resnet50)-bottleneck，辅助网络中使用BottleNeck代替3x3卷积。

进一步地，所述步骤S1中的辅助网络为对Anet(Resnet50)-bottleneck的结构进行改进后得到的辅助网络结构Anet(Resnet50)-bottleneck_little，将Anet(Resnet50)-bottleneck与FPN进行结合，通过采用辅助网络生成的s2″″,s3″″,s4″″直接对经过FPN中1x1卷积后的特征b2′,b3′,b4′分别补充信息。

本发明的有益效果在于：

1.本发明的方法使用轻量级网络MobileNet V2作为主网络时，推理过程约18ms，能够达到实时的效果，使得本发明提出的人脸检测方法在实际生活中能够得到广泛应用。

2.本发明的方法，不同于之前扩大感受野的做法，是从分类任务和检测任务的不同出发，对浅层特征补充信息从而提升对小尺度人脸的检测，为小尺度人脸检测提出了新的改进方向。

3.本发明提出的人脸检测方法有较大的检测效果的提升，证明了想法的合理性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1为现有技术中FPN的整体架构图；

图2为现有技术中RetinaFace网络结构图；

图3为本发明的网络结构图；

图4为现有技术中InvertedResidual模块结构图；

图5为检测模块结构图；

图6为现有技术中BottleNeck结构图；

图7为本发明的以MobileNet V2为主网络设计的辅助网络结构；

图8为本发明的辅助网络Anet(Resnet50)-conv结构图；

图9为本发明的辅助网络Anet(Resnet50)-conv_little结构图；

图10为本发明的辅助网络Anet(Resnet50)-bottleneck结构图；

图11为本发明的辅助网络Anet(Resnet50)-bottleneck_little结构图；

图12为对FPN+AN(bottle)的前三层特征图进行的可视化，其中，(a)、(c)、(e)为Mnet生成的前三层主网络特征，(b)、(d)、(f)为主网络特征经过辅助网络生成的特征信息补充后的特征。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

当前的人脸检测算法在特征提取方面存在一定的问题，即浅层特征图中可用信息较少，不利于小尺度人脸检测。以RetinaFace人脸检测网络为例，网络结构参考图2，以ResNet152作为骨干网络提取特征，使用C2，C3，C4，C5，C6特征图进行FPN阶段的特征融合，其中C6特征图是C5特征图通过大小3x3，步长为2的卷积操作生成的。

如图1和图3所示，一种基于小型辅助网络的人脸检测算法，包括以下步骤：

S3：步骤S2输出的多层特征分别进行分类和定位。

步骤S1中的辅助网络与主网络的步长相同，辅助网络只对主网络的前三层特征进行补充，辅助网络与主网络的结构相似，学习能力相匹配。

本发明中，在特征提取阶段，使用了Mnet和Anet两个网络并行对输入图片进行处理，以增加浅层特征中的可用信息。Mnet是在分类数据集ImageNet上预训练得到的，分类任务更关注最终得到的深层特征图，而检测任务由于检测目标的多尺度特点，同时需要用到浅层和深层多层特征。由于两个任务之间的不同，利用在分类数据集上预训练的网络提取特征可能导致浅层信息不足。针对此问题，引入了Anet。Anet是根据Mnet结构设计出的小型特征辅助网络，主要作用是对Mnet产生的浅层特征进行信息补充。Anet的结构设计原则包括：

1.步长相同。辅助网络的作用是对主网络生成的浅层特征图进行信息补充，该操作通过特征图相加实现。这要求两个特征图大小相等。因此，辅助网络的步长情况应和主网络相同。

2.感受野相近。无论是大尺度还是小尺度物体的检测，感受野都是十分重要的。尤其是对于小尺度物体，可使用的信息较少，较大的感受野就显得尤为必要。因此辅助网络对应层感受野和该层检测的人脸尺度大小应相似。但是辅助网络的作用是补充信息，网络规模不应过大，所以综合感受野大小以及实用性考虑，辅助网络只对前三层特征进行补充。

3.与主网络结构相似。辅助网络的作用是对主网络进行补充，所以其学习能力应和主网络相匹配，如若主网络为轻量级网络，则辅助网络也应以轻量级的卷积操作为主。

在一些实施方式中，主网络为MobileNet V2，最后一层为在MobileNet V2的基础上增加的3x3卷积额外层，步长为2，用来生成10x10大小的特征图；MobileNet V2为InvertedResidual模块堆叠，其中进行的是深度可分离卷积，是一种轻量级卷积操作，具体结构如图4所示。主网络使用大小分别为160x160，80x80，40x40，20x20，10x10的特征图c2,c3,c4,c5,c6，对应步长分别为4，8，16，32，64；

如图7所示，在辅助网络中，使用InvertedResidual模块堆叠，采用和MobileNetV2中相同大小且步长为2的卷积操作，随后使用步长为2的深度可分离卷积进行下采样，生成与特征图c2,c3,c4大小对应相等的特征图c2′,c3′,c4′；

在一些实施方式中，步骤S1中的主网络为Resnet50，网络结构中使用的是BottleNeck，其结构如图6所示，它的优点是在进行3x3卷积前首先利用1x1卷积减小通道数，从而降低了参数量，3x3卷积后再利用1x1卷积恢复通道数。主网络使用了特征s2,s3,s4,s5,s6用于后续的特征融合；

本发明综合考虑辅助网络带来参数量的增加以及辅助网络的学习能力，对Resnet50中使用的辅助网络结构进行了相应的变形，辅助网络中使用3x3卷积提取特征，用Anet(Resnet50)-conv表示使用3x3卷积的辅助网络结构如图8所示，在Anet(Resnet50)-conv中首先使用大小为7x7，步长为2的卷积以及步长为2的最大池化对输入图片进行下采样处理，再使用两个大小为3x3，步长为1的卷积，生成和特征s2大小相同的特征s2′，之后采用两个大小为3x3，步长为2的卷积处理特征s2′，生成分别和特征s3,s4大小相等的特征s3′,s4′，s2′,s3′和s4′通道数分别为256，512和1024，s2′,s3′,s4′对s2,s3,s4进行信息补充。

如图9所示，在一些实施方式中，步骤S1中的辅助网络为对Anet(Resnet50)-conv的结构进行改进后得到的辅助网络结构Anet(Resnet50)-conv_little，使用3x3卷积提取特征，考虑参数量和计算量，将Anet(Resnet50)-conv与FPN特征融合结构结合，减少辅助网络通道数，通过FPN特征融合结构首先对输入的特征进行1x1卷积改变其通道数，Anet(Resnet50)-conv_little生成的s2″,s3″,s4″直接对经过FPN中1x1卷积后的特征b2,b3,b4分别补充信息，s2″,s3″,s4″,b2,b3,b4通道数均为256。

如图10所示，在一些实施方式中，步骤S1中的辅助网络为对Anet(Resnet50)-conv的结构进行改进后得到的辅助网络结构Anet(Resnet50)-bottleneck，辅助网络中使用BottleNeck代替3x3卷积。

如图11所示，在一些实施方式中，步骤S1中的辅助网络为对Anet(Resnet50)-bottleneck的结构进行改进后得到的辅助网络结构Anet(Resnet50)-bottleneck_little，将Anet(Resnet50)-bottleneck与FPN进行结合，通过采用辅助网络生成的s2″″,s3″″,s4″″直接对经过FPN中1x1卷积后的特征b2′,b3′,b4′分别补充信息，减少辅助网络的通道数，进而减少参数量。

为了方便理解本发明的上述技术方案，以下通过具体实施例对本发明的上述技术方案进行详细说明。

实施例1

以下实验使用AP作为评价标准。AP值越高表示检测效果越好。

本实施例使用MobileNetV2作为提取特征的骨干网络，以及FPN进行特征融合，在此基础上改进。改进具体为在特征提取模块，除了MobileNet V2作为主网络外，增加了按照MobileNet设计的小型特征辅助网络，用于对主网络特征信息的补充。

特征提取网络包括主网络Main Network，简称Mnet和辅助网络AuxiliaryNetwork，简称Anet，其中Anet为根据Mnet设计得到的小型辅助网络，用于对Mnet产生的特征进行信息补充。

首先将待检测图片I输入特征提取网络中，在Mnet中，采用c2,c3,c4,c5,c6特征，其对应的步长分别为4，8，16，32，64。

同时图像I进入Anet，Anet采用和Mnet中相同的深度可分离卷积生成特征c2′,c3′,c4′，分别和c2,c3,c4特征大小相等。

Anet和Mnet中对应层特征通过相加和3x3卷积操作进行结合，计算过程为：

h2,h3,h4,h5,h6进入FPN阶段，首先六个特征分别通过1x1卷积改变通道数，生成h2′,h3′,h4′,h5′,h6′，随后由h6逐层向下传递，通过相加进行特征融合，融合后的特征分别经过3x3卷积操作，生成p2,p3,p4,p5,p6，计算过程为：

其中，upsample为上采样操作，采用的是最近邻上采样法。检测模块参照图5，分别对每一个特征图进行两个1x1卷积，其中，A为该层设置的人脸检测框的个数，K为类别数，则在本实施例中，K＝2，A为1或3。

下面在WiderFace人脸检测数据集上评测本发明提出的方法。WiderFace是一个现阶段人脸检测比较权威的数据集，其在数据量、标签量、人脸多样性(尺度、遮挡、姿态等)上远超现有数据集，给人脸检测提出了很大的挑战。根据在已有检测算法上的检测结果，将数据集分为easy，medium和hard三个子集。

在实验中，采用main network+FPN作为基础网络，在此基础上添加auxiliarynetwork，从而验证方法的有效性。且对P2,P3,P4,P5层设置的人脸检测框大小分别为16，32，64，128，P6层设置了三个检测框，大小分别为256，322.54，406.37。检测框长宽比均为1:1。分别以MobileNet V2和ResNet50为主网络进行了相关实验，训练图片大小缩放为640x640，实验结果如表1和表2所示。

表1采用MobileNet V2作为主网络，和第一行中的结果相比，可看出，辅助网络带来的提升更明显，在easy、medium和hard子集上的AP提升分别为0.2，0.5，0.8。相比较之下，在hard和medium上的提升较为明显。

表1 MobileNet实验结果

表2为采用ResNet50的实验结果。以第一行数据作为比较基准。可看出在无论辅助网络采用哪种结构，在添加辅助网络后，在hard子集上AP都有较大提升，且相比于Mobilenet V2作为主网络提升效果更加明显。

表2 Rsnet50试验结果

图12(a)-图12(f)为对FPN+AN(bottle)的前三层特征图进行的可视化，图12(a)、图12(c)和图12(e)为Mnet生成的前三层主网络特征，图12(b)、图12(d)和图12(f)为主网络特征经过辅助网络生成的特征信息补充后的特征，可以看出，补充后的特征相比于补充前更加清晰，可用信息包括人的位置等更加丰富，所以补充后的特征更利于人脸的检测。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于小型辅助网络的人脸检测方法，其特征在于，包括以下步骤：

所述步骤S1中的所述辅助网络与所述主网络的步长相同，所述辅助网络只对所述主网络的前三层特征进行补充，所述辅助网络与所述主网络的结构相似，学习能力相匹配；

S3：步骤S2输出的多层特征分别进行分类和定位；

其中，所述主网络为MobileNet V2，最后一层为在MobileNet V2的基础上增加的3x3卷积额外层，步长为2，用来生成10x10大小的特征图；MobileNet V2为InvertedResidual模块堆叠，主网络使用大小分别为160x160，80x80，40x40，20x20，10x10的特征图c2,c3,c4,c5,c6，对应步长分别为4，8，16，32，64；

在辅助网络中，使用InvertedResidual模块堆叠，采用和MobileNetV2中相同大小且步长为2的卷积操作，随后使用步长为2的深度可分离卷积进行下采样，生成与特征图c2,c3,c4大小对应相等的特征图c2′,c3′,c4′；

2.一种基于小型辅助网络的人脸检测方法，其特征在于，包括以下步骤：

S3：步骤S2输出的多层特征分别进行分类和定位；

其中，所述步骤S1中的主网络为Resnet50，网络结构中使用的是BottleNeck，使用特征s2,s3,s4,s5,s6用于后续的特征融合；

辅助网络中使用3x3卷积提取特征，用Anet-Resnet50-conv表示使用3x3卷积的辅助网络，在Anet-Resnet50-conv中首先使用大小为7x7，步长为2的卷积以及步长为2的最大池化对输入图片进行下采样处理，再使用两个大小为3x3，步长为1的卷积，生成和特征s2大小相同的特征s2′，之后采用两个大小为3x3，步长为2的卷积处理特征s2′，生成分别和特征s3,s4大小相等的特征s3′,s4′，s2′,s3′和s4′通道数分别为256，512和1024，s2′,s3′,s4′对s2,s3,s4进行信息补充。

3.根据权利要求2所述的一种基于小型辅助网络的人脸检测方法，其特征在于，所述步骤S1中的辅助网络为对Anet-Resnet50-conv的结构进行改进后得到的辅助网络结构Anet-Resnet50-conv_little，使用3x3卷积提取特征，与FPN特征融合结构结合，减少辅助网络通道数，通过FPN特征融合结构首先对输入的特征进行1x1卷积改变其通道数，Anet-Resnet50-conv_little生成的s2″,s3″,s4″直接对经过FPN中1x1卷积后的特征b2,b3,b4分别补充信息，s2″,s3″,s4″,b2,b3,b4通道数均为256。

4.根据权利要求2所述的一种基于小型辅助网络的人脸检测方法，其特征在于，所述步骤S1中的辅助网络为对Anet-Resnet50-conv的结构进行改进后得到的辅助网络结构Anet-Resnet50-bottleneck，辅助网络中使用BottleNeck代替3x3卷积。

5.根据权利要求2所述的一种基于小型辅助网络的人脸检测方法，其特征在于，所述步骤S1中的辅助网络为对Anet-Resnet50-bottleneck的结构进行改进后得到的辅助网络结构Anet-Resnet50-bottleneck_little，将Anet-Resnet50-bottleneck与FPN进行结合，通过采用辅助网络生成的s2″″,s3″″,s4″″直接对经过FPN中1x1卷积后的特征b2′,b3′,b4′分别补充信息。