CN108345832A

CN108345832A - 一种人脸检测的方法、装置及设备

Info

Publication number: CN108345832A
Application number: CN201711458196.9A
Authority: CN
Inventors: 吴香莲; 彭莉
Original assignee: Ennew Digital Technology Co Ltd
Current assignee: Ennew Digital Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-07-31

Abstract

本申请公开了一种人脸检测的方法、装置及设备，用以解决现有技术中MTCNN的全连接层限制输入维度而影响检测效果的问题。所述目标识别方法包括：获取待检测图像；将所述待检测图像进行前置处理，并将得到的输出结果输入至卷积网络的卷积层；将通过所述卷积层处理得到的输出结果输入至所述卷积网络中包含有设定卷积核的特殊卷积层，得到至少一个特征矩阵；根据所述至少一个特征矩阵得到特征向量，并将所述特征向量输入至所述卷积网络的Softmax层；根据所述Softmax层的输出结果，对所述待检测图像进行人脸检测。

Description

一种人脸检测的方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种人脸检测的方法、装置及设备。

背景技术

当前，图像处理技术已经应用在诸多领域中，如人脸检测、人工智能、身份识别、目标提取等，为人们在这些领域中的工作提供了可靠的依据与指导。随着计算机技术的不断发展，图像处理技术在这些领域的地位也将越发重要。

在人脸检测领域所包含众多人脸检测算法中，多任务级联卷积网络(Multi-taskCascaded Convolutional Networks，MTCNN)在检测速度和检测性能上的表现十分出众，因此受到人们的极大欢迎。在MTCNN中分为Proposal Network(P-net)、Refine Network(R-net)以及Output Network(O-net)三个级联卷积网络，待检测图像首先经过第一级卷积网络P-net的处理后，得到多个人脸候选框，而后需要将得到的多个人脸候选框所框定的图像作为输入，输入到下一级卷积网络R-net进行处理，得到精确人脸候选框，进而将得到的精确人脸候选框所框定的图像作为输入，再输入到最后一级卷积网络O-net进行处理，最终得到能够在该待检测图像中标识出人脸的人脸框。

上述R-net和O-net中设有全连接层，全连接层通常要求输入至全连接层的数据的维度是固定的，这样也就限制了输入至R-net和O-net的数据的维度。为此，通常需要将上一级卷积网络得到的数据调整成同一维度，再输入至下一级卷积网络中。例如，通过P-net得到尺寸不同的人脸候选框后，需要将这些人脸候选框所框定的图像调整成同一尺寸(即俗称为resize)，而后再将调整后的各人脸候选框所框定的图像输入至R-net中。但是，若是将不同尺寸的人脸候选框所框定的图像resize至同一尺寸，这必然会造成各人脸候选框所框定的图像中一些信息的损失，从而可能影响最终的检测效果。

发明内容

本申请实施例提供一种人脸检测的方法、装置及设备，用于解决现有技术中，MTCNN的全连接层限制输入维度而影响检测效果的问题。

本申请实施例采用下述技术方案：

本申请实施例提供的一种人脸检测的方法，包括：

获取待检测图像；

将所述待检测图像进行前置处理，并将得到的输出结果输入至卷积网络的卷积层；

将通过所述卷积层处理得到的输出结果输入至所述卷积网络中包含有设定卷积核的特殊卷积层，得到至少一个特征矩阵；

根据所述至少一个特征矩阵得到特征向量，并将所述特征向量输入至所述卷积网络的Softmax层；

根据所述Softmax层的输出结果，对所述待检测图像进行人脸检测。

本申请实施例提供的一种人脸检测的装置，包括：

获取模块，获取待检测图像；

处理模块，将所述待检测图像进行前置处理，并将得到的输出结果输入至卷积网络的卷积层；

第一输入模块，将通过所述卷积层处理得到的输出结果输入至所述卷积网络中包含有设定卷积核的特殊卷积层，得到至少一个特征矩阵；

第二输入模块，根据所述至少一个特征矩阵得到特征向量，并将所述特征向量输入至所述卷积网络的Softmax层；

检测模块，根据所述Softmax层的输出结果，对所述待检测图像进行人脸检测。

本申请实施例提供的一种人脸检测的设备，包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取待检测图像；

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：由于现有技术中全连接层对输入的维度限制，通常需要将卷积层处理得到的输出结果调整到固定的维度输入到全连接层中，并得到特征向量。而在本申请实施例中，可将卷积层得到的输出结果输入至包含有设定卷积核的特殊卷积层中，得到至少一个特征矩阵，并根据得到的特征矩阵再得到特征向量，无需将该输出结果调整成固定的维度再输入至该特殊卷积层。这样使得在人脸检测的过程中，信息不会因调整输入维度而受到损失，从而提高了人脸检测的效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种人脸检测的流程示意图；

图2为本申请实施例提供的将全连接层替换为特殊卷积层的示意图；

图3为本申请实施例提供的一种人脸检测的装置示意图；

图4为本申请实施例提供的一种人脸检测的设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种人脸检测的流程示意图，具体包括以下步骤：

S101：获取待检测图像。

在本申请实施例中，可以获取待检测图像，并对待检测图像进行人脸检测。其中，获取待检测图像的途径可以有很多，例如，可以根据用户执行的输入操作，获取该待检测图像，也可以预设的图像采集装置进行图像采集，并将采集到的图像作为待检测图像。

在本申请实施例中，进行人脸检测的执行主体可以是终端、服务器等设备，为了方便描述，后续将以终端作为执行主体，对本申请实施例提供的数据处理方法进行说明。

在获取到待检测图像后，终端可以将该待检测图像进行放大或缩小，得到不同尺寸的各待检测图像，也即得到俗称的图像金字塔。而之所以需要对该待检测图像进行尺寸调整，得到不同尺寸的各待检测图像，是因为在实际应用中，该待检测图像中实际上可能包含有多个人脸，其中，尺寸过大或过小的人脸通常较难检测，需要将这些人脸调整成合适的尺寸。因此，可以通过将该待检测图像进行放大或缩小的方式，将该待检测图像中一些尺寸较小或尺寸过大的人脸调整到合适的尺寸，以使终端后续能够有效的检测出这些人脸。

S102：将所述待检测图像进行前置处理，并将得到的输出结果输入至卷积网络的卷积层。

终端获取到尺寸不一的各待检测图像后，可以将各待检测图像进行前置处理，得到相应的输出。其中，这里提到的前置处理可以是指：终端可以通过MTCNN中第一级卷积网络(也即P-net)所包含的各卷积层以及Softmax层，分别对各待检测图像，得到多个尺寸不同的人脸候选框。由于各人脸候选框是通过不同尺寸的待检测图像得出的，所以，终端可以按照待检测图像的原始尺寸，将各人脸候选框进行放大或缩小，以确定出各人脸候选框在该待检测图像上原始尺寸的大小，继而将经过调整后的各人脸候选框呈现在原始尺寸的待检测图像中。

在实际应用中，待检测图像经过P-net的卷积处理后，通常会得到多个人脸候选框以及各人脸候选框对应的边界回归向量。终端可以将各人脸候选框根据边界回归向量进行校准，并通过非极大值抑制(Non Maximum Suppression，NMS)，将一些重叠度比较高的人脸候选框进行合并，以缩减得到的人脸候选框的数量。

S103：将通过所述卷积层处理得到的输出结果输入至所述卷积网络中包含有设定卷积核的特殊卷积层，得到至少一个特征矩阵。

S104：根据所述至少一个特征矩阵得到特征向量，并将所述特征向量输入至所述卷积网络的Softmax层。

终端可以将经过P-net处理得到的输出结果输入至卷积网络的卷积层进行处理，这里提到的卷积网络可以是指MTCNN中的R-net和O-net。具体的，终端通过P-net的卷积处理得到各人脸候选框后，可以将各人脸候选框在该待检测图像中所框定的图像作为输入，输入到MTCNN的第二级卷积网络，即R-net。在现有技术中，R-net中设有多个卷积层、多个池化层以及至少一个全连接层，卷积层和池化层其维度通常都是固定的，而由于全连接层的输入在维度上通常也是固定的，这就意味着输入至R-net的各图像的尺寸大小也应是固定的。所以这就要求在将各人脸候选框在该待检测图像中所框定的各图像输入至R-net前，需要按照全连接层的要求，将各图像调整到同一尺寸大小，而后在输入至R-net进行卷积处理。

然而，若将不同的图像调整到同一尺寸，就会使得这些图像中的一些信息因此会遭到损失，这样就会对后续的人脸检测造成影响。

为此，在本申请实施例中，可以将R-net中的全连接层通过包含有设定卷积核的特殊卷积层进行替换，如图3所示。

图2为本申请实施例提供的将全连接层替换为特殊卷积层的示意图。

在图2中，终端可将P-net得到的输出结果通过R-net中包含的各卷积层进行卷积-池化的处理，并将得到的结果通过该特殊卷积层的卷积处理，得到至少一个特征矩阵。而后，针对每个特征矩阵，终端可将该特征矩阵中包含的各元素进行求和，得到特征值，进而通过得到的各特征值，得到一维的特征向量，并将该特征向量输入至R-net中的Softmax层。终端可以根据Softmax层输出的结果，从先前通过P-net得到的多个人脸候选框中去除掉大部分错误的人脸候选框(所谓错误的人脸候选框即是指在待检测图像中所框定的图像并不是人脸的候选框)，进而得到一些更为精确的精确人脸候选框。

在本申请实施例中，特殊卷积层中的设定卷积核可以是如图2所示的1×1卷积核，当然，该特殊卷积成中具体采用何种设定卷积核可以通过该特殊卷积层的前一卷积层所输出的特征矩阵的维度而定。如，当该特殊卷积层的前一卷积层所输出的特征矩阵的维度为3×3时，则该特殊卷积层中包含的设定卷积核可以是3×3卷积核，也可以是1×1卷积核，也即，该特殊卷积核所采用的设定卷积核的维度可以不大于该特殊卷积层前一卷积层所输出的特征矩阵的维度。

从上述过程中可以看出，对于通过特殊卷积层的处理而得到的每个特征矩阵，终端可将该特征矩阵中的各元素进行加和，得到相应的特征值，并通过各特征值，依然能够得到需要输入至Softmax层中的特征向量。同时由于包含有设定卷积核的特殊卷积层并不会限制输入的维度，这就使得在将各人脸候选框在该待检测图像所框定的各图像输入至R-net之前，无需调整成同一的尺寸(即进行resize操作)，从而保证了各图像中图像信息不至损失，进而保证了后续的人脸检测效果。

不仅如此，在实际应用中，全连接层中涉及大量的参数，通常情况下，全连接层中包含的参数会占据整个人脸检测模型参数总和的70％～90％，参数过多将会对人脸检测模型进行人脸检测的总体效率，同时过多的参数也会使整个人脸检测模型十分臃肿，占用过多的存储空间。

而在本申请实施例中，包含有1×1设定卷积核的特殊卷积层中包含的参数远少于全连接层中包含的参数，这样不仅有效的提高了人脸检测模型的人脸检测效率，同时在一定程度上精简了人脸检测模型，节省了人脸检测模型所占据的存储空间。

与上述的P-net类似，终端将各人脸候选框经过R-net的卷积处理后，通常会得到多个精确人脸候选框(数量上相对于人脸候选框来说将极大的减少)以及各精确人脸候选框对应的边界回归向量。终端可以将各人脸候选框根据边界回归向量进行校准，并通过NMS，合并重叠的精确人脸候选框。

同理在实际应用中，O-net中也设有全连接层，因此，在本申请实施例中，可以将O-net中的全连接层通过包含有1×1设定卷积核的特殊卷积层进行替换。其中，O-net中特殊卷积层中包含的1×1卷积核和R-net中特殊卷积层所包含的1×1设定卷积核可以是不同的卷积核。这样一来，终端无需将各精确人脸候选框调整到同一尺寸大小再输入至O-net中，从而保证了人脸检测的效果。同时，由于降低了人脸检测模型的参数数量，因此提高了人脸检测模型的人脸检测效率，节省了存储空间。

S105：根据所述Softmax层的输出结果，对所述待检测图像进行人脸检测。

在本申请实施例中，终端可以根据R-net中Softmax层的输出结果，确定出各精确人脸候选框，并将得到的各精确人脸候选框在该待检测图像中所框定的图像作为输入，输入至O-net中。

而后，终端可以根据O-net中Softmax层的输出结果，最终从该待检测图像中确定框出人脸的人脸框，并将该人脸中的若干个关键点标记出来。

需要说明的是，在本申请实施例中，需要预先对该MTCNN中的各项参数进行训练，这里提到的各项参数可以是指MTCNN中各级卷积网络中的卷积核、Softmax层中的分类函数等涉及的参数。而训练该MTCNN所采用的数据集可以是Wider Face、FDDB等数据集。

具体的，可以通过各评价指标对MTCNN中的各个卷积网络进行训练，其中，不同的卷积网络可以采用相同的评价指标，如，对于P-net、R-net、O-net这三个卷积网络来说，均可以采用人脸识别、检测框回归、人脸关键点定位这三个评价指标对其进行训练。每个评价指标均可对应一个相应的损失函数，而在不同的卷积网络中，同一评价指标所对应的权重不完全相同。在训练过程中，可以基于不同评价指标所对应的损失函数，以及不同评价指标在各卷积网络所对应的权重，对MTCNN中的各卷积网络进行训练。

需要说明的是，由于在MTCNN中各级卷积网络的侧重有所不同，因此在训练时，可以分别按照不同的侧重点对各个卷积网络中的各项参数进行训练。例如，对于P-net来说，判断是否为人脸的重要程度相对较高，所以，可以将人脸识别在该P-net中的权重进行相应的提高。

再例如，对于O-net来说，由于通过之前的两级卷积网络所确定出的候选框基本上都能够从待检测图像中框出实际的人脸，但是有些候选框在待检测图像中框出的人脸较为精确，有些框出的人脸则精确度较差。因此对于O-net来说，更为精确的定位人脸框则更为重要，所以，可以将检测框回归在该O-net中所对应的权重提高。

在本申请实施例中，包含有设定卷积核的特殊卷积层可以设置在R-net和O-net中，当然也可以只设置在O-net中，相应的，若只将特殊卷积层设置在O-net中，则终端将待检测图像通过MTCNN中的P-net和R-net进行处理则可以称之为是前置处理。

除此之外，MTCNN中的每个卷积网络中也可以如图2所示一样，设置特殊卷积层。而对于不同的卷积网络来说，该卷积网络中特殊卷积核所包含的设定卷积核可以与其他的卷积网络的设定卷积核不同。

以上为本说明书的一个或多个实施例提供的人脸检测方法，基于同样的思路，本说明书还提供了相应的人脸检测装置，如图3所示。

图3为本申请实施例提供的一种人脸检测的装置示意图，具体包括：

获取模块301，获取待检测图像；

处理模块302，将所述待检测图像进行前置处理，并将得到的输出结果输入至卷积网络的卷积层；

第一输入模块303，将通过所述卷积层处理得到的输出结果输入至所述卷积网络中包含有设定卷积核的特殊卷积层，得到至少一个特征矩阵；

第二输入模块304，根据所述至少一个特征矩阵得到特征向量，并将所述特征向量输入至所述卷积网络的Softmax层；

检测模块305，根据所述Softmax层的输出结果，对所述待检测图像进行人脸检测。

所述第二输入模块304，针对每个特征矩阵，将该特征矩阵中包含的各元素进行求和，得到特征值；根据得到的各特征值，确定特征向量，并将所述特征向量输入至所述卷积网络的Softmax层。

所述前置处理包括：将所述待检测图像输入至所述MTCNN中的P-net进行处理，所述卷积网络包括：所述MTCNN中的R-net和/或O-net；或

所述前置处理包括：将所述待检测图像通过所述MTCNN中的P-net以及R-net进行处理，所述卷积网络包括：所述MTCNN中的O-net。

所述设定卷积核为1×1卷积核。

所述MTCNN中每个卷积网络均对应至少一个评价指标，各卷积网络对应的评价指标相同；

每个卷积网络对应的同一评价指标的权重不完全相同；

每个评价指标均对应损失函数；

所述装置还包括：

训练模块306，根据所述MTCNN中每个卷积网络的各评价指标对应的损失函数以及每个卷积网络的各评价指标对应的权重，对所述MTCNN中的各卷积网络进行训练，所述MTCNN包含的各卷积网络包括：P-net、R-net、O-net。

基于上述说明的人脸检测的方法，本说明书还对应提供了一种用于人脸检测的设备，如图4所示。该设备包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取待检测图像；

根据所述Softmax层的输出结果，对所述待检测图像进行人脸检测

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种人脸检测的方法，其特征在于，所述方法用于通过多任务级联卷积网络MTCNN进行人脸检测，包括：

获取待检测图像；

2.如权利要求1所述的方法，其特征在于，根据所述至少一个特征矩阵得到特征向量，并将所述特征向量输入至所述卷积网络的Softmax层，具体包括：

针对每个特征矩阵，将该特征矩阵中包含的各元素进行求和，得到特征值；

根据得到的各特征值，确定特征向量，并将所述特征向量输入至所述卷积网络的Softmax层。

3.如权利要求1～2任一所述的方法，其特征在于，所述前置处理包括：将所述待检测图像输入至所述MTCNN中的P-net进行处理，所述卷积网络包括：所述MTCNN中的R-net和/或O-net；或

4.如权利要求3所述的方法，其特征在于，所述设定卷积核为1×1卷积核。

5.如权利要求1所述的方法，其特征在于，所述MTCNN中每个卷积网络均对应至少一个评价指标，各卷积网络对应的评价指标相同；

每个卷积网络对应的同一评价指标的权重不完全相同；

每个评价指标均对应损失函数；

所述方法还包括：

根据所述MTCNN中每个卷积网络的各评价指标对应的损失函数以及每个卷积网络的各评价指标对应的权重，对所述MTCNN中的各卷积网络进行训练，所述MTCNN包含的各卷积网络包括：P-net、R-net、O-net。

6.一种人脸检测的装置，其特征在于，所述装置用于通过多任务级联卷积网络MTCNN进行人脸检测，包括：

获取模块，获取待检测图像；

7.如权利要求6所述的装置，其特征在于，所述第二输入模块，针对每个特征矩阵，将该特征矩阵中包含的各元素进行求和，得到特征值；根据得到的各特征值，确定特征向量，并将所述特征向量输入至所述卷积网络的Softmax层。

8.如权利要求6～7任一所述的装置，其特征在于，所述前置处理包括：将所述待检测图像输入至所述MTCNN中的P-net进行处理，所述卷积网络包括：所述MTCNN中的R-net和/或O-net；或

9.如权利要求8所述的装置，其特征在于，所述设定卷积核为1×1卷积核。

10.一种人脸检测的设备，其特征在于，所述设备用于通过多任务级联卷积网络MTCNN进行人脸检测，包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取待检测图像；