CN109993086B

CN109993086B - 人脸检测方法、装置、***及终端设备

Info

Publication number: CN109993086B
Application number: CN201910215573.9A
Authority: CN
Inventors: 李江; 王行; 李骊; 周晓军; 盛赞; 李朔; 杨淼
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2021-07-27
Anticipated expiration: 2039-03-21
Also published as: CN109993086A

Abstract

本说明书提供一种人脸检测方法、装置、***及终端设备，该方法包括：获得深度图像以及与所述深度图像配准的彩色图像；对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化；基于深度图像的深度信息以及拍摄所述深度图像的相机的内部参数，获得人脸候选框的设定尺寸；通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框；基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域。应用本申请实施例，利用与彩色图像配准的深度图像的深度信息作为神经网络模型的输入数据，提高了模型检测精度以及鲁棒性；同时通过深度信息和相机内参设置候选框的尺寸，加快了检测速度，并且进一步提高了检测精度。

Description

人脸检测方法、装置、***及终端设备

技术领域

本说明书涉及人脸检测技术领域，尤其涉及一种人脸检测方法、装置、***及终端设备。

背景技术

随着人脸检测技术的发展，其在安全访问控制、视觉检测、基于内容的图像检索等领域的应用价值也日益增长。

当前人脸检测算法多数基于彩色图像、应用多任务级联卷积神经网络(MultiTask Cascaded Convolutional Networks，MTCNN)进行。

由于彩色图像受光照条件、分辨率、颜色等因素影响较大，对训练数据要求较高，导致算法模型的鲁棒性较差；并且MTCNN模型较多，算法逻辑复杂、响应速度慢。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种人脸检测方法、装置、***及终端设备。

具体地，本申请是通过如下技术方案实现的：

根据本说明书实施例的第一方面，提供一种人脸检测方法，包括：

获得深度图像以及与所述深度图像配准的彩色图像；

对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化，并输出归一化四通道信息，其中，所述归一化四通道信息包括归一化的RGB信息和归一化的深度信息；

基于深度图像的深度信息以及拍摄所述深度图像的相机的内部参数，获得人脸候选框的设定尺寸；

基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框；

基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域。

根据本说明书实施例的第二方面，提供一种人脸检测装置，包括：

图像获取单元，用于获得深度图像以及与所述深度图像配准的彩色图像；

归一化单元，用于对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化，并输出归一化四通道信息，其中，所述归一化四通道信息包括归一化的RGB信息和归一化的深度信息；

尺寸获取单元，用于基于深度图像的深度信息以及拍摄所述深度图像的相机的内部参数，获得人脸候选框的设定尺寸；

第一确定单元，用于基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框；

第二确定单元，用于基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域。

根据本说明书实施例的第三方面，提供一种终端设备，包括：内部总线，以及通过内部总线连接的存储器、处理器和外部接口；其中，

所述外部接口，用于获得深度图像以及与所述深度图像配准的彩色图像；

所述存储器，用于存储人脸检测对应的机器可读指令；

所述处理器，用于读取所述存储器上的所述机器可读指令，并执行所述指令以实现如下操作：

根据本说明书实施例的第四方面，提供一种人脸检测***，包括：深度相机、彩色相机以及终端设备，其中，

所述深度相机，用于拍摄深度图像；

所述彩色相机，用于拍摄彩色图像，所述深度相机与所述彩色相机经过配准；

所述终端设备，用于获得深度图像以及与所述深度图像配准的彩色图像；对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化，并输出归一化四通道信息，其中，所述归一化四通道信息包括归一化的RGB信息和归一化的深度信息；基于深度图像的深度信息以及拍摄所述深度图像的相机的内部参数，获得人脸候选框的设定尺寸；基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框；基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域。

根据本说明书实施例的第五方面，提供一种人脸检测***，包括：带有深度信息的相机及终端设备，其中，

所述带有深度信息的相机，用于拍摄深度图像和与所述深度图像配准的彩色图像；

应用本申请提供的人脸检测实施例，利用与彩色图像配准的深度图像的深度信息作为神经网络模型的输入数据，提高了模型检测精度以及鲁棒性；同时通过深度信息和相机内参设置候选框的尺寸，加快了检测速度，并且进一步提高了检测精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本申请根据一示例性实施例示出的一种人脸检测方法的流程图。

图2是本申请根据一示例性实施例示出的一种训练神经网络模型的方法的流程图。

图3是本申请根据一示例性实施例示出的一种人脸检测装置的结构示意图。

图4是本申请根据一示例性实施例示出的一种终端设备的结构图。

图5是本申请根据一示例性实施例示出的一种人脸检测***的结构示意图。

图6是本申请根据一示例性实施例示出的另一种人脸检测***的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

参见图1，为本申请一个例子中的人脸检测方法的流程图。该方法可以包括以下步骤：

在步骤101中，获得深度图像以及与所述深度图像配准的彩色图像。

其中，深度图像可以由深度相机拍摄，彩色图像可以由彩色相机拍摄；或者深度图像和彩色图像由深度信息的相机进行拍摄。

在本实施例中，深度图像和彩色图像应当是配准过的，以确保深度图像中的每一个像素点都可以在彩色图像中找到其相对像素，同时这两个对应的像素是对空间中相同位置的测量。

在一个示例中，深度图像和彩色图像可以通过以下方式进行配准：

如果深度图像和彩色图像由带有深度信息的相机以同样的角度和位置进行拍摄，或者从同一次拍摄中获得的两张图像，那么该深度图像和彩色图像就是配准的。

如果深度图像和彩色图像分别由深度相机和彩色相机进行拍摄，那么通过在相同场景下，利用相同的方法对深度相机和彩色相机进行标定，那么利用这两个相机以同样的角度和位置所拍摄的深度图像和彩色图像就是配准的。

例如，通过张正友标定法分别对深度相机和彩色相机进行标度，并且两个相机进行标定的场景必须是完全相同的。对深度相机和彩色相机进行标定，即能够获得深度相机和彩色相机的内部参数。

相机的内部参数包括焦距、主点的位置(像平面的位置)，以及像素与真实环境的大小比例，是相机的固有属性，用于相机坐标系与平面坐标系之间的转换。

在步骤102中，对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化，并输出归一化四通道信息。

其中，归一化四通道信息包括归一化的RGB信息和归一化的深度信息。

在一个示例中，可以通过以下方法对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化：

将深度信息在0-255区间进行归一化，得到相同范围内的四通道信息；

将所述相同范围内的四通道信息在[0,1]或[-1,1]范围内进行归一化。

彩色图像为RGB格式，其像素值包括RGB三个通道的信息，也即每个像素的像素值分别包括R、G、B三个分量，三者的范围皆为[0,255]。为了能将深度信息与RGB信息共同进行归一化，首先将深度信息在0-255区间进行归一化，将深度信息也转换为范围在[0,255]之间，则得到了相同范围内的四通道信息：R、G、B信息和深度信息。之后将R、G、B信息和深度信息再次进行[0,1]或[-1,1]范围内进行归一化，得到归一化四通道信息。

在步骤103中，基于深度图像的深度信息以及拍摄深度图像的相机的内部参数，获得人脸候选框的设定尺寸。

深度图像的深度值直接反映了物体距离摄像头的远近，而相机的内部参数中包括了像素与真实环境的大小比例，因此基于人体头部实际大小的范围，即可对于由该相机所拍摄的深度图像和配准的彩色图像可以获得人脸候选框的设定尺寸。

本领域技术人员应当理解，上述人脸候选框的设定尺寸可以根据实际情况和需要进行调整。

相关技术中，应用MTCNN模型进行人脸检测时，需要多尺度全图提取候选框再进行人脸检测，由于要产生大量检测人脸候选框，会导致进行大量不必要的运算，降低了算法响应速度。

在本实施例中，基于深度图像的深度信息以及相机的内部参数，能够设置单一尺度的人脸候选框，避免进行不必要的运算，提高了算法的响应速度。

在步骤104中，基于归一化四通道信息以及人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框。

在一个示例中，可以通过以下方法对神经网络模型进行训练。如图2所示，该方法包括以下步骤：

在步骤201中，获得样本深度图像以及与所述样本深度图像配准的样本彩色图像。

在本步骤中，样本深度图像和样本彩色图像的配准方法可以与步骤101中深度图像和彩色图像的配准方法相同。

在步骤202中，标记出样本深度图像和样本彩色图像中人脸所在的区域。

在进行标记时，可以仅对样本深度图像或仅对样本彩色图像进行标记，再在配准的样本图像中的相应像素上生成对应的标记。也可以同时在样本深度图像和样本彩色图像上进行标记，生成标记数据。该标记数据包括不同像素坐标的标记值，标记值可以为1或0，其中，1表示人脸像素，0表示非人脸像素；也可以0表示人脸像素，1表示非人脸像素。也就是说，标记数据中，每个像素带有是否为人脸像素的标记。

在步骤203中，对样本深度图像的深度信息以及样本彩色图像的RGB信息进行共同归一化，并输出归一化样本四通道信息。

其中，归一化样本四通道信息包括归一化的样本深度信息和归一化的样本RGB信息。

在本步骤中，可以利用与步骤102相同的方法进行归一化。

在步骤204中，将归一化样本四通道信息以及标记数据输入神经网络模型进行训练，直到满足迭代次数或者损失收敛为止。

在一个示例中，该神经网络模型可以是卷积神经网络模型。

经过训练，该神经网络可以在深度图像的数据和配准的彩色图像的数据中标记出属于人脸的像素。也即，将归一化四通道信息输入至预先训练的神经网络模型中，则能够输出带有是否为人脸像素标记的像素数据。在该像素数据中，每一个像素带有是否为人脸像素的标记。

由于利用深度图像和灰度图像的全部像素信息进行人脸像素检测的效率是较低的，因此在本实施例中，结合设定尺寸的候选框进行人脸像素的检测：

通过该设定尺寸的候选框每次选取相应范围的归一化四通道信息，将所选取的归一化四通道信息输入至预先训练的神经网络模型中，利用模型从所输入的像素数据中判断出属于人脸的像素数据。也即，该模型输出带有是否为人脸像素标记的像素数据。

以设定步长滑动人脸候选框，通过改变人脸候选框的选取范围，即每次选取不同范围的归一化四通道信息，在遍历全部归一化四通道信息后，输出每次选取所对应的数据。其中该设定步长可以根据人脸检测所需精度进行设置。

从每次选取出输出的数据中，确定包含人脸像素得分高于设定阈值的人脸候选框。针对每次选取，可以依据人脸候选框所包含的人脸像素数量(或比例)获得该次选取的人脸候选框的得分。也即，每次进行选取的人脸候选框所包含的人脸像素的数量(或比例)越高，则得分越高；反之则得分越低。当该次选取的人脸候选框的得分高于设定阈值，则认为该次选取的人脸候选框中包含人脸；否则，则认为不包含人脸。其中，该设定阈值可以根据人脸检测所需准确度进行设置。

在本实施例中，可以如上所述利用每次选取输出的数据中所包含的人脸像素的数量(或比例)来对人脸候选框的该次选取进行打分，通过该次选取的得分来确认人脸候选框中是否包含人脸。本领域技术人员应当理解，也可以利用其他的因素来评价人脸候选框的得分。

在步骤105中，基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域。

得分高于设定阈值的人脸候选框可能是一个，也可能有多个。当得分高于设定阈值的人脸候选框有多个，由于人脸在每个候选框中所处的位置可能是不同的，因此可以这多个人脸候选框中确定一个选取效果最好的作为目标候选框。

在一个示例中，利用非极大值抑制NMS算法从得分高于设定阈值的人脸候选框中确定目标候选框。本领域技术人员应当理解，确定目标候选框的方法并不限于以上所述，还可以采用其他方法，例如可以选取人脸最居中的人脸候选框作为目标候选框等等。

将所确定的目标候选框作为目标人脸区域，则实现了人脸检测。可以在彩色图像中显示出目标人脸区域，也可以在深度图像上显示出目标人脸区域。

与前述方法的实施例相对应，本说明书还提供了装置、***以及终端设备的实施例。

参见图3，为本申请人脸检测装置的一个实施例框图。该装置包括：图像获取单元310、归一化单元320、尺寸获取单元330、第一确定单元340、第二确定单元350。

其中，图像获取单元310，用于获得深度图像以及与所述深度图像配准的彩色图像；

归一化单元320，用于对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化，并输出归一化四通道信息，其中，所述归一化四通道信息包括归一化的RGB信息和归一化的深度信息；

尺寸获取单元330，用于基于深度图像的深度信息以及拍摄所述深度图像的相机的内部参数，获得人脸候选框的设定尺寸；

第一确定单元340，用于基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框；

第二确定单元350，用于基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域。

参见图4，为本申请终端设备的一个实施例框图。该终端设备包括：

内部总线410，以及通过内部总线连接的存储器420、处理器430和外部接口440。

其中，外部接口440，用于获得深度图像以及与所述深度图像配准的彩色图像；

存储器420，用于存储人脸检测对应的机器可读指令；

处理器430，用于读取存储器上的机器可读指令，并执行指令以实现如下操作：

参考图5，为本申请人脸检测***的一个实施例框图。该***可以包括：深度相机510、彩色相机520以及终端设备530。

其中，深度相机510，用于拍摄深度图像；

彩色相机520，用于拍摄彩色图像，所述深度相机与所述彩色相机经过配准；

终端设备530，用于获得深度图像以及与所述深度图像配准的彩色图像；对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化，并输出归一化四通道信息，其中，所述归一化四通道信息包括归一化的RGB信息和归一化的深度信息；基于深度图像的深度信息以及拍摄所述深度图像的相机的内部参数，获得人脸候选框的设定尺寸；基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框；基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域。

参考图6，为本申请人脸检测***的另一个实施例框图。该实施例与图5所示***的差别在于，深度图像和与该深度图像配准的彩色图像是通过带有深度信息的相机610拍摄的。

在本申请实施例中，计算机可读存储介质可以是多种形式，比如，在不同的例子中，所述机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。特殊的，所述的计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。使用这些介质，这些程序可以被通过电学的方式获取到(例如，光学扫描)、可以被以合适的方式编译、解释和处理，然后可以被存储到计算机介质中。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种人脸检测方法，其特征在于，包括：

获得深度图像以及与所述深度图像配准的彩色图像；

基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域；

所述基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框包括：

通过设定尺寸的人脸候选框选取相应范围的归一化四通道信息，并将所选取的归一化四通道信息输入至预先训练的神经网络模型中，所述神经网络模型输出带有是否为人脸像素标记的像素数据；

以设定步长滑动所述人脸候选框，遍历全部归一化四通道信息，输出每次选取对应的数据；

基于每次选取输出的数据，确定得分高于设定阈值的人脸候选框，其中，所述得分依据人脸候选框中包含的人脸像素数量获得。

2.根据权利要求1所述的方法，其特征在于，深度图像和彩色图像通过以下方法进行配准：

利用带有深度信息的相机分别拍摄所述深度图像和所述彩色图像；或者

在相同场景下，利用相同的方法对深度相机和彩色相机进行标定，其中，所述深度相机用于拍摄深度图像，所述彩色相机用于拍摄彩色图像。

3.根据权利要求1所述的方法，其特征在于，所述对深度图像的深度信息以及彩色图像的RGB信息进行共同归一化包括：

将深度信息在0-255区间进行归一化，得到相同范围内的四通道信息，所述四通道信息包括RGB信息和深度信息；

将所述四通道信息在[0,1]或[-1,1]范围内进行归一化。

4.根据权利要求1所述的方法，其特征在于，所述神经网络模型通过以下方式进行训练得到：

获得样本深度图像以及与所述样本深度图像配准的样本彩色图像；

标记出样本深度图像和样本彩色图像中人脸所在的区域，生成标记数据；

对样本深度图像的深度信息以及样本彩色图像的RGB信息进行共同归一化，并输出归一化样本四通道信息，所述归一化样本四通道信息包括归一化的样本深度信息和归一化的样本RGB信息；

将所述归一化样本四通道信息以及标记数据输入神经网络模型进行训练，直到满足迭代次数或者损失收敛为止。

5.根据权利要求1所述的方法，其特征在于，所述基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域包括：

利用非极大值抑制NMS算法从所述得分高于设定阈值的人脸候选框中确定目标候选框。

6.一种人脸检测装置，其特征在于，包括：

第二确定单元，用于基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域；

所述第一确定单元具体用于：

7.一种终端设备，其特征在于，包括：内部总线，以及通过内部总线连接的存储器、处理器和外部接口；其中，

所述存储器，用于存储人脸检测对应的机器可读指令；

8.一种人脸检测***，其特征在于，包括：深度相机、彩色相机以及终端设备，其中，

所述深度相机，用于拍摄深度图像；

所述终端设备，用于获得深度图像以及与所述深度图像配准的彩色图像；对深度图像的深度信息以及彩色图像的RGB信息共同进行归一化，并输出归一化四通道信息，其中，所述归一化四通道信息包括归一化的RGB信息和归一化的深度信息；基于深度图像的深度信息以及拍摄所述深度图像的相机的内部参数，获得人脸候选框的设定尺寸；基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框；基于所述得分高于设定阈值的人脸候选框确定目标候选框作为目标人脸区域；所述基于所述归一化四通道信息以及所述人脸候选框的设定尺寸，通过预先训练的神经网络模型，确定得分高于设定阈值的人脸候选框包括：通过设定尺寸的人脸候选框选取相应范围的归一化四通道信息，并将所选取的归一化四通道信息输入至预先训练的神经网络模型中，所述神经网络模型输出带有是否为人脸像素标记的像素数据；以设定步长滑动所述人脸候选框，遍历全部归一化四通道信息，输出每次选取对应的数据；基于每次选取输出的数据，确定得分高于设定阈值的人脸候选框，其中，所述得分依据人脸候选框中包含的人脸像素数量获得。

9.一种人脸检测***，其特征在于，包括带有深度信息的相机、终端设备，其中，