CN111738077A

CN111738077A - 一种人脸检测和对齐方法及装置

Info

Publication number: CN111738077A
Application number: CN202010424959.3A
Authority: CN
Inventors: 张晋
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-10-02

Abstract

本发明公开了一种人脸检测和对齐方法及装置，方法包括：获取人脸数据集，人脸数据集中包括多个带有图像标签信息的人脸图像；将人脸数据集作为预设人脸检测和对齐网络模型的输入进行模型训练，以输出网络预测的人脸标签信息；根据图像标签信息、人脸标签信息计算人脸框位置信息对应的第一损失函数、人脸框分类信息对应的第二损失函数和人脸关键点坐标信息对应的第三损失函数；通过网络模型的全连接层输出第一损失函数对应的第一权重因子、第二损失函数对应的第二权重因子和第三损失函数对应的第三权重因子；根据每个损失函数及其对应的权重因子确定总损失函数；根据总损失函数反向传播更新各个权重，以确定目标人脸检测和对齐网络模型。

Description

一种人脸检测和对齐方法及装置

技术领域

本发明涉及人脸识别技术领域，更具体地，涉及一种人脸检测和对齐方法及装置。

背景技术

在人脸识别领域，人脸检测与对齐是人脸识别技术中的一个关键环节。人脸识别的典型流程主要包括三步：

第一步是人脸检测，即找出给定图像中的所有人脸的位置；

第二步是人脸对齐，即对检测出的人脸进行矫正；

第三步对矫正后的人脸进行特征提取和特征比对完成人脸识别过程。

目前，相关技术中，主要有两种人脸检测和对齐方案，其中，一种是人脸检测和对齐分别采用不同的网络进行输出，两者采用串行结构，该方案部署阶段工程耗时增加。另一种是人脸检测和对齐分支在一个网络训练，该方案侧重框回归的损失，人为增大其损失权重，导致关键点定位不准，对齐效果不佳，影响人脸识别。

发明内容

鉴于上述问题，本发明提出了一种人脸检测和对齐方法和相应的装置，其可以在网络训练过程种，自适应学***衡不同分支任务之间的损失，同时提高人脸检测和关键点定位的效果。

根据本发明实施例的第一方面，提供一种人脸检测和对齐方法，包括：

获取人脸数据集，其中，所述人脸数据集中包括多个带有图像标签信息的人脸图像，所述图像标签信息包括：标注的第一人脸框分类信息、第一人脸框位置信息和第一人脸关键点坐标信息；

将所述人脸数据集作为预设人脸检测和对齐网络模型的输入进行模型训练，以输出网络预测的人脸标签信息，其中，所述人脸标签信息包括人脸图像的第二人脸框位置信息、第二人脸框分类信息和第二人脸关键点坐标信息；

根据所述图像标签信息、人脸标签信息计算人脸框位置信息对应的第一损失函数、人脸框分类信息对应的第二损失函数和人脸关键点坐标信息对应的第三损失函数；

通过所述网络模型的全连接层输出所述第一损失函数对应的第一权重因子、所述第二损失函数对应的第二权重因子和所述第三损失函数对应的第三权重因子；

根据每个损失函数及其对应的权重因子确定总损失函数；

根据所述总损失函数反向传播更新各个权重，以确定目标人脸检测和对齐网络模型。

在一个实施例中，优选地，所述方法还包括：

获取输入的待处理人脸图像；

将所述待处理人脸图像作为所述目标人脸检测和对齐网络模型的输入，以输出对齐后的人脸图像。

在一个实施例中，优选地，所述总损失函数loss采用以下公式计算：

Loss＝1/(2*m1^2)*loss_loc+1/(m2^2)*loss_cls+1/(2*m3^2)*

loss_landm+logm1+logm2+logm3

其中，m1表示所述第一权重因子，loss_loc表示所述第一损失函数，m2表示所述第二权重因子，loss_cls表示所述第二损失函数，m3表示所述第三权重因子，loss_landm表示所述第三损失函数，logm1+logm2+logm3表示惩罚项。

在一个实施例中，优选地，将所述人脸数据集作为预设人脸检测和对齐网络模型的输入进行模型训练，包括：

对所述人脸数据集中的每个人脸图像进行预处理操作，得到处理后的人脸图像，其中，预处理操作包括以下至少一项：随机剪裁操作、色彩增强操作、颜色抖动操作和归一化操作；

将处理后的人脸图像作为预设人脸检测和对齐网络模型的输入进行模型训练。

在一个实施例中，优选地，所述预设人脸检测和对齐网络模型以ResNet50为基本骨架，并具有图像特征金字塔结构。

根据本发明实施例的第二方面，提供一种人脸检测和对齐装置，包括：

第一获取模块，用于获取人脸数据集，其中，所述人脸数据集中包括多个带有图像标签信息的人脸图像，所述图像标签信息包括：标注的第一人脸框分类信息、第一人脸框位置信息和第一人脸关键点坐标信息；

训练模块，用于将所述人脸数据集作为预设人脸检测和对齐网络模型的输入进行模型训练，以输出网络预测的人脸标签信息，其中，所述人脸标签信息包括人脸图像的第二人脸框位置信息、第二人脸框分类信息和第二人脸关键点坐标信息；

计算模块，用于根据所述图像标签信息、人脸标签信息计算人脸框位置信息对应的第一损失函数、人脸框分类信息对应的第二损失函数和人脸关键点坐标信息对应的第三损失函数；

第一输出模块，用于通过所述网络模型的全连接层输出所述第一损失函数对应的第一权重因子、所述第二损失函数对应的第二权重因子和所述第三损失函数对应的第三权重因子；

第一确定模块，用于根据每个损失函数及其对应的权重因子确定总损失函数；

第二确定模块，用于根据所述总损失函数反向传播更新各个权重，以确定目标人脸检测和对齐网络模型。

在一个实施例中，优选地，所述装置还包括：

第二获取模块，用于获取输入的待处理人脸图像；

第二输出模块，用于将所述待处理人脸图像作为所述目标人脸检测和对齐网络模型的输入，以输出对齐后的人脸图像。

Loss＝1/(2*m1^2)*loss_loc+1/(m2^2)*loss_cls+1/(2*m3^2)*loss_landm+logm1+logm2+logm3

在一个实施例中，优选地，所述训练模块包括：

处理单元，用于对所述人脸数据集中的每个人脸图像进行预处理操作，得到处理后的人脸图像，其中，预处理操作包括以下至少一项：随机剪裁操作、色彩增强操作、颜色抖动操作和归一化操作；

训练单元，用于将处理后的人脸图像作为预设人脸检测和对齐网络模型的输入进行模型训练。

根据本发明实施例的第三方面，提供一种人脸检测和对齐装置，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，所述设备执行如第一方面实施例中任一项所述的方法。

本发明实施例中，通过一个网络端到端训练可输出人脸检测结果和对齐后的人脸图像，工程部署时节约时间，提高检测效率，并且可以通过网络训练过程自适应学***衡不同分支任务之间的损失，同时提高检测和关键点定位的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种人脸检测和对齐方法的流程图。

图2是本发明一个实施例的另一种人脸检测和对齐方法的流程图。

图3是本发明一个实施例的一种人脸检测和对齐方法中步骤S102的流程图。

图4是本发明一个实施例的一种人脸检测和对齐装置的框图。

图5是本发明一个实施例的另一种人脸检测和对齐装置的框图。

图6是本发明一个实施例的一种人脸检测和对齐装置中训练模块的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的一种人脸检测和对齐方法的流程图，如图1所示，人脸检测和对齐方法包括：

步骤S101，获取人脸数据集，其中，所述人脸数据集中包括多个带有图像标签信息的人脸图像，所述图像标签信息包括：标注的第一人脸框分类信息、第一人脸框位置信息和第一人脸关键点坐标信息。

步骤S102，将所述人脸数据集作为预设人脸检测和对齐网络模型的输入进行模型训练，以输出网络预测的人脸标签信息，其中，所述人脸标签信息包括人脸图像的第二人脸框位置信息、第二人脸框分类信息和第二人脸关键点坐标信息。在一个实施例中，优选地，所述预设人脸检测和对齐网络模型以ResNet50为基本骨架，并具有图像特征金字塔结构。

步骤S103，根据所述图像标签信息、人脸标签信息计算人脸框位置信息对应的第一损失函数、人脸框分类信息对应的第二损失函数和人脸关键点坐标信息对应的第三损失函数。

步骤S104，通过所述网络模型的全连接层输出所述第一损失函数对应的第一权重因子、所述第二损失函数对应的第二权重因子和所述第三损失函数对应的第三权重因子。

步骤S105，根据每个损失函数及其对应的权重因子确定总损失函数。

Loss＝1/(2*m1^2)*loss_loc+1/(m2^2)*loss_cls+1/(2*m3^2)*

loss_landm+logm1+logm2+logm3

其中，m1表示所述第一权重因子，loss_loc表示所述第一损失函数，m2表示所述第二权重因子，loss_cls表示所述第二损失函数，m3表示所述第三权重因子，loss_landm表示所述第三损失函数，logm1+logm2+logm3表示惩罚项，惩罚项可以防止权重因子太大。

步骤S106，根据所述总损失函数反向传播更新各个权重，以确定目标人脸检测和对齐网络模型。

在该实施例中，通过一个网络端到端训练可输出人脸检测结果和对齐后的人脸图像，工程部署时节约时间，提高检测效率，并且可以通过网络训练过程自适应学***衡不同分支任务之间的损失，同时提高检测和关键点定位的效果。

如图2所示，在一个实施例中，优选地，上述方法还包括：

步骤S201，获取输入的待处理人脸图像。

步骤S202，将所述待处理人脸图像作为所述目标人脸检测和对齐网络模型的输入，以输出对齐后的人脸图像。

在该实施例中，通过训练得到的目标人脸检测和对齐网络模型对待处理人脸图像进行处理，这样，可以使得人脸检测和对齐效果可以同时变得更好。

如图3所示，在一个实施例中，优选地上述步骤S102包括：

步骤S301，对所述人脸数据集中的每个人脸图像进行预处理操作，得到处理后的人脸图像，其中，预处理操作包括以下至少一项：随机剪裁操作、色彩增强操作、颜色抖动操作和归一化操作；

步骤S302，将处理后的人脸图像作为预设人脸检测和对齐网络模型的输入进行模型训练。

在该实施例中，对包含人脸的图像进行预处理，例如随机裁剪、色彩增强、颜色抖动、归一化等等，从而将处理后的人脸图像作为预设人脸检测和对齐网络模型的输入进行模型训练。

图4是本发明一个实施例的一种人脸检测和对齐装置的框图。

如图4所示，根据本发明实施例的第二方面，人脸检测和对齐装置，包括：

第一获取模块41，用于获取人脸数据集，其中，所述人脸数据集中包括多个带有图像标签信息的人脸图像，所述图像标签信息包括：标注的第一人脸框分类信息、第一人脸框位置信息和第一人脸关键点坐标信息；

训练模块42，用于将所述人脸数据集作为预设人脸检测和对齐网络模型的输入进行模型训练，以输出网络预测的人脸标签信息，其中，所述人脸标签信息包括人脸图像的第二人脸框位置信息、第二人脸框分类信息和第二人脸关键点坐标信息；

计算模块43，用于根据所述图像标签信息、人脸标签信息计算人脸框位置信息对应的第一损失函数、人脸框分类信息对应的第二损失函数和人脸关键点坐标信息对应的第三损失函数；

第一输出模块44，用于通过所述网络模型的全连接层输出所述第一损失函数对应的第一权重因子、所述第二损失函数对应的第二权重因子和所述第三损失函数对应的第三权重因子；

第一确定模块45，用于根据每个损失函数及其对应的权重因子确定总损失函数；

第二确定模块46，用于根据所述总损失函数反向传播更新各个权重，以确定目标人脸检测和对齐网络模型。

如图5所示，在一个实施例中，优选地，所述装置还包括：

第二获取模块51，用于获取输入的待处理人脸图像；

第二输出模块52，用于将所述待处理人脸图像作为所述目标人脸检测和对齐网络模型的输入，以输出对齐后的人脸图像。

如图6所示，在一个实施例中，优选地，所述训练模块42包括：

处理单元61，用于对所述人脸数据集中的每个人脸图像进行预处理操作，得到处理后的人脸图像，其中，预处理操作包括以下至少一项：随机剪裁操作、色彩增强操作、颜色抖动操作和归一化操作；

训练单元62，用于将处理后的人脸图像作为预设人脸检测和对齐网络模型的输入进行模型训练。

存储器和处理器；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种便捷式多功能设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人脸检测和对齐方法，其特征在于，包括：

根据每个损失函数及其对应的权重因子确定总损失函数；

2.根据权利要求1所述的人脸检测和对齐方法，其特征在于，所述方法还包括：

获取输入的待处理人脸图像；

3.根据权利要求1所述的人脸检测和对齐方法，其特征在于，所述总损失函数loss采用以下公式计算：

4.根据权利要求1所述的人脸检测和对齐方法，其特征在于，将所述人脸数据集作为预设人脸检测和对齐网络模型的输入进行模型训练，包括：

5.根据权利要求1所述的人脸检测和对齐方法，其特征在于，所述预设人脸检测和对齐网络模型以ResNet50为基本骨架，并具有图像特征金字塔结构。

6.一种人脸检测和对齐装置，其特征在于，包括：

7.根据权利要求6所述的人脸检测和对齐装置，其特征在于，所述装置还包括：

第二获取模块，用于获取输入的待处理人脸图像；

8.根据权利要求6所述的人脸检测和对齐装置，其特征在于，所述总损失函数loss采用以下公式计算：

9.根据权利要求6所述的人脸检测和对齐装置，其特征在于，所述训练模块包括：

10.根据权利要求6所述的人脸检测和对齐装置，其特征在于，所述预设人脸检测和对齐网络模型以ResNet50为基本骨架，并具有图像特征金字塔结构。