CN111738080A

CN111738080A - 一种人脸检测和对齐的方法及装置

Info

Publication number: CN111738080A
Application number: CN202010426659.9A
Authority: CN
Inventors: 张晋
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-10-02

Abstract

本发明公开了一种人脸检测和对齐的方法及装置，方法包括：获取第一人脸数据集和第二人脸数据集；使用第一人脸数据集、第二人脸数据集和预设神经网络模型进行网络训练，得到目标人脸检测和对齐模型；其中，在网络训练的前N epoch，将第一人脸数据集中第一人脸图像作为预设神经网络模型的输入，以训练得到初始人脸检测和对齐模型；在得到初始人脸检测和对齐模型后，在进行epoch训练时，交替将第一人脸数据集和第二人脸数据集作为预设神经网络模型的输入，以训练得到目标人脸检测和对齐模型。通过该技术方案，可以充分利用不具有关键点位置标注的图片，提高特定场景下人脸检测和关键点定位的效果。

Description

一种人脸检测和对齐的方法及装置

技术领域

本发明涉及人脸识别技术领域，更具体地，涉及一种人脸检测和对齐的方法及装置。

背景技术

人脸对齐是指将人脸图像对齐至人脸模型，主要应用于脸型分析、人脸变换、人脸识别和颜值分析等。人脸图像的对齐，影响到人脸识别的准确性，成为人脸识别***的重要问题。

目前人脸对齐模型的训练都需要人脸图像带有关键点位置的标注信息，没有关键点标注信息的人脸图片数据无法得到充分利用，以获取的带有口罩的人脸数据为例，该数据没有人脸关键点信息，存在人脸框标注，采用现有技术主要存在以下两个问题：

(1)将口罩人脸数据加入检测和关键点定位的框架(如RetinaFace)训练，缺少关键点标注，无法训练。

(2)如果口罩人脸数据不通过训练阶段，直接使用训练好的模型进行检测，戴口罩检测效果不好。

发明内容

鉴于上述问题，本发明提出了一种人脸检测和对齐的方法和相应的装置，其可以充分利用不具有关键点位置标注的图片，提高特定场景下人脸检测和关键点定位的效果。

根据本发明实施例的第一方面，提供一种人脸检测和对齐的方法，包括：

获取第一人脸数据集和第二人脸数据集，其中，所述第一人脸数据集中包括多个标注有分类信息、人脸框坐标和全部关键点坐标的第一人脸图像，所述第二人脸数据集中包括多个未标注关键点坐标或未标注出全部关键点坐标的第二人脸图像；

使用所述第一人脸数据集、所述第二人脸数据集和预设神经网络模型进行网络训练，得到目标人脸检测和对齐模型；

其中，在网络训练的前N epoch，将所述第一人脸数据集中第一人脸图像作为所述预设神经网络模型的输入，以训练得到初始人脸检测和对齐模型；

在得到所述初始人脸检测和对齐模型后，在进行epoch训练时，交替将所述第一人脸数据集和所述第二人脸数据集作为所述预设神经网络模型的输入，以训练得到所述目标人脸检测和对齐模型。

在一个实施例中，优选地，所述方法还包括：

获取输入的待处理人脸图像；

将所述待处理人脸图像作为所述目标人脸检测和对齐模型的输入，以输出人脸图像对齐结果。

在一个实施例中，优选地，在将所述第一人脸数据集作为所述预设神经网络模型的输入时，

根据所述预设神经网络模型输出的第一人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第一人脸图像中标注的关键点坐标、人脸框坐标和分类信息，计算关键点坐标的损失函数、人脸框坐标的损失函数和分类交叉熵的损失函数；

计算各个损失函数的梯度值，利用随机梯度下降算法更新所述预设神经网络模型的模型参数，直至收敛。

在一个实施例中，优选地，在将所述第二人脸数据集作为所述预设神经网络模型的输入，且输入的第二人脸图像未标注关键点坐标时，根据所述预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第二人脸图像中标注的人脸框坐标和分类信息，计算人脸框坐标的损失函数和分类交叉熵的损失函数；

在将所述第二人脸数据集作为所述预设神经网络模型的输入，且输入的第二人脸图像未标注出全部关键点坐标时，根据所述预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第二人脸图像中标注的人脸框坐标、关键点坐标和分类信息，计算人脸框坐标的损失函数、标注出的关键点坐标的损失函数和分类交叉熵的损失函数；

在一个实施例中，优选地，关键点坐标的损失函数wing(x)计算公式如下：

其中，w＝10，∈＝2，x表示预设神经网络模型输出的关键点坐标和标注的关键点坐标的差值；

人脸框坐标的损失函数计算公式如下：

其中，x表示预设神经网络模型输出的人脸框坐标和标注的人脸框坐标的差值；

分类交叉熵的损失函数计算公式如下：

其中，y_i表示标注的分类信息，y_i-表示预设神经网络模型输出的分类信息。

根据本发明实施例的第二方面，提供一种人脸检测和对齐的装置，包括：

第一获取模块，用于获取第一人脸数据集和第二人脸数据集，其中，所述第一人脸数据集中包括多个标注有分类信息、人脸框坐标和全部关键点坐标的第一人脸图像，所述第二人脸数据集中包括多个未标注关键点坐标或未标注出全部关键点坐标的第二人脸图像；

训练模块，用于使用所述第一人脸数据集、所述第二人脸数据集和预设神经网络模型进行网络训练，得到目标人脸检测和对齐模型；

在一个实施例中，优选地，所述装置还包括：

第二获取模块，用于获取输入的待处理人脸图像；

输出模块，用于将所述待处理人脸图像作为所述目标人脸检测和对齐模型的输入，以输出人脸图像对齐结果。

在一个实施例中，优选地，所述训练模块包括：

第一计算单元，用于在将所述第一人脸数据集作为所述预设神经网络模型的输入时，根据所述预设神经网络模型输出的第一人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第一人脸图像中标注的关键点坐标、人脸框坐标和分类信息，计算关键点坐标的损失函数、人脸框坐标的损失函数和分类交叉熵的损失函数；

第一参数更新单元，用于计算各个损失函数的梯度值，利用随机梯度下降算法更新所述预设神经网络模型的模型参数，直至收敛。

在一个实施例中，优选地，所述训练模块包括：

第二计算单元，用于在将所述第二人脸数据集作为所述预设神经网络模型的输入，且输入的第二人脸图像未标注关键点坐标时，根据所述预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第二人脸图像中标注的人脸框坐标和分类信息，计算人脸框坐标的损失函数和分类交叉熵的损失函数；

第三计算单元，在将所述第二人脸数据集作为所述预设神经网络模型的输入，且输入的第二人脸图像未标注出全部关键点坐标时，根据所述预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第二人脸图像中标注的人脸框坐标、关键点坐标和分类信息，计算人脸框坐标的损失函数、标注出的关键点坐标的损失函数和分类交叉熵的损失函数；

第二参数更新模块，用于计算各个损失函数的梯度值，利用随机梯度下降算法更新所述预设神经网络模型的模型参数，直至收敛。

人脸框坐标的损失函数计算公式如下：

分类交叉熵的损失函数计算公式如下：

根据本发明实施例的第三方面，提供一种人脸检测和对齐的装置，包括：

存储器和处理器；

所述存储器用于保存所述处理器执行计算机程序时所使用的数据；

所述处理器用于执行计算机程序以实现上述第一方面所述的实施例中任意一项所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，所述设备执行如第一方面实施例中任一项所述的方法。

本发明实施例中，在人脸检测和对齐模型的训练样本数据中加入未标注关键点坐标的第二人脸数据集，这样，解决了某些特定场景下人脸数据无法充分使用的问题，同时能够准确输出人脸的关键点坐标进行对齐，提高了人脸检测的召回率和精准率，模型的鲁棒性更强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种人脸检测和对齐的方法流程图。

图2是本发明一个实施例的另一种人脸检测和对齐的方法流程图。

图3是本发明一个实施例的一种人脸检测和对齐的方法中步骤S102的流程图。

图4是本发明一个实施例的另一种人脸检测和对齐的方法中步骤S102的流程图。

图5是本发明一个实施例的一种人脸检测和对齐的装置的框图。

图6是本发明一个实施例的另一种人脸检测和对齐的装置的框图。

图7是本发明一个实施例的一种人脸检测和对齐的装置中训练模块的框图。

图8是本发明一个实施例的另一种人脸检测和对齐的装置中训练模块的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的一种人脸检测和对齐的方法流程图，如图1所示，人脸检测和对齐的方法包括：

步骤S101，获取第一人脸数据集和第二人脸数据集，其中，第一人脸数据集中包括多个标注有分类信息、人脸框坐标和全部关键点坐标的第一人脸图像，第二人脸数据集中包括多个未标注关键点坐标或未标注出全部关键点坐标的第二人脸图像。

步骤S102，使用第一人脸数据集、第二人脸数据集和预设神经网络模型进行网络训练，得到目标人脸检测和对齐模型；预设神经网络模型包括两个数据读取器，分别读取第一人脸数据集和第二人脸数据集。

其中，在网络训练的前N epoch，将第一人脸数据集中第一人脸图像作为预设神经网络模型的输入，以训练得到初始人脸检测和对齐模型；如在网络训练的前100epoch，读取第一人脸数据集，送入预设神经网络模型，获取网络的输出，分别为关键点坐标、人脸框坐标、人脸框分类信息。通过损失函数计算网络输出和原图标注信息的损失，损失函数分别为：关键点定位wing loss损失、人脸框位置smooth l1距离损失和分类交叉熵损失。整个过程利用随机梯度下降算法(SGD)优化，学习率可设置为0.01。

在得到初始人脸检测和对齐模型后，在进行epoch训练时，交替将第一人脸数据集和第二人脸数据集作为预设神经网络模型的输入，以训练得到目标人脸检测和对齐模型。如网络训练100epoch后，交替epoch读取两个不同的数据集，可设置学习率0.001，并在损失函数计算阶段自适应决定关键点坐标分支的损失是否参与整个反向传播过程。如在第101epoch网络训练时，将第一人脸数据集中的人脸数据作为预设神经网络模型的输入，则在第102epoch网络训练时，将第二人脸数据集中的人脸数据作为预设神经网络模型的输入，以此类推，交替epoch读取数据集。

在该实施例中，在人脸检测和对齐模型的训练样本数据中加入未标注关键点坐标的第二人脸数据集，这样，解决了某些特定场景下(如戴口罩等)人脸数据无法充分使用的问题，同时能够准确输出人脸的关键点坐标进行对齐，提高了人脸检测的召回率和精准率，模型的鲁棒性更强。

如图2所示，在一个实施例中，优选地，方法还包括：

步骤S201，获取输入的待处理人脸图像；

步骤S202，将待处理人脸图像作为目标人脸检测和对齐模型的输入，以输出人脸图像对齐结果。

在该实施例中，通过训练得到的目标人脸检测和对齐模型对待处理人脸图像进行处理，可以充分利用不具有关键点位置标注的图片，提高戴口罩等特定场景下人脸检测和关键点定位的效果。

如图3所示，在一个实施例中，优选地，上述步骤S102包括：

步骤S301，在将第一人脸数据集作为预设神经网络模型的输入时，根据预设神经网络模型输出的第一人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及第一人脸图像中标注的关键点坐标、人脸框坐标和分类信息，计算关键点坐标的损失函数、人脸框坐标的损失函数和分类交叉熵的损失函数；

步骤S302，计算各个损失函数的梯度值，利用随机梯度下降算法更新预设神经网络模型的模型参数，直至收敛。

如图4所示，在一个实施例中，优选地，上述步骤S102包括：

步骤S401，在将第二人脸数据集作为预设神经网络模型的输入，且输入的第二人脸图像未标注关键点坐标时，根据预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及第二人脸图像中标注的人脸框坐标和分类信息，计算人脸框坐标的损失函数和分类交叉熵的损失函数；

步骤S402，在将第二人脸数据集作为预设神经网络模型的输入，且输入的第二人脸图像未标注出全部关键点坐标时，根据预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及第二人脸图像中标注的人脸框坐标、关键点坐标和分类信息，计算人脸框坐标的损失函数、标注出的关键点坐标的损失函数和分类交叉熵的损失函数。其中，例如，第二人脸图像中只含有两眼关键点，则在计算损失函数时，可以只计算两眼位置的坐标损失和人脸框坐标损失和分类交叉熵损失。

步骤S403，计算各个损失函数的梯度值，利用随机梯度下降算法更新预设神经网络模型的模型参数，直至收敛。

人脸框坐标的损失函数计算公式如下：

分类交叉熵的损失函数计算公式如下：

如图5所示，根据本发明实施例的第二方面，人脸检测和对齐的装置，包括：

第一获取模块51，用于获取第一人脸数据集和第二人脸数据集，其中，所述第一人脸数据集中包括多个标注有分类信息、人脸框坐标和全部关键点坐标的第一人脸图像，所述第二人脸数据集中包括多个未标注关键点坐标或未标注出全部关键点坐标的第二人脸图像；

训练模块52，用于使用所述第一人脸数据集、所述第二人脸数据集和预设神经网络模型进行网络训练，得到目标人脸检测和对齐模型；

如图6所示，在一个实施例中，优选地，所述装置还包括：

第二获取模块61，用于获取输入的待处理人脸图像；

输出模块62，用于将所述待处理人脸图像作为所述目标人脸检测和对齐模型的输入，以输出人脸图像对齐结果。

如图7所示，在一个实施例中，优选地，所述训练模块52包括：

第一计算单元71，用于在将所述第一人脸数据集作为所述预设神经网络模型的输入时，根据所述预设神经网络模型输出的第一人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第一人脸图像中标注的关键点坐标、人脸框坐标和分类信息，计算关键点坐标的损失函数、人脸框坐标的损失函数和分类交叉熵的损失函数；

第一参数更新单元72，用于计算各个损失函数的梯度值，利用随机梯度下降算法更新所述预设神经网络模型的模型参数，直至收敛。

如图8所示，在一个实施例中，优选地，所述训练模块52包括：

第二计算单元81，用于在将所述第二人脸数据集作为所述预设神经网络模型的输入，且输入的第二人脸图像未标注关键点坐标时，根据所述预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第二人脸图像中标注的人脸框坐标和分类信息，计算人脸框坐标的损失函数和分类交叉熵的损失函数；

第三计算单元82，在将所述第二人脸数据集作为所述预设神经网络模型的输入，且输入的第二人脸图像未标注出全部关键点坐标时，根据所述预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第二人脸图像中标注的人脸框坐标、关键点坐标和分类信息，计算人脸框坐标的损失函数、标注出的关键点坐标的损失函数和分类交叉熵的损失函数；

第二参数更新模块83，用于计算各个损失函数的梯度值，利用随机梯度下降算法更新所述预设神经网络模型的模型参数，直至收敛。

人脸框坐标的损失函数计算公式如下：

分类交叉熵的损失函数计算公式如下：

存储器和处理器；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种便捷式多功能设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人脸检测和对齐的方法，其特征在于，包括：

2.根据权利要求1所述的人脸检测和对齐的方法，其特征在于，所述方法还包括：

获取输入的待处理人脸图像；

3.根据权利要求1所述的人脸检测和对齐的方法，其特征在于，在将所述第一人脸数据集作为所述预设神经网络模型的输入时，

4.根据权利要求1所述的人脸检测和对齐的方法，其特征在于，

在将所述第二人脸数据集作为所述预设神经网络模型的输入，且输入的第二人脸图像未标注关键点坐标时，根据所述预设神经网络模型输出的第二人脸图像的关键点坐标、人脸框坐标和人脸框分类信息以及所述第二人脸图像中标注的人脸框坐标和分类信息，计算人脸框坐标的损失函数和分类交叉熵的损失函数；

5.根据权利要求3或4所述的人脸检测和对齐的方法，其特征在于，关键点坐标的损失函数wing(x)计算公式如下：

人脸框坐标的损失函数计算公式如下：

分类交叉熵的损失函数计算公式如下：

6.一种人脸检测和对齐的装置，其特征在于，包括：

7.根据权利要求6所述的人脸检测和对齐的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取输入的待处理人脸图像；

8.根据权利要求6所述的人脸检测和对齐的装置，其特征在于，所述训练模块包括：

9.根据权利要求6所述的人脸检测和对齐的装置，其特征在于，所述训练模块包括：

10.根据权利要求8或9所述的人脸检测和对齐的装置，其特征在于，关键点坐标的损失函数wing(x)计算公式如下：

人脸框坐标的损失函数计算公式如下：

分类交叉熵的损失函数计算公式如下：