CN108985181B

CN108985181B - 一种基于检测分割的端对端人脸标注方法

Info

Publication number: CN108985181B
Application number: CN201810654160.6A
Authority: CN
Inventors: 温世平; 董明辉; 黄廷文
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2020-07-24
Anticipated expiration: 2038-06-22
Also published as: CN108985181A

Abstract

本发明公开了一种基于检测分割的端对端人脸标注方法，包括：标注人脸图像训练集中每张人脸图像需要检测的区域；构建端对端的人脸分割标注神经网络模型，所述神经网络模型包括由共享特征模块、人脸成分检测模块、ROI特征提取模块、三个子网络模块、三分类网络模块组成；基于人脸图像训练集，训练端对端的人脸分割标注神经网络模型，各个模块同步训练；利用训练好的人脸分割标注神经网络模型对测试人脸图像进行分割标注。本发明采用逐级反卷积上采样和高低特征融合获得不同尺度的共享特征，捕捉更多细节信息；通过为分布面积较少的语义类别设计子网络，提高了分割精度；通过统一训练提升整个模型的表达能力。

Description

一种基于检测分割的端对端人脸标注方法

技术领域

本发明属于人工智能图像信息处理领域，更具体地，涉及一种基于检测分割的端对端人脸标注方法。

背景技术

人脸标注是指对包含人脸的图像进行区域分割，根据需求的不同，将图像分割为3类(头发、背景、面部)或者更多类(对面部继续分割)。人脸标注作为前端处理，已被应用于人脸识别、虚拟美妆、人脸交换等应用中。在这些应用中，人脸标注的精度对相关任务的效果起着非常关键的作用。

随着深度学习技术发展和大数据计算能力的提升，研究人员将深度学习应用到人脸标注，使精度得到了大幅度的提升。基于深度学习的人脸标注方法主要分为基于滑窗的方法和基于全卷积神经网络的方法，由于基于滑窗的方法过程复杂并且相比于全卷积神经网络的方法精度没有优势，现有技术中大都是基于全卷积神经网络的深度学习的人脸标注方法。

专利CN105354565A公开了一种基于全卷积网络人脸五官定位与判别的方法，通过收集人脸图像并手工标注五官形成训练集，使用训练集训练全卷积神经网络，将待测人脸图像输入至训练好的全卷积神经网络，输出像素级别的人脸分割结果及五官定位与标注。虽然其公开了基于全卷积神经网络的人脸五官标注方法，但是并未考虑样本中分布面积较少的语义类别，存在眼睛、嘴巴、鼻子等区域标注不精确的问题。

专利CN107729819A公开了一种基于稀疏全卷积神经网络的人脸标注方法，通过收集人脸图像并手工标注头发、皮肤、背景形成训练集，使用全卷积神经网络语义分割方法和group lasso稀疏方法构成模型，使用训练集对模型训练，然后将待测人脸图像输入至训练好的模型，完成对人脸图像中头发、皮肤和背景的像素级标注。虽然其公开了基于全卷积神经网络的人脸标注算法，但是并未考虑面部五官的分割，存在应用场景不够广泛的问题。

发明内容

针对现有技术的缺陷，本发明的目的在于解决基于人工设计特征的人脸分割方法存在的精度低和鲁棒性差的问题，同时解决传统的基于全卷积神经网络的人脸分割方法存在的输出同质化问题，并且所设计的方法可以很好的处理在人脸分割任务中存在的类别分布不平衡的问题。

为实现上述目的，本发明实施例提供了一种基于检测分割的端对端人脸标注方法，包括以下步骤：

S1.标注人脸图像训练集中每张人脸图像需要检测的区域；

S2.构建一个端对端的人脸分割标注神经网络模型，所述神经网络模型由共享特征模块、人脸成分检测模块、ROI特征提取模块、三个子网络模块、三分类网络模块组成，其中，所述共享特征模块的输入为人脸图像，输出为共享特征图；所述人脸成分检测模块的输入为共享特征图，输出为各需要检测的区域的位置框信息；所述ROI特征提取模块的输入为共享特征图和各位置框信息，输出为各ROI子特征图；所述子网络模块的输入为ROI子特征图，输出为每个子区域的分割结果；所述三分类网络模块的输入为共享特征图，输出为头发、皮肤和背景的分割结果；

S3.基于人脸图像训练集，训练端对端的人脸分割标注神经网络模型，各个模块同步训练；

S4.利用训练好的人脸分割标注神经网络模型对测试人脸图像进行分割标注，三分类网络的分割结果和各子网络的分割结果融合即为分割标注结果。

具体地，步骤S1中所述需要检测的区域包括：左眉毛、右眉毛、左眼睛、右眼睛、鼻子、上嘴唇、口中、下嘴唇、皮肤、头发、背景。

具体地，步骤S2中所述共享特征模块采用编码-解码结构，编码结构通过全卷积神经网络将人脸图像转化为特征图C1-CN；解码结构将特征图C1-CN逐级反卷积上采样和高低特征融合得到共享特征图P1-PN。

具体地，步骤S2中所述人脸成分检测模块输出不同的成分的位置框信息。

具体地，步骤S2中所述ROI特征提取模块在得到ROI位置框信息后，从共享特征图P1-PN中分别截取ROI特征，统一变换为相同的尺寸、特征串接融合、统一变换为相同的通道维数后，得到各ROI子特征图。

具体地，所述三个子网络模块包括眼睛加眉毛子网络模块、鼻子子网络模块、嘴巴子网络模块三类，其负责对相应特征进行进一步处理，并解码输出子区域的分割结果，其中，鼻子区域子网络将子区域分割为鼻子和背景2个语义类别，嘴巴区域子网络将嘴巴区域分割为上嘴唇、口中、下嘴唇和背景4个语义类别，眼睛加眉毛子网络将眼睛加眉毛区域分割为眼睛、眉毛和背景3个语义类别。

具体地，所述三分类网络模块通过反卷积层和卷积层，将特征维度升至输入图像维度，输出皮肤区域、头发区域和背景区域的分割结果。

具体地，训练过程的优化损失函数定义如下：

L_all＝L_seg+L_det+L_reg

其中，L_all为总体优化损失函数，L_reg为正则化损失函数，用于缓解模型过拟合问题，L_det为人脸成分检测模块损失函数，包含分类损失和位置回归损失，L_seg为分割损失函数，其定义如下：

其中，

为三分类分割损失函数，

为三类子网络分割损失函数，4个分割损失函数均采用交叉熵损失函数。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明采用逐级反卷积上采样和高低特征融合的方式获得共享特征，相比传统全卷积神经网络模型，可以捕捉更多的细节轮廓信息，缓解同质化问题。同时，由于采用了不同尺度的特征图信息，网络模型可以从数据中学习到更多不同尺度的信息。

(2)本发明采用了子网络结构设计，为在样本中分布面积较少的语义类别单独设计一个子网络结构，避免在训练和测试过程中丢失该类别的信息。通过此项设计，大大缓解了由于样本类别分布不平衡降低分割精度的问题。

(3)本发明的所有模块可以进行端对端的统一训练，无需分阶段或者分模块训练，在统一训练过程中，各个模块之间可以共享特征信息，提升整个模型的表达能力。

附图说明

图1为本发明提供的一种基于检测分割的端对端人脸标注方法流程图。

图2为本发明提供的ROI特征提取模块工作原理示意图。

图3为本发明提供的嘴巴区域子网络流程示意图。

图4为本发明提供一种基于检测分割的端对端人脸标注方法分割结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为本发明提供的一种基于检测分割的端对端人脸标注方法流程图。如图1所示，该方法包括以下步骤：

S1.标注人脸图像训练集中每张人脸图像需要检测的区域；

S2.构建一个端对端的人脸分割标注神经网络模型，所述神经网络模型由共享特征模块、人脸成分检测模块、ROI特征提取模块、三个子网络模块、三分类网络模块组成；

S4.利用训练好的人脸分割标注神经网络模型对测试人脸图像进行分割标注。

步骤S1中所述需要检测的区域包括：左眉毛、右眉毛、左眼睛、右眼睛、鼻子、上嘴唇、口中、下嘴唇、皮肤、头发、背景。

步骤S2中所述共享特征模块的输入为人脸图像，输出为共享特征图；所述人脸成分检测模块的输入为共享特征图，输出为左眼睛加左眉毛区域、右眼睛加右眉毛区域、鼻子区域、嘴巴区域和面部区域的位置框信息；所述ROI特征提取模块的输入为共享特征图和各位置框信息，输出为各ROI子特征图；所述子网络模块的输入为ROI子特征图，输出为每个子区域的分割结果；所述三分类网络模块的输入为共享特征图，输出为头发、皮肤和背景的分割结果。

步骤S2中所述共享特征模块采用编码-解码结构，编码结构通过全卷积神经网络将人脸图像转化为特征图C1-CN；解码结构将特征图C1-CN逐级反卷积上采样和高低特征融合得到共享特征图P1-PN。

特征图C1-CN逐级反卷积上采样和高低特征融合的过程如下：首先将特征图C1-CN统一为相同的通道维数K，统一通道维数后的特征图CN即为共享特征图PN，再特征图Ci反向卷积后与相邻特征图C(i-1)相加后统一为通道维数K得到共享特征图P(i-1)，i＝N,...,2，最终得到共享特征图P1-PN。

具体地，编码结构采用Res50网络模块，Res50模块为Kaiming He等人提出的一种具有残差连接结构的卷积神经网络模型，具有较强的特征表达能力和信息传递能力。将Res50中5个卷积块的最后一层卷积层分别记为特征图C1-C5；解码结构首先将对这5个卷积层分别使用1×1大小的卷积核，将通道维数统一降到256，然后从C5开始，逐级使用步长为2的反卷积操作将特征图尺度大小提升2倍，然后与对应的下一级特征图相加，例如，C5提升2倍通道维数后与C4相加，相加后的特征图再次施以3×3的卷积核，通道维数为256，获得最终的共享特征图P1-P5。

步骤S2中所述人脸成分检测模块采用Faster RCNN结构作为检测器，该检测器输出不同的成分的位置框信息，位置框使用5个标明目标所在的矩形区域，格式为矩形区域的左上角x,y和矩形的高和宽。面部区域的不进行特征提取，检测面部区域的目的是使检测器在检测人脸成分的时候有一定的侧重区域，提升了学习模型在人脸成分检测的精度。其他四类区域的位置框信息被用于相应特征的提取。

步骤S2中所述ROI特征提取模块在得到ROI位置框信息后，从共享特征图P1-PN中分别截取ROI特征，统一变换为相同的尺寸、特征串接融合、统一变换为相同的通道维数后，得到各ROI子特征图。

具体地，高层特征一般包含更多的语义信息，低层特征一般包含更多的细节信息，在人脸分割任务中，这两类信息都十分重要。图2为本发明提供的ROI特征提取模块工作原理示意图。如图2所示，为了综合不同层级的特征，本发明在获得某个ROI的位置框信息后，分别从P1-P4四个层级的共享特征图上截取ROI特征。为了便于训练，不同大小的ROI特征被统一变换到相同的尺寸14×14。在获得四组通道为256的子特征图后，将四组子特征图按照P1-P4的顺序串接在一起，然后使用1×1的卷积核将通道维数降维256，获得最终所提取的子特征，该部分即为ROI特征提取模块。所提取的子特征将被输入不同的子网络中去，单独进行处理。

所述子网络模块包括眼睛加眉毛子网络模块、鼻子子网络模块、嘴巴子网络模块三类，其中，眼睛加眉毛子网络模块的输入为左眼睛加左眉毛特征图和右眼睛加右眉毛特征图，输出为左眼睛加左眉毛区域和右眼睛加右眉毛区域；鼻子子网络模块的输入为鼻子特征图，输出为鼻子区域；嘴巴子网络模块的输入为嘴巴子特征图，输出为嘴巴区域。

子网络负责对相应特征进行进一步处理，并且解码输出子区域的分割结果。其中鼻子区域子网络将子区域分割为鼻子和背景2个语义类别，嘴巴区域子网络将嘴巴区域分割为上嘴唇、口中、下嘴唇和背景4个语义类别，眼睛加眉毛子网络将眼睛加眉毛区域分割为眼睛、眉毛和背景3个语义类别。子网络将ROI特征图重新转化为原始ROI尺寸，并且将输出结果放置在对应的位置上，如图3所示。

图3为本发明所提方法中嘴巴区域子网络流程示意图，鼻子区域和眼睛加眉毛区域具有相同的处理流程，三个子网络并行运行，三个子网络均为全卷积神经网络网络模型，具体地，子网络将ROI子特征图4倍升维，输出56×56的结果。

由于皮肤、头发和背景的类别不平衡现象不严重，因此没有必要设计单独的子网络结构。三分类网络模块通过反卷积层和卷积层，将特征维度升至输入图像维度，然后输出皮肤区域、头发区域和背景区域的分割结果。解码器后端部分组成三分类网络模块。

具体地，在C1特征图与C2升维特征图相加之后，卷积层1(256通道、3×3卷积核)、反卷积层1(128通道、步长为2)、卷积层2(128通道、3×3卷积核)和卷积层3(3通道、3×3卷积核)依次叠加，输出头发、皮肤和背景三种类别的分割结果，该部分为三分类网络模型模块。

训练过程中，人脸成分检测模块为每个子网络提供20个相应类别的ROI位置框提议，20个提议位置框所提取的特征经过对应的子网络获得输出结果，然后与对应位置的真值计算交叉熵损失，所有提议的交叉熵损失将组合用于优化网络参数，该真值来自于人工分割人脸分割数据库。

训练过程的优化损失函数定义如下：

L_all＝L_seg+L_det+L_reg

其中，L_all为总体优化损失函数，L_reg为正则化损失函数，用于缓解模型过拟合问题，L_det为人脸成分检测模块损失函数，该部分损失函数定义取自Faster RCNN模型原始定义，包含分类损失和位置回归损失，L_seg为分割损失函数，其定义如下：

其中，

为三分类分割损失函数，

步骤4：使用步骤3中训练好的算法模型对待处理的人脸图像进行分割标注。

三分类网络的分割结果和各个子网络的分割结果融合就获得人脸11分类分割标注结果。在分别获得嘴巴区域、鼻子区域、眼睛加眉毛区域的分割结果后(左眼、右眼、左眉毛、右眉毛、鼻子、上嘴唇、口中、下嘴唇)，与三分类网络输出结果(皮肤、头发、背景)相组合，获得最终11个类别(左眼、右眼、左眉毛、右眉毛、鼻子、上嘴唇、口中、下嘴唇、皮肤、头发、背景)分割结果。

图4为本发明提供一种基于检测分割的端对端人脸标注方法分割结果示意图。如图4所示，第一行为输入图像，第二行为分割结果，第三行为对应的真值。所展示样本在头部姿势、发型、肤色、遮挡、表情等方面均具有较大的变化，所提方法模型仍然可以获得较好的分割结果。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于检测分割的端对端人脸标注方法，其特征在于，包括以下步骤：

S1.标注人脸图像训练集中每张人脸图像需要检测的区域；

S2.构建一个端对端的人脸分割标注神经网络模型，所述神经网络模型由共享特征模块、人脸成分检测模块、ROI特征提取模块、三个子网络模块、三分类网络模块组成，其中，

所述共享特征模块的输入为人脸图像，输出为共享特征图；

所述人脸成分检测模块的输入为共享特征图，输出为各需要检测的区域的位置框信息；

所述ROI特征提取模块的输入为共享特征图和各位置框信息，输出为各ROI子特征图；

所述子网络模块的输入为ROI子特征图，输出为每个子区域的分割结果，三个子网络模块包括眼睛加眉毛子网络模块、鼻子子网络模块、嘴巴子网络模块三类，其中，眼睛加眉毛子网络模块的输入为左眼睛加左眉毛特征图和右眼睛加右眉毛特征图，输出为左眼睛加左眉毛区域和右眼睛加右眉毛区域；鼻子子网络模块的输入为鼻子特征图，输出为鼻子区域；嘴巴子网络模块的输入为嘴巴子特征图，输出为嘴巴区域；

所述三分类网络模块的输入为共享特征图，输出为头发、皮肤和背景的分割结果；

2.如权利要求1所述的人脸标注方法，其特征在于，步骤S1中所述需要检测的区域包括：左眉毛、右眉毛、左眼睛、右眼睛、鼻子、上嘴唇、口中、下嘴唇、皮肤、头发、背景。

3.如权利要求1或2所述的人脸标注方法，其特征在于，步骤S2中所述共享特征模块采用编码-解码结构，编码结构通过全卷积神经网络将人脸图像转化为特征图C1-CN；解码结构将特征图C1-CN逐级反卷积上采样和高低特征融合得到共享特征图P1-PN。

4.如权利要求1或2所述的人脸标注方法，其特征在于，步骤S2中所述人脸成分检测模块输出不同的成分的位置框信息。

5.如权利要求4所述的人脸标注方法，其特征在于，步骤S2中所述ROI特征提取模块在得到ROI位置框信息后，从共享特征图P1-PN中分别截取ROI特征，统一变换为相同的尺寸、特征串接融合、统一变换为相同的通道维数后，得到各ROI子特征图。

6.如权利要求1或2所述的人脸标注方法，其特征在于，所述三个子网络模块负责对相应特征进行进一步处理，并解码输出子区域的分割结果，其中，鼻子区域子网络将子区域分割为鼻子和背景2个语义类别，嘴巴区域子网络将嘴巴区域分割为上嘴唇、口中、下嘴唇和背景4个语义类别，眼睛加眉毛子网络将眼睛加眉毛区域分割为眼睛、眉毛和背景3个语义类别。

7.如权利要求1或2所述的人脸标注方法，其特征在于，所述三分类网络模块通过反卷积层和卷积层，将特征维度升至输入图像维度，输出皮肤区域、头发区域和背景区域的分割结果。

8.如权利要求1或2所述的人脸标注方法，其特征在于，训练过程的优化损失函数定义如下：

L_all＝L_seg+L_det+L_reg

其中，

为三分类分割损失函数，