CN109508654B

CN109508654B - 融合多任务和多尺度卷积神经网络的人脸分析方法及***

Info

Publication number: CN109508654B
Application number: CN201811260674.XA
Authority: CN
Inventors: 刘袁缘; 周顺平; 张香兰; 方芳; 郭明强; 姚尧; 彭济耀
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2021-01-05
Anticipated expiration: 2038-10-26
Also published as: CN109508654A

Abstract

本发明公开了一种融合多任务联合多尺度卷积神经网络的人脸分析方法及***，先对一张尺寸大小为N×N的待学习的图片，采用关键区域搜索算法从所述图片中提取出K个不同尺度的人脸感兴趣区域，将其作为多尺度CNN三个通道的输入；然后采用CNN分别对K个所述人脸感兴趣区域进行特征提取，得到不同尺度的人脸特征，采用级联的方式将提取到的不同尺度的人脸特征进行融合，得到融合后的特征表达；再将多个任务的损失函数进行融合得到联合损失函数，以所述特征表达作为学习输入，得到关于所述联合损失函数的最优解，从而得到所述多个任务的处理结果。本发明利用任务间的相关性互相促进来，提高了单个任务的预测准确率。

Description

融合多任务和多尺度卷积神经网络的人脸分析方法及***

技术领域

本发明涉及人脸属性领域，更具体地说，涉及一种融合多任务和多尺度卷积神经网络的人脸分析方法及***。

背景技术

近年来，随着互联网的发展以及人工智能相关技术在实际应用中取得了一定成果，人工智能领域吸引了越来越多的科研工作者的关注，人工智能技术的应用范围也越来越广。在计算机视觉领域，人脸检测与分析一直是研究的热门方向。虽然最近基于深度卷积神经网络(Convolutional Neural network，CNN)的研究取得了显著的成果，并被广泛地应用于人脸识别、人脸跟踪、人脸检测等领域，但对于人脸检测任务，仍然难以从包含极端姿态、光照和分辨率变化的人脸图像中获取面部关键点、头部姿态、性别和表情信息。人脸检测、关键点定位、姿态估计、性别分类和表情识别的任务通常被作为单独的问题解决。近来，研究表明同时学习多个相关的任务可以提高单个任务的性能。

发明内容

本发明要解决的技术问题在于，对人脸相关的属性进行多任务(Multi-TaskLearning，MTL)学习，更深入地挖掘属性之间的相关性，并通过多个通道的多任务卷积神经网络学习同一张图片多种分辨率的情况以此来丰富人脸属性特征的提取，从而将部分属性的识别精度提升。

本发明解决其技术问题所采用的技术方案是：构造一种融合多任务联合多尺度卷积神经网络的人脸分析方法，包含如下步骤：

(1)多尺度人脸注意力区域提取步骤：

对一张尺寸大小为N×N的待学习的图片，采用关键区域搜索算法从所述图片中提取出K个不同尺度的人脸感兴趣区域，将其作为多尺度CNN三个通道的输入；其中，N表示像素大小，K≥2且为整数；

(2)融合多尺度学习步骤，包括特征提取子步骤和特征融合子步骤；

特征提取子步骤：采用CNN分别对K个所述人脸感兴趣区域进行特征提取，得到不同尺度的人脸特征；

特征融合子步骤：采用级联的方式将特征提取子步骤提取到的不同尺度的人脸特征进行融合，得到融合后的特征表达；

(3)多任务人脸分析步骤：

将多个任务的损失函数进行融合得到联合损失函数，以步骤(3)得到的所述特征表达作为学习输入，得到关于所述联合损失函数的最优解，从而得到所述多个任务的处理结果。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，在步骤(1)中，在提取人脸感兴趣区域时，采用“注意力”机制来帮助定位3个尺度的人脸感兴趣区域。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，在步骤(2)的特征提取子步骤中具体包括：构建K个通道的特征通道，每个特征通道分别对一个尺度的人脸感兴趣区域独立进行特征提取，共提取出K个不同尺度的人脸特征。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，在步骤(3)中，所述多个任务并行训练并共享相关任务之间的特征表达。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，其特征在于，K＝3。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，步骤(3)中，所述将多个任务的损失函数进行融合得到联合损失函数具体是指：将所述多个任务的损失函数进行加权。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，所述多个任务是指：人脸检测、姿态估计、关键点定位、性别识别和表情识别五个任务。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，

(a)人脸检测任务用于检测并定位图片中的人脸，返回人脸框坐标，损失函数为：

loss_D＝-(1-l)·log(l-p_D)-l·log(p_D)，

其中l＝1时，为人脸；l＝0，为非人脸；p_D为人脸关键区域是人脸的概率；

(b)性别识别任务用于识别人脸图片的性别，损失函数为：

loss_G＝-(1-g)·log(1-p_g0)-g·log(p_g1)，

其中，男性g＝0，女性g＝1，(p_g0，p_g1)人脸图片为男女的概率；

(c)人脸关键点定位任务用于人脸对齐的脸部特征点定位，是在人脸检测的基础上进行的，对人脸上的特征点定位；用(x,y,w,h)来描述人脸关键区域，其中，(x,y)是人脸区域中心点的坐标，(w,h)分别是该区域的宽度和高度，每个可见的关键点是相对于区域中心点(x,y)移位，并按照(w,h)归一化的公式如下：

其中，N_L是人脸关键点个数，(a_i,b_i)为训练时的标签，(x_i,y_i)是真实值，人脸关键点定位的损失函数为：

是第i个人脸关键点的预测结果，v_i为第i个人脸关键点的可见因子，关键点可见，v_i＝1，否则v_i＝0；

可见因子用于表征人脸关键点是否可见，是辅助关键点定位的，损失函数为：

(d)头部姿态估计任务用于对人脸图片头部在roll(p¹)，pitch(p₂)和yaw(p₃)三个方向上的预测，损失函数为：

其中，

是所述三个方向上头部姿态的角度的估计结果，(p₁,p₂,p₃)是所述三个方向上头部姿态的角度的训练标签；

(e)表情识别任务用于从给定的静态图像或动态视频序列中分离出特定的表情状态，从而确定被识别对象的心理情绪，损失函数为：

其中，M为表情的种类个数，M大于或者等于2，

表示表情的类别的训练标签，(p_e1，p_e2,...，p_eM)表示表情的类别的估计结果。

联合损失函数为：loss_full＝λ_Dloss_D+λ_Lloss_L+λ_Vloss_V+λ_Ploss_P+λ_Gloss_G+λ_Eloss_E；其中式中λ表示权重，λ大于0。

进一步地，在本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法中，(e)中，

其中表情的种类共有6种，分别代表6种基本表情：生气、厌恶、害怕、快乐、悲伤、惊讶。

本发明为解决其技术问题，还提供了一种在本发明的融合多任务联合多尺度卷积神经网络的人脸分析***，该***使用上述任一项的融合多任务联合多尺度卷积神经网络的人脸分析方法进行人脸分析。

实施本发明的融合多任务联合多尺度卷积神经网络的人脸分析方法及***，具有以下有益效果：本发明采用端对端训练方式，同时用于多个任务，多个任务并行训练并共享相关任务之间的表征促使多个任务共同学习，利用任务间的相关性互相促进来，提高了单个任务的预测准确率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为融合多任务联合多尺度卷积神经网络的人脸分析方法任务定义图；

图2为研究结果示例图；

图3为融合多任务联合多尺度卷积神经网络的人脸分析方法网络结构图；

图4为迭代区域搜素的示例图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1-图3，本实施例的融合多任务联合多尺度卷积神经网络的人脸分析方法具体包含如下步骤。

(1)多尺度人脸注意力区域提取步骤：

对一张尺寸大小为N×N的待检测的图片，采用注意力检测网络提取三个尺度的人脸感兴趣区域，尺寸大小分别为227×227，147×147，59×59，将其作为多尺度CNN三个通道的输入；其中，N表示像素大小

(2)融合多尺度学习步骤，构建三个通道的融合多任务Triple网络学习模型，包括特征提取子步骤和特征融合子步骤；

特征提取子步骤：分别将上述步骤(1)提取到的三个尺度的人脸关键区域做为输入，它们分别对应表1的三个子网络：

表1网络详细参数表

子网络一的输入尺度为227×227，使用了8个卷积层、3个池化层，1个全连接层。由于CNN提取的特征信息是分层分布的，低卷积层包含较多的边角信息，适合学习人脸关键点定位和头部姿态评估任务，而高卷积层则适合学习人脸检测、性别分类和表情识别等，因而本专利在通过多尺度特征融合来促进关键点定位和头部状态评估的性能。本发明融合了池化层pool1层(27×27×96)、卷积层conv3层(13×13×384)、池化层pool5层(6×6×256)。进一步地，由于他们维度不一致，不能直接连接，所以对pool1层和conv3层做了卷积conv1a和卷积conv3a，然后对结果降维得到6×6×192维的向量，最后经过全连接层Fc6得到2048维的输出向量。

子网络二的输入尺度147×147，使用了4个卷积层、3个池化层和2个全连接层，经过全连接层Fc61得到512维输出向量。

子网络三的输入尺度为59×59，使用了2个卷积层、2个池化层和2个全连接层，经过全连接层Fc42得到512维输出向量。

特征融合子步骤：采用级联的方式将特征提取子步骤提取到的不同尺度的人脸特征进行融合，得到融合后的特征表达。将三个子网络层融合得到3072维输出向量。最后将得到3072维向量根据任务分为6个独立的分支：分别是人脸检测、关键点定位、可见性检测、表情识别、姿态估计、性别识别。其中可见性检测是辅助面部关键点定位的。他们分别对应Fc_detection、Fc_landmarks、Fc_visibility、Fc_pose、Fc_gender、Fc_expression六个全连接层，每个分支再分别进行一次全连接得到每个任务的识别结果，网络参数表详见表1。

(3)多任务人脸分析步骤：

多任务学习给出多个监督信息(标签)，利用任务之间的相关性互相促进，而多任务的一个特点是单个张量输入(X)，多个输出(任务_1,任务_2...)，在本发明中如人脸检测、表情识别等，因此需要有多个损失函数用于分别计算每个任务的损失。本发明同时识别五个任务，而为了辅助关键点定位任务，提出了关键点可见性，因此有六个损失函数：

(1)人脸检测即检测并定位图片中的人脸，返回高精度的人脸框坐标，当预测的人脸框与真实人脸范围的交集比上预测的人脸框与真实人脸范围的并集(IOU)大于0.5时为正例(l＝1)，小于0.35的作为负例(l＝0)，其损失函数如下：

loss_D＝-(1-l)·log(l-p_D)-l·log(p_D)

其中p_D为该人脸关键区域是人脸的概率，从上述Fc_detection获取得到。

(2)性别识别即识别图片上人脸的性别，IOU大于0.5的作为正例，其损失函数如下：

loss_G＝-(1-g)·log(1-p_g0)-g·log(p_g1)

其中男性g＝0，女性则g＝1，(p_g0，p_g1)是人脸图片为男女的概率；

(3)人脸关键点定位，即用于人脸对齐的脸部特征点定位，是在人脸检测的基础上进行的，对人脸上的特征点例如嘴角、眼角等进行定位，当IOU大于0.35的作为正例被采用，所有关键点坐标被归一化，采用相对值，映射函数如下：

(x_i，y_i)为关键点坐标，(x,y)为人脸中心的坐标，w,h为人脸宽和高，对于不可见的关键点，设置为(0,0)。使用欧式距离计算损失函数，如下：

为预测的归一化后的相对坐标值，N是关键点数量，AFLW数据集包含21个关键点信息，即N＝21，v_i为1时表示该关键点在此区域可见，否则为0，也就是说，对于那些不可见点，不参与运算。

(4)头部姿态估计是对人脸图片头部在pitch、yaw和roll三个方向上的预测，使用欧氏距离损失函数训练roll(p1),pitch(p2),yaw(p3)，IOU大于0.5的为正例，损失函数公式如下：

其中

为所述三个方向上头部姿态的角度的预测值，(p₁,p₂,p₃)是所述三个方向上头部姿态的角度的训练标签。

(5)表情识别是指从给定的静态图像或动态视频序列中分离出特定的表情状态,从而确定被识别对象的心理情绪，同样地，当IOU大于0.5的作为正例，损失函数公式如下：

其中p_ej为表情的类别的预测值，

为表情的类别的训练标签，j为0、1、2、3、5，分别代表6种基本表情：生气、厌恶、害怕、快乐、悲伤、惊讶等。

进一步地，联合损失函数是五个任务损失函数的加权求和，公式为：

loss_full＝λ_Dloss_D+λ_Lloss_L+λ_Vloss_V+λ_Ploss_P+λ_Gloss_G+λ_Eloss_E

其中λ是根据每个任务在总任务的重要程度所决定，λ大于0。本专利的权重设置为：

λ_D＝1,λ_L＝5,λ_E＝2,λ_P＝5,λ_G＝2

(4)后处理过程

本发明的人脸检测算法面临两个挑战：第一，网络不一定能捕捉到较小的人脸；第二，预测得到的人脸框不能准确定位人脸区域。因为本发明将置信度评分大于0.5的候选区视为包含人脸，小于0.35的视为非人脸，所以这两个挑战将导致人脸检测率的降低，同时影响其他任务的识别结果。因此，本发明通过后处理过程来提升人脸定位的准确性。

本发明摒弃了传统的边界框回归算法，而是提出了适用于本任务的迭代区域搜索和基于关键点的非极大值抑制算法。迭代区域搜索通过使用预测的面部特征点信息产生更多的人脸候选区来提高召回率。基于关键点的非极大值抑制则通过使用已预测的面部标记点信息重新调整检测的边界框来提升定位的准确性，再使用非极大值抑制算法出去冗余边框。这两种方法并不需要任何训练过程。

(1)迭代区域搜索：当关键点正确人脸检测得分低时，根据已预测的面部特征点信息使用FaceRectCalculator来产生新的候选区，并且将其在模型中进行前向传播。这个新产生的候选区会在人脸检测这项任务上得到更高的分数，从而提高召回率，其实现过程如图4。

(2)基于关键点的非极大值抑制：跟其他非极大值抑制算法的不同。基于关键点的非极大值抑制算法不以人脸框坐标作为参数，而是以关键点中的最小四个角坐标作为参数，这样可以紧凑人脸，避免相邻脸被合并或漏检等情况。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种融合多任务联合多尺度卷积神经网络的人脸分析方法，其特征在于，包含如下步骤：

(1)多尺度人脸注意力区域提取步骤：

对一张尺寸大小为N×N的待学习的图片，采用基于注意力网络的关键区域搜索算法从所述图片中提取出3个不同尺度不同位置的人脸感兴趣区域，并将其作为多尺度CNN三个通道的输入；其中，N表示图片的像素大小；

特征提取子步骤：采用CNN分别对3个所述人脸感兴趣区域进行特征提取，得到不同尺度的人脸特征；

(3)多任务人脸分析步骤：

将多个任务的损失函数进行融合得到联合损失函数，以步骤(2)得到的所述特征表达作为学习输入，得到关于所述联合损失函数的最优解，从而得到所述多个任务的处理结果；

所述多个任务是指：人脸检测、姿态估计、关键点定位、性别识别和表情识别五个任务；其中，人脸检测时，检测并定位图片中的人脸，然后采用迭代区域搜索和基于关键点的非极大值抑制的方式进行人脸检测；

迭代区域搜索是指：当关键点正确且人脸检测得分低时，根据已预测的面部特征点信息使用FaceRectCalculator来产生新的候选区，并且将其进行前向传播，这个新产生的候选区会在人脸检测这项任务上得到更高的分数，从而提高召回率；

基于关键点的非极大值抑制是指：跟其他非极大值抑制算法的不同，基于关键点的非极大值抑制算法不以人脸框坐标作为参数，而是以关键点中的最小四个角坐标作为参数，这样可以紧凑人脸，避免相邻脸被合并或漏检情况。

2.根据权利要求1所述的融合多任务联合多尺度卷积神经网络的人脸分析方法，其特征在于，在步骤(1)中，在提取人脸感兴趣区域时，采用“注意力”机制来帮助定位3个尺度的人脸感兴趣区域。

3.根据权利要求1所述的融合多任务联合多尺度卷积神经网络的人脸分析方法，其特征在于，在步骤(2)的特征提取子步骤中具体包括：构建3个通道的特征通道，每个特征通道分别对一个尺度的人脸感兴趣区域独立进行特征提取，共提取出3个不同尺度的人脸特征。

4.根据权利要求1所述的融合多任务联合多尺度卷积神经网络的人脸分析方法，其特征在于，在步骤(3)中，所述多个任务并行训练并共享相关任务之间的特征表达。

5.根据权利要求1所述的融合多任务联合多尺度卷积神经网络的人脸分析方法，步骤(3)中，所述将多个任务的损失函数进行融合得到联合损失函数具体是指：将所述多个任务的损失函数进行加权。

6.根据权利要求1所述的融合多任务联合多尺度卷积神经网络的人脸分析方法，其特征在于，

loss_D＝-(1-l)·log(l-p_D)-l·log(p_D)，

(b)性别识别任务用于识别人脸图片的性别，损失函数为：

loss_G＝-(1-g)·log(1-p_g0)-g·log(p_g1)，

其中，男性g＝0，女性g＝1，p_g0和p_g1分别表示人脸图片为男和为女的概率；

表示v_i的估计结果；

(d)头部姿态估计任务用于对人脸图片头部在roll(p₁)，pitch(p₂)和yaw(p₃)三个方向上的预测，损失函数为：

其中，

其中，M为表情的种类个数，M大于或者等于2，

表示表情的类别的训练标签，(p_e1，p_e2,...，p_eM)表示表情的类别的估计结果；

7.根据权利要求6所述的融合多任务联合多尺度卷积神经网络的人脸分析方法，其特征在于，(e)中，

8.一种融合多任务联合多尺度卷积神经网络的人脸分析***，其特征在于，使用如权利要求1-7任一项所述的融合多任务联合多尺度卷积神经网络的人脸分析方法进行人脸分析。