CN109344713A

CN109344713A - 一种姿态鲁棒的人脸识别方法

Info

Publication number: CN109344713A
Application number: CN201811010502.7A
Authority: CN
Inventors: 李宏亮; 刘玮; 何慕威; 廖加竞; 孙旭
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-02-15
Anticipated expiration: 2038-08-31
Also published as: CN109344713B

Abstract

本发明公开了一种姿态鲁棒的人脸识别方法，涉及计算机视觉领域。本发明针对现有的人脸识别方法在遇到人脸姿态变化时，识别精度有很大程度的下降，而相应的解决方案操作步骤复杂且实际部署困难的技术问题，提出了一种姿态鲁棒的人脸识别方法，本发明根据面部属性不随姿态变化的特性，在侧脸时加入人脸属性损失，并对原始的分类损失函数进行一定改进，提升了网络在侧脸时提取特征的有效性，提高了姿态变化时的鲁棒性。

Description

一种姿态鲁棒的人脸识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种姿态鲁棒的人脸识别方法。

背景技术

近两年，人脸识别问题在深度学习的基础下得到了飞速的发展，在安防领域、手机支付等方面有了广泛的应用。但是大部分的人脸识别方法在头部姿态出现变化的情况下，识别率会发生明显的下降。问题出现的原因一方面是网络训练的数据集中正脸和侧脸样本个数的不均衡；另一方面则是在人脸姿态变化比较多样的时候，网络确实很难获取到比较鲁棒的人脸身份信息。

现有的解决方案有的针对姿态矫正方面，采用生成对抗网络根据侧脸图像合成正脸图像，但合成的面部图像往往会很不自然且伴随很大不确定性，还由于其运算量巨大而增加了整个***的负担；有的工作则是针对正脸和侧脸分别训练不同的网络模型，还有的会选择在原始的网络中增加提取人脸属性信息的分支并将人脸属性信息与原本的身份信息进行融合，这些同样会增加整个***的计算成本。

现有技术需要使用生成对抗网络或需要训练多个卷积神经网络模型，导致操作复杂任务繁重，不适于实际部署。而融合属性信息的方式虽然相比前两者要稍微简单，但同样需要新的分支网络，增大了计算量。而实际上，只有在人脸姿态发生较大偏转(侧脸)时属性信息的作用才能体现出来，所以可以根据正脸和侧脸分别添加不同程度的人脸属性代价函数，让算法自适应的学习到更加鲁棒的特征。据此，本文提出一种姿态鲁棒的人脸识别方法。该方法不需要额外的网络进行辅助，也没有改动原始网络的基本结构，只需要在训练阶段修改最终的代价函数即可，操作简单更具实用性。

发明内容

本发明的发明目的在于：针对现有的人脸识别方法在遇到人脸姿态变化时，识别精度有很大程度的下降，而相应的解决方案操作步骤复杂且实际部署困难。本发明添加面部属性信息作为新的损失函数，并对原始的分类损失函数进行一定改进，提高了人脸识别的姿态鲁棒性。

首先，构建网络模型。以多组残差结构模块堆叠构建基础网络，后接一个全连接层，该全连接层分别连接身份类别损失层和属性类别损失层。

收集训练数据集，并对数据样本进行身份、属性、是否侧脸的标注，并进行尺寸归一化及减均值处理。

根据面部属性不随人脸姿态变化的性质，将该信息作为新的代价函数加入网络模型中，考虑到该信息在侧脸时对识别的帮助大，同时训练集中样本的不均衡性，所以损失函数如下：

Loss＝loss_id+Sng*λ*loss_attr (1)

其中loss_id表示身份类别的损失，loss_attr表示属性类别的损失函数，而λ表示预设的损失权重，0<λ<1，取经验观测值，Sng是一个指示函数，如果是正脸则为0，如果是侧脸则为1，从而控制属性损失的添加与否。

具体的，上述损失函数中的loss_id计算方法如下：

由于人脸识别的目标是令类间距离尽可能大，而类内距离尽可能小，而传统的SoftMax的目标是能够正确分类，所以约束力度不够，其函数原型如下：

其中i，j为一个批次(Batch Size)的训练样本区分符，m为一个批次的训练样本的数目，N表示总的训练样本数目，f_j表示第j个训练样本在在SoftMax层(本发明的身份类别损失层)的特征向量，f_yi表示第i个训练样本的人脸识别结果，e表示自然底数。

其具体表示为：

f_j＝Wx_i+b_j (3)

其中W，b_j为分类层网络的权重及偏置，x_i是上述网络模型的全连接层的输出。根据向量相乘的原理可以将f_j修改为下式，其中的偏置项被去掉，而权重及特征向量被归一化。

f_j＝mcosθ_j (4)

通过修改成这种形式后，原本的判别样本i和j的边界条件就从

W_ix_i+b_i＝W_jx_j+b_j (5)

变为

mcosθ_i＝cosθ_j (6)

其中，θ_i、θ_j分别表示第i,j个训练样本在全连接层的输出向量(x_i、x_j)与分层网络的权重(W_i、W_j)间的夹角。

由于m>1的数，所以相当于把原本的判断条件难度加大，从而令网络更专注于学习到类内距离小，类间距离大的特征，从而提升识别精度，以及对姿态的鲁棒性。

上述损失函数中的loss_attr计算方法如下：

属性的识别是传统的分类任务，所以计算方式直接使用上述的SoftMax进行计算，由于面部存在多种属性，而每种属性的作用程度并不一致，所以具体公式如下

loss_attr＝α*(l_gender+l_skin)+β*l_others (7)

其中l_gender和l_skin分别表示性别及肤色属性的损失，l_others表示其他属性(如发色)的损失，α和β分别为其权重，此外α>β。

通过使用该方法训练网络模型，能提高网络模型在姿态变化时的识别精度，同时缓解训练数据集样本不均衡带来的问题。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明所提出的姿态鲁棒的人脸识别方法，根据面部属性不随姿态变化的特性，在侧脸时加入人脸属性损失，提升了网络在侧脸时提取特征的有效性，提高了姿态变化时的鲁棒性。

本发明的框架并未使用其它网络，只是在训练阶段加入了少量计算量，而在测试阶段则完全没有变化。所以本发明相比现有解决方案，更具实用性。

附图说明

图1是本发明网络模型结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

步骤1：构建网络模型：

以模块BaseNet作为基础特征提取网络，所述BaseNet模块连接全连接层FC1层，FC1层连接Loss模块，如图1所示。

其中模块BaseNet为N组残差模块的堆叠，N>＝1的整数；

模块Loss包括身份损失函数和新加入的属性损失函数；

步骤2：训练所述网络模型：

步骤201：收集训练数据集，对其中的样本进行身份及属性标注，并对训练样本进行预处理，包括尺寸、像素减均值、翻转处理等；

步骤202：初始化所构建网络模型的神经网络参数，使用训练数据集对网络模型进行训练，预测身份类别及属性类别，与真实类别进行误差计算损失函数Loss。

步骤203中的身份损失采用的是退火模式，一开始是传统的SoftMax，随着迭代次数增加逐渐过渡到改进的SoftMax，即当迭代次数满足预设阈值时，

步骤203：计算损失函数的梯度采用梯度下降法更新网络参数，避免网络出现不收敛；

步骤204，重复执行步骤202～203，直到网络模型收敛，性能达到最优，将包括FC1层之前的网络模型参数保存。

步骤3：测试所述网络模型：

步骤301：对待识别图像A和B进行预处理，包括尺寸、均值归一化，作为输入送给加载好的网络；

步骤302：从上述网络模型的FC1层得到特征Va和Vb，通过计算两者的余弦距离cosθ_ab，根据该值得大小即可判断是否为同一人。即若余弦距离小于预设阈值，则判断两者为同一人

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种姿态鲁棒的人脸识别方法，其特征在于，包括下列步骤：

步骤1：构建网络模型：

以多组残差结构模块堆叠构建基础网络，在所述基础网络后接一个全连接层，所述全连接层分别连接身份类别损失层和属性类别损失层；

步骤2：训练网络模型：

步骤201：收集训练数据集，对其中的样本进行身份及属性标注，并对训练样本进行预处理；

步骤202：初始化所构建网络模型的神经网络参数，使用训练数据集对网络模型进行训练，预测身份类别及属性类别，与真实类别进行误差计算得到损失函数Loss＝loss_id+Sng*λ*loss_attr；

其中，loss_id表示身份类别的损失；

当迭代次数小于预设更换次数时，

当迭代次数大于或等于预设更换次数时，

其中i，j为一个批次的训练样本区分符，m为一个批次的训练样本的数目，N表示总的训练样本数目，f_j表示第j个训练样本在身份类别损失层的特征向量，f_yi表示第i个训练样本的人脸识别结果，e表示自然底数，θ_j表示第j个训练样本在全连接层的输出向量与分层网络的权重间的夹角；

loss_attr表示属性类别的损失函数；

损失权重λ的取值为0＜λ＜1；

Sng表示指示函数，如果为正脸，则函数值为0；如果为侧脸，则函数值为1；

步骤203：计算损失函数的梯度采用梯度下降法更新网络参数；

步骤204，重复执行步骤202～203，直到网络模型收敛，得到训练好的网络模型；

步骤3：通过步骤2训练好的网络模型进行人脸识别处理：

步骤301：对待识别图像A和B进行预处理后，输入训练好的网络模型；

步骤302：从所述网络模型的全连接层得到特征Va和Vb，通过计算两者的余弦距离，若余弦距离小于预设阈值，则判断两者为同一人。