CN111767825B

CN111767825B - 一种人脸属性不变鲁棒性人脸识别方法及***

Info

Publication number: CN111767825B
Application number: CN202010586404.9A
Authority: CN
Inventors: 廖海斌
Original assignee: Hubei University of Science and Technology
Current assignee: Hubei University of Science and Technology
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-05-03
Anticipated expiration: 2040-06-24
Also published as: CN111767825A

Abstract

本发明公开一种人脸属性不变鲁棒性人脸识别方法及***，包括如下步骤：S1、提取人脸特征；S2、估计人脸属性；S3、构建并选择人脸属性子字典；S4、属性不变人脸特征提取；S5、人脸分类识别；***中人脸深度特征提取模块分别与人脸属性识别模块、人脸属性字典构建模块相连，人脸属性识别模块依次连接人脸属性子字典选择模块、人脸属性不变特征提取模块、人脸分类识别模块，人脸属性子字典选择模块通过属性超完备字典与人脸属性子字典选择模块连接。本发明能够解决人脸的光照、姿态、表情、遮挡和分辨率同时变化及其组合变化等复杂环境下的人脸识别，并且保持人脸属性不变，鲁棒性高。

Description

一种人脸属性不变鲁棒性人脸识别方法及***

技术领域

本发明涉及图像处理与模式识别领域，特别是涉及一种人脸属性不变鲁棒性人脸识别方法及***。

背景技术

人脸身份识别技术经过大半个世纪发展，已经取得了实质性进展，在可控环境下已经达到应用水平。但在实际应用中，特别是极其复杂环境下，发现它仍不够完善，容易受人脸光照、姿态、表情、遮挡、年龄和整形等综合因素干扰。如，在新型冠状病毒疫情防控期间，为了采用智能防控手段，在进行体温远程筛查时可以利用人脸检测和人脸识别技术排除干扰，让***只检测人脸额头部分和做身份识别，以提高测温的准确性。但是，由于此次疫情期间出门需要带口罩，对人脸检测和识别提出了更高要求。另外，利用复杂场景下的人脸识别技术和搜索技术进行确诊和疑似人员身份识别和跟踪，对重大疫情智能防控可起到关键作用。比如对武汉华南海鲜市场监控视频和周边视频进行人脸分析，利用人脸属性分析结果快速确定出入华南海鲜市场人员身份，以便进行疑似病例组织关系的分析、管控和跟踪，并进行人员属性关联大数据分析。由于上述人脸识别应用中，面临着巨大的人脸光照、姿态、遮挡、低分辨率等各种复杂变化，使得目前大部分人脸技术无法使用。

针对人脸光照、姿态、表情和分辨率等变化问题，目前出现大量的解决方案和方法。但目前方法往往只是针对某一类问题进行研究，提出的方法也只能解决其中某一个问题。如，有些方法能解决人脸光照变化问题，而有些方法能解决人脸姿态变化问题，而另一些方法能解决人脸表情变化问题。这些方法面对人脸同时具有光照、姿态、表情和分辨率变化时，却无能为力。即目前没有一种方法能同时解决人脸的光照、姿态、表情和分辨率变化及其组合变化问题。

发明内容

本发明的目的是提供一种人脸属性不变鲁棒性人脸识别方法及***，以解决上述现有技术存在的问题，能够解决人脸的光照、姿态、表情、遮挡和分辨率同时变化及其组合变化等复杂环境下的人脸识别，并且保持人脸属性不变，鲁棒性高。

为实现上述目的，本发明提供了如下方案：本发明提供一种人脸属性不变鲁棒性人脸识别方法，包括如下步骤：

S1、提取人脸特征：将采集的人脸图像利用卷积神经网络CNN进行表示学习，提取人脸高层语义特征；

S2、估计人脸属性：人脸属性包括若干类别，通过对若干种类别进行组合，得到人脸属性集；基于人脸高层语义特征，利用随机森林分类方法进行人脸属性识别，得到人脸属性估计结果；所述人脸属性类别包括分辨率、姿态、光照、表情、遮挡；

S3、构建并选择人脸属性子字典：收集多属性人脸图像作为人脸训练集，根据属性类别数对所述训练集进行分类，对每类训练集采用深度字典学习模型单独训练优化得到子字典，然后将各类子字典利用协同学习进行微调和优化，并融合组成人脸属性字典；根据步骤S2得到的人脸属性选择对应的子字典，作为属性不变人脸特征提取的稀疏表示基空间；

S4、属性不变人脸特征提取：利用步骤S1得到的人脸特征和步骤S3得到的子字典,利用深度稀疏表示模型进行属性不变人脸特征提取；

S5、人脸分类识别：对步骤S4得到的属性不变人脸特征进行分类识别。

优选的，所述CNN采用GoogleNet、RestNet50、DarkNet或EfficientNet网络模型,并使用迁移学习策略将网络模型在公开人脸数据库LFW和YTF上进行预训练。

优选的，所述的深度字典学习方法，其模型表示为：

其中，A^c为第c类子字典训练样本矩阵；

为第c属性类中不同层的字典即基矩阵，

为对应的系数矩阵即编码矩阵；D^s,W^s分别为共享字典及其对应的系数矩阵；所述的深度字典训练的目标函数为：

式中，g(·)为非线性激活函数，||·||₂表示2范数。

优选的，步骤S3中协同学习微调和优化的目标函数为：

式中，D为最终求解的属性字典；

表示第c类中第n个人的样本；

分别为第n个人的不同属性图像分别在各自类字典中的组合系数，

分别为第n个人的不同属性图像分别在各自类共享子字典中的组合系数，λ₁,λ₂分别表示平衡因子参数，rvleo分别表示分辨率、姿态、光照、表情和遮挡类别数，N表示样本总数。

优选的，所述深度稀疏表示模型表示为：

式中，y表示人脸特征，D^c表示子字典，

表示共享字典，γ表示权重参数，W表示需要求解的稀疏表示系数，||·||_1/2表示1/2范数。

优选的，在步骤S2中利用随机森林分类方法进行人脸属性分类识别，判定属性类别。

优选的，所述步骤S5中利用支持向量机SVM或最近邻KNN或贝叶斯方法进行分类识别。

还提供了一种人脸属性不变鲁棒性人脸识别***，包括：

人脸深度特征提取模块，用于提取人脸高层语义特征；

人脸属性字典构建模块，用于构建人脸属性超完备字典；

人脸属性识别模块，用于确定输入人脸图像的分辨率、姿态、光照、表情和遮挡的属性类别；

人脸属性子字典选择模块，用于确定输入图像所属的稀疏表示基空间；

人脸属性不变特征提取模块，用于提取具有人脸分辨率、姿态、光照、表情、遮挡不变的鲁棒性特征；

人脸分类识别模块，用于进行人脸身份识别和分类。

所述人脸深度特征提取模块分别与所述人脸属性识别模块、所述人脸属性字典构建模块相连，所述人脸属性识别模块依次连接所述人脸属性子字典选择模块、所述人脸属性不变特征提取模块、所述人脸分类识别模块，所述人脸属性子字典选择模块通过属性超完备字典与所述人脸属性子字典选择模块连接。

本发明公开了以下技术效果：能够在人脸的光照、姿态、表情、遮挡和分辨率同时变化及其组合变化等复杂环境下的进行人脸识别，并且保持人脸属性不变，鲁棒性高。具体为：

1)将目前热门的深度学习方法和经典的字典学习方法结合，提出深度字典学习方法提高字典学习的鲁棒性，并用采用协同学习策略，使得各子字典之间具有线性组合一致性，为后期的人脸属性不变特征提取创造了良好基础。

2)本发明根据输入人脸图像的属性类别选择相应的子字典构建人脸表示基空间，并进行属性不变人脸特征提取，解决了复杂环境下人脸的光照、姿态、表情、遮挡和分辨率同时变化问题。通过本发明提出的人脸特征不会随着人脸的光照、姿态、表情、遮挡和分辨率等变化而变化，为复杂场景下人脸识别问题提供了一条可行的解决方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的复杂环境下的人脸识别技术框架示意图；

图2为本发明公开的复杂环境下的人脸识别***示意图；

图3为深度字典学习模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参考图2，本发明提供一种人脸属性不变鲁棒性人脸识别***，包括人脸深度特征提取模块、人脸属性字典构建模块、人脸属性识别模块、人脸属性子字典选择模块、人脸属性不变特征提取模块和人脸分类识别模块，人脸深度特征提取模块分别与人脸属性识别模块、人脸属性字典构建模块相连，人脸属性识别模块依次连接人脸属性子字典选择模块、人脸属性不变特征提取模块、人脸分类识别模块，人脸属性子字典选择模块通过属性超完备字典与人脸属性子字典选择模块连接。

参考图1，本发明公布的一种复杂环境下的人脸识别方法，包括如下步骤：

步骤S1人脸特征提取，采集的人脸图像利用CNN(Convolutional NeuralNetworks,卷积神经网络)进行表示学习，CNN采用GoogleNet、RestNet50、DarkNet或EfficientNet网络模型,本实施例中将检测到的人脸图像进行归一化处理后送入GoogleNet网络模型进行表示学习，GoogleNet通过公开人脸库LFW(Labled Faces in theWild)和YTF(YouTube Faces)进行预训练，使其更具高层语义信息表示能力，基于GoogleNet的人脸特征提取可以表示为：

y＝x_cw+b (1)

式中，y表示最后的高层特征输出，x_c表示人脸图像在“Depthconcat”层中的特征图，w是权值项，b为偏置项。其中，深度学***台，学习率λ＝0.001，epochs为4500，优化函数采用“Adam”算法。最终得到人脸高层特征表示向量y的维度为512。

步骤S2人脸属性识别：

本实施例将人脸属性分为具有3∈{正常分辨率、低分辨率、超低分辨率}种不同分辨率，5∈{左偏转、正面、右偏转、抬头、低头}种不同姿态，5∈{左强光、右强光、正常、暗光、强逆光}种不同光照，6∈{中性、高兴、愤怒、悲伤、惊讶、恐惧}种不同表情和4∈{无遮挡、口罩遮挡、墨镜遮挡、围巾遮挡}种不同遮挡，因此对上述不同类别属性进行组合可得到1800＝3×5×5×6×4类人脸属性。对上步得到的人脸特征利用随机森林分类方法进行人脸属性分类识别，判定其属性类别。在训练生成属性随机森林模型时，***迭代次数为1000，树的深度为16，并采用如下不确定性测度：

其中，c表示人脸属性类别。不确定性测度引导各节点从二值测试候选库中选择最优的二值测试，以保证能不断将当前节点***为不确定性降低的两个子节点。人脸属性以高斯模型的方式储于随机森林的每个叶子节点上：

其中，

和σ_l表示叶子节点l上属性均值和方差。生成叶子节点后，人脸特征y在随机森林上的属性类别概率可以通过投票方式获得：

其中，l_m为决策树对应的叶子节点，M为决策树的数量。

步骤S3人脸属性子字典构建与选择：

首先，本实施例收集1000个人的多属性图像作为人脸属性训练集

其中512表示人脸图像特征维数(通过(1)式获得)，1000表示每类样本个数，1800表示属性类别数(每个人包括3种分辨率，5种姿态，5种光照，6种表情和4种遮挡，共1800＝3×5×5×6×4张人脸图像)。据此，将人脸属性分为1800类，每类包括1000个训练样本，每个训练样本的特征向量数为512维。训练集中不同的人脸姿态、表情图像通过采集获取，不同分辨率图像通过对采集的高分辨率图像进行下采样和模糊处理等图像处理方式获取，不同光照图像可以通过光照模型生成，不同遮挡图像通过图像合成的方式生成。本发明所有人脸库将来自如下两个方面：

公开库：Weizmann人脸图像数据库(可公开获取)，采集了24个人，其中每个人同时包含有不同的表情、光照和姿态变化。CMUMulti-PIE人脸库(需要购买)，采集了337个人，其中每个人在19种光照和15种姿态条件下采集不同的表情变化图像。

自建库：公司对在职员工和在校学生采集的Multi_GPE人脸库，库中每个人采集5种不同姿态下6种表情变化的30幅人脸图像。

然后，对上述人脸属性训练集

进行字典优化训练学习。一般的，可以直接使用上述训练集A作为人脸属性字典。但这种方式构建的字典并非最优，同时可能导致字典矩阵过大。为了对字典进行优化，同时使字典具有重建性能，本发明根据深度学习的思想对属性人脸训练样本A^c进行多层次深度分解学习得到各属性类子字典D^c：

其中，A^c为属性人脸训练样本矩阵；

为第c属性类中不同层的字典，即基矩阵，

为对应的系数矩阵，即编码矩阵；D^s,W^s分别为共享字典及其对应的系数矩阵。根据非负矩阵分解原理有：

式(6)能够解释为对包括有人脸分辨率、姿态、光照、表情和遮挡等属性信息的人脸训练样本A^c进行多层次分解，找到其新的表示方式

和新表示空间

参照图3，假设人脸训练样本包含有姿态、表情和光照等三种属性，以3层为例表示了深度字典学习的属性人脸表示能力，其中，第一层D₁可以用来表示姿态投影空间，第二层D₂可以用来表示表情投影空间，第三层D₃可以用来表示光照投影空间。

为了增加字典的非线性表示能力，根据深度神经网络的方法对系数矩阵进行修改：

其中，g(·)为非线性激活函数。因此，深度字典学习模型的损失函数为：

深度字典学习模型的求解采用类似于栈式自编码网络一样的训练方法，分成逐层预训练、整体微调两个阶段:

(1)预训练阶段

A、令

求解最小化问题：

完成第一层分解；

B、对W₁ ^c继续分解

完成第二层分解；

如此循环下去，把所有的层都进行了预训练。通过逐层贪婪分解的方法，每一层的训练变成传统的字典学习问题(只不过这里加入了一项共享字典)。根据实际需要可以在每一层的字典学习中加入稀疏约束或监督学习等。为了表达方便和清晰，上述公式没有加入非线性激活函数。

(2)整体微调阶段

通过最小化损失函数和随机梯度下降法来实现。

通过深度字典学习训练优化后，每个子字典保留500个最优样本，即

最终的人脸属性超完备字典为

相比之前的人脸属性训练集

得到极大优化。

进一步的，通过上述的深度字典学***均得到出新的字典

作为各类的共享字典，并以此对上述各类子字典进行第二轮优化学习(相当于深度学习中的fine-tune)。同时，为了使各子字典表示同一个人不同属性类人脸时其线性组合系数间具有一致性，在第二轮字典优化学习时加入组合系数一致性约束以进行字典协同学习：

其中，D为最终需要求解的总字典(包括各子字典)；

表示第c类中第n个人的样本；

分别为第n个人的不同属性图像分别在各自类(c,c′)字典中的组合系数，

分别为第n个人的不同属性图像分别在各自类共享子字典中的组合系数，λ₁,λ₂分别表示平衡因子参数。式(9)第1项为重建保真项，第2、3项为字典协同表示约束项。通过第2、3项约束迫使来自同一个人的不同属性人脸图像在各自子字典中的线性组合系数尽可能地一致。

最后,有了优化后的人脸属性超完备字典后，可根据S2得到的人脸属性,选择相应的子字典

作为下一步属性不变人脸特征提取的稀疏表示基空间。

步骤S4属性不变人脸特征提取：

利用步骤S1得到的人脸特征

和S3得到的子字典

构建如下的深度稀疏表示模型进行属性不变人脸特征提取:

式(10)是一个非凸优化问题，其求解可以转化为加权L₁正则子求解问题。具体为：

1)令t＝0，设定最大迭代次数K，初始化W⁰＝(1,…,1)^T；

2)求解

并令t＝t+1；

3)当t＜K时，转步骤2；当t＝K时，输出W^t。

上述算法中，步骤S1设定了最大迭代次数K作为算法终止条件。由于在步骤1中设定了初始化解W⁰＝(1,…,1)^T，于是步骤S2第一次迭代时对应求解一个L₁正则子问题，即恰好产生Lasso解；而第二次迭代时，步骤S2相当于求解一个加权L₁正则子，通过简单的线性转换该问题仍然可以转换为L₁正则子求解。注意到，当算法迭代第二次以后，参数x^t中可能会出现0。为了保证算法可实施，在加权时，可采用

替代

ε为任意给定的一个正数。

有了L_1/2正则子的求解算法，便可求出人脸深度稀疏表示模型的解系数

作为人脸属性不变特征，即一个具有500维的特征向量。

步骤S5人脸分类识别：

对步骤S4得到的人脸属性不变特征

利用支持向量机(SVM)或最近邻(KNN)或贝叶斯方法进行分类识别。以大型人脸检索应用为例，采用KNN的方法确定最终人脸的类别。具体的,采用余弦距离法计算两个人脸特征向量之间的相似度：

式中，W₁,W₂为两个匹配人脸的特征向量，其通过步骤S4得到。最后，根据相似度大小确定人脸最终类别。

本发明将目前热门的深度学习方法和经典的字典学习方法结合，提出深度字典学习方法提高字典学习的鲁棒性，并用采用协同学习策略，使得各子字典之间具有线性组合一致性，为后期的人脸属性不变特征提取创造了良好基础。

本发明根据输入人脸图像的属性类别选择相应的子字典构建人脸表示基空间，并进行属性不变人脸特征提取，解决了复杂环境下人脸的光照、姿态、表情、遮挡和分辨率同时变化问题。通过本发明提出的人脸特征不会随着人脸的光照、姿态、表情、遮挡和分辨率等变化而变化。

因此，本发明能够在人脸的光照、姿态、表情、遮挡和分辨率同时变化及其组合变化等复杂环境下的进行人脸识别，并且保持人脸属性不变，鲁棒性高。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。