CN106991355B

CN106991355B - 基于拓扑保持的解析型字典学习模型的人脸识别方法

Info

Publication number: CN106991355B
Application number: CN201510574237.5A
Authority: CN
Inventors: 赫然; 谭铁牛; 孙哲南; 郭君; 曹冬
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2015-09-10
Filing date: 2015-09-10
Publication date: 2020-04-24
Anticipated expiration: 2035-09-10
Also published as: CN106991355A

Abstract

本发明公开了一种基于拓扑保持的解析型字典学习模型的人脸识别方法，包括：首先对训练集和测试集样本进行预处理，对训练集和测试集样本进行映射，每张图像都得到一个对应的随机脸特征列向量；优化学习得到解析型字典Ω：获得训练集和测试样本的编码系数：将测试样本的编码系数、训练集的编码系数及其对应的类别标签信息一起输入分类器，得到最终分类结果。本发明针对后两个环节，尤其是第3个环节的分类模型，进行了有益创新。本发明提出一种基于拓扑保持的解析型字典学习模型的人脸识别方法，将人脸特征的结构信息与判决信息放在一个统一的解析型字典学习框架下学习，使得最终的人脸识别准确率与运行速度均得到明显提高。

Description

基于拓扑保持的解析型字典学习模型的人脸识别方法

技术领域

本发明涉及计算机视觉、模式识别、生物特征识别等技术领域，特别涉及一种基于拓扑保持的解析型字典学习模型的人脸识别方法(Topology Preserving AnalysisDictionary Learning，简称TP-ADL)。

背景技术

生物特征识别技术是使用人体的某些生物特性来对个体的身份进行识别的先进技术。因为每个人的生物特征都是不同的，而且不会轻易改变，满足个体识别的条件。这种技术通常采用的方法是先对个体采取某个或某些生物特征，然后将其与已有数据库中的样本进行比较，判断是否符合。与传统的以证件、密码等为对象的识别技术相比，以人脸识别为代表的生物特征识别技术可以做到不与识别人发生任何肢体接触，可以不惊动对象，只需要采用一般的摄像头就可以采集，成本很低，因此人脸识别技术成为众多学者们重点研究的对象之一。

人脸识别的研究始于20世纪60年代，并且随着计算机硬件和网络的发展，在几十年中取得了长足的进步。人脸识别技术正在视频监控、证件验证、刑侦破案等社会生活的诸多方面发挥着巨大作用。常规的人脸识别技术主要包含2个主要过程，即训练过程和测试过程。训练过程有3个处理环节，分别是训练图像预处理、训练图像特征的提取、分类模型的建立。测试过程有3个处理环节，分别是测试图像预处理、测试图像特征的提取、使用训练阶段得到的分类模型对测试图像进行分类预测。如果要改进人脸识别技术，提升识别准确度，可以对人脸图像预处理的方法进行改进，也可以对提取人脸图像特征的方法进行创新，还可以选择适合人脸图像特征的分类模型和分类算法。如何增加各环节处理方法的适用性，即不断改进这些处理算法以改善分类方法的整体性能，这仍是目前人脸识别研究领域的重点。

稀疏表示理论与人脸识别的结合是近些年被提出的。稀疏表示理论是将待预测的图像用训练集中的图像进行线性组合表示，然后对线性组合的系数进行分类判决，达到预测其类别的目的。与主成分分析(PCA)等传统方法不同，稀疏表示是基于I0或I1范数的求解过程，重点是找到线性组合的系数即待测人脸图像的稀疏编码。这种思路与之前的人脸识别方法有很大的不同，而且稀疏表示理论的优点在于对于面部有掩盖的情况下，可以有更好的分辨效果，因此这种理论在人脸识别中的应用受到越来越多的学者的关注。

稀疏表示理论的中心思想是：首先构造一个过完备字典，其中包含足够的具有代表性的样本，然后对于任意一个样本(一般是一个向量)，用这个字典中少数几个样本来线性加和表示，这样就可以得到一个非零元素很少的编码向量，达到稀疏表示的目的。稀疏编码的性能在很大程度上依赖于字典的学习，在稀疏表示应用到人脸识别的初期，大多是用预设的固定字典，如：训练集特征组成的字典、Curvelet基组成的字典、Gabor基组成的字典等，这样的字典在不同数据集上的重构效果不一，对不同数据集的识别准确率也波动很大。因此，一个根据训练数据集自适应学习得到的字典往往比预设的固定字典更加符合人脸识别的需求。

如今已有很多优秀算法来快速学习一个过完备字典，但是最初提出的传统字典学习模型并不是应用于分类识别的，而是应用于信号重构的相关问题。为了利用字典学习解决人脸识别问题，研究者们提出了两类方法，这些方法将传统的字典学习修正为满足人脸识别需求的监督字典学习：一类是直接学习具有判决力的字典，另一类是使稀疏编码具有区分性，继而使得到的字典具有判决力。前者主要是利用重构误差来进行最终的人脸识别，后者主要是利用稀疏表示系数作为新的特征用于分类识别。

然而，学者们为解决分类识别问题而提出的多种监督字典学习模型都是学习一个综合型字典，在学习阶段需要求解基于线性加和表示的合成编码过程。这种编码过程在求解时使用迭代的方式进行，非常耗时，严重影响了人脸识别的实际使用。此外，这些监督字典方法过于强调编码的稀疏性在分类识别任务中的作用，忽视了在原始特征数据中蕴含的结构信息，而这些结构信息往往对于分类模型的识别准确率有很大的影响。

作为字典学习的另外一个主流方向，解析型字典学习模型引起了国内外学者的高度关注。解析型字典是综合型字典的对偶形式，它的目标不是学习一组用于线性加和表示的基，而是学习一个映射矩阵，使得信号映射以后的表示是稀疏的。解析型字典学习模型具有良好的信号表示能力，但目前国内外的研究仅仅停留在解析型字典对信号进行重构的应用上。

发明内容

本发明的目的是提出一种基于拓扑保持的解析型字典学习模型的人脸识别方法，以解决传统的基于稀疏表示和字典学习的人脸识别方法对图像结构信息和判决信息利用不够充分、学习过程的时间复杂度较高等问题。

为了实现本发明的目的，本发明提供了一种基于拓扑保持的解析型字典学习模型的人脸识别方法，

步骤S1，为了方便操作，首先对训练集和测试集样本进行预处理，中心裁剪得到w×h的像素部分，然后用随机矩阵

对训练集和测试集样本进行映射，每张图像都得到一个对应的随机脸特征列向量；

步骤S2，优化学习得到解析型字典Ω：按照提出的拓扑保持的解析型字典学习模型对训练集数据建模，通过两步交替迭代的优化方式最小化目标函数，学习解析型字典Ω和编码系数X；

步骤S3，获得训练集和测试样本的编码系数：用训练好的解析型字典Ω根据x＝Ωy对训练集和测试样本同时进行编码；

步骤S4，将测试样本的编码系数、训练集的编码系数及其对应的类别标签信息一起输入分类器，得到最终分类结果。

其中，在步骤S1中，对训练集和测试集样本进行相同的中心裁剪，将获得的图像拉伸成列向量，然后用随机矩阵对训练集和测试集样本的列向量进行映射，其中：随机矩阵每个元素都是先独立取样于零均值的正态分布，再将其每行都标准化到单位长度。

其中，在步骤S2中，求解模型为：

上述目标函数中：α，β为人工设置的权重参数，用于调节各项之间的相对大小关系；

其中，第一部分是基本的解析型字典学习模型：

其中，

代表稀疏重构误差，ω_i是解析型字典Ω的第i行。

其中，第二部分Tr(ΩYLY^TΩ^T)是拓扑保持项，拓扑保持需要保持的是影响k近邻(kNN)分类性能的原始特征的相对远近程度(近邻排序)，原始空间任意两个特征向量y_u和y_v的距离设为s_uv，编码空间对应的距离设为t_uv，拓扑保持目标函数为：

其中：矩阵S_i为反对称矩阵，其位置(u，v)的元素值是原始空间两个距离的差s_iu-s_iv，利用反对称矩阵的性质，对公式(3)进行化简，可得：

可令W_ij∑_uS_i(u，j)，则公式(4)可继续化简为：

此处的矩阵W即可看作一个权重矩阵(W不对称，但是可以分解成对称矩阵W₊与反对称矩阵W_-的加和)，可以求取L＝S₊-W₊，其中S₊矩阵定义为对角阵，第i个对角元素值S_+，ii等于W₊矩阵的第i行所有元素的和，由此，可以推导得到拓扑保持项的拉普拉斯矩阵形式的约束：

为了同时保持近邻特性，我们采取以下方式为每个y_i计算W_ij：

其中N(y_i)是y_i的k近邻集合，考虑到解析型字典在编码过程中的重要性，也为了更直接的学习字典Ω，我们将公式(6)中的X替换为ΩY，继而得到拓扑保持项的最终形式；

第三部分

是判决强化项，设置r等于样本的类别总数，矩阵

的每一列

为仅有1个非零元素的列向量，其非零元素的位置就对应于训练样本的类别信息。

其中，在步骤S2中，目标函数(1)是非凸问题，考虑求解它的凸松弛形式(8)：

目标方程(8)是一个双凸问题，它的求解需要通过一个两步的交替迭代优化策略来完成，具体的过程总结如下：

S21，对于训练集中的人脸特征，通过公式(7)计算得到矩阵W并求出拉普拉斯矩阵L。对X进行初始化，令其初始值为H，接下来，进入交替迭代过程，循环S22和S23直到收敛或达到迭代次数要求；

S22，固定编码系数X，更新解析型字典Ω；这时，目标函数(8)就可以写成如下形式：

这个目标函数是有闭式解的，可令其一阶导数为0，推得：

Ω^*＝XY^T[Y(I+αL)Y^T+γI]^-1 (10)

为方便表示，将不同大小的单位阵均用I来表示；

S23，固定解析型字典Ω，更新编码系数X。这时，目标函数(8)就化为：

这个目标函数也是有闭式解的，可令其一阶导数为0，推得：

设定β为一个很大的数，使得X能够尽可能逼近稀疏的标签矩阵H；

经过上述优化过程之后，可以得到最终的训练结果，包括解析型字典

和训练集的编码系数

其中，在步骤S3中，模型训练后，依照x＝Ωy用训练好的解析型字典Ω对训练集和测试样本同时进行编码，完成以上编码过程，可以获得训练集和测试样本在字典上的编码系数。

其中，在步骤S4中，将测试样本的编码系数、训练集的编码系数及其对应的类别标签信息一起输入k近邻(kNN)分类器，得到最终分类结果。

与现有技术相比，本发明的有益效果为，对于实际应用环境下的人脸识别问题，有3个环节至关重要，按先后顺序依次为预处理、特征提取、分类模型训练与预测。本发明针对后两个环节，尤其是第3个环节的分类模型，进行了有益创新。本发明提出一种基于拓扑保持的解析型字典学习模型的人脸识别方法，将人脸特征的结构信息与判决信息放在一个统一的解析型字典学习框架下学习，使得最终的人脸识别准确率与运行速度均得到明显提高。

附图说明

图1是本发明的方法流程图；

图2是AR数据库中的人脸图像举例；；

图3图3是本发明在AR数据库上在识别准确率、训练时间、平均每张图像测试时间等3个指标上与其他方法的对比图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解为此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的保护范围。

本发明提出对现有的解析型字典学习模型进行改进，既借鉴综合型字典学习在分类识别应用中的多种判决模型，又引入前人都忽视的原始特征数据中蕴含的结构信息。这种将人脸特征的结构信息与判决信息放在一个统一的解析型字典学习框架下学习的方案，使得人脸特征的编码系数可以更有利于最后的识别过程，从而获得最佳的识别效果。

本发明通过拓扑保持的解析型字典学习模型将人脸特征的结构信息与判决信息放在一个统一的框架下学习，使得学习到的解析型字典最能够代表人脸的本征特征，对应的编码也具有更强的判别性。

如图1所示，本发明提供了一种基于拓扑保持的解析型字典学习模型的人脸识别方法，该方法包括：

步骤S1，为了方便操作，首先对训练集和测试集样本进行预处理，分别去掉边缘处5-10个像素，得到中心w×h的像素部分，假设m＝wh，将每个图像拉伸成m×1的列向量。然后用随机矩阵

对训练集和测试集样本进行映射，其中随机矩阵R的每个元素都是先独立取样于零均值的正态分布，再将RY＝[y₁，y₂，L，y_N]∈？^n×N的每行都标准化到单位长度。此步可得到含有幅图像的训练集矩阵；

步骤S2，对训练集

按照提出的拓扑保持的解析型字典学习模型进行建模，通过最小化下述目标函数，得到解析型字典

和训练集的编码系数

其中，第一部分是基本的解析型字典学习模型，如公式(2)：

其中，

代表稀疏重构误差，ω_i是解析型字典Ω的第i行。

其中，第二部分T_r(ΩYLY^rΩ^T)是拓扑保持项，拓扑保持需要保持的是影响k近邻(kNN)分类性能的原始特征的相对远近程度(近邻排序)，即针对″哪个更近″，而不是单纯的″哪个是近邻″。稀疏编码要保持原始特征的拓扑结构，原始空间任意两个特征向量y_u和y_v的距离设为s_uv，编码空间对应的距离设为t_uv，拓扑保持目标函数为：

可令W_ij∑_uS_i(u，j)，则公式(4)可继续化简为：

第三部分

是判决强化项，设置r等于样本的类别总数，矩阵

的每一列

目标函数(1)是非凸问题，考虑求解它的凸松弛形式(8)：

这个目标函数是有闭式解的，可令其一阶导数为0，推得：

Ω^*＝XY^T[Y(I+αL)Y^T+γI]^-1 (10)

为方便表示，将不同大小的单位阵均用I来表示；

这个目标函数也是有闭式解的，可令其一阶导数为0，推得：

我们在实验中将会设定β为一个很大的数，使得X能够尽可能逼近稀疏的标签矩阵H；

和训练集的编码系数

步骤S3，在模型训练之后，虽然得到了训练集对应的编码系数X，但是该编码系数由于经过优化而过于理想化，测试样本由于类别信息未知而并不能进行类似的优化，因此会造成训练样本与测试样本编码空间的″失配″，这会对测试样本的分类产生影响，容易使得分类准确率降低。因此，我们一视同仁地，模型训练后，依照公式(13)用训练好的解析型字典Ω对训练集和测试样本同时进行编码，完成以上编码过程，可以获得训练集和测试样本在字典上的编码系数。

x＝Ωy (13)

步骤S4中，将测试样本的编码系数、训练集的编码系数及其对应的类别标签信息一起输入k近邻(kNN)分类器，得到最终分类结果。

实施例：

为了详细说明本发明的具体实施方式及验证本发明的有效性，我们将本发明提出的方法应用于一个公开的人脸数据库，即AR人脸数据库。该数据库包含126个人的4000佘张彩色图像。这些图像拥有较多的脸部变化，如不同的光线情况、不同的表情、不同的脸部遮挡(墨镜和围巾)等，这样使得实验更具有挑战性。图2展示了我们所使用的图像，从中可以明显看出各种脸部的变化。我们使用由50个男人50个女人的2600张图片构成的数据子集。对于每个人的图像，我们随机选择20张进行训练，另外6张进行测试。每张人脸图像经过预处理后大小为165×120，使用随机矩阵映射得到540维列向量作为训练和测试的输入特征。

按照之前介绍的技术细节中的步骤S2，我们首先将所有训练集数据输入模型进行训练，其中：计算W时每个样本的近邻数k设为5，权重参数α和γ分别为0.001和0.1，而β被经验地设为较大的整数10。训练完毕得到解析型字典

接下来根据步骤S3和S4，对新来的测试图像和训练集一起进行编码，再将测试样本的编码系数、训练集的编码系数及其对应的类别标签信息一起输入k近邻(kNN)分类器以得到最终的分类结果。

图3展示了我们的方法在识别准确率、训练时间、平均每张图像测试时间共3个指标上和其他方法的对比，其中DLSI来自于Ignacio Ramirez的文章《基于结构化不相干性和共同特征的字典学习模型的分类和聚类》，FDDL来自于Meng Yang的文章《基于Fisher判决字典学习模型的稀疏表示》，LC-KSVD来自于Zhuolin Jiang的文章《基于标签一致K-SVD的判决字典学习模型的稀疏编码》，DPL来自于Shuhang Gu的文章《基于映射字典对学习的模式分类》。和这些比较流行的基于字典学习的方法比较，我们的方法在人脸识别的准确率和运行速度上有明显的提高。因此，本发明在人脸识别的实际应用中是一种极为有效的方法，可以显著地提高识别准确率并且节约运行时间。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于拓扑保持的解析型字典学习模型的人脸识别方法，其特征在于，该方法包括：

步骤S1，为了方便操作，首先对训练集和测试集样本进行预处理，中心裁剪得到w×h的像素部分，然后用随机矩阵R∈i^n×m对训练集和测试集样本进行映射，每张图像都得到一个对应的随机脸特征列向量；

步骤S3，获得训练集和测试样本的编码系数：用训练好的解析型字典Ω根据x＝Ωy对训练集和测试样本同时进行编码，其中：x表示样本的编码系数，y表示按照步骤S1对样本提取的特征列向量；

2.根据权利要求1所述的基于拓扑保持的解析型字典学习模型的人脸识别方法，其特征在于，在步骤S1中，对训练集和测试集样本进行相同的中心裁剪，将获得的图像拉伸成列向量，然后用随机矩阵对训练集和测试集样本的列向量进行映射，其中：随机矩阵每个元素都是先独立取样于零均值的正态分布，再将其每行都标准化到单位长度。

3.根据权利要求1所述的基于拓扑保持的解析型字典学习模型的人脸识别方法，其特征在于，在步骤S2中，求解模型为：

s.t.||X||₀≤T₀,||ω_i||₂＝1,i＝1,2,…,r

上述目标函数中：α,β为人工设置的权重参数，用于调节各项之间的相对大小关系；Y为特征矩阵，其第i列y_i表示第i个训练样本按照步骤S1提取的特征；

其中，第一部分是基本的解析型字典学习模型：

s.t.||X||₀≤T₀,||ω_i||₂＝1,i＝1,2,…,r (2)

其中，

代表稀疏重构误差，ω_i是解析型字典Ω的第i行；

其中，第二部分Tr(ΩYLY^TΩ^T)是拓扑保持项，拓扑保持需要保持的是影响k近邻分类性能的原始特征的相对远近程度，原始空间任意两个特征向量y_u和y_v的距离设为s_uv，编码空间对应的距离设为t_uv，拓扑保持目标函数为：

其中：矩阵S_i为反对称矩阵，其位置(u,v)的元素值是原始空间两个距离的差s_iu-s_iv，利用反对称矩阵的性质，对公式(3)进行化简，可得：

可令W_ij＝∑_uS_i(u,j)，则公式(4)可继续化简为：

此处的矩阵W即可看作一个非对称的权重矩阵，它可以分解成对称矩阵W₊与反对称矩阵W_-的加和，可以求取L＝S₊-W₊，其中S₊矩阵定义为对角阵，第i个对角元素值S_+,ii等于W₊矩阵的第i行所有元素的和，由此，可以推导得到拓扑保持项的拉普拉斯矩阵形式的约束：

第三部分

是判决强化项，设置r等于样本的类别总数，矩阵H∈i^r×N的每一列h_i＝[0,0...1...0,0]^T∈i^r为仅有1个非零元素的列向量，其非零元素的位置就对应于训练样本的类别信息。

4.根据权利要求3所述的基于拓扑保持的解析型字典学习模型的人脸识别方法，其特征在于，在步骤S2中，目标函数(1)是非凸问题，考虑求解它的凸松弛形式(8)：

S21，对于训练集中的人脸特征，通过公式(7)计算得到矩阵W并求出拉普拉斯矩阵L；对X进行初始化，令其初始值为H；接下来，进入交替迭代过程，循环S22和S23直到收敛或达到迭代次数要求；

这个目标函数是有闭式解的，可令其一阶导数为0，推得：

Ω^*＝XY^T[Y(I+αL)Y^T+γI]^-1 (10)

为方便表示，将不同大小的单位阵均用I来表示；

这个目标函数也是有闭式解的，可令其一阶导数为0，推得：

经过上述优化过程之后，可以得到最终的训练结果，包括解析型字典Ω∈i^r×n和训练集的编码系数X∈i^r×N。

5.根据权利要求1所述的基于拓扑保持的解析型字典学习模型的人脸识别方法，其特征在于，在步骤S3中，模型训练后，依照x＝Ωy用训练好的解析型字典Ω对训练集和测试样本同时进行编码，完成以上编码过程，可以获得训练集和测试样本在字典上的编码系数。

6.根据权利要求1所述的基于拓扑保持的解析型字典学习模型的人脸识别方法，其特征在于，在步骤S4中，将测试样本的编码系数、训练集的编码系数及其对应的类别标签信息一起输入k近邻分类器，得到最终分类结果。