CN109255340A

CN109255340A - 一种融合多种改进vgg网络的人脸识别方法

Info

Publication number: CN109255340A
Application number: CN201811271700.9A
Authority: CN
Inventors: 李晶皎; 娄家培; 闫爱云; 王爱侠; 李贞妮
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-01-22

Abstract

本发明提供一种融合多种改进VGG网络的人脸识别方法，该方法在已有VGG19网络的基础上，通过删减其他卷积层或全连接层及其不同组合，或者改变不同层次卷积的卷积核数及全连接层结点数，生成两种及两种以不同结构的改进VGG网络；对训练样本人脸图像进行预处理，并扩充数据集；将扩充后的数据集放入改进后的VGG网络进行训练，每种网络对应采用不同的训练方法，产生多种稳定的VGG模型；将待识别的人脸图像同时放入多种模型进行识别，从多个识别结果中选取最终的识别结果。本发明使VGG网络更有效的提取深层次人脸隐含特征，提高了网络对不同人脸的区分能力，能综合提高人脸识别的准确率，适应不同特征的数据集。

Description

一种融合多种改进VGG网络的人脸识别方法

技术领域

本发明属于人脸识别技术领域，具体涉及一种融合多种改进VGG网络的人脸识别方法。

背景技术

人脸识别技术是基于生物特征的身份鉴定技术，其在门禁***、监控***、智能设备等领域有着越来越广泛的应用。传统人脸识别方法主要有主成分分析法、模板匹配法、贝叶斯方法等，主要原理是提取人脸中的不同特征进行特征向量的相似度对比，比如肤色特征、区域几何特征、轮廓特征等，这些方法普遍受人脸光照、姿势、角度的影响较大。近年来火热的卷积神经网络如AlexNet、VGGNet、ResNet等不需要额外的进行人工特征向量提取，只需要引入数据集进行训练学习，自动提取深层次的特征，不足之处在于要求大量的数据集进行模型的训练，对计算机的硬件计算能力要求较高。无论是传统的特征向量提取方法，还是与深度学习相关的卷积神经网络方法，识别准确度和识别速度都是人脸识别技术中的两个重要指标。

目前为止，出现了一批优秀的人脸识别网络模型，比如19层的网络VGG、22层的网络InceptionNet和152层的网络ResNet，它们在特定数据集上取得了很高的识别率，缺点是网络结构复杂。VGG网络只有19层，结构层次相对较浅，但训练参数达到十几亿，训练时间长，每种分类模型在特定的数据集上训练后，只对具有本数据集某种类别特征的测试人脸图像有良好表现，对本数据集中部分类型或不同数据集之间的测试效果出现不同程度的下降。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种融合多种改进VGG网络的人脸识别方法，能够提高人脸识别在同种数据集上不同类型图像或不同数据集之间的综合准确率。

为实现上述目的，通过对现有技术的研究，本发明采用了以下技术方案：

一种融合多种改进VGG网络的人脸识别方法，包括如下步骤：

步骤1：在原VGG19网络的基础上，删减其他卷积层或全连接层及其不同组合，或者改变不同层次卷积的卷积核数及全连接层结点数，得到针对特定数据集的有效网络，得到针对特定数据集的有效网络统一用VGG_I表示，其中I代表网络种类数，且I≥2；

步骤2：对训练样本人脸图像进行预处理，通过人脸剪裁将人脸从背景提取出来，除去无用冗余信息，且使人脸接近正脸，并通过水平翻转、角度变换法、RGB颜色变化、随机剪裁中的任意一种或者几种方法结合扩充数据集，从而提高模型的泛化能力；

步骤3：将扩充后的数据集分别放入每种改进后的网络VGG_I进行训练，同时每种VGG_I分别采用不同的训练方法，针对特定数据集有效的训练方法统一用TrainJ表示，其中J代表训练方法数，且J≥2；VGG_I经TrainJ训练后产生I*J种稳定的VGG模型；

步骤4：将待识别的人脸图像同时放入I*J种稳定的VGG模型进行识别，从多个识别结果中选取识别率最高的作为最终识别结果。

进一步地，所述的步骤1中VGG_I的I＝2，在原VGG19网络的基础上，通过删减前两个全连接层,以减少网络训练参数；通过增加最后四个卷积层的卷积核数量，以增加网络对人脸图像特征提取的维度。

进一步地，所述的步骤1中VGG_I的I＝2，通过删减前两个全连接层,即保持Group1～Group4中16个卷积层结构及参数配置不变，通过删减原VGG网络中19个层次中的第一个全连接层FC6和第二个全连接层FC7，同时删除这两个全连接层的Dropout操作，保留第三个全连接层FC8，其结点数量根据样本种类确定，得到改进后的网络VGG_A；在VGG_A的基础上，将最后一组Group5中4个卷积层中卷积核的数量由原来的512个增至P个，P可以选取600或800，所有卷积层中卷积核大小为3*3保持不变，同时将最后一个池化层的池化方式由最大值池化max-pooling改为平均值池化average-pooling,以强化网络对人脸图像总体特征的提取，得到改进后的网络VGG_B。

进一步地，所述步骤2中对训练样本人脸图像进行预处理的方法包括人脸对齐、人脸剪裁、图像归一化。

进一步地，所述步骤3中采用不同的训练方法包括放弃原有的标准高斯分布随机初始化方法，初始的参数选取Karen Simonyan公布的VGG权值参数，其中第1～8个卷积层保持权值参数不变，第9～12个层卷积层随机选取80％权值参数不变，剩下20％重新训练，第13～16个卷积层随机选取40％权值参数不变，剩下60％重新训练，前两个全连接层FC6和FC7已经删除，无训练参数，最后一个全连接层FC8的参数全部重新训练，这种改变参数初始化的训练方法为Train1。

进一步地，所述步骤3中采用不同的训练方法包括在训练方法Train1的基础上，选取交叉熵代价函数(cross-entropy)作为损失函数loss function，并且使用正则化缓和过拟合，选取Adam(Adaptive Moment Estimation)为训练时的优化器；在训练过程中自定义调整更新学习率，从而加快训练速度，在训练初期设置较大的学习率，随着训练轮数的增加，学习率更新衰减，基本公式如下：

LR＝(0.001*(0.9**Iter))

其中，LR为学习率，表示每次参数更新的幅度大小，0.001为初始学习率，Iter为训练时的迭代次数，0.9位学习率衰减系数，每次Iter训练100张照片，根据Iter调整学习率的变化，这种调整学习率的训练方法为Train2。

进一步地，所述步骤3中采用不同的训练方法包括模仿训练方法Train1更改不同层次的参数重训练比例大小，能够得到其它训练方法。

进一步地，所述步骤3中采用不同的训练方法包括模仿训练方法Train2设置不同的初始学习率及不同的学习率衰减系数、选取不同的损失函数，能够得到其它训练方法。

进一步地，所述步骤4中从多个识别结果中选取识别率最高的作为最终识别结果的方法为，将待识别人脸图像放入已训练完的I*J个VGG模型中，经过softmax分类器输出识别结果概率从高到低排序，选取概率最高的前5个结果，若真实结果在前5个高概率结果中，则判断识别正确，将待识别人脸图像重复识别M次，其中正确识别次数为N，N/M即为对应模型的准确率，选取I*J个VGG模型中准确率最高的结果为最终结果。

本发明与现有技术相比的有益效果是：

本发明在已有VGG19网络的基础上针对其不足进行改进，通过删减其他卷积层或全连接层及其不同组合，或者改变不同层次卷积的卷积核数及全连接层结点数，生成了两种及两种以不同结构的改进VGG网络；对训练样本人脸图像进行预处理，并扩充数据集；将扩充后的数据集放入改进后的VGG网络进行训练，每种网络对应采用不同的训练方法，产生多种稳定的VGG模型，训练过程中，根据网络层次的特点，不同层次按不同比例采用前人已训练完成的参数，余下参数根据自己数据集的特点重新训练，并且根据训练过程调整学习率，缩短了训练时间，提高了人脸识别的效率；将待识别的人脸图像同时放入多种模型进行识别，从多个识别结果中选取最终的识别结果。

相比与现有技术人脸识别方法中，只在一个网络上采取一种固定的训练方法，生成的网络模型只针对某种特定的数据集有良好的识别效果，本发明提供的方法采用不同的网络和训练方法生成的模型同时对测试对象进行并行识别，集不同模型之所长，能综合提高人脸识别的准确率。本发明使VGG网络更有效的提取深层次人脸隐含特征，提高了网络对不同人脸的区分能力，适应不同特征的数据集。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图；

图2为本发明中实施例1中原VGG网络19层结构示意图；

图3为本发明实施例1中模型M_A1训练1000次时损失函数loss变化曲线图；

图4为本发明实施例1中模型M_A1训练1000次时准确率accuracy变化曲线图；

图5为本发明实施例1中两种改进VGG网络的人脸识别流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任向具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

实施例1

本发明的一种融合多种改进VGG网络的人脸识别方法，实施的具体流程如图1所示，包括如下步骤：

步骤1：改进使用的原VGG19网络如图2所示，是一个19层的卷积神经网络，输入端image是一个固定尺寸为224*224的RGB图像，整个网络包括前16个卷积层(5个Group)和后3个全连接层(FC6、FC7、FC8)，每个Group后面进行最大池化操作，前两个全连接层FC6和FC7后面进行Droupout操作删除部分结点防止网络过拟合，最后经过softmax函数进行分类。原VGG网络中各卷积层的卷积核大小为3*3，滑动步长为1，自动填充1；池化层窗口大小为2*2，滑动步长为2，具体参数配置如表1所示。

表1原VGG19网络参数统计

在原VGG19网络的基础上，通过删减前两个全连接层减少网络训练参数、增加最后四个卷积层的卷积核数量以提高特征提取维度等方法，对VGG网络进行优化改进，产生两种及以上的改进VGG网络；

所述步骤1中改进VGG网络的方法包括在原VGG19网络的基础上，保持Group1～Group4中16个卷积层结构及参数配置不变，通过删减原VGG网络中19个层次中的第一个全连接层FC6和第二个全连接层FC7，同时删除这两个全连接层的Dropout操作，FC8结点数量根据样本种类确定，此处选取为1000，得到改进后的网络VGG_A。

其中，本发明中所述相关操作均在tensorflow训练框架下搭建完成，全连接层参数设置可通过tf.nn.relu(fc(input,kernel,output))函数实现，relu为激励函数，input为数据输入通道，kenel表示节点大小，output表示输出数据通道。

所述增加最后四个卷积层的卷积核数量改进VGG网络的方法为在的基础上，将最后一组Group5中4个卷积层中卷积核的数量由原来的512个增至P个，此处P选取为600，所有层中卷积核大小为3*3保持不变，同时将池化方式由最大值池化max-pooling改为平均值池化average-pooling,以强化总体特征的提取，得到改进后的网络VGG_B。改进后的VGG网络参数对比如表2所示。

表2两种改进VGG与原VGG网络参数对比

卷积操作在tensorflow中可以通过自带函数tf.nn.relu(conv2d(x,w,strides,padding))实现，x为上一层的输出，w为卷积核大小根据每层参数设置，steides为滑动步长设置为[1,1,1,1]，padding为填充设置为SAME。

本实施例1中只改进两种网络模型VGG_A和VGG_B，不再改进生成其他VGG_I。

步骤2：对训练样本人脸图像进行预处理方法包括人脸对齐、人脸剪裁、图像归一化，其作用为将人脸从训练样本图像背景中分离，并将人脸摆正，提取有效信息，便于网络在训练中收敛。

其中人脸对齐可以采用基于仿射变换的多姿态人脸矫正方法或基于Clifford代数3D人脸姿态矫正方法，人脸剪裁的目的是将人脸部分从整个图像背景中分离出来，图像归一化是将图像像素处理为224*224的固定值作为输入，相关技术细节较为成熟，此处不再赘述。

对于数据集的扩充，主要采取的方法为水平翻转、角度转换、RGB颜色变化和随机剪裁对样本多样化进行增强的处理。目的是扩充了训练样本的数量，避免网络模型过拟合，相关技术细节较为成熟，此处不再赘述。

步骤3：对于网络的不同训练方法包括放弃原有的标准高斯分布随机初始化方法，初始的参数选取Karen Simonyan公布的VGG权值参数，其中第1～8个卷积层保持权值参数不变，第9～12个层卷积层随机选取80％权值参数不变，剩下20％重新训练，第13～16个卷积层随机选取40％权值参数不变，剩下60％重新训练，前两个全连接层FC6和FC7已经删除，无训练参数，最后一个全连接层FC8的参数全部重新训练，这种改变参数初始化的训练方法为Train1。

其中，将Karen Simonyan公布的VGG19权值参数文件vgg19.npy放在当前文件夹下，通过np.load(vgg19_path,encoding＝’latin1’).item语句遍历文件内键值对，导入模型参数。参数vgg19_path＝os.path.join(os.getcw()”vgg19.npy”)为参数文件vgg19.npy的存放路径。

所述采用不同的训练方法包括法在训练方法Train1的基础上，选取交叉熵代价函数(cross-entropy)作为损失函数loss function，并且使用正则化缓和过拟合，选取Adam(Adaptive Moment Estimation)为训练时的优化器。在训练过程中，学习率设置过大，会导致待优化的参数在最小值附近波动，不收敛，学习率过小，会导致待优化的参数收敛缓慢，所以在训练过程中自定义调整更新学习率，在训练初期设置较大的学习率，随着训练轮数的增加，呈指数衰减学习率，基本公式如下：

LR＝(0.001*(0.9**Iter))

其中，LR为学习率，0.001为初始学习率，Iter为训练时的迭代次数，0.9位学习率衰减系数，每次Iter训练100张照片，根据Iter调整学习率的变化，这种调整学习率的训练方法为Train2。

在tensorflow中交叉熵损失函数(cross-entropy)可以通过自带tf.nn.softmax_cross_entropy_with_logits_v2(labels,logits)函数实现，labels为实际种类，logits为训练过程中的预测结果；对参数权值参数W进行用L2正则化，在Tesnsorflow中的函数表示为loss(w)＝tf.contrib.layers.l2_regularizer(REGULARIZER)(w)，超参数REGULARIZER为正则化的权重，实现正则化为tf.add_to_collection('losses',tf.contrib.layers.l2_regularizer(regularizer)(w)，loss＝cem+tf.add_n(tf.get_collection('losses'))，cem为交叉熵损失函数的输出结果。优化器函数为tf.train.AdamOptimizer(lr).minimize(loss)，优化目的为最小化损失函数，即minimize(loss)。步骤4中训练模型MA1为1000次时的损失函数loss变化曲线如图3所示。

本实施例1中只采用两种训练方法Train1和Train2，不再使用其他训练方法TrainJ进行训练，但通过模仿训练方法Train1更改不同层次的参数重训练比例大小，能够得到其它多种训练方法，如：其中第1～12个卷积层保持权值参数不变，第13～16个卷积层随机选取50％权值参数不变，剩下50％重新训练。同样通过模仿训练方法Train2设置不同的初始学习率及不同的学习率衰减系数、选取不同的损失函数，也能够得到其它多种训练方法，如：设置初始学习率为0.0001，更改学习率衰减系数为0.8，选取均方差作为损失函数。

步骤4：将待识别人脸图像分别放入网络VGG_A和VGG_B中，每种网络分别采用不同的训练方法Train1和Train2产生4种稳定VGG模型分别为M_A1、M_A2、M_B1、M_B2。其中训练模型M_A1为1000次时，整体准确率accuracy变化曲线如图4所示，其最终准确率达到96％以上。

选取最终识别结果的方法为将待识别人脸图像放入已训练完的4个VGG模型中，最后经过softmax分类器输出识别结果概率从高到低排序，选取概率最高的前5个结果，通过np.argsort(probability[0])[-1:-6:-1]语句读取数值最大的5个概率，若真实结果在前5个高概率结果中，则判断识别正确，将待识别人脸图像重复识别M次，其中正确识别次数为N，N/M即为对应模型的准确率，实现流程如图5所示。

具体的，把数据集分别放入四个模型中进行识别，得到不同人甲、乙、丙在各个模型中的的识别率，如表3所示。

表3测试集在不同模型下的识别率

	M<sub>A1</sub>	M<sub>A2</sub>	M<sub>B1</sub>	M<sub>B2</sub>
					甲	0.921	0.958	0.942	0.953
乙	0.962	0.937	0.946	0.951
					丙	0.932	0.949	0.968	0.968
……	……	……	……	……

如表3所示，特定数据集中甲、乙、丙为三个不同的人，甲在模型M_A2中的识别率最高，则选取M_A2模型的结果为最终识别结果，乙在模型M_A1中的识别率最高，则选取M_A1模型的结果为最终识别结果，丙在模型M_B1和M_B2中识别率相同且都为最高识别率，则随机选取一个为最终识别结果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种融合多种改进VGG网络的人脸识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述的步骤1中VGG_I的I＝2，在原VGG19网络的基础上，通过删减前两个全连接层,以减少网络训练参数；通过增加最后四个卷积层的卷积核数量，以增加网络对人脸图像特征提取的维度。

3.根据权利要求2所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述的步骤1中VGG_I的I＝2，通过删减前两个全连接层,即保持Group1～Group4中16个卷积层结构及参数配置不变，通过删减原VGG网络中19个层次中的第一个全连接层FC6和第二个全连接层FC7，同时删除这两个全连接层的Dropout操作，保留第三个全连接层FC8，其结点数量根据样本种类确定，得到改进后的网络VGG_A；在VGG_A的基础上，将最后一组Group5中4个卷积层中卷积核的数量由原来的512个增至P个，P可以选取600或800，所有卷积层中卷积核大小为3*3保持不变，同时将最后一个池化层的池化方式由最大值池化max-pooling改为平均值池化average-pooling,以强化网络对人脸图像总体特征的提取，得到改进后的网络VGG_B。

4.根据权利要求1所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述步骤2中对训练样本人脸图像进行预处理的方法包括人脸对齐、人脸剪裁、图像归一化。

5.根据权利要求1所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述步骤3中采用不同的训练方法包括放弃原有的标准高斯分布随机初始化方法，初始的参数选取Karen Simonyan公布的VGG权值参数，其中第1～8个卷积层保持权值参数不变，第9～12个层卷积层随机选取80％权值参数不变，剩下20％重新训练，第13～16个卷积层随机选取40％权值参数不变，剩下60％重新训练，前两个全连接层FC6和FC7已经删除，无训练参数，最后一个全连接层FC8的参数全部重新训练，这种改变参数初始化的训练方法为Train1。

6.根据权利要求5所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述步骤3中采用不同的训练方法包括在训练方法Train1的基础上，选取交叉熵代价函数(cross-entropy)作为损失函数loss function，并且使用正则化缓和过拟合，选取Adam(Adaptive Moment Estimation)为训练时的优化器；在训练过程中自定义调整更新学习率，从而加快训练速度，在训练初期设置较大的学习率，随着训练轮数的增加，学习率更新衰减，基本公式如下：

LR＝(0.001*(0.9**Iter))

7.根据权利要求5所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述步骤3中采用不同的训练方法包括模仿训练方法Train1更改不同层次的参数重训练比例大小，能够得到其它训练方法。

8.根据权利要求6所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述步骤3中采用不同的训练方法包括模仿训练方法Train2设置不同的初始学习率及不同的学习率衰减系数、选取不同的损失函数，能够得到其它训练方法。

9.根据权利要求1所述的一种融合多种改进VGG网络的人脸识别方法，其特征在于，所述步骤4中从多个识别结果中选取识别率最高的作为最终识别结果的方法为，将待识别人脸图像放入已训练完的I*J个VGG模型中，经过softmax分类器输出识别结果概率从高到低排序，选取概率最高的前5个结果，若真实结果在前5个高概率结果中，则判断识别正确，将待识别人脸图像重复识别M次，其中正确识别次数为N，N/M即为对应模型的准确率，选取I*J个VGG模型中准确率最高的结果为最终结果。