CN106372581B

CN106372581B - 构建及训练人脸识别特征提取网络的方法

Info

Publication number: CN106372581B
Application number: CN201610726171.1A
Authority: CN
Inventors: 吴晓雨; 郭天楚; 杨磊; 朱贝贝; 谭笑
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2016-08-25
Filing date: 2016-08-25
Publication date: 2020-09-04
Anticipated expiration: 2036-08-25
Also published as: CN106372581A

Abstract

本发明提供了一种构建及训练人脸识别特征提取网络的方法，其中，该方法包括：构建特征提取网络和度量学习降维网络，其中，所述特征提取网络的输出为所述度量学习降维网络的输入；基于全部样本集训练所述特征提取网络从而输出特征集；利用语义采样筛选所述特征集从而获得纯净样本集；基于所述纯净样本集训练所述度量学习降维网络。通过本发明构建的自然人脸识别网络可以提高特征的表征能力，从而充分挖掘数据中的特征信息，可以准确识别原始人脸图片。

Description

构建及训练人脸识别特征提取网络的方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种人脸识别网络的构建方法，具体来说就是一种构建及训练人脸识别特征提取网络的方法。

背景技术

人脸识别一直以来都是计算机视觉中的热点话题。与传统的虹膜识别、指纹识别等生物特征识别相比，人脸识别不需要借助特殊的媒介采集数据，只通过最为普通的摄像头获取的影像数据或图片即可完成识别任务。这使得人脸识别比虹膜识别、指纹识别等具有更为广泛的应用场景。人脸识别作为生物特征识别的一种，多被应用于安防、身份认证等领域。随着社会的不断发展及科学技术的不断进步，人脸识别技术已经慢慢地从实验室研究走入了人们的生活。进而人脸识别被应用在门禁、考勤、手机解锁、金融支付等更加贴近日常生活的领域。

但是，人脸识别技术应用在日常生活场景中，也存在一个不可回避的问题，就是人脸识别设备无法获取到类似于实验室采集的标准光照、标准姿态的照片。在日常人脸识别场景中，人们很可能是在自然状态下通过手机摄像头采集照片，这导致这些待识别数据也趋近于自然、任意、多光照、多表情的人脸图片。这些数据与之前实验室获取的标准光照、标准姿态的人脸数据相比，自然生活状态下的人脸含有较多的噪声，在识别过程中需要考虑不均衡光照，非正面姿态、表情以及人物是否有面部小范围遮挡，是否化妆等因素，使得传统的人脸识别技术受到了巨大的挑战。因此，如何研发出一种对外在干扰因素鲁棒的人脸识别技术是当前亟待解决的一个问题。

现有技术中，获得一个具有鲁棒性的人脸识别模型，依赖庞大的训练数据。希望训练数据与实际预测数据具有相似的统计分布。目前，随着互联网的发展，以及社交网络的普及，在当前大数据时代，人们可以通过互联网获取庞大的训练数据。但如何利用这些庞大的训练数据，使得人脸识别模型充分学习到所需要的信息成为当下研究的热点。随着深度学习的流行与发展，人们发现深度学习与浅层学习相比，深度学习能更好的描述数据中隐含的信息，并且比浅层学习具有更好的表征能力及对目标函数的拟合能力。因此，在自然图像识别领域，深度学习取得了突出的贡献。然而人脸识别与自然图像识别是两个不同的任务，具有相似性也具有不同的特点。相似点表现为二者都是图像识别任务，参考信号以及损失函数相似，都是利用深度学习网络高度抽象及表征拟合能力处理庞大的数据；不同点在于自然图像千差万别，背景复杂庞大，网络可能需要更多的考虑大范围上下文信息及颜色纹理信息，而人脸结构简单，不同人的区分度与自然图像中不同类别的区分度相比，不同人之间的区分度更小，在人脸识别任务中需要更多的关注细节差异，较少的关注颜色信息。故而不能直接的将自然图像识别的训练方式及网络结构直接应用在人脸识别任务中。

现有常见的自然人脸识别深度神经网络，例如CASIA-NET，其训练数据全部采集自互联网，并且去除了与LFW数据库中重叠的人物身份，保证了训练集与测试集不重叠。CASIA-Net共包含10个卷积层，一个全连接分类层，如图7所示，具体参数如下表a，表a为CASIA-Net的网络参数，从表a中可以看出，CASIA-Net融合了现有比较成功的神经网络设计技巧，包括深层结构、低维表示、多损失函数。较小的卷积核堆叠不仅可以降低参数的数量，还可以增加网络的非线性能力，CASIA-Net中全部用的是3*3卷积的堆叠。受现有VGG-Net的启发，CASIA-Net将两个3*3组成一个stage，共5个stage组成整个网络。CASIA-Net并没有采用全连层来融合特征图像(feature map)来得到低维的特征，整个网络特征提取都用的是卷积操作。池化5(Pool5)层是特征层，低维表示符合人脸低维流行分布的假设。由于低维表示需要包含人脸的所有区分信息，而ReLU会使得神经元稀疏，故而卷积52(Conv52)并没有采用ReLU激活。在最大池化(max pooling)中，是取感知域最大值作为激活值传入下一层，在特征层中若采用max pooling，很容易引入噪声敏感区域。故在conv52层后采用averagepooling操作，在特征层融合softmax信号和verification信号学习到了更多的有利于区分人脸的表示信息。

表a

众所周知，人脸与自然图像不同，人脸结构单一且固定。对于人脸分类的网络，不仅需要大尺度特征，也需要更多的关注图像的细节特征，即需要更小的卷积核，更小的感知域来捕获细节。但是，现有CASIA-Net的卷积层堆叠简单，对网络提取的特征也没有深入研究，卷积核均采用3*3，特征尺度单一，因此现有CASIA-Net无法胜任自然人脸特征识别。

为了进一步改善现有的自然人脸识别深度神经网络，人们试图引入其它学习思想，以使自然人脸识别深度神经网络的参数达到一个较优的位置，例如，度量学习的引入可以改善自然人脸识别深度神经网络的特性。度量学习的典型损失函数为tripletloss。但tripletloss在神经网络训练中存在几个问题：一是硬件资源不足，二是不能良好的和softmax统一训练，三是在特征空间提供误差对噪声不鲁棒。

因此，现有自然人脸识别深度神经网络依然无法准确识别自然人脸，因而，如何改进现有的人脸识别深度神经网络来准确识别自然人脸图片成为了本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种构建及训练人脸识别特征提取网络的方法，解决了现有深度学习网络的不能精确提取有效特征，以及不能准确识别原始人脸图片的问题。

为了解决上述技术问题，本发明的具体实施方式提供一种构建及训练人脸识别特征提取网络的方法，包括：构建特征提取网络和度量学习降维网络，其中，所述特征提取网络的输出为所述度量学习降维网络的输入；基于全部样本集训练所述特征提取网络从而输出特征集；利用语义采样筛选所述特征集从而获得纯净样本集；基于所述纯净样本集训练所述度量学习降维网络。

根据本发明的上述具体实施方式可知，构建及训练人脸识别特征提取网络的方法至少具有以下有益效果：同时利用特征提取网络和度量学习降维网络进行特征提取。在特征提取网络中，设计了以阶段(Stage)堆叠方式的深度学习网络，从而让深度学习网络具有更好的特征提取能力；在Stage的设计中，同时采用了1*1、3*3、5*5的卷积核，并同时对前一层的特征图像(feature map)卷积，并将得到的feature map叠加，以此来提取多尺度的特征；然后，采用了一个3*3的卷积核对多尺度的feature map进行卷积，将多尺度卷积核的特征融合起来，并且，通过feature map维度的变化，达到了先扩张，充分学习较完备的特征，再压缩，去除冗余特征的目的；每一个Stage都可以看作是卷积核的叠加，卷积核的叠加可以看作利用较少的权重得到较大的感知域，并且增强了深度学习网络的非线性表征层。另外，引入度量学习降维网络，度量学习降维网络的输入为特征提取网络提取到的图像的较低维特征，特征提取网络的输出特征集通过语义采样，筛选出纯净样本集；再利用纯净样本集训练度量学习降维网络；然后利用度量学习损失函数tripletloss优化度量学习降维网络，同时利用特征提取网络和度量学习降维网络进行特征提取，提高特征的表征能力，从而充分挖掘数据中的特征信息，指导深度学习网络快速求解，可以准确识别原始人脸图片。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本发明所欲主张的范围。

附图说明

下面的所附附图是本发明的说明书的一部分，其绘示了本发明的示例实施例，所附附图与说明书的描述一起用来说明本发明的原理。

图1为本发明具体实施方式提供的一种构建及训练人脸识别特征提取网络的方法的实施例一的流程图；

图2为本发明具体实施方式提供的一种构建及训练人脸识别特征提取网络的方法的实施例二的流程图；

图3A为本发明具体实施方式提供的原始人脸图片示意图；

图3B为利用本发明具体实施方式提供的自然人脸识别网络处理原始人脸图片后获得的标准人脸图片示意图；

图4为本发明具体实施方式提供的特征提取网络的示意图；

图5为本发明具体实施方式提供的二维特征残差示意图；

图6A为传统的tripletLoss示意图；

图6B为本发明具体实施方式提供的tripletLoss示意图。

图7为现有技术中CASIA-Net深度神经网络的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

图1为本发明具体实施方式提供的一种构建及训练人脸识别特征提取网络的方法的实施例一的流程图，如图1所示，构建特征提取网络和度量学习降维网络，并训练特征提取网络和度量学习降维网络。

该附图所示的具体实施方式包括：

步骤101：构建特征提取网络和度量学习降维网络，其中，所述特征提取网络的输出为所述度量学习降维网络的输入。构建特征提取网络和度量学习降维网络作为自然人脸识别网络的特征提取模块。

步骤102：基于全部样本集训练所述特征提取网络从而输出特征集。具体包括：基于全部样本集利用损失函数softmax训练所述特征提取网络从而输出特征集。本发明的具体实施例中，特征集的特征维度为320；全部样本集为CASIA-WebFace数据库，CASIA-WebFace数据库共包含10575个类别，49万张图片；在所述特征提取网络中同时运用1*1、3*3、5*5卷积核，从而形成多尺度特征融合方式。

步骤103：利用语义采样筛选所述特征集从而获得纯净样本集。具体包括：利用语义采样筛选所述特征集中距离特征平面最远的90％样本作为纯净样本集。本发明的具体实施例中，纯净样本集为DataSubset；通过Logistic回归获得特征平面；纯净样本集的特征维度为320。

步骤104：基于所述纯净样本集训练所述度量学习降维网络，纯净样本集经度量学习降维网络后特征维度降为128。

参见图1，本发明引入度量学习降维网络，依次利用特征提取网络和度量学习降维网络处理标准人脸图片，提高特征的表征能力，从而充分挖掘数据中的特征信息，指导深度学习网络快速求解，可以准确识别原始人脸图片。

图2为本发明具体实施方式提供的一种构建及训练人脸识别特征提取网络的方法的实施例二的流程图，如图2所示，基于所述纯净样本集训练所述度量学习降维网络之后，需要利用改进的度量学习损失函数tripletLoss优化所述度量学习降维网络。

该附图所示的具体实施方式中，步骤104之后，该方法还包括：

步骤105：利用度量学习损失函数tripletLoss优化所述度量学习降维网络。利用度量学习损失函数tripletLoss优化所述度量学习降维网络时，以远离大多数样本点的样本点为锚点从而使远离大多数样本点的样本点向大多数样本点靠近。

本发明使用的度量学习损失函数tripletLoss的具体公式为：

tripletloss＝log(1+z)

其中，

z为中间变量；f_a为选定样本a的特征；f_p为选定样本p的特征；f_n为选定样本n的特征；margin为人为设定的固定间隔。

其中，现有技术中的度量学习损失函数loss为：

显然，本发明改进后的度量学***衡因子，起到一个平滑的作用，从而使度量学习降维网络的网络参数达到一个较优的位置。

参见图2，利用改进的度量学习损失函数tripletLoss优化度量学习降维网络，从而使度量学习降维网络的网络参数达到一个较优的位置，可以提高度量学习降维网络的性能和鲁棒性。

图3A为本发明具体实施方式提供的原始人脸图片示意图；图3B为利用本发明具体实施方式提供的自然人脸识别网络处理原始人脸图片后获得的标准人脸图片示意图，如图3A、图3B所示，在自然状态下获取的原始人脸图片往往是杂乱无章的。比如，原始人脸图片中很可能包含多个人脸，包含复杂背景，且人脸的面内旋转角度不一。若将此类图片直接传入深度网络学习(如特征提取网络、度量学习降维网络等)，那么深度网络所需看到的信息便可能包含多个人脸，大小不一、角度不同的人脸，且可能包含许多背景噪声。深度网络固然可以通过大量的参数，复杂的非线性，拟合出复杂的函数来逼近表示图片中的有效内容，但若引入先验知识，对输入数据做预处理，可使得深度网络更为细致的学习到高效的特征。故而，原始人脸图片处理的任务主要包含：引入先验知识，去除传入图片中的杂乱背景，去除人脸面内旋转。原始人脸图片处理后的数据，应只包含一个人脸。本申请中，采用五点标定，如图所示，两张可看到对齐前和对齐后的图像，对齐后图像随五官在固定区域出现。

仿射变换是一种二维坐标到而为坐标的变换，可写成如下的形式：

x'＝ax+by+m 2.1

y'＝cx+dy+n 2.2

其中，x’和y’为新坐标，x’和y’可以根据系数a、b、c、d、m、n与原始坐标x、y计算出来。

如上式，仿射变换的参数可由三点唯一确定。为了起到约束作用，采取五点检测来求取和约束仿射变换参数。这里称之为“五点仿射变换”，由于五点标注为人脸的五官位置，通过“五点仿射变换”对齐后的图像，五官基本处于同一个位置左右。将所有图片对齐到128*128大小的图片上，其中，标准五官位置分别为(32,50)、(96,50)、(64,75)、(43,90)、(86,90)，分别代表左眼球、右眼球、鼻尖、左嘴角、右嘴角的位置。

图4为本发明具体实施方式提供的特征提取网络的示意图，如图4所示，首先训练特征提取网络，接下来训练度量学习降维网络。

将特征提取网络和度量学习降维网络的训练方式概括如下：

第一步，将标准人脸图片传入特征提取网络，以身份信息为参考信号(即监督信号)，softmax作损失函数，训练特征提取网络。

第二步，将所有标准人脸图片经过训练好的特征提取网络后，提取较低维特征。

第三步，将较低维特征进行语义采样，得到数据A。

第四步，以身份信息为参考信号，softmax函数作损失函数，预训练度量学习降维网络。

第五步，以类别关系为参考信号，改进的tripletloss函数作为损失函数，将较低维特征进行以batch(批量)为单位的度量采样，作为数据B，输入度量学习降维网络，得到低维特征。

以上，特征提取模块训练完毕。在预测过程中，将预训练好的数据分别传入两个网络，得到输入图像的低维表示。

特征提取网络具有以下特征：一，卷积核以stage方式堆叠，去全连层，仅仅使用卷积层提取特征；二，最后一个卷积层提取的feature map作为特征层，不采用ReLU激活，使得特征低维稠密；三，为了去除噪声，最后一个卷积核提取的特征采用average pooling。

本发明对stage进行了改进，特征提取网络包含的stage具有多尺度特征融合，特征去相关，特征维度缩减等功能。在特征提取网络中，第五阶段(stage5)的结构与通常的stage相比，少了一个5*5的卷积核，其原因为当深度网络卷积到stage5时，其输入的长和宽以较小，故而不采用5*5卷积。整个特征提取网络包含了11个非线性卷积层，1个全连分类层。网络参数见表1。表1为特征提取网络的网络参数。

表1

特征提取网络迭代20万次，初始学习率为0.01，以gamma＝0.8的幅度每一万次调整一次。当前迭代时的学习率＝初始学习率*gamma^(迭代次数/10000)(具体含义为：开始训练时学习率为0.01，第一万次迭代时学习率为0.01*gamma，第二万次迭代时为0.01*gamma＾2，以此类推)，权重衰减系数为5e-4(具体含义为10的负5次幂)。批量大小Batchsize为150。

在上文中的特征提取网络训练中，采用CASIA-WebFace全部样本作为训练集，定义该训练集输出的特征集为DataSet_All。DataSet_All包含I个人物身份。在这里需要从DataSet_All中通过语义采样抽取一部分作为度量学习降维网络参与训练的数据集——DataSubset。

原则上，需要找到较难学***衡。

为了解决以上问题，将每一身份类别训练一个简单的二值分类器——logistic回归。对于特定的身份类别，该分类器的正样本是由该身份类别的样本构成，负样本是二倍量的从不属于该身份类别的样本中个随机采集到。由此数据集训练的针对该身份类别的二分类器是弱分类器，虽然性能不是足够的高，但是对噪声有一定的宽容度。Logistic回归相当于寻找了一个超平面，正负样本在超平面的两侧。超平面参数分别为w和b。认为该超平面为该类别的特征平面。求出10575个特征平面后，逐个算出与每个特征平面距离最近的特征。特征平面之间距离公式为下述公式2.3，其中f_i，f_j分别表示第i类和第j类的特征平面。对于每个类别特征平面及其最相近的特征平面，选取该类别样本到特征平面最远的90％正样本，即最像该类别的90％样本，从90％的选取样本中随机抽取70％的样本作为采样样本，按此方法遍历10757个类别。对于样本采样过程，我们需要的只有样本到特征平面距离，不需要非线性映射的概率空间。在公式2.4中所描述的z为样本到特征平面距离，f_i为第i个类别的特征平面，x_i为i类别中的样本特征。具体步骤归纳如下：

第一步，对于身份i属于I，选取全部该身份下样本作为Pos_i，数目为N，对于所有样本身份为j，满足j属于I且j不等于i，选取2N个样本作为Neg_i。

第二步，根据Pos_i与Neg_i训练Logistic回归，得到特征平面P_i参数w_i和b_i。

第三步，重复一到二步，计算出所有特征平面。

第四步，对于身份i属于I，按照公式2.3，计算出距离特征平面f_i最近的特征平面f_j。

第五步，按公式2.4计算所有样本x_i属于身份i，到特征平面f_i的距离，降序排列，取top90％的样为sub_90，随机从sub_90中选取75％的样本放入DataSubset。

第六步，计算所有样本x_j属于身份j(语义距离身份i最近的类别)，按照第五步的方法选取样本放入DataSubset。

第七步，重复四到六步，直到遍历完所有的身份，得到最终的DataSubset。

z_sample＝w_i*x_i 2.4

在语义采样过程中，之所以选取离特征平面最远的90％该类别样本，其意义是选取了最像该类别的样本，即排除掉了错误标注，图片质量差的样本。

另外，度量学习降维网络是一个全连接网络，输入是特征提取网络的输出——320维特征，通过两个全连接到128个隐含神经元，再通过全连接到CASIA-WebFace的身份数目——10575。参数设置如表2，表2为度量学习降维网络的参数设置。这里的256维特征是稠密的，这里全连层之后均不用ReLU激活。

表2

本申请别通过以及三个方面对传统的tripletloss进行改进。

首先，tripletLoss的引入，设计了一个度量学习降维网络，并只在此网络中使用。当设计了度量学习降维网络后，tripletloss所需要观测的batch样本就不再是原始的图片x，而是通过特征提取网络提取到的x的一个较低维表达的特征。并且，度量学习降维网络只包含一个全连接的隐含层，网络参数较少，需要保存的中间数据也较少，这大大降低了内存或者显存的使用量，可以直接使用单GPU训练网络。

其次，采用本文采用了使用数据集预训练的方。先使batch中随机类别放置样本，使得batch中样本适合softmax损失函数的残差来更新网络参数，当网络处于一个较优的位置时，停止训练。再按类别，每个类别采样30个样本，共100个类别，共3000个样本，放入batch中，使得目前batch中的样本适合于tripletloss残差更新网络参数。分别采用两种训练方式使得网络从一个较优的位置开始度量学***衡两种损失函数之间的关系。

最后，我们改进tripletloss的损失函数，使其加入对于残差过大的平衡因子。如公式2.5和2.6，

Loss＝log(1+z)............2.5

由于log函数是一个具有平滑作用的函数。该函数的引入，使得网络Loss对于选定样本a的特征f_a求导时，加入了一个1/(1+z)的系数，随着z的增大，该残差系数越小，起到了一个平滑的作用。

图5为本发明具体实施方式提供的二维特征残差示意图，如图5所示，点a为选中的样本点——锚点，p为与a点有相同身份的样本——正样本，n为与a有不同身份的样本——负样本。双箭头代表着正样本对与负样本对之间的距离。根据公式2.5、2.6得到此时损失函数对样本a点的残差为f_n-f_p，即两个特征向量之差，此项量是由p点指向n点的向量，即梯度方向为由p点指向n点，幅度为f_n-f_p的模值。网络是梯度下降的更新原则，其意义是调整网络参数，使得网络逆着梯度残差方向。即希望改变网络参数，使得a点向a’点的方向移动。当加入平滑后，梯度的幅度不再是f_n-f_p的模值，而是乘以了一个1/(1+z)的系数，即希望网络改变参数使得a点移动到a’点的位置。随着z的增大，系数减小，可以平滑的使a逆着梯度方向移动。

图6A为传统的tripletLoss示意图，图6B为本发明具体实施方式提供的tripletLoss示意图，如图6A、图6B所示，传统的tripletLoss限制采集到的负样本不能是最难的负样本，而是较难的负样本，否则会使得网络在早期引起梯度崩塌。但本发明提出的tripletLoss是在一个具有较少参数的网络中使用，且网络参数基本已经达到一个较优的位置，故而对于三元组的采样可以不严格按照归一化欧式距离公式所要求。

在本发明的改进的tripletloss中，采用了语义采样来训练。在语义采样中已经排除了较多的噪声部分，使得我们采集到的正样本含有较少的噪声，使得网络受到干扰较小。通过实验发现，在一个batch中，每一个类别包含30个样本，分别以每一个样本为锚点，选取最难的正样本时，我们发现，在batch中标号为1的样本，总是被选中为以其他样本为锚点时的最难正样本。并且被选中为最难正样本的样本分布较为集中，表现为总有那么几个点“不合群”，远离其他样本点，如图6A、图6B所示，灰色深度表示以每个样本点为锚点时，每个样本点被选中为其他样本点最难正样本的频率，灰色深度越深频率越高。与其以每一个点为锚点，让大多数的点去靠近不合群的点，不如以不合群的点为锚点，让这个锚点向大多数点来靠近。图6A中左侧为原始采样方式，梯度会使得最大多数点去向“不合群”的点靠拢；图6B为本文的采样方式，使得“不合群”的点向大多数点靠拢。以图6B中batch中标号为1的点为例，它被认为是同类别中11个点的最难正样本点，这里称这11个点组成了一个set_1，那么以1号点为锚点，set_1中的11个点为最难正样本点，随机抽取满足下述公式2.7的负样本点。如此，相当于对于锚点1号点，提供了11个不同的特征误差，使得网络更新权重让1号点朝着大部分样本点靠近。

具体步骤如下：

第一步，将DataSubset数据集，按照每一类采样30个样本，每个batch包含100个类别准备数据。

第二步，用预训练好的网络系数初始化网络。

第三步，在每个batch中，对于每一个输入样本，随机选取最难正样本，组成set。

第四步，选取set中的样本作为锚点，与其对应的样本为最难正样本，随机选取满足公式2.7的负样本，组成三元组对，更新网络参数。

本发明具体实施例提供一种构建及训练人脸识别特征提取网络的方法，同时利用特征提取网络和度量学习降维网络进行特征提取。在特征提取网络中，设计了以阶段(Stage)堆叠方式的深度学习网络，从而让深度学习网络具有更好的特征提取能力；在Stage的设计中，同时采用了1*1、3*3、5*5的卷积核，并同时对前一层的特征图像(featuremap)卷积，并将得到的feature map叠加，以此来提取多尺度的特征；然后，采用了一个3*3的卷积核对多尺度的feature map进行卷积，将多尺度卷积核的特征融合起来，并且，通过feature map维度的变化，达到了先扩张，充分学习较完备的特征，再压缩，去除冗余特征的目的；每一个Stage都可以看作是卷积核的叠加，卷积核的叠加可以看作利用较少的权重得到较大的感知域，并且增强了深度学习网络的非线性表征层。另外，引入度量学习降维网络，度量学习降维网络的输入为特征提取网络提取到的图像的较低维特征，特征提取网络的输出特征集通过语义采样，筛选出纯净样本集；再利用纯净样本集训练度量学习降维网络；然后利用度量学习损失函数tripletloss优化度量学习降维网络，同时利用特征提取网络和度量学习降维网络进行特征提取，提高特征的表征能力，从而充分挖掘数据中的特征信息，指导深度学习网络快速求解，可以准确识别原始人脸图片。

上述的本发明实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本发明的实施例也可为在数据信号处理器(Digital Signal Processor，DSP)中执行上述方法的程序代码。本发明也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(Field Programmable Gate Array，FPGA)执行的多种功能。可根据本发明配置上述处理器执行特定任务，其通过执行定义了本发明揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本发明执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本发明的精神与范围。

以上所述仅为本发明示意性的具体实施方式，在不脱离本发明的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.一种构建及训练人脸识别特征提取网络的方法，其特征在于，该方法包括：

处理原始人脸图片以获得标准人脸图片，构建标准人脸图片的特征提取网络和度量学习降维网络，其中，所述特征提取网络输出包括高维人脸特征信息的特征集，所述特征提取网络的输出为所述度量学习降维网络的输入，所述度量学习降维网络的输出为包括低维人脸特征信息的特征集，所述低维人脸特征信息是对所述高维人脸特征信息降维后的结果；

以身份信息为参考信号，基于全部样本集的标准人脸图片训练所述特征提取网络从而输出包括高维人脸特征信息的特征集；

利用语义采样筛选包括高维人脸特征信息的特征集从而获得包括具有与其相同维度人脸特征信息的纯净样本集；

以身份信息为参考信号，基于纯净样本集训练所述度量学习降维网络；

利用语义采样筛选包括高维人脸特征信息的特征集从而获得包括具有与其相同维度人脸特征信息的纯净样本集的步骤，具体包括：

利用语义采样筛选包括高维人脸特征信息的特征集中距离特征平面最远的90％样本作为包括具有与其相同维度人脸特征信息的纯净样本集；

基于所述纯净样本集训练所述度量学习降维网络的步骤之后，该方法还包括：

利用度量学习损失函数tripletLoss优化所述度量学习降维网络；

所述度量学习损失函数tripletLoss的具体公式为：

tripletloss＝log(1+z)

其中，

z为中间变量；f_a为选定样本a的特征；f_p为选定样本p的特征；f_n为选定样本n的特征；p为与a为具有相同身份的正样本，n为与a具有不同身份的负样本；margin为预设的固定间隔；

利用度量学习损失函数tripletLoss优化所述度量学习降维网络时，以远离大多数样本点的样本点为锚点从而使远离大多数样本点的样本点向大多数样本点靠近。

2.如权利要求1所述的构建及训练人脸识别特征提取网络的方法，其特征在于，以身份信息为参考信号，基于全部样本集的标准人脸图片训练所述特征提取网络从而输出包括高维人脸特征信息的特征集的步骤，具体包括：

基于全部样本集的标准人脸图片利用损失函数softmax训练所述特征提取网络从而输出包括高维人脸特征信息的特征集。

3.如权利要求1所述的构建及训练人脸识别特征提取网络的方法，其特征在于，所述特征平面是通过Logistic回归获得的。

4.如权利要求1所述的构建及训练人脸识别特征提取网络的方法，其特征在于，在所述特征提取网络中同时运用1*1、3*3、5*5卷积核，从而形成多尺度特征融合方式。

5.如权利要求1所述的构建及训练人脸识别特征提取网络的方法，其特征在于，所述包括高维人脸特征信息的特征集的特征维度为320；纯净样本集的人脸特征信息维度为320；所述纯净样本集经度量学习降维网络后特征维度降为128。

6.如权利要求1所述的构建及训练人脸识别特征提取网络的方法，其特征在于，所述全部样本集为CASIA-WebFace数据库。