CN109190654A

CN109190654A - 人脸识别模型的训练方法和装置

Info

Publication number: CN109190654A
Application number: CN201810746086.0A
Authority: CN
Inventors: 罗培元
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Hangzhou Jiji Intellectual Property Operation Co., Ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2019-01-11

Abstract

本申请实施例提供了一种人脸识别模型的训练方法和装置，其中，该方法包括：获取图像数据；通过改进的特征提取模型提取图像数据中的图像特征信息，改进的特征提取模型为改进的mobilenetV2模型；通过改进的归一化层对图像特征信息进行归一化处理，得到归一化后的图像特征信息；通过改进的嵌入层从归一化后的图像特征信息中获取特征向量；根据所述特征向量，训练人脸识别模型。由于该方案通过有针对性地使用改进的mobilenetV2模型作为特征提取模型，并相应地修改了归一化层和嵌入层，以简化模型结构，并兼顾处理精度；再利用改进后的上述模型训练人脸识别模型，从而解决了现有方法中存在的处理效率低、不能较好地适用于嵌入式ARM设备的技术问题。

Description

人脸识别模型的训练方法和装置

技术领域

本申请涉及人脸识别技术领域，特别涉及一种人脸识别模型的训练方法和装置。

背景技术

在人脸识别技术领域，通常会通过深度学习，训练得到能够进行人脸识别的神经网络，即人脸识别模型。

目前，为了训练得到上述人脸识别模型，现有方法大多是基于FaceNet算法对神经网络进行训练学习，以得到具有较高识别精度的人脸识别模型。但是上述FaceNet算法受限于实现机理，所包含的特征提取模型(DEEP ARCHITECTURE)虽然具有较高的处理精度，但上述模型的结构相对较为繁琐，导致具体运行时处理速率相对较低。此外，FaceNet算法所涉及的其他层，例如归一化层(L2层)、嵌入层(EMBEDDING层)等也存在一些结构的缺陷。而对于嵌入式ARM(Advance RISC Machines)设备而言，往往要求在保证较高的处理精度的同时，还要求处理速率也要相对较高。因此，现有的基于FaceNet算法的人脸识别模型的训练方法往往也不适用于嵌入式ARM设备。综上可知，现有方法具体实施时，往往存在处理效率低、不能较好地适用于嵌入式ARM设备的技术问题。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种人脸识别模型的训练方法和装置，以解决现有方法中存在的处理效率低、不能较好地适用于嵌入式ARM设备的技术问题，达到能兼顾处理精度的同时，有效提高处理效率的技术效果。

本申请实施例提供了一种人脸识别模型的训练方法，包括：

获取图像数据；

通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型；

通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息；

通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量；

根据所述特征向量，训练人脸识别模型。

在一个实施方式中，所述改进的mobilenetV2模型按照以下方式获取：

删除所述mobilenetV2模型中的Linear层。

在一个实施方式中，所述改进的归一化层按照以下方式获取：

修改归一化层的归一化范围，得到所述改进的归一化层，其中，所述改进的归一化层的归一化范围为大于等于0，且小于等于255。

在一个实施方式中，所述改进的嵌入层按照以下方式获取：

扩充嵌入层的特征向量维度，得到所述改进的嵌入层，其中，所述改进的嵌入层的特征向量维度为256。

在一个实施方式中，根据所述特征向量，训练人脸识别模型，包括：

根据所述特征向量，利用改进的多元损失层训练人脸识别模型。

在一个实施方式中，所述改进的多元损失层按照以下方式获取：

修改多元损失层中的损失函数，得到所述改进的多元损失层，其中，所述改进的多元损失层中损失函数为三元损失函数。

在一个实施方式中，所述三元损失函数为以目标人的第一人脸数据、目标人的第二人脸数据、非目标人的人脸数据作为输入所生成的损失函数，其中，所述目标人的第一人脸数据和所述目标人的第二人脸数据为所述目标人的不同状态下的人脸数据。

本申请实施例还提供了一种人脸识别模型的训练装置，包括：

第一获取模块，用于获取图像数据；

提取模块，用于通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型；

归一化模块，用于通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息；

第二获取模块，用于通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量；

训练模块，用于根据所述特征向量，训练人脸识别模型。

在一个实施方式中，所述装置应用于嵌入式ARM设备中。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现获取图像数据；通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型；通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息；通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量；根据所述特征向量，训练人脸识别模型。

在本申请实施例中，通过有针对性地使用容易收敛、处理速度快的改进的mobilenetV2模型作为特征提取模型，并相应地修改了归一化层和嵌入层，以简化模型结构，并兼顾处理精度；再利用改进后的上述模型训练人脸识别模型，从而解决了现有方法中存在的处理效率低、不能较好地适用于嵌入式ARM设备的技术问题，达到能兼顾处理精度的同时，有效提高处理效率的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施方式提供的人脸识别模型的训练方法的处理流程图；

图2是现有方法中的FaceNet算法的结构示意图；

图3是根据本申请实施方式提供的人脸识别模型的训练方法中的改进的mobilenetV2模型的部分原理结构示意图；

图4是根据本申请实施方式提供的人脸识别模型的训练装置的组成结构图；

图5是基于本申请实施例提供的人脸识别模型的训练方法的电子设备组成结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

考虑到现有的人脸识别模型的训练方法大多是基于FaceNet算法实现的，而FaceNet算法中的模型结构相对较为繁琐、复杂，导致利用上述FaceNet算法虽然能得到较好的处理精度，但处理效率相对较低。例如，FaceNet算法中的特征提取模型往往使用的是inception_resNet之类的神经网络模型。这类神经网络模型在整体结构上表现为深而宽，具有提取的特征较为丰富的优点；但也正是由于上述的结构特点，在将上述神经网络模型作为特征提取模型训练人脸识别模型时，往往不容易收敛，处理速度相对较慢。此外，FaceNet算法中涉及到的其他模型，例如归一化层、嵌入层等在结构上也具有一定缺点。由于FaceNet算法所涉及的模型的结构存在上述缺点，导致现有的基于FaceNet算法的人脸识别算法在具体实施时，往往存在处理效率低、不能较好地适用于嵌入式ARM设备的技术问题。针对产生上述技术问题的根本原因，本申请考虑可以对FaceNet算法所涉及的模型，例如特征提取模型、归一化层、嵌入层等的模型结构分别进行针对性的改进，以兼顾处理精度的基础上，简化模型结构，提高处理效率，以便可以适用于嵌入式ARM设备。从而解决了现有方法中存在的处理效率低、不能较好地适用于嵌入式ARM设备的技术问题，达到能兼顾处理精度的同时，有效提高处理效率的技术效果。

基于上述思考思路，本申请实施例提供了一种人脸识别模型的训练方法。具体请参阅图1所示的根据本申请实施方式提供的人脸识别模型的训练方法的处理流程图。本申请实施例提供的人脸识别模型的训练方法，具体实施时，可以包括以下步骤。

S11：获取图像数据。

在本实施方式中，上述图像数据具体可以是包含有人脸的图像数据，相应的，上述图像数据可以理解为是用于训练人脸识别模型的训练样本数据。其中，上述人脸识别模型是本申请实施例所提供的人脸识别模型的训练方法所要训练得到的用于人脸识别的神经网络模型。

在本实施方式中，上述获取图像数据具体可以包括：采集包含有人脸的照片作为上述图像数据；和/或，从视频数据中截取包含有人脸的图片作为上述图像数据等。当然，需要说明的是，上述所列举的获取图像数据的方式只是为了更好地说明本申请实施方式。具体实施时，也可以根据具体的应用场景，选择其他方式获取上述图像数据，对此本申请不作限定。

S12：通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型。

在本实施方式中，上述特征提取模型(即DEEP ARCHITECTURE)具体可以理解为在训练人脸识别模型过程中用于提取训练样本数据，即输入的图像数据的图像特征信息的网络模型。

在本实施方式中，可以参阅图2所示的现有方法中的FaceNet算法的结构示意图，通过深入分析现有方法所采用的FaceNet算法所涉及的模型结构，发现：现有方法为了保证处理精度通常会选择使用inception_resNet之类的网络模型作为上述特征提取模型。上述类型的网络模型由于在模型结构上具有深且宽的特点，在提取图像特征信息方面具有一定的优势，能够提取得到较为丰富的图像特征信息。但是，由于上述的模型结构特点，在训练人脸识别模型时也存在训练不容易收敛，且计算速度较慢等问题。正是由于上述问题导致FaceNet算法在运行时，整体效率相对较低，甚至不能较好地推广、应用于嵌入式ARM设备等运行环境中。

在本实施方式中，需要说明的是，上述嵌入式ARM设备具体可以是指包含有ARM(Advance RISC Machines)芯片的，具备一定数据处理能力的非计算机的电子设备或器件。常用的嵌入式ARM设备具体可以应用于生活中的大量电器设备中，例如掌上PDA、移动计算设备、电视机顶盒、手机上网、数字电视、多媒体、汽车、微波炉、数字相机、家庭自动化***、电梯、空调、安全***、自动售货机等等。其中，上述嵌入式ARM设备由于应用场景的需要，在运行时通常需要具备软件代码小、高度自动化、响应速度快等特点。而现有的基于FaceNet的人脸识别模型的训练方法由于模型结构本身较为复杂、处理效率相对较慢，导致并不能适用于类似嵌入式ARM设备等类型的运行环境。

正是考虑到现有方法中采用inception_resNet之类的网络模型作为上述特征提取模型存在的上述问题，又考虑到具体的应用场景：对于嵌入式ARM设备而言最关注的首先是处理效率，其次才是处理精度，因此，在本申请实施方式中采用改进的mobilenetV2模型替换现有方法所采用的inception_resNet之类的网络模型作为特征提取模型以有效地提高整体的处理效率，以更好地适用于嵌入式ARM设备等运行环境中。

在本实施方式中，mobilenetV2模型具体可以理解为是一种处理效率相对更高的神经网络，是一种针对mobilenetV1模型进行了相应的修改后得到的网络模型。其网络结构具体可以参阅表1所示的Mobilenet V2网络结构参数表。

MobileNet V2

在一个实施方式中，结合具体的应用场景，考虑到在训练人脸识别模型的过程中实际上并不需要对所获取的图像特征信息的进行回归处理。因此mobilenetV2模型中原有的Linear层作为用于进行回归处理的激活层，实际上在训练人脸识别模型的过程中是多余的。基于上述考虑，为了进一步提高处理速率、简化模型，具体实施时，可以按照以下方式对mobilenetV2模型进行改进，以得到改进的mobilenetV2模型：删除所述mobilenetV2模型中的Linear层。

在本实施方式中，可以参阅图3所示的根据本申请实施方式提供的人脸识别模型的训练方法中的改进的mobilenetV2模型的部分原理结构示意图。需要说明的是，图中展示的是改进的mobilenetV2模型中核心部分的原理结构示意图。其中，PW部分具体用于对输入的图像数据进行维度的扩充(对应于扩张)。DW(depthWise)部分具体用于通过卷积处理对各个通道的图像数据分别进行独立处理，得到分离的特征信息，从而可以降低模型的计算量，缩短训练的收敛时间(对应于卷积)。这也是改进的mobilenetV2模型相对于inception_resNet之类的网络模型具有处理效率高，适合在嵌入式(ARM)设备等环境中快速运行的原因之一。PW(PointWise)部分具体用于将各个通道分离的特征信息联系起来，得到图像数据的图像特征信息(对应于压缩)。

需要说明的是，mobilenetV2模型中的Linear部分是用于对PW部分输出的特征信息使用linear线性回归激活函数进行回归得到结果数据。但考虑到具体的训练人脸识别模型的应用场景，并不需要应用到通过上述Linear部分回归得到的结果数据。为了进一步提高模型的处理效率，改进的mobilenetV2模型删除了mobilenetV2模型中的Linear部分(即Linear层)，简化了模型结构。参阅图3所示内容，改进的mobilenetV2模型相对于普通的mobilenetV2模型没有了Linear层，而是与归一化层(即L2层)直接连接。这样可以进一步提高利用特征提取模型提取图像特征信息的效率。

S13：通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息。

在本实施方式中，对图像特征信息进行归一化处理，具体可以理解将不同维度的图像特征信息统一到一个数值范围。

在一个实施方式中，在基于利用改进的mobilenetV2模型作为特征提取模型有效地提高了处理效率的前提下，可以通过对归一化层的改进，利用改进的归一化层对图像特征信息进行归一化处理以保留不同维度的特征信息的差异，使得模型的特征层分布更为均匀，进而可以有助于提高处理精度。

在本实施方式中，分析现有的基于FaceNet算法的归一化层往往是将输入的图像特征信息归一化至[0，1]的数值范围中。这种归一化方式会使得不同维度的图像特征信息趋于更加聚拢，导致不同维度的图像特征信息之间的差异不够明显，难以趋于，进而影响处理的精度。

在一个实施方式中，考虑到现有方法中的归一化层在进行归一化处理时存在的上述问题，有针对性地对归一化层(即L2层)进行相应的修改调整，得到改进的归一化层(即改进的L2层)。

在一个实施方式中，具体实施时，可以按照以下方式对归一化层进行相应修改，以得到改进的归一化层：修改归一化层的归一化范围，得到所述改进的归一化层，其中，所述改进的归一化层的归一化范围为大于等于0，且小于等于255。即将归一化范围由原来的[0，1]扩充至[0，255]，这样可以使得归一化后的图像特征信息分布更加均匀，避免了不同维度的特征信息的混合干扰，提高了模型的鲁棒性，进而提高了处理精度。

S14：通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量。

在本实施方式中，分析现有的基于FaceNet算法的嵌入层(即EMBEDDING层)往往是根据输入的归一化后的图像特征信息确定对应的特征向量，以便后续利用上述特征向量进行具体的模型训练。但是由于现有方法所使用的嵌入层的向量维度通常是128。导致基于上述嵌入层所获取特征向量的维度时往往会受到限制，进而无法获取到全面、丰富的各种维度的特征向量，进而影响处理精度

在一个实施方式中，考虑到嵌入层存在的上述问题，在基于利用改进的mobilenetV2模型作为特征提取模型有效地提高了处理效率的前提下，为了保证从归一化后的图像特征信息中获取到更加全面、丰富的特征向量，进一步提高处理精度，具体实施时，可以对现有方法中使用的嵌入层进行针对性的改进，再利用改进的嵌入层(即改进的EMBEDDING层)从所述归一化后的图像特征信息中获取较为丰富的特征向量。

在一个实施方式中，具体实施时，可以按照以下方式对嵌入层进行修改、调整，得到改进的嵌入层：扩充嵌入层的特征向量维度，得到所述改进的嵌入层，其中，所述改进的嵌入层的特征向量维度为256。这样通过扩充了向量维度的嵌入层可以配合扩充了归一化范围的归一化层获取得到图像数据中更多维度、更丰富的特征向量，使得模型的表现力更强，进一步提高了处理精度。

S15：根据所述特征向量，训练人脸识别模型。

在本实施方式中，具体实施时，可以将上述特征向量作为输入，通过多元损失层(即Triplet Loss层)利用损失函数对神经网络模型进行训练以训练得到上述人脸识别模型。即根据所述特征向量，利用多元损失层训练人脸识别模型。

在本实施方式中，考虑到通过改进的特征提取模型有效地提高了处理效率，通过改进的归一化层和改进的嵌入层有效地提高了特征向量的维度和表现力，这样通过多元损失层可以利用上述效果更好的特征向量，训练得到精度更高的人脸识别模型。此外，由于改进的特征提取模型有效地缩短了训练收敛时间、提高了处理效率，因此整体上训练人脸识别模型的速度相对于现有方法也得到了明显的提高。

在本实施方式中，分析现有的基于FaceNet算法的嵌入层大多是利用二元损失函数对人脸识别模型进行优化训练。但是二元损失函数通常是将相同个体的人脸特征映射到空间中的相同点上，可以理解为上述映射得到结果可能使得类内距离会大于类间距离，进而导致在处理时容易产生误差，影响处理精度。

在一个实施方式中，考虑到现有的嵌入层存在的上述问题，为了进一步提高处理精度，可以对多源损失层所使用的损失函数进行针对性的调整、修改，得到改进的多元损失层(即改进的Triplet Loss层)，进而可以利用改进的多元损失层对人脸识别模型进行更加有效、精确的优化，得到精度更高的人脸识别模型，提高处理精度。

在一个实施方式中，具体实施时，可以按照以下方式对多源损失层所使用的损失函数进行修改，以得到改进的多元损失层：修改多元损失层中的损失函数，得到所述改进的多元损失层，其中，所述改进的多元损失层中损失函数为三元损失函数。

在本实施方式中，上述三元损失函数不同于二元损失函数具体可以为以目标人的第一人脸数据、目标人的第二人脸数据、非目标人的人脸数据作为输入所生成的损失函数。其中，所述目标人的第一人脸数据和所述目标人的第二人脸数据为所述目标人的不同状态下的人脸数据。非目标人具体可以理解为不同于所述目标人的其他人。例如，目标人的第一人脸数据和目标人的第二人脸数据可以是同一目标人在光线不同的环境下所拍摄得到的两张包含有同一目标人的人脸的照片。当然，上述不同状态具体还可以是不同的距离状态、不同的角度状态等等。

在本实施方式中，需要说明的是，上述三元损失函数在原理上可以理解为将相同个体的任亮特征映射到空间中的相同区域，使得类内距离小于类间距离，即使得相同人的人脸之间距离相对最小，不同人的人脸之间距离相对最大。这样应用三元损失函数替换常规的二元损失函数训练人脸识别模型可以有效地减少误差，进一步提高处理精度。

在一个实施方式中，上述三元损失函数具体可以表示为以下形式：

通过推导可以得到以下形式：

其中，x表示输入的人脸图片(或图像的特征信息)，上标a用于标识目标人的第一人脸，上标为n用于表示非目标人的人脸，上标为p用于标识目标人的第二人脸，f表示基于图片(或图像的特征信息)得到的特征向量。

这样，通过利用改进的多元损失层使用误差更小、精度更高的三元损失函数对人脸识别模型进行训练优化，可以达到提高处理精度，减少误差的效果。

在一个实施方式中，所述图像数据具体可以为包含有人脸的图像数据。当然上述所列举的图像数据只是一种示意性说明。具体实施时，也可以根据具体的应用场景获取其他内容的图像数据。对此，本申请不作限定。

从以上的描述中，可以看出，本申请实施例提供的人脸识别模型的训练方法，通过有针对性地使用容易收敛、处理速度快的改进的mobilenetV2模型作为特征提取模型，并相应地修改了归一化层和嵌入层，以简化模型结构，并兼顾处理精度；再利用改进后的上述模型训练人脸识别模型，从而解决了现有方法中存在的处理效率低、不能较好地适用于嵌入式ARM设备的技术问题，达到能兼顾处理精度的同时，有效提高处理效率的技术效果；又通过扩充归一化层的归一化范围，使得不同维度的特征信息的差异性更加明显，避免了不同维度的特征信息的混合干扰，提高了模型的鲁棒性，提高了处理精度；还通过扩充嵌入层的特征向量维度，使得获取的特征向量的维度更加丰富、表现力更强，进一步提高了处理精度；还通过将多元损失层中的损失函数修改为效果更好的三元损失函数，以便能够更加精确地对人脸识别模型进行优化训练，进一步提高了处理精度。

基于同一发明构思，本发明实施例中还提供了一种人脸识别模型的训练装置，如下面的实施例所述。由于人脸识别模型的训练装置解决问题的原理与人脸识别模型的训练方法相似，因此人脸识别模型的训练装置的实施可以参见人脸识别模型的训练方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。请参阅图4，是本申请实施例提供的人脸识别模型的训练装置的一种组成结构图，该装置具体可以包括：第一获取模块41、提取模块42、归一化模块43、第二获取模块44、训练模块45，下面对该结构进行具体说明。

第一获取模块41，具体可以用于获取图像数据；

提取模块42，具体可以用于通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型；

归一化模块43，具体可以用于通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息；

第二获取模块44，具体可以用于通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量；

训练模块45，具体可以用于根据所述特征向量，训练人脸识别模型。

在本实施方式中，上述装置还可以包括第一改进模块，其中，所述第一改进模块具体可以用于改进mobilenetV2模型，得到改进的mobilenetV2模型。具体实施时，上述第一改进模块可以按照以下程序对mobilenetV2模型进行改进：删除所述mobilenetV2模型中的Linear层。

在一个实施方式中，上述装置还可以包括第二改进模型，其中，所述第二改进模块具体可以用于改进归一化层，得到改进的归一化层。具体实施时，上述第二改进模块可以按照以下程序对归一化层进行改进：修改归一化层的归一化范围，得到所述改进的归一化层，其中，所述改进的归一化层的归一化范围为大于等于0，且小于等于255。

在一个实施方式中，上述装置还可以包括第三改进模块，其中，所述第三改进模块具体可以用于改进嵌入层，得到改进的嵌入层。具体实施时，上述第三改进模块可以按照以下程序对嵌入层进行改进：扩充嵌入层的特征向量维度，得到所述改进的嵌入层，其中，所述改进的嵌入层的特征向量维度为256。

在一个实施方式中，为了能够根据所述特征向量，训练人脸识别模型，上述训练模块具体实施时，可以按照以下程序进行训练：根据所述特征向量，利用改进的多元损失层训练人脸识别模型。

在一个实施方式中，上述装置还可以包括第四改进模块，其中，所述第四改进模块具体可以用于改进多元损失层。具体实施时，上述第四改进模块可以按照以下程序对多元损失层按照进行改进：修改多元损失层中的损失函数，得到所述改进的多元损失层，其中，所述改进的多元损失层中损失函数为三元损失函数。

在一个实施方式中，所述三元损失函数具体可以为以目标人的第一人脸数据、目标人的第二人脸数据、非目标人的人脸数据作为输入所生成的损失函数，其中，所述目标人的第一人脸数据和所述目标人的第二人脸数据为所述目标人的不同状态下的人脸数据。

在一个实施方式中，上述装置具体可以应用于嵌入式ARM设备中。

在本实施方式中，需要说明的是，上述嵌入式ARM设备具体可以是指包含有ARM芯片的，具备一定数据处理能力的非计算机的电子设备或器件。常用的嵌入式ARM设备具体可以应用于生活中的大量电器设备中，例如掌上PDA、移动计算设备、电视机顶盒、手机上网、数字电视、多媒体、汽车、微波炉、数字相机、家庭自动化***、电梯、空调、安全***、自动售货机等等。其中，上述嵌入式ARM设备由于应用场景的需要，在运行时通常需要具备软件代码小、高度自动化、响应速度快等特点。而现有的基于FaceNet的人脸识别模型的训练方法由于模型结构本身较为复杂、处理效率相对较慢，导致并不能适用于类似嵌入式ARM设备等类型的运行环境。

在本实施方式中，由于上述装置在兼顾处理精度的同时，还具有较高的处理效率，因此上述装置适合部署应用于嵌入式ARM设备等运行环境中。当然，上述所列举的嵌入式ARM设备只是一种示意性说明。具体实施时，也可以根据具体的应用场景和实施要求，本申请实施例提供给的人脸识别模型的训练装置应用到其他类型的运行环境中。对此，本申请不作限定。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，上述实施方式阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，在本说明书中，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

此外，在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

从以上的描述中，可以看出，本申请实施例提供的人脸识别模型的训练装置，通过有针对性地使用容易收敛、处理速度快的改进的mobilenetV2模型作为特征提取模型，并相应地修改了归一化层和嵌入层，以简化模型结构，并兼顾处理精度；再通过提取模块、归一化模块、第二获取模块、训练模块利用改进后的上述模型训练人脸识别模型，从而解决了现有方法中存在的处理效率低、不能较好地适用于嵌入式ARM设备的技术问题，达到能兼顾处理精度的同时，有效提高处理效率的技术效果；又通过第二改进模块扩充归一化层的归一化范围，使得不同维度的特征信息的差异性更加明显，避免了不同维度的特征信息的混合干扰，提高了模型的鲁棒性，提高了处理精度；还通过第三改进模块扩充嵌入层的特征向量维度，使得获取的特征向量的维度更加丰富、表现力更强，进一步提高了处理精度；还通过第四改进模块将多元损失层中的损失函数修改为效果更好的三元损失函数，以便能够更加精确地对人脸识别模型进行优化训练，进一步提高了处理精度。

本申请实施方式还提供了一种电子设备，具体可以参阅图5所示的基于本申请实施例提供的人脸识别模型的训练方法的电子设备组成结构示意图，所述电子设备具体可以包括输入设备51、处理器52、存储器53。其中，所述输入设备51具体可以用于输入图像数据。所述处理器52具体可以用于通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型；通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息；通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量；根据所述特征向量，训练人脸识别模型。所述存储器53具体可以用于存储经输入设备51输入的图像数据，处理器52生成的中间数据，以及相关的程序指令。

在本实施方式中，所述输入设备具体可以是用户和计算机***之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次，在数字***中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在***中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该电子设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本说申请实施方式中还提供了一种基于人脸识别模型的训练方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取图像数据；通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型；通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息；通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量；根据所述特征向量，训练人脸识别模型。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

在一个具体实施场景示例中，应用本申请实施例的提供人脸识别模型的训练方法和装置对适用于嵌入式ARM设备的人脸识别模型进行训练。具体实施过程可以参阅以下内容。

本例中所使用的人脸识别模型的训练方法是基于现有方法使用的FaceNet算法进行相应的改进得到的。因此，在此先对现有方法使用的FaceNet算法实施过程，以及存在的问题进行简单的分析说明。

其中，FaceNet算法结构可以参阅图2所示内容。

具体实施时，可以包括以下五个步骤：

第一步：获取batch size大小的输入源的图片集(即获取图像数据)。

第二步：输入源通过特征提取神经网络模型(相当于特征提取模型)，得到特征信息。其中，原有的FaceNet算法中的特征提取神经网络模型使用的是inception_resNet之类的深而宽的神经网络模型，这种模型的优势是提取的特征丰富，但是缺点是训练不容易收敛，同时计算速度偏慢。

第三步：对提取的特征进行相应归一化处理。原有的FaceNet算法中的归一化层的归一化区间(即归一化范围)是[0,1]之间。但是针对这个处理，各个不同的特征维度，会趋向于更加聚拢，输入源不同特征之间差异会趋于更加难以区分。

第四步：在该步骤是FaceNet的训练求优过程，也就是定义损失函数，利用损失函数对模型进行优化训练的过程。该步骤中，原来使用的损失函数是二元损失函数，二元损失函数的目标是把相同个体的人脸特征映射到空间中的相同点，导致在训练优化过程中容易产生误差。

基于现有方法使用的FaceNet算法实施过程，以及存在的问题，本例对上述步骤进行了针对性的改进，得到了本例使用的人脸识别模型的训练方法，以提高处理效率。具体的改进可以包括以下内容。

针对第二步的改进，为了提高在嵌入式(ARM)设备的处理效率，选择使用mobileNetV2作为特征提取模型，对相应特征进行提取。即在DEEP ARCHITECTURE所表示的特征提取模型中使用mobileNetV2作为基础模型，并对模型进行了相应的修改(得到改进的mobileNetV2模型)。

参阅图3所示，mobileNetV2模型中左边PW部分用于对图像通道数进行维度的扩充。中间DW(depthWise)部分用于卷积处理各个通道独立处理，这样可以大大降低相应的计算量，这也是mobileNet之所以能在嵌入式设备快速运行的原因之一。右边PW(PointWise)部分用于将各个通道分离的特征维度联系起来，特征得到统一并最后统一使用linear线性回归激活函数，回归得到结果。需要说明的是图中mobileNetV2最后一层使用了Linear(即Linear层)对特征进行相应的回归，可以理解是mobileNet的激活层。但在训练人脸识别模型的应用场景中，并不需要这一层，因此，可以对其进行去除(即删除所述mobilenetV2模型中的Linear层)。

针对第三步的改进，如果去除Linear层，后面的一层是L2层(即归一化层)。为了避免现有方法中不同的特征维度，会趋向于更加聚拢，导致输入源不同特征之间差异会趋于更加难以区分。该步骤将归一化区间修改为[0,255]。这样可以扩大特征差异维度范围用以增强模型鲁棒性，也可以增强模型鲁棒性。

此外，还对L2层后面的embeding层(即嵌入层)进行了相应的修改，原有的embeding层特征维度是128位。考虑到对于原有网络模型，如果维度设置较多的话，模型的收敛会变慢，训练难度会加大。但在本例中由于使用了mobileNetV2作为深度学习网络模型，其训练计算量会大大降低，其收敛时间会变短，因此这里对最后的欧式向量维度做了扩充。最后扩充到256维度。这样得到的向量范围更广，因为L2层归一化范围也更大，使得模型最后特征分布更加均匀不易混合干扰，提高了模型的鲁棒性。

针对第四步的改进，利用三元损失函数替换原来的二元损失函数，进行训练优化。其中，三元损失函数的目标是映射到相同的区域，使得类内距离小于类间距离。

具体的，假设x是输入的图片，f是CNN表示后的特征向量，则三元损失函数可以表示为以下形式：

进一步，可以得到最终的三元损失函数为：

通过上述函数可以看到，上面的公式中需要三个输入人像，如何选择这一个三元组训练呢？为了保证训练收敛速度，在此就选择距离最远的相同人像，和距离最近的不同人像来训练。

进而可以通过上述改进的步骤即利用本申请实施例提供的人脸识别模型的训练方法训练可以适用于嵌入式ARM设备中的人脸识别模型。即：获取图像数据；

通过改进的特征提取模型提取所述图像数据中的图像特征信息，其中，所述改进的特征提取模型为改进的mobilenetV2模型；通过改进的归一化层对所述图像特征信息进行归一化处理，得到归一化后的图像特征信息；通过改进的嵌入层从所述归一化后的图像特征信息中获取特征向量；根据所述特征向量，训练人脸识别模型。

对比现有方法可知：为了解决人脸识别在嵌入式ARM设备上的运算速度问题，将FaceNet中DEEP ARCHITECTURE部分的网络替换为了mobileNetV2，并对mobileNetV2以及FaceNet相应的部分细节进行了相应的修改。具体的，利用mobileNetV2模型作为特征提取模型的基础网络模型，以及相应的去除的Linear层，这样得到的轻量级layer层数，有利于模型的训练收敛，提高处理效率。扩大L2层归一化范围，有利于模型特征层均为分布，有利于提高模型精度。扩大Embedding层欧式向量维度，有利于模型特征广度扩充，这种模型的表现力更强，利于模型精度的提升。

通过上述场景示例，验证了本申请实施例提供的人脸识别模型的训练方法和装置，通过有针对性地使用容易收敛、处理速度快的改进的mobilenetV2模型作为特征提取模型，并相应地修改了归一化层和嵌入层，以简化模型结构，并兼顾处理精度；再利用改进后的上述模型训练人脸识别模型，确实解决了现有方法中存在的处理效率低、不能较好地适用于嵌入式ARM设备的技术问题，达到能兼顾处理精度的同时，有效提高处理效率的技术效果。

尽管本申请内容中提到不同的具体实施例，但是，本申请并不局限于必须是行业标准或实施例所描述的情况等，某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例，仍然可以属于本申请的可选实施方案范围之内。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的实施方式包括这些变形和变化而不脱离本申请。

Claims

1.一种人脸识别模型的训练方法，其特征在于，包括：

获取图像数据；

根据所述特征向量，训练人脸识别模型。

2.根据权利要求1所述的方法，其特征在于，所述改进的mobilenetV2模型按照以下方式获取：

删除所述mobilenetV2模型中的Linear层。

3.根据权利要求1所述的方法，其特征在于，所述改进的归一化层按照以下方式获取：

4.根据权利要求1所述的方法，其特征在于，所述改进的嵌入层按照以下方式获取：

5.根据权利要求1所述的方法，其特征在于，根据所述特征向量，训练人脸识别模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述改进的多元损失层按照以下方式获取：

修改多元损失层中的损失函数，得到所述改进的多元损失层，其中，所述改进的多元损失层中的损失函数为三元损失函数。

7.根据权利要求6所述方法，其特征在于，所述三元损失函数为以目标人的第一人脸数据、目标人的第二人脸数据、非目标人的人脸数据作为输入所生成的损失函数，其中，所述目标人的第一人脸数据和所述目标人的第二人脸数据为所述目标人的不同状态下的人脸数据。

8.一种人脸识别模型的训练装置，其特征在于，包括：

第一获取模块，用于获取图像数据；

训练模块，用于根据所述特征向量，训练人脸识别模型。

9.根据权利要求8所述的装置，其特征在于，所述装置应用于嵌入式ARM设备中。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至7中任一项所述方法的步骤。