CN113947801B

CN113947801B - 人脸识别方法、装置和电子设备

Info

Publication number: CN113947801B
Application number: CN202111567512.2A
Authority: CN
Inventors: 王金桥; 赵朝阳; 郭凯文
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-07-26
Anticipated expiration: 2041-12-21
Also published as: CN113947801A

Abstract

本发明提供一种人脸识别方法、装置和电子设备，所述方法包括：确定待识别图像；将待识别图像输入至融合多个场景的人脸识别模型，得到人脸识别模型输出的人脸识别结果；其中，人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，进行蒸馏训练得到的。本发明通过蒸馏训练方式，得到融合多个场景的人脸识别模型，基于人脸识别模型进行人脸识别，在压缩模型规模、降低运算量的同时，提高基于同一模型实现的多场景人脸识别效果，从而实现准确、可靠且可应用于不同场景下的人脸识别方案。

Description

人脸识别方法、装置和电子设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人脸识别方法、装置和电子设备。

背景技术

在目前公开的人脸数据集中，基本上都是名人的图像，而且每个人的图像数量很多。然而，在实际业务场景中，有些人物的图像数量较少（如大约2-3张），这些任务的图像与公开的人脸数据集合并训练人脸识别模型，是使模型陷入过拟合的情况，并且两种数据的域相差很大，会严重影响模型的泛化性，进而使得训练得到的人脸识别模型识别精度较低。

发明内容

本发明提供一种人脸识别方法、装置和电子设备，用以解决现有技术中人脸识别模型的识别精度较低且泛化性较差的缺陷。

本发明提供一种人脸识别方法，包括：

确定待识别图像；

将所述待识别图像输入至融合多个场景的人脸识别模型，得到所述人脸识别模型输出的人脸识别结果；

其中，所述人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，进行蒸馏训练得到的。

根据本发明提供的一种人脸识别方法，各场景分别对应的教师模型是基于如下步骤训练得到的：

确定各场景对应的样本场景图像集合，所述集合中包含多个样本场景图像；

基于各场景对应的各样本场景图像中包含的人物在所述集合中出现的次数，从各场景对应的样本场景图像集合中确定各场景对应的正常样本和虚拟样本；

基于各场景对应的正常样本、虚拟样本以及所述正常样本和所述虚拟样本包含人脸的身份信息，对教师模型的原始模型进行训练，得到各场景的教师模型。

根据本发明提供的一种人脸识别方法，所述基于所述各场景对应的各样本场景图像中包含的人物在所述集合中出现的次数，从各场景对应的样本场景图像集合中确定各场景对应的正常样本和虚拟样本，包括：

在所述各场景对应的各样本场景图像中包含的人物在所述集合中出现的次数大于等于阈值时，将对应的样本场景图像作为对应场景的正常样本；在所述各场景对应的各样本场景图像中包含的人物在所述集合中出现的次数小于所述阈值时，将对应的样本场景图像作为对应场景的虚拟样本。

根据本发明提供的一种人脸识别方法，所述基于各场景对应的正常样本、虚拟样本以及所述正常样本和所述虚拟样本包含人脸的身份信息，对教师模型的原始模型进行训练，得到各场景的教师模型，包括：

基于各场景对应的正常样本，以及所述正常样本中包含人脸的身份信息对教师模型的原始模型进行训练，得到各场景的教师模型对应的初始模型；

将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景虚拟样本对应的人脸识别结果；

将各场景的正常样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景正常样本对应的人脸识别结果；

基于各场景虚拟样本对应的人脸识别结果、各场景正常样本对应的人脸识别结果、各场景虚拟样本包含人脸的身份信息以及各场景正常样本包含人脸的身份信息，对各场景的教师模型对应的初始模型进行训练，得到各场景的教师模型。

根据本发明提供的一种人脸识别方法，所述将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景虚拟样本对应的人脸识别结果，包括：

将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型中的特征提取层，得到所述特征提取层输出的各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板；各场景虚拟样本对应的特征模板为各场景的虚拟样本特征向量的平均向量；

将各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板输入至各场景的教师模型对应的初始模型中的人脸识别层，得到所述人脸识别层输出的各场景虚拟样本对应的人脸识别结果；

所述将各场景的正常样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景正常样本对应的人脸识别结果，包括：

将各场景对应的正常样本输入至各场景的教师模型对应的初始模型中的特征提取层，得到所述特征提取层输出的各场景正常样本特征向量；

将各场景正常样本特征向量输入至各场景的教师模型对应的初始模型中的人脸识别层，得到所述人脸识别层输出的各场景正常样本对应的人脸识别结果。

根据本发明提供的一种人脸识别方法，各场景对应的样本场景图像是基于如下步骤确定的：

获取各场景对应的初始样本场景图像，并对所述初始样本场景图像进行人脸关键点检测，确定各初始样本场景图像的人脸检测框图像；

基于各人脸检测框图像中的人脸关键点信息进行人脸对齐，并将人脸对齐后的各图像裁剪为预设尺寸，得到各场景对应的样本场景图像。

根据本发明提供的一种人脸识别方法，所述人脸识别模型是基于如下步骤训练得到的：

确定融合多个场景的初始模型；

将融合多个场景的初始模型作为学生模型，基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，对所述学生模型进行蒸馏训练，得到所述人脸识别模型。

根据本发明提供的一种人脸识别方法，所述基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，对所述学生模型进行蒸馏训练，得到所述人脸识别模型，包括：

将所述样本图像中各场景的样本场景图像输入至对应场景的教师模型，得到各场景的教师模型输出的各场景人脸识别结果；

将所述样本图像中各场景的样本场景图像输入至所述学生模型，得到所述学生模型输出的各场景学生识别结果；

基于各场景学生识别结果，以及各场景人脸识别结果，确定所述学生模型的损失函数；

基于所述学生模型的损失函数，对所述学生模型进行训练，得到所述人脸识别模型。

本发明还提供一种人脸识别装置，包括：

确定单元，用于确定待识别图像；

识别单元，用于将所述待识别图像输入至融合多个场景的人脸识别模型，得到所述人脸识别模型输出的人脸识别结果；

其中，所述人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，以及各场景分别对应的教师模型，进行蒸馏训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述人脸识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述人脸识别方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述人脸识别方法的步骤。

本发明提供的人脸识别方法、装置和电子设备，通过蒸馏训练方式，得到融合多个场景的人脸识别模型，基于人脸识别模型进行人脸识别，在压缩模型规模、降低运算量的同时，提高基于同一模型实现的多场景人脸识别效果，从而实现准确、可靠且可应用于不同场景下的人脸识别方案。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的人脸识别方法的流程示意图；

图2是本发明提供的教师模型训练方法的流程示意图；

图3是本发明提供的样本场景图像获取方法的流程示意图；

图4是本发明提供的学生模型训练方法的流程示意图；

图5是本发明提供的人脸识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对此，本发明提供一种人脸识别方法。图1是本发明提供的人脸识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定待识别图像。

具体地，待识别图像即需要进行人脸识别的图像，待识别图像可以是通过摄像设备采集得到的图像，也可以是用户直接输入的图像。

可以理解的是，在确定待识别图像后，可以对待识别图像进行人脸关键点检测，得到人脸检测框，然后进行人脸对齐，从而使得人脸对齐后的图像为正脸，进而后续便于人脸识别模型进行人脸识别，提高人脸识别效率和精度。

步骤120、将待识别图像输入至融合多个场景的人脸识别模型，得到人脸识别模型输出的人脸识别结果；

其中，人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，进行蒸馏训练得到的。

具体地，各场景分别对应的教师模型是指根据不同场景下的图像训练得到的人脸识别模型，各教师模型在对应场景下能够高精度进行人脸识别。针对需要在不同场景下进行人脸识别的情况，可以采用融合了多个场景的人脸识别模型，对待识别图像进行人脸识别。此处所指的融合了多个场景的人脸识别模型，即以各场景分别对应的教师模型进行蒸馏训练得到的学生模型，从而各教师模型可以将对应场景中学到的人脸信息迁移到学生模型，进而训练完成的人脸识别模型可以在不同场景下进行人脸识别。

此外，由于各教师模型是基于对应场景下的图像训练得到的，且对应场景下各人物的图像数量是比较均衡的，而不会像传统方法中公开数据中名人图像数量过多，实际场景中的特定人物图像数量过少，造成合并训练后模型过拟合的情况。也就是说，本发明实施例中各教师模型是在特定场景下训练得到的模型，从而各教师模型在特定场景下具有较好的识别性能，进而进行蒸馏学习得到的学生模型能够学习到不同场景下的人脸识别信息，即训练得到的人脸识别模型能够解决多种场景下的人脸识别泛化性能较差的问题。

再有，各场景的教师模型是相较于学生模型而言，模型规模更大、更加复杂、任务执行效果更优的模型。单个教师模型，可以基于教师-学生网络的思想，将教师模型中的知识迁移到学生模型，从而提高学生模型的网络性能，此处知识迁移的过程，即为知识蒸馏。将多个场景下的教师模型的知识迁移到同一个人脸识别模型，可以使得人脸识别模型的性能更加接近各个教师模型的性能。

在步骤120执行之前，可以预先训练得到人脸识别模型，具体训练方式为蒸馏训练，具体训练步骤可以包括：首先，采集大量样本图像。此外，获取各场景分别对应的教师模型。随后，基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，对包含了人脸识别模型的初始模型进行蒸馏训练，从而得到人脸识别模型。

本发明实施例提供的人脸识别方法，通过蒸馏训练方式，得到融合多个场景的人脸识别模型，基于人脸识别模型进行人脸识别，在压缩模型规模、降低运算量的同时，提高基于同一模型实现的多场景人脸识别效果，从而实现准确、可靠且可应用于不同场景下的人脸识别方案。

基于上述实施例，各场景分别对应的教师模型是基于如下步骤训练得到的：

基于各场景对应的各样本场景图像中包含的人物在集合中出现的次数，从各场景对应的样本场景图像集合中确定各场景对应的正常样本和虚拟样本；

基于各场景对应的正常样本、虚拟样本以及正常样本和虚拟样本包含人脸的身份信息，对教师模型的原始模型进行训练，得到各场景的教师模型。

具体地，不同场景对应的教师模型可以从对应场景下获取样本场景图像集合进行训练。然而，这些集合中的各样本场景图像中包含的不同人物出现的次数可能不同。在包含的人物在集合中出现的次数较多时，表明对应的样本场景图像与对应场景的相关度较高，可以作为正常样本，并对正常样本添加正常样本标签，该正常样本标签用于表征对应正常样本包含人脸的身份信息。在包含的人物在集合中出现的次数较少时，表明对应的样本场景图像与对应场景的相关度较低，即可以看作是弱相关类，因此可以作为虚拟样本。例如，在A场景对应的样本场景图像集合中，人物1出现的次数为6次>5次，则可以将对应样本场景图像作为正常样本；人物2出现的次数为3次<5次，则可以将对应样本场景图像作为虚拟样本。

在得到正常样本以及虚拟样本后，可以基于正常样本、虚拟样本以及正常样本和虚拟样本包含人脸的身份信息对教师模型的原始模型进行训练，得到在对应场景下能够准确进行人脸识别的教师模型。

其中，教师模型的原始模型可以是基于公开数据集训练得到的，例如可以通过爬虫方法在公开网站上搜集名人图像，每个名人图像的数量大于5张，然后使用卷积神经网络训练得到用于人脸识别的原始模型，该原始模型可以使用CosFace或者ArcFace分类损失函数进行训练。

基于上述任一实施例，基于各场景对应的各样本场景图像中包含的人物在集合中出现的次数，从各场景对应的样本场景图像集合中确定各场景对应的正常样本和虚拟样本，包括：

在各场景对应的各样本场景图像中包含的人物在集合中出现的次数大于等于阈值时，将对应的样本场景图像作为对应场景的正常样本；在各场景对应的各样本场景图像中包含的人物在集合中出现的次数小于阈值时，将对应的样本场景图像作为对应场景的虚拟样本。

具体地，在包含的人物在集合中出现的次数较多时，表明对应的样本场景图像与对应场景的相关度较高，可以作为正常样本，并对正常样本添加正常样本标签。在包含的人物在集合中出现的次数较少时，表明对应的样本场景图像与对应场景的相关度较低，即可以看作是弱相关类，因此可以作为虚拟样本。

例如，当任一个人在任一场景下对应的样本场景图像数量大于等于5张时，则可以将对应的样本场景图像归为一类正常样本；当任一个人在任一场景下对应的样本场景图像数量小于5张时，则可以将对应的样本场景图像归为一类虚拟样本。

需要说明的是，在各场景对应的各样本场景图像中包含的人物在集合中出现的次数小于阈值时，若将此类图像与在各场景对应的各样本场景图像中包含的人物在集合中出现的次数大于等于阈值的样本场景图像一起作为正常样本进行训练，由于两种图像的数量差距较大，即可以理解为两种图像的域相差较大，因此会使得对应场景下的教师模型出现过拟合的问题。

由此可见，本发明实施例基于各场景对应的各样本场景图像中包含的人物在集合中出现的次数，从各场景对应的样本场景图像集合中确定各场景对应的正常样本和虚拟样本，从而可以避免对应场景下的教师模型出现过拟合的问题，进而能够提高人脸识别的精度。

基于上述任一实施例，基于各场景对应的正常样本、虚拟样本以及正常样本和虚拟样本包含人脸的身份信息，对教师模型的原始模型进行训练，得到各场景的教师模型，包括：

基于各场景对应的正常样本，以及正常样本中包含人脸的身份信息对教师模型的原始模型进行训练，得到各场景的教师模型对应的初始模型；

具体地，教师模型的原始模型可以是基于公开数据集训练得到的，例如可以通过爬虫方法在公开网站上搜集名人图像，每个名人图像的数量大于5张，然后使用卷积神经网络训练得到用于人脸识别的原始模型。

在得到教师模型的原始模型后，基于各场景的正常样本，以及对应的正常样本标签（正常样本中包含人脸的身份信息），对教师模型的原始模型进行训练，从而可以对原始模型进行微调，得到对应场景下教师模型的初始模型。

然后，将各场景的虚拟样本输入至对应场景下教师模型的初始模型，得到对应场景教师模型的初始模型输出的各场景的虚拟样本对应的人脸识别结果；同时，将各场景的正常样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景正常样本对应的人脸识别结果。

随后，基于各场景虚拟样本对应的人脸识别结果、各场景正常样本对应的人脸识别结果、各场景虚拟样本包含人脸的身份信息以及各场景正常样本包含人脸的身份信息，对各场景的教师模型的初始模型进行训练，得到对应场景下的教师模型。

基于上述任一实施例，将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景虚拟样本对应的人脸识别结果，包括：

将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型中的特征提取层，得到特征提取层输出的各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板；各场景虚拟样本对应的特征模板为各场景的虚拟样本特征向量的平均向量；

将各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板输入至各场景的教师模型对应的初始模型中的人脸识别层，得到人脸识别层输出的各场景虚拟样本对应的人脸识别结果；

将各场景的正常样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景正常样本对应的人脸识别结果，包括：

将各场景对应的正常样本输入至各场景的教师模型对应的初始模型中的特征提取层，得到特征提取层输出的各场景正常样本特征向量；

将各场景正常样本特征向量输入至各场景的教师模型对应的初始模型中的人脸识别层，得到人脸识别层输出的各场景正常样本对应的人脸识别结果。

具体地，将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型中的特征提取层，由特征提取层进行特征提取，得到各场景虚拟样本特征向量，并求取各场景的虚拟样本特征向量的平均向量作为对应场景虚拟样本对应的特征模板，并为各场景的虚拟样本添加虚拟样本标签（虚拟样本中包含人脸的身份信息）。

然后将各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板输入至各场景的教师模型对应的初始模型中的人脸识别层，由人脸识别层基于各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板确定各场景虚拟样本对应的人脸识别结果。

同理，将各场景对应的正常样本输入至各场景的教师模型对应的初始模型中的特征提取层，由特征提取层进行特征提取，得到各场景正常样本特征向量。

然后将各场景正常样本特征向量以及各场景虚拟样本对应的特征模板输入至各场景的教师模型对应的初始模型中的人脸识别层，由人脸识别层基于各场景正常样本特征向量以及各场景虚拟样本对应的特征模板确定各场景正常样本对应的人脸识别结果。

如图2所示，在公开网站上搜集公开数据图像（如名人图像），然后使用卷积神经网络训练得到用于人脸识别的原始模型。然后将各场景的样本场景图像分为正常样本图像和虚拟样本图像，采用正常样本图像以及正常样本标签对原始模型进行训练，从而实现对原始模型的微调，得到对应场景教师模型的初始模型。然后，使用该初始模型对虚拟样本图像进行特征提取，得到虚拟样本特征向量，并求取虚拟样本特征向量的平均向量作为对应场景虚拟样本对应特征模板，基于各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板，确定虚拟样本人脸识别结果。同时，使用该初始模型对正常样本图像进行特征提取，得到正常样本特征向量，并基于正常样本特征向量确定正常样本人脸识别结果。随后，基于各场景虚拟样本对应的人脸识别结果、各场景正常样本对应的人脸识别结果、各场景虚拟样本包含人脸的身份信息以及各场景正常样本包含人脸的身份信息，对各场景的教师模型的初始模型进行训练，得到对应场景下的教师模型。

其中，在对各场景的教师模型的初始模型进行训练时，虚拟样本图像索引排列在正常样本图像之后依次相加，正常样本图像的对应的分类层（如全连接层）的权重参数采用随机初始化，使用随机梯度下降更新参数，虚拟样本图像对应的分类层的权重则不更新，每次迭代后选取对应场景虚拟样本对应特征模板填充虚拟类的分类层权重参数。其中，正常样本图像与虚拟样本图像的比例可以为3:1。此外，可以采用较小的学习率对教师模型的初始模型进行训练，损失函数可以采用CosFace或者ArcFace，从而可以得到对应场景下有明显性能提升的教师模型。

基于上述任一实施例，各场景对应的样本场景图像是基于如下步骤确定的：

获取各场景对应的初始样本场景图像，并对初始样本场景图像进行人脸关键点检测，确定各初始样本场景图像的人脸检测框图像；

具体地，初始样本场景图像可以为对应场景下随机获取的图像，该图像中可能存在人脸，也可能不存在人脸。在存在人脸时，对应的人脸图像可能不是正脸图像。为了便于训练模型，可以对初始样本场景图像进行人脸关键点检测，在不存在人脸或人脸尺寸小于目标尺寸（如60×60）时，可以滤除对应的初始样本场景图像。

在存在人脸时，可以获取对应的人脸检测框图像，并根据人脸检测框图像中的关键点信息（如眼睛，鼻子，嘴角等），进行仿射变换，以进行人脸对齐，获取正脸图像，在得到正脸图像后，将其裁剪为预设尺寸（如112×112），从而得到样本场景图像。其中，在进行人脸对齐时，可以按照关键点通过平移，旋转，缩放等操作将人脸对齐为正脸。

如图3所示，对初始样本场景图像进行人脸关键点检测，确定人脸是否符合要求，如存在人脸且人脸尺寸满足要求，若人脸符合要求，则根据关键点信息进行仿射变换，实现人脸对齐，并将对齐后的人脸图像裁剪为固定尺寸。

基于上述任一实施例，人脸识别模型是基于如下步骤训练得到的：

确定融合多个场景的初始模型；

将融合多个场景的初始模型作为学生模型，基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，对学生模型进行蒸馏训练，得到人脸识别模型。

具体地，在基于各场景对应的教师模型进行蒸馏训练时，可行的方案有两种，一种是将教师模型和学生模型进行一对一的蒸馏训练，即分别针对每个场景的教师模型对学生模型进行蒸馏训练，得到每个场景下的学生模型，然后再将每个场景下的学生模型进行融合压缩，得到人脸识别模型；另一种是将直接将多个场景的教师模型进行联合蒸馏训练，压缩得到一个人脸识别模型。

考虑到第一种方案在单任务蒸馏过程中可能会造成知识损失，而单任务蒸馏过程中的知识损失会以级联损失的形式传播到多个学生模型的融合压缩阶段，本发明实施例中优选第二种方案，即直接将多个场景的教师模型压缩融合成为一个人脸识别模型。

基于上述任一实施例，基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，对学生模型进行蒸馏训练，得到人脸识别模型，包括：

将样本图像中各场景的样本场景图像输入至对应场景的教师模型，得到各场景的教师模型输出的各场景人脸识别结果；

将样本图像中各场景的样本场景图像输入至学生模型，得到学生模型输出的各场景学生识别结果；

基于各场景学生识别结果，以及各场景人脸识别结果，确定学生模型的损失函数；

基于学生模型的损失函数，对学生模型进行训练，得到人脸识别模型。

如图4所示，根据实际需求，可以设置多个场景的教师模型（如n个教师模型），然后分别将对应的样本场景图像输入至对应场景的教师模型，提取得到对应场景的教师特征向量，并基于教师特征向量确定各场景教师模型输出的各场景人脸识别结果，各场景人脸识别结果用于指导学生模型的训练。同时，将对应场景的样本场景图像输入至学生模型，提取得到学生特征向量，并基于学生特征向量确定学生识别结果，然后基于学生识别结果和对应场景的人脸识别结果确定损失函数，并基于损失函数优化模型进行训练，得到人脸识别模型。其中，损失函数可以是基于学生识别结果和各场景教师模型输出的各场景人脸识别结果之间的均方误差（Mean Squared Error，MSE）确定的。

下面对本发明提供的人脸识别装置进行描述，下文描述的人脸识别装置与上文描述的人脸识别方法可相互对应参照。

基于上述任一实施例，本发明还提供一种人脸识别装置，如图5所示，该装置包括：

确定单元510，用于确定待识别图像；

识别单元520，用于将所述待识别图像输入至融合多个场景的人脸识别模型，得到所述人脸识别模型输出的人脸识别结果；

基于上述任一实施例，所述装置还包括：

样本确定单元，用于确定各场景对应的样本场景图像集合，所述集合中包含多个样本场景图像；

分类单元，用于基于各场景对应的各样本场景图像中包含的人物在所述集合中出现的次数，从各场景对应的样本场景图像集合中确定各场景对应的正常样本和虚拟样本；

原始模型训练单元，用于基于各场景对应的正常样本、虚拟样本以及所述正常样本和所述虚拟样本包含人脸的身份信息，对教师模型的原始模型进行训练，得到各场景的教师模型。

基于上述任一实施例，所述分类单元，用于：

基于上述任一实施例，所述原始模型训练单元，包括：

初始模型训练单元，用于基于各场景对应的正常样本，以及所述正常样本中包含人脸的身份信息对教师模型的原始模型进行训练，得到各场景的教师模型对应的初始模型；

虚拟样本识别单元，用于将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景虚拟样本对应的人脸识别结果；

正常样本识别单元，用于将各场景的正常样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景正常样本对应的人脸识别结果；

教师模型训练单元，用于基于各场景虚拟样本对应的人脸识别结果、各场景正常样本对应的人脸识别结果、各场景虚拟样本包含人脸的身份信息以及各场景正常样本包含人脸的身份信息，对各场景的教师模型对应的初始模型进行训练，得到各场景的教师模型。

基于上述任一实施例，所述虚拟样本识别单元，包括：

第一特征提取单元，用于将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型中的特征提取层，得到所述特征提取层输出的各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板；各场景虚拟样本对应的特征模板为各场景的虚拟样本特征向量的平均向量；

第一识别单元，用于将各场景虚拟样本特征向量以及各场景虚拟样本对应的特征模板输入至各场景的教师模型对应的初始模型中的人脸识别层，得到所述人脸识别层输出的各场景虚拟样本对应的人脸识别结果；

所述正常样本识别单元，包括：

第二特征提取单元，用于将各场景对应的正常样本输入至各场景的教师模型对应的初始模型中的特征提取层，得到所述特征提取层输出的各场景正常样本特征向量；

第二识别单元，用于将各场景正常样本特征向量输入至各场景的教师模型对应的初始模型中的人脸识别层，得到所述人脸识别层输出的各场景正常样本对应的人脸识别结果。

基于上述任一实施例，所述装置还包括：

人脸检测单元，用于获取各场景对应的初始样本场景图像，并对所述初始样本场景图像进行人脸关键点检测，确定各初始样本场景图像的人脸检测框图像；

人脸对齐单元，用于基于各人脸检测框图像中的人脸关键点信息进行人脸对齐，并将人脸对齐后的各图像裁剪为预设尺寸，得到各场景对应的样本场景图像。

基于上述任一实施例，所述装置还包括：

初始模型确定单元，用于确定融合多个场景的初始模型；

人脸识别模型训练单元，用于将融合多个场景的初始模型作为学生模型，基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，对所述学生模型进行蒸馏训练，得到所述人脸识别模型。

基于上述任一实施例，所述人脸识别模型训练单元，包括：

第一输入单元，用于将所述样本图像中各场景的样本场景图像输入至对应场景的教师模型，得到各场景的教师模型输出的各场景人脸识别结果；

第二输入单元，用于将所述样本图像中各场景的样本场景图像输入至所述学生模型，得到所述学生模型输出的各场景学生识别结果；

损失函数确定单元，用于基于各场景学生识别结果，以及各场景人脸识别结果，确定所述学生模型的损失函数；

训练子单元，用于基于所述学生模型的损失函数，对所述学生模型进行训练，得到所述人脸识别模型。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640，其中，处理器610，存储器620，通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令，以执行人脸识别方法，该方法包括：确定待识别图像；将所述待识别图像输入至融合多个场景的人脸识别模型，得到所述人脸识别模型输出的人脸识别结果；其中，所述人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，进行蒸馏训练得到的。

此外，上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的人脸识别方法，该方法包括：确定待识别图像；将所述待识别图像输入至融合多个场景的人脸识别模型，得到所述人脸识别模型输出的人脸识别结果；其中，所述人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，进行蒸馏训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的人脸识别方法，该方法包括：确定待识别图像；将所述待识别图像输入至融合多个场景的人脸识别模型，得到所述人脸识别模型输出的人脸识别结果；其中，所述人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，进行蒸馏训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人脸识别方法，其特征在于，包括：

确定待识别图像；

其中，所述人脸识别模型是基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，进行蒸馏训练得到的；

各场景分别对应的教师模型是基于如下步骤训练得到的：

2.根据权利要求1所述的人脸识别方法，其特征在于，所述基于所述各场景对应的各样本场景图像中包含的人物在所述集合中出现的次数，从各场景对应的样本场景图像集合中确定各场景对应的正常样本和虚拟样本，包括：

3.根据权利要求1所述的人脸识别方法，其特征在于，所述基于各场景对应的正常样本、虚拟样本以及所述正常样本和所述虚拟样本包含人脸的身份信息，对教师模型的原始模型进行训练，得到各场景的教师模型，包括：

4.根据权利要求3所述的人脸识别方法，其特征在于，所述将各场景对应的虚拟样本输入至各场景的教师模型对应的初始模型，得到各场景的教师模型对应的初始模型输出的各场景虚拟样本对应的人脸识别结果，包括：

5.根据权利要求1所述的人脸识别方法，其特征在于，各场景对应的样本场景图像是基于如下步骤确定的：

6.根据权利要求1至5任一项所述的人脸识别方法，其特征在于，所述人脸识别模型是基于如下步骤训练得到的：

确定融合多个场景的初始模型；

7.根据权利要求6所述的人脸识别方法，其特征在于，所述基于样本图像及各场景对应的教师模型输出的各场景人脸识别结果，对所述学生模型进行蒸馏训练，得到所述人脸识别模型，包括：

8.一种人脸识别装置，其特征在于，包括：

确定单元，用于确定待识别图像；

还包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述人脸识别方法的步骤。