CN109492624A

CN109492624A - 一种人脸识别方法、特征提取模型的训练方法及其装置

Info

Publication number: CN109492624A
Application number: CN201811632072.2A
Authority: CN
Inventors: 高岱恒; 赵荣臻
Original assignee: Beijing Ling Xi Technology Co Ltd
Current assignee: Beijing Ling Xi Technology Co Ltd; Beijing Lynxi Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-03-19
Also published as: WO2020134478A1

Abstract

本发明实施例公开了一种人脸识别方法、特征提取模型的训练方法及其装置，通过预定的三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

Description

一种人脸识别方法、特征提取模型的训练方法及其装置

技术领域

本发明涉及数据处理技术领域，更具体地，涉及一种人脸识别方法、特征提取模型的训练方法及其装置。

背景技术

在人脸识别领域中，防止误检是极为重要的。在现有技术中，通常采用卷积神经网络对单张静态图像进行处理来进行人脸识别。但是，在人脸识别过程中，单张静态图像中的人脸信息量有时存在不足，特别在静态图像分辨率低、有遮挡或损坏时，可能会导致人脸识别错误或识别失败。

发明内容

有鉴于此,本发明实施例提供了一种人脸识别方法、特征提取模型的训练方法及其装置，以在人脸识别过程中加入光流信息和空间变化信息，提高了人脸识别的准确性和泛化能力。

第一方面，本发明实施例提供一种人脸识别方法，所述方法包括：

获取包括待验证人的图像组，所述图像组包括多帧图像；

提取所述图像组的特征信息，所述特征信息包括所述图像组中的每帧图像的灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息；

采用预定的多层三维卷积神经网络依次对所述图像组的特征信息进行处理以获取所述图像组的特征向量；

根据所述图像组的特征向量和多个对比特征向量计算所述待验证人分别和多个对比人的特征相似度，所述多个对比人分别与所述多个对比特征向量相对应，所述多个对比特征向量从预定的数据库中获取；

根据所述特征相似度对所述待验证人进行人脸识别。

在本发明实施例中，通过预定的三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

进一步地，所述根据所述特征相似度对所述待验证人进行人脸识别包括：

响应于所述待验证人与所述对比人的特征相似度满足第一预定条件，确定所述待验证人与所述对比人为同一个人。

进一步地，所述图像组中至少包括一帧待验证人的人脸图像。

进一步地，所述获取包括待验证人的图像组包括：

从待验证文件中提取包括待验证人的正面人脸的至少一帧图像以获取所述图像组。

在本发明实施例中，通过获取待验证文件中的静态图像的特征图以判断其视觉角度信息，将待验证文件中包括待验证人的正面人脸的静态图像输出至图像组中，可以进一步提高人脸识别的准确性。

进一步地，所述根据所述图像组的特征向量和多个对比特征向量计算所述待验证人分别和多个对比人的特征相似度包括：

计算所述图像组的特征向量分别与所述多个对比特征向量的余弦相似度以获取所述待验证人分别和所述多个对比人的特征相似度。

进一步地，所述响应于所述待验证人与所述对比人的特征相似度满足第一预定条件，确定所述待验证人与所述对比人为同一个人具体为：

响应于所述待验证人对应的图像组的特征向量与所述对比人对应的对比特征向量的余弦相似度大于相似阈值，确定所述待验证人与所述对比人为同一个人。

第二方面，本发明实施例提供一种特征提取模型的训练方法，所述方法包括：

获取多组训练样本，每组训练样本包括目标样本、正样本和负样本；

分别提取各组训练样本中的每帧图像的特征信息，所述特征信息包括灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息；

采用多层三维卷积神经网络依次对各组训练样本中的每帧图像的特征信息进行处理以分别获取各组训练样本中的目标样本、正样本和负样本的特征向量；

根据预定的损失函数对所述多层三维卷积神经网络进行训练，使得所述目标样本的特征向量和所述正样本的特征向量的特征相似度满足第一预定条件，所述目标样本的特征向量和负样本的特征向量的特征相似度满足第二预定条件；

获取训练后的多层三维卷积神经网络。

在本发明实施例中，通过损失函数对多层三维卷积神经网络进行训练，使得在经训练后的三维卷积函数处理的训练样本中，正样本更靠近目标样本，负样本远离目标样本，由此，可以较为准确地进行人脸识别。并且，通过训练后的三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

进一步地，所述根据预定的损失函数对所述多层三维卷积神经网络进行训练包括：

计算每个训练样本中的目标样本分别和正样本、负样本的特征相似度；

响应于所述目标样本和正样本的特征相似度不满足所述第一预定条件和/或所述目标样本和负样本的特征相似度不满足第二预定条件，调整所述多层三维卷积神经网络的参数。

进一步地，所述根据预定的损失函数对所述多层三维卷积神经网络进行训练具体为：

根据三元损失函数对所述多层三维卷积神经网络进行训练。

第三方面，本发明实施例提供一种人脸识别装置，所述装置包括：

图像组获取单元，被配置为获取包括待验证人的图像组，所述图像组包括多帧图像；

特征信息提取单元，被配置为提取所述图像组的特征信息，所述特征信息包括所述图像组中的每帧图像的灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息；

神经网络处理单元，被配置为采用多层预定的三维卷积神经网络依次对所述图像组的特征信息进行处理以获取所述图像组的特征向量；

特征相似度获取单元，被配置为根据所述图像组的特征向量和多个对比特征向量计算所述待验证人分别和多个对比人的特征相似度，所述多个对比人分别与所述多个对比特征向量相对应，所述多个比对特征向量从预定的数据库中获取；

人脸识别单元，被配置为根据所述特征相似度对所述待验证人进行人脸识别。

第四方面，本发明实施例提供一种特征提取模型的训练装置，所述装置包括：

训练样本获取单元，被配置为获取多组训练样本，每组训练样本包括目标样本、正样本和负样本；

特征信息提取单元，被配置为分别提取各组训练样本中的每帧图像的特征信息，所述特征信息包括灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息；

神经网络处理单元，被配置为采用多层三维卷积神经网络依次对对各组训练样本中的每帧图像的特征信息进行处理以分别获取各组训练样本中的目标样本、正样本和负样本的特征向量；

训练单元，被配置为根据预定的损失函数对所述多层三维卷积神经网络进行训练，使得所述目标样本的特征向量和所述正样本的特征向量的特征相似度满足第一预定条件，所述目标样本的特征向量和所述负样本的特征向量的特征相似度满足第二预定条件；

神经网络获取单元，被配置为获取训练后的多层三维卷积神经网络。

第五方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现如本发明第一方面所述的方法。

第六方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现如本发明第二方面所述的方法。

第七方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如本发明第一方面所述的方法。

第八方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如本发明第二方面所述的方法。

第九方面，本发明实施例提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如本发明第一方面所述的方法。

第十方面，本发明实施例提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如本发明第二方面所述的方法。

本发明实施例的技术方案通过三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的特征提取模型的训练方法的流程图；

图2是本发明实施例的三维卷积神经网络处理的示意图；

图3是本发明实施例的特征提取模型的训练过程示意图；

图4是本发明实施例的特征提取模型在训练前后的输出对比示意图；

图5是本发明实施例的人脸识别方法的流程图；

图6是本发明实施例的获取包括待验证人的图像组的方法的流程图；

图7是本发明实施例的人脸识别方法的数据流向图；

图8是本发明实施例的特征提取模型的训练装置的示意图；

图9是本发明实施例的人脸识别装置的示意图；

图10是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，不代表顺序，且不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是本发明实施例的特征提取模型的训练方法的流程图。如图1所示，本发明实施例的特征提取模型的训练方法包括以下步骤：

步骤S110，获取多组训练样本。其中，每组训练样本包括目标样本、正样本和负样本。其中，目标样本对应的人与正样本对应的人为同一个人。目标样本对应的人与负样本对应的人为不同的人。在本实施例中，目标样本、正样本和负样本均包括多帧图像。并且，目标样本、正样本和负样本中图像的帧数均相同。

步骤S120，分别提取各组训练样本中的每帧图像的特征信息。在一种可选的实现方式中，特征信息包括五个通道信息，也即灰度图(gray)、横坐标梯度图(gradient-x)、纵坐标梯度图(gradient-y)、横光流信息(optical-flow-x)和纵光流信息(optical-flow-y)。其中，横纵坐标梯度图分别提取图像垂直方向和水平方向的梯度信息，以去除不必要的信息(例如不变的背景色等)，加重轮廓。光流信息可以表达图像的变化，包含了目标的运动信号。在本实施例中，通过相邻的两帧图像提取这两帧图像对应的一个横光流信息和一个纵光流信息。

例如，在本实施例中，各组训练样本中的目标样本、正样本和负样本均包括N帧图像，则目标样本的特征信息包括N个灰度图、N个横坐标梯度图、N个纵坐标梯度图、N-1个包含横光流信息的特征图、N-1个包含纵光流信息的特征图。也即，目标样本的特征信息可以包括(5N-2)个特征图，其中，每个特征图的尺寸相同。

步骤S130，采用多层三维卷积神经网络依次对训练样本中的每帧图像的特征信息进行处理以分别获取各组训练样本中的目标样本、正样本和负样本的特征向量。

在本实施例中，对连续的多帧特征图进行三维卷积运算。例如，采用n*n*3的卷积核对一个训练样本中的目标样本的N个灰度图进行三维卷积运算。其中，n*n表示对灰度图的二维卷积的尺寸，3表示卷积的时间维度，也即对连续的3个灰度图进行三维卷积运算。例如：假设图像组中有5幅图像，获取5个灰度图，卷积的时间维度为3，则第1-3个灰度图做卷积运算输出一个特征图，第2-4个灰度图做卷积运算数据一个特征图，第3-5个特征图做卷积运算数据一个特征图，可见，5帧灰度图做时间维度为3的卷积后输出5-2＝3个特征图。因此，一个训练样本中的目标样本的N个灰度图在采用n*n*3的卷积核进行三维卷积运算后，输出N-2个特征图。由此，三维卷积运算后输出的特征图对应于连续的3帧图像，从而可以捕捉时间信息，提高了在不同光照、运动、姿态变化等情况下的人脸识别的准确性和人脸识别的泛化能力。

图2是本发明实施例的三维卷积神经网络处理的示意图。如图2所示，三维卷积运算的时间维度为3，也即对在时间上连续的3个特征图进行卷积操作。特征图1-4是在时间t上连续的特征图。特征图1-3可以通过堆叠组成一个立方体，并在立方体中采用预定的三维卷积核进行三维卷积运算，输出特征图5。如图2所示，特征图5中的某一位置的值d是通过特征图1-3的同一坐标位置的局部感受野(局部感受野a-c)得到的。同理，特征图2-4可以通过堆叠组成一个立方体，并在立方体中采用预定的三维卷积核进行三维卷积运算，输出特征图6。由此，特征图5和6分别可以捕捉特征图1-3、特征图2-4的时间信息。由此，本实施例提高了在不同光照、运动、姿态变化等情况下的人脸识别的准确性和人脸识别的泛化能力。

步骤S140，根据预定的损失函数对多层三维卷积神经网络进行训练，以使得各组训练样本中目标样本的特征向量和正样本的特征向量的特征相似度满足第一预定条件，各组训练样本中目标样本的特征向量和负样本的特征向量的特征相似度满足第二预定条件。也即，通过训练修正多层三维卷积神经网络中的参数，使得各组训练样本经训练后的多层三维卷积神经网络处理后获取的特征向量中，各组训练样本中目标样本和正样本的特征相似度满足第一预定条件，各组训练样本中目标样本和负样本的特征相似度满足第二预定条件。在一种可选的实现方式中，采用目标样本的特征向量和正样本的特征向量的余弦相似度表征目标样本和正样本的特征相似度，采用目标样本的特征向量和负样本的特征向量的余弦相似度表征目标样本和负样本的特征相似度。应理解，也可以通过其他方式(例如欧式距离等)来表征样本之间的特征相似度。

图3是本发明实施例的特征提取模型的训练过程示意图。图4是本发明实施例的特征提取模型在训练前后的输出对比示意图。如图3所示，批量训练样本31经多层三维卷积神经网络32处理后，采用L2规范化33处理，然后通过损失函数34进行训练，以通过BP算法(Backpropagation algorithm，反向传播算法)修正多层三维卷积神经网络32的参数，使得目标样本的特征向量和正样本的特征向量的余弦相似度更大(也即目标样本和正样本的特征向量之间的夹角更小，目标样本和正样本的差距更小)，从而使得各组训练样本中目标样本和正样本的特征相似度满足第一预定条件，并使得目标样本的特征向量和负样本的特征向量的余弦相似度更小(也即目标样本和负样本的特征向量之间的夹角更大，目标样本和负样本的差距很大)，从而使得各组训练样本中目标样本和正样本的特征相似度满足第二预定条件。其中，L2规范化可以对损失函数的一些参数进行限制，由此，可以防止模型过拟合，增大抗扰动能量，从而可以进一步提高人脸识别的准确性和泛化能力。BP算法是一种监督学习算法，主要由激励传播和权重更新两个环节反复循环迭代，直到模型对输入的响应达到预定的目标范围为止。

也就是说，在本实施例中，通过训练不断更新多层三维卷积神经网络的参数(也即更新不同特征的权重)使得输出的各组训练样本中的目标样本、正样本和负样本的特征向量分别满足预定条件(也即各组训练样本中目标样本和正样本的特征相似度满足第一预定条件，各组训练样本中目标样本和负样本的特征相似度满足第二预定条件)。

如图4所示，在特征提取模型训练前，输出的一组训练样本中的目标样本41与正样本42的距离较远(表征目标样本41的特征向量与正样本42的特征向量的夹角较大)，目标样本41与负样本43的距离较近(表征目标样本41的特征向量与正样本43的特征向量的夹角相对较小)。因此，无法通过判断目标样本41的特征向量与正样本42的特征向量的余弦相似度来判断目标样本41与正样本42是同一个人，也无法通过判断目标样本41的特征向量与负样本43的特征向量的余弦相似度来目标样本41与负样本43不是同一个人。在特征提取模型训练过程中，使得获取的正样本42的特征向量与目标样本41的特征向量的夹角逐渐减小，负样本43的特征向量与目标样本41的特征向量的夹角逐渐增大，也即，使得正样本42逐渐靠近目标样本41，负样本43逐渐远离目标样本41。在特征提取模型训练后，输出的一组训练样本中的目标样本41的特征向量与正样本42的特征向量的距离较近，目标样本41的特征向量与负样本43的特征向量的距离较远。因此，可以通过判断目标样本41的特征向量与正样本42的特征向量的余弦相似度来判断目标样本与正样本是同一个人，也可以通过判断目标样本41的特征向量与负样本43的特征向量的余弦相似度来目标样本与负样本不是同一个人。

在一种可选的实现方式中，采用三元损失函数对多层三维卷积神经网络进行训练。三元损失函数的公式如下所示：

其中，N为批量训练样本的个数，i为当前的第i组训练样本，为第i组样本中的目标样本的特征向量(a为目标样本的标识)，为第i组样本中的正样本的特征向量(p为正样本的标识)，为第i组样本中的负样本的特征向量(n为负样本的标识)，为目标样本的特征向量和正样本的特征向量的余弦相似度，为目标样本的特征向量和负样本的特征向量的余弦相似度，α为目标样本的特征向量和正样本的特征向量的余弦相似度与目标样本的特征向量和负样本的特征向量的余弦相似度之间的最小间隔，中括号外的“+”表示在中括号内的值大于零时，取该值为损失，小于零时，损失为0。通过各组训练样本的损失基于BP算法修正多层三维卷积神经网络的参数，以使得训练样本中的正样本更靠近目标样本，负样本远离目标样本。应理解，能够实现上述功能的其他损失函数(如softmax函数(归一化指数函数)，spherefaceloss函数等)均可应用于本实施例中。

步骤S150，获取训练后的多层三维卷积神经网络。

在本实施例中，通过损失函数对多层三维卷积神经网络进行训练，使得在经训练后的三维卷积函数处理的训练样本中，正样本更靠近目标样本，负样本远离目标样本，由此，本实施例的训练后的多层三维卷积神经网络可以应用于所有人的人脸识别，并提高了人脸识别的准确性。并且，通过训练后的三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

图5是本发明实施例的人脸识别方法的流程图。如图5所示，本实施例的人脸识别方法的流程图包括如下步骤：

步骤S210，获取包括待验证人的图像组。在一种可选的实现方式中，从待验证文件(例如预定的视频文件、图像文件等)中提取包括待验证人的正面人脸的至少一帧图像以获取上述图像组。其中，图像组中包括预定帧数的图像，且至少一帧图像包括待验证人的正面人脸。在一种可选的实现方式中，在图像组中，只有部分图像包括待验证人的正面人脸时，其余的图像可用不含特征信息的黑色背景图像或白色背景图像代替。应理解，包括待验证人的正面人脸的图像在图像组中相邻。

步骤S220，获取图像组的特征信息。其中，特征信息包括图像组中的每帧图像的灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息。其中，横纵坐标梯度图分别提取图像垂直方向和水平方向的梯度信息，以去除不必要的信息(例如不变的背景色等)，加重了轮廓。光流信息可以表达图像的变化，包含了目标的运动信号。在本实施例中，通过相邻的两帧图像提取这两帧图像对应的横纵光流信息。

例如，在本实施例中，图像组包括10帧图像，则图像组的特征信息包括10个灰度图、10个横坐标梯度图、10个纵坐标梯度图、(10-1)个包含横光流信息的特征图、(10-1)个包含纵光流信息的特征图。也即，该图像组的特征信息可以包括(5*10-2)个特征图，其中，每个特征图的尺寸相同。

步骤S230，采用预定的多层三维卷积神经网络依次对图像组的特征信息进行处理以获取该图像组的特征向量。其中，预定的多层三维卷积神经网络为经过损失函数训练后的多层三维卷积神经网络。

在本实施例中，对图像组中连续的多帧特征图进行三维卷积运算。例如，采用7*7*3的卷积核对获取的10个灰度图进行三维卷积运算。其中，7*7表示对特征图的二维卷积的尺寸，3表示卷积的时间维度，也即对连续的3个特征图进行三维卷积运算。因此，一个训练样本中的目标样本的10个灰度图在采用7*7*3的卷积核进行三维卷积运算后，输出(10-2)个特征图。由此，三维卷积运算后输出的特征图对应于连续的3帧图像，从而可以捕捉时间信息，提高了在不同光照、运动、姿态变化等情况下的人脸识别的准确性和人脸识别的泛化能力。

步骤S240，根据图像组的特征向量和多个对比特征向量计算待验证人分别和多个对比人的特征相似度，多个对比特征向量从预定的数据库中获得。其中，多个对比人分别与上述多个对比特征向量向对应。容易理解，上述多个对比特征向量是根据对应的对比图像组采用步骤S210-S230的方法得到的。其中，可以预先批处理数据库中的多个对比人对应的对比图像组以获取对应的对比特征向量并进行存储。

在一种可选的实现方式中，通过计算包括待验证人的图像组的特征向量分别与多个对比特征向量的余弦相似度以获取待验证人分别与多个对比人的特征相似度。应理解，也可以计算包括待验证人的图像组的特征向量分别与多个对比特征向量的欧式距离等方式获取待验证人分别与多个对比人的特征相似度。其中，获取待验证人分别与多个对比人的特征相似度的方法应与训练多层三维卷积神经网络时采用的算法相对应。

步骤S250，根据特征相似度对待验证人进行人脸识别。具体地，响应于待验证人与一个对比人的特征相似度满足第一预定条件，确定待验证人与该对比人为同一个人。例如，在验证人的图像组的特征向量与该对比人对应的对比特征向量的余弦相似度大于相似阈值时，确定待验证人与该对比人为同一个人。其中，该相似阈值在特征提取模型训练过程中确定。

本实施例通过三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

图6是本发明实施例的获取包括待验证人的图像组的方法的流程图。如图6所示，本实施例的获取包括待验证人的图像组包括如下步骤：

步骤S211，从待验证文件中读取静态图像。其中，待验证文件可以为包括待验证人的视频文件或图像文件。在待验证文件为视频文件时，每次读取一帧静态图像。在待验证文件为图像文件时，依次读取图像文件中的静态图像。

步骤S212，对静态图像进行神经网络处理以获取特征图。在一种可选的实现方式中，可以基于缩减版的ResNet-34(Resnet：Residual Network，一种基于残差的神经网络结构，34表示网络结构中采用的基本模块——basic block的数量)获取上述特征图。

步骤S213，根据该静态图像的特征图的语义信息获取该静态图像的视觉角度信息。其中，静态图像的视觉角度信息包括正面、侧面和背面。其中，在静态图像的视觉角度信息为正面时，该静态图像包括待验证人的正面人脸。

步骤S214，判断视觉角度信息是否为正面。响应于该静态图像的视觉角度信息不为正面，将该静态图像淘汰并继续执行步骤S211。响应于该静态图像的视觉角度信息为正面，执行步骤S215。

步骤S215，将该静态图像输出至图像组中。

步骤S216，判断图像组中的图像帧数是否达到预定值。响应于图像组中的图像帧数未达到预定值，执行步骤S211。响应于图像组中的图像帧数达到预定值，执行步骤S217。

步骤S217，输出图像组。

在一种可选的实现方式中，在从待验证文件中读取静态图像之前，判断待验证文件中是否还有未处理的图像，响应于待验证文件中还有未处理的图像，执行步骤S211。响应于待验证文件中没有未处理的图像，在图像组中补充不含特征信息的黑色背景图像或白色背景图像，以使得图像组中的图像帧数达到预定值。

在本实施例中，通过获取待验证文件中的静态图像的特征图以判断其视觉角度信息，将待验证文件中包括待验证人的正面人脸的静态图像输出至图像组中，可以进一步提高人脸识别的准确性。

图7是本发明实施例的人脸识别方法的数据流向图。如图7所示，特征提取层72获取包括待验证人的图像组71，并提取图像组71中的每帧图像的特征信息。其中，特征信息包括图像组中的每帧图像的灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息。假设图像组包括尺寸为64*64*3的10帧图像，则图像组的特征信息包括10个灰度图、10个横坐标梯度图、10个纵坐标梯度图、9个包含横光流信息的特征图、9个包含纵光流信息的特征图。也即，该图像组的特征信息可以包括尺寸为64*64的48个特征图。

卷积层73读取并处理图像组71中的每帧图像的特征信息。在一种可选的实现方式中，卷积层73包括2个大小为7*7*3的卷积核。其中，7*7表示对特征图的二维卷积的尺寸，3表示卷积的时间维度，也即对连续的3帧特征图进行三维卷积运算。假设图像组包括尺寸为64*64*3的10帧图像，卷积层73对10个灰度图、10个横坐标梯度图、10个纵坐标梯度图、9个包含横光流信息的特征图、9个包含纵光流信息的特征图进行处理后，可输出(8+8+8+7+7)*2个特征图，并且，在不补零的情况下，特征图的尺寸均为58*58。

之后，基于降采样层74-卷积层75-降采样层74'-卷积层75'……依次对卷积层73的输出进行处理。在本实施例中，卷积神经网络处理的特征图采用NCHW(或NHWC等)数据格式。其中，NCHW中的N表征数据处理的批量大小，C为特征图个数，H为每个特征图的高，W为每个特征图的宽。在本实施例中，同一层的三维卷积神经网络输出的特征图的高度和宽度是相同的。在经过多次采样层和卷积层对特征图的处理后，获得多个特征图。全连接层76接收最后一层卷积层输出的多个特征图以生成一个一维向量，输出给L2规范化层77进行规范化。L2规范化层77输出图像组71的特征向量至特征相似度获取单元78。特征相似度获取单元78根据图像组71的特征向量和从预定的数据库中获取的多个对比特征向量计算待验证人分别和多个对比人的特征相似度，并输出多个特征相似度至人脸识别单元79。人脸识别79根据待验证人分别和多个对比人的特征相似度进行人脸识别并输出最终结果。

在本实施例中，通过预定的三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

图8是本发明实施例的特征提取模型的训练装置的示意图。如图8所示，本实施例的特征提取模型的训练装置包括训练样本获取单元81、特征信息提取单元82、神经网络处理单元83、训练单元84以及神经网络获取单元85。

训练样本获取单元81被配置为获取多组训练样本，每组训练样本包括目标样本、正样本和负样本。其中，目标样本对应的人与正样本对应的人为同一个人。目标样本对应的人与负样本对应的人为不同的人。在本实施例中，目标样本、正样本和负样本均包括多帧图像。并且，目标样本、正样本和负样本中图像的帧数均相同。

特征信息提取单元82被配置为分别提取各组训练样本中的每帧图像的特征信息。在一种可选的实现方式中，特征信息可以包括五个通道信息，也即灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息。

神经网络处理单元83被配置为采用多层三维卷积神经网络依次对各组训练样本中的每帧图像的特征信息进行处理以分别获取各组训练样本中的目标样本、正样本和负样本的特征向量。训练单元84被配置为根据预定的损失函数对所述多层三维卷积神经网络进行训练，使得所述目标样本的特征向量和所述正样本的特征向量的特征相似度满足第一预定条件，所述目标样本的特征向量和负样本的特征向量的特征相似度满足第二预定条件。

在本实施例中，通过损失函数对多层三维卷积神经网络进行训练，使得在经训练后的三维卷积函数处理的训练样本中，正样本更靠近目标样本，负样本远离目标样本，由此，可以较为准确地进行人脸识别。并且，通过训练后的三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

图9是本发明实施例的人脸识别装置的示意图。如图9所示，本实施的人脸识别装置包括图像组获取单元91、特征信息提取单元92、神经网络处理单元93、特征相似度获取单元94以及人脸识别单元95。

图像组获取单元91被配置为获取包括待验证人的图像组，图像组包括多帧图像。在一种可选的实现方式中，从待验证文件(例如预定的视频文件、图像文件等)中提取包括待验证人的正面人脸的至少一帧图像以获取上述图像组。其中，图像组中包括预定帧数的图像，且至少一帧图像包括待验证人的正面人脸。在一种可选的实现方式中，在图像组中，只有部分图像包括待验证人的正面人脸时，其余的图像可用不含特征的黑色背景图像或白色背景图像代替。应理解，包括待验证人的正面人脸的图像在图像组中相邻。

特征信息提取单元92被配置为提取所述图像组的特征信息。其中，所述特征信息包括所述图像组中的每帧图像的灰度图、横坐标梯度图、纵坐标梯度图、横光流信息和纵光流信息。

神经网络处理单元93被配置为采用多层预定的三维卷积神经网络依次对所述图像组的特征信息进行处理以获取所述图像组的特征向量。其中，预定的多层三维卷积神经网络为经过损失函数训练后的多层三维卷积神经网络。

特征相似度获取单元94被配置为根据所述图像组的特征向量和多个对比特征向量计算所述待验证人分别和多个对比人的特征相似度，多个对比特征向量从预定的数据库中获取。其中，所述多个对比人分别与所述多个对比特征向量相对应。容易理解，可以预先批处理数据库中的多个对比人对应的对比图像组以获取对应的对比特征向量并进行存储。

人脸识别单元95被配置为根据所述特征相似度对所述待验证人进行人脸识别。具体地，响应于待验证人与一个对比人的特征相似度满足第一预定条件，确定待验证人与该对比人为同一个人。例如，在验证人的图像组的特征向量与该对比人对应的对比特征向量的余弦相似度小于相似阈值时，确定待验证人与该对比人为同一个人。其中，该相似阈值在特征提取模型训练过程中确定。

本实施例通过预定的三维卷积神经网络处理由同一个人的多个人脸图像组成的视频流的特征信息以获取对应的特征向量，并基于与数据库中的人脸的特征向量进行人脸识别，由此，可以在人脸识别过程中加入光流信息和空间变化信息，提高人脸识别的准确性和泛化能力。

图10是本发明实施例的电子设备的示意图。图10所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器101和存储器102。处理器101和存储器102通过总线103连接。存储器102适于存储处理器101可执行的指令或程序。处理器101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器101通过执行存储器102所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线103将上述多个组件连接在一起，同时将上述组件连接到显示控制器104和显示装置以及输入/输出(I/O)装置105。输入/输出(I/O)装置105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置105通过输入/输出(I/O)控制器106与***相连。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

可以通过CPU、GPU(Graphics Processing Unit，图形处理器)等硬件芯片来承载本发明实施例的方法。其中，硬件芯片可以包括多个处理核来执行本发明实施例的方法。所述多个处理核可以共用一个通用存储器。通用存储器被配置为存储可执行指令，所述指令被执行时以实现本发明实施例的方法。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸识别方法，其特征在于，所述方法包括：

获取包括待验证人的图像组，所述图像组包括多帧图像；

根据所述特征相似度对所述待验证人进行人脸识别。

2.根据权利要求1所述的人脸识别方法，其特征在于，所述根据所述特征相似度对所述待验证人进行人脸识别包括：

3.根据权利要求1或2所述的人脸识别方法，其特征在于，所述图像组中至少包括一帧待验证人的人脸图像。

4.根据权利要求1-3中任一项所述的人脸识别方法，其特征在于，所述获取包括待验证人的图像组包括：

5.根据权利要求1-4中任一项所述的人脸识别方法，其特征在于，所述根据所述图像组的特征向量和多个对比特征向量计算所述待验证人分别和多个对比人的特征相似度包括：

6.根据权利要求5所述的人脸识别方法，其特征值在于，所述响应于所述待验证人与所述对比人的特征相似度满足第一预定条件，确定所述待验证人与所述对比人为同一个人具体为：

7.一种特征提取模型的训练方法，其特征在于，所述方法包括：

根据预定的损失函数对所述多层三维卷积神经网络进行训练，使得所述目标样本的特征向量和所述正样本的特征向量的特征相似度满足第一预定条件，所述目标样本的特征向量和所述负样本的特征向量的特征相似度满足第二预定条件；

获取训练后的多层三维卷积神经网络。

8.根据权利要求7所述的特征提取模型的训练方法，其特征在于，所述根据预定的损失函数对所述多层三维卷积神经网络进行训练包括：

响应于所述目标样本和正样本的特征相似度不满足所述第一预定条件和/或所述目标样本和负样本的特征相似度不满足第二预定条件，修正所述多层三维卷积神经网络的参数。

9.根据权利要求7或8所述的特征提取模型的训练方法，其特征在于，所述根据预定的损失函数对所述多层三维卷积神经网络进行训练具体为：

根据三元损失函数对所述多层三维卷积神经网络进行训练。

10.一种人脸识别装置，其特征在于，所述装置包括：

11.一种特征提取模型的训练装置，其特征在于，所述装置包括：

神经网络处理单元，被配置为采用多层三维卷积神经网络依次对各组训练样本中的每帧图像的特征信息进行处理以分别获取各组训练样本中的目标样本、正样本和负样本的特征向量；

训练单元，被配置为根据预定的损失函数对所述多层三维卷积神经网络进行训练，使得所述目标样本的特征向量和所述正样本的特征向量的特征相似度满足第一预定条件，所述目标样本的特征向量和负样本的特征向量的特征相似度满足第二预定条件；

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行以实现如权利要求1-6中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行以实现如权利要求7-9中任一项所述的方法。

14.一种电子设备，其特征在于，包括存储器和处理器，其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。

15.一种电子设备，其特征在于，包括存储器和处理器，其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求7-9中任一项所述的方法。

16.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-6中任一项所述的方法。

17.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求7-9中任一项所述的方法。