CN108960001B

CN108960001B - 训练用于人脸识别的图像处理装置的方法和装置

Info

Publication number: CN108960001B
Application number: CN201710348143.5A
Authority: CN
Inventors: 缪倩文
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2021-12-24
Anticipated expiration: 2037-05-17
Also published as: JP7040278B2; JP2018195309A; CN108960001A

Abstract

本公开涉及训练用于人脸识别的图像处理装置的方法和装置以及相应的图像处理装置。根据本公开的方法包括以下步骤：使用第一二维人脸图像生成多对训练图像；基于多对训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络模型；以及将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于全局特征向量和标识训练联合贝叶斯模型，其中图像处理装置的人脸识别基于经训练的卷积神经网络模型和联合贝叶斯模型。根据本公开的技术，可以在不需要大量的带有标签的训练图像的情况下进行用于人脸识别的图像处理装置的训练。

Description

训练用于人脸识别的图像处理装置的方法和装置

技术领域

本公开涉及训练用于人脸识别的图像处理装置的方法和装置以及相应的图像处理装置。

背景技术

近年来，基于卷积神经网络(CNN)模型的深度学习方法的发展以及具有大量的带有标签的人脸图像的大规模数据库的构造使得人脸识别的性能得到极大的飞跃，甚至已超过人类的识别能力。然而，现有技术的方法需要大量的带有标识的人脸图像进行CNN模型的训练，而收集和标注这些人脸图像需要耗费大量的时间和精力。

发明内容

在下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本公开的目的在于提供训练用于人脸识别的图像处理装置的方法和装置，利用根据本公开的装置和方法进行训练，能够在仅有少量人脸图像甚至一个人脸图像作为训练数据的情况下对用于人脸识别的图像处理装置进行训练。根据本公开的装置和方法训练的图像处理装置至少能够达到与现有技术相当的识别准确度，然而所需的代价极大地降低。

为了实现本公开的目的，根据本公开的一个方面，提供了训练用于人脸识别的图像处理装置的方法，包括以下步骤：使用第一二维人脸图像生成多对训练图像；基于多对训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络模型；以及将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于全局特征向量和标识训练联合贝叶斯模型，其中图像处理装置的人脸识别基于经训练的卷积神经网络模型和联合贝叶斯模型。

根据本公开的另一方面，提供了一种训练用于人脸识别的图像处理装置的装置，包括：生成单元，被配置成使用第一二维人脸图像生成多个训练图像对；第一训练单元，被配置成基于多个训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络模型；以及第二训练单元，被配置成将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于全局特征向量和标识训练联合贝叶斯模型，其中图像处理装置的人脸识别基于经训练的卷积神经网络模型和联合贝叶斯模型。

根据本公开的另一方面，还提供了一种通过根据本公开的装置和方法进行训练而获得的用于人脸识别图像处理装置。

根据本公开的另一方面，还提供了能够实现上述方法的计算机程序。此外，还提供了具有至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过根据本公开的训练技术训练的图像处理装置，至少可以实现与现有技术相当的人脸识别的准确度。然而，较之现有技术，该图像处理装置的训练代价是小的，并且训练速度是高的。

附图说明

参照下面结合附图对本公开实施例的说明，会更加容易地理解本公开的以上和其它目的、特点和优点，在附图中：

图1是示出根据本公开的实施例的对用于人脸识别的图像处理装置进行训练的方法的流程图；

图2是示出根据本公开的实施例的用于生成多对训练图像的方法的流程图；

图3是示出世界坐标系、图像坐标系和相机坐标系之间的关系的示意图；

图4是示出了根据本公开的实施例的对用于人脸识别的图像处理装置进行训练的装置的框图；以及

图5是示出可用来实现根据本公开的实施例的方法和装置的通用机器的结构简图。

具体实施方式

在下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的部件，而省略了与本公开关系不大的其他细节。

根据本公开的对用于人脸识别的图像处理装置进行训练的技术基于如下思想。人脸识别的问题可以归结为将新的二维人脸图像与已知的二维人脸图像进行比较以判断是否是同一个人的人脸图像。

为了解决上述问题，根据本公开的技术，可以训练卷积神经网络来对人脸图像中的特征进行提取，并且基于经训练的卷积神经网络来训练联合贝叶斯模型以进行人脸图像的比较，即分类。然而，为了使卷积神经网络的训练更为充分，需要收集和标注大量的二维人脸图像，而这需要耗费大量的时间和精力。

因此，根据本公开的技术提出了利用少量的甚至一个二维人脸图像生成训练图像来对卷积神经网络进行训练的方法。根据本公开的方法，通过简单地将二维人脸图像投影(还可以被称为“冲压”)到通用三维人脸模型上，并且随后对投影有该二维人脸图像的三维人脸模型进行旋转和镜像操作，可以生成可供卷积神经网络训练使用的新的二维人脸图像。

随后，通过经训练的CNN模型使用具有标识的人脸图像对联合贝叶斯模型进行训练，所得到的经训练的CNN模型和联合贝叶斯模型可以作为用于人脸识别的图像处理模型应用于工程应用。

下面参照附图对根据本公开的对用于人脸识别的图像处理装置进行训练的技术进行详细描述。

图1是示出根据本公开的实施例的对用于人脸识别的图像处理装置进行训练的方法100的流程图。

图1的方法100开始于步骤S101。在步骤S102中，使用第一二维人脸图像生成多对训练图像。接着，在步骤S103中，基于多对训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络模型。接着，在步骤S104中，将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于全局特征向量和标识训练联合贝叶斯模型。最后，方法100结束于步骤S105。

应注意，涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。本文中的“第一二维人脸图像”表示用于生成对CNN模型进行训练的多对训练图像的二维人脸图像，而“第二二维人脸图像”表示被输入到经训练的CNN模型以获得全局特征向量从而对联合贝叶斯模型进行训练的具有标识的二维人脸图像。

下面将对方法100的步骤S102至S105的操作进行更详细的描述。

根据本公开的实施例，方法100的步骤S102可以通过根据本公开的实施例的用于生成多对训练图像的方法来实现。图2是示出根据本公开的实施例的用于生成多对训练图像的方法200的流程图。通过方法200，可以通过少量的甚至一个二维人脸图像生成多对训练图像来对CNN模型进行训练。

如图2中所示，方法200开始于步骤S201。

在步骤S202中，检测第一二维人脸图像中的特征点。

步骤S202中进行的处理的目的在于建立第一二维人脸图像与三维人脸模型之间的空间对应关系，以确定第一二维人脸图像中的像素的深度信息，从而生成新的用于训练的二维人脸图像。

这里使用的三维人脸模型可以是通用三维人脸模型，例如贝塞尔人脸模型。

此外，根据本公开的实施例，第一二维人脸图像中的特征点可以是对应于人脸中的下颚、左脸颊、右脸颊、眉毛、鼻子、耳朵等的特征点。步骤S202中检测特征点的处理可以通过本领域的已知方法进行，因而这里不做进一步的详细描述。应当注意，特征点的数目没有限制。较多的特征点有利于实现第一二维人脸图像与三维人脸模型之间的对准的最优化，但是也会使得计算代价增加。因此，特征点的数目可以根据实际情况，例如第一二维人脸图像的角度、清晰度等来确定。

在确定第一二维人脸图像中的特征点之后，可以在通用三维人脸模型中找到与第一二维人脸图像中的特征点对应的特征点。第一二维人脸图像中的特征点可以用p_k来表示，与之对应的三维人脸模型中的特征点可以用P_k来表示。通过以上处理，可以建立第一二维人脸图像中的特征点与三维人脸模型中的特征点之间的对应关系。

随后，方法200进行到步骤S203，其中基于检测到的特征点确定拍摄第一二维人脸图像的相机的姿态以将第一二维人脸图像投影到三维人脸模型上。基于检测到的第一二维人脸图像中的特征点与三维人脸模型中的特征点之间的对应关系，可以确定拍摄第一二维人脸图像的相机的姿态，即对该相机进行标定。

对于相机进行标定的处理可以归结为求解三维人脸模型中的特征点所在的世界坐标系、所对应的第一二维人脸图像中的特征点所在的图像坐标系以及拍摄该第一二维人脸图像的相机所在的相机坐标系之间的空间对应关系。

图3是示出世界坐标系、图像坐标系和相机坐标系之间的关系的示意图。如图3中所示，世界坐标系和相机坐标系为空间中的三维坐标系，而图像坐标系为彩色图像所在平面的二维坐标系。

三维人脸模型中的特征点，即三维点M在世界坐标系中的坐标为(x_w,y_w，z_w)，通过空间三维坐标系的旋转变换和平移变换，可以通过下式(1)得到三维点M在以相机所在位置O_c为原点的相机坐标系中的坐标(x_c,y_c，z_c)：

其中R是3×3的旋转矩阵(正交旋转矩阵)，其表示世界坐标系与相机坐标系之间的旋转变换关系，而t是三维平移向量，其表示世界坐标系与相机坐标系之间的平移变换关系。

此外，如图3所示，图像坐标系是以图像的左上角为原点以像素为单位的二维像素坐标系，其中与三维点M对应的第一二维人脸图像中的特征点，即二维点m具有坐标(u,v)。为了能够计算与世界坐标系和相机坐标系的空间对应关系，需要建立以相机光轴与彩色图像的交点o为原点以物理长度(例如，毫米)为单位的二维物理坐标系。在该二维物理坐标系中，二维点m具有坐标(x,y)。利用彩色图像中的每个像素的物理尺寸以及交点o在彩色图像中的位置可以通过平移和单位变换获得坐标(u,v)与坐标(x,y)之间的变换关系。

基于上述得到的变换关系，根据相机的小孔成像原理，可以通过下式(2)获得世界坐标系、图像坐标系和相机坐标系之间的空间对应关系。

其中f_x和f_y是与相机的焦距和像素的物理尺寸相关的参数，u₀和v₀是彩色图像的物理坐标系的原点o在像素坐标系中的坐标。

矩阵M₁由f_x、f_y、u₀和v₀确定，这些参数仅与相机的内部结构有关，因此被称为内部参数。此外，内部参数还可以包括与相机的内部结构有关的其他参数，例如径向畸变参数、切向畸变参数、薄棱镜畸变参数等。

矩阵M₂由旋转矩阵R和三维平移向量t确定，这些参数仅涉及相机坐标系与世界坐标系的变换，因此被称为外部参数。

相机姿态可由矩阵M₁和M₂来表示。因此，步骤S203中的对标记进行标定的处理可以归于对相机的内部参数矩阵M₁和外部参数矩阵M₂进行求解的处理。

可以利用上式(2)联立方程确定表示相机姿态的内部参数矩阵M₁和外部参数矩阵M₂。根据所计算的相机姿态，第一二维人脸图像中的特征点p_k与三维人脸模型中的特征点P_k之间的对应关系可以表示为p_k～M₁M₂P_k。

基于所计算的相机姿态，可以将第一二维人脸图像投影到三维人脸模型上，该处理也可以被称为冲压处理。根据本公开的实施例，该投影处理可以通过如下方式进行：确定包含检测到的第一二维人脸图像中的特征点的最小矩形，将三维人脸模型旋转至与第一二维人脸图像对准的姿态，并且针对所确定的包含第一二维人脸图像中的特征点的最小矩形中的每个像素，基于三维人脸模型中的相应的三维像素来确定该像素的像素深度。

具体地，为了确定第一二维人脸图像中的像素的深度信息，可以首先确定第一二维人脸图像中的能够涵盖所有检测到的特征点的最小矩形。随后，根据所计算的相机姿态，将三维人脸模型旋转至与第一二维人脸图像对准的姿态。例如，如果第一二维人脸图像图像是人的左半张脸的图像，则可以使三维人脸模型向左旋转以与该第一二维人脸图像对准。随后，通过将包含第一二维人脸图像中的特征点的最小矩形投影到三维人脸模型上，可以确定该最小矩形中的每个像素的深度信息。

应认识到，上文描述的将第一二维人脸图像投影到三维人脸模型上的处理仅是本公开的一个实施例，本公开不限于该实施例。事实上，由于已经建立了第一二维人脸图像中的特征点与三维人脸模型中的特征点的对应关系，因此第一二维人脸图像中的特征点的深度信息是可以确定的。在此基础上，可以将第一二维人脸图像中的特征点视为密度点云中的一些稀疏点，并且可以通过本领域已知的各种方法对这些稀疏点进行扩展以获得密度点云。例如，可以利用本领域已知的三角面片(triangle mesh)来实现上述处理。具体地，可以确定第一二维人脸图像中的特征点的临近点在三维人脸模型上所对应的三角面片及其顶点，并且据此获得该临近点的深度信息。所有这些替选实施例均涵盖于本公开的范围内。

通过步骤S203中的处理，可以将第一二维人脸图像中呈现的人脸三维化。

随后，方法200进行至步骤S204，其中通过使三维人脸模型旋转来生成新的二维人脸图像。通过步骤S203中的处理，第一二维人脸图像被冲压到三维人脸模型上。通过将三维人脸模型旋转特定的角度，即改变视角，可以生成关于人脸的新的二维图像。例如，对于上文所述的被冲压有左半张脸的图像的三维人脸模型，可以使其向右旋转特定角度来生成不同视角的二维人脸图像，或者可以使其向上或向下旋转特定角度来生成另外的不同视角的二维人脸图像。在本文中，第一二维人脸图像可以由P₁来表示，所生成的新的二维人脸图像可以由P₂，P₃，…P_N来表示，其中N是大于2的整数。

应注意，所生成的新的二维人脸图像的数目没有特别限制。较大的N的取值有利于提高处理精度，但是也会使计算代价增加。N的取值可以根据具体环境来确定。

接着，方法200进行至步骤S205，其中通过对第一二维人脸图像和新的二维人脸图像进行镜像操作来生成多对训练图像。

例如，对于上文所述的被冲压有左半张脸的图像的三维人脸模型，可以进行镜像操作来生成右半张脸的图像。针对在步骤S204中生成的新的二维人脸图像P₂，P₃，…P_N中的每个执行镜像操作，从而获得对应的镜像二维人脸图像P_2m，P_3m，…P_Nm。注意，对于第一二维人脸图像P₁，同样执行镜像操作，所生成的镜像的第一二维人脸图像可以由P_1m表示。

到此为止，基于第一二维人脸图像生成了可用于训练CNN模型的多对二维图像P₁和P_1m、P₂和P_2m、P₃和P_3m，…P_N和P_Nm，其中每对图像互为镜像关系。

最后，方法200结束于步骤S206。

返回图1，在图1的步骤S103中，基于多对训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络(CNN)模型。

例如，可以构造N个CNN模型，每个CNN模型具有5个卷积层、5个池化层、1个Softmax层和1个孪生(siamese)损失层。通过在步骤S102中获得的多对训练图像P₁和P_1m、P₂和P_2m、P₃和P_3m，…P_N和P_Nm对上述N个CNN模型进行训练，所得到的经训练的CNN模型可以用C₁，C₂，C₃，…C_N来表示。

由于使用训练图像对CNN模型进行训练的处理是本领域已知的，因此这里不做进一步的详细描述。经训练的CNN模型C₁，C₂，C₃，…C_N的输入是二维人脸图像，输出是表示从二维人脸图像中提取的特征的多维向量。换言之，对于二维人脸图像，根据CNN模型C₁，C₂，C₃，…C_N输出的多维向量，可以将属于同一个人的二维人脸图像分为一类。

接着，方法100进行至步骤S104，其中将具有标识的第二二维人脸图像输入到在步骤S103中训练的CNN模型C₁，C₂，C₃，…C_N中以获得全局特征向量，并且基于全局特征向量和标识训练用作分类器的联合贝叶斯模型。第二二维人脸图像的标识表示第二二维人脸图像中的人脸是具体哪个人的脸。

应当注意，第一二维人脸图像也可以是具有标识的二维人脸图像从而被用作第二二维人脸图像。然而，优选地，为了避免过拟合，第二二维人脸图像通常是与第一二维人脸图像不同的图像。

根据本公开的实施例，获得全局特征向量的处理可以通过如下方式进行：将第二二维人脸图像输入到每个卷积神经网络模型中以获得与该卷积神经网络模型对应的特征向量；以及将与每个卷积神经网络模型对应的特征向量连接在一起以获得全局特征向量。

例如，对于在步骤S103中获得的经训练的CNN模型C₁，C₂，C₃，…C_N，将第二二维人脸图像输入到每个CNN模型C₁，C₂，C₃，…C_N中，可以得到N个多维向量f₁，f₂，f₃，…f_N。随后，可以将N个多维向量f₁，f₂，f₃，…f_N连接在一起，得到一个N×S维的全局特征向量f＝(f₁,f₂,f₃,…f_N)，其中S表示CNN模型C₁，C₂，C₃，…C_N中的每个输出的特征向量的维数。

这样，可以基于所得到的全局特征向量f以及第二二维人脸图像的标识对用作分类器的联合贝叶斯模型进行训练。由于使用带标识的数据对用作分类器的联合贝叶斯模型进行训练的处理是本领域已知的，因此这里不做进一步的详细说明。

根据本公开的实施例，通过第二二维人脸图像(通过经训练的卷积神经网络模型获得的)的全局特征向量和标识对联合贝叶斯模型进行训练，可以获得一个阈值。经训练的联合贝叶斯模型的输入是两个二维人脸图像的(通过经训练的卷积神经网络模型获得的)全局特征向量，输出是一个数值。通过该数值与上述阈值的比较来判断这两个二维人脸图像是否是同一个人的人脸图像。例如，当该数值大于上述阈值时，判断这两个二维人脸图像是同一个人的人脸图像。反之，则判断这两个二维人脸图像不是同一个人的人脸图像。因此，经训练的卷积神经网络模型和联合贝叶斯模型可以作为用于人脸识别的图像处理模型用于具体的工程应用。

然而，在步骤S104中获得的全局特征向量的维数可能是非常大的。例如，如果在步骤S103中训练了40个CNN模型，每个CNN模型输出160维的特征向量，则全局特征向量的维数是N×S＝6400。这显然会带来极大的计算成本。

因此，在该情况下，根据本公开的实施例，可以使用主成分分析(PCA)方法对全局特征向量f进行降维。PCA方法是一种统计方法，其通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。根据PCA方法，可以利用协方差矩阵对向量进行降维。由于PCA方法在本领域中是已知的，因此这里不做进一步的详细描述。

根据本公开的技术，能够在仅有少量人脸图像甚至一个人脸图像作为训练数据的情况下对用于人脸识别的图像处理装置进行训练，所训练的图像处理装置至少能够达到与现有技术相当的识别准确度，然而所需的代价极大地降低。

图4是示出根据本公开的实施例的训练用于人脸识别的图像处理装置的装置400的框图。

如图4中所示，装置400包括：生成单元401，其使用第一二维人脸图像生成多个训练图像对；第一训练单元402，其基于多个训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络模型；以及第二训练单元403，其将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于全局特征向量和标识训练联合贝叶斯模型。

生成单元401被配置成执行上文参照图1描述的方法100的步骤S102的处理并且能够取得与该处理相关的益处，在此省略其描述。第一训练单元402被配置成执行上文参照图1描述的方法100的步骤S103的处理并且能够取得与该处理相关的益处，在此省略其描述。此外，第二训练单元403被配置成执行上文参照图1描述的方法100的步骤S104的处理并且能够取得与该处理相关的益处，在此省略其描述。

图5是示出可用来实现根据本公开的实施例的训练用于人脸识别的图像处理装置的方法100和装置400的通用机器500的结构简图。通用机器500可以是例如计算机***。应注意，通用机器500只是一个示例，并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器500解释为对上述训练用于人脸识别的图像处理装置的方法中示出的任一组件或其组合具有依赖或需求。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件也连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡例如LAN卡、调制解调器等)。通信部分509经由网络例如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可拆卸介质511例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上，使得从中读出的计算机程序可根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本公开的训练用于人脸识别的图像处理装置的方法。相应地，用于承载这种程序产品的上面列举的各种存储介质也包括在本公开的范围内。

上面已通过框图、流程图和/或实施例进行了详细描述，阐明了根据本公开的实施例的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时，本领域的技术人员明白，这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中，本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而，本领域的技术人员会认识到，本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如，以在一个或多个计算机***上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如，以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。

综上，在根据本公开的实施例中，本公开提供了如下方案，但不限于此：

方案1.一种训练用于人脸识别的图像处理装置的方法，包括以下步骤：

使用第一二维人脸图像生成多对训练图像；

基于所述多对训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络模型；以及

将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于所述全局特征向量和所述标识训练联合贝叶斯模型；

其中所述图像处理装置的人脸识别基于经训练的所述卷积神经网络模型和所述联合贝叶斯模型。

方案2.根据方案1所述的方法，其中，使用第一二维人脸图像生成多对训练图像的步骤包括：

检测所述第一二维人脸图像中的特征点；

基于检测到的特征点确定拍摄所述第一二维人脸图像的相机的姿态以将所述第一二维人脸图像投影到所述三维人脸模型上；

通过使所述三维人脸模型旋转来生成新的二维人脸图像；以及

通过对所述第一二维人脸图像和所述新的二维人脸图像进行镜像操作来生成多对训练图像。

方案3.根据方案2所述的方法，其中，所述特征点包括对应于人脸中的下颚、左脸颊、右脸颊、眉毛、鼻子、耳朵中至少之一的特征点。

方案4.根据方案2所述的方法，其中，

基于检测到的特征点确定拍摄所述第一二维人脸图像的相机的姿态以将所述第一二维人脸图像投影到所述三维人脸模型上的步骤包括：

确定所述三维人脸模型中的与检测到的所述第一二维人脸图像中的特征点对应的特征点；

基于检测到的所述三维人脸模型中的特征点和检测到的所述第一二维人脸图像中的特征点获得所述相机的姿态；以及

基于所述相机的姿态将所述第一二维人脸图像投影到所述三维人脸模型上。

方案5.根据方案4所述的方法，其中，

基于所述相机的姿态将所述第一二维人脸图像投影到所述三维人脸模型上的步骤包括：

确定包含检测到的所述第一二维人脸图像中的特征点的最小矩形；

将所述三维人脸模型旋转至与所述第一二维人脸图像对准的姿态；以及

针对所确定的包含所述第一二维人脸图像中的特征点的所述最小矩形中的每个像素，基于三维人脸模型中的相应的三维像素来确定该像素的像素深度。

方案6.根据方案1所述的方法，其中，将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量的步骤包括：

将第二二维人脸图像输入到每个卷积神经网络模型中以获得与该卷积神经网络模型对应的特征向量；以及

将与每个卷积神经网络模型对应的特征向量连接在一起以获得所述全局特征向量。

方案7.根据方案6所述的方法，进一步包括：

使用主成分分析方法对所述全局特征向量进行降维。

方案8.一种训练用于人脸识别的图像处理装置的装置，包括：

生成单元，被配置成使用第一二维人脸图像生成多个训练图像对；

第一训练单元，被配置成基于所述多个训练图像对中的每对训练图像，训练与该对训练图像对应的卷积神经网络模型；以及

第二训练单元，被配置成将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于所述全局特征向量和所述标识训练联合贝叶斯模型；

方案9.根据方案8所述的装置，其中，所述生成单元被进一步配置成：

检测所述第一二维人脸图像中的特征点；

方案10.根据方案9所述的装置，其中，所述特征点包括对应于人脸中的下颚、左脸颊、右脸颊、眉毛、鼻子、耳朵中至少之一的特征点。

方案11.根据方案9所述的装置，其中，所述生成单元被进一步配置成：

方案12.根据方案11所述的装置，其中，所述生成单元被进一步配置成：

方案13.根据方案8所述的装置，其中，第二训练单元被进一步配置成：

方案14.根据方案13所述的装置，其中，第二训练单元被进一步配置成：

使用主成分分析方法对所述全局特征向量进行降维。

方案15.一种用于人脸识别的图像处理装置，所述图像处理装置通过根据方案1至7中任一项所述的方法进行训练。

方案16.一种计算机可读存储介质，其上存储有能够由计算机执行的计算机程序，所述计算机程序在被所述计算机执行时能够实现根据方案1至7中任一项所述的训练用于人脸识别的图像处理装置的方法。

方法17.一种计算机程序，所述计算机程序在被所述计算机执行时能够实现根据方案1至7中任一项所述的训练用于人脸识别的图像处理装置的方法。

尽管上面已经通过对本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims

1.一种训练用于人脸识别的图像处理装置的方法，包括以下步骤：

使用第一二维人脸图像生成多对训练图像；

将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于所述全局特征向量和所述标识训练联合贝叶斯模型，

其中，所述图像处理装置的人脸识别基于经训练的所述卷积神经网络模型和所述联合贝叶斯模型，以及

其中，使用第一二维人脸图像生成多对训练图像的步骤包括：

检测所述第一二维人脸图像中的特征点；

确定三维人脸模型中的与检测到的所述第一二维人脸图像中的特征点对应的特征点；

基于检测到的所述三维人脸模型中的特征点和检测到的所述第一二维人脸图像中的特征点获得相机的姿态；

基于所述相机的姿态将所述第一二维人脸图像投影到所述三维人脸模型上；

2.根据权利要求1所述的方法，其中，所述特征点包括对应于人脸中的下颚、左脸颊、右脸颊、眉毛、鼻子、耳朵中至少之一的特征点。

3.根据权利要求1所述的方法，其中，

4.根据权利要求1所述的方法，其中，将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量的步骤包括：

5.根据权利要求4所述的方法，其中，将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量的步骤包括：

使用主成分分析方法对所述全局特征向量进行降维。

6.一种训练用于人脸识别的图像处理装置的装置，包括：

第二训练单元，被配置成将具有标识的第二二维人脸图像输入到各个卷积神经网络模型中以获得全局特征向量，并且基于所述全局特征向量和所述标识训练联合贝叶斯模型，

其中，所述生成单元被配置成：

检测所述第一二维人脸图像中的特征点；

7.一种用于人脸识别的图像处理装置，所述图像处理装置通过根据权利要求1至5中任一项所述的方法进行训练。

8.一种计算机可读存储介质，其上存储有能够由计算机执行的计算机程序，所述计算机程序在被所述计算机执行时能够实现根据权利要求1至5中任一项所述的训练用于人脸识别的图像处理装置的方法。