CN111191655A

CN111191655A - 对象识别方法和装置

Info

Publication number: CN111191655A
Application number: CN201811351009.1A
Authority: CN
Inventors: 黄耀海; 彭健腾; 邓伟洪; 胡佳妮
Original assignee: Beijing University of Posts and Telecommunications; Canon Inc
Current assignee: Beijing University of Posts and Telecommunications; Canon Inc
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2020-05-22
Anticipated expiration: 2038-11-14
Also published as: US20200151502A1; CN111191655B; US11200451B2

Abstract

本公开涉及对象识别方法和装置。特别地，本公开提出了一种模板确定装置，所述模板确定装置包括属性分布确定单元，被配置为确定多个图像中的特定属性的分布；以及模板确定单元，被配置为根据所确定的所述多个图像的特定属性的分布由所述多个图像适应性地确定模板集合。其中，所确定的模板集合将被用于图像规范化。

Description

对象识别方法和装置

技术领域

本公开涉及图像中的对象识别，特别涉及自适应性的图像对象识别。

背景技术

近年来，静态图像或一系列运动图像中的对象检测/识别/跟踪被普遍地和重要地应用于图像处理、计算机视觉和图案识别领域，并且在其中起到重要作用。对象可以是人的身体部位，诸如脸部、手部、身体等，其它生物或者植物，或者任何其它希望检测的物体。

在对象检测/识别/跟踪操作中，对象对齐起着非常重要的作用。常见的对象对齐操作例如是人脸对齐操作。

在人脸对齐操作中通常包括基于模板的人脸对齐和基于空间变换网络(STN)的人脸对齐。在传统的基于模板的人脸对齐中，通过相似性变换将人脸往同一个正脸模板进行对齐。在传统的基于空间变换网络的人脸对齐中，空间变换网络通过学习将所有的人脸对齐至同一个最适于识别的姿态。

但是，在这样的传统的人脸对齐操作中，将所有的图像对齐至同一图像会在图像中引入噪声和畸变。特别地，对于角度较大的人脸图片，尤其是全侧脸图片，在对齐至正脸模板的过程中会出现更大的噪声，包括更大的脸部图像的几何畸变和信息损失。这样的畸变会使得图像失真增大，进而使得人脸识别模型的精确度下降。

因此，需要改进的技术来改善图像中的对象识别。

除非另有说明，否则不应假定本节中描述的任何方法仅仅因为包含在本节中而成为现有技术。同样，除非另有说明，否则关于一种或多种方法所认识出的问题不应在本节的基础上假定在任何现有技术中都认识到。

发明内容

本公开的一个目的是改进图像中对象识别。

本公开提出了改进的用于优化对象识别中的图像规范化(normalize/正规化)(例如，对齐)，其中通过参照训练图像的属性分布自适应性地确定用于图像规范化的模板，从而所确定的模板使得图像能够被更优化地进行规范化，而且基于这样的规范化后的图像的对象识别可得到改进。

本公开提出了改进的用于对象识别的模板的确定，其中通过利用如上文所述的被优化地规范化的训练图像来确定用于对象识别的模型，使得用于对象识别的模型可被改进，由此可以进一步改进对象识别。

本公开还提出了一种改进的对象识别方法，其中利用如上文所述的改进的模板将对象图像进行规范化，提取规范化后的对象图像的特征，从而可以进一步改善对象识别结果。

在一个方面，提供了一种模板确定装置，所述模板确定装置包括属性分布确定单元，被配置为确定多个图像中的特定属性的分布；以及模板确定单元，被配置为根据所确定的所述多个图像的特定属性的分布由所述多个图像适应性地确定模板集合。其中，所确定的模板集合将被用于图像规范化。

在另一方面，提供了一种模板确定方法，所述模板确定方法包括属性分布确定步骤，确定多个图像中的特定属性的分布；以及模板确定步骤，根据所确定的所述多个图像的特定属性的分布由所述多个图像适应性地确定模板集合。其中，所确定的模板集合将被用于图像规范化。

在另一方面，提供了一种模型生成装置，所述模板生成装置包括模板集合生成单元，被配置为将根据前文所述方法应用于包含所述对象的多个训练图像以生成模板集合；规范化单元，被配置为将多个训练图像中的每一个中的训练图像根据模板集合中的与其对应的模板来进行规范化；以及模型训练单元，被配置为基于经规范化的多个训练图像进行训练来确定对象识别模型。

在还另一方面，提供了一种模型生成方法，所述模型生成方法包括模板集合生成步骤，将根据前文所述的方法应用于包含所述对象的多个训练图像以生成模板集合；规范化步骤，将多个训练图像中的每一个中的训练图像根据模板集合中的与其对应的模板来进行规范化；以及模型训练步骤，基于经规范化的多个训练图像进行训练来确定对象识别模型。

在还另一方面，提供了一种模型生成装置，所述模型生成装置包括被配置为通过分类网络对多个图像的特定属性进行分类的单元；被配置为根据特定属性的分类将所述多个图像分成特定数量的集合的单元，每个集合具有相同的属性分类标签；被配置为通过变换网络对图像集合进行训练以获得规范化后的图像的单元；以及被配置为基于规范化的图像来生成对象识别模型的单元。

在还另一方面，提供了一种模型生成方法，所述模型生成方法包括一下步骤：通过分类网络对多个图像的特定属性进行分类；根据特定属性的分类将所述多个图像分成特定数量的集合，每个集合具有相同的属性分类标签；通过变换网络对图像集合进行训练以获得规范化后的图像；以及基于规范化的图像来生成对象识别模型。

在还另一方面，提供了一种对象识别装置，所述对象识别装置包括待识别图像规范化单元，被配置为对待识别图像进行规范化以获得经规范化的待识别图像；以及识别单元，被配置为将通过前文所述的方法生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

在还另一方面，提供了一种对象识别方法，所述对象识别方法包括待识别图像规范化步骤，对待识别图像进行规范化以获得经规范化的待识别图像；以及识别步骤，将通过根据前文所述的方法生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

在还另一方面，提供了一种包括至少一个处理器和至少一个存储设的设备，所述至少一个存储设备其上存储有指令，该指令在由所述至少一个处理器执行时可使得所述至少一个处理器执行如本文所述的方法。

在仍另一方面，提供了一种存储有指令的存储介质，该指令在由处理器执行时可以使得执行如本文所述的方法。

从参照附图的示例性实施例的以下描述，本发明的其它特征将变得清晰。

附图说明

并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在附图中，相似的附图标记指示相似的项目。

图1A，1B为根据现有技术的脸部识别的概略图。

图2A，2B，2C为根据本公开的脸部识别的概略图。

图3示出了根据本公开的第一实施例的模板生成装置。

图4示出了根据本公开的第一实施例的模板生成方法。

图5示出了根据本公开的第一实施例的自适应模板集合与现有技术的模板的比较。

图6示出了根据本公开的第一实施例的关于人脸水平角度确定模板集合的概略图。

图7示出了根据本公开的第一实施例的关于人脸俯仰角度确定模板集合的概略图。

图8示出了根据本公开的第一实施例的在考虑了应用场景的情况下关于人脸水平角度确定模板集合的概略图。

图9示出了根据本公开的第二实施例的模型生成装置。

图10示出了根据本公开的第二实施例的模型生成方法。

图11示出了根据本公开的第二实施例的模型生成操作的概略图。

图12示出了根据本公开的第二实施例的关于人脸水平角度的模型生成操作的概略图。

图13示出了根据本公开的第二实施例的关于人脸俯仰角度的模型生成操作的概略图。

图14示出了根据本公开的第二实施例的在考虑了应用场景的情况下关于人脸水平角度的模型生成操作的概略图。

图15示出了根据本公开的第三实施例的模型生成装置。

图16示出了根据本公开的第三实施例的模型生成方法。

图17A和17B示出了根据本公开的第三实施例的模型生成操作的概略图。

图18示出了根据本公开的第四实施例的对象识别装置。

图19示出了根据本公开的第四实施例的对象识别方法。

图20示出了根据本公开的第四实施例的关于人脸水平角度的对象识别操作的概略图。

图21示出了根据本公开的第四实施例的在待识别图像被聚类的情况下关于人脸水平角度的对象识别操作的概略图。

图22示出了根据本公开的第四实施例的获得包含特征分量的对象特征向量的概略图。

图23示出了能够实现本发明的实施例的计算机***的示例性硬件配置的框图。

具体实施方式

这里描述了与对象识别相关的示例性可能实施例。在下面的描述中，为了说明的目的，阐述了许多具体细节以便提供对本发明的透彻理解。然而，显而易见的是，可以在没有这些具体细节的情况下实践本发明。在其他情况下，不详细描述公知的结构和装置，以避免不必要地堵塞、遮盖或模糊本发明。

在本公开的上下文中，图像可指的是多种图像中的任一种，诸如彩色图像、灰度图像等。应指出，在本说明书的上下文中，图像的类型未被具体限制，只要这样的图像可经受处理以便可检测该图像是否含有对象即可。此外，图像可以是原始图像或者该图像的经处理的版本，诸如在对图像执行本申请的操作之前已经经受了初步的过滤或者预处理(诸如DCT(离散余弦变换))的图像的版本。

在本说明书的上下文中，图像含有对象指的是图像含有该对象的对象图像。该对象图像有时也可被称为图像中的对象区域。对象识别也即指的是在图像中的对象区域中的图像进行识别。

在本文中，对象可以是人的身体部位，诸如脸部、手部、身体等，其它生物或者植物，或者任何其它希望检测的物体，并且对象图像可具有各种属性，其中可包括例如涉及图像本身的特性的属性或者涉及对象的各种姿势、状态等的属性。作为示例，如果对象是人的脸部，则属性可以为人脸的姿态，诸如人脸的朝向角度等；如果对象是人的身体，那么属性可以为人身体的角度，以及姿态(姿态可以由人的关节点的空间位置确定)。

作为示例，可以以向量形式来表示对象的特征，尤其是代表性特征，这可被称为是对象的“特征向量”。例如在检测脸部的情况下，将选取人脸的代表性部分的像素纹理信息、位置坐标等作为特征来构成图像的特征向量。由此，基于所获得的特征向量，可以进行对象识别/检测/跟踪。

以下将参照附图来详细描述本发明的实施例。应注意，在附图中相似的附图标记和字母指示相似的项目，并且因此一旦一个项目在一个附图中被定义，则对于随后的附图无需再对其进行论述。

在本公开中，术语“第一”、“第二”等仅仅用于区分元件或者步骤，而不是要指示时间顺序、优先选择或者重要性。

在对象识别中，对于对象图像进行规范化是非常重要的操作。对象图像的规范化的一种常见实现是对象对齐(alignment)，其指的是将图像中处于不同姿态的对象图像对齐至同样的姿态，由此基于对齐后的对象图像进行对象检测/识别/跟踪。

人脸识别是一种常见的对象识别操作，而其中，将人脸进行对齐属于用于进行人脸识别的规范化操作。脸部对齐的主要目的在于通过图像向着一些规范的形状或构造进行对齐的操作，来消除不希望的类内变化。在现有技术中，脸部对齐仅仅是根据固定模板来进行的。

图1A示出了现有技术的人脸识别操作的概略图，其中包括训练操作(图1A的左侧流程图)和识别两部分(图1A的右侧流程图)，其中使用同样的固定模板来进行训练和识别。在训练操作中，首先计算训练人脸图片中的人脸角度，然后选择预定的固定模板(正脸图像模板)来将人脸图片进行对齐，具体地是将人脸图片中的人脸角度向着该正脸模板的人脸角度对齐，从而基于对齐后的人脸图片来训练模型。而在识别操作中，选择该预定的固定模板来将待识别的人脸图片进行对齐，具体地是将人脸图片中的人脸角度向着该正脸模板的人脸角度对齐，然后将训练得到的模型应用于对齐的测试图片来从中抽取特征，由此确定图片中的人脸特征。

在传统的人脸对齐方法中，将人脸图片(往往是训练图片和测试图片两者)向着同一个固定模板(例如，正脸模板)进行对齐。这样，类内差异性会变得更小，但是在对齐操作中反而会引入较大的噪声(畸变)。对于角度较大的人脸图片，尤其是图1B的左侧所示的全侧脸图片，在对齐过程中会出现较大的几何上的畸变，如图1B的右侧的图片所示。这样的畸变会使得图像失真增大，进而使得人脸识别模型的精确度下降。

本公开提供了改进的对象图像规范化，其中通过依据对象图像(诸如，训练图像)自身的属性来自适应地确定优化的规范化模板来用于对图像进行规范化，这样确定的规范化模板能够同时实现较好的类内相似性和图像对齐畸变两者，由此利用这样的规范化模板，可以获得优化的经规范化的图像，从而可以改进形成的模型以及脸部识别结果。

以下参照图2A-2C以脸部对齐为例来概述本公开的基本构思。以下将以人脸角度作为属性示例来对简要说明本公开的方案，其中作为示例，将训练图像根据人脸角度值分成四组，并且基于这样的分组来生成四个模板以构成模板集合。

图2A示出了根据本公开的人脸识别操作的概略流程图，其中包括训练操作(图2A的左侧流程图)和识别两部分(图2A的右侧流程图)，其中使用参照训练图像的人脸角度自适应地确定优化模板来进行训练和识别。在训练操作中，首先计算训练人脸图片中的人脸角度，然后根据人脸角度值将人脸图片聚类成预定数量的集合，由此确定相应的预定数量的人脸模板以作为人脸模板集合，然后对于人脸图片，从人脸模板集合中选择角度最近的模板作为对应模板来进行对齐，从而基于对齐后的人脸图片来训练模型。而在识别操作中，对于待识别的人脸图片，从人脸模板集合中选择角度最近的模板作为对应模板来进行对齐，然后将训练得到的模型应用于对齐的测试图片来从中抽取特征，由此确定图片中的人脸特征。

本公开的技术方案自适应地构建了具有不同角度的人脸模板，从而可以为不同角度的人脸分配更加适合其识别的人脸模板，使得在不减小类内相似性的前提下，尽可能的减少了人脸对齐带来的畸变与噪声，从而大大提高了人脸识别的精确度。如图2B所示，对于角度较大的人脸图片，如图2B的左侧所示的全侧脸图片，通过从自适应确定的包含预定模板数量的模板集合中选择对应的模板，对齐过程中所出现的畸变大大降低，如图2B的右侧的图片所示，由此可以改善对象识别。

图2C为示出根据本公开的人脸识别操作的概略图。其中在具有大量训练脸部图像的训练集图像集合中进行脸部姿态估计(例如，包括人脸检测以及人脸特征点检测)来获知训练脸部图像的脸部角度，如图中的指示脸部角度值的各个数字-0.4,24.4，…，83.1所示。然后根据所估计的脸部角度对训练脸部图像进行聚类以确定预定数量(四个)模板，各模板对应的角度值分别是6.5，21.8，40和80.4。然后，对于包含待识别脸部图像(例如，如图中所示的两个图像)的测试集图像集合，也进行姿态估计(例如，可以与上述针对训练集图像集合所进行的操作相同，包括人脸检测以及人脸特征点检测)来获知待识别脸部图像的脸部角度，如图所示的-22.8，86.3，并且从所确定的模板集合中选择适当模板对待识别图像进行对齐，从而对于对齐后的图像进行特征提取，然后进行特征正规化，从而得到图像的特征以用于人脸识别。

以上以人脸识别为例来描述了本公开的对象识别的技术构思，其中人脸角度为对象属性的示例，四个人脸模板为自适应确定的模板的示例，人脸角度对齐为对象图像规范化的示例。应指出，本公开的技术构思可以同样地应用于其它类型的对象识别，而不被特别限制。

以下将参照附图对根据本公开的实施例进行更加详细的描述。特别地，本公开的实施例尤其涉及改进的规范化模板的确定、改进的对象识别模型的确定、以及改进的对象识别。

[第一实施例]

以下将参照附图来描述根据本公开的第一实施例。本公开的第一实施例涉及根据本公开的实施例的规范化模板的生成。

如上文所述，在对象识别中，对象图像规范化是非常重要的，而对象图像规范化的改进则依赖于用于规范化的模板的确定。本公开的此实施例提供了改进的用于进行对象图像模范化的模板确定。特别地，根据本公开的此实施例，参照训练图像的属性分布自适应地确定模板，从而使得训练图像能够被更优化地规范化。这里的“训练图像”指的用于确定规范化模板的参考图像集合中的图像，该参考图像集合是由用户或者***预先设定好的。

术语“自适应”通常指的是模板的生成是基于作为训练基础的训练图像自身的。具体而言，用于进行对象图像规范化的模板是依照训练图像本身而生成的，这样能够更好地适合于训练图像，使得训练图像能够进行更适当地规范化。

对象图像规范化指的是将对象图像的属性分别按照相应的属性模板来进行调整，使之更有助于对象识别。而依赖于对象图像的属性，模板可被适当地确定，由此规范化可以进行相应地操作。

在本公开中，对象图像的属性可以是可以量化和可以测量的属性。该属性可以是离散的，也可以是连续的。

作为一个示例，对象图像的属性可以为选自包括图像属性和对象属性的组中的至少一个。作为另一示例，图像属性可以为选自包括图像的分辨率、图像的照度、图像的模糊度的组中的至少一个。对象属性可以为选自包括图像中对象的水平朝向角度、俯仰角度、图像中对象的比例的组中的至少一个。

作为一示例，在对象图像的属性为图像属性，例如图像的分辨率、图像的照度等时，可以参照各图像的图像属性来确定模板，由此规范化可对应于根据这样确定的图像属性模板将对象图像的图像属性调整为特定的图像属性，例如分辨率、照度等，从而基于调整后的图像属性进行对象识别。

作为另一个示例，在对象图像的属性为图像中对象的姿态、朝向角度，诸如水平朝向角度和俯仰角度(垂直朝向角度)等的情况下，可以参照各图像的朝向角度来确定朝向角度模板，由此规范化可对应于根据这样确定的模板的对象对齐操作，即将对象的朝向变换为特定姿态或朝向，从而基于变换后的姿态或朝向进行对象识别。

作为另一示例，在对象图像的属性为对象比例(即，对象在图像中所占的比例，也可称为对象的占图比例)时，可以参照各图像的对象比例来确定对象比例模板，规范化可对应于根据这样确定的模板将对象图像的对象比例调整为特定的对象比例，从而基于调整后的对象比例进行对象识别。

在一种实现中，对于多个训练图像，确定各训练图像的属性值并且根据该属性值将训练图像进行适当的分组，从而可以对于每个分组来确定合适的模板构成模板集合，这样所得到的模板集合可被用于后续的对图像进行规范化。

图3示出根据本公开的第一实施例的模板生成装置。该模板生成装置包括：属性分布确定单元301，被配置为多个图像中的特定属性的分布；以及模板确定单元302，被配置为根据所确定的所述多个图像的特定属性的分布由所述多个图像适应性地确定模板集合。其中，所确定的模板集合将被用于图像规范化。

如上所述地，对象图像的属性可以为选自包括图像属性和对象属性的组中的至少一个。作为另一示例，图像属性可以为选自包括图像的分辨率、图像的照度、图像的模糊度的组中的至少一个。对象属性可以为选自包括图像中对象的水平朝向角度、俯仰角度、姿态、图像中对象的比例的组中的至少一个。

根据一个实施例，图像的属性的分布是在预定范围内的分布。具体而言，根据计算精度和开销等的取舍，可以在获取了图像的属性的分布之后，将所获取的图像的属性的分布映射到预定范围中，并且在该预定范围中来进行模板的确定。

例如，在图像的属性为人脸的朝向角度的情况下，通常可以在[-90°,90°]的范围内确定人脸朝向角度的分布。作为示例，为了简化，可以将图像中的人脸朝向角度映射到[0,90°]中来确定人脸朝向角度的分布。以上仅是示例，依赖于属性本身的特性，每个属性对应的范围可被合适地设定。

基于由此确定的图像属性的分布可以由多个图像确定预定数量的模板来构成用于规范化的模板集合。

根据一个实施例，模板的数量可以是预先设定的。例如，可以是***或者用户根据历史数据、经验而预先设定的。

作为一个示例，模板的数量可依赖于图像中的场景而被适当地设定。例如，根据图像识别的应用场景，图像的属性可被进行特定地规范化。

例如，在图像的属性为人脸角度，而图像识别的应用场景是罪犯照识别场景的情况下，因为在此场景下往往需要仅识别人脸的正面照和侧面照(即，-90°或90°侧面照)，因此人脸朝向角度往往仅需向这两个朝向来对齐，这样所需要的模板也就只需要是正面模板和90°侧面模板。

例如，在图像的属性为人脸角度，而图像识别的应用场景是海关入关检查的情况下，因为在此场景下往往需要仅识别人脸的正面照，因此人脸朝向角度往往仅需向这个朝向来对齐，这样所需要的模板也就只需要是正面模板。

根据一个实施例，模板的数量可以根据所输入的训练图像而被优化地确定。

在图像规范化操作中，图像规范化的性能不仅要考虑类内变化/差异损失，还要考虑在进行图像规范化时所引入的噪声，诸如相似性变换或者仿射变换导致的伪像，而这两者都与图像规范化的模板数量k相关。假定类内的差异损失是d(k)，图像规范化所进行的变换带来的伪像损失a(k)，由此总的图像规范化损失为Loss(k)＝d(k)+a(k)。因此，需要找到最优的模板数量来使得在进行图像规范化时损失最小。此最小化处理如下式所示：

其中，k指示模板的数量。

根据一种实现，所述预定数量通过如下操作被确定：对于多个图像分别进行N次聚类，其中对于第M次聚类，确定M个模板；将多个训练图像中的每一个根据M个模板中的对应模板进行相应地规范化，并且依据规范化之后的图像来训练得到关于该次聚类的训练模型，以及选择N个所获得的训练模型中的识别精度最高的模型所对应的模板数量作为所述预定数量，其中N为大于等于1的整数，M是大于等于1且小于等于N的整数。

由此，可以对于所输入的训练图像确定最优的模板数量，并且同时可以确定最优的规范化模板。

以下将以作为图像规范化的示例的脸部对齐来简要描述最优模板数量的确定。

脸部对齐不仅需要考虑类内变化，而且还要考虑对齐操作所引入的噪声。当所有的脸部图像都对齐至单个正面形状时，类内相似性会最大，即类内的差异损失是d(k)最小，但是对齐操作中引入的噪声，即伪像损失a(k)也会很大，具有大姿态的脸部尤其如此。相反，随着对齐模板的数量增加，类内差异d(k)增大，但是脸部对齐伪像a(k)会减小。因此，需要找到特定数量的模板，使得所有人脸图片在对齐时，畸变尽可能少，而且对齐后类内相似性尽可能的大。即，有必要找到最优的k值使得由d(k)和a(k)组合得到的总脸部对齐损失最小。

在操作中，可以首先找到姿态分布较广，数据量较大的训练图像集合。作为示例，可以选择CASIA-WebFace数据集，其包含10575个对象，总共为494414个图像。然后确定参考模板的数量k。

然后，依赖于训练图像的属性，可以设定参考模板的最大数量K。例如，鉴于人脸的水平角度的分布可以基本映射分布在[0，90°]内，可以将最大数量K设定为9。作为其它示例，在人脸的水平角度的分布可以映射分布在[-90°，90°]内，可以将最大数量K设定为18。

然后，利用已知的聚类方法按照从1到K的模板数量分别对训练图像进行聚类，由此对于从1到K的模板数量中的每一个，可以确定对应数量的聚类。聚类方法可以例如是k-means方法，如下式所示：

其中，Θ表示聚集中心的集合，K表示最大的模板数量，可以是9。K-means聚集的目的在于使得特征与聚类中心之间的距离之和最小，从而将具有不同姿态的脸部图像变换至各自的最近的聚类中心是的平均损失最小。

对于每一次聚类，在确定聚类中心之后，将聚类中心作为对应模板的中心值，并且将具有与聚类中心相同的索引的图像和脸部标记进行平均化以获得参考模板。对于k＝1到k＝9，可以生成不同的9组参考模板。

然后对于每一组参考模板，通过应用该组模板来进行脸部图像对齐以进行人脸识别，从而获得相应的人脸识别性能。从所获得的多次人脸识别性能中，可以确定识别性能最高的是k＝4，并且可确定对应的聚类中心Θ＝{6.5°,21.8°,40.0°,80.4°}作为模板的中心值。

由此，可以确定最适当的规范化模板的数量以及各个模板的值。

根据一种实现，由此确定的模板数量可被直接用于后续的训练图像的模板的确定。根据另一种实现，模板数量可被动态地确定，由此在接收到后续的训练图像之后可以动态地确定合适的模板数量。在此情况下，可以基于后续的训练图像或者在先训练图像和后续训练图像的合集来如上所述地确定最优的模板数量，由此获得最优的参考模板以用于进行图像规范化。

根据一种实现，由在进一步接收到新图像之后，根据所接收到的新图像中的至少一些图像与先前被用于确定模板的多个图像来确定新模板集合，所述模板新集合中的对应于特定属性的模板的数量与由所述多个图像确定的模板集合中的对应于该属性的模板的数量相同或者不同。

根据一种实现，对于训练图像集合，可以首先对于训练图像集合中所包含的图像进行区分，以判断哪些图像是针对特定应用场景的。并且对于针对特定应用场景的那些图像，根据属于该特定场景的图像的所述特定属性的分布由属于该特定场景的图像生成与该特定场景对应的模板，此时模板的数量可以是预先设定的。

而且，对于训练集合中除针对特定应用场景的那些图像之外的那些图像，可以应用上述的方法来确定最优的模板数量以及模板。由此可以最终确定适当的模板集合。

根据本公开的一个实施例，所述模板确定单元302还可以包括：聚类单元3021，被配置为根据所述多个图像的所述特定属性的分布由所述多个图像获得预定数量的聚类；和模板生成单元3022，被配置为对于每一聚类生成一个模板，其中，所生成的预定数量的模板构成所述模板集合。

根据一个实施例，模板生成单元3022被配置为：计算该聚类中的所有对象图像的对象标记的平均坐标；计算该聚类中的所有对象图像的属性值的平均属性值；以及利用所计算的平均坐标以及平均属性值来生成该聚类的模板。

优选地，聚类获得操作被执行为使得对于每一聚类，属于该聚类的各图像的属性值与聚类中心的属性值之间的差异之和最小。作为示例，聚类可以采用本领域中已知的若干种聚类方法之一来进行，例如K-means，普聚类等等。

优选地，对于每个聚类，由其生成的模板的属性值等于该聚类的中心，从而每个中心代表着一个属性的模板。优选地，聚类的中心等于属于该聚类的所有图像的属性值的均值。作为示例，在属性为人脸朝向角度的情况下，对应的模板对应于每一聚类中的人脸朝向所汇总得到的人脸朝向图。具体而言，在属性为人脸朝向角度的情况下，各聚类的中心为属于该聚类的所有图像的朝向角度值的均值，而通过计算该聚类所述的所有图片的人脸特征点位置的均值，由此获得每个聚类的人脸模板。

以上描述的模板确定可以扩展到多个属性的情况。

根据一个实施例，属性包括至少一个属性，并且所述模板确定单元302进一步包括：模板子集确定单元3023，被配置为对于所述至少一个属性中的每一个，根据所述多个图像的该属性的分布确定对应于该属性的模板子集，其中，由所述至少一个模板子集构成所述模板集合。

特别地，在模板子集的确定过程中可以进行如前述的模板确定/生成操作相似的操作，并且各模板子集中的模板数量也可如前所述地确定。

应注意，上述各个单元/仅是根据其所实现的具体功能划分的逻辑模块，而不是用于限制具体的实现方式，例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个单元/模块/子单元可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现。此外，上述各个单元在附图中用虚线示出指示这些单元可以并不实际存在，而它们所实现的操作/功能可由处理电路本身来实现。

图4示出了根据本公开的第一实施例的模板确定方法。

在步骤S401(属性分布确定步骤)中，确定多个图像中的特定属性的分布。

在步骤S402(模板确定步骤)中，根据所确定的所述多个图像的特定属性的分布由所述多个图像适应性地确定模板集合。

其中，所确定的模板集合将被用于图像规范化。

优选地，所述模板确定步骤还可以包括：聚类步骤，用于根据所述多个图像的所述特定属性的分布由所述多个图像获得预定数量的聚类；和模板生成步骤，用于对于每一聚类生成一个模板，其中，所生成的预定数量的模板构成所述模板集合。

根据一个实施例，模板生成步骤包括：用于计算该聚类中的所有对象图像的对象标记的平均坐标的步骤；用于计算该聚类中的所有对象图像的属性值的平均属性值的步骤；以及用于利用所计算的平均坐标以及平均属性值来生成该聚类的模板的步骤。

在属性包括至少一个属性的情况下，所述模板确定步骤还可包括：模板子集确定步骤，用于对于所述至少一个属性中的每一个，根据所述多个图像的该属性的分布确定对应于该属性的模板子集，其中，由所述至少一个模板子集构成所述模板集合。

根据本公开的此实施例的方法可以通过本公开的实施例的模板生成装置中的单元执行，也可由其它处理装置来执行。

图5示出了根据本公开的第一实施例的自适应模板集合与现有技术的模板的比较。其中横轴和纵轴分别指示测试(带识别)的probe图像和gallery图像的角度。

在此图中，左上角的六边形以及圆圈分别指示现有技术中采用的固定模板，其中左上角的六边形代表现有技术中的将所有图像对齐至的正面面部模板，其对应于角度0。灰色的圆点代表现有技术中的固定的具有预定义的角度的模板，分别对应于0，15，45和60的角度值。此外，白色的菱形代表通过本公开的实施例自适应确定的模板，其角度分别为6.5，21.8，40和80.4。五角星代表待识别图像的角度。

此外，在此图中，五角星与其他不同形状的标记之间的箭头表示该五角星对应的待识别图像向着对齐模板的对齐，其中实线箭头指示向着固定的正面面部模板的对齐，长划线-点箭头指示向着具有预定义角度的模板的对齐，虚线箭头指示向着根据本公开的实施例自适应确定的模板的对齐。其距离代表对齐移动的距离，其可以由图像与模板之间角度的差异来表示，而且也可以等同于对齐操作开销。距离越小则说明所对应的对齐操作开销越小，继而说明对齐变换中所引入的畸变越小。从图5中可见，测试图片对距离本公开提出的模板角度的平均移动距离是最小的，因为根据本公开的实施例可以自适应地确定模板的脸部角度，继而可以为测试图片选择最适当的模板。

由于采用聚类的方法去寻找更加适合的姿态模板。所以，当将测试图像向着所选择的自适应模板做对齐时，对齐中产生的畸变是最小的。如上文所述，聚类的本质是使得每个样本与聚类中心之间的距离的总和最小。而距离在这里为对齐前图像与其指定模板之间角度的差异。如果这个总和的值最小，意味着所有图片与他们对应的模板之间的角度差的总和最小，因此对齐所带来的噪声也是最少的。

以下将以人的脸部识别为例来详细描述本实施例的示例性实现。

[针对人脸部水平朝向角度的模板确定]

图6示出了根据本公开的实施例的针对人脸识别的模板确定的示意图。其中，人的脸部被当做待识别的对象，而人脸的水平朝向角度被当做对象的属性。

首先，我们计算训练集图片的人脸角度。我们可以采用各种人脸角度计算算法去获得角度值，例如基于3DMM的方法，或者基于深度学习的方法等等。

在获得了人脸角度之后，我们以角度值作为特征，对整个集合进行聚类，将其聚类成四个分组。这里四个聚类分组可以是预先确定的，也可以如上文所述通过对训练图像进行多次测试而确定的最优数量。

属于同一个聚类的人脸图片计算它们人脸特征点位置的均值，即可获得每个聚类的人脸模板。此时，聚类中心便是此模板的人脸角度值。

在这个步骤中，输入为上一步得到的每张图片的角度值。由于人脸的水平角度范围为[-90°,90°]，所以我们可以用这个范围内的值作为聚类的特征。抑或是将角度为负数的人脸进行水平翻转。这样人脸图片的角度范围则为[0,90°]，再采用这个范围的值进行聚类。将角度值进行聚类，方法可以为K-means，普聚类，等等。之后，获得属于同一个聚类的所有人脸图片，计算它们人脸特征点位置的均值，即可获得每个聚类的人脸模板。此时，聚类中心便是此模板的人脸角度值。聚类出来的4个模板的角度值为{6.5°，21.8°，40.0°，80.4°}。

也可以直接采用[-90°,90°]的角度值作为特征去进行聚类。此方法较之于[0,90°]的特征，考虑到了图像的自然分布，并且角度值覆盖更加广，所以训练得到的模型效果会更加好。应指出，在此角度范围下，要生成的模板的数量(即，聚类分组的数量)可以如[0,90°]的范围那样是四个，或者也可如上文所述通过在此范围中对训练图像进行多次测试而确定的最优数量，例如可能是多于四个，例如7个。

[针对人脸部俯仰角的模板确定]

图7示出了根据本公开的实施例的针对人脸识别的模板确定的示意图。其中，人的脸部被当做待识别的对象，而人脸的俯仰角度被当做对象的属性。

上述以人的脸部的水平朝向为例进行描述的实施例的可以同样地应用于人的俯仰角度，并且对于人脸的俯仰角度可以进行类似的聚类分组并确定对应的模板集合。

具体而言，对于输入的训练集中的人脸图片，可以采用各种人脸俯仰角角度计算算法去获得角度值，例如基于3DMM的方法，或者基于深度学习的方法等等。并且以俯仰角度值作为特征，对训练集图像进行聚类。由于人脸的俯仰角角度范围为[-90°,90°]，因此在此范围内将角度值进行聚类，方法可以为K-means，普聚类，等等。之后，获得属于同一个聚类的所有人脸图片，计算它们人脸特征点位置的均值，即可获得每个聚类的人脸模板。此时，聚类中心便是此模板的人脸角度值。

应指出，由于俯仰角度与水平角度有所不同，因此模板数量可能与水平角度情况下的数量并不相同。如图7中所示的，对于俯仰角度构建了三个自适应模板。

较之于考虑水平角度的情况，此实施考虑到了人脸的俯仰角，所以覆盖的人脸姿态更加广，对于实用场景，例如监控场景，会得到更好的人脸识别效果。

[考虑了图片场景的模板生成]

图8示出了根据本公开的实施例的在考虑了测试场景的情况下针对人脸识别的模板确定的示意图。其中，人的脸部被当做待识别的对象，而人脸的水平朝向角度被当做对象的属性。

首先，我们需要确定测试场景，并为之选择相应的模板数量。场景可以区别为自然场景，监控场景，证件照，犯罪照等等。这4种对应的场景对应的模板数量分别为4，4，1，2。

之后，从训练集中选择出所有符合测试场景的图片。在获得了符合测试场景的训练图片之后，计算这些图片的人脸角度。

在获得了人脸角度之后，我们以角度值作为特征，对整个集合进行聚类，将其聚类成与场景对应的模板数量个聚类。属于同一个聚类的人脸图片计算它们人脸特征点位置的均值，即可获得每个聚类的人脸模板。此时，聚类中心便是此模板的人脸角度值。

应指出，此实施例的此实现中，所输入的图片也可以直接是符合测试场景的图片，在此情况下由于测试场景对应的模板数量是固定的，因此在操作中无需在进行模板数量确定，而是直接在获取了图片中的人脸角度之后就直接根据对应的模板数量进行聚类。

这个实施例能够通过针对测试场景，进而训练得出更适当的模板。例如，如果测试场景为证件照，由于证件照只存在正脸，所以人脸角度模板只需要0度的即可。如果测试场景为犯罪照，由于犯罪照只存在正脸和全侧脸，所以人脸角度模板只需要0度和80.4度的即可。在此实施例中，由于需要计算的模板数量不为固定的4个，所以在计算人脸模板的时候，运算量会减小。因此，较之于之前的实施例的会更加快。

应指出，上文所述的此实施例的模板确定的操作可以类似地应用于对象图像的其它属性。

[针对多于一个的属性的模板确定]

根据本实施例的一种实现，用于对象识别以及模板确定的属性可以包括至少一个属性，例如上文所述的图像属性和对象属性等等。

首先，我们计算训练集图片的人脸部的至少一个属性中的每一个属性的值。这样的属性可以为人脸的水平角度，俯仰角，模糊程度，亮度，物体占图像的比例，等等。

在获得了图片的属性值之后，我们以这个值作为特征，对整个集合进行聚类。每种属性各自的范围是不同的，因此这样的聚类操作也是对于不同的属性在不同的范围内进行的。

例如，图像的亮度、模糊度的范围可以是[0,1]；图像的分辨率的范围可以是[1,1000]；人脸部的水平角度、俯仰角的范围可以是[-90°,90°]；而图像中人脸部比例的范围可以是[0.3,1]。

这样，对于每个属性可以确定对应于该属性的模板子集，每个模板子集中的模板的数量可以如上文所述地被预先确定，或者根据对象图片的该属性被最优地确定。而每个模板子集中的各模板的中心则对应于对应聚类所包含的训练图片的属性特征值的均值。

由此通过对于至少一个属性确定的至少一个模板子集，可以获得总的模板集合来用于进行图像的规范化以及对象识别。

[第二实施例]

以下将参照附图来描述根据本公开的第二实施例。本公开的第二实施例涉及根据本公开的模型生成装置和方法。

在本公开的第二实施例中，能够参照在先生成的优化的模板，对训练图像进行规范化，由此生成改进的模板，以用于图像对象识别。

图9示出了根据本公开的模型生成装置。该装置900包括模板集合生成单元901，被配置为将根据第一实施例所述的方法应用于包含所述对象的多个训练图像以生成模板集合；规范化单元902，被配置为将多个训练图像中的每一个中的训练图像根据模板集合中的与其对应的模板来进行规范化；以及模型训练单元903，被配置为基于经规范化的多个训练图像进行训练来确定对象识别模型。

由此，通过利用通过本公开的第一实施例根据训练图像自适应地确定的模板，训练图像可被更加适当地进行规范化，而不总是全部按照单个固定的模板被规范化，这样在规范化处理中对象图像的几何畸变被降低，由此可以生成更加准确的对象识别模型，继而改善对象识别结果。

根据本公开的一个实施例，与训练图像对应的模板指的是模板集合中的如下的模板，该模板的中心值与该图像的属性值之间的差异最小。例如，在人脸朝向角度为属性值的情况下，与人脸图像匹配的模板指的是如下这样的模板，该模板的角度值与该人脸图像的角度值之差最小。

根据本公开的一个实施例，所述规范化单元902被配置为将所述多个训练图像中的特定场景的图像根据与该特定场景对应的模板进行规范化。

根据本公开的一个实施例，在图像具有至少一个属性值的情况下，与训练图像对应的模板指的是模板集合中的如下模板，该模板的各属性的中心值与该图像的至少一个属性值的差异的统计值最小，其中所述统计值选自包括差异的均值、加权均值、中值的组中的一个。

由此，可以在针对至少一个属性而形成的包括至少一个模板子集的模板集合中，对于每一训练图像，可以选出其中最优的一个模板作为对应的模板。而且在如上所述地计算统计值时，可以在考虑了各属性的重要性的情况下对于各属性添加权重，从而可以获得加权统计值。

根据本公开的一个实施例，所述规范化单元902被配置为：在模板集合包含对应于至少一个属性的模板子集的情况下，对于所述至少一个属性按特定顺序进行以下操作：

对于每一属性，选择该属性的模板子集中的与该训练图像之间的该属性的属性值差异最小的模板作为与该训练图像对应的模板，以对该训练图像进行关于该属性的规范化。

由此，对于每一训练图像，可以分别针对各个属性来选择最优的模板，这样可以根据各属性的最优模板的属性值来获得最优的模板属性值，由此可以在此基础上对训练图像进行规范化。

各属性的特定顺序可以是任意的，只要全部属性都被处理完即可。优选地，可以根据检测的应用场景、属性的重要性等中的至少一种，来按照特定的属性顺序来选择模板。

根据一种实现，所述特定顺序为先是图像属性、然后是对象属性的顺序。

上文描述了针对至少一种属性的情况，首先是根据训练图像确定包括至少一个模板子集的模板集合，然后从模板集合中选择最优的模板来进行训练图像的规范化。

根据本实施例的一种实现，在存在至少一种属性的情况下，可以首先对于一种属性(第一属性)确定模板集合并针对该模板集合将训练图像进行规范化，然后基于规范化后的训练图像，针对后一属性(第二属性)来确定模板集合并针对该模板集合将规范化后的训练图像进一步规范化，依次类推，至少所有的对象属性都被处理完。

这里的处理顺序可以是任意的，也可以是按照特定顺序来进行的。

图10示出了根据本公开的模型生成方法。

在步骤S1001(模板集合生成步骤)中，将根据第一实施例所述的方法应用于包含所述对象的多个训练图像以生成模板集合。

在步骤S1002(规范化步骤)，将多个训练图像中的每一个中的训练图像根据模板集合中的与其对应的模板来进行规范化。

在步骤S1003(模型训练步骤)中，被配置为基于经规范化的多个训练图像进行训练来确定对象识别模型。

根据本公开的一个实施例，在所述规范化步骤S1002中，将所述多个训练图像中的特定场景的图像根据与该特定场景对应的模板进行规范化。

根据本公开的一个实施例，在所述规范化步骤S1002中，在模板集合包含对应于至少一个属性的模板子集的情况下，对于所述至少一个属性按特定顺序进行以下操作：

优选地，所述特定顺序为先是图像属性、然后是对象属性的顺序。

图11示意性地示出了根据本公开的实施例的针对人脸识别的模型生成的示意图。作为实现，该模型可以是代表对齐后的人脸图像将输入的识别网络(例如深度学习神经网络)的模型，由此将从输入的对齐图像中提取对象的特征向量以供对象识别使用。

[以人脸属性为示例进行模型生成]

图12示出了根据本公开的实施例的针对人脸识别的模型生成的示意图。其中，人的脸部被当做待识别的对象，而人脸的水平朝向角度被当做对象的属性。

首先，如根据第一实施例那样生成模板集合。聚类出来的4个模板的角度值为{6.5°，21.8°，40.0°，80.4°}。

在获得人脸模板之后，我们从这些模板中，为每张训练图片选择一个模板，使得此图片与其选择的模板之间的角度值差异最小。在这个步骤中，输入为训练集的图像，以及上面一步得到的人脸模板。计算每一张人脸图像角度值与所有模板角度值的差异，差异最小的模板则分类给此人脸图片。如图所示，在人脸角度为21.5°的情况下，所选择的最适当的模板是中心角度值为21.8°的模板。

在确定每张训练图片的模板之后，将人脸与其对应的模板对齐。对齐的方法可以采用相似性变换，或者仿射变化等等。

在人脸对齐之后，将所有的对齐过的图片当做训练数据，去训练一个人脸识别的深度学习网络。输出为一个训练好了的人脸识别深度模型。在这个步骤中，输入为上一步得到的对齐后的人脸图像。训练集的每张图像都包含了它的ID值。采用训练图像的ID值，以及对齐的图像，去训练一个深度网络。网络结构为可以为VGG16，ResNet，SENet，等等。

上述以人的脸部的水平朝向为例进行描述的实施例的实现可以同样地应用于针对特定测试场景、人的俯仰角度等的情况下的模型生成。其中在这些情况下，可以类似的应用根据第一实施例生成的模板集合来进行图像规范化并生成对象识别模型，而图像规范化以及对象识别模型的生成可以如上所述地执行。

图13示出了针对人的俯仰角度的根据本实施例的模型生成。而图14示出了针对特定测试场景根据本实施例的模型生成。

[第三实施例]

以下将参照附图来描述根据本公开的第三实施例。本公开的第三实施例涉及根据本公开的模型生成装置和方法。

在本实施例中，通过使用变换网络来从训练图像生成模型。

图15示出了根据本公开的模型生成装置。所述模型生成装置1500包括：

分类单元1501，通过分类网络对多个图像的特定属性进行分类。针对图像的特定属性，可以采用相应的分类网络来进行分类。作为示例，可以使用神经网络作为分类网络。

划分单元1502，根据特定属性的分类将所述多个图像分成特定数量的集合，每个集合中的图像具有相同的属性分类标签。

规范化单元1503，通过变换网络对图像集合进行变换以获得规范化后的图像。针对图像的特定属性，可以采用相应的变换网络来进行规范化。作为示例，对于例如人脸角度，可以使用STN(空间变换网络)网络作为该变换网络来进行人脸角度对齐。

模型生成单元1504，基于规范化的图像来生成对象识别模型。

图16示出了根据本公开的模型生成方法。

在步骤S1601(分类步骤)中，通过分类网络对多个图像的特定属性进行分类；

在步骤S1602(划分步骤)中，根据特定属性的分类将所述多个图像分成特定数量的集合，每个集合具有相同的属性分类标签；

在步骤S1603(规范化步骤)中，通过变换网络对图像集合进行变换以获得规范化后的图像；以及

在步骤S1604(模型生成步骤)中，基于规范化的图像来生成对象识别模型。

以下将以人脸角度为例来简要描述根据本实施例的模型生成。图17A和17B示出了根据本公开的模型生成操作的示意图。

首先，将训练集图片的人脸进行角度分类。在此步骤中，不同于在先的实施例，不需要计算人脸的角度值，而是采用一个分类网络为人脸角度进行分类。一共分为4类，角度依次增大。

应指出，这里分成4类仅仅是示例性的，并且可以根据更多或者更少的类。作为示例，类似于上文所述的模板数量的设定，类的数量也可以被预先确定，或者被实现最优地确定。

作为示例，输入为人脸训练集图片，将训练图片输入到姿态分类网络(例如，包括神经网络以及神经网络之后的分类器)。分类的标签为{0，1，2，3}。输出为每张图片的角度分类，例如图17A中所示的标签0。

在获得了人脸角度分类之后，我们将人脸分为四个集合，每个集合拥有相同的角度分类标签。输入为训练集图片和每张图片在上个步骤中求得的角度标签。将属于同一个标签的图片组成一个集合。

在获得人脸4个人脸集合之后，依次输入变换网络中，对它们进行训练。作为示例，变换网络为STN网络，其变换的是每个集合的最适合的人脸角度。例如，标签为0的图片被输入标签为0的STN网络。其它标签的图片也被输入具有对应标签的网络。STN网络的输出，是每个对齐后的人脸图片。

在人脸对齐之后，将所有的对齐过的图片当作训练数据，去训练一个人脸识别的深度神经网络。输出为一个训练好了的人脸识别深度模型。

此外，所训练得到的深度神经网络还可以输入至损失函数，例如softmax，以评估所训练的深度神经网络的性能。当然，诸如softmax的损失函数通常不包含在本实施例中。

较之于第二实施例，此实施例不需要计算人脸角度，而仅仅需要获得角度的分类标签。也不需要显式的学习若干个人脸对齐模板，取而代之的是采用深度学习的方法来变换图片，由此直接构建用于对象图像特征提取的模型(例如，深度神经网络)。所以此实施例较之于第二实施例，运算量会更小，并且人脸对齐的精度会更高，因此获得的人脸识别模型也更加好。

[第四实施例]

以下将参照附图来描述根据本公开的第四实施例。本公开的第四实施例涉及根据本公开的对象识别装置和方法。

在本实施例中，通过使用在先实施例生成的模型来对待识别图像中的对象进行识别。

图18示出了根据本公开的对象识别装置。该对象识别值1800包括待识别图像规范化单元1801，被配置为对待识别图像进行规范化以获得经规范化的待识别图像；以及识别单元1802，被配置为将通过根据上述实施例生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

根据一种实现，所述待识别图像规范化单元1801被配置为从将根据第一实施例的方法应用于包含所述对象的多个训练图像而生成的模板集合选择匹配模板，对待识别图像进行规范化。

根据一种实现，匹配模板包括模板集合中的其属性值与该待识别图像的属性值之间的差异最小的模板。

根据一种实现，所述待识别图像规范化单元1801进一步配置为：根据多个待识别图像的属性的分布将多个待识别图像进行聚类；对于待识别图像的各聚类从模板集合中选择匹配模板；以及将各聚类中的待识别图像根据所选择的匹配模板进行规范化。

由此，通过针对待识别图像进行聚类，可以在考虑了待识别图像的属性的情况下来对待识别图像选择更适当的模板来进行规范化，这样可以使得规范后的测试图像更加准确。

根据一种实现，待识别图像聚类的数量等于对应于该属性的模板的数量。

根据一种实现，对于待识别图像的一个聚类，匹配模板包括模板集合中的其序号与该聚类的序号相同的模板。

根据一种实现，对于待识别图像的一个聚类，匹配模板包括模板集合中的其属性值与该聚类中心的属性值之间的差异最小的模板。这样可以更加准确地确定匹配模板。

根据一种实现，在待识别图像为同一对象的多个待识别图像的情况下，所获得的对象的特征向量为所述多个待识别图像的特征向量的统计值。

根据一种实现，在待识别图像为同一对象的多个待识别图像的情况下，所获得的对象的特征向量包括特定数量的特征分量，所述特征分量的数量等于模板的数量，并且每个特征分量为对应于该模板的待识别图像的特征向量的统计值。

特别地，不只是用单个特征向量来表征图像的特征，而是用对应于规范化模板的特征分量来表征图像的特征，由此可以更加准确地表征同一对象在图像中的特征分布，这样可以更加准确地确定属于同一对象的两个图像集合之间的相似性。

图19示出了根据本公开的对象识别方法。

在步骤S1901(待识别图像规范化步骤)中，被配置为对待识别图像进行规范化以获得经规范化的待识别图像；以及

在步骤S1902(识别步骤)中，被配置为将通过根据上述实施例生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

根据一种实现，所述待识别图像规范化步骤用于从将根据第一实施例的方法应用于包含所述对象的多个训练图像而生成的模板集合选择匹配模板，对待识别图像进行规范化。

根据一种实现，所述待识别图像规范化步骤用于根据多个待识别图像的属性的分布将多个待识别图像进行聚类；对于待识别图像的各聚类从模板集合中选择匹配模板；以及将各聚类中的待识别图像根据所选择的匹配模板进行规范化。

图20示出了根据本实施例的对象识别操作的示意图。其中，人的脸部被当做待识别的对象，而人脸的水平朝向角度被当做对象的属性。

这个实施例展示的是采用训练好的人脸识别模型，以及人脸姿态自适应的对齐方法，去进行人脸特征提取。

首先，我们计算测试图片的人脸角度。我们可以采用各种人脸角度计算算法去获得角度值，例如基于3DMM的方法，或者基于深度学习的方法等等。

在获得了人脸角度之后，从根据本公开的第一实施例获得的人脸模板集合中，为每张测试图片选择一个模板，使得此图片与其选择的模板之间的角度值差异最小。

在确定图片的模板之后，将人脸图像与其对应的模板对齐。对齐的方法可以采用相似性变换，或者仿射变化等等。

在获得对齐的人脸图像之后，将根据本公开的第二实施例获得的人脸识别模型，例如被训练的神经网络，应用于对齐的人脸图像，由此输出为此人脸图像的特征向量，以用于进行人脸识别。

[将待识别图像也进行聚类]

图21示出了在对待识别图像进行聚类的情况下根据本实施例的对象识别操作的示意图。其中，人的脸部被当做待识别的对象，而人脸的水平朝向角度被当做对象的属性。

这个实施例展示的是采用训练好的人脸识别模型，以及符合测试集人脸姿态分布的人脸对齐方法，去进行人脸特征提取。

首先，将测试图像(待识别图像)进行聚类，其具体实施方式可以采用本领域中已知的聚类方式来进行，也可以采用根据本公开的第一实施例中的聚类操作来进行。

具体而言，首先计算测试图片的人脸角度，其中可以采用各种人脸角度计算算法去获得角度值，例如基于3DMM的方法，或者基于深度学习的方法等等。

在获得了人脸角度之后，将训练集所有输出的角度进行聚类。聚类方法可以为K-means，普聚类，等等。聚类的数量与人脸模板的数量相同。

之后，对于每个聚类的待识别图像来选择匹配的模板以供进行对齐，这样对于每个聚类中的所有待识别图像都使用同样的模板来进行对齐。

作为一个示例，对于获得统一人脸聚类标签的图片都分配同一个人脸模板。此模板的序号与聚类的分类号相同。例如，测试集聚类之后，角度较小的图片被聚类为0，角度最大的图片被聚类为4。待识别图像的聚类也将被类似地设定标签。那么，就将角度为6.5的模板分配给角度较小的聚类的图片；将角度为80.4的模板分配给角度较大的聚类的图片。

当然，也可以根据待测试图像的各聚类的中心值与各模板的中心值之间的差异来选择匹配模板，匹配模板是差异值最小的模板。

在获得对齐的人脸图像之后，将其输入人脸识别的深度学习网络。输出为此人脸图像的特征向量。

将人脸角度进行聚类，并为其选择相应人脸模板

相比于之前的实施例实现，此实施例考虑到了测试图像的姿态分布。之前的实施例实现将角度值最接近的模板分配给每张测试图像。而人脸模板的角度值是训练集确定的，这些角度并不一定与测试集的人脸姿态分布相一致。而此实施例进而将测试集的角度值进行聚类，充分考虑到了测试集的姿态分布，因而对其后的测试图像会更加准确，进而获得比之前的实施例实现更好的人脸识别效果。

[将特征向量设定为特征分量]

此实施例的此实现可以更加准确地确定属于同一对象的图像集合的特征向量，其中通过确定特征分量，所确定的特征向量可以更加适当地反映对象图像的特征分布，由此可更加适合于与同一对象有关的不同图像集合之间的相似性的比较，由此可以更准确地确定不同图像集合是否都指示同样的对象。

图22示出了在将图像的特征向量分解为特征分量的情况下根据本实施例的对象识别操作的示意图。其中，人的脸部被当做待识别的对象，而人脸的水平朝向角度被当做对象的属性。

首先，我们计算属于同一个人的测试图片集合的人脸角度。我们可以采用各种人脸角度计算算法去获得角度值，例如基于3DMM的方法，或者基于深度学习的方法等等。

在获得了这个人的所有角度之后，我们人脸模板中，为每张测试图片选择一个模板，使得此图片与其选择的模板之间的角度值差异最小。

在获得对齐的人脸图像之后，将其输入人脸识别的深度学习网络。输出为此每一张人脸图像的特征向量。

在获得同一个人每张图片的特征向量之后，根据他们之前对应的不同模板，将它们分为四个集合。为每个集合求得一个特征的均值。所以每个人的人脸图片集合可以被四个特征向量分量表示。作为示例，被模板1(2,3,4)对齐的人脸图片，被分为集合1(2,3,4)。之后，为每个集合求得人脸特征向量的均值作为该集合的一个特征向量分量。所以这个步骤的输出为每个人脸图片集的4个特征向量分量。

最后，在求两个人脸集合的相似性时，求两个集合的四个向量分量之间的所有相似性，再求得均值，作为这两个集合的相似性度量。在上一步获得每个人脸图片集的4个特征向量分量之后，为两个人脸图片集求他们之间的相似性，如下式所示。

其中，similarity()表示相似性度量函数，a，b分别表示第一人脸图片集和第二人脸图片集。

分别表示第一人脸图片集的特征向量分量和第二人脸图片集的特征向量分量，cos()表示计算两个特征向量分量之间的余弦距离的函数。当然，计算分量之间的距离的衡量可以而不仅仅为余弦距离，可以为欧氏距离等等。

由此，计算第一个图像集合的四个向量分量与第二个图像集合的相应的四个向量分量的距离，再求这些距离的均值，便可以得到两个集合的特征均值差异。当该差异值小于预定阈值时，可认为这两个图像集合中的对象属于同一对象。

相比于之前实施例的实现，此实施例实现能够通过针对测试集人脸姿态的分布，去更加全面的表征同一个人人脸图片集合的特征向量。在之前的实施例实现中，每个人所属的图片集合的特征是所有图片的均值，而没有考虑到人脸的姿态分布。而在本实施例中，测试集图片的特征向量会被依照不同姿态模板而区分为对应的集合，每个集合的特征表示的是同一个人脸在不同角度上的特征，所以这样的特征均值会更加准确的表示人脸。因此，在求两个集合的相似性时，相似性度量会变得更加准确。

以下将采用TAR@FAR,TPIR@FPIR,TPIR@rank这三种评价作为评价根据本公开的实施例的技术效果的准则。

具体而言，以IJBA数据集作为实验的数据。IJBA数据集中包含10个测试数据块(split)。采用TAR@FAR，TPIR@FPIR，TPIR@rank三种评价指标，求得每个数据块的评测值。最终10个数据块的评测的均值用于作为评价算法优劣的评价标准。为了进行对比试验，在对比根据本公开的实施例的方案与在先方法时，采用了相同的训练数据：VGGFace2数据集，相同的网络结构SENet-50，以及相同的损失函数：softmax。

实验结果如下表格所示。

表1

由如上表格可见，根据本公开的实施例的方案在各个评价指标上，均优于在先方法。

根据本公开的实施例的方案采用自适应地方式来确定人脸图像模板，这些模板考虑到了整个训练数据姿态的分布，并且能够为每个图像挑选最适合的模板(差异值最小的模板)，从而在进行对齐操作时产生的所有图像形变的总和是最小的。具体而言，根据本公开的实施例的方案采用聚类的方式挑选人脸姿态模板，聚类的本质是使得每个样本与聚类中心之间的距离的总和最小。而距离在这里为对齐前图像与其指定模板之间角度的差异。如果这个函数的值最小，意味着所有图片与他们对应的模板之间的角度差的总和最小，因此对齐所带来的噪声也是最少的。从而，根据本公开的实施例的方案能够大大减小了人脸对齐过程中的噪声，因此在人脸识别的试验中，精确度会更加高。从而可以说明我们方法在人脸识别任务中的实用性。

作为对比，在先方法将不同姿态的人脸固定分配给固定的模板，使得仍然存在很多人脸对齐而产生的图像畸变。这就使得在提取图像特征之前，人脸图像被引入了更多的噪声。具体而言，将所有人脸图像对齐至同一正脸模板，对齐所带来的对齐噪声最大。即使采用若干个固定的模板进行对齐，由于这些模板的确定没有考虑训练图像的分布，因此对于训练图像中的大部分图像也不会是最优的，这种情况下对齐噪声也会高于根据本公开的实施例。

图23是示出可实施本发明的实施例的计算机***1000的示例性硬件配置的框图。

如图23所示，计算机***包括计算机1110。计算机1110包括处理单元1120、***存储器1130、不可移除非易失性存储器界面1140、可移除非易失性存储器界面1150、用户输入界面1160、网络界面1170、视频界面1190、和输出***界面1195，它们通过***总线1121连接。

***存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出***)1133驻留在ROM 1131中。操作***1134、应用程序1135、其它程序模块1136和一些程序数据1137驻留在RAM 1132中。

不可移除非易失性存储器1141(诸如硬盘)连接到不可移除非易失性存储器界面1140。不可移除非易失性存储器1141可存储诸如操作***1144、应用程序1145、其它程序模块1146以及一些程序数据1147。

可移除非易失性存储器(例如软盘驱动器1151和CD-ROM驱动器1155)连接到可移除非易失性存储器界面1150。例如，软盘1152可***软盘驱动器1151，并且CD(光盘)1156可***CD-ROM驱动器1155。

诸如鼠标1161和键盘1162的输入设备连接到用户输入界面1160。

计算机1110可通过网络界面1170连接到远程计算机1180。例如，网络界面1170可经局域网1171连接到远程计算机1180。可替换地，网络界面1170可连接到调制解调器(调制器－解调器)1172，并且调制解调器1172经广域网1173连接到远程计算机1180。

远程计算机1180可包括诸如硬盘的存储器1181，其存储远程应用程序1185。

视频界面1190连接到监视器1191。

输出***界面1195连接到打印机1196和扬声器1197。

图23所示的计算机***仅是说明性的，并且决不打算限制本发明、其应用或者使用。

图23所示的计算机***可对于任一实施例被实现为孤立计算机，或者设备中的处理***，其中可去除一个或多个不必要的组件或者可添加一个或多个附加的组件。

本发明可被用于许多应用。例如，本发明可被用于监测、识别、跟踪照相机捕获的静态图像或移动视频中的对象，并且对于配备有相机的便携式设备、(基于相机)的移动电话等等是尤其有利的。

应指出，文中所述的方法和设备可被实现为软件、固件、硬件或它们的任何组合。有些组件可例如被实现为在数字信号处理器或者微处理器上运行的软件。其他组件可例如实现为硬件和/或专用集成电路。

另外，可采用多种方式来实行本发明的方法和***。例如，可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和***。上文所述的该方法的步骤的顺序仅是说明性的，并且除非另外具体说明，否则本发明的方法的步骤不限于上文具体描述的顺序。此外，在一些实施例中，本发明还可具体化为记录介质中记录的程序，包括用于实施根据本发明的方法的机器可读指令。因此，本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。

本领域技术人员应当意识到，在上述操作之间的边界仅仅是说明性的。多个操作可以结合成单个操作，单个操作可以分布于附加的操作中，并且操作可以在时间上至少部分重叠地执行。而且，另选的实施例可以包括特定操作的多个实例，并且在其他各种实施例中可以改变操作顺序。但是，其它的修改、变化和替换同样是可能的。因此，本说明书和附图应当被看作是说明性的，而非限制性的。

另外，本公开的实施方式还可以包括以下示意性示例(EE)。

EE1.一种用于关于多个图像确定模板的装置，包括：

属性分布确定单元，被配置为确定多个图像中的特定属性的分布；以及

模板确定单元，被配置为根据所确定的所述多个图像的特定属性的分布由所述多个图像适应性地确定模板集合；

其中，所确定的模板集合将被用于图像规范化。

EE 2.根据EE1所述的装置，其中，所述特定属性为选自包括图像属性和对象属性的组中的至少一个。

EE3.根据EE2所述的装置，其中，所述图像属性为选自包括图像的分辨率、图像的照度、图像的模糊度的组中的至少一个；和/或

其中，所述对象属性为选自包括图像中对象的水平朝向角度、俯仰角度、图像中对象的比例的组中的至少一个。

EE 4.根据EE1所述的装置，其中，所述特定属性的分布是在预定范围内的分布。

EE 5.根据EE4所述的装置，其中，所述特定属性为图像中对象的水平朝向角度，并且，所述预定范围为

或者

EE 6.根据EE1所述的装置，其中，所述模板确定单元进一步配置为：

确定所述多个图像中属于特定场景的图像，以及

根据属于该特定场景的图像的所述特定属性的分布由属于该特定场景的图像生成与该特定场景对应的模板，以构成所述模板集合。

EE7.根据EE1所述的装置，其中，所述多个图像被包含在训练图像集合中，并且所述训练图像集合中的除所述多个图像之外的图像不被用于生成模板。

EE 8.根据EE1所述的装置，其中，所述模板确定单元包括：

聚类单元，被配置为根据所述多个图像的所述特定属性的分布由所述多个图像获得预定数量的聚类；并且

模板生成单元，被配置为对于每一聚类生成一个模板，

其中，所生成的预定数量的模板构成所述模板集合。

EE 9.根据EE8所述的装置，其中，所述聚类单元被配置为对于每一聚类，属于该聚类的各图像的属性值与聚类中心的属性值之间的差异之和最小。

EE 10.根据EE8所述的装置，其中，对于每个聚类，由其生成的模板的属性值等于该聚类的中心。

EE 11.根据EE8所述的装置，其中，聚类的中心等于属于该聚类的所有图像的属性值的均值。

EE 12.根据EE8所述的装置，其中，模板生成单元被配置为：

计算该聚类中的所有对象图像的对象标记的平均坐标；

计算该聚类中的所有对象图像的属性值的平均属性值；以及

利用所计算的平均坐标以及平均属性值来生成该聚类的模板。

EE13.根据EE8所述的装置，其中，所述预定数量通过如下操作被确定：

对于多个图像分别进行N次聚类，其中对于第M次聚类，

确定M个模板；

将多个训练图像中的每一个根据M个模板中的对应模板进行相应地规范化，并且

依据规范化之后的图像来训练得到关于该次聚类的训练模型，以及

选择N个所获得的训练模型中的识别精度最高的模型所对应的模板数量作为所述预定数量，

其中N为大于等于1的整数，M是大于等于1且小于等于N的整数。

EE 14.根据EE1所述的装置，其中，所述特定属性包括至少一个属性，并且所述模板确定单元包括：

模板子集确定单元，被配置为对于所述至少一个属性中的每一个，根据所述多个图像的该属性的分布确定对应于该属性的模板子集，

其中，由所述至少一个模板子集构成所述模板集合。

EE 15.根据EE1所述的装置，其中，在进一步接收到新图像之后，根据所接收到的新图像中的至少一些图像与先前被用于确定模板的多个图像来确定新模板集合，所述模板新集合中的对应于特定属性的模板的数量与由所述多个图像确定的模板集合中的对应于该属性的模板的数量相同或者不同。

EE 16、一种用于生成对象识别模型的装置，其特征在于，包括：

模板集合生成单元，被配置为将根据EE1-15中任一项所述的装置应用于包含所述对象的多个训练图像以生成模板集合；

规范化单元，被配置为将多个训练图像中的每一个中的训练图像根据模板集合中的与其对应的模板来进行规范化；以及

模型训练单元，被配置为基于经规范化的多个训练图像进行训练来确定对象识别模型。

EE 17.根据EE16所述的装置，其中，所述规范化单元被配置为将所述多个训练图像中的特定场景的图像根据与该特定场景对应的模板进行规范化。

EE 18.根据EE16所述的装置，其中，所述规范化单元被配置为：在模板集合包含对应于至少一个属性的模板子集的情况下，对于所述至少一个属性按特定顺序进行以下操作：

EE 19.根据EE18所述的装置，其中，所述特定顺序为先是图像属性、然后是对象属性的顺序。

EE 20.根据EE16所述的装置，其中，与训练图像对应的模板指的是模板集合中的如下的模板，该模板与该图像的至少一个属性值的差异的统计值最小，其中所述统计值选自包括差异的均值、加权均值、中值的组中的一个。

EE 21、一种对象识别模型生成装置，其特征在于，包括：

分类单元，被配置为通过分类网络对多个图像的特定属性进行分类；

划分单元，被配置为根据特定属性的分类将所述多个图像分成特定数量的集合，每个集合具有相同的属性分类标签；

规范化单元，被配置为通过变换网络对图像集合进行训练以获得规范化后的图像；以及

模型生成单元，被配置为基于规范化的图像来生成对象识别模型。

EE 22、一种对象识别装置，其特征在于，包括：

待识别图像规范化单元，被配置为对待识别图像进行规范化以获得经规范化的待识别图像；以及

识别单元，被配置为将通过根据EE16-21中任一项所述的装置生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

EE 23、根据EE22所述的装置，其中，所述待识别图像规范化单元被配置为：

从将根据EE1所述的装置应用于包含所述对象的多个训练图像而生成的模板集合选择匹配模板，对待识别图像进行规范化。

EE 24、根据EE22所述的装置，其中，匹配模板包括模板集合中的其属性值与该待识别图像的属性值之间的差异最小的模板。

EE 25、根据EE22所述的装置，其中，所述待识别图像规范化单元被配置为：

根据多个待识别图像的属性的分布将多个待识别图像进行聚类；

对于待识别图像的各聚类从模板集合中选择匹配模板；以及

将各聚类中的待识别图像根据所选择的匹配模板进行规范化。

EE 26.根据EE25所述的装置，其中，图像聚类的数量等于对应于该属性的模板的数量。

EE 27.根据EE25所述的装置，其中，对于图像的一个聚类，匹配模板包括模板集合中的其属性值与该聚类中心的属性值之间的差异最小的模板。

EE 28.根据EE25所述的装置，其中，对于图像的一个聚类，匹配模板包括模板集合中的其序号与该聚类的序号相同的模板。

EE 29.根据EE22所述的装置，其中，在待识别图像为多个待识别图像的情况下，所获得的对象的特征向量为所述多个待识别图像的特征向量的统计值。

EE 30.根据EE22所述的装置，其中，在待识别图像为多个待识别图像的情况下，所获得的对象的特征向量包括特定数量的特征分量，所述特征分量的数量等于模板的数量，并且每个特征分量为对应于该模板的待识别图像的特征向量的统计值。

EE 31.一种用于关于多个图像确定模板的方法，其特征在于，包括：

属性分布确定步骤，用于确定多个图像中的特定属性的分布；以及

模板确定步骤，用于根据所确定的所述多个图像的特定属性的分布由所述多个图像适应性地确定模板集合；

其中，所确定的模板集合将被用于图像规范化。

EE 32.根据EE31所述的方法，其中，所述模板确定步骤包括如下步骤：

确定所述多个图像中属于特定场景的图像，以及

EE 33.根据EE31所述的方法，其中，所述模板确定步骤包括：

聚类步骤，用于根据所述多个图像的所述特定属性的分布由所述多个图像获得预定数量的聚类；并且

模板生成步骤，用于对于每一聚类生成一个模板，

其中，所生成的预定数量的模板构成所述模板集合。

EE 34.根据EE33所述的方法，其中，模板生成步骤包括如下步骤：

计算该聚类中的所有对象图像的对象标记的平均坐标；

计算该聚类中的所有对象图像的属性值的平均属性值；以及

EE 35.根据EE31所述的方法，其中，所述特定属性包括至少一个属性，并且所述模板确定步骤包括：

模板子集确定步骤，用于对于所述至少一个属性中的每一个，根据所述多个图像的该属性的分布确定对应于该属性的模板子集，

其中，由所述至少一个模板子集构成所述模板集合。

EE 36、一种用于生成对象识别模型的方法，其特征在于，包括：

模板集合生成步骤，用于将根据EE1-15中任一项所述的装置应用于包含所述对象的多个训练图像以生成模板集合；

规范化步骤，用于将多个训练图像中的每一个中的训练图像根据模板集合中的与其对应的模板来进行规范化；以及

模型训练步骤，用于基于经规范化的多个训练图像进行训练来确定对象识别模型。

EE 37.根据EE36所述的方法，其中，所述规范化步骤包括：在模板集合包含对应于至少一个属性的模板子集的情况下，对于所述至少一个属性按特定顺序进行以下操作：

EE 38、一种对象识别模型生成方法，其特征在于，包括：

分类步骤，用于通过分类网络对多个图像的特定属性进行分类；

划分步骤，用于根据特定属性的分类将所述多个图像分成特定数量的集合，每个集合具有相同的属性分类标签；

规范化步骤，用于通过变换网络对图像集合进行训练以获得规范化后的图像；以及

模型生成步骤，用于基于规范化的图像来生成对象识别模型。

EE 39、一种对象识别方法，其特征在于，包括：

待识别图像规范化步骤，用于对待识别图像进行规范化以获得经规范化的待识别图像；以及

识别步骤，用于将通过根据EE16-21中任一项所述的装置生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

EE 40、根据EE39所述的方法，其中，所述待识别图像规范化步骤包括如下步骤：

从将根据EE1-15中任一项所述的装置应用于包含所述对象的多个训练图像而生成的模板集合选择匹配模板，对待识别图像进行规范化。

EE 41、根据EE39所述的方法，其中，所述待识别图像规范化步骤包括如下步骤：

对于待识别图像的各聚类从模板集合中选择匹配模板；以及

EE 42.一种设备，包括

至少一个处理器；和

至少一个存储设备，所述至少一个存储设备在其上存储指令，该指令在由所述至少一个处理器执行时，使所述至少一个处理器执行根据EE31-41中任一项所述的方法。

EE43.一种存储指令的存储介质，该指令在由处理器执行时能使得执行根据EE31-41中任一项所述的方法。

虽然已经参考示例实施例描述了本发明，应当理解，本发明不限于公开的示例实施例。下面的权利要求的范围将被给予最宽泛的解释，以便包含所有这些修改以及等同结构和功能。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。在此公开的各实施例可以任意组合，而不脱离本公开的精神和范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本公开的范围和精神。

Claims

1.一种用于关于多个图像确定模板的装置，其特征在于，包括：

其中，所确定的模板集合将被用于图像规范化。

2.根据权利要求1所述的装置，其中，所述特定属性为选自包括图像属性和对象属性的组中的至少一个。

3.根据权利要求2所述的装置，其中，所述图像属性为选自包括图像的分辨率、图像的照度、图像的模糊度的组中的至少一个；和/或

4.根据权利要求1所述的装置，其中，所述特定属性的分布是在预定范围内的分布。

5.根据权利要求4所述的装置，其中，所述特定属性为图像中对象的水平朝向角度，并且，所述预定范围为[0,90°]或者[-90°,90°]。

6.根据权利要求1所述的装置，其中，所述模板确定单元进一步配置为：

确定所述多个图像中属于特定场景的图像，以及

7.根据权利要求1所述的装置，其中，所述多个图像被包含在训练图像集合中，并且所述训练图像集合中的除所述多个图像之外的图像不被用于生成模板。

8.根据权利要求1所述的装置，其中，所述模板确定单元包括：

模板生成单元，被配置为对于每一聚类生成一个模板，

其中，所生成的预定数量的模板构成所述模板集合。

9.根据权利要求8所述的装置，其中，所述聚类单元被配置为对于每一聚类，属于该聚类的各图像的属性值与聚类中心的属性值之间的差异之和最小。

10.根据权利要求8所述的装置，其中，对于每个聚类，由其生成的模板的属性值等于该聚类的中心。

11.根据权利要求8所述的装置，其中，聚类的中心等于属于该聚类的所有图像的属性值的均值。

12.根据权利要求8所述的装置，其中，模板生成单元被配置为：

计算该聚类中的所有对象图像的对象标记的平均坐标；

计算该聚类中的所有对象图像的属性值的平均属性值；以及

13.根据权利要求8所述的装置，其中，所述预定数量通过如下操作被确定：

对于多个图像分别进行N次聚类，其中对于第M次聚类，

确定M个模板；

14.根据权利要求1所述的装置，其中，所述特定属性包括至少一个属性，并且所述模板确定单元包括：

其中，由所述至少一个模板子集构成所述模板集合。

15.根据权利要求1所述的装置，其中，在进一步接收到新图像之后，根据所接收到的新图像中的至少一些图像与先前被用于确定模板的多个图像来确定新模板集合，所述模板新集合中的对应于特定属性的模板的数量与由所述多个图像确定的模板集合中的对应于该属性的模板的数量相同或者不同。

16.一种用于生成对象识别模型的装置，其特征在于，包括：

模板集合生成单元，被配置为将根据权利要求1-15中任一项所述的装置应用于包含所述对象的多个训练图像以生成模板集合；

17.根据权利要求16所述的装置，其中，所述规范化单元被配置为将所述多个训练图像中的特定场景的图像根据与该特定场景对应的模板进行规范化。

18.根据权利要求16所述的装置，其中，所述规范化单元被配置为：在模板集合包含对应于至少一个属性的模板子集的情况下，对于所述至少一个属性按特定顺序进行以下操作：

19.根据权利要求18所述的装置，其中，所述特定顺序为先是图像属性、然后是对象属性的顺序。

20.根据权利要求16所述的装置，其中，与训练图像对应的模板指的是模板集合中的如下的模板，该模板与该图像的至少一个属性值的差异的统计值最小，其中所述统计值选自包括差异的均值、加权均值、中值的组中的一个。

21.一种对象识别模型生成装置，其特征在于，包括：

22.一种对象识别装置，其特征在于，包括：

识别单元，被配置为将通过根据权利要求16-21中任一项所述的装置生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

23.根据权利要求22所述的装置，其中，所述待识别图像规范化单元被配置为：

从将根据权利要求1所述的装置应用于包含所述对象的多个训练图像而生成的模板集合选择匹配模板，对待识别图像进行规范化。

24.根据权利要求22所述的装置，其中，匹配模板包括模板集合中的其属性值与该待识别图像的属性值之间的差异最小的模板。

25.根据权利要求22所述的装置，其中，所述待识别图像规范化单元被配置为：

对于待识别图像的各聚类从模板集合中选择匹配模板；以及

26.根据权利要求25所述的装置，其中，图像聚类的数量等于对应于该属性的模板的数量。

27.根据权利要求25所述的装置，其中，对于图像的一个聚类，匹配模板包括模板集合中的其属性值与该聚类中心的属性值之间的差异最小的模板。

28.根据权利要求25所述的装置，其中，对于图像的一个聚类，匹配模板包括模板集合中的其序号与该聚类的序号相同的模板。

29.根据权利要求22所述的装置，其中，在待识别图像为多个待识别图像的情况下，所获得的对象的特征向量为所述多个待识别图像的特征向量的统计值。

30.根据权利要求22所述的装置，其中，在待识别图像为多个待识别图像的情况下，所获得的对象的特征向量包括特定数量的特征分量，所述特征分量的数量等于模板的数量，并且每个特征分量为对应于该模板的待识别图像的特征向量的统计值。

31.一种用于关于多个图像确定模板的方法，其特征在于，包括：

其中，所确定的模板集合将被用于图像规范化。

32.根据权利要求31所述的方法，其中，所述模板确定步骤包括如下步骤：

确定所述多个图像中属于特定场景的图像，以及

33.根据权利要求31所述的方法，其中，所述模板确定步骤包括：

模板生成步骤，用于对于每一聚类生成一个模板，

其中，所生成的预定数量的模板构成所述模板集合。

34.根据权利要求33所述的方法，其中，模板生成步骤包括如下步骤：

计算该聚类中的所有对象图像的对象标记的平均坐标；

计算该聚类中的所有对象图像的属性值的平均属性值；以及

35.根据权利要求31所述的方法，其中，所述特定属性包括至少一个属性，并且所述模板确定步骤包括：

其中，由所述至少一个模板子集构成所述模板集合。

36.一种用于生成对象识别模型的方法，其特征在于，包括：

模板集合生成步骤，用于将根据权利要求1-15中任一项所述的装置应用于包含所述对象的多个训练图像以生成模板集合；

37.根据权利要求36所述的方法，其中，所述规范化步骤包括：在模板集合包含对应于至少一个属性的模板子集的情况下，对于所述至少一个属性按特定顺序进行以下操作：

38.一种对象识别模型生成方法，其特征在于，包括：

39.一种对象识别方法，其特征在于，包括：

识别步骤，用于将通过根据权利要求16-21中任一项所述的装置生成的对象识别模型应用于经规范化的待识别图像以获得对象的特征向量，以用于对象识别。

40.根据权利要求39所述的方法，其中，所述待识别图像规范化步骤包括如下步骤：

从将根据权利要求1-15中任一项所述的装置应用于包含所述对象的多个训练图像而生成的模板集合选择匹配模板，对待识别图像进行规范化。

41.根据权利要求39所述的方法，其中，所述待识别图像规范化步骤包括如下步骤：

对于待识别图像的各聚类从模板集合中选择匹配模板；以及

42.一种设备，包括

至少一个处理器；和

至少一个存储设备，所述至少一个存储设备在其上存储指令，该指令在由所述至少一个处理器执行时，使所述至少一个处理器执行根据权利要求31-41中任一项所述的方法。

43.一种存储指令的存储介质，该指令在由处理器执行时能使得执行根据权利要求31-41中任一项所述的方法。