CN112560756A

CN112560756A - 识别人脸的方法、装置、电子设备和存储介质

Info

Publication number: CN112560756A
Application number: CN202011547295.6A
Authority: CN
Inventors: 赵宁宁; 张天明
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-03-26

Abstract

本公开涉及用于识别人脸的方法、装置、电子设备和存储介质。在一种方法中，分别获取一对图像中的第一图像的第一特征和一对图像中的第二图像的第二特征，第一图像和第二图像分别包括第一人脸和第二人脸。合并第一特征和第二特征以形成合并特征。针对合并特征执行注意力处理，以分别确定第一特征的第一更新特征和第二特征的第二更新特征。基于第一更新特征和第二更新特征，识别一对图像包括的第一人脸和第二人脸是否来自相同人物。进一步，提供了相应的装置、电子设备和存储介质。以此方式，可以以更为准确并且有效的方式识别人脸。

Description

识别人脸的方法、装置、电子设备和存储介质

技术领域

本公开的各实现方式涉及图像处理，更具体地，涉及用于识别人脸的方法、装置、电子设备和存储介质。

背景技术

随着图像处理技术的发展，目前已经提供了越来越多的用于识别人脸的图像处理应用。可以向图像处理应用中输入待识别的两个人脸图像，以便确定两个人脸图像是否来自相同人物。然而，两个人脸图像的内容和拍摄环境可能存在较大差异。例如，一个图像中的人物佩戴口罩并且在较暗的光照环境下拍摄，另一图形中的人物没有佩戴口罩并且在较亮的光照环境下拍摄。已有的技术方案难以准确并且有效地识别两个人脸图像。此时，如何以更为准确并且有效的方式识别人脸，成为一个研究热点。

发明内容

期望能够开发并实现一种以更为有效的方式来识别人脸的技术方案。期望该技术方案能够与现有应用程序相兼容，以更为有效的方式来识别人脸。

根据本公开的第一方面，提供了一种用于识别人脸的方法。在一种方法中，分别获取一对图像中的第一图像的第一特征和一对图像中的第二图像的第二特征，第一图像和第二图像分别包括第一人脸和第二人脸。合并第一特征和第二特征以形成合并特征。针对合并特征执行注意力处理，以分别确定第一特征的第一更新特征和第二特征的第二更新特征。基于第一更新特征和第二更新特征，识别一对图像包括的第一人脸和第二人脸是否来自相同人物。

根据本公开的第二方面，提供了一种用于识别人脸的装置。该装置包括：获取模块，配置用于分别获取一对图像中的第一图像的第一特征和一对图像中的第二图像的第二特征，第一图像和第二图像分别包括第一人脸和第二人脸；合并模块，配置用于合并第一特征和第二特征以形成合并特征；确定模块，配置用于针对合并特征执行注意力处理，以分别确定第一特征的第一更新特征和第二特征的第二更新特征；以及识别模块，配置用于基于第一更新特征和第二更新特征，识别一对图像包括的第一人脸和第二人脸是否来自相同人物。

根据本公开的第三方面，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中：

图1示意性示出将要被识别的人脸图像的框图；

图2示意性示出了根据本公开的示例性实现方式的用于识别人脸的过程的框图；

图3示意性示出了根据本公开的示例性实现方式的用于识别人脸的方法的流程图；

图4示意性示出了根据本公开的示例性实现方式的确定用于更新特征的配对注意力模块的框图；

图5示意性示出了根据本公开的示例性实现方式的用于基于权重来更新特征的过程的框图；

图6示意性示出了根据本公开的示例性实现方式的用于识别人脸的网络结构的框图；以及

图7示意性示出了根据本公开的示例性实现的用于识别人脸的计算设备/服务器的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

目前已经开发出了用于识别人脸的多种技术方案。在下文中，首先参见图1描述本公开的示例性实现方式的应用环境。图1示意性示出将要被识别的人脸图像的框图100。如图1所示，将要被识别的一对图像可以包括第一图像110和第二图像120。第一图像110和第二图像120可以具有不同的属性。例如，第一图像110可以包括无遮挡的人脸图像，而第二图像120可以包括佩戴口罩的人脸的图像。

目前已经开发了基于神经网络模型来识别人脸图像的技术方案。例如，可以按照预定的规则，分别从第一图像110和第二图像120中提取第一特征和第二特征。例如，可以使用相同的特征提取规则来提取第一特征和第二特征。继而，可以确定两个特征之间的距离，以便确定两个图像中的人脸是否来自相同人物。

然而，已有的技术方案并未考虑两个人脸图像可能会具有不同的属性，而是基于相同的特征提取规则来从两个图像中提取特征。这导致所提取的特征不能准确地反映可以用于人脸识别的有效区域的图像内容(例如，被口罩遮挡的区域并不适用于人脸识别)。这导致用于人脸识别的特征并不能有效地反映人物相貌，因而难以准确地确定两个人脸图像是否来自相同人物。因而，期望可以以更为方便并且有效的方式来识别人脸。

为了至少部分地解决上述技术方案中的不足，根据本公开的示例性实现方式，提出了一种用于识别人脸的技术方案。在该技术方案中，提出了基于“配对(pairwise)”的特征处理方式，也即，针对待识别的一对图像的一对原始特征执行注意力处理，以便确定一对更新特征。在此，更新特征可以更加准确地描述有助于识别人脸图像的相似性的区域的特征，因而可以提高人脸识别的准确性。

在下文中，首先参见图2描述根据本公开的一个示例性实现方式的概要。图2示意性示出了根据本公开的示例性实现方式的用于识别人脸的过程200的框图。如图2所示，可以分别获取一对图像中的第一图像110的第一特征210和一对图像中的第二图像120的第二特征220。在此，第一图像110和第二图像120分别包括第一人脸和第二人脸。可以针对第一特征210和第二特征220执行注意力处理240，以便分别确定第一特征210的第一更新特征212和第二特征220的第二更新特征222。进一步，可以基于第一更新特征212和第二更新特征222的比较，来识别一对图像包括的第一人脸和第二人脸是否来自相同人物。

利用本公开的示例性实现方式，可以基于注意力处理240来分别确定两个图像中的有助于人脸识别的区域，进而获得第一更新特征212和第二更新特征222。例如，此时第一更新特征212和第二更新特征222可以更加关注于图像中的未被口罩遮挡的区域。以此方式，可以更加准确地确定两个人脸图像是否来自相同人物。

在下文中，参见图3来描述有关人脸识别的更多细节。图3示意性示出了根据本公开的示例性实现方式的用于识别人脸的方法300的流程图。在框310处，分别获取一对图像中的第一图像110的第一特征210和一对图像中的第二图像120的第二特征220，在此的第一图像110和第二图像120分别包括第一人脸和第二人脸。

根据本公开的一个示例性实现方式，将要被识别的图像总是成对地出现，以用于识别两个图像中的人脸是否来自相同人物。根据本公开的一个示例性实现方式，并不限制第一图像110和第二图像120的大小，而是第一图像110和第二图像120可以具有相同或者不同的大小。进一步，可以基于目前已经开发的和/或将在未来开发的多种方式，分别从第一图像110和第二图像120中提取各自的特征。在此的第一特征210和第二特征220可以具有相同的格式。例如，特征的维度可以表示为255*255*3，在此数值3可以表示图像中的通道数量，并且可以使用255*255的维度来表示图像中的每个通道。将会理解，在此的维度仅仅是示例性的，根据本公开的一个示例性实现方式，可以使用其他的维度格式。

在框320处，合并第一特征210和第二特征220以形成合并特征230。根据本公开的一个示例性实现方式，可以基于叠加的方式来合并两个特征，此时合并特征230的维度可以表示为255*255*6。合并特征将包括两个图像的6个通道的相关特征数据。

在框330处，针对合并特征230执行注意力处理240，以分别确定第一特征210的第一更新特征212和第二特征220的第二更新特征222。将会理解，在此的注意力处理240是针对与两个图像相关联的合并特征230的处理。该注意力处理240的输入数据为合并特征230，并且输出数据为针对两个图像的更新特征。不同于已有技术方案中的注意力机制，根据本公开的一个示例性实现方式，注意力处理240是针对一对特征执行的配对注意力处理，并且该配对注意力处理是用于针对一对图像执行的注意力处理。

根据本公开的一个示例性实现方式，可以根据配对注意力处理，确定与合并特征230相关联的最大化值和均值。进一步，可以基于最大化值和均值，分别确定用于更新两个特征的两个权重。在下文中，将参见图4描述有关配对注意力处理的更多细节。图4示意性示出了根据本公开的示例性实现方式的确定用于更新特征的配对注意力模块的处理过程400的框图。

如图4所示，可以利用配对注意力模块480来处理第一特征210和第二特征220，以便生成第一特征210和第二特征220。具体地，可以合并第一特征210和第二特征220，继而可以针对合并特征230分别执行最大化处理和均值化处理，以便分别获得合并特征230的最大化值420和均值422。在此，最大化值420和均值422的维度例如可以是256*256*1。进一步，可以针对最大化值420和均值422执行卷积处理，以确定与第一特征210和第二特征220相关联的第一卷积430。在此，可以基于目前已经开发的和/或将在未来开发的卷积处理操作来获取第一卷积430，并且第一卷积430的维度例如可以是256*256*1。

将会理解，在此的第一卷积430是基于第一特征210和第二特征220的合并特征230进行处理所得的，因而第一卷积430分别与第一特征210和第二特征220两者相关联。进一步，可以利用激活函数来处理第一卷积430，以确定第一卷积430中的分别与第一特征210和第二特征220相关联的第一部分440和第二部分442。根据本公开的一个示例性实现方式，可以采用目前已知的和/或将在未来开发的激活函数，分别从第一卷积430中提取第一部分440和第二部分442。在此，第一部分440和第二部分442的维度例如可以是256*256*1。进一步，可以基于第一部分440和第二部分442，分别确定第一权重470和第二权重472。

根据本公开的一个示例性实现方式，可以合并第一部分440和第二部分442以形成合并部分450。合并部分450的维度例如可以是256*256*2。继而，可以针对合并部分450执行卷积处理，以确定与第一特征210和第二特征220相关联的第二卷积460。在此，第二卷积460的维度例如可以是256*256*2。进一步，可以基于激活函数处理第二卷积460，以确定第一权重470和第二权重472。在此，第一权重470和第二权重472的维度例如可以是256*256*1。

根据本公开的一个示例性实现方式，可以分别利用第一权重470和第二权重472更新第一特征210和第二特征220，以获得第一更新特征212和第二更新特征222。具体地，可以将第一特征210中的给定位置处的数值与第一权重470中的该给定位置处的权重相乘，以便确定第一更新特征212中的该给定位置处的数值。可以针对第一特征210中的全部位置执行类似的处理，以便获得第一更新特征212。进一步，可以基于类似方式来获取第二更新特征222。

在下文中，将参见图5描述有关确定更新特征中的各个位置处的数值的过程。图5示意性示出了根据本公开的示例性实现方式的用于基于权重来更新特征的过程500的框图。如图所示，第一特征210可以包括分别用于通道510、…、以及通道520的特征。在此，用于每个通道的特征的维度可以是256*256*1，并且第一权重470的维度可以是256*256*1。此时，可以将第一特征210中的位置512处的数值与第一权重470中的位置522处的权重相乘，以便获取第一更新特征221中用于通道510的位置524处的数值。

如图5所示，位置512、522和524所在的位置是相同的(左下角)。基于如图5所示的原理，对于通道510而言，可以基于第一特征210中的第i(i为整数)个位置处的数值与第一权重470中的第i个位置处的权重的乘积，确定第一更新特征212中的第i个位置处的数值。可以基于类似方式来处理其他通道。进一步，可以基于类似方式来获得第二更新特征222。具体地，可以基于第二特征220中的第i(i为整数)个位置处的数值与第二权重472中的第i个位置处的权重的乘积，确定第二更新特征222中的第i个位置处的数值。

利用本公开的示例性实现方式，第一更新特征212和第二更新特征222可以更加关注于两个图像中的可比较区域中的图像内容。例如，当第一图像110中的人物没有佩戴口罩，而第二图像120中的人物佩戴口罩时，第一更新特征212和第二更新特征222可以更加关注于两个图像中的未被口罩遮挡的区域的图像内容。以此方式，可以提高图像识别操作的准确性，进而以更加准确的方式确定两个图像中的人脸是否来自相同人物。

根据本公开的一个示例性实现方式，可以在神经网络模型中的多个位置处部署配对注意力模块480。在下文中，将参见图6描述有关部署配对注意力模块480的更多细节。图6示意性示出了根据本公开的示例性实现方式的用于识别人脸的网络结构600的框图。在图6中，可以利用神经网络610来识别第一图像110和第二图像120。具体地，可以向神经网络610输入第一图像110和第二图像120。神经网络610可以基于多个处理层620、630等来输出识别结果240，从而指示上述两个图像中人脸来自相同或不同人物。

可以基于目前已经提出的和/或将在未来开发的技术方案生成神经网络610。该神经网络可以包括多个处理层620、630等，可以向多个处理层中的每个处理层中***配对注意力模块480。在处理层620中，可以包括多个处理模块622等。可以在调用第一特征210和第二特征220的处理模块之前***配对注意力模块480，或者将配对注意力模块480嵌入至该处理模块的内部。备选地和/或附加地，可以在生成第一特征210和第二特征220的处理模块之后***配对注意力模块480。此时，该配对注意力模块480可以将第一特征210和第二特征220分别转换至第一更新特征212和第二更新特征222。以此方式，第一更新特征212和第二更新特征222可以更加关注于两个图像中的可比较区域中的图像内容。

将会理解，上文仅示意性示出了向处理层620中部署配对注意力模块的实例。根据本公开的一个示例性实现方式，可以在神经网络610中的各个处理层中的调用第一特征210和第二特征220的处理模块之前***配对注意力模块；备选地和/或附加地，可以在生成第一特征210和第二特征220的处理模块之后***配对注意力模块480。例如，在处理层630中，可以部署配对注意力模块634，以便将第一特征210和第二特征220分别转换至第一更新特征212和第二更新特征222。利用本公开的示例性实现方式，通过在神经网络610中的各个处理层中部署配对注意力模块，可以使得神经网络610可以更加关注于两个图像中的可比较区域中的图像内容。

将会理解，可以在神经网络610的训练过程和使用过程中均使用配对注意力模块480。具体地，在训练阶段，训练样本集中的每个训练样本可以包括两个图像，并且可以利用配对注意力模块来处理两个图像的特征，以便获得两个更新特征。继而，可以利用两个更新特征和两个图像中的人脸是否为来自相同人物的标记数据来训练神经网络610。在使用阶段，可以针对待比较的两个图像的特征进行处理，以获得两个更新特征。继而，可以利用两个更新特征来确定识别结果。

上文已经描述了获得第一更新特征212和第二更新特征222的具体过程。在下文中，将返回图3描述如何识别第一图像110和第二图像120中的人脸是否来自相同人物。在框340处，基于第一更新特征212和第二更新特征222，识别一对图像包括的第一人脸和第二人脸是否来自相同人物。将会理解，在此的第一更新特征212和第二更新特征222是关注于两个人脸中的可比较区域的特征，因而可以基于第一更新特征212和第二更新特征222之间的距离，来确定第一人脸和第二人脸是否来自相同人物。

根据本公开的一个示例性实现方式，可以基于目前已知的和/或将在未来开发的技术方案，确定第一更新特征212和第二更新特征222之间的距离。例如，可以基于两个更新特征中的位于相同位置处的数值，来确定两个更新特征之间的欧式距离。进一步，可以基于该距离与预定阈值的比较，来确定第一人脸和第二人脸是否来自相同人物。如果确定该距离不高于预定阈值，则可以确定第一人脸和第二人脸来自相同人物；如果确定该距离高于预定阈值，则可以确定第一人脸和第二人脸来自不同人物。

将会理解，在本公开的上下文中，执行注意力处理的目的在于弱化两个图像中的不可比较区域的图像内容、并且强化可比较区域的图像内容。因而，可以在确定第一人脸和第二人脸的属性之间存在较大差异时，执行上文描述的方法300。

将会理解，由于拍摄环境以及人物本身可以存在诸多区别，这使得照片中的人脸的不同属性之间可以存在差异。在一个示例中，人脸可能被遮挡，例如，口罩、帽子、围巾或者其他人物或物体可能会遮挡人脸的部分区域。此时，在检测到图像中的人脸被遮挡时，可以基于注意力处理来从未被遮挡区域提取更多图像特征。在一个示例中，人物可以具有不同姿态。例如，一个图像可以包括人物的正脸，而另一图形可以包括人物的右侧脸。此时，在检测到图像中的人脸姿态不同时，可以基于注意力处理来从右侧脸区域提取更多图像特征。在一个示例中，人物可以佩戴不同配饰。例如，两个图像中的人物可以不同的佩戴眼镜。此时，在检测到图像中的配饰，可以基于注意力处理来从眼镜区域以外的区域提取更多图像特征。

类似地，待比较的两个人脸可以涉及不同的发型、不同的光照条件、不同表情和/或不同的清晰度。此时，可以在确定两个人脸的属性之间的差异满足预定条件时，执行上文描述的注意力处理。利用本公开的示例性实现方式，通过针对第一特征210和第二特征220的合并特征230执行注意力处理，可以弱化两个图像中的不可比较方面的差异，并且尽量根据两个图像中的课比较方面，来提高识别的准确性。

将会理解，尽管上文描述用于识别两个图像中的人脸是否来自相同人物，根据本公开的一个示例性实现方式，可以针对更多图像进行处理。假设需要处理三个图像，则可以分别提取三个图像的特征，并且合并三个特征。继而，可以基于类似于图4所述的过程，来分别确定三个权重，以便用于更新三个特征。利用本公开的示例性实现方式，可以处理多个图像，并且分别确定多个图像中是否包括相同人物。

上文已经参见图2至图6描述了用于识别人脸的方法的过程。根据本公开的示例性实现方式，提供了一种用于识别人脸的装置。该装置包括：获取模块，配置用于分别获取一对图像中的第一图像的第一特征和一对图像中的第二图像的第二特征，第一图像和第二图像分别包括第一人脸和第二人脸；合并模块，配置用于合并第一特征和第二特征以形成合并特征；确定模块，配置用于针对合并特征执行注意力处理，以分别确定第一特征的第一更新特征和第二特征的第二更新特征；以及识别模块，配置用于基于第一更新特征和第二更新特征，识别一对图像包括的第一人脸和第二人脸是否来自相同人物。

根据本公开的一个示例性实现方式，注意力处理包括配对注意力处理，配对注意力处理用于针对一对图像执行注意力处理。

根据本公开的一个示例性实现方式，确定模块包括：计算模块，配置用于根据配对注意力处理，确定与合并特征相关联的最大化值和均值；权重模块，配置用于基于最大化值和均值，分别确定用于更新第一特征和第二特征的第一权重和第二权重；以及更新模块，配置用于分别利用第一权重和第二权重更新第一特征和第二特征，以获得第一更新特征和第二更新特征。

根据本公开的一个示例性实现方式，权重模块包括：第一卷积模块，配置用于针对最大值和均值执行卷积处理，以确定与第一特征和第二特征相关联的第一卷积；第一激活模块，配置用于基于激活函数处理第一卷积，以确定第一卷积中的分别与第一特征和第二特征相关联的第一部分和第二部分；以及权重确定模块，配置用于基于第一部分和第二部分，分别确定第一权重和第二权重。

根据本公开的一个示例性实现方式，权重确定模块包括：第二合并模块，配置用于合并第一部分和第二部分以形成合并部分；第二卷积模块，配置用于针对合并部分执行卷积处理，以确定与第一特征和第二特征相关联的第二卷积；以及权重激活模块，配置用于基于激活函数处理第二卷积，以确定第一权重和第二权重。

根据本公开的一个示例性实现方式，识别模块，配置用于距离确定模块，配置用于确定第一更新特征和第二更新特征之间的距离；以及人脸识别模块，配置用于基于距离来确定第一人脸和第二人脸是否来自相同人物。

根据本公开的一个示例性实现方式，人脸识别模块包括：第一识别模块，配置用于响应于确定距离不高于预定阈值，确定第一人脸和第二人脸来自相同人物；以及第二识别模块，配置用于响应于确定距离高于预定阈值，确定第一人脸和第二人脸来自不同人物。

根据本公开的一个示例性实现方式，确定模块被部署在神经网络模型中的多个层中的至少一个层中。

根据本公开的一个示例性实现方式，该装置进一步包括：调用模块，配置用于响应于确定第一人脸和第二人脸的属性之间的差异满足预定条件而被执行。

根据本公开的一个示例性实现方式，属性包括以下中的至少任一项：遮挡、姿态、配饰、发型、光照、表情以及清晰度。

根据本公开的示例性实现方式，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现上文描述的方法。

图7示意性示出了根据本公开的示例性实现的用于识别人脸的计算设备/服务器700的框图。应当理解，图7所示出的计算设备/服务器700仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。

如图7所示，计算设备/服务器700是通用计算设备的形式。计算设备/服务器700的组件可以包括但不限于一个或多个处理器或处理单元710、存储器720、存储设备730、一个或多个通信单元740、一个或多个输入设备750以及一个或多个输出设备760。处理单元710可以是实际或虚拟处理器并且能够根据存储器720中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高计算设备/服务器700的并行处理能力。

计算设备/服务器700通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器700可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器720可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备730可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器700内被访问。

计算设备/服务器700可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图7中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器720可以包括计算机程序产品725，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元740实现通过通信介质与其他计算设备进行通信。附加地，计算设备/服务器700的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备/服务器700可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备750可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备760可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备/服务器700还可以根据需要通过通信单元740与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备/服务器700交互的设备进行通信，或者与使得计算设备/服务器700与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

Claims

1.一种用于识别人脸的方法，包括：

分别获取一对图像中的第一图像的第一特征和所述一对图像中的第二图像的第二特征，所述第一图像和所述第二图像分别包括第一人脸和第二人脸；

合并所述第一特征和所述第二特征以形成合并特征；

针对所述合并特征执行注意力处理，以分别确定所述第一特征的第一更新特征和所述第二特征的第二更新特征；以及

基于所述第一更新特征和所述第二更新特征，识别所述一对图像包括的所述第一人脸和所述第二人脸是否来自相同人物。

2.根据权利要求1所述的方法，其中所述注意力处理包括配对注意力处理，所述配对注意力处理用于针对所述一对图像执行注意力处理。

3.根据权利要求2所述的方法，其中分别确定所述第一更新特征和所述第二更新特征包括：

根据所述配对注意力处理，确定与所述合并特征相关联的最大化值和均值；

基于所述最大化值和所述均值，分别确定用于更新所述第一特征和所述第二特征的第一权重和第二权重；以及

分别利用所述第一权重和所述第二权重更新所述第一特征和所述第二特征，以获得所述第一更新特征和所述第二更新特征。

4.根据权利要求3所述的方法，其中分别确定所述第一权重和所述第二权重包括：

针对所述最大值和所述均值执行卷积处理，以确定与所述第一特征和所述第二特征相关联的第一卷积；

基于激活函数处理所述第一卷积，以确定所述第一卷积中的分别与所述第一特征和所述第二特征相关联的第一部分和第二部分；以及

基于所述第一部分和所述第二部分，分别确定所述第一权重和所述第二权重。

5.根据权利要求4所述的方法，其中基于所述第一部分和所述第二部分，分别确定所述第一权重和所述第二权重包括：

合并所述第一部分和所述第二部分以形成合并部分；

针对所述合并部分执行卷积处理，以确定与所述第一特征和所述第二特征相关联的第二卷积；以及

基于所述激活函数处理所述第二卷积，以确定所述第一权重和所述第二权重。

6.根据权利要求1所述的方法，其中识别所述第一人脸和所述第二人脸是否来自相同人物包括：

确定所述第一更新特征和所述第二更新特征之间的距离；以及

基于所述距离来确定所述第一人脸和所述第二人脸是否来自相同人物。

7.根据权利要求6所述的方法，其中基于所述距离来确定所述第一人脸和所述第二人脸是否来自相同人物包括：

响应于确定所述距离不高于预定阈值，确定所述第一人脸和所述第二人脸来自相同人物；以及

响应于确定所述距离高于预定阈值，确定所述第一人脸和所述第二人脸来自不同人物。

8.根据权利要求1所述的方法，其中针对所述合并特征执行注意力处理，以分别确定所述第一特征的第一更新特征和所述第二特征的第二更新特征包括：在神经网络模型中的多个层中的至少一个层中，针对所述合并特征执行注意力处理，以分别确定所述第一更新特征和所述第二更新特征。

9.根据权利要求1所述的方法，其中所述方法响应于确定所述第一人脸和所述第二人脸的属性之间的差异满足预定条件而被执行。

10.根据权利要求9所述的方法，其中所述属性包括以下中的至少任一项：遮挡、姿态、配饰、发型、光照、表情以及清晰度。

11.一种用于识别人脸的装置，包括：

获取模块，配置用于分别获取一对图像中的第一图像的第一特征和所述一对图像中的第二图像的第二特征，所述第一图像和所述第二图像分别包括第一人脸和第二人脸；

合并模块，配置用于合并所述第一特征和所述第二特征以形成合并特征；

确定模块，配置用于针对所述合并特征执行注意力处理，以分别确定所述第一特征的第一更新特征和所述第二特征的第二更新特征；以及

识别模块，配置用于基于所述第一更新特征和所述第二更新特征，识别所述一对图像包括的所述第一人脸和所述第二人脸是否来自相同人物。

12.一种电子设备，包括：

存储器和处理器；

其中所述存储器用于存储一条或多条计算机指令，其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至10中任一项所述的方法。