CN117292443A

CN117292443A - 一种融合人脸和掌静脉的多模态识别***及其方法

Info

Publication number: CN117292443A
Application number: CN202311241558.4A
Authority: CN
Inventors: 金泽; 赵天明; 周伟; 李臣明
Original assignee: Hangzhou Mingguang Microelectronics Technology Co ltd
Current assignee: Hangzhou Mingguang Microelectronics Technology Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-12-26
Anticipated expiration: 2043-09-25
Also published as: CN117292443B

Abstract

公开了一种融合人脸和掌静脉的多模态识别***及其方法。其首先获取待验证用户的人脸图像和掌静脉血管分布图像，接着，对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量，然后，对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量，最后，基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户。这样，可以充分利用两种生物特征的互补性来进行多模态识别，避免单一生物特征受到环境或个体变化的影响而导致的识别失败。

Description

一种融合人脸和掌静脉的多模态识别***及其方法

技术领域

本公开涉及智能门锁领域，且更为具体地，涉及一种融合人脸和掌静脉的多模态识别***及其方法。

背景技术

区别于传统机械锁，智能门锁更安全、便利、先进，目前市面上的智能门锁有磁卡、射频卡等非生物识别类，也有指纹、人脸、虹膜等以生物识别为基础的生物识别类门锁，生物识别类门锁安全性更高，也更便捷。

但是，现在市面上的智能门锁生物识别较为单一，对人脸或指纹以及其他特征录入后，门锁也只会依据此开锁，这时候恰好出现意外情况，例如人脸化妆或者手指受伤情况下造成门锁识别生物特征比对失败无法开锁。因此，期待一种优化的多模态识别方案。

发明内容

有鉴于此，本公开提出了一种融合人脸和掌静脉的多模态识别***及其方法，可以充分利用两种生物特征的互补性来进行多模态识别，避免单一生物特征受到环境或个体变化的影响而导致的识别失败。

根据本公开的一方面，提供了一种融合人脸和掌静脉的多模态识别方法，其包括：

获取待验证用户的人脸图像和掌静脉血管分布图像；

对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量；

对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量；以及

基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户。

根据本公开的另一方面，提供了一种融合人脸和掌静脉的多模态识别***，其包括：

图像获取模块，用于获取待验证用户的人脸图像和掌静脉血管分布图像；

图像特征提取模块，用于对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量；

特征交互模块，用于对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量；以及

用户验证模块，用于基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户。

根据本公开的实施例，其首先获取待验证用户的人脸图像和掌静脉血管分布图像，接着，对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量，然后，对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量，最后，基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户。这样，可以充分利用两种生物特征的互补性来进行多模态识别，避免单一生物特征受到环境或个体变化的影响而导致的识别失败。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的流程图。

图2示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的架构示意图。

图3示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的子步骤S120的流程图。

图4示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的子步骤S122的流程图。

图5示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的子步骤S130的流程图。

图6示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的子步骤S131的流程图。

图7示出根据本公开的实施例的融合人脸和掌静脉的多模态识别***的框图。

图8示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的应用场景图。

图9示出根据本公开的实施例的基于掌静脉识别指令的识别流程示意图。

图10示出根据本公开的实施例的基于人脸识别指令的识别流程示意图。

图11示出根据本公开的实施例的基于混合识别指令的识别流程示意图。

具体实施方式

下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本公开的部分实施例，而不是全部的实施例。基于本公开实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本公开保护的范围。

如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

针对上述技术问题，本公开的技术构思为：基于用户的人脸信息与掌静脉信息，充分利用两种生物特征的互补性来进行多模态识别，避免单一生物特征受到环境或个体变化的影响而导致的识别失败。

基于此，图1示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的流程图。图2示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的架构示意图。如图1和图2所示，根据本公开实施例的融合人脸和掌静脉的多模态识别方法，包括步骤：S110，获取待验证用户的人脸图像和掌静脉血管分布图像；S120，对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量；S130，对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量；以及，S140，基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户。

具体地，在本公开的技术方案中，首先，获取待验证用户的人脸图像和掌静脉血管分布图像。然后，对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量。

应可以理解，人脸图像和掌静脉血管分布图像都具有独特的图像特征。具体来说，人脸图像中蕴含人脸轮廓的特征信息，包括额头、眉毛、眼睛、鼻子、嘴巴等部位的形状和位置；人脸图像中蕴含眼睛特征，包括眼睛的大小、形状、位置以及眼睛周围的眼眶、眼角等等。掌静脉血管分布图像中蕴含血管网络的特征信息。

在本公开的一个具体示例中，如图3所示，对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量的编码过程，包括：S121，将所述人脸图像通过基于卷积神经网络模型的人脸特征提取器以得到所述人脸特征向量；以及，S122，将所述掌静脉血管分布图像通过基于ViT模型的掌静脉血管分布特征提取器以得到所述掌静脉血管分布特征向量。应可以理解，S121步骤的目的是使用基于卷积神经网络模型的人脸特征提取器对人脸图像进行处理，以得到人脸特征向量。卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习模型，专门用于图像处理任务。通过在卷积层、池化层和全连接层之间传递图像数据，CNN能够学习提取图像中的特征，如边缘、纹理和形状等。在这个步骤中，人脸特征提取器会通过学习人脸图像中的特征，生成一个表示该人脸的特征向量。这个特征向量可以捕捉到人脸的唯一性和重要特征，用于后续的人脸识别、人脸比对等任务。S122步骤的目的是使用基于ViT模型的掌静脉血管分布特征提取器对掌静脉血管分布图像进行处理，以得到掌静脉血管分布特征向量。ViT（Vision Transformer）是一种基于Transformer架构的图像处理模型。传统的卷积神经网络在处理图像时，会将图像分割成小块，然后对每个小块进行处理。而ViT模型直接将整个图像作为一个序列输入，并使用自注意力机制来学习图像中的特征。在这个步骤中，掌静脉血管分布特征提取器会学习掌静脉血管分布图像中的特征，生成一个表示该掌静脉血管分布的特征向量。这个特征向量可以用于掌静脉识别、掌静脉比对等任务。通过这两个步骤，可以将人脸图像和掌静脉血管分布图像转化为对应的特征向量，这些特征向量可以作为人脸和掌静脉的唯一标识，用于后续的身份验证、识别等应用。

更具体地，在本公开的实施例中，如图4所示，将所述掌静脉血管分布图像通过基于ViT模型的掌静脉血管分布特征提取器以得到所述掌静脉血管分布特征向量，包括：S1221，对所述掌静脉血管分布图像进行图像分块处理以得到掌静脉血管分布图像块的序列；S1222，使用所述基于ViT模型的掌静脉血管分布特征提取器的嵌入层分别对所述掌静脉血管分布图像块的序列中各个掌静脉血管分布图像块进行嵌入编码以得到掌静脉血管分布图像块嵌入向量的序列；以及，S1223，将所述掌静脉血管分布图像块嵌入向量的序列输入所述基于ViT模型的掌静脉血管分布特征提取器的转换器模块以得到所述掌静脉血管分布特征向量。应可以理解，S1221步骤的目的是对掌静脉血管分布图像进行图像分块处理，将整个图像分割成多个小块的序列。这样做的目的是为了将大尺寸的图像转化为适合ViT模型处理的小尺寸图像块。ViT模型对输入图像的大小有一定的限制，通过将图像分块，可以保证图像块的尺寸符合ViT模型的要求。S1222步骤的目的是使用基于ViT模型的掌静脉血管分布特征提取器的嵌入层对掌静脉血管分布图像块的序列中的每个图像块进行嵌入编码，得到掌静脉血管分布图像块的嵌入向量序列。嵌入向量是对图像块进行向量表示的一种方式，它能够捕捉到图像块的特征信息。在这个步骤中，嵌入层会将每个图像块转化为对应的嵌入向量，这些嵌入向量将被用于后续的特征提取和处理。S1223步骤的目的是将掌静脉血管分布图像块嵌入向量的序列输入基于ViT模型的掌静脉血管分布特征提取器的转换器模块，以得到最终的掌静脉血管分布特征向量。转换器模块是ViT模型的核心部分，它能够对输入的嵌入向量序列进行处理和整合，提取出图像块之间的关系和全局特征。通过这个步骤，掌静脉血管分布特征提取器能够生成一个表示整个掌静脉血管分布的特征向量，该特征向量可以用于后续的掌静脉识别、验证等任务。

更具体地，在步骤S1223中，将所述掌静脉血管分布图像块嵌入向量的序列输入所述基于ViT模型的掌静脉血管分布特征提取器的转换器模块以得到所述掌静脉血管分布特征向量，包括：将所述掌静脉血管分布图像块嵌入向量的序列输入所述基于ViT模型的掌静脉血管分布特征提取器的转换器模块以得到多个掌静脉血管局部分布特征向量；以及，将所述多个掌静脉血管局部分布特征向量进行级联以得到所述掌静脉血管分布特征向量。

值得一提的是，ViT（Vision Transformer）是一种基于Transformer架构的图像处理模型。Transformer最初是用于自然语言处理任务的模型，但在ViT中被应用于图像处理领域。传统的卷积神经网络（Convolutional Neural Network，CNN）在处理图像时，会将图像分割成小块，然后对每个小块进行处理。而ViT模型直接将整个图像作为一个序列输入，并使用自注意力机制来学习图像中的特征。ViT模型的核心是Transformer的编码器部分。编码器由多个自注意力层和前馈神经网络层组成。在自注意力层中，模型可以学习图像中不同位置之间的关系，并捕捉全局上下文信息。通过多层自注意力层的堆叠，ViT模型能够逐渐提取图像中的特征并进行特征表示。为了使ViT模型能够处理图像数据，需要将图像进行分块处理，每个图像块作为序列中的一个元素。每个图像块首先通过一个线性投影层进行嵌入编码，然后与位置编码相结合，作为输入传递给ViT模型的编码器。位置编码用于提供图像块在整个序列中的位置信息。ViT模型相较于传统的卷积神经网络，ViT模型在处理大尺寸图像和捕捉全局上下文信息方面具有优势。

接着，对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量。也就是，通过特征交互以充分利用两种生物特征的互补性，弥补各自的局限性。

在本公开的一个具体示例中，如图5所示，对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量的编码过程，包括：S131，将所述人脸特征向量和所述掌静脉血管分布特征向量通过基于双向注意力机制的特征融合模块以得到包含人脸特征的掌静脉血管分布特征向量和包含血管分布特征的人脸特征向量；以及，S132，融合所述包含人脸特征的掌静脉血管分布特征向量和包含血管分布特征的人脸特征向量以得到所述多模态生物特征向量。应可以理解，S131步骤中的特征融合模块使用基于双向注意力机制的方法，将人脸特征向量和掌静脉血管分布特征向量进行特征交互，以得到融合了两种特征的向量表示。在这个步骤中，通过使用双向注意力机制，模块能够同时考虑到人脸特征向量和掌静脉血管分布特征向量之间的关系。具体而言，特征融合模块会计算人脸特征向量对掌静脉血管分布特征向量的注意力权重，以及掌静脉血管分布特征向量对人脸特征向量的注意力权重。这样，融合后的掌静脉血管分布特征向量将包含人脸特征的信息，而融合后的人脸特征向量将包含血管分布特征的信息。S132步骤中，将包含人脸特征的掌静脉血管分布特征向量和包含血管分布特征的人脸特征向量进行融合，得到多模态生物特征向量。通过融合这两个特征向量，可以充分利用人脸和掌静脉的信息，提高生物特征的表达能力和判别性。多模态生物特征向量可以用于后续的生物特征识别、验证等任务，从而提高***的准确性和安全性。

更具体地，在步骤S131中，如图6所示，将所述人脸特征向量和所述掌静脉血管分布特征向量通过基于双向注意力机制的特征融合模块以得到包含人脸特征的掌静脉血管分布特征向量和包含血管分布特征的人脸特征向量，包括：S1311，将所述人脸特征向量和所述掌静脉血管分布特征向量进行串联以得到第一串联向量；S1312，将所述第一串联向量通过Softmax层以得到第一注意力权重向量；S1313，将所述人脸特征向量和所述第一注意力权重向量进行向量相乘以得到第一融合向量；S1314，将所述第一融合向量通过全连接层以得到所述包含血管分布特征的人脸特征向量；S1315，将所述掌静脉血管分布特征向量通过Softmax层以得到第二注意力权重向量；S1316，将所述第二注意力权重向量和所述掌静脉血管分布特征向量进行向量相乘以得到第二融合向量；以及，S1317，将所述第二融合向量通过全连接层以得到所述包含血管分布特征的人脸特征向量。

继而，将所述多模态生物特征向量通过分类器以得到分类结果，所述分类结果用于表示所述待验证用户是否为授权用户。相应地，基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户，包括：将所述多模态生物特征向量通过分类器以得到分类结果，所述分类结果用于表示所述待验证用户是否为授权用户。

更具体地，将所述多模态生物特征向量通过分类器以得到分类结果，所述分类结果用于表示所述待验证用户是否为授权用户，包括：使用所述分类器的全连接层对所述多模态生物特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

也就是，在本公开的技术方案中，所述分类器的标签包括所述待验证用户为授权用户(第一标签)，以及，所述待验证用户不为授权用户(第二标签)，其中，所述分类器通过软最大值函数来确定所述多模态生物特征向量属于哪个分类标签。值得注意的是，这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念，实际上在训练过程当中，计算机模型并没有“所述待验证用户是否为授权用户”这种概念，其只是有两种分类标签且输出特征在这两个分类标签下的概率，即p1和p2之和为一。因此，所述待验证用户是否为授权用户的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布，实质上用到的是标签的自然概率分布的物理意义，而不是“所述待验证用户是否为授权用户”的语言文本意义。

应可以理解，分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器，然后对未知数据进行分类（或预测）。逻辑回归（logistics）、SVM等常用于解决二分类问题，对于多分类问题（multi-class classification），同样也可以用逻辑回归或SVM，只是需要多个二分类来组成多分类，但这样容易出错且效率不高，常用的多分类方法有Softmax分类函数。

进一步地，在本公开的技术方案中，所述的融合人脸和掌静脉的多模态识别方法，其还包括训练步骤：对所述基于卷积神经网络模型的人脸特征提取器、所述基于ViT模型的掌静脉血管分布特征提取器、所述基于双向注意力机制的特征融合模块和所述分类器进行训练。应可以理解，训练步骤的作用是对整个多模态识别***进行参数学习，使其能够从训练数据中学习到有效的特征表示和分类决策能力。具体而言，训练步骤包括对人脸特征提取器、掌静脉血管分布特征提取器、特征融合模块和分类器进行训练。对于基于卷积神经网络模型的人脸特征提取器，训练步骤的目标是通过反向传播算法，根据训练数据中的人脸图像和对应的标签，调整网络参数，使得人脸特征提取器能够准确地提取人脸图像中的特征，并将其映射到一个高维特征向量空间。对于基于ViT模型的掌静脉血管分布特征提取器，训练步骤的目标是通过反向传播算法，根据训练数据中的掌静脉血管分布图像和对应的标签，调整网络参数，使得掌静脉血管分布特征提取器能够准确地提取血管分布图像中的特征，并将其映射到一个高维特征向量空间。对于基于双向注意力机制的特征融合模块，训练步骤的目标是通过反向传播算法，根据训练数据中的人脸特征向量、掌静脉血管分布特征向量和对应的标签，调整模块的参数，使得特征融合模块能够学习到有效的特征交互方式，将人脸特征和血管分布特征融合起来。最后，对于分类器，训练步骤的目标是通过反向传播算法，根据训练数据中的多模态生物特征向量和对应的标签，调整分类器的参数，使得分类器能够基于融合后的特征向量进行准确的分类决策。通过训练步骤，整个多模态识别***可以从训练数据中学习到不同模态特征的表达和融合方式，从而提高生物特征识别的准确性和鲁棒性。

其中，更具体地，所述训练步骤，包括：获取训练数据，所述训练数据包括待验证用户的训练人脸图像和训练掌静脉血管分布图像，以及，所述待验证用户是否为授权用户的真实值；将所述训练人脸图像通过所述基于卷积神经网络模型的人脸特征提取器以得到训练人脸特征向量；将所述训练掌静脉血管分布图像通过所述基于ViT模型的掌静脉血管分布特征提取器以得到训练掌静脉血管分布特征向量；将所述训练人脸特征向量和所述训练掌静脉血管分布特征向量通过所述基于双向注意力机制的特征融合模块以得到包含人脸特征的训练掌静脉血管分布特征向量和包含血管分布特征的训练人脸特征向量；融合所述包含人脸特征的训练掌静脉血管分布特征向量和所述包含血管分布特征的训练人脸特征向量以得到训练多模态生物特征向量；将所述训练多模态生物特征向量通过分类器以得到分类损失函数值；以及，以所述分类损失函数值来对所述基于卷积神经网络模型的人脸特征提取器、所述基于ViT模型的掌静脉血管分布特征提取器、所述基于双向注意力机制的特征融合模块和所述分类器进行训练，其中，在所述训练的每一轮迭代中，对所述训练多模态生物特征向量进行基于类度矩阵正则化的权重空间探索约束迭代。

在本公开的技术方案中，所述训练人脸特征向量和所述训练掌静脉血管分布特征向量分别表达所述训练人脸图像和所述训练掌静脉血管分布图像的基于不同关联维度和关联尺度的图像语义局部关联特征，由此，在将所述训练人脸特征向量和所述训练掌静脉血管分布特征向量通过基于双向注意力机制的特征融合模块得到包含人脸特征的训练掌静脉血管分布特征向量和包含血管分布特征的训练人脸特征向量，并融合所述包含人脸特征的训练掌静脉血管分布特征向量和包含血管分布特征的训练人脸特征向量得到训练多模态生物特征向量时，所述训练多模态生物特征向量会同时包含跨特征提取维度和尺度以及源图像语义模态的图像语义特征表示，从而导致所述训练多模态生物特征向量在不同图像语义分布维度下的特征表示多样化，使得所述训练多模态生物特征向量在通过分类器进行分类回归时，其在分类结果的概率分布域内的与跨维度、尺度和模态的图像语义特征分布多样化对应的标签分布富化，从而影响在分类过程中所述分类器的权重矩阵的收敛效果。

基于此，本公开的申请人在将所述训练多模态生物特征向量通过分类器进行分类时，在每次权重矩阵的迭代时，对所述训练多模态生物特征向量进行基于类度矩阵正则化的权重空间探索约束。

相应地，在一个具体示例中，在所述训练的每一轮迭代中，对所述训练多模态生物特征向量进行基于类度矩阵正则化的权重空间探索约束迭代，包括：在所述训练的每一轮迭代中，以如下优化公式对所述训练多模态生物特征向量进行基于类度矩阵正则化的权重空间探索约束迭代以得到优化训练多模态生物特征向量；其中，所述优化公式为：其中，/>是所述训练多模态生物特征向量，/>具体表示为列向量，/>是所述优化训练多模态生物特征向量，/>是行向量，/>是上一次迭代的权重矩阵，/>为可学习的域转移矩阵，例如初始可以设置为上一次迭代的权重矩阵/>的对角线元素构成的对角矩阵，/>表示矩阵乘法，/>表示转置操作，/>表示迭代后的权重矩阵。

这里，考虑到权重矩阵的权重空间域与所述训练多模态生物特征向量的分类结果的概率分布域之间的域差异（domain gap），通过权重矩阵/>相对于所述训练多模态生物特征向量/>的类度矩阵正则化表示来作为域间迁移代理（inter-domain transferringagent），来将有价值的标签约束的概率分布转移到权重空间内，从而避免在基于权重空间的分类过程中，富标签化的（rich labeled）概率分布域对于权重空间内的权重分布进行过度探索（over-exploit），提升了权重矩阵的收敛效果，也就提升了所述训练多模态生物特征向量在通过分类器进行分类回归时的训练效果。

综上，基于本公开实施例的融合人脸和掌静脉的多模态识别方法，其可以充分利用两种生物特征的互补性来进行多模态识别，避免单一生物特征受到环境或个体变化的影响而导致的识别失败。

图7示出根据本公开的实施例的融合人脸和掌静脉的多模态识别***100的框图。如图7所示，根据本公开实施例的融合人脸和掌静脉的多模态识别***100，包括：图像获取模块110，用于获取待验证用户的人脸图像和掌静脉血管分布图像；图像特征提取模块120，用于对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量；特征交互模块130，用于对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量；以及，用户验证模块140，用于基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户。

这里，本领域技术人员可以理解，上述融合人脸和掌静脉的多模态识别***100中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的融合人脸和掌静脉的多模态识别方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本公开实施例的融合人脸和掌静脉的多模态识别***100可以实现在各种无线终端中，例如具有融合人脸和掌静脉的多模态识别算法的服务器等。在一种可能的实现方式中，根据本公开实施例的融合人脸和掌静脉的多模态识别***100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该融合人脸和掌静脉的多模态识别***100可以是该无线终端的操作***中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该融合人脸和掌静脉的多模态识别***100同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该融合人脸和掌静脉的多模态识别***100与该无线终端也可以是分立的设备，并且该融合人脸和掌静脉的多模态识别***100可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

图8示出根据本公开的实施例的融合人脸和掌静脉的多模态识别方法的应用场景图。如图8所示，在该应用场景中，首先，获取待验证用户的人脸图像（例如，图8中所示意的D1）和掌静脉血管分布图像（例如，图8中所示意的D2），然后，将所述人脸图像和所述掌静脉血管分布图像输入至部署有融合人脸和掌静脉的多模态识别算法的服务器中（例如，图8中所示意的S），其中，所述服务器能够使用所述融合人脸和掌静脉的多模态识别算法对所述人脸图像和所述掌静脉血管分布图像进行处理以得到用于表示所述待验证用户是否为授权用户的分类结果。

进一步地，值得一提的是，本公开的技术方案依赖于人脸和掌静脉算法识别库，在设备端上移植两个识别库之后，需要有自定义一种与接收端设备的私有协议，完成识别成功的内容传输。其中，针对单人脸，需要接收端发送一个对单人脸进行识别或录入的指令操作，下发到识别设备上对此指令进行解析后，对单人脸进行录入或者识别；针对单掌静脉，需要接收端发送一个区别于单人脸的识别或录入指令，下发到识别设备之后对掌静脉进行录入或者识别；针对掌静脉加人脸的混合模式，通过区别于单掌和单人脸的指令，进行设置选择是录入哪一种，识别可选择混合模式识别，同一个识别指令下可以选择优先识别掌或者人脸。相应地，图9-图11分别示出了本公开的基于掌静脉识别指令、基于人脸识别指令以及基于混合识别指令的识别流程示意图。

具体地，关于掌静脉识别判断，识别端需要完成sensor配置，并且基于此sensor调整曝光以达到手掌在适当距离能显示静脉并提取特征的清晰图像。首先以掌静脉算法手掌矩阵检测对此图像进行检测，提取当前图像中手掌所占据矩形大小，其次对矩形范围提取关键信息，主要提取静脉信息以及少许掌纹信息，再对此图像质量，包括对曝光值、手掌距离、手掌倾斜角度等一些参数判断是否符合算法预期，之后再对手掌活体阈值评估以确保是真人手掌。完成上述步骤检测后提取此手掌的关键生物特征信息，此信息可保存用于与之后提取的特征信息比对，比对分数高于一定阈值可以认为是同一个人的手掌。

关于人脸识别判断，人脸同理需要完成sensor配置，人脸曝光调整需要与掌静脉曝光区分，人脸可识别的距离更远，调整适当曝光可看出清晰人脸的图像。根据清晰的人脸图像，运行人脸算法库，首先对图像进行检测，得到此图像当中存在多少人脸以及各人脸所处于图像矩形坐标，为便于区分目前以更为靠近sensor的人脸为基进行识别，提取当前人脸关键点后完成人脸质量判断和活体判断。提取人脸关键特征值信息，此信息可保存用于之后每次识别人脸提取出的信息对比，高于一定阈值认为是同一个人脸。

关于人脸与掌混合识别判断，人脸与掌混合识别依赖于对图像曝光的精细处理，基于人脸库以及掌静脉库，首先对掌的图像曝光进行调整，运行检测手掌接口完成手掌判断成功后立刻执行手掌识别步骤，若无手掌，将曝光值调整至适应人脸，检测人脸。完成一轮判断后，存在手掌则执行手掌识别步骤，不再执行识别人脸步骤，若不存在手掌，则进行人脸判断，存在人脸后进行人脸识别步骤。两者都未识别到时，此时再次从人脸的曝光回到手掌曝光进行识别手掌判断，内部会对图像曝光微调，再进行第二轮识别时的图像曝光是与上一次的曝光值不同的，此时重复上述操作步骤，一定时间后两者都未识别到则停止。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种融合人脸和掌静脉的多模态识别方法，其特征在于，包括：

获取待验证用户的人脸图像和掌静脉血管分布图像；

2.根据权利要求1所述的融合人脸和掌静脉的多模态识别方法，其特征在于，对所述人脸图像和所述掌静脉血管分布图像进行图像特征提取以得到人脸特征向量和掌静脉血管分布特征向量，包括：

将所述人脸图像通过基于卷积神经网络模型的人脸特征提取器以得到所述人脸特征向量；以及

将所述掌静脉血管分布图像通过基于ViT模型的掌静脉血管分布特征提取器以得到所述掌静脉血管分布特征向量。

3.根据权利要求2所述的融合人脸和掌静脉的多模态识别方法，其特征在于，将所述掌静脉血管分布图像通过基于ViT模型的掌静脉血管分布特征提取器以得到所述掌静脉血管分布特征向量，包括：

对所述掌静脉血管分布图像进行图像分块处理以得到掌静脉血管分布图像块的序列；

使用所述基于ViT模型的掌静脉血管分布特征提取器的嵌入层分别对所述掌静脉血管分布图像块的序列中各个掌静脉血管分布图像块进行嵌入编码以得到掌静脉血管分布图像块嵌入向量的序列；以及

将所述掌静脉血管分布图像块嵌入向量的序列输入所述基于ViT模型的掌静脉血管分布特征提取器的转换器模块以得到所述掌静脉血管分布特征向量。

4.根据权利要求3所述的融合人脸和掌静脉的多模态识别方法，其特征在于，将所述掌静脉血管分布图像块嵌入向量的序列输入所述基于ViT模型的掌静脉血管分布特征提取器的转换器模块以得到所述掌静脉血管分布特征向量，包括：

将所述掌静脉血管分布图像块嵌入向量的序列输入所述基于ViT模型的掌静脉血管分布特征提取器的转换器模块以得到多个掌静脉血管局部分布特征向量；以及

将所述多个掌静脉血管局部分布特征向量进行级联以得到所述掌静脉血管分布特征向量。

5.根据权利要求4所述的融合人脸和掌静脉的多模态识别方法，其特征在于，对所述人脸特征向量和所述掌静脉血管分布特征向量进行特征交互以得到多模态生物特征向量，包括：

将所述人脸特征向量和所述掌静脉血管分布特征向量通过基于双向注意力机制的特征融合模块以得到包含人脸特征的掌静脉血管分布特征向量和包含血管分布特征的人脸特征向量；以及

融合所述包含人脸特征的掌静脉血管分布特征向量和包含血管分布特征的人脸特征向量以得到所述多模态生物特征向量。

6.根据权利要求5所述的融合人脸和掌静脉的多模态识别方法，其特征在于，将所述人脸特征向量和所述掌静脉血管分布特征向量通过基于双向注意力机制的特征融合模块以得到包含人脸特征的掌静脉血管分布特征向量和包含血管分布特征的人脸特征向量，包括：

将所述人脸特征向量和所述掌静脉血管分布特征向量进行串联以得到第一串联向量；

将所述第一串联向量通过Softmax层以得到第一注意力权重向量；

将所述人脸特征向量和所述第一注意力权重向量进行向量相乘以得到第一融合向量；

将所述第一融合向量通过全连接层以得到所述包含血管分布特征的人脸特征向量；

将所述掌静脉血管分布特征向量通过Softmax层以得到第二注意力权重向量；

将所述第二注意力权重向量和所述掌静脉血管分布特征向量进行向量相乘以得到第二融合向量；以及

将所述第二融合向量通过全连接层以得到所述包含血管分布特征的人脸特征向量。

7.根据权利要求6所述的融合人脸和掌静脉的多模态识别方法，其特征在于，基于所述多模态生物特征向量，确定所述待验证用户是否为授权用户，包括：

将所述多模态生物特征向量通过分类器以得到分类结果，所述分类结果用于表示所述待验证用户是否为授权用户。

8.根据权利要求7所述的融合人脸和掌静脉的多模态识别方法，其特征在于，还包括训练步骤：对所述基于卷积神经网络模型的人脸特征提取器、所述基于ViT模型的掌静脉血管分布特征提取器、所述基于双向注意力机制的特征融合模块和所述分类器进行训练；

其中，所述训练步骤，包括：

获取训练数据，所述训练数据包括待验证用户的训练人脸图像和训练掌静脉血管分布图像，以及，所述待验证用户是否为授权用户的真实值；

将所述训练人脸图像通过所述基于卷积神经网络模型的人脸特征提取器以得到训练人脸特征向量；

将所述训练掌静脉血管分布图像通过所述基于ViT模型的掌静脉血管分布特征提取器以得到训练掌静脉血管分布特征向量；

将所述训练人脸特征向量和所述训练掌静脉血管分布特征向量通过所述基于双向注意力机制的特征融合模块以得到包含人脸特征的训练掌静脉血管分布特征向量和包含血管分布特征的训练人脸特征向量；

融合所述包含人脸特征的训练掌静脉血管分布特征向量和所述包含血管分布特征的训练人脸特征向量以得到训练多模态生物特征向量；

将所述训练多模态生物特征向量通过分类器以得到分类损失函数值；以及

以所述分类损失函数值来对所述基于卷积神经网络模型的人脸特征提取器、所述基于ViT模型的掌静脉血管分布特征提取器、所述基于双向注意力机制的特征融合模块和所述分类器进行训练，其中，在所述训练的每一轮迭代中，对所述训练多模态生物特征向量进行基于类度矩阵正则化的权重空间探索约束迭代。

9.根据权利要求8所述的融合人脸和掌静脉的多模态识别方法，其特征在于，在所述训练的每一轮迭代中，对所述训练多模态生物特征向量进行基于类度矩阵正则化的权重空间探索约束迭代，包括：

在所述训练的每一轮迭代中，以如下优化公式对所述训练多模态生物特征向量进行基于类度矩阵正则化的权重空间探索约束迭代以得到优化训练多模态生物特征向量；

其中，所述优化公式为：其中，/>是所述训练多模态生物特征向量，/>具体表示为列向量，/>是所述优化训练多模态生物特征向量，/>是行向量，是上一次迭代的权重矩阵，/>为可学习的域转移矩阵，/>表示矩阵乘法，/>表示转置操作，/>表示迭代后的权重矩阵。

10.一种融合人脸和掌静脉的多模态识别***，其特征在于，包括：