CN112801015A

CN112801015A - 一种基于注意力机制的多模态人脸识别方法

Info

Publication number: CN112801015A
Application number: CN202110171944.5A
Authority: CN
Inventors: 姜立标; 张俊伟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-05-14
Anticipated expiration: 2041-02-08
Also published as: CN112801015B

Abstract

本发明用于模式识别领域，本发明提出了一种基于注意力机制的多模态人脸识别方法，其中本发明的网络模型afr_net通过采用CBAM和SAVM来构建注意力机制，在ResNet18的每个block中加入空间和通道注意模块CBAM，利用结合了注意力机制的ResNet18来建立RGB、深度以及它们的融合模态的分支，从而得到了三个模态的特征，再将这三个模态的特征进行融合，输入共享层，通过一个基于空间注意力机制的矢量化模块SAVM和全连接层得到特征向量。该方法不仅克服了传统二维人脸识别方法的不足，还有效融合了RGB和深度模态，增强了RGB‑D人脸识别能力。

Description

一种基于注意力机制的多模态人脸识别方法

技术领域

本发明涉及机器深度学习和图像处理识别领域，尤其涉及一种基于注意力机制的多模态人脸识别方法。

背景技术

人脸识别的技术研究开始于20世纪60年代，逐渐的成为了计算机视觉界的一个热门话题，最近随着深度学习技术的飞速进步和大量二维人脸数据集的开源，二维人脸识别取得了巨大的成功。自从2012年提出并引用AlexNet后，大多数人脸识别的模型都采用了以CNN为骨干的深度学习策略。2015年谷歌提出了FaceNet模型，在LFW基准上达到了99.63％的精确度，其性能超越了人类。这些二维人脸识别进展大多数都是利用了二维的图像(RGB)，而二维RGB图像包含的人脸信息有限，在姿态、光照、伪装等不确定的条件下，二维人脸识别还是存在问题的。

随着Kinect、Realsense等廉价的RGB-D相机逐渐广泛的应用，获取RGB-D图像的成本大幅下降，而目前使用RGB-D图像的人脸识别任务还没有得到充分的研究。虽然深度图没有提供真正的3D网格，但是它以密集的三维点的形式提供了面部的几何信息，通过深度信息也表明了可以反欺诈，如面具攻击等，所以通过RGB-D的人脸识别的安全性也很高，能适用于一些对安全性要求高的场景，所以这些额外的人脸信息使人脸识别模型更精确和鲁棒性更好。

现有的大部分三维人脸识别多采用数据融合、特征融合或者分数级融合来提高三维人脸识别模型的性能，如：中国专利“201911397767.1”公开的“一种基于多种数据类型融合的三维人脸识别方法”，中国专利“201410343015.8”公开的“基于特征点的三维人脸识别方法”以及中国专利“202011000990.0”公开的“一种基于深度图质量增强的低精度三维人脸识别方法”等，这些现有技术的识别精确度均较低，不能满足现有的需求。

发明内容

为了克服现有技术存在的缺陷，本发明提供一种基于注意力机制的多模态人脸识别方法，通过将注意力机制应用到CNN网络中，从而可以关注重要特征并抑制不必要的特征，同时有效融合了RGB和深度模态，增强了RGB-D人脸识别能力，鲁棒性更强。

为了达到上述目的，本发明采用以下技术方案。

本发明公开一种基于注意力机制的多模态人脸识别方法，包括以下步骤：

S1：建立RGBD人脸数据库；

S2：设置注意力机制模块，用于网络自动学习具有判别性的人脸特征，所述注意力机制模块包括空间和通道注意模块CBAM及基于空间注意力机制的矢量化模块SAVM，所述空间和通道注意模块CBAM包括通道注意模块和空间注意模块；

S3：搭建注意力机制网络afr_net，所述注意力机制网络afr_net包括RGB信息处理分支、深度信息处理分支和融合信息处理分支，每个分支均包括resnet18网络以及嵌入resnet18网络中的所述注意力机制模块，基于空间注意力机制的矢量化模块SAVM用于对三个分支输出的特征融合得到的融合特征进行处理，得到人脸特征向量；

S4：训练注意力机制网络afr_net,采用损失函数对注意力机制网络afr_net进行训练并且保存模型参数；

S5：将待测样本输入到训练好的注意力机制网络afr_net中，提取待测样本的人脸特征向量；

S6：把提取的待测样本的人脸特征向量进行分类，完成待测样本的识别，得到人脸识别结果。

作为优选的技术方案，步骤S1中所述的建立了RGBD人脸数据库，该数据库通过Realsense D435I深度相机获得，Realsense D435I获取的彩色图和深度图分别由位于设备上的不同传感器成像得到，这将导致两个传感器的成像区域不完全相同，而且同一物体在不同的成像视场中位置不同，所以在深度图和彩色图中对应的像素坐标并不相同，因此可利用Intel Realsense SDK中的对齐函数，根据RGB信息对深度图像校准，使深度图与彩色图对齐。

作为优选的技术方案，步骤S1中所述的建立了RGBD人脸数据库，建立数据库时检测人脸的方法采用了MTCNN。由于深度相机获取的深度图有较大噪声，且RGB图的坐标信息可以映射到深度图上，因此采用了相对成熟的基于RGB图像的人脸检测算法MTCNN，将RGB图上的人脸检测结果转化为坐标信息映射到深度图上从而得到完整的人脸深度数据。

作为优选的技术方案，步骤S1中所述的建立了RGBD人脸数据库，该数据库中的深度图像需要处理深度值为0的“黑洞点”，本发明采用了图像处理中广泛应用的线性滤波方法：均值滤波，它主要利用图像的局部统计信息消除点状噪声。

作为优选的技术方案，步骤S2对预处理后的图像进行数据增广，所述数据增广方法包括图像随机旋转操作、镜像翻转操作、仿射变换和透视变换，这将使数据集大小增加到原来的4倍。

作为优选的技术方案，所述的嵌入了CBAM的ResNet18包括5个stage，具体如下所述：

Stage0:包括卷积层和池化层，所述卷积核大小为7×7，输出通道数为64，步长为2，所述池化层采用最大池化，窗口大小为3×3，步长为2；

Stage1：由2个输出通道数为64且嵌入了注意力模块CBAM的块(block)组成；

Stage2：由2个输出通道数为128且嵌入了注意力模块CBAM的块(block)组成；

Stage3：由2个输出通道数为256且嵌入了注意力模块CBAM的块(block)组成；

Stage4：由2个输出通道数为512且嵌入了注意力模块CBAM的块(block)组成；

作为优选的技术方案，所述嵌入了注意力模块CBAM的块的形成步骤具体如下所述：

对输入先进行2次3×3卷积，得到特征F，再将特征F输入到注意力模块CBAM中，得到注意权重图，利用注意权重图对特征F进行缩放(Scale)操作，得到经过注意权重调整的新特征作为输出，最后将输出与输入做elementwise-add操作，即逐元素相加，然后得到结果。

作为优选的技术方案，所述CBAM的通道注意模块的设计，在resnet18的每个嵌入了注意力模块CBAM的块中，以经过两次3×3卷积后得到的特征作为CBAM的输入特征F，对特征F进行全局平均池化和全局最大池化，生成了表示平均池化特征的F^C _avg和最大池化特征的F^C _max,然后将F^C _avg和F^C _max分别转发到具有一个隐层的多层感知器(MLP)中，该感知器的网络参数是共享的，为了减少MLP的参数，该隐层神经元减少为1/r倍，即神经元个数为C/r，权重W₀∈R^C/r×C，激活函数为Relu，输出层神经元的个数为C，权重W₁∈R^C×C/r。将F^C _avg和F^C _max经过MLP变化后的特征逐元素相加后经过一个Sigmoid激活函数得到一个通道注意图M_C(F)∈R^C ^×1×1，即得到了各个通道的权重系数，最后，拿权重系数和原来的输入特征F相乘可得到缩放后的新特征F^’。M_C(F)的计算公式如下：

M_C(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

＝σ(W₁(W₀(F^C _avg))+W₁(W₀(F^C _max)))

其中，σ表示sigmoid函数，W₀和W₁为MLP的权重，W₀∈R^C/r×C,W₁∈R^C×C/r。

新特征F^’的计算公式如下：

其中，

表示element-wise multiplication操作；

作为优选的技术方案，所述CBAM的空间注意模块以经过通道注意模块处理后的输出特征F^’作为输入特征，在通道轴上对特征F^’使用平均池化和最大池化操作，生成了两个二维映射：F^S _avg∈R^1×H×W和F^S _max∈R^1×H×W,将它们按照通道维度连接在一起形成一个尺寸大小为R^2×H×W的特征，然后利用标准卷积层生成一个二维空间注意图M_S(F)∈R^1×H×W，即得到了各个像素的权重系数，最后，拿权重系数和原来的特征F^’逐像素相乘可得到缩放后的新特征F”。M_S(F)的计算公式如下：

M_S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))＝σ(f^7×7([F^S _avg；F^S _max]))；

其中，σ表示sigmoid函数,；f^7×7表示卷积核大小为7×7的卷积运算，输出通道数为1；[F^S _avg；F^S _max]表示将F^S _avg和F^S _max按照通道维度连接起来；

在算得M_S(F)后，新特征F”的计算公式如下：

其中，

表示element-wise multiplication操作。

作为优选的技术方案，步骤S4所述的搭建注意力机制网络afr_net，该网络结合了多模态和特征融合的方法。

作为优选的技术方案，所述的注意力机制网络afr_net的特征融合，将RGB信息、深度信息和融合信息作为输入提取出的三个分支的高级特征进行融合，得到融合特征F～，通道数为1536。

作为优选的技术方案，所述的注意力机制网络将提取出的融合特征F～输入基于空间注意力机制的矢量化模块SAVM，该矢量化模块对融合特征F～做一次卷积操作，卷积核大小为3×3，步长为1，输出通道数为融合特征F～的通道数的一半，在该卷积操作后得到一个新特征F～～。再对特征F～～做一次全卷积操作，卷积核大小为特征F～～的大小，通道数为256。最后加入一个89维的全连接层进行降维，得到人脸特征向量，维数也就是人脸数据库中参与者的人数。

作为优选的技术方案，步骤S5所述的人脸识别损失函数采用softmax函数。Softmax为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性。Softmax函数的定义如下：

其中i表示输出节点的编号，z_i为第i个节点的输出值，L为输出节点的个数，即分类的类别个数，假设此时第i个输出节点为正确类别对应的输出节点，则p_i表示正确类别对应输出节点的概率。通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]且所有输出值之和为1的概率分布。

对应的softmax损失函数的表达式如下：

作为优选的技术方案，所述基于softmax函数的分类模型采用的优化器为SGDM。

本发明与现有技术相比，至少具有以下有益效果：

(1)本发明基于在多模态中分别提取更有判别性的人脸局部特征为出发点，在基础resnet18的框架下设计了注意力机制模块，形成了加入注意力机制的人脸识别方法，能够提取到更丰富的人脸特征。

(2)本发明构建了以RGB信息、深度信息和融合信息作为输入的三个分支，经过各自加入了注意力模块CBAM的ResNet18网络，提取出了经过注意权重调整的高级特征，并对提取出的高级特征进行融合，从而能有效地结合了不同模态的信息，使该人脸识别模型的识别精度更高，鲁棒性更好。

(3)本发明对人脸数据库中的图像进行数据增广，用于增加训练的样本数据，弥补了现有RGBD人脸数据不足的问题，加强了网络的鲁棒性。

附图说明

图1为本发明中人脸图像特征的提取流程。

图2为原始ResNet的残差结构示意图。

图3为本发明嵌入了CBAM的ResNet的残差结构示意图。

图4为本发明通道注意模块的结构示意图。

图5为本发明空间注意模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不限定本发明。

请参阅图1-5，本实施例公开一种基于注意力机制的多模态人脸识别方法，所述算法包括以下步骤：

步骤一：建立RGBD人脸数据库。该数据库包括了89人(男性50名，女性39名)的多模态人脸图像，总计17622张。

该数据库通过Realsense D435I深度相机获得，Realsense D435I获取的彩色图和深度图分别由位于设备上的不同传感器成像得到，这将导致两个传感器的成像区域不完全相同，而且同一物体在不同的成像视场中位置不同，所以在深度图和彩色图中对应的像素坐标并不相同，因此可利用Intel Realsense SDK中的对齐函数，根据RGB信息对深度图像校准，使深度图与彩色图对齐。

建立数据库时检测人脸的方法采用了MTCNN。由于深度相机获取的深度图有较大噪声，且RGB图的坐标信息可以映射到深度图上，因此采用了相对成熟的基于RGB图像的人脸检测算法MTCNN，将RGB图上的人脸检测结果转化为坐标信息映射到深度图上从而裁剪得到完整的人脸深度数据。其中，采集的彩色图以.png格式存储，深度图以数据形式存储，存储格式为.npy，彩色图与对应的深度图以及对应的标签(即实验者的编号)一一对应，保存在excel中形成索引，训练模型时，pytorch中的数据加载类:DataLoader将所有数据加载，每个人脸数据的形成的张量维度为torch.Size([32,4,224,224])，4表示有RGBD这4个通道，每个通道R\G\B\D的维度都为[224,224],因此输入数据为RGB时，选取前三个，输入数据为深度数据(depth)时，选取第四个，输入为融合数据(fusion)时，不用额外操作。

该数据库中的深度图需要处理深度值为0的“黑洞点”，本发明采用了图像处理中广泛应用的线性滤波方法：均值滤波，它主要利用图像的局部统计信息消除点状噪声。

步骤二：对RGBD人脸数据库中的图像进行数据增广，数据增广方法包括图像随机旋转操作、镜像翻转操作、仿射变换和透视变换，将数据集大小增加到原来的4倍。

步骤三：设置注意力机制模块，包括：空间和通道注意模块CBAM、基于空间注意力机制的矢量化模块SAVM。空间和通道注意模块CBAM包括通道注意模块和空间注意模块。

空间和通道注意模块CBAM嵌入了ResNet18的每个block中，CBAM包括一个通道注意模块和一个空间注意模块。

嵌入了CBAM的ResNet18网络包括5个stage，具体如下所述：

如图2所示，原始resnet18的每个block的结构都是进行2次3×3卷积，输出与输入做elementwise-add操作，即逐元素相加，然后得到结果。

如图3所示，嵌入了CBAM的resnet18的每个block的结构都是先进行2次3×3卷积，得到特征F，再将特征F输入到注意力模块CBAM中，得到注意权重图，利用注意权重图对特征F进行缩放(Scale)操作，得到经过注意权重调整的新特征作为输出，最后将输出与输入做elementwise-add操作，即逐元素相加，然后得到结果。

通过前述对图3的描述可知，在resnet18网络的每个block中，经过两次3×3卷积后得到的特征作为CBAM的输入特征。如图4所示，先对输入CBAM的通道注意模块的特征F进行全局平均池化操作(AvgPool)和全局最大池化(MaxPool)，生成表示平均池化特征的F^C _avg和最大池化特征的F^C _max,然后将F^C _avg和F^C _max分别转发到具有一个隐层的多层感知器(MLP)中，该感知器的网络参数是共享的，为了减少MLP的参数，可设置一个缩放系数r改变神经元个数，该隐层神经元减少为1/r倍，即神经元个数为C/r，r一般可取2,权重W₀∈R^C/r×C，激活函数为Relu，输出层神经元的个数为C，权重W₁∈R^C×C/r。将F^C _avg和F^C _max经过MLP变化后的特征逐元素相加后经过一个Sigmoid激活函数得到一个通道注意图M_C(F)∈R^C×1×1，即得到了各个通道的权重系数，最后，拿各个通道权重系数和原来的输入特征F相乘可得到缩放后的新特征F^’。M_C(F)的计算公式如下：

M_C(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

＝σ(W₁(W₀(F^C _avg))+W₁(W₀(F^C _max)))

新特征F^’的计算公式如下：

其中，

表示element-wise multiplication操作；

如图5所示，CBAM的空间注意模块以经过通道注意模块处理后的输出特征F^’作为输入特征，在通道轴上对特征F^’使用平均池化和最大池化操作，生成了两个二维映射：F^S _avg∈R^1×H×W和F^S _max∈R^1×H×W,(1表示通道数为1，H和W分别表示图像尺寸的高和宽)将它们按照通道维度连接在一起形成一个尺寸大小为R^2×H×W的特征，然后利用标准卷积层生成一个二维空间注意图M_S(F)∈R^1×H×W，即得到了各个像素的权重系数，最后，拿各个像素的权重系数和原来的特征F^’逐像素相乘可得到缩放后的新特征F”。M_S(F)的计算公式如下：

其中，σ表示sigmoid函数,；f^7×7表示卷积核大小为7×7的卷积运算，输出通道数为1；[F^S _avg；F^S _max]表示将F^S _avg和F^S _max按照通道维度连接起来。

在算得M_S(F)后，新特征F”的计算公式如下：

其中，

表示element-wise multiplication操作。

步骤四：搭建注意力机制网络afr_net，该网络结合了多模态和特征融合的方法。

注意力机制网络afr_net的多模态为RGB、深度以及RGB和深度的融合模态。分别以RGB信息、深度信息和融合信息作为输入，即构造了三个分支，包括RGB信息处理分支、深度信息处理分支和融合信息处理分支，每个分支均包括resnet18网络以及嵌入resnet18网络中的所述注意力机制模块，经过各自的加入了注意力模块CBAM的ResNet18网络，提取出经过注意权重调整的高级特征。

注意力机制网络afr_net的特征融合：将RGB信息、深度信息和融合信息作为输入提取出的三个分支的高级特征进行融合，得到融合特征F～，通道数为1536。

注意力机制网络afr_net将提取出的融合特征F～输入基于空间注意力机制的矢量化模块SAVM，该矢量化模块对融合特征F～做一次卷积操作，卷积核大小为3×3，步长为1，输出通道数为融合特征F～的通道数的一半，在该卷积操作后得到一个新特征F～～。再对特征F～～做一次全卷积操作，卷积核大小为特征F～～的大小，通道数为256。最后加入一个89维的全连接层进行降维，得到人脸特征向量，维数也就是人脸数据库中参与者的人数。

步骤五：训练注意力机制网络afr_net，该网络采用softmax函数作为人脸识别损失函数对注意力机制网络进行训练。Softmax为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性。Softmax函数的定义如下：

其中，i表示输出节点的编号，z_i为第i个节点的输出值，z_j表示第j个节点的输出值，L为输出节点的个数，即分类的类别个数，假设此时第i个输出节点为正确类别对应的输出节点，则p_i表示正确类别对应输出节点的概率，通过Softmax函数可以将多分类的输出值转换为范围在[0,1]且所有输出节点概率p_i之和为1的概率分布；

对应的softmax损失函数的表达式如下：

在本实施例中，优化器采用SGDM，学习率设为0.001，每7个周期衰减0.1,batchsize设为32，训练周期设为50。每训练完一轮的注意力机制网络afr_net都会在自建的人脸数据库上进行验证，最后把训练好的网络保存。

步骤六：学习人脸图像的高层特征和抽象特征。

将测试样本输入到训练好的afr_net中，提取测试样本的特征向量。

步骤七：人脸识别。

把提取的测试样本的特征用softmax回归方法进行分类，完成测试样本的识别，得到人脸识别结果。

以上步骤前的序号只是为了表述方便，不构成对步骤先后顺序的限制。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.本发明提出了一种基于注意力机制的多模态人脸识别方法，其特征在于，包括以下步骤：

S1：建立RGBD人脸数据库；

2.根据权利要求1所述的一种基于注意力机制的多模态人脸识别方法，其特征在于：在建立RGBD人脸数据库和设置注意力机制模块之间还包括步骤：对RGBD人脸数据库中的图像进行数据增广。

3.根据权利要求2所述的一种基于注意力机制的多模态人脸识别方法，其特征在于：S2对RGBD人脸数据库中的图像进行数据增广，所述数据增广方法包括图像随机旋转操作、镜像翻转操作、仿射变换和透视变换，以将数据集大小增加到原来的4倍。

4.根据权利要求1所述的一种基于注意力机制的多模态人脸识别方法，其特征在于：嵌入了空间和通道注意模块CBAM的ResNet18包括5个stage，具体包括：

Stage0:包括卷积层和池化层，卷积核大小为7×7，输出通道数为64，步长为2，所述池化层采用最大池化，窗口大小为3×3，步长为2；

Stage1：由2个输出通道数为64且嵌入了注意力模块CBAM的块组成；

Stage2：由2个输出通道数为128且嵌入了注意力模块CBAM的块组成；

Stage3：由2个输出通道数为256且嵌入了注意力模块CBAM的块组成；

Stage4：由2个输出通道数为512且嵌入了注意力模块CBAM的块组成。

5.根据权利要求4所述的一种基于注意力机制的多模态人脸识别方法，其特征在于，resnet18的每个block均嵌入注意力模块CBAM，嵌入了CBAM的resnet18的每个block的结构的操作如下：

对输入先进行2次3×3卷积，得到特征F，再将特征F输入到空间和注意力模块CBAM中，得到注意权重图，利用注意权重图对特征F进行缩放操作，得到经过注意权重调整的新特征作为输出，最后将输出与输入进行逐元素相加，得到结果。

6.根据权利要求5所述的一种基于注意力机制的多模态人脸识别方法，其特征在于，所述将特征F输入到空间和注意力模块CBAM中，得到注意权重图，利用注意权重图对特征F进行缩放操作，得到经过注意权重调整的新特征作为输出，最后将输出与输入进行逐元素相加，得到结果，具体包括：

特征F输入通道注意模块中，通道注意模块对特征F进行全局平均池化操作(AvgPool)和全局最大池化(MaxPool)，生成表示平均池化特征的F^C _avg和最大池化特征的F^C _max,然后将F^C _avg和F^C _max分别转发到具有一个隐层的多层感知器(MLP)中，该隐层的神经元减少为1/r倍，即神经元个数为C/r，权重W₀∈R^C/r×C，激活函数为Relu，输出层神经元的个数为C，权重W₁∈R^C×C/r，将F^C _avg和F^C _max经过MLP变化后的特征逐元素相加后经过一个Sigmoid激活函数得到一个通道注意图M_C(F)∈R^C×1×1，即得到了各个通道的权重系数，最后，将各个通道的权重系数和原来的输入特征F相乘得到缩放后的新特征F’；

M_C(F)的计算公式如下：

M_C(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

＝σ(W₁(W₀(F^C _avg))+W₁(W₀(F^C _max)))

其中，σ表示sigmoid函数，W₀和W₁为MLP的权重，W₀∈R^C/r×C,W₁∈R^C×C/r；

新特征F’的计算公式如下：

其中，

表示element-wise multiplication操作；

空间注意模块以经过通道注意模块处理后的输出特征F’作为输入特征，在通道轴上对特征F’使用平均池化和最大池化操作，生成了两个二维映射：F^S _avg∈R^1×H×W和F^S _max∈R^1×H×W,将两个二维映射按照通道维度连接在一起形成一个尺寸大小为R^2×H×W的特征，然后利用标准卷积层生成一个二维空间注意图M_S(F)∈R^1×H×W，即得到了各个像素的权重系数，最后，将各个像素的权重系数和原来的特征F’逐像素相乘得到缩放后的新特征F”，M_S(F)的计算公式如下：

M_S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))＝σ(f^7×7([F^S _avg；F^S _max]))

其中，σ表示sigmoid函数,；f^7×7表示卷积核大小为7×7的卷积运算；[F^S _avg；F^S _max]表示将F^S _avg和F^S _max按照通道维度连接起来；

在得到M_S(F)后，新特征F”的计算公式如下：

其中，

表示element-wise multiplication操作。

7.根据权利要求1-6任一所述的一种基于注意力机制的多模态人脸识别方法，其特征在于：步骤S3中，注意力机制网络afr_net对三个分支输出的特征融合得到的融合特征进行处理，得到人脸特征向量，具体包括：

将各个分支得到的特征进行融合，得到融合特征F^～；

将融合特征F^～～输入基于空间注意力机制的矢量化模块SAVM，对融合特征F^～进行卷积和降维操作，得到人脸特征向量。

8.根据权利要求7所述的一种基于注意力机制的多模态人脸识别方法，其特征在于：步骤S3中，空间注意力机制的矢量化模块SAVM对融合特征F^～做一次卷积操作，输出通道数为融合特征F^～的通道数的一半，得到一个新特征F^～～，再对新特征F^～～做一次全卷积操作，卷积核大小为特征F^～～的大小，最后加入一个多维的全连接层进行降维，得到人脸特征向量，维数是人脸数据库中参与者的人数。

9.根据权利要求7所述的一种基于注意力机制的多模态人脸识别方法，其特征在于：步骤S4中采用softmax函数作为人脸识别的损失函数对注意力机制网络afr_net进行训练，Softmax函数为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性，Softmax函数的定义如下：

对应的softmax损失函数的表达式如下：

10.根据权利要求9所述的一种基于注意力机制的多模态人脸识别方法，其特征在于：采用的优化器为SGDM。