CN117011918B

CN117011918B - 基于线性注意力机制的人脸活体检测模型的构建方法

Info

Publication number: CN117011918B
Application number: CN202310992389.1A
Authority: CN
Inventors: 田坤; 朱益良; 王健伟; 张忠宇; 王宇达; 张威; 刘叶轩
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2024-03-26
Anticipated expiration: 2043-08-08
Also published as: CN117011918A

Abstract

本发明公开了基于线性注意力机制的人脸活体检测模型的构建方法，包括从数据集中提取包含人脸的人脸图像，进行数据预处理；构建基于卷积神经网络的特征提取人脸图像的基础模型，得到特征图；通过构建通道注意力层和位置注意力层，构成完整的特征提取网络，将特征图通过特征提取网络进行特征融合，得到进阶特征图。本发明在经典的点乘注意力机制的基础上，对软最大化函数进行线性优化，并基于矩阵乘法结合律，改变矩阵因子乘法顺序，使得原始复杂度为O(N²)降为O(N)，使得该线性注意力机制的人脸活体检测模型的构建在保证识别性能的前提下，可以有效的减少计算复杂度。

Description

基于线性注意力机制的人脸活体检测模型的构建方法

技术领域

本发明涉及活体检测技术领域，具体涉及基于线性注意力机制的人脸活体检测模型的构建方法。

背景技术

随着人工智能和人脸识别技术的进步，人脸活体检测在人脸识别***中的重要性日益凸显，然而，现有的人脸活体检测方法存在一些问题，如用户体验不佳、复杂度高、依赖性强等，需要追求一种新的人脸活体检测方法，以解决这些问题；目前，主流的人脸活体检测方法可分为需要利用辅助信息的方法和不需要利用辅助信息的方法；前者需要用户做出特定动作反馈，虽然结果可靠，但用户体验差且效率低；而后者则更符合未来的发展趋势，只利用可见光下的人脸图像进行检测；

然而，现有的深度学习方法在参数量庞大时，其检测速度慢，精度低，为了解决这些问题，通常都是引入双重注意力机制网络的方案构建模型，从而可以高效的处理复杂多样的场景，并通过自注意机制来捕捉特征图中的空间和通道依赖关系，进一步增强特征表示，但是引入双重注意力机制网络会存在计算复杂度高、计算精度低的问题，亟需改善；

因此，发明基于线性注意力机制的人脸活体检测模型的构建方法来解决上述问题很有必要。

发明内容

本发明的目的是提供基于线性注意力机制的人脸活体检测模型的构建方法，在经典的点乘注意力机制的基础上，对软最大化函数进行线性优化，此外基于矩阵乘法结合律，改变矩阵因子乘法顺序，使得原始复杂度为O(N²)降为O(N)，使得该线性注意力机制的人脸活体检测模型的构建在保证识别性能的前提下，可以有效的减少计算复杂度。

为了实现上述目的，本发明提供如下技术方案：基于线性注意力机制的人脸活体检测模型的构建方法，包括以下步骤：

步骤1、从数据集中提取包含人脸的人脸图像，进行数据预处理；

步骤2、构建基于卷积神经网络的特征提取人脸图像的基础模型，得到特征图；

步骤3、通过构建通道注意力层和位置注意力层，构成完整的特征提取网络，将特征图通过特征提取网络进行特征融合，得到进阶特征图；

步骤4、将进阶特征图接入全连接网络进行分类识别，完成对真人脸与假人脸的识别能力，使进阶特征图转化为二维向量，自此，人脸活体检测模型构建完毕；

步骤5、基于全连接层输出的二维向量结果，利用二元交叉熵损失得到分类结果，并进行反向传播，完成该人脸活体检测模型的网络参数更新；步骤6、使用训练得到的模型参数在未知测试集上进行验证，并用召回率、准确率对该人脸活体检测模型性能进行综合评测。

前述的基于线性注意力机制的人脸活体检测模型的构建方法，在步骤1中，从数据集中提取包含人脸的人脸图像，进行数据预处理，具体步骤为：

1.1、创建一个人脸图像的4维通道，对人脸图像的红、绿、蓝三个通道的像素求取整体平均值，具体公式如下：

其中，R为Red，表示人脸图像的红；G为Green，表示人脸图像的绿；B为Blue，表示人脸图像的蓝；

N为训练集图片总数；

μ_R为计算所有人脸图像的R通道的平均值；

μ_G为计算所有人脸图像的G通道的平均值；

μ_B为计算所有人脸图像的B通道的平均值；

_i为图片序数；

1.2、将每个像素值减去平均值，具体公式如下：

其中，σ为加入的比例因子，表示训练集上的标准偏差，具体的，σ＝1；

1.3、对经过光照处理的每张图片进行随机的漂移、翻转、旋转、缩放，增加数据的数量。

前述的基于线性注意力机制的人脸活体检测模型的构建方法，构建基于卷积神经网络的特征提取人脸图像的基础模型，得到特征图，该基于卷积神经网络的特征具有以下特点：

卷积神经网络由四个基础卷积块和一个最大池化层组成，每个基础卷积块有一个卷积层和一个批归一化层组成；

卷积层的卷积核大小为3×3，个数为128，步长为1，激活函数为线性整流函数，填充方式为same；

池化层的卷积核为2×2，步长为2。

前述的基于线性注意力机制的人脸活体检测模型的构建方法，在步骤3中，通过构建通道注意力层和位置注意力层，构成完整的特征提取网络，将特征图通过特征提取网络进行特征融合，得到进阶特征图；

其中，构建位置注意力层的具体步骤为：

3.1.1、根据点积注意力机制，记卷积神经网络得到的特征图为A，且将A分别通过三个卷积层，得到查询向量Q，且/>键向量K，且/>值向量V，且/>

其中，H为特征高度，

W为特征宽度，

C为通道数；

其中，该点注意力机制的公式如下：

s(Q*K,V)＝(Q*K)^TV

其中，Q为查询向量，K为键向量，V为值向量；

3.1.2、将A、Q、K、V的维度变换为使用点积运算作为注意力打分函数，并使用软最大化函数，按行进行归一化，计算出注意力分布/>且具体计算公式如下：

s＝softmax(QK^T)

3.1.3、将注意力分布s与V进行点积运算得到输出向量且具体计算公式如下：

H＝sV＝softmax(QK^T)V

3.1.4、将输出序列H乘以一个可学习的比例参数α，并使它与特征图A进行逐元素求和运算，输出后变换维度为且具体计算公式如下：

M_PA＝αH+A

其中，α被初始化为0，并逐渐学习分配更多的权重，

M_PA为原本的通道注意力机制，

其中，构建通道注意力层的具体步骤为：

3.2.1、直接使用A与其转置矩阵A^T和软最大化函数计算出通道注意力分布图且具体计算公式如下：

x＝softmax(A^TA)

3.2.2、将x映射到A上，乘以一个可学习参数β，再加上A得出结果，并将结果进行维度变换为且具体变换公式为：

E_CA＝β(Ax)+A

其中，β是一个从0开始学习的参数，

E_CA是加权的所有通道的特征与原始特征的总和，

其中，构建通道注意力层和位置注意力层，构成完整的特征提取网络的具体步骤为：

3.3.1、将M_PA软最大化函数摘除，并将Q的行和K的列做软最大化操作，根据矩阵乘法结合律的特点，计算后两项，得到一个C×C的矩阵，再左乘Q得到最终结果，具体公式为；

E_PA＝αsoftmax(Q)·(softmax(K^T)·V)+A

3.3.2、将E_CA和E_PA进行维度变换由N×C重新变为H×W×C，并进行特征融合，具体公式为：

F_A＝F_CA+F_PA；

其中，F_A是两种注意力机制融合后的结果。

前述的基于线性注意力机制的人脸活体检测模型的构建方法，在步骤4中，使用全连接层将进阶特征图映射到目标空间上，使进阶特征图转化为二维向量，具体过程为：

将前层网络层提取到的进阶特征图，经非线性变化后，再提取特征之间的关联特征，最后映射到目标特征空间上，使进阶特征图转化为二维向量，自此，人脸活体检测模型构建完毕。

前述的基于线性注意力机制的人脸活体检测模型的构建方法，在步骤5中，基于全连接层输出的二维向量结果，利用二元交叉熵损失得到分类结果，并进行反向传播，完成该人脸活体检测模型的网络参数更新；

其中，二元交叉熵损失计算公式如下：

其中，N为批次大小，

y_i为该数据对应的标签，

P(y_i)为网络对该数据的预测结果，是一个概率值。

前述的基于线性注意力机制的人脸活体检测模型的构建方法，在步骤6中，使用训练得到的模型参数在未知测试集上进行验证，并用召回率、准确率对该人脸活体检测模型性能进行综合评测；

其中，召回率的计算公式如下：

其中，TP是预测为正，实际为正的样本数量，

TN是预测为负，实际为正的样本数量。

与现有技术相比，本发明的有益效果是：

本发明通过在经典的点乘注意力机制的基础上，对软最大化函数进行线性优化，即将M_PA软最大化函数摘除，对原始的两个因子分别进行各自维度的归一化操作，此外基于矩阵乘法结合律，改变矩阵因子乘法顺序，使得原始复杂度为O(N²)降为O(N)，对计算复杂度进行了优化，降低了由于引入双重注意力机制网络而带来的复杂计算，从而构建出一种全新的基于线性注意力机制的人脸活体检测模型，该模型在处理数量庞大的人脸数据集时，人脸识别的精度高，并降低了计算资源的消耗，从而在保持高性能的同时，提高了人脸活体检测的效率，检测速度快、精度高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的整体网络结构示意图；

图3为本发明的准确率--时间图，

其中，(a)为CASIA-SURF数据集中准确率--时间图，

(b)为自制数据集中准确率--时间图；

图4为本发明的准确率--批次图，

其中，(a)为CASIA-SURF数据集中准确率--批次图，

(b)为自制数据集中准确率--批次图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

本发明提供了如图1-4所示的基于线性注意力机制的人脸活体检测模型的构建方法，包括以下步骤：

步骤1、从数据集中提取包含人脸的人脸图像，进行数据预处理，具体步骤为：

N为训练集图片总数；

μ_R为计算所有人脸图像的R通道的平均值；

μ_G为计算所有人脸图像的G通道的平均值；

μ_B为计算所有人脸图像的B通道的平均值；

i为图片序数；

1.2、将每个像素值减去平均值，具体公式如下：

1.3、对原数据集中每张图片进行随机的漂移、翻转、旋转、缩放，以增加数据的数量。

在本步骤中，通过创建一个图像的4维通道，对图像，可以消除同一场景下不同光照图片对最终分类或神经网络的影响，通过对原数据集中每张图片进行随机的漂移、翻转、旋转、缩放，可以增强数据的不变性特征，以增加数据的数量，同时提高训练模型的泛化能力，是增加数据的数量，即模型能够识别不同角度、不同大小的图片；

且特征图是本领域的一个术语，表述模型隐层的输出，每一隐层的输出都可称为特征图，一个模型会有很多个隐层，即意味着有很多个特征图，在后续的模型评价中，一般只关注于最后的性能指标以及收敛特性，中间的隐层输出(即特征图)不作为评价指标。

步骤2、构建基于卷积神经网络的特征提取人脸图像的基础模型，得到特征图，该基于卷积神经网络的特征具有以下特点：

卷积神经网络由四个基础卷积块(Block)和一个最大池化层组成，每个基础卷积块有一个卷积层(Conv2D)和一个批归一化层(BN)组成；

池化层的卷积核为2×2，步长为2；

在本步骤中，通过卷积神经网络的特征提取过程，有效地从人脸图像中提取出高层次的特征信息，为后续的分类任务提供基础。

其中，构建位置注意力层的具体步骤为：

其中，H为特征高度，

W为特征宽度，

C为通道数；

其中，该点积注意力机制定义如下：

点注意力机制是一种在信息处理中选择性关注特定信息的机制。它通过将注意力集中在任务相关的信息上，忽略其他无关信息，以提高任务执行的效果；

该点注意力机制的公式如下：

s(Q*K,V)＝(Q*K)^TV

其中，Q为查询向量，K为键向量，V为值向量；

3.1.2、将A、Q、K、V的维度变换(reshape)为使用点积运算作为注意力打分函数，并使用软最大化函数，按行进行归一化，计算出注意力分布/>且具体计算公式如下：

s＝softmax(QK^T)

H＝sV＝softmax(QK^T)V

3.1.4、将输出序列H乘以一个可学习的比例参数α,并使它与特征图A进行逐元素求和运算，输出后变换维度为且具体计算公式如下：

M_PA＝αH+A

其中，α被初始化为0，并逐渐学习分配更多的权重，

M_PA为原本的通道注意力机制；

其中，构建通道注意力层的具体步骤为：

3.2.1、直接使用A与其转置(transpose)矩阵A^T和软最大化函数计算出通道注意力分布图且具体计算公式如下：

x＝softmax(A^TA)

E_CA＝β(Ax)+A

其中，β是一个从0开始学习的参数，

E_CA是加权的所有通道的特征与原始特征的总和，

E_CA建立了特征图各通道之间长距离的依赖关系，提高了特征的可分辨性，充分利用的各通道之间的语义相关性；

E_PA＝αsoftmax(Q)(softmax(K^T)·V)+A

其中，矩阵乘法结合律，是指在矩阵乘法运算中，满足结合律的性质，具体来说，对于三个矩阵A、B和C，满足以下关系：

(A*B)*C＝A*(B*C)

无论是先将A与B相乘，再与C相乘，还是先将B与C相乘，再与A相乘，得到的结果是相同的；

3.3.2、将E_CA和E_PA进行维度变换由N×C重新变为H×W×C，并进行特征融合，公式为：

F_A＝F_CA+F_PA

其中，F_A是两种注意力机制融合后的结果；

在本实施例中，E_PA选择性的聚合了本位置和其他位置的特征，实现了各位置互利作用，提高了语义一致性，E_CA建立了特征图各通道之间长距离的依赖关系，提高了特征的可分辨性，充分利用的各通道之间的语义相关性。

步骤4、将进阶特征图接入全连接网络进行分类识别，完成对真人脸与假人脸的识别能力，使进阶特征图转化为二维向量，自此，人脸活体检测模型构建完毕，具体步骤为：

将前层网络层提取到的进阶特征图，经非线性变化后，再提取特征之间的关联特征，最后映射到目标特征空间上，使进阶特征图转化为二维向量，自此，人脸活体检测模型构建完毕；

其中，全连接层在整个卷积神经网络中起到“分类器”的作用，

前层网络层是指经过卷积后又经过注意力网络，

特征图映射到目标特征空间上后将转化为二维向量。

步骤5、基于全连接层输出的二维向量结果，利用二元交叉熵损失得到分类结果，并进行反向传播，完成该人脸活体检测模型的网络参数更新；

其中，二元交叉熵损失计算公式如下：

其中，N为批次大小，

y_i为该数据对应的标签，

P(y_i)为网络对该数据的预测结果，且由于最后一层的激活函数是软最大化函数，P(y_i)是一个概率值；

在本实施例中，参数的更新体现在该基于线性注意力机制的人脸活体检测模型的收敛，如附图2-3，即收敛曲线趋于平滑。

步骤6、使用训练得到的模型参数在未知测试集上进行验证，并用召回率、准确率对该人脸活体检测模型性能进行综合评测；

其中，召回率的计算公式如下：

其中，TP是预测为正，实际为正的样本数量，

TN是预测为负，实际为正的样本数量；

在本实施例中，在基于线性注意力机制的人脸活体检测模型训练结束后，对该模型性能进行评价，用以验证模型是否有效。

综上，本发明在步骤1说明了基于线性注意力机制的人脸活体检测模型的输入，下简称该模型，其中步骤2的卷积网络为该模型的第一级，主要完成图像特征提取；步骤3的注意力机制算法为模型的第二级，完成对步骤2中特征的增强，相当于筛选与任务密切相关的特征信息；步骤4中的全连接网络为分类器，对步骤3中的特征进行分类识别，给出是真人还是假人的判定；并通过步骤5提出了该模型的训练方法，即对步骤1-4中描述的模型进行训练学习，使得网络模型能够进行参数更新，达到收敛的效果；而步骤6则是对步骤5中训练好的模型进行评价，以确认本发明中所描述模型的有效性。

验证试验

为验证本发明所提方法的有效性，经本申请提取出CASIA-SURF数据库中的RGB图，对其进行图片预处理，生成增强数据集，再随机将数据集的75％划分为训练集、25％划分为测试集；

其中训练集有22046张真实人脸、50393张欺诈人脸，总计72439张人脸图片，而测试集有7348张真实人脸、16797张欺诈人脸，总计24145张人脸图片，根据实验结果，制得表1；

表1

方法	假人脸召回率	真人脸召回率	准确率
				常规模型	99.7458％	99.8860％	99.8426％
本发明	99.8528％	99.8560％	99.8550％

为避免实验偶然性，另外自制了一个包含14500张假脸和9340张真脸的视频回放攻击类活体检测数据集，同样做上述处理，让本申请线性注意力机制模型和常规注意力机制模型进行评估，根据实验结果，制得表2；

表2

方法	假人脸召回率	真人脸召回率	准确率
				常规模型	99.9153％	99.8025％	99.9315％
本发明	99.9717％	99.9564％	99.9828％

由图4可以看出，在CASIA-SURF数据集中，大约训练75个批次后，这三种网络都达到收敛，在训练我们自制的数据集时，经过大约125个批次的训练后，也都达到收敛。在这两个数据集中，两种网络的准确率曲线基本重合，在我们优化了计算复杂度后，网络的性能与原来相近。上表1，表2分别是这三种网络分别在CASIA-SURF数据集和我们自制数据集中训练所达到的最佳效果对比。在CASIA-SURF数据集中，本文的线性注意力网络准确率大约为99.86％，使用常规注意力机制的准确率大约为99.84％；在自制数据集中，本文模型取得约99.98％的准确率，使用常规注意力机制取得约99.93％的准确率。可以见得，我们对常规注意力机制的修改不会对模型性能产生太大影响；

对比结果如表1、2所示，三种注意网络性能大致相同。如图3(a)、(b)所示，在相同性能下，本文线性注意网络可以大大提升训练速度。若测试集图片像素越大，则运用线性注意网络所带来的效率提升就越明显。结果表明，本文对注意网络的应用修改是可行且成功的，体现出了一定的创新性。

综上所述，本发明在经典的点乘注意力机制的基础上，对软最大化函数进行线性优化，即将M_PA软最大化函数摘除，对原始的两个因子分别进行各自维度的归一化操作，此外基于矩阵乘法结合律，改变矩阵因子乘法顺序，使得原始复杂度为O(N²)降为O(N)，使得该线性注意力机制的人脸活体检测模型的构建在保证识别性能的前提下，可以有效的减少计算复杂度；

而在公开的人脸活体检测数据集CASIA-SURF和自制数据集上的实验表明，在训练相同的步数下，训练时间可以缩短约1/8，并且随着输入图片的大小的增加，训练时间缩短的比例还将进一步增大，表现出比常规注意力机制更高的准确率，并且准确率分别高达99.8550％、99.9828％，对真人脸和假人脸的召回率进行了有效的平衡。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.基于线性注意力机制的人脸活体检测模型的构建方法，其特征在于：包括以下步骤：

其中，在步骤3中：

通过构建通道注意力层和位置注意力层，构成完整的特征提取网络，将特征图通过特征提取网络进行特征融合，得到进阶特征图；

其中，构建位置注意力层的具体步骤为：

3.1.1、根据点积注意力机制，记卷积神经网络得到的特征图为A，且将A分别通过三个卷积层，得到查询向量Q，且/>键向量K，且/>值向量V，且

其中，H为特征高度，

W为特征宽度，

C为通道数；

其中，该点注意力机制的公式如下：

s(Q*K,V)＝(Q*K)^TV

其中，Q为查询向量，K为键向量，V为值向量；

s＝softmax(QK^T)

H＝sV＝softmax(QK^T)V

M_PA＝αH+A

其中，α被初始化为0，并逐渐学习分配更多的权重，

M_PA为原本的通道注意力机制，

其中，构建通道注意力层的具体步骤为：

x＝softmax(A^TA)

E_CA＝β(Ax)+A

其中，β是一个从0开始学习的参数，

E_CA是加权的所有通道的特征与原始特征的总和，

3.3.1、将M_PA软最大化函数摘除，并将Q的行和K的列做软最大化操作，根据矩阵乘法结合律的特点，计算后两项，得到一个C×C的矩阵，再左乘V得到最终结果，具体公式为；

E_PA＝αsoftmax(Q)·(softmax(K^T)·V)+A

F_A＝F_CA+F_PA；

其中，F_A是两种注意力机制融合后的结果。

2.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法，其特征在于：在步骤1中，从数据集中提取包含人脸的人脸图像，进行数据预处理，具体步骤为：

N为训练集图片总数；

μ_R为计算所有人脸图像的R通道的平均值；

μ_G为计算所有人脸图像的G通道的平均值；

μ_B为计算所有人脸图像的B通道的平均值；

i为图片序数；

1.2、将每个像素值减去平均值，具体公式如下：

3.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法，其特征在于：在步骤2中，构建基于卷积神经网络的特征提取人脸图像的基础模型，得到特征图，该基于卷积神经网络的特征具有以下特点：

池化层的卷积核为2×2，步长为2。

4.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法，其特征在于：在步骤4中，将进阶特征图接入全连接网络进行分类识别，完成对真人脸与假人脸的识别能力，使进阶特征图转化为二维向量，自此，人脸活体检测模型构建完毕，具体过程为：

5.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法，其特征在于：在步骤5中，基于全连接层输出的二维向量结果，利用二元交叉熵损失得到分类结果，并进行反向传播，完成该人脸活体检测模型的网络参数更新；

其中，二元交叉熵损失计算公式如下：

其中，N为批次大小，

y_i为该数据对应的标签，

P(y_i)为网络对该数据的预测结果，是一个概率值。

6.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法，其特征在于：在步骤6中，使用训练得到的模型参数在未知测试集上进行验证，并用召回率、准确率对该人脸活体检测模型性能进行综合评测；

其中，召回率的计算公式如下：

其中，TP是预测为正，实际为正的样本数量，TN是预测为负，实际为正的样本数量。