CN117011918B - 基于线性注意力机制的人脸活体检测模型的构建方法 - Google Patents
基于线性注意力机制的人脸活体检测模型的构建方法 Download PDFInfo
- Publication number
- CN117011918B CN117011918B CN202310992389.1A CN202310992389A CN117011918B CN 117011918 B CN117011918 B CN 117011918B CN 202310992389 A CN202310992389 A CN 202310992389A CN 117011918 B CN117011918 B CN 117011918B
- Authority
- CN
- China
- Prior art keywords
- living body
- body detection
- attention
- constructing
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000010276 construction Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 230000000750 progressive effect Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
- G06F7/523—Multiplying only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
- G06V40/45—Detection of the body part being alive
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于线性注意力机制的人脸活体检测模型的构建方法,包括从数据集中提取包含人脸的人脸图像,进行数据预处理;构建基于卷积神经网络的特征提取人脸图像的基础模型,得到特征图;通过构建通道注意力层和位置注意力层,构成完整的特征提取网络,将特征图通过特征提取网络进行特征融合,得到进阶特征图。本发明在经典的点乘注意力机制的基础上,对软最大化函数进行线性优化,并基于矩阵乘法结合律,改变矩阵因子乘法顺序,使得原始复杂度为O(N2)降为O(N),使得该线性注意力机制的人脸活体检测模型的构建在保证识别性能的前提下,可以有效的减少计算复杂度。
Description
技术领域
本发明涉及活体检测技术领域,具体涉及基于线性注意力机制的人脸活体检测模型的构建方法。
背景技术
随着人工智能和人脸识别技术的进步,人脸活体检测在人脸识别***中的重要性日益凸显,然而,现有的人脸活体检测方法存在一些问题,如用户体验不佳、复杂度高、依赖性强等,需要追求一种新的人脸活体检测方法,以解决这些问题;目前,主流的人脸活体检测方法可分为需要利用辅助信息的方法和不需要利用辅助信息的方法;前者需要用户做出特定动作反馈,虽然结果可靠,但用户体验差且效率低;而后者则更符合未来的发展趋势,只利用可见光下的人脸图像进行检测;
然而,现有的深度学习方法在参数量庞大时,其检测速度慢,精度低,为了解决这些问题,通常都是引入双重注意力机制网络的方案构建模型,从而可以高效的处理复杂多样的场景,并通过自注意机制来捕捉特征图中的空间和通道依赖关系,进一步增强特征表示,但是引入双重注意力机制网络会存在计算复杂度高、计算精度低的问题,亟需改善;
因此,发明基于线性注意力机制的人脸活体检测模型的构建方法来解决上述问题很有必要。
发明内容
本发明的目的是提供基于线性注意力机制的人脸活体检测模型的构建方法,在经典的点乘注意力机制的基础上,对软最大化函数进行线性优化,此外基于矩阵乘法结合律,改变矩阵因子乘法顺序,使得原始复杂度为O(N2)降为O(N),使得该线性注意力机制的人脸活体检测模型的构建在保证识别性能的前提下,可以有效的减少计算复杂度。
为了实现上述目的,本发明提供如下技术方案:基于线性注意力机制的人脸活体检测模型的构建方法,包括以下步骤:
步骤1、从数据集中提取包含人脸的人脸图像,进行数据预处理;
步骤2、构建基于卷积神经网络的特征提取人脸图像的基础模型,得到特征图;
步骤3、通过构建通道注意力层和位置注意力层,构成完整的特征提取网络,将特征图通过特征提取网络进行特征融合,得到进阶特征图;
步骤4、将进阶特征图接入全连接网络进行分类识别,完成对真人脸与假人脸的识别能力,使进阶特征图转化为二维向量,自此,人脸活体检测模型构建完毕;
步骤5、基于全连接层输出的二维向量结果,利用二元交叉熵损失得到分类结果,并进行反向传播,完成该人脸活体检测模型的网络参数更新;步骤6、使用训练得到的模型参数在未知测试集上进行验证,并用召回率、准确率对该人脸活体检测模型性能进行综合评测。
前述的基于线性注意力机制的人脸活体检测模型的构建方法,在步骤1中,从数据集中提取包含人脸的人脸图像,进行数据预处理,具体步骤为:
1.1、创建一个人脸图像的4维通道,对人脸图像的红、绿、蓝三个通道的像素求取整体平均值,具体公式如下:
其中,R为Red,表示人脸图像的红;G为Green,表示人脸图像的绿;B为Blue,表示人脸图像的蓝;
N为训练集图片总数;
μR为计算所有人脸图像的R通道的平均值;
μG为计算所有人脸图像的G通道的平均值;
μB为计算所有人脸图像的B通道的平均值;
i为图片序数;
1.2、将每个像素值减去平均值,具体公式如下:
其中,σ为加入的比例因子,表示训练集上的标准偏差,具体的,σ=1;
1.3、对经过光照处理的每张图片进行随机的漂移、翻转、旋转、缩放,增加数据的数量。
前述的基于线性注意力机制的人脸活体检测模型的构建方法,构建基于卷积神经网络的特征提取人脸图像的基础模型,得到特征图,该基于卷积神经网络的特征具有以下特点:
卷积神经网络由四个基础卷积块和一个最大池化层组成,每个基础卷积块有一个卷积层和一个批归一化层组成;
卷积层的卷积核大小为3×3,个数为128,步长为1,激活函数为线性整流函数,填充方式为same;
池化层的卷积核为2×2,步长为2。
前述的基于线性注意力机制的人脸活体检测模型的构建方法,在步骤3中,通过构建通道注意力层和位置注意力层,构成完整的特征提取网络,将特征图通过特征提取网络进行特征融合,得到进阶特征图;
其中,构建位置注意力层的具体步骤为:
3.1.1、根据点积注意力机制,记卷积神经网络得到的特征图为A,且将A分别通过三个卷积层,得到查询向量Q,且/>键向量K,且/>值向量V,且/>
其中,H为特征高度,
W为特征宽度,
C为通道数;
其中,该点注意力机制的公式如下:
s(Q*K,V)=(Q*K)TV
其中,Q为查询向量,K为键向量,V为值向量;
3.1.2、将A、Q、K、V的维度变换为使用点积运算作为注意力打分函数,并使用软最大化函数,按行进行归一化,计算出注意力分布/>且具体计算公式如下:
s=softmax(QKT)
3.1.3、将注意力分布s与V进行点积运算得到输出向量且具体计算公式如下:
H=sV=softmax(QKT)V
3.1.4、将输出序列H乘以一个可学习的比例参数α,并使它与特征图A进行逐元素求和运算,输出后变换维度为且具体计算公式如下:
MPA=αH+A
其中,α被初始化为0,并逐渐学习分配更多的权重,
MPA为原本的通道注意力机制,
其中,构建通道注意力层的具体步骤为:
3.2.1、直接使用A与其转置矩阵AT和软最大化函数计算出通道注意力分布图且具体计算公式如下:
x=softmax(ATA)
3.2.2、将x映射到A上,乘以一个可学习参数β,再加上A得出结果,并将结果进行维度变换为且具体变换公式为:
ECA=β(Ax)+A
其中,β是一个从0开始学习的参数,
ECA是加权的所有通道的特征与原始特征的总和,
其中,构建通道注意力层和位置注意力层,构成完整的特征提取网络的具体步骤为:
3.3.1、将MPA软最大化函数摘除,并将Q的行和K的列做软最大化操作,根据矩阵乘法结合律的特点,计算后两项,得到一个C×C的矩阵,再左乘Q得到最终结果,具体公式为;
EPA=αsoftmax(Q)·(softmax(KT)·V)+A
3.3.2、将ECA和EPA进行维度变换由N×C重新变为H×W×C,并进行特征融合,具体公式为:
FA=FCA+FPA;
其中,FA是两种注意力机制融合后的结果。
前述的基于线性注意力机制的人脸活体检测模型的构建方法,在步骤4中,使用全连接层将进阶特征图映射到目标空间上,使进阶特征图转化为二维向量,具体过程为:
将前层网络层提取到的进阶特征图,经非线性变化后,再提取特征之间的关联特征,最后映射到目标特征空间上,使进阶特征图转化为二维向量,自此,人脸活体检测模型构建完毕。
前述的基于线性注意力机制的人脸活体检测模型的构建方法,在步骤5中,基于全连接层输出的二维向量结果,利用二元交叉熵损失得到分类结果,并进行反向传播,完成该人脸活体检测模型的网络参数更新;
其中,二元交叉熵损失计算公式如下:
其中,N为批次大小,
yi为该数据对应的标签,
P(yi)为网络对该数据的预测结果,是一个概率值。
前述的基于线性注意力机制的人脸活体检测模型的构建方法,在步骤6中,使用训练得到的模型参数在未知测试集上进行验证,并用召回率、准确率对该人脸活体检测模型性能进行综合评测;
其中,召回率的计算公式如下:
其中,TP是预测为正,实际为正的样本数量,
TN是预测为负,实际为正的样本数量。
与现有技术相比,本发明的有益效果是:
本发明通过在经典的点乘注意力机制的基础上,对软最大化函数进行线性优化,即将MPA软最大化函数摘除,对原始的两个因子分别进行各自维度的归一化操作,此外基于矩阵乘法结合律,改变矩阵因子乘法顺序,使得原始复杂度为O(N2)降为O(N),对计算复杂度进行了优化,降低了由于引入双重注意力机制网络而带来的复杂计算,从而构建出一种全新的基于线性注意力机制的人脸活体检测模型,该模型在处理数量庞大的人脸数据集时,人脸识别的精度高,并降低了计算资源的消耗,从而在保持高性能的同时,提高了人脸活体检测的效率,检测速度快、精度高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的整体网络结构示意图;
图3为本发明的准确率--时间图,
其中,(a)为CASIA-SURF数据集中准确率--时间图,
(b)为自制数据集中准确率--时间图;
图4为本发明的准确率--批次图,
其中,(a)为CASIA-SURF数据集中准确率--批次图,
(b)为自制数据集中准确率--批次图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
本发明提供了如图1-4所示的基于线性注意力机制的人脸活体检测模型的构建方法,包括以下步骤:
步骤1、从数据集中提取包含人脸的人脸图像,进行数据预处理,具体步骤为:
1.1、创建一个人脸图像的4维通道,对人脸图像的红、绿、蓝三个通道的像素求取整体平均值,具体公式如下:
其中,R为Red,表示人脸图像的红;G为Green,表示人脸图像的绿;B为Blue,表示人脸图像的蓝;
N为训练集图片总数;
μR为计算所有人脸图像的R通道的平均值;
μG为计算所有人脸图像的G通道的平均值;
μB为计算所有人脸图像的B通道的平均值;
i为图片序数;
1.2、将每个像素值减去平均值,具体公式如下:
其中,σ为加入的比例因子,表示训练集上的标准偏差,具体的,σ=1;
1.3、对原数据集中每张图片进行随机的漂移、翻转、旋转、缩放,以增加数据的数量。
在本步骤中,通过创建一个图像的4维通道,对图像,可以消除同一场景下不同光照图片对最终分类或神经网络的影响,通过对原数据集中每张图片进行随机的漂移、翻转、旋转、缩放,可以增强数据的不变性特征,以增加数据的数量,同时提高训练模型的泛化能力,是增加数据的数量,即模型能够识别不同角度、不同大小的图片;
且特征图是本领域的一个术语,表述模型隐层的输出,每一隐层的输出都可称为特征图,一个模型会有很多个隐层,即意味着有很多个特征图,在后续的模型评价中,一般只关注于最后的性能指标以及收敛特性,中间的隐层输出(即特征图)不作为评价指标。
步骤2、构建基于卷积神经网络的特征提取人脸图像的基础模型,得到特征图,该基于卷积神经网络的特征具有以下特点:
卷积神经网络由四个基础卷积块(Block)和一个最大池化层组成,每个基础卷积块有一个卷积层(Conv2D)和一个批归一化层(BN)组成;
卷积层的卷积核大小为3×3,个数为128,步长为1,激活函数为线性整流函数,填充方式为same;
池化层的卷积核为2×2,步长为2;
在本步骤中,通过卷积神经网络的特征提取过程,有效地从人脸图像中提取出高层次的特征信息,为后续的分类任务提供基础。
步骤3、通过构建通道注意力层和位置注意力层,构成完整的特征提取网络,将特征图通过特征提取网络进行特征融合,得到进阶特征图;
其中,构建位置注意力层的具体步骤为:
3.1.1、根据点积注意力机制,记卷积神经网络得到的特征图为A,且将A分别通过三个卷积层,得到查询向量Q,且/>键向量K,且/>值向量V,且/>
其中,H为特征高度,
W为特征宽度,
C为通道数;
其中,该点积注意力机制定义如下:
点注意力机制是一种在信息处理中选择性关注特定信息的机制。它通过将注意力集中在任务相关的信息上,忽略其他无关信息,以提高任务执行的效果;
该点注意力机制的公式如下:
s(Q*K,V)=(Q*K)TV
其中,Q为查询向量,K为键向量,V为值向量;
3.1.2、将A、Q、K、V的维度变换(reshape)为使用点积运算作为注意力打分函数,并使用软最大化函数,按行进行归一化,计算出注意力分布/>且具体计算公式如下:
s=softmax(QKT)
3.1.3、将注意力分布s与V进行点积运算得到输出向量且具体计算公式如下:
H=sV=softmax(QKT)V
3.1.4、将输出序列H乘以一个可学习的比例参数α,并使它与特征图A进行逐元素求和运算,输出后变换维度为且具体计算公式如下:
MPA=αH+A
其中,α被初始化为0,并逐渐学习分配更多的权重,
MPA为原本的通道注意力机制;
其中,构建通道注意力层的具体步骤为:
3.2.1、直接使用A与其转置(transpose)矩阵AT和软最大化函数计算出通道注意力分布图且具体计算公式如下:
x=softmax(ATA)
3.2.2、将x映射到A上,乘以一个可学习参数β,再加上A得出结果,并将结果进行维度变换为且具体变换公式为:
ECA=β(Ax)+A
其中,β是一个从0开始学习的参数,
ECA是加权的所有通道的特征与原始特征的总和,
ECA建立了特征图各通道之间长距离的依赖关系,提高了特征的可分辨性,充分利用的各通道之间的语义相关性;
其中,构建通道注意力层和位置注意力层,构成完整的特征提取网络的具体步骤为:
3.3.1、将MPA软最大化函数摘除,并将Q的行和K的列做软最大化操作,根据矩阵乘法结合律的特点,计算后两项,得到一个C×C的矩阵,再左乘Q得到最终结果,具体公式为;
EPA=αsoftmax(Q)(softmax(KT)·V)+A
其中,矩阵乘法结合律,是指在矩阵乘法运算中,满足结合律的性质,具体来说,对于三个矩阵A、B和C,满足以下关系:
(A*B)*C=A*(B*C)
无论是先将A与B相乘,再与C相乘,还是先将B与C相乘,再与A相乘,得到的结果是相同的;
3.3.2、将ECA和EPA进行维度变换由N×C重新变为H×W×C,并进行特征融合,公式为:
FA=FCA+FPA
其中,FA是两种注意力机制融合后的结果;
在本实施例中,EPA选择性的聚合了本位置和其他位置的特征,实现了各位置互利作用,提高了语义一致性,ECA建立了特征图各通道之间长距离的依赖关系,提高了特征的可分辨性,充分利用的各通道之间的语义相关性。
步骤4、将进阶特征图接入全连接网络进行分类识别,完成对真人脸与假人脸的识别能力,使进阶特征图转化为二维向量,自此,人脸活体检测模型构建完毕,具体步骤为:
将前层网络层提取到的进阶特征图,经非线性变化后,再提取特征之间的关联特征,最后映射到目标特征空间上,使进阶特征图转化为二维向量,自此,人脸活体检测模型构建完毕;
其中,全连接层在整个卷积神经网络中起到“分类器”的作用,
前层网络层是指经过卷积后又经过注意力网络,
特征图映射到目标特征空间上后将转化为二维向量。
步骤5、基于全连接层输出的二维向量结果,利用二元交叉熵损失得到分类结果,并进行反向传播,完成该人脸活体检测模型的网络参数更新;
其中,二元交叉熵损失计算公式如下:
其中,N为批次大小,
yi为该数据对应的标签,
P(yi)为网络对该数据的预测结果,且由于最后一层的激活函数是软最大化函数,P(yi)是一个概率值;
在本实施例中,参数的更新体现在该基于线性注意力机制的人脸活体检测模型的收敛,如附图2-3,即收敛曲线趋于平滑。
步骤6、使用训练得到的模型参数在未知测试集上进行验证,并用召回率、准确率对该人脸活体检测模型性能进行综合评测;
其中,召回率的计算公式如下:
其中,TP是预测为正,实际为正的样本数量,
TN是预测为负,实际为正的样本数量;
在本实施例中,在基于线性注意力机制的人脸活体检测模型训练结束后,对该模型性能进行评价,用以验证模型是否有效。
综上,本发明在步骤1说明了基于线性注意力机制的人脸活体检测模型的输入,下简称该模型,其中步骤2的卷积网络为该模型的第一级,主要完成图像特征提取;步骤3的注意力机制算法为模型的第二级,完成对步骤2中特征的增强,相当于筛选与任务密切相关的特征信息;步骤4中的全连接网络为分类器,对步骤3中的特征进行分类识别,给出是真人还是假人的判定;并通过步骤5提出了该模型的训练方法,即对步骤1-4中描述的模型进行训练学习,使得网络模型能够进行参数更新,达到收敛的效果;而步骤6则是对步骤5中训练好的模型进行评价,以确认本发明中所描述模型的有效性。
验证试验
为验证本发明所提方法的有效性,经本申请提取出CASIA-SURF数据库中的RGB图,对其进行图片预处理,生成增强数据集,再随机将数据集的75%划分为训练集、25%划分为测试集;
其中训练集有22046张真实人脸、50393张欺诈人脸,总计72439张人脸图片,而测试集有7348张真实人脸、16797张欺诈人脸,总计24145张人脸图片,根据实验结果,制得表1;
表1
方法 | 假人脸召回率 | 真人脸召回率 | 准确率 |
常规模型 | 99.7458% | 99.8860% | 99.8426% |
本发明 | 99.8528% | 99.8560% | 99.8550% |
为避免实验偶然性,另外自制了一个包含14500张假脸和9340张真脸的视频回放攻击类活体检测数据集,同样做上述处理,让本申请线性注意力机制模型和常规注意力机制模型进行评估,根据实验结果,制得表2;
表2
方法 | 假人脸召回率 | 真人脸召回率 | 准确率 |
常规模型 | 99.9153% | 99.8025% | 99.9315% |
本发明 | 99.9717% | 99.9564% | 99.9828% |
由图4可以看出,在CASIA-SURF数据集中,大约训练75个批次后,这三种网络都达到收敛,在训练我们自制的数据集时,经过大约125个批次的训练后,也都达到收敛。在这两个数据集中,两种网络的准确率曲线基本重合,在我们优化了计算复杂度后,网络的性能与原来相近。上表1,表2分别是这三种网络分别在CASIA-SURF数据集和我们自制数据集中训练所达到的最佳效果对比。在CASIA-SURF数据集中,本文的线性注意力网络准确率大约为99.86%,使用常规注意力机制的准确率大约为99.84%;在自制数据集中,本文模型取得约99.98%的准确率,使用常规注意力机制取得约99.93%的准确率。可以见得,我们对常规注意力机制的修改不会对模型性能产生太大影响;
对比结果如表1、2所示,三种注意网络性能大致相同。如图3(a)、(b)所示,在相同性能下,本文线性注意网络可以大大提升训练速度。若测试集图片像素越大,则运用线性注意网络所带来的效率提升就越明显。结果表明,本文对注意网络的应用修改是可行且成功的,体现出了一定的创新性。
综上所述,本发明在经典的点乘注意力机制的基础上,对软最大化函数进行线性优化,即将MPA软最大化函数摘除,对原始的两个因子分别进行各自维度的归一化操作,此外基于矩阵乘法结合律,改变矩阵因子乘法顺序,使得原始复杂度为O(N2)降为O(N),使得该线性注意力机制的人脸活体检测模型的构建在保证识别性能的前提下,可以有效的减少计算复杂度;
而在公开的人脸活体检测数据集CASIA-SURF和自制数据集上的实验表明,在训练相同的步数下,训练时间可以缩短约1/8,并且随着输入图片的大小的增加,训练时间缩短的比例还将进一步增大,表现出比常规注意力机制更高的准确率,并且准确率分别高达99.8550%、99.9828%,对真人脸和假人脸的召回率进行了有效的平衡。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。
Claims (6)
1.基于线性注意力机制的人脸活体检测模型的构建方法,其特征在于:包括以下步骤:
步骤1、从数据集中提取包含人脸的人脸图像,进行数据预处理;
步骤2、构建基于卷积神经网络的特征提取人脸图像的基础模型,得到特征图;
步骤3、通过构建通道注意力层和位置注意力层,构成完整的特征提取网络,将特征图通过特征提取网络进行特征融合,得到进阶特征图;
步骤4、将进阶特征图接入全连接网络进行分类识别,完成对真人脸与假人脸的识别能力,使进阶特征图转化为二维向量,自此,人脸活体检测模型构建完毕;
步骤5、基于全连接层输出的二维向量结果,利用二元交叉熵损失得到分类结果,并进行反向传播,完成该人脸活体检测模型的网络参数更新;
步骤6、使用训练得到的模型参数在未知测试集上进行验证,并用召回率、准确率对该人脸活体检测模型性能进行综合评测;
其中,在步骤3中:
通过构建通道注意力层和位置注意力层,构成完整的特征提取网络,将特征图通过特征提取网络进行特征融合,得到进阶特征图;
其中,构建位置注意力层的具体步骤为:
3.1.1、根据点积注意力机制,记卷积神经网络得到的特征图为A,且将A分别通过三个卷积层,得到查询向量Q,且/>键向量K,且/>值向量V,且
其中,H为特征高度,
W为特征宽度,
C为通道数;
其中,该点注意力机制的公式如下:
s(Q*K,V)=(Q*K)TV
其中,Q为查询向量,K为键向量,V为值向量;
3.1.2、将A、Q、K、V的维度变换为使用点积运算作为注意力打分函数,并使用软最大化函数,按行进行归一化,计算出注意力分布/>且具体计算公式如下:
s=softmax(QKT)
3.1.3、将注意力分布s与V进行点积运算得到输出向量且具体计算公式如下:
H=sV=softmax(QKT)V
3.1.4、将输出序列H乘以一个可学习的比例参数α,并使它与特征图A进行逐元素求和运算,输出后变换维度为且具体计算公式如下:
MPA=αH+A
其中,α被初始化为0,并逐渐学习分配更多的权重,
MPA为原本的通道注意力机制,
其中,构建通道注意力层的具体步骤为:
3.2.1、直接使用A与其转置矩阵AT和软最大化函数计算出通道注意力分布图且具体计算公式如下:
x=softmax(ATA)
3.2.2、将x映射到A上,乘以一个可学习参数β,再加上A得出结果,并将结果进行维度变换为且具体变换公式为:
ECA=β(Ax)+A
其中,β是一个从0开始学习的参数,
ECA是加权的所有通道的特征与原始特征的总和,
其中,构建通道注意力层和位置注意力层,构成完整的特征提取网络的具体步骤为:
3.3.1、将MPA软最大化函数摘除,并将Q的行和K的列做软最大化操作,根据矩阵乘法结合律的特点,计算后两项,得到一个C×C的矩阵,再左乘V得到最终结果,具体公式为;
EPA=αsoftmax(Q)·(softmax(KT)·V)+A
3.3.2、将ECA和EPA进行维度变换由N×C重新变为H×W×C,并进行特征融合,具体公式为:
FA=FCA+FPA;
其中,FA是两种注意力机制融合后的结果。
2.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法,其特征在于:在步骤1中,从数据集中提取包含人脸的人脸图像,进行数据预处理,具体步骤为:
1.1、创建一个人脸图像的4维通道,对人脸图像的红、绿、蓝三个通道的像素求取整体平均值,具体公式如下:
其中,R为Red,表示人脸图像的红;G为Green,表示人脸图像的绿;B为Blue,表示人脸图像的蓝;
N为训练集图片总数;
μR为计算所有人脸图像的R通道的平均值;
μG为计算所有人脸图像的G通道的平均值;
μB为计算所有人脸图像的B通道的平均值;
i为图片序数;
1.2、将每个像素值减去平均值,具体公式如下:
其中,σ为加入的比例因子,表示训练集上的标准偏差,具体的,σ=1;
1.3、对经过光照处理的每张图片进行随机的漂移、翻转、旋转、缩放,增加数据的数量。
3.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法,其特征在于:在步骤2中,构建基于卷积神经网络的特征提取人脸图像的基础模型,得到特征图,该基于卷积神经网络的特征具有以下特点:
卷积神经网络由四个基础卷积块和一个最大池化层组成,每个基础卷积块有一个卷积层和一个批归一化层组成;
卷积层的卷积核大小为3×3,个数为128,步长为1,激活函数为线性整流函数,填充方式为same;
池化层的卷积核为2×2,步长为2。
4.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法,其特征在于:在步骤4中,将进阶特征图接入全连接网络进行分类识别,完成对真人脸与假人脸的识别能力,使进阶特征图转化为二维向量,自此,人脸活体检测模型构建完毕,具体过程为:
将前层网络层提取到的进阶特征图,经非线性变化后,再提取特征之间的关联特征,最后映射到目标特征空间上,使进阶特征图转化为二维向量,自此,人脸活体检测模型构建完毕。
5.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法,其特征在于:在步骤5中,基于全连接层输出的二维向量结果,利用二元交叉熵损失得到分类结果,并进行反向传播,完成该人脸活体检测模型的网络参数更新;
其中,二元交叉熵损失计算公式如下:
其中,N为批次大小,
yi为该数据对应的标签,
P(yi)为网络对该数据的预测结果,是一个概率值。
6.根据权利要求1所述的基于线性注意力机制的人脸活体检测模型的构建方法,其特征在于:在步骤6中,使用训练得到的模型参数在未知测试集上进行验证,并用召回率、准确率对该人脸活体检测模型性能进行综合评测;
其中,召回率的计算公式如下:
其中,TP是预测为正,实际为正的样本数量,TN是预测为负,实际为正的样本数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310992389.1A CN117011918B (zh) | 2023-08-08 | 2023-08-08 | 基于线性注意力机制的人脸活体检测模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310992389.1A CN117011918B (zh) | 2023-08-08 | 2023-08-08 | 基于线性注意力机制的人脸活体检测模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117011918A CN117011918A (zh) | 2023-11-07 |
CN117011918B true CN117011918B (zh) | 2024-03-26 |
Family
ID=88575810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310992389.1A Active CN117011918B (zh) | 2023-08-08 | 2023-08-08 | 基于线性注意力机制的人脸活体检测模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011918B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961062A (zh) * | 2019-04-16 | 2019-07-02 | 北京迈格威科技有限公司 | 图像识别方法、装置、终端和可读存储介质 |
CN110084113A (zh) * | 2019-03-20 | 2019-08-02 | 阿里巴巴集团控股有限公司 | 活体检测方法、装置、***、服务器及可读存储介质 |
CN110991432A (zh) * | 2020-03-03 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 活体检测方法、装置、电子设备及*** |
CN111401436A (zh) * | 2020-03-13 | 2020-07-10 | 北京工商大学 | 一种融合网络和双通道注意力机制的街景图像分割方法 |
CN111460931A (zh) * | 2020-03-17 | 2020-07-28 | 华南理工大学 | 基于颜色通道差值图特征的人脸欺骗检测方法及*** |
CN111767954A (zh) * | 2020-06-30 | 2020-10-13 | 苏州科达科技股份有限公司 | 车辆细粒度识别模型生成方法、***、设备及存储介质 |
CN112580782A (zh) * | 2020-12-14 | 2021-03-30 | 华东理工大学 | 基于通道增强的双注意力生成对抗网络及图像生成方法 |
CN113435353A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于多模态的活体检测方法、装置、电子设备及存储介质 |
WO2021208687A1 (zh) * | 2020-11-03 | 2021-10-21 | 平安科技(深圳)有限公司 | 人脸检测模型训练方法、设备、介质及人脸检测方法 |
CN113658165A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 杯盘比确定方法、装置、设备及存储介质 |
CN113780209A (zh) * | 2021-09-16 | 2021-12-10 | 浙江工业大学 | 一种基于注意力机制的人脸属性编辑方法 |
CN113989906A (zh) * | 2021-11-26 | 2022-01-28 | 江苏科技大学 | 一种人脸识别方法 |
CN115082994A (zh) * | 2022-06-27 | 2022-09-20 | 平安银行股份有限公司 | 人脸活体检测方法、活体检测网络模型的训练方法及装置 |
CN116152523A (zh) * | 2022-12-06 | 2023-05-23 | 马上消费金融股份有限公司 | 图像检测方法、装置、电子设备及可读存储介质 |
-
2023
- 2023-08-08 CN CN202310992389.1A patent/CN117011918B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084113A (zh) * | 2019-03-20 | 2019-08-02 | 阿里巴巴集团控股有限公司 | 活体检测方法、装置、***、服务器及可读存储介质 |
CN109961062A (zh) * | 2019-04-16 | 2019-07-02 | 北京迈格威科技有限公司 | 图像识别方法、装置、终端和可读存储介质 |
CN110991432A (zh) * | 2020-03-03 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 活体检测方法、装置、电子设备及*** |
CN111401436A (zh) * | 2020-03-13 | 2020-07-10 | 北京工商大学 | 一种融合网络和双通道注意力机制的街景图像分割方法 |
CN111460931A (zh) * | 2020-03-17 | 2020-07-28 | 华南理工大学 | 基于颜色通道差值图特征的人脸欺骗检测方法及*** |
CN111767954A (zh) * | 2020-06-30 | 2020-10-13 | 苏州科达科技股份有限公司 | 车辆细粒度识别模型生成方法、***、设备及存储介质 |
WO2021208687A1 (zh) * | 2020-11-03 | 2021-10-21 | 平安科技(深圳)有限公司 | 人脸检测模型训练方法、设备、介质及人脸检测方法 |
CN112580782A (zh) * | 2020-12-14 | 2021-03-30 | 华东理工大学 | 基于通道增强的双注意力生成对抗网络及图像生成方法 |
CN113435353A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于多模态的活体检测方法、装置、电子设备及存储介质 |
CN113658165A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 杯盘比确定方法、装置、设备及存储介质 |
CN113780209A (zh) * | 2021-09-16 | 2021-12-10 | 浙江工业大学 | 一种基于注意力机制的人脸属性编辑方法 |
CN113989906A (zh) * | 2021-11-26 | 2022-01-28 | 江苏科技大学 | 一种人脸识别方法 |
CN115082994A (zh) * | 2022-06-27 | 2022-09-20 | 平安银行股份有限公司 | 人脸活体检测方法、活体检测网络模型的训练方法及装置 |
CN116152523A (zh) * | 2022-12-06 | 2023-05-23 | 马上消费金融股份有限公司 | 图像检测方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (7)
Title |
---|
Attention-Guided Network for Iris Presentation Attack Detectio;Cunjian Chen;《arXiv》;1-10 * |
Dual Attention Network for Scene Segmentation;Jun Fu 等;《CVPR 2019》;3146-3154 * |
Multiple-Attention Mechanism Network for Semantic Segmentation;Dongli Wang 等;《sensors》;20220613;1-16 * |
Visual Attention Methods in Deep Learning In-Depth Survey;Mohammed Hassanin 等;《arXiv》;20220421;1-20 * |
基于三维注意力机制的车辆重识别算法;方彦策 等;《计算机测量与控制》;20220725;第30卷(第7期);194-200 * |
基于多尺度双通道网络的人脸活体检测;任拓 等;《中北大学学报(自然科学版)》;第44卷(第3期);325-332 * |
基于深度学习的图像语义分割技术研究进展;梁新宇 等;《计算机工程与应用》;20191113;第56卷(第2期);18-28 * |
Also Published As
Publication number | Publication date |
---|---|
CN117011918A (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN110245665B (zh) | 基于注意力机制的图像语义分割方法 | |
CN111695467B (zh) | 基于超像素样本扩充的空谱全卷积高光谱图像分类方法 | |
CN115035418A (zh) | 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及*** | |
CN114066871B (zh) | 一种新冠肺炎病灶区域分割模型训练的方法 | |
CN114694039A (zh) | 一种遥感高光谱与激光雷达图像融合分类方法及装置 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质 | |
CN112329771A (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN116740121A (zh) | 一种基于专用神经网络和图像预处理的秸秆图像分割方法 | |
CN116704188A (zh) | 一种基于改进U-Net网络的不同容重小麦籽粒图像分割算法 | |
CN116452862A (zh) | 基于领域泛化学习的图像分类方法 | |
CN115171074A (zh) | 一种基于多尺度yolo算法的车辆目标识别方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及*** | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及*** | |
CN114049503A (zh) | 一种基于非端到端深度学习网络的显著性区域检测方法 | |
CN117611925A (zh) | 基于图神经网络与卷积网络的多源遥感图像分类方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN113505856A (zh) | 一种高光谱影像无监督自适应分类方法 | |
CN117011918B (zh) | 基于线性注意力机制的人脸活体检测模型的构建方法 | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
Zhao et al. | MSRF-Net: multiscale receptive field network for building detection from remote sensing images | |
CN110992320A (zh) | 一种基于双重交错的医学图像分割网络 | |
CN115100509B (zh) | 基于多分支块级注意力增强网络的图像识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |