CN109543606B - 一种加入注意力机制的人脸识别方法 - Google Patents

一种加入注意力机制的人脸识别方法 Download PDF

Info

Publication number
CN109543606B
CN109543606B CN201811396296.8A CN201811396296A CN109543606B CN 109543606 B CN109543606 B CN 109543606B CN 201811396296 A CN201811396296 A CN 201811396296A CN 109543606 B CN109543606 B CN 109543606B
Authority
CN
China
Prior art keywords
network
image
attention mechanism
face
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811396296.8A
Other languages
English (en)
Other versions
CN109543606A (zh
Inventor
郑伟诗
叶海佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811396296.8A priority Critical patent/CN109543606B/zh
Publication of CN109543606A publication Critical patent/CN109543606A/zh
Application granted granted Critical
Publication of CN109543606B publication Critical patent/CN109543606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种加入注意力机制的人脸识别方法,先用级联的神经网络对数据集进行人脸检测和人脸对齐处理,再构建加入注意力机制的深度神经网络,训练注意力机制网络,最后将测试样本输入训练好注意力机制网络进行人脸识别。本发明采用STN模块构建注意力机制,在深度神经网络的每一个阶段后都输入到不同的STN模块,把STN模块的串联输出结果和深度神经网络的输出结果融合起来,作为输出特征。为了让网络能够自适应地学习到具有判别力的感兴趣区域特征,本发明采用通过STN模块对输入进行仿射变换操作的方法,加强了网络对局部信息的理解与学习,在现有的人脸识别网络上,提高了人脸识别的准确率,增强了识别***的鲁棒性。

Description

一种加入注意力机制的人脸识别方法
技术领域
本发明涉及机器深度学习、图像处理识别领域,尤其涉及一种加入注意力机制的人脸识别方法。
背景技术
人脸识别是近年来计算机视觉领域和机器学习领域中最富挑战性的课题之一,受到了研究者们的广泛关注.成功有效的人脸识别具有广阔的应用前景,可在国防安全、视频监控、人机交互和视频索引等场景发挥巨大作用。
目前,大部分基于CNN的特征提取网络使用分类损失(Softmax Loss)作为网络训练的监督信号,这些网络以分类为学习目标,在训练过程中不同类别之间的距离会逐渐增大。Deepface使用分类网络方法,同时使用复杂的3D对齐方式和大量的训练数据。DeepID则是首先对人脸图片进行分块,然后使用多个分类网络对不同人脸块进行特征提取,最后使用联合贝叶斯算法对这些特征进行融合,由于该技术是对不同人脸块进行特征提取,所以数据集比原图增加了好几倍,训练时间大大增加,计算资源消耗大。另外这些人脸块都是严格固定好划分方式的,对于侧脸或者非规则的人脸图片,则该准确率会大打折扣,算法不够鲁棒。
发明内容
为了克服现有技术存在的缺陷,本发明提供一种加入注意力机制的人脸识别方法,通过注意力模块,神经网络能够自动学习到具有判别性的人脸块特征,而不是固定划分人脸块,用这样的方法提取到的特征更有利于提升分类准确率,鲁棒性更强。同时由于注意力模块结构简洁,所以计算资源消耗少,网络收敛速度快。
为了达到上述目的,本发明采用以下技术方案:
本发明公开一种加入注意力机制的人脸识别方法,包括下述步骤:
S1:使用级联的卷积神经网络进行图像预处理,得到对齐的人脸图像;
S2:对预处理后的图像进行数据增广,所述数据增广包括随机裁剪和随机翻转操作,经过步骤S1处理后的图像随机裁剪出设定的尺寸区域,以设定的概率对图像进行翻转,最后对图像做白化处理,对于测试样本则直接归一化成设定尺寸的图像,然后进行白化处理,所述设定尺寸与随机裁剪的设定尺寸相同;
S3:设置注意力机制模块,用于网络自动学习到具有判别性的人脸块特征,利用注意力机制模块将输入的图像进行卷积操作,然后进行全连接回归输出M个角度值,M为自然数,基于M个角度值构建矩阵,通过矩阵运算提取图像的局部特征;
S4:搭建注意力机制网络,采用深度神经网络提取图像特征,并加入注意力机制模块,所述注意力机制网络包括主路和支路,所述主路为图片通过深度神经网络后得到的输出,所述支路为深度神经网络的每个阶段的输出经过不同的注意力机制模块,再依次进行elementwise-add后得到的输出,最后把主路和支路的输出进行特征拼接,得到最终的图像特征图,用于计算损失函数和作为人脸识别的特征;
S5:训练注意力机制网络,采用人脸识别损失函数对注意力机制网络进行训练并且保存;
S6:提取图像特征,将测试样本输入到训练好的注意力机制网络中,得到优质的图像特征;
S7:人脸识别,把提取得到的图像特征用softmax回归方法进行分类,完成测试样本的识别。
作为优选的技术方案,步骤S1中所述级联的卷积神经网络采用MTCNN,包括P-Net、R-Net和O-Net,给定任意一张待测图像,缩放到不同比例,构建图像金字塔,然后依次输入P-Net、R-Net和O-Net,提取人脸候选框,还包括拟合人脸与非人脸分类、边框回归和人脸特征点坐标回归的目标训练,具体损失函数如下所述:
MTCNN进行人脸与非人脸分类使用交叉熵作为损失函数,记为Ldet,计算公式如下:
Figure BDA0001875271440000031
其中,p(i)为模型预测的概率,
Figure BDA0001875271440000032
为测试样本x(i)的标签,
Figure BDA0001875271440000033
MTCNN进行边框回归使用L2Loss作为损失函数,记为Lbox,计算公式如下:
Figure BDA0001875271440000034
其中,
Figure BDA0001875271440000035
是模型预测的回归值,
Figure BDA0001875271440000036
是测试样本x(i)真实的坐标值,且
Figure BDA0001875271440000037
MTCNN进行人脸特征点坐标回归同样使用L2Loss作为损失函数,记为Llandmark,计算公式如下:
Figure BDA0001875271440000038
其中,
Figure BDA0001875271440000039
是模型预测的回归值,
Figure BDA00018752714400000310
是测试样本x(i)真实人脸特征点的坐标值,且
Figure BDA00018752714400000311
作为优选的技术方案,所述MTCNN引入总目标函数,用于排除非人脸数据参与到损失函数的计算,所述总目标函数计算公式如下:
Figure BDA00018752714400000312
其中,N表示训练样本总数,αj表示对应目标函数在总的目标函数中的重要程度,对于P-Net或R-Net的相关权重为(αdet=1,αbox=0.5,αlandmark=0.5);对于ONet的相关权重为(αdet=1,αbox=0.5,αlandmark=1)。
作为优选的技术方案,步骤S3所述注意力机制模块采用STN模块,所述STN模块包括本地化网络模块,网格生成器和采样器,
所述本地化网络模块将输入的图片进行卷积操作,然后进行全连接回归出6个角度值,形成2*3的矩阵,
所述网格生成器通过矩阵运算计算出目标图V中的每个位置对应原图U中的坐标位置,生成Tθ(Gi),具体计算公式如下所述:
Figure BDA0001875271440000041
其中,
Figure BDA0001875271440000042
代表原始图的坐标,
Figure BDA0001875271440000043
代表目标图的坐标,Aθ为本地化网络模块网络回归出的6个角度值,
所述采样器根据T(G)中的坐标信息,在原始图U中进行采样,将U中的像素复制到目标图V中。
作为优选的技术方案,步骤S4中,所述深度神经网络的基础网络采用resnet50,resnet50包括5个stage,具体如下所述:
Stage0:包括卷积层和池化层,所述卷积层的卷积核大小为7x7,输出通道数为64,步长为2,所述池化层采用maxpooling的池化方式,窗口大小为3x3,步长为2;
Stage1:由3个输出通道数为256的块组成;
Stage2:由4个输出通道数为512的块组成;
Stage3:由5个输出通道数为1024的块组成;
Stage4:由6个输出通道数为2048的块组成;
所述支路网络将基础网络resnet50的stage0,1,2,3,4得到的图像特征图分别输入到各个STN模块中,得到特征L0、L1、L2、L3、L4,所述L1-L4均做一次卷积操作,卷积核大小为1x1,步长为1,输出通道数为上一个特征的通道数,用elementwise-add的方式把这些特征依次相加,具体计算方式为:
L0+f(L1)+f(L2)+f(L3)+f(L4)
其中”+”为elsemenwise-add操作,f(·)为卷积操作。
作为优选的技术方案,所述块的结构形成步骤具体如下所述:
采用一个1x1卷积进行降维,然后进行3x3卷积操作,再用1x1卷积升维,输出与输入进行elementwise-add操作后得到的结果,
最后加入一个128维的全连接层进行降维。
作为优选的技术方案,步骤S5中所述人脸识别损失函数采用Softmax函数,基于Softmax函数的分类模型的第K路输出为:
Figure BDA0001875271440000051
其中
Figure BDA0001875271440000052
bk为Softmax层的两个参数,表示有K组权重和偏置。
作为优选的技术方案,所述Softmax层采用未激活的全连接层。
作为优选的技术方案,所述Softmax层输出变换后第K类的后验概率为:
Figure BDA0001875271440000053
为了每个测试样本所属类别的概率最大,定义Softmax Loss为:
Figure BDA0001875271440000061
其中θ表示模型参数,x(i)表示测试样本y(i)所属类别。
作为优选的技术方案,所述基于Softmax函数的分类模型还包括优化器,优化器采用Adam。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于提取更有判别性的人脸局部特征为出发点,在基础神经网络的框架下设计了注意力机制模块,并且以独特的连接方式和深度神经网络结合,形成了独特的加入注意力机制的人脸识别方法,能够提取到丰富类别相关信息的人脸特征。
(2)本发明对预处理后的图像进行数据增广,包括随机裁剪和随机翻转操作,用于增加训练的样本数据,训练集的数据扩增能够加强网络的鲁棒性。
(3)本发明的注意力机制模块采用STN模块,STN模块包括本地化网络模块,网格生成器和采样器,该STN模块结构简洁,计算资源消耗少,网络收敛速度快。
附图说明
图1为本发明人脸对齐网络的结构示意图;
图2为本发明STN模块的结构示意图;
图3为本发明基础深度卷积神经网络的结构示意图;
图4为本发明基础深度卷积神经网络中的块结构示意图;
图5为本发明注意力机制网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例公开一种基于加入注意力机制的人脸识别算法,所述算法包括以下步骤:
步骤一:使用级联的神经网络进行人脸检测人脸对齐的数据预处理,采用的级联的卷积神经网络是MTCNN,MTCNN级联结构主要由3个卷积神经网络组成,分别为P-Net、R-Net和O-Net。给定一张待检测图片,图片会首先被缩放到不同的比例,以构建图片的尺度空间,然后依次输入三个网络,以提取人脸候选框。如图1所示,该算法有三个阶段组成:第一阶段,浅层的CNN快速产生候选窗体;第二阶段,通过更复杂的CNN精炼候选窗体,丢弃大量的重叠窗体;第三阶段,使用更加强大的CNN,实现候选窗体去留,同时显示五个面部关键点定位。在进行模型训练的时候,为了融合人脸检测和人脸对齐任务,MTCNN同时拟合3个目标:人脸/非人脸分类、边框回归和人脸特征点坐标回归。三个损失函数分别是:
(1)人脸/非人脸分类
人脸/非人脸是一个二分类问题,所以MTCNN使用交叉熵作为损失函数,记为Ldet。对于每个测试样本x(i)
Figure BDA0001875271440000071
其中,p(i)为模型预测的概率,
Figure BDA0001875271440000081
为测试样本x(i)的标签,
Figure BDA0001875271440000082
(2)边框回归:边框回归的目的在于对于每个人脸候选框估计与附近真实人脸区域的偏移量,包括左边、上边、宽和高。所以边框回归是一个回归问题,以上述4个数值作为回归目标,所以MTCNN使用L2Loss作为损失函数,记为Lbox。对于每个测试样本x(i)
Figure BDA0001875271440000083
其中,是模型预测的回归值,
Figure BDA0001875271440000084
是测试样本x(i)真实的坐标值,因为待回归的目标有4个值,所以
Figure BDA0001875271440000085
(3)人脸特征点坐标回归
人脸特征点坐标回归同样是一个回归问题,由于MTCNN只检测5个人脸特征点,而每个特征点包含x、y坐标,所以一共有10个回归目标。这里同样使用L2Loss作为损失函数,记为Llandmark。对于每个测试样本x(i)
Figure BDA0001875271440000086
其中,
Figure BDA0001875271440000087
是模型预测的回归值,
Figure BDA0001875271440000088
是测试样本x(i)真实人脸特征点的坐标值,因为待回归的目标有10个值,所以
Figure BDA0001875271440000089
(4)总目标函数
让模型同时拟合不同的目标,需要使用不同类型的训练数据,例如非人脸图片、部分人脸图片、带特征点标注人脸数据等,但并不是所有数据对所有目标函数都有意义,例如非人脸数据对Llandmark并没有意义。因而在训练的时候,并不是每种样本都需要参与所有损失函数的计算,为了进行对不同的样本进行区分,MTCNN引入样本类型标签
Figure BDA00018752714400000810
表示样本x(i)是否属于类型j,于是总目标函数表示为
Figure BDA00018752714400000811
其中,N表示训练样本总数,αj表示对应目标函数在总的目标函数中的重要程度,对于P-Net和R-Net,相关权重为(αdet=1,αbox=0.5,αlandmark=0.5);而对于ONet,为了保证人脸特征点的准确度,提高了特征点坐标回归目标函数的权重,变为(αdet=1,αbox=0.5,αlandmark=1)
步骤二:数据增广
数据增广采用了随机裁剪和随机翻转操作,前者将经过步骤一处理后的图片中随机裁剪出160x160区域,后者以0.5的概率对图片进行翻转。最后对图片进行白化。测试样本则直接归一化成160x160大小的图片,然后同样进行白化。
步骤三:设计注意力机制模块
注意力机制模块采用的是STN模块:如图2所示,STN模块由本地化网络模块(Localisation Network),网格生成器(Grid generator),采样器(Sampler)3个部分组成。
Localisation Network:该网络就是一个简单的回归网络。将输入的图片进行几个卷积操作,然后全连接回归出6个角度值(假设是仿射变换),2*3的矩阵。
Grid generator:网格生成器负责将V中的坐标位置,通过矩阵运算,计算出目标图V中的每个位置对应原图U中的坐标位置,即生成Tθ(Gi)。
这里的Grid采样过程,对于二维仿射变换(旋转,平移,缩放)来说,就是简单的矩阵运算:
Figure BDA0001875271440000091
上式中,
Figure BDA0001875271440000101
代表原始图的坐标,
Figure BDA0001875271440000102
代表目标图的坐标。Aθ为Localisation Network网络回归出的6个角度值。
Sampler:采样器根据Tθ(Gi)中的坐标信息,在原始图U中进行采样,将U中的像素复制到目标图V中。
步骤三:搭建注意力机制网络
特征提取采用深度神经网络的方法,采用的基础网络是resnet50,然后再这个基础上加入注意力机制模块。而注意力机制模块采用的是STN模块:将输入特征进行几个卷积操作,然后全连接回归出6个角度值(假设是仿射变换),2*3的矩阵。然后输入乘以这个矩阵就能得到局部有意义的特征。
网络分为主路和支路,主路为图片通过resnet50得到的输出,支路为经过不同的STN模块后再依次进行elementwise-add得到的输出。
主路:resnet50,由5个阶段组成,其中每个阶段包括了若干个卷积和池化操作。
如图3所示,首先resnet50按输出特征图尺寸来分,可以分为5个stage,每个stage输出的特征图大小都不一样。
Stage0有一个卷积层和池化层,卷积核大小是7x7,输出通道数为64,步长为2。池化采用的是maxpooling,窗口大小为3x3,步长为2。
Stage1由3个输出通道数为256的块(block)组成。
Stage2由4个输出通道数为512的块(block)组成。
Stage3由5个输出通道数为1024的块(block)组成。
Stage4由6个输出通道数为2048的块(block)组成。
如图4所示,其中每一个block的结构都是先用一个1x1卷积进行降维,然后进行3x3卷积,最后再用1x1卷积升维,输出与输入做elementwise-add操作,得到结果。
最后接一个128维的全连接层进行信息整合。
支路:分别把stage0,1,2,3,4得到的特征图输入到各个STN模块中得到各自的特征:
stage0经过STN后的输出为L0;
Stage1经过STN后的输出为L1;
Stage2经过STN后的输出为L2;
Stage3经过STN后的输出为L3;
Stage4经过STN后的输出为L4;
如图5所示,除第一个特征外,其余的特征都做一次卷积操作,卷积核大小是1x1,步长为1,输出通道数为上一个特征的通道数,用elementwise-add的方式把这些特征依次融合起来,所以做卷积操作的意义就是用于改变特征维度,以便特征相加操作。具体相加方法如下:
L0+f(L1)+f(L2)+f(L3)+f(L4)
其中”+”为elsemenwise-add操作,f(·)为卷积操作。
这样就能得到主路输出和支路输出,最后把两路的输出进行特征拼接,得到最终的特征。这个特征将直接用于计算损失函数和作为人脸识别的特征。
步骤五:训练注意力机制神经网络
在本实施例中,构建Softmax分类模型时,我们将特征输出为x输入K路Softmax层(使用未激活的全连接层实现),以计算样本关于不同类别的后验概率
Figure BDA0001875271440000111
其中K代表类别数目。Softmax层包含两个参数,W和b,于是第k路输出
Figure BDA0001875271440000112
又可以表示成:
Figure BDA0001875271440000121
但由于全连接层的输出是任意数值,为了样本关于不同类别的归一化概率,我们需要对Softmax层输出变换,则得到的关于第k类的后验概率为:
Figure BDA0001875271440000122
在本实施例中,为了最大化每个样本关于所属类别的概率最大,我们可以定义Softmax Loss为:
Figure BDA0001875271440000123
θ表示模型参数,x(i)表示样本y(i)所属类别。
在本实施例中,优化器采用Adam,权值衰减为5e-5,batch size为128,平均池化层输出采用dropout操作,保持概率为0.8。学习率调整策略为:先以0.1作为学习率对训练集训练3轮,然后降低至0.01训练2轮,接着再降低至0.001训练2轮,共7轮。每训完一轮的分类模型都会在LFW上进行验证,最后把训练好的分类模型保存。
步骤六:学习图像的高层特征和抽象特征
提取图像特征,将测试样本输入到训练好的注意力机制网络中,得到优质的图像特征。
步骤七:人脸识别
把提取得到的图像特征用softmax回归方法进行分类,完成测试样本的识别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种加入注意力机制的人脸识别方法,其特征在于,包括下述步骤:
S1:使用级联的卷积神经网络进行图像预处理,得到对齐的人脸图像;
S2:对预处理后的图像进行数据增广,所述数据增广包括随机裁剪和随机翻转操作,经过步骤S1处理后的图像随机裁剪出设定的尺寸区域,以设定的概率对图像进行翻转,最后对图像做白化处理,对于测试样本则直接归一化成设定尺寸的图像,然后进行白化处理,所述设定尺寸与随机裁剪的设定尺寸相同;
S3:设置注意力机制模块,用于网络自动学习到具有判别性的人脸块特征,利用注意力机制模块将输入的图像进行卷积操作,然后进行全连接回归输出M个角度值,M为自然数,基于M个角度值构建矩阵,通过矩阵运算提取图像的局部特征;
步骤S3所述注意力机制模块采用STN模块,所述STN模块包括本地化网络模块,网格生成器和采样器,
所述本地化网络模块将输入的图片进行卷积操作,然后进行全连接回归出6个角度值,形成2*3的矩阵,
所述网格生成器通过矩阵运算计算出目标图V中的每个位置对应原图U中的坐标位置,生成Tθ(Gi),具体计算公式如下所述:
Figure FDA0003779728760000011
其中,
Figure FDA0003779728760000012
代表原始图的坐标,
Figure FDA0003779728760000013
代表目标图的坐标,Aθ为本地化网络模块网络回归出的6个角度值,
所述采样器根据T(G)中的坐标信息,在原始图U中进行采样,将U中的像素复制到目标图V中;
S4:搭建注意力机制网络,采用深度神经网络提取图像特征,并加入注意力机制模块,所述注意力机制网络包括主路和支路,所述主路为图片通过深度神经网络后得到的输出,所述支路为深度神经网络的每个阶段的输出经过不同的注意力机制模块,再依次进行elementwise-add后得到的输出,最后把主路和支路的输出进行特征拼接,得到最终的图像特征图,用于计算损失函数和作为人脸识别的特征;
步骤S4中,所述深度神经网络的基础网络采用resnet50,resnet50包括5个stage,具体如下所述:
Stage0:包括卷积层和池化层,所述卷积层的卷积核大小为7x7,输出通道数为64,步长为2,所述池化层采用maxpooling的池化方式,窗口大小为3x3,步长为2;
Stage1:由3个输出通道数为256的块组成;
Stage2:由4个输出通道数为512的块组成;
Stage3:由5个输出通道数为1024的块组成;
Stage4:由6个输出通道数为2048的块组成;
所述支路网络将基础网络resnet50的stage0,1,2,3,4得到的图像特征图分别输入到各个STN模块中,得到特征L0、L1、L2、L3、L4,所述L1-L4均做一次卷积操作,卷积核大小为1x1,步长为1,输出通道数为上一个特征的通道数,用elementwise-add的方式把这些特征依次相加,具体计算方式为:
L0+f(L1)+f(L2)+f(L3)+f(L4)
其中”+”为elsemenwise-add操作,f(·)为卷积操作;
S5:训练注意力机制网络,采用人脸识别损失函数对注意力机制网络进行训练并且保存;
S6:提取图像特征,将测试样本输入到训练好的注意力机制网络中,得到优质的图像特征;
S7:人脸识别,把提取得到的图像特征用softmax回归方法进行分类,完成测试样本的识别。
2.根据权利要求1所述的一种加入注意力机制的人脸识别方法,其特征在于,步骤S1中所述级联的卷积神经网络采用MTCNN,包括P-Net、R-Net和O-Net,给定任意一张待测图像,缩放到不同比例,构建图像金字塔,然后依次输入P-Net、R-Net和O-Net,提取人脸候选框,还包括拟合人脸与非人脸分类、边框回归和人脸特征点坐标回归的目标训练,具体损失函数如下所述:
MTCNN进行人脸与非人脸分类使用交叉熵作为损失函数,记为Ldet,计算公式如下:
Figure FDA0003779728760000031
其中,p(i)为模型预测的概率,
Figure FDA0003779728760000032
为测试样本x(i)的标签,
Figure FDA0003779728760000033
MTCNN进行边框回归使用L2 Loss作为损失函数,记为Lbox,计算公式如下:
Figure FDA0003779728760000034
其中,
Figure FDA0003779728760000035
是模型预测的回归值,
Figure FDA0003779728760000036
是测试样本x(i)真实的坐标值,且
Figure FDA0003779728760000037
MTCNN进行人脸特征点坐标回归同样使用L2 Loss作为损失函数,记为Llandmark,计算公式如下:
Figure FDA0003779728760000038
其中,
Figure FDA0003779728760000039
是模型预测的回归值,
Figure FDA00037797287600000310
是测试样本x(i)真实人脸特征点的坐标值,且
Figure FDA00037797287600000311
3.根据权利要求2所述的一种加入注意力机制的人脸识别方法,其特征在于,所述MTCNN引入总目标函数,用于排除非人脸数据参与到损失函数的计算,所述总目标函数计算公式如下:
Figure FDA0003779728760000041
其中,N表示训练样本总数,αj表示对应目标函数在总的目标函数中的重要程度,对于P-Net或R-Net的相关权重为(αdet=1,αbox=0.5,αlandmark=0.5);对于ONet的相关权重为(αdet=1,αbox=0.5,αlandmark=1)。
4.根据权利要求1所述的一种加入注意力机制的人脸识别方法,其特征在于,所述块的结构形成步骤具体如下所述:
采用一个1x1卷积进行降维,然后进行3x3卷积操作,再用1x1卷积升维,输出与输入进行elementwise-add操作后得到的结果,
最后加入一个128维的全连接层进行降维。
5.根据权利要求1所述的一种加入注意力机制的人脸识别方法,其特征在于,步骤S5中所述人脸识别损失函数采用Softmax函数,基于Softmax函数的分类模型的第K路输出为:
Figure FDA0003779728760000042
其中
Figure FDA0003779728760000043
bk为Softmax层的两个参数,表示有K组权重和偏置。
6.根据权利要求5所述的一种加入注意力机制的人脸识别方法,其特征在于,所述Softmax层采用未激活的全连接层。
7.根据权利要求6所述的一种加入注意力机制的人脸识别方法,其特征在于,所述Softmax层输出变换后第K类的后验概率为:
Figure FDA0003779728760000044
为了每个测试样本所属类别的概率最大,定义Softmax Loss为:
Figure FDA0003779728760000051
其中θ表示模型参数,x(i)表示测试样本y(i)所属类别。
8.根据权利要求5所述的一种加入注意力机制的人脸识别方法,其特征在于,所述基于Softmax函数的分类模型还包括优化器,优化器采用Adam。
CN201811396296.8A 2018-11-22 2018-11-22 一种加入注意力机制的人脸识别方法 Active CN109543606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811396296.8A CN109543606B (zh) 2018-11-22 2018-11-22 一种加入注意力机制的人脸识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811396296.8A CN109543606B (zh) 2018-11-22 2018-11-22 一种加入注意力机制的人脸识别方法

Publications (2)

Publication Number Publication Date
CN109543606A CN109543606A (zh) 2019-03-29
CN109543606B true CN109543606B (zh) 2022-09-27

Family

ID=65849048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811396296.8A Active CN109543606B (zh) 2018-11-22 2018-11-22 一种加入注意力机制的人脸识别方法

Country Status (1)

Country Link
CN (1) CN109543606B (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135243B (zh) * 2019-04-02 2021-03-19 上海交通大学 一种基于两级注意力机制的行人检测方法及***
CN110135251B (zh) * 2019-04-09 2023-08-08 上海电力学院 一种基于注意力机制和混合网络的群体图像情绪识别方法
CN111652020B (zh) * 2019-04-16 2023-07-11 上海铼锶信息技术有限公司 一种人脸绕z轴旋转角度的识别方法
CN110110642B (zh) * 2019-04-29 2020-12-22 华南理工大学 一种基于多通道注意力特征的行人重识别方法
CN110334588A (zh) * 2019-05-23 2019-10-15 北京邮电大学 基于局部特征注意网络的亲属关系识别方法及装置
CN110781760B (zh) * 2019-05-24 2022-11-29 西安电子科技大学 一种基于空间注意的面部表情识别方法和装置
CN110188730B (zh) * 2019-06-06 2022-12-23 山东大学 基于mtcnn的人脸检测与对齐方法
CN110287846B (zh) * 2019-06-19 2023-08-04 南京云智控产业技术研究院有限公司 一种基于注意力机制的人脸关键点检测方法
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别***及方法
CN110598022B (zh) * 2019-08-05 2021-11-19 华中科技大学 一种基于鲁棒深度哈希网络的图像检索***与方法
CN110458829B (zh) * 2019-08-13 2024-01-30 腾讯医疗健康(深圳)有限公司 基于人工智能的图像质控方法、装置、设备及存储介质
CN110569905B (zh) * 2019-09-10 2023-04-14 中电鸿信信息科技有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110378961A (zh) * 2019-09-11 2019-10-25 图谱未来(南京)人工智能研究院有限公司 模型的优化方法、关键点检测方法、装置及存储介质
CN110633689B (zh) * 2019-09-23 2023-08-04 天津天地伟业信息***集成有限公司 基于半监督注意力网络的人脸识别模型
CN110688938A (zh) * 2019-09-25 2020-01-14 江苏省未来网络创新研究院 一种集成注意力机制的行人重识别方法
CN111339813B (zh) * 2019-09-30 2022-09-27 深圳市商汤科技有限公司 人脸属性识别方法、装置、电子设备和存储介质
CN110796072B (zh) * 2019-10-28 2023-04-07 桂林电子科技大学 一种基于双任务学习的目标跟踪及身份识别方法
CN111104852B (zh) * 2019-11-06 2020-10-16 重庆邮电大学 一种基于启发式高斯云变换的人脸识别技术
CN110837840A (zh) * 2019-11-07 2020-02-25 中国石油大学(华东) 一种基于注意力机制的图片特征检测方法
CN111046781B (zh) * 2019-12-09 2022-05-27 华中科技大学 一种基于三元注意力机制的鲁棒三维目标检测方法
CN111178183B (zh) * 2019-12-16 2023-05-23 深圳市华尊科技股份有限公司 人脸检测方法及相关装置
CN111242038B (zh) * 2020-01-15 2024-06-07 北京工业大学 一种基于帧预测网络的动态舌颤检测方法
CN111325161B (zh) * 2020-02-25 2023-04-18 四川翼飞视科技有限公司 一种基于注意力机制的人脸检测神经网络的构建方法
CN111582044B (zh) * 2020-04-15 2023-06-20 华南理工大学 基于卷积神经网络和注意力模型的人脸识别方法
CN111563468B (zh) * 2020-05-13 2023-04-07 电子科技大学 一种基于神经网络注意力的驾驶员异常行为检测方法
CN111680732A (zh) * 2020-05-28 2020-09-18 浙江师范大学 一种基于深度学习注意力机制碗碟识别的训练方法
CN111738099B (zh) * 2020-05-30 2023-11-07 华南理工大学 基于视频图像场景理解的人脸自动检测方法
CN111950586B (zh) * 2020-07-01 2024-01-19 银江技术股份有限公司 一种引入双向注意力的目标检测方法
CN111783681A (zh) * 2020-07-02 2020-10-16 深圳市万睿智能科技有限公司 大规模人脸库识别方法、***、计算机设备及存储介质
CN111985323B (zh) * 2020-07-14 2021-10-22 珠海市卓轩科技有限公司 基于深度卷积神经网络的人脸识别方法及***
CN111860393A (zh) * 2020-07-28 2020-10-30 浙江工业大学 一种安防***上的人脸检测识别方法
CN111967427A (zh) * 2020-08-28 2020-11-20 广东工业大学 一种伪造人脸视频鉴别方法、***和可读存储介质
CN112163462A (zh) * 2020-09-08 2021-01-01 北京数美时代科技有限公司 基于人脸的未成年人识别方法、装置、计算机设备
CN112365717B (zh) * 2020-10-10 2022-04-22 新疆爱华盈通信息技术有限公司 车辆信息采集方法及***
CN112597888B (zh) * 2020-12-22 2024-03-08 西北工业大学 一种针对cpu运算优化的在线教育场景学生注意力识别方法
CN112464912B (zh) * 2020-12-22 2024-02-09 杭州电子科技大学 基于YOLO-RGGNet的机器人端人脸检测方法
CN112560756A (zh) * 2020-12-24 2021-03-26 北京嘀嘀无限科技发展有限公司 识别人脸的方法、装置、电子设备和存储介质
CN112699847B (zh) * 2021-01-15 2021-12-07 苏州大学 基于深度学习的人脸特征点检测方法
CN112766158B (zh) * 2021-01-20 2022-06-03 重庆邮电大学 基于多任务级联式人脸遮挡表情识别方法
CN112507995B (zh) * 2021-02-05 2021-06-01 成都东方天呈智能科技有限公司 一种跨模型人脸特征向量的转换***及方法
CN112766422B (zh) * 2021-03-15 2022-11-15 山东大学 一种基于轻量级人脸识别模型的隐私保护方法
CN113034457B (zh) * 2021-03-18 2023-04-07 广州市索图智能电子有限公司 基于fpga的人脸检测装置
CN113239866B (zh) * 2021-05-31 2022-12-13 西安电子科技大学 一种时空特征融合与样本注意增强的人脸识别方法及***
CN113408549B (zh) * 2021-07-14 2023-01-24 西安电子科技大学 基于模板匹配和注意力机制的少样本弱小目标检测方法
CN113822203A (zh) * 2021-09-26 2021-12-21 中国民用航空飞行学院 基于强化学习和深度卷积神经网络的人脸识别装置及方法
CN113971745B (zh) * 2021-09-27 2024-04-16 哈尔滨工业大学 一种基于深度神经网络的出入境验讫章识别方法及装置
CN114943251B (zh) * 2022-05-20 2023-05-02 电子科技大学 一种基于融合注意力机制的无人机目标识别方法
CN115993365B (zh) * 2023-03-23 2023-06-13 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009493A (zh) * 2017-11-30 2018-05-08 电子科技大学 基于动作增强的人脸防欺骗识别方法
CN108416314A (zh) * 2018-03-16 2018-08-17 中山大学 图片重要人脸检测方法
CN108537135A (zh) * 2018-03-16 2018-09-14 北京市商汤科技开发有限公司 对象识别及对象识别网络的训练方法和装置、电子设备
CN108564029A (zh) * 2018-04-12 2018-09-21 厦门大学 基于级联多任务学习深度神经网络的人脸属性识别方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156781B (zh) * 2016-07-12 2019-09-10 北京航空航天大学 排序卷积神经网络构建方法及其图像处理方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009493A (zh) * 2017-11-30 2018-05-08 电子科技大学 基于动作增强的人脸防欺骗识别方法
CN108416314A (zh) * 2018-03-16 2018-08-17 中山大学 图片重要人脸检测方法
CN108537135A (zh) * 2018-03-16 2018-09-14 北京市商汤科技开发有限公司 对象识别及对象识别网络的训练方法和装置、电子设备
CN108564029A (zh) * 2018-04-12 2018-09-21 厦门大学 基于级联多任务学习深度神经网络的人脸属性识别方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
非对称行人重识别: 跨摄像机持续行人追踪;郑伟诗等;《中国科学》;20180514;全文 *

Also Published As

Publication number Publication date
CN109543606A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109543606B (zh) 一种加入注意力机制的人脸识别方法
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN104573731B (zh) 基于卷积神经网络的快速目标检测方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN111414862B (zh) 基于神经网络融合关键点角度变化的表情识别方法
CN110543846B (zh) 一种基于生成对抗网络的多姿态人脸图像正面化方法
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN107844795A (zh) 基于主成分分析的卷积神经网络特征提取方法
Wang et al. Traffic sign detection using a cascade method with fast feature extraction and saliency test
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112766186B (zh) 一种基于多任务学习的实时人脸检测及头部姿态估计方法
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及***
CN108520203A (zh) 基于融合自适应多***框与十字池化特征的多目标特征提取方法
CN112905828B (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN113807237B (zh) 活体检测模型的训练、活体检测方法、计算机设备及介质
CN117252815A (zh) 基于2d-3d多模态图像的工业零件缺陷检测方法、***、设备及存储介质
CN111310720A (zh) 基于图度量学习的行人重识别方法及***
Zhu et al. A novel simple visual tracking algorithm based on hashing and deep learning
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN110136098B (zh) 一种基于深度学习的线缆顺序检测方法
Xie et al. Research on mtcnn face recognition system in low computing power scenarios
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant