CN114821736A - 基于对比学习的多模态人脸识别方法、装置、设备及介质 - Google Patents

基于对比学习的多模态人脸识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN114821736A
CN114821736A CN202210520354.3A CN202210520354A CN114821736A CN 114821736 A CN114821736 A CN 114821736A CN 202210520354 A CN202210520354 A CN 202210520354A CN 114821736 A CN114821736 A CN 114821736A
Authority
CN
China
Prior art keywords
face
feature
modal
image
face recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210520354.3A
Other languages
English (en)
Inventor
蒋林承
张俊丰
张维琦
邓劲生
曾道建
谭真
李硕豪
乔凤才
徐博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210520354.3A priority Critical patent/CN114821736A/zh
Publication of CN114821736A publication Critical patent/CN114821736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于对比学***面图像和人脸轮廓图像进行特征提取,得到人脸平面特征图和人脸轮廓特征图,将人脸平面特征图和人脸轮廓特征图进行交叉组合,得到多模态融合特征;根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示;利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布;根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,根据训练好的人脸识别模型进行人脸识别。采用本方法能够提高人脸识别准确率。

Description

基于对比学习的多模态人脸识别方法、装置、设备及介质
技术领域
本申请涉及图像处理和识别技术领域,特别是涉及一种基于对比学习的多模态人脸识别方法、装置、计算机设备和存储介质。
背景技术
随着新一代人工智能技术的蓬勃发展,人脸识别技术开始广泛应用于人类社会的各个领域,包括门禁安防、手机面部解锁等。然而,人脸识别技术在为人们形形色色的日常生活提供便利的同时,也带来了一些安全隐患。于是结合平面图像和人类面部轮廓形状的深度图的多模态3D人脸识别便诞生了。
然而,目前的方法在多模态特征融合时大多采用直接拼接的方式,无法获得准确的多模态特征表示,存在人脸识别效率低下、准确率低等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高人脸识别准确率的基于对比学习的多模态人脸识别方法、装置、计算机设备和存储介质。
一种基于对比学习的多模态人脸识别方法,所述方法包括:
获取待识别的人脸图像;人脸图像包括人脸平面图像和人脸轮廓图像;
构建人脸识别模型;人脸识别模型中包括卷积神经网络、残差网络、3D卷积网络、全连接层和SoftMax层;
根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图;
利用残差网络对人脸轮廓图像进行特征提取,得到人脸轮廓特征图;
将人脸平面特征图和人脸轮廓特征图进行交叉组合,得到多模态融合特征;
根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示;
利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布;
根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;
根据训练好的人脸识别模型对待识别的人脸图像进行人脸识别。
在其中一个实施例中,根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图,包括:
采用2D卷积神经网络设置小于或等于人脸平面图像大小的参数矩阵作为卷积核,通过多层的卷积层、Relu激活函数层以及最大池化层对人脸平面图像进行特征提取,得到人脸平面特征图。
在其中一个实施例中,人脸平面特征图和人脸轮廓特征图的数量相等。
在其中一个实施例中,根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示,包括:
选择待识别人的其他面部平面图像和轮廓图像作为正例样本,选择其他人的面部平面图像和轮廓图像作为负例样本,对正例样本和负例样本进行特征提取,分别得到正例样本的人脸平面特征图和人脸轮廓特征图和负例样本的人脸平面特征图和人脸轮廓特征图;
将正例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到正例样本的多模态融合特征,将负例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到负例样本的多模态融合特征;
根据对比学习方法增加待识别的人脸图像对应的多模态融合特征与正例样本的多模态融合特征的相似度,减少与负例样本的多模态融合特征的相似度,得到多模态特征表示。
在其中一个实施例中,多模态特征表示的损失函数为
Figure BDA0003643098830000021
其中,Si表示待识别的人脸图像的多模态融合特征,i表示待识别的人脸图像的样本号,Sj表示正例样本的模态融合特征,j代表正例样本的样本号,Sk指不包括Si的正例和负例总样本多模态融合特征,k是不包括Si的正例和负例总样本的样本号,sim表示L2距离函数,τ是调节特征表示水平的参数。
在其中一个实施例中,利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布,包括:
利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布为
Figure BDA0003643098830000031
其中,Fr=ReLU(FC(f))=max(0,WTf+b),Fr表示多模态特征表示,f为特征向量,W为可训练的参数矩阵,b为偏置项,pj表示当前所识别人脸是第j 个人的概率,
Figure BDA0003643098830000032
为多模态特征的第j个特征参数,
Figure BDA0003643098830000033
为多模态特征的第i个特征参数。
在其中一个实施例中,根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,包括:
根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数为
Figure BDA0003643098830000034
其中,y(x)代表人名对应的真实分布,p(x)表示人名对应的概率分布,x 表示人名标签。
一种基于对比学习的多模态人脸识别装置,所述装置包括:
特征提取模块,用于获取待识别的人脸图像;人脸图像包括人脸平面图像和人脸轮廓图像;构建人脸识别模型;人脸识别模型中包括卷积神经网络、残差网络、3D卷积网络、全连接层和SoftMax层;根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图;利用残差网络对人脸轮廓图像进行特征提取,得到人脸轮廓特征图;
交叉组合模块,用于将人脸平面特征图和人脸轮廓特征图进行交叉组合,得到多模态融合特征;
对比学习模块,用于根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示;利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布;
人脸识别模块,用于根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;根据训练好的人脸识别模型对待识别的人脸图像进行人脸识别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别的人脸图像;人脸图像包括人脸平面图像和人脸轮廓图像;
构建人脸识别模型;人脸识别模型中包括卷积神经网络、残差网络、3D卷积网络、全连接层和SoftMax层;
根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图;
利用残差网络对人脸轮廓图像进行特征提取,得到人脸轮廓特征图;
将人脸平面特征图和人脸轮廓特征图进行交叉组合,得到多模态融合特征;
根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示;
利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布;
根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;
根据训练好的人脸识别模型对待识别的人脸图像进行人脸识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别的人脸图像;人脸图像包括人脸平面图像和人脸轮廓图像;
构建人脸识别模型;人脸识别模型中包括卷积神经网络、残差网络、3D卷积网络、全连接层和SoftMax层;
根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图;
利用残差网络对人脸轮廓图像进行特征提取,得到人脸轮廓特征图;
将人脸平面特征图和人脸轮廓特征图进行交叉组合,得到多模态融合特征;
根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示;
利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布;
根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;
根据训练好的人脸识别模型对待识别的人脸图像进行人脸识别。
上述基于对比学***面图像上加入了人脸轮廓形状的深度图组成多模态特征进行人脸识别,在模态特征融合时利用交叉组合的方式对两个模态特征进行组合,并通过3D卷积网络对多模态特征分析时使多模态特征进一步融合,最后使用对比学习的方法增强多模态特征的表示,进而提高了基于多模态的人脸识别的准确度。
附图说明
图1为一个实施例中一种基于对比学习的多模态人脸识别方法的流程示意图;
图2为一个实施例中一种基于对比学习的多模态人脸识别方法的框架示意图;
图3为一个实施例中一种基于对比学习的多模态人脸识别装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于对比学习的多模态人脸识别方法,包括以下步骤:
步骤102,获取待识别的人脸图像;人脸图像包括人脸平面图像和人脸轮廓图像;构建人脸识别模型;人脸识别模型中包括卷积神经网络、残差网络、3D 卷积网络、全连接层和SoftMax层;根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图;利用残差网络对人脸轮廓图像进行特征提取,得到人脸轮廓特征图。
本发明采用2D卷积神经网络提取特征,对于表示人脸轮廓形状的深度图,采用残差网络提取特征。残差网络可以防止当网络层数过多,深度模型性能出现下降的情况。残差模块是通过在网络层的输入到输出之间添加一个连接将输入与输出相加,称为直接映射,目的是为了将网络层的训练目标从输出转变为输出和输入的差,这样如果当前网络层会导致模型性能变差,该网络层会在模型训练时学***面特征和人脸轮廓特征实现人脸特征的精确提取,有利于提高后续模型训练的准确率,进而提高人脸识别的准确率。
步骤104,将人脸平面特征图和人脸轮廓特征图进行交叉组合,得到多模态融合特征。
将人脸平面特征图和人脸轮廓特征图按照对应通道的位置进行交叉组合,使两种模态的特征融合的更加密切,同时在后续的多模态特征分析阶段,3D卷积每次可以同时对两个模态的特征进行卷积操作,进而在可以对两个模态的特征实现进一步的融合。
融合前存在着多模态的多个特征,如果采用对比学***面和轮廓特征,使最终识别结果更准确且模型更加具有安全性。
步骤106,根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示;利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布。
对比学***面图像和深度图作为正例样本,选择其他人的面部平面图像和深度图作为负例样本。将正例样本和负例样本分别输入与步骤102中完全相同的特征提取模型,将得到的特征图分别进行步骤104的多模态融合方法,就分别得到了正例和负例的多模态融合特征。然后通过对比的方式,拉近步骤104中得到的多模态融合特征与正例多模态融合特征之间的相似度,疏远与负例的多模态融合特征相似度,使多模态融合特征更加贴合当前识别人的特征表示的同时,能够更加区分不同人的特征表示,进而达到增强特征表示的效果。
将经过对比学习增强后的多模态特征表示输入由3D CNN、3D Max- pooling、激活层、全连接层、SoftMax组成的解码器进行特征分析,3D卷积采用3D卷积核可以在多模态特征上同时与多个特征图进行卷积操作,3D卷积能够更好地建模特征图之间的联系,可以实现对特征分析的同时考虑到特征图之间的联系,有利于提高人脸识别的准确率。
步骤108,根据模型输出的人名对应的概率分布和标注的真实人名标签构建交叉熵损失函数;利用交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;根据训练好的人脸识别模型对待识别的人脸图像进行人脸识别。
根据人名对应的概率分布和标注的人名标签的one-hot编码用于构建交叉熵损失函数,这样可以通过不断地调整模型中的可训练参数来一步步地缩小损失函数,方便且自动地使模型的输出逐渐贴近真实类别,将对比学习中的损失函数与交叉熵损失函数结合,通过随机梯度下降不断更新参数来使损失函数最小化,表达式如下:lossθ=losscons+losscrE
Figure BDA0003643098830000071
其中,losscrE表示交叉熵损失函数,θ代表模型中所有可训练参数,η是模型训练时的学习率。当损失函数足够小或者达到所设置的迭代次数时模型训练完成。当模型训练完成后,多模态特征表示学习阶段的任务已完成,需要将对比学习中使用的正负例样本的特征提取模型和对比学习中损失函数losscons去除后对待识别的人脸图像进行人脸识别,根据训练好的人脸识别模型对待识别的人脸图像进行人脸识别的过程如图2所示。
上述基于对比学***面图像上加入了人脸轮廓形状的深度图组成多模态特征进行人脸识别,在模态特征融合时利用交叉组合的方式对两个模态特征进行组合,并通过3D卷积网络对多模态特征分析时使多模态特征进一步融合,最后使用对比学习的方法增强多模态特征的表示,进而提高了基于多模态的人脸识别的准确度。
在其中一个实施例中,根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图,包括:
采用2D卷积神经网络设置小于或等于人脸平面图像大小的参数矩阵作为卷积核,通过多层的卷积层、Relu激活函数层以及最大池化层对人脸平面图像进行特征提取,得到人脸平面特征图。
2D卷积神经网络首先设置小于或等于图像大小的参数矩阵称为卷积核。卷积核在图像上依次进行前后上下的滑动,每滑动一次,与对应位置的图像的像素值进行点积,即特征的提取。其中每个卷积核在同一个通道上参数不变,即权值共享,在不同通道上卷积核的权值不共享。对于多通道数据,将每个卷积核分别在每个通道相同位置点积后的值进行相加作为所提取的特征图的一个像素值,逐渐滑动取得所有像素值就得到了所提取的特征图。池化操作的作用是对特征图进行降维,通过设置一个无参数的矩阵框,在特征图上进行滑动,将矩阵框内的所有特征图像素值转化为一个值,其中最大池化是找出最大值作为输出,而平均池化是计算所有值的平均值作为输出。本发明通过多层的卷积层、 Relu激活函数层以及最大池化层将人脸平面图像的特征提取出来,得到人脸平面特征图。
在其中一个实施例中,人脸平面特征图和人脸轮廓特征图的数量相等。
在具体实施例中,人脸平面特征图和人脸轮廓特征图的数量保持相等,为后续特征的融合进行铺垫,使得特征融合效果更好。
在其中一个实施例中,根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示,包括:
选择待识别人的其他面部平面图像和轮廓图像作为正例样本,选择其他人的面部平面图像和轮廓图像作为负例样本,对正例样本和负例样本进行特征提取,分别得到正例样本的人脸平面特征图和人脸轮廓特征图和负例样本的人脸平面特征图和人脸轮廓特征图;
将正例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到正例样本的多模态融合特征,将负例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到负例样本的多模态融合特征;
根据对比学习方法增加待识别的人脸图像对应的多模态融合特征与正例样本的多模态融合特征的相似度,减少与负例样本的多模态融合特征的相似度,得到多模态特征表示。
在其中一个实施例中,多模态特征表示的损失函数为
Figure BDA0003643098830000091
其中,Si表示待识别的人脸图像的多模态融合特征,i表示待识别的人脸图像的样本号,Sj表示正例样本的模态融合特征,j代表正例样本的样本号,Sk指不包括Si的正例和负例总样本多模态融合特征,k是不包括Si的正例和负例总样本的样本号,sim表示L2距离函数,τ是调节特征表示水平的参数。
通过对比的方式,拉近待识别的人脸图像对应的多模态融合特征与正例多模态融合特征之间的相似度,疏远与负例的多模态融合特征相似度,使多模态融合特征更加贴合当前识别人的特征表示的同时,能够更加区分不同人的特征表示,进而达到增强特征表示的效果,为了使多模态融合特征更加贴合当前识别人的特征表示的同时,能够更加区分不同人的特征表示,进而达到增强特征表示的效果,需要建立可以通过不断训练,逐渐实现拉近与正例和疏远与负例相似度的损失函数。
在其中一个实施例中,利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布,包括:
利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布为
Figure BDA0003643098830000101
其中,Fr=ReLU(FC(f))=max(0,WTf+b),Fr表示多模态特征表示,f为特征向量,W为可训练的参数矩阵,b为偏置项,pj表示当前所识别人脸是第j 个人的概率,
Figure BDA0003643098830000102
为多模态特征的第j个特征参数,
Figure BDA0003643098830000103
为多模态特征的第i个特征参数。
在具体实施例中,将经过对比学习增强后的多模态融合特征输入由3D CNN、3DMax-pooling、激活层、全连接层、SoftMax组成的解码器进行特征分析。虽然2D卷积操作也可以通过2D卷积核对多模态特征中每个特征图进行卷积操作后求和得出结果,但是2D卷积忽略了视频中的特征图之间的联系。本发明采用了3D卷积的方式对多模态特征进行分析,3D卷积采用3D卷积核可以在多模态特征上同时与多个特征图进行卷积操作,与2D卷积在每个2D通道上进行卷积相比,3D卷积能够更好地建模特征图之间的联系,可以实现对特征分析的同时考虑到特征图之间的联系,3D池化操作在对多模态融合特征的特征图降维的同时,还会降低特征图的数量。本发明采用多层3D CNN和3D池化层组合模块将多模态融合特征提取出多个1*1的特征图,即特征向量。然后将特征向量输入全连接层及Relu激活函数层,表达式如下所示:
Fr=ReLU(FC(f))=max(0,WTf+b)
其中f为特征向量,W为可训练的参数矩阵,b为偏置项。最终通过softmax 函数输出人名对应的概率分布,选择最大概率对应的人名即为待识别人脸的名称。表达式如下:
Figure BDA0003643098830000104
在其中一个实施例中,根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,包括:
根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数为
Figure BDA0003643098830000111
其中,y(x)代表人名对应的真实分布,p(x)表示人名对应的概率分布,x 表示人名标签。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于对比学习的多模态人脸识别装置,包括:特征提取模块302、交叉组合模块304、对比学习模块306和人脸识别模块308,其中:
特征提取模块302,用于获取待识别的人脸图像;人脸图像包括人脸平面图像和人脸轮廓图像;构建人脸识别模型;人脸识别模型中包括卷积神经网络、残差网络、3D卷积网络、全连接层和SoftMax层;根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图;利用残差网络对人脸轮廓图像进行特征提取,得到人脸轮廓特征图;
交叉组合模块304,用于将人脸平面特征图和人脸轮廓特征图进行交叉组合,得到多模态融合特征;
对比学习模块306,用于根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示;利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布;
人脸识别模块308,用于根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;根据训练好的人脸识别模型对待识别的人脸图像进行人脸识别。
在其中一个实施例中,特征提取模块302还用于根据卷积神经网络对人脸平面图像进行特征提取,得到人脸平面特征图,包括:
采用2D卷积神经网络设置小于或等于人脸平面图像大小的参数矩阵作为卷积核,通过多层的卷积层、Relu激活函数层以及最大池化层对人脸平面图像进行特征提取,得到人脸平面特征图。
在其中一个实施例中,人脸平面特征图和人脸轮廓特征图的数量相等。
在其中一个实施例中,对比学习模块306还用于根据对比学习方法对多模态融合特征进行增强表示,得到多模态特征表示,包括:
选择待识别人的其他面部平面图像和轮廓图像作为正例样本,选择其他人的面部平面图像和轮廓图像作为负例样本,对正例样本和负例样本进行特征提取,分别得到正例样本的人脸平面特征图和人脸轮廓特征图和负例样本的人脸平面特征图和人脸轮廓特征图;
将正例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到正例样本的多模态融合特征,将负例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到负例样本的多模态融合特征;
根据对比学习方法增加待识别的人脸图像对应的多模态融合特征与正例样本的多模态融合特征的相似度,减少与负例样本的多模态融合特征的相似度,得到多模态特征表示。
在其中一个实施例中,多模态特征表示的损失函数为
Figure BDA0003643098830000121
其中,Si表示待识别的人脸图像的多模态融合特征,i表示待识别的人脸图像的样本号,Sj表示正例样本的模态融合特征,j代表正例样本的样本号,Sk指不包括Si的正例和负例总样本多模态融合特征,k是不包括Si的正例和负例总样本的样本号,sim表示L2距离函数,τ是调节特征表示水平的参数。
在其中一个实施例中,对比学习模块306还用于利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布,包括:
利用3D卷积网络对多模态特征表示进行特征分析,得到人名对应的概率分布为
Figure BDA0003643098830000131
其中,Fr=ReLU(FC(f))=max(0,WTf+b),Fr表示多模态特征表示,f为特征向量,W为可训练的参数矩阵,b为偏置项,pj表示当前所识别人脸是第j 个人的概率,
Figure BDA0003643098830000132
为多模态特征的第j个特征参数,
Figure BDA0003643098830000133
为多模态特征的第i个特征参数。
在其中一个实施例中,人脸识别模块308还用于根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数,包括:
根据人名对应的概率分布和标注的人名标签构建交叉熵损失函数为
Figure BDA0003643098830000134
其中,y(x)代表人名对应的真实分布,p(x)表示人名对应的概率分布,x 表示人名标签。
关于一种基于对比学习的多模态人脸识别装置的具体限定可以参见上文中对于一种基于对比学习的多模态人脸识别方法的限定,在此不再赘述。上述一种基于对比学习的多模态人脸识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于对比学习的多模态人脸识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限, RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线 (Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于对比学习的多模态人脸识别方法,其特征在于,所述方法包括:
获取待识别的人脸图像;所述人脸图像包括人脸平面图像和人脸轮廓图像;
构建人脸识别模型;所述人脸识别模型中包括卷积神经网络、残差网络、3D卷积网络、全连接层和SoftMax层;
根据卷积神经网络对所述人脸平面图像进行特征提取,得到人脸平面特征图;
利用残差网络对所述人脸轮廓图像进行特征提取,得到人脸轮廓特征图;
将所述人脸平面特征图和所述人脸轮廓特征图进行交叉组合,得到多模态融合特征;
根据对比学习方法对所述多模态融合特征进行增强表示,得到多模态特征表示;
利用3D卷积网络对所述多模态特征表示进行特征分析,得到人名对应的概率分布;
根据所述人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用所述交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;
根据所述训练好的人脸识别模型对所述待识别的人脸图像进行人脸识别。
2.根据权利要求1所述的方法,其特征在于,根据卷积神经网络对所述人脸平面图像进行特征提取,得到人脸平面特征图,包括:
采用2D卷积神经网络设置小于或等于人脸平面图像大小的参数矩阵作为卷积核,通过多层的卷积层、Relu激活函数层以及最大池化层对所述人脸平面图像进行特征提取,得到人脸平面特征图。
3.根据权利要求1所述的方法,其特征在于,所述人脸平面特征图和所述人脸轮廓特征图的数量相等。
4.根据权利要求1至3任意一项所述的方法,其特征在于,根据对比学习方法对所述多模态融合特征进行增强表示,得到多模态特征表示,包括:
选择待识别人的其他面部平面图像和轮廓图像作为正例样本,选择其他人的面部平面图像和轮廓图像作为负例样本,对所述正例样本和负例样本进行特征提取,分别得到正例样本的人脸平面特征图和人脸轮廓特征图和负例样本的人脸平面特征图和人脸轮廓特征图;
将所述正例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到所述正例样本的多模态融合特征,将所述负例样本的人脸平面特征图和人脸轮廓特征图进行交叉组合,得到所述负例样本的多模态融合特征;
根据对比学习方法增加待识别的人脸图像对应的多模态融合特征与所述正例样本的多模态融合特征的相似度,减少与所述负例样本的多模态融合特征的相似度,得到多模态特征表示。
5.根据权利要求1所述的方法,其特征在于,所述多模态特征表示的损失函数为
Figure FDA0003643098820000021
其中,Si表示待识别的人脸图像的多模态融合特征,i表示待识别的人脸图像的样本号,Sj表示正例样本的模态融合特征,j代表正例样本的样本号,Sk指不包括Si的正例和负例总样本多模态融合特征,k是不包括Si的正例和负例总样本的样本号,sim表示L2距离函数,τ是调节特征表示水平的参数。
6.根据权利要求1所述的方法,其特征在于,利用3D卷积网络对所述多模态特征表示进行特征分析,得到人名对应的概率分布,包括:
利用3D卷积网络对所述多模态特征表示进行特征分析,得到人名对应的概率分布为
Figure FDA0003643098820000022
其中,Fr=ReLU(FC(f))=max(0,WTf+b),Fr表示多模态特征表示,f为特征向量,W为可训练的参数矩阵,b为偏置项,pj表示当前所识别人脸是第j个人的概率,
Figure FDA0003643098820000023
为多模态特征的第j个特征参数,
Figure FDA0003643098820000024
为多模态特征的第i个特征参数。
7.根据权利要求6所述的方法,其特征在于,根据所述人名对应的概率分布和标注的人名标签构建交叉熵损失函数,包括:
根据所述人名对应的概率分布和标注的人名标签构建交叉熵损失函数为
Figure FDA0003643098820000031
其中,y(x)代表人名对应的真实分布,p(x)表示人名对应的概率分布,x表示人名标签。
8.一种基于对比学习的多模态人脸识别装置,其特征在于,所述装置包括:
特征提取模块,用于获取待识别的人脸图像;所述人脸图像包括人脸平面图像和人脸轮廓图像;构建人脸识别模型;所述人脸识别模型中包括卷积神经网络、残差网络、3D卷积网络、全连接层和SoftMax层;根据卷积神经网络对所述人脸平面图像进行特征提取,得到人脸平面特征图;利用残差网络对所述人脸轮廓图像进行特征提取,得到人脸轮廓特征图;
交叉组合模块,用于将所述人脸平面特征图和所述人脸轮廓特征图进行交叉组合,得到多模态融合特征;
对比学习模块,用于根据对比学习方法对所述多模态融合特征进行增强表示,得到多模态特征表示;利用3D卷积网络对所述多模态特征表示进行特征分析,得到人名对应的概率分布;
人脸识别模块,用于根据所述人名对应的概率分布和标注的人名标签构建交叉熵损失函数,利用所述交叉熵损失函数和对比学习中的损失函数对预先构建的人脸识别模型进行训练,得到训练好的人脸识别模型;根据所述训练好的人脸识别模型对所述待识别的人脸图像进行人脸识别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210520354.3A 2022-05-13 2022-05-13 基于对比学习的多模态人脸识别方法、装置、设备及介质 Pending CN114821736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210520354.3A CN114821736A (zh) 2022-05-13 2022-05-13 基于对比学习的多模态人脸识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210520354.3A CN114821736A (zh) 2022-05-13 2022-05-13 基于对比学习的多模态人脸识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114821736A true CN114821736A (zh) 2022-07-29

Family

ID=82515150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210520354.3A Pending CN114821736A (zh) 2022-05-13 2022-05-13 基于对比学习的多模态人脸识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114821736A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115487508A (zh) * 2022-11-08 2022-12-20 腾讯科技(深圳)有限公司 游戏战队推荐模型的训练方法和相关装置
CN115565051A (zh) * 2022-11-15 2023-01-03 浙江芯昇电子技术有限公司 轻量级人脸属性识别模型训练方法、识别方法及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115487508A (zh) * 2022-11-08 2022-12-20 腾讯科技(深圳)有限公司 游戏战队推荐模型的训练方法和相关装置
CN115565051A (zh) * 2022-11-15 2023-01-03 浙江芯昇电子技术有限公司 轻量级人脸属性识别模型训练方法、识别方法及设备
CN115565051B (zh) * 2022-11-15 2023-04-18 浙江芯昇电子技术有限公司 轻量级人脸属性识别模型训练方法、识别方法及设备

Similar Documents

Publication Publication Date Title
CN110135406B (zh) 图像识别方法、装置、计算机设备和存储介质
WO2019228317A1 (zh) 人脸识别方法、装置及计算机可读介质
WO2021120695A1 (zh) 图像分割方法、装置、电子设备及可读存储介质
CN110334587B (zh) 人脸关键点定位模型的训练方法、装置及关键点定位方法
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及***
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111832581B (zh) 肺部特征识别方法、装置、计算机设备及存储介质
CN114821736A (zh) 基于对比学习的多模态人脸识别方法、装置、设备及介质
CN112926654A (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN114332994A (zh) 训练年龄预测模型的方法、年龄检测方法及相关装置
WO2023284182A1 (en) Training method for recognizing moving target, method and device for recognizing moving target
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN113420690A (zh) 基于感兴趣区域的静脉识别方法、装置、设备及存储介质
CN114266897A (zh) 痘痘类别的预测方法、装置、电子设备及存储介质
CN112115860A (zh) 人脸关键点定位方法、装置、计算机设备和存储介质
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN117237547B (zh) 图像重建方法、重建模型的处理方法和装置
CN113159053A (zh) 图像识别方法、装置及计算设备
CN113065512A (zh) 人脸微表情识别方法、装置、设备及存储介质
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN116091596A (zh) 一种自下而上的多人2d人体姿态估计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination