CN113807214A

CN113807214A - 基于deit附属网络知识蒸馏的小目标人脸识别方法

Info

Publication number: CN113807214A
Application number: CN202111015756.XA
Authority: CN
Inventors: 宋尧哲; 孟方舟; 舒子婷; 吴萌萌; 童官军
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-17
Anticipated expiration: 2041-08-31
Also published as: CN113807214B

Abstract

本发明涉及一种基于deit附属网络知识蒸馏的小目标人脸识别方法，包括：构建deit网络作为学生网络，并构建教师网络并在其后增加残差连接模块，利用教师网络先在高像素人脸图像上训练学生网络；对训练好的学生网络输入小目标人脸图像，得到第二分类特征和第二蒸馏特征；对所述教师网络输入与训练好的deit网络相同身份但未降采样的图像，得到第二教师特征；根据所述第二分类特征与真实标签构建第三损失函数，根据所述第二蒸馏特征与第二教师特征构建第四损失函数，并将所述第三损失函数和第四损失函数相加得到第二总损失；在所述第二总损失下，对训练好的deit网络进行二次训练。本发明能够对小目标人脸图像进行有效识别。

Description

基于deit附属网络知识蒸馏的小目标人脸识别方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于deit附属网络知识蒸馏的小目标人脸识别方法。

背景技术

随着深度学习算法及相应大规模数据集的不断更新和提出，人脸识别获得了极大的发展。在人脸姿态固定(正脸)、清晰图像、闭环境(没有“不确定”类别)情况下，人脸识别准确率已可高达99％以上。

但是，在监控环境下，由于摄像头分辨率低、人脸目标距离远、目标相对运动模糊等实际问题，实际所采集到的小目标人脸图像往往具有多种姿态(例如侧脸、仰头)、低分辨率(低于32*32像素)和噪声干扰的状态。同时，由于野外监控环境下不是所有检测到的人脸目标都可以和数据库中人物身份匹配，小目标人脸识别问题同时成为一个开环境问题。

由于以上原因，在真实环境下，姿态固定、图像清晰、闭环境下表现优秀的人脸识别算法表现往往急剧下降。算法性能的下降不仅体现在，当算法在高像素人脸图像上训练后，直接在监控环境中小目标人脸图像进行测试，性能会极大的降低，还体现在，即便用此类算法在监控环境小目标人脸图像中进行训练，随后在同样的小目标人脸图像中测试，表现性能也很差。究其原因，如果在高像素数据集训练，小目标人脸图像测试，会由于数据集不同一分布引发“域转移”问题，导致过拟合；而直接在小目标人脸图像训练，会由于小目标人脸图像像素过低(低于32*32像素)，难以提取特征，另外目前公开数据集并无大规模真实环境下低像素人脸识别数据集，因此难以形成具有判别能力的网络。

针对真实环境下小目标人脸识别问题的困难，目前性能最好的两种算法都采用了基于CNN网络进行知识蒸馏的方法，具体是：教师网络为在高像素人脸图像预训练好的基于CNN网络的模型，在训练过程中冻结参数，仅作为特征提取器。学生网络和教师网络一致，在训练过程中参与训练。训练时，对教师网络输入高像素人脸图像，对学生网络输入对同样高像素图像降采样后的小目标人脸图像，通过设计损失函数，使学生倒数第二层特征逼近教师对应层，使学生模型能够在知识蒸馏中获得教师模型传递的高像素图像提取特征信息，同时由学生模型自身分类损失函数学习到小目标人脸图像的信息。在设计知识蒸馏损失函数时，传统算法直接将高、低像素人脸图像输出特征输入损失函数，导致损害了高像素人脸图像识别准确率，因此，现有算法对传统算法在此基础上作出改进，增加了一个并行特征层输入损失函数。由于教师网络特征层在高像素人脸图像中有良好的判别能力，通过教师特征层和学生特征层设计损失函数，可以让学生网络在同样ID但是降采样的人脸图像获得期望相同的判别特征，由此增加学生网络在低像素人脸图像的判别能力。

发明内容

本发明所要解决的技术问题是提供一种基于deit附属网络知识蒸馏的小目标人脸识别方法，能够对小目标人脸图像进行有效识别。

本发明解决其技术问题所采用的技术方案是：提供一种基于deit附属网络知识蒸馏的小目标人脸识别方法，包括：

步骤(1)：构建deit网络作为学生网络，将选取的训练集进行预处理后输入到所述学生网络，得到第一分类特征和第一蒸馏特征；

步骤(2)：选取已在所述数据集中预训练好的教师网络，并对教师网络输入所述预处理后的训练集，得到第一教师特征；

步骤(3)：在所述教师网络最后一层判别层之后增加一残差连接模块，所述残差连接模块参与训练；

步骤(4)：根据所述第一分类特征与真实标签构建第一损失函数，根据所述第一蒸馏特征与第一教师特征构建第二损失函数，并将所述第一损失函数和第二损失函数相加得到第一总损失；

在所述第一总损失下，利用所述教师网络先在第一人脸图像上训练学生网络；

步骤(5)：对训练好的学生网络输入第二人脸图像，得到第二分类特征和第二蒸馏特征；

所述第一人脸图像的像素分辨率高于第二人脸图像；

步骤(6)：对所述教师网络输入与训练好的学生网络相同的但未降采样的第二人脸图像，得到第二教师特征；

步骤(7)：根据所述第二分类特征与真实标签构建第三损失函数，根据所述第二蒸馏特征与第二教师特征构建第四损失函数，并将所述第三损失函数和第四损失函数相加得到第二总损失；

在所述第二总损失下，对训练好的学生网络进行二次训练；

步骤(8)：利用二次训练好的学生网络对输入的新的第二人脸图像进行识别。

所述步骤(1)中将选取的训练集进行预处理后输入到所述学生网络，具体为：通过插值法将训练集中的每幅图像尺寸调整为224*224，并按照16*16大小裁剪出14*14个图像块，再将裁剪好的图像块输入到所述学生网络。

所述步骤(1)中将Vggface2高像素人脸图像作为训练集。

所述步骤(2)具体为：选取已在所述数据集中预训练后的SE+Resnet网络作为教师网络，固定所述SE+Resnet网络参数，使SE+Resnet网络成为特征提取器，对教师网络输入所述预处理后的训练集，得到第一教师特征。

所述步骤(5)中对训练好的学生网络输入第二人脸图像，具体为：对训练好的学生网络输入降采样为16*16，再经过插值放大为224*224的降采样第二人脸图像。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明的学生网络采用了非CNN结构的transformer结构作为模型骨架，利用transformer网络非局部注意力机制，将输入图像的每个像素点和整个图像其余像素点信息进行结合，学习到图像整体特征，使得模型在预训练后面临低像素图像时模型的性能损失远小于CNN网络框架，避免了由于降采样图像插值为与高像素图像同一维度导致的模型性能损失和过拟合问题；本发明通过在教师网络中增加附属残差连接模块，参数化了“教师该传授什么样的知识”，避免了“模型容量差距”问题，使知识蒸馏方法变为在线—离线结合知识蒸馏，自适应获得稳定、易收敛的模型，同时让学生网络从教师网络吸收到良好的信息；本发明通过基于deit网络的附属知识蒸馏，获得了在原生低像素人脸数据集Tinyface数据集测试集达到了71.1％准确率，在未对测试集进行增强的端对端人脸识别算法中达到最高。

附图说明

图1是本发明实施方式的deit网络示意图；

图2是本发明实施方式的残差连接模块示意图；

图3是本发明实施方式的教师网络整体架构示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于deit附属网络知识蒸馏的小目标人脸识别方法，具体包括以下步骤：

1.构建deit网络作为学生网络(详见图1)，选取Vggface2高像素人脸图像作为训练集，通过插值法将图像尺寸调整为224*224，随后按照16*16大小按照图片拼接裁剪出14*14个图像块，输入到deit网络中，得到第一分类特征和第一蒸馏特征。

图1中，patch tokens为图像按照16*16拼接裁剪后经过线性层编码得到的768维度特征，class token和distillation token分别是一个和patch tokens相同维度的可学习嵌入向量，其中class token用于生成最终与真实标签求损失函数的判别层，distillation token用于生成最终与教师网络输出求损失函数的判别层。

2.选取已在Vggface2数据集中预训练后SE+Resnet网络作为教师网络，固定SE+Resnet网络参数，使SE+Resne网络成为特征提取器，对教师网络输入步骤1中同样的人脸图像，得到第一教师特征。

3.根据步骤1中得到的第一分类特征与真实标签构建第一损失函数，根据步骤1中得到的第一蒸馏特征与步骤2中得到的第一教师特征构建第二损失函数，将第一损失函数和第二损失函数相加得到第一总损失，在所述第一总损失下，用教师网络先在高像素人脸图像上训练deit网络。此处真实标签为降采样前人物身份ID，即步骤1中的真实标签。

上述步骤1至步骤3的作用是在用降采样人脸图像信息训练网络之前，先用高像素人脸图像信息对网络进行预训练，使网络对人脸识别学习到基本特征，便于后续用低像素人脸图像进行训练时利用到在高像素人脸图像中学习到的特征，避免了直接训练低像素人脸图像，任务过于复杂导致的模型难以收敛问题。

4.对步骤2中教师网络的最后一层判别层后再加入一个附属的残差连接模块，最后一层判别层及之前部分仍冻结参数，作为特征提取器使用，新加入的残差连接模块参与训练。图3为加入残差连接模块的教师网络整体架构示意图。

图2为附属残差连接模块示意图，通过设置附属残差连接模块，能够参数化“教师该传授什么样的知识”，避免了“模型容量差距”问题，使知识蒸馏方法变为在线—离线结合知识蒸馏，自适应获得稳定、易收敛的模型，同时让学生网络从教师网络吸收到良好的信息。

5.对步骤3中训练好的deit模型输入降采样为16*16，随后插值放大为224*224的降采样小目标人脸图像，得到第二分类特征和第二蒸馏特征。

6.对步骤4中教师网络输入与步骤5学生网络同样身份但未降采样的图像，得到第二教师特征。

7.根据步骤5中得到的第二分类特征与真实标签构建第三损失函数，根据步骤5中得到的第二蒸馏特征与步骤6中第二教师特征构建第四损失函数，将第三损失函数和第四损失函数相加得到第二总损失，在所述第二总损失下，对训练好的deit网络进行二次训练。此处真实标签为降采样后人物身份ID，由于降采样前后人物身份不变，故与步骤1和步骤3中真实标签对应相同。

进一步地，步骤3和步骤7中的第一总损失和第二总损失的公式均可以表达为如下形式：

L_global＝(1-λ)L_CE(ψ(Z_s),y)+λτ²KL(ψ(Z_s/τ),ψ(Z_t/τ))

其中，λ为调节第一总损失或第二总损失和的加权系数，本实施方式选取0.5；ψ(·)为softmax函数，Z_s为所训练的deit网络的输出，Z_t为教师网络的输出，y为真实标签，即人脸图像对应的人物身份ID，τ为知识蒸馏的程度系数，本实施方式选取1.25；通过对Z_s、Z_t除以知识蒸馏程度系数τ，可以将教师网络和学生网络(deit网络)的输出进行“软化”，从而更好地进行知识蒸馏；ψ(Z_s/τ)、ψ(Z_t/τ)分别将软化后的教师网络输出和软化后学生网络输出通过softmax函数的输出。

L_CE()为交叉损失函数且L_CE()可以表示为：

KL()为KL散度可以表示为：

8.利用二次训练好的deit网络对输入的小目标人脸图像进行识别。

9.通过在公开数据集Tinyface上进行测试，本发明达到了71.1％的Rank-1准确率，为该数据集当前算法中最高准确率方法，具体结果参见表1。

表1实验结果测试对比图

模型	Rank-1	Rank-20	mAP
				DeepId2	17.4	25.2	12.1
SphereFace	22.3	35.5	16.2
				VGGFace	30.4	40.4	23.1
CenterFace	32.1	44.5	24.6
				CSRI	45.2	60.2	39.9
T-C	58.6	73.0	52.7
				Shi	63.9	/	/
SafwanKhalid	70.4	82.2	63.2
				本实施方式	71.13	84.09	64.58

由此可见，本发明的学生网络采用了非CNN结构的transformer结构作为模型骨架，利用transformer网络非局部注意力机制，将输入图像的每个像素点和整个图像其余像素点信息进行结合，学习到图像整体特征，使得模型在预训练后面临低像素图像时模型的性能损失远小于CNN网络框架；本发明通过在教师网络中增加附属残差连接模块，使知识蒸馏方法变为在线—离线结合知识蒸馏，自适应获得稳定、易收敛的模型，同时让学生网络从教师网络吸收到良好的信息。

Claims

1.一种基于deit附属网络知识蒸馏的小目标人脸识别方法，其特征在于，包括：

所述第一人脸图像的像素分辨率高于第二人脸图像；

在所述第二总损失下，对训练好的学生网络进行二次训练；

2.根据权利要求1所述的基于deit附属网络知识蒸馏的小目标人脸识别方法，其特征在于，所述步骤(1)中将选取的训练集进行预处理后输入到所述学生网络，具体为：通过插值法将训练集中的每幅图像尺寸调整为224*224，并按照16*16大小裁剪出14*14个图像块，再将裁剪好的图像块输入到所述学生网络。

3.根据权利要求1所述的基于deit附属网络知识蒸馏的小目标人脸识别方法，其特征在于，所述步骤(1)中将Vggface2高像素人脸图像作为训练集。

4.根据权利要求1所述的基于deit附属网络知识蒸馏的小目标人脸识别方法，其特征在于，所述步骤(2)具体为：选取已在所述数据集中预训练后的SE+Resnet网络作为教师网络，固定所述SE+Resnet网络参数，使SE+Resnet网络成为特征提取器，对教师网络输入所述预处理后的训练集，得到第一教师特征。

5.根据权利要求1所述的基于deit附属网络知识蒸馏的小目标人脸识别方法，其特征在于，所述步骤(5)中对训练好的学生网络输入第二人脸图像，具体为：对训练好的学生网络输入降采样为16*16，再经过插值放大为224*224的降采样第二人脸图像。