CN117831138B - 基于三阶知识蒸馏的多模态生物特征识别方法 - Google Patents
基于三阶知识蒸馏的多模态生物特征识别方法 Download PDFInfo
- Publication number
- CN117831138B CN117831138B CN202410244697.0A CN202410244697A CN117831138B CN 117831138 B CN117831138 B CN 117831138B CN 202410244697 A CN202410244697 A CN 202410244697A CN 117831138 B CN117831138 B CN 117831138B
- Authority
- CN
- China
- Prior art keywords
- network
- teacher
- student
- distillation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000006835 compression Effects 0.000 claims abstract description 12
- 238000007906 compression Methods 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 238000004821 distillation Methods 0.000 claims description 36
- 238000010586 diagram Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 150000003839 salts Chemical class 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005282 brightening Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000004508 fractional distillation Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 1
- 230000001133 acceleration Effects 0.000 abstract description 3
- 238000013136 deep learning model Methods 0.000 abstract description 3
- 238000010200 validation analysis Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 230000000295 complement effect Effects 0.000 description 5
- 101001090484 Homo sapiens LanC-like protein 2 Proteins 0.000 description 4
- 102100034723 LanC-like protein 2 Human genes 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于三阶知识蒸馏的多模态生物特征识别方法,通过获取相同类的人脸和指纹数据集;对人脸数据和指纹数据进行预处理和数据扩充,然后将扩充后的人脸和指纹数据进行随机划分用作训练集和验证集;将处理之后的数据输入到卷积神经网络中进行特征提取,获得性能好的教师模型并保存模型参数;将学生网络和教师网络进行蒸馏训练,得到训练好的学生模型;使用验证集,测试已经训练好的学生网络。本发明针对深度学习模型在嵌入式设备难以进行部署和实时性能差的问题,深入探究了现有的模型压缩和加速算法,将多模态生物特征识别、注意力融合机制、知识蒸馏技术结合,有效提高了小规模网络的性能,同时还有利于落地应用。
Description
技术领域
本发明属于计算机视觉技术领域,尤其是基于三阶知识蒸馏的多模态生物特征识别方法。
背景技术
生物信息安全是一个旨在保护数据免受未经授权访问的过程,以往有许多传统的方式来验证用户身份,如用户名、密码、密钥等。但是这些传统的方法有很多局限性,它们可能丢失、复制、破解或被盗。随着世界各国对信息安全和安全法规要求的不断提高,生物识别技术成为了信息安全的最佳解决方案之一,在本发明的日常生活中得到了广泛的应用。它是基于深度学习、机器学习、模式识别的***,该***需要将个人的身体和行为特征的生物识别数据作为个性化的“密钥”。生物特征识别***发展初期,主要是利用人的各种单一的生物模态进行安全验证,例如人脸、虹膜、指纹、牙齿等。涉及金融证券、安防、医疗保健、社交网络应用、游戏、云计算以及国土安全等诸多领域。此外,数十亿智能手机用户通过指纹或面部生物识别技术解锁手机。
随着对精确认证人体身份的需求不断增加,尤其是在金融、国防等安全需求极高的领域,单模态生物识别***所存在的不稳定性和不安全性被暴露出来,利用单一生物特征进行识别认证,往往无法获得满意的结果。所以近期研究者们转向了对多模态生物特征识别***的研究,研究发现,使用多模态生物特征识别***可以很好的提高识别效率和安全指数,进而提高生物特征识别***的泛化性和鲁棒性,并且能够克服单模态生物识别***的许多显著限制。使用多个模态特征信息的多模态融合生物特征识别技术通常在通用性,准确性和安全性方面表现得更好。
深度神经网络发展迅速,凭借着其网络的加深、卷积操作策略的多样化在多模态生物特征学习任务中展现了其卓越的性能。但是随着网络的加深带来性能的同时也会伴随参数的指数型上升,对于多生物特征识别***其性能更依靠于终端的运算能力,因此如何在移动终端上部署实现大规模高性能的多生物特征识别***是亟待解决的问题。在解决深度学习模型效率方面,一般采用了深度神经网络压缩与加速方法,如参数量化、模型剪枝、轻量型卷积核设计和知识蒸馏、网络结构架构搜索等。其中,知识蒸馏能够将复杂、学习能力强的网络的特征表示“蒸馏”出来,传递给参数量小、学习能力弱的网络,从而会得到一个速度快,能力强的网络。知识蒸馏除了能够学习到大模型的特征表征能力,也能学习到标签中不存在的类别间信息,也更加满足目前专注于知识驱动、知识引导的计算机视觉的研究内容。
深度神经网络的知识蒸馏压缩技术根据蒸馏知识形式的不同主要分为四类:输出特征知识、中间特征知识、关系特征知识和结构特征知识。
(1)输出特征知识。最早由Hinton提出,输出特征知识蒸馏的主要思想是促使学生能够学习到教师模型的最终预测,包括 hard target 和soft target,以达到和教师模型一样的预测性能。
(2)中间特征知识。Gotmare等人的研究表明,一个足够深的深度神经网络,本发明只利用输出特征知识是不够的,教师网络和学生网络的容量差异过大,学生网络只利用输出特征知识无法达到教师网络的特征表达能力。中间特征知识,其主要思想是从教师中间的网络层中提取特征来充当学生模型中间层输出的提示(Hint),它不仅需要利用教师模型的输出特征知识,还需要使用教师模型隐含层中的特征图知识。
(3)关系特征知识。关系特征指的是教师模型不同层和不同数据样本之间的关系知识. 关系特征知识蒸馏认为学习的本质不是特征输出的结果,而是层与层之间和样本数据之间的关系。
(4)结构特征知识。结构特征知识是教师模型的完整知识体系,不仅包括教师的输出特征知识,中间特征知识和关系特征知识,还包括教师模型的区域特征分布等知识。
近年来,不同类型的知识蒸馏方法层出不穷,使用单阶段蒸馏策略应用到了图像分类、动作检测、姿态识别等领域并且都实现了模型压缩,但是很少有将其用在多生物特征识别领域中去的,因此,应用一个高效且准确的知识蒸馏方法来实现多生物特征识别网络压缩是迫切且有希望的。再者,单阶段的知识蒸馏策略虽然能够实现学生网络的性能提升,但是缺乏结构性知识的引导,学生模型不能学到教师模型更完整的特征提取与表征能力,抑制了学生网络性能的进一步提升。
发明内容
本发明的目的在于克服现有技术的不足,提出基于三阶知识蒸馏的多模态生物特征识别方法,为学生网络提供更多的学习监督和特征表示,进而实现模型压缩和学生网络性能提升。首先,通过提出的基于三线性注意力机制的相似性保持蒸馏实现第一阶段蒸馏,提取教师网络中间特征提取层的知识作为学生模型中间层的引导,为学生网络提供更强大的特征表达和中间层相关性学习。再者,通过对融合特征进行基于特征的第二阶段蒸馏,迫使学生直接从融合特征模仿教师的层。最后,在分数匹配层即输出层进行基于logits的知识蒸馏来实现第三阶段蒸馏,将教师网络软化的预测分数进行转移,使得学生网络能够学习教师网络的最终预测。最终,通过三阶知识蒸馏机制,大幅度提升学生网络的训练效果,弥补了传统单阶知识蒸馏方法的不足。
本发明解决其技术问题是采取以下技术方案实现的:
基于三阶知识蒸馏的多模态生物特征识别方法,包括以下步骤:
步骤1、获取相同类的人脸和指纹数据集;
步骤2、对人脸数据和指纹数据进行预处理和数据扩充,然后将扩充后的人脸和指纹数据进行随机划分用作训练集和验证集;
步骤3、将步骤2处理之后的数据输入到卷积神经网络的backbone中进行特征提取,然后将提取特征进行融合和匹配;选取优化器,设置教师网络参数,输出教师网络中间层特征、融合特征以及最后的logits输出分数特征,获得性能好的教师模型并保存模型参数;
步骤4、将学生网络和教师网络进行蒸馏训练,选取优化器,设置学生网络参数,利用步骤3中得到的教师网络模型和参数指导学生网络训练,进行模型压缩,得到训练好的学生模型;
步骤5、使用验证集,测试已经训练好的学生网络。
而且,所述步骤1中相同类的人脸和指纹数据集为MultiModal-database-XJTU数据集,包括由传感器采集的指纹图像、相机采集的正面人脸图像、扫描仪采集的掌纹和用麦克风采集的语音特征。
而且,所述步骤2中人脸数据预处理和数据扩充的具体实现方法为:采用放大缩小、水平翻转、垂直翻转、明亮、变暗、添加椒盐和高斯噪声进行预处理,预处理后对处理图像再次预处理完成人脸数据扩充。
而且,所述步骤2中指纹数据预处理和数据扩充的具体实现方法为:对原始指纹图像采用定向gabor滤波器组进行增强,然后再利用放大缩小、水平翻转、垂直翻转、明亮、变暗、添加椒盐和高斯噪声预处理,完成后对处理图像再次预处理实现指纹数据扩充。
而且,所述步骤3中教师网络采用ResNet-50,教师网络使用Pytorch框架建立模型,教师网络预先在数据集上训练,采用随机梯度下降SGD方法,初始化学习率,设置网络参数,将训练得到的中间层特征、输出分数以及训练参数保存。
而且,所述步骤4的具体实现方法为:学生网络选取ResNet-18与预训练的教师网络ResNet-50做离线蒸馏。
而且,所述离线蒸馏包括三个阶段的知识蒸馏:
第一阶是指对经过骨干网络特征提取层之后的中间层特征进行基于三线性注意力机制的相似性保持蒸馏;
第二阶是对指纹和人脸融合特征进行基于融合特征的知识蒸馏;
第三阶是引入基于logits的分数层传统蒸馏,让教师网络预测分数的知识以一种软化的编码形式监督学生网络的输出,进而完成匹配层的蒸馏。
本发明的优点和积极效果是:
1、本发明通过获取相同类的人脸和指纹数据集;对人脸数据和指纹数据进行预处理和数据扩充,然后将扩充后的人脸和指纹数据进行随机划分用作训练集和验证集;将处理之后的数据输入到卷积神经网络的backbone中进行特征提取,然后将提取特征进行融合和匹配;选取优化器,设置教师网络参数,输出教师网络中间层特征、融合特征以及最后的logits输出分数特征,获得性能好的教师模型并保存模型参数;将学生网络和教师网络进行蒸馏训练,选取优化器,设置学生网络参数,利用得到的教师网络模型和参数指导学生网络训练,进行模型压缩,得到训练好的学生模型;使用验证集,测试已经训练好的学生网络。本发明针对深度学习模型在嵌入式设备难以进行部署和实时性能差的问题,深入探究了现有的模型压缩和加速算法,将多模态生物特征识别、注意力融合机制、知识蒸馏技术结合,有效提高了小规模网络的性能,同时还有利于落地应用。
2、本发明基于三阶知识蒸馏的多模态生物特征识别方法,包括中间层特征知识蒸馏、特征融合层知识蒸馏、输出层知识蒸馏,以互补的形式构成结构性知识来促使学生网络的预测能包含和教师网络一样丰富的结构知识。同时三线性注意力机制的相似性保持蒸馏(Trilinear Attention Similarity-Preserving,TASP)优化了原始的相似性保持(Similarity-Preserving ,SP)蒸馏,明确了中间特征图在进行知识蒸馏时通道间的空间关系。
附图说明
图1为本发明基于三阶知识蒸馏的多模态生物特征识别方法中的实施例流程图。
图2为本发明基于三阶知识蒸馏的多模态生物特征识别方法中的网络整体结构示意图。
图3为本发明基于三阶知识蒸馏的多模态生物特征识别方法中的蒸馏训练示意图。
图4为基于三阶知识蒸馏的多模态生物特征识别方法中的并行通道-空间注意力融合模块示意图。
图5为基于三阶知识蒸馏的多模态生物特征识别方法中的通道注意力模块和空间注意力模块示意图。
图6为基于三阶知识蒸馏的多模态生物特征识别方法中的三线性注意力变换机制示意图。
图7为基于三阶知识蒸馏的多模态生物特征识别方法中的三线性注意力机制的相似性保持蒸馏TASP示意图。
具体实施方式
以下结合附图对本发明做进一步详述。
基于三阶知识蒸馏的多模态生物特征识别方法,如图1所示,包括以下步骤:
步骤1、获取相同类的人脸和指纹数据集。
相同类的人脸和指纹数据集为MultiModal-database-XJTU数据集,该数据集是能适用于生物特征识别性能测试的多模态数据集,包括由传感器采集的指纹图像、相机采集的正面人脸图像、扫描仪采集的掌纹和用麦克风采集的语音特征。MultiModal-database-XJTU包括来自102个个体的真实的多模态生物特征数据。基于此公开数据集,本发明选取人脸和指纹双模态数据集进行模型压缩的实验。其中,指纹模态共102类,每一类有13张图像,共计1326张图片;人脸模态共102类,每一类图像包括不同角度、明暗程度、有无眼镜等多尺度的图像10~20张,共计1530张。每个模态数据存储在各自的文件夹中,四个文件夹包含在一个文件夹中,该文件夹的名称是人的类别号。
步骤2、对人脸数据和指纹数据进行预处理和数据扩充,然后将扩充后的人脸和指纹数据进行随机划分用作训练集和验证集。
人脸数据预处理和数据扩充的具体实现方法为:采用放大缩小、水平翻转、垂直翻转、明亮、变暗、添加椒盐和高斯噪声进行预处理,预处理后对处理图像再次预处理完成人脸数据扩充,共获得10200张人脸图像。
经过预处理后指纹图像和原始指纹图像都为灰度图,脊线特征十分模糊,不利于特征提取。由于Gabor滤波器同时具有频率选择性和方向选择性的特性,并且在空间和频率域均具有最佳的联合分辨率,因此本发明对指纹模态进一步预处理,使用Gabor滤波器作为带通滤波器以消除噪声并保留真实指纹的脊结构,获取指纹图像更加清晰的脊线特征。具体的,首先标准化指纹图像并分割脊线区域,其次估计指纹中脊的局部方向,然后计算脊频率图像,最后估计图像块内的指纹脊线频率。
为了更好的提取指纹图像特征,对原始指纹图像采用定向gabor滤波器组进行增强,然后再利用放大缩小、水平翻转、垂直翻转、明亮、变暗、添加椒盐和高斯噪声预处理,完成后对处理图像再次预处理实现指纹数据扩充,共计获得10200张指纹图像。
缩放操作采用双线性插值来让像素区域关系重采样。添加高斯、椒盐噪声时设置噪声占比为5%进行损害原始图像。重复以上预处理操作一次,使得每一个采样者的指纹和人脸图像都是100张,从而完成数据扩充。指纹图像由原来的1326张变成10200张,人脸图像由原来的1530张变成10200张。
由于原始的图像尺寸差异过大,直接输入到网络模型中进行训练会造成网络模型计算量过大,减慢训练速度,因此利用Pytorch的transforms对训练图像进行中心剪裁,将训练图像裁剪为224×224大小的图像块。
经过预处理和数据扩充后,人脸图像总共102类,每一类有100张图片,共计10200张;指纹数据共计102类,每一类有100张,共计10200张,根据数据集划分方法,将人脸和指纹分别按照4:1划分,最终的数据分布为(a)人脸:训练集8160张,测试集2040张;(b)指纹:训练集8160张,验证集2040张。
步骤3、将步骤2处理之后的数据输入到卷积神经网络的backbone中进行特征提取,然后将提取特征进行融合和匹配;选取优化器,设置教师网络参数,输出教师网络中间层特征、融合特征以及最后的logits输出分数特征,获得性能好的教师模型并保存模型参数。
本发明选取的是卷积神经网络ResNet-like进行特征提取,然后进行多模态特征的融合、分数匹配。其中特征融合采取并行通道-空间注意力融合模块(Parallel Channeland Spatial Attention Feature Fusion Modules,P-CSAFFM),利用注意力机制充分挖掘不同模态的互补信息,对互补信息进行分类匹配,进而提高识别性能。
教师网络采用ResNet-50,该网络由两种残差块组成,一是Identity Block,输入和输出的维度相同,二是Conv Block,输入和输出的维度不同,用以改变特征向量的维度。使用Pytorch框架建立模型,教师网络预先在数据集上训练,采用随机梯度下降(SGD)方法,初始化化学习率,设置网络参数,将训练得到的中间层特征、输出分数以及训练参数保存,用以下一阶段的蒸馏压缩步骤。
在本步骤中,用Pytorch加载两个并行的ResNet-50预训练模型,并将最后一个全连接层去除,只保留backbone特征提取模块,输出人脸、指纹图像的提取特征以及二者中间层的特征列表,然后将两个输出特征传入并行通道-空间注意力融合模块(ParallelChannel and Spatial Attention Feature Fusion Modules,P-CSAFFM),利用注意力机制充分挖掘不同模态的互补信息,对互补信息进行分类匹配,最后,为了适应本发明,将P-CSAFFM输出的特征输入到1024个输出单元的线性层,再连接ReLU层和DropOut层,然后再接一个输出单元为1024个的线性层,后接ReLU层和DropOut层,最后一个全连接层输出单元为102完成分类,网络使用SGD随机梯度优化器优化,初始学习率为0.001,batchsize为64,交叉熵损失函数作为损失函数。学生网络同理,网络结构如图2所示。
其中,并行通道-空间注意力融合模块(Parallel Channel and SpatialAttention Feature Fusion Modules,P-CSAFFM)结构图如图4所示,图4代表了宏观上的P-CSAFFM结构,具体的,给定两个特征映射,都是C×H×W,基于通道和空间注意力的融合机制来提取通道间的空间关系,首先将两个特征映射进行逐像素求和作为初始融合特征,然后将融合特征传入并行通道-空间注意力提取模块,该模块具体结构如图5所示,通道注意力通过全局平均池化(GAP)压缩输入特征图的空间维度,然后根据不同通道在特征中的重要性应用PWConv进行通道重排,获得通道注意力模块输出的特征图。在空间注意模块中,本发明使用两个77卷积来扩展感受野并进行空间信息融合,然后获得空间注意力模块输出的特征图,最后将两个输出进行逐元素相加,与原始的特征图进行点乘获得融合特征图。
步骤4、将学生网络和教师网络进行蒸馏训练,选取优化器,设置学生网络参数,利用步骤3中得到的教师网络模型和参数指导学生网络训练,进行模型压缩,得到训练好的学生模型。
学生网络选取ResNet-18与预训练的教师网络ResNet-50做离线蒸馏,本发明所进行的是三阶知识蒸馏来获取教师网络的结构性知识,它包括三个阶段的知识蒸馏,
第一阶是指对经过骨干网络特征提取层之后的中间层特征进行基于三线性注意力机制的相似性保持蒸馏(Trilinear Attention Similarity-Preserving,TASP),其中三线性注意力机制作用于中间特征图时的特征变化如公式(1)所示,假设特征图是B个尺寸为C H/>W的特征图,其中C、H和W分别表示通道数、高度和宽度。本发明将该特征重新塑造成B个形状为C/>HW的矩阵,表示为/>。然后将X进一步映射成为二维的注意力图表示为/>,通过计算教师网络和学生网络X的内积得到B/>B的相似度矩阵,然后利用均方误差来衡量两个相似度矩阵。该方法可以将卷积特征映射转换为注意力图映射,根据特征图的空间关系整合特征通道,能够更加明确通道间的空间关系,基于此,通过L2归一化激活该批次注意力图,进而计算师生网络之间注意力图的距离差异,完成中间特征的蒸馏;
(1)
其损失函数如公式(2)所示:
(2)
其中,和/>分别表示经过三线性注意力机制处理过的教师、学生中间特征激活注意力图,/>代表教师学生对应的特征层组合,/>代表希尔伯特-施密特范数,是用来衡量注意力图差异的表示。
第二阶是对指纹、人脸融合特征进行基于融合特征的知识蒸馏,该阶段是为了让学生网络的融合特征模仿教师网络的融合特征,利用MSE均方误差损失来计算教师网络融合特征和学生网络融合特征/>之间的距离。其损失函数如式(3)所示:
(3)
其中,代表的卷积层,其目的是为了对齐师生融合特征的维度。
第三阶是引入基于logits的分数层传统蒸馏,让教师网络预测分数的知识以一种软化的编码形式监督学生网络的输出,进而完成匹配层的蒸馏,其损失函数如式(4)所示:
(4)
其中,代表标签,/>代表交叉熵损失,/>代表softmax函数,/>是平衡超参数,/>和/>代表学生和教师网络logits的输出,/>代表温度参数。第一项是经典的交叉熵损失,使用原始数据监督(真实标签)定义,第二项代表学生网络的输出去模仿教师的软化编码输出,从而完成分数层的蒸馏。
最后,本发明将训练学生网络的总损失定义为公式(5),其中和/>代表平衡各项损失的超参数,可以通过微调整体目标损失函数来优化网络模型。
(5)
如图3所示,在蒸馏训练那个,采用的是离线蒸馏,也就是在训练学生网络时,当调用教师网络时只获取结果,教师网络不参与反向传播梯度下降过程,学生网络采用ResNet-18结构。在图3中,师生网络之间知识的学习分为三个阶段,第一阶段利用的是基于TASP的蒸馏方法将师生网络特征提取层提取的中间特征进行差异计算;首先需要把特征图进行三线性注意力转换,如图6中所示,输入一个C/>H/>W的特征图,通过reshape得到一个二维C/>HW特征图,随后将其与转置相乘,获得一个C/>C的特征图,然后与二维C/>HW特征图进行点乘获得三线性注意力图。对B个C/>H/>W的特征图使用三线性注意力转换,获得B/>C/>HW结构的特征图,如图7中所示,然后对其reshape进行激活获得相似度矩阵,计算师生网络之间的相似度矩阵差异从而实现第一阶段蒸馏。第二阶段是对基于P-CSAFFM机制获得的人脸指纹模态融合特征进行差异计算/>。第三阶段是基于logits的蒸馏对分类分数计算差异/>,最后通过最小化总损失/>来更新网络参数直到学生网络达到收敛状态。
步骤5、使用验证集,测试已经训练好的学生网络。
本发明所提出的知识蒸馏方法,学生网络不仅学习了教师网络正确的分类概率,同时利用三阶知识蒸馏的方法使学生网络定性学习教师网络的结构性知识,能够促进学生网络探索最优解空间,具有更好的泛化能力。输入验证集、测试集后,本研究的识别准确率均超过了使用单阶知识蒸馏训练的学生网络,证明了所提方法的有效性和先进性。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (5)
1.基于三阶知识蒸馏的多模态生物特征识别方法,其特征在于:包括以下步骤:
步骤1、获取相同类的人脸和指纹数据集;
步骤2、对人脸数据和指纹数据进行预处理和数据扩充,然后将扩充后的人脸和指纹数据进行随机划分用作训练集和验证集;
步骤3、将步骤2处理之后的数据输入到卷积神经网络的backbone中进行特征提取,然后将提取特征进行融合和匹配;选取优化器,设置教师网络参数,输出教师网络中间层特征、融合特征以及最后的logits输出分数特征,获得性能好的教师模型并保存模型参数;
步骤4、将学生网络和教师网络进行蒸馏训练,选取优化器,设置学生网络参数,利用步骤3中得到的教师网络模型和参数指导学生网络训练,进行模型压缩,得到训练好的学生模型;
步骤4的具体实现方法为:学生网络选取ResNet-18与预训练的教师网络ResNet-50做离线蒸馏;离线蒸馏包括三个阶段的知识蒸馏:
第一阶是指对经过骨干网络特征提取层之后的中间层特征进行基于三线性注意力机制的相似性保持蒸馏;其中三线性注意力机制作用于中间特征图时的特征变化如公式(1)所示,假设特征图是B个尺寸为C×H×W的特征图,其中C、H和W分别表示通道数、高度和宽度,将该特征重新塑造成B个形状为C×HW的矩阵,表示为X∈RB×C×HW;然后将X进一步映射成为二维的注意力图表示为X∈B×CHW,通过计算教师网络和学生网络X的内积得到B×B的相似度矩阵,然后利用均方误差来衡量两个相似度矩阵;该方法将卷积特征映射转换为注意力图映射,根据特征图的空间关系整合特征通道,确通道间的空间关系,通过L2归一化激活该批次注意力图,进而计算师生网络之间注意力图的距离差异,完成中间特征的蒸馏;
其损失函数如公式(2)所示:
其中,Gt和Gs分别表示经过三线性注意力机制处理过的教师、学生中间特征激活注意力图,代表教师学生对应的特征层组合,/>代表希尔伯特-施密特范数,是用来衡量注意力图差异的表示;
第二阶是对指纹、人脸融合特征进行基于融合特征的知识蒸馏,该阶段是为了让学生网络的融合特征模仿教师网络的融合特征,利用MSE均方误差损失来计算教师网络融合特征FT和学生网络融合特征FS之间的距离,其损失函数如公式(3)所示:
其中,f代表1×1的卷积层,其目的是为了对齐师生融合特征的维度;
第三阶是引入基于logits的分数层传统蒸馏,让教师网络预测分数的知识以一种软化的编码形式监督学生网络的输出,进而完成匹配层的蒸馏,其损失函数公式(4)所示:
其中,y代表标签,代表交叉熵损失,σ(·)代表softmax函数,α是平衡超参数,ZS和ZT代表学生和教师网络logits的输出,T代表温度参数;第一项是经典的交叉熵损失,使用原始数据监督定义,第二项代表学生网络的输出去模仿教师的软化编码输出,从而完成分数层的蒸馏;
最后,将训练学生网络的总损失定义为公式(5),其中β和γ代表平衡各项损失的超参数,通过微调整体目标损失函数来优化网络模型:
步骤5、使用验证集,测试已经训练好的学生网络。
2.根据权利要求1所述的基于三阶知识蒸馏的多模态生物特征识别方法,其特征在于:所述步骤1中相同类的人脸和指纹数据集为MultiModal-database-XJTU数据集,包括由传感器采集的指纹图像、相机采集的正面人脸图像、扫描仪采集的掌纹和用麦克风采集的语音特征。
3.根据权利要求1所述的基于三阶知识蒸馏的多模态生物特征识别方法,其特征在于:所述步骤2中人脸数据预处理和数据扩充的具体实现方法为:采用放大缩小、水平翻转、垂直翻转、明亮、变暗、添加椒盐和高斯噪声进行预处理,预处理后对处理图像再次预处理完成人脸数据扩充。
4.根据权利要求1所述的基于三阶知识蒸馏的多模态生物特征识别方法,其特征在于:所述步骤2中指纹数据预处理和数据扩充的具体实现方法为:对原始指纹图像采用定向gabor滤波器组进行增强,然后再利用放大缩小、水平翻转、垂直翻转、明亮、变暗、添加椒盐和高斯噪声预处理,完成后对处理图像再次预处理实现指纹数据扩充。
5.根据权利要求1所述的基于三阶知识蒸馏的多模态生物特征识别方法,其特征在于:所述步骤3中教师网络采用ResNet-50,教师网络使用Pytorch框架建立模型,教师网络预先在数据集上训练,采用随机梯度下降SGD方法,初始化学习率,设置网络参数,将训练得到的中间层特征、输出分数以及训练参数保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410244697.0A CN117831138B (zh) | 2024-03-05 | 2024-03-05 | 基于三阶知识蒸馏的多模态生物特征识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410244697.0A CN117831138B (zh) | 2024-03-05 | 2024-03-05 | 基于三阶知识蒸馏的多模态生物特征识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117831138A CN117831138A (zh) | 2024-04-05 |
CN117831138B true CN117831138B (zh) | 2024-05-24 |
Family
ID=90523024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410244697.0A Active CN117831138B (zh) | 2024-03-05 | 2024-03-05 | 基于三阶知识蒸馏的多模态生物特征识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117831138B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822125A (zh) * | 2021-06-24 | 2021-12-21 | 华南理工大学 | 唇语识别模型的处理方法、装置、计算机设备和存储介质 |
CN114677304A (zh) * | 2022-03-28 | 2022-06-28 | 东南大学 | 一种基于知识蒸馏和深度神经网络的图像去模糊算法 |
CN115496213A (zh) * | 2022-08-23 | 2022-12-20 | 华中科技大学 | 一种基于结构特征知识的知识蒸馏方法及*** |
CN115578353A (zh) * | 2022-10-18 | 2023-01-06 | 中科(黑龙江)数字经济研究院有限公司 | 一种基于图流蒸馏的多模态医学影像分割方法及装置 |
CN115995121A (zh) * | 2022-11-02 | 2023-04-21 | 吉林大学 | 一种基于attention模块的多模态的生物识别方法 |
CN116052211A (zh) * | 2023-01-04 | 2023-05-02 | 内蒙古科技大学 | 一种基于知识蒸馏的YOLOv5s轻量级羊只品种识别方法及*** |
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN116385832A (zh) * | 2023-04-10 | 2023-07-04 | 思腾合力(天津)科技有限公司 | 双模态生物特征识别网络模型训练方法 |
CN116468113A (zh) * | 2023-04-20 | 2023-07-21 | 支付宝(杭州)信息技术有限公司 | 活体检测模型的训练方法、活体检测方法和*** |
CN116895100A (zh) * | 2023-06-21 | 2023-10-17 | 大连理工大学 | 基于空频特征融合的知识蒸馏深度伪造检测方法及*** |
CN116912585A (zh) * | 2023-07-24 | 2023-10-20 | 河北工业大学 | 基于自监督学习和知识蒸馏的sar目标识别方法 |
CN117077078A (zh) * | 2023-08-11 | 2023-11-17 | 华侨大学 | 基于三模态融合对比学习的跨人脸-语音验证方法及*** |
CN117576535A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、设备以及存储介质 |
CN117610608A (zh) * | 2023-10-20 | 2024-02-27 | 重庆理工大学 | 基于多阶段特征融合的知识蒸馏方法、设备及介质 |
-
2024
- 2024-03-05 CN CN202410244697.0A patent/CN117831138B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822125A (zh) * | 2021-06-24 | 2021-12-21 | 华南理工大学 | 唇语识别模型的处理方法、装置、计算机设备和存储介质 |
CN114677304A (zh) * | 2022-03-28 | 2022-06-28 | 东南大学 | 一种基于知识蒸馏和深度神经网络的图像去模糊算法 |
CN115496213A (zh) * | 2022-08-23 | 2022-12-20 | 华中科技大学 | 一种基于结构特征知识的知识蒸馏方法及*** |
CN115578353A (zh) * | 2022-10-18 | 2023-01-06 | 中科(黑龙江)数字经济研究院有限公司 | 一种基于图流蒸馏的多模态医学影像分割方法及装置 |
CN115995121A (zh) * | 2022-11-02 | 2023-04-21 | 吉林大学 | 一种基于attention模块的多模态的生物识别方法 |
CN116052211A (zh) * | 2023-01-04 | 2023-05-02 | 内蒙古科技大学 | 一种基于知识蒸馏的YOLOv5s轻量级羊只品种识别方法及*** |
CN116385832A (zh) * | 2023-04-10 | 2023-07-04 | 思腾合力(天津)科技有限公司 | 双模态生物特征识别网络模型训练方法 |
CN116468113A (zh) * | 2023-04-20 | 2023-07-21 | 支付宝(杭州)信息技术有限公司 | 活体检测模型的训练方法、活体检测方法和*** |
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN116895100A (zh) * | 2023-06-21 | 2023-10-17 | 大连理工大学 | 基于空频特征融合的知识蒸馏深度伪造检测方法及*** |
CN116912585A (zh) * | 2023-07-24 | 2023-10-20 | 河北工业大学 | 基于自监督学习和知识蒸馏的sar目标识别方法 |
CN117077078A (zh) * | 2023-08-11 | 2023-11-17 | 华侨大学 | 基于三模态融合对比学习的跨人脸-语音验证方法及*** |
CN117610608A (zh) * | 2023-10-20 | 2024-02-27 | 重庆理工大学 | 基于多阶段特征融合的知识蒸馏方法、设备及介质 |
CN117576535A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117831138A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Offline signature verification using a region based deep metric learning network | |
CN108427921A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN111563508A (zh) | 一种基于空间信息融合的语义分割方法 | |
CN110263912A (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN107423727B (zh) | 基于神经网络的人脸复杂表情识别方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN114299559A (zh) | 基于轻量级融合全局与局部特征网络的指静脉识别方法 | |
Liu et al. | Fingerprint pore matching using deep features | |
CN115830652B (zh) | 一种深度掌纹识别装置及方法 | |
CN106529395A (zh) | 基于深度置信网络和k均值聚类的签名图像鉴定方法 | |
CN115995121A (zh) | 一种基于attention模块的多模态的生物识别方法 | |
CN116386102A (zh) | 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 | |
CN116385832A (zh) | 双模态生物特征识别网络模型训练方法 | |
CN103942545A (zh) | 一种基于双向压缩数据空间维度缩减的人脸识别方法和装置 | |
CN114429646A (zh) | 基于深度自注意力变换网络的步态识别方法 | |
CN110222568A (zh) | 一种基于时空图的跨视角步态识别方法 | |
Elbarawy et al. | Facial expressions recognition in thermal images based on deep learning techniques | |
CN117831138B (zh) | 基于三阶知识蒸馏的多模态生物特征识别方法 | |
CN117093692A (zh) | 一种基于深度融合的多粒度图像-文本匹配方法及*** | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别*** | |
Gona et al. | Multimodal biometric reorganization system using deep learning convolutional neural network | |
CN114944002B (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
CN110135253A (zh) | 一种基于长期递归卷积神经网络的手指静脉认证方法 | |
CN116501908A (zh) | 一种基于特征融合可学习图注意力网络的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |