CN116385832A

CN116385832A - 双模态生物特征识别网络模型训练方法

Info

Publication number: CN116385832A
Application number: CN202310371544.8A
Authority: CN
Inventors: 王波; 国英龙; 杨巨成; 王伟; 路开奎; 贾智洋; 魏峰; 徐振宇; 王嫄; 赵青; 陈亚瑞
Original assignee: Siteng Heli Tianjin Technology Co ltd
Current assignee: Siteng Heli Tianjin Technology Co ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-04

Abstract

本发明实施例公开了一种双模态生物特征识别网络模型训练方法，包括：获取人脸、指静脉数据集，根据指静脉图像的类别数，随机从人脸数据集中选择相同的类别数用作训练集和验证集；将所述训练集中的人脸数据和指静脉图像输入到浅层特征提取神经网络，得到浅层融合生物特征；将浅层融合生物特征输入到初始化参数的教师残差神经网络模型中进行训练；将浅层融合生物特征输入到初始学生残差神经网络模型中，学生网络模型中最后一个卷积层与教师网络模型最后一个卷积层连接；将验证集分别输入学生网络模型和教师模型，分别获取每个模型输出的特征图，并将两个特征图输入到判别器中，根据判别器的识别结果对初步训练完成的学生残差神经网络模型进行优化。

Description

双模态生物特征识别网络模型训练方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种双模态生物特征识别网络模型训练方法。

背景技术

目前，随着硬件设备的在新的硬件设备、计算能力和深度学习网络框架技术的推动下，生物特征识别技术目前也进入了繁荣期，用生物识别技术来鉴定身份、保护信息安全已成为主流，被广泛用于银行、公安、社保、网络、电子支付等公共安全身份认证领域。常用的有指纹识别、人脸识别、虹膜识别、声音识别、掌静脉识别、牙齿识别等。

多生物特征图像识别利用人体的多种生物特征，通过融合各种单生物特征(如指纹、人脸、手指静脉等)进行识别，利用各种单生物特征之间的多样性和互补性，可以改善***的抗噪性、普适性、可靠性、安全性等多方面性能，消除单生物特征识别的各种限制，具有鲁棒性更佳的表现。

在实现本发明的过程中，发明人发现如下技术问题：由于采用多模态方式进行特征识别，处理的数据量较大，且提取的特征较多。并且需要特征融合，导致现有的网络模型普遍结构较大，带来性能的同时也会伴随参数的指数型上升，其性能更依靠于终端的运算能力，制约了多模态生物特征识别的广泛应用。

发明内容

本发明实施例提供了一种双模态生物特征识别网络模型训练方法，以解决现有技术中对轻量级生物特征识别网络模型无法实现双模态生物特征准确识别的技术问题。

本发明实施例提供了一种双模态生物特征识别网络模型训练方法，包括：

获取人脸、指静脉数据集，根据指静脉图像的类别数，随机从人脸数据集中选择相同的类别数用作训练集和验证集；

将所述训练集中的人脸数据和指静脉图像输入到浅层特征提取神经网络，得到浅层融合生物特征；

将所述浅层融合生物特征输入到初始化参数的教师残差神经网络模型中，并通过梯度下降方式训练得到所述教师残差神经网络模型中的参数，得到训练完成的教师残差神经网络模型；

将所述浅层融合生物特征输入到初始学生残差神经网络模型中，学生残差神经网络模型为轻量化教师残差神经网络模型，所述初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，用于学习所述训练完成的教师残差神经网络模型的特征参数，得到初步训练完成的学生残差神经网络模型；

将验证集分别输入所述初步训练完成的学生残差神经网络模型和完成的教师残差神经网络模型，分别获取每个网络模型最后一层输出的特征图，并将两个特征图输入到判别器中，所述判别器用于判别所述特征图的来源，并根据判别器的识别结果对所述初步训练完成的学生残差神经网络模型进行优化，优化后的初步训练完成的学生残差神经网络模型为双模态生物特征识别网络模型。

进一步的，所述判别器包括：

三个全连接层，在第一和第二全连接层中设有中间激活层，第三连接层后为输出层，所述输出层采用Sigmoid函数。

进一步的，所述判别器的对抗损失函数如下：

其中，D(y)表示将数据y传入判别器D返回的值，G(z)表示将具有特定分布的输入噪声z映射到期望数据y中，鉴别器D来区分原始数据y和合成数据G(z)。

进一步的，所述初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，用于学习所述训练完成的教师残差神经网络模型的特征参数，包括：

所述初始学生残差神经网络模型中最后一个卷积层获取所述训练完成的教师残差神经网络模型最后一个卷积层输出的二维注意力图并进行学习，得到学习二维注意力图。

进一步的，所述根据判别器的识别结果对所述初步训练完成的学生残差神经网络模型进行优化，包括：

在所述判别器的对抗损失函数小于设定的对抗损失阈值时，计算所述二维注意力图和学习二维注意力图的损失函数；

根据所述二维注意力图和学习二维注意力图的损失函数计算所述初步训练完成的学生残差神经网络模型的损失函数；

根据所述初步训练完成的学生残差神经网络模型的损失函数计算得到优化超参数，并根据所述优化超参数对所述初步训练完成的学生残差神经网络模型进行调整。

进一步的，所述获取指静脉数据集，包括：

对原始指静脉图像进行边缘粗检测；

对得到的手指边界进行完整性检测，在手指边界正确时，执行旋转矫正和ROI提取。

进一步的，所述对原始指静脉图像进行边缘粗检测，包括：

利用预设的模板在原始指静脉图像做卷积运算，根据卷积运算结果得到边缘粗检测结果。

进一步的，所述方法还包括：

在手指边界错误时，将错误边界点删除，然后利用剩余的正确边界点作为全连接神经网络的样本，拟合修复残缺的手指边界得到完整的手指边界，再执行过相同的旋转矫正和ROI提取操作。

更进一步的，所述获取指静脉数据集，还包括：

将提取到的ROI图像进行对比度受限自适应直方图均衡化增强；

对增强后的ROI图像进行数据扩充。

本发明实施例提供的双模态生物特征识别网络模型训练方法，通过获取人脸、指静脉数据集，根据指静脉图像的类别数，随机从人脸数据集中选择相同的类别数用作训练集和验证集；将所述训练集中的人脸数据和指静脉图像输入到浅层特征提取神经网络，得到浅层融合生物特征；将所述浅层融合生物特征输入到初始化参数的教师残差神经网络模型中，并通过梯度下降方式训练得到所述教师残差神经网络模型中的参数，得到训练完成的教师残差神经网络模型；将所述浅层融合生物特征输入到初始学生残差神经网络模型中，学生残差神经网络模型为轻量化教师残差神经网络模型，所述初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，用于学习所述训练完成的教师残差神经网络模型的特征参数，得到初步训练完成的学生残差神经网络模型；将验证集分别输入所述初步训练完成的学生残差神经网络模型和完成的师残差神经网络模型，分别获取每个网络模型最后一层输出的特征图，并将两个特征图输入到判别器中，所述判别器用于判别所述特征图的来源，并根据判别器的识别结果对所述初步训练完成的学生残差神经网络模型进行优化，优化后的初步训练完成的学生残差神经网络模型为双模态生物特征识别网络模型。通过设定一个复杂和一个简单残差神经网络，分别对双模态生物特征进行训练学习，通过复杂神经网络充分提取双模态生物特征，并将提取到的生物特征传递至简单残差神经网络，使得简单残差神经网络在训练优化中可直接得到提取到的生物特征并进行学习，对自身的参数进行优化设计。并且利用对抗判别机制，用于对二者提取的特征差异进行判别，在判别结果过大时，利用损失函数对简单残差神经网络参数进行进一步的优化，实现对简单残差神经网络的训练，使得训练后的简单残差神经网络能够具有优异的双模态生物特征识别能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例提供的双模态生物特征识别网络模型训练方法的流程示意图；

图2是本发明实施例提供的双模态生物特征识别网络模型训练方法中的多尺度特征注意力模块的结构示意图；

图3是本发明实施例提供的双模态生物特征识别网络模型训练方法中的注意力特征融合模块的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是本发明实施例提供的双模态生物特征识别网络模型训练方法的流程图，本实施例可适用于对简单残差神经网络进行训练，实现精确进行双模态生物特征识别作用的情况，该方法可以由双模态生物特征识别网络模型训练装置来执行，并可集成于服务器中，具体包括如下步骤：

步骤110，获取人脸、指静脉数据集，根据指静脉图像的类别数，随机从人脸数据集中选择相同的类别数用作训练集和验证集。

静脉数据集可采用公开数据集。第一公开数据集可包含106人的左、右手的食指、中指和无名指中每根手指的6张指静脉图像，共636类手指图像，总计3816张。第二公开数据集包含123人的左、右手的食指和中指中每根手指的6张图像，共492类手指图像，总计2952张。人脸数据集采用公开的CASIA-WebFace数据集，该数据集是应用于人脸识别领域最广泛的公开数据集之一，该数据集收集了网络上的人脸图像，共10575类，494414张图像.我们根据指静脉图像的类别数，随机从人脸数据集中选择相同的类别数。

由于部分数据集没有提供指静脉的兴趣区域(ROI)图像，所以需要对该数据集中图像进行ROI的截取，以去除过多的背景无用信息。

传统方式中通常采用Sobel、Canny等边缘检测算子进行边缘检测，提取ROI区域。但在应用到指静脉图像中会受到设备背景、光照不均匀等一系列因素的影响，会影响对感兴趣区域的获取。因此，在本实施例中，采用基于卷积模板边缘检测的指静脉ROI提取，通过对手指的边界做边缘粗检测、完整性检测、修复缺失边界来得到完整的手指边界。示例性的，利用预设的模板在原始指静脉图像做卷积运算，根据卷积运算结果得到边缘粗检测结果。利用卷积可提取出不同位置像素的特征，基于特征确定对应的边缘。在手指边界错误时，将错误边界点删除，然后利用剩余的正确边界点作为全连接神经网络的样本，拟合修复残缺的手指边界得到完整的手指边界。通过全连接神经网络可对残缺部分进行补充。

在得到边界后，将图像行旋转矫正和ROI提取。获取得到ROI图像。另外，对提取到的ROI图像进行对比度受限自适应直方图均衡化(contrast limited adaptive histogramequalization，CLAHE)，即CLAHE图像增强，获取更加清晰的ROI图像。由于两个指静脉数据集每一根手指只提供6张图像，因此还对每一类指静脉进行了数据扩充，其中包括对图像随机平移、旋转、裁剪、亮度调节、对比度调节，将原本每类6张图像扩充至每类36张图像，能够有效的避免在深度卷积操作中出现过拟合现象。还可对ROI图像进行灰度化、灰度拉伸来增强图像对比度，为了去除灰度图中的噪声影响，本实施例采用非线性的同态滤波方法，在保持图像的边缘特性下，也不会让图像失真，同时增加对比度。

并可按照设定的比例将同类别的图像划分为训练集和验证集。

步骤120，将所述训练集中的人脸数据和指静脉图像输入到浅层特征提取神经网络，得到浅层融合生物特征。

在本实施例中，采用VGG-16模型并去除全连接层。使用ImageNet数据集训练得到的权重，然后分别获得本任务中人脸数据和指静脉的特征，融合特征采用AFF模块进行融合，并将融合特征重新映射成224*224*3。AFF嵌套多尺度通道注意力模块(MS-CAM)，在注意力模块内部将局部上下文添加到全局上下文中。浅层特征融合，输入的指静脉和人脸图像，对其进行浅层特征提取后直接进行浅层特征融合。将融合结果直接作为后续网络的输入。

特征融合是来自不同层或分支的特征的组合，是如今深度神经网络体系结构中无所不在的一部分。它通常通过简单线性的操作(例如:求和(summation)或串联(concatenation))来实现。由于多模态识别任务需要进行特征融合，因此选择在特征层进行特征融合，而特征层融合的输入是从不同模态提取到的特征集合，通过不同的融合方法和融合方式构成新的代表多个模态的高层特征集合。在本实施例中，为了更好地融合语义和尺度不一致的特征，在AFF基础上提出了多尺度通道注意力模块(MS-CAM)，通过尺度不同的两个分支来提取通道注意力，该模块解决了融合不同尺度特征时出现的问题。MS-CAM主要是在CNN上结合Local/Global的特征。

图2是本发明实施例提供的双模态生物特征识别网络模型训练方法中的多尺度特征注意力模块的结构示意图，图3是本发明实施例提供的双模态生物特征识别网络模型训练方法中的注意力特征融合模块的结构示意图，参见图2和图3，利用MS-CAM模块，构造注意力特征融合模块(AFF)，如图2所示，对于特征提取模块所提取的指静脉特征和人脸特征进行注意力特征融合。对输入的两个特征X,Y先做初始特征融合，经过sigmod激活函数，输出值为0～1之间，然后对X、Y做加权平均，就用1减去这组Fusion weight，可以作到Softselection，通过训练，让网络确定各自的权重。对于所获得的融合特征在进行特征识别，完成双生物特征识别任务。

步骤130，将所述浅层融合生物特征输入到初始化参数的教师残差神经网络模型中，并通过梯度下降方式训练得到所述教师残差神经网络模型中的参数，得到训练完成的教师残差神经网络模型。

示例性的，教师残差神经网络模型可采用ResNet-50预训练模型，输出最后一个卷积层的特征图。网络由两种残差块组成，一是Identity Block，输入和输出的维度相同，二是Conv Block，输入和输出的维度不同，用以改变特征向量的维度。使用Pytorch框架建立模型，教师网络预先在数据集上训练，采用随机梯度下降方法，初始化化学习率，设置网络参数。为了适应本发明任务，将最后一个全连接层输入给一个256个输出单元的线性层，接着再连接ReLU层和DropOut层，然后是256*6的线性层，输出为6通道的Softmax层，使用Adam优化器优化。

步骤140，将所述浅层融合生物特征输入到初始学生残差神经网络模型中，学生残差神经网络模型为轻量化教师残差神经网络模型，所述初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，用于学习所述训练完成的教师残差神经网络模型的特征参数，得到初步训练完成的学生残差神经网络模型。

深度神经网络的知识蒸馏压缩技术根据蒸馏知识形式的不同主要分为四类：输出特征知识、中间特征知识、关系特征知识和结构特征知识。(1)输出特征知识。输出特征知识蒸馏的主要思想是促使学生能够学习到教师模型的最终预测，包括hard target和softtarget，以达到和教师模型一样的预测性能。(2)中间特征知识。一个足够深的深度神经网络，只利用输出特征知识是不够的，教师网络和学生网络的容量差异过大，学生网络只利用输出特征知识无法达到教师网络的特征表达能力。中间特征知识，其主要思想是从教师中间的网络层中提取特征来充当学生模型中间层输出的提示(Hint)，它不仅需要利用教师模型的输出特征知识，还需要使用教师模型隐含层中的特征图知识。(3)关系特征知识。关系特征指的是教师模型不同层和不同数据样本之间的关系知识.关系特征知识蒸馏认为学习的本质不是特征输出的结果，而是层与层之间和样本数据之间的关系。(4)结构特征知识。结构特征知识是教师模型的完整知识体系，不仅包括教师的输出特征知识，中间特征知识和关系特征知识，还包括教师模型的区域特征分布等知识。结构特征知识蒸馏是以互补的形式利用多种知识来促使学生的预测能包含和教师一样丰富的结构知识。知识蒸馏的首要问题是要明确迁移教师网络中的哪些知识，其知识应当是合适且足够的。结构化的特征知识可以被充分利用来提高学生网络和教师模型的全局结构一致性.。同时，结构特征知识包含的多样性知识能提供给学生多个不同视角下的信息，因而是一个更高效的教学范式。

学生网络可以选取ResNet32,使得网络模型结构更加轻量化。初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，避免师生网络中之间容量差异所造成的特征缺失，加入注意力图转移机制(Attention Transfer)，对于师生网络特征提取的最后一层，利用一个注意力图来代替多个通道提取出来的特征图，通过让学生网络的注意力图拟合教师网络的注意力图。

步骤150，将验证集分别输入所述初步训练完成的学生残差神经网络模型和完成的教师残差神经网络模型，分别获取每个网络模型最后一层输出的特征图，并将两个特征图输入到判别器中，所述判别器用于判别所述特征图的来源，并根据判别器的识别结果对所述初步训练完成的学生残差神经网络模型进行优化，优化后的初步训练完成的学生残差神经网络模型为双模态生物特征识别网络模型。

学生网络与训练好的教师网络做对抗训练，引入判别器，判别器为由多个全连接层构成的深度学习网络，识别输入的特征图是“真”(教师网络)还是“假”(学生网络)，使学生网络能够自动学习类间的相关性，并在训练过程中更新权重。同时，为了避免师生网络中之间容量差异所造成的特征缺失，利用注意力图转移机制(Attention Transfer)，对于师生网络特征提取的最后一层，利用一个注意力图来代替多个通道提取出来的特征图，将C个通道的特征图映射为单通道的注意力图。如以下公式所示，表示将C个空间维数为H×W的映射为H×W的二维注意力图。通过让学生网络的注意力图拟合教师网络的注意力图，并联合对抗损失、输出层蒸馏损失对学生网络进行训练。

注意力图转移机制可以很好的把教师网络中提取的中间特征转移给学生网络，大大提高学生网络的泛化能力。加入知识蒸馏的软标签蒸馏，强化对于分类任务中类与类之间的联系，有利于学生网络的学习到数据的分布特性。另外，引入对抗网络，利用判别器机制来鉴定输入是来自哪一个网络。判别器为由多个全连接层构成的深度学习网络。训练过程中是为了最小化对抗损失，能够确保判别器可以有效判断两个不同的分布，以此来构成对抗训练中的min max Ladv，当判别器对于输入的判别准确率达到50％的时候，那么该网络达到了收敛状态。采用生成对抗网络中的对抗损失函数如下式所示，其中D(y)表示将数据y传入判别器D返回的值，G(z)表示将具有特定分布的输入噪声z映射到期望数据y中，即G：z--->y，鉴别器D来区分原始数据y和合成数据G(z)：

利用对抗学习策略可以进一步缩小大模型和小模型之间的差异，提高学生模型的识别准确率，降低了学生模型的参数量，解决了双模态深度神经网络训练时间长、泛化能力弱、部署困难等落地问题。

相应的，所述初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，用于学习所述训练完成的教师残差神经网络模型的特征参数，包括：所述初始学生残差神经网络模型中最后一个卷积层获取所述训练完成的教师残差神经网络模型最后一个卷积层输出的二维注意力图并进行学习，得到学习二维注意力图。

所述根据判别器的识别结果对所述初步训练完成的学生残差神经网络模型进行优化，包括：在所述判别器的对抗损失函数小于设定的对抗损失阈值时，计算所述二维注意力图和学习二维注意力图的损失函数；根据所述二维注意力图和学习二维注意力图的损失函数计算所述初步训练完成的学生残差神经网络模型的损失函数；根据所述初步训练完成的学生残差神经网络模型的损失函数计算得到优化超参数，并根据所述优化超参数对所述初步训练完成的学生残差神经网络模型进行调整。

注意力图转移损失通过如下方式计算：

S和T分别表示学生和教师网络，L(Ws，x)表示标准的交叉熵损失函数，Ws表示学生网络的权重，

分别代表教师和学生的注意力特征图。为了方便学生网络训练，将其归一化后作差并取p范数(通常取p＝2，即L2正则化)，得到总的损失函数。将基于Logits的知识蒸馏引入/>

学生网络总的损失函数可以表示如以下所示，其中α和β表示超参数，取值范围为[0,1)。

通过超参数对学生残差神经网络模型进行优化，得到训练完成的学生残差神经网络模型。

本实施例通过获取人脸、指静脉数据集，根据指静脉图像的类别数，随机从人脸数据集中选择相同的类别数用作训练集和验证集；将所述训练集中的人脸数据和指静脉图像输入到浅层特征提取神经网络，得到浅层融合生物特征；将所述浅层融合生物特征输入到初始化参数的教师残差神经网络模型中，并通过梯度下降方式训练得到所述教师残差神经网络模型中的参数，得到训练完成的教师残差神经网络模型；将所述浅层融合生物特征输入到初始学生残差神经网络模型中，学生残差神经网络模型为轻量化教师残差神经网络模型，所述初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，用于学习所述训练完成的教师残差神经网络模型的特征参数，得到初步训练完成的学生残差神经网络模型；将验证集分别输入所述初步训练完成的学生残差神经网络模型和完成的师残差神经网络模型，分别获取每个网络模型最后一层输出的特征图，并将两个特征图输入到判别器中，所述判别器用于判别所述特征图的来源，并根据判别器的识别结果对所述初步训练完成的学生残差神经网络模型进行优化，优化后的初步训练完成的学生残差神经网络模型为双模态生物特征识别网络模型。通过设定一个复杂和一个简单残差神经网络，分别对双模态生物特征进行训练学习，通过复杂神经网络充分提取双模态生物特征，并将提取到的生物特征传递至简单残差神经网络，使得简单残差神经网络在训练优化中可直接得到提取到的生物特征并进行学习，对自身的参数进行优化设计。并且利用对抗判别机制，用于对二者提取的特征差异进行判别，在判别结果过大时，利用损失函数对简单残差神经网络参数进行进一步的优化，实现对简单残差神经网络的训练，使得训练后的简单残差神经网络能够具有优异的双模态生物特征识别能力。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种双模态生物特征识别网络模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述判别器包括：

3.根据权利要求2所述的方法，其特征在于，所述判别器的对抗损失函数如下：

4.根据权利要求3所述的方法，其特征在于，所述初始学生残差神经网络模型中最后一个卷积层与所述训练完成的教师残差神经网络模型最后一个卷积层相连接，用于学习所述训练完成的教师残差神经网络模型的特征参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据判别器的识别结果对所述初步训练完成的学生残差神经网络模型进行优化，包括：

6.根据权利要求4所述的方法，其特征在于，所述获取指静脉数据集，包括：

对原始指静脉图像进行边缘粗检测；

7.根据权利要求6所述的方法，其特征在于，所述对原始指静脉图像进行边缘粗检测，包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述获取指静脉数据集，还包括：

对增强后的ROI图像进行数据扩充。