CN115565021A

CN115565021A - 基于可学习特征变换的神经网络知识蒸馏方法

Info

Publication number: CN115565021A
Application number: CN202211196707.5A
Authority: CN
Inventors: 王勇涛; 刘子炜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-03
Also published as: WO2024066111A1

Abstract

本发明提出了一种基于可学习特征变换的神经网络知识蒸馏方法，属于计算机视觉技术领域。本发明对齐学生模型与教师模型的中间特征和输出结果，无需针对不同任务设计复杂的特征变换模块，不引入复杂的超参数，免去了繁琐的参数调整步骤，可以提高知识蒸馏在多个任务上的通用性，提升知识蒸馏效果的同时免去了手工设计结构的繁琐，在多个计算机视觉任务上(如图片分类、目标检测、语义分割等)实现了性能提升。

Description

基于可学习特征变换的神经网络知识蒸馏方法

技术领域

本发明属于计算机视觉技术领域，涉及计算机视觉、神经网络模型压缩、基于中间特征的神经网络知识蒸馏等深度学习技术。

背景技术

近年来，随着深度学***台上进行部署。为解决这一问题，需要使用到神经网络模型压缩技术。

知识蒸馏是目前神经网络模型压缩技术中一种重要的方法，该方法将大规模神经网络作为教师网络，将小规模神经网络作为学生网络，将教师网络的知识传递到学生网络中，进而获得一个复杂度低、性能好、易于部署的神经网络，达到模型压缩的目的。

目前，主流的知识蒸馏方法分为基于输出响应和基于中间特征的知识蒸馏，基于输出响应的知识蒸馏方法将教师模型尾层的预测结果作为监督信息，指导学生模型对教师模型的行为进行模仿。基于中间特征的知识蒸馏方法则将教师模型中间隐藏层的特征作为监督信号指导学生模型训练。在实际应用中，针对不同的视觉任务衍生出了多种多样的知识蒸馏方法，而这些方法往往有很多手工设计的部分，如损失函数、特征掩膜，而这些手工设计的部分一方面使得蒸馏方法的通用性降低，另一方面带来额外的超参数，使得调参难度增大。

发明内容

为了解决上述问题，本发明提出了一种基于可学习特征变换的知识蒸馏方法，将学生模型的中间特征与输出响应与教师模型进行对齐，提升知识蒸馏效果的同时免去了手工设计结构的繁琐，在多个计算机视觉任务上(如图片分类、目标检测、语义分割等)实现了性能提升。

本发明提供的技术方案是：

一种基于可学习特征变换的知识蒸馏方法，如图1所示，其步骤包括：

1)将输入数据输入教师模型，所述教师模型的中间层输出第一特征图，将所述输入数据输入学生模型，所述学生模型的中间层输出第二特征图；

2)将第二特征图与第一特征图进行空间维度和通道维度上的对齐，对齐后的特征图通过一个多层感知机模块得到第三特征图；同时，对对齐后的特征图的形状展开和转置，再通过另一个多层感知机模块得到变换后的特征图，再将变换后的特征图形状恢复成变换前的形状，得到第四特征图；

3)计算第一特征图和第三特征图间的均方差损失作为空间特征损失，计算第一特征图和第四特征图间的均方差损失作为通道特征损失，将所述空间特征损失和所述通道特征损失加权求和作为教师模型与学生模型间的知识蒸馏损失函数；

4)根据所述知识蒸馏损失函数，对学生模型进行训练实现知识蒸馏。

优选地，所述多层感知机模块为隐藏层数为1，激活函数为ReLU的多层感知机结构。

优选地，通过双线性插值和1x1卷积将所述第二特征图与所述第一特征图进行空间维度和通道维度上的对齐。

进一步，取得所述学生模型的下游任务，根据下游任务类型匹配模型的目标函数，将目标函数和知识蒸馏损失函数组合对学生模型进行训练。

进一步，根据所述教师模型、所述学生模型、所述下游任务调整所述蒸馏损失函数的超参数，将所述目标函数中的回归损失函数、分类损失函数和知识蒸馏损失函数求和获得所述学生模型训练的总损失函数，根据该总损失函数对所述学生模型进行训练。

本发明的有益效果：

本发明提供一种基于可学习特征变换的知识蒸馏方法，对齐教师模型和学生模型的特征，提高蒸馏效果，同时无需针对不同任务设计复杂的特征变换模块，不引入复杂的超参数，免去了繁琐的参数调整步骤，提高了知识蒸馏在多个任务上的通用性，在多种计算机视觉任务上均能取得不错的效果。

附图说明

图1为本发明基于可学习特征变换的知识蒸馏方法流程示意图；

图2为本发明具体实施例学生模型的训练过程架构示意图。

具体实施方式

下面结合附图，通过实例进一步描述本发明，但不以任何方式限制本发明的范围。

以大规模目标检测数据集COCO为例，以在该数据上预训练好的RetinNet-rx101作为教师模型，并选取RetinaNet-R50作为学生模型来说明如何通过可学习变换模块进行目标检测任务上的知识蒸馏，如图2所示。

步骤S1:将输入数据输入教师模型得到所述教师模型的中间层输出的第一特征图，将所述输入数据输入学生模型得到所述学生模型的中间层输出的第二特征图，具体包括：

S11：将任意一批原始的训练图片输入进教师模型RetinNet-rx101中，在所述教师模型的FPN部分得到中间层输出的第一特征图。

S12：将所述训练图片输入进学生模型RetinaNet-R50中，在所述学生模型的FPN部分得到中间层输出的第二特征图。

步骤S2：利用多层感知机模块得到第三特征图和第四特征图，具体包括：

S21：通过双线性插值和1x1卷积将所述第二特征图与所述第一特征图进行空间维度和通道维度上的对齐，得到对齐后的特征图；

S22：将所述对齐后的特征图通过一个隐藏层数为1，激活函数为ReLU的多层感知机模块得到第三特征图。

S23：设所述对齐后的特征图形状为[N，C，H，W]，将该特征图的形状通过展开和转置操作调整为[N，(H*W)，C]，将调整后的特征图通过一个隐藏层数为1，激活函数为ReLU的多层感知机模块得到变换后的特征图，再将变换后的特征图形状调整为[N，C，H，W]得到所述第四特征图。

步骤S3：根据所述第一特征图、第三特征图和第四特征图，计算所述教师模型和所述学生模型间的空间特征损失和通道特征损失，将所述空间特征损失和所述通道特征损失加权求和作为所述教师模型与所述学生模型间的知识蒸馏损失函数，具体包括：

S31：计算所述第一特征图和所述第三特征图间的均方差损失作为所述空间特征损失，其表达式为：

其中feat_T为所述第一特征图，

为所述第三特征图

S32：计算所述第一特征图和所述第四特征图间的均方差损失作为所述通道特征损失，其表达式为：

其中feat_T为所述第一特征图，

为所述第四特征图

S33：将所述空间特征损失和所述通道特征损失加权求和得到所述知识蒸馏损失函数，其表达式为：

L_distill＝αLoss_Spatial+βLoss_Channel

其中α，β为超参数，在本实施例中分别设定为2e-5和1e-6。

步骤S4：根据所述知识蒸馏损失函数，对学生模型进行训练实现知识蒸馏。

进一步，取得所述学生模型的下游任务，在本实施例中，下游任务为目标检测任务。

步骤S5：根据所述下游任务类型匹配模型目标函数，在本实施例中，模型的目标函数分为回归损失函数和分类损失函数，所述回归损失函数表达式为：

其中t_i为预测的每一个anchor与Ground Truth(GT)的偏差，而

为每一个anchor与GT的真实偏差。

在本实施例中，所述分类损失函数采用Focal Loss，其表达式为：

L_cls＝-α_t(1-p_t)γlog(p_t)

其中p_t为样本被正确分类的概率值，α_t，γ为超参数，在本实施例中分别设定为0.25，2.0。

步骤S6：根据教师模型、学生模型、下游任务调整所述蒸馏损失函数的超参数，目标函数、知识蒸馏损失函数和超参数获得所述学生模型训练的总损失函数；根据所述总损失函数对所述学生模型进行训练，其中所述总损失函数的表达式为：

L_total＝L_reg+L_cls+L_distill。

对于图像分类任务，在ImageNet数据集上的结果表明，使用ResNet34作为教师模型，ResNet18作为学生模型，采用本发明所提出的蒸馏方法进行知识蒸馏，可以将测试集上的Top-1准确率从69.9％提升到了71.4％；对于目标检测任务，在MSCOCO数据集上的结果表明，使用RetinaNet-RX101作为教师模型，RetinaNet-R50作为学生模型，采用本发明所提的知识蒸馏方法，可以将学生模型的mAP从37.4％提升到41.0％；对于语义分割任务，在CityScapes数据集上的结果表明，使用PSPNet-ResNet34作为教师模型，PSPNet-ResNet18作为学生模型，采用本发明所提的知识蒸馏方法，可以将学生模型的mIoU从69.9％提升到74.2％(注：ImageNet是一个大规模图像分类数据集，Top1-accuracy用于衡量图像分类准确率；MSCOCO是一个大规模数据集，包含目标检测等任务，bbox的mAP是衡量目标检测性能的一个指标；CityScapes是一个语义分割数据集，mIoU是衡量语义分割性能的一个指标。)此外，本发明也可用于实现跨模型的知识蒸馏，并能取得不错的效果。例如，对于图像分类任务，在Cifar-100数据集上，使用基于卷积神经网络架构的ResNet56作为教师模型，基于Transformer架构的ViT-tiny作为学生模型，可以将学生模型的Top1-accuracy由57.8％提升至77.5％(注：Cifar100是一个小规模图像分类数据集)。

以上通过详细实施案例描述了本发明，本领域的研究人员和技术人员可以根据上述的步骤作出形式或内容方面的非实质性的改变而不偏离本发明实质保护的范围。因此，本发明不局限于以上实施例中所公开的内容，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于可学习特征变换的知识蒸馏方法，其特征在于，其步骤包括：

2.如权利要求1所述的基于可学习特征变换的知识蒸馏方法，其特征在于，步骤2)中所述多层感知机模块采用隐藏层数为1，激活函数为ReLU的多层感知机。

3.如权利要求1所述的基于可学习特征变换的知识蒸馏方法，其特征在于，步骤2)中通过双线性插值和1x1卷积将第二特征图与第一特征图进行空间维度和通道维度上的对齐。

4.如权利要求1所述的基于可学习特征变换的知识蒸馏方法，其特征在于，步骤4)中获取学生模型的下游任务，根据下游任务类型匹配模型的目标函数，将目标函数和知识蒸馏损失函数组合对学生模型进行训练。

5.如权利要求4所述的基于可学习特征变换的知识蒸馏方法，其特征在于，步骤4)中将所述目标函数中的回归损失函数、分类损失函数和知识蒸馏损失函数求和获得所述学生模型训练的总损失函数，根据该总损失函数对所述学生模型进行训练。