CN112784964A

CN112784964A - 基于桥接知识蒸馏卷积神经网络的图像分类方法

Info

Publication number: CN112784964A
Application number: CN202110107120.1A
Authority: CN
Inventors: 杜兰; 王震; 宋佳伦
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-11

Abstract

本发明公开了一种基于桥接知识蒸馏卷积神经网络的图像分类方法，主要解决现有技术在知识蒸馏过程中信息丢失造成的学生网络图像分类准确率较低的问题，实现步骤为：(1)构建教师网络与学生网络；(2)生成训练集：(3)训练教师网络：(4)构建桥接结构：(5)训练学生网络：(6)对待分类图像进行分类。本发明在教师网络与学生网络之间构建桥接结构，根据KL散度损失函数与交叉熵损失函数训练学生网络，使得学生网络同时具有较高的图像分类准确率与较低的终端部署需求，可用于在低算力、低存储的终端设备上对图像进行分类识别。

Description

基于桥接知识蒸馏卷积神经网络的图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分类技术领域中的一种基于桥接知识蒸馏卷积神经网络的图像分类方法。本发明可用于在低算力、低存储的终端设备上对图像进行分类识别。

背景技术

卷积神经网络中最经典的网络是ResNet，ResNet通过引入“跳跃连接”，有效地缓解了神经网络训练中的梯度消失问题，成功训练出上百甚至上千层的卷积神经网络。通常，网络层数越多，参数量越大，网络的表达能力越强，在图像分类任务中能够取得更高的准确率。规模大的卷积神经网络推理时间长，存储开销大，而在安全生产、工业质检、智能硬件等应用场景中，终端设备的内存容量、算力有限，这对卷积神经网络的部署造成了极大的阻碍；直接设计小规模的卷积神经网络尽管利于终端部署，但是又存在分类准确率不高的问题。因此卷积神经网络的分类准确率与效率难以兼得。

知识蒸馏是一类常见的模型压缩算法，该类方法通常选取一个规模大精度高的网络为“教师网络”，选取一个规模小精度较差的网络为“学生网络”，通过引导学生网络模拟教师网络的输出，实现教师网络到学生网络的“知识”迁移，使得学生网络达到接近教师网络的精度。

Zagoruyko在其发表的论文“Paying more attention to attention:Improvingthe performance of convolutional neural networks via attention transfer”(InInternational Conference on Learning Representations,2017)中提出了一种基于注意力的知识蒸馏的图像分类方法。该方法将教师网络和学生网络的网络中间层输出特征转换为注意力特征，通过最小化教师网络与学生网络注意力特征之间的差异，让学生网络学习到教师网络中间层所关注的图像区域，完成教师网络到学生网络的知识迁移，使得规模小的学生网络图像分类准确率得到提升。该方法存在的不足之处是：该方法将教师网络和学生网络的网络中间层输出特征转换为注意力特征，但中间层输出中包含空间维度和通道维度两部分信息，该方法是对空间维度特征的整合，通道维度特征被完全忽视了，这部分知识并不能被迁移至学生网络，导致规模小的学生网络的图像分类准确率较低。

Byeongho Heo在其发表的论文“Knowledge transfer via distillation ofactivation boundaries formed by hidden neurons”(In AAAI Conference onArtificial Intelligence,2019)中提出了一种利用神经元激活边界的知识蒸馏的图像分类方法。该方法通过设定阈值来判定教师网络与学生网络中间层的隐层神经元是否激活，若神经元激活值大于该阈值，则认为其处于激活状态，若小于激活值，则认为没有激活，该方法以此指导学生网络对应中间层的神经元是否应该激活，将该信息传导至学生网络中，使得规模小的学生网络图像分类准确率得到提升。该方法存在的不足之处是：该方法通过设定阈值的方式来判定教师网络中间层的神经元是否激活，并以此指导学生网络中间层的对应神经元是否激活，这样做只能教给学生网络对应神经元是否应该激活，而没有教给学生网络对应神经元激活后的幅值信息，没有将完整的神经元激活信息传递给学生网络，造成学生网络收敛较慢。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于桥接知识蒸馏卷积神经网络的图像分类方法，旨在解决现有技术在知识蒸馏过程中信息丢失造成的学生网络图像分类准确率较低的问题。

实现本发明目的的技术思路是：通过在教师网络与学生网络之间建立桥接结构，将学生网络中间层的信息利用教师网络映射为类别概率特征，实现对中间层的关键信息提取，然后利用KL散度损失函数与交叉熵损失函数训练学生网络使其学到图像分类准确率高的教师网络中的知识，达到与教师网络相近的图像分类准确率。

本发明的具体步骤如下：

(1)构建教师网络与学生网络：

(1a)搭建结构相同的14层的教师网络和14层的学生网络，其结构依次为：输入层，第一卷积层，第一激活层，第一最大池化层，第二卷积层，第二激活层，第二最大池化层，第三卷积层，第三激活层，第三最大池化层，第四卷积层，第四激活层，第五卷积层，输出层；

(1b)设置教师网络各层参数如下：

将第一至第五卷积层特征映射图数目分别设置为16、32、64、128、10，卷积核大小分别设置为5×5、5×5、6×6、5×5、3×3；

将第一至第三最大池化层的池化窗口均设置为2×2，步长均设置为2；

将第一至第四激活层的激活函数均设置为ReLU激活函数；

(1c)设置学生网络各层参数如下：

将第一至第五卷积层特征映射图数目分别设置为9、10、31、8、10，卷积核大小分别设置为5×5、5×5、6×6、5×5、3×3；

将第一至第四激活层的激活函数均设置为ReLU激活函数；

(2)生成训练集：

选取至少为2种类别、每种类别至少为200个图像组成训练集；

(3)训练教师网络：

将训练集输入到教师网络中，得到每张训练图像的预测类别概率，利用交叉熵损失函数，计算每张图像的预测类别概率与该图像对应的类别标签间的损失，通过反向传播算法迭代更新教师网络参数，直到交叉熵损失函数收敛为止，得到训练好的教师网络；

(4)构建桥接结构：

将训练好的教师网络的第四卷积层与学生网络的第四卷积层相连后得到桥接结构；

(5)训练学生网络：

(5a)将训练集同时输入到学生网络、训练好的教师网络中，得到学生网络的输出，教师网络的输出，以及桥接结构的输出；

(5b)利用KL散度损失函数，计算教师网络的输出与桥接结构的输出之间的KL散度损失值；

(5c)利用交叉熵损失函数，计算学生网络的输出与训练图像的类别标签之间的交叉熵损失值；

(5d)将KL散度损失值与交叉熵损失值之和作为总损失值，通过反向传播算法迭代更新学生网络的参数，直到总损失值收敛为止，得到训练好的学生网络。

(6)对待分类图像进行分类：

将待分类图像输入到训练好的学生网络中，得到学生网络对于待分类图像的预测类别概率，选择预测类别概率中值最高的概率所对应的类别作为对该图像的分类结果。

本发明与现有的技术相比具有以下优点：

第一，本发明在教师网络与学生网络之间构建了一个桥接结构，该结构可以同时利用教师与学生两个网络之间的中间层中空间维度和通道维度两部分信息，克服了现有技术中提取的中间层特征中缺失通道维度特征的问题，使得本发明提高了学生网络的图像分类准确率。

第二，本发明在训练学生网络时使用了KL散度损失函数与交叉熵损失函数，该损失函数可以将教师网络的中间层知识迁移至学生网络，克服了现有技术中忽略教师网络中间层幅值信息造成的学生网络收敛慢的问题，有效加快了学生网络收敛效率。

附图说明

图1是本发明的流程图；

图2是本发明中桥接结构的示意图。

具体实施方式

下面结合附图，对本发明做进一步的描述。

参照图1，对本发明实现的具体步骤详细描述。

步骤1，构建教师网络与学生网络。

搭建结构相同的14层的教师网络和14层的学生网络，其结构依次为：输入层，第一卷积层，第一激活层，第一最大池化层，第二卷积层，第二激活层，第二最大池化层，第三卷积层，第三激活层，第三最大池化层，第四卷积层，第四激活层，第五卷积层，输出层。

设置教师网络各层参数如下：

将第一至第五卷积层特征映射图数目分别设置为16、32、64、128、10，卷积核大小分别设置为5×5、5×5、6×6、5×5、3×3。

将第一至第三最大池化层的池化窗口均设置为2×2，步长均设置为2。

将第一至第四激活层的激活函数均设置为ReLU激活函数。

设置学生网络各层参数如下：

将第一至第五卷积层特征映射图数目分别设置为9、10、31、8、10，卷积核大小分别设置为5×5、5×5、6×6、5×5、3×3。

将第一至第四激活层的激活函数均设置为ReLU激活函数。

步骤2，生成训练集。

选取至少为2种类别、每种类别至少为200个图像组成训练集。

步骤3，训练教师网络。

将训练集输入到教师网络中，得到每张训练图像的预测类别概率，利用交叉熵损失函数，计算每张图像的预测类别概率与该图像对应的类别标签间的损失，通过反向传播算法迭代更新教师网络参数，直到交叉熵损失函数收敛为止，得到训练好的教师网络。

所述的交叉熵损失函数如下：

其中，J表示交叉熵损失函数，N表示训练集中图像的总数，Σ表示求和操作，i表示训练集中图像的序号，Y_i表示训练集中第i张图像对应的类别标签，log表示以2为底的对数操作，P_i表示将训练集中第i张图像输入教师网络中得到的预测类别概率。

步骤4，构建桥接结构。

将训练好的教师网络的第四卷积层与学生网络的第四卷积层相连后得到桥接结构。

参照图2对本发明中构建的桥接结构作进一步的描述。

图2中左侧为教师网络的结构示意图，右侧为学生网络的结构示意图，将训练好的教师网络的第四卷积层与学生网络的第四卷积层相连后得到桥接结构如图2的中间部分。从图2中可以看出，桥接结构由学生网络第四卷积层之下的层与教师网络第四卷积层之上的层组成。

步骤5，训练学生网络。

将训练集同时输入到学生网络、训练好的教师网络中，得到学生网络的输出P，教师网络的输出Q，以及桥接结构的输出B。

利用KL散度损失函数，计算教师网络的输出与桥接结构的输出之间的KL散度损失值。

所述的KL散度损失函数如下：

其中，

表示KL散度损失函数，Q_i表示将训练集中第i张图像输入教师网络中得到的预测类别概率，B_i表示将训练集中第i张图像输入桥接结构中得到的预测类别概率。

利用交叉熵损失函数，计算学生网络的输出与训练图像的类别标签之间的交叉熵损失值。

所述的交叉熵损失函数如下：

其中，J表示交叉熵损失函数，Y_i表示训练集中第i张图像对应的类别标签，P_i表示将训练集中第i张图像输入学生网络中得到的预测类别概率。

将KL散度损失值与交叉熵损失值之和作为总损失值，通过反向传播算法迭代更新学生网络的参数，直到总损失值收敛为止，得到训练好的学生网络。

步骤6，对待分类图像进行分类。

Claims

1.一种基于桥接知识蒸馏卷积神经网络的图像分类方法，其特征在于，在教师网络与学生网络之间构建桥接结构，根据KL散度损失函数与交叉熵损失函数训练学生网络，该方法包括如下步骤：

(1)构建教师网络与学生网络：

(1b)设置教师网络各层参数如下：

将第一至第四激活层的激活函数均设置为ReLU激活函数；

(1c)设置学生网络各层参数如下：

将第一至第四激活层的激活函数均设置为ReLU激活函数；

(2)生成训练集：

选取至少为2种类别、每种类别至少为200个图像组成训练集；

(3)训练教师网络：

(4)构建桥接结构：

(5)训练学生网络：

(5d)将KL散度损失值与交叉熵损失值之和作为总损失值，通过反向传播算法迭代更新学生网络的参数，直到总损失值收敛为止，得到训练好的学生网络；

(6)对待分类图像进行分类：

2.根据权利要求1所述的基于桥接知识蒸馏卷积神经网络的图像分类方法，其特征在于，步骤(3)、步骤(5c)中所述的交叉熵损失函数如下：

其中，J表示交叉熵损失函数，N表示训练集中图像的总数，Σ表示求和操作，i表示训练集中图像的序号，Y_i表示训练集中第i张图像对应的类别标签，log表示以2为底的对数操作，P_i表示将训练集中第i张图像输入网络中得到的预测类别概率。

3.根据权利要求2所述的基于桥接知识蒸馏卷积神经网络的图像分类方法，其特征在于，步骤(5b)中所述的KL散度损失函数如下：

其中，