CN114565045A

CN114565045A - 一种基于特征分离注意力的遥感目标检测知识蒸馏方法

Info

Publication number: CN114565045A
Application number: CN202210194931.4A
Authority: CN
Inventors: 赵丹培; 袁智超; 苑博; 史振威; 张浩鹏; 姜志国
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-05-31

Abstract

本发明公开了一种基于特征分离注意力的遥感目标检测知识蒸馏方法，包括：分别提取教师网络和学生网络输出的特征图的特征注意力图；将特征图的前景区域和背景区域进行分离，并通过教师网络的特征注意力图计算前景注意力掩膜，通过学生网络的特征注意力图计算背景注意力掩膜；利用前景注意力掩膜和背景注意力掩膜计算L2蒸馏损失；基于L2蒸馏损失，将教师网络的知识迁移至学生网络。本发明能够有效选取待蒸馏区域，提升蒸馏效率，且在不改变学生网络结构，不增加计算消耗的前提下提升最终的轻量化目标检测网络的检测精度。

Description

一种基于特征分离注意力的遥感目标检测知识蒸馏方法

技术领域

本发明涉及知识蒸馏技术领域，更具体的说是涉及一种基于特征分离注意力的遥感目标检测知识蒸馏方法。

背景技术

大规模高分辨率遥感图像数据集的出现使得深度学***台。目前有一些轻量化的深度学习目标检测算法，虽然运行速度快，但检测精度仍无法满足任务的需求。

目前有一些知识蒸馏方法用于提升深度神经网络的性能，例如通过对网络的输出、特征图以及信息流等内容进行迁移学习的方法。但是这些研究大多集中于图像分类领域，在目标检测领域中，对知识蒸馏所要迁移的信息的定义尚不明确，并且由于目标检测的数据中背景区域的比例远高于分类数据，利用图像分类的方法直接进行知识蒸馏会导致背景区域干扰严重，无法达到理想的效果。

因此，如何提供一种能够有效提取待蒸馏区域，且不增加计算消耗，提高轻量化目标检测网络的检测精度的知识蒸馏方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于特征分离注意力的遥感目标检测知识蒸馏方法，能够有效选取待蒸馏区域，提升蒸馏效率，且在不改变学生网络结构，不增加计算消耗的前提下提升最终的轻量化目标检测网络的检测精度。

为了实现上述目的，本发明采用如下技术方案：

一种基于特征分离注意力的遥感目标检测知识蒸馏方法，包括：

分别提取教师网络和学生网络输出的特征图的特征注意力图；

将特征图的前景区域和背景区域进行分离，并通过教师网络的特征注意力图计算前景注意力掩膜，通过学生网络的特征注意力图计算背景注意力掩膜；

利用前景注意力掩膜和背景注意力掩膜计算L2蒸馏损失；

基于L2蒸馏损失，将教师网络的知识迁移至学生网络。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，所述特征注意力图包括空间注意力和通道注意力；其中，空间注意力的计算公式为：

通道注意力的计算公式为：

其中，G_s代表空间注意力，用于表征各通道中每个像素位置的重要程度，G_c代表通道注意力，用于表征特征图各通道的重要程度；H、W和C分别代表特征图的高度、宽度和维度；A_k,i,j代表特征图A在其第k个通道的i，j坐标位置的像素值。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，所述通过教师网络的特征注意力图计算前景注意力掩膜，包括：

计算教师网络输出的特征图A^t的空间注意力和通道注意力；

利用Softmax函数分别对特征图A^t的空间注意力和通道注意力进行概率归一化；

将概率归一化后的特征图A^t的空间注意力和通道注意力与标注的前景掩膜S_f相乘，得到加权的前景注意力掩膜J_f。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，所述前景注意力掩膜的计算公式为：

其中，概率归一化函数

将变量z在属于类别i的概率归一化到(0,1)之间，且所有的概率之和为1；H、W、C分别代表特征图A^t的长度、宽度和维度，

和

分别代表教师网络的空间注意力和通道注意力，S_f为前景掩膜，在前景区域处取1，背景区域处取0。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，还包括：根据目标的尺寸大小将前景掩膜S_f进行归一化，得到归一化前景掩膜

并将归一化前景掩膜

代替前景掩膜S_f计算前景注意力掩膜；归一化前景掩膜

的计算公式为：

其中，T代表所有目标的总和，t代表每一个目标，s_t表示目标区域的面积。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，所述通过学生网络的特征注意力图计算背景注意力掩膜，包括：

计算学生网络输出的特征图A^s的空间注意力和通道注意力；

通过softmax分别对特征图A^s的空间注意力和通道注意力进行概率归一化；

将概率归一化后的特征图A^s的空间注意力和通道注意力与标注的背景掩膜S_b相乘，得到加权的背景注意力掩膜J_b。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，背景注意力掩膜J_b的计算公式为：

其中，H、W、C分别代表特征图A^s的长度、宽度和维度，

和

分别代表学生网络的空间注意力和通道注意力，S_b为背景掩膜，在前景处取0，背景处取1。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，还包括：根据目标的尺寸大小将背景掩膜S_b进行归一化，得到归一化背景掩膜

并将归一化背景掩膜

代替背景掩膜S_b计算背景注意力掩膜；归一化背景掩膜

的计算公式为：

其中，T代表所有目标的总和，t代表每一个目标，s_t代表目标区域的面积。

优选的，在上述一种基于特征分离注意力的遥感目标检测知识蒸馏方法中，L2蒸馏损失的计算公式为：

L_d＝δL₂(A^s·J_f，A^t·J_f)+εL₂(A^s·J_b，A^t·J_b)

其中，δ和ε是控制前景注意力掩膜与背景注意力掩膜损失计算比例的参数，A^s和A^t分别代表学生网络和教师网络的特征图，J_f和J_b分别表示前景注意力掩膜和背景注意力掩膜；L2损失函数是对X,Y两个向量求空间欧式距离的函数，计算方式为：

其中x_i、y_i分别代表向量X,Y的每一项，共n项。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于特征分离注意力的遥感目标检测知识蒸馏方法，首先要对特征图的前景背景区域进行分离并分别提取注意力图。特征分离采用掩膜的形式，从标注信息中提取目标所在区域的坐标，并根据分辨率映射到待蒸馏的特征图上。对于前景区域，使用前景掩膜，即只考虑目标所在区域；对于背景区域，使用背景掩膜，即考虑除了目标区域以外的部分。分别对前景区域和背景区域提取空间注意力和通道注意力，由于教师网络性能较强，相较于学生网络的输出，在含有目标的前景区域往往能获得较强的响应，对教师网络的前景响应进行蒸馏可以提升学生网络判断前景目标的能力，因此通过教师网络的特征图计算前景注意力掩膜。而背景中可能存在一些错误的响应，而学生网络的特征提取能力相对较弱，相较于教师网络，在学生网络输出特征图的背景区域错误响应会较为突出，通过蒸馏训练学生网络的背景区域，可以减少学生网络对背景区域的误判，因此，通过学生网络的特征图计算背景注意力掩膜。利用分离的前景和背景注意力掩膜分别计算L2损失，可以将教师网络的知识迁移至学生网络。总体而言，本发明通过空间注意力和通道注意力的方式将特征图的信息融合为一张注意力图，避免了通道间的相互干扰。并且通过前景和背景掩膜的方式分别对前景区域的目标和背景区域的误检进行蒸馏，大幅度提升了轻量化模型的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于特征分离注意力的遥感目标检测知识蒸馏方法的流程图；

图2为本发明提供的知识蒸馏模型的结构示意图；

图3为本发明提供的前景注意力掩膜的获得过程示意图；

图4为本发明提供的背景注意力掩膜的获得过程示意图；

图5为本发明提供的基于特征分离注意力的蒸馏示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种基于特征分离注意力的遥感目标检测知识蒸馏方法，包括以下步骤：

S1、分别提取教师网络和学生网络输出的特征图的特征注意力图；

S2、将特征图的前景区域和背景区域进行分离，并通过教师网络的特征注意力图计算前景注意力掩膜，通过学生网络的特征注意力图计算背景注意力掩膜；

S3、利用前景注意力掩膜和背景注意力掩膜计算L2蒸馏损失；基于L2蒸馏损失，将教师网络的知识迁移至学生网络。

本发明提出的基于特征分离注意力的遥感目标检测知识蒸馏方法的整体结构如图2所示，模型分为教师网络和学生网络，其中教师网络是一个高性能的复杂神经网络，而学生网络是一个轻量化的简单神经网络。首先预训练教师网络，使其收敛并具有较高的检测性能。随后在训练学生网络的过程中通过教师网络的输出作为额外的监督信息对学生网络进行训练，迁移其特征图中的知识，以提高学生网络的训练效果。

本发明实施例针对卷积神经网络中的特征图进行知识蒸馏。由于特征图的维度过高，直接对特征图利用L2损失进行计算容易导致通道间产生相互干扰，危害蒸馏效果。另一方面，被大多数目标检测的知识蒸馏方法所忽视的背景区域也可能存在有效信息，对背景区域进行有效的学习可以提升模型区分正负样本的能力。对前景部分的蒸馏可以减少学生网络的漏检率，即让模型辨认正样本的能力更强；而对背景部分进行蒸馏可以减少学生网络的误检率，即让模型辨认负样本的能力更强。因此，本发明利用这种前景与背景分离蒸馏的方式，结合特征图注意力，提出了基于特征分离注意力的知识蒸馏方式。

下面对上述各步骤进行进一步描述。

S1、分别提取教师网络和学生网络输出的特征图的特征注意力图。

特征注意力图分为空间注意力和通道注意力。空间注意力指的是对特征沿通道维数进行降维，在每个像素点处仅用一个值来表示。这种注意力体现了像素在特征图中的重要程度，响应越强的点表示存在目标的概率越大。通道注意力指的是对特征沿长宽维度进行降维，每个值反应一个通道的响应。由于网络在进行特征提取时，每个通道蕴含的信息不平均，这种注意力体现了特征图中每个通道的重要程度，通过通道注意力能够使网络更加专注于富含有效信息的通道。

由于在知识蒸馏中没有用于训练注意力模块的标注信息，因此本发明采用简单的人工设计的方式，即取绝对值平均作为注意力图。通过教师网络的特征图A^t和学生网络的特征图A^s，由下式分别计算各自的空间注意力图和通道注意力图。

空间注意力的计算公式为：

通道注意力的计算公式为：

S2、将特征图的前景区域和背景区域进行分离，并通过教师网络的特征注意力图计算前景注意力掩膜，通过学生网络的特征注意力图计算背景注意力掩膜。

如图3-4所示，基于特征分离注意力的知识蒸馏需要先通过绝对值平均获得空间与通道注意力图，再通过前景掩膜和背景掩膜对特征注意力图进行特征分离，分别计算前景注意力掩膜和背景注意力掩膜的蒸馏损失。对于前景注意力掩膜，将教师模型的空间和通道注意力相乘并利用前景掩膜取前景部分；对于背景注意力掩膜，将学生模型的空间和通道注意力相乘并利用背景掩膜取背景部分。随后，在前景注意力掩膜和背景注意力掩膜上分别计算L2蒸馏损失函数。

由于教师网络性能较强，相较于学生网络的输出，在含有目标的前景区域往往能获得较强的响应，对教师网络的前景响应进行蒸馏可以提升学生网络判断前景目标的能力，因此通过教师网络的特征图计算前景注意力掩膜。具体的，

1、前景注意力掩膜的获得过程为：

1)计算教师网络输出的特征图A^t的空间注意力和通道注意力；

2)利用Softmax函数分别对特征图A^t的空间注意力和通道注意力进行概率归一化；

3)将概率归一化后的特征图A^t的空间注意力和通道注意力与标注的前景掩膜S_f相乘，得到加权的前景注意力掩膜J_f。

具体的计算公式如下：

其中，概率归一化函数

和

为了平衡不同尺寸目标的损失函数的影响，前景掩膜需要根据目标的尺寸大小进行归一化，利用归一化前景掩膜

代替S_f，归一化前景掩膜

的计算公式为：

T代表所有目标的总和，t代表每一个目标，s_t表示目标区域的面积，这样可以保证不同大小的目标在损失函数中所造成的影响相同。

2、背景中可能存在一些错误的响应，而学生网络的特征提取能力相对较弱，相较于教师网络，在学生网络输出特征图的背景区域错误响应会较为突出，通过蒸馏训练学生网络的背景区域，可以减少学生网络对背景区域的误判。与前景注意力掩膜的计算方法相似，背景注意力掩膜的获得过程如下：

1)计算学生网络输出的特征图A^s的空间注意力和通道注意力；

2)通过softmax分别对特征图A^s的空间注意力和通道注意力进行概率归一化；

3)将概率归一化后的特征图A^s的空间注意力和通道注意力与标注的背景掩膜S_b相乘，得到加权的背景注意力掩膜J_b。

具体的计算公式如下：

其中，H、W、C分别代表特征图A^s的长度、宽度和维度，

和

同样，为了对背景掩膜的影响进行平衡，也通过背景区域的面积对掩膜进行加权。使用加权的背景掩膜

代替S_b。归一化背景掩膜

的计算公式为：

其中，T代表所有目标的总和，t代表每一个目标，s_t表示目标区域的面积。使用加权的背景掩膜，可以使得背景区域对损失函数的贡献与前景区域保持一致。

S3、L2蒸馏损失函数的设计。

如图5所示，得到前景注意力掩膜和背景注意力掩膜后，分别将它们和教师与学生的输出特征图相乘并计算蒸馏损失，损失函数采用L2函数：

L_d＝δL₂(A^s·J_f，A^t·J_f)+εL₂(A^s·J_b，A^t·J_b)，

其中，δ和ε是控制前景与背景损失计算比例的参数，A^s和A^t分别表示学生和教师模型的特征图，J_f和J_b分别表示前景注意力掩膜和背景注意力掩膜。

L2损失函数是对X,Y两个向量求空间欧式距离的函数，计算方式如下：

其中，x_i、y_i分别代表向量X,Y的每一项，共n项。

通过此蒸馏损失函数，可以将复杂模型的知识迁移至轻量化模型，以提升轻量化模型的检测性能。在实际应用中，应针对目标任务首先训练一个复杂模型，再利用预训练的复杂模型作为额外的监督信息，在训练轻量化模型时添加一项额外的基于特征分离注意力的知识蒸馏损失函数。经过训练收敛后，所获得的轻量化遥感目标检测模型相较于不使用蒸馏损失的模型将有检测性能的提升。

本发明作为轻量化目标检测任务的延伸通过空间注意力和通道注意力的方式将特征图的信息融合为一张注意力图，避免了通道间的相互干扰。并且通过前景和背景掩膜的方式分别对前景区域的目标和背景区域的误检进行蒸馏，大幅度提升了轻量化模型的检测效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。