CN114049512A

CN114049512A - 模型蒸馏方法、目标检测方法、装置及电子设备

Info

Publication number: CN114049512A
Application number: CN202111109190.7A
Authority: CN
Inventors: 张培圳
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2022-02-15

Abstract

本发明提供了一种模型蒸馏方法、目标检测方法、装置及电子设备，该方法包括：通过第一网络对样本图像进行特征提取，得到样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；确定第二特征图中的目标区域；并根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；根据第一损失值和第二损失值，对第二网络进行蒸馏训练，对于难以识别的目标区域，不仅考虑到第一损失值，还融合了第二损失值，实现了对目标样本区域的增强训练，达到更好的蒸馏效果，从而使蒸馏得到的第二网络模型的预测结果更准确。

Description

模型蒸馏方法、目标检测方法、装置及电子设备

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种模型蒸馏方法、目标检测方法、装置及电子设备。

背景技术

现有的目标检测领域中的模型蒸馏方法,主要是使用表达能力较强，参数较多的教师模型对计算效率较高且更轻量的学生模型进行知识蒸馏。一般在网络前向的中间特征图处将点对点的欧式距离(L2)或KL散度(Kullback-Leibler divergence，KL差异)作为蒸馏的损失函数，在蒸馏过程中，教师模型的参数固定不动，不断优化学生模型的参数使学生模型的蒸馏损失值最小化。

对于样本数据中难以区分样本数据包含的对象类别的较难的样本区域，例如图像中的对象难以区分属于哪种类型的区域，目前的方法是在较难的样本区域处加大训练力度，即给予较大权重去加强利用这些样本进行蒸馏。但是通过这种方式得到的学生网络的精度极大依赖于对参数的精细调整，因此这种方法进行难样本蒸馏得到的学生网络的精度不稳定，尤其针对某些特定应用场景的训练集，当样本中难样本区域较多时，会导致无法有效训练出学生网络。

发明内容

有鉴于此，本发明的目的在于提供一种模型蒸馏方法、目标检测方法、装置及电子设备，以提高学生网络预测结果的准确性。

第一方面，本发明实施例提供一种模型蒸馏方法，该方法包括：通过第一网络对样本图像进行特征提取，得到样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；其中，第一网络的复杂度大于第二网络，第二特征图中至少包括一个对象的检测框以及该检测框对应的类别得分；确定第二特征图中的目标区域；其中，目标区域为类别得分在得分阈值区间的检测框对应的区域；根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；其中，标签特征图为对样本图像对应的标签图像进行特征提取得到的特征图；根据第一损失值和第二损失值，对第二网络进行蒸馏训练。

进一步地，上述根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值的步骤，包括：根据第一特征图和第二特征图确定第一样本；对第一样本、第二样本及第三样本进行损失值计算，得到第二特征图的第三损失值；其中，第二样本为第一特征图，第三样本为标签特征图；根据第二特征图的第三损失值确定第二特征图中的目标区域对应的第二损失值。

进一步地，上述根据第一特征图和第二特征图确定第一样本的步骤，包括：对第一特征图和第二特征图进行第一融合处理，得到第一融合分量；对第一特征图和第二特征图进行第二融合处理，得到第二融合分量；其中，第一融合处理不同于第二融合处理；将第一融合分量和第二融合分量进行第三融合处理，得到第一样本。

进一步地，上述对第一特征图和第二特征图进行第一融合处理，得到第一融合分量的步骤，包括：对第一特征图以及第二特征图分别进行池化处理，得到第一特征图对应的第一池化特征，以及第二特征图对应的第二池化特征；将第一池化特征和第二池化特征进行第四融合处理，得到第一融合分量。

进一步地，上述对第一特征图和第二特征图进行第二融合处理，得到第二融合分量的步骤，包括：将第一特征图作为Transformer模型的K向量和V向量；将第二特征图作为Transformer模型的Q向量；通过Transformer模型对K向量、V向量以及Q向量进行第五融合处理，得到第二融合分量。

进一步地，上述根据第二特征图的第三损失值确定第二特征图中的目标区域对应的第二损失值的步骤，包括：将第三损失值与权重矩阵进行加权求和处理，得到第二特征图在目标区域的第二损失值；其中，权重矩阵中目标区域对应第一权重值，权重矩阵中目标区域以外的区域对应第二权重值，且第一权重值大于第二权重值。

进一步地，上述根据第一特征图和第二特征图确定第二特征图的第一损失值的步骤，包括：计算第一特征图和第二特征图之间的相对熵；根据相对熵确定第二特征图的第一损失值。

第二方面，本发明实施例还提供一种目标检测方法，该方法包括：获取待检测的样本图像；通过学生网络对样本图像进行目标检测，得到样本图像对应的检测结果；其中，学生网络通过第一方面的模型蒸馏方法训练得到。

第三方面，本发明实施例还提供一种模型蒸馏装置，该装置包括：特征图确定模块，用于通过第一网络对样本图像进行特征提取，得到样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；其中，第一网络的复杂度大于第二网络，第二特征图中至少包括一个对象的检测框以及该检测框对应的类别得分；目标区域确定模块，用于确定第二特征图中的目标区域；其中，目标区域为类别得分在得分阈值区间的检测框对应的区域；损失值确定模块，用于根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；其中，标签特征图为对样本图像对应的标签图像进行特征提取得到的特征图；训练模块，用于根据第一损失值和第二损失值，对第二网络进行蒸馏训练。

第四方面，本发明实施例还提供一种目标检测装置，该装置包括：样本获取模块，用于获取待检测的样本图像；检测模块，用于通过学生网络对样本图像进行目标检测，得到样本图像对应的检测结果；其中，学生网络通过上述第一方面的模型蒸馏方法训练得到。

第五方面，本发明实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第一方面的模型蒸馏方法和/或上述第二方面的目标检测方法。

第六方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述第一方面的模型蒸馏方法和/或上述第二方面的目标检测方法。

第七方面，本发明实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序被处理器执行时实现上述第一方面的模型蒸馏方法和/或上述第二方面的目标检测方法。

本发明实施例提供的上述模型蒸馏方法、目标检测方法、装置及电子设备，首先通过第一网络对样本图像进行特征提取，得到样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；然后确定第二特征图中的目标区域；并根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；最后根据第一损失值和第二损失值，对第二网络进行蒸馏训练，在第二网络蒸馏训练的过程中，对于难以识别的目标区域，不仅考虑到第一损失值，还融合了第二损失值，即相对于其他区域，加强了对目标区域的训练强度，实现了对目标样本区域的增强训练，达到更好的蒸馏效果，从而使蒸馏得到的第二网络模型的预测结果更准确。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子***的结构示意图；

图2为本发明实施例提供的一种模型蒸馏方法的流程图；

图3为本发明实施例提供的一种附加样本损失值确定方法的流程图；

图4为本发明实施例提供的一种特征融合网络的结构示意图；

图5为本发明实施例提供的一种模型蒸馏过程的结构示意图；

图6为本发明实施例提供的一种模型蒸馏方法的场景应用流程图；

图7为本发明实施例提供的一种目标检测方法的流程图；

图8为本发明实施例提供的一种模型蒸馏装置的结构示意图；

图9为本发明实施例提供的一种目标检测装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(ArtificialIntelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用***的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

目前的模型蒸馏方法得到的学生网络，对于难以分类的样本区域的识别精度较低，基于此，本发明实施例提供一种模型蒸馏方法、目标检测方法、装置及电子设备，可以有效提升蒸馏效果，使蒸馏得到的学生网络模型的预测结果更准确。

参照图1所示的电子***100的结构示意图。该电子***可以用于实现本发明实施例的模型蒸馏方法、目标检测方法和装置。

如图1所示的一种电子***的结构示意图，电子***100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子***100的组件和结构只是示例性的，而非限制性的，根据需要，电子***也可以具有其他组件和结构。

处理设备102可以为服务器、智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子***100中的其它组件的数据进行处理，还可以控制电子***100中的其它组件以执行模型蒸馏以及目标检测功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以获取待识别图像，并且将待识别图像存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的模型蒸馏方法、目标检测方法、装置及电子设备中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子***中的各器件集成设置时，该电子***可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

图2为本发明实施例提供的一种模型蒸馏方法的流程图，如图2所示，该方法包括以下步骤：

S202：通过第一网络对样本图像进行特征提取，得到所述样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；

本发明实施例提供的方法，利用预先训练好的第一网络来蒸馏训练第二网络，其中，第一网络是利用样本图像训练得到的精确度较高但是计算量相对较大、模型相对复杂的教师神经网络，第二网络是模型相对简单、计算量相对较小的学生神经网络，因此，第一网络的复杂度大于第二网络，样本图像中的每个图像包括针对目标对象的检测框以及每个检测框对应的类别得分。

针对每一个样本图像，通过第一网络和第二网络分别提取出不同尺寸的特征图。每个尺寸的特征图对应一种分辨率。其中，第二网络是初始构建的一个轻量级神经网络。在对第二网络训练的过程中，是针对每一组特征图进行训练的，即利用相同分辨率的第一网络输出的特征图和第二网络输出的特征图来训练第二网络。

S204：确定第二特征图中的目标区域；

其中，目标区域为类别得分在得分阈值区间的检测框对应的区域，具体地，可以通过类别预测神经网络按照如下方法确定上述目标区域：(1)将第一特征图输入类别预测神经网络，得到第一特征图中的预测框，预测框包括该预测框属于各个类别的类别得分；(2)如果预测框对应于样本图像中标记的真实类别的类别得分小于预设类别得分阈值，确定该预测框对应的区域为目标区域。类别预测神经网络可以是一个小型网络头，其具体可以是一个三层的，卷积核大小为3的卷积神经网络。

在一些可能的实施方式中，每个预测框对应一个分类向量，向量中的每个元素对应于该预测框属于某个类别的概率，称之为类别得分，而样本图像是带有真实类别的标记信息的图像，也就是说，每个预测框的真实类别是预先标记好的，实际应用时，预先设定一个概率阈值，该预测框的分类向量里与真实类别对应的那个元素的置信度(0到1之间)低于预先设定的概率阈值(如0.5)时，就会判定该预测框对应的区域是目标区域。

在另一些可能的实施方式中，可以将所有预测框对应于每个类别的置信度进行排序，例如按照置信度由小到大进行排序，将排序在前预设百分比的范围内的预测框对应的区域确定为目标区域。

上述类别预测神经网络用于预测特征图中各个检测框对应的各个类别的类别得分，具体地，通过该类别预测神经网络，可以将特征图中各个检测框内部和外部分割成物体和背景，而对于每个检测框，还可以确定属于各种物体的概率。该类别预测神经网络的预测结果，包含逐个像素的类别概率，对于类别概率与真实类别差异比较大的像素对应的区域，确定为本发明实施例的目标区域，即样本图像中比较难以识别的区域。

S206：根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；

本步骤中，首先确定第一特征图和第二特征图之间的第一损失值，其中，具体的第一损失值可以通过本领域常见的用于神经网络训练的损失函数来获取，需要注意的是，该第一损失值是对应于整个第二特征图的，也就是不区分哪个区域难以识别，哪个区域容易识别，都采用相同的方法得到第二特征图整体对应的损失值。

S208：根据第一损失值和第二损失值，对第二网络进行蒸馏训练。

在得到第二特征图对应的第一损失值与第二损失值后，根据第一损失值和第二损失值调整第二网络的网络参数，并判断是否满足训练停止条件，如果满足，则完成训练，得到训练完毕的第二网络，如果不满足，则继续用下一组第一特征图和第二特征图重复上述获取第一损失值和第二损失值的方法，得到下一个第二特征图对应的损失值，并判断是否满足训练停止条件，直到满足训练停止条件时，对应的第二网络即为训练完毕的第二网络。

训练停止条件可以是第二特征图对应的第一损失值和/或第二损失值小于预设的损失值阈值，也可以是迭代的次数达到迭代次数阈值，本发明实施例对此并不做限定。

本发明实施例提供的上述模型蒸馏方法，首先通过第一网络对样本图像进行特征提取，得到样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；然后确定第二特征图中的目标区域；并根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；最后根据第一损失值和第二损失值，对第二网络进行蒸馏训练。本发明提供的模型蒸馏方法，对于难以识别的目标区域，不仅考虑到第一损失值，还融合了第二损失值，即相对于其他区域，加强了对目标区域的训练强度，实现了对目标样本区域的增强训练，达到更好的蒸馏效果，从而使蒸馏得到的第二网络模型的预测结果更准确。

本发明实施例对于整个第一特征图，首先不区分样本区域的难易程度，确定每个像素区域的第一损失值，该第一损失值可以通过如下方式确定：

计算第一特征图和第二特征图之间的相对熵；根据相对熵确定第二特征图的第一损失值。具体地，可以将第一特征图转化成第一特征向量；将第二特征图转化成第二特征向量；逐行计算第一特征向量和第二特征向量对应的行KL散度(Kullback-Leibler，相对熵)；将所有行的行KL散度相加，得到第二特征图和第一特征图之间的KL散度。

例如，一对相同分辨率的第一特征图为F^T，第二特征图为F^S，其形式为(C、H、W)的三维向量，其中，C代表通道数，H和W为分辨率。下面详细描述通过第一特征图得到第一特征向量的过程：

将第一特征图进行形变，组合H和W维度，例如输入softmax函数，得到二维矩阵F’^T，形式为(C，H*W)。具体地，

表示第i行的向量，长度为H*W，

是该向量第j个元素的值，

上述过程，也可以应用在第二特征图上，即通过上述方法得到第二特征图对应的第二特征向量F’^S。

得到第一特征向量和第二特征向量之后，对于这两个向量的每一行，进行KL散度计算，得到该行对应的行KL散度。最后，将每一行的行KL散度相加，得到该分辨率特征图对应的KL散度，该KL散度就是对应于该第二特征图的第一损失值。

在得到第二特征图对应的第一损失值之后，对于第一网络都难以分辨的目标区域，需要进一步加强训练，以增强第二网络的预测精度，基于此，本发明实施例还提供了一种第二损失值的确定方法，参见图3所示，该方法包括以下步骤：

S302：根据第一特征图和第二特征图确定第一样本；

S304：对第一样本、第二样本及第三样本进行损失值计算，得到第二特征图的第三损失值；其中，所述第二样本为所述第一特征图，所述第三样本为所述标签特征图；

S306：根据第二特征图的第三损失值确定第二特征图中的目标区域对应的第二损失值；

对于目标区域，可以具体采用三元组损失函数来确定该区域的损失值，称之为第二损失值。三元组损失函数可以采用Triplet Loss，Triplet Loss是深度学习中的一种损失函数，用于训练差异性较小的样本，如人脸等，其输入数据包括锚(Anchor)样本、正(Positive)样本和负(Negative)样本，通过优化锚样本与正样本的距离使其小于锚样本与负样本的距离，实现样本的相似性计算。本发明实施例在上述确定的目标区域，通过三元组损失函数得到的该区域对应的损失值，称之为第二损失值。

由于三元组损失函数包括三个输入样本，即正样本、负样本和锚样本，因此可以将本发明实施例得到的上述第一样本、第二样本和第三样本确定为三元组损失函数的锚样本、正样本和负样本之中的任意一个，例如，可以将第一样本作为三元组损失函数的正样本，第二样本作为三元组损失函数的负样本，第三样本作为三元组损失函数的锚样本。可以理解的是，上述正样本、负样本和锚样本的确定可以是上述第一样本、第二样本和第三样本的任意组合，本发明实施例对此不进行限定。

通过三元组损失函数得到的第二损失值的过程中，将第二网络输出的第二特征图参与到损失值的计算过程，使得第二网络在训练过程中起到了辅助作用，通过利用上述方法得到的第二损失值去训练第二网络，相比于单独使用第一特征图去训练第二网络，可以使得训练得到的第二网络的预测值与真实类别更接近。

在一些可能的实施方式中，上述根据第一特征图和第二特征图确定第一样本的步骤，包括：

(1)对第一特征图和第二特征图进行第一融合处理，得到第一融合分量；

具体地，可以对第一特征图以及第二特征图分别进行池化处理，得到第一特征图对应的第一池化特征，以及第二特征图对应的第二池化特征；将第一池化特征和第二池化特征进行第四融合处理，得到第一融合分量。

首先，教师特征图和学生特征图经过全局池化，得到一维的教师池化特征和一维的学生池化特征，全局池化是把维度为H*W*C的三维特征图变成一个维度为C的一维特征。全局池化的目的是为了在融合前降低维度，以降低计算量。

在一些可能的实施方式中，可以通过特征融合网络根据所述教师池化特征对所述学生池化特征进行卷积，得到第一融合分量。图4为本发明实施例提供的一种特征融合网络(WeightNet网络)的结构示意图，具体地，该网络中包括WN模块和卷积网络，将教师特征图输入WN模块，得到的输出结果(weight)作为动态的卷积核参数，根据该动态卷积核参数对学生特征图进行卷积，得到的结果就是第一融合分量。

(2)对第一特征图和第二特征图进行第二融合处理，得到第二融合分量；其中，第一融合处理不同于第二融合处理；

本步骤中，可以将第一特征图作为Transformer模型的K向量和V向量；将第二特征图作为Transformer模型的Q向量；通过Transformer模型对K向量、V向量以及Q向量进行第五融合处理，得到第二融合分量。上述目标检测模型可以是Transformer模型；通过目标检测模型对教师特征图和学生特征图进行处理，将目标检测模型的输出结果确定为第二融合分量的步骤，包括：

将教师特征图确定为Transformer模型的K向量和V向量，将学生特征图确定为Q向量；将K向量、V向量和Q向量输入Transformer模型，得到第二融合分量。

(3)将第一融合分量和第二融合分量进行第三融合处理，得到第一样本。

具体地，可以将第一融合分量与第二融合分量进行相加处理，得到第一样本。

在一些可能的实施方式中，上述步骤S308中的第二特征图的目标区域对应的第二损失值可以采用如下方法确定：

将第三损失值与权重矩阵进行加权求和处理，得到第二特征图在目标区域的第二损失值；其中，权重矩阵中目标区域对应第一权重值，权重矩阵中目标区域以外的区域对应第二权重值，且第一权重值大于第二权重值。

图5是本发明实施例提供的一种模型蒸馏过程的结构示意图，如图5所示，样本图像经过教师网络可以输出N个不同分辨率的教师特征图T1、T2……TN，相应地，样本图像经过学生网络同样输出N个不同分辨率的学生特征图S1、S2……SN，其中，每一对教师特征图和学生特征图的分辨率相同，图5中是以通过教师特征图T1和学生特征图S1对学生网络进行训练作为示例，在图5中，教师特征图T1和学生特征图S1输入WeightNet网络，同时教师特征图T1和学生特征图S1输入Transformer网络，得到的结果经过1*1卷积层进行组合，得到正样本，教师特征图T1作为负样本，与样本图像中的标签信息对应的特征作为锚样本，输入Triplet Loss函数中，得到学生特征图S1对应的附加样本损失值。

为了便于理解，下面结合图5介绍实际应用场景中，如何应用三元组损失函数对学生网络进行训练，如图6所示，图6是本发明实施例提供的一种模型蒸馏方法的场景应用流程图，包括以下步骤：

S602：将样本图像输入教师网络，得到5个教师特征图T1-T5，将样本图像输入学生网络，得到5个学生特征图S1-S5。

每两个分辨率相同的教师特征图和学生特征图构成特征图组。对于学生网络的训练都是基于一组特征图组进行的。

S604：根据样本预测神经网络，对教师特征图T1进行处理，区分出教师特征图中的目标样本区域。

S606：针对第一个特征图组，计算教师特征图和学生特征图之间的KL散度，作为S1的基本损失值。

S608：针对目标样本区域，将教师特征图和学生特征图输入WeightNet网络，得到第一融合分量。

S610：将教师特征图和学生特征图输入Transformer网络，得到第二融合分量。

S612：将第一融合分量和第二融合分量输入1*1卷积层，得到融合特征图。

S614：将融合特征图、教师特征图和根据样本图像中标记的真实类别信息确定的样本特征图输入Triplet Loss函数，得到学生特征图S1对应的附加样本损失值。

S616：将基本损失值和附加样本损失值相加，得到学生特征图S1的总损失值。

具体地，根据教师特征图和学生特征图可以得到整个图像所有像素区域对应的附加样本损失值，而在目标样本区域，将基本损失值和附加样本损失值相加，得到目标样本区域对应的损失值，在其他区域，将基本损失值作为该区域对应的损失值。

S618：判断损失值是否满足预设的训练停止条件，如果满足，完成学生网络的训练过程。

S620：如果不满足，继续对下一组教师特征图T2和学生特征图S2重复上述操作，直至满足训练停止条件。

图7为本发明实施例提供的一种目标检测方法的流程图，该方法应用于电子设备，电子设备预存有使用本发明实施例提供的模型蒸馏方法训练得到的学生网络，参见图7，该方法包括以下步骤：

S702：获取待检测的样本图像；

S704：通过学生网络对样本图像进行目标检测，得到带有分类得分的目标对象检测框。

其中，学生网络通过本发明实施例提供的上述任一种模型蒸馏方法训练得到。

基于上述模型蒸馏方法实施例，本发明实施例还提供一种模型蒸馏装置，参见图8所示，该装置包括：

特征图确定模块802，用于通过第一网络对样本图像进行特征提取，得到样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；其中，第一网络的复杂度大于第二网络，第二特征图中至少包括一个对象的检测框以及该检测框对应的类别得分；

目标区域确定模块804，用于确定第二特征图中的目标区域；其中，目标区域为类别得分在得分阈值区间的检测框对应的区域；

损失值确定模块806，用于根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；其中，标签特征图为对样本图像对应的标签图像进行特征提取得到的特征图；

训练模块808，用于根据第一损失值和第二损失值，对第二网络进行蒸馏训练。

本发明实施例提供的上述模型蒸馏装置，首先通过第一网络对样本图像进行特征提取，得到样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到样本图像对应的第二特征图；然后确定第二特征图中的目标区域；并根据第一特征图和第二特征图确定第二特征图的第一损失值；以及，根据第一特征图、第二特征图和标签特征图，确定第二特征图中的目标区域对应的第二损失值；最后根据第一损失值和第二损失值，对第二网络进行蒸馏训练，在对第二网络进行训练的过程中，对于难以识别的目标区域，不仅考虑到第一损失值，还融合了第二损失值，即相对于其他区域，加强了对目标区域的训练强度，实现了对目标样本区域的增强训练，达到更好的蒸馏效果，从而使蒸馏得到的第二网络模型的预测结果更准确。

上述损失值确定模块804，还用于根据第一特征图和第二特征图确定第一样本；对第一样本、第二样本及第三样本进行损失值计算，得到第二特征图的第三损失值；根据第二特征图的第三损失值确定第二特征图中的目标区域对应的第二损失值；其中，所述第二样本为所述第一特征图，所述第三样本为所述标签特征图。

上述根据第一特征图和第二特征图确定第一样本的过程，包括：对第一特征图和第二特征图进行第一融合处理，得到第一融合分量；对第一特征图和第二特征图进行第二融合处理，得到第二融合分量；其中，第一融合处理不同于第二融合处理；将第一融合分量和第二融合分量进行第三融合处理，得到第一样本。

上述对第一特征图和第二特征图进行第一融合处理，得到第一融合分量的过程，包括：对第一特征图以及第二特征图分别进行池化处理，得到第一特征图对应的第一池化特征，以及第二特征图对应的第二池化特征；将第一池化特征和第二池化特征进行第四融合处理，得到第一融合分量。

上述对第一特征图和第二特征图进行第二融合处理，得到第二融合分量的过程，包括：将第一特征图作为Transformer模型的K向量和V向量；将第二特征图作为Transformer模型的Q向量；通过Transformer模型对K向量、V向量以及Q向量进行第五融合处理，得到第二融合分量。

上述根据第二特征图的第三损失值确定第二特征图中的目标区域对应的第二损失值的过程，包括：将第三损失值与权重矩阵进行加权求和处理，得到第二特征图在目标区域的第二损失值；其中，权重矩阵中目标区域对应第一权重值，目标区域以外的区域对应第二权重值，且第一权重值大于第二权重值。

上述损失值确定模块块806，还用于计算第一特征图和第二特征图之间的相对熵；根据相对熵确定第二特征图的第一损失值。

基于上述目标检测方法实施例，本发明实施例还提供一种目标检测装置，该装置预存有使用本发明实施例提供的模型蒸馏方法训练得到的学生网络，参见图9所示，该装置包括：

样本获取模块902，用于获取待检测的样本图像；

检测模块904，用于通过学生网络对样本图像进行目标检测，得到样本图像对应的检测结果，其中，学生网络通过图8所示的目标检测装置训练得到。

本发明实施例提供的模型蒸馏装置以及目标检测装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，上述装置的实施例部分未提及之处，可参考前述模型蒸馏方法以及目标检测方法实施例中的相应内容。

本发明实施例还提供了一种电子设备，如图10所示，为该电子设备的结构示意图，其中，该电子设备包括处理器1001和存储器1002，该存储器1002存储有能够被该处理器1001执行的计算机可执行指令，该处理器801执行该计算机可执行指令以实现上述模型蒸馏方法以及目标检测方法。

在图10示出的实施方式中，该电子设备还包括总线1003和通信接口1004，其中，处理器1001、通信接口1004和存储器1002通过总线1003连接。

其中，存储器1002可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口1004(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线1003可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线1003可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器1001可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1001可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器1001读取存储器中的信息，结合其硬件完成前述实施例的模型蒸馏方法以及目标检测方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述模型蒸馏方法以及目标检测方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例还提供了一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序被处理器执行时实现上述模型蒸馏方法以及目标检测方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的模型蒸馏方法、目标检测方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种模型蒸馏方法，其特征在于，所述方法包括：

通过第一网络对样本图像进行特征提取，得到所述样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到所述样本图像对应的第二特征图；其中，所述第一网络的复杂度大于所述第二网络，所述第二特征图中至少包括一个对象的检测框以及该检测框对应的类别得分；

确定所述第二特征图中的目标区域；其中，所述目标区域为所述类别得分在得分阈值区间的检测框对应的区域；

根据所述第一特征图和所述第二特征图确定所述第二特征图的第一损失值；以及，根据所述第一特征图、所述第二特征图和标签特征图，确定所述第二特征图中的目标区域对应的第二损失值；其中，所述标签特征图为对所述样本图像对应的标签图像进行特征提取得到的特征图；

根据所述第一损失值和所述第二损失值，对所述第二网络进行蒸馏训练。

2.根据权利要求1所述的方法，其特征在于，根据所述第一特征图、所述第二特征图和标签特征图，确定所述第二特征图中的目标区域对应的第二损失值的步骤，包括：

根据所述第一特征图和所述第二特征图确定第一样本；

对所述第一样本、第二样本及第三样本进行损失值计算，得到所述第二特征图的第三损失值；其中，所述第二样本为所述第一特征图，所述第三样本为所述标签特征图；

根据所述第二特征图的第三损失值确定所述第二特征图中的目标区域对应的第二损失值。

3.根据权利要求2所述的方法，其特征在于，根据所述第一特征图和所述第二特征图确定第一样本的步骤，包括：

对所述第一特征图和所述第二特征图进行第一融合处理，得到第一融合分量；

对所述第一特征图和所述第二特征图进行第二融合处理，得到第二融合分量；其中，所述第一融合处理不同于所述第二融合处理；

将所述第一融合分量和所述第二融合分量进行第三融合处理，得到所述第一样本。

4.根据权利要求3所述的方法，其特征在于，对所述第一特征图和所述第二特征图进行第一融合处理，得到第一融合分量的步骤，包括：

对所述第一特征图以及所述第二特征图分别进行池化处理，得到所述第一特征图对应的第一池化特征，以及所述第二特征图对应的第二池化特征；

将所述第一池化特征和所述第二池化特征进行第四融合处理，得到第一融合分量。

5.根据权利要求3所述的方法，其特征在于，对所述第一特征图和所述第二特征图进行第二融合处理，得到第二融合分量的步骤，包括：

将所述第一特征图作为Transformer模型的K向量和V向量；

将所述第二特征图作为所述Transformer模型的Q向量；

通过所述Transformer模型对所述K向量、所述V向量以及所述Q向量进行第五融合处理，得到第二融合分量。

6.根据权利要求2所述的方法，其特征在于，根据第二特征图的第三损失值确定第二特征图中的目标区域对应的第二损失值的步骤，包括：

将所述第三损失值与权重矩阵进行加权求和处理，得到所述第二特征图在所述目标区域的第二损失值；其中，所述权重矩阵中所述目标区域对应第一权重值，所述权重矩阵中所述目标区域以外的区域对应第二权重值，且所述第一权重值大于所述第二权重值。

7.根据权利要求1所述的方法，其特征在于，根据所述第一特征图和所述第二特征图确定所述第二特征图的第一损失值的步骤，包括：

计算所述第一特征图和所述第二特征图之间的相对熵；

根据所述相对熵确定所述第二特征图的第一损失值。

8.一种目标检测方法，其特征在于，所述方法包括：

获取待检测的样本图像；

通过学生网络对所述样本图像进行目标检测，得到所述样本图像对应的检测结果；

其中，所述学生网络通过权利要求1-7任一项所述的方法训练得到。

9.一种模型蒸馏装置，其特征在于，所述装置包括：

特征图确定模块，用于通过第一网络对样本图像进行特征提取，得到所述样本图像对应的第一特征图；以及，通过第二网络对样本图像进行特征提取，得到所述样本图像对应的第二特征图；其中，所述第一网络的复杂度大于所述第二网络，所述第二特征图中至少包括一个对象的检测框以及该检测框对应的类别得分；

目标区域确定模块，用于确定所述第二特征图中的目标区域；其中，所述目标区域为所述类别得分在得分阈值区间的检测框对应的区域；

损失值确定模块，用于根据所述第一特征图和所述第二特征图确定所述第二特征图的第一损失值；以及，根据所述第一特征图、所述第二特征图和标签特征图，确定所述第二特征图中的目标区域对应的第二损失值；其中，所述标签特征图为对所述样本图像对应的标签图像进行特征提取得到的特征图；

训练模块，用于根据所述第一损失值和所述第二损失值，对所述第二网络进行蒸馏训练。

10.一种目标检测装置，其特征在于，所述装置包括：

样本获取模块，用于获取待检测的样本图像；

检测模块，用于通过学生网络对所述样本图像进行目标检测，得到所述样本图像对应的检测结果；其中，所述学生网络通过权利要求1-7任一项所述的方法训练得到。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法，或者，所述处理器执行所述计算机可执行指令以实现权利要求8所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法，或者，计算机可执行指令促使处理器实现权利要求8所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的方法，或者，所述计算机程序被处理器执行时实现权利要求8所述的方法。