CN114998570A

CN114998570A - 一种对象检测框的确定方法、装置、存储介质及电子装置

Info

Publication number: CN114998570A
Application number: CN202210844801.0A
Authority: CN
Inventors: 倪华健; 安超; 杨德城; 林亦宁; 赵之健; 姚唐仁
Original assignee: Hangzhou Shanma Zhiqing Technology Co Ltd; Shanghai Supremind Intelligent Technology Co Ltd
Current assignee: Hangzhou Shanma Zhiqing Technology Co Ltd; Shanghai Supremind Intelligent Technology Co Ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-09-02
Anticipated expiration: 2042-07-19
Also published as: CN114998570B

Abstract

本发明实施例提供了一种对象检测框的确定方法、装置、存储介质及电子装置，其中，该方法包括：利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个目标老师模型输出的目标图像特征，其中，每个目标老师模型输出的目标图像特征不同；融合每个目标老师模型输出的目标图像特征，以得到第一融合特征；将第一融合特征输入至目标网络模型中包括的目标学生模型中，以确定目标图像中包括的对象的目标检测框。通过本发明，解决了相关技术中存在的确定对象的检测框准确率低的问题，达到提高确定对象的检测框的准确率的效果。

Description

一种对象检测框的确定方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种对象检测框的确定方法、装置、存储介质及电子装置。

背景技术

近年来深度学习快速发展，基于卷积神经网络(CNN)的模型结构已经在视觉领域取得了显著的成果，出现了多样的视觉任务，其中目标检测是最常见的视觉任务之一，目标检测利用边界框绘制出目标的位置并标注出类别信息，解决了同一图像的多目标定位和识别的问题。

为了满足实际生活和工业生产的需求，目标检测模型依然面临参数量大，推理速度慢和难以部署到边缘设备等问题。针对此类问题和挑战，提出了模型量化、模型剪枝和知识蒸馏等模型优化方法，其中模型量化是一种将浮点计算转化为低比特定点计算的技术，可以有效的降低模型计算复杂度。模型剪枝通过剔除模型结构中的冗余连接，能够有效的降低模型复杂度和模型参数量。知识蒸馏通过引入老师模型，监督诱导学生模型学习老师模型的特征分布，实现了知识迁移，增强了学生网络性能和泛化能力。

然而，模型量化和模型剪枝处理之后的模型通常需要定制化的硬件来适配加速，训练和部署过程复杂，知识蒸馏是一种高效的端到端学***衡，前景目标像素点较少，背景的像素点很多。(2)不同的像素点之间是有联系而不是独立的，因此检测知识蒸馏也要学习这种像素点之间的关联性。

目标检测利用边界框绘制出目标的位置并标注出类别信息，解决了同一图像的多目标定位和识别的问题。为了满足实际生活和工业生产的需求，目标检测模型面临参数量大，推理速度慢和难以部署到边缘设备等问题。针对此类问题和挑战，提出了知识蒸馏等模型优化方法。知识蒸馏通过引入老师模型，监督诱导学生模型学习老师模型的特征分布，实现了知识迁移，增强了学生网络性能和泛化能力。

在相关技术中，通常是一个老师模型对应一个学生模型，单一老师模型的离散特征容易造成的误差，导致学生模型最终输出的检测框不准确。

由此可知，相关技术中存在确定对象的检测框准确率低的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种对象检测框的确定方法、装置、存储介质及电子装置，以至少解决相关技术中存在的确定对象的检测框准确率低的问题。

根据本发明的一个实施例，提供了一种对象检测框的确定方法，包括：利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个所述目标老师模型输出的目标图像特征，其中，所述每个所述目标老师模型输出的所述目标图像特征不同；融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征；将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中，以确定所述目标图像中包括的对象的目标检测框。

根据本发明的另一个实施例，提供了一种对象检测框的确定装置，包括：处理模块，用于利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个所述目标老师模型输出的目标图像特征，其中，所述每个所述目标老师模型输出的所述目标图像特征不同；融合模块，用于融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征；确定模块，用于将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中，以确定所述目标图像中包括的对象的目标检测框。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个目标老师模型输出的目标图像特征，融合每个目标老师模型输出的目标图像特征，得到第一融合特征，将第一融合特征输入值目标网络模型中包括的目标学生模型中，以确定目标图像中包括的对象的目标检测框。由于可以通过多个目标老师模型对目标图像进行处理，得到多个目标老师模型确定的目标图像特征，再将多个目标图像特征进行融合，使得得到的第一融合特征更具备代表性，再利用目标学生模型分析第一融合特征，得到目标检测框，因此，可以解决相关技术中存在的确定对象的检测框准确率低的问题，达到提高确定对象的检测框的准确率的效果。

附图说明

图1是本发明实施例的一种对象检测框的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的对象检测框的确定方法的流程图；

图3是根据本发明示例性实施例的对象的目标检测框示意图；

图4是根据本发明示例性实施例的对象检测框的确定方法流程示意图；

图5是根据本发明示例性实施例的非局部模块结构示意图；

图6是根据本发明示例性实施例的通过均值池化得到注意力特征图；

图7是根据本发明示例性实施例的初始学生模型学习的特征图；

图8是相关技术中确定的对象检测框示意图；

图9是根据本发明示例性实施例的确定的对象检测框示意图；

图10是根据本发明实施例的对象检测框的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种对象检测框的确定方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的对象检测框的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种对象检测框的确定方法，图2是根据本发明实施例的对象检测框的确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个所述目标老师模型输出的目标图像特征，其中，所述每个所述目标老师模型输出的所述目标图像特征不同；

步骤S204，融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征；

步骤S206，将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中，以确定所述目标图像中包括的对象的目标检测框。

在上述实施例中，目标图像可以是图像采集设备采集到的图像，还可以是从图像库中获取到的图像等。图像采集设备可以为交通岗监控设备，目标图像中可以包括一种或多个对象，如人、机动车、非机动车等。可以通过目标网络模型对目标图像进行分析，确定目标图像中包括的所有对象的目标检测框，在图像中标注出每个对象的目标检测框，并在目标检测框的目标线条边标注出对象的类型或标识信息。例如，当对象为机动车时，可以在目标检测框上边标注出机动车、车牌号等。其中，对象的目标检测框示意图可参见附图3。

在上述实施例中，目标网络模型中可以包括目标学生模型和多个目标老师模型，可以通过目标老师模型对目标图像进行采样处理，得到每个目标老师模型输出的目标图像特征。其中，可以采用多个参数量大、检测效果好和泛化能力强的检测模型作为目标老师模型，对多个目标老师模型提取的特征进行融合，融合之后的特征作为学生模型需要学习的特征。多模型融合后的特征更具有代表性，能够使学生模型学习主要的特征分布，避免了单一老师模型的离散特征造成的误差。

在上述实施例中，目标老师模型可以是预先通过训练数据集对初始老师模型进行训练所得到的模型，目标老师模型可以是预先通过训练数据集对初始老师模型进行训练所得到的模型。

可选地，上述步骤的执行主体可以是后台处理器，或者其他的具备类似处理能力的设备，还可以是至少集成有图像获取设备以及数据处理设备的机器，其中，图像获取设备可以包括摄像头等图形采集模块，数据处理设备可以包括计算机、手机等终端，但不限于此。

在一个示例性实施例中，所述目标网络模型是通过如下方式训练得到的：获取多组训练数据，其中，多组所述训练数据中的每组所述训练数据均包括训练图像以及所述训练图像中的对象的标签检测框的第一位置信息；通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型，得到多个所述目标老师模型；基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型；将训练完成的包括所述目标学生模型以及多个所述目标老师模型的初始网络模型确定为所述目标网络模型。在本实施例中，可以通过多组训练数据分别对多个初始老师模型进行训练，得到目标老师模型。并对初始学生模型进行训练得到目标学生模型。在初始老师模型和初始学生模型训练完成后，即可得到目标网络模型。其中，在训练初始学生模型时，可以获取训练完成的目标老师模型输出的训练特征训练初始学生模型，以得到目标学生模型。

在一个示例性实施例中，通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型，得到多个所述目标老师模型包括：重复执行以下操作，直到所述初始网络模型的第一损失值小于第一预定损失值:将每组所述训练数据中包括的训练图像输入至每个所述初始老师模型，以得到每个所述初始老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第一训练特征；将每个所述初始老师模型提取到的同一层级的所述第一训练特征进行融合，得到不同层级的第二融合特征；基于所述第二融合特征确定所述训练图像的预测检测框的第二位置信息；基于所述第一位置信息以及所述第二位置信息确定所述第一损失值；在所述第一损失值大于第一预定损失值的情况下，更新每个所述初始老师模型的第一网络参数。在本实施例中，在训练初始老师模型时，可以首先输入训练图像，利用初始老师模型的主干神经网络(Backbone)作为特征提取器进行特征提取，输出不同下采样倍率的第一训练特征。其中，backbone是用来做特征提取，提取的特征作为后续类别分类和检测框回归的依据。常用的backbone有resnet、peleenet以及transformer等等。

在上述实施例中，可以利用特征金字塔网络(FPN,Feature Pyramid Network)作为特征融合器对Backbone输出的第一训练特征进行特征融合，得到不同层级的第二融合特征。特征融合是将不同层级的特征之间进行融合，能够增加不同层级特征的上下文信息和感受野范围，有利于多尺度目标的检测。

在上述实施例中，在得到第二融合特征后，可以利用信息整合网络(Head)对FPN输出的不同层级特征进行处理，得到类别分类和检测框回归的预测信息，即第二位置信息。可以根据第二位置信息以及训练数据中包括的第一位置信息确定第一损失值，在第一损失值大于第一预定损失值时，更新每个初始老师模型的第一网络参数。再利用训练数据训练更新了第一网络参数的初始老师模型，确定更新了第一网络参数的初始老师模型的第一损失值，直到第一损失值小于或等于第一预定损失值，得到多个参数量大、检测效果好和泛化能力强的目标老师模型。其中，目标老师模型包括Backbone+FPN+Head，可以使用ATSS，Centernet、YOLOX等模型作为目标老师模型，这些模型的参数量可以大一些。不同的模型不同点在于训练的方法不同，比如定义正负样本的方法不同等等，老师模型也可以和学生模型是同一类模型框架，但是学生模型的Backbone小一点，老师的大一点。比如学生用resnet18，老师用resnet101。老师的参数量大，模型表征能力大。学生模型就要去学习老师的这种强的表征能力。

在上述实施例中，Head通过对特征图进行处理，特征图的每一个像素点代表一个锚点，通过这个锚点映射回原图的位置点再结合预测的信息，就能确定某个位置的目标。比如输入图是H x W x 3，head 部分的输入的特征图是H/s x W/s x N，s是下采样倍率，对应不同的下采样倍率的特征图，例如 8、16、32的下采样倍率。N是代表通道的纬度。H和W表示高和宽。HEAD对这个不同的下采样倍率的特征图进行处理得到H/s x W/s x (4+类别数)的输出，4就是检测框的预测信息，类别数就是对应类别的预测信息。当然这些预测信息也会经过后处理NMS，置信度阈值过滤得到最终的输出。

在上述实施例中，也可以预先确定训练初始老师模型的训练次数，当训练次数达到预先确定的训练次数时，退出训练，得到目标老师模型。还可以既设置训练次数又设置第一预定损失值，在训练满足训练次数以及第一损失值小于或等于第一预定损失值，二者满足任意一条时，即可退出训练。

在一个示例性实施例中，基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型包括：重复执行以下操作，直到所述初始网络模型的第二损失值小于第二预定损失值：将每组所述训练数据中包括的训练图像输入至每个所述目标老师模型，以得到每个所述目标老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第二训练特征；将每个所述目标老师模型提取到的同一层级的所述第二训练特征进行融合，得到不同层级的第三融合特征；将输入至所述目标老师模型中的所述训练图像输入至所述初始学生模型，以得到所述初始学生模型按照不同的采样倍率提取到的所述训练图像的不同层级的第三训练特征；将不同层级的所述第三融合特征输入至初始学生模型中，以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差；基于所述训练误差确定所述初始网络模型的所述第二损失值；在所述第二损失值大于第二预定损失值的情况下，基于所述第二损失值调整所述初始学生模型的网络参数。在本实施例中，在训练初始学生模型时，可以将训练数据输入至目标老师模型中，得到每个目标老师模型按照不同的采样倍率提取到的第二训练特征，并将多个目标老师模型在相同层级的第二训练特征进行融合，得到不同层级的第三训练特征，将不同层级的第三融合特征输入至初始学生模型中。同时，初始学生模型还可以对训练图像按照不同的采样倍率进行抽样，得到不同层级的第三训练特征，初始学生模型可以确定相同层级间的第三训练特征与第三融合特征的训练误差，根据训练误差确定第二损失值，在第二损失值大于第二预定损失值的情况下，更新初始学生模型的网络参数。再次利用训练数据训练更新了网络参数的初始学生模型，直到第二损失值小于或等于第二预定损失值。

在上述实施例中，也可以预先确定训练初始学生模型的训练次数，当训练次数达到预先确定的训练次数时，退出训练，得到目标学生模型。还可以既设置训练次数又设置第二预定损失值，在训练满足训练次数以及第二损失值小于或等于第二预定损失值，二者满足任意一条时，即可退出训练。

在上述实施例中，可以通过特征金字塔网络(FPN,Feature Pyramid Network)确定第三训练特征，即可以确定初始学生模型的特征金字塔网络(FPN,Feature PyramidNetwork)输出的不同层级的特征，即第三训练特征。同步得到的多个训练完成的目标老师模型执行前向推理，阻断目标老师模型的参数更新，获得多个目标老师模型FPN输出的不同层级特征集合，对应层级的老师特征进行融合，得到第三融合特征。其中，在不同层级融合特征时可以采用相加后求均值的方式，将融合后的第三融合特征作为学生模型需要学习的特征。

在一个示例性实施例中，将不同层级的所述第三融合特征输入至初始学生模型中，以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差包括：确定所述第三融合特征与所述第三训练特征之间的空间注意力误差；确定所述第三融合特征与所述第三训练特征之间的通道注意力误差；确定所述第三融合特征与所述第三训练特征之间的关联性误差；将所述空间注意力误差、所述通道注意力误差以及所述关联性误差确定为所述训练误差。在本实施例中，可以采用均值池化分别对融合后的第三融合特征和第三训练特征之间产生的空间和通道维度的注意力特征，得到空间注意力误差和通道注意力误差。采用非局部模块(NLM，Non-Local Module)来分别提取第三融合特征和第三训练特征之间的关联性，采用均方误差来衡量关联性误差。根据空间注意力误差、通道注意力误差以及关联性误差确定训练误差。例如，可以将老师和学生的空间注意力误差、通道注意力误差和关联性误差加入到学生模型的损失函数(Loss)中进行全局监督优化，以此提升学生网络检测性能。其中，对象检测框的确定方法流程示意图可参见附图4，非局部模块结构示意图可参见附图5。

在一个示例性实施例中，确定所述第三融合特征与所述第三训练特征之间的空间注意力误差包括：确定所述第三融合特征中包括的位于所述标签检测框中的第三子融合特征；确定所述第三训练特征中包括的位于所述标签检测框中的第四子训练特征；确定所述第三子融合特征与所述第四子训练特征之间的所述空间注意力误差。在本实施例中，在确定空间注意力误差时，可以将标注的目标边界框映射到空间注意力特征上，只关注映射区域的注意力特征学习，能够有效的减少噪声和负样本点的影响。其中，目标的边界框就是训练数据中标注的标签检测框，它是标注人员标注的，就是模型应该学习的目标。模型预测的目标检测框应该尽量和标注人员标注的边界框(检测框)重合。

在上述实施例中，可以通过均值池化确定第三融合特征和第三训练特征之间的注意力特征图，根据注意力特征图确定空间注意力误差。其中，通过均值池化得到注意力特征图可参见附图6，如图6所示，越亮的区域就代表越关注，应该关注的区域是有对象的区域，那么背景里面也有比较亮的，这些就是错误的知识，不应该让学生模型学习，所以可以结合标签检测框，只让学生学习标签检测框中的特征。其中，初始学生模型学习的特征图可参见附图7，如图7所示，框中的特征为初始学生模型学习的特征。

在一个示例性实施例中，融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征包括：确定多个所述目标老师模型的目标数量；确定多个所述目标老师模型输出的所述目标图像特征的特征和；将所述特征和与所述目标数量的比值确定为所述第一融合特征。在本实施例中，在确定第一融合特征时，可以将同一层级的目标图像特征相加后求平均，得到第一融合特征。对老师模型提取的特征进行融合，融合之后的特征作为学生模型需要学习的特征。这样做的好处是多模型融合后的特征更具有代表性，能够使学生模型学习主要的特征分布，避免了单一老师模型的离散特征造成的误差。

在前述实施例中，能够无损的提升学生模型的检测效果，有利于模型在边缘端设备部署，且方法高效简单，容易迁移到各类领域的检测任务。对检测模型在实际生活和工业领域的应用意义重大。当对象检测框的确定方法应用在交通领域时，通过相关技术确定的对象检测框示意图可参见附图8，通过本发明确定的对象检测框示意图可参见附图9。对比可直观地看出通过本发明的方式提升了学生模型的检测效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

在本实施例中还提供了一种对象检测框的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图10是根据本发明实施例的对象检测框的确定装置的结构框图，如图10所示，该装置包括：

处理模块1002，用于利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个所述目标老师模型输出的目标图像特征，其中，所述每个所述目标老师模型输出的所述目标图像特征不同；

融合模块1004，用于融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征；

确定模块1006，用于将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中，以确定所述目标图像中包括的对象的目标检测框。

在一个示例性实施例中，所述装置可以通过如下方式训练得到的所述目标网络模型：获取多组训练数据，其中，多组所述训练数据中的每组所述训练数据均包括训练图像以及所述训练图像中的对象的标签检测框的第一位置信息；通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型，得到多个所述目标老师模型；基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型；将训练完成的包括所述目标学生模型以及多个所述目标老师模型的初始网络模型确定为所述目标网络模型。

在一个示例性实施例中，所述装置可以通过如下方式实现通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型，得到多个所述目标老师模型：重复执行以下操作，直到所述初始网络模型的第一损失值小于第一预定损失值：将每组所述训练数据中包括的训练图像输入至每个所述初始老师模型，以得到每个所述初始老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第一训练特征；将每个所述初始老师模型提取到的同一层级的所述第一训练特征进行融合，得到不同层级的第二融合特征；基于所述第二融合特征确定所述训练图像的预测检测框的第二位置信息；基于所述第一位置信息以及所述第二位置信息确定所述第一损失值；在所述第一损失值大于第一预定损失值的情况下，更新每个所述初始老师模型的第一网络参数。

在一个示例性实施例中，所述装置可以通过如下方式实现基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型：重复执行以下操作，直到所述初始网络模型的第二损失值小于第二预定损失值：将每组所述训练数据中包括的训练图像输入至每个所述目标老师模型，以得到每个所述目标老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第二训练特征；将每个所述目标老师模型提取到的同一层级的所述第二训练特征进行融合，得到不同层级的第三融合特征；将输入至所述目标老师模型中的所述训练图像输入至所述初始学生模型，以得到所述初始学生模型按照不同的采样倍率提取到的所述训练图像的不同层级的第三训练特征；将不同层级的所述第三融合特征输入至初始学生模型中，以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差；基于所述训练误差确定所述初始网络模型的所述第二损失值；在所述第二损失值大于第二预定损失值的情况下，基于所述第二损失值更新所述初始学生模型的网络参数。

在一个示例性实施例中，所述装置可以通过如下方式实现将不同层级的所述第三融合特征输入至初始学生模型中，以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差：确定所述第三融合特征与所述第三训练特征之间的空间注意力误差；确定所述第三融合特征与所述第三训练特征之间的通道注意力误差；确定所述第三融合特征与所述第三训练特征之间的关联性误差；将所述空间注意力误差、所述通道注意力误差以及所述关联性误差确定为所述训练误差。

在一个示例性实施例中，所述装置可以通过如下方式实现确定所述第三融合特征与所述第三训练特征之间的空间注意力误差：确定所述第三融合特征中包括的位于所述标签检测框中的第三子融合特征；确定所述第三训练特征中包括的位于所述标签检测框中的第四子训练特征；确定所述第三子融合特征与所述第四子训练特征之间的所述空间注意力误差。

在一个示例性实施例中，融合模块1004可以通过如下方式实现融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征：确定多个所述目标老师模型的目标数量；确定多个所述目标老师模型输出的所述目标图像特征的特征和；将所述特征和与所述目标数量的比值确定为所述第一融合特征。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对象检测框的确定方法，其特征在于，包括：

利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个所述目标老师模型输出的目标图像特征，其中，所述每个所述目标老师模型输出的所述目标图像特征不同；

融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征；

将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中，以确定所述目标图像中包括的对象的目标检测框；

所述目标网络模型是通过如下方式训练得到的：获取多组训练数据，其中，多组所述训练数据中的每组所述训练数据均包括训练图像以及所述训练图像中的对象的标签检测框的第一位置信息；通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型，得到多个所述目标老师模型；基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型；将训练完成的包括所述目标学生模型以及多个所述目标老师模型的初始网络模型确定为所述目标网络模型；

基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型包括：重复执行以下操作，直到所述初始网络模型的第二损失值小于第二预定损失值：将每组所述训练数据中包括的训练图像输入至每个所述目标老师模型，以得到每个所述目标老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第二训练特征；将每个所述目标老师模型提取到的同一层级的所述第二训练特征进行融合，得到不同层级的第三融合特征；将输入至所述目标老师模型中的所述训练图像输入至所述初始学生模型，以得到所述初始学生模型按照不同的采样倍率提取到的所述训练图像的不同层级的第三训练特征；将不同层级的所述第三融合特征输入至初始学生模型中，以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差；基于所述训练误差确定所述初始网络模型的所述第二损失值；在所述第二损失值大于第二预定损失值的情况下，基于所述第二损失值更新所述初始学生模型的网络参数。

2.根据权利要求1所述的方法，其特征在于，通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型，得到多个所述目标老师模型包括：

重复执行以下操作，直到所述初始网络模型的第一损失值小于第一预定损失值:

将每组所述训练数据中包括的训练图像输入至每个所述初始老师模型，以得到每个所述初始老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第一训练特征；

将每个所述初始老师模型提取到的同一层级的所述第一训练特征进行融合，得到不同层级的第二融合特征；

基于所述第二融合特征确定所述训练图像的预测检测框的第二位置信息；

基于所述第一位置信息以及所述第二位置信息确定所述第一损失值；

在所述第一损失值大于第一预定损失值的情况下，更新每个所述初始老师模型的第一网络参数。

3.根据权利要求1所述的方法，其特征在于，将不同层级的所述第三融合特征输入至初始学生模型中，以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差包括：

确定所述第三融合特征与所述第三训练特征之间的空间注意力误差；

确定所述第三融合特征与所述第三训练特征之间的通道注意力误差；

确定所述第三融合特征与所述第三训练特征之间的关联性误差；

将所述空间注意力误差、所述通道注意力误差以及所述关联性误差确定为所述训练误差。

4.根据权利要求3所述的方法，其特征在于，确定所述第三融合特征与所述第三训练特征之间的空间注意力误差包括：

确定所述第三融合特征中包括的位于所述标签检测框中的第三子融合特征；

确定所述第三训练特征中包括的位于所述标签检测框中的第四子训练特征；

确定所述第三子融合特征与所述第四子训练特征之间的所述空间注意力误差。

5.根据权利要求1所述的方法，其特征在于，融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征包括：

确定多个所述目标老师模型的目标数量；

确定多个所述目标老师模型输出的所述目标图像特征的特征和；

将所述特征和与所述目标数量的比值确定为所述第一融合特征。

6.一种对象检测框的确定装置，其特征在于，包括：

处理模块，用于利用目标网络模型中包括的多个目标老师模型对目标图像进行处理，以确定每个所述目标老师模型输出的目标图像特征，其中，所述每个所述目标老师模型输出的所述目标图像特征不同；

融合模块，用于融合每个所述目标老师模型输出的目标图像特征，以得到第一融合特征；

确定模块，用于将所述第一融合特征输入至所述目标网络模型中包括的目标学生模型中，以确定所述目标图像中包括的对象的目标检测框；

所述装置通过如下方式训练得到的所述目标网络模型：获取多组训练数据，其中，多组所述训练数据中的每组所述训练数据均包括训练图像以及所述训练图像中的对象的标签检测框的第一位置信息；通过多组所述训练数据训练初始网络模型中包括的多个初始老师模型，得到多个所述目标老师模型；基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型；将训练完成的包括所述目标学生模型以及多个所述目标老师模型的初始网络模型确定为所述目标网络模型；

所述装置通过如下方式实现基于所述目标老师模型输出的所述训练图像的训练特征训练所述初始网络模型中包括的初始学生模型，以得到所述目标学生模型：重复执行以下操作，直到所述初始网络模型的第二损失值小于第二预定损失值：将每组所述训练数据中包括的训练图像输入至每个所述目标老师模型，以得到每个所述目标老师模型按照不同的采样倍率提取到的所述训练图像的不同层级的第二训练特征；将每个所述目标老师模型提取到的同一层级的所述第二训练特征进行融合，得到不同层级的第三融合特征；将输入至所述目标老师模型中的所述训练图像输入至所述初始学生模型，以得到所述初始学生模型按照不同的采样倍率提取到的所述训练图像的不同层级的第三训练特征；将不同层级的所述第三融合特征输入至初始学生模型中，以确定相同层级的所述第三融合特征与所述第三训练特征的训练误差；基于所述训练误差确定所述初始网络模型的所述第二损失值；在所述第二损失值大于第二预定损失值的情况下，基于所述第二损失值更新所述初始学生模型的网络参数。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至5任一项中所述的方法的步骤。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。