CN116758280A

CN116758280A - 目标检测方法、装置、设备以及存储介质

Info

Publication number: CN116758280A
Application number: CN202310915147.2A
Authority: CN
Inventors: 李林超; 权家新; 周凯; 温婷
Original assignee: Zhejiang Zhuoyun Intelligent Technology Co ltd
Current assignee: Zhejiang Zhuoyun Intelligent Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-09-15

Abstract

本发明公开了一种目标检测方法、装置、设备以及存储介质。该方法包括：将训练图像输入目标检测网络的主干网络，对训练图像进行特征提取；将主干网络输出的特征输入瓶颈层的第一分支和第一检测头、第二分支和第二检测头进行处理，以得到第一预测目标框和第二预测目标框；基于预设的损失函数，确定第一目标损失值和第二目标损失值的大小关系，并将目标损失值较小的目标检测模型确定为教师模型，较大的确定为学生模型；基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，从而对待检测图像中的目标对象进行检测。可以得到准确性更高的目标检测模型，用于对待检测图像中的目标对象进行检测。

Description

目标检测方法、装置、设备以及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及目标检测方法、装置、设备以及存储介质。

背景技术

随着深度学习目标检测方法在各个工业领域被广泛应用，目标检测网络也得到相对迅速的发展，目标检测模型的准确率越来越高，但依旧存在模型复杂以及训练周期长等问题，影响了后续目标检测的效率。

现有的目标检测模型在瓶颈层的特征处理部分和检测头的目标检测部分均采用单一的处理方式，使得训练得到的模型的目标检测准确率不足。

因此，如何综合采用不同瓶颈层处理方式和不同检测头目标检测方式进行模型训练，使得蒸馏训练的过程更加智能，从而得到准确性更高的目标检测模型，提高对图像的目标检测能力，是目前亟待解决的问题。

发明内容

本发明提供了一种目标检测方法、装置、设备以及存储介质，可以得到准确性更高的目标检测模型，提高对产品的目标检测能力。

根据本发明的一方面，提供了一种目标检测方法，包括：

将训练图像输入目标检测网络的主干网络，对训练图像进行特征提取；

将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框；

基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，并将目标损失值较小的目标检测模型确定为教师模型，将目标损失值较大的目标检测模型确定为学生模型；

基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，并采用训练好的目标检测模型，对待检测图像中的目标对象进行检测。

根据本发明的另一方面，提供了一种目标检测装置，包括：

提取模块，用于将训练图像输入目标检测网络的主干网络，对训练图像进行特征提取；

得到模块，用于将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框；

确定模块，用于基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，并将目标损失值较小的目标检测模型确定为教师模型，将目标损失值较大的目标检测模型确定为学生模型；

检测模块，用于基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，并采用训练好的目标检测模型，对待检测图像中的目标对象进行检测。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的目标检测方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的目标检测方法。

本发明实施例的技术方案，将训练图像输入目标检测网络的主干网络，对训练图像进行特征提取；将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框；基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，并将目标损失值较小的目标检测模型确定为教师模型，将目标损失值较大的目标检测模型确定为学生模型；基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，并采用训练好的目标检测模型，对待检测图像中的目标对象进行检测。通过这样的方式，可以加入不同检测头和瓶颈层分支进行模型训练，使得蒸馏训练的过程更加智能，从而得到准确性更高的目标检测模型，用于对待检测图像中的目标对象进行检测。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的目标检测方法的流程图；

图2是本发明实施例二提供的目标检测方法的流程示意图；

图3是本发明实施例三提供的目标检测装置的结构框图；

图4是本发明实施例四提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”、“候选”、“备选”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一提供的目标检测方法的流程图；本实施例可适用于采用多种检测头训练目标检测蒸馏模型，以进行更有效准确的产品检测的情况，该方法可以由目标检测装置来执行，该目标检测装置可以采用硬件和/或软件的形式实现，该目标检测装置可配置于电子设备中。如图1所示，该目标检测方法包括：

S101、将训练图像输入目标检测网络的主干网络，对训练图像进行特征提取。

其中，训练图像可以是X光图像，X光图像是指通过X光对物体进行扫描拍摄后获取到的图像。主干网络可以包括输入层和输出层，输入层用于输入训练图像，输出层用于基于预设的卷积算法，采用卷积的方式，对训练图像进行特征提取。

可选的，目标检测网络包括：主干网络、瓶颈层以及检测头；主干网络主要用于对输入图像进行特征提取；瓶颈层主要用于对提取的特征图进行特征融合处理或编解码处理，并把处理后的特征传递至检测头；检测头进行最终的回归预测，得到预测目标框，以及预测目标框的位置和类别。

S102、将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框。

其中，第一预测目标框是指采用第一种处理方式对主干网络输出的特征进行处理和目标预测之后得到的预测目标框，第二预测目标框是指采用第二种处理方式对主干网络输出的特征进行处理和目标预测之后得到的预测目标框。预测目标框具体是指训练图像中各目标对应的最终目标框、目标框对应的类别和位置信息等。

可选的，第一分支可以为：采用具有编解码结构的神经网络，对主干网络输出的特征进行编解码处理，以使得确定出的训练图像背景信息和目标信息分界线更加分明；第二分支可以为：采用预设的特征融合算法，对主干网络输出的特征进行融合，使特征图具有不同感受野。

可选的，对主干网络输出的特征进行预测处理时，可以基于匈牙利算法的最大匹配原则，确定训练图像中各目标的预测目标框。

可选的，将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框，包括：在瓶颈层的第一分支，基于Transformer网络的编码器和解码器，对主干网络输出的特征进行处理，并在第一检测头，采用前馈网络进行目标检测，以得到第一预测目标框；在瓶颈层的第二分支，基于特征金字塔网络，对主干网络输出的特征进行处理，并在第二检测头，采用非极大值抑制方式进行目标检测，以得到第二预测目标框。

其中，Transformer网络是一种基于注意力机制的图神经网络。编解码层中的注意力子层输出都会接到一个前馈网络(Feed-Forward Networks，FFN)，通过前馈网络的全连接层进行目标检测，以得到第一预测目标框。特征金字塔网络(Feature Pyramid Network，FPN)是一种特征融合网络。非极大值抑制(Non maximum Suppression，NMS)是基于去除冗余检测框的方式进行目标检测的算法。

可选的，在瓶颈层的第一分支，基于Transformer网络的编码器和解码器，对主干网络输出的特征进行处理，并在第一检测头，采用前馈网络进行目标检测，以得到第一预测目标框，包括：基于编码器，确定主干网络的所有感受野特征，对所有感受野特征进行编码操作，并根据全局注意力共享参数，对不同感受野特征进行自注意力操作，以得到具有全局注意力的特征图；基于解码器，对编码层输出的特征图进行解码，以得到解码层特征以及解码层特征之间的相关性关系；在第一检测头，根据解码层特征以及解码层特征之间的相关性关系，基于前馈网络，进行目标预测，以得到第一预测目标框。

其中，感受野特征可以表征瓶颈层输出的特征图上像素点在输入的训练集图片上映射的区域大小，也就是说，感受野特征图上的每个点都对应输入的训练图像上的一片区域。解码层特征之间的相关性关系例如可以是图像不同特征区域的特征之间的相关性关系，可以用相关性系数来表征。

示例性的，采用第一种处理方式，对主干网络输出的特征进行预测处理，以得到第一预测目标框的方式可以为：基于Transformer网络的编码器和解码器，对主干网络输出的特征进行编解码，得到具有全局注意力的特征图；采用前馈网络，利用先验知识，进行目标检测，得到对目标的预测结果。

可选的，基于特征金字塔网络，对主干网络输出的特征进行处理，并在第二检测头，采用非极大值抑制方式进行目标检测，以得到第二预测目标框，包括：基于特征金字塔网络，对主干网络输出的特征进行特征融合，以得到具有不同感受野的特征图；对具有不同感受野的特征图进行有效特征提取，并在第二检测头，基于非极大值抑制方式，进行目标检测，以得到第二预测目标框。

需要说明的是，在主干网络输出层输出特征之后，可以同时进行第一分支加第一检测头，以及第二分支加第二检测头的两种不同的处理方式，也就是说，本发明将瓶颈层和检测头分为了两个分支，以确定出不同的预测目标框。其中第一分支输出的特征图和第二分支输出的特征图宽、高和通道相同。

需要说明的是，第一分支和第二分支进行目标检测的过程均为：将整张训练图像划分为若干个检测框，每个检测框预测出该检测框内物体的种类和位置信息，然后根据预测框与真实框之间的损失，进行目标框的筛选，最终输出目标框的类别和位置信息，即得到第一预测目标框和第二预测目标框。

需要说明的是，本发明提出的目标检测方案，通过在一个目标检测网络采用2种不同的检测头参与模型训练；并在训练阶段，利用多种检测头互相作用，分别对主干网络、瓶颈层和检测头互相引导，可以有效提高目标检测能力。

S103、基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，并将目标损失值较小的目标检测模型确定为教师模型，将目标损失值较大的目标检测模型确定为学生模型。

其中，预设的损失函数例如可以是回归损失函数和预测目标类别损失函数。真实目标框是指预先已知的训练图像中各目标实际的位置区域。目标损失值是指基于预设的损失函数分别采用第一分支和第一检测头，以及第二分支和第二检测头进行预测处理得到的预测结果进行评估后得到的损失值。

可选的，采用两种不同的处理方式确定出第一预测目标框和第二预测目标框之后，可以采用相同的损失值计算方法，分别计算第一预测目标框和真实目标框之间的第一目标损失值，以及第二预测目标框和真实目标框之间的第二目标损失值。

具体的，基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，包括：

(1)基于CIOU损失函数，确定第一预测目标框和真实目标框之间的第一CIOU损失值，以及第二预测目标框和真实目标框之间的第二CIOU损失值。其中，CIOU损失(CompleteIntersection over Union Loss，Complete IoU Loss)是考虑重叠面积、中心点距离和长宽比三种几何参数的一种回归定位损失函数。

示例性的，可以基于如下公式，分别确定第一CIOU损失值和第二CIOU损失值：

bbox_ciou_score＝CIOU(bbox_pre,bbox_gt)

其中，bbox_ciou_score为第一预测目标框与真实目标框之间的第一CIOU损失值，或第二预测目标框与真实目标框之间的第二CIOU损失值，bbox_pre表示预测目标框坐标，bbox_gt表示真实目标框的坐标。

(2)基于坐标损失函数，确定第一预测目标框和真实目标框之间的第一坐标损失值，以及第二预测目标框和真实目标框之间的第二坐标损失值。示例性的，可以通过如下公式确定第一坐标损失值和第二坐标损失值。

其中，bbox_pre表示预测目标框坐标，bbox_gt表示真实目标框的坐标。

(3)根据第一CIOU损失值、第一坐标损失值、CIOU损失对应的CIOU权重以及坐标损失对应的坐标权重，确定第一预测目标框和真实目标框之间的第一回归损失值；根据第二CIOU损失值、第二坐标损失值、CIOU损失对应的CIOU权重以及坐标损失对应的坐标权重，确定第二预测目标框和真实目标框之间的第二回归损失值；

例如，可以基于如下公式，确定第一回归损失值和第二回归损失值：

其中，bbox_ciou_score是CIOU损失值，是坐标损失值，λ_ciou是预设的CIOU损失对应的CIOU权重，λ₂是预设的坐标损失对应的坐标权重，Loss_bbox是回归损失值。

(4)根据第一回归损失值、第二回归损失值以及预测目标类别损失值，确定第一目标损失值和第二目标损失值的大小关系。

可选的，可以将分类损失(如交叉熵)和CIOU损失值的乘积，确定为预测目标类别损失值，具体的，可以基于如下公式，确定预测目标类别损失值Loss_label：

Loss_label＝Loss_cls×bbox_ciou_score

其中，Loss_cls是采用现有的分类损失计算方法(如交叉熵损失)计算确定的损失值，bbox_ciou_score为预测目标框与真实目标框之间的CIOU损失值。

可选的，根据第一回归损失值、第二回归损失值以及预测目标类别损失值，确定第一目标损失值和第二目标损失值，包括：将第一回归损失值和预测目标类别损失值的和，确定为第一目标损失值；将第二回归损失值和预测目标类别损失值的和，确定为第二目标损失值。进一步的，可以根据第一目标损失值和第二目标损失值，确定第一目标损失值和第二目标损失值的大小关系。

示例性的，可以基于如下公式，计算处理方式对应目标检测模型的目标损失值Loss_sum：

Loss_sum＝Los_label+Loss_bbox

其中，Los^label是预测目标类别损失值，Loss_bbox是回归损失值。

S104、基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的的目标检测模型，并采用训练好的目标检测模型，对待检测图像中的目标对象进行检测。

示例性的，对最终训练好的目标检测模型具体可以用于对待检测图像中的违禁品进行检测。

可选的，基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，包括：

(1)分别采用教师模型和学生模型对训练图像进行预测处理，确定出教室模型和学生模型对应的特征图；

(2)基于预设的计算方式，确定两种特征图之间的距离差异和相似性差异，并根据距离差异和相似性差异，确定在瓶颈层的第一蒸馏损失，实现在瓶颈层的蒸馏操作；

其中，距离差异表征两种特征图之间的特征值的差异。

示例性的，可以基于如下公式，确定距离差异dil_fpn_abs：

dil_fpn_abs＝abs(feature_map_st,feature_map_te)

其中，abs表示取绝对值，feature_map_st是指采用学生模型进行预测处理确定的特征图。feature_map_te是指采用教师模型进行预测处理确定的特征图。

示例性的，可以基于如下公式，确定两种特征图之间的相似性差异dil_fpn_channel：

dil_fpn_channel＝abs(cov(feature_map_channel_st),cov(featur_map_channel_te))

其中，abs表示取绝对值，cov表示进行协方差计算确定相关性差异。feature_map_channel_st是指采用学生模型进行预测处理确定的特征图的协方差，feature_map_channel_te是指采用教师模型进行预测处理确定的特征图的协方差。

可选的，可以将距离差异和相似性差异的和，确定在瓶颈层的第一蒸馏损失，并基于第一蒸馏损失，进行在瓶颈层的蒸馏操作。

(3)将教师模型的预测结果作为学生模型的伪标签目标进行训练，并确定在检测头的第二蒸馏损失，实现在检测头的蒸馏操作；

示例性的，可以基于如下公式，确定在检测头的第二蒸馏损失dil_loss：dil_loss＝KL_head_kl+label_te_score×bbox_ciou_te_score(dil_bbox_head+dil_label_head)其中，KL_head_kl是教师模型预测目标框和学生模型预测目标框的类别相似度，label_te_score是教师模型预测目标其中一个类别的得分。bbox_ciou_te_score是教师模型训练得到的CIOU损失值。dil_bbox_head是以教师模型预测的目标为真实目标，计算学生模型与教师模型预测框坐标的差异。dil_label_head是以教师模型预测的目标为真实目标，计算学生模型与教师模型预测类别的差异。

需要说明的是，由于蒸馏时学生模型是以教师模型预测结果为真实目标，但教师模型会存在错误现象，本发明增加了预测目标的置信度考虑，采用上述公式确定在检测头的第二蒸馏损失dil_loss，可以有效规避上述问题，提高最终生成的目标检测模型的泛化性能。

示例性的，可以基于如下公式，确定教师模型预测目标其中一个类别的得分：

其中，label^score表示预测目标其中一个类别的得分，x表示该框类别的特征值。

示例性的，可以基于如下公式，确定教师模型预测目标框和学生模型预测目标框的类别相似度KL_head_kl：

KL_head_kl＝KL(P_teacher,P_student)

其中，KL()是指计算KL散度(Kullback-Leibler Divergence)。P_teacher和P_student分别表示采用教师模型和学生模型进行目标检测时预测目标框的类别概率分布。

示例性的，可以基于如下公式，确定以教师模型预测的目标为真实目标，学生模型与教师模型预测目标框坐标的差异dil_bbox_head：

其中，bbox_te为教师模型确定的预测目标框坐标，bbox_st为学生模型确定的预测目标框坐标，CIOU()是指求CIOU损失。

示例性的，可以基于如下公式，确定以教师模型预测的目标为真实目标，学生模型与教师模型预测类别的差异dil_label_head：

dil_label_head＝cls(obj_te,obj_st)

其中，obj_te和obj_st分别表示教师模型和学生模型预测的目标框的类别。cls()为求类别的差异。

(4)根据第一蒸馏损失和第二蒸馏损失，确定目标蒸馏损失，并根据目标蒸馏损失进行蒸馏操作，以得到训练好的目标检测模型。

需要说明的是，本发明采用的目标检测模型蒸馏训练方案，可以使得教师模型和学生模型共同训练，减少训练时间，且教师模型和学生模型由前期网络训练得到的损失值决定，脱离人工干预，使学生模型的检测能力不受教师模型的检测能力限制，另外，通过采用两种不同机制的检测头，分别在瓶颈层和检测头进行蒸馏，预测目标的预测框和类别，可以有效提高目标检测结果的准确性。

本发明实施例的技术方案，将训练图像输入目标检测网络的主干网络，对训练图像进行特征提取；将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框；基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，并将目标损失值较小的目标检测模型确定为教师模型，将目标损失值较大的目标检测模型确定为学生模型；基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，并采用训练好的目标检测模型，根据X光射线照射后产品的X光图像，对产品中的危险品进行检测。通过这样的方式，可以加入不同检测头进行模型训练，使得蒸馏训练的过程更加智能，从而得到准确性更高的目标检测模型，用于对待检测图像中的目标对象进行检测。

实施例二

图2是本发明实施例二提供的目标检测方法的流程示意图；本实施例在上述实施例的基础上，给出了一种采用两种不同检测头分别进行目标检测处理(即在检测头分别采用FFN和NMS方法进行目标检测)以进行目标检测的优选实例。

如图2所示，该目标检测方法可以包括如下过程：

训练图像输入目标检测网络的主干网络进行处理后，可以从两个分支分别进行预测处理，具体的，第一分支为在瓶颈层采用Transformer网络的编码器和解码器进行处理，进一步在检测头采用FFN进行目标检测；第二分支为在瓶颈层采用FPN进行特征融合处理，进一步在检测头采用NMS方法进行目标检测；在根据训练得到的损失值，将两个分支确定的模型分为教师模型和学生模型后，可以在瓶颈层进行第一蒸馏操作(记为蒸馏1)，在检测头进行第二蒸馏操作(记为蒸馏2)，并根据最终确定的目标蒸馏损失进行蒸馏操作，以得到训练好的目标检测模型，以便于后续对输入的目标对象进行目标检测，如对待检测图像中的目标对象进行检测。

具体的，本专利采用了两种不同检测头进行蒸馏。具体的，对主干网络输出的特征基于两个分支，分别进行了两种处理：

①对输出的特征进行编解码，得到具有全局注意力的特征图，采用前馈网络的全连接层对目标进行预测；

②主干网络输出层采用卷积，进行特征提取，进一步基于特征金字塔网络和非极大值抑制方式，利用先验知识，对预测框进行预测，得到预测目标。

进一步的，本发明分别对主干网络的输出层和检测头进行蒸馏，具体实现方法如下步骤：

步骤一：训练图像进行数据处理，输入到主干网络进行特征提取；

步骤二：主干网络提取的特征同时分别进行两个操作；

操作一：

①主干网络输入到编解码分支，先进行编码层：

需要说明的是，本发明的编码层对主干网络不同感受野进行全局注意力操作，由于实际应用时采用第二分支进行处理，所以对所有感受野特征层进行编码操作，只会对训练增加少量耗时，但比传统蒸馏方法节省时间；由于对所有感受野特征层进行编码操作，导致模型对小目标具有较好检出率和全局注意力共享参数对不同感受野特征图进行自注意力操作，从而加快了编码层的学习；

②解码层对编码层输出的特征图进行解码，依据编码层得到特征值与其他特征层的关系，从而使背景信息和目标信息分界线更加分明；

③解码层特征值通过FFN进行目标预测；

④采用匈牙利算法，得到预测的目标；并与真实目标进行损失计算，得到损失值；

操作二：

①对主干网络的输出的特征进行特征图融合，使特征图具有不同感受野，然后进行特征有效特征提取，加强特征图的图像信息和语义信息，但由于卷积的局限性，融合后的特征图并没有操作一的全局信息，但推理时计算量急剧减少。

②特征融合后的特征图进行目标预测；

③预测目标采用NMS操作，与真实目标进行损失计算得到损失值。

可选的，操作一和操作二共用一套损失计算方法，由于传统的目标检测网络模型在训练阶段目标得分和分类得分是分别计算，但测试阶段目标得分和分类得分是结合计算，导致训练阶段和测试阶段计算方法不一致，导致目标框得分和分类得分分布不存在相关性，另外，由于CIOU损失计算关注的预测目标和真实目标的重叠面积的比例，缺少坐标的关注度，因此本发明在CIOU损失计算后面增加坐标损失计算，从而使目标框损失既有面积比例损失，又有坐标损失，从而解决了预测目标和真实目标的比例以及不受目标框过大过小影响，具体的目标损失值计算方式在实施例一S103已进行详细介绍，在此不进行赘述。

需要说明的是，第一分支的编解码结构保持输入和输出的宽、高和通道保持一致，第二分支的特征层融合特征层的尺寸保持一致，因此，第一分支的输出的特征图和第二分支输出的特征图宽、高和通道是相同，依据目标损失值，将目标损失值小的确定为教师模型，目标损失值大的确定为学生模型。

需要说明的是，在训练前期，编解码结构里面权重统一赋值，导致对有效特征提取能力产生偏差，通过第二分支进行引导，可以加快有效特征提取能力，在训练后期，编解码结构具有自注意提取能力，提高第二分支全局上下文提取能力，因此瓶颈层蒸馏既可以减少训练周期，又可以提高目标检测模型的检测能力。

本发明的技术方案，采用两种或多种不同类型检测头，对目标检测模型进行自蒸馏，分别在瓶颈层和检测头进行蒸馏操作，实现了同一个网络进行蒸馏作用；学生模型和教师模型通过损失值进行判断，由模型进行决定，降低人为干预，教师模型和学生模型共同训练，既减少训练时间，又解决以往学生模型检测能力受限教师模型；卷积检测网络和Transformer检测网络有效结合，用传统卷积检测网络加快Transformer检测网络的训练周期，用Transformer检测网络提高传统卷积检测网络在不增加推理耗时前提下增加全局上下文信息；计算目标检测模型回归损失时有效结合面积比例和目标坐标差异两个因素，从而计算回归损失时不受目标框大小和位置差异。

实施例三

图3是本发明实施例三提供的目标检测装置的结构框图；本实施例可适用于采用多种检测头训练目标检测蒸馏模型，以进行更有效准确的产品检测的情况，该目标检测装置可以采用硬件和/或软件的形式实现，并配置于具有目标检测功能的设备中，如图3所示，该装置具体包括：

提取模块301，用于将训练图像输入目标检测网络的主干网络，对训练图像进行特征提取；

得到模块302，用于将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框；

确定模块303，用于基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，并将目标损失值较小的目标检测模型确定为教师模型，将目标损失值较大的目标检测模型确定为学生模型；

检测模块304，用于基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，并采用训练好的目标检测模型，对待检测图像中的目标对象进行检测。

进一步的，其中，目标检测网络包括：主干网络、瓶颈层以及检测头；主干网络主要用于对输入图像进行特征提取；瓶颈层主要用于对提取的特征图进行特征融合处理或编解码处理，并把处理后的特征传递至检测头；检测头进行训练好的回归预测，得到预测目标框，以及预测目标框的位置和类别。

进一步的，得到模块302可以包括：

第一检测单元，用于在瓶颈层的第一分支，基于Transformer网络的编码器和解码器，对主干网络输出的特征进行处理，并在第一检测头，采用前馈网络进行目标检测，以得到第一预测目标框；

第二检测单元，用于在瓶颈层的第二分支，基于特征金字塔网络，对主干网络输出的特征进行处理，并在第二检测头，采用非极大值抑制方式进行目标检测，以得到第二预测目标框。

进一步的，第一检测单元具体用于：

基于编码器，确定主干网络的所有感受野特征，对所有感受野特征进行编码操作，并根据全局注意力共享参数，对不同感受野特征进行自注意力操作，以得到具有全局注意力的特征图；

基于解码器，对编码层输出的特征图进行解码，以得到解码层特征以及解码层特征之间的相关性关系；

在第一检测头，根据解码层特征以及解码层特征之间的相关性关系，基于前馈网络，进行目标预测，以得到第一预测目标框。

进一步的，第二检测单元具体用于：

基于特征金字塔网络，对主干网络输出的特征进行特征融合，以得到具有不同感受野的特征图；

对具有不同感受野的特征图进行有效特征提取，并在第二检测头，基于非极大值抑制方式，进行目标检测，以得到第二预测目标框。

进一步的，确定模块303具体用于：

基于CIOU损失函数，确定第一预测目标框和真实目标框之间的第一CIOU损失值，以及第二预测目标框和真实目标框之间的第二CIOU损失值；

基于坐标损失函数，确定第一预测目标框和真实目标框之间的第一坐标损失值，以及第二预测目标框和真实目标框之间的第二坐标损失值；

根据第一CIOU损失值、第一坐标损失值、CIOU损失对应的CIOU权重以及坐标损失对应的坐标权重，确定第一预测目标框和真实目标框之间的第一回归损失值；

根据第二CIOU损失值、第二坐标损失值、CIOU损失对应的CIOU权重以及坐标损失对应的坐标权重，确定第二预测目标框和真实目标框之间的第二回归损失值；

根据第一回归损失值、第二回归损失值以及预测目标类别损失值，确定第一目标损失值和第二目标损失值的大小关系。

进一步的，检测模块304具体用于：

分别采用教师模型和学生模型对训练图像进行预测处理，确定出教师模型和学生模型对应的特征图；

基于预设的计算方式，确定两种特征图之间的距离差异和相似性差异，并根据距离差异和相似性差异，确定在瓶颈层的第一蒸馏损失，实现在瓶颈层的蒸馏操作；

将教师模型的预测结果作为学生模型的伪标签目标进行训练，并确定在检测头的第二蒸馏损失，实现在检测头的蒸馏操作；

根据第一蒸馏损失和第二蒸馏损失，确定目标蒸馏损失，并根据目标蒸馏损失进行蒸馏操作，以得到训练好的目标检测模型。

实施例四

图4是本发明实施例四提供的电子设备的结构示意图。图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如目标检测方法。

在一些实施例中，目标检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的目标检测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框，包括：

在瓶颈层的第一分支，基于Transformer网络的编码器和解码器，对主干网络输出的特征进行处理，并在第一检测头，采用前馈网络进行目标检测，以得到第一预测目标框；

在瓶颈层的第二分支，基于特征金字塔网络，对主干网络输出的特征进行处理，并在第二检测头，采用非极大值抑制方式进行目标检测，以得到第二预测目标框。

3.根据权利要求2所述的方法，其特征在于，基于Transformer网络的编码器和解码器，对主干网络输出的特征进行处理，并在第一检测头，采用前馈网络进行目标检测，以得到第一预测目标框，包括：

4.根据权利要求2所述的方法，其特征在于，基于特征金字塔网络，对主干网络输出的特征进行处理，并在第二检测头，采用非极大值抑制方式进行目标检测，以得到第二预测目标框，包括：

5.根据权利要求1所述的方法，其特征在于，基于预设的损失函数，根据第一预测目标框、第二预测目标框和真实目标框，确定第一目标损失值和第二目标损失值的大小关系，包括：

6.根据权利要求1所述的方法，其特征在于，基于蒸馏的方式，将教师模型和学生模型进行共同训练，以得到训练好的目标检测模型，包括：

根据第一蒸馏损失和第二蒸馏损失，确定目标蒸馏损失，并根据目标蒸馏损失进行蒸馏操作，以得到训练好的的目标检测模型。

7.一种目标检测装置，其特征在于，包括：

得到模块，将主干网络输出的特征输入瓶颈层的第一分支和第一检测头进行处理，以得到第一预测目标框；并将主干网络输出的特征输入瓶颈层的第二分支和第二检测头进行处理，以得到第二预测目标框；

8.根据权利要求7所述的装置，其特征在于，所述得到模块包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的目标检测方法。