CN111783819B

CN111783819B - 小规模数据集上基于感兴趣区域训练改进的目标检测方法

Info

Publication number: CN111783819B
Application number: CN202010383794.XA
Authority: CN
Inventors: 尹子会; 付炜平; 赵冀宁; 孟荣; 贾志辉; 董俊虎; 杜江龙; 赵振兵
Original assignee: State Grid Corp of China SGCC; North China Electric Power University; Maintenance Branch of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; North China Electric Power University; Maintenance Branch of State Grid Hebei Electric Power Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2024-02-09
Anticipated expiration: 2040-05-08
Also published as: CN111783819A

Abstract

本发明提供了一种小规模数据集上基于感兴趣区域训练改进的目标检测方法，属于图像分析技术领域，通过目标检测模型获得图像目标检测结果，其对目标检测模型的训练过程包括一个循环依次独立进行边框回归任务训练和分类任务训练的阶段，使用由小规模数据集经过第一数据增强后获得的第一训练集对目标检测模型进行边框回归任务训练，使用由第一训练集经过第二数据增强后获得的第二训练集对目标检测模型进行分类任务训练；第二训练集的每张图像其感兴趣区域外包含部分该图片的全局信息。本发明方法在训练阶段引入感兴趣区域机制，克服现有One‑Stage目标检测模型在小规模数据集上训练时易发生的过拟合现象，进而获得准确的目标检测模型。

Description

小规模数据集上基于感兴趣区域训练改进的目标检测方法

技术领域

本发明属于图像分析技术领域，涉及一种小规模数据集上基于感兴趣区域训练改进的目标检测方法。

背景技术

深度学习(Deep Learning，DL)是机器学习(Machine Learning，ML,)领域中一个研究方向，其通过神经网络学习提取特征而非使用人工提取特征的特点，使得学习效率与准确率大大提高，已在图像分类、目标检测、图像分割、自然语言处理等领域广泛应用。然而，由于深度学习方法一般由数据驱动，其对于样本数据数量、丰富程度和准确性等都有着较高的要求。在目标检测领域，若样本数据量以及丰富程度不足，深度学习模型不仅会提取学习样本中的目标特征，对于样本中的背景噪声，也将纳入学习范围，导致模型对数据过拟合。发生过拟合后，目标检测的对于目标的召回率将严重下降，严重影响检测性能。

基于深度学习的目标检测方法一般为两类：一是Two-Stage检测算法，其将检测问题分为两个阶段，第一个阶段产生候选区域，第二阶段对目标进行分类和位置修正，主要的代表模型有区域卷积神经网络(Region with CNN,R-CNN)、 Fast R-CNN、Faster R-CNN等；二是One-Stage检测算法，无需产生候选区域，使用单一网络直接预测目标的种类概率以及位置信息，典型代表有SSD(Single Shot MultiBox Detector)模型和YOLO(YouLook Only Once)模型。

对于One-Stage目标检测模型，由于缺少类似Two-Stage算法的目标框先验机制，在分类训练时，经常会对训练集数据产生更加严重的过拟合。特别是在

发明内容

本发明的目的在于提供一种在小规模数据集上基于感兴趣区域训练改进的目标检测方法，在训练阶段引入感兴趣区域机制，克服现有One-Stage目标检测模型在小规模数据集上进行训练时，易发生过拟合的现象，进而获得准确的目标检测模型。

本发明提供的技术方案是一种小规模数据集上基于感兴趣区域训练改进的目标检测方法，通过目标检测模型获得图像目标检测结果，所述目标检测模型包括多层输出的深度特征提取网络和多尺度融合检测头；对所述目标检测模型的训练过程包括一个循环依次独立进行边框回归任务训练和分类任务训练的阶段。这种独立训练可以通过调整损失函数中一个损失的系数实现，使得在该阶段的分类任务训练能够有可能学习训练集各图片的部分全局信息，同时，不影响边框回归任务训练对感兴趣区域的边框识别学习。

本发明的一个实施例中，使用标记感兴趣区域的小规模数据集对所述目标检测模型进行边框回归任务训练和分类任务训练，本发明方法尤其适于含有目标对象的小规模数据集的训练后的目标检测，在获取有限的数据集后，经过学习，也可以提供较为精确的目标检测结果。

本发明的一个实施例中，使用大规模数据集对所述深度特征提取网络进行预训练，这种大规模数据集是一种分类数据集，其分类类别基本上与所需识别目标的分类无关，深度特征提取网络基本上是只分类，不回归的分类模型，训练这个分类模型的过程为预训练，这种预训练获得的网络权重可以缩短基于小规模数据集的训练时间。在使用无分类的大规模数据集时，需要对该数据集进行转换，以获得预训练需要的分类格式的数据集。

本发明的一个实施例中，使用由所述小规模数据集经过第一数据增强后获得的第一训练集对所述目标检测模型进行所述边框回归任务训练，使用由所述第一训练集经过第二数据增强后获得的第二训练集对所述目标检测模型进行所述分类任务训练；所述第二训练集的每张图像其感兴趣区域外包含部分该图片的全局信息。在循环依次独立进行边框回归任务训练和分类任务训练的阶段使用不同的小规模训练集，第一训练集目标在于让本发明One-Stage类型的目标检测模型获得边框识别能力，第二训练集目标在于让本发明One-Stage类型的目标检测模型获得分类能力，并且这种分类能力是可以抑制过拟合的。

上述实施例的一个改进可以是，所述第一数据增强用于获得规模大于所述小规模数据集的第一训练集，其方法包括翻转、平移、模糊、缩放和裁剪中的一种以上；所述第二数据增强用于依据图像一个背景区域与其一个感兴趣区域之间的距离部分保留该背景区域的背景信息，其方法包括加噪。通过第一数据增强获得规模大于原始小规模数据集的第一训练集，以获得更丰富的训练数据，通过第二数据增强获得规模基本上与第一训练集相同，但是包含了部分全局信息的第二训练集，以便保留部分背景信息，提高训练结束后目标检测模型的分类识别能力。

本发明的一个实施例中，示范的，提供了一种加噪方法：对于标记有若干个感兴趣区域的一张图片，其像素p_x,y处加入噪声的辐度n_x,y为min(b,a×d)，其中，d为像素p_x,y到所有感兴趣区域的最短距离，a为噪声强度参数，b为最大加噪强度。再进一步的改进中，通过调整上述各个参数，可以优化训练结果。

本发明的一个实施例中，在多尺度融合检测头中，利用特征金字塔网络结构将得到的深度模型特征提取网络的输出中不同尺寸特征图逐层进行上采样、融合、卷积，得到与其检测头数量n相同的n个尺度的目标检测输出。

本发明的一个实施例中，所述多尺度融合检测头的每个检测头分别包括用于分类任务训练的分类输出层和用于所述边框回归任务训练的回归输出层。在一次独立训练中，如果分类输出层对应的损失系数占全部损失的权重较大，可使得本次训练专注于分类任务训练，如果回归输出层对应的损失系数占全部损失的权重较大，可使得本次训练专注于边框回归任务训练。

本发明的一个实施例中，每次所述边框回归任务训练的学习率低于上次所述边框回归任务训练的学习率，同时，每次所述分类任务训练的学习率低于上次所述分类任务训练的的学习率。

本发明的一个实施例中，在所述循环独立训练阶段结束后，使用所述第一训练集对所述目标检测模型微调。在微调模型时，基本上，各个损失的权重是相差较小的，以便在该微调训练中同时考虑分类任务训练和边框回归任务训练。

与现有方法相比，本发明的有益效果是：

本发明通过对数据增强以及训练方法的改进出发，对现有One-Stage目标检测过于依赖数据的缺陷做出了改进。对训练输入数据进行局部限强加噪处理，距离目标越远，噪声强度越大，使得特征提取网络对于输入图片背景噪声拟合难度增加，降低了小数据集上模型的过拟合可能性。对于距离目标较近的区域，同样也保留了部分背景信息，使得网络能够自适应学习不同范围的特征。在训练时，分别训练回归任务与分类任务。根据不同任务分别使用不同的训练集：对于需要更多全局信息的回归任务，输入未加噪声图片，更易于提取全局信息；对于需要更加关注局部的分类任务，输入加噪图片，更关注目标特征。经过测试，该方法在小规模数据集上具有较普遍的实际意义。该发明切实可行，对相关问题的方案设计有一定的借鉴意义。

附图说明

图1为本发明一个实施例中的目标检测模型的结构示意图；

图2为本发明一个实施例中对目标检测模型的训练方法流程示意图；

图3为图2实施例中对目标检测模型的实施训练时的数据流示意图；

图4为本发明一个实施例中使用一个最大加噪强度进行加噪后的第二训练集中的包含目标物体的图像；

图5为本发明一个实施例中使用一个最大加噪强度进行加噪后的第二训练集中的包含目标物体的图像；

图6为一个应用实施例中使用本发明方法训练后对变电站设备缺陷图像部分检测结果；

图7为一个应用实施例中使用本发明方法对VOC2007数据集部分图像进行检测所获得的结果图像。

具体实施方式

首先应当说明的是，本发明的技术方案的基本思路是：在使用One-Stage类型的目标检测模型实施训练时，首先对输入数据进行处理，调节图像不同区域学习难度，使得目标分类任务训练过程以及边框回归任务训练过程能够自适应关注范围，即感兴趣区域，同时，特别的，使得分类任务训练过程既能够学习部分全局信息，又能够关注局部信息。本发明方法在模型训练阶段的一个方面目标在于形成软性感兴趣区域机制，这是一种与Two-Stage的候选区域机制不同的方法，在Two-Stage类的目标检测模型中，包括一个识别候选区域为感兴趣区域的模块，其在分类的时候，直接将提取的全图特征中将目标的部分分割出来，这种分割是非此即彼的硬性感兴趣区域机制，而本发明方法是调节不同区域学习难度，例如渐变的增加不同强度噪声，不设置明确边界的软性的让分类任务训练过程关注目标本身。

本发明技术方案首先是基于一种目标检测模型的，如图1所示，这种目标检测模型基本上是One-Stage的，其包括多层输出的深度特征提取网络1和多尺度融合检测头2。多层输出的深度特征提取网络中由上到下包括n层主干网络，每层主干网络包括一个或者多个卷积层，每层主干网络向下层主干网络输出一个尺度的特征图，从这些的主干网络中由上到下选择多个主干网络向多尺度融合检测头2输出该层获取的一个尺度的特征图。主干网络向下越深，其输出特征图的尺度越小。在多尺度融合检测头2中，与选择的主干网络的数量一致且尺度对应的，设有多个独立的检测头(Detection Head)，选中主干网络输出的特征图在多尺度融合检测头2中逐层进行上采样和张量拼接，除最底层的，或者说最小尺度的检测头是直接对最底层在主干网络输出的特征图进行识别外，其他检测头的输入均为本层张量拼接后的特征图。每个检测头的输出分别由回归输出层处理和分类输出层处理后，总的作为目标检测模型的一个目标检测输出结果。图1实施例中，1≥i>j>n，因为分别选择了第i层、第j层、第n层三个主干网络，与其对应的，多尺度融合检测头2中由下到上设置了三个针对不同尺度的检测头，在其他实施例中，由于选择的主干网络的数量不同，多尺度融合检测头2中检测头的数量也相应的不同。

如图2、3所示的实施例中，基于上述目标检测模型结构的，通过如下步骤 S100至S110对该目标检测模型实施训练，获得目标检测模型的各节点权重值。

S100，对多层输出的深度特征提取网络实施基于大规模数据集的预训练，获得目标检测模型的初始参数值。

具体的，使用大规模数据集对目标检测模型中的多层输出的深度特征提取网络进行预训练。将预训练获得的权重值作为目标检测模型中深度特征提取网络的初始参数值，以达到加速收敛速度，提高检测精度的目的。

作为示范的，本发明实施例中大规模数据集选用ImageNet提供的图像数据集，多层输出的深度特征提取网络选用MobileNetV2网络。

S101，使用一个标记有感兴趣区域的小规模数据集获得用于训练目标检测模型所需的锚点(Anchor)。

具体的，本发明通过对小规模数据集的各个图片设置Ground Truth目标框的方式标记感兴趣区域，示范的，感兴趣区域为覆盖感兴趣设备的最小矩形。基于该小规模数据集的，对Ground Truth目标框的尺寸进行归一化后聚类分析，示范性的，本实施例利用Kmeans算法对Ground Truth目标框的尺寸分布进行分析，获得一组关于Ground Truth目标框的尺寸聚类结果，示范性的，该结果包括多个不同尺度，一个尺度对应一个锚框(Anchor Box)形状的，建立一个包含多个锚框尺度的集合。

每个尺度的特征图的特征点作为一个锚点，每个锚点对应上述集合中若干锚框尺寸的锚框，则对于一幅图像多尺度融合检测头需要检测的全部锚点的锚框的数量为：

其中，w_i和h_i分别是第i个特征图的长度和宽度，k为第i个特征图对应的锚框尺寸的个数，在本实施例中，一个特征图的尺度对应一个选中的主干网络，即该主干网络卷积输出的特征图的尺度是锚框集中的一个固定尺度。具体的，对于尺度为的7×10的特征图，那么有70个像素，即70个特征点，70个锚点，如果每个锚点对应3个锚框尺寸，那么该特征图对应的检测头检测210个锚框。那么该特征图对应的检测头检测210个锚框，其他尺度特征图的锚框数量同上述算法。上述算法的一个方面用于配置多尺度融合检测头输出后的解码器对多尺度融合检测头输出的合并解码。

S102，使用标记有感兴趣区域的小规模数据集获得用于对目标检测模型进行边框回归任务训练的第一训练集和用于对目标检测模型进行分类任务训练的第二训练集。

示范性的，本实施例中，通过对小规模数据集图片分别进行翻转、平移、模糊、缩放、裁剪等方法进行增强后获得数量更多的图片，这些图片的集合作为第一训练集。

示范性的，本实施例中，对第一训练集根据各个图片其一个像素与各个 GroundTruth目标框距离进行加噪处理后，作为第二训练集。具体加噪方法为，对于标记有若干个感兴趣区域的一张图片，像素p_x,y处加入噪声的辐度n_x,y为：

min(b,a×d)

其中，d为像素p_x,y到所有感兴趣区域的最短距离，a为噪声强度参数，b为最大加噪强度。加噪处理后的各个图片的集合作为第二训练集。这种加噪，保留了感兴趣区域外背景区域的部分背景信息，即第二训练集的每张图片中，感兴趣区域不存在明确的视觉边界，并且越接近图片感兴趣区域边界位置，保留的背景信息越多，而Two-Stage类型目标检测模型中，第一阶段识别的候选区域后，为第二阶段提供的检测信息中在候选区域外不包含任何背景信息。

S103，在多尺度融合检测头中，多尺度融合的获取各个检测头的目标检测数据。

具体的，以S100预训练得到的初始参数的，在深度模型特征提取网络的前向传播过程中，选择深度模型特征提取网络中多层不同深度主干网络的不同尺寸的输出特征图作为深度模型特征提取网络的输出。在多尺度融合检测头中，利用特征金字塔网络(FPN)结构将得到的深度模型特征提取网络的输出中不同尺寸特征图进行上采样、融合、卷积，得到与检测头数量n相同的n个尺度的目标检测输出为：

w_i×h_i×k×(c+5)

其中，c为目标类别数量，w_i和h_i分别是第i个输出卷积特征图的长度和宽度。输出所有Anchor的c个分类结果以及对应预测框的四个坐标和一个置信度。预测框的四个坐标分别是横坐标位置、纵坐标位置，预测框长度和预测框宽度。

S104，配置多尺度融合检测头的输出的解码算法。解码算法目的在于将目标检测模型检测头的输出转换为坐标预测结果，即真实图片中的坐标。

具体的，本实施例中，利用步骤S101生成的锚框进行回归训练，选取与 GroundTruth目标框的IOU相比最大的锚框作为负责预测一个目标物体的锚点，预测输出与实际坐标的关系为式(1)至(4)：

x′＝x+sig mod(p_x)×w (1)

y′＝y+sig mod(p_y)×h (2)

其中，x′、y′、w′、h′分别代表锚点集各锚点Anchors回归后的中心坐标和长度、宽度，x、y、w、h分别代表锚点集各锚点Anchors的左上点坐标和Anchors 的宽度、高度，p_x、p_y、p_w、p_h代表目标检测网络整体在一次边框回归训练中预测获得的回归值。

在使用目标检测模型进行预测时，对于每个锚点的分类结果，以该锚点的c 个分类预测结果与该锚点的置信度相乘的积作为c个类别的置信度。选取一个值作为确信该锚点正确预测目标的阈值，该阈值取值范围为0～1，优选为0.7。对于每个锚点，当某一类或多类的置信度大于等于阈值时，将其输出作为有效输出，进行非极大值抑制处理得出最终的预测框。

S105，配置目标检测模型训练中的总和损失函数。

具体的，本实施例中，对于负责检测目标的Anchor，其置信度C为1；不负责检测目标且预测框与ground truth的IOU大于0.5的Anchor，忽略；其他Anchor置信度C为0。

本实施例使用交叉熵函数作为置信度预测的损失函数，公式如下

式中，C_ij是预测置信度值，是真实置信度值，网络有n个输出尺度，σ为 sigmoid函数，Anchor负责预测时/>为1，Anchor不负责预测时/>为0；Anchor 忽略时，/>否则为1。

使用交叉熵函数作为分类预测网络的损失函数，公式如下

式中，p_ij是预测分类值，是真实分类值，网络有n个输出尺度，σ为sigmoid 函数，Anchor负责预测时/>为1，Anchor不负责预测时为0。

在边框回归上，本发明使用均方误差损失函数，公式如下：

式中，x_ij、y_ij、w_ij、h_ij是预测框中心坐标和长度宽度，是真实框中心坐标和宽度高度。

总和损失函数为下式：

LOSS＝α_objL_obj+α_noobjL_noobj+α_classL_class+α_whL_wh+α_xyL_xy (10)

式中，α_obj、α_noobj、α_class、α_wh、α_xy为公式(5)至(9)各个loss函数的权重。

S106，在确定了解码算法和总和损失函数的前提下，通过第一训练集，对目标检测模型实施边框回归任务训练，以获得经过一次独立实施的边框回归任务训练的目标检测模型。

具体的，在一次独立实施的边框回归任务训练中调整总和损失函数中a_class的值为零，即相当于仅仅对目标检测模型的边框回归输出能力进行训练。

具体的，使用第一训练集进行训练。将该训练集的大部分图像作为train set，其余作为validation set，使用第一学习率对train set进行训练，示范的，设学习率为0.001，同时validation set作为验证集。将α_class置为0，α_noobj置为0.01，其余权重置为1，进行训练。将当验证集的loss不再下降时，停止本次边框回归任务训练。在其他实施例中，α_class可以设为远小于其他损失系数的权重值，以便该训练是专注于边框回归任务的，同时，α_noobj也置为一个较小的权重。

S107，在确定了解码算法和总和损失函数的前提下，通过第二训练集，对目标检测模型实施分类任务训练，以获得经过一次独立实施的分类任务训练的目标检测模型。

具体的，在一次独立实施的分类任务训练中，通过将总和损失函数中a_wh， a_xy均置为零，即相当于仅仅对目标检测模型的分类任务输出能力进行训练。

具体的，使用第二训练集进行训练。将训练集的大部分作为train set，训练集其余作为validation set。使用第二学习率对train set进行训练，示范的，设第二学习率为0.001，同时validation set作为验证集。特别的，本实施例将α_class置为1，其余权重均置为0，进行训练。将当验证集的loss不再下降时，停止本次分类任务训练。

S108，循环依次重复S106、S107，在循环中逐步降低第一学习率和第二学习率，直到边框回归任务训练在一个第一学习率下的损失相比上一次边框回归任务训练的损失不再下降，同时，分类任务训练在一个第二学习率下相比上一次分类任务训练的损失不再下降。

具体的，每次实施S106时使用的第一学习率比上一次实施S106的第一学习率低，比如上一次为0.001，则本次可以为0.0005；每次实施S107时使用的第二学习率比上一次实施S107的第二学习率低，比如上一次为0.001，则本次可以为0.0005。每次循环中，第一学习率和第二学习率可以不同。同时，由于重复实施S106和S107，那么在第一次循环开始时，也可以首先实施S107后再实施S106。

S109，以较低的α_noobj权重微调模型。

具体的，设置一个低于最后一次循环中使用的第一学习率和第二学习率的学习率，使用第一训练集，对目标检测模型整体训练微调，训练S108获得的目标检测模型至验证集的总loss不再下降。示范的，训练中的总和损失函数将α_noobj置为0.01，其余权重置为1，以使微调训练中降低L_onobj的整体权重。

S110，测试模型。

使用S108或者S109获得的训练完成的目标检测模型，以原始未经增强的小规模数据集作为测试集对图像进行预测。根据预测结果准确率评价该模型性能。

具体实施例一

在一个具体实施例中，对变电站设备缺陷图像进行数据增强及加噪后分别作为本发明目标检测模型的输入，图4、5所示加噪后的第二训练集中变电站设备缺陷图像，其中，图4显示最大加噪强度为127的处理结果，感兴趣区域包含目标物体为牛，图5显示最大加噪强度为255的处理结果，感兴趣区域包含物体为呼吸器，可以看出包含目标物体的区域与背景之间不存在明确的边界，并且越靠近感兴趣区域就包含越多的背景信息，是一种软性感兴趣区域机制。作为对比的，一个硬性感兴趣区域机制的包含候选区域的图片，其候选区域外是全黑的，即候选区域外任一处区域的背景信息为零。使用320＊224分辨率经过预训练完成的 MobileNetV2网络作为目标检测模型的深度特征提取网络，在深度特征提取网络选择两个主干网络输出特征图设置为深度特征提取网络的两个输出，其尺度，及尺寸分别为7×10与14×20。根据数据集生成的Anchor归一化尺寸分别为 (0.73×0.79)，(0.54×0.42)，(0.33×0.71)，(0.24×0.25)，(0.16×0.46)，(0.07×0.16)，使用本发明算法进行训练后，对变电站设备缺陷图像部分检测结果如图6所示，其中，(a)为呼吸器变色故障，(b)为正常呼吸器，(c)为绝缘子破损故障，(d) 为鸟巢异物。

具体实施例二

将VOC2007数据集选取部分作为本发明目标检测模型的小规模数据集，进行标记后进行数据增强及加噪后作为本发明目标检测模型的输入，使用320＊224分辨率经过预训练完成的MobileNetV2网络提取特征，特征提取网络设置两个输出，尺寸分别为7＊10与14＊20。根据数据集生成的Anchor归一化尺寸分别为 (0.50×0.72)，(0.46×0.33)，(0.30×0.36)，(0.20×0.56)，(0.17×0.27)，(0.10×0.11)，使用本发明算法进行训练后，使用本发明方法对VOC2007数据集部分图像检测结果如图7所示，其中，(a)为公交车，(b)为牛。

Claims

1.一种小规模数据集上基于感兴趣区域训练改进的目标检测方法，通过目标检测模型获得图像目标检测结果，其特征在于：所述目标检测模型包括多层输出的深度特征提取网络和多尺度融合检测头；对所述目标检测模型的训练过程包括一个循环依次独立进行边框回归任务训练和分类任务训练的阶段；

使用标记感兴趣区域的小规模数据集对所述目标检测模型进行边框回归任务训练和分类任务训练；

使用由所述小规模数据集经过第一数据增强后获得的第一训练集对所述目标检测模型进行所述边框回归任务训练，使用由所述第一训练集经过第二数据增强后获得的第二训练集对所述目标检测模型进行所述分类任务训练；所述第二训练集的每张图像其感兴趣区域外包含部分该图像的全局信息；

所述第一数据增强用于获得规模大于所述小规模数据集的第一训练集，其方法包括翻转、平移、模糊、缩放和裁剪中的一种以上；所述第二数据增强用于依据图像一个背景区域与其一个感兴趣区域之间的距离部分保留该背景区域的背景信息，其方法包括加噪；

所述加噪方法为，对于标记有若干个感兴趣区域的一张图片，其像素p_x,y处加入噪声的辐度n_x,y为min(b,a×d)，其中，d为像素p_x,y到所有感兴趣区域的最短距离，a为噪声强度参数，b为最大加噪强度。

2.根据权利要求1所述的目标检测方法，其特征在于：使用大规模数据集对所述深度特征提取网络进行预训练。

3.根据权利要求1所述的目标检测方法，其特征在于：在所述多尺度融合检测头中，利用特征金字塔网络结构将得到的深度模型特征提取网络的输出中不同尺寸特征图逐层进行上采样、融合、卷积，得到与其检测头数量n相同的n个尺度的目标检测输出。

4.根据权利要求1所述的目标检测方法，其特征在于：所述多尺度融合检测头的每个检测头分别包括用于分类任务训练的分类输出层和用于所述边框回归任务训练的回归输出层。

5.根据权利要求1所述的目标检测方法，其特征在于：每次所述边框回归任务训练的学习率低于上次所述边框回归任务训练的学习率，同时，每次所述分类任务训练的学习率低于上次所述分类任务训练的学习率。

6.根据权利要求1所述的目标检测方法，其特征在于：在所述阶段结束后，使用所述第一训练集对所述目标检测模型微调。