CN112801164B

CN112801164B - 目标检测模型的训练方法、装置、设备及存储介质

Info

Publication number: CN112801164B
Application number: CN202110090473.5A
Authority: CN
Inventors: 辛颖; 冯原; ***; 苑鹏程; 张滨; 王晓迪; 龙翔; 彭岩; 郑弘晖; 韩树民
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2024-02-13
Anticipated expiration: 2041-01-22
Also published as: EP4033453A1; US20220147822A1; CN112801164A

Abstract

本申请公开了一种目标检测模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域，尤其涉及深度学习和计算机视觉技术。具体实现方案为：通过初始模型的分类网络，对样本图像的特征图进行处理得到所述特征图的热度图和分类预测结果，根据分类预测结果和样本图像的分类监督数据确定分类损失值，并根据特征图的热度图确定特征图中像素点的类别概率，以得到特征图的概率分布图；通过初始模型的回归网络，对特征图进行处理得到回归预测结果，并根据概率分布图、回归预测结果和样本图像的回归监督数据，确定回归损失值；根据回归损失值和分类损失值，对初始模型进行训练，得到目标检测模型，提供了一种能够提高目标检测模型精度的训练方法。

Description

目标检测模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及深度学习和计算机视觉等人工智能技术。

背景技术

随着人工智能的发展，目标检测已经广泛应用在自动驾驶、医学、新零售等多个领域。其中，目标检测是指从一幅图像中精准的找到目标的位置，并判断该目标的类别。由于各类物体有着不同的外观、形状、姿态，成像时会受到光照、遮挡等因素的干扰，现有的目标检测模型准确性较低，亟需改进。

发明内容

本申请提供了一种目标检测模型的训练方法、装置、设备及存储介质。

根据本申请的一方面，提供了一种目标检测模型的训练方法、该方法包括：

通过初始模型的分类网络，对样本图像的特征图进行处理得到所述特征图的热度图和分类预测结果，根据所述分类预测结果和所述样本图像的分类监督数据确定分类损失值，并根据所述特征图的热度图确定所述特征图中像素点的类别概率，以得到所述特征图的概率分布图；

通过所述初始模型的回归网络，对所述特征图进行处理得到回归预测结果，并根据所述概率分布图、所述回归预测结果和所述样本图像的回归监督数据，确定回归损失值；

根据所述回归损失值和所述分类损失值，对所述初始模型进行训练，得到目标检测模型。

根据本申请的另一方面，提供了一种目标检测模型的训练装置，该装置包括：

分类处理模块，用于通过初始模型的分类网络，对样本图像的特征图进行处理得到所述特征图的热度图和分类预测结果，根据所述分类预测结果和所述样本图像的分类监督数据确定分类损失值，并根据所述特征图的热度图确定所述特征图中像素点的类别概率，以得到所述特征图的概率分布图；

回归处理模块，用于通过所述初始模型的回归网络，对所述特征图进行处理得到回归预测结果，并根据所述概率分布图、所述回归预测结果和所述样本图像的回归监督数据，确定回归损失值；

模型训练模块，用于根据所述回归损失值和所述分类损失值，对所述初始模型进行训练，得到目标检测模型。

根据本申请的另一方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的目标检测模型的训练方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本申请任一实施例所述的目标检测模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请任一实施例所述的目标检测模型的训练方法。

根据本申请的技术，提供了一种能够提高目标检测模型精度的训练方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1A是根据本申请实施例提供的一种目标检测模型的训练方法的流程图；

图1B是根据本申请实施例提供的一种初始模型的结构示意图；

图2是根据本申请实施例提供的另一种目标检测模型的训练方法的流程图；

图3A是根据本申请实施例提供的另一种目标检测模型的训练方法的流程图；

图3B是根据本申请实施例提供的另一种初始模型的结构示意图；

图4是根据本申请实施例提供的一种目标检测模型的训练装置的结构示意图；

图5是用来实现本申请实施例的目标检测模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1A是根据本申请实施例提供的一种目标检测模型的训练方法的流程图；图1B是根据本申请实施例提供的一种初始模型的结构示意图。本申请实施例适用于构建能够从图像中精准的找到目标的位置并判断出该目标类别的目标检测模型的情况。可选的，本实施例中的目标包括但不限于人、物体、动物、植物等。该实施例可以由目标检测模型的训练装置来执行，该装置可以采用软件和/或硬件来实现，该装置可集成于电子设备中，比如移动终端或服务端中。如图1A和1B所示，该目标检测模型的训练方法包括：

S101，通过初始模型的分类网络，对样本图像的特征图进行处理得到分类预测结果，根据分类预测结果和样本图像的分类监督数据确定分类损失值，并根据分类预测结果中特征图的热度图确定特征图中像素点的类别概率，以得到特征图的概率分布图。

本实施例中，所谓初始模型可以是已经构建好，但未经训练的用于从图像中精准的找到目标的位置并判断出该目标类别的目标检测模型。可选的，如图1B所示，该初始模型1至少可以包括分类网络10和回归网络11，其中，分类网络10和回归网络11并行，输入均为样本图像的特征图。具体的，初始模型1的输入即为分类网络10和回归网络11的第一输入，分类网络10的输出连接回归网络11的第二输入，分类网络10的输出和回归网络11的输出即为初始模型1的输出。优选的，分类网络10可以包括第一子网络110和第二子网络120，第一子网络110的输出连接第二子网络120的输入，第二子网络120的输出连接回归网络11的第二输入，第一子网络110的输出和回归网络11的输出即为初始模型1的输出。

可选的，本实施例中分类网络10可以包括多个卷积层，主要用于目标分类。具体的，分类网络10中的第一子网络110用于判断所输入的图像(即样本图像的特征图)是否有目标，并输出相应目标的类别；分类网络10中的第二子网络120用于确定特征图中每个像素点属于目标的概率。

可选的，本申请实施例训练初始模型所需的样本数据包括：样本图像的特征图、样本图像的分类监督数据和回归监督数据。其中，样本图像可以是模型训练时使用的包括目标的图像，例如人脸图像；对样本图像进行特征提取，即可生成样本图像的特征图。样本图像的分类监督数据可以包括对样本图像或样本图像的特征图进行目标类别标注的数据。样本图像的回归监督数据可以包括对样本图像或样本图像的特征图进行目标位置标注的数据。

本实施例中，特征图的热度图也可以称为样本图像的热度图，热度图实质为第一子网络110的一个中间产物，具体可以是将图像(如特征图)的各个部分用表示热度的颜色来展示目标位于图像各区域的概率。可选的，表示热度的颜色可以是默认的，也可以是用户自定义的。例如，热度从高概率到低概率对应的颜色依次为：红色、橙色、黄色、绿色和蓝色等。

分类预测结果可以包括分类网络对样本图像进行目标类别预测的数据；具体的，可以将热度图与椭圆高斯核相乘，以得到热度图的中心点，并确定其类别，即为分类预测结果。进一步的，在特征图中包括多个目标的情况下，分类预测结果中可以包括每个目标的类别。所谓损失值用于表征实际输出结果与期望输出结果之间的接近程度。可选的，损失值越小，则说明实际输出结果越接近期望输出结果。本实施例中，分类损失值即为分类预测结果和分类监督数据之间的接近程度。

可选的，本申请实施例可以将样本图像的特征图作为初始模型1的分类网络10的第一输入，输入至分类网络10中，由分类网络10对输入的样本图像的特征图进行处理，得到特征图的热度图和分类预测结果；并将样本图像的分类监督数据作为分类网络10的第二输入，输入至分类网络10中，由分类网络10根据分类预测结果和分类监督数据确定分类损失值；同时分类网络10还根据特征图的热度图确定特征图中每个像素点的类别概率(即每个像素点属于目标所属类别的概率)，进而得到特征图的概率分布图。具体的，通过分类网络10中的第一子网络110，对样本图像的特征图进行处理，得到特征图的热度图和分类预测结果，并根据分类预测结果和分类监督数据确定分类损失值；由分类网络10中的第二子网络120，对特征图的热度图进行处理，确定特征图中像素点的类别概率，进而得到特征图的概率分布图。其中，概率分布图即为特征图中的每个像素点对应的类别概率的分布图。

优选的，本实施例可以是通过分类网络10中的第二子网络120，对特征图的热度图进行降维和激活处理，得到特征图中像素点的类别概率，进而得到特征图的概率分布图。

可选的，热度图中可以包括类别数量，也就是第二子网络120输入的通道数量，例如80。具体的，对于对特征图的热度图，通过分类网络10中的第二子网络120，取通道维度上的最大值，并计算softmax，即可得到特征图中像素点的类别概率，进而得到特征图的概率分布图，为获取特征图的概率分布图提供了一种可选方式。

S102，通过初始模型的回归网络，对特征图进行处理得到回归预测结果，并根据概率分布图、回归预测结果和样本图像的回归监督数据，确定回归损失值。

可选的，本实施例中回归网络11也可以包括多个卷积层，主要用于目标定位；具体的，回归网络11用于确定所输入的图像(即样本图像的特征图)中目标的位置并输出。也就是说，回归网络11的输出(即回归预测结果)包括对样本图像的特征图进行目标位置预测的数据，例如可以输出标注有矩形框的图像，可选的，该图像中还可以标注矩形框坐标或者输出目标中心到矩形框四边的距离。

可选的，本申请实施例可以将样本图像的特征图作为初始模型1的回归网络11的第一输入，将分类网络10的第二子网络120输出的概率分布图作为回归网路11的第二输入，将样本图像的回归监督数据作为回归网络11的第三输入，由回归网络11根据对第一输入进行回归处理，得到回归预测结果，并根据回归预测结果、第二输入和第三输入，采用预设的回归损失函数，计算回归损失值。例如，可以由回归网络11将回归预测结果与椭圆高斯核相乘，产生采样区域，对采用区域内的回归预测结果和第三输入进行处理，并将第二输入作为权值，对处理得到的结果进行加权，进而得到回归损失值。

S103，根据回归损失值和分类损失值，对初始模型进行训练，得到目标检测模型。

可选的，本实施例可以将回归损失值和分类损失值相加，得到总损失值；之后采用总损失值，对初始模型1进行训练，不断优化初始模型1中的分类网络10和回归网络11的网络参数直到模型收敛，得到目标检测模型。由于使用平均参数的评估有时会产生比最终训练值明显更好的结果，进一步的，在训练模型的过程中，保持训练网络参数的指数移动平均值(EMA，exponential moving average)。

需要说明的是，现有的分类网络训练过程和回归网络的训练过程相互独立，进而导致特征表达更好的点，对回归损失的贡献较小，进而导致目标检测模型的准确度比较低；而本申请将基于分类网络所确定的概率分布图作用于回归网络，也就是说使回归网络和分类网络有信息交互，实现了双优级调度的特性，进而提高了目标检测模型的准确度。此外，即使由于各类物体有着不同的外观、形状、姿态，成像时会受到光照、遮挡等因素的干扰，相比于现有的目标检测模型而言，本实施例引入回归损失值的计算方式，提高了目标检测模型的精度。此外，值得注意的是，本实施例的目标检测模型中没有像faster R-CNN等使用多个预定义的anchor，减少了模型的内存，进而提高了模型的速度。

本申请实施例的技术方案，构建包括分类网络和回归网络的初始模型，将样本图像的特征图分别输入初始模型的分类网络和回归网络中，以及将分类监督数据输入分类网络和将回归监督数据输入回归网络，由分类网络基于样本特征的特征图和分类监督数据，得到分类损失值和概率分布图；同时由回归网络基于样本图像的特征图、回归监督数据和概率分布图，得到回归损失值；之后，采用回归损失值和分类损失值，对初始模型进行训练，进而得到目标检测模型。本申请在模型训练的过程中，通过将基于分类网络所确定的概率分布图作用于回归网络，也就是说将分类网络的效果体现在回归网络中，能够实现回归网络和分类网络的平衡，提高了目标检测模型的准确度。此外，即使由于各类物体有着不同的外观、形状、姿态，成像时会受到光照、遮挡等因素的干扰，相比于现有的目标检测模型而言，本实施例引入回归损失值的计算方式，提高了目标检测模型的预测精度。

可选的，本申请实施例训练好的目标检测模型可以应用于服务端或移动端中，用于根据输入的包括待检测物体的目标图像的特征图，生成目标图像的分类预测结果和回归预测结果。即将目标图像的特征图输入目标检测模型，得到目标图像的分类预测结果和回归预测结果。

具体的，若图1B为训练好的目标检测模型，用户想要获知目标图像中待检测物体的位置和类别，可以将包括待检测物体的目标图像的特征图输入到目标检测模型中，由目标检测模型中的分类网络10中的第一子网络110对目标图像的特征图进行分类处理，得到目标图像的分类预测结果；同时，由目标检测模型中的回归网络11对目标图像的特征图进行回归处理，得到目标图像的回归预测结果。需要说明的是，本申请实施例在训练目标检测模型时，需要对第一子网络110、第二子网络120和回归网络11都进行训练，来不断优化网络参数，但是在实际应用时，只使用回归网络和分类网络中的第一子网络，无需进行获得特征图的概率分布图的过程，也可以精准从目标图像中找到待检测物体的位置并判断出该待检测物体的类别，为计算机视觉中目标检测技术的发展提供了一种新思路。

图2是根据本申请实施例提供的另一种目标检测模型的训练方法的流程图。本实施例在上述实施例的基础上，对如何确定回归损失值进行详细的说明。如图2所示，该目标检测模型的训练方法包括：

S201，通过初始模型的分类网络，对样本图像的特征图进行处理得到分类预测结果，根据分类预测结果和样本图像的分类监督数据确定分类损失值，并根据分类预测结果中特征图的热度图确定特征图中像素点的类别概率，以得到特征图的概率分布图。

S202，通过初始模型的回归网络，对特征图进行处理得到回归预测结果；计算回归监督数据和回归预测结果的交并比，并根据交并比和概率分布图，确定回归损失值。

可选的，由回归网络对回归监督数据进行分析，确定目标椭圆高斯核；并将回归预测结果与目标椭圆高斯核相乘，产生采样区域；对于采样区域内的每一矩形框，确定回归监督数据中与该矩形框对应的框，并计算两个框之间的交并比，同时将概率分布图中与该矩形框相对应的位置处的像素点作为权值，与所计算的交并比相乘；之后计算采样区域内所有矩形框关联的相乘结果的平均值，并采用1减去该平均值，即可得到回归损失值。

可选的，在本实施例中，回归预测结果可以是由回归网络对特征图进行回归处理，得到特征图中每一像素点的子预测结果，并对所有像素点的子预测结果进行综合处理得到，其中子预测结果可以是针对每一像素点所标注的目标所在位置的矩形框，进一步的，子预测结果是回归网络的一个中间产物。

进而，为了保证所确定的回归损失值的准确度，对于采样区域内的每一像素点的子预测结果，确定回归监督数据中与该点对应的框，并计算两个框之间的交并比，同时将概率分布图中与该点相对应的位置处的像素点作为权值，与所计算的交并比相乘；之后计算采样区域内的所有像素点关联的相乘结果的平均值，并采用1减去该平均值，即可得到回归损失值。

需要说明的是，在现有的网络中，采样区域内不同点的子预测结果的权重与高斯采样值相关，高斯响应大的点，子预测结果对回归损失的贡献越大；并且，在这个过程中，分类网络和回归网络的训练过程相互独立，导致特征表达更好的点，其子预测结果对回归损失的贡献更小。而本实施例将基于分类网络所确定的概率分布图作用于回归网络，也就是说基于分类过程的视觉显著性，将分类网络的效果体现在回归网络中，以此来平衡采用区域内不同点对回归损失值的贡献，实现了分类网络和回归网络双优级调度的特性，进而使目标检测模型具有较高的精度。

S203，根据回归损失值和分类损失值，对初始模型进行训练，得到目标检测模型。

本申请实施例的技术方案，通过确定回归监督数据和回归预测结果的交并比，并根据交并比和概率分布图确定回归损失值，为回归损失值的确定提供了一种新思路，提高了回归损失值的准确度，为提高目标检测模型的预测精度奠定了基础。

图3A是根据本申请实施例提供的另一种目标检测模型的训练方法的流程图；图3B是根据本申请实施例提供的另一种初始模型的结构示意图。本实施例在上述实施例的基础上，对构建的初始模型的结构进行了进一步的优化，如图3B所示，在初始模型中增加了特征提取网络12，该特征提取网络12用于提取样本图像的特征图，分别与并行的分类网络10和回归网络11相连。可选的，如图3A所示，基于优化后的初始模型执行本申请实施例的目标检测模型的训练方法具体包括：

S301，通过初始模型的特征提取网络，提取样本图像的特征图。

可选的，本实施例中特征提取网络12可以包括骨干网络130和上采样网络140。其中，所谓骨干网络130为用于特征提取的主网络，可以包括多个卷积层，或者可以采用多种网络结构实现。可选的，在本实施例的目标检测模型应用于服务端的情况下，骨干网络130优选采用精度较高的ResNet(Residual Network，残差网络)，例如可以将蒸馏的ResNet50-vd作为骨干网络130。进一步的，在本实施例的目标检测模型应用于服务端的情况下，可以将蒸馏的MobileNetV3作为骨干网络130。

示例性的，骨干网络130自底向上包括至少两个级联的特征提取层，每一特征提取层分别对应于提取不同层次的特征信息。骨干网络130底层的输入即为初始模型1的输入，即样本图像；骨干网络130自底向上倒数第二层的输入即为底层的输出，依次类推，骨干网络130顶层的输出即为骨干网络130的输出，也就是说上采样网络140的输入。在本申请实施例中，上采样网络140也可以包括多个卷积层，用于对骨干网络130顶层的输出结果进行采样。为了提高目标提取精度，尤其是较小目标的提取精度，本实施例在骨干网络130和上采样网络140之间引入了跳层连接，例如可以是将骨干网络130的底层输出结果与上采样网络140的输出结果都连接特征融合网络150的输入。可选的，本实施例中特征提取网络12还可以包括特征融合网络150，用于进行特征融合，输出特征图；进一步的，特征融合网络150的输出即为特征提取网络12的输出，也就是分类网络10和回归网络11的输入。

可选的，本实施例可以将样本图像输入初始模型1的特征提取网络12，由特征提取网络12中的骨干网络130、上采样网络140和特征融合网络150配合，得到样本图像的特征图。优选可以是，将样本图像输入骨干网络，得到至少两个特征提取层的输出结果；将至少两个特征提取层中顶层的输出结果输入上采样网络，得到采样结果；之后将采样结果和至少两个特征提取层中底层的输出结果输入到特征融合网络，进行特征融合，进而得到样本图像的特征图。

具体的，将样本图像作为骨干网络130的输入，输入骨干网络130的底层，由骨干网络130中每一两个特征提取层进行特征提取；并将骨干网络130中至少两个特征提取层中顶层的输出结果输入上采样网络140，由上采样网络140进行采样处理，得到采样结果；之后，为使所得到的特征图能够更好的表征样本图像，可以将采样结果和骨干网络130中至少两个特征提取层中底层的输出结果输入到特征融合网络150，由特征融合网络150按照设定的融合算法，进行特征融合，进而得到样本图像的特征图。例如，特征融合网络150可以将采样结果和骨干网络130中至少两个特征提取层中底层的输出结果中相同位置处的特征累加，进而得到样本图像的特征图。

需要说明的是，为了减少特征的冗余信息，本实施例中特征图的分辨率小于样本图像，例如特征图的大小为样本图像的1/4分辨率。

进一步的，为了使特征图能够更好的表达样本图像，骨干网络130和上采样网络140具有相同的层结构，骨干网络130的各特征提取层与上采样网络140的各采样层一一对应，且对应层之间跳层连接。

S302，通过初始模型的分类网络，对样本图像的特征图进行处理得到分类预测结果，根据分类预测结果和样本图像的分类监督数据确定分类损失值，并根据分类预测结果中特征图的热度图确定特征图中像素点的类别概率，以得到特征图的概率分布图。

S303，通过初始模型的回归网络，对特征图进行处理得到回归预测结果，并根据概率分布图、回归预测结果和样本图像的回归监督数据，确定回归损失值。

可选的，在本实施例的目标检测模型应用于移动端的情况下，为提高模型的预测速度，本实施例中的回归网络和分类网络均可以由三个卷积层组成，这些卷积层的内核大小可以为1、5、1，其中第二层为深度卷积层。进一步的，在不影响精度的情况下，可以将输入到分类网络的通道数量由128减少到48。其中，在目标检测模型应用于服务端的情况下，输入到分类网络的通道数量为128。

S304，根据回归损失值和分类损失值，对初始模型进行训练，得到目标检测模型。

可选的，本实施例可以将回归损失值和分类损失值相加，得到总损失值；之后采用总损失值，对初始模型1进行训练，不断优化初始模型1中的分类网络10、回归网络11和特征提取网络12的网络参数直到模型收敛，得到目标检测模型。

本申请实施例的技术方案，通过在初始模型中引入用于提取样本图像的特征图的特征提取网络，极大地提高了特征图提取的准确度，为得到精准的目标检测模型奠定了基础；同时，将特征提取网络加入初始模型中，与分类网络和回归网络作为整体一并训练，降低了模型训练的复杂度，保证了模型的整体性。

作为本申请实施例的一种可选方式，本实施例中的样本图像是采用数据混合算法和/或数据删除算法对原始图像进行数据增强得到。其中，数据混合算法用于将不同图像的数据进行混合，产生新的图像；数据混合算法具体可以是MixUp或CutMix等算法，由于CutMix算法是MixUp算法的改进版本，本实施例优选采用CutMix算法对原始图像进行数据增强处理。例如可以是，将原始图像1中的一部分切除，并随机填充训练集中其他原始图像的像素值，进而产生新的图像，作为用于训练初始模型的样本图像。

进一步的，数据删除算法用于随机丢弃图像上的区域来实现数据增强，例如可以是GridMask算法。本实施例中可以采用数据删除算法，从原始图像中随机删除信息，以产生新的图像，作为用于训练初始模型的样本图像。或者，还可以同时采用混合算法和数据删除算法对原始图像进行数据增强处理，以得到样本图像。

需要说明的是，本实施例采用数据混合算法和/或数据删除算法，能够在不影响模型速度的情况下，提高模型的精度。具体可以是采用数据混合算法，能够增强模型的泛化能力；采用数据删除算法，能够避免模型过度拟。

可选的，本申请实施例训练好的目标检测模型可以应用于服务端或移动端中，若图3B为训练好的目标检测模型，用户想要获知目标图像中待检测物体的位置和类别，可以将包括待检测物体的目标图像输入到目标检测模型中，由目标检测模型中的特征提取网络12(包括骨干网络130、上采样网络140和特征融合网络150)，提取目标图像的特征图；并分别输入分类网络10和回归网络11，由分类网络10中的第一子网络110对目标图像的特征图进行分类处理，得到目标图像的分类预测结果；同时，由目标检测模型中的回归网络11对目标图像的特征图进行回归处理，得到目标图像的回归预测结果。需要说明的是，本申请实施例在训练目标检测模型时，需要对特征提取网络12(包括骨干网络130、上采样网络140和特征融合网络150)、分类网络10(包括第一子网络110和第二子网络120)以及回归网络11都进行训练，来不断优化网络参数，但是在实际应用时，只使用特征提取网络、回归网络和分类网络中的第一子网络，无需进行获得特征图的概率分布图的过程。

图4是根据本申请实施例提供的一种目标检测模型的训练装置的结构示意图。本申请实施例适用于构建能够从图像中精准的找到目标的位置并判断出该目标类别的目标检测模型的情况。该装置可以实现本申请任意实施例所述的目标检测模型的训练方法。如图4所示，该目标检测模型的训练装置包括：

分类处理模块401，用于通过初始模型的分类网络，对样本图像的特征图进行处理得到特征图的热度图和分类预测结果，根据分类预测结果和样本图像的分类监督数据确定分类损失值，并根据特征图的热度图确定特征图中像素点的类别概率，以得到特征图的概率分布图；

回归处理模块402，用于通过初始模型的回归网络，对特征图进行处理得到回归预测结果，并根据概率分布图、回归预测结果和样本图像的回归监督数据，确定回归损失值；

模型训练模块403，用于根据回归损失值和分类损失值，对初始模型进行训练，得到目标检测模型。

示例性的，分类处理模块401具体用于：

通过分类网络中的第一子网络，对特征图进行处理，得到特征图的热度图；

通过分类网络中的第二子网络，对特征图的热度图进行降维和激活处理，得到特征图中像素点的类别概率。

示例性的，回归处理模块402具体用于：

计算回归监督数据和回归预测结果的交并比；

根据交并比和概率分布图，确定回归损失值。

示例性的，上述装置还包括：

特征提取模块，用于通过初始模型的特征提取网络，提取样本图像的特征图。

示例性的，特征提取网络包括骨干网络、上采样网络和特征融合网络，骨干网络自底向上包括至少两个特征提取层；

相应地，特征提取模块具体用于：

将样本图像输入所述骨干网络，得到至少两个特征提取层的输出结果；

将至少两个特征提取层中顶层的输出结果输入上采样网络，得到采样结果；

将采样结果和至少两个特征提取层中底层的输出结果输入到特征融合网络，进行特征融合，得到样本图像的特征图。

示例性的，上述装置还包括：

数据增强模块，用于采用数据混合算法和/或数据删除算法对原始图像进行数据增强，得到样本图像。

示例性的，上述装置还包括：

模型使用模块，用于将目标图像的特征图输入目标检测模型，得到目标图像的分类预测结果和回归预测结果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如目标检测模型的训练方法。例如，在一些实施例中，目标检测模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的目标检测模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测模型的训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测模型的训练方法，包括：

通过所述初始模型的回归网络，对所述特征图进行处理得到回归预测结果；

计算所述样本图像的回归监督数据和所述回归预测结果的交并比；

根据所述交并比和所述概率分布图，确定回归损失值；

2.根据权利要求1所述的方法，其中，通过初始模型的分类网络，对所述特征图进行处理得到所述特征图的热度图，并根据所述特征图的热度图确定所述特征图中像素点的类别概率，包括：

通过所述分类网络中的第一子网络，对所述特征图进行处理，得到所述特征图的热度图；

通过所述分类网络中的第二子网络，对所述特征图的热度图进行降维和激活处理，得到所述特征图中像素点的类别概率。

3.根据权利要求1所述的方法，还包括：

通过初始模型的特征提取网络，提取所述样本图像的特征图。

4.根据权利要求3所述的方法，其中，所述特征提取网络包括骨干网络、上采样网络和特征融合网络，所述骨干网络自底向上包括至少两个特征提取层；

相应地，通过初始模型的特征提取网络，提取所述样本图像的特征图，包括：

将所述样本图像输入所述骨干网络，得到所述至少两个特征提取层的输出结果；

将所述至少两个特征提取层中顶层的输出结果输入所述上采样网络，得到采样结果；

将所述采样结果和所述至少两个特征提取层中底层的输出结果输入到所述特征融合网络，进行特征融合，得到所述样本图像的特征图。

5.根据权利要求3所述的方法，还包括：

采用数据混合算法和/或数据删除算法对原始图像进行数据增强，得到样本图像。

6.根据权利要求1所述的方法，还包括：

将目标图像的特征图输入所述目标检测模型，得到所述目标图像的分类预测结果和回归预测结果。

7.一种目标检测模型的训练装置，包括：

回归处理模块，用于计算所述样本图像的回归监督数据和回归预测结果的交并比；根据所述交并比和所述概率分布图，确定回归损失值；

8.根据权利要求7所述的装置，其中，所述分类处理模块具体用于：

9.根据权利要求7所述的装置，还包括：

特征提取模块，用于通过初始模型的特征提取网络，提取所述样本图像的特征图。

10.根据权利要求9所述的装置，其中，所述特征提取网络包括骨干网络、上采样网络和特征融合网络，所述骨干网络自底向上包括至少两个特征提取层；

相应地，所述特征提取模块具体用于：

11.根据权利要求9所述的装置，还包括：

12.根据权利要求7所述的装置，还包括：

模型使用模块，用于将目标图像的特征图输入所述目标检测模型，得到所述目标图像的分类预测结果和回归预测结果。

13. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的目标检测模型的训练方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的目标检测模型的训练方法。