CN111709471A

CN111709471A - 对象检测模型的训练方法以及对象检测方法、装置

Info

Publication number: CN111709471A
Application number: CN202010535814.0A
Authority: CN
Inventors: 宋奕兵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-25
Anticipated expiration: 2040-06-12
Also published as: CN111709471B

Abstract

本申请涉及一种对象检测模型的训练方法、装置、计算机设备和存储介质。所述方法包括：获取样本图像；通过待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各对象类别的初始置信度；根据各候选区域中目标对象对应各对象类别的初始置信度与样本图像的图像数据间的梯度信息，获取待训练对象检测模型针对样本图像的关注度响应图；从关注度响应图中获取各候选区域的关注度响应值，根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，调整待训练对象检测模型的网络参数，直至满足收敛条件得到目标对象检测模型。采用本方法能够提高对象检测模型的检测性能。

Description

对象检测模型的训练方法以及对象检测方法、装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种对象检测模型的训练方法、装置、计算机设备和存储介质，以及一种对象检测方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，通过对象检测模型从图像中检测识别出所有感兴趣的目标物体对象，确定图像中目标物体对象的区域位置以及对象类别等物体信息，是计算机视觉技术的核心问题之一。但是，目标物体对象在图像中往往只占据了一小部分区域，而除目标物体对象以外的背景区域图像占据图像中的大部分区域，大区域的背景图像会对对象检测模型从图像中检测目标物体对象造成影响，导致从图像中检测识别目标物体对象的准确率降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高从图像中检测识别目标物体对象的准确率的对象检测模型的训练方法、装置、计算机设备和存储介质，以及对象检测方法、装置、计算机设备和存储介质。

一种对象检测模型的训练方法，所述方法包括：

获取样本图像，所述样本图像包括在样本图像中目标对象的对象类别标签；所述目标对象为待检测物体；

通过待训练对象检测模型，获取在所述样本图像中所述目标对象所在的候选区域，以及各所述候选区域中目标对象对应各对象类别的初始置信度；所述待训练对象检测模型用于检测所述样本图像中的目标对象；

根据各所述候选区域中目标对象对应各所述对象类别的初始置信度与所述样本图像的图像数据间的梯度信息，获取所述待训练对象检测模型针对所述样本图像的关注度响应图；

从所述关注度响应图中获取各所述候选区域的关注度响应值，根据各所述候选区域的所述关注度响应值、各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，调整所述待训练对象检测模型的网络参数，重复上述步骤，直至满足收敛条件，得到目标对象检测模型。

一种对象检测方法，包括：

获取待检测图像；

通过预先构建的目标对象检测模型获取所述待检测图像中目标对象所在的候选区域，以及各所述候选区域中目标对象对应各个对象类别的初始置信度；其中，所述目标对象检测模型为根据样本图像中的候选区域的关注度响应值、候选区域中目标对象对应各个对象类别的初始置信度以及所述样本图像中目标对象的对象类别标签，对待训练对象检测模型的网络参数进行调整后所得到目标对象检测模型；所述样本图像的候选区域以及候选区域中目标对象对应各个对象类别的初始置信度是通过所述待训练对象检测模型获取的；所述关注度响应值是从根据各所述候选区域中目标对象对应各所述对象类别的初始置信度与所述样本图像的图像数据间的梯度信息所获取的关注度响应图中获取的；

根据各所述候选区域中目标对象对应各个对象类别的初始置信度，获取所述候选区域中目标对象的目标对象类别；

输出所述待检测图像中目标对象所在的候选区域的区域位置信息以及目标对象类别。

一种对象检测模型的训练装置，所述装置包括：

样本图像获取模块，用于获取样本图像，所述样本图像包括在样本图像中目标对象的对象类别标签；所述目标对象为待检测物体；

图像处理模块，用于通过待训练对象检测模型，获取在所述样本图像中所述目标对象所在的候选区域，以及各所述候选区域中目标对象对应各对象类别的初始置信度；所述待训练对象检测模型用于检测所述样本图像中的目标对象；

响应图获取模块，用于根据各所述候选区域中目标对象对应各所述对象类别的初始置信度与所述样本图像的图像数据间的梯度信息，获取所述待训练对象检测模型针对所述样本图像的关注度响应图；

响应值获取模块，用于从所述关注度响应图中获取各所述候选区域的关注度响应值，根据各所述候选区域的所述关注度响应值、各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，调整所述待训练对象检测模型的网络参数，重复上述步骤，直至满足收敛条件，得到目标对象检测模型。

一种对象检测装置，所述装置包括：

图像获取模块，用于获取待检测图像；

候选区域获取模块，用于通过预先构建的目标对象检测模型获取所述待检测图像中目标对象所在的候选区域，以及各所述候选区域中目标对象对应各个对象类别的初始置信度；其中，所述目标对象检测模型为根据样本图像中的候选区域的关注度响应值、候选区域中目标对象对应各个对象类别的初始置信度以及所述样本图像中目标对象的对象类别标签，对待训练对象检测模型的网络参数进行调整后所得到目标对象检测模型；所述样本图像的候选区域以及候选区域中目标对象对应各个对象类别的初始置信度是通过所述待训练对象检测模型获取的；所述关注度响应值是从根据各所述候选区域中目标对象对应各所述对象类别的初始置信度与所述样本图像的图像数据间的梯度信息所获取的关注度响应图中获取的；

对象类别获取模块，用于根据各所述候选区域中目标对象对应各个对象类别的初始置信度，获取所述候选区域中目标对象的目标对象类别；

对象信息输出模块，用于输出所述待检测图像中目标对象所在的候选区域的区域位置信息以及目标对象类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述对象检测模型的训练方法、装置、计算机设备和存储介质，上述对象检测模型的训练方法中，获取样本图像，所述样本图像包括在样本图像中目标对象的对象类别标签；通过待训练对象检测模型，获取在所述样本图像中所述目标对象所在的候选区域，以及各所述候选区域中目标对象对应各对象类别的初始置信度；所述待训练对象检测模型用于检测所述样本图像中的目标对象；根据各所述候选区域中目标对象对应各所述对象类别的初始置信度以及所述样本图像的图像数据间的梯度信息，获取所述待训练对象检测模型针对所述样本图像的关注度响应图；从所述关注度响应图中获取各所述候选区域的关注度响应值，根据各所述候选区域的所述关注度响应值、各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，调整所述待训练对象检测模型的网络参数，继续训练直至得到目标对象检测模型。通过获取待训练对象检测模型对样本图像上各个像素点的关注度响应图，并根据关注度响应图调整待训练对象检测模型的网络参数，使得待训练对象检测模型对样本图像中的目标对象具有更多的关注度，进而使得网络参数调整后的待训练对象检测模型从输入图像中目标对象所在的区域位置获取更多的特征信息，提高检测目标对象的所在区域位置以及对象类别的准确性。

附图说明

图1为一个实施例中对象检测模型的训练方法的应用环境图；

图2为一个实施例中对象检测模型的训练方法的流程示意图；

图3为一个实施例中调整所述待训练对象检测模型的网络参数步骤的流程示意图；

图4为一个实施例中获取待训练对象检测模型的关注度响应图步骤的流程示意图；

图5为一个实施例中从关注度响应图中获取各候选区域的关注度响应值步骤的流程示意图；

图6为一个实施例中通过待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各个对象类别的初始置信度步骤的流程示意图；

图7a为一个实施例中对象检测模型的训练方法的原理示意图；

图7b为一个实施例中候选区域的示意图；

图8为一个实施例中对象检测方法的流程示意图；

图9为一个实施例中对象检测模型的训练装置的结构框图；

图10为一个实施例中对象检测装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请提供的对象检测模型的训练方法，主要涉及人工智能的计算机视觉技术，其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体地，本申请提供的方法主要涉及检测识别出图像中感兴趣的目标对象，确定图像中每个目标对象所在的区域位置以及目标对象的对象类别，是计算机视觉技术的核心问题之一。

本申请提供的对象检测模型的训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。具体地，终端102获取待检测图像，并将待检测图像发送至服务器104，服务器104将待检测图像输入至目标对象检测模型，通过目标对象检测模型获取在待检测图像中目标对象所在的候选区域，以及各候选区域中目标对象对应的对象类别，得到待检测图像中目标对象所在的候选区域的区域位置信息以及目标对象对应的对象类别，进而服务器104并将待检测图像中目标对象所在的候选区域的区域位置信息以及目标对象对应的对象类别返回至终端102中。

可选地，也可以通过终端102直接调用目标对象检测模型，以获取将待检测图像中目标对象所在的候选区域的区域位置信息以及目标对象对应的对象类别。本申请主要描述了如何对待训练对象检测模型进行训练，以获得目标对象检测模型的过程。

在一个实施例中，如图2所示，提供了一种对象检测模型的训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取样本图像，样本图像包括在样本图像中目标对象的对象类别标签，目标对象为待检测物体。

其中，样本图像用于对待训练的对象检测模型进行训练，样本图像中包括一个或多个目标对象；目标对象是指在图像中需要检测识别的特定对象，可以是现实世界中真实存在的有形物体，其中，目标对象可以根据实际应用场景进行设置；对象类别标签用于指示样本图像中所包括的目标对象的类别信息。

例如，在实际应用场景中，在一个实施例中，样本图像可以但不限于是实通过摄像设备所拍摄的道路图像；目标对象可以但不限于是道路上的障碍物，例如人(如道路上的行人)、车辆、树木等；对象类别标签用于指示样本图像中所包括的障碍物的类别信息，例如包括表示为“人”的类别标签、表示为“车辆”的类别标签、表示为“树木”的类别标签。

步骤S204，通过待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各对象类别的初始置信度，待训练对象检测模型用于检测样本图像中的目标对象。

其中，候选区域是指在样本图像中可能包含目标对象的感兴趣区域，是样本图像中的部分图像区域，具体地，候选区域可以是矩形区域；候选区域中目标对象对应各对象类别的初始置信度，是指在该候选区域中目标对象属于不同对象类别的可能性，其中，置信度可以用概率值、百分制分数等表示。

其中，待训练对象检测模型用于识别所输入图像中所有待检测的目标对象，确定所输入图像中每个目标对象所在的位置信息以及目标对象的类别信息。这里的待训练对象检测模型可以是已进行预训练的神经网络模型，也可以是未进行训练的神经网络模型。具体地，待训练对象检测模型可以包括但不限于特征提取网络、区域生成网络以及分类器；其中，特征提取网络用于提取输入图像的语义特征以及位置特征等特征信息，以获得特征图；区域生成网络用于根据特征提取网络输出的特征图上进行候选区域的选择以及截取；分类器用于对区域生成网络输出的候选区域进行分类，以获取候选区域中目标对象属于不同对象类别的可能性。其中，特征提取网络可以采用卷积神经网络，例如ResNet网络、FPN(Feature Pyramid Networks，特征金字塔网络)网络或基于ResNet网络结构的FPN网络；区域生成网络可以是RPN(Region Proposal Network)网络。

具体地，服务器在获取到样本图像后，将样本图像输入至待训练对象检测模型中，通过特征提取网络提取样本图像对应的特征图；然后将特征图输入至区域生成网络中，通过区域生成网络确定可能包含目标对象的区域，得到多个候选区域；最后利用分类器对候选区域所包含的对象进行分类，以获取候选区域中目标对象属于各个对象类别的初始置信度。

需要进行说明的是，对象类别除了包括需要被检测的目标对象的对象类别之外，还包括背景对象类别，该背景对象类别是指非目标对象(即不是需要被检测的对象)的对象类别；当待训练对象检测模型识别候选区域中的目标对象为背景对象类型的初始预测置信度最高时，可以认为该候选区域中并未包含需要被检测的目标对象，而是包含了需要被检测的目标对象所在区域背景的背景图像，即待训练对象检测模型预测得到的候选区域中可以不包含需要被检测的目标对象。

步骤S206，根据各候选区域中目标对象对应各对象类别的初始置信度与样本图像的图像数据间的梯度信息，获取待训练对象检测模型针对样本图像的关注度响应图。

其中，关注度响应图包括待训练对象检测模型在检测目标对象的过程中样本图像上各个像素点的响应程度信息，当某区域像素点上的响应程度越高，可以认为该像素点与目标对象的关联性越大。具体地，服务器在获取到各个候选区域中目标对象属于各个对象类别的初始置信度后，可以通过反向传播算法，将初始置信度在待训练对象检测模型中进行反向传播，以获取各个候选区域对应的初始置信度与样本图像的图像数据间梯度信息，进而根据梯度信息获取待训练对象检测模型对样本图像上各个像素点的响应程度，得到与样本图像对应的关注度响应图。可以理解的是，当某区域中对象对应的初始置信度与样本图像的图像数据间梯度信息越大，即该区域像素点上的响应程度越高，则可以认为该区域与目标对象的关联性越大，当某区域中对象对应的初始置信度与样本图像的图像数据间梯度信息越小，即该区域像素点上的响应程度越低，则可以认为该区域与目标对象的关联性越小。

进一步地，样本图像的图像数据可以是样本图像的原始图像数据，也可以是待训练对象检测模型中中间层所输出的样本图像的特征图，例如区域生成网络输入层的特征图、分类器输入层的特征图等，在此不做限定。

步骤S208，从关注度响应图中获取各候选区域的关注度响应值，根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，调整待训练对象检测模型的网络参数，重复上述步骤，直至满足收敛条件，得到目标对象检测模型。

其中，关注度响应值是指待训练对象检测模型在检测目标对象的过程中样本图像上某区域或某像素点的响应程度信息，当某区域或某个像素点上的关注度响应值越高，可以认为该区域或像素点与目标对象的关联性越大。从关注度响应图中获取各个候选区域的关注度响应值，具体可以是从在关注度响应图中获取候选区域中各个像素点的关注度响应值，然后将该候选区域中所有像素点的关注度响应值的均值确定为候选区域对应的关注度响应值；也可是从在关注度响应图中获取候选区域中各个像素点的关注度响应值，然后将该候选区域中所有像素点的关注度响应值的和值确定为候选区域对应的关注度响应值。

其中，如上述，当候选区域的关注度响应值越高，可以认为该候选区域或像素点与目标对象的关联性越大(该区域为目标对象所在区域的可能性越大)，该候选区域的图像特征信息包含有表征目标对象的特征信息以及表征目标对象所在位置的特征信息的可能性越大；而在待训练对象检测模型在检测候选区域的过程，当某一区域为目标对象所在区域时，待训练对象检测模型对该区域的关注程度越大，则待训练对象检测模型获取目标对象所在的候选区域以及对象类别越准确；因此，在获取到关注度响应图后，从关注度响应图中获取各个候选区域的关注度响应值，然后根据各个候选区域的关注度响应值，分别调整对应候选区域中目标对象对应各个对象类别的初始置信度与对象类别标签间的差异所带来的损失值，实现增加属于目标对象所在区域的候选区域的损失函数的权值，减小不属于目标对象所在区域的候选区域的损失函数的权值；进而，利用调整后的损失值监督待训练对象检测模型对样本图像的学习过程，调整待训练对象检测模型的网络参数，使得待训练对象检测模型可以将更多的关注度放在样本图像中的目标对象所在的区域上，实现更加充分地学习到样本图像中的目标对象所在区域的图像特征，以提高待训练对象检测模型的检测性能。

需要进行说明的是，每个样本图像对待训练对象检测模型进行训练的步骤过程相同，该过程即是上述步骤S101到步骤S104所描述的过程，并且，后一个样本图像是在前一个样本图像对待训练对象检测模型进行训练后的基础上继续进行训练的。其中，收敛条件可根据实际需要进行调整或设置，例如，当目标类别预测损失值达到最小时，则可认为满足收敛条件；或者当前后两次迭代训练所得到的目标类别预测损失值不再发生变化或变化较小(例如小于一个阈值)时，则可认为满足收敛条件；或者当通过预设数量的样本图像对待训练对象检测模型进行训练后，可以认为满足收敛条件。后续，目标对象检测模型所得到的检测模型可以用于识别图像中的目标对象所在位置以及对象类别，识别的目标对象的类别为用于训练待训练对象检测模型的样本图像中所包含的对象类别。

上述对象检测模型的训练方法中，获取样本图像，样本图像包括在样本图像中目标对象的对象类别标签；通过待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各对象类别的初始置信度；待训练对象检测模型用于检测样本图像中的目标对象；根据各候选区域中目标对象对应各对象类别的初始置信度以及样本图像的图像数据间的梯度信息，获取待训练对象检测模型针对样本图像的关注度响应图；从关注度响应图中获取各候选区域的关注度响应值，根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，调整待训练对象检测模型的网络参数，继续训练直至得到目标对象检测模型。通过获取待训练对象检测模型对样本图像上各个像素点的关注度响应图，并根据关注度响应图调整待训练对象检测模型的网络参数，使得待训练对象检测模型对样本图像中的目标对象具有更多的关注度，进而使得网络参数调整后的待训练对象检测模型从输入图像中目标对象所在的区域位置获取更多的特征信息，提高识别目标对象的所在位置或对象类别的准确性。

在一个实施例中，如图3所示，根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，调整待训练对象检测模型的网络参数的步骤，包括：

步骤S302，根据各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，获取各候选区域对应的类别预测损失值；

步骤S304，根据各候选区域的关注度响应值，获取各候选区域的损失权重值；

步骤S306，根据各候选区域的损失权重值以及类别预测损失值，获取待训练对象检测模型的目标类别预测损失值；

步骤S308，根据待训练对象检测模型的目标类别预测损失值调整待训练对象检测模型的网络参数。

其中，类别预测损失值是指，待训练对象检测模型输出的候选区域中的目标对象对应各个对象类别的初始置信度，与样本图像中的目标对象的实际的对象类别之间的差异所带来的损失值；具体地，可以通过交叉熵损失函数获取类别预测损失值。损失权重值用于控制不同候选区域的类别预测损失值的大小，可以理解的是，当候选区域的关注度响应值越大，该候选区域或像素点与目标对象的关联性越大，则该候选区域的类别预测损失值的损失权重值越大，使得待训练对象检测模型可以更加充分地学习到样本图像中的候选区域的图像特征，当候选区域的关注度响应值越小，该候选区域或像素点与目标对象的关联性越小，则该候选区域的类别预测损失值的损失权重值越小，使得待训练对象检测模型可以减少对样本图像中的候选区域的图像特征的学习。

具体地，服务器在获取到各候选区域的关注度响应值以及各候选区域中目标对象对应各个对象类别的初始置信度后，利用交叉熵损失函数，根据各个候选区域中目标对象对应各个对象类别的初始置信度与对应对象类别标签，计算各候选区域对应的类别预测损失值，然后根据各个候选区域的关注度响应值获取对应的损失权重值，进而利用损失权重值调整对应候选区域的类别预测损失值，得到待训练对象检测模型的目标类别预测损失值，最后利用待训练对象检测模型的目标类别预测损失值对待训练对象检测模型的网络参数进行调整，直至满足收敛条件，得到完成训练的目标对象检测模型。其中，收敛条件可根据实际需要进行调整或设置，例如，当目标类别预测损失值达到最小时，则可认为满足收敛条件；或者当目标类别预测损失值不再发生变化时，则可认为满足收敛条件；或者当通过预设数量的样本图像对待训练对象检测模型进行训练后，可以认为满足收敛条件。

在一个实施例中，对象类别包括前景对象类别以及背景对象类别；候选区域中目标对象对应的对象类别置信度包括前景对象类别置信度以及背景对象类别置信度；如图4所示，步骤S206根据各候选区域中目标对象对应各对象类别的初始置信度与样本图像的图像数据间的梯度信息，获取待训练对象检测模型针对样本图像的关注度响应图，包括：

步骤S206a，根据各候选区域中目标对象对应的对象类别的初始置信度，获取候选区域中前景对象类别的总置信度以及背景对象类别的总置信度。

步骤S206b，根据前景对象类别的总置信度与样本图像的图像数据间的梯度信息，获取前景对象的关注度响应图。

步骤S206c，根据背景对象类别的总置信度与样本图像的图像数据间的梯度信息，获取背景对象的关注度响应图。

其中，如上述，对象类别除了包括需要被检测的目标对象的对象类别之外，还包括背景对象类别。对象检测过程中，前景对象是指需要被检测的目标对象，背景对象是指除需要被检测的目标对象以外的任意对象；对应的，前景对象类别是指需要被检测的目标对象的对象类别中任一对象类别，而当候选区域中目标对象不属于需要被检测的目标对象的对象类别中任一对象类别时，则该候选区域中目标对象的对象类别为背景对象类别。

具体地，服务器在获取到各个候选区域中目标对象对应的对象类别的初始置信度后，对于前景对象类别，服务器计算各个候选区域中属于前景对象类别的对象类别的初始置信度的和值，得到各个候选区域对应的前景对象类别的置信度，进而，计算所有候选区域的前景对象类别的置信度的和值，得到所有候选区域的前景对象类别的总置信度。同样的，对于背景对象类别，服务器计算所有候选区域的背景对象类别的初始置信度的和值，得到所有候选区域的背景对象类别的总置信度。

例如，在实际应用场景中，目标对象可以包括人、车辆、树木，相应的，目标对象的对象类别包括类别“人”、类别“车辆”、类别“树木”。当候选区域中目标对象为类别“人”、类别“车辆”、类别“树木”中任意类别时，则该目标对象的对象类别为前景对象类别；当候选区域中目标对象不是类别“人”、类别“车辆”、类别“树木”中任意类别时，则将该目标对象的对象类别为背景对象。假设当待训练对象检测模型输出的第一候选区域以及第二候选区域，其中，第一候选区域中目标对象对应为类别“人”的初始置信度为0.5，为类别“车辆”的初始置信度为0.3，为类别“树木”的初始置信度为0.1，不是类别“人”、类别“车辆”、类别“数目”中任意类别(即为背景对象类别)的初始置信度为0.1；第二候选区域中目标对象对应为类别“人”的初始置信度为0.3，为类别“车辆”的初始置信度为0.2，为类别“树木”的初始置信度为0.1，不是类别“人”、类别“车辆”、类别“数目”中任意类别(即为背景对象类别)的初始置信度为0.4。此时，第一候选区域中的前景对象类别的置信度为0.9，背景对象类别的置信度为0.1；而第二候选区域中的前景对象类别的置信度为0.6，背景对象类别的置信度为0.4；则所有候选区域的前景对象类别的总置信度为1.5，背景对象类别的总置信度为0.5。

其中，在得到所有候选区域的前景对象类别的置信度以及后景对象类别的置信度后，服务器根据前景对象置信度和背景对象置信度分别对输入图像的图像数据求偏导，得到前景对象的关注度响应图以及背景对象的关注度响应图。可以理解的是，前景对象的关注度响应图中包括有前景位置分布信息，背景对象的关注度响应图中包括有背景位置分布信息。

在一个实施例中，如图5所示，从关注度响应图中获取各候选区域的关注度响应值的步骤，包括：

步骤S502，将各候选区域中具有最高数值的初始置信度的对象类型，分别确定为各候选区域中目标对象的预测对象类别。

其中，在得到每个候选区域针对每种对象类别的初始预测置信度之后，可以确定每个预测区域中所包含的对象是哪一种对象类别。具体地，服务器可以将候选区域对应各个对象类别中，初始预测置信度为最大值的对象类别确定为该候选区域的预测对象类别。

步骤S504，根据各候选区域中目标对象的预测对象类别，确定各候选区域的区域类别，区域类别包括前景候选区域以及背景候选区域；

其中，在确定到候选区域的预测对象类别后，服务器根据该预测对象类别，确定候选区域的区域类别。具体地，当候选区域中目标对象的预测对象类别是需要被检测的目标对象的对象类别(即前景对象类别)时，则该候选区域为前景候选区域，当候选区域中目标对象的预测对象类别不是需要被检测的目标对象的对象类别(即背景对象类别)，则该候选区域为背景候选区域。

步骤S506，从区域类别对应的关注度响应图中获取各候选区域的关注度响应值。

其中，在确定到各个候选区域的区域类别后，根据各个候选区域的区域类别，从其区域类别对应的关注度响应图中，获取各个候选区域的关注度响应值。具体地，当候选区域为前景候选区域，则从前景关注度响应图中获取该候选区域的关注度响应值，当候选区域为背景候选区域，则从背景关注度响应图中获取该候选区域的关注度响应值。

例如，在实际应用场景中，目标对象可以包括人、车辆、树木，相应的，目标对象的对象类别包括类别“人”、类别“车辆”、类别“树木”，即前景对象类别包括类别“人”、类别“车辆”、类别“树木”。具体地，当待训练对象检测模型输出的候选区域中目标对象对应为类别“人”的初始置信度为0.5，为类别“车辆”的初始置信度为0.3，为类别“树木”的初始置信度为0.1，不是类别“人”、类别“车辆”、类别“数目”中任意类别(即为背景对象类别)的初始置信度为0.1，此时，该候选区域中目标对象的预测对象类别确定为类别“人”，即候选区域的区域类别为前景候选区域，并从前景关注度响应图中获取该候选区域的关注度响应值。当待训练对象检测模型输出的候选区域中目标对象对应为类别“人”的初始置信度为0.3，为类别“车辆”的初始置信度为0.2，为类别“树木”的初始置信度为0.1，不是类别“人”、类别“车辆”、类别“数目”中任意类别(即为背景对象类别)的初始置信度为0.4，此时，该候选区域中目标对象的预测对象类别确定为背景对象类别，候选区域的区域类别为背景候选区域，并从背景关注度响应图中获取该候选区域的关注度响应值。

可以理解的是，后续获取待训练对象检测模型的目标类别预测损失值的过程，具体可以是先根据各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，获取各候选区域对应的类别预测损失值；然后，对于各个候选区域中的前景候选区域，从前景关注度响应图中获取该前景候选区域的关注度响应值，对于各个候选区域中的对于背景候选区域，从背景关注度响应图中获取该前景候选区域的关注度响应值，进而根据各个候选区域对应的损失权重值以及类别预测损失值，获取待训练对象检测模型的目标类别预测损失值。在一个实施例中，可以通过下述公式(1)获取待训练对象检测模型的目标类别预测损失值：

其中，t为对象类别标签，其中，当t为1时，该对象类别标签为前景对象类别的标签，当t为0时，该对象类别标签为背景对象类别标签；p是候选区域中目标对象对应各对象类别的初始置信度，λ_f与α是用于控制前景候选区域的类别预测损失值的大小的系数；λ_b与β是用于控制背景候选区域的类别预测损失值的大小的系数；

是背景候选区域的关注度响应值，

是前景候选区域的关注度响应值。

在一个实施例中，从关注度响应图中获取各候选区域的关注度响应值的步骤，包括：从关注度响应图中，获取候选区域上各个像素点对应的关注度响应值；将候选区域上像素点的关注度响应值间的均值，确定为候选区域的关注度响应值。其中，关注度响应图中包括各个像素点对应的关注度响应值，通过获取候选区域上各个像素点的关注度响应值，进而计算该候选区域上所有像素点上关注度响应值的平均值，将该平均值确定为候选区域的关注度响应值。

在待训练对象检测模型的训练过程中，除了采用类别预测损失值对待训练对象检测模型的模型参数进行调整之外，还可以通过待训练对象检测模型输出的目标对象在样本图像中所在候选区域与目标对象在样本图像中实际所在的区域之间的区域位置差异所带来的损失值，对待训练对象检测模型的模型参数进行调整进行训练。因此，在一个实施例中，样本图像还包括在样本图像中目标对象的位置信息标签；根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，调整待训练对象检测模型的网络参数的步骤，包括：根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度、对象类别标签、候选区域的位置信息以及位置信息标签，调整待训练对象检测模型的网络参数。

具体地，服务器根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签获取待训练对象检测模型的目标类别预测损失值，同时，根据位置信息标签获取目标对象实际所在区域，进而根据待训练对象检测模型输出的目标对象在样本图像中所在候选区域与目标对象实际所在区域间的区域位置差异，获取待训练对象检测模型的第一区域位置损失值；然后，根据目标类别预测损失值以及第一区域位置损失值，对待训练对象检测模型的网络参数进行调整。

其中，根据目标类别预测损失值以及第一区域位置损失值，对待训练对象检测模型的网络参数进行调整，具体可以是将目标类别预测损失值以及第一区域位置损失值进行加权计算，得到待训练对象检测模型的目标损失值，或者可以是将目标类别预测损失值以及第一区域位置损失值进行均值计算，得到待训练对象检测模型的目标损失值。进而，根据目标损失值对对待训练对象检测模型的网络参数进行调整，直至满足收敛条件，得到完成训练的目标对象检测模型。其中，收敛条件可根据实际需要进行调整或设置，例如，当目标损失值达到最小时，则可认为满足收敛条件；或者当目标损失值不再发生变化时，则可认为满足收敛条件；或者当通过预设数量的样本图像对待训练对象检测模型进行训练后，可以认为满足收敛条件。

进一步地，还可以通过待训练模型输出的候选区域预测为前景候选区域还是为背景候选区域，与该候选区域实际为前景区域还是为背景区域之间的差异，获取待训练对象检测模型的第二区域位置损失值。具体地，当候选区域与目标对象实际所在区域之间的重叠区域的面积，与目标对象实际所在区域的面积之间的比值大于或者等于预设阈值时，则该候选区域实际为前景区域，反之，若该比值小于预设阈值，则该候选区域实际为背景区域。进而，可以根据目标类别预测损失值、第一区域位置损失值以及第二区域位置损失值，对待训练对象检测模型的网络参数进行调整。

在一个实施例中，如图6所示，通过待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各对象类别的初始置信度的步骤，包括：

步骤S602，通过待训练对象检测模型提取样本图像的全局特征图；

步骤S604，根据全局图像特征，预测目标对象所在的候选区域；

步骤S606，根据候选区域，获取各候选区域中目标对象对应各个对象类别的初始置信度。

其中，全局特征图为整个样本图像对应的图像特征信息，其中包括与目标对象相关的对象位置、种类等特征信息参数。如上所述，待训练对象检测模型可以包括但不限于特征提取网络、区域生成网络以及分类器；利用待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各个对象类别的初始置信度，具体可以是将样本图像输入至待训练对象检测模型中，通过待训练对象检测模型的特征提取网络提取样本图像的全局特征图；然后，将全局特征图输入至区域生成网络中，通过区域生成网络预测可能包含目标对象的候选区域；最后，通过分类器预测各个候选区域中所包含的目标对象属于各个对象类别的初始置信度。

进一步地，在一个实施例中，步骤S606根据候选区域，获取各候选区域中目标对象对应各个对象类别的初始置信度，包括：从全局特征图中，获取各候选区域对应的局部特征图；根据各候选区域的局部特征图，获取各候选区域中目标对象对应各个对象类别的初始置信度。

其中，一个候选区域对应于一个局部图像特征，候选区域为样本图像中的部分图像区域，因此，局部特征图是候选区域在样本图像中对应图像区域中的图像特征信息。具体地，在预测到目标对象所在的候选区域后，可以根据候选区域的区域位置，从全局图像特征中对应的区域位置获取候选区域对应的局部特征图，并将候选区域对应的局部特征图输入到分类器中，分类器根据所获取到的每个局部特征图识别候选区域中的目标对象属于各个对象类型的初始预测置信度。

在一个实施例中，一种对象检测模型的训练方法，包括：

1.获取样本图像，所述样本图像包括在样本图像中目标对象的对象类别标签。

2.通过待训练对象检测模型，获取在所述样本图像中所述目标对象所在的候选区域，以及各所述候选区域中目标对象对应各对象类别的初始置信度；所述待训练对象检测模型用于检测所述样本图像中的目标对象。

2-1.通过所述待训练对象检测模型提取所述样本图像的全局特征图。

2-2.根据所述全局图像特征，预测所述目标对象所在的候选区域。

2-3.根据所述候选区域，获取各所述候选区域中目标对象对应各个对象类别的初始置信度。

2-3-1.从所述全局特征图中，获取各所述候选区域对应的局部特征图。

2-3-2.根据各所述候选区域的局部特征图，获取各所述候选区域中目标对象对应各个对象类别的初始置信度。

3.根据各所述候选区域中目标对象对应各所述对象类别的初始置信度与所述样本图像的图像数据间的梯度信息，获取所述待训练对象检测模型针对所述样本图像的关注度响应图。

3-1.根据各所述候选区域中目标对象对应的对象类别的初始置信度，获取所述候选区域中所述前景对象类别的总置信度以及所述背景对象类别的总置信度。

3-2根据所述前景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，获取前景对象的关注度响应图。

3-3根据所述背景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，获取背景对象的关注度响应图。

4、从所述关注度响应图中获取各所述候选区域的关注度响应值，根据各所述候选区域的所述关注度响应值、各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，调整所述待训练对象检测模型的网络参数，重复上述步骤，直至满足收敛条件，得到目标对象检测模型。

4-1.将各所述候选区域中具有最高数值的初始置信度的对象类型，分别确定为各所述候选区域中目标对象的预测对象类别。

4-2.根据各所述候选区域中目标对象的预测对象类别，确定各所述候选区域的区域类别，所述区域类别包括前景候选区域以及背景候选区域。

4-3.从所述区域类别对应的关注度响应图中获取各所述候选区域的关注度响应值。具体地，当候选区域的区域类别为背景候选区域，从背景关注度响应图中获取该候选区域的关注度响应值；当候选区域的区域类别为前景候选区域，从前景关注度响应图中获取该候选区域的关注度响应值。

4-3-1.从所述关注度响应图中，获取所述候选区域上各个像素点对应的关注度响应值；

4-3-2.将所述候选区域上像素点的关注度响应值间的均值，确定为所述候选区域的关注度响应值。

4-4.根据各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，获取各所述候选区域对应的类别预测损失值。

4-5.根据各所述候选区域的所述关注度响应值，获取各所述候选区域的损失权重值。

4-6.根据各所述候选区域的损失权重值以及类别预测损失值，获取所述待训练对象检测模型的目标类别预测损失值；

4-7.根据所述待训练对象检测模型的目标类别预测损失值调整所述待训练对象检测模型的网络参数。

结合图7a以及图7b所示，图7a为一个实施例中对象检测模型的训练方法的原理示意图。如图7a所示，图像702为待训练对象检测模型的输入图像，也是样本图像，图像702中包括目标对象，以及目标对象的对象类别标签。待训练检测模型中可以包括特征提取网络704和网络706，其中，网络706中包括区域生成网络和分类器。首先，服务器可以将图像702输入特征提取网络704中，通过特征提取网络704对图像702进行特征提取，得到图像702的全局特征图。区域生成网络获取到图像702的全局图像特征后，生成多个候选区域，其中候选区域是在样本图像中可能包含目标对象的区域。区域生成网络在获取到多个候选区域后，从全局特征图中获取候选区域对应的局部特征图输入至分类器中，分类器根据各个候选区域的局部特征图，分别预测各个候选区域中目标对象属于各个对象类别的置信度，得到模型输出结果708，其中模型输出结果708可以是一个矩阵。如图7a所示，模型输出结果708包括有候选区域中目标对象属于各个对象类别的置信度，例如，模型输出结果708包括s_man、s_plane、s_car以及s_bg等，s_man表示候选区域中目标对象属于类别“人”的置信度，s_plane表示候选区域中目标对象属于类别“飞机”的置信度，s_car表示候选区域中目标对象属于类别“车辆”的置信度，s_bg表示候选区域中目标对象不属于类别“车辆”、类别“飞机”类别“车辆”中任意对象类别的置信度。如图7b所示，区域生成网络获取到图像702的全局图像特征后，生成三个候选区域，分别为候选区域a、候选区域c以及候选区域d，其中，候选区域a对应的模型输出结果为s_man等于0.1、s_plane等于0.05、s_car等于0.55以及s_bg等于0.3，候选区域b对应的模型输出结果为s_man等于0.3、s_plane等于0.2、s_car等于0.1以及s_bg等于0.4，候选区域c对应的模型输出结果为s_man等于0.5、s_plane等于0.3、s_car等于0.1以及s_bg等于0.1。此时，候选区域a中的目标对象的对象类别确定为“车辆”类别，候选区域a为前景候选区域，候选区域b中的目标对象的对象类别确定为背景对象类别，候选区域b为背景候选区域，候选区域c中的目标对象的对象类别确定为“人”类别，候选区域c为背景候选区域。

然后，服务器可以根据模型输出结果708获取所有的候选区域的前景对象类别的总置信度s_fg以及背景对象类别的总置信度s_bg，并将前景对象类别的总置信度s_fg以及背景对象类别的总置信度s_bg分别反向传播至区域生成网络，以将前景对象类别的总置信度s_fg对全局特征图求偏导，获取所述前景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，以及将背景对象类别的总置信度s_bg对全局特征图的求偏导，获取所述背景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，最终得到前景对象的关注度响应图710以及背景对象的关注度响应图712。如图7b所示，在候选区域a中，前景对象类别的置信度等于0.7，背景对象类别的置信度等于0.3；在候选区域b中，前景对象类别的置信度等于0.6，背景对象类别的置信度等于0.4；在候选区域c中，前景对象类别的置信度等于0.9，背景对象类别的置信度等于0.1；此时，所有的候选区域的前景对象类别的总置信度s_fg等于2.2，背景对象类别的总置信度s_bg等于0.8。

具体地，将前景对象类别的总置信度s_fg对全局特征图的求偏导，获取所述前景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，可通过下述公式(2)计算：

而将背景对象类别的总置信度s_bg对全局特征图的求偏导，获取背景对象类别的总置信度与样本图像的图像数据间的梯度信息，可通过下述公式(3)计算：

进而，服务器从模型输出结果708中，确定具有最高数值的初始置信度的对象类别，并将该对象类别确定为候选区域中目标对象的预测对象类别，根据候选区域中目标对象的预测对象类别确定候选区域的区域类别，并从区域类别对应的关注度响应图中，获取候选区域对应的关注度响应值。如图7b所示的候选区域a、候选区域c以及候选区域d，候选区域a中的目标对象的对象类别确定为“车辆”类别，候选区域a为前景候选区域，候选区域b中的目标对象的对象类别确定为背景对象类别，候选区域b为背景候选区域，候选区域c中的目标对象的对象类别确定为“人”类别，候选区域c为背景候选区域。因此，对于候选区域a以及候选区域c的关注度响应值，是从前景关注度响应图中获取的，对于候选区域b的关注度响应值，是从背景关注度响应图中获取的。

在获取到各个候选区域对应的关注度响应值后，根据各个关注度响应值对应获取各个候选区域的损失权重值，进而根据损失权重值调整各个候选区域的类别预测损失值，实现增加属于目标对象所在区域的候选区域的损失函数的权值，减小属于背景对象所在区域的候选区域的损失函数的权值；进而，利用调整后的损失值监督待训练对象检测模型对样本图像的学习过程，调整待训练对象检测模型的网络参数，使得待训练对象检测模型可以将更多的关注度放在样本图像中的目标对象所在的区域上，实现更加充分地学习到样本图像中的目标对象所在区域的图像特征，以提高待训练对象检测模型的检测性能。

本申请可以获取样本图像，样本图像包括在样本图像中目标对象的对象类别标签；通过待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各对象类别的初始置信度；待训练对象检测模型用于检测样本图像中的目标对象；根据各候选区域中目标对象对应各对象类别的初始置信度以及样本图像的图像数据间的梯度信息，获取待训练对象检测模型针对样本图像的关注度响应图；从关注度响应图中获取各候选区域的关注度响应值，根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，调整待训练对象检测模型的网络参数，继续训练直至得到目标对象检测模型。通过获取待训练对象检测模型对样本图像的关注度响应图，并根据关注度响应图获取各个候选框的关注度响应值，动态调整前景对象以及背景对象的损失函数权值，平衡样本图像中前景对象(正样本)、背景对象(负样本)对损失函数的贡献大小，提高识别目标对象的所在位置或对象类别的准确性。

在一个实施例中，如图8所示，一种对象检测方法，包括：

步骤S802，获取待检测图像。

步骤S804，通过预先构建的目标对象检测模型获取待检测图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各个对象类别的初始置信度；其中，目标对象检测模型为根据样本图像中的候选区域的关注度响应值、候选区域中目标对象对应各个对象类别的初始置信度以及样本图像中目标对象的对象类别标签，对待训练对象检测模型的网络参数进行调整后所得到目标对象检测模型；样本图像的候选区域以及候选区域中目标对象对应各个对象类别的初始置信度是利用待训练对象检测模型获取的。

步骤S806，根据各候选区域中目标对象对应各个对象类别的初始置信度，获取候选区域中目标对象的目标对象类别。

步骤S808，输出待检测图像中目标对象所在的候选区域的区域位置信息以及目标对象类别。

其中，待检测图像可以是通过相机拍摄的照片、通过截屏从视频中截取的图片或者是通过可上传图像的应用程序上传的图像等。其中待检测图像中包括目标对象，目标对象是指待检侧图像中需要检测出来的对象。

具体地，在获取到待检测图像后，服务器将待检测图像输入至目标对象检测模型，通过目标对象检测模型获取目标对象所在的候选区域，以及各所述候选区域中目标对象对应各个对象类别的初始置信度。其中，目标对象检测模型可以是通过上述任意一个实施例中的对象检测模型的训练方法获得的。在获取到候选区域中目标对象对应各个对象类别的初始置信度后，将具有最大值的初始置信度的对象类别确定为候选区域中目标对象的目标对象类别，最后，输出候选区域的区域位置信息以及候选区域中目标对象的目标对象类别。

在一个实施例中，对象检测方法还包括：根据所述待检测图像中目标对象所在的候选区域的区域位置信息，获取移动路线信息；将所述移动路线信息发送至行驶设备，所述行驶路线信息用于指示所述行驶设备根据所述移动路线信息对应的移动路线进行移动。

其中，候选区域可以是矩形区域，区域位置信息可以是该矩形区域在待检测图像中的4个矩形顶角的坐标信息。行驶设备是指可以进行移动的设备，例如巡检机器人、自动驾驶车辆、无人机等。

具体地，对象检测模型可以输出待检测图像中目标对象所在的候选区域的区域位置信息，在获取到候选区域的区域位置信息后，根据该区域位置信息更新行驶设备的移动路线，生成移动路线信息并发送至行驶设备中，行驶设备获取到移动路线信息后，根据路线信息对应的移动路线进行移动。可以理解的是，移动路线信息为绕开目标对象的路线信息，用于指示行驶设备进行移动并避开目标对象。

例如，以对象检测方法应用于自动驾驶车辆中，自动驾驶车辆上设置有用于拍摄行驶道路的图像的摄像设备，在通过摄像设备获取到实时的道路图像(即待检测图像)后，将道路图像输入至目标对象检测模型中，通过目标对象检测模型获取道路图像中障碍物(即目标对象)的候选区域，此外还可以获取道路图像中障碍物的对象类别。在获取到道路图像中障碍物的候选区域的区域位置信息后，根据该区域位置信息计算出障碍无在行驶道路上的空间位置，进而根据障碍物的空间位置更新行驶路线信息(即移动路线信息)，指示自动驾驶车辆继续按照行驶路线行驶并避开障碍物。

应该理解的是，虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图6的流程中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种对象检测模型的训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：样本图像获取模块、图像处理模块、响应图获取模块和响应值获取模块，其中：

样本图像获取模块902，用于获取样本图像，样本图像包括在样本图像中目标对象的对象类别标签；目标对象为待检测物体；

图像处理模块904，用于通过待训练对象检测模型，获取在样本图像中目标对象所在的候选区域，以及各候选区域中目标对象对应各对象类别的初始置信度；待训练对象检测模型用于检测样本图像中的目标对象；

响应图获取模块906，用于根据各候选区域中目标对象对应各对象类别的初始置信度与样本图像的图像数据间的梯度信息，获取待训练对象检测模型针对样本图像的关注度响应图；

响应值获取模块908，用于从关注度响应图中获取各候选区域的关注度响应值，根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，调整待训练对象检测模型的网络参数，重复上述步骤，直至满足收敛条件，得到目标对象检测模型。

在一个实施例中，对象类别包括前景对象类别以及背景对象类别；候选区域中目标对象对应的对象类别置信度包括前景对象类别置信度以及背景对象类别置信度；响应图获取模块，用于根据各候选区域中目标对象对应的对象类别的初始置信度，获取候选区域中前景对象类别的总置信度以及背景对象类别的总置信度；根据前景对象类别的总置信度与样本图像的图像数据间的梯度信息，获取前景对象的关注度响应图；根据背景对象类别的总置信度与样本图像的图像数据间的梯度信息，获取背景对象的关注度响应图。

在一个实施例中，响应值获取模块，用于将各候选区域中具有最高数值的初始置信度的对象类型，分别确定为各候选区域中目标对象的预测对象类别；根据各候选区域中目标对象的预测对象类别，确定各候选区域的区域类别，区域类别包括前景候选区域以及背景候选区域；从区域类别对应的关注度响应图中获取各候选区域的关注度响应值。

在一个实施例中，响应值获取模块，具体用于从关注度响应图中，获取候选区域上各个像素点对应的关注度响应值；将候选区域上像素点的关注度响应值间的均值，确定为候选区域的关注度响应值。

在一个实施例中，响应值获取模块，具体用于根据各候选区域中目标对象对应各个对象类别的初始置信度以及对象类别标签，获取各候选区域对应的类别预测损失值；根据各候选区域的关注度响应值，获取各候选区域的损失权重值；根据各候选区域的损失权重值以及类别预测损失值，获取待训练对象检测模型的目标类别预测损失值；根据待训练对象检测模型的目标类别预测损失值调整待训练对象检测模型的网络参数。

在一个实施例中，样本图像还包括在样本图像中目标对象的位置信息标签；响应值获取模块，具体用于根据各候选区域的关注度响应值、各候选区域中目标对象对应各个对象类别的初始置信度、对象类别标签、候选区域的位置信息以及位置信息标签，调整待训练对象检测模型的网络参数。

在一个实施例中，图像处理模块，用于通过待训练对象检测模型提取样本图像的全局特征图；根据全局图像特征，预测目标对象所在的候选区域；根据候选区域，获取各候选区域中目标对象对应各个对象类别的初始置信度。

在一个实施例中，图像处理模块，具体用于从全局特征图中，获取各候选区域对应的局部特征图；根据各候选区域的局部特征图，获取各候选区域中目标对象对应各个对象类别的初始置信度。

关于对象检测模型的训练装置的具体限定可以参见上文中对于对象检测模型的训练方法的限定，在此不再赘述。上述对象检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图10所示，提供了一种对象检测装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：图像获取模块、候选区域获取模块、对象类别获取模块以及对象信息输出模块，

图像获取模块1002，用于获取待检测图像；

候选区域获取模块1004，用于通过预先构建的目标对象检测模型获取所述待检测图像中目标对象所在的候选区域，以及各所述候选区域中目标对象对应各个对象类别的初始置信度；其中，所述目标对象检测模型为根据样本图像中的候选区域的关注度响应值、候选区域中目标对象对应各个对象类别的初始置信度以及所述样本图像中目标对象的对象类别标签，对待训练对象检测模型的网络参数进行调整后所得到目标对象检测模型；所述样本图像的候选区域以及候选区域中目标对象对应各个对象类别的初始置信度是通过所述待训练对象检测模型获取的；所述关注度响应值是从根据各所述候选区域中目标对象对应各所述对象类别的初始置信度与所述样本图像的图像数据间的梯度信息所获取的关注度响应图中获取的；

对象类别获取模块1006，用于根据各所述候选区域中目标对象对应各个对象类别的初始置信度，获取所述候选区域中目标对象的目标对象类别；

对象信息输出模块1008，用于输出所述待检测图像中目标对象所在的候选区域的区域位置信息以及目标对象类别。

在一个实施例中，对象检测装置还包括移动路线获取模块，用于根据所述待检测图像中目标对象所在的候选区域的区域位置信息，获取移动路线信息；将所述移动路线信息发送至行驶设备，所述行驶路线信息用于指示所述行驶设备根据所述移动路线信息对应的移动路线进行移动。

关于对象检测装置的具体限定可以参见上文中对于对象检测方法的限定，在此不再赘述。上述对象检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象检测模型的网络参数等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象检测模型的训练方法或一种对象检测方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对象检测模型的训练方法，所述方法包括：

获取样本图像，所述样本图像包括在样本图像中目标对象的对象类别标签，所述目标对象为待检测物体；

2.根据权利要求1所述的方法，其特征在于，所述对象类别包括前景对象类别以及背景对象类别；所述候选区域中目标对象对应的对象类别置信度包括前景对象类别置信度以及背景对象类别置信度；

所述根据各所述候选区域中目标对象对应各所述对象类别的初始置信度与所述样本图像的图像数据间的梯度信息，获取所述待训练对象检测模型针对所述样本图像的关注度响应图的步骤，包括：

根据各所述候选区域中目标对象对应的对象类别的初始置信度，获取所述候选区域中所述前景对象类别的总置信度以及所述背景对象类别的总置信度；

根据所述前景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，获取前景对象的关注度响应图；

根据所述背景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，获取背景对象的关注度响应图。

3.根据权利要求1所述的方法，其特征在于，所述从所述关注度响应图中获取各所述候选区域的关注度响应值的步骤，包括：

将各所述候选区域中具有最高数值的初始置信度的对象类型，分别确定为各所述候选区域中目标对象的预测对象类别；

根据各所述候选区域中目标对象的预测对象类别，确定各所述候选区域的区域类别，所述区域类别包括前景候选区域以及背景候选区域；

从所述区域类别对应的关注度响应图中获取各所述候选区域的关注度响应值。

4.根据权利要求1所述的方法，其特征在于，所述从所述关注度响应图中获取各所述候选区域的关注度响应值的步骤，包括：

从所述关注度响应图中，获取所述候选区域上各个像素点对应的关注度响应值；

将所述候选区域上像素点的关注度响应值间的均值，确定为所述候选区域的关注度响应值。

5.根据权利要求1所述的方法，其特征在于，所述根据各所述候选区域的所述关注度响应值、各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，调整所述待训练对象检测模型的网络参数的步骤，包括：

根据各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，获取各所述候选区域对应的类别预测损失值；

根据各所述候选区域的所述关注度响应值，获取各所述候选区域的损失权重值；

根据各所述候选区域的损失权重值以及类别预测损失值，获取所述待训练对象检测模型的目标类别预测损失值；

根据所述待训练对象检测模型的目标类别预测损失值调整所述待训练对象检测模型的网络参数。

6.根据权利要求1所述的方法，其特征在于，所述样本图像还包括在样本图像中目标对象的位置信息标签；

根据各所述候选区域的所述关注度响应值、各所述候选区域中目标对象对应各个对象类别的初始置信度以及所述对象类别标签，调整所述待训练对象检测模型的网络参数的步骤，包括：

根据各所述候选区域的所述关注度响应值、各所述候选区域中目标对象对应各个对象类别的初始置信度、所述对象类别标签、所述候选区域的位置信息以及所述位置信息标签，调整所述待训练对象检测模型的网络参数。

7.根据权利要求1所述的方法，其特征在于，所述通过待训练对象检测模型，获取在所述样本图像中所述目标对象所在的候选区域，以及各所述候选区域中目标对象对应各对象类别的初始置信度的步骤，包括：

通过所述待训练对象检测模型提取所述样本图像的全局特征图；

根据所述全局图像特征，预测所述目标对象所在的候选区域；

根据所述候选区域，获取各所述候选区域中目标对象对应各个对象类别的初始置信度。

8.根据权利要求7所述的方法，其特征在于，所述根据所述候选区域，获取各所述候选区域中目标对象对应各个对象类别的初始置信度的步骤，包括：

从所述全局特征图中，获取各所述候选区域对应的局部特征图；

根据各所述候选区域的局部特征图，获取各所述候选区域中目标对象对应各个对象类别的初始置信度。

9.一种对象检测方法，其特征在于，包括：

获取待检测图像；

10.根据权利要求9任意一项所述的方法，其特征在于，所述方法还包括：

根据所述待检测图像中目标对象所在的候选区域的区域位置信息，获取移动路线信息；

将所述移动路线信息发送至行驶设备，所述行驶路线信息用于指示所述行驶设备根据所述移动路线信息对应的移动路线进行移动。

11.一种对象检测模型的训练装置，其特征在于，所述装置包括：

12.根据权利要求11所述对象检测模型的训练装置，其特征在于，所述对象类别包括前景对象类别以及背景对象类别；所述候选区域中目标对象对应的对象类别置信度包括前景对象类别置信度以及背景对象类别置信度；

所述响应图获取模块，用于根据各所述候选区域中目标对象对应的对象类别的初始置信度，获取所述前景对象类别的总置信度以及所述背景对象类别的总置信度；根据所述前景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，获取前景对象的关注度响应图；根据所述背景对象类别的总置信度与所述样本图像的图像数据间的梯度信息，获取背景对象的关注度响应图。

13.一种对象检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。