CN113269267B

CN113269267B - 目标检测模型的训练方法、目标检测方法和装置

Info

Publication number: CN113269267B
Application number: CN202110663377.5A
Authority: CN
Inventors: 沈蓓; 韦松; 张兵; 李瑛�
Original assignee: Suzhou Zhitu Technology Co Ltd
Current assignee: Suzhou Zhitu Technology Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2024-04-26
Anticipated expiration: 2041-06-15
Also published as: CN113269267A

Abstract

本发明提供了一种目标检测模型的训练方法、目标检测方法和装置，获取第一图像、第二图像和中间模型；将第二图像输入中间模型，输出指定目标对象的第一预测结果；将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，基于得到的合成图像，以及第一图像训练中间模型，得到目标检测模型。该方式中的合成图像是基于第二图像中指定目标对象对应的第二子图像区域，与第一图像中除第一目标对象的第一子图像区域合并得到，即合成图像中的指定目标对象都是第二图像中已经检测出的目标对象，因此，在合成图像中不存在漏检目标，提升了合成图像所携带的标签质量，进而提升了最终训练完成的目标检测模型的性能。

Description

目标检测模型的训练方法、目标检测方法和装置

技术领域

本发明涉及神经网络技术领域，尤其是涉及一种目标检测模型的训练方法、目标检测方法和装置。

背景技术

在图像处理中，通过目标检测可以检测出图像中的感兴趣目标，并确定这些目标的在图像中的位置和所属类别，相关技术中，可以采用半监督学习的方式进行目标检测，而在半监督学习中通常会采用伪标签技术，即先基于少量有标签图像初步训练半监督模型，再基于该初步训练好的半监督模型生成无标签图像中感兴趣目标的伪标签，最后基于得到伪标签的无标签图像继续对初步训练好的半监督模型进行训练，得到最终训练完成的半监督模型，由于伪标签是通过模型预测得到，可能会出现漏检感兴趣目标的问题，对于漏检的感兴趣目标，无法预测到相应的伪标签；从而无法得到无标签图像中全部感兴趣目标的伪标签，影响了伪标签的质量，基于这些质量较差的伪标签训练半监督模型，难以保证训练完成的半监督模型的性能。

发明内容

本发明的目的在于提供一种目标检测模型的训练方法、目标检测方法和装置，以提高最终训练完成的半监督模型的性能。

本发明提供的一种目标检测模型的训练方法，方法包括：获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，第一图像携带有第一目标对象的位置标签和类别标签；第二图像未携带第二目标对象的位置标签和类别标签；中间模型基于第一图像预先训练得到；将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；其中，第一预测结果包括指定目标对象的类别预测结果和位置预测结果；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；其中，合成图像携带有指定目标对象的类别预测结果，以及指定目标对象在合成图像中对应的位置标签；基于第一图像和合成图像，训练中间模型，得到目标检测模型。

进一步的，中间模型通过下述方式训练得到：对第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中，以通过初始模型输出增强处理后的第一图像中，第一目标对象的第二预测结果，其中，第二预测结果包括：第一目标对象的位置信息和类别信息；基于第二预测结果，以及预设的第一损失函数，计算第一目标对象的第二预测结果的第一损失值；基于第一损失值更新初始模型的权重参数；继续执行对第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中的步骤，直至初始模型收敛，得到中间模型。

进一步的，第二图像中包括多个第二目标对象；将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果的步骤包括：将第二图像输入至中间模型中，以通过中间模型输出第二图像中，每个第二目标对象的第三预测结果；其中，第三预测结果包括：每个第二目标对象的位置预测结果、类别预测结果和置信度；从第三预测结果中，删除置信度小于预设置信度阈值的预测结果，得到第二图像中指定目标对象的第一预测结果。

进一步的，基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像的步骤包括：针对第一图像中的每个第一目标对象，获取该第一目标对象对应的像素区域的像素值均值；基于像素值均值替换该第一目标对象的像素区域，得到替换图像；其中，替换图像包括：第一图像中除第一目标对象的第一子图像区域，以及每个第一目标对象的位置标签和类别标签；基于第二图像中指定目标对象的第一预测结果，获取指定目标对象对应的第二子图像区域；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将第二子图像区域合并至替换图像，得到合成图像。

进一步的，第二图像中包括多个指定目标对象，每个指定目标对象具有对应的第二子图像区域；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将第二子图像区域合并至替换图像，得到合成图像的步骤包括：针对当前第二子图像区域，基于第一目标对象的类别标签和当前第二子图像区域对应的类别预测结果，判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置；如果替换图像中存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将当前第二子图像区域放置在目标位置；保存目标位置的位置标签，以及当前第二子图像区域的类别预测结果；如果替换图像中不存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将下一个第二子图像区域作为新的当前第二子图像区域，继续执行基于第一目标对象的类别标签和当前第二子图像区域对应的类别预测结果，判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至第二图像中的多个第二子图像区域遍历完成，得到合成图像。

进一步的，如果替换图像中存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将当前第二子图像区域放置在目标位置的步骤包括：如果替换图像中存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，判断当前第二子图像区域的区域大小是否超出替换图像的边界区域；如果当前第二子图像区域的区域大小未超出替换图像的边界区域，将当前第二子图像区域放置在目标位置；如果当前第二子图像区域的大小超出替换图像的边界区域，继续执行判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至将当前第二子图像区域放置在目标位置。

进一步的，基于第一图像和合成图像，训练中间模型，得到目标检测模型的步骤包括：对第一图像和合成图像分别进行数据增强处理，将增强处理后的第一图像和合成图像输入至中间模型，以通过中间模型输出增强处理后的第一图像中，第一目标对象的第四预测结果，以及输出增强处理后的合成图像中，指定目标对象的第五预测结果；其中，第四预测结果包括第一目标对象的位置预测信息和类别预测信息；第五预测结果包括指定目标对象的位置预测信息和类别预测信息；基于第四预测结果和第五预测结果，以及预设的第二损失函数，计算第二损失值；基于第二损失值更新中间模型的权重参数；继续执行对第一图像和合成图像分别进行数据增强处理的步骤，直至中间模型收敛，得到目标检测模型。

本发明提供的一种目标检测方法，方法包括：获取包含待检测目标的图像；将图像输入至预先训练好的目标检测模型中，输出待检测目标的检测结果；其中，检测结果包括待检测目标的所属类别和位置坐标；预先训练好的目标检测模型通过上述目标检测模型的训练方法训练得到。

进一步的，目标检测模型包括：特征提取模块、区域生成模块和定位分类模块；将图像输入至预先训练好的目标检测模型中，输出待检测目标的检测结果的步骤包括：将图像输入至特征提取模块，以通过特征提取模块输出待检测目标的目标特征；将目标特征输入至区域生成模块，以通过区域生成模块输出包含待检测目标的候选框；将目标特征和候选框输入至定位分类模块，以通过定位分类模块输出待检测目标的类别和位置坐标。

本发明提供的一种目标检测模型的训练装置，装置包括：第一获取模块，用于获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，第一图像携带有第一目标对象的位置标签和类别标签；第二图像未携带第二目标对象的位置标签和类别标签；中间模型基于第一图像预先训练得到；第一输出模块，用于将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；其中，第一预测结果包括指定目标对象的类别预测结果和位置预测结果；合并模块，用于基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；其中，合成图像携带有指定目标对象的类别预测结果，以及指定目标对象在合成图像中对应的位置标签；训练模块，用于基于第一图像和合成图像，训练中间模型，得到目标检测模型。

本发明提供的一种目标检测装置，装置包括：第二获取模块，用于获取包含待检测目标的图像；第二输出模块，用于将图像输入至预先训练好的目标检测模型中，输出待检测目标的检测结果；其中，检测结果包括待检测目标的所属类别和位置坐标；预先训练好的目标检测模型通过目标检测模型的训练装置训练得到。

本发明提供的一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述目标检测模型的训练方法，或上述的目标检测方法。

本发明提供的一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述目标检测模型的训练方法，或上述目标检测方法。

本发明提供的目标检测模型的训练方法、目标检测方法和装置，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；基于第一图像和合成图像，训练中间模型，得到目标检测模型。该方式中的合成图像是基于第二图像中指定目标对象对应的第二子图像区域，与第一图像中除第一目标对象的第一子图像区域合并得到，即合成图像中的指定目标对象都是第二图像中已经检测出的目标对象，因此，在合成图像中不存在漏检目标，提升了合成图像所携带的标签质量，进而提升了最终训练完成的目标检测模型的性能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标检测模型的训练方法的流程图；

图2为本发明实施例提供的另一种目标检测模型的训练方法的流程图；

图3为本发明实施例提供的另一种目标检测模型的训练方法的流程图；

图4为本发明实施例提供的一种目标检测方法的流程图；

图5为本发明实施例提供的一种基于伪标签改进的两阶段的半监督目标检测方法的流程示意图；

图6为本发明实施例提供的一种合成图像和伪标签改进的流程示意图；

图7为本发明实施例提供的一种合成图像示意图；

图8为本发明实施例提供的一种目标检测模型的训练装置的结构示意图；

图9为本发明实施例提供的一种目标检测装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，用于目标检测的深度学习模型展现出了强大的优越性能，这得益于大规模有标签的数据集和充足的计算资源，但是这种有监督学习的目标检测算法很大程度上依赖于有标签数据集的规模，而对数据标注标签的经济成本和时间成本都很高。半监督学习使用未标记的训练数据来改进检测器，可以大大降低标注成本；当前半监督学习主要应用于图像分类任务，与计算机视觉中其他重要问题相比，如与目标检测相比，图像分类任务的标注成本很低，主要是由于图像分类任务中一张图像中通常只有一个目标对象，而且不用对目标对象进行定位，而目标检测任务中，一张图像通常有多个待检测目标对象，并且需要对多个待检测目标对象进行定位，因此目标检测任务的半监督学习具有更高的实际应用价值。

数据增强对于半监督学***移，翻转或颜色抖动)到神经图像合成和通过强化学习学到的组合策略等。然而，适用于目标检测的数据增强的复杂性远高于图像分类，例如，对数据的全局几何变换会影响边界框的标注数据，因此，应用于图像分类中的数据增强方法对目标检测算法的适应性较差。

此外，使用伪标签也是半监督学***衡，比如，对有的类别检测比较好，有的类别检测不到，就会导致类别不平衡；还可能存在定位不准的问题，导致伪标签质量较差，进而导致多次迭代后模型的偏差性很大。另外，在半监督学***衡，从而影响最终训练完成的半监督模型的性能。

相关技术中，应用于目标检测的数据增强方法主要包括以下几种，比如，可以在传统数据增强方法中加入三维变化、镜头畸变和光照变化三个要素，实现对目标检测的数据增强，但是这种数据增强方式对目标检测任务的效果很有限，而且对于复杂场景会增加模型学习难度；还有采用红外图像数据的增强方法，利用图像转换生成所需图像，通过构建生成对抗网络作为红外图像生成器，将输入的彩色图像从彩色域转换至红外域，当该方式只解决了红外图像的数据不充分问题，而且生成对抗网络训练复杂且收敛困难。另外，还有的数据增强方法采用了掩膜方式的粘贴，但该方式中粘贴的位置会出现不合常理的问题，且没有应用在半监督方法中。还有的半监督方法中使用了伪标签方法以及翻转和剪切的数据增强，但翻转和剪切的数据增强对目标检测模型效果的提升很有限。

基于此，本发明实施例提供了一种目标检测模型的训练方法、目标检测方法和装置，该技术可以应用于对图像的目标检测应用中，尤其可以应用于对用于目标检测的半监督模型的训练中。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种目标检测模型的训练方法进行详细介绍；如图1所示，该方法包括如下步骤：

步骤S102，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，第一图像携带有第一目标对象的位置标签和类别标签；第二图像未携带第二目标对象的位置标签和类别标签；中间模型基于第一图像预先训练得到。

上述第一图像和第二图像可以是从预设的训练样本集中获取到的样本图像，比如，可以从cityscapes目标检测数据集中选取第一图像和第二图像，cityscapes目标检测数据集拥有5000张在城市环境中驾驶场景的图像，该数据集的每张图像中通常包括多种类别的目标，比如，包括车辆、行人、交通信号灯等；可以将该cityscapes目标检测数据集中的训练集随机划分出10％的数据集，并对这10％的数据集中的第一目标对象标注位置标签和类别标签，作为第一图像的集合，即有标签数据集，训练集中剩下的90％的数据集作为第二图像的集合，作为无标签数据集，第二图像未携带所包含的第二目标对象的位置标签和类别标签；该第一图像和第二图像也可以从不同的训练样本集中分别获取；上述第一目标对象可以是第一图像中的感兴趣目标，上述第二目标对象可以是第二图像中的感兴趣目标；该第一目标对象的数量可以有多个，第二目标对象的数量也可以有多个；上述位置标签用于指示第一目标对象在第一图像中的位置区域，该位置标签可以以位置坐标的形式表示；上述类别标签用于指示第一目标对象的所属类别，如所属类别可以是小汽车、公交车、行人、自行车或卡车等；上述中间模型也可以称为有监督的目标检测模型，该中间模型可以基于第一图像，即有标签图像预先训练得到。在实际实现时，当需要训练目标检测模型时，通常需要先获取包含第一目标对象的第一图像；包含第二目标对象的第二图像，以及中间模型。

步骤S104，将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；其中，第一预测结果包括指定目标对象的类别预测结果和位置预测结果。

上述指定目标对象可能是第二图像中的至少一部分第二目标对象，也可能是全部的第二目标对象；上述类别预测结果可以用于预测指定目标对象的所属类别，上述位置预测结果可以用于预测指定目标对象在第二图像中的位置区域；在实际实现时，当基于第一图像，即有标签图像训练得到中间模型后，可以将第二图像，即无标签图像输入至该中间模型，以输出该第二图像中指定目标对象的类别预测结果和位置预测结果；该指定目标对象的类别预测结果和位置预测结果的置信度通常相对较高。

步骤S106，基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；其中，合成图像携带有指定目标对象的类别预测结果，以及指定目标对象在合成图像中对应的位置标签。

上述第二子图像区域可以理解为指定目标对象在第二图像中所占用的图像区域范围；上述第一子图像区域可以理解为第一图像中除第一目标对象外的背景图像区域；在实际实现时，可以基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像，比如，可以根据指定目标对象的第一预测结果中的类别预测结果，从第一图像中选择属于同一类别的第一目标对象的位置，将该指定目标对象填入所选择的第一目标对象的位置等；所得到的合成图像通常携带有所填入的指定目标对象的类别预测结果，以及指定目标对象在合成图像中对应的位置标签，即从第一图像中所选择的与指定目标对象属于同一类别的第一目标对象的位置标签。

步骤S108，基于第一图像和合成图像，训练中间模型，得到目标检测模型。

在实际实现时，当获取到上述合成图像后，可以基于上述第一图像以及获取到的合成图像，继续对上述中间模型进行训练，得到最终训练好的目标检测模型；比如，可以对第一图像和合成图像经过翻转、旋转等数据增强处理后，将增强处理后的第一图像和合成图像输入至中间模型中，以继续对中间模型进行训练，得到目标检测模型，该目标检测模型为半监督目标检测模型。

上述目标检测模型的训练方法，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；基于第一图像和合成图像，训练中间模型，得到目标检测模型。该方式中的合成图像是基于第二图像中指定目标对象对应的第二子图像区域，与第一图像中除第一目标对象的第一子图像区域合并得到，即合成图像中的指定目标对象都是第二图像中已经检测出的目标对象，因此，在合成图像中不存在漏检目标，提升了合成图像所携带的标签质量，进而提升了最终训练完成的目标检测模型的性能。

下面对中间模型的训练方法进行介绍，具体可以通过下述步骤一至步骤三来实现：

步骤一，对第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中，以通过初始模型输出增强处理后的第一图像中，第一目标对象的第二预测结果，其中，第二预测结果包括：第一目标对象的位置信息和类别信息。

上述初始模型可以采用Faster RCNN(一种目标检测算法)算法模型，也可以采用其他模型等，为方便说明，以Faster RCNN算法模型为例，该Faster RCNN算法模型可以包括ResNet50(其中，ResNet的英文全称为Residual Network，中文为残差网络)的骨干网络，以及RPN(Region Proposal Network，区域生成网络)和ROI Head(感兴趣区域的头部网络；其中ROI的英文全称为Region Of Interest，ROI的中文为感兴趣区域)两个网络模块；其中，ResNet50的骨干网络负责提取图像特征，网络的初始化采用在ImageNet数据集上的预训练权重；RPN网络模块用于筛选出候选框，该候选框通常是可能包含目标对象的候选框，该候选框的数量通常会远远大于真实的目标对象的数量；ROI Head用于目标对象的精定位和分类；具体的，通过ROI Head可以调整目标对象的候选框的左上角坐标和右下角坐标等，以实现对目标对象的精定位；通过ROI Head还可以输出该目标对象的所属类别；具体的，将上述第一图像输入至初始模型的ResNet50骨干网络，ResNet50骨干网络的输出端分别与RPN和ROI Head的输入端连接，RPN的输出端也与ROI Head的输入端连接，ROI Head基于ResNet50骨干网络输出的图像特征，以及RPN输出的候选框，输出第一图像中，所预测的第一目标对象在第一图像中所占用的位置区域信息，以及该第一目标图像的所属类别。

步骤二，基于第二预测结果，以及预设的第一损失函数，计算第一目标对象的第二预测结果的第一损失值。

上述第一损失函数也可以称为有监督损失函数，该第一损失函数可以为：

其中，表示RPN的分类损失；/>表示RPN的回归损失；/>表示ROI的分类损失；/>表示ROI的回归损失；/>表示有标签图像；/>表示有标签图像的标签；

上述第一损失值可以理解为第一目标对象的第二预测结果与第一目标对象的真实标签之间的差距；在实际实现时，当得到上述第二预测结果后，根据基于该第二预测结果以及预设的第一损失函数，计算该第二预测结果对应的第一损失值。

步骤三，基于第一损失值更新初始模型的权重参数；继续执行对所述第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中的步骤，直至初始模型收敛，得到中间模型。

上述权重参数可以包括初始模型中的所有参数，如卷积核参数等，在对上述初始模型进行训练时，通常需要基于上述第一目标对象的第二预测结果和第一目标对象的真实标签，更新初始模型中的所有参数，以对该初始模型进行训练，然后继续执行将第一图像输入至初始模型中的步骤，直至初始模型收敛，或第一损失值收敛，最终得到训练完成的中间模型；比如，可以基于从cityscapes目标检测数据集的训练集中随机划分出的10％的数据集，所得到的有标签数据集，经过简单的翻转和旋转数据增强，输入到Faster RCNN算法网络，迭代训练，直至初始模型收敛，得到有监督的目标检测模型，即上述中间模型。

本发明实施例提供了另一种目标检测模型的训练方法，该方法在上述实施例方法的基础上实现，该方法中，第二图像中包括多个第二目标对象；第二图像中包括多个指定目标对象，每个指定目标对象具有对应的第二子图像区域；在实际实现时，上述多个指定目标对象通常是上述多个第二目标对象中的至少一部分目标对象，比如，第二图像中包括10个第二目标对象，指定目标对象可能是10个第二目标对象中的6个目标对象，也可能是全部的第二目标对象；如图2所示，该方法包括如下步骤：

步骤S202，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，第一图像携带有第一目标对象的位置标签和类别标签；第二图像未携带第二目标对象的位置标签和类别标签；中间模型基于第一图像预先训练得到。

步骤S204，将第二图像输入至中间模型中，以通过中间模型输出第二图像中，每个第二目标对象的第三预测结果；其中，第三预测结果包括：每个第二目标对象的位置预测结果、类别预测结果和置信度。

在实际实现时，当基于第一图像训练得到中间模型后，可以将第二图像输入至该中间模型中，以输出该第二图像中每个第二目标对象的位置预测结果、类别预测结果和置信度，即输出第二图像中每个第二目标对象的伪标签；其中，所输出的每个第二目标对象的位置预测结果可以用于指示每个第二目标对象在第二图像中所对应的预测位置，比如可以输出每个第二目标对象对应的候选框的左上角坐标和右下角坐标等；所输出的每个第二目标对象的类别预测结果可以用于指示每个第二目标对象所对应的预测所属类别；所输出的每个第二目标对象的置信度用于指示对该第二目标对象的位置和类别预测正确的可能性，该置信度通常是个概率值，置信度的值越大，表示预测正确的可能性越大。

步骤S206，从第三预测结果中，删除置信度小于预设置信度阈值的预测结果，得到第二图像中指定目标对象的第一预测结果。

上述置信度阈值可以根据实际需求进行设置，比如，可以设置该置信度阈值为0.7等；在实际实现时，当得到第二图像中每个第二目标对象的第三预测结果后，由于每个第二目标对象的第三预测结果的置信度通常并不相同，有的置信度的值比较高，有的置信度的值比较低，可以从所得到的每个第二目标对象的第三预测结果中，删除置信度小于预设置信度阈值的第三预测结果，得到第二图像中指定目标对象的第一预测结果，即，该指定目标对象为第二图像中置信度不低于预设置信度阈值的目标对象，该指定目标对象可能是一部分第二目标对象，也可能是全部第二目标对象。通常在得到上述每个第二目标对象的第三预测结果后，由于每个第三预测结果中的候选框可能有多个重叠，可以先经过非极大值抑制NMS(Non-Maximum Suppression)的方式，去除重叠的候选框，当然也可以采用其他方式去除重叠的候选框，然后再通过预设置信度阈值过滤掉置信度较低的预测结果及对应的目标对象，这些置信度较低的预测结果对应的目标对象可能是误检或错检的目标对象，如果不使用此方法筛选伪标签，会导致伪标签质量较差。

步骤S208，针对第一图像中的每个第一目标对象，获取该第一目标对象对应的像素区域的像素值均值。

上述每个第一目标对象对应的像素区域通常包括多个像素点，上述像素值均值可以是该像素区域内，每个像素点对应的像素值的平均值；在实际实现时，对于第一图像中的每个第一目标对象，可以基于每个第一目标对象对应的像素区域内，每个像素点的像素值，确定每个第一目标对象对应的像素区域的像素值均值。

步骤S210，基于像素值均值替换该第一目标对象的像素区域，得到替换图像；其中，替换图像包括：第一图像中除第一目标对象的第一子图像区域，以及每个第一目标对象的位置标签和类别标签。

在实际实现时，可以去除第一图像中所有第一目标对象所对应的像素区域的图像像素，并将上述得到的每个第一目标对象对应的像素值均值填充至所对应的第一目标对象对应的像素区域，得到仅包含除第一目标对象的第一子图像区域的第一图像，以及每个第一目标对象的位置标签和类别标签，其中，上述第一子图像区域也可以称为背景像素区域，上述每个第一目标对象也可以称为前景目标。

步骤S212，基于第二图像中指定目标对象的第一预测结果，获取指定目标对象对应的第二子图像区域。

在实际实现时，可以根据第二图像中指定目标对象的第一预测结果，即根据指定目标对象的类别预测结果和位置预测结果，将第二图像中每个指定目标对象对应的第二子图像区域从第二图像中裁剪出来，得到多个指定目标对象对应的第二子图像区域。

步骤S214，基于第一目标对象的位置标签和类别标签，以及第一预测结果，将第二子图像区域合并至替换图像，得到合成图像。

该步骤S214具体可以通过下述步骤十一至步骤十四实现：

步骤十一，针对当前第二子图像区域，基于第一目标对象的类别标签和当前第二子图像区域对应的类别预测结果，判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置。

由于可能有多个指定目标对象，每个指定目标对象都有其对应的第二子图像区域，对于每个第二子图像区域，可以从上述替换图像中按序选取和该第二子图像区域对应的指定目标对象属于同一类别的目标位置，具体的，可以先基于第一目标对象的类别标签和当前第二子图像区域对应的类别预测结果，判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置。

步骤十二，如果替换图像中存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将当前第二子图像区域放置在目标位置。

该步骤十二具体可以通过下述步骤A至步骤C来实现：

步骤A，如果替换图像中存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，判断当前第二子图像区域的区域大小是否超出替换图像的边界区域。

步骤B，如果当前第二子图像区域的区域大小未超出替换图像的边界区域，将当前第二子图像区域放置在目标位置。

上述边界区域也可以称为图像边界，可以用于指示替换图像的图像范围大小；如果当前第二子图像区域的大小未超出替换图像的边界区域，则可以将该当前第二子图像区域填入该目标位置。

步骤C，如果当前第二子图像区域的大小超出替换图像的边界区域，继续执行判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至将当前第二子图像区域放置在目标位置。

如果当前第二子图像区域的大小超出了替换图像的图像边界，则选取下一个同类别的目标位置，直至找到合适的目标位置，并将该当前第二子图像区域填入所找到的目标位置。

步骤十三，保存目标位置的位置标签，以及当前第二子图像区域的类别预测结果。

在将当前第二子图像区域放置在目标位置后，可以记录下该当前第二子图像区域对应的指定目标对象的类别预测结果，以及所填入的目标位置的位置标签，该位置标签对应的是该目标位置原本所对应的第一目标对象的位置标签。

步骤十四，如果替换图像中不存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将下一个第二子图像区域作为新的当前第二子图像区域，继续执行基于第一目标对象的类别标签和当前第二子图像区域对应的类别预测结果，判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至第二图像中的多个第二子图像区域遍历完成，得到合成图像。

如果替换图像中不存在当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，则放弃填充该当前第二子图像区域，将下一个第二子图像区域作为新的当前第二子图像区域，重复执行上述步骤十一至步骤十四的步骤，直至多个第二子图像区域遍历完成，得到合成图像，可以将通过上述步骤所记录的每个第二子图像区域对应的类别预测结果和位置标签，作为合成图像的伪标签，输出合成图像及合成图像的伪标签。

步骤S216，基于第一图像和合成图像，训练中间模型，得到目标检测模型。

上述目标检测模型的训练方法，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；将第二图像输入至中间模型中，以通过中间模型输出第二图像中，每个第二目标对象的第三预测结果；从第三预测结果中，删除置信度小于预设置信度阈值的预测结果，得到第二图像中指定目标对象的第一预测结果。针对第一图像中的每个第一目标对象，获取该第一目标对象对应的像素区域的像素值均值。基于像素值均值替换该第一目标对象的像素区域，得到替换图像；基于第二图像中指定目标对象的第一预测结果，获取指定目标对象对应的第二子图像区域。基于第一目标对象的位置标签和类别标签，以及第一预测结果，将第二子图像区域合并至替换图像，得到合成图像。基于第一图像和合成图像，训练中间模型，得到目标检测模型。该方式中的合成图像是基于第二图像中指定目标对象对应的第二子图像区域，与第一图像中除第一目标对象的第一子图像区域合并得到，即合成图像中的指定目标对象都是第二图像中已经检测出的目标对象，因此，在合成图像中不存在漏检目标，提升了合成图像所携带的标签质量，进而提升了最终训练完成的目标检测模型的性能。

本发明实施例还提供了另一种目标检测模型的训练方法，该方法在上述实施例方法的基础上实现，如图3所示，该方法包括如下步骤：

步骤S302，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，第一图像携带有第一目标对象的位置标签和类别标签；第二图像未携带第二目标对象的位置标签和类别标签；中间模型基于第一图像预先训练得到。

步骤S304，将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；其中，第一预测结果包括指定目标对象的类别预测结果和位置预测结果。

步骤S306，基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；其中，合成图像携带有指定目标对象的类别预测结果，以及指定目标对象在合成图像中对应的位置标签。

步骤S308，对第一图像和合成图像分别进行数据增强处理，将增强处理后的第一图像和合成图像输入至中间模型，以通过中间模型输出增强处理后的第一图像中，第一目标对象的第四预测结果，以及输出增强处理后的合成图像中，指定目标对象的第五预测结果；其中，第四预测结果包括第一目标对象的位置预测信息和类别预测信息；第五预测结果包括指定目标对象的位置预测信息和类别预测信息。

基于上述第一图像和合成图像继续对上述中间模型进行训练，具体的，可以对第一图像和合成图像分别进行数据增强处理，将增强处理后的第一图像和合成图像输入至中间模型，通过该中间模型输出增强处理后的第一图像中第一目标对象的位置预测信息和类别预测信息，以及，输出增强处理后的合成图像中所包含的指定目标对象的位置预测信息和类别预测信息。

步骤S310，基于第四预测结果和第五预测结果，以及预设的第二损失函数，计算第二损失值。

上述第二损失函数可以采用有监督损失函数和无监督损失函数加权的方式进行训练，其中，无监督损失函数和有监督损失函数相同，该第二损失函数如下：

L_sup+α*L_unsup

其中，L_sup为有监督损失函数，L_sup即为前述第一损失函数的表达式，L_unsup为无监督损失函数，α为无监督损失函数的权重，经实验验证，当α的值为2时，模型训练效果相对较好，因此，可以将α值为2作为一个优选值。上述L_sup对应监督上述第一图像，上述L_unsup对应的是上述合成图像。

步骤S312，基于第二损失值更新中间模型的权重参数；继续执行对第一图像和所述合成图像分别进行数据增强处理的步骤，直至中间模型收敛，得到目标检测模型。

上述权重参数可以包括中间模型中的所有参数，如卷积核参数等，在对上述中间模型进行训练时，通常需要基于上述第二损失值，更新中间模型中的所有参数，以对该中间模型进行训练，然后继续执行对第一图像和所述合成图像分别进行数据增强处理的步骤，直至中间模型收敛，或第二损失值收敛，最终得到训练完成的目标检测模型。

目标检测问题中通常存在数据不平衡问题，包括前景背景不平衡和目标类别间的不平衡，其中，前景背景不平衡可以理解为在候选框中的前景很少，而背景很多；前景通常指的是候选框中的目标对象，背景通常指的是候选框中除前景以外的背景部分；通过FocalLoss可以很好的缓解类别不平衡问题，Focal Loss可以用于解决目标检测中正负样本比例严重失衡的问题，Focal Loss的损失函数可以降低大量简单负样本在训练中所占的权重，也可以理解为一种困难样本挖掘，它可以在置信度较低的情况下对样本施加更多的损失权重，它使模型专注于难样本，而不是更容易的样本，因此，在ROI Head分类器中，用多类别的Focal Loss代替标准交叉熵CE(cross entropy)，可以很好地减少模型的偏差性；其中，标准交叉熵的函数表达式如下所示：

CE(p,y)＝CE(p_t)＝-log(p_t).

Focal Loss的损失函数表达式如下所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t).

其中，p表示模型的预测值；y表示真实值；p_t表示模型预测值的概率，即，对模型预测值的置信度，通常是0-1之间的范围值；α_t和γ都是Focal Loss的特有参数，可以用于控制对不同样本的权重大小，可以根据实际需求设置α_t和γ的值。

可以利用上述Focal Loss的损失函数、第一图像集和合成图像集训练中间模型，直至中间模型收敛，损失函数的改进较好地缓解了半监督学***衡问题。

上述目标检测模型的训练方法，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；对第一图像和合成图像分别进行数据增强处理，将增强处理后的第一图像和合成图像输入至中间模型，以通过中间模型输出增强处理后的第一图像中，第一目标对象的第四预测结果，以及输出增强处理后的合成图像中，指定目标对象的第五预测结果；基于第四预测结果和第五预测结果，以及预设的第二损失函数，计算第二损失值。基于第二损失值更新中间模型的权重参数；继续执行对第一图像和所述合成图像分别进行数据增强处理的步骤，直至中间模型收敛，得到目标检测模型。该方式中的合成图像是基于第二图像中指定目标对象对应的第二子图像区域，与第一图像中除第一目标对象的第一子图像区域合并得到，即合成图像中的指定目标对象都是第二图像中已经检测出的目标对象，因此，在合成图像中不存在漏检目标，提升了合成图像所携带的标签质量，进而提升了最终训练完成的目标检测模型的性能。

本发明实施例提供了一种目标检测方法，如图4所示，该方法包括如下步骤：

步骤S402，获取包含待检测目标的图像。

上述图像可以是通过摄像机或相机采集的图像，该图像也可以是预先保存的图像等；上述待检测目标可以是图像中的感兴趣目标，如车辆、行人、交通信号灯等；在实际实现时，当需要进行目标检测时，通常需要先获取到包含待检测目标的图像。

步骤S404，将图像输入至预先训练好的目标检测模型中，输出待检测目标的检测结果；其中，检测结果包括待检测目标的所属类别和位置坐标；预先训练好的目标检测模型通过前述实施例中的目标检测模型的训练方法训练得到。

在实际实现时，当获取到上述包含待检测目标的图像后，可以将该图像输入至预先训练好的目标检测模型中，以输出待检测目标的检测结果，由于该目标检测模型是基于第一图像和合成图像，对中间模型训练得到；并且，第一图像携带有第一图像中第一目标对象的位置标签和类别标签；中间模型基于第一图像预先训练得到；合成图像是基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域后得到，而第一预测结果是将第二图像输入至中间模型后，输出的第二图像中指定目标对象的类别预测结果和位置预测结果，其中，第二图像中未携带所包含的第二目标对象的位置标签和类别标签。

该方式中的合成图像是基于第二图像中指定目标对象对应的第二子图像区域，与第一图像中除第一目标对象的第一子图像区域合并得到，即该合成图像中的指定目标对象都是第二图像中已经检测出的目标对象，因此，在合成图像中不存在漏检目标，提升了合成图像所携带的标签质量，进而提升了最终训练完成的目标检测模型的性能。

上述目标检测方法，首先获取包含待检测目标的图像；然后将图像输入至预先训练好的目标检测模型中，输出待检测目标的检测结果；由于预先训练好的目标检测模型基于前述实施例中的方法训练得到，因此，目标检测模型的性能较好，可以提高对图像中待检测目标的检测结果的准确性。

本发明实施例提供了另一种目标检测方法，该方法在上述实施例方法的基础上实现，该方法中，目标检测模型包括：特征提取模块、区域生成模块和定位分类模块；其中，特征提取模块可以用于提取图像特征；区域生成模块可以用于筛选出可能包含待检测目标的候选框；定位分类模块可以用于对待检测目标进行精定位，以及确定该待检测目标的所属类别；该方法包括如下步骤：

步骤502，获取包含待检测目标的图像。

步骤504，将图像输入至特征提取模块，以通过特征提取模块输出待检测目标的目标特征。

上述目标特征可以包括待检测目标的颜色、形状、尺寸等，在实际实现时，当获取到包含待检测目标的图像后，通常会先将该图像输入至目标检测模型中的特征提取模块，以提取出该图像中待检测目标的目标特征。

步骤506，将目标特征输入至区域生成模块，以通过区域生成模块输出包含待检测目标的候选框。

在提取出目标特征后，可以将该目标特征输入至区域生成模块，以输出可能包含待检测目标的候选框，该候选框的数量可能有多个，多个候选框的尺寸通常不同。

步骤508，将目标特征和包含待检测目标的候选框输入至定位分类模块，以通过定位分类模块输出待检测目标的类别和位置坐标。

将目标特征和候选框输入至定位分类模块，基于该目标特征和候选框，可以输出该待检测目标的所属类别，并从多个候选框中确定包含待检测目标的最匹配的候选框，还可以对候选框的位置进行调整，以实现精定位，具体可以输出包含待检测目标的最匹配的候选框的左上角坐标和右下角坐标。

上述目标检测方法，获取包含待检测目标的图像。将图像输入至特征提取模块，以通过特征提取模块输出待检测目标的目标特征。将目标特征输入至区域生成模块，以通过区域生成模块输出包含待检测目标的候选框。将目标特征和包含待检测目标的候选框输入至定位分类模块，以通过定位分类模块输出待检测目标的类别和位置坐标。该方式通过特征提取模块、区域生成模块和定位分类模块可以准确输出待检测目标的类别和位置坐标，实现了对待检测目标的检测，提升了检测的准确度。

为进一步理解上述实施例，下面提供如图5所示的一种基于伪标签改进的两阶段的半监督目标检测方法的流程示意图，包括以下步骤：第一阶段，将目标检测数据集的训练集随机划分为10％的有标签数据集(对应上述第一图像的集合)和90％的无标签数据集(对应上述第二图像的集合)，并利用Faster RCNN目标检测算法基于有标签数据集训练一个有监督模型，通常会对有标签数据集中的有标签图像进行数据增强处理后，对有监督模型进行训练，直到有监督模型收敛(对应上述中间模型)。

第二阶段，利用有监督模型推理无标签图像，得到无标签图像中目标对象的预测目标位置、类别和置信度，用置信度阈值法过滤掉不可靠的预测值，得到至少一部分无标签数据的伪标签(对应上述将第二图像输入至中间模型中，以通过中间模型输出第二图像中，每个第二目标对象的第三预测结果；其中，第三预测结果包括：每个第二目标对象的位置预测结果、类别预测结果和置信度；从第三预测结果中，删除置信度小于预设置信度阈值的预测结果，得到第二图像中指定目标对象的第一预测结果)。

利用得到的至少一部分无标签数据的伪标签和有标签数据的去除前景后的背景图，生成合成图像及新的伪标签(对应上述基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；其中，合成图像携带有指定目标对象的类别预测结果，以及指定目标对象在合成图像中对应的位置标签)。利用有标签图像和合成图像，经过翻转和旋转的数据增强策略，以及半监督学习的损失函数，同样利用Faster RCNN目标检测算法基于混合数据集训练半监督模型，直到模型收敛。(基于第一图像和合成图像，训练中间模型，得到目标检测模型)。

上述方式利用两阶段的训练步骤，以及有标签数据的背景和无标签数据的前景拼接，可以解决伪标签中的目标漏标的问题。从而可以提升为标签的质量，进而提升最终训练好的半监督模型的性能。

参见图6所示的一种合成图像和伪标签改进的流程示意图，可以选取cityscapes目标检测数据集，包括图片和标签数据，检测类别包括小汽车、公交车、人、自行车、卡车等10个类别。将训练集随机划分出10％的数据作为有标签数据集，剩下的90％数据作为无标签数据，模拟半监督训练设置。利用上述10％的有标签数据，经过简单的翻转和旋转数据增强，输入Faster RCNN网络，迭代训练，直至网络收敛，得到有监督的目标检测模型。将无标签数据集中的图像输入所得到的有监督的目标检测模型，可以得到该图像中至少一部分目标对象的伪标签。

下面对合成图像及其伪标签的生成方法进行介绍，如图6所示，在有标签数据集中随机选取一张图像，去除该有标签图像的所有前景目标的图像像素，并在每个目标框内取原始像素的均值填充该前景目标的像素区域，得到仅含背景像素的图像和每个前景目标的位置信息。对于每张无标签图像，由上述得到的伪标签信息，将伪标签中的每个目标对象的图像像素块从无标签图像中裁剪出来，得到所有伪标签对应的目标框内的多个图像像素块。对于每一个图像像素块，从去除前景目标的有标签图像中按序选取和该目标同一类别的目标位置。这种方式制作的合成图像会更加逼真，比如原本出现车辆的位置，现在仍然只能填充车辆，而不能填充红绿灯等其他类别的目标。

将该图像像素块填入去除前景目标的有标签图像中，判断是否会超出有标签图像的图像边界，如果会，则选取下一个同类别目标位置，直到找到合适的填充位置，将该图像像素块填入找到的目标位置，即将伪标签对应的目标对象填入该目标位置，并记下类别和位置信息作为合成图像的伪标签。如果不存在合适的位置，则放弃填充该伪标签对应的目标对象，继续从无标签图像中按顺序选取目标框，判断是否无目标框可选，如果无目标框可选，表示所有伪标签对应的目标框内的多个图像像素块已遍历完成，输出合成图像及新的伪标签，如果有目标框可选，继续执行按顺序选取同一类别的目标位置，并判断是否超出有标签图像的图像边界的过程。

参见图7所示的一种合成图像示意图，图7所示的合成图像中，小汽车图像贴在了目标位置A，行人图像贴在了目标位置B，其中，目标位置A中原本的目标对象也属于小汽车这一类别，目标位置B中原本的目标对象也属于行人这一类别，目标位置A中的区域由同一种像素填充，目标位置B中的区域也由同一种像素填充。

相关技术中，如果直接采用无标签数据的伪标签训练半监督模型，由于无标签数据的伪标签是基于有监督的目标检测模型生成，这样生成的伪标签数据的背景中依然存在数量可观的漏检目标，利用这种伪标签训练的半监督模型会把前景也认为是背景，从而损害了半监督模型的性能指标；另外，采用阈值法过滤也可能会造成漏检。因此，本发明利用合成图像法生成新的图像及其伪标签，可以缓解低质量伪标签带来的半监督模型性能较差的问题。上述采用两阶段的半监督目标检测方法，仅利用少量的有标签数据，就可以满足实际检测需求。基于数据增强和伪标签的半监督目标检测方法，可以在不增加标注成本的情况下有效地提高模型的准确率，具有很强的实用性和可行性。同时，也降低了数据标注的成本，提高了自动驾驶领域研发的效率；通过有标签和无标签数据的结合，半监督目标检测算法可以充分利用无标签数据的有用信息，相比于有监督模型，半监督模型的预测准确性更高。

该方式采用无标签数据的伪标签和有标签数据的背景相融合，生成新的合成图像和改进后的伪标签，用于半监督学***均值，相当于合成图像的背景是纯净的背景，合成图像中的伪标签和人工标注基本相同。

比如，无标签图像中本来有10个目标，检测出6个，漏检4个，把检测出的6个目标贴到新的背景图上，得到合成图，合成图中有6个目标，伪标签也是6个目标，相当于没有漏检。另外，在半监督学***衡问题，即前景背景不平衡和类别不平衡，减弱了占比大的类别对模型的主导作用，很大程度上减少了模型的偏差性。

另外，作为一种替换方式，上述目标检测算法Faster RCNN可以替换为其他任意一种模型，如SSD(Single Shot MultiBox Detector，一种目标检测算法)、YOLOv3(一种目标检测算法)等，不局限于这一种网络模型。合成图像的背景可以是其他数据集的背景图片，不局限于同一数据集的背景；填充的目标也可以加入有标签图像的目标图像像素块。填充的图像目标像素块可以经过尺寸缩放、翻转等数据增强再填充进去，这样就可以不出现目标图像像素块超过图像边界的问题。

上述方式经过了cityscapes数据集的实验验证，被证实有效。划分10％的有标签数据集和90％的无标签数据集，相比于有监督学***均精确率AP(Average Precision)提高了2.7％，交通信号灯和交通标志牌的检出率显著提高。另外，由于有标签数据集的数量少于无标签数据集，因此，有标签图像可以重复使用，比如，一张有标签图像可以分别与10个无标签图像配合使用，得到10个无标签图像分别对应的合成图像。

本发明实施例提供了一种目标检测模型的训练装置的结构示意图，如图8所示，该装置包括：第一获取模块80，用于获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，第一图像携带有第一目标对象的位置标签和类别标签；第二图像未携带第二目标对象的位置标签和类别标签；中间模型基于第一图像预先训练得到；第一输出模块81，用于将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；其中，第一预测结果包括指定目标对象的类别预测结果和位置预测结果；合并模块82，用于基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；其中，合成图像携带有指定目标对象的类别预测结果，以及指定目标对象在合成图像中对应的位置标签；训练模块83，用于基于第一图像和合成图像，训练中间模型，得到目标检测模型。

上述目标检测模型的训练装置，获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；将第二图像输入至中间模型，输出第二图像中指定目标对象的第一预测结果；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将指定目标对象对应的第二子图像区域合并至第一图像中除第一目标对象的第一子图像区域，得到合成图像；基于第一图像和合成图像，训练中间模型，得到目标检测模型。该方式中的合成图像是基于第二图像中指定目标对象对应的第二子图像区域，与第一图像中除第一目标对象的第一子图像区域合并得到，即合成图像中的指定目标对象都是第二图像中已经检测出的目标对象，因此，在合成图像中不存在漏检目标，提升了合成图像所携带的标签质量，进而提升了最终训练完成的目标检测模型的性能。

进一步的，还包括中间模型训练模块，用于：对第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中，以通过初始模型输出增强处理后的第一图像中，第一目标对象的第二预测结果，其中，第二预测结果包括：第一目标对象的位置信息和类别信息；基于第二预测结果，以及预设的第一损失函数，计算第一目标对象的第二预测结果的第一损失值；基于第一损失值更新初始模型的权重参数；继续执行对第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中的步骤，直至初始模型收敛，得到中间模型。

进一步的，第二图像中包括多个第二目标对象；第一输出模块还用于：将第二图像输入至中间模型中，以通过中间模型输出第二图像中，每个第二目标对象的第三预测结果；其中，第三预测结果包括：每个第二目标对象的位置预测结果、类别预测结果和置信度；从第三预测结果中，删除置信度小于预设置信度阈值的预测结果，得到第二图像中指定目标对象的第一预测结果。

进一步的，合成模块还用于：针对第一图像中的每个第一目标对象，获取该第一目标对象对应的像素区域的像素值均值；基于像素值均值替换该第一目标对象的像素区域，得到替换图像；其中，替换图像包括：第一图像中除第一目标对象的第一子图像区域，以及每个第一目标对象的位置标签和类别标签；基于第二图像中指定目标对象的第一预测结果，获取指定目标对象对应的第二子图像区域；基于第一目标对象的位置标签和类别标签，以及第一预测结果，将第二子图像区域合并至替换图像，得到合成图像。

进一步的，第二图像中包括多个指定目标对象，每个指定目标对象具有对应的第二子图像区域；合成模块还用于：针对当前第二子图像区域，基于第一目标对象的类别标签和当前第二子图像区域对应的类别预测结果，判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置；如果替换图像中存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将当前第二子图像区域放置在目标位置；保存目标位置的位置标签，以及当前第二子图像区域的类别预测结果；如果替换图像中不存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将下一个第二子图像区域作为新的当前第二子图像区域，继续执行基于第一目标对象的类别标签和当前第二子图像区域对应的类别预测结果，判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至第二图像中的多个第二子图像区域遍历完成，得到合成图像。

进一步的，合成模块还用于：如果替换图像中存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，判断当前第二子图像区域的区域大小是否超出替换图像的边界区域；如果当前第二子图像区域的区域大小未超出替换图像的边界区域，将当前第二子图像区域放置在目标位置；如果当前第二子图像区域的大小超出替换图像的边界区域，继续执行判断替换图像中是否存在与当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至将当前第二子图像区域放置在目标位置。

进一步的，训练模块还用于：对第一图像和合成图像分别进行数据增强处理，将增强处理后的第一图像和合成图像输入至中间模型，以通过中间模型输出增强处理后的第一图像中，第一目标对象的第四预测结果，以及输出增强处理后的合成图像中，指定目标对象的第五预测结果；其中，第四预测结果包括第一目标对象的位置预测信息和类别预测信息；第五预测结果包括指定目标对象的位置预测信息和类别预测信息；基于第四预测结果和第五预测结果，以及预设的第二损失函数，计算第二损失值；基于第二损失值更新中间模型的权重参数；继续执行对第一图像和合成图像分别进行数据增强处理的步骤，直至中间模型收敛，得到目标检测模型。

本发明实施例所提供的目标检测模型的训练装置，其实现原理及产生的技术效果和前述目标检测模型的训练方法实施例相同，为简要描述，目标检测模型的训练装置实施例部分未提及之处，可参考前述目标检测模型的训练方法实施例中相应内容。

本发明实施例还提供了一种目标检测装置的结构示意图，如图9所示，装置包括：第二获取模块90，用于获取包含待检测目标的图像；第二输出模块91，用于将图像输入至预先训练好的目标检测模型中，输出待检测目标的检测结果；其中，检测结果包括待检测目标的所属类别和位置坐标；预先训练好的目标检测模型通过目标检测模型的训练装置训练得到。

上述目标检测装置，首先获取包含待检测目标的图像；然后将图像输入至预先训练好的目标检测模型中，输出待检测目标的检测结果；由于预先训练好的目标检测模型基于前述实施例中的方法训练得到，因此，目标检测模型的性能较好，可以提高对图像中待检测目标的检测结果的准确性。

进一步的，目标检测模型包括：特征提取模块、区域生成模块和定位分类模块；第二输出模块还用于：将图像输入至特征提取模块，以通过特征提取模块输出待检测目标的目标特征；将目标特征输入至区域生成模块，以通过区域生成模块输出包含待检测目标的候选框；将目标特征和候选框输入至定位分类模块，以通过定位分类模块输出待检测目标的类别和位置坐标。

本发明实施例所提供的目标检测装置，其实现原理及产生的技术效果和前述目标检测方法实施例相同，为简要描述，目标检测装置实施例部分未提及之处，可参考前述目标检测方法实施例中相应内容。

本发明实施例还提供了一种电子设备，参见图10所示，该电子设备包括处理器130和存储器131，该存储器131存储有能够被处理器130执行的机器可执行指令，该处理器130执行机器可执行指令以实现上述目标检测模型的训练方法，或目标检测方法。

进一步地，图10所示的电子设备还包括总线132和通信接口133，处理器130、通信接口133和存储器131通过总线132连接。

其中，存储器131可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器130可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131，处理器130读取存储器131中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述目标检测模型的训练方法，或目标检测方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的目标检测模型的训练方法、目标检测方法和装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种目标检测模型的训练方法，其特征在于，所述方法包括：

获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，所述第一图像携带有所述第一目标对象的位置标签和类别标签；所述第二图像未携带所述第二目标对象的位置标签和类别标签；所述中间模型基于所述第一图像预先训练得到；

将所述第二图像输入至所述中间模型，输出所述第二图像中指定目标对象的第一预测结果；其中，所述第一预测结果包括所述指定目标对象的类别预测结果和位置预测结果；

基于所述第一目标对象的所述位置标签和所述类别标签，以及所述第一预测结果，将所述指定目标对象对应的第二子图像区域合并至所述第一图像中除所述第一目标对象的第一子图像区域，得到合成图像；其中，所述合成图像携带有所述指定目标对象的所述类别预测结果，以及所述指定目标对象在所述合成图像中对应的位置标签；

基于所述第一图像和所述合成图像，训练所述中间模型，得到目标检测模型；

基于所述第一图像和所述合成图像，训练所述中间模型，得到目标检测模型的步骤包括：

对所述第一图像和所述合成图像分别进行数据增强处理，将增强处理后的第一图像和合成图像输入至所述中间模型，以通过所述中间模型输出所述增强处理后的第一图像中，所述第一目标对象的第四预测结果，以及输出所述增强处理后的合成图像中，所述指定目标对象的第五预测结果；其中，所述第四预测结果包括所述第一目标对象的位置预测信息和类别预测信息；所述第五预测结果包括所述指定目标对象的位置预测信息和类别预测信息；

基于所述第四预测结果和所述第五预测结果，以及预设的第二损失函数，计算第二损失值；

基于所述第二损失值更新所述中间模型的权重参数；继续执行对所述第一图像和所述合成图像分别进行数据增强处理的步骤，直至所述中间模型收敛，得到所述目标检测模型。

2.根据权利要求1所述的方法，其特征在于，所述中间模型通过下述方式训练得到：

对所述第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中，以通过所述初始模型输出所述增强处理后的第一图像中，所述第一目标对象的第二预测结果，其中，所述第二预测结果包括：所述第一目标对象的位置信息和类别信息；

基于所述第二预测结果，以及预设的第一损失函数，计算所述第一目标对象的第二预测结果的第一损失值；

基于所述第一损失值更新所述初始模型的权重参数；继续执行对所述第一图像进行数据增强处理，将增强处理后的第一图像输入至初始模型中的步骤，直至所述初始模型收敛，得到所述中间模型。

3.根据权利要求1所述的方法，其特征在于，所述第二图像中包括多个第二目标对象；所述将所述第二图像输入至所述中间模型，输出所述第二图像中指定目标对象的第一预测结果的步骤包括：

将所述第二图像输入至所述中间模型中，以通过所述中间模型输出所述第二图像中，每个所述第二目标对象的第三预测结果；其中，所述第三预测结果包括：每个所述第二目标对象的位置预测结果、类别预测结果和置信度；

从所述第三预测结果中，删除所述置信度小于预设置信度阈值的预测结果，得到所述第二图像中指定目标对象的第一预测结果。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一目标对象的所述位置标签和所述类别标签，以及所述第一预测结果，将所述指定目标对象对应的第二子图像区域合并至所述第一图像中除所述第一目标对象的第一子图像区域，得到合成图像的步骤包括：

针对所述第一图像中的每个第一目标对象，获取该第一目标对象对应的像素区域的像素值均值；

基于所述像素值均值替换该第一目标对象的像素区域，得到替换图像；其中，所述替换图像包括：所述第一图像中除所述第一目标对象的第一子图像区域，以及每个所述第一目标对象的位置标签和类别标签；

基于所述第二图像中指定目标对象的第一预测结果，获取所述指定目标对象对应的第二子图像区域；

基于所述第一目标对象的所述位置标签和所述类别标签，以及所述第一预测结果，将所述第二子图像区域合并至所述替换图像，得到合成图像。

5.根据权利要求4所述的方法，其特征在于，所述第二图像中包括多个指定目标对象，每个指定目标对象具有对应的第二子图像区域；所述基于所述第一目标对象的所述位置标签和所述类别标签，以及所述第一预测结果，将所述第二子图像区域合并至所述替换图像，得到合成图像的步骤包括：

针对当前第二子图像区域，基于所述第一目标对象的所述类别标签和所述当前第二子图像区域对应的所述类别预测结果，判断所述替换图像中是否存在与所述当前第二子图像区域对应的指定目标对象属于同一类别的目标位置；

如果所述替换图像中存在与所述当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将所述当前第二子图像区域放置在所述目标位置；

保存所述目标位置的位置标签，以及所述当前第二子图像区域的类别预测结果；

如果所述替换图像中不存在与所述当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将下一个第二子图像区域作为新的当前第二子图像区域，继续执行基于所述第一目标对象的所述类别标签和所述当前第二子图像区域对应的所述类别预测结果，判断所述替换图像中是否存在与所述当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至所述第二图像中的多个所述第二子图像区域遍历完成，得到所述合成图像。

6.根据权利要求5所述的方法，其特征在于，所述如果所述替换图像中存在与所述当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，将所述当前第二子图像区域放置在所述目标位置的步骤包括：

如果所述替换图像中存在与所述当前第二子图像区域对应的指定目标对象属于同一类别的目标位置，判断所述当前第二子图像区域的区域大小是否超出所述替换图像的边界区域；

如果所述当前第二子图像区域的区域大小未超出所述替换图像的边界区域，将所述当前第二子图像区域放置在所述目标位置；

如果所述当前第二子图像区域的大小超出所述替换图像的边界区域，继续执行判断所述替换图像中是否存在与所述当前第二子图像区域对应的指定目标对象属于同一类别的目标位置的步骤，直至将所述当前第二子图像区域放置在目标位置。

7.一种目标检测方法，其特征在于，所述方法包括：

获取包含待检测目标的图像；

将所述图像输入至预先训练好的目标检测模型中，输出所述待检测目标的检测结果；其中，所述检测结果包括所述待检测目标的所属类别和位置坐标；所述预先训练好的目标检测模型通过权利要求1-6任一项所述的方法训练得到。

8.根据权利要求7所述的方法，其特征在于，所述目标检测模型包括：特征提取模块、区域生成模块和定位分类模块；

所述将所述图像输入至预先训练好的目标检测模型中，输出所述待检测目标的检测结果的步骤包括：

将所述图像输入至所述特征提取模块，以通过所述特征提取模块输出所述待检测目标的目标特征；

将所述目标特征输入至所述区域生成模块，以通过所述区域生成模块输出包含所述待检测目标的候选框；

将所述目标特征和所述候选框输入至所述定位分类模块，以通过所述定位分类模块输出所述待检测目标的所述类别和位置坐标。

9.一种目标检测模型的训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取包含第一目标对象的第一图像，包含第二目标对象的第二图像，以及中间模型；其中，所述第一图像携带有所述第一目标对象的位置标签和类别标签；所述第二图像未携带所述第二目标对象的位置标签和类别标签；所述中间模型基于所述第一图像预先训练得到；

第一输出模块，用于将所述第二图像输入至所述中间模型，输出所述第二图像中指定目标对象的第一预测结果；其中，所述第一预测结果包括所述指定目标对象的类别预测结果和位置预测结果；

合并模块，用于基于所述第一目标对象的所述位置标签和所述类别标签，以及所述第一预测结果，将所述指定目标对象对应的第二子图像区域合并至所述第一图像中除所述第一目标对象的第一子图像区域，得到合成图像；其中，所述合成图像携带有所述指定目标对象的所述类别预测结果，以及所述指定目标对象在所述合成图像中对应的位置标签；

训练模块，用于基于所述第一图像和所述合成图像，训练所述中间模型，得到目标检测模型；

所述训练模块还用于：

10.一种目标检测装置，其特征在于，所述装置包括：

第二获取模块，用于获取包含待检测目标的图像；

第二输出模块，用于将所述图像输入至预先训练好的目标检测模型中，输出所述待检测目标的检测结果；其中，所述检测结果包括所述待检测目标的所属类别和位置坐标；所述预先训练好的目标检测模型通过权利要求9所述的目标检测模型的训练装置训练得到。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-6任一项所述的目标检测模型的训练方法，或权利要求7-8任一项所述的目标检测方法。

12.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1-6任一项所述的目标检测模型的训练方法，或权利要求7-8任一项所述的目标检测方法。