WO2023088174A1

WO2023088174A1 - 目标检测方法及装置

Info

Publication number: WO2023088174A1
Application number: PCT/CN2022/131320
Authority: WO
Inventors: 陈斌斌; 陈伟杰; 杨世才
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2021-11-19
Filing date: 2022-11-11
Publication date: 2023-05-25
Also published as: CN114118259A

Abstract

本公开提供一种目标检测方法及装置，包括：为无标签数据添加伪标签，将伪标签划分为高质量伪标签和不确定伪标签；将无标签数据输入给初始学习模型得到第一预测值；基于与高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与不确定伪标签对应的第一预测值确定第二预测标签和第二预测框；将无标签数据输入给初始管理模型得到第二预测值，基于与不确定伪标签对应的第二预测值确定第三预测标签和第三预测框；基于第一预测标签、第一预测框、第二预测标签、第二预测框、第三预测标签和第三预测框对初始管理模型进行训练，得到目标管理模型，所述目标管理模型用于对待检测数据进行目标检测。

Description

目标检测方法及装置

相关申请的交叉引用

本公开要求于2021年11月19日提交的、申请号为202111401508.9的中国专利申请的优先权，该申请以引用的方式并入本文中。

技术领域

本公开涉及人工智能技术领域，尤其涉及一种目标检测方法及装置。

背景技术

机器学习是实现人工智能的一种途径，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习用于研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习更加注重算法设计，使计算机能够自动地从数据中学习规律，并利用规律对未知数据进行预测。机器学习已经有了十分广泛的应用，如深度学习、数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、语音识别和手写识别等。

为了采用机器学习实现人工智能处理，可以构建训练数据集，该训练数据集包括大量有标签数据(如图像数据，即具有标定框和标定类别的图像)。基于训练数据集训练出机器学习模型，如具有目标检测功能的机器学习模型，可以采用机器学习模型对待检测数据进行目标检测，比如说，检测待检测数据中的目标框，并识别出目标类别，如车辆类别、动物类别、电子产品类别等。

为了提高机器学习模型的性能，需要获取大量有标签数据，有标签数据越多，则训练出的机器学习模型的性能越好。但是，为了得到有标签数据，需要对大量数据进行标注操作，因而需要耗费大量人力资源。

发明内容

本公开提供一种目标检测方法，所述方法包括：

获取初始管理模型和初始学习模型，并基于所述初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签；

将无标签数据输入给初始学习模型，得到该无标签数据对应的第一预测值；基于与高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与不确定伪标签对应的第一预测值确定第二预测标签和第二预测框；

将无标签数据输入给初始管理模型，得到该无标签数据对应的第二预测值，基于与不确定伪标签对应的第二预测值确定第三预测标签和第三预测框；

基于所述第一预测标签、第一预测框、第二预测标签、第二预测框、第三预测标签和第三预测框对初始管理模型进行训练，得到目标管理模型；

其中，所述目标管理模型用于对待检测数据进行目标检测。

本公开提供一种目标检测装置，所述装置包括：

获取模块，用于获取初始管理模型和初始学习模型，基于所述初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签；

确定模块，用于将无标签数据输入给初始学习模型，得到该无标签数据对应的第一预测值；基于与高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与不确定伪标签对应的第一预测值确定第二预测标签和第二预测框；将无标签数据输入给初始管理模型，得到该无标签数据对应的第二预测值，基于与不确定伪标签对应的第二预测值确定第三预测标签和第三预测框；

处理模块，用于基于所述第一预测标签、第一预测框、第二预测标签、第二预测框、第三预测标签和第三预测框对初始管理模型进行训练，得到目标管理模型；其中，所述目标管理模型用于对待检测数据进行目标检测。

本公开提供一种目标检测设备，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；

所述处理器用于执行机器可执行指令，以实现上述示例的目标检测方法。

本公开实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本公开上述示例公开的目标检测方法。

由以上技术方案可见，本公开实施例中，可以基于无标签数据训练得到目标管理模型，即通过少量有标签数据和大量无标签数据也可以训练得到目标管理模型，从而避免获取大量有标签数据，减轻标注操作的工作量，节约人力资源，且目标管理模型具有比较好的性能，可靠性很高。能够在有效利用伪标签的基础上，提升训练过程中对噪声样本的鲁棒性，目标管理模型相较基线模型有非常大的提升。将不同比例的伪标签设置为高质量的伪标签均能取得比较好的训练结果，对噪声样本具有较好的鲁棒性，对超参不敏感。提出半监督目标检测训练方式，借鉴无监督表征学习中相同图像在不同增广后的特征维持一致的思想，对无标签数据不同增广下的回归框和分类建立一致性约束，将伪标签和一致性约束进行结合，对可靠的目标框采用伪标签作为真实类别，而对于不确信的目标则对不同预测结果(或者特征)建立一致性对比损失。

附图说明

为了更加清楚地说明本公开实施例或者现有技术中的技术方案，下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本公开实施例的这些附图获得其他的附图。

图1是本公开一种实施方式中的目标检测方法的流程示意图；

图2是本公开另一种实施方式中的目标检测方法的流程示意图；

图3是本公开一种实施方式中的目标检测装置的结构示意图；

图4是本公开一种实施方式中的目标检测设备的硬件结构图。

具体实施方式

在本公开实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开实施例中提出一种目标检测方法，可以应用于目标检测设备，目标检测设备可以是任意类型的设备，如服务器、终端设备、管理设备等，对此不做限制。参见图1所示，为目标检测方法的流程示意图，本实施例的目标检测方法可以是半监督目标检测方法，该方法可以包括：

步骤101、获取初始管理模型和初始学习模型，并基于初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签。

示例性的，获取初始管理模型和初始学习模型，可以包括但不限于：利用有标签数据训练得到一个基线模型，并基于该基线模型生成初始管理模型和初始学习模型。其中，初始管理模型的网络结构与基线模型的网络结构可以相同，初始管理模型的网络参数与基线模型的网络参数可以相同或不同。初始学习模型的网络结构与基线模型的网络结构相同，初始学习模型的网络参数与基线模型的网络参数相同或不同。初始管理模型的网络结构与初始学习模型的网络结构相同，初始管理模型的网络参数与初始学习模型的网络参数相同或不同。

示例性的，基于初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签，可以包括但不限于：针对每个无标签数据来说，可以将该无标签数据输入给初始管理模型，得到该无标签数据对应的伪标签、及与该伪标签对应的概率值。在此基础上，针对初始管理模型支持检测的每种类别，基于与该类别对应的所有伪标签对应的概率值，对该类别对应的所有伪标签进行排序；基于排序结果，选取概率值大的K个伪标签作为该类别对应的高质量伪标签，并将该类别对应的所有伪标签中除该类别对应的高质量伪标签之外的剩余伪标签作为该类别对应的不确定伪标签。其中，K为正整数。

步骤102、将无标签数据输入给初始学习模型，得到该无标签数据对应的第一预测值；基于与高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与不确定伪标签对应的第一预测值确定第二预测标签和第二预测框。将无标签数据输入给初始管理模型，得到该无标签数据对应的第二预测值，基于与不确定伪标签对应的第二预测值确定第三预测标签和第三预测框。

示例性的，可以对无标签数据进行第一数据增广，将第一数据增广后的无标签数据输入给初始学习模型，得到该无标签数据对应的第一预测值。

示例性的，可以对无标签数据进行第二数据增广，将第二数据增广后的无标签数据输入给初始管理模型，得到该无标签数据对应的第二预测值。

示例性的，第一数据增广的方式与第二数据增广的方式可以不同。

步骤103、基于第一预测标签、第一预测框、第二预测标签、第二预测框、第三预测标签和第三预测框对初始管理模型进行训练，得到目标管理模型；其中，该目标管理模型用于对待检测数据进行目标检测。比如说，可以采用如下步骤1031-1032对初始管理模型进行训练，得到目标管理模型：

步骤1031、基于第一预测标签和第一预测框确定第一损失值，并基于第二预测标签、第二预测框、第三预测标签和第三预测框确定第二损失值。

示例性的，初始学习模型和初始管理模型支持检测的类别的数量是相同的。基于第二预测标签、第二预测框、第三预测标签和第三预测框确定第二损失值，可以包括但不限于：若第二预测标签包括与初始学习模型支持检测的C种类别对应的C个第一概率值，第三预测标签包括与初始管理模型支持检测的C种类别对应的C个第二概率值，则基于C个第一概率值和C个第二概率值，确定一致性约束的类别损失值，C可以为大于1的正整数。确定与第二预测框对应的坐标点偏移量的第一概率分布，并确定与第三预测框对应的坐标点偏移量的第二概率分布。并基于第一概率分布和第二概率分布确定一致性约束的坐标框损失值。基于该类别损失值和该坐标框损失值确定第二损失值。

在一种可能的实施方式中，基于第一概率分布和第二概率分布确定一致性约束的坐标框损失值，可以包括但不限于：确定第一概率分布与第二概率分布之间的相对熵，并基于该相对熵确定一致性约束的坐标框损失值。

步骤1032、基于第一损失值和第二损失值对初始管理模型进行调整，得到目标管理模型；其中，目标管理模型用于对待检测数据进行目标检测。

示例性的，在步骤1032之前，还可以将有标签数据输入给初始学习模型，得到该有标签数据对应的第三预测值，并基于第三预测值确定第四预测标签和第四预测框，并基于第四预测标签和第四预测框确定第三损失值。

在此基础上，针对步骤1032来说，可以基于第一损失值、第二损失值和第三损失值对初始管理模型进行调整，得到目标管理模型。

示例性的，基于第一损失值和第二损失值对初始管理模型进行调整，得到目标管理模型，可以包括但不限于：基于第一损失值和第二损失值对初始学习模型的网络参数进行调整，得到调整后学习模型；基于调整后学习模型的网络参数对初始管理模型的网络参数进行调整，得到调整后管理模型；若调整后管理模型未收敛，则将调整后学习模型确定为初始学习模型，将调整后管理模型确定为初始管理模型，返回执行基于初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签的操作(即步骤101)；若调整后管理模型已收敛，则将调整后管理模型确定为目标管理模型。

示例性的，基于调整后学习模型的网络参数对初始管理模型的网络参数进行调整，得到调整后管理模型，可以包括但不限于：基于调整后学习模型的网络参数和已配置的比例系数确定网络参数的参数修正值，并基于该参数修正值对初始管理模型的网络参数进行调整，得到调整后管理模型。

由以上技术方案可见，本公开实施例中，可以基于无标签数据训练得到目标管理模型，即通过少量有标签数据和大量无标签数据也可以训练得到目标管理模型，从而避免因获取大量有标签数据而耗费人力资源，有助于减轻标注操作的工作量，节约人力资源，且目标管理模型具有比较好的性能，可靠性很高。能够在有效利用伪标签的基础上，提升训练过程中对噪声样本的鲁棒性，目标管理模型相较基线模型有非常大的提升。将不同比例的伪标签设置为高质量的伪标签均能取得比较好的训练结果，对噪声样本具有较好的鲁棒性，对超参不敏感。提出半监督目标检测训练方式，借鉴无监督表征学习中相同图像在不同增广后的特征维持一致的思想，对无标签数据在不同增广下的回归框和分类建立一致性约束，将伪标签和一致性约束进行结合，对可靠的目标框采用伪标签作为真实类别，而对于不确信的目标则对不同预测结果(或者特征)建立一致性对比损失。

以下结合具体应用场景，对本公开实施例的技术方案进行说明。

本公开实施例中提出一种目标检测方法，是基于一致性约束的半监督目标检测(semi-supervised object detection)方式，在半监督的目标检测方式中，可以采用部分标注数据结合大规模未标注数据对模型进行训练，并且取得和全量标注数据接近的性能。图2为目标检测方法的流程示意图，如图2所示，该方法可以包括：

步骤201、利用有标签数据训练得到基线模型。

示例性的，可以预先构建一个训练数据集，该训练数据集可以包括多个有标签数据(如有标签图像)，针对每个有标签数据来说，该有标签数据对应有标定信息，该标定信息包括但不限于标定框(如标定框是矩形标定框时，可以是矩形标定框的4个顶点坐标)和标定类别(即标定框内目标对象的类别)。

示例性的，可以预先获取一个初始网络模型，该初始网络模型可以是机器学习模型，如基于深度学习算法的机器学习模型、基于神经网络的机器学习模型等，在此，对机器学习模型的类型不做限制。关于初始网络模型的结构，本实施例不做限制。关于初始网络模型的功能，该初始网络模型可以实现目标检测。

示例性的，基于训练数据集中的有标签数据，可以对初始网络模型进行训练，对此训练过程不做限制，将训练完成的初始网络模型称为基线模型，也就是说，可以利用训练数据集中的有标签数据训练得到一个基线模型。

在初始网络模型的训练过程中，将有标签数据输入给初始网络模型，由初始网络模型对有标签数据进行处理，得到该有标签数据对应的预测框和预测标签。该预测框用于表示目标对象所在位置，如4个顶点坐标。该预测标签用于表示目标对象的类别，如类别1。如果初始网络模型支持检测类别1的目标对象、类别2的目标对象，则预测标签为0时，表示目标对象的类别是类别1，预测标签为1时，表示目标对象的类别是类别2。

可以基于有标签数据对应的预测标签和该有标签数据对应的标定类别(即真实类别)确定出类别损失值，并基于有标签数据对应的预测框和该有标签数据对应的标定框(即真实框)确定出坐标框损失值。然后，基于类别损失值和坐标框损失值确定初始网络模型的目标损失值，比如说，可以采用如下公式(1)确定初始网络模型的目标损失值：

L＝L _loc+L _cls (1)，

在上述公式(1)中，L表示初始网络模型的目标损失值，L _loc表示坐标框损失值，L _cls表示类别损失值。

其中，对于类别损失值L _cls，若预测标签与标定类别匹配(例如二者相同)，则类别损失值较小(例如类别损失值为损失值最小值)。若预测标签与标定类别不匹配(例如二者不相同)，则类别损失值较大(例如类别损失值为损失值最大值)。当然，上述只是确定类别损失值的示例，对此不做限制。

其中，对于坐标框损失值L _loc，若预测框与标定框匹配(例如预测框的4个顶点坐标与标定框的4个顶点坐标相同)，则坐标框损失值较小(例如坐标框损失值为损失值最小值)。若预测框与标定框不匹配(例如预测框的4个顶点坐标与标定框的4个顶点坐标不同)，则确定预测框(例如预测框的4个顶点坐标)与标定框(例如标定框的4个顶点坐标)的接近程度。若预测框与标定框越接近，则坐标框损失值越小。若预测框与标定框差别越大，则坐标框损失值越大。

比如说，确定预测框的4个顶点坐标对应的坐标点偏移量的概率分布(如高斯分布)，即预测框的每个顶点坐标对应一个概率分布，如预测框左上角顶点坐标对应概率分布a1、预测框右上角顶点坐标对应概率分布a2、预测框右下角顶点坐标对应概率分布a3、预测框左下角顶点坐标对应概率分布a4。以及，确定标定框的4个顶点坐标对应的坐标点偏移量的概率分布，即标定框的每个顶点坐标对应一个概率分布，如标定框左上角顶点坐标对应概率分布b1、标定框右上角顶点坐标对应概率分布b2、标定框右下角顶点坐标对应概率分布b3、标定框左下角顶点坐标对应概率分布b4。在确定顶点坐标对应的概率分布时，可以通过均值和方差表示概率分布，如顶点坐标x(如预测框的顶点坐标或者标定框的顶点坐标)对应的概率分布表示为N(μ _tx，∑ _tx)。

基于预测框的4个顶点坐标对应的概率分布和标定框的4个顶点坐标对应的概率分布，就可以计算预测框与标定框之间的坐标框损失值。例如，基于概率分布a1与概率分布b1计算负对数似然损失值，基于概率分布a2与概率分布b2计算负对数似然损失值，基于概率分布a3与概率分布b3计算负对数似然损失值，基于概率分布a4与概率分布b4计算负对数似然损失值。基于上述4个负对数似然损失值确定坐标框损失值，如4个负对数似然损失值的均值作为坐标框损失值，或4个负对数似然损失值的求和值作为坐标框损失值。当然，上述只是示例，对此不做限制，只要能够基于概率分布得到坐标框损失值即可。

在初始网络模型的训练过程中，在得到初始网络模型的目标损失值后，可以基于该目标损失值对初始网络模型的网络参数进行调整，如采用梯度下降法等方式对初始网络模型的网络参数进行调整，本实施例对此调整过程不做限制。将调整后的网络模型作为初始网络模型，返回执行将有标签数据输入给初始网络模型的操作，以此类推，一直到初始网络模型已收敛(如初始网络模型的迭代次数达到次数阈值，或者，目标损失值小于损失值阈值)，将已收敛的初始网络模型作为基线模型，至此，利用有标签数据训练得到一个基线模型。

步骤202、基于该基线模型生成初始管理模型和初始学习模型。

比如说，可以基于该基线模型生成初始管理模型(也可以称为初始教师模型)，该初始管理模型的网络结构与该基线模型的网络结构可以相同，该初始管理模型的网络参数与该基线模型的网络参数可以相同或不同。例如，可以直接将该基线模型作为初始管理模型，或者，可以对该基线模型的网络参数进行调整，并将网络参数调整后的基线模型作为初始管理模型。

比如说，可以基于该基线模型生成初始学习模型(也可以称为初始学生模型)，该初始学习模型的网络结构与该基线模型的网络结构可以相同，该初始学习模型的网络参数与该基线模型的网络参数可以相同或不同。例如，可以直接将该基线模型作为初始学习模型，或者，可以对该基线模型的网络参数进行调整，并将网络参数调整后的基线模型作为初始学习模型。

步骤203、基于初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签。比如说，基于初始管理模型确定无标签数据对应的伪标签，并将该伪标签划分为高质量伪标签或者不确定伪标签。

示例性的，可以预先构建一个样本数据集，该样本数据集可以包括多个无标签数据(如无标签图像)，即将无标签数据添加到样本数据集。针对每个无标签数据来说，该无标签数据没有标定信息，即没有对应的标定框和标定类别。

示例性的，针对样本数据集中的每个无标签数据来说，可以将该无标签数据输入给初始管理模型，由该初始管理模型对该无标签数据进行处理，得到该无标签数据对应的预测框、该无标签数据对应的预测框对应的预测标签、及与该预测标签对应的概率值(即预测框内的目标对象是该预测标签的概率值)。

比如说，初始管理模型支持类别1、类别2和类别3的目标检测，则初始管理模型对无标签数据进行处理之后，可以得到预测框以及该预测框对应的概率向量，如概率向量可以是[0.9,0.06,0.04]，基于该概率向量可以获知该预测框对应的预测标签是类别1，且与该预测标签对应的概率值是0.9。

其中，针对每个无标签数据，该无标签数据可能对应P个预测框，P为正整数，每个预测框对应一个预测标签，即P个预测框对应P个预测标签，每个预测标签对应一个概率值，此外，每个预测框还可以对应一个概率值。例如，初始管理模型对无标签数据进行处理后，得到预测框1和预测框1的概率值、预测框1对应的预测标签1和预测标签1的概率值，以及，预测框2和预测框2的概率值、预测框2对应的预测标签2和预测标签2的概率值。

其中，可以将无标签数据对应的预测框和该预测框对应的预测标签称为伪标签，并将该预测标签对应的概率值和该预测框对应的概率值称为伪标签对应的概率值，因此，在将无标签数据输入给初始管理模型之后，可以得到该无标签数据对应的伪标签(即预测框和预测标签)、及与该伪标签对应的概率值。

综上所述，将样本数据集中的多个无标签数据输入给初始管理模型后，可以得到大量伪标签，针对每个伪标签来说，可以得到该伪标签对应的概率值。

示例性的，针对初始管理模型支持检测的每种类别，基于与该类别对应的所有伪标签(基于伪标签的预测标签获知伪标签对应的类别)对应的概率值，对该类别对应的所有伪标签进行排序；基于排序结果，选取概率值大的K个伪标签作为该类别对应的高质量伪标签，并将该类别对应的所有伪标签中除该类别对应的高质量伪标签之外的剩余伪标签作为该类别对应的不确定伪标签。

其中，假设初始管理模型支持类别1、类别2和类别3的目标检测，则针对每个伪标签，若该伪标签中的预测标签是类别1，则该伪标签与类别1对应，若该伪标签中的预测标签是类别2，则该伪标签与类别2对应，若该伪标签中的预测标签是类别3，则该伪标签与类别3对应。综上所述，针对初始管理模型支持检测的每种类别，可以得到与该类别对应的所有伪标签(即预测框和预测标签)，如类别1对应伪标签c1-c100，类别2对应伪标签c101-c300，类别3对应伪标签c301-c600。

基于与该类别对应的所有伪标签对应的概率值，对该类别对应的所有伪标签进行排序。比如说，基于伪标签中的预测标签对应的概率值，按照预测标签对应的概率值从大到小的顺序对该类别对应的所有伪标签进行排序，或者，按照预测标签对应的概率值从小到大的顺序对该类别对应的所有伪标签进行排序。又例如，计算伪标签中的预测标签对应的概率值和预测框对应的概率值之间的概率乘积值(或者概率平均值)，按照概率乘积值从大到小的顺序对该类别对应的所有伪标签进行排序，或者，按照概率乘积值从小到大的顺序对该类别对应的所有伪标签进行排序。当然，也可以采用其它方式排序，对此不做限制。

基于排序结果，可以选取概率值大的K个伪标签作为该类别对应的高质量伪标签，并将该类别对应的所有伪标签中除该类别对应的高质量伪标签之外的剩余伪标签作为该类别对应的不确定伪标签。比如说，若按照预测标签对应的概率值(或概率乘积值)从大到小的顺序排序，则可以选取排序靠前的K个伪标签作为高质量伪标签，将剩余伪标签作为不确定伪标签。若按照预测标签对应的概率值(或概率乘积值)从小到大的顺序排序，则可以选取排序靠后的K个伪标签作为高质量伪标签，将剩余伪标签作为不确定伪标签。

针对类别1对应的伪标签c1-c100，按照预测标签对应的概率值(与类别1对应的概率值)从大到小的顺序对伪标签c1-c100进行排序，选取排序靠前的K个伪标签(如c1-c10)作为高质量伪标签，将剩余的伪标签(如c11-c100)作为不确定伪标签。针对类别2对应的伪标签c101-c300，按照预测标签对应的概率值(与类别2对应的概率值)从大到小的顺序对伪标签c101-c300进行排序，选取排序靠前的K个伪标签作为高质量伪标签，并将剩余的伪标签作为不确定伪标签，以此类推，可以得到每种类别对应的高质量伪标签和不确定伪标签。

关于K的取值，可以根据经验配置，也可以基于类别对应的伪标签的总数量确定，如K等于总数量*M，M是位于0-1之间的数值，可以根据经验配置，如20％、30％等。在M等于20％的情况下，由于类别1对应100个伪标签，K的取值为20，即从类别1对应的所有伪标签中选取排序靠前的20个伪标签作为高质量伪标签，并将剩余的80个伪标签作为不确定伪标签。由于类别2对应200个伪标签，K的取值为40，即从类别2对应的所有伪标签中选取排序靠前的40个伪标签作为高质量伪标签，并将剩余的160个伪标签作为不确定伪标签，以此类推。

综上所述，针对样本数据集中所有无标签数据对应的所有伪标签，可以划分为高质量伪标签和不确定伪标签。高质量伪标签可以作为可靠标签，在后续训练过程中，可以将高质量伪标签作为有标签数据，即高质量伪标签对应有标定框和标定类别。比如说，将初始管理模型输出的预测框作为该高质量伪标签的标定框，将初始管理模型输出的预测标签作为该高质量伪标签的标定类别。

综上所述，可以得到有标签数据、高质量伪标签和不确定伪标签，在此基础上，可以基于有标签数据和无标签数据(这些无标签数据可以是高质量伪标签的无标签数据和不确定伪标签的无标签数据)进行联合训练，即进行半监督的联合训练。在联合训练过程中，有标签数据与无标签数据的配比可以是m：n，即有标签数据的总数量与无标签数据的总数量的比例是m：n，m：n可以根据经验进行配置，对此m：n的取值不做限制，如1：1、1：2、2：1等。

针对半监督训练过程，继续参见图2所示，可以包括以下步骤：

步骤204、对有标签数据进行数据增广，将数据增广后的有标签数据输入给初始学习模型，得到该有标签数据对应的第三预测值，并基于第三预测值确定第四预测标签和第四预测框，基于第四预测标签和第四预测框确定第三损失值。

针对每个有标签数据，可以采用空间变换和/或色彩变换等方式，对有标签数据进行数据增广，对此过程不做限制，得到数据增广后的有标签数据。

在联合训练过程中，可以将数据增广后的有标签数据输入给初始学习模型，由初始学习模型对有标签数据进行处理，得到该有标签数据对应的第三预测值，该第三预测值可以包括预测框和预测标签，为了区分方便，将该预测框称为第四预测框，将该预测标签称为第四预测标签，即可以基于第三预测值确定第四预测标签和第四预测框。第四预测框用于表示目标对象所在位置，如4个顶点坐标，第四预测标签用于表示目标对象的类别，如类别1、类别2、或类别3等。

针对有标签数据来说，该有标签数据对应有标定信息，如标定框和标定类别。在此基础上，可以基于有标签数据对应的第四预测标签和该有标签数据对应的标定类别确定出类别损失值，并基于有标签数据对应的第四预测框和该有标签数据对应的标定框确定出坐标框损失值。然后，基于类别损失值和坐标框损失值确定第三损失值。比如说，采用如下公式(2)确定第三损失值：

L＝L _loc+L _cls (2)，

其中，L用于表示第三损失值，L _loc用于表示坐标框损失值，L _cls用于表示类别损失值。

其中，对于类别损失值L _cls，若第四预测标签与标定类别匹配，则类别损失值较小，如类别损失值为损失值最小值，若第四预测标签与标定类别不匹配，则类别损失值较大，如类别损失值为损失值最大值。

其中，对于坐标框损失值L _loc，若第四预测框与标定框匹配，则坐标框损失值较小，如坐标框损失值为损失值最小值，若第四预测框与标定框不匹配，则可以确定第四预测框的4个顶点坐标与标定框的4个顶点坐标的接近程度，若第四预测框与标定框越接近，则坐标框损失值越小，若第四预测框与标定框差别越大，则坐标框损失值越大。

比如说，确定第四预测框的4个顶点坐标对应的坐标点偏移量的概率分布，即第四预测框的每个顶点坐标对应一个概率分布，确定标定框的4个顶点坐标对应的坐标点偏移量的概率分布，即标定框的每个顶点坐标对应一个概率分布。在确定顶点坐标对应的概率分布时，通过均值和方差表示概率分布，如顶点坐标x(如预测框的顶点坐标或标定框的顶点坐标)对应的概率分布为N(μ _tx，∑ _tx)。

基于第四预测框的4个顶点坐标对应的概率分布和标定框的4个顶点坐标对应的概率分布，就可以计算第四预测框与标定框之间的坐标框损失值。例如，可以基于第四预测框对应的概率分布与标定框对应的概率分布计算负对数似然损失值，并基于负对数似然损失值就可以得到确定坐标框损失值。

综上所述，可以得到有标签数据对应的类别损失值和坐标框损失值，并基于该类别损失值和该坐标框损失值确定有标签数据对应的第三损失值。

步骤205、对无标签数据进行第一数据增广，将第一数据增广后的无标签数据输入给初始学习模型，得到该无标签数据对应的第一预测值；基于与高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与不确定伪标签对应的第一预测值确定第二预测标签和第二预测框。

示例性的，针对每个无标签数据来说，可以采用空间变换和/或色彩变换等方式，对该无标签数据进行第一数据增广，得到第一数据增广后的无标签数据。

示例性的，在联合训练过程中，可以将第一数据增广后的无标签数据输入给初始学习模型，由初始学习模型对无标签数据进行处理，得到该无标签数据对应的第一预测值，该第一预测值可以包括预测框和预测标签。

参见步骤203，已经为无标签数据添加伪标签，且将伪标签划分为高质量伪标签和不确定伪标签，高质量伪标签可以具有与其对应的预测框(即作为标定框)和预测标签(即作为标定类别)，不确定伪标签可以具有与其对应的预测框和预测标签。

在此基础上，若第一预测值中的预测框与高质量伪标签对应的预测框匹配，即二者表示同一无标签数据(如无标签图像)中的同一个区域的预测框，则这个第一预测值是与该高质量伪标签对应的第一预测值，将该第一预测值中的预测标签作为第一预测标签，将该第一预测值中的预测框作为第一预测框，即基于与高质量伪标签对应的第一预测值确定第一预测标签和第一预测框。

若第一预测值中的预测框与不确定伪标签对应的预测框匹配，即二者表示同一无标签数据(如无标签图像)中的同一个区域的预测框，则这个第一预测值是与该不确定伪标签对应的第一预测值，并将该第一预测值中的预测标签作为第二预测标签，将该第一预测值中的预测框作为第二预测框，即基于与不确定伪标签对应的第一预测值确定第二预测标签和第二预测框。

其中，第二预测框用于表示目标对象所在位置，如4个顶点坐标，第二预测标签用于表示目标对象的类别。针对第二预测标签来说，可以包括与初始学习模型支持检测的C种类别对应的C个第一概率值，C可以为大于1的正整数。比如说，假设初始学习模型支持检测类别1、类别2和类别3等三种类别，则第二预测标签可以包括与类别1对应的第一概率值(如0.5)、与类别2对应的第一概率值(如0.3)、与类别3对应的第一概率值(如0.2)，即第二预测标签为[0.5,0.3,0.2]。

步骤206、对无标签数据进行第二数据增广，将第二数据增广后的无标签数据输入给初始管理模型，得到该无标签数据对应的第二预测值；基于与不确定伪标签对应的第二预测值确定第三预测标签和第三预测框。

示例性的，针对每个无标签数据，可以采用空间变换和/或色彩变换等方式，对该无标签数据进行第二数据增广，得到第二数据增广后的无标签数据。其中，第一数据增广的方式与第二数据增广的方式可以不同，即采用不同增广方式对同一无标签数据进行两次数据增广，得到两个数据增广后的无标签数据，一个无标签数据输入给初始学习模型，另一个无标签数据输入给初始管理模型。

示例性的，在联合训练过程中，可以将第二数据增广后的无标签数据输入给初始管理模型，由初始管理模型对无标签数据进行处理，得到该无标签数据对应的第二预测值，该第二预测值可以包括预测框和预测标签。

参见步骤203，已经为无标签数据添加伪标签，且将伪标签划分为高质量伪标签和不确定伪标签，高质量伪标签可以具有与其对应的预测框和预测标签，不确定伪标签可以具有与其对应的预测框和预测标签。在此基础上，若第二预测值中的预测框与高质量伪标签对应的预测框匹配，则不再考虑该第二预测值中的预测框和预测标签，即不参与后续训练。若第二预测值中的预测框与不确定伪标签对应的预测框匹配，即二者表示同一无标签数据(如无标签图像)中的同一个区域的预测框，则这个第二预测值是与该不确定伪标签对应的第二预测值，将该第二预测值中的预测标签作为第三预测标签，将该第二预测值中的预测框作为第三预测框，即基于与不确定伪标签对应的第二预测值确定第三预测标签和第三预测框。

其中，第三预测框用于表示目标对象所在位置，如4个顶点坐标，第三预测标签用于表示目标对象的类别。针对第三预测标签来说，可以包括与初始管理模型支持检测的C种类别对应的C个第二概率值，C可以为大于1的正整数。比如说，假设初始管理模型支持类别1、类别2和类别3等三种类别，则第三预测标签可以包括与类别1对应的第二概率值(如0.6)、与类别2对应的第二概率值(如0.2)、与类别3对应的第二概率值(如0.2)，即第三预测标签为[0.6,0.2,0.2]。

步骤207、基于第一预测标签和第一预测框确定第一损失值。

由于第一预测标签和第一预测框是高质量伪标签对应的预测标签和预测框，且高质量伪标签还对应有标定信息，如标定框和标定类别(参见步骤203，高质量伪标签对应的预测框作为标定框，高质量伪标签对应的预测标签作为标定类别)，在此基础上，可以基于高质量伪标签对应的第一预测标签和该高质量伪标签对应的标定类别确定出类别损失值，并基于高质量伪标签对应的第一预测框和该高质量伪标签对应的标定框确定出坐标框损失值。然后，可以基于该类别损失值和该坐标框损失值确定出第一损失值。其中，该第一损失值的确定过程可以参见上述第三损失值的确定过程，在此不再重复赘述。

步骤208、基于第二预测标签、第二预测框、第三预测标签和第三预测框确定第二损失值。示例性的，由于该第二预测标签和该第二预测框是不确定伪标签对应的预测标签和预测框(由初始学习模型输出)，且该第三预测标签和该第三预测框也是该不确定伪标签对应的预测标签和预测框(由初始管理模型输出)，在此基础上，可以基于不确定伪标签对应的该第二预测标签和该不确定伪标签对应的该第三预测标签确定出类别损失值，并基于不确定伪标签对应的该第二预测框和该不确定伪标签对应的该第三预测框确定出坐标框损失值。然后，可以基于该类别损失值和该坐标框损失值确定出第二损失值。

示例性的，第二预测标签包括C个第一概率值，第三预测标签包括C个第二概率值，可以基于C个第一概率值和C个第二概率值确定一致性约束的类别损失值，一致性约束的类别损失值是指初始管理模型的预测标签与初始学习模型的预测标签之间的一致性约束。可以确定与第二预测框对应的坐标点偏移量的第一概率分布，确定与第三预测框对应的坐标点偏移量的第二概率分布，并基于第一概率分布和第二概率分布确定一致性约束的坐标框损失值，一致性约束的坐标框损失值是指初始管理模型的预测框与初始学习模型的预测框之间的一致性约束。可以基于该类别损失值和该坐标框损失值确定第二损失值。

在一种可能的实施方式中，可以确定第一概率分布与第二概率分布之间的相对熵，并基于该相对熵确定一致性约束的坐标框损失值。

比如说，不确定伪标签对应第二预测标签和第二预测框，第三预测标签和第三预测框，基于第二预测标签和第三预测标签确定出类别损失值，基于第二预测框和第三预测框确定出坐标框损失值。然后，基于类别损失值和坐标框损失值确定第二损失值。比如说，采用如下公式(3)确定第二损失值：

L＝L _loc+L _cls (3)，

其中，L用于表示第二损失值，L _loc用于表示坐标框损失值，L _cls用于表示类别损失值。

其中，对于类别损失值L _cls来说，第二预测标签包括与C种类别对应的C个第一概率值，第三预测标签包括与C种类别对应的C个第二概率值，基于C个第一概率值和C个第二概率值，可以采用如下公式计算一致性约束的类别损失值，当然，如下公式(4)只是一个示例，对此不做限制，只要可以基于C个第一概率值和C个第二概率值，确定出一致性约束的类别损失值即可。

在上述公式(4)中，L _c-cls表示一致性约束的类别损失值，C表示初始学习模型或初始管理模型支持检测的C种类别，i表示C种类别中的第i种类别，p _ti表示初始管理模型输出的第i种类别对应的第二概率值(属于第三预测标签)，在实际应用中，p _ti可以是对第i种类别对应的第二概率值进行锐化处理后的概率值，p _si表示初始学习模型输出的第i种类别对应的第一概率值(属于第二预测标签)。

其中，i的取值范围是1-C，当i为1时，表示初始学习模型支持检测的第1种类别，p _ti表示第1种类别对应的第二概率值，p _si表示第1种类别对应的第一概率值，以此类推，当i为C时，表示初始学习模型支持检测的第C种类别，p _ti表示第C种类别对应的第二概率值，p _si表示第C种类别对应的第一概率值。

其中，对于坐标框损失值L _loc来说，可以确定第二预测框的4个顶点坐标与第三预测框的4个顶点坐标的接近程度，若接近程度表示第二预测框与第三预测框越接近，则坐标框损失值越小，若接近程度表示第二预测框与第三预测框差别越大，则坐标框损失值越大。例如，确定第二预测框的4个顶点坐标对应的坐标点偏移量的第一概率分布，即每个顶点坐标对应一个第一概率分布，确定第三预测框的4个顶点坐标对应的坐标点偏移量的第二概率分布，即每个顶点坐标对应一个第二概率分布。在确定顶点坐标对应的概率分布时，通过均值和方差表示概率分布，如顶点坐标x对应的概率分布为N(μ _tx，∑ _tx)。

基于第一概率分布和第二概率分布，就可以确定一致性约束的坐标框损失值，比如说，可以采用如下公式计算一致性约束的坐标框损失值，当然，如下公式(5)只是示例，对此不做限制，只要能够得到坐标框损失值即可。

L _c-loc＝∑ _{a＝{x，y，w，h}}KL(N(μ _ta-t，∑ _ta-t)||N(μ _ta-s，∑ _ta-s)) (5)，

在上述公式(5)中，L _c-loc表示一致性约束的坐标框损失值，a表示预测框的4个顶点坐标，如a可以为顶点坐标(x,y)、a可以为顶点坐标(x+w,y)、a可以为顶点坐标(x,y+h)、a可以为顶点坐标(x+w,y+h)，即a可以是4个顶点坐标。

KL代表KL(Kullback-Leibler)散度，也可以称为相对熵或者信息散度等，N(μ _ta-s，∑ _ta-s)表示顶点坐标a对应的坐标点偏移量的第一概率分布(也称为高斯分布)，即初始学习模型输出的第二预测框对应的概率分布，N(μ _ta-t，∑ _ta-t)表示顶点坐标a对应的坐标点偏移量的第二概率分布，即初始管理模型输出的第三预测框对应的概率分布，在实际应用中，∑ _ta-t还可以进行锐化处理。

综上所述，可以计算顶点坐标(x,y)对应的坐标点偏移量的第一概率分布和顶点坐标(x,y)对应的坐标点偏移量的第二概率分布之间的相对熵，并计算顶点坐标(x+w,y)对应的坐标点偏移量的第一概率分布和顶点坐标(x+w,y)对应的坐标点偏移量的第二概率分布之间的相对熵，并计算顶点坐标(x,y+h)对应的坐标点偏移量的第一概率分布和顶点坐标(x,y+h)对应的坐标点偏移量的第二概率分布之间的相对熵，并计算顶点坐标(x+w,y+h)对应的坐标点偏移量的第一概率分布和顶点坐标(x+w,y+h)对应的坐标点偏移量的第二概率分布之间的相对熵。然后，计算上述4个相对熵的求和值，也就是一致性约束的坐标框损失值L _c-loc。

综上所述，可以得到不确定伪标签对应的类别损失值和坐标框损失值，并基于类别损失值和坐标框损失值确定不确定伪标签对应的第二损失值。

步骤209、基于第一损失值、第二损失值和第三损失值确定初始学***均值，作为初始学习模型的目标损失值，或者，将第一损失值、第二损失值和第三损失值之间的求和值，作为初始学习模型的目标损失值，对此不做限制。

步骤210、基于该目标损失值对初始学习模型的网络参数进行调整，得到调整后学习模型。比如说，在得到初始学习模型的目标损失值之后，可以基于该目标损失值对初始学习模型的网络参数进行调整，如采用梯度下降法等方式对初始学习模型的网络参数进行调整，本实施例对此调整过程不做限制。

步骤211、基于调整后学习模型的网络参数对初始管理模型的网络参数进行调整，得到调整后管理模型。比如说，在得到调整后学习模型之后，基于调整后学习模型的网络参数和已配置的比例系数确定网络参数的参数修正值，并基于该参数修正值对初始管理模型的网络参数进行调整，得到调整后管理模型。

例如，基于调整后学***均数指标)算法确定管理模型的网络参数，从而得到调整后管理模型。在采用EMA算法确定管理模型的网络参数时，可以基于调整后学习模型的网络参数和比例系数确定参数修正值，并基于参数修正值对初始管理模型的网络参数进行调整，得到调整后管理模型，对此过程不做限制。

步骤212、判断调整后管理模型是否已收敛。若调整后管理模型未收敛，则可以执行步骤213，若调整后管理模型已收敛，则可以执行步骤214。

示例性的，若初始管理模型或初始学习模型的迭代次数达到次数阈值，则确定调整后管理模型已收敛，若初始管理模型或初始学习模型的迭代次数未达到次数阈值，则确定调整后管理模型未收敛。或者，若初始学习模型的目标损失值小于损失值阈值，则确定调整后管理模型已收敛，若初始学习模型的目标损失值不小于损失值阈值，则确定调整后管理模型未收敛。

步骤213、若调整后管理模型未收敛，则将调整后学习模型确定为初始学习模型，将调整后管理模型确定为初始管理模型，返回执行步骤203。

步骤214、若调整后管理模型已收敛，则将已收敛的调整后管理模型确定为目标管理模型，而目标管理模型就是最终需要输出的模型。

示例性的，在得到目标管理模型之后，可以基于目标管理模型对待检测数据进行目标检测。比如说，比如说，可以将待检测数据(如待检测图像)输入给目标管理模型，由目标管理模型输出待检测数据中的目标框，并识别出目标或目标类别，如识别出人脸、识别出车辆类别、识别出动物类别、识别出电子产品类别等，对此过程不再赘述。

由以上技术方案可见，本公开实施例中，可以通过少量有标签数据和大量无标签数据训练得到目标管理模型，从而避免获取大量有标签数据，减轻标注操作的工作量，节约人力资源，且目标管理模型具有比较好的性能，可靠性很高。在有效利用伪标签的基础上，提升训练过程中对噪声样本的鲁棒性，目标管理模型相较基线模型有非常大的提升。将不同比例的伪标签设置为高质量的伪标签均能取得比较好的训练结果，对噪声样本具有较好的鲁棒性，对超参不敏感。基于相同图像不同增广后的特征维持一致的原理，对无标签数据不同增广下的预测框和预测标签建立一致性约束，能够在有效利用伪标签的基础上，提升训练过程中对噪声样本的鲁棒性。可以将伪标签和一致性约束进行结合，对可靠的预测框，采用伪标签作为真实类别，对于不确信的预测框，对预测结果(或者特征)建立一致性对比损失。利用不同视图的预测结果(或者特征)来约束同一目标在不同增广下不改变类别特性，采用管理模型-学***滑稳定的分类器，并只对学习模型进行梯度回传。

基于与上述方法同样的申请构思，本公开实施例中提出一种目标检测装置，参见图3所示，为所述目标检测装置的结构示意图，所述装置可以包括：

获取模块31，用于获取初始管理模型和初始学习模型，基于所述初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签；确定模块32，用于将无标签数据输入给初始学习模型，得到该无标签数据对应的第一预测值；基于与高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与不确定伪标签对应的第一预测值确定第二预测标签和第二预测框；将无标签数据输入给初始管理模型，得到该无标签数据对应的第二预测值，基于与不确定伪标签对应的第二预测值确定第三预测标签和第三预测框；处理模块33，用于基于所述第一预测标签、第一预测框、第二预测标签、第二预测框、第三预测标签和第三预测框对初始管理模型进行训练，得到目标管理模型；其中，所述目标管理模型用于对待检测数据进行目标检测。

示例性的，所述获取模块31获取初始管理模型和初始学习模型时具体用于：利用有标签数据训练得到一个基线模型；基于所述基线模型生成初始管理模型和初始学习模型；其中，所述初始管理模型的网络结构与所述基线模型的网络结构相同，所述初始管理模型的网络参数与所述基线模型的网络参数相同或不同；所述初始学习模型的网络结构与所述基线模型的网络结构相同，所述初始学习模型的网络参数与所述基线模型的网络参数相同或不同。

示例性的，所述获取模块31基于所述初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签时具体用于：针对每个无标签数据，将该无标签数据输入给所述初始管理模型，得到该无标签数据对应的伪标签、及与所述伪标签对应的概率值；针对所述初始管理模型支持检测的每种类别，基于与该类别对应的所有伪标签对应的概率值，对该类别对应的所有伪标签进行排序；基于排序结果，选取概率值大的K个伪标签作为该类别对应的高质量伪标签，并将该类别对应的所有伪标签中除该类别对应的高质量伪标签之外的剩余伪标签作为该类别对应的不确定伪标签；其中，K为正整数。

示例性的，所述处理模块33基于所述第一预测标签、第一预测框、第二预测标签、第二预测框、第三预测标签和第三预测框对初始管理模型进行训练，得到目标管理模型时具体用于：基于所述第一预测标签和所述第一预测框确定第一损失值；基于所述第二预测标签、所述第二预测框、所述第三预测标签和所述第三预测框确定第二损失值；基于所述第一损失值和所述第二损失值对初始管理模型进行调整，得到所述目标管理模型。

示例性的，所述处理模块33基于所述第二预测标签、第二预测框、第三预测标签和第三预测框确定第二损失值时具体用于：若所述第二预测标签包括与所述初始学习模型支持检测的C种类别对应的C个第一概率值，所述第三预测标签包括与所述初始管理模型支持检测的C种类别对应的C个第二概率值，则基于所述C个第一概率值和所述C个第二概率值确定一致性约束的类别损失值；其中，所述C为大于1的正整数；确定与所述第二预测框对应的坐标点偏移量的第一概率分布，并确定与所述第三预测框对应的坐标点偏移量的第二概率分布，基于所述第一概率分布和所述第二概率分布确定一致性约束的坐标框损失值；基于所述类别损失值和所述坐标框损失值确定第二损失值。

示例性的，所述处理模块33基于所述第一概率分布和所述第二概率分布确定一致性约束的坐标框损失值时具体用于：确定所述第一概率分布与所述第二概率分布之间的相对熵；基于所述相对熵确定一致性约束的坐标框损失值。

示例性的，所述处理模块33基于所述第一损失值和所述第二损失值对初始管理模型进行调整，得到所述目标管理模型时具体用于：基于所述第一损失值和所述第二损失值对所述初始学习模型的网络参数进行调整，得到调整后学习模型；基于所述调整后学习模型的网络参数对所述初始管理模型的网络参数进行调整，得到调整后管理模型；若所述调整后管理模型未收敛，则将所述调整后学习模型确定为初始学习模型，将所述调整后管理模型确定为初始管理模型，返回执行基于所述初始管理模型为无标签数据添加伪标签，并将伪标签划分为高质量伪标签和不确定伪标签的操作；若所述调整后管理模型已收敛，则将所述调整后管理模型确定为所述目标管理模型。

示例性的，所述处理模块33基于所述调整后学习模型的网络参数对所述初始管理模型的网络参数进行调整，得到调整后管理模型时具体用于：基于调整后学习模型的网络参数和已配置的比例系数确定网络参数的参数修正值，基于所述参数修正值对初始管理模型的网络参数进行调整，得到调整后管理模型。

基于与上述方法同样的申请构思，本公开实施例中提出一种目标检测设备，参见图4所示，所述目标检测设备可以包括：处理器41和机器可读存储介质42，所述机器可读存储介质42存储有能够被所述处理器41执行的机器可执行指令；所述处理器41用于执行机器可执行指令，以实现本公开上述示例公开的目标检测方法。比如说，处理器41用于执行机器可执行指令，以实现如下步骤：

其中，所述目标管理模型用于对待检测数据进行目标检测。

基于与上述方法同样的申请构思，本公开实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本公开上述示例公开的目标检测方法。

其中，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的实施例而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

Claims

一种目标检测方法，所述方法包括：

获取初始管理模型和初始学习模型，并基于所述初始管理模型为无标签数据添加伪标签，并将所述伪标签划分为高质量伪标签和不确定伪标签；

将所述无标签数据输入给所述初始学习模型，得到所述无标签数据对应的第一预测值；基于与所述高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与所述不确定伪标签对应的第一预测值确定第二预测标签和第二预测框；

将所述无标签数据输入给所述初始管理模型，得到所述无标签数据对应的第二预测值，基于与所述不确定伪标签对应的第二预测值确定第三预测标签和第三预测框；

基于所述第一预测标签、所述第一预测框、所述第二预测标签、所述第二预测框、所述第三预测标签和所述第三预测框对所述初始管理模型进行训练，得到目标管理模型；

其中，所述目标管理模型用于对待检测数据进行目标检测。
根据权利要求1所述的方法，其特征在于，

所述获取初始管理模型和初始学习模型，包括：

利用有标签数据训练得到基线模型；

基于所述基线模型生成所述初始管理模型和所述初始学习模型；

其中，所述初始管理模型的网络结构与所述基线模型的网络结构相同；

其中，所述初始学习模型的网络结构与所述基线模型的网络结构相同。
根据权利要求1所述的方法，其特征在于，基于所述初始管理模型为无标签数据添加伪标签，并将所述伪标签划分为高质量伪标签和不确定伪标签，包括：

针对每个无标签数据，将该无标签数据输入给所述初始管理模型，得到该无标签数据对应的伪标签、及与所述伪标签对应的概率值；

针对所述初始管理模型支持检测的类别中的每种类别，

基于与该类别对应的所有伪标签对应的概率值，对该类别对应的所有伪标签进行排序；

基于排序结果，选取概率值大的K个伪标签作为该类别对应的高质量伪标签，并将该类别对应的所有伪标签中除该类别对应的高质量伪标签之外的剩余伪标签确定为该类别对应的不确定伪标签；其中，所述K为正整数。
根据权利要求1所述的方法，其特征在于，

所述将无标签数据输入给初始学习模型，包括：对所述无标签数据进行第一数据增广，将第一数据增广后的无标签数据输入给所述初始学习模型；

所述将无标签数据输入给初始管理模型，包括：对所述无标签数据进行第二数据增广，将第二数据增广后的无标签数据输入给所述初始管理模型；

其中，所述第一数据增广的方式与所述第二数据增广的方式不同。
根据权利要求1所述的方法，其特征在于，所述基于所述第一预测标签、所述第一预测框、所述第二预测标签、所述第二预测框、所述第三预测标签和所述第三预测框对所述初始管理模型进行训练，得到目标管理模型，包括：

基于所述第一预测标签和所述第一预测框确定第一损失值；

基于所述第二预测标签、所述第二预测框、所述第三预测标签和所述第三预测框确定第二损失值；

基于所述第一损失值和所述第二损失值对所述初始管理模型进行调整，得到所述目标管理模型。
根据权利要求5所述的方法，其特征在于，所述基于所述第二预测标签、所述第二预测框、所述第三预测标签和所述第三预测框确定第二损失值，包括：

响应于确定所述第二预测标签包括与所述初始学习模型支持检测的C种类别对应的C个第一概率值，所述第三预测标签包括与所述初始管理模型支持检测的C种类别对应的C个第二概率值，则基于所述C个第一概率值和所述C个第二概率值确定一致性约束的类别损失值；其中，所述C为大于1的正整数；

确定与所述第二预测框对应的坐标点偏移量的第一概率分布，并确定与所述第三预测框对应的坐标点偏移量的第二概率分布，基于所述第一概率分布和所述第二概率分布确定一致性约束的坐标框损失值；

基于所述类别损失值和所述坐标框损失值确定所述第二损失值。
根据权利要求5所述的方法，其特征在于，

所述基于所述第一损失值和所述第二损失值对所述初始管理模型进行调整，得到所述目标管理模型之前，所述方法还包括：将有标签数据输入给所述初始学习模型，得到该有标签数据对应的第三预测值，基于所述第三预测值确定第四预测标签和第四预测框，并基于第四预测标签和第四预测框确定第三损失值；

所述基于所述第一损失值和所述第二损失值对所述初始管理模型进行调整，得到所述目标管理模型，包括：基于所述第一损失值、所述第二损失值和所述第三损失值对所述初始管理模型进行调整，得到所述目标管理模型。
根据权利要求5或7所述的方法，其特征在于，所述基于所述第一损失值和所述第二损失值对所述初始管理模型进行调整，得到所述目标管理模型，包括：

基于所述第一损失值和所述第二损失值对所述初始学习模型的网络参数进行调整，得到调整后学习模型；基于所述调整后学习模型的网络参数对所述初始管理模型的网络参数进行调整，得到调整后管理模型；

响应于确定所述调整后管理模型未收敛，则将调整后学习模型确定为初始学习模型，将调整后管理模型确定为初始管理模型，返回执行基于所述初始管理模型为无标签数据添加伪标签，并将所述伪标签划分为高质量伪标签和不确定伪标签的操作；

响应于确定所述调整后管理模型已收敛，则将所述调整后管理模型确定为所述目标管理模型。
根据权利要求8所述的方法，其特征在于，

所述基于所述调整后学习模型的网络参数对所述初始管理模型的网络参数进行调整，得到调整后管理模型，包括：基于所述调整后学习模型的网络参数和已配置的比例系数确定网络参数的参数修正值，并基于所述参数修正值对所述初始管理模型的网络参数进行调整，得到所述调整后管理模型。
一种目标检测装置，所述装置包括：

获取模块，用于获取初始管理模型和初始学习模型，基于所述初始管理模型为无标签数据添加伪标签，并将所述伪标签划分为高质量伪标签和不确定伪标签；

确定模块，用于将所述无标签数据输入给所述初始学习模型，得到所述无标签数据对应的第一预测值；基于与所述高质量伪标签对应的第一预测值确定第一预测标签和第一预测框，基于与所述不确定伪标签对应的第一预测值确定第二预测标签和第二预测框；将所述无标签数据输入给初始管理模型，得到所述无标签数据对应的第二预测值，基于与所述不确定伪标签对应的第二预测值确定第三预测标签和第三预测框；

处理模块，用于基于所述第一预测标签、所述第一预测框、所述第二预测标签、所述第二预测框、所述第三预测标签和所述第三预测框对所述初始管理模型进行训练，得到目标管理模型；其中，所述目标管理模型用于对待检测数据进行目标检测。
一种目标检测设备，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；

其中当所述处理器用于执行机器可执行指令，以实现权利要求1至9任一所述的目标检测方法。
一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现权利要求1至9任一所述的目标检测方法。