CN113052217A

CN113052217A - 预测结果标识及其模型训练方法、装置及计算机存储介质

Info

Publication number: CN113052217A
Application number: CN202110276684.8A
Authority: CN
Inventors: 薛星源
Original assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-29

Abstract

一种预测结果标识及其模型训练方法、装置及计算机存储介质，主要包括根据样本图片，确定样本图片中标注框的类别标签和位置标签，并获得样本图片中的各锚框的各锚框预测结果，根据各锚框的各类别预测信息和各位置预测信息，以及标注框的类别标签和位置标签，确定至少一个锚框预测结果以标识为第一样本，并根据各锚框的各位置预测信息以及标注框的位置标签，确定至少一个锚框预测结果以标识为第二样本。借此，本申请可获取更好的正负样本分配参考，并可模型的优化训练性能。

Description

预测结果标识及其模型训练方法、装置及计算机存储介质

技术领域

本申请实施例涉及样本标识技术领域，更具体地，涉及一种预测结果标识及其模型训练方法、装置及计算机存储介质。

背景技术

在目前基于深度学习的目标检测中，正负样本分配一般是基于预先定义的锚点和真实目标框的交并比，设定一个正阈值和一个负阈值，当锚点和真实目标框的交并比大于正阈值时，样本为正样本，小于负阈值时，样本为负样本。

然而，这种正负样本分配方式存在两个缺点：其一，依赖于锚点的设计，且锚点的设计容易因手工生成而存在生硬的缺点，例如，容易导致大目标被匹配的正样本多、小目标被匹配的正样本少；其二，在分配正样本时，由于遮挡的存在，给某个真实目标框分配的锚点中心实际上可能落在另一个目标上。

鉴于这种基于交并比的正负样本分配方式所存在的缺陷，目前有一些研究提出了可学习的正负样本分配，亦即，让神经网络学习锚点的正样本和负样本权重。然而，这种正负样本分配方式仍存在以下缺点：其一，在训练过程中引入了大量低质量正负样本，不利于网络的优化；其二，降低了负样本的损失权重，有增加假阳性的风险。

发明内容

鉴于上述问题，本申请提供一种预测结果标识及其模型训练方法、装置及计算机存储介质，以克服上述问题或者至少部分地解决上述问题。

本申请第一方面提供一种预测结果标识方法，其包括：根据样本图片，确定所述样本图片中的至少一个标注框的类别标签和位置标签，并获得所述样本图片中的各锚框的各锚框预测结果，其中，所述锚框预测结果包括类别预测信息和位置预测信息；根据各所述锚框的各所述类别预测信息和各所述位置预测信息，以及所述标注框的类别标签和位置标签，确定至少一个所述锚框预测结果以标识为第一样本；以及根据各所述锚框的各所述位置预测信息以及所述标注框的所述位置标签，确定至少一个所述锚框预测结果以标识为第二样本。

本申请第二方面提供一种计算机存储介质，其特征在于，所述计算机存储介质中存储有用于执行上述第一方面所述的预测结果标识方法的各所述步骤的指令。

本申请第三方面提供一种模型训练方法，其包括：利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各参考预测结果；利用上述第一方面所述的预测结果标识方法针对各所述参考预测结果进行标识，以确定至少一个所述参考预测结果以标识为第一样本以及确定至少一个所述参考预测结果以标识为第二样本；以及构建与所述参考模型具有相同识别能力的待优化模型，并将所述样本图片作为输入，将标识为所述第一样本和所述第二样本的各所述参考预测结果作为输出，以训练所述待优化模型。

本申请第四方面提供一种模型训练方法，其包括：执行样本获取步骤，利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各预测结果；利用上述第一方面所述预测结果标识方法针对各所述预测结果进行标识，确定至少一个所述预测结果以标识为候选正样本以及确定至少一个所述预测结果以标识为负样本；以及提供打分器针对各所述候选正样本进行打分，并根据打分结果筛选各候选正样本以获得至少一个正样本，并利用所述正样本和所述负样本训练待优化模型。

本申请第五方面提供一种计算机存储介质，其特征在于，所述计算机存储介质中存储有用于执行上述第三方面或第四方面所述的模型训练方法的各所述步骤的指令。

本申请第六方面提供预测结果标识装置，其包括：获取模块，用于根据样本图片，确定所述样本图片中的至少一个标注框的类别标签和位置标签，并获得所述样本图片中的各锚框的各锚框预测结果，其中，所述锚框预测结果包括类别预测信息和位置预测信息；标识模块，用于根据各所述锚框的各所述类别预测信息和各所述位置预测信息，以及所述标注框的类别标签和位置标签，确定至少一个所述锚框预测结果以标识为第一样本，并根据各所述锚框的各所述位置预测信息以及所述标注框的所述位置标签，确定至少一个所述锚框预测结果以标识为第二样本。

本申请第七方面提供模型训练装置，其包括：样本获取模块，其用于利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各参考预测结果；样本标识模块，用于利用上述第六方面所述预测结果标识装置，确定至少一个所述参考预测结果以标识为第一样本以及确定至少一个所述参考预测结果以标识为第二样本；训练模块，用于构建与所述参考模型具有相同识别能力的待优化模型，并将所述样本图片作为输入，将标识为所述第一样本和所述第二样本的各所述参考预测结果作为输出，以训练所述待优化模型。

本申请第八方面提供模型训练装置，其包括：样本获取模块，用于执行样本获取步骤，利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各预测结果；样本标识模块，用于执行样本标识步骤，利用上述第六方面所述预测结果标识装置，确定至少一个所述预测结果以标识为候选正样本以及确定至少一个所述预测结果以标识为负样本；迭代训练模块，用于执行打分器和待优化模型训练步骤，包括提供所述打分器针对所述各所述候选正样本进行打分，并根据打分结果筛选各所述候选正样本，获得至少一个正样本，并利用所述正样本和所述负样本训练所述待优化模型。

综上所述，本申请实施例提供的预测结果标识及其模型训练方法、装置及计算机存储介质，鉴于蒸馏的思想，利用参考模型的预测输出进行正负样本的初步筛选，并引入可学习的打分器针对筛选出的正负样本进行打分，不仅获取更好的正负样本分配参考，并可在选择正负样本的过程中，避免引入大量低质量的正负样本。

再者，本申请实施例提供的预测结果标识及其模型训练方法、装置及计算机存储介质，利用多轮迭代训练方式优化模型，且在训练初期选择参考模型的预测输出作为得分，再将训练好的待优化模型替换为参考模型以进行下一轮迭代优化，不仅可以获得更好的训练性能，并可避免冷启动的问题。

另外，本申请实施例提供的预测结果标识及其模型训练方法、装置及计算机存储介质，采用可学习方式迭代更新正样本，对于训练模型具有一定的正则化作用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本申请第一实施例的预测结果标识方法的流程示意图；

图2为根据本申请第二实施例的预测结果标识方法的流程示意图；

图3为根据本申请第三实施例的预测结果标识方法的流程示意图；

图4为根据本申请第五实施例的模型训练方法的流程示意图；

图5为根据本申请第六实施例的模型训练方法的流程示意图；

图6为根据本申请第七实施例的模型训练方法的流程示意图；

图7为根据本申请第八实施例的模型训练方法的流程示意图；

图8为根据本申请第十实施例的预测结果标识装置的架构示意图；

图9为根据本申请第十一实施例的模型训练装置的架构示意图；

图10为根据本申请第十二实施例的模型训练装置的架构示意图。

元件标号

800：预测结果标识装置；802：获取模块；804：标识模块；900：模型训练装置；902：样本获取模块；904：样本标识模块；906：训练模块；1000：模型训练装置；1002：样本获取模块；1004：迭代训练模块。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面将结合本申请实施例附图进一步说明本申请实施例具体实现。

第一实施例

图1示出了本申请第一实施例的预测结果标识方法的处理流程，如图所示，本实施例的预测结果标识方法主要包括：

步骤S102，根据样本图片，确定样本图片中的至少一个标注框的类别标签和位置标签,并获得样本图片中的各锚框的各锚框预测结果。

于本实施例中，标注框用于标识出样本图片中的至少一个标的物；标注框的类别标签用于标识标的物的所属类别(例如：人、动物、植物、建筑等)；样本图片的位置标签用于标识各标的物在样本图片中的位置。

于本实施例中，参考模型为具有图片识别功能的图片识别模型。

于本实施例中，各锚框预测结果包括类别预测信息和位置预测信息。

可选地，类别预测信息可用于标识标的物在不同类别(例如：人、动物、植物、建筑等)上的概率分布结果；

步骤S104，根据各锚框的各类别预测信息和各位置预测信息，以及标注框的类别标签和位置标签，确定至少一个锚框预测结果以标识为第一样本。

于本实施例中，可根据锚框的位置预测信息和标注框的位置标签，确定落入标注框的锚框以作为候选锚框，再根据候选锚框的类别预测信息和位置预测信息以及标注框的类别标签和位置标签，确定至少一个候选锚框以作为第一样本。

于本实施例中，可将第一样本视为正样本。

步骤S106，根据各锚框的各位置预测信息以及标注框的位置标签，确定至少一个锚框预测结果以标识为第二样本。

于本实施例中，可根据各锚框的位置预测信息以及标注框的位置标签，获得各锚框与标注框之间的交并比，并将交并比小于预设阈值的各锚框标识为第二样本。

于本实施例中，可将第二样本视为负样本。

需说明的是，本实施例中的步骤S104和步骤S106的执行顺序并无特别限制，可根据实际需求同时执行或先后执行。

综上所述，本申请实施例提供了一种鉴于蒸馏思想的正负样本分配方法，可提高样本标识的准确性，减少引入过多低质量的负样本。

第二实施例

图2示出了本申请第二实施例的预测结果标识方法的处理流程。本实施例主要示出了第一样本标识的具体实施方案，如图所示，本实施例的预测结果标识方法主要包括：

步骤S202，根据各锚框的各位置预测信息和标注框的位置标签，确定落入标注框的各锚框以作为各候选锚框。

于本实施例中，当样本图片中存在多个标注框时(即样本图片中存在多个标的物时)，则依次选定一个标注框，并将各锚框分别与当前选定的标注框进行比对分析。

于本实施例中，可根据当前选定的标注框的位置标签以及各锚框的位置预测信息，确定落入标注框中的各个锚框以作为候选锚框。

可选地，若同一锚框同时落入了至少两个标注框中时，则根据锚框的位置预测标签和各标注框的各位置标签，获得锚框相较于各标注框的各交并比值，并将各交并比值中的最大者确定为锚框对应的标注框。

于本实施例中，可通过将锚框和标注框之间的交集面积除以锚框和标注框之间的并集面积，以获得锚框和标注框之间的交并比值。

步骤S204，根据各候选锚框的各类别预测信息和标注框的类别标签，获得各候选锚框的各类别预测得分。

可选地，可将候选锚框的类别预测信息(即锚框中的标的物在不同类别上的概率分布结果)与标注框的类别标签进行比对，获得各候选锚框的各类别预测得分。

步骤S206，根据各候选锚框的各位置预测信息和标注框的位置标签，获得各候选锚框相对于标注框的各交并比值。

于本实施例中，可根据位置预测信息获得候选锚框在样本图片中的框型区域，并根据位置标签获得标注框在样本图片中的框型区域，通过将候选锚框和标注框的交集面积除以候选锚框和标注框之间的并集面积，获得各候选锚框相对于标注框的各交并比值。

步骤S208，根据各候选锚框的各类别预测得分和各交并比值,确定分值范围。

于本实施例中，可根据各候选锚框的各类别预测得分，将各类别预测得分中的最大者确定为上限阈值(例如，记为得分S1)，并根据各候选锚框的各交并比值，确定交并比值最大的一个候选锚框，再将候选锚框的类别预测得分确定为下限阈值(例如，记为得分S2)，以根据所确定的上限阈值和下限阈值，生成分值范围(即介于S1至S2之间)。

步骤S210，根据各候选锚框的各类别预测得分与分值范围，将类别预测得分落入分值范围内的各候选锚框的各锚框预测结果标识为第一样本。

于本实施例中，可将类别预测得分介于S1和S2之间的各候选锚框的各锚框预测结果标识为第一样本(亦可称之为正样本)。

于本实施例中，倘若各类别预测得分中的最大者和交并比值最大的一个候选锚框的类别预测得分指向同一锚框预测结果时，亦即S1和S2相同时，则代表找到了最佳的一个锚框预测结果。

第三实施例

图3示出了本申请第三实施例的预测结果标识方法的处理流程，本实施例示出了第二样本标识的具体实施方案，如图所示，本实施例的预测结果标识方法主要包括：

步骤S302，根据各锚框的各位置预测信息和标注框的位置标签，获得各锚框相对于标注框的各交并比值。

于本实施例中，可根据各锚框的位置预测信与标注框的位置标签，计算出所有锚框与标注框之间的交并比值。

步骤S304，根据各锚框的各交并比值与预设阈值，将交并比值小于预设阈值的各锚框的各锚框预测结果标识为第二样本。

于本实施例中，预设阈值可设定为介于0.3至0.5之间，较佳地，可将预设阈值设置为0.5。

于本实施例中，第二样本亦可称为负样本。

综上所述，借由本申请第二实施例和第三实施例所标识第一样本(正样本)和第二样本(负样本)，可提高样本标识的准确性，利于提高后续的模型训练效果。

第四实施例

本申请第四实施例提供一种计算机存储介质，所述计算机存储介质中储存有用于执行上述第一实施例至第三实施例所述的预测结果标识方法的各所述步骤的指令。

第五实施例

图4示出了本申请第五实施例的模型训练方法，如图所示，本实施例的模型训练方法主要包括：

步骤S402，利用参考模型针对样本图片中的各锚框进行预测，获得各锚框的各参考预测结果。

于本实施例中，参考模型可包括主干网络层数为101层的检测器。

步骤S404，利用预测结果标识方法针对参考预测结果进行标识，以确定至少一个参考预测结果以标识为第一样本以及确定至少一个参考预测结果以标识为第二样本。

于本实施例中，可利用上述第一实施例至第三实施例中任一实施例所述的预测结果标识方法针对参考模型输出的参考预测结果进行标识，以将各参考预测结果标识为第一样本或第二样本。

步骤S406，构建与参考模型具有相同识别能力的待优化模型，并将样本图片作为输入，将标识为第一样本和第二样本的各参考预测结果作为输出，以训练待优化模型。

于本实施例中，可将标识为第一样本的参考预测结果作为候选正样本，再基于预设筛选规则从候选正样本中筛选出正样本，且将标识为第一样本的参考预测结果作为负样本，并利用各正样本和各负样本训练待优化模型。

综上所述，本申请实施例利用上述预测结果标识方法针对参考模型的参考预测结果进行标识以获得第一样本和第二样本，并利用标识出的第一样本和第二样本针对待优化模型进行训练，借此，本实施例借鉴了蒸馏的思量，从参考模型中可以获取更好的正负样本分配参考，并可避免引入过多低质量的正负样本，从而提高待优化模型的训练效果。

第六实施例

图5示出了本申请第六实施例的模型训练方法的处理流程，如图所示，本实施例的模型训练方法主要包括：

步骤S502，将标识为第一样本的各参考预测结果作为各候选正样本。

于本实施例中，可将标识出的第一样本作为候选正样本，以供执行二次筛选，从而避免引入过多低质量的正样本，借以提高模型训练效果。

步骤S504，利用打分器根据预设打分规则、各候选正样本对应的各参考类别预测信息和各参考位置预测信息、样本图片中的标注框的位置标签，获得各候选正样本对应的各样本得分。

于本实施例中，用于训练待优化模型的样本图片具有至少一个标注框(包括位置标签和类别标签)，参考模型针对各锚框输出的各参考预测结果包括有参考类别预测信息和参考位置预测信息。

于本实施例中，预设打分规则可表示为：

s_i×IoU_i ^λ

其中，s_i表示候选正样本i的参考类别预测信息；IoU_i表示候选正样本i的参考位置预测信息和标注框的位置标签之间的交并比值；λ为超参数。

步骤S506，根据各候选正样本对应的各样本得分，获取满足预设训练数量的至少一个候选正样本以确定为正样本。

于本实施例中，正样本的预设训练数量可根据样本图片中的标注框的个数以及预设单位训练参数所确定。

可选地，单位训练参数为1至15之间的任意一个整数值。

例如，假设样本图片中有3个标注框，且单位训练参数设为5，则可择取样本得分在前15的候选正样本以作为用于训练待优化模型的正样本。

综上所述，本申请实施例利用打分器进一步从候选正样本中选择出质量最高的预设数量的正样本来训练待优化模型，避免了可学习的正负样本分配方法中引入过多低质量正样本的缺点，提高了待优化模型的训练效果。

第七实施例

图6示出了本申请第七实施例的模型训练方法的处理流程。

如图所示，本实施例的模型训练方法主要包括：

步骤S602，提供待优化模型针对样本图片中的各目标锚框进行预测，获得各目标锚框的各待优化预测结果。

于本实施例中，可将各候选正样本对应的各锚框作为目标锚框，以供待优化模型针对样本图片中的各目标锚框进行预测，获得各待优化预测结果。

于本实施例中，待优化预测结果可包括目标锚框的类别预测信息和位置预测信息。

步骤S604，提供打分器根据各候选正样本的各参考预测结果或各待优化预测结果针对各候选正样本进行打分，获得各候选正样本的样本得分。

于本实施例中，打分器的第一层和第二层可各自包括全连接子层、批归一化子层和ReLU激活子层，打分器的第三层可包括全连接子层，所述打分器的第四层包括Sigmoid激活子层。

于本实施例中，打分器的设计包括但不限于可针对每个输入，对应输出[0,1]区间内数值的神经网络。

于本实施例中，打分器的输入为待优化模型的待优化预测结果，亦即，待优化模型(学生模型)针对候选正样本预测的分类(类别预测信息)和回归损失(位置预测信息)。打分器的标签可使用参考模型(教师模型)的参考预测结果。

步骤S606，判断预设损失函数是否收敛，若否，则返回步骤S602，以迭代优化待优化模型和打分器，若是，则代表打分器的训练完成。

可选地，可利用预设损失函数迭代优化待优化模型和打分器，直至预设损失函数收敛至稳定值。

可选地，预设损失函数表示为：

其中，g(i)表示候选正样本i的样本得分；N为候选正样本的总数量；s_i表示候选正样本i的参考类别预测信息；IoU_i表示候选正样本i的参考位置预测信息和标注框的位置标签之间的交并比值；λ为超参数。

综上所述，本实施例为了鼓励待优化模型输出更有利于打分器的预测结果，打分器的输入不截断梯度，以与待优化模型进行共同优化。

此外，为了避免初期训练时打分器的数据具有较大噪声的问题，可直接使用参考模型的打分规则，即s_i×IoU_i ^λ针对各候选正样本进行打分，并等到打分器训练到满足预设训练条件后，再使用打分器输出的样本得分从候选正样本中筛选出用于训练使用的正样本，通过此迭代更新正样本的方式，可以提高模型训练效果。

第八实施例

图7示出了本申请第八实施例的模型训练方法的处理流程。如图所示，本实施例的模型训练方法主要包括：

步骤702，利用参考模型针对样本图片中的各锚框进行预测，获得各锚框的各预测结果。

于本实施例中，参考模型可包括主干网络层数为101层的检测器，但并不以此为限，亦可采用其他网络架构模型作为参考模型。

步骤S704，利用预测结果标识方法针对各预测结果进行标识，确定至少一个预测结果以标识为候选正样本以及确定至少一个预测结果以标识为负样本。

于本实施例中，可利用上述第一实施例至第三实施例中任一实施例所述的预测结果标识方法针对参考模型输出的参考预测结果进行标识。

于本实施例中，候选正样本的具体标识方法可参考上述第二实施例所描述的第一样本的标识方案，负样本的具体标识方法可参考上述第三实施例所描述的第二样本的标识方案，在此不予赘述。

步骤S706，提供打分器针对各候选正样本进行打分，根据打分结果筛选各候选正样本以获得至少一个正样本，并利用正样本和负样本训练待优化模型。

于本实施例中，打分器所采用的打分规则可参考上述第六实施例的描述。

于本实施例中，打分器可选择三层架构网络，即打分器的第一层和第二层可各自包括全连接子层、批归一化子层和ReLU激活子层，打分器的第三层可包括全连接子层，所述打分器的第四层包括Sigmoid激活子层。

于本实施例中，打分器的输入为待优化模型的待优化预测结果，亦即，待优化模型(学生模型)针对候选正样本预测的分类和回归损失。打分器的标签可使用参考模型(教师模型)的参考预测结果。

于本实施例中，可利用预设损失函数迭代优化待优化模型和打分器，直至预设损失函数收敛至稳定值，其中，预设损失函数的具体描述可参考上述第七实施例，在此不予赘述。

步骤S708,判断是否满足迭代训练完成条件，若是，则结束本流程，若否，则进行步骤S710。

可选地，可在当判断待优化模型的性能不再有提升时，判断满足迭代训练完成条件。

可选地，可在当判断待优化模型的识别性能满足预设识别条件时，即判断满足迭代训练完成条件。

步骤S710，利用训练好的待优化模型作为新的参考模型，并返回步骤S702，以开始进行下一轮的迭代优化，从而训练新的待优化模型。

综上所述，本申请实施例利用多轮迭代的技术方案，在第一轮迭代优化过程中，将参考模型的输出送至打分器中进行打分，以筛选出用于训练待优化模型的正样本，并在完成第一轮迭代优化后，可将训练好的待优化模型作为参考模型，利用打分器对其输出结果直接进行打分，并重复执行新一轮的迭代优化以训练新的待优化模型。由此可知，本申请利用上一轮迭代的待优化模型作为参考模型进行新一轮的迭代，可以获得更好的模型优化性能。且相较于传统通过手工设计锚点所执行的模型优化方法，本实施例的模型优化方案不仅可提高工作效率，并可避免手工设计锚框所存在的生硬的缺点。

第九实施例

本申请第九实施例提供一种计算机存储介质，所述计算机存储介质中储存有用于执行上述第五实施例至第八实施例所述的模型训练方法的各所述步骤的指令。

第十实施例

图8示出了本申请第十实施例的预测结果标识装置的架构图。如图所示，本实施例的预测结果标识装置800主要包括获取模块802和标识模块804。

获取模块802用于根据样本图片，确定所述样本图片中的至少一个标注框的类别标签和位置标签，并获得所述样本图片中的各锚框的各锚框预测结果，其中，所述锚框预测结果包括类别预测信息和位置预测信息。

标识模块804用于根据各所述锚框的各所述类别预测信息和各所述位置预测信息，以及所述标注框的类别标签和位置标签，确定至少一个所述锚框预测结果以标识为第一样本，并根据各所述锚框的各所述位置预测信息以及所述标注框的所述位置标签，确定至少一个所述锚框预测结果以标识为第二样本。

可选地，所述标识模块804还包括根据各所述锚框的各所述位置预测信息和所述标注框的所述位置标签，确定落入所述标注框的各所述锚框以作为各候选锚框；根据各所述候选锚框的各所述类别预测信息和所述标注框的所述类别标签，获得各所述候选锚框的各类别预测得分；根据各所述候选锚框的各所述位置预测信息和所述标注框的所述位置标签，获得各所述候选锚框相对于所述标注框的各交并比值；并根据各所述候选锚框的各所述类别预测得分和各交并比值，确定至少一个所述锚框预测结果以标识为所述第一样本。

可选地，所述标识模块804还包括根据各所述候选锚框的各所述类别预测得分和各所述交并比值，确定分值范围；根据各所述候选锚框的各所述类别预测得分与所述分值范围，将所述类别预测得分落入所述分值范围内的各所述候选锚框的各所述锚框预测结果标识为所述第一样本。

可选地，所述标识模块804还包括根据各所述候选锚框的各所述类别预测得分，将各所述类别预测得分中的最大者确定为上限阈值；根据各所述候选锚框的各所述交并比值，确定所述交并比值最大的一个所述候选锚框，并将所述候选锚框的所述类别预测得分确定为下限阈值；根据所述上限阈值和所述下限阈值，确定所述分值范围。

可选地，所述标识模块804还包括根据各所述锚框的各所述位置预测信息和所述标注框的所述位置标签，获得各所述锚框相对于所述标注框的各交并比值；并根据各所述锚框的各所述交并比值与预设阈值，将所述交并比值小于所述预设阈值的各所述锚框的各所述锚框预测结果标识为所述第二样本。

可选地，所述预设阈值介于0.3至0.5之间，较佳地，所述预设阈值设置为0.5。

可选地，所述样本图片中的所述标注框为多个，且所述标识模块804还包括根据各所述锚框的各所述位置预测信息和各所述标注框的各所述位置标签，若同一所述锚框同时落入至少两个所述标注框中时，根据所述锚框的所述位置预测标签和各所述标注框的各所述位置标签，获得所述锚框相较于各所述标注框的各所述交并比值，并将各所述交并比值中的最大者确定为所述锚框对应的所述标注框。

此外，本发明实施例的预测结果标识装置800还可用于实现前述各预测结果标识方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

第十一实施例

图9示出了本申请第十一实施例的模型训练装置的架构示意图。如图所示，本实施例的模型训练装置900主要包括样本获取模块902，样本标识模块904，训练模块906。

样本获取模块902用于利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各参考预测结果。

样本标识模块904用于利用上述第十实施例所述预测结果标识装置800，确定至少一个所述参考预测结果以标识为第一样本以及确定至少一个所述参考预测结果以标识为第二样本。

训练模块906用于构建与所述参考模型具有相同识别能力的待优化模型，并将所述样本图片作为输入，将标识为所述第一样本和所述第二样本的各所述参考预测结果作为输出，以训练所述待优化模型。

可选地，训练模块906还包括将标识为所述第一样本的各所述参考预测结果作为各候选正样本，并基于预设筛选规则，将满足所述筛选规则的所述候选正样本确定为正样本；将标识为所述第二样本的各所述参考预测结果确定为负样本；以及将标识为所述第二样本的各所述参考预测结果确定为负样本；以及

可选地，所述样本图片具有至少一个标注框，各所述锚框的各所述参考预测结果包括参考类别预测信息和参考位置预测信息，训练模块906还包括利用打分器根据预设打分规则、各所述候选正样本对应的各所述参考类别预测信息和各所述参考位置预测信息、所述样本图片中的标注框的位置标签，获得各所述候选正样本对应的各样本得分；根据各所述候选正样本对应的各所述样本得分，获取满足预设训练数量的至少一个所述候选正样本以确定为所述正样本；其中，所述预设打分规则表示为：s_i×IoU_i ^λ，其中，所述s_i表示所述候选正样本i的所述参考类别预测信息；所述IoU_i表示所述候选正样本i的所述参考位置预测信息和所述标注框的位置标签之间的交并比值；所述λ为超参数。

可选地，所述正样本的所述预设训练数量为根据所述样本图片中的所述标注框的个数以及预设单位训练参数所确定；其中，所述单位训练参数为1至15之间的任意一个整数值。

可选地，训练模块906还包括将各所述候选正样本对应的各所述锚框作为目标锚框；训练所述待优化模型，针对所述样本图片中的各所述目标锚框进行预测，获得各所述目标锚框的各待优化预测结果；训练所述打分器，根据各所述候选正样本的各所述参考预测结果或各待优化预测结果针对各所述候选正样本进行打分，获得各所述候选正样本的各所述样本得分，并根据所述样本得分重复所述训练待优化模型的步骤；以及重复交替执行所述训练待优化模型的步骤和所述训练所述打分器的步骤，以迭代优化所述待优化模型和所述打分器。

可选地，训练模块906还包括利用预设损失函数迭代优化所述待优化模型和所述打分器，直至所述预设损失函数收敛至稳定值；所述预设损失函数表示为：

其中，所述g(i)表示所述候选正样本i的所述样本得分；所述N为所述候选正样本的总数量；所述s_i表示所述候选正样本i的所述参考类别预测信息；所述IoU_i表示所述候选正样本i的所述参考位置预测信息和所述标注框的位置标签之间的交并比值；所述λ为超参数。

可选地，所述打分器的第一层和第二层各自包括全连接子层、批归一化子层和ReLU激活子层，所述打分器的第三层包括全连接子层，所述打分器的第四层包括Sigmoid激活子层。

此外，本发明实施例的模型训练装置900还可用于实现前述各模型训练方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

第十二实施例

图10示出了本申请第十二实施例的模型训练装置的架构示意图。如图所示，本实施例的模型训练装置1000,主要包括：样本获取模块1002，样本标识模块1004，迭代训练模块1006。

样本获取模块1002用于执行样本获取步骤，利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各预测结果；

样本标识模块1004用于执行样本标识步骤，利用第十实施例所述预测结果标识装置，确定至少一个所述预测结果以标识为候选正样本以及确定至少一个所述预测结果以标识为负样本；

迭代训练模块1006用于执行打分器和待优化模型训练步骤，包括提供所述打分器针对所述各所述候选正样本进行打分，并根据打分结果筛选各所述候选正样本，获得至少一个正样本，并利用所述正样本和所述负样本训练所述待优化模型。

可选地，迭代训练模块1006还用于将训练好的所述待优化模型作为新的所述参考模型，令所述样本获取模块、所述样本标识模块和所述训练模块重复执行所述样本获取步骤、所述样本标识步骤和所述打分器和待优化模型训练步骤，以迭代训练新的所述待优化模型，直至满足预设迭代训练完成条件。

此外，本发明实施例的模型训练装置1000还可用于实现前述各模型训练方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

综上所述，本申请的预测结果标识技术借鉴了蒸馏的思想，利用参考模型来分配负样本并初步筛选正样本以获取候选正样本，由于参考模型具有比较好的性能，因此，参考模型的预测输出可提供样本质量比较好的判断。

其次，利用本申请的预测结果标识方法所执行的负样本分配方案，可避免引入过多低质量负样本的问题，亦可避免手工设计锚点所带来的工作繁琐以及手工设计生硬的缺点。

再者，针对初步筛选获得的候选正样本，本申请的模型训练方案通过引入一个可学习的打分器来针对这些候选正样本进行打分，以避免引入过多低质量正样本。且本申请再次借鉴蒸馏的思想，在训练初期利用参考模型的预测输出训练打分器，可以提高打分器的训练质量。

另外，本申请的模型训练方案利用迭代优化策略执行模型的整体优化，亦即，通过将上一轮迭代优化好的待优化模型作为参考模型以进行新一轮的迭代优化，可以获得更好的模型优化性能，且打分器直接使用上一轮迭代训练好的模型权重来进行初始化，因此不再有冷启动的问题。

此外，本申请的模型训练方案通过同时优化打分器和待优化模型，对于待优化模型具有一定的正则化作用。

最后应说明的是：以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种预测结果标识方法，其特征在于，包括：

根据样本图片，确定所述样本图片中的至少一个标注框的类别标签和位置标签，并获得所述样本图片中的各锚框的各锚框预测结果，其中，所述锚框预测结果包括类别预测信息和位置预测信息；

根据各所述锚框的各所述类别预测信息和各所述位置预测信息，以及所述标注框的类别标签和位置标签，确定至少一个所述锚框预测结果以标识为第一样本；以及

根据各所述锚框的各所述位置预测信息以及所述标注框的所述位置标签，确定至少一个所述锚框预测结果以标识为第二样本。

2.根据权利要求1所述的预测结果标识方法，其特征在于，所述根据各所述锚框的各所述类别预测信息和各所述位置预测信息，以及所述标注框的类别标签和位置标签，确定至少一个所述锚框预测结果以标识为第一样本包括：

根据各所述锚框的各所述位置预测信息和所述标注框的所述位置标签，确定落入所述标注框的各所述锚框以作为各候选锚框；

根据各所述候选锚框的各所述类别预测信息和所述标注框的所述类别标签，获得各所述候选锚框的各类别预测得分；

根据各所述候选锚框的各所述位置预测信息和所述标注框的所述位置标签，获得各所述候选锚框相对于所述标注框的各交并比值；以及

根据各所述候选锚框的各所述类别预测得分和各交并比值，确定至少一个所述锚框预测结果以标识为所述第一样本。

3.根据权利要求2所述的预测结果标识方法，其特征在于，所述根据各所述候选锚框的各所述类别预测得分和各交并比值，确定至少一个所述锚框预测结果以标识为所述第一样本包括：

根据各所述候选锚框的各所述类别预测得分和各所述交并比值，确定分值范围；

根据各所述候选锚框的各所述类别预测得分与所述分值范围，将所述类别预测得分落入所述分值范围内的各所述候选锚框的各所述锚框预测结果标识为所述第一样本。

4.根据权利要求3所述的预测结果标识方法，其特征在于，所述根据各所述候选锚框的各所述类别预测得分和各所述交并比值，确定分值范围包括：

根据各所述候选锚框的各所述类别预测得分，将各所述类别预测得分中的最大者确定为上限阈值；

根据各所述候选锚框的各所述交并比值，确定所述交并比值最大的一个所述候选锚框，并将所述候选锚框的所述类别预测得分确定为下限阈值；

根据所述上限阈值和所述下限阈值，确定所述分值范围。

5.根据权利要求1所述的预测结果标识方法，其特征在于，所述根据各所述锚框的各所述位置预测信息以及所述标注框的所述位置标签，确定至少一个所述锚框预测结果以标识为第二样本包括：

根据各所述锚框的各所述位置预测信息和所述标注框的所述位置标签，获得各所述锚框相对于所述标注框的各交并比值；以及

根据各所述锚框的各所述交并比值与预设阈值，将所述交并比值小于所述预设阈值的各所述锚框的各所述锚框预测结果标识为所述第二样本。

6.根据权利要求5所述的预测结果标识方法，其特征在于，所述预设阈值介于0.3至0.5之间，较佳地，所述预设阈值设置为0.5。

7.根据权利要求1所述的预测结果标识方法，其特征在于，所述样本图片中的所述标注框为多个，且所述方法还包括：

根据各所述锚框的各所述位置预测信息和各所述标注框的各所述位置标签，若同一所述锚框同时落入至少两个所述标注框中时，根据所述锚框的所述位置预测标签和各所述标注框的各所述位置标签，获得所述锚框相较于各所述标注框的各所述交并比值，并将各所述交并比值中的最大者确定为所述锚框对应的所述标注框。

8.一种模型训练方法，其特征在于，所述方法包括：

利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各参考预测结果；

利用根据权利要求1至7中任一项所述的预测结果标识方法针对各所述参考预测结果进行标识，以确定至少一个所述参考预测结果以标识为第一样本以及确定至少一个所述参考预测结果以标识为第二样本；以及

构建与所述参考模型具有相同识别能力的待优化模型，并将所述样本图片作为输入，将标识为所述第一样本和所述第二样本的各所述参考预测结果作为输出，以训练所述待优化模型。

9.根据权利要求8所述的模型训练方法，其特征在于，所述方法还包括：

将标识为所述第一样本的各所述参考预测结果作为各候选正样本，并基于预设筛选规则，将满足所述筛选规则的所述候选正样本确定为正样本；

将标识为所述第二样本的各所述参考预测结果确定为负样本；以及

基于所述正样本和所述负样本，训练所述待优化模型。

10.根据权利要求9所述的模型训练方法，其特征在于，所述样本图片具有至少一个标注框，各所述锚框的各所述参考预测结果包括参考类别预测信息和参考位置预测信息；且其中，

所述将标识为所述第一样本的各所述参考预测结果作为各候选正样本，并基于预设筛选规则，将满足所述筛选规则的所述候选正样本确定为正样本包括：

利用打分器根据预设打分规则、各所述候选正样本对应的各所述参考类别预测信息和各所述参考位置预测信息、所述样本图片中的标注框的位置标签，获得各所述候选正样本对应的各样本得分；

根据各所述候选正样本对应的各所述样本得分，获取满足预设训练数量的至少一个所述候选正样本以确定为所述正样本；其中，

所述预设打分规则表示为：

s_i×IoU_i ^λ

其中，所述s_i表示所述候选正样本i的所述参考类别预测信息；所述IoU_i表示所述候选正样本i的所述参考位置预测信息和所述标注框的位置标签之间的交并比值；所述λ为超参数。

11.根据权利要求10所述的模型训练方法，其特征在于，所述正样本的所述预设训练数量为根据所述样本图片中的所述标注框的个数以及预设单位训练参数所确定；

其中，所述单位训练参数为1至15之间的任意一个整数值。

12.根据权利要求10所述的模型训练方法，其特征在于，所述方法还包括：

将各所述候选正样本对应的各所述锚框作为目标锚框；

训练所述待优化模型，针对所述样本图片中的各所述目标锚框进行预测，获得各所述目标锚框的各待优化预测结果；

训练所述打分器，根据各所述候选正样本的各所述参考预测结果或各待优化预测结果针对各所述候选正样本进行打分，获得各所述候选正样本的各所述样本得分，并根据所述样本得分重复所述训练待优化模型的步骤；

重复交替执行所述训练待优化模型的步骤和所述训练所述打分器的步骤，以迭代优化所述待优化模型和所述打分器。

13.根据权利要求12所述的模型训练方法，其特征在于，所述方法还包括：

利用预设损失函数迭代优化所述待优化模型和所述打分器，直至所述预设损失函数收敛至稳定值；

所述预设损失函数表示为：

14.根据权利要求13所述的模型训练方法，其特征在于，所述打分器的第一层和第二层各自包括全连接子层、批归一化子层和ReLU激活子层，所述打分器的第三层包括全连接子层，所述打分器的第四层包括Sigmoid激活子层。

15.一种模型训练方法，其特征在于，所述方法包括：

执行样本获取步骤，利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各预测结果；

利用根据权利要求1至7中任一项所述预测结果标识方法针对各所述预测结果进行标识，确定至少一个所述预测结果以标识为候选正样本以及确定至少一个所述预测结果以标识为负样本；以及

提供打分器针对各所述候选正样本进行打分，并根据打分结果筛选各候选正样本以获得至少一个正样本，并利用所述正样本和所述负样本训练待优化模型。

16.根据权利要求15所述的模型训练方法，其特征在于，所述方法还包括：

将训练好的所述待优化模型作为新的所述参考模型，并重复执行所述样本获取步骤，以迭代训练新的所述待优化模型，直至满足预设迭代训练完成条件。

17.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有用于执行根据权利要求1至7中任一项所述的预测结果标识方法的各所述步骤的指令，或者所述计算机存储介质中存储有用于执行根据权利要求8至16中任一项所述的模型训练方法的各所述步骤的指令。

18.一种预测结果标识装置，其特征在于，所述装置包括：

获取模块，用于根据样本图片，确定所述样本图片中的至少一个标注框的类别标签和位置标签，并获得所述样本图片中的各锚框的各锚框预测结果，其中，所述锚框预测结果包括类别预测信息和位置预测信息；

标识模块，用于根据各所述锚框的各所述类别预测信息和各所述位置预测信息，以及所述标注框的类别标签和位置标签，确定至少一个所述锚框预测结果以标识为第一样本，并根据各所述锚框的各所述位置预测信息以及所述标注框的所述位置标签，确定至少一个所述锚框预测结果以标识为第二样本。

19.根据权利要求18所述的预测结果标识装置，其特征在于，所述标识模块还包括：

根据各所述锚框的各所述位置预测信息和所述标注框的所述位置标签，确定落入所述标注框的各所述锚框以作为各候选锚框；根据各所述候选锚框的各所述类别预测信息和所述标注框的所述类别标签，获得各所述候选锚框的各类别预测得分；根据各所述候选锚框的各所述位置预测信息和所述标注框的所述位置标签，获得各所述候选锚框相对于所述标注框的各交并比值；并根据各所述候选锚框的各所述类别预测得分和各交并比值，确定至少一个所述锚框预测结果以标识为所述第一样本。

20.根据权利要求18所述的预测结果标识装置，其特征在于，所述标识模块还包括：

根据各所述锚框的各所述位置预测信息和所述标注框的所述位置标签，获得各所述锚框相对于所述标注框的各交并比值；并根据各所述锚框的各所述交并比值与预设阈值，将所述交并比值小于所述预设阈值的各所述锚框的各所述锚框预测结果标识为所述第二样本。

21.一种模型训练装置，其特征在于，所述装置包括：

样本获取模块，其用于利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各参考预测结果；

样本标识模块，用于利用根据权利要求18至20中任一项所述预测结果标识装置，确定至少一个所述参考预测结果以标识为第一样本以及确定至少一个所述参考预测结果以标识为第二样本；

训练模块，用于构建与所述参考模型具有相同识别能力的待优化模型，并将所述样本图片作为输入，将标识为所述第一样本和所述第二样本的各所述参考预测结果作为输出，以训练所述待优化模型。

22.一种模型训练装置，其特征在于，包括：

样本获取模块，用于执行样本获取步骤，利用参考模型针对样本图片中的各锚框进行预测，获得各所述锚框的各预测结果；

样本标识模块，用于执行样本标识步骤，利用根据权利要求18至20中任一项所述预测结果标识装置，确定至少一个所述预测结果以标识为候选正样本以及确定至少一个所述预测结果以标识为负样本；

迭代训练模块，用于执行打分器和待优化模型训练步骤，包括提供所述打分器针对所述各所述候选正样本进行打分，并根据打分结果筛选各所述候选正样本，获得至少一个正样本，并利用所述正样本和所述负样本训练所述待优化模型。

23.根据权利要求22所述的模型训练装置，其特征在于，所述迭代训练模块还包括：

将训练好的所述待优化模型作为新的所述参考模型，令所述样本获取模块、所述样本标识模块和所述训练模块重复执行所述样本获取步骤、所述样本标识步骤和所述打分器和待优化模型训练步骤，以迭代训练新的所述待优化模型，直至满足预设迭代训练完成条件。