WO2021051887A1

WO2021051887A1 - 一种困难样本筛选方法及装置

Info

Publication number: WO2021051887A1
Application number: PCT/CN2020/094109
Authority: WO
Inventors: 马贤忠; 董维山; 江浩; 胡皓瑜; 范一磊
Original assignee: 初速度（苏州）科技有限公司
Priority date: 2019-09-20
Filing date: 2020-06-03
Publication date: 2021-03-25
Also published as: CN112541372A; CN112541372B

Abstract

本发明实施例公开一种困难样本筛选方法及装置，该方法包括：利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像，目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度；提取每一第一漏检目标区域图像的图像特征；基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签，其中，对应关系包括已标注图像的图像特征及其对应标签之间的对应关系；将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像，以实现自动化地筛选出困难样本。

Description

一种困难样本筛选方法及装置

技术领域

本发明涉及智能驾驶技术领域，具体而言，涉及一种困难样本筛选方法及装置。

背景技术

深度学习依赖于大量的训练数据即样本，但是当样本的数量达到一定规模后，不同的新增样本图像对模型性能提升的潜力是不一样的。

对于目标检测(ObjectDetection，也称物体检测)模型而言，困难样本即包含漏检目标和误检目标的样本，都是对提升目标检测模型的性能很有价值的数据。为了在一定程度上提升目标检测模型的性能，需要尽可能优先获取作为困难样本的样本，以利用困难样本训练优化相应的目标检测模型。

那么，如何自动化地从样本中筛选出困难样本成为亟待解决的问题。

发明内容

本发明提供了一种困难样本筛选方法及装置，以实现自动化地筛选出困难样本。具体的技术方案如下：

第一方面，本发明实施例提供了一种困难样本筛选方法，包括：

利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像，其中，所述目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度，所述第一漏检目标区域图像为：所对应置信度低于预设阈值的区域图像；

对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征；

基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签，其中，所述对应关系包括：已标注图像的图像特征及其对应标签之间的对应关系；

将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。

可选的，所述基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签的步骤，包括：

基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签；

基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签。

可选的，所述基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签的步骤，包括：

针对每一第一漏检目标区域图像，基于该第一漏检目标区域图像的图像特征，以及每一已标注图像的图像特征，确定该第一漏检目标区域图像与每一已标注图像之间的相似度值；

基于所述相似度值，确定每一第一漏检目标区域图像对应的备选标签。

可选的，所述基于所述相似度值，确定每一第一漏检目标区域图像对应的备选标签的步骤，包括：

针对每一第一漏检目标区域图像，按照该第一漏检目标区域图像与每一已标注图像之间的相似度值从大到小的顺序，排列每一已标注图像对应的标签，得到该第一漏检目标区域图像对应的标签队列；

针对每一第一漏检目标区域图像，将该第一漏检目标区域图像对应的标签队列中前预设数量个标签，确定为该疑似目标区域图像对应的备选标签。

可选的，所述基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签的步骤，包括：

针对每一第一漏检目标区域图像，统计该第一漏检目标区域图像对应的备选标签中，为漏检标签的备选标签的数量，作为第一数量；

判断所述第一数量是否满足预设统计条件，其中，所述满足预设统计条件包括：大于预设数量阈值，或与所对应第一漏检目标区域图像对应的备选标签的总数的比值大于预设比例阈值；

若判断所述第一数量满足所述预设统计条件，确定该第一漏检目标区域图像对应的目标标签为所述漏检标签；

若判断所述第一数量不满足所述预设统计条件，确定该第一漏检目标区域图像对应的目标标签为非漏检标签。

可选的，所述利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像的步骤，包括：

利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个疑似目标区域的待筛选图像，并确定每一疑似目标区域对应的置信度；

基于每一疑似目标区域对应的置信度，从所述疑似目标区域中确定出所对应置信度低于所述预设阈值的疑似目标区域，作为备选目标区域；

若备选目标区域为矩形区域，将为矩形区域的该备选目标区域对应的区域图像，确定为第一漏检目标区域图像；

若备选目标区域为非矩形区域，将包含该备选目标区域的最小的矩形区域对应的区域图像，确定为第一漏检目标区域图像，以确定出包含至少一个第一漏检目标区域图像的待筛选图像。

可选的，在所述基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签的步骤之前，所述方法还包括：

建立对应关系的过程，其中，所述过程包括：

获得建立图像以及每一建立图像对应的标注信息，其中，所述标注信息包括：所对应建立图像包含的目标所在区域的标注位置信息；

利用所述目标检测模型，对每一建立图像进行检测，确定包含至少一个第二漏检目标区域图像的每一建立图像及所述至少一个第二漏检目标区域图像对应的检测位置信息，其中，所述至少一个第二漏检目标区域图像为所对应置信度低于所述预设阈值的区域图像；

对每一第二漏检目标区域图像进行图像特征提取，确定每一第二漏检目标区域图像的图像特征；

针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标签，以建立得到所述对应关系。

可选的，所述针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标签，以建立得到所述对应关系的步骤，包括：

针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标注框与检测框之间的交并比；

针对每一第二漏检目标区域图像，将该第二漏检目标区域图像对应的交并比与预设交并比阈值进行比较；

若第二漏检目标区域图像对应的交并比不小于所述预设交并比阈值，确定该第二漏检目标区域图像对应的标签为漏检标签；

若第二漏检目标区域图像对应的交并比小于所述预设交并比阈值，确定该第二漏检目标区域图像对应的标签为非漏检标签，以建立得到所述对应关系。

第二方面，本发明实施例提供了一种困难样本筛选装置，包括：

第一确定模块，被配置为利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像，其中，所述目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度，所述第一漏检目标区域图像为：所对应置信度低于预设阈值的区域图像；

第二确定模块，被配置为对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征；

第三确定模块，被配置为基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签，其中，所述对应关系包括：已标注图像的图像特征及其对应标签之间的对应关系；

第四确定模块，被配置为将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。

可选的，所述第三确定模块，包括：

第一确定单元，被配置为基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签；

第二确定单元，被配置为基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签。

可选的，所述第一确定单元，包括：

第一确定子模块，被配置为针对每一第一漏检目标区域图像，基于该第一漏检目标区域图像的图像特征，以及每一已标注图像的图像特征，确定该第一漏检目标区域图像与每一已标注图像之间的相似度值；

第二确定子模块，被配置为基于所述相似度值，确定每一第一漏检目标区域图像对应的备选标签。

可选的，所述第二确定子模块，被具体配置为针对每一第一漏检目标区域图像，按照该第一漏检目标区域图像与每一已标注图像之间的相似度值从大到小的顺序，排列每一已标注图像对应的标签，得到该第一漏检目标区域图像对应的标签队列；

可选的，所述第二确定单元，被具体配置为针对每一第一漏检目标区域图像，统计该第一漏检目标区域图像对应的备选标签中，为漏检标签的备选标签的数量，作为第一数量；

可选的，所述第一确定模块，被具体配置为利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个疑似目标区域的待筛选图像，并确定每一疑似目标区域对应的置信度；

可选的，所述装置还包括：

关系建立模块，被配置为在所述基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签之前，建立对应关系的过程，其中，所述关系建立模块，包括：

获得单元，被配置为获得建立图像以及每一建立图像对应的标注信息，其中，所述标注信息包括：所对应建立图像包含的目标所在区域的标注位置信息；

第三确定单元，被配置为利用所述目标检测模型，对每一建立图像进行检测，确定包含至少一个第二漏检目标区域图像的每一建立图像及所述至少一个第二漏检目标区域图像对应的检测位置信息，其中，所述至少一个第二漏检目标区域图像为所对应置信度低于所述预设阈值的区域图像；

第四确定单元，被配置为对每一第二漏检目标区域图像进行图像特征提取，确定每一第二漏检目标区域图像的图像特征；

第五确定单元，被配置为针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标签，以建立得到所述对应关系。

可选的，所述第五确定单元，被具体配置为针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标注框与检测框之间的交并比；

由上述内容可知，本发明实施例提供的一种困难样本筛选方法及装置，可以利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像，其中，目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度，第一漏检目标区域图像为：所对应置信度低于预设阈值的区域图像；对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征；基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签，其中，对应关系包括已标注图像的图像特征及其对应标签之间的对应关系；将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。

应用本发明实施例，可以基于包括已标注图像的图像特征及其对应标签之间的对应关系的预先建立的对应关系，以及从第一漏检目标区域图像提取的图像特征，从已标注图像中，确定出图像特征与第一漏检目标区域图像的图像特征相似的已标注图像，进而，基于图像特征与第一漏检目标区域图像的图像特征相似的已标注图像对应的标签，确定每一第一漏检目标区域图像对应的目标标签，其中，该目标标签中可以包括表征该第一漏检目标区域图像中包含漏检目标的漏检标签；进而，可以认为对应的目标标签为漏检标签的第一漏检目标区域图像中包含漏检目标，将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。以实现可以有针对性地选出需要的样本，尤其是当需要样本有集中特性而无关样本复杂多变的场景；根据目标检测模型检测出的漏检目标区域，提取漏检目标区域图像即待筛选图像的局部图像块的内容作为检索的主体，避免无关信息的干扰，有效提高检索识别的准确率，而且节约内存提升速度，以实现自动化地筛选出困难样本。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括：

1、基于包括已标注图像的图像特征及其对应标签之间的对应关系的预先建立的对应关系，以及从第一漏检目标区域图像提取的图像特征，从已标注图像中，确定出图像特征与第一漏检目标区域图像的图像特征相似的已标注图像，进而，基于图像特征与第一漏检目标区域图像的图像特征相似的已标注图像对应的标签，确定每一第一漏检目标区域图像对应的目标标签，其中，该目标标签中可以包括表征该第一漏检目标区域图像中包含漏检目标的漏检标签；进而，可以认为对应的目标标签为漏检标签的第一漏检目标区域图像中包含漏检目标，将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。以实现可以有针对性地选出需要的样本，尤其是当需要样本有集中特性而无关样本复杂多变的场景；根据目标检测模型检测出的漏检目标区域，提取漏检目标区域图像即待筛选图像的局部图像块的内容作为检索的主体，避免无关信息的干扰，有效提高检索识别的准确率，而且节约内存提升速度，以实现自动化地筛选出困难样本。

2、在确定每一第一漏检目标区域图像对应的目标标签时，可以首先确定第一漏检目标区域图像与每一已标注图像之间的相似度值，进而，针对每一第一漏检目标区域图像，基于其对应的相似度值，确定出与该第一漏检目标区域图像最相似的前预设数量个已标注图像对应的标签，将上述所确定出的标签，作为第一漏检目标区域图像对应的备选标签；基于第一漏检目标区域图像对应的备选标签，确定第一漏检目标区域图像对应的目标标签，以在一定程度上提高所确定的目标标签的准确性。

3、统计每一第一漏检目标区域图像对应的备选标签中为漏检标签的备选标签的第一数量，并将所对应第一数量满足预设统计条件的第一漏检目标区域图像对应的目标标签确定为漏检标签，将所对应第一数量不满足预设统计条件的第一漏检目标区域图像对应的目标标签确定为非漏检标签，以在一定程度上提高所确定的包含漏检目标的第一漏检目标区域图像的准确性性，进而，提高自动确定困难样本的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的困难样本筛选方法的一种流程示意图；

图2为本发明实施例提供的建立对应关系的一种流程示意图；

图3为本发明实施例提供的困难样本筛选装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明提供了一种困难样本筛选方法及装置，以实现自动化地筛选出困难样本。下面对本发明实施例进行详细说明。

图1为本发明实施例提供的困难样本筛选方法的一种流程示意图。该方法可以包括以下步骤：

S101：利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像。

其中，目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度，第一漏检目标区域图像为：所对应置信度低于预设阈值的区域图像。该目标检测模型为：基于标注有待检测目标的图像训练所得的网络模型。

本发明实施例中，该方法可以应用于任一类型的具有计算能力的电子设备中，该电子设备可以为服务器或者终端设备。

一种情况中，该预先建立的目标检测模型可以为神经网络模型，例如：可以为卷积神经网络模型，具体的可以为Faster R-CNN(Faster Region-Convolutional Neural Networks，快速地区域-卷积神经网络模型)以及YOLO(You Only Look Once)模型，该预先建立的目标检测模型可以为：相关技术中任一类型的可以检测图像中目标所在位置的神经网络模型，本发明实施例并不对该预先建立的目标检测模型的具体类型进行限定。对于对该预先建立的目标检测模型的训练方式可以参见相关技术，本发明实施例并不作具体限定。

其中，该待检测目标可以为任一类型的目标，包括但不限于车道线、车辆、交通灯、指示牌和/或行人等等。

一种实现方式中，电子设备获得一帧或多帧待筛选图像之后，可以利用预先建立的目标检测模型对所获得的每一待筛选图像进行检测，将待筛选图像中可能存在目标的区域分别标识出，并确定出每一可能存在目标的区域各自对应的置信度；并将所标识出的可能存在目标的区域对应的区域图像截取出，后续的，基于每一区域图像对应的置信度，从截取出的区域图像中确定出所对应置信度低于预设阈值的区域图像，作为第一漏检目标区域图像，并可以从所获得的待筛选图像中，确定出包含至少一个第一漏检目标区域图像的待筛选图像。

其中，置信度可以表征所对应的区域图像存在待检测目标的可能性。一种情况中，区域图像对应的置信度越低，表征目标检测模型预测待筛选图像的该区域图像中存在待检测目标的可能性越小。相应的，该区域图像所对应的置信度较低时，该区域图像存在包含被漏检的待检测目标的可能性。相应的，所截取出的可能存在待检测目标的区域对应的区域图像中，可以包括所对应置信度处于预设置信度阈值内的区域图像，该预设置信度阈值的下限值为0，上限值大于或等于上述预设阈值。

一种情况中，电子设备在确定出包含至少一个第一漏检目标区域图像的待筛选图像之后，可以标记并记录待筛选图像与其包含的至少一个第一漏检目标区域图像之间的对应关系，以用于后续的流程。

S102：对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征。

本步骤中，电子设备可以利用任一类型的预设特征提取算法，对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征。其中，该预设特征提取算法可以包括但不限于SIFT(Scale-invariant feature transform，尺度不变特征变换)特征提取算法、HOG(Histogram of Oriented Gradient，方向梯度直方图)特征提取算法、Harr特征提取算法以及GIST(全局特征)提取算法等，该预设特征提取算法也可以是卷积神经网络类的特征提取算法。

S103：基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签。

其中，该对应关系包括：已标注图像的图像特征及其对应标签之间的对应关系。

电子设备本地或所连接的存储设备中，可以预先存储有该预先建立的对应关系，该对应关系包括：已标注图像的图像特征及其对应标签之间的对应关系，该已标注图像可以包括基于该预先建立的目标检测模型，从其所在原图像中截取出的所对应置信度低于预设阈值的区域图像，该原图像可以指后续提到的建立图像；该已标注图像也可以包括：所采集的包含或不包含待检测目标的图像，此类情况下，相应的，为了保证困难样本筛选流程的准确性，该以标注图像中可以仅包括待检测目标，或仅包括非待检测目标。

每一已标注图像对应的标签可以包括：表征该已标注图像包含被该预先建立的目标检测模型漏检的待检测目标的漏检标签，或表征该已标注图像不包含被该预先建立的目标检测模型漏检的待检测目标的非漏检标签，例如：该已标注图像对应的标签可以为表征已标注图像中包括车道线的标签即漏检标签，即该漏检标签可以包括的内容为“车道线”，或者为表征已标注图像中不包括车道线的标签即非漏检标签，该非漏检标签可以包括的内容为“非车道线”。

在一种情况中，该预先建立的对应关系可以存储于预先设置的索引数据库中，以便于第一漏检目标区域图像的图像特征与对应关系中的已标注图像的图像特征的对比匹配。

一种实现方式中，电子设备可以针对每一第一漏检目标区域，将该第一漏检目标区域图像的图像特征与对应关系中每一已标注图像的图像特征进行匹配，对应关系中与该第一漏检目标区域图像的图像特征最匹配的图像特征对应的标签，确定为该第一漏检目标区域图像对应的目标标签。其中，上述匹配过程可以是：基于预先设置的相似度算法，计算该第一漏检目标区域图像的图像特征与对应关系中每一已标注图像的图像特征之间的相似度值，相应的，上述对应关系中与该第一漏检目标区域图像的图像特征最匹配的图像特征可以指：对应关系中与该第一漏检目标区域图像的图像特征之间的相似度值最大的图像特征。其中，预先设置的相似度算法包括但不限于：欧几里德距离、余弦距离、闵式距离以及相关系数等算法。

在另一种实现方式中，所述S103，可以包括如下步骤01-02：

01：基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签；

02：基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签。

本实现方式中，电子设备可以针对每一第一漏检目标区域图像，基于该第一漏检目标区域图像的图像特征，和预先建立的对应关系中的已标注图像的图像特征，从对应关系中，确定出与该第一漏检目标区域图像的图像特征匹配多个已标注图像，将与该第一漏检目标区域图像的图像特征匹配的多个已标注图像对应的标签，确定为该第一漏检目标区域图像对应的备选标签，进而，基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签。以在一定程度上提高所确定每一第一漏检目标区域图像对应的目标标签的准确性。

在一种实现方式中，所述01，可以包括如下步骤011-012：

011：针对每一第一漏检目标区域图像，基于该第一漏检目标区域图像的图像特征，以及每一已标注图像的图像特征，确定该第一漏检目标区域图像与每一已标注图像之间的相似度值；

012：基于相似度值，确定每一第一漏检目标区域图像对应的备选标签。

本实现方式中，电子设备针对每一第一漏检目标区域图像，基于预先设置的相似度算法、该第一漏检目标区域图像的图像特征以及每一已标注图像的图像特征，计算得到该第一漏检目标区域图像与每一已标注图像之间的相似度值，进而，基于相似度值，确定每一第一漏检目标区域图像对应的备选标签，例如：将所对应相似度值最大的预设数量个已标注图像对应的标签，确定为该第一漏检目标区域图像对应的备选标签。

一种实现方式中，所述012，可以包括如下步骤：

为了能够从对应关系中，确定出所对应相似度值最大的预设数量个已标注图像对应的标签，电子设备可以针对每一第一漏检目标区域图像，按照该第一漏检目标区域图像与每一已标注图像之间的相似度值从大到小的顺序，排列每一已标注图像对应的标签，得到该第一漏检目标区域图像对应的标签队列；进而，从该第一漏检目标区域图像对应的标签队列中前预设数量个标签，确定为该疑似目标区域图像对应的备选标签。或者，可以是：针对每一第一漏检目标区域图像，按照该第一漏检目标区域图像与每一已标注图像之间的相似度值从小到大的顺序，排列每一已标注图像对应的标签，得到该第一漏检目标区域图像对应的另一标签队列；进而，从该第一漏检目标区域图像对应的另一标签队列中后预设数量个标签，确定为该疑似目标区域图像对应的备选标签，这也是可以的。

其中，该预设数量为预先设定的数量，也可以是电子设备根据预先建立的对应关系中包含的已标注图像的图像特征的数量自主设定的，这都是可以的。

在一种实现方式中，所述02，可以包括如下步骤021-024：

021：针对每一第一漏检目标区域图像，统计该第一漏检目标区域图像对应的备选标签中，为漏检标签的备选标签的数量，作为第一数量；

022：判断第一数量是否满足预设统计条件，其中，满足预设统计条件包括：大于预设数量阈值，或与所对应第一漏检目标区域图像对应的备选标签的总数的比值大于预设比例阈值；

023：若判断第一数量满足所述预设统计条件，确定该第一漏检目标区域图像对应的目标标签为漏检标签；

024：若判断第一数量不满足预设统计条件，确定该第一漏检目标区域图像对应的目标标签为非漏检标签。

其中，每一第一漏检目标区域图像对应的备选标签中，可以包括漏检标签和/或非漏检标签。本实施例中，电子设备可以针对每一第一漏检目标区域图像，统计该第一漏检目标区域图像对应的备选标签中，为漏检标签的备选标签的数量，作为第一数量；并判断第一数量是否满足预设统计条件，即判断第一数量是否大于预设数量阈值，或判断第一数量与所对应第一漏检目标区域图像对应的备选标签的总数的比值是否大于预设比例阈值。

其中，若判断第一数量大于预设数量阈值，或判断第一数量与所对应第一漏检目标区域图像对应的备选标签的总数的比值大于预设比例阈值，则确定第一数量满足预设统计条件，即第一漏检目标区域图像对应的备选标签中，表征第一漏检目标区域图像包含漏检的待检测目标的标签的比例较大，相应的，则可以确定第一漏检目标区域图像对应的目标标签为漏检标签；反之，若判断第一数量不大于预设数量阈值，或判断第一数量与所对应第一漏检目标区域图像对应的备选标签的总数的比值不大于预设比例阈值，则确定第一数量不满足预设统计条件，即第一漏检目标区域图像对应的备选标签中，表征第一漏检目标区域图像包含漏检的待检测目标的标签的比例较小，相应的，则可以确定第一漏检目标区域图像对应的目标标签为非漏检标签。

在另一种实现方式中，考虑到已标注图像的图像特征与第一漏检目标区域图像的图像特征之间的相似度值越大，表征第一漏检目标区域图像与已标注图像越相似，并且，对于漏检的待检测目标，其之间的特征也是非常相似的。鉴于此，电子设备在基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签时，可以设置权重值，其中，已标注图像的图像特征与第一漏检目标区域图像的图像特征之间的相似度值越大，该已标注图像对应的标签对应的权重值越大。

后续的，可以针对每一第一漏检目标区域图像，将该第一漏检目标区域图像对应的每一备选标签对应的数值与其对应的权重值的乘积之和即第一和，与预设标签阈值进行比较，确定第一和大于预设标签阈值的第一漏检目标区域图像对应的目标标签为漏检标签，确定第一和不大于预设标签阈值的第一漏检目标区域图像对应的目标标签为非漏检标签。其中，可以是：为漏检标签的备选标签对应的数值为1，为非漏检标签的备选标签对应的数值为0。

S104：将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。

其中，每一待筛选图像中可以不包含第一漏检目标区域图像，或者可以包含至少一个第一漏检目标区域图像，当待筛选图像中包含至少一个第一漏检目标区域图像时，则，可以认为该待筛选图像中包含被预先建立的目标检测模型漏检的待检测目标，电子设备可以将该待筛选图像确定为困难样本。

在一种实现方式中，在确定出困难样本之后，可以对该困难样本重新进行存储以及标注，并保存每一第一漏检目标区域图像与其对应的待筛选图像之间的对应关系。进而，利用该困难样本及其标注信息继续训练该预先建立的目标检测模型，即利用该困难样本及其标注信息更新该预先建立的目标检测模型的参数，以提高该预先建立的目标检测模型的检测精度。

应用本发明实施例，可以基于包括已标注图像的图像特征及其对应标签之间的对应关系的预先建立的对应关系，以及从第一漏检目标区域图像提取的图像特征，从已标注图像中，确定出图像特征与第一漏检目标区域图像的图像特征相似的已标注图像，进而，基于图像特征与第一漏检目标区域图像的图像特征相似的已标注图像对应的标签，确定每一第一漏检目标区域图像对应的目标标签，其中，该目标标签中可以包括表征该第一漏检目标区域图像中包含漏检目标的漏检标签；进而，可以认为对应的目标标签为漏检标签的第一漏检目标区域图像中包含漏检目标，将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。以实现可以有针对性地选出需要的样本，尤其是当需要样本有集中特性而无关样本复杂多变的场景；根据目标检测模型检测出的漏检目标区域，提取漏检目标区域图像即待筛选图像的局部图像块的内容作为检索的主体，避免无关信息的干扰，有效提高检索识别的准确率，而且节约内存提升速度，以实现自动化地筛选出困难样本。

在本发明的另一实施例中，所述S104，可以包括如下步骤11-14：

11：利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个疑似目标区域的待筛选图像，并确定每一疑似目标区域对应的置信度；

12：基于每一疑似目标区域对应的置信度，从疑似目标区域中确定出所对应置信度低于预设阈值的疑似目标区域，作为备选目标区域；

13：若备选目标区域为矩形区域，将为矩形区域的该备选目标区域对应的区域图像，确定为第一漏检目标区域图像；

14：若备选目标区域为非矩形区域，将包含该备选目标区域的最小的矩形区域对应的区域图像，确定为第一漏检目标区域图像，以确定出包含至少一个第一漏检目标区域图像的待筛选图像。

本实施例中，电子设备可以利用预先建立的目标检测模型，对每一待筛选图像进行检测，确定包含至少一个疑似目标区域的待筛选图像，并确定每一疑似目标区域对应的置信度。其中，该至少一疑似目标区域即上述的可能包括待检测目标的区域，每一疑似目标区域所表征的图像块，可以称为区域图像。电子设备所确定出的疑似目标区域为所对应置信度处于预设置信度阈值内的区域。该预设置信度阈值的上限值可以不小于预设阈值，下限值可以为0。

电子设备从疑似目标区域中确定出所对应置信度低于预设阈值的疑似目标区域，作为备选目标区域。并且判断每一备选目标区域是否为矩形，若备选目标区域为矩形区域，将为矩形区域的该备选目标区域对应的区域图像，确定为第一漏检目标区域图像；若备选目标区域为非矩形区域，将包含该备选目标区域的最小的矩形区域对应的区域图像，确定为第一漏检目标区域图像，以确定出包含至少一个第一漏检目标区域图像的待筛选图像。

在本发明的另一实施例中，在所述S103之前，所述方法还可以包括：

建立对应关系的过程，如图2所示，所述过程可以包括：

S201：获得建立图像以及每一建立图像对应的标注信息。

其中，标注信息包括：所对应建立图像包含的目标所在区域的标注位置信息。

S202：利用目标检测模型，对每一建立图像进行检测，确定包含至少一个第二漏检目标区域图像的每一建立图像及至少一个第二漏检目标区域图像对应的检测位置信息。

其中，至少一个第二漏检目标区域图像为所对应置信度低于预设阈值的区域图像

S203：对每一第二漏检目标区域图像进行图像特征提取，确定每一第二漏检目标区域图像的图像特征。

S204：针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标签，以建立得到所述对应关系。

本实施例中，电子设备还可以包括建立对应关系的过程。相应的，电子设备可以获得多张用于建立对应关系的图像，本发明实施例称之为建立图像，包含待检测目标的建立图像中可以标注有待检测目标所在区域，包含待检测目标的建立图像对应的标注信息包含待检测目标在所对应建立图像中的位置信息，可以称之为标注位置信息。将建立图像及其对应的标注信息输入预先建立的目标检测模型，利用该预先建立的目标检测模型对每一建立图像进行检测，确定包含至少一个第二漏检目标区域图像的每一建立图像及至少一个第二漏检目标区域图像对应的检测位置信息；其中，每一第二漏检目标区域图像为所对应置信度低于预设阈值的区域图像。

电子设备获得至少一个第二漏检目标区域图像之后，利用预设特征提取算法，对至少一个第二漏检目标区域图像进行图像特征提取，得到至少一个第二漏检目标区域图像的图像特征；并且，针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标签。

一种情况中，所述S204，可以为：确定该第二漏检目标区域图像对应的检测位置信息对应的检测框，与该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息对应的标注框之间重叠的面积，是否超过预设面积比例，若超过预设面积比例，则可以认为该第二漏检目标区域图像中存在被预先建立的目标检测模型漏检的待检测目标，确定第二漏检目标区域图像对应的标签为漏检标签；反之，若未超过预设面积比例，则可以认为该第二漏检目标区域图像中不存在被预先建立的目标检测模型漏检的待检测目标，确定第二漏检目标区域图像对应的标签为非漏检标签。

另一种情况中，所述S204，可以包括如下步骤021-024：

021：针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标注框与检测框之间的交并比；

022：针对每一第二漏检目标区域图像，将该第二漏检目标区域图像对应的交并比与预设交并比阈值进行比较；

023：若第二漏检目标区域图像对应的交并比不小于预设交并比阈值，确定该第二漏检目标区域图像对应的标签为漏检标签；

024：若第二漏检目标区域图像对应的交并比小于预设交并比阈值，确定该第二漏检目标区域图像对应的标签为非漏检标签，以建立得到对应关系。

本实现方式中，电子设备可以针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标注框与检测框之间的交集以及并集之间比值，即交并比，其中，该标注框对应第二漏检目标区域图像的标注位置信息，检测框对应第二漏检目标区域图像对应的检测位置信息。判断该第二漏检目标区域图像对应的交并比是否不小于预设交并比阈值，若判断为不小于，则认为该第二漏检目标区域图像中存在被预先建立的目标检测模型漏检的待检测目标，确定该第二漏检目标区域图像对应的标签为漏检标签；反之，若判断为小于，则认为该第二漏检目标区域图像中不存在被预先建立的目标检测模型漏检的待检测目标，确定该第二漏检目标区域图像对应的标签为非漏检标签，记录每一该第二漏检目标区域图像的图像特征及其对应的标签之间的对应关系，以建立得到已标注图像的图像特征及其对应的标签的对应关系。该已标注图像包括上述第二漏检目标区域图像。

相应于上述方法实施例，本发明实施例提供了一种困难样本筛选装置，如图3所示，可以包括：

第一确定模块310，被配置为利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像，其中，所述目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度，所述第一漏检目标区域图像为：所对应置信度低于预设阈值的区域图像；

第二确定模块320，被配置为对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征；

第三确定模块330，被配置为基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签，其中，所述对应关系包括：已标注图像的图像特征及其对应标签之间的对应关系；

第四确定模块340，被配置为将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。

在本发明的另一实施例中，所述第三确定模块330，包括：

在本发明的另一实施例中，所述第一确定单元，包括：

在本发明的另一实施例中，所述第二确定子模块，被具体配置为针对每一第一漏检目标区域图像，按照该第一漏检目标区域图像与每一已标注图像之间的相似度值从大到小的顺序，排列每一已标注图像对应的标签，得到该第一漏检目标区域图像对应的标签队列；

在本发明的另一实施例中，所述第二确定单元，被具体配置为针对每一第一漏检目标区域图像，统计该第一漏检目标区域图像对应的备选标签中，为漏检标签的备选标签的数量，作为第一数量；

可选的，所述第一确定模块310，被具体配置为利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个疑似目标区域的待筛选图像，并确定每一疑似目标区域对应的置信度；

在本发明的另一实施例中，所述装置还包括：

在本发明的另一实施例中，所述第五确定单元，被具体配置为针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标注框与检测框之间的交并比；

上述装置、***实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

一种困难样本筛选方法，其特征在于，包括：

利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像，其中，所述目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度，所述第一漏检目标区域图像为：所对应置信度低于预设阈值的区域图像；

对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征；

基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签，其中，所述对应关系包括：已标注图像的图像特征及其对应标签之间的对应关系；

将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。
如权利要求1所述的方法，其特征在于，所述基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签的步骤，包括：

基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签；

基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签。
如权利要求2所述的方法，其特征在于，所述基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签的步骤，包括：

针对每一第一漏检目标区域图像，基于该第一漏检目标区域图像的图像特征，以及每一已标注图像的图像特征，确定该第一漏检目标区域图像与每一已标注图像之间的相似度值；

基于所述相似度值，确定每一第一漏检目标区域图像对应的备选标签。
如权利要求3所述的方法，其特征在于，所述基于所述相似度值，确定每一第一漏检目标区域图像对应的备选标签的步骤，包括：

针对每一第一漏检目标区域图像，按照该第一漏检目标区域图像与每一已标注图像之间的相似度值从大到小的顺序，排列每一已标注图像对应的标签，得到该第一漏检目标区域图像对应的标签队列；

针对每一第一漏检目标区域图像，将该第一漏检目标区域图像对应的标签队列中前预设数量个标签，确定为该疑似目标区域图像对应的备选标签。
如权利要求2所述的方法，其特征在于，所述基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签的步骤，包括：

针对每一第一漏检目标区域图像，统计该第一漏检目标区域图像对应的备选标签中，为漏检标签的备选标签的数量，作为第一数量；

判断所述第一数量是否满足预设统计条件，其中，所述满足预设统计条件包括：大于预设数量阈值，或与所对应第一漏检目标区域图像对应的备选标签的总数的比值大于预设比例阈值；

若判断所述第一数量满足所述预设统计条件，确定该第一漏检目标区域图像对应的目标标签为所述漏检标签；

若判断所述第一数量不满足所述预设统计条件，确定该第一漏检目标区域图像对应的目标标签为非漏检标签。
如权利要求1-5任一项所述的方法，其特征在于，所述利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像的步骤，包括：

利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个疑似目标区域的待筛选图像，并确定每一疑似目标区域对应的置信度；

基于每一疑似目标区域对应的置信度，从所述疑似目标区域中确定出所对应置信度低于所述预设阈值的疑似目标区域，作为备选目标区域；

若备选目标区域为矩形区域，将为矩形区域的该备选目标区域对应的区域图像，确定为第一漏检目标区域图像；

若备选目标区域为非矩形区域，将包含该备选目标区域的最小的矩形区域对应的区域图像，确定为第一漏检目标区域图像，以确定出包含至少一个第一漏检目标区域图像的待筛选图像。
如权利要求1-6任一项所述的方法，其特征在于，在所述基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签的步骤之前，所述方法还包括：

建立对应关系的过程，其中，所述过程包括：

获得建立图像以及每一建立图像对应的标注信息，其中，所述标注信息包括：所对应建立图像包含的目标所在区域的标注位置信息；

利用所述目标检测模型，对每一建立图像进行检测，确定包含至少一个第二漏检目标区域图像的每一建立图像及所述至少一个第二漏检目标区域图像对应的检测位置信息，其中，所述至少一个第二漏检目标区域图像为所对应置信度低于所述预设阈值的区域图像；

对每一第二漏检目标区域图像进行图像特征提取，确定每一第二漏检目标区域图像的图像特征；

针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标签，以建立得到所述对应关系。
如权利要求7所述的方法，其特征在于，所述针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标签，以建立得到所述对应关系的步骤，包括：

针对每一第二漏检目标区域图像，基于该第二漏检目标区域图像对应的检测位置信息，以及该第二漏检目标区域图像所在建立图像对应的标注信息中的标注位置信息，确定该第二漏检目标区域图像对应的标注框与检测框之间的交并比；

针对每一第二漏检目标区域图像，将该第二漏检目标区域图像对应的交并比与预设交并比阈值进行比较；

若第二漏检目标区域图像对应的交并比不小于所述预设交并比阈值，确定该第二漏检目标区域图像对应的标签为漏检标签；

若第二漏检目标区域图像对应的交并比小于所述预设交并比阈值，确定该第二漏检目标区域图像对应的标签为非漏检标签，以建立得到所述对应关系。
一种困难样本筛选装置，其特征在于，所述装置包括：

第一确定模块，被配置为利用预先建立的目标检测模型，对所获得的每一待筛选图像进行检测，确定包含至少一个第一漏检目标区域图像的待筛选图像，其中，所述目标检测模型为：用于检测图像所包含目标所在区域及确定检测出的目标所在区域存在目标的置信度，所述第一漏检目标区域图像为：所对应置信度低于预设阈值的区域图像；

第二确定模块，被配置为对每一第一漏检目标区域图像进行图像特征提取，确定每一第一漏检目标区域图像的图像特征；

第三确定模块，被配置为基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的目标标签，其中，所述对应关系包括：已标注图像的图像特征及其对应标签之间的对应关系；

第四确定模块，被配置为将包含至少一个所对应目标标签为漏检标签的第一漏检目标区域图像的待筛选图像，确定为困难样本图像。
如权利要求9所述的装置，其特征在于，所述第三确定模块，包括：

第一确定单元，被配置为基于每一第一漏检目标区域图像的图像特征以及预先建立的对应关系，确定每一第一漏检目标区域图像对应的备选标签；

第二确定单元，被配置为基于每一第一漏检目标区域图像对应的备选标签，确定每一第一漏检目标区域图像对应的目标标签。