CN114565803A

CN114565803A - 用于提取难样本的方法、装置及机械设备

Info

Publication number: CN114565803A
Application number: CN202210065428.9A
Authority: CN
Inventors: 付玲; 周志忠; 秦拯; 向超前; 虢彦
Original assignee: Zhongke Yungu Technology Co Ltd
Current assignee: Zhongke Yungu Technology Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-05-31

Abstract

本申请公开了一种用于提取难样本的方法、装置及机械设备。该方法包括：获取候选关键帧；根据候选关键帧构建语义分割模型；通过语义分割模型确定预测难样本以及边缘标记样本；对边缘标记样本进行筛选以得到标记难样本；根据预测难样本和标记难样本确定候选难样本。本申请通过语义分割模型确定预测难样本和边缘标记样本，通过多种筛选方式，降低了人工待确认图片的规模，提高难样本的识别效率，提高难样本的样本库的质量。

Description

用于提取难样本的方法、装置及机械设备

技术领域

本申请涉及智能监控技术领域，具体地，涉及一种用于提取难样本的方法、装置及机械设备。

背景技术

语义分割标签制作要求对样本图片中各个感兴趣区域的边缘点集能够进行准确标注。但是由于标注成本较高，构建一个一定规模、合格的样本库需要耗费较大的成本。目前对于高价值样本(难样本)的评价主要还是以标签为基准的，以最终的损失函数或者其变种作为最终量化评价标准。现有技术中，对于难样本的提取是在模型训练过程中定义相关规则来挖掘难样本，这并不能减少标注量；或者人力观察数据进行选择性标注，这对于样本价值识别具有一定的盲目性，无法保障样本库的质量，且耗费大量人力。因此，现有技术无法降低标注数量且无法直观评价样本价值，从而导致难样本的提取效率较低。

发明内容

本申请的目的是提供一种用于提取难样本的方法、装置及机械设备，用以解决现有技术无法降低标注数量且无法直观评价样本价值，从而导致难样本的提取效率较低的问题。

为了实现上述目的，本申请第一方面提供一种用于提取难样本的方法，包括：

获取候选关键帧；

根据候选关键帧构建语义分割模型；

通过语义分割模型确定预测难样本以及边缘标记样本；

对边缘标记样本进行筛选以得到标记难样本；

根据预测难样本和标记难样本确定候选难样本。

在本申请实施例中，根据候选关键帧构建语义分割模型包括：

将候选关键帧分为多组候选关键帧；

选取预设组的候选关键帧进行标注，以得到初始样本库；

根据初始样本库训练语义分割模型，语义分割模型用于预测剩余候选关键帧；

在每预测一组剩余候选关键帧之后，更新初始样本库并重新训练语义分割模型，以更新语义分割模型。

在本申请实施例中，在每预测一组剩余候选关键帧之后，更新初始样本库并重新训练语义分割模型，以更新语义分割模型包括：

将当前组对应的预测难样本加入上一组更新后的初始样本库中，以得到当前样本库；

根据当前样本库重新训练语义分割模型，以得到当前语义分割模型；当前语义分割模型用于预测下一组剩余候选关键帧。

在本申请实施例中，通过语义分割模型确定预测难样本以及边缘标记样本包括：

针对每张候选关键帧，确定当前候选关键帧的最大概率层及次大概率层的差值图；

统计差值图中差值小于第一阈值的目标像素数量；

确定目标像素数量与当前候选关键帧的总像素数量的比值；

判断比值是否大于第二阈值；

在比值大于第二阈值的情况下，判定当前候选关键帧为预测难样本；

在比值不大于第二阈值的情况下，判定当前候选关键帧为边缘标记样本。

在本申请实施例中，对边缘标记样本进行筛选以得到标记难样本包括：

获取在时间上依次相邻的第一边缘标记样本和第二边缘标记样本；

将第二边缘标记样本确定为目标边缘标记样本；

确定目标边缘标记样本与第一边缘标记样本的相似度；

根据相似度判断目标边缘标记样本是否为待人工标记样本；

获取待人工标记样本中的标记难样本。

在本申请实施例中，根据相似度判断目标边缘标记样本是否为待人工标记样本包括：

判断相似度是否小于第三阈值；

在相似度小于第三阈值的情况下，判定目标边缘标记样本为待人工标记样本。

在本申请实施例中，获取候选关键帧包括：

通过三帧帧差法获取包含运动的候选关键帧。

本申请第二方面提供一种用于提取难样本的装置，包括：

存储器，被配置成存储指令；以及

处理器，被配置成从存储器调用指令以及在执行指令时能够实现上述的用于提取难样本的方法。

本申请第三方面提供一种机械设备，包括：

视频采集装置，用于采集固定视角的运动场景视频；

上述的用于提取难样本的装置。

本申请第四方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的用于提取难样本的方法。

通过上述技术方案，根据获取的候选关键帧构建语义分割模型；通过语义分割模型确定预测难样本以及边缘标记样本；对边缘标记样本进行筛选以得到标记难样本；再根据预测难样本和标记难样本确定候选难样本。相比于直接利用模型预测结果并标记在原始图像，再进行人工确认相比，本申请通过语义分割模型确定预测难样本和边缘标记样本，通过多种筛选方式，降低了人工待确认图片的规模，提高难样本的识别效率，提高难样本的样本库的质量。

本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请，但并不构成对本申请的限制。在附图中：

图1示意性示出了根据本申请实施例的一种用于提取难样本的方法的流程示意图；

图2示意性示出了根据本申请实施例的一种用于提取难样本的装置的结构框图；

图3示意性示出了根据本申请实施例的一种机械设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1示意性示出了根据本申请实施例的一种用于提取难样本的方法的流程示意图。如图1所示，本申请实施例提供一种用于提取难样本的方法，该方法可以包括下列步骤：

步骤102、获取候选关键帧；

步骤104、根据候选关键帧构建语义分割模型；

步骤106、通过语义分割模型确定预测难样本以及边缘标记样本；

步骤108、对边缘标记样本进行筛选以得到标记难样本；

步骤110、根据预测难样本和标记难样本确定候选难样本。

本发明实施例的用于提取难样本的方法可以应用于混凝土机械设备，可以包括但不限于搅拌站搅拌车进、卸料口对齐视频关键帧选取等。在本申请实施例中，视频都是由静止的画面组成的，这些静止的画面被称为帧。针对固定视角运动情形海量视频下如何挖掘语义分割难样本的问题，本申请实施例提出一种针对提取语义分割难样本的识别方法。针对固定视角下海量难样本(即边缘标记样本)如何快速筛选的问题，提出一种基于图像结构相似度的快速筛选方法，提高标记难样本的筛选效率。

在本申请实施例中，深度学习技术是解决图像领域自然场景下诸多任务的有效技术手段。深度学习模型泛化能力一方面来源于模型本申请结构以及模型训练技巧，但最终决定模型泛化能力上限是其所使用的样本库，因而构建一个高价值样本库是采用深度学习技术完成某项图像任务的关键。在当今大数据时代，数据量大，数据种类多，模型训练大概率情况下需要标注数据，但容易样本对于模型训练精度提升并无实际帮助，且其标注占比高，成本大。因此，在模型训练过程中加入难样本挖掘策略可提升模型的性能，但却不能减少标注量。因而，研究从海量数据中识别出困难样本(即难样本)，对于提升样本库质量，改善模型性能，降低标注成本具有重要意义。本申请针对如何提取难样本的方法包括三个阶段：初选候选关键帧，通过语义分割模型确定预测难样本以及边缘标记样本以及对边缘标记样本进行筛选以得到标记难样本，从而根据预测难样本和标记难样本确定候选难样本。

在本申请实施例中，初选候选关键帧是为了从海量视频中初步筛选出运动帧，并初步分出背景帧以及前景帧。在一个示例中，可以通过三帧帧差法获取包含运动的候选关键帧。具体地，通过三帧帧差法获取包含运动的候选关键帧的方法可以包括：获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧，并将第三视频帧确定为目标视频帧。再对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图，同时对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图。进一步地，确定目标视频帧与第二视频帧的相似度，根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动，在目标视频帧包含运动且相似度小于第一设定值的情况下，确定目标视频帧为前景关键帧；在目标视频帧不包含运动且相似度小于第二设定值的情况下，确定目标视频帧为背景关键帧。其中，背景关键帧即不包括运动的关键帧，前景关键帧即包括运动的关键帧。本申请实施例需要获取的是包含运动的前景关键帧。本申请实施例利用三帧帧差法进行运动帧确定主要是考虑其可做到计算效率与运动感知之间的平衡，抽取三张时间上依次相邻的视频帧，对连续三帧图像进行图像锐化，以降低光照不均对运动检测的影响。进一步地判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度，从而在抽帧的同时能够区分前景关键帧和背景关键帧，不需要后续花费大量人力进行区分，提高了选取关键帧的效率与质量。

在本申请实施例中，语义分割是图像分割中的基本任务，是指对于图像将每个像素都标注上对应的类别，不区分个体。简单地说，就是将视觉图像输入的数据分为不同的语义可解释性类别。处理器在获取了候选关键帧之后，可以根据候选关键帧构建语义分割模型，通过语义分割模型确定预测难样本以及边缘标记样本。其中，预测难样本是指通过语义分割模型能够直接确定的难样本；边缘标记样本是指待人工标记的样本。

在本申请实施例中，语义分割模型的构建可以包括以下步骤：将候选关键帧分为多组(如m组)，取其中的若干组(如预设组)的候选关键帧进行标注，以得到初始样本库，并利用初始样本库的标记数据训练语义分割模型。利用根据初始样本库训练好的语义分割模型识别剩余候选关键帧，剩余候选关键帧即除了预设组包含的候选关键帧之外的其他候选关键帧。例如，利用该语义分割模型识别剩余组中的一组；将其中的识别为预测难样本的剩余候选关键帧加入初始样本库，重新训练语义分割模型，如此循环，直到通过不断更新的语义分割模型对所有的剩余候选关键帧识别完毕。以候选关键帧有10000张为例，m为100，将10000张候选关键帧分为100组，每组包括100个候选关键帧。选定1组进行标注，以得到初始语义分割模型，假设该组的难样本有50张，则初始样本库的难样本有50张。利用构建好的初始语义分割模型对剩余99组中的1组进行预测，以得到该组的预测难样本。假如在该组得到30张预测难样本，则将这30张预测难样本加入初始样本库，初始样本库的难样本数量增加为80张。再根据更新后的初始样本库重新训练语义分割模型，进一步地，利用二次训练好的语义分割模型继续预测剩余98组中的一组候选关键帧。按照上述方式依次更新初始样本库并重新训练语义分割模型，直到将所有的候选关键帧都预测完毕。

在本申请实施例中，针对每一次的语义分割模型的预测，可以依据单个像素预测置信度完善语义分割难样本的评价标准，并提出相应的指标算子。语义分割结果的好坏可以从两个方面进行评价：模型预测单个像素的置信度分布以及模型预测与实际结果的偏差。在一个示例中，处理器可以构建预测概率差值图，通过确定当前候选关键帧的最大概率层及次大概率层的差值图，统计差值图中小于第一阈值thresh1的目标像素数量，确定目标像素数量与当前候选关键帧的总像素数量的比值。通过判断该比值是否大于第二阈值thresh2，判断当前候选关键帧为预测难样本还是边缘标记样本。具体地，在比值大于第二阈值thresh2的情况下，判定当前候选关键帧为预测难样本；在比值不大于第二阈值thresh2的情况下，判定当前候选关键帧为边缘标记样本，需要进入进行进一步地筛选。

在本申请实施例中，边缘标记样本即待人工确认的样本，但是若根据语义分割模型确定的边缘标记样本的视频帧数量较多，则需要通过计算相邻视频帧的图像结构相似性(Structural Similarity，SSIM)算法对视频帧进行初步筛选。若筛选后的边缘标记样本仍然很多，则可采用剩余图像的原始图像进一步采用SSIM进行进一步筛选，并同时筛选出对应的标记图。经过此筛选流程后，待人工确认的图像数量将大大减少，以提高人工筛选效率。在一个示例中，处理器可以获取在时间上依次相邻的第一边缘标记样本和第二边缘标记样本，并将第二边缘标记样本确定为目标边缘标记样本，第一边缘标记样本即目标边缘标记样本在时间上相邻的前一张图片。将时间上最靠前的第一张边缘标记样本默认为待人工确认样本，确定目标边缘标记样本与前一相邻的缘标记样本的相似度，再根据相似度判断目标边缘标记样本是否为待人工标记样本。相似度较大则当前目标边缘标记样本可以排除，不需要重复进行人工标记，如果相似度较小，则当前目标边缘标记样本与前一张差别较大，需要进行人工标记。例如，判断相似度是否小于第三阈值thresh3，在相似度小于第三阈值thresh3的情况下，判定目标边缘标记样本为待人工标记样本。这样，可以减少人工标记的数量，降低人工待确认图像的规模，提高人工筛选的效率，以更高地效率获取待人工标记样本中的标记难样本。进一步地，将根据语义分割模型确定的预测难样本和通过人工标记确定的标记难样本确定候选难样本。

在本申请实施例中，步骤104、根据候选关键帧构建语义分割模型可以包括：

将候选关键帧分为多组候选关键帧；

选取预设组的候选关键帧进行标注，以得到初始样本库；

具体地，语义分割是图像分割中的基本任务，是指对于图像将每个像素都标注上对应的类别，不区分个体。简单地说，就是将视觉图像输入的数据分为不同的语义可解释性类别。处理器在获取了候选关键帧之后，可以根据候选关键帧构建语义分割模型，通过语义分割模型确定预测难样本以及边缘标记样本。其中，预测难样本是指通过语义分割模型能够直接确定的难样本；边缘标记样本是指待人工标记的样本。

在本申请实施例中，语义分割模型的构建可以包括以下步骤：将候选关键帧分为多组(如m组)，取其中的若干组(如预设组)的候选关键帧进行标注，以得到初始样本库，并利用初始样本库的标记数据训练语义分割模型。利用根据初始样本库训练好的语义分割模型识别剩余候选关键帧，剩余候选关键帧即除了预设组包含的候选关键帧之外的其他候选关键帧。例如，利用该语义分割模型识别剩余组中的一组；将其中的识别为预测难样本的剩余候选关键帧加入初始样本库，重新训练语义分割模型，如此循环，直到通过不断更新的语义分割模型对所有的剩余候选关键帧识别完毕。通过在每一组预测完之后更新初始样本库和语义分割模型，可以不断提高语义分割模型的精确度，改善模型性能。

在本申请实施例中，在每预测一组剩余候选关键帧之后，更新初始样本库并重新训练语义分割模型，以更新语义分割模型可以包括：

具体地，在每预测一组剩余候选关键帧之后，将其中的识别为预测难样本的剩余候选关键帧加入初始样本库，重新训练语义分割模型，如此循环，直到通过不断更新的语义分割模型对所有的剩余候选关键帧识别完毕。以候选关键帧有10000张为例，m为100，将10000张候选关键帧分为100组，每组包括100个候选关键帧。选定1组进行标注，以得到初始语义分割模型，假设该组的难样本有50张，则初始样本库的难样本有50张。利用构建好的初始语义分割模型对剩余99组中的1组进行预测，以得到该组的预测难样本。假如在该组得到30张预测难样本，则将这30张预测难样本加入初始样本库，初始样本库的难样本数量增加为80张。再根据更新后的初始样本库重新训练语义分割模型，进一步地，利用二次训练好的语义分割模型继续预测剩余98组中的一组候选关键帧。按照上述方式依次更新初始样本库并重新训练语义分割模型，直到将所有的候选关键帧都预测完毕。这样，可以不断提高语义分割模型的精确度，改善模型性能。

在本申请实施例中，步骤106、通过语义分割模型确定预测难样本以及边缘标记样本包括：

统计差值图中差值小于第一阈值的目标像素数量；

确定目标像素数量与当前候选关键帧的总像素数量的比值；

判断比值是否大于第二阈值；

具体地，针对每一次的语义分割模型的预测，可以依据单个像素预测置信度完善语义分割难样本的评价标准，并提出相应的指标算子。语义分割结果的好坏可以从两个方面进行评价：模型预测单个像素的置信度分布以及模型预测与实际结果的偏差。在一个示例中，处理器可以构建预测概率差值图，通过确定当前候选关键帧的最大概率层及次大概率层的差值图，统计差值图中小于第一阈值thresh1的目标像素数量，确定目标像素数量与当前候选关键帧的总像素数量的比值。通过判断该比值是否大于第二阈值thresh2，判断当前候选关键帧为预测难样本还是边缘标记样本。具体地，在比值大于第二阈值thresh2的情况下，判定当前候选关键帧为预测难样本；在比值不大于第二阈值thresh2的情况下，判定当前候选关键帧为边缘标记样本，需要进入进行进一步地筛选。通过两个维度确定预测难样本，可以提高预测难样本的质量，直观地评价预测难样本的价值。

在本申请实施例中，步骤108、对边缘标记样本进行筛选以得到标记难样本可以包括：

将第二边缘标记样本确定为目标边缘标记样本；

确定目标边缘标记样本与第一边缘标记样本的相似度；

根据相似度判断目标边缘标记样本是否为待人工标记样本；

获取待人工标记样本中的标记难样本。

具体地，边缘标记样本即待人工确认的样本。若根据语义分割模型确定的边缘标记样本的视频帧数量较多，则需要通过计算相邻视频帧的图像结构相似性(StructuralSimilarity，SSIM)算法对视频帧进行初步筛选。若筛选后的边缘标记样本仍然很多，则可采用剩余图像的原始图像进一步采用SSIM进行进一步筛选，并同时筛选出对应的标记图。经过此筛选流程后，待人工确认的图像数量将大大减少，以提高人工筛选效率。

在本申请实施例中，处理器可以获取在时间上依次相邻的第一边缘标记样本和第二边缘标记样本，并将第二边缘标记样本确定为目标边缘标记样本，第一边缘标记样本即目标边缘标记样本在时间上相邻的前一张图片。将时间上最靠前的第一张边缘标记样本默认为待人工确认样本，确定目标边缘标记样本与前一相邻的缘标记样本的相似度，再根据相似度判断目标边缘标记样本是否为待人工标记样本。这样，可以减少人工标记的数量，降低人工待确认图像的规模，提高人工筛选的效率，以更高地效率获取待人工标记样本中的标记难样本。

在本申请实施例中，根据相似度判断目标边缘标记样本是否为待人工标记样本可以包括：

判断相似度是否小于第三阈值；

具体地，可以通过SSIM判断目标边缘标记样本是否为待人工标记样本。相似度较大则当前目标边缘标记样本可以排除，不需要重复进行人工标记，如果相似度较小，则当前目标边缘标记样本与前一张差别较大，需要进行人工标记。例如，判断相似度是否小于第三阈值thresh3，在相似度小于第三阈值thresh3的情况下，判定目标边缘标记样本为待人工标记样本。通过相似度判断，可以减少待人工标记样本的数量。

在本发明的实施例中，相似度可以满足以下公式：

c₁＝(k₁L)²；

c₂＝(k₂L)²；

其中，SSIM(x,y)为目标边缘标记样本和第一边缘标记样本的相似度；x和y分别为目标边缘标记样本和第一边缘标记样本；μ_x和μ_y分别为目标边缘标记样本和第一边缘标记样本的图像灰度矩阵的平均值；σ_x ²和σ_y ²分别为目标边缘标记样本和第一边缘标记样本的图像灰度矩阵的方差值；σ_xy为目标边缘标记样本和第一边缘标记样本的图像灰度矩阵的协方差；c₁和c₂为用来维持稳定的常数；L为像素值的动态范围；k₁＝0.01；k₂＝0.03。

在本申请实施例中，步骤102、获取候选关键帧可以包括：

通过三帧帧差法获取包含运动的候选关键帧。

初选候选关键帧是为了从海量视频中初步筛选出运动帧，并初步分出背景帧以及前景帧。在本申请实施例中，可以通过三帧帧差法获取包含运动的候选关键帧。具体地，通过三帧帧差法获取包含运动的候选关键帧的方法可以包括：获取在时间上依次相邻的第一视频帧、第二视频帧和第三视频帧，并将第三视频帧确定为目标视频帧。再对第一视频帧和第二视频帧进行差值处理以得到第一相邻差值图，同时对第二视频帧和目标视频帧进行差值处理以得到第二相邻差值图。进一步地，确定目标视频帧与第二视频帧的相似度，根据第一相邻差值图和第二相邻差值图判断目标视频帧是否包含运动，在目标视频帧包含运动且相似度小于第一设定值的情况下，确定目标视频帧为前景关键帧；在目标视频帧不包含运动且相似度小于第二设定值的情况下，确定目标视频帧为背景关键帧。其中，背景关键帧即不包括运动的关键帧，前景关键帧即包括运动的关键帧。本申请实施例需要获取的是包含运动的前景关键帧。本申请实施例利用三帧帧差法进行运动帧确定主要是考虑其可做到计算效率与运动感知之间的平衡，抽取三张时间上依次相邻的视频帧，对连续三帧图像进行图像锐化，以降低光照不均对运动检测的影响。进一步地判断目标视频帧是否包含运动以及目标视频帧与相邻视频帧的相似度，从而在抽帧的同时能够区分前景关键帧和背景关键帧，不需要后续花费大量人力进行区分，提高了选取关键帧的效率与质量。

图2示意性示出了根据本申请实施例的一种用于提取难样本的装置的结构框图。如图2所示，本申请实施例提供一种用于提取难样本的装置，可以包括：

存储器210，被配置成存储指令；以及

处理器220，被配置成从存储器210调用指令以及在执行指令时能够实现上述的用于提取难样本的方法。

具体地，在本申请实施例中，处理器220可以被配置成：

获取候选关键帧；

根据候选关键帧构建语义分割模型；

通过语义分割模型确定预测难样本以及边缘标记样本；

对边缘标记样本进行筛选以得到标记难样本；

根据预测难样本和标记难样本确定候选难样本。

进一步地，处理器220还可以被配置成：

根据候选关键帧构建语义分割模型包括：

将候选关键帧分为多组候选关键帧；

选取预设组的候选关键帧进行标注，以得到初始样本库；

进一步地，处理器220还可以被配置成：

在每预测一组剩余候选关键帧之后，更新初始样本库并重新训练语义分割模型，以更新语义分割模型包括：

进一步地，处理器220还可以被配置成：

通过语义分割模型确定预测难样本以及边缘标记样本包括：

统计差值图中差值小于第一阈值的目标像素数量；

确定目标像素数量与当前候选关键帧的总像素数量的比值；

判断比值是否大于第二阈值；

进一步地，处理器220还可以被配置成：

对边缘标记样本进行筛选以得到标记难样本包括：

将第二边缘标记样本确定为目标边缘标记样本；

确定目标边缘标记样本与第一边缘标记样本的相似度；

根据相似度判断目标边缘标记样本是否为待人工标记样本；

获取待人工标记样本中的标记难样本。

进一步地，处理器220还可以被配置成：

根据相似度判断目标边缘标记样本是否为待人工标记样本包括：

判断相似度是否小于第三阈值；

进一步地，处理器220还可以被配置成：

获取候选关键帧包括：

通过三帧帧差法获取包含运动的候选关键帧。

图3示意性示出了根据本申请实施例的一种机械设备的结构示意图。如图3所示，本申请实施例还提供一种机械设备，可以包括：

视频采集装置310，用于采集固定视角的运动场景视频；

上述的用于提取难样本的装置320。

在本发明的实施例中，视频采集模块310与用于提取难样本的装置320电连接，视频采集模块310采集固定视角的运动场景视频，将视频传输至用于提取难样本的装置320，该装置获取候选关键帧；根据候选关键帧构建语义分割模型；通过语义分割模型确定预测难样本以及边缘标记样本；对边缘标记样本进行筛选以得到标记难样本；以及根据预测难样本和标记难样本确定候选难样本。这样，针对固定视角运动场景海量视频的难样本选取问题，通过语义分割模型确定预测难样本和边缘标记样本，通过多种筛选方式，降低了人工待确认图片的规模，提高难样本的识别效率，提高难样本的样本库的质量。

本申请实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的用于提取难样本的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于提取难样本的方法，其特征在于，包括：

获取候选关键帧；

根据所述候选关键帧构建语义分割模型；

通过所述语义分割模型确定预测难样本以及边缘标记样本；

对所述边缘标记样本进行筛选以得到标记难样本；

根据所述预测难样本和所述标记难样本确定候选难样本。

2.根据权利要求1所述的方法，其特征在于，所述根据所述候选关键帧构建语义分割模型包括：

将所述候选关键帧分为多组候选关键帧；

选取预设组的候选关键帧进行标注，以得到初始样本库；

根据所述初始样本库训练所述语义分割模型，所述语义分割模型用于预测剩余候选关键帧；

在每预测一组剩余候选关键帧之后，更新所述初始样本库并重新训练所述语义分割模型，以更新所述语义分割模型。

3.根据权利要求2所述的方法，其特征在于，所述在每预测一组剩余候选关键帧之后，更新所述初始样本库并重新训练所述语义分割模型，以更新所述语义分割模型包括：

根据当前样本库重新训练所述语义分割模型，以得到当前语义分割模型；所述当前语义分割模型用于预测下一组剩余候选关键帧。

4.根据权利要求1所述的方法，其特征在于，所述通过所述语义分割模型确定预测难样本以及边缘标记样本包括：

统计所述差值图中差值小于第一阈值的目标像素数量；

确定所述目标像素数量与当前候选关键帧的总像素数量的比值；

判断所述比值是否大于第二阈值；

在所述比值大于所述第二阈值的情况下，判定当前候选关键帧为预测难样本；

在所述比值不大于所述第二阈值的情况下，判定当前候选关键帧为边缘标记样本。

5.根据权利要求1所述的方法，其特征在于，所述对所述边缘标记样本进行筛选以得到标记难样本包括：

将所述第二边缘标记样本确定为目标边缘标记样本；

确定所述目标边缘标记样本与所述第一边缘标记样本的相似度；

根据所述相似度判断所述目标边缘标记样本是否为待人工标记样本；

获取所述待人工标记样本中的标记难样本。

6.根据权利要求5所述的方法，其特征在于，所述根据所述相似度判断所述目标边缘标记样本是否为待人工标记样本包括：

判断所述相似度是否小于第三阈值；

在所述相似度小于第三阈值的情况下，判定所述目标边缘标记样本为待人工标记样本。

7.根据权利要求1所述的方法，其特征在于，所述获取候选关键帧包括：

通过三帧帧差法获取包含运动的候选关键帧。

8.一种用于提取难样本的装置，其特征在于，包括：

存储器，被配置成存储指令；以及

处理器，被配置成从所述存储器调用所述指令以及在执行所述指令时能够实现根据权利要求1至7中任一项所述的用于提取难样本的方法。

9.一种机械设备，其特征在于，包括：

视频采集装置，用于采集固定视角的运动场景视频；

根据权利要求8所述的用于提取难样本的装置。

10.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令用于使得机器执行根据权利要求1至7中任一项所述的用于提取难样本的方法。