CN112163634B

CN112163634B - 实例分割模型样本筛选方法、装置、计算机设备及介质

Info

Publication number: CN112163634B
Application number: CN202011099366.0A
Authority: CN
Inventors: 王俊; 高鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2023-09-05
Anticipated expiration: 2040-10-14
Also published as: CN112163634A; WO2022077917A1

Abstract

本发明涉及人工智能，可用于医疗影像分析辅助场景，提供了实例分割模型样本筛选方法，包括：读取原始数据集，基于主动学习方式从未标注集中挑出信息量大于剩余样本的第一待标注样本，通过人工标注多个第一待标注样本的方式得到第一标注集；基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，通过伪标注第二待标注样本的方式得到第二标注集，将第一标注集、第二标注集及已标注集共同作为训练集。本发明能够在减小样本人工标注量的同时获得大量的用于图像实例分割模型训练的样本，进而能够实现更理想的实例分割模型准确率。此外，本发明还涉及区块链技术，原始数据集和训练集均可存储于区块链中。

Description

实例分割模型样本筛选方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域，能够应用在图像实例分割领域中，本发明具体提供了实例分割模型样本筛选方法、装置、计算机设备及介质。

背景技术

随着深度学习的不断发展，计算机视觉取得了越来越大的成功，而这要归功于大型训练数据集的支持。训练数据集(简称训练集)是带有丰富标注信息的数据集，收集并标注这样的数据集通常需要庞大的人力成本。

与图像分类技术相比，图像实例分割难度系数更高，必须要大量具有标注的训练数据才能真正实现实例分割功能。但是，可获取的有标注样本数量相对于问题的规模来说往往不足，或者获取样本的代价过高。在很多情况下，具备相关专业知识的标注人员(如医生)稀缺或难以抽出时间，或者标注人员的标注成本过高，再或者图像的标注或判断周期过长，这些问题都可能实例分割模型无法有效训练。

因此，如何能够得到大量的用于图像实例分割模型训练的样本(训练数据集)成为了本领域技术人员的一个研究热点。

发明内容

为解决现有技术存在的难以获得大量的用于图像实例分割模型训练的样本等问题，本发明能够提供实例分割模型样本筛选方法、装置、计算机设备及介质，可达到在减小样本人工标注量的同时获得大量样本的目的。

为实现上述技术目的，本发明公开了一种实例分割模型样本筛选方法，该方法包括但不限于如下的步骤。

读取原始数据集，原始数据集包括未标注集和已标注集。

基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，通过人工标注多个第一待标注样本的方式得到第一标注集。所有第一待标注样本和所有剩余样本组成未标注集。

基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，通过伪标注第二待标注样本的方式得到第二标注集。

将第一标注集、第二标注集以及已标注集共同作为当前实例分割模型的训练集。

进一步地，基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本的步骤包括：

计算未标注集中各样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分，以利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分确定各样本的最终得分。

依据最终得分与信息量之间的负相关或正相关关系从未标注集中挑选出多个第一待标注样本。

进一步地，利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分确定各样本的最终得分的过程包括：

利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分的均值和标准差计算当前样本中各实例的得分。

利用当前样本中各实例的得分的均值和标准差计算当前样本的最终得分。

进一步地，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本的步骤包括：

获取所有剩余样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分。

当前样本的实例检测框得分大于第一阈值且实例输出类别得分大于第二阈值且实例轮廓掩码得分大于第三阈值时，判断出当前样本的置信度高于设定值，挑选出当前样本作为第二待标注样本。

进一步地，实例检测框得分为实例的检测框与真实框的交并比。

实例输出类别得分为实例的分类值。

实例轮廓掩码得分为实例的检测掩码与真实掩码的交并比。

进一步地，在实例分割模型训练过程中从未标注集中挑选第一待标注样本。

进一步地，在实例分割模型训练过程中从所有剩余样本中挑选第二待标注样本。

为实现上述的技术目的，本发明还公开了一种实例分割模型样本筛选装置，该装置包括但不限于数据读取模块、第一筛选模块、第二筛选模块及数据扩充模块。

数据读取模块，读取原始数据集，原始数据集包括未标注集和已标注集。

第一筛选模块，用于基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，多个第一待标注样本被人工标注为第一标注集。所有第一待标注样本和所有剩余样本组成未标注集。

第二筛选模块，用于基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，第二待标注样本被伪标注为第二标注集。

数据扩充模块，将第一标注集、第二标注集以及已标注集共同作为当前实例分割模型的训练集。

为实现上述的技术目的，本发明还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如本发明任一实施例中的样本筛选方法的步骤。

为实现上述的技术目的，本发明还提供了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如本发明任一实施例中的样本筛选方法的步骤。

本发明的有益效果为：基于半监督主动学习策略，本发明能够挑选出对当前模型信息量最大的样本给标注人员标注，并通过半监督伪标注学习方式进行训练集合有效地扩充，所以本发明能够在减小样本人工标注量的同时获得大量的用于图像实例分割模型训练的样本，以实现更理想的实例分割模型准确率。

本发明可在极大程度上减少人工标注的同时更快地得到大量的模型训练用样本，以使得应用本发明的实例分割模型的训练速度更快，因而本发明具有良好的实践意义和应用推广价值。

附图说明

图1示出了本发明一些实施例中的实例分割模型样本筛选方法的流程示意图。

图2示出了本发明一些实施例中的实例分割模型样本筛选装置的工作原理示意图。

图3示出了本发明一些实施例中的实例分割模型的工作原理示意图。

图4示出了本发明一些实施例中的实例目标在类别、检测框、分割轮廓三个维度上的分数。

图5示出了本发明另一些实施例中的实例目标在类别、检测框、分割轮廓三个维度上的分数。

图6示出了在不同的标注图像数量上使用本发明和现有方法所能够达到的实例分割效果(以脑出血区域分割和眼底水肿区域分割为例)的对比示意图。

图7示出了在不同的标注图像数量上使用本发明和现有方法所达到的模型精度(应用于脑出血区域分割)的对比示意图。

图8示出了在不同的标注图像数量上使用本发明和现有方法所达到的模型精度(应用于眼底水肿区域分割)的对比示意图。

图9示出了本发明一些实施例中的计算机设备的内部结构框图。

具体实施方式

下面结合说明书附图对本发明所提供的一种实例分割模型样本筛选方法、装置、计算机设备及介质进行详细的解释和说明。

在医疗影像智能分析辅助场景下，为解决常规技术存在的大量的实例分割模型用训练样本的难以获取问题，本发明能够有效地结合主动学习(Active Learning)和半监督学习(Semi-supervised Learning)这两种方案。其中，本发明可利用主动学习具有的通过尽可能少地采样标注样本而得到尽可能好的泛化模型的优点，利用半监督学习具有的挖掘有标注样本和无标注样本之间的联系而获得更好的泛化模型的优点。本发明能够将这两种方案的优点结合在一起，可提供半监督主动学习策略，以实现大量实例分割模型样本的快速地获取和筛选。

如图1所示，本发明的一些实施例可提供一种实例分割模型样本筛选方法，适于具有复杂布局的医疗影像分析中，例如较好适用于不同区域相互遮挡的图像，该方法可包括但不限于如下的步骤。

步骤S1，读取原始数据集，本发明一些实施例中的原始数据集可以包括但不限于未标注集、已标注集及测试集等数据集。应理解的是，原始数据集中包含的已标注集比较少、未标注集非常多。本发明一些实施例中数据集是指医学图像数据集，未标注集表示未标记的医学图像数据集，已标注集表示已标记的医学图像数据集，测试集表示可用于进行模型评估的医疗图像数据集。

步骤S2，基于主动学习方式，本发明先从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，通过人工标注多个第一待标注样本的方式得到第一标注集，第一标注集为通过人工标注形成的部分训练集，所有第一待标注样本和所有剩余样本组成原始数据集中的未标注集，即待标注的医学图像样本和剩余未标注的医学图像样本共组成所有未标记的医学图像样本。如图2所示，虽然能够通过人工标注方式为当前实例分割模型提供新的训练集，但事实上能够通过人工标注完成的标注样本的数量是受到限制的。

具体实施时，可令D＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i),x_i+1,...,x_n}表示整个数据集，其中，x表示样本，y表示标注结果。该数据集包括已标注数据{(x₁,y₁),(x₂,y₂),...,(x_i,y_i)}和未标注数据{x_i+1,...,x_n}，数据集中前i个样本为在先的已标注集，其余n-i个样本表示原始数据集中的未标注集。本实施例可从未标注集中选择信息量最大的若干个样本(例如具有最大信息量的前k个样本)，这些样本用于标注人员进行标注。k的具体值可根据实际情况进行合理的选择，例如k＝500。

如图3所示，基于本发明形成的实例分割模型可按照如下方式工作：通过实例分割模型扫描图像(即原始数据集中的图像，包括未标注图像和已标注图像)，图3中虚线表示未标注数据流、实线可表示已标注数据流；扫描图像后可生成提议信息(proposals)，通过对提议信息进行分类的方式生成边界框信息和掩码信息，然后在后续网络中根据边界框信息和掩码信息确定实例检测框得分(bbox_score)、实例输出类别得分(class_score)及实例轮廓掩码得分(mask_score)，进而根据实例检测框得分、实例输出类别得分以及实例轮廓掩码得分选择信息量最大的若干个样本。本实施例的实例分割模型可在Faster R-CNN模型的基础上扩展，其中，FPN网络(一种特征提取网络)基于自身的金字塔结构扫描图像后得到提议信息，扫描图像过程可为特征图(feature map)映射，RPN网络(一种区域推荐网络)通过处理提议信息的方式生成边界框信息以及掩码信息，处理方式可包括二值分类(前景、背景分类)和BB(bounding box，检测框)回归，根据边界框信息和掩码信息可确定检测框坐标、检测框内是否存在目标以及检测框的类标签等内容；然后对边界框信息和掩码信息进行有价值选区对齐(ROI Align)处理后送入后续网络，有价值选区对齐处理用于将原图和特征图的像素对应起来。本实施例中的后续网络可包括实例分割模型中的检测头(RCNNHead)和分割头(Mask Head)，进而基于检测头输出如上的实例检测框得分和实例输出类别得分，基于分割头输出如上的实例轮廓掩码得分，输出的维度均可为1。

更为具体地，在图3中的实例分割模型整体架构设计下，本实施例中基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本的步骤具体包括：计算未标注集中各样本的实例检测框得分、实例输出类别得分以及实例轮廓掩码得分，再利用实例检测框得分、实例输出类别得分以及实例轮廓掩码得分共同确定各样本的最终得分。本发明一些实施例中，实例检测框得分为实例的检测框(predicted bounding box)与真实框(ground truth bounding box)两者的交并比(IOU)，实例输出类别得分为实例的分类值，实例轮廓掩码得分为实例的检测掩码(predicted mask)与真实掩码(ground truthmask)间的交并比。本实施例中利用实例检测框得分、实例输出类别得分以及实例轮廓掩码得分确定各样本的最终得分过程包括：利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分的均值和标准差计算当前样本中各实例的得分，然后利用当前样本中各实例的得分的均值和标准差计算当前样本的最终得分。依据最终得分与信息量之间的负相关或正相关关系从未标注集中挑选出多个第一待标注样本。

利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分的均值和标准差计算当前样本中各实例(instance)的得分的公式如下。其均值计算用于将所有得分综合起来，标准差计算用于统计得分的多样性。

其中，代表第i个样本中的第j个实例的得分，/>分别代表第i个样本中的第j个实例的实例输出类别得分、实例检测框得分、实例轮廓掩码得分，std表示标准差计算符号，mean表示均值计算符号。

利用当前样本中各实例的得分的均值和标准差计算当前样本的最终得分S_i的公式如下。

本实施例能够在实例分割模型训练过程中从未标注集中挑选第一待标注样本，并实现基于主动学习算法选择对那些数据进行人工标注。所以本发明可基于如上的三分支信息度量指标(实例检测框得分、实例输出类别得分、实例轮廓掩码得分)筛选所有未标注样本，本发明实施过程中可在当标注的时间人力成本够标注k个样本时，选择排在前k个或少于k个样本进行人工判读和标注；即本发明一些实施例可以对挑选出的未标记的k个医学图像样本进行人工判读和标注。

本发明一些实施例例如可依据最终得分与信息量之间的负相关关系从未标注集中挑选出多个第一待标注样本，如图4和图5所示，实例有类别、检测框及分割轮廓三个维度上的得分，这三个得分的综合得分越低，则对应的样本更应该需要被标注。选择排在前k个或少于k个样本给标注人员标注，本实施例可通过相关标注人员(如医疗领域专家)进行标注，可将标注好的样本放在训练数据集目录下。

为了使实例分割模型发挥出更好的性能，本发明一些实施例还可包括计算损失函数的步骤。如图3所示，本发明一些实施例的损失函数可包括五部分，即检测框损失L_class、输出类别损失L_bbox、轮廓掩码损失L_mask、检测框得分损失L_bboxIOU、轮廓掩码得分损失L_MaskIOU，总共最多能够使用五种损失函数一起用于实例分割模型的反复训练和学习。

其中，实例分割模型中半监督部分的损失函数L_semi计算如下：

L_semi＝L_class+L_bbox+L_mask+L_bboxIOU+L_MaskIOU

结合主动学习部分，则实例分割模型整体的损失函数L计算如下：

L＝L_sup+β*L_semi

其中，L_sup表示主动学***衡系数；损失平衡系数用于抑制伪标注带来的潜在的噪声，默认值为0.01。

步骤S3，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，通过伪标注第二待标注样本的方式得到第二标注集。对高置信度样本通过半监督伪标注策略自动生成标注结果。其中，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本的步骤包括：获取所有剩余样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分；当前样本的实例检测框得分大于第一阈值且实例输出类别得分大于第二阈值且实例轮廓掩码得分大于第三阈值时，判断出当前样本的置信度高于设定值，挑选出当前样本作为第二待标注样本。本发明一些实施例中的第一阈值、第二阈值、第三阈值三者可以相等，例如第一阈值＝第二阈值＝第三阈值＝0.9。本发明能够在实例分割模型训练过程中从所有剩余样本中挑选出三个度量指标得分均大于0.9的第二待标注样本，并进行伪标注，得到近似参考标注结果，从而可实现进一步扩充训练集，有利于模型性能更好地提升。

步骤S4，将第一标注集、第二标注集和已标注集共同作为当前实例分割模型的训练集。以此训练集训练用于医疗影像的分析任务的实例分割模型，本发明可充分发挥出实例分割的潜力。所以本发明可将得到的第一标注集和第二标注集加入到训练集，对模型进行训练更新，从而利用获得的新样本的信息增量，使具有标注的医学图像样本数量得到极大地增加，更新训练提升已有的目标实例分割模型。例如，将本发明应用于医疗影像智能辅助识别领域，可同时进行不同目标位置、关键器官实例的区域勾画即量化评估，特别对于可能相互遮挡的图像区域，本发明能够更有效进行关键目标实例分割。可见本发明能够克服过分依赖精力有限且稀缺的医生专家进行标注的问题，为图像实例分割模型提供大量的有用样本。另外，应当理解的是，本发明上述的步骤可重复执行多次。

如图7和图8所示，本公开的一些实施例在医学影像实例分割任务上进行对比实现。与MC Dropout、Core Set、Class Entropy、Learning Loss等现有方法相比，通过每次逐步地增加500张样本进行标注后训练的结果可发现，本发明在智能挑选的1000～1500张样本进行标注后的训练就能达到现有方法2000～3000张训练才能达到的实例分割模型精度，减少约50％的标注成本。

如图6所示，以现有Class Entropy方法为例，本实施例给出了在实际模型工作中对脑出血区域和眼底水肿区域的分割结果图。可见本发明实验得到的结果与理论上得到的结论基本符合，在智能挑选少量样本后就能够达到常规方法较多样本才能实现的实例分割效果。在CT脑出血区域分割和眼底水肿区域分割两个任务上的实验表明：本发明能够仅用常规完整的数据集的大约50％样本量实现几乎同等性能，可见本发明提供的方案明显优于现有其他方法，可节省大量的人力和物力。本发明每次挑选的都是对改进和提升目标分割模型最有价值的样本加入训练，在保证任务精度的基础上，有效地减少了标注代价以及工作量，极大地提高了标注效率，最终在少人工标注的前提下得到了大量标注样本。因此，采用本发明的实例分割模型能够具有更大量样本的训练集，极大地提升模型精度。更重要的是，本发明实质上提供了一套高效的人为回环(human in the loop)的样本标注和训练结合的模型习得方法，充分利用了专家知识和人工智能的高置信度预测，为深度学习降低数据集要求提供了新的实现方法，具有较高的实践应用意义以及推广价值。

如图2所示，本发明另一些实施例能够提供一种实例分割模型样本筛选装置，该装置包括但不限于数据读取模块、第一筛选模块、第二筛选模块及数据扩充模块。

第一筛选模块，用于基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，多个第一待标注样本被人工标注为第一标注集；所有第一待标注样本和所有剩余样本组成未标注集。

需要强调的是，为进一步保证本发明实施例中的数据的私密和安全性，上述的原始数据集和训练集等数据还可以存储于一区块链的节点中。

基于主动学习策略，本发明从未标注的大量原始医学图像中挑选部分高价值样本给标注人员(如医生)标注，不需要对所有的样本进行标注。每次都挑选对改进深度学习实例分割模型最有价值的样本加入训练，从而在获取理想任务精度的基础上有效减少了标注代价和医生工作量，最大化样本人工标注效率。本发明能选择信息量最大的样本来加速实例分割模型训练，使用人工标注数据量明显降低，为深度学习降低数据集要求提供了新的实现方法，实现高效的数据和计算资源利用，节省了计算资源消耗。结合实例分割模型的预测输出，我们提供了的医学图像实例分割的半监督主动学习框架，可以和主流的实例分割模型融合在一起，从而可以显著地节省训练深度神经网络实例分割模型的标注成本。经过上述实验表明，在本发明的基础上能够训练得到泛化能力更强更准确的医学图像实例分割模型，减少网络过拟合以更好的适应医学应用等场景。

如图9所示，本发明还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如本发明任一实施例中的样本筛选方法的步骤。其中，计算机设备可以为PC，还可以为如PAD、平板电脑、手提电脑这种便携电子设备、还可以为如手机这种智能移动终端，不限于这里的描述；计算机设备还可以通过服务器实现，服务器可以是通过集群***构成的，为实现各单元功能而合并为一或各单元功能分体设置的计算机设备。程序的执行包含以下的步骤的指令：步骤S1，读取原始数据集，本发明中的原始数据集可包括未标注集和已标注集。步骤S2，基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，通过人工标注多个第一待标注样本的方式得到第一标注集；所有第一待标注样本和所有剩余样本组成未标注集。其中，基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本的步骤包括：计算未标注集中各样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分，以利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分确定各样本的最终得分；具体地，本发明一些实施例中，实例检测框得分为实例的检测框与真实框的交并比，实例输出类别得分为实例的分类值，实例轮廓掩码得分为实例的检测掩码与真实掩码的交并比。利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分确定各样本的最终得分的过程包括：利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分的均值和标准差计算当前样本中各实例的得分；利用当前样本中各实例的得分的均值和标准差计算当前样本的最终得分。依据最终得分与信息量之间的负相关或正相关关系从未标注集中挑选出多个第一待标注样本。可在实例分割模型训练过程中从未标注集中挑选第一待标注样本。步骤S3，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，通过伪标注第二待标注样本的方式得到第二标注集。其中，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本的步骤包括：获取所有剩余样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分；当前样本的实例检测框得分大于第一阈值且实例输出类别得分大于第二阈值且实例轮廓掩码得分大于第三阈值时，判断出当前样本的置信度高于设定值，挑选出当前样本作为第二待标注样本。本发明可在实例分割模型训练过程中从所有剩余样本中挑选第二待标注样本。步骤S4，将第一标注集、第二标注集以及已标注集共同作为当前实例分割模型的训练集。

一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如本发明任一实施例中如下的样本筛选方法的步骤。步骤S1，读取原始数据集，本发明中的原始数据集可包括未标注集和已标注集。步骤S2，基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，通过人工标注多个第一待标注样本的方式得到第一标注集；所有第一待标注样本和所有剩余样本组成未标注集。其中，基于主动学习方式从未标注集中挑选出信息量大于剩余样本的多个第一待标注样本的步骤包括：计算未标注集中各样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分，以利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分确定各样本的最终得分；具体地，本发明一些实施例中，实例检测框得分为实例的检测框与真实框的交并比，实例输出类别得分为实例的分类值，实例轮廓掩码得分为实例的检测掩码与真实掩码的交并比。利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分确定各样本的最终得分的过程包括：利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分的均值和标准差计算当前样本中各实例的得分；利用当前样本中各实例的得分的均值和标准差计算当前样本的最终得分。依据最终得分与信息量之间的负相关或正相关关系从未标注集中挑选出多个第一待标注样本。可在实例分割模型训练过程中从未标注集中挑选第一待标注样本。步骤S3，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，通过伪标注第二待标注样本的方式得到第二标注集。其中，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本的步骤包括：获取所有剩余样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分；当前样本的实例检测框得分大于第一阈值且实例输出类别得分大于第二阈值且实例轮廓掩码得分大于第三阈值时，判断出当前样本的置信度高于设定值，挑选出当前样本作为第二待标注样本。本发明可在实例分割模型训练过程中从所有剩余样本中挑选第二待标注样本。步骤S4，将第一标注集、第二标注集以及已标注集共同作为当前实例分割模型的训练集。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读存储介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。所述计算机可读存储介质可以是非易失性，也可以是易失性的。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM，Random Access Memory)，只读存储器(ROM，Read-Only Memory)，可擦除可编辑只读存储器(EPROM，ErasableProgrammable Read-Only Memory，或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM，Compact Disc Read-Only Memory)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA，Programmable Gate Array)，现场可编程门阵列(FPGA，Field Programmable Gate Array)等。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实例分割模型样本筛选方法，其特征在于，包括：

读取原始数据集，所述原始数据集包括未标注集和已标注集；

基于主动学习方式从所述未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，通过人工标注所述多个第一待标注样本的方式得到第一标注集；所有第一待标注样本和所有剩余样本组成所述未标注集；

基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，通过伪标注所述第二待标注样本的方式得到第二标注集；

将所述第一标注集、所述第二标注集以及所述已标注集共同作为当前实例分割模型的训练集，

其中，基于主动学习方式从所述未标注集中挑选出信息量大于剩余样本的多个第一待标注样本的步骤包括：

计算所述未标注集中各样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分，以利用所述实例检测框得分、所述实例输出类别得分及所述实例轮廓掩码得分确定各样本的最终得分；

依据所述最终得分与所述信息量之间的负相关或正相关关系从所述未标注集中挑选出所述多个第一待标注样本；

其中，利用所述实例检测框得分、所述实例输出类别得分及所述实例轮廓掩码得分确定各样本的最终得分的过程包括：

利用实例检测框得分、实例输出类别得分及实例轮廓掩码得分的均值和标准差计算当前样本中各实例的得分；

利用当前样本中各实例的得分的均值和标准差计算当前样本的最终得分；

其中，实例检测框得分为实例的检测框与真实框的交并比；

实例输出类别得分为实例的分类值；

实例轮廓掩码得分为实例的检测掩码与真实掩码的交并比。

2.根据权利要求1所述的实例分割模型样本筛选方法，其特征在于，基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本的步骤包括：

获取所述所有剩余样本的实例检测框得分、实例输出类别得分及实例轮廓掩码得分；

3.根据权利要求1所述的实例分割模型样本筛选方法，其特征在于，

在实例分割模型训练过程中从所述未标注集中挑选第一待标注样本。

4.根据权利要求1所述的实例分割模型样本筛选方法，其特征在于，

在实例分割模型训练过程中从所有剩余样本中挑选第二待标注样本。

5.一种实例分割模型样本筛选装置，其用于实现权利要求1-4中任一项的方法，其特征在于，包括：

数据读取模块，读取原始数据集，所述原始数据集包括未标注集和已标注集；

第一筛选模块，用于基于主动学习方式从所述未标注集中挑选出信息量大于剩余样本的多个第一待标注样本，所述多个第一待标注样本被人工标注为第一标注集；所有第一待标注样本和所有剩余样本组成未标注集；

第二筛选模块，用于基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本，所述第二待标注样本被伪标注为第二标注集；

数据扩充模块，将所述第一标注集、所述第二标注集以及所述已标注集共同作为当前实例分割模型的训练集。

6.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项权利要求所述样本筛选方法的步骤。

7.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述样本筛选方法的步骤。