CN112084241A

CN112084241A - 一种标注数据筛选方法、装置及电子设备

Info

Publication number: CN112084241A
Application number: CN202011010774.4A
Authority: CN
Inventors: 李果
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-15

Abstract

本发明实施例提供了一种标注数据筛选方法、装置及电子设备。其中，所述方法包括：针对每个样本，获取该样本的多个标注值，其中，每个标注值是通过不同标注方式对该样本进行标注得到的标注数据中的标注值；统计获取得到的所有标注值，得到统计结果；判断所述统计结果是否符合预设统计规则；如果所述统计结果符合所述预设统计规则，确定所述多个标注数据为高质量标注数据。可以根据判断标注数据是否符合客观的统计学规律，判断标注数据的准确性，从而实现标注数据的自动筛选，不会受到人工效率的限制，可以对所有标注数据进行全面筛选，因此可以提高筛选得到的高质量标注数据的可靠性。

Description

一种标注数据筛选方法、装置及电子设备

技术领域

本发明涉及机器学习技术领域，特别是涉及一种标注数据筛选方法、装置及电子设备。

背景技术

在机器学习过程中，需要使用经过标注的数据，下文称这些数据为标注数据，例如，标注有人脸所在区域的图像、标注有对应文本的语音信息、标注有车辆轮廓的视频帧等。

出于一些特殊原因，标注数据中的标注可能不够准确，例如标注有视觉效果的视频帧，由于视觉效果的好坏在一定程度上受到主观因素的影响，因此标注人员标注的视觉效果可能不够客观，与实际的视觉效果存在偏差。下文称这些不够准确的标注数据为低质量标注数据。

使用低质量标注数据进行机器学习，可能导致训练得到的模型不够准确。因此，相关技术中可以安排相关工作人员，对标注数据进行复查，以从标注数据中筛选出足够准确的标注数据(下文称高质量标注数据)，用于后续的机器学习，以避免低质量标注数据对模型的准确性的影响。

但是，人工复查效率较低，难以对大量标注数据进行全面复查，往往只能够通过抽查的方式进行复查，而抽查的部分标注数据无法反映所有标注数据的整体质量，因此人工复查的方式筛选出的高质量标注数据可靠性较低。

发明内容

本发明实施例的目的在于提供一种标注数据筛选方法、装置及电子设备，以实现提高筛选得到的高质量标注数据的可靠性。具体技术方案如下：

在本发明实施例的第一方面，提供了一种标注数据筛选方法，所述方法包括：

针对每个样本，获取该样本的多个标注值，其中，每个标注值是通过不同标注方式对该样本进行标注得到的标注数据中的标注值；

统计获取得到的所有标注值，得到统计结果；

判断所述统计结果是否符合预设统计规则；

如果所述统计结果符合所述预设统计规则，确定所述多个标注数据为高质量标注数据。

在一种可能的实施例中，所述预设统计规则，包括以下统计规则中的一个或多个统计规则：

第一统计规则：各个样本的标注值的分布符合预设规则；

第二统计规则：各个样本的标注值之间的差异程度符合预设规则；

第三统计规则：不同维度上的标注值之间的相关性符合预设规则；

第四统计规则：各个样本的标注值与模型标注值之间的相关性符合预设规则，其中模型标注值为预设模型对所述各个样本进行标注得到的标注值，所述预设模型为获取所述多个标注值时所采用所有标注方式中未使用的用于标注样本的模型。

在一种可能的实施例中，所述预设统计规则包括所述第一统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

针对每个样本，计算该样本的所有标注值的平均值，作为该样本的标注平均值；

统计所有样本的标注平均值，确定所有样本的标注平均值的集中度，所述集中度用于表示所有样本的标注平均值在分布上的集中程度；

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述集中度是否高于预设第一阈值；

如果所述集中度不高于预设第一阈值，确定统计结果不符合所述第一统计规则；

如果所述平均差高于预设第一阈值，确定统计结果符合所述第一统计规则。

所述统计获取得到的所有标注值，得到统计结果，包括：

根据各个样本的所述标注平均值，生成第一直方图，所述第一直方图用于表示所述平均值的分布情况；

所述判断所述统计结果是否符合预设统计规则，包括：

展示所述第一直方图；

获取针对所述第一直方图输入的第一判断结果，所述第一判断结果用于表示所述第一直方图是否符合所述第一统计规则；

根据所述第一判断结果，判断统计结果是否符合所述第一统计规则。

在一种可能的实施例中，所述预设统计规则包括所述第二统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

计算不同标注方式标注得到的标注数据中的标注值之间的离散度，所述离散度用于表示标注值在分布上的离散程度；

统计大于预设离散度阈值的离散度在计算得到的所有离散度中的占比；

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述占比是否高于预设比例阈值；

如果所述占比高于预设比例阈值，确定统计结果不符合所述第二统计规则；

如果所述占比不高于预设比例阈值，确定统计结果符合所述第二统计规则。

所述统计获取得到的所有标注值，得到统计结果，包括：

计算不同标注方式标注得到的标注数据中的标注值之间的离散度；

根据各个样本的所述离散度，生成第二直方图，所述第二直方图用于表示所述离散度的分布情况；

所述判断所述统计结果是否符合预设统计规则，包括：

展示所述第二直方图；

获取针对所述第二直方图输入的第二判断结果，所述第二判断结果用于表示所述第二直方图是否符合所述第二统计规则；

根据所述第二判断结果，判断统计结果是否符合所述第二统计规则。

在一种可能的实施例中，所述预设统计规则包括所述第三统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

计算相同标注数据中不同维度的标注值之间的第一相关度，所述第一相关度用于表示相同标注数据中不同维度的标注值之间的相关性；

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第一相关度是否高于预设第二阈值；

如果所述第一相关度高于预设第二阈值，确定统计结果不符合所述第三统计规则；

如果所述第一相关度不高于预设第二阈值，确定统计结果符合所述第三统计规则。

在一种可能的实施例中，所述预设统计规则包括所述第四统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

计算每个样本的标注值与模型标注值之间的第二相关度，所述第二相关度用于表示标注值与模型标注值之间的相关性；

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第二相关度是否低于预设下限阈值；

如果所述第二相关度低于所述下限阈值，确定统计结果不符合所述第四统计规则；

如果所述第二相关度不低于预设下限阈值，确定统计结果符合所述第四统计规则。

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第二相关度是否高于预设上限阈值；

如果所述第二相关度高于所述上限阈值，确定统计结果不符合所述第四统计规则；

如果所述第二相关度不高于预设上限阈值，确定统计结果符合所述第四统计规则。

在本发明实施例的第二方面，提供了一种标注数据筛选装置，所述装置包括：

数据获取模块，用于针对每个样本，获取该样本的多个标注值，其中，每个标注值是通过不同标注方式对该样本进行标注得到的标注数据中的标注值；

数据统计模块，用于统计获取得到的所有标注值，得到统计结果；

规则判断模块，用于判断所述统计结果是否符合预设统计规则；

数据筛选模块，用于如果所述统计结果符合所述预设统计规则，确定所述多个标注数据为高质量标注数据。

在本发明实施例的第三方面，提供了一种电子设备，包括：

计算机可读存储介质，用于存放计算机程序；

处理器，用于执行所述计算机可读存储介质上所存放的程序时，实现上述第一方面任一所述的方法步骤。

在本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。

本发明实施例有益效果：

本发明实施例提供的标注数据筛选方法、装置及电子设备，可以根据判断标注数据是否符合客观的统计学规律，判断标注数据的准确性，从而实现标注数据的自动筛选，不会受到人工效率的限制，可以对所有标注数据进行全面筛选，因此可以提高筛选得到的高质量标注数据的可靠性。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的标注数据筛选方法的一种流程示意图；

图2为本发明实施例提供的统计规则判断方法的一种流程示意图；

图3为本发明实施例提供的统计规则判断方法的另一种流程示意图；

图4为本发明实施例提供的统计规则判断方法的另一种流程示意图；

图5为本发明实施例提供的统计规则判断方法的另一种流程示意图；

图6为本发明实施例提供的统计规则判断方法的另一种流程示意图；

图7为本发明实施例提供的标注数据筛选装置的一种流程示意图；

图8为本发明实施例提供的电子设备的一种流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1所示为本发明实施例提供的标注数据筛选方法的一种流程示意图，可以包括：

S101，针对每个样本，获取该样本的多个标注值。

S102，统计获取到的所有标注值，得到统计结果。

S103，判断统计结果是否符合预设统计规则。

S104，如果统计结果符合预设统计规则，确定多个标注数据为高质量标注数据。

选用该实施例，可以根据判断标注数据是否符合客观的统计学规律，判断标注数据的准确性，从而实现标注数据的自动筛选，不会受到人工效率的限制，可以对所有标注数据进行全面筛选，因此可以提高筛选得到的高质量标注数据的可靠性。

在S101中，一个样本的多个标注值是通过不同标注方式对该样本进行标注得到的，示例性的，可以是多个不同的标注员标注得到的多个标注数据中的标注值，也可以是多个不同标注模型输出的标注数据

在S102中，统计方式根据应用场景的不同可以不同，统计结果用于表示多个标注值的一个或多个统计学特性。可以理解的是，虽然单个标注值可能受到主观因素影响存在一定的不确定性，但是标注值是根据样本的客观属性标注的，因此如果标注数据质量较高则该不确定性理论上应当被控制在一定范围内，示例性的假设一个图像的客观图像质量较高，则虽然该图像的一部分标注值可能表示该图像的图像质量较低，但是该图像的大部分标注值理论上应当表示该图像的图像质量较高。因此如果标注数据质量较高，则理论上当标注值的数量足够多时该不确定性在统计学上将被中和，即如果标注数据整体质量较高，则多个标注值在统计学上应当满足一定的统计学特性。

在S103中，预设统计规则根据应用场景的不同可以不同。可以理解的是，统计结果可以用于表示多个标注值的一个或多个统计学特性，因此统计规则则可以是针对统计结果所表示的一个或多个统计学特征设置的规则，根据统计结果所表示的统计学特性的不同，预设统计规则可以不同，并且预设统计规则理论上应当与统计结果所表示的统计学特性对应。

预设统计规则将在后续实施例中进行详细说明，在此不再赘述。可以理解的是，统计结果符合预设统计规则可以视为一个命题，判断统计结果是否符合预设统计规则的方式，可以是判断该命题是否成立，也可以是判断该命题的逆否命题是否成立，本实施例对此不做限制。

在S104中，如果统计结果符合预设统计规则，则可以认为统计结果所表示的一个或多个统计学特征符合相应的规则，如前述S102的分析此时可以认为这些标注值所属的标注数据为高质量的标注数据。

下面将对预设统计规则进行详细说明，在一种可能的实施例中，预设统计规则可以包括以下四种规则的一种或多种规则：

第一统计规则：各个样本的标注值的分布符合预设规则；

第四统计规则：各个样本的标注值与模型标注值之间的相关性符合预设规则。

其中，模型标注值为预设模型对各个样本进行标注得到的标注值，预设模型为获取多个标注值时所采用的标注方式中未使用的用于标注样本的模型。为描述方便，下面以标注值为图像质量为例，对上述四种统计规则进行说明：

可以理解的是，虽然图像质量的评估存在一定的主观性，但是一个图像的图像质量的高低取决于该图像客观的图像质量，因此如果标注数据准确性较高，则标注数据的标注值理论上应当分布在图像质量的理论值的一定范内，而不会过度偏离该理论值，因此各个样本标注值的标注值应当分布在理论值附近。因此，可以根据各个样本的标注值是否符合预设规则，判断标注数据是否为高质量标注数据。

如果预设统计规则包括第一统计规则，则可以如图2所示，图2所示为本发明实施例提供的统计规则判断方法的一种流程示意图，可以包括：

S201，针对每个样本，计算该样本的所有标注值的平均值，作为该样本的标注平均值。

S202，统计所有样本的标注平均值，确定所有样本的标注平均值的集中度。

其中，集中度用于表示所有样本的标注平均值在分布上的集中程度，例如，可以是计算所有样本的标注平均值的平均差作为集中度。集中度能够反映各个标注平均值的分布的均匀性。

S203，判断计算得到的集中度是否高于预设第一阈值，如果集中度不高于预设第一阈值，执行S204，如果集中度高于预设第一阈值，执行S205。

S204，确定统计结果不符合第一统计规则。

如果集中度不高于预设第一阈值，则可以认为各个标注平均值的分布的均匀性较差，因此可以确定统计结果不符合第一统计规则。

S205，确定统计结果符合第一统计规则。

如果平均差高于预设第一阈值，则可以认为各个标注平均值的分布的均匀性较好，因此可以确定统计结果符合第一统计规则。

在另一种可能的实施例中，也可以是根据标注平均值的直方图表示标注值的分布，示例性的，可以是针对每个样本，计算该样本的所有标注值的平均值，作为该样本的标注平均值。根据各个样本的标注平均值，生成第一直方图用于表示平均值的分布情况。

通过预设显示设备，如预设显示器，展示第一直方图，以使得用户针对所展示的第一直方图输入第一判断结果，第一判断结果用于表示第一直方图是否符合第一统计规则。在获取到第一判断结果后，根据第一判断结果判断统计结果是否符合第一统计规则。

同理，不同标注方式得到的标注数据中的标注值可能因主观差异存在一定的区别，但是该区别应当在一定范围内，因此理论上不同标注方式标注得到的标注数据中的标注值之间的差异程度应当较小，因此可以通过不同标注方式标注得到的标注数据中的标注值之间的差异程度判断标注数据是否为高质量标注数据。根据应用场景的不同，差异程度可是以不同的形式表示的，例如可以是标注值的标准差表示标注值之间的差异程度，也可以是以其他形式表示的，本实施例对此不做限制。

如果预设统计规则包括第二统计规则，则可以参见图3，图3所示为本发明实施例提供的统计规则判断方法的另一种流程示意图，包括：

S301，计算不同标注方式标注得到的标注数据中的标注值之间的离散度。

其中，离散度用于表示标注值在分布上的离散程度，离散度的表示形式根据应用场景的不同可以不同。示例性的，可以是计算标注数据中的标注值之间的标准差作为离散度，也可以是计算标注数据中的标注值的熵值作为离散度，本实施例对此不做限制。

S302，统计大于离散度阈值的离散度在计算得到的所有离散度中的占比。

如果一个样本的标注数据的离散度较高，则可以认为通过不同标注方式得到标注值之间的差异程度较高，即可以认为该样本的争议性较大。因此大于离散度阈值的离散度在计算得到的离散度的占比可以认为是争议性较大的样本在所有样本中的占比。

S303，判断占比是否高于预设比例阈值，如果占比高于预设比例阈值，则执行S304，如果占比不高于预设比例阈值，则执行S305。

如前述分析，该占比可以认为是争议性较大的样本在所有样本中的占比。因此，如果该占比高于预设比例阈值，则可以认为样本整体争议性较大，如果该占比较小，则可以认为样本整体争议性较小。

S304，确定统计结果不符合第二统计规则。

S305，确定统计结果符合第二统计规则。

在另一种可能的实施例中，也可以是根据离散度的直方图表示标注值之间的差异程度，示例性的，可以是计算不同标注方式标注得到的标注数据中的标注值之间的离散度，并根据各个样本的离散度，生成第二直方图，其中，第二直方图用于表示离散度的分布情况。

通过预设显示设备，如预设显示器，展示第二直方图，以使得用户针对所展示的第二直方图输入第二判断结果，第二判断结果用于表示第二直方图是否符合第二统计规则。在获取到第二判断结果后，根据第二判断结果判断统计结果是否符合第二统计规则。

在又一种可能的实施例中，差异程度还可以是以离散度的均值表示的。如果离散度的均值高于预设阈值，则可以认为差异程度过大，即统计结果不符合第二统计规则，如果离散度的均值不高于预设阈值，则可以认为差异程度在可以接受的范围内，即统计结果符合第二统计规则。

在一些应用场景中，为更准确地对样本进行标注，可以从多个不同的维度对样本进行标注。示例性的，以样本为图像为例，可以从图像清晰度、噪声强度等维度对图像的质量进行标注。但是不同维度之间可能存在一定的关联性，示例性的，图像噪声越高理论上图像清晰度越低，因此样本在一个维度上的标注值可能能够在一定程度上反映另一个维度上的标注值，可以理解的是，该一定程度越高则标注该另一个维度上的标注值的意义越小，即可以认为当该一定程度较高时维度的设置存在问题，此时可以认为标注数据的质量较低。而该一定程度取决于该一个维度与该另一个维度之间的关联性，因此，在一种可能的实施例中，可以根据不同维度上的标注值之间的相关性，判断标注数据是否为高质量数据。

如果预设统计规则包括所述第三统计规则，则可以如图4所示，图4所示为本发明实施例提供的统计规则判断方法的另一种流程示意图，可以包括：

S401，计算相同标注数据中不同维度的标注值之间的第一相关度。

其中，第一相关度用于表示相同标注数据中不同维度的标注值之间的相关性。根据应用场景的不同，第一相关度可以是以不同形式表示的，示例性的，可以是计算不同维度的标注值之间的秩序相关系数作为第一相关度。

S402，判断第一相关度是否高于预设第二阈值，如果第一相关度高于预设第二阈值，执行S403，如果第一相关度不高于预设第二阈值，执行S404。

S403，确定统计结果不符合所述第三统计规则。

如前述分析，如果第一相关度高于预设第二阈值，则可以认为不同维度之间的相关度过高，因此至少一个维度的标注值在很大程度上能够被其他维度的标注值反映出来，因此该至少一个维度的标注值缺乏意义，即维度设置存在问题，因此可以认为标注数据为低质量标注数据。

S404，确定统计结果不符合所述第三统计规则。

如前述分析，如果第一相关度不高于预设第二阈值，则可以认为不同维度之间的相关度较低，因此至各个维度的标注值均具有一定的意义，即维度设置合理，因此可以认为标注数据为高质量标注数据。

在一些应用场景中，除标注得到多个标注值的标注方式外，还存在其他备选的标注方法可以对样本进行标注，例如可以采用预设模型对样本进行标注，预设模型为标注得到多个标注值的标注方式中未使用的模型。示例性的，假设标注得到多个标注值的标注方式是人工标注，则预设模型可以是预先经过训练得到的用于标注样本的神经网络模型。

可以理解的是，样本的标注数据可能不够准确，因此训练预设模型时所基于的训练数据也可能不够准确，因此预设模型的置信度相对较低，因此相关技术中往往不会利用预设模型标注得到的模型标注值作为样本的标注值。但是预设模型标注样本得到的模型标注值并非完全不准确，如果多个标注值是准确的，则理论上多个标注值与模型标注值之间的关联关系不应当过低。如果多个标注值与模型标注值之间的关联关系过高，则可以认为预设模型标注得到的模型标注值的准确性与多个标注值的准确性相当，此时处于自动化的考虑应当尽可能利用预设模型进行标注，即可以认为标注得到标注数据的标注方式设置不合理，因此可以认为标注数据为低质量标注数据。可见，可以根据各个样本的标注值与模型标注值之间的相关性判断标注数据是否为高质量标注数据。

如果预设统计规则包括第四统计规则，，则可以参见图5，图5所示为本发明实施例提供的统计规则判断方法的另一种流程示意图，包括：

S501，计算每个样本的标注值与模型标注值之间的第二相关度。

其中，第二相关度用于表示标注值与模型标注值之间的相关性。根据应用场景的不同，第二相关度可以是以不同形式表示的，示例性的，可以是计算每个样本的标注值与模型标注值之间的秩序相关系数作为第二相关度。

S502，判断第二相关度是否低于预设下限阈值，如果第二相关度低于预设下限阈值，则执行S503，如果第二相关度不低于预设下限阈值，则执行S504。

S503，确定统计结果不符合第四统计规则。

如果第二相关度低于预设下限阈值，则可以认为第二相关度过低，如前述分析，如果多个标注值的准确性较高，则第二相关度理论上不应当过低，因此如果第二相关度过低，可以认为多个标注值的准确性较低，此时可以认为标注数据为低质量标注数据。

S504，确定统计结果符合第四统计规则。

如果第二相关度低于预设下限阈值，则可以认为第二相关度没有过低，如前述分析，如果多个标注值的准确性较高，则第二相关度理论上不应当过低，因此如果第二相关度没有过低，可以认为多个标注值的准确性相对较高，此时可以认为标注数据为高质量标注数据。

如果预设统计规则包括第四统计规则，也可以参见图6，图6所示为本发明实施例提供的统计规则判断方法的另一种流程示意图，包括：

S601，计算每个样本的标注值与模型标注值之间的第二相关度。

该步骤与前述S501相同，可以参见前述S501的相关描述，在此不再赘述。

S602，判断第二相关度是否高于预设上限阈值，如果第二相关度高于预设上限阈值，则执行S603，如果第二相关度不高于预设上限阈值，则执行S604。

其中，上限阈值为高于前述下限阈值的预设阈值。

S603，确定统计结果不符合第四统计规则。

如果第二相关度高于预设上限阈值，则可以认为第二相关度过高，如前述分析，此时可以认为标注得到标注数据的标注方式设置不合理，因此可以认为标注数据为低质量标注数据。

S604，确定统计结果符合第四统计规则。

如果第二相关度高于预设上限阈值，则可以认为第二相关度没有过高，如前述分析，此时可以认为标注得到标注数据的标注方式设置合理，因此可以认为标注数据为高质量标注数据。

可以理解的是的，在本发明实施例提供的标注数据筛选方法中，可以采用前述多种统计规则判断方法中的一种或多种统计规则判断方法，判断统计结果是否符合预设统计规则。

如果预设统计规则包括第一统计规则、第二统计规则、第三统计规则以及第四统计规则中的多种统计规则，则可以是当统计结果满足预设统计规则所包括的每个统计规则时，确定统计结果符合预设统计规则，也可以是当统计结果满足预设统计规则所包括的任一统计规则时，确定统计结果符合预设统计规则，还可以是当统计结果满足预设统计规则所包括的至少预设数量个统计规则时，确定统计结果符合预设统计规则，预设数量根据应用场景的不同可以是不同的正整数。

参见图7，图7所示为本发明实施例提供的标注数据筛选装置的一种结构示意图，可以包括：

数据获取模块701，用于针对每个样本，获取该样本的多个标注值，其中，每个标注值是通过不同标注方式对该样本进行标注得到的标注数据中的标注值；

数据统计模块702，用于统计获取得到的所有标注值，得到统计结果；

规则判断模块703，用于判断所述统计结果是否符合预设统计规则；

数据筛选模块704，用于如果所述统计结果符合所述预设统计规则，确定所述多个标注数据为高质量标注数据。

第一统计规则：各个样本的标注值的分布符合预设规则；

所述数据统计模块702统计获取得到的所有标注值，得到统计结果，包括：

所述规则判断模块703判断所述统计结果是否符合预设统计规则，包括：

判断所述集中度是否高于预设第一阈值；

展示所述第一直方图；

计算得到的所有离散度的均值，作为离散度均值；

统计大于所述离散度均值的离散度在计算得到的所有离散度中的占比；

判断所述占比是否高于预设比例阈值；

展示所述第二直方图；

判断所述第一相关度是否高于预设第二阈值；

判断所述第二相关度是否低于预设下限阈值；

判断所述第二相关度是否高于预设上限阈值；

本发明实施例还提供了一种电子设备，如图8所示，包括：

计算机可读存储介质801，用于存放计算机程序；

处理器802，用于执行计算机可读存储介质801上所存放的程序时，实现如下步骤：

统计获取得到的所有标注值，得到统计结果；

判断所述统计结果是否符合预设统计规则；

第一统计规则：各个样本的标注值的分布符合预设规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述集中度是否高于预设第一阈值；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

展示所述第一直方图；

所述统计获取得到的所有标注值，得到统计结果，包括：

计算得到的所有离散度的均值，作为离散度均值；

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述占比是否高于预设比例阈值；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

展示所述第二直方图；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第一相关度是否高于预设第二阈值；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第二相关度是否低于预设下限阈值；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第二相关度是否高于预设上限阈值；

上述电子设备提到的计算机可读存储介质可以包括随机存取存储器(RandomAccess Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一标注数据筛选方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一标注数据筛选方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种标注数据筛选方法，其特征在于，所述方法包括：

统计获取得到的所有标注值，得到统计结果；

判断所述统计结果是否符合预设统计规则；

2.根据权利要求1所述的方法，其特征在于，所述预设统计规则，包括以下统计规则中的一个或多个统计规则：

第一统计规则：各个样本的标注值的分布符合预设规则；

3.根据权利要求2所述的方法，其特征在于，所述预设统计规则包括所述第一统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述集中度是否高于预设第一阈值；

4.根据权利要求2所述的方法，其特征在于，所述预设统计规则包括所述第一统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

展示所述第一直方图；

5.根据权利要求2所述的方法，其特征在于，所述预设统计规则包括所述第二统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述占比是否高于预设比例阈值；

6.根据权利要求2所述的方法，其特征在于，所述预设统计规则包括所述第二统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

展示所述第二直方图；

7.根据权利要求2所述的方法，其特征在于，所述预设统计规则包括所述第三统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第一相关度是否高于预设第二阈值；

8.根据权利要求2所述的方法，其特征在于，所述预设统计规则包括所述第四统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第二相关度是否低于预设下限阈值；

9.根据权利要求2所述的方法，其特征在于，所述预设统计规则包括所述第四统计规则；

所述统计获取得到的所有标注值，得到统计结果，包括：

所述判断所述统计结果是否符合预设统计规则，包括：

判断所述第二相关度是否高于预设上限阈值；

10.一种标注数据筛选装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：

计算机可读存储介质，用于存放计算机程序；

处理器，用于执行所述计算机可读存储介质上所存放的程序时，实现权利要求1-9任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。