CN116821647A

CN116821647A - 基于样本偏离评估的数据标注的优化方法、装置及设备

Info

Publication number: CN116821647A
Application number: CN202311078686.1A
Authority: CN
Inventors: 李常宝; 顾平莉; 王书龙; 艾中良; 袁媛; 李茜
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-09-29
Anticipated expiration: 2043-08-25
Also published as: CN116821647B

Abstract

本说明书实施例公开了一种基于样本偏离评估的数据标注的优化方法、装置及设备。所述方法包括：基于获得的数据集和样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合；经预设时间间隔，基于所述数据集和所述样本集的分布密度图的准确率变化值，将准确率变化值大于等于预设阈值的数据中的未修改或者确认的数据加入到所述待处理样本集合；若待处理样本集合的数量大于等于待处理样本需求规模，或第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值，则输出待处理样本集合及待处理样本集合的样本偏离指数，以进行数据标注的优化。

Description

基于样本偏离评估的数据标注的优化方法、装置及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种基于样本偏离评估的数据标注的优化方法、装置及设备。

背景技术

样本数据是经过标记的数据集合，可用于训练特定的模型，样本数据的质量直接影响模型的识别效果。

现有技术中，样本数据标注一般采用自动标注技术，该技术主要利用用户手动标记形成的标记样本集，来训练相应的数据标注模型，进而生产该领域的标注数据，通过融入用户经验，实现数据标注由人工手工标注到机器自动标注的转变，从而提升数据标注的效率。现有的数据标注方法，仅仅关注从人工手工标注到机器自动标注，而不关注样本数据的质量，最终影响了模型的识别效果及准确率。

基于此，为了提高模型识别的效果，需要一种基于样本偏离评估的数据标注的优化方法，以便在样本数据标注过程中，完善样本数据。

发明内容

本说明书实施例提供一种基于样本偏离评估的数据标注的优化方法、装置及设备，用于解决以下技术问题：现有的数据标注方法，仅关注从人工手工标注到机器自动标注，而不关注样本数据的质量，最终影响了模型的识别效果及准确率。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供一种基于样本偏离评估的数据标注的优化方法，包括：

基于数据集的数据属性，对所述数据集及样本集进行划分，获得所述数据集和所述样本集的分布密度图；

基于所述数据集和所述样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将所述不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合；

经预设时间间隔，基于所述数据集和所述样本集的分布密度图的准确率变化值，将所述准确率变化值大于等于预设阈值的数据中的未修改或者确认的数据加入到所述待处理样本集合；

若所述待处理样本集合的数量大于等于待处理样本需求规模，或第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值，则输出所述待处理样本集合及所述待处理样本集合的样本偏离指数；

基于所述待处理样本集合及所述待处理样本集合的样本偏离指数，对所述待处理样本集合样本标注，形成补充样本，以进行数据标注的优化。

本说明书实施例还提供一种基于样本偏离评估的数据标注的优化装置，包括：

数据可视化模块，基于数据集的数据属性，对所述数据集及样本集进行划分，获得所述数据集和所述样本集的分布密度图；

待处理样本第一发现模块，基于所述数据集和所述样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将所述不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合；

待处理样本第二发现模块，经预设时间间隔，基于所述数据集和所述样本集的分布密度图的准确率变化值，将所述准确率变化值大于等于预设阈值的数据中的未修改或者确认的数据加入到所述待处理样本集合；

待处理样本分析模块，若所述待处理样本集合的数量大于等于待处理样本需求规模，或第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值，则输出所述待处理样本集合及所述待处理样本集合的样本偏离指数；

待处理样本后处理模块，基于所述待处理样本集合及所述待处理样本集合的样本偏离指数，对所述待处理样本集合样本标注，形成补充样本，以进行数据标注的优化。

本说明书实施例还提供一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法，通过将数据集分布和样本集分布映射到一个相同的一维或者二维空间，以直观、可视的方式发现数据集与样本集之间的分布差异，结合准确率变化分析，实现偏离样本快速发现及对当前样本应用于模型训练时的能力评估，并进行样本后续优化完善，从而能够实现“无形”数据集合到“有形”数据分布的转换，精准发现偏离样本区域，快速发现低质量样本数据及对当前样本应用于模型训练时的能力评估，以实现后续的样本修正等操作，实现数据标注的优化。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的***架构示意图；

图2为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的流程示意图；

图3为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的工作示意图；

图4为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的核心算法流程图；

图5为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化装置的示意图；

图6为本说明书实施例提供的又一种基于样本偏离评估的数据标注的优化装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

自动标注技术本质上属于标注数据技术，其利用用户标记样本，训练标记模型来实现机器自动标记样本，但是该方法并不涉及样本自身的质量判断及修正，不利于后续模型训练的准确性。

基于此，本说明书实施例提供一种基于样本偏离评估的数据标注的优化方法，通过将数据集分布和样本集分布映射到一个相同的一维或者二维空间，以直观、可视的方式发现数据集与样本集之间的分布差异，结合准确率变化分析，实现偏离样本快速发现及对当前样本应用于模型训练时的能力评估，并进行样本后续优化完善，从而能够实现“无形”数据集合到“有形”数据分布的转换，精准发现偏离样本区域，快速发现低质量样本数据及对当前样本应用于模型训练时的能力评估，以实现后续的样本修正等操作，实现数据标注的优化。

图1为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的***架构示意图。如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如进行基于样本偏离评估的数据标注的优化等专用程序。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种专用或通用的电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。

服务器105可以是提供各种服务的服务器，例如为终端设备101、102、103上所安装的客户端应用提供服务的后端服务器。例如，服务器可以进行基于样本偏离评估的数据标注的优化，以便将数据标注的优化结果显示在终端设备服务器101、102、103上，服务器也可以进行基于样本偏离评估的数据标注的优化，以便将数据标注的优化结果显示在终端设备101、102、103上。

服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现为多个服务器组成的分布式服务器集群，也可以实现为单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。

图2为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器或应用终端的程序。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，该优化方法包括：

步骤S201：基于数据集的数据属性，对所述数据集及样本集进行划分，获得所述数据集和所述样本集的分布密度图。

在本说明书实施例中，数据集及样本集均为结构化数据的集合或者可转化为结构化数据的数据的集合，具体到数据类型，可以为是图像数据、文本数据、视频数据、音频数据等。具体而言，数据集为未标记的原始数据集，样本集为基于数据集标注的样本的集合。在本说明书实施例中，样本集的来源不做限定，可以为用户标注的样本集、机器标注的样本集，也可以为其他来源。在本说明书实施例中，数据集中的数据可以为key，样本集数据可以为key-value的形式。

在本说明书实施例中，所述基于数据集的数据属性，对所述数据集及样本集进行划分，获得所述数据集和所述样本集的分布密度图，具体包括：

基于所述数据集的数据属性，对所述数据集及所述样本集进行二维网格化划分，获得所述数据集和所述样本集的二维数据分布状态图；

或者

基于所述数据集的数据属性，对所述数据集及所述样本集进行线性分段划分，获得所述数据集和所述样本集的一维数据分布状态图。

采用二维网格化划分，选取所述数据集的数据属性中的第一数据属性及第二数据属性，将（Max（第一数据属性）-Min（第一数据属性））平均分为m1段，将（Max（第二数据属性）-Min（第二数据属性））平均分为n1段，构建m1*n1网格化矩阵，将所述数据集和所述样本集按照所述第一数据属性的属性值和所述第二数据属性的属性值落入所述网格化矩阵中，形成所述二维数据分布状态图；

或者

采用线性分段划分，选取所述数据集的数据属性中的第三数据属性将（Max（第三数据属性）-Min（第三数据属性））平均分为m2段，构建m2段的线性区间，将所述数据集和所述样本集按照所述第三数据属性的属性值落入所述线性区间，形成所述一维数据分布状态图。

在本说明书实施例中，所述数据集的数据属性包括：数据来源信息、数据获取时间、数据清晰度信息、数据大小。基于数据集的数据属性，对数据集及样本集进行二维网格化划分，或者进行线性分段划分时，能够使得数据集中的数据及样本集中的数据较好地分散，优选地，能够相对均匀分布。

在本说明书实施例中，第一数据属性和第二数据属性是不同的，第三数据属性可能与第一数据属性或者第二数据属性相同，也可能不同。

在具体实施例中，第一数据属性，第二数据属性及第三数据属性可以采用手动或者自动筛选的方式，从数据集的数据属性中获得。

步骤S203：基于所述数据集和所述样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将所述不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合。

在本说明书实施例中，所述基于所述数据集和所述样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将所述不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合，具体包括：

基于所述二维数据分布状态图中的每一个数据块中的数据集第一记录数量与样本集第一记录数量，计算所述每一个数据块的第一样本偏离分布值，将所述第一样本偏离分布值不大于偏离分布系数的数据块标记为第一样本偏离块；

从所述第一样本偏离块中选取满足偏离预设条件的未标记数据加入到所述待处理样本集合；

或者

基于所述一维数据分布状态图中的每一个数据区间的数据集第二记录数量与样本集第二记录数量，计算所述每一个数据区间的第二样本偏离分布值，将所述第二样本偏离分布值不大于所述偏离分布系数的数据区间标记为第一样本偏离区间；

从所述第一样本偏离区间中满足所述偏离预设条件的未标记数据加入到所述待处理样本集合。

在本说明书实施例中，基于数据集和样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合，其中，不符合数据分布密度的样本分布区域中的未标记数据为来源于数据集中的数据，即该数据为数据集中的局部数据。

在本说明书实施例中，第一样本偏离分布值为二维数据分布状态图中的每一个数据块中的样本集第一记录数量与数据集第一记录数量的比值，即第一样本偏离分布值=二维数据分布状态图中的每一个数据块中的样本集第一记录数量/二维数据分布状态图中的每一个数据块中的数据集第一记录数量。

偏离分布系数=（样本集的计数/数据集的计数）*第一偏离系数，即第一偏离分布系数为（（count（S）/count（D））*r₁）（r₁为第一偏离系数，初始值为0.5，r₁初始值可以根据具体业务场景进行调整），其中，count（S）为样本集的计数，count（D）为数据集的计数。

偏离预设条件=（样本集的计数/数据集的计数）*第一偏离系数*数据集记录数量-样本集记录数量。

具体到实施例中，二维数据分布状态图中，针对m1*n1网格化矩阵中的每一个数据块d_ij，计算d_ij中落入的数据集记录数量w_d和样本集记录数量w_s，计算d_ij的样本偏离分布值p_ij=w_s/w_d，若p_ij≤（（count（S）/count（D））*r₁），则将数据块d_ij标记为样本偏离块，随机选择其中的（（count（S）/count（D））*r₁*w_d-w_s）未标记数据添加到待处理样本集合O中。

在本说明书实施例中，第二样本偏离分布值为一维数据分布状态图中的每一个数据区间的样本集第二记录数量与数据集第二记录数量，即第二样本偏离分布值=一维数据分布状态图中的每一个数据区间的样本集第二记录数量/一维数据分布状态图中的每一个数据区间的数据集第二记录数量。

具体到实施例中，一维数据分布状态图中，针对m2段线性分布中的每一个数据区间d_i，计算d_i中落入的数据集记录数量w_d和样本集记录数量w_s，计算d_i的样本偏离分布值p_i=w_s/w_d，若p_i≤（（count（S）/count（D））*r₁）（r₁为第一偏离系数，初始值为0.5，r₁初始值可以根据具体业务场景进行调整），则将数据区间d_i标记为样本偏离区间，随机选择其中的（（count（S）/count（D））*r₁*w_d-w_s）条未标记数据添加到待处理样本集合O中。

在本说明书实施例中，待处理样本集合用于后续样本标注，待处理样本集合包括：基于数据集和样本集的分布密度图获得的未标记数据，和/或基于数据集和样本集的分布密度图获得的未修改或者确认的数据。

步骤S205：经预设时间间隔，基于所述数据集和所述样本集的分布密度图的准确率变化值，将所述准确率变化值大于等于预设阈值的数据中的未修改或者确认的数据加入到所述待处理样本集合。

在本说明书实施例中，所述经预设时间间隔，基于所述数据集和所述样本集的分布密度图的准确率变化值，将所述准确率变化值大于等于预设阈值的数据中的未修改或确认数据加入到所述待处理样本集合，具体包括：

基于所述二维数据分布状态图中的每一个数据块中的样本集第一记录数量，以及经过第一预设时间间隔的后，所述样本集第一记录数量中经过用户修改的样本集第三记录数量；

基于所述样本集第三记录数量及所述样本集第一记录数量，确定第一准确率变化值；

将所述第一准确率变化值大于等于第二偏离系数的数据块标记为第二样本偏离块，将所述第二样本偏离块中的未确认或修改数据加入到所述待处理样本集合；

或者

基于所述一维数据分布状态图的每一个数据区间中的样本集第二记录数量，以及经过第二预设时间间隔的后，所述样本集第二记录数量中经过用户修改的样本集第四记录数量；

基于所述样本集第四记录数量及所述样本集第二记录数量，确定第二准确率变化值；

将所述第二准确率变化值大于等于第二偏离系数的数据块标记为第二样本偏离区间，将所述第二样本偏离区间中的未确认或修改数据加入到所述待处理样本集合。

在本说明书实施例中，第一准确率变化值为样本集第三记录数量与样本集第一记录数量的比值，即第一准确率变化值=样本集第三记录数量/样本集第一记录数量。预设时间间隔默认为24h，具体可以根据业务场景进行调整。

具体实施例中，对m1*n1网格化矩阵中的每一个数据块d_ij，计算d_ij中落入的样本集记录数量w_s，经过t时间会后，统计w_s中经过用户修改的样本数量v_s，计算d_ij的样本准确率变化值q_ij=v_s/w_s，若q_ij≥r₂（r₂为第二偏离系数，初始值为0.2，r₂初始值可以根据具体业务场景进行调整）,则将数据块d_ij标记为样本偏离块，并将数据块dij中未修改或确认的样本数据添加到待处理样本集合O中。

在本说明书实施例中，第二准确率变化值为样本集第四记录数量与样本集第二记录数量的比值，即第二准确率变化值=样本集第四记录数量/样本集第二记录数量。

具体实施例中，对m2段线性分布中的每一个数据块d_i，计算d_i中落入的样本集记录数量w_s，经过t时间会后，统计w_s中经过用户修改的样本数量v_s，计算d_i的样本准确率变化值q_i=v_s/w_s，若q_i≥r₂（r₂为第二偏离系数初始值为0.2，r₂初始值可以根据具体业务场景进行调整）,则将数据块d_i标记为样本偏离区间，并将d_i中未未修改或确认的样本数据添加到待处理样本集合O中。

在本说明书实施例中，经预设时间间隔，基于数据集和样本集的分布密度图的准确率变化值，将准确率变化值超过大于等于预设阈值的数据中的未修改或者确认的数据加入到待处理样本集合，其中，准确率变化值超过大于等于预设阈值的数据中的未修改或者确认的数据为来源于样本集中的数据。

步骤S207：若所述待处理样本集合的数量大于等于待处理样本需求规模，或第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值，则输出所述待处理样本集合及所述待处理样本集合的样本偏离指数。

在本说明书实施例中，第一预设值为1，第二预设值为0.1。待处理样本需求规模是用户根据业务场景设定的。

在本说明书实施例中，所述若所述待处理样本集合的数量大于等于待处理样本需求规模，或第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值，则输出所述待处理样本集合及所述待处理样本集合的样本偏离指数，进一步包括：

若所述待处理样本集合的数量小于所述待处理样本需求规模，进一步（所述第一偏离系数小于所述第一预设值和/或所述第二偏离系数大于所述第二预设值），则按照第一预设梯度对所述第一偏离系数进行更新，获得更新的第一偏离系数，和/或按照第二预设梯度对所述第二偏离系数进行更新，获得更新的第二偏离系数；

基于所述更新的第一偏离系数，和/或所述更新的第二偏离系数，继续筛选不符合数据分布密度的样本分布数据中的未标记数据加入到所述待处理样本集合。

在本说明书实施例中，当不满足如下条件时：所述若所述待处理样本集合的数量大于等于待处理样本需求规模，或（第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值），则对第一偏离系数和/或第二偏离系数进行更新。也就是说，当待处理样本集合的数量小于待处理样本需求规模，进一步（第一偏离系数小于第一预设值和/或第二偏离系数大于第二预设值），需要对第一偏离系数和/或第二偏离系数进行更新。具体地，若待处理样本集合的数量小于待处理样本需求规模，则进一步判断此时第一偏离系数是否大于等于第一预设值，以及第二偏离系数是否小于等于第二预设值，以确定是对第一偏离系数进行更新，和/或对第二偏离系数进行更新。第一偏离系数小于第一预设值和/或第二偏离系数大于第二预设值时，需要对不满足预设值的偏离系数进行更新。若第一偏离系数小于第一预设值，且第二偏离系数大于第二预设值，则对第一偏离系数和第二偏离系数进行更新，获得更新的第一偏离系数和更新的第二偏离系数。若第一偏离系数大于等于第一预设值，但第二偏离系数大于第二预设值，则保持第一偏离系数不变，对第二偏离系数进行更新，获得更新的第二偏离系数。若第一偏离系数小于第一预设值，但第二偏离系数小于等于第二预设值，则保持第二偏离系数不变，对第一偏离系数进行更新，获得更新的第一偏离系数。

在本说明书实施例中，采用二维网格化划分时，所述样本偏离指数的计算公式为：

h=∑（|p_ij-（count（S）/count（D））|+q_ij）

或者

采用线性分段划分时，所述样本偏离指数的计算公式为：

h=∑（|p_i-（count（S）/count（D））|+q_i）

其中：

h为样本偏离指数；

p_ij为所述二维数据分布状态图中的每一个数据块d_ij的样本偏离分布值；

count（S）为所述样本集的计数；

count（D）为所述数据集的计数；

q_ij为所述二维数据分布状态图中的每一个数据块d_ij的样本准确率变化值；

p_i为所述一维数据分布状态图的每一个数据区间d_i的样本偏离分布值；

q_i为所述一维数据分布状态图的每一个数据区间d_i的样本准确率变化值。

在本说明书实施例中，按照第一预设梯度对所述第一偏离系数进行更新，获得更新的第一偏离系数，和/或按照第二预设梯度对所述第二偏离系数进行更新，获得更新的第二偏离系数，具体包括：

将所述第一偏离系数与所述第一预设梯度之和，作为所述更新的第一偏离系数；

和/或

将所述第二偏离系数与所述第二预设梯度之差，作为所述更新的第二偏离系数。

在具体实施例中，第一预设梯度为0.05，第二预设梯度为0.02。更新的第一偏离系数=第一偏离系数+第一预设梯度，即r₁+=0.05。更新的第二偏离系数=第二偏离系数-第二预设梯度，即r₂-=0.02。

在本说明书实施例中，偏离指数用于表示偏离程度，偏离指数越高，则偏离程度越高。

步骤S209：基于所述待处理样本集合及所述待处理样本集合的样本偏离指数，对所述待处理样本集合样本标注，形成补充样本，以进行数据标注的优化。

在本说明书实施例中，待处理样本集合中包括基于数据集和所述样本集的分布密度图的偏离样本，以及基于数据集和所述样本集的分布密度图的准确率变化的偏离样本。

在本说明书的一个具体实施例中，对待处理样本集合中基于数据集和所述样本集的分布密度图的偏离样本通过人工或者机器标注的方式进行标注，形成补充样本。

对待处理样本集合中基于数据集和所述样本集的分布密度图的准确率变化的偏离样本，通过人工校验的方式进行标注修改或者确认，形成补充样本。

在具体实施例中，可以通过待处理样本集合的偏离样本指数对待处理样本集合进行评估，以确定待处理样本集合的数据质量，进而确定标注方式。

为了进一步理解本说明书实施例提供的基于样本偏离评估的数据标注的优化方法，下面将结合具体的工作示意图予以说明。

图3为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的工作示意图，如图3所示，首先进行数据的空间划分，具体而言是对样本集及数据集进行二维网格化划分或者线性分段划分；第二步，进行样本分布状态的划分，具体而言，进行分布密度计算，获得数据集和样本集的分布密度图。第三步，进行样本偏离分析，具体而言，包括基于分布密度的样本偏离分析和基于准确率变化的样本偏离分析。第四步，基于分布密度的样本偏离分析结果和基于准确率变化的样本偏离分析结果，进行结果融合计算，偏离数据集合及偏离指数，进而进行偏离样本的后续处理。

图4为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化方法的核心算法流程图。如图4所示，首先接收用户输入的数据集D、样本集S及待处理样本需求规模S；通过一维或者二维方式对数据集和样本集进的数据空间进行划分；初始化第一偏离系数r₁及第二偏离系数r₂后，基于一维或者二维方式进行基于分布密度的样本偏离发现，并纳入待处理样本集合O中；基于一维或者二维方式进行基于准确率变化的样本偏离发现，并纳入待处理样本集合O中；若待处理样本集合O的数量大于等于待处理样本需求规模S，或（第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值），则输出偏离待处理样本集合O及样本偏离指数h，以进行偏离样本后处理。若待处理样本集合的数量小于待处理样本需求规模，进一步判断（第一偏离系数小于第一预设值，和/或第二偏离系数大于第二预设值），则按照第一预设梯度对所述第一偏离系数进行更新，获得更新的第一偏离系数，和/或按照第二预设梯度对第二偏离系数进行更新，获得更新的第二偏离系数；基于更新的第一偏离系数，和/或更新的第二偏离系数，继续筛选不符合数据分布密度的样本分布数据中的未标记数据加入到所述待处理样本集合。

本说明书实施例提供的基于样本偏离评估的数据标注的优化方法，通过将数据集和样本集进行一维/二维空间划分，支持划分属性的选择，通过可视化的方式展示样本数据在数据集上的直观分布状态，实现“无形”数据集合到“有形”数据分布的转换，能够支持可视化的数据状态展示。基于分布密度和基于准确率变化的样本偏离发现方法，在***运行过程中自动对偏离样本进行筛选，形成待处理样本集合，并自动计算样本偏离指数，最大化减少用户操作，能够实现多手段、自动化分析偏离样本。

上述内容详细说明了一种基于样本偏离评估的数据标注的优化方法，与之相应的，本说明书还提供了一种基于样本偏离评估的数据标注的优化装置，如图5所示。图5为本说明书实施例提供的一种基于样本偏离评估的数据标注的优化装置的示意图，该装置包括：

数据可视化模块501，基于数据集的数据属性，对所述数据集及样本集进行划分，获得所述数据集和所述样本集的分布密度图；

待处理样本第一发现模块503，基于所述数据集和所述样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将所述不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合；

待处理样本第二发现模块505，经预设时间间隔，基于所述数据集和所述样本集的分布密度图的准确率变化值，将所述准确率变化值大于等于预设阈值的数据中的未修改或者确认的数据加入到所述待处理样本集合；

待处理样本分析模块507，若所述待处理样本集合的数量大于等于待处理样本需求规模，或第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值，则输出所述待处理样本集合及所述待处理样本集合的样本偏离指数；

待处理样本后处理模块509，基于所述待处理样本集合及所述待处理样本集合的样本偏离指数，对所述待处理样本集合样本标注，形成补充样本，以进行数据标注的优化。

为了进一步理解本说明书实施例提供的基于样本偏离评估的数据标注的优化装置，本说明书实施例还提供了又一种基于样本偏离评估的数据标注的优化装置的示意图。图6为本说明书实施例提供的又一种基于样本偏离评估的数据标注的优化装置的示意图。在数据可视化模块能够实现数据集及样本集的数据可视化，并能够以样本分布状态展示给使用用户。基于数据可视化模块的数据，能够通过偏离样本第一发现模块和偏离样本第二发现模块获得待处理样本集合，该偏离样本集亦展示给使用用户。随后基于偏离样本分析模块，获得样本偏离指数，并展示给使用用户。最后对待处理样本集合及偏离样本指数，在偏离样本后处理模块进行偏离样本后处理。

本说明书实施例还提供一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的，因此，装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、***、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于样本偏离评估的数据标注的优化方法，所述优化方法包括：

2.如权利要求1所述的优化方法，其特征在于，所述基于数据集的数据属性，对所述数据集及样本集进行划分，获得所述数据集和所述样本集的分布密度图，具体包括：

或者

3.如权利要求2所述的优化方法，其特征在于，所述基于数据集的数据属性，对所述数据集及样本集进行划分，获得所述数据集和所述样本集的分布密度图，具体包括：

或者

4.如权利要求3所述的优化方法，其特征在于，所述基于所述数据集和所述样本集的分布密度图，筛选不符合数据分布密度的样本分布区域，将所述不符合数据分布密度的样本分布区域中的未标记数据加入到待处理样本集合，具体包括：

或者

5.如权利要求3所述的优化方法，其特征在于，所述经预设时间间隔，基于所述数据集和所述样本集的分布密度图的准确率变化值，将所述准确率变化值大于等于预设阈值的数据中的未修改或确认数据加入到所述待处理样本集合，具体包括：

或者

6.如权利要求3所述的优化方法，其特征在于，所述若所述待处理样本集合的数量大于等于待处理样本需求规模，或第一偏离系数大于等于第一预设值且第二偏离系数小于等于第二预设值，则输出所述待处理样本集合及所述待处理样本集合的样本偏离指数，进一步包括：

7.如权利要求3所述的优化方法，其特征在于，所述采用二维网格化划分时，所述样本偏离指数的计算公式为：

h=∑（|p_ij-（count（S）/count（D））|+q_ij）

或者

所述采用线性分段划分时，所述样本偏离指数的计算公式为：

h=∑（|p_i-（count（S）/count（D））|+q_i）

其中：

h为样本偏离指数；

count（S）为所述样本集的计数；

count（D）为所述数据集的计数；

8.如权利要求1所述的优化方法，其特征在于，所述数据集的数据属性包括：数据来源信息、数据获取时间、数据清晰度信息、数据大小。

9.一种基于样本偏离评估的数据标注的优化装置，其特征在于，所述优化装置包括：

10.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，