CN108509969A

CN108509969A - 数据标注方法及终端

Info

Publication number: CN108509969A
Application number: CN201710796305.1A
Authority: CN
Inventors: 谭翊章; 王兴光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2018-09-07
Anticipated expiration: 2037-09-06
Also published as: CN108509969B

Abstract

本发明是关于一种数据标注方法及终端，所述方法包括：获取已标注的数据集D_all，其中，数据集D_all中包括N个数据及N个数据分别对应的标注标签，N为正整数；将N个数据分为K份，以生成K个第一训练样本，其中每个第一训练样本中包括K‑1份数据，且任意两个第一训练样本中的数据不完全相同；分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型；利用第一分类模型M_i，对数据J进行预测标注，确定数据J的预测标签；在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。由此，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

Description

数据标注方法及终端

技术领域

本发明涉及计算机技术领域，特别涉及一种数据标注方法及终端。

背景技术

随着近几年神经网络不断在各个领域取得突破性的进展，越来越多的机器学习任务开始转移到神经网络相关的模型中。神经网络相关模型需要利用标注后的数据作为训练数据进行机器学习，因此数据标注的质量高低对模型的性能好坏具有重要影响。

现有技术，可以利用人工标注或自动标注的方式，对数据进行标注。然而，无论以何种方式实现对数据的标注，都存在不可避免的错误。为了提高数据标注的质量，需要对数据进行重复标注。现有技术，对数据的重复标注需要耗费大量的人力和物力，成本高，且耗时久。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种数据标注方法，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

本发明还提出一种终端。

本发明还提出一种计算机可读存储介质。

本发明第一方面实施例提供一种数据标注方法，该方法包括：

获取已标注的数据集D_all，其中，所述数据集D_all中包括N个数据及所述N个数据分别对应的标注标签，N为正整数；

将所述N个数据分为K份，以生成K个第一训练样本，其中每个第一训练样本中包括K-1份数据，且任意两个第一训练样本中的数据不完全相同；

分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型；

利用第一分类模型M_i，对数据J进行预测标注，确定所述数据J的预测标签，其中，所述分类模型M_i由第i个第一训练样本中的数据训练生成，第i个第一训练样本中未包括所述数据J，i为大于或等于1，且小于或等于K的正整数；

在确定所述数据J的预测标签与标注标签不一致时，将所述数据J进行重复标注。

本发明实施例提供的数据标注方法，首先获取已标注的数据集D_all，然后将N个数据分成K份，以生成K个第一训练样本，再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，再利用第一分类模型M_i对数据J进行预测标注，确定数据J的预测标签，最后在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。由此，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

本发明第二方面实施例提供一种终端，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当所述处理器执行所述程序时实现如第一方面所述的数据标注方法。

本发明实施例提供的终端，首先获取已标注的数据集D_all，然后将N个数据分成K份，以生成K个第一训练样本，再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，再利用第一分类模型M_i对数据J进行预测标注，确定数据J的预测标签，最后在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。由此，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

本发明第三方面实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的数据标注方法。

本发明实施例提供的计算机可读存储介质，可以设置在需要进行数据标注的设备中，在进行数据标注时，通过执行其上存储的数据标注方法，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种数据标注方法的流程示意图；

图2是根据另一示例性实施例示出的一种数据标注方法的流程示意图；

图3是根据另一示例性实施例示出的一种数据标注方法的流程示意图；

图4是根据另一示例性实施例示出的一种数据标注方法的流程示意图；

图5是根据一示例性实施例示出的终端的结构框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明各实施例针对现有技术，为了提高数据标注的质量，对数据进行重复标注时，需要耗费大量的人力和物力，成本高，且耗时久的问题，提出一种数据标注方法。

本发明实施例提供的数据标注方法，首先获取已标注的数据集D_all，其中，数据集D_all中包括N个数据及N个数据分别对应的标注标签，N为正整数；然后将N个数据分成K份，以生成K个第一训练样本，其中每个第一训练样本中包括K-1份数据，且任意两个第一训练样本中的数据不完全相同；再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型；再利用第一分类模型M_i，对数据J进行预测标注，确定数据J的预测标签，其中，分类模型M_i由第i个第一训练样本中的数据训练生成，第i个第一训练样本中未包括数据J，i为大于或等于1，且小于或等于K的正整数；最后在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。由此，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

下面结合附图，对本申请提供的数据标注方法及终端进行详细说明。

图1是根据一示例性实施例示出的一种数据标注方法的流程示意图。

如图1所示，该数据标注方法，包括以下步骤：

步骤101，获取已标注的数据集D_all，其中，数据集D_all中包括N个数据及N个数据分别对应的标注标签，N为正整数。

具体的，本发明实施例提供的数据标注方法，可以由本发明实施例提供的数据标注装置执行。其中，数据标注装置，可以被配置在任意终端中，比如计算机中，以对数据进行标注。

其中，已标注的数据集，可以是划定问题场景，通过网络爬虫等手段，在互联网中收集相关领域的各种样本后，将样本交给标注人员进行标注得到的数据集。

数据集D_all中包括的N个数据分别对应的标注标签，即对数据集D_all中包括的N个数据进行标注后得到的标签。

步骤102，将N个数据分为K份，以生成K个第一训练样本，其中每个第一训练样本中包括K-1份数据，且任意两个第一训练样本中的数据不完全相同。

其中，K的取值，可以根据需要任意设置，此处不作限制。

具体的，将N个数据分成K份后，可以从K份数据中选出K-1份数据，生成1个第一训练样本，经过K次选取，即可生成K个第一训练样本。需要说明的是，每次选取的K-1份数据，与其它次选取的K-1份数据不完全相同，从而任意两个第一训练样本中的数据不完全相同。

举例来说，假设将N个数据分成K₁、K₂、K₃、K₄、K₅ 5份数据，可以选取K₂、K₃、K₄、K₅组成一个第一训练样本，选取K₁、K₃、K₄、K₅组成一个第一训练样本，选取K₁、K₂、K₄、K₅组成一个第一训练样本，选取K₁、K₂、K₃、K₅组成一个第一训练样本，选取K₁、K₂、K₃、K₄组成一个第一训练样本。

步骤103，分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型。

具体实现时，可以利用现有的任意方式，对每个第一训练样本中的数据进行训练，以生成K个第一分类模型，此处不作限制。

步骤104，利用第一分类模型M_i，对数据J进行预测标注，确定数据J的预测标签。

其中，分类模型M_i由第i个第一训练样本中的数据训练生成，第i个第一训练样本中未包括数据J，i为大于或等于1，且小于或等于K的正整数。

具体的，训练生成第一分类模型M_i时所用的第i个第一训练样本，是由除数据J所在的一份数据之外的其它K-1份数据生成的。也即是说，数据J，为K份数据中，除训练M_i所用的K-1份数据之外的，另1份数据中包括的数据。

比如，将900个数据分成K₁、K₂、K₃ 3份数据时，假设数据J在K₁中，则用来对数据J进行预测标注的第一分类模型M_i，指利用K₂和K₃生成的第一训练样本中的数据，训练得到的分类模型。

步骤105，在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。

具体的，利用第一分类模型M_i，对数据J进行预测标注，得到数据J的预测标签后，即可将数据J的预测标签与标注标签进行比对，若数据J的预测标签与标注标签不一致，则可以对数据J进行重复标注。

具体实现时，可以将预测标签与标注标签不一致的数据J选出来，交给标注人员进行重复标注。

举例来说，假设将已标注的数据集D_all中的10000个数据，分成K₁、K₂、K₃、K₄、K₅ 5份，第一训练样本H1中包括K₂、K₃、K₄和K₅中的数据，第一训练样本H2中包括K₁、K₃、K₄和K₅中的数据，第一训练样本H3中包括K₁、K₂、K₄和K₅中的数据，第一训练样本H4中包括K₁、K₂、K₃和K₅中的数据，第一训练样本H5中包括K₁、K₂、K₃和K₄中的数据。分别对H1、H2、H3、H4、H5中的数据进行训练，可以生成第一分类模型M₁、M₂、M₃、M₄、M₅。

假设n₁、n₂、n₃、n₄、n₅、n₆、n₇、n₈、n₉、n₁₀为D_all中的部分数据，数据n₁和n₂均在K₁中，数据n₃和n₄均在K₂中，数据n₅和n₆均在K₃中，数据n₇和n₈均在K₄中，数据n₉和n₁₀均在K₅中。可以分别利用M₁、M₁、M₂、M₂、M₃、M₃、M₄、M₄、M₅、M₅，对n₁、n₂、n₃、n₄、n₅、n₆、n₇、n₈、n₉、n₁₀进行预测标注，分别得到n₁、n₂、n₃、n₄、n₅、n₆、n₇、n₈、n₉、n₁₀的预测标签。分别将各预测标签与各标注标签进行比对后，若确定n₁的预测标签与标注标签不一致，则可以将n₁输出，交给标注人员进行重复标注。

需要说明的是，在将N个数据分成K份时，各份中包括的数据个数可以相同，也可以不同，此处不作限制。

但是当分成的K份数据中，各份数据包括的数据个数不同时，每个由K-1份数据组成的第一训练样本中的数据个数可能也不同，从而会使得训练生成的各第一分类模型的性能一致性较差。相当于对不同数据进行预测标注时，采用的可能是性能不一致的第一分类模型，即得到不同数据的预测标注结果时，所采用的标准不一致，从而使得确定的数据是否需要进行重新标注的准确较低。因此，为了使各第一分类模型的性能一致，在本发明一种较优的实现形式中，可以将N个数据平均分成K份。

值得注意的是，将N个数据平均分成K份时，可能出现不能均分的情况，在本发明实施例中，可以设置将N个数据分成K份后，剩余的没有被均分的数据分到任意一份中，或者将其分到生成第一训练样本的K-1份数据之外的1份数据中，等等。

比如，获取的已标注的数据集D_all中包括901个数据，将901个数据平均分成D₁、D₂、D₃、D₄、D₅、D₆、D₇、D₈、D₉ 9份时，每份中可以包括100个数据，但还剩1个数据不能被均分。在本发明实施例中，可以将剩下的1个数据分到9份数据的任意1份中，或者，利用D₁、D₂、D₃、D₄、D₅、D₆、D₇、D₈中的数据作为第一训练样本的数据，训练第一分类模型时，可以将剩下的1个数据分到D₉中，利用D₁、D₂、D₃、D₄、D₅、D₆、D₇、D₉中的数据作为第一训练样本的数据，训练第一分类模型时，可以将剩下的1个数据分到D₈中，等等。

通过上述分析可知，获取已标注的数据集D_all后，可以将N个数据分成K份，以生成K个第一训练样本，再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，再利用第一分类模型M_i对数据J进行预测标注，确定数据J的预测标签，最后在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。在实际运用中，由于数据划分的随机性，在将数据集D_all中的数据进行1次划分，训练K个第一分类模型后，利用第一分类模型M_i，对数据J进行一次预测标注，确定的数据J的预测标签可能会不准确。下面结合图2，对上述情况进行具体说明。

图2是本发明另一示例性实施例示出的一种数据标注方法的流程示意图。

如图2所示，该数据标注方法，包括以下步骤：

步骤201，获取已标注的数据集D_all，其中，数据集D_all中包括N个数据及N个数据分别对应的标注标签，N为正整数。

步骤202，将N个数据分为K份，以生成K个第一训练样本，其中每个第一训练样本中包括K-1份数据，且任意两个第一训练样本中的数据不完全相同。

步骤203，分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型。

步骤204，利用第一分类模型M_i，对数据J进行预测标注，确定数据J的预测标签，并将计数值C加1。

需要说明的是，计数值C的初始值为0。

其中，步骤201-步骤204的具体实现过程及原理，可以参照上述实施例中步骤101-步骤103的具体描述，此处不再赘述。

步骤205，判断计数值C是否等于L，若是，则执行步骤206，否则，返回执行步骤202。

步骤206，确定数据J的L个预测标签与标注标签不一致的次数大于第一阈值。

步骤207，将数据J进行重复标注。

具体的，可以设置将数据集D_all中的数据分成K份，以生成K个第一训练样本，分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，及利用第一分类模型M_i，对数据J进行预测标注的过程，即步骤202-204重复执行L次，每次得到数据J的一个预测标签，然后根据L个预测标签与标注标签不一致的次数，确定是否对数据J进行重复标注。

其中，L指预先设置的重复执行步骤202-204的次数。

另外，可以设置计数值C，根据计数值C的值，确定步骤202-204是否重复执行了L次。

需要注意的是，在本发明实施例中，第K_Xa份数据，与第K_Yb份数据中包含的数据不同，K_xa份数据表示第X次划分时的一份数据，第K_Yb份数据表示第Y次划分时的任意一份数据，X，Y分别为大于或等于1，小于或等于L的正整数，且X≠Y。

即，重复执行L次将N个数据分成K份的操作时，第X次划分的数据中，至少存在一份数据与第Y次划分时的任意一份数据不同。

举例来说，假设n₁、n₂、n₃、n₄、n₅、n₆为数据集D_all中的部分数据，第1次将数据集D_all分成K₁、K₂、K₃ 3份数据时，n₁、n₂被划分到K₁中，n₃、n₄被划分到K₂中，n₅、n₆被分到K₃中，则第2次将数据集D_all分成K₁、K₂、K₃ 3份数据时，n₁、n₃可以被划分到K₁中，n₂、n₄可以被划分到K₂中，n₅、n₆可以被划分到K₃中。

其中，第一阈值，小于步骤202-204重复执行的次数L。具体的，可以根据需要设置。比如L＝10时，可以将第一阈值设置为L*80％，等等。

具体实现时，每次执行步骤202-204，得到数据J的1个预测标签后，即可判断预测标签与标注标签是否一致，若不一致，则将数据J的预测标签与标注标签的不一致次数加1，从而在执行步骤202-204L次后，可以根据记录的次数，确定数据J的L个预测标签与标注标签不一致的次数是否大于第一阈值，若是，则可以将数据J选出来，交给标注人员进行重复标注。

举例来说，假设第一阈值为L*80％，将步骤201-204重复执行L＝10次，对数据J进行预测标注后，得到了数据J的10个预测标签，而9个预测标签与标注标签不一致，由于数据J的10个预测标签与标注标签不一致的次数大于第一阈值8，则可以将数据J选出来，交给标注人员进行重复标注。

通过将步骤202-204执行L次，并在数据J的L个预测标签与标注标签不一致的次数大于第一阈值时，将数据J进行重复标注，提高了数据重复标注的准确性。

可以理解的是，在本发明实施例中，重复执行步骤202-204L次后，若数据J的L个预测标签与标注标签不一致的次数大于第一阈值，也可以不将数据J交给标注人员进行重复标注，而是自动对数据J的标注标签进行更新。

即，在步骤207之后，还可以包括：

在确定数据J的第一预测标签的重复次数大于第三阈值时，根据第一预测标签更新数据J的标注标签。

其中，第三阈值，小于步骤202-204重复执行的次数L。具体的，可以根据需要设置。比如L＝10时，可以将第三阈值设置为L*80％，等等。需要说明的是，第一阈值和第三阈值可以相等，也可以不相等，此处不作限制。

具体的，若将步骤202-204执行L次后，得到的数据J的L个预测标签中，第一预测标签的重复次数大于第三阈值，则表示数据J对应第一预测标签的概率较高，则可以将数据J的标注标签，更新为第一预测标签。

举例来说，假设第三阈值为L*80％，数据J的标注标签为“A”，将步骤201-204重复执行L＝10次，对数据J进行预测标注后，得到了10个预测标签，而其中9个预测标签均为“B”，则可以将数据J的标注标签“A”更新为“B”。

进一步的，在根据第一预测标签更新数据J的标注标签后，还可以对更新后的标注标签是否正确进行验证。

具体的，可以利用第一分类模型M_i，再次对数据J进行预测标注，确定数据J的预测标签，并将确定的预测标签与更新后的标注标签进行比对。若一致，则可以确定更新后的标注标签正确，从而确定数据J重复标注完成。

即，在根据第一预测标签更新数据J的标注标签后，还可以包括：

若标注标签更新后的数据集中，数据J的预测标签与更新后的标注标签一致，则确定数据J重复标注完成。

具体的，若利用第一分类模型M_i，再次对数据J进行预测标注，确定的数据J的预测标签，与数据J更新后的标注标签不一致，则可以将数据J选出来，交给标注人员进行重复标注。即，在根据第一预测标签更新数据J的标注标签后，还可以包括：

若标注标签更新后的数据集中，数据J的预测标签与更新后的标注标签不一致，则将数据J进行重复标注。

具体的，若数据J的预测标签与更新后的标注标签不一致，则可以对数据J进行标记并输出，以使标注人员可以进行重复标注。

值得注意的是，在本发明实施例中，将已标注的数据集D_all中的N个数据分成K份时，可以设置K＝N，即将N个数据分成K份后的每份中，包括1个数据。从而可以利用已标注的数据集D_all中，除数据J外的其它所有数据作为第一训练样本的数据，训练生成的第一分类模型，对数据J进行预测标注，确定数据J的预测标签，若预测标签与标注标签不一致，则可以将数据J进行重复标注。

需要说明的是，若将已标注的数据集D_all中的N个数据分成N份，则上述步骤202-204仅能执行1次，从而可以根据执行1次后确定的预测标签与标注标签是否一致，确定是否将数据J进行重复标注。

本发明实施例提供的数据标注方法，获取已标注的数据集D_all后，可以将N个数据分为K份，以生成K个第一训练样本，再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，然后利用第一分类模型M_i，对数据J进行预测标注，确定数据J的预测标签，再重复执行L次将N个数据分为K份的操作，在确定数据J的L个预测标签与标注标签不一致的次数大于第一阈值时，则将数据J进行重复标注。由此，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，且通过在利用不同数据训练得到的第一分类模型，分别对数据进行预测标注后，根据多个预测标签与标注标签不一致的次数，对数据进行重复标注，提高了数据重复标注的准确性，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

通过上述分析可知，获取已标注的数据集D_all后，可以将将N个数据分成K份，以生成K个第一训练样本，再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，再利用第一分类模型M_i对数据J进行预测标注，确定数据J的预测标签，最后在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。在实际运用中，由于已标注的数据集中的数据可能存在较大的区别，因此基于整个数据集对数据进行重复标注时的准确性可能比较低，下面结合图3，对上述情况进行详细说明。

图3是根据另一示例性实施例示出的一种数据标注方法的流程示意图。

如图3所示，该数据标注方法，还可以包括以下步骤：

步骤301，获取已标注的数据集D_all，其中，数据集D_all中包括N个数据及N个数据分别对应的标注标签，N为正整数，数据集D_all包括第一子集D₁及第二子集D₂。

可以理解的是，已标注的数据集中的数据可能存在较大的区别，比如数据集中可能既有关于银行利息的数据，也有关于银行贷款的数据，或者已标注的数据集中的标注准确率可能相差较大，若基于已标注的数据集D_all对数据进行重复标注，可能由于数据集中的数据差别较大，导致训练的分类模型性能较低。因此，在本发明实施例中，可以将已标注的数据集D_all，分成两个子集D₁和D₂，使每个子集中的数据差别较小，再基于第一子集D₁及第二子集D₂，对第一子集D₁或第二子集D₂中的数据进行重复标注。

具体的，将已标注的数据集D_all分成第一子集D₁及第二子集D₂时，可以根据需要进行划分。

比如，由于标注人员在某个固定任务上的标注错误率是持续下降的，假设在时间点T之前，标注人员的错误率较高，在时间点T之后，标注人员的错误率较低，则可以根据时间点T，将时间点T之前标注的数据，分到第一子集D₁中，将时间点T之后标注的数据，从而使第一子集D₁中数据的标注准确率小于第二子集D₂中数据的标注准确率，且每个子集中数据的标注准确率相差较小。

或者，假设已标注的数据集D_all中的数据，分别为关于银行利息的数据，和关于银行贷款的数据，则可以根据数据集D_all中的数据类型，将关于银行利息的数据和和关于银行贷款的数据，分别划分到第一子集D₁及第二子集D₂中，从而使每个子集中的数据类型相差较小。

需要说明的是，第一子集D₁及第二子集D₂中的数据数量，可以相同，也可以不同，此处不作限制。

步骤302，分别将第一子集D₁及第二子集D₂分为K份，以生成2K个训练子样本。

步骤303，分别对每个训练子样本中的数据进行训练，生成2K个子分类模型。

其中，K的取值，可以根据需要任意设置，此处不作限制。每个训练子样本中包括K-1份数据，且任一两个训练子样本中的数据不完全相同。

具体的，分别将第一子集D₁及第二子集D₂分为K份后，可以分别从K份数据中选出K-1份数据，生成训练子样本，经过K次选取，即可分别生成K个训练子样本。需要说明的是，每次选取的K-1份数据，与其它次选取的K-1份数据不完全相同，从而任意两个子分类模型中的数据不完全相同。

具体实现时，可以利用现有的任意方式，对每个训练子样本中的数据进行训练，以生成2K个子分类模型，此处不作限制。

举例来说，假设获取的已标注的数据集D_all中包括900个数据，K＝5，若在时间点T之前标注了400个数据，在时间点T之后标注了500个数据，则可以将900个数据根据时间点T分成两个子集，第一子集中包括时间点T之前标注的400个数据，第二子集中包括时间点T之后标注的500个数据。

然后分别将第一子集及第二子集分成5份，假设将第一子集分成K₁、K₂、K₃、K₄、K₅ 5份，将第二子集分成K₆、K₇、K₈、K₉、K₁₀ 5份。训练子样本H1中包括K₂、K₃、K₄和K₅中的数据，训练子样本H2中包括K₁、K₃、K₄和K₅中的数据，训练子样本H3中包括K₁、K₂、K₄和K₅中的数据，训练子样本H4中包括K₁、K₂、K₃和K₅中的数据，训练子样本H5中包括K₁、K₂、K₃和K₄中的数据。训练子样本H6中包括K₇、K₈、K₉、K₁₀中的数据，训练子样本H7中包括K₆、K₈、K₉、K₁₀中的数据，训练子样本H8中包括K₆、K₇、K₉、K₁₀中的数据，训练子样本H9中包括K₆、K₇、K₈、K₁₀中的数据，训练子样本H10中包括K₆、K₇、K₈、K₉中的数据。分别对H1、H2、H3、H4、H5、H6、H7、H8、H9、H10中的数据进行训练，可以生成M₁、M₂、M₃、M₄、M₅、M₆、M₇、M₈、M₉、M₁₀ 10个子分类模型。

步骤304，利用子分类模型M_DZj及第一分类模型M_i，对数据M进行预测标注，确定数据M的预测标签。

其中，子分类模型M_DZj由第j个训练子样本中的数据训练生成，第j个训练子样本中包括K-1份第一子集中的数据，或者，K-1份第二子集中的数据，Z＝1或2，当Z＝1时，数据M为第一子集中的数据，当Z＝2时，数据M为第二子集中的数据。

另外，第j个训练子样本中未包括数据M，j为大于或等于1，且小于或等于K的正整数。

具体的，训练生成子分类模型M_DZj时所用的第j个训练子样本，是由与数据M属于同一子集的K份数据中，除数据M所在的一份数据之外的其它K-1份数据生成的。也即是说，数据M，为与其属于同一子集的K份数据中，除训练M_DZj时所用的K-1份数据之外的，另1份数据中包括的数据。

比如，将900个数据分成两个子集D₁和D₂时，假设将D₁分成K₁、K₂、K₃ 3份数据，将D₂分成K₄、K₅、K₆ 3份数据。假设数据M为子集D₁中的数据，M在K₁中，则用来对数据M进行预测标注的子分类模型M_DZj，指利用K₂和K₃生成的训练子样本中的数据，训练得到的子分类模型。假设数据M为子集D₂中的数据，M在K₄中，则用来对数据M进行预测标注的子分类模型M_DZj，指利用K₅和K₆生成的训练子样本中的数据，训练得到的子分类模型。

步骤305，在确定数据M的预测标签与标注标签不一致时，将数据M进行重复标注。

具体的，分别利用子分类模型M_DZj及第一分类模型M_i，对数据M进行预测标注，可以分别得到数据M的1个预测标签，即利用子分类模型M_DZj及第一分类模型M_i，对数据M进行预测标注，可以得到数据M的2个预测标签，之后即可将数据M的2个预测标签与标注标签进行比对，并根据比对结果决定是否对数据M进行重复标注。

具体的，可以在2个预测标签中，任意一个预测标签与标注标签不一致时，即对数据M进行重复标注；或者，也可以在两个预测标签与标注标签均不一致时，对数据M进行重复标注，此处不作限制。

具体实现时，可以将需要重复标注的数据M选出来，交给标注人员进行重复标注。

需要说明的是，在分别将第一子集D₁及第二子集D₂分为K份时，各份中包括的数据个数可以相同，也可以不同，此处不作限制。

但是当分成的K份数据中，各份数据包括的数据个数不同时，每个由K-1份数据组成的训练子样本中的数据个数可能也不同，从而会使得训练生成的各分类子模型的性能一致性较差。相当于对不同数据进行预测标注时，采用的可能是性能不一致的分类子模型，即得到不同数据的预测标注结果时，所采用的标准不一致，从而使得确定的数据是否需要进行重新标注的准确较低。因此，为了使各分类子模型的性能一致，在本发明一种较优的实现形式中，可以分别将第一子集D₁及第二子集D₂平均分为K份。

值得注意的是，分别将第一子集及第二子集平均分成K份时，可能出现不能均分的情况，在本发明实施例中，可以设置将第一子集及第二子集平均分成K份后，剩余的没有被均分的数据分到任意一份中，或者将其分到生成训练子样本的K-1份数据之外的1份数据中，等等。

可以理解的是，在实际运用中，由于数据划分的随机性，在将数据集D_all中的数据分成两个子集，并将每个子集进行1次划分，训练2K个子分类模型后，利用子分类模型M_DZj及第一分类模型M_i，对数据M进行一次预测标注，确定的数据M的预测标签可能会不准确。

那么，在本发明实施例中，还可以将步骤302-304重复执行L次，每次得到数据M的2个预测数据，从而在执行L次，得到2L个预测标签后，确定数据M的预测标签与标注标签不一致的次数大于预设阈值时，则对数据M进行重复标注。

即，在步骤305将数据M进行重复标注之前，还可以包括：

确定数据M，分别利用各分类模型得到的预测标签与标注标签不一致的总次数大于第二阈值。

其中，第K_Xa份数据，与第K_Yb份数据中包含的数据不同，K_xa份数据表示第X次划分时的一份数据，第K_Yb份数据表示第Y次划分时的任意一份数据，X，Y分别为大于或等于1，小于或等于L的正整数，且X≠Y。

其中，第二阈值，小于2L。具体的，可以根据需要设置。比如L＝10时，可以将第二阈值设置为L*80％，2L*80％，等等。

具体实现时，每次执行步骤302-304后，均可以得到数据M的2个预测标签，若重复执行步骤302-304L次，得到2L个预测模型后，确定数据M的2L个预测标签与标注标签不一致的次数大于第二阈值，则可以将数据M选出来，交给标注人员进行重复标注。

可以理解的是，在本发明实施例中，重复执行步骤302-304L次后，若数据M的2L个预测标签与标注标签不一致的次数大于第二阈值，也可以不将数据M选出来，交给标注人员进行重复标注，而是自动对数据M的标注标签进行更新。

即，在步骤305之后，还可以包括：

在确定数据M的第二预测标签的重复次数大于第三阈值时，根据第二预测标签更新数据M的标注标签。

进一步的，在根据第二预测标签更新数据M的标注标签后，还可以对更新后的标注标签是否正确进行验证。

即，在根据第二预测标签更新数据M的标注标签后，还可以包括：

若标注标签更新后的数据集中，数据M的预测标签与更新后的标注标签一致，则确定数据M重复标注完成。

若标注标签更新后的数据集中，数据M的预测标签与更新后的标注标签不一致，则将数据M进行重复标注。

具体的对数据M的标注标签进行更新，及对更新后的标注标签进行验证的实现过程及原理，可以参照上述实施例的详细描述，此处不作赘述。

需要说明的是，在本发明实施例中，也可以仅利用子分类模型M_DZj，对数据M进行预测标注，从而根据预测结果确定是否对数据M进行重复标注。

另外，也可以将数据集D_all分成两个以上的多个子集，然后通过上述方式，对数据进行重复标注，具体过程此处不再赘述。

本发明实施例提供的数据标注方法，首先获取已标注的数据集D_all，然后分别将第一子集D₁及第二子集D₂分为K份，以生成2K个训练子样本，再分别对每个训练子样本中的数据进行训练，生成2K个子分类模型，再利用子分类模型M_DZj及第一分类模型M_i，对数据M进行预测标注，确定数据M的预测标签，最后在确定数据M的预测标签与标注标签不一致时，将数据M进行重复标注。由此，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，且通过将已标注的数据集分成两个子集后，再训练子分类模型及对数据进行预测标注，以实现对数据的重复标注，提高了数据重复标注的准确性，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

通过上述分析可知，获取已标注的数据集D_all后，可以将N个数据分成K份，以生成K个第一训练样本，再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，再利用第一分类模型M_i对数据J进行预测标注，确定数据J的预测标签，最后在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。在实际运用中，还可以利用本发明实施例提供的数据标注方法，利用已标注的数据对未标注数据进行自动标注后，对自动标注的数据进行重复标注，下面结合图4，对上述情况进行具体说明。

如图4所示，该数据标注方法，还可以包括以下步骤：

步骤401，根据筛选规则，从备选数据中获取测试数据D_auto。

其中，筛选规则，用来规定从海量的备选数据中筛选测试数据的规则。

筛选规则，可以根据需要设置。比如，可以根据关键词、句式等从海量的备选数据中自动筛选出错误率较低的数据作为测试数据D_auto。

可以理解的是，在根据筛选规则，从备选数据中获取测试数据D_auto之前，还需要确定筛选规则。即，在步骤401之前，还可以包括：

根据当前的数据标注任务，确定筛选规则。

举例来说，假设当前的数据标注任务为对与银行的利息相关的数据进行标注，则可以确定筛选规则为：筛选出包含关键词“利息”、“利率”的数据。从而可以通关键词“利息”、“利率”，从海量的备选数据中筛选出与银行的利息相关的数据作为测试数据D_auto。

步骤402，利用数据集D_all对测试数据进行标注，确定各测试数据的模糊标签。

具体的，可以通过多种方式，利用数据集D_all对测试数据进行自动标注，以确定各测试数据的模糊标签。比如，可以利用基于置信度的方法，通过数据集D_all训练分类器，对测试数据进行标注，选择分类置信度最低的数据交给标注人员进行标注。

具体实现时，可以通过以下方式，实现基于置信度的方法，利用数据集D_all对测试数据进行自动标注。

(1)从数据集D_all中训练出一个模型；

(2)对于M个未标注的测试数据中的每一个数据用模型对其进行标注，评估模型标注的置信度；

(3)从测试数据中选择m个具有最低置信度的数据交给标注人员进行标注；

(4)把新标注的数据加进训练语料中；

(5)重复执行以上过程直到标注人员停止或未标注数据用尽。

需要说明的是，数据集D_all为已标注的数据集，而已标注的数据集中的标注可能存在问题，为了提高利用数据集D_all对测试数据进行标注的准确性，在本发明实施例中，可以先将数据集D_all中的标注存在问题的数据去掉。即，步骤402具体可以包括：

利用数据集D_all中除数据J外的其它数据对测试数据进行标注。

其中，数据J，指标注存在问题的数据。具体的，可以是利用第一分类模型对其进行一次预测标注后，预测标签与标注标签不一致的数据，也可以是利用不同数据训练得到的不同第一分类模型，分别对其进行预测标注，得到多个预测标签后后，预测标签与标注标签不一致的次数大于第一阈值的数据，此处不作限制。

另外，利用数据集D_all对测试数据进行标注后，测试数据中可能存在标注结果与筛选规则不匹配的情况。比如，从备选数据中筛选的为与银行利息相关的数据，而利用数据集D_all对测试数据进行标注后，某个数据的模糊标签为与银行贷款相关的数据。

那么，在本发明实施例中，还可以对测试数据进行清洗。即，在步骤402之后，还可以包括：

根据各测试数据的模糊标签与筛选规则的匹配度，将测试数据进行清洗。

具体的，可以预先设置匹配阈值，从而在利用数据集D_all对测试数据进行标注后，可以将模糊标签与筛选规则进行匹配，并将各测试数据中，模糊标签与筛选规则的匹配度小于预设阈值的数据进行丢弃。

步骤403，将数据集D_all与测试数据D_auto中的数据融合后的数据D，分为K份，以生成K个第二训练样本。

其中，K的取值，可以根据需要任意设置，此处不作限制。

步骤404，分别对每个第二训练样本中的数据进行训练，生成K个第二分类模型。

其中，Ds为大于或等于1，且小于或等于K的正整数。

具体的，步骤403-404的具体实现过程及原理，与上述实施例中将数据集D_all中的N个数据分成K份，以生成K个第一训练样本，及对每个第一训练样本中的数据进行训练，生成K个第一分类模型的实现过程及原理类似，可以参照上述实施例的详细描述，此处不再赘述。

步骤405，利用第二分类模型M_Ds，对数据Z进行预测标注，确定数据Z的预测标签，其中，数据Z为测试数据D_auto中的数据。

其中，第二分类模型M_Ds由第Ds个第二训练样本中的数据训练生成，第Ds个第二训练样本中未包括数据Z，Ds为大于或等于1，且小于或等于K的正整数。

具体的，训练生成第二分类模型M_Ds时所用的第Ds个第二训练样本，是由除数据Z所在的一份数据之外的其它K-1份数据生成的。也即是说，数据Z，为K份数据中，除训练M_Ds所用的K-1份数据之外的，另1份数据中包括的数据。

比如，将900个数据分成K₁、K₂、K₃ 3份数据时，假设数据Z在K₁中，则用来对数据Z进行预测标注的第二分类模型M_Ds，指利用K₂和K₃生成的第二训练样本中的数据，训练得到的分类模型。

步骤406，在确定数据Z的预测标签与模糊标签不一致时，将数据Z进行重复标注。

具体的，利用分类模型M_Di中与数据Z对应的分类模型，对数据Z进行预测标注，得到数据Z的预测标签后，即可将数据Z的预测标签与模糊标签进行比对，若数据Z的预测标签与模糊标签不一致，则可以对数据Z进行重复标注。

具体实现时，可以将预测标签与模糊标签不一致的数据Z选出来，交给标注人员进行重复标注。

可以理解的是，在实际运用中，由于数据划分的随机性，在将数据集D中的数据进行1次划分，训练K个第二分类模型后，利用第二分类模型M_Ds，对数据Z进行一次预测标注，确定的数据Z的预测标签可能会不准确。

那么，在本发明实施例中，还可以将步骤403-405重复执行L次，每次得到数据Z的1个预测数据，从而在执行L次，得到L个预测标签后，确定数据Z的预测标签与模糊标签不一致的次数大于预设阈值时，对数据Z进行重复标注。

即，在步骤406之前，还可以包括：

确定数据Z的L个预测标签与模糊标签不一致的总次数大于第一阈值。

其中，第一阈值，小于步骤403-405重复执行的次数L。具体的，可以根据需要设置。比如L＝10时，可以将第一阈值设置为L*80％，等等。

具体实现时，每次执行步骤403-405后，均可以得到数据Z的1个预测标签，若重复执行步骤403-405L次，得到L个预测模型后，确定数据Z的L个预测标签与模糊标签不一致的次数大于第一阈值，则可以将数据Z选出来，交给标注人员进行重复标注。

可以理解的是，在本发明实施例中，重复执行步骤403-405L次后，若数据Z的L个预测标签与模糊标签不一致的次数大于第一阈值，也可以不将数据Z选出来，交给标注人员进行重复标注，而是自动对数据Z的模糊标签进行更新。

即，在步骤406之后，还可以包括：

在确定数据Z的第三预测标签的重复次数大于第三阈值时，根据第三预测标签更新数据Z的模糊标签。

进一步的，在根据第三预测标签更新数据Z的模糊标签后，还可以对更新后的模糊标签是否正确进行验证。

即，在根据第三预测标签更新数据Z的模糊标签后，还可以包括：

若模糊标签更新后的测试数据集中，数据Z的预测标签与更新后的模糊标签一致，则确定数据Z重复标注完成。

若模糊标签更新后的测试数据集中，数据Z的预测标签与更新后的模糊标签不一致，则将数据Z进行重复标注。

具体的对数据Z的模糊标签进行更新，及对更新后的模糊标签进行验证的实现过程及原理，可以参照上述实施例的详细描述，此处不作赘述。

本发明实施例提供的数据标注方法，首先根据筛选规则，从备选数据中获取测试数据D_auto，然后利用数据集D_all对测试数据进行标注，确定各测试数据的模糊标签，再将数据集D_all与测试数据D_auto中的数据融合后的数据D，分为K份，以生成K个第二训练样本，再分别对每个第二训练样本中的数据进行训练，生成K个第二分类模型，再利用第二分类模型M_Ds，对数据Z进行预测标注，确定数据Z的预测标签，其中，数据Z为测试数据D_auto中的数据，最后在确定数据Z的预测标签与模糊标签不一致时，将数据Z进行重复标注。由此，实现了根据已标注的数据对未标注数据进行自动标注，及对自动标注的数据进行重复标注，降低了对自动标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

本发明实施例提供的数据标注装置，可以包括：

第一获取模块，用于获取已标注的数据集D_all，其中，数据集D_all中包括N个数据及N个数据分别对应的标注标签，N为正整数；

第一生成模块，用于将N个数据分为K份，以生成K个第一训练样本，其中每个第一训练样本中包括K-1份数据，且任意两个第一训练样本中的数据不完全相同；

第二生成模块，用于分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型；

第一确定模块，用于利用第一分类模型M_i，对数据J进行预测标注，确定数据J的预测标签，其中，分类模型M_i由第i个第一训练样本中的数据训练生成，第i个第一训练样本中未包括数据J，i为大于或等于1，且小于或等于K的正整数；

第一标注模块，用于在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。

具体的，本发明实施例提供的数据标注装置，可以用来执行本发明实施例提供的数据标注方法。其中，该装置可以被配置在任意终端中，比如计算机中，以对数据进行标注。

在本发明实施例一种可能的实现形式中，该装置，还包括：

执行模块，用于重复执行L次将N个数据分为K份的操作；

第二确定模块，用于确定数据J的L个预测标签与标注标签不一致的次数大于第一阈值；

在本发明实施例另一种可能的实现形式中，数据集D_all包括第一子集D₁及第二子集D₂；

相应的，该装置，还包括：

第三生成模块，用于分别将第一子集D₁及第二子集D₂分为K份，以生成2K个训练子样本；

第四生成模块，用于分别对每个训练子样本中的数据进行训练，生成2K个子分类模型；

第三确定模块，利用子分类模型M_DZj及第一分类模型M_i，对数据M进行预测标注，确定数据M的预测标签，其中，子分类模型M_DZj由第j个训练子样本中的数据训练生成，第j个训练子样本中包括K-1份第一子集中的数据，或者，K-1份第二子集中的数据，Z＝1或2，当Z＝1时，数据M为第一子集中的数据，当Z＝2时，数据M为第二子集中的数据；

第二标注模块，用于在确定数据M的预测标签与标注标签不一致时，将数据M进行重复标注。

在本发明实施例另一种可能的实现形式中，该装置，还包括：

第四确定模块，用于确定数据M，分别利用各分类模型得到的预测标签与标注标签不一致的总次数大于第二阈值。

第二获取模块，用于根据筛选规则，从备选数据中获取测试数据D_auto；

第五确定模块，用于利用数据集D_all对测试数据进行标注，确定各测试数据的模糊标签；

第五生成模块，用于将数据集D_all与测试数据D_auto中的数据融合后的数据D，分为K份，以生成K个第二训练样本；

第六生成模块，用于分别对每个第二训练样本中的数据进行训练，生成K个第二分类模型；

第六确定模块，用于利用第二分类模型M_Ds，对数据Z进行预测标注，确定数据Z的预测标签，其中，数据Z为测试数据D_auto中的数据；

第三标注模块，用于在确定数据Z的预测标签与模糊标签不一致时，将数据Z进行重复标注。

在本发明实施例另一种可能的实现形式中，第五确定模块，具体用于：

清洗模块，用于根据各测试数据的模糊标签与筛选规则的匹配度，将测试数据进行清洗。

第七确定模块，用于根据当前的数据标注任务，确定筛选规则。

更新模块，用于在确定数据J的第一预测标签的重复次数大于第三阈值时，根据第一预测标签更新数据J的标注标签；

第八确定模块，用于若标注标签更新后的数据集中，数据J的预测标签与更新后的标注标签一致，则确定数据J重复标注完成。

第一处理模块，用于若标注标签更新后的数据集中，数据J的预测标签与更新后的标注标签不一致，则将数据J进行重复标注。

需要说明的是，前述对数据标注方法实施例的解释说明也适用于该实施例的数据标注装置，此处不再赘述。

本发明实施例提供的数据标注装置，首先获取已标注的数据集D_all，然后将N个数据分成K份，以生成K个第一训练样本，再分别对每个第一训练样本中的数据进行训练，生成K个第一分类模型，再利用第一分类模型M_i对数据J进行预测标注，确定数据J的预测标签，最后在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。由此，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

在示例性实施例中，还提供了一种终端。

图5是根据一示例性实施例示出的终端的结构框图。

如图5所示，该终端包括：

存储器51、处理器52及存储在存储器51上并可在所述处理器52上运行的计算机程序，其特征在于，当所述处理器52执行所述程序时实现如第一方面所述的数据标注方法。

具体的，本发明实施例提供的终端，可以计算机等任意终端。

具体的，数据标注方法包括：

获取已标注的数据集D_all，其中，数据集D_all中包括N个数据及N个数据分别对应的标注标签，N为正整数；

将N个数据分为K份，以生成K个第一训练样本，其中每个第一训练样本中包括K-1份数据，且任意两个第一训练样本中的数据不完全相同；

利用第一分类模型M_i，对数据J进行预测标注，确定数据J的预测标签，其中，分类模型M_i由第i个第一训练样本中的数据训练生成，第i个第一训练样本中未包括数据J，i为大于或等于1，且小于或等于K的正整数；

在确定数据J的预测标签与标注标签不一致时，将数据J进行重复标注。

需要说明的是，前述对数据标注方法实施例的解释说明也适用于该实施例的终端，此处不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的数据标注方法。

具体的，数据标注方法包括：

需要说明的是，前述对数据标注方法实施例的解释说明也适用于该实施例的计算机可读存储介质，此处不再赘述。

在示例性实施例中，还提供了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如上述实施例所述的数据标注方法。

具体的，数据标注方法包括：

需要说明的是，前述对数据标注方法实施例的解释说明也适用于该实施例的计算机程序产品，此处不再赘述。

本发明实施例提供的计算机程序产品，可写入需要进行数据标注的设备中，在进行数据标注时，通过执行对应数据标注方法的程序，降低了对已标注的数据进行重复标注时的成本，减小了重复标注耗费的时间，提高了数据标注的质量，对模型效果的提升起到了很好的推动作用。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据标注方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将所述数据J进行重复标注之前，还包括：

重复执行L次将所述N个数据分为K份的操作；

确定所述数据J的L个预测标签与标注标签不一致的次数大于第一阈值；

3.如权利要求1或2所述的方法，其特征在于，所述数据集D_all包括第一子集D₁及第二子集D₂；

所述方法，还包括：

分别将所述第一子集D₁及第二子集D₂分为K份，以生成2K个训练子样本；

分别对每个训练子样本中的数据进行训练，生成2K个子分类模型；

利用子分类模型M_DZj及第一分类模型M_i，对数据M进行预测标注，确定所述数据M的预测标签，其中，所述子分类模型M_DZj由第j个训练子样本中的数据训练生成，第j个训练子样本中包括K-1份第一子集中的数据，或者，K-1份第二子集中的数据，Z＝1或2，当Z＝1时，数据M为第一子集中的数据，当Z＝2时，数据M为第二子集中的数据；

在确定所述数据M的预测标签与标注标签不一致时，将所述数据M进行重复标注。

4.如权利要求3所述的方法，其特征在于，所述将所述数据M进行重复标注之前，还包括：

确定所述数据M，分别利用各分类模型得到的预测标签与标注标签不一致的总次数大于第二阈值。

5.如权利要求1所述的方法，其特征在于，还包括：

根据筛选规则，从备选数据中获取测试数据D_auto；

利用数据集D_all对所述测试数据进行标注，确定各测试数据的模糊标签；

将所述数据集D_all与所述测试数据D_auto中的数据融合后的数据D，分为K份，以生成K个第二训练样本；

分别对每个第二训练样本中的数据进行训练，生成K个第二分类模型；

利用第二分类模型M_Ds，对数据Z进行预测标注，确定所述数据Z的预测标签，其中，数据Z为测试数据D_auto中的数据；

在确定所述数据Z的预测标签与模糊标签不一致时，将所述数据Z进行重复标注。

6.如权利要求5所述的方法，其特征在于，所述利用数据集D_all对所述测试数据进行标注，包括：

利用数据集D_all中除所述数据J外的其它数据对所述测试数据进行标注。

7.如权利要求5所述的方法，其特征在于，所述确定各测试数据的模糊标签之后，还包括：

根据所述各测试数据的模糊标签与所述筛选规则的匹配度，将所述测试数据进行清洗。

8.如权利要求5-7任一所述的方法，其特征在于，所述根据筛选规则，从备选数据中获取测试数据D_auto之前，还包括：

根据当前的数据标注任务，确定所述筛选规则。

9.如权利要求2任一所述的方法，其特征在于，所述将所述数据J进行重复标注之后，还包括：

在确定所述数据J的第一预测标签的重复次数大于第三阈值时，根据所述第一预测标签更新所述数据J的标注标签；

若标注标签更新后的数据集中，所述数据J的预测标签与更新后的标注标签一致，则确定所述数据J重复标注完成。

10.如权利要求9所述的方法，其特征在于，所述根据所述第一预测标签更新所述数据J的标注标签之后，还包括：

若标注标签更新后的数据集中，所述数据J的预测标签与更新后的标注标签不一致，则将所述数据J进行重复标注。

11.一种终端，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述程序时实现如权利要求1-10任一所述的数据标注方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10任一所述的数据标注方法。