CN111340054A

CN111340054A - 数据标注方法、装置及数据处理设备

Info

Publication number: CN111340054A
Application number: CN201811549912.9A
Authority: CN
Inventors: 冯浩; 徐江; 王鹏
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-06-26

Abstract

本申请提供一种数据标注方法、装置及数据处理设备，该方法包括：对分类模型执行至少一次迭代处理，以使该分类模型的准确度符合预设条件；再利用得到的分类模型对多条待标注数据中的至少一部分进行处理，得到自动标注结果。其中，每次迭代处理包括：将多条待标注数据中除目标数据集外的其他待标注数据分别输入分类模型，获得分类结果；从该其他待标注数据中选择分类结果的置信度处于预设范围的至少部分待标注数据添加到目标数据集中；根据目标数据集中的待标注数据的人工标注结果训练分类模块。如此，可以在提高数据标注质量的情况下，实现批量数据的自动标注。

Description

数据标注方法、装置及数据处理设备

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种数据标注方法、装置及数据处理设备。

背景技术

随着计算机技术的发展，机器学习算法的应用越来越广泛，监督学习算法是其中常用的一种算法。监督学习算法通常需要采用大批量的标注数据来对预先建立的识别模型进行训练，标注数据的数量和准确性直接影响着训练得到的识别模型的准确性。

目前，标注数据主要通过人工添加标签的方式获得，效率低下，且容易出错，导致最终训练得到的模型的准确度较低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种数据标注方法、装置及数据处理设备，能够在提高标注准确度的情况下，实现对批量数据的自动标注。

根据本申请的一个方面，提供一种数据标注方法，所述方法包括：

对预设的分类模型进行至少一次迭代处理，以使所述分类模型的准确度符合预设条件，得到训练完成的分类模型；

采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理，得到自动标注结果；

其中，每次所述迭代处理包括：

将所述多条待标注数据中除一目标数据集之外的其他待标注数据分别输入所述分类模型，获得所述其他待标注数据各自的分类结果；根据分类结果的置信度，从所述其他待标注数据中选择置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中；根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型。

在一种可能的实施方式中，所述分类结果包括一个类别标签及该类别标签的置信度；

根据分类结果的置信度从所述其他待标注数据中选取置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中，包括：

从所述其他待标注数据中选取置信度低于预设阈值的待标注数据，并将选取的待标注数据中的至少部分添加到所述目标数据集中。

在一种可能的实施方式中，将选取的待标注数据中的至少部分添加到所述目标数据集中，包括：

按照分类结果的置信度的大小对所述选取的待标注数据进行排序；

根据所述排序结果，从所述选取的待标注数据中按照置信度从小到大的顺序依次选择预设数量条待标注数据，添加到所述目标数据集中。

在一种可能的实施方式中，所述分类结果包括多个类别标签及各类别标签的置信度，所述多个类别标签的置信度之和为1；

从所述其他待标注数据中选取具有预设分类结果的待标注数据，并将选取的待标注数据中的至少部分添加到所述目标数据集中；其中，所述预设分类结果是指其中至少一个类别标签的置信度处于40％-60％的分类结果。

从选取的待标注数据中随机选取预设数量条待标注数据，添加到所述目标数据集中。

在一种可能的实施方式中，每次所述迭代处理，还包括：

在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之前，获取所述至少部分待标注数据的人工标注结果。

在一种可能的实施方式中，获取所述至少部分待标注数据的人工标注结果，包括：

针对所述至少部分待标注数据中的每一待标注数据，获取不同用户输入的该待标注数据的多个标签；

从所述多个标签中选择出现次数最多的标签，将该标签添加到该待标注数据上，得到该待标注数据的人工标注结果。

在一种可能的实施方式中，所述方法还包括：

将所述至少部分待标注数据的人工标注结果保存到支持可视化工具的搜索引擎中；

将所述自动标注结果保存到所述搜索引擎中。

在一种可能的实施方式中，在对预先建立的分类模型进行第一次所述迭代处理之前，所述方法还包括：

将一空集确定为所述目标数据集；或者，

从所述多条待标注数据中选取一部分作为目标数据集，并根据所述目标数据集中的待标注数据的人工标注结果对预先建立的分类模型进行训练，得到所述预设的分类模型。

在一种可能的实施方式中，每次所述迭代处理，还包括：

在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之后，通过预设的测试集对所述分类模型进行测试，得到一测试准确度；

若所述测试准确度符合所述预设条件，则将所述分类模型作为所述训练完成的分类模型。

在一种可能的实施方式中，采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理，包括：

采用所述训练完成的分类模型对每条所述待标注数据进行处理；或者，

采用所述训练完成的分类模型对所述多条待标注数据中除所述目标数据集之外的其他待标注数据进行处理。

根据本申请的另一个方面，提供一种数据标注装置，所述装置包括：

训练模块，用于对预设的分类模型进行至少一次迭代处理，以使所述分类模型的准确度符合预设条件，得到训练完成的分类模型；

自动标注模块，用于采用所述训练完成的分类模型对所述待标注数据的至少一部分进行处理，得到自动标注结果；

其中，每次所述迭代处理包括：

将多条待标注数据中除一目标数据集之外的其他待标注数据分别输入所述分类模型，获得所述其他待标注数据各自的分类结果；根据分类结果的置信度，从所述其他待标注数据中选择置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中；根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型。

所述训练模块根据分类结果的置信度，从所述其他待标注数据中选取置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中的方式为：

在一种可能的实施方式中，所述训练模块通过以下方式将选取的待标注数据中的至少部分添加到所述目标数据集中：

所述训练模块根据分类结果的置信度从所述其他待标注数据中选取置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中的方式为：

在一种可能的实施方式中，所述训练模块还用于在进行每次迭代处理时，在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之前，获取所述至少部分待标注数据的人工标注结果。

在一种可能的实施方式中，所述训练模块通过以下方式获取所述至少部分待标注数据的人工标注结果：

在一种可能的实施方式中，所述装置还包括：

数据存储模块，用于将所述至少部分待标注数据的人工标注结果保存到支持可视化工具的搜索引擎中；以及，将所述自动标注结果保存到所述搜索引擎中。

在一种可能的实施方式中，所述装置还包括：

预训练模块，用于在运行所述训练模块之前，将一空集确定为所述目标数据集；或者，从所述多条待标注数据中选取一部分作为目标数据集，并根据所述目标数据集中的待标注数据的人工标注结果对预先建立的分类模型进行训练，得到所述预设的分类模型。

在一种可能的实施方式中，所述训练模块还用于在进行每次所述迭代处理时，在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之后，通过预设的测试集对所述分类模型进行测试，得到一测试准确度；若所述测试准确度符合所述预设条件，则将所述分类模型作为所述训练完成的分类模型。

在一种可能的实施方式中，所述自动标注模块具体用于采用所述训练完成的分类模型对每条所述待标注数据进行处理；或者，采用所述训练完成的分类模型对所述多条待标注数据中除所述目标数据集之外的其他待标注数据进行处理。

根据本申请的另一个方面，提供一种数据处理设备，包括：处理器、存储介质和总线，所述存储介质存储有所述数据处理设备可执行的机器可读指令，当所述数据处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行上述数据标注方法的步骤。

根据本申请的另一个方面，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述数据标注方法的步骤。

基于上述任一方面，本申请实施例提供的数据标注方法、装置及数据处理设备，通过对分类模型至少一次以下步骤，以使分类模型的准确度符合预设条件：将多条待标注数据中除目标数据集外的其他待标注数据分别输入分类模型，获得分类结果；从该其他待标注数据中选择分类结果的置信度处于预设范围的至少部分待标注数据添加到目标数据集中；根据目标数据集中的待标注数据的人工标注结果训练分类模块。再通过分类模型处理多条待标注数据的至少一部分，得到自动标注结果。通过上述设计，可以在提高数据标注质量的情况下，实现批量数据的自动标注。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据处理设备的一种应用场景示意图；

图2为本申请实施例提供的一种数据处理设备的硬件结构示意图；

图3为本申请实施例提供的一种数据标注方法的流程示意图；

图4为本申请实施例提供的一次迭代处理的一种流程示意图；

图5为本申请实施例提供的一种预训练步骤示意图；

图6为本申请实施例提供的主动学习和随机标注的一种效果示意图；

图7为本申请实施例提供的获取人工标注结果的一种流程示意图；

图8为本申请实施例提供的主动学习和随机标注的准确度对比表格；

图9为本申请实施例提供的一种数据标注装置的框图。

图标：100-数据处理设备；110-数据标注装置；111-训练模块；112-自动标注模块；113-数据存储模块；114-预训练模块；120-存储介质；130-处理器；140-***总线；150-网络端口；160-I/O接口；200-数据提供设备；300-数据存储设备；310-数据库；400-网络。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定申请的保护范围。另外，应当立即，示意性的附图并未按照实物比例绘制。本申请中使用的流程图示出了本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“智能客服***”，对本申请提供的方案进行阐述。应当理解，此处描述的智能客服***可以是任意平台的客服***，例如可以是网约车平台、快递平台、在线运输平台、用于买卖双方交易的服务平台等的客服***。本实施例不以此为限制。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请实施例主要围绕“智能客服***”进行描述，但是应该理解，这仅是一个示例性实施例。本申请可以应用于任何其他需要使用监督学习算法的场景。例如，人脸识别***、信息推荐***等。

在智能客服***中，用户提出的问题多种多样，例如打服务分、申诉、更改订单信息等。只有准确地识别出用户提出的问题的种类，才能够给出符合用户需求的答案。目前，通常采用监督学习算法来对识别模型进行训练，以实现用户问题的识别。这需要从智能客服***中获取用户提出的大量问题，对每一问题添加准确的类别标签(即：该问题所属的种类)，得到用于训练所述识别模型的训练数据。其中，要获得高精度的识别模型，需要大批量的训练数据。

在一些实施方式中，上述添加类别标签的操作通常由人工实现。当需要标注的数据量很大时，会耗费大量的人力物力，且难以保证标注结果的准确性。因此，本实施例提供一种基于主动学习的数据标注方法及装置，以下将对本实施例提供的方案进行详细描述。

请参照图1，在本实施例的一种应用场景中，提供一种数据处理设备100，该数据处理设备100可以通过网络400与数据提供设备200及数据存储设备300通信，以从数据提供设备200获取待标注数据，并将待标注数据的标注结果存储到所述数据存储设备300中。所述数据提供设备200可以是任何提供智能客服服务的服务端设备，能够提供诸如用户提问信息等的待标注数据。

数据存储设备300可以是任何具有存储功能的电子设备。在一个示例中，数据存储设备300可以是运行有数据库310的服务器。在另一示例中，数据存储设备300上运行的数据库310可以替换成支持可视化工具的搜索引擎，该支持可视化工具的搜索引擎例如可以是ElasticSearch。ElasticSearch是一种轻量级的搜索引擎，通过定制化搜索规则能够快速搜索出所需数据，并对搜索到的数据进行可视化展示。基于此，用户可以通过配置ElasticSearch的搜索条件搜索特定的标记结果。例如，在一些应用场景中，进行数据标注时未能提供所有可能的类别标签，导致标注结果存在偏差，在后续过程中可能需要对已标注数据中的一部分重新进行标注。相关技术中，因为无法确定存在偏差的具体数据，通常是对所有已标注数据重新标注，成本耗费较大。通过上述数据存储设备300，可以将新增的标签、与新增的标签关联的标签或与新增的标签关联的关键字等作为搜索条件，以搜索出需要重新标注的已标注数据。

可选地，数据存储设备300可以是单个存储设备，也可以是存储集群(分布式的或集中式的)。数据存储设备300可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等存储介质，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random AccessMemory,RAM)；RAM可以包括动态RAM(Dynamic Random Access Memory,DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM,DDR SDRAM)；静态RAM(StaticRandom-Access Memory,SRAM)，晶闸管RAM(Thyristor-Based Random Access Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-OnlyMemory,MROM)、可编程ROM(Programmable Read-Only Memory,PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory,PEROM)、电可擦除可编程ROM(ElectricallyErasable Programmable read only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。

其中，当所述数据存储设备300为多个存储设备组成的存储集群时，上述的存储介质可以以分布式的方式部署在该多个存储设备上。

可选地，在本实施例中，数据处理设备100、数据提供设备200以及数据存储设备300可以是同一个设备，也可以是不同的设备，例如均为提供智能客服服务的服务端设备，本实施例不以此为限制。

网络400可以用于信息和/或数据的交换。网络400可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Network，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched Telephone Network，PSTN)、蓝牙网络、ZigBee网络、或近场通信(NearField Communication,NFC)网络等，或其任意组合。在一些示例中，网络400可以包括一个或多个网络接入点。例如，网络400可以包括有线或无线网络接入点，例如基站和/或网络交换节点。

图2示出根据本申请的一些实施例的可以实现本申请思想的数据处理设备100的示例性硬件和软件组件的示意图。例如，处理器130可以用于数据处理设备100上，并用于执行本申请实施例中的功能。

可选地，数据处理设备100可以是单个电子设备，例如，服务器、个人电脑或者其他专门的设备，该数据处理设备100也可以是多个电子设备组成的集群，例如多个服务器构成的服务器集群，集群中的电子设备可以以分布式的方式实现本实施例描述的功能。

例如，数据处理设备100可以包括用于执行计算机程序的一个或多个处理器130、***总线140、连接到网络的网络端口150以及不同形式的存储介质120，比如，磁盘、ROM、RAM或其任意组合。示例性地，数据处理设备100还可以包括存储在ROM、RAM或其他类型的非暂时性存储介质、或其任意组合中的计算机程序。根据这些计算机程序可以实现本申请实施例提供的方法。数据处理设备100还可以包括与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口160。

在一些示例中，处理器130可以包括一个或多个处理核(例如单核处理器或多核处理器)。仅作为距离，处理器130可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(Application Specific Integral Circuit，ASIC)、专用指令集处理器(Application Specific Instruction-set Processor，ASIP)、图形处理单元(GraphicsProcessing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable GateArray，FPGA)、可编程逻辑装置(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computer，RISC)、或微处理器等，或其任意组合。

为了便于说明，在数据处理设备100中仅描述了一个处理器，然而，应当注意，本申请的数据处理设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若数据处理设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行，或者在一个处理器单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

应当理解，图2所示的结构仅为示例，数据处理设备100还可以包括比图1所示更多

请参照图3，图3是本实施例提供的一种数据标注方法，该方法可以应用于数据处理设备100。下面对该方法包括的各个步骤进行详细阐述。

步骤S110，对预设的分类模型进行至少一次迭代处理，以使所述分类模型的准确度符合预设条件，得到训练完成的分类模型。

在本实施例中，所述多条待标注数据可以是当前需要标注的所有数据。待标注数据可以是从智能客服***中获取的用户提问信息，其中，一条待标注数据可以是一个用户提问信息中的至少一个语句单元，例如，可以是一个完整的用户提问信息，也可以是一个用户提问信息中的一个语句。当然，待标注数据也可以是从其他***中获得的待识别数据。例如前述的人脸识别***中的人脸图像等。

所述分类模型可以是任意机器学习分类模型，例如随机森林(Random Forest)模型、FastText(快速文本)模型、支持向量机(Support Vector Machine)等。在一种可能的实现方式中，考虑到用户提问信息通常为文本信息，即待标注数据通常为文本信息，因此所述分类模型可以采用文本分类模型，例如FastText模型。在其他可能的实现方式中，所述分类模型也可以是非文本分类模型，例如图像分类模型，在此情况下，可以将待标注数据转换成能够被所述图像分类模型识别的图像信息。

在本实施例中，每次所述迭代处理包括如图4所示的各个步骤。

步骤S41，将多条待标注数据中除一目标数据集之外的其他待标注数据分别输入所述分类模型，获得所述其他待标注数据各自的分类结果。

其中，所述其他待标注数据是指所述多条待标注数据中除所述目标数据集中的待标注数据之外的待标注数据。

在一种可能的实现方式中，进行首次所述迭代处理之前，所述分类模型可以是未经训练的模型，对应地，所述目标数据集可以为空集。在此情况下，在首次所述迭代处理中，所述其他待标注数据即为所述多条待标注数据。

在又一种可能的实现方式中，进行首次所述迭代处理之前，可以对所述分类模型进行了初步训练。在此情况下，在首次执行步骤S41之前，所述方法还可以包括如图5所示的步骤。

步骤S51，从所述多条待标注数据中选取一部分作为所述目标数据集。

在一种可选的方式中，可以从所述多条待标注数据中选择2％-5％d待标注数据作为所述目标数据集。在其他可选的方式中，也可以选取更多或更少比例的待标注数据作为所述目标数据集。

步骤S52，根据所述目标数据集中的待标注数据的人工标注结果对预先建立的分类模型进行训练，得到所述预设的分类模型。

步骤S42，根据分类结果的置信度，从所述其他待标注数据中选择置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中。

在本实施例中，所述分类结果包括至少一个类别标签及各类别标签的置信度，任一类别标签的置信度表示输入的待标注数据属于该类别标签所指示的类别的概率。例如，某一待标注数据x被输入分类模型后，输出的类别标签a的置信度为50％，则表示：该待标注数据x属于类别标签a所指示的类别的概率为50％。对应地，还表示分类模型难以区分待标注数据x的类别。

可选地，所述预设范围可以是表示所述分类模型难以区分待标注数据的范围，例如当任一待标注数据的分类结果中存在置信度处于40％-60％的类别标签时，可以认为分类模型难以区分该待标注数据。又如，在精度要求较高的应用场景中，当任一待标注数据的分类结果中存在置信度处于30％-70％的类别标签时，可以认为分类模型难以区分该待标注数据。

在本实施例中，当所述分类模型为二分类模型时，每一分类结果通常包括一个类别标签及该类别标签的置信度。在此情况下，步骤S42可以包括以下步骤：

从所述其他待标注数据中选择置信度低于预设阈值的待标注数据；

将选取的待标注数据中的至少部分添加到所述目标数据集中。

其中，所述预设阈值可以根据应用场景对分类精度的要求来设置，例如可以为55-70％中的任意值，比如60％。

通过上述过程，可以将分类模型难以区分的待标注数据筛选出来，由人工进行标注，再根据人工标注结果对分类模型进行训练。这种方式称为主动学习，通过主动学习，可以提升分类模型的准确度。

例如图6(a-c)所示的主动学习的效果示意图，其中，图6(a)示出了一种示例中的多条待标注数据，该多条待标注数据包括两种类别的数据，该两种类别的数据分别用圆形和三角形表示。

在每次迭代处理中，若采用随机标注的方式，对图6(a)示出的部分待标注数据进行人工标注，根据得到的人工标注结果对分类模型进行训练，再采用训练得到的分类模型对图6(a)中的各待标注数据进行分类，可以得到如图6(b)所示的分类平面S1。其中，具有阴影部分的圆形和三角形表示人工标注结果。

在每次迭代处理中，若采用主动学***面S2。其中，具有阴影部分的圆形和三角形表示人工标注结果。结合图6(b)和图6(c)，可以看出采用主动学习的方式获得的分类模型具有更高的分类精度。

为了减少人工标注的工作量，可以从置信度低于预设阈值的待标注数据中选择一部分来人工标注。对应地，所述将选取的待标注数据中的至少部分添加到所述目标数据集中，可以通过以下步骤实现：

在本实施例中，所述预设数量可以根据需要标注的待标注数据的总量确定，即：可以根据所述多条待标注数据的总量确定。例如，可以为所述多条待标注数据的2％-5％，当然也可以为更多或更少比例的数量。所述

在一个示例中，如果所述选取的待标注数据有5条，其分类结果的置信度分别为50％、52％、59％、60％以及54％，假设所述预设数量为3，则可以选择置信度为50％、52％及54％的三个分类结果对应的三条待标注数据添加到所述目标数据集中。

在又一个示例中，如果所选取的待标注数据有6条，其分类结果的置信度分别为50％、50％、52％、58％、59％以及60％，假设所述预设数量为3，则可以选择置信度为50％的两个分类结果对应的两条待标注数据以及置信度为52的分类结果对应的待标注数据添加到所述目标数据集中。

在本实施例中，当所述分类模型为多分类模型时，每一分类结果通常包括多个类别标签及各类别标签的置信度。其中，所述多个类别标签的置信度之和为1。应当理解，在一些情况下，当多分类模型划分的类别数量无法被1被除尽时，例如所述多分类模型用于划分三个类别，所述多个类别标签的置信度之和与1之间存在的偏差在特定范围(如，0-0.2)内，仍旧可以视作所述多个类别标签的置信度之和为1。

在上述情况下，步骤S42可以包括以下步骤：

从所述其他待标注数据中选取具有预设分类结果的待标注数据，并将选取的待标注数据中的至少部分添加到所述目标数据集中。

其中，所述预设分类结果是指其中至少一个分类标签的置信度处于40％-60％的分类结果。应当理解，40％-60％也可以替换为其他范围，例如30％-70％。

可选地，在本实施例中，为了避免人工标注的数量过大，将选取的待标注数据中的至少部分添加到所述目标数据集中，可以通过以下步骤实现：

其中，所述预设数量可以为所述多条待标注数据2％-5％，当然也可以为更多或更少比例的数量。

步骤S43，根据所述目标数据集中的待标注数据的人工标记结果训练所述分类模型。

其中，在每次所述迭代处理中，在将所述至少部分待标注数据添加到所述目标数据集之后，还可以获取所述至少部分待标注数据的人工标注结果。在实际应用中，由于不同的人对同一待标注数据或同一类别标签的理解存在差异，导致待标注数据的人工标注结果可能与待标注数据实际所属的类别存在偏差。本实施例采用多个用户对同一待标注数据进行标注，再基于投票法(voting)来确定该待标注数据的人工标注结果，以至少部分地改善上述问题。

对应地，获取所述至少部分待标注数据的人工标注结果，可以通过如图7所示的步骤实现。

步骤S71，针对所述至少部分待标注数据中的每一待标注数据，获取不同用户输入的该待标注数据的多个类别标签。

步骤S72，从所述多个标签中选择出现次数最多的类别标签，将该类别标签添加到该待标注数据上，得到该待标注数据的人工标注结果。

在实施时，针对每一待标注数据，可以由多个用户来分别为该待标注数据添加类别标签，如此，该待标注数据具有多个类别标签。如上所述，由于人与人之间的理解偏差，该多个类别标签可能不同。因而，可以将该多个类别标签中出现次数(或者，出现频率)最高的类别标签添加到该待标注数据上。其中，该待标注数据的人工标注结果包括该待标注数据及添加到该待标注数据上的类别标签。

在一个示例中，如果有5个用户分别为某一待标注数据x添加了类别标签a、类别标签b、类别标签a，则可以将出现次数最多(2次)的类别标签a添加到该待标注数据x上。

可选地，所述多个用户的数量可以为3-5个，当然还可以更多，本实施例不以此为限制。

应当理解，针对上述步骤S52中提及的人工标注结果，也可以采用图6所示的步骤获得。

通过采用多个用户对同一待标注数据进行标注，再基于投票法确定该待标注数据的人工标注结果，能够在后续训练中显著提高分类模型的分类精度和泛化能力。相对于随机标注的方式，上述方式可以通过更少的训练数据(即：人工标注结果)获得同等分类精度的分类模型。

可选地，在对所述分类模型进行每一次训练后，即每次执行步骤S43之后，可以判断所述分类模型的准确度是否符合预设条件，若符合预设条件，则直接将当前的分类模型作为训练完成的分类模型。若不符合预设条件，则继续进行下一次所述迭代处理，即返回执行步骤S41。

可选地，在本实施例中，可以通过如下步骤判断所述分类模型的准确度是否符合预设条件：

通过预设的测试集对所述分类模型进行测试，得到一测试准确度；

若所述测试准确度符合所述预设条件，则将所述分类模型作为训练完成的分类模型。

在本实施例中，所述测试集中包括一定数量的待标注数据的人工标注结果。可选地，所述测试集中的待标注数据可以是从所述多条待标注数据中选取的，也可以是从智能客服***(或别的***)中获取的不同于所述多条待标注数据的待标注数据。

可选地，所述测试集中的待标注数据的人工标注结果可以通过如图6所示的步骤来获得。

所述测试准确度可以是指：所述分类模型输出的分类结果和测试集中的人工标注结果一致的待标注数据的量，在所述测试集包括的待标注数据的量中所占的比重。所述预设条件可以是指测试准确度达到预设值，该预设值可以根据所需的分类精度进行设置，例如可以是80％-100％之间的任意值，例如90％。

应当理解，在本实施例中，在执行步骤S52之后，在对分类模型进行首次所述迭代处理之前，也可以按照上述方式判断所述分类模型的准确度是否符合预设条件。在实际应用中，为了满足用户需要，预设条件中的预设值通常设置较高，因此，通常需要进行至少一次所述迭代处理。

步骤S120，采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理，得到自动标注结果。

可选地，在一种可选的实现方式中，可以采用所述训练完成的分类模型对所述多条待标注数据中的每一待标注数据重新进行标注，以得到自动标注结果。

在又一种可选的实现方式中，考虑到所述目标数据集中的待标注数据均已通过人工方式得到了人工标注结果，因此，可以采用所述训练完成的分类模型对除所述目标数据集之外的其他待标注数据进行处理，以得到自动标注结果。进一步地，在测试集中的数据是从所述多条待标注数据中选取得到的情况下，可以采用所述训练完成的分类模型对除所述目标数据集以及所述测试集之外的待标注数据进行处理，以得到自动标注结果。

通过上述方式，可以通过自动标注的方式对所述多条待标注数据的大部分数据进行标注，且相较于人工标注的方式提升了准确度，使得基于本申请的标注结果进行监督学习训练的机器模型的准确度能够有所提升。

下面通过一个具体例子来对上述方法做进一步的阐述。

以网约车平台的智能客服***为例，若需要准确识别用户提问信息所属的场景，然后再基于该场景的设置对用户提问信息进行回复，则需要针对每个场景的用户提问信息进行标注，再利用各个场景的标注数据对相应场景识别模型进行训练。下面以申诉进度查询场景为例进行描述，在申诉进度查询场景中，通常需将用户提问信息标注为两个类别，一类是跟申诉进度无关的语句，另一类是用户表达申诉进度意图的语句。

在实施时，首先可以从智能客服***中获取用户数据，从用户数据删除智能客服***的回复数据，只保留用户提问信息。假设最终获得10000条用户提问信息，则其中每条用户提问信息可以视作本实施例中的一条待标注数据，该10000条待标注数据即为本实施例中的所述多条待标注数据。

本实施例提供的数据标注方法可以包括以下步骤，以实现对该10000条待标注数据的标注。

第一，从10000条用户提问信息中选择500条用户提问信息，针对其中每一用户提问信息，获取至少3个人为该用户提问信息设置的类别标签，并从中选择出现次数最多的一个类别标签作为该用户提问信息的人工标注结果，从而获得500条人工标注结果。

第二，将获得的500条人工标注结果作为测试集，以用于测试分类模型的准确度。

其中，所述测试集可以存储到ElasticSearch中。通过上述步骤，还剩下9500条未标注的用户提问信息。

第三，从剩下的9500条用户提问信息中选择200条用户提问信息添加到目标数据集中。针对该200条用户提问信息中的每一用户提问信息，获取至少3个人为该用户提问信息设置的类别标签，并从中选择出现次数最多的一个类别标签作为用户提问信息的人工标注结果，从而得到200个人工标注结果。

其中，所述目标数据集可以存储在上述的ElasticSearch中。

第四，采用目标数据集中的200条人工标注结果对预先建立的分类模型(假设是FastText模型)进行训练。

第五、对于当前的FastText模型(即，通过步骤四训练得到的FastText模型)，将所述测试集中的500条用户提问信息分别输入该FastText模型，获得500条用户提问信息的分类结果，从该500条用户提问信息中确定分类结果与人工标注结果一致的用户提问信息，计算所确定的用户提问信息在该500条用户提问信息中的比例。若该比例小于预设值(比如，90％)，则执行下一步骤。经实测，步骤五中计算得到的比例为55％，55％即为当前的FastText模型的准确度。

第六，采用训练得到的分类模型对剩下的9300条用户提问信息进行预测，得到每条用户提问信息的类别标签及该用户提问信息属于该类别标签所指示的类别的概率(即：置信度)。

第七，从9300条用户提问信息中确定类别标签的所述概率低于0.6的用户提问信息；将所确定的用户提问信息按照类别标签的所述概率的大小进行排序，并根据排序结果，按照类别标签的所述概率从小到大的顺序选择200条用户提问信息添加到所述目标数据集中。

第八，针对步骤七的200条用户提问信息，按照步骤三中描述的方式获得200个人工标注结果。

第九、采用目标数据集中的400条用户提问信息的人工标注结果FastText模型进行训练。

第十、按照步骤五中的方式，采用测试集对当前的FastText模型(即：通过步骤九训练得到的FastText模型)进行测试。若测试得到的准确度低于90％，则可以重复执行步骤六至步骤十，若测试得到的准确度达到90％，则可以将当前的FastText模型确定为训练完成的FastText模型。

请参照图8，图8是上述流程和基于随机标注的方式获得的准确度对比表格。其中，当目标数据集中的用户提问信息达到2000条时，通过该2000条用户提问信息的人工标注结果对FastText模型进行训练，得到的FastText模型的准确度可以达到91％，符合预设条件。而通过随机标注的方式进行训练，需要采用9500条人工标记结果进行训练，才能达到91％的准确度。由此可见，通过本申请实施例提供的数据标注方法，可以在提高准确度的情况下，降低80％的人工标注，减少业务的开发周期。

应当理解，上述示例虽然是针对“申诉进度查询场景”给出的，但以上描述的原理和流程在其他场景诸如服务分数和首次申诉场景等中均适用。

请参照图9，图9示出了本申请实施例提供的一种数据标注装置110的框图，该数据标注装置110实现的功能对应上述数据标注方法的步骤。该数据标注装置110可以理解为数据处理设备100，或数据处理设备100的处理器130，也可以理解为独立于数据处理设备100之外的、在数据处理设备100的控制下实现本申请实施例的功能的组件。如图9所示，数据标注装置110可以包括训练模块111和自动标注模块112。

其中，训练模块111用于对预设的分类模型进行至少一次迭代处理，以使所述分类模型的准确度符合预设条件，得到训练完成的分类模型。

其中，每次所述迭代处理包括：

自动标注模块112用于采用所述训练完成的分类模型对所述待标注数据的至少一部分进行处理，得到自动标注结果。

可选地，在本实施例中，所述分类结果可以包括一个类别标签及该类别标签的置信度。在此情况下，所述训练模块111可以通过以下方式根据分类结果的置信度，从所述其他待标注数据中选取置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中：

进一步地，所述训练模块111通过以下方式将选取的待标注数据中的至少部分添加到所述目标数据集中：

可选地，所述分类结果可以包括多个类别标签及各类别标签的置信度，所述多个类别标签的置信度之和为1。在此情况下，所述训练模块111可以通过以下方式根据分类结果的置信度从其他待标注数据中选取置信度处于预设范围的至少部分待标注数据添加到所述目标数据集中：

其中，所述预设分类结果是指其中至少一个类别标签的置信度处于40％-60％的分类结果。

进一步地，所述训练模块111可以通过以下方式将选取的待标注数据中的至少部分添加到所述目标数据集中：

可选地，所述训练模块111还可以用于在进行每次所述迭代处理时，在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之前，获取所述至少部分待标注数据的人工标注结果。

可选地，在本实施例中，所述训练模块111可以通过以下方式获取所述至少部分待标注数据的人工标注结果：

针对所述至少部分待标注数据中的每一待标注数据，获取不同用户输入的该待标注数据的多个类别标签；

从所述多个标签中选择出现次数最多的类别标签，将该类别标签添加到该待标注数据上，得到该待标注数据的人工标注结果。

可选地，在本实施例中，数据标注装置110还可以包括数据存储模块113。

数据存储模块113用于将所述至少部分待标注数据的人工标注结果保存到支持可视化工具的搜索引擎中；以及，将所述自动标注结果保存到所述搜索引擎中。

可选地，在本实施例中，数据标注装置110还可以包括预训练模块114。

预训练模块114用于在运行所述训练模块111之前，将一空集确定为所述目标数据集；或者，从所述多条待标注数据中选取一部分作为目标数据集，并根据所述目标数据集中的待标注数据的人工标注结果对预先建立的分类模型进行训练，得到所述预设的分类模型。

可选地，在本实施例中，所述训练模块111还可以用于在进行每次所述迭代处理时，在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之后，通过预设的测试集对所述分类模型进行测试，得到一测试准确度；若所述测试准确度符合所述预设条件，则将所述分类模型作为所述训练完成的分类模型。

可选地，所述自动标注模块112具体可以用于采用所述训练完成的分类模型对每条所述待标注数据进行处理；或者，采用所述训练完成的分类模型对所述多条待标注数据中除所述目标数据集之外的其他待标注数据进行处理。

上述的各个模块可以经由有线连接或无线连接彼此连接或通信。其中，有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任意一个模块可以分成两个或更多个单元。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器运行时执行上述的数据标注方法的步骤。

综上所述，本申请实施例提供的数据标注方法、装置及数据处理设备，通过对分类模型至少一次以下步骤，以使分类模型的准确度符合预设条件：将多条待标注数据中除目标数据集外的其他待标注数据分别输入分类模型，获得分类结果；从该其他待标注数据中选择分类结果的置信度处于预设范围的至少部分待标注数据添加到目标数据集中；根据目标数据集中的待标注数据的人工标注结果训练分类模块。再通过分类模型处理多条待标注数据的至少一部分，得到自动标注结果。通过上述设计，可以在提高数据标注质量的情况下，实现批量数据的自动标注。

所属领域的技术人员可以清楚地了解到，为描述的方便和间接，以上描述的装置的具体工作工程，可以参考方法实施例中的对应过程，在此不再赘述。在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，又例如，多个模块或组件可以结合成或者可以集成到另一***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，本申请实施例中的各个功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据标注方法，其特征在于，所述方法包括：

其中，每次所述迭代处理包括：

2.根据权利要求1所述的方法，其特征在于，所述分类结果包括一个类别标签及该类别标签的置信度；

3.根据权利要求2所述的方法，其特征在于，将选取的待标注数据中的至少部分添加到所述目标数据集中，包括：

4.根据权利要求1所述的方法，其特征在于，所述分类结果包括多个类别标签及各类别标签的置信度，所述多个类别标签的置信度之和为1；

5.根据权利要求4所述的方法，其特征在于，将选取的待标注数据中的至少部分添加到所述目标数据集中，包括：

6.根据权利要求1-5中任意一项所述的方法，其特征在于，每次所述迭代处理，还包括：

7.根据权利要求6所述的方法，其特征在于，获取所述至少部分待标注数据的人工标注结果，包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述自动标注结果保存到所述搜索引擎中。

9.根据权利要求1-5中任意一项所述的方法，其特征在于，在对预先建立的分类模型进行第一次所述迭代处理之前，所述方法还包括：

将一空集确定为所述目标数据集；或者，

10.根据权利要求1-5中任意一项所述的方法，其特征在于，每次所述迭代处理，还包括：

11.根据权利要求1-5中任意一项所述的方法，其特征在于，采用所述训练完成的分类模型对多条待标注数据的至少一部分进行处理，包括：

12.一种数据标注装置，其特征在于，所述装置包括：

其中，每次所述迭代处理包括：

13.根据权利要求12所述的装置，其特征在于，所述分类结果包括一个类别标签及该类别标签的置信度；

14.根据权利要求13所述的装置，其特征在于，所述训练模块通过以下方式将选取的待标注数据中的至少部分添加到所述目标数据集中：

15.根据权利要求12所述的装置，其特征在于，所述分类结果包括多个类别标签及各类别标签的置信度，所述多个类别标签的置信度之和为1；

16.根据权利要求15所述的装置，其特征在于，所述训练模块通过以下方式将选取的待标注数据中的至少部分添加到所述目标数据集中：

17.根据权利要求12-16中任意一项所述的装置，其特征在于，所述训练模块还用于在进行每次所述迭代处理时，在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之前，获取所述至少部分待标注数据的人工标注结果。

18.根据权利要求17所述的装置，其特征在于，所述训练模块通过以下方式获取所述至少部分待标注数据的人工标注结果：

19.根据权利要求17所述的装置，其特征在于，所述装置还包括：

20.根据权利要求12-16中任意一项所述的装置，其特征在于，所述装置还包括：

21.根据权利要求12-16中任意一项所述的装置，其特征在于，所述训练模块还用于在进行每次所述迭代处理时，在根据所述目标数据集中的待标注数据的人工标注结果训练所述分类模型之后，通过预设的测试集对所述分类模型进行测试，得到一测试准确度；若所述测试准确度符合所述预设条件，则将所述分类模型作为所述训练完成的分类模型。

22.根据权利要求12-16中任意一项所述的装置，其特征在于，所述自动标注模块具体用于采用所述训练完成的分类模型对每条所述待标注数据进行处理；或者，采用所述训练完成的分类模型对所述多条待标注数据中除所述目标数据集之外的其他待标注数据进行处理。

23.一种数据处理设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述数据处理设备可执行的机器可读指令，当所述数据处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行权利要求1-11中任意一项所述的数据标注方法的步骤。

24.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-11中任意一项所述的数据标注方法的步骤。