CN112699945A

CN112699945A - 数据标注方法及装置、存储介质及电子装置

Info

Publication number: CN112699945A
Application number: CN202011636965.1A
Authority: CN
Inventors: 李雷雷; 胡江明; 潘威滔; 王磊
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-23
Anticipated expiration: 2040-12-31
Also published as: CN112699945B

Abstract

本发明公开了一种数据标注方法及装置、存储介质及电子装置，其中，上述方法包括：确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。采用上述技术方案，解决了传统标注过程中，只采用人工标注时标注时间较长或者只采用机器标注时机器计算量较大等问题。

Description

数据标注方法及装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种数据标注方法及装置、存储介质及电子装置。

背景技术

随着机器学习技术特别是深度学习技术的快速发展，机器学习越来越得到各领域的重视与研究。而快速发展的算法、大量的数据、巨大的计算能力被视为深度学习成功并得到广泛应用的重要原因。机器学习根据是否有监督数据参与可以分为有监督学习、无监督学习、半监督学习，而目前在图像算法领域得到广泛发展的为有监督学习，如猫狗识别、人脸识别等任务，这些任务需要大量的数据来提高模型的泛化性与效果表现。同时随着数字化社会的来临，现在的数据量都非常巨大，但是在某些具体的领域带有标注的数据却很少，因此在特定的领域需要大量的数据进行标注。

但人工使用数据标注软件进行标注过程中，因为在标注类别多且目标多的物体时，往往需要寻找类别，浪费标注数据的时间，导致标注速度慢。并且单纯使用机器学习技术进行机器标注所需要的计算量十分庞大，在保证速度的情况下需要使用图像处理器(Graphics Processing Unit，简称为GPU)等硬件作为加速设备。

针对相关技术，传统标注过程中，只采用人工标注时标注时间较长或者只采用机器标注时机器计算量较大等问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据标注方法及装置、存储介质及电子装置，以至少解决相关技术中传统标注过程中，只采用人工标注时标注时间较长或者只采用机器标注时机器计算量较大等问题。

根据本发明实施例的一个方面，提供了一种数据标注方法，包括：确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。

在一个示例性实施例中，在所述目标设备上显示所述数据标签，包括：从历史数据标签获取第一数据标注标签；将所述第一数据标注标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示。

在一个示例性实施例中，将所述第一数据标注标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示，包括：获取所述第一数据标注标签对应的多个第一概率，以及所述标签预测模型得到的所述数据标签对应的多个第二概率；根据所述多个第一概率以及所述多个第二概率的大小关系在所述目标设备上排序显示所述第一数据标注标签与通过所述标签预测模型得到的所述数据标签。

在一个示例性实施例中，获取所述第一目标数据标签对应的多个第一概率，以及所述标签预测模型得到的所述数据标签对应的多个第二概率，包括：通过以下公式确定所述第一数据标注标签对应的多个第一概率：

其中，P为所述第一数据标注标签的概率，x为所述第一数据标注标签对应的频率，M为固定值，N为所述历史数据标签的数量；获取所述标签预测模型得到的所述数据标签对应的多个第二概率，包括：在所述标签预测模型输出所述数据标签的过程中，通过所述标签预测模型确定所述数据标签对应的多个第二概率。

在一个示例性实施例中，确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征之后，所述方法还包括：确定所述标签预测模型所对应的目标标签预测模型，其中，所述标签预测模型用于更新所述目标标签预测模型；确定所述标签预测模型对应的第一权重以及所述目标标签预测模型对应的第二权重；根据所述第一权重和所述第二权重确定在所述目标设备上的待显示数据标签。

在一个示例性实施例中，根据所述第一权重和所述第二权重确定待显示在所述目标设备上的数据标签，包括：将所述图像特征输入到目标标签预测模型，得到所述图像特征对应的第二数据标注标签，其中，所述目标标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的第二数据标注标签；根据所述第一权重，所述第二数据标注标签以及所述第二权重确定所述待显示数据标签。

根据本发明实施例的另一个方面，还提供了一种数据标注装置，包括：第一获取模块，用于确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；第二获取模块，用于将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；显示模块，用于在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。

在一个示例性实施例中，所述显示模块还用于，从历史数据标签获取第一目标数据标签；将所述第一目标数据标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述数据标注方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述数据标注方法。

通过本发明，从图像中确定待进行数据标注的图像区域，对图像区域进行特征提取，将提取到的图像特征输入到标签预测模型中进行预测，得到图像特征对应的预测数据标签，其中标签预测模型为使用多组数据通过机器学习训练出的，随后目标对象从目标设备上显示的数据标签中确定图像区域的数据标注结果。采用上述技术方案，解决了相关技术中传统标注过程中，只采用人工标注时标注时间较长或者只采用机器标注时机器计算量较大等问题，进而通过人机协同数据标注方法的引入，提高了数据标注的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示例性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的数据标注方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的数据标注方法的流程图(一)；

图3是根据本发明实施例的数据标注方法的流程图(二)；

图4是根据本发明实施例的数据标注装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种数据标注方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的数据标注方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

相关技术中，人工使用数据标注软件进行标注过程中，因为在标注类别多且目标多的物体时，往往需要寻找类别，浪费标注数据的时间，导致标注速度慢。并且单纯使用机器学习技术进行机器标注所需要的计算量十分庞大，在保证速度的情况下需要使用GPU等硬件作为加速设备。

为了解决上述技术方案，在本实施例中提供了一种数据标注方法，图2是根据本发明实施例的数据标注方法的流程图，该流程包括如下步骤：

步骤S202，确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；

步骤S204，将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；

步骤S206，在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。

通过上述步骤，从图像中确定待进行数据标注的图像区域，对图像区域进行特征提取，将提取到的图像特征输入到标签预测模型中进行预测，得到图像特征对应的预测数据标签，其中标签预测模型为使用多组数据通过机器学习训练出的，随后目标对象从目标设备上显示的数据标签中确定图像区域的数据标注结果。采用上述技术方案，解决了相关技术中传统标注过程中，只采用人工标注时标注时间较长或者只采用机器标注时机器计算量较大等问题，进而通过人机协同数据标注方法的引入，提高了数据标注的效率。

可以理解的是，在本实施例中，首先获取一张需要进行数据标注的图片，选择待进行数据标注的图像区域，通过特征提取算法对图像区域进行特征，将提取到的特征输入到标签预测模型中，标签预测模型会进行预测，将预测的结果输入到标签显示模块中，随后数据标签人员会在标签显示模块中选择标签进行标注。在实现上述技术方案的过程中，具体的可以划分为，图像选择模块、模型训练模块、标签预测模块、标签显示模块、标注结果存储模块、特征提取模块。通过图像选择模块选择图像区域，对该区域进行图像缩放，进行图像特征提取，将图像特征提取结果使用标签预测模块预测标签，并通过最终的标签显示模块进行结果显示，随后人工进行标签选择实现整个目标检测过程中图像的标注。

例如：现有一张图像要进行数据标注，标注人会在图像选择模块中以方形区域的形式选择图像待标注区域，随后特征提取模块会对选择的图像区域进行特征提取，具体为使用局部二值模式(Local Binary Pattern，简称为LBP)进行选中区域的特征提取并以特征向量的方式输入到标签预测模型。此外根据标注任务的复杂程度，可以使用其他的图像特征，如尺度不变特征变换、方向梯度直方图等。将提取到的特征向量输入到标签预测模型进行标签预测，得到多个预测标签，从多个预测标签中选择置信度较高的预测标签保存在标签显示模块中，随后人工进行标签选择实现整个目标检测过程中图像的标注。

需要说明的是，上述步骤S206中，在目标设备上显示所述数据标签，在一个可选实施中，包括：从历史数据标签获取第一目标数据标签；将所述第一目标数据标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示。

在本实施例中，标签显示模块上显示的数据标签不仅仅只是从标签预测模型中得到的预测标签，还有一部分数据标签，即第一目标数据标签，来自于历史数据标签，将第一目标数据标签与标签预测模型中得到的预测标签按照预定规则排序在标签显示模块中显示出来。标签显示模块主要用于模型预测结果的显示，从而便于标注人员进行标签的选取，具体工作则是将标签预测模块的输出的预测标签与最近标注的标签(第一目标数据标签)以分值的方式进行综合的排序，显示出最有可能的结果在界面上，考虑到由于标注数据的原因对预测模型速度有很高要求(低于40ms，以25fps计算)，模型的准确率较低，因此使用标签预测模型的最可能的前五个标签作为最终的显示预测结果，对于最近标注标签设置权重，随着标注的次数进行非线性的增加，同时降低其他标签的可能性，最近的标签同样选择最可能出现的前五个数据标签，随后标签显示模块按置信度进行排序，给出标签选择列表。例如：标签预测模型中输出5个预测标签，分别为标签A、标签B、标签C、标签D、标签E，然后从历史数据标签中挑选出5个出现次数最多的第一数据标签：标签F、标签G、标签H、标签I、标签J，将这10个数据标签按照预定规则排序进行排序以后，依次显示在标签显示模块上。

对于上述提到的，第一目标数据标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示，可选的，包括：获取所述第一目标数据标签对应的多个第一概率，以及所述标签预测模型得到的所述数据标签对应的多个第二概率；根据所述多个第一概率以及所述多个第二概率的大小关系在所述目标设备上排序显示所述第一目标数据标签与通过所述标签预测模型得到的所述数据标签。例如：从历史数据标签中挑选出5个出现次数最多的第一数据标签，标签F、标签G、标签H、标签I、标签J，分别计算这5个数据标签的概率，得到5个第一概率，然后获得从标签预测模型中输出的5个预测标签的5个第二概率，将5个第一概率与5个第二概率进行大小比较，得到最后的排列结果显示在标签显示模块中。

为了获取所述第一目标数据标签对应的多个第一概率，以及所述标签预测模型得到的所述数据标签对应的多个第二概率，在一个可选的实施例中包括：通过以下公式确定所述第一目标数据标签对应的多个第一概率：

其中，P为所述第一目标数据标签的概率，x为所述第一目标数据标签对应的频率，M为固定值，N为所述历史数据标签的数量；获取所述标签预测模型得到的所述数据标签对应的多个第二概率，包括：在所述标签预测模型输出所述数据标签的过程中，通过所述标签预测模型确定所述数据标签对应的多个第二概率。

在本实施例中，在计算第一目标数据标签对应的多个第一概率时，由于以线性的方式对数据进行处理，可能会导致数据量较大的标签在整体上占有优势，为此使用类似于sigmod函数，并使得整体概率和为1，从而使得在大于等于某个阈值后概率变化变得平缓，在公式中，x为所述第一目标数据标签对应的频率，即在一个标签在历史标签中出现的次数，如标签F在历史标签中出现的次数为f，则对应的x即为f，M为固定值，作用是用于调整整体的变化趋势。通过上述公式，可以分别计算出第一目标数据标签对应的多个第一概率。对于标签预测模型中输出预测标签的对个第二概率，所述多个第二概率会随着预测标签一起从标签预测模型中输出，无需另外单独计算。

在执行步骤S202以后，可选的，所述方法还包括：确定所述标签预测模型所对应的目标标签预测模型，其中，所述标签预测模型用于更新所述目标标签预测模型；确定所述标签预测模型对应的第一权重以及所述目标标签预测模型对应的第二权重；根据所述第一权重和所述第二权重确定在所述目标设备上的待显示数据标签。

在本实施例中，标签预测模块中具有多个标签预测模型，所述标签预测模型是通过模型训练模块训练出来的结果，在标注的过程中，在选择标注框的同时使用特征提取模块得到选择区域的特征，然后特征输入到经训练阶段得到的目标标签预测模型中，得到当前区域的各类别的置信度。为避免模型训练模块得到的标签预测模型的波动，则使用当前阶段目标标签预测模型与上一阶段的标签预测模型进行标签预测，具体的：按当前阶段目标标签预测模型的结果的0.9和上一阶段的标签预测模型的结果的0.1进行加权平滑，所述0.1与0.9为对应的第一权重和第二权重，进而选出由标签预测模块输出到标签显示模块中的最可能的前5个标签作为候选标签。

为了更好的理解，在上述步骤S204中，对于标签预测模型，可选的，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签。在本实施例中，标签预测模型具体由模型训练模块使用多组数据通过机器学习训练出的，所述模型训练模块，是一个概率分类模型，并进行训练数据集的维护。具体为：根据标注人员标注标签与特征向量自动制作训练数据集，用于训练机器学习模型。若通过标签预测模型对得到的最可能的5个预测标签中没有最后标注人员要进行标注的标签，则将这5个预测标签认为是错误识别，将这5个预测标签添加到训练数据集。随着人工标注数据的不断增加，模型的训练数据会逐渐变多，但过多的数据会导致存储占用过多并降低模型的训练速度，因此，训练模块进行数据集的筛选，将各类的数据分为正确识别和错误识别，将错误识别的添加到训练集中，通过不断更新训练集，从而保证模型的训练速度。

显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。为了更好的理解上述数据标注方法，以下结合实施例对上述过程进行说明，但不用于限定本发明实施例的技术方案，具体地：

图3是根据本发明实施例的数据标注方法的流程图(二)，如图3所示，在一个可选的实施例中，

在标注时，首先标注人员会进行图像选择，选择图像中的待标注区域。通过标注工具选择图像中的标注目标，并以方形区域的形式提取出选中区域图像。随后，将所选区域图像输入到特征提取模块进行图像的特征提取。在待标注区域选定后，将所选定的区域放缩到96*96，使用LBP等价模式提取图像的特征，针对光学三原色三通道分别进行特征提取。然后计算LBP特征谱的统计直方图作为特征向量。由于LBP可以以并行、查表的方式来加速运算，从而可以达到ms级的速度。

接着将提取的特征输入到标签预测模型中。标签预测模型使用极限学习机，使用单隐层前馈神经网络，通过矩阵运算得到标签预测结果，选取top-5送入标签显示模块。

标签显示模块根据数据标注统计量的top-5结合预测模型给出的标签，进行标签的排序。所有标签的初始概率均为1/N，N为标签的总体数量。由于以线性的方式对数据进行处理，可能会导致数据量较大的标签在整体上占有优势，为此我们使用类似于sigmod函数，并使得整体概率和为1，从而使得在大于等于某个阈值后概率变化变得平缓。函数如下：

其中，M为固定值，在此设置为10，用于调整整体的变化趋势。根据上式，x为标签在总体标签中出现的次数，由于x与M在使用时均为整数，在使用时，可以使用查表的策略进行加速计算，在x大于阈值后设置为固定值。得到所有5个第一目标数据标签的置信度后，按置信度进行排序。

紧接着将5个第一目标数据标签和5个模型预测标签通过标签显示模块显示出来，将得到最终的10个标签用于展示，剩余标签按次序进行后移，以便于检索。标注人员从标签预测模块中选择标签，得到实际标签并存储结果。在选择的过程中，若标注人员选择的标签在5个模型预测标签的样本中存在，则将样本认为是正确样本，不在的认为错误样本。在标注量每类数量较小时，将所有标注数据收集到训练集中，在数据量变大后，将错误样本特征与标签存储到训练集中。模型训练通过摩尔-彭罗斯(MP)广义逆矩阵计算得到网络的参数，训练完成后更新到预测模型。

为了更好的理解，具体可以将上述过程表述为：标注人员进行图像选择，随后计算机获取到选中区域图像进行特征提取，计算机会收集特征数据和错误识别的预测标签形成数据集，从而在模型训练模块中进行训练(数据集处理)，模型训练模块对标签预测模块进行预测模型更新，计算机将提取到的特征数据输入到标签预测模块，随后标签预测模块进行预测，将预测标签加权排序输入到标签显示模块中，标注人员在标签显示模块中通进行标签选择，进而将标签结果保存在计算机的标签结构存储模块中。

此外，本发明实施例的上述技术方案通过计算快速的机器学习模型进行标签预测，提供更为合适的候选标签，从而减少标签寻找时间，增加数据标注效率。在于人机协同的数据标注策略，在人进行标注的同时通过机器学习模型的结果对标签进行排序，从而减少寻找标签的时间，加快标注的效率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

在本实施例中还提供了一种数据标注装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的，图4是根据本发明实施例的一种数据标注的结构框图，该装置包括：

第一获取模块42，用于确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；

第二获取模块44，用于将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；

显示模块46，用于在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。

例如：现有一张图像要进行数据标注，在第一获取模块42中，标注人会在图像选择模块中以方形区域的形式选择图像待标注区域，随后特征提取模块会对选择的图像区域进行特征提取，具体为使用局部二值模式(Local Binary Pattern，简称为LBP)进行选中区域的特征提取并以特征向量的方式输入到标签预测模型。此外根据标注任务的复杂程度，可以使用其他的图像特征，如尺度不变特征变换、方向梯度直方图等。将提取到的特征向量输入到标签预测模型进行标签预测，得到多个预测标签，从多个预测标签中选择置信度较高的5个预测标签保存在标签显示模块中，随后人工进行标签选择实现整个目标检测过程中图像的标注。

需要说明的是，在一个可选实施中，显示模块46用于：从历史数据标签获取第一目标数据标签；将所述第一目标数据标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示。

在本实施例中，标签显示模块上显示的数据标签不仅仅只是从标签预测模型中得到的预测标签，还有一部分数据标签，即第一目标数据标签，来自于历史数据标签，将第一目标数据标签与标签预测模型中得到的预测标签按照预定规则排序在标签显示模块中显示出来。标签显示模块主要用于模型预测结果的显示，从而便于标注人员进行标签的选取，具体工作则是将标签预测模块的输出的预测标签与最近标注的标签(第一目标数据标签)以分值的方式进行综合的排序，显示出最有可能的结果在界面上，考虑到由于标注数据的原因对预测模型速度有很高要求(低于40ms，以25fps计算)，模型的准确率较低，因此使用标签预测模型的最可能的前五名作为最终的显示预测结果，对于最近标注标签设置权重，随着标注的次数进行非线性的增加，同时降低其他标签的可能性，最近的标签同样选择最可能出现的前五个数据标签，随后标签显示模块按置信度进行排序，给出标签选择列表。例如：标签预测模型中输出5个预测标签，分别为标签A、标签B、标签C、标签D、标签E，然后从历史数据标签中挑选出5个出现次数最多的第一数据标签：标签F、标签G、标签H、标签I、标签J，将这10个数据标签按照预定规则排序进行排序以后，依次显示在标签显示模块上。

可选的，为确定待显示的数据标签，包括：确定所述标签预测模型所对应的目标标签预测模型，其中，所述标签预测模型用于更新所述目标标签预测模型；确定所述标签预测模型对应的第一权重以及所述目标标签预测模型对应的第二权重；根据所述第一权重和所述第二权重确定在所述目标设备上的待显示数据标签。

为了更好的理解，可选的，在第二获取模块44中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签。在本实施例中，标签预测模型具体由模型训练模块使用多组数据通过机器学习训练出的，所述模型训练模块，是一个概率分类模型，并进行训练数据集的维护。具体为：根据标注人员标注标签与特征向量自动制作训练数据集，用于训练机器学习模型。若通过标签预测模型对得到的最可能的5个预测标签中没有最后标注人员要进行标注的标签，则将这5个预测标签认为是错误识别，将这5个预测标签添加到训练数据集。随着人工标注数据的不断增加，模型的训练数据会逐渐变多，但过多的数据会导致存储占用过多并降低模型的训练速度，因此，训练模块进行数据集的筛选，将各类的数据分为正确识别和错误识别，将错误识别的添加到训练集中，通过不断更新训练集，从而保证模型的训练速度。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；

S2，将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；

S3，在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据标注方法，其特征在于，包括：

确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；

将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；

在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。

2.根据权利要求1所述的方法，其特征在于，在所述目标设备上显示所述数据标签，包括：

从历史数据标签获取第一数据标注标签；

将所述第一数据标注标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示。

3.根据权利要求2所述的方法，其特征在于，将所述第一数据标注标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示，包括：

获取所述第一数据标注标签对应的多个第一概率，以及所述标签预测模型得到的所述数据标签对应的多个第二概率；

根据所述多个第一概率以及所述多个第二概率的大小关系在所述目标设备上排序显示所述第一数据标注标签与通过所述标签预测模型得到的所述数据标签。

4.根据权利要求3所述的方法，其特征在于，获取所述第一目标数据标签对应的多个第一概率，以及所述标签预测模型得到的所述数据标签对应的多个第二概率，包括：

通过以下公式确定所述第一数据标注标签对应的多个第一概率：

其中，P为所述第一数据标注标签的概率，x为所述第一数据标注标签对应的频率，M为固定值，N为所述历史数据标签的数量；

获取所述标签预测模型得到的所述数据标签对应的多个第二概率，包括：

在所述标签预测模型输出所述数据标签的过程中，通过所述标签预测模型确定所述数据标签对应的多个第二概率。

5.根据权利要求1所述的方法，其特征在于，确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征之后，所述方法还包括：

确定所述标签预测模型所对应的目标标签预测模型，其中，所述标签预测模型用于更新所述目标标签预测模型；

确定所述标签预测模型对应的第一权重以及所述目标标签预测模型对应的第二权重；

根据所述第一权重和所述第二权重确定在所述目标设备上的待显示数据标签。

6.根据权利要求5所述的方法，其特征在于，根据所述第一权重和所述第二权重确定待显示在所述目标设备上的数据标签，包括：

将所述图像特征输入到目标标签预测模型，得到所述图像特征对应的第二数据标注标签，其中，所述目标标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的第二数据标注标签；

根据所述第一权重，所述第二数据标注标签以及所述第二权重确定所述待显示数据标签。

7.一种数据标注装置，其特征在于，包括：

获取模块，用于确定待进行数据标注的图像区域，并获取所述图像区域对应的图像特征；

处理模块，用于将所述图像特征输入到标签预测模型，得到所述图像特征对应的数据标签，其中，所述标签预测模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：图像特征和图像特征对应的数据标签；

显示模块，用于在目标设备上显示所述数据标签，以指示目标对象根据所述数据标签确定所述图像区域的数据标注结果。

8.根据权利要求7所述的装置，其特征在于，所述显示模块还用于，从历史数据标签获取第一数据标注标签；将所述第一数据标注标签与通过所述标签预测模型得到的所述数据标签按照预设规则在所述目标设备上排序显示。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。