CN114359670A - 非结构化数据标注方法、装置、计算机设备及存储介质 - Google Patents

非结构化数据标注方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114359670A
CN114359670A CN202111683639.0A CN202111683639A CN114359670A CN 114359670 A CN114359670 A CN 114359670A CN 202111683639 A CN202111683639 A CN 202111683639A CN 114359670 A CN114359670 A CN 114359670A
Authority
CN
China
Prior art keywords
label
labeling
model
data
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111683639.0A
Other languages
English (en)
Inventor
李伟强
曹应文
施健
王一科
贾林
涂静一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongzhi Yonghao Robot Co ltd
Original Assignee
Shenzhen Zhongzhi Yonghao Robot Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongzhi Yonghao Robot Co ltd filed Critical Shenzhen Zhongzhi Yonghao Robot Co ltd
Priority to CN202111683639.0A priority Critical patent/CN114359670A/zh
Publication of CN114359670A publication Critical patent/CN114359670A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例公开了非结构化数据标注方法、装置、计算机设备及存储介质。所述方法包括:获取图片数据;将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;输出所述标注结果;其中,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的。通过实施本发明实施例的方法可实现快速高效地对非结构化数据进行打标和清洗,保障了生成标签的准确性,减少错误标签的生成,降低了人工成本。

Description

非结构化数据标注方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理方法,更具体地说是指非结构化数据标注方法、装置、计算机设备及存储介质。
背景技术
随着人工智能技术落地越来越多的商业场景,除了无人驾驶、人脸识别、智慧安防等领域外,机器人、智能家居、智慧工地等也成为了热门的应用场景,AI高新科技公司关注的重点开始聚焦于产业落地能力上。传统的非结构化图片数据标注方式是通过专门的标注工作者或AI研发人员进行标注的,不但消耗大量的人力成本,而且在大量标注后人会出现效率低下和标注错误的情况,耗时又耗钱,需要标注大规模的数据集时十分耗费人力成本,并且标注完的数据还需要进行人工审核才能使用。并且数据是人工智能技术的基础,数据标签的准确直接影响了算法的上限,是算法实现的决定性条件之一,因此提供高效、准确的标注数据集决定了人工智能技术的应用高度,是无法缺少的。
现有的数据清洗方式,只能由人工清洗,人工删除不符合标准的数据,需要投入大量人力,增加人力成本;传统的人工数据标注和清洗方式不但效率低下,而且标注的数据质量参差不齐。
因此,有必要设计一种新的方法,实现快速高效地对非结构化数据进行打标和清洗,保障了生成标签的准确性,减少错误标签的生成,降低了人工成本。
发明内容
本发明的目的在于克服现有技术的缺陷,提供非结构化数据标注方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:非结构化数据标注方法,包括:
获取图片数据;
将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;
输出所述标注结果;
其中,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的。
其进一步技术方案为:所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的,包括:
获取图像数据,以得到初始数据;
将所述图像数据输入至专用模型内进行标签标注,以得到第一标签;
将所述图像数据输入至专家模型内进行标签标注,以得到第二标签;
计算所述第一标签和第二标签的IOU,以得到计算结果;
根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签;
对所述不可用标签进行清洗,以得到清洗后的标签;
根据所述可用标签以及清洗后的标签对所述初始数据进行标注,以形成样本集;
利用样本集训练专家模型,以得到标注模型。
其进一步技术方案为:所述专用模型是通过带有第一标签标注的图像数据作为样本集训练专家模型所得的。
其进一步技术方案为:所述专家模型是对数据进行回归分类的模型。
其进一步技术方案为:所述计算所述第一标签和第二标签的IOU,以得到计算结果,包括:
计算所述第一标签和第二标签的边界框的交集面积以及并集面积;
计算所述交集面积与并集面积的比值,以得到计算结果。
其进一步技术方案为:所述根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签,包括:
当所述计算结果高于设定阈值时,确定所述第一标签和第二标签对应的值为可用标签;当所述计算结果不高于设定阈值时,确定所述第一标签和第二标签对应的值为不可用标签。
其进一步技术方案为:所述对所述不可用标签进行清洗,以得到清洗后的标签,包括:
对所述不可用标签进行调整或删除,以得到清洗后的标签。
本发明还提供了非结构化数据标注装置,包括:
数据获取单元,用于获取图片数据;
标注单元,用于将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;
输出单元,用于输出所述标注结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过获取需要标注的图片数据等非结构化数据后,经过由多层网络构成的标注模型进行标签标注,并输出标注结果至终端,其中标注模型包括专用模型、专家模型以及人工清洗等多层网络构成,实现快速高效地对非结构化数据进行打标和清洗,保障了生成标签的准确性,减少错误标签的生成,降低了人工成本。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的非结构化数据标注方法的应用场景示意图;
图2为本发明实施例提供的非结构化数据标注方法的流程示意图;
图3为本发明实施例提供的非结构化数据标注方法的子流程示意图;
图4为本发明实施例提供的非结构化数据标注方法的子流程示意图;
图5为本发明实施例提供的非结构化数据标注装置的示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的非结构化数据标注方法的应用场景示意图。图2为本发明实施例提供的非结构化数据标注方法的示意性流程图。该非结构化数据标注方法应用于服务器中。该服务器与终端进行数据交互,从终端获取需要标注的图片数据等非结构化数据后,经过由多层网络构成的标注模型进行标签标注,并输出标注结果至终端。
图2是本发明实施例提供的非结构化数据标注方法的流程示意图。如图2所示,该方法包括以下步骤S110至S130。
S110、获取图片数据。
在本实施例中,图片数据是指需要进行标注的图片,也可以是其他非结构化数据。
S120、将所述图片数据输入至标注模型内进行标签标注,以得到标注结果。
在本实施例中,标注结果是指图片数据的标注。
其中,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的。
在一实施例中,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的,可包括步骤S121~S128。
S121、获取图像数据,以得到初始数据。
在本实施例中,初始数据是指获取到的图像数据。
S122、将所述图像数据输入至专用模型内进行标签标注,以得到第一标签。
在本实施例中,第一标签是指图像数据经过专用模型进行标注后的标签。
在本实施例中,所述专用模型是通过带有第一标签标注的图像数据作为样本集训练专家模型所得的。
图像数据输入到专家模型中训练生成专用模型。初始数据是杂乱没有规律且没有标签的图像数据,首先需要输入到专家模型中预测生成图片对应的原始标签,在这个过程中只是粗略大概的对图片进行预测,再根据生成的原始标签即第一标签标注图像数据,以作为样本集训练出需要的专用模型。
具体地,图片数据输入到专家模型中,专家模型是公开的可以识别超过80中类别的模型算法,专家模型接收输入图片,对其图片内目标进行回归分类,当检测到图像中目标与专家模型中预制目标特征一致时,就输出该目标类别,并通过后处理将目标的坐标位置画出,专家模型就完整预测图像目标类别和位置,然后输出图像对应的txt标签文件,即第一标签的txt文件,每个图像对应相同命名的txt文件,图像标签txt文件组成一个带标签的图像数据。将带标签的图像数据输入到专家模型中,专家模型接收图像数据和标签,通过提取图像数据的特征和对应标签的位置和类别信息反向传播参数,更新训练专家模型的参数直到训练专家模型的loss值与真实值拟合的距离越来越小,由此确定专用模型。
S123、将所述图像数据输入至专家模型内进行标签标注,以得到第二标签。
在本实施例中,第二标签是指图像数据输入至专家模型内进行标注后的标签。所述专家模型是对数据进行回归分类的模型。
将图像数据输入到专家模型中,专家模型是公开的可以识别超过80中类别的模型算法,比如YOLOv5s专家模型,专家模型接收输入图像数据,对图像数据内目标进行回归分类,当检测到图像数据中目标与专家模型中预制目标特征一致时,就输出该目标类别,并通过后处理将目标的坐标位置画出,专家模型就完整预测图像目标类别和位置,然后输出图像对应的txt标签文件。
S124、计算所述第一标签和第二标签的IOU,以得到计算结果。
在本实施例中,计算结果是指第一标签和第二标签的IOU数值。
在一实施例中,请参阅图3,上述的步骤S124可包括步骤S1241~S1242。
S1241、计算所述第一标签和第二标签的边界框的交集面积以及并集面积;
S1242、计算所述交集面积与并集面积的比值,以得到计算结果。
将图像数据分别输入到专用模型和专家模型中,专用模型预测得到第一标签,专家模型预测得到第二标签,第一标签和第二标签是有五个值组成,分别是类别、图像长值、图像宽值、目标的长值、宽值,通过计算两个第一标签和第二标签的边界框目标交并比,即第一标签的边界框和第二标签的边界框的交集面积除以第一标签的边界框和第二标签的边界框的并集面积,交集和并集面积通过两个边界框的坐标进行计算,计算得到两个框的IOU(交并比,Intersection over Union)值。
S125、根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签。
在本实施例中,可用标签是指准确率高的标注信息,不可用标签是指准确率不符合要求的标注信息。
具体地,当所述计算结果高于设定阈值时,确定所述第一标签和第二标签对应的值为可用标签;当所述计算结果不高于设定阈值时,确定所述第一标签和第二标签对应的值为不可用标签。
S126、对所述不可用标签进行清洗,以得到清洗后的标签。
在本实施例中,清洗后的标签是指经过删除或调整后的标签对应的数值。
具体地,对所述不可用标签进行调整或删除,以得到清洗后的标签。
具体地,可采用人工清洗或者自动清洗执行,自动清洗时则需要设定什么条件下的标签该如何处理的规则,只需要按照设定的规则处理即可。
在本实施例中,人工删除掉无法使用的标签,需要修改的标签原则是没有完全框住目标的框、框错的目标框,经过人工微调框的位置,对目标准确框住,把目标在图像中的位置完全包裹住,即可作为清洗后的标签,纳入到可用标签内,进行使用。
清洗的作用为减少错误和不准确标签对整体标签准确率的影响。该清洗是通过人工直接观察标签和图片来进行判断的,若出现错误标签则删除该标签,若标签出现偏差则修改标签,修改后的标签再输入到下一阶段网络中,进行最后一部分的对比。
S127、根据所述可用标签以及清洗后的标签对所述初始数据进行标注,以形成样本集。
在本实施例中,样本集是指可用标签以及清洗后的标签对初始数据进行标注后形成图像的数据。
S128、利用样本集训练专家模型,以得到标注模型。
通过可用标签以及清洗后的标签输入到专家模型中训练出标注模型,该标注模型经过训练后,可以一直对其他图片数据集进行预测生成标签,然后这些标签都可以成为可用标签。
具体地,标注模型预测出的标签与可用标签以及清洗后的标签进行对比,留下得分更高的标签,进一步提高标签的准确率,并且留下得分更高的标签可以对以后输入的相同数据集进行预测,经过标注模型预测出的标签可以直接放入可用标签中,大大节省了标签的生成时间。
标注模型将专家模型和专用模型作为数据标注的基础,通过专家模型预测与专用模型的预测结果进行对比计算,然后低于阈值的标签进入人工干预阶段,减少错误标签的生成,只需要少量的人工对已生成的标签进行筛选,大大降低了人工成本,并且专用模型亦可以复用,当出现相同数据集时可以把专用模型拿出对其进行初步预测,然后再输入标注模型中。标注模型除了减少人力成本外,还保障了数据的安全性,可以快速高效对图片数据打标清洗,并且多层级的网络保障了生成标签的准确性,专用模型可以重复使用,不但大大缩短了人工智能算法的应用落地工期,而且网络有很高的鲁棒性。
S130、输出所述标注结果。
在本实施例中,利用专家模型训练专用模型,自动对非结构化数据标注和清洗,减少了大规模数据集的标注时间,提高了数据标注的准确率以及数据的安全性,最终生成的可用数据标签,并且最终的标注模型可用重复使用,自动对新接入的数据进行自动标注。专家模型和专用模型双重的评价,并且使用第一标签和第二标签计算对比阈值,以及人工筛选阶段,使得数据标签更加准确,减少了低质量的标签。快速对采入的数据集自动标注,不需要大量的人工花长时间来做重复的标注工作,短短的数分钟就可以对数千张数据自动标注。保障了数据的安全性,不需要给专门的数据标注服务公司进行标注服务,防止了数据泄露的风险。生成的标注模型可以对新采集的数据集进行自动标注,复用模型。
通过使用公开的专家模型对图片数据进行初步预测,形成专用模型的训练所用的数据,以专家模型和专用模型为标注、清洗的主要工具,并通过多层级网络的筛选和清洗,全程只需要少量的人工干预,实现高效、智能化的非结构数据标注和清洗。
上述的非结构化数据标注方法,通过获取需要标注的图片数据等非结构化数据后,经过由多层网络构成的标注模型进行标签标注,并输出标注结果至终端,其中标注模型包括专用模型、专家模型以及人工清洗等多层网络构成,实现快速高效地对非结构化数据进行打标和清洗,保障了生成标签的准确性,减少错误标签的生成,降低了人工成本。
图5是本发明实施例提供的一种非结构化数据标注装置300的示意性框图。如图5所示,对应于以上非结构化数据标注方法,本发明还提供一种*非结构化数据标注装置300。该非结构化数据标注装置300包括用于执行上述非结构化数据标注方法的单元,该装置可以被配置于服务器中。具体地,请参阅图5,该非结构化数据标注装置300包括数据获取单元301、标注单元302以及输出单元303。
数据获取单元301,用于获取图片数据;标注单元302,用于将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;输出单元303,用于输出所述标注结果。
在一实施例中,上述的非结构化数据标注装置300还包括模型生成单元,用于通过若干个带有标注标签的图像数据作为样本集训练专家模型,以得到标注模型。
在一实施例中,所述模型生成单元包括初始数据获取子单元、第一标注子单元、第二标注子单元、计算子单元、分类子单元、清洗子单元、样本集形成子单元以及训练子单元。
初始数据获取子单元,用于获取图像数据,以得到初始数据;第一标注子单元,用于将所述图像数据输入至专用模型内进行标签标注,以得到第一标签;第二标注子单元,用于将所述图像数据输入至专家模型内进行标签标注,以得到第二标签;计算子单元,用于计算所述第一标签和第二标签的IOU,以得到计算结果;分类子单元,用于根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签;清洗子单元,用于对所述不可用标签进行清洗,以得到清洗后的标签;样本集形成子单元,用于根据所述可用标签以及清洗后的标签对所述初始数据进行标注,以形成样本集;训练子单元,用于利用样本集训练专家模型,以得到标注模型。
在一实施例中,所述计算子单元包括面积计算模块以及比值计算模块。
面积计算模块,用于计算所述第一标签和第二标签的边界框的交集面积以及并集面积;比值计算模块,用于计算所述交集面积与并集面积的比值,以得到计算结果。
在一实施例中,所述分类子单元,用于当所述计算结果高于设定阈值时,确定所述第一标签和第二标签对应的值为可用标签;当所述计算结果不高于设定阈值时,确定所述第一标签和第二标签对应的值为不可用标签。
在一实施例中,所述清洗子单元,用于对所述不可用标签进行调整或删除,以得到清洗后的标签。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述非结构化数据标注装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述非结构化数据标注装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图6,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种非结构化数据标注方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种非结构化数据标注方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取图片数据;将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;输出所述标注结果;
其中,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的。
在一实施例中,处理器502在实现所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的步骤时,具体实现如下步骤:
获取图像数据,以得到初始数据;将所述图像数据输入至专用模型内进行标签标注,以得到第一标签;将所述图像数据输入至专家模型内进行标签标注,以得到第二标签;计算所述第一标签和第二标签的IOU,以得到计算结果;根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签;对所述不可用标签进行清洗,以得到清洗后的标签;根据所述可用标签以及清洗后的标签对所述初始数据进行标注,以形成样本集;利用样本集训练专家模型,以得到标注模型。
其中,所述专用模型是通过带有第一标签标注的图像数据作为样本集训练专家模型所得的。
所述专家模型是对数据进行回归分类的模型。
在一实施例中,处理器502在实现所述计算所述第一标签和第二标签的IOU,以得到计算结果步骤时,具体实现如下步骤:
计算所述第一标签和第二标签的边界框的交集面积以及并集面积;计算所述交集面积与并集面积的比值,以得到计算结果。
在一实施例中,处理器502在实现所述根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签步骤时,具体实现如下步骤:
当所述计算结果高于设定阈值时,确定所述第一标签和第二标签对应的值为可用标签;当所述计算结果不高于设定阈值时,确定所述第一标签和第二标签对应的值为不可用标签。
在一实施例中,处理器502在实现所述对所述不可用标签进行清洗,以得到清洗后的标签步骤时,具体实现如下步骤:
对所述不可用标签进行调整或删除,以得到清洗后的标签。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取图片数据;将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;输出所述标注结果;
其中,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的步骤时,具体实现如下步骤:
获取图像数据,以得到初始数据;将所述图像数据输入至专用模型内进行标签标注,以得到第一标签;将所述图像数据输入至专家模型内进行标签标注,以得到第二标签;计算所述第一标签和第二标签的IOU,以得到计算结果;根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签;对所述不可用标签进行清洗,以得到清洗后的标签;根据所述可用标签以及清洗后的标签对所述初始数据进行标注,以形成样本集;利用样本集训练专家模型,以得到标注模型。
其中,所述专用模型是通过带有第一标签标注的图像数据作为样本集训练专家模型所得的。
所述专家模型是对数据进行回归分类的模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述计算所述第一标签和第二标签的IOU,以得到计算结果步骤时,具体实现如下步骤:
计算所述第一标签和第二标签的边界框的交集面积以及并集面积;计算所述交集面积与并集面积的比值,以得到计算结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签步骤时,具体实现如下步骤:
当所述计算结果高于设定阈值时,确定所述第一标签和第二标签对应的值为可用标签;当所述计算结果不高于设定阈值时,确定所述第一标签和第二标签对应的值为不可用标签。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述不可用标签进行清洗,以得到清洗后的标签步骤时,具体实现如下步骤:
对所述不可用标签进行调整或删除,以得到清洗后的标签。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.非结构化数据标注方法,其特征在于,包括:
获取图片数据;
将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;
输出所述标注结果;
其中,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的。
2.根据权利要求1所述的非结构化数据标注方法,其特征在于,所述标注模型是指通过若干个带有标注标签的图像数据作为样本集训练专家模型所得的,包括:
获取图像数据,以得到初始数据;
将所述图像数据输入至专用模型内进行标签标注,以得到第一标签;
将所述图像数据输入至专家模型内进行标签标注,以得到第二标签;
计算所述第一标签和第二标签的IOU,以得到计算结果;
根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签;
对所述不可用标签进行清洗,以得到清洗后的标签;
根据所述可用标签以及清洗后的标签对所述初始数据进行标注,以形成样本集;
利用样本集训练专家模型,以得到标注模型。
3.根据权利要求2所述的非结构化数据标注方法,其特征在于,所述专用模型是通过带有第一标签标注的图像数据作为样本集训练专家模型所得的。
4.根据权利要求2所述的非结构化数据标注方法,其特征在于,所述专家模型是对数据进行回归分类的模型。
5.根据权利要求2所述的非结构化数据标注方法,其特征在于,所述计算所述第一标签和第二标签的IOU,以得到计算结果,包括:
计算所述第一标签和第二标签的边界框的交集面积以及并集面积;
计算所述交集面积与并集面积的比值,以得到计算结果。
6.根据权利要求5所述的非结构化数据标注方法,其特征在于,所述根据所述计算结果分类所述第一标签和第二标签,以得到可用标签和不可用标签,包括:
当所述计算结果高于设定阈值时,确定所述第一标签和第二标签对应的值为可用标签;当所述计算结果不高于设定阈值时,确定所述第一标签和第二标签对应的值为不可用标签。
7.根据权利要求6所述的非结构化数据标注方法,其特征在于,所述对所述不可用标签进行清洗,以得到清洗后的标签,包括:
对所述不可用标签进行调整或删除,以得到清洗后的标签。
8.非结构化数据标注装置,其特征在于,包括:
数据获取单元,用于获取图片数据;
标注单元,用于将所述图片数据输入至标注模型内进行标签标注,以得到标注结果;
输出单元,用于输出所述标注结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202111683639.0A 2021-12-28 2021-12-28 非结构化数据标注方法、装置、计算机设备及存储介质 Pending CN114359670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111683639.0A CN114359670A (zh) 2021-12-28 2021-12-28 非结构化数据标注方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111683639.0A CN114359670A (zh) 2021-12-28 2021-12-28 非结构化数据标注方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114359670A true CN114359670A (zh) 2022-04-15

Family

ID=81104646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111683639.0A Pending CN114359670A (zh) 2021-12-28 2021-12-28 非结构化数据标注方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114359670A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062676A (zh) * 2022-08-18 2022-09-16 北京大学 数据处理方法、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062676A (zh) * 2022-08-18 2022-09-16 北京大学 数据处理方法、装置及计算机可读存储介质
CN115062676B (zh) * 2022-08-18 2022-11-22 北京大学 数据处理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Wang et al. A unified convolutional neural network integrated with conditional random field for pipe defect segmentation
CN106951925B (zh) 数据处理方法、装置、服务器及***
WO2021120186A1 (zh) 分布式产品缺陷分析***、方法及计算机可读存储介质
CN110472082B (zh) 数据处理方法、装置、存储介质及电子设备
CN110413786B (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN112241452B (zh) 一种模型训练方法、装置、电子设备及存储介质
CN108595657B (zh) His***的数据表分类映射方法和装置
CN112613569B (zh) 图像识别方法、图像分类模型的训练方法及装置
CN110471945B (zh) 活跃数据的处理方法、***、计算机设备和存储介质
US20220415019A1 (en) Method and apparatus for image classification
CN110928862A (zh) 数据清洗方法、数据清洗设备以及计算机存储介质
CN110490237B (zh) 数据处理方法、装置、存储介质及电子设备
US20220092359A1 (en) Image data classification method, device and system
CN111310835A (zh) 目标对象的检测方法及装置
CN114862832A (zh) 缺陷检测模型的优化方法、装置、设备及存储介质
CN112434178A (zh) 图像分类方法、装置、电子设备和存储介质
CN117173568A (zh) 目标检测模型训练方法和目标检测方法
CN115526641A (zh) 柔板产品生产质量追溯方法、***、装置和存储介质
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN114359670A (zh) 非结构化数据标注方法、装置、计算机设备及存储介质
CN114580517A (zh) 一种图像识别模型的确定方法及装置
Lin et al. Integrated circuit board object detection and image augmentation fusion model based on YOLO
CN112668365A (zh) 一种物料入库识别方法、装置、设备及存储介质
CN112597862B (zh) 一种用于人脸数据清洗的方法与设备
CN112906824A (zh) 车辆聚类方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination