CN110083728A

CN110083728A - 一种优化自动化图片数据清洗质量的方法、装置和***

Info

Publication number: CN110083728A
Application number: CN201910267802.1A
Authority: CN
Inventors: 吴英平
Original assignee: Shanghai Lianyin Electronic Technology Partnership (limited Partnership)
Current assignee: Shanghai re SR Information Technology Co.,Ltd.
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-08-02
Anticipated expiration: 2039-04-03
Also published as: CN110083728B

Abstract

本发明公开了一种优化自动化图片数据清洗质量的方法、装置和***，包括：顺次将待清洗图片集输入至粗粒度二分类器和细粒度二分类器，获得待清洗图片数据的类别预测的置信度；基于设定的置信度阈值以及与置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片；基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果，获得细粒度二分类器的模型准确度；将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件，进行细粒度二分类器的模型优化。本发明可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量，在某些情况下甚至能在模型迭代完成后完全替代人工清洗。

Description

一种优化自动化图片数据清洗质量的方法、装置和***

技术领域

本发明属于图像处理技术领域，具体涉及一种优化自动化图片数据清洗质量的方法、装置和***。

背景技术

随着深度学习技术在图像识别领域中取得的突破性进展，神经网络已经成为主流的图像识别领域的应用算法。但是神经网络是一种监督学习算法，所谓监督学习，是指研发者使用已知数据集，让神经网络基于标记的输入和输出数据进行学习，从而不断优化自身的模型参数，让自己不断“聪明起来”，即需要海量的带有准确标签的图片数据训练才能得到很好的识别准确率。理论上来说，供学习的数据越多模型的准确率越高。但这种最优状况，是建立在供学习的数据都没错的情况下，假如其中混杂了错误数据，那么学习得出的准确率显然会受到影响。因此海量图片数据的清洗成为制约神经网络技术发展的瓶颈性问题。目前业界主要使用的图片数据清洗方式还是基于人工清洗的传统方式。

专利申请号为2018107215159，专利名称为一种清洗数据的方法及装置的中国发明专利申请中公开了：在数据清洗的过程中，先挑出待清洗数据中大概率确定为正确的数据和错误的数据，中间有一些比较难以确认的数据再进行筛选，再挑选出正样本和负样本，虽然可以提高数据集的准确率，在实际工程应用中的效果并不是很好，且其清洗质量是基本固定的，无法获得更优质的数据清洗质量。

发明内容

针对上述问题，本发明提出一种优化自动化图片数据清洗质量的方法、装置及***，可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量，在某些情况下甚至能在模型迭代完成后完全替代人工清洗。

为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

第一方面，本发明提供了一种优化自动化图片数据清洗质量的方法，包括以下步骤：

获取待清洗图片集，并将其输入至预设的粗粒度二分类器中，筛选出符合要求的第一类图片集；

将所述第一类图片集输入至预设的细粒度二分类器，获得每一张待清洗图片的类别预测的置信度；

基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片；

基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果，获得细粒度二分类器的模型准确度；

将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件，基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化；

重复上述过程，直至获得满足要求的细粒度二分类器，完成所有图片的清洗。

优选地，所述预设的细粒度二分类器的训练过程为：

提供一测试图片集，根据聚类分析算法对所述测试图片集进行聚类，获取正样本测试图片集和负样本测试图片集；

根据所述正样本测试图片集和负样本测试图片集，训练得到细粒度二分类器。

优选地，所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片，具体包括以下子步骤：

将设定的置信度阈值与获得的每一张待清洗图片的类别预测的置信度比较；

当预测的置信度小于所述设定的置信度阈值的图片数量大于预设的第一图片数量阈值，则将该部分图片认定为需要进行人工清洗的图片。

优选地，在细粒度二分类器的模型优化过程中，所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片步骤之后还包括：

基于设定的规则，从各预测置信度分布区间中挑选出需要进行人工清洗的图片。

优选地，所述基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果，获得细粒度二分类器的模型准确度，具体包括以下子步骤：

对于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片，针对每一张待清洗的图片，当其类别预测的置信度与人工清洗反馈结果冲突，则判定分类错误，反之，则判定分类正确；

对于从各预测置信度分布区间中挑选出需要进行人工清洗的图片，针对每一张待清洗的图片，当其类别预测的置信度与人工清洗反馈结果冲突，则判定分类错误，反之，则判定分类正确；

基于上述的分类判断结果，计算出细粒度二分类器的模型准确度。

优选地，所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片步骤之后还包括：

当待清洗的图片中，预测的置信度大于所述设定的置信度阈值的图片数量小于预设的第二图片数量阈值，则将所述设定的置信度阈值调低，然后再提供高于该调节后的置信度阈值的图片数据，进行人工清洗。

优选地，所述细粒度二分类器的模型优化，具体包括以下子步骤：

获取易错样本，所述易错样本中包括易错正样本和易错负样本；

当细粒度二分类器的模型准确度小于设定准确度阈值，且模型的优化次数小于模型优化次数阈值时，将获得的易错正样本、易错负样本，以及其他正样本、负样本一起作为训练集来重新细粒度二分类器，使细粒度二分类器得到优化，与此同时，细粒度二分类器的模型优化次数加一。

优选地，记待人工清洗图片的类别预测的置信度为Confidence_predict，人工清洗的反馈结果为Confidence_groundtruth，所述易错样本的计算公式为：

|Confidence_groundtruth-Confidence_predict|>threshold

其中，Confidence_predict的取值范围为(0，1)，Confidence_groundtruth取0或1，threshold为预设的阈值。

第二方面，本发明提供了一种优化自动化图片数据清洗质量的装置，包括：

第一筛选模块，用于获取待清洗图片集，并将其输入至预设的粗粒度二分类器中，筛选出符合要求的第一类图片集；

第一计算模块，用于将所述第一类图片集输入至预设的细粒度二分类器，获得每一张待清洗图片的类别预测的置信度；

第二筛选模块，用于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片；

第二计算模块，用于基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果，获得细粒度二分类器的模型准确度；

优化模块，用于将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件，基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化。

第三方面，本发明提供了一种优化自动化图片数据清洗质量的***，包括：

处理器，适于实现各指令；以及

存储设备，适于存储多条指令，所述指令适于由处理器加载并执行第一方面中所述的步骤。

与现有技术相比，本发明的有益效果：

本发明的优化自动化图片数据清洗质量的方法、装置及***，可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量，在某些情况下甚至能在模型迭代完成后完全替代人工清洗。

附图说明

图1为本发明一种实施例的优化自动化图片数据清洗质量的方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

为了实现让神经网络基于标记的输入和输出数据进行学习，从而不断优化自身的模型参数，让自己不断“聪明起来”，必须提供海量的带有准确标签的图片数据训练才能得到很好的识别准确率。理论上来说，供学习的数据越多模型的准确率越高。但这种最优状况，是建立在供学习的数据都没错的情况下，假如其中混杂了错误数据，那么学习得出的准确率显然会受到影响。因此海量图片数据的清洗成为制约神经网络技术发展的瓶颈性问题。目前业界主要使用的图片数据清洗方式还是基于人工清洗的传统方式，而人工筛选不仅仅工作量大，而且获取的数据由于人工的主观性导致数据的相似度由用户自行判断并分类，导致神经网络模型可能错误的数据而影响神经网络模型的性能。为此，本发明提供了一种优化自动化图片数据清洗质量的方法、装置及***，可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量，在某些情况下甚至能在模型迭代完成后完全替代人工清洗。

实施例1

如图1所示，本发明实施例提供了一种优化自动化图片数据清洗质量的方法，包括以下步骤：

(1)获取待清洗图片集，并将其输入至预设的粗粒度二分类器中，筛选出符合要求的第一类图片集；

(2)将所述第一类图片集输入至预设的细粒度二分类器，获得每一张待清洗图片的类别预测的置信度；所述步骤(1)和(2)与对应于图1中的自动清洗阶段；

(3)基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片；所述步骤(3)对应于图1中的人工清洗阶段；

(4)基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果，获得细粒度二分类器的模型准确度；

(5)将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件，基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化；所述步骤(5)对应于图1中的模型优化阶段；

(6)重复上述过程，直至获得满足要求的细粒度二分类器，完成所有图片的清洗。

本发明实施例的一种具体实施方式中，所述步骤(1)具体为：

利用网络爬虫，获取初始测试图片集，根据一预设的粗粒度二分类器，对所述初始测试图片集进行训练，获取所述测试图片集。为获取训练神经网络模型所需的大量图像样本数据，最便捷的方式是通过网络爬虫获取的方法，网络爬虫能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来，但是网络爬虫获取的图片信息是海量的，而且很多图片信息是不需要的。假设通过网络爬虫获取类别为A类的相关图片数据，爬取结果往往会得到大非A类的图片数据，因此通过粗粒度二分类器，对爬虫网络获取的海量图片数据进行初始分类，剔除非A类的图片数据，得到A类的图片数据。比如，通过网络爬虫获取西红柿炒鸡蛋的相关菜品图片，往往会爬取到不是西红柿炒鸡蛋的菜品图片，通过粗粒度二分类器，获取到西红柿炒鸡蛋的菜品图片。根据该技术方案，通过粗粒度二分类器，对海量的图片数据做初始分类，为后续细粒度分类器的训练提供准确地样本图片数据。

本发明实施例的一种具体实施方式中，所述步骤(2)中的预设的细粒度二分类器的训练过程为：

提供一测试图片集，根据聚类分析算法对所述测试图片集进行聚类，获取正样本测试图片集和负样本测试图片集；优选地，所述聚类分析算法为K-means算法，具体聚类过程为：S201、将所述图片数据集分为k类，并从所述测试图片集中选取k张典型图片作为每一类的初始聚类中心；S202、计算所述测试图片集中的每一张图片与每一类的初始聚类中心的距离，并根据最小距离形成初始的聚类中心值，完成一次迭代；S203、重复执行步骤S202迭代过程，直至计算出的聚类中心值等于原中心值，得到每一类的聚类中心；S204、计算每张图片与每一类的聚类中心的距离，将距离最近的图片构成正样本测试图片集，将距离最远的图片构成负样本集，其中，所述正样本测试图片集数量和负样本测试图片集数量一致；

所述将所述第一类图片集(A类图片)输入至预设的细粒度二分类器，获得每一张待清洗图片的类别预测的置信度，比如获得A类图片中的Class1预测的置信度，并送入数据管理***；

本发明实施例的一种具体实施方式中，所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片，具体包括以下子步骤：

将设定的置信度阈值与获得的每一张待清洗图片的类别预测的置信度比较；所述的设定的置信度阈值需要根据实际情况去设定，比如可以设置为0.99；

当预测的置信度小于所述设定的置信度阈值的图片数量大于预设的第一图片数量阈值，则将该部分图片认定为需要进行人工清洗的图片；当预测的置信度小于所述设定的置信度阈值的图片数量小于预设的第一图片数量阈值，则将该部分图片认定为不需要进行人工清洗的图片；所述的预设的图片数量阈值也需要根据实际情况去设定，比如可以设置为150张；

在细粒度二分类器的模型优化过程中，所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片步骤之后还包括：

基于设定的规则，从各预测置信度分布区间中挑选出需要进行人工清洗的图片，需要注意的是，该步骤只在细粒度二分类器的模型优化过程中才会执行；比如可以按照表1中的设定规则进行图片挑选：

表一

预测置信度分布	随机挑选数量
		0-20％	5
20％-40％	10
		40％-60％	15
60％-80％	10
		80％-100％	5

在本发明实施例的其他实施方式中，所述从各预测置信度分布区间中挑选出需要进行人工清洗的图片，还可以不按照表一的规则进行挑选，具体根据实际需要去确定具体的挑选规则。

当待清洗的图片中，预测的置信度大于所述设定的置信度阈值的图片数量小于预设的第二图片数量阈值(如本次一共爬取的图片总量的10％))，则将所述设定的置信度阈值threshold_clean调低，然后再提供高于该调节后的置信度阈值的图片数据，进行人工清洗。

本发明实施例的一种具体实施方式中，所述步骤(4)基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果，获得细粒度二分类器的模型准确度，具体包括以下子步骤：

(401)对于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片，针对每一张待清洗的图片，当其类别预测的置信度与人工清洗反馈结果冲突，则判定分类错误，反之，则判定分类正确；

(402)对于从各预测置信度分布区间中挑选出需要进行人工清洗的图片，针对每一张待清洗的图片，当其类别预测的置信度与人工清洗反馈结果冲突，即细粒度二分类器得到的图片预测置信度与实际不符，则判定分类错误，反之，则判定分类正确；

(403)基于上述的分类判断结果，计算出细粒度二分类器的模型准确度。

本发明实施例的一种具体实施方式中，所述步骤(5)中的细粒度二分类器的模型优化，具体包括以下子步骤：

获取易错样本，所述易错样本中包括易错正样本和易错负样本；所述的易错正样本指的是预测置信度小于设定的置信度阈值的图片但实际属于该类；所述的易错负样本指的是预测置信度大于设定的置信度阈值的图片但实际不属于该类；

|Confidence_groundtruth-Confidence_predict|>threshold

实施例2

基于与实施例1相同的发明构思，本发明实施例中提供了一种优化自动化图片数据清洗质量的装置，包括：

其余部分均与实施例1相同。

实施例3

基于与实施例1相同的发明构思，本发明实施例中提供了一种优化自动化图片数据清洗质量的***，包括：

处理器，适于实现各指令；以及

存储设备，适于存储多条指令，所述指令适于由处理器加载并执行实施例1中所述的步骤。

下面以三种菜品(凤尾虾、爆炒鱿鱼、洋葱肉片)图片清洗为例。

爬虫数据集的准确率如下：

菜品	总数量	正样本数量	负样本数量	准确率
					爆炒鱿鱼	1610	1080	530	67.1％
凤尾虾	1716	936	780	54.5％
					洋葱肉片	1568	697	871	44.5％

现有技术中的自动清洗后数据集准确率如下：

通过本发明的方法处理后，数据集的准确率如下：

基于表1-3可以看出，通过本发明的方法处理后，数据集的预测准确率相对于没有优化之前有了进一步的提升。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种优化自动化图片数据清洗质量的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法，其特征在于：所述预设的细粒度二分类器的训练过程为：

3.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法，其特征在于：所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片，具体包括以下子步骤：

4.根据权利要求3所述的一种优化自动化图片数据清洗质量的方法，其特征在于：在细粒度二分类器的模型优化过程中，所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片步骤之后还包括：

5.根据权利要求4所述的一种优化自动化图片数据清洗质量的方法，其特征在于：所述基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果，获得细粒度二分类器的模型准确度，具体包括以下子步骤：

6.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法，其特征在于：所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值，筛选出需要进行人工清洗的图片步骤之后还包括：

7.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法，其特征在于：所述细粒度二分类器的模型优化，具体包括以下子步骤：

8.根据权利要求7所述的一种优化自动化图片数据清洗质量的方法，其特征在于：

记待人工清洗图片的类别预测的置信度为Confidence_predict，人工清洗的反馈结果为Confidence_groundtruth，所述易错样本的计算公式为：

|Confidence_groundtruth-Confidence_predict|>threshold

9.一种优化自动化图片数据清洗质量的装置，其特征在于，包括：

10.一种优化自动化图片数据清洗质量的***，其特征在于：包括：

处理器，适于实现各指令；以及

存储设备，适于存储多条指令，所述指令适于由处理器加载并执行权利要求1～8中任一项所述的步骤。