CN110083728A - 一种优化自动化图片数据清洗质量的方法、装置和*** - Google Patents

一种优化自动化图片数据清洗质量的方法、装置和*** Download PDF

Info

Publication number
CN110083728A
CN110083728A CN201910267802.1A CN201910267802A CN110083728A CN 110083728 A CN110083728 A CN 110083728A CN 201910267802 A CN201910267802 A CN 201910267802A CN 110083728 A CN110083728 A CN 110083728A
Authority
CN
China
Prior art keywords
picture
threshold value
cleaned
confidence
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910267802.1A
Other languages
English (en)
Other versions
CN110083728B (zh
Inventor
吴英平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai re SR Information Technology Co.,Ltd.
Original Assignee
Shanghai Lianyin Electronic Technology Partnership (limited Partnership)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lianyin Electronic Technology Partnership (limited Partnership) filed Critical Shanghai Lianyin Electronic Technology Partnership (limited Partnership)
Priority to CN201910267802.1A priority Critical patent/CN110083728B/zh
Publication of CN110083728A publication Critical patent/CN110083728A/zh
Application granted granted Critical
Publication of CN110083728B publication Critical patent/CN110083728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种优化自动化图片数据清洗质量的方法、装置和***,包括:顺次将待清洗图片集输入至粗粒度二分类器和细粒度二分类器,获得待清洗图片数据的类别预测的置信度;基于设定的置信度阈值以及与置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片;基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度;将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件,进行细粒度二分类器的模型优化。本发明可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量,在某些情况下甚至能在模型迭代完成后完全替代人工清洗。

Description

一种优化自动化图片数据清洗质量的方法、装置和***
技术领域
本发明属于图像处理技术领域,具体涉及一种优化自动化图片数据清洗质量的方法、装置和***。
背景技术
随着深度学习技术在图像识别领域中取得的突破性进展,神经网络已经成为主流的图像识别领域的应用算法。但是神经网络是一种监督学习算法,所谓监督学习,是指研发者使用已知数据集,让神经网络基于标记的输入和输出数据进行学习,从而不断优化自身的模型参数,让自己不断“聪明起来”,即需要海量的带有准确标签的图片数据训练才能得到很好的识别准确率。理论上来说,供学习的数据越多模型的准确率越高。但这种最优状况,是建立在供学习的数据都没错的情况下,假如其中混杂了错误数据,那么学习得出的准确率显然会受到影响。因此海量图片数据的清洗成为制约神经网络技术发展的瓶颈性问题。目前业界主要使用的图片数据清洗方式还是基于人工清洗的传统方式。
专利申请号为2018107215159,专利名称为一种清洗数据的方法及装置的中国发明专利申请中公开了:在数据清洗的过程中,先挑出待清洗数据中大概率确定为正确的数据和错误的数据,中间有一些比较难以确认的数据再进行筛选,再挑选出正样本和负样本,虽然可以提高数据集的准确率,在实际工程应用中的效果并不是很好,且其清洗质量是基本固定的,无法获得更优质的数据清洗质量。
发明内容
针对上述问题,本发明提出一种优化自动化图片数据清洗质量的方法、装置及***,可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量,在某些情况下甚至能在模型迭代完成后完全替代人工清洗。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供了一种优化自动化图片数据清洗质量的方法,包括以下步骤:
获取待清洗图片集,并将其输入至预设的粗粒度二分类器中,筛选出符合要求的第一类图片集;
将所述第一类图片集输入至预设的细粒度二分类器,获得每一张待清洗图片的类别预测的置信度;
基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片;
基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度;
将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件,基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化;
重复上述过程,直至获得满足要求的细粒度二分类器,完成所有图片的清洗。
优选地,所述预设的细粒度二分类器的训练过程为:
提供一测试图片集,根据聚类分析算法对所述测试图片集进行聚类,获取正样本测试图片集和负样本测试图片集;
根据所述正样本测试图片集和负样本测试图片集,训练得到细粒度二分类器。
优选地,所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片,具体包括以下子步骤:
将设定的置信度阈值与获得的每一张待清洗图片的类别预测的置信度比较;
当预测的置信度小于所述设定的置信度阈值的图片数量大于预设的第一图片数量阈值,则将该部分图片认定为需要进行人工清洗的图片。
优选地,在细粒度二分类器的模型优化过程中,所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片步骤之后还包括:
基于设定的规则,从各预测置信度分布区间中挑选出需要进行人工清洗的图片。
优选地,所述基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度,具体包括以下子步骤:
对于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片,针对每一张待清洗的图片,当其类别预测的置信度与人工清洗反馈结果冲突,则判定分类错误,反之,则判定分类正确;
对于从各预测置信度分布区间中挑选出需要进行人工清洗的图片,针对每一张待清洗的图片,当其类别预测的置信度与人工清洗反馈结果冲突,则判定分类错误,反之,则判定分类正确;
基于上述的分类判断结果,计算出细粒度二分类器的模型准确度。
优选地,所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片步骤之后还包括:
当待清洗的图片中,预测的置信度大于所述设定的置信度阈值的图片数量小于预设的第二图片数量阈值,则将所述设定的置信度阈值调低,然后再提供高于该调节后的置信度阈值的图片数据,进行人工清洗。
优选地,所述细粒度二分类器的模型优化,具体包括以下子步骤:
获取易错样本,所述易错样本中包括易错正样本和易错负样本;
当细粒度二分类器的模型准确度小于设定准确度阈值,且模型的优化次数小于模型优化次数阈值时,将获得的易错正样本、易错负样本,以及其他正样本、负样本一起作为训练集来重新细粒度二分类器,使细粒度二分类器得到优化,与此同时,细粒度二分类器的模型优化次数加一。
优选地,记待人工清洗图片的类别预测的置信度为Confidencepredict,人工清洗的反馈结果为Confidencegroundtruth,所述易错样本的计算公式为:
|Confidencegroundtruth-Confidencepredict|>threshold
其中,Confidencepredict的取值范围为(0,1),Confidencegroundtruth取0或1,threshold为预设的阈值。
第二方面,本发明提供了一种优化自动化图片数据清洗质量的装置,包括:
第一筛选模块,用于获取待清洗图片集,并将其输入至预设的粗粒度二分类器中,筛选出符合要求的第一类图片集;
第一计算模块,用于将所述第一类图片集输入至预设的细粒度二分类器,获得每一张待清洗图片的类别预测的置信度;
第二筛选模块,用于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片;
第二计算模块,用于基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度;
优化模块,用于将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件,基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化。
第三方面,本发明提供了一种优化自动化图片数据清洗质量的***,包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行第一方面中所述的步骤。
与现有技术相比,本发明的有益效果:
本发明的优化自动化图片数据清洗质量的方法、装置及***,可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量,在某些情况下甚至能在模型迭代完成后完全替代人工清洗。
附图说明
图1为本发明一种实施例的优化自动化图片数据清洗质量的方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明的保护范围。
下面结合附图对本发明的应用原理作详细的描述。
为了实现让神经网络基于标记的输入和输出数据进行学习,从而不断优化自身的模型参数,让自己不断“聪明起来”,必须提供海量的带有准确标签的图片数据训练才能得到很好的识别准确率。理论上来说,供学习的数据越多模型的准确率越高。但这种最优状况,是建立在供学习的数据都没错的情况下,假如其中混杂了错误数据,那么学习得出的准确率显然会受到影响。因此海量图片数据的清洗成为制约神经网络技术发展的瓶颈性问题。目前业界主要使用的图片数据清洗方式还是基于人工清洗的传统方式,而人工筛选不仅仅工作量大,而且获取的数据由于人工的主观性导致数据的相似度由用户自行判断并分类,导致神经网络模型可能错误的数据而影响神经网络模型的性能。为此,本发明提供了一种优化自动化图片数据清洗质量的方法、装置及***,可以在原有数据清洗方法的基础上经过少量的细粒度二分类器模型迭代获得非常高的图像清洗质量,在某些情况下甚至能在模型迭代完成后完全替代人工清洗。
实施例1
如图1所示,本发明实施例提供了一种优化自动化图片数据清洗质量的方法,包括以下步骤:
(1)获取待清洗图片集,并将其输入至预设的粗粒度二分类器中,筛选出符合要求的第一类图片集;
(2)将所述第一类图片集输入至预设的细粒度二分类器,获得每一张待清洗图片的类别预测的置信度;所述步骤(1)和(2)与对应于图1中的自动清洗阶段;
(3)基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片;所述步骤(3)对应于图1中的人工清洗阶段;
(4)基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度;
(5)将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件,基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化;所述步骤(5)对应于图1中的模型优化阶段;
(6)重复上述过程,直至获得满足要求的细粒度二分类器,完成所有图片的清洗。
本发明实施例的一种具体实施方式中,所述步骤(1)具体为:
利用网络爬虫,获取初始测试图片集,根据一预设的粗粒度二分类器,对所述初始测试图片集进行训练,获取所述测试图片集。为获取训练神经网络模型所需的大量图像样本数据,最便捷的方式是通过网络爬虫获取的方法,网络爬虫能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来,但是网络爬虫获取的图片信息是海量的,而且很多图片信息是不需要的。假设通过网络爬虫获取类别为A类的相关图片数据,爬取结果往往会得到大非A类的图片数据,因此通过粗粒度二分类器,对爬虫网络获取的海量图片数据进行初始分类,剔除非A类的图片数据,得到A类的图片数据。比如,通过网络爬虫获取西红柿炒鸡蛋的相关菜品图片,往往会爬取到不是西红柿炒鸡蛋的菜品图片,通过粗粒度二分类器,获取到西红柿炒鸡蛋的菜品图片。根据该技术方案,通过粗粒度二分类器,对海量的图片数据做初始分类,为后续细粒度分类器的训练提供准确地样本图片数据。
本发明实施例的一种具体实施方式中,所述步骤(2)中的预设的细粒度二分类器的训练过程为:
提供一测试图片集,根据聚类分析算法对所述测试图片集进行聚类,获取正样本测试图片集和负样本测试图片集;优选地,所述聚类分析算法为K-means算法,具体聚类过程为:S201、将所述图片数据集分为k类,并从所述测试图片集中选取k张典型图片作为每一类的初始聚类中心;S202、计算所述测试图片集中的每一张图片与每一类的初始聚类中心的距离,并根据最小距离形成初始的聚类中心值,完成一次迭代;S203、重复执行步骤S202迭代过程,直至计算出的聚类中心值等于原中心值,得到每一类的聚类中心;S204、计算每张图片与每一类的聚类中心的距离,将距离最近的图片构成正样本测试图片集,将距离最远的图片构成负样本集,其中,所述正样本测试图片集数量和负样本测试图片集数量一致;
根据所述正样本测试图片集和负样本测试图片集,训练得到细粒度二分类器。
所述将所述第一类图片集(A类图片)输入至预设的细粒度二分类器,获得每一张待清洗图片的类别预测的置信度,比如获得A类图片中的Class1预测的置信度,并送入数据管理***;
本发明实施例的一种具体实施方式中,所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片,具体包括以下子步骤:
将设定的置信度阈值与获得的每一张待清洗图片的类别预测的置信度比较;所述的设定的置信度阈值需要根据实际情况去设定,比如可以设置为0.99;
当预测的置信度小于所述设定的置信度阈值的图片数量大于预设的第一图片数量阈值,则将该部分图片认定为需要进行人工清洗的图片;当预测的置信度小于所述设定的置信度阈值的图片数量小于预设的第一图片数量阈值,则将该部分图片认定为不需要进行人工清洗的图片;所述的预设的图片数量阈值也需要根据实际情况去设定,比如可以设置为150张;
在细粒度二分类器的模型优化过程中,所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片步骤之后还包括:
基于设定的规则,从各预测置信度分布区间中挑选出需要进行人工清洗的图片,需要注意的是,该步骤只在细粒度二分类器的模型优化过程中才会执行;比如可以按照表1中的设定规则进行图片挑选:
表一
预测置信度分布 随机挑选数量
0-20% 5
20%-40% 10
40%-60% 15
60%-80% 10
80%-100% 5
在本发明实施例的其他实施方式中,所述从各预测置信度分布区间中挑选出需要进行人工清洗的图片,还可以不按照表一的规则进行挑选,具体根据实际需要去确定具体的挑选规则。
优选地,所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片步骤之后还包括:
当待清洗的图片中,预测的置信度大于所述设定的置信度阈值的图片数量小于预设的第二图片数量阈值(如本次一共爬取的图片总量的10%)),则将所述设定的置信度阈值thresholdclean调低,然后再提供高于该调节后的置信度阈值的图片数据,进行人工清洗。
本发明实施例的一种具体实施方式中,所述步骤(4)基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度,具体包括以下子步骤:
(401)对于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片,针对每一张待清洗的图片,当其类别预测的置信度与人工清洗反馈结果冲突,则判定分类错误,反之,则判定分类正确;
(402)对于从各预测置信度分布区间中挑选出需要进行人工清洗的图片,针对每一张待清洗的图片,当其类别预测的置信度与人工清洗反馈结果冲突,即细粒度二分类器得到的图片预测置信度与实际不符,则判定分类错误,反之,则判定分类正确;
(403)基于上述的分类判断结果,计算出细粒度二分类器的模型准确度。
本发明实施例的一种具体实施方式中,所述步骤(5)中的细粒度二分类器的模型优化,具体包括以下子步骤:
获取易错样本,所述易错样本中包括易错正样本和易错负样本;所述的易错正样本指的是预测置信度小于设定的置信度阈值的图片但实际属于该类;所述的易错负样本指的是预测置信度大于设定的置信度阈值的图片但实际不属于该类;
当细粒度二分类器的模型准确度小于设定准确度阈值,且模型的优化次数小于模型优化次数阈值时,将获得的易错正样本、易错负样本,以及其他正样本、负样本一起作为训练集来重新细粒度二分类器,使细粒度二分类器得到优化,与此同时,细粒度二分类器的模型优化次数加一。
优选地,记待人工清洗图片的类别预测的置信度为Confidencepredict,人工清洗的反馈结果为Confidencegroundtruth,所述易错样本的计算公式为:
|Confidencegroundtruth-Confidencepredict|>threshold
其中,Confidencepredict的取值范围为(0,1),Confidencegroundtruth取0或1,threshold为预设的阈值。
实施例2
基于与实施例1相同的发明构思,本发明实施例中提供了一种优化自动化图片数据清洗质量的装置,包括:
第一筛选模块,用于获取待清洗图片集,并将其输入至预设的粗粒度二分类器中,筛选出符合要求的第一类图片集;
第一计算模块,用于将所述第一类图片集输入至预设的细粒度二分类器,获得每一张待清洗图片的类别预测的置信度;
第二筛选模块,用于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片;
第二计算模块,用于基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度;
优化模块,用于将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件,基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化。
其余部分均与实施例1相同。
实施例3
基于与实施例1相同的发明构思,本发明实施例中提供了一种优化自动化图片数据清洗质量的***,包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行实施例1中所述的步骤。
下面以三种菜品(凤尾虾、爆炒鱿鱼、洋葱肉片)图片清洗为例。
爬虫数据集的准确率如下:
菜品 总数量 正样本数量 负样本数量 准确率
爆炒鱿鱼 1610 1080 530 67.1%
凤尾虾 1716 936 780 54.5%
洋葱肉片 1568 697 871 44.5%
现有技术中的自动清洗后数据集准确率如下:
通过本发明的方法处理后,数据集的准确率如下:
基于表1-3可以看出,通过本发明的方法处理后,数据集的预测准确率相对于没有优化之前有了进一步的提升。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种优化自动化图片数据清洗质量的方法,其特征在于,包括以下步骤:
获取待清洗图片集,并将其输入至预设的粗粒度二分类器中,筛选出符合要求的第一类图片集;
将所述第一类图片集输入至预设的细粒度二分类器,获得每一张待清洗图片的类别预测的置信度;
基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片;
基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度;
将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件,基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化;
重复上述过程,直至获得满足要求的细粒度二分类器,完成所有图片的清洗。
2.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法,其特征在于:所述预设的细粒度二分类器的训练过程为:
提供一测试图片集,根据聚类分析算法对所述测试图片集进行聚类,获取正样本测试图片集和负样本测试图片集;
根据所述正样本测试图片集和负样本测试图片集,训练得到细粒度二分类器。
3.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法,其特征在于:所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片,具体包括以下子步骤:
将设定的置信度阈值与获得的每一张待清洗图片的类别预测的置信度比较;
当预测的置信度小于所述设定的置信度阈值的图片数量大于预设的第一图片数量阈值,则将该部分图片认定为需要进行人工清洗的图片。
4.根据权利要求3所述的一种优化自动化图片数据清洗质量的方法,其特征在于:在细粒度二分类器的模型优化过程中,所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片步骤之后还包括:
基于设定的规则,从各预测置信度分布区间中挑选出需要进行人工清洗的图片。
5.根据权利要求4所述的一种优化自动化图片数据清洗质量的方法,其特征在于:所述基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度,具体包括以下子步骤:
对于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片,针对每一张待清洗的图片,当其类别预测的置信度与人工清洗反馈结果冲突,则判定分类错误,反之,则判定分类正确;
对于从各预测置信度分布区间中挑选出需要进行人工清洗的图片,针对每一张待清洗的图片,当其类别预测的置信度与人工清洗反馈结果冲突,则判定分类错误,反之,则判定分类正确;
基于上述的分类判断结果,计算出细粒度二分类器的模型准确度。
6.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法,其特征在于:所述基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片步骤之后还包括:
当待清洗的图片中,预测的置信度大于所述设定的置信度阈值的图片数量小于预设的第二图片数量阈值,则将所述设定的置信度阈值调低,然后再提供高于该调节后的置信度阈值的图片数据,进行人工清洗。
7.根据权利要求1所述的一种优化自动化图片数据清洗质量的方法,其特征在于:所述细粒度二分类器的模型优化,具体包括以下子步骤:
获取易错样本,所述易错样本中包括易错正样本和易错负样本;
当细粒度二分类器的模型准确度小于设定准确度阈值,且模型的优化次数小于模型优化次数阈值时,将获得的易错正样本、易错负样本,以及其他正样本、负样本一起作为训练集来重新细粒度二分类器,使细粒度二分类器得到优化,与此同时,细粒度二分类器的模型优化次数加一。
8.根据权利要求7所述的一种优化自动化图片数据清洗质量的方法,其特征在于:
记待人工清洗图片的类别预测的置信度为Confidencepredict,人工清洗的反馈结果为Confidencegroundtruth,所述易错样本的计算公式为:
|Confidencegroundtruth-Confidencepredict|>threshold
其中,Confidencepredict的取值范围为(0,1),Confidencegroundtruth取0或1,threshold为预设的阈值。
9.一种优化自动化图片数据清洗质量的装置,其特征在于,包括:
第一筛选模块,用于获取待清洗图片集,并将其输入至预设的粗粒度二分类器中,筛选出符合要求的第一类图片集;
第一计算模块,用于将所述第一类图片集输入至预设的细粒度二分类器,获得每一张待清洗图片的类别预测的置信度;
第二筛选模块,用于基于设定的置信度阈值以及与所述置信度阈值相对应的第一图片数量阈值,筛选出需要进行人工清洗的图片;
第二计算模块,用于基于所有待人工清洗图片的类别预测的置信度与人工清洗的反馈结果,获得细粒度二分类器的模型准确度;
优化模块,用于将细粒度二分类器的模型准确度和模型优化次数阈值作为优化条件,基于所有待人工清洗图片的类别预测的置信度、人工清洗的反馈结果以及样本图片进行细粒度二分类器的模型优化。
10.一种优化自动化图片数据清洗质量的***,其特征在于:包括:
处理器,适于实现各指令;以及
存储设备,适于存储多条指令,所述指令适于由处理器加载并执行权利要求1~8中任一项所述的步骤。
CN201910267802.1A 2019-04-03 2019-04-03 一种优化自动化图片数据清洗质量的方法、装置和*** Active CN110083728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910267802.1A CN110083728B (zh) 2019-04-03 2019-04-03 一种优化自动化图片数据清洗质量的方法、装置和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910267802.1A CN110083728B (zh) 2019-04-03 2019-04-03 一种优化自动化图片数据清洗质量的方法、装置和***

Publications (2)

Publication Number Publication Date
CN110083728A true CN110083728A (zh) 2019-08-02
CN110083728B CN110083728B (zh) 2021-08-20

Family

ID=67414238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910267802.1A Active CN110083728B (zh) 2019-04-03 2019-04-03 一种优化自动化图片数据清洗质量的方法、装置和***

Country Status (1)

Country Link
CN (1) CN110083728B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667003A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 数据清洗方法、装置、设备以及存储介质
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备
CN112529851A (zh) * 2020-11-27 2021-03-19 中冶赛迪重庆信息技术有限公司 一种液压管状态确定方法、***、终端及介质
CN112633320A (zh) * 2020-11-26 2021-04-09 西安电子科技大学 基于相像系数和dbscan的雷达辐射源数据清洗方法
CN113344098A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 一种模型训练方法及装置
CN114495291A (zh) * 2022-04-01 2022-05-13 杭州魔点科技有限公司 活体检测的方法、***、电子装置和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130128981A1 (en) * 2010-07-15 2013-05-23 Fujitsu Limited Moving image decoding apparatus, moving image decoding method and moving image encoding apparatus, and moving image encoding method
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
CN108664497A (zh) * 2017-03-30 2018-10-16 大有秦鼎(北京)科技有限公司 数据匹配的方法和装置
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN108874900A (zh) * 2018-05-24 2018-11-23 四川斐讯信息技术有限公司 一种样本图片数据集合的获取方法和***
CN109165665A (zh) * 2018-07-06 2019-01-08 上海康斐信息技术有限公司 一种类别分析方法及***
CN109241397A (zh) * 2018-07-06 2019-01-18 四川斐讯信息技术有限公司 一种清洗数据的方法和装置
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130128981A1 (en) * 2010-07-15 2013-05-23 Fujitsu Limited Moving image decoding apparatus, moving image decoding method and moving image encoding apparatus, and moving image encoding method
CN108664497A (zh) * 2017-03-30 2018-10-16 大有秦鼎(北京)科技有限公司 数据匹配的方法和装置
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
CN108874900A (zh) * 2018-05-24 2018-11-23 四川斐讯信息技术有限公司 一种样本图片数据集合的获取方法和***
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109165665A (zh) * 2018-07-06 2019-01-08 上海康斐信息技术有限公司 一种类别分析方法及***
CN109241397A (zh) * 2018-07-06 2019-01-18 四川斐讯信息技术有限公司 一种清洗数据的方法和装置
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈锐: "基于神经网络的图像分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667003A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 数据清洗方法、装置、设备以及存储介质
CN111667003B (zh) * 2020-06-05 2023-11-03 北京百度网讯科技有限公司 数据清洗方法、装置、设备以及存储介质
CN112633320A (zh) * 2020-11-26 2021-04-09 西安电子科技大学 基于相像系数和dbscan的雷达辐射源数据清洗方法
CN112529851A (zh) * 2020-11-27 2021-03-19 中冶赛迪重庆信息技术有限公司 一种液压管状态确定方法、***、终端及介质
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备
CN113344098A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 一种模型训练方法及装置
CN114495291A (zh) * 2022-04-01 2022-05-13 杭州魔点科技有限公司 活体检测的方法、***、电子装置和存储介质

Also Published As

Publication number Publication date
CN110083728B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN110083728A (zh) 一种优化自动化图片数据清洗质量的方法、装置和***
Chen et al. A light-weighted CNN model for wafer structural defect detection
CN108090508A (zh) 一种分类训练方法、装置及存储介质
CN109948647A (zh) 一种基于深度残差网络的心电图分类方法及***
CN109271374A (zh) 一种基于机器学习的数据库健康度打分方法和打分***
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN106446931A (zh) 基于支持向量数据描述的特征提取及分类方法及其***
CN110610193A (zh) 标注数据的处理方法及装置
CN110232404A (zh) 一种基于机器学习的工业产品表面瑕疵识别方法及装置
CN116521908B (zh) 一种基于人工智能的多媒体内容个性化推荐方法
CN109543693A (zh) 基于正则化标签传播的弱标注数据降噪方法
CN106203103A (zh) 文件的病毒检测方法及装置
CN115587543A (zh) 基于联邦学习和lstm的刀具剩余寿命预测方法及***
Lin et al. Parameter determination and feature selection for back-propagation network by particle swarm optimization
CN111652257A (zh) 一种样本数据清洗方法及***
CN110262887A (zh) 基于特征识别的cpu-fpga任务调度方法及装置
CN112307860A (zh) 图像识别模型训练方法和装置、图像识别方法和装置
CN110458189A (zh) 压缩感知和深度卷积神经网络电能质量扰动分类方法
Xu et al. Comparison of shape features for the classification of wear particles
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
Ha et al. Selective deep convolutional neural network for low cost distorted image classification
Lallich et al. Improving classification by removing or relabeling mislabeled instances
US11035666B2 (en) Inspection-guided critical site selection for critical dimension measurement
CN110019563A (zh) 一种基于多维数据的肖像建模方法和装置
CN109992667A (zh) 一种文本分类方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: 201615 room 1001, building 21, No. 1158, Zhongxin Road, Jiuting Town, Songjiang District, Shanghai

Applicant after: Shanghai re SR Information Technology Co.,Ltd.

Address before: The new town of Pudong New Area Nanhui lake west two road 201306 Shanghai City No. 888 building C

Applicant before: Shanghai Lianyin Electronic Technology Partnership (L.P.)

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant