CN111652258B - 一种图像分类数据标注质量评估方法 - Google Patents
一种图像分类数据标注质量评估方法 Download PDFInfo
- Publication number
- CN111652258B CN111652258B CN201910239565.8A CN201910239565A CN111652258B CN 111652258 B CN111652258 B CN 111652258B CN 201910239565 A CN201910239565 A CN 201910239565A CN 111652258 B CN111652258 B CN 111652258B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- vector
- images
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 33
- 238000001303 quality assessment method Methods 0.000 title description 6
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 19
- 239000003086 colorant Substances 0.000 claims abstract description 7
- 238000013441 quality evaluation Methods 0.000 claims abstract description 7
- 238000005259 measurement Methods 0.000 claims abstract description 3
- 239000006185 dispersion Substances 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 13
- 235000015277 pork Nutrition 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像识别领域,提出了一种图像分类数据标注质量评估方法,包括:提供图像数据集,所述图像数据集包括图像及对每幅图像进行人工标注后得到的分类数据;图像特征提取,基于图像HSV通道提取每一幅图像中描述图像颜色的多个特征向量,以及基于图像的局部特征提取每一幅图像中用于描述图像外观的多个特征向量;特征离散程度度量,利用统计量分析,对所述颜色和/或外观特征向量的离散程度进行建模;自动化评分,基于建模得到的离散程度模型对所述图像进行打分排序,并以排序结果对所述分类数据进行评估。通过本发明可以实现自动化的数据标注质量评估,提供量化依据用以辅助人工评估从而降低时间成本。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图像分类数据标注质量的评估方法。
背景技术
图像分类数据标注质量的评估可定义为对人为标注后的数据存在的语义误差进行估计的问题。在一个图像分类应用需求的实现过程中,对于训练数据集的标注是一个非常重要的环节,一般需要在大量的人工帮助下进行完成。然而,人工标注后的数据由于人为误差的存在以及原始数据源本身的问题等,不可避免的会导致数据标注的质量问题,进而对后续基于标注数据而进行的模型训练造成影响。因此对于图像分类数据的标注质量评估,进而针对性的对于标注质量比较差的数据进行处理是非常有必要的。
但由于数据量的巨大,以人工完成标注质量评估的方式的时间成本过高,因此研发对图像分类数据标注质量进行自动化评估的***,用以辅助人工审核节省时间成本是非常有意义的。
另一方面,现有技术更关注图像本身的质量。比如在中国专利申请:CN201710044621中,揭露了一种图像质量的评估方法,旨在解决更接近人眼视觉评估效果的图像质量评估问题。
通常图像数据质量的评估,相关的评估标准包括:
(1)准确性:对对象属性的描述是否正确。
(2)合规性:存储格式是否标准。
(3)一致性:数据值是否冲突。
(4)重复性:数据的记录是否重复。
(5)及时性:关键数据是否及时传送到目标应用。
(6)完备性:检验数据是否根本就不存在。
从数据质量评估的标准以及数据标注质量评估的定义,可以了解到数据质量评估可以作为数据标注质量评估的一个前提,其更多的是从数据本身的角度来考虑的,而数据标注质量的评估则更多的是需要从数据的语义角度来考虑。
因此,寻找一种有效的图像分类数据标注质量的评估方法成为图像识别领域普遍关注的问题。
发明内容
有鉴于此,本发明的目的在于提供一种图像分类数据标注质量的评估方法,用以解决现有技术中,在对标注人员的标注数据进行审核时,采用人工作业来完成审核,导致审核的人力成本较高,并且审核的效率和准确率较低的问题。
根据本发明的目的提出的一种图像分类数据标注质量评估方法,包括:
提供一图像数据集,所述图像数据集包括图像及对每幅图像进行人工标注后得到的分类数据;
图像特征提取,基于图像HSV通道提取每一幅图像中描述图像颜色的多个特征向量,以及基于图像的局部特征提取每一幅图像中用于描述图像外观的多个特征向量;
特征离散程度度量,利用统计量分析,对所述颜色和/或外观特征向量的离散程度进行建模;
自动化评分,基于建模得到的离散程度模型对所述图像进行打分排序,并以排序结果对所述分类数据进行评估。
优选的,所述颜色特征向量的提取,包括:
将所述图像从RGB通道格式转换到HSV通道格式;
分别统计H、S两个通道的直方图;
将两个直方图拼接起来构成所述对图像颜色特征进行描述的多个特征向量。
优选的,所述外观特征的提取,包括:
对所述图像进行局部特征检测与描述;
基于视觉词袋模型将图像中检测到的局部特征一一映射到对应向量,进而构成所述对图像外观特征描述的多个特征向量。
优选的,每个所述颜色和/或外观的特征向量为多维向量,所述特征离散度度量包括:
对所述颜色和/或外观的特征向量归一化处理;
基于归一化后的向量,计算所述颜色和/或外观特征向量的平均值向量;
计算每一个所述颜色和/或外观的特征向量和其平均值向量之间的夹角;
以所述夹角的统计量表示所述特征离散程度度量。
优选的,所述归一化处理为:
其中N表示特征向量X的维数,xi表示特征向量X中的第i维分量。
优选的,所述计算平均值向量为:
其中C表示特征集中特征向量的数量,表示第C个特征向量的第i维分量。
优选的,所述特征向量和平均值向量之间的夹角为:
其中βC为夹角,XC为第C个特征向量,为平均向量。
优选的,所述特征离散程度度量为:
其中d为特征离散度。
优选的,所述自动化评分包括:
将每一个类别下的所述图像数据集中图像颜色特征和外观特征的离散度进行融合,形成成整个图像数据集的离散度集合;
对所述离散度集合进行标准化处理;
对标准化后的离散度集合进行排序,即得到每一个类别在总分类中的排序。
优选的,进一步包括按照所述排序,对所述分类数据进行审核。
本发明的图像分类数据标注质量的评估方法,通过对标注数据的颜色特征以及外观特征的离散程度进行建模,利用这一对数据的标注质量进行量化打分,进而达到自动化的数据标注质量评估,提供量化依据用以辅助人工评估降低时间成本的效果。
附图说明
图1是本发明的图像分类数据标注质量的评估方法流程图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述,但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
请参见图1,图1是本发明的图像分类数据标注质量的评估方法流程图,如图所示,该方法包括:
S1、提供一图像数据集,所述图像数据集包括图像及对每幅图像进行人工标注后得到的分类数据;
S2、图像特征提取,基于图像HSV通道提取每一幅图像中描述图像颜色的多个特征向量,以及基于图像的局部特征提取每一幅图像中用于描述图像外观的多个特征向量;
S3、特征离散程度度量,利用统计量分析,对所述颜色和/或外观特征向量的离散程度进行建模;
S4、自动化评分,基于建模得到的离散程度模型对所述图像进行打分排序,并以排序结果对所述分类数据进行评估。
下面,将对各个步骤做详细展开。
1、图像特征提取
在实际的应用过程中,我们发现一般图像的颜色以及外观特征对分类性能的影响比较大。因此,在本方案中我们经验性的选择提取图像的颜色以及外观特征。对于颜色特征的提取,首先将RGB图像转换到HSV图像,而后分别统计HS两个通道的直方图,最后将两个直方图拼接起来构成多个对图像颜色特征进行描述的向量。对于外观特征的提取,首先对图像进行局部特征检测与描述,而后基于BoVW(bag of visual words,视觉词袋)模型将图像中检测到的局部特征一一映射到对应向量,进而构成对图像外观特征描述的多个特征向量。
2、特征离散程度度量
对于一个维的数据集来说,标准差一般可以被用来表示数据的离散程度。其计算的过程为:1)求数据的均值;2)求数据与均值之间的差值;3)计算方差及标准差。然而,由于我们提取到的对图像颜色以及外观进行描述的特征一般都是多维的,因而没有方差这样的定义,取而代之的是协方差的定义。这里,我们假设特征的各个维度之间是没有关系的,因此多维数据的协方差矩阵只有对角线的取值不为零,进而可以通过对特征的每个维度进行分别处理。于是,类似于一维数据的标准差计算,我们采用如下步骤对提取到的多维图像特征的离散程度进行度量。
首先,为了使得运算更为便捷,对N维特征向量X={x1,x2,……xN}进行归一化处理:
其中xi表示向量X中的第i维分量。而后,基于归一化后的向量,计算向量集的平均向量可以分别对于每一维计算平均值
其中C表示特征集中特征向量的数量,表示第C个特征向量的第i维分量。
不同于一维数据计算数据与均值之间的差值的方式,这里选择利用向量的内积的定义,也就是特征向量X与平均向量间的夹角来度量它们之间的差值。设第C个特征向量XC与平均向量/>间的夹角为βC,向量间的内积的定义可以表示为
于是计算向量间夹角的表达式为:
最后,基于βC建立如下特征离散程度度量
3、自动化评分
这里假设人工标注好的图像分类数据的类别数目为P,对于每一个类别p下的标注图像,首先分别按公式(5)计算其颜色特征以及外观特征的离散程度dcolor和dappearence。由于不同特征的离散程度度量之间并不存在量纲的差异,因此这里可以简单的将两种特征的离散程度做如下融合
最后构成该类别p下的标注图像的离散程度。
通过公式(6)分别对P个类别计算了离散程度之后,对得到的离散程度集合D进行标准化处理
其中max(D)和min(D)分别表示集合D中最大和最小元素的值。标准化后的值dp越大表明类别p下的图像的离散程度越小。最后对标准化后的集合D进行排序
Score=sort(D) (8)
进而可以得到对P个类别的标注图像的自动评分。
下面将通过一个具体实施方式来说明本发明的技术方案。
下面基于一个88分类菜品图像标注数据集的自动化评分为例,做详细的说明:
1)特征提取。分别对88个类别下的图像做颜色以及外观特征提取。假设颜色特征有C1个,每一个有N1维,外观特征有C2个,每一个有N2维。则此时,类别P=96,颜色特征向量Xi c(i=1,2,……N1)(c=1,2,……C1),外观特征向量Yi c(i=1,2,……N2)(c=1,2,……C2)
2)特征离散程度度量。分别对88个类别下的每一个类别的图像提取到了两种特征,采用公式(5)计算特征的离散程度。
3)基于两种特征的离散程度,采用公式(6-8)对88个标注类别进行排序打分。
在88个菜品类别的数据上进行测试表明,方法的排序结果符合基本的语义逻辑,能够将数据分布比较内聚的类别排在前面,而包含易混淆数据的类别则排在后面。如下表格所示,表1为排序靠前的菜品类别,表2为排序靠后的菜品类别。
表1.排序靠前的菜品类别
表2.排名靠后的菜品类别
对比二者可以看出,排序靠前的菜品,其对应的图像数据,颜色和局部特征的内容分布比较内聚,数据质量较好,对应的就是标注起来比较容易,且标注的准确度较高,以红烧肉为例,红烧肉呈块状分布,局部特征比较明显,而红烧肉的颜色主要分布再深红至黑区域,数据比较聚敛,因而红烧肉的标注质量往往比较高。而排序靠后的图像数据的内容分布则比较分散,颜色和局部特征不明显,标记起来困难,数据质量较差。这些较差的图像数据,在人工标注时,容易引起混肴,需要着重评估人工标准下的分类数据是否准确。
综上所述,本发明的意义在于,如果类别数据得分比较高则可以考虑不需要对数据进行审核,而如果分值比较低那就意味着这个数据需要重点审核,这在一定程度上可以辅助降低人工进行数据审核的工作量。同时,该方法也可以用来对训练数据集进行选择,过滤掉部分可能增加分类难度的数据。此外,当数据量越大的时候,方案的贡献则可能越大。
尽管为示例目的,已经公开了本发明的优选实施方式,但是本领域的普通技术人员将意识到,在不脱离由所附的权利要求书公开的本发明的范围和精神的情况下,各种改进、增加以及取代是可能的。
Claims (7)
1.一种图像分类数据标注质量评估方法,其特征在于,包括:
提供一图像数据集,所述图像数据集包括图像及对每幅图像进行人工标注后得到的分类数据;
图像特征提取,基于图像HSV通道提取每一幅图像中描述图像颜色的多个特征向量,以及基于图像的局部特征提取每一幅图像中用于描述图像外观的多个特征向量;
特征离散程度度量,利用统计量分析,对所述颜色或外观特征向量的离散程度进行建模;
自动化评分,基于建模得到的离散程度模型对所述图像进行打分排序,并以排序结果对所述分类数据进行评估,
所述颜色特征向量的提取,包括:
将所述图像从RGB通道格式转换到HSV通道格式;
分别统计H、S两个通道的直方图;
将两个直方图拼接起来构成所述对图像颜色特征进行描述的多个特征向量,
每个所述颜色或外观的特征向量为多维向量,所述特征离散程度度量包括:
对所述颜色或外观的特征向量归一化处理;
基于归一化后的向量,计算所述颜色和/或外观特征向量的平均值向量;
计算每一个所述颜色或外观的特征向量和其平均值向量之间的夹角;
以所述夹角的统计量表示所述特征离散程度度量,
将每一个类别下的所述图像数据集中图像颜色特征和外观特征的离散度进行融合,形成整个图像数据集的离散度集合;
对所述离散度集合进行标准化处理;
对标准化后的离散度集合进行排序,得到每一个类别在总分类中的排序。
2.如权利要求1所述的图像分类数据标注质量评估方法,其特征在于,所述外观特征的提取,包括:
对所述图像进行局部特征检测与描述;
基于视觉词袋模型将图像中检测到的局部特征一一映射到对应向量,进而构成所述对图像外观特征描述的多个特征向量。
3.如权利要求1所述的图像分类数据标注质量评估方法,其特征在于,所述归一化处理为:
其中N表示特征向量X的维数,xi表示特征向量X中的第i维分量。
4.如权利要求3所述的图像分类数据标注质量评估方法,其特征在于,所述计算平均值向量为:
其中C表示特征集中特征向量的数量,xi c表示第C个特征向量的第i维分量。
5.如权利要求4所述的图像分类数据标注质量评估方法,其特征在于,所述特征向量和平均值向量之间的夹角为:
其中βC为夹角,XC为第C个特征向量,为平均向量。
6.如权利要求5所述的图像分类数据标注质量评估方法,其特征在于,所述特征离散程度度量为:
其中d为特征离散度。
7.如权利要求1所述的图像分类数据标注质量评估方法,其特征在于,进一步包括:按照所述排序,对所述分类数据进行审核。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910239565.8A CN111652258B (zh) | 2019-03-27 | 2019-03-27 | 一种图像分类数据标注质量评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910239565.8A CN111652258B (zh) | 2019-03-27 | 2019-03-27 | 一种图像分类数据标注质量评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652258A CN111652258A (zh) | 2020-09-11 |
CN111652258B true CN111652258B (zh) | 2024-02-13 |
Family
ID=72349154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910239565.8A Active CN111652258B (zh) | 2019-03-27 | 2019-03-27 | 一种图像分类数据标注质量评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652258B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510989B (zh) * | 2021-12-23 | 2022-10-25 | 中国科学院软件研究所 | 图像数据集的规范性评估方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005142900A (ja) * | 2003-11-07 | 2005-06-02 | Nippon Hoso Kyokai <Nhk> | 映像品質測定装置及び映像品質測定プログラム |
CN105701502A (zh) * | 2016-01-06 | 2016-06-22 | 福州大学 | 一种基于蒙特卡罗数据均衡的图像自动标注方法 |
CN108960087A (zh) * | 2018-06-20 | 2018-12-07 | 中国科学院重庆绿色智能技术研究院 | 一种基于多维度评估标准的人脸图像质量评估方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447884B (zh) * | 2015-12-21 | 2017-11-24 | 宁波大学 | 一种基于流形特征相似度的图像质量客观评价方法 |
-
2019
- 2019-03-27 CN CN201910239565.8A patent/CN111652258B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005142900A (ja) * | 2003-11-07 | 2005-06-02 | Nippon Hoso Kyokai <Nhk> | 映像品質測定装置及び映像品質測定プログラム |
CN105701502A (zh) * | 2016-01-06 | 2016-06-22 | 福州大学 | 一种基于蒙特卡罗数据均衡的图像自动标注方法 |
CN108960087A (zh) * | 2018-06-20 | 2018-12-07 | 中国科学院重庆绿色智能技术研究院 | 一种基于多维度评估标准的人脸图像质量评估方法及*** |
Non-Patent Citations (2)
Title |
---|
柯逍 ; 邹嘉伟 ; 杜明智 ; 周铭柯 ; .基于蒙特卡罗数据集均衡与鲁棒性增量极限学习机的图像自动标注.电子学报.2017,(12),全文. * |
熊丽荣 ; 雷静之 ; 刘坚 ; 汤颖 ; .用户主观评估和客观质量评估相结合的云服务评价方法.小型微型计算机***.2017,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111652258A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101915769B (zh) | 一种印刷电路板中带电阻元件的自动光学检测方法 | |
TW201514472A (zh) | 整合影像分析與資料挖礦之自動光學檢測缺陷影像分類方法 | |
CN108009567B (zh) | 一种结合图像颜色及hog和svm的粪便性状的自动辨别方法 | |
US11397974B2 (en) | Method and system for assessing quality of commodities | |
CN113222913B (zh) | 一种电路板缺陷检测定位方法、装置和存储介质 | |
CN112927776A (zh) | 一种面向医学检验报告的人工智能自动解读*** | |
CN112036295A (zh) | 票据图像处理方法、装置、存储介质及电子设备 | |
CN111652258B (zh) | 一种图像分类数据标注质量评估方法 | |
WO2022111247A1 (zh) | 一种报表分析方法及装置 | |
CN113989196A (zh) | 一种基于视觉的耳机硅胶垫圈的外观缺陷检测方法 | |
CN105740879A (zh) | 基于多模态判别分析的零样本图像分类方法 | |
CN112836754A (zh) | 一种面向图像描述模型泛化能力评估方法 | |
CN111652200A (zh) | 车险案件中从图片区分多车的处理方法、装置及设备 | |
CN101344928A (zh) | 用于确定图像区域和对图像进行分类的方法和设备 | |
CN109255805B (zh) | 机器学习的工业智能数据收集***和方法 | |
CN108021595A (zh) | 检验知识库三元组的方法及装置 | |
CN115456693A (zh) | 一种大数据驱动的汽车外造型设计的自动评估方法 | |
CN115239947A (zh) | 基于无监督学习的小麦条锈病严重度评估方法及装置 | |
CN113705157A (zh) | 一种纸质作业拍照批改的方法 | |
CN113988064A (zh) | 一种半自动实体标注监督方法 | |
CN113362096A (zh) | 一种基于深度学习的框架广告图像匹配方法 | |
CN113128251A (zh) | 一种鱼脸特征检测算法 | |
CN109543696A (zh) | 一种基于神经网络的图像识别方法及其应用 | |
JP7343646B1 (ja) | 教師データの収集方法 | |
CN118053007B (zh) | 一种基于大数据的标准内容比对展示方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |